JP2022529912A - 深層フィルタを決定するための方法および装置 - Google Patents
深層フィルタを決定するための方法および装置 Download PDFInfo
- Publication number
- JP2022529912A JP2022529912A JP2021560853A JP2021560853A JP2022529912A JP 2022529912 A JP2022529912 A JP 2022529912A JP 2021560853 A JP2021560853 A JP 2021560853A JP 2021560853 A JP2021560853 A JP 2021560853A JP 2022529912 A JP2022529912 A JP 2022529912A
- Authority
- JP
- Japan
- Prior art keywords
- filter
- deep
- mixture
- frequency
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 239000000203 mixture Substances 0.000 claims abstract description 58
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims description 44
- 238000012549 training Methods 0.000 claims description 24
- 238000000926 separation method Methods 0.000 claims description 16
- 238000001914 filtration Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 15
- 238000001228 spectrum Methods 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 241001482630 Epinnula magistralis Species 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012074 hearing test Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000010257 thawing Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Filters That Use Time-Delay Elements (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
- Image Analysis (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Noise Elimination (AREA)
- Paper (AREA)
- Measurement Of Radiation (AREA)
Abstract
Description
以下、電流信号の抽出および分離の手法について説明する。
統計ベースの方法は、定常信号が与えられると十分に機能するが、高度に非定常な信号が与えられると、統計推定は困難であることが多い。
したがって、改善された手法が必要とされている。
を使用して実行されることができ、ここで、
は、時間フレーム方向のフィルタ次元であり、
は、周波数方向のフィルタ次元であり、
は、複素共役2Dフィルタである。完全を期すために、上記の式
は、「適用ステップ」において実行されるべきものを表すことに留意されたい。
、
ここで、
は、所望の表現であり、
は、推定された所望の表現であり、または
以下の式を使用して実行されることができる:
、
ここで、
は、所望の表現であり、
は、推定された所望の表現である。
、
ここで、
は、複素共役2Dフィルタである。好ましい実施形態では、境界は、DNN出力層の双曲線正接活性化関数に起因することに留意されたい。
深層フィルタが、混合物の要素に適用されたときに所望の表現のそれぞれの要素の推定値を取得するように、深層フィルタを推定するための深層ニューラルネットワークと、を備える。ここで、フィルタは、少なくとも1次元の(要素を有する)テンソルを含む。
図3は、DNN20を使用する入力STFT10の実数および虚数値をフィルタ10xにマッピングする例示的なDNNアーキテクチャを示している(図3aを参照されたい)。図3bに示す実装形態によれば、DNNアーキテクチャは、複数層を含むことができ、その結果、それらのマッピングは、3つの双方向長短期記憶層BLTSMS(または3つの長短期記憶層)LSTMS(双方とも、深層フィルタの実数値および虚数値への双曲線正接活性化を伴うフィードフォワード層を追加する、のいずれかを使用して実行される。BLSTMSは、時間方向および逆時間方向にLSTM経路を有することに留意されたい。
STFT領域において、混合物の複素単一チャネルスペクトルをX(n,k)、所望の信号をXd(n,k)、望ましくない信号をXu(n,k)と定義し、nは時間フレームであり、kは周波数インデックスである。混合物X(n,k)は、重畳
(1)
であると考える。
は、推定された所望の信号であり、
(n,k)は、推定されたTFマスクである。バイナリマスクの場合、
(n,k)は∈{0,1}であり、RMの場合、上限b∈
を有する
(n,k)∈[0,b]であり、cRMの場合、|
(n,k)|は、∈[0,b]であり、
(n,k)は∈Cである。上限bは、通常、1または1に近い。バイナリマスクは、TFビンを分類し、RMは、大きさ補正を実行し、cRMは、
X(n,k)から
まで位相補正をさらに実行する。抽出問題に対処することは、この場合、マスク推定問題に対処することに等しい。
(3)
、または再構成Xd(n,k)および
を低減するために、
(4)
または
大きさの再構成
(5)
ごとの周波数ビンの数である。
(6)
によって与えられる周知の三角形不等式が成立し、1<|M(n,k)|
を必要とする。したがって、マスク上限bを超えて大域最適値に到達することはできない。
マスク推定のために、バッチノルム層と、それに続く層あたり1200ニューロンを有する3つの双方向長短期記憶(BLSTM)層[22]と、TFビン∈[-1,1]あたり虚数出力および実数出力を表す次元(N,K,2)を有する出力Oをもたらす双曲線正接活性化を有するフィードフォワード出力層とを有するDNNを使用する。
|を有するようにモデルを設計した。本発明者らは、TFビンごとに、Xのスタックされた虚数部および実数部と、OrおよびOiとして定義される2つの出力とを有する実数値DNNを使用した。これらは、虚数および実数マスク成分として解釈されることができる。RM推定のために、
(n,k)=
を計算し、
(n,k)∈[0,√2]をもたらした。cRM Re{
(n,k)}}=Or(n,k)およびIm{
(n,k)}の場合、1と√2との間の大きさであり、ここで、Oi(n,k)に対して1が達成される。この設定は、位相依存最大cRMの純粋な実数マスク値または虚数マスク値、および|Or(n,k)|=|Oi(n,k)|=1についての√2をもたらし、RMと比較してcRMの増幅欠点をもたらす。(5)によって最適化されたRMおよび(4)によって最適化されたcRMを推定するために2つのDNNを訓練した。cRMについて、(2)におけるX(n,k)および
(n,k)の複素乗算を
によって計算した。
本発明者らは、複素フィルタ
(9)を適用することによって、
から
を取得し、ここで、2・L+1は時間フレーム方向および2・I+1は周波数方向におけるフィルタ次元であり、
は、TFビンの複素共役2Dフィルタ(n,k)である。一般性を失うことなく、本発明者らは、提示の簡単さの理由のみのために(9)において正方形フィルタを使用したことに留意されたい。フィルタ値は、明確に定義されたDNN出力
(10)を提供するために大きさが制限されたマスク値のようなものである。
出力形状を(N,K,2,2・L+1,2・I+1)に変更するセクションII-Bにおいて提案したものと同じDNNを使用した。ここで、最後の2つのエントリはフィルタ次元である。(9)における複素乗算は、(7)および(8)に示すように行った。本発明者らの実験では、L=2およびI=1を設定し、その結果、フィルタの最大値|Hn,k(l,i)|は、(5,3)の次元についての位相依存∈
である。サブセクションII-BにおけるcRMと同様に、出力層活性化を使用した。全ての|Hn,k(l,i)|は少なくとも1とすることができるため、DNNは、
(11)
の場合、理論的に(4)をその大域的最適値ゼロに最適化することができ、ここで、
∈
は、本発明者らの設定において全てのフィルタ値が到達することができる最大の大きさであり、c=1である。したがって、相殺的干渉に対処するために、cによって重み付けされたフィルタによって考慮される全ての混合物の大きさの合計は、少なくとも所望のTFビンの大きさに等しくなければならない。フィルタがエッジにおけるTFビンについてのスペクトルを超えると、時間軸上のL個のゼロおよび周波数軸上のI個のゼロによってスペクトルをゼロパディングする。
本発明者らは、(音声サンプルなしの)干渉元としてAudioSet[25]を使用し、所望の音声データコーパスとしてLIBRI[26]を使用した。全てのデータを8kHzのサンプリング周波数にダウンサンプリングし、5秒間の持続時間を有した。STFTの場合、ホップサイズを10ms、フレーム長を32msに設定し、Hann窓を使用した。したがって、本発明者らの試験では、K=129およびN=501である。
性能評価のために、信号対歪み比(SDR)、信号対アーチファクト比(SAR)、信号対干渉比(SIR)[27]、再構成MSE((4)を参照)、短時間客観的了解度(STOI)[28]、[29]、および試験データセットを使用した。
本発明者らは、信号抽出のための時間周波数マスクの概念を複素フィルタに拡張して、干渉低減を増加させ、信号歪みを減少させ、所望の信号および望ましくない信号の相殺的干渉に対処した。本発明者らは、所望の信号と推定された信号との間のMSEを最小化することによって訓練された深層ニューラルネットワークを用いてフィルタを推定することを提案し、無限の多くの可能性が与えられたネットワーク訓練のためのフィルタを一貫して定義する必要性のために重要となる訓練のためのグランドトゥルースフィルタの定義を回避する。フィルタおよびマスク方法は、それらの一般化可能性を示し、クリーンな音声を処理するときに非常に小さな誤差しか導入しないAudioSetからの未知の干渉信号を考慮して、音声抽出を実行することができた。本発明者らの手法は、性能が同等であった1つのメトリックを除く、全てにおいて複素比マスク、および全てにおいて比マスクベースライン性能を上回った。干渉低減に加えて、本発明者らは、時間フレームゼロ化またはノッチフィルタによるフィルタリングによってシミュレートされたデータ損失に対処することができるかどうかを試験し、本発明者らの提案方法のみが所望の信号を再構成することができることを示した。したがって、深層フィルタでは、パケット損失または未知の干渉が与えられた非常に不利な条件下で、信号抽出および/または再構成が実行可能であるように思われる。
[01] J. Le Roux and E. Vincente, “Consistent Wiener filtering for audio source separation,” IEEE Signal Processing Letters, pp. 217-220, March 2013.
Claims (21)
- 混合物をフィルタリングするための方法であって、
少なくとも1次元の深層フィルタ(10x)を決定するステップ(100)であって、
混合物(10)を受信すること(110)と、
深層ニューラルネットワークを使用して前記深層フィルタ(10x)を推定すること(120)であって、前記深層フィルタ(10x)が、前記混合物(10)の要素に適用されるときに所望の表現(11)のそれぞれの要素の推定値を取得するように、前記推定すること(120)が実行され、
少なくとも1次元の前記深層フィルタ(10x)が、要素(sx,y)を有するテンソルを含む、推定すること(120)と、を含む決定するステップ(100)と、
前記混合物(10)に前記深層フィルタ(10x)を適用するステップと、を含む方法。 - 前記混合物(10)が、実数値または複素値の時間-周波数提示またはその特徴表現を含み、
前記所望の表現(11)が、所望の実数値もしくは複素値の時間-周波数提示またはその特徴表現を含む、請求項1に記載の方法(100)。 - 前記深層フィルタ(10x)が、実数値または複素値の時間-周波数フィルタを含み、および/または、少なくとも1次元の前記深層フィルタ(10x)が、短時間フーリエ変換領域において記述される、請求項1または2に記載の方法(100)。
- 前記推定するステップ(120)が、前記混合物(10)の各要素について、または前記混合物(10)の前記要素の所定の部分について実行される、請求項1~3のいずれか一項に記載の方法(100)。
- 前記推定すること(120)が、少なくとも2つのソースに対して実行される、請求項1~4のいずれか一項に記載の方法(100)。
- 少なくとも1次元の前記深層フィルタ(10x)についてのそのフィルタ変数を有するフィルタ構造を定義するステップをさらに含む、請求項1~5のいずれか一項に記載の方法(100)。
- 前記深層ニューラルネットワークが、前記深層フィルタ(10x)のフィルタ関数のフィルタ値の数に等しい数の出力パラメータを含む、請求項1~6のいずれか一項に記載の方法(100)。
- 前記少なくとも1次元が、時間、周波数、およびセンサを含むグループからはずれており、または、
前記次元の前記少なくとも1つが、時間または周波数にわたる、請求項1~7のいずれか一項に記載の方法(100)。 - 前記深層ニューラルネットワークが、バッチ正規化層、双方向長短期記憶層、双曲線正接活性化を有するフィードフォワード出力層、および/または1つ以上の追加層を含む、請求項1~8のいずれか一項に記載の方法(100)。
- 前記深層ニューラルネットワークを訓練するステップをさらに含む、請求項1~9のいずれか一項に記載の方法(100)。
- 前記深層ニューラルネットワークが、前記所望の表現(11)のグラウンドトゥルースと前記所望の表現(11)の推定値との間の平均二乗誤差を最適化することによって訓練される、または
前記深層ニューラルネットワークが、前記所望の表現(11)と前記所望の表現(11)の推定値との間の再構成誤差を低減することによって訓練される、または
前記訓練が、大きさの再構成によって実行される、請求項10に記載の方法(100)。 - 前記適用するステップが、要素ごとに実行される、請求項1~14のいずれか一項に記載の方法(100)。
- 前記適用するステップが、それぞれのテンソル要素(sx,y)における前記所望の表現(11)の推定値を得るために合計することによって実行される、請求項1~15のいずれか一項に記載の方法(100)。
- 少なくとも2つのソースの信号抽出または信号分離のための、請求項1~16のいずれか一項に記載の方法(100)の使用。
- 信号再構成のための、請求項1~16のいずれか一項に記載の方法(100)の使用。
- コンピュータ上で実行されると、請求項1から18のいずれか一項に記載の方法のうちの1つを実行するためのコンピュータプログラム。
- 深層フィルタ(10x)を決定するための装置であって、
混合物(10)を受信するための入力(110)と、
前記深層フィルタ(10x)が、前記混合物(10)の要素に適用されるときに所望の表現(11)のそれぞれの要素の推定値を取得するように、前記深層フィルタ(10x)を推定する(120)ための深層ニューラルネットワークと、を備え、
少なくとも1次元の前記深層フィルタ(10x)が、要素(sx,y)を有するテンソルを含む、装置。 - 混合物をフィルタリングする装置であって、請求項20に記載の装置によって決定された深層フィルタと、前記深層フィルタを前記混合物に適用するための手段とを備える、装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2024003640A JP2024038369A (ja) | 2019-04-16 | 2024-01-13 | 深層フィルタを決定するための方法および装置 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19169585.7A EP3726529A1 (en) | 2019-04-16 | 2019-04-16 | Method and apparatus for determining a deep filter |
EP19169585.7 | 2019-04-16 | ||
PCT/EP2020/060586 WO2020212419A1 (en) | 2019-04-16 | 2020-04-15 | Method and apparatus for determining a deep filter |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024003640A Division JP2024038369A (ja) | 2019-04-16 | 2024-01-13 | 深層フィルタを決定するための方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022529912A true JP2022529912A (ja) | 2022-06-27 |
JP7486266B2 JP7486266B2 (ja) | 2024-05-17 |
Family
ID=66217806
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021560853A Active JP7486266B2 (ja) | 2019-04-16 | 2020-04-15 | 深層フィルタを決定するための方法および装置 |
JP2024003640A Withdrawn JP2024038369A (ja) | 2019-04-16 | 2024-01-13 | 深層フィルタを決定するための方法および装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024003640A Withdrawn JP2024038369A (ja) | 2019-04-16 | 2024-01-13 | 深層フィルタを決定するための方法および装置 |
Country Status (9)
Country | Link |
---|---|
US (1) | US20220059114A1 (ja) |
EP (2) | EP3726529A1 (ja) |
JP (2) | JP7486266B2 (ja) |
KR (1) | KR20210153677A (ja) |
CN (1) | CN114041185A (ja) |
BR (1) | BR112021020361A2 (ja) |
CA (1) | CA3136870A1 (ja) |
MX (1) | MX2021012603A (ja) |
WO (1) | WO2020212419A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210137146A (ko) * | 2019-03-10 | 2021-11-17 | 카르돔 테크놀로지 엘티디. | 큐의 클러스터링을 사용한 음성 증강 |
WO2021226503A1 (en) | 2020-05-08 | 2021-11-11 | Nuance Communications, Inc. | System and method for data augmentation for multi-microphone signal processing |
GB2620747B (en) * | 2022-07-19 | 2024-10-02 | Samsung Electronics Co Ltd | Method and apparatus for speech enhancement |
US20240112690A1 (en) * | 2022-09-26 | 2024-04-04 | Cerence Operating Company | Switchable Noise Reduction Profiles |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160284346A1 (en) * | 2015-03-27 | 2016-09-29 | Qualcomm Incorporated | Deep neural net based filter prediction for audio event classification and extraction |
JP2017520803A (ja) * | 2014-10-21 | 2017-07-27 | 三菱電機株式会社 | ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19948308C2 (de) * | 1999-10-06 | 2002-05-08 | Cortologic Ag | Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung |
EP2151822B8 (en) * | 2008-08-05 | 2018-10-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing an audio signal for speech enhancement using a feature extraction |
US10339921B2 (en) * | 2015-09-24 | 2019-07-02 | Google Llc | Multichannel raw-waveform neural networks |
KR102151682B1 (ko) * | 2016-03-23 | 2020-09-04 | 구글 엘엘씨 | 다중채널 음성 인식을 위한 적응성 오디오 강화 |
US11373672B2 (en) * | 2016-06-14 | 2022-06-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
US10224058B2 (en) * | 2016-09-07 | 2019-03-05 | Google Llc | Enhanced multi-channel acoustic models |
WO2019008580A1 (en) * | 2017-07-03 | 2019-01-10 | Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. | METHOD AND SYSTEM FOR IMPROVING A VOICE SIGNAL OF A HUMAN SPEAKER IN A VIDEO USING VISUAL INFORMATION |
CN108417207B (zh) * | 2018-01-19 | 2020-06-30 | 苏州思必驰信息科技有限公司 | 一种深度混合生成网络自适应方法及系统 |
CN109194595B (zh) * | 2018-09-26 | 2020-12-01 | 东南大学 | 一种基于神经网络的信道环境自适应ofdm接收方法 |
-
2019
- 2019-04-16 EP EP19169585.7A patent/EP3726529A1/en not_active Withdrawn
-
2020
- 2020-04-15 JP JP2021560853A patent/JP7486266B2/ja active Active
- 2020-04-15 WO PCT/EP2020/060586 patent/WO2020212419A1/en active Search and Examination
- 2020-04-15 EP EP20717230.5A patent/EP3956888A1/en active Pending
- 2020-04-15 MX MX2021012603A patent/MX2021012603A/es unknown
- 2020-04-15 KR KR1020217037382A patent/KR20210153677A/ko not_active Application Discontinuation
- 2020-04-15 CA CA3136870A patent/CA3136870A1/en active Pending
- 2020-04-15 CN CN202080043612.2A patent/CN114041185A/zh active Pending
- 2020-04-15 BR BR112021020361A patent/BR112021020361A2/pt unknown
-
2021
- 2021-10-13 US US17/450,818 patent/US20220059114A1/en active Pending
-
2024
- 2024-01-13 JP JP2024003640A patent/JP2024038369A/ja not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017520803A (ja) * | 2014-10-21 | 2017-07-27 | 三菱電機株式会社 | ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法 |
US20160284346A1 (en) * | 2015-03-27 | 2016-09-29 | Qualcomm Incorporated | Deep neural net based filter prediction for audio event classification and extraction |
Non-Patent Citations (1)
Title |
---|
小泉 悠馬: "深層学習に基づく音源強調と位相制御", 日本音響学会誌, vol. 第75巻,第3号, JPN6022054543, March 2019 (2019-03-01), pages 156 - 163, ISSN: 0005151837 * |
Also Published As
Publication number | Publication date |
---|---|
EP3726529A1 (en) | 2020-10-21 |
MX2021012603A (es) | 2021-11-12 |
WO2020212419A1 (en) | 2020-10-22 |
US20220059114A1 (en) | 2022-02-24 |
BR112021020361A2 (pt) | 2021-12-07 |
CA3136870A1 (en) | 2020-10-22 |
KR20210153677A (ko) | 2021-12-17 |
CN114041185A (zh) | 2022-02-11 |
JP7486266B2 (ja) | 2024-05-17 |
EP3956888A1 (en) | 2022-02-23 |
JP2024038369A (ja) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mack et al. | Deep filtering: Signal extraction and reconstruction using complex time-frequency filters | |
Fu et al. | Raw waveform-based speech enhancement by fully convolutional networks | |
Luo et al. | Real-time single-channel dereverberation and separation with time-domain audio separation network. | |
Wang et al. | On training targets for supervised speech separation | |
JP2022529912A (ja) | 深層フィルタを決定するための方法および装置 | |
Zhao et al. | A two-stage algorithm for noisy and reverberant speech enhancement | |
Shivakumar et al. | Perception optimized deep denoising autoencoders for speech enhancement. | |
Xu et al. | Generalized spatio-temporal RNN beamformer for target speech separation | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
Liu et al. | Deep CASA for talker-independent monaural speech separation | |
Tammen et al. | Deep multi-frame MVDR filtering for single-microphone speech enhancement | |
Tammen et al. | DNN-based speech presence probability estimation for multi-frame single-microphone speech enhancement | |
Tan et al. | Improving robustness of deep learning based monaural speech enhancement against processing artifacts | |
Wang et al. | Low-latency deep clustering for speech separation | |
Wang et al. | Deep neural network based supervised speech segregation generalizes to novel noises through large-scale training | |
Dash et al. | Speech intelligibility based enhancement system using modified deep neural network and adaptive multi-band spectral subtraction | |
Xiong et al. | Spectro-Temporal SubNet for Real-Time Monaural Speech Denoising and Dereverberation. | |
Sheeja et al. | Speech dereverberation and source separation using DNN-WPE and LWPR-PCA | |
Ram et al. | Deep neural network based speech enhancement | |
Zhang et al. | Multi-Target Ensemble Learning for Monaural Speech Separation. | |
Tkachenko et al. | Speech enhancement for speaker recognition using deep recurrent neural networks | |
Parviainen et al. | Time-frequency masking strategies for single-channel low-latency speech enhancement using neural networks | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
KR102316627B1 (ko) | 심화신경망 기반의 가상 채널 확장을 이용한 wpe 기반 잔향 제거 장치 | |
Miyazaki et al. | Theoretical analysis of parametric blind spatial subtraction array and its application to speech recognition performance prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20211213 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221223 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230316 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230623 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230913 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20240116 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20240205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240404 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240503 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7486266 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |