JP7242903B2 - 畳み込みニューラルネットワークに基づく発話源分離のための方法および装置 - Google Patents
畳み込みニューラルネットワークに基づく発話源分離のための方法および装置 Download PDFInfo
- Publication number
- JP7242903B2 JP7242903B2 JP2021566245A JP2021566245A JP7242903B2 JP 7242903 B2 JP7242903 B2 JP 7242903B2 JP 2021566245 A JP2021566245 A JP 2021566245A JP 2021566245 A JP2021566245 A JP 2021566245A JP 7242903 B2 JP7242903 B2 JP 7242903B2
- Authority
- JP
- Japan
- Prior art keywords
- convolutional
- parallel
- convolution
- output
- filters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 128
- 238000013527 convolutional neural network Methods 0.000 title claims description 84
- 238000000926 separation method Methods 0.000 title claims description 34
- 238000011176 pooling Methods 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 19
- 230000003595 spectral effect Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 15
- 238000012805 post-processing Methods 0.000 claims description 13
- 230000000670 limiting effect Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 5
- 235000004257 Cordia myxa Nutrition 0.000 claims description 4
- 244000157795 Cordia myxa Species 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 230000002547 anomalous effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 230000010339 dilation Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000001994 activation Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000001594 aberrant effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005204 segregation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Complex Calculations (AREA)
- Image Analysis (AREA)
Description
本願は、2019年5月14日に出願された国際特許出願第PCT/CN2019/086769号、2019年6月4日に出願された米国仮特許出願第62/856,888号、および2019年7月24日に出願された欧州特許出願第19188010.3号に対する優先権を主張するものであり、それぞれの出願は、その全体が参照により本明細書に組み込まれる。
本開示は、概括的には、畳み込みニューラルネットワーク(CNN)に基づく発話源分離のための方法および装置に関し、より詳細には、集約されたマルチスケールCNNを使用して、もとのノイズのある発話信号からの発話の抽出を改善することに関する。
S.F. Boll、"Suppression of acoustic noise in speech using spectral subtraction"、IEEE Trans. Acoust. Speech Sig. Process., vol.27, pp.113-120, 1979
G. Hu and D.L. Wang、"A tandem algorithm for pitch estimation and voiced speech segregation"、IEEE Trans. Audio Speech Lang. Proc., vol.18, pp.2067-2079, 2010
下記では、畳み込みニューラルネットワーク(CNN)に基づく発話源分離のための方法と装置について述べる。このアプローチは、たとえば、映画またはテレビ・コンテンツのようなプロフェッショナル・コンテンツからのダイアログの抽出において特に価値がある。CNNに基づく発話源分離は、種々の受容野(receptive field)を用いた、もとのノイズのある信号(original noisy signal[オリジナル・ノイジー・シグナル])のスペクトル上での特徴抽出に基づいている。マルチスケール特性とマルチフレーム入力のため、このモデルは、時間および周波数情報をフルに利用する。
図1の例を参照すると、畳み込みニューラルネットワーク(CNN)に基づく発話源分離のための方法が示されている。ステップ101では、もとのノイズのある発話信号の時間‐周波数変換の複数のフレーム(たとえば、M個のフレーム)が提供される。通常の発話がもとのノイズのある発話信号として使用されてもよいが、ある実施形態では、もとのノイズのある発話信号は、ハイピッチ、アニメ、および他の異常な発話のうちの一つまたは複数を含んでいてもよい。異常な発話は、たとえば、感情的な発話、興奮させるおよび/または怒った声、アニメで使用される子供の声を含んでいてもよい。異常な発話、ハイピッチの発話は、オーディオの高いダイナミックレンジおよび/またはオーディオ成分の疎な高調波によって特徴づけられてもよい。フレームの数は制限されないが、ある実施形態では、もとのノイズのある発話信号の時間‐周波数変換の8個のフレームが提供されてもよい。
N=時間長×サンプリング・レート
に従って、サンプリング・レートおよびフレームの期待される時間長に基づいてもよい。
スペクトル絶対値マスク=|S(t,f)|/|Y(t,f)|
ここで、S(t,f)はきれいな発話のスペクトル絶対値(spectral magnitude)を表し、Y(t,f)はノイズのある発話のスペクトル絶対値を表す。次いで、ステップ106における出力マスクの後処理は、以下のステップのうちの少なくとも1つを含んでいてもよい:(i)出力マスクを[0,φ]に制限する。ここで、φはトレーニング・データ内の目標マスクの統計的解析に従って設定される、ネットワークから推定されたソフト・マスクの上限(up limit)であり、ソフト・マスクは、各時間‐周波数タイルに発話のどのくらいの部分が存在するかを表し、通例、0から1までの間である。しかしながら、位相キャンセルが生じるいくつかの場合には、ソフト・マスク、すなわちφは、1よりも大きい場合がある。CNNが不適切なマスクを生成することを避けるために、ソフト・マスクは、最大値φに制限される。よって、φは、1以上であってもよく、たとえば、2に等しいか、または、たとえば、1から2までの間の任意の他の中間的な実数に等しくてもよい;ii)現在のフレームについての平均マスクがεよりも小さい場合、出力マスクを0に設定する;iii)入力がゼロである場合、出力マスクをゼロに設定する;または、(iv)J*Kメジアンフィルタリングする。J*Kメジアンフィルタは、サイズJ*Kのフィルタである。ここで、Jは周波数次元の範囲、Kは時間次元の範囲である。メジアンフィルタを用いると、目標ソフト・マスクは、たとえばそのJ*K個の周囲の近傍内の諸マスクのメジアンによって置き換えられる。メジアンフィルタは、周波数および時間次元上での急激な変化を避けるために平滑化に使用される。ある実施形態では、J=K=3である。他の実施形態では、J*Kは、3*5、7*3、または5*5に等しくてもよい。しかしながら、J*Kは、CNNの特定の実装に好適な任意の他のフィルタ・サイズに等しくてもよい。後処理のステップ(i)は、分離結果がオーディオ・クリッピングを起こさないことを保証する。後処理のステップ(ii)は、残留ノイズを除去することを可能にし、発話活性化検出として機能する。後処理のステップ(iii)は、ステップ(iv)のメジアンフィルタリングが適用されるときにエッジ効果(edge effect)を伴うことを回避することを可能にする。後処理のステップ(iv)は、出力マスクを平滑化し、可聴アーチファクトを除去することを可能にする。後処理を実行することにより、分離結果の知覚的品質が改善できる。
図3の例を参照すると、発話源分離のための集約マルチスケール畳み込みニューラルネットワーク(CNN)が示されている。記述した方法では、特徴抽出のために純粋な畳み込みネットワークが利用される。集約マルチスケールCNN(aggregated multi-scale CNN)は、複数の並列な畳み込み経路を含む。並列な畳み込み経路の数は制限されないが、集約マルチスケールCNNは3つの並列な畳み込み経路を含んでいてもよい。これらの並列な畳み込み経路によって、もとのノイズのある発話信号の複数のフレームの時間‐周波数変換の異なる、たとえば局所的なおよび一般的な特徴情報の抽出が、異なるスケールにおいて可能である。
(i)もとのノイズのある発話および目標発話のフレームFFT係数を計算する;
(ii)位相を無視して、前記ノイズのある発話および目標発話の絶対値を求める;
(iii)前記ノイズのある発話と目標発話の絶対値の差を次のように計算することによって、目標出力マスクを得る:
目標マスク=||Y(t,f)||/||X(t,f)||
ここでY(t,f)およびX(t,f)は目標発話とノイズのある発話のスペクトル絶対値を表す;
(iv)統計ヒストグラムに従って、目標マスクを小さな範囲に制限する。
(v)ノイズのある発話の複数フレーム周波数絶対値を入力として使用する;
(vi)ステップ(iii)の対応する目標マスクを出力として使用する。
集約マルチスケールCNNのトレーニングのために、ハイピッチ、アニメおよび他の異常な発話が、堅牢性を増すためにカバーされてもよい。
図3の例を参照すると、ステップ303、403、503から、ステップ201で入力された、もとのノイズのある発話信号の複数のフレームの時間‐周波数変換から、集約マルチスケールCNNの並列な畳み込み経路のそれぞれにおいて抽出された特徴が出力される。次いで、ステップ202において、並列な畳み込み経路のそれぞれからの出力が集約され、集約された出力が得られる。
もとのノイズのある発話信号の時間‐周波数変換の複数のフレームが集約マルチスケールCNNに入力されるので、CNNによる特徴抽出も複数のフレームにわたって実施される。図5の例を参照すると、カスケード化されたプーリング構造が示されている。ある実施形態では、出力マスクを生成することは、ステップ601における集約された出力に、カスケード化されたプーリングを適用することを含む。カスケード化されたプーリングを適用することによって、最も効果的な特徴を発見することによって1フレーム出力マスクを予測するために、マルチフレーム特徴が使用されうる。ある実施形態では、カスケード化されたプーリングは、畳み込み層602、604、606とプーリング処理603、605、607の対を実行する一つまたは複数のステージを含んでいてもよく、該一つまたは複数のステージの後に最後の畳み込み層608が続く。プーリング処理は、時間軸でのみ実行されてもよい。ある実施形態では、前記プーリング処理として平均プーリング処理が実行されてもよい。畳み込み層602、604、606では、フィルタ数が減らされてもよい。第1の畳み込み層602におけるフィルタ数は、制限されず、たとえば、N_filters*4またはN_filters*2でありうるが、フィルタ数は徐々に減らされてもよい。さもなければ、パフォーマンスが低下する可能性がある。さらに、フィルタ数は、最後の畳み込み層608で1でなければならない。図5の例では、限定の意図なしに、フィルタ数は、畳み込み層のうちの第1の層602におけるN_filters*4から、畳み込み層のうちの第2の層604におけるN_filters*2に、畳み込み層のうちの第3の層606におけるN_filtersに、そして最後の畳み込み層608におけるフィルタ数1に減らされる。フィルタ・サイズは、複数のフレームの数Mに依存してもよい。代替的または追加的に、各畳み込み層のフィルタ・サイズは、前のプーリング層の出力フレーム・サイズに依存してもよい。前のプーリング層の出力フレーム・サイズが時間軸上でフィルタ・サイズよりも大きい場合、フィルタ・サイズは、それぞれの畳み込み層において同じであって、たとえば(3,1)であってもよい。前のプーリング層の出力フレーム・サイズが、時間軸上で前の畳み込み層のフィルタ・サイズよりも小さい場合、現在の畳み込み層のフィルタ・サイズは、前のプーリング層がM'フレーム出力、たとえばM'<3を有すると仮定して、(M',1)でありうる。図5の例では、第1の畳み込み層602では、(3,1)のフィルタ・サイズが使用され、第2の畳み込み層604では、(3,1)のフィルタ・サイズが使用され、第3の畳み込み層606では、(2,1)のフィルタ・サイズが使用され、最後の畳み込み層608では、(1,1)のフィルタ・サイズが使用される。非線形演算は、畳み込み層のそれぞれにおいて実行されてもよい。図5の例では、畳み込み層602、604、および606では、整流線形ユニット(Relu)が実行され、最後の畳み込み層608では、漏洩整流線形ユニット(LeakyRelu)が実行される。ある実施形態では、カスケード化されたプーリングの後に、平坦化操作609が実行されてもよい。
図6の例を参照すると、ある実施形態では、所与の並列な畳み込み経路について、フィルタは、n*nのフィルタ・サイズ701を有してもよく、または、フィルタは、n*1 701a、および1*n 701bのフィルタ・サイズを有してもよい。フィルタは、周波数‐時間次元で適用されてもよく、それにより、フィルタ・サイズn*nは、周波数軸におけるnフィルタ長および時間軸におけるnフィルタ長を有するフィルタを表すことができる。同様に、n*1のフィルタ・サイズは、周波数軸上でnフィルタ長、時間軸上で1フィルタ長を有するフィルタを表すことができ、一方、1*nのフィルタ・サイズは、周波数軸における1フィルタ長、時間軸におけるnフィルタ長を有するフィルタを表すことができる。サイズn*nのフィルタは、サイズn*1のフィルタとサイズ1*nのフィルタの連結で置き換えられてもよい。よって、複雑さの低減は、以下のように達成されうる。たとえば、n*nフィルタについては、n*n個のパラメータがある。そのようなフィルタの64個が前記L個の層の1つにあると仮定すると、パラメータの数は64*n*nとなる。フィルタ・サイズn*nを、それぞれサイズn*1および1*nの2つのフィルタの連結で置き換えることにより、パラメータは64*n*1*2個だけになり、モデルの複雑性を低減する。
特に断りのない限り、以下の議論から明らかなように、本開示を通じて、「処理」、「コンピューティング」、「計算」、「決定」、「解析」などの用語を使用する議論は、コンピュータまたは計算システム、または同様の電子計算装置のアクションおよび/またはプロセスであって、電子的な量のような物理的な量として表わされるデータを操作および/または変換して、物理的な量として同様に表わされる他のデータにするものを指すことが理解される。
〔EEE1〕
畳み込みニューラルネットワーク(CNN)ベースの発話源分離のための方法であって、当該方法は:
(a)もとのノイズのある発話信号の時間‐周波数変換の複数のフレームを提供するステップと;
(b)前記複数のフレームの時間‐周波数変換を複数の並列な畳み込み経路を有する集約マルチスケールCNNに入力するステップと;
(c)前記複数のフレームの入力時間‐周波数変換から、各並列な畳み込み経路によって特徴を抽出し出力するステップと;
(d)前記並列な畳み込み経路の出力の集約された出力を得るステップと;
(e)前記集約された出力に基づいて、前記もとのノイズのある発話信号から発話を抽出するための出力マスクを生成するステップとを含む、
方法。
〔EEE2〕
前記もとのノイズのある発話信号は、ハイピッチ、アニメ、および他の異常な発話のうちの一つまたは複数を含む、EEE1に記載の方法。
〔EEE3〕
前記複数のフレームの時間‐周波数変換は、前記集約マルチスケールCNNに入力する前に、2D畳み込み層に、その後、漏洩整流線形ユニット(LeakyRelu)にかけられる、EEE1または2に記載の方法。
〔EEE4〕
ステップ(d)において集約された出力を得ることが、さらに、前記並列な畳み込み経路のそれぞれの出力に重みを適用することを含む、EEE1ないし3のうちいずれか一項に記載の方法。
〔EEE5〕
異なる重みが、発話および/またはオーディオ・ドメイン知識と、トレーニング・プロセスから学習されたトレーニング可能なパラメータの一つまたは複数に基づいて、前記並列な畳み込み経路のそれぞれの出力に適用される、EEE4に記載の方法。
〔EEE6〕
ステップ(d)において前記集約された出力を得ることが、前記並列な畳み込み経路の重み付けされた出力を連結することを含む、EEE4または5に記載の方法。
〔EEE7〕
ステップ(d)において集約された出力を得ることが、前記並列な畳み込み経路の重み付けされた出力を加算することを含む、EEE4または5に記載の方法。
〔EEE8〕
ステップ(c)において、前記並列な畳み込み経路のそれぞれによって、発話高調波特徴が抽出されて、出力される、EEE1ないし7のうちいずれか一項に記載の方法。
〔EEE9〕
当該方法がさらに、(f)前記出力マスクを後処理するステップをさらに含む、EEE1ないし8のうちいずれか一項に記載の方法。
〔EEE10〕
前記出力マスクは、1フレームのスペクトル絶対値マスクであり、前記出力マスクの後処理は、
(i)前記出力マスクを[0,φ]に制限するステップであって、φはトレーニング・データ内の目標マスクの統計的解析に従って設定される、ステップ;
(ii)現在のフレームの平均マスクがεより小さい場合には、前記出力マスクを0に設定するステップ;
(iii)入力がゼロである場合には、前記出力マスクをゼロに設定するステップ;または
(iv)J*Kメジアンフィルタリングするステップ
のうちの少なくとも1つを含む、EEE9に記載の方法。
〔EEE11〕
前記出力マスクは、1フレームのスペクトル絶対値マスクであり、当該方法は、(g)前記出力マスクと前記もとのノイズのある発話信号の絶対値スペクトルとを乗算し、ISTFTを実施し、wav信号を取得するステップをさらに含む、EEE1ないし10のうちいずれか一項に記載の方法。
〔EEE12〕
ステップ(e)における前記出力マスクの生成は、前記集約された出力に対して、カスケード化されたプーリングを適用することを含む、EEE1ないし11のうちいずれか一項に記載の方法。
〔EEE13〕
前記カスケード化されたプーリングは、畳み込み層およびプーリング処理の対を実行することの一つまたは複数のステージを含んでいてもよく、前記一つまたは複数のステージの後に最後の畳み込み層が続く、EEE12に記載の方法。
〔EEE14〕
前記カスケード化されたプーリングの後に平坦化演算が実行される、EEE12または13に記載の方法。
〔EEE15〕
前記プーリング処理として、平均プーリング処理が実行される、EEE12ないし14のうちいずれか一項に記載の方法。
〔EEE16〕
前記CNNの前記複数の並列な畳み込み経路のうちの各並列な畳み込み経路は、L個の畳み込み層を含んでおり、Lは自然数≧1であり、L層のうちのl番目の層は、l=1…Lとして、Nl個のフィルタを有する、EEE1ないし15のうちいずれか一項に記載の方法。
〔EEE17〕
各並列な畳み込み経路について、1番目の層におけるフィルタの数Nlは、N1=l×N0によって与えられ、N0は所定の定数≧1である、EEE16に記載の方法。
〔EEE18〕
前記フィルタのフィルタ・サイズは、それぞれの並列な畳み込み経路内では同じである、EEE16または17に記載の方法。
〔EEE19〕
前記フィルタのフィルタ・サイズは、異なる並列な畳み込み経路の間で異なる、EEE18に記載の方法。
〔EEE20〕
所与の並列な畳み込み経路について、前記フィルタは、n*nのフィルタ・サイズを有する、または前記フィルタは、n*1および1*nのフィルタ・サイズを有する、EEE19に記載の方法。
〔EEE21〕
前記フィルタ・サイズは、特徴抽出を実施するための高調波長に依存する、EEE19または20に記載の方法。
〔EEE22〕
所与の並列な畳み込み経路について、前記L個の畳み込み層のそれぞれにおいて畳み込み演算を実行する前に、前記入力がゼロ・パディングされる、EEE16ないし21のうちいずれか一項に記載の方法。
〔EEE23〕
所与の並列な畳み込み経路について、その並列な畳み込み経路の諸層のうちの少なくとも1つの層の諸フィルタは、拡張された2D畳み込みフィルタである、EEE16ないし22のうちいずれか一項に記載の方法。
〔EEE24〕
その並列な畳み込み経路の諸層のうちの前記少なくとも1つの層の諸フィルタの拡張操作は、周波数軸上のみで実行される、EEE23に記載の方法。
〔EEE25〕
所与の並列な畳み込み経路について、その並列な畳み込み経路の2つ以上の層の諸フィルタは、拡張された2D畳み込みフィルタであり、該拡張された2D畳み込みフィルタの拡張因子は、層番号lの増加とともに指数関数的に増加する、EEE23または24に記載の方法。
〔EEE26〕
所与の並列な畳み込み経路について、拡張は、前記L個の畳み込み層のうちの第1の畳み込み層では(1,1)であり、該拡張は、前記L個の畳み込み層のうちの第2の畳み込み層では(1,2)であり、該拡張は、前記L個の畳み込み層のうちの第lの畳み込み層では(1,2^(l-1))であり、該拡張は、前記L個の畳み込み層のうちの最後の層では(1,2^(L-1))であり、ここで、(c,d)は、時間軸に沿ったcの拡張因子および周波数軸に沿ったdの拡張因子を示す、EEE25に記載の方法。
〔EEE27〕
所与の並列な畳み込み経路について、加えて、前記L個の畳み込み層のそれぞれにおいて非線形演算が実行される、EEE16ないし26のうちいずれか一項に記載の方法。
〔EEE28〕
前記非線形演算は、パラメトリック整流線形ユニット(PRelu)、整流線形ユニット(Relu)、漏洩整流線形ユニット(LeakyRelu)、指数線形ユニット(Elu)、およびスケーリングされた指数線形ユニット(Selu)のうちの一つまたは複数を含む、EEE27に記載の方法。
〔EEE29〕
前記整流線形ユニット(Relu)は、前記非線形演算として実行される、EEE28に記載の方法。
〔EEE30〕
畳み込みニューラルネットワーク(CNN)ベースの発話源分離のための装置であって、当該装置は、EEE1ないし29のうちいずれか一項に記載の方法のステップを実行するように構成されたプロセッサを含む、装置。
〔EEE31〕
処理能力を有する装置によって実行されたときに、EEE1ないし29のうちいずれか一項に記載の方法を該装置に実行させるように適応された命令を有するコンピュータ読み取り可能な記憶媒体を備えるコンピュータ・プログラム・プロダクト。
Claims (26)
- 畳み込みニューラルネットワーク(CNN)ベースの発話源分離のための方法であって、当該方法は:
もとのノイズのある発話信号の時間‐周波数変換の複数のフレームを提供するステップと;
前記複数のフレームの時間‐周波数変換を複数の並列な畳み込み経路を有する集約マルチスケールCNNに入力するステップであって、前記CNNの前記複数の並列な畳み込み経路のうちの各並列な畳み込み経路はL個の畳み込み層のカスケードを含み、Lは自然数>1であり、L層のうちの第lの層はNl個のフィルタを有し、l=1…Lであり、それらのフィルタのフィルタ・サイズは、異なる並列な畳み込み経路の間で異なり、それらのフィルタのフィルタ・サイズは、それぞれの並列な畳み込み経路内では同じである、ステップと;
前記複数のフレームの入力時間‐周波数変換から、各並列な畳み込み経路によって特徴を抽出し出力するステップと;
前記並列な畳み込み経路の出力の集約された出力を得るステップと;
前記集約された出力に基づいて、前記もとのノイズのある発話信号から発話を抽出するための出力マスクを生成するステップとを含む、
方法。 - 前記複数のフレームの時間‐周波数変換は、前記集約マルチスケールCNNに入力する前に、2D畳み込み層に、その後、漏洩整流線形ユニット(LeakyRelu)にかけられる、請求項1に記載の方法。
- 前記集約された出力を得ることが、さらに、前記並列な畳み込み経路のそれぞれの出力に重みを適用することを含む、請求項1または2に記載の方法。
- 異なる重みが、発話および/またはオーディオ・ドメイン知識と、トレーニング・プロセスから学習されたトレーニング可能なパラメータの一つまたは複数に基づいて、前記並列な畳み込み経路のそれぞれの出力に適用される、請求項3に記載の方法。
- 前記集約された出力を得ることが、前記並列な畳み込み経路の重み付けされた出力を連結することを含む、請求項3または4に記載の方法。
- 前記集約された出力を得ることが、前記並列な畳み込み経路の重み付けされた出力を加算することを含む、請求項3または4に記載の方法。
- 特徴を抽出し出力する前記ステップにおいて、前記並列な畳み込み経路のそれぞれによって、発話高調波特徴が抽出されて、出力される、請求項1ないし6のうちいずれか一項に記載の方法。
- 当該方法がさらに、前記出力マスクを後処理するステップをさらに含む、請求項1ないし7のうちいずれか一項に記載の方法。
- 前記出力マスクは、1フレームのスペクトル絶対値マスクであり、前記出力マスクの後処理は、
前記出力マスクを[0,φ]に制限するステップであって、φはトレーニング・データ内の目標マスクの統計的解析に従って設定される、ステップ;
現在のフレームの平均マスクがεより小さい場合には、前記出力マスクを0に設定するステップ;
入力がゼロである場合には、前記出力マスクをゼロに設定するステップ;または
サイズJ*Kでメジアンフィルタリングするステップであって、Jは周波数次元におけるサイズを表す整数であり、Kは時間次元におけるサイズを表す整数である、ステップ
のうちの少なくとも1つを含む、請求項8に記載の方法。 - 前記出力マスクは、1フレームのスペクトル絶対値マスクであり、当該方法は、前記出力マスクと前記もとのノイズのある発話信号の絶対値スペクトルとを乗算し、ISTFTを実施し、wav信号を取得するステップをさらに含む、請求項1ないし9のうちいずれか一項に記載の方法。
- 前記出力マスクの生成は、前記集約された出力に対して、カスケード化されたプーリングを適用することを含む、請求項1ないし10のうちいずれか一項に記載の方法。
- 前記カスケード化されたプーリングは、畳み込み層およびプーリング処理の対を実行することの一つまたは複数のステージを含んでいてもよく、前記一つまたは複数のステージの後に最後の畳み込み層が続く、請求項11に記載の方法。
- 前記カスケード化されたプーリングの後に平坦化演算が実行される、請求項11または12に記載の方法。
- 前記プーリング処理として、平均プーリング処理が実行される、請求項12に記載の方法。
- 各並列な畳み込み経路について、1番目の層におけるフィルタの数Nlは、N1=l×N0によって与えられ、N0は所定の定数≧1である、請求項1ないし14のうちいずれか一項に記載の方法。
- 所与の並列な畳み込み経路について、前記フィルタは、n*nのフィルタ・サイズを有する、または前記フィルタは、n*1および1*nのフィルタ・サイズを有する、請求項1ないし15のうちいずれか一項に記載の方法。
- 所与の並列な畳み込み経路について、前記L個の畳み込み層のそれぞれにおいて畳み込み演算を実行する前に、前記入力がゼロ・パディングされる、請求項1ないし16のうちいずれか一項に記載の方法。
- 所与の並列な畳み込み経路について、その並列な畳み込み経路の諸層のうちの少なくとも1つの層の諸フィルタは、拡張された2D畳み込みフィルタである、請求項1ないし17のうちいずれか一項に記載の方法。
- その並列な畳み込み経路の諸層のうちの前記少なくとも1つの層の諸フィルタの拡張操作は、周波数軸上のみで実行される、請求項18に記載の方法。
- 所与の並列な畳み込み経路について、その並列な畳み込み経路の2つ以上の層の諸フィルタは、拡張された2D畳み込みフィルタであり、該拡張された2D畳み込みフィルタの拡張因子は、層番号lの増加とともに指数関数的に増加する、請求項18または19に記載の方法。
- 所与の並列な畳み込み経路について、拡張は、前記L個の畳み込み層のうちの第1の畳み込み層では(1,1)であり、該拡張は、前記L個の畳み込み層のうちの第2の畳み込み層では(1,2)であり、該拡張は、前記L個の畳み込み層のうちの第lの畳み込み層では(1,2^(l-1))であり、該拡張は、前記L個の畳み込み層のうちの最後の層では(1,2^(L-1))であり、ここで、(c,d)は、時間軸に沿ったcの拡張因子および周波数軸に沿ったdの拡張因子を示す、請求項20に記載の方法。
- 所与の並列な畳み込み経路について、加えて、前記L個の畳み込み層のそれぞれにおいて非線形演算が実行される、請求項1ないし21のうちいずれか一項に記載の方法。
- 前記非線形演算は、パラメトリック整流線形ユニット(PRelu)、整流線形ユニット(Relu)、漏洩整流線形ユニット(LeakyRelu)、指数線形ユニット(Elu)、およびスケーリングされた指数線形ユニット(Selu)のうちの一つまたは複数を含む、請求項22に記載の方法。
- 前記整流線形ユニット(Relu)は、前記非線形演算として実行される、請求項23に記載の方法。
- 畳み込みニューラルネットワーク(CNN)ベースの発話源分離のための装置であって、当該装置は、請求項1ないし24のうちいずれか一項に記載の方法を実行するように構成されたプロセッサを含む、装置。
- 処理能力を有する装置によって実行されたときに、請求項1ないし24のうちいずれか一項に記載の方法を該装置に実行させるように適応された命令を有するコンピュータ読み取り可能な記憶媒体を備えるコンピュータ・プログラム・プロダクト。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2019086769 | 2019-05-14 | ||
CNPCT/CN2019/086769 | 2019-05-14 | ||
US201962856888P | 2019-06-04 | 2019-06-04 | |
US62/856,888 | 2019-06-04 | ||
EP19188010.3 | 2019-07-24 | ||
EP19188010 | 2019-07-24 | ||
PCT/US2020/032762 WO2020232180A1 (en) | 2019-05-14 | 2020-05-13 | Method and apparatus for speech source separation based on a convolutional neural network |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022541707A JP2022541707A (ja) | 2022-09-27 |
JP7242903B2 true JP7242903B2 (ja) | 2023-03-20 |
Family
ID=70805223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021566245A Active JP7242903B2 (ja) | 2019-05-14 | 2020-05-13 | 畳み込みニューラルネットワークに基づく発話源分離のための方法および装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220223144A1 (ja) |
EP (1) | EP3970141B1 (ja) |
JP (1) | JP7242903B2 (ja) |
CN (1) | CN114341979A (ja) |
WO (1) | WO2020232180A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11646009B1 (en) * | 2020-06-16 | 2023-05-09 | Amazon Technologies, Inc. | Autonomously motile device with noise suppression |
US20220068287A1 (en) * | 2020-08-31 | 2022-03-03 | Avaya Management Lp | Systems and methods for moderating noise levels in a communication session |
WO2022112594A2 (en) * | 2020-11-30 | 2022-06-02 | Dolby International Ab | Robust intrusive perceptual audio quality assessment based on convolutional neural networks |
CN112581929B (zh) * | 2020-12-11 | 2022-06-03 | 山东省计算中心(国家超级计算济南中心) | 基于生成对抗网络的语音私密度掩蔽信号生成方法及系统 |
CN112802484B (zh) * | 2021-04-12 | 2021-06-18 | 四川大学 | 一种混合音频下的大熊猫声音事件检测方法及系统 |
CN113611323B (zh) * | 2021-05-07 | 2024-02-20 | 北京至芯开源科技有限责任公司 | 一种基于双通道卷积注意力网络的语音增强方法及系统 |
CN113470672B (zh) * | 2021-07-23 | 2024-01-12 | 平安科技(深圳)有限公司 | 语音增强方法、装置、设备及存储介质 |
CN113555031B (zh) * | 2021-07-30 | 2024-02-23 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法及装置、语音增强方法及装置 |
CN114298210A (zh) * | 2021-12-24 | 2022-04-08 | 江苏国科智能电气有限公司 | 一种多视角融合风电齿轮箱轴承剩余寿命预测方法 |
WO2023192039A1 (en) | 2022-03-29 | 2023-10-05 | Dolby Laboratories Licensing Corporation | Source separation combining spatial and source cues |
CN116299247B (zh) * | 2023-05-19 | 2023-08-04 | 中国科学院精密测量科学与技术创新研究院 | 一种基于稀疏卷积神经网络的InSAR大气校正方法 |
CN117116289B (zh) * | 2023-10-24 | 2023-12-26 | 吉林大学 | 病区医护对讲管理系统及其方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017052739A1 (en) | 2015-09-24 | 2017-03-30 | Google Inc. | Voice activity detection |
JP2019020598A (ja) | 2017-07-18 | 2019-02-07 | 国立研究開発法人情報通信研究機構 | ニューラルネットワークの学習方法 |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1160764A1 (en) * | 2000-06-02 | 2001-12-05 | Sony France S.A. | Morphological categories for voice synthesis |
WO2009022454A1 (ja) * | 2007-08-10 | 2009-02-19 | Panasonic Corporation | 音声分離装置、音声合成装置および声質変換装置 |
PL2146344T3 (pl) * | 2008-07-17 | 2017-01-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Sposób kodowania/dekodowania sygnału audio obejmujący przełączalne obejście |
US9836455B2 (en) * | 2011-02-23 | 2017-12-05 | New York University | Apparatus, method and computer-accessible medium for explaining classifications of documents |
CN107785016A (zh) * | 2016-08-31 | 2018-03-09 | 株式会社东芝 | 训练神经网络辅助模型的方法和装置及语音识别方法和装置 |
KR102631381B1 (ko) * | 2016-11-07 | 2024-01-31 | 삼성전자주식회사 | 컨볼루션 신경망 처리 방법 및 장치 |
US10170110B2 (en) * | 2016-11-17 | 2019-01-01 | Robert Bosch Gmbh | System and method for ranking of hybrid speech recognition results with neural networks |
KR20180080446A (ko) * | 2017-01-04 | 2018-07-12 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US10347244B2 (en) * | 2017-04-21 | 2019-07-09 | Go-Vivace Inc. | Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response |
CN107633842B (zh) * | 2017-06-12 | 2018-08-31 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
US10482118B2 (en) * | 2017-06-14 | 2019-11-19 | Sap Se | Document representation for machine-learning document classification |
CN109688351B (zh) * | 2017-10-13 | 2020-12-15 | 华为技术有限公司 | 一种图像信号处理方法、装置及设备 |
CN107680597B (zh) * | 2017-10-23 | 2019-07-09 | 平安科技(深圳)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
US10324467B1 (en) * | 2017-12-29 | 2019-06-18 | Apex Artificial Intelligence Industries, Inc. | Controller systems and methods of limiting the operation of neural networks to be within one or more conditions |
CN108363753B (zh) * | 2018-01-30 | 2020-05-19 | 南京邮电大学 | 评论文本情感分类模型训练与情感分类方法、装置及设备 |
US20200042580A1 (en) * | 2018-03-05 | 2020-02-06 | amplified ai, a Delaware corp. | Systems and methods for enhancing and refining knowledge representations of large document corpora |
US11687827B2 (en) * | 2018-10-04 | 2023-06-27 | Accenture Global Solutions Limited | Artificial intelligence (AI)-based regulatory data processing system |
KR20200044388A (ko) * | 2018-10-19 | 2020-04-29 | 삼성전자주식회사 | 음성을 인식하는 장치 및 방법, 음성 인식 모델을 트레이닝하는 장치 및 방법 |
US11341369B2 (en) * | 2018-11-15 | 2022-05-24 | Nvidia Corporation | Distributed batch normalization using partial populations |
US10573312B1 (en) * | 2018-12-04 | 2020-02-25 | Sorenson Ip Holdings, Llc | Transcription generation from multiple speech recognition systems |
EP3671568A1 (en) * | 2018-12-17 | 2020-06-24 | IMEC vzw | Binary recurrent neural network inference technique |
US20200242445A1 (en) * | 2019-01-26 | 2020-07-30 | Mipsology SAS | Generic quantization of artificial neural networks |
US11182559B2 (en) * | 2019-03-26 | 2021-11-23 | Siemens Aktiengesellschaft | System and method for natural language processing |
US11410016B2 (en) * | 2019-04-26 | 2022-08-09 | Alibaba Group Holding Limited | Selective performance of deterministic computations for neural networks |
US11615785B2 (en) * | 2019-05-10 | 2023-03-28 | Robert Bosch Gmbh | Speech recognition using natural language understanding related knowledge via deep feedforward neural networks |
US11748613B2 (en) * | 2019-05-10 | 2023-09-05 | Baidu Usa Llc | Systems and methods for large scale semantic indexing with deep level-wise extreme multi-label learning |
CN110222182B (zh) * | 2019-06-06 | 2022-12-27 | 腾讯科技(深圳)有限公司 | 一种语句分类方法及相关设备 |
US11373106B2 (en) * | 2019-11-21 | 2022-06-28 | Fractal Analytics Private Limited | System and method for detecting friction in websites |
US20230139831A1 (en) * | 2020-09-30 | 2023-05-04 | DataInfoCom USA, Inc. | Systems and methods for information retrieval and extraction |
US11436267B2 (en) * | 2020-01-08 | 2022-09-06 | International Business Machines Corporation | Contextually sensitive document summarization based on long short-term memory networks |
US11182545B1 (en) * | 2020-07-09 | 2021-11-23 | International Business Machines Corporation | Machine learning on mixed data documents |
CN113035227B (zh) * | 2021-03-12 | 2022-02-11 | 山东大学 | 一种多模态语音分离方法及系统 |
AU2022305353A1 (en) * | 2021-06-30 | 2024-01-18 | Pricewaterhousecoopers Llp | Ai-augmented auditing platform including techniques for automated adjudication of commercial substance, related parties, and collectability |
US20230069587A1 (en) * | 2021-08-31 | 2023-03-02 | Paypal, Inc. | Named entity recognition in chat dialogues for customer relationship management systems |
WO2023220437A1 (en) * | 2022-05-13 | 2023-11-16 | PolyN Technology Limited | Systems and methods for human activity recognition using analog neuromorphic computing hardware |
CN115426055B (zh) * | 2022-11-07 | 2023-03-24 | 青岛科技大学 | 一种基于解耦卷积神经网络的含噪水声信号盲源分离方法 |
US11657222B1 (en) * | 2022-11-23 | 2023-05-23 | Intuit Inc. | Confidence calibration using pseudo-accuracy |
-
2020
- 2020-05-13 JP JP2021566245A patent/JP7242903B2/ja active Active
- 2020-05-13 CN CN202080035468.8A patent/CN114341979A/zh active Pending
- 2020-05-13 EP EP20727896.1A patent/EP3970141B1/en active Active
- 2020-05-13 US US17/611,121 patent/US20220223144A1/en active Pending
- 2020-05-13 WO PCT/US2020/032762 patent/WO2020232180A1/en active Search and Examination
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017052739A1 (en) | 2015-09-24 | 2017-03-30 | Google Inc. | Voice activity detection |
JP2019020598A (ja) | 2017-07-18 | 2019-02-07 | 国立研究開発法人情報通信研究機構 | ニューラルネットワークの学習方法 |
Non-Patent Citations (2)
Title |
---|
Soumitro Chakrabarty et. al.,Time-Frequency Masking Based Online Multi-Channel Speech Enhancement With Convolutional Recurrent Neural Networks,IEEE Journal of Selected Topics in Signal Processing,Volume: 13, Issue: 4,2019年04月14日,Page(s): 787 - 799,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8691791 |
Tomas Kounovsky et. al.,Single channel speech enhancement using convolutional neural network,2017 IEEE International Workshop of Electronics, Control, Measurement, Signals and their Application to Mechatronics (ECMSM),2017年06月15日,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7945915 |
Also Published As
Publication number | Publication date |
---|---|
WO2020232180A1 (en) | 2020-11-19 |
EP3970141A1 (en) | 2022-03-23 |
JP2022541707A (ja) | 2022-09-27 |
CN114341979A (zh) | 2022-04-12 |
US20220223144A1 (en) | 2022-07-14 |
EP3970141B1 (en) | 2024-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7242903B2 (ja) | 畳み込みニューラルネットワークに基づく発話源分離のための方法および装置 | |
Ernst et al. | Speech dereverberation using fully convolutional networks | |
CN109891434B (zh) | 使用神经网络生成音频 | |
Chen et al. | Fullsubnet+: Channel attention fullsubnet with complex spectrograms for speech enhancement | |
CN113345460B (zh) | 音频信号处理方法、装置、设备及存储介质 | |
Yuan | A time–frequency smoothing neural network for speech enhancement | |
KR102410850B1 (ko) | 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치 | |
CN111508519A (zh) | 一种音频信号人声增强的方法及装置 | |
Saleem et al. | Multi-objective long-short term memory recurrent neural networks for speech enhancement | |
Min et al. | Mask estimate through Itakura-Saito nonnegative RPCA for speech enhancement | |
Lee et al. | Two-stage refinement of magnitude and complex spectra for real-time speech enhancement | |
KR102613030B1 (ko) | 적대적 학습 기법을 이용한 음성 합성 방법 및 장치 | |
Chen et al. | Neural-free attention for monaural speech enhancement towards voice user interface for consumer electronics | |
WO2023086311A1 (en) | Control of speech preservation in speech enhancement | |
CN115440240A (zh) | 语音降噪的训练方法、语音降噪系统及语音降噪方法 | |
Kim et al. | Dual Stage Learning Based Dynamic Time-Frequency Mask Generation for Audio Event Classification. | |
CN116306889A (zh) | 模型训练方法、装置、电子设备及介质 | |
Li et al. | Convolutional recurrent neural network based progressive learning for monaural speech enhancement | |
CN115798453A (zh) | 语音重建方法、装置、计算机设备和存储介质 | |
Pu et al. | ResUnet: A Fully Convolutional Network for Speech Enhancement in Industrial Robots | |
Darabian et al. | Improving the performance of MFCC for Persian robust speech recognition | |
US20230401429A1 (en) | Method and apparatus for audio processing using a convolutional neural network architecture | |
US20230297852A1 (en) | Multi-Stage Machine Learning Model Synthesis for Efficient Inference | |
US20240161766A1 (en) | Robustness/performance improvement for deep learning based speech enhancement against artifacts and distortion | |
Han et al. | Hybrid Attention Transformer Based on Dual-Path for Time-Domain Single-Channel Speech Separation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20211108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221025 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230308 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7242903 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |