JP6927419B2 - 推定装置、学習装置、推定方法、学習方法及びプログラム - Google Patents
推定装置、学習装置、推定方法、学習方法及びプログラム Download PDFInfo
- Publication number
- JP6927419B2 JP6927419B2 JP2020513083A JP2020513083A JP6927419B2 JP 6927419 B2 JP6927419 B2 JP 6927419B2 JP 2020513083 A JP2020513083 A JP 2020513083A JP 2020513083 A JP2020513083 A JP 2020513083A JP 6927419 B2 JP6927419 B2 JP 6927419B2
- Authority
- JP
- Japan
- Prior art keywords
- mask
- information
- sound source
- estimation
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 203
- 238000013528 artificial neural network Methods 0.000 claims description 185
- 230000008569 process Effects 0.000 claims description 126
- 238000012545 processing Methods 0.000 claims description 96
- 238000012804 iterative process Methods 0.000 claims description 71
- 230000006870 function Effects 0.000 claims description 42
- 239000000284 extract Substances 0.000 claims description 5
- 238000000926 separation method Methods 0.000 description 34
- 239000013598 vector Substances 0.000 description 33
- 238000010586 diagram Methods 0.000 description 16
- 230000003252 repetitive effect Effects 0.000 description 12
- 101100058681 Drosophila melanogaster Btk29A gene Proteins 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 11
- 238000012986 modification Methods 0.000 description 11
- 230000004048 modification Effects 0.000 description 11
- 230000005236 sound signal Effects 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 7
- 101100534229 Caenorhabditis elegans src-2 gene Proteins 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 101100534223 Caenorhabditis elegans src-1 gene Proteins 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
まず、実施の形態1に係るマスク推定装置の構成について説明する。実施の形態1に係るマスク推定装置は、一度に全てのマスクを推定させるのではなく、一部の音源に対応するマスクを推定する処理を繰り返し行うことによって、全ての音源に対応するマスクの推定を行う。
以上説明したように、本実施の形態では、入力音響信号と残留マスクとをマスク推定部11に入力し、マスク推定部11によるマスク情報の推定処理を行う。これを、残留マスクを変更しながら繰り返し処理を行う。つまり、各繰り返し処理において、マスク推定部11には異なる残留マスク(補助情報)が入力される。図2は、図1に示すマスク推定装置10におけるマスク推定処理の一例を示す図である。ここで、繰り返し処理の回数のインデックスをi(≧1)とし、入力音響信号をYとする。i回目の繰り返し処理においてNNに入力される残留マスクをRiとする。
マスク推定部11を実現するNNは、入力音響信号と残留マスクとの入力を受けて、入力音響信号のうち残留マスクにより特定される信号に着目して、当該信号に含まれるであろう1つの音源に対応する信号を抽出するマスク情報の推定結果(推定マスク情報)と停止フラグとを出力する。
マスク推定部11を構成するNNは、入力された入力音響信号Yと残留マスクRiに基づいて、入力音響信号のうち残留マスクRiにより特定される信号に着目して、当該信号に含まれるいずれか1つの音源に対応する信号を抽出するマスクの推定結果を推定マスク情報として出力する。
続いて、制御部13の処理について説明する。制御部13は、マスク推定部11が停止フラグを出力する場合には、停止フラグに基づき、繰り返し処理を継続するか否かを決定し、繰り返し処理を継続する場合には、i回目までの各繰り返し処理で求めた推定マスク情報^M1,・・・,^Miを用いて次のマスク推定部11の入力とする残留マスクRi+1を計算し、マスク推定部11に入力するとともに、マスク推定部11の処理を実行させるよう制御する。ここで、マスク推定部11が停止フラグを出力しない場合は、i回目までの各繰り返し処理で求めた推定マスク情報^M1,・・・,^Miに基づき、繰り返し処理を継続するか否かを決定してもよい。例えば、繰り返し処理で求めた推定マスク情報^M1,・・・,^Miに基づいて残留マスクRi+1を計算し、入力音響信号に残留マスクRi+1を適用したときに残りの信号が存在しない(または残りの信号に音源からの音が含まれない)ならば、繰り返し処理を停止することとすればよい。
次に、図2を参照して、マスク推定装置10におけるマスク推定処理の流れを説明する。
次に、図3を参照して、マスク推定装置10におけるマスク推定処理の処理手順を説明する。図3は、図1に示すマスク推定装置10におけるマスク推定処理の処理手順のフローチャートである。
本実施の形態1に係るマスク推定装置10は、マスク推定部11のNNが、入力音響信号と残留マスクとの入力を受けて、入力音響信号に含まれる1つの音源の推定マスク情報を推定して出力するとともに停止フラグを出力する。制御部13は、推定マスク情報と残留マスクに基づいて、新たな残留マスクを計算し、停止フラグと新たな残留マスクとの少なくとも一つが所定の停止条件を満たすまで、新たな残留マスクと入力音響信号とをマスク推定部11に入力し、マスク情報の推定処理を繰り返し実行させるようにマスク推定部11を制御する。
次に、実施の形態2について説明する。実施の形態1では、マスク推定部11のNNのパラメータは予め学習済みである物としたが、本実施の形態2では、このNNのパラメータの学習を行う学習装置について説明する。図4は、実施の形態2に係る学習装置の構成の一例を示す図である。
パラメータ更新部24で用いる損失の値は、例えば、所定の損失関数に基づき求めてもよい。損失関数Jの一例を以下に示す。損失関数Jは、例えば、(1)式により与えられる。
まず、(1)式の各項のうち、J(mse)について説明する。J(mse)は、推定されたマスク情報により抽出される信号と正解の音源の信号との平均二乗誤差である。
次に、(1)式の各項のうち、J(flag)について説明する。J(flag)は、停止フラグに関する損失である。J(flag)は、(4)式により与えられる。
次に、(1)式の各項のうち、J(res−mask)について説明する。J(res−mask)は、残留マスクに関する損失である。J(res−mask)は、残留マスクによって全時間周波数ビンをカバーすること、及び、学習用音響信号Yの全音源を抽出することに対するNNの損失である。ここで、本実施の形態2では、J(res−mask)について、(5)式のように制限をかける。言い換えると、J(res−mask)に対し、残留マスクRiを負値として処理しないよう最大関数を適用した。
次に、図5を参照して、学習装置20における学習処理の流れを説明する。図5は、図4に示す学習装置20における学習処理の一例を示す図である。
次に、図6を参照して、学習装置20における学習処理の処理手順を説明する。図6は、図4に示す学習装置20における学習処理の処理手順のフローチャートである。
学習装置20では、パラメータ更新部24が、推定されたマスク情報と正解との近さを示す損失関数を用いて、マスク情報の推定値に対する損失を求め、該求めた損失の値に応じてNNのパラメータの更新を実行する。この際、パラメータ更新部24は、マスク情報の推定値が正解に近づくほど小さな値となるような損失関数を用いて損失を求め、求めた損失が所定の閾値以上である場合に、NNの各パラメータの更新を行うことにより、NNのパラメータを適正化する。
次に、実施の形態2の変形例1について説明する。
次に、本実施の形態2の変形例2について説明する。本実施の形態2の変形例2では、全ての繰り返し処理において、正解のマスクを正確に分離して生成される正しい残留マスクを、マスク推定部21の入力として用いた。本実施の形態2の変形例2では、マスク推定部21の入力を、推定されたマスク情報に基づく残留マスクと、正解のマスクに基づく残留マスクとのいずれかに切り替える場合について説明する。すなわち、本実施の形態2の変形例2では、繰り返し実行されるマスク情報の推定処理と信号分離処理との一部の処理において、NNへの入力が、推定されたマスク情報に基づく残留マスクではなく、正解のマスク情報に基づいて生成される残留マスクである。
次に、本実施の形態2に係る学習方法と従来の学習方法とを評価した評価実験1について説明する。評価実験1は、音源分離実験である。
次に、評価実験2について説明する。評価実験2では、Res−maskモデル及びStop−flagについて、音源数数え上げ精度の評価を行った。
次に、実施の形態3について説明する。本実施の形態3では、実施の形態1に係るマスク推定装置10を有する信号分離装置について説明する。図7は、実施の形態3に係る信号分離装置の一例を示す図である。
次に、図8を参照して、信号分離装置30における信号分離処理の処理手順を説明する。図8は、図7に示す信号分離装置30における学習処理の処理手順のフローチャートである。
本実施の形態3に係る信号分離装置30では、実施の形態1に係るマスク推定装置10を適用し、NNのノード数に関係なく、任意の音源数の入力音響信号に対してマスク情報を推定することができる。このため、信号分離装置30によれば、いずれの音源に対しても適切なマスクをかけることができ、正確に分離された音響信号を出力することができる。
次に、実施の形態4について説明する。実施の形態4では、マスク推定装置10の他の処理の一例について説明する。
(参考文献1)H. Huang, K. C. Sim:"An investigation of augmenting speaker representations to improve speaker normalisation for DNN-based speech recognition" in Proc. of IEEE ICASSP, pp.4610-4613, 2015.
次に、図9を参照して、実施の形態4に係るマスク推定処理について説明する。図9は、実施の形態4に係るマスク推定処理の一例を示す図である。
まず、マスク推定処理のうち、第1時間ブロックに対する1回目の繰り返し処理について説明する。NNには、第1時間ブロックの入力音響信号Y1と残留マスクR1,1と音源特定情報S1,1とが入力される。ここで、残留マスクの第1インデックスは時間ブロックのインデックスb(b=1,2)である。残留マスクの第2インデックスiは、当該時間ブロックでのマスク推定処理の繰り返し処理のインデックスである。
まず、第2時間ブロックにおける1回目の繰り返し処理について説明する。NNには、第2時間ブロックの入力音響信号Y2と残留マスクR2,1と第1時間ブロックの1回目の繰り返し処理で出力された音源特定情報S2,1とが入力される。
次に、図10を参照して、実施の形態4に係るマスク推定処理の処理手順を説明する。図10は、実施の形態4に係るマスク推定処理の処理手順のフローチャートである。
実施の形態4において、マスク推定装置10では、NNの入力として音源特定情報を追加する。これによって、実施の形態4では、各マスク推定処理で推定する音源を音源特定情報を基に指定し、指定された音源についてのマスクの推定結果を出力する。言い換えると、実施の形態4では、マスク推定装置10は、各時間ブロックにおいて、i回目(i=1,2,3,・・・)の繰り返し処理で推定されるマスクに対応する音源が同じ音源になる。
次に、実施の形態5について説明する。実施の形態4では、マスク推定部11のNNのパラメータは予め学習済みであるものとしたが、本実施の形態5では、このNNのパラメータの学習を行う学習装置について説明する。実施の形態5に係る学習装置の構成は、図4に示す実施の形態2に係る学習装置の構成と同じ構成を有する。
次に、図11を参照して、実施の形態5に係る学習処理の流れを説明する。図10は、実施の形態5に係る学習処理の一例を示す図である。
次に、図12を参照して、学習装置20における学習処理の処理手順を説明する。図12は、実施の形態5に係る学習処理の処理手順のフローチャートである。
本実施の形態5では、上記の処理を行うことによって、実施の形態4に係るマスク推定処理を行うNNの各パラメータの更新を行うことにより、NNのパラメータを適正化することができる。
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
図13は、プログラムが実行されることにより、マスク推定装置10、学習装置20及び信号分離装置30が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
11,21 マスク推定部
13,23 制御部
20 学習装置
24 パラメータ更新部
30 信号分離装置
31 音源分離部
Claims (16)
- 複数の音源からの音が混合された音響信号である入力音響信号と補助情報とが入力され、前記補助情報により特定される前記入力音響信号中の一部または全部の信号に含まれる何れか1つの音源からの音を抽出するマスクを特定するマスク情報の推定結果を出力するニューラルネットワークと、
前記ニューラルネットワークによりマスク情報の推定結果を出力させる処理を繰り返し実行させる制御部と、
を有し、
前記制御部は、繰り返し毎に、異なる補助情報を前記ニューラルネットワークに入力することで、異なる音源に対応する前記マスク情報の推定結果を出力させる
ことを特徴とする推定装置。 - 前記補助情報は、前記入力音響信号のうち、過去に求めたマスク情報の推定結果に対応する音源の信号を前記入力音響信号から取り除いた残りの信号を特定する情報である
ことを特徴とする請求項1に記載の推定装置。 - 前記補助情報として、前記ニューラルネットワークが抽出する音源を特定する音源特定情報をさらに含み、
前記ニューラルネットワークは、前記音源特定情報に対応する音源からの音を抽出するマスクを特定するマスク情報の推定結果を出力する
ことを特徴とする請求項2に記載の推定装置。 - 複数の音源からの音が混合された音響信号である学習用の入力音響信号と補助情報とが入力され、前記補助情報により特定される前記学習用の入力音響信号中の一部または全部の信号に含まれる何れか1つの音源からの音を抽出するマスクを特定するマスク情報の推定結果を出力するニューラルネットワークと、
前記ニューラルネットワークによりマスク情報の推定結果を出力させる処理を繰り返し実行させる制御部と、
前記ニューラルネットワークにより求めたマスク情報の推定結果に対応する情報と、前記学習用の入力音響信号に対して予め与えられた正解のマスク情報に対応する情報との比較結果に基づいて、前記ニューラルネットワークの各パラメータを更新するパラメータ更新部と、
を有し、
前記制御部は、繰り返し毎に、異なる補助情報を前記ニューラルネットワークに入力することで、異なる音源に対応する前記マスク情報の推定結果を出力させる
ことを特徴とする学習装置。 - 前記補助情報は、前記入力音響信号のうち、過去に求めたマスク情報の推定結果に対応する音源の信号を前記入力音響信号から取り除いた残りの信号を特定する情報である
ことを特徴とする請求項4に記載の学習装置。 - 前記パラメータ更新部は、前記マスク情報の推定結果と前記正解のマスク情報とが近づくように、前記ニューラルネットワークの各パラメータを更新することを特徴とする請求項4または5に記載の学習装置。
- 前記ニューラルネットワークは、前記マスク情報の推定結果に加えて、前記制御部において繰り返し処理を継続するか否かを表す停止フラグを出力し、
前記パラメータ更新部は、前記停止フラグと、予め与えられた当該停止フラグの正解とが近づくように、前記ニューラルネットワークの各パラメータを更新することを特徴とする請求項6に記載の学習装置。 - 前記パラメータ更新部は、前記制御部の各繰り返し処理における補助情報と、予め与えられた当該補助情報の正解とが近づくように、前記ニューラルネットワークの各パラメータを更新することを特徴とする請求項6に記載の学習装置。
- 前記ニューラルネットワークは、前記マスク情報の推定結果に加えて、前記制御部において繰り返し処理を継続するか否かを表す停止フラグを出力し、
前記パラメータ更新部は、前記停止フラグと、予め与えられた当該停止フラグの正解とが近づくように、前記ニューラルネットワークの各パラメータを更新することを特徴とする請求項8に記載の学習装置。 - 前記補助情報として、前記ニューラルネットワークが抽出する音源を特定する音源特定情報をさらに含み、
前記ニューラルネットワークは、前記音源特定情報に対応する音源からの音を抽出するマスクを特定するマスク情報の推定結果を出力する
ことを特徴とする請求項5に記載の学習装置。 - 前記パラメータ更新部は、前記マスク情報の推定結果と前記正解のマスク情報とが近づくように、前記ニューラルネットワークの各パラメータを更新することを特徴とする請求項10に記載の学習装置。
- 前記パラメータ更新部は、前記制御部の各繰り返し処理における補助情報と、予め与えられた当該補助情報の正解とが近づくように、前記ニューラルネットワークの各パラメータを更新することを特徴とする請求項11に記載の学習装置。
- 前記ニューラルネットワークは、前記マスク情報の推定結果に加えて、前記制御部において繰り返し処理を継続するか否かを表す停止フラグを出力し、
前記パラメータ更新部は、前記停止フラグと、予め与えられた当該停止フラグの正解とが近づくように、前記ニューラルネットワークの各パラメータを更新することを特徴とする請求項11または12に記載の学習装置。 - 推定装置が実行する推定方法であって、
複数の音源からの音が混合された音響信号である入力音響信号と補助情報とが入力され、ニューラルネットワークにより、前記補助情報により特定される前記入力音響信号中の一部または全部の信号に含まれる何れか1つの音源からの音を抽出するマスクを特定するマスク情報の推定結果を得る推定工程と、
前記推定工程によりマスク情報の推定結果を得る処理を繰り返し実行させる制御工程と、
を含み、
前記制御工程は、繰り返し毎に、異なる補助情報を前記ニューラルネットワークに入力することで、異なる音源に対応する前記マスク情報の推定結果を得る
ことを特徴とする推定方法。 - 学習装置が実行する学習方法であって、
複数の音源からの音が混合された音響信号である学習用の入力音響信号と補助情報とが入力され、ニューラルネットワークにより、前記補助情報により特定される前記学習用の入力音響信号中の一部または全部の信号に含まれる何れか1つの音源からの音を抽出するマスクを特定するマスク情報の推定結果を得る推定工程と、
前記推定工程によりマスク情報の推定結果を得る処理を繰り返し実行させる制御工程と、
前記推定工程により求めたマスク情報の推定結果に対応する情報と、前記学習用の入力音響信号に対して予め与えられた正解のマスク情報に対応する情報との比較結果に基づいて、前記ニューラルネットワークの各パラメータを更新するパラメータ更新工程と、
を含み、
前記制御工程は、繰り返し毎に、異なる補助情報を前記ニューラルネットワークに入力することで、異なる音源に対応する前記マスク情報の推定結果を得るものである
ことを特徴とする学習方法。 - コンピュータを、請求項1乃至3のいずれか一項に記載の推定装置または請求項4乃至13のいずれか一項に記載の学習装置として機能させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018076507 | 2018-04-12 | ||
JP2018076507 | 2018-04-12 | ||
PCT/JP2019/003023 WO2019198306A1 (ja) | 2018-04-12 | 2019-01-29 | 推定装置、学習装置、推定方法、学習方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019198306A1 JPWO2019198306A1 (ja) | 2021-02-12 |
JP6927419B2 true JP6927419B2 (ja) | 2021-08-25 |
Family
ID=68164101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020513083A Active JP6927419B2 (ja) | 2018-04-12 | 2019-01-29 | 推定装置、学習装置、推定方法、学習方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11456003B2 (ja) |
JP (1) | JP6927419B2 (ja) |
WO (1) | WO2019198306A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6821615B2 (ja) * | 2018-02-22 | 2021-01-27 | 日本電信電話株式会社 | マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム |
KR20200082227A (ko) * | 2018-12-28 | 2020-07-08 | 한국전자통신연구원 | 오디오 신호를 위한 손실 함수 결정 방법 및 손실 함수 결정 장치 |
KR102190986B1 (ko) * | 2019-07-03 | 2020-12-15 | 주식회사 마인즈랩 | 개별 화자 별 음성 생성 방법 |
JP7293162B2 (ja) * | 2020-04-08 | 2023-06-19 | 日本電信電話株式会社 | 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム |
CN111583954B (zh) * | 2020-05-12 | 2021-03-30 | 中国人民解放军国防科技大学 | 一种说话人无关单通道语音分离方法 |
JP7387565B2 (ja) | 2020-09-16 | 2023-11-28 | 株式会社東芝 | 信号処理装置、学習済みニューラルネットワーク、信号処理方法及び信号処理プログラム |
CN114818838B (zh) * | 2022-06-30 | 2022-09-13 | 中国科学院国家空间科学中心 | 基于像元时域分布学习的低信噪比运动点目标检测方法 |
WO2024030338A1 (en) * | 2022-08-05 | 2024-02-08 | Dolby Laboratories Licensing Corporation | Deep learning based mitigation of audio artifacts |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5404377A (en) * | 1994-04-08 | 1995-04-04 | Moses; Donald W. | Simultaneous transmission of data and audio signals by means of perceptual coding |
JP4157581B2 (ja) * | 2004-12-03 | 2008-10-01 | 本田技研工業株式会社 | 音声認識装置 |
US8392185B2 (en) * | 2008-08-20 | 2013-03-05 | Honda Motor Co., Ltd. | Speech recognition system and method for generating a mask of the system |
US9100734B2 (en) * | 2010-10-22 | 2015-08-04 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation |
JP5791081B2 (ja) * | 2012-07-19 | 2015-10-07 | 日本電信電話株式会社 | 音源分離定位装置、方法、及びプログラム |
US9390712B2 (en) * | 2014-03-24 | 2016-07-12 | Microsoft Technology Licensing, Llc. | Mixed speech recognition |
US20160071526A1 (en) * | 2014-09-09 | 2016-03-10 | Analog Devices, Inc. | Acoustic source tracking and selection |
US9881631B2 (en) * | 2014-10-21 | 2018-01-30 | Mitsubishi Electric Research Laboratories, Inc. | Method for enhancing audio signal using phase information |
US9818431B2 (en) * | 2015-12-21 | 2017-11-14 | Microsoft Technoloogy Licensing, LLC | Multi-speaker speech separation |
US10249305B2 (en) * | 2016-05-19 | 2019-04-02 | Microsoft Technology Licensing, Llc | Permutation invariant training for talker-independent multi-talker speech separation |
TWI622043B (zh) * | 2016-06-03 | 2018-04-21 | 瑞昱半導體股份有限公司 | 聲源分離方法與裝置 |
US10460727B2 (en) * | 2017-03-03 | 2019-10-29 | Microsoft Technology Licensing, Llc | Multi-talker speech recognizer |
US10839822B2 (en) * | 2017-11-06 | 2020-11-17 | Microsoft Technology Licensing, Llc | Multi-channel speech separation |
US10546593B2 (en) * | 2017-12-04 | 2020-01-28 | Apple Inc. | Deep learning driven multi-channel filtering for speech enhancement |
US10522167B1 (en) * | 2018-02-13 | 2019-12-31 | Amazon Techonlogies, Inc. | Multichannel noise cancellation using deep neural network masking |
-
2019
- 2019-01-29 US US17/046,311 patent/US11456003B2/en active Active
- 2019-01-29 JP JP2020513083A patent/JP6927419B2/ja active Active
- 2019-01-29 WO PCT/JP2019/003023 patent/WO2019198306A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2019198306A1 (ja) | 2019-10-17 |
US20210366502A1 (en) | 2021-11-25 |
US11456003B2 (en) | 2022-09-27 |
JPWO2019198306A1 (ja) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6927419B2 (ja) | 推定装置、学習装置、推定方法、学習方法及びプログラム | |
CN107564513B (zh) | 语音识别方法及装置 | |
JP6671020B2 (ja) | 対話行為推定方法、対話行為推定装置及びプログラム | |
JP5423670B2 (ja) | 音響モデル学習装置および音声認識装置 | |
CN110517664B (zh) | 多方言识别方法、装置、设备及可读存储介质 | |
WO2019102884A1 (ja) | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 | |
CN107851434A (zh) | 使用自适应增量学习方法的语音识别系统和方法 | |
CN110349597B (zh) | 一种语音检测方法及装置 | |
JP6821615B2 (ja) | マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム | |
JP6517760B2 (ja) | マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム | |
WO2020045313A1 (ja) | マスク推定装置、マスク推定方法及びマスク推定プログラム | |
JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
JP2017134321A (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
US8712936B2 (en) | Information processing apparatus, information processing method, and program | |
JP6910002B2 (ja) | 対話行為推定方法、対話行為推定装置及びプログラム | |
Ozerov et al. | GMM-based classification from noisy features | |
JP2013167698A (ja) | 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム | |
CN110708619B (zh) | 一种智能设备的词向量训练方法及装置 | |
JP2019095599A (ja) | 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム | |
US20220122584A1 (en) | Paralinguistic information estimation model learning apparatus, paralinguistic information estimation apparatus, and program | |
Saleem et al. | A discriminative unsupervised method for speaker recognition using deep learning | |
US11996086B2 (en) | Estimation device, estimation method, and estimation program | |
JP6734237B2 (ja) | 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム | |
JP2019193073A (ja) | 音源分離装置、その方法、およびプログラム | |
JP7485050B2 (ja) | 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法、および、学習プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200811 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A801 Effective date: 20200811 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20200811 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210706 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210719 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6927419 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |