JP2021515277A - オーディオ信号処理システム、及び入力オーディオ信号を変換する方法 - Google Patents
オーディオ信号処理システム、及び入力オーディオ信号を変換する方法 Download PDFInfo
- Publication number
- JP2021515277A JP2021515277A JP2020567351A JP2020567351A JP2021515277A JP 2021515277 A JP2021515277 A JP 2021515277A JP 2020567351 A JP2020567351 A JP 2020567351A JP 2020567351 A JP2020567351 A JP 2020567351A JP 2021515277 A JP2021515277 A JP 2021515277A
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- spectrogram
- module
- spectrograms
- estimated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 248
- 238000012545 processing Methods 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 claims abstract description 104
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 68
- 230000008569 process Effects 0.000 claims abstract description 36
- 239000000284 extract Substances 0.000 claims abstract description 4
- 239000000203 mixture Substances 0.000 claims description 85
- 230000015654 memory Effects 0.000 claims description 67
- 238000013528 artificial neural network Methods 0.000 claims description 38
- 238000005259 measurement Methods 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 2
- 230000007613 environmental effect Effects 0.000 claims description 2
- 238000000926 separation method Methods 0.000 description 69
- 230000006870 function Effects 0.000 description 51
- 238000010586 diagram Methods 0.000 description 36
- 238000002474 experimental method Methods 0.000 description 32
- 238000012549 training Methods 0.000 description 29
- 238000003860 storage Methods 0.000 description 24
- 238000004364 calculation method Methods 0.000 description 23
- 239000013598 vector Substances 0.000 description 22
- 238000004891 communication Methods 0.000 description 17
- 230000000873 masking effect Effects 0.000 description 16
- 230000004913 activation Effects 0.000 description 9
- 238000002955 isolation Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 230000006403 short-term memory Effects 0.000 description 7
- 230000002457 bidirectional effect Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000003384 imaging method Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 230000007787 long-term memory Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000007639 printing Methods 0.000 description 5
- 230000002441 reversible effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000859 sublimation Methods 0.000 description 2
- 230000008022 sublimation Effects 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本開示は、オーディオ信号に関し、より詳細には、単一チャネル話者に依存しない複数話者の音声分離のためのエンドツーエンド手法を用いることに関する。
本開示のいくつかの実施形態は、単一チャネル話者に依存しない複数話者の音声分離のためのエンドツーエンド手法を含み、ここで、時間−周波数(T−F)マスキング、短時間フーリエ変換(STFT)、及びその逆変換(逆STFT又はiSTFT)は、ディープネットワーク内の層として表される。実験中、いくつかの実験的手法は、本開示におけるように再構成された信号に対する損失を計算するのではなく、対象STFT振幅に基づく代替損失を用いた(実験的手法)。しかしながら、これらの実験的手法は、位相不整合性によって招かれる再構成誤差を無視していた。本開示のいくつかの実施形態は、最良の分離のために最適化される、再構成された信号に対して直接規定される損失関数を含む。加えて、いくつかの実施形態は、一連のSTFT層及び逆STFT層として表される、位相再構成アルゴリズムの展開された反復を通じてトレーニングする。
位相再構成を介して良好な位相を導き出すために、実験を通じて、十分良好な振幅推定値をまず取得することが必要であることがわかった。更なる実験に基づいて、ディープクラスタリングの正則化能力を、マスク推論のエンドツーエンドトレーニングの容易さと組み合わせるマルチタスク学習手法の結果、個々のモデルにわたる大幅な改善がもたらされた。
本開示のいくつかの実施形態による、各混合体において分離されることになる複数の対象音声源が存在する。実験の1つの手法は、音声源ごとに独立して反復再構成を実行するグリフィンリムアルゴリズムを用いるものであった。一方で、本開示の実験における他の手法は、MISIアルゴリズムを利用して、各音声源の推定された振幅及び混合体位相から開始して各音声源のクリーンな位相を再構成した。ここで、各反復後の再構成された時間領域信号の総和は、混合体信号に等しくなるように制約することができる。実験から、推定された振幅は、反復中固定されたままであるが、一方、各音声源の位相は、反復して再構成することができることが留意される。例えば、いくつかの手法は、後処理として唯一追加された位相再構成を含むものであり、これは、トレーニング中の目的関数の一部ではなく、再合成の前に、推定された信号の時間−周波数表現に対して計算された状態を保つ。
入力:混合体時間領域信号x、混合体複素スペクトログラムX、混合体位相∠X、c=1,...,Cについて、向上された振幅
出力:c=1,...,Cについて、再構成された位相
時間−周波数領域表現から波形を再構成するために実験中にテストされたMISI等の位相再構成アルゴリズムにおける第1のステップは、逆STFTを用いた。これらの手法のうちのいくつかは、iSTFTによって再構成された波形に対して計算される第1の目的関数(波形近似(WA)と表記される)を考慮し、iSTFTをマスク推論層の上部の層として表し、それにより、エンドツーエンド最適化を実行することができる。ラベル順列問題は、実験中に波形レベルにおいて全ての順列の最小L1損失を最小化することによって解決されることが後にわかった。モデルは、WAとしてこのようにしてトレーニングすることができることが留意される。このモデルをトレーニングする目的関数は、
いくつかの実施形態は、ニューラルネットワークにおける種々の決定論的層としてMISIアルゴリズム内の反復を展開する。これは、マスク推論層の上部にSTFT及びiSTFT動作を表すいくつかの層を更に伸長することによって達成することができる。MISIを通じてトレーニングするエンドツーエンド最適化を実行することによって、ネットワークは、後の反復位相再構成ステップを認識するようになるとともに、後続する処理に良好に適応した推定された振幅を生成するように学習することができ、したがって、分離のためのより良好な位相推定値が生成される。このようにしてトレーニングされたモデルは、WA−MISI−Kと表記され、ここで、K≧1は、展開されたMISI反復の数である。目的関数は、
(1を超える値を用いる活性化関数)
ディープ学習ベースT−Fマスキングの出力層においてシグモイドユニットを用いることができる。これは部分的には、シグモイドユニットは、実験に基づいて、理想比マスク(IRM:ideal ratio mask)及びその変形等、バイモーダル分布を有するデータを良好にモデル化することができるためである。T−Fマスクの可能な値を[0,1]に入るように制限することも、再構成のために混合体位相を用いる場合には合理的である。実際に、1よりも大きいT−Fマスク値は、理論上、音声源間の干渉が音声源の振幅よりも小さい混合体振幅をもたらす領域内にあることが必要とされることになるが、また、混合体位相は、そのような領域内のその音声源の位相とは異なる可能性が高く、この事例では、誤った方向において更に進むことよりも過抑制する(oversuppress)方が目的の方策の観点で報酬が高い。これは、最適化において位相再構成を考慮する場合にはもはや有効ではない。さらに、マスク値を0〜1に制限することにより、整合したSTFT領域から遠く離れた向上した振幅を取得する可能性がより高く、後の位相再構成の潜在的な困難性を提示する。
・二重シグモイド:2倍に乗算されたシグモイド非線形性;
・制限付きReLU:[0,2]に制限されたReLU非線形性;
・凸ソフトマックス:出力非線形性は、各T−F単位における音声源ごとの3次元ソフトマックスである。これは、値0、1、及び2の間の凸和、すなわち、y=[x0,x1,x2][0,1,2]Tを計算するのに用いられる。ここで、[x0,x1,x2]は、ソフトマックスの出力である。この活性化関数は、PSMのヒストグラムにおける0、1及び2に集中する3つのモードをモデル化するように設計される。
本開示の態様によれば、スペクトログラム推定器は、ディープニューラルネットワークを用いる。スペクトログラム推定器は、対象オーディオ信号ごとのマスク推定値を出力するマスク推定モジュールと、1つ以上の対象オーディオ信号についてのマスク推定値及び入力オーディオ信号を用いて、対象オーディオ信号ごとの推定されたスペクトログラムを出力するスペクトログラム推定出力モジュールとを含む。少なくとも1つのマスク推定値は、1よりも大きい。
以下の説明は、例示的な実施形態のみを提供し、本開示の範囲も、適用範囲も、構成も限定することを意図していない。そうではなく、例示的な実施形態の以下の説明は1つ以上の例示的な実施形態を実施することを可能にする説明を当業者に提供する。添付の特許請求の範囲に明記されているような開示された主題の趣旨及び範囲から逸脱することなく要素の機能及び配置に行うことができる様々な変更が意図されている。
Claims (19)
- 入力オーディオ信号を変換するオーディオ信号処理システムであって、前記入力オーディオ信号は、1つ以上の対象オーディオ信号の混合体を含み、前記オーディオ信号処理システムは、
記憶された実行可能命令と、記憶されたモジュールとを含むメモリであって、前記モジュールは、前記入力オーディオ信号を変換して、対象オーディオ信号推定値を取得するようになっている、メモリと、
前記メモリと通信するプロセッサであって、前記プロセッサは、
オーディオ特徴シーケンスを抽出し、前記オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力するために、前記入力オーディオ信号をスペクトログラム推定器に入力することであって、前記一組の推定されたスペクトログラムは、対象オーディオ信号ごとの推定されたスペクトログラムを含む、入力することと、
スペクトログラム精緻化モジュールを用いて、前記一組の推定されたスペクトログラム及び前記オーディオ特徴シーケンスを処理することであって、その結果、一組の精緻化されたスペクトログラムを出力し、前記一組の精緻化されたスペクトログラムは、対象オーディオ信号ごとの精緻化されたスペクトログラムを含むようになっており、前記スペクトログラム精緻化モジュールの処理は、反復再構成アルゴリズムに基づいている、処理することと、
信号精緻化モジュールを用いて、前記1つ以上の対象オーディオ信号についての前記一組の精緻化されたスペクトログラムを処理することであって、その結果、前記対象オーディオ信号推定値を取得し、対象オーディオ信号ごとに対象オーディオ信号推定値が存在するようになっている、処理することと、
を行うことによって、前記モジュールのステップを実施する、プロセッサと、
最適化された対象オーディオ信号推定値を出力する出力インターフェースと、
を備え、
前記モジュールは、前記メモリに記憶された最適化器を用いて誤差を最小化することによって最適化され、前記誤差は、前記一組の推定されたスペクトログラムにおける誤差、前記一組の精緻化されたスペクトログラムにおける誤差、前記一組の精緻化されたスペクトログラムにおける整合性測定値を含む誤差、前記対象オーディオ信号推定値における誤差、又はこれらの何らかの組み合わせのうちの1つを含む、オーディオ信号処理システム。 - 前記スペクトログラム推定器は、ディープニューラルネットワークを用いる、請求項1に記載のオーディオ信号処理システム。
- 前記スペクトログラム推定器は、対象オーディオ信号ごとのマスク推定値を出力するマスク推定モジュールと、前記1つ以上の対象オーディオ信号についての前記マスク推定値及び前記入力オーディオ信号を用いて、前記対象オーディオ信号ごとの推定されたスペクトログラムを出力するスペクトログラム推定出力モジュールとを含む、請求項1に記載のオーディオ信号処理システム。
- 少なくとも1つの前記マスク推定値は、1よりも大きい、請求項3に記載のオーディオ信号処理システム。
- 前記スペクトログラム精緻化モジュールの処理は、
前記一組の推定されたスペクトログラム及び入力オーディオ特徴シーケンスに対して実行される反復手順を規定することと、
前記反復手順の反復ごとに1つの層が存在するように、前記反復手順を一組の層に展開することであって、各層は、一組の固定されたネットワークパラメータを含む、展開することと、
以前の反復の層の前記一組の固定されたネットワークパラメータからのいくつかの固定されたネットワークパラメータを、トレーニングするべき変数として用いてニューラルネットワークを形成し、各変数がそれらの対応する層に別個に適用可能であるように別個の変数としてこれらの変数を考慮することによって、前記以前の反復の層間でこれらの変数の関連付けを解くことと、
前記ニューラルネットワークをトレーニングして、トレーニングされたニューラルネットワークを取得することと、
前記トレーニングされたニューラルネットワークを用いて前記一組の推定されたスペクトログラム及び前記オーディオ特徴シーケンスを変換して、前記一組の精緻化されたスペクトログラムを取得することと、
を含む、請求項1に記載のオーディオ信号処理システム。 - 前記反復再構成アルゴリズムは、反復位相再構成アルゴリズムである、請求項1に記載のオーディオ信号処理システム。
- 前記反復位相再構成アルゴリズムは、多入力スペクトログラム逆変換(MISI)アルゴリズムである、請求項6に記載のオーディオ信号処理システム。
- 前記反復位相再構成アルゴリズムは、グリフィンリムアルゴリズムである、請求項6に記載のオーディオ信号処理システム。
- 前記対象オーディオ信号推定値における誤差は、前記対象オーディオ信号推定値と、基準対象オーディオ信号との間の距離を含む、請求項1に記載のオーディオ信号処理システム。
- 前記対象オーディオ信号推定値における誤差は、前記対象オーディオ信号推定値のスペクトログラムと、基準対象オーディオ信号のスペクトログラムとの間の距離を含む、請求項1に記載のオーディオ信号処理システム。
- 前記スペクトログラム推定器によって抽出することは、特徴抽出モジュールを含み、前記特徴抽出モジュールは、前記入力オーディオ信号から前記入力オーディオ信号を抽出するようになっている、請求項1に記載のオーディオ信号処理システム。
- 受信オーディオ信号は、1人以上の話者、雑音、音楽、環境音、機械音又はこれらの何らかの組み合わせのうちの1つを含む、請求項1に記載のオーディオ信号処理システム。
- 入力オーディオ信号を変換する方法であって、
入力オーディオ信号を変換するモジュールを規定するステップであって、前記入力オーディオ信号は、1つ以上の対象オーディオ信号の混合体を含むようになっており、前記モジュールは、前記入力オーディオ信号を変換して、対象オーディオ信号推定値を取得する、ステップと、
メモリと通信するプロセッサであって、前記プロセッサは、
前記入力オーディオ信号をモデルのスペクトログラム推定器に入力して、オーディオ特徴シーケンスを抽出し、前記オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力するステップであって、前記一組の推定されたスペクトログラムは、対象オーディオ信号ごとの推定されたスペクトログラムを含む、ステップと、
前記モデルのスペクトログラム精緻化モジュールを用いて、前記一組の推定されたスペクトログラム及び前記オーディオ特徴シーケンスを処理して、一組の精緻化されたスペクトログラムを出力するステップであって、前記一組の精緻化されたスペクトログラムは、対象オーディオ信号ごとの精緻化されたスペクトログラムを含むようになっており、前記スペクトログラム精緻化モジュールの処理は、反復再構成アルゴリズムに基づいている、ステップと、
前記モデルの信号精緻化モジュールを用いて、前記1つ以上の対象オーディオ信号についての前記一組の精緻化されたスペクトログラムを処理して、前記対象オーディオ信号推定値を取得するステップであって、対象オーディオ信号ごとに対象オーディオ信号推定値が存在するようになっている、ステップと、
を行うことによって、前記モジュールのステップを実施する、プロセッサと、
最適化された対象オーディオ信号推定値を出力する出力インターフェースと、
を含み、
前記モジュールは、メモリに記憶された最適化器を用いて誤差を最小化することによって最適化され、前記誤差は、前記一組の推定されたスペクトログラムにおける誤差、前記一組の精緻化されたスペクトログラムにおける誤差、前記一組の精緻化されたスペクトログラムにおける整合性測定値を含む誤差、前記対象オーディオ信号推定値における誤差、又はこれらの何らかの組み合わせのうちの1つを含み、
前記ステップは、記憶された実行可能命令を有する前記メモリと通信するプロセッサによって実行され、前記モジュールは、前記メモリに記憶されるようになっている、方法。 - 前記スペクトログラム推定器は、対象オーディオ信号ごとのマスク推定値を出力するマスク推定モジュールと、前記1つ以上の対象オーディオ信号についての前記マスク推定値及び前記入力オーディオ信号を用いて、対象オーディオ信号ごとの前記推定されたスペクトログラムを出力するスペクトログラム推定出力モジュールとを含み、少なくとも1つのマスク推定値は、1よりも大きい、請求項13に記載の方法。
- 前記スペクトログラム精緻化モジュールの処理は、
前記一組の推定されたスペクトログラム及び入力オーディオ特徴シーケンスに対して実行される反復手順を規定することと、
前記反復手順の反復ごとに1つの層が存在するように、前記反復手順を一組の層に展開することであって、各層は、一組の固定されたネットワークパラメータを含む、展開することと、
以前の反復の層の前記一組の固定されたネットワークパラメータからのいくつかの固定されたネットワークパラメータを、トレーニングするべき変数として用いてニューラルネットワークを形成し、各変数がそれらの対応する層に別個に適用可能であるように別個の変数としてこれらの変数を考慮することによって、前記以前の反復の層間でこれらの変数の関連付けを解くことと、
前記ニューラルネットワークをトレーニングして、トレーニングされたニューラルネットワークを取得することと、
前記トレーニングされたニューラルネットワークを用いて前記一組の推定されたスペクトログラム及び前記オーディオ特徴シーケンスを変換して、前記一組の精緻化されたスペクトログラムを取得することと、
を含む、請求項13に記載の方法。 - 前記反復再構成アルゴリズムは、反復位相再構成アルゴリズムである、請求項13に記載の方法。
- 前記最適化器は、勾配降下ベースアルゴリズムを含む、請求項13に記載の方法。
- 入力オーディオ信号を変換するオーディオ信号処理システムであって、
記憶された実行可能命令と、記憶されたモジュールとを含むメモリであって、前記モジュールは、入力オーディオ信号を変換して、対象オーディオ信号推定値を取得するようになっており、前記入力オーディオ信号は、1つ以上の対象オーディオ信号の混合体を含む、メモリと、
前記メモリと通信するプロセッサであって、前記プロセッサは、
前記プロセッサと通信する入力インターフェースを介して前記入力オーディオ信号を受信することと、
前記入力オーディオ信号をスペクトログラム推定器に入力して、オーディオ特徴シーケンスを抽出し、前記オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力することであって、前記一組の推定されたスペクトログラムは、対象オーディオ信号ごとの推定されたスペクトログラムを含む、入力することと、
スペクトログラム精緻化モジュールを用いて、前記一組の推定されたスペクトログラム及び前記オーディオ特徴シーケンスを処理して、一組の精緻化されたスペクトログラムを出力することであって、前記一組の精緻化されたスペクトログラムは、対象オーディオ信号ごとの精緻化されたスペクトログラムを含むようになっており、前記スペクトログラム精緻化モジュールの処理は、反復再構成アルゴリズムに基づいている、処理することと、
信号精緻化モジュールを用いて、前記1つ以上の対象オーディオ信号についての前記一組の精緻化されたスペクトログラムを処理して、前記対象オーディオ信号推定値を取得することであって、対象オーディオ信号ごとに対象オーディオ信号推定値が存在するようになっている、処理することと、
を行うことによって、前記モジュールのステップを実施する、プロセッサと、
最適化された対象オーディオ信号推定値を出力する出力インターフェースと、
を備え、
前記モジュールは、前記メモリに記憶された最適化器を用いて誤差を最小化することによって最適化され、前記誤差は、前記一組の推定されたスペクトログラムにおける誤差、前記一組の精緻化されたスペクトログラムにおける誤差、前記一組の精緻化されたスペクトログラムにおける整合性測定値を含む誤差、前記対象オーディオ信号推定値における誤差、又はこれらの何らかの組み合わせのうちの1つを含む、オーディオ信号処理システム。 - 入力オーディオ信号を変換するオーディオ信号処理システムであって、
環境から入力オーディオ信号を獲得するように構成された音検出デバイスと、
前記入力オーディオ信号を受信及び送信するように構成された信号入力インターフェースデバイスであって、前記入力オーディオ信号は、1つ以上の対象オーディオ信号の混合体を含む、信号入力インターフェースデバイスと、
前記入力オーディオ信号を処理するように構成されたオーディオ信号処理デバイスであって、前記オーディオ信号処理デバイスは、
データを入出力するように構成されたメモリに接続するように構成されたハードウェアプロセッサであって、前記ハードウェアプロセッサは、
前記メモリに記憶されたモジュールにアクセスするステップであって、前記モジュールは、前記入力オーディオ信号を変換して、対象オーディオ信号推定値を取得するようになっている、ステップと、
前記入力オーディオ信号を前記モジュールのスペクトログラム推定器に入力して、オーディオ特徴シーケンスを抽出し、前記オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力するステップであって、前記一組の推定されたスペクトログラムは、対象オーディオ信号ごとの推定されたスペクトログラムを含む、ステップと、
前記モジュールのスペクトログラム精緻化モジュールを用いて、前記一組の推定されたスペクトログラム及び前記オーディオ特徴シーケンスを処理して、一組の精緻化されたスペクトログラムを出力するステップであって、前記一組の精緻化されたスペクトログラムは、対象オーディオ信号ごとの精緻化されたスペクトログラムを含むようになっており、前記スペクトログラム精緻化モジュールの処理は、反復再構成アルゴリズムに基づいている、ステップと、
前記モジュールの信号精緻化モジュールを用いて、前記1つ以上の対象オーディオ信号についての前記一組の精緻化されたスペクトログラムを処理して、前記対象オーディオ信号推定値を取得するステップであって、対象オーディオ信号ごとに対象オーディオ信号推定値が存在するようになっている、ステップと、
を実行する、ハードウェアプロセッサと、
最適化された対象オーディオ信号推定値を出力する出力インターフェースと、
を備え、
前記モジュールは、前記メモリに記憶された最適化器を用いて誤差を最小化することによって最適化され、前記誤差は、前記一組の推定されたスペクトログラムにおける誤差、前記一組の精緻化されたスペクトログラムにおける誤差、前記一組の精緻化されたスペクトログラムにおける整合性測定値を含む誤差、前記対象オーディオ信号推定値における誤差、又はこれらの何らかの組み合わせのうちの1つを含む、オーディオ信号処理システム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862658567P | 2018-04-16 | 2018-04-16 | |
US62/658,567 | 2018-04-16 | ||
US15/983,256 US10529349B2 (en) | 2018-04-16 | 2018-05-18 | Methods and systems for end-to-end speech separation with unfolded iterative phase reconstruction |
US15/983,256 | 2018-05-18 | ||
PCT/JP2019/010433 WO2019202886A1 (en) | 2018-04-16 | 2019-03-07 | Audio signal processing system and method for transforming input audio signals |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021515277A true JP2021515277A (ja) | 2021-06-17 |
JP7034339B2 JP7034339B2 (ja) | 2022-03-11 |
Family
ID=68161902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020567351A Active JP7034339B2 (ja) | 2018-04-16 | 2019-03-07 | オーディオ信号処理システム、及び入力オーディオ信号を変換する方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10529349B2 (ja) |
EP (1) | EP3782153A1 (ja) |
JP (1) | JP7034339B2 (ja) |
CN (1) | CN111954904B (ja) |
WO (1) | WO2019202886A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230042468A1 (en) * | 2021-07-29 | 2023-02-09 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Dereverberation of Speech Signals |
JP7541960B2 (ja) | 2021-08-26 | 2024-08-29 | 日本電信電話株式会社 | 話者分離装置、話者分離方法及び話者分離プログラム |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6821615B2 (ja) * | 2018-02-22 | 2021-01-27 | 日本電信電話株式会社 | マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム |
CN108962237B (zh) * | 2018-05-24 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 混合语音识别方法、装置及计算机可读存储介质 |
CN108766440B (zh) * | 2018-05-28 | 2020-01-14 | 平安科技(深圳)有限公司 | 说话人分离模型训练方法、两说话人分离方法及相关设备 |
US11217254B2 (en) * | 2018-12-24 | 2022-01-04 | Google Llc | Targeted voice separation by speaker conditioned on spectrogram masking |
US11456007B2 (en) * | 2019-01-11 | 2022-09-27 | Samsung Electronics Co., Ltd | End-to-end multi-task denoising for joint signal distortion ratio (SDR) and perceptual evaluation of speech quality (PESQ) optimization |
US11069352B1 (en) * | 2019-02-18 | 2021-07-20 | Amazon Technologies, Inc. | Media presence detection |
CN113892136A (zh) * | 2019-05-28 | 2022-01-04 | 日本电气株式会社 | 信号提取系统、信号提取学习方法以及信号提取学习程序 |
US11521630B2 (en) * | 2020-10-02 | 2022-12-06 | Audioshake, Inc. | Deep learning segmentation of audio using magnitude spectrogram |
US11355134B2 (en) * | 2019-08-02 | 2022-06-07 | Audioshake, Inc. | Deep learning segmentation of audio using magnitude spectrogram |
US11295751B2 (en) * | 2019-09-20 | 2022-04-05 | Tencent America LLC | Multi-band synchronized neural vocoder |
CN111179961B (zh) * | 2020-01-02 | 2022-10-25 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、电子设备及存储介质 |
JP7264282B2 (ja) * | 2020-01-16 | 2023-04-25 | 日本電信電話株式会社 | 音声強調装置、学習装置、それらの方法、およびプログラム |
US20230088989A1 (en) * | 2020-02-21 | 2023-03-23 | Harman International Industries, Incorporated | Method and system to improve voice separation by eliminating overlap |
US20210319230A1 (en) * | 2020-04-10 | 2021-10-14 | Gracenote, Inc. | Keyframe Extractor |
US12073819B2 (en) | 2020-06-05 | 2024-08-27 | Google Llc | Training speech synthesis neural networks using energy scores |
CN111898420A (zh) * | 2020-06-17 | 2020-11-06 | 北方工业大学 | 一种唇语识别系统 |
CN111798866B (zh) * | 2020-07-13 | 2024-07-19 | 商汤集团有限公司 | 音频处理网络的训练及立体声重构方法和装置 |
CN111863009B (zh) * | 2020-07-15 | 2022-07-26 | 思必驰科技股份有限公司 | 上下文信息预测模型的训练方法及系统 |
CN111724807B (zh) * | 2020-08-05 | 2023-08-11 | 字节跳动有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
CN112183107B (zh) * | 2020-09-04 | 2024-08-20 | 华为技术有限公司 | 音频的处理方法和装置 |
CN112562707A (zh) * | 2020-11-30 | 2021-03-26 | 哈尔滨工程大学 | 一种单信道目标语音增强方法 |
CN112863538B (zh) * | 2021-02-24 | 2022-06-14 | 复旦大学 | 一种基于视听网络的多模态语音分离方法及装置 |
US11908454B2 (en) | 2021-12-01 | 2024-02-20 | International Business Machines Corporation | Integrating text inputs for training and adapting neural network transducer ASR models |
CN114446316B (zh) * | 2022-01-27 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 音频分离方法、音频分离模型的训练方法、装置及设备 |
US11869478B2 (en) | 2022-03-18 | 2024-01-09 | Qualcomm Incorporated | Audio processing using sound source representations |
CN114841195B (zh) * | 2022-03-30 | 2024-07-09 | 北京理工大学 | 航电空间信号建模方法和系统 |
CN115862669A (zh) * | 2022-11-29 | 2023-03-28 | 南京领行科技股份有限公司 | 一种保证乘车安全的方法、装置、电子设备及存储介质 |
CN116755092B (zh) * | 2023-08-17 | 2023-11-07 | 中国人民解放军战略支援部队航天工程大学 | 一种基于复数域长短期记忆网络的雷达成像平动补偿方法 |
CN117409799B (zh) * | 2023-09-25 | 2024-07-09 | 杭州来疯科技有限公司 | 音频信号处理系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011170190A (ja) * | 2010-02-19 | 2011-09-01 | Nippon Telegr & Teleph Corp <Ntt> | 信号分離装置、信号分離方法、および、信号分離プログラム |
JP2016042152A (ja) * | 2014-08-18 | 2016-03-31 | 日本放送協会 | 音声認識装置及びプログラム |
JP2018502319A (ja) * | 2015-07-07 | 2018-01-25 | 三菱電機株式会社 | 信号の1つ又は複数の成分を区別する方法 |
JP2018510374A (ja) * | 2015-02-26 | 2018-04-12 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006337851A (ja) * | 2005-06-03 | 2006-12-14 | Sony Corp | 音声信号分離装置及び方法 |
US20160071526A1 (en) | 2014-09-09 | 2016-03-10 | Analog Devices, Inc. | Acoustic source tracking and selection |
WO2017143095A1 (en) * | 2016-02-16 | 2017-08-24 | Red Pill VR, Inc. | Real-time adaptive audio source separation |
US10014002B2 (en) * | 2016-02-16 | 2018-07-03 | Red Pill VR, Inc. | Real-time audio source separation using deep neural networks |
-
2018
- 2018-05-18 US US15/983,256 patent/US10529349B2/en active Active
-
2019
- 2019-03-07 WO PCT/JP2019/010433 patent/WO2019202886A1/en unknown
- 2019-03-07 EP EP19716587.1A patent/EP3782153A1/en active Pending
- 2019-03-07 JP JP2020567351A patent/JP7034339B2/ja active Active
- 2019-03-07 CN CN201980025148.1A patent/CN111954904B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011170190A (ja) * | 2010-02-19 | 2011-09-01 | Nippon Telegr & Teleph Corp <Ntt> | 信号分離装置、信号分離方法、および、信号分離プログラム |
JP2016042152A (ja) * | 2014-08-18 | 2016-03-31 | 日本放送協会 | 音声認識装置及びプログラム |
JP2018510374A (ja) * | 2015-02-26 | 2018-04-12 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法 |
JP2018502319A (ja) * | 2015-07-07 | 2018-01-25 | 三菱電機株式会社 | 信号の1つ又は複数の成分を区別する方法 |
Non-Patent Citations (1)
Title |
---|
DAVID GUNAWAN AND D .SEN: "Iterative Phase Estimation for the Synthesis of Separated Sources From Single-Channel Mixtures", IEEE SIGNAL PROCESSING LETTERS, vol. 17巻5号, JPN6021032339, 8 February 2010 (2010-02-08), pages 421 - 424, ISSN: 0004576786 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230042468A1 (en) * | 2021-07-29 | 2023-02-09 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Dereverberation of Speech Signals |
US11790930B2 (en) * | 2021-07-29 | 2023-10-17 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for dereverberation of speech signals |
JP7541960B2 (ja) | 2021-08-26 | 2024-08-29 | 日本電信電話株式会社 | 話者分離装置、話者分離方法及び話者分離プログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3782153A1 (en) | 2021-02-24 |
CN111954904B (zh) | 2024-07-09 |
JP7034339B2 (ja) | 2022-03-11 |
US20190318754A1 (en) | 2019-10-17 |
WO2019202886A1 (en) | 2019-10-24 |
US10529349B2 (en) | 2020-01-07 |
CN111954904A (zh) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7034339B2 (ja) | オーディオ信号処理システム、及び入力オーディオ信号を変換する方法 | |
JP7427723B2 (ja) | ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成 | |
JP6873333B2 (ja) | 音声認識システム及び音声認識システムを用いる方法 | |
Zhang et al. | Deep learning for environmentally robust speech recognition: An overview of recent developments | |
JP7434137B2 (ja) | 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
US10957337B2 (en) | Multi-microphone speech separation | |
US10540961B2 (en) | Convolutional recurrent neural networks for small-footprint keyword spotting | |
US9640194B1 (en) | Noise suppression for speech processing based on machine-learning mask estimation | |
CN110503971A (zh) | 用于语音处理的基于神经网络的时频掩模估计和波束形成 | |
Tzinis et al. | Remixit: Continual self-training of speech enhancement models via bootstrapped remixing | |
CN110415686A (zh) | 语音处理方法、装置、介质、电子设备 | |
Karthik et al. | Efficient speech enhancement using recurrent convolution encoder and decoder | |
US11355097B2 (en) | Sample-efficient adaptive text-to-speech | |
JP7301154B2 (ja) | 音声データの処理方法並びにその、装置、電子機器及びコンピュータプログラム | |
WO2024055752A1 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 | |
US20230298609A1 (en) | Generalized Automatic Speech Recognition for Joint Acoustic Echo Cancellation, Speech Enhancement, and Voice Separation | |
JP2023541651A (ja) | 完全なトランスクリプトなしのエンドツーエンドの音声言語理解 | |
JP2023162265A (ja) | テキストエコー消去 | |
Sim et al. | Adaptation of deep neural network acoustic models for robust automatic speech recognition | |
CN116978359A (zh) | 音素识别方法、装置、电子设备及存储介质 | |
US20240256706A1 (en) | Voice privacy for far-field voice control devices that use remote voice services | |
KR20240033265A (ko) | 자동 음성 인식을 위한 공동 음향 에코 제거, 음성 향상 및 음성 분리 | |
CN116758930A (zh) | 语音增强方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200826 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200826 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210824 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210929 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7034339 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |