JP7034339B2 - オーディオ信号処理システム、及び入力オーディオ信号を変換する方法 - Google Patents

オーディオ信号処理システム、及び入力オーディオ信号を変換する方法 Download PDF

Info

Publication number
JP7034339B2
JP7034339B2 JP2020567351A JP2020567351A JP7034339B2 JP 7034339 B2 JP7034339 B2 JP 7034339B2 JP 2020567351 A JP2020567351 A JP 2020567351A JP 2020567351 A JP2020567351 A JP 2020567351A JP 7034339 B2 JP7034339 B2 JP 7034339B2
Authority
JP
Japan
Prior art keywords
audio signal
module
spectrogram
spectrograms
estimated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020567351A
Other languages
English (en)
Other versions
JP2021515277A (ja
Inventor
ル・ルー、ジョナサン
ハーシェイ、ジョン・アール
ワン、ツォンキウ
ウィヘルン、ゴードン・ピー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2021515277A publication Critical patent/JP2021515277A/ja
Application granted granted Critical
Publication of JP7034339B2 publication Critical patent/JP7034339B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本開示は、包括的には、オーディオ信号に関し、より詳細には、単一チャネル話者に依存しない複数の話者の音声分離のためのエンドツーエンド手法を用いることに関する。
いくつかの従来の音声分離及び音声強調アプリケーションにおいて、処理は、短時間フーリエ変換(STFT:short-time Fourier transform)領域等の時間-周波数表現において行われる。STFTは、信号の複素領域スペクトル時間(又は時間-周波数)表現を取得する。観測される雑音を含む信号のSTFTは、対象音声信号のSTFT及び雑音信号のSTFTの総和として記述することができる。信号のSTFTは、複素数であり、総和は、複素領域中に存在する。
一方で、これらの従来の音声分離及び音声強調アプリケーションのうちの大半は、時間-周波数(T-F)領域における振幅上の分離のみを行い、時間領域再合成に混合体位相(mixture phase)を直接用いる。これは、主に、位相自体が、非常にランダムであり、向上させるのが困難であるためである。この手法は、特に音声処理の場合、典型的には連続フレーム間で少なくとも半分の重複が存在する位相不整合問題が生じることがよく知られている。この重複により、音声信号のSTFT表現は非常に冗長になる。結果として、推定された振幅及び混合体位相を用いて取得された拡張STFT表現が整合したSTFT領域内にはないことになり、これは、そのSTFT表現を有する時間領域信号が存在することが保証されないことを意味する。
換言すれば、これらの従来の方法を用いると、位相は無視され、これらの従来の方法では、観測された信号のSTFTの振幅は、対象オーディオ信号及び雑音信号のSTFTの振幅の総和に等しいということを仮定することになる。これは、大まかな又は不十分な仮定である。したがって、従来の音声分離及び音声強調アプリケーションでは、入力として雑音を含む音声信号を所与とした「対象音声」の振幅予測、又は、入力としてオーディオ音声源の混合体を所与とした「対象音声源」の振幅予測に対して焦点が当てられてきた。そのSTFTからの時間領域拡張信号を再構成する間、雑音を含む信号の位相は、これらの従来の音声分離及び拡張音声アプリケーションによって、拡張された音声のSTFTの推定された位相として用いられる。
したがって、単一チャネル話者に依存しない複数の話者の音声分離のためのエンドツーエンド手法を用いて、音声分離及び音声強調アプリケーションを改善することが必要とされている。
本開示は、包括的には、オーディオ信号に関し、より詳細には、単一チャネル話者に依存しない複数の話者音声分離のためのエンドツーエンド手法を用いることに関する。
本開示のいくつかの実施の形態は、単一チャネル話者に依存しない複数話者の音声分離のためのエンドツーエンド手法を使用し、ここで、時間-周波数(T-F)マスキングを用いるスペクトログラム推定、短時間フーリエ変換(STFT)、及びその逆変換は、ディープネットワーク内の層として表される。他のタイプのスペクトログラム推定並びに他の時間-周波数変換及び逆変換を同様に検討することができる。
本開示のいくつかの実施の形態では、信号レベル近似のために時間-周波数(T-F)マスキングを介した反復位相再構成を通じてトレーニングするエンドツーエンド音声分離アルゴリズムを使用する。このエンドツーエンド音声分離アルゴリズムは、実験を通じて実現された。実験中、いくつかの手法では、T-F領域における振幅に対して分離を実行し、混合体位相は時間領域再合成のために直接用いた。これは、主に、位相を推定することが困難であるためである。しかしながら、これらの特定の手法は、特に音声処理の場合、典型的には連続フレーム間で少なくとも半分の重複が存在する位相不整合性問題を結果として生じさせた。この重複により、音声信号の短時間フーリエ変換(STFT)表現は非常に冗長になる。結果として、推定された振幅及び混合体位相を用いて取得された拡張STFT表現が整合したSTFT領域内にはないことになり、これは、そのSTFT表現を有する時間領域信号が存在することが保証されないことを意味する。
整合性を改善するために、いくつかの手法を用いて継続された実験は、標準的なグリフィンリム(Griffin-Lim)アルゴリズム、多入力スペクトログラム逆変換(MISI)、反復再構成を用いる教師あり音声源分離(ISSIR:Informed Source Separation Using Iterative Reconstruction)、及び整合ウィーナーフィルタリング(Wiener filtering)等の反復方法に焦点を当てており、これらは、混合体位相、及びSTFT及びiSTFTを反復して実行することによる良好に推定された振幅から開始して、或る程度までより整合した位相を復元するという結果をもたらした。
いくつかの他の実験手法は、ディープ学習ベース音声強調及び分離によって生成される振幅に対する後処理ステップとして反復アルゴリズムを適用することを含むものであった。しかしながら、これらの他の手法は、典型的には、ディープニューラルネットワーク(DNN)からの振幅推定値は合理的に良好であったものの、わずかな改善しかもたらさなかった。これは、T-Fマスキングが、後の位相再構成ステップを認識することなく実行されるためであり、したがって、反復位相再構成に適したスペクトル構造を生成しない場合があるためと考えられた。これは、時間-周波数(T-F)マスキング、短時間フーリエ変換(STFT)、及びその逆変換を、ディープネットワーク内の層として表すことができる、エンドツーエンド音声分離手法を開発するという実験から後に理解された。
この理解の一部は、対象STFT振幅に基づく代替損失(surrogate loss)を用いたいくつかの実験手法から得られた。しかしながら、この特定の手法は、位相不整合性によって生じる再構成誤差を無視するという結果をもたらした。したがって、総損失は、再構成された信号に対して計算される損失を含むことが必要となり、特に、損失関数は、最良の分離のために最適化することが可能な再構成された信号に対して直接規定できるということが理解された。さらに、再構成された信号に対する他の損失、例えば、再構成された信号のSTFTに関与する損失、又は、入力として再構成された信号を所与とした音声認識システム若しくは音分類システムの出力に関与する損失を用いることができることが理解された。さらに、トレーニングは、STFT層及び逆STFT層を含む一連の層として表される、位相再構成アルゴリズムの展開された反復を通したものとすることができるということが理解される。マスク値は、典型的には、再構成のための混合体位相を用いる手法の場合0~1に制限されるものの、この制限は、推定された振幅が位相再構成とともに用いられることになる場合、関連性が低くなる。したがって、0~1に制限されず、特に、1より大きいマスク値が、有益であり得るということが更に理解された。またさらに、別の理解は、1を超えるマスク値を可能にするためのT-Fマスキングの出力層のために用いることができるいくつかの活性化関数を含むものであった。
例えば、本開示のいくつかの実施の形態は、1を超えることができるマスク値を生成するために時間-周波数マスキングの出力層のためのいくつかの活性化関数を提供する。これは、整合したSTFT領域に近い推定された振幅を生成するための少なくとも1つの重要な態様である。
本開示のいくつかの実施の形態は、位相再構成ステージを通じてディープニューラルネットワーク(DNN)ベース向上システムをトレーニングすることを含む。ネットワーク又はDNNベース向上システムは、振幅スペクトログラムを推定し、振幅スペクトログラムは、雑音を含む混合体の位相とペアにされて、複素スペクトログラム推定値が取得される。その複素スペクトログラム推定値は、スペクトログラム精緻化モジュールによって精緻化される。例えば、雑音を含む位相は、再構成された時間領域信号(すなわち、推定された振幅及び雑音を含む位相の積からなる複素スペクトログラムの逆STFTによって取得された信号)の振幅は、元の推定された振幅とは異なるという意味で、推定された振幅との整合状態からはかけ離れている可能性がある。本開示のいくつかの実施の形態に従って雑音を含む位相を改善することは、スペクトログラム精緻化モジュールにおいて位相再構成アルゴリズムを適用して、推定された位相が推定された振幅とより整合する精緻化されたスペクトログラムを取得することである。これらのアルゴリズムは、以前の反復における位相が、現在の複素スペクトログラム推定値(すなわち、元の推定された振幅の、現在の位相推定値との積)に、逆STFT及びそれに後続してSTFTを適用し、位相のみを保持することに関与する計算から取得された位相に置き換える、反復手順に依拠する。例えば、グリフィンリムアルゴリズムは、単一の信号にこのような手順を適用する。元の雑音を含む信号まで総和することを想定された複数の信号推定値が同時に推定される場合、多入力スペクトログラム逆変換(MISI)アルゴリズムを用いることができる。したがって、本開示の実施の形態は、このような反復手順の1つ又は複数のステップの結果に対して規定される損失を含む目的関数を最小化するようにネットワーク又はDNNベース向上システムをトレーニングする。
例えば、本開示の目的関数は、波形近似を含むことができ、波形近似は、再構成された時間領域信号と真の対象信号との間の距離を考慮する。本開示の別の目的関数は、再構成された時間領域信号の振幅と、真の対象信号の振幅との間の距離として規定された損失を含むことができる。
本開示のいくつかの実施の形態は、波形レベル近似のために時間-周波数(T-F)マスキングを介した反復位相再構成を通じてトレーニングするエンドツーエンド音声分離アルゴリズムを使用する。例えば、いくつかの実施の形態は、モノラル話者に依存しない複数話者の音声分離のためのエンドツーエンド手法を使用し、ここで、時間-周波数マスキング、STFT及びiSTFTは、全て、双方向LSTMの上部に種々の層として表される。波形レベル損失関数を、音声分離を改善するように直接最適化することができる。加えて、本開示は、一連のSTFT及びiSTFT(解析ウィンドウイング、合成ウィンドウイング、及びDFT動作を含む)層として反復位相再構成アルゴリズムにおける反復を展開して、双方向長短期メモリ(BLSTM)をガイドし、反復位相再構成を実行した後により良好な位相を引き出すことができる良好な推定された振幅を生成することを含む。BLSTMは、長短期メモリ(LSTM:Long Short-Term Memory)リカレントニューラルネットワーク(RNN)のペアであり、一方は、順方向LSTMであり、他方は、逆方向LSTMである。BLSTMの隠れベクトルは、順方向LSTM及び逆方向LSTMの隠れベクトルの連結として取得することができる。
本開示のいくつかの実施の形態は、一連のSTFT及びiSTFT(解析ウィンドウイング、合成ウィンドウイング、及びDFT動作を含む)層として反復位相再構成アルゴリズムにおける反復を展開することを更に考慮することと、トレーニングすることができる変数として、STFT及びDFT変換のフーリエ行列の解析ウィンドウ及び合成ウィンドウ等の、通常固定であるとみなされる反復位相再構成アルゴリズムのステップのパラメータを考慮することと、変数が現れる度に別個の変数としてこれらの変数を考慮することによって層間でこれらの変数の関連付けを解く(untying)ことと、これらの変数を、トレーニング中に最適化することができるネットワークパラメータに含めることとを含む。
本開示の一実施の形態によれば、入力オーディオ信号を変換するオーディオ信号処理システムが開示される。入力オーディオ信号は、1つ以上の対象オーディオ信号の混合体を含む。システムは、記憶された実行可能命令と、記憶されたモジュールとを含むメモリを備える。モジュールは、入力オーディオ信号を変換して、対象オーディオ信号推定値を取得するようになっている。システムは、メモリと通信するプロセッサを更に備える。プロセッサは、入力オーディオ信号をスペクトログラム推定器に入力して、オーディオ特徴シーケンスを抽出し、オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力することによって、モジュールのステップを実施する。一組の推定されたスペクトログラムは、対象オーディオ信号ごとの推定されたスペクトログラムを含む。プロセッサは、スペクトログラム精緻化モジュールを用いて、一組の推定されたスペクトログラム及びオーディオ特徴シーケンスを処理して、一組の精緻化されたスペクトログラムを出力することによって、モジュールのステップを実施する。一組の精緻化されたスペクトログラムは、対象オーディオ信号ごとの精緻化されたスペクトログラムを含むようになっている。スペクトログラム精緻化モジュールの処理は、反復再構成アルゴリズムに基づいている。プロセッサは、信号精緻化モジュールを用いて、1つ以上の対象オーディオ信号についての一組の精緻化されたスペクトログラムを処理して、対象オーディオ信号推定値を取得することによって、モジュールのステップを実施する。対象オーディオ信号ごとに対象オーディオ信号推定値が存在するようになっている。システムは、最適化された対象オーディオ信号推定値を出力する出力インターフェースを更に備える。モジュールは、メモリに記憶された最適化器を用いて誤差を最小化することによって最適化される。誤差は、一組の推定されたスペクトログラムにおける誤差、一組の精緻化されたスペクトログラムにおける誤差、一組の精緻化されたスペクトログラムにおける整合性測定値(consistency measure)を含む誤差、対象オーディオ信号推定値における誤差、又はこれらの何らかの組み合わせのうちの1つを含むようになっている。
本開示の別の実施の形態によれば、入力オーディオ信号を変換する方法が開示される。方法は、入力オーディオ信号を変換するモジュールを規定することを含む。入力オーディオ信号は、1つ以上の対象オーディオ信号の混合体を含むようになっている。モジュールは、入力オーディオ信号を変換して、対象オーディオ信号推定値を取得する。メモリと通信するプロセッサが開示される。プロセッサは、入力オーディオ信号をモデルのスペクトログラム推定器に入力して、オーディオ特徴シーケンスを抽出し、オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力することによって、モジュールのステップを実施する。一組の推定されたスペクトログラムは、対象オーディオ信号ごとの推定されたスペクトログラムを含む。プロセッサは、モデルのスペクトログラム精緻化モジュールを用いて、一組の推定されたスペクトログラム及びオーディオ特徴シーケンスを処理して、一組の精緻化されたスペクトログラムを出力することによって、モジュールのステップを実施する。一組の精緻化されたスペクトログラムは、対象オーディオ信号ごとの精緻化されたスペクトログラムを含むようになっている。スペクトログラム精緻化モジュールの処理は、反復再構成アルゴリズムに基づいている。プロセッサは、モデルの信号精緻化モジュールを用いて、1つ以上の対象オーディオ信号についての一組の精緻化されたスペクトログラムを処理して、対象オーディオ信号推定値を取得することによって、モジュールのステップを実施する。対象オーディオ信号ごとに対象オーディオ信号推定値が存在するようになっている。最適化された対象オーディオ信号推定値を出力する出力インターフェースが開示される。モジュールは、メモリに記憶された最適化器を用いて誤差を最小化することによって最適化される。誤差は、一組の推定されたスペクトログラムにおける誤差、一組の精緻化されたスペクトログラムにおける誤差、一組の精緻化されたスペクトログラムにおける整合性測定値を含む誤差、対象オーディオ信号推定値における誤差、又はこれらの何らかの組み合わせのうちの1つを含む。ステップは、記憶された実行可能命令を有するメモリと通信するプロセッサによって実行され、モジュールは、メモリに記憶されるようになっている。
本開示の別の実施の形態によれば、入力オーディオ信号を変換するオーディオ信号処理システムが開示される。システムは、記憶された実行可能命令と、記憶されたモジュールとを含むメモリを備える。モジュールは、入力オーディオ信号を変換して、対象オーディオ信号推定値を取得するようになっている。入力オーディオ信号は、1つ以上の対象オーディオ信号の混合体を含む。システムは、メモリと通信するプロセッサを更に備え、プロセッサは、プロセッサと通信する入力インターフェースを介して入力オーディオ信号を受信することによって、モジュールのステップを実施する。プロセッサは、入力オーディオ信号をスペクトログラム推定器に入力して、オーディオ特徴シーケンスを抽出し、オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力することによっても、モジュールのステップを実施する。一組の推定されたスペクトログラムは、対象オーディオ信号ごとの推定されたスペクトログラムを含む。プロセッサは、スペクトログラム精緻化モジュールを用いて、一組の推定されたスペクトログラム及びオーディオ特徴シーケンスを処理して、一組の精緻化されたスペクトログラムを出力することによっても、モジュールのステップを実施する。一組の精緻化されたスペクトログラムは、対象オーディオ信号ごとの精緻化されたスペクトログラムを含むようになっている。スペクトログラム精緻化モジュールの処理は、反復再構成アルゴリズムに基づいている。プロセッサは、信号精緻化モジュールを用いて、1つ以上の対象オーディオ信号についての一組の精緻化されたスペクトログラムを処理して、対象オーディオ信号推定値を取得することによって、モジュールのステップを実施する。対象オーディオ信号ごとに対象オーディオ信号推定値が存在するようになっている。システムは、最適化された対象オーディオ信号推定値を出力する出力インターフェースを更に備える。モジュールは、メモリに記憶された最適化器を用いて誤差を最小化することによって最適化される。誤差は、一組の推定されたスペクトログラムにおける誤差、一組の精緻化されたスペクトログラムにおける誤差、一組の精緻化されたスペクトログラムにおける整合性測定値を含む誤差、対象オーディオ信号推定値における誤差、又はこれらの何らかの組み合わせのうちの1つを含む。
本開示の別の実施の形態によれば、入力オーディオ信号を変換するオーディオ信号処理システムが開示される。システムは、環境から入力オーディオ信号を獲得するように構成された音検出デバイスを備える。システムは、入力オーディオ信号を受信及び送信するように構成された信号入力インターフェースデバイスを更に備える。入力オーディオ信号は、1つ以上の対象オーディオ信号の混合体を含む。システムは、入力オーディオ信号を処理するように構成されたオーディオ信号処理デバイスを更に備える。オーディオ信号処理デバイスは、メモリに接続するように構成されたハードウェアプロセッサを備える。メモリは、データを入力/出力するように構成される。ハードウェアプロセッサは、メモリに記憶されたモジュールにアクセスするステップを実行する。モジュールは、入力オーディオ信号を変換して、対象オーディオ信号推定値を取得するようになっている。ハードウェアプロセッサは、入力オーディオ信号をモジュールのスペクトログラム推定器に入力して、オーディオ特徴シーケンスを抽出し、オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力するステップを更に実行する。一組の推定されたスペクトログラムは、対象オーディオ信号ごとの推定されたスペクトログラムを含む。ハードウェアプロセッサは、モジュールのスペクトログラム精緻化モジュールを用いて、一組の推定されたスペクトログラム及びオーディオ特徴シーケンスを処理して、一組の精緻化されたスペクトログラムを出力するステップを更に実行する。一組の精緻化されたスペクトログラムは、対象オーディオ信号ごとの精緻化されたスペクトログラムを含むようになっている。スペクトログラム精緻化モジュールの処理は、反復再構成アルゴリズムに基づいている。ハードウェアプロセッサは、モジュールの信号精緻化モジュールを用いて、1つ以上の対象オーディオ信号についての一組の精緻化されたスペクトログラムを処理して、対象オーディオ信号推定値を取得するステップを更に実行する。対象オーディオ信号ごとに対象オーディオ信号推定値が存在するようになっている。システムは、最適化された対象オーディオ信号推定値を出力する出力インターフェースを更に備える。モジュールは、メモリに記憶された最適化器を用いて誤差を最小化することによって最適化される。誤差は、一組の推定されたスペクトログラムにおける誤差、一組の精緻化されたスペクトログラムにおける誤差、一組の精緻化されたスペクトログラムにおける整合性測定値を含む誤差、対象オーディオ信号推定値における誤差、又はこれらの何らかの組み合わせのうちの1つを含む。
ここに開示されている実施形態は、添付図面を参照して更に説明される。示されている図面は、必ずしも一律の縮尺というわけではなく、その代わり、一般的に、ここに開示されている実施形態の原理を示すことに強調が置かれている。
本開示の実施形態による、方法を実施するいくつかの方法ステップを示すフロー図である。 本開示の実施形態によるシステム及び方法を実施するのに用いることができるいくつかの構成要素を示すブロック図である。 本開示の実施形態による、複数の対象オーディオ信号の混合体を含む入力オーディオ信号から対象オーディオ信号を推定するオーディオ信号処理システムを示すブロック図である。 本開示の実施形態による、音声強調のためのエンドツーエンドオーディオ信号処理システムのトレーニングを示すフロー図である。 本開示の実施形態による、マスク推論に基づく、音声強調のためのエンドツーエンドオーディオ信号処理システムのトレーニングを示すフロー図である。 本開示の実施形態による、決定論的スペクトログラム逆変換アルゴリズムの複数のステップを含むスペクトログラム精緻化モジュールを用いる、音声源分離のためのエンドツーエンドオーディオ信号処理システムを示すフロー図である。 本開示の実施形態による、音声源分離のためのエンドツーエンドオーディオ信号処理システムのスペクトログラム推定モジュールを示すフロー図である。 本開示の実施形態による、音声源分離のためのエンドツーエンドオーディオ信号処理システムのスペクトログラム精緻化モジュールを示すフロー図であり、スペクトログラム精緻化モジュールは、決定論的スペクトログラム逆変換アルゴリズムの複数のステップを含む。 本開示の実施形態による、音声源分離のためのエンドツーエンドオーディオ信号処理システムの信号再構成モジュールを示すフロー図である。 本開示の実施形態による、スペクトログラム逆変換アルゴリズムの複数の反復を展開し、スペクトログラム逆変換アルゴリズムの反復の固定パラメータをトレーニング可能パラメータに変換することによって取得される複数の層を含むスペクトログラム精緻化モジュールを用いる、音声源分離のためのエンドツーエンドオーディオ信号処理システムを示すフロー図である。 本開示の実施形態による、複素スペクトログラム上の整合性測定値の計算を示すフロー図である。 本開示の実施形態による単一チャネルマスク推論ネットワークアーキテクチャを示すブロック図である。 本開示の実施形態による単一チャネルディープクラスタリングネットワークアーキテクチャを示すブロック図である。 本開示の実施形態による単一チャネルキメラネットワークアーキテクチャを示すブロック図である。 本開示の実施形態による、音声源分離のためのエンドツーエンドオーディオ信号処理システムの対象信号推定モジュールのトレーニングを示すフロー図であり、トレーニングは、誤差計算を含む。 本開示の実施形態による、音声分離のための代替的なオーディオ信号処理システムのブロック図を示しており、特に、図11は、音声分離ネットワークを含む。 本開示の実施形態による方法及びシステムのいくつかの技法を実施するのに用いることができるコンピューティング装置を示す概略図である。 本開示の実施形態による方法及びシステムのいくつかの技法を実施するのに用いることができるモバイルコンピューティング装置を示す概略図である。
上記で明らかにされた図面は、ここに開示されている実施形態を記載しているが、この論述において言及されるように、他の実施形態も意図されている。この開示は、限定ではなく代表例として例示の実施形態を提示している。ここに開示されている実施形態の原理の範囲及び趣旨に含まれる非常に多くの他の変更及び実施形態を当業者は考案することができる。
(概説)
本開示は、オーディオ信号に関し、より詳細には、単一チャネル話者に依存しない複数話者の音声分離のためのエンドツーエンド手法を用いることに関する。
図1Aは、本開示の実施形態による、方法を実施するいくつかの方法ステップを示すフロー図である。
図1Aのステップ115は、入力オーディオ信号を変換するモジュールを規定することを含む。入力オーディオ信号は、1つ以上の対象オーディオ信号の混合体を含むようになっている。モジュールは、入力オーディオ信号を変換して、対象オーディオ信号推定値を取得する。
図1Aのステップ120は、入力オーディオ信号をモデルのスペクトログラム推定器に入力して、オーディオ特徴シーケンスを抽出し、オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力することを含む。一組の推定されたスペクトログラムは、対象オーディオ信号ごとの推定されたスペクトログラムを含む。
図1Aのステップ125は、モデルのスペクトログラム精緻化モジュールを用いて、一組の推定されたスペクトログラム及びオーディオ特徴シーケンスを処理して、一組の精緻化されたスペクトログラムを出力することを含む。一組の精緻化されたスペクトログラムは、対象オーディオ信号ごとの精緻化されたスペクトログラムを含むようになっている。スペクトログラム精緻化モジュールの処理は、反復再構成アルゴリズムに基づいている。
図1Aのステップ130は、モデルの信号精緻化モジュールを用いて、1つ以上の対象オーディオ信号についての一組の精緻化されたスペクトログラムを処理して、対象オーディオ信号推定値を取得することを含む。対象オーディオ信号ごとに対象オーディオ信号推定値が存在するようになっている。
図1Aのステップ135は、最適化された対象オーディオ信号推定値を出力する出力インターフェースを含む。モジュールは、メモリに記憶された最適化器を用いて誤差を最小化することによって最適化される。誤差は、一組の推定されたスペクトログラムにおける誤差、一組の精緻化されたスペクトログラムにおける誤差、一組の精緻化されたスペクトログラムにおける整合性測定値を含む誤差、対象オーディオ信号推定値における誤差、又はこれらの何らかの組み合わせのうちの1つを含む。ステップは、記憶された実行可能命令を有するメモリと通信するプロセッサによって実行され、モジュールは、メモリに記憶されるようになっている。
本開示の実施形態は、非限定的な例として、出力信号に対する損失は、音声認識誤差等の他の誤差も含み得るという独自の態様を提供する。オーディオ信号処理システムは、とりわけ、複数の話者の不協和音の中で音声を認識することを更に改善するために、本発明によるシステムの出力を入力として取り込む音声認識システムとともにトレーニングすることができることが想定される。特に、複数の話者の不協和音の中で音声を認識することは、上記で言及したように、技術空間内においてカクテルパーティ問題として知られている長年にわたる難題である。このカクテルパーティ問題を解決することによって、特に実世界のヒューマンマシンインタラクション(HMI:human machine interaction)のための劇的に優れた技術が可能になる。
図1Bは、本開示の実施形態によるシステム及び方法を実施するのに用いることができるいくつかの構成要素を示すブロック図である。例えば、システム100Bは、環境1から音響信号8を含むデータを収集する音響センサ等の単数のセンサ2又は複数のセンサと通信するハードウェアプロセッサ11を備えることができる。音響信号は、重複音声を伴う複数の話者の音響信号を含むことができる。さらに、センサ2は、音響入力を音響信号に変換することができる。ハードウェアプロセッサ11は、コンピュータ記憶メモリ、すなわちメモリ9と通信し、メモリ9は、ハードウェアプロセッサ11によって実施することができるアルゴリズム、命令及び他のデータを含む記憶データを含むようになっている。
任意選択で、ハードウェアプロセッサ11は、データソース3、コンピュータデバイス4、モバイルフォンデバイス5及び記憶装置6と通信するネットワーク7に接続することができる。また、任意選択で、ハードウェアプロセッサ11は、クライアントデバイス15に接続されたネットワーク対応サーバ13に接続することもできる。任意選択で、ハードウェアプロセッサ11は、外部メモリデバイス17、送信機19に接続することができる。さらに、ハードウェアプロセッサ11は、対象話者ごとのテキストを、特定のユーザ使用目的に従って出力することができる(21)。例えば、いくつかのタイプのユーザ使用は、更なる解析等のために、モニタ若しくはスクリーン等の1つ以上のディスプレイデバイス上にテキストを表示すること、又は、対象話者ごとのテキストをコンピュータ関連デバイス内に入力することを含むことができる。
ハードウェアプロセッサ11は、特定のアプリケーションの要件に応じて2つ以上のハードウェアプロセッサを含むことができることが考えられ、これらのプロセッサは、内部のものとすることもできるし、外部のものとすることもできる。他のデバイスの中でも特に出力インターフェース及び送受信機を含む他の構成要素をシステム100Bに組み込むことができることは確かである。
ネットワーク7は、非限定例として、1つ以上のローカルエリアネットワーク(LAN:local area networks)及び/又はワイドエリアネットワーク(WAN:wide area networks)を含むことができることが可能である。ネットワーク接続環境は、企業全体のコンピュータネットワーク、イントラネット及びインターネットと同様のものとすることができる。言及した全ての構成要素について、任意の数のクライアントデバイス、記憶構成要素、及びデータソースをシステム100B内で用いることができる。それぞれは、単一のデバイスを含むこともできるし、分散環境において協働する複数のデバイスを含むこともできる。さらに、システム100Bは、1つ以上のデータソース3を備えることができる。データソース3は、音声分離ネットワークをトレーニングするためのデータリソースを含むことができる。例えば、一実施形態では、トレーニングデータは、同時に発話している複数の話者の音響信号を含むことができる。また、トレーニングデータは、単独で発話している単一の話者の音響信号、雑音を含む環境内で発話している単一又は複数の話者の音響信号、及び雑音を含む環境の音響信号も含むことができる。データソース3は、音声認識ネットワークをトレーニングするためのデータリソースも含むことができる。データソース3によって提供されるデータは、トランスクリプトされたデータ及びトランスクリプトされていないデータ等のラベル付きデータ及びラベル無しデータを含むことができる。例えば、一実施形態では、データは、1つ以上の音を含み、対応するトランスクリプション情報又は音声認識ネットワークを初期化するのに用いることができるラベルも含むことができる。
さらに、データソース3におけるラベル無しデータは、1つ以上のフィードバックループによって提供することができる。例えば、検索エンジンに対して実行される発話された検索クエリからの使用データは、トランスクリプトされていないデータとして提供することができる。データソースの他の例は、限定ではなく例として、ストリーミングサウンド若しくはストリーミングビデオ、ウェブクエリ、モバイルデバイスカメラ若しくはオーディオ情報、ウェブカムフィード、スマートグラスフィード及びスマートウォッチフィード、顧客ケアシステム、セキュリティカメラフィード、ウェブ文書、カタログ、ユーザフィード、SMSログ、インスタントメッセージングログ、発話単語トランスクリプト、音声コマンド若しくはキャプチャー画像(例えば、深度カメラ画像)等のゲームシステムユーザインタラクション、ツイート、チャット記録若しくはビデオ通話記録、又はソーシャルネットワークメディアを含む様々な発話言語オーディオ源若しくは画像源を含むことができる。使用される特定のデータソース3は、データが、性質上、或る特定のクラスのデータ(例えば、機械システム、娯楽システムを含む、例えば、特定のタイプの音にのみ関係したデータ)であるのか又は一般的なもの(非クラス固有のもの)であるのかを含む用途に基づいて決定することができる。
システム100Bは、コンピューティングデバイス上に自動音声認識(ASR)システムを有する対象となり得るような任意のタイプのコンピューティングデバイスを含むことができるサードパーティーデバイス4、5を備えることができる。例えば、サードパーティーデバイスは、本明細書では、図12Aに関して説明するタイプのコンピューティングデバイス等のコンピュータデバイス4、又は、図12Bに関して説明するタイプのモバイルコンピューティングデバイス等のモバイルデバイス5を含む。ユーザデバイスは、パーソナルデジタルアシスタント(PDA:personal digital assistant)、スマートフォン、スマートウォッチ、スマートグラス(又は他のウェアラブルスマートデバイス)等のモバイルデバイス、拡張現実ヘッドセット、仮想現実ヘッドセットとして具現化することができることが考えられる。さらに、ユーザデバイスは、タブレット等のラップトップ、リモコン、娯楽システム、車両コンピュータシステム、組み込みシステムコントローラー、電気器具、ホームコンピュータシステム、セキュリティシステム、民生用電子デバイス、又は他の同様の電子デバイスとすることができる。1つの実施形態では、クライアントデバイスは、当該デバイス上で動作している本明細書において説明するASRシステムによって使用可能なオーディオ情報及び画像情報等の入力データを受信することが可能である。例えば、サードパーティーデバイスは、オーディオ情報を受信するマイクロフォン若しくはライン入力端子、ビデオ情報若しくは画像情報を受信するカメラ、又はインターネット若しくはデータソース3等の別の情報源からそのような情報を受信する通信構成要素(例えば、Wi-Fi機能)を有することができる。
音声認識ネットワークを用いるASRモデルは、入力データを処理して、コンピュータ使用可能情報を求めることができる。例えば、質問が尋ねられる場合において、例えば、室内で複数の人々が話をしている間にユーザによってマイクロフォンに発話されたクエリを処理して、クエリの内容を求めることができる。例示のサードパーティーデバイス4、5は、任意選択で、ディープニューラルネットワークモデルを展開することができる環境を例示するためにシステム100Bに含められる。さらに、本開示のいくつかの実施形態は、サードパーティーデバイス4、5を備えないものとすることもできる。例えば、ディープニューラルネットワークモデルは、サーバ上に存在することもできるし、クラウドネットワーク、クラウドシステム又は同様の装置構成内に存在することもできる。
記憶装置6は、本明細書において説明する技術の実施形態において用いられるデータ、コンピュータ命令(例えば、ソフトウェアプログラム命令、ルーチン、又はサービス)、及び/又はモデルを含む情報を記憶することができる。例えば、記憶装置6は、1つ以上のデータソース3からのデータ、1つ以上のディープニューラルネットワークモデル、ディープニューラルネットワークモデルを生成及びトレーニングする情報、並びに1つ以上のディープニューラルネットワークモデルによって出力されるコンピュータ使用可能情報を記憶することができる。
図1Cは、環境1をモニタリングするセンサ2から得られた入力オーディオ信号101から対象オーディオ信号を推定するオーディオ信号処理システム100Cを示すブロック図である。入力オーディオ信号は、本開示の実施形態による、複数の対象オーディオ信号の混合体を含む。オーディオ信号処理システムは、プロセッサ11を介して、特徴抽出モジュール110を用いてオーディオ特徴シーケンスを計算することによって信号を処理し、オーディオ特徴シーケンスは、スペクトログラム推定器111によって処理されて、一組のスペクトログラム推定値が出力される。一組のスペクトログラム推定値は、スペクトログラム精緻化モジュール120によって処理されて、一組の精緻化されたスペクトログラムが出力され、一組の精緻化されたスペクトログラムは、信号再構成モジュール130によって更に処理されて、対象オーディオ信号推定値が計算される。ネットワークパラメータ115は、スペクトログラム推定器111、スペクトログラム精緻化モジュール120及び信号再構成モジュール130に入力することができる。出力インターフェース140が、その後、対象オーディオ信号推定値21を出力する。
図2Aは、本開示の実施形態による、音声強調のためのエンドツーエンドオーディオ信号処理システム200Aのトレーニングを示すフロー図である。このシステムは、音声強調、すなわち雑音を含む信号内の雑音からの音声の分離の事例の例として用いることを示しているが、同じ検討が、音声源分離等のより一般的な事例にも当てはまり、ここで、システムは、対象オーディオ信号及び場合によっては雑音等の他の非対象音声源の混合体から複数の対象オーディオ信号を推定する。音声及び雑音の混合体を含む雑音を含む入力信号204並びにその音声及び雑音の対応するクリーンな信号が、クリーンなオーディオ及び雑音含有オーディオのトレーニングセット202からサンプリングされる。雑音を含む入力信号204は、スペクトログラム推定器206によって処理されて、記憶されたネットワークパラメータ215を用いて、音声及び雑音の推定されたスペクトログラム208が計算される。推定されたスペクトログラムは、スペクトログラム精緻化モジュール210によって更に処理されて、記憶されたネットワークパラメータ215を用いて、音声の精緻化されたスペクトログラム212が出力される。信号再構成モジュール214は、音声の精緻化されたスペクトログラム212を逆変換して、音声の推定されたオーディオ216を取得する。目的関数計算モジュール218は、クリーンな音声と音声の推定されたオーディオとの間の距離を計算することによって、目的関数を計算する。代替的に、音声及び雑音の双方の精緻化されたスペクトログラムは、スペクトログラム精緻化モジュール210から取得され、信号再構成モジュール214によって逆変換されて、クリーンな音声及び雑音信号222とともに、双方とも用いることができる音声及び雑音の双方の推定されたオーディオ信号216がもたらされ、目的関数が計算され得る。目的関数をネットワークトレーニングモジュール220が用いて、ネットワークパラメータ215を更新することができる。
図2Bは、本開示の実施形態による、マスク推論に基づく、音声強調のためのエンドツーエンドオーディオ信号処理システム200Bのトレーニングを示すフロー図である。セットアップは、図2Aと同様であり、ここで図2Aのスペクトログラム推定モジュール206は、一組のマスクを推定するマスク推論ネットワーク230と、マスクを、雑音オーディオの振幅時間-周波数表現と乗算して、一組の推定された振幅を取得する振幅再構成モジュール232と、推定された振幅を、雑音含有オーディオの位相と組み合わせて、複素時間-周波数領域における一組の推定されたスペクトログラムを取得する位相振幅組み合わせモジュール234とに基づいている。その後、推定されたスペクトログラムは、位相再構成アルゴリズムによって処理されて、一組の精緻化されたスペクトログラムが取得される。位相再構成モジュール236は、ニューラルネットワークの層として反復位相再構成アルゴリズムのステップを実施し、反復位相再構成アルゴリズムのパラメータをネットワークの自由に変化するパラメータに変換することによって、構築される。システムをトレーニングする処理及び手順の残りは、図2Aのものと同様である。
図3は、本開示の実施形態による、決定論的スペクトログラム逆変換アルゴリズムの複数のステップを含むスペクトログラム精緻化モジュールを用いる、音声源分離のためのエンドツーエンドオーディオ信号処理システムを示すフロー図である。例示のために、ここでは、2つの対象音声源があると仮定するが、アルゴリズムは、任意の数の音声源について同様に用いることができる。音声源ごとに1つずつ、入力混合体X302がスペクトログラム推定モジュール304によって処理されて、一組のスペクトログラム推定値が出力される。スペクトログラム推定モジュール304は、特徴抽出モジュールを用いて入力混合体302を処理して、オーディオ特徴シーケンスを計算し、入力のSTFTの対数振幅が抽出される。このオーディオ特徴シーケンスは、いくつかのスタックされたBLSTM層によって処理される。推定されたスペクトログラムは、ここでは、マスク推論方法によって取得される。対象音声源ごとに、線形層と、それに後続するシグモイド等の非線形性層とが、時間-周波数単位ごとにマスクを計算するのに用いられる。各マスクは、振幅再構成モジュールにおいて、混合体のSTFTの振幅と乗算されて、音声源ごとの推定された振幅スペクトログラムが取得される。この推定された振幅スペクトログラムは、混合体のSTFTの位相成分と組み合わせて、音声源ごとの複素領域における推定されたスペクトログラムが取得される。いくつかの実施形態では、いくつかのディープクラスタリング埋め込みをネットワークの一部が計算して、ディープクラスタリング目的関数を計算するか、若しくは、埋め込みからマスクを推定してこれらのマスクをスペクトログラム推定に用いるか、又はその双方を行うことができる。推定されたスペクトログラムは、スペクトログラム精緻化モジュール310によって処理されて、精緻化されたスペクトログラムが出力される。スペクトログラム精緻化モジュール310は、ディープニューラルネットワークの層として、反復位相再構成アルゴリズムの複数の反復、ここでは多入力スペクトログラム逆変換(MISI)アルゴリズムを実施する。各反復は、一組のスペクトログラムを入力として取り込み、それらを、iSTFTを用いて時間領域に逆変換して、逆変換信号を取得し、入力混合体と、逆変換信号の総和との間の誤差を計算し、この誤差を、ここでは均一に分散させてそれぞれの逆変換信号に戻すことで誤差補償逆変換信号を取得し、誤差補償逆変換信号のSTFTを計算し、それらの位相を抽出し、この位相を、推定されたスペクトログラムの振幅と組み合わせて次の反復への入力を取得する。最後の反復の出力が、精緻化されたスペクトログラムである。精緻化されたスペクトログラムは、各精緻化されたスペクトログラムのiSTFTを実行する信号再構成モジュール312によって処理されて、対象オーディオ信号が取得される。誤差関数は、ディープクラスタリング埋め込み、推定されたマスク、推定された振幅スペクトログラム、推定された複素スペクトログラム、スペクトログラム精緻化モジュール310の反復のうちの1つ以上の反復の出力において取得されるスペクトログラム、スペクトログラム精緻化モジュールの1つ以上の反復内で取得される逆変換信号、精緻化されたスペクトログラム、又は対象オーディオ信号に対して考慮することができる。
図4は、本開示の実施形態による、音声源分離のためのエンドツーエンドオーディオ信号処理システムのスペクトログラム推定モジュール410を示すフロー図である。
図5は、本開示の実施形態による、音声源分離のためのエンドツーエンドオーディオ信号処理システムのスペクトログラム精緻化モジュール510を示すフロー図であり、スペクトログラム精緻化モジュール510は、決定論的スペクトログラム逆変換アルゴリズムの複数のステップを含む。
図6は、本開示の実施形態による、音声源分離のためのエンドツーエンドオーディオ信号処理システムの信号再構成モジュール612を示すフロー図である。
図7は、本開示の実施形態による、スペクトログラム逆変換アルゴリズムの複数の反復を展開し、スペクトログラム逆変換アルゴリズムの反復の固定パラメータをトレーニング可能パラメータに変換することによって取得される複数の層を含むスペクトログラム精緻化モジュール710を用いる、音声源分離のためのエンドツーエンドオーディオ信号処理システムを示すフロー図である。
図7において、決定論的STFT層及びiSTFT層は、トレーニング可能層に置き換えることができ、ここで、STFT及びiSTFT(例えば、DFT行列)のパラメータは、可変でかつトレーニングされ得ることに留意されたい。さらに、図7において、シンボルΘは、ネットワークの全ての部分の全てのパラメータの組であり、各層は、これらのパラメータの(潜在的には異なる)サブセットを用いることができる。
図8は、本開示の実施形態による、複素スペクトログラム上の整合性測定値の計算を示すフロー図である。整合性測定値計算モジュール802は、入力スペクトログラムを処理して、時間-周波数領域に対する整合性測定値を計算する。時間-周波数領域は、時間領域信号を時間-周波数表現に変換する順方向変換(forward transform)によって指定される。信号の時間-周波数表現を信号に戻すように変換することができる逆変換が考慮される。その逆変換は、いずれの信号の時間-周波数表現にも対応しない場合がある変更された時間-周波数表現にも適用することができる。このような表現は不整合(inconsistent)と呼ばれ、一方、時間領域信号から取得される表現は整合(consistent)と呼ばれる。例えば、関心時間-周波数表現が短時間フーリエ変換である場合、逆変換は、逆短時間フーリエ変換として実施することができる。この図は、例示の目的で、STFT及びiSTFTを用いる。整合性測定値計算モジュール802は、逆短時間フーリエ変換を用いて入力スペクトログラムを処理して、逆変換信号を取得し、その後、逆変換信号の短時間フーリエ変換を計算して、そのスペクトログラムを取得する。整合性測定値は、入力スペクトログラムと、逆変換信号のスペクトログラムとの間の距離として規定される。
図9Aは、本開示の実施形態による、単一チャネルマスク推論ネットワークアーキテクチャ900Aを示すブロック図である。入力混合体から取得された特徴ベクトル系列、例えば、入力混合体の短時間フーリエ変換の対数振幅が、混合体エンコーダ910への入力として用いられる。例えば、この系列における入力ベクトルの次元はFとすることができる。混合体エンコーダ910は、最初のBLSTM層930から最後のBLSTM層935までの複数の双方向長短期メモリ(BLSTM)ニューラルネットワーク層から構成される。各BLSTM層は、順方向長短期メモリ(LSTM)層及び逆方向LSTM層から構成され、それらの出力は、組み合わされ、次の層によって入力として用いられる。例えば、最初のBLSTM層930における各LSTMの出力の次元はNとすることができ、最後のBLSTM層935を含む他の全てのBLSTM層における各LSTMの入力次元及び出力次元の双方はNとすることができる。最後のBLSTM層935の出力は、線形ニューラルネットワーク層940及び非線形部945を備えるマスク推論モジュール912への入力として用いられる。時間-周波数領域、例えば短時間フーリエ変換領域における各時間フレーム及び各周波数について、線形層940は、最後のBLSTM層935の出力を用いて、Cの数を出力する。ここで、Cは対象話者の数である。非線形部945は、各時間フレーム及び各周波数についてこの一組のCの数に適用され、各時間フレーム、各周波数、及び各対象話者について、その時間フレーム及びその周波数における入力混合体でのその対象話者の支配性(dominance)を示すマスク値が得られる。マスクからの分離エンコーディング推定モジュール913は、マスクが推定された時間-周波数領域、例えば振幅短時間フーリエ変換領域における入力混合体の表現とともにこれらのマスクを用いて、対象話者ごとの分離エンコーディング(separation encodings:分離符号)を出力する。例えば、マスクからの分離エンコーディング推定モジュール913は、対象話者のマスクを入力混合体の振幅短時間フーリエ変換と乗算して、その対象話者の分離エンコーディングとして用いられる、その対象話者の分離された信号が独立して観測された場合のその信号の振幅短時間フーリエ変換の推定値を取得することができる。
図9Bは、本開示の実施形態による、単一チャネルディープクラスタリングネットワークアーキテクチャ900Bを示すブロック図である。入力混合体から取得された特徴ベクトル系列、例えば、入力混合体の短時間フーリエ変換の対数振幅が、混合体エンコーダ920への入力として用いられる。例えば、この系列における入力ベクトルの次元はFとすることができる。混合体エンコーダ920は、最初のBLSTM層901から最後のBLSTM層903までの複数の双方向長短期メモリ(BLSTM)ニューラルネットワーク層から構成される。各BLSTM層は、順方向長短期メモリ(LSTM)層及び逆方向LSTM層から構成され、それらの出力は、組み合わされ、次の層によって入力として用いられる。例えば、最初のBLSTM層901における各LSTMの出力の次元はNとすることができ、最後のBLSTM層903を含む他の全てのBLSTM層における各LSTMの入力次元及び出力次元の双方はNとすることができる。最後のBLSTM層903の出力は、埋め込み計算モジュール922への入力として用いられる。この埋め込み計算モジュールは、線形ニューラルネットワーク層905と、シグモイド非線形化及びその後に続く単位ノルム正規化を実施するモジュール907とを備える。時間-周波数領域、例えば短時間フーリエ変換領域における各時間フレーム及び各周波数について、線形層905は、最後のBLSTM層903の出力を用いてD次元ベクトルを出力する。ここで、Dは埋め込み次元である。シグモイド非線形化及びその後に続く単位ノルム正規化を実施するモジュール907は、D次元ベクトルの各要素にシグモイドを適用し、各要素が単位ユークリッドノルムを有するようにこれを再正規化し、各時間フレーム及び各周波数の埋め込みベクトルを得る。埋め込みからの分離エンコーディング推定モジュール923は、埋め込みが推定された時間-周波数領域、例えば振幅短時間フーリエ変換領域における入力混合体の表現とともにこれらの埋め込みベクトルを用いて、対象話者ごとの分離エンコーディングを出力する。例えば、埋め込みからの分離エンコーディング推定モジュール923は、k平均アルゴリズム等のクラスタリングアルゴリズムを用いて、埋め込みベクトルをC個のグループにクラスタリングすることができる。ここで、Cは対象話者の数であり、各グループは、同じ話者によって支配される時間成分及び周波数成分に対応する。話者ごとに、時間成分(正:component)及び周波数成分がその話者によって支配されるか否かを示す2値マスクを取得することができる。埋め込みからの分離エンコーディング推定モジュール923は、次に、対象話者のマスクを入力混合体の振幅短時間フーリエ変換と乗算して、その対象話者の分離エンコーディングとして用いられる、その対象話者の分離された信号が独立して観測された場合のその信号の振幅短時間フーリエ変換の推定値を取得することができる。埋め込みからの分離エンコーディング推定モジュール923を用いてそのようなマスクを取得するより精巧な方式も考えることができ、上記説明は決して限定とみなされるべきでない。
図9Cは、本開示の実施形態による、単一チャネルキメラネットワークアーキテクチャ900Cを示すブロック図である。入力混合体から取得された特徴ベクトル系列、例えば、入力混合体の短時間フーリエ変換の対数振幅が、混合体エンコーダ950への入力として用いられる。例えば、この系列における入力ベクトルの次元はFとすることができる。混合体エンコーダ950は、最初のBLSTM層971から最後のBLSTM層973までの複数の双方向長短期メモリ(BLSTM)ニューラルネットワーク層から構成される。各BLSTM層は、順方向長短期メモリ(LSTM)層及び逆方向LSTM層から構成され、それらの出力は、組み合わされ、次の層によって入力として用いられる。例えば、最初のBLSTM層971における各LSTMの出力の次元はNとすることができ、最後のBLSTM層973を含む他の全てのBLSTM層における各LSTMの入力次元及び出力次元の双方はNとすることができる。
最後のBLSTM層973の出力は、線形ニューラルネットワーク層975及び非線形部977を備えるマスク推論モジュール952への入力として用いられる。時間-周波数領域、例えば短時間フーリエ変換領域における各時間フレーム及び各周波数について、線形層975は、最後のBLSTM層973の出力を用いて、Cの数を出力する。ここで、Cは対象話者の数である。非線形部977は、各時間フレーム及び各周波数についてこの一組のCの数に適用され、各時間フレーム、各周波数、及び各対象話者について、その時間フレーム及びその周波数における入力混合体でのその対象話者の支配性を示すマスク値が得られる。マスクからの分離エンコーディング推定モジュール953は、マスクが推定された時間-周波数領域、例えば振幅短時間フーリエ変換領域における入力混合体の表現とともにこれらのマスクを用いて、対象話者ごとの分離エンコーディングを出力する。例えば、マスクからの分離エンコーディング推定モジュール953は、対象話者のマスクを入力混合体の振幅短時間フーリエ変換と乗算して、その対象話者の分離エンコーディングとして用いられる、その対象話者の分離された信号が独立して観測された場合のその信号の振幅短時間フーリエ変換の推定値を取得することができる。
最後のBLSTM層973の出力は、埋め込み計算モジュール962への入力としても用いることができる。この埋め込み計算モジュールは、線形ニューラルネットワーク層985と、シグモイド非線形化及びその後に続く単位ノルム正規化を実施するモジュール987とを備える。時間-周波数領域、例えば短時間フーリエ変換領域における各時間フレーム及び各周波数について、線形層985は、最後のBLSTM層973の出力を用いてD次元ベクトルを出力する。ここで、Dは埋め込み次元である。シグモイド非線形化及びその後に続く単位ノルム正規化を実施するモジュール987は、D次元ベクトルの各要素にシグモイドを適用し、各要素が単位ユークリッドノルムを有するようにこれを再正規化し、各時間フレーム及び各周波数の埋め込みベクトルを得る。埋め込みからの分離エンコーディング推定モジュール963は、埋め込みが推定された時間-周波数領域、例えば振幅短時間フーリエ変換領域における入力混合体の表現とともにこれらの埋め込みベクトルを用いて、対象話者ごとの分離エンコーディングを出力する。例えば、埋め込みからの分離エンコーディング推定モジュール963は、k平均アルゴリズム等のクラスタリングアルゴリズムを用いて、埋め込みベクトルをC個のグループにクラスタリングすることができる。ここで、Cは対象話者の数であり、各グループは、同じ話者によって支配される時間成分及び周波数成分に対応する。話者ごとに、時間成分及び周波数成分がその話者によって支配されるか否かを示す2値マスクを取得することができる。埋め込みからの分離エンコーディング推定モジュール963は、次に、対象話者のマスクを入力混合体の振幅短時間フーリエ変換と乗算して、その対象話者の分離エンコーディングとして用いられる、その対象話者の分離された信号が独立して観測された場合のその信号の振幅短時間フーリエ変換の推定値を取得することができる。
トレーニング時には、最後のBLSTM層973の出力は、マスク推論モジュール952及び埋め込み計算モジュール962の双方への入力として用いられる。埋め込み計算モジュール962によって出力される埋め込み、マスク推論モジュール952によって出力されるマスク、埋め込みからのエンコーディング推定モジュール963によって出力される分離エンコーディング、及びマスクからのエンコーディング推定モジュール953によって出力される分離エンコーディングのうちの1つ以上を用いて、図10において説明するようなトレーニング誤差を計算することができる。テスト時には、双方のモジュールを用い、それぞれから取得される分離エンコーディングを組み合わせることもできるし、1つのモジュールのみを続けるように選択し、対応する分離エンコーディングを用いることもできる。
図10は、本開示の実施形態による、音声源分離のためのエンドツーエンドオーディオ信号処理システム1000の対象信号推定モジュールのトレーニングを示すフロー図であり、トレーニングは、誤差計算を含む。この図は、2つの対象音声源の事例を例として用いる概念を示している。対象信号推定モジュール1011は、スペクトログラム推定ネットワーク1042と、スペクトログラム精緻化ネットワーク1040と、信号再構成モジュールとを含む。入力混合体1008及び対応する基準音声源信号1034は、データセット1006からサンプリングされる。基準音声源信号は、独立して観測される各対象音声源に対応する入力混合体1008の部分に対応する。入力混合体1008は、スペクトログラム推定ネットワーク1042によって処理されて、対象話者ごとの推定されたスペクトログラムが出力される。スペクトログラム推定ネットワーク1042は、混合体エンコーダ1010と、マスク推論モジュール1012と、マスクからのスペクトログラム推定モジュール1013と、埋め込み計算モジュール1022と、任意選択で、埋め込みからのスペクトログラム推定モジュール1023とを含む。
混合体エンコーダ1010は、入力混合体1008を処理して、混合体エンコーディング(mixture encoding:混合体符号)を出力する。混合体エンコーディングは、一組のマスクを推定するマスク推論モジュール1012によって更に処理される。一組のマスクは、マスクからのスペクトログラム推定モジュール1013によって入力混合体とともに用いられて、対象音声源ごとの推定されたスペクトログラムが取得される。例えば、マスクからのスペクトログラム推定モジュール1013は、入力混合体の時間-周波数表現に推定されたマスクを適用して、その対象音声源の分離された信号の推定された時間-周波数表現(ここでは、推定されたスペクトログラムと称される)を取得することができる。時間-周波数表現は、例えば、短時間フーリエ変換とすることができ、この事例では、各マスクは、入力混合体の短時間フーリエ変換に適用されて、その対象音声源の分離された信号の短時間フーリエ変換の推定値が取得され、これは、その対象音声源の独立信号が独立して観測されていれば見られていたであろうものの短時間フーリエ変換の推定値である。
混合体エンコーディングは、一組の埋め込みを推定する埋め込み計算モジュール1022によっても更に処理される。埋め込みからのスペクトログラム推定モジュール1023を用いて、入力混合体1008とともにこれらの埋め込みベクトルを処理し、推定されたスペクトログラムの別の組を出力することができる。
埋め込みからのこれらの推定されたスペクトログラムを、マスクからの推定されたスペクトログラムと組み合わせて、組み合わされた推定されたスペクトログラムを取得することができるか、又は、マスクからの推定されたスペクトログラムを用いる代わりに、スペクトログラム精緻化ネットワーク1040及び後続のステップへの入力として用いることができる。推定されたスペクトログラムは、スペクトログラム精緻化ネットワーク1040によって更に処理されて、音声源ごとの精緻化されたスペクトログラムが取得される。これらの精緻化されたスペクトログラムは、短時間フーリエ変換表現の事例では、各精緻化されたスペクトログラムに逆STFTを適用する信号再構成モジュールによって更に処理される。誤差計算モジュール1030は、マスクからのスペクトログラム推定モジュール1013の出力及び基準音声源信号1034を用いて、スペクトログラム推定損失Lspecを計算することができる。誤差計算モジュール1030は、埋め込みからのスペクトログラム推定モジュール1023の出力及び基準音声源信号1034も用いて、上記のスペクトログラム推定損失と組み合わせて、又はこれの代わりに、スペクトログラム推定損失Lspecを計算することができる。誤差計算モジュール1030は、スペクトログラム精緻化ネットワーク1040の出力及び基準音声源信号1034も用いて、上記のスペクトログラム推定損失と組み合わせて、又はこれらの代わりに、スペクトログラム推定損失Lspecを計算することができる。誤差計算モジュール1030は、埋め込み計算モジュール1022の出力及び基準音声源信号1034を用いて、埋め込み損失Lembを計算することができる。誤差計算モジュール1030は、信号再構成モジュールの出力及び基準音声源信号1034を用いて、信号再構成損失Lsigを計算することができる。誤差計算モジュール1030は、マスクからのスペクトログラム推定モジュール1013の出力、埋め込みからのスペクトログラム推定モジュール1023の出力、及びスペクトログラム精緻化ネットワークモジュール1040の出力のうちの1つ以上を用いて、整合性測定値Cを計算することができる。スペクトログラム推定損失、埋め込み損失、信号再構成損失、及び整合性測定値の加重結合は、総損失Lである。総損失は、対象信号推定モジュール1011のパラメータについての更新を計算するのに用いられる。
(技術的概念)
本開示のいくつかの実施形態は、単一チャネル話者に依存しない複数話者の音声分離のためのエンドツーエンド手法を含み、ここで、時間-周波数(T-F)マスキング、短時間フーリエ変換(STFT)、及びその逆変換(逆STFT又はiSTFT)は、ディープネットワーク内の層として表される。実験中、いくつかの実験的手法は、本開示におけるように再構成された信号に対する損失を計算するのではなく、対象STFT振幅に基づく代替損失を用いた(実験的手法)。しかしながら、これらの実験的手法は、位相不整合性によって招かれる再構成誤差を無視していた。本開示のいくつかの実施形態は、最良の分離のために最適化される、再構成された信号に対して直接規定される損失関数を含む。加えて、いくつかの実施形態は、一連のSTFT層及び逆STFT層として表される、位相再構成アルゴリズムの展開された反復を通じてトレーニングする。
マスク値は、典型的には、再構成のための混合体位相を用いる手法の場合0~1に制限されるものの、この制限は、推定された振幅が位相再構成とともに用いられることになる場合、関連性が低くなり得る。それゆえ、本開示のいくつかの実施形態のいくつかの活性化関数は、1を超えるマスク値を可能にするためのT-Fマスキングの出力層のためのものである。実験から、結果は、現行技術水準の12.6dBのスケール不変信号対歪み比(SI-SDR:scale-invariant signal-to-distortion ratio)及び13.1dB SDRを達成しており、ディープ学習ベース位相再構成に向けられたいくつかの実施形態の利点が明らかになるとともに、解決困難であることで名高いカクテルパーティ問題を解決することに向けられた抜本的な進歩が表される。
実験中、分離が時間-周波数(T-F)領域における振幅に対して実行され、混合体位相が時間領域再合成のために直接用いられる実験が行われた。混合体位相が直接用いられるのは、主に、位相は推定することが困難であるためである。しかしながら、実験結果は、特に音声処理の場合、典型的には連続フレーム間で少なくとも半分の重複が存在する位相不整合性問題を示した。この重複により、音声信号のSTFT表現が非常に冗長になる。結果として、推定された振幅及び混合体位相を用いて取得された向上されたSTFT表現は、整合したSTFT領域内にはなく、これは、そのSTFT表現を有する時間領域信号が存在するということが保証されないことを意味する。
整合性を改善するために、いくつかの実験は、標準的なグリフィンリムアルゴリズム、多入力スペクトログラム逆変換(MISI)アルゴリズム、反復再構成を用いる教師あり音声源分離(ISSIR)、及び整合ウィーナーフィルタリング等の反復方法に焦点を当てており、これらは、混合体位相、及びSTFT及びiSTFTを反復して実行することによる良好に推定された振幅から開始して、或る程度までクリーンな位相を復元することができる。実験中にテストされたいくつかの手法は、ディープ学習ベース音声強調及び分離によって生成される振幅に対する後処理ステップとして反復アルゴリズムを適用した。
しかしながら、実験からの結果は、DNNからの振幅推定値が合理的に良好であったものの、小さい改善しかもたらさなかった。慎重に考慮すると、これは、時間-周波数マスキングが、潜在的に、後の位相再構成ステップを認識することなく実行されるためである可能性があり、したがって、反復位相再構成に適切なスペクトル構造を生成しない可能性がある。それゆえ、多くの実験に基づいて、本開示は、信号レベル近似のために時間-周波数マスキングを介した反復位相再構成を通じてトレーニングするエンドツーエンド音声分離アルゴリズムを提示する。
(キメラ++ネットワーク)
位相再構成を介して良好な位相を導き出すために、実験を通じて、十分良好な振幅推定値をまず取得することが必要であることがわかった。更なる実験に基づいて、ディープクラスタリングの正則化能力を、マスク推論のエンドツーエンドトレーニングの容易さと組み合わせるマルチタスク学習手法の結果、個々のモデルにわたる大幅な改善がもたらされた。
実験から得られたディープクラスタリングの少なくとも1つの重要な態様は、強力なディープニューラルネットワーク(DNN)を用いてT-F単位ごとの高次元埋め込みベクトルを学習することであり、同じ話者によって支配されるT-F単位埋め込みは、埋め込み空間内では互いに近接する一方、それ以外の場合には離れるようになっている。このようにして、本発明者らによる実験に従って、k平均のようなクラスタリング方法を学習された埋め込みに適用して、実行時間において分離を実行することができる。より詳細には、ネットワークは、第iのT-F要素に対応する単位長埋め込みベクトル
Figure 0007034339000001
を計算することができる。同様に、
Figure 0007034339000002
は、混合体内のいずれの音声源が第iのT-F単位を支配するのかを表すワンホットラベルベクトルであり、この情報は、独立した音声源信号及びそれらの混合体が利用可能であるトレーニングデータのために導出することができる。これらを垂直にスタックすることで、埋め込み行列
Figure 0007034339000003
及びラベル行列
Figure 0007034339000004
を形成する。埋め込みは、埋め込みからの類似性行列を近似することによって学習することができる。
Figure 0007034339000005
本発明者らによる実験に基づいて、k平均目的関数における埋め込みを白色化する代替的な損失関数は、より良好な分離性能をもたらすことができることがわかった。
Figure 0007034339000006
埋め込みを学習するために、テストされたいくつかの手法に従って、双方向LSTM(BLSTM)を用いて、過去フレーム及び未来フレームからのコンテキスト情報をモデル化することができる。ネットワークアーキテクチャは、図9Bの下部において示されており、ここで、埋め込み計算モジュールは、全結合層であり、これに、ロジスティックシグモイド等の非線形性層が後続し、これに、周波数ごとの単位長正規化が後続する。
マスク推論ネットワークのために別の順列フリートレーニング方式を実験した。実験の概念は、マスク推論ネットワークをトレーニングして、全ての順列にわたって最小損失を最小化するというものであった。その場合、位相高感度マスク(PSM:phase-sensitive mask)をトレーニング対象として用いた。位相高感度スペクトル近似(PSA)における実験から、境界なしマスク値を切断することが理解された。
Figure 0007034339000007
を用いて、トランケートPSA(tPSA)目的関数は、
Figure 0007034339000008
であり、ここで、∠Xは、混合体位相であり、∠Sは、第cの音声源の位相であり、Pは、{1,...,C}に対する順列の集合であり、|X|は、混合体振幅であり、
Figure 0007034339000009
は、第cの推定されたマスクであり、|S|は、第cの基準音声源の振幅であり、
Figure 0007034339000010
は、要素単位行列乗算を示し、γは、マスク切断係数である。実験から理解されるように、T-Fマスキングの出力層においてγ=1とともにシグモイド活性化を用いることができる。ネットワークにより多くの能力を与えるために、γ>1とともに機能することができる複数の活性化関数が、以下の「1を超える値を用いる活性化関数」というタイトルのセクションにおいて更に論述される。更なる実験の後に、マルチタスク学習を介した2つの手法を組み合わせるキメラ++ネットワークが提案された。これは、図9Cにおいて示される。損失関数は、ディープクラスタリング損失及びマスク推論損失の加重和とすることができる。
Figure 0007034339000011
実験を通じて、ディープクラスタリング出力又はマスク推論出力のいずれかは、他方を計算することなく、実行時に予測を行う必要がある場合があるということが更にわかった。
(反復位相再構成)
本開示のいくつかの実施形態による、各混合体において分離されることになる複数の対象音声源が存在する。実験の1つの手法は、音声源ごとに独立して反復再構成を実行するグリフィンリムアルゴリズムを用いるものであった。一方で、本開示の実験における他の手法は、MISIアルゴリズムを利用して、各音声源の推定された振幅及び混合体位相から開始して各音声源のクリーンな位相を再構成した。ここで、各反復後の再構成された時間領域信号の総和は、混合体信号に等しくなるように制約することができる。実験から、推定された振幅は、反復中固定されたままであるが、一方、各音声源の位相は、反復して再構成することができることが留意される。例えば、いくつかの手法は、後処理として唯一追加された位相再構成を含むものであり、これは、トレーニング中の目的関数の一部ではなく、再合成の前に、推定された信号の時間-周波数表現に対して計算された状態を保つ。
MISIアルゴリズムは、以下のように要約することができる。
入力:混合体時間領域信号x、混合体複素スペクトログラムX、混合体位相∠X、c=1,...,Cについて、向上された振幅
Figure 0007034339000012
、及び反復数K。
出力:c=1,...,Cについて、再構成された位相
Figure 0007034339000013
及び信号
Figure 0007034339000014
。初期化ステップ:c=1,...,Cについて、
Figure 0007034339000015
。反復:for i=1,...,K, do:
Figure 0007034339000016
(波形近似)
時間-周波数領域表現から波形を再構成するために実験中にテストされたMISI等の位相再構成アルゴリズムにおける第1のステップは、逆STFTを用いた。これらの手法のうちのいくつかは、iSTFTによって再構成された波形に対して計算される第1の目的関数(波形近似(WA)と表記される)を考慮し、iSTFTをマスク推論層の上部の層として表し、それにより、エンドツーエンド最適化を実行することができる。ラベル順列問題は、実験中に波形レベルにおいて全ての順列の最小L損失を最小化することによって解決されることが後にわかった。モデルは、WAとしてこのようにしてトレーニングすることができることが留意される。このモデルをトレーニングする目的関数は、
Figure 0007034339000017
とすることができ、ここで、Sは、音声源cの時間領域信号を示し、
Figure 0007034339000018
は、第cの推定された振幅及び混合体位相の組み合わせから逆STFTによって取得される第cの時間領域信号を示す。ここで、依然として混合体位相を用いることができ、位相再構成は未だ実行されないことが留意される。これは、MISIアルゴリズムにおける初期化ステップに対応する。
(展開された反復位相再構成)
いくつかの実施形態は、ニューラルネットワークにおける種々の決定論的層としてMISIアルゴリズム内の反復を展開する。これは、マスク推論層の上部にSTFT及びiSTFT動作を表すいくつかの層を更に伸長することによって達成することができる。MISIを通じてトレーニングするエンドツーエンド最適化を実行することによって、ネットワークは、後の反復位相再構成ステップを認識するようになるとともに、後続する処理に良好に適応した推定された振幅を生成するように学習することができ、したがって、分離のためのより良好な位相推定値が生成される。このようにしてトレーニングされたモデルは、WA-MISI-Kと表記され、ここで、K≧1は、展開されたMISI反復の数である。目的関数は、
Figure 0007034339000019
であり、ここで、
Figure 0007034339000020
は、K回のMISI反復の後に取得される第cの時間領域信号を示す。キメラ++ネットワークのマスク推論ヘッドの出力において展開された位相再構成ステップを含む分離ネットワーク全体は、図3におけるように示すことができる。STFT及びiSTFTは、GPU上で効率的に計算される決定論的層としてディープ学習ツールキットを用いて実施することができ、これを通じて、トレーニング時にバックプロパゲーションを実行することができる。
(K回のMISI反復を通じたトレーニング)
(1を超える値を用いる活性化関数)
ディープ学習ベースT-Fマスキングの出力層においてシグモイドユニットを用いることができる。これは部分的には、シグモイドユニットは、実験に基づいて、理想比マスク(IRM:ideal ratio mask)及びその変形等、バイモーダル分布を有するデータを良好にモデル化することができるためである。T-Fマスクの可能な値を[0,1]に入るように制限することも、再構成のために混合体位相を用いる場合には合理的である。実際に、1よりも大きいT-Fマスク値は、理論上、音声源間の干渉が音声源の振幅よりも小さい混合体振幅をもたらす領域内にあることが必要とされることになるが、また、混合体位相は、そのような領域内のその音声源の位相とは異なる可能性が高く、この事例では、誤った方向において更に進むことよりも過抑制する(oversuppress)方が目的の方策の観点で報酬が高い。これは、最適化において位相再構成を考慮する場合にはもはや有効ではない。さらに、マスク値を0~1に制限することにより、整合したSTFT領域から遠く離れた向上した振幅を取得する可能性がより高く、後の位相再構成の潜在的な困難性を提示する。
クリーンな振幅を取得するために、オラクルマスクは、(FFTマスク又は理想振幅マスクとしても知られている)|S|/|X|であるべきである。明確には、このマスクは、1を超えることができる。なぜならば、基礎をなす音声源は、統計的に独立であるものの、特定のT-F単位において逆位相を有する場合があり、したがって、互いが打ち消され、所与の音声源の振幅よりも小さい混合体振幅が生成される。このようなT-F単位のマスク値を予測することははるかに困難である可能性が高いが、コンテキスト情報に基づいて依然として可能であると考えられる。
本発明者らによる実験において、実用時にマスク値のわずかなパーセントのみが[0,2](すなわち、LtPSAの式においてγ=2)を超えるように、PSMにおける値をこの範囲に切断する。複数の活性化関数を、出力層において利用することができる。ここで、他の関数も検討することができるが、いくつかの可能な以下の関数を検討する。
・二重シグモイド:2倍に乗算されたシグモイド非線形性;
・制限付きReLU:[0,2]に制限されたReLU非線形性;
・凸ソフトマックス:出力非線形性は、各T-F単位における音声源ごとの3次元ソフトマックスである。これは、値0、1、及び2の間の凸和、すなわち、y=[x,x,x][0,1,2]を計算するのに用いられる。ここで、[x,x,x]は、ソフトマックスの出力である。この活性化関数は、PSMのヒストグラムにおける0、1及び2に集中する3つのモードをモデル化するように設計される。
図11は、音声分離のための代替的なオーディオ信号処理システムのブロック図を示しており、特に、図11は、音声分離ネットワークを含む。
図11を参照すると、システムは、記憶された命令を実行するように構成されたプロセッサ1102と、音声分離ネットワーク1112を含むニューラルネットワーク1108に関する命令を記憶するメモリ1104とを備える。プロセッサ1102は、シングルコアプロセッサ、マルチコアプロセッサ、グラフィック処理装置(GPU)、コンピューティングクラスター、又は任意の数の他の構成体とすることができる。メモリ/記憶装置1105は、ランダムアクセスメモリ(RAM:random access memory)、リードオンリーメモリ(ROM:read only memory)、フラッシュメモリ、又は他の任意の適したメモリシステムを含むことができる。メモリ1105は、ハードドライブ、光ドライブ、サムドライブ、ドライブのアレイ、又はそれらの任意の組み合わせも含むことができる。プロセッサ1102は、バス1106を通じて1つ以上の入力インターフェース/デバイス及び出力インターフェース/デバイスに接続される。
メモリ1105は、音声信号の混合体を含む音響信号を分離された音声信号に変換するようにトレーニングされたニューラルネットワーク1108を記憶し、記憶された命令を実行するプロセッサ1102は、メモリ1105から取り出されたニューラルネットワーク1108を用いて音声分離を実行する。ニューラルネットワーク1108は、音声信号の混合体を含む音響信号を分離された音声信号に変換するようにトレーニングされる。ニューラルネットワーク1108は、音声分離ネットワーク1112を含むことができ、音声分離ネットワークは、音響信号の音響特徴から、分離された信号を推定するようにトレーニングされる。
1つの実施形態では、ニューラルネットワーク1108は、音声分離ネットワークによって用いられることになる単一チャネル信号から音響特徴を抽出するように構成された特徴抽出器(図示せず)も含む。特徴抽出器は、微分可能関数であり、したがって、単一エンドツーエンドニューラルネットワークに接続することができる。微分可能関数の例は、信号の複素STFT、信号の振幅STFT、チャネル信号の振幅のメル関数、及びチャネル信号の振幅のバーク関数を含む。
1つの実施態様では、微分可能関数は、チャネル信号から音響特徴を抽出するようにトレーニングされた別のニューラルサブネットワークである。この実施態様では、特徴抽出サブネットワークは、音声分離ネットワークと共同トレーニングされる。
微分可能関数は、関数の出力が所与の入力の目標出力に接近するように勾配降下法を用いて最適化することができる。この関数は、全ての入力サンプルが、対応する目標サンプルに可能な限り正確にマッピングされるように、入力サンプル及び目標出力サンプルを対にしたものを用いて未知のマッピング関数に近似することもできる。
微分可能関数を合成したものも微分可能であるので、それぞれが微分可能関数として設計された連結された処理モジュールを組み合わせて、それらの処理モジュールを併せて最適化することができる。
ニューラルネットワークは微分可能関数である。本開示によれば、エンドツーエンド音声分離の全ての構成要素を、複数のニューラルネットワークを含む微分可能関数を用いて実施することができる。
システムは、音声信号を受け取る入力インターフェース、すなわちマイクロフォン1120と、分離された信号をレンダリングする出力インターフェース、すなわちラウドスピーカーインターフェース1122とを備えることができる。例えば、複数のマイクロフォン1120が、音をマルチチャネル音声信号1138に変換することができる。加えて又は代替的に、入力インターフェースは、システムをバス1106を通じてネットワーク1136に接続するように適合されたネットワークインターフェースコントローラー(NIC:network interface controller)1130を含むことができる。ネットワーク1136を通じて、音声信号1138をダウンロードし、更なる処理のために記憶することができる。
図11を引き続き参照すると、出力インターフェースの他の例は、撮像インターフェース1126、及びプリンタインターフェース1131を含むことができる。例えば、システムは、システムをディスプレイデバイス1124に接続するように適合されたディスプレイインターフェース1122にバス1106を通じてリンクすることができ、ディスプレイデバイス1124は、特に、コンピュータモニタ、カメラ、テレビ、プロジェクタ、又はモバイルデバイスを含むことができる。
加えて又は代替的に、システムは、このシステムを撮像デバイス1128に接続するように適合された撮像インターフェース1126に接続することができる。撮像デバイス1128は、カメラ、コンピュータ、スキャナ、モバイルデバイス、ウェブカム、又はそれらの任意の組み合わせを含むことができる。加えて又は代替的に、システムは、システムを印刷デバイス1132に接続するように適合されたプリンタインターフェース1131に接続することができる。印刷デバイス1132は、特に、液体インクジェットプリンタ、固体インクプリンタ、大型商用プリンタ、サーマルプリンタ、UVプリンタ、又は昇華型プリンタを含むことができる。
図12Aは、本開示の実施形態による方法及びシステムのいくつかの技法を実施するのに用いることができるコンピューティング装置1200を非限定例として示す概略図である。コンピューティング装置又はデバイス1200は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。
コンピューティングデバイス1200は、電力源1208、プロセッサ1209、メモリ1210、記憶デバイス1211を備えることができる。これらは全てバス1250に接続されている。さらに、高速インターフェース1212、低速インターフェース1213、高速拡張ポート1214及び低速拡張ポート1215をバス1250に接続することができる。また、低速接続ポート1216がバス1250と接続されている。特定の用途に応じて、非限定例として共通のマザーボードに実装することができる様々な構成要素の構成が考えられる。またさらに、入力インターフェース1217を、バス1250を介して外部受信機1206及び出力インターフェース1218に接続することができる。受信機1219を、バス1250を介して外部送信機1207及び送信機1220に接続することができる。外部メモリ1204、外部センサ1203、機械1202及び環境1201もバス1250に接続することができる。さらに、1つ以上の外部入出力デバイス1205をバス1250に接続することができる。ネットワークインターフェースコントローラー(NIC)1221は、バス1250を通じてネットワーク1222に接続するように適合することができ、特にデータ又は他のデータは、コンピュータデバイス1200の外部のサードパーティーディスプレイデバイス、サードパーティー撮像デバイス、及び/又はサードパーティー印刷デバイス上にレンダリングすることができる。
メモリ1210は、コンピュータデバイス1200によって実行可能な命令、履歴データ、並びに本開示の方法及びシステムによって利用することができる任意のデータを記憶することができると考えられる。メモリ1210は、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、フラッシュメモリ、又は他の任意の適したメモリシステムを含むことができる。メモリ1210は、単数若しくは複数の揮発性メモリユニット及び/又は単数若しくは複数の不揮発性メモリユニットとすることができる。メモリ1210は、磁気ディスク又は光ディスク等の別の形態のコンピュータ可読媒体とすることもできる。
図12Aを引き続き参照すると、記憶デバイス1211は、コンピュータデバイス1200によって用いられる補助データ及び/又はソフトウェアモジュールを記憶するように適合することができる。例えば、記憶デバイス1211は、本開示に関して上述したような履歴データ及び他の関連データを記憶することができる。加えて又は代替的に、記憶デバイス1211は、本開示に関して上述したようなデータと同様の履歴データを記憶することができる。記憶デバイス1211は、ハードドライブ、光ドライブ、サムドライブ、ドライブのアレイ、又はそれらの任意の組み合わせを含むことができる。さらに、記憶デバイス1211は、ストレージエリアネットワーク又は他の構成におけるデバイスを含めて、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、若しくはテープデバイス、フラッシュメモリ若しくは他の同様の固体メモリデバイス、又はデバイスのアレイ等のコンピュータ可読媒体を含むことができる。命令は情報担体に記憶することができる。命令は、1つ以上の処理デバイス(例えば、プロセッサ1209)によって実行されると、上記で説明した方法等の1つ以上の方法を実行する。
システムは、任意選択で、このシステムをディスプレイデバイス1225及びキーボード1224に接続するように適合されたディスプレイインターフェース又はユーザインターフェース(HMI)1223にバス1250を通じてリンクすることができる。ディスプレイデバイス1225は、特に、コンピュータモニタ、カメラ、テレビ、プロジェクタ、又はモバイルデバイスを含むことができる。
図12Aを引き続き参照すると、コンピュータデバイス1200は、バス1250を通じてプリンタインターフェース(図示せず)に接続するとともに、印刷デバイス(図示せず)に接続するように適合されたユーザ入力インターフェース1217を備えることができる。印刷デバイスは、特に、液体インクジェットプリンタ、固体インクプリンタ、大型商用プリンタ、サーマルプリンタ、UVプリンタ、又は昇華型プリンタを含むことができる。
高速インターフェース1212は、コンピューティングデバイス1200の帯域幅消費型動作を管理する一方、低速インターフェース1213は、より低い帯域幅消費型動作を管理する。そのような機能の割り当ては一例にすぎない。いくつかの実施態様では、高速インターフェース1212は、メモリ1210、ユーザインターフェース(HMI)1223に結合することができ、(例えば、グラフィックスプロセッサ又はアクセラレーターを通じて)キーボード1224及びディスプレイ1225に結合することができ、高速拡張ポート1214に結合することができる。この高速拡張ポートは、バス1250を介して様々な拡張カード(図示せず)を受容することができる。この実施態様では、低速インターフェース1213は、バス1250を介して記憶デバイス1211及び低速拡張ポート1215に結合されている。様々な通信ポート(例えば、USB、Bluetooth、イーサネット、無線イーサネット)を含むことができる低速拡張ポート1215は、1つ以上の入出力デバイス1205、及び他のデバイス、例えば、キーボード1224、ポインティングデバイス(図示せず)、スキャナ(図示せず)に結合することもできるし、スイッチ又はルーター等のネットワーク接続デバイスに、例えば、ネットワークアダプターを通じて結合することもできる。
図12Aを引き続き参照すると、コンピューティングデバイス1200は、この図に示すように、複数の異なる形態で実施することができる。例えば、このコンピューティングデバイスは、標準的なサーバ1226として実施することもできるし、そのようなサーバが複数個ある一群のサーバとして実施することもできる。加えて、このコンピューティングデバイスは、ラップトップコンピュータ1227等のパーソナルコンピュータにおいて実施することができる。このコンピューティングデバイスは、ラックサーバシステム1228の一部として実施することもできる。或いは、コンピューティングデバイス1200からの構成要素は、図12Bのモバイルコンピューティングデバイス等のモバイルデバイス(図示せず)における他の構成要素と組み合わせることができる。そのようなデバイスのそれぞれは、コンピューティングデバイス及びモバイルコンピューティングデバイスのうちの1つ以上を含むことができ、システム全体は、互いに通信する複数のコンピューティングデバイスから構成することができる。
図12Bは、本開示の実施形態による方法及びシステムのいくつかの技法を実施するのに用いることができるモバイルコンピューティング装置を示す概略図である。モバイルコンピューティングデバイス1299は、他の構成要素の中でも特に、プロセッサ1261、メモリ1262、入出力デバイス1263、通信インターフェース1264を接続するバス1295を備える。バス1295は、追加の記憶装置を提供するマイクロドライブ又は他のデバイス等の記憶デバイス1265にも接続することができる。
図12Bを参照すると、プロセッサ1261は、メモリ1262に記憶された命令を含む命令をモバイルコンピューティングデバイス内で実行することができる。プロセッサ1261は、個別の複数のアナログプロセッサ及びデジタルプロセッサを含むチップのチップセットとして実施することができる。プロセッサ1261は、例えば、モバイルコンピューティングデバイスによって実行されるユーザインターフェース、アプリケーションの制御、及びモバイルコンピューティングデバイス1299による無線通信等のモバイルコンピューティングデバイスの他の構成要素の協調を行うことができる。特定の用途に応じて、非限定例として共通のマザーボードに実装することができる様々な構成要素の構成が考えられる。
プロセッサ1261は、ディスプレイ1268に結合された制御インターフェース1266及びディスプレイインターフェース1267を通じてユーザと通信することができる。ディスプレイ1268は、例えば、TFT(薄膜トランジスタ)液晶ディスプレイ若しくはOLED(有機発光ダイオード)ディスプレイ、又は他の適切なディスプレイ技術とすることができる。ディスプレイインターフェース1267は、ディスプレイ1268を駆動してグラフィカル情報及び他の情報をユーザに提示する適切な回路部を備えることができる。制御インターフェース1266は、ユーザからコマンドを受信し、それらのコマンドをプロセッサ1261にサブミットするために変換することができる。加えて、外部インターフェース1269は、モバイルコンピューティングデバイスと他のデバイスとの近領域通信を可能にするために、プロセッサ1261との通信を提供することができる。外部インターフェース1269は、いくつかの実施態様では、例えば、有線通信を提供することもできるし、他の実施態様では、無線通信を提供することもでき、複数のインターフェースも用いることができる。
図12Bを引き続き参照すると、メモリ1262は、モバイルコンピューティングデバイス内に情報を記憶する。メモリ1262は、単数若しくは複数のコンピュータ可読媒体、単数若しくは複数の揮発性メモリユニット、又は単数若しくは複数の不揮発性メモリユニットのうちの1つ以上として実施することができる。拡張メモリ1270も設けることができ、拡張インターフェース1269を通じてモバイルコンピューティングデバイス1299に接続することができる。この拡張インターフェースは、例えば、SIMM(シングルインラインメモリモジュール)カードインターフェースを含むことができる。拡張メモリ1270は、モバイルコンピューティングデバイス1299の予備の記憶空間を提供することもできるし、モバイルコンピューティングデバイス1299のアプリケーション又は他の情報を記憶することもできる。具体的には、拡張メモリ1270は、上記で説明したプロセスを実行又は補足する命令を含むことができ、セキュアな情報も含むことができる。したがって、例えば、拡張メモリ1270は、モバイルコンピューティングデバイス1299のセキュリティモジュールとして提供することができ、モバイルコンピューティングデバイスのセキュアな使用を可能にする命令を用いてプログラミングすることができる。加えて、ハッキング不可能な方法でSIMMカード上に識別情報を配置するようなセキュアなアプリケーションを、追加の情報とともにSIMMカードを介して提供することができる。
メモリ1262は、後述するように、例えば、フラッシュメモリ及び/又はNVRAMメモリ(不揮発性ランダムアクセスメモリ)を含むことができる。いくつかの実施態様では、命令は情報担体に記憶される。これらの命令は、1つ以上の処理デバイス(例えば、プロセッサ)によって実行されると、上記で説明した方法等の1つ以上の方法を実行する。命令は、1つ以上のコンピュータ可読媒体又は機械可読媒体(例えば、メモリ1262、拡張メモリ1270、又はプロセッサ1261上のメモリ)等の1つ以上の記憶デバイスによって記憶することもできる。いくつかの実施態様では、命令は、例えば、送受信機1271又は外部インターフェース1269を介して伝播信号で受信することができる。
図12Bのモバイルコンピューティング装置又はデバイスは、パーソナルデジタルアシスタント、携帯電話、スマートフォン、及び他の同様のコンピューティングデバイス等の様々な形態のモバイルデバイスを表すことを意図している。モバイルコンピューティングデバイスは、必要に応じてデジタル信号処理回路部を備えることができる通信インターフェース1264を通じて無線で通信することができる。通信インターフェース1264は、特に、GSM音声呼(モバイル通信用グローバルシステム)、SMS(ショートメッセージサービス)、EMS(エンハンストメッセージングサービス)、若しくはMMSメッセージング(マルチメディアメッセージングサービス)、CDMA(符号分割多元接続)、TDMA(時分割多元接続)、PDC(パーソナルデジタルセルラー)、WCDMA(登録商標)(広帯域符号分割多元接続)、CDMA2000、又はGPRS(汎用パケット無線サービス)等の様々なモード又はプロトコルの下で通信を提供することができる。そのような通信は、例えば、無線周波数を用いる送受信機1271を通じて行うことができる。加えて、Bluetooth、WiFi、又は他のそのような送受信機(図示せず)等を用いて短距離通信を行うことができる。加えて、GPS(全地球測位システム)受信機モジュール1273が、モバイルコンピューティングデバイス上で動作するアプリケーションによって適宜用いることができる追加のナビゲーションデータ及びロケーション関連無線データをモバイルコンピューティングデバイスに提供することができる。
モバイルコンピューティングデバイスは、ユーザから発話情報を受信して使用可能なデジタル情報に変換することができるオーディオコーデック1272を用いて聴覚的に通信することもできる。オーディオコーデック1272は、例えば、モバイルコンピューティングデバイスのハンドセット内のスピーカー等を通じて、ユーザ向けの可聴音を同様に生成することができる。そのような音は、音声通話からの音を含むことができ、録音された音(例えば、音声メッセージ、音楽ファイル等)を含むことができ、モバイルコンピューティングデバイス上で動作するアプリケーションによって生成された音も含むことができる。
図12Bを引き続き参照すると、モバイルコンピューティングデバイスは、この図に示すように、複数の異なる形態で実施することができる。例えば、このモバイルコンピューティングデバイスは、携帯電話1274として実施することができる。また、このモバイルコンピューティングデバイスは、スマートフォン1275、パーソナルデジタルアシスタント、又は他の同様のモバイルデバイスの一部として実施することもできる。
(特徴)
本開示の態様によれば、スペクトログラム推定器は、ディープニューラルネットワークを用いる。スペクトログラム推定器は、対象オーディオ信号ごとのマスク推定値を出力するマスク推定モジュールと、1つ以上の対象オーディオ信号についてのマスク推定値及び入力オーディオ信号を用いて、対象オーディオ信号ごとの推定されたスペクトログラムを出力するスペクトログラム推定出力モジュールとを含む。少なくとも1つのマスク推定値は、1よりも大きい。
本開示の別の態様は、スペクトログラム精緻化モジュールの処理は、一組の推定されたスペクトログラム及び入力オーディオ特徴シーケンスに対して実行される反復手順を規定することを含むことを含むことができる。スペクトログラム精緻化モジュールの処理は、手順の反復ごとに1つの層が存在するように、反復手順を一組の層に展開することを更に含み、各層は、一組の固定されたネットワークパラメータを含む。スペクトログラム精緻化モジュールの処理は、以前の反復の層の一組の固定されたネットワークパラメータからのいくつかの固定されたネットワークパラメータを、トレーニングするべき変数として用いてニューラルネットワークを形成し、各変数がそれらの対応する層に別個に適用可能であるように別個の変数としてこれらの変数を考慮することによって、以前の反復の層間でこれらの変数の関連付けを解くことを更に含む。スペクトログラム精緻化モジュールの処理は、ニューラルネットワークをトレーニングして、トレーニングされたニューラルネットワークを取得することを更に含む。スペクトログラム精緻化モジュールの処理は、トレーニングされたニューラルネットワークを用いて一組の推定されたスペクトログラム及びオーディオ特徴シーケンスを変換して、一組の精緻化されたスペクトログラムを取得することを更に含む。
本開示の別の態様は、反復再構成アルゴリズムは、反復位相再構成アルゴリズムであることを含むことができる。反復位相再構成アルゴリズムは、多入力スペクトログラム逆変換(MISI)アルゴリズムである。反復位相再構成アルゴリズムは、グリフィンリムアルゴリズムである。
一態様は、対象オーディオ信号推定値における誤差は、対象オーディオ信号推定値と、基準対象オーディオ信号との間の距離を含むことを含むことができる。さらに、一態様は、対象オーディオ信号推定値における誤差は、対象オーディオ信号推定値のスペクトログラムと、基準対象オーディオ信号のスペクトログラムとの間の距離を含むことを含むことができる。またさらに、一態様は、スペクトログラム推定器によって抽出することは、特徴抽出モジュールを含み、特徴抽出モジュールは、入力オーディオ信号から入力オーディオ信号を抽出するようになっていることを含むことができる。受信オーディオ信号は、1人以上の話者、雑音、音楽、環境音、機械音又はこれらの何らかの組み合わせのうちの1つを含むことが可能である。
(実施形態)
以下の説明は、例示的な実施形態のみを提供し、本開示の範囲も、適用範囲も、構成も限定することを意図していない。そうではなく、例示的な実施形態の以下の説明は1つ以上の例示的な実施形態を実施することを可能にする説明を当業者に提供する。添付の特許請求の範囲に明記されているような開示された主題の趣旨及び範囲から逸脱することなく要素の機能及び配置に行うことができる様々な変更が意図されている。
以下の説明では、実施形態の十分な理解を提供するために、具体的な詳細が与えられる。しかしながら、当業者は、これらの具体的な詳細がなくても実施形態を実施することができることを理解することができる。例えば、開示された主題におけるシステム、プロセス、及び他の要素は、実施形態を不必要な詳細で不明瞭にしないように、ブロック図形式の構成要素として示される場合がある。それ以外の場合において、既知のプロセス、構造、及び技法は、実施形態を不明瞭にしないように不必要な詳細なしで示される場合がある。さらに、様々な図面における同様の参照符号及び名称は、同様の要素を示す。
また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として描かれるプロセスとして説明される場合がある。フローチャートは、動作を逐次的なプロセスとして説明することができるが、これらの動作の多くは、並列又は同時に実行することができる。加えて、これらの動作の順序は、再配列することができる。プロセスは、その動作が完了したときに終了することができるが、論述されない又は図に含まれない追加のステップを有する場合がある。さらに、特に説明される任意のプロセスにおける全ての動作が全ての実施形態において行われ得るとは限らない。プロセスは、方法、関数、手順、サブルーチン、サブプログラム等に対応することができる。プロセスが関数に対応するとき、その関数の終了は、呼び出し側関数又はメイン関数へのその機能の復帰に対応することができる。
さらに、開示された主題の実施形態は、少なくとも一部は手動又は自動のいずれかで実施することができる。手動実施又は自動実施は、機械、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合わせを用いて実行することもできるし、少なくとも援助することができる。ソフトウェア、ファームウェア、ミドルウェア又はマイクロコードで実施されるとき、必要なタスクを実行するプログラムコード又はプログラムコードセグメントは、機械可読媒体に記憶することができる。プロセッサが、それらの必要なタスクを実行することができる。
さらに、本開示の実施形態及び本明細書において説明された機能動作は、本明細書に開示された構造及びそれらの構造的均等物を含むデジタル電子回路部、有形に具現化されたコンピュータソフトウェア若しくはファームウェア、コンピュータハードウェア、又はそれらのうちの1つ以上のものの組み合わせにおいて実施することができる。さらに、本開示のいくつかの実施形態は、データ処理装置によって実行されるか又はデータ処理装置の動作を制御する1つ以上のコンピュータプログラム、すなわち、有形の非一時的プログラム担体上に符号化されたコンピュータプログラム命令の1つ以上のモジュールとして実施することができる。またさらに、プログラム命令は、データ処理装置による実行のために、適した受信機装置への送信用の情報を符号化するように生成される人工的に生成された伝播信号、例えば、機械によって生成された電気信号、光信号、又は電磁信号において符号化することができる。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶デバイス基板、ランダムアクセスメモリデバイス若しくはシリアルアクセスメモリデバイス、又はそれらのうちの1つ以上のものの組み合わせとすることができる。
本開示の実施形態によれば、用語「データ処理装置」は、データを処理する全ての種類の装置、デバイス、及び機械を包含することができ、例として、プログラマブルプロセッサ、コンピュータ、又は複数のプロセッサ若しくはコンピュータを含む。装置は、専用論理回路部、例えば、FPGA(フィールドプログラマブルゲートアレイ)又はASIC(特定用途向け集積回路)を備えることができる。装置は、ハードウェアに加えて、問題になっているコンピュータプログラムの実行環境を作り出すコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、又はそれらのうちの1つ以上の組み合わせを構成するコードも有することができる。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、又はコードと呼称又は記載される場合もある)は、コンパイラー型言語若しくはインタープリター型言語、又は宣言型言語若しくは手続型言語を含む任意の形態のプログラミング言語で記述することができ、スタンドアローンプログラムとしての形態、又は、モジュール、構成要素、サブルーチン、若しくはコンピューティング環境における使用に適した他のユニットとしての形態を含む任意の形態で配備することができる。コンピュータプログラムは、ファイルシステムにおけるファイルに対応する場合があるが、必ずしも対応する必要はない。プログラムは、他のプログラム又はデータ、例えば、マークアップ言語ドキュメントに記憶された1つ以上のスクリプトを保持するファイルの一部分に記憶することもできるし、問題となっているプログラムに専用化された単一のファイルに記憶することもできるし、複数のコーディネートファイル、例えば、1つ以上のモジュール、サブプログラム、又はコード部分を記憶するファイルに記憶することもできる。コンピュータプログラムは、1つのコンピュータ上で実行されるように配備することもできるし、1つのサイトに配置された複数のコンピュータ上で、又は、複数のサイトにわたって分散されて通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように配備することもできる。コンピュータプログラムの実行に適したコンピュータは、例として、汎用マイクロプロセッサ若しくは専用マイクロプロセッサ若しくはそれらの双方、又は他の任意の種類の中央処理装置を含む。一般に、中央処理装置は、リードオンリーメモリ若しくはランダムアクセスメモリ又はそれらの双方から命令及びデータを受け取る。コンピュータの必須素子は、命令を遂行又は実行する中央処理装置と、命令及びデータを記憶する1つ以上のメモリデバイスとである。一般に、コンピュータは、データを含むか、又は、データを記憶する1つ以上のマスストレージデバイス、例えば、磁気ディスク、光磁気ディスク、若しくは光ディスクからのデータの受信若しくはそれらへのデータの転送若しくはそれらの双方を行うように作動結合される。ただし、コンピュータは、必ずしもそのようなデバイスを有するとは限らない。その上、コンピュータは、別のデバイスに組み込むことができ、例えば、数例を挙げると、モバイル電話機、パーソナルデジタルアシスタント(PDA)、モバイルオーディオプレーヤ若しくはモバイルビデオプレーヤ、ゲームコンソール、全地球測位システム(GPS)受信機、又はポータブル記憶デバイス、例えば、ユニバーサルシリアルバス(USB)フラッシュドライブに組み込むことができる。
ユーザとのインタラクションを提供するために、本明細書において説明した主題の実施形態は、ユーザに情報を表示するディスプレイデバイス、例えば、CRT(陰極線管)モニタ又はLCD(液晶ディスプレイ)モニタと、ユーザがコンピュータに入力を提供することができるキーボード及びポインティングデバイス、例えば、マウス又はトラックボールとを有するコンピュータ上で実施することができる。他の種類のデバイスを用いて、ユーザとのインタラクションを同様に提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックとすることができ、ユーザからの入力は、音響入力、音声入力、又は触覚入力を含む任意の形態で受信することができる。加えて、コンピュータは、ユーザによって用いられるデバイスに文書を送信すること及びこのデバイスから文書を受信することによって、例えば、ウェブブラウザーから受信された要求に応答してユーザのクライアントデバイス上のウェブブラウザーにウェブページを送信することによって、ユーザとインタラクトすることができる。
本明細書において説明した主題の実施形態は、バックエンド構成要素を、例えばデータサーバとして備えるコンピューティングシステム、又はミドルウェア構成要素、例えば、アプリケーションサーバを備えるコンピューティングシステム、又はフロントエンド構成要素、例えば、ユーザが本明細書において説明した主題の実施態様とインタラクトすることをできるようにするグラフィカルユーザインターフェース又はウェブブラウザーを有するクライアントコンピュータを備えるコンピューティングシステム、又は1つ以上のそのようなバックエンド構成要素、ミドルウェア構成要素、若しくはフロントエンド構成要素の任意の組み合わせを備えるコンピューティングシステムにおいて実施することができる。システムのこれらの構成要素は、任意の形態又は媒体のデジタルデータ通信、例えば、通信ネットワークによって相互接続することができる。通信ネットワークの例には、ローカルエリアネットワーク(「LAN」)及びワイドエリアネットワーク(「WAN」)、例えば、インターネットがある。
コンピューティングシステムは、クライアント及びサーバを備えることができる。クライアント及びサーバは、一般的に互いにリモートであり、通常、通信ネットワークを通じてインタラクトする。クライアント及びサーバの関係は、それぞれのコンピュータ上で動作するとともに互いにクライアントサーバ関係を有するコンピュータプログラムによって生じる。

Claims (19)

  1. 入力オーディオ信号を変換するオーディオ信号処理システムであって、前記入力オーディオ信号は、1つ以上の対象オーディオ信号の混合体を含み、前記オーディオ信号処理システムは、
    記憶された実行可能命令と、記憶されたモジュールとを含むメモリであって、前記記憶されたモジュールは、前記入力オーディオ信号を変換して、対象オーディオ信号推定値を取得するようになっている、メモリと、
    前記入力オーディオ信号を受信する入力インターフェースと、
    前記メモリ及び前記入力インターフェースと通信するプロセッサであって、前記プロセッサは、
    前記入力オーディオ信号からオーディオ特徴シーケンスを抽出し、前記オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力する前記記憶されたモジュールのスペクトログラム推定器であって、前記一組の推定されたスペクトログラムは、対象オーディオ信号ごとの推定されたスペクトログラムを含む、前記記憶されたモジュールの前記スペクトログラム推定器と、
    前記一組の推定されたスペクトログラムを処理して、一組の精緻化されたスペクトログラムを出力する前記記憶されたモジュールのスペクトログラム精緻化モジュールであって、前記一組の精緻化されたスペクトログラムは、対象オーディオ信号ごとの精緻化されたスペクトログラムを含むようになっており、前記スペクトログラム精緻化モジュールを用いることは、反復位相再構成アルゴリズムに基づいており、位相再構成アルゴリズムを反復して適用することで、推定された位相が推定された振幅とより整合するようにして前記精緻化されたスペクトログラムを取得する、前記記憶されたモジュールの前記スペクトログラム精緻化モジュールと、
    前記1つ以上の対象オーディオ信号についての前記一組の精緻化されたスペクトログラムを処理して、前記対象オーディオ信号推定値を取得する、前記記憶されたモジュールの信号精緻化モジュールであって、対象オーディオ信号ごとに対象オーディオ信号推定値が存在するようになっている、前記記憶されたモジュールの前記信号精緻化モジュールと、
    前記対象オーディオ信号推定値を出力する出力インターフェースと、
    によって、前記記憶されたモジュールのステップを実施する、プロセッサと、
    を備え、
    前記記憶されたモジュールのパラメータは、前記メモリに記憶された最適化器を用いて誤差を最小化することによってトレーニングデータを用いてトレーニングされ、前記誤差は、前記一組の精緻化されたスペクトログラムにおける誤差、前記一組の精緻化されたスペクトログラムにおける整合性測定値を含む誤差、又は、前記対象オーディオ信号推定値における誤差のうちの1つ以上を含む、オーディオ信号処理システム。
  2. 前記スペクトログラム推定器は、ディープニューラルネットワークを用いる、請求項1に記載のオーディオ信号処理システム。
  3. 前記スペクトログラム推定器は、対象オーディオ信号ごとのマスク推定値を出力するマスク推定モジュールと、前記1つ以上の対象オーディオ信号についての前記マスク推定値及び前記入力オーディオ信号を用いて、前記対象オーディオ信号ごとの推定されたスペクトログラムを出力するスペクトログラム推定出力モジュールとを含む、請求項1に記載のオーディオ信号処理システム。
  4. 少なくとも1つの前記マスク推定値は、1よりも大きい、請求項3に記載のオーディオ信号処理システム。
  5. 前記スペクトログラム精緻化モジュールは、
    前記一組の推定されたスペクトログラムに対して実行される反復手順を規定することと、
    前記反復手順の反復ごとに1つの層が存在するように、前記反復手順を一組の層に展開することであって、各層は、一組の固定されたネットワークパラメータを含む、展開することと、
    以前の反復の層の前記一組の固定されたネットワークパラメータからの固定されたネットワークパラメータを、トレーニングするべき変数として用いてニューラルネットワークを形成し、各変数がそれらの対応する層に別個に適用可能であるように別個の変数としてこれらの変数を用いることによって、前記以前の反復の層間でこれらの変数の関連付けを解くことと、
    前記ニューラルネットワークをトレーニングして、トレーニングされたニューラルネットワークを取得することと、
    前記トレーニングされたニューラルネットワークを用いて前記一組の推定されたスペクトログラム及び前記オーディオ特徴シーケンスを変換して、前記一組の精緻化されたスペクトログラムを取得することと、
    を含む、請求項1に記載のオーディオ信号処理システム。
  6. 前記反復位相再構成アルゴリズムは、多入力スペクトログラム逆変換(MISI)アルゴリズムである、請求項に記載のオーディオ信号処理システム。
  7. 前記反復位相再構成アルゴリズムは、グリフィンリムアルゴリズムである、請求項に記載のオーディオ信号処理システム。
  8. 前記対象オーディオ信号推定値における誤差は、前記対象オーディオ信号推定値と、基準対象オーディオ信号との間の距離を含む、請求項1に記載のオーディオ信号処理システム。
  9. 前記対象オーディオ信号推定値における誤差は、前記対象オーディオ信号の推定されたスペクトログラムと、前記対象オーディオ信号の精緻化されたスペクトログラムとの間の距離を含む、請求項1に記載のオーディオ信号処理システム。
  10. 前記スペクトログラム推定器は、特徴抽出モジュールを含み、前記特徴抽出モジュールは、前記入力オーディオ信号から前記入力オーディオ信号を抽出するようになっている、請求項1に記載のオーディオ信号処理システム。
  11. 受信オーディオ信号は、1人以上の話者、雑音、音楽、環境音、機械音のうちの1つ以上を含む、請求項1に記載のオーディオ信号処理システム。
  12. 前記誤差は、更に、前記一組の推定されたスペクトログラムにおける誤差を含む、請求項1に記載のオーディオ信号処理システム。
  13. 入力オーディオ信号を変換する方法であって、
    前記入力オーディオ信号を変換するモジュールを用いるステップであって、前記入力オーディオ信号は、1つ以上の対象オーディオ信号の混合体を含むようになっており、前記モジュールは、前記入力オーディオ信号を変換して、対象オーディオ信号推定値を取得する、ステップと、
    前記入力オーディオ信号からオーディオ特徴シーケンスを抽出し、前記オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力する、前記モジュールのスペクトログラム推定器を用いるステップであって、前記一組の推定されたスペクトログラムは、対象オーディオ信号ごとの推定されたスペクトログラムを含む、ステップと、
    前記一組の推定されたスペクトログラムを処理して、一組の精緻化されたスペクトログラムを出力する前記モジュールのスペクトログラム精緻化モジュールを用いるステップであって、前記一組の精緻化されたスペクトログラムは、対象オーディオ信号ごとの精緻化されたスペクトログラムを含むようになっており、前記スペクトログラム精緻化モジュールを用いることは、反復位相再構成アルゴリズムに基づいており、位相再構成アルゴリズムを反復して適用することで、推定された位相が推定された振幅とより整合するようにして前記精緻化されたスペクトログラムを取得する、ステップと、
    前記1つ以上の対象オーディオ信号についての前記一組の精緻化されたスペクトログラムを処理して、前記対象オーディオ信号推定値を取得する前記モジュールの信号精緻化モジュールを用いるステップであって、対象オーディオ信号ごとに対象オーディオ信号推定値が存在するようになっている、ステップと、
    前記対象オーディオ信号推定値を出力するステップであって、記憶されたモジュールのパラメータは、メモリに記憶された最適化器を用いて誤差を最小化することによってトレーニングデータを用いてトレーニングされ、前記誤差は、前記一組の精緻化されたスペクトログラムにおける誤差、前記一組の精緻化されたスペクトログラムにおける整合性測定値を含む誤差、又は、前記対象オーディオ信号推定値における誤差のうちの1つ以上を含み、前記ステップは、外部デバイス及び記憶された実行可能命令を有する前記メモリと通信するプロセッサによって実行され、前記モジュールは、前記メモリに記憶されている、方法。
  14. 前記スペクトログラム推定器は、対象オーディオ信号ごとのマスク推定値を出力するマスク推定モジュールと、前記1つ以上の対象オーディオ信号についての前記マスク推定値及び前記入力オーディオ信号を用いて、対象オーディオ信号ごとの前記推定されたスペクトログラムを出力するスペクトログラム推定出力モジュールとを含み、少なくとも1つのマスク推定値は、1よりも大きい、請求項13に記載の方法。
  15. 前記スペクトログラム精緻化モジュールの処理は、
    前記一組の推定されたスペクトログラム及び入力オーディオ特徴シーケンスに対して実行される反復手順を規定することと、
    前記反復手順の反復ごとに1つの層が存在するように、前記反復手順を一組の層に展開することであって、各層は、一組の固定されたネットワークパラメータを含む、展開することと、
    以前の反復の層の前記一組の固定されたネットワークパラメータからの固定されたネットワークパラメータを、トレーニングするべき変数として用いてニューラルネットワークを形成し、各変数がそれらの対応する層に別個に適用可能であるように別個の変数としてこれらの変数を用いることによって、前記以前の反復の層間でこれらの変数の関連付けを解くことと、
    前記ニューラルネットワークをトレーニングして、トレーニングされたニューラルネットワークを取得することと、
    前記トレーニングされたニューラルネットワークを用いて前記一組の推定されたスペクトログラム及び前記オーディオ特徴シーケンスを変換して、前記一組の精緻化されたスペクトログラムを取得することと、
    を含む、請求項13に記載の方法。
  16. 前記最適化器は、勾配降下ベースアルゴリズムを含む、請求項13に記載の方法。
  17. 入力オーディオ信号を変換するオーディオ信号処理システムであって、前記オーディオ信号処理システムは、
    記憶された実行可能命令と、記憶されたモジュールとを含むメモリであって、前記記憶されたモジュールは、前記入力オーディオ信号を変換して、対象オーディオ信号推定値を取得するようになっており、前記入力オーディオ信号は、1つ以上の対象オーディオ信号の混合体を含む、メモリと、
    前記入力オーディオ信号を受信する入力インターフェースと、
    前記メモリ及び前記入力インターフェースと通信するプロセッサであって、前記記憶されたモジュールの前記プロセッサは、
    前記入力オーディオ信号からオーディオ特徴シーケンスを抽出し、前記オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力する前記記憶されたモジュールのスペクトログラム推定器であって、前記一組の推定されたスペクトログラムは、対象オーディオ信号ごとの推定されたスペクトログラムを含む、前記記憶されたモジュールの前記スペクトログラム推定器と、
    前記一組の推定されたスペクトログラムを処理して、一組の精緻化されたスペクトログラムを出力する前記記憶されたモジュールのスペクトログラム精緻化モジュールであって、前記一組の精緻化されたスペクトログラムは、対象オーディオ信号ごとの精緻化されたスペクトログラムを含むようになっており、前記スペクトログラム精緻化モジュールを用いることは、反復位相再構成アルゴリズムに基づいており、位相再構成アルゴリズムを反復して適用することで、推定された位相が推定された振幅とより整合するようにして前記精緻化されたスペクトログラムを取得する、前記記憶されたモジュールの前記スペクトログラム精緻化モジュールと、
    前記1つ以上の対象オーディオ信号についての前記一組の精緻化されたスペクトログラムを処理して、前記対象オーディオ信号推定値を取得する、前記記憶されたモジュールの信号精緻化モジュールであって、対象オーディオ信号ごとに対象オーディオ信号推定値が存在するようになっている、前記記憶されたモジュールの前記信号精緻化モジュールと、
    前記対象オーディオ信号推定値を出力する出力インターフェースと、
    を備え、
    前記記憶されたモジュールのパラメータは、前記メモリに記憶された最適化器を用いて誤差を最小化することによってトレーニングデータを用いてトレーニングされ、
    前記誤差は、前記一組の精緻化されたスペクトログラムにおける誤差、又は、前記対象オーディオ信号推定値における誤差、又は、その両方、を含む、オーディオ信号処理システム。
  18. 入力オーディオ信号を変換するオーディオ信号処理システムであって、前記オーディオ信号処理システムは、
    環境から前記入力オーディオ信号を獲得するように構成された音検出デバイスと、
    前記入力オーディオ信号を受信及び送信するように構成された信号入力インターフェースデバイスであって、前記入力オーディオ信号は、1つ以上の対象オーディオ信号の混合体を含む、信号入力インターフェースデバイスと、
    前記入力オーディオ信号を処理するように構成されたオーディオ信号処理デバイスであって、前記オーディオ信号処理デバイスは、
    データを入出力するように構成されたメモリに接続するように構成されたハードウェアプロセッサであって、前記ハードウェアプロセッサは、
    前記メモリに記憶されたモジュールにアクセスするステップであって、記憶された前記モジュールは、前記入力オーディオ信号を変換して、対象オーディオ信号推定値を取得するようになっている、前記モジュールと、
    前記入力オーディオ信号からオーディオ特徴シーケンスを抽出し、前記オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力する前記記憶されたモジュールのスペクトログラム推定器であって、前記一組の推定されたスペクトログラムは、対象オーディオ信号ごとの推定されたスペクトログラムを含む、前記記憶されたモジュールの前記スペクトログラム推定器と、
    前記一組の推定されたスペクトログラムを処理して、一組の精緻化されたスペクトログラムを出力する前記記憶されたモジュールのスペクトログラム精緻化モジュールであって、前記一組の精緻化されたスペクトログラムは、対象オーディオ信号ごとの精緻化されたスペクトログラムを含むようになっており、前記スペクトログラム精緻化モジュールを用いることは、反復位相再構成アルゴリズムに基づいており、位相再構成アルゴリズムを反復して適用することで、推定された位相が推定された振幅とより整合するようにして前記精緻化されたスペクトログラムを取得する、前記記憶されたモジュールの前記スペクトログラム精緻化モジュールと、
    前記1つ以上の対象オーディオ信号についての前記一組の精緻化されたスペクトログラムを処理して、前記対象オーディオ信号推定値を取得する前記モジュールの信号精緻化モジュールであって、対象オーディオ信号ごとに対象オーディオ信号推定値が存在するようになっている、前記モジュールの前記信号精緻化モジュールと、
    対象オーディオ信号推定値を出力する出力インターフェースと、
    を備え、
    前記記憶されたモジュールのパラメータは、前記メモリに記憶された最適化器を用いて誤差を最小化することによってトレーニングデータを用いてトレーニングされ、前記誤差は、前記一組の精緻化されたスペクトログラムにおける誤差、前記一組の精緻化されたスペクトログラムにおける整合性測定値を含む誤差、又は、前記対象オーディオ信号推定値における誤差、のうちの1つを含む、オーディオ信号処理システム。
  19. 単一チャネル信号から入力オーディオ信号を変換するオーディオ信号処理システムであって、前記オーディオ信号処理システムは、単一チャネル話者に依存しない複数話者の音声分離のためのエンドツーエンド手法を含み、前記オーディオ信号処理システムは、
    記憶された実行可能命令と、記憶されたモジュールとを含むメモリであって、前記記憶されたモジュールは、前記入力オーディオ信号を変換して、対象オーディオ信号推定値を取得するようになっている、メモリと、
    前記メモリと通信するプロセッサであって、前記プロセッサは、
    前記単一チャネル信号から前記入力オーディオ信号を受信して、オーディオ特徴シーケンスを抽出し、前記オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力する、前記記憶されたモジュールのスペクトログラム推定器であって、前記一組の推定されたスペクトログラムは、対象オーディオ信号ごとの推定されたスペクトログラムを含む、前記記憶されたモジュールのスペクトログラム推定器と、
    前記一組の推定されたスペクトログラムを処理して、一組の精緻化されたスペクトログラムを出力する、前記記憶されたモジュールのスペクトログラム精緻化モジュールであって、前記一組の精緻化されたスペクトログラムは、対象オーディオ信号ごとの精緻化されたスペクトログラムを含むようになっており、前記スペクトログラム精緻化モジュールの使用は、反復位相再構成アルゴリズムに基づいており、位相再構成アルゴリズムを反復して適用することで、推定された位相が推定された振幅とより整合するようにして前記精緻化されたスペクトログラムを取得する、前記記憶されたモジュールの前記スペクトログラム精緻化モジュールと、
    前記対象オーディオ信号についての前記一組の精緻化されたスペクトログラムを処理して、対象オーディオ信号推定値を取得する、前記記憶されたモジュールの信号精緻化モジュールであって、対象オーディオ信号ごとに対象オーディオ信号推定値が存在するようになっている、前記記憶されたモジュールの前記信号精緻化モジュールと、
    前記対象オーディオ信号推定値を出力する出力インターフェースと、
    によって、前記記憶されたモジュールのステップを実施する、プロセッサと、
    を備え、
    前記記憶されたモジュールのパラメータは、前記メモリに記憶された最適化器を用いて誤差を最小化することによってトレーニングデータを用いてトレーニングされ、前記誤差は、前記一組の精緻化されたスペクトログラムにおける誤差、前記一組の精緻化されたスペクトログラムにおける整合性測定値を含む誤差、又は、前記対象オーディオ信号推定値における誤差のうちの1つ以上を含む、オーディオ信号処理システム。
JP2020567351A 2018-04-16 2019-03-07 オーディオ信号処理システム、及び入力オーディオ信号を変換する方法 Active JP7034339B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862658567P 2018-04-16 2018-04-16
US62/658,567 2018-04-16
US15/983,256 2018-05-18
US15/983,256 US10529349B2 (en) 2018-04-16 2018-05-18 Methods and systems for end-to-end speech separation with unfolded iterative phase reconstruction
PCT/JP2019/010433 WO2019202886A1 (en) 2018-04-16 2019-03-07 Audio signal processing system and method for transforming input audio signals

Publications (2)

Publication Number Publication Date
JP2021515277A JP2021515277A (ja) 2021-06-17
JP7034339B2 true JP7034339B2 (ja) 2022-03-11

Family

ID=68161902

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020567351A Active JP7034339B2 (ja) 2018-04-16 2019-03-07 オーディオ信号処理システム、及び入力オーディオ信号を変換する方法

Country Status (5)

Country Link
US (1) US10529349B2 (ja)
EP (1) EP3782153A1 (ja)
JP (1) JP7034339B2 (ja)
CN (1) CN111954904A (ja)
WO (1) WO2019202886A1 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6821615B2 (ja) * 2018-02-22 2021-01-27 日本電信電話株式会社 マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
CN108962237B (zh) * 2018-05-24 2020-12-04 腾讯科技(深圳)有限公司 混合语音识别方法、装置及计算机可读存储介质
CN108766440B (zh) * 2018-05-28 2020-01-14 平安科技(深圳)有限公司 说话人分离模型训练方法、两说话人分离方法及相关设备
US11217254B2 (en) * 2018-12-24 2022-01-04 Google Llc Targeted voice separation by speaker conditioned on spectrogram masking
US11456007B2 (en) * 2019-01-11 2022-09-27 Samsung Electronics Co., Ltd End-to-end multi-task denoising for joint signal distortion ratio (SDR) and perceptual evaluation of speech quality (PESQ) optimization
US11069352B1 (en) * 2019-02-18 2021-07-20 Amazon Technologies, Inc. Media presence detection
EP3979240A4 (en) * 2019-05-28 2022-06-15 NEC Corporation SIGNAL EXTRACTION SYSTEM, SIGNAL EXTRACTION TRAINING PROCEDURE AND SIGNAL EXTRACTION TUTORIAL PROGRAM
US11355134B2 (en) 2019-08-02 2022-06-07 Audioshake, Inc. Deep learning segmentation of audio using magnitude spectrogram
US11521630B2 (en) * 2020-10-02 2022-12-06 Audioshake, Inc. Deep learning segmentation of audio using magnitude spectrogram
US11295751B2 (en) * 2019-09-20 2022-04-05 Tencent America LLC Multi-band synchronized neural vocoder
CN111179961B (zh) * 2020-01-02 2022-10-25 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备及存储介质
WO2021164001A1 (en) * 2020-02-21 2021-08-26 Harman International Industries, Incorporated Method and system to improve voice separation by eliminating overlap
US20210319230A1 (en) * 2020-04-10 2021-10-14 Gracenote, Inc. Keyframe Extractor
US20210383790A1 (en) * 2020-06-05 2021-12-09 Google Llc Training speech synthesis neural networks using energy scores
CN111898420A (zh) * 2020-06-17 2020-11-06 北方工业大学 一种唇语识别系统
CN111798866A (zh) * 2020-07-13 2020-10-20 商汤集团有限公司 音频处理网络的训练及立体声重构方法和装置
CN111863009B (zh) * 2020-07-15 2022-07-26 思必驰科技股份有限公司 上下文信息预测模型的训练方法及系统
CN111724807B (zh) * 2020-08-05 2023-08-11 字节跳动有限公司 音频分离方法、装置、电子设备及计算机可读存储介质
CN112183107A (zh) * 2020-09-04 2021-01-05 华为技术有限公司 音频的处理方法和装置
CN112562707A (zh) * 2020-11-30 2021-03-26 哈尔滨工程大学 一种单信道目标语音增强方法
CN112863538B (zh) * 2021-02-24 2022-06-14 复旦大学 一种基于视听网络的多模态语音分离方法及装置
US11790930B2 (en) * 2021-07-29 2023-10-17 Mitsubishi Electric Research Laboratories, Inc. Method and system for dereverberation of speech signals
US11908454B2 (en) 2021-12-01 2024-02-20 International Business Machines Corporation Integrating text inputs for training and adapting neural network transducer ASR models
CN114446316B (zh) * 2022-01-27 2024-03-12 腾讯科技(深圳)有限公司 音频分离方法、音频分离模型的训练方法、装置及设备
US11869478B2 (en) * 2022-03-18 2024-01-09 Qualcomm Incorporated Audio processing using sound source representations
CN115862669A (zh) * 2022-11-29 2023-03-28 南京领行科技股份有限公司 一种保证乘车安全的方法、装置、电子设备及存储介质
CN116755092B (zh) * 2023-08-17 2023-11-07 中国人民解放军战略支援部队航天工程大学 一种基于复数域长短期记忆网络的雷达成像平动补偿方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170190A (ja) 2010-02-19 2011-09-01 Nippon Telegr & Teleph Corp <Ntt> 信号分離装置、信号分離方法、および、信号分離プログラム
JP2016042152A (ja) 2014-08-18 2016-03-31 日本放送協会 音声認識装置及びプログラム
JP2018502319A (ja) 2015-07-07 2018-01-25 三菱電機株式会社 信号の1つ又は複数の成分を区別する方法
JP2018510374A (ja) 2015-02-26 2018-04-12 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006337851A (ja) * 2005-06-03 2006-12-14 Sony Corp 音声信号分離装置及び方法
US20160071526A1 (en) 2014-09-09 2016-03-10 Analog Devices, Inc. Acoustic source tracking and selection
WO2017143095A1 (en) * 2016-02-16 2017-08-24 Red Pill VR, Inc. Real-time adaptive audio source separation
US10014002B2 (en) * 2016-02-16 2018-07-03 Red Pill VR, Inc. Real-time audio source separation using deep neural networks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170190A (ja) 2010-02-19 2011-09-01 Nippon Telegr & Teleph Corp <Ntt> 信号分離装置、信号分離方法、および、信号分離プログラム
JP2016042152A (ja) 2014-08-18 2016-03-31 日本放送協会 音声認識装置及びプログラム
JP2018510374A (ja) 2015-02-26 2018-04-12 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法
JP2018502319A (ja) 2015-07-07 2018-01-25 三菱電機株式会社 信号の1つ又は複数の成分を区別する方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
David Gunawan and D .Sen,Iterative Phase Estimation for the Synthesis of Separated Sources From Single-Channel Mixtures,IEEE SIGNAL PROCESSING LETTERS,IEEE ,2010年02月08日,17巻5号,PP421-424,IEEE Xplore

Also Published As

Publication number Publication date
US20190318754A1 (en) 2019-10-17
EP3782153A1 (en) 2021-02-24
CN111954904A (zh) 2020-11-17
US10529349B2 (en) 2020-01-07
JP2021515277A (ja) 2021-06-17
WO2019202886A1 (en) 2019-10-24

Similar Documents

Publication Publication Date Title
JP7034339B2 (ja) オーディオ信号処理システム、及び入力オーディオ信号を変換する方法
JP7427723B2 (ja) ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成
JP6873333B2 (ja) 音声認識システム及び音声認識システムを用いる方法
JP7434137B2 (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
Zhang et al. Deep learning for environmentally robust speech recognition: An overview of recent developments
US10957337B2 (en) Multi-microphone speech separation
CN110415686B (zh) 语音处理方法、装置、介质、电子设备
US9640194B1 (en) Noise suppression for speech processing based on machine-learning mask estimation
CN110503971A (zh) 用于语音处理的基于神经网络的时频掩模估计和波束形成
US11355097B2 (en) Sample-efficient adaptive text-to-speech
Karthik et al. Efficient speech enhancement using recurrent convolution encoder and decoder
JP7301154B2 (ja) 音声データの処理方法並びにその、装置、電子機器及びコンピュータプログラム
WO2022005615A1 (en) Speech enhancement
JP2023162265A (ja) テキストエコー消去
Park et al. Unsupervised speech domain adaptation based on disentangled representation learning for robust speech recognition
JP2023541651A (ja) 完全なトランスクリプトなしのエンドツーエンドの音声言語理解
KR102663654B1 (ko) 적응형 시각적 스피치 인식
WO2024055752A1 (zh) 语音合成模型的训练方法、语音合成方法和相关装置
US20230298609A1 (en) Generalized Automatic Speech Recognition for Joint Acoustic Echo Cancellation, Speech Enhancement, and Voice Separation
KR20240033265A (ko) 자동 음성 인식을 위한 공동 음향 에코 제거, 음성 향상 및 음성 분리
CN116978359A (zh) 音素识别方法、装置、电子设备及存储介质
Bhandari INTERACTIVE VOICE RESPONSE SYSTEM WITH SPEECH RECOGNITION
CN116758930A (zh) 语音增强方法、装置、电子设备及存储介质
CN114299932A (zh) 语音数据处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200826

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220301

R150 Certificate of patent or registration of utility model

Ref document number: 7034339

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150