JP2021515277A

JP2021515277A - オーディオ信号処理システム、及び入力オーディオ信号を変換する方法

Info

Publication number: JP2021515277A
Application number: JP2020567351A
Authority: JP
Inventors: ル・ルー、ジョナサン; ハーシェイ、ジョン・アール; ワン、ツォンキウ; ウィヘルン、ゴードン・ピー
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2018-04-16
Filing date: 2019-03-07
Publication date: 2021-06-17
Anticipated expiration: 2039-03-07
Also published as: EP3782153A1; CN111954904B; JP7034339B2; US20190318754A1; WO2019202886A1; US10529349B2; CN111954904A

Abstract

入力オーディオ信号を変換するオーディオ信号処理システム及び方法を開示する。プロセッサは、入力オーディオ信号をスペクトログラム推定器に入力して、オーディオ特徴シーケンスを抽出し、オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力する。プロセッサは、スペクトログラム精緻化モジュールを用いて、一組の推定されたスペクトログラム及びオーディオ特徴シーケンスを処理して、一組の精緻化されたスペクトログラムを出力する。スペクトログラム精緻化モジュールの処理は、反復再構成アルゴリズムに基づいている。プロセッサは、信号精緻化モジュールを用いて、１つ以上の対象オーディオ信号についての一組の精緻化されたスペクトログラムを処理して、対象オーディオ信号推定値を取得する。システムは、最適化された対象オーディオ信号推定値を出力する出力インターフェースを更に備える。モジュールは、メモリに記憶された最適化器を用いて誤差を最小化することによって最適化される。

Description

本開示は、包括的には、オーディオ信号に関し、より詳細には、単一チャネル話者に依存しない複数の話者の音声分離のためのエンドツーエンド手法を用いることに関する。

いくつかの従来の音声分離及び音声強調アプリケーションにおいて、処理は、短時間フーリエ変換（ＳＴＦＴ：short-time Fourier transform）領域等の時間−周波数表現において行われる。ＳＴＦＴは、信号の複素領域スペクトル時間（又は時間−周波数）表現を取得する。観測される雑音を含む信号のＳＴＦＴは、対象音声信号のＳＴＦＴ及び雑音信号のＳＴＦＴの総和として記述することができる。信号のＳＴＦＴは、複素数であり、総和は、複素領域中に存在する。

一方で、これらの従来の音声分離及び音声強調アプリケーションのうちの大半は、時間−周波数（Ｔ−Ｆ）領域における振幅上の分離のみを行い、時間領域再合成に混合体位相（mixture phase）を直接用いる。これは、主に、位相自体が、非常にランダムであり、向上させるのが困難であるためである。この手法は、特に音声処理の場合、典型的には連続フレーム間で少なくとも半分の重複が存在する位相不整合問題が生じることがよく知られている。この重複により、音声信号のＳＴＦＴ表現は非常に冗長になる。結果として、推定された振幅及び混合体位相を用いて取得された拡張ＳＴＦＴ表現が整合したＳＴＦＴ領域内にはないことになり、これは、そのＳＴＦＴ表現を有する時間領域信号が存在することが保証されないことを意味する。

換言すれば、これらの従来の方法を用いると、位相は無視され、これらの従来の方法では、観測された信号のＳＴＦＴの振幅は、対象オーディオ信号及び雑音信号のＳＴＦＴの振幅の総和に等しいということを仮定することになる。これは、大まかな又は不十分な仮定である。したがって、従来の音声分離及び音声強調アプリケーションでは、入力として雑音を含む音声信号を所与とした「対象音声」の振幅予測、又は、入力としてオーディオ音声源の混合体を所与とした「対象音声源」の振幅予測に対して焦点が当てられてきた。そのＳＴＦＴからの時間領域拡張信号を再構成する間、雑音を含む信号の位相は、これらの従来の音声分離及び拡張音声アプリケーションによって、拡張された音声のＳＴＦＴの推定された位相として用いられる。

したがって、単一チャネル話者に依存しない複数の話者の音声分離のためのエンドツーエンド手法を用いて、音声分離及び音声強調アプリケーションを改善することが必要とされている。

本開示は、包括的には、オーディオ信号に関し、より詳細には、単一チャネル話者に依存しない複数の話者音声分離のためのエンドツーエンド手法を用いることに関する。

本開示のいくつかの実施の形態は、単一チャネル話者に依存しない複数話者の音声分離のためのエンドツーエンド手法を使用し、ここで、時間−周波数（Ｔ−Ｆ）マスキングを用いるスペクトログラム推定、短時間フーリエ変換（ＳＴＦＴ）、及びその逆変換は、ディープネットワーク内の層として表される。他のタイプのスペクトログラム推定並びに他の時間−周波数変換及び逆変換を同様に検討することができる。

本開示のいくつかの実施の形態では、信号レベル近似のために時間−周波数（Ｔ−Ｆ）マスキングを介した反復位相再構成を通じてトレーニングするエンドツーエンド音声分離アルゴリズムを使用する。このエンドツーエンド音声分離アルゴリズムは、実験を通じて実現された。実験中、いくつかの手法では、Ｔ−Ｆ領域における振幅に対して分離を実行し、混合体位相は時間領域再合成のために直接用いた。これは、主に、位相を推定することが困難であるためである。しかしながら、これらの特定の手法は、特に音声処理の場合、典型的には連続フレーム間で少なくとも半分の重複が存在する位相不整合性問題を結果として生じさせた。この重複により、音声信号の短時間フーリエ変換（ＳＴＦＴ）表現は非常に冗長になる。結果として、推定された振幅及び混合体位相を用いて取得された拡張ＳＴＦＴ表現が整合したＳＴＦＴ領域内にはないことになり、これは、そのＳＴＦＴ表現を有する時間領域信号が存在することが保証されないことを意味する。

整合性を改善するために、いくつかの手法を用いて継続された実験は、標準的なグリフィンリム（Griffin-Lim）アルゴリズム、多入力スペクトログラム逆変換（ＭＩＳＩ）、反復再構成を用いる教師あり音声源分離（ＩＳＳＩＲ：Informed Source Separation Using Iterative Reconstruction）、及び整合ウィーナーフィルタリング（Wiener filtering）等の反復方法に焦点を当てており、これらは、混合体位相、及びＳＴＦＴ及びｉＳＴＦＴを反復して実行することによる良好に推定された振幅から開始して、或る程度までより整合した位相を復元するという結果をもたらした。

いくつかの他の実験手法は、ディープ学習ベース音声強調及び分離によって生成される振幅に対する後処理ステップとして反復アルゴリズムを適用することを含むものであった。しかしながら、これらの他の手法は、典型的には、ディープニューラルネットワーク（ＤＮＮ）からの振幅推定値は合理的に良好であったものの、わずかな改善しかもたらさなかった。これは、Ｔ−Ｆマスキングが、後の位相再構成ステップを認識することなく実行されるためであり、したがって、反復位相再構成に適したスペクトル構造を生成しない場合があるためと考えられた。これは、時間−周波数（Ｔ−Ｆ）マスキング、短時間フーリエ変換（ＳＴＦＴ）、及びその逆変換を、ディープネットワーク内の層として表すことができる、エンドツーエンド音声分離手法を開発するという実験から後に理解された。

この理解の一部は、対象ＳＴＦＴ振幅に基づく代替損失（surrogate loss）を用いたいくつかの実験手法から得られた。しかしながら、この特定の手法は、位相不整合性によって生じる再構成誤差を無視するという結果をもたらした。したがって、総損失は、再構成された信号に対して計算される損失を含むことが必要となり、特に、損失関数は、最良の分離のために最適化することが可能な再構成された信号に対して直接規定できるということが理解された。さらに、再構成された信号に対する他の損失、例えば、再構成された信号のＳＴＦＴに関与する損失、又は、入力として再構成された信号を所与とした音声認識システム若しくは音分類システムの出力に関与する損失を用いることができることが理解された。さらに、トレーニングは、ＳＴＦＴ層及び逆ＳＴＦＴ層を含む一連の層として表される、位相再構成アルゴリズムの展開された反復を通したものとすることができるということが理解される。マスク値は、典型的には、再構成のための混合体位相を用いる手法の場合０〜１に制限されるものの、この制限は、推定された振幅が位相再構成とともに用いられることになる場合、関連性が低くなる。したがって、０〜１に制限されず、特に、１より大きいマスク値が、有益であり得るということが更に理解された。またさらに、別の理解は、１を超えるマスク値を可能にするためのＴ−Ｆマスキングの出力層のために用いることができるいくつかの活性化関数を含むものであった。

例えば、本開示のいくつかの実施の形態は、１を超えることができるマスク値を生成するために時間−周波数マスキングの出力層のためのいくつかの活性化関数を提供する。これは、整合したＳＴＦＴ領域に近い推定された振幅を生成するための少なくとも１つの重要な態様である。

本開示のいくつかの実施の形態は、位相再構成ステージを通じてディープニューラルネットワーク（ＤＮＮ）ベース向上システムをトレーニングすることを含む。ネットワーク又はＤＮＮベース向上システムは、振幅スペクトログラムを推定し、振幅スペクトログラムは、雑音を含む混合体の位相とペアにされて、複素スペクトログラム推定値が取得される。その複素スペクトログラム推定値は、スペクトログラム精緻化モジュールによって精緻化される。例えば、雑音を含む位相は、再構成された時間領域信号（すなわち、推定された振幅及び雑音を含む位相の積からなる複素スペクトログラムの逆ＳＴＦＴによって取得された信号）の振幅は、元の推定された振幅とは異なるという意味で、推定された振幅との整合状態からはかけ離れている可能性がある。本開示のいくつかの実施の形態に従って雑音を含む位相を改善することは、スペクトログラム精緻化モジュールにおいて位相再構成アルゴリズムを適用して、推定された位相が推定された振幅とより整合する精緻化されたスペクトログラムを取得することである。これらのアルゴリズムは、以前の反復における位相が、現在の複素スペクトログラム推定値（すなわち、元の推定された振幅の、現在の位相推定値との積）に、逆ＳＴＦＴ及びそれに後続してＳＴＦＴを適用し、位相のみを保持することに関与する計算から取得された位相に置き換える、反復手順に依拠する。例えば、グリフィンリムアルゴリズムは、単一の信号にこのような手順を適用する。元の雑音を含む信号まで総和することを想定された複数の信号推定値が同時に推定される場合、多入力スペクトログラム逆変換（ＭＩＳＩ）アルゴリズムを用いることができる。したがって、本開示の実施の形態は、このような反復手順の１つ又は複数のステップの結果に対して規定される損失を含む目的関数を最小化するようにネットワーク又はＤＮＮベース向上システムをトレーニングする。

例えば、本開示の目的関数は、波形近似を含むことができ、波形近似は、再構成された時間領域信号と真の対象信号との間の距離を考慮する。本開示の別の目的関数は、再構成された時間領域信号の振幅と、真の対象信号の振幅との間の距離として規定された損失を含むことができる。

本開示のいくつかの実施の形態は、波形レベル近似のために時間−周波数（Ｔ−Ｆ）マスキングを介した反復位相再構成を通じてトレーニングするエンドツーエンド音声分離アルゴリズムを使用する。例えば、いくつかの実施の形態は、モノラル話者に依存しない複数話者の音声分離のためのエンドツーエンド手法を使用し、ここで、時間−周波数マスキング、ＳＴＦＴ及びｉＳＴＦＴは、全て、双方向ＬＳＴＭの上部に種々の層として表される。波形レベル損失関数を、音声分離を改善するように直接最適化することができる。加えて、本開示は、一連のＳＴＦＴ及びｉＳＴＦＴ（解析ウィンドウイング、合成ウィンドウイング、及びＤＦＴ動作を含む）層として反復位相再構成アルゴリズムにおける反復を展開して、双方向長短期メモリ（ＢＬＳＴＭ）をガイドし、反復位相再構成を実行した後により良好な位相を引き出すことができる良好な推定された振幅を生成することを含む。ＢＬＳＴＭは、長短期メモリ（ＬＳＴＭ：Long Short-Term Memory）リカレントニューラルネットワーク（ＲＮＮ）のペアであり、一方は、順方向ＬＳＴＭであり、他方は、逆方向ＬＳＴＭである。ＢＬＳＴＭの隠れベクトルは、順方向ＬＳＴＭ及び逆方向ＬＳＴＭの隠れベクトルの連結として取得することができる。

本開示のいくつかの実施の形態は、一連のＳＴＦＴ及びｉＳＴＦＴ（解析ウィンドウイング、合成ウィンドウイング、及びＤＦＴ動作を含む）層として反復位相再構成アルゴリズムにおける反復を展開することを更に考慮することと、トレーニングすることができる変数として、ＳＴＦＴ及びＤＦＴ変換のフーリエ行列の解析ウィンドウ及び合成ウィンドウ等の、通常固定であるとみなされる反復位相再構成アルゴリズムのステップのパラメータを考慮することと、変数が現れる度に別個の変数としてこれらの変数を考慮することによって層間でこれらの変数の関連付けを解く（untying）ことと、これらの変数を、トレーニング中に最適化することができるネットワークパラメータに含めることとを含む。

本開示の一実施の形態によれば、入力オーディオ信号を変換するオーディオ信号処理システムが開示される。入力オーディオ信号は、１つ以上の対象オーディオ信号の混合体を含む。システムは、記憶された実行可能命令と、記憶されたモジュールとを含むメモリを備える。モジュールは、入力オーディオ信号を変換して、対象オーディオ信号推定値を取得するようになっている。システムは、メモリと通信するプロセッサを更に備える。プロセッサは、入力オーディオ信号をスペクトログラム推定器に入力して、オーディオ特徴シーケンスを抽出し、オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力することによって、モジュールのステップを実施する。一組の推定されたスペクトログラムは、対象オーディオ信号ごとの推定されたスペクトログラムを含む。プロセッサは、スペクトログラム精緻化モジュールを用いて、一組の推定されたスペクトログラム及びオーディオ特徴シーケンスを処理して、一組の精緻化されたスペクトログラムを出力することによって、モジュールのステップを実施する。一組の精緻化されたスペクトログラムは、対象オーディオ信号ごとの精緻化されたスペクトログラムを含むようになっている。スペクトログラム精緻化モジュールの処理は、反復再構成アルゴリズムに基づいている。プロセッサは、信号精緻化モジュールを用いて、１つ以上の対象オーディオ信号についての一組の精緻化されたスペクトログラムを処理して、対象オーディオ信号推定値を取得することによって、モジュールのステップを実施する。対象オーディオ信号ごとに対象オーディオ信号推定値が存在するようになっている。システムは、最適化された対象オーディオ信号推定値を出力する出力インターフェースを更に備える。モジュールは、メモリに記憶された最適化器を用いて誤差を最小化することによって最適化される。誤差は、一組の推定されたスペクトログラムにおける誤差、一組の精緻化されたスペクトログラムにおける誤差、一組の精緻化されたスペクトログラムにおける整合性測定値（consistency measure）を含む誤差、対象オーディオ信号推定値における誤差、又はこれらの何らかの組み合わせのうちの１つを含むようになっている。

本開示の別の実施の形態によれば、入力オーディオ信号を変換する方法が開示される。方法は、入力オーディオ信号を変換するモジュールを規定することを含む。入力オーディオ信号は、１つ以上の対象オーディオ信号の混合体を含むようになっている。モジュールは、入力オーディオ信号を変換して、対象オーディオ信号推定値を取得する。メモリと通信するプロセッサが開示される。プロセッサは、入力オーディオ信号をモデルのスペクトログラム推定器に入力して、オーディオ特徴シーケンスを抽出し、オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力することによって、モジュールのステップを実施する。一組の推定されたスペクトログラムは、対象オーディオ信号ごとの推定されたスペクトログラムを含む。プロセッサは、モデルのスペクトログラム精緻化モジュールを用いて、一組の推定されたスペクトログラム及びオーディオ特徴シーケンスを処理して、一組の精緻化されたスペクトログラムを出力することによって、モジュールのステップを実施する。一組の精緻化されたスペクトログラムは、対象オーディオ信号ごとの精緻化されたスペクトログラムを含むようになっている。スペクトログラム精緻化モジュールの処理は、反復再構成アルゴリズムに基づいている。プロセッサは、モデルの信号精緻化モジュールを用いて、１つ以上の対象オーディオ信号についての一組の精緻化されたスペクトログラムを処理して、対象オーディオ信号推定値を取得することによって、モジュールのステップを実施する。対象オーディオ信号ごとに対象オーディオ信号推定値が存在するようになっている。最適化された対象オーディオ信号推定値を出力する出力インターフェースが開示される。モジュールは、メモリに記憶された最適化器を用いて誤差を最小化することによって最適化される。誤差は、一組の推定されたスペクトログラムにおける誤差、一組の精緻化されたスペクトログラムにおける誤差、一組の精緻化されたスペクトログラムにおける整合性測定値を含む誤差、対象オーディオ信号推定値における誤差、又はこれらの何らかの組み合わせのうちの１つを含む。ステップは、記憶された実行可能命令を有するメモリと通信するプロセッサによって実行され、モジュールは、メモリに記憶されるようになっている。

本開示の別の実施の形態によれば、入力オーディオ信号を変換するオーディオ信号処理システムが開示される。システムは、記憶された実行可能命令と、記憶されたモジュールとを含むメモリを備える。モジュールは、入力オーディオ信号を変換して、対象オーディオ信号推定値を取得するようになっている。入力オーディオ信号は、１つ以上の対象オーディオ信号の混合体を含む。システムは、メモリと通信するプロセッサを更に備え、プロセッサは、プロセッサと通信する入力インターフェースを介して入力オーディオ信号を受信することによって、モジュールのステップを実施する。プロセッサは、入力オーディオ信号をスペクトログラム推定器に入力して、オーディオ特徴シーケンスを抽出し、オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力することによっても、モジュールのステップを実施する。一組の推定されたスペクトログラムは、対象オーディオ信号ごとの推定されたスペクトログラムを含む。プロセッサは、スペクトログラム精緻化モジュールを用いて、一組の推定されたスペクトログラム及びオーディオ特徴シーケンスを処理して、一組の精緻化されたスペクトログラムを出力することによっても、モジュールのステップを実施する。一組の精緻化されたスペクトログラムは、対象オーディオ信号ごとの精緻化されたスペクトログラムを含むようになっている。スペクトログラム精緻化モジュールの処理は、反復再構成アルゴリズムに基づいている。プロセッサは、信号精緻化モジュールを用いて、１つ以上の対象オーディオ信号についての一組の精緻化されたスペクトログラムを処理して、対象オーディオ信号推定値を取得することによって、モジュールのステップを実施する。対象オーディオ信号ごとに対象オーディオ信号推定値が存在するようになっている。システムは、最適化された対象オーディオ信号推定値を出力する出力インターフェースを更に備える。モジュールは、メモリに記憶された最適化器を用いて誤差を最小化することによって最適化される。誤差は、一組の推定されたスペクトログラムにおける誤差、一組の精緻化されたスペクトログラムにおける誤差、一組の精緻化されたスペクトログラムにおける整合性測定値を含む誤差、対象オーディオ信号推定値における誤差、又はこれらの何らかの組み合わせのうちの１つを含む。

本開示の別の実施の形態によれば、入力オーディオ信号を変換するオーディオ信号処理システムが開示される。システムは、環境から入力オーディオ信号を獲得するように構成された音検出デバイスを備える。システムは、入力オーディオ信号を受信及び送信するように構成された信号入力インターフェースデバイスを更に備える。入力オーディオ信号は、１つ以上の対象オーディオ信号の混合体を含む。システムは、入力オーディオ信号を処理するように構成されたオーディオ信号処理デバイスを更に備える。オーディオ信号処理デバイスは、メモリに接続するように構成されたハードウェアプロセッサを備える。メモリは、データを入力／出力するように構成される。ハードウェアプロセッサは、メモリに記憶されたモジュールにアクセスするステップを実行する。モジュールは、入力オーディオ信号を変換して、対象オーディオ信号推定値を取得するようになっている。ハードウェアプロセッサは、入力オーディオ信号をモジュールのスペクトログラム推定器に入力して、オーディオ特徴シーケンスを抽出し、オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力するステップを更に実行する。一組の推定されたスペクトログラムは、対象オーディオ信号ごとの推定されたスペクトログラムを含む。ハードウェアプロセッサは、モジュールのスペクトログラム精緻化モジュールを用いて、一組の推定されたスペクトログラム及びオーディオ特徴シーケンスを処理して、一組の精緻化されたスペクトログラムを出力するステップを更に実行する。一組の精緻化されたスペクトログラムは、対象オーディオ信号ごとの精緻化されたスペクトログラムを含むようになっている。スペクトログラム精緻化モジュールの処理は、反復再構成アルゴリズムに基づいている。ハードウェアプロセッサは、モジュールの信号精緻化モジュールを用いて、１つ以上の対象オーディオ信号についての一組の精緻化されたスペクトログラムを処理して、対象オーディオ信号推定値を取得するステップを更に実行する。対象オーディオ信号ごとに対象オーディオ信号推定値が存在するようになっている。システムは、最適化された対象オーディオ信号推定値を出力する出力インターフェースを更に備える。モジュールは、メモリに記憶された最適化器を用いて誤差を最小化することによって最適化される。誤差は、一組の推定されたスペクトログラムにおける誤差、一組の精緻化されたスペクトログラムにおける誤差、一組の精緻化されたスペクトログラムにおける整合性測定値を含む誤差、対象オーディオ信号推定値における誤差、又はこれらの何らかの組み合わせのうちの１つを含む。

ここに開示されている実施形態は、添付図面を参照して更に説明される。示されている図面は、必ずしも一律の縮尺というわけではなく、その代わり、一般的に、ここに開示されている実施形態の原理を示すことに強調が置かれている。

本開示の実施形態による、方法を実施するいくつかの方法ステップを示すフロー図である。本開示の実施形態によるシステム及び方法を実施するのに用いることができるいくつかの構成要素を示すブロック図である。本開示の実施形態による、複数の対象オーディオ信号の混合体を含む入力オーディオ信号から対象オーディオ信号を推定するオーディオ信号処理システムを示すブロック図である。本開示の実施形態による、音声強調のためのエンドツーエンドオーディオ信号処理システムのトレーニングを示すフロー図である。本開示の実施形態による、マスク推論に基づく、音声強調のためのエンドツーエンドオーディオ信号処理システムのトレーニングを示すフロー図である。本開示の実施形態による、決定論的スペクトログラム逆変換アルゴリズムの複数のステップを含むスペクトログラム精緻化モジュールを用いる、音声源分離のためのエンドツーエンドオーディオ信号処理システムを示すフロー図である。本開示の実施形態による、音声源分離のためのエンドツーエンドオーディオ信号処理システムのスペクトログラム推定モジュールを示すフロー図である。本開示の実施形態による、音声源分離のためのエンドツーエンドオーディオ信号処理システムのスペクトログラム精緻化モジュールを示すフロー図であり、スペクトログラム精緻化モジュールは、決定論的スペクトログラム逆変換アルゴリズムの複数のステップを含む。本開示の実施形態による、音声源分離のためのエンドツーエンドオーディオ信号処理システムの信号再構成モジュールを示すフロー図である。本開示の実施形態による、スペクトログラム逆変換アルゴリズムの複数の反復を展開し、スペクトログラム逆変換アルゴリズムの反復の固定パラメータをトレーニング可能パラメータに変換することによって取得される複数の層を含むスペクトログラム精緻化モジュールを用いる、音声源分離のためのエンドツーエンドオーディオ信号処理システムを示すフロー図である。本開示の実施形態による、複素スペクトログラム上の整合性測定値の計算を示すフロー図である。本開示の実施形態による単一チャネルマスク推論ネットワークアーキテクチャを示すブロック図である。本開示の実施形態による単一チャネルディープクラスタリングネットワークアーキテクチャを示すブロック図である。本開示の実施形態による単一チャネルキメラネットワークアーキテクチャを示すブロック図である。本開示の実施形態による、音声源分離のためのエンドツーエンドオーディオ信号処理システムの対象信号推定モジュールのトレーニングを示すフロー図であり、トレーニングは、誤差計算を含む。本開示の実施形態による、音声分離のための代替的なオーディオ信号処理システムのブロック図を示しており、特に、図１１は、音声分離ネットワークを含む。本開示の実施形態による方法及びシステムのいくつかの技法を実施するのに用いることができるコンピューティング装置を示す概略図である。本開示の実施形態による方法及びシステムのいくつかの技法を実施するのに用いることができるモバイルコンピューティング装置を示す概略図である。

上記で明らかにされた図面は、ここに開示されている実施形態を記載しているが、この論述において言及されるように、他の実施形態も意図されている。この開示は、限定ではなく代表例として例示の実施形態を提示している。ここに開示されている実施形態の原理の範囲及び趣旨に含まれる非常に多くの他の変更及び実施形態を当業者は考案することができる。

（概説）
本開示は、オーディオ信号に関し、より詳細には、単一チャネル話者に依存しない複数話者の音声分離のためのエンドツーエンド手法を用いることに関する。

図１Ａは、本開示の実施形態による、方法を実施するいくつかの方法ステップを示すフロー図である。

図１Ａのステップ１１５は、入力オーディオ信号を変換するモジュールを規定することを含む。入力オーディオ信号は、１つ以上の対象オーディオ信号の混合体を含むようになっている。モジュールは、入力オーディオ信号を変換して、対象オーディオ信号推定値を取得する。

図１Ａのステップ１２０は、入力オーディオ信号をモデルのスペクトログラム推定器に入力して、オーディオ特徴シーケンスを抽出し、オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力することを含む。一組の推定されたスペクトログラムは、対象オーディオ信号ごとの推定されたスペクトログラムを含む。

図１Ａのステップ１２５は、モデルのスペクトログラム精緻化モジュールを用いて、一組の推定されたスペクトログラム及びオーディオ特徴シーケンスを処理して、一組の精緻化されたスペクトログラムを出力することを含む。一組の精緻化されたスペクトログラムは、対象オーディオ信号ごとの精緻化されたスペクトログラムを含むようになっている。スペクトログラム精緻化モジュールの処理は、反復再構成アルゴリズムに基づいている。

図１Ａのステップ１３０は、モデルの信号精緻化モジュールを用いて、１つ以上の対象オーディオ信号についての一組の精緻化されたスペクトログラムを処理して、対象オーディオ信号推定値を取得することを含む。対象オーディオ信号ごとに対象オーディオ信号推定値が存在するようになっている。

図１Ａのステップ１３５は、最適化された対象オーディオ信号推定値を出力する出力インターフェースを含む。モジュールは、メモリに記憶された最適化器を用いて誤差を最小化することによって最適化される。誤差は、一組の推定されたスペクトログラムにおける誤差、一組の精緻化されたスペクトログラムにおける誤差、一組の精緻化されたスペクトログラムにおける整合性測定値を含む誤差、対象オーディオ信号推定値における誤差、又はこれらの何らかの組み合わせのうちの１つを含む。ステップは、記憶された実行可能命令を有するメモリと通信するプロセッサによって実行され、モジュールは、メモリに記憶されるようになっている。

本開示の実施形態は、非限定的な例として、出力信号に対する損失は、音声認識誤差等の他の誤差も含み得るという独自の態様を提供する。オーディオ信号処理システムは、とりわけ、複数の話者の不協和音の中で音声を認識することを更に改善するために、本発明によるシステムの出力を入力として取り込む音声認識システムとともにトレーニングすることができることが想定される。特に、複数の話者の不協和音の中で音声を認識することは、上記で言及したように、技術空間内においてカクテルパーティ問題として知られている長年にわたる難題である。このカクテルパーティ問題を解決することによって、特に実世界のヒューマンマシンインタラクション（ＨＭＩ：human machine interaction）のための劇的に優れた技術が可能になる。

図１Ｂは、本開示の実施形態によるシステム及び方法を実施するのに用いることができるいくつかの構成要素を示すブロック図である。例えば、システム１００Ｂは、環境１から音響信号８を含むデータを収集する音響センサ等の単数のセンサ２又は複数のセンサと通信するハードウェアプロセッサ１１を備えることができる。音響信号は、重複音声を伴う複数の話者の音響信号を含むことができる。さらに、センサ２は、音響入力を音響信号に変換することができる。ハードウェアプロセッサ１１は、コンピュータ記憶メモリ、すなわちメモリ９と通信し、メモリ９は、ハードウェアプロセッサ１１によって実施することができるアルゴリズム、命令及び他のデータを含む記憶データを含むようになっている。

任意選択で、ハードウェアプロセッサ１１は、データソース３、コンピュータデバイス４、モバイルフォンデバイス５及び記憶装置６と通信するネットワーク７に接続することができる。また、任意選択で、ハードウェアプロセッサ１１は、クライアントデバイス１５に接続されたネットワーク対応サーバ１３に接続することもできる。任意選択で、ハードウェアプロセッサ１１は、外部メモリデバイス１７、送信機１９に接続することができる。さらに、ハードウェアプロセッサ１１は、対象話者ごとのテキストを、特定のユーザ使用目的に従って出力することができる（２１）。例えば、いくつかのタイプのユーザ使用は、更なる解析等のために、モニタ若しくはスクリーン等の１つ以上のディスプレイデバイス上にテキストを表示すること、又は、対象話者ごとのテキストをコンピュータ関連デバイス内に入力することを含むことができる。

ハードウェアプロセッサ１１は、特定のアプリケーションの要件に応じて２つ以上のハードウェアプロセッサを含むことができることが考えられ、これらのプロセッサは、内部のものとすることもできるし、外部のものとすることもできる。他のデバイスの中でも特に出力インターフェース及び送受信機を含む他の構成要素をシステム１００Ｂに組み込むことができることは確かである。

ネットワーク７は、非限定例として、１つ以上のローカルエリアネットワーク（ＬＡＮ：local area networks）及び／又はワイドエリアネットワーク（ＷＡＮ：wide area networks）を含むことができることが可能である。ネットワーク接続環境は、企業全体のコンピュータネットワーク、イントラネット及びインターネットと同様のものとすることができる。言及した全ての構成要素について、任意の数のクライアントデバイス、記憶構成要素、及びデータソースをシステム１００Ｂ内で用いることができる。それぞれは、単一のデバイスを含むこともできるし、分散環境において協働する複数のデバイスを含むこともできる。さらに、システム１００Ｂは、１つ以上のデータソース３を備えることができる。データソース３は、音声分離ネットワークをトレーニングするためのデータリソースを含むことができる。例えば、一実施形態では、トレーニングデータは、同時に発話している複数の話者の音響信号を含むことができる。また、トレーニングデータは、単独で発話している単一の話者の音響信号、雑音を含む環境内で発話している単一又は複数の話者の音響信号、及び雑音を含む環境の音響信号も含むことができる。データソース３は、音声認識ネットワークをトレーニングするためのデータリソースも含むことができる。データソース３によって提供されるデータは、トランスクリプトされたデータ及びトランスクリプトされていないデータ等のラベル付きデータ及びラベル無しデータを含むことができる。例えば、一実施形態では、データは、１つ以上の音を含み、対応するトランスクリプション情報又は音声認識ネットワークを初期化するのに用いることができるラベルも含むことができる。

さらに、データソース３におけるラベル無しデータは、１つ以上のフィードバックループによって提供することができる。例えば、検索エンジンに対して実行される発話された検索クエリからの使用データは、トランスクリプトされていないデータとして提供することができる。データソースの他の例は、限定ではなく例として、ストリーミングサウンド若しくはストリーミングビデオ、ウェブクエリ、モバイルデバイスカメラ若しくはオーディオ情報、ウェブカムフィード、スマートグラスフィード及びスマートウォッチフィード、顧客ケアシステム、セキュリティカメラフィード、ウェブ文書、カタログ、ユーザフィード、ＳＭＳログ、インスタントメッセージングログ、発話単語トランスクリプト、音声コマンド若しくはキャプチャー画像（例えば、深度カメラ画像）等のゲームシステムユーザインタラクション、ツイート、チャット記録若しくはビデオ通話記録、又はソーシャルネットワークメディアを含む様々な発話言語オーディオ源若しくは画像源を含むことができる。使用される特定のデータソース３は、データが、性質上、或る特定のクラスのデータ（例えば、機械システム、娯楽システムを含む、例えば、特定のタイプの音にのみ関係したデータ）であるのか又は一般的なもの（非クラス固有のもの）であるのかを含む用途に基づいて決定することができる。

システム１００Ｂは、コンピューティングデバイス上に自動音声認識（ＡＳＲ）システムを有する対象となり得るような任意のタイプのコンピューティングデバイスを含むことができるサードパーティーデバイス４、５を備えることができる。例えば、サードパーティーデバイスは、本明細書では、図１２Ａに関して説明するタイプのコンピューティングデバイス等のコンピュータデバイス４、又は、図１２Ｂに関して説明するタイプのモバイルコンピューティングデバイス等のモバイルデバイス５を含む。ユーザデバイスは、パーソナルデジタルアシスタント（ＰＤＡ：personal digital assistant）、スマートフォン、スマートウォッチ、スマートグラス（又は他のウェアラブルスマートデバイス）等のモバイルデバイス、拡張現実ヘッドセット、仮想現実ヘッドセットとして具現化することができることが考えられる。さらに、ユーザデバイスは、タブレット等のラップトップ、リモコン、娯楽システム、車両コンピュータシステム、組み込みシステムコントローラー、電気器具、ホームコンピュータシステム、セキュリティシステム、民生用電子デバイス、又は他の同様の電子デバイスとすることができる。１つの実施形態では、クライアントデバイスは、当該デバイス上で動作している本明細書において説明するＡＳＲシステムによって使用可能なオーディオ情報及び画像情報等の入力データを受信することが可能である。例えば、サードパーティーデバイスは、オーディオ情報を受信するマイクロフォン若しくはライン入力端子、ビデオ情報若しくは画像情報を受信するカメラ、又はインターネット若しくはデータソース３等の別の情報源からそのような情報を受信する通信構成要素（例えば、Ｗｉ−Ｆｉ機能）を有することができる。

音声認識ネットワークを用いるＡＳＲモデルは、入力データを処理して、コンピュータ使用可能情報を求めることができる。例えば、質問が尋ねられる場合において、例えば、室内で複数の人々が話をしている間にユーザによってマイクロフォンに発話されたクエリを処理して、クエリの内容を求めることができる。例示のサードパーティーデバイス４、５は、任意選択で、ディープニューラルネットワークモデルを展開することができる環境を例示するためにシステム１００Ｂに含められる。さらに、本開示のいくつかの実施形態は、サードパーティーデバイス４、５を備えないものとすることもできる。例えば、ディープニューラルネットワークモデルは、サーバ上に存在することもできるし、クラウドネットワーク、クラウドシステム又は同様の装置構成内に存在することもできる。

記憶装置６は、本明細書において説明する技術の実施形態において用いられるデータ、コンピュータ命令（例えば、ソフトウェアプログラム命令、ルーチン、又はサービス）、及び／又はモデルを含む情報を記憶することができる。例えば、記憶装置６は、１つ以上のデータソース３からのデータ、１つ以上のディープニューラルネットワークモデル、ディープニューラルネットワークモデルを生成及びトレーニングする情報、並びに１つ以上のディープニューラルネットワークモデルによって出力されるコンピュータ使用可能情報を記憶することができる。

図１Ｃは、環境１をモニタリングするセンサ２から得られた入力オーディオ信号１０１から対象オーディオ信号を推定するオーディオ信号処理システム１００Ｃを示すブロック図である。入力オーディオ信号は、本開示の実施形態による、複数の対象オーディオ信号の混合体を含む。オーディオ信号処理システムは、プロセッサ１１を介して、特徴抽出モジュール１１０を用いてオーディオ特徴シーケンスを計算することによって信号を処理し、オーディオ特徴シーケンスは、スペクトログラム推定器１１１によって処理されて、一組のスペクトログラム推定値が出力される。一組のスペクトログラム推定値は、スペクトログラム精緻化モジュール１２０によって処理されて、一組の精緻化されたスペクトログラムが出力され、一組の精緻化されたスペクトログラムは、信号再構成モジュール１３０によって更に処理されて、対象オーディオ信号推定値が計算される。ネットワークパラメータ１１５は、スペクトログラム推定器１１１、スペクトログラム精緻化モジュール１２０及び信号再構成モジュール１３０に入力することができる。出力インターフェース１４０が、その後、対象オーディオ信号推定値２１を出力する。

図２Ａは、本開示の実施形態による、音声強調のためのエンドツーエンドオーディオ信号処理システム２００Ａのトレーニングを示すフロー図である。このシステムは、音声強調、すなわち雑音を含む信号内の雑音からの音声の分離の事例の例として用いることを示しているが、同じ検討が、音声源分離等のより一般的な事例にも当てはまり、ここで、システムは、対象オーディオ信号及び場合によっては雑音等の他の非対象音声源の混合体から複数の対象オーディオ信号を推定する。音声及び雑音の混合体を含む雑音を含む入力信号２０４並びにその音声及び雑音の対応するクリーンな信号が、クリーンなオーディオ及び雑音含有オーディオのトレーニングセット２０２からサンプリングされる。雑音を含む入力信号２０４は、スペクトログラム推定器２０６によって処理されて、記憶されたネットワークパラメータ２１５を用いて、音声及び雑音の推定されたスペクトログラム２０８が計算される。推定されたスペクトログラムは、スペクトログラム精緻化モジュール２１０によって更に処理されて、記憶されたネットワークパラメータ２１５を用いて、音声の精緻化されたスペクトログラム２１２が出力される。信号再構成モジュール２１４は、音声の精緻化されたスペクトログラム２１２を逆変換して、音声の推定されたオーディオ２１６を取得する。目的関数計算モジュール２１８は、クリーンな音声と音声の推定されたオーディオとの間の距離を計算することによって、目的関数を計算する。代替的に、音声及び雑音の双方の精緻化されたスペクトログラムは、スペクトログラム精緻化モジュール２１０から取得され、信号再構成モジュール２１４によって逆変換されて、クリーンな音声及び雑音信号２２２とともに、双方とも用いることができる音声及び雑音の双方の推定されたオーディオ信号２１６がもたらされ、目的関数が計算され得る。目的関数をネットワークトレーニングモジュール２２０が用いて、ネットワークパラメータ２１５を更新することができる。

図２Ｂは、本開示の実施形態による、マスク推論に基づく、音声強調のためのエンドツーエンドオーディオ信号処理システム２００Ｂのトレーニングを示すフロー図である。セットアップは、図２Ａと同様であり、ここで図２Ａのスペクトログラム推定モジュール２０６は、一組のマスクを推定するマスク推論ネットワーク２３０と、マスクを、雑音オーディオの振幅時間−周波数表現と乗算して、一組の推定された振幅を取得する振幅再構成モジュール２３２と、推定された振幅を、雑音含有オーディオの位相と組み合わせて、複素時間−周波数領域における一組の推定されたスペクトログラムを取得する位相振幅組み合わせモジュール２３４とに基づいている。その後、推定されたスペクトログラムは、位相再構成アルゴリズムによって処理されて、一組の精緻化されたスペクトログラムが取得される。位相再構成モジュール２３６は、ニューラルネットワークの層として反復位相再構成アルゴリズムのステップを実施し、反復位相再構成アルゴリズムのパラメータをネットワークの自由に変化するパラメータに変換することによって、構築される。システムをトレーニングする処理及び手順の残りは、図２Ａのものと同様である。

図３は、本開示の実施形態による、決定論的スペクトログラム逆変換アルゴリズムの複数のステップを含むスペクトログラム精緻化モジュールを用いる、音声源分離のためのエンドツーエンドオーディオ信号処理システムを示すフロー図である。例示のために、ここでは、２つの対象音声源があると仮定するが、アルゴリズムは、任意の数の音声源について同様に用いることができる。音声源ごとに１つずつ、入力混合体Ｘ３０２がスペクトログラム推定モジュール３０４によって処理されて、一組のスペクトログラム推定値が出力される。スペクトログラム推定モジュール３０４は、特徴抽出モジュールを用いて入力混合体３０２を処理して、オーディオ特徴シーケンスを計算し、入力のＳＴＦＴの対数振幅が抽出される。このオーディオ特徴シーケンスは、いくつかのスタックされたＢＬＳＴＭ層によって処理される。推定されたスペクトログラムは、ここでは、マスク推論方法によって取得される。対象音声源ごとに、線形層と、それに後続するシグモイド等の非線形性層とが、時間−周波数単位ごとにマスクを計算するのに用いられる。各マスクは、振幅再構成モジュールにおいて、混合体のＳＴＦＴの振幅と乗算されて、音声源ごとの推定された振幅スペクトログラムが取得される。この推定された振幅スペクトログラムは、混合体のＳＴＦＴの位相成分と組み合わせて、音声源ごとの複素領域における推定されたスペクトログラムが取得される。いくつかの実施形態では、いくつかのディープクラスタリング埋め込みをネットワークの一部が計算して、ディープクラスタリング目的関数を計算するか、若しくは、埋め込みからマスクを推定してこれらのマスクをスペクトログラム推定に用いるか、又はその双方を行うことができる。推定されたスペクトログラムは、スペクトログラム精緻化モジュール３１０によって処理されて、精緻化されたスペクトログラムが出力される。スペクトログラム精緻化モジュール３１０は、ディープニューラルネットワークの層として、反復位相再構成アルゴリズムの複数の反復、ここでは多入力スペクトログラム逆変換（ＭＩＳＩ）アルゴリズムを実施する。各反復は、一組のスペクトログラムを入力として取り込み、それらを、ｉＳＴＦＴを用いて時間領域に逆変換して、逆変換信号を取得し、入力混合体と、逆変換信号の総和との間の誤差を計算し、この誤差を、ここでは均一に分散させてそれぞれの逆変換信号に戻すことで誤差補償逆変換信号を取得し、誤差補償逆変換信号のＳＴＦＴを計算し、それらの位相を抽出し、この位相を、推定されたスペクトログラムの振幅と組み合わせて次の反復への入力を取得する。最後の反復の出力が、精緻化されたスペクトログラムである。精緻化されたスペクトログラムは、各精緻化されたスペクトログラムのｉＳＴＦＴを実行する信号再構成モジュール３１２によって処理されて、対象オーディオ信号が取得される。誤差関数は、ディープクラスタリング埋め込み、推定されたマスク、推定された振幅スペクトログラム、推定された複素スペクトログラム、スペクトログラム精緻化モジュール３１０の反復のうちの１つ以上の反復の出力において取得されるスペクトログラム、スペクトログラム精緻化モジュールの１つ以上の反復内で取得される逆変換信号、精緻化されたスペクトログラム、又は対象オーディオ信号に対して考慮することができる。

図４は、本開示の実施形態による、音声源分離のためのエンドツーエンドオーディオ信号処理システムのスペクトログラム推定モジュール４１０を示すフロー図である。

図５は、本開示の実施形態による、音声源分離のためのエンドツーエンドオーディオ信号処理システムのスペクトログラム精緻化モジュール５１０を示すフロー図であり、スペクトログラム精緻化モジュール５１０は、決定論的スペクトログラム逆変換アルゴリズムの複数のステップを含む。

図６は、本開示の実施形態による、音声源分離のためのエンドツーエンドオーディオ信号処理システムの信号再構成モジュール６１２を示すフロー図である。

図７は、本開示の実施形態による、スペクトログラム逆変換アルゴリズムの複数の反復を展開し、スペクトログラム逆変換アルゴリズムの反復の固定パラメータをトレーニング可能パラメータに変換することによって取得される複数の層を含むスペクトログラム精緻化モジュール７１０を用いる、音声源分離のためのエンドツーエンドオーディオ信号処理システムを示すフロー図である。

図７において、決定論的ＳＴＦＴ層及びｉＳＴＦＴ層は、トレーニング可能層に置き換えることができ、ここで、ＳＴＦＴ及びｉＳＴＦＴ（例えば、ＤＦＴ行列）のパラメータは、可変でかつトレーニングされ得ることに留意されたい。さらに、図７において、シンボルΘは、ネットワークの全ての部分の全てのパラメータの組であり、各層は、これらのパラメータの（潜在的には異なる）サブセットを用いることができる。

図８は、本開示の実施形態による、複素スペクトログラム上の整合性測定値の計算を示すフロー図である。整合性測定値計算モジュール８０２は、入力スペクトログラムを処理して、時間−周波数領域に対する整合性測定値を計算する。時間−周波数領域は、時間領域信号を時間−周波数表現に変換する順方向変換（forward transform）によって指定される。信号の時間−周波数表現を信号に戻すように変換することができる逆変換が考慮される。その逆変換は、いずれの信号の時間−周波数表現にも対応しない場合がある変更された時間−周波数表現にも適用することができる。このような表現は不整合（inconsistent）と呼ばれ、一方、時間領域信号から取得される表現は整合（consistent）と呼ばれる。例えば、関心時間−周波数表現が短時間フーリエ変換である場合、逆変換は、逆短時間フーリエ変換として実施することができる。この図は、例示の目的で、ＳＴＦＴ及びｉＳＴＦＴを用いる。整合性測定値計算モジュール８０２は、逆短時間フーリエ変換を用いて入力スペクトログラムを処理して、逆変換信号を取得し、その後、逆変換信号の短時間フーリエ変換を計算して、そのスペクトログラムを取得する。整合性測定値は、入力スペクトログラムと、逆変換信号のスペクトログラムとの間の距離として規定される。

図９Ａは、本開示の実施形態による、単一チャネルマスク推論ネットワークアーキテクチャ９００Ａを示すブロック図である。入力混合体から取得された特徴ベクトル系列、例えば、入力混合体の短時間フーリエ変換の対数振幅が、混合体エンコーダ９１０への入力として用いられる。例えば、この系列における入力ベクトルの次元はＦとすることができる。混合体エンコーダ９１０は、最初のＢＬＳＴＭ層９３０から最後のＢＬＳＴＭ層９３５までの複数の双方向長短期メモリ（ＢＬＳＴＭ）ニューラルネットワーク層から構成される。各ＢＬＳＴＭ層は、順方向長短期メモリ（ＬＳＴＭ）層及び逆方向ＬＳＴＭ層から構成され、それらの出力は、組み合わされ、次の層によって入力として用いられる。例えば、最初のＢＬＳＴＭ層９３０における各ＬＳＴＭの出力の次元はＮとすることができ、最後のＢＬＳＴＭ層９３５を含む他の全てのＢＬＳＴＭ層における各ＬＳＴＭの入力次元及び出力次元の双方はＮとすることができる。最後のＢＬＳＴＭ層９３５の出力は、線形ニューラルネットワーク層９４０及び非線形部９４５を備えるマスク推論モジュール９１２への入力として用いられる。時間−周波数領域、例えば短時間フーリエ変換領域における各時間フレーム及び各周波数について、線形層９４０は、最後のＢＬＳＴＭ層９３５の出力を用いて、Ｃの数を出力する。ここで、Ｃは対象話者の数である。非線形部９４５は、各時間フレーム及び各周波数についてこの一組のＣの数に適用され、各時間フレーム、各周波数、及び各対象話者について、その時間フレーム及びその周波数における入力混合体でのその対象話者の支配性（dominance）を示すマスク値が得られる。マスクからの分離エンコーディング推定モジュール９１３は、マスクが推定された時間−周波数領域、例えば振幅短時間フーリエ変換領域における入力混合体の表現とともにこれらのマスクを用いて、対象話者ごとの分離エンコーディング（separation encodings：分離符号）を出力する。例えば、マスクからの分離エンコーディング推定モジュール９１３は、対象話者のマスクを入力混合体の振幅短時間フーリエ変換と乗算して、その対象話者の分離エンコーディングとして用いられる、その対象話者の分離された信号が独立して観測された場合のその信号の振幅短時間フーリエ変換の推定値を取得することができる。

図９Ｂは、本開示の実施形態による、単一チャネルディープクラスタリングネットワークアーキテクチャ９００Ｂを示すブロック図である。入力混合体から取得された特徴ベクトル系列、例えば、入力混合体の短時間フーリエ変換の対数振幅が、混合体エンコーダ９２０への入力として用いられる。例えば、この系列における入力ベクトルの次元はＦとすることができる。混合体エンコーダ９２０は、最初のＢＬＳＴＭ層９０１から最後のＢＬＳＴＭ層９０３までの複数の双方向長短期メモリ（ＢＬＳＴＭ）ニューラルネットワーク層から構成される。各ＢＬＳＴＭ層は、順方向長短期メモリ（ＬＳＴＭ）層及び逆方向ＬＳＴＭ層から構成され、それらの出力は、組み合わされ、次の層によって入力として用いられる。例えば、最初のＢＬＳＴＭ層９０１における各ＬＳＴＭの出力の次元はＮとすることができ、最後のＢＬＳＴＭ層９０３を含む他の全てのＢＬＳＴＭ層における各ＬＳＴＭの入力次元及び出力次元の双方はＮとすることができる。最後のＢＬＳＴＭ層９０３の出力は、埋め込み計算モジュール９２２への入力として用いられる。この埋め込み計算モジュールは、線形ニューラルネットワーク層９０５と、シグモイド非線形化及びその後に続く単位ノルム正規化を実施するモジュール９０７とを備える。時間−周波数領域、例えば短時間フーリエ変換領域における各時間フレーム及び各周波数について、線形層９０５は、最後のＢＬＳＴＭ層９０３の出力を用いてＤ次元ベクトルを出力する。ここで、Ｄは埋め込み次元である。シグモイド非線形化及びその後に続く単位ノルム正規化を実施するモジュール９０７は、Ｄ次元ベクトルの各要素にシグモイドを適用し、各要素が単位ユークリッドノルムを有するようにこれを再正規化し、各時間フレーム及び各周波数の埋め込みベクトルを得る。埋め込みからの分離エンコーディング推定モジュール９２３は、埋め込みが推定された時間−周波数領域、例えば振幅短時間フーリエ変換領域における入力混合体の表現とともにこれらの埋め込みベクトルを用いて、対象話者ごとの分離エンコーディングを出力する。例えば、埋め込みからの分離エンコーディング推定モジュール９２３は、ｋ平均アルゴリズム等のクラスタリングアルゴリズムを用いて、埋め込みベクトルをＣ個のグループにクラスタリングすることができる。ここで、Ｃは対象話者の数であり、各グループは、同じ話者によって支配される時間成分及び周波数成分に対応する。話者ごとに、時間成分（正：component）及び周波数成分がその話者によって支配されるか否かを示す２値マスクを取得することができる。埋め込みからの分離エンコーディング推定モジュール９２３は、次に、対象話者のマスクを入力混合体の振幅短時間フーリエ変換と乗算して、その対象話者の分離エンコーディングとして用いられる、その対象話者の分離された信号が独立して観測された場合のその信号の振幅短時間フーリエ変換の推定値を取得することができる。埋め込みからの分離エンコーディング推定モジュール９２３を用いてそのようなマスクを取得するより精巧な方式も考えることができ、上記説明は決して限定とみなされるべきでない。

図９Ｃは、本開示の実施形態による、単一チャネルキメラネットワークアーキテクチャ９００Ｃを示すブロック図である。入力混合体から取得された特徴ベクトル系列、例えば、入力混合体の短時間フーリエ変換の対数振幅が、混合体エンコーダ９５０への入力として用いられる。例えば、この系列における入力ベクトルの次元はＦとすることができる。混合体エンコーダ９５０は、最初のＢＬＳＴＭ層９７１から最後のＢＬＳＴＭ層９７３までの複数の双方向長短期メモリ（ＢＬＳＴＭ）ニューラルネットワーク層から構成される。各ＢＬＳＴＭ層は、順方向長短期メモリ（ＬＳＴＭ）層及び逆方向ＬＳＴＭ層から構成され、それらの出力は、組み合わされ、次の層によって入力として用いられる。例えば、最初のＢＬＳＴＭ層９７１における各ＬＳＴＭの出力の次元はＮとすることができ、最後のＢＬＳＴＭ層９７３を含む他の全てのＢＬＳＴＭ層における各ＬＳＴＭの入力次元及び出力次元の双方はＮとすることができる。

最後のＢＬＳＴＭ層９７３の出力は、線形ニューラルネットワーク層９７５及び非線形部９７７を備えるマスク推論モジュール９５２への入力として用いられる。時間−周波数領域、例えば短時間フーリエ変換領域における各時間フレーム及び各周波数について、線形層９７５は、最後のＢＬＳＴＭ層９７３の出力を用いて、Ｃの数を出力する。ここで、Ｃは対象話者の数である。非線形部９７７は、各時間フレーム及び各周波数についてこの一組のＣの数に適用され、各時間フレーム、各周波数、及び各対象話者について、その時間フレーム及びその周波数における入力混合体でのその対象話者の支配性を示すマスク値が得られる。マスクからの分離エンコーディング推定モジュール９５３は、マスクが推定された時間−周波数領域、例えば振幅短時間フーリエ変換領域における入力混合体の表現とともにこれらのマスクを用いて、対象話者ごとの分離エンコーディングを出力する。例えば、マスクからの分離エンコーディング推定モジュール９５３は、対象話者のマスクを入力混合体の振幅短時間フーリエ変換と乗算して、その対象話者の分離エンコーディングとして用いられる、その対象話者の分離された信号が独立して観測された場合のその信号の振幅短時間フーリエ変換の推定値を取得することができる。

最後のＢＬＳＴＭ層９７３の出力は、埋め込み計算モジュール９６２への入力としても用いることができる。この埋め込み計算モジュールは、線形ニューラルネットワーク層９８５と、シグモイド非線形化及びその後に続く単位ノルム正規化を実施するモジュール９８７とを備える。時間−周波数領域、例えば短時間フーリエ変換領域における各時間フレーム及び各周波数について、線形層９８５は、最後のＢＬＳＴＭ層９７３の出力を用いてＤ次元ベクトルを出力する。ここで、Ｄは埋め込み次元である。シグモイド非線形化及びその後に続く単位ノルム正規化を実施するモジュール９８７は、Ｄ次元ベクトルの各要素にシグモイドを適用し、各要素が単位ユークリッドノルムを有するようにこれを再正規化し、各時間フレーム及び各周波数の埋め込みベクトルを得る。埋め込みからの分離エンコーディング推定モジュール９６３は、埋め込みが推定された時間−周波数領域、例えば振幅短時間フーリエ変換領域における入力混合体の表現とともにこれらの埋め込みベクトルを用いて、対象話者ごとの分離エンコーディングを出力する。例えば、埋め込みからの分離エンコーディング推定モジュール９６３は、ｋ平均アルゴリズム等のクラスタリングアルゴリズムを用いて、埋め込みベクトルをＣ個のグループにクラスタリングすることができる。ここで、Ｃは対象話者の数であり、各グループは、同じ話者によって支配される時間成分及び周波数成分に対応する。話者ごとに、時間成分及び周波数成分がその話者によって支配されるか否かを示す２値マスクを取得することができる。埋め込みからの分離エンコーディング推定モジュール９６３は、次に、対象話者のマスクを入力混合体の振幅短時間フーリエ変換と乗算して、その対象話者の分離エンコーディングとして用いられる、その対象話者の分離された信号が独立して観測された場合のその信号の振幅短時間フーリエ変換の推定値を取得することができる。

トレーニング時には、最後のＢＬＳＴＭ層９７３の出力は、マスク推論モジュール９５２及び埋め込み計算モジュール９６２の双方への入力として用いられる。埋め込み計算モジュール９６２によって出力される埋め込み、マスク推論モジュール９５２によって出力されるマスク、埋め込みからのエンコーディング推定モジュール９６３によって出力される分離エンコーディング、及びマスクからのエンコーディング推定モジュール９５３によって出力される分離エンコーディングのうちの１つ以上を用いて、図１０において説明するようなトレーニング誤差を計算することができる。テスト時には、双方のモジュールを用い、それぞれから取得される分離エンコーディングを組み合わせることもできるし、１つのモジュールのみを続けるように選択し、対応する分離エンコーディングを用いることもできる。

図１０は、本開示の実施形態による、音声源分離のためのエンドツーエンドオーディオ信号処理システム１０００の対象信号推定モジュールのトレーニングを示すフロー図であり、トレーニングは、誤差計算を含む。この図は、２つの対象音声源の事例を例として用いる概念を示している。対象信号推定モジュール１０１１は、スペクトログラム推定ネットワーク１０４２と、スペクトログラム精緻化ネットワーク１０４０と、信号再構成モジュールとを含む。入力混合体１００８及び対応する基準音声源信号１０３４は、データセット１００６からサンプリングされる。基準音声源信号は、独立して観測される各対象音声源に対応する入力混合体１００８の部分に対応する。入力混合体１００８は、スペクトログラム推定ネットワーク１０４２によって処理されて、対象話者ごとの推定されたスペクトログラムが出力される。スペクトログラム推定ネットワーク１０４２は、混合体エンコーダ１０１０と、マスク推論モジュール１０１２と、マスクからのスペクトログラム推定モジュール１０１３と、埋め込み計算モジュール１０２２と、任意選択で、埋め込みからのスペクトログラム推定モジュール１０２３とを含む。

混合体エンコーダ１０１０は、入力混合体１００８を処理して、混合体エンコーディング（mixture encoding：混合体符号）を出力する。混合体エンコーディングは、一組のマスクを推定するマスク推論モジュール１０１２によって更に処理される。一組のマスクは、マスクからのスペクトログラム推定モジュール１０１３によって入力混合体とともに用いられて、対象音声源ごとの推定されたスペクトログラムが取得される。例えば、マスクからのスペクトログラム推定モジュール１０１３は、入力混合体の時間−周波数表現に推定されたマスクを適用して、その対象音声源の分離された信号の推定された時間−周波数表現（ここでは、推定されたスペクトログラムと称される）を取得することができる。時間−周波数表現は、例えば、短時間フーリエ変換とすることができ、この事例では、各マスクは、入力混合体の短時間フーリエ変換に適用されて、その対象音声源の分離された信号の短時間フーリエ変換の推定値が取得され、これは、その対象音声源の独立信号が独立して観測されていれば見られていたであろうものの短時間フーリエ変換の推定値である。

混合体エンコーディングは、一組の埋め込みを推定する埋め込み計算モジュール１０２２によっても更に処理される。埋め込みからのスペクトログラム推定モジュール１０２３を用いて、入力混合体１００８とともにこれらの埋め込みベクトルを処理し、推定されたスペクトログラムの別の組を出力することができる。

埋め込みからのこれらの推定されたスペクトログラムを、マスクからの推定されたスペクトログラムと組み合わせて、組み合わされた推定されたスペクトログラムを取得することができるか、又は、マスクからの推定されたスペクトログラムを用いる代わりに、スペクトログラム精緻化ネットワーク１０４０及び後続のステップへの入力として用いることができる。推定されたスペクトログラムは、スペクトログラム精緻化ネットワーク１０４０によって更に処理されて、音声源ごとの精緻化されたスペクトログラムが取得される。これらの精緻化されたスペクトログラムは、短時間フーリエ変換表現の事例では、各精緻化されたスペクトログラムに逆ＳＴＦＴを適用する信号再構成モジュールによって更に処理される。誤差計算モジュール１０３０は、マスクからのスペクトログラム推定モジュール１０１３の出力及び基準音声源信号１０３４を用いて、スペクトログラム推定損失Ｌ_ｓｐｅｃを計算することができる。誤差計算モジュール１０３０は、埋め込みからのスペクトログラム推定モジュール１０２３の出力及び基準音声源信号１０３４も用いて、上記のスペクトログラム推定損失と組み合わせて、又はこれの代わりに、スペクトログラム推定損失Ｌ_ｓｐｅｃを計算することができる。誤差計算モジュール１０３０は、スペクトログラム精緻化ネットワーク１０４０の出力及び基準音声源信号１０３４も用いて、上記のスペクトログラム推定損失と組み合わせて、又はこれらの代わりに、スペクトログラム推定損失Ｌ_ｓｐｅｃを計算することができる。誤差計算モジュール１０３０は、埋め込み計算モジュール１０２２の出力及び基準音声源信号１０３４を用いて、埋め込み損失Ｌ_ｅｍｂを計算することができる。誤差計算モジュール１０３０は、信号再構成モジュールの出力及び基準音声源信号１０３４を用いて、信号再構成損失Ｌ_ｓｉｇを計算することができる。誤差計算モジュール１０３０は、マスクからのスペクトログラム推定モジュール１０１３の出力、埋め込みからのスペクトログラム推定モジュール１０２３の出力、及びスペクトログラム精緻化ネットワークモジュール１０４０の出力のうちの１つ以上を用いて、整合性測定値Ｃを計算することができる。スペクトログラム推定損失、埋め込み損失、信号再構成損失、及び整合性測定値の加重結合は、総損失Ｌである。総損失は、対象信号推定モジュール１０１１のパラメータについての更新を計算するのに用いられる。

（技術的概念）
本開示のいくつかの実施形態は、単一チャネル話者に依存しない複数話者の音声分離のためのエンドツーエンド手法を含み、ここで、時間−周波数（Ｔ−Ｆ）マスキング、短時間フーリエ変換（ＳＴＦＴ）、及びその逆変換（逆ＳＴＦＴ又はｉＳＴＦＴ）は、ディープネットワーク内の層として表される。実験中、いくつかの実験的手法は、本開示におけるように再構成された信号に対する損失を計算するのではなく、対象ＳＴＦＴ振幅に基づく代替損失を用いた（実験的手法）。しかしながら、これらの実験的手法は、位相不整合性によって招かれる再構成誤差を無視していた。本開示のいくつかの実施形態は、最良の分離のために最適化される、再構成された信号に対して直接規定される損失関数を含む。加えて、いくつかの実施形態は、一連のＳＴＦＴ層及び逆ＳＴＦＴ層として表される、位相再構成アルゴリズムの展開された反復を通じてトレーニングする。

マスク値は、典型的には、再構成のための混合体位相を用いる手法の場合０〜１に制限されるものの、この制限は、推定された振幅が位相再構成とともに用いられることになる場合、関連性が低くなり得る。それゆえ、本開示のいくつかの実施形態のいくつかの活性化関数は、１を超えるマスク値を可能にするためのＴ−Ｆマスキングの出力層のためのものである。実験から、結果は、現行技術水準の１２．６ｄＢのスケール不変信号対歪み比（ＳＩ−ＳＤＲ：scale-invariant signal-to-distortion ratio）及び１３．１ｄＢＳＤＲを達成しており、ディープ学習ベース位相再構成に向けられたいくつかの実施形態の利点が明らかになるとともに、解決困難であることで名高いカクテルパーティ問題を解決することに向けられた抜本的な進歩が表される。

実験中、分離が時間−周波数（Ｔ−Ｆ）領域における振幅に対して実行され、混合体位相が時間領域再合成のために直接用いられる実験が行われた。混合体位相が直接用いられるのは、主に、位相は推定することが困難であるためである。しかしながら、実験結果は、特に音声処理の場合、典型的には連続フレーム間で少なくとも半分の重複が存在する位相不整合性問題を示した。この重複により、音声信号のＳＴＦＴ表現が非常に冗長になる。結果として、推定された振幅及び混合体位相を用いて取得された向上されたＳＴＦＴ表現は、整合したＳＴＦＴ領域内にはなく、これは、そのＳＴＦＴ表現を有する時間領域信号が存在するということが保証されないことを意味する。

整合性を改善するために、いくつかの実験は、標準的なグリフィンリムアルゴリズム、多入力スペクトログラム逆変換（ＭＩＳＩ）アルゴリズム、反復再構成を用いる教師あり音声源分離（ＩＳＳＩＲ）、及び整合ウィーナーフィルタリング等の反復方法に焦点を当てており、これらは、混合体位相、及びＳＴＦＴ及びｉＳＴＦＴを反復して実行することによる良好に推定された振幅から開始して、或る程度までクリーンな位相を復元することができる。実験中にテストされたいくつかの手法は、ディープ学習ベース音声強調及び分離によって生成される振幅に対する後処理ステップとして反復アルゴリズムを適用した。

しかしながら、実験からの結果は、ＤＮＮからの振幅推定値が合理的に良好であったものの、小さい改善しかもたらさなかった。慎重に考慮すると、これは、時間−周波数マスキングが、潜在的に、後の位相再構成ステップを認識することなく実行されるためである可能性があり、したがって、反復位相再構成に適切なスペクトル構造を生成しない可能性がある。それゆえ、多くの実験に基づいて、本開示は、信号レベル近似のために時間−周波数マスキングを介した反復位相再構成を通じてトレーニングするエンドツーエンド音声分離アルゴリズムを提示する。

（キメラ＋＋ネットワーク）
位相再構成を介して良好な位相を導き出すために、実験を通じて、十分良好な振幅推定値をまず取得することが必要であることがわかった。更なる実験に基づいて、ディープクラスタリングの正則化能力を、マスク推論のエンドツーエンドトレーニングの容易さと組み合わせるマルチタスク学習手法の結果、個々のモデルにわたる大幅な改善がもたらされた。

実験から得られたディープクラスタリングの少なくとも１つの重要な態様は、強力なディープニューラルネットワーク（ＤＮＮ）を用いてＴ−Ｆ単位ごとの高次元埋め込みベクトルを学習することであり、同じ話者によって支配されるＴ−Ｆ単位埋め込みは、埋め込み空間内では互いに近接する一方、それ以外の場合には離れるようになっている。このようにして、本発明者らによる実験に従って、ｋ平均のようなクラスタリング方法を学習された埋め込みに適用して、実行時間において分離を実行することができる。より詳細には、ネットワークは、第ｉのＴ−Ｆ要素に対応する単位長埋め込みベクトル

を計算することができる。同様に、

は、混合体内のいずれの音声源が第ｉのＴ−Ｆ単位を支配するのかを表すワンホットラベルベクトルであり、この情報は、独立した音声源信号及びそれらの混合体が利用可能であるトレーニングデータのために導出することができる。これらを垂直にスタックすることで、埋め込み行列

及びラベル行列

を形成する。埋め込みは、埋め込みからの類似性行列を近似することによって学習することができる。

本発明者らによる実験に基づいて、ｋ平均目的関数における埋め込みを白色化する代替的な損失関数は、より良好な分離性能をもたらすことができることがわかった。

埋め込みを学習するために、テストされたいくつかの手法に従って、双方向ＬＳＴＭ（ＢＬＳＴＭ）を用いて、過去フレーム及び未来フレームからのコンテキスト情報をモデル化することができる。ネットワークアーキテクチャは、図９Ｂの下部において示されており、ここで、埋め込み計算モジュールは、全結合層であり、これに、ロジスティックシグモイド等の非線形性層が後続し、これに、周波数ごとの単位長正規化が後続する。

マスク推論ネットワークのために別の順列フリートレーニング方式を実験した。実験の概念は、マスク推論ネットワークをトレーニングして、全ての順列にわたって最小損失を最小化するというものであった。その場合、位相高感度マスク（ＰＳＭ：phase-sensitive mask）をトレーニング対象として用いた。位相高感度スペクトル近似（ＰＳＡ）における実験から、境界なしマスク値を切断することが理解された。

を用いて、トランケートＰＳＡ（ｔＰＳＡ）目的関数は、

であり、ここで、∠Ｘは、混合体位相であり、∠Ｓ_ｃは、第ｃの音声源の位相であり、Ｐは、｛１，．．．，Ｃ｝に対する順列の集合であり、｜Ｘ｜は、混合体振幅であり、

は、第ｃの推定されたマスクであり、｜Ｓ_ｃ｜は、第ｃの基準音声源の振幅であり、

は、要素単位行列乗算を示し、γは、マスク切断係数である。実験から理解されるように、Ｔ−Ｆマスキングの出力層においてγ＝１とともにシグモイド活性化を用いることができる。ネットワークにより多くの能力を与えるために、γ＞１とともに機能することができる複数の活性化関数が、以下の「１を超える値を用いる活性化関数」というタイトルのセクションにおいて更に論述される。更なる実験の後に、マルチタスク学習を介した２つの手法を組み合わせるキメラ＋＋ネットワークが提案された。これは、図９Ｃにおいて示される。損失関数は、ディープクラスタリング損失及びマスク推論損失の加重和とすることができる。

実験を通じて、ディープクラスタリング出力又はマスク推論出力のいずれかは、他方を計算することなく、実行時に予測を行う必要がある場合があるということが更にわかった。

（反復位相再構成）
本開示のいくつかの実施形態による、各混合体において分離されることになる複数の対象音声源が存在する。実験の１つの手法は、音声源ごとに独立して反復再構成を実行するグリフィンリムアルゴリズムを用いるものであった。一方で、本開示の実験における他の手法は、ＭＩＳＩアルゴリズムを利用して、各音声源の推定された振幅及び混合体位相から開始して各音声源のクリーンな位相を再構成した。ここで、各反復後の再構成された時間領域信号の総和は、混合体信号に等しくなるように制約することができる。実験から、推定された振幅は、反復中固定されたままであるが、一方、各音声源の位相は、反復して再構成することができることが留意される。例えば、いくつかの手法は、後処理として唯一追加された位相再構成を含むものであり、これは、トレーニング中の目的関数の一部ではなく、再合成の前に、推定された信号の時間−周波数表現に対して計算された状態を保つ。

ＭＩＳＩアルゴリズムは、以下のように要約することができる。
入力：混合体時間領域信号ｘ、混合体複素スペクトログラムＸ、混合体位相∠Ｘ、ｃ＝１，．．．，Ｃについて、向上された振幅

、及び反復数Ｋ。
出力：ｃ＝１，．．．，Ｃについて、再構成された位相

及び信号

。初期化ステップ：ｃ＝１，．．．，Ｃについて、

。反復：ｆｏｒｉ＝１，．．．，Ｋ，ｄｏ：

（波形近似）
時間−周波数領域表現から波形を再構成するために実験中にテストされたＭＩＳＩ等の位相再構成アルゴリズムにおける第１のステップは、逆ＳＴＦＴを用いた。これらの手法のうちのいくつかは、ｉＳＴＦＴによって再構成された波形に対して計算される第１の目的関数（波形近似（ＷＡ）と表記される）を考慮し、ｉＳＴＦＴをマスク推論層の上部の層として表し、それにより、エンドツーエンド最適化を実行することができる。ラベル順列問題は、実験中に波形レベルにおいて全ての順列の最小Ｌ_１損失を最小化することによって解決されることが後にわかった。モデルは、ＷＡとしてこのようにしてトレーニングすることができることが留意される。このモデルをトレーニングする目的関数は、

とすることができ、ここで、Ｓ_ｃは、音声源ｃの時間領域信号を示し、

は、第ｃの推定された振幅及び混合体位相の組み合わせから逆ＳＴＦＴによって取得される第ｃの時間領域信号を示す。ここで、依然として混合体位相を用いることができ、位相再構成は未だ実行されないことが留意される。これは、ＭＩＳＩアルゴリズムにおける初期化ステップに対応する。

（展開された反復位相再構成）
いくつかの実施形態は、ニューラルネットワークにおける種々の決定論的層としてＭＩＳＩアルゴリズム内の反復を展開する。これは、マスク推論層の上部にＳＴＦＴ及びｉＳＴＦＴ動作を表すいくつかの層を更に伸長することによって達成することができる。ＭＩＳＩを通じてトレーニングするエンドツーエンド最適化を実行することによって、ネットワークは、後の反復位相再構成ステップを認識するようになるとともに、後続する処理に良好に適応した推定された振幅を生成するように学習することができ、したがって、分離のためのより良好な位相推定値が生成される。このようにしてトレーニングされたモデルは、ＷＡ−ＭＩＳＩ−Ｋと表記され、ここで、Ｋ≧１は、展開されたＭＩＳＩ反復の数である。目的関数は、

であり、ここで、

は、Ｋ回のＭＩＳＩ反復の後に取得される第ｃの時間領域信号を示す。キメラ＋＋ネットワークのマスク推論ヘッドの出力において展開された位相再構成ステップを含む分離ネットワーク全体は、図３におけるように示すことができる。ＳＴＦＴ及びｉＳＴＦＴは、ＧＰＵ上で効率的に計算される決定論的層としてディープ学習ツールキットを用いて実施することができ、これを通じて、トレーニング時にバックプロパゲーションを実行することができる。

（Ｋ回のＭＩＳＩ反復を通じたトレーニング）
（１を超える値を用いる活性化関数）
ディープ学習ベースＴ−Ｆマスキングの出力層においてシグモイドユニットを用いることができる。これは部分的には、シグモイドユニットは、実験に基づいて、理想比マスク（ＩＲＭ：ideal ratio mask）及びその変形等、バイモーダル分布を有するデータを良好にモデル化することができるためである。Ｔ−Ｆマスクの可能な値を［０，１］に入るように制限することも、再構成のために混合体位相を用いる場合には合理的である。実際に、１よりも大きいＴ−Ｆマスク値は、理論上、音声源間の干渉が音声源の振幅よりも小さい混合体振幅をもたらす領域内にあることが必要とされることになるが、また、混合体位相は、そのような領域内のその音声源の位相とは異なる可能性が高く、この事例では、誤った方向において更に進むことよりも過抑制する（oversuppress）方が目的の方策の観点で報酬が高い。これは、最適化において位相再構成を考慮する場合にはもはや有効ではない。さらに、マスク値を０〜１に制限することにより、整合したＳＴＦＴ領域から遠く離れた向上した振幅を取得する可能性がより高く、後の位相再構成の潜在的な困難性を提示する。

クリーンな振幅を取得するために、オラクルマスクは、（ＦＦＴマスク又は理想振幅マスクとしても知られている）｜Ｓ_ｃ｜／｜Ｘ｜であるべきである。明確には、このマスクは、１を超えることができる。なぜならば、基礎をなす音声源は、統計的に独立であるものの、特定のＴ−Ｆ単位において逆位相を有する場合があり、したがって、互いが打ち消され、所与の音声源の振幅よりも小さい混合体振幅が生成される。このようなＴ−Ｆ単位のマスク値を予測することははるかに困難である可能性が高いが、コンテキスト情報に基づいて依然として可能であると考えられる。

本発明者らによる実験において、実用時にマスク値のわずかなパーセントのみが［０，２］（すなわち、Ｌ_ｔＰＳＡの式においてγ＝２）を超えるように、ＰＳＭにおける値をこの範囲に切断する。複数の活性化関数を、出力層において利用することができる。ここで、他の関数も検討することができるが、いくつかの可能な以下の関数を検討する。
・二重シグモイド：２倍に乗算されたシグモイド非線形性；
・制限付きＲｅＬＵ：［０，２］に制限されたＲｅＬＵ非線形性；
・凸ソフトマックス：出力非線形性は、各Ｔ−Ｆ単位における音声源ごとの３次元ソフトマックスである。これは、値０、１、及び２の間の凸和、すなわち、ｙ＝［ｘ_０，ｘ_１，ｘ_２］［０，１，２］^Ｔを計算するのに用いられる。ここで、［ｘ_０，ｘ_１，ｘ_２］は、ソフトマックスの出力である。この活性化関数は、ＰＳＭのヒストグラムにおける０、１及び２に集中する３つのモードをモデル化するように設計される。

図１１は、音声分離のための代替的なオーディオ信号処理システムのブロック図を示しており、特に、図１１は、音声分離ネットワークを含む。

図１１を参照すると、システムは、記憶された命令を実行するように構成されたプロセッサ１１０２と、音声分離ネットワーク１１１２を含むニューラルネットワーク１１０８に関する命令を記憶するメモリ１１０４とを備える。プロセッサ１１０２は、シングルコアプロセッサ、マルチコアプロセッサ、グラフィック処理装置（ＧＰＵ）、コンピューティングクラスター、又は任意の数の他の構成体とすることができる。メモリ／記憶装置１１０５は、ランダムアクセスメモリ（ＲＡＭ：random access memory）、リードオンリーメモリ（ＲＯＭ：read only memory）、フラッシュメモリ、又は他の任意の適したメモリシステムを含むことができる。メモリ１１０５は、ハードドライブ、光ドライブ、サムドライブ、ドライブのアレイ、又はそれらの任意の組み合わせも含むことができる。プロセッサ１１０２は、バス１１０６を通じて１つ以上の入力インターフェース／デバイス及び出力インターフェース／デバイスに接続される。

メモリ１１０５は、音声信号の混合体を含む音響信号を分離された音声信号に変換するようにトレーニングされたニューラルネットワーク１１０８を記憶し、記憶された命令を実行するプロセッサ１１０２は、メモリ１１０５から取り出されたニューラルネットワーク１１０８を用いて音声分離を実行する。ニューラルネットワーク１１０８は、音声信号の混合体を含む音響信号を分離された音声信号に変換するようにトレーニングされる。ニューラルネットワーク１１０８は、音声分離ネットワーク１１１２を含むことができ、音声分離ネットワークは、音響信号の音響特徴から、分離された信号を推定するようにトレーニングされる。

１つの実施形態では、ニューラルネットワーク１１０８は、音声分離ネットワークによって用いられることになる単一チャネル信号から音響特徴を抽出するように構成された特徴抽出器（図示せず）も含む。特徴抽出器は、微分可能関数であり、したがって、単一エンドツーエンドニューラルネットワークに接続することができる。微分可能関数の例は、信号の複素ＳＴＦＴ、信号の振幅ＳＴＦＴ、チャネル信号の振幅のメル関数、及びチャネル信号の振幅のバーク関数を含む。

１つの実施態様では、微分可能関数は、チャネル信号から音響特徴を抽出するようにトレーニングされた別のニューラルサブネットワークである。この実施態様では、特徴抽出サブネットワークは、音声分離ネットワークと共同トレーニングされる。

微分可能関数は、関数の出力が所与の入力の目標出力に接近するように勾配降下法を用いて最適化することができる。この関数は、全ての入力サンプルが、対応する目標サンプルに可能な限り正確にマッピングされるように、入力サンプル及び目標出力サンプルを対にしたものを用いて未知のマッピング関数に近似することもできる。

微分可能関数を合成したものも微分可能であるので、それぞれが微分可能関数として設計された連結された処理モジュールを組み合わせて、それらの処理モジュールを併せて最適化することができる。

ニューラルネットワークは微分可能関数である。本開示によれば、エンドツーエンド音声分離の全ての構成要素を、複数のニューラルネットワークを含む微分可能関数を用いて実施することができる。

システムは、音声信号を受け取る入力インターフェース、すなわちマイクロフォン１１２０と、分離された信号をレンダリングする出力インターフェース、すなわちラウドスピーカーインターフェース１１２２とを備えることができる。例えば、複数のマイクロフォン１１２０が、音をマルチチャネル音声信号１１３８に変換することができる。加えて又は代替的に、入力インターフェースは、システムをバス１１０６を通じてネットワーク１１３６に接続するように適合されたネットワークインターフェースコントローラー（ＮＩＣ：network interface controller）１１３０を含むことができる。ネットワーク１１３６を通じて、音声信号１１３８をダウンロードし、更なる処理のために記憶することができる。

図１１を引き続き参照すると、出力インターフェースの他の例は、撮像インターフェース１１２６、及びプリンタインターフェース１１３１を含むことができる。例えば、システムは、システムをディスプレイデバイス１１２４に接続するように適合されたディスプレイインターフェース１１２２にバス１１０６を通じてリンクすることができ、ディスプレイデバイス１１２４は、特に、コンピュータモニタ、カメラ、テレビ、プロジェクタ、又はモバイルデバイスを含むことができる。

加えて又は代替的に、システムは、このシステムを撮像デバイス１１２８に接続するように適合された撮像インターフェース１１２６に接続することができる。撮像デバイス１１２８は、カメラ、コンピュータ、スキャナ、モバイルデバイス、ウェブカム、又はそれらの任意の組み合わせを含むことができる。加えて又は代替的に、システムは、システムを印刷デバイス１１３２に接続するように適合されたプリンタインターフェース１１３１に接続することができる。印刷デバイス１１３２は、特に、液体インクジェットプリンタ、固体インクプリンタ、大型商用プリンタ、サーマルプリンタ、ＵＶプリンタ、又は昇華型プリンタを含むことができる。

図１２Ａは、本開示の実施形態による方法及びシステムのいくつかの技法を実施するのに用いることができるコンピューティング装置１２００を非限定例として示す概略図である。コンピューティング装置又はデバイス１２００は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。

コンピューティングデバイス１２００は、電力源１２０８、プロセッサ１２０９、メモリ１２１０、記憶デバイス１２１１を備えることができる。これらは全てバス１２５０に接続されている。さらに、高速インターフェース１２１２、低速インターフェース１２１３、高速拡張ポート１２１４及び低速拡張ポート１２１５をバス１２５０に接続することができる。また、低速接続ポート１２１６がバス１２５０と接続されている。特定の用途に応じて、非限定例として共通のマザーボードに実装することができる様々な構成要素の構成が考えられる。またさらに、入力インターフェース１２１７を、バス１２５０を介して外部受信機１２０６及び出力インターフェース１２１８に接続することができる。受信機１２１９を、バス１２５０を介して外部送信機１２０７及び送信機１２２０に接続することができる。外部メモリ１２０４、外部センサ１２０３、機械１２０２及び環境１２０１もバス１２５０に接続することができる。さらに、１つ以上の外部入出力デバイス１２０５をバス１２５０に接続することができる。ネットワークインターフェースコントローラー（ＮＩＣ）１２２１は、バス１２５０を通じてネットワーク１２２２に接続するように適合することができ、特にデータ又は他のデータは、コンピュータデバイス１２００の外部のサードパーティーディスプレイデバイス、サードパーティー撮像デバイス、及び／又はサードパーティー印刷デバイス上にレンダリングすることができる。

メモリ１２１０は、コンピュータデバイス１２００によって実行可能な命令、履歴データ、並びに本開示の方法及びシステムによって利用することができる任意のデータを記憶することができると考えられる。メモリ１２１０は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、フラッシュメモリ、又は他の任意の適したメモリシステムを含むことができる。メモリ１２１０は、単数若しくは複数の揮発性メモリユニット及び／又は単数若しくは複数の不揮発性メモリユニットとすることができる。メモリ１２１０は、磁気ディスク又は光ディスク等の別の形態のコンピュータ可読媒体とすることもできる。

図１２Ａを引き続き参照すると、記憶デバイス１２１１は、コンピュータデバイス１２００によって用いられる補助データ及び／又はソフトウェアモジュールを記憶するように適合することができる。例えば、記憶デバイス１２１１は、本開示に関して上述したような履歴データ及び他の関連データを記憶することができる。加えて又は代替的に、記憶デバイス１２１１は、本開示に関して上述したようなデータと同様の履歴データを記憶することができる。記憶デバイス１２１１は、ハードドライブ、光ドライブ、サムドライブ、ドライブのアレイ、又はそれらの任意の組み合わせを含むことができる。さらに、記憶デバイス１２１１は、ストレージエリアネットワーク又は他の構成におけるデバイスを含めて、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、若しくはテープデバイス、フラッシュメモリ若しくは他の同様の固体メモリデバイス、又はデバイスのアレイ等のコンピュータ可読媒体を含むことができる。命令は情報担体に記憶することができる。命令は、１つ以上の処理デバイス（例えば、プロセッサ１２０９）によって実行されると、上記で説明した方法等の１つ以上の方法を実行する。

システムは、任意選択で、このシステムをディスプレイデバイス１２２５及びキーボード１２２４に接続するように適合されたディスプレイインターフェース又はユーザインターフェース（ＨＭＩ）１２２３にバス１２５０を通じてリンクすることができる。ディスプレイデバイス１２２５は、特に、コンピュータモニタ、カメラ、テレビ、プロジェクタ、又はモバイルデバイスを含むことができる。

図１２Ａを引き続き参照すると、コンピュータデバイス１２００は、バス１２５０を通じてプリンタインターフェース（図示せず）に接続するとともに、印刷デバイス（図示せず）に接続するように適合されたユーザ入力インターフェース１２１７を備えることができる。印刷デバイスは、特に、液体インクジェットプリンタ、固体インクプリンタ、大型商用プリンタ、サーマルプリンタ、ＵＶプリンタ、又は昇華型プリンタを含むことができる。

高速インターフェース１２１２は、コンピューティングデバイス１２００の帯域幅消費型動作を管理する一方、低速インターフェース１２１３は、より低い帯域幅消費型動作を管理する。そのような機能の割り当ては一例にすぎない。いくつかの実施態様では、高速インターフェース１２１２は、メモリ１２１０、ユーザインターフェース（ＨＭＩ）１２２３に結合することができ、（例えば、グラフィックスプロセッサ又はアクセラレーターを通じて）キーボード１２２４及びディスプレイ１２２５に結合することができ、高速拡張ポート１２１４に結合することができる。この高速拡張ポートは、バス１２５０を介して様々な拡張カード（図示せず）を受容することができる。この実施態様では、低速インターフェース１２１３は、バス１２５０を介して記憶デバイス１２１１及び低速拡張ポート１２１５に結合されている。様々な通信ポート（例えば、ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ、イーサネット、無線イーサネット）を含むことができる低速拡張ポート１２１５は、１つ以上の入出力デバイス１２０５、及び他のデバイス、例えば、キーボード１２２４、ポインティングデバイス（図示せず）、スキャナ（図示せず）に結合することもできるし、スイッチ又はルーター等のネットワーク接続デバイスに、例えば、ネットワークアダプターを通じて結合することもできる。

図１２Ａを引き続き参照すると、コンピューティングデバイス１２００は、この図に示すように、複数の異なる形態で実施することができる。例えば、このコンピューティングデバイスは、標準的なサーバ１２２６として実施することもできるし、そのようなサーバが複数個ある一群のサーバとして実施することもできる。加えて、このコンピューティングデバイスは、ラップトップコンピュータ１２２７等のパーソナルコンピュータにおいて実施することができる。このコンピューティングデバイスは、ラックサーバシステム１２２８の一部として実施することもできる。或いは、コンピューティングデバイス１２００からの構成要素は、図１２Ｂのモバイルコンピューティングデバイス等のモバイルデバイス（図示せず）における他の構成要素と組み合わせることができる。そのようなデバイスのそれぞれは、コンピューティングデバイス及びモバイルコンピューティングデバイスのうちの１つ以上を含むことができ、システム全体は、互いに通信する複数のコンピューティングデバイスから構成することができる。

図１２Ｂは、本開示の実施形態による方法及びシステムのいくつかの技法を実施するのに用いることができるモバイルコンピューティング装置を示す概略図である。モバイルコンピューティングデバイス１２９９は、他の構成要素の中でも特に、プロセッサ１２６１、メモリ１２６２、入出力デバイス１２６３、通信インターフェース１２６４を接続するバス１２９５を備える。バス１２９５は、追加の記憶装置を提供するマイクロドライブ又は他のデバイス等の記憶デバイス１２６５にも接続することができる。

図１２Ｂを参照すると、プロセッサ１２６１は、メモリ１２６２に記憶された命令を含む命令をモバイルコンピューティングデバイス内で実行することができる。プロセッサ１２６１は、個別の複数のアナログプロセッサ及びデジタルプロセッサを含むチップのチップセットとして実施することができる。プロセッサ１２６１は、例えば、モバイルコンピューティングデバイスによって実行されるユーザインターフェース、アプリケーションの制御、及びモバイルコンピューティングデバイス１２９９による無線通信等のモバイルコンピューティングデバイスの他の構成要素の協調を行うことができる。特定の用途に応じて、非限定例として共通のマザーボードに実装することができる様々な構成要素の構成が考えられる。

プロセッサ１２６１は、ディスプレイ１２６８に結合された制御インターフェース１２６６及びディスプレイインターフェース１２６７を通じてユーザと通信することができる。ディスプレイ１２６８は、例えば、ＴＦＴ（薄膜トランジスタ）液晶ディスプレイ若しくはＯＬＥＤ（有機発光ダイオード）ディスプレイ、又は他の適切なディスプレイ技術とすることができる。ディスプレイインターフェース１２６７は、ディスプレイ１２６８を駆動してグラフィカル情報及び他の情報をユーザに提示する適切な回路部を備えることができる。制御インターフェース１２６６は、ユーザからコマンドを受信し、それらのコマンドをプロセッサ１２６１にサブミットするために変換することができる。加えて、外部インターフェース１２６９は、モバイルコンピューティングデバイスと他のデバイスとの近領域通信を可能にするために、プロセッサ１２６１との通信を提供することができる。外部インターフェース１２６９は、いくつかの実施態様では、例えば、有線通信を提供することもできるし、他の実施態様では、無線通信を提供することもでき、複数のインターフェースも用いることができる。

図１２Ｂを引き続き参照すると、メモリ１２６２は、モバイルコンピューティングデバイス内に情報を記憶する。メモリ１２６２は、単数若しくは複数のコンピュータ可読媒体、単数若しくは複数の揮発性メモリユニット、又は単数若しくは複数の不揮発性メモリユニットのうちの１つ以上として実施することができる。拡張メモリ１２７０も設けることができ、拡張インターフェース１２６９を通じてモバイルコンピューティングデバイス１２９９に接続することができる。この拡張インターフェースは、例えば、ＳＩＭＭ（シングルインラインメモリモジュール）カードインターフェースを含むことができる。拡張メモリ１２７０は、モバイルコンピューティングデバイス１２９９の予備の記憶空間を提供することもできるし、モバイルコンピューティングデバイス１２９９のアプリケーション又は他の情報を記憶することもできる。具体的には、拡張メモリ１２７０は、上記で説明したプロセスを実行又は補足する命令を含むことができ、セキュアな情報も含むことができる。したがって、例えば、拡張メモリ１２７０は、モバイルコンピューティングデバイス１２９９のセキュリティモジュールとして提供することができ、モバイルコンピューティングデバイスのセキュアな使用を可能にする命令を用いてプログラミングすることができる。加えて、ハッキング不可能な方法でＳＩＭＭカード上に識別情報を配置するようなセキュアなアプリケーションを、追加の情報とともにＳＩＭＭカードを介して提供することができる。

メモリ１２６２は、後述するように、例えば、フラッシュメモリ及び／又はＮＶＲＡＭメモリ（不揮発性ランダムアクセスメモリ）を含むことができる。いくつかの実施態様では、命令は情報担体に記憶される。これらの命令は、１つ以上の処理デバイス（例えば、プロセッサ）によって実行されると、上記で説明した方法等の１つ以上の方法を実行する。命令は、１つ以上のコンピュータ可読媒体又は機械可読媒体（例えば、メモリ１２６２、拡張メモリ１２７０、又はプロセッサ１２６１上のメモリ）等の１つ以上の記憶デバイスによって記憶することもできる。いくつかの実施態様では、命令は、例えば、送受信機１２７１又は外部インターフェース１２６９を介して伝播信号で受信することができる。

図１２Ｂのモバイルコンピューティング装置又はデバイスは、パーソナルデジタルアシスタント、携帯電話、スマートフォン、及び他の同様のコンピューティングデバイス等の様々な形態のモバイルデバイスを表すことを意図している。モバイルコンピューティングデバイスは、必要に応じてデジタル信号処理回路部を備えることができる通信インターフェース１２６４を通じて無線で通信することができる。通信インターフェース１２６４は、特に、ＧＳＭ音声呼（モバイル通信用グローバルシステム）、ＳＭＳ（ショートメッセージサービス）、ＥＭＳ（エンハンストメッセージングサービス）、若しくはＭＭＳメッセージング（マルチメディアメッセージングサービス）、ＣＤＭＡ（符号分割多元接続）、ＴＤＭＡ（時分割多元接続）、ＰＤＣ（パーソナルデジタルセルラー）、ＷＣＤＭＡ（登録商標）（広帯域符号分割多元接続）、ＣＤＭＡ２０００、又はＧＰＲＳ（汎用パケット無線サービス）等の様々なモード又はプロトコルの下で通信を提供することができる。そのような通信は、例えば、無線周波数を用いる送受信機１２７１を通じて行うことができる。加えて、Ｂｌｕｅｔｏｏｔｈ、ＷｉＦｉ、又は他のそのような送受信機（図示せず）等を用いて短距離通信を行うことができる。加えて、ＧＰＳ（全地球測位システム）受信機モジュール１２７３が、モバイルコンピューティングデバイス上で動作するアプリケーションによって適宜用いることができる追加のナビゲーションデータ及びロケーション関連無線データをモバイルコンピューティングデバイスに提供することができる。

モバイルコンピューティングデバイスは、ユーザから発話情報を受信して使用可能なデジタル情報に変換することができるオーディオコーデック１２７２を用いて聴覚的に通信することもできる。オーディオコーデック１２７２は、例えば、モバイルコンピューティングデバイスのハンドセット内のスピーカー等を通じて、ユーザ向けの可聴音を同様に生成することができる。そのような音は、音声通話からの音を含むことができ、録音された音（例えば、音声メッセージ、音楽ファイル等）を含むことができ、モバイルコンピューティングデバイス上で動作するアプリケーションによって生成された音も含むことができる。

図１２Ｂを引き続き参照すると、モバイルコンピューティングデバイスは、この図に示すように、複数の異なる形態で実施することができる。例えば、このモバイルコンピューティングデバイスは、携帯電話１２７４として実施することができる。また、このモバイルコンピューティングデバイスは、スマートフォン１２７５、パーソナルデジタルアシスタント、又は他の同様のモバイルデバイスの一部として実施することもできる。

（特徴）
本開示の態様によれば、スペクトログラム推定器は、ディープニューラルネットワークを用いる。スペクトログラム推定器は、対象オーディオ信号ごとのマスク推定値を出力するマスク推定モジュールと、１つ以上の対象オーディオ信号についてのマスク推定値及び入力オーディオ信号を用いて、対象オーディオ信号ごとの推定されたスペクトログラムを出力するスペクトログラム推定出力モジュールとを含む。少なくとも１つのマスク推定値は、１よりも大きい。

本開示の別の態様は、スペクトログラム精緻化モジュールの処理は、一組の推定されたスペクトログラム及び入力オーディオ特徴シーケンスに対して実行される反復手順を規定することを含むことを含むことができる。スペクトログラム精緻化モジュールの処理は、手順の反復ごとに１つの層が存在するように、反復手順を一組の層に展開することを更に含み、各層は、一組の固定されたネットワークパラメータを含む。スペクトログラム精緻化モジュールの処理は、以前の反復の層の一組の固定されたネットワークパラメータからのいくつかの固定されたネットワークパラメータを、トレーニングするべき変数として用いてニューラルネットワークを形成し、各変数がそれらの対応する層に別個に適用可能であるように別個の変数としてこれらの変数を考慮することによって、以前の反復の層間でこれらの変数の関連付けを解くことを更に含む。スペクトログラム精緻化モジュールの処理は、ニューラルネットワークをトレーニングして、トレーニングされたニューラルネットワークを取得することを更に含む。スペクトログラム精緻化モジュールの処理は、トレーニングされたニューラルネットワークを用いて一組の推定されたスペクトログラム及びオーディオ特徴シーケンスを変換して、一組の精緻化されたスペクトログラムを取得することを更に含む。

本開示の別の態様は、反復再構成アルゴリズムは、反復位相再構成アルゴリズムであることを含むことができる。反復位相再構成アルゴリズムは、多入力スペクトログラム逆変換（ＭＩＳＩ）アルゴリズムである。反復位相再構成アルゴリズムは、グリフィンリムアルゴリズムである。

一態様は、対象オーディオ信号推定値における誤差は、対象オーディオ信号推定値と、基準対象オーディオ信号との間の距離を含むことを含むことができる。さらに、一態様は、対象オーディオ信号推定値における誤差は、対象オーディオ信号推定値のスペクトログラムと、基準対象オーディオ信号のスペクトログラムとの間の距離を含むことを含むことができる。またさらに、一態様は、スペクトログラム推定器によって抽出することは、特徴抽出モジュールを含み、特徴抽出モジュールは、入力オーディオ信号から入力オーディオ信号を抽出するようになっていることを含むことができる。受信オーディオ信号は、１人以上の話者、雑音、音楽、環境音、機械音又はこれらの何らかの組み合わせのうちの１つを含むことが可能である。

（実施形態）
以下の説明は、例示的な実施形態のみを提供し、本開示の範囲も、適用範囲も、構成も限定することを意図していない。そうではなく、例示的な実施形態の以下の説明は１つ以上の例示的な実施形態を実施することを可能にする説明を当業者に提供する。添付の特許請求の範囲に明記されているような開示された主題の趣旨及び範囲から逸脱することなく要素の機能及び配置に行うことができる様々な変更が意図されている。

以下の説明では、実施形態の十分な理解を提供するために、具体的な詳細が与えられる。しかしながら、当業者は、これらの具体的な詳細がなくても実施形態を実施することができることを理解することができる。例えば、開示された主題におけるシステム、プロセス、及び他の要素は、実施形態を不必要な詳細で不明瞭にしないように、ブロック図形式の構成要素として示される場合がある。それ以外の場合において、既知のプロセス、構造、及び技法は、実施形態を不明瞭にしないように不必要な詳細なしで示される場合がある。さらに、様々な図面における同様の参照符号及び名称は、同様の要素を示す。

また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として描かれるプロセスとして説明される場合がある。フローチャートは、動作を逐次的なプロセスとして説明することができるが、これらの動作の多くは、並列又は同時に実行することができる。加えて、これらの動作の順序は、再配列することができる。プロセスは、その動作が完了したときに終了することができるが、論述されない又は図に含まれない追加のステップを有する場合がある。さらに、特に説明される任意のプロセスにおける全ての動作が全ての実施形態において行われ得るとは限らない。プロセスは、方法、関数、手順、サブルーチン、サブプログラム等に対応することができる。プロセスが関数に対応するとき、その関数の終了は、呼び出し側関数又はメイン関数へのその機能の復帰に対応することができる。

さらに、開示された主題の実施形態は、少なくとも一部は手動又は自動のいずれかで実施することができる。手動実施又は自動実施は、機械、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合わせを用いて実行することもできるし、少なくとも援助することができる。ソフトウェア、ファームウェア、ミドルウェア又はマイクロコードで実施されるとき、必要なタスクを実行するプログラムコード又はプログラムコードセグメントは、機械可読媒体に記憶することができる。プロセッサが、それらの必要なタスクを実行することができる。

さらに、本開示の実施形態及び本明細書において説明された機能動作は、本明細書に開示された構造及びそれらの構造的均等物を含むデジタル電子回路部、有形に具現化されたコンピュータソフトウェア若しくはファームウェア、コンピュータハードウェア、又はそれらのうちの１つ以上のものの組み合わせにおいて実施することができる。さらに、本開示のいくつかの実施形態は、データ処理装置によって実行されるか又はデータ処理装置の動作を制御する１つ以上のコンピュータプログラム、すなわち、有形の非一時的プログラム担体上に符号化されたコンピュータプログラム命令の１つ以上のモジュールとして実施することができる。またさらに、プログラム命令は、データ処理装置による実行のために、適した受信機装置への送信用の情報を符号化するように生成される人工的に生成された伝播信号、例えば、機械によって生成された電気信号、光信号、又は電磁信号において符号化することができる。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶デバイス基板、ランダムアクセスメモリデバイス若しくはシリアルアクセスメモリデバイス、又はそれらのうちの１つ以上のものの組み合わせとすることができる。

本開示の実施形態によれば、用語「データ処理装置」は、データを処理する全ての種類の装置、デバイス、及び機械を包含することができ、例として、プログラマブルプロセッサ、コンピュータ、又は複数のプロセッサ若しくはコンピュータを含む。装置は、専用論理回路部、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）又はＡＳＩＣ（特定用途向け集積回路）を備えることができる。装置は、ハードウェアに加えて、問題になっているコンピュータプログラムの実行環境を作り出すコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、又はそれらのうちの１つ以上の組み合わせを構成するコードも有することができる。

コンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、又はコードと呼称又は記載される場合もある）は、コンパイラー型言語若しくはインタープリター型言語、又は宣言型言語若しくは手続型言語を含む任意の形態のプログラミング言語で記述することができ、スタンドアローンプログラムとしての形態、又は、モジュール、構成要素、サブルーチン、若しくはコンピューティング環境における使用に適した他のユニットとしての形態を含む任意の形態で配備することができる。コンピュータプログラムは、ファイルシステムにおけるファイルに対応する場合があるが、必ずしも対応する必要はない。プログラムは、他のプログラム又はデータ、例えば、マークアップ言語ドキュメントに記憶された１つ以上のスクリプトを保持するファイルの一部分に記憶することもできるし、問題となっているプログラムに専用化された単一のファイルに記憶することもできるし、複数のコーディネートファイル、例えば、１つ以上のモジュール、サブプログラム、又はコード部分を記憶するファイルに記憶することもできる。コンピュータプログラムは、１つのコンピュータ上で実行されるように配備することもできるし、１つのサイトに配置された複数のコンピュータ上で、又は、複数のサイトにわたって分散されて通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように配備することもできる。コンピュータプログラムの実行に適したコンピュータは、例として、汎用マイクロプロセッサ若しくは専用マイクロプロセッサ若しくはそれらの双方、又は他の任意の種類の中央処理装置を含む。一般に、中央処理装置は、リードオンリーメモリ若しくはランダムアクセスメモリ又はそれらの双方から命令及びデータを受け取る。コンピュータの必須素子は、命令を遂行又は実行する中央処理装置と、命令及びデータを記憶する１つ以上のメモリデバイスとである。一般に、コンピュータは、データを含むか、又は、データを記憶する１つ以上のマスストレージデバイス、例えば、磁気ディスク、光磁気ディスク、若しくは光ディスクからのデータの受信若しくはそれらへのデータの転送若しくはそれらの双方を行うように作動結合される。ただし、コンピュータは、必ずしもそのようなデバイスを有するとは限らない。その上、コンピュータは、別のデバイスに組み込むことができ、例えば、数例を挙げると、モバイル電話機、パーソナルデジタルアシスタント（ＰＤＡ）、モバイルオーディオプレーヤ若しくはモバイルビデオプレーヤ、ゲームコンソール、全地球測位システム（ＧＰＳ）受信機、又はポータブル記憶デバイス、例えば、ユニバーサルシリアルバス（ＵＳＢ）フラッシュドライブに組み込むことができる。

ユーザとのインタラクションを提供するために、本明細書において説明した主題の実施形態は、ユーザに情報を表示するディスプレイデバイス、例えば、ＣＲＴ（陰極線管）モニタ又はＬＣＤ（液晶ディスプレイ）モニタと、ユーザがコンピュータに入力を提供することができるキーボード及びポインティングデバイス、例えば、マウス又はトラックボールとを有するコンピュータ上で実施することができる。他の種類のデバイスを用いて、ユーザとのインタラクションを同様に提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックとすることができ、ユーザからの入力は、音響入力、音声入力、又は触覚入力を含む任意の形態で受信することができる。加えて、コンピュータは、ユーザによって用いられるデバイスに文書を送信すること及びこのデバイスから文書を受信することによって、例えば、ウェブブラウザーから受信された要求に応答してユーザのクライアントデバイス上のウェブブラウザーにウェブページを送信することによって、ユーザとインタラクトすることができる。

本明細書において説明した主題の実施形態は、バックエンド構成要素を、例えばデータサーバとして備えるコンピューティングシステム、又はミドルウェア構成要素、例えば、アプリケーションサーバを備えるコンピューティングシステム、又はフロントエンド構成要素、例えば、ユーザが本明細書において説明した主題の実施態様とインタラクトすることをできるようにするグラフィカルユーザインターフェース又はウェブブラウザーを有するクライアントコンピュータを備えるコンピューティングシステム、又は１つ以上のそのようなバックエンド構成要素、ミドルウェア構成要素、若しくはフロントエンド構成要素の任意の組み合わせを備えるコンピューティングシステムにおいて実施することができる。システムのこれらの構成要素は、任意の形態又は媒体のデジタルデータ通信、例えば、通信ネットワークによって相互接続することができる。通信ネットワークの例には、ローカルエリアネットワーク（「ＬＡＮ」）及びワイドエリアネットワーク（「ＷＡＮ」）、例えば、インターネットがある。

コンピューティングシステムは、クライアント及びサーバを備えることができる。クライアント及びサーバは、一般的に互いにリモートであり、通常、通信ネットワークを通じてインタラクトする。クライアント及びサーバの関係は、それぞれのコンピュータ上で動作するとともに互いにクライアントサーバ関係を有するコンピュータプログラムによって生じる。

Claims

入力オーディオ信号を変換するオーディオ信号処理システムであって、前記入力オーディオ信号は、１つ以上の対象オーディオ信号の混合体を含み、前記オーディオ信号処理システムは、
記憶された実行可能命令と、記憶されたモジュールとを含むメモリであって、前記モジュールは、前記入力オーディオ信号を変換して、対象オーディオ信号推定値を取得するようになっている、メモリと、
前記メモリと通信するプロセッサであって、前記プロセッサは、
オーディオ特徴シーケンスを抽出し、前記オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力するために、前記入力オーディオ信号をスペクトログラム推定器に入力することであって、前記一組の推定されたスペクトログラムは、対象オーディオ信号ごとの推定されたスペクトログラムを含む、入力することと、
スペクトログラム精緻化モジュールを用いて、前記一組の推定されたスペクトログラム及び前記オーディオ特徴シーケンスを処理することであって、その結果、一組の精緻化されたスペクトログラムを出力し、前記一組の精緻化されたスペクトログラムは、対象オーディオ信号ごとの精緻化されたスペクトログラムを含むようになっており、前記スペクトログラム精緻化モジュールの処理は、反復再構成アルゴリズムに基づいている、処理することと、
信号精緻化モジュールを用いて、前記１つ以上の対象オーディオ信号についての前記一組の精緻化されたスペクトログラムを処理することであって、その結果、前記対象オーディオ信号推定値を取得し、対象オーディオ信号ごとに対象オーディオ信号推定値が存在するようになっている、処理することと、
を行うことによって、前記モジュールのステップを実施する、プロセッサと、
最適化された対象オーディオ信号推定値を出力する出力インターフェースと、
を備え、
前記モジュールは、前記メモリに記憶された最適化器を用いて誤差を最小化することによって最適化され、前記誤差は、前記一組の推定されたスペクトログラムにおける誤差、前記一組の精緻化されたスペクトログラムにおける誤差、前記一組の精緻化されたスペクトログラムにおける整合性測定値を含む誤差、前記対象オーディオ信号推定値における誤差、又はこれらの何らかの組み合わせのうちの１つを含む、オーディオ信号処理システム。
前記スペクトログラム推定器は、ディープニューラルネットワークを用いる、請求項１に記載のオーディオ信号処理システム。
前記スペクトログラム推定器は、対象オーディオ信号ごとのマスク推定値を出力するマスク推定モジュールと、前記１つ以上の対象オーディオ信号についての前記マスク推定値及び前記入力オーディオ信号を用いて、前記対象オーディオ信号ごとの推定されたスペクトログラムを出力するスペクトログラム推定出力モジュールとを含む、請求項１に記載のオーディオ信号処理システム。
少なくとも１つの前記マスク推定値は、１よりも大きい、請求項３に記載のオーディオ信号処理システム。
前記スペクトログラム精緻化モジュールの処理は、
前記一組の推定されたスペクトログラム及び入力オーディオ特徴シーケンスに対して実行される反復手順を規定することと、
前記反復手順の反復ごとに１つの層が存在するように、前記反復手順を一組の層に展開することであって、各層は、一組の固定されたネットワークパラメータを含む、展開することと、
以前の反復の層の前記一組の固定されたネットワークパラメータからのいくつかの固定されたネットワークパラメータを、トレーニングするべき変数として用いてニューラルネットワークを形成し、各変数がそれらの対応する層に別個に適用可能であるように別個の変数としてこれらの変数を考慮することによって、前記以前の反復の層間でこれらの変数の関連付けを解くことと、
前記ニューラルネットワークをトレーニングして、トレーニングされたニューラルネットワークを取得することと、
前記トレーニングされたニューラルネットワークを用いて前記一組の推定されたスペクトログラム及び前記オーディオ特徴シーケンスを変換して、前記一組の精緻化されたスペクトログラムを取得することと、
を含む、請求項１に記載のオーディオ信号処理システム。
前記反復再構成アルゴリズムは、反復位相再構成アルゴリズムである、請求項１に記載のオーディオ信号処理システム。
前記反復位相再構成アルゴリズムは、多入力スペクトログラム逆変換（ＭＩＳＩ）アルゴリズムである、請求項６に記載のオーディオ信号処理システム。
前記反復位相再構成アルゴリズムは、グリフィンリムアルゴリズムである、請求項６に記載のオーディオ信号処理システム。
前記対象オーディオ信号推定値における誤差は、前記対象オーディオ信号推定値と、基準対象オーディオ信号との間の距離を含む、請求項１に記載のオーディオ信号処理システム。
前記対象オーディオ信号推定値における誤差は、前記対象オーディオ信号推定値のスペクトログラムと、基準対象オーディオ信号のスペクトログラムとの間の距離を含む、請求項１に記載のオーディオ信号処理システム。
前記スペクトログラム推定器によって抽出することは、特徴抽出モジュールを含み、前記特徴抽出モジュールは、前記入力オーディオ信号から前記入力オーディオ信号を抽出するようになっている、請求項１に記載のオーディオ信号処理システム。
受信オーディオ信号は、１人以上の話者、雑音、音楽、環境音、機械音又はこれらの何らかの組み合わせのうちの１つを含む、請求項１に記載のオーディオ信号処理システム。
入力オーディオ信号を変換する方法であって、
入力オーディオ信号を変換するモジュールを規定するステップであって、前記入力オーディオ信号は、１つ以上の対象オーディオ信号の混合体を含むようになっており、前記モジュールは、前記入力オーディオ信号を変換して、対象オーディオ信号推定値を取得する、ステップと、
メモリと通信するプロセッサであって、前記プロセッサは、
前記入力オーディオ信号をモデルのスペクトログラム推定器に入力して、オーディオ特徴シーケンスを抽出し、前記オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力するステップであって、前記一組の推定されたスペクトログラムは、対象オーディオ信号ごとの推定されたスペクトログラムを含む、ステップと、
前記モデルのスペクトログラム精緻化モジュールを用いて、前記一組の推定されたスペクトログラム及び前記オーディオ特徴シーケンスを処理して、一組の精緻化されたスペクトログラムを出力するステップであって、前記一組の精緻化されたスペクトログラムは、対象オーディオ信号ごとの精緻化されたスペクトログラムを含むようになっており、前記スペクトログラム精緻化モジュールの処理は、反復再構成アルゴリズムに基づいている、ステップと、
前記モデルの信号精緻化モジュールを用いて、前記１つ以上の対象オーディオ信号についての前記一組の精緻化されたスペクトログラムを処理して、前記対象オーディオ信号推定値を取得するステップであって、対象オーディオ信号ごとに対象オーディオ信号推定値が存在するようになっている、ステップと、
を行うことによって、前記モジュールのステップを実施する、プロセッサと、
最適化された対象オーディオ信号推定値を出力する出力インターフェースと、
を含み、
前記モジュールは、メモリに記憶された最適化器を用いて誤差を最小化することによって最適化され、前記誤差は、前記一組の推定されたスペクトログラムにおける誤差、前記一組の精緻化されたスペクトログラムにおける誤差、前記一組の精緻化されたスペクトログラムにおける整合性測定値を含む誤差、前記対象オーディオ信号推定値における誤差、又はこれらの何らかの組み合わせのうちの１つを含み、
前記ステップは、記憶された実行可能命令を有する前記メモリと通信するプロセッサによって実行され、前記モジュールは、前記メモリに記憶されるようになっている、方法。
前記スペクトログラム推定器は、対象オーディオ信号ごとのマスク推定値を出力するマスク推定モジュールと、前記１つ以上の対象オーディオ信号についての前記マスク推定値及び前記入力オーディオ信号を用いて、対象オーディオ信号ごとの前記推定されたスペクトログラムを出力するスペクトログラム推定出力モジュールとを含み、少なくとも１つのマスク推定値は、１よりも大きい、請求項１３に記載の方法。
前記スペクトログラム精緻化モジュールの処理は、
前記一組の推定されたスペクトログラム及び入力オーディオ特徴シーケンスに対して実行される反復手順を規定することと、
前記反復手順の反復ごとに１つの層が存在するように、前記反復手順を一組の層に展開することであって、各層は、一組の固定されたネットワークパラメータを含む、展開することと、
以前の反復の層の前記一組の固定されたネットワークパラメータからのいくつかの固定されたネットワークパラメータを、トレーニングするべき変数として用いてニューラルネットワークを形成し、各変数がそれらの対応する層に別個に適用可能であるように別個の変数としてこれらの変数を考慮することによって、前記以前の反復の層間でこれらの変数の関連付けを解くことと、
前記ニューラルネットワークをトレーニングして、トレーニングされたニューラルネットワークを取得することと、
前記トレーニングされたニューラルネットワークを用いて前記一組の推定されたスペクトログラム及び前記オーディオ特徴シーケンスを変換して、前記一組の精緻化されたスペクトログラムを取得することと、
を含む、請求項１３に記載の方法。
前記反復再構成アルゴリズムは、反復位相再構成アルゴリズムである、請求項１３に記載の方法。
前記最適化器は、勾配降下ベースアルゴリズムを含む、請求項１３に記載の方法。
入力オーディオ信号を変換するオーディオ信号処理システムであって、
記憶された実行可能命令と、記憶されたモジュールとを含むメモリであって、前記モジュールは、入力オーディオ信号を変換して、対象オーディオ信号推定値を取得するようになっており、前記入力オーディオ信号は、１つ以上の対象オーディオ信号の混合体を含む、メモリと、
前記メモリと通信するプロセッサであって、前記プロセッサは、
前記プロセッサと通信する入力インターフェースを介して前記入力オーディオ信号を受信することと、
前記入力オーディオ信号をスペクトログラム推定器に入力して、オーディオ特徴シーケンスを抽出し、前記オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力することであって、前記一組の推定されたスペクトログラムは、対象オーディオ信号ごとの推定されたスペクトログラムを含む、入力することと、
スペクトログラム精緻化モジュールを用いて、前記一組の推定されたスペクトログラム及び前記オーディオ特徴シーケンスを処理して、一組の精緻化されたスペクトログラムを出力することであって、前記一組の精緻化されたスペクトログラムは、対象オーディオ信号ごとの精緻化されたスペクトログラムを含むようになっており、前記スペクトログラム精緻化モジュールの処理は、反復再構成アルゴリズムに基づいている、処理することと、
信号精緻化モジュールを用いて、前記１つ以上の対象オーディオ信号についての前記一組の精緻化されたスペクトログラムを処理して、前記対象オーディオ信号推定値を取得することであって、対象オーディオ信号ごとに対象オーディオ信号推定値が存在するようになっている、処理することと、
を行うことによって、前記モジュールのステップを実施する、プロセッサと、
最適化された対象オーディオ信号推定値を出力する出力インターフェースと、
を備え、
前記モジュールは、前記メモリに記憶された最適化器を用いて誤差を最小化することによって最適化され、前記誤差は、前記一組の推定されたスペクトログラムにおける誤差、前記一組の精緻化されたスペクトログラムにおける誤差、前記一組の精緻化されたスペクトログラムにおける整合性測定値を含む誤差、前記対象オーディオ信号推定値における誤差、又はこれらの何らかの組み合わせのうちの１つを含む、オーディオ信号処理システム。
入力オーディオ信号を変換するオーディオ信号処理システムであって、
環境から入力オーディオ信号を獲得するように構成された音検出デバイスと、
前記入力オーディオ信号を受信及び送信するように構成された信号入力インターフェースデバイスであって、前記入力オーディオ信号は、１つ以上の対象オーディオ信号の混合体を含む、信号入力インターフェースデバイスと、
前記入力オーディオ信号を処理するように構成されたオーディオ信号処理デバイスであって、前記オーディオ信号処理デバイスは、
データを入出力するように構成されたメモリに接続するように構成されたハードウェアプロセッサであって、前記ハードウェアプロセッサは、
前記メモリに記憶されたモジュールにアクセスするステップであって、前記モジュールは、前記入力オーディオ信号を変換して、対象オーディオ信号推定値を取得するようになっている、ステップと、
前記入力オーディオ信号を前記モジュールのスペクトログラム推定器に入力して、オーディオ特徴シーケンスを抽出し、前記オーディオ特徴シーケンスを処理して、一組の推定されたスペクトログラムを出力するステップであって、前記一組の推定されたスペクトログラムは、対象オーディオ信号ごとの推定されたスペクトログラムを含む、ステップと、
前記モジュールのスペクトログラム精緻化モジュールを用いて、前記一組の推定されたスペクトログラム及び前記オーディオ特徴シーケンスを処理して、一組の精緻化されたスペクトログラムを出力するステップであって、前記一組の精緻化されたスペクトログラムは、対象オーディオ信号ごとの精緻化されたスペクトログラムを含むようになっており、前記スペクトログラム精緻化モジュールの処理は、反復再構成アルゴリズムに基づいている、ステップと、
前記モジュールの信号精緻化モジュールを用いて、前記１つ以上の対象オーディオ信号についての前記一組の精緻化されたスペクトログラムを処理して、前記対象オーディオ信号推定値を取得するステップであって、対象オーディオ信号ごとに対象オーディオ信号推定値が存在するようになっている、ステップと、
を実行する、ハードウェアプロセッサと、
最適化された対象オーディオ信号推定値を出力する出力インターフェースと、
を備え、
前記モジュールは、前記メモリに記憶された最適化器を用いて誤差を最小化することによって最適化され、前記誤差は、前記一組の推定されたスペクトログラムにおける誤差、前記一組の精緻化されたスペクトログラムにおける誤差、前記一組の精緻化されたスペクトログラムにおける整合性測定値を含む誤差、前記対象オーディオ信号推定値における誤差、又はこれらの何らかの組み合わせのうちの１つを含む、オーディオ信号処理システム。