JP7242903B2

JP7242903B2 - 畳み込みニューラルネットワークに基づく発話源分離のための方法および装置

Info

Publication number: JP7242903B2
Application number: JP2021566245A
Authority: JP
Inventors: スゥン，ジュインダイ; シュワーン，ジーウエイ; ルゥ，リエ; ヤーン，シャオファン; ダイ，ジア
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2019-05-14
Filing date: 2020-05-13
Publication date: 2023-03-20
Anticipated expiration: 2040-05-13
Also published as: WO2020232180A1; EP3970141A1; JP2022541707A; CN114341979A; US20220223144A1; EP3970141B1

Description

関連出願への相互参照
本願は、2019年5月14日に出願された国際特許出願第PCT/CN2019/086769号、2019年6月4日に出願された米国仮特許出願第62/856,888号、および2019年7月24日に出願された欧州特許出願第19188010.3号に対する優先権を主張するものであり、それぞれの出願は、その全体が参照により本明細書に組み込まれる。

技術
本開示は、概括的には、畳み込みニューラルネットワーク（CNN）に基づく発話源分離のための方法および装置に関し、より詳細には、集約されたマルチスケールCNNを使用して、もとのノイズのある発話信号からの発話の抽出を改善することに関する。

いくつかの実施形態が、その開示を特に参照して本明細書に記載されるが、本開示は、そのような使用分野に限定されず、より広い文脈において適用可能であることが理解されるであろう。

本開示を通じた背景技術のいかなる議論も、かかる技術が広く知られている、または当該分野における技術常識の一部を構成するとの自認であるとは決して考えられるべきではない。

発話源分離は、背景干渉から目標発話を回復することを目的とし、発話および／またはオーディオ技術の分野における多くの応用を見出す。この文脈において、発話源分離は、一般に「カクテルパーティー問題」としても知られている。このシナリオでは、複雑な背景のために、たとえば、映画やテレビのようなプロフェッショナルなコンテンツからのダイアログの抽出において困難が生じる。

現在、ほとんどの分離方法は、定常的なバックグラウンドまたはノイズのみに焦点を当てている。モノラル発話分離のための2つの伝統的アプローチは、発話向上と計算聴覚シーン解析（computational auditory scene analysis、CASA）である。

最も単純で最も広く使用されている向上方法は、スペクトル減算（非特許文献１）であり、ここでは、ノイズのある発話から推定されたノイズのパワースペクトルが減算される。バックグラウンド推定は、バックグラウンド・ノイズが定常的である、すなわち、そのスペクトル特性が時間の経過とともに急激に変化しない、または少なくとも発話より定常的であると想定する。しかしながら、この想定は、この方法がプロフェッショナルなコンテンツを処理するために適用される場合には制限に突き当たる。
S.F. Boll、"Suppression of acoustic noise in speech using spectral subtraction"、IEEE Trans. Acoust. Speech Sig. Process., vol.27, pp.113-120, 1979

CASAは、聴覚シーン解析の知覚的原理を使用し、ピッチおよび立ち上がり〔オンセット〕のようなグループ化手がかりを活用することによって機能する。たとえば、タンデム・アルゴリズムは、ピッチ推定とピッチベースのグループ化を交互に行うことにより、発声された発話を分離する（非特許文献２）。
G. Hu and D.L. Wang、"A tandem algorithm for pitch estimation and voiced speech segregation"、IEEE Trans. Audio Speech Lang. Proc., vol.18, pp.2067-2079, 2010

より最近のアプローチは、発話分離を、深層学習の急速な勃興から裨益した教師付き学習問題として扱う。教師付き発話分離のもともとの定式化は、CASAにおける時間‐周波数（T-F）マスキングの概念に触発された。

深層ニューラルネットワーク（DNN）は、教師付き発話分離のパフォーマンスを大幅に改善することが示されている。DNNのタイプには、フィードフォワード多層パーセプトロン（MLP）、畳み込みニューラルネットワーク（CNN）、リカレントニューラルネットワーク（RNN）、および敵対的生成ネットワーク（GAN）を含む。これらの中で、CNNはフィードフォワード・ネットワークのクラスである。

しかしながら、発話分離のためのDNNの使用にもかかわらず、定常的および非定常的（動的）バックグラウンドの両方に対してプロフェッショナルなコンテンツにおけるダイアログ／発話を抽出するための堅牢な分離方法に対する必要性がいまだに存在する。

本開示の第1の側面によれば、畳み込みニューラルネットワーク（CNN）ベースの発話源分離のための方法が提供される。本方法は、（a）もとのノイズのある発話信号の時間‐周波数変換の複数のフレームを提供するステップを含んでいてもよい。本方法は、さらに、（b）前記複数のフレームの時間‐周波数変換を複数の並列な畳み込み経路を有する集約マルチスケールCNNに入力するステップを含んでいてもよく、ここで、各並列な畳み込み経路は一つまたは複数の畳み込み層を含む。本方法は、さらに、（c）前記複数のフレームの入力時間‐周波数変換から、各並列な畳み込み経路によって特徴を抽出し出力するステップを含んでいてもよい。本方法は、（d）並列な畳み込み経路の出力の集約された出力を得るステップをさらに含んでいてもよい。また、本方法は、（e）集約された出力に基づいて、もとのノイズのある発話信号から発話を抽出するための出力マスクを生成するステップを含んでいてもよい。

いくつかの実施形態では、もとのノイズのある発話信号は、ハイピッチ、アニメ、および他の異常な発話のうちの一つまたは複数を含んでいてもよい。

いくつかの実施形態では、前記複数のフレームの時間‐周波数変換は、集約マルチスケールCNNに入力する前に、2D畳み込み層に、その後、漏洩整流線形ユニット（LeakyRelu）にかけられてもよい。

いくつかの実施形態では、ステップ（d）において集約された出力を得ることは、さらに、並列な畳み込み経路のそれぞれの出力に重みを適用することを含んでいてもよい。

いくつかの実施形態では、異なる重みが、発話および／またはオーディオ・ドメイン知識と、トレーニング・プロセスから学習されたトレーニング可能なパラメータとの一つまたは複数に基づいて、並列な畳み込み経路のそれぞれの出力に適用されてもよい。

いくつかの実施形態では、ステップ（d）において集約された出力を得ることは、並列な畳み込み経路の重み付けされた出力を連結することを含んでいてもよい。

いくつかの実施形態では、ステップ（d）において集約された出力を得ることは、並列な畳み込み経路の重み付けされた出力を加算することを含んでいてもよい。

いくつかの実施形態では、ステップ（c）において、発話高調波特徴が抽出されて、並列な畳み込み経路のそれぞれによって出力されてもよい。

いくつかの実施形態では、本方法は、（f）出力マスクを後処理するステップをさらに含んでいてもよい。

いくつかの実施形態では、出力マスクは、1フレームのスペクトル絶対値マスクであってもよく、出力マスクの後処理は、（i）出力マスクを[0,φ]に制限するステップであって、φはトレーニング・データ内の目標マスクの統計的解析に従って設定される、ステップ；（ii）現在のフレームの平均マスクがεより小さい場合には、出力マスクを0に設定するステップ；（iii）入力がゼロである場合には、出力マスクをゼロに設定するステップ；または（iv）J*Kメジアンフィルタリングするステップのうちの少なくとも1つを含んでいてもよい。

いくつかの実施形態では、出力マスクは、1フレームのスペクトル絶対値マスクであってもよく、本方法は、（g）出力マスクともとのノイズのある発話信号の絶対値スペクトルとを乗算し、ISTFTを実施し、wav信号を取得するステップをさらに含んでいてもよい。

いくつかの実施形態では、ステップ（e）における出力マスクの生成は、集約された出力に対して、カスケード化されたプーリングを適用することを含んでいてもよい。

いくつかの実施形態では、カスケード化されたプーリングは、畳み込み層およびプーリング処理の対を実行することの一つまたは複数のステージを含んでいてもよく、前記一つまたは複数のステージの後に最後の畳み込み層が続く。

いくつかの実施形態では、平坦化演算が、カスケード化されたプーリングの後に実行されてもよい。

いくつかの実施形態では、プーリング処理として、平均プーリング処理が実行されてもよい。

いくつかの実施形態では、CNNの複数の並列な畳み込み経路のうちの各並列な畳み込み経路は、L個の畳み込み層を含んでいてもよく、ここで、Lは自然数≧1であり、L層のうちのl番目の層は、l＝1…Lとして、N_l個のフィルタを有してもよい。

いくつかの実施形態では、各並列な畳み込み経路について、1番目の層におけるフィルタの数N_lは、N₁=l×N₀によって与えられてもよく、N₀は所定の定数≧1である。

いくつかの実施形態では、フィルタのフィルタ・サイズは、各並列な畳み込み経路内で同じであってもよい。

いくつかの実施形態では、フィルタのフィルタ・サイズは、異なる並列な畳み込み経路の間で異なっていてもよい。

いくつかの実施形態では、所与の並列な畳み込み経路について、L個の畳み込み層のそれぞれにおいて畳み込み演算を実行する前に、入力はゼロ・パディングされてもよい。

いくつかの実施形態では、所与の並列な畳み込み経路について、フィルタは、n*nのフィルタ・サイズを有してもよく、またはフィルタは、n*1および1*nのフィルタ・サイズを有してもよい。

いくつかの実施形態では、フィルタ・サイズは、特徴抽出を実施するために高調波長（harmonic length）に依存してもよい。

いくつかの実施形態では、所与の並列な畳み込み経路について、その並列な畳み込み経路の諸層のうちの少なくとも1つの層の諸フィルタは、拡張された（dilated）2D畳み込みフィルタであってもよい。

いくつかの実施形態では、その並列な畳み込み経路の諸層のうちの少なくとも1つの層の諸フィルタの拡張操作（dilation operation）は、周波数軸上のみで実行されてもよい。

いくつかの実施形態では、所与の並列な畳み込み経路について、その並列な畳み込み経路の2つ以上の層の諸フィルタは、拡張された2D畳み込みフィルタであってもよく、拡張された2D畳み込みフィルタの拡張因子は、層番号lの増加とともに指数関数的に増加してもよい。

いくつかの実施形態では、所与の並列な畳み込み経路について、拡張は、L個の畳み込み層のうちの第1の畳み込み層では（1,1）であってもよく、該拡張は、L個の畳み込み層のうちの第2の畳み込み層では（1,2）であってもよく、該拡張は、L個の畳み込み層のうちの第lの畳み込み層では（1,2^(l－1)）であってもよく、該拡張は、L個の畳み込み層のうちの最後の層では（1,2^(L－1)）であってもよく、ここで、(c,d)は、時間軸に沿ったcの拡張因子および周波数軸に沿ったdの拡張因子を示しうる。

いくつかの実施形態では、所与の並列な畳み込み経路について、加えて、非線形演算が、L個の畳み込み層のそれぞれにおいて実行されてもよい。

いくつかの実施形態では、非線形演算は、パラメトリック整流線形ユニット（PRelu）、整流線形ユニット（Relu）、漏洩整流線形ユニット（LeakyRelu）、指数線形ユニット（Elu）、およびスケーリングされた指数線形ユニット（Selu）のうちの一つまたは複数を含んでいてもよい。

いくつかの実施形態では、整流線形ユニット（Relu）は、非線形演算として実行されてもよい。

本開示の第2の側面によれば、畳み込みニューラルネットワーク（CNN）に基づく発話源分離のための装置が提供され、当該装置は、畳み込みニューラルネットワーク（CNN）に基づく発話源分離のための前記方法のステップを実行するように構成されたプロセッサを含む。

本開示の第3の側面によれば、処理能力を有する装置によって実行されたときに、畳み込みニューラルネットワーク（CNN）に基づく発話源分離のための前記方法を該装置に実行させるように構成された命令を有するコンピュータ読み取り可能な記憶媒体を備えるコンピュータ・プログラム・プロダクトが提供される。

ここで、添付の図面を参照して、単に例として、本開示の例示的実施形態を説明する。

畳み込みニューラルネットワーク（CNN）に基づく発話源分離のための方法の一例のフロー図を示す。

畳み込みニューラルネットワーク（CNN）に基づく発話源分離のための方法のさらなる例のフロー図を示す。

発話源分離のための集約マルチスケール畳み込みニューラルネットワーク（CNN）の例を示す。

畳み込みニューラルネットワーク（CNN）に基づく発話源分離のためのプロセス・フローの一部の例を示す。

カスケード化されたプーリング構造の例を示す。

複雑性低減の一例を示す。

集約マルチスケール畳み込みニューラルネットワーク（CNN）に基づく発話源分離
下記では、畳み込みニューラルネットワーク（CNN）に基づく発話源分離のための方法と装置について述べる。このアプローチは、たとえば、映画またはテレビ・コンテンツのようなプロフェッショナル・コンテンツからのダイアログの抽出において特に価値がある。CNNに基づく発話源分離は、種々の受容野（receptive field）を用いた、もとのノイズのある信号（original noisy signal［オリジナル・ノイジー・シグナル］）のスペクトル上での特徴抽出に基づいている。マルチスケール特性とマルチフレーム入力のため、このモデルは、時間および周波数情報をフルに利用する。

概観
図1の例を参照すると、畳み込みニューラルネットワーク（CNN）に基づく発話源分離のための方法が示されている。ステップ101では、もとのノイズのある発話信号の時間‐周波数変換の複数のフレーム（たとえば、M個のフレーム）が提供される。通常の発話がもとのノイズのある発話信号として使用されてもよいが、ある実施形態では、もとのノイズのある発話信号は、ハイピッチ、アニメ、および他の異常な発話のうちの一つまたは複数を含んでいてもよい。異常な発話は、たとえば、感情的な発話、興奮させるおよび／または怒った声、アニメで使用される子供の声を含んでいてもよい。異常な発話、ハイピッチの発話は、オーディオの高いダイナミックレンジおよび／またはオーディオ成分の疎な高調波によって特徴づけられてもよい。フレームの数は制限されないが、ある実施形態では、もとのノイズのある発話信号の時間‐周波数変換の8個のフレームが提供されてもよい。

代替的または追加的に、N点短時間フーリエ変換（STFT）が、もとのノイズのある発話信号の複数のフレームに基づいて発話のスペクトル絶対値を提供するために使用されてもよい。この場合、Nを選択することは：
N＝時間長×サンプリング・レート
に従って、サンプリング・レートおよびフレームの期待される時間長に基づいてもよい。

2つの隣接するフレーム間にデータの重複があってもなくてもよい。典型的には、より長いNは、計算複雑性の増大を代償にして、よりよい周波数分解能をもたらしうる。ある実施形態では、Nは、16kHzのサンプリング・レートで1024であるように選択されてもよい。

ステップ102では、もとのノイズのある発話信号の時間‐周波数変換の複数のフレームが、複数の並列な畳み込み経路を有する集約マルチスケールCNNに入力される。各畳み込み経路は、一つまたは複数の畳み込み層、たとえば、一つまたは複数の畳み込み層のカスケードを含む。集約マルチスケールCNNの構造は、のちに、より詳細に説明される。

ステップ103では、集約マルチスケールCNNの各並列な畳み込み経路によって、前記複数のフレームの入力時間‐周波数変換から、特徴が抽出され、出力される。ある実施形態では、各並列な畳み込み経路によって、発話高調波特徴が抽出され、出力されてもよい。代替的または追加的に、異なる受容野における高調波特徴の相関が抽出されてもよい。

ステップ104では、並列な畳み込み経路の出力の集約された出力が得られる。ある実施形態では、集約された出力を得ることは、さらに、並列な畳み込み経路のそれぞれの出力に重みを適用することを含んでいてもよい。ある実施形態では、異なる重みは、発話および／またはオーディオ・ドメイン知識の一つまたは複数に基づいて適用されてもよく、またはトレーニング・プロセスから学習できるトレーニング可能なパラメータであってもよい。これについては、のちに、さらに詳述する。

ステップ105では、集約された出力に基づいて、もとのノイズのある発話信号から発話を抽出するための出力マスクが生成される。

図2の例を参照すると、ある実施形態では、畳み込みニューラルネットワーク（CNN）に基づく発話源分離のための方法は、出力マスクを後処理するステップ106をさらに含んでいてもよい。ある実施形態では、出力マスクは、1フレームのスペクトル絶対値マスク（spectral magnitude mask）であってもよい。1フレームのスペクトル絶対値マスクは、以下のように定義されてもよい：
スペクトル絶対値マスク＝｜S(t,f)｜／｜Y(t,f)｜
ここで、S(t,f)はきれいな発話のスペクトル絶対値（spectral magnitude）を表し、Y(t,f)はノイズのある発話のスペクトル絶対値を表す。次いで、ステップ106における出力マスクの後処理は、以下のステップのうちの少なくとも1つを含んでいてもよい：（i）出力マスクを[0,φ]に制限する。ここで、φはトレーニング・データ内の目標マスクの統計的解析に従って設定される、ネットワークから推定されたソフト・マスクの上限（up limit）であり、ソフト・マスクは、各時間‐周波数タイルに発話のどのくらいの部分が存在するかを表し、通例、0から1までの間である。しかしながら、位相キャンセルが生じるいくつかの場合には、ソフト・マスク、すなわちφは、1よりも大きい場合がある。CNNが不適切なマスクを生成することを避けるために、ソフト・マスクは、最大値φに制限される。よって、φは、1以上であってもよく、たとえば、2に等しいか、または、たとえば、1から2までの間の任意の他の中間的な実数に等しくてもよい；ii）現在のフレームについての平均マスクがεよりも小さい場合、出力マスクを0に設定する；iii）入力がゼロである場合、出力マスクをゼロに設定する；または、（iv）J*Kメジアンフィルタリングする。J*Kメジアンフィルタは、サイズJ*Kのフィルタである。ここで、Jは周波数次元の範囲、Kは時間次元の範囲である。メジアンフィルタを用いると、目標ソフト・マスクは、たとえばそのJ*K個の周囲の近傍内の諸マスクのメジアンによって置き換えられる。メジアンフィルタは、周波数および時間次元上での急激な変化を避けるために平滑化に使用される。ある実施形態では、J＝K＝3である。他の実施形態では、J*Kは、3*5、7*3、または5*5に等しくてもよい。しかしながら、J*Kは、CNNの特定の実装に好適な任意の他のフィルタ・サイズに等しくてもよい。後処理のステップ（i）は、分離結果がオーディオ・クリッピングを起こさないことを保証する。後処理のステップ（ii）は、残留ノイズを除去することを可能にし、発話活性化検出として機能する。後処理のステップ（iii）は、ステップ（iv）のメジアンフィルタリングが適用されるときにエッジ効果（edge effect）を伴うことを回避することを可能にする。後処理のステップ（iv）は、出力マスクを平滑化し、可聴アーチファクトを除去することを可能にする。後処理を実行することにより、分離結果の知覚的品質が改善できる。

ステップ107では、ある実施形態では、出力マスクは1フレームのスペクトル絶対値マスクであってもよく、本方法は、出力マスクと、もとのノイズのある発話信号の絶対値スペクトルとを乗算し、逆短時間フーリエ変換（ISTFT）を実施し、wav信号を得ることをさらに含んでいてもよい。

上述した畳み込みニューラルネットワーク（CNN）に基づく発話源分離のための方法は、前記方法を実行するように構成されたプロセッサを含むそれぞれの装置で実装されてもよい。代替的または追加的に、畳み込みニューラルネットワーク（CNN）に基づく発話源分離のための上述の方法は、装置に前記方法を実行させるように適応された命令を有するコンピュータ読み取り可能な記憶媒体を含むコンピュータ・プログラム製品として実装されてもよい。

集約マルチスケール畳み込みニューラルネットワーク構造
図3の例を参照すると、発話源分離のための集約マルチスケール畳み込みニューラルネットワーク（CNN）が示されている。記述した方法では、特徴抽出のために純粋な畳み込みネットワークが利用される。集約マルチスケールCNN（aggregated multi-scale CNN）は、複数の並列な畳み込み経路を含む。並列な畳み込み経路の数は制限されないが、集約マルチスケールCNNは3つの並列な畳み込み経路を含んでいてもよい。これらの並列な畳み込み経路によって、もとのノイズのある発話信号の複数のフレームの時間‐周波数変換の異なる、たとえば局所的なおよび一般的な特徴情報の抽出が、異なるスケールにおいて可能である。

図3の例を参照すると、ステップ201において、もとのノイズのある発話信号の複数のフレーム（たとえば、M個のフレーム）の時間‐周波数変換が、複数の並列な畳み込み経路を有する集約マルチスケールCNNに入力されてもよく、図3の例では、3つの並列な畳み込み経路が示されている。N点短時間フーリエ変換（STFT）は、複数のフレーム（たとえば、M個のフレーム）上で使用されうる。よって、CNNへの入力は、M*(N/2＋1)の次元に対応しうる。Nは1024であってもよい。

図4の例を参照すると、ある実施形態では、集約マルチスケールCNNに入力する前に、ステップ201において、もとのノイズのある発話信号の複数のフレームの時間‐周波数変換は、ステップ201aで2D畳み込み層にかけられ、その後、ステップ201bで漏洩整流線形ユニット（LeakyRelu）にかけられてもよい。2D畳み込み層は、N個のフィルタ（N_filtersとも呼ばれる）を有していてもよく、Nは自然数＞1である。この層のフィルタ・サイズは（1,1）であってもよい。さらに、この層には拡張がなくてもよい。

図3の例に示されるように、複数のフレームの時間‐周波数変換は、ステップ201における複数の並列な畳み込み経路に（並列に）入力される。ある実施形態では、各並列な畳み込み経路は、CNNの複数の並列な畳み込み経路のうち、L個の畳み込み層301,302,303,401,402,403,501,502,503を含んでいてもよく、ここで、Lは自然数＞1であり、L層のうちのl番目の層は、l＝1…LとしてNl個のフィルタを有する。各並列な畳み込み経路における層の数Lは制限されないが、各並列な畳み込み経路は、たとえば、L＝5個の層を含むことができる。ある実施形態では、各並列な畳み込み経路について、l番目の層におけるフィルタの数Nlは、Nl＝l×N0によって与えられてもよく、N0は、所定の定数＞1である。

ある実施形態では、フィルタのフィルタ・サイズは、各並列な畳み込み経路内で同じ（すなわち、均一）であってもよい。たとえば、（3,3）（すなわち、3*3）のフィルタ・サイズが、複数の並列な畳み込み経路のうちの並列な畳み込み経路301～303内の各層Lにおいて使用されてもよい。各並列な畳み込み経路内では同じフィルタ・サイズを使用することによって、異なるスケール特徴の混合が回避されてもよい。このようにして、CNNは各経路において同スケール特徴抽出を学習し、これはCNNの収束速度を大幅に改善する。

ある実施形態では、フィルタのフィルタ・サイズは、異なる並列な畳み込み経路301～303、401～403、501～503の間で異なっていてもよい。たとえば、限定を意図することなく、集約マルチスケールCNNが3つの並列な畳み込み経路を含む場合、フィルタ・サイズは、第1の並列な畳み込み経路301～303において（3,3）、第2の並列な畳み込み経路401～403において（5,5）、第3の並列畳なみ込み経路501～503において（7,7）であってもよい。しかしながら、他のフィルタ・サイズも実現可能であり、やはりそれぞれの並列な畳み込み経路内では同じフィルタ・サイズが使用されてもよく、異なる並列な畳み込み経路の間では異なるフィルタ・サイズが使用されてもよい。異なる並列な畳み込み経路のフィルタの異なるフィルタ・サイズは、CNNの異なるスケールを表す。すなわち、複数のフィルタ・サイズを使用することにより、マルチスケール処理が可能となる。たとえば、フィルタのサイズが小さい場合（たとえば、3×3）、目標周波数‐時間タイルのまわりで小さな範囲の情報が処理され、フィルタのサイズが大きい場合（たとえば、7×7）、大きな範囲の情報が処理される。小さな範囲の情報を処理することは、いわゆる「ローカル」特徴を抽出することと等価である。大きな範囲の情報を処理することは、いわゆる「一般的」な特徴を抽出することと等価である。本発明者らは、異なるフィルタ・サイズによって抽出された特徴が異なる特性を有することを見出した。大きなフィルタ・サイズを使用することは、発話の、より多くの高調波を保存することを意図しているが、ノイズもより多く保持する。一方、小さなフィルタ・サイズを使用すると、発話の主要な成分をより多く保存し、ノイズはより積極的に除去する。

ある実施形態では、フィルタ・サイズは、特徴抽出を実施するために高調波長（harmonic length）に依存してもよい。

ある実施形態では、所与の畳み込み経路について、L個の畳み込み層のそれぞれにおいて畳み込み演算を実行する前に、各層への入力はゼロ・パディングされてもよい。このようにして、入力から出力まで、同じデータ形状が維持できる。

ある実施形態では、所与の並列な畳み込み経路について、加えて、非線形演算が、L個の畳み込み層のそれぞれにおいて実行されてもよい。非線形演算は限定されないが、ある実施形態では、非線形演算は、パラメトリック整流線形ユニット（PRelu）、整流線形ユニット（Relu）、漏洩整流線形ユニット（LeakyRelu）、指数線形ユニット（Elu）、およびスケーリングされた指数線形ユニット（Selu）のうちの一つまたは複数を含んでいてもよい。ある実施形態では、整流線形ユニット（Relu）は、非線形演算として実行されてもよい。非線形演算は、L個の畳み込み層のそれぞれにおける活性化として使用されてもよい。

ある実施形態では、所与の並列な畳み込み経路について、並列な畳み込み経路の層のうちの少なくとも1つの層の諸フィルタは、拡張された2D畳み込みフィルタであってもよい。拡張されたフィルタの使用は、異なる受容野における高調波特徴の相関を抽出することを可能にする。拡張は、一連の時間‐周波数（TF）ビンをジャンプする（すなわち、スキップする、とばす）ことによって、遠くの受容野に到達することを可能にする。ある実施形態では、並列な畳み込み経路の層のうちの少なくとも1つの層の諸フィルタの拡張操作は、周波数軸のみで実行されてもよい。たとえば、本開示の文脈における（1,2）の拡張は、時間軸に沿って拡張がなく（拡張因子1）、一方、周波数軸では一つおきのビンがスキップされる（拡張因子2）ことを示してもよい。一般に、（1,d）の拡張は、それぞれのフィルタによる特徴抽出のために使用されるビンの間で、周波数軸に沿って（d－1）個のビンがスキップされることを示すことができる。

ある実施形態では、所与の畳み込み経路について、その並列な畳み込み経路の2つ以上の層のフィルタは、拡張された2D畳み込みフィルタであってもよく、拡張された2D畳み込みフィルタの拡張因子は、層番号lの増加とともに指数関数的に増加する。このようにして、深さとともに指数関数的な受容野の増大が達成できる。図3の例に示されるように、ある実施形態では、所与の並列な畳み込み経路について、拡張は、L個の畳み込み層のうちの第1の畳み込み層において（1,1）であってもよく、拡張は、L個の畳み込み層のうちの第2の畳み込み層において（1,2）であってもよく、拡張は、L個の畳み込み層のうちの第lの畳み込み層において（1,2^(l－1)）であってもよく、拡張は、L個の畳み込み層のうちの最後の層において（1,2^(L－1)）であってもよく、ここで、（c,d）は、時間軸に沿ったcの拡張因子および周波数軸に沿ったdの拡張因子を示す。

集約マルチスケールCNNはトレーニングされてもよい。集約マルチスケールCNNのトレーニングには、以下のステップを含んでいてもよい：
（i）もとのノイズのある発話および目標発話のフレームFFT係数を計算する；
（ii）位相を無視して、前記ノイズのある発話および目標発話の絶対値を求める；
（iii）前記ノイズのある発話と目標発話の絶対値の差を次のように計算することによって、目標出力マスクを得る：
目標マスク＝||Y(t,f)||／||X(t,f)||
ここでY(t,f)およびX(t,f)は目標発話とノイズのある発話のスペクトル絶対値を表す；
（iv）統計ヒストグラムに従って、目標マスクを小さな範囲に制限する。

初期目標マスクの値の範囲は、目標発話と干渉との間の負の相関により、非常に大きくなることがある。統計的な結果に基づくと、[0,2]に位置するマスクは約90%を占め、[0,4]に位置するマスクは約98%を占める。トレーニング結果によれば、マスクは、[0,2]または[0,4]に制限されてもよい。統計的な結果は、発話およびバックグラウンド・タイプに関係することがあるが、CNNをトレーニングするためにはマスク制限が重要である可能性がある。
（v）ノイズのある発話の複数フレーム周波数絶対値を入力として使用する；
（vi）ステップ（iii）の対応する目標マスクを出力として使用する。
集約マルチスケールCNNのトレーニングのために、ハイピッチ、アニメおよび他の異常な発話が、堅牢性を増すためにカバーされてもよい。

経路重み付けと集約
図3の例を参照すると、ステップ303、403、503から、ステップ201で入力された、もとのノイズのある発話信号の複数のフレームの時間‐周波数変換から、集約マルチスケールCNNの並列な畳み込み経路のそれぞれにおいて抽出された特徴が出力される。次いで、ステップ202において、並列な畳み込み経路のそれぞれからの出力が集約され、集約された出力が得られる。

ある実施形態では、集約された出力を得るステップは、並列な畳み込み経路のそれぞれの出力303、403、503に重み304（W1）、404（W2）、504（W3）を適用することを含んでいてもよい。ある実施形態では、異なる重み304（W1）、404（W2）、504（W3）が、発話および／またはオーディオ・ドメイン知識およびトレーニング・プロセスから学習されたトレーニング可能なパラメータの一つまたは複数に基づいて、並列な畳み込み経路のそれぞれの出力に適用されてもよい。トレーニング可能なパラメータは、集約マルチスケールCNNのトレーニング・プロセスの間に得られてもよく、ここで、トレーニング可能なパラメータは、他のパラメータと合同してトレーニング・プロセス全体から直接学習されることができる重み自体であってもよい。

一般に、CNNの、より大きなフィルタ・サイズは、より多くのノイズを含むものの、より多くの発話成分を保ちうる。一方、より小さなフィルタ・サイズは、より多くのノイズを除去するものの、発話のいくつかの主要成分のみを保ちうる。たとえば、より大きなフィルタ・サイズをもつ経路について、より大きな重みが選択される場合、モデルは、比較的保守的であってもよく、より多くの残留ノイズを代償にして、比較的より良好な発話保存を有することができる。他方、より小さなフィルタ・サイズをもつ経路について、より大きな重みが選択される場合、モデルは、ノイズ除去に関してより積極的であってもよく、いくらかの発話成分を失う可能性もある。このように、並列な畳み込み経路の出力に重みを適用することは、たとえば、上記で説明した例における発話保存とノイズ除去との間の好ましいトレードオフを達成することによって、CNNの積極さを制御するのに役立ちうる。

ある実施形態では、ステップ202において集約された出力を得ることは、並列な畳み込み経路の重み付けされた出力を連結することを含んでいてもよい。集約マルチスケールCNNへの入力が、たとえば、M*(N/2＋1)である場合、連結の場合の出力の次元は、3*(n_filters*n)*M*(N/2＋1)であってもよい。

ある実施形態では、ステップ202において集約された出力を得ることは、並列な畳み込み経路の重み付けされた出力を加算することを含んでいてもよい。集約マルチスケールCNNへの入力が、たとえば、M*(N/2＋1)である場合、加算の場合の出力の次元は、(n_filters*n)*M*(N/2＋1)であってもよい。本開示を通じて、たとえば、フィルタ数（filter number）は、CNNの並列な畳み込み経路のL個の畳み込み層のフィルタについては、n_filters*nとして、N0_filters*{l}として、またはN₀*l＝N_lとして表されてもよく、フィルタ数は、他の畳み込み層については、N filtersまたはN_filtersとして表されてもよいことに留意されたい。

カスケード化プーリング
もとのノイズのある発話信号の時間‐周波数変換の複数のフレームが集約マルチスケールCNNに入力されるので、CNNによる特徴抽出も複数のフレームにわたって実施される。図5の例を参照すると、カスケード化されたプーリング構造が示されている。ある実施形態では、出力マスクを生成することは、ステップ601における集約された出力に、カスケード化されたプーリングを適用することを含む。カスケード化されたプーリングを適用することによって、最も効果的な特徴を発見することによって1フレーム出力マスクを予測するために、マルチフレーム特徴が使用されうる。ある実施形態では、カスケード化されたプーリングは、畳み込み層602、604、606とプーリング処理603、605、607の対を実行する一つまたは複数のステージを含んでいてもよく、該一つまたは複数のステージの後に最後の畳み込み層608が続く。プーリング処理は、時間軸でのみ実行されてもよい。ある実施形態では、前記プーリング処理として平均プーリング処理が実行されてもよい。畳み込み層602、604、606では、フィルタ数が減らされてもよい。第1の畳み込み層602におけるフィルタ数は、制限されず、たとえば、N_filters*4またはN_filters*2でありうるが、フィルタ数は徐々に減らされてもよい。さもなければ、パフォーマンスが低下する可能性がある。さらに、フィルタ数は、最後の畳み込み層608で1でなければならない。図5の例では、限定の意図なしに、フィルタ数は、畳み込み層のうちの第1の層602におけるN_filters*4から、畳み込み層のうちの第2の層604におけるN_filters*2に、畳み込み層のうちの第3の層606におけるN_filtersに、そして最後の畳み込み層608におけるフィルタ数1に減らされる。フィルタ・サイズは、複数のフレームの数Mに依存してもよい。代替的または追加的に、各畳み込み層のフィルタ・サイズは、前のプーリング層の出力フレーム・サイズに依存してもよい。前のプーリング層の出力フレーム・サイズが時間軸上でフィルタ・サイズよりも大きい場合、フィルタ・サイズは、それぞれの畳み込み層において同じであって、たとえば（3,1）であってもよい。前のプーリング層の出力フレーム・サイズが、時間軸上で前の畳み込み層のフィルタ・サイズよりも小さい場合、現在の畳み込み層のフィルタ・サイズは、前のプーリング層がM'フレーム出力、たとえばM'＜3を有すると仮定して、（M',1）でありうる。図5の例では、第1の畳み込み層602では、（3,1）のフィルタ・サイズが使用され、第2の畳み込み層604では、（3,1）のフィルタ・サイズが使用され、第3の畳み込み層606では、（2,1）のフィルタ・サイズが使用され、最後の畳み込み層608では、（1,1）のフィルタ・サイズが使用される。非線形演算は、畳み込み層のそれぞれにおいて実行されてもよい。図5の例では、畳み込み層602、604、および606では、整流線形ユニット（Relu）が実行され、最後の畳み込み層608では、漏洩整流線形ユニット（LeakyRelu）が実行される。ある実施形態では、カスケード化されたプーリングの後に、平坦化操作609が実行されてもよい。

複雑さの軽減
図6の例を参照すると、ある実施形態では、所与の並列な畳み込み経路について、フィルタは、n*nのフィルタ・サイズ701を有してもよく、または、フィルタは、n*1 701a、および1*n 701bのフィルタ・サイズを有してもよい。フィルタは、周波数‐時間次元で適用されてもよく、それにより、フィルタ・サイズn*nは、周波数軸におけるnフィルタ長および時間軸におけるnフィルタ長を有するフィルタを表すことができる。同様に、n*1のフィルタ・サイズは、周波数軸上でnフィルタ長、時間軸上で1フィルタ長を有するフィルタを表すことができ、一方、1*nのフィルタ・サイズは、周波数軸における1フィルタ長、時間軸におけるnフィルタ長を有するフィルタを表すことができる。サイズn*nのフィルタは、サイズn*1のフィルタとサイズ1*nのフィルタの連結で置き換えられてもよい。よって、複雑さの低減は、以下のように達成されうる。たとえば、n*nフィルタについては、n*n個のパラメータがある。そのようなフィルタの64個が前記L個の層の1つにあると仮定すると、パラメータの数は64*n*nとなる。フィルタ・サイズn*nを、それぞれサイズn*1および1*nの2つのフィルタの連結で置き換えることにより、パラメータは64*n*1*2個だけになり、モデルの複雑性を低減する。

解釈
特に断りのない限り、以下の議論から明らかなように、本開示を通じて、「処理」、「コンピューティング」、「計算」、「決定」、「解析」などの用語を使用する議論は、コンピュータまたは計算システム、または同様の電子計算装置のアクションおよび／またはプロセスであって、電子的な量のような物理的な量として表わされるデータを操作および／または変換して、物理的な量として同様に表わされる他のデータにするものを指すことが理解される。

同様に、用語「プロセッサ」は、たとえばレジスタおよび／またはメモリからの電子データを、該電子データを、たとえばレジスタおよび／またはメモリに記憶されうる他の電子データに変換するために処理する任意の装置または装置の一部分を指してもよい。

本明細書に記載される方法論は、ある例示的実施形態では、命令の集合を含むコンピュータ読み取り可能な（機械読み取り可能な、ともいう）コードを受け入れる一つまたは複数のプロセッサによって実行可能である。該命令は、前記プロセッサの一つまたは複数によって実行されると、本明細書に記載の方法の少なくとも1つを実行する。実行されるべきアクションを指定する命令（逐次的またはそれ以外）の集合を実行することができる任意のプロセッサが含まれる。よって、一例は一つまたは複数のプロセッサを含む典型的な処理システムである。各プロセッサは、CPU、グラフィック処理ユニット、プログラマブルDSP装置の一つまたは複数を含んでいてもよい。処理システムはさらに、メインRAMおよび／またはスタティックRAMおよび／またはROMを含むメモリ・サブシステムを含んでいてもよい。構成要素間で通信するためのバスサブシステムが含まれてもよい。処理システムはさらに、たとえばネットワークによって結合された諸プロセッサをもつ分散式の処理システムであってもよい。処理システムがディスプレイを必要とする場合、そのようなディスプレイが含まれてもよい。たとえば、液晶ディスプレイ（LCD）または陰極線管（CRT）ディスプレイである。主導のデータ入力が必要とされる場合、処理システムは、キーボードのような英数字入力ユニット、マウスのようなポインティング制御装置などの一つまたは複数として入力装置を含んでいてもよい。処理システムは、ディスクドライブユニットのような記憶システムをも包含してもよい。いくつかの構成の処理システムは、音出力装置およびネットワーク・インターフェース装置を含んでいてもよい。よって、メモリ・サブシステムは、コンピュータ読み取り可能な担体媒体を含み、該媒体は、一つまたは複数のプロセッサによって実行されると、本明細書に記載された方法の一つまたは複数を実行させる一組の命令を含んでいる。方法がいくつかの要素、たとえば、いくつかのステップを含む場合、特に断わりのない限り、そのような要素の順序付けは含意されないことに留意されたい。ソフトウェアは、ハードディスク内に存在してもよく、あるいは、コンピュータ・システムによるその実行中、完全にまたは少なくとも部分的に、RAM内におよび／またはプロセッサ内に存在してもよい。よって、メモリおよびプロセッサはまた、コンピュータ読み取り可能なコードを担持するコンピュータ読み取り可能な担体媒体を構成する。

代替的な例示的実施形態では、前記一つまたは複数のプロセッサは、スタンドアローン装置として動作するか、あるいは、他のプロセッサに接続、たとえばネットワーク接続されてもよく、ネットワーク接続された展開では、前記一つまたは複数のプロセッサは、サーバー‐ユーザー・ネットワーク環境におけるサーバーまたはユーザーマシンの資格で動作してもよく、または、ピアツーピアまたは分散ネットワーク環境におけるピアマシンとして動作してもよい。前記一つまたは複数のプロセッサは、パーソナルコンピュータ（PC）、タブレットPC、パーソナルデジタルアシスタント（PDA）、セルラー電話、ウェブアプライアンス、ネットワークルータ、スイッチまたはブリッジ、または、そのマシンによって実行されるべきアクションを指定する一組の命令（逐次的またはその他）を実行することができる任意のマシンを形成することができる。

「機械／マシン」という用語は、本明細書で議論される方法論のいずれか一つまたは複数を実行するための命令の集合（または複数の集合）を個別にまたは合同して実行する機械の任意の集まりを含むとも解釈されることに留意されたい。

このように、本明細書に記載される各方法のある例示的な実施形態は、命令の集合、たとえば、一つまたは複数のプロセッサ、たとえば、ウェブサーバー構成の一部である一つまたは複数のプロセッサ上で実行するためのコンピュータ・プログラムを担持するコンピュータ読み取り可能な担体媒体の形である。よって、当業者には理解されるであろうように、本開示の例示的な実施形態は、方法、特殊目的装置のような装置、データ処理システムのような装置、またはコンピュータ読み取り可能な担体媒体、たとえば、コンピュータ・プログラム・プロダクトとして具現されうる。コンピュータ読み取り可能な担体媒体は、一つまたは複数のプロセッサ上で実行されたときに該プロセッサに方法を実施させる命令の集合を含むコンピュータ読み取り可能なコードを担持する。よって、本開示の諸側面は、方法、完全にハードウェアの例示的な実施形態、完全にソフトウェアの例示的な実施形態、またはソフトウェアとハードウェアの側面を組み合わせた例示的な実施形態の形をとることができる。さらに、本開示は、媒体内に具現されたコンピュータ読み取り可能なプログラムコードを担持する担体媒体（たとえば、コンピュータ読み取り可能な記憶媒体上のコンピュータ・プログラム・プロダクト）の形をとることができる。

ソフトウェアは、さらに、ネットワーク・インターフェース装置を介してネットワークを通じて送受信されてもよい。担体媒体は、ある例示的な実施形態では単一の媒体であるが、用語「担体媒体」は、命令の一つまたは複数の集合を記憶する単一の媒体または複数の媒体（たとえば、中央集中式のまたは分散式のデータベース、および／または関連するキャッシュおよびサーバー）を含むと解されるべきである。用語「担体媒体」はまた、前記プロセッサの一つまたは複数による実行のための、前記一つまたは複数のプロセッサに本開示の方法論のいずれか一つまたは複数を実行させる命令の集合を記憶、エンコードまたは担持することができる任意の媒体を含むとも解されるべきである。担体媒体は、限定されるものではないが、不揮発性媒体、揮発性媒体、および伝送媒体を含む多くの形をとることができる。不揮発性媒体は、たとえば、光ディスク、磁気ディスク、および磁気光学ディスクを含む。揮発性媒体は、メインメモリのようなダイナミックメモリを含む。伝送媒体は、バスサブシステムを構成するワイヤを含む、同軸ケーブル、銅線および光ファイバーを含む。伝送媒体は、電波および赤外線データ通信の間に発生されるような、音波または光波の形をとることもできる。たとえば、「担体媒体」という用語は、固体メモリ、光学および磁気媒体において具現されたコンピュータ・プロダクト；少なくとも1つのプロセッサまたは一つまたは複数のプロセッサによって検出可能な伝搬信号を担持し、実行時に方法を実装する命令の集合を表す媒体；および前記一つまたは複数のプロセッサの少なくとも1つのプロセッサによって検出可能な、命令の集合を表す伝搬信号を担う、ネットワーク内の伝送媒体を含むが、これらに限定されない。

論じられた諸方法のステップは、ある例示的な実施形態では、記憶装置に記憶された命令（コンピュータ読み取り可能なコード）を実行する処理（たとえばコンピュータ）システムの適切なプロセッサ（単数または複数）によって実行されることが理解されよう。本開示は、いかなる特定の実装やプログラミング技法にも限定されず、本開示は、本明細書に記載される機能性を実施するための任意の適切な技法を用いて実装されうることも理解されるであろう。本開示は、特定のプログラミング言語またはオペレーティングシステムに限定されない。

本開示を通じ、「一つの例示的な実施形態」、「いくつかの例示的な実施形態」、または「ある例示的な実施形態」への言及は、その例示的な実施形態に関連して記載された特定の特徴、構造または特性が本開示の少なくとも一つの例示的な実施形態に含まれることを意味する。よって、本開示を通じたさまざまな箇所における「一つの例示的な実施形態において」、「いくつかの例示的な実施形態において」または「ある例示的な実施形態において」という句の出現は、必ずしもすべてが同じ実施形態を指すものではない。さらに、特定の特徴、構造または特性は、本開示から当業者に明らかなように、一つまたは複数の例示的な実施形態において、任意の好適な仕方で組み合わされてもよい。

本明細書中で使用されるところでは、共通の対象を記述するための順序形容詞「第1の」、「第2の」、「第3の」などの使用は、単に、同様の対象の異なるインスタンスが言及されていることを示すのであり、そのように記述される対象が、時間的に、空間的に、ランク付けにおいて、または他の任意の仕方で、所与のシーケンスになければならないことを意味することは意図されていない。

下記の特許請求の範囲および本明細書中の説明において、含む、からなる、または有するといった用語は、記載される要素／特徴を少なくとも含むが他のものを除外しないことを意味するオープンな用語である。よって、特許請求の範囲において使用される場合、含む／有するの用語は、列挙される手段または要素またはステップに限定されるものとして解釈されるべきではない。たとえば、AおよびBを有する装置という表現の範囲は、要素AおよびBのみからなる装置に限定されるべきではない。本明細書で使用される含む、または含んでいる、または包含するといった用語もいずれも、記載される要素／特徴を少なくとも含むが他のものを除外しないことを意味するオープンな用語である。よって、含むは、有すると同義であり、有するを意味する。

本開示の例示的な実施形態の上述の説明では、開示の流れをよくし、さまざまな発明的側面の一つまたは複数の理解を助ける目的で、本開示のさまざまな特徴が、単一の例示的な実施形態、図、またはその説明にまとめられることがあることが理解されるべきである。しかしながら、この開示方法は、クレームが各クレームにおいて明示的に記載されているよりも多くの特徴を必要とするという意図を反映するものと解釈されるべきではない。むしろ、以下の特許請求の範囲が反映するように、本発明の側面は、単一の前述の開示された例示的な実施形態のすべての特徴よりも少ないものにある。よって、本説明に続くクレームは、本明細書に明示的に組み込まれ、各クレームが本開示の別個の例示的な実施形態としてそれ自体で自立する。

さらに、本明細書に記載されるいくつかの例示的な実施形態は、他の例示的な実施形態に含まれるいくつかの特徴を含み、他の例示的な実施形態に含まれる他の特徴は含まないが、異なる例示的な実施形態の特徴の組み合わせは、当業者に理解されるように、本開示の範囲内であり、異なる例示的な実施形態を形成することが意図されている。たとえば、以下の請求項では、請求項に記載された例示的な実施形態の任意のものが、任意の組み合わせで使用できる。

本明細書に提供される説明において、多数の個別的な詳細が記載されている。しかしながら、本開示の例示的な実施形態は、これらの個別的な詳細なしで実施されてもよいことが理解される。他の例では、周知の方法、構造および技術は、本稿の理解を不明瞭にしないために、詳細には示されていない。

よって、開示の最良の態様であると考えられるものが記載されてきたが、当業者は、開示の精神から逸脱することなく、それに他のさらなる修正がなされてもよく、本開示の範囲にはいるすべてのそのような変更および修正を特許請求することが意図されていることを認識するであろう。たとえば、上記で与えられた公式があったとすれば、それは単に使用されうる手順を表すにすぎない。ブロック図から機能が追加または削除されてもよく、機能性ブロック間で動作が交換されてもよい。本開示の範囲内で、記載された方法にステップが追加または削除されてもよい。

本発明のさまざまな側面は、以下の箇条書き例示的実施形態（enumerated example embodiment、EEE）から理解されうる。
〔EEE１〕
畳み込みニューラルネットワーク（CNN）ベースの発話源分離のための方法であって、当該方法は：
（a）もとのノイズのある発話信号の時間‐周波数変換の複数のフレームを提供するステップと；
（b）前記複数のフレームの時間‐周波数変換を複数の並列な畳み込み経路を有する集約マルチスケールCNNに入力するステップと；
（c）前記複数のフレームの入力時間‐周波数変換から、各並列な畳み込み経路によって特徴を抽出し出力するステップと；
（d）前記並列な畳み込み経路の出力の集約された出力を得るステップと；
（e）前記集約された出力に基づいて、前記もとのノイズのある発話信号から発話を抽出するための出力マスクを生成するステップとを含む、
方法。
〔EEE２〕
前記もとのノイズのある発話信号は、ハイピッチ、アニメ、および他の異常な発話のうちの一つまたは複数を含む、EEE１に記載の方法。
〔EEE３〕
前記複数のフレームの時間‐周波数変換は、前記集約マルチスケールCNNに入力する前に、2D畳み込み層に、その後、漏洩整流線形ユニット（LeakyRelu）にかけられる、EEE１または２に記載の方法。
〔EEE４〕
ステップ（d）において集約された出力を得ることが、さらに、前記並列な畳み込み経路のそれぞれの出力に重みを適用することを含む、EEE１ないし３のうちいずれか一項に記載の方法。
〔EEE５〕
異なる重みが、発話および／またはオーディオ・ドメイン知識と、トレーニング・プロセスから学習されたトレーニング可能なパラメータの一つまたは複数に基づいて、前記並列な畳み込み経路のそれぞれの出力に適用される、EEE４に記載の方法。
〔EEE６〕
ステップ（d）において前記集約された出力を得ることが、前記並列な畳み込み経路の重み付けされた出力を連結することを含む、EEE４または５に記載の方法。
〔EEE７〕
ステップ（d）において集約された出力を得ることが、前記並列な畳み込み経路の重み付けされた出力を加算することを含む、EEE４または５に記載の方法。
〔EEE８〕
ステップ（c）において、前記並列な畳み込み経路のそれぞれによって、発話高調波特徴が抽出されて、出力される、EEE１ないし７のうちいずれか一項に記載の方法。
〔EEE９〕
当該方法がさらに、（f）前記出力マスクを後処理するステップをさらに含む、EEE１ないし８のうちいずれか一項に記載の方法。
〔EEE１０〕
前記出力マスクは、1フレームのスペクトル絶対値マスクであり、前記出力マスクの後処理は、
（i）前記出力マスクを[0,φ]に制限するステップであって、φはトレーニング・データ内の目標マスクの統計的解析に従って設定される、ステップ；
（ii）現在のフレームの平均マスクがεより小さい場合には、前記出力マスクを0に設定するステップ；
（iii）入力がゼロである場合には、前記出力マスクをゼロに設定するステップ；または
（iv）J*Kメジアンフィルタリングするステップ
のうちの少なくとも1つを含む、EEE９に記載の方法。
〔EEE１１〕
前記出力マスクは、1フレームのスペクトル絶対値マスクであり、当該方法は、（g）前記出力マスクと前記もとのノイズのある発話信号の絶対値スペクトルとを乗算し、ISTFTを実施し、wav信号を取得するステップをさらに含む、EEE１ないし１０のうちいずれか一項に記載の方法。
〔EEE１２〕
ステップ（e）における前記出力マスクの生成は、前記集約された出力に対して、カスケード化されたプーリングを適用することを含む、EEE１ないし１１のうちいずれか一項に記載の方法。
〔EEE１３〕
前記カスケード化されたプーリングは、畳み込み層およびプーリング処理の対を実行することの一つまたは複数のステージを含んでいてもよく、前記一つまたは複数のステージの後に最後の畳み込み層が続く、EEE１２に記載の方法。
〔EEE１４〕
前記カスケード化されたプーリングの後に平坦化演算が実行される、EEE１２または１３に記載の方法。
〔EEE１５〕
前記プーリング処理として、平均プーリング処理が実行される、EEE１２ないし１４のうちいずれか一項に記載の方法。
〔EEE１６〕
前記CNNの前記複数の並列な畳み込み経路のうちの各並列な畳み込み経路は、L個の畳み込み層を含んでおり、Lは自然数≧1であり、L層のうちのl番目の層は、l＝1…Lとして、N_l個のフィルタを有する、EEE１ないし１５のうちいずれか一項に記載の方法。
〔EEE１７〕
各並列な畳み込み経路について、1番目の層におけるフィルタの数N_lは、N₁=l×N₀によって与えられ、N₀は所定の定数≧1である、EEE１６に記載の方法。
〔EEE１８〕
前記フィルタのフィルタ・サイズは、それぞれの並列な畳み込み経路内では同じである、EEE１６または１７に記載の方法。
〔EEE１９〕
前記フィルタのフィルタ・サイズは、異なる並列な畳み込み経路の間で異なる、EEE１８に記載の方法。
〔EEE２０〕
所与の並列な畳み込み経路について、前記フィルタは、n*nのフィルタ・サイズを有する、または前記フィルタは、n*1および1*nのフィルタ・サイズを有する、EEE１９に記載の方法。
〔EEE２１〕
前記フィルタ・サイズは、特徴抽出を実施するための高調波長に依存する、EEE１９または２０に記載の方法。
〔EEE２２〕
所与の並列な畳み込み経路について、前記L個の畳み込み層のそれぞれにおいて畳み込み演算を実行する前に、前記入力がゼロ・パディングされる、EEE１６ないし２１のうちいずれか一項に記載の方法。
〔EEE２３〕
所与の並列な畳み込み経路について、その並列な畳み込み経路の諸層のうちの少なくとも1つの層の諸フィルタは、拡張された2D畳み込みフィルタである、EEE１６ないし２２のうちいずれか一項に記載の方法。
〔EEE２４〕
その並列な畳み込み経路の諸層のうちの前記少なくとも1つの層の諸フィルタの拡張操作は、周波数軸上のみで実行される、EEE２３に記載の方法。
〔EEE２５〕
所与の並列な畳み込み経路について、その並列な畳み込み経路の2つ以上の層の諸フィルタは、拡張された2D畳み込みフィルタであり、該拡張された2D畳み込みフィルタの拡張因子は、層番号lの増加とともに指数関数的に増加する、EEE２３または２４に記載の方法。
〔EEE２６〕
所与の並列な畳み込み経路について、拡張は、前記L個の畳み込み層のうちの第1の畳み込み層では（1,1）であり、該拡張は、前記L個の畳み込み層のうちの第2の畳み込み層では（1,2）であり、該拡張は、前記L個の畳み込み層のうちの第lの畳み込み層では（1,2^(l－1)）であり、該拡張は、前記L個の畳み込み層のうちの最後の層では（1,2^(L－1)）であり、ここで、(c,d)は、時間軸に沿ったcの拡張因子および周波数軸に沿ったdの拡張因子を示す、EEE２５に記載の方法。
〔EEE２７〕
所与の並列な畳み込み経路について、加えて、前記L個の畳み込み層のそれぞれにおいて非線形演算が実行される、EEE１６ないし２６のうちいずれか一項に記載の方法。
〔EEE２８〕
前記非線形演算は、パラメトリック整流線形ユニット（PRelu）、整流線形ユニット（Relu）、漏洩整流線形ユニット（LeakyRelu）、指数線形ユニット（Elu）、およびスケーリングされた指数線形ユニット（Selu）のうちの一つまたは複数を含む、EEE２７に記載の方法。
〔EEE２９〕
前記整流線形ユニット（Relu）は、前記非線形演算として実行される、EEE２８に記載の方法。
〔EEE３０〕
畳み込みニューラルネットワーク（CNN）ベースの発話源分離のための装置であって、当該装置は、EEE１ないし２９のうちいずれか一項に記載の方法のステップを実行するように構成されたプロセッサを含む、装置。
〔EEE３１〕
処理能力を有する装置によって実行されたときに、EEE１ないし２９のうちいずれか一項に記載の方法を該装置に実行させるように適応された命令を有するコンピュータ読み取り可能な記憶媒体を備えるコンピュータ・プログラム・プロダクト。

Claims

畳み込みニューラルネットワーク（CNN）ベースの発話源分離のための方法であって、当該方法は：
もとのノイズのある発話信号の時間‐周波数変換の複数のフレームを提供するステップと；
前記複数のフレームの時間‐周波数変換を複数の並列な畳み込み経路を有する集約マルチスケールCNNに入力するステップであって、前記CNNの前記複数の並列な畳み込み経路のうちの各並列な畳み込み経路はL個の畳み込み層のカスケードを含み、Lは自然数＞1であり、L層のうちの第lの層はN_l個のフィルタを有し、l＝1…Lであり、それらのフィルタのフィルタ・サイズは、異なる並列な畳み込み経路の間で異なり、それらのフィルタのフィルタ・サイズは、それぞれの並列な畳み込み経路内では同じである、ステップと；
前記複数のフレームの入力時間‐周波数変換から、各並列な畳み込み経路によって特徴を抽出し出力するステップと；
前記並列な畳み込み経路の出力の集約された出力を得るステップと；
前記集約された出力に基づいて、前記もとのノイズのある発話信号から発話を抽出するための出力マスクを生成するステップとを含む、
方法。
前記複数のフレームの時間‐周波数変換は、前記集約マルチスケールCNNに入力する前に、2D畳み込み層に、その後、漏洩整流線形ユニット（LeakyRelu）にかけられる、請求項１に記載の方法。
前記集約された出力を得ることが、さらに、前記並列な畳み込み経路のそれぞれの出力に重みを適用することを含む、請求項１または２に記載の方法。
異なる重みが、発話および／またはオーディオ・ドメイン知識と、トレーニング・プロセスから学習されたトレーニング可能なパラメータの一つまたは複数に基づいて、前記並列な畳み込み経路のそれぞれの出力に適用される、請求項３に記載の方法。
前記集約された出力を得ることが、前記並列な畳み込み経路の重み付けされた出力を連結することを含む、請求項３または４に記載の方法。
前記集約された出力を得ることが、前記並列な畳み込み経路の重み付けされた出力を加算することを含む、請求項３または４に記載の方法。
特徴を抽出し出力する前記ステップにおいて、前記並列な畳み込み経路のそれぞれによって、発話高調波特徴が抽出されて、出力される、請求項１ないし６のうちいずれか一項に記載の方法。
当該方法がさらに、前記出力マスクを後処理するステップをさらに含む、請求項１ないし７のうちいずれか一項に記載の方法。
前記出力マスクは、1フレームのスペクトル絶対値マスクであり、前記出力マスクの後処理は、
前記出力マスクを[0,φ]に制限するステップであって、φはトレーニング・データ内の目標マスクの統計的解析に従って設定される、ステップ；
現在のフレームの平均マスクがεより小さい場合には、前記出力マスクを0に設定するステップ；
入力がゼロである場合には、前記出力マスクをゼロに設定するステップ；または
サイズJ*Kでメジアンフィルタリングするステップであって、Jは周波数次元におけるサイズを表す整数であり、Kは時間次元におけるサイズを表す整数である、ステップ
のうちの少なくとも1つを含む、請求項８に記載の方法。
前記出力マスクは、1フレームのスペクトル絶対値マスクであり、当該方法は、前記出力マスクと前記もとのノイズのある発話信号の絶対値スペクトルとを乗算し、ISTFTを実施し、wav信号を取得するステップをさらに含む、請求項１ないし９のうちいずれか一項に記載の方法。
前記出力マスクの生成は、前記集約された出力に対して、カスケード化されたプーリングを適用することを含む、請求項１ないし１０のうちいずれか一項に記載の方法。
前記カスケード化されたプーリングは、畳み込み層およびプーリング処理の対を実行することの一つまたは複数のステージを含んでいてもよく、前記一つまたは複数のステージの後に最後の畳み込み層が続く、請求項１１に記載の方法。
前記カスケード化されたプーリングの後に平坦化演算が実行される、請求項１１または１２に記載の方法。
前記プーリング処理として、平均プーリング処理が実行される、請求項１２に記載の方法。
各並列な畳み込み経路について、1番目の層におけるフィルタの数N_lは、N₁=l×N₀によって与えられ、N₀は所定の定数≧1である、請求項１ないし１４のうちいずれか一項に記載の方法。
所与の並列な畳み込み経路について、前記フィルタは、n*nのフィルタ・サイズを有する、または前記フィルタは、n*1および1*nのフィルタ・サイズを有する、請求項１ないし１５のうちいずれか一項に記載の方法。
所与の並列な畳み込み経路について、前記L個の畳み込み層のそれぞれにおいて畳み込み演算を実行する前に、前記入力がゼロ・パディングされる、請求項１ないし１６のうちいずれか一項に記載の方法。
所与の並列な畳み込み経路について、その並列な畳み込み経路の諸層のうちの少なくとも1つの層の諸フィルタは、拡張された2D畳み込みフィルタである、請求項１ないし１７のうちいずれか一項に記載の方法。
その並列な畳み込み経路の諸層のうちの前記少なくとも1つの層の諸フィルタの拡張操作は、周波数軸上のみで実行される、請求項１８に記載の方法。
所与の並列な畳み込み経路について、その並列な畳み込み経路の2つ以上の層の諸フィルタは、拡張された2D畳み込みフィルタであり、該拡張された2D畳み込みフィルタの拡張因子は、層番号lの増加とともに指数関数的に増加する、請求項１８または１９に記載の方法。
所与の並列な畳み込み経路について、拡張は、前記L個の畳み込み層のうちの第1の畳み込み層では（1,1）であり、該拡張は、前記L個の畳み込み層のうちの第2の畳み込み層では（1,2）であり、該拡張は、前記L個の畳み込み層のうちの第lの畳み込み層では（1,2^(l－1)）であり、該拡張は、前記L個の畳み込み層のうちの最後の層では（1,2^(L－1)）であり、ここで、(c,d)は、時間軸に沿ったcの拡張因子および周波数軸に沿ったdの拡張因子を示す、請求項２０に記載の方法。
所与の並列な畳み込み経路について、加えて、前記L個の畳み込み層のそれぞれにおいて非線形演算が実行される、請求項１ないし２１のうちいずれか一項に記載の方法。
前記非線形演算は、パラメトリック整流線形ユニット（PRelu）、整流線形ユニット（Relu）、漏洩整流線形ユニット（LeakyRelu）、指数線形ユニット（Elu）、およびスケーリングされた指数線形ユニット（Selu）のうちの一つまたは複数を含む、請求項２２に記載の方法。
前記整流線形ユニット（Relu）は、前記非線形演算として実行される、請求項２３に記載の方法。
畳み込みニューラルネットワーク（CNN）ベースの発話源分離のための装置であって、当該装置は、請求項１ないし２４のうちいずれか一項に記載の方法を実行するように構成されたプロセッサを含む、装置。
処理能力を有する装置によって実行されたときに、請求項１ないし２４のうちいずれか一項に記載の方法を該装置に実行させるように適応された命令を有するコンピュータ読み取り可能な記憶媒体を備えるコンピュータ・プログラム・プロダクト。