JP2023542431A

JP2023542431A - 階層的音源分離のためのシステムおよび方法

Info

Publication number: JP2023542431A
Application number: JP2023539220A
Authority: JP
Inventors: ウィヘルン，ゴードン; ル・ルー，ジョナタン; マニロウ，イーサン
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2020-09-29
Filing date: 2021-06-02
Publication date: 2023-10-06
Also published as: US20220101869A1; EP4004916A1; CN116194989A; US11475908B2; WO2022070515A1; EP4004916B1

Abstract

音声処理システムは、音声混合物を処理して、音声混合物中に存在する音源のセットの少なくともサブセットの推定を出力するようにトレーニングされたニューラルネットワークを記憶するためのメモリを含む。音源は、親音源がそれの１つ以上の子音源の混合物を含むように、音源のセットに対して親子階層を実施する階層的制約を受ける。サブセットは、親音源と、それの子音源のうちの少なくとも１つとを含む。本システムはさらに、ニューラルネットワークを使用して、受信された入力音声混合物を処理して、音源のサブセットと、親子階層に従ってそれらの相互関係とを推定するためのプロセッサを備える。システムはさらに、抽出された音源およびそれらの相互関係をレンダリングするよう構成される出力インターフェイスを含む。

Description

本開示は、概して音声処理に関し、より詳細には、階層的音源分離のためのシステムおよび方法に関する。

音源分離の分野では、深層学習技術の導入に伴う顕著な性能改善が見られており、最も顕著なのは、音声強調、音声分離、および音楽分離の分野である。これらの技術は、音源の概念が明確に定義されている場合に成功しており、音声強調または分離の場合、ターゲットは常に単一の話者の音声（スピーチ）として定義される。しかしながら、現実世界のシナリオでは、必ずしも十分に定義されているとは限らない複数の音源が音源分離のために考慮される必要があるため、現実世界のシナリオは、音源の、より複雑な定義を有し得る。

例えば、音楽分離タスクでは、ターゲット音源を構成するものを判断することは明確に定義されていない。歌手が非ボーカルバックグラウンド音楽から分離される歌声分離のようなよく研究された問題でも、「歌声」というものの定義はやや混乱している。多くの人気のある楽曲は、リードボーカル部分、場合によってはいくつかの追加のバックグラウンドボーカル部分、および時には追加のボーカル効果トラックを含むことが多い。これは単純な事例であり、シンセサイザまたはギターのように、より多様な可能な音質を有する楽器カテゴリが考慮されるとき、どのような特定の楽器部分を隔離するかを決定することは、判断がさらに困難になり得る。さらに進んで、各楽器を一意の音符またはコードインスタンスに分離したい場合がある。

現在、音源分離システムは、音源を構成するものの単一の概念に従って、所与の音声混合物中に存在する音源を分離し得る。しかしながら、いくつかの適用例では、そのような特定の音声分離は充分ではない。

いくつかの実施形態の目的は、音声混合物における音源の音声分離を達成することである。追加的または代替的に、いくつかの実施形態の目的は、複数の粒度レベルでの音源の分離である。追加的または代替的に、いくつかの実施形態の目的は、音声混合物に含まれる音源の相互関係を判断することである。例えば、いくつかの実施形態の目的は、聴覚的場面内で複数の音源を推定し、推定された複数の音源間の相互関係を同時に定義することである。加えて、または代替として、いくつかの実施形態の目的は、これらの２つの目的を達成するように、すなわち、音声混合物から、その音声混合物に含まれる異なる音源を抽出し、抽出された音源間の相互関係を提供するようにトレーニングされる、ニューラルネットワークを提供することである。

いくつかの実施形態は、抽出された音源の分類がいくつかの適用例に有益である、という認識に基づく。しかしながら、この分類は、絶対的であるだけでなく、相対的なものでもあり得、いくつかの実用的な適用例では、相対的分類は、絶対的分類を補完するかまたはそれと同等に重要であり得る。たとえば、いくつかの適用例では、ある音を、ギターから発せられるものとして分類することは、その音を、バイオリンと同様の発生原理で生成されるものとして分類することと同じくらい、重要であり得る。しかしながら、相互関係を定義するための異なる方法が無数にあり、これらの相互関係のすべてがニューラルネットワークをトレーニングするために使用され得るわけではない。

いくつかの実施形態は、人間が遭遇する多くの音が本質的に階層的である、という認識に基づく。例えば、あるハイハットノートは、多くのそのようなハイハットノートのうちの１つであり、それは、ドラムキットのいくつかの部分のうちの１つであり、そのドラムキット自体は、あるバンド内の多くの楽器のうちの１つであり、そのバンドは他の音が発生しているバーで演奏しているかもしれない。したがって、音源分離問題は、階層的として再構成され、類似音源をあるレベルではともに結合し、それらを他のレベルでは分離してもよい。音源分離問題を階層として再構成することは、ユーザが、所与の適用例のために階層の適切なレベルに応じて複数の態様で同じ混合物を分解することを可能にする。

特に、音源の階層的分類は、音源間の相互関係を定義するための自然で直感的な態様を提供する。実際、同じ階層的オントロジに属する任意の２つの音源間の相互関係は、その階層的オントロジを表すグラフにおいてそれらを接続する最短経路によって定義することができる。さらに、異なる音源間の階層的関係は、共同抽出および相互分類のためにニューラルネットワークをトレーニングするのに適した方法で定義され得る。たとえば、いくつかの実施形態は、推定された複数の音源間の関係は音声プロパティに基づく音源の階層的構造の形態で定義されてもよい、という認識に基づく。階層を定義するために使用される音声プロパティは、適用例に依存してもよい。例えば、異なる高調波構造を使用して楽器の階層を判断してもよい。

そのために、いくつかの実施形態は、音声プロパティのオントロジに対する階層的制約のもと、音声混合物から、複数の音源を抽出し、抽出された音源の親子階層を実施するよう、ニューラルネットワークをトレーニングする。本明細書で使用される場合、音声プロパティのオントロジに対する階層的制約は、親子階層における親音源の音声プロパティのセットが、それの子らの音声プロパティのセットを含むことを実施する。したがって、親の音声プロパティのセットは、各音声プロパティについて、それの属性のセットが、その音声プロパティについての子らの属性のセットの和集合であり、属性のセットは、その音声プロパティが取り得る値のセットであるようになっている。例えば、電気および音響は、音生成のプロパティの属性である。音声プロパティは、異なる適用例に対して異なり得る。音声プロパティの例は、音を生成する物理的プロパティ、信号特性（例えば、音が高調波振動数構造を有するかどうか）、または音の共起を示すコンテキスト情報のうちの１つまたは組合せを含む。

音声プロパティに対する階層的制約を使用して階層的オントロジを定義することは、ニューラルネットワークのトレーニング中にこれらの制約を満たすことを保証することを可能にする。実際、親の音声プロパティが子の音声プロパティを含むことによって表される階層的制約は、微分可能な態様で数学的に定義され、したがって、トレーニング中に逆伝播を介して使用され得る。このようにして、階層的制約を受ける音源を抽出するようにトレーニングされたニューラルネットワークは、２つの所望のタスクを同時に実行することができる。

加えて、いくつかの実施形態は、音声プロパティに対する階層的制約を伴って二重目的のためにニューラルネットワークをトレーニングすることはさらなる技術的利益を有する、という驚くべき観察に基づく。例えば、そのようなトレーニングは、二重目的の音源分離を達成するために、１つの音源分離目的のみを有するニューラルネットワークをトレーニングするために必要とされるであろう、より少ないトレーニングデータを必要としてもよい。加えて、複数レベルの音源分離のためにニューラルネットワークをトレーニングすることは、各レベルにおける分離タスクに関して、性能の質において、相乗効果を達成する。いくつかの実施形態は、そのような相乗効果は、階層的オントロジの異なるレベルに対する同じトレーニングデータサンプルの再利用性に起因して達成される、という直感的洞察に基づく。すなわち、オントロジの特定のレベルをトレーニングするために使用されるトレーニングデータサンプルは、オントロジの他のレベルでの分離にも影響を及ぼす共有パラメータのトレーニングに間接的に関与する。

いくつかの例示的な実施形態では、階層的楽器分離のプロセスは、特定の楽器（ギターなど）を分離することに基づく。いくつかの追加または代替の実施形態では、階層的楽器分離のプロセスは、ユーザが供給する音声例に従って何を分離するかの判断に基づく。いくつかの実施形態では、階層的楽器分離のプロセスは、トレーニングデータが階層の細粒度レベルに制限されるときでさえ、すべての階層レベルの分離に基づく。特に、楽器分離例は、明確性のために提供され、異なる実施形態の範囲を限定することを意図しない。種々の実施形態は、異なる種類の音声混合物、音源分離、および相互分類に適用可能である。

いくつかの実施形態は、所与の音声混合物から分離された音源が、音生成オブジェクトの階層的順序で配列されることができ、階層の最上位レベルは、広いグループ（例えば中音域の弦楽器）に対応し、下位レベルは、より具体的（例えばアコースティックギター）である、という認識に基づく。音源分離に関して、聴覚的階層は、階層内のより高いレベルにおける音源が階層のより低いレベルにおける音源の混合物から構成されるように、定義されてもよい。各音源ノードは、潜在的に、子音源にさらに分離され、その兄弟と組み合わせられて親音源を形成することができる。

いくつかの実施形態は、音源別分離（source-specific separation）（ＳＳＳ）ネットワークが、単一のネットワークにおいて、所与の聴覚的混合から複数の音源を推定するよう実現されてもよい、という認識に基づく。マスク推論ネットワークは、単一のターゲット音源ｃについて、実数値マスクＭを、マスクから得られる音源推定値と基準スペクトログラムとの間の何らかの歪み尺度を最小化することによって、推定することを試みる。そのために、いくつかの実施形態では、ＳＳＳネットワークは、切捨位相鋭敏近似（truncated phase sensitive approximation：ｔＰＳＡ）を使用する。ＳＳＳネットワークは、ターゲット音源ごとにマスク（例えばＮ個のマスク）のセットを出力する。

したがって、いくつかの実施形態では、複数の音源は、階層的な順序で配列される。そのために、いくつかの実施形態は、ネットワークが階層の複数のレベルを一度に出力するようにトレーニングされるマルチレベル戦略を実現する。例えば、単一のネットワークが、Ｎ個のマスクを、階層のＮ個のレベルの各々に対して１つ、出力してもよい。これは、ネットワークの層を合同でトレーニングし、階層を下る経路全体（例えば、［弦／鍵］→［ギター］→［クリーンなギター］）についてネットワークをトレーニングすることを可能にする。したがって、単一のネットワークは、マスクについての学習された知識を活用して、階層に沿った別のマスクに対するその推定を強化および改善することができてもよい。

いくつかの実施形態は、階層的音源分離のためにＳＳＳネットワークを使用するだけでは、楽器階層において多くの楽器を捕捉することは可能ではない場合がある、という認識に基づく。階層内で異なる楽器間の関係を捕捉するために、単一のネットワークでの異なるレベルでの複数の楽器の分離が必要とされる場合がある。そのために、例示による問い合わせ（ＱＢＥ）ネットワークを採用する階層的音声分離アルゴリズムが使用されてもよい。ＱＢＥネットワークは、入力として、混合物と、混合物から分離する所望の音源の例とを取り込む。これを階層的な例に拡張することによって、音源分離のための音声（例えば楽器）階層の音源全体をモデル化することができる。代替的に、クエリに対する条件付けの代わりに、リーフノードラベル上で分離を条件付けることができ、条件付き音源分離法の階層的拡張をもたらす。いくつかの実施形態では、階層的ＱＢＥは２つのネットワーク、つまり、ある入力クエリＱについてクエリアンカーＡｑを計算するクエリネットと、混合物とクエリアンカーＡｑとを入力として取り込み、階層のクエリＱと同じノードにあるターゲット音源に対してマスクＭを生成するマスキングネットとを含む。

いくつかの実施形態は、階層的ＱＢＥシステムは、ターゲット音源に基づいて切捨位相鋭敏近似（ｔＰＳＡ）目的関数を最小化するようトレーニングされてもよく、ネットワークをトレーニングするために使用されるターゲット音源は、クエリと階層内の所与のレベルとの両方によって判断される、という認識に基づく。トレーニングおよび検証のために使用される音声サンプルは、階層的に分離されるべき音のタイプに依存してもよい。例えば、楽器の階層的分離の場合、ネットワークは、ギター、ピアノなどの異なる楽器の音声サンプルでトレーニングされてもよい。

いくつかの実施形態は、混合物の成分が何らかの階層に存在する、という理解に基づいており、したがって、混合物の構造についての知識を利用して、ネットワークに制約を与えることができる。例えば、異なる楽器間の関係は、楽器の階層順序に関して予め定義されてもよい。一実施形態では、この関係は、音声分離のためにマルチレベル階層ネットワークによって生成されるマスクのセットが階層と同じ構造に従うように、すなわち、より高いレベルのマスクはより低いレベルのマスクから構成されるように、捕捉される。しかしながら、これは、ネットワークが階層内のあらゆるノードに対してマスクを出力するという状況をもたらす可能性があり、これは、充分に現実的な階層に対しては実行不可能である可能性がある。したがって、階層内のすべてのノードに対して出力を必要としない階層的制約を課し得る。いくつかの実施形態では、この階層的制約は、階層内における、より高いレベルでのマスクが、より低いレベルでのマスクと少なくとも同じ量のエネルギーを配分しなければならないことを必要とする。その結果、階層における親音源は、それの子音源の混合物である。

したがって、ある実施形態は、音声処理システムを開示する。音声処理システムは、音声混合物を処理して、音声混合物中に存在する音源のセットの少なくともサブセットの推定を出力するようにトレーニングされたニューラルネットワークを記憶するよう構成されるメモリを備え、音源は、音源のセットに対して親子階層を実施する階層的制約を受け、親子階層内の親音源がそれの１つ以上の子音源の混合物を含むようにされ、サブセットは、少なくとも１つの親音源と、それの子音源のうちの少なくとも１つとを含み、音声処理システムはさらに、入力音声混合物を受信するよう構成される入力インターフェイスと、ニューラルネットワークを使用して入力音声混合物を処理して、音源のサブセットの推定値、および親子階層に従ったそれらの相互関係を抽出するよう構成されるプロセッサと、抽出された音源およびそれらの相互関係をレンダリングするよう構成される出力インターフェイスとを備える。

別の実施形態は、音声処理方法を開示し、本方法は、音声混合物を処理して、音声混合物中に存在する音源のセットの少なくともサブセットの推定を出力するようにトレーニングされたニューラルネットワークを記憶するよう構成されるメモリに結合されるプロセッサを用い、音源は、音源のセットに対して親子階層を実施する階層的制約を受け、親子階層内の親音源がそれの１つ以上の子音源の混合物を含むようにされ、サブセットは、少なくとも１つの親音源と、それの子音源のうちの少なくとも１つとを含み、プロセッサは、本方法を実現する記憶された命令と結合され、命令は、プロセッサによって実行されると、本方法のステップを実行し、ステップは、入力音声混合物を受信するステップと、ニューラルネットワークを使用して入力音声混合物を処理して、音源のサブセットの推定値、および親子階層に従ったそれらの相互関係を抽出するステップと、抽出された音源およびそれらの相互関係をレンダリングするステップとを含む。
定義

本明細書で使用される場合、音声プロパティは、音声信号を記述する属性のセットである。所与のプロパティに対して共通の属性を有する音声信号は、一緒にグループ化することができる。音声プロパティの例は、高周波数優勢、中音域優勢、高調波周波数構造などの属性を有する周波数コンテンツなどの信号特性、弦楽器、音響、電気などの属性を有する音を生成する物理的メカニズム、または屋内、屋外など、音が典型的にどこで発生するかを示すコンテキスト情報を含む。

本明細書で使用される場合、音声階層は、親子関係を有する音源のグループであり、親のプロパティは、各プロパティについて、それの属性のセットが、そのプロパティに対する子らの属性のセットの和集合であり、属性のセットは、そのプロパティがとることができる値のセットであるようになっている。

本明細書で使用される場合、音源は、所与の適用例のために一緒に有意義にグループ化することができる１つ以上の音生成オブジェクトからの振動からなる音声信号である。音源の例は、ギター上の単一の弦、ギター全体、または楽曲で演奏されるすべてのギターであり得る。

本明細書で使用される場合、音声混合物は、複数の音生成オブジェクトからの振動から構成される音声信号であり、これらのオブジェクトのうちのいくつかは、所与のタスクについて関連しない場合がある。

本明細書で使用される場合、音声分離は、音声混合物から１つ以上の音源の信号を抽出するプロセスである。

本明細書で使用される場合、マスクは、例えばニューラルネットワークによって音声混合物から推定され、音声混合物から音源を抽出するために音声分離システムによって使用される、非線形時間－周波数フィルタである。典型的には、マスクは、音源がスペクトログラムの各時間－周波数ビンに存在する確率を推定する。

本明細書で使用される場合、階層的制約は、親子階層における親音源がそれの１つ以上の子音源を含むように、音源に対して親子階層を実施する。階層的制約は、音源分離の間、音源分離を実行するニューラルネットワークのトレーニングの間、またはその両方の間に実施されることができる。分離された音源は、親子階層においてノードに関係付けられる。このように、抽出された音源は、階層に従って相互に関係付けられる。特に、親子階層は、音源のセットについて予め定義されているが、音源抽出の間、音声混合物に存在する対象の音源のサブセットの推定のみが抽出される。

そのような関係をどのように実施するかにはいくつかの方法があり、したがって、階層的制約は異なる実施形態間で異なる。階層的制約は、親子階層を、直接的に、間接的に、またはそれらの組み合わせで、実施することができる。階層的制約の直接的実施の例は、音源の階層を、階層のリーフノードに対応するリーフ音源および階層の非リーフノードに対応する非リーフ音源として定義することと、音声分離の出力をノードの１つに直接マッチングすることとを含む。例えば、一実施形態は、リーフ音源のみを分離し、非リーフ音源を、それらの子リーフ音源を組み合わせることによって形成する。このように、親音源は、それらの子らの混合物であることが保証される。追加的または代替的に、一実施形態は、各後続の音源がすべての前の音源を含むように、親子階層における経路に従って音源のシーケンスを分離する。

階層的制約の間接的実施の例は、親子階層に従って音源の音声プロパティのエネルギーおよび／または値の関係を実施することを含む。例えば、ある実施形態は、音声混合物に適用されたときに対応する音源を抽出するマスクを推定する。この実施形態では、階層的制約は、親音源に対応するマスクのエネルギーが、それの子音源のいずれかに対応するマスクのエネルギー以上であることを実施する。追加的または代替的に、一実施形態は、親ノードの音声プロパティの値がそれの子らの対応する音声プロパティの値を含むことを保証する。例えば、いくつかの実現例では、親の音声プロパティは、各プロパティについて、それの属性のセットが、そのプロパティに対する子らの属性のセットの和集合であり、属性のセットは、そのプロパティがとることができる値のセットであるようになっている。

いくつかの実施形態では、階層的制約は、ネットワークをトレーニングするために使用されるトレーニングデータに対して実施され、ネットワークは、少なくとも親音源およびそれの子音源のうちの少なくとも１つを推定するようにトレーニングされ、親音源のためのグラウンドトゥルーストレーニングデータは、それの子音源のためのグラウンドトゥルーストレーニングデータの混合物であるようになっている。

例示的な一実施形態による、階層的音声分離のための音声処理システムのブロック図である。例示的な実施形態による、親音源と対応する子音源との間の相互関係を示す図である。ある例示的な実施形態による、音声処理システムによって、予め定義された階層から抽出される複数の経路を示す図である。一実施形態例による、親子階層においてレベルごとに音源を抽出する１つのネットワークを伴う音声処理システムを説明する図である。一実施形態例による、親子階層においてすべてのレベルで音源を抽出する１つのネットワークを伴う音声処理システムを説明する図である。例示的な実施形態による、音声処理システムにおけるニューラルネットワークの異なる構成要素を示す概略図であり、ネットワークは、音源別分離（ＳＳＳ）のためにトレーニングされる図である。例示的な実施形態による、音声処理システムにおけるニューラルネットワークの異なる構成要素を示す概略図であり、ネットワーク１０５は、例示による問い合わせ（ＱＢＥ）分離のためにトレーニングされる図である。例示的な実施形態による、例示による問い合わせ（ＱＢＥ）分離のためにトレーニングされたニューラルネットワークの異なる構成要素を示す概略図であり、問い合わせは入力ラベルとして提供される図である。例示的な実施形態による、ＱＢＥネットワークによる、複数の楽器の抽出、および抽出された複数の楽器間の相互関係を示す図である。本開示の例示的な実施形態による、入力音声混合物信号から複数の音源別音源を抽出するための音声処理システムのトレーニングを示すフロー図である。本開示の例示的な実施形態による、入力音声混合物信号から複数の音源を抽出するための音声処理システムのトレーニングを示すフロー図であり、抽出される音源は、第２のクエリ音声信号の内容、すなわち、例示による問い合わせ（ＱＢＥ）に基づく。本開示の例示的な実施形態による、単一チャネルマスク推論ネットワークアーキテクチャを示すブロック図である。例示的実施形態による、階層的単一楽器音源別分離（ＳＳＳ）ネットワークをトレーニングおよび試験するために使用される階層レベルの内容を示す表１を示す。例示的実施形態による、階層的ＳＳＳ（ギター）およびＱＢＥモデルに対するスケール不変音源対歪み比、またはＳＩ－ＳＤＲ（ｄＢ）、の改善を示す表２を示す。例示的な実施形態による、ＳＩ－ＳＤＲ（ｄＢ）に関して非階層的および階層的ＳＳＳならびにＱＢＥモデル結果を示す表３を示す。例示的実施形態による、（太い破線によって分離される）階層的ＳＳＳおよびＱＢＥモデルについて未処理の音声ミックス（「Ｍｉｘ」）を上回るＳＩ－ＳＤＲ改善（ｄＢ）を示す表４を示す。例示的な実施形態による、音声処理システムによる異常検出を示す図である。例示的な実施形態に従う、音声ズーミングアプリケーションで利用される階層的音声分離を示す。例示的な実施形態による、ズーム制御ノブ６０１を示し、ズーム制御ノブ６０１の位置が音声ズーミングのために混合重みに変換されるのを示す図である。いくつかの実施形態による、コンピュータベースの音声処理システムのブロック図を示す。例示的な実施形態による、入力音声混合物から複数の音源を抽出するために実現される方法のステップを示す図である。

以下の説明では、説明の目的で、本開示の完全な理解を促すために、多数の具体的な詳細が述べられる。しかしながら、本開示は、これらの具体的な詳細なしに実施されてもよいことは、当業者には明白であろう。他の例では、本開示を不明瞭にすることを回避するために、装置および方法がブロック図の形式でのみ示される。

本明細書および特許請求の範囲で用いられる場合、文言「例えば」、「例として」、「等」、ならびに動詞「備える」、「有する」、「含む」、およびそれらの他の動詞形は、１つ以上の構成要素または他の項目のリストとともに用いられる場合、各々オープンエンドと解釈されるべきであり、そのリストは、他の追加の構成要素または項目を排除するものと見なすべきではないことを意味する。「～に基づく」と言う文言は、少なくとも部分的に基づくことを意味する。さらに、本明細書で使用される表現および用語は、説明の目的のためであり、限定と見なされるべきではないことを理解される。この記載内で利用されるいかなる見出しも、便宜上のものにすぎず、法的または限定的な効果を有さない。

図１Ａは、例示的な実施形態による、階層的音声分離のための音声処理システム１０１のブロック図１００を示す。図１Ａは、音源分離のための提案された音声処理システム１０１の上位図を提供する。音声処理システム１０１は、入力音声混合物を取得する。入力音声混合物は、複数の異なる音源からの複数の音声信号を含む。例えば、入力音声混合物は、ギター、ピアノ、ドラムなどの複数の楽器の音を含んでもよい。別の実施形態では、入力音声混合物は、複数のエンジンの音、人間の複数の音、動物の複数の音、複数の自然音などを含んでもよい。本開示のいくつかの実施形態の目的は、入力音声混合物から複数の音源１１３ａ、１１３ｂ、１１３ｃ、および１１３ｄ（複数の音源１１３ａ～１１３ｄとも呼ばれる）を抽出し、同時に、抽出された複数の音源１１３ａ～１１３ｄの間の相互関係を判断することである。

そのために、音声処理システム１０１は、親子階層内の親音源がそれの１つ以上の子音源の混合物であるように、音源に対して親子階層を実施する階層的制約の下、音声混合物から音源を分離するようにトレーニングされるニューラルネットワーク１０５を記憶するよう構成されるメモリ１０３を備える。したがって、ニューラルネットワーク１０５は、入力音声混合物から、入力音声混合物に含まれる複数の音源信号を抽出する。さらに、入力音声混合物は、抽出された複数の音源信号に対応する複数の音源１１３ａ～１１３ｄの親子階層１１１を実施する階層的制約を受ける。抽出された複数の音源１１３ａ～１１３ｄは、音源の予め定義された階層１０７によって構成される音源の一部分のみに対応してもよい。複数の音源１１３ａ～１１３ｄは、音源の階層１０７において定義されるような階層的木構造において抽出され、階層的木構造は、少なくとも１つの祖父、少なくとも１つの親、および少なくとも１つの子（またはリーフノード）を含んでもよい。別の実施形態では、音声処理システム１０１は、さらに、少なくとも１つの祖父または少なくとも１つの親および少なくとも１つの子を含む階層経路を抽出する。

階層的制約は、子音源がその親音源に含まれる音声プロパティの少なくとも１つのセットを含むように、抽出された複数の音源１１３ａ～１１３ｄに制約を課してもよい。したがって、階層的制約は、親音源１１３ａの音声プロパティがそれの１つ以上の子音源１１３ｂ～１１３ｄの音声プロパティの値の和集合であるように、抽出された音源１１３ａ～１１３ｄの音声プロパティに階層を実施する。別の実施形態では、階層的制約は、子音源がそれらの親音源を決定するためにどのように混合されるかを定義してもよい。言い換えれば、親音源は、それの子音源の混合物を含む。

抽出された複数の音源１１３ａ～１１３ｄの親子階層１１１は、音源の階層１０７に基づいて判断される。いくつかの実施形態では、音源の階層１０７は、予め決定されており、入力音声混合物に関連付けられるすべての可能な音源のセットと、そのセット内の音源間の相互関係とを含む。音源のセットは、抽出されるよう必要とされる音源のタイプに依存する。例えば、ある音楽音源分離の適用例では、音源のセットは、アコースティックギター、電気ギター、ドラムなどの異なる楽器を含む。

入力音声混合物を受信することに応答して、音声処理システム１０１は、入力音声混合物をニューラルネットワーク１０５に提出する。ニューラルネットワーク１０５は、抽出された複数の音源の親子階層１１１に対応する音源を入力音声混合物から抽出し、抽出された複数の音源１１３ａ～１１３ｄの少なくとも一部分を、抽出された複数の音源１１３ａ～１１３ｄの親子階層に関する抽出された複数の音源１１３ａ～１１３ｄ間の相互関係とともにレンダリングする。ここで、１１３ａは、２つの子１１３ｂおよび１１３ｃを有する祖父音源ノードである。１１３ｂおよび１１３ｃは、兄弟である。さらに、１１３ｃは親音源ノードであり、親音源ノード１１３ｃは１つの子１１３ｄを有する。子音源ノード１１３ｂおよび１１３ｄは、親子階層１１１の最後の音源ノードであるので、リーフノードとも呼ばれる。階層的制約は、親音源（例えば１１３ａ）が、それのすべての子（例えば１１３ｂおよび１１３ｃ）および孫（例えば１１３ｄ）によって含まれる音声プロパティまたはエネルギーを含むことを保証する。したがって、親子階層における親音源は、それの１つ以上の子音源の混合物である。

いくつかの実施形態では、階層的制約は、ニューラルネットワーク１０５が１つ以上の子音源（例えばアコースティックギター音源）に割り当てるスペクトログラム内の任意の時間－周波数領域は、親音源（例えばすべてのギター）にも割り当てられなければならないことを実施する。具体的には、スペクトログラム内の各時間－周波数点について、階層的制約は、親音源についての出力が親音源および子音源からの出力の最大値であることを実施する。音源のセットは、適用例のタイプに依存する。例えば、ある音楽音源分離の適用例では、音源のセットは異なる楽器を含む。

ある例示的な実施形態では、複数の音源を抽出するために使用される音声プロパティのセットは、複数の音源の物理的プロパティと、複数の音源によって生成される入力音声混合物の信号特性と、入力音声混合物における音声の共起を示すコンテキスト情報とのうちの１つまたは組合せを含んでもよい。別の実施形態では、音声プロパティのセットは、入力音声混合物におけるいくつかのトーン成分、トーン対ノイズ比、およびケプストラムピーク振幅を含んでいてもよい。

図１Ｂは、例示的な実施形態による、親音源１１５と対応する子音源１１７との間の相互関係を示す。階層的制約は、親音源１１５が音声プロパティのセットを含むように、親音源１１５と子音源１１７との間の階層的相互関係を保証する。親音源１１５の音声プロパティのセットは、それの子らまたは子音源１１７の音声プロパティのセットを含む。親音源１１５の音声プロパティのセットは、各音声プロパティについて、それの属性のセットが、その音声プロパティについての子ら１１７の属性のセットの和集合であり、属性のセットは、その音声プロパティが取り得る値のセットであるようになっている。図１Ｂに示される例示的な実施形態では、親音源１１５はすべてのギターの音声信号に対応してもよい。親音源「ギター」は、電気ギター（子１）およびアコースティックギター（子２）に対応する属性のセットを含んでもよい。さらに、入力音声混合物から異なる音源を抽出するために、音声処理システム１０１は、最初に、ニューラルネットワーク１０５を使用して、入力音声混合物から親子階層１１１のリーフノードに対応する子音源のみを抽出してもよい。システム１０１は、さらに、親子階層１１１の親ノードの少なくとも１つの親音源を、（図１Ｂに示すように）親ノードにつながる親子階層上の１つ以上の複数の経路に従って子音源を混合することによって、再構築する。さらに、音声処理システム１０１はまた、異なるマスク（またはフィルタ）を使用することによって親音源から子音源を分離するように構成されてもよい。１つ以上の経路の詳細は、図１Ｃに関して以下で説明される。

別の実施形態では、抽出された複数の音源間の相互関係はまた、ユーザが、抽出された複数の音源から２つ以上の音源を組み合わせて、まったく新たな音声信号を生成することも可能にしてもよい。そのために、音声処理システム１０１は、異なる子音源に適用される異なる重みを使用して子音源を混合することによって、異なる音源を補間してもよい。異なる重みを使用して子音源を補間することに関する詳細は、図６Ａに関して以下に記載される。

いくつかの実施形態では、音声処理システム１０１は、抽出された経路の端部が少なくとも１つのターゲット音源を含むように、入力音声混合物に基づいて、予め定義された階層１０７から少なくとも１つの経路を抽出し、ターゲット音源からの音声信号は入力音声混合物に存在している。経路の詳細は、図１Ｃに関して以下に記載される。

図１Ｃは、例示的な実施形態による、音声処理システム１０１によって、予め定義された階層から抽出される、複数の経路（１２１、１２３）を示す。図１Ｃは、楽器に関連付けられる（予め定義された階層１０７と同様の）予め定義された階層を示す。この例では、予め定義された階層は４つのレベル（レベル１、レベル２、レベル３、およびレベル４）を含む。楽器の階層は、広いレベルから狭い（または特定の）レベルまで構成され、レベル１は最も広いレベルに対応し、レベル４は最も狭いレベルに対応する。さらに、広いレベルでの音源ノードは、複数の楽器の混合物音声信号を含み、最下位レベル（ここでは第４レベル）での音源ノードは、ギターやピアノ等の特定の楽器に対応する音声信号を含む。最初に、音声処理システム１０１は、入力音声混合物１１９を受信する。入力音声混合物１１９は、複数の楽器を使用して生成された音楽演奏を含む。

音楽演奏は、ギターおよびトランペットからの音声信号を、他の楽器からの音源とともに含む、と考える。入力音声混合物１１９を受信すると、音声処理システム１０１は、特定の音源を抽出するために、最も広いレベルから最も狭いレベルへの経路を形成する各レベルで入力音声混合物１１９をフィルタリングする。音声処理システム１０１は、抽出された経路に沿って音源を抽出してもよい。

たとえば、音声処理システム１０１は、経路１２１の端部にあるリーフノードがギターに対応するように、経路１２１を抽出してもよい。同様に、経路１２３の端部のリーフノードがトランペットに対応するように経路１２３を抽出してもよい。音声処理システム１０１は、経路全体をユーザに示してもよく、経路内の各音源ノードは、その音源ノードに含まれる音声信号で示されてもよい。例示的な実施形態では、システム１０１は、親音源ノード、兄弟音源ノード、および子音源ノードに、異なる識別を提供してもよく、それは、ユーザが入力音声混合物１１９に存在する異なる音源を容易に分析することを可能にしてもよく、ユーザが異なる音源を組み合わせてまったく異なる音声信号を作成することを可能にしてもよい。
聴覚的階層

本明細書で使用される場合、階層的制約は、親子階層における親音源がそれの１つ以上の子音源を含むように、音源に対して親子階層を実施する。階層的制約は、音源分離の間、音源分離を実行するニューラルネットワークのトレーニングの間、またはその両方の間に実施されることができる。分離された音源は、親子階層のノードに関連付けられる。このように、抽出された音源は、階層に従って相互に関係付けられる。

特に、親子階層は、音源のセットについて予め定義されているが、音源抽出の間、音声混合物に存在する対象の音源のサブセットの推定のみが抽出される。音源のサブセットは、事前に定義されるか、または実行時間において指定されることができる。いくつかの実施形態では、音源のサブセットは、ルートノードから開始してリーフノードまでの、音源のセットの親子階層上の経路に対応する。追加または代替として、音源のサブセットは、経路上の１つ以上の音源をスキップすることができ、および／または階層の他の経路からの音源を含むことができる。

音源分離中、音源は、トレーニングされたニューラルネットワークを用いて推定される。ニューラルネットワークは、様々な品質のトレーニングデータでトレーニングされるが、抽出された音源の推定値は、入力音声混合物の内容に基づいた異なる実行に対して変化し得る。しかしながら、階層的制約を実施するために、親音源の推定は、提供された入力音声混合物におけるそれの子の推定を含む。この包含はまた、いくつかの適用例に有用な音声プロパティの階層的関係を実施するであろう。例えば、いくつかの実施形態では、少なくとも１つの抽出された親音源の音声プロパティは、抽出された少なくとも１つの子音源の音声プロパティの和集合を含む。音源の音声プロパティの例は、スペクトル特性、コンテキスト情報、トーン成分、トーン対ノイズ比値、およびケプストラムピーク振幅の１つまたは組合せを含む。

いくつかの実施形態では、階層的制約は、ネットワークをトレーニングするために使用されるトレーニングデータに対して実施される。ネットワークは、少なくとも親音源およびそれの子音源のうちの少なくとも１つを推定するようにトレーニングされる。親音源のためのグラウンドトゥルーストレーニングデータは、それの子音源のためのグラウンドトゥルーストレーニングデータの混合物であるようになっている。このように、トレーニングされたニューラルネットワークの実行は、階層的関係を有する出力を生成する。そのような階層的関係、例えば相互関係は、異常検出、音声ズーミング等の後続処理によって活用することができる。

本開示のいくつかの実施形態では、抽出された複数の音源１１３ａ～１１３ｄ間の相互関係は、抽出された複数の音源１１３ａ～１１３ｄの各音源を、音生成オブジェクトの階層順に配置することによって得られる。音生成オブジェクトの階層において、階層の最上位レベルは広いグループに対応し、下位レベルはより特定的である。例えば、楽器の階層においては、階層の最上位レベルは中音域の弦楽器を含んでもよく、下位レベルはアコースティックギターを含んでもよい。さらに、音源分離に関して、聴覚的階層は、階層内のより高いレベルにおける音源が階層のより低いレベルにおける音源の混合物から構成されるように定義されてもよい。各音源ノードは、潜在的に、１つ以上の子音源にさらに分離され、その兄弟と組み合わせられて親音源を形成することができる。Ｌレベルを有する階層を考えると、Ｓ_ｌ，ｃは、階層レベルｌにおけるｃ番目の音源タイプノードを表し、ｌ＝１，...，Ｌである。リーフ音源タイプＳ_１，ｃのセットはさらなる音源タイプに分解できず、Ｓ_Ｌ，１は、階層の最上部における唯一の音源タイプであり、すべての音源タイプを含む、と仮定される。さらに、Ｃ_ｌ，ｃは、Ｓ_ｌ，ｃのレベルｌ－１における子音源のインデックスのセットを示す。階層は、以下のように定義することができる。

階層を下る経路は、開始音源タイプノードＳ_ａから下位レベルの宛先音源タイプノードＳ_ｂまでの音源タイプのシーケンスとして定義されてもよい。

いくつかの実施形態では、上記の式（１）を使用して定義される階層は、音声混合物ｘを分解するために使用されてもよい。音源タイプがＳ_ｌ，ｃであるｘにおける対応する音源成分をｓ_ｌ，ｃとし、同じタイプのすべての信号のサブミックスは単一の成分と見なされる。定義により、Ｓ_Ｌ，１＝ｘである。レベルｌにおける各ｃ番目の音源成分ｓ_ｌ，ｃは、ｌ＝２，...，Ｌの場合に、ｓ_{ｌ－１，ｃ’}が子音源タイプＳ_{ｌ－１，ｃ’}に属するすべての音源に対応する信号であるように、音源成分ｓ_{ｌ－１，ｃ’}に分解することができる。

簡潔にするために、和演算子は混合を表すとするが、混合プロセスは、信号の単純な合計よりも複雑であることが多い。

本開示のいくつかの実施形態では、楽器の混合物から構成される聴覚的階層が分析される。いくつかの実施形態は、階層的定式化が任意のタイプの音源コンテンツとの混合物に適用され得る、という認識に基づく。
階層的音源分離

非階層的設定では、音源分離は、ｃ＝１，...，Ｃについて、入力音声混合物のスペクトログラムＸ∈Ｃ^Ｆ×Ｔ内において所望の音源のセットを表す、Ｃ個の複素スペクトログラムＳ_ｃ∈Ｃ^Ｆ×Ｔを推定するものとして定式化することができる。この一般的な定式化においては、ｃ≠ｄの場合、音源Ｓ_ｃは音源Ｓ_ｄと何らかの関係を有する必要はない。いくつかの実施形態では、所与の入力音声混合物Ｘについて、提案される音声処理システム１０１は、所与の階層の下で階層分離アルゴリズムを使用する階層的音源分離システムとして実現され、１つ以上のサブミックスを抽出することを試みることができる。サブミックスの各々は、レベルｌにおいてなんらかの音源タイプＳ_ｌ，ｃに属するすべての音源に対応する。例えば、（図１Ｉに示すように）電気ギター、アコースティックギター、ピアノ、およびドラムを含む混合物からすべてのギター（アコースティックギターおよび電気ギター）を分離する。

図１Ｄは、一実施形態例による、親子階層１０７においてレベルごとに音源を抽出する１つのネットワークを伴う音声処理システム１０１を説明する図である。図１Ｄでは、ニューラルネットワーク１０５は、複数のニューラルネットワーク１０５ａ、１０５ｂ、および１０５ｃ（複数のニューラルネットワーク１０５ａ～１０５ｃとも呼ばれる）を備え、複数のニューラルネットワーク１０５ａ～１０５ｃの各ネットワークは、抽出された音源が階層的に配列されるように、音源ノード１１３ａ、１１３ｃ、１１３ｄをそれらの対応するレベルで抽出する。この場合、複数のニューラルネットワーク１０５ａ～１０５ｃの各ネットワークは、特定の音源を抽出するために別々にトレーニングされる。抽出された音源１１３ａ、１１３ｃ、１１３ｄは、予め定められた親子階層１０７（図１Ｄには図示せず）に基づいて階層的に配列される。

図１Ｅは、一実施形態例による、親子階層１０７においてすべてのレベルで音源を抽出する１つのネットワークを伴う音声処理システム１０１を説明する図である。この場合、ニューラルネットワーク１０５は、入力音声混合物からすべての音源１１３ａ、１１３ｃ、１１３ｄを階層的な態様で抽出するよう、合同でトレーニングされる。さらに、抽出された音源１１３ａ，１１３ｃ，１１３ｄは、予め定められた親子階層１０７（図１Ｅには図示せず）に基づいて階層的に配列される。上述のマルチレベルネットワークは、複数の音源を抽出するために１つのニューラルネットワークのみが使用されるので、音声処理システムのスケーラビリティを高めることができる。

特に、複数の音源をそれらの階層的関係に従って抽出するよう合同でトレーニングされるニューラルネットワーク１０５は、特定の音源のためにトレーニングされる異なるニューラルネットワーク１０５ａ、１０５ｂ、および１０５ｃの組み合わせよりも効率的であり得る。

さらに、いくつかの実施形態は、階層的音源分離のために、音源別分離（ＳＳＳ）ネットワークまたは例示による問い合わせ（ＱＢＥ）ネットワークを使用して、ニューラルネットワーク１０５を実現する。
階層的音源別分離

いくつかの実施形態では、階層を下る単一の経路（例えば、［弦／鍵］→［ギター］→［クリーンなギター］であり、「クリーン」は、アコースティックギターおよびオーバードライブまたは歪みが適用されていない電気ギターを示す）に沿ってＮ個のレベルに対してＮ個のマスクを出力する単一のネットワークが実現される。他の実施形態では、階層を下る複数の経路が同時に抽出される。他の実施形態では、階層のすべてのノードが考慮され抽出される。いくつかの実施形態では、ネットワークは、階層内の各リーフノードについてマスクを出力し、親に対応するサブミックスは、階層内を通りながらリーフ音源から再構成され、階層内のすべてのノードについて損失関数を組み合わせることによってニューラルネットワーク１０５をトレーニングする。

トレーニング中、ネットワーク１０５の目的は、抽出された複数の音源１１３ａ～１１３ｄを親子階層１１１のすべてのレベルＬにおいて同時に再構築することである。すなわち、親子階層１１１の各レベルについてｔＰＳＡ目的（式３）項があり、全体的な損失は、親子階層１１１におけるレベルＬにわたる和である。ニューラルネットワーク１０５は、親子階層１１１の各レベルについて目的関数ｔＰＳＡを最小にしながら、階層的制約の対象となる親子階層１１１の異なるレベルの音源に対するマスクを同時に出力するようにトレーニングされてもよい。

例示的な実施形態では、ネットワーク１０５が１つの親音源ノードおよび２つの子音源ノードを出力すると仮定すると、ネットワーク１０５は、第１の出力が常に親音源ノードに対応し、第２の出力が常に第１の子音源ノードに対応し、第３の出力が常に最後の子音源ノードに対応するように、トレーニングされる。すなわち、ネットワーク１０５のトレーニング中、親音源のための真のサブミックスは、ネットワーク１０５における第１の出力のためのターゲットとして使用され、第１の子音源ノードのための真の信号は、第２の出力のためのターゲットとして使用される等となるであろう。例示的な実施形態では、ＳＳＳネットワーク１０５は、１つの祖父－＞１つの親－＞１つの子の出力で構成されてもよい。
階層的な例示による問い合わせ（ＱＢＥ）

音源階層において異なる音源間の相互関係を捕捉するために、いくつかの実施形態は、複数の楽器を、単一のネットワークを用いて、異なるレベルで分離する。レベルごとに１つのネットワークを使用する階層的ＳＳＳネットワークは、ネットワークが階層内において一度に１つのノードを学習することのみを可能にする。楽器階層を下る単一の経路に沿ってマルチレベルネットワークを使用する階層的ＳＳＳネットワークは、他の楽器をモデル化することはできない。階層のすべてのノードをモデル化する階層的ＳＳＳネットワークは、音源階層における異なる音源間の相互関係を抽出してもよいが、充分に現実的な階層は、おそらく多数のリーフノードを含む。これは、メモリおよび計算の問題ならびにすべての損失の寄与のバランスをとる困難につながり得る。これらの潜在的な問題を軽減するために、いくつかの実施形態では、音声処理システム１０１は、例示による問い合わせ（ＱＢＥ）ネットワークを使用する。

ＱＢＥネットワークは、入力音声混合物から分離するために、混合物および所望の音源の例（またはクエリ音声）を入力として受け取る。ＱＢＥネットワークは、音源分離のために音源の階層全体（例えば楽器階層）をモデル化するために使用されてもよい。例示的な実施形態では、クエリ音声上での条件付けの代わりに、リーフノードラベル上で分離を条件付けてもよく、条件付き音源分離法の階層的拡張につながる。クエリ音声は、クラスラベルの一般化と見なされてもよい。ＱＢＥはさらに、推論中に未知の音源タイプに対して補間する能力を提供してもよい。

いくつかの実施形態では、音声処理システム１０１は、入力クエリ音声を入力音声混合物とともに受け入れ、入力クエリ音声と同じ音源タイプの音源で終わる、親子階層１１１に沿った経路に対応する抽出された複数の音源１１３ａ～１１１３ｄのうちのある部分を出力する。親子階層１１１に沿った経路は複数の音源ノードを含む。各音源ノードはあるタイプの音源に対応する。各音源ノードは、少なくとも１つの子音源を含む。各音源ノードは、兄弟音源ノードと組み合わせて、親音源ノードを形成する。

ＱＢＥシステムは、ターゲット音源ｓ_ｎ，ｃに基づいて式（３）においてｔＰＳＡ目的を最小化するようにトレーニングされる。ニューラルネットワーク１０５をトレーニングするために使用されるターゲット音源は、クエリと階層内の所与のレベルとの両方によって判断される。例示的実施形態では、損失関数は、クエリ埋め込み空間上で直接定義される項を含む。

例示的実施形態では、ＱＢＥシステムは、以下のようにクエリ音声（例えばアコースティックギター）を使用してトレーニングされてもよい。アコースティックギタークエリは、対応する音源をリーフノードレベルで抽出しようと試みるニューラルネットワーク１０５をトレーニングするために使用される。その場合、ターゲットは、混合物中のすべてのクリーンなギターのサブミックスからなることになる。さらに、同じアコースティックギタークエリを使用して、対応する音源を１レベル上で抽出しようと試みるニューラルネットワーク１０５をトレーニングすることもできる。その場合、ターゲットは、クリーンなギターであるか否かにかかわらず、混合物中のすべてのギターのサブミックスからなる。さらに、ＱＢＥシステムは、入力音声クエリに関連付けられる音源ノードが音源の階層１０７の複数の音源ノードに存在しないとき、無音を出力するようにトレーニングされる。通知は、入力クエリ音声に関連付けられる音源ノードがないことを、ブザーまたはメッセージの形態で、ユーザに知らせてもよい。

別の実施形態では、単一レベルＱＢＥネットワークが、階層内のあるレベルに対して実現され、そのレベルにおいて楽器を分離するのみでもよい。代替的に、階層の複数の（またはすべてでさえある）レベルを返す階層型マルチレベルＱＢＥネットワークが実現されてもよい。そのために、いくつかの実施形態は、ネットワークの出力に対して階層的制約をさらに実施する。
階層的マスクに対する制約

いくつかの実施形態は、混合物の構成要素が何らかの階層に存在すると仮定することによって、構成要素の構造についての知識を用いてニューラルネットワーク１０５に制約を課してもよい、という認識に基づく。例えば、マルチレベル階層ネットワークによって生成されるマスクのセットを要求するために式（２）で定義される関係は、階層と同じ構造に従うよう使用されてもよい。すなわち、より高いレベルのマスクは、より低いレベルのマスクから構成される。

しかしながら、これは、階層内のすべてのノードに対してマスクを出力することを必要とする。それは、実際に遭遇する大きな階層に対しては実現可能ではない場合がある。したがって、階層全体の知識に依存しない階層的制約を課すことが用いられてもよい。この階層的制約は、階層内の、より高いレベルのマスクが、より低いレベルのマスクと少なくとも同じ量のエネルギーを配分しなければならないことを必要とする。より正確には、レベルｌにおけるマスクは、

いくつかの実施形態では、音声処理システム１０１は、ターゲット音源を示す入力データを受信するように構成される。音声処理システム１０１は、入力音声混合物から、ターゲット音源と、親子階層１０７に従ってターゲット音源の親とを抽出する。入力データは、親子階層におけるノードのラベルを含む。ラベルは、入力音声混合物から抽出されるべきターゲット音源の名前を記述するテキストデータなどの、ターゲット音源を示す情報を含んでもよい。例示的な実施形態では、ラベルは、ユーザの音声（スピーチ）信号を含んでもよい。音声（スピーチ）信号は、ユーザが入力音声混合物から抽出することを望むターゲット音源の名前を含む。

いくつかの実施形態では、音声処理システム１０１は、クエリ音声信号を含む入力データを受信する。ニューラルネットワーク１０５は、親子階層１０７に従って、クエリ音声信号に最も近い子音源と、その子音源の親とを分離するようにトレーニングされる。クエリ音声信号は、ターゲット音源と関連付けられる音声信号を含んでもよい。ターゲット音源を示す異なるタイプの入力データに基づいて音声処理システム１０１によって入力音声混合物からターゲット音源を抽出することの詳細な説明が、図１Ｆ～図１Ｈを参照して以下で提供される。

図１Ｆは、例示的な実施形態による、音声処理システム１０１におけるニューラルネットワーク１０５の異なる構成要素を示す概略図である。ここで、ネットワーク１０５は、音源別分離（ＳＳＳ）のためにトレーニングされる。入力音声混合物信号１２５は、スペクトログラム抽出器モジュール１２７に提供される。スペクトログラム抽出器モジュール１２７は、入力音声混合物１２５のフレームのシーケンスについてスペクトログラムを生成するよう構成される。入力音声混合物スペクトログラムは、分離ニューラルネットワーク１２９によって処理される。分離ニューラルネットワーク１２９は、学習された重みの様々な層から構成され、行列乗算または畳み込み演算を介してメモリレス方式で入力を処理することができるか、またはメモリと再帰方式で接続される。各層はまた、１つ以上の非線形演算を有する。１つ以上の非線形演算は、分離ニューラルネットワーク１２９が、入力音声混合物信号１２５のスペクトログラムから、入力混合スペクトログラムと乗算されると分離されたスペクトログラムを回復する時間－周波数マスクへのマッピングを学習することを可能にする。分離ニューラルネットワーク１２９の出力は、マスク決定モジュール１３３に提供される。マスク決定モジュール１３３は、複数のマスクを、階層内のすべての関連するノードごとに１つ、出力する。マスク決定モジュール１３３は、スペクトログラムへのマスクの適用が対応する音源を抽出するように、ニューラルネットワーク１０５の出力を、親子階層１１１の異なるレベルにおける抽出された音源に対応するマスクのセットに形成するよう構成される。さらに、階層的制約は、親子階層１１１内のより高いレベルのマスクが、親子階層１１１内のより低いレベルのマスクと少なくとも同じ量のエネルギーを配分することを実施する。例示的な実施形態では、分離ニューラルネットワーク１２９は、それ自体がマスク決定モジュール１３３を含んでもよい。

さらに、ＳＳＳネットワーク１３１は、固定数の出力を、親子階層１１１内の関連するレベルごとに１つ、有するように予め指定されている。そのために、ＳＳＳネットワーク１３１は、親子階層１１１内の経路に沿ってＮ個のレベルに対応する複数のＮ個のマスクを生成するよう構成される。ＳＳＳネットワーク１３１は、親子階層１１１に基づいて、複数のマスクに対応する音源ノードを出力するよう構成される。したがって、ＳＳＳネットワーク１３１の出力は、親子階層１１１にマッチする順序を有する。

さらに、マスク決定モジュール１３３によって出力された各マスクは、音源セレクタ／補間器モジュール１３５に提供される。音源セレクタ／補間器モジュール１３５は、単一のマスク、例えば、１つの子もしくは親に対応するマスク、または出力する階層レベルマスクのサブセットを選択するよう構成される。音源セレクタ／補間器モジュール１３５は、分離されるべきターゲット出力（またはターゲット音源）に従ってマスクのセットからマスクを選択する。いくつかの実施形態では、音源セレクタ／補間器モジュール１３５は、マスク決定モジュール１３３によって形成された、親子階層内の単一の経路上のノードに対応するマスクを選択する。

さらに、音源セレクタ／補間器モジュール１３５は、例えば、子音源の８０％を、親音源の２０％が混合された状態で得るために、複数のマスク間で補間することができる。音源セレクタ／補間器モジュール１３５によって出力された各マスクは、次いで、入力音声混合物信号１２５の複素スペクトログラムと乗算されて、ターゲット音源信号に関連付けられるスペクトログラムを取得する。そのターゲット音源信号は、ＳＳＳシステム１３１がトレーニングされたターゲット音源タイプ（例えばギター）の階層に関連付けられている。

音源セレクタ／補間器モジュール１３５の出力は、スペクトログラムインバータモジュール１３７に提供される。ここで、音源が、入力音声混合物信号１２５の複素スペクトログラムから抽出され、出力信号１３９として提供される。スペクトログラムインバータモジュール１３７は、音源セレクタ／補間器モジュール１３５によって選択されたマスクをスペクトログラムに適用して、入力音声混合物から音源を抽出するよう構成される。例示的な実施形態では、音源セレクタ／補間器モジュール１３５は、スペクトログラムインバータモジュール１３７が補間されたマスクをスペクトログラムに適用して音源を抽出するように、少なくとも２つのマスクを補間する。別の例示的な実施形態では、スペクトログラムインバータモジュール１３７は、音源を抽出するために逆短時間フーリエ変換を実行する。このプロセスは、階層の各レベルに対応するマスクについて、または音源セレクタ／補間器モジュール１３５によって返される音源の任意の組合せについて、繰り返される。

図１Ｇは、例示的な実施形態による、音声処理システム１０１におけるニューラルネットワーク１０５の異なる構成要素を示す概略図である。ここで、ネットワーク１０５は、例示による問い合わせ（ＱＢＥ）分離のためにトレーニングされる。ＱＢＥネットワーク１４７は、入力音声混合物信号１２５および入力クエリ音声１４１を得る。入力音声混合物信号１２５は、スペクトログラム抽出器モジュール１２７に提供され、そこで、入力音声混合物信号１２５の複素スペクトログラムが判断されてもよい。さらに、入力クエリ音声１４１は、クエリ抽出器１４３に提供される。クエリ抽出器１４３は、クエリ音声信号を処理してアンカーノードを得る。アンカーノードは、入力クエリ音声信号１４１内の情報をコンパクトな態様で符号化するために、ＱＢＥネットワーク１４７のために使用されるベクトルである。さらに、アンカーノード（またはアンカーベクトル）および入力音声混合物信号１２５の複素スペクトログラムは、連結モジュール１４５に提供される。アンカーノードは入力音声混合物信号スペクトログラムの各フレームと連結され、分離ニューラルネットワーク１２９に提供されて、システム１０１に提供されたクエリ音声信号１４１に最も類似する音源を入力音声混合物信号１２５から動的に抽出する。分離ニューラルネットワーク１２９は、親子階層１１１においてクエリ音声信号に最も類似する音源のマスクを表す出力を生成する。分離ニューラルネットワーク１２９は、図１ＦのＳＳＳモデルに使用される分離ニューラルネットワークと同様であるが、連結されたクエリアンカーベクトルを収容するために、より大きい入力特徴ベクトルを伴う。

図１Ｈは、例示的な実施形態による、例示による問い合わせ（ＱＢＥ）分離のためにトレーニングされたニューラルネットワーク１０５の異なる構成要素を示す概略図である。ここで、クエリは、入力ラベル１４９として提供される。ＱＢＥネットワーク１４７は、入力音声混合物信号１２５、およびクエリを入力ラベル１４９の形態で、取得する。入力ラベル１４９は、入力音声混合物１２５から分離されるべきターゲット音源を示すテキストであってもよい。別の実施形態では、入力ラベル１４９は音声（スピーチ）信号であってもよく、音声（スピーチ）信号は、入力音声混合物１２５から分離されるべきターゲット音源に対応してもよい。

入力音声混合物信号１２５は、スペクトログラム抽出器モジュール１２７に提供され、そこで、入力音声混合物信号１２５の複素スペクトログラムが判断されてもよい。さらに、入力ラベル１４９は、ラベル抽出器１５１に提供される。ラベル抽出器１５１は、入力ラベル１４９を処理し、入力ラベル１４９に対応するアンカーノードを判断する。例示的な実施形態では、異なる音源に対するアンカーノードが、予め定義され、メモリに記憶されてもよい。したがって、入力ラベル１４９を受信すると、ラベル抽出部１５１は、入力ラベル１４９に対応するアンカーノードを抽出してもよい。アンカーノードは、入力ラベル１４９内の情報をコンパクトに符号化するために、ＱＢＥネットワーク１４７のために使用されるベクトルである。さらに、アンカーノード（またはアンカーベクトル）および入力音声混合物信号１２５の複素スペクトログラムは、連結モジュール１４５に提供され、アンカーノードは入力音声混合物信号スペクトログラムの各フレームと連結され、分離ニューラルネットワーク１２９に提供されて、入力音声混合物信号１２５から、システム１０１に提供された入力ラベル１４９に最も類似する音源を動的に抽出する。分離ニューラルネットワーク１２９は、親子階層１１１において入力ラベル１４９に最も類似する音源のマスクを表す出力を生成する。分離ニューラルネットワーク１２９は、図１ＧのＳＳＳモデルに使用される分離ニューラルネットワークと同様である。

図１Ｉは、例示的な実施形態による、ＱＢＥネットワーク１４７による複数の楽器の抽出および抽出された複数の楽器間の相互関係を示す。いくつかの実施形態では、ＱＢＥネットワーク１４７は、入力クエリ音声１４１および入力音声混合物１２５を得る。入力音声混合物信号１２５は楽器の階層（左下）を含んでおり、クエリ音声１４１を使用して、最も低いレベル（例えばギター）に最も近いターゲットを伴う階層の複数のレベル１５９に楽器を分離すると仮定する。クエリネットワーク１４７は、入力クエリ音声１４１に基づいて、アンカーノードを生成する。クエリネットワーク１４７は、各方向における６００個のノードおよび０．３のドロップアウトを有する２つの双方向長短期メモリ（ＢＬＳＴＭ）層から構成され、それに、各時間－周波数ビンを２０次元の埋め込み空間にマッピングする線形活性化を伴う全結合層が続く。さらに、アンカーノードおよび入力音声混合物信号１２５は、連結され、マスキングネットワーク１５５に提供される。

マスキングネットワーク１５５は、ＳＳＳモデルと同じであり、連結されたクエリアンカーを収容するために、より大きい入力特徴ベクトルを伴う。マスキングネットワーク１５５は、各方向における６００個の隠れユニットおよび０．３のドロップアウトを伴う４つの双方向長短期メモリ（ＢＬＳＴＭ）層から構成され、それに、マスクを出力するシグモイド活性化関数を伴う全結合層が続く。マスキングネットワーク１５５は、複数の階層マスク１５７を生成する。階層マスク１５７は、入力音声混合物１２５のスペクトログラムと乗算されて、マルチレベル階層ターゲット音源１５９によって示されるように、複数の楽器を抽出し、抽出された楽器間の相互関係とを抽出してもよい。

図２Ａは、本開示の例示的な実施形態による、入力音声混合物信号から複数の音源別音源を抽出するための音声処理システム２００Ａのトレーニングを示すフロー図である。システム１０１は、一般的な音源分離シナリオを示す。システム１０１は、ターゲット音声信号とノイズなどの潜在的に他の非ターゲット音源との混合物から複数のターゲット音声信号を推定する。入力音声混合物信号２０５は、複数の重複する音源の和を含み、音響混合信号および混合物２０５を構成する対応する分離された音源を含むトレーニングセット２０３からサンプリングされる。音源別の分離された音源２０１は、ＳＳＳネットワーク１３１がトレーニングされる、関連する階層的カテゴリ（例えばギター）に対応する分離された音源信号である。

入力音声混合物信号２０５は、スペクトログラム推定器２０７によって処理されて、音響混合物の時間－周波数表現を計算する。次いで、スペクトログラムは、記憶されたネットワークパラメータ２０９を使用して、ＳＳＳネットワーク１３１に入力される。ＳＳＳネットワーク１３１は、スペクトログラムの各時間－周波数ビンにおいて、階層における各関連する音源クラスの存在に関して判断を行い、マグニチュードマスク２１１のセットを推定する。階層の関連する経路における各音源に対して１つのマグニチュードマスクがある。強調されたスペクトログラムのセット２１３は、各マスクを入力音声混合物２０５の複素時間－周波数表現で乗算することによって、計算される。推定された音声信号波形２１５のセットは、強調されたスペクトログラム２１３の各々を、スペクトログラム推定器２０７によって計算された時間－周波数表現を反転する信号再構築プロセス２１７に通過させることによって、得られる。

次いで、強調されたスペクトログラム２１３は、ネットワークトレーニングモジュール２２１によってネットワークパラメータ２０９を更新するために使用され得る目的関数２１９に渡される。ネットワークパラメータは、式（３）のｔＰＳＡ目的を使用して、およびＡＤＡＭアルゴリズムなどの確率的勾配ベースの更新規則を使用して、強調されたスペクトログラム２１３をターゲット音源と比較することによって、更新される。ターゲット音源は、音源別の分離された音源２０１から、階層混合モジュール２２３を通過した後に、得られる。階層混合モジュール２２３は、階層内の子ノードからの分離された音源を共に結合して、親音源に対応するターゲット音声信号を生成する。例えば、分離されたアコースティックギターおよび電気ギター音声信号を結合して全ギター音声信号（親）を生成し、次いでこの全ギター音声信号をピアノ音声信号とさらに組み合わせて中音域弦楽器音声信号（祖父）を形成する。

図２Ｂは、本開示の例示的な実施形態による、入力音声混合物信号から複数の音源を抽出するための音声処理システム２００Ｂのトレーニングを示すフロー図である。ここで、抽出される音源は、第２のクエリ音声信号の内容、すなわち、例示による問い合わせ（ＱＢＥ）に基づく。このトレーニング手順は、図２ＡのＳＳＳの場合と同様であるが、音声混合物および分離された音源２０３のトレーニングセットから、音声混合物信号およびその混合物を構成する分離された音源の音声信号だけでなく、音声混合物２０５を構成する音源信号の１つではない分離された音源信号に対応する音声クエリ２２５もサンプリングする。代替実施形態では、音声クエリは、クラスラベルで置き換えることができる。スペクトログラム推定器２０７は、音響混合物および音響クエリの両方について時間－周波数表現を計算する。

次いで、ＱＢＥネットワーク１４７は、音響混合物およびクエリの両方からのスペクトログラムを使用して、スペクトログラムの各時間－周波数ビンにおいて階層内の各関連する音源クラスの存在に関する判断を行い、マグニチュードマスク２１１のセットを推定する。階層のクエリ判定された関連する経路内における各音源に対して１つのマグニチュードマスクがある。強調されたスペクトログラムのセット２１３は、各マスクを入力音声混合物２０５の複素時間－周波数表現と乗算することによって計算される。目的関数２１９は、強調されたスペクトログラムのセット２１３を、クエリ関連の分離された音源２２７を使用して階層混合モジュール２２３から得られたターゲット音源と比較する。

図３は、本開示の例示的な実施形態による、単一チャネルマスク推論ネットワークアーキテクチャ３００を示すブロック図である。入力音声混合物信号２０５から得られる特徴ベクトルのシーケンス、例えば、入力音声混合物信号２０５の短時間フーリエ変換の対数振幅を、混合物エンコーダ３０１への入力として使用する。例えば、シーケンスにおける入力ベクトルの次元はＦであり得る。混合物エンコーダ３０１は、第１のＢＬＳＴＭ層３０３から最後のＢＬＳＴＭ層３０５まで、複数の双方向長短期メモリ（ＢＬＳＴＭ）ニューラルネットワーク層から構成される。各ＢＬＳＴＭ層は、順方向長短期メモリ（ＬＳＴＭ）層と逆方向ＬＳＴＭ層とから構成され、それらの出力は結合され、次の層によって入力として使用される。たとえば、第１のＢＬＳＴＭ層３０３内の各ＬＳＴＭの出力の次元はＮであり得、最後のＢＬＳＴＭ層３０５を含むすべての他のＢＬＳＴＭ層内の各ＬＳＴＭの入力次元および出力次元の両方はＮであり得る。最後のＢＬＳＴＭ層３０５の出力は、線形ニューラルネットワーク層３０７および非線形性３０９を含むＳＳＳネットワーク１３１への入力として使用される。時間－周波数領域、例えば短時間フーリエ変換領域における各時間フレームおよび各周波数について、線形層３０７は、最後のＢＬＳＴＭ層３０５の出力を使用してＣ個の数を出力する。ここでＣは分離されるべきターゲット音源の数である。非線形性３０９は、各時間フレームおよび各周波数についてこのＣ個の数のセットに適用される。各時間フレーム、各周波数、および各ターゲット音源について、その時間フレームおよびその周波数における、入力音声混合物信号２０５におけるそのターゲット音源の優位を示すマスク値をもたらす。マスクからの分離符号化推定モジュール３１１は、これらのマスクを、マスクが推定された時間－周波数領域、例えば振幅短時間フーリエ変換領域における入力混合物の表現と共に使用して、各ターゲット音源に対する分離符号化を出力する。例えば、マスクからの分離符号化推定モジュール３１１は、ターゲット音源に対するマスクに入力混合物の複素短時間フーリエ変換を乗算して、あたかも分離して観察されたかのように、そのターゲット音源に対する分離された信号の複素短時間フーリエ変換の推定値を得ることができる。
トレーニング：

例示的な実施形態では、複数の楽器の音声混合物から複数の音源（楽器）を抽出し、さらに、抽出された複数の音源間の相互関係を判断するように、音声処理システム１０１をトレーニングするために、階層的に組み合わせることができる多くの楽器の分離された音源を有する大きなデータセットで音声処理システム１０１をトレーニングすることが必要とされる。データセットは、データセット内のあらゆる楽器について、多種多様な粒度の音源ラベル、すなわち、「ギター」だけでなく、「アコースティックギター」、「電気ギター」、「エフェクトされたギター」などを含むべきである。

いくつかの実施形態では、Slakh2100データセットが、音声処理システム１０１をトレーニングするために使用される。Slakh2100データセットは、２１００個の音楽混合物を、分離された音源とともに含む。このデータセットは、３４の楽器カテゴリに分割された１４５時間の混合物データを有する。さらに、ニューラルネットワーク１０５がSlakh2100データセットから階層を学習することを可能にするために、Slakh2100データセットは、Slakhの含まれる楽器カテゴリからの楽器階層を含むよう、さらに修正される。階層は、３つのレベル（すべての音源の混合物からなる自明なレベルを除外する）で定義されてもよい。最上位レベルは、４つのカテゴリ：中音域弦楽器および鍵盤楽器（ギター、キーボード、およびオーケストラの弦楽器）、低音域楽器（音響バスおよび電気ベース）、管楽器（フルート、リード楽器、および金管楽器）、ならびに打楽器（ドラムセットおよび半音階打楽器）を含む。中間レベルは７つのカテゴリ（例えば、中音域弦楽器から：オーケストラの弦楽器、ギター、キーボード、および電気キーボード）を有し、最下位レベルは１８個のカテゴリ（例えば、ギターから、クリーンなギターおよびエフェクトされたギター）を有する。

さらに、データセットから例を選択するために、図４Ａに示されるように、階層の異なるレベルに対応する、各トラックのための複数の瞬時サブミックスが作成されてもよい。

図４Ａは、例示的実施形態による、階層的単一楽器音源別分離（ＳＳＳ）ネットワークをトレーニングおよび試験するために使用される階層レベルの内容を図示する、表１を示す。最も高いレベルでは、すべてのピアノ、ギター、および弦楽器が１つの音源と見なされ、次のレベルでは、すべてのギターが１つの音源と見なされ、最も低いレベルでは、クリーンなギターのみが１つの音源と見なされる。データセット内の各混合物について、２．５秒のホップサイズを伴う、１０秒チャンクでの各階層サブミックスの顕著性が計算される。サブミックスの音源がそのチャンクにおいて－３０ｄＢを超えるエネルギーを有する場合、それは顕著であると考えられる。複数のレベルを伴う実験について、所与のノードについて、それの親音源ノード（または祖父）が、それ自体以外の子音源ノードからのエネルギーを有することが保証されてもよい。言い換えれば、親音源ノードが子音源ノードと厳密に同じではないことが保証され、これは、子音源ノードの兄弟または従兄弟のいくつかも顕著であることを意味する。

例示的な実施形態では、Slakh200-split2階層化が使用され、音声は１６ｋＨｚでダウンサンプリングされる。音声混合物を生成するための音源（ここでは楽器）の混合は、オンザフライで行われ、チャンクは、特定の実験について顕著な例のプールからランダムに選択される。トレーニングのために、ニューラルネットワーク１０５は、エポックあたり（≒５５．５ｈ）２０，０００例を利用し、さらに、３，０００例（≒８．３ｈ）が、検証および試験セットのために使用される。ＳＳＳネットワーク１３１に対して充分な例がトレーニングのために使用され、充分に豊富な階層がトレーニングのために使用されたことを確実にするために、音源は、表１に示されるように親子階層１１１の経路を下って分離される。別の実施形態では、提案される方法は、他の階層を下る他の経路に拡張することができる。さらに、ＱＢＥネットワーク１４７については、親子階層１１１内のすべての楽器タイプが分離されてもよい。クエリ音声チャンクは、顕著なチャンクのプールから、それらが、ターゲットレベルにかかわらず、常にターゲットと同じ経路に沿ったリーフノードであるように、選択されるが、異なるトラックに由来する。さらに、我々のモデルの出力品質を判断するために、スケール不変音源対歪み比（ＳＩ－ＳＤＲ）が使用される。参考までに、ＳＩ－ＳＤＲは、ミックスに対して処理が行われないときに報告される。

例示的な実施形態では、４つのタイプの階層的音源分離モデルが評価されてもよい。音源分離モデルは、２次元、すなわち、それらがシングル楽器（すなわち、音源別分離、すなわちＳＳＳ）であるかまたはマルチ楽器（すなわち、例示による問い合わせ、すなわちＱＢＥ）であるか、およびそれらが単一レベルを出力するか複数レベルを出力するか、に沿って変化する。以下、各構成について説明する。

シングル楽器、シングルレベル：１つの階層経路に沿った階層の１つのレベルに各々が対応する楽器別ＳＳＳモデルのトリオ。

シングル楽器、マルチレベル：マスクの階層セットを出力する１つのＳＳＳモデルであり、単一の階層経路のすべてのレベルで同時に分離する。

マルチ楽器、シングルレベル：入力クエリ音声によって決定されるように、階層の１つのレベルで１つのマスクを出力するマルチ楽器ＱＢＥモデルのトリオ。

マルチ楽器、マルチレベル：入力クエリによって決定される経路に沿って階層のすべてのレベルに対してマスクの階層的セットを出力する１つのＱＢＥモデル。

シングル楽器モデルの場合、音源は、表１で参照されるように階層の１つの経路に沿って分離される。マルチ楽器、マルチレベルモデルは、クエリに基づいて音源を分離するようにトレーニングされ、したがって、シングル楽器、マルチレベルの場合のようにたった１つの経路ではなく、全階層（すなわち、すべての楽器）を学習することができる。マルチレベルモデルについては、制約の影響が試験される。さらに、マルチレベルモデルがリーフの音源に関する限られたデータでどの程度よく学習するかも試験される。これを行うために、３レベルＳＳＳ１３１およびＱＢＥ１４７モデルは、リーフグラウンドトゥルースが時間の５０％または９０％のいずれかで利用できないという仮定の下でトレーニングされ、その場合、上位レベルのみが目的関数に直接関与する。比較のために、すべてのノードがトレーニング中の時間の５０％または９０％欠落しているモデルを評価する。これらの実験により、マルチレベルネットワークがリーフノードにおいて親子階層１１１のより高い（すなわち、より粗い）レベルをどれほどうまく活用することができるかわかる。そのような能力は、典型的には、細粒度のグラウンドトゥルース音源を有するデータを収集することは、混合物および広いカテゴリで集められた少数の音源成分のみを有するデータと比較して、より困難であるため、特に有利であろう。

すべての単一レベルおよびマルチレベルネットワークは、同じアーキテクチャを有する。ＳＳＳモデルは、各方向における６００個の隠れユニットおよび０．３のドロップアウトを伴う４つの双方向長短期メモリ（ＢＬＳＴＭ）層から構成され、それに、マスクを出力するシグモイド活性化関数を伴う全結合層が続く。ＱＢＥモデルは、クエリネットとマスキングネットとの２つのサブネットワークから構成される。クエリネットは、各方向における６００個のノードおよび０．３のドロップアウトを有する２つのＢＬＳＴＭ層から構成され、それに、各時間－周波数ビンを２０次元の埋め込み空間にマッピングする線形活性化を伴う全結合層が続く。マスキングネットは、ＳＳＳモデルと同じであり、連結されたクエリアンカーを収容するよう、より大きい入力特徴ベクトルを有する。

すべてのモデルは、Ａｄａｍオプティマイザを用いて、１００エポックで１ｅ－４の学習率および２５のバッチサイズでトレーニングされた。検証セット上の損失が５つの連続したエポックについて減少しなかった場合、学習率を半分にした。ミニバッチのノルムがその値を上回る場合、勾配を履歴勾配ノルムの１０パーセンタイルにクリップした。
結果：

図４Ｂは、例示的な実施形態による、階層的ＳＳＳ（ギター）およびＱＢＥモデルについてのＳＩ－ＳＤＲ（ｄＢ）の改善を示す表２を示す。各モデルは、異なるレベルの粒度において音源に対して生成されるマスクに対する階層的制約（ＨＣ）を用いて、または制約なしのいずれかで、トレーニングされる。表２では、マルチレベル階層ネットワークに対する階層的制約（ＨＣ）の影響が調べられる。さらに、音源別分離（ＳＳＳ）ネットワーク１３１（この場合、ギターのみを分離する）について、ＨＣは、すべてのレベルで性能をわずかに低下させることが観察され、ＳＳＳモデルは、追加の支援なしに、異なるレベルでの単一の音源（この場合、ギター）についての特定の階層的関係を学習できることを示す。例示による問い合わせ（ＱＢＥ）ネットワーク１４７（すべてのタイプの楽器を分離する）の場合、ＨＣは、レベル２において性能をわずかに妨げるが、リーフノード（レベル１）に対してはかなり役立つ。さらに、ＱＢＥネットワーク１４７は、任意の個々の音源の特定のマスク「形状」を学習することができず、したがって、ＨＣによって提供される追加の支援を必要とするので、ＱＢＥネットワーク１４７は、より多くの利益を提供すると仮定される。したがって、すべての後続の実験において、ＨＣはＱＢＥネットワーク１４７に対しては含まれるが、ＳＳＳネットワーク１３１に対してはそれを省略する。

図４Ｃは、例示的な実施形態による、非階層的および階層的なＳＳＳならびにＱＢＥモデル結果をＳＩ－ＳＤＲ（ｄＢ）に関して示す表３を示す。表３において、Δは、ノイズのある混合物に対する改善を示す。ＳＳＳネットワーク１３１は、クリーンなギターを含む親子階層１１１において音源を分離するようトレーニングされるのみであるが（表１参照）、ＱＢＥネットワーク１４７は、階層における任意の音源を分離する。ここで、単一レベルネットワーク（「１」で示す）が、マルチレベルネットワーク（「３」で示す）と比較される。３つのレベルすべてに対して１つのみのマルチレベルネットワークがあるが、３つの単一レベルネットワークが（各レベルに対して１つ）ある。表３は、表２からの結果上で拡大し、ＳＳＳおよびＱＢＥ分離モデルの両方に対する単一レベルならびにマルチレベル階層モデルからの結果を比較する。両方の場合において、マルチレベル階層ネットワークは、単一レベルモデルよりも改善され、最大の利得は、より低い階層レベルで生じる。これは、ネットワークが階層についてのそれらの共有された知識を活用して、個々の楽器がミックスにおいて識別するのがより困難な、より低いレベルで、ネットワークそれら自体を支援することができることを意味する。

表３のレベル１の結果から、この詳細の細かいレベル（例えば、クリーンな電気ギター対歪んだ電気ギター）で音源を分離することは、特に、いくつかの異なる楽器タイプが類似して聞こえる場合がある、Slakh2100などのＭＩＤＩ合成されたデータセットでは、極めて困難であることが観察される。実際、これらの細かい粒度の音源を分離するだけのために単一のネットワークをトレーニングしようと試みると、その単一のネットワークは、レベル１の音源に対する＃ｌｖｌｓ＝１（単一レベル）行における負のＳＩ－ＳＤＲ改善によって示されるように失敗する。ネットワークを複数のレベルでトレーニングすることは、これをある程度同時に軽減するが、マルチレベルネットワークはレベル１とレベル２との間でほぼ同一の分離された音源を出力することがあることに気付く。さらに、最高出力ＳＩ－ＳＤＲ値は、表３においてレベル３の音源を分離するときに得られる。したがって、より細かい粒度レベル（１および２）で音源を分離することは、音楽音源分離において典型的に試みられるものよりも困難である。

図４Ｄは、例示的実施形態による、（太い破線によって分離される）階層的ＳＳＳおよびＱＢＥモデルについて未処理の音声ミックス（「Ｍｉｘ」）を上回るＳＩ－ＳＤＲ改善（ｄＢ）を示す表４を示す。各モデルは、データの、指定されたパーセンテージについて、リーフだけ（「リーフ」）または例全体（「すべて」）のいずれかを除去しながら、トレーニングされる。リーフノードだけを９０％まで低減することは、リーフのすべてを使用することと比較して、ＳＳＳネットワーク１３１についてはわずか０．３ｄＢのドロップを示し、ＱＢＥネットワーク１４７については０．８ｄＢのドロップを示す。さらに、表４において、トレーニングセットからリーフ音源（レベル１の音源、ギターの例については表１を参照）を除去する効果を観察することができる。データのすべてを５０％または９０％減少させることと比較して、リーフのみを減少させることの性能は、非常に最小に低下する。データがより高いレベルではリッチであるが、より低いレベルではスパースなデータである場合、階層型マルチレベルネットワークは、より低いレベルを分離する際に相応のジョブを行うことができる。同様に、ＳＳＳネットワーク１３１およびＱＢＥネットワーク１４７の両方について、少量のリーフデータでさえ、性能の大きな低下をかわすのに役立ち得る。

したがって、本開示は、音源分離問題を階層的として再構成することによって、異なるレベルの粒度で音源を同時に分離する学習の利点を実証する。

図５は、例示的な実施形態による、音声処理システム１０１による異常検出を示す。図５には、製造生産ライン５０１と、トレーニングデータプール５０３と、機械学習モデル５０５と、音声処理システム１０１とを含むシナリオ５００が示されている。製造生産ライン５０１は、製品を製造するために協働する複数のエンジンなどの複数の構成要素を含む。さらに、生産ライン５０１は、センサを用いてデータを収集する。センサは、デジタルセンサ、アナログセンサ、およびこれらの組み合わせであってもよい。収集されたデータは、２つの目的を果たし、一部のデータは、トレーニングデータプール５０３に記憶され、機械学習モデル５０３をトレーニングするためのトレーニングデータとして使用され、一部のデータは、異常を検出するために音声処理システム１０１によって動作時間データとして使用される。同じデータが、機械学習モデル５０３と音声処理システム１０１との両方によって使用されてもよい。

製造生産ライン５０１において異常を検出するために、トレーニングデータが収集される。トレーニングデータプール５０３内のトレーニングデータは、ニューラルネットワーク１０５をトレーニングするために、機械学習モデル５０５によって使用される。トレーニングデータプール５０３は、ラベル付けされたデータまたはラベル付けされていないデータのいずれかを含むことができる。ラベル付けされたデータは、ラベル、例えば、異常または正常でタグ付けされ、ラベル付けされていないデータは、ラベルを有さない。トレーニングデータのタイプに基づいて、機械学習モデル５０５は、異なるトレーニング手法を適用して異常を検出する。ラベル付けされたトレーニングデータの場合は、典型的には教師あり学習が使用され、ラベル付けされていないトレーニングデータの場合は、典型的には教師なし学習が適用される。このように、異なる実施形態は、異なるタイプのデータを処理することができる。さらに、製造生産ライン５０１において異常を検出することは、製造生産ライン５０１に含まれる複数のエンジンの各エンジンにおいて異常を検出することを含む。

機械学習モデル５０３は、音源に関係付けられる正常データパターンおよび異常データパターンを含む、トレーニングデータの特徴およびパターンを学習する。音声処理システム１０１は、トレーニングされたニューラルネットワーク１０５および収集された動作時間データ５０７を使用して異常検出を実行する。動作時間データ５０７は、複数のエンジンに関係付けられる複数の音源信号を含んでもよい。さらに、システム１０１は、音源の階層１０７に格納される異なるタイプのエンジンの予め定められた階層的関係または順序を含む。異なるタイプのエンジンの階層的順序は、音源の階層１０７において予め定義される。この階層的順序は、エンジンの、異なる音声プロパティに基づいて、（例えば、特定のエンジンによって生成される音の周波数範囲などに基づいて、）決定されてもよい。

動作時間データ５０７を受信すると、システム１０１は、ニューラルネットワーク１０５を使用する。ニューラルネットワーク１０５は、動作時間データ５０７を、動作時間データ５０７に含まれる異なる音源に対して親子階層を実施する階層的制約の対象とする。親子階層における親音源は、それの１つ以上の子音源の混合物であるように、構成される。音声処理は、動作時間データ５０７から異なる音源を抽出し、抽出された音源の相互関係を親子階層に従って抽出してもよい。階層的順序におけるエンジンの音の分離は、製造生産ライン５０１に含まれる異なるエンジン間の関係を提供する。これにより、ユーザは、複数のエンジンの各エンジンの音を分析することができるので、製造生産ライン５０１を粒状レベルで分析することができる。

さらに、音声処理システム１０１の出力は異常検出器５２３に提供される。異常検出器５２３は、抽出された音源と抽出された音源間の相互関係とに基づいて異常を検出するよう構成される。異常検出器５２３は、動作時間データ５０７を正常または異常として特定する。たとえば、正常データパターン５０９および５１１を使用して、トレーニングされたニューラルネットワーク１０５は、動作時間データを正常データ５１３と異常データ５１５とに分類してもよい。例えば、動作時間データＸ１５１７およびＸ２５１９は正常として分類され、動作時間データＸ３５２１は異常として分類される。異常が検出されると、コントローラ５２５を使用して、検出された異常に基づいて必要なアクション５２７を行ってもよい。

図６Ａは、例示的な実施形態に従う、音声ズーミングアプリケーションで利用される階層的音声分離を示す。音声ズーミングアプリケーションは、音源の階層構造を使用して音声混合物からの周囲のコンテキストのレベルを変化させながら、１つの特定の音源に、より焦点を合わせることを可能にする。例えば、音声分離システム１０１は、歌手、ならびにギター、ドラム、ピアノ、チェロ、およびバイオリンなどの異なる楽器の音を含む楽曲を、入力として受信する。楽曲を受信すると、音声分離システム１０１は、予め定められた階層的順序（例えば親子階層１１１）から、異なる音のオントロジを抽出してもよい。

この例では、最も具体的な抽出された音源１１３ｃはギターであり、それの親１１３ｂは、すべての中音域弦楽器、すなわちギター、ピアノおよびバイオリンを含み、祖父１１３ａは、楽曲全体におけるすべての音源を含む。音の階層的分離は、ユーザが、音声ズームコントローラ６０１を使用し、選択された楽器（例えばギター）からの音に、より焦点を合わせたり、同様の楽器（すなわち、階層における次のレベルアップ、この例では中音域弦楽器）からの音も聞くようにズームアウトしたり、または元の音声混合物を聞くようにさらにズームアウトしたりすることを可能にする。ユーザズーム制御６０１の設定に基づいて、混合重み６０３のセットが生成され、音声ミキサ６０５に供給される。音声ミキサは、混合重み６０３を使用して、階層１１１から抽出された音源の各々を結合して、傾聴のための出力信号を生成する。

図６Ｂは、例示的な実施形態による、ズーム制御ノブ６０１を示し、ズーム制御ノブ６０１の位置が音声ズーミングのために混合重みに変換されるのを示す図である。ズーム制御ノブ６０１は、その特定のレベルで入力音声混合物から抽出された異なる音源を混合するために使用される重みを示す比率のインジケータ６０９を備える。ここで、音源は、音声処理システム１０１を使用することによって抽出される。例えば、ノブが位置Ａに設定されると、混合重みは、混合重み６０７ａによって示されるように、子音源（例えばギター）のみが音声ミキサによって出力されるように、調整される。この場合、子音源のみに重みが割り当てられ、祖父および親音源には重みは割り当てられない。同様に、位置Ｂでは、混合重み６０７ｂは、子音源（例えばギター）と親音源（例えば中音域弦楽器）との混合物である。中点位置Ｃは親音源６０７ｃのみを出力し、位置Ｄ６０７ｄは親音源と祖父音源との間で補間し、位置Ｅ６０７ｅは祖父音源（例えば元の音声混合物）のみを出力する。このようにして、音声処理システム１０１は、特定のレベルで、示された比率に比例して、抽出された音源を出力する。
例示的な実現例

図７は、いくつかの実施形態による、コンピュータベースの音声処理システム７００のブロック図を示す。コンピュータベースの音声処理システム７００は、システム７００を他のシステムおよびデバイスと接続するいくつかのインターフェイスを含む。システム７００は、入力音声混合物信号１２５および入力クエリ音声信号１４１を受け入れるよう構成される入力インターフェイス７０１を含む。入力デバイス７０５はマイクロフォンとすることができる。追加的または代替的に、コンピュータベースの音声処理システム７００は、入力音声混合物信号１２５および入力クエリ音声信号１４１を様々な他のタイプの入力インターフェイスから受信することができる。いくつかの実施形態では、システム７００は、入力音声混合物信号１２５および入力クエリ音声信号１４１を入力デバイス７０５から取得するよう構成される音声インターフェイスを含む。いくつかの他の実施形態では、入力インターフェイス７０１は、有線および無線ネットワークのうちの１つまたは組み合わせであり得るネットワーク７０５を介して、入力音声混合物信号１２５および入力クエリ音声信号１４１を取得するよう構成される、ネットワークインターフェイスコントローラ（ＮＩＣ）７０３を含む。

ネットワークインターフェイスコントローラ（ＮＩＣ）７０３は、システム７００を、バス７０７を介して、システム７００を感知デバイス（例えば、マイクロフォン等の入力デバイス７０５）に接続するネットワーク７０５に、接続するよう適合される。加えて、または代替として、システム７００は、ヒューマンマシンインターフェイス（ＨＭＩ）７０９を含むことができる。システム７００内のヒューマンマシンインターフェイス７０９は、システム７００をキーボード７１１およびポインティングデバイス／媒体７１３に接続する。ポインティングデバイス／媒体７１３は、とりわけ、マウス、トラックボール、タッチパッド、ジョイスティック、ポインティングスティック、スタイラス、またはタッチスクリーンを含むことができる。

システム７００は、メモリ１０３に記憶された命令を実行するよう構成されるプロセッサ１０９を含む。プロセッサ１０９は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスタ、または任意の数の他の構成であり得る。メモリ１０３は、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、フラッシュメモリ、または任意の他の好適なメモリシステムを含むことができる。プロセッサ１０９は、バス７０７を介して１つ以上の入力および出力デバイスに接続されることができる。

命令は、入力クエリ音声１４１に基づいて入力音声混合物信号１２５から複数の音源を抽出する、音声処理のための方法を実現することができる。抽出された複数の音源は、入力クエリ音声１４１と同様の音を生成する。そのために、コンピュータメモリ１０３は、入力音声混合物から、入力音声混合物１２５に含まれる複数の音源を抽出するようにトレーニングされたニューラルネットワーク１０５を記憶する。抽出された複数の音源は、抽出された複数の音源の親子階層１１１を実施する音声プロパティの階層的制約を受ける。抽出された複数の音声の親子階層１１１は、音源の階層１０７に基づいて決定される。音源の階層１０７は、予め決定されており、入力音声混合物に関連付けられるすべての可能な音源のセットと、そのセット内における音源間の相互関係とを含む。

音声処理システム７００は、抽出された複数の音源の少なくとも一部をレンダリングするよう構成される出力インターフェイス７１５を含む。別の実施形態では、出力インターフェイスは、ニューラルネットワーク１０５が、音源の階層１０７に、入力クエリ音声１４１に類似する音源が存在しない、と判断すると、通知を出力する。通知は、表示装置７１７に表示されるメッセージであってもよい。別の実施形態では、ユーザは、ブザー音を生成することによって通知されてもよい。いくつかの他の実施形態では、音声処理システム７００は、無音を示すよう、音声を出力しなくてもよい。そのような無音は、入力クエリ音声１４１に類似する音源がないという指示に対応する。

表示装置７１７の例は、とりわけ、コンピュータモニタ、テレビ、プロジェクタ、またはモバイルデバイスを含む。システム７００はまた、様々なタスクを実行するためにシステム７００を外部デバイス７２１に接続するよう適合されたアプリケーションインターフェイス７１９にも接続されることができる。

図８は、例示的な実施形態による、入力音声混合物から複数の音源を抽出するために実現される方法８００のステップを示す。ステップ８０１において、音声混合物信号を取得してもよい。入力音声混合物は、複数の異なる音源からの複数の音声信号を含む。例えば、入力音声混合物は、ギター、ピアノ、ドラムなどの複数の楽器の音を含んでもよい。入力音声混合物信号は、ニューラルネットワーク１０５に提供されてもよい。

ステップ８０３において、入力音声混合物に存在する複数の音源が、抽出された音源の相互関係とともに抽出されてもよい。ここで、相互関係は、複数の音源の親子階層（例えば親子階層１１１）に基づく。そのために、ニューラルネットワーク１０５は、親子階層の中の親音源がそれの１つ以上の子音源の混合物であるように、音源に対して親子階層を実施する階層的制約の下、音声混合物から音源を分離するようにトレーニングされる。したがって、ニューラルネットワーク１０５は、入力音声混合物から、入力音声混合物に含まれる複数の音源信号を抽出する。入力音声混合物は、抽出された複数の音源信号に対応する複数の音源の親子階層を実施する階層的制約を受ける。したがって、ステップ８０１において入力音声混合物を受信したことに応答して、ニューラルネットワーク１０５は、複数の音源を抽出し、抽出された複数の音源の少なくとも一部分をレンダリングする。

ステップ８０５において、抽出された複数の音源の少なくとも一部分がレンダリングされてもよい。次いで、抽出された複数の音源の少なくとも一部分を用いて、各およびすべての抽出された音源をより詳細に分析してもよい。これは、音源自体の異常を判定する際に有用であり得る。
実施形態

本記載は、例示的な実施形態のみを与え、本開示の範囲、適用性、または構成を限定することを意図しない。むしろ、例示的な実施形態の以下の説明は、１つ以上の例示的な実施形態を実現するための実施可能な説明を当業者に提供する。企図されるのは、特許請求の範囲に記載されるように開示される主題の精神および範囲から逸脱することなく、要素の機能および構成において行われ得るさまざまな変更である。

以下の説明では、実施形態の完全な理解のために、具体的な詳細が与えられる。しかしながら、当業者によって理解されることは、実施形態がこれらの具体的な詳細なしで実施され得ることであり得る。たとえば、開示される主題におけるシステム、プロセス、および他の要素は、不必要な詳細で実施形態を不明瞭にしないように、ブロック図の形態の構成要素として示される場合がある。他の例では、周知のプロセス、構造、および技術は、実施形態を不明瞭にすることを回避するために、不必要な詳細を伴わずに示される場合がある。さらに、さまざまな図面における同様の参照番号および名称は、同様の要素を示した。

また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として示されるプロセスとして説明されてもよい。フローチャートは、動作を順次プロセスとして説明し得るが、動作の多くは、並列にまたは同時に実行することができる。加えて、動作の順序は並べ替えられてもよい。プロセスは、その動作が完了したときに終了してもよいが、論じられていない、または図に含まれていない追加のステップを有してもよい。さらに、特に説明される任意のプロセスにおけるすべての動作が、すべての実施形態において生じ得るわけではない。プロセスは、メソッド、関数、プロシージャ、サブルーチン、サブプログラムなどに対応してもよい。プロセスが関数に対応するとき、関数の終了は、呼び出し関数またはメイン関数への関数の復帰に対応することができる。

さらに、開示される主題の実施形態は、少なくとも部分的に、手動または自動のいずれかで実現されてもよい。手動または自動実現例は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、もしくはそれらの任意の組合せの使用を通じて実行されてもよく、または少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実現されるとき、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、機械可読媒体に記憶されてもよい。必要なタスクはプロセッサが実行してもよい。

さらに、本開示の実施形態および本明細書で説明される機能動作は、デジタル電子回路、有形に具現化されるコンピュータソフトウェアまたはファームウェア、本明細書で開示される構造およびそれらの構造的均等物を含むコンピュータハードウェア、またはそれらの１つ以上の組合せにおいて実現され得る。さらに、本開示のいくつかの実施形態は、１つ以上のコンピュータプログラム、すなわち、データ処理装置によって実行するために、またはデータ処理装置の動作を制御するために有形の非一時的プログラム担体上に符号化されたコンピュータプログラム命令の１つ以上のモジュールとして実現され得る。さらに、プログラム命令は、人工的に生成された伝搬信号、例えば、データ処理装置による実行のために適切な受信装置への送信のために情報を符号化するよう生成される機械生成された電気、光、または電磁信号上に符号化することができる。コンピュータ記憶媒体は、機械可読記憶装置、機械可読記憶基板、ランダムもしくはシリアルアクセスメモリデバイス、またはそれらの１つ以上の組合せとすることができる。

本開示の実施形態によれば、「データ処理装置」という文言は、例として、プログラム可能なプロセッサ、コンピュータ、または複数のプロセッサもしくはコンピュータを含む、データを処理するためのすべての種類の装置、デバイス、およびマシンを包含することができる。装置は、専用論理回路、例えばＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）を含むことができる。本装置はまた、ハードウェアに加えて、当該コンピュータプログラムの実行環境を生成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらの１つ以上の組合せを構成するコードを含むことができる。

コンピュータプログラム（これらは、プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、またはコードとも呼ばれ、または記載され得る）は、コンパイルされたもしくは解釈された言語、または宣言型言語もしくは手続き型言語を含む任意の形態のプログラミング言語で記述することができ、独立型プログラムとして、またはモジュール、コンポーネント、サブルーチン、もしくはコンピューティング環境での使用に適した他のユニットとして含む任意の形態で展開することができる。コンピュータプログラムは、ファイルシステム内のファイルに対応してもよいが、対応する必要はない。プログラムは、他のプログラムまたはデータを保持するファイルの一部、例えばマークアップ言語ドキュメントに格納された１つ以上のスクリプト、問題のプログラム専用の単一のファイル、または複数の協調ファイル、例えば１つ以上のモジュール、サブプログラムもしくはコードの一部を格納するファイルに格納することができる。コンピュータプログラムは、１つのコンピュータ上、または１つのサイトに位置するか、もしくは複数のサイトにわたって分散され、通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように展開することができる。コンピュータプログラムの実行に適したコンピュータは、一例として、汎用マイクロプロセッサもしくは専用マイクロプロセッサもしくはその両方、または任意の他の種類の中央処理ユニットを含み、例えばそれらに基づくことができる。一般に、中央処理ユニットは、読み取り専用メモリもしくはランダムアクセスメモリまたはその両方から命令およびデータを受信する。コンピュータの必須要素は、命令を実行するための中央処理ユニット、ならびに命令およびデータを格納するための１つ以上のメモリデバイスである。一般に、コンピュータはまた、データを格納するための１つ以上の大容量記憶装置、例えば、磁気ディスク、光磁気ディスク、もしくは光ディスクを含むか、またはそれらからデータを受信するか、もしくはそれらにデータを転送するか、もしくはその両方を行うように動作可能に結合されることにもなる。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。さらに、コンピュータは、数例を挙げると、別のデバイス、例えば、携帯電話、携帯情報端末（ＰＤＡ）、モバイル音声もしくはビデオプレーヤ、ゲームコンソール、全地球測位システム（ＧＰＳ）受信機、または携帯型記憶装置、例えばユニバーサルシリアルバス（ＵＳＢ）フラッシュドライブに組み込むことができる。

ユーザとの対話を提供するために、本明細書で説明される主題の実施形態は、ユーザに情報を表示する表示装置、例えばＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ、ならびにキーボードおよびポインティングデバイス、例えばマウスまたはトラックボールを有するコンピュータ上で実現され得、これにより、ユーザは、コンピュータに入力を提供することができる。他の種類のデバイスも、ユーザとの相互作用を提供するために用いることができる。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックとすることができる。ユーザからの入力は、音響入力、音声（スピーチ）入力、または触覚入力を含む任意の形態で受信され得る。さらに、コンピュータは、ユーザによって用いられるデバイスにドキュメントを送信し、デバイスからドキュメントを受信することによって、例えば、ウェブブラウザから受信された要求に応答して、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。

本明細書で説明する主題の実施形態は、例えばデータサーバとしてバックエンドコンポーネントを含む、または例えばアプリケーションサーバなどのミドルウェアコンポーネントを含む、またはフロントエンドコンポーネント、例えばユーザが本明細書に記載される主題の実現例と対話できるグラフィカルユーザインターフェイスもしくはウェブブラウザを有するクライアントコンピュータ、または１つもしくは複数のそのようなバックエンドコンポーネント、ミドルウェアコンポーネントもしくはフロントエンドコンポーネントの任意の組合せを含む計算システムにおいて実現され得る。システムのコンポーネントは、任意の形態または媒体のデジタルデータ通信、例えば通信ネットワークによって相互接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）およびワイドエリアネットワーク（「ＷＡＮ」）、例えばインターネットを含む。

コンピューティングシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは、一般に、互いに遠隔であり、一般に、通信ネットワークを介して対話する。クライアントとサーバとの関係は、それぞれのコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによって生じる。

本開示は特定の好ましい実施形態を参照して説明されたが、本開示の精神および範囲内でさまざまな他の適合および変更を行うことができることを理解されたい。したがって、本開示の真の精神および範囲内に入るそのようなすべての変形および修正を包含することは、特許請求の範囲の態様である。

Claims

音声処理システムであって、
音声混合物を処理して、前記音声混合物中に存在する音源のセットの少なくともサブセットの推定を出力するようにトレーニングされたニューラルネットワークを記憶するよう構成されるメモリを備え、前記音源は、前記音源のセットに対して親子階層を実施する階層的制約を受け、前記親子階層内の親音源がそれの１つ以上の子音源の混合物を含むようにされ、前記サブセットは、少なくとも１つの親音源と、それの子音源のうちの少なくとも１つとを含み、前記音声処理システムはさらに、
入力音声混合物を受信するよう構成される入力インターフェイスと、
前記ニューラルネットワークを使用して前記入力音声混合物を処理して、前記音源のサブセットの推定値、および前記親子階層に従ったそれらの相互関係を抽出するよう構成されるプロセッサと、
前記抽出された音源およびそれらの相互関係をレンダリングするよう構成される出力インターフェイスとを備える、音声処理システム。
前記音源のサブセットは、前記音源のセットの前記親子階層上における、ルートノードから開始してリーフノードまでの経路に対応する、請求項１に記載の音声処理システム。
前記少なくとも１つの抽出された親音源の音声プロパティは、前記抽出された少なくとも１つの子音源の音声プロパティの和集合を含み、音源の音声プロパティは、スペクトル特性、コンテキスト情報、トーン成分、トーン対ノイズ比値、およびケプストラムピーク振幅のうちの１つまたは組合せを含む、請求項１に記載の音声処理システム。
前記プロセッサは、前記ニューラルネットワークを使用して前記入力音声混合物から前記親子階層のリーフノードに対応する子音源のみを抽出し、
前記親子階層から、前記抽出された子音源に関連付けられる１つ以上の経路を抽出し、
前記親子階層の親ノードの少なくとも１つの親音源を、前記親ノードにつながる前記親子階層の前記１つ以上の経路に従って前記子音源を混合することによって再構築するよう構成される、請求項１に記載の音声処理システム。
前記プロセッサは、さらに、異なる子音源に適用される異なる重みを使用して前記子音源を混合することによって、異なる音源を補間するように構成される、請求項１に記載の音声処理システム。
前記入力インターフェイスは、ターゲット音源を示す入力データを受信するように構成され、前記プロセッサは、前記入力音声混合物から、前記ターゲット音源と、前記親子階層に従って前記ターゲット音源の親とを抽出するよう構成される、請求項１に記載の音声処理システム。
前記入力データは、前記親子階層におけるノードのラベルを含む、請求項６に記載の音声処理システム。
前記入力データは、クエリ音声信号を含み、前記ニューラルネットワークは、前記親子階層に従って、前記クエリ音声信号に最も近い子音源および前記子音源の親を分離するようにトレーニングされる、請求項６に記載の音声処理システム。
前記プロセッサは、前記音声処理システムのモジュールを実現する記憶された命令と結合され、前記モジュールは、
前記入力音声混合物のフレームのシーケンスについてスペクトログラムを生成するよう構成されるスペクトログラム抽出器モジュールと、
前記ニューラルネットワークの出力を、親子階層の異なるレベルにおける前記抽出された音源に対応するマスクのセットに形成して、前記スペクトログラムへのマスクの適用が、対応する音源を抽出するように、構成されるマスク決定モジュールとを含み、前記階層的制約は、前記親子階層における、より高いレベルのマスクが、前記親子階層における、より低いレベルのマスクと少なくとも同じ量のエネルギーを配分することを実施し、前記モジュールはさらに、
ターゲット出力に従って前記マスクのセットにおいてマスクを選択するよう構成される音源セレクタモジュールと、
前記選択されたマスクを前記スペクトログラムに適用して、前記入力音声混合物から前記音源を抽出するよう構成されるスペクトログラムインバータモジュールとを含む、請求項１に記載の音声処理システム。
前記音源セレクタモジュールは、前記マスク決定モジュールによって形成される、前記親子階層における単一の経路上のノードに対応するマスクを選択する、請求項９に記載の音声処理システム。
前記音源セレクタは少なくとも２つのマスクを補間し、前記スペクトログラムインバータは前記音源を抽出するために前記補間されたマスクを前記スペクトログラムに適用するようにする、請求項９に記載の音声処理システム。
前記音声処理システムの前記モジュールはさらに、
アンカーベクトルを取得するためにクエリ音声信号を処理するよう構成されるクエリ抽出器と、
前記アンカーベクトルを前記入力音声混合物スペクトログラムの各フレームと結合するように構成される連結モジュールとを含み、前記ニューラルネットワークは、入力として、前記アンカーベクトルと結合された前記スペクトログラムを受信して、前記親子階層において前記クエリ音声信号に最も類似する音源のマスクを表す出力を生成するよう構成される、請求項９に記載の音声処理システム。
前記ニューラルネットワークは、前記親子階層の各レベルについて目的関数を最小化しながら、同時に、前記階層的制約の下、前記親子階層の異なるレベルの音源のためにマスクを出力するようトレーニングされる、請求項９に記載の音声処理システム。
前記目的関数は、切捨て位相鋭敏近似（ｔＰＳＡ）目的関数である、請求項１３に記載の音声処理システム。
機械を制御するための異常検出システムであって、
請求項１に記載の音声処理システムを備え、前記音声処理システムは、
機械の構成要素によって生成された入力音声混合物を受信し、
複数の音源を抽出し、親子階層に従って前記抽出された音源の相互関係を抽出するよう構成され、前記異常検出システムはさらに、
前記抽出された音源および前記抽出された音源間の相互関係に基づいて異常を検出するよう構成される異常検出器と、
前記検出された異常に基づいて前記機械を制御するよう構成されるコントローラとを備える、異常検出システム。
音声ズーミングシステムであって、
請求項１に記載の前記音声処理システムと、前記親子階層の異なるレベルについての比率のインジケータとを備え、前記音声処理システムは、前記抽出された音源を、特定のレベルにおいて、示される前記比率に比例して、出力する、音声ズーミングシステム。
音声処理方法であって、音声混合物を処理して、前記音声混合物中に存在する音源のセットの少なくともサブセットの推定を出力するようにトレーニングされたニューラルネットワークを記憶するメモリに結合されるプロセッサを用い、前記音源は、前記音源のセットに対して親子階層を実施する階層的制約を受け、前記親子階層内の親音源がそれの１つ以上の子音源の混合物を含むようにされ、前記サブセットは、少なくとも１つの親音源と、それの子音源のうちの少なくとも１つとを含み、前記プロセッサは、前記方法を実現する記憶された命令と結合され、前記命令は、前記プロセッサによって実行されると、前記方法のステップを実行し、前記ステップは、
入力音声混合物を受信するステップと、
前記ニューラルネットワークを使用して前記入力音声混合物を処理して、前記音源のサブセットの推定値、および前記親子階層に従ったそれらの相互関係を抽出するステップと、
前記抽出された音源およびそれらの相互関係をレンダリングするステップとを含む、音声処理方法。
前記方法はさらに、
前記ニューラルネットワークを使用して前記入力音声混合物から前記親子階層のリーフノードに対応する子音源のみを抽出するステップと、
前記親子階層の親ノードの少なくとも１つの親音源を、前記親ノードにつながる前記親子階層上の１つ以上の経路に従って前記子音源を混合することによって再構築するステップとを含む、請求項１７に記載の音声処理方法。
前記方法はさらに、
ターゲット音源を示す入力データを受信するステップと、
前記入力音声混合物から、前記ターゲット音源、および前記親子階層に従って前記ターゲット音源の親を抽出するステップとを含む、請求項１７に記載の音声処理方法。
前記入力データは、前記親子階層上のノードのラベルを含む、請求項１９に記載の音声処理方法。