JP2023542431A - 階層的音源分離のためのシステムおよび方法 - Google Patents

階層的音源分離のためのシステムおよび方法 Download PDF

Info

Publication number
JP2023542431A
JP2023542431A JP2023539220A JP2023539220A JP2023542431A JP 2023542431 A JP2023542431 A JP 2023542431A JP 2023539220 A JP2023539220 A JP 2023539220A JP 2023539220 A JP2023539220 A JP 2023539220A JP 2023542431 A JP2023542431 A JP 2023542431A
Authority
JP
Japan
Prior art keywords
parent
audio
mixture
sound sources
hierarchy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023539220A
Other languages
English (en)
Inventor
ウィヘルン,ゴードン
ル・ルー,ジョナタン
マニロウ,イーサン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2023542431A publication Critical patent/JP2023542431A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

音声処理システムは、音声混合物を処理して、音声混合物中に存在する音源のセットの少なくともサブセットの推定を出力するようにトレーニングされたニューラルネットワークを記憶するためのメモリを含む。音源は、親音源がそれの1つ以上の子音源の混合物を含むように、音源のセットに対して親子階層を実施する階層的制約を受ける。サブセットは、親音源と、それの子音源のうちの少なくとも1つとを含む。本システムはさらに、ニューラルネットワークを使用して、受信された入力音声混合物を処理して、音源のサブセットと、親子階層に従ってそれらの相互関係とを推定するためのプロセッサを備える。システムはさらに、抽出された音源およびそれらの相互関係をレンダリングするよう構成される出力インターフェイスを含む。

Description

本開示は、概して音声処理に関し、より詳細には、階層的音源分離のためのシステムおよび方法に関する。
音源分離の分野では、深層学習技術の導入に伴う顕著な性能改善が見られており、最も顕著なのは、音声強調、音声分離、および音楽分離の分野である。これらの技術は、音源の概念が明確に定義されている場合に成功しており、音声強調または分離の場合、ターゲットは常に単一の話者の音声(スピーチ)として定義される。しかしながら、現実世界のシナリオでは、必ずしも十分に定義されているとは限らない複数の音源が音源分離のために考慮される必要があるため、現実世界のシナリオは、音源の、より複雑な定義を有し得る。
例えば、音楽分離タスクでは、ターゲット音源を構成するものを判断することは明確に定義されていない。歌手が非ボーカルバックグラウンド音楽から分離される歌声分離のようなよく研究された問題でも、「歌声」というものの定義はやや混乱している。多くの人気のある楽曲は、リードボーカル部分、場合によってはいくつかの追加のバックグラウンドボーカル部分、および時には追加のボーカル効果トラックを含むことが多い。これは単純な事例であり、シンセサイザまたはギターのように、より多様な可能な音質を有する楽器カテゴリが考慮されるとき、どのような特定の楽器部分を隔離するかを決定することは、判断がさらに困難になり得る。さらに進んで、各楽器を一意の音符またはコードインスタンスに分離したい場合がある。
現在、音源分離システムは、音源を構成するものの単一の概念に従って、所与の音声混合物中に存在する音源を分離し得る。しかしながら、いくつかの適用例では、そのような特定の音声分離は充分ではない。
いくつかの実施形態の目的は、音声混合物における音源の音声分離を達成することである。追加的または代替的に、いくつかの実施形態の目的は、複数の粒度レベルでの音源の分離である。追加的または代替的に、いくつかの実施形態の目的は、音声混合物に含まれる音源の相互関係を判断することである。例えば、いくつかの実施形態の目的は、聴覚的場面内で複数の音源を推定し、推定された複数の音源間の相互関係を同時に定義することである。加えて、または代替として、いくつかの実施形態の目的は、これらの2つの目的を達成するように、すなわち、音声混合物から、その音声混合物に含まれる異なる音源を抽出し、抽出された音源間の相互関係を提供するようにトレーニングされる、ニューラルネットワークを提供することである。
いくつかの実施形態は、抽出された音源の分類がいくつかの適用例に有益である、という認識に基づく。しかしながら、この分類は、絶対的であるだけでなく、相対的なものでもあり得、いくつかの実用的な適用例では、相対的分類は、絶対的分類を補完するかまたはそれと同等に重要であり得る。たとえば、いくつかの適用例では、ある音を、ギターから発せられるものとして分類することは、その音を、バイオリンと同様の発生原理で生成されるものとして分類することと同じくらい、重要であり得る。しかしながら、相互関係を定義するための異なる方法が無数にあり、これらの相互関係のすべてがニューラルネットワークをトレーニングするために使用され得るわけではない。
いくつかの実施形態は、人間が遭遇する多くの音が本質的に階層的である、という認識に基づく。例えば、あるハイハットノートは、多くのそのようなハイハットノートのうちの1つであり、それは、ドラムキットのいくつかの部分のうちの1つであり、そのドラムキット自体は、あるバンド内の多くの楽器のうちの1つであり、そのバンドは他の音が発生しているバーで演奏しているかもしれない。したがって、音源分離問題は、階層的として再構成され、類似音源をあるレベルではともに結合し、それらを他のレベルでは分離してもよい。音源分離問題を階層として再構成することは、ユーザが、所与の適用例のために階層の適切なレベルに応じて複数の態様で同じ混合物を分解することを可能にする。
特に、音源の階層的分類は、音源間の相互関係を定義するための自然で直感的な態様を提供する。実際、同じ階層的オントロジに属する任意の2つの音源間の相互関係は、その階層的オントロジを表すグラフにおいてそれらを接続する最短経路によって定義することができる。さらに、異なる音源間の階層的関係は、共同抽出および相互分類のためにニューラルネットワークをトレーニングするのに適した方法で定義され得る。たとえば、いくつかの実施形態は、推定された複数の音源間の関係は音声プロパティに基づく音源の階層的構造の形態で定義されてもよい、という認識に基づく。階層を定義するために使用される音声プロパティは、適用例に依存してもよい。例えば、異なる高調波構造を使用して楽器の階層を判断してもよい。
そのために、いくつかの実施形態は、音声プロパティのオントロジに対する階層的制約のもと、音声混合物から、複数の音源を抽出し、抽出された音源の親子階層を実施するよう、ニューラルネットワークをトレーニングする。本明細書で使用される場合、音声プロパティのオントロジに対する階層的制約は、親子階層における親音源の音声プロパティのセットが、それの子らの音声プロパティのセットを含むことを実施する。したがって、親の音声プロパティのセットは、各音声プロパティについて、それの属性のセットが、その音声プロパティについての子らの属性のセットの和集合であり、属性のセットは、その音声プロパティが取り得る値のセットであるようになっている。例えば、電気および音響は、音生成のプロパティの属性である。音声プロパティは、異なる適用例に対して異なり得る。音声プロパティの例は、音を生成する物理的プロパティ、信号特性(例えば、音が高調波振動数構造を有するかどうか)、または音の共起を示すコンテキスト情報のうちの1つまたは組合せを含む。
音声プロパティに対する階層的制約を使用して階層的オントロジを定義することは、ニューラルネットワークのトレーニング中にこれらの制約を満たすことを保証することを可能にする。実際、親の音声プロパティが子の音声プロパティを含むことによって表される階層的制約は、微分可能な態様で数学的に定義され、したがって、トレーニング中に逆伝播を介して使用され得る。このようにして、階層的制約を受ける音源を抽出するようにトレーニングされたニューラルネットワークは、2つの所望のタスクを同時に実行することができる。
加えて、いくつかの実施形態は、音声プロパティに対する階層的制約を伴って二重目的のためにニューラルネットワークをトレーニングすることはさらなる技術的利益を有する、という驚くべき観察に基づく。例えば、そのようなトレーニングは、二重目的の音源分離を達成するために、1つの音源分離目的のみを有するニューラルネットワークをトレーニングするために必要とされるであろう、より少ないトレーニングデータを必要としてもよい。加えて、複数レベルの音源分離のためにニューラルネットワークをトレーニングすることは、各レベルにおける分離タスクに関して、性能の質において、相乗効果を達成する。いくつかの実施形態は、そのような相乗効果は、階層的オントロジの異なるレベルに対する同じトレーニングデータサンプルの再利用性に起因して達成される、という直感的洞察に基づく。すなわち、オントロジの特定のレベルをトレーニングするために使用されるトレーニングデータサンプルは、オントロジの他のレベルでの分離にも影響を及ぼす共有パラメータのトレーニングに間接的に関与する。
いくつかの例示的な実施形態では、階層的楽器分離のプロセスは、特定の楽器(ギターなど)を分離することに基づく。いくつかの追加または代替の実施形態では、階層的楽器分離のプロセスは、ユーザが供給する音声例に従って何を分離するかの判断に基づく。いくつかの実施形態では、階層的楽器分離のプロセスは、トレーニングデータが階層の細粒度レベルに制限されるときでさえ、すべての階層レベルの分離に基づく。特に、楽器分離例は、明確性のために提供され、異なる実施形態の範囲を限定することを意図しない。種々の実施形態は、異なる種類の音声混合物、音源分離、および相互分類に適用可能である。
いくつかの実施形態は、所与の音声混合物から分離された音源が、音生成オブジェクトの階層的順序で配列されることができ、階層の最上位レベルは、広いグループ(例えば中音域の弦楽器)に対応し、下位レベルは、より具体的(例えばアコースティックギター)である、という認識に基づく。音源分離に関して、聴覚的階層は、階層内のより高いレベルにおける音源が階層のより低いレベルにおける音源の混合物から構成されるように、定義されてもよい。各音源ノードは、潜在的に、子音源にさらに分離され、その兄弟と組み合わせられて親音源を形成することができる。
いくつかの実施形態は、音源別分離(source-specific separation)(SSS)ネットワークが、単一のネットワークにおいて、所与の聴覚的混合から複数の音源を推定するよう実現されてもよい、という認識に基づく。マスク推論ネットワークは、単一のターゲット音源cについて、実数値マスクMを、マスクから得られる音源推定値と基準スペクトログラムとの間の何らかの歪み尺度を最小化することによって、推定することを試みる。そのために、いくつかの実施形態では、SSSネットワークは、切捨位相鋭敏近似(truncated phase sensitive approximation:tPSA)を使用する。SSSネットワークは、ターゲット音源ごとにマスク(例えばN個のマスク)のセットを出力する。
したがって、いくつかの実施形態では、複数の音源は、階層的な順序で配列される。そのために、いくつかの実施形態は、ネットワークが階層の複数のレベルを一度に出力するようにトレーニングされるマルチレベル戦略を実現する。例えば、単一のネットワークが、N個のマスクを、階層のN個のレベルの各々に対して1つ、出力してもよい。これは、ネットワークの層を合同でトレーニングし、階層を下る経路全体(例えば、[弦/鍵]→[ギター]→[クリーンなギター])についてネットワークをトレーニングすることを可能にする。したがって、単一のネットワークは、マスクについての学習された知識を活用して、階層に沿った別のマスクに対するその推定を強化および改善することができてもよい。
いくつかの実施形態は、階層的音源分離のためにSSSネットワークを使用するだけでは、楽器階層において多くの楽器を捕捉することは可能ではない場合がある、という認識に基づく。階層内で異なる楽器間の関係を捕捉するために、単一のネットワークでの異なるレベルでの複数の楽器の分離が必要とされる場合がある。そのために、例示による問い合わせ(QBE)ネットワークを採用する階層的音声分離アルゴリズムが使用されてもよい。QBEネットワークは、入力として、混合物と、混合物から分離する所望の音源の例とを取り込む。これを階層的な例に拡張することによって、音源分離のための音声(例えば楽器)階層の音源全体をモデル化することができる。代替的に、クエリに対する条件付けの代わりに、リーフノードラベル上で分離を条件付けることができ、条件付き音源分離法の階層的拡張をもたらす。いくつかの実施形態では、階層的QBEは2つのネットワーク、つまり、ある入力クエリQについてクエリアンカーAqを計算するクエリネットと、混合物とクエリアンカーAqとを入力として取り込み、階層のクエリQと同じノードにあるターゲット音源に対してマスクMを生成するマスキングネットとを含む。
いくつかの実施形態は、階層的QBEシステムは、ターゲット音源に基づいて切捨位相鋭敏近似(tPSA)目的関数を最小化するようトレーニングされてもよく、ネットワークをトレーニングするために使用されるターゲット音源は、クエリと階層内の所与のレベルとの両方によって判断される、という認識に基づく。トレーニングおよび検証のために使用される音声サンプルは、階層的に分離されるべき音のタイプに依存してもよい。例えば、楽器の階層的分離の場合、ネットワークは、ギター、ピアノなどの異なる楽器の音声サンプルでトレーニングされてもよい。
いくつかの実施形態は、混合物の成分が何らかの階層に存在する、という理解に基づいており、したがって、混合物の構造についての知識を利用して、ネットワークに制約を与えることができる。例えば、異なる楽器間の関係は、楽器の階層順序に関して予め定義されてもよい。一実施形態では、この関係は、音声分離のためにマルチレベル階層ネットワークによって生成されるマスクのセットが階層と同じ構造に従うように、すなわち、より高いレベルのマスクはより低いレベルのマスクから構成されるように、捕捉される。しかしながら、これは、ネットワークが階層内のあらゆるノードに対してマスクを出力するという状況をもたらす可能性があり、これは、充分に現実的な階層に対しては実行不可能である可能性がある。したがって、階層内のすべてのノードに対して出力を必要としない階層的制約を課し得る。いくつかの実施形態では、この階層的制約は、階層内における、より高いレベルでのマスクが、より低いレベルでのマスクと少なくとも同じ量のエネルギーを配分しなければならないことを必要とする。その結果、階層における親音源は、それの子音源の混合物である。
したがって、ある実施形態は、音声処理システムを開示する。音声処理システムは、音声混合物を処理して、音声混合物中に存在する音源のセットの少なくともサブセットの推定を出力するようにトレーニングされたニューラルネットワークを記憶するよう構成されるメモリを備え、音源は、音源のセットに対して親子階層を実施する階層的制約を受け、親子階層内の親音源がそれの1つ以上の子音源の混合物を含むようにされ、サブセットは、少なくとも1つの親音源と、それの子音源のうちの少なくとも1つとを含み、音声処理システムはさらに、入力音声混合物を受信するよう構成される入力インターフェイスと、ニューラルネットワークを使用して入力音声混合物を処理して、音源のサブセットの推定値、および親子階層に従ったそれらの相互関係を抽出するよう構成されるプロセッサと、抽出された音源およびそれらの相互関係をレンダリングするよう構成される出力インターフェイスとを備える。
別の実施形態は、音声処理方法を開示し、本方法は、音声混合物を処理して、音声混合物中に存在する音源のセットの少なくともサブセットの推定を出力するようにトレーニングされたニューラルネットワークを記憶するよう構成されるメモリに結合されるプロセッサを用い、音源は、音源のセットに対して親子階層を実施する階層的制約を受け、親子階層内の親音源がそれの1つ以上の子音源の混合物を含むようにされ、サブセットは、少なくとも1つの親音源と、それの子音源のうちの少なくとも1つとを含み、プロセッサは、本方法を実現する記憶された命令と結合され、命令は、プロセッサによって実行されると、本方法のステップを実行し、ステップは、入力音声混合物を受信するステップと、ニューラルネットワークを使用して入力音声混合物を処理して、音源のサブセットの推定値、および親子階層に従ったそれらの相互関係を抽出するステップと、抽出された音源およびそれらの相互関係をレンダリングするステップとを含む。
定義
本明細書で使用される場合、音声プロパティは、音声信号を記述する属性のセットである。所与のプロパティに対して共通の属性を有する音声信号は、一緒にグループ化することができる。音声プロパティの例は、高周波数優勢、中音域優勢、高調波周波数構造などの属性を有する周波数コンテンツなどの信号特性、弦楽器、音響、電気などの属性を有する音を生成する物理的メカニズム、または屋内、屋外など、音が典型的にどこで発生するかを示すコンテキスト情報を含む。
本明細書で使用される場合、音声階層は、親子関係を有する音源のグループであり、親のプロパティは、各プロパティについて、それの属性のセットが、そのプロパティに対する子らの属性のセットの和集合であり、属性のセットは、そのプロパティがとることができる値のセットであるようになっている。
本明細書で使用される場合、音源は、所与の適用例のために一緒に有意義にグループ化することができる1つ以上の音生成オブジェクトからの振動からなる音声信号である。音源の例は、ギター上の単一の弦、ギター全体、または楽曲で演奏されるすべてのギターであり得る。
本明細書で使用される場合、音声混合物は、複数の音生成オブジェクトからの振動から構成される音声信号であり、これらのオブジェクトのうちのいくつかは、所与のタスクについて関連しない場合がある。
本明細書で使用される場合、音声分離は、音声混合物から1つ以上の音源の信号を抽出するプロセスである。
本明細書で使用される場合、マスクは、例えばニューラルネットワークによって音声混合物から推定され、音声混合物から音源を抽出するために音声分離システムによって使用される、非線形時間-周波数フィルタである。典型的には、マスクは、音源がスペクトログラムの各時間-周波数ビンに存在する確率を推定する。
本明細書で使用される場合、階層的制約は、親子階層における親音源がそれの1つ以上の子音源を含むように、音源に対して親子階層を実施する。階層的制約は、音源分離の間、音源分離を実行するニューラルネットワークのトレーニングの間、またはその両方の間に実施されることができる。分離された音源は、親子階層においてノードに関係付けられる。このように、抽出された音源は、階層に従って相互に関係付けられる。特に、親子階層は、音源のセットについて予め定義されているが、音源抽出の間、音声混合物に存在する対象の音源のサブセットの推定のみが抽出される。
そのような関係をどのように実施するかにはいくつかの方法があり、したがって、階層的制約は異なる実施形態間で異なる。階層的制約は、親子階層を、直接的に、間接的に、またはそれらの組み合わせで、実施することができる。階層的制約の直接的実施の例は、音源の階層を、階層のリーフノードに対応するリーフ音源および階層の非リーフノードに対応する非リーフ音源として定義することと、音声分離の出力をノードの1つに直接マッチングすることとを含む。例えば、一実施形態は、リーフ音源のみを分離し、非リーフ音源を、それらの子リーフ音源を組み合わせることによって形成する。このように、親音源は、それらの子らの混合物であることが保証される。追加的または代替的に、一実施形態は、各後続の音源がすべての前の音源を含むように、親子階層における経路に従って音源のシーケンスを分離する。
階層的制約の間接的実施の例は、親子階層に従って音源の音声プロパティのエネルギーおよび/または値の関係を実施することを含む。例えば、ある実施形態は、音声混合物に適用されたときに対応する音源を抽出するマスクを推定する。この実施形態では、階層的制約は、親音源に対応するマスクのエネルギーが、それの子音源のいずれかに対応するマスクのエネルギー以上であることを実施する。追加的または代替的に、一実施形態は、親ノードの音声プロパティの値がそれの子らの対応する音声プロパティの値を含むことを保証する。例えば、いくつかの実現例では、親の音声プロパティは、各プロパティについて、それの属性のセットが、そのプロパティに対する子らの属性のセットの和集合であり、属性のセットは、そのプロパティがとることができる値のセットであるようになっている。
いくつかの実施形態では、階層的制約は、ネットワークをトレーニングするために使用されるトレーニングデータに対して実施され、ネットワークは、少なくとも親音源およびそれの子音源のうちの少なくとも1つを推定するようにトレーニングされ、親音源のためのグラウンドトゥルーストレーニングデータは、それの子音源のためのグラウンドトゥルーストレーニングデータの混合物であるようになっている。
例示的な一実施形態による、階層的音声分離のための音声処理システムのブロック図である。 例示的な実施形態による、親音源と対応する子音源との間の相互関係を示す図である。 ある例示的な実施形態による、音声処理システムによって、予め定義された階層から抽出される複数の経路を示す図である。 一実施形態例による、親子階層においてレベルごとに音源を抽出する1つのネットワークを伴う音声処理システムを説明する図である。 一実施形態例による、親子階層においてすべてのレベルで音源を抽出する1つのネットワークを伴う音声処理システムを説明する図である。 例示的な実施形態による、音声処理システムにおけるニューラルネットワークの異なる構成要素を示す概略図であり、ネットワークは、音源別分離(SSS)のためにトレーニングされる図である。 例示的な実施形態による、音声処理システムにおけるニューラルネットワークの異なる構成要素を示す概略図であり、ネットワーク105は、例示による問い合わせ(QBE)分離のためにトレーニングされる図である。 例示的な実施形態による、例示による問い合わせ(QBE)分離のためにトレーニングされたニューラルネットワークの異なる構成要素を示す概略図であり、問い合わせは入力ラベルとして提供される図である。 例示的な実施形態による、QBEネットワークによる、複数の楽器の抽出、および抽出された複数の楽器間の相互関係を示す図である。 本開示の例示的な実施形態による、入力音声混合物信号から複数の音源別音源を抽出するための音声処理システムのトレーニングを示すフロー図である。 本開示の例示的な実施形態による、入力音声混合物信号から複数の音源を抽出するための音声処理システムのトレーニングを示すフロー図であり、抽出される音源は、第2のクエリ音声信号の内容、すなわち、例示による問い合わせ(QBE)に基づく。 本開示の例示的な実施形態による、単一チャネルマスク推論ネットワークアーキテクチャを示すブロック図である。 例示的実施形態による、階層的単一楽器音源別分離(SSS)ネットワークをトレーニングおよび試験するために使用される階層レベルの内容を示す表1を示す。 例示的実施形態による、階層的SSS(ギター)およびQBEモデルに対するスケール不変音源対歪み比、またはSI-SDR(dB)、の改善を示す表2を示す。 例示的な実施形態による、SI-SDR(dB)に関して非階層的および階層的SSSならびにQBEモデル結果を示す表3を示す。 例示的実施形態による、(太い破線によって分離される)階層的SSSおよびQBEモデルについて未処理の音声ミックス(「Mix」)を上回るSI-SDR改善(dB)を示す表4を示す。 例示的な実施形態による、音声処理システムによる異常検出を示す図である。 例示的な実施形態に従う、音声ズーミングアプリケーションで利用される階層的音声分離を示す。 例示的な実施形態による、ズーム制御ノブ601を示し、ズーム制御ノブ601の位置が音声ズーミングのために混合重みに変換されるのを示す図である。 いくつかの実施形態による、コンピュータベースの音声処理システムのブロック図を示す。 例示的な実施形態による、入力音声混合物から複数の音源を抽出するために実現される方法のステップを示す図である。
以下の説明では、説明の目的で、本開示の完全な理解を促すために、多数の具体的な詳細が述べられる。しかしながら、本開示は、これらの具体的な詳細なしに実施されてもよいことは、当業者には明白であろう。他の例では、本開示を不明瞭にすることを回避するために、装置および方法がブロック図の形式でのみ示される。
本明細書および特許請求の範囲で用いられる場合、文言「例えば」、「例として」、「等」、ならびに動詞「備える」、「有する」、「含む」、およびそれらの他の動詞形は、1つ以上の構成要素または他の項目のリストとともに用いられる場合、各々オープンエンドと解釈されるべきであり、そのリストは、他の追加の構成要素または項目を排除するものと見なすべきではないことを意味する。「~に基づく」と言う文言は、少なくとも部分的に基づくことを意味する。さらに、本明細書で使用される表現および用語は、説明の目的のためであり、限定と見なされるべきではないことを理解される。この記載内で利用されるいかなる見出しも、便宜上のものにすぎず、法的または限定的な効果を有さない。
図1Aは、例示的な実施形態による、階層的音声分離のための音声処理システム101のブロック図100を示す。図1Aは、音源分離のための提案された音声処理システム101の上位図を提供する。音声処理システム101は、入力音声混合物を取得する。入力音声混合物は、複数の異なる音源からの複数の音声信号を含む。例えば、入力音声混合物は、ギター、ピアノ、ドラムなどの複数の楽器の音を含んでもよい。別の実施形態では、入力音声混合物は、複数のエンジンの音、人間の複数の音、動物の複数の音、複数の自然音などを含んでもよい。本開示のいくつかの実施形態の目的は、入力音声混合物から複数の音源113a、113b、113c、および113d(複数の音源113a~113dとも呼ばれる)を抽出し、同時に、抽出された複数の音源113a~113dの間の相互関係を判断することである。
そのために、音声処理システム101は、親子階層内の親音源がそれの1つ以上の子音源の混合物であるように、音源に対して親子階層を実施する階層的制約の下、音声混合物から音源を分離するようにトレーニングされるニューラルネットワーク105を記憶するよう構成されるメモリ103を備える。したがって、ニューラルネットワーク105は、入力音声混合物から、入力音声混合物に含まれる複数の音源信号を抽出する。さらに、入力音声混合物は、抽出された複数の音源信号に対応する複数の音源113a~113dの親子階層111を実施する階層的制約を受ける。抽出された複数の音源113a~113dは、音源の予め定義された階層107によって構成される音源の一部分のみに対応してもよい。複数の音源113a~113dは、音源の階層107において定義されるような階層的木構造において抽出され、階層的木構造は、少なくとも1つの祖父、少なくとも1つの親、および少なくとも1つの子(またはリーフノード)を含んでもよい。別の実施形態では、音声処理システム101は、さらに、少なくとも1つの祖父または少なくとも1つの親および少なくとも1つの子を含む階層経路を抽出する。
階層的制約は、子音源がその親音源に含まれる音声プロパティの少なくとも1つのセットを含むように、抽出された複数の音源113a~113dに制約を課してもよい。したがって、階層的制約は、親音源113aの音声プロパティがそれの1つ以上の子音源113b~113dの音声プロパティの値の和集合であるように、抽出された音源113a~113dの音声プロパティに階層を実施する。別の実施形態では、階層的制約は、子音源がそれらの親音源を決定するためにどのように混合されるかを定義してもよい。言い換えれば、親音源は、それの子音源の混合物を含む。
抽出された複数の音源113a~113dの親子階層111は、音源の階層107に基づいて判断される。いくつかの実施形態では、音源の階層107は、予め決定されており、入力音声混合物に関連付けられるすべての可能な音源のセットと、そのセット内の音源間の相互関係とを含む。音源のセットは、抽出されるよう必要とされる音源のタイプに依存する。例えば、ある音楽音源分離の適用例では、音源のセットは、アコースティックギター、電気ギター、ドラムなどの異なる楽器を含む。
入力音声混合物を受信することに応答して、音声処理システム101は、入力音声混合物をニューラルネットワーク105に提出する。ニューラルネットワーク105は、抽出された複数の音源の親子階層111に対応する音源を入力音声混合物から抽出し、抽出された複数の音源113a~113dの少なくとも一部分を、抽出された複数の音源113a~113dの親子階層に関する抽出された複数の音源113a~113d間の相互関係とともにレンダリングする。ここで、113aは、2つの子113bおよび113cを有する祖父音源ノードである。113bおよび113cは、兄弟である。さらに、113cは親音源ノードであり、親音源ノード113cは1つの子113dを有する。子音源ノード113bおよび113dは、親子階層111の最後の音源ノードであるので、リーフノードとも呼ばれる。階層的制約は、親音源(例えば113a)が、それのすべての子(例えば113bおよび113c)および孫(例えば113d)によって含まれる音声プロパティまたはエネルギーを含むことを保証する。したがって、親子階層における親音源は、それの1つ以上の子音源の混合物である。
いくつかの実施形態では、階層的制約は、ニューラルネットワーク105が1つ以上の子音源(例えばアコースティックギター音源)に割り当てるスペクトログラム内の任意の時間-周波数領域は、親音源(例えばすべてのギター)にも割り当てられなければならないことを実施する。具体的には、スペクトログラム内の各時間-周波数点について、階層的制約は、親音源についての出力が親音源および子音源からの出力の最大値であることを実施する。音源のセットは、適用例のタイプに依存する。例えば、ある音楽音源分離の適用例では、音源のセットは異なる楽器を含む。
ある例示的な実施形態では、複数の音源を抽出するために使用される音声プロパティのセットは、複数の音源の物理的プロパティと、複数の音源によって生成される入力音声混合物の信号特性と、入力音声混合物における音声の共起を示すコンテキスト情報とのうちの1つまたは組合せを含んでもよい。別の実施形態では、音声プロパティのセットは、入力音声混合物におけるいくつかのトーン成分、トーン対ノイズ比、およびケプストラムピーク振幅を含んでいてもよい。
図1Bは、例示的な実施形態による、親音源115と対応する子音源117との間の相互関係を示す。階層的制約は、親音源115が音声プロパティのセットを含むように、親音源115と子音源117との間の階層的相互関係を保証する。親音源115の音声プロパティのセットは、それの子らまたは子音源117の音声プロパティのセットを含む。親音源115の音声プロパティのセットは、各音声プロパティについて、それの属性のセットが、その音声プロパティについての子ら117の属性のセットの和集合であり、属性のセットは、その音声プロパティが取り得る値のセットであるようになっている。図1Bに示される例示的な実施形態では、親音源115はすべてのギターの音声信号に対応してもよい。親音源「ギター」は、電気ギター(子1)およびアコースティックギター(子2)に対応する属性のセットを含んでもよい。さらに、入力音声混合物から異なる音源を抽出するために、音声処理システム101は、最初に、ニューラルネットワーク105を使用して、入力音声混合物から親子階層111のリーフノードに対応する子音源のみを抽出してもよい。システム101は、さらに、親子階層111の親ノードの少なくとも1つの親音源を、(図1Bに示すように)親ノードにつながる親子階層上の1つ以上の複数の経路に従って子音源を混合することによって、再構築する。さらに、音声処理システム101はまた、異なるマスク(またはフィルタ)を使用することによって親音源から子音源を分離するように構成されてもよい。1つ以上の経路の詳細は、図1Cに関して以下で説明される。
別の実施形態では、抽出された複数の音源間の相互関係はまた、ユーザが、抽出された複数の音源から2つ以上の音源を組み合わせて、まったく新たな音声信号を生成することも可能にしてもよい。そのために、音声処理システム101は、異なる子音源に適用される異なる重みを使用して子音源を混合することによって、異なる音源を補間してもよい。異なる重みを使用して子音源を補間することに関する詳細は、図6Aに関して以下に記載される。
いくつかの実施形態では、音声処理システム101は、抽出された経路の端部が少なくとも1つのターゲット音源を含むように、入力音声混合物に基づいて、予め定義された階層107から少なくとも1つの経路を抽出し、ターゲット音源からの音声信号は入力音声混合物に存在している。経路の詳細は、図1Cに関して以下に記載される。
図1Cは、例示的な実施形態による、音声処理システム101によって、予め定義された階層から抽出される、複数の経路(121、123)を示す。図1Cは、楽器に関連付けられる(予め定義された階層107と同様の)予め定義された階層を示す。この例では、予め定義された階層は4つのレベル(レベル1、レベル2、レベル3、およびレベル4)を含む。楽器の階層は、広いレベルから狭い(または特定の)レベルまで構成され、レベル1は最も広いレベルに対応し、レベル4は最も狭いレベルに対応する。さらに、広いレベルでの音源ノードは、複数の楽器の混合物音声信号を含み、最下位レベル(ここでは第4レベル)での音源ノードは、ギターやピアノ等の特定の楽器に対応する音声信号を含む。最初に、音声処理システム101は、入力音声混合物119を受信する。入力音声混合物119は、複数の楽器を使用して生成された音楽演奏を含む。
音楽演奏は、ギターおよびトランペットからの音声信号を、他の楽器からの音源とともに含む、と考える。入力音声混合物119を受信すると、音声処理システム101は、特定の音源を抽出するために、最も広いレベルから最も狭いレベルへの経路を形成する各レベルで入力音声混合物119をフィルタリングする。音声処理システム101は、抽出された経路に沿って音源を抽出してもよい。
たとえば、音声処理システム101は、経路121の端部にあるリーフノードがギターに対応するように、経路121を抽出してもよい。同様に、経路123の端部のリーフノードがトランペットに対応するように経路123を抽出してもよい。音声処理システム101は、経路全体をユーザに示してもよく、経路内の各音源ノードは、その音源ノードに含まれる音声信号で示されてもよい。例示的な実施形態では、システム101は、親音源ノード、兄弟音源ノード、および子音源ノードに、異なる識別を提供してもよく、それは、ユーザが入力音声混合物119に存在する異なる音源を容易に分析することを可能にしてもよく、ユーザが異なる音源を組み合わせてまったく異なる音声信号を作成することを可能にしてもよい。
聴覚的階層
本明細書で使用される場合、階層的制約は、親子階層における親音源がそれの1つ以上の子音源を含むように、音源に対して親子階層を実施する。階層的制約は、音源分離の間、音源分離を実行するニューラルネットワークのトレーニングの間、またはその両方の間に実施されることができる。分離された音源は、親子階層のノードに関連付けられる。このように、抽出された音源は、階層に従って相互に関係付けられる。
そのような関係をどのように実施するかにはいくつかの方法があり、したがって、階層的制約は異なる実施形態間で異なる。階層的制約は、親子階層を、直接的に、間接的に、またはそれらの組み合わせで、実施することができる。階層的制約の直接的実施の例は、音源の階層を、階層のリーフノードに対応するリーフ音源および階層の非リーフノードに対応する非リーフ音源として定義することと、音声分離の出力をノードの1つに直接マッチングすることとを含む。例えば、一実施形態は、リーフ音源のみを分離し、非リーフ音源を、それらの子リーフ音源を組み合わせることによって形成する。このように、親音源は、それらの子らの混合物であることが保証される。追加的または代替的に、一実施形態は、各後続の音源がすべての前の音源を含むように、親子階層における経路に従って音源のシーケンスを分離する。
階層的制約の間接的実施の例は、親子階層に従って音源の音声プロパティのエネルギーおよび/または値の関係を実施することを含む。例えば、ある実施形態は、音声混合物に適用されたときに対応する音源を抽出するマスクを推定する。この実施形態では、階層的制約は、親音源に対応するマスクのエネルギーが、それの子音源のいずれかに対応するマスクのエネルギー以上であることを実施する。追加的または代替的に、一実施形態は、親ノードの音声プロパティの値がそれの子らの対応する音声プロパティの値を含むことを保証する。例えば、いくつかの実現例では、親の音声プロパティは、各プロパティについて、それの属性のセットが、そのプロパティに対する子らの属性のセットの和集合であり、属性のセットは、そのプロパティがとることができる値のセットであるようになっている。
特に、親子階層は、音源のセットについて予め定義されているが、音源抽出の間、音声混合物に存在する対象の音源のサブセットの推定のみが抽出される。音源のサブセットは、事前に定義されるか、または実行時間において指定されることができる。いくつかの実施形態では、音源のサブセットは、ルートノードから開始してリーフノードまでの、音源のセットの親子階層上の経路に対応する。追加または代替として、音源のサブセットは、経路上の1つ以上の音源をスキップすることができ、および/または階層の他の経路からの音源を含むことができる。
音源分離中、音源は、トレーニングされたニューラルネットワークを用いて推定される。ニューラルネットワークは、様々な品質のトレーニングデータでトレーニングされるが、抽出された音源の推定値は、入力音声混合物の内容に基づいた異なる実行に対して変化し得る。しかしながら、階層的制約を実施するために、親音源の推定は、提供された入力音声混合物におけるそれの子の推定を含む。この包含はまた、いくつかの適用例に有用な音声プロパティの階層的関係を実施するであろう。例えば、いくつかの実施形態では、少なくとも1つの抽出された親音源の音声プロパティは、抽出された少なくとも1つの子音源の音声プロパティの和集合を含む。音源の音声プロパティの例は、スペクトル特性、コンテキスト情報、トーン成分、トーン対ノイズ比値、およびケプストラムピーク振幅の1つまたは組合せを含む。
いくつかの実施形態では、階層的制約は、ネットワークをトレーニングするために使用されるトレーニングデータに対して実施される。ネットワークは、少なくとも親音源およびそれの子音源のうちの少なくとも1つを推定するようにトレーニングされる。親音源のためのグラウンドトゥルーストレーニングデータは、それの子音源のためのグラウンドトゥルーストレーニングデータの混合物であるようになっている。このように、トレーニングされたニューラルネットワークの実行は、階層的関係を有する出力を生成する。そのような階層的関係、例えば相互関係は、異常検出、音声ズーミング等の後続処理によって活用することができる。
本開示のいくつかの実施形態では、抽出された複数の音源113a~113d間の相互関係は、抽出された複数の音源113a~113dの各音源を、音生成オブジェクトの階層順に配置することによって得られる。音生成オブジェクトの階層において、階層の最上位レベルは広いグループに対応し、下位レベルはより特定的である。例えば、楽器の階層においては、階層の最上位レベルは中音域の弦楽器を含んでもよく、下位レベルはアコースティックギターを含んでもよい。さらに、音源分離に関して、聴覚的階層は、階層内のより高いレベルにおける音源が階層のより低いレベルにおける音源の混合物から構成されるように定義されてもよい。各音源ノードは、潜在的に、1つ以上の子音源にさらに分離され、その兄弟と組み合わせられて親音源を形成することができる。Lレベルを有する階層を考えると、Sl,cは、階層レベルlにおけるc番目の音源タイプノードを表し、l=1,...,Lである。リーフ音源タイプS1,cのセットはさらなる音源タイプに分解できず、SL,1は、階層の最上部における唯一の音源タイプであり、すべての音源タイプを含む、と仮定される。さらに、Cl,cは、Sl,cのレベルl-1における子音源のインデックスのセットを示す。階層は、以下のように定義することができる。
Figure 2023542431000002
階層を下る経路は、開始音源タイプノードSから下位レベルの宛先音源タイプノードSまでの音源タイプのシーケンスとして定義されてもよい。
いくつかの実施形態では、上記の式(1)を使用して定義される階層は、音声混合物xを分解するために使用されてもよい。音源タイプがSl,cであるxにおける対応する音源成分をsl,cとし、同じタイプのすべての信号のサブミックスは単一の成分と見なされる。定義により、SL,1=xである。レベルlにおける各c番目の音源成分sl,cは、l=2,...,Lの場合に、sl-1,c’が子音源タイプSl-1,c’に属するすべての音源に対応する信号であるように、音源成分sl-1,c’に分解することができる。
Figure 2023542431000003

簡潔にするために、和演算子は混合を表すとするが、混合プロセスは、信号の単純な合計よりも複雑であることが多い。
本開示のいくつかの実施形態では、楽器の混合物から構成される聴覚的階層が分析される。いくつかの実施形態は、階層的定式化が任意のタイプの音源コンテンツとの混合物に適用され得る、という認識に基づく。
階層的音源分離
非階層的設定では、音源分離は、c=1,...,Cについて、入力音声混合物のスペクトログラムX∈CF×T内において所望の音源のセットを表す、C個の複素スペクトログラムS∈CF×Tを推定するものとして定式化することができる。この一般的な定式化においては、c≠dの場合、音源Sは音源Sと何らかの関係を有する必要はない。いくつかの実施形態では、所与の入力音声混合物Xについて、提案される音声処理システム101は、所与の階層の下で階層分離アルゴリズムを使用する階層的音源分離システムとして実現され、1つ以上のサブミックスを抽出することを試みることができる。サブミックスの各々は、レベルlにおいてなんらかの音源タイプSl,cに属するすべての音源に対応する。例えば、(図1Iに示すように)電気ギター、アコースティックギター、ピアノ、およびドラムを含む混合物からすべてのギター(アコースティックギターおよび電気ギター)を分離する。
図1Dは、一実施形態例による、親子階層107においてレベルごとに音源を抽出する1つのネットワークを伴う音声処理システム101を説明する図である。図1Dでは、ニューラルネットワーク105は、複数のニューラルネットワーク105a、105b、および105c(複数のニューラルネットワーク105a~105cとも呼ばれる)を備え、複数のニューラルネットワーク105a~105cの各ネットワークは、抽出された音源が階層的に配列されるように、音源ノード113a、113c、113dをそれらの対応するレベルで抽出する。この場合、複数のニューラルネットワーク105a~105cの各ネットワークは、特定の音源を抽出するために別々にトレーニングされる。抽出された音源113a、113c、113dは、予め定められた親子階層107(図1Dには図示せず)に基づいて階層的に配列される。
図1Eは、一実施形態例による、親子階層107においてすべてのレベルで音源を抽出する1つのネットワークを伴う音声処理システム101を説明する図である。この場合、ニューラルネットワーク105は、入力音声混合物からすべての音源113a、113c、113dを階層的な態様で抽出するよう、合同でトレーニングされる。さらに、抽出された音源113a,113c,113dは、予め定められた親子階層107(図1Eには図示せず)に基づいて階層的に配列される。上述のマルチレベルネットワークは、複数の音源を抽出するために1つのニューラルネットワークのみが使用されるので、音声処理システムのスケーラビリティを高めることができる。
特に、複数の音源をそれらの階層的関係に従って抽出するよう合同でトレーニングされるニューラルネットワーク105は、特定の音源のためにトレーニングされる異なるニューラルネットワーク105a、105b、および105cの組み合わせよりも効率的であり得る。
さらに、いくつかの実施形態は、階層的音源分離のために、音源別分離(SSS)ネットワークまたは例示による問い合わせ(QBE)ネットワークを使用して、ニューラルネットワーク105を実現する。
階層的音源別分離
Figure 2023542431000004
Figure 2023542431000005
Figure 2023542431000006

いくつかの実施形態では、階層を下る単一の経路(例えば、[弦/鍵]→[ギター]→[クリーンなギター]であり、「クリーン」は、アコースティックギターおよびオーバードライブまたは歪みが適用されていない電気ギターを示す)に沿ってN個のレベルに対してN個のマスクを出力する単一のネットワークが実現される。他の実施形態では、階層を下る複数の経路が同時に抽出される。他の実施形態では、階層のすべてのノードが考慮され抽出される。いくつかの実施形態では、ネットワークは、階層内の各リーフノードについてマスクを出力し、親に対応するサブミックスは、階層内を通りながらリーフ音源から再構成され、階層内のすべてのノードについて損失関数を組み合わせることによってニューラルネットワーク105をトレーニングする。
トレーニング中、ネットワーク105の目的は、抽出された複数の音源113a~113dを親子階層111のすべてのレベルLにおいて同時に再構築することである。すなわち、親子階層111の各レベルについてtPSA目的(式3)項があり、全体的な損失は、親子階層111におけるレベルLにわたる和である。ニューラルネットワーク105は、親子階層111の各レベルについて目的関数tPSAを最小にしながら、階層的制約の対象となる親子階層111の異なるレベルの音源に対するマスクを同時に出力するようにトレーニングされてもよい。
例示的な実施形態では、ネットワーク105が1つの親音源ノードおよび2つの子音源ノードを出力すると仮定すると、ネットワーク105は、第1の出力が常に親音源ノードに対応し、第2の出力が常に第1の子音源ノードに対応し、第3の出力が常に最後の子音源ノードに対応するように、トレーニングされる。すなわち、ネットワーク105のトレーニング中、親音源のための真のサブミックスは、ネットワーク105における第1の出力のためのターゲットとして使用され、第1の子音源ノードのための真の信号は、第2の出力のためのターゲットとして使用される等となるであろう。例示的な実施形態では、SSSネットワーク105は、1つの祖父->1つの親->1つの子の出力で構成されてもよい。
階層的な例示による問い合わせ(QBE)
音源階層において異なる音源間の相互関係を捕捉するために、いくつかの実施形態は、複数の楽器を、単一のネットワークを用いて、異なるレベルで分離する。レベルごとに1つのネットワークを使用する階層的SSSネットワークは、ネットワークが階層内において一度に1つのノードを学習することのみを可能にする。楽器階層を下る単一の経路に沿ってマルチレベルネットワークを使用する階層的SSSネットワークは、他の楽器をモデル化することはできない。階層のすべてのノードをモデル化する階層的SSSネットワークは、音源階層における異なる音源間の相互関係を抽出してもよいが、充分に現実的な階層は、おそらく多数のリーフノードを含む。これは、メモリおよび計算の問題ならびにすべての損失の寄与のバランスをとる困難につながり得る。これらの潜在的な問題を軽減するために、いくつかの実施形態では、音声処理システム101は、例示による問い合わせ(QBE)ネットワークを使用する。
QBEネットワークは、入力音声混合物から分離するために、混合物および所望の音源の例(またはクエリ音声)を入力として受け取る。QBEネットワークは、音源分離のために音源の階層全体(例えば楽器階層)をモデル化するために使用されてもよい。例示的な実施形態では、クエリ音声上での条件付けの代わりに、リーフノードラベル上で分離を条件付けてもよく、条件付き音源分離法の階層的拡張につながる。クエリ音声は、クラスラベルの一般化と見なされてもよい。QBEはさらに、推論中に未知の音源タイプに対して補間する能力を提供してもよい。
いくつかの実施形態では、音声処理システム101は、入力クエリ音声を入力音声混合物とともに受け入れ、入力クエリ音声と同じ音源タイプの音源で終わる、親子階層111に沿った経路に対応する抽出された複数の音源113a~1113dのうちのある部分を出力する。親子階層111に沿った経路は複数の音源ノードを含む。各音源ノードはあるタイプの音源に対応する。各音源ノードは、少なくとも1つの子音源を含む。各音源ノードは、兄弟音源ノードと組み合わせて、親音源ノードを形成する。
Figure 2023542431000007
QBEシステムは、ターゲット音源sn,cに基づいて式(3)においてtPSA目的を最小化するようにトレーニングされる。ニューラルネットワーク105をトレーニングするために使用されるターゲット音源は、クエリと階層内の所与のレベルとの両方によって判断される。例示的実施形態では、損失関数は、クエリ埋め込み空間上で直接定義される項を含む。
例示的実施形態では、QBEシステムは、以下のようにクエリ音声(例えばアコースティックギター)を使用してトレーニングされてもよい。アコースティックギタークエリは、対応する音源をリーフノードレベルで抽出しようと試みるニューラルネットワーク105をトレーニングするために使用される。その場合、ターゲットは、混合物中のすべてのクリーンなギターのサブミックスからなることになる。さらに、同じアコースティックギタークエリを使用して、対応する音源を1レベル上で抽出しようと試みるニューラルネットワーク105をトレーニングすることもできる。その場合、ターゲットは、クリーンなギターであるか否かにかかわらず、混合物中のすべてのギターのサブミックスからなる。さらに、QBEシステムは、入力音声クエリに関連付けられる音源ノードが音源の階層107の複数の音源ノードに存在しないとき、無音を出力するようにトレーニングされる。通知は、入力クエリ音声に関連付けられる音源ノードがないことを、ブザーまたはメッセージの形態で、ユーザに知らせてもよい。
別の実施形態では、単一レベルQBEネットワークが、階層内のあるレベルに対して実現され、そのレベルにおいて楽器を分離するのみでもよい。代替的に、階層の複数の(またはすべてでさえある)レベルを返す階層型マルチレベルQBEネットワークが実現されてもよい。そのために、いくつかの実施形態は、ネットワークの出力に対して階層的制約をさらに実施する。
階層的マスクに対する制約
いくつかの実施形態は、混合物の構成要素が何らかの階層に存在すると仮定することによって、構成要素の構造についての知識を用いてニューラルネットワーク105に制約を課してもよい、という認識に基づく。例えば、マルチレベル階層ネットワークによって生成されるマスクのセットを要求するために式(2)で定義される関係は、階層と同じ構造に従うよう使用されてもよい。すなわち、より高いレベルのマスクは、より低いレベルのマスクから構成される。
しかしながら、これは、階層内のすべてのノードに対してマスクを出力することを必要とする。それは、実際に遭遇する大きな階層に対しては実現可能ではない場合がある。したがって、階層全体の知識に依存しない階層的制約を課すことが用いられてもよい。この階層的制約は、階層内の、より高いレベルのマスクが、より低いレベルのマスクと少なくとも同じ量のエネルギーを配分しなければならないことを必要とする。より正確には、レベルlにおけるマスクは、
Figure 2023542431000008

いくつかの実施形態では、音声処理システム101は、ターゲット音源を示す入力データを受信するように構成される。音声処理システム101は、入力音声混合物から、ターゲット音源と、親子階層107に従ってターゲット音源の親とを抽出する。入力データは、親子階層におけるノードのラベルを含む。ラベルは、入力音声混合物から抽出されるべきターゲット音源の名前を記述するテキストデータなどの、ターゲット音源を示す情報を含んでもよい。例示的な実施形態では、ラベルは、ユーザの音声(スピーチ)信号を含んでもよい。音声(スピーチ)信号は、ユーザが入力音声混合物から抽出することを望むターゲット音源の名前を含む。
いくつかの実施形態では、音声処理システム101は、クエリ音声信号を含む入力データを受信する。ニューラルネットワーク105は、親子階層107に従って、クエリ音声信号に最も近い子音源と、その子音源の親とを分離するようにトレーニングされる。クエリ音声信号は、ターゲット音源と関連付けられる音声信号を含んでもよい。ターゲット音源を示す異なるタイプの入力データに基づいて音声処理システム101によって入力音声混合物からターゲット音源を抽出することの詳細な説明が、図1F~図1Hを参照して以下で提供される。
図1Fは、例示的な実施形態による、音声処理システム101におけるニューラルネットワーク105の異なる構成要素を示す概略図である。ここで、ネットワーク105は、音源別分離(SSS)のためにトレーニングされる。入力音声混合物信号125は、スペクトログラム抽出器モジュール127に提供される。スペクトログラム抽出器モジュール127は、入力音声混合物125のフレームのシーケンスについてスペクトログラムを生成するよう構成される。入力音声混合物スペクトログラムは、分離ニューラルネットワーク129によって処理される。分離ニューラルネットワーク129は、学習された重みの様々な層から構成され、行列乗算または畳み込み演算を介してメモリレス方式で入力を処理することができるか、またはメモリと再帰方式で接続される。各層はまた、1つ以上の非線形演算を有する。1つ以上の非線形演算は、分離ニューラルネットワーク129が、入力音声混合物信号125のスペクトログラムから、入力混合スペクトログラムと乗算されると分離されたスペクトログラムを回復する時間-周波数マスクへのマッピングを学習することを可能にする。分離ニューラルネットワーク129の出力は、マスク決定モジュール133に提供される。マスク決定モジュール133は、複数のマスクを、階層内のすべての関連するノードごとに1つ、出力する。マスク決定モジュール133は、スペクトログラムへのマスクの適用が対応する音源を抽出するように、ニューラルネットワーク105の出力を、親子階層111の異なるレベルにおける抽出された音源に対応するマスクのセットに形成するよう構成される。さらに、階層的制約は、親子階層111内のより高いレベルのマスクが、親子階層111内のより低いレベルのマスクと少なくとも同じ量のエネルギーを配分することを実施する。例示的な実施形態では、分離ニューラルネットワーク129は、それ自体がマスク決定モジュール133を含んでもよい。
さらに、SSSネットワーク131は、固定数の出力を、親子階層111内の関連するレベルごとに1つ、有するように予め指定されている。そのために、SSSネットワーク131は、親子階層111内の経路に沿ってN個のレベルに対応する複数のN個のマスクを生成するよう構成される。SSSネットワーク131は、親子階層111に基づいて、複数のマスクに対応する音源ノードを出力するよう構成される。したがって、SSSネットワーク131の出力は、親子階層111にマッチする順序を有する。
さらに、マスク決定モジュール133によって出力された各マスクは、音源セレクタ/補間器モジュール135に提供される。音源セレクタ/補間器モジュール135は、単一のマスク、例えば、1つの子もしくは親に対応するマスク、または出力する階層レベルマスクのサブセットを選択するよう構成される。音源セレクタ/補間器モジュール135は、分離されるべきターゲット出力(またはターゲット音源)に従ってマスクのセットからマスクを選択する。いくつかの実施形態では、音源セレクタ/補間器モジュール135は、マスク決定モジュール133によって形成された、親子階層内の単一の経路上のノードに対応するマスクを選択する。
さらに、音源セレクタ/補間器モジュール135は、例えば、子音源の80%を、親音源の20%が混合された状態で得るために、複数のマスク間で補間することができる。音源セレクタ/補間器モジュール135によって出力された各マスクは、次いで、入力音声混合物信号125の複素スペクトログラムと乗算されて、ターゲット音源信号に関連付けられるスペクトログラムを取得する。そのターゲット音源信号は、SSSシステム131がトレーニングされたターゲット音源タイプ(例えばギター)の階層に関連付けられている。
音源セレクタ/補間器モジュール135の出力は、スペクトログラムインバータモジュール137に提供される。ここで、音源が、入力音声混合物信号125の複素スペクトログラムから抽出され、出力信号139として提供される。スペクトログラムインバータモジュール137は、音源セレクタ/補間器モジュール135によって選択されたマスクをスペクトログラムに適用して、入力音声混合物から音源を抽出するよう構成される。例示的な実施形態では、音源セレクタ/補間器モジュール135は、スペクトログラムインバータモジュール137が補間されたマスクをスペクトログラムに適用して音源を抽出するように、少なくとも2つのマスクを補間する。別の例示的な実施形態では、スペクトログラムインバータモジュール137は、音源を抽出するために逆短時間フーリエ変換を実行する。このプロセスは、階層の各レベルに対応するマスクについて、または音源セレクタ/補間器モジュール135によって返される音源の任意の組合せについて、繰り返される。
図1Gは、例示的な実施形態による、音声処理システム101におけるニューラルネットワーク105の異なる構成要素を示す概略図である。ここで、ネットワーク105は、例示による問い合わせ(QBE)分離のためにトレーニングされる。QBEネットワーク147は、入力音声混合物信号125および入力クエリ音声141を得る。入力音声混合物信号125は、スペクトログラム抽出器モジュール127に提供され、そこで、入力音声混合物信号125の複素スペクトログラムが判断されてもよい。さらに、入力クエリ音声141は、クエリ抽出器143に提供される。クエリ抽出器143は、クエリ音声信号を処理してアンカーノードを得る。アンカーノードは、入力クエリ音声信号141内の情報をコンパクトな態様で符号化するために、QBEネットワーク147のために使用されるベクトルである。さらに、アンカーノード(またはアンカーベクトル)および入力音声混合物信号125の複素スペクトログラムは、連結モジュール145に提供される。アンカーノードは入力音声混合物信号スペクトログラムの各フレームと連結され、分離ニューラルネットワーク129に提供されて、システム101に提供されたクエリ音声信号141に最も類似する音源を入力音声混合物信号125から動的に抽出する。分離ニューラルネットワーク129は、親子階層111においてクエリ音声信号に最も類似する音源のマスクを表す出力を生成する。分離ニューラルネットワーク129は、図1FのSSSモデルに使用される分離ニューラルネットワークと同様であるが、連結されたクエリアンカーベクトルを収容するために、より大きい入力特徴ベクトルを伴う。
図1Hは、例示的な実施形態による、例示による問い合わせ(QBE)分離のためにトレーニングされたニューラルネットワーク105の異なる構成要素を示す概略図である。ここで、クエリは、入力ラベル149として提供される。QBEネットワーク147は、入力音声混合物信号125、およびクエリを入力ラベル149の形態で、取得する。入力ラベル149は、入力音声混合物125から分離されるべきターゲット音源を示すテキストであってもよい。別の実施形態では、入力ラベル149は音声(スピーチ)信号であってもよく、音声(スピーチ)信号は、入力音声混合物125から分離されるべきターゲット音源に対応してもよい。
入力音声混合物信号125は、スペクトログラム抽出器モジュール127に提供され、そこで、入力音声混合物信号125の複素スペクトログラムが判断されてもよい。さらに、入力ラベル149は、ラベル抽出器151に提供される。ラベル抽出器151は、入力ラベル149を処理し、入力ラベル149に対応するアンカーノードを判断する。例示的な実施形態では、異なる音源に対するアンカーノードが、予め定義され、メモリに記憶されてもよい。したがって、入力ラベル149を受信すると、ラベル抽出部151は、入力ラベル149に対応するアンカーノードを抽出してもよい。アンカーノードは、入力ラベル149内の情報をコンパクトに符号化するために、QBEネットワーク147のために使用されるベクトルである。さらに、アンカーノード(またはアンカーベクトル)および入力音声混合物信号125の複素スペクトログラムは、連結モジュール145に提供され、アンカーノードは入力音声混合物信号スペクトログラムの各フレームと連結され、分離ニューラルネットワーク129に提供されて、入力音声混合物信号125から、システム101に提供された入力ラベル149に最も類似する音源を動的に抽出する。分離ニューラルネットワーク129は、親子階層111において入力ラベル149に最も類似する音源のマスクを表す出力を生成する。分離ニューラルネットワーク129は、図1GのSSSモデルに使用される分離ニューラルネットワークと同様である。
図1Iは、例示的な実施形態による、QBEネットワーク147による複数の楽器の抽出および抽出された複数の楽器間の相互関係を示す。いくつかの実施形態では、QBEネットワーク147は、入力クエリ音声141および入力音声混合物125を得る。入力音声混合物信号125は楽器の階層(左下)を含んでおり、クエリ音声141を使用して、最も低いレベル(例えばギター)に最も近いターゲットを伴う階層の複数のレベル159に楽器を分離すると仮定する。クエリネットワーク147は、入力クエリ音声141に基づいて、アンカーノードを生成する。クエリネットワーク147は、各方向における600個のノードおよび0.3のドロップアウトを有する2つの双方向長短期メモリ(BLSTM)層から構成され、それに、各時間-周波数ビンを20次元の埋め込み空間にマッピングする線形活性化を伴う全結合層が続く。さらに、アンカーノードおよび入力音声混合物信号125は、連結され、マスキングネットワーク155に提供される。
マスキングネットワーク155は、SSSモデルと同じであり、連結されたクエリアンカーを収容するために、より大きい入力特徴ベクトルを伴う。マスキングネットワーク155は、各方向における600個の隠れユニットおよび0.3のドロップアウトを伴う4つの双方向長短期メモリ(BLSTM)層から構成され、それに、マスクを出力するシグモイド活性化関数を伴う全結合層が続く。マスキングネットワーク155は、複数の階層マスク157を生成する。階層マスク157は、入力音声混合物125のスペクトログラムと乗算されて、マルチレベル階層ターゲット音源159によって示されるように、複数の楽器を抽出し、抽出された楽器間の相互関係とを抽出してもよい。
図2Aは、本開示の例示的な実施形態による、入力音声混合物信号から複数の音源別音源を抽出するための音声処理システム200Aのトレーニングを示すフロー図である。システム101は、一般的な音源分離シナリオを示す。システム101は、ターゲット音声信号とノイズなどの潜在的に他の非ターゲット音源との混合物から複数のターゲット音声信号を推定する。入力音声混合物信号205は、複数の重複する音源の和を含み、音響混合信号および混合物205を構成する対応する分離された音源を含むトレーニングセット203からサンプリングされる。音源別の分離された音源201は、SSSネットワーク131がトレーニングされる、関連する階層的カテゴリ(例えばギター)に対応する分離された音源信号である。
入力音声混合物信号205は、スペクトログラム推定器207によって処理されて、音響混合物の時間-周波数表現を計算する。次いで、スペクトログラムは、記憶されたネットワークパラメータ209を使用して、SSSネットワーク131に入力される。SSSネットワーク131は、スペクトログラムの各時間-周波数ビンにおいて、階層における各関連する音源クラスの存在に関して判断を行い、マグニチュードマスク211のセットを推定する。階層の関連する経路における各音源に対して1つのマグニチュードマスクがある。強調されたスペクトログラムのセット213は、各マスクを入力音声混合物205の複素時間-周波数表現で乗算することによって、計算される。推定された音声信号波形215のセットは、強調されたスペクトログラム213の各々を、スペクトログラム推定器207によって計算された時間-周波数表現を反転する信号再構築プロセス217に通過させることによって、得られる。
次いで、強調されたスペクトログラム213は、ネットワークトレーニングモジュール221によってネットワークパラメータ209を更新するために使用され得る目的関数219に渡される。ネットワークパラメータは、式(3)のtPSA目的を使用して、およびADAMアルゴリズムなどの確率的勾配ベースの更新規則を使用して、強調されたスペクトログラム213をターゲット音源と比較することによって、更新される。ターゲット音源は、音源別の分離された音源201から、階層混合モジュール223を通過した後に、得られる。階層混合モジュール223は、階層内の子ノードからの分離された音源を共に結合して、親音源に対応するターゲット音声信号を生成する。例えば、分離されたアコースティックギターおよび電気ギター音声信号を結合して全ギター音声信号(親)を生成し、次いでこの全ギター音声信号をピアノ音声信号とさらに組み合わせて中音域弦楽器音声信号(祖父)を形成する。
図2Bは、本開示の例示的な実施形態による、入力音声混合物信号から複数の音源を抽出するための音声処理システム200Bのトレーニングを示すフロー図である。ここで、抽出される音源は、第2のクエリ音声信号の内容、すなわち、例示による問い合わせ(QBE)に基づく。このトレーニング手順は、図2AのSSSの場合と同様であるが、音声混合物および分離された音源203のトレーニングセットから、音声混合物信号およびその混合物を構成する分離された音源の音声信号だけでなく、音声混合物205を構成する音源信号の1つではない分離された音源信号に対応する音声クエリ225もサンプリングする。代替実施形態では、音声クエリは、クラスラベルで置き換えることができる。スペクトログラム推定器207は、音響混合物および音響クエリの両方について時間-周波数表現を計算する。
次いで、QBEネットワーク147は、音響混合物およびクエリの両方からのスペクトログラムを使用して、スペクトログラムの各時間-周波数ビンにおいて階層内の各関連する音源クラスの存在に関する判断を行い、マグニチュードマスク211のセットを推定する。階層のクエリ判定された関連する経路内における各音源に対して1つのマグニチュードマスクがある。強調されたスペクトログラムのセット213は、各マスクを入力音声混合物205の複素時間-周波数表現と乗算することによって計算される。目的関数219は、強調されたスペクトログラムのセット213を、クエリ関連の分離された音源227を使用して階層混合モジュール223から得られたターゲット音源と比較する。
図3は、本開示の例示的な実施形態による、単一チャネルマスク推論ネットワークアーキテクチャ300を示すブロック図である。入力音声混合物信号205から得られる特徴ベクトルのシーケンス、例えば、入力音声混合物信号205の短時間フーリエ変換の対数振幅を、混合物エンコーダ301への入力として使用する。例えば、シーケンスにおける入力ベクトルの次元はFであり得る。混合物エンコーダ301は、第1のBLSTM層303から最後のBLSTM層305まで、複数の双方向長短期メモリ(BLSTM)ニューラルネットワーク層から構成される。各BLSTM層は、順方向長短期メモリ(LSTM)層と逆方向LSTM層とから構成され、それらの出力は結合され、次の層によって入力として使用される。たとえば、第1のBLSTM層303内の各LSTMの出力の次元はNであり得、最後のBLSTM層305を含むすべての他のBLSTM層内の各LSTMの入力次元および出力次元の両方はNであり得る。最後のBLSTM層305の出力は、線形ニューラルネットワーク層307および非線形性309を含むSSSネットワーク131への入力として使用される。時間-周波数領域、例えば短時間フーリエ変換領域における各時間フレームおよび各周波数について、線形層307は、最後のBLSTM層305の出力を使用してC個の数を出力する。ここでCは分離されるべきターゲット音源の数である。非線形性309は、各時間フレームおよび各周波数についてこのC個の数のセットに適用される。各時間フレーム、各周波数、および各ターゲット音源について、その時間フレームおよびその周波数における、入力音声混合物信号205におけるそのターゲット音源の優位を示すマスク値をもたらす。マスクからの分離符号化推定モジュール311は、これらのマスクを、マスクが推定された時間-周波数領域、例えば振幅短時間フーリエ変換領域における入力混合物の表現と共に使用して、各ターゲット音源に対する分離符号化を出力する。例えば、マスクからの分離符号化推定モジュール311は、ターゲット音源に対するマスクに入力混合物の複素短時間フーリエ変換を乗算して、あたかも分離して観察されたかのように、そのターゲット音源に対する分離された信号の複素短時間フーリエ変換の推定値を得ることができる。
トレーニング:
例示的な実施形態では、複数の楽器の音声混合物から複数の音源(楽器)を抽出し、さらに、抽出された複数の音源間の相互関係を判断するように、音声処理システム101をトレーニングするために、階層的に組み合わせることができる多くの楽器の分離された音源を有する大きなデータセットで音声処理システム101をトレーニングすることが必要とされる。データセットは、データセット内のあらゆる楽器について、多種多様な粒度の音源ラベル、すなわち、「ギター」だけでなく、「アコースティックギター」、「電気ギター」、「エフェクトされたギター」などを含むべきである。
いくつかの実施形態では、Slakh2100データセットが、音声処理システム101をトレーニングするために使用される。Slakh2100データセットは、2100個の音楽混合物を、分離された音源とともに含む。このデータセットは、34の楽器カテゴリに分割された145時間の混合物データを有する。さらに、ニューラルネットワーク105がSlakh2100データセットから階層を学習することを可能にするために、Slakh2100データセットは、Slakhの含まれる楽器カテゴリからの楽器階層を含むよう、さらに修正される。階層は、3つのレベル(すべての音源の混合物からなる自明なレベルを除外する)で定義されてもよい。最上位レベルは、4つのカテゴリ:中音域弦楽器および鍵盤楽器(ギター、キーボード、およびオーケストラの弦楽器)、低音域楽器(音響バスおよび電気ベース)、管楽器(フルート、リード楽器、および金管楽器)、ならびに打楽器(ドラムセットおよび半音階打楽器)を含む。中間レベルは7つのカテゴリ(例えば、中音域弦楽器から:オーケストラの弦楽器、ギター、キーボード、および電気キーボード)を有し、最下位レベルは18個のカテゴリ(例えば、ギターから、クリーンなギターおよびエフェクトされたギター)を有する。
さらに、データセットから例を選択するために、図4Aに示されるように、階層の異なるレベルに対応する、各トラックのための複数の瞬時サブミックスが作成されてもよい。
図4Aは、例示的実施形態による、階層的単一楽器音源別分離(SSS)ネットワークをトレーニングおよび試験するために使用される階層レベルの内容を図示する、表1を示す。最も高いレベルでは、すべてのピアノ、ギター、および弦楽器が1つの音源と見なされ、次のレベルでは、すべてのギターが1つの音源と見なされ、最も低いレベルでは、クリーンなギターのみが1つの音源と見なされる。データセット内の各混合物について、2.5秒のホップサイズを伴う、10秒チャンクでの各階層サブミックスの顕著性が計算される。サブミックスの音源がそのチャンクにおいて-30dBを超えるエネルギーを有する場合、それは顕著であると考えられる。複数のレベルを伴う実験について、所与のノードについて、それの親音源ノード(または祖父)が、それ自体以外の子音源ノードからのエネルギーを有することが保証されてもよい。言い換えれば、親音源ノードが子音源ノードと厳密に同じではないことが保証され、これは、子音源ノードの兄弟または従兄弟のいくつかも顕著であることを意味する。
例示的な実施形態では、Slakh200-split2階層化が使用され、音声は16kHzでダウンサンプリングされる。音声混合物を生成するための音源(ここでは楽器)の混合は、オンザフライで行われ、チャンクは、特定の実験について顕著な例のプールからランダムに選択される。トレーニングのために、ニューラルネットワーク105は、エポックあたり(≒55.5h)20,000例を利用し、さらに、3,000例(≒8.3h)が、検証および試験セットのために使用される。SSSネットワーク131に対して充分な例がトレーニングのために使用され、充分に豊富な階層がトレーニングのために使用されたことを確実にするために、音源は、表1に示されるように親子階層111の経路を下って分離される。別の実施形態では、提案される方法は、他の階層を下る他の経路に拡張することができる。さらに、QBEネットワーク147については、親子階層111内のすべての楽器タイプが分離されてもよい。クエリ音声チャンクは、顕著なチャンクのプールから、それらが、ターゲットレベルにかかわらず、常にターゲットと同じ経路に沿ったリーフノードであるように、選択されるが、異なるトラックに由来する。さらに、我々のモデルの出力品質を判断するために、スケール不変音源対歪み比(SI-SDR)が使用される。参考までに、SI-SDRは、ミックスに対して処理が行われないときに報告される。
例示的な実施形態では、4つのタイプの階層的音源分離モデルが評価されてもよい。音源分離モデルは、2次元、すなわち、それらがシングル楽器(すなわち、音源別分離、すなわちSSS)であるかまたはマルチ楽器(すなわち、例示による問い合わせ、すなわちQBE)であるか、およびそれらが単一レベルを出力するか複数レベルを出力するか、に沿って変化する。以下、各構成について説明する。
シングル楽器、シングルレベル:1つの階層経路に沿った階層の1つのレベルに各々が対応する楽器別SSSモデルのトリオ。
シングル楽器、マルチレベル:マスクの階層セットを出力する1つのSSSモデルであり、単一の階層経路のすべてのレベルで同時に分離する。
マルチ楽器、シングルレベル:入力クエリ音声によって決定されるように、階層の1つのレベルで1つのマスクを出力するマルチ楽器QBEモデルのトリオ。
マルチ楽器、マルチレベル:入力クエリによって決定される経路に沿って階層のすべてのレベルに対してマスクの階層的セットを出力する1つのQBEモデル。
シングル楽器モデルの場合、音源は、表1で参照されるように階層の1つの経路に沿って分離される。マルチ楽器、マルチレベルモデルは、クエリに基づいて音源を分離するようにトレーニングされ、したがって、シングル楽器、マルチレベルの場合のようにたった1つの経路ではなく、全階層(すなわち、すべての楽器)を学習することができる。マルチレベルモデルについては、制約の影響が試験される。さらに、マルチレベルモデルがリーフの音源に関する限られたデータでどの程度よく学習するかも試験される。これを行うために、3レベルSSS131およびQBE147モデルは、リーフグラウンドトゥルースが時間の50%または90%のいずれかで利用できないという仮定の下でトレーニングされ、その場合、上位レベルのみが目的関数に直接関与する。比較のために、すべてのノードがトレーニング中の時間の50%または90%欠落しているモデルを評価する。これらの実験により、マルチレベルネットワークがリーフノードにおいて親子階層111のより高い(すなわち、より粗い)レベルをどれほどうまく活用することができるかわかる。そのような能力は、典型的には、細粒度のグラウンドトゥルース音源を有するデータを収集することは、混合物および広いカテゴリで集められた少数の音源成分のみを有するデータと比較して、より困難であるため、特に有利であろう。
すべての単一レベルおよびマルチレベルネットワークは、同じアーキテクチャを有する。SSSモデルは、各方向における600個の隠れユニットおよび0.3のドロップアウトを伴う4つの双方向長短期メモリ(BLSTM)層から構成され、それに、マスクを出力するシグモイド活性化関数を伴う全結合層が続く。QBEモデルは、クエリネットとマスキングネットとの2つのサブネットワークから構成される。クエリネットは、各方向における600個のノードおよび0.3のドロップアウトを有する2つのBLSTM層から構成され、それに、各時間-周波数ビンを20次元の埋め込み空間にマッピングする線形活性化を伴う全結合層が続く。マスキングネットは、SSSモデルと同じであり、連結されたクエリアンカーを収容するよう、より大きい入力特徴ベクトルを有する。
すべてのモデルは、Adamオプティマイザを用いて、100エポックで1e-4の学習率および25のバッチサイズでトレーニングされた。検証セット上の損失が5つの連続したエポックについて減少しなかった場合、学習率を半分にした。ミニバッチのノルムがその値を上回る場合、勾配を履歴勾配ノルムの10パーセンタイルにクリップした。
結果:
図4Bは、例示的な実施形態による、階層的SSS(ギター)およびQBEモデルについてのSI-SDR(dB)の改善を示す表2を示す。各モデルは、異なるレベルの粒度において音源に対して生成されるマスクに対する階層的制約(HC)を用いて、または制約なしのいずれかで、トレーニングされる。表2では、マルチレベル階層ネットワークに対する階層的制約(HC)の影響が調べられる。さらに、音源別分離(SSS)ネットワーク131(この場合、ギターのみを分離する)について、HCは、すべてのレベルで性能をわずかに低下させることが観察され、SSSモデルは、追加の支援なしに、異なるレベルでの単一の音源(この場合、ギター)についての特定の階層的関係を学習できることを示す。例示による問い合わせ(QBE)ネットワーク147(すべてのタイプの楽器を分離する)の場合、HCは、レベル2において性能をわずかに妨げるが、リーフノード(レベル1)に対してはかなり役立つ。さらに、QBEネットワーク147は、任意の個々の音源の特定のマスク「形状」を学習することができず、したがって、HCによって提供される追加の支援を必要とするので、QBEネットワーク147は、より多くの利益を提供すると仮定される。したがって、すべての後続の実験において、HCはQBEネットワーク147に対しては含まれるが、SSSネットワーク131に対してはそれを省略する。
図4Cは、例示的な実施形態による、非階層的および階層的なSSSならびにQBEモデル結果をSI-SDR(dB)に関して示す表3を示す。表3において、Δは、ノイズのある混合物に対する改善を示す。SSSネットワーク131は、クリーンなギターを含む親子階層111において音源を分離するようトレーニングされるのみであるが(表1参照)、QBEネットワーク147は、階層における任意の音源を分離する。ここで、単一レベルネットワーク(「1」で示す)が、マルチレベルネットワーク(「3」で示す)と比較される。3つのレベルすべてに対して1つのみのマルチレベルネットワークがあるが、3つの単一レベルネットワークが(各レベルに対して1つ)ある。表3は、表2からの結果上で拡大し、SSSおよびQBE分離モデルの両方に対する単一レベルならびにマルチレベル階層モデルからの結果を比較する。両方の場合において、マルチレベル階層ネットワークは、単一レベルモデルよりも改善され、最大の利得は、より低い階層レベルで生じる。これは、ネットワークが階層についてのそれらの共有された知識を活用して、個々の楽器がミックスにおいて識別するのがより困難な、より低いレベルで、ネットワークそれら自体を支援することができることを意味する。
表3のレベル1の結果から、この詳細の細かいレベル(例えば、クリーンな電気ギター対歪んだ電気ギター)で音源を分離することは、特に、いくつかの異なる楽器タイプが類似して聞こえる場合がある、Slakh2100などのMIDI合成されたデータセットでは、極めて困難であることが観察される。実際、これらの細かい粒度の音源を分離するだけのために単一のネットワークをトレーニングしようと試みると、その単一のネットワークは、レベル1の音源に対する#lvls=1(単一レベル)行における負のSI-SDR改善によって示されるように失敗する。ネットワークを複数のレベルでトレーニングすることは、これをある程度同時に軽減するが、マルチレベルネットワークはレベル1とレベル2との間でほぼ同一の分離された音源を出力することがあることに気付く。さらに、最高出力SI-SDR値は、表3においてレベル3の音源を分離するときに得られる。したがって、より細かい粒度レベル(1および2)で音源を分離することは、音楽音源分離において典型的に試みられるものよりも困難である。
図4Dは、例示的実施形態による、(太い破線によって分離される)階層的SSSおよびQBEモデルについて未処理の音声ミックス(「Mix」)を上回るSI-SDR改善(dB)を示す表4を示す。各モデルは、データの、指定されたパーセンテージについて、リーフだけ(「リーフ」)または例全体(「すべて」)のいずれかを除去しながら、トレーニングされる。リーフノードだけを90%まで低減することは、リーフのすべてを使用することと比較して、SSSネットワーク131についてはわずか0.3dBのドロップを示し、QBEネットワーク147については0.8dBのドロップを示す。さらに、表4において、トレーニングセットからリーフ音源(レベル1の音源、ギターの例については表1を参照)を除去する効果を観察することができる。データのすべてを50%または90%減少させることと比較して、リーフのみを減少させることの性能は、非常に最小に低下する。データがより高いレベルではリッチであるが、より低いレベルではスパースなデータである場合、階層型マルチレベルネットワークは、より低いレベルを分離する際に相応のジョブを行うことができる。同様に、SSSネットワーク131およびQBEネットワーク147の両方について、少量のリーフデータでさえ、性能の大きな低下をかわすのに役立ち得る。
したがって、本開示は、音源分離問題を階層的として再構成することによって、異なるレベルの粒度で音源を同時に分離する学習の利点を実証する。
図5は、例示的な実施形態による、音声処理システム101による異常検出を示す。図5には、製造生産ライン501と、トレーニングデータプール503と、機械学習モデル505と、音声処理システム101とを含むシナリオ500が示されている。製造生産ライン501は、製品を製造するために協働する複数のエンジンなどの複数の構成要素を含む。さらに、生産ライン501は、センサを用いてデータを収集する。センサは、デジタルセンサ、アナログセンサ、およびこれらの組み合わせであってもよい。収集されたデータは、2つの目的を果たし、一部のデータは、トレーニングデータプール503に記憶され、機械学習モデル503をトレーニングするためのトレーニングデータとして使用され、一部のデータは、異常を検出するために音声処理システム101によって動作時間データとして使用される。同じデータが、機械学習モデル503と音声処理システム101との両方によって使用されてもよい。
製造生産ライン501において異常を検出するために、トレーニングデータが収集される。トレーニングデータプール503内のトレーニングデータは、ニューラルネットワーク105をトレーニングするために、機械学習モデル505によって使用される。トレーニングデータプール503は、ラベル付けされたデータまたはラベル付けされていないデータのいずれかを含むことができる。ラベル付けされたデータは、ラベル、例えば、異常または正常でタグ付けされ、ラベル付けされていないデータは、ラベルを有さない。トレーニングデータのタイプに基づいて、機械学習モデル505は、異なるトレーニング手法を適用して異常を検出する。ラベル付けされたトレーニングデータの場合は、典型的には教師あり学習が使用され、ラベル付けされていないトレーニングデータの場合は、典型的には教師なし学習が適用される。このように、異なる実施形態は、異なるタイプのデータを処理することができる。さらに、製造生産ライン501において異常を検出することは、製造生産ライン501に含まれる複数のエンジンの各エンジンにおいて異常を検出することを含む。
機械学習モデル503は、音源に関係付けられる正常データパターンおよび異常データパターンを含む、トレーニングデータの特徴およびパターンを学習する。音声処理システム101は、トレーニングされたニューラルネットワーク105および収集された動作時間データ507を使用して異常検出を実行する。動作時間データ507は、複数のエンジンに関係付けられる複数の音源信号を含んでもよい。さらに、システム101は、音源の階層107に格納される異なるタイプのエンジンの予め定められた階層的関係または順序を含む。異なるタイプのエンジンの階層的順序は、音源の階層107において予め定義される。この階層的順序は、エンジンの、異なる音声プロパティに基づいて、(例えば、特定のエンジンによって生成される音の周波数範囲などに基づいて、)決定されてもよい。
動作時間データ507を受信すると、システム101は、ニューラルネットワーク105を使用する。ニューラルネットワーク105は、動作時間データ507を、動作時間データ507に含まれる異なる音源に対して親子階層を実施する階層的制約の対象とする。親子階層における親音源は、それの1つ以上の子音源の混合物であるように、構成される。音声処理は、動作時間データ507から異なる音源を抽出し、抽出された音源の相互関係を親子階層に従って抽出してもよい。階層的順序におけるエンジンの音の分離は、製造生産ライン501に含まれる異なるエンジン間の関係を提供する。これにより、ユーザは、複数のエンジンの各エンジンの音を分析することができるので、製造生産ライン501を粒状レベルで分析することができる。
さらに、音声処理システム101の出力は異常検出器523に提供される。異常検出器523は、抽出された音源と抽出された音源間の相互関係とに基づいて異常を検出するよう構成される。異常検出器523は、動作時間データ507を正常または異常として特定する。たとえば、正常データパターン509および511を使用して、トレーニングされたニューラルネットワーク105は、動作時間データを正常データ513と異常データ515とに分類してもよい。例えば、動作時間データX1 517およびX2 519は正常として分類され、動作時間データX3 521は異常として分類される。異常が検出されると、コントローラ525を使用して、検出された異常に基づいて必要なアクション527を行ってもよい。
図6Aは、例示的な実施形態に従う、音声ズーミングアプリケーションで利用される階層的音声分離を示す。音声ズーミングアプリケーションは、音源の階層構造を使用して音声混合物からの周囲のコンテキストのレベルを変化させながら、1つの特定の音源に、より焦点を合わせることを可能にする。例えば、音声分離システム101は、歌手、ならびにギター、ドラム、ピアノ、チェロ、およびバイオリンなどの異なる楽器の音を含む楽曲を、入力として受信する。楽曲を受信すると、音声分離システム101は、予め定められた階層的順序(例えば親子階層111)から、異なる音のオントロジを抽出してもよい。
この例では、最も具体的な抽出された音源113cはギターであり、それの親113bは、すべての中音域弦楽器、すなわちギター、ピアノおよびバイオリンを含み、祖父113aは、楽曲全体におけるすべての音源を含む。音の階層的分離は、ユーザが、音声ズームコントローラ601を使用し、選択された楽器(例えばギター)からの音に、より焦点を合わせたり、同様の楽器(すなわち、階層における次のレベルアップ、この例では中音域弦楽器)からの音も聞くようにズームアウトしたり、または元の音声混合物を聞くようにさらにズームアウトしたりすることを可能にする。ユーザズーム制御601の設定に基づいて、混合重み603のセットが生成され、音声ミキサ605に供給される。音声ミキサは、混合重み603を使用して、階層111から抽出された音源の各々を結合して、傾聴のための出力信号を生成する。
図6Bは、例示的な実施形態による、ズーム制御ノブ601を示し、ズーム制御ノブ601の位置が音声ズーミングのために混合重みに変換されるのを示す図である。ズーム制御ノブ601は、その特定のレベルで入力音声混合物から抽出された異なる音源を混合するために使用される重みを示す比率のインジケータ609を備える。ここで、音源は、音声処理システム101を使用することによって抽出される。例えば、ノブが位置Aに設定されると、混合重みは、混合重み607aによって示されるように、子音源(例えばギター)のみが音声ミキサによって出力されるように、調整される。この場合、子音源のみに重みが割り当てられ、祖父および親音源には重みは割り当てられない。同様に、位置Bでは、混合重み607bは、子音源(例えばギター)と親音源(例えば中音域弦楽器)との混合物である。中点位置Cは親音源607cのみを出力し、位置D 607dは親音源と祖父音源との間で補間し、位置E 607eは祖父音源(例えば元の音声混合物)のみを出力する。このようにして、音声処理システム101は、特定のレベルで、示された比率に比例して、抽出された音源を出力する。
例示的な実現例
図7は、いくつかの実施形態による、コンピュータベースの音声処理システム700のブロック図を示す。コンピュータベースの音声処理システム700は、システム700を他のシステムおよびデバイスと接続するいくつかのインターフェイスを含む。システム700は、入力音声混合物信号125および入力クエリ音声信号141を受け入れるよう構成される入力インターフェイス701を含む。入力デバイス705はマイクロフォンとすることができる。追加的または代替的に、コンピュータベースの音声処理システム700は、入力音声混合物信号125および入力クエリ音声信号141を様々な他のタイプの入力インターフェイスから受信することができる。いくつかの実施形態では、システム700は、入力音声混合物信号125および入力クエリ音声信号141を入力デバイス705から取得するよう構成される音声インターフェイスを含む。いくつかの他の実施形態では、入力インターフェイス701は、有線および無線ネットワークのうちの1つまたは組み合わせであり得るネットワーク705を介して、入力音声混合物信号125および入力クエリ音声信号141を取得するよう構成される、ネットワークインターフェイスコントローラ(NIC)703を含む。
ネットワークインターフェイスコントローラ(NIC)703は、システム700を、バス707を介して、システム700を感知デバイス(例えば、マイクロフォン等の入力デバイス705)に接続するネットワーク705に、接続するよう適合される。加えて、または代替として、システム700は、ヒューマンマシンインターフェイス(HMI)709を含むことができる。システム700内のヒューマンマシンインターフェイス709は、システム700をキーボード711およびポインティングデバイス/媒体713に接続する。ポインティングデバイス/媒体713は、とりわけ、マウス、トラックボール、タッチパッド、ジョイスティック、ポインティングスティック、スタイラス、またはタッチスクリーンを含むことができる。
システム700は、メモリ103に記憶された命令を実行するよう構成されるプロセッサ109を含む。プロセッサ109は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスタ、または任意の数の他の構成であり得る。メモリ103は、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、フラッシュメモリ、または任意の他の好適なメモリシステムを含むことができる。プロセッサ109は、バス707を介して1つ以上の入力および出力デバイスに接続されることができる。
命令は、入力クエリ音声141に基づいて入力音声混合物信号125から複数の音源を抽出する、音声処理のための方法を実現することができる。抽出された複数の音源は、入力クエリ音声141と同様の音を生成する。そのために、コンピュータメモリ103は、入力音声混合物から、入力音声混合物125に含まれる複数の音源を抽出するようにトレーニングされたニューラルネットワーク105を記憶する。抽出された複数の音源は、抽出された複数の音源の親子階層111を実施する音声プロパティの階層的制約を受ける。抽出された複数の音声の親子階層111は、音源の階層107に基づいて決定される。音源の階層107は、予め決定されており、入力音声混合物に関連付けられるすべての可能な音源のセットと、そのセット内における音源間の相互関係とを含む。
音声処理システム700は、抽出された複数の音源の少なくとも一部をレンダリングするよう構成される出力インターフェイス715を含む。別の実施形態では、出力インターフェイスは、ニューラルネットワーク105が、音源の階層107に、入力クエリ音声141に類似する音源が存在しない、と判断すると、通知を出力する。通知は、表示装置717に表示されるメッセージであってもよい。別の実施形態では、ユーザは、ブザー音を生成することによって通知されてもよい。いくつかの他の実施形態では、音声処理システム700は、無音を示すよう、音声を出力しなくてもよい。そのような無音は、入力クエリ音声141に類似する音源がないという指示に対応する。
表示装置717の例は、とりわけ、コンピュータモニタ、テレビ、プロジェクタ、またはモバイルデバイスを含む。システム700はまた、様々なタスクを実行するためにシステム700を外部デバイス721に接続するよう適合されたアプリケーションインターフェイス719にも接続されることができる。
図8は、例示的な実施形態による、入力音声混合物から複数の音源を抽出するために実現される方法800のステップを示す。ステップ801において、音声混合物信号を取得してもよい。入力音声混合物は、複数の異なる音源からの複数の音声信号を含む。例えば、入力音声混合物は、ギター、ピアノ、ドラムなどの複数の楽器の音を含んでもよい。入力音声混合物信号は、ニューラルネットワーク105に提供されてもよい。
ステップ803において、入力音声混合物に存在する複数の音源が、抽出された音源の相互関係とともに抽出されてもよい。ここで、相互関係は、複数の音源の親子階層(例えば親子階層111)に基づく。そのために、ニューラルネットワーク105は、親子階層の中の親音源がそれの1つ以上の子音源の混合物であるように、音源に対して親子階層を実施する階層的制約の下、音声混合物から音源を分離するようにトレーニングされる。したがって、ニューラルネットワーク105は、入力音声混合物から、入力音声混合物に含まれる複数の音源信号を抽出する。入力音声混合物は、抽出された複数の音源信号に対応する複数の音源の親子階層を実施する階層的制約を受ける。したがって、ステップ801において入力音声混合物を受信したことに応答して、ニューラルネットワーク105は、複数の音源を抽出し、抽出された複数の音源の少なくとも一部分をレンダリングする。
ステップ805において、抽出された複数の音源の少なくとも一部分がレンダリングされてもよい。次いで、抽出された複数の音源の少なくとも一部分を用いて、各およびすべての抽出された音源をより詳細に分析してもよい。これは、音源自体の異常を判定する際に有用であり得る。
実施形態
本記載は、例示的な実施形態のみを与え、本開示の範囲、適用性、または構成を限定することを意図しない。むしろ、例示的な実施形態の以下の説明は、1つ以上の例示的な実施形態を実現するための実施可能な説明を当業者に提供する。企図されるのは、特許請求の範囲に記載されるように開示される主題の精神および範囲から逸脱することなく、要素の機能および構成において行われ得るさまざまな変更である。
以下の説明では、実施形態の完全な理解のために、具体的な詳細が与えられる。しかしながら、当業者によって理解されることは、実施形態がこれらの具体的な詳細なしで実施され得ることであり得る。たとえば、開示される主題におけるシステム、プロセス、および他の要素は、不必要な詳細で実施形態を不明瞭にしないように、ブロック図の形態の構成要素として示される場合がある。他の例では、周知のプロセス、構造、および技術は、実施形態を不明瞭にすることを回避するために、不必要な詳細を伴わずに示される場合がある。さらに、さまざまな図面における同様の参照番号および名称は、同様の要素を示した。
また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として示されるプロセスとして説明されてもよい。フローチャートは、動作を順次プロセスとして説明し得るが、動作の多くは、並列にまたは同時に実行することができる。加えて、動作の順序は並べ替えられてもよい。プロセスは、その動作が完了したときに終了してもよいが、論じられていない、または図に含まれていない追加のステップを有してもよい。さらに、特に説明される任意のプロセスにおけるすべての動作が、すべての実施形態において生じ得るわけではない。プロセスは、メソッド、関数、プロシージャ、サブルーチン、サブプログラムなどに対応してもよい。プロセスが関数に対応するとき、関数の終了は、呼び出し関数またはメイン関数への関数の復帰に対応することができる。
さらに、開示される主題の実施形態は、少なくとも部分的に、手動または自動のいずれかで実現されてもよい。手動または自動実現例は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、もしくはそれらの任意の組合せの使用を通じて実行されてもよく、または少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実現されるとき、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、機械可読媒体に記憶されてもよい。必要なタスクはプロセッサが実行してもよい。
さらに、本開示の実施形態および本明細書で説明される機能動作は、デジタル電子回路、有形に具現化されるコンピュータソフトウェアまたはファームウェア、本明細書で開示される構造およびそれらの構造的均等物を含むコンピュータハードウェア、またはそれらの1つ以上の組合せにおいて実現され得る。さらに、本開示のいくつかの実施形態は、1つ以上のコンピュータプログラム、すなわち、データ処理装置によって実行するために、またはデータ処理装置の動作を制御するために有形の非一時的プログラム担体上に符号化されたコンピュータプログラム命令の1つ以上のモジュールとして実現され得る。さらに、プログラム命令は、人工的に生成された伝搬信号、例えば、データ処理装置による実行のために適切な受信装置への送信のために情報を符号化するよう生成される機械生成された電気、光、または電磁信号上に符号化することができる。コンピュータ記憶媒体は、機械可読記憶装置、機械可読記憶基板、ランダムもしくはシリアルアクセスメモリデバイス、またはそれらの1つ以上の組合せとすることができる。
本開示の実施形態によれば、「データ処理装置」という文言は、例として、プログラム可能なプロセッサ、コンピュータ、または複数のプロセッサもしくはコンピュータを含む、データを処理するためのすべての種類の装置、デバイス、およびマシンを包含することができる。装置は、専用論理回路、例えばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)を含むことができる。本装置はまた、ハードウェアに加えて、当該コンピュータプログラムの実行環境を生成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらの1つ以上の組合せを構成するコードを含むことができる。
コンピュータプログラム(これらは、プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、またはコードとも呼ばれ、または記載され得る)は、コンパイルされたもしくは解釈された言語、または宣言型言語もしくは手続き型言語を含む任意の形態のプログラミング言語で記述することができ、独立型プログラムとして、またはモジュール、コンポーネント、サブルーチン、もしくはコンピューティング環境での使用に適した他のユニットとして含む任意の形態で展開することができる。コンピュータプログラムは、ファイルシステム内のファイルに対応してもよいが、対応する必要はない。プログラムは、他のプログラムまたはデータを保持するファイルの一部、例えばマークアップ言語ドキュメントに格納された1つ以上のスクリプト、問題のプログラム専用の単一のファイル、または複数の協調ファイル、例えば1つ以上のモジュール、サブプログラムもしくはコードの一部を格納するファイルに格納することができる。コンピュータプログラムは、1つのコンピュータ上、または1つのサイトに位置するか、もしくは複数のサイトにわたって分散され、通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように展開することができる。コンピュータプログラムの実行に適したコンピュータは、一例として、汎用マイクロプロセッサもしくは専用マイクロプロセッサもしくはその両方、または任意の他の種類の中央処理ユニットを含み、例えばそれらに基づくことができる。一般に、中央処理ユニットは、読み取り専用メモリもしくはランダムアクセスメモリまたはその両方から命令およびデータを受信する。コンピュータの必須要素は、命令を実行するための中央処理ユニット、ならびに命令およびデータを格納するための1つ以上のメモリデバイスである。一般に、コンピュータはまた、データを格納するための1つ以上の大容量記憶装置、例えば、磁気ディスク、光磁気ディスク、もしくは光ディスクを含むか、またはそれらからデータを受信するか、もしくはそれらにデータを転送するか、もしくはその両方を行うように動作可能に結合されることにもなる。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。さらに、コンピュータは、数例を挙げると、別のデバイス、例えば、携帯電話、携帯情報端末(PDA)、モバイル音声もしくはビデオプレーヤ、ゲームコンソール、全地球測位システム(GPS)受信機、または携帯型記憶装置、例えばユニバーサルシリアルバス(USB)フラッシュドライブに組み込むことができる。
ユーザとの対話を提供するために、本明細書で説明される主題の実施形態は、ユーザに情報を表示する表示装置、例えばCRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ、ならびにキーボードおよびポインティングデバイス、例えばマウスまたはトラックボールを有するコンピュータ上で実現され得、これにより、ユーザは、コンピュータに入力を提供することができる。他の種類のデバイスも、ユーザとの相互作用を提供するために用いることができる。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックとすることができる。ユーザからの入力は、音響入力、音声(スピーチ)入力、または触覚入力を含む任意の形態で受信され得る。さらに、コンピュータは、ユーザによって用いられるデバイスにドキュメントを送信し、デバイスからドキュメントを受信することによって、例えば、ウェブブラウザから受信された要求に応答して、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。
本明細書で説明する主題の実施形態は、例えばデータサーバとしてバックエンドコンポーネントを含む、または例えばアプリケーションサーバなどのミドルウェアコンポーネントを含む、またはフロントエンドコンポーネント、例えばユーザが本明細書に記載される主題の実現例と対話できるグラフィカルユーザインターフェイスもしくはウェブブラウザを有するクライアントコンピュータ、または1つもしくは複数のそのようなバックエンドコンポーネント、ミドルウェアコンポーネントもしくはフロントエンドコンポーネントの任意の組合せを含む計算システムにおいて実現され得る。システムのコンポーネントは、任意の形態または媒体のデジタルデータ通信、例えば通信ネットワークによって相互接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)およびワイドエリアネットワーク(「WAN」)、例えばインターネットを含む。
コンピューティングシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは、一般に、互いに遠隔であり、一般に、通信ネットワークを介して対話する。クライアントとサーバとの関係は、それぞれのコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによって生じる。
本開示は特定の好ましい実施形態を参照して説明されたが、本開示の精神および範囲内でさまざまな他の適合および変更を行うことができることを理解されたい。したがって、本開示の真の精神および範囲内に入るそのようなすべての変形および修正を包含することは、特許請求の範囲の態様である。

Claims (20)

  1. 音声処理システムであって、
    音声混合物を処理して、前記音声混合物中に存在する音源のセットの少なくともサブセットの推定を出力するようにトレーニングされたニューラルネットワークを記憶するよう構成されるメモリを備え、前記音源は、前記音源のセットに対して親子階層を実施する階層的制約を受け、前記親子階層内の親音源がそれの1つ以上の子音源の混合物を含むようにされ、前記サブセットは、少なくとも1つの親音源と、それの子音源のうちの少なくとも1つとを含み、前記音声処理システムはさらに、
    入力音声混合物を受信するよう構成される入力インターフェイスと、
    前記ニューラルネットワークを使用して前記入力音声混合物を処理して、前記音源のサブセットの推定値、および前記親子階層に従ったそれらの相互関係を抽出するよう構成されるプロセッサと、
    前記抽出された音源およびそれらの相互関係をレンダリングするよう構成される出力インターフェイスとを備える、音声処理システム。
  2. 前記音源のサブセットは、前記音源のセットの前記親子階層上における、ルートノードから開始してリーフノードまでの経路に対応する、請求項1に記載の音声処理システム。
  3. 前記少なくとも1つの抽出された親音源の音声プロパティは、前記抽出された少なくとも1つの子音源の音声プロパティの和集合を含み、音源の音声プロパティは、スペクトル特性、コンテキスト情報、トーン成分、トーン対ノイズ比値、およびケプストラムピーク振幅のうちの1つまたは組合せを含む、請求項1に記載の音声処理システム。
  4. 前記プロセッサは、前記ニューラルネットワークを使用して前記入力音声混合物から前記親子階層のリーフノードに対応する子音源のみを抽出し、
    前記親子階層から、前記抽出された子音源に関連付けられる1つ以上の経路を抽出し、
    前記親子階層の親ノードの少なくとも1つの親音源を、前記親ノードにつながる前記親子階層の前記1つ以上の経路に従って前記子音源を混合することによって再構築するよう構成される、請求項1に記載の音声処理システム。
  5. 前記プロセッサは、さらに、異なる子音源に適用される異なる重みを使用して前記子音源を混合することによって、異なる音源を補間するように構成される、請求項1に記載の音声処理システム。
  6. 前記入力インターフェイスは、ターゲット音源を示す入力データを受信するように構成され、前記プロセッサは、前記入力音声混合物から、前記ターゲット音源と、前記親子階層に従って前記ターゲット音源の親とを抽出するよう構成される、請求項1に記載の音声処理システム。
  7. 前記入力データは、前記親子階層におけるノードのラベルを含む、請求項6に記載の音声処理システム。
  8. 前記入力データは、クエリ音声信号を含み、前記ニューラルネットワークは、前記親子階層に従って、前記クエリ音声信号に最も近い子音源および前記子音源の親を分離するようにトレーニングされる、請求項6に記載の音声処理システム。
  9. 前記プロセッサは、前記音声処理システムのモジュールを実現する記憶された命令と結合され、前記モジュールは、
    前記入力音声混合物のフレームのシーケンスについてスペクトログラムを生成するよう構成されるスペクトログラム抽出器モジュールと、
    前記ニューラルネットワークの出力を、親子階層の異なるレベルにおける前記抽出された音源に対応するマスクのセットに形成して、前記スペクトログラムへのマスクの適用が、対応する音源を抽出するように、構成されるマスク決定モジュールとを含み、前記階層的制約は、前記親子階層における、より高いレベルのマスクが、前記親子階層における、より低いレベルのマスクと少なくとも同じ量のエネルギーを配分することを実施し、前記モジュールはさらに、
    ターゲット出力に従って前記マスクのセットにおいてマスクを選択するよう構成される音源セレクタモジュールと、
    前記選択されたマスクを前記スペクトログラムに適用して、前記入力音声混合物から前記音源を抽出するよう構成されるスペクトログラムインバータモジュールとを含む、請求項1に記載の音声処理システム。
  10. 前記音源セレクタモジュールは、前記マスク決定モジュールによって形成される、前記親子階層における単一の経路上のノードに対応するマスクを選択する、請求項9に記載の音声処理システム。
  11. 前記音源セレクタは少なくとも2つのマスクを補間し、前記スペクトログラムインバータは前記音源を抽出するために前記補間されたマスクを前記スペクトログラムに適用するようにする、請求項9に記載の音声処理システム。
  12. 前記音声処理システムの前記モジュールはさらに、
    アンカーベクトルを取得するためにクエリ音声信号を処理するよう構成されるクエリ抽出器と、
    前記アンカーベクトルを前記入力音声混合物スペクトログラムの各フレームと結合するように構成される連結モジュールとを含み、前記ニューラルネットワークは、入力として、前記アンカーベクトルと結合された前記スペクトログラムを受信して、前記親子階層において前記クエリ音声信号に最も類似する音源のマスクを表す出力を生成するよう構成される、請求項9に記載の音声処理システム。
  13. 前記ニューラルネットワークは、前記親子階層の各レベルについて目的関数を最小化しながら、同時に、前記階層的制約の下、前記親子階層の異なるレベルの音源のためにマスクを出力するようトレーニングされる、請求項9に記載の音声処理システム。
  14. 前記目的関数は、切捨て位相鋭敏近似(tPSA)目的関数である、請求項13に記載の音声処理システム。
  15. 機械を制御するための異常検出システムであって、
    請求項1に記載の音声処理システムを備え、前記音声処理システムは、
    機械の構成要素によって生成された入力音声混合物を受信し、
    複数の音源を抽出し、親子階層に従って前記抽出された音源の相互関係を抽出するよう構成され、前記異常検出システムはさらに、
    前記抽出された音源および前記抽出された音源間の相互関係に基づいて異常を検出するよう構成される異常検出器と、
    前記検出された異常に基づいて前記機械を制御するよう構成されるコントローラとを備える、異常検出システム。
  16. 音声ズーミングシステムであって、
    請求項1に記載の前記音声処理システムと、前記親子階層の異なるレベルについての比率のインジケータとを備え、前記音声処理システムは、前記抽出された音源を、特定のレベルにおいて、示される前記比率に比例して、出力する、音声ズーミングシステム。
  17. 音声処理方法であって、音声混合物を処理して、前記音声混合物中に存在する音源のセットの少なくともサブセットの推定を出力するようにトレーニングされたニューラルネットワークを記憶するメモリに結合されるプロセッサを用い、前記音源は、前記音源のセットに対して親子階層を実施する階層的制約を受け、前記親子階層内の親音源がそれの1つ以上の子音源の混合物を含むようにされ、前記サブセットは、少なくとも1つの親音源と、それの子音源のうちの少なくとも1つとを含み、前記プロセッサは、前記方法を実現する記憶された命令と結合され、前記命令は、前記プロセッサによって実行されると、前記方法のステップを実行し、前記ステップは、
    入力音声混合物を受信するステップと、
    前記ニューラルネットワークを使用して前記入力音声混合物を処理して、前記音源のサブセットの推定値、および前記親子階層に従ったそれらの相互関係を抽出するステップと、
    前記抽出された音源およびそれらの相互関係をレンダリングするステップとを含む、音声処理方法。
  18. 前記方法はさらに、
    前記ニューラルネットワークを使用して前記入力音声混合物から前記親子階層のリーフノードに対応する子音源のみを抽出するステップと、
    前記親子階層の親ノードの少なくとも1つの親音源を、前記親ノードにつながる前記親子階層上の1つ以上の経路に従って前記子音源を混合することによって再構築するステップとを含む、請求項17に記載の音声処理方法。
  19. 前記方法はさらに、
    ターゲット音源を示す入力データを受信するステップと、
    前記入力音声混合物から、前記ターゲット音源、および前記親子階層に従って前記ターゲット音源の親を抽出するステップとを含む、請求項17に記載の音声処理方法。
  20. 前記入力データは、前記親子階層上のノードのラベルを含む、請求項19に記載の音声処理方法。
JP2023539220A 2020-09-29 2021-06-02 階層的音源分離のためのシステムおよび方法 Pending JP2023542431A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063085025P 2020-09-29 2020-09-29
US63/085,025 2020-09-29
US17/065,322 2020-10-07
US17/065,322 US11475908B2 (en) 2020-09-29 2020-10-07 System and method for hierarchical audio source separation
PCT/JP2021/021819 WO2022070515A1 (en) 2020-09-29 2021-06-02 System and method for hierarchical audio source separation

Publications (1)

Publication Number Publication Date
JP2023542431A true JP2023542431A (ja) 2023-10-06

Family

ID=80822902

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023539220A Pending JP2023542431A (ja) 2020-09-29 2021-06-02 階層的音源分離のためのシステムおよび方法

Country Status (5)

Country Link
US (1) US11475908B2 (ja)
EP (1) EP4004916B1 (ja)
JP (1) JP2023542431A (ja)
CN (1) CN116194989A (ja)
WO (1) WO2022070515A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7131424B2 (ja) * 2019-02-18 2022-09-06 日本電信電話株式会社 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム
US11783847B2 (en) * 2020-12-29 2023-10-10 Lawrence Livermore National Security, Llc Systems and methods for unsupervised audio source separation using generative priors
US11508395B1 (en) * 2021-05-03 2022-11-22 Dell Products, L.P. Intelligent selection of audio signatures based upon contextual information to perform management actions
US20220386062A1 (en) * 2021-05-28 2022-12-01 Algoriddim Gmbh Stereophonic audio rearrangement based on decomposed tracks
US11740862B1 (en) * 2022-11-22 2023-08-29 Algoriddim Gmbh Method and system for accelerated decomposing of audio data using intermediate data

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1530195A3 (en) * 2003-11-05 2007-09-26 Sharp Kabushiki Kaisha Song search system and song search method
US7919707B2 (en) 2008-06-06 2011-04-05 Avid Technology, Inc. Musical sound identification
US9183849B2 (en) 2012-12-21 2015-11-10 The Nielsen Company (Us), Llc Audio matching with semantic audio recognition and report generation
US20160071526A1 (en) * 2014-09-09 2016-03-10 Analog Devices, Inc. Acoustic source tracking and selection
US10361512B2 (en) 2015-04-21 2019-07-23 Witco Of Jupiter Dentsu Co., Ltd. Electrical connector with plug and socket
US9715870B2 (en) * 2015-10-12 2017-07-25 International Business Machines Corporation Cognitive music engine using unsupervised learning
US10014002B2 (en) * 2016-02-16 2018-07-03 Red Pill VR, Inc. Real-time audio source separation using deep neural networks
US10325580B2 (en) * 2016-08-10 2019-06-18 Red Pill Vr, Inc Virtual music experiences
CN111465946B (zh) * 2017-10-27 2024-05-28 渊慧科技有限公司 使用分层表示进行神经网络体系结构搜索
US10923141B2 (en) * 2018-08-06 2021-02-16 Spotify Ab Singing voice separation with deep u-net convolutional networks

Also Published As

Publication number Publication date
US20220101869A1 (en) 2022-03-31
EP4004916A1 (en) 2022-06-01
CN116194989A (zh) 2023-05-30
US11475908B2 (en) 2022-10-18
WO2022070515A1 (en) 2022-04-07
EP4004916B1 (en) 2023-08-16

Similar Documents

Publication Publication Date Title
Engel et al. Neural audio synthesis of musical notes with wavenet autoencoders
Bittner et al. Deep Salience Representations for F0 Estimation in Polyphonic Music.
Mor et al. A universal music translation network
US11475908B2 (en) System and method for hierarchical audio source separation
Bretan et al. A unit selection methodology for music generation using deep neural networks
Marafioti et al. GACELA: A generative adversarial context encoder for long audio inpainting of music
Paiement et al. A probabilistic model for chord progressions
Greshler et al. Catch-a-waveform: Learning to generate audio from a single short example
Rodriguez-Serrano et al. Online score-informed source separation with adaptive instrument models
Carpentier et al. Predicting timbre features of instrument sound combinations: Application to automatic orchestration
Hayes et al. A review of differentiable digital signal processing for music and speech synthesis
Manilow et al. Source separation by steering pretrained music models
Kreković et al. An algorithm for controlling arbitrary sound synthesizers using adjectives
Gabrielli et al. Deep learning for timbre modification and transfer: An evaluation study
Gu Recognition algorithm of piano playing music in intelligent background
Çakir et al. Musical instrument synthesis and morphing in multidimensional latent space using variational, convolutional recurrent autoencoders
Yang et al. Remixing music with visual conditioning
Colonel Autoencoding neural networks as musical audio synthesizers
Roche Music sound synthesis using machine learning: Towards a perceptually relevant control space
Tolonen Object-based sound source modeling for musical signals
Cazau et al. An investigation of prior knowledge in Automatic Music Transcription systems
Kareer et al. Musical polyphony estimation
Martins A computational framework for sound segregation in music signals
Wang Text to music audio generation using latent diffusion model: A re-engineering of audioldm model
Van Nort et al. Sound texture recognition through dynamical systems modeling of empirical mode decomposition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240604