JP6966750B2

JP6966750B2 - ブラインド信号分離のための方法、装置及び電子デバイス

Info

Publication number: JP6966750B2
Application number: JP2019162504A
Authority: JP
Inventors: 玉祥胡; ▲長▼宝朱
Original assignee: Nanjing Horizon Robotics Technology Co Ltd
Current assignee: Nanjing Horizon Robotics Technology Co Ltd
Priority date: 2018-09-07
Filing date: 2019-09-06
Publication date: 2021-11-17
Anticipated expiration: 2039-09-06
Also published as: US10978089B2; JP2020042266A; CN110890098A; EP3624117A1; KR20200028852A; CN110890098B; US20200082838A1; KR102194194B1

Description

本開示は、オーディオ信号処理技術に関し、より詳細には、ブラインド信号を分離するための方法、ブラインド信号を分離するための装置及び電子デバイスに関する。

「カクテルパーティ」は、音声強調システムにおける最も困難な問題の一つであり、その難しさは、音楽、車両のノイズ及び他の人間の音声を含むノイズの多い環境から所望の話者の音声信号を分離及び抽出するという要件にあり、一方で、人間の聴覚系は、この環境から関心のあるオーディオ信号を容易に抽出し得る。

既存の解決策は、人間の聴覚系をシミュレートするために、すなわち、特定の音源からの音を認識して強調するために、ブラインド信号分離システムを使用することである。

しかし、既存のブラインド信号分離システムには、特定のシナリオへの適応性のような問題が依然として存在する。例えば、多変量ラプラス分布に基づくブラインド信号分離アルゴリズムは、音響信号のほとんどに適用されてもよく、リアルタイム処理シナリオに拡張されてもよいが、高調波構造を有する音楽信号のような特定のスペクトル構造を有するいくつかの信号については、多変量ラプラスモデルは、このような信号を十分に記述できない。さらに、高調波モデルに基づくブラインド信号分離アルゴリズムは、音声及び音楽の混合信号を効果的に分離し得るが、高調波モデルについては、分離信号の分散は1であると仮定され、これはホワイトニング操作を必要とするので、オフラインシナリオにのみ適しており、リアルタイム処理シナリオに拡張できない。

したがって、改善されたブラインド信号分離解決策を提供することが依然として望まれる。

上記の技術課題を解決するために、本開示が提供される。本開示の実施形態は、ブラインド信号分離のための方法及び装置並びに電子デバイスを提供し、これは、複素ガウス分布に基づいて取得された音源の確率密度分布によりブラインド信号分離モデルを更新し、それにより、特定のシナリオにおけるブラインド信号分離アルゴリズムの分離性能を効果的に改善する。

本開示の一態様によれば、ブラインド信号分離のための方法が開示され、音源の確率密度分布を決定するために、複素ガウス分布により音源をモデル化するステップと、確率密度分布に基づいてブラインド信号分離モデルを更新するステップと、複数の分離された出力信号を取得するために、更新されたブラインド信号分離モデルによりオーディオ信号を分離するステップとを含む。

本開示の一態様によれば、ブラインド信号分離のための装置が開示され、音源の確率密度分布を決定するために、複素ガウス分布により音源をモデル化するように構成されたモデル化ユニットと、音源の確率密度分布に基づいてブラインド信号分離モデルを更新するように構成された更新ユニットと、複数の分離された出力信号を取得するために、更新されたブラインド信号分離モデルによりオーディオ信号を分離するように構成された分離ユニットとを含む。

本開示の他の態様によれば、電子デバイスが開示され、プロセッサと、記憶されたコンピュータプログラム命令を有するメモリとを含み、コンピュータプログラム命令は、実行されたときに、上記のように、プロセッサがブラインド信号分離のための方法を実行することを可能にする。

本開示の更に他の態様によれば、記憶されたコンピュータプログラム命令を有するコンピュータ読み取り可能記憶媒体が開示され、コンピュータプログラム命令は、実行されたときに、上記のように、プロセッサがブラインド信号分離のための方法を実行することを可能にする。

従来技術と比較して、本開示により提供される、ブラインド信号分離のための方法、ブラインド信号分離のための装置及び電子デバイスは、音源の確率密度分布を決定するために、複素ガウス分布により音源をモデル化し、音源の確率密度分布に基づいてブラインド信号分離モデルを更新し、複数の分離された出力信号を取得するために、ブラインド信号分離モデルによりオーディオ信号を分離してもよい。このように、高調波構造を有する音楽信号のリアルタイム分離のためのような、特定のシナリオにおけるブラインド信号分離アルゴリズムの分離性能が効果的に改善され得る。

本開示の上記及び他の目的、特徴及び利点は、添付図面を参照して本開示の実施形態をより詳細に説明することにより、より明確になる。図面は、本開示の実施形態の更なる理解を提供するために使用され、明細書の一部を構成し、図面は、本開示の実施形態と共に、この開示を説明するために使用され、限定を構成しない。図面において、同じ参照番号は、一般的に同じ部分又はステップを示す。
本開示の実施形態によるブラインド信号分離のための方法の適用シナリオの概略図を示す。本開示の実施形態によるブラインド信号分離のための方法のフローチャートを示す。オフラインモデル化に対応する全教師付きブラインド信号分離システムの概略図を示す。オンラインモデル化に対応するリアルタイムブラインド信号分離システムの概略図を示す。オフラインモデル化とオンラインモデル化との組み合わせに対応する半教師付きリアルタイムブラインド信号分離システムの概略図を示す。本開示の実施形態によるブラインド信号分離のための装置のブロック図を示す。本開示の実施形態による電子デバイスのブロック図を示す。

以下、本開示の例示的な実施形態について、図面を参照して詳細に説明する。明らかに、説明する実施形態は、本開示の実施形態の一部のみであり、本開示の全ての実施形態ではなく、本開示は、ここに記載される例示的な実施形態により限定されないことが理解されるべきである。

［開示の概要］
上記のように、ブラインド信号分離のための既存のシステムは、依然として、特定のシナリオへの適応性のような欠陥を有する。その理由は、既存のブラインド信号分離アルゴリズムが、多変量ラプラシアン分布に基づく多変量ラプラシアンモデルを使用し、これは、音響信号のほとんどに適用可能されてもよく、リアルタイム処理シナリオに拡張されてもよいが、高調波構造を有する音楽信号のような特定のスペクトル構造を有するいくつかの信号については、多変量ラプラシアンモデルは、このような信号を十分に記述できないからである。他の側面では、スーパーガウス分布を採用した高調波モデルが使用される場合、音声及び音楽の混合信号は効果的に分離され得るが、高調波モデルは、分離された信号の分散1を有すると仮定され、これはホワイトニング操作を行う必要があり、したがって、オフラインシナリオにのみ適しており、リアルタイム処理シナリオに拡張できない。

上記の技術的問題に基づいて、本開示の基本概念は、複素ガウス分布に基づいてモデル化し、従来の分離アルゴリズムにおける多変量ラプラシアンモデル又は高調波モデルを置き換えることである。特定の適用シナリオによれば、モデル化プロセスはオフラインモデル化又はオンラインモデル化でもよく、ブラインド信号分離モデルは、モデル化に基づいて反復的に更新され、それにより、特定のシナリオにおけるブラインド信号分離アルゴリズムの分離性能を改善する。

具体的には、本開示により提供される、ブラインド信号分離のための方法、ブラインド信号分離のための装置及び電子デバイスは、まず、音源の確率密度分布を決定するために、複素ガウス分布を使用することにより音源をモデル化し、次いで、音源の確率密度分布に基づいてブラインド信号分離モデルを更新し、最後に、複数の分離された出力信号を取得するために、ブラインド信号分離モデルを使用することによりオーディオ信号を分離する。したがって、高調波構造を有する音楽信号のリアルタイム分離のためのような、特定のシナリオにおけるブラインド信号分離アルゴリズムの分離性能が効果的に改善され得る。

本開示の基本原理を紹介した後に、本開示の様々な非限定的な実施形態について、図面を参照して以下に具体的に説明する。

［例示的なシステム］
図１は、本開示の実施形態によるブラインド信号分離技術の適用シナリオの概略図を示す。

図１に示すように、ブラインド信号分離システムS110は、複数の音源110-1、110-2、...、110-Nから音響信号を受信してもよく、各音源は、音楽音源、音声音源、環境ノイズ等のような既知の音源でもよく、或いは未知の音源でもよく、すなわち、音源の種別は未知である。

ブラインド信号分離システムS110は、特定の話者からの音声のような特定の音源からの音を認識して強調するために、ブラインド信号分離モデルを利用してもよい。以下に詳細に説明するように、ブラインド信号分離モデルは、複素ガウス分布に基づくモデルでもよい。音源種別が既知であるとき、同じ種別のクリーン音声信号がオフラインモデル化に使用されてもよく、他方で、音源種別が既知でないとき、オンラインモデル化及び反復更新モデルのモードが使用されてもよい。

各音源からの混合音声信号がブラインド信号分離モデルにより分離された後に、複数の分離された出力音声信号S₁、S₂...S_M-1が生成され、これらから、ユーザは所望の音声信号を選択して強調してもよい。

次に、本開示の実施形態によるブラインド信号分離のための方法の具体的な例について詳細に説明する。

［例示的な方法］
図２は、本開示の実施形態によるブラインド信号分離のための方法のフローチャートを示す。

図２に示すように、本開示の実施形態によるブラインド信号分離のための方法は、音源の確率密度分布を決定するために、複素ガウス分布を使用することにより音源をモデル化するステップS210と、確率密度分布に基づいてブラインド信号分離モデルを更新するステップS220と、複数の分離された出力信号を取得するために、更新されたブラインド信号分離モデルを使用することによりオーディオ信号を分離するステップS230とを含んでもよい。

ステップS210において、音源の確率密度分布を決定するために、複素ガウス分布を使用することにより音源をモデル化する。モデル化ステップは、様々なモードで実行されてもよい。例えば、各音源の種別が既知であるとき、同じ種別の音源からのクリーンオーディオ信号が、オフラインモデル化のために、各音源の確率密度分布を決定するために事前に利用されてもよい。オフラインモデル化の1つの利点は、既知の種別のクリーン音声信号がモデル化に使用されるので、モデル化効率が高く、分離効果が良いことである。しかし、オフラインモデル化は、分離されるべきブラインド信号の音源種別が事前に未知である場合には適さない。この場合、オンラインモデル化が使用されてもよい。オンラインモデル化では、初期モデルがブラインド信号を分離するために使用され、次いで、オンラインモデル化が、対応する音源の確率密度分布を決定するために、分離された信号に対して実行されてもよい。他の場合、オフラインモデル化とオンラインモデル化との組み合わせモードもまた使用されてもよい。例えば、このモードは、ブラインド信号の音源種別の一部が既知であるが、他の音源種別が既知でないときに使用されてもよい。具体的には、既知の音源種別のクリーンオーディオ信号がオフラインモデル化に使用され、一方で、オンラインモデル化が未知の音源種別に使用され、モデル化プロセスは、上記のオフラインモデル化及びオンラインモデル化のプロセスと同じであり、それにより、各音源の確率密度分布を決定する。

次いで、ステップS220において、ブラインド信号分離モデルは、各音源の確率密度分布を使用することにより決定又は更新されてもよい。本開示の実施形態では、ブラインド信号分離モデルのコスト関数Q_BSSは、以下のように表されてもよい。

ここで、W^(k)は第kの周波数点についての分離モデルであり、y_iは第iの音源についての分離された信号を表し、G(y_i)はlog q(y_i)として表されるコントラスト関数であり、この場合、q(y_i)は第iの音源の確率密度分布である。本開示の実施形態では、上記のように、確率密度分布q(y_i)は、従来のモデルにおける多変量ラプラシアン分布又はスーパーガウス分布の代わりに、複素ガウス分布を使用する。ステップS210において音源をモデル化することを通じて、分散のような各音源の複素ガウス分布q(y_i)のパラメータが決定されてもよい。次いで、コスト関数Q_BSSを使用して、分離モデルWが決定されてもよい。ステップS220において、分離モデルWは、音源の確率密度分布に基づいて決定され、元々使用された分離モデルを更新するために使用されてもよい。

次いで、ステップS230において、オーディオ信号は、複数の出力信号を取得するために、ブラインド信号分離モデルWを使用することにより分離されてもよい。分離ステップ230において、ブラインド信号は、短時間フーリエ変換(STFT)により周波数領域信号に変換されてもよく、それにより、周波数領域でブラインド信号分離モデルにより分離を実行する。したがって、取得された複数の出力信号は、周波数領域信号であり、その中の必要な信号は、時間領域信号に変換されてもよく、次いで、例えばマイクロホンを通じて、音声信号として出力されてもよい。

当業者は、上記の説明に基づいて、また、以下で更に詳細に説明する実施形態と組み合わせて、ブラインド信号分離モデルのための更新が、上記のオフラインモデル化プロセス又はオンラインモデル化プロセス中の反復プロセスであることを理解し得る。すなわち、複数の分離された出力信号を取得するために、オーディオ信号がブラインド信号分離モデルを使用することにより分離された後に、モデル化は、ブラインド信号分離モデルを更新するために、取得された複数の分離された出力信号に基づいて更に実行される。したがって、オーディオ信号の次のフレームは、更新されたブラインド信号分離モデルを使用することにより更に分離される。このように、分離されているブラインド信号に適したより良い分離プロセスが実現され得る。

本開示の実施形態によるブラインド信号分離のための方法においてオンラインモデル化若しくはオフラインモデル化又は両者の組み合わせを使用するために、対応するブラインド信号分離システムは、全教師付きブラインド信号分離システム、リアルタイムブラインド信号分離システム又は半教師付きリアルタイムブラインド信号分離システムとして実現されてもよく、これらについて、以下に更に説明する。

図３は、オフラインモデル化に対応する全教師付きブラインド信号分離システムの概略図を示す。図３に示すように、オフラインモデル化は、音源の確率密度分布を決定するために、既知の音源種別のクリーンオーディオ信号を使用することにより実行される。モデル化に使用される音声信号は既知であるので、モデル化プロセスは、全教師付きプロセスと呼ばれることができ、これは、良好なモデル化効率及びモデル化精度を有する。次いで、ブラインド信号分離モデルは、コスト関数に基づいて決定されてもよい。マイクロホンアレイにより受信された信号は、短時間フーリエ変換(STFT)により周波数領域に変換され、ブラインド信号は、複数の出力信号を取得するために、ブラインド信号分離モデルを使用することにより周波数領域で分離される。出力信号は、オーディオ出力を実現するために時間領域に逆変換されてもよい。いくつかの実施形態において、取得された複数の出力信号はまた、ブラインド信号分離モデルを更に決定及び更新するためにモデル化されてもよく、プロセスは、最良の分離効果を実現するために反復的に実行されてもよい。

図４は、オンラインモデル化に対応するリアルタイムブラインド信号分離システムの概略図を示す。図４に示すように、マイクロホンにより受信された信号は、短時間フーリエ変換(STFT)により周波数領域に変換され、ブラインド信号は、複数の出力信号を取得するために、初期ブラインド信号分離モデルを使用することにより周波数領域で分離される。オンラインモデル化は、未知の種別の各音源の確率密度分布を決定し、次いでブラインド信号分離モデルを決定するように分離することにより生成された複数の出力信号に対して実行される。オンラインモデル化により決定されたブラインド信号分離モデルは、前に使用されたブラインド信号分離モデルを更新するために使用され、次のフレームの分離が続けられる。当該プロセスは反復的に実行され、ブラインド信号分離モデルは継続的に更新され、したがって、分離効果が改善される。このプロセスでは、音源種別が事前に未知であるので、リアルタイムモデル化解決策が使用される。

図５は、オフラインモデル化とオンラインモデル化との組み合わせに対応する半教師付きリアルタイムブラインド信号分離システムの概略図を示す。図５に示すように、既知の種別の音源の部分について、オフラインモデル化がそれらの確率密度分布を決定するために使用されてもよく、未知の種別の音源の部分について、オンラインモデル化がそれらの確率密度分布を決定するために使用される。初期時点において、未知の音源について、ランダム分布のような所定の初期確率密度分布が、オフラインモデル化により決定された既知の音源の確率密度分布と組み合わせて分離モデルを決定するために使用されてもよい。マイクロホンにより受信された信号は、短時間フーリエ変換(STFT)により周波数領域に変換され、既知の種別の出力信号1及び未知の種別の出力信号2を生成するために、決定されたブラインド信号分離モデルを使用することにより周波数領域で分離される。未知の種別の出力信号2について、上記のオンラインモデル化プロセスが、その確率密度分布を更新するために実行でき、したがって、ブラインド信号分離モデルを更新する。いくつかの実施形態において、モデル化プロセスはまた、オフラインモデル化により決定された対応する確率密度分布を更新するために、既知の種別の出力信号1に対して実行されてもよい。上記のプロセスでは、クリーンオーディオ信号が、種別が既知である音源の部分のみについてモデル化を実行するために使用され、リアルタイムモデル化は未知の音源に対して使用されないので、したがって、半教師付きリアルタイムモデル化システムとも呼ばれる。

従来の多変量ラプラシアンモデルは、分離されるべき信号を正確にモデル化できず、リアルタイム独立ベクトル分析アルゴリズムは、出力信号の信号対干渉比を効果的に提示することができない可能性があるが、本開示の半教師付きリアルタイムブラインド信号分離アルゴリズムを使用することは、分離された信号の信号対干渉比を効果的に改善し得る。一例では、リアルタイム分離は、本開示の実施形態によるブラインド信号分離のための方法を使用することにより、音楽が音声と混合された音響信号に対して実行され、分離前のマイクロホンデータの信号対干渉比は10.66dBであり、分離は多変量ラプラシアンモデルに基づくリアルタイム独立ベクトル分析アルゴリズムを使用することにより信号に対して実行され、分離後の信号対干渉比は9.82dBであり、一方で、分離は、図５に示す半教師付きリアルタイムブラインド信号分離システムを使用することにより信号に対して実行され、音楽信号が既知であり、分離後の信号対干渉比は16.91dBである。

［例示的な装置］
図６は、本開示の実施形態による、ブラインド信号分離のための装置のブロック図を示す。

図６に示すように、本開示の実施形態によるブラインド信号分離のための装置300は、音源の確率密度分布を決定するために、複素ガウス分布により音源をモデル化するためのモデル化ユニット310と、音源の確率密度分布に基づいてブラインド信号分離モデルを更新するための更新ユニット320と、複数の分離された出力信号を取得するために、更新されたブラインド信号分離モデルを使用することによりオーディオ信号を分離するための分離ユニット330とを含む。

一例では、ブラインド信号分離のための上記の装置300において、モデル化ユニット310は、オフラインモデル化ユニット及びオンラインモデル化ユニットのうち少なくとも1つを含んでもよい。オフラインモデル化ユニットは、音源の確率密度分布を取得するために、分離されるべきオーディオ信号の音源と同じ種別の音源からのクリーンオーディオ信号を使用することにより、モデル化を実行するために使用されてもよい。オンラインモデル化ユニットは、各音源の確率密度分布を取得するために、オーディオ信号の前のフレームを分離することにより取得された複数の出力信号に対してモデル化を実行するために使用されてもよい。オフラインモデル化ユニットは、既知の音源種別に使用されてもよく、一方で、オンラインモデル化ユニットは、未知の音源種別に使用されてもよいことが理解され得る。いくつかの実施形態では、モデル化ユニット310はまた、オフラインモデル化ユニットとオンラインモデル化ユニットとの両方を含んでもよい。

モデル化ユニット310のモデル化結果は、ブラインド信号分離モデルを更新するために更新ユニット320に対して使用されてもよく、したがって、分離ユニット330は、オーディオ信号を分離して複数の出力を生成するために、分離モデルを使用する。当該プロセスは、反復的に実行されてもよいことが理解されるべきである。すなわち、モデル化ユニット310は、より良い分離効果を実現するために、ブラインド信号分離モデルを継続的に更新するように分離ユニット330により生成された複数の出力のうち1つ以上に対してモデル化を実行してもよい。

一例では、ブラインド信号分離のための装置300は、周波数領域内で分離するために、オーディオ信号を周波数領域信号に変換するための周波数領域変換ユニット340であり、複数の分離された出力信号もまた周波数領域信号である、周波数領域変換ユニット340と、オーディオ出力とするために、分離された周波数領域出力信号のうち少なくとも1つを時間領域信号に変換するための時間領域変換ユニット350とを更に含んでもよい。

ブラインド信号分離のための上記の装置300の様々なユニット及びモジュールの具体的な機能及び動作は、図１〜図５を参照した上記の説明において詳細に説明されているので、ここでは、簡単な説明のみが与えられ、繰り返しの詳細な説明は省略されることが理解され得る。

上記のように、本開示の実施形態によるブラインド信号分離のための装置300は、音声信号分離等のためのオーディオ処理デバイスのような様々な端末デバイスにより実現されてもよい。一例では、本開示の実施形態による装置300は、ソフトウェアモジュール及び/又はハードウェアモジュールとして、端末デバイスに統合されてもよい。例えば、この装置300は、この端末デバイスのオペレーティングシステムのソフトウェアモジュールでもよく、或いはこの端末デバイスのために開発されたアプリケーションプログラムでもよい。当然に、この装置300はまた、この端末デバイスの複数のハードウェアモジュールのうち1つでもよい。

代替として、他の例では、このブラインド信号分離のための装置300及びこの端末デバイス300はまた、分離されたデバイスでもよく、この装置300は、有線及び/又は無線ネットワークを通じてこの端末デバイスに接続され、所定のデータフォーマットに従って対話型情報を送信してもよい。

［例示的な電子デバイス］
以下に、本開示の実施形態による電子デバイスについて、図７を参照して説明する。図７に示すように、電子デバイス10は、1つ以上のプロセッサ11及びメモリ12を含む。

プロセッサ11は、中央処理装置(CPU)又はデータ処理能力及び/又は命令実行能力を有する他の形式の処理ユニットでもよく、所望の機能を実行するために電子デバイス10内の他のアセンブリを制御してもよい。

メモリ12は、揮発性メモリ及び/又は不揮発性メモリのような様々な形式のコンピュータ読み取り可能記憶媒体を含んでもよい1つ以上のコンピュータプログラムプロダクトを含んでもよい。揮発性メモリは、例えば、ランダムアクセスメモリ(RAM)及び/又はキャッシュ等を含んでもよい。不揮発性メモリは、例えば、読み取り専用メモリ(ROM)、ハードディスク、フラッシュメモリ等を含んでもよい。1つ以上のコンピュータプログラム命令は、コンピュータ読み取り可能記憶媒体に記憶されてもよく、プロセッサ11は、上記のように、本開示の様々な実施形態のブラインド信号分離及び/又は他の所望の機能のための方法を実現するように、プログラム命令を実行してもよい。既知の音源種別のクリーンオーディオ信号等もまた、コンピュータ読み取り可能記憶媒体に記憶されてもよい。

一例では、電子デバイス10はまた、入力デバイス13及び出力デバイス14を含んでもよく、これらのアセンブリは、バスシステム及び/又は他の形式の接続機構(図示せず)により相互接続される。

例えば、この入力デバイス13は、音源からの入力信号をリアルタイムに捕捉するためのマイクロホン又はマイクロホンのアレイでもよい。この入力デバイス13はまた、外部からデジタル化されたオーディオ信号を受信するための、通信ネットワークコネクタのような様々な入力インタフェースでもよい。さらに、入力デバイス13は、例えば、キーボード、マウス等を含んでもよい。

出力デバイス14は、複数の分離された出力信号等を含む様々な情報を外部に出力してもよい。出力デバイス14は、例えば、ディスプレイ、スピーカ、及びそれが接続されている通信ネットワークインタフェース及び遠隔出力デバイス等を含んでもよい。

当然に、簡潔にするために、電子デバイス10における本開示に関係するアセンブリの一部のみが図７に示されており、バス、入力/出力インタフェース等のようなアセンブリは省略されている。さらに、電子デバイス10は、特定の用途に依存していずれか他の適切なアセンブリを含んでもよい。

［例示的なコンピュータプログラムプロダクト及びコンピュータ読み取り可能媒体］
上記の方法及び装置に加えて、本開示の実施形態は、コンピュータプログラム命令を含むコンピュータプログラムプロダクトでもよく、当該コンピュータプログラム命令は、プロセッサにより実行されたとき、プロセッサに対して、本開示の上記の「例示的な方法」の部分に記載されるように、本開示の様々な実施形態によるブラインド信号分離のための方法のステップを実行させる。

コンピュータプログラムプロダクトは、本開示の実施形態の動作を実行するためのプログラムコードを、1つ以上のプログラミング言語のいずれかの組み合わせで書いてもよく、当該プログラミング言語は、Java（登録商標）、C++等のようなオブジェクト指向プログラミング言語と、「C」言語又は同様のプログラミング言語のような従来の手続き型プログラミング言語を含む。プログラムコードは、完全にユーザコンピューティングデバイス上で実行されてもよく、部分的にユーザデバイス上で実行されてもよく、スタンドアローン型ソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピューティングデバイス上で実行され且つ部分的に遠隔コンピューティングデバイス上で実行されてもよく、或いは完全に遠隔コンピューティングデバイス又はサーバ上で実行されてもよい。

さらに、本開示の実施形態は、記憶されたコンピュータプログラム命令を有するコンピュータ読み取り可能記憶媒体でもよく、当該コンピュータプログラム命令は、プロセッサにより実行されたとき、プロセッサに対して、本開示の上記の「例示的な方法」の部分に記載されるように、本開示の様々な実施形態によるブラインド信号分離のための方法のステップを実行させる。

コンピュータ読み取り可能記憶媒体は、1つ以上の読み取り可能媒体のいずれかの組み合わせを使用してもよい。読み取り可能媒体は、読み取り可能信号媒体又は読み取り可能記憶媒体でもよい。コンピュータ読み取り可能記憶媒体は、電気的、磁気的、光学的、電磁的、赤外線若しくは半導体のシステム、装置若しくはデバイス、又は上記のいずれかの組み合わせを含んでもよいが、これらに限定されない。読み取り可能記憶媒体のより具体的な例(非網羅的なリスト)は、1つ以上のワイヤとの電気的接続、ポータブルディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラム可能読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、又はこれらのいずれかの適切な組み合わせを含む。

本出願の基本原理について、具体的な実施形態と共に上記に説明したが、本出願で言及した利点、優越性、効果等は単なる例に過ぎず、本発明を限定することを意図するものではなく、これらの利点、優越性、効果等は、本出願の実施形態に必須のものとは考えられないことを指摘する必要がある。さらに、上記の開示の具体的な詳細は、例示の目的及び理解の容易さのためのものに過ぎず、限定を目的としたものではなく、上記の詳細は、上記の具体的な詳細において実現される本出願を限定するものではない。

本出願で示されるデバイス、装置、機器、システムのブロック図は、単なる例示的な例であり、接続、配置及び構成がブロック図に示される方式で行われなければならないことを要求又は暗示することを意図するものではない。当業者が認識するように、これらのデバイス、装置、機器、システムは、いずれかの方式で接続、配置又は構成されてもよい。「含む」、「包含する」、「有する」等のような用語は、「含むがこれに限定されない」を意味し、交換可能に使用されてもよい。ここで使用される「又は」及び「及び」という用語は、文脈が明確に他のことを示さない限り、「及び/又は」という用語を示し、交換可能に使用されてもよい。ここで使用される「等」という用語は、「のようなものであるがこれに限定されない」という語句を示し、交換可能に使用される。

本出願の装置、機器及び方法において、各構成要素又は各ステップは分解及び/又は再結合されてもよい点にも留意すべきである。これらの分解及び/又は再結合は、本出願の同等物とみなされるべきである。

開示された態様の上記の説明は、いずれかの当業者が本出願を製造又は使用することを可能にするために提供される。これらの態様に対する様々な修正は、当業者にとって非常に自明であり、ここで定義される一般原理は、本出願の範囲から逸脱することなく、他の態様に適用されてもよい。したがって、本出願は、ここに示す態様に限定されることを意図するものではなく、ここに開示される原理及び新規な特徴と一致する最も広い範囲を提示することを意図する。

上記の説明は、例示及び説明の目的で提供されている。さらに、この説明は、本出願の実施形態をここに開示された形式に限定することを意図するものではない。様々な例示的な態様及び実施形態が上記に説明されているが、当業者は、その特定のバリエーション、修正、変更、追加及びサブコンビネーションを認識する。

Claims

音源の確率密度分布を決定するために、複素ガウス分布により前記音源をモデル化するステップと、
前記確率密度分布に基づいてブラインド信号分離モデルを更新するステップと、
複数の分離された出力信号を取得するために、前記更新されたブラインド信号分離モデルによりオーディオ信号を分離するステップと
を含み、
前記ブラインド信号分離モデルのコスト関数は、

であり、ここで、W^(k)は第kの周波数点についての分離モデルであり、y_iは第iの音源についての分離された信号を表し、G(y_i)はコントラスト関数であり且つlog q(y_i)として表され、ここで、q(y_i)は第iの音源の確率密度分布である、リアルタイムでの高調波モデルのブラインド信号分離のための方法。
複素ガウス分布により前記音源をモデル化するステップは、オフラインモデル化、オンラインモデル化又はこれらの組み合わせを含む、請求項１に記載のブラインド信号分離のための方法。
前記オフラインモデル化は、前記音源の確率密度分布を取得するために、分離されるべき前記オーディオ信号の前記音源と同じ種別の音源からのクリーンオーディオ信号を使用することにより、モデル化することを含む、請求項２に記載のブラインド信号分離のための方法。
前記取得された複数の分離された出力信号に基づいて前記ブラインド信号分離モデルを更新するステップを更に含む、請求項３に記載のブラインド信号分離のための方法。
前記オンラインモデル化は、各音源の確率密度分布を取得するために、前記オーディオ信号の前のフレームを分離することにより取得された複数の出力信号をモデル化することを含むか、或いは
オフラインモデル化とオンラインモデル化との前記組み合わせは、分離されるべき前記オーディオ信号の音源の一部に対してオフラインモデル化を実行し、分離されるべき前記オーディオ信号の残りの部分に対してオンラインモデル化を実行することを含む、請求項２に記載のブラインド信号分離のための方法。
前記更新されたブラインド信号分離モデルによりオーディオ信号を分離するステップは、
周波数領域内で分離を実行するために、前記オーディオ信号を周波数領域信号に変換するステップであり、前記複数の分離された出力信号は周波数領域信号である、ステップを含む、請求項１に記載のブラインド信号分離のための方法。
前記複数の分離された出力信号のうち少なくとも1つを時間領域信号に変換するステップを更に含む、請求項６に記載のブラインド信号分離のための方法。
音源の確率密度分布を決定するために、複素ガウス分布により前記音源をモデル化するように構成されたモデル化ユニットと、
前記音源の前記確率密度分布に基づいてブラインド信号分離モデルを更新するように構成された更新ユニットと、
複数の分離された出力信号を取得するために、前記更新されたブラインド信号分離モデルによりオーディオ信号を分離するように構成された分離ユニットと
を含み、
前記ブラインド信号分離モデルのコスト関数は、

であり、ここで、W^(k)は第kの周波数点についての分離モデルであり、y_iは第iの音源についての分離された信号を表し、G(y_i)はコントラスト関数であり且つlog q(y_i)として表され、ここで、q(y_i)は第iの音源の確率密度分布である、リアルタイムでの高調波モデルのブラインド信号分離のための装置。
前記モデル化ユニットは、オフラインモデル化ユニットとオンラインモデル化ユニットとのうち少なくとも1つを含む、請求項８に記載のブラインド信号分離のための装置。
前記オフラインモデル化ユニットは、前記音源の確率密度分布を取得するために、分離されるべき前記オーディオ信号の前記音源と同じ種別の音源からのクリーンオーディオ信号を使用することにより、モデル化するように構成され、
前記オンラインモデル化ユニットは、各音源の確率密度分布を取得するために、前記オーディオ信号の前のフレームを分離することにより取得された複数の出力信号をモデル化するように構成される、請求項９に記載のブラインド信号分離のための装置。
前記モデル化ユニットは、オフラインモデル化ユニットとオンラインモデル化ユニットとの双方を含み、前記オフラインモデル化ユニットは、分離されるべき前記オーディオ信号の既知の音源に対してオフラインモデル化を実行するように構成され、前記オンラインモデル化ユニットは、分離されるべき前記オーディオ信号の未知の音源に対してオンラインモデル化を実行するように構成される、請求項１０に記載のブラインド信号分離のための装置。
周波数領域内で分離を実行するために、前記オーディオ信号を周波数領域信号に変換するように構成された周波数領域変換ユニットであり、前記複数の分離された出力信号は周波数領域信号である、周波数領域変換ユニットと、
前記分離された周波数領域の出力信号のうち少なくとも1つを時間領域信号に変換するように構成された時間領域変換ユニットと
を更に含む、請求項８に記載のブラインド信号分離のための装置。
プロセッサと、記憶されたコンピュータプログラム命令を有するメモリとを含む電子デバイスであって、
前記コンピュータプログラム命令は、実行されたときに、前記プロセッサがリアルタイムでの高調波モデルのブラインド信号分離のための方法を実行することを可能にし、
前記方法は、
音源の確率密度分布を決定するために、複素ガウス分布により前記音源をモデル化するステップと、
前記確率密度分布に基づいてブラインド信号分離モデルを更新するステップと、
複数の分離された出力信号を取得するために、前記更新されたブラインド信号分離モデルによりオーディオ信号を分離するステップと
を含み、
前記ブラインド信号分離モデルのコスト関数は、

であり、ここで、W^(k)は第kの周波数点についての分離モデルであり、y_iは第iの音源についての分離された信号を表し、G(y_i)はコントラスト関数であり且つlog q(y_i)として表され、ここで、q(y_i)は第iの音源の確率密度分布である、電子デバイス。
記憶されたコンピュータプログラム命令を有するコンピュータ読み取り可能記憶媒体であって、
前記コンピュータプログラム命令は、実行されたときに、プロセッサがリアルタイムでの高調波モデルのブラインド信号分離のための方法を実行することを可能にし、
前記方法は、
音源の確率密度分布を決定するために、複素ガウス分布により前記音源をモデル化するステップと、
前記確率密度分布に基づいてブラインド信号分離モデルを更新するステップと、
複数の分離された出力信号を取得するために、前記更新されたブラインド信号分離モデルによりオーディオ信号を分離するステップと
を含み、
前記ブラインド信号分離モデルのコスト関数は、

であり、ここで、W^(k)は第kの周波数点についての分離モデルであり、y_iは第iの音源についての分離された信号を表し、G(y_i)はコントラスト関数であり且つlog q(y_i)として表され、ここで、q(y_i)は第iの音源の確率密度分布である、コンピュータ読み取り可能記憶媒体。