JP6966750B2 - ブラインド信号分離のための方法、装置及び電子デバイス - Google Patents

ブラインド信号分離のための方法、装置及び電子デバイス Download PDF

Info

Publication number
JP6966750B2
JP6966750B2 JP2019162504A JP2019162504A JP6966750B2 JP 6966750 B2 JP6966750 B2 JP 6966750B2 JP 2019162504 A JP2019162504 A JP 2019162504A JP 2019162504 A JP2019162504 A JP 2019162504A JP 6966750 B2 JP6966750 B2 JP 6966750B2
Authority
JP
Japan
Prior art keywords
sound source
signal separation
modeling
blind signal
blind
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019162504A
Other languages
English (en)
Other versions
JP2020042266A (ja
Inventor
玉祥 胡
▲長▼宝 朱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Horizon Robotics Technology Co Ltd
Original Assignee
Nanjing Horizon Robotics Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Horizon Robotics Technology Co Ltd filed Critical Nanjing Horizon Robotics Technology Co Ltd
Publication of JP2020042266A publication Critical patent/JP2020042266A/ja
Application granted granted Critical
Publication of JP6966750B2 publication Critical patent/JP6966750B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing

Description

本開示は、オーディオ信号処理技術に関し、より詳細には、ブラインド信号を分離するための方法、ブラインド信号を分離するための装置及び電子デバイスに関する。
「カクテルパーティ」は、音声強調システムにおける最も困難な問題の一つであり、その難しさは、音楽、車両のノイズ及び他の人間の音声を含むノイズの多い環境から所望の話者の音声信号を分離及び抽出するという要件にあり、一方で、人間の聴覚系は、この環境から関心のあるオーディオ信号を容易に抽出し得る。
既存の解決策は、人間の聴覚系をシミュレートするために、すなわち、特定の音源からの音を認識して強調するために、ブラインド信号分離システムを使用することである。
しかし、既存のブラインド信号分離システムには、特定のシナリオへの適応性のような問題が依然として存在する。例えば、多変量ラプラス分布に基づくブラインド信号分離アルゴリズムは、音響信号のほとんどに適用されてもよく、リアルタイム処理シナリオに拡張されてもよいが、高調波構造を有する音楽信号のような特定のスペクトル構造を有するいくつかの信号については、多変量ラプラスモデルは、このような信号を十分に記述できない。さらに、高調波モデルに基づくブラインド信号分離アルゴリズムは、音声及び音楽の混合信号を効果的に分離し得るが、高調波モデルについては、分離信号の分散は1であると仮定され、これはホワイトニング操作を必要とするので、オフラインシナリオにのみ適しており、リアルタイム処理シナリオに拡張できない。
したがって、改善されたブラインド信号分離解決策を提供することが依然として望まれる。
上記の技術課題を解決するために、本開示が提供される。本開示の実施形態は、ブラインド信号分離のための方法及び装置並びに電子デバイスを提供し、これは、複素ガウス分布に基づいて取得された音源の確率密度分布によりブラインド信号分離モデルを更新し、それにより、特定のシナリオにおけるブラインド信号分離アルゴリズムの分離性能を効果的に改善する。
本開示の一態様によれば、ブラインド信号分離のための方法が開示され、音源の確率密度分布を決定するために、複素ガウス分布により音源をモデル化するステップと、確率密度分布に基づいてブラインド信号分離モデルを更新するステップと、複数の分離された出力信号を取得するために、更新されたブラインド信号分離モデルによりオーディオ信号を分離するステップとを含む。
本開示の一態様によれば、ブラインド信号分離のための装置が開示され、音源の確率密度分布を決定するために、複素ガウス分布により音源をモデル化するように構成されたモデル化ユニットと、音源の確率密度分布に基づいてブラインド信号分離モデルを更新するように構成された更新ユニットと、複数の分離された出力信号を取得するために、更新されたブラインド信号分離モデルによりオーディオ信号を分離するように構成された分離ユニットとを含む。
本開示の他の態様によれば、電子デバイスが開示され、プロセッサと、記憶されたコンピュータプログラム命令を有するメモリとを含み、コンピュータプログラム命令は、実行されたときに、上記のように、プロセッサがブラインド信号分離のための方法を実行することを可能にする。
本開示の更に他の態様によれば、記憶されたコンピュータプログラム命令を有するコンピュータ読み取り可能記憶媒体が開示され、コンピュータプログラム命令は、実行されたときに、上記のように、プロセッサがブラインド信号分離のための方法を実行することを可能にする。
従来技術と比較して、本開示により提供される、ブラインド信号分離のための方法、ブラインド信号分離のための装置及び電子デバイスは、音源の確率密度分布を決定するために、複素ガウス分布により音源をモデル化し、音源の確率密度分布に基づいてブラインド信号分離モデルを更新し、複数の分離された出力信号を取得するために、ブラインド信号分離モデルによりオーディオ信号を分離してもよい。このように、高調波構造を有する音楽信号のリアルタイム分離のためのような、特定のシナリオにおけるブラインド信号分離アルゴリズムの分離性能が効果的に改善され得る。
本開示の上記及び他の目的、特徴及び利点は、添付図面を参照して本開示の実施形態をより詳細に説明することにより、より明確になる。図面は、本開示の実施形態の更なる理解を提供するために使用され、明細書の一部を構成し、図面は、本開示の実施形態と共に、この開示を説明するために使用され、限定を構成しない。図面において、同じ参照番号は、一般的に同じ部分又はステップを示す。
本開示の実施形態によるブラインド信号分離のための方法の適用シナリオの概略図を示す。 本開示の実施形態によるブラインド信号分離のための方法のフローチャートを示す。 オフラインモデル化に対応する全教師付きブラインド信号分離システムの概略図を示す。 オンラインモデル化に対応するリアルタイムブラインド信号分離システムの概略図を示す。 オフラインモデル化とオンラインモデル化との組み合わせに対応する半教師付きリアルタイムブラインド信号分離システムの概略図を示す。 本開示の実施形態によるブラインド信号分離のための装置のブロック図を示す。 本開示の実施形態による電子デバイスのブロック図を示す。
以下、本開示の例示的な実施形態について、図面を参照して詳細に説明する。明らかに、説明する実施形態は、本開示の実施形態の一部のみであり、本開示の全ての実施形態ではなく、本開示は、ここに記載される例示的な実施形態により限定されないことが理解されるべきである。
[開示の概要]
上記のように、ブラインド信号分離のための既存のシステムは、依然として、特定のシナリオへの適応性のような欠陥を有する。その理由は、既存のブラインド信号分離アルゴリズムが、多変量ラプラシアン分布に基づく多変量ラプラシアンモデルを使用し、これは、音響信号のほとんどに適用可能されてもよく、リアルタイム処理シナリオに拡張されてもよいが、高調波構造を有する音楽信号のような特定のスペクトル構造を有するいくつかの信号については、多変量ラプラシアンモデルは、このような信号を十分に記述できないからである。他の側面では、スーパーガウス分布を採用した高調波モデルが使用される場合、音声及び音楽の混合信号は効果的に分離され得るが、高調波モデルは、分離された信号の分散1を有すると仮定され、これはホワイトニング操作を行う必要があり、したがって、オフラインシナリオにのみ適しており、リアルタイム処理シナリオに拡張できない。
上記の技術的問題に基づいて、本開示の基本概念は、複素ガウス分布に基づいてモデル化し、従来の分離アルゴリズムにおける多変量ラプラシアンモデル又は高調波モデルを置き換えることである。特定の適用シナリオによれば、モデル化プロセスはオフラインモデル化又はオンラインモデル化でもよく、ブラインド信号分離モデルは、モデル化に基づいて反復的に更新され、それにより、特定のシナリオにおけるブラインド信号分離アルゴリズムの分離性能を改善する。
具体的には、本開示により提供される、ブラインド信号分離のための方法、ブラインド信号分離のための装置及び電子デバイスは、まず、音源の確率密度分布を決定するために、複素ガウス分布を使用することにより音源をモデル化し、次いで、音源の確率密度分布に基づいてブラインド信号分離モデルを更新し、最後に、複数の分離された出力信号を取得するために、ブラインド信号分離モデルを使用することによりオーディオ信号を分離する。したがって、高調波構造を有する音楽信号のリアルタイム分離のためのような、特定のシナリオにおけるブラインド信号分離アルゴリズムの分離性能が効果的に改善され得る。
本開示の基本原理を紹介した後に、本開示の様々な非限定的な実施形態について、図面を参照して以下に具体的に説明する。
[例示的なシステム]
図1は、本開示の実施形態によるブラインド信号分離技術の適用シナリオの概略図を示す。
図1に示すように、ブラインド信号分離システムS110は、複数の音源110-1、110-2、...、110-Nから音響信号を受信してもよく、各音源は、音楽音源、音声音源、環境ノイズ等のような既知の音源でもよく、或いは未知の音源でもよく、すなわち、音源の種別は未知である。
ブラインド信号分離システムS110は、特定の話者からの音声のような特定の音源からの音を認識して強調するために、ブラインド信号分離モデルを利用してもよい。以下に詳細に説明するように、ブラインド信号分離モデルは、複素ガウス分布に基づくモデルでもよい。音源種別が既知であるとき、同じ種別のクリーン音声信号がオフラインモデル化に使用されてもよく、他方で、音源種別が既知でないとき、オンラインモデル化及び反復更新モデルのモードが使用されてもよい。
各音源からの混合音声信号がブラインド信号分離モデルにより分離された後に、複数の分離された出力音声信号S1、S2...SM-1が生成され、これらから、ユーザは所望の音声信号を選択して強調してもよい。
次に、本開示の実施形態によるブラインド信号分離のための方法の具体的な例について詳細に説明する。
[例示的な方法]
図2は、本開示の実施形態によるブラインド信号分離のための方法のフローチャートを示す。
図2に示すように、本開示の実施形態によるブラインド信号分離のための方法は、音源の確率密度分布を決定するために、複素ガウス分布を使用することにより音源をモデル化するステップS210と、確率密度分布に基づいてブラインド信号分離モデルを更新するステップS220と、複数の分離された出力信号を取得するために、更新されたブラインド信号分離モデルを使用することによりオーディオ信号を分離するステップS230とを含んでもよい。
ステップS210において、音源の確率密度分布を決定するために、複素ガウス分布を使用することにより音源をモデル化する。モデル化ステップは、様々なモードで実行されてもよい。例えば、各音源の種別が既知であるとき、同じ種別の音源からのクリーンオーディオ信号が、オフラインモデル化のために、各音源の確率密度分布を決定するために事前に利用されてもよい。オフラインモデル化の1つの利点は、既知の種別のクリーン音声信号がモデル化に使用されるので、モデル化効率が高く、分離効果が良いことである。しかし、オフラインモデル化は、分離されるべきブラインド信号の音源種別が事前に未知である場合には適さない。この場合、オンラインモデル化が使用されてもよい。オンラインモデル化では、初期モデルがブラインド信号を分離するために使用され、次いで、オンラインモデル化が、対応する音源の確率密度分布を決定するために、分離された信号に対して実行されてもよい。他の場合、オフラインモデル化とオンラインモデル化との組み合わせモードもまた使用されてもよい。例えば、このモードは、ブラインド信号の音源種別の一部が既知であるが、他の音源種別が既知でないときに使用されてもよい。具体的には、既知の音源種別のクリーンオーディオ信号がオフラインモデル化に使用され、一方で、オンラインモデル化が未知の音源種別に使用され、モデル化プロセスは、上記のオフラインモデル化及びオンラインモデル化のプロセスと同じであり、それにより、各音源の確率密度分布を決定する。
次いで、ステップS220において、ブラインド信号分離モデルは、各音源の確率密度分布を使用することにより決定又は更新されてもよい。本開示の実施形態では、ブラインド信号分離モデルのコスト関数QBSSは、以下のように表されてもよい。
Figure 0006966750
ここで、W(k)は第kの周波数点についての分離モデルであり、yiは第iの音源についての分離された信号を表し、G(yi)はlog q(yi)として表されるコントラスト関数であり、この場合、q(yi)は第iの音源の確率密度分布である。本開示の実施形態では、上記のように、確率密度分布q(yi)は、従来のモデルにおける多変量ラプラシアン分布又はスーパーガウス分布の代わりに、複素ガウス分布を使用する。ステップS210において音源をモデル化することを通じて、分散のような各音源の複素ガウス分布q(yi)のパラメータが決定されてもよい。次いで、コスト関数QBSSを使用して、分離モデルWが決定されてもよい。ステップS220において、分離モデルWは、音源の確率密度分布に基づいて決定され、元々使用された分離モデルを更新するために使用されてもよい。
次いで、ステップS230において、オーディオ信号は、複数の出力信号を取得するために、ブラインド信号分離モデルWを使用することにより分離されてもよい。分離ステップ230において、ブラインド信号は、短時間フーリエ変換(STFT)により周波数領域信号に変換されてもよく、それにより、周波数領域でブラインド信号分離モデルにより分離を実行する。したがって、取得された複数の出力信号は、周波数領域信号であり、その中の必要な信号は、時間領域信号に変換されてもよく、次いで、例えばマイクロホンを通じて、音声信号として出力されてもよい。
当業者は、上記の説明に基づいて、また、以下で更に詳細に説明する実施形態と組み合わせて、ブラインド信号分離モデルのための更新が、上記のオフラインモデル化プロセス又はオンラインモデル化プロセス中の反復プロセスであることを理解し得る。すなわち、複数の分離された出力信号を取得するために、オーディオ信号がブラインド信号分離モデルを使用することにより分離された後に、モデル化は、ブラインド信号分離モデルを更新するために、取得された複数の分離された出力信号に基づいて更に実行される。したがって、オーディオ信号の次のフレームは、更新されたブラインド信号分離モデルを使用することにより更に分離される。このように、分離されているブラインド信号に適したより良い分離プロセスが実現され得る。
本開示の実施形態によるブラインド信号分離のための方法においてオンラインモデル化若しくはオフラインモデル化又は両者の組み合わせを使用するために、対応するブラインド信号分離システムは、全教師付きブラインド信号分離システム、リアルタイムブラインド信号分離システム又は半教師付きリアルタイムブラインド信号分離システムとして実現されてもよく、これらについて、以下に更に説明する。
図3は、オフラインモデル化に対応する全教師付きブラインド信号分離システムの概略図を示す。図3に示すように、オフラインモデル化は、音源の確率密度分布を決定するために、既知の音源種別のクリーンオーディオ信号を使用することにより実行される。モデル化に使用される音声信号は既知であるので、モデル化プロセスは、全教師付きプロセスと呼ばれることができ、これは、良好なモデル化効率及びモデル化精度を有する。次いで、ブラインド信号分離モデルは、コスト関数に基づいて決定されてもよい。マイクロホンアレイにより受信された信号は、短時間フーリエ変換(STFT)により周波数領域に変換され、ブラインド信号は、複数の出力信号を取得するために、ブラインド信号分離モデルを使用することにより周波数領域で分離される。出力信号は、オーディオ出力を実現するために時間領域に逆変換されてもよい。いくつかの実施形態において、取得された複数の出力信号はまた、ブラインド信号分離モデルを更に決定及び更新するためにモデル化されてもよく、プロセスは、最良の分離効果を実現するために反復的に実行されてもよい。
図4は、オンラインモデル化に対応するリアルタイムブラインド信号分離システムの概略図を示す。図4に示すように、マイクロホンにより受信された信号は、短時間フーリエ変換(STFT)により周波数領域に変換され、ブラインド信号は、複数の出力信号を取得するために、初期ブラインド信号分離モデルを使用することにより周波数領域で分離される。オンラインモデル化は、未知の種別の各音源の確率密度分布を決定し、次いでブラインド信号分離モデルを決定するように分離することにより生成された複数の出力信号に対して実行される。オンラインモデル化により決定されたブラインド信号分離モデルは、前に使用されたブラインド信号分離モデルを更新するために使用され、次のフレームの分離が続けられる。当該プロセスは反復的に実行され、ブラインド信号分離モデルは継続的に更新され、したがって、分離効果が改善される。このプロセスでは、音源種別が事前に未知であるので、リアルタイムモデル化解決策が使用される。
図5は、オフラインモデル化とオンラインモデル化との組み合わせに対応する半教師付きリアルタイムブラインド信号分離システムの概略図を示す。図5に示すように、既知の種別の音源の部分について、オフラインモデル化がそれらの確率密度分布を決定するために使用されてもよく、未知の種別の音源の部分について、オンラインモデル化がそれらの確率密度分布を決定するために使用される。初期時点において、未知の音源について、ランダム分布のような所定の初期確率密度分布が、オフラインモデル化により決定された既知の音源の確率密度分布と組み合わせて分離モデルを決定するために使用されてもよい。マイクロホンにより受信された信号は、短時間フーリエ変換(STFT)により周波数領域に変換され、既知の種別の出力信号1及び未知の種別の出力信号2を生成するために、決定されたブラインド信号分離モデルを使用することにより周波数領域で分離される。未知の種別の出力信号2について、上記のオンラインモデル化プロセスが、その確率密度分布を更新するために実行でき、したがって、ブラインド信号分離モデルを更新する。いくつかの実施形態において、モデル化プロセスはまた、オフラインモデル化により決定された対応する確率密度分布を更新するために、既知の種別の出力信号1に対して実行されてもよい。上記のプロセスでは、クリーンオーディオ信号が、種別が既知である音源の部分のみについてモデル化を実行するために使用され、リアルタイムモデル化は未知の音源に対して使用されないので、したがって、半教師付きリアルタイムモデル化システムとも呼ばれる。
従来の多変量ラプラシアンモデルは、分離されるべき信号を正確にモデル化できず、リアルタイム独立ベクトル分析アルゴリズムは、出力信号の信号対干渉比を効果的に提示することができない可能性があるが、本開示の半教師付きリアルタイムブラインド信号分離アルゴリズムを使用することは、分離された信号の信号対干渉比を効果的に改善し得る。一例では、リアルタイム分離は、本開示の実施形態によるブラインド信号分離のための方法を使用することにより、音楽が音声と混合された音響信号に対して実行され、分離前のマイクロホンデータの信号対干渉比は10.66dBであり、分離は多変量ラプラシアンモデルに基づくリアルタイム独立ベクトル分析アルゴリズムを使用することにより信号に対して実行され、分離後の信号対干渉比は9.82dBであり、一方で、分離は、図5に示す半教師付きリアルタイムブラインド信号分離システムを使用することにより信号に対して実行され、音楽信号が既知であり、分離後の信号対干渉比は16.91dBである。
[例示的な装置]
図6は、本開示の実施形態による、ブラインド信号分離のための装置のブロック図を示す。
図6に示すように、本開示の実施形態によるブラインド信号分離のための装置300は、音源の確率密度分布を決定するために、複素ガウス分布により音源をモデル化するためのモデル化ユニット310と、音源の確率密度分布に基づいてブラインド信号分離モデルを更新するための更新ユニット320と、複数の分離された出力信号を取得するために、更新されたブラインド信号分離モデルを使用することによりオーディオ信号を分離するための分離ユニット330とを含む。
一例では、ブラインド信号分離のための上記の装置300において、モデル化ユニット310は、オフラインモデル化ユニット及びオンラインモデル化ユニットのうち少なくとも1つを含んでもよい。オフラインモデル化ユニットは、音源の確率密度分布を取得するために、分離されるべきオーディオ信号の音源と同じ種別の音源からのクリーンオーディオ信号を使用することにより、モデル化を実行するために使用されてもよい。オンラインモデル化ユニットは、各音源の確率密度分布を取得するために、オーディオ信号の前のフレームを分離することにより取得された複数の出力信号に対してモデル化を実行するために使用されてもよい。オフラインモデル化ユニットは、既知の音源種別に使用されてもよく、一方で、オンラインモデル化ユニットは、未知の音源種別に使用されてもよいことが理解され得る。いくつかの実施形態では、モデル化ユニット310はまた、オフラインモデル化ユニットとオンラインモデル化ユニットとの両方を含んでもよい。
モデル化ユニット310のモデル化結果は、ブラインド信号分離モデルを更新するために更新ユニット320に対して使用されてもよく、したがって、分離ユニット330は、オーディオ信号を分離して複数の出力を生成するために、分離モデルを使用する。当該プロセスは、反復的に実行されてもよいことが理解されるべきである。すなわち、モデル化ユニット310は、より良い分離効果を実現するために、ブラインド信号分離モデルを継続的に更新するように分離ユニット330により生成された複数の出力のうち1つ以上に対してモデル化を実行してもよい。
一例では、ブラインド信号分離のための装置300は、周波数領域内で分離するために、オーディオ信号を周波数領域信号に変換するための周波数領域変換ユニット340であり、複数の分離された出力信号もまた周波数領域信号である、周波数領域変換ユニット340と、オーディオ出力とするために、分離された周波数領域出力信号のうち少なくとも1つを時間領域信号に変換するための時間領域変換ユニット350とを更に含んでもよい。
ブラインド信号分離のための上記の装置300の様々なユニット及びモジュールの具体的な機能及び動作は、図1〜図5を参照した上記の説明において詳細に説明されているので、ここでは、簡単な説明のみが与えられ、繰り返しの詳細な説明は省略されることが理解され得る。
上記のように、本開示の実施形態によるブラインド信号分離のための装置300は、音声信号分離等のためのオーディオ処理デバイスのような様々な端末デバイスにより実現されてもよい。一例では、本開示の実施形態による装置300は、ソフトウェアモジュール及び/又はハードウェアモジュールとして、端末デバイスに統合されてもよい。例えば、この装置300は、この端末デバイスのオペレーティングシステムのソフトウェアモジュールでもよく、或いはこの端末デバイスのために開発されたアプリケーションプログラムでもよい。当然に、この装置300はまた、この端末デバイスの複数のハードウェアモジュールのうち1つでもよい。
代替として、他の例では、このブラインド信号分離のための装置300及びこの端末デバイス300はまた、分離されたデバイスでもよく、この装置300は、有線及び/又は無線ネットワークを通じてこの端末デバイスに接続され、所定のデータフォーマットに従って対話型情報を送信してもよい。
[例示的な電子デバイス]
以下に、本開示の実施形態による電子デバイスについて、図7を参照して説明する。図7に示すように、電子デバイス10は、1つ以上のプロセッサ11及びメモリ12を含む。
プロセッサ11は、中央処理装置(CPU)又はデータ処理能力及び/又は命令実行能力を有する他の形式の処理ユニットでもよく、所望の機能を実行するために電子デバイス10内の他のアセンブリを制御してもよい。
メモリ12は、揮発性メモリ及び/又は不揮発性メモリのような様々な形式のコンピュータ読み取り可能記憶媒体を含んでもよい1つ以上のコンピュータプログラムプロダクトを含んでもよい。揮発性メモリは、例えば、ランダムアクセスメモリ(RAM)及び/又はキャッシュ等を含んでもよい。不揮発性メモリは、例えば、読み取り専用メモリ(ROM)、ハードディスク、フラッシュメモリ等を含んでもよい。1つ以上のコンピュータプログラム命令は、コンピュータ読み取り可能記憶媒体に記憶されてもよく、プロセッサ11は、上記のように、本開示の様々な実施形態のブラインド信号分離及び/又は他の所望の機能のための方法を実現するように、プログラム命令を実行してもよい。既知の音源種別のクリーンオーディオ信号等もまた、コンピュータ読み取り可能記憶媒体に記憶されてもよい。
一例では、電子デバイス10はまた、入力デバイス13及び出力デバイス14を含んでもよく、これらのアセンブリは、バスシステム及び/又は他の形式の接続機構(図示せず)により相互接続される。
例えば、この入力デバイス13は、音源からの入力信号をリアルタイムに捕捉するためのマイクロホン又はマイクロホンのアレイでもよい。この入力デバイス13はまた、外部からデジタル化されたオーディオ信号を受信するための、通信ネットワークコネクタのような様々な入力インタフェースでもよい。さらに、入力デバイス13は、例えば、キーボード、マウス等を含んでもよい。
出力デバイス14は、複数の分離された出力信号等を含む様々な情報を外部に出力してもよい。出力デバイス14は、例えば、ディスプレイ、スピーカ、及びそれが接続されている通信ネットワークインタフェース及び遠隔出力デバイス等を含んでもよい。
当然に、簡潔にするために、電子デバイス10における本開示に関係するアセンブリの一部のみが図7に示されており、バス、入力/出力インタフェース等のようなアセンブリは省略されている。さらに、電子デバイス10は、特定の用途に依存していずれか他の適切なアセンブリを含んでもよい。
[例示的なコンピュータプログラムプロダクト及びコンピュータ読み取り可能媒体]
上記の方法及び装置に加えて、本開示の実施形態は、コンピュータプログラム命令を含むコンピュータプログラムプロダクトでもよく、当該コンピュータプログラム命令は、プロセッサにより実行されたとき、プロセッサに対して、本開示の上記の「例示的な方法」の部分に記載されるように、本開示の様々な実施形態によるブラインド信号分離のための方法のステップを実行させる。
コンピュータプログラムプロダクトは、本開示の実施形態の動作を実行するためのプログラムコードを、1つ以上のプログラミング言語のいずれかの組み合わせで書いてもよく、当該プログラミング言語は、Java(登録商標)、C++等のようなオブジェクト指向プログラミング言語と、「C」言語又は同様のプログラミング言語のような従来の手続き型プログラミング言語を含む。プログラムコードは、完全にユーザコンピューティングデバイス上で実行されてもよく、部分的にユーザデバイス上で実行されてもよく、スタンドアローン型ソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピューティングデバイス上で実行され且つ部分的に遠隔コンピューティングデバイス上で実行されてもよく、或いは完全に遠隔コンピューティングデバイス又はサーバ上で実行されてもよい。
さらに、本開示の実施形態は、記憶されたコンピュータプログラム命令を有するコンピュータ読み取り可能記憶媒体でもよく、当該コンピュータプログラム命令は、プロセッサにより実行されたとき、プロセッサに対して、本開示の上記の「例示的な方法」の部分に記載されるように、本開示の様々な実施形態によるブラインド信号分離のための方法のステップを実行させる。
コンピュータ読み取り可能記憶媒体は、1つ以上の読み取り可能媒体のいずれかの組み合わせを使用してもよい。読み取り可能媒体は、読み取り可能信号媒体又は読み取り可能記憶媒体でもよい。コンピュータ読み取り可能記憶媒体は、電気的、磁気的、光学的、電磁的、赤外線若しくは半導体のシステム、装置若しくはデバイス、又は上記のいずれかの組み合わせを含んでもよいが、これらに限定されない。読み取り可能記憶媒体のより具体的な例(非網羅的なリスト)は、1つ以上のワイヤとの電気的接続、ポータブルディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラム可能読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、又はこれらのいずれかの適切な組み合わせを含む。
本出願の基本原理について、具体的な実施形態と共に上記に説明したが、本出願で言及した利点、優越性、効果等は単なる例に過ぎず、本発明を限定することを意図するものではなく、これらの利点、優越性、効果等は、本出願の実施形態に必須のものとは考えられないことを指摘する必要がある。さらに、上記の開示の具体的な詳細は、例示の目的及び理解の容易さのためのものに過ぎず、限定を目的としたものではなく、上記の詳細は、上記の具体的な詳細において実現される本出願を限定するものではない。
本出願で示されるデバイス、装置、機器、システムのブロック図は、単なる例示的な例であり、接続、配置及び構成がブロック図に示される方式で行われなければならないことを要求又は暗示することを意図するものではない。当業者が認識するように、これらのデバイス、装置、機器、システムは、いずれかの方式で接続、配置又は構成されてもよい。「含む」、「包含する」、「有する」等のような用語は、「含むがこれに限定されない」を意味し、交換可能に使用されてもよい。ここで使用される「又は」及び「及び」という用語は、文脈が明確に他のことを示さない限り、「及び/又は」という用語を示し、交換可能に使用されてもよい。ここで使用される「等」という用語は、「のようなものであるがこれに限定されない」という語句を示し、交換可能に使用される。
本出願の装置、機器及び方法において、各構成要素又は各ステップは分解及び/又は再結合されてもよい点にも留意すべきである。これらの分解及び/又は再結合は、本出願の同等物とみなされるべきである。
開示された態様の上記の説明は、いずれかの当業者が本出願を製造又は使用することを可能にするために提供される。これらの態様に対する様々な修正は、当業者にとって非常に自明であり、ここで定義される一般原理は、本出願の範囲から逸脱することなく、他の態様に適用されてもよい。したがって、本出願は、ここに示す態様に限定されることを意図するものではなく、ここに開示される原理及び新規な特徴と一致する最も広い範囲を提示することを意図する。
上記の説明は、例示及び説明の目的で提供されている。さらに、この説明は、本出願の実施形態をここに開示された形式に限定することを意図するものではない。様々な例示的な態様及び実施形態が上記に説明されているが、当業者は、その特定のバリエーション、修正、変更、追加及びサブコンビネーションを認識する。

Claims (14)

  1. 音源の確率密度分布を決定するために、複素ガウス分布により前記音源をモデル化するステップと、
    前記確率密度分布に基づいてブラインド信号分離モデルを更新するステップと、
    複数の分離された出力信号を取得するために、前記更新されたブラインド信号分離モデルによりオーディオ信号を分離するステップと
    を含み、
    前記ブラインド信号分離モデルのコスト関数は、
    Figure 0006966750

    であり、ここで、W(k)は第kの周波数点についての分離モデルであり、yiは第iの音源についての分離された信号を表し、G(yi)はコントラスト関数であり且つlog q(yi)として表され、ここで、q(yi)は第iの音源の確率密度分布である、リアルタイムでの高調波モデルのブラインド信号分離のための方法。
  2. 複素ガウス分布により前記音源をモデル化するステップは、オフラインモデル化、オンラインモデル化又はこれらの組み合わせを含む、請求項1に記載のブラインド信号分離のための方法。
  3. 前記オフラインモデル化は、前記音源の確率密度分布を取得するために、分離されるべき前記オーディオ信号の前記音源と同じ種別の音源からのクリーンオーディオ信号を使用することにより、モデル化することを含む、請求項2に記載のブラインド信号分離のための方法。
  4. 前記取得された複数の分離された出力信号に基づいて前記ブラインド信号分離モデルを更新するステップを更に含む、請求項3に記載のブラインド信号分離のための方法。
  5. 前記オンラインモデル化は、各音源の確率密度分布を取得するために、前記オーディオ信号の前のフレームを分離することにより取得された複数の出力信号をモデル化することを含むか、或いは
    オフラインモデル化とオンラインモデル化との前記組み合わせは、分離されるべき前記オーディオ信号の音源の一部に対してオフラインモデル化を実行し、分離されるべき前記オーディオ信号の残りの部分に対してオンラインモデル化を実行することを含む、請求項2に記載のブラインド信号分離のための方法。
  6. 前記更新されたブラインド信号分離モデルによりオーディオ信号を分離するステップは、
    周波数領域内で分離を実行するために、前記オーディオ信号を周波数領域信号に変換するステップであり、前記複数の分離された出力信号は周波数領域信号である、ステップを含む、請求項1に記載のブラインド信号分離のための方法。
  7. 前記複数の分離された出力信号のうち少なくとも1つを時間領域信号に変換するステップを更に含む、請求項6に記載のブラインド信号分離のための方法。
  8. 音源の確率密度分布を決定するために、複素ガウス分布により前記音源をモデル化するように構成されたモデル化ユニットと、
    前記音源の前記確率密度分布に基づいてブラインド信号分離モデルを更新するように構成された更新ユニットと、
    複数の分離された出力信号を取得するために、前記更新されたブラインド信号分離モデルによりオーディオ信号を分離するように構成された分離ユニットと
    を含み、
    前記ブラインド信号分離モデルのコスト関数は、
    Figure 0006966750

    であり、ここで、W(k)は第kの周波数点についての分離モデルであり、yiは第iの音源についての分離された信号を表し、G(yi)はコントラスト関数であり且つlog q(yi)として表され、ここで、q(yi)は第iの音源の確率密度分布である、リアルタイムでの高調波モデルのブラインド信号分離のための装置。
  9. 前記モデル化ユニットは、オフラインモデル化ユニットとオンラインモデル化ユニットとのうち少なくとも1つを含む、請求項8に記載のブラインド信号分離のための装置。
  10. 前記オフラインモデル化ユニットは、前記音源の確率密度分布を取得するために、分離されるべき前記オーディオ信号の前記音源と同じ種別の音源からのクリーンオーディオ信号を使用することにより、モデル化するように構成され、
    前記オンラインモデル化ユニットは、各音源の確率密度分布を取得するために、前記オーディオ信号の前のフレームを分離することにより取得された複数の出力信号をモデル化するように構成される、請求項9に記載のブラインド信号分離のための装置。
  11. 前記モデル化ユニットは、オフラインモデル化ユニットとオンラインモデル化ユニットとの双方を含み、前記オフラインモデル化ユニットは、分離されるべき前記オーディオ信号の既知の音源に対してオフラインモデル化を実行するように構成され、前記オンラインモデル化ユニットは、分離されるべき前記オーディオ信号の未知の音源に対してオンラインモデル化を実行するように構成される、請求項10に記載のブラインド信号分離のための装置。
  12. 周波数領域内で分離を実行するために、前記オーディオ信号を周波数領域信号に変換するように構成された周波数領域変換ユニットであり、前記複数の分離された出力信号は周波数領域信号である、周波数領域変換ユニットと、
    前記分離された周波数領域の出力信号のうち少なくとも1つを時間領域信号に変換するように構成された時間領域変換ユニットと
    を更に含む、請求項8に記載のブラインド信号分離のための装置。
  13. プロセッサと、記憶されたコンピュータプログラム命令を有するメモリとを含む電子デバイスであって、
    前記コンピュータプログラム命令は、実行されたときに、前記プロセッサがリアルタイムでの高調波モデルのブラインド信号分離のための方法を実行することを可能にし、
    前記方法は、
    音源の確率密度分布を決定するために、複素ガウス分布により前記音源をモデル化するステップと、
    前記確率密度分布に基づいてブラインド信号分離モデルを更新するステップと、
    複数の分離された出力信号を取得するために、前記更新されたブラインド信号分離モデルによりオーディオ信号を分離するステップと
    を含み、
    前記ブラインド信号分離モデルのコスト関数は、
    Figure 0006966750

    であり、ここで、W(k)は第kの周波数点についての分離モデルであり、yiは第iの音源についての分離された信号を表し、G(yi)はコントラスト関数であり且つlog q(yi)として表され、ここで、q(yi)は第iの音源の確率密度分布である、電子デバイス。
  14. 記憶されたコンピュータプログラム命令を有するコンピュータ読み取り可能記憶媒体であって、
    前記コンピュータプログラム命令は、実行されたときに、プロセッサがリアルタイムでの高調波モデルのブラインド信号分離のための方法を実行することを可能にし、
    前記方法は、
    音源の確率密度分布を決定するために、複素ガウス分布により前記音源をモデル化するステップと、
    前記確率密度分布に基づいてブラインド信号分離モデルを更新するステップと、
    複数の分離された出力信号を取得するために、前記更新されたブラインド信号分離モデルによりオーディオ信号を分離するステップと
    を含み、
    前記ブラインド信号分離モデルのコスト関数は、
    Figure 0006966750

    であり、ここで、W(k)は第kの周波数点についての分離モデルであり、yiは第iの音源についての分離された信号を表し、G(yi)はコントラスト関数であり且つlog q(yi)として表され、ここで、q(yi)は第iの音源の確率密度分布である、コンピュータ読み取り可能記憶媒体。
JP2019162504A 2018-09-07 2019-09-06 ブラインド信号分離のための方法、装置及び電子デバイス Active JP6966750B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811045478.0A CN110890098B (zh) 2018-09-07 2018-09-07 盲信号分离方法、装置和电子设备
CN201811045478.0 2018-09-07

Publications (2)

Publication Number Publication Date
JP2020042266A JP2020042266A (ja) 2020-03-19
JP6966750B2 true JP6966750B2 (ja) 2021-11-17

Family

ID=67847636

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019162504A Active JP6966750B2 (ja) 2018-09-07 2019-09-06 ブラインド信号分離のための方法、装置及び電子デバイス

Country Status (5)

Country Link
US (1) US10978089B2 (ja)
EP (1) EP3624117A1 (ja)
JP (1) JP6966750B2 (ja)
KR (1) KR102194194B1 (ja)
CN (1) CN110890098B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111863020B (zh) * 2020-07-30 2022-09-20 腾讯科技(深圳)有限公司 语音信号处理方法、装置、设备及存储介质
CN112339684B (zh) * 2020-10-27 2021-12-24 广州汽车集团股份有限公司 一种基于概率分布的汽车安全机制触发方法及装置
CN112349292B (zh) * 2020-11-02 2024-04-19 深圳地平线机器人科技有限公司 信号分离方法和装置、计算机可读存储介质、电子设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009529699A (ja) * 2006-03-01 2009-08-20 ソフトマックス,インコーポレイテッド 分離信号を生成するシステムおよび方法
JP4660739B2 (ja) * 2006-09-01 2011-03-30 独立行政法人産業技術総合研究所 音分析装置およびプログラム
US9047867B2 (en) * 2011-02-21 2015-06-02 Adobe Systems Incorporated Systems and methods for concurrent signal recognition
JP6099032B2 (ja) * 2011-09-05 2017-03-22 大学共同利用機関法人情報・システム研究機構 信号処理装置、信号処理方法及びコンピュータプログラム
US9124981B2 (en) * 2012-11-14 2015-09-01 Qualcomm Incorporated Systems and methods for classification of audio environments
JP6543843B2 (ja) * 2015-06-18 2019-07-17 本田技研工業株式会社 音源分離装置、および音源分離方法
GB2548325B (en) * 2016-02-10 2021-12-01 Audiotelligence Ltd Acoustic source seperation systems
CN106887238B (zh) * 2017-03-01 2020-05-15 中国科学院上海微系统与信息技术研究所 一种基于改进独立向量分析算法的声信号盲分离方法
JP6976804B2 (ja) * 2017-10-16 2021-12-08 株式会社日立製作所 音源分離方法および音源分離装置
CN108364659B (zh) * 2018-02-05 2021-06-01 西安电子科技大学 基于多目标优化的频域卷积盲信号分离方法

Also Published As

Publication number Publication date
US10978089B2 (en) 2021-04-13
JP2020042266A (ja) 2020-03-19
CN110890098A (zh) 2020-03-17
EP3624117A1 (en) 2020-03-18
KR20200028852A (ko) 2020-03-17
CN110890098B (zh) 2022-05-10
US20200082838A1 (en) 2020-03-12
KR102194194B1 (ko) 2020-12-22

Similar Documents

Publication Publication Date Title
EP3192070B1 (en) Text-to-speech with emotional content
US9536540B2 (en) Speech signal separation and synthesis based on auditory scene analysis and speech modeling
JP6966750B2 (ja) ブラインド信号分離のための方法、装置及び電子デバイス
JP6889698B2 (ja) 音声を増幅する方法及び装置
JP6622505B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
Ravanelli et al. Realistic multi-microphone data simulation for distant speech recognition
JP5103974B2 (ja) マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム
JP2008158035A (ja) 多音源有音区間判定装置、方法、プログラム及びその記録媒体
US9484044B1 (en) Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms
WO2023001128A1 (zh) 音频数据的处理方法、装置及设备
KR102410850B1 (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
CN108461081A (zh) 语音控制的方法、装置、设备和存储介质
JP2022505682A (ja) ソース分離装置、ソース分離装置の方法、およびプログラム
Kim et al. Efficient implementation of the room simulator for training deep neural network acoustic models
CN114333865A (zh) 一种模型训练以及音色转换方法、装置、设备及介质
US9601124B2 (en) Acoustic matching and splicing of sound tracks
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
Nesta et al. Robust Automatic Speech Recognition through On-line Semi Blind Signal Extraction
WO2023287773A1 (en) Speech enhancement
CN108962226B (zh) 用于检测语音的端点的方法和装置
JP7360814B2 (ja) 音声処理装置及び音声処理プログラム
US9978393B1 (en) System and method for automatically removing noise defects from sound recordings
KR20200092501A (ko) 합성 음성 신호 생성 방법, 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법
JP2003044077A (ja) 音声特徴量抽出方法と装置及びプログラム
JP6891144B2 (ja) 生成装置、生成方法及び生成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190906

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210120

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210413

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210812

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210812

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210823

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20210824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210921

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211012

R150 Certificate of patent or registration of utility model

Ref document number: 6966750

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150