JP7240445B2

JP7240445B2 - オーディオ処理方法、装置、端末、及び記憶媒体

Info

Publication number: JP7240445B2
Application number: JP2021100821A
Authority: JP
Inventors: シュイ，ナ; ジア，ヨンタオ; ワン，リンジャン
Original assignee: ペキンシャオミパインコーンエレクトロニクスカンパニー，リミテッド
Priority date: 2021-02-25
Filing date: 2021-06-17
Publication date: 2023-03-15
Anticipated expiration: 2041-06-17
Also published as: JP2022130269A; US20220270627A1; EP4050601B1; EP4050601A1; CN112820300B; CN112820300A; KR20220121661A

Description

本開示は、オーディオ処理技術に関し、特にオーディオ処理方法、装置、端末、及び記憶媒体に関する。

スマート電子機器の発展に伴い、音声認識に基づくマンマシンインタラクションは、各種のスマート端末に広く適用されている。音声認識では、声紋認識の方法に基づいてターゲットユーザを認識し、更にターゲットユーザの音声命令に基づいて対応する動作を実行することができる。音声通話でも、類似する方法によって処理し、ターゲットユーザの音声に基づき、周囲の他人の音声にノイズ低減処理を行うことで、通話品質などを向上させることができる。しかしながら、音声認識の精度が限られており、特に同じ性別の人の音声を区別することがより困難である。

関連技術における問題をある程度解決するために、本開示は、オーディオ処理方法、装置、端末、及び記憶媒体を提供する。

本開示の実施例の第１の態様によれば、
ターゲットオブジェクトのオーディオ混合特徴を決定するステップであって、前記オーディオ混合特徴は少なくとも前記ターゲットオブジェクトの声紋特徴及び基音特徴を含むステップと、
前記オーディオ混合特徴に基づいて混合オーディオに対して音声分離を行い、前記混合オーディオにおける前記ターゲットオブジェクトにマッチングするターゲットオーディオを得るステップと、を含むオーディオ処理方法を提供する。

いくつかの実施例において、ターゲットオブジェクトのオーディオ混合特徴を決定するステップは、
前記ターゲットオブジェクトのオーディオ信号を取得するステップと、
前記オーディオ信号の周波数スペクトルに基づき、前記ターゲットオブジェクトの声紋特徴を抽出するステップと、
前記声紋特徴に基づき、前記ターゲットオブジェクトの基音特徴を取得するステップと、
前記声紋特徴及び前記基音特徴に基づき、前記オーディオ混合特徴を決定するステップと、を含む。

いくつかの実施例において、前記声紋特徴に基づき、前記ターゲットオブジェクトの基音特徴を取得するステップは、
前記声紋特徴を予め設定された基音抽出ネットワークモデルに入力し、前記基音特徴を取得するステップを含む。

いくつかの実施例において、前記オーディオ信号の周波数スペクトルに基づき、前記ターゲットオブジェクトの声紋特徴を抽出するステップは、
前記オーディオ信号の周波数スペクトルを予め設定された声紋抽出ネットワークモデルに入力し、前記ターゲットオブジェクトの声紋特徴を取得するステップを含む。

いくつかの実施例において、前記オーディオ混合特徴に基づいて混合オーディオに対して音声分離を行い、前記混合オーディオにおける前記ターゲットオブジェクトにマッチングするターゲットオーディオを得るステップは、
前記混合オーディオの各オーディオフレームにおけるオーディオ特徴を取得するステップと、
各オーディオフレームにおける前記オーディオ特徴をそれぞれ前記オーディオ混合特徴と共に分離ネットワークモデルの各サブモジュールに入力し、各サブモジュールの出力結果を得るステップと、
前記各サブモジュールの出力結果が直列に接続された全出力結果に基づき、前記混合オーディオにおける前記ターゲットオブジェクトにマッチングするターゲットオーディオを得るステップと、を含む。

いくつかの実施例において、前記方法は、
音声通話中に、前記混合オーディオを取得するステップと、
前記音声分離後の前記ターゲットオーディオに基づき、強調後の前記ターゲットオーディオを出力するステップと、を更に含む。

いくつかの実施例において、前記方法は、
ターゲットオブジェクトの音声を含む登録情報を取得するステップと、
前記登録情報に基づき、前記オーディオ混合特徴を取得するステップと、を更に含む。

いくつかの実施例において、前記混合オーディオは、少なくとも２つの異なるオブジェクトの音声オーディオを含み、前記２つの異なるオブジェクトの音声オーディオは、同じ性別の異なるオブジェクトを表す音声オーディオを含む。

本開示の実施例の第２の態様によれば、
ターゲットオブジェクトのオーディオ混合特徴を決定するための第１の決定モジュールであって、前記オーディオ混合特徴は少なくとも前記ターゲットオブジェクトの声紋特徴及び基音特徴を含む第１の決定モジュールと、
前記オーディオ混合特徴に基づいて混合オーディオに対して音声分離を行い、前記混合オーディオにおける前記ターゲットオブジェクトにマッチングするターゲットオーディオを得るための分離モジュールと、を備えるオーディオ処理装置を提供する。

いくつかの実施例において、前記第１の決定モジュールは、
前記ターゲットオブジェクトのオーディオ信号を取得するための第１の取得サブモジュールと、
前記オーディオ信号の周波数スペクトルに基づき、前記ターゲットオブジェクトの声紋特徴を抽出するための抽出サブモジュールと、
前記声紋特徴に基づき、前記ターゲットオブジェクトの基音特徴を取得するための第２の取得サブモジュールと、
前記声紋特徴及び前記基音特徴に基づき、前記オーディオ混合特徴を決定するための第１の決定サブモジュールと、を含む。

いくつかの実施例において、前記第２の取得サブモジュールは、具体的に、
前記声紋特徴を予め設定された基音抽出ネットワークモデルに入力し、前記基音特徴を取得するために用いられる。

いくつかの実施例において、前記抽出サブモジュールは、具体的に、
前記オーディオ信号の周波数スペクトルを予め設定された声紋抽出ネットワークモデルに入力し、前記ターゲットオブジェクトの声紋特徴を取得するために用いられる。

いくつかの実施例において、前記分離モジュールは、
前記混合オーディオの各オーディオフレームにおけるオーディオ特徴を取得するための第３の取得サブモジュールと、
各オーディオフレームにおける前記オーディオ特徴をそれぞれ前記オーディオ混合特徴と共に分離ネットワークモデルの各サブモジュールに入力し、各サブモジュールの出力結果を得るための入力サブモジュールと、
前記各サブモジュールの出力結果が直列に接続された全出力結果に基づき、前記混合オーディオにおける前記ターゲットオブジェクトにマッチングするターゲットオーディオを得るための出力サブモジュールと、を含む。

いくつかの実施例において、前記装置は、
音声通話中に、前記混合オーディオを取得するための第１の取得モジュールと、
前記音声分離後の前記ターゲットオーディオに基づき、強調後の前記ターゲットオーディオを出力するための出力モジュールと、を更に備える。

いくつかの実施例において、前記装置は、
ターゲットオブジェクトの音声を含む登録情報を取得するための第２の取得モジュールと、
前記登録情報に基づき、前記オーディオ混合特徴を取得するための第３の取得モジュールと、を更に備える。

本開示の実施例の第３の態様によれば、プロセッサと、前記プロセッサで実行できる実行可能な命令を記憶するためのメモリと、を少なくとも含む端末であって、
プロセッサは、前記実行可能な命令を実行するとき、前記実行可能な命令を通じて上記いずれか一つのオーディオ処理方法におけるステップを実行するために用いられる端末を提供する。

本開示の実施例の第４態様によれば、コンピュータ実行可能な命令が記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、当該コンピュータ実行可能な命令がプロセッサによって実行されるときに上記いずれか一つのオーディオ処理方法におけるステップを実現する非一時的なコンピュータ読み取り可能な記憶媒体を提供する。

本開示の実施例により提供される技術案は、以下の有益な効果を含むことができる。声紋特徴及び基音特徴を含むオーディオ混合特徴によってターゲットユーザの認識を行い、人によって基音が異なるという特性を効果的に利用することで、声紋特徴及び基音特徴に基づいてターゲットユーザの音声に対する認識効果を向上させ、更に音声通話において音声認識のノイズ低減効果を向上させるとともに、ユーザ認識において認識の信頼性を向上させることができる。
以上の一般的な記載及び後述する詳細事項の記載は、単に例示的かつ解釈的なものであり、本開示を制限するものではないと理解すべきである。
ここの添付図面は、明細書に組み込まれて本明細書の一部を構成し、本発明に該当する実施例を示し、明細書と共に本発明の原理を解釈するために用いられる。

本開示の例示的な実施例によるオーディオ処理方法のフローチャート１本開示の例示的な実施例によるオーディオ処理方法のフローチャート２本開示の例示的な実施例によるオーディオ処理方法における声紋特徴抽出の模式図本開示の例示的な実施例によるオーディオ処理方法における音声分離の模式図本開示の例示的な実施例によるオーディオ処理装置の構造ブロック図本開示の例示的な実施例による端末の実体構造ブロック図

ここで、例示的な実施例について詳しく説明し、その例を添付図面に示す。以下の記載が添付図面に言及する場合、特に明記しない限り、異なる添付図面における同じ数字は、同じ又は類似する要素を表す。以下の例示的な実施例に記載の実施形態は、本発明に一致する全ての実施形態を代表するわけではない。むしろ、それらは、以下の特許請求の範囲において記述されているような、本発明の一部の態様に一致する装置及び方法の例に過ぎない。

図１は、例示的な実施例によるオーディオ処理方法のフローチャートであり、図１に示すように、前記方法は、以下のステップを含む。

ステップＳ１０１、ターゲットオブジェクトのオーディオ混合特徴を決定し、オーディオ混合特徴は少なくともターゲットオブジェクトの声紋特徴及び基音特徴を含む。

ステップＳ１０２、オーディオ混合特徴に基づいて混合オーディオに対して音声分離を行い、混合オーディオにおけるターゲットオブジェクトにマッチングするターゲットオーディオを得る。

ここで、上記方法を実行する主体は、スマート端末、家電機器などを含む、オーディオ収集機能を有する任意の電子機器であってよい。例えば、スマートフォン、タブレットコンピュータ、スマートスピーカ、インターホン機器及び各種のウェアラブル電子機器などである。説明の便宜上、本明細書は、端末を方法の実行主体とする例を挙げる。

本開示の実施例において、ターゲットオブジェクトは、登録されたユーザであってもよく、当該ユーザにより指定された他のオブジェクトであってもよい。ターゲットオブジェクトのオーディオ混合特徴は、ターゲットオブジェクトをサンプリングすることで得ることができ、例えば、ユーザは、指示に基づいて指定された文字コンテンツを読むことで、音声の入力を実現し、端末は、ユーザの入力コンテンツに基づいて音声をサンプリングするとともに、サンプリングされたコンテンツに基づいてオーディオ混合特徴を得る。

オーディオ混合特徴は予め取得されてもよく、例えば、ユーザが端末登録を行うプロセスにおいて、ユーザがオーディオ入力を行うように指示することで、オーディオ混合特徴を取得する。端末は、ユーザのオーディオ混合特徴を記憶することができる。勿論、ここのユーザは、端末の利用者に限定されないが、承認されたいかなるユーザであってもよい。音声認識を行う必要があるシーンにおいて、端末は、当該オーディオ混合特徴を検証のパラメータとして呼び出し、オーディオ混合特徴に基づいて検証することができる。

また、オーディオ混合特徴は、音声通話、音声入力などのプロセスにおいて取得されてもよい。例えば、ユーザは、端末によって音声通話を行い、このとき、通話シーンでユーザが端末に最も近いため、音量が最も大きい。この場合、端末は、音声通話を行うユーザをターゲットユーザとしてそのオーディオ混合特徴を取得するとともに、当該オーディオ混合特徴に基づいて現在通話中の音声に認識をリアルタイムに行うことで、ターゲットオーディオ及び環境ノイズにおけるオーディオを分離し、通話中のノイズ低減を実現することができる。

ここで、オーディオ混合特徴は、ターゲットオブジェクトの声紋特徴及び基音特徴を含む。ここで、基音特徴は、ターゲットユーザが話して発した最低オーディオ周波数であり、ターゲットユーザが話して発したオーディオ周波数は、基音オーディオ周波数の倍数などであってよい。人によって、基音は一般的に異なり、つまり、最低オーディオ周波数は異なる。声紋特徴は、トーン、音色、強度、音波の波長、周波数及び変化リズムなどの、異なる人の発話特性を反映できる特徴を含む。人によって口腔、声帯などの発声器官が異なり、且つ人によって発話習慣が異なるため、人はそれぞれ異なる声紋特徴を有する。

本開示の実施例において、ターゲットオブジェクトのオーディオ混合特徴を得るには、ニューラルネットワークによって声紋抽出及び基音抽出などを行うことでターゲットオブジェクトの声紋特徴及び基音特徴を得て、且つ声紋特徴及び基音特徴に基づいてターゲットオブジェクトのオーディオ混合特徴を得ることができる。オーディオ混合特徴によって音声認識を行うことは、各種の声紋特徴を利用するだけでなく、人によって基音が異なるという特性を利用することもできる。従って、発話習慣が類似するか又は同じ性別のトーンが似ているユーザにとって、より高い認識性能を有することができる。

ここで、混合オーディオは、ターゲットオブジェクトの発話によるターゲットオーディオ及び他の人の発話などによるオーディオを含むか、又はターゲットオーディオ及び他の環境ノイズなどを含むことができる。オーディオ混合特徴に基づいて混合オーディオにおけるターゲットオブジェクトにマッチングするターゲットオーディオを決定することによれば、分類ニューラルネットワークなどにより、オーディオ混合特徴を比較する手法を利用することで、ターゲットオーディオ及び混合オーディオを分類するか、又はターゲットオーディオを混合オーディオから分離することができる。

また、混合オーディオにターゲットオーディオが含まれていない可能性もあり、混合オーディオにターゲットオーディオが含まれているか否かについて、オーディオを分離する手法によって認識することができる。従って、上記方法は、混合オーディオにターゲットオーディオが含まれているか否かを決定するためにも用いられることができる。オーディオ混合特徴によってターゲットオブジェクトにマッチングするターゲットオーディオが存在すると決定した場合、ターゲットオーディオの検証に成功したことを決定することができる。混合オーディオにターゲットオーディオが存在しない場合、検証に失敗するなどになる。

このようにすれば、声紋特徴及び基音特徴を含むことで、オーディオ認識の認識効果を効果的に向上させ、特に同じ性別のユーザに対して、認識率を向上させ、更に利用効果を向上させる。

いくつかの実施例において、ターゲットオブジェクトのオーディオ混合特徴を決定するステップは、
ターゲットオブジェクトのオーディオ信号を取得するステップと、
オーディオ信号の周波数スペクトルに基づき、ターゲットオブジェクトの声紋特徴を抽出するステップと、
声紋特徴に基づき、ターゲットオブジェクトの基音特徴を取得するステップと、
声紋特徴及び基音特徴に基づき、オーディオ混合特徴を決定するステップと、を含む。

ここで、オーディオ混合特徴は、音声分離を行うときに取得されてもよく、予め取得されて記憶され、音声分離を行うときに記憶されたオーディオ混合特徴を利用して分離を行ってもよい。オーディオ混合特徴を取得するプロセスは、ターゲットオブジェクトのオーディオ信号を収集し、当該オーディオ信号の周波数スペクトルを利用して特徴抽出を行うことで実現される。

ここで、声紋特徴は、オーディオ信号の周波数スペクトルに基づいて抽出されることができ、続いて、声紋特徴に基づいて更にターゲットオブジェクトの基音特徴を得ることができる。例えば、ターゲットオブジェクトのオーディオ信号の周波数スペクトルを声紋抽出ニューラルネットワークに入力し、出力して声紋特徴を得る。更に声紋特徴を基音抽出ニューラルネットワークに入力し、基音特徴を得る。

このようにすれば、ターゲットオブジェクトのオーディオ信号に特徴抽出を行うことで、声紋特徴及び基音特徴を含むオーディオ混合特徴を得て、後続で音声分離を行うときに分離に使用されるパラメータとすることができる。

本開示の実施例において、ニューラルネットワークモデルによりオーディオ信号を処理し、声紋特徴を得てもよく、ニューラルネットワークモデル、即ち上記基音抽出ネットワークモデルにより、基音特徴を取得してもよい。

例示的に、ここで声紋特徴を予め設定された基音抽出ネットワークモデルに入力し、基音特徴を取得する。基音抽出ネットワークモデルは、多層ＬＳＴＭ（長短期記憶ネットワーク）及び完全接続層などを含んでもよい。基音抽出ネットワークによって基音特徴を取得した後、基音特徴及び声紋特徴を共に後続の音声分離に使用される混合オーディオ特徴として使用することができる。

別の実施例において、他のニューラルネットワークによってオーディオ信号の周波数スペクトルから基音特徴及び声紋特徴を直接取得することで、音声分離に必要な混合オーディオ特徴を得ることもできる。

いくつかの実施例において、前記オーディオ信号の周波数スペクトルに基づき、ターゲットオブジェクトの声紋特徴を抽出するステップは、
オーディオ信号の周波数スペクトルを予め設定された声紋抽出ネットワークモデルに入力し、ターゲットオブジェクトの声紋特徴を取得するステップを含む。

ここで、オーディオ信号に短時間フーリエ変換を行うことで音声の周波数スペクトルを得ることができ、続いて、周波数スペクトルを声紋抽出ネットワークモデルに入力して声紋特徴の抽出を行う。

例示的に、声紋抽出ネットワークモデルは、ＲＥＳＮＥＴ（残差ネットワーク）、プーリング層及び完全接続層などで構成されることができる。ここで、プーリング層は多層含まれてよく、例えば二層である。モデルをトレーニングするときに採用される損失関数（Ｌｏｓｓ）はクロスエントロピーであってよい。

上記声紋抽出ネットワークモデルによって得られたターゲットオブジェクトの声紋特徴は、基音抽出の入力パラメータとすることができる一方、基音特徴と共に音声分離プロセスにおける分離パラメータとすることができる。

いくつかの実施例において、オーディオ混合特徴に基づいて混合オーディオに対して音声分離を行い、混合オーディオにおけるターゲットオブジェクトにマッチングするターゲットオーディオを得るステップは、
混合オーディオの各オーディオフレームにおけるオーディオ特徴を取得するステップと、
各オーディオフレームにおけるオーディオ特徴をそれぞれオーディオ混合特徴と共に分離ネットワークモデルの各サブモジュールに入力し、各サブモジュールの出力結果を得るステップと、
各サブモジュールの出力結果が直列に接続された全出力結果に基づき、混合オーディオにおけるターゲットオブジェクトにマッチングするターゲットオーディオを得るステップと、を含む。

ここで、音声分離を行うオブジェクトは、混合オーディオであってよい。混合オーディオのコンテンツが分離ネットワークモデルにとって未知であるため、混合オーディオは、ターゲットオブジェクトの音声オーディオを含んでもよく、他の人の音声オーディオを含んでもよく、更に他の各種のノイズなどを含んでもよい。

音声分離を行うプロセスは、混合オーディオにおけるターゲットオブジェクトの音声オーディオを認識することを含んでもよく、ターゲットオブジェクト以外の他のオーディオを認識することを含んでもよい。従って、上述音声分離は、ターゲットオブジェクトにマッチングするターゲットオーディオを得るために用いられることができる一方、混合オーディオにおいてターゲットオブジェクトにマッチングするターゲットオーディオが存在するか否かを決定するために用いられることもできる。

本開示の実施例において、音声分離を行うときに、先に混合オーディオに前処理を行うことができ、混合オーディオに対してフレーム分割を行うことを含んでもよく、窓掛け処理などを更に含んでもよい。

混合オーディオに対して各オーディオフレームにおけるオーディオ特徴を取得し、オーディオ特徴を分離ネットワークモデルの入力とすることができる。分離ネットワークモデルは、オーディオ混合特徴に基づいて入力されたオーディオ特徴に分離処理を行い、分離された出力結果を得る。

分離ネットワークモデルは、複数のサブモジュールを含むことができ、これらのサブモジュールは、それぞれ各オーディオフレームのオーディオ特徴を処理するために用いられる。従って、各サブモジュールの出力結果が直列に接続された全出力結果は、混合オーディオ全体に対する分離結果である。

例示的に、分離ネットワークモデルの各サブモジュールは、多層ＬＳＴＭ及び完全接続層で構成されることができる。

いくつかの実施例において、図２に示すように、前記方法は、以下のステップを更に含む。

ステップＳ２０１、音声通話中に、前記混合オーディオを取得する。

ステップＳ２０２、前記音声分離後の前記ターゲットオーディオに基づき、強調後の前記ターゲットオーディオを出力する。

本開示の実施例において、音声通話中に上記音声分離を行うことができる。音声通話中に、発呼者をターゲットオブジェクトとすることができ、その発話した音声、周囲環境にいる他の人が発話した音声及び環境ノイズを同時に入力することで、混合オーディオを形成する。

混合オーディオがそのまま入力として通話相手に送信されるときる。相手から出力されたオーディオもノイズを含むオーディオであるため、相手ユーザが有効情報を受信することに影響を与え、通話品質が低下する。従って、本開示の実施例において、音声通話中に音声分離を行い、混合オーディオからターゲットオーディオを分離するとともに相手に送信することができる。このようにすれば、相手が受信したオーディオ信号におけるノイズ部分の多くがフィルタリングされて除去されたため、通話品質が向上する。

つまり、本開示の実施例の音声分離により、音声通話中のノイズ低減処理を実現し、強調後のターゲットオーディオを出力して、相手に送信する。

本開示の実施例において、混合オーディオにおけるターゲットオーディオに分離を行った後、ウィナーフィルタリングなどの手法によって更なるノイズ低減、増幅などの後処理を行うことで、強調後のターゲットオーディオを出力することができる。

本開示の実施例において、声紋特徴及び基音特徴で構成されたオーディオ混合特徴を用いて混合オーディオに分離を行うため、オーディオ混合特徴によって入力された混合オーディオにノイズ低減を行うことで、ノイズ低減効果を効果的に向上させることができ、特に通話中に、ターゲットオブジェクトの所在する環境で他の人が話していても、優れたノイズ低減効果を達成することができる。

オーディオ混合特徴は、音声分離を行う前に予め取得されることができ、ユーザが登録及び音声テンプレートの入力などを行うように提示することで、使用されるオーディオ混合特徴を得る。

ここで、ターゲットオブジェクトは、登録時に提示に基づいて音声情報を入力することができる。例えば、登録中にユーザが指定されたテキストを読むように提示し、且つターゲットユーザの入力した音声コンテンツを収集する。ユーザが入力した音声を登録情報に含むことによって、端末は、登録情報に基づいてその中の音声に上記声紋特徴の抽出及び基音特徴の抽出などを含む処理を行い、最終的に上記オーディオ混合特徴を得ることができる。

このようにすれば、ターゲットオブジェクトが登録を行った後、端末は、ユーザ本人の認識を実現することができ、音声情報の安全性が向上し、且つターゲットオブジェクトが後続で各種の音声入力シーンにおいて音声分離の機能を使用しやすくなる。

本開示の実施例において、音声分離を行うための特徴がターゲットオブジェクトの声紋特徴及び基音特徴を含むオーディオ混合特徴であるため、同じ性別の異なるオブジェクトの音声コンテンツに対して良好な認識効果を有する。

本開示の実施例におけるオーディオ処理方法を適用して混合オーディオを処理する場合、各種の混合オーディオに適用することができる。つまり、混合オーディオにターゲットオブジェクト及びターゲットオブジェクトと同じ性別の他のオブジェクトの音声オーディオの両方を含む場合でも、上記オーディオ処理方法によってターゲットオブジェクトのオーディオ分離を実現することができる。

このようにすれば、本開示の実施例により提供される方法は、より広範な適用シーン及びより優れた分離効果を有する。

本開示の実施例は、以下の例を更に提供する。

音声分離の目的は、複数の混在した話者から各ターゲット話者の音声信号を分離することである。いくつかの実施例において、音声分離の方法は、独立成分分析に基づくブラインド分離技術を主とする方法であり、深層学習に基づく音声分離技術も、徐々に音声分離の主要な傾向になってきており、モデルが異なる話者を区別する能力を備えるように、トレーニング中にある音声特徴をネットワーク入力としてトレーニングする。一実施例において、高次元の周波数スペクトル音声特徴をネットワーク入力としてトレーニングすることができるが、音声が重なり、同じ性別の話者に対する分離の場合における分離性能が低い可能性がある。

本開示の実施例において、適用シーンは、携帯電話による通話のシーンであってよく、特定の話者に対する音声強調及びノイズ低減機能を実現する。例えば、話者Ａが使用前に登録を行い、登録後に通話を行うときに、Ａの音声は通って相手に伝送されることができる。この場合、ユーザＢ、ユーザＣなどの他の話者の音声が現れた場合、伝送されず、ＡとＢが同時に話す場合、Ａの音声のみが通って相手に伝送される。

本開示の実施例は、深層学習及び基音抽出を組み合わせる手法を採用し、深層ニューラルネットワークの学習特性を利用し、同じ性別の話者に対して識別度を更に有する基音特徴と組み合わせ、混合特徴トレーニングモデルを使用することで、ターゲット話者の分離タスクに際して同じ性別の話者のシーンで性能が大幅に低下することを回避できる。具体的な方法は、以下のステップを含むことができる。

登録段階において、図３に示すように、声紋抽出モジュールによってターゲットオブジェクトの音声信号に声紋抽出を行い、ターゲットオブジェクトの声紋特徴を得る。声紋抽出モジュールは、深層学習技術を利用してトレーニングして得られ、当該モジュールの入力は、ターゲットオブジェクトの登録コーパスＳＴＦＴ（短時間フーリエ変換）振幅スペクトルであり、当該モジュールによる出力は１２８次元の声紋特徴であり得る。

分離段階において、図４に示すように、ターゲットオブジェクトの基音抽出モジュールを利用し、ターゲットオブジェクトの声紋特徴に基音抽出を行い、声紋特徴を混合してオーディオ混合特徴を得る。当該基音抽出モジュールは、深層学習によってトレーニングして得られる。

ターゲットオブジェクト及び他のオブジェクト音声信号を含む混合オーディオにおけるターゲットオブジェクトを分離するために、オーディオ混合特徴をパラメータとして分離モジュールに入力する。ここで、混合オーディオをマイクロフォン（Ｍｉｃ）のようなオーディオ収集機器によって収集し、分離モジュールに入力することができる。更に、分離後に得られたターゲットオブジェクトのターゲットオーディオに後処理モジュールによってウィナーフィルタリングを実行することで、強調後のターゲットオーディオを出力することができる。

本開示の実施例において、声紋抽出モジュールの入力特徴は、ターゲットオブジェクトの一部のコーパスのＳＴＦＴ振幅スペクトルとされる。ネットワーク構成は、ＲＥＳＮＥＴに２層のプーリング層が接続され、最後に１層の完全接続層が接続されたものであってよく、トレーニング用の損失関数（ｌｏｓｓ）はクロスエントロピーである。

基音抽出モジュールの入力特徴は、ターゲットオブジェクトの１２８次元の声紋特徴であってよく、ネットワーク構成は、多層ＬＳＴＭ（長短期記憶ネットワーク，ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）が１層の出力完全接続層に接続されたものであってよく、トレーニング用の損失関数は、クロスエントロピーであってよい。

分離モジュールの入力特徴は、ターゲットオブジェクトの一部のコーパスの基音特徴及び声紋特徴などで構成された声紋混合特徴であってよい。ネットワーク構成は、多層ＬＳＴＭニューラルネットワークに１層の完全接続層が１つのサブモジュールとして直列に接続され、各サブモジュールの入力特徴及びオーディオ混合特徴を入力とする。完全な分離モジュールのネットワークは、複数の同じサブモジュールによって直列に接続されて構成されている。出力結果は、分離後のターゲットオブジェクトのマルチフレーム音声信号であり、当該分離モジュールをトレーニングするための損失関数も、クロスエントロピーであってよい。

本開示の実施例の技術案により、深層学習ネットワークに基づき、基音特徴と声紋特徴を組み合わせて混合音声を分離することで、分離モデルの性能を向上させると同時に、同じ性別の話者の混合音声の分離を効果的に改善することができ、分離後の音声品質がより高くなる。

図５は、例示的な実施例によるオーディオ処理装置の構造ブロック図である。
図５に示すように、当該装置５００は、
ターゲットオブジェクトのオーディオ混合特徴を決定するための第１の決定モジュールであって、前記オーディオ混合特徴は少なくとも前記ターゲットオブジェクトの声紋特徴及び基音特徴を含む第１の決定モジュール５０１と、
前記オーディオ混合特徴に基づいて混合オーディオに対して音声分離を行い、前記混合オーディオにおける前記ターゲットオブジェクトにマッチングするターゲットオーディオを得るための分離モジュール５０２と、を備える。

上記実施例における装置について、その各モジュールが操作を実行する具体的な形態は、当該方法に関する実施例において詳細に説明されたため、ここで、それらについて詳しく説明しない。

図６は、例示的な実施例による端末６００のブロック図である。例えば、端末は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット機器、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどであってよい。

図６を参照すると、端末６００は、処理コンポーネント６０１、メモリ６０２、電源コンポーネント６０３、マルチメディアコンポーネント６０４、オーディオコンポーネント６０５、入力／出力（Ｉ／Ｏ）インタフェース６０６、センサコンポーネント６０７、及び通信コンポーネント６０８のうちの１つ又は複数のユニットを含むことができる。

処理コンポーネント６０１は、通常、端末６００の全体操作、例えば、表示、電話通話、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理コンポーネント６０１は、上記方法の全部または一部のステップを達成するために、命令を実行する１つ又は複数のプロセッサ６１０を含むことができる。また、処理コンポーネント６０１は、処理コンポーネント６０１と他のユニットとの間のインタラクションを容易にするために、１つ又は複数のモジュールを含むことができる。例えば、処理コンポーネント６０１は、マルチメディア６０４と処理コンポーネント６０１との間のインタラクションを容易にするために、マルチメディアモジュールを含むことができる。

メモリ６１０は、端末６００での操作をサポートするために様々なタイプのデータを記憶するように配置される。これらのデータの例として、端末６００で操作されるためのいかなるアプリケーションプログラム又は方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオなどを含む。メモリ６０２は、スタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能なプログラマブルリードオンリーメモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ）、プログラマブルリードオンリーメモリ（ＰＲＯＭ）、リードオンリーメモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクなどの任意のタイプの揮発性又は不揮発性の記憶機器又はこれらの組み合わせによって実現することができる。

電源コンポーネント６０３は、端末６００の各種のユニットに電力を供給する。電源コンポーネント６０３は、電源管理システムと、１つ又は複数の電源と、端末６００のために電力を生成・管理・分配することに関連するユニットとを含むことができる。

マルチメディアコンポーネント６０４は、前記端末６００とユーザの間に出力インタフェースを提供するスクリーンを含む。いくつかの実施例において、スクリーンは、液晶ディスプレイ（ＬＣＤ）と、タッチパネル（ＴＰ）とを含むことができる。スクリーンがタッチパネルを含む場合、スクリーンは、ユーザからの入力信号を受信するように、タッチスクリーンとして実現されることができる。タッチパネルは、タッチ、スライド及びタッチパネル上のジェスチャを感知するために、１つ又は複数のタッチセンサを含む。前記タッチセンサは、タッチ又はスライド動作の境界を感知することができるだけでなく、前記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。いくつかの実施例において、マルチメディアコンポーネント６０４は、１つのフロントカメラ及び／又はリアカメラを含む。端末６００が撮影モード又はビデオモードなどの操作モードにあるとき、フロントカメラ及び／又はリアカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは、固定された光学レンズ系であってもよく、又は焦点距離及び光学ズーム能力を有してもよい。

オーディオコンポーネント６０５は、オーディオ信号を出力及び／又は入力するように配置される。例えば、オーディオコンポーネント６０５はマイクロフォン（ＭＩＣ）を含み、端末６００が通話モード、記録モード及び音声認識モードなどの操作モードにあるとき、マイクロフォンは、外部のオーディオ信号を受信するように配置される。受信したオーディオ信号は、更にメモリ６１０に記憶されるか、又は通信コンポーネント６０８を介して送信されることができる。いくつかの実施例において、オーディオコンポーネント６０５は、オーディオ信号を出力するためのスピーカを更に含む。

Ｉ／Ｏインタフェース６０６は、処理コンポーネント６０１と周辺インタフェースモジュールとの間にインタフェースを提供し、上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタンなどであってよい。これらのボタンは、ホームボタン、音量ボタン、起動ボタン及びロックボタンを含むことができるが、これらに限定されない。

センサコンポーネント６０７は、端末６００に各面の状態評価を提供するための１つ又は複数のセンサを含む。例えば、センサコンポーネント６０７は、端末６００のオン／オフ状態、端末６００のディスプレイ及びキーパッドなどのユニットの相対的な位置決めを検出することができ、センサコンポーネント６０７は、端末６００又は端末６００の１つのユニットの位置変化、ユーザと端末６００との接触の有無、端末６００の方位又は加速／減速、及び端末６００の温度変化を検出することもできる。センサコンポーネント６０７は、いかなる物理的接触もないときに付近に物体が存在するか否かを検出するために配置される近接センサを含むことができる。センサコンポーネント６０７は、結像応用において使用されるＣＭＯＳ又はＣＣＤ画像センサのような光センサを更に含むこともできる。いくつかの実施例において、当該センサコンポーネント６０７は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを更に含むこともできる。

通信コンポーネント６０８は、端末６００と他の機器との間の有線又は無線方式の通信を容易にするために配置される。端末６００は、ＷｉＦｉ、２Ｇ又は３Ｇ、又はこれらの組み合わせのような通信規格に基づく無線ネットワークにアクセスすることができる。１つの例示的な実施例において、通信コンポーネント６０８は、放送チャネルを介して外部の放送管理システムからの放送信号又は放送関連情報を受信する。１つの例示的な実施例において、前記通信コンポーネント６０８は、短距離通信を容易にするために、近距離通信（ＮＦＣ）モジュールを更に含む。例えば、ＮＦＣモジュールにおいて無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標）（ＢＴ）技術及び他の技術に基づいて実現することができる。

例示的な実施例において、端末６００は、上記方法を実行するために、１つ又は複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理機器（ＤＳＰＤ）、プログラマブル論理デバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子によって実現されることができる。

例示的な実施例において、命令を含む非一時的なコンピュータ読み取り可能な記憶媒体を更に提供し、例えば命令を含むメモリ６０２であり、上記命令は、上記方法を完成するために、端末６００のプロセッサ６１０によって実行されることができる。例えば、前記非一時的なコンピュータ読み取り可能な記憶媒体は、ＲＯＭ、ランダムアクセスメモリ（ＲＡＭ）、ＣＤ－ＲＯＭ、磁気テープ、フロッピーディスク及び光データ記憶機器などであってよい。

本開示の実施例は、非一時的なコンピュータ読み取り可能な記憶媒体を更に提供し、前記記憶媒体における命令が移動端末のプロセッサによって実行されるとき、移動端末が上記実施例のいずれか一項により提供される方法を実行できる。

当業者は、明細書を検討し、明細書に開示された発明を実践した後、本発明の他の実施案を容易に想到する。本願は、本発明のいかなる変形、用途又は適応的変化を包含することを意図し、これらの変形、用途又は適応的変化は、本発明の一般的な原理に従い、且つ本開示に開示されていない本技術分野における公知の常識又は慣用の技術手段を含む。明細書及び実施例は、単なる例示的なものと見なされ、本発明の実質的な範囲及び精神は、以下の特許請求の範囲によって限定される。

なお、本発明は、以上に記載されて添付図面に示された具体的な構成に限定されず、且つその範囲から逸脱することなく種々の修正及び変更を行うことができる。本発明の範囲は、添付される特許請求の範囲のみによって限定される。

Claims

オーディオ処理装置によって実行されるオーディオ処理方法であって、
ターゲットオブジェクトのオーディオ混合特徴を決定するステップであって、前記オーディオ混合特徴は少なくとも前記ターゲットオブジェクトの声紋特徴及び基音特徴を含むステップと、
前記オーディオ混合特徴に基づいて混合オーディオに対して音声分離を行い、前記混合オーディオにおける前記ターゲットオブジェクトにマッチングするターゲットオーディオを得るステップと、を含み、
前記オーディオ混合特徴に基づいて混合オーディオに対して音声分離を行い、前記混合オーディオにおける前記ターゲットオブジェクトにマッチングするターゲットオーディオを得るステップは、
前記混合オーディオの各オーディオフレームにおけるオーディオ特徴を取得するステップと、
各オーディオフレームにおける前記オーディオ特徴をそれぞれ前記オーディオ混合特徴と共に分離ネットワークモデルの各サブモジュールに入力し、各サブモジュールの出力結果を得るステップと、
前記各サブモジュールの出力結果が直列に接続された全出力結果に基づき、前記混合オーディオにおける前記ターゲットオブジェクトにマッチングするターゲットオーディオを得るステップと、を含む、
ことを特徴とするオーディオ処理方法。
ターゲットオブジェクトのオーディオ混合特徴を決定するステップは、
前記ターゲットオブジェクトのオーディオ信号を取得するステップと、
前記オーディオ信号の周波数スペクトルに基づき、前記ターゲットオブジェクトの声紋特徴を抽出するステップと、
前記声紋特徴に基づき、前記ターゲットオブジェクトの基音特徴を取得するステップと、
前記声紋特徴及び前記基音特徴に基づき、前記オーディオ混合特徴を決定するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記声紋特徴に基づき、前記ターゲットオブジェクトの基音特徴を取得するステップは、
前記声紋特徴を予め設定された基音抽出ネットワークモデルに入力し、前記基音特徴を取得するステップを含む、
ことを特徴とする請求項２に記載の方法。
前記オーディオ信号の周波数スペクトルに基づき、前記ターゲットオブジェクトの声紋特徴を抽出するステップは、
前記オーディオ信号の周波数スペクトルを予め設定された声紋抽出ネットワークモデルに入力し、前記ターゲットオブジェクトの声紋特徴を取得するステップを含む、
ことを特徴とする請求項２に記載の方法。
音声通話中に、前記混合オーディオを取得するステップと、
前記音声分離後の前記ターゲットオーディオに基づき、強調後の前記ターゲットオーディオを出力するステップと、を更に含む、
ことを特徴とする請求項１に記載の方法。
ターゲットオブジェクトの音声を含む登録情報を取得するステップと、
前記登録情報に基づき、前記オーディオ混合特徴を取得するステップと、を更に含む、
ことを特徴とする請求項１に記載の方法。
前記混合オーディオは、少なくとも２つの異なるオブジェクトの音声オーディオを含み、前記２つの異なるオブジェクトの音声オーディオは、同じ性別の異なるオブジェクトを表す音声オーディオを含む、
ことを特徴とする請求項１に記載の方法。
オーディオ処理装置であって、
ターゲットオブジェクトのオーディオ混合特徴を決定するための第１の決定モジュールであって、前記オーディオ混合特徴は少なくとも前記ターゲットオブジェクトの声紋特徴及び基音特徴を含む第１の決定モジュールと、
前記オーディオ混合特徴に基づいて混合オーディオに対して音声分離を行い、前記混合オーディオにおける前記ターゲットオブジェクトにマッチングするターゲットオーディオを得るための分離モジュールと、を備え、
前記分離モジュールは、
前記混合オーディオの各オーディオフレームにおけるオーディオ特徴を取得するための第３の取得サブモジュールと、
各オーディオフレームにおける前記オーディオ特徴をそれぞれ前記オーディオ混合特徴と共に分離ネットワークモデルの各サブモジュールに入力し、各サブモジュールの出力結果を得るための入力サブモジュールと、
前記各サブモジュールの出力結果が直列に接続された全出力結果に基づき、前記混合オーディオにおける前記ターゲットオブジェクトにマッチングするターゲットオーディオを得るための出力サブモジュールと、を含む、
ことを特徴とするオーディオ処理装置。
前記第１の決定モジュールは、
前記ターゲットオブジェクトのオーディオ信号を取得するための第１の取得サブモジュールと、
前記オーディオ信号の周波数スペクトルに基づき、前記ターゲットオブジェクトの声紋特徴を抽出するための抽出サブモジュールと、
前記声紋特徴に基づき、前記ターゲットオブジェクトの基音特徴を取得するための第２の取得サブモジュールと、
前記声紋特徴及び前記基音特徴に基づき、前記オーディオ混合特徴を決定するための第１の決定サブモジュールと、を含む、
ことを特徴とする請求項８に記載の装置。
前記第２の取得サブモジュールは、具体的に、
前記声紋特徴を予め設定された基音抽出ネットワークモデルに入力し、前記基音特徴を取得するために用いられる、
ことを特徴とする請求項９に記載の装置。
前記抽出サブモジュールは、具体的に、
前記オーディオ信号の周波数スペクトルを予め設定された声紋抽出ネットワークモデルに入力し、前記ターゲットオブジェクトの声紋特徴を取得するために用いられる、
ことを特徴とする請求項９に記載の装置。
音声通話中に、前記混合オーディオを取得するための第１の取得モジュールと、
前記音声分離後の前記ターゲットオーディオに基づき、強調後の前記ターゲットオーディオを出力するための出力モジュールと、を更に備える、
ことを特徴とする請求項８～１１のいずれか一項に記載の装置。
ターゲットオブジェクトの音声を含む登録情報を取得するための第２の取得モジュールと、
前記登録情報に基づき、前記オーディオ混合特徴を取得するための第３の取得モジュールと、を更に備える、
ことを特徴とする請求項８～１１のいずれか一項に記載の装置。
前記混合オーディオは、少なくとも２つの異なるオブジェクトの音声オーディオを含み、前記２つの異なるオブジェクトの音声オーディオは、同じ性別の異なるオブジェクトを表す音声オーディオを含む、
ことを特徴とする請求項８～１１のいずれか一項に記載の装置。
端末であって、前記端末は少なくとも、プロセッサと、前記プロセッサで実行できる実行可能な命令を記憶するためのメモリと、を含み、
プロセッサは、前記実行可能な命令を実行するとき、前記実行可能な命令を通じて上記請求項１～７のいずれか一項により提供されるオーディオ処理方法におけるステップを実行するために用いられる、
ことを特徴とする端末。
非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体にはコンピュータ実行可能な命令が記憶されており、当該コンピュータ実行可能な命令は、プロセッサによって実行されるときに上記請求項１～７のいずれか一項により提供されるオーディオ処理方法におけるステップを実現する、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。