JP7240445B2 - オーディオ処理方法、装置、端末、及び記憶媒体 - Google Patents

オーディオ処理方法、装置、端末、及び記憶媒体 Download PDF

Info

Publication number
JP7240445B2
JP7240445B2 JP2021100821A JP2021100821A JP7240445B2 JP 7240445 B2 JP7240445 B2 JP 7240445B2 JP 2021100821 A JP2021100821 A JP 2021100821A JP 2021100821 A JP2021100821 A JP 2021100821A JP 7240445 B2 JP7240445 B2 JP 7240445B2
Authority
JP
Japan
Prior art keywords
audio
features
target object
module
voiceprint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021100821A
Other languages
English (en)
Other versions
JP2022130269A (ja
Inventor
シュイ,ナ
ジア,ヨンタオ
ワン,リンジャン
Original Assignee
ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド filed Critical ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド
Publication of JP2022130269A publication Critical patent/JP2022130269A/ja
Application granted granted Critical
Publication of JP7240445B2 publication Critical patent/JP7240445B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Description

本開示は、オーディオ処理技術に関し、特にオーディオ処理方法、装置、端末、及び記憶媒体に関する。
スマート電子機器の発展に伴い、音声認識に基づくマンマシンインタラクションは、各種のスマート端末に広く適用されている。音声認識では、声紋認識の方法に基づいてターゲットユーザを認識し、更にターゲットユーザの音声命令に基づいて対応する動作を実行することができる。音声通話でも、類似する方法によって処理し、ターゲットユーザの音声に基づき、周囲の他人の音声にノイズ低減処理を行うことで、通話品質などを向上させることができる。しかしながら、音声認識の精度が限られており、特に同じ性別の人の音声を区別することがより困難である。
関連技術における問題をある程度解決するために、本開示は、オーディオ処理方法、装置、端末、及び記憶媒体を提供する。
本開示の実施例の第1の態様によれば、
ターゲットオブジェクトのオーディオ混合特徴を決定するステップであって、前記オーディオ混合特徴は少なくとも前記ターゲットオブジェクトの声紋特徴及び基音特徴を含むステップと、
前記オーディオ混合特徴に基づいて混合オーディオに対して音声分離を行い、前記混合オーディオにおける前記ターゲットオブジェクトにマッチングするターゲットオーディオを得るステップと、を含むオーディオ処理方法を提供する。
いくつかの実施例において、ターゲットオブジェクトのオーディオ混合特徴を決定するステップは、
前記ターゲットオブジェクトのオーディオ信号を取得するステップと、
前記オーディオ信号の周波数スペクトルに基づき、前記ターゲットオブジェクトの声紋特徴を抽出するステップと、
前記声紋特徴に基づき、前記ターゲットオブジェクトの基音特徴を取得するステップと、
前記声紋特徴及び前記基音特徴に基づき、前記オーディオ混合特徴を決定するステップと、を含む。
いくつかの実施例において、前記声紋特徴に基づき、前記ターゲットオブジェクトの基音特徴を取得するステップは、
前記声紋特徴を予め設定された基音抽出ネットワークモデルに入力し、前記基音特徴を取得するステップを含む。
いくつかの実施例において、前記オーディオ信号の周波数スペクトルに基づき、前記ターゲットオブジェクトの声紋特徴を抽出するステップは、
前記オーディオ信号の周波数スペクトルを予め設定された声紋抽出ネットワークモデルに入力し、前記ターゲットオブジェクトの声紋特徴を取得するステップを含む。
いくつかの実施例において、前記オーディオ混合特徴に基づいて混合オーディオに対して音声分離を行い、前記混合オーディオにおける前記ターゲットオブジェクトにマッチングするターゲットオーディオを得るステップは、
前記混合オーディオの各オーディオフレームにおけるオーディオ特徴を取得するステップと、
各オーディオフレームにおける前記オーディオ特徴をそれぞれ前記オーディオ混合特徴と共に分離ネットワークモデルの各サブモジュールに入力し、各サブモジュールの出力結果を得るステップと、
前記各サブモジュールの出力結果が直列に接続された全出力結果に基づき、前記混合オーディオにおける前記ターゲットオブジェクトにマッチングするターゲットオーディオを得るステップと、を含む。
いくつかの実施例において、前記方法は、
音声通話中に、前記混合オーディオを取得するステップと、
前記音声分離後の前記ターゲットオーディオに基づき、強調後の前記ターゲットオーディオを出力するステップと、を更に含む。
いくつかの実施例において、前記方法は、
ターゲットオブジェクトの音声を含む登録情報を取得するステップと、
前記登録情報に基づき、前記オーディオ混合特徴を取得するステップと、を更に含む。
いくつかの実施例において、前記混合オーディオは、少なくとも2つの異なるオブジェクトの音声オーディオを含み、前記2つの異なるオブジェクトの音声オーディオは、同じ性別の異なるオブジェクトを表す音声オーディオを含む。
本開示の実施例の第2の態様によれば、
ターゲットオブジェクトのオーディオ混合特徴を決定するための第1の決定モジュールであって、前記オーディオ混合特徴は少なくとも前記ターゲットオブジェクトの声紋特徴及び基音特徴を含む第1の決定モジュールと、
前記オーディオ混合特徴に基づいて混合オーディオに対して音声分離を行い、前記混合オーディオにおける前記ターゲットオブジェクトにマッチングするターゲットオーディオを得るための分離モジュールと、を備えるオーディオ処理装置を提供する。
いくつかの実施例において、前記第1の決定モジュールは、
前記ターゲットオブジェクトのオーディオ信号を取得するための第1の取得サブモジュールと、
前記オーディオ信号の周波数スペクトルに基づき、前記ターゲットオブジェクトの声紋特徴を抽出するための抽出サブモジュールと、
前記声紋特徴に基づき、前記ターゲットオブジェクトの基音特徴を取得するための第2の取得サブモジュールと、
前記声紋特徴及び前記基音特徴に基づき、前記オーディオ混合特徴を決定するための第1の決定サブモジュールと、を含む。
いくつかの実施例において、前記第2の取得サブモジュールは、具体的に、
前記声紋特徴を予め設定された基音抽出ネットワークモデルに入力し、前記基音特徴を取得するために用いられる。
いくつかの実施例において、前記抽出サブモジュールは、具体的に、
前記オーディオ信号の周波数スペクトルを予め設定された声紋抽出ネットワークモデルに入力し、前記ターゲットオブジェクトの声紋特徴を取得するために用いられる。
いくつかの実施例において、前記分離モジュールは、
前記混合オーディオの各オーディオフレームにおけるオーディオ特徴を取得するための第3の取得サブモジュールと、
各オーディオフレームにおける前記オーディオ特徴をそれぞれ前記オーディオ混合特徴と共に分離ネットワークモデルの各サブモジュールに入力し、各サブモジュールの出力結果を得るための入力サブモジュールと、
前記各サブモジュールの出力結果が直列に接続された全出力結果に基づき、前記混合オーディオにおける前記ターゲットオブジェクトにマッチングするターゲットオーディオを得るための出力サブモジュールと、を含む。
いくつかの実施例において、前記装置は、
音声通話中に、前記混合オーディオを取得するための第1の取得モジュールと、
前記音声分離後の前記ターゲットオーディオに基づき、強調後の前記ターゲットオーディオを出力するための出力モジュールと、を更に備える。
いくつかの実施例において、前記装置は、
ターゲットオブジェクトの音声を含む登録情報を取得するための第2の取得モジュールと、
前記登録情報に基づき、前記オーディオ混合特徴を取得するための第3の取得モジュールと、を更に備える。
いくつかの実施例において、前記混合オーディオは、少なくとも2つの異なるオブジェクトの音声オーディオを含み、前記2つの異なるオブジェクトの音声オーディオは、同じ性別の異なるオブジェクトを表す音声オーディオを含む。
本開示の実施例の第3の態様によれば、プロセッサと、前記プロセッサで実行できる実行可能な命令を記憶するためのメモリと、を少なくとも含む端末であって、
プロセッサは、前記実行可能な命令を実行するとき、前記実行可能な命令を通じて上記いずれか一つのオーディオ処理方法におけるステップを実行するために用いられる端末を提供する。
本開示の実施例の第4態様によれば、コンピュータ実行可能な命令が記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、当該コンピュータ実行可能な命令がプロセッサによって実行されるときに上記いずれか一つのオーディオ処理方法におけるステップを実現する非一時的なコンピュータ読み取り可能な記憶媒体を提供する。
本開示の実施例により提供される技術案は、以下の有益な効果を含むことができる。声紋特徴及び基音特徴を含むオーディオ混合特徴によってターゲットユーザの認識を行い、人によって基音が異なるという特性を効果的に利用することで、声紋特徴及び基音特徴に基づいてターゲットユーザの音声に対する認識効果を向上させ、更に音声通話において音声認識のノイズ低減効果を向上させるとともに、ユーザ認識において認識の信頼性を向上させることができる。
以上の一般的な記載及び後述する詳細事項の記載は、単に例示的かつ解釈的なものであり、本開示を制限するものではないと理解すべきである。
ここの添付図面は、明細書に組み込まれて本明細書の一部を構成し、本発明に該当する実施例を示し、明細書と共に本発明の原理を解釈するために用いられる。
本開示の例示的な実施例によるオーディオ処理方法のフローチャート1 本開示の例示的な実施例によるオーディオ処理方法のフローチャート2 本開示の例示的な実施例によるオーディオ処理方法における声紋特徴抽出の模式図 本開示の例示的な実施例によるオーディオ処理方法における音声分離の模式図 本開示の例示的な実施例によるオーディオ処理装置の構造ブロック図 本開示の例示的な実施例による端末の実体構造ブロック図
ここで、例示的な実施例について詳しく説明し、その例を添付図面に示す。以下の記載が添付図面に言及する場合、特に明記しない限り、異なる添付図面における同じ数字は、同じ又は類似する要素を表す。以下の例示的な実施例に記載の実施形態は、本発明に一致する全ての実施形態を代表するわけではない。むしろ、それらは、以下の特許請求の範囲において記述されているような、本発明の一部の態様に一致する装置及び方法の例に過ぎない。
図1は、例示的な実施例によるオーディオ処理方法のフローチャートであり、図1に示すように、前記方法は、以下のステップを含む。
ステップS101、ターゲットオブジェクトのオーディオ混合特徴を決定し、オーディオ混合特徴は少なくともターゲットオブジェクトの声紋特徴及び基音特徴を含む。
ステップS102、オーディオ混合特徴に基づいて混合オーディオに対して音声分離を行い、混合オーディオにおけるターゲットオブジェクトにマッチングするターゲットオーディオを得る。
ここで、上記方法を実行する主体は、スマート端末、家電機器などを含む、オーディオ収集機能を有する任意の電子機器であってよい。例えば、スマートフォン、タブレットコンピュータ、スマートスピーカ、インターホン機器及び各種のウェアラブル電子機器などである。説明の便宜上、本明細書は、端末を方法の実行主体とする例を挙げる。
本開示の実施例において、ターゲットオブジェクトは、登録されたユーザであってもよく、当該ユーザにより指定された他のオブジェクトであってもよい。ターゲットオブジェクトのオーディオ混合特徴は、ターゲットオブジェクトをサンプリングすることで得ることができ、例えば、ユーザは、指示に基づいて指定された文字コンテンツを読むことで、音声の入力を実現し、端末は、ユーザの入力コンテンツに基づいて音声をサンプリングするとともに、サンプリングされたコンテンツに基づいてオーディオ混合特徴を得る。
オーディオ混合特徴は予め取得されてもよく、例えば、ユーザが端末登録を行うプロセスにおいて、ユーザがオーディオ入力を行うように指示することで、オーディオ混合特徴を取得する。端末は、ユーザのオーディオ混合特徴を記憶することができる。勿論、ここのユーザは、端末の利用者に限定されないが、承認されたいかなるユーザであってもよい。音声認識を行う必要があるシーンにおいて、端末は、当該オーディオ混合特徴を検証のパラメータとして呼び出し、オーディオ混合特徴に基づいて検証することができる。
また、オーディオ混合特徴は、音声通話、音声入力などのプロセスにおいて取得されてもよい。例えば、ユーザは、端末によって音声通話を行い、このとき、通話シーンでユーザが端末に最も近いため、音量が最も大きい。この場合、端末は、音声通話を行うユーザをターゲットユーザとしてそのオーディオ混合特徴を取得するとともに、当該オーディオ混合特徴に基づいて現在通話中の音声に認識をリアルタイムに行うことで、ターゲットオーディオ及び環境ノイズにおけるオーディオを分離し、通話中のノイズ低減を実現することができる。
ここで、オーディオ混合特徴は、ターゲットオブジェクトの声紋特徴及び基音特徴を含む。ここで、基音特徴は、ターゲットユーザが話して発した最低オーディオ周波数であり、ターゲットユーザが話して発したオーディオ周波数は、基音オーディオ周波数の倍数などであってよい。人によって、基音は一般的に異なり、つまり、最低オーディオ周波数は異なる。声紋特徴は、トーン、音色、強度、音波の波長、周波数及び変化リズムなどの、異なる人の発話特性を反映できる特徴を含む。人によって口腔、声帯などの発声器官が異なり、且つ人によって発話習慣が異なるため、人はそれぞれ異なる声紋特徴を有する。
本開示の実施例において、ターゲットオブジェクトのオーディオ混合特徴を得るには、ニューラルネットワークによって声紋抽出及び基音抽出などを行うことでターゲットオブジェクトの声紋特徴及び基音特徴を得て、且つ声紋特徴及び基音特徴に基づいてターゲットオブジェクトのオーディオ混合特徴を得ることができる。オーディオ混合特徴によって音声認識を行うことは、各種の声紋特徴を利用するだけでなく、人によって基音が異なるという特性を利用することもできる。従って、発話習慣が類似するか又は同じ性別のトーンが似ているユーザにとって、より高い認識性能を有することができる。
ここで、混合オーディオは、ターゲットオブジェクトの発話によるターゲットオーディオ及び他の人の発話などによるオーディオを含むか、又はターゲットオーディオ及び他の環境ノイズなどを含むことができる。オーディオ混合特徴に基づいて混合オーディオにおけるターゲットオブジェクトにマッチングするターゲットオーディオを決定することによれば、分類ニューラルネットワークなどにより、オーディオ混合特徴を比較する手法を利用することで、ターゲットオーディオ及び混合オーディオを分類するか、又はターゲットオーディオを混合オーディオから分離することができる。
また、混合オーディオにターゲットオーディオが含まれていない可能性もあり、混合オーディオにターゲットオーディオが含まれているか否かについて、オーディオを分離する手法によって認識することができる。従って、上記方法は、混合オーディオにターゲットオーディオが含まれているか否かを決定するためにも用いられることができる。オーディオ混合特徴によってターゲットオブジェクトにマッチングするターゲットオーディオが存在すると決定した場合、ターゲットオーディオの検証に成功したことを決定することができる。混合オーディオにターゲットオーディオが存在しない場合、検証に失敗するなどになる。
このようにすれば、声紋特徴及び基音特徴を含むことで、オーディオ認識の認識効果を効果的に向上させ、特に同じ性別のユーザに対して、認識率を向上させ、更に利用効果を向上させる。
いくつかの実施例において、ターゲットオブジェクトのオーディオ混合特徴を決定するステップは、
ターゲットオブジェクトのオーディオ信号を取得するステップと、
オーディオ信号の周波数スペクトルに基づき、ターゲットオブジェクトの声紋特徴を抽出するステップと、
声紋特徴に基づき、ターゲットオブジェクトの基音特徴を取得するステップと、
声紋特徴及び基音特徴に基づき、オーディオ混合特徴を決定するステップと、を含む。
ここで、オーディオ混合特徴は、音声分離を行うときに取得されてもよく、予め取得されて記憶され、音声分離を行うときに記憶されたオーディオ混合特徴を利用して分離を行ってもよい。オーディオ混合特徴を取得するプロセスは、ターゲットオブジェクトのオーディオ信号を収集し、当該オーディオ信号の周波数スペクトルを利用して特徴抽出を行うことで実現される。
ここで、声紋特徴は、オーディオ信号の周波数スペクトルに基づいて抽出されることができ、続いて、声紋特徴に基づいて更にターゲットオブジェクトの基音特徴を得ることができる。例えば、ターゲットオブジェクトのオーディオ信号の周波数スペクトルを声紋抽出ニューラルネットワークに入力し、出力して声紋特徴を得る。更に声紋特徴を基音抽出ニューラルネットワークに入力し、基音特徴を得る。
このようにすれば、ターゲットオブジェクトのオーディオ信号に特徴抽出を行うことで、声紋特徴及び基音特徴を含むオーディオ混合特徴を得て、後続で音声分離を行うときに分離に使用されるパラメータとすることができる。
いくつかの実施例において、前記声紋特徴に基づき、前記ターゲットオブジェクトの基音特徴を取得するステップは、
前記声紋特徴を予め設定された基音抽出ネットワークモデルに入力し、前記基音特徴を取得するステップを含む。
本開示の実施例において、ニューラルネットワークモデルによりオーディオ信号を処理し、声紋特徴を得てもよく、ニューラルネットワークモデル、即ち上記基音抽出ネットワークモデルにより、基音特徴を取得してもよい。
例示的に、ここで声紋特徴を予め設定された基音抽出ネットワークモデルに入力し、基音特徴を取得する。基音抽出ネットワークモデルは、多層LSTM(長短期記憶ネットワーク)及び完全接続層などを含んでもよい。基音抽出ネットワークによって基音特徴を取得した後、基音特徴及び声紋特徴を共に後続の音声分離に使用される混合オーディオ特徴として使用することができる。
別の実施例において、他のニューラルネットワークによってオーディオ信号の周波数スペクトルから基音特徴及び声紋特徴を直接取得することで、音声分離に必要な混合オーディオ特徴を得ることもできる。
いくつかの実施例において、前記オーディオ信号の周波数スペクトルに基づき、ターゲットオブジェクトの声紋特徴を抽出するステップは、
オーディオ信号の周波数スペクトルを予め設定された声紋抽出ネットワークモデルに入力し、ターゲットオブジェクトの声紋特徴を取得するステップを含む。
ここで、オーディオ信号に短時間フーリエ変換を行うことで音声の周波数スペクトルを得ることができ、続いて、周波数スペクトルを声紋抽出ネットワークモデルに入力して声紋特徴の抽出を行う。
例示的に、声紋抽出ネットワークモデルは、RESNET(残差ネットワーク)、プーリング層及び完全接続層などで構成されることができる。ここで、プーリング層は多層含まれてよく、例えば二層である。モデルをトレーニングするときに採用される損失関数(Loss)はクロスエントロピーであってよい。
上記声紋抽出ネットワークモデルによって得られたターゲットオブジェクトの声紋特徴は、基音抽出の入力パラメータとすることができる一方、基音特徴と共に音声分離プロセスにおける分離パラメータとすることができる。
いくつかの実施例において、オーディオ混合特徴に基づいて混合オーディオに対して音声分離を行い、混合オーディオにおけるターゲットオブジェクトにマッチングするターゲットオーディオを得るステップは、
混合オーディオの各オーディオフレームにおけるオーディオ特徴を取得するステップと、
各オーディオフレームにおけるオーディオ特徴をそれぞれオーディオ混合特徴と共に分離ネットワークモデルの各サブモジュールに入力し、各サブモジュールの出力結果を得るステップと、
各サブモジュールの出力結果が直列に接続された全出力結果に基づき、混合オーディオにおけるターゲットオブジェクトにマッチングするターゲットオーディオを得るステップと、を含む。
ここで、音声分離を行うオブジェクトは、混合オーディオであってよい。混合オーディオのコンテンツが分離ネットワークモデルにとって未知であるため、混合オーディオは、ターゲットオブジェクトの音声オーディオを含んでもよく、他の人の音声オーディオを含んでもよく、更に他の各種のノイズなどを含んでもよい。
音声分離を行うプロセスは、混合オーディオにおけるターゲットオブジェクトの音声オーディオを認識することを含んでもよく、ターゲットオブジェクト以外の他のオーディオを認識することを含んでもよい。従って、上述音声分離は、ターゲットオブジェクトにマッチングするターゲットオーディオを得るために用いられることができる一方、混合オーディオにおいてターゲットオブジェクトにマッチングするターゲットオーディオが存在するか否かを決定するために用いられることもできる。
本開示の実施例において、音声分離を行うときに、先に混合オーディオに前処理を行うことができ、混合オーディオに対してフレーム分割を行うことを含んでもよく、窓掛け処理などを更に含んでもよい。
混合オーディオに対して各オーディオフレームにおけるオーディオ特徴を取得し、オーディオ特徴を分離ネットワークモデルの入力とすることができる。分離ネットワークモデルは、オーディオ混合特徴に基づいて入力されたオーディオ特徴に分離処理を行い、分離された出力結果を得る。
分離ネットワークモデルは、複数のサブモジュールを含むことができ、これらのサブモジュールは、それぞれ各オーディオフレームのオーディオ特徴を処理するために用いられる。従って、各サブモジュールの出力結果が直列に接続された全出力結果は、混合オーディオ全体に対する分離結果である。
例示的に、分離ネットワークモデルの各サブモジュールは、多層LSTM及び完全接続層で構成されることができる。
いくつかの実施例において、図2に示すように、前記方法は、以下のステップを更に含む。
ステップS201、音声通話中に、前記混合オーディオを取得する。
ステップS202、前記音声分離後の前記ターゲットオーディオに基づき、強調後の前記ターゲットオーディオを出力する。
本開示の実施例において、音声通話中に上記音声分離を行うことができる。音声通話中に、発呼者をターゲットオブジェクトとすることができ、その発話した音声、周囲環境にいる他の人が発話した音声及び環境ノイズを同時に入力することで、混合オーディオを形成する。
混合オーディオがそのまま入力として通話相手に送信されるときる。相手から出力されたオーディオもノイズを含むオーディオであるため、相手ユーザが有効情報を受信することに影響を与え、通話品質が低下する。従って、本開示の実施例において、音声通話中に音声分離を行い、混合オーディオからターゲットオーディオを分離するとともに相手に送信することができる。このようにすれば、相手が受信したオーディオ信号におけるノイズ部分の多くがフィルタリングされて除去されたため、通話品質が向上する。
つまり、本開示の実施例の音声分離により、音声通話中のノイズ低減処理を実現し、強調後のターゲットオーディオを出力して、相手に送信する。
本開示の実施例において、混合オーディオにおけるターゲットオーディオに分離を行った後、ウィナーフィルタリングなどの手法によって更なるノイズ低減、増幅などの後処理を行うことで、強調後のターゲットオーディオを出力することができる。
本開示の実施例において、声紋特徴及び基音特徴で構成されたオーディオ混合特徴を用いて混合オーディオに分離を行うため、オーディオ混合特徴によって入力された混合オーディオにノイズ低減を行うことで、ノイズ低減効果を効果的に向上させることができ、特に通話中に、ターゲットオブジェクトの所在する環境で他の人が話していても、優れたノイズ低減効果を達成することができる。
いくつかの実施例において、前記方法は、
ターゲットオブジェクトの音声を含む登録情報を取得するステップと、
前記登録情報に基づき、前記オーディオ混合特徴を取得するステップと、を更に含む。
オーディオ混合特徴は、音声分離を行う前に予め取得されることができ、ユーザが登録及び音声テンプレートの入力などを行うように提示することで、使用されるオーディオ混合特徴を得る。
ここで、ターゲットオブジェクトは、登録時に提示に基づいて音声情報を入力することができる。例えば、登録中にユーザが指定されたテキストを読むように提示し、且つターゲットユーザの入力した音声コンテンツを収集する。ユーザが入力した音声を登録情報に含むことによって、端末は、登録情報に基づいてその中の音声に上記声紋特徴の抽出及び基音特徴の抽出などを含む処理を行い、最終的に上記オーディオ混合特徴を得ることができる。
このようにすれば、ターゲットオブジェクトが登録を行った後、端末は、ユーザ本人の認識を実現することができ、音声情報の安全性が向上し、且つターゲットオブジェクトが後続で各種の音声入力シーンにおいて音声分離の機能を使用しやすくなる。
いくつかの実施例において、前記混合オーディオは、少なくとも2つの異なるオブジェクトの音声オーディオを含み、前記2つの異なるオブジェクトの音声オーディオは、同じ性別の異なるオブジェクトを表す音声オーディオを含む。
本開示の実施例において、音声分離を行うための特徴がターゲットオブジェクトの声紋特徴及び基音特徴を含むオーディオ混合特徴であるため、同じ性別の異なるオブジェクトの音声コンテンツに対して良好な認識効果を有する。
本開示の実施例におけるオーディオ処理方法を適用して混合オーディオを処理する場合、各種の混合オーディオに適用することができる。つまり、混合オーディオにターゲットオブジェクト及びターゲットオブジェクトと同じ性別の他のオブジェクトの音声オーディオの両方を含む場合でも、上記オーディオ処理方法によってターゲットオブジェクトのオーディオ分離を実現することができる。
このようにすれば、本開示の実施例により提供される方法は、より広範な適用シーン及びより優れた分離効果を有する。
本開示の実施例は、以下の例を更に提供する。
音声分離の目的は、複数の混在した話者から各ターゲット話者の音声信号を分離することである。いくつかの実施例において、音声分離の方法は、独立成分分析に基づくブラインド分離技術を主とする方法であり、深層学習に基づく音声分離技術も、徐々に音声分離の主要な傾向になってきており、モデルが異なる話者を区別する能力を備えるように、トレーニング中にある音声特徴をネットワーク入力としてトレーニングする。一実施例において、高次元の周波数スペクトル音声特徴をネットワーク入力としてトレーニングすることができるが、音声が重なり、同じ性別の話者に対する分離の場合における分離性能が低い可能性がある。
本開示の実施例において、適用シーンは、携帯電話による通話のシーンであってよく、特定の話者に対する音声強調及びノイズ低減機能を実現する。例えば、話者Aが使用前に登録を行い、登録後に通話を行うときに、Aの音声は通って相手に伝送されることができる。この場合、ユーザB、ユーザCなどの他の話者の音声が現れた場合、伝送されず、AとBが同時に話す場合、Aの音声のみが通って相手に伝送される。
本開示の実施例は、深層学習及び基音抽出を組み合わせる手法を採用し、深層ニューラルネットワークの学習特性を利用し、同じ性別の話者に対して識別度を更に有する基音特徴と組み合わせ、混合特徴トレーニングモデルを使用することで、ターゲット話者の分離タスクに際して同じ性別の話者のシーンで性能が大幅に低下することを回避できる。具体的な方法は、以下のステップを含むことができる。
登録段階において、図3に示すように、声紋抽出モジュールによってターゲットオブジェクトの音声信号に声紋抽出を行い、ターゲットオブジェクトの声紋特徴を得る。声紋抽出モジュールは、深層学習技術を利用してトレーニングして得られ、当該モジュールの入力は、ターゲットオブジェクトの登録コーパスSTFT(短時間フーリエ変換)振幅スペクトルであり、当該モジュールによる出力は128次元の声紋特徴であり得る。
分離段階において、図4に示すように、ターゲットオブジェクトの基音抽出モジュールを利用し、ターゲットオブジェクトの声紋特徴に基音抽出を行い、声紋特徴を混合してオーディオ混合特徴を得る。当該基音抽出モジュールは、深層学習によってトレーニングして得られる。
ターゲットオブジェクト及び他のオブジェクト音声信号を含む混合オーディオにおけるターゲットオブジェクトを分離するために、オーディオ混合特徴をパラメータとして分離モジュールに入力する。ここで、混合オーディオをマイクロフォン(Mic)のようなオーディオ収集機器によって収集し、分離モジュールに入力することができる。更に、分離後に得られたターゲットオブジェクトのターゲットオーディオに後処理モジュールによってウィナーフィルタリングを実行することで、強調後のターゲットオーディオを出力することができる。
本開示の実施例において、声紋抽出モジュールの入力特徴は、ターゲットオブジェクトの一部のコーパスのSTFT振幅スペクトルとされる。ネットワーク構成は、RESNETに2層のプーリング層が接続され、最後に1層の完全接続層が接続されたものであってよく、トレーニング用の損失関数(loss)はクロスエントロピーである。
基音抽出モジュールの入力特徴は、ターゲットオブジェクトの128次元の声紋特徴であってよく、ネットワーク構成は、多層LSTM(長短期記憶ネットワーク,Long Short-Term Memory)が1層の出力完全接続層に接続されたものであってよく、トレーニング用の損失関数は、クロスエントロピーであってよい。
分離モジュールの入力特徴は、ターゲットオブジェクトの一部のコーパスの基音特徴及び声紋特徴などで構成された声紋混合特徴であってよい。ネットワーク構成は、多層LSTMニューラルネットワークに1層の完全接続層が1つのサブモジュールとして直列に接続され、各サブモジュールの入力特徴及びオーディオ混合特徴を入力とする。完全な分離モジュールのネットワークは、複数の同じサブモジュールによって直列に接続されて構成されている。出力結果は、分離後のターゲットオブジェクトのマルチフレーム音声信号であり、当該分離モジュールをトレーニングするための損失関数も、クロスエントロピーであってよい。
本開示の実施例の技術案により、深層学習ネットワークに基づき、基音特徴と声紋特徴を組み合わせて混合音声を分離することで、分離モデルの性能を向上させると同時に、同じ性別の話者の混合音声の分離を効果的に改善することができ、分離後の音声品質がより高くなる。
図5は、例示的な実施例によるオーディオ処理装置の構造ブロック図である。
図5に示すように、当該装置500は、
ターゲットオブジェクトのオーディオ混合特徴を決定するための第1の決定モジュールであって、前記オーディオ混合特徴は少なくとも前記ターゲットオブジェクトの声紋特徴及び基音特徴を含む第1の決定モジュール501と、
前記オーディオ混合特徴に基づいて混合オーディオに対して音声分離を行い、前記混合オーディオにおける前記ターゲットオブジェクトにマッチングするターゲットオーディオを得るための分離モジュール502と、を備える。
いくつかの実施例において、前記第1の決定モジュールは、
前記ターゲットオブジェクトのオーディオ信号を取得するための第1の取得サブモジュールと、
前記オーディオ信号の周波数スペクトルに基づき、前記ターゲットオブジェクトの声紋特徴を抽出するための抽出サブモジュールと、
前記声紋特徴に基づき、前記ターゲットオブジェクトの基音特徴を取得するための第2の取得サブモジュールと、
前記声紋特徴及び前記基音特徴に基づき、前記オーディオ混合特徴を決定するための第1の決定サブモジュールと、を含む。
いくつかの実施例において、前記第2の取得サブモジュールは、具体的に、
前記声紋特徴を予め設定された基音抽出ネットワークモデルに入力し、前記基音特徴を取得するために用いられる。
いくつかの実施例において、前記抽出サブモジュールは、具体的に、
前記オーディオ信号の周波数スペクトルを予め設定された声紋抽出ネットワークモデルに入力し、前記ターゲットオブジェクトの声紋特徴を取得するために用いられる。
いくつかの実施例において、前記分離モジュールは、
前記混合オーディオの各オーディオフレームにおけるオーディオ特徴を取得するための第3の取得サブモジュールと、
各オーディオフレームにおける前記オーディオ特徴をそれぞれ前記オーディオ混合特徴と共に分離ネットワークモデルの各サブモジュールに入力し、各サブモジュールの出力結果を得るための入力サブモジュールと、
前記各サブモジュールの出力結果が直列に接続された全出力結果に基づき、前記混合オーディオにおける前記ターゲットオブジェクトにマッチングするターゲットオーディオを得るための出力サブモジュールと、を含む。
いくつかの実施例において、前記装置は、
音声通話中に、前記混合オーディオを取得するための第1の取得モジュールと、
前記音声分離後の前記ターゲットオーディオに基づき、強調後の前記ターゲットオーディオを出力するための出力モジュールと、を更に備える。
いくつかの実施例において、前記装置は、
ターゲットオブジェクトの音声を含む登録情報を取得するための第2の取得モジュールと、
前記登録情報に基づき、前記オーディオ混合特徴を取得するための第3の取得モジュールと、を更に備える。
いくつかの実施例において、前記混合オーディオは、少なくとも2つの異なるオブジェクトの音声オーディオを含み、前記2つの異なるオブジェクトの音声オーディオは、同じ性別の異なるオブジェクトを表す音声オーディオを含む。
上記実施例における装置について、その各モジュールが操作を実行する具体的な形態は、当該方法に関する実施例において詳細に説明されたため、ここで、それらについて詳しく説明しない。
図6は、例示的な実施例による端末600のブロック図である。例えば、端末は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット機器、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどであってよい。
図6を参照すると、端末600は、処理コンポーネント601、メモリ602、電源コンポーネント603、マルチメディアコンポーネント604、オーディオコンポーネント605、入力/出力(I/O)インタフェース606、センサコンポーネント607、及び通信コンポーネント608のうちの1つ又は複数のユニットを含むことができる。
処理コンポーネント601は、通常、端末600の全体操作、例えば、表示、電話通話、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理コンポーネント601は、上記方法の全部または一部のステップを達成するために、命令を実行する1つ又は複数のプロセッサ610を含むことができる。また、処理コンポーネント601は、処理コンポーネント601と他のユニットとの間のインタラクションを容易にするために、1つ又は複数のモジュールを含むことができる。例えば、処理コンポーネント601は、マルチメディア604と処理コンポーネント601との間のインタラクションを容易にするために、マルチメディアモジュールを含むことができる。
メモリ610は、端末600での操作をサポートするために様々なタイプのデータを記憶するように配置される。これらのデータの例として、端末600で操作されるためのいかなるアプリケーションプログラム又は方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオなどを含む。メモリ602は、スタティックランダムアクセスメモリ(SRAM)、電気的消去可能なプログラマブルリードオンリーメモリ(EEPROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM)、プログラマブルリードオンリーメモリ(PROM)、リードオンリーメモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクなどの任意のタイプの揮発性又は不揮発性の記憶機器又はこれらの組み合わせによって実現することができる。
電源コンポーネント603は、端末600の各種のユニットに電力を供給する。電源コンポーネント603は、電源管理システムと、1つ又は複数の電源と、端末600のために電力を生成・管理・分配することに関連するユニットとを含むことができる。
マルチメディアコンポーネント604は、前記端末600とユーザの間に出力インタフェースを提供するスクリーンを含む。いくつかの実施例において、スクリーンは、液晶ディスプレイ(LCD)と、タッチパネル(TP)とを含むことができる。スクリーンがタッチパネルを含む場合、スクリーンは、ユーザからの入力信号を受信するように、タッチスクリーンとして実現されることができる。タッチパネルは、タッチ、スライド及びタッチパネル上のジェスチャを感知するために、1つ又は複数のタッチセンサを含む。前記タッチセンサは、タッチ又はスライド動作の境界を感知することができるだけでなく、前記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。いくつかの実施例において、マルチメディアコンポーネント604は、1つのフロントカメラ及び/又はリアカメラを含む。端末600が撮影モード又はビデオモードなどの操作モードにあるとき、フロントカメラ及び/又はリアカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは、固定された光学レンズ系であってもよく、又は焦点距離及び光学ズーム能力を有してもよい。
オーディオコンポーネント605は、オーディオ信号を出力及び/又は入力するように配置される。例えば、オーディオコンポーネント605はマイクロフォン(MIC)を含み、端末600が通話モード、記録モード及び音声認識モードなどの操作モードにあるとき、マイクロフォンは、外部のオーディオ信号を受信するように配置される。受信したオーディオ信号は、更にメモリ610に記憶されるか、又は通信コンポーネント608を介して送信されることができる。いくつかの実施例において、オーディオコンポーネント605は、オーディオ信号を出力するためのスピーカを更に含む。
I/Oインタフェース606は、処理コンポーネント601と周辺インタフェースモジュールとの間にインタフェースを提供し、上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタンなどであってよい。これらのボタンは、ホームボタン、音量ボタン、起動ボタン及びロックボタンを含むことができるが、これらに限定されない。
センサコンポーネント607は、端末600に各面の状態評価を提供するための1つ又は複数のセンサを含む。例えば、センサコンポーネント607は、端末600のオン/オフ状態、端末600のディスプレイ及びキーパッドなどのユニットの相対的な位置決めを検出することができ、センサコンポーネント607は、端末600又は端末600の1つのユニットの位置変化、ユーザと端末600との接触の有無、端末600の方位又は加速/減速、及び端末600の温度変化を検出することもできる。センサコンポーネント607は、いかなる物理的接触もないときに付近に物体が存在するか否かを検出するために配置される近接センサを含むことができる。センサコンポーネント607は、結像応用において使用されるCMOS又はCCD画像センサのような光センサを更に含むこともできる。いくつかの実施例において、当該センサコンポーネント607は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを更に含むこともできる。
通信コンポーネント608は、端末600と他の機器との間の有線又は無線方式の通信を容易にするために配置される。端末600は、WiFi、2G又は3G、又はこれらの組み合わせのような通信規格に基づく無線ネットワークにアクセスすることができる。1つの例示的な実施例において、通信コンポーネント608は、放送チャネルを介して外部の放送管理システムからの放送信号又は放送関連情報を受信する。1つの例示的な実施例において、前記通信コンポーネント608は、短距離通信を容易にするために、近距離通信(NFC)モジュールを更に含む。例えば、NFCモジュールにおいて無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術及び他の技術に基づいて実現することができる。
例示的な実施例において、端末600は、上記方法を実行するために、1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理機器(DSPD)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子によって実現されることができる。
例示的な実施例において、命令を含む非一時的なコンピュータ読み取り可能な記憶媒体を更に提供し、例えば命令を含むメモリ602であり、上記命令は、上記方法を完成するために、端末600のプロセッサ610によって実行されることができる。例えば、前記非一時的なコンピュータ読み取り可能な記憶媒体は、ROM、ランダムアクセスメモリ(RAM)、CD-ROM、磁気テープ、フロッピーディスク及び光データ記憶機器などであってよい。
本開示の実施例は、非一時的なコンピュータ読み取り可能な記憶媒体を更に提供し、前記記憶媒体における命令が移動端末のプロセッサによって実行されるとき、移動端末が上記実施例のいずれか一項により提供される方法を実行できる。
当業者は、明細書を検討し、明細書に開示された発明を実践した後、本発明の他の実施案を容易に想到する。本願は、本発明のいかなる変形、用途又は適応的変化を包含することを意図し、これらの変形、用途又は適応的変化は、本発明の一般的な原理に従い、且つ本開示に開示されていない本技術分野における公知の常識又は慣用の技術手段を含む。明細書及び実施例は、単なる例示的なものと見なされ、本発明の実質的な範囲及び精神は、以下の特許請求の範囲によって限定される。
なお、本発明は、以上に記載されて添付図面に示された具体的な構成に限定されず、且つその範囲から逸脱することなく種々の修正及び変更を行うことができる。本発明の範囲は、添付される特許請求の範囲のみによって限定される。

Claims (16)

  1. オーディオ処理装置によって実行されるオーディオ処理方法であって、
    ターゲットオブジェクトのオーディオ混合特徴を決定するステップであって、前記オーディオ混合特徴は少なくとも前記ターゲットオブジェクトの声紋特徴及び基音特徴を含むステップと、
    前記オーディオ混合特徴に基づいて混合オーディオに対して音声分離を行い、前記混合オーディオにおける前記ターゲットオブジェクトにマッチングするターゲットオーディオを得るステップと、を含
    前記オーディオ混合特徴に基づいて混合オーディオに対して音声分離を行い、前記混合オーディオにおける前記ターゲットオブジェクトにマッチングするターゲットオーディオを得るステップは、
    前記混合オーディオの各オーディオフレームにおけるオーディオ特徴を取得するステップと、
    各オーディオフレームにおける前記オーディオ特徴をそれぞれ前記オーディオ混合特徴と共に分離ネットワークモデルの各サブモジュールに入力し、各サブモジュールの出力結果を得るステップと、
    前記各サブモジュールの出力結果が直列に接続された全出力結果に基づき、前記混合オーディオにおける前記ターゲットオブジェクトにマッチングするターゲットオーディオを得るステップと、を含む、
    ことを特徴とするオーディオ処理方法。
  2. ターゲットオブジェクトのオーディオ混合特徴を決定するステップは、
    前記ターゲットオブジェクトのオーディオ信号を取得するステップと、
    前記オーディオ信号の周波数スペクトルに基づき、前記ターゲットオブジェクトの声紋特徴を抽出するステップと、
    前記声紋特徴に基づき、前記ターゲットオブジェクトの基音特徴を取得するステップと、
    前記声紋特徴及び前記基音特徴に基づき、前記オーディオ混合特徴を決定するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記声紋特徴に基づき、前記ターゲットオブジェクトの基音特徴を取得するステップは、
    前記声紋特徴を予め設定された基音抽出ネットワークモデルに入力し、前記基音特徴を取得するステップを含む、
    ことを特徴とする請求項2に記載の方法。
  4. 前記オーディオ信号の周波数スペクトルに基づき、前記ターゲットオブジェクトの声紋特徴を抽出するステップは、
    前記オーディオ信号の周波数スペクトルを予め設定された声紋抽出ネットワークモデルに入力し、前記ターゲットオブジェクトの声紋特徴を取得するステップを含む、
    ことを特徴とする請求項2に記載の方法。
  5. 音声通話中に、前記混合オーディオを取得するステップと、
    前記音声分離後の前記ターゲットオーディオに基づき、強調後の前記ターゲットオーディオを出力するステップと、を更に含む、
    ことを特徴とする請求項1に記載の方法。
  6. ターゲットオブジェクトの音声を含む登録情報を取得するステップと、
    前記登録情報に基づき、前記オーディオ混合特徴を取得するステップと、を更に含む、
    ことを特徴とする請求項1に記載の方法。
  7. 前記混合オーディオは、少なくとも2つの異なるオブジェクトの音声オーディオを含み、前記2つの異なるオブジェクトの音声オーディオは、同じ性別の異なるオブジェクトを表す音声オーディオを含む、
    ことを特徴とする請求項1に記載の方法。
  8. オーディオ処理装置であって、
    ターゲットオブジェクトのオーディオ混合特徴を決定するための第1の決定モジュールであって、前記オーディオ混合特徴は少なくとも前記ターゲットオブジェクトの声紋特徴及び基音特徴を含む第1の決定モジュールと、
    前記オーディオ混合特徴に基づいて混合オーディオに対して音声分離を行い、前記混合オーディオにおける前記ターゲットオブジェクトにマッチングするターゲットオーディオを得るための分離モジュールと、を備え
    前記分離モジュールは、
    前記混合オーディオの各オーディオフレームにおけるオーディオ特徴を取得するための第3の取得サブモジュールと、
    各オーディオフレームにおける前記オーディオ特徴をそれぞれ前記オーディオ混合特徴と共に分離ネットワークモデルの各サブモジュールに入力し、各サブモジュールの出力結果を得るための入力サブモジュールと、
    前記各サブモジュールの出力結果が直列に接続された全出力結果に基づき、前記混合オーディオにおける前記ターゲットオブジェクトにマッチングするターゲットオーディオを得るための出力サブモジュールと、を含む、
    ことを特徴とするオーディオ処理装置。
  9. 前記第1の決定モジュールは、
    前記ターゲットオブジェクトのオーディオ信号を取得するための第1の取得サブモジュールと、
    前記オーディオ信号の周波数スペクトルに基づき、前記ターゲットオブジェクトの声紋特徴を抽出するための抽出サブモジュールと、
    前記声紋特徴に基づき、前記ターゲットオブジェクトの基音特徴を取得するための第2の取得サブモジュールと、
    前記声紋特徴及び前記基音特徴に基づき、前記オーディオ混合特徴を決定するための第1の決定サブモジュールと、を含む、
    ことを特徴とする請求項に記載の装置。
  10. 前記第2の取得サブモジュールは、具体的に、
    前記声紋特徴を予め設定された基音抽出ネットワークモデルに入力し、前記基音特徴を取得するために用いられる、
    ことを特徴とする請求項に記載の装置。
  11. 前記抽出サブモジュールは、具体的に、
    前記オーディオ信号の周波数スペクトルを予め設定された声紋抽出ネットワークモデルに入力し、前記ターゲットオブジェクトの声紋特徴を取得するために用いられる、
    ことを特徴とする請求項に記載の装置。
  12. 音声通話中に、前記混合オーディオを取得するための第1の取得モジュールと、
    前記音声分離後の前記ターゲットオーディオに基づき、強調後の前記ターゲットオーディオを出力するための出力モジュールと、を更に備える、
    ことを特徴とする請求項11のいずれか一項に記載の装置。
  13. ターゲットオブジェクトの音声を含む登録情報を取得するための第2の取得モジュールと、
    前記登録情報に基づき、前記オーディオ混合特徴を取得するための第3の取得モジュールと、を更に備える、
    ことを特徴とする請求項11のいずれか一項に記載の装置。
  14. 前記混合オーディオは、少なくとも2つの異なるオブジェクトの音声オーディオを含み、前記2つの異なるオブジェクトの音声オーディオは、同じ性別の異なるオブジェクトを表す音声オーディオを含む、
    ことを特徴とする請求項11のいずれか一項に記載の装置。
  15. 端末であって、前記端末は少なくとも、プロセッサと、前記プロセッサで実行できる実行可能な命令を記憶するためのメモリと、を含み、
    プロセッサは、前記実行可能な命令を実行するとき、前記実行可能な命令を通じて上記請求項1~のいずれか一項により提供されるオーディオ処理方法におけるステップを実行するために用いられる、
    ことを特徴とする端末。
  16. 非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体にはコンピュータ実行可能な命令が記憶されており、当該コンピュータ実行可能な命令は、プロセッサによって実行されるときに上記請求項1~のいずれか一項により提供されるオーディオ処理方法におけるステップを実現する、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
JP2021100821A 2021-02-25 2021-06-17 オーディオ処理方法、装置、端末、及び記憶媒体 Active JP7240445B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110213996.4A CN112820300B (zh) 2021-02-25 2021-02-25 音频处理方法及装置、终端、存储介质
CN202110213996.4 2021-02-25

Publications (2)

Publication Number Publication Date
JP2022130269A JP2022130269A (ja) 2022-09-06
JP7240445B2 true JP7240445B2 (ja) 2023-03-15

Family

ID=75863955

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021100821A Active JP7240445B2 (ja) 2021-02-25 2021-06-17 オーディオ処理方法、装置、端末、及び記憶媒体

Country Status (5)

Country Link
US (1) US20220270627A1 (ja)
EP (1) EP4050601B1 (ja)
JP (1) JP7240445B2 (ja)
KR (1) KR20220121661A (ja)
CN (1) CN112820300B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113488063B (zh) * 2021-07-02 2023-12-19 国网江苏省电力有限公司电力科学研究院 一种基于混合特征及编码解码的音频分离方法
CN116189687B (zh) * 2023-04-27 2023-07-21 北京远鉴信息技术有限公司 一种声纹识别方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108198569A (zh) 2017-12-28 2018-06-22 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
JP2021500616A (ja) 2017-10-23 2021-01-07 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5583961A (en) * 1993-03-25 1996-12-10 British Telecommunications Public Limited Company Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
US6879952B2 (en) * 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
AU2002314933A1 (en) * 2001-05-30 2002-12-09 Cameronsound, Inc. Language independent and voice operated information management system
US7243060B2 (en) * 2002-04-02 2007-07-10 University Of Washington Single channel sound separation
US7519531B2 (en) * 2005-03-30 2009-04-14 Microsoft Corporation Speaker adaptive learning of resonance targets in a hidden trajectory model of speech coarticulation
EP2162757B1 (en) * 2007-06-01 2011-03-30 Technische Universität Graz Joint position-pitch estimation of acoustic sources for their tracking and separation
JP2009145755A (ja) * 2007-12-17 2009-07-02 Toyota Motor Corp 音声認識装置
US8880395B2 (en) * 2012-05-04 2014-11-04 Sony Computer Entertainment Inc. Source separation by independent component analysis in conjunction with source direction information
CN105719659A (zh) * 2016-02-03 2016-06-29 努比亚技术有限公司 基于声纹识别的录音文件分离方法及装置
CN109328380B (zh) * 2016-06-13 2023-02-28 Med-El电气医疗器械有限公司 具有噪声模型适配的递归噪声功率估计
US10957337B2 (en) * 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
CN110503968A (zh) * 2018-05-18 2019-11-26 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
CN109410956B (zh) * 2018-12-24 2021-10-08 科大讯飞股份有限公司 一种音频数据的对象识别方法、装置、设备及存储介质
CN110415687B (zh) * 2019-05-21 2021-04-13 腾讯科技(深圳)有限公司 语音处理方法、装置、介质、电子设备
US11580727B2 (en) * 2020-01-06 2023-02-14 Orcam Technologies Ltd. Systems and methods for matching audio and image information
US11626127B2 (en) * 2020-01-20 2023-04-11 Orcam Technologies Ltd. Systems and methods for processing audio based on changes in active speaker
CN112242149B (zh) * 2020-12-03 2021-03-26 北京声智科技有限公司 音频数据的处理方法、装置、耳机及计算机可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021500616A (ja) 2017-10-23 2021-01-07 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体
CN108198569A (zh) 2017-12-28 2018-06-22 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
JP2022130269A (ja) 2022-09-06
US20220270627A1 (en) 2022-08-25
EP4050601B1 (en) 2023-09-27
EP4050601A1 (en) 2022-08-31
CN112820300B (zh) 2023-12-19
CN112820300A (zh) 2021-05-18
KR20220121661A (ko) 2022-09-01

Similar Documents

Publication Publication Date Title
CN105282345B (zh) 通话音量的调节方法和装置
CN104991754B (zh) 录音方法及装置
CN108198569A (zh) 一种音频处理方法、装置、设备及可读存储介质
JP7240445B2 (ja) オーディオ処理方法、装置、端末、及び記憶媒体
CN111583944A (zh) 变声方法及装置
CN107871494B (zh) 一种语音合成的方法、装置及电子设备
CN107945806B (zh) 基于声音特征的用户识别方法及装置
CN113113044B (zh) 音频处理方法及装置、终端及存储介质
CN104182039B (zh) 设备控制方法、装置及电子设备
CN109036404A (zh) 语音交互方法及装置
CN108710791A (zh) 语音控制的方法及装置
CN107135452A (zh) 助听器适配方法及装置
CN107205198B (zh) 麦克风的解锁方法和装置
CN104851423B (zh) 一种声音信息处理方法及装置
CN106782625B (zh) 音频处理方法和装置
CN110232909A (zh) 一种音频处理方法、装置、设备及可读存储介质
CN113223542B (zh) 音频的转换方法、装置、存储介质及电子设备
KR20190119521A (ko) 전자 장치 및 그 동작 방법
CN109670025A (zh) 对话管理方法及装置
CN113113040B (zh) 音频处理方法及装置、终端及存储介质
CN115312068A (zh) 语音控制方法、设备及存储介质
CN105472092A (zh) 通话控制方法、装置及移动终端
CN113113036B (zh) 音频信号处理方法及装置、终端及存储介质
CN114093380B (zh) 一种语音增强方法、电子设备、芯片系统及可读存储介质
CN116129931B (zh) 一种视听结合的语音分离模型搭建方法及语音分离方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230303

R150 Certificate of patent or registration of utility model

Ref document number: 7240445

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150