JP2024512927A

JP2024512927A - 音声活動検出方法、システム、音声強調方法及びシステム

Info

Publication number: JP2024512927A
Application number: JP2023555858A
Authority: JP
Inventors: 楽肖; 承乾張; 風云廖; 心齊
Original assignee: Shenzhen Shokz Co Ltd
Current assignee: Shenzhen Shokz Co Ltd
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2024-03-21
Also published as: EP4307296A4; KR20230146604A; EP4307296A1; US20240046956A1; WO2023082134A1; CN116964667A

Abstract

本明細書による音声活動検出方法、システム、音声強調方法及びシステムにおいて、マイクロホンアレイにより出力されたマイクロホン信号は、ノイズ信号に対応する第１のモデル、又はターゲット音声信号と前記ノイズ信号との組み合わせに対応する第２のモデルを満たす。前記方法及びシステムは、尤度関数の最大化及びノイズ共分散行列のランク最小化を共同最適化目標として、第１のモデル及び第２のモデルをそれぞれ最適化し、前記第１のモデルのノイズ共分散行列の第１の推定値及び第２のモデルのノイズ共分散行列の第２の推定値を確定し、統計的仮説検定の方法により、マイクロホン信号が第１のモデルを満たすか第２のモデルを満たすかを判断することによって、マイクロホン信号にはターゲット音声信号が存在するか否かを確定し、マイクロホン信号のノイズ共分散行列を確定し、さらにマイクロホン信号に対して音声強調を行うことができる。前記方法及びシステムは、ノイズ共分散の推定精度をより高くし、さらに音声強調効果を向上させることができる。【選択図】図３

Description

本明細書は、ターゲット音声信号処理技術分野に関し、特に音声活動検出方法、システム、音声強調方法及びシステムに関する。

ビームフォーミングアルゴリズムに基づく音声強調技術、特に最小分散無歪応答（ＭｉｎｉｍｕｍＶａｒｉａｎｃｅＤｉｓｔｏｒｔｉｏｎｌｅｓｓＲｅｓｐｏｎｓｅ、ＭＶＤＲと略称される）の適応ビームフォーミングアルゴリズムにおいて、異なるマイクロホン間のノイズの統計的特性の関係を記述するパラメータ――ノイズ共分散行列をどのように解くことは極めて重要である。従来技術における主要な方法は音声存在確率の方法に基づいてノイズ共分散行列を計算し、例えば、音声活動検出方法（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ、ＶＡＤと略称される）により音声存在確率を推定し、さらにノイズ共分散行列を計算する。しかし、従来技術における音声存在確率の推定正確率が十分ではなく、それによりノイズ共分散行列の推定精度が低く、さらにＭＶＤＲアルゴリズムの音声強調効果が低い。特にマイクロホンの数が少なく、例えば、５個未満である場合、効果は急激に低下する。そのため、従来技術におけるＭＶＤＲアルゴリズムは、携帯電話、スマートスピーカーなどのマイクロホンの数が多く、間隔が大きいマイクロホンアレイ機器に用いられることが多いが、イヤホンのようなマイクロホンの数が少なく、間隔が小さい機器では音声強調効果が低い。

そのため、精度のより高い音声活動検出方法、システム、音声強調方法及びシステムを提供する必要がある。

本明細書は、精度のより高い音声活動検出方法、システム、音声強調方法及びシステムを提供する。

第１の態様によれば、本明細書は、音声活動検出方法を提供し、予め設定されたアレイ形状に分布しているＭ個のマイクロホンに用いられ、前記Ｍは１より大きい整数であり、前記方法は、ターゲット音声信号に対応する第１のモデルが存在しないか又はターゲット音声信号に対応する第２のモデルが存在することを満たす、前記Ｍ個のマイクロホンにより出力されたマイクロホン信号を取得することと、尤度関数の最大化及びノイズ共分散行列のランク最小化を共同最適化目標として、前記第１のモデル及び前記第２のモデルをそれぞれ最適化し、前記第１のモデルのノイズ共分散行列の第１の推定値及び前記第２のモデルのノイズ共分散行列の第２の推定値を確定することと、統計的仮説検定に基づいて、前記マイクロホン信号に対応するターゲットモデル及びノイズ共分散行列を確定することとを含み、前記ターゲットモデルは前記第１のモデル及び前記第２のモデルのうちの一つを含み、前記マイクロホン信号のノイズ共分散行列は前記ターゲットモデルのノイズ共分散行列である。

いくつかの実施例において、前記マイクロホン信号は、Ｋフレームの連続したオーディオ信号を含み、前記Ｋは１より大きい正整数であり、前記マイクロホン信号はＭ×Ｋのデータ行列を含む。

いくつかの実施例において、前記マイクロホン信号は、フル観測信号又は非フル観測信号であり、前記フル観測信号において前記Ｍ×Ｋのデータ行列中の全てのデータが完全であり、前記非フル観測信号において前記Ｍ×Ｋのデータ行列中の一部のデータが欠落しており、前記マイクロホン信号が前記非フル観測信号である場合、前記の、前記Ｍ個のマイクロホンにより出力されたマイクロホン信号を取得することは、前記非フル観測信号を取得することと、前記Ｍ×Ｋのデータ行列の各列におけるデータ欠落位置に基づいて、前記マイクロホン信号に対して行置換及び列置換を行い、前記マイクロホン信号を少なくとも一つのサブマイクロホン信号に分割することとを含み、前記マイクロホン信号は前記少なくとも一つサブマイクロホン信号を含む。

いくつかの実施例において、前記の、尤度関数の最大化及びノイズ共分散行列のランク最小化を共同最適化目標として、前記第１のモデル及び前記第２のモデルをそれぞれ最適化することは、前記マイクロホン信号をサンプルデータとして、前記第１のモデルに対応する、前記尤度関数に含まれる第１の尤度関数を確立することと、前記第１の尤度関数の最大化及び前記第１のモデルのノイズ共分散行列のランク最小化を最適化目標として、前記第１のモデルを最適化し、前記第１の推定値を確定することと、前記マイクロホン信号をサンプルデータとして、前記第２のモデルの、前記尤度関数に含まれる第２の尤度関数を確定することと、前記第２の尤度関数の最大化及び前記第２のモデルのノイズ共分散行列のランク最小化を最適化目標として、前記第２のモデルを最適化し、前記第２の推定値及び前記ターゲット音声信号の振幅推定値を確定することとを含む。

いくつかの実施例において、前記マイクロホン信号は、ガウス分布に従うノイズ信号を含み、前記ノイズ信号は少なくとも、ゼロ平均ガウス分布に従い、対応するノイズ共分散行列が低ランク半正定値行列であるカラードノイズ信号を含む。

いくつかの実施例において、前記の、統計的仮説検定に基づいて、前記マイクロホン信号に対応するターゲットモデル及びノイズ共分散行列を確定することは、前記マイクロホン信号に基づいて、二値仮説検定モデルを確立することであって、ここで、前記二値仮説検定モデルの帰無仮説は、前記マイクロホン信号が前記第１のモデルを満たすことを含み、前記二値仮説検定モデルの対立仮説は、前記マイクロホン信号が前記第２のモデルを満たすことを含むことと、前記第１の推定値、前記第２の推定値及び前記振幅推定値を前記二値仮説検定モデルの検出器の判定基準に代入し、検定統計量を取得することと、前記検定統計量に基づいて前記マイクロホン信号の前記ターゲットモデルを判断することとを含む。

いくつかの実施例において、前記の、前記検定統計量に基づいて前記マイクロホン信号の前記ターゲットモデルを判断することは、前記検定統計量が前記予め設定された判定閾値より大きいことを確定し、前記マイクロホン信号には前記ターゲット音声信号が存在すると判定し、前記ターゲットモデルが前記第２のモデルであり、前記マイクロホン信号のノイズ共分散行列が前記第２の推定値であることを確定すること、又は前記検定統計量が前記予め設定された判定閾値より小さいことを確定し、前記マイクロホン信号には前記ターゲット音声信号が存在しないと判定し、前記ターゲットモデルが前記第１のモデルであり、前記マイクロホン信号のノイズ共分散行列が前記第１の推定値であることを確定することを含む。

いくつかの実施例において、前記検出器は、ＧＬＲＴ検出器、Ｒａｏチェッカー及びＷａｌｄチェッカーのうちの少なくとも一つを含む。

第２の態様によれば、本明細書は、音声活動検出システムをさらに提供し、前記システムは、少なくとも一つの記憶媒体と少なくとも一つのプロセッサとを含み、前記少なくとも一つの記憶媒体には、音声活動検出のための少なくとも一つの命令セットが記憶されており、前記少なくとも一つのプロセッサは、前記少なくとも一つの記憶媒体と通信接続され、ここで、前記音声活動検出システムが作動する場合、前記少なくとも一つのプロセッサは、前記少なくとも一つの命令セットを読み取り、本明細書の第１の態様に記載の音声活動検出方法を実施する。

第３の態様によれば、本明細書は、音声強調方法をさらに提供し、予め設定されたアレイ形状に分布しているＭ個のマイクロホンに用いられ、前記Ｍは１より大きい整数であり、前記方法は、前記Ｍ個のマイクロホンにより出力されたマイクロホン信号を取得することと、請求項１～８のいずれか一項に記載の音声活動検出方法に基づいて、前記マイクロホン信号の前記ターゲットモデル、及び前記ターゲットモデルのノイズ共分散行列である前記マイクロホン信号のノイズ共分散行列を確定することと、ＭＶＤＲ方法及び前記マイクロホン信号のノイズ共分散行列に基づいて、前記マイクロホン信号に対応するフィルタリング係数を確定することと、前記フィルタリング係数に基づいて前記マイクロホン信号を統合し、ターゲットオーディオ信号を出力することとを含む。

第４の態様によれば、本明細書は、音声強調システムをさらに提供し、前記システムは、少なくとも一つの記憶媒体と少なくとも一つのプロセッサとを含み、前記少なくとも一つの記憶媒体には、音声強調を行うための少なくとも一つの命令セットが記憶されており、前記少なくとも一つのプロセッサは、前記少なくとも一つの記憶媒体と通信接続され、ここで、前記音声強調システムが作動する場合、前記少なくとも一つのプロセッサは、前記少なくとも一つの命令セットを読み取り、本明細書の第３の態様に記載の音声強調方法を実施する。

以上の技術案から分かるように、本明細書による音声活動検出方法、システム、音声強調方法及びシステムは、複数のマイクロホンからなるマイクロホンアレイに用いられる。ここで、前記マイクロホンアレイにより出力されたマイクロホン信号は、ノイズ信号に対応する第１のモデル、又はターゲット音声信号と前記ノイズ信号との組み合わせに対応する第２のモデルを満たす。前記マイクロホン信号にはターゲット音声信号が存在するか否かを取得するために、前記方法及びシステムは、尤度関数の最大化及びノイズ共分散行列のランク最小化を共同最適化目標として、第１のモデル及び第２のモデルをそれぞれ最適化し、前記第１のモデルのノイズ共分散行列の第１の推定値及び第２のモデルのノイズ共分散行列の第２の推定値を確定し、統計的仮説検定の方法により、マイクロホン信号が第１のモデルを満たすか第２のモデルを満たすかを判断することによって、マイクロホン信号にはターゲット音声信号が存在するか否かを確定し、マイクロホン信号のノイズ共分散行列を確定し、さらにＭＶＤＲ方法に基づいてマイクロホン信号に対して音声強調を行うことができる。前記方法及びシステムは、ノイズ共分散の推定精度をより高くし、さらに音声強調効果を向上させることができる。

本明細書による音声活動検出方法、システム、音声強調方法及びシステムの他の機能は、以下に続く説明で部分的に記述される。説明によれば、以下の数字及び例に示される内容は、当業者にとって自明である。本明細書による音声活動検出方法、システム、音声強調方法及びシステムの創造的な態様は、以下の詳細な例に記載の方法、装置及び組み合わせの実践又は使用によって十分に解釈され得る。

本明細書の実施例における技術案をより明確に説明するために、以下では、実施例の説明で使用する必要がある図面を簡単に説明するが、明らかなことに、以下の説明における図面は、本明細書の一部の実施例に過ぎず、当業者にとっては、創造的な労力を払うことなく、これらの図面に基づいて他の図面を入手することができる。
本明細書の実施例による音声活動検出システムのハードウェア概略図である。本明細書の実施例による電子機器の分解構造概略図である。本明細書の実施例による第１のケースの正面図である。本明細書の実施例による第１のケースの平面図である。本明細書の実施例による第２のケースの正面図である。本明細書の実施例による第２のケースの底面図である。本明細書の実施例による音声活動検出方法のフローチャートである。本明細書の実施例によるフル観測信号の概略図である。本明細書の実施例による非フル観測信号の概略図である。本明細書の実施例による非フル観測信号の再配列の概略図である。本明細書の実施例による非フル観測信号の再配列の概略図である。本明細書の実施例による反復最適化のフローチャートである。本明細書の実施例によるターゲットモデルの確定のフローチャートである。本明細書の実施例による音声強調方法のフローチャートである。

以下の説明は、当業者が本明細書における内容を作成及び使用することを可能にするために、本明細書の特定の適用シーンと要件を提供した。開示された実施例に対する様々な部分的な修正は、当業者にとって明らかであり、且つここで定義された一般原理は、本明細書の精神及び範囲から逸脱することなく、他の実施例及び用途に適用され得る。そのため、本明細書は、示された実施例に限定されるものではなく、請求項と一致する最も広い範囲である。

ここで使用される用語は、特定の例示的な実施例を説明する目的のためだけのものであり、限定するものではない。例えば、文脈が別途明確に指示しない限り、ここで使用される単数形「一」、「一つ」及び「該」は、複数形を含むものでもあり得る。本明細書で使用される場合、「含む」、「包含」及び／又は「含有」という用語は、関連する整数、ステップ、動作、要素及び／又はコンポーネントの存在を意味するが、一つ又は複数の他の特徴、整数、ステップ、動作、要素、コンポーネント及び／又はグループの存在を排除するものではなく、又は該システム／方法に他の特徴、整数、ステップ、動作、要素、コンポーネント及び／又はグループが追加されてもよい。

以下の説明を考慮すると、本明細書のこれらの特徴及び他の特徴、並びに構造の関連素子の動作及び機能、並びに部品の組み合わせ及び製造の経済性を明らかに向上させることができる。図面を参照すると、その全ては本明細書の一部を形成する。しかしながら、図面は、例示及び説明のみを目的とし、本明細書の範囲を限定することを意図していないことが明確に理解されるべきである。図面は縮尺どおりに描かれていないことも理解されるべきである。

本明細書で使用されるフローチャートは、本明細書のいくつかの実施例によるシステム実現の動作を示す。フローチャートの動作は順序を違えて実現され得ることが明確に理解されるべきである。逆に、動作は、逆順で、又は同時に実現され得る。なお、フローチャートに一つ又は複数の他の動作を追加してもよい。フローチャートから一つ又は複数の動作を除去してもよい。

説明を容易にするために、まず、本明細書に現れる用語を以下のように説明する。

＜統計的仮説検定＞
ある仮説条件に基づいて、サンプルから母集団を推定する数理統計学方法である。具体的なやり方は以下のとおりである：問題の需要に応じて、研究する母集団に対して何らかの仮説を立て、帰無仮説Ｈ＿０と記し、帰無仮説Ｈ＿０が成立した時に、その分布が既知となるように、適切な統計量を選択し、実測サンプルから統計量の値を計算し、予め与えられた有意性レベルに基づいて検定し、帰無仮説Ｈ＿０を棄却するか又は受諾するか判断する。一般的な統計的仮説検定方法としては、ｕ－検定法、ｔ検定法、χ２検定法（カイ二乗検定）、Ｆ－検定法、順位和検定などがある。

＜最小分散無歪応答（ＭｉｎｉｍｕｍＶａｒｉａｎｃｅＤｉｓｔｏｒｔｉｏｎｌｅｓｓＲｅｓｐｏｎｓｅ、ＭＶＤＲと略称される）＞
最大信号対干渉雑音比（ＳＩＮＲ）基準に基づく適応ビームフォーミングアルゴリズムであり、ＭＶＤＲアルゴリズムは、適応的に、アレイ出力の所望の方向におけるパワーを最小にするとともに、信号対干渉雑音比を最大にすることができる。記録信号の分散を最小化することを目標とする。ノイズ信号と所望の信号とが相関しなければ、記録信号の分散は所望の信号及びノイズ信号の分散の和となる。そのため、ＭＶＤＲソリューションは、該総和を最小化することによって、ノイズ信号の影響を軽減することを求めている。その原理は、所望の信号に歪みがないという制約条件の下で、適切なフィルタ係数を選択し、アレイ出力の平均パワーを最小化することである。

＜音声活動検出＞
ターゲット音声信号から発話音声区間と非発話区間を分割する処理手順である。

＜ガウス分布＞
正規分布（Ｎｏｒｍａｌｄｉｓｔｒｉｂｕｔｉｏｎ）であり、「定常分布」とも呼ばれ、別名ガウス分布（Ｇａｕｓｓｉａｎｄｉｓｔｒｉｂｕｔｉｏｎ）であり、正規曲線は、ベル型であり、両端が低く、中央が高く、左右対称であり、その曲線がベル型を呈するため、しばしばベル曲線と呼ばれる。ランダム変数Ｘは、期待値がμであり、分散がσ^２である正規分布に従う場合、Ｎ（μ，σ^２）と記される。確率密度関数が正規分布であるその所望値μによりその位置が決定され、その標準偏差σにより分布の振幅が決定された。μ＝０であり、σ＝１である場合の正規分布は標準正規分布である。

図１は、本明細書の実施例による音声活動検出システムのハードウェア概略図を示した。音声活動検出システムは、電子機器２００に用いることができる。

いくつかの実施例において、電子機器２００は、無線イヤホン、有線イヤホン、スマートウェアラブルデバイス、例えば、スマートグラス、スマートヘルメット又はスマートウォッチなどのオーディオ処理機能を有する機器であってもよい。電子機器２００はまた、モバイル機器、タブレットコンピュータ、ノートパソコン、自動車の内蔵装置もしくは類似のもの、又はそれらの任意の組み合わせであってもよい。いくつかの実施例において、モバイル機器は、スマートホーム機器、スマートモバイル機器もしくは類似の機器、又はそれらの任意の組み合わせを含んでもよい。例えば、前記スマートモバイル機器は、携帯電話、パーソナルデジタルアシスタント、ゲーム機器、ナビゲーション機器、ウルトラモバイルパーソナルコンピュータ（Ｕｌｔｒａ－ｍｏｂｉｌｅＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ、ＵＭＰＣ）など、又はそれらの任意の組み合わせを含んでもよい。いくつかの実施例において、前記スマートホーム装置は、スマートテレビ、デスクトップコンピュータなど、又は任意の組み合わせを含んでもよい。いくつかの実施例において、自動車の内蔵装置は、車載コンピュータ、車載テレビなどを含んでもよい。

本明細書において、本発明者らは、電子機器２００がイヤホンであることを例として説明する。前記イヤホンは、無線イヤホンであってもよいし、有線イヤホンであってもよい。図１に示すように、電子機器２００は、マイクロホンアレイ２２０と計算装置２４０とを含んでもよい。

マイクロホンアレイ２２０は、電子機器２００のオーディオ収集機器であってもよい。マイクロホンアレイ２２０は、ローカルオーディオを取得し、マイクロホン信号、つまりオーディオ情報付きの電子信号を出力するように構成されてもよい。マイクロホンアレイ２２０は、予め設定されたアレイ形状に分布しているＭ個のマイクロホン２２２を含んでもよい。ここで、前記Ｍは１より大きい整数である。Ｍ個のマイクロホン２２２は、均一に分布してもよいし、不均一に分布してもよい。Ｍ個のマイクロホン２２２は、マイクロホン信号を出力することができる。Ｍ個のマイクロホン２２２は、Ｍ個のマイクロホン信号を出力することができる。各マイクロホン２２２は、一つのマイクロホン信号に対応する。前記Ｍ個のマイクロホン信号は、前記マイクロホン信号と総称される。いくつかの実施例において、Ｍ個のマイクロホン２２２は線形に分布してもよい。いくつかの実施例において、Ｍ個のマイクロホン２２２は、他の形状のアレイ、例えば、円形アレイ、矩形アレイなどとして分布してもよい。説明を容易にするために、以下の説明では、本発明者らは、Ｍ個のマイクロホン２２２が線形に分布することを例として説明する。いくつかの実施例において、Ｍは、１より大きい任意の整数であってもよく、例えば、２、３、４、５、又はそれ以上である。いくつかの実施例において、空間的制約により、Ｍは、例えば、イヤホンなどの製品において、１より大きく５以下の整数であってもよい。電子機器２００がイヤホンである場合、Ｍ個のマイクロホン２２２のうちの隣接するマイクロホン２２２の間隔は２０ｍｍ～４０ｍｍであってもよい。いくつかの実施例において、隣接するマイクロホン２２２の間隔は、１０ｍｍ～２０ｍｍのように、より小さくてもよい。

いくつかの実施例において、マイクロホン２２２は、人体振動信号を直接収集する骨伝導マイクロホンであってもよい。骨伝導マイクロホンは、振動センサ、例えば、光学式振動センサ、加速度センサなどを含んでもよい。前記振動センサは、機械的振動信号（例えば、ユーザが話している時に皮膚又は骨格により生成される振動による信号）を収集し、該機械的振動信号を電気信号に変換することができる。ここでいう機械的振動信号とは、主に固体を介して伝播する振動を指す。骨伝導マイクロホンは、前記振動センサ又は前記振動センサに接続される振動部品を介してユーザの皮膚又は骨格に接触することによって、ユーザが音声を発した時に皮膚又は骨格により生成される振動信号を収集し、振動信号を電気信号に変換する。いくつかの実施例において、前記振動センサは、機械的振動に敏感であるが空気振動に敏感でない装置であってもよい（即ち機械的振動に対する前記振動センサの応答能力は、空気振動に対する前記振動センサの応答能力を上回る）。骨伝導マイクロホンは、発声部位の振動信号を直接収音することができるため、環境ノイズの影響を低減ことができる。

いくつかの実施例において、マイクロホン２２２は、空气振動信号を直接収集する空気伝導マイクロホンであってもよい。空気伝導マイクロホンは、ユーザが音声を発した時に生じる空気振動信号を収集し、空気振動信号を電気信号に変換する。

いくつかの実施例において、Ｍ個のマイクロホン２２２は、Ｍ個の骨伝導マイクロホンであってもよい。いくつかの実施例において、Ｍ個のマイクロホン２２２は、Ｍ個の空気伝導マイクロホンであってもよい。いくつかの実施例において、Ｍ個のマイクロホン２２２は、骨伝導マイクロホンを含んでもよいし、空気伝導マイクロホンを含んでもよい。無論、マイクロホン２２２は、他のタイプのマイクロホンであってもよい。例えば、光学式マイクロホン、筋電位信号を受信するマイクロホンなどである。

計算装置２４０は、マイクロホンアレイ２２０と通信接続されてもよい。前記通信接続は、情報を直接又は間接的に受信できる任意の形の接続を指す。いくつかの実施例において、計算装置２４０は、無線通信接続を介してマイクロホンアレイ２２０と互いにデータを通信することができ、いくつかの実施例において、計算装置２４０は、電線によってマイクロホンアレイ２２０に直接接続されて互いにデータを通信することもでき、いくつかの実施例において、計算装置２４０はまた、電線によって他の回路に直接接続されてマイクロホンアレイ２２０との間接的な接続を確立することによって、互いの間のデータ通信を実現することができる。本明細書において、計算装置２４０が電線によってマイクロホンアレイ２２０に直接接続されることを例として説明する。

計算装置２４０は、データ情報処理機能を有するハードウェア機器であってもよい。いくつかの実施例において、音声活動検出システムは、計算装置２４０を含んでもよい。いくつかの実施例において、音声活動検出システムは、計算装置２４０に用いることができる。即ち音声活動検出システムは、計算装置２４０上で作動することができる。音声活動検出システムは、データ情報処理機能を有するハードウェア機器と、該ハードウェア機器の動作を駆動するために必要なプログラムとを含んでもよい。無論、音声活動検出システムは、データ処理機能を有するハードウェア機器のみであってもよく、又は、ハードウェア機器で作動するプログラムのみであってもよい。

音声活動検出システムは、本明細書に記述されている音声活動検出方法を実行するデータ又は命令を記憶することができ、前記データ及び／又は命令を実行することもできる。音声活動検出システムが計算装置２４０上で作動する場合、音声活動検出システムは、前記通信接続に基づいてマイクロホンアレイ２２０から前記マイクロホン信号を取得し、本明細書に記述されている音声活動検出方法のデータ又は命令を実行し、前記マイクロホン信号にはターゲット音声信号が存在するか否かを計算することができる。前記音声活動検出方法は、本明細書の他の部分で紹介される。例えば、前記音声活動検出方法は、図３～図８の説明において紹介されている。

図１に示すように、計算装置２４０は、少なくとも一つの記憶媒体２４３と、少なくとも一つのプロセッサ２４２とを含んでもよい。いくつかの実施例において、電子機器２００は、通信ポート２４５と、内部通信バス２４１とをさらに含んでもよい。

内部通信バス２４１は、記憶媒体２４３と、プロセッサ２４２と、通信ポート２４５とを含む異なるシステムコンポーネントに接続されてもよい。

通信ポート２４５は、計算装置２４０と外部とのデータ通信に用いることができる。例えば、計算装置２４０は、通信ポート２４５を介してマイクロホンアレイ２２０から前記マイクロホン信号を取得することができる。

少なくとも一つの記憶媒体２４３は、データ記憶装置を含んでもよい。前記データ記憶装置は、非一時的な記憶媒体であってもよいし、一時的な記憶媒体であってもよい。例えば、前記データ記憶装置は、磁気ディスク、読み取り専用記憶媒体（ＲＯＭ）又はランダムアクセス記憶媒体（ＲＡＭ）のうちの一つ又は複数を含んでもよい。音声活動検出システムが計算装置２４０上で作動可能である場合、記憶媒体２４３は、前記データ記憶装置に記憶されている、前記マイクロホン信号に対して音声活動検出を行うための少なくとも一つの命令セットをさらに含んでもよい。前記命令は、コンピュータプログラムコードであり、前記コンピュータプログラムコードは、本明細書による音声活動検出方法を実行するプログラム、ルーチン、オブジェクト、コンポーネント、データ構造、プロセス、モジュールなどを含んでもよい。

少なくとも一つのプロセッサ２４２は、内部通信バス２４１を介して、少なくとも一つの記憶媒体２４３と通信接続することができる。前記通信接続は、情報を直接又は間接的に受信できる任意の形の接続を指す。少なくとも一つのプロセッサ２４２は、上記少なくとも一つの命令セットを実行するためのものである。音声活動検出システムが計算装置２４０上で作動可能である場合、少なくとも一つのプロセッサ２４２は、前記少なくとも一つの命令セットを読み取り、且つ前記少なくとも一つの命令セットの指示に従って本明細書による音声活動検出方法を実行する。プロセッサ２４２は、音声活動検出方法に含まれる全てのステップを実行することができる。プロセッサ２４２は、一つ又は複数のプロセッサの形態であってもよく、いくつかの実施例において、プロセッサ２４２は、一つ又は複数のハードウェアプロセッサ、例えば、マイクロコントローラ、マイクロプロセッサ、縮小命令セットコンピュータ（ＲＩＳＣ）、専用集積回路（ＡＳＩＣ）、特定用途向け命令セットプロセッサ（ＡＳＩＰ）、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、物理処理ユニット（ＰＰＵ）、マイクロコントローラユニット、デジタル信号プロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、アドバンスドＲＩＳＣマシン（ＡＲＭ）、プログラマブルロジックデバイス（ＰＬＤ）、一つ又は複数の機能を実行できる任意の回路もしくはプロセッサなど、又はそれらの任意の組み合わせを含んでもよい。単に問題を説明するために、本明細書では、計算装置２４０には一つのプロセッサ２４２のみが説明されている。しかしながら、注意すべきこととして、本明細書における計算装置２４０は、複数のプロセッサ２４２をさらに含んでもよく、そのため、本明細書に開示された動作及び／又は方法ステップは、本明細書に記載されるように一つのプロセッサによって実行されてもよいし、複数のプロセッサによって共同で実行されてもよい。例えば、本明細書において、計算装置２４０のプロセッサ２４２がステップＡ及びステップＢを実行する場合、理解すべきこととして、ステップＡ及びステップＢは、二つの異なるプロセッサ２４２によって共同で又は別々に実行されてもよい（例えば、第１のプロセッサがステップＡを実行し、第２のプロセッサがステップＢを実行し、又は第１の及び第２のプロセッサがステップＡ及びＢを共同で実行する）。

図２Ａは、本明細書の実施例による電子機器２００の分解構造概略図を示した。図２Ａに示すように、電子機器２００は、マイクロホンアレイ２２０、計算装置２４０、第１のケース２６０及び第２のケース２８０を含んでもよい。

第１のケース２６０は、マイクロホンアレイ２２０の実装基材であってもよい。マイクロホンアレイ２２０は１のケース２６０の内部に実装されてもよい。第１のケース２６０の形状は、マイクロホンアレイ２２０の分布形状に応じて適応的に設計されてもよく、本明細書はこれについてあまり限定しない。第２のケース２８０は、計算装置２４０の実装基材であってもよい。計算装置２４０は第２のケース２８０の内部に実装されてもよい。第２のケース２８０の形状は、計算装置２４０の形状に応じて適応的に設計されてもよく、本明細書はこれについてあまり限定しない。電子機器２００がイヤホンである場合、第２のケース２８０は着用部位に接続されてもよい。第２のケース２８０は第１のケース２６０に接続されてもよい。前述のように、マイクロホンアレイ２２０は計算装置２４０に電気的に接続されてもよい。具体的には、マイクロホンアレイ２２０は、第１のケース２６０と第２のケース２８０との接続を通じて、計算装置２４０との電気的接続を実現することができる。

いくつかの実施例において、第１のケース２６０は、一体成形、溶接、かしめ接続、接着などの方式で第２のケース２８０に固定接続されてもよい。いくつかの実施例において、第１のケース２６０は、第２のケース２８０に取り外し可能に接続されてもよい。計算装置２４０は、異なるマイクロホンアレイ２２０と通信接続されてもよい。具体的には、異なるマイクロホンアレイ２２０は、マイクロホンアレイ２２０におけるマイクロホン２２２の数、アレイ形状、マイクロホン２２２の間隔、マイクロホンアレイ２２０の第１のケース２６０での実装角度、マイクロホンアレイ２２０の第１のケース２６０での実装位置などが異なっていてもよい。着用者は、応用シナリオの違いに応じて、対応するマイクロホンアレイ２２０を交換して、電子機器２００をより広いシナリオに適用することができる。例えば、応用シナリオにおいて着用者と電子機器２００との距離が短い場合、着用者は、間隔のより小さいマイクロホンアレイ２２０に交換することができる。さらに例えば、応用シナリオにおいて着用者と電子機器２００との距離が長い場合、着用者は、間隔のより大きい、より多くの数のマイクロホンアレイ２２０に交換することができる、などが挙げられる。

前記取り外し可能な接続は、任意の形態の物理的接続、例えば、ネジ接続、スナップ式接続、磁気吸着式接続などであってもよい。いくつかの実施例において、第１のケース２６０と第２のケース２８０との間は磁気吸着接続されてもよい。即ち第１のケース２６０と第２のケース２８０との間は、磁気装置の吸着力によって取り外し可能に接続される。

図２Ｂは、本明細書の実施例による第１のケース２６０の正面図を示し、図２Ｃは、本明細書の実施例による第１のケース２６０の平面図を示した。図２Ｂ及び図２Ｃに示すように、第１のケース２６０は第１のインターフェース２６２を含んでもよい。いくつかの実施例において、第１のケース２６０はタッチポイント２６６をさらに含んでもよい。いくつかの実施例において、第１のケース２６０は角度センサ（図２Ｂ及び図２Ｃに図示されていない）をさらに含んでもよい。

第１のインターフェース２６２は、第１のケース２６０及び第２のケース２８０の実装インターフェースであってもよい。いくつかの実施例において、第１のインターフェース２６２は円形であってもよい。第１のインターフェース２６２は第２のケース２８０に回転可能に接続されてもよい。第１のケース２６０が第２のケース２８０上に実装される場合、第１のケース２６０を第２のケース２８０に対して回転させ、第１のケース２６０の第２のケース２８０に対する角度を調整することによって、マイクロホンアレイ２２０の角度を調整することができる。

第１のインターフェース２６２上には、第１の磁気装置２６３が設置されていてもよい。第１の磁気装置２６３は、第１のインターフェース２６２の第２のケース２８０に近い位置に設置されてもよい。第１の磁気装置２６３は、磁気吸着力を発生させることによって、第２のケース２８０との取り外し可能な接続を実現することができる。第１のケース２６０が第２のケース２８０に接近すると、前記吸着力によって、第１のケース２６０が第２のケース２８０に迅速に接続される。いくつかの実施例において、第１のケース２６０が第２のケース２８０に接続された後、第１のケース２６０が依然として第２のケース２８０に対して回転することができ、それによりマイクロホンアレイ２２０の角度を調整する。前記吸着力の作用により、第１のケース２６０が第２のケース２８０に対して回転しても、第１のケース２６０と第２のケース２８０との接続を維持することができる。

いくつかの実施例において、第１のインターフェース２６２にはさらに第１の位置決め装置（図２Ｂ及び図２Ｃに図示されていない）が設置されていてもよい。前記第１の位置決め装置は、外側に突起する位置決め段部であってもよいし、内側に延伸する位置決め孔であってもよい。前記第１の位置決め装置は、第２のケース２８０と係合して、第１のケース２６０と第２のケース２８０の迅速な実装を実現することができる。

図２Ｂ及び図２Ｃに示すように、いくつかの実施例において、第１のケース２６０はタッチポイント２６６をさらに含んでもよい。タッチポイント２６６は、第１のインターフェース２６２位置に実装されてもよい。タッチポイント２６６は、第１のインターフェース２６２位置から外側に突出することができる。タッチポイント２６６は、第１のインターフェース２６２に弾性的に接続されてもよい。タッチポイント２６６は、マイクロホンアレイ２２０におけるＭ個のマイクロホン２２２と通信接続することができる。タッチポイント２６６は、データ伝送を実現するために、弾性のある金属で製造されてもよい。第１のケース２６０が第２のケース２８０に接続される場合、マイクロホンアレイ２２０は、タッチポイント２６６を介して計算装置２４０との通信接続を実現することができる。いくつかの実施例において、タッチポイント２６６は円形に分布してもよい。第１のケース２６０が第２のケース２８０に接続された後、第１のケース２６０が第２のケース２８０に対して回転する時、タッチポイント２６６も第２のケース２８０に対して回転することができ、計算装置２４０との通信接続を維持する。

いくつかの実施例において、第１のケース２６０上にはさらに、角度センサ（図２Ｂ及び図２Ｃに図示されていない）が設置されていてもよい。前記角度センサは、タッチポイント２６６と通信接続することによって、計算装置２４０との通信接続を実現することができる。前記角度センサは、第１のケース２６０の角度データを収集することによって、マイクロホンアレイ２２０が位置する角度を確定し、後続の音声存在確率の計算のために基準データを提供することができる。

図２Ｄは、本明細書の実施例による第２のケース２８０の正面図を示し、図２Ｅは、本明細書の実施例による第２のケース２８０の底面図を示した。図２Ｄ及び図２Ｅに示すように、第２のケース２８０は第２のインターフェース２８２を含んでもよい。いくつかの実施例において、第２のケース２８０はガイドレール２８６をさらに含んでもよい。

第２のインターフェース２８２は、第２のケース２８０及び第１のケース２６０の実装インターフェースであってもよい。いくつかの実施例において、第２のインターフェース２８２は円形であってもよい。第２のインターフェース２８２は、第１のケース２６０の第１のインターフェース２６２に回転可能に接続されてもよい。第１のケース２６０が第２のケース２８０上に実装される場合、第１のケース２６０を第２のケース２８０に対して回転させ、第１のケース２６０の第２のケース２８０に対する角度を調整することによって、マイクロホンアレイ２２０の角度を調整することができる。

第２のインターフェース２８２上には、第２の磁気装置２８３が設置されていてもよい。第２の磁気装置２８３は、第２のインターフェース２８２の第１のケース２６０に近い位置に設置されてもよい。第２の磁気装置２８３は、磁気吸着力を発生させることによって、第１のインターフェース２６２との取り外し可能な接続を実現することができる。第２の磁気装置２８３は、第１の磁気装置２６３と係合して使用され得る。第１のケース２６０が第２のケース２８０に接近すると、第２の磁気装置２８３と第１の磁気装置２６３との間の吸着力によって、第１のケース２６０を第２のケース２８０上に迅速に実装することができる。第１のケース２６０が第２のケース２８０上に実装される場合、第２の磁気装置２８３は、第１の磁気装置２６３の位置と対向する。いくつかの実施例において、第１のケース２６０が第２のケース２８０に接続された後、第１のケース２６０が依然として第２のケース２８０に対して回転することができ、それによりマイクロホンアレイ２２０の角度を調整する。前記吸着力の作用により、第１のケース２６０が第２のケース２８０に対して回転しても、第１のケース２６０と第２のケース２８０との接続を維持することができる。

いくつかの実施例において、第２のインターフェース２８２上にはさらに、第２の位置決め装置（図２Ｄ及び図２Ｅに図示されていない）が設置されていてもよい。前記第２の位置決め装置は、外側に突起する位置決め段部であってもよいし、内側に延伸する位置決め孔であってもよい。前記第２の位置決め装置は、第１のケース２６０の第１の位置決め装置と係合して、第１のケース２６０と第２のケース２８０との迅速な実装を実現することができる。前記第１の位置決め装置が前記位置決め段部である場合、前記第２の位置決め装置は前記位置決め孔であってもよい。前記第１の位置決め装置が前記位置決め孔である場合、前記第２の位置決め装置は前記位置決め段部であってもよい。

図２Ｄ及び図２Ｅに示すように、いくつかの実施例において、第２のケース２８０はガイドレール２８６をさらに含んでもよい。ガイドレール２８６は、第２のインターフェース２８２位置に実装されてもよい。ガイドレール２８６は、計算装置２４０と通信接続することができる。ガイドレール２８６は、データ伝送を実現するために、金属材料で製造されてもよい。第１のケース２６０が第２のケース２８０に接続された場合、タッチポイント２６６がガイドレール２８６に接触して通信接続を形成することができ、それによってマイクロホンアレイ２２０と計算装置２４０との通信接続を実現して、データ伝送を実現する。前述のように、タッチポイント２６６は、第１のインターフェース２６２に弾性的に接続されてもよい。そのため、第１のケース２６０が第２のケース２８０に接続された後、前記弾性的接続の弾力作用により、タッチポイント２６６をガイドレール２８６に完全に接触させて、確実な通信接続を実現することができる。いくつかの実施例において、ガイドレール２８６は円形に分布してもよい。第１のケース２６０が第２のケース２８０に接続された後、第１のケース２６０が第２のケース２８０に対して回転する時、タッチポイント２６６もガイドレール２８６に対して回転することができ、ガイドレール２８６との通信接続を維持する。

図３は、本明細書の実施例による音声活動検出方法Ｐ１００のフローチャートを示した。前記方法Ｐ１００は、前記マイクロホン信号にはターゲット音声信号が存在するか否かを計算することができる。具体的には、プロセッサ２４２は前記方法Ｐ１００を実行することができる。

図３に示すように、前記方法Ｐ１００は、以下のステップを含んでもよい。
Ｓ１２０：Ｍ個のマイクロホン２２２により出力されたマイクロホン信号を取得する。

前述のように、各マイクロホン２２２は、いずれも対応するマイクロホン信号を出力することができる。Ｍ個のマイクロホン２２２はＭ個のマイクロホン信号に対応する。前記方法Ｐ１００は、前記マイクロホン信号にはターゲット音声信号が存在するか否かを計算する場合、Ｍ個のマイクロホン信号のうちの全てマイクロホン信号に基づいて計算してもよいし、一部のマイクロホン信号に基づいて計算してもよい。そのため、前記マイクロホン信号は、Ｍ個のマイクロホン２２２に対応するＭ個のマイクロホン信号又は一部のマイクロホン信号を含んでもよい。本明細書の以下の説明において、前記マイクロホン信号がＭ個のマイクロホン２２２に対応するＭ個のマイクロホン信号を含み得ることを例として説明する。

いくつかの実施例において、前記マイクロホン信号は時間領域信号であってもよい。いくつかの実施例において、ステップＳ１２０において、計算装置２４０は、前記マイクロホン信号に対してフレーム分割及び窓処理を行って、前記マイクロホン信号を複数の連続したオーディオ信号に分割することができる。いくつかの実施例において、ステップＳ１２０において、計算装置２４０はさらに、前記マイクロホン信号に対して時間周波数変換を行って、前記マイクロホン信号の周波数領域信号を得ることができる。説明を容易にするために、本発明者らは、任意の周波数ポイントのマイクロホン信号をＸと標識する。いくつかの実施例において、前記マイクロホン信号Ｘは、Ｋフレームの連続したオーディオ信号を含んでもよい。前記Ｋは、１より大きい任意の正整数である。説明を容易にするために、本発明者らは、ｋフレーム目のマイクロホン信号をｘ_ｋと標識する。ｋフレーム目のマイクロホン信号ｘ_ｋは以下の式で表されてもよい。

ｋフレーム目のマイクロホン信号ｘ_ｋは、Ｍ個のマイクロホン信号からなるＭ次元の信号ベクトルであってもよい。前記マイクロホン信号Ｘは、Ｍ×Ｋのデータ行列で表されてもよい。前記マイクロホン信号Ｘは以下の式で表されてもよい。

ここで、前記マイクロホン信号ＸはＭ×Ｋのデータ行列である。前記データ行列におけるｍ行目はｍ番目のマイクロホンにより受信されたマイクロホン信号を表し、ｋ列目はｋフレーム目のマイクロホン信号を表す。

前述のように、マイクロホン２２２は、周囲環境のノイズを収集しノイズ信号を出力することができ、ターゲットユーザの音声を収集し前記ターゲット音声信号を出力することもできる。ターゲットユーザが音声を発していない場合、前記マイクロホン信号は前記ノイズ信号のみを含む。ターゲットユーザが音声を発した場合、前記マイクロホン信号は、前記ターゲット音声信号と前記ノイズ信号とを含む。ｋフレーム目のマイクロホン信号ｘ_ｋは以下の式で表されてもよい。

ここで、ｋ＝１，２，・・・，Ｋである。ｄ_ｋはｋフレーム目のマイクロホン信号ｘ_ｋにおけるノイズ信号である。ｓ_ｋは前記ターゲット音声信号の振幅である。Ｐは前記ターゲット音声信号のターゲットステアリングベクトルである。

前記マイクロホン信号Ｘは以下の式で表されてもよい。

ここで、Ｓは前記ターゲット音声信号の振幅である。Ｓ＝［ｓ_１，ｓ_２，・・・，ｓ_Ｋ］である。Ｄはノイズ信号である。Ｄ＝［ｄ_１，ｄ_２，・・・，ｄ_Ｋ］である。

ノイズ信号ｄ_ｋは以下の式で表されてもよい。

ｋフレーム目のマイクロホン信号ｘ_ｋにおけるノイズ信号ｄ_ｋは、Ｍ個のマイクロホン信号からなるＭ次元の信号ベクトルであってもよい。

いくつかの実施例において、ノイズ信号ｄ_ｋは、少なくともカラードノイズ信号ｃ_ｋを含んでもよい。いくつかの実施例において、ノイズ信号ｄ_ｋは、ホワイトノイズ信号ｎ_ｋをさらに含んでもよい。ノイズ信号ｄ_ｋは以下の式で表されてもよい。

そうであれば、ノイズ信号Ｄ＝Ｃ＋Ｎである。ここで、Ｃはカラードノイズ信号であり、Ｃ＝［ｃ_１，ｃ_２，・・・，ｃ_Ｋ］である。Ｎはホワイトノイズ信号であり、Ｎ＝［ｎ_１，ｎ_２，・・・，ｎ_Ｋ］である。

計算装置２４０は、前記ノイズ信号ｄ_ｋの音源空間分布のクラスタリング（Ｃｌｕｓｔｅｒ）特徴及びマイクロホンアレイ２２０パラメータ間の統一的なマッピング関係を利用して、パラメータ化クラスタリングモデルを確立し、前記ノイズ信号ｄ_ｋの音源をクラスタリングすることによって、前記ノイズ信号ｄ_ｋをカラードノイズ信号ｃ_ｋとホワイトノイズ信号ｎ_ｋに分けることができる。

いくつかの実施例において、ノイズ信号Ｄはガウス分布に従う。ノイズ信号ｄ_ｋ～ＣＮ（０，Ｍ）である。Ｍはノイズ信号ｄ_ｋのノイズ共分散行列である。ここで、カラードノイズ信号ｃ_ｋはゼロ平均ガウス分布に従う。即ちｃ_ｋ～ＣＮ（０，Ｍ_ｃ）。カラードノイズ信号ｃ_ｋに対応するノイズ共分散行列Ｍ_ｃは、低ランク特性を有し、低ランク半正定値行列である。ホワイトノイズ信号ｎ_ｋもゼロ平均ガウス分布に従う。即ちｎ_ｋ～ＣＮ（０，Ｍ_ｎ）。ホワイトノイズ信号ｎ_ｋのパワーはδ_０ ^２である。Ｍ_ｎ＝δ_０ ^２Ｉ_ｎである。即ちｎ_ｋ～ＣＮ（０，δ_０ ^２）。ノイズ信号ｄ_ｋのノイズ共分散行列Ｍは以下の式で表されてもよい。

ノイズ信号ｄ_ｋのノイズ共分散行列Ｍは、単位行列Ｉ_ｎと低ランク半正定値行列Ｍ_ｃとの和に分解され得る。

いくつかの実施例において、計算装置２４０には、ホワイトノイズ信号ｎ_ｋのパワーδ_０ ^２が予め記憶されていてもよい。いくつかの実施例において、計算装置２４０においてホワイトノイズ信号ｎ_ｋのパワーδ_０ ^２を予め推定してもよい。例えば、計算装置２４０は、最小値追跡、ヒストグラムなどの方式に基づいて、ホワイトノイズ信号ｎ_ｋのパワーδ_０ ^２を推定することができる。いくつかの実施例において、計算装置２４０は、前記方法Ｐ１００に基づいてホワイトノイズ信号ｎ_ｋのパワーδ_０ ^２を推定することができる。

ｓ_ｋはターゲット音声信号の複素振幅である。いくつかの実施例において、マイクロホン２２２の周囲に一つのターゲット音声信号源が存在する。いくつかの実施例において、マイクロホン２２２の周囲にＬ個のターゲット音声信号源が存在する。この場合、ｓ_ｋはＬ×１次元のベクトルであってもよい。

ターゲットステアリングベクトルＰはＭ×Ｌ次元の行列である。ターゲットステアリングベクトルＰは以下の式で表されてもよい。

ここで、ｆ_０はキャリア周波数である。ｄは隣接するマイクロホン２２２の間の距離である。ｃは音速である。θ_１、・・・・・・、θ_Ｎは、それぞれＬ個のターゲット音声信号源とマイクロホン２２２との間の入射角度である。いくつかの実施例において、ターゲット音声信号源ｓ_ｋの角度は、通常、特定の角度範囲内に分布する。そのため、θ_１、・・・・・・、θ_Ｎは既知である。計算装置２４０には、Ｍ個のマイクロホン２２２の相対距離又は相対座標のような相対位置関係が予め記憶されている。即ち計算装置２４０には、隣接するマイクロホン２２２の間の距離ｄが予め記憶されている。

図４は、本明細書の実施例によるフル観測信号の概略図を示した。いくつかの実施例において、前記マイクロホン信号Ｘは、図４に示すように、フル観測信号である。前記フル観測信号において、前記Ｍ×Ｋのデータ行列における全てのデータは完全である。図４に示すように、横方向はマイクロホン信号Ｘのフレーム番号ｋであり、縦方向はマイクロホンアレイ２２０におけるマイクロホン信号番号ｍである。ｍ行目はｍ番目のマイクロホン２２２により受信されたマイクロホン信号を表し、ｋ列目はｋフレーム目のマイクロホン信号を表す。

図５Ａは、本明細書の実施例による非フル観測信号の概略図を示した。いくつかの実施例において、前記マイクロホン信号Ｘは、図５Ａに示すように、非フル観測信号である。前記非フル観測信号において、前記Ｍ×Ｋのデータ行列における一部のデータは欠落している。計算装置２４０は、前記非フル観測信号を再配列することができる。図５Ａに示すように、横方向はマイクロホン信号Ｘのフレーム番号ｋであり、縦方向はマイクロホン信号のチャンネル番号ｍである。ｍ行目はｍ番目のマイクロホン２２２により受信されたマイクロホン信号を表し、ｋ列目はｋフレーム目のマイクロホン信号を表す。

前記マイクロホン信号Ｘが前記非フル観測信号である場合、ステップＳ１２０は、前記非フル観測信号を再配列することをさらに含んでもよい。図５Ｂは、本明細書の実施例による非フル観測信号の再配列の概略図を示し、図５Ｃは、本明細書の実施例による非フル観測信号の再配列の概略図を示した。計算装置２４０が前記非フル観測信号を再配列する場合には以下のとおりであってもよい。計算装置２４０により前記非フル観測信号を取得し、計算装置２４０により、前記Ｍ×Ｋのデータ行列の各列におけるデータ欠落位置に応じて、前記マイクロホン信号Ｘに対して行置換及び列置換を行い、前記マイクロホン信号Ｘを少なくとも一つのサブマイクロホン信号に分割する。前記マイクロホン信号Ｘは、前記少なくとも一つのサブマイクロホン信号を含む。

前記非フル観測信号において、異なるフレーム番号のマイクロホン信号ｘ_ｋにおけるデータ欠落位置が同じであり得るため、アルゴリズムの計算量及び計算時間を減少させるために、計算装置２４０は、異なるフレーム番号のマイクロホン信号ｘ_ｋにおけるデータ欠落位置に応じて、Ｋフレームのマイクロホン信号Ｘを分類し、データ欠落位置が同じであるマイクロホン信号ｘ_ｋを同じサブマイクロホン信号に分割し、マイクロホン信号Ｘのデータ行列中の行位置を置換して、図５Ｂに示すように、同じサブマイクロホン信号におけるマイクロホン信号位置を隣接させることができる。本発明者らは、Ｋフレーム個のマイクロホン信号Ｘを少なくとも一つのサブマイクロホン信号に分割する。説明を容易にするために、本発明者らは、少なくとも一つのサブマイクロホン信号の数をＧと定義した。ここで、Ｇは１以上の正整数である。本発明者らは、ｇ番目のサブマイクロホン信号をＸ_ｇと定義した。ここで、ｇ＝１，２，・・・，Ｇである。

計算装置２４０はさらに、各サブマイクロホン信号Ｘ_ｇにおけるデータ欠落位置に応じて、マイクロホン信号Ｘに対して行置換を行って、図５Ｃに示すように、全てのサブマイクロホン信号におけるデータ欠落位置を隣接させることができる。

以上のように、非フル観測信号において、サブマイクロホン信号Ｘ_ｇは以下の式で表されてもよい。

ここで、Ｘ_ｇ＝Ｑ_ｇＸＢ_ｇ ^Ｔであり、Ｄ_ｇ＝Ｑ_ｇＤＢ_ｇ ^Ｔであり、Ｐ_ｇ＝Ｑ_ｇＰであり、Ｓ_ｇ＝Ｂ_ｇＳである。行列Ｑ_ｇ、Ｂ_ｇは、データ欠落位置により決定される、０、１要素で構成される行列である。

マイクロホン信号Ｘは以下の式で表されてもよい。

説明を容易にするために、以下の説明では、本発明者らは、マイクロホン信号Ｘが非フル観測信号であることで説明する。

前述のように、マイクロホン２２２は、ノイズ信号Ｄを収集することもできるし、ターゲット音声信号を収集することもできる。前記マイクロホン信号Ｘには前記ターゲット音声信号が存在しない場合、前記マイクロホン信号Ｘは、ノイズ信号Ｄに対応する第１のモデルを満たす。前記マイクロホン信号Ｘには前記ターゲット音声信号が存在する場合、前記マイクロホン信号は、ターゲット音声信号と前記ノイズ信号Ｄとの組み合わせに対応する第２のモデルを満たす。

説明を容易にするために、本発明者らは、第１のモデルを以下の式として定義する。

マイクロホン信号Ｘがフル観測信号である場合、第１のモデルは以下の式で表されてもよい。

マイクロホン信号Ｘが非フル観測信号である場合、第１のモデルは以下の式で表されてもよい。

本発明者らは、第２のモデルを以下の式として定義する。

マイクロホン信号Ｘがフル観測信号である場合、第２のモデルは以下の式で表されてもよい。

マイクロホン信号Ｘが非フル観測信号である場合、第２のモデルは以下の式で表されてもよい。

説明を容易にするために、以下の説明では、本発明者らは、マイクロホン信号Ｘが非フル観測信号であることを例として説明する。

図３に示すように、前記方法Ｐ１００は、以下のステップを含んでもよい。
Ｓ１４０：尤度関数の最大化及びノイズ共分散行列のランク最小化を共同最適化目標として、前記第１のモデル及び前記第２のモデルをそれぞれ最適化し、前記第１のモデルのノイズ共分散行列Ｍ_１の第１の推定値
及び前記第２のモデルのノイズ共分散行列Ｍ_２の第２の推定値
を確定する。

第１のモデルには、未知パラメータのノイズ信号Ｄのノイズ共分散行列Ｍが存在する。説明を容易にするために、本発明者らは、第１のモデルにおける未知パラメータのノイズ信号Ｄのノイズ共分散行列ＭをＭ_１と定義する。第２のモデルには、未知パラメータのノイズ信号Ｄのノイズ共分散行列Ｍ及びターゲット音声信号の振幅Ｓが存在する。説明を容易にするために、本発明者らは、第２のモデルにおける未知パラメータのノイズ信号Ｄのノイズ共分散行列ＭをＭ_２と定義する。計算装置２４０は、最適化方法に基づいて、第１のモデル及び第２のモデルをそれぞれ最適化し、未知パラメータＭ＿１の第１の推定値
、Ｍ_２の第２の推定値
及びターゲット音声信号の振幅Ｓの推定値
を確定することができる。

第１の態様によれば、計算装置２４０は、尤度関数の観点からトリガされ、尤度関数の最大化を最適化目標として、前記第１のモデル及び第２のモデルのそれぞれに対して最適化設計を行うことができる。別の態様によれば、前述のように、カラードノイズ信号ｃ_ｋに対応するノイズ共分散行列Ｍ_ｃが、低ランク特性を有し、低ランク半正定値行列であるため、ノイズ信号ｄ_ｋのノイズ共分散行列Ｍも低ランク特性を有する。特に、非フル観測信号の場合、非フル観測信号の再配列中に、依然としてノイズ信号ｄ_ｋのノイズ共分散行列Ｍの低ランク特性を維持する必要がある。そのため、計算装置２４０は、ノイズ信号ｄ_ｋのノイズ共分散行列Ｍの低ランク特性に基づいて、ノイズ共分散行列Ｍのランク最小化を最適化目標として、前記第１のモデル及び第２のモデルのそれぞれに対して最適化設計を行うことができる。そのため、計算装置２４０は、尤度関数の最大化及びノイズ共分散行列のランク最小化を共同最適化目標として、前記第１のモデル及び前記第２のモデルをそれぞれ最適化して、未知パラメータＭ_１の第１の推定値
、Ｍ_２の第２の推定値
及びターゲット音声信号の振幅Ｓの推定値
を確定することができる。

図６は、本明細書の実施例による反復最適化のフローチャートを示した。図６に示されるのはステップＳ１４０である。図６に示すように、ステップＳ１４０は以下を含んでもよい。

Ｓ１４２：マイクロホン信号Ｘをサンプルデータとして、第１のモデルに対応する第１の尤度関数Ｌ_１（Ｍ_１）を確立する。

前記尤度関数は前記第１の尤度関数Ｌ_１（Ｍ_１）を含む。式（１１）～（１３）によれば、第１の尤度関数Ｌ_１（Ｍ_１）は以下の式で表されてもよい。

ここで、式（１７）は、フル観測信号及び非フル観測信号のそれぞれにおける第１の尤度関数Ｌ_１（Ｍ_１）を表す。
はパラメータＭ_１の最大尤度推定を表す。
及び
は、第１のモデルにおいて、パラメータ
が与えられた後、マイクロホン信号Ｘが現れる確率を表す。

Ｓ１４４：第１の尤度関数Ｌ_１（Ｍ_１）の最大化及び第１のモデルのノイズ共分散行列Ｍ_１のランクＲａｎｋ（Ｍ_１）最小化を最適化目標として、前記第１のモデルを最適化し、Ｍ_１の第１の推定値
を確定する。

第１の尤度関数Ｌ_１（Ｍ_１）の最大化は、ｍｉｎ（－ｌｏｇ（Ｌ_１（Ｍ_１）））として表されてもよい。第１のモデルのノイズ共分散行列Ｍ_１のランクＲａｎｋ（Ｍ_１）最小化はｍｉｎ（Ｒａｎｋ（Ｍ_１））として表されてもよい。前述のように、本発明者らは、ホワイトノイズ信号ｎ_ｋのノイズ共分散行列δ_０ ^２Ｉ_ｎが既知であることを例として説明し、式（７）から分かったように、第１のモデルのノイズ共分散行列Ｍ_１のランク最小化は、カラードノイズ信号Ｃのノイズ共分散行列Ｍ_ｃ最小化ｍｉｎ（Ｒａｎｋ（Ｍ_ｃ））として表されてもよい。そのため、最適化目標のターゲット関数は以下の式で表されてもよい。

ここで、γは正則化係数である。行列ランク最小化は、核ノルム最小化問題に緩和され得る。そのため、式（１８）によれば、以下の式で表されてもよい。

第１のモデルの反復拘束条件は以下の式で表されてもよい。

ここで、Ｍ_ｃ≧０はカラードノイズ信号Ｃのノイズ共分散行列Ｍ_ｃの正定値拘束である。第１のモデルの最適化問題は以下の式で表されてもよい。

前記ターゲット関数及び拘束条件を確定した後、計算装置２４０は、前記ターゲット関数を最適化目標として、前記第１のモデルの未知パラメータＭ_１に対して反復最適化を行うことによって、第１のモデルのノイズ共分散行列Ｍ_１の第１の推定値（
を確定することができる。

式（２１）は半正定値計画問題であり、計算装置２４０は複数のアルゴリズムによって解くことができる。例えば、勾配投影アルゴリズムを用いてもよい。具体的には、勾配投影アルゴリズムの各反復において、本発明者らは、まずいかなる拘束も課さずに勾配法によって式（１９）を解き、次に得られた解を半正定値錐上に投影し、行列の半正定値拘束条件式（２０）を満たすようにする。

図６に示すように、ステップＳ１４０は以下をさらに含んでもよい。
Ｓ１４６：マイクロホン信号Ｘをサンプルデータとして、第２のモデルの第２の尤度関数Ｌ_２（Ｓ，Ｍ_２）を確立する。

前記尤度関数は第２の尤度関数Ｌ_２（Ｓ，Ｍ_２）を含む。式（１４）～（１６）によれば、第２の尤度関数Ｌ_２（Ｓ，Ｍ_２）は以下の式で表されてもよい。

ここで、式（２２）は、フル観測信号及び非フル観測信号のそれぞれにおける第２の尤度関数を表す。
はパラメータＳ及びＭ_２の最大尤度推定を表す。
及び
はそれぞれ、第２のモデルにおいて、パラメータＳ及びＭ_２が与えられた後、マイクロホン信号Ｘが現れる確率を表す。

Ｓ１４８：第２の尤度関数Ｌ_２（Ｓ，Ｍ_２）の最大化及び第２のモデルのノイズ共分散行列Ｍ_２のランクＲａｎｋ（Ｍ_２）最小化を最適化目標として、前記第２のモデルを最適化し、Ｍ_２の第２の推定値
及びターゲット音声信号の振幅Ｓの推定値
を確定する。

第２の尤度関数Ｌ_２（Ｓ，Ｍ_２）の最大化は、ｍｉｎ（－ｌｏｇ（Ｌ_２（Ｓ，Ｍ_２）））として表されてもよい。第２のモデルのノイズ共分散行列Ｍ_２のランクＲａｎｋ（Ｍ_２）最小化はｍｉｎ（Ｒａｎｋ（Ｍ_２））として表されてもよい。前述のように、本発明者らは、ホワイトノイズ信号ｎ_ｋのノイズ共分散行列δ_０ ^２Ｉ_ｎが既知であることを例として説明し、式（７）から分かったように、第２のモデルのノイズ共分散行列Ｍ_２のランクＲａｎｋ（Ｍ_２）最小化は、カラードノイズ信号Ｃのノイズ共分散行列Ｍ_ｃ最小化ｍｉｎ（Ｒａｎｋ（Ｍ_ｃ））として表されてもよい。そのため、最適化目標のターゲット関数は以下の式で表されてもよい。

ここで、γは正則化係数である。行列ランク最小化は、核ノルム最小化問題に緩和され得る。そのため、式（２３）によれば、以下の式で表されてもよい。

第２のモデルの反復拘束条件は以下の式で表されてもよい。

ここで、Ｍ_ｃ≧０はカラードノイズ信号Ｃのノイズ共分散行列Ｍ_ｃの正定値拘束である。第２のモデルの最適化問題は以下の式で表されてもよい。

前記ターゲット関数及び拘束条件を確定した後、計算装置２４０は、前記ターゲット関数を最適化目標として、前記第２のモデルの未知パラメータＭ_２及びＳに対して反復最適化を行うことによって、第２のモデルのノイズ共分散行列Ｍ_２の第２の推定値
及びターゲット音声信号の振幅Ｓの推定値
を確定することができる。

式（２６）は半正定値計画問題であり、計算装置２４０は複数のアルゴリズムによって解くことができる。例えば、勾配投影アルゴリズムを用いてもよい。具体的には、勾配投影アルゴリズムの各反復において、本発明者らは、まずいかなる拘束も課さずに勾配法によって式（２４）を解き、次に得られた解を半正定値錐上に投影し、行列の半正定値拘束条件式（２５）を満たすようにする。

以上のように、前記方法Ｐ１００は、尤度関数の最大化及びノイズ共分散行列のランク最小化を共同最適化目標として、第１のモデル及び第２のモデルをそれぞれ最適化して、未知パラメータＭ_１の第１の推定値
及びＭ_２の第２の推定値
を確定することによって、Ｍ_１及びＭ_２の推定精度をより高くし、後続の統計的仮説検定のために精度のより高いデータモデルを提供し、それによって音声活動検出の正確性及び音声強調効果を向上させることができる。

図３に示すように、前記方法Ｐ１００は以下をさらに含んでもよい。
Ｓ１６０：統計的仮説検定に基づいて、マイクロホン信号Ｘに対応するターゲットモデル及びノイズ共分散行列Ｍを確定する。

ターゲットモデルは第１のモデル及び第２のモデルのうちの一つを含む。マイクロホン信号Ｘのノイズ共分散行列Ｍは、ターゲットモデルのノイズ共分散行列である。マイクロホン信号Ｘのターゲットモデルが第１のモデルである場合、マイクロホン信号Ｘのノイズ共分散行列
である。マイクロホン信号Ｘのターゲットモデルが第２のモデルである場合、マイクロホン信号Ｘのノイズ共分散行列
である。

計算装置２４０は、統計的仮説検定の方法に基づいて、マイクロホン信号Ｘが第１のモデルを満たすか第２のモデルを満たすかを確定することによって、マイクロホン信号Ｘにはターゲット音声信号が存在するか否かを確定することができる。

図７は、本明細書の実施例によるターゲットモデルの確定のフローチャートを示した。図７に示されるフローチャートはステップＳ１６０である。

図７に示すように、ステップＳ１６０は以下を含んでもよい。
Ｓ１６２：マイクロホン信号Ｘに基づいて、二値仮説検定モデルを確立する。

ここで、前記二値仮説検定モデルの帰無仮説Ｈ_０は、マイクロホン信号Ｘにはターゲット音声信号が存在しないこと、即ちマイクロホン信号Ｘが第１のモデルを満たすことであってもよい。前記二値仮説検定モデルの対立仮説Ｈ_１は、マイクロホン信号Ｘにはターゲット音声信号が存在すること、即ちマイクロホン信号Ｘが第２のモデルを満たすことであってもよい。前記二値仮説検定モデルは以下の式で表されてもよい。

ここで、式（２７）におけるマイクロホン信号Ｘはフル観測信号である。式（２８）におけるマイクロホン信号Ｘは非フル観測信号である。

Ｓ１６４：前記第１の推定値
、前記第２の推定値
及び前記振幅Ｓの推定値
を前記二値仮説検定モデルの検出器の判定基準に代入し、検定統計量ψ取得する。

前記検出器は、任意の一つ又は複数の検出器であってもよい。いくつかの実施例において、前記検出器は、ＧＬＲＴ検出器、Ｒａｏチェッカー及びＷａｌｄチェッカーのうちの一つ又は複数であってもよい。いくつかの実施例において、前記検出器はまた、ｕ－チェッカー、ｔチェッカー、χ２チェッカー（カイ二乗検定）、Ｆ－チェッカー、順位和検出器などであってもよい。異なる検出器は、その検定統計量ψが異なる。

ＧＬＲＴ検出器（ＧｅｎｅｒａｌｉｚｅｄＬｉｋｅｌｉｈｏｏｄＲａｔｉｏＴｅｓｔ、一般化尤度比検定）を例として説明する。マイクロホン信号Ｘがフル観測信号である場合、ＧＬＲＴ検出器において、検定統計量ψは以下の式で表されてもよい。

ここで、
及び
は、それぞれ帰無仮説Ｈ_０及び対立仮説Ｈ_１における尤度関数である。
であり、
である。

マイクロホン信号Ｘが非フル観測信号である場合、ＧＬＲＴ検出器において、検定統計量ψは以下の式で表されてもよい。

ＧＬＲＴ検出器において、帰無仮説Ｈ_０及び対立仮説Ｈ_１における未知パラメータ
をともに推定する必要があり、推定対象パラメータが多い。それに対して、Ｒａｏ検出器において、帰無仮説Ｈ_０における未知パラメータ
のみを推定すればよい。フレーム数がＫである場合、Ｒａｏ検定は、ＧＬＲＴ検出器と同じ検出機能を有する。フレーム数Ｋが限られる場合、Ｒａｏチェッカーは、ＧＬＲＴ検出器と同じ検出機能を達成することができないが、計算がより簡便であり、対立仮説Ｈ_１における未知パラメータの求解が困難である場合により適するという利点を有する。

そのため、実際のシステムの検出性能、計算複雑度に対する等化要求に対して、計算装置２４０は、前述のＧＬＲＴ検出器に基づいてＲａｏ検出器を提案した。非フル観測信号を例として、Ｒａｏ検出器の検定統計量ψは以下の式で表されてもよい。

ここで、ｆ（Ｘ_１，Ｘ_２，・・・，Ｘ_Ｇ│θ，Ｍ）は、対立仮説Ｈ_１における確率密度関数を表す。Ｍ＝Ｍ_２である。θ_ｒ＝［ＰＳ_Ｒ，１’，ＰＳ_Ｒ，２’，・・・，ＰＳ_Ｒ，Ｍ’，ＰＳ_Ｌ，１’，ＰＳ_Ｌ，２’，・・・，ＰＳ_Ｌ，Ｍ’］^Ｔである。ここで、ＰＳ_Ｒ，ｍは、ターゲット音声信号の、ｍ番目のマイクロホン２２２のオーディオ信号での振幅の実部である。ＰＳ_Ｌ，ｍは、ターゲット音声信号の、ｍ番目のマイクロホン２２２のオーディオ信号での振幅の虚部である。ｍ＝１，２，・・・，Ｍである。θ_ｒは２Ｍ次元のベクトルである。θ＝［θ_ｒ ^Ｔ θ_Ｓ ^Ｔ］^Ｔであり、ここで、θ_ｓは、余分なパラメータを含む実ベクトルである。Ｍ非対角成分の実部及び虚部並びに対角成分を含む。式（３１）は、以下の式に簡略化され得る。
ここで、Ｍｇ＝Ｑ_ｇＭＱ_ｇ ^Ｔである。

式（３２）において、帰無仮説Ｈ_０における未知パラメータ
の推定量
が求まれば、Ｒａｏ検定の検定統計量ψを取得することができる。

Ｓ１６６：前記検定統計量ψに基づいて、マイクロホン信号Ｘのターゲットモデルを判断する。

具体的には、ステップＳ１６６は、
Ｓ１６６－２：検定統計量ψが予め設定された判定閾値ηより大きいことを確定し、マイクロホン信号Ｘにはターゲット音声信号が存在すると判定し、ターゲットモデルが第２のモデルであり、前記マイクロホン信号のノイズ共分散行列が前記第２の推定値
であることを確定すること、又は
Ｓ１６６－４：検定統計量ψが予め設定された判定閾値ηより小さいことを確定し、マイクロホン信号Ｘにはターゲット音声信号が存在しないと判定し、ターゲットモデルが前記第１のモデルであり、前記マイクロホン信号のノイズ共分散行列が前記第１の推定値
であることを確定することを含んでもよい。

ステップＳ１６６は以下の式で表されてもよい。

判定閾値ηは、誤警報確率に関連するパラメータである。前記誤警報確率は、実験によって取得することができ、機械学習によって取得することもでき、さらに経験によって取得することもできる。

図３に示すように、前記方法Ｐ１００は、
Ｓ１８０：マイクロホン信号Ｘのターゲットモード及びノイズ共分散行列Ｍを出力することをさらに含んでもよい。

計算装置２４０は、マイクロホン信号Ｘのターゲットモード及びノイズ共分散行列Ｍを、音声強調モジュールなどのような他の計算モジュールに出力することができる。

以上のように、本明細書による音声活動検出システム及び方法Ｐ１００において、計算装置２４０は、尤度関数の最大化及びノイズ共分散行列のランク最小化を共同最適化目標として、第１のモデル及び第２のモデルをそれぞれ最適化して、未知パラメータＭ_１の第１の推定値
及びＭ_２の第２の推定値
を確定することによって、Ｍ_１及びＭ_２の推定精度をより高くし、後続の統計的仮説検定のために精度のより高いデータモデルを提供し、それによって音声活動検出の正確性及び音声強調効果を向上させることができる。

本明細書は、音声強調システムをさらに提供する。音声強調システムも電子機器２００に用いることができる。いくつかの実施例において、音声強調システムは、計算装置２４０を含んでもよい。いくつかの実施例において、音声強調システムは、計算装置２４０に用いることができる。即ち音声強調システムは、計算装置２４０上で作動することができる。音声強調システムは、データ情報処理機能を有するハードウェア機器と、該ハードウェア機器の動作を駆動するために必要なプログラムとを含んでもよい。無論、音声強調システムはまた、データ処理機能を有するハードウェア機器のみであってもよく、又は、ハードウェア機器で作動するプログラムのみであってもよい。

音声強調システムは、本明細書に記述されている音声強調方法を実行するデータ又は命令を記憶することができ、前記データ及び／又は命令を実行することもできる。音声強調システムが計算装置２４０上で作動する場合、音声強調システムは、前記通信接続に基づいてマイクロホンアレイ２２０から前記マイクロホン信号を取得し、本明細書に記述されている音声強調方法のデータ又は命令を実行することができる。前記音声強調方法は、本明細書の他の部分で紹介される。例えば、前記音声強調方法は、図８の説明において紹介されている。

音声強調システムが計算装置２４０上で作動する場合、前記音声強調システムはマイクロホンアレイ２２０と通信接続される。記憶媒体２４３は、前記データ記憶装置に記憶されている、前記マイクロホン信号に対して音声強調計算を行うための少なくとも一つの命令セットをさらに含んでもよい。前記命令は、コンピュータプログラムコードであり、前記コンピュータプログラムコードは、本明細書による音声強調方法を実行するプログラム、ルーチン、オブジェクト、コンポーネント、データ構造、プロセス、モジュールなどを含んでもよい。プロセッサ２４２は、前記少なくとも一つの命令セットを読み取り、且つ前記少なくとも一つの命令セットの指示に従って本明細書による音声強調方法を実行することができる。プロセッサ２４２は、音声強調方法に含まれる全てのステップを実行することができる。

図８は、本明細書の実施例による音声強調方法Ｐ２００のフローチャートを示した。前記方法Ｐ２００は、前記マイクロホン信号に対して音声強調を行うことができる。具体的には、プロセッサ２４２は前記方法Ｐ２００を実行することができる。図９に示すように、前記方法Ｐ２００は以下を含んでもよい。

Ｓ２２０：前記Ｍ個のマイクロホンにより出力されたマイクロホン信号Ｘを取得する。
ステップＳ１２０に記載されているとおりであり、ここでは説明を省略する。

Ｓ２４０：前記音声活動検出方法Ｐ１００に基づいて、マイクロホン信号Ｘのターゲットモデル及びマイクロホン信号Ｘのノイズ共分散行列Ｍを確定する。

マイクロホン信号Ｘのノイズ共分散行列Ｍは、ターゲットモデルのノイズ共分散行列である。マイクロホン信号Ｘのターゲットモデルが第１のモデルである場合、マイクロホン信号Ｘのノイズ共分散行列
である。マイクロホン信号Ｘのターゲットモデルが第２のモデルである場合、マイクロホン信号Ｘのノイズ共分散行列
である。

Ｓ２６０：ＭＶＤＲ方法及び前記マイクロホン信号Ｘのノイズ共分散行列Ｍに基づいて、マイクロホン信号に対応するフィルタリング係数ωを確定する。

フィルタリング係数ωは、Ｍ×１次元のベクトルであってもよい。フィルタリング係数ωは以下の式で表されてもよい。

ここで、ｍ番目の及びマイクロホン２２２に対応するフィルタリング係数はω_ｍである。ｍ＝１，２，・・・，Ｍである。

フィルタリング係数ωは以下の式で表されてもよい。

前述のように、Ｐはターゲット音声信号のターゲットステアリングベクトルである。いくつかの実施例において、Ｐは既知である。

Ｓ２８０：前記フィルタリング係数に基づいてマイクロホン信号Ｘを統合し、ターゲットオーディオ信号ｙ_ｋを出力する。

ターゲットオーディオ信号Ｙは以下の式で表されてもよい。

計算装置２４０は、ターゲットオーディオ信号Ｙを、遠隔通話機器のような他の電子機器に出力することができる。

以上のように、本明細書による音声活動検出システム及び方法Ｐ１００、音声強調システム及び方法Ｐ２００は、複数のマイクロホン２２２からなるマイクロホンアレイ２２０に用いられる。前記音声活動検出システム及び方法Ｐ１００、音声強調システム及び方法Ｐ２００は、マイクロホンアレイ２２０により収集されたマイクロホン信号Ｘを取得することができる。マイクロホン信号Ｘは、ノイズ信号に対応する第１のモデルであってもよいし、ターゲット音声信号と前記ノイズ信号との組み合わせに対応する第２のモデルであってもよい。前記音声活動検出システム及び方法Ｐ１００、音声強調システム及び方法Ｐ２００は、マイクロホン信号Ｘをサンプルとし、尤度関数の最大化及びマイクロホン信号Ｘのノイズ共分散行列Ｍのランク最小化を共同最適化目標として、第１のモデル及び第２のモデルをそれぞれ最適化し、第１のモデルのノイズ共分散行列Ｍ_１の第１の推定値
及び第２のモデルのノイズ共分散行列Ｍ_２の第２の推定値
を確定し、統計的仮説検定の方法により、マイクロホン信号Ｘが第１のモデルを満たすか第２のモデルを満たすかを判断することによって、マイクロホン信号Ｘにはターゲット音声信号が存在するか否かを確定し、マイクロホン信号Ｘのノイズ共分散行列Ｍを確定し、さらにＭＶＤＲ方法に基づいてマイクロホン信号Ｘに対して音声強調を行うことができる。前記音声活動検出システム及び方法Ｐ１００、音声強調システム及び方法Ｐ２００は、ノイズ共分散行列Ｍの推定精度及び音声活動検出の正確度をより高くし、さらに音声強調効果を向上させることができる。

本明細書の別の態様は、非一時的な記憶媒体を提供し、音声活動検出のための実行可能な命令の少なくとも一つのセットが記憶されており、前記実行可能な命令は、プロセッサにより実行される場合、本明細書に記載の音声活動検出方法Ｐ１００のステップを実施するように前記プロセッサに指示する。いくつかの可能な実施形態において、本明細書の各態様はさらに、プログラムコードを含むプログラムプロダクトの形態で実現され得る。前記プログラムプロダクトが計算機器（例えば、計算装置２４０）上で作動する場合、前記プログラムコードは、本明細書に記述されている音声活動検出ステップを計算機器に実行させるためのものである。上記方法を実現するためのプログラムプロダクトは、携帯型コンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）を用いてもよく、プログラムコードを含み、計算機器上で作動可能である。しかしながら、本明細書のプログラムプロダクトは、これに限定されるものではなく、本明細書では、可読記憶媒体は、プログラムを含むか又は記憶する任意の有形媒体であってもよく、該プログラムは、命令実行システム（例えば、プロセッサ２４２）によって使用されてもよく、又はそれと組み合わせて使用されてもよい。前記プログラムプロダクトは、一つ又は複数の可読媒体の任意の組み合わせを用い得る。可読媒体は、可読信号媒体又は可読記憶媒体であってもよい。可読記憶媒体は、例えば、電気、磁気、光学、電磁、赤外線、又は半導体のシステム、装置もしくはデバイス、又は以上の任意の組み合わせであってもよいが、これらに限定されない。可読記憶媒体は、更なる具体例として、一つ又は複数の導線を有する電気接続、携帯型ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、携帯型コンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、光学メモリデバイス、磁気メモリデバイス、又はこれらの任意の適切な組み合わせを含む。前記コンピュータ可読記憶媒体は、ベースバンドで又は搬送波の一部として伝搬され、可読性のプログラムコードが搭載されるデータ信号を含んでもよい。このように伝搬されるデータ信号は、電磁信号、光信号、又はこれらの任意の適切な組み合わせなどの様々な形態をとることができるが、これらに限定されない。可読記憶媒体はさらに、可読記憶媒体以外の任意の可読媒体であってもよく、該可読媒体は、命令実行システム、装置又はデバイスにより使用され、又はそれらと組み合わせて使用されるプログラムを送信、伝搬又は伝送することができる。可読記憶媒体に含まれるプログラムコードは、任意の好適な媒体で伝送することができ、無線、有線、光ケーブル、ＲＦなど、又は上記の任意の適切な組み合わせを含むが、これらに限定されない。本明細書の動作を実行するためのプログラムコードは、Ｊａｖａ、Ｃ＋＋などのようなオブジェクト指向プログラミング言語、「Ｃ」言語などのような一般的な手続き型プログラミング言語又は類似のプログラミング言語を含む一つ又は複数のプログラミング言語の任意の組み合わせで記述され得る。プログラムコードは、全部が計算機器上で実行され、一部が計算機器上で実行され、独立したソフトウェアパケットとして実行され、一部が計算機器上で一部がリモート計算機器上で実行され、又は全部がリモート計算機器上で実行され得る。

以上、本明細書の特定の実施例について説明した。他の実施例は、添付の特許請求の範囲内にある。いくつかの場合に、特許請求の範囲に記載される動作又はステップは、実施例とは異なる順序で実行されてもよく、且つ依然として所望の結果を実現することができる。また、図面に示されるプロセスは、所望の結果を実現するために、必ずしも特定の順序又は連続的な順序を示す必要はない。いくつかの実施形態において、マルチタスク処理及び並列処理も可能であり、又は有利であり得る。

以上のように、本詳細な開示内容を読めば、当業者であれば分かるように、前記の詳細な開示内容は、単なる例として提示され得、且つ限定的なものではなくてもよい。ここでは明記されていないが、当業者であれば理解できるように、本明細書は、実施例に対する様々な合理的な変更、改良、及び修正を網羅する必要がある。これらの変更、改良、及び修正は、本明細書によって提示されることを意図しており、且つ本明細書の例示的な実施例の精神及び範囲内にある。

なお、本明細書におけるいくつかの用語は、本明細書の実施例を説明するために用いられている。例えば、「一実施例」、「実施例」及び／又は「いくつかの実施例」は、該実施例に関連して説明された特定の特徴、構造又は特性が、本明細書の少なくとも一つの実施例に含まれ得ることを意味する。そのため、本明細書の各部分において、「実施例」又は「一実施例」又は「代替実施例」に対する二つ以上の引用が必ずしも同じ実施例を指すとは限らないことは、強調され理解されるべきである。なお、特定の特徴、構造又は特性は、本明細書の一つ又は複数の実施例において好適に組み合わされてもよい。

理解すべきこととして、本明細書の実施例の前記の説明において、一つの特徴の理解を容易にするために、本明細書は、本明細書を簡略化する目的で、様々な特徴を単一の実施例、図面又はそれらの説明に組み合わせる。しかしながら、これらの特徴の組み合わせが必須であるとは言えず、当業者は、本明細書を読む時に、そのうちの一部の特徴を抽出して単独の実施例として理解することが十分に可能である。つまり、本明細書における実施例は、複数の二次的実施例の統合として理解され得る。各二次的実施例の内容は、前述の開示された単一の実施例の全ての特徴よりも少ない場合にも成立する。

本明細書に引用される各特許、特許出願、特許出願の刊行物、及び他の資料、例えば、記事、書籍、明細書、刊行物、文書、物品などは、参照によりここに組み込まれ得る。あらゆる目的のための全ての内容は、それに関連する任意の訴求書履歴、本文書と一致しないかもしくは矛盾する任意の同一の訴求書履歴、又は請求項の最も広い範囲に対する制限効果を有する任意の同一の訴求書履歴を除いて、現在又は今後、本文書と関連付けられる。例えば、含まれる任意の資料に関連する用語の説明、定義及び／又は使用と、本文書の関連する用語の説明、定義及び／又は使用との間にいずれかの不一致又は矛盾が存在する場合には、本文書における用語が優先して適用するものとする。

最後に、本明細書に開示された出願の実施形態は、本明細書の実施形態の原理についての説明であることを理解されたい。他の修正された実施例も本明細書の範囲内にある。そのため、本明細書に開示された実施例は、単なる例に過ぎず、限定するものではない。当業者は、本明細書における実施例に基づいて、代替的な構成を用いて本明細書における出願を実現することができる。そのため、本明細書の実施例は、出願において正確に説明された実施例に限定されない。

Claims

音声活動検出方法であって、予め設定されたアレイ形状に分布しているＭ個のマイクロホンに用いられ、前記Ｍは１より大きい整数であり、
ターゲット音声信号に対応する第１のモデルが存在しないか又はターゲット音声信号に対応する第２のモデルが存在することを満たす、前記Ｍ個のマイクロホンにより出力されたマイクロホン信号を取得することと、
尤度関数の最大化及びノイズ共分散行列のランク最小化を共同最適化目標として、前記第１のモデル及び前記第２のモデルをそれぞれ最適化し、前記第１のモデルのノイズ共分散行列の第１の推定値及び前記第２のモデルのノイズ共分散行列の第２の推定値を確定することと、
統計的仮説検定に基づいて、前記マイクロホン信号に対応するターゲットモデル及びノイズ共分散行列を確定することと、を含み、前記ターゲットモデルは前記第１のモデル及び前記第２のモデルのうちの一つを含み、前記マイクロホン信号のノイズ共分散行列は前記ターゲットモデルのノイズ共分散行列である、ことを特徴とする音声活動検出方法。
前記マイクロホン信号はＫフレームの連続したオーディオ信号を含み、前記Ｋは１より大きい正整数であり、前記マイクロホン信号はＭ×Ｋのデータ行列を含む、ことを特徴とする請求項１に記載の音声活動検出方法。
前記マイクロホン信号は、フル観測信号又は非フル観測信号であり、前記フル観測信号において前記Ｍ×Ｋのデータ行列中の全てのデータが完全であり、前記非フル観測信号において前記Ｍ×Ｋのデータ行列中の一部のデータが欠落しており、前記マイクロホン信号が前記非フル観測信号である場合、前記の、前記Ｍ個のマイクロホンにより出力されたマイクロホン信号を取得することは、
前記非フル観測信号を取得することと、
前記Ｍ×Ｋのデータ行列の各列におけるデータ欠落位置に基づいて、前記マイクロホン信号に対して行置換及び列置換を行い、前記マイクロホン信号を少なくとも一つのサブマイクロホン信号に分割することと、を含み、前記マイクロホン信号は前記少なくとも一つのサブマイクロホン信号を含む、ことを特徴とする請求項２に記載の音声活動検出方法。
前記の、尤度関数の最大化及びノイズ共分散行列のランク最小化を共同最適化目標として、前記第１のモデル及び前記第２のモデルをそれぞれ最適化することは、
前記マイクロホン信号をサンプルデータとして、前記第１のモデルに対応する、前記尤度関数に含まれる第１の尤度関数を確立することと、
前記第１の尤度関数の最大化及び前記第１のモデルのノイズ共分散行列のランク最小化を最適化目標として、前記第１のモデルを最適化し、前記第１の推定値を確定することと、
前記マイクロホン信号をサンプルデータとして、前記第２のモデルの、前記尤度関数に含まれる第２の尤度関数を確立することと、
前記第２の尤度関数の最大化及び前記第２のモデルのノイズ共分散行列のランク最小化を最適化目標として、前記第２のモデルを最適化し、前記第２の推定値及び前記ターゲット音声信号の振幅推定値を確定することと、を含む、ことを特徴とする請求項１に記載の音声活動検出方法。
前記マイクロホン信号は、ガウス分布に従うノイズ信号を含み、前記ノイズ信号は少なくとも、
ゼロ平均ガウス分布に従い、対応するノイズ共分散行列が低ランク半正定値行列であるカラードノイズ信号を含む、ことを特徴とする請求項４に記載の音声活動検出方法。
前記の、統計的仮説検定に基づいて、前記マイクロホン信号に対応するターゲットモデル及びノイズ共分散行列を確定することは、
前記マイクロホン信号に基づいて、二値仮説検定モデルを確立することであって、ここで、前記二値仮説検定モデルの帰無仮説は、前記マイクロホン信号が前記第１のモデルを満たすことを含み、前記二値仮説検定モデルの対立仮説は、前記マイクロホン信号が前記第２のモデルを満たすことを含むことと、
前記第１の推定値、前記第２の推定値及び前記振幅推定値を前記二値仮説検定モデルの検出器の判定基準に代入し、検定統計量を取得することと、
前記検定統計量に基づいて前記マイクロホン信号の前記ターゲットモデルを判断することと、を含む、ことを特徴とする請求項１に記載の音声活動検出方法。
前記の、前記検定統計量に基づいて前記マイクロホン信号の前記ターゲットモデルを判断することは、
前記検定統計量が前記予め設定された判定閾値より大きいことを確定し、前記マイクロホン信号には前記ターゲット音声信号が存在すると判定し、前記ターゲットモデルが前記第２のモデルであり、前記マイクロホン信号のノイズ共分散行列が前記第２の推定値であることを確定すること、又は
前記検定統計量が前記予め設定された判定閾値より小さいことを確定し、前記マイクロホン信号には前記ターゲット音声信号が存在しないと判定し、前記ターゲットモデルが前記第１のモデルであり、前記マイクロホン信号のノイズ共分散行列が前記第１の推定値であることを確定することを含む、ことを特徴とする請求項６に記載の音声活動検出方法。
前記検出器は、ＧＬＲＴ検出器、Ｒａｏチェッカー及びＷａｌｄチェッカーのうちの少なくとも一つを含む、ことを特徴とする請求項６に記載の音声活動検出方法。
音声活動検出システムであって、
音声活動検出のための少なくとも一つの命令セットが記憶されている少なくとも一つの記憶媒体と、
前記少なくとも一つの記憶媒体と通信接続される少なくとも一つのプロセッサとを含み、
ここで、前記音声活動検出システムが作動する場合、前記少なくとも一つのプロセッサは、前記少なくとも一つの命令セットを読み取り、請求項１～８のいずれか一項に記載の音声活動検出方法を実施する、ことを特徴とする音声活動検出システム。
音声強調方法であって、予め設定されたアレイ形状に分布しているＭ個のマイクロホンに用いられ、前記Ｍは１より大きい整数であり、
前記Ｍ個のマイクロホンにより出力されたマイクロホン信号を取得することと、
請求項１～８のいずれか一項に記載の音声活動検出方法に基づいて、前記マイクロホン信号の前記ターゲットモデル、及び前記ターゲットモデルのノイズ共分散行列である前記マイクロホン信号のノイズ共分散行列を確定することと、
ＭＶＤＲ方法及び前記マイクロホン信号のノイズ共分散行列に基づいて、前記マイクロホン信号に対応するフィルタリング係数を確定することと、
前記フィルタリング係数に基づいて前記マイクロホン信号を統合し、ターゲットオーディオ信号を出力することとを含む、ことを特徴とする音声強調方法。
音声強調システムであって、
音声強調を行うための少なくとも一つの命令セットが記憶されている少なくとも一つの記憶媒体と、
前記少なくとも一つの記憶媒体と通信接続される少なくとも一つのプロセッサとを含み、
ここで、前記音声強調システムが作動する場合、前記少なくとも一つのプロセッサは、前記少なくとも一つの命令セットを読み取り、請求項１０に記載の音声強調方法を実施する、ことを特徴とする音声強調システム。