JP2024512927A - 音声活動検出方法、システム、音声強調方法及びシステム - Google Patents

音声活動検出方法、システム、音声強調方法及びシステム Download PDF

Info

Publication number
JP2024512927A
JP2024512927A JP2023555858A JP2023555858A JP2024512927A JP 2024512927 A JP2024512927 A JP 2024512927A JP 2023555858 A JP2023555858 A JP 2023555858A JP 2023555858 A JP2023555858 A JP 2023555858A JP 2024512927 A JP2024512927 A JP 2024512927A
Authority
JP
Japan
Prior art keywords
model
signal
microphone
microphone signal
covariance matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023555858A
Other languages
English (en)
Inventor
楽 肖
承乾 張
風云 廖
心 齊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shokz Co Ltd
Original Assignee
Shenzhen Shokz Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shokz Co Ltd filed Critical Shenzhen Shokz Co Ltd
Publication of JP2024512927A publication Critical patent/JP2024512927A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本明細書による音声活動検出方法、システム、音声強調方法及びシステムにおいて、マイクロホンアレイにより出力されたマイクロホン信号は、ノイズ信号に対応する第1のモデル、又はターゲット音声信号と前記ノイズ信号との組み合わせに対応する第2のモデルを満たす。前記方法及びシステムは、尤度関数の最大化及びノイズ共分散行列のランク最小化を共同最適化目標として、第1のモデル及び第2のモデルをそれぞれ最適化し、前記第1のモデルのノイズ共分散行列の第1の推定値及び第2のモデルのノイズ共分散行列の第2の推定値を確定し、統計的仮説検定の方法により、マイクロホン信号が第1のモデルを満たすか第2のモデルを満たすかを判断することによって、マイクロホン信号にはターゲット音声信号が存在するか否かを確定し、マイクロホン信号のノイズ共分散行列を確定し、さらにマイクロホン信号に対して音声強調を行うことができる。前記方法及びシステムは、ノイズ共分散の推定精度をより高くし、さらに音声強調効果を向上させることができる。【選択図】図3

Description

本明細書は、ターゲット音声信号処理技術分野に関し、特に音声活動検出方法、システム、音声強調方法及びシステムに関する。
ビームフォーミングアルゴリズムに基づく音声強調技術、特に最小分散無歪応答(Minimum Variance Distortionless Response、MVDRと略称される)の適応ビームフォーミングアルゴリズムにおいて、異なるマイクロホン間のノイズの統計的特性の関係を記述するパラメータ――ノイズ共分散行列をどのように解くことは極めて重要である。従来技術における主要な方法は音声存在確率の方法に基づいてノイズ共分散行列を計算し、例えば、音声活動検出方法(Voice Activity Detection、VADと略称される)により音声存在確率を推定し、さらにノイズ共分散行列を計算する。しかし、従来技術における音声存在確率の推定正確率が十分ではなく、それによりノイズ共分散行列の推定精度が低く、さらにMVDRアルゴリズムの音声強調効果が低い。特にマイクロホンの数が少なく、例えば、5個未満である場合、効果は急激に低下する。そのため、従来技術におけるMVDRアルゴリズムは、携帯電話、スマートスピーカーなどのマイクロホンの数が多く、間隔が大きいマイクロホンアレイ機器に用いられることが多いが、イヤホンのようなマイクロホンの数が少なく、間隔が小さい機器では音声強調効果が低い。
そのため、精度のより高い音声活動検出方法、システム、音声強調方法及びシステムを提供する必要がある。
本明細書は、精度のより高い音声活動検出方法、システム、音声強調方法及びシステムを提供する。
第1の態様によれば、本明細書は、音声活動検出方法を提供し、予め設定されたアレイ形状に分布しているM個のマイクロホンに用いられ、前記Mは1より大きい整数であり、前記方法は、ターゲット音声信号に対応する第1のモデルが存在しないか又はターゲット音声信号に対応する第2のモデルが存在することを満たす、前記M個のマイクロホンにより出力されたマイクロホン信号を取得することと、尤度関数の最大化及びノイズ共分散行列のランク最小化を共同最適化目標として、前記第1のモデル及び前記第2のモデルをそれぞれ最適化し、前記第1のモデルのノイズ共分散行列の第1の推定値及び前記第2のモデルのノイズ共分散行列の第2の推定値を確定することと、統計的仮説検定に基づいて、前記マイクロホン信号に対応するターゲットモデル及びノイズ共分散行列を確定することとを含み、前記ターゲットモデルは前記第1のモデル及び前記第2のモデルのうちの一つを含み、前記マイクロホン信号のノイズ共分散行列は前記ターゲットモデルのノイズ共分散行列である。
いくつかの実施例において、前記マイクロホン信号は、Kフレームの連続したオーディオ信号を含み、前記Kは1より大きい正整数であり、前記マイクロホン信号はM×Kのデータ行列を含む。
いくつかの実施例において、前記マイクロホン信号は、フル観測信号又は非フル観測信号であり、前記フル観測信号において前記M×Kのデータ行列中の全てのデータが完全であり、前記非フル観測信号において前記M×Kのデータ行列中の一部のデータが欠落しており、前記マイクロホン信号が前記非フル観測信号である場合、前記の、前記M個のマイクロホンにより出力されたマイクロホン信号を取得することは、前記非フル観測信号を取得することと、前記M×Kのデータ行列の各列におけるデータ欠落位置に基づいて、前記マイクロホン信号に対して行置換及び列置換を行い、前記マイクロホン信号を少なくとも一つのサブマイクロホン信号に分割することとを含み、前記マイクロホン信号は前記少なくとも一つサブマイクロホン信号を含む。
いくつかの実施例において、前記の、尤度関数の最大化及びノイズ共分散行列のランク最小化を共同最適化目標として、前記第1のモデル及び前記第2のモデルをそれぞれ最適化することは、前記マイクロホン信号をサンプルデータとして、前記第1のモデルに対応する、前記尤度関数に含まれる第1の尤度関数を確立することと、前記第1の尤度関数の最大化及び前記第1のモデルのノイズ共分散行列のランク最小化を最適化目標として、前記第1のモデルを最適化し、前記第1の推定値を確定することと、前記マイクロホン信号をサンプルデータとして、前記第2のモデルの、前記尤度関数に含まれる第2の尤度関数を確定することと、前記第2の尤度関数の最大化及び前記第2のモデルのノイズ共分散行列のランク最小化を最適化目標として、前記第2のモデルを最適化し、前記第2の推定値及び前記ターゲット音声信号の振幅推定値を確定することとを含む。
いくつかの実施例において、前記マイクロホン信号は、ガウス分布に従うノイズ信号を含み、前記ノイズ信号は少なくとも、ゼロ平均ガウス分布に従い、対応するノイズ共分散行列が低ランク半正定値行列であるカラードノイズ信号を含む。
いくつかの実施例において、前記の、統計的仮説検定に基づいて、前記マイクロホン信号に対応するターゲットモデル及びノイズ共分散行列を確定することは、前記マイクロホン信号に基づいて、二値仮説検定モデルを確立することであって、ここで、前記二値仮説検定モデルの帰無仮説は、前記マイクロホン信号が前記第1のモデルを満たすことを含み、前記二値仮説検定モデルの対立仮説は、前記マイクロホン信号が前記第2のモデルを満たすことを含むことと、前記第1の推定値、前記第2の推定値及び前記振幅推定値を前記二値仮説検定モデルの検出器の判定基準に代入し、検定統計量を取得することと、前記検定統計量に基づいて前記マイクロホン信号の前記ターゲットモデルを判断することとを含む。
いくつかの実施例において、前記の、前記検定統計量に基づいて前記マイクロホン信号の前記ターゲットモデルを判断することは、前記検定統計量が前記予め設定された判定閾値より大きいことを確定し、前記マイクロホン信号には前記ターゲット音声信号が存在すると判定し、前記ターゲットモデルが前記第2のモデルであり、前記マイクロホン信号のノイズ共分散行列が前記第2の推定値であることを確定すること、又は前記検定統計量が前記予め設定された判定閾値より小さいことを確定し、前記マイクロホン信号には前記ターゲット音声信号が存在しないと判定し、前記ターゲットモデルが前記第1のモデルであり、前記マイクロホン信号のノイズ共分散行列が前記第1の推定値であることを確定することを含む。
いくつかの実施例において、前記検出器は、GLRT検出器、Raoチェッカー及びWaldチェッカーのうちの少なくとも一つを含む。
第2の態様によれば、本明細書は、音声活動検出システムをさらに提供し、前記システムは、少なくとも一つの記憶媒体と少なくとも一つのプロセッサとを含み、前記少なくとも一つの記憶媒体には、音声活動検出のための少なくとも一つの命令セットが記憶されており、前記少なくとも一つのプロセッサは、前記少なくとも一つの記憶媒体と通信接続され、ここで、前記音声活動検出システムが作動する場合、前記少なくとも一つのプロセッサは、前記少なくとも一つの命令セットを読み取り、本明細書の第1の態様に記載の音声活動検出方法を実施する。
第3の態様によれば、本明細書は、音声強調方法をさらに提供し、予め設定されたアレイ形状に分布しているM個のマイクロホンに用いられ、前記Mは1より大きい整数であり、前記方法は、前記M個のマイクロホンにより出力されたマイクロホン信号を取得することと、請求項1~8のいずれか一項に記載の音声活動検出方法に基づいて、前記マイクロホン信号の前記ターゲットモデル、及び前記ターゲットモデルのノイズ共分散行列である前記マイクロホン信号のノイズ共分散行列を確定することと、MVDR方法及び前記マイクロホン信号のノイズ共分散行列に基づいて、前記マイクロホン信号に対応するフィルタリング係数を確定することと、前記フィルタリング係数に基づいて前記マイクロホン信号を統合し、ターゲットオーディオ信号を出力することとを含む。
第4の態様によれば、本明細書は、音声強調システムをさらに提供し、前記システムは、少なくとも一つの記憶媒体と少なくとも一つのプロセッサとを含み、前記少なくとも一つの記憶媒体には、音声強調を行うための少なくとも一つの命令セットが記憶されており、前記少なくとも一つのプロセッサは、前記少なくとも一つの記憶媒体と通信接続され、ここで、前記音声強調システムが作動する場合、前記少なくとも一つのプロセッサは、前記少なくとも一つの命令セットを読み取り、本明細書の第3の態様に記載の音声強調方法を実施する。
以上の技術案から分かるように、本明細書による音声活動検出方法、システム、音声強調方法及びシステムは、複数のマイクロホンからなるマイクロホンアレイに用いられる。ここで、前記マイクロホンアレイにより出力されたマイクロホン信号は、ノイズ信号に対応する第1のモデル、又はターゲット音声信号と前記ノイズ信号との組み合わせに対応する第2のモデルを満たす。前記マイクロホン信号にはターゲット音声信号が存在するか否かを取得するために、前記方法及びシステムは、尤度関数の最大化及びノイズ共分散行列のランク最小化を共同最適化目標として、第1のモデル及び第2のモデルをそれぞれ最適化し、前記第1のモデルのノイズ共分散行列の第1の推定値及び第2のモデルのノイズ共分散行列の第2の推定値を確定し、統計的仮説検定の方法により、マイクロホン信号が第1のモデルを満たすか第2のモデルを満たすかを判断することによって、マイクロホン信号にはターゲット音声信号が存在するか否かを確定し、マイクロホン信号のノイズ共分散行列を確定し、さらにMVDR方法に基づいてマイクロホン信号に対して音声強調を行うことができる。前記方法及びシステムは、ノイズ共分散の推定精度をより高くし、さらに音声強調効果を向上させることができる。
本明細書による音声活動検出方法、システム、音声強調方法及びシステムの他の機能は、以下に続く説明で部分的に記述される。説明によれば、以下の数字及び例に示される内容は、当業者にとって自明である。本明細書による音声活動検出方法、システム、音声強調方法及びシステムの創造的な態様は、以下の詳細な例に記載の方法、装置及び組み合わせの実践又は使用によって十分に解釈され得る。
本明細書の実施例における技術案をより明確に説明するために、以下では、実施例の説明で使用する必要がある図面を簡単に説明するが、明らかなことに、以下の説明における図面は、本明細書の一部の実施例に過ぎず、当業者にとっては、創造的な労力を払うことなく、これらの図面に基づいて他の図面を入手することができる。
本明細書の実施例による音声活動検出システムのハードウェア概略図である。 本明細書の実施例による電子機器の分解構造概略図である。 本明細書の実施例による第1のケースの正面図である。 本明細書の実施例による第1のケースの平面図である。 本明細書の実施例による第2のケースの正面図である。 本明細書の実施例による第2のケースの底面図である。 本明細書の実施例による音声活動検出方法のフローチャートである。 本明細書の実施例によるフル観測信号の概略図である。 本明細書の実施例による非フル観測信号の概略図である。 本明細書の実施例による非フル観測信号の再配列の概略図である。 本明細書の実施例による非フル観測信号の再配列の概略図である。 本明細書の実施例による反復最適化のフローチャートである。 本明細書の実施例によるターゲットモデルの確定のフローチャートである。 本明細書の実施例による音声強調方法のフローチャートである。
以下の説明は、当業者が本明細書における内容を作成及び使用することを可能にするために、本明細書の特定の適用シーンと要件を提供した。開示された実施例に対する様々な部分的な修正は、当業者にとって明らかであり、且つここで定義された一般原理は、本明細書の精神及び範囲から逸脱することなく、他の実施例及び用途に適用され得る。そのため、本明細書は、示された実施例に限定されるものではなく、請求項と一致する最も広い範囲である。
ここで使用される用語は、特定の例示的な実施例を説明する目的のためだけのものであり、限定するものではない。例えば、文脈が別途明確に指示しない限り、ここで使用される単数形「一」、「一つ」及び「該」は、複数形を含むものでもあり得る。本明細書で使用される場合、「含む」、「包含」及び/又は「含有」という用語は、関連する整数、ステップ、動作、要素及び/又はコンポーネントの存在を意味するが、一つ又は複数の他の特徴、整数、ステップ、動作、要素、コンポーネント及び/又はグループの存在を排除するものではなく、又は該システム/方法に他の特徴、整数、ステップ、動作、要素、コンポーネント及び/又はグループが追加されてもよい。
以下の説明を考慮すると、本明細書のこれらの特徴及び他の特徴、並びに構造の関連素子の動作及び機能、並びに部品の組み合わせ及び製造の経済性を明らかに向上させることができる。図面を参照すると、その全ては本明細書の一部を形成する。しかしながら、図面は、例示及び説明のみを目的とし、本明細書の範囲を限定することを意図していないことが明確に理解されるべきである。図面は縮尺どおりに描かれていないことも理解されるべきである。
本明細書で使用されるフローチャートは、本明細書のいくつかの実施例によるシステム実現の動作を示す。フローチャートの動作は順序を違えて実現され得ることが明確に理解されるべきである。逆に、動作は、逆順で、又は同時に実現され得る。なお、フローチャートに一つ又は複数の他の動作を追加してもよい。フローチャートから一つ又は複数の動作を除去してもよい。
説明を容易にするために、まず、本明細書に現れる用語を以下のように説明する。
<統計的仮説検定>
ある仮説条件に基づいて、サンプルから母集団を推定する数理統計学方法である。具体的なやり方は以下のとおりである:問題の需要に応じて、研究する母集団に対して何らかの仮説を立て、帰無仮説H_0と記し、帰無仮説H_0が成立した時に、その分布が既知となるように、適切な統計量を選択し、実測サンプルから統計量の値を計算し、予め与えられた有意性レベルに基づいて検定し、帰無仮説H_0を棄却するか又は受諾するか判断する。一般的な統計的仮説検定方法としては、u-検定法、t検定法、χ2検定法(カイ二乗検定)、F-検定法、順位和検定などがある。
<最小分散無歪応答(Minimum Variance Distortionless Response、MVDRと略称される)>
最大信号対干渉雑音比(SINR)基準に基づく適応ビームフォーミングアルゴリズムであり、MVDRアルゴリズムは、適応的に、アレイ出力の所望の方向におけるパワーを最小にするとともに、信号対干渉雑音比を最大にすることができる。記録信号の分散を最小化することを目標とする。ノイズ信号と所望の信号とが相関しなければ、記録信号の分散は所望の信号及びノイズ信号の分散の和となる。そのため、MVDRソリューションは、該総和を最小化することによって、ノイズ信号の影響を軽減することを求めている。その原理は、所望の信号に歪みがないという制約条件の下で、適切なフィルタ係数を選択し、アレイ出力の平均パワーを最小化することである。
<音声活動検出>
ターゲット音声信号から発話音声区間と非発話区間を分割する処理手順である。
<ガウス分布>
正規分布(Normal distribution)であり、「定常分布」とも呼ばれ、別名ガウス分布(Gaussian distribution)であり、正規曲線は、ベル型であり、両端が低く、中央が高く、左右対称であり、その曲線がベル型を呈するため、しばしばベル曲線と呼ばれる。ランダム変数Xは、期待値がμであり、分散がσである正規分布に従う場合、N(μ,σ)と記される。確率密度関数が正規分布であるその所望値μによりその位置が決定され、その標準偏差σにより分布の振幅が決定された。μ=0であり、σ=1である場合の正規分布は標準正規分布である。
図1は、本明細書の実施例による音声活動検出システムのハードウェア概略図を示した。音声活動検出システムは、電子機器200に用いることができる。
いくつかの実施例において、電子機器200は、無線イヤホン、有線イヤホン、スマートウェアラブルデバイス、例えば、スマートグラス、スマートヘルメット又はスマートウォッチなどのオーディオ処理機能を有する機器であってもよい。電子機器200はまた、モバイル機器、タブレットコンピュータ、ノートパソコン、自動車の内蔵装置もしくは類似のもの、又はそれらの任意の組み合わせであってもよい。いくつかの実施例において、モバイル機器は、スマートホーム機器、スマートモバイル機器もしくは類似の機器、又はそれらの任意の組み合わせを含んでもよい。例えば、前記スマートモバイル機器は、携帯電話、パーソナルデジタルアシスタント、ゲーム機器、ナビゲーション機器、ウルトラモバイルパーソナルコンピュータ(Ultra-mobile Personal Computer、UMPC)など、又はそれらの任意の組み合わせを含んでもよい。いくつかの実施例において、前記スマートホーム装置は、スマートテレビ、デスクトップコンピュータなど、又は任意の組み合わせを含んでもよい。いくつかの実施例において、自動車の内蔵装置は、車載コンピュータ、車載テレビなどを含んでもよい。
本明細書において、本発明者らは、電子機器200がイヤホンであることを例として説明する。前記イヤホンは、無線イヤホンであってもよいし、有線イヤホンであってもよい。図1に示すように、電子機器200は、マイクロホンアレイ220と計算装置240とを含んでもよい。
マイクロホンアレイ220は、電子機器200のオーディオ収集機器であってもよい。マイクロホンアレイ220は、ローカルオーディオを取得し、マイクロホン信号、つまりオーディオ情報付きの電子信号を出力するように構成されてもよい。マイクロホンアレイ220は、予め設定されたアレイ形状に分布しているM個のマイクロホン222を含んでもよい。ここで、前記Mは1より大きい整数である。M個のマイクロホン222は、均一に分布してもよいし、不均一に分布してもよい。M個のマイクロホン222は、マイクロホン信号を出力することができる。M個のマイクロホン222は、M個のマイクロホン信号を出力することができる。各マイクロホン222は、一つのマイクロホン信号に対応する。前記M個のマイクロホン信号は、前記マイクロホン信号と総称される。いくつかの実施例において、M個のマイクロホン222は線形に分布してもよい。いくつかの実施例において、M個のマイクロホン222は、他の形状のアレイ、例えば、円形アレイ、矩形アレイなどとして分布してもよい。説明を容易にするために、以下の説明では、本発明者らは、M個のマイクロホン222が線形に分布することを例として説明する。いくつかの実施例において、Mは、1より大きい任意の整数であってもよく、例えば、2、3、4、5、又はそれ以上である。いくつかの実施例において、空間的制約により、Mは、例えば、イヤホンなどの製品において、1より大きく5以下の整数であってもよい。電子機器200がイヤホンである場合、M個のマイクロホン222のうちの隣接するマイクロホン222の間隔は20mm~40mmであってもよい。いくつかの実施例において、隣接するマイクロホン222の間隔は、10mm~20mmのように、より小さくてもよい。
いくつかの実施例において、マイクロホン222は、人体振動信号を直接収集する骨伝導マイクロホンであってもよい。骨伝導マイクロホンは、振動センサ、例えば、光学式振動センサ、加速度センサなどを含んでもよい。前記振動センサは、機械的振動信号(例えば、ユーザが話している時に皮膚又は骨格により生成される振動による信号)を収集し、該機械的振動信号を電気信号に変換することができる。ここでいう機械的振動信号とは、主に固体を介して伝播する振動を指す。骨伝導マイクロホンは、前記振動センサ又は前記振動センサに接続される振動部品を介してユーザの皮膚又は骨格に接触することによって、ユーザが音声を発した時に皮膚又は骨格により生成される振動信号を収集し、振動信号を電気信号に変換する。いくつかの実施例において、前記振動センサは、機械的振動に敏感であるが空気振動に敏感でない装置であってもよい(即ち機械的振動に対する前記振動センサの応答能力は、空気振動に対する前記振動センサの応答能力を上回る)。骨伝導マイクロホンは、発声部位の振動信号を直接収音することができるため、環境ノイズの影響を低減ことができる。
いくつかの実施例において、マイクロホン222は、空气振動信号を直接収集する空気伝導マイクロホンであってもよい。空気伝導マイクロホンは、ユーザが音声を発した時に生じる空気振動信号を収集し、空気振動信号を電気信号に変換する。
いくつかの実施例において、M個のマイクロホン222は、M個の骨伝導マイクロホンであってもよい。いくつかの実施例において、M個のマイクロホン222は、M個の空気伝導マイクロホンであってもよい。いくつかの実施例において、M個のマイクロホン222は、骨伝導マイクロホンを含んでもよいし、空気伝導マイクロホンを含んでもよい。無論、マイクロホン222は、他のタイプのマイクロホンであってもよい。例えば、光学式マイクロホン、筋電位信号を受信するマイクロホンなどである。
計算装置240は、マイクロホンアレイ220と通信接続されてもよい。前記通信接続は、情報を直接又は間接的に受信できる任意の形の接続を指す。いくつかの実施例において、計算装置240は、無線通信接続を介してマイクロホンアレイ220と互いにデータを通信することができ、いくつかの実施例において、計算装置240は、電線によってマイクロホンアレイ220に直接接続されて互いにデータを通信することもでき、いくつかの実施例において、計算装置240はまた、電線によって他の回路に直接接続されてマイクロホンアレイ220との間接的な接続を確立することによって、互いの間のデータ通信を実現することができる。本明細書において、計算装置240が電線によってマイクロホンアレイ220に直接接続されることを例として説明する。
計算装置240は、データ情報処理機能を有するハードウェア機器であってもよい。いくつかの実施例において、音声活動検出システムは、計算装置240を含んでもよい。いくつかの実施例において、音声活動検出システムは、計算装置240に用いることができる。即ち音声活動検出システムは、計算装置240上で作動することができる。音声活動検出システムは、データ情報処理機能を有するハードウェア機器と、該ハードウェア機器の動作を駆動するために必要なプログラムとを含んでもよい。無論、音声活動検出システムは、データ処理機能を有するハードウェア機器のみであってもよく、又は、ハードウェア機器で作動するプログラムのみであってもよい。
音声活動検出システムは、本明細書に記述されている音声活動検出方法を実行するデータ又は命令を記憶することができ、前記データ及び/又は命令を実行することもできる。音声活動検出システムが計算装置240上で作動する場合、音声活動検出システムは、前記通信接続に基づいてマイクロホンアレイ220から前記マイクロホン信号を取得し、本明細書に記述されている音声活動検出方法のデータ又は命令を実行し、前記マイクロホン信号にはターゲット音声信号が存在するか否かを計算することができる。前記音声活動検出方法は、本明細書の他の部分で紹介される。例えば、前記音声活動検出方法は、図3~図8の説明において紹介されている。
図1に示すように、計算装置240は、少なくとも一つの記憶媒体243と、少なくとも一つのプロセッサ242とを含んでもよい。いくつかの実施例において、電子機器200は、通信ポート245と、内部通信バス241とをさらに含んでもよい。
内部通信バス241は、記憶媒体243と、プロセッサ242と、通信ポート245とを含む異なるシステムコンポーネントに接続されてもよい。
通信ポート245は、計算装置240と外部とのデータ通信に用いることができる。例えば、計算装置240は、通信ポート245を介してマイクロホンアレイ220から前記マイクロホン信号を取得することができる。
少なくとも一つの記憶媒体243は、データ記憶装置を含んでもよい。前記データ記憶装置は、非一時的な記憶媒体であってもよいし、一時的な記憶媒体であってもよい。例えば、前記データ記憶装置は、磁気ディスク、読み取り専用記憶媒体(ROM)又はランダムアクセス記憶媒体(RAM)のうちの一つ又は複数を含んでもよい。音声活動検出システムが計算装置240上で作動可能である場合、記憶媒体243は、前記データ記憶装置に記憶されている、前記マイクロホン信号に対して音声活動検出を行うための少なくとも一つの命令セットをさらに含んでもよい。前記命令は、コンピュータプログラムコードであり、前記コンピュータプログラムコードは、本明細書による音声活動検出方法を実行するプログラム、ルーチン、オブジェクト、コンポーネント、データ構造、プロセス、モジュールなどを含んでもよい。
少なくとも一つのプロセッサ242は、内部通信バス241を介して、少なくとも一つの記憶媒体243と通信接続することができる。前記通信接続は、情報を直接又は間接的に受信できる任意の形の接続を指す。少なくとも一つのプロセッサ242は、上記少なくとも一つの命令セットを実行するためのものである。音声活動検出システムが計算装置240上で作動可能である場合、少なくとも一つのプロセッサ242は、前記少なくとも一つの命令セットを読み取り、且つ前記少なくとも一つの命令セットの指示に従って本明細書による音声活動検出方法を実行する。プロセッサ242は、音声活動検出方法に含まれる全てのステップを実行することができる。プロセッサ242は、一つ又は複数のプロセッサの形態であってもよく、いくつかの実施例において、プロセッサ242は、一つ又は複数のハードウェアプロセッサ、例えば、マイクロコントローラ、マイクロプロセッサ、縮小命令セットコンピュータ(RISC)、専用集積回路(ASIC)、特定用途向け命令セットプロセッサ(ASIP)、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、物理処理ユニット(PPU)、マイクロコントローラユニット、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、アドバンスドRISCマシン(ARM)、プログラマブルロジックデバイス(PLD)、一つ又は複数の機能を実行できる任意の回路もしくはプロセッサなど、又はそれらの任意の組み合わせを含んでもよい。単に問題を説明するために、本明細書では、計算装置240には一つのプロセッサ242のみが説明されている。しかしながら、注意すべきこととして、本明細書における計算装置240は、複数のプロセッサ242をさらに含んでもよく、そのため、本明細書に開示された動作及び/又は方法ステップは、本明細書に記載されるように一つのプロセッサによって実行されてもよいし、複数のプロセッサによって共同で実行されてもよい。例えば、本明細書において、計算装置240のプロセッサ242がステップA及びステップBを実行する場合、理解すべきこととして、ステップA及びステップBは、二つの異なるプロセッサ242によって共同で又は別々に実行されてもよい(例えば、第1のプロセッサがステップAを実行し、第2のプロセッサがステップBを実行し、又は第1の及び第2のプロセッサがステップA及びBを共同で実行する)。
図2Aは、本明細書の実施例による電子機器200の分解構造概略図を示した。図2Aに示すように、電子機器200は、マイクロホンアレイ220、計算装置240、第1のケース260及び第2のケース280を含んでもよい。
第1のケース260は、マイクロホンアレイ220の実装基材であってもよい。マイクロホンアレイ220は1のケース260の内部に実装されてもよい。第1のケース260の形状は、マイクロホンアレイ220の分布形状に応じて適応的に設計されてもよく、本明細書はこれについてあまり限定しない。第2のケース280は、計算装置240の実装基材であってもよい。計算装置240は第2のケース280の内部に実装されてもよい。第2のケース280の形状は、計算装置240の形状に応じて適応的に設計されてもよく、本明細書はこれについてあまり限定しない。電子機器200がイヤホンである場合、第2のケース280は着用部位に接続されてもよい。第2のケース280は第1のケース260に接続されてもよい。前述のように、マイクロホンアレイ220は計算装置240に電気的に接続されてもよい。具体的には、マイクロホンアレイ220は、第1のケース260と第2のケース280との接続を通じて、計算装置240との電気的接続を実現することができる。
いくつかの実施例において、第1のケース260は、一体成形、溶接、かしめ接続、接着などの方式で第2のケース280に固定接続されてもよい。いくつかの実施例において、第1のケース260は、第2のケース280に取り外し可能に接続されてもよい。計算装置240は、異なるマイクロホンアレイ220と通信接続されてもよい。具体的には、異なるマイクロホンアレイ220は、マイクロホンアレイ220におけるマイクロホン222の数、アレイ形状、マイクロホン222の間隔、マイクロホンアレイ220の第1のケース260での実装角度、マイクロホンアレイ220の第1のケース260での実装位置などが異なっていてもよい。着用者は、応用シナリオの違いに応じて、対応するマイクロホンアレイ220を交換して、電子機器200をより広いシナリオに適用することができる。例えば、応用シナリオにおいて着用者と電子機器200との距離が短い場合、着用者は、間隔のより小さいマイクロホンアレイ220に交換することができる。さらに例えば、応用シナリオにおいて着用者と電子機器200との距離が長い場合、着用者は、間隔のより大きい、より多くの数のマイクロホンアレイ220に交換することができる、などが挙げられる。
前記取り外し可能な接続は、任意の形態の物理的接続、例えば、ネジ接続、スナップ式接続、磁気吸着式接続などであってもよい。いくつかの実施例において、第1のケース260と第2のケース280との間は磁気吸着接続されてもよい。即ち第1のケース260と第2のケース280との間は、磁気装置の吸着力によって取り外し可能に接続される。
図2Bは、本明細書の実施例による第1のケース260の正面図を示し、図2Cは、本明細書の実施例による第1のケース260の平面図を示した。図2B及び図2Cに示すように、第1のケース260は第1のインターフェース262を含んでもよい。いくつかの実施例において、第1のケース260はタッチポイント266をさらに含んでもよい。いくつかの実施例において、第1のケース260は角度センサ(図2B及び図2Cに図示されていない)をさらに含んでもよい。
第1のインターフェース262は、第1のケース260及び第2のケース280の実装インターフェースであってもよい。いくつかの実施例において、第1のインターフェース262は円形であってもよい。第1のインターフェース262は第2のケース280に回転可能に接続されてもよい。第1のケース260が第2のケース280上に実装される場合、第1のケース260を第2のケース280に対して回転させ、第1のケース260の第2のケース280に対する角度を調整することによって、マイクロホンアレイ220の角度を調整することができる。
第1のインターフェース262上には、第1の磁気装置263が設置されていてもよい。第1の磁気装置263は、第1のインターフェース262の第2のケース280に近い位置に設置されてもよい。第1の磁気装置263は、磁気吸着力を発生させることによって、第2のケース280との取り外し可能な接続を実現することができる。第1のケース260が第2のケース280に接近すると、前記吸着力によって、第1のケース260が第2のケース280に迅速に接続される。いくつかの実施例において、第1のケース260が第2のケース280に接続された後、第1のケース260が依然として第2のケース280に対して回転することができ、それによりマイクロホンアレイ220の角度を調整する。前記吸着力の作用により、第1のケース260が第2のケース280に対して回転しても、第1のケース260と第2のケース280との接続を維持することができる。
いくつかの実施例において、第1のインターフェース262にはさらに第1の位置決め装置(図2B及び図2Cに図示されていない)が設置されていてもよい。前記第1の位置決め装置は、外側に突起する位置決め段部であってもよいし、内側に延伸する位置決め孔であってもよい。前記第1の位置決め装置は、第2のケース280と係合して、第1のケース260と第2のケース280の迅速な実装を実現することができる。
図2B及び図2Cに示すように、いくつかの実施例において、第1のケース260はタッチポイント266をさらに含んでもよい。タッチポイント266は、第1のインターフェース262位置に実装されてもよい。タッチポイント266は、第1のインターフェース262位置から外側に突出することができる。タッチポイント266は、第1のインターフェース262に弾性的に接続されてもよい。タッチポイント266は、マイクロホンアレイ220におけるM個のマイクロホン222と通信接続することができる。タッチポイント266は、データ伝送を実現するために、弾性のある金属で製造されてもよい。第1のケース260が第2のケース280に接続される場合、マイクロホンアレイ220は、タッチポイント266を介して計算装置240との通信接続を実現することができる。いくつかの実施例において、タッチポイント266は円形に分布してもよい。第1のケース260が第2のケース280に接続された後、第1のケース260が第2のケース280に対して回転する時、タッチポイント266も第2のケース280に対して回転することができ、計算装置240との通信接続を維持する。
いくつかの実施例において、第1のケース260上にはさらに、角度センサ(図2B及び図2Cに図示されていない)が設置されていてもよい。前記角度センサは、タッチポイント266と通信接続することによって、計算装置240との通信接続を実現することができる。前記角度センサは、第1のケース260の角度データを収集することによって、マイクロホンアレイ220が位置する角度を確定し、後続の音声存在確率の計算のために基準データを提供することができる。
図2Dは、本明細書の実施例による第2のケース280の正面図を示し、図2Eは、本明細書の実施例による第2のケース280の底面図を示した。図2D及び図2Eに示すように、第2のケース280は第2のインターフェース282を含んでもよい。いくつかの実施例において、第2のケース280はガイドレール286をさらに含んでもよい。
第2のインターフェース282は、第2のケース280及び第1のケース260の実装インターフェースであってもよい。いくつかの実施例において、第2のインターフェース282は円形であってもよい。第2のインターフェース282は、第1のケース260の第1のインターフェース262に回転可能に接続されてもよい。第1のケース260が第2のケース280上に実装される場合、第1のケース260を第2のケース280に対して回転させ、第1のケース260の第2のケース280に対する角度を調整することによって、マイクロホンアレイ220の角度を調整することができる。
第2のインターフェース282上には、第2の磁気装置283が設置されていてもよい。第2の磁気装置283は、第2のインターフェース282の第1のケース260に近い位置に設置されてもよい。第2の磁気装置283は、磁気吸着力を発生させることによって、第1のインターフェース262との取り外し可能な接続を実現することができる。第2の磁気装置283は、第1の磁気装置263と係合して使用され得る。第1のケース260が第2のケース280に接近すると、第2の磁気装置283と第1の磁気装置263との間の吸着力によって、第1のケース260を第2のケース280上に迅速に実装することができる。第1のケース260が第2のケース280上に実装される場合、第2の磁気装置283は、第1の磁気装置263の位置と対向する。いくつかの実施例において、第1のケース260が第2のケース280に接続された後、第1のケース260が依然として第2のケース280に対して回転することができ、それによりマイクロホンアレイ220の角度を調整する。前記吸着力の作用により、第1のケース260が第2のケース280に対して回転しても、第1のケース260と第2のケース280との接続を維持することができる。
いくつかの実施例において、第2のインターフェース282上にはさらに、第2の位置決め装置(図2D及び図2Eに図示されていない)が設置されていてもよい。前記第2の位置決め装置は、外側に突起する位置決め段部であってもよいし、内側に延伸する位置決め孔であってもよい。前記第2の位置決め装置は、第1のケース260の第1の位置決め装置と係合して、第1のケース260と第2のケース280との迅速な実装を実現することができる。前記第1の位置決め装置が前記位置決め段部である場合、前記第2の位置決め装置は前記位置決め孔であってもよい。前記第1の位置決め装置が前記位置決め孔である場合、前記第2の位置決め装置は前記位置決め段部であってもよい。
図2D及び図2Eに示すように、いくつかの実施例において、第2のケース280はガイドレール286をさらに含んでもよい。ガイドレール286は、第2のインターフェース282位置に実装されてもよい。ガイドレール286は、計算装置240と通信接続することができる。ガイドレール286は、データ伝送を実現するために、金属材料で製造されてもよい。第1のケース260が第2のケース280に接続された場合、タッチポイント266がガイドレール286に接触して通信接続を形成することができ、それによってマイクロホンアレイ220と計算装置240との通信接続を実現して、データ伝送を実現する。前述のように、タッチポイント266は、第1のインターフェース262に弾性的に接続されてもよい。そのため、第1のケース260が第2のケース280に接続された後、前記弾性的接続の弾力作用により、タッチポイント266をガイドレール286に完全に接触させて、確実な通信接続を実現することができる。いくつかの実施例において、ガイドレール286は円形に分布してもよい。第1のケース260が第2のケース280に接続された後、第1のケース260が第2のケース280に対して回転する時、タッチポイント266もガイドレール286に対して回転することができ、ガイドレール286との通信接続を維持する。
図3は、本明細書の実施例による音声活動検出方法P100のフローチャートを示した。前記方法P100は、前記マイクロホン信号にはターゲット音声信号が存在するか否かを計算することができる。具体的には、プロセッサ242は前記方法P100を実行することができる。
図3に示すように、前記方法P100は、以下のステップを含んでもよい。
S120:M個のマイクロホン222により出力されたマイクロホン信号を取得する。
前述のように、各マイクロホン222は、いずれも対応するマイクロホン信号を出力することができる。M個のマイクロホン222はM個のマイクロホン信号に対応する。前記方法P100は、前記マイクロホン信号にはターゲット音声信号が存在するか否かを計算する場合、M個のマイクロホン信号のうちの全てマイクロホン信号に基づいて計算してもよいし、一部のマイクロホン信号に基づいて計算してもよい。そのため、前記マイクロホン信号は、M個のマイクロホン222に対応するM個のマイクロホン信号又は一部のマイクロホン信号を含んでもよい。本明細書の以下の説明において、前記マイクロホン信号がM個のマイクロホン222に対応するM個のマイクロホン信号を含み得ることを例として説明する。
いくつかの実施例において、前記マイクロホン信号は時間領域信号であってもよい。いくつかの実施例において、ステップS120において、計算装置240は、前記マイクロホン信号に対してフレーム分割及び窓処理を行って、前記マイクロホン信号を複数の連続したオーディオ信号に分割することができる。いくつかの実施例において、ステップS120において、計算装置240はさらに、前記マイクロホン信号に対して時間周波数変換を行って、前記マイクロホン信号の周波数領域信号を得ることができる。説明を容易にするために、本発明者らは、任意の周波数ポイントのマイクロホン信号をXと標識する。いくつかの実施例において、前記マイクロホン信号Xは、Kフレームの連続したオーディオ信号を含んでもよい。前記Kは、1より大きい任意の正整数である。説明を容易にするために、本発明者らは、kフレーム目のマイクロホン信号をxと標識する。kフレーム目のマイクロホン信号xは以下の式で表されてもよい。
kフレーム目のマイクロホン信号xは、M個のマイクロホン信号からなるM次元の信号ベクトルであってもよい。前記マイクロホン信号Xは、M×Kのデータ行列で表されてもよい。前記マイクロホン信号Xは以下の式で表されてもよい。
ここで、前記マイクロホン信号XはM×Kのデータ行列である。前記データ行列におけるm行目はm番目のマイクロホンにより受信されたマイクロホン信号を表し、k列目はkフレーム目のマイクロホン信号を表す。
前述のように、マイクロホン222は、周囲環境のノイズを収集しノイズ信号を出力することができ、ターゲットユーザの音声を収集し前記ターゲット音声信号を出力することもできる。ターゲットユーザが音声を発していない場合、前記マイクロホン信号は前記ノイズ信号のみを含む。ターゲットユーザが音声を発した場合、前記マイクロホン信号は、前記ターゲット音声信号と前記ノイズ信号とを含む。kフレーム目のマイクロホン信号xは以下の式で表されてもよい。
ここで、k=1,2,・・・,Kである。dはkフレーム目のマイクロホン信号xにおけるノイズ信号である。sは前記ターゲット音声信号の振幅である。Pは前記ターゲット音声信号のターゲットステアリングベクトルである。
前記マイクロホン信号Xは以下の式で表されてもよい。
ここで、Sは前記ターゲット音声信号の振幅である。S=[s,s,・・・,s]である。Dはノイズ信号である。D=[d,d,・・・,d]である。
ノイズ信号dは以下の式で表されてもよい。
kフレーム目のマイクロホン信号xにおけるノイズ信号dは、M個のマイクロホン信号からなるM次元の信号ベクトルであってもよい。
いくつかの実施例において、ノイズ信号dは、少なくともカラードノイズ信号cを含んでもよい。いくつかの実施例において、ノイズ信号dは、ホワイトノイズ信号nをさらに含んでもよい。ノイズ信号dは以下の式で表されてもよい。
そうであれば、ノイズ信号D=C+Nである。ここで、Cはカラードノイズ信号であり、C=[c,c,・・・,c]である。Nはホワイトノイズ信号であり、N=[n,n,・・・,n]である。
計算装置240は、前記ノイズ信号dの音源空間分布のクラスタリング(Cluster)特徴及びマイクロホンアレイ220パラメータ間の統一的なマッピング関係を利用して、パラメータ化クラスタリングモデルを確立し、前記ノイズ信号dの音源をクラスタリングすることによって、前記ノイズ信号dをカラードノイズ信号cとホワイトノイズ信号nに分けることができる。
いくつかの実施例において、ノイズ信号Dはガウス分布に従う。ノイズ信号d~CN(0,M)である。Mはノイズ信号dのノイズ共分散行列である。ここで、カラードノイズ信号cはゼロ平均ガウス分布に従う。即ちc~CN(0,M)。カラードノイズ信号cに対応するノイズ共分散行列Mは、低ランク特性を有し、低ランク半正定値行列である。ホワイトノイズ信号nもゼロ平均ガウス分布に従う。即ちn~CN(0,M)。ホワイトノイズ信号nのパワーはδ である。M=δ である。即ちn~CN(0,δ )。ノイズ信号dのノイズ共分散行列Mは以下の式で表されてもよい。
ノイズ信号dのノイズ共分散行列Mは、単位行列Iと低ランク半正定値行列Mとの和に分解され得る。
いくつかの実施例において、計算装置240には、ホワイトノイズ信号nのパワーδ が予め記憶されていてもよい。いくつかの実施例において、計算装置240においてホワイトノイズ信号nのパワーδ を予め推定してもよい。例えば、計算装置240は、最小値追跡、ヒストグラムなどの方式に基づいて、ホワイトノイズ信号nのパワーδ を推定することができる。いくつかの実施例において、計算装置240は、前記方法P100に基づいてホワイトノイズ信号nのパワーδ を推定することができる。
はターゲット音声信号の複素振幅である。いくつかの実施例において、マイクロホン222の周囲に一つのターゲット音声信号源が存在する。いくつかの実施例において、マイクロホン222の周囲にL個のターゲット音声信号源が存在する。この場合、sはL×1次元のベクトルであってもよい。
ターゲットステアリングベクトルPはM×L次元の行列である。ターゲットステアリングベクトルPは以下の式で表されてもよい。
ここで、fはキャリア周波数である。dは隣接するマイクロホン222の間の距離である。cは音速である。θ、・・・・・・、θは、それぞれL個のターゲット音声信号源とマイクロホン222との間の入射角度である。いくつかの実施例において、ターゲット音声信号源sの角度は、通常、特定の角度範囲内に分布する。そのため、θ、・・・・・・、θは既知である。計算装置240には、M個のマイクロホン222の相対距離又は相対座標のような相対位置関係が予め記憶されている。即ち計算装置240には、隣接するマイクロホン222の間の距離dが予め記憶されている。
図4は、本明細書の実施例によるフル観測信号の概略図を示した。いくつかの実施例において、前記マイクロホン信号Xは、図4に示すように、フル観測信号である。前記フル観測信号において、前記M×Kのデータ行列における全てのデータは完全である。図4に示すように、横方向はマイクロホン信号Xのフレーム番号kであり、縦方向はマイクロホンアレイ220におけるマイクロホン信号番号mである。m行目はm番目のマイクロホン222により受信されたマイクロホン信号を表し、k列目はkフレーム目のマイクロホン信号を表す。
図5Aは、本明細書の実施例による非フル観測信号の概略図を示した。いくつかの実施例において、前記マイクロホン信号Xは、図5Aに示すように、非フル観測信号である。前記非フル観測信号において、前記M×Kのデータ行列における一部のデータは欠落している。計算装置240は、前記非フル観測信号を再配列することができる。図5Aに示すように、横方向はマイクロホン信号Xのフレーム番号kであり、縦方向はマイクロホン信号のチャンネル番号mである。m行目はm番目のマイクロホン222により受信されたマイクロホン信号を表し、k列目はkフレーム目のマイクロホン信号を表す。
前記マイクロホン信号Xが前記非フル観測信号である場合、ステップS120は、前記非フル観測信号を再配列することをさらに含んでもよい。図5Bは、本明細書の実施例による非フル観測信号の再配列の概略図を示し、図5Cは、本明細書の実施例による非フル観測信号の再配列の概略図を示した。計算装置240が前記非フル観測信号を再配列する場合には以下のとおりであってもよい。計算装置240により前記非フル観測信号を取得し、計算装置240により、前記M×Kのデータ行列の各列におけるデータ欠落位置に応じて、前記マイクロホン信号Xに対して行置換及び列置換を行い、前記マイクロホン信号Xを少なくとも一つのサブマイクロホン信号に分割する。前記マイクロホン信号Xは、前記少なくとも一つのサブマイクロホン信号を含む。
前記非フル観測信号において、異なるフレーム番号のマイクロホン信号xにおけるデータ欠落位置が同じであり得るため、アルゴリズムの計算量及び計算時間を減少させるために、計算装置240は、異なるフレーム番号のマイクロホン信号xにおけるデータ欠落位置に応じて、Kフレームのマイクロホン信号Xを分類し、データ欠落位置が同じであるマイクロホン信号xを同じサブマイクロホン信号に分割し、マイクロホン信号Xのデータ行列中の行位置を置換して、図5Bに示すように、同じサブマイクロホン信号におけるマイクロホン信号位置を隣接させることができる。本発明者らは、Kフレーム個のマイクロホン信号Xを少なくとも一つのサブマイクロホン信号に分割する。説明を容易にするために、本発明者らは、少なくとも一つのサブマイクロホン信号の数をGと定義した。ここで、Gは1以上の正整数である。本発明者らは、g番目のサブマイクロホン信号をXと定義した。ここで、g=1,2,・・・,Gである。
計算装置240はさらに、各サブマイクロホン信号Xにおけるデータ欠落位置に応じて、マイクロホン信号Xに対して行置換を行って、図5Cに示すように、全てのサブマイクロホン信号におけるデータ欠落位置を隣接させることができる。
以上のように、非フル観測信号において、サブマイクロホン信号Xは以下の式で表されてもよい。
ここで、X=QXB であり、D=QDB であり、P=QPであり、S=BSである。行列Q、Bは、データ欠落位置により決定される、0、1要素で構成される行列である。
マイクロホン信号Xは以下の式で表されてもよい。
説明を容易にするために、以下の説明では、本発明者らは、マイクロホン信号Xが非フル観測信号であることで説明する。
前述のように、マイクロホン222は、ノイズ信号Dを収集することもできるし、ターゲット音声信号を収集することもできる。前記マイクロホン信号Xには前記ターゲット音声信号が存在しない場合、前記マイクロホン信号Xは、ノイズ信号Dに対応する第1のモデルを満たす。前記マイクロホン信号Xには前記ターゲット音声信号が存在する場合、前記マイクロホン信号は、ターゲット音声信号と前記ノイズ信号Dとの組み合わせに対応する第2のモデルを満たす。
説明を容易にするために、本発明者らは、第1のモデルを以下の式として定義する。
マイクロホン信号Xがフル観測信号である場合、第1のモデルは以下の式で表されてもよい。
マイクロホン信号Xが非フル観測信号である場合、第1のモデルは以下の式で表されてもよい。
本発明者らは、第2のモデルを以下の式として定義する。
マイクロホン信号Xがフル観測信号である場合、第2のモデルは以下の式で表されてもよい。
マイクロホン信号Xが非フル観測信号である場合、第2のモデルは以下の式で表されてもよい。
説明を容易にするために、以下の説明では、本発明者らは、マイクロホン信号Xが非フル観測信号であることを例として説明する。
図3に示すように、前記方法P100は、以下のステップを含んでもよい。
S140:尤度関数の最大化及びノイズ共分散行列のランク最小化を共同最適化目標として、前記第1のモデル及び前記第2のモデルをそれぞれ最適化し、前記第1のモデルのノイズ共分散行列Mの第1の推定値
及び前記第2のモデルのノイズ共分散行列Mの第2の推定値
を確定する。
第1のモデルには、未知パラメータのノイズ信号Dのノイズ共分散行列Mが存在する。説明を容易にするために、本発明者らは、第1のモデルにおける未知パラメータのノイズ信号Dのノイズ共分散行列MをMと定義する。第2のモデルには、未知パラメータのノイズ信号Dのノイズ共分散行列M及びターゲット音声信号の振幅Sが存在する。説明を容易にするために、本発明者らは、第2のモデルにおける未知パラメータのノイズ信号Dのノイズ共分散行列MをMと定義する。計算装置240は、最適化方法に基づいて、第1のモデル及び第2のモデルをそれぞれ最適化し、未知パラメータM_1の第1の推定値
、Mの第2の推定値
及びターゲット音声信号の振幅Sの推定値
を確定することができる。
第1の態様によれば、計算装置240は、尤度関数の観点からトリガされ、尤度関数の最大化を最適化目標として、前記第1のモデル及び第2のモデルのそれぞれに対して最適化設計を行うことができる。別の態様によれば、前述のように、カラードノイズ信号cに対応するノイズ共分散行列Mが、低ランク特性を有し、低ランク半正定値行列であるため、ノイズ信号dのノイズ共分散行列Mも低ランク特性を有する。特に、非フル観測信号の場合、非フル観測信号の再配列中に、依然としてノイズ信号dのノイズ共分散行列Mの低ランク特性を維持する必要がある。そのため、計算装置240は、ノイズ信号dのノイズ共分散行列Mの低ランク特性に基づいて、ノイズ共分散行列Mのランク最小化を最適化目標として、前記第1のモデル及び第2のモデルのそれぞれに対して最適化設計を行うことができる。そのため、計算装置240は、尤度関数の最大化及びノイズ共分散行列のランク最小化を共同最適化目標として、前記第1のモデル及び前記第2のモデルをそれぞれ最適化して、未知パラメータMの第1の推定値
、Mの第2の推定値
及びターゲット音声信号の振幅Sの推定値
を確定することができる。
図6は、本明細書の実施例による反復最適化のフローチャートを示した。図6に示されるのはステップS140である。図6に示すように、ステップS140は以下を含んでもよい。
S142:マイクロホン信号Xをサンプルデータとして、第1のモデルに対応する第1の尤度関数L(M)を確立する。
前記尤度関数は前記第1の尤度関数L(M)を含む。式(11)~(13)によれば、第1の尤度関数L(M)は以下の式で表されてもよい。
ここで、式(17)は、フル観測信号及び非フル観測信号のそれぞれにおける第1の尤度関数L(M)を表す。
はパラメータMの最大尤度推定を表す。
及び
は、第1のモデルにおいて、パラメータ
が与えられた後、マイクロホン信号Xが現れる確率を表す。
S144:第1の尤度関数L(M)の最大化及び第1のモデルのノイズ共分散行列MのランクRank(M)最小化を最適化目標として、前記第1のモデルを最適化し、Mの第1の推定値
を確定する。
第1の尤度関数L(M)の最大化は、min(-log(L(M)))として表されてもよい。第1のモデルのノイズ共分散行列MのランクRank(M)最小化はmin(Rank(M))として表されてもよい。前述のように、本発明者らは、ホワイトノイズ信号nのノイズ共分散行列δ が既知であることを例として説明し、式(7)から分かったように、第1のモデルのノイズ共分散行列Mのランク最小化は、カラードノイズ信号Cのノイズ共分散行列M最小化min(Rank(M))として表されてもよい。そのため、最適化目標のターゲット関数は以下の式で表されてもよい。
ここで、γは正則化係数である。行列ランク最小化は、核ノルム最小化問題に緩和され得る。そのため、式(18)によれば、以下の式で表されてもよい。
第1のモデルの反復拘束条件は以下の式で表されてもよい。
ここで、M≧0はカラードノイズ信号Cのノイズ共分散行列Mの正定値拘束である。第1のモデルの最適化問題は以下の式で表されてもよい。
前記ターゲット関数及び拘束条件を確定した後、計算装置240は、前記ターゲット関数を最適化目標として、前記第1のモデルの未知パラメータMに対して反復最適化を行うことによって、第1のモデルのノイズ共分散行列Mの第1の推定値(
を確定することができる。
式(21)は半正定値計画問題であり、計算装置240は複数のアルゴリズムによって解くことができる。例えば、勾配投影アルゴリズムを用いてもよい。具体的には、勾配投影アルゴリズムの各反復において、本発明者らは、まずいかなる拘束も課さずに勾配法によって式(19)を解き、次に得られた解を半正定値錐上に投影し、行列の半正定値拘束条件式(20)を満たすようにする。
図6に示すように、ステップS140は以下をさらに含んでもよい。
S146:マイクロホン信号Xをサンプルデータとして、第2のモデルの第2の尤度関数L(S,M)を確立する。
前記尤度関数は第2の尤度関数L(S,M)を含む。式(14)~(16)によれば、第2の尤度関数L(S,M)は以下の式で表されてもよい。
ここで、式(22)は、フル観測信号及び非フル観測信号のそれぞれにおける第2の尤度関数を表す。
はパラメータS及びMの最大尤度推定を表す。
及び
はそれぞれ、第2のモデルにおいて、パラメータS及びMが与えられた後、マイクロホン信号Xが現れる確率を表す。
S148:第2の尤度関数L(S,M)の最大化及び第2のモデルのノイズ共分散行列MのランクRank(M)最小化を最適化目標として、前記第2のモデルを最適化し、Mの第2の推定値
及びターゲット音声信号の振幅Sの推定値
を確定する。
第2の尤度関数L(S,M)の最大化は、min(-log(L(S,M)))として表されてもよい。第2のモデルのノイズ共分散行列MのランクRank(M)最小化はmin(Rank(M))として表されてもよい。前述のように、本発明者らは、ホワイトノイズ信号nのノイズ共分散行列δ が既知であることを例として説明し、式(7)から分かったように、第2のモデルのノイズ共分散行列MのランクRank(M)最小化は、カラードノイズ信号Cのノイズ共分散行列M最小化min(Rank(M))として表されてもよい。そのため、最適化目標のターゲット関数は以下の式で表されてもよい。
ここで、γは正則化係数である。行列ランク最小化は、核ノルム最小化問題に緩和され得る。そのため、式(23)によれば、以下の式で表されてもよい。
第2のモデルの反復拘束条件は以下の式で表されてもよい。
ここで、M≧0はカラードノイズ信号Cのノイズ共分散行列Mの正定値拘束である。第2のモデルの最適化問題は以下の式で表されてもよい。
前記ターゲット関数及び拘束条件を確定した後、計算装置240は、前記ターゲット関数を最適化目標として、前記第2のモデルの未知パラメータM及びSに対して反復最適化を行うことによって、第2のモデルのノイズ共分散行列Mの第2の推定値
及びターゲット音声信号の振幅Sの推定値
を確定することができる。
式(26)は半正定値計画問題であり、計算装置240は複数のアルゴリズムによって解くことができる。例えば、勾配投影アルゴリズムを用いてもよい。具体的には、勾配投影アルゴリズムの各反復において、本発明者らは、まずいかなる拘束も課さずに勾配法によって式(24)を解き、次に得られた解を半正定値錐上に投影し、行列の半正定値拘束条件式(25)を満たすようにする。
以上のように、前記方法P100は、尤度関数の最大化及びノイズ共分散行列のランク最小化を共同最適化目標として、第1のモデル及び第2のモデルをそれぞれ最適化して、未知パラメータMの第1の推定値
及びMの第2の推定値
を確定することによって、M及びMの推定精度をより高くし、後続の統計的仮説検定のために精度のより高いデータモデルを提供し、それによって音声活動検出の正確性及び音声強調効果を向上させることができる。
図3に示すように、前記方法P100は以下をさらに含んでもよい。
S160:統計的仮説検定に基づいて、マイクロホン信号Xに対応するターゲットモデル及びノイズ共分散行列Mを確定する。
ターゲットモデルは第1のモデル及び第2のモデルのうちの一つを含む。マイクロホン信号Xのノイズ共分散行列Mは、ターゲットモデルのノイズ共分散行列である。マイクロホン信号Xのターゲットモデルが第1のモデルである場合、マイクロホン信号Xのノイズ共分散行列
である。マイクロホン信号Xのターゲットモデルが第2のモデルである場合、マイクロホン信号Xのノイズ共分散行列
である。
計算装置240は、統計的仮説検定の方法に基づいて、マイクロホン信号Xが第1のモデルを満たすか第2のモデルを満たすかを確定することによって、マイクロホン信号Xにはターゲット音声信号が存在するか否かを確定することができる。
図7は、本明細書の実施例によるターゲットモデルの確定のフローチャートを示した。図7に示されるフローチャートはステップS160である。
図7に示すように、ステップS160は以下を含んでもよい。
S162:マイクロホン信号Xに基づいて、二値仮説検定モデルを確立する。
ここで、前記二値仮説検定モデルの帰無仮説Hは、マイクロホン信号Xにはターゲット音声信号が存在しないこと、即ちマイクロホン信号Xが第1のモデルを満たすことであってもよい。前記二値仮説検定モデルの対立仮説Hは、マイクロホン信号Xにはターゲット音声信号が存在すること、即ちマイクロホン信号Xが第2のモデルを満たすことであってもよい。前記二値仮説検定モデルは以下の式で表されてもよい。
ここで、式(27)におけるマイクロホン信号Xはフル観測信号である。式(28)におけるマイクロホン信号Xは非フル観測信号である。
S164:前記第1の推定値
、前記第2の推定値
及び前記振幅Sの推定値
を前記二値仮説検定モデルの検出器の判定基準に代入し、検定統計量ψ取得する。
前記検出器は、任意の一つ又は複数の検出器であってもよい。いくつかの実施例において、前記検出器は、GLRT検出器、Raoチェッカー及びWaldチェッカーのうちの一つ又は複数であってもよい。いくつかの実施例において、前記検出器はまた、u-チェッカー、tチェッカー、χ2チェッカー(カイ二乗検定)、F-チェッカー、順位和検出器などであってもよい。異なる検出器は、その検定統計量ψが異なる。
GLRT検出器(Generalized Likelihood RatioTest、一般化尤度比検定)を例として説明する。マイクロホン信号Xがフル観測信号である場合、GLRT検出器において、検定統計量ψは以下の式で表されてもよい。
ここで、
及び
は、それぞれ帰無仮説H及び対立仮説Hにおける尤度関数である。
であり、
である。
マイクロホン信号Xが非フル観測信号である場合、GLRT検出器において、検定統計量ψは以下の式で表されてもよい。
ここで、
及び
は、それぞれ帰無仮説H及び対立仮説Hにおける尤度関数である。
であり、
である。
GLRT検出器において、帰無仮説H及び対立仮説Hにおける未知パラメータ
をともに推定する必要があり、推定対象パラメータが多い。それに対して、Rao検出器において、帰無仮説Hにおける未知パラメータ
のみを推定すればよい。フレーム数がKである場合、Rao検定は、GLRT検出器と同じ検出機能を有する。フレーム数Kが限られる場合、Raoチェッカーは、GLRT検出器と同じ検出機能を達成することができないが、計算がより簡便であり、対立仮説Hにおける未知パラメータの求解が困難である場合により適するという利点を有する。
そのため、実際のシステムの検出性能、計算複雑度に対する等化要求に対して、計算装置240は、前述のGLRT検出器に基づいてRao検出器を提案した。非フル観測信号を例として、Rao検出器の検定統計量ψは以下の式で表されてもよい。
ここで、f(X,X,・・・,X│θ,M)は、対立仮説Hにおける確率密度関数を表す。M=Mである。θ=[PSR,1’,PSR,2’,・・・,PSR,M’,PSL,1’,PSL,2’,・・・,PSL,M’である。ここで、PSR,mは、ターゲット音声信号の、m番目のマイクロホン222のオーディオ信号での振幅の実部である。PSL,mは、ターゲット音声信号の、m番目のマイクロホン222のオーディオ信号での振幅の虚部である。m=1,2,・・・,Mである。θは2M次元のベクトルである。θ=[θ θ であり、ここで、θは、余分なパラメータを含む実ベクトルである。M非対角成分の実部及び虚部並びに対角成分を含む。式(31)は、以下の式に簡略化され得る。
ここで、Mg=QMQ である。
式(32)において、帰無仮説Hにおける未知パラメータ
の推定量
が求まれば、Rao検定の検定統計量ψを取得することができる。
S166:前記検定統計量ψに基づいて、マイクロホン信号Xのターゲットモデルを判断する。
具体的には、ステップS166は、
S166-2:検定統計量ψが予め設定された判定閾値ηより大きいことを確定し、マイクロホン信号Xにはターゲット音声信号が存在すると判定し、ターゲットモデルが第2のモデルであり、前記マイクロホン信号のノイズ共分散行列が前記第2の推定値
であることを確定すること、又は
S166-4:検定統計量ψが予め設定された判定閾値ηより小さいことを確定し、マイクロホン信号Xにはターゲット音声信号が存在しないと判定し、ターゲットモデルが前記第1のモデルであり、前記マイクロホン信号のノイズ共分散行列が前記第1の推定値
であることを確定することを含んでもよい。
ステップS166は以下の式で表されてもよい。
判定閾値ηは、誤警報確率に関連するパラメータである。前記誤警報確率は、実験によって取得することができ、機械学習によって取得することもでき、さらに経験によって取得することもできる。
図3に示すように、前記方法P100は、
S180:マイクロホン信号Xのターゲットモード及びノイズ共分散行列Mを出力することをさらに含んでもよい。
計算装置240は、マイクロホン信号Xのターゲットモード及びノイズ共分散行列Mを、音声強調モジュールなどのような他の計算モジュールに出力することができる。
以上のように、本明細書による音声活動検出システム及び方法P100において、計算装置240は、尤度関数の最大化及びノイズ共分散行列のランク最小化を共同最適化目標として、第1のモデル及び第2のモデルをそれぞれ最適化して、未知パラメータMの第1の推定値
及びMの第2の推定値
を確定することによって、M及びMの推定精度をより高くし、後続の統計的仮説検定のために精度のより高いデータモデルを提供し、それによって音声活動検出の正確性及び音声強調効果を向上させることができる。
本明細書は、音声強調システムをさらに提供する。音声強調システムも電子機器200に用いることができる。いくつかの実施例において、音声強調システムは、計算装置240を含んでもよい。いくつかの実施例において、音声強調システムは、計算装置240に用いることができる。即ち音声強調システムは、計算装置240上で作動することができる。音声強調システムは、データ情報処理機能を有するハードウェア機器と、該ハードウェア機器の動作を駆動するために必要なプログラムとを含んでもよい。無論、音声強調システムはまた、データ処理機能を有するハードウェア機器のみであってもよく、又は、ハードウェア機器で作動するプログラムのみであってもよい。
音声強調システムは、本明細書に記述されている音声強調方法を実行するデータ又は命令を記憶することができ、前記データ及び/又は命令を実行することもできる。音声強調システムが計算装置240上で作動する場合、音声強調システムは、前記通信接続に基づいてマイクロホンアレイ220から前記マイクロホン信号を取得し、本明細書に記述されている音声強調方法のデータ又は命令を実行することができる。前記音声強調方法は、本明細書の他の部分で紹介される。例えば、前記音声強調方法は、図8の説明において紹介されている。
音声強調システムが計算装置240上で作動する場合、前記音声強調システムはマイクロホンアレイ220と通信接続される。記憶媒体243は、前記データ記憶装置に記憶されている、前記マイクロホン信号に対して音声強調計算を行うための少なくとも一つの命令セットをさらに含んでもよい。前記命令は、コンピュータプログラムコードであり、前記コンピュータプログラムコードは、本明細書による音声強調方法を実行するプログラム、ルーチン、オブジェクト、コンポーネント、データ構造、プロセス、モジュールなどを含んでもよい。プロセッサ242は、前記少なくとも一つの命令セットを読み取り、且つ前記少なくとも一つの命令セットの指示に従って本明細書による音声強調方法を実行することができる。プロセッサ242は、音声強調方法に含まれる全てのステップを実行することができる。
図8は、本明細書の実施例による音声強調方法P200のフローチャートを示した。前記方法P200は、前記マイクロホン信号に対して音声強調を行うことができる。具体的には、プロセッサ242は前記方法P200を実行することができる。図9に示すように、前記方法P200は以下を含んでもよい。
S220:前記M個のマイクロホンにより出力されたマイクロホン信号Xを取得する。
ステップS120に記載されているとおりであり、ここでは説明を省略する。
S240:前記音声活動検出方法P100に基づいて、マイクロホン信号Xのターゲットモデル及びマイクロホン信号Xのノイズ共分散行列Mを確定する。
マイクロホン信号Xのノイズ共分散行列Mは、ターゲットモデルのノイズ共分散行列である。マイクロホン信号Xのターゲットモデルが第1のモデルである場合、マイクロホン信号Xのノイズ共分散行列
である。マイクロホン信号Xのターゲットモデルが第2のモデルである場合、マイクロホン信号Xのノイズ共分散行列
である。
S260:MVDR方法及び前記マイクロホン信号Xのノイズ共分散行列Mに基づいて、マイクロホン信号に対応するフィルタリング係数ωを確定する。
フィルタリング係数ωは、M×1次元のベクトルであってもよい。フィルタリング係数ωは以下の式で表されてもよい。
ここで、m番目の及びマイクロホン222に対応するフィルタリング係数はωである。m=1,2,・・・,Mである。
フィルタリング係数ωは以下の式で表されてもよい。
前述のように、Pはターゲット音声信号のターゲットステアリングベクトルである。いくつかの実施例において、Pは既知である。
S280:前記フィルタリング係数に基づいてマイクロホン信号Xを統合し、ターゲットオーディオ信号yを出力する。
ターゲットオーディオ信号Yは以下の式で表されてもよい。
計算装置240は、ターゲットオーディオ信号Yを、遠隔通話機器のような他の電子機器に出力することができる。
以上のように、本明細書による音声活動検出システム及び方法P100、音声強調システム及び方法P200は、複数のマイクロホン222からなるマイクロホンアレイ220に用いられる。前記音声活動検出システム及び方法P100、音声強調システム及び方法P200は、マイクロホンアレイ220により収集されたマイクロホン信号Xを取得することができる。マイクロホン信号Xは、ノイズ信号に対応する第1のモデルであってもよいし、ターゲット音声信号と前記ノイズ信号との組み合わせに対応する第2のモデルであってもよい。前記音声活動検出システム及び方法P100、音声強調システム及び方法P200は、マイクロホン信号Xをサンプルとし、尤度関数の最大化及びマイクロホン信号Xのノイズ共分散行列Mのランク最小化を共同最適化目標として、第1のモデル及び第2のモデルをそれぞれ最適化し、第1のモデルのノイズ共分散行列Mの第1の推定値
及び第2のモデルのノイズ共分散行列Mの第2の推定値
を確定し、統計的仮説検定の方法により、マイクロホン信号Xが第1のモデルを満たすか第2のモデルを満たすかを判断することによって、マイクロホン信号Xにはターゲット音声信号が存在するか否かを確定し、マイクロホン信号Xのノイズ共分散行列Mを確定し、さらにMVDR方法に基づいてマイクロホン信号Xに対して音声強調を行うことができる。前記音声活動検出システム及び方法P100、音声強調システム及び方法P200は、ノイズ共分散行列Mの推定精度及び音声活動検出の正確度をより高くし、さらに音声強調効果を向上させることができる。
本明細書の別の態様は、非一時的な記憶媒体を提供し、音声活動検出のための実行可能な命令の少なくとも一つのセットが記憶されており、前記実行可能な命令は、プロセッサにより実行される場合、本明細書に記載の音声活動検出方法P100のステップを実施するように前記プロセッサに指示する。いくつかの可能な実施形態において、本明細書の各態様はさらに、プログラムコードを含むプログラムプロダクトの形態で実現され得る。前記プログラムプロダクトが計算機器(例えば、計算装置240)上で作動する場合、前記プログラムコードは、本明細書に記述されている音声活動検出ステップを計算機器に実行させるためのものである。上記方法を実現するためのプログラムプロダクトは、携帯型コンパクトディスクリードオンリメモリ(CD-ROM)を用いてもよく、プログラムコードを含み、計算機器上で作動可能である。しかしながら、本明細書のプログラムプロダクトは、これに限定されるものではなく、本明細書では、可読記憶媒体は、プログラムを含むか又は記憶する任意の有形媒体であってもよく、該プログラムは、命令実行システム(例えば、プロセッサ242)によって使用されてもよく、又はそれと組み合わせて使用されてもよい。前記プログラムプロダクトは、一つ又は複数の可読媒体の任意の組み合わせを用い得る。可読媒体は、可読信号媒体又は可読記憶媒体であってもよい。可読記憶媒体は、例えば、電気、磁気、光学、電磁、赤外線、又は半導体のシステム、装置もしくはデバイス、又は以上の任意の組み合わせであってもよいが、これらに限定されない。可読記憶媒体は、更なる具体例として、一つ又は複数の導線を有する電気接続、携帯型ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスクリードオンリメモリ(CD-ROM)、光学メモリデバイス、磁気メモリデバイス、又はこれらの任意の適切な組み合わせを含む。前記コンピュータ可読記憶媒体は、ベースバンドで又は搬送波の一部として伝搬され、可読性のプログラムコードが搭載されるデータ信号を含んでもよい。このように伝搬されるデータ信号は、電磁信号、光信号、又はこれらの任意の適切な組み合わせなどの様々な形態をとることができるが、これらに限定されない。可読記憶媒体はさらに、可読記憶媒体以外の任意の可読媒体であってもよく、該可読媒体は、命令実行システム、装置又はデバイスにより使用され、又はそれらと組み合わせて使用されるプログラムを送信、伝搬又は伝送することができる。可読記憶媒体に含まれるプログラムコードは、任意の好適な媒体で伝送することができ、無線、有線、光ケーブル、RFなど、又は上記の任意の適切な組み合わせを含むが、これらに限定されない。本明細書の動作を実行するためのプログラムコードは、Java、C++などのようなオブジェクト指向プログラミング言語、「C」言語などのような一般的な手続き型プログラミング言語又は類似のプログラミング言語を含む一つ又は複数のプログラミング言語の任意の組み合わせで記述され得る。プログラムコードは、全部が計算機器上で実行され、一部が計算機器上で実行され、独立したソフトウェアパケットとして実行され、一部が計算機器上で一部がリモート計算機器上で実行され、又は全部がリモート計算機器上で実行され得る。
以上、本明細書の特定の実施例について説明した。他の実施例は、添付の特許請求の範囲内にある。いくつかの場合に、特許請求の範囲に記載される動作又はステップは、実施例とは異なる順序で実行されてもよく、且つ依然として所望の結果を実現することができる。また、図面に示されるプロセスは、所望の結果を実現するために、必ずしも特定の順序又は連続的な順序を示す必要はない。いくつかの実施形態において、マルチタスク処理及び並列処理も可能であり、又は有利であり得る。
以上のように、本詳細な開示内容を読めば、当業者であれば分かるように、前記の詳細な開示内容は、単なる例として提示され得、且つ限定的なものではなくてもよい。ここでは明記されていないが、当業者であれば理解できるように、本明細書は、実施例に対する様々な合理的な変更、改良、及び修正を網羅する必要がある。これらの変更、改良、及び修正は、本明細書によって提示されることを意図しており、且つ本明細書の例示的な実施例の精神及び範囲内にある。
なお、本明細書におけるいくつかの用語は、本明細書の実施例を説明するために用いられている。例えば、「一実施例」、「実施例」及び/又は「いくつかの実施例」は、該実施例に関連して説明された特定の特徴、構造又は特性が、本明細書の少なくとも一つの実施例に含まれ得ることを意味する。そのため、本明細書の各部分において、「実施例」又は「一実施例」又は「代替実施例」に対する二つ以上の引用が必ずしも同じ実施例を指すとは限らないことは、強調され理解されるべきである。なお、特定の特徴、構造又は特性は、本明細書の一つ又は複数の実施例において好適に組み合わされてもよい。
理解すべきこととして、本明細書の実施例の前記の説明において、一つの特徴の理解を容易にするために、本明細書は、本明細書を簡略化する目的で、様々な特徴を単一の実施例、図面又はそれらの説明に組み合わせる。しかしながら、これらの特徴の組み合わせが必須であるとは言えず、当業者は、本明細書を読む時に、そのうちの一部の特徴を抽出して単独の実施例として理解することが十分に可能である。つまり、本明細書における実施例は、複数の二次的実施例の統合として理解され得る。各二次的実施例の内容は、前述の開示された単一の実施例の全ての特徴よりも少ない場合にも成立する。
本明細書に引用される各特許、特許出願、特許出願の刊行物、及び他の資料、例えば、記事、書籍、明細書、刊行物、文書、物品などは、参照によりここに組み込まれ得る。あらゆる目的のための全ての内容は、それに関連する任意の訴求書履歴、本文書と一致しないかもしくは矛盾する任意の同一の訴求書履歴、又は請求項の最も広い範囲に対する制限効果を有する任意の同一の訴求書履歴を除いて、現在又は今後、本文書と関連付けられる。例えば、含まれる任意の資料に関連する用語の説明、定義及び/又は使用と、本文書の関連する用語の説明、定義及び/又は使用との間にいずれかの不一致又は矛盾が存在する場合には、本文書における用語が優先して適用するものとする。
最後に、本明細書に開示された出願の実施形態は、本明細書の実施形態の原理についての説明であることを理解されたい。他の修正された実施例も本明細書の範囲内にある。そのため、本明細書に開示された実施例は、単なる例に過ぎず、限定するものではない。当業者は、本明細書における実施例に基づいて、代替的な構成を用いて本明細書における出願を実現することができる。そのため、本明細書の実施例は、出願において正確に説明された実施例に限定されない。

Claims (11)

  1. 音声活動検出方法であって、予め設定されたアレイ形状に分布しているM個のマイクロホンに用いられ、前記Mは1より大きい整数であり、
    ターゲット音声信号に対応する第1のモデルが存在しないか又はターゲット音声信号に対応する第2のモデルが存在することを満たす、前記M個のマイクロホンにより出力されたマイクロホン信号を取得することと、
    尤度関数の最大化及びノイズ共分散行列のランク最小化を共同最適化目標として、前記第1のモデル及び前記第2のモデルをそれぞれ最適化し、前記第1のモデルのノイズ共分散行列の第1の推定値及び前記第2のモデルのノイズ共分散行列の第2の推定値を確定することと、
    統計的仮説検定に基づいて、前記マイクロホン信号に対応するターゲットモデル及びノイズ共分散行列を確定することと、を含み、前記ターゲットモデルは前記第1のモデル及び前記第2のモデルのうちの一つを含み、前記マイクロホン信号のノイズ共分散行列は前記ターゲットモデルのノイズ共分散行列である、ことを特徴とする音声活動検出方法。
  2. 前記マイクロホン信号はKフレームの連続したオーディオ信号を含み、前記Kは1より大きい正整数であり、前記マイクロホン信号はM×Kのデータ行列を含む、ことを特徴とする請求項1に記載の音声活動検出方法。
  3. 前記マイクロホン信号は、フル観測信号又は非フル観測信号であり、前記フル観測信号において前記M×Kのデータ行列中の全てのデータが完全であり、前記非フル観測信号において前記M×Kのデータ行列中の一部のデータが欠落しており、前記マイクロホン信号が前記非フル観測信号である場合、前記の、前記M個のマイクロホンにより出力されたマイクロホン信号を取得することは、
    前記非フル観測信号を取得することと、
    前記M×Kのデータ行列の各列におけるデータ欠落位置に基づいて、前記マイクロホン信号に対して行置換及び列置換を行い、前記マイクロホン信号を少なくとも一つのサブマイクロホン信号に分割することと、を含み、前記マイクロホン信号は前記少なくとも一つのサブマイクロホン信号を含む、ことを特徴とする請求項2に記載の音声活動検出方法。
  4. 前記の、尤度関数の最大化及びノイズ共分散行列のランク最小化を共同最適化目標として、前記第1のモデル及び前記第2のモデルをそれぞれ最適化することは、
    前記マイクロホン信号をサンプルデータとして、前記第1のモデルに対応する、前記尤度関数に含まれる第1の尤度関数を確立することと、
    前記第1の尤度関数の最大化及び前記第1のモデルのノイズ共分散行列のランク最小化を最適化目標として、前記第1のモデルを最適化し、前記第1の推定値を確定することと、
    前記マイクロホン信号をサンプルデータとして、前記第2のモデルの、前記尤度関数に含まれる第2の尤度関数を確立することと、
    前記第2の尤度関数の最大化及び前記第2のモデルのノイズ共分散行列のランク最小化を最適化目標として、前記第2のモデルを最適化し、前記第2の推定値及び前記ターゲット音声信号の振幅推定値を確定することと、を含む、ことを特徴とする請求項1に記載の音声活動検出方法。
  5. 前記マイクロホン信号は、ガウス分布に従うノイズ信号を含み、前記ノイズ信号は少なくとも、
    ゼロ平均ガウス分布に従い、対応するノイズ共分散行列が低ランク半正定値行列であるカラードノイズ信号を含む、ことを特徴とする請求項4に記載の音声活動検出方法。
  6. 前記の、統計的仮説検定に基づいて、前記マイクロホン信号に対応するターゲットモデル及びノイズ共分散行列を確定することは、
    前記マイクロホン信号に基づいて、二値仮説検定モデルを確立することであって、ここで、前記二値仮説検定モデルの帰無仮説は、前記マイクロホン信号が前記第1のモデルを満たすことを含み、前記二値仮説検定モデルの対立仮説は、前記マイクロホン信号が前記第2のモデルを満たすことを含むことと、
    前記第1の推定値、前記第2の推定値及び前記振幅推定値を前記二値仮説検定モデルの検出器の判定基準に代入し、検定統計量を取得することと、
    前記検定統計量に基づいて前記マイクロホン信号の前記ターゲットモデルを判断することと、を含む、ことを特徴とする請求項1に記載の音声活動検出方法。
  7. 前記の、前記検定統計量に基づいて前記マイクロホン信号の前記ターゲットモデルを判断することは、
    前記検定統計量が前記予め設定された判定閾値より大きいことを確定し、前記マイクロホン信号には前記ターゲット音声信号が存在すると判定し、前記ターゲットモデルが前記第2のモデルであり、前記マイクロホン信号のノイズ共分散行列が前記第2の推定値であることを確定すること、又は
    前記検定統計量が前記予め設定された判定閾値より小さいことを確定し、前記マイクロホン信号には前記ターゲット音声信号が存在しないと判定し、前記ターゲットモデルが前記第1のモデルであり、前記マイクロホン信号のノイズ共分散行列が前記第1の推定値であることを確定することを含む、ことを特徴とする請求項6に記載の音声活動検出方法。
  8. 前記検出器は、GLRT検出器、Raoチェッカー及びWaldチェッカーのうちの少なくとも一つを含む、ことを特徴とする請求項6に記載の音声活動検出方法。
  9. 音声活動検出システムであって、
    音声活動検出のための少なくとも一つの命令セットが記憶されている少なくとも一つの記憶媒体と、
    前記少なくとも一つの記憶媒体と通信接続される少なくとも一つのプロセッサとを含み、
    ここで、前記音声活動検出システムが作動する場合、前記少なくとも一つのプロセッサは、前記少なくとも一つの命令セットを読み取り、請求項1~8のいずれか一項に記載の音声活動検出方法を実施する、ことを特徴とする音声活動検出システム。
  10. 音声強調方法であって、予め設定されたアレイ形状に分布しているM個のマイクロホンに用いられ、前記Mは1より大きい整数であり、
    前記M個のマイクロホンにより出力されたマイクロホン信号を取得することと、
    請求項1~8のいずれか一項に記載の音声活動検出方法に基づいて、前記マイクロホン信号の前記ターゲットモデル、及び前記ターゲットモデルのノイズ共分散行列である前記マイクロホン信号のノイズ共分散行列を確定することと、
    MVDR方法及び前記マイクロホン信号のノイズ共分散行列に基づいて、前記マイクロホン信号に対応するフィルタリング係数を確定することと、
    前記フィルタリング係数に基づいて前記マイクロホン信号を統合し、ターゲットオーディオ信号を出力することとを含む、ことを特徴とする音声強調方法。
  11. 音声強調システムであって、
    音声強調を行うための少なくとも一つの命令セットが記憶されている少なくとも一つの記憶媒体と、
    前記少なくとも一つの記憶媒体と通信接続される少なくとも一つのプロセッサとを含み、
    ここで、前記音声強調システムが作動する場合、前記少なくとも一つのプロセッサは、前記少なくとも一つの命令セットを読み取り、請求項10に記載の音声強調方法を実施する、ことを特徴とする音声強調システム。
JP2023555858A 2021-11-11 2021-11-11 音声活動検出方法、システム、音声強調方法及びシステム Pending JP2024512927A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2021/130035 WO2023082134A1 (zh) 2021-11-11 2021-11-11 语音活动检测方法、系统、语音增强方法以及系统

Publications (1)

Publication Number Publication Date
JP2024512927A true JP2024512927A (ja) 2024-03-21

Family

ID=86334763

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023555858A Pending JP2024512927A (ja) 2021-11-11 2021-11-11 音声活動検出方法、システム、音声強調方法及びシステム

Country Status (6)

Country Link
US (1) US20240046956A1 (ja)
EP (1) EP4307296A4 (ja)
JP (1) JP2024512927A (ja)
KR (1) KR20230146604A (ja)
CN (1) CN116964667A (ja)
WO (1) WO2023082134A1 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3190587B1 (en) * 2012-08-24 2018-10-17 Oticon A/s Noise estimation for use with noise reduction and echo cancellation in personal communication
WO2016095218A1 (en) * 2014-12-19 2016-06-23 Dolby Laboratories Licensing Corporation Speaker identification using spatial information
CN109087664B (zh) * 2018-08-22 2022-09-02 中国科学技术大学 语音增强方法
CN110164452B (zh) * 2018-10-10 2023-03-10 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器

Also Published As

Publication number Publication date
EP4307296A4 (en) 2024-03-27
KR20230146604A (ko) 2023-10-19
EP4307296A1 (en) 2024-01-17
US20240046956A1 (en) 2024-02-08
WO2023082134A1 (zh) 2023-05-19
CN116964667A (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
EP3413589B1 (en) A microphone system and a hearing device comprising a microphone system
CN107221336B (zh) 一种增强目标语音的装置及其方法
US11943604B2 (en) Spatial audio processing
CN110931036B (zh) 一种麦克风阵列波束形成方法
US10186277B2 (en) Microphone array speech enhancement
US10186278B2 (en) Microphone array noise suppression using noise field isotropy estimation
US20230260529A1 (en) Methods and systems for determining speech presence probability, speech enhancement methods and systems, and headphones
CN116110421A (zh) 语音活动检测方法、系统、语音增强方法以及系统
JP2024512927A (ja) 音声活動検出方法、システム、音声強調方法及びシステム
CN113223552B (zh) 语音增强方法、装置、设备、存储介质及程序
WO2023115269A1 (zh) 语音活动检测方法、系统、语音增强方法以及系统
CN110858485A (zh) 语音增强方法、装置、设备及存储介质
CN117037836B (zh) 基于信号协方差矩阵重构的实时声源分离方法和装置
Liu et al. Sound source localization and speech enhancement algorithm based on fixed beamforming
CN116364100A (zh) 语音活动检测方法、系统、语音增强方法以及系统
CN115966215A (zh) 语音存在概率计算方法、系统、语音增强方法以及耳机
CN117121104A (zh) 估计用于处理所获取的声音数据的优化掩模
CN116887129A (zh) 音频处理方法、装置、芯片、模组设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230912