JP2010541010A - 複数マイクロホン音声アクティビティ検出器 - Google Patents

複数マイクロホン音声アクティビティ検出器 Download PDF

Info

Publication number
JP2010541010A
JP2010541010A JP2010527214A JP2010527214A JP2010541010A JP 2010541010 A JP2010541010 A JP 2010541010A JP 2010527214 A JP2010527214 A JP 2010527214A JP 2010527214 A JP2010527214 A JP 2010527214A JP 2010541010 A JP2010541010 A JP 2010541010A
Authority
JP
Japan
Prior art keywords
speech
reference signal
voice activity
noise
characteristic value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010527214A
Other languages
English (en)
Other versions
JP5102365B2 (ja
Inventor
ワン、ソン
グプタ、サミア・クマー
チョイ、エディー・エル.ティー.
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2010541010A publication Critical patent/JP2010541010A/ja
Application granted granted Critical
Publication of JP5102365B2 publication Critical patent/JP5102365B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Abstract

複数のマイクロホンを使用する音声アクティビティ検出は、スピーチ参照マイクロホン及びノイズ参照マイクロホンの各々のエネルギー間の関係に基づくことができる。スピーチ参照マイクロホン及びノイズ参照マイクロホンの各々からのエネルギー出力は、決定されることができる。ノイズエネルギーに対するスピーチエネルギーの比は、決定されて、所定の音声アクティビティ閾値と比較されることができる。他の実施形態では、スピーチ及びノイズ参照信号の自己相関の絶対値は、決定され、自己相関値に基づく比が決定される。所定の閾値を超える比は、音声信号の存在を示すことができる。スピーチ及びノイズのエネルギー又は自己相関は、加重平均を使用して、或いは、個別のフレームサイズにわたって、決定されることができる。

Description

[関連出願]
本出願は、同時係属出願「ブラインドソース分離のための向上技術(Enhancement Techniques for Blind Source Separation)」(代理人整理番号061193)、同一出願人による2006年10月20日に提出された米国特許出願第11/551,509号、及び本出願と同時出願された同時係属出願「複数マイクロホンオーディオシステムにおけるノイズ及びエコー低減の装置及び方法(Apparatus and Method of Noise and Echo Reduction in Multiple Microphone Audio Systems)」(代理人整理番号061521)に関連している。
[発明の分野]
本開示は、オーディオ処理の分野に関する。特に、本開示は、複数のマイクロホンを使用する音声アクティビティ検出に関する。
音声アクティビティ検出器等の信号アクティビティ検出器は、電子機器において不要な処理の量を最小化するために使用されることができる。音声アクティビティ検出器は、マイクロホンの後に続く1以上の信号処理ステージを選択的に制御することができる。
例えば、録音機器は、ノイズ信号の処理及び記録を最小化するために、音声アクティビティ検出器を実装することができる。音声アクティビティ検出器は、音声アクティビティのない期間中に、信号処理及び記録の電源を切り(de-energize)、或いは、信号処理及び記録の動作を停止する(deactivate)ことができる。同様に、携帯電話機、パーソナルデバイスアシスタント又はラップトップのような通信デバイスは、ノイズ信号に割り当てられる処理電力を低減するために、かつ、遠隔のデスティネーションデバイスへ伝送又は伝達されるノイズ信号を低減するために、音声アクティビティ検出器を実装することがある。音声アクティビティ検出器は、音声アクティビティのない期間中に、音声処理及び伝送の電源を切り、或いは、音声処理及び伝送の動作を停止することができる。
満足に動作する音声アクティビティ検出器の能力は、ノイズ状態、及びかなりのノイズエネルギーを持つノイズ状態を変えることによって妨げられることがある。動的なノイズ環境に従うモバイルデバイスに音声アクティビティ検出が組み込まれる場合、音声アクティビティ検出器の実行は、さらに複雑になりうる。モバイルデバイスは、比較的にノイズがない環境のもとで動作することもでき、ノイズエネルギーが音声エネルギーと同じ程度である事実上のノイズ状態のもとで動作することもできる。
動的なノイズ環境の存在は、音声アクティビティ決定を複雑にする。音声アクティビティの誤った指示は、ノイズ信号の処理及び伝送をもたらすことになる。特に、音声アクティビティ検出器による音声アクティビティの欠如の指示によって、ノイズ伝送の期間に無活動(inactivity)の期間がちりばめられる場合、ノイズ信号の処理及び伝送は、質の悪いユーザ経験を生成することになる。
逆に言うと、質の悪い音声アクティビティ検出は、音声信号の本質的な部分の損失をもたらすことがある。音声アクティビティの最初の部分の損失は、ユーザが会話の一部を定期的に繰り返すことが必要になる結果となり、これは好ましくない状況である。
従来の音声アクティビティ検出(VAD)アルゴリズムは、1つのマイクロホン信号だけを使用する。初期のVADアルゴリズムは、エネルギーに基づく基準を使用する。この種のアルゴリズムは、音声アクティビティに関する決定を行うために、閾値を評価する。単一マイクロホンVADは、定常ノイズに対してうまく機能することができる。しかしながら、単一マイクロホンVADにおいては、非定常ノイズを扱うことは困難とされる。
他のVAD技術は、信号のゼロ交差(zero-crossing)を数えて、ゼロ交差の割合に基づいて、音声アクティビティ決定を行う。バックグラウンドノイズが非スピーチ信号である場合、この方法は、うまく機能することができる。背景信号がスピーチのような信号である場合、この方法は、信頼できる決定を行うことができない。ピッチ、ホルマント形状、ケプストラム及び周期性のような他の特徴はまた、音声アクティビティ検出に使用されることができる。これらの特徴は、音声アクティビティ決定を行うために、検出されてスピーチ信号と比較される。
スピーチの特徴を使用する代わりに、スピーチの存在及びスピーチの不在(absence)の統計モデルもまた、音声アクティビティ決定を行うために使用されることができる。このような実施では、統計モデルは更新され、音声アクティビティ決定は、統計モデルの尤度比に基づいて行われる。他の方法は、信号を前処理するために、単一マイクロホンソース分離ネットワークを使用する。決定は、アクティビティ適応閾値及びラグランジュプログラミングニューラルネットワークの平滑化された誤り信号を使用して行われる。
複数のマイクロホンに基づくVADアルゴリズムもまた研究されている。複数マイクロホンの実施形態は、ロバスト検出を達成するために、ノイズ抑制、閾値適応及びピッチ検出を組み合わせてもよい。実施形態は、信号対干渉比(SIR)を最大化するために、線形フィルタリングを使用する。その後、統計モデルに基づく方法は、改善された信号を使用して、音声アクティビティを検出するために使用される。他の実施形態は、アレイ出力ベクトルの周波数領域表現を生成するために、線形マイクロホンアレイ及びフーリエ変換を使用する。周波数領域表現は、信号対雑音比(SNR)を推定するために使用されることができ、所定の閾値は、スピーチアクティビティを検出するために使用されることができる。さらに他の実施形態は、2つのセンサに基づくVAD方法で音声アクティビティを検出するために、強度二乗コヒーレンス(MSC:magnitude square coherence)及び適応閾値を使用することを提案する。
音声アクティビティ検出アルゴリズムの多くは、計算的に費用がかかり、電力消費及び計算の複雑さが重要になるモバイル用途には適していない。しかしながら、モバイル用途は、また、モバイルデバイスに入射するノイズ信号の非定常性及び動的なノイズ環境に部分的に起因する挑戦的な(challenging)音声アクティビティ検出環境を提示する。
複数マイクロホンを使用する音声アクティビティ検出は、スピーチ参照マイクロホン及びノイズ参照マイクロホンの各々のエネルギー間の関係に基づくことができる。スピーチ参照マイクロホン及びノイズ参照マイクロホンの各々からのエネルギー出力は、決定されることができる。ノイズエネルギーに対するスピーチエネルギーの比は、決定され、所定の音声アクティビティ閾値と比較されることができる。他の実施形態では、スピーチの相関の絶対値、並びにノイズ参照信号の自己相関及び/又は自己相関の絶対値が決定され、相関値に基づく比が決定される。所定の閾値を超える比は、音声信号の存在を示すことができる。スピーチ及びノイズのエネルギー又は相関は、加重平均を使用して、或いは、個別のフレームサイズにわたって、決定されることができる。
本発明の態様は、音声アクティビティを検出する方法を含む。この方法は、スピーチ参照マイクロホンからスピーチ参照信号を受信することと、前記スピーチ参照信号とは異なるノイズ参照マイクロホンから、ノイズ参照信号を受信することと、前記スピーチ参照信号に少なくとも部分的に基づいて、スピーチ特性値を決定することと、前記スピーチ参照信号及び前記ノイズ参照信号に少なくとも部分的に基づいて、合成特性値を決定することと、前記スピーチ特性値及び前記合成特性値に少なくとも部分的に基づいて、音声アクティビティメトリックを決定することと、前記音声アクティビティメトリックに基づいて、音声アクティビティ状態を決定することと、を含む。
本発明の態様は、音声アクティビティを検出する方法を含む。この方法は、少なくとも1つのスピーチ参照マイクロホンからスピーチ参照信号を受信することと、前記スピーチ参照マイクロホンとは異なる少なくとも1つのノイズ参照マイクロホンからノイズ参照信号を受信することと、前記スピーチ参照信号に基づいて、自己相関の絶対値を決定することと、前記スピーチ参照信号及び前記ノイズ参照信号に基づいて、相互相関を決定することと、相互相関に対する、前記スピーチ参照信号の自己相関の絶対値の比に部分的に基づいて、音声アクティビティメトリックを決定することと、前記音声アクティビティメトリックを少なくとも1つの閾値と比較することにより、音声アクティビティ状態を決定することと、を含む。
本発明の態様は、音声アクティビティを検出するように構成された装置を含む。
この装置は、スピーチ参照信号を出力するように構成されたスピーチ参照マイクロホンと、ノイズ参照信号を出力するように構成されたノイズ参照マイクロホンと、前記スピーチ参照マイクロホンに結合され、スピーチ特性値を決定するように構成されたスピーチ特性値生成器と、前記スピーチ参照マイクロホン及び前記ノイズ参照マイクロホンに結合され、合成特性値を決定するように構成された合成特性値生成器と、前記スピーチ特性値及び前記合成特性値に少なくとも部分的に基づいて、音声アクティビティメトリックを決定するように構成された音声アクティビティメトリックモジュールと、前記音声アクティビティメトリックを閾値と比較して、音声アクティビティ状態を出力するように構成された比較器と、を含む。
本発明の態様は、音声アクティビティを検出するように構成された装置を含む。
この装置は、ピーチ参照信号を受信する手段と、ノイズ参照信号を受信する手段と、前記スピーチ参照信号に基づいて、自己相関を決定する手段と、前記スピーチ参照信号及び前記ノイズ参照信号に基づいて、相互相関を決定する手段と、前記相互相関に対する、前記スピーチ参照信号の前記自己相関の絶対値の比に部分的に基づいて、音声アクティビティメトリックを決定する手段と、前記音声アクティビティメトリックを少なくとも1つの閾値と比較することによって、音声アクティビティ状態を決定する手段と、を含む。
本発明の態様は、1以上のプロセッサによって利用可能な命令を含むコンピュータ読み取り可能媒体を含む。これらの命令は、少なくとも1つのスピーチ参照マイクロホンからのスピーチ参照信号に少なくとも部分的に基づいて、スピーチ特性値を決定するための命令と、前記スピーチ参照信号、及び少なくとも1つのノイズ参照マイクロホンからのノイズ参照信号に少なくとも部分的に基づいて、合成特性値を決定するための命令と、前記スピーチ特性値及び前記合成特性値に少なくとも部分的に基づいて、音声アクティビティメトリックを決定するための命令と、前記音声アクティビティメトリックに基づいて、音声アクティビティ状態を決定するための命令と、を含む。
本開示の実施形態の特徴、オブジェクト及び利点は、図面とともに、以下に記載されている詳細な説明からさらに明らかになり、図面において、同様の参照符号が同様の要素を指す。
図1は、ノイズ環境において動作する複数マイクロホンデバイスの簡略化された機能ブロック図である。 図2は、キャリブレーションされた複数マイクロホン音声アクティビティ検出器を備えたモバイルデバイスの実施形態の簡略化された機能ブロック図である。 図3は、音声アクティビティ検出器及びエコーキャンセレーションを備えたモバイルデバイスの実施形態の簡略化された機能ブロック図である。 図4Aは、信号改善を含む音声アクティビティ検出器を備えたモバイルデバイスの実施形態の簡略化された機能ブロック図である。 図4Bは、ビームフォーミングを使用する信号改善の簡略化された機能ブロック図である。 図5は、信号改善を含む音声アクティビティ検出器を備えたモバイルデバイスの実施形態の簡略化された機能ブロック図である。 図6は、音声符号化を含む音声アクティビティ検出器を備えたモバイルデバイスの実施形態の簡略化された機能ブロック図である。 図7は、音声アクティビティ検出の簡略化された方法のフローチャートである。 図8は、キャリブレーションされた複数マイクロホン音声アクティビティ検出器を備えたモバイルデバイスの実施形態の簡略化された機能ブロック図である。
詳細な説明
複数のマイクロホンを使用する音声アクティビティ検出(VAD:Voice Activity Detection)のための装置及び方法が開示される。装置及び方法は、マウス基準点(MRP:mouth reference point)の実質的な近距離に(in substantially a near field)構成された第1のセット又はグループのマイクロホンを利用する。ここで、MRPは、信号ソースの位置と見なされる。第2のセット又はグループのマイクロホンは、実質的な低減された音声位置に(in substantially a reduced voice location)構成されることができる。理想的には、第2のセットのマイクロホンは、第1のセットのマイクロホンと実質的に同じノイズ環境に位置するが、スピーチ信号のどれとも実質的に結合しない。いくつかのモバイルデバイスは、この最適な構成を可能にしないが、第1のセットのマイクロホンにおいて受信されたスピーチが、第2のセットのマイクロホンによって受信されたスピーチより常に大きい構成を可能にする。
第1のセットのマイクロホンは、通常は第2のセットのマイクロホンと比較してより良質であるスピーチ信号を受信して変換する。このため、第1のセットのマイクロホンは、スピーチ参照マイクロホン(speech reference microphone)と見なすことができ、第2のセットのマイクロホンは、ノイズ参照マイクロホン(noise reference microphone)と見なすことができる。
VADモジュールは、スピーチ参照マイクロホン及びノイズ参照マイクロホンの各々における信号に基づいて、特性を最初に決定することができる。スピーチ参照マイクロホン及びノイズ参照マイクロホンに対応する特性値は、音声アクティビティ決定を行うために使用される。
例えば、VADモジュールは、スピーチ参照マイクロホン及びノイズ参照マイクロホンからの信号の各々のエネルギーを計算するように、或いは、推定するように、或いは、決定するように構成されることができる。エネルギーは、所定のスピーチ及びノイズサンプリング時間(sample time)において計算されることができ、或いは、スピーチ及びノイズサンプル(sample)のフレームに基づいて、計算されることができる。
他の例では、VADモジュールは、スピーチ参照マイクロホン及びノイズ参照マイクロホンの各々の信号の自己相関を決定するように構成されることができる。自己相関値は、所定のサンプリング時間に対応することができ、或いは、所定のフレーム区間にわたって計算されることができる。
VADモジュールは、特性値の比に少なくとも部分的に基づいて、アクティビティメトリックを計算することができ、或いは、決定することができる。一実施形態では、VADモジュールは、ノイズ参照マイクロホンからのエネルギーに対する、スピーチ参照マイクロホンからのエネルギーの比を、決定するように構成される。VADモジュールは、ノイズ参照マイクロホンからの自己相関に対する、スピーチ参照マイクロホンからの自己相関の比を、決定するように構成されることができる。他の実施形態では、上述した比のうちの1つの平方根が、アクティビティメトリックとして使用される。VADは、音声アクティビティの存在(presence)又は不在(absence)を決定するために、アクティビティメトリックを所定の閾値と比較する。
図1は、音声アクティビティ検出を備えた複数マイクロホンモバイルデバイス110を含む動作環境100の簡略化された機能ブロック図である。モバイルデバイスに関連して説明するが、ここに開示される音声アクティビティ検出方法及び装置が、モバイルデバイスでの応用に限定されず、固定式デバイス、移動式デバイス、モバイルデバイスにおいて実施されることができ、さらに、ホスト装置が移動式又は固定式であっても動作することができることは、明らかである。
動作環境100は、複数マイクロホンモバイルデバイス110を示している。複数マイクロホンデバイスは、少なくとも1つのスピーチ参照マイクロホン112、及び少なくとも1つのノイズ参照マイクロホン114を含み、ここでは、スピーチ参照マイクロホン112は、モバイルデバイス110の表面に示され、ノイズ参照マイクロホン114は、スピーチ参照マイクロホン112と対向するモバイルデバイス110の面に示されている。
図1のモバイルデバイス110、及び概して図に示される実施形態には、1つのスピーチ参照マイクロホン112及び1つのノイズ参照マイクロホン114が示されているが、モバイルデバイス110は、スピーチ参照マイクロホングループ及びノイズ参照マイクロホングループを実装することができる。スピーチ参照マイクロホングループ及びノイズ参照マイクロホングループの各々は、1以上のマイクロホンを含むことができる。スピーチ参照マイクロホングループは、ノイズ参照マイクロホングループのマイクロホンの数とは異なる数のマイクロホンを含んでもよく、或いは、ノイズ参照マイクロホングループのマイクロホンの数と同じ数のマイクロホンを含んでもよい。
さらに、スピーチ参照マイクロホングループのマイクロホンは、ノイズ参照マイクロホングループのマイクロホンを典型的には含まないが、これは絶対的な制限ではなく、1以上のマイクロホンは、2つのマイクロホングループ間で共有されてもよい。しかしながら、ノイズ参照マイクロホングループとスピーチ参照マイクロホングループとの合併(union)は、少なくとも2つのマイクロホンを含む。
スピーチ参照マイクロホン112は、ノイズ参照マイクロホン114を有する面と概して対向する、モバイルデバイス110の面上にあるものとして示されている。スピーチ参照マイクロホン112及びノイズ参照マイクロホン114の配置は、いかなる物理的な方向にも限定されない。マイクロホンの配置は、典型的には、ノイズ参照マイクロホン114からスピーチ信号を分離する能力によって決定される。
一般に、2つのマイクロホングループのマイクロホンは、モバイルデバイス110上の異なる位置に取り付けられる。各マイクロホンは、目的とするスピーチとバックグラウンドノイズとの組み合わせの特有のバージョンを受信する。スピーチ信号は、近距離ソース(near-field sources)からのものであると仮定することができる。2つのマイクロホングループの音圧レベル(SPL)は、マイクロホンの位置に依存して異なる場合がある。1つのマイクロホンがマウス基準点(MRP)、即ち、スピーチソース(speech source)130に近接している場合、このマイクロホンは、MRPから離れて位置する他のマイクロホンより高いSPLを受信する。より高いSPLを有するマイクロホンは、スピーチ参照マイクロホン112又はプライマリマイクロホンとも称され、sSP(n)として示されるスピーチ参照信号を生成する。スピーチソース130のMRPからの低減したSPLを有するマイクロホンは、ノイズ参照マイクロホン114又はセカンダリマイクロホンと称され、sNS(n)として示されるノイズ参照信号を生成する。スピーチ参照信号が通常はバックグラウンドノイズを含み、ノイズ参照信号もまた目的とするスピーチを含んでもよいことに、注意されたい。
以下にさらに詳細に説明されるように、モバイルデバイス110は、スピーチソース130からのスピーチ信号の存在を決定するために、音声アクティビティ検出を含むことができる。音声アクティビティ検出の動作は、動作環境100中にあるノイズソースの数及び分布によって複雑になる場合がある。
モバイルデバイス110上に入射するノイズは、かなりの無相関のホワイトノイズ成分を含んでいてもよいが、1以上の有色ノイズソース、例えば、140−1〜140−4をさらに含んでいてもよい。さらに、携帯電話機110は、それ自体で、例えば、出力トランスデューサ120からスピーチ参照マイクロホン112及びノイズ参照マイクロホン114のうちの一方又は両方までを結ぶエコー信号の形態で、干渉を生成する場合がある。
1以上の有色ノイズソースは、各々がモバイルデバイス110に対して異なる位置及び方向から発生するノイズ信号を生成してもよい。第1のノイズソース140−1及び第2のノイズソース140−2は、夫々スピーチ参照マイクロホン112の近くに位置してもよく、或いは、スピーチ参照マイクロホン112への直接路に位置してもよく、一方で、第3及び第4のノイズソース140−3及び140−4は、ノイズ参照マイクロホン114の近くに位置してもよく、或いは、ノイズ参照マイクロホン114への直接路に位置してもよい。1以上のノイズソース、例えば、140−4は、表面150に反射するノイズ信号、又はモバイルデバイス110への複数の経路を横断するノイズ信号を生成してもよい。
ノイズソースの各々が重要な信号をマイクロホンへ与えてもよいが、ノイズソース140−1〜140−4の各々は、概して遠距離(far field)に位置し、従って、スピーチ参照マイクロホン112及びノイズ参照マイクロホン114の各々に実質的に同様の音圧レベル(SPL)を与える。
各ノイズ信号に関連する大きさ、位置、及び周波数特性の動的な特徴は、音声アクティビティ検出プロセスの複雑さの原因になる。さらに、モバイルデバイス110は、典型的には電池式あり、従って、音声アクティビティ検出に関連する電力消費が問題になる。
モバイルデバイス110は、スピーチ参照マイクロホン112及びノイズ参照マイクロホン114からの信号の各々を処理することにより、音声アクティビティ検出を実行して、対応するスピーチ及びノイズ特性値(characteristic values)を生成することができる。モバイルデバイス110は、スピーチ及びノイズ特性値に部分的に基づいて、音声アクティビティメトリック(voice activity metric)を生成することができ、音声アクティビティメトリックを閾値と比較することにより、音声アクティビティを決定することができる。
図2は、キャリブレーションされた(calibrated)複数マイクロホン音声アクティビティ検出器を備えたモバイルデバイス110の実施形態の簡略化された機能ブロック図である。モバイルデバイス110は、マイクロホンのグループでありうるスピーチ参照マイクロホン112と、ノイズ参照マイクロホンのグループでありうるノイズ参照マイクロホン114とを含む。
スピーチ参照マイクロホン112からの出力は、第1のアナログ・デジタル変換器(ADC)212に結合されていることができる。モバイルデバイス110は、概して、フィルタリング及び増幅のようなマイクロホン信号のアナログ処理を実行するが、スピーチ信号のアナログ処理は、明瞭及び簡単にするために図示していない。
ノイズ参照マイクロホン114からの出力は、第2のADC214に結合されていることができる。ノイズ参照信号のアナログ処理は、概して、実質的に同じスペクトル応答を維持するために、スピーチ参照信号に関して実行されるアナログ処理と実質的に同じであってもよい。しかしながら、キャリブレータ220が何らかの補正を提供してもよいので、アナログ処理部のスペクトル応答は、同じである必要はない。さらに、キャリブレータ220の機能のうちのいくつか又は全ては、図2に示されるデジタル処理ではなく、アナログ処理部により実現されてもよい。
第1及び第2のADC212及び214は、夫々個別の信号をデジタル表現に変換する。第1及び第2のADC212及び214からのデジタル出力は、音声アクティビティ検出に先立って、スピーチ及びノイズ信号の経路のスペクトル応答を実質的に等しくするように動作するキャリブレータ220に結合される。
キャリブレータ220は、キャリブレーション生成器222を含み、このキャリブレーション生成器222は、周波数の選択的な補正を決定し、かつ、スピーチ信号経路又はノイズ信号経路のうちの一方と直列に配置されたスカラー/フィルタ224を制御するように、構成される。キャリブレーション生成器222は、固定キャリブレーション応答曲線を提供するように、スカラー/フィルタ224を制御するように構成されることができ、或いは、キャリブレーション生成器222は、動的キャリブレーション応答曲線を提供するように、スカラー/フィルタ224を制御するように構成されることができる。キャリブレーション生成器222は、1以上の動作パラメータ(operating parameter)に基づいて、可変キャリブレーション応答曲線を提供するように、スカラー/フィルタ224を制御することができる。例えば、キャリブレーション生成器222は、信号出力検出器(図示せず)を含むか、或いは、信号出力検出器にアクセスすることができ、スピーチ又はノイズ出力に応じてスカラー/フィルタ224の応答を変えることができる。他の実施形態は、他のパラメータ、又はパラメータの組み合わせを利用してもよい。
キャリブレータ220は、キャリブレーション期間中に、スカラー/フィルタ224によって提供されるキャリブレーションを決定するように構成されることができる。モバイルデバイス110は、例えば製造中に、最初にキャリブレーションされることができ、或いは、1以上のイベント時に、1以上の時間に、又はイベント時及び時間との組み合わせで、キャリブレーションを開始することができるキャリブレーションスケジュールに従って、キャリブレーションされることができる。例えば、モバイルデバイスが電源を入れられるたびに、或いは、最近のキャリブレーションから所定時間が経過している場合に限り起動中に、キャリブレータ220は、キャリブレーションを開始してもよい。
キャリブレーション中には、モバイルデバイス110は、遠距離ソース(far field source)が存在していて、かつ、スピーチ参照マイクロホン112又はノイズ参照マイクロホン114のいずれでも近距離信号を経験しない状況にある可能性がある。キャリブレーション生成器222は、スピーチ信号及びノイズ信号の各々をモニタし、相対スペクトル応答を決定する。キャリブレーション生成器222は、スカラー/フィルタ224への適用時に、スカラー/フィルタ224にスペクトル応答における相対的な差を補正させるキャリブレーション制御信号を生成し、或いは、特徴づける。
スカラー/フィルタ224は、増幅、減衰(attenuation)、フィルタリング又はスペクトルの差を実質的に補正する何らかの他の信号処理を導入することができる。スカラー/フィルタ224は、ノイズ信号の経路に配置されるものとして示されているが、これは、スカラー/フィルタがスピーチ信号を歪めることを防止するのに都合が良い。しかし、スカラー/フィルタ224の一部又は全ては、スピーチ信号経路に配置されることができ、また、スピーチ信号経路及びノイズ信号経路の一方又は両方のアナログ及びデジタル信号経路の各所に分散配置されてもよい。
キャリブレータ220は、キャリブレーションされたスピーチ及びノイズ信号を、音声アクティビティ検出(VAD)モジュール230の各々の入力に結合する。VADモジュール230は、スピーチ特性値生成器232と、ノイズ特性値生成器234と、スピーチ及びノイズ特性値に対して動作する音声アクティビティメトリックモジュール240と、音声アクティビティメトリックに基づいて、音声アクティビティの存在又は不在を決定するように構成された比較器250と、を含む。VADモジュール230は、スピーチ参照信号及びノイズ参照信号の両方の組み合わせに基づいた特性を生成するように構成された合成特性値生成器236を随意に含んでもよい。例えば、合成特性値生成器236は、スピーチ及びノイズ信号の相互相関を決定するように構成されることができる。相互相関の絶対値が取られてもよく、相互相関の要素が2乗されてもよい。
スピーチ特性値生成器232は、スピーチ信号に少なくとも部分的に基づいている値を生成するように構成されることができる。スピーチ特性値生成器232は、特性値、例えば、特定のサンプリング時間におけるスピーチ信号のエネルギー(ESP(n))、特定のサンプリング時間におけるスピーチ信号の自己相関(ρSP(n))、又はスピーチ信号の自己相関又は自己相関の成分の絶対値を取ったもののような他の信号特性値等を生成するように構成されることができる。
ノイズ特性値生成器234は、相補的なノイズ特性値を生成するように構成されることができる。即ち、ノイズ特性値生成器234は、スピーチ特性値生成器232がスピーチエネルギー値を生成する場合には、特定の時間におけるノイズエネルギー値(ENS(n))を生成するように構成されることができる。同様に、ノイズ特性値生成器234は、スピーチ特性値生成器232がスピーチ自己相関値を生成する場合には、特定の時間におけるノイズ自己相関値(ρNS(n))を生成するように構成されることができる。ノイズ自己相関値の絶対値が同様に取られてもよく、ノイズ自己相関値の要素が得られてもよい。
音声アクティビティメトリックモジュール240は、スピーチ特性値、ノイズ特性値及び随意の相互相関値に基づいて、音声アクティビティメトリックを生成するように構成されることができる。音声アクティビティメトリックモジュール240は、例えば、計算的に複雑でない音声アクティビティメトリックを生成するように構成されることができる。従って、VADモジュール230は、比較的少数の処理リソースを使用して、実質的にリアルタイムに、音声アクティビティ検出信号を生成することができる。一実施形態において、音声アクティビティメトリックモジュール240は、特性値の1以上の比、若しくは、特性値及び相互相関値の1以上の比、若しくは、特性値及び相互相関値の絶対値の1以上の比を決定するように構成される。
音声アクティビティメトリックモジュール240は、音声アクティビティメトリックを1以上の閾値と比較することにより、スピーチアクティビティの存在を決定するように構成されることができる比較器250に、メトリックを結合する。閾値の各々は、固定された所定の閾値とすることができ、或いは、閾値の1以上は、動的な閾値とすることができる。
一実施形態では、VADモジュール230は、スピーチアクティビティを決定するために、3つの異なる相関を決定する。スピーチ特性値生成器232は、スピーチ参照信号の自己相関ρSP(n)を生成し、ノイズ特性値生成器234は、ノイズ参照信号の自己相関ρNS(n)を生成し、さらに、相互相関モジュール236は、スピーチ参照信号及びノイズ参照信号の絶対値の相互相関ρ(n)を生成する。ここで、nは時間インデックスを表わす。過度の遅延を回避するために、相関を、下記の式を使用して、指数窓方法を使用して、近似的に計算することができる。自己相関に関しては、式は以下の通りである。
Figure 2010541010
相互相関に関しては、式は以下の通りである。
Figure 2010541010
上記の式において、ρ(n)は、時間nにおける相関である。s(n)は、時間nにおけるスピーチ又はノイズマイクロホン信号のうちの1つである。αは0と1との間の定数である。|*|は、絶対値を表わす。下記式のように、窓サイズNの矩形窓(square window)を使用して、相関を計算することもできる。
Figure 2010541010
VAD決定は、ρSP(n)、ρNS(n)及びρ(n)に基づいて、行われることができる。概して、下記式の通りである。
Figure 2010541010
以下の例では、2つのカテゴリのVAD決定を説明する。1つは、サンプリングに基づく(sample-based)VAD決定方法である。もう1つは、フレームに基づくVAD決定方法である。概して、自己相関又は相互相関の絶対値の使用に基づくVAD決定方法は、相互相関又は自己相関のより小さなダイナミックレンジを考慮に入れることになる。ダイナミックレンジの低減は、VAD決定方法のより安定した遷移を考慮に入れることになる。
サンプリングに基づくVAD決定
VADモジュールは、時間nにおいて計算された相関に基づいて、時間nにおけるスピーチ及びノイズサンプルの各ペアに関して、VAD決定を行うことができる。一例として、音声アクティビティメトリックモジュールは、3つの相関値の間の関係に基づいて、音声アクティビティメトリックを決定するように構成されることができる。
Figure 2010541010
量T(n)を、ρSP(n)、ρNS(n)、ρ(n)及びR(n)に基づいて、例えば以下のように、決定することができる。
Figure 2010541010
比較器は、R(n)及びT(n)に基づいて、例えば以下のように、VAD決定を行うことができる。
Figure 2010541010
具体例として、音声アクティビティメトリックR(n)を、スピーチ特性値生成器232からのスピーチ自己相関値ρSP(n)と相互相関モジュール236からの相互相関ρ(n)との間の比として定義することができる。時間nにおいて、音声アクティビティメトリックを、以下に示される比として定義することができる。
Figure 2010541010
音声アクティビティメトリックの上記の例では、音声アクティビティメトリックモジュール240は、値を制限する。音声アクティビティメトリックモジュール240は、分母をδより小さくならいように制限することにより、値を制限する。ここで、このδは、ゼロによる除算を回避するための微小な正数である。他の例として、R(n)を、ρC(n)とρNS(n)との間の比として、例えば以下のように、定義することができる。
Figure 2010541010
具体例として、量T(n)を固定の閾値としてもよい。RSP(n)を、目的とするスピーチが時間nまで存在する場合における最小の比とする。RNS(n)を、目的とするスピーチが時間nまで無い場合における最大の比とする。閾値T(n)は、以下のように、RNS(n)とRSP(n)との間に、若しくは、RNS(n)及びRSP(n)と同じに決定され、或いは、選択されることができる。
Figure 2010541010
閾値は、可変とすることもでき、目的とするスピーチ及びバックグラウンドノイズの変化に少なくとも部分的に基づいて、変わることができる。このような場合、RSP(n)及びRNS(n)は、最近のマイクロホン信号に基づいて決定されることができる。
比較器250は、音声アクティビティに関する決定を行うために、閾値を音声アクティビティメトリックと比較する。ここで、比R(n)である。この特定の例では、意思決定関数(decision making function)vad(*,*)は、以下のように定義されることができる。
Figure 2010541010
フレームに基づくVAD決定
VAD決定はまた、サンプルの全体のフレームが1つのVAD決定を生成して共有するように行われることができる。サンプルのフレームは、時間mと時間m+M−1との間に生成され、或いは、受信されることができ、ここで、Mはフレームサイズを表わす。
一例として、スピーチ特性値生成器232、ノイズ特性値生成器234及び合成特性値生成器236は、データの全体のフレームに関する相関を決定することができる。矩形窓を使用して計算された相関と比較すると、フレーム相関は、時間m+M−1において計算された相関、例えば、ρ(m+M−1)と等しい。
VAD決定は、2つのマイクロホン信号のエネルギー又は自己相関の値に基づいて、行われることができる。同様に、音声アクティビティメトリックモジュール240は、サンプリングに基づく実施形態に関して上記に説明されたような関係に基づいて、アクティビティメトリックを決定することができる。比較器は、閾値に基づく音声アクティビティ決定T(n)を基礎とすることができる。
信号改善後の信号に基づくVAD
スピーチ参照信号のSNRが低い場合、VAD決定は、積極的な(aggressive)傾向がある。スピーチのオンセット及びオフセット部分は、非スピーチセグメントであると分類されることができる。目的とするスピーチ信号が存在する場合に、スピーチ参照マイクロホン及びノイズ参照マイクロホンからの信号レベルが同様であれば、上記で説明されたVAD装置及び方法は、信頼できるVAD決定を提供しない可能性がある。このような場合、付加的な信号改善(signal enhancement)は、VADが信頼できる決定を行う助けとなるために、マイクロホン信号の1以上に適用されることができる。
信号改善は、目的とするスピーチ信号を変えることなしに、スピーチ参照信号におけるバックグラウンドノイズの量を低減すために実行されることができる。信号改善は、同様に、バックグラウンドノイズを変えることなしに、ノイズ参照信号におけるスピーチのレベル又は量を低減するために実行されてもよい。いくつかの実施形態では、信号改善は、スピーチ参照改善及びノイズ参照改善の組み合わせを実行してもよい。
図3は、音声アクティビティ検出器及びエコーキャンセレーション(echo cancellation)を備えたモバイルデバイス110の実施形態の簡略化された機能ブロック図である。モバイルデバイス110は、図2に示されるキャリブレータなしに示されているが、モバイルデバイス110におけるエコーキャンセレーションの実施は、キャリブレーションを排除するものではない。さらに、モバイルデバイス110は、デジタル領域においてエコーキャンセレーションを実行するが、エコーキャンセレーションのうちのいくつか又は全ては、アナログ領域において実行されてもよい。
モバイルデバイス110の音声処理部は、図2に示されたものと実質的に同様とすることができる。スピーチ参照マイクロホン112又はマイクロホンのグループは、スピーチ信号を受信し、SPLを、オーディオ信号から電気的なスピーチ参照信号に変換する。第1のADC212は、アナログスピーチ参照信号をデジタル表現に変換する。第1のADC212は、デジタル化されたスピーチ参照信号を、第1のコンバイナ352の第1入力に結合する。
同様に、ノイズ参照マイクロホン114又はマイクロホンのグループは、ノイズ信号を受信し、ノイズ参照信号を生成する。第2のADC214は、アナログノイズ参照信号をデジタル表現に変換する。第2のADC214は、デジタル化されたノイズ参照信号を、第2のコンバイナ354の第1入力に結合する。
第1及び第2のコンバイナ352及び354は、モバイルデバイス110のエコーキャンセレーション部の一部であってもよい。第1及び第2のコンバイナ352及び354は、例えば信号加算器、信号減算器、カプラー、変調器等であることができ、或いは、信号を合成するように構成された他の機器であってもよい。
モバイルデバイス110は、モバイルデバイス110からのオーディオ出力に起因するエコー信号を効率的に除去するために、エコーキャンセレーションを実装することができる。モバイルデバイス110は、ベースバンドプロセッサ等の信号ソース(図示せず)から、デジタル化された音声出力信号を受信し、デジタル化されたオーディオ信号をアナログ表現に変換する出力デジタル・アナログ変換器(DAC)310を含む。DAC310の出力は、スピーカ320等の出力トランスデューサに結合されることができる。受信器又はラウドスピーカでありうるスピーカ320は、アナログ信号をオーディオ信号に変換するように構成されることができる。モバイルデバイス110は、DAC310とスピーカ320との間に1以上の音声処理ステージを実装することができる。しかしながら、出力信号処理ステージは、簡単にするために示されない。
デジタル出力信号は、第1のエコーキャンセラ342及び第2のエコーキャンセラ344の入力にさらに結合されることができる。第1のエコーキャンセラ342は、スピーチ参照信号に適用されるエコーキャンセレーション信号を生成するように構成されることができ、一方で、第2のエコーキャンセラ344は、ノイズ参照信号に適用されるエコーキャンセレーション信号を生成するように構成されることができる。
第1のエコーキャンセラ342の出力は、第1のコンバイナ342の第2入力に結合されることができる。第2のエコーキャンセラ344の出力は、第2のコンバイナ344の第2入力に結合されることができる。コンバイナ352及び354は、合成信号をVADモジュール230に結合する。VADモジュール230は、図2に関して説明した方法で動作するように構成されることができる。
エコーキャンセラ342及び344の各々は、各々の信号線においてエコー信号を低減するエコーキャンセレーション信号、即ち、各々の信号線においてエコー信号を実質的に消去するエコーキャンセレーション信号を生成するように構成されることができる。エコーキャンセラ342及び344の各々は、各々のコンバイナ352及び354の出力におけるエコー除去された信号をサンプリングし、或いはモニタする入力を含むことができる。コンバイナ352及び354からの出力は、残余のエコーを最小化するために、個別のエコーキャンセラ342及び344によって使用されることができるエラーフィードバック信号として機能する。
エコーキャンセラ342及び344の各々は、例えば、エコーキャンセレーション信号を生成するために、増幅器、減衰器、フィルタ、遅延モジュール又はこれらの組み合わせを含むことができる。出力信号とエコー信号との間の高い相関は、エコーキャンセラ342及び344がエコー信号をより容易に検出して補正することを可能にすることができる。
他の実施形態では、スピーチ参照マイクロホンがマウス基準点に接近して配置されるという仮定が保たれないので、付加的な信号改善が望まれる。例えば、2つのマイクロホンは、2つのマイクロホン信号間の差が極めて小さくなるように、互いに接近して配置される場合がある。この場合、改善されていない信号は、信頼できるVAD決定を生成し損なう可能性がある。この場合、信号改善は、VAD決定を向上するために使用されることができる。
図4は、信号改善を含む音声アクティビティ検出器を備えたモバイルデバイス110の実施形態の簡略化された機能ブロック図である。前述のように、図2及び図3に関して上記で説明したキャリブレーション及びエコーキャンセレーション技術及び装置の一方又は両方は、信号改善に加えて実施されることができる。
モバイルデバイス110は、スピーチ信号を受信し、かつ、SPLをオーディオ信号から電気的なスピーチ参照信号に変換するように構成されたスピーチ参照マイクロホン112又はマイクロホンのグループを含む。第1のADC212は、アナログスピーチ参照信号をデジタル表現に変換する。第1のADC212は、デジタル化したスピーチ参照信号を、信号改善モジュール400の第1入力に結合する。
同様に、ノイズ参照マイクロホン114又はグループのマイクロホンは、ノイズ信号を受信して、ノイズ参照信号を生成する。第2のADC214は、アナログノイズ参照信号をデジタル表現に変換する。第2のADC214は、デジタル化したノイズ参照信号を、信号改善モジュール400の第2入力に結合する。
信号改善モジュール400は、改善されたスピーチ参照信号(enhanced speech reference signal)及び改善されたノイズ参照信号(enhanced noise reference signal)を生成するように構成されることができる。信号改善モジュール400は、改善されたスピーチ及びノイズ参照信号を、VADモジュール230に結合する。VADモジュール230は、音声アクティビティ決定をするために、改善されたスピーチ及びノイズ参照信号に対して動作する。
ビームフォーミング又は信号分離の後の信号に基づくVAD
信号改善モジュール400は、センサ指向性を作り出す適応ビームフォーミングを実行するように構成されることができる。信号改善モジュール400は、1セットのフィルタを使用して、かつ、マイクロホンをセンサアレイとして扱って、適用ビームフォーミングを実行する。このセンサ指向性は、複数の信号ソースが存在する場合に、目的とする信号を抽出するために使用されることができる。種々のビームフォーミングアルゴリズムがセンサ指向性を実現するのに利用可能である。ビームフォーミングアルゴリズム又は複数のビームフォーミングアルゴリズムの併用のインスタンス化は、ビームフォーマと称される。2つのマイクロホンスピーチ通信では、ビームフォーマは、バックグラウンドノイズが低減されている改善されたスピーチ参照信号を生成するために、センサ方向をマウス基準点に向けるために使用されることができる。ビームフォーマは、目的とするスピーチが低減されている改善されたノイズ参照信号をさらに生成することができる。
図4Bは、スピーチ及びノイズ参照マイクロホン112及び114をビームフォーミングする信号改善モジュール400の実施形態の簡略化された機能ブロック図である。
信号改善モジュール400は、第1のマイクロホンアレイを含むスピーチ参照マイクロホン112−1〜112−nのセットを含む。スピーチ参照マイクロホン112−1〜112−nの各々は、その出力を、対応するフィルタ412−1〜412−nに結合することができる。フィルタ412−1〜412−nの各々は、第1のビームフォーミングコントローラ420−1によって制御されうる応答を提供する。各フィルタ、例えば、412−1は、可変遅延、スペクトル応答、利得又は他のパラメータを提供するように制御されることができる。
第1のビームフォーミングコントローラ420−1は、ビームの所定のセットに対応していて、フィルタ制御信号の所定のセットで構成されることができ、或いは、連続的な方法においてビームを効果的に導く所定のアルゴリズムに従って、フィルタ応答を変えるように構成されることができる。
フィルタ412−1〜412の各々は、そのフィルタリングされた(filtered)信号を、第1のコンバイナ430−1の対応する入力に出力する。第1のコンバイナ430−1の出力は、ビームフォーミングされたスピーチ参照信号であることができる。
ノイズ参照信号は、第2のマイクロホンアレイを含むノイズ参照マイクロホン114−1〜114−kのセットを使用して、同様にビームフォーミングされることができる。ノイズ参照マイクロホンの数kは、スピーチ参照マイクロホンの数nとは異なっていてもよく、スピーチ参照マイクロホンの数nと同数であってもよい。
図4Bのモバイルデバイス110は、別個のスピーチ参照マイクロホン112−1〜112−n及びノイズ参照マイクロホン114−1〜114−kを示すが、他の実施形態では、スピーチ参照マイクロホン112−1〜112−nのいくつか又は全ては、ノイズ参照マイクロホン114−1〜114−kとして使用されることができる。例えば、スピーチ参照マイクロホン112−1〜112−nのセットは、ノイズ参照マイクロホン114−1〜114−kのセットに使用されるものと同じマイクロホンであることができる。
ノイズ参照マイクロホン114−1〜114−kの各々は、その出力を、対応するフィルタ414−1〜414−kに結合する。フィルタ414−1〜414−kの各々は、第2のビームフォーミングコントローラ420−2によって制御されることができる応答を提供する。各フィルタ、例えば、414−1は、可変遅延、スペクトル応答、利得又は他のパラメータを提供するように制御されることができる。第2のビームフォーミングコントローラ420−2は、ビーム構成の所定の個別の数を提供するようにフィルタ414−1〜414−kを制御することができ、或いは、実質的に連続的な方法でビームを導くように構成されることができる。
図4Bの信号改善モジュール400では、個別のビームフォーミングコントローラ420−1及び420−2は、スピーチ及びノイズ参照信号を独立してビームフォーミングするために使用される。しかしながら、他の実施形態では、単一のビームフォーミングコントローラは、スピーチ参照信号及びノイズ参照信号の両方をビームフォーミングするために使用されることができる。
信号改善モジュール400は、ブラインドソース分離を実行してもよい。ブラインドソース分離(BSS)は、これらの信号の混合物の測定を使用して、独立したソース信号を回復する方法である。ここで、用語「ブラインド」は、2通りの意味を持っている。第1に、オリジナルの信号、即ち、ソース信号が知られていない。第2に、混合処理が知られていなくてもよい。信号分離を実現することができる種々のアルゴリズムがある。2マイクロホンスピーチ通信(two-microphone speech communications)では、BSSは、スピーチ及びバックグラウンドノイズを分離するために使用されることができる。信号分離の後、スピーチ参照信号におけるバックグラウンドノイズは、いくらか低減されていることができ、ノイズ参照信号におけるスピーチは、いくらか低減されていることができる。
信号改善モジュール400は、例えば、以下の文献のいずれか1つに説明されているBSS方法及び装置のうちの1つを実施してもよい。BSS方法及び装置が説明されている文献としては、例えば、S. Amari, A. Cichocki, and H. H. Yang著“A new learning algorithm for blind signal separation”(”Advances in Neural Information Processing Systems 8”、エムアイティプレス(MIT Press)、1996年)、L. Molgedey and H. G. Schuster著“Separation of a mixture of independent signals using time delayed correlations”(フィジカルレビューレターズ第72巻第23号:3634〜3637頁、1994年(Phys. Rev. Lett., 72(23): 3634-3637, 1994))、及びL. Parra and C. Spence著"Convolutive blind source separation of non-stationary sources"(IEEE Trans. on Speech and Audio Processing, 8(3): 320-327頁、2000年5月)がある。
より積極的な信号改善に基づくVAD
バックグラウンドノイズレベルが非常に高い場合があり、その結果、信号のSNRがビームフォーミング又は信号分離の後にもよくならないことがある。この場合、スピーチ参照信号における信号のSNRは、さらに改善されることができる。例えば、信号改善モジュール400は、スピーチ参照信号のSNRをさらに改善するために、スペクトルサブトラクション(spectral subtraction)を実行することができる。ノイズ参照信号は、この場合、改善される必要があるかもしれないし、改善される必要がないかもしれない。
信号改善モジュール400は、例えば、以下に示すいずれか1つに説明されているスペクトルサブトラクション方法及び装置のうちの1つを実施してもよい。スペクトルサブトラクション方法及び装置が説明されている文献としては、例えば、S. F. Boll著 “Suppression of Acoustic Noise in Speech Using Spectral Subtraction,”(IEEE Trans. Acoustics, Speech and Signal Processing, 27(2):112-120頁、1979年4月)、R. Mukai, S. Araki, H. Sawada and S. Makino著“Removal of residual crosstalk components in blind source separation using LMS filters,”(Proc. of 12th IEEE Workshop on Neural Networks for Signal Processing, pp. 435-444, Martigny, Switzerland、2002年9月)、及びR. Mukai, S. Araki, H. Sawada and S. Makino著 “Removal of residual cross-talk components in blind source separation using time-delayed spectral subtraction,”(Proc. of ICASSP 2002, pp. 1789-1792、2002年5月)がある。
潜在的応用
ここに説明されるVAD方法及び装置は、バックグラウンドノイズを抑制するために使用されることができる。以下に提供される例は、可能な応用を網羅するものではなく、ここに説明される複数マイクロホンVAD装置及び方法の応用範囲を制限するものではない。説明されるVAD方法及び装置は、VAD決定が必要であり、かつ、複数マイクロホン信号が利用可能であるいかなる応用にも潜在的に使用されることができる。VADは、実時間信号処理に適しているが、オフラインの信号処理応用における潜在的な実施を制限するものではない。
図5は、随意の信号改善を含む音声アクティビティ検出器を備えたモバイルデバイス110の実施形態の簡略化された機能ブロック図である。VADモジュール230からのVAD決定は、可変利得増幅器510の利得を制御するために使用されることができる。
VADモジュール230は、出力音声アクティビティ検出信号を、利得生成器520、即ち、コントローラの入力に結合することができ、利得生成器520は、スピーチ参照信号に適用される利得を制御するように構成される。一実施形態では、利得生成器520は、可変利得増幅器510によって適用される利得を制御するように構成される。可変利得増幅器510は、デジタル領域において実行されるように示され、例えば、スケーラ、乗算器、シフトレジスタ、レジスタローテータ(register rotator)等、又はこれらの組み合わせとして実現されることができる。
一例として、2マイクロホンVADによって制御されるスカラー利得は、スピーチ参照信号に適用されることができる。具体例として、可変利得増幅器510からの利得は、スピーチが検出される場合には、1に設定されることができる。可変利得増幅器510からの利得は、スピーチが検出されない場合には、1未満に設定されることができる。
可変利得増幅器510は、デジタル領域に示されるが、可変利得は、スピーチ参照マイクロホン112からの信号に直接適用されることができる。可変利得は、デジタル領域においてスピーチ参照信号に、或いは、図5に示されるような信号改善モジュール400から得られる改善されたスピーチ参照信号に適用することもできる。
ここに説明されるVAD方法及び装置は、最新のスピーチ符号化の助けとなるように使用されることもできる。図6は、音声符号化を制御する音声アクティビティ検出器を備えたモバイルデバイス110の実施形態の簡略化された機能ブロック図である。
図6の実施形態では、VADモジュール230は、VAD決定を、スピーチコーダ(speech coder)600の制御入力に結合する。
一般に、最新のスピーチコーダは、内部音声アクティビティ検出器を備えており、この内部音声アクティビティ検出器は、慣例では、1つのマイクロホンからの信号又は改善された信号を使用している。信号改善モジュール400によって提供さるような2マイクロホン信号改善を使用することによって、内部VADによって受信される信号は、オリジナルのマイクロホン信号よりよいSNRを有している。従って、改善された信号を使用する内部VADがより信頼できる決定を行うことができると考えられる。内部VAD及び外部VADからの決定を併用することによって、2つの信号を使用して、より信頼できるVAD決定を得ることが可能である。例えば、スピーチコーダ600は、VADモジュール230からのVAD決定及び内部VAD決定の論理結合(logical combination)を実行するように構成されることができる。スピーチコーダ600は、例えば、2つの信号の論理AND又は論理ORに関して動作することができる。
図7は、音声アクティビティ検出の簡略化された方法700のフローチャートである。方法700は、図1のモバイルデバイス、又は図2〜6に関連して説明された装置及び技術の組み合わせによって実現されることができる。
方法700は、特定の実施において省略される可能性がある複数の随意のステップを含んで説明される。さらに、方法700は、例証の目的だけのために、特定の順序で実行されるように説明され、ステップのいくつかは、異なる順序で実行されてもよい。
方法は、ブロック710から始まり、ブロック710において、まず、モバイルデバイスは、キャリブレーションを行なう。モバイルデバイスは、例えば、スピーチ参照信号経路及びノイズ参照信号経路の応答を実質的に等しくするために、周波数の選択的な利得、減衰又は遅延を導入することができる。
キャリブレーション後に、モバイルデバイスは、ブロック722に進み、参照マイクロホンからスピーチ参照信号を受信する。スピーチ参照信号は、音声アクティビティの存在又は不在を含んでいてもよい。
モバイルデバイスは、ブロック724に進み、ノイズ参照マイクロホンからの信号に基づく、キャリブレーションモジュールからのキャリブレーションされたノイズ参照信号を同時に受信する。ノイズ参照マイクロホンは、必ずしもそうとは限らないが、スピーチ参照マイクロホンと比較して低減したレベルの音声信号を結合する。
例えば、スピーチ及びノイズ参照信号の一方又は両方に結合されているオーディオ信号を出力する場合には、モバイルデバイスは、随意のブロック728に進み、受信したスピーチ及びノイズ信号にエコーキャンセレーションを実行する。
モバイルデバイスは、ブロック730に進み、スピーチ参照信号及びノイズ参照信号の信号改善を随意に実行する。モバイルデバイスは、例えば物理的な制限により、ノイズ参照マイクロホンからスピーチ参照マイクロホンを引き離すことができないデバイスに信号改善を含んでもよい。移動局が信号改善を行なう場合、その後の処理は、改善されたスピーチ参照信号及び改善されたノイズ参照信号に対して実行されることになる。信号改善が省略される場合、モバイルデバイスは、スピーチ参照信号及びノイズ参照信号に対して動作することになる。
モバイルデバイスは、ブロック742に進み、スピーチ参照信号に基づいて、スピーチ特性値を決定し、或いは計算し、或いは生成する。モバイルデバイスは、複数のサンプルに基づいて、或いは、前述のサンプルの加重平均に基づいて、或いは、前述のサンプルの指数関数的減衰に基づいて、或いは、サンプルの所定の窓に基づいて、特定のサンプルに関連があるスピーチ特性値を決定するように構成されることができる。
一実施形態において、モバイルデバイスは、スピーチ参照信号の自己相関を決定するように構成される。他の実施形態では、モバイルデバイスは、受信した信号のエネルギーを決定するように構成される。
モバイルデバイスは、ブロック744に進み、相補的なノイズ特性値を決定し、或いは計算し、或いは生成する。移動局は、概して、スピーチ特性値を生成するのに使用されるものと同じ技術を使用して、ノイズ特性値を決定する。即ち、モバイルデバイスがフレームに基づくスピーチ特性値を決定する場合、モバイルデバイスは、同様にして、フレームに基づくノイズ特性値を決定する。同様に、モバイルデバイスがスピーチ特性値として自己相関を決定する場合、モバイルデバイスは、ノイズ特性値としてノイズ信号の自己相関を決定する。
移動局は、ブロック746に随意的に進み、スピーチ参照信号及びノイズ参照信号の両方に少なくとも部分的に基づいて、相補的な合成特性値(combined characteristic value)を決定し、或いは計算し、或いは生成する。例えば、モバイルデバイスは、2つの信号の相互相関を決定するように構成されることができる。他の実施形態では、例えば音声アクティビティメトリックが合成特性値に基づかない場合などに、モバイルデバイスは、合成特性値を決定することを省略してもよい。
モバイルデバイスは、ブロック750に進み、スピーチ特性値、ノイズ特性値及び合成特性値のうちの1以上に少なくとも部分的に基づいて、音声アクティビティメトリックを決定し、或いは計算し、或いは生成する。一実施形態において、モバイルデバイスは、合成相互相関値(combined cross correlation value)に対するスピーチ自己相関値の比を決定するように構成される。他の実施形態では、モバイルデバイスは、ノイズエネルギー値に対するスピーチエネルギー値の比を決定するように構成される。モバイルデバイスは、他の技術を使用して、他のアクティビティメトリックを同様に決定してもよい。
モバイルデバイスは、ブロック760に進み、音声アクティビティ決定を行い、或いは音声アクティビティ状態を決定する。例えば、モバイルデバイスは、音声アクティビティメトリックを1以上の閾値と比較することによって、音声アクティビティ決定を行ってもよい。閾値は、固定されていてもよく、動的であってもよい。一実施形態において、音声アクティビティメトリックが所定の閾値を超える場合、モバイルデバイスは、音声アクティビティの存在を決定する。
音声アクティビティ状態を決定した後に、モバイルデバイスは、ブロック770に進み、音声アクティビティ状態に部分的に基づいて、1以上のパラメータ又は制御を変更し、或いは調整し、或いは修正する。例えば、モバイルデバイスは、音声アクティビティ状態に基づいて、スピーチ参照信号増幅器の利得を設定することができ、或いは、スピーチコーダを制御するために音声アクティビティ状態を使用することができ、或いは、スピーチコーダ状態を制御するために、他のVAD決定と組み合わせて、音声アクティビティ状態を使用することができる。
モバイルデバイスは、判断ブロック780に進み、再キャリブレーションが要求されるか否かを判断する。モバイルデバイスは、1以上のイベント及び期間等、又はこれらの組み合わせの経過(passage)時にキャリブレーションを実行することができる。再キャリブレーションが要求される場合、モバイルデバイスは、ブロック710に戻る。そうでなければ、モバイルデバイスは、ブロック722に戻り、音声アクティビティのために、スピーチ及びノイズ参照信号をモニタし続ける。
図8は、キャリブレーションされた複数マイクロホン音声アクティビティ検出器及び信号改善を備えたモバイルデバイス800の実施形態の簡略化された機能ブロック図である。モバイルデバイス800は、スピーチ参照マイクロホン812と、ノイズ参照マイクロホン814と、スピーチ参照信号をデジタル表現に変換する手段822と、ノイズ参照信号をデジタル表現に変換する手段824と、スピーチ参照信号におけるエコーを除去する手段842と、ノイズ参照信号におけるエコーを除去する手段844と、を含む。エコーを除去する手段は、除去する手段からの出力と信号832及び834とを合成する手段と連動して動作する。
エコーが除去されたスピーチ及びノイズ参照信号は、ノイズ参照信号経路のスペクトル応答と実質的に同様になるように、スピーチ参照信号経路のスペクトル応答をキャリブレーションする手段850に結合することができる。スピーチ及びノイズ参照信号は、スピーチ参照信号及びノイズ参照信号の少なくとも1つを改善する手段856にさらに結合することができる。改善する手段856が使用される場合、音声アクティビティメトリックは、改善されたスピーチ参照信号及び改善されたノイズ参照信号のうちの1つに少なくとも部分的に基づいている。
音声アクティビティを検出する手段860は、スピーチ参照信号に基づいて、自己相関を決定する手段と、スピーチ参照信号及びノイズ参照信号に基づいて、相互相関を決定する手段と、相互相関に対する、スピーチ参照信号の自己相関の比に部分的に基づいて、音声アクティビティメトリックを決定する手段と、音声アクティビティメトリックを、少なくとも1つの閾値と比較することにより、音声アクティビティ状態を決定する手段と、を含むことができる。
音声アクティビティ検出のための方法及び装置、並びに、音声アクティビティ状態に基づいてモバイルデバイスの1以上の部分の動作を変更することは、ここに説明されている。ここに提示されるVAD方法及び装置は、単独で使用されることができ、ここに提示されるVAD方法及び装置は、より信頼できるVAD決定を行うために従来のVAD方法及び装置と組み合わされることができる。一例として、開示されたVAD方法は、音声アクティビティのより信頼できる決定を行うために、ゼロ交差方法と組み合わされることができる。
上記に説明された機能のうちのいくつか又は全てを回路が実現してもよいことを当業者が認識することは、注目されるべきである。1つの回路によって全ての機能が実現されてもよい。第2の回路と組み合わせた、回路の複数のセクションによって、全ての機能が実現されてもよい。一般に、複数の機能が回路により実現される場合、その回路は、集積回路でありうる。一般に知られているモバイルプラットフォーム技術とともに、集積回路は、少なくとも1つのデジタル信号プロセッサ(DSP)と、少なくとも1つのDSPを制御し、かつ/或いは、少なくとも1つのDSPに伝達する少なくとも1つのARMプロセッサとを含む。回路は、セクションによって表現されてもよい。しばしば、セクションは、異なる機能を実行するために再利用される。従って、回路が上述したもののうちのいくつかを含むように説明する際には、回路の第1のセクション、第2のセクション、第3のセクション、第4のセクション及び第5のセクションが同じ回路であってもよく、より大規模な回路の一部又は回路のセットである異なる回路であってもよいことは、当業者に理解される。
回路は、音声アクティビティを検出するように構成されてもよく、この回路は、スピーチ参照マイクロホンから出力スピーチ参照信号を受信するように構成された第1のセクションを含む。同じ回路、異なる回路、若しくは同じ回路又は異なる回路の第2のセクションは、ノイズ参照マイクロホンから出力基準信号を受信するように構成されることができる。さらに、第1のセクションに結合され、スピーチ特性値を決定するように構成されたスピーチ特性値生成器を含む同じ回路、異なる回路、若しくは同じ回路又は異なる回路の第3のセクションがありうる。第1のセクション及び第2のセクションに結合され、合成特性値を決定するように構成された合成特性値生成器を含む第4のセクションは、集積回路の一部であってもよい。さらに、スピーチ特性値及び合成特性値に少なくとも部分的に基づいて、音声アクティビティメトリックを決定するように構成された音声アクティビティメトリックモジュールを含む第5のセクションは、集積回路の一部であってもよい。音声アクティビティメトリックを閾値と比較し、かつ音声アクティビティ状態を出力するために、比較器が使用されることができる。一般に、セクション(第1、第2、第3、第4又は第5のセクション)のいずれも、集積回路の一部であってもよく、集積回路から分離されていてもよい。即ち、セクションは、夫々1つのより大規模な回路の一部であってもよく、セクションは、夫々、別個の集積回路であってもよく、或いは、これら2つの組み合わせであってもよい。
上述したように、スピーチ参照マイクロホンは、複数のマイクロホンを含み、スピーチ特性値生成器は、スピーチ参照信号の自己相関を決定するように、かつ/或いは、スピーチ参照信号のエネルギーを決定するように、かつ/或いは、構成され、かつ、又は、前のスピーチ特性値の指数関数的減衰に基づいて加重平均を決定するように、構成されることができる。スピーチ特性値生成器の機能は、上述されるような回路の1以上のセクションにより実現されてもよい。
ここで使用されるように、用語「結合された(coupled)」又は「接続された(connected)」は、直接的な結合又は接続のみならず、間接的な結合も意味するように使用される。2以上のブロック、モジュール、デバイス又は装置が結合される場合、2つの結合されたブロックの間に1以上の介在するブロックがあってもよい。
ここに開示されている実施形態に関連して説明される種々の例示的なロジック、論理ブロック、モジュール及び回路は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、簡略化命令コンピュータ(RISC)プロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)又は他のプログラム可能な論理素子、ディスクリートゲート又はトランジスタロジック(discrete gate or transistor logic)、離散ハードウェアコンポーネント、或いはここに説明される機能を実行するように設計されたこれらの任意の組み合わせによって実施又は実行されることができる。汎用プロセッサは、マイクロプロセッサとすることができるが、これに代えて、このプロセッサは、いかなる従来のプロセッサ、コントローラ、マイクロコントローラ又は状態機械であってもよい。プロセッサは、コンピュータ装置の組み合わせ、例えば、DSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、DSPコアと連結した1以上のマイクロプロセッサ、又は任意の他のそのような構成として実施されてもよい。
さらに、ここに開示される実施形態に関連して説明される方法、プロセス又はアルゴリズムのステップ及び/又は動作は、ハードウェアで直接に、プロセッサによって実行されるソフトウェアモジュールで、又はこれら2つの組み合わせで具現化されることができる。ステップ又は方法における種々の処理又は動作は、示された順序で実行されてもよく、或いは他の順序で実行されてもよい。さらに、1以上の処理又は方法ステップは、省略されてもよく、1以上の処理又は方法ステップは、方法及び処理に追加されてもよい。追加のステップ、ブロック又は動作は、方法及び処理の最初、最後又は途中の既存の要素に追加されてもよい。
開示された実施形態の上記の説明は、当業者が本開示を作製又は使用することを可能にするために提供される。これらの実施形態に対する種々の変形は、容易に明らかであり、ここに定義された一般原理は、本開示の精神又は範囲から逸脱することなしに、他の実施形態に適用されてもよい。従って、本開示は、ここに示された実施形態に限定するように意図するものではなく、ここに開示された原理及び新規な特徴と一致する最も広い範囲を与えられるべきである。

Claims (25)

  1. 音声アクティビティを検出する方法であって、
    スピーチ参照マイクロホンからスピーチ参照信号を受信することと、
    前記スピーチ参照信号とは異なるノイズ参照マイクロホンから、ノイズ参照信号を受信することと、
    前記スピーチ参照信号に少なくとも部分的に基づいて、スピーチ特性値を決定することと、
    前記スピーチ参照信号及び前記ノイズ参照信号に少なくとも部分的に基づいて、合成特性値を決定することと、
    前記スピーチ特性値及び前記合成特性値に少なくとも部分的に基づいて、音声アクティビティメトリックを決定することと、ここで、前記スピーチ特性値を決定することが、前記スピーチ参照信号の自己相関の絶対値を決定することを含み、
    前記音声アクティビティメトリックに基づいて、音声アクティビティ状態を決定することと、
    を具備する方法。
  2. 前記スピーチ参照信号及び音声参照信号の少なくとも一方をビームフォーミングすることをさらに具備する請求項1の方法。
  3. 前記スピーチ参照信号中のスピーチ信号成分を改善するために、前記スピーチ参照信号及び前記ノイズ参照信号に対して、ブラインドソース分離(BSS)を実行することをさらに具備する請求項1の方法。
  4. 前記スピーチ参照信号及び前記ノイズ参照信号の少なくとも一方に対して、スペクトルサブトラクションを実行することをさらに具備する請求項1の方法。
  5. 前記ノイズ参照信号に少なくとも部分的に基づいて、ノイズ特性値を決定することをさらに具備し、前記音声アクティビティメトリックが前記ノイズ特性値に少なくとも部分的に基づいている、請求項1の方法。
  6. 前記スピーチ参照信号は、音声アクティビティの有無を含む、請求項1の方法。
  7. 前記自己相関は、特定の時間インスタントにおけるスピーチ参照エネルギーを用いた前の自己相関の加重和を含む、請求項6の方法。
  8. 前記スピーチ特性値を決定することは、前記スピーチ参照信号のエネルギーを決定することを含む、請求項1の方法。
  9. 前記合成特性値を決定することは、前記スピーチ参照信号及び前記ノイズ参照信号に基づいて、相互相関を決定することを含む、請求項1の方法。
  10. 前記音声アクティビティ状態を決定することは、前記音声アクティビティメトリックを閾値と比較することを含む、請求項1の方法。
  11. 前記スピーチ参照マイクロホンは、少なくとも1つのスピーチマイクロホンを含み、
    前記ノイズ参照マイクロホンは、前記少なくとも1つのスピーチマイクロホンとは異なる少なくとも1つのノイズマイクロホンを含み、
    前記スピーチ特性値を決定することは、前記スピーチ参照信号に基づいて自己相関を決定することを含み、
    前記合成特性値を決定することは、前記スピーチ参照信号及び前記ノイズ参照信号に基づいて、相互相関を決定することを含み、
    前記音声アクティビティメトリックを決定することは、前記スピーチ参照信号の前記自己相関の絶対値と前記相互相関との比を決定することに部分的に基づいていて、
    前記音声アクティビティ状態を決定することは、前記音声アクティビティメトリックを少なくとも1つの閾値と比較することを含む、請求項1の方法。
  12. 前記スピーチ参照信号及び前記ノイズ参照信号のうちの少なくとも一方の信号改善を実行することをさらに具備し、前記音声アクティビティメトリックは、改善されたスピーチ参照信号及び改善されたノイズ参照信号のうちの一方に少なくとも部分的に基づいている、請求項11の方法。
  13. 前記音声アクティビティ状態に基づいて、動作パラメータを変えることをさらに具備する請求項11の方法。
  14. 前記動作パラメータは、前記スピーチ参照信号に適用される利得を含む、請求項13の方法。
  15. 前記動作パラメータは、前記スピーチ参照信号に関して動作するスピーチコーダの状態を含む、請求項13の方法。
  16. 音声アクティビティを検出するように構成された装置であって、
    スピーチ参照信号を出力するように構成されたスピーチ参照マイクロホンと、
    ノイズ参照信号を出力するように構成されたノイズ参照マイクロホンと、
    前記スピーチ参照マイクロホンに結合され、スピーチ特性値を決定するように構成されたスピーチ特性値生成器と、ここで、前記スピーチ特性値を決定することは、前記スピーチ参照信号の自己相関の絶対値を決定することを含み、
    前記スピーチ参照マイクロホン及び前記ノイズ参照マイクロホンに結合され、合成特性値を決定するように構成された合成特性値生成器と、
    前記スピーチ特性値及び前記合成特性値に少なくとも部分的に基づいて、音声アクティビティメトリックを決定するように構成された音声アクティビティメトリックモジュールと、
    前記音声アクティビティメトリックを閾値と比較して、音声アクティビティ状態を出力するように構成された比較器と、
    を具備する装置。
  17. 前記スピーチ参照マイクロホンは、複数のマイクロホンを含む、請求項16の装置。
  18. 前記スピーチ特性値生成器は、前のスピーチ特性値の指数関数的減衰に基づいて、加重平均を決定するように構成される、請求項16の装置。
  19. 前記合成特性値生成器は、前記スピーチ参照信号及び前記ノイズ参照信号に基づいて、相互相関を決定するように構成される、請求項16の装置、
  20. 前記音声アクティビティメトリックモジュールは、前記ノイズ特性値に対する前記スピーチ特性値の比を決定するように構成される請求項16の装置。
  21. 音声アクティビティを検出するように構成された装置であって、
    スピーチ参照信号を受信する手段と、
    ノイズ参照信号を受信する手段と、
    前記スピーチ参照信号に基づいて、自己相関を決定する手段と、
    前記スピーチ参照信号及び前記ノイズ参照信号に基づいて、相互相関を決定する手段と、
    前記相互相関に対する、前記スピーチ参照信号の前記自己相関の絶対値の比に部分的に基づいて、音声アクティビティメトリックを決定する手段と、
    前記音声アクティビティメトリックを少なくとも1つの閾値と比較することによって、音声アクティビティ状態を決定する手段と、
    を具備する装置。
  22. ノイズ参照信号経路のスペクトル応答と実質的に同じになるように、スピーチ参照信号経路のスペクトル応答をキャリブレーションする手段をさらに具備する請求項21の装置。
  23. 1以上のプロセッサによって利用可能な命令を含むコンピュータ読み取り可能媒体であって、
    少なくとも1つのスピーチ参照マイクロホンからのスピーチ参照信号に少なくとも部分的に基づいて、スピーチ特性値を決定するための命令と、ここで、前記スピーチ特性値を決定することは、前記スピーチ参照信号の自己相関の絶対値を決定することを含み、
    前記スピーチ参照信号、及び少なくとも1つのノイズ参照マイクロホンからのノイズ参照信号に少なくとも部分的に基づいて、合成特性値を決定するための命令と、
    前記スピーチ特性値及び前記合成特性値に少なくとも部分的に基づいて、音声アクティビティメトリックを決定するための命令と、
    前記音声アクティビティメトリックに基づいて、音声アクティビティ状態を決定するための命令と、
    を具備するコンピュータ読み取り可能媒体。
  24. 音声アクティビティを検出するように構成された回路であって、
    スピーチ参照マイクロホンから出力スピーチ参照信号を受信するように構成された第1セクションと、
    ノイズ参照マイクロホンから出力参照信号を受信するように構成された第2のセクションと、
    前記第1セクションに結合され、スピーチ特性値を決定するように構成されたスピーチ特性値生成器を備えた第3のセクションと、ここで、前記スピーチ特性値を決定することは、前記スピーチ参照信号の自己相関の絶対値を決定することを含み、
    前記第1セクション及び前記第2のセクションに結合され、合成特性値を決定するように構成された合成特性値生成器を備えた第4のセクションと、
    前記スピーチ特性値及び前記合成特性値に少なくとも部分的に基づいて、音声アクティビティメトリックを決定するように構成された音声アクティビティメトリックモジュールを備えた第5のセクションと、
    前記音声アクティビティメトリックを閾値と比較して、音声アクティビティ状態を出力するように構成された比較器と、
    を具備する回路。
  25. 前記第1セクション、前記第2のセクション、前記第3のセクション、前記第4のセクション及び前記第5のセクションからなる群のいずれか2つのセクションは、同じ回路からなる、請求項24の回路。
JP2010527214A 2007-09-28 2008-09-26 複数マイクロホン音声アクティビティ検出器 Active JP5102365B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/864,897 US8954324B2 (en) 2007-09-28 2007-09-28 Multiple microphone voice activity detector
US11/864,897 2007-09-28
PCT/US2008/077994 WO2009042948A1 (en) 2007-09-28 2008-09-26 Multiple microphone voice activity detector

Publications (2)

Publication Number Publication Date
JP2010541010A true JP2010541010A (ja) 2010-12-24
JP5102365B2 JP5102365B2 (ja) 2012-12-19

Family

ID=40002930

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010527214A Active JP5102365B2 (ja) 2007-09-28 2008-09-26 複数マイクロホン音声アクティビティ検出器

Country Status (12)

Country Link
US (1) US8954324B2 (ja)
EP (1) EP2201563B1 (ja)
JP (1) JP5102365B2 (ja)
KR (1) KR101265111B1 (ja)
CN (1) CN101790752B (ja)
AT (1) ATE531030T1 (ja)
BR (1) BRPI0817731A8 (ja)
CA (1) CA2695231C (ja)
ES (1) ES2373511T3 (ja)
RU (1) RU2450368C2 (ja)
TW (1) TWI398855B (ja)
WO (1) WO2009042948A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013520707A (ja) * 2010-02-24 2013-06-06 クゥアルコム・インコーポレイテッド 複数の音声区間検出器に基づく音声区間検出
WO2014054314A1 (ja) * 2012-10-03 2014-04-10 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
JP2017530409A (ja) * 2014-09-26 2017-10-12 サイファ,エルエルシー ランニング範囲正規化を利用したニューラルネットワーク音声活動検出
JP2018031910A (ja) * 2016-08-25 2018-03-01 日本電信電話株式会社 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム、信号処理学習装置
JP2020201337A (ja) * 2019-06-07 2020-12-17 ヤマハ株式会社 音声処理装置及び音声処理方法

Families Citing this family (113)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8280072B2 (en) 2003-03-27 2012-10-02 Aliphcom, Inc. Microphone array with rear venting
US8019091B2 (en) 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
US8326611B2 (en) * 2007-05-25 2012-12-04 Aliphcom, Inc. Acoustic voice activity detection (AVAD) for electronic systems
US9066186B2 (en) 2003-01-30 2015-06-23 Aliphcom Light-based detection for acoustic applications
US8477961B2 (en) * 2003-03-27 2013-07-02 Aliphcom, Inc. Microphone array with rear venting
US9099094B2 (en) 2003-03-27 2015-08-04 Aliphcom Microphone array with rear venting
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8503686B2 (en) 2007-05-25 2013-08-06 Aliphcom Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems
US8321213B2 (en) * 2007-05-25 2012-11-27 Aliphcom, Inc. Acoustic voice activity detection (AVAD) for electronic systems
US8046219B2 (en) * 2007-10-18 2011-10-25 Motorola Mobility, Inc. Robust two microphone noise suppression system
DE602008002695D1 (de) * 2008-01-17 2010-11-04 Harman Becker Automotive Sys Postfilter für einen Strahlformer in der Sprachverarbeitung
US8483854B2 (en) 2008-01-28 2013-07-09 Qualcomm Incorporated Systems, methods, and apparatus for context processing using multiple microphones
US8184816B2 (en) * 2008-03-18 2012-05-22 Qualcomm Incorporated Systems and methods for detecting wind noise using multiple audio sources
US9113240B2 (en) * 2008-03-18 2015-08-18 Qualcomm Incorporated Speech enhancement using multiple microphones on multiple devices
US8812309B2 (en) * 2008-03-18 2014-08-19 Qualcomm Incorporated Methods and apparatus for suppressing ambient noise using multiple audio signals
US8606573B2 (en) * 2008-03-28 2013-12-10 Alon Konchitsky Voice recognition improved accuracy in mobile environments
EP2107553B1 (en) * 2008-03-31 2011-05-18 Harman Becker Automotive Systems GmbH Method for determining barge-in
WO2009130388A1 (en) * 2008-04-25 2009-10-29 Nokia Corporation Calibrating multiple microphones
US8275136B2 (en) * 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
US8244528B2 (en) 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
CN101983402B (zh) * 2008-09-16 2012-06-27 松下电器产业株式会社 声音分析装置、方法、系统、合成装置、及校正规则信息生成装置、方法
US8724829B2 (en) * 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
US8229126B2 (en) * 2009-03-13 2012-07-24 Harris Corporation Noise error amplitude reduction
US9049503B2 (en) * 2009-03-17 2015-06-02 The Hong Kong Polytechnic University Method and system for beamforming using a microphone array
US8620672B2 (en) * 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
BR112012008671A2 (pt) 2009-10-19 2016-04-19 Ericsson Telefon Ab L M método para detectar atividade de voz de um sinal de entrada recebido, e, detector de atividade de voz
US20110125497A1 (en) * 2009-11-20 2011-05-26 Takahiro Unno Method and System for Voice Activity Detection
EP2339574B1 (en) * 2009-11-20 2013-03-13 Nxp B.V. Speech detector
US8462193B1 (en) * 2010-01-08 2013-06-11 Polycom, Inc. Method and system for processing audio signals
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
TWI408673B (zh) * 2010-03-17 2013-09-11 Issc Technologies Corp Voice detection method
CN102201231B (zh) * 2010-03-23 2012-10-24 创杰科技股份有限公司 语音侦测方法
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
EP2561508A1 (en) * 2010-04-22 2013-02-27 Qualcomm Incorporated Voice activity detection
US9378754B1 (en) * 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
CN101867853B (zh) * 2010-06-08 2014-11-05 中兴通讯股份有限公司 基于传声器阵列的语音信号处理方法及装置
US8898058B2 (en) * 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
US20120114130A1 (en) * 2010-11-09 2012-05-10 Microsoft Corporation Cognitive load reduction
DK3493205T3 (da) 2010-12-24 2021-04-19 Huawei Tech Co Ltd Fremgangsmåde og indretning til adaptiv detektion af stemmeaktivitet i et lydindgangssignal
WO2012083554A1 (en) * 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. A method and an apparatus for performing a voice activity detection
CN102740215A (zh) * 2011-03-31 2012-10-17 Jvc建伍株式会社 声音输入装置、通信装置、及声音输入装置的动作方法
CN102300140B (zh) * 2011-08-10 2013-12-18 歌尔声学股份有限公司 一种通信耳机的语音增强方法及降噪通信耳机
US9648421B2 (en) 2011-12-14 2017-05-09 Harris Corporation Systems and methods for matching gain levels of transducers
US9064497B2 (en) 2012-02-22 2015-06-23 Htc Corporation Method and apparatus for audio intelligibility enhancement and computing apparatus
US20130282372A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
JP6107151B2 (ja) * 2013-01-15 2017-04-05 富士通株式会社 雑音抑圧装置、方法、及びプログラム
US9107010B2 (en) * 2013-02-08 2015-08-11 Cirrus Logic, Inc. Ambient noise root mean square (RMS) detector
US9257952B2 (en) 2013-03-13 2016-02-09 Kopin Corporation Apparatuses and methods for multi-channel signal compression during desired voice activity detection
US9560444B2 (en) * 2013-03-13 2017-01-31 Cisco Technology, Inc. Kinetic event detection in microphones
US10306389B2 (en) 2013-03-13 2019-05-28 Kopin Corporation Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods
EP3000241B1 (en) * 2013-05-23 2019-07-17 Knowles Electronics, LLC Vad detection microphone and method of operating the same
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up
US9978387B1 (en) * 2013-08-05 2018-05-22 Amazon Technologies, Inc. Reference signal generation for acoustic echo cancellation
WO2015034504A1 (en) * 2013-09-05 2015-03-12 Intel Corporation Mobile phone with variable energy consuming speech recognition module
CN104751853B (zh) * 2013-12-31 2019-01-04 辰芯科技有限公司 双麦克风噪声抑制方法及系统
CN107293287B (zh) * 2014-03-12 2021-10-26 华为技术有限公司 检测音频信号的方法和装置
US9530433B2 (en) * 2014-03-17 2016-12-27 Sharp Laboratories Of America, Inc. Voice activity detection for noise-canceling bioacoustic sensor
US9516409B1 (en) 2014-05-19 2016-12-06 Apple Inc. Echo cancellation and control for microphone beam patterns
CN104092802A (zh) * 2014-05-27 2014-10-08 中兴通讯股份有限公司 音频信号的消噪方法及系统
US9288575B2 (en) * 2014-05-28 2016-03-15 GM Global Technology Operations LLC Sound augmentation system transfer function calibration
CN105321528B (zh) * 2014-06-27 2019-11-05 中兴通讯股份有限公司 一种麦克风阵列语音检测方法及装置
CN104134440B (zh) * 2014-07-31 2018-05-08 百度在线网络技术(北京)有限公司 用于便携式终端的语音检测方法和语音检测装置
US9516159B2 (en) * 2014-11-04 2016-12-06 Apple Inc. System and method of double talk detection with acoustic echo and noise control
TWI616868B (zh) * 2014-12-30 2018-03-01 鴻海精密工業股份有限公司 會議記錄裝置及其自動生成會議記錄的方法
US9685156B2 (en) * 2015-03-12 2017-06-20 Sony Mobile Communications Inc. Low-power voice command detector
US9330684B1 (en) * 2015-03-27 2016-05-03 Continental Automotive Systems, Inc. Real-time wind buffet noise detection
US10242689B2 (en) * 2015-09-17 2019-03-26 Intel IP Corporation Position-robust multiple microphone noise estimation techniques
US11631421B2 (en) * 2015-10-18 2023-04-18 Solos Technology Limited Apparatuses and methods for enhanced speech recognition in variable environments
CN105280195B (zh) 2015-11-04 2018-12-28 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
US10325134B2 (en) 2015-11-13 2019-06-18 Fingerprint Cards Ab Method and system for calibration of an optical fingerprint sensing device
US20170140233A1 (en) * 2015-11-13 2017-05-18 Fingerprint Cards Ab Method and system for calibration of a fingerprint sensing device
CN105609118B (zh) * 2015-12-30 2020-02-07 生迪智慧科技有限公司 语音检测方法及装置
CN106971741B (zh) * 2016-01-14 2020-12-01 芋头科技(杭州)有限公司 实时将语音进行分离的语音降噪的方法及系统
CN106997768B (zh) * 2016-01-25 2019-12-10 电信科学技术研究院 一种语音出现概率的计算方法、装置及电子设备
KR102468148B1 (ko) 2016-02-19 2022-11-21 삼성전자주식회사 전자 장치 및 전자 장치의 음성 및 잡음 분류 방법
US10204643B2 (en) * 2016-03-31 2019-02-12 OmniSpeech LLC Pitch detection algorithm based on PWVT of teager energy operator
US10074380B2 (en) * 2016-08-03 2018-09-11 Apple Inc. System and method for performing speech enhancement using a deep neural network-based signal
US10237647B1 (en) * 2017-03-01 2019-03-19 Amazon Technologies, Inc. Adaptive step-size control for beamformer
EP3392882A1 (en) * 2017-04-20 2018-10-24 Thomson Licensing Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium
JP2018191145A (ja) * 2017-05-08 2018-11-29 オリンパス株式会社 収音装置、収音方法、収音プログラム及びディクテーション方法
US10395667B2 (en) * 2017-05-12 2019-08-27 Cirrus Logic, Inc. Correlation-based near-field detector
WO2018236349A1 (en) 2017-06-20 2018-12-27 Hewlett-Packard Development Company, L.P. SIGNAL MULTIPLEXER
US11316865B2 (en) 2017-08-10 2022-04-26 Nuance Communications, Inc. Ambient cooperative intelligence system and method
US11605448B2 (en) 2017-08-10 2023-03-14 Nuance Communications, Inc. Automated clinical documentation system and method
US9973849B1 (en) * 2017-09-20 2018-05-15 Amazon Technologies, Inc. Signal quality beam selection
US10839822B2 (en) * 2017-11-06 2020-11-17 Microsoft Technology Licensing, Llc Multi-channel speech separation
CN109994122B (zh) * 2017-12-29 2023-10-31 阿里巴巴集团控股有限公司 语音数据的处理方法、装置、设备、介质和系统
KR102475989B1 (ko) 2018-02-12 2022-12-12 삼성전자주식회사 오디오 신호의 주파수의 변화에 따른 위상 변화율에 기반하여 노이즈가 감쇠된 오디오 신호를 생성하는 장치 및 방법
EP3762921A4 (en) 2018-03-05 2022-05-04 Nuance Communications, Inc. AUTOMATED CLINICAL DOCUMENTATION SYSTEM AND PROCESS
WO2019173349A1 (en) 2018-03-05 2019-09-12 Nuance Communications, Inc. System and method for review of automated clinical documentation
US11250383B2 (en) 2018-03-05 2022-02-15 Nuance Communications, Inc. Automated clinical documentation system and method
SG11202009556XA (en) * 2018-03-28 2020-10-29 Telepathy Labs Inc Text-to-speech synthesis system and method
US11418866B2 (en) 2018-03-29 2022-08-16 3M Innovative Properties Company Voice-activated sound encoding for headsets using frequency domain representations of microphone signals
US10957337B2 (en) 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
US11341987B2 (en) * 2018-04-19 2022-05-24 Semiconductor Components Industries, Llc Computationally efficient speech classifier and related methods
US10847178B2 (en) * 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
CN108632711B (zh) * 2018-06-11 2020-09-04 广州大学 扩声系统增益自适应控制方法
CN112384975A (zh) * 2018-07-12 2021-02-19 杜比实验室特许公司 使用辅助信号的音频装置的传输控制
EP3667662B1 (en) * 2018-12-12 2022-08-10 Panasonic Intellectual Property Corporation of America Acoustic echo cancellation device, acoustic echo cancellation method and acoustic echo cancellation program
CN111294473B (zh) * 2019-01-28 2022-01-04 展讯通信(上海)有限公司 信号处理方法及装置
US11043207B2 (en) 2019-06-14 2021-06-22 Nuance Communications, Inc. System and method for array data simulation and customized acoustic modeling for ambient ASR
US11216480B2 (en) 2019-06-14 2022-01-04 Nuance Communications, Inc. System and method for querying data points from graph data structures
US11227679B2 (en) 2019-06-14 2022-01-18 Nuance Communications, Inc. Ambient clinical intelligence system and method
CN112153505A (zh) * 2019-06-28 2020-12-29 中强光电股份有限公司 降噪系统及降噪方法
US11531807B2 (en) 2019-06-28 2022-12-20 Nuance Communications, Inc. System and method for customized text macros
US11670408B2 (en) 2019-09-30 2023-06-06 Nuance Communications, Inc. System and method for review of automated clinical documentation
CN111049848B (zh) * 2019-12-23 2021-11-23 腾讯科技(深圳)有限公司 通话方法、装置、系统、服务器及存储介质
EP4147229A1 (en) 2020-05-08 2023-03-15 Nuance Communications, Inc. System and method for data augmentation for multi-microphone signal processing
CN115699173A (zh) * 2020-06-16 2023-02-03 华为技术有限公司 语音活动检测方法和装置
US11222103B1 (en) 2020-10-29 2022-01-11 Nuance Communications, Inc. Ambient cooperative intelligence system and method
EP4075822B1 (en) * 2021-04-15 2023-06-07 Rtx A/S Microphone mute notification with voice activity detection
WO2023085749A1 (ko) * 2021-11-09 2023-05-19 삼성전자주식회사 빔포밍을 제어하는 전자 장치 및 이의 동작 방법
CN115831145B (zh) * 2023-02-16 2023-06-27 之江实验室 一种双麦克风语音增强方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003241787A (ja) * 2002-02-14 2003-08-29 Sony Corp 音声認識装置および方法、並びにプログラム
JP2005227511A (ja) * 2004-02-12 2005-08-25 Yamaha Motor Co Ltd 対象音検出方法、音信号処理装置、音声認識装置及びプログラム

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PT89978B (pt) 1988-03-11 1995-03-01 British Telecomm Aparelho detector da actividade vocal e aparelho telefonico movel que o contem
US5276779A (en) 1991-04-01 1994-01-04 Eastman Kodak Company Method for the reproduction of color images based on viewer adaption
IL101556A (en) 1992-04-10 1996-08-04 Univ Ramot Multi-channel signal separation using cross-polyspectra
TW219993B (en) 1992-05-21 1994-02-01 Ind Tech Res Inst Speech recognition system
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
US5825671A (en) 1994-03-16 1998-10-20 U.S. Philips Corporation Signal-source characterization system
JP2758846B2 (ja) 1995-02-27 1998-05-28 埼玉日本電気株式会社 ノイズキャンセラ装置
US5694474A (en) 1995-09-18 1997-12-02 Interval Research Corporation Adaptive filter for signal processing and method therefor
FI100840B (fi) 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5774849A (en) 1996-01-22 1998-06-30 Rockwell International Corporation Method and apparatus for generating frame voicing decisions of an incoming speech signal
TW357260B (en) 1997-11-13 1999-05-01 Ind Tech Res Inst Interactive music play method and apparatus
JP3505085B2 (ja) 1998-04-14 2004-03-08 アルパイン株式会社 オーディオ装置
US6526148B1 (en) 1999-05-18 2003-02-25 Siemens Corporate Research, Inc. Device and method for demixing signal mixtures using fast blind source separation technique based on delay and attenuation compensation, and for selecting channels for the demixed signals
US6694020B1 (en) 1999-09-14 2004-02-17 Agere Systems, Inc. Frequency domain stereophonic acoustic echo canceller utilizing non-linear transformations
US6424960B1 (en) 1999-10-14 2002-07-23 The Salk Institute For Biological Studies Unsupervised adaptation and classification of multiple classes and sources in blind signal separation
EP1254513A4 (en) 1999-11-29 2009-11-04 Syfx SYSTEMS AND METHODS FOR SIGNAL PROCESSING
US6606382B2 (en) 2000-01-27 2003-08-12 Qualcomm Incorporated System and method for implementation of an echo canceller
AU2000251208A1 (en) 2000-06-05 2001-12-17 Nanyang Technological University Adaptive directional noise cancelling microphone system
US20070233479A1 (en) * 2002-05-30 2007-10-04 Burnett Gregory C Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US20030179888A1 (en) 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
KR100394840B1 (ko) 2000-11-30 2003-08-19 한국과학기술원 독립 성분 분석을 이용한 능동 잡음 제거방법
US7941313B2 (en) 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
JP3364487B2 (ja) 2001-06-25 2003-01-08 隆義 山本 複合音声データの音声分離方法、発言者特定方法、複合音声データの音声分離装置、発言者特定装置、コンピュータプログラム、及び、記録媒体
GB0204548D0 (en) 2002-02-27 2002-04-10 Qinetiq Ltd Blind signal separation
US6904146B2 (en) 2002-05-03 2005-06-07 Acoustic Technology, Inc. Full duplex echo cancelling circuit
JP3682032B2 (ja) 2002-05-13 2005-08-10 株式会社ダイマジック オーディオ装置並びにその再生用プログラム
US7082204B2 (en) 2002-07-15 2006-07-25 Sony Ericsson Mobile Communications Ab Electronic devices, methods of operating the same, and computer program products for detecting noise in a signal based on a combination of spatial correlation and time correlation
US7359504B1 (en) 2002-12-03 2008-04-15 Plantronics, Inc. Method and apparatus for reducing echo and noise
US7383178B2 (en) 2002-12-11 2008-06-03 Softmax, Inc. System and method for speech processing using independent component analysis under stability constraints
JP2004274683A (ja) 2003-03-12 2004-09-30 Matsushita Electric Ind Co Ltd エコーキャンセル装置、エコーキャンセル方法、プログラムおよび記録媒体
WO2005024788A1 (ja) 2003-09-02 2005-03-17 Nippon Telegraph And Telephone Corporation 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
US7099821B2 (en) 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
GB0321722D0 (en) 2003-09-16 2003-10-15 Mitel Networks Corp A method for optimal microphone array design under uniform acoustic coupling constraints
US20050071158A1 (en) * 2003-09-25 2005-03-31 Vocollect, Inc. Apparatus and method for detecting user speech
SG119199A1 (en) * 2003-09-30 2006-02-28 Stmicroelectronics Asia Pacfic Voice activity detector
JP2005227512A (ja) 2004-02-12 2005-08-25 Yamaha Motor Co Ltd 音信号処理方法及びその装置、音声認識装置並びにプログラム
US8687820B2 (en) 2004-06-30 2014-04-01 Polycom, Inc. Stereo microphone processing for teleconferencing
DE102004049347A1 (de) 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
WO2006077745A1 (ja) 2005-01-20 2006-07-27 Nec Corporation 信号除去方法、信号除去システムおよび信号除去プログラム
WO2006131959A1 (ja) 2005-06-06 2006-12-14 Saga University 信号分離装置
US7464029B2 (en) 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
JP4556875B2 (ja) 2006-01-18 2010-10-06 ソニー株式会社 音声信号分離装置及び方法
US7970564B2 (en) 2006-05-02 2011-06-28 Qualcomm Incorporated Enhancement techniques for blind source separation (BSS)
US8068619B2 (en) * 2006-05-09 2011-11-29 Fortemedia, Inc. Method and apparatus for noise suppression in a small array microphone system
US7817808B2 (en) * 2007-07-19 2010-10-19 Alon Konchitsky Dual adaptive structure for speech enhancement
US8175871B2 (en) 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
US8046219B2 (en) 2007-10-18 2011-10-25 Motorola Mobility, Inc. Robust two microphone noise suppression system
US8223988B2 (en) 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003241787A (ja) * 2002-02-14 2003-08-29 Sony Corp 音声認識装置および方法、並びにプログラム
JP2005227511A (ja) * 2004-02-12 2005-08-25 Yamaha Motor Co Ltd 対象音検出方法、音信号処理装置、音声認識装置及びプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013520707A (ja) * 2010-02-24 2013-06-06 クゥアルコム・インコーポレイテッド 複数の音声区間検出器に基づく音声区間検出
WO2014054314A1 (ja) * 2012-10-03 2014-04-10 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
JP2014075674A (ja) * 2012-10-03 2014-04-24 Oki Electric Ind Co Ltd 音声信号処理装置、方法及びプログラム
US9418676B2 (en) 2012-10-03 2016-08-16 Oki Electric Industry Co., Ltd. Audio signal processor, method, and program for suppressing noise components from input audio signals
JP2017530409A (ja) * 2014-09-26 2017-10-12 サイファ,エルエルシー ランニング範囲正規化を利用したニューラルネットワーク音声活動検出
JP2018031910A (ja) * 2016-08-25 2018-03-01 日本電信電話株式会社 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム、信号処理学習装置
JP2020201337A (ja) * 2019-06-07 2020-12-17 ヤマハ株式会社 音声処理装置及び音声処理方法
JP7404664B2 (ja) 2019-06-07 2023-12-26 ヤマハ株式会社 音声処理装置及び音声処理方法
US11922933B2 (en) 2019-06-07 2024-03-05 Yamaha Corporation Voice processing device and voice processing method

Also Published As

Publication number Publication date
WO2009042948A1 (en) 2009-04-02
TW200926151A (en) 2009-06-16
CA2695231A1 (en) 2009-04-02
EP2201563A1 (en) 2010-06-30
ES2373511T3 (es) 2012-02-06
BRPI0817731A8 (pt) 2019-01-08
US20090089053A1 (en) 2009-04-02
KR20100075976A (ko) 2010-07-05
KR101265111B1 (ko) 2013-05-16
RU2010116727A (ru) 2011-11-10
JP5102365B2 (ja) 2012-12-19
RU2450368C2 (ru) 2012-05-10
ATE531030T1 (de) 2011-11-15
CA2695231C (en) 2015-02-17
US8954324B2 (en) 2015-02-10
CN101790752A (zh) 2010-07-28
CN101790752B (zh) 2013-09-04
TWI398855B (zh) 2013-06-11
EP2201563B1 (en) 2011-10-26

Similar Documents

Publication Publication Date Title
JP5102365B2 (ja) 複数マイクロホン音声アクティビティ検出器
US10546593B2 (en) Deep learning driven multi-channel filtering for speech enhancement
Kinoshita et al. Neural Network-Based Spectrum Estimation for Online WPE Dereverberation.
CN111418010B (zh) 一种多麦克风降噪方法、装置及终端设备
US7464029B2 (en) Robust separation of speech signals in a noisy environment
Parchami et al. Recent developments in speech enhancement in the short-time Fourier transform domain
US8521530B1 (en) System and method for enhancing a monaural audio signal
US9269368B2 (en) Speaker-identification-assisted uplink speech processing systems and methods
EP2237271B1 (en) Method for determining a signal component for reducing noise in an input signal
EP1253581B1 (en) Method and system for speech enhancement in a noisy environment
US8538035B2 (en) Multi-microphone robust noise suppression
US8831936B2 (en) Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
JP5675848B2 (ja) レベルキューによる適応ノイズ抑制
US8880396B1 (en) Spectrum reconstruction for automatic speech recognition
AU2009203194A1 (en) Noise spectrum tracking in noisy acoustical signals
US9378754B1 (en) Adaptive spatial classifier for multi-microphone systems
US11373667B2 (en) Real-time single-channel speech enhancement in noisy and time-varying environments
US10937418B1 (en) Echo cancellation by acoustic playback estimation
US11380312B1 (en) Residual echo suppression for keyword detection
Naik et al. A literature survey on single channel speech enhancement techniques
Tanaka et al. Acoustic beamforming with maximum SNR criterion and efficient generalized eigenvector tracking
Li et al. Joint Noise Reduction and Listening Enhancement for Full-End Speech Enhancement
JP2005250266A (ja) エコー抑圧方法、この方法を実施する装置、プログラムおよび記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120306

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120606

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120613

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120806

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120927

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151005

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5102365

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250