JP2010529494A - 音声活動を検出するための装置および方法 - Google Patents

音声活動を検出するための装置および方法 Download PDF

Info

Publication number
JP2010529494A
JP2010529494A JP2010510638A JP2010510638A JP2010529494A JP 2010529494 A JP2010529494 A JP 2010529494A JP 2010510638 A JP2010510638 A JP 2010510638A JP 2010510638 A JP2010510638 A JP 2010510638A JP 2010529494 A JP2010529494 A JP 2010529494A
Authority
JP
Japan
Prior art keywords
vad
threshold
background noise
snr
bias
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010510638A
Other languages
English (en)
Other versions
JP5089772B2 (ja
Inventor
ワン、チェ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2010529494A publication Critical patent/JP2010529494A/ja
Application granted granted Critical
Publication of JP5089772B2 publication Critical patent/JP5089772B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Noise Elimination (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Geophysics And Detection Of Objects (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

音声活動検出(VAD)装置は、VAD判断の入力結果に従い現在の信号の背景ノイズの特徴を分析し、背景ノイズの波特徴に関するパラメータを得て出力するように用いられる背景分析ユニットと、VAD判断用の閾値修正値を得て、背景分析ユニットより出力されたパラメータにより出力するように用いられるVAD判断用の閾値調整ユニットと、VAD判断用の閾値調整ユニットから出力された修正値に従いVAD判断用の現在の修正閾値を修正し、修正したVAD判断用の閾値を用いて背景ノイズを判断して、VAD判断結果を出力するように用いられるVAD判断ユニットとを備える。音声活動検出装置による音声活動検出方法を提供する。

Description

本発明は、概して、音声信号処理に関し、特に、音声活動検出装置および方法に関する。
音声信号処理分野において、音声活動を検出する技術が広く使用されている。この技術は、音声符号化分野において音声活動検出(VAD)と、音声認識分野において音声終点検出と、音声強調分野において音声ポーズ検出と呼ばれている。これらの技術は異なるケースにおける異なる態様に焦点を置いており、したがって異なる処理結果が得られる。しかしながら、本質的には、これらの技術は、音声が音声通信やコーパスに存在するか否か検出することに用いられる。この検出精度は、後続の処理(たとえば、音声符号化、音声認識および強調)の質に直接影響する。
音声符号化技術では、音声信号の送信帯域幅を低減し、通信システムのキャパシティを増大することができる。音声通信において、時間の40%に音声信号が含まれ、残りは無音か背景ノイズである。したがって、送信帯域幅をセーブするために、VADを使用して背景ノイズと非ノイズ信号を区別し、エンコーダが背景ノイズと非ノイズ信号を異なるレートで符号化することができるようにし、平均ビットレートを減らす。近年、大きな組織や機関によるすべての音声符号化規格により、VAD技術の具体的な応用がカバーされている。
従来、VADアルゴリズム、たとえば、適応マルチレート・スピーチ・コーデック(AMR)に使用するVAD1およびVAD2は、現在の信号フレームが入力信号の信号ノイズ比(SNR)によりノイズフレームか判断する。VADは、推定背景ノイズエネルギーを計算し、現在の信号フレームのエネルギーと背景ノイズのエネルギーの比(つまりSNR)と、あらかじめ設定した閾値と比較する。SNRが閾値よりも高い場合、VADは現在の信号フレームがノイズフレームでないと判断し、高くない場合には、VADが現在の信号フレームをノイズフレームとして判定する。VADの分類結果を用いて、エンコーダにおける不連続な送信システムと快適なノイズ生成(DTX/CNG)を導く。DTX/CNGの目的は、入力信号がノイズ期間にあるときに不連続な符号化と送信をノイズシーケンスのみで実行することにある。符号化されていない、送信されていないノイズをデコーダで補間し、帯域幅をセーブする。
本発明を実現する際、発明者は従来に技術に以下の問題を発見した。すなわち、従来技術におけるVADアルゴリズムは長期の背景ノイズレベルの移動平均によって適用されるものであり、背景ノイズの変動には適用されないという問題である。したがって、適用性が限られていることになる。
本発明の実施形態によると、VAD閾値を背景ノイズの変動にも適用することができるVAD装置および方法を提供する。
本発明の一実施形態におけるVAD装置は、入力されたVAD判断結果に従い現在の信号の背景ノイズ特徴を分析し、背景ノイズの変動に関するパラメータを得て、パラメータを出力するように構成された背景分析ユニットと、
背景分析ユニットより出力されたパラメータによりVAD閾値のバイアスを得て、VAD閾値のバイアスを出力するように構成されたVAD閾値調整ユニットと、
VAD閾値調整ユニットから出力されたVAD閾値のバイアスにより、修正すべきVAD閾値を修正し、修正したVAD閾値を用いて背景ノイズ判断を実行して、VAD判断結果を出力するように構成されたVAD判断ユニットとを備える。
本発明の一実施形態におけるVAD方法は、
背景ノイズのVAD判断結果に従い現在の信号の背景ノイズ特徴を分析し、背景ノイズの変動に関するパラメータを得るステップと、
背景ノイズの変動に関するパラメータによりVAD閾値のバイアスを得るステップと、
VAD閾値のバイアスにより、修正すべきVAD閾値を修正し、修正したVAD閾値を用いて背景ノイズのVAD判断を実行するステップとを備える。
図1は、本発明の一実施形態によるVAD装置の構造を示した図である。 図2は、本発明の一実施形態によるVAD方法のフローチャートを示した図である。
以下に、本発明の一実施形態において、あるケースのVADアルゴリズムを説明する。
このアルゴリズムにおいて、入力信号フレームを9つのサブバンドに分ける。各サブバンドの信号レベルlevel[n]と推定背景ノイズレベルbckr_est[n]を計算する。次いで、SNRを、level[n]およびbckr_est[n]を用いて以下の式により計算する。
Figure 2010529494
VADの判断は、SNRを閾値vad_thrと比較することにある。SNRがvad_thrより大きい場合、現在のフレームは非ノイズフレームであり、それ以下の場合、現在のフレームはノイズフレームとなる。vad_thrの計算は以下の式により行われる。
Figure 2010529494
このVADアルゴリズムにおいて、noise_levelだけが、vad_thrの従変数であるが、noise_levelは長期背景ノイズレベルの移動平均を反映している。したがって、vad_thrは背景ノイズの変動に適応していない(さまざまな変動を有する背景が長期レベルの同じ移動平均を有することが考えられるからである)。さらに、背景の変動はVAD判断に非常に影響のあるものである。たとえば、VADは、多くの背景ノイズが非ノイズ信号であると誤って判定し、帯域幅を無駄にしてしまう。
(第1実施形態)
図1は、本発明の第1実施形態におけるVAD装置を示す。VAD装置は背景分析ユニット、VAD閾値調整ユニット、VAD判断ユニットおよび外部インターフェースユニットを含む。
背景分析ユニットは、入力したVAD判断結果に従って現在の信号の背景ノイズ特徴を分析し、背景ノイズの変動に関連するパラメータを得て、これらのパラメータをVAD閾値調整ユニットに出力するように構成される。これらのパラメータには、背景ノイズの変動のパラメータが含まれる。具体的に、背景ノイズ特徴のパラメータを用いて、現在の環境での現在の信号の背景ノイズのSNR、変動レート、タイプ(安定した背景あるいは不安定な背景)、サイズを識別する。背景ノイズの特徴パラメータは、背景ノイズのピークSNRを少なくとも含み、さらに、長期SNR、推定背景ノイズレベル、背景ノイズエネルギー変動、背景ノイズスペクトル変動および背景ノイズ変動レートを含んでもよい。
VAD閾値調整ユニットは、背景分析ユニットが出力したパラメータによりVAD閾値のバイアスを得て、VAD閾値のバイアスを出力するように構成される。
具体的に、VAD閾値調整ユニットは、背景分析ユニットが出力するパラメータのいずれかを受け取ると、背景ノイズ変動に関連するパラメータの現在の値に従ってVAD閾値のバイアスを更新する。VAD閾値調整ユニットはさらに、背景分析ユニットが出力したパラメータ値が変更されているか否か判定する。もしその場合、VAD閾値調整ユニットは、背景ノイズの変動に関わるパラメータの現在値によりVAD閾値のバイアスを更新する。
VAD閾値のバイアスは、背景分析ユニットが出力したパラメータによるVAD閾値調整ユニットの内部適用により、および/またはVAD装置の(外部インターフェースユニットを通じて受け取った)外部作業点情報と背景分析ユニットが出力したパラメータを組み合わせることによって得られる。
設定において、VAD閾値調整ユニットの内部適用のみを考慮したとき、VAD閾値調整ユニットは、背景分析ユニットが出力したパラメータによりVAD閾値の第1のバイアスを得て、そのVAD閾値の第1のバイアスをVAD閾値の最終バイアスとしてVAD判断ユニットに出力する。
設定において、VAD装置の外部情報と、VAD閾値調整ユニットの内部適用を考慮し、現在の信号の背景ノイズが安定ノイズであり、かつ/または現在の信号のSNRが高い場合、VAD判断ユニットのVAD判断結果は理想的な結果に近く、外部情報によるVAD閾値の第2のバイアスを計算する必要がなくなる。したがって、VAD閾値調整ユニットは、背景分析ユニットが出力するパラメータによるVAD閾値の第1のバイアスを得て、VAD閾値の第1のバイアスをVAD閾値の最終バイアスとしてVAD判断ユニットに出力する。
設定において、VAD装置の外部情報とVAD閾値調整ユニットの内部適用を考慮し、現在の信号の背景ノイズが非安定ノイズで、かつ/または現在の信号のSNRが低い場合には、VAD閾値調整ユニットは、背景分析ユニットが出力するパラメータによるVAD閾値の第1のバイアスと、背景分析ユニットが出力するパラメータとVAD装置の外部情報によるVAD閾値の第2のバイアスを得て、VAD閾値の第1のバイアスとVAD閾値の第2のバイアスを組み合わせる(たとえば、これらの2つの閾値を足したり、これらの2つの閾値を他の方法で処理したりする)ことによってVAD閾値の最終バイアスを得て、VAD閾値の最終バイアスをVAD判断ユニットに出力する。
設定において、VAD装置の外部情報のみを考慮した場合、VAD閾値調整ユニットは、背景分析ユニットが出力したパラメータとVAD装置の外部情報によるVAD閾値の第2のバイアスを得て、VAD閾値の第2のバイアスをVAD閾値の最終バイアスとしてVAD判断ユニットに出力する。
VAD判断ユニットは、修正すべきVAD閾値を、VAD閾値調整ユニットが出力したVAD閾値のバイアスに従い修正し、修正したVAD閾値を用いて背景ノイズを判定し、背景分析ユニットにVAD判断結果を出力して、VAD閾値の絶え間ない適応を実行するよう構成される。さらに、VAD判断ユニットは、VAD判断結果を出力するように構成される。
第1実施形態における他のケースのVADアルゴリズムにおいて、修正すべきVAD閾値を決定する方法は、SNRと以下の関係を有する。すなわち、AMR VAD2において修正すべき閾値を計算する方法において、多数の修正すべき閾値をあらかじめ配列させて保存する。これらの閾値は、長期SNRと特定のマッピング関係を有する。VADは現在の長期SNRに従い配列から修正すべき閾値を選択して、選択した閾値を、修正すべきVAD閾値とする。この実施形態において修正すべきVAD閾値を判定する方法は、現在の信号の長期SNRを、修正すべき閾値として使用するステップを含む。たとえば、最終VAD閾値が100であり、VAD閾値調整ユニットが出力したVAD閾値のバイアスが10であり、修正すべき現在のVAD閾値が95であるとすると、修正された最終的なVAD閾値は105である。ついで、VAD判断ユニットはVAD閾値を100から105に変化させ、判断を続ける。
具体的に、この実施形態のVADは背景ノイズと非背景ノイズを差別化するためのVADと、背景ノイズ、音声および音楽を差別化するためのSADにおける新たなVADを備える。VADとしては、分類タイプに背景ノイズと非ノイズを含む。SADとしては、分類タイプに背景ノイズと、音声と、音楽とを含む。本実施形態では、SADにおけるVADが入力信号を背景ノイズと非ノイズに分類する。すなわち、音声と音楽とを同じタイプとして処理している。
(第2実施形態)
図2は、本発明の第2実施形態におけるVAD方法を示す。VAD方法は以下のステップを含む。
S1:背景ノイズのVAD判断結果に従い現在の信号の背景ノイズ特徴を分析して、背景ノイズの変動に関するパラメータを得る。
背景ノイズ変動に関わるパラメータには、少なくとも、背景ノイズのピークSNRが含まれ、さらに、背景エネルギー変動サイズ、背景ノイズスペクトル変動サイズおよび/または背景ノイズ変動レートを含めてもよい。背景ノイズ変動に関わるパラメータを得るプロセスにおいて、現在の信号の背景ノイズ特徴を表す他のパラメータ、たとえば、長期SNRや推定背景ノイズレベルも得られる。
S2:背景ノイズの変動に関するパラメータに従いVAD閾値のバイアスを求める。
背景ノイズ変動に関わるパラメータのいずれかを更新する際、VAD閾値のバイアスを、背景ノイズ変動に関わるパラメータの現在値に従い更新する。
具体的に、背景ノイズ変動に関わるパラメータの現在値によりVAD閾値のバイアスを得る方法には、以下の4つのケースが含まれるが、この4つのケースに限定されるものではない。
ケース1:設定に特定の情報を考慮する必要がない場合、VAD閾値の第1のバイアスを、背景ノイズ変動に関わるパラメータに従い得て、VAD閾値の第1のバイアスをVAD閾値の最終バイアスとして使用する。
ケース2:設定に特定の情報を考慮する必要があり、背景音が不安定なノイズであり、かつ/またはSNRが低い場合、VAD閾値の第1のバイアスを、背景ノイズ変動に関わるパラメータに従い得て、VAD閾値の第2のバイアスを、背景ノイズ変動に関わるパラメータと特定の情報に従い得て、VAD閾値の最終バイアスを、VAD閾値の第1のバイアスとVAD閾値の第2のバイアスを組み合わせて(たとえば、これらの2つの閾値を足したり、他の方法で処理したりして)、求める。
ケース3:設定に特定の情報を考慮する必要があり、背景音が安定したノイズであり、かつ/またはSNRが高い場合、VAD閾値の第1のバイアスを背景ノイズ変動に関わるパラメータに従い得て、VAD閾値の第1のバイアスをVAD閾値の最終バイアスとして使用する。
ケース4:設定に特定の情報のみを考慮する場合、VAD閾値の第2のバイアスを、背景ノイズ変動に関わるパラメータと特定の情報に従い得て、VAD閾値の第2のバイアスをVAD閾値の最終バイアスとして使用する。
上述のケース1から3において、VAD閾値の第1のバイアスは、背景ノイズエネルギー変動、背景ノイズスペクトル変動サイズ、背景ノイズ変動レート、長期SNRおよび/または背景ノイズのピークSNRの増加とともに増加する。VAD閾値の第1のバイアスは以下の式の1つにより計算することができる。
vad_thr_delta=β*(snr_peak−vad_thr_default)
ただし、vad_thr_deltaはVAD閾値の第1のバイアスを示し、vad_thr_defaultは修正すべきVAD閾値を示し、snr_peakは背景ノイズのピークSNRを示し、βは定数である。
vad_thr_delta=β*f(var_rate)*(snr_peak−vad_thr_default)
ただし、vad_thr_deltaはVAD閾値の第1のバイアスを示し、vad_thr_defaultは修正すべきVAD閾値を示し、snr_peakは背景ノイズのピークSNRを示し、βは定数であり、var_rateは背景ノイズ変動レートを示し、f()は関数を示す。
vad_thr_delta=β*f(var_rate)*f(pow_var)*(snr_peak−vad_thr_default)
ただし、vad_thr_deltaはVAD閾値の第1のバイアスを示し、vad_thr_defaultは修正すべきVAD閾値を示し、snr_peakは背景ノイズのピークSNRを示し、βは定数であり、pow_varは背景エネルギー変動サイズを示し、var_rateは背景ノイズ変動レートを示し、f()は関数を示す。
vad_thr_delta=β*f(var_rate)*f(spec_var)*(snr_peak−vad_thr_default)
ただし、vad_thr_deltaはVAD閾値の第1のバイアスを示し、vad_thr_defaultは修正すべきVAD閾値を示し、snr_peakは背景ノイズのピークSNRを示し、βは定数であり、spec_varは背景ノイズスペクトルの変動サイズを示し、var_rateは背景ノイズ変動レートを示し、f()は関数を示す。
vad_thr_delta=β*f(var_rate)*f(pow_var)*f(spec_var)*(snr_peak−vad_thr_default)
ただし、vad_thr_deltaはVAD閾値の第1のバイアスを示し、vad_thr_defaultは修正すべきVAD閾値を示し、snr_peakは背景ノイズのピークSNRを示し、βは定数であり、spec_varは背景ノイズスペクトルの変動サイズを示し、var_rateは背景ノイズ変動レートを示し、pow_varは背景エネルギー変動サイズを示し、f()は関数を示す。
注釈:長期SNRパラメータを上記式のそれぞれに追加して、VAD閾値の第1のバイアスを計算することもできる。すなわち、上記式は、長期SNR関数を乗じた後でも適用することができる。
上記のケース2と4において、VAD閾値の第2のバイアスの絶対値は、背景ノイズエネルギー変動、背景ノイズスペクトル変動サイズ、背景ノイズ変動レート、長期SNRおよび/または背景ノイズのピークSNRの増加に伴い、増加する。さらに、特定の情報は作業点の方向性を示しており、式ではプラス記号やマイナス記号で表される。特定の作業点が質の方向である場合、記号はマイナスとなり、特定の作業点が帯域幅確保の方向である場合、記号はプラスとなる。VAD閾値の第2のバイアスは以下の式の1つにより計算することができる。
vad_thr_delta_out=sign*γ*(snr_peak−vad_thr_default)
ただし、vad_thr_delta_outはVAD閾値の第2のバイアスを示し、vad_thr_defaultは修正すべきVAD閾値を示し、signは、特定の情報の方向性により決まるvad_thr_delta_outのプラスあるいはマイナス記号を示し、snr_peakは背景ノイズのピークSNRを示し、γは定数である。
vad_thr_delta_out=sign*γ*f(var_rate)*(snr_peak−vad_thr_default)
ただし、vad_thr_delta_outはVAD閾値の第2のバイアスを示し、vad_thr_defaultは修正すべきVAD閾値を示し、signは、特定の情報の方向性により決まるvad_thr_delta_outのプラスあるいはマイナス記号を示し、snr_peakは背景ノイズのピークSNRを示し、γは定数であり、var_rateは背景ノイズ変動レートを示し、f()は関数を示す。
vad_thr_delta_out=sign*γ*f(var_rate)*f(pow_var)*(snr_peak−vad_thr_default)
ただし、vad_thr_delta_outはVAD閾値の第2のバイアスを示し、vad_thr_defaultは修正すべきVAD閾値を示し、signは、特定の情報の方向性により決まるvad_thr_delta_outのプラスあるいはマイナス記号を示し、snr_peakは背景ノイズのピークSNRを示し、γは定数であり、pow_varは背景エネルギー変動サイズを示し、var_rateは背景ノイズ変動レートを示し、f()は関数を示す。
vad_thr_delta_out=sign*γ*f(var_rate)*f(pow_var)*(snr_peak−vad_thr_default)
ただし、vad_thr_delta_outはVAD閾値の第2のバイアスを示し、vad_thr_defaultは修正すべきVAD閾値を示し、signは、特定の情報の方向性により決まるvad_thr_delta_outのプラスあるいはマイナス記号を示し、snr_peakは背景ノイズのピークSNRを示し、γは定数であり、spec_varは背景ノイズスペクトルの変動サイズを示し、var_rateは背景ノイズ変動レートを示し、f()は関数を示す。
vad_thr_delta_out=sign*γ*f(var_rate)*f(pow_var)*f(spec_var)*(snr_peak−vad_thr_default)
ただし、vad_thr_delta_outはVAD閾値の第2のバイアスを示し、vad_thr_defaultは修正すべきVAD閾値を示し、signは、特定の情報の方向性により決まるvad_thr_delta_outのプラスあるいはマイナス記号を示し、snr_peakは背景ノイズのピークSNRを示し、γは定数であり、spec_varは背景ノイズスペクトルの変動サイズを示し、var_rateは背景ノイズ変動レートを示し、pow_varは背景エネルギーの変動サイズを示し、f()は関数を示す。
注釈:長期SNRパラメータを上記式のそれぞれに追加して、VAD閾値の第2のバイアスを計算することができる。すなわち、上記式は、長期SNR関数を乗じた後でも適用することができる。
上記のVAD閾値の第1のバイアスを計算するための式およびVAD閾値の第2のバイアスを計算するための式において、snr_peakが、2つの隣接する非背景ノイズフレーム間の各背景ノイズフレームに対応するSNRのうち最も大きなSNRであるか、隣接する2つの背景ノイズフレーム間の各非背景ノイズフレームに対応するSNRのうち最も小さなSNRであるか、あらかじめ設定された数のフレームより小さい間隔を有する2つの背景ノイズフレーム間の各非背景ノイズフレームに対応するSNRのいずれかであるか、あらかじめ設定された数のフレームより大きい間隔を有する2つの背景ノイズフレーム間のあらかじめ設定された閾値より小さい各非背景ノイズフレームに対応するSNRのいずれかである。閾値は、以下の法則に従い設定される。すなわち、2つの背景ノイズフレーム間の全ての非背景ノイズフレームのSNRが2つのグループ、すなわち、閾値よりも大きいSNR全てからなるグループと、閾値よりも小さいSNR全てからなるグループを備えるとき、2つのグループの平均値間の差異が最大となる閾値を、あらかじめ設定された閾値とする。
S3:修正すべきVAD閾値をVAD閾値のバイアスに従い修正し、修正したVAD閾値を用いて背景ノイズに対しVAD判断を実行する。
(第3実施形態)
この実施形態では、上述の実施形態におけるVAD装置および方法を組み合わせることによって、モジュラープロセスを提供する。
ステップ1:VAD判定ユニットが、入力音声信号のタイプについて初期判断を行い、VAD判断結果を背景分析ユニットに入力する。
VAD閾値の初期バイアスは0である。VAD判断ユニットは、修正すべきVAD閾値に従いVAD判断を実行する。たとえば、修正すべきVAD閾値は、質と帯域幅の節約とのバランスを保証することにある。
ステップ2:背景分析ユニットは、現在のフレームがVAD判断結果から背景ノイズフレームであることを認識した場合、現在のフレームの短期背景ノイズ特徴パラメータを計算し、これらのパラメータをメモリに保存する。以下に、これらのパラメータと、これらのパラメータを計算する方法を説明する。
1.サブバンドレベルlevel[k、i]
ただし、kがk番目のサブバンドのレベル、iがi番目のサブバンドのレベルを示す。サブバンドは、フィルタグループあるいは変換方法を用いて計算することができる。
2.短期背景ノイズレベルbckr_noise[i]
(現在のフレームが背景フレームであるときのみ計算する)
Figure 2010529494
ただし、iはi番目のフレームの背景ノイズレベルを示し、kはk番目のサブバンドを示し、Nはサブバンドの総数を示す。
3.フレームエネルギーpow[i]
Figure 2010529494
ただし、iはi番目のフレームのフレームエネルギーを示す。
4.短期SNRsnr[i]
Figure 2010529494
ただし、iはi番目のフレームの短期SNRを示し、bckr_noise_pow[i]は推定背景ノイズエネルギーを示す。これらのパラメータは後述する。
ステップ3:背景分析ユニットは、特定数のフレームを分析すると、長期背景ノイズの特徴パラメータを、メモリ内の過去の短期間背景ノイズ特徴パラメータに従って計算し始め、背景ノイズの変動に関連するパラメータを出力する。ついで、背景ノイズ変動に関連するパラメータを連続して更新する。長期SNRを除いて、他のパラメータは、現在のフレームが背景フレームであるときのみ更新される。長期SNRは、現在のフレームが非背景フレームであるときのみ更新される。以下に、これらのパラメータと、これらのパラメータの計算方法を説明する。
1.推定長期背景ノイズレベルbckr_noise_long[i]
Figure 2010529494
ただし、αは0と1との間のスケール係数であり、その値は約5%である。
2.長期SNRsnr_long[i]
Figure 2010529494
ただし、Lは長期平均計算に選択された非背景フレームの数を示す。
3.背景ノイズエネルギー変動pow_var[i]
Figure 2010529494
ただし、Lは長期平均計算に選択された背景フレームの数を示す。
4.背景ノイズスペクトル変動spec_var[i]
Figure 2010529494
ただし、Lは長期平均計算に選択された背景フレームの数を示す。背景ノイズスペクトルの変動は、線スペクトル周波数(LSF)係数に基づき計算することもできる。
5.背景ノイズ変動レートvar_rate[i]
Figure 2010529494
ただし、Ц{x}は、xが真のとき1に等しく、そうではないとき、0に等しい。Lは長期平均計算に選択された背景フレームの数を示す。
6.推定長期背景ノイズエネルギーbckr_noise_pow[i]
Figure 2010529494
ただし、ここで、αは0と1との間のスケール係数であり、その値は約5%である。
ステップ4:VAD閾値調整ユニットが背景ノイズ変動に関連し、かつ、背景分析ユニットから出力されたパラメータに従いVAD閾値のバイアスを計算する。
VAD閾値を修正するプロセスにおいて、VAD閾値のバイアスは、VAD閾値を、ある振幅において対応する方向に修正するように求めるべきである。
第2実施形態におけるS2の最初のケースによると、VAD閾値調整ユニットは、内部適用によりVAD閾値の第1のバイアスを得て、VAD閾値の第1のバイアスをVAD閾値の最終バイアスとして使用し、外部の具体的な情報を考慮することはない。現在の修正すべきVAD閾値をvad_thr_defaultとし、VAD閾値の第1のバイアスをvad_thr_deltaとするとき、修正されたVAD閾値はvad_thr_default+vad_thr_deltaである。ついで、VAD閾値の第1のバイアスを次の式:vad_thr_delta=β*(snr_peak−vad_thr_default)により計算する。ただし、snr_peakは背景ピークSRNを示し、βは定数である。snr_peakは長期履歴背景フレームセクションにおけるピークSNRとすることができる。すなわち、snr_peak=MAX(snr[i])、i=0、−1、−2...−nである。ただし、iは最新の履歴背景フレームと、最新の履歴背景フレームの前の第1背景フレームからn番目の背景フレームを示す。snr_peakは履歴非背景フレームセクションにおけるvalley SNR、あるいは、複数の最も小さいSNRの1つとすることもできる。この場合、snr_peak=MIN(snr[i])、i=0、−1、−2...−nである。ただし、iは最新の履歴非背景フレームを示し、最新の履歴非背景フレーム前の第1の非背景フレームからn番目の非背景フレームを示し、あるいはsnr_peak∈{X}を示す。ただし、{X}は長期履歴非背景フレームセクションにおけるSNR({Y})セットの一サブセットであり、|MEAN({X})−MEAN({Y−X})|の値を最大にする。ここで、MEANは平均値を示す。var_rateは長期背景におけるネガティブSNRの回数を示す。
すなわち、snr_peakは、2つの隣接する非背景ノイズフレーム間の各背景ノイズフレームに対応するSNRのうち最大のSNRであるか、隣接する2つの背景ノイズフレーム間の各非背景ノイズフレームに対応するSNRの最も小さなSNRであるか、あらかじめ設定された数のフレームよりも小さい間隔を有する2つの背景ノイズフレーム間の各非背景ノイズフレームに対応するSNRのいずれかであるか、あるいは、あらかじめ設定された数のフレームよりも大きな間隔を有する2つの背景ノイズフレーム間のあらかじめ設定された閾値よりも小さい各非背景ノイズフレームに対応するSNRのいずれかである。閾値は、以下の法則に従い設定する。2つの背景ノイズフレーム間のすべての非背景ノイズフレームのSNRが、2つのグループ、すなわち、閾値より大きなすべてのSNRからなるグループと、閾値よりも小さいすべてのSNRからなるグループを備えるとき、これらのグループの平均値間の差の最大化する閾値を、あらかじめ設定された閾値とする。
多数の閾値を有するVADアルゴリズムにおいて、各閾値あるいはこれらの閾値におけるいくつかは、上述の方法により調整することができる。
ステップ5:VAD判断ユニットは、修正すべきVAD閾値を、VAD閾値調整ユニットから出力されたVAD閾値のバイアスに基づいて修正し、修正されたVAD閾値に従い背景ノイズを判断し、VAD判断結果を出力する。
VAD閾値調整ユニットが第1のケースに従い、VAD閾値のバイアスを得た場合、修正されたVAD閾値はvad_thr_default+vad_thr_deltaとなる。
つまり、本発明の実施形態では、現在の信号の背景ノイズ特徴を、背景ノイズのVAD判断結果に基づき分析し、背景ノイズ変動に関するパラメータを得て、VAD閾値を背景ノイズ変動に適応させる。ついで、VAD閾値のバイアスを、背景ノイズ変動に関連するパラメータに従い得る。修正すべきVAD閾値を、VAD閾値のバイアスに基づき修正し、背景ノイズ変動を反映することのできるVAD閾値を得る。修正したVAD閾値を用いて背景ノイズに対しVAD判断を実行する。このようにして、VAD閾値を背景ノイズ変動に適応させる。VADは様々な変更を含む背景ノイズ環境において最適なパフォーマンスを得ることができる。
さらに、本発明の実施形態では、VAD閾値のバイアスを求めるための方法に従いさまざまな実施モードを説明してきた。特に、本発明の実施形態は、背景ノイズのピークSNRの値(snr_peak)を計算するための解決方法を説明するものであり、それは、本発明を十分にサポートするものである。
上述の実施形態による方法におけるすべての、あるいは一部のステップがプログラムにより指示されるハードウェアにより実行可能であることは当業者なら理解できる。このプログラムは、コンピュータ読取り可能保存媒体、たとえば、リードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク、コンパクトディスクに保存することができる。
当業者なら、本発明の精神および範囲を逸脱することなく本発明にさまざまな変更や修正を加えることができることは明らかである。本発明は、以下の特許請求の範囲により画定される保護範囲やその均等物に含まれる限りにおいて、そのような変更や修正も網羅するものである。

Claims (26)

  1. 入力されたVAD(音声活動検出)判断結果に従い現在の信号の背景ノイズ特徴を分析し、背景ノイズ変動に関するパラメータを得て、前記パラメータを出力するように構成された背景分析ユニットと、
    背景分析ユニットより出力されたパラメータによりVAD閾値のバイアスを得て、VAD閾値のバイアスを出力するように構成されたVAD閾値調整ユニットと、
    VAD閾値調整ユニットから出力されたVAD閾値のバイアスにより、修正すべきVAD閾値を修正し、修正した前記VAD閾値を用いて背景ノイズ判断を実行して、VAD判断結果を出力するように構成されたVAD判断ユニットとを備える、VAD装置。
  2. 前記背景分析ユニットにより出力されたパラメータが、背景ノイズのピーク信号ノイズ比(SNR)を有する、請求項1に記載のVAD装置。
  3. 前記背景分析ユニットにより出力されたパラメータがさらに、背景エネルギー変動サイズ、背景ノイズスペクトル変動サイズ、長期SNRおよび背景ノイズ変動レートの少なくとも1つを備える、請求項2に記載のVAD装置。
  4. 前記VAD閾値調整ユニットは、前記背景分析ユニットにより出力されたパラメータの1つを受けると、背景ノイズ変動に関連するパラメータの現在値に従い、VAD閾値のバイアスを更新する、請求項1に記載のVAD装置。
  5. VAD装置の外部情報を受信するように構成された外部インターフェースをさらに備える、請求項1に記載のVAD装置。
  6. 前記VAD閾値調整ユニットが、背景分析ユニットにより出力されたパラメータに従いVAD閾値の第1のバイアスを得て、VAD閾値の第1のバイアスをVAD閾値の最終バイアスとしてVAD判断ユニットに出力するか、
    前記VAD閾値調整ユニットが、前記背景分析ユニットにより出力されたパラメータに従いVAD閾値の第1のバイアス、および前記背景分析ユニットにより出力されたパラメータとVAD装置の外部情報に従いVAD閾値の第2のバイアスを得て、VAD閾値の第1のバイアスとVAD閾値の第2のバイアスを組み合わせることによってVAD閾値の最終バイアスと得て、VAD閾値の最終バイアスをVAD判断ユニットに出力するか、または
    前記VAD閾値調整ユニットが、背景分析ユニットにより出力されたパラメータとVAD装置の外部情報に従いVAD閾値の第2のバイアスを得て、VAD閾値の第2のバイアスをVAD閾値の最終バイアスとしてVAD判断ユニットに出力する、請求項5に記載のVAD装置。
  7. 前記VAD判断ユニットが、修正すべきVAD閾値をリアルタイムで更新し、VAD閾値調整ユニットにより出力されたVAD閾値のバイアスを受けると修正すべき現在のVAD閾値を抽出し、VAD閾値のバイアスに従い現在のVAD閾値を修正する、請求項1に記載のVAD装置。
  8. 背景ノイズのVAD(音声活動検出)判断結果に従い現在の信号の背景ノイズ特徴を分析し、背景ノイズ変動に関するパラメータを得るステップと、
    前記背景ノイズ変動に関するパラメータによりVAD閾値のバイアスを得るステップと、
    VAD閾値のバイアスにより、修正すべきVAD閾値を修正し、修正した前記VAD閾値を用いて背景ノイズのVAD判断を実行するステップとを備える、VAD方法。
  9. 背景ノイズ変動に関わるパラメータが背景ノイズのピーク信号ノイズ比(SNR)を備える、請求項8に記載のVAD方法。
  10. 背景ノイズ変動に関わるパラメータが、背景エネルギー変動サイズ、背景ノイズスペクトル変動サイズ、長期SNRおよび背景ノイズ変動レートの少なくとも1つをさらに備える、請求項9に記載のVAD方法。
  11. 背景ノイズ変動に関わるパラメータのいずれかが更新される際、前記VAD方法は、背景ノイズ変動に関わるパラメータの現在値に従いVAD閾値のバイアスを更新するステップを備える、請求項8に記載のVAD方法。
  12. 背景ノイズ変動に関わるパラメータに従いVAD閾値のバイアスを得る方法が、
    設定に特定の情報を考慮する必要がない場合、背景ノイズ変動に関わるパラメータに従いVAD閾値の第1のバイアスを得て、前記VAD閾値の第1のバイアスをVAD閾値の最終バイアスとして使用することと、
    設定に特定の情報を考慮する必要があり、背景音が少なくとも1つの不安定なノイズであり、信号ノイズ比(SNR)が低い場合、背景ノイズ変動に関わるパラメータに従いVAD閾値の第1のバイアスと、背景ノイズ変動に関わるパラメータと特定の情報に従いVAD閾値の第2のバイアスを得て、前記VAD閾値の第1のバイアスと前記VAD閾値の第2のバイアスを組み合わせることによってVAD閾値の最終バイアスを得ることと、
    設定に特定の情報を考慮する必要があり、背景音が少なくとも1つの安定したノイズであり、SNRが高い場合、背景ノイズ変動に関わるパラメータに従いVAD閾値の第1のバイアスを得て、前記VAD閾値の第1のバイアスをVAD閾値の最終バイアスとして使用することと、
    設定に特定の情報だけを考慮する場合、背景ノイズ変動に関わるパラメータと特定の情報に従いVAD閾値の第2のバイアスを得て、前記VAD閾値の第2のバイアスをVAD閾値の最終バイアスとして使用することと
    の少なくとも1つを備える、請求項8に記載のVAD方法。
  13. VAD閾値の第1のバイアスが、背景ノイズエネルギー変動、背景ノイズスペクトル変動サイズ、背景ノイズ変動レート、長期SNRおよび背景ノイズのピークSNRの少なくとも1つの増加に伴い増加する、請求項12に記載のVAD方法。
  14. vad_thr_delta=β*(snr_peak−vad_thr_default)である、請求項13に記載のVAD方法。
    ただし、vad_thr_deltaはVAD閾値の第1のバイアスを示し、vad_thr_defaultは修正すべきVAD閾値を示し、snr_peakは背景ノイズのピークSNRを示し、βは定数である。
  15. vad_thr_delta=β*f(var_rate)*(snr_peak−vad_thr_default)である、請求項13に記載のVAD方法。
    ただし、vad_thr_deltaはVAD閾値の第1のバイアスを示し、vad_thr_defaultは修正すべきVAD閾値を示し、snr_peakは背景ノイズのピークSNRを示し、βは定数であり、var_rateは背景ノイズ変動レートを示し、f()は関数を示す。
  16. vad_thr_delta=β*f(var_rate)*f(pow_var)*(snr_peak−vad_thr_default)である、請求項13に記載のVAD方法。
    ただし、vad_thr_deltaはVAD閾値の第1のバイアスを示し、vad_thr_defaultは修正すべきVAD閾値を示し、snr_peakは背景ノイズのピークSNRを示し、βは定数であり、pow_varは背景エネルギー変動サイズを示し、var_rateは背景ノイズ変動レートを示し、f()は関数を示す。
  17. vad_thr_delta=β*f(var_rate)*f(spec_var)*(snr_peak−vad_thr_default)である、請求項13に記載のVAD方法。
    ただし、vad_thr_deltaはVAD閾値の第1のバイアスを示し、vad_thr_defaultは修正すべきVAD閾値を示し、snr_peakは背景ノイズのピークSNRを示し、βは定数であり、spec_varは背景ノイズスペクトル変動サイズを示し、var_rateは背景ノイズ変動レートを示し、f()は関数を示す。
  18. vad_thr_delta=β*f(var_rate)*f(pow_var)*f(spec_var)*(snr_peak−vad_thr_default)である、請求項13に記載のVAD方法。
    ただし、vad_thr_deltaはVAD閾値の第1のバイアスを示し、vad_thr_defaultは修正すべきVAD閾値を示し、snr_peakは背景ノイズのピークSNRを示し、βは定数であり、spec_varは背景ノイズスペクトル変動サイズを示し、var_rateは背景ノイズ変動レートであり、pow_varは背景エネルギー変動サイズを示し、f()は関数を示す。
  19. 前記VAD閾値の第2のバイアスの絶対値が、前記背景ノイズエネルギー変動、背景ノイズスペクトル変動サイズ、背景ノイズ変動レート、長期SNRおよび背景ノイズのピークSNRの少なくとも1つの増加に伴い、増加する、請求項12に記載のVAD方法。
  20. vad_thr_delta_out=sign*γ*(snr_peak−vad_thr_default)である、請求項19に記載のVAD方法。
    ただし、vad_thr_delta_outはVAD閾値の第2のバイアスを示し、vad_thr_defaultは修正すべきVAD閾値を示し、signは特定の情報の方向性により定まるvad_thr_de1ta_outのプラス記号あるいはマイナス記号を示し、snr_peakは背景ノイズのピークSNRを示し、γは定数である。
  21. vad_thr_delta_out=sign*γ*f(var_rate)*(snr_peak−vad_thr_default)である、請求項19に記載のVAD方法。
    ただし、vad_thr_delta_outはVAD閾値の第2のバイアスを示し、vad_thr_defaultは修正すべきVAD閾値を示し、signは特定の情報の方向性により定まるvad_thr_de1ta_outのプラス記号あるいはマイナス記号を示し、snr_peakは背景ノイズのピークSNRを示し、γは定数であり、var_rateは背景ノイズ変動レートを示し、f()は関数を示す。
  22. vad_thr_delta_out=sign*γ*f(var_rate)*f(pow_var)*(snr_peak−vad_thr_default)である、請求項19に記載のVAD方法。
    ただし、vad_thr_delta_outはVAD閾値の第2のバイアスを示し、vad_thr_defaultは修正すべきVAD閾値を示し、signは特定の情報の方向性により定まるvad_thr_de1ta_outのプラス記号あるいはマイナス記号を示し、snr_peakは背景ノイズのピークSNRを示し、γは定数であり、pow_varは背景エネルギー変動サイズを示し、var_rateは背景ノイズ変動レートを示し、f()は関数を示す。
  23. vad_thr_delta_out=sign*γ*f(var_rate)*f(pow_var)*(snr_peak−vad_thr_default)である、請求項19に記載のVAD方法。
    ただし、vad_thr_delta_outはVAD閾値の第2のバイアスを示し、vad_thr_defaultは修正すべきVAD閾値を示し、signは特定の情報の方向性により定まるvad_thr_de1ta_outのプラス記号あるいはマイナス記号を示し、snr_peakは背景ノイズのピークSNRを示し、γは定数であり、spec_varは背景ノイズスペクトル変動サイズを示し、var_rateは背景ノイズ変動レートを示し、f()は関数を示す。
  24. vad_thr_delta_out=sign*γ*f(var_rate)*f(pow_var)*f(spec_var)*(snr_peak−vad_thr_default)である、請求項19に記載のVAD方法。
    ただし、vad_thr_delta_outはVAD閾値の第2のバイアスを示し、vad_thr_defaultは修正すべきVAD閾値を示し、signは特定の情報の方向性により定まるvad_thr_de1ta_outのプラス記号あるいはマイナス記号を示し、snr_peakは背景ノイズのピークSNRを示し、γは定数であり、spec_varは背景ノイズスペクトル変動サイズを示し、var_rateは背景ノイズ変動レートを示し、pow_varは背景エネルギー変動サイズを示し、f()は関数を示す。
  25. snr_peakが、2つの隣接する非背景ノイズフレーム間の各背景ノイズフレームに対応するSNRのうち最も大きいSNRであるか、
    snr_peakが、2つの隣接する背景ノイズフレーム間の各非背景ノイズフレームに対応するSNRのうち最も小さいSNRであるか、
    snr_peakが、あらかじめ設定された数のフレームよりも小さい間隔を有する2つの背景ノイズフレーム間の各非背景ノイズフレームに対応するSNRのいずれかであるか、または
    snr_peakが、あらかじめ設定された数のフレームよりも大きい間隔を有する2つの背景ノイズフレーム間のあらかじめ設定された閾値よりも小さい非背景ノイズフレームに対応するSNRのいずれかである、請求項14から18または請求項20から24のいずれか一項に記載のVAD方法。
  26. snr_peakがあらかじめ設定された数のフレームよりも大きい間隔を有する2つの背景ノイズフレーム間のあらかじめ設定された閾値よりも小さい非背景ノイズフレームに対応するSNRのいずれかである場合、前記2つの背景ノイズフレーム間の非背景ノイズフレームの全てのSNRが2つのグループ、すなわち、閾値よりも大きい全てのSNRを含むグループと、閾値よりも小さい全てのSNRを含むグループを備えると仮定し、各グループの平均値間の差異が最大となる閾値が、あらかじめ設定された閾値として決定される、という法則に従い、閾値が設定される、請求項25に記載のVAD方法。
JP2010510638A 2007-06-07 2008-05-07 音声活動を検出するための装置および方法 Active JP5089772B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN2007101084080A CN101320559B (zh) 2007-06-07 2007-06-07 一种声音激活检测装置及方法
CN200710108408.0 2007-06-07
PCT/CN2008/070899 WO2008148323A1 (fr) 2007-06-07 2008-05-07 Procédé et dispositif de détection d'activité vocale

Publications (2)

Publication Number Publication Date
JP2010529494A true JP2010529494A (ja) 2010-08-26
JP5089772B2 JP5089772B2 (ja) 2012-12-05

Family

ID=40093178

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010510638A Active JP5089772B2 (ja) 2007-06-07 2008-05-07 音声活動を検出するための装置および方法

Country Status (7)

Country Link
US (1) US8275609B2 (ja)
EP (1) EP2159788B1 (ja)
JP (1) JP5089772B2 (ja)
KR (1) KR101158291B1 (ja)
CN (1) CN101320559B (ja)
AT (1) ATE540398T1 (ja)
WO (1) WO2008148323A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013508773A (ja) * 2009-10-19 2013-03-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声エンコーダの方法およびボイス活動検出器
JP2013160938A (ja) * 2012-02-06 2013-08-19 Mitsubishi Electric Corp 音声区間検出装置
CN103839544A (zh) * 2012-11-27 2014-06-04 展讯通信(上海)有限公司 语音激活检测方法和装置
JP2018038787A (ja) * 2016-09-09 2018-03-15 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited 非定常的なオーディオ信号からのノイズのある信号の識別

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
US8571231B2 (en) * 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
CN102044243B (zh) 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
CN102044246B (zh) * 2009-10-15 2012-05-23 华为技术有限公司 一种音频信号检测方法和装置
CN102044241B (zh) * 2009-10-15 2012-04-04 华为技术有限公司 一种实现通信系统中背景噪声的跟踪的方法和装置
CN102959625B9 (zh) * 2010-12-24 2017-04-19 华为技术有限公司 自适应地检测输入音频信号中的话音活动的方法和设备
EP2494545A4 (en) * 2010-12-24 2012-11-21 Huawei Tech Co Ltd METHOD AND DEVICE FOR DETECTING LANGUAGE ACTIVITIES
EP3252771B1 (en) * 2010-12-24 2019-05-01 Huawei Technologies Co., Ltd. A method and an apparatus for performing a voice activity detection
US8650029B2 (en) * 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
CN102148030A (zh) * 2011-03-23 2011-08-10 同济大学 一种语音识别的端点检测方法
JP6303176B2 (ja) * 2012-01-18 2018-04-04 ロッサト、ルカ 信号をデコードする方法、コンピュータプログラム及びデコーダ
CN103325386B (zh) 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和系统
US20140278389A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Adjusting Trigger Parameters for Voice Recognition Processing Based on Noise Characteristics
CN109119096B (zh) * 2012-12-25 2021-01-22 中兴通讯股份有限公司 一种vad判决中当前激活音保持帧数的修正方法及装置
CN103077723B (zh) * 2013-01-04 2015-07-08 鸿富锦精密工业(深圳)有限公司 音频传输系统
CN103971680B (zh) * 2013-01-24 2018-06-05 华为终端(东莞)有限公司 一种语音识别的方法、装置
CN103065631B (zh) 2013-01-24 2015-07-29 华为终端有限公司 一种语音识别的方法、装置
US9697831B2 (en) 2013-06-26 2017-07-04 Cirrus Logic, Inc. Speech recognition
CN106409310B (zh) 2013-08-06 2019-11-19 华为技术有限公司 一种音频信号分类方法和装置
KR102172149B1 (ko) * 2013-12-03 2020-11-02 주식회사 케이티 컨텐츠 재생 방법, 대사 구간 데이터 제공 방법 및 동영상 컨텐츠 재생 단말
US8990079B1 (en) * 2013-12-15 2015-03-24 Zanavox Automatic calibration of command-detection thresholds
US9524735B2 (en) 2014-01-31 2016-12-20 Apple Inc. Threshold adaptation in two-channel noise estimation and voice activity detection
CN104916292B (zh) * 2014-03-12 2017-05-24 华为技术有限公司 检测音频信号的方法和装置
US10770075B2 (en) 2014-04-21 2020-09-08 Qualcomm Incorporated Method and apparatus for activating application by speech input
US9467779B2 (en) 2014-05-13 2016-10-11 Apple Inc. Microphone partial occlusion detector
CN104269178A (zh) * 2014-08-08 2015-01-07 华迪计算机集团有限公司 对语音信号进行自适应谱减和小波包消噪处理的方法和装置
CN110895930B (zh) * 2015-05-25 2022-01-28 展讯通信(上海)有限公司 语音识别方法及装置
CN106328169B (zh) * 2015-06-26 2018-12-11 中兴通讯股份有限公司 一种激活音修正帧数的获取方法、激活音检测方法和装置
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
CN104997014A (zh) * 2015-08-15 2015-10-28 黄佩霞 一种可调理贫血的药膳配方及其制作方法
CN105261368B (zh) * 2015-08-31 2019-05-21 华为技术有限公司 一种语音唤醒方法及装置
US10482899B2 (en) 2016-08-01 2019-11-19 Apple Inc. Coordination of beamformers for noise estimation and noise suppression
US11150866B2 (en) * 2018-11-13 2021-10-19 Synervoz Communications Inc. Systems and methods for contextual audio detection and communication mode transactions
CN110738986B (zh) * 2019-10-24 2022-08-05 数据堂(北京)智能科技有限公司 一种长语音标注装置及方法
CN111540342B (zh) * 2020-04-16 2022-07-19 浙江大华技术股份有限公司 一种能量阈值调整方法、装置、设备及介质
CN111739542B (zh) * 2020-05-13 2023-05-09 深圳市微纳感知计算技术有限公司 一种特征声音检测的方法、装置及设备
TWI756817B (zh) * 2020-09-08 2022-03-01 瑞昱半導體股份有限公司 語音活動偵測裝置與方法
CN112185426B (zh) * 2020-09-30 2022-12-27 青岛信芯微电子科技股份有限公司 一种语音端点检测设备及方法
CN113571072B (zh) * 2021-09-26 2021-12-14 腾讯科技(深圳)有限公司 一种语音编码方法、装置、设备、存储介质及产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11327582A (ja) * 1998-03-24 1999-11-26 Matsushita Electric Ind Co Ltd 騒音下での音声検出システム
US6216103B1 (en) * 1997-10-20 2001-04-10 Sony Corporation Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise
US6453291B1 (en) * 1999-02-04 2002-09-17 Motorola, Inc. Apparatus and method for voice activity detection in a communication system
JP2002366174A (ja) * 2001-06-01 2002-12-20 Telogy Networks Inc G.729の付属書bに準拠した音声アクティビティ検出回路を収束させるための方法
US20060217976A1 (en) * 2005-03-24 2006-09-28 Mindspeed Technologies, Inc. Adaptive noise state update for a voice activity detector

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI118359B (fi) 1999-01-18 2007-10-15 Nokia Corp Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
US6618701B2 (en) 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US6910011B1 (en) * 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
CN1123863C (zh) * 2000-11-10 2003-10-08 清华大学 基于语音识别的信息校核方法
EP1415505A1 (en) 2001-05-30 2004-05-06 Aliphcom Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
RU2331933C2 (ru) * 2002-10-11 2008-08-20 Нокиа Корпорейшн Способы и устройства управляемого источником широкополосного кодирования речи с переменной скоростью в битах
EP1443498B1 (en) * 2003-01-24 2008-03-19 Sony Ericsson Mobile Communications AB Noise reduction and audio-visual speech activity detection
US8073689B2 (en) * 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
SG119199A1 (en) * 2003-09-30 2006-02-28 Stmicroelectronics Asia Pacfic Voice activity detector
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
CN100456356C (zh) * 2004-11-12 2009-01-28 中国科学院声学研究所 一种应用于语音识别系统的语音端点检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6216103B1 (en) * 1997-10-20 2001-04-10 Sony Corporation Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise
JPH11327582A (ja) * 1998-03-24 1999-11-26 Matsushita Electric Ind Co Ltd 騒音下での音声検出システム
US6453291B1 (en) * 1999-02-04 2002-09-17 Motorola, Inc. Apparatus and method for voice activity detection in a communication system
JP2002366174A (ja) * 2001-06-01 2002-12-20 Telogy Networks Inc G.729の付属書bに準拠した音声アクティビティ検出回路を収束させるための方法
US20060217976A1 (en) * 2005-03-24 2006-09-28 Mindspeed Technologies, Inc. Adaptive noise state update for a voice activity detector

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013508773A (ja) * 2009-10-19 2013-03-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声エンコーダの方法およびボイス活動検出器
JP2013160938A (ja) * 2012-02-06 2013-08-19 Mitsubishi Electric Corp 音声区間検出装置
CN103839544A (zh) * 2012-11-27 2014-06-04 展讯通信(上海)有限公司 语音激活检测方法和装置
CN103839544B (zh) * 2012-11-27 2016-09-07 展讯通信(上海)有限公司 语音激活检测方法和装置
JP2018038787A (ja) * 2016-09-09 2018-03-15 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited 非定常的なオーディオ信号からのノイズのある信号の識別

Also Published As

Publication number Publication date
CN101320559B (zh) 2011-05-18
WO2008148323A1 (fr) 2008-12-11
US20100088094A1 (en) 2010-04-08
US8275609B2 (en) 2012-09-25
KR20100012035A (ko) 2010-02-04
CN101320559A (zh) 2008-12-10
ATE540398T1 (de) 2012-01-15
KR101158291B1 (ko) 2012-06-20
EP2159788A1 (en) 2010-03-03
JP5089772B2 (ja) 2012-12-05
EP2159788B1 (en) 2012-01-04
EP2159788A4 (en) 2010-09-01

Similar Documents

Publication Publication Date Title
JP5089772B2 (ja) 音声活動を検出するための装置および方法
RU2417456C2 (ru) Системы, способы и устройства для обнаружения изменения сигналов
CN103827965B (zh) 自适应语音可理解性处理器
US9099098B2 (en) Voice activity detection in presence of background noise
US8990074B2 (en) Noise-robust speech coding mode classification
WO2016192410A1 (zh) 一种音频信号增强方法和装置
JP2005521106A (ja) パターン認識
TWI467979B (zh) 用於信號改變偵測之系統、方法及裝置
CN112489665A (zh) 语音处理方法、装置以及电子设备
EP1312075A1 (en) Method for noise robust classification in speech coding
CN115798502A (zh) 一种用于蓝牙耳机的音频去噪方法
CN110600019B (zh) 基于实时场景下语音信噪比预分级的卷积神经网络计算电路
CN1801326A (zh) 利用增益自适应提高语音识别率的方法
Rehr et al. An analysis of adaptive recursive smoothing with applications to noise PSD estimation
Deng et al. Likelihood ratio sign test for voice activity detection
US11875779B2 (en) Voice activity detection device and method
US20230402050A1 (en) Speech Enhancement
KR100557113B1 (ko) 다수의 대역들을 이용한 대역별 음성신호 판정장치 및 방법
CN113327634A (zh) 一种应用于低功耗电路的语音活动检测方法及系统
Chen et al. A Support Vector Machine Based Voice Activity Detection Algorithm for AMR-WB Speech Codec System
CN116364107A (zh) 一种语音信号检测方法、装置、设备及存储介质
Vini Voice Activity Detection Techniques-A Review
CN114187926A (zh) 语音活动检测装置与方法
Syed et al. Speech Waveform Compression Using Robust Adaptive Voice Activity Detection for Nonstationary Noise.
CN113160816A (zh) 一种基于神经网络vad算法的人机交互方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120131

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120424

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120502

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120731

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120821

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120911

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150921

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5089772

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250