JP5905608B2 - 背景雑音の存在下でのボイスアクティビティ検出 - Google Patents

背景雑音の存在下でのボイスアクティビティ検出 Download PDF

Info

Publication number
JP5905608B2
JP5905608B2 JP2014553316A JP2014553316A JP5905608B2 JP 5905608 B2 JP5905608 B2 JP 5905608B2 JP 2014553316 A JP2014553316 A JP 2014553316A JP 2014553316 A JP2014553316 A JP 2014553316A JP 5905608 B2 JP5905608 B2 JP 5905608B2
Authority
JP
Japan
Prior art keywords
snr
noise
band
determining
voice activity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014553316A
Other languages
English (en)
Other versions
JP2015504184A5 (ja
JP2015504184A (ja
Inventor
アッティ、ベンカトラマン・スリニバサ
クリシュナン、ベンカテシュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2015504184A publication Critical patent/JP2015504184A/ja
Publication of JP2015504184A5 publication Critical patent/JP2015504184A5/ja
Application granted granted Critical
Publication of JP5905608B2 publication Critical patent/JP5905608B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)
  • Noise Elimination (AREA)

Description

関連出願の相互参照
[0001]本出願は、米国特許法第119条(e)の利益に基づき、2012年1月20日出願の米国仮特許出願第61/588,729号の優先権を主張する。本仮特許出願は、その全体が参照により本明細書に明確に組み込まれる。
[0002]雑音の多い環境で通信が行われる適用例では、所望の音声信号を背景雑音から分離することが望ましいことがある。雑音は、所望の信号と干渉するかあるいは所望の信号を劣化させるすべての信号の組合せと定義され得る。背景雑音は、他の人々の背景会話など、音響環境内で発生される多数の雑音信号、並びに所望の信号および/または他の信号のいずれかから発生される反射および残響を含み得る。
[0003]ボイスアクティビティ検出器(VAD:voice activity detector)などの信号アクティビティ検出器は、電子デバイスにおける不要な処理の量を最小化するために使用され得る。ボイスアクティビティ検出器は、マイクロフォンに続いて1つまたは複数の信号処理段階を選択的に制御し得る。例えば、記録デバイスは、雑音信号の処理と記録とを最小限に抑えるために、ボイスアクティビティ検出器を実装し得る。ボイスアクティビティ検出器は、ボイスアクティビティがない期間中、信号処理および記録を非活性化するか、あるいは非活動化し得る。同様に、スマートフォン、携帯電話、携帯情報端末(PDA)、ラップトップ、または任意のポータブルコンピューティングデバイスなどの通信デバイスは、雑音信号に割り振られる処理能力を低減させるために、およびリモート宛先デバイスに送信されるか、あるいは通信される雑音信号を低減させるためにボイスアクティビティ検出器を実装し得る。ボイスアクティビティ検出器は、ボイスアクティビティがない期間中、ボイス処理および送信を非活性化するか、または非活動化し得る。
[0004]ボイスアクティビティ検出器が満足に動作する能力は、雑音条件を変化させることと著しい雑音エネルギーを有する雑音条件とによって妨げられ得る。ボイスアクティビティ検出が、動的雑音環境を受けるモバイルデバイスで統合されるとき、ボイスアクティビティ検出器のパフォーマンスはさらに複雑になり得る。モバイルデバイスは、比較的雑音のない環境下で動作することがあり、または雑音エネルギーがボイスエネルギー程度であるかなりの雑音条件下で動作することがある。動的雑音環境の存在はボイスアクティビティ決定を複雑にする。
[0005]従来、ボイスアクティビティ検出器は、入力フレームを背景雑音またはアクティブ音声として分類する。アクティブ/非アクティブ分類は、音声コーダが典型的な電話会話によくあるトークスパート(talk spurts)間の休止を活用させる。信号対雑音比(SNR:signal-to-noise ratio)>30dBなどの高いSNRでは、単純なエネルギー測定が最小ビットレートでの符号化のためのボイス非アクティブセグメントを正確に検出するために妥当であり、それによって、より低いビットレート要件を満たす。しかしながら、低いSNRでは、ボイスアクティビティ検出器のパフォーマンスが著しく劣化する。例えば、低いSNRにおいて、保守的なVADは、増加された誤音声検出を生成し、良い高い平均符号化レートをもたらし得る。積極的なVADは、アクティブ音声セグメントを検出し損ない、それによって、音声品質の低下をもたらし得る。
[0006]最新のVAD技法は、入力フレームが背景雑音であるか、またはアクティブ音声であるのかのVAD決定を実行する際に使用する閾値(VAD_THRと呼ばれる)を推定するために長期(long-term)SNRを使用する。低いSNRや高速変動、非定常雑音の下で、平滑化された長期SNRは不正確なVAD_THRを生成し、その結果、音声を逃す確率の増加または誤音声検出の確率の増加をもたらすことになる。また、いくつかのVAD技法(例えば、適応マルチレート広帯域またはAMR−WB(Adaptive Multi-Rate Wideband))は、自動車雑音などの定常タイプの雑音に対してうまく動作するが、低いSNR(例えば、SNR<15dB)での非定常雑音に対して(広範な誤検出により)極めて高いボイスアクティビティファクタを生成する。
[0007]このようにして、ボイスアクティビティの誤った指示は雑音信号の処理および送信をもたらし得る。雑音信号の処理および送信は、ボイスアクティビティ検出器によるボイスアクティビティの欠如の指示により雑音送信の期間に非アクティビティ期間が点在する場合に特に、粗末なユーザエクスペリエンスをもたらし得る。逆に、粗末なボイスアクティビティ検出はボイス信号の実質的部分の損失をもたらし得る。ボイスアクティビティの冒頭部分の損失は、ユーザが会話の一部分をしょっちゅう(regularly)繰り返す必要をもたらし得るもので、これは不所望な状態である。
[0008]本発明は、平均SNR(すなわち、SNRavg)計算において背景雑音の突然の変化を補償することを意図する。一実施形態では、複数の帯域におけるSNR値が外れ値(outlier)フィルタ処理および/または重みを適用することによって選択的に調整される。SNR外れ値フィルタ処理は、単独で、あるいは平均SNRを重み付けすることと併せて使用され得る。複数のサブバンドにおける適応手法も提供される。
[0009]一実施形態で、VADは、音をキャプチャする1つまたは複数のマイクロフォンも含むモバイルデバイスに備えられるか、または結合され得る。デバイスは、到来音声信号を、複数ブロックの時間、あるいは複数の分析フレームまたは複数の部分に分割する。時間(またはフレーム)内の各セグメントの持続時間は、信号のスペクトルエンベロープが比較的定常のままである十分な短さである。
[0010]一実施形態で、平均SNRは重み付けされる。適応重みは、平均SNRを計算する前に、帯域当たりのSNRに適用される。重み付け関数は、雑音レベル、雑音タイプ、および/または瞬時SNR値の関数であり得る。
[0011]別の重み付け機構は、特定の帯域の重みをゼロ(zero )に設定するヌルフィルタ処理または外れ値フィルタ処理を適用する。この特定の帯域は、他の複数の帯域におけるSNRよりも数倍高いSNRを示す帯域として特徴づけられ得る。
[0012]一実施形態で、SNR外れ値フィルタ処理を実行することは、単調な順序で帯域における修正瞬時SNR値をソートすることと、(1つまたは複数の)帯域のうちのどれが(1つまたは複数の)外れ値帯域であるかを判断することと、(1つまたは複数の)外れ値帯域に関連する重みをゼロに設定することによって適応重み付け関数を更新することとを行うことを備える。
[0013]一実施形態では、複数のサブバンドにおける適応手法が使用される。サブバンドVAD決定を論理的に組み合わせる代わりに、複数のサブバンドにおける平均SNRと閾値との間の差が適応的に重み付けされる。VAD閾値とこの平均SNRとの間の差は各サブバンドにおいて判断される。重みが各差に適用され、重み付けされた差が一緒に加算される。その結果をゼロなどの別の閾値と比較することによってボイスアクティビティがあるか否かが判断され得る。
[0014]この概要は、詳細な説明において以下でさらに述べる簡略化した形態の概念の選択を紹介するために提供される。この概要は、特許請求された主題の主要な特徴または本質的特徴を識別することを意図されず、特許請求された主題の範囲を限定したりするために使用することも意図されない。
[0015]上記の概要並びに例示的な実施形態についての以下の詳細な説明は、添付の図面と併せ読めば、よりよく理解される。実施形態を例示する目的で、図面には、実施形態の例示的な構造が示されているが、実施形態は、開示される特定の方法および手段に限定されない。
[0016]VAD閾値を推定する際に使用され得るVAD閾値(VAD_THR)対長期SNR(SNR_LT)のマッピング曲線の一例を示す図。 [0017]ボイスアクティビティ検出器の実施形態を示すブロック図。 [0018]ボイスアクティビティを検出する際に使用され得る平均SNRを重み付けする方法の実施形態の動作フローを示す図。 [0019]ボイスアクティビティを検出する際に使用され得るSNR外れ値フィルタ処理の方法の実施形態の動作フローを示す図。 [0020]誤検出中の帯域当たりのソートされたSNRの確率分布関数(PDF:probability distribution function)の一例を示す図。 [0021]背景雑音の存在下でボイスアクティビティを検出するための方法の実施形態の動作フローを示す図。 [0022]ボイスアクティビティを検出する際に使用され得る方法の実施形態の動作フローを示す図。 [0023]例示的な移動局の図。 [0024]例示的なコンピューティング環境を示す図。
詳細な説明
[0025]図面を参照して組み込む以下の詳細な説明は、1つまたは複数の特定の実施形態を説明し、例示するものである。限定するためではなく、例示し、教示するためだけに提供されるこれら実施形態は、当業者が特許請求の範囲を実施できるように十分詳細に図示され、説明される。従って、簡潔さのため、この説明は、当業者に知られているある情報を省略し得る。
[0026]多くの音声処理システムでは、ボイスアクティビティ検出は、一般に、マイクロフォン信号などのオーディオ入力信号、例えば、モバイルフォンのマイクロフォン信号から推定される。ボイスアクティビティ検出は、ボコーダおよび音声認識デバイスなど、多くの音声処理デバイスでは重要な機能である。
[0027]ボイスアクティビティ検出分析は、時間領域または周波数領域のいずれかにおいて実行され得る。背景雑音の存在下で、かつ低いSNRでは、周波数領域VADは、一般に、時間領域VADのそれよりも好ましい。周波数領域VADは、スペクトルビンの各々におけるSNRを分析することの利点を有する。典型的な周波数領域VADで、最初に、音声信号は複数のフレーム、例えば10〜30ms長にセグメント化される。次に、時間領域音声フレームは、NポイントFFT(高速フーリエ変換:fast Fourier transform)を使用して周波数領域に変換される。最初の半分、すなわち、N/2個の周波数ビンは、M個の帯域のような、いくつかの帯域に分割される。こうした複数の帯域へのスペクトルビンのグルーピングは、一般に、人間聴覚系の臨界帯域構造を模倣する。一例として、毎秒16,000サンプルでサンプリングされる広帯域音声に対して、N=256ポイントのFFT、M=20個の帯域とする。第1の帯域はN1個のスペクトルビンを含み得、第2の帯域はN2個のスペクトルビンを含み得、以下同様である。
[0028]m番目の帯域における帯域当たりの平均エネルギーEcb(m)は、各帯域内における複数のFFTビンの大きさを加算することによって計算される。次に、帯域当たりのSNRは式(1)を使用して計算される。
Figure 0005905608
Ncb(m)は、非アクティブフレーム中に更新されるm番目の帯域における背景雑音エネルギーである。次に、平均信号対雑音比、SNRavg、が式(2)を使用して計算される。
Figure 0005905608
[0029]SNRavgは閾値、VAD_THR、と比較され、決定が式(3)に示すように行われる。
Figure 0005905608
[0030]VAD_THRは、一般に、適応型で、長期信号と雑音エネルギーの比に基づくものであって、VAD_THRは、フレームごとに変化する(vary)。VAD_THRを推定する1つの一般的な方法は、図1に示す形のマッピング曲線を使用することである。図1は、VAD閾値(すなわち、VAD_THR)対SNR_LT(長期SNR)のマッピング曲線の一例である。長期信号エネルギーと雑音エネルギーとは、指数平滑化関数を使用して推定される。次いで、長期SNR、SNRLT、は、式(4)を使用して計算される。
Figure 0005905608
[0031]上記のように、最新のVAD技法は、VAD決定を実行するためにVAD_THRを推定するために長期SNRを使用する。低いSNRでまたは高速変動の非定常雑音の下で、平滑化された長期SNRは不正確なVAD_THRを生成し、音声を逃す確率の増加または誤音声検出の確率の増加をもたらす。また、いくつかのVAD技法(例えば、適応マルチレート広帯域またはAMR−WB)は、自動車雑音などの定常タイプの雑音に対してうまく動作するが、低いSNR(例えば、15dB未満)での非定常雑音に対して(広範な誤検出により)極めて高いボイスアクティビティファクタを生成する。
[0032]本明細書における実施形態は、SNRavg計算において背景雑音の突然の変化を補償することを意図する。いくつかの実施形態に関して本明細書でさらに説明するように、複数の帯域におけるSNR値は、外れ値フィルタ処理および/または重みを適用することによって選択的に調整される。
[0033]図2は、ボイスアクティビティ検出器(VAD)200の実施形態を示すブロック図であり、図3は、平均SNRを重み付けする方法300の実施形態の動作フローである。
[0034]一実施形態では、VAD200は、受信機205、プロセッサ207、重み付けモジュール210、SNR計算モジュール220、外れ値フィルタ230、および決定モジュール240を備える。VAD200は、音をキャプチャする1つまたは複数のマイクロフォンも含むデバイスに備えられるか、結合され得る。代替または追加として、受信機205は、音をキャプチャするデバイスを備え得る。連続音は、離散間隔で音をサンプリングし、音を量子化する(例えば、デジタル化する)デジタイザ(例えば、プロセッサ207等のプロセッサ)に送信され得る。デバイスは、到来音声信号を、時間のブロック、あるいは複数の分析フレームまたは複数の部分に分割し得る。時間(またはフレーム)内の各セグメントの持続時間は、一般に、信号のスペクトルエンベロープが比較的定常のままであることが期待できる十分な短さになるように選択される。実施形態に応じて、VAD200は、移動局または他のコンピューティングデバイス内に備えられ得る。例示的な移動局が図8に関して説明される。例示的なコンピューティングデバイスが図9に関して説明される。
[0035]一実施形態では、平均SNRは、(例えば、重み付けモジュール210によって)重み付けされる。より詳細には、適応重みは、SNRavgを計算する前に帯域当たりのSNRに適用される。一実施形態では、これは、式(5)によって表される。
Figure 0005905608
[0036]重み付け関数WEIGHT(m)は、雑音レベル、雑音タイプ、および/または瞬時SNR値の関数であり得る。310では、音の1つまたは複数の入力フレームがVAD200で受信され得る。320では、雑音レベル、雑音タイプ、および/または瞬時SNR値が例えば、VAD200のプロセッサによって判断され得る。瞬時SNR値は、例えば、SNR計算モジュール220によって判断され得る。
[0037]330では、重み付け関数が、例えば、VAD200のプロセッサによって、雑音レベル、雑音タイプ、および/または瞬時SNR値に基づいて判断され得る。帯域(サブバンドとも呼ばれる)が例えば、VAD200のプロセッサによって340で判断され得、適応重みが350で帯域当たりのSNRに適用され得る。複数の帯域にわたる平均SNRが、例えばSNR計算モジュール220によって360で判断され得る。
[0038]例えば、帯域1、2、および3における瞬時SNR値が帯域≧4における瞬時SNR値よりも著しく低い(例えば、20倍)場合、m<4の場合のSNRGB(m)は、帯域m≧4の場合よりも低い重みを受信し得る。これは、一般に、より低い帯域(<300Hz)におけるSNRがボイス活性領域中に上位帯域におけるSNRよりも著しく低くなる自動車雑音の場合である。
[0039]雑音タイプおよび背景雑音レベル変動は、WEIGHT(m)曲線を選択するために検出され得る。一実施形態で、WEIGHT(m)曲線のセットは、事前計算され、データベースまたは他のストレージまたはメモリデバイスまたは構造に記憶され得、各々は、検出された背景雑音タイプ(例えば、定常または非定常)とバックグラウンドノイズレベル変動(例えば、雑音レベルの3dB、6dB、9dB、12dBの増加)とに依存してフレームを処理するごとに選定される。
[0040]本明細書で説明するように、実施形態は、外れ値フィルタ処理と重みを適用することとによって帯域におけるSNR値を選択的に調節することによってSNRavg計算における背景雑音の突然の変化を補償する。
[0041]一実施形態で、SNR外れ値フィルタ処理は、単独で、あるいは平均SNRを重み付けすることと併せて使用され得る。より詳細には、別の重み付け機構が、特定の帯域の重みを本質的にゼロに設定するヌルフィルタ処理または外れ値フィルタ処理を適用し得る。この特定の帯域は、他の複数の帯域におけるSNRよりも数倍高いSNRを示す帯域として特徴づけられ得る。
[0042]図4は、SNR外れ値フィルタ処理の方法400の実施形態の動作フローである。この手法において、帯域m=1、2、...、20におけるSNRは410で昇順でソートされ、最大SNR(外れ値)値を有する帯域が420で識別される。その外れ値帯域に関連する重みは430でゼロに設定される。そのような技法は、例えば、外れ値フィルタ230によって実行され得る。
[0043]このSNR外れ値問題は、例えば、いくつかの帯域におけるSNRでスパイクを生成する雑音エネルギーの数値精度または過小評価により起こり得る。図5は、誤検出中の帯域当たりのソートされたSNRの確率分布関数(PDF)の一例を示す図である。図5に、ボイスアクティブとして誤って分類されたすべてのフレームにわたるソートされたSNRのPDFを示す。図5に示すように、外れ値SNRは、20の帯域で中央SNRの数百倍である。さらに、(場合によっては、雑音または数値精度の過小評価により)1つの帯域におけるより高い(外れ値)SNR値が、SNRavgをVAD_THRよりも高く押し上げ、voice_activity=真を生じている。
[0044]図6は、背景雑音の存在下でボイスアクティビティを検出するための方法600の実施形態の動作フローを示す図である。610で、1つまたは複数の入力フレームの音が例えば、VAD200の受信機205のようなVADの受信機によって受信される。620で、各入力フレームの雑音特性が判断される。入力フレームの雑音レベル変動、雑音タイプ、および/または瞬時SNR値などの雑音特性は例えば、VAD200のプロセッサ207によって判断される。
[0045]630では、例えばVAD200のプロセッサ207を使用し、複数の帯域が少なくとも雑音レベル変動および/または雑音タイプに基づくなど、雑音特性に基づいて判断される。帯域当たりのSNR値が、640で雑音特性に基づいて判断される。一実施形態では、帯域当たりの修正瞬時SNR値が、640で少なくとも雑音レベル変動および/または雑音タイプに基づいてSNR計算モジュール220によって判断される。例えば、帯域当たりの修正瞬時SNR値は、入力フレームの少なくとも瞬時SNRに基づいて帯域当たりの信号エネルギーの過去の推定値を使用して帯域当たりの信号エネルギーの現在の推定値を選択的に平滑化することと、少なくとも雑音レベル変動と雑音タイプとに基づいて帯域当たりの雑音エネルギーの過去の推定値を使用して帯域当たりの雑音エネルギーの現在の推定値を選択的に平滑化することと、帯域当たりの信号エネルギーの平滑化された推定値と雑音エネルギーの平滑化された推定値の比を判断することとに基づいて判断され得る。
[0046]650では、外れ値帯域が(例えば、外れ値フィルタ230によって)判断され得る。一実施形態で、所与の帯域のいずれかにおける修正瞬時SNRは、帯域の残りにおける修正瞬時SNRの和よりも数倍大きい。
[0047]一実施形態では、660で、適応重み付け関数が(例えば、重み付けモジュール210によって)少なくとも雑音レベル変動、雑音タイプ、外れ値帯域のロケーション、および/または帯域当たりの修正瞬時SNR値に基づいて判断され得る。適応重み付けは重み付けモジュール210によって670で帯域当たりの修正瞬時SNRに適用され得る。
[0048]680では、入力フレーム当たりの重み付き平均SNRが帯域にわたって重み付き修正瞬時SNRを加算することでSNR計算モジュール220によって判断され得る。690で、重み付き平均SNRは信号またはボイスアクティビティの存在または不在を検出するために閾値と比較される。例えば、そのような比較および判断は、決定モジュール240によって行われ得る。
[0049]一実施形態では、SNR外れ値フィルタ処理を実行することは、単調な順序で帯域における修正瞬時SNR値をソートすることと、(1つまたは複数の)帯域のうちのどれが(1つまたは複数の)外れ値帯域であるかを判断することと、(1つまたは複数の)外れ値帯域に関連する重みをゼロに設定することによって適応重み付け関数を更新することとを行うことを備える。
[0050]よく知られている手法は、複数のサブバンドにおけるVAD決定を行い、次いで、フレーム当たりの最終VAD決定を取得するためにこれらのサブバンドVAD決定を論理的に組み合わせることである。例えば、拡張可変レートコーデック−広帯域(EVRC−WB:Enhanced Variable Rate Codec-Wideband)は、サブバンドにおいて独立したVAD決定を行うために3つの帯域(低または「L」:0.2〜2kHz、または「M」:2〜4kHzおよび高または「H」:4〜7kHz)を使用する。VAD決定は、フレームについての全体的なVAD決定を推定するためにOR演算される。これは、式(6)によって表される。
Figure 0005905608
[0051]逃した音声検出事例の大部分(majority)中に(特に、低いSNRで)、サブバンドSNRavg値はサブバンドVAD_THR値よりもわずかに小さくなるが、過去のフレームでは、サブバンドSNRavg値のうちの少なくとも1つは、対応するサブバンドVAD_THRよりも著しく大きくなることが経験的にわかっている。
[0052]一実施形態では、サブバンドにおける適応ソフトVAD_THR手法が使用され得る。サブバンドVAD決定を論理的に組み合わせる代わりに、VAD_THRと複数のサブバンドにおけるSNRavgとの間の差が適応的に重み付けされる。
[0053]図7は、そのような方法700の実施形態の動作フローである。710において、例えば、VAD200のプロセッサによって、各サブバンドにおけるVAD_THRとSNRavgとの間の差が判断される。例えば、VAD200の重み付けモジュール210によって、重みが720で各差に適用され、重み付き差が730で合計される。
[0054]740では、ボイスアクティビティがあるか否かが730の結果をゼロのような別の閾値と比較することで(例えば、決定モジュール240によって)判断され得る。これを式(7)および式(8)に示す。
Figure 0005905608
Figure 0005905608
[0055]一例として、重み付けパラメータαL、αM、αHは、例えば、ユーザによって、それぞれ、0.3、0.4、0.3に最初に初期化される。重み付けパラメータは、複数のサブバンドにおける長期SNRに従って適応的に変化し得る。重み付けパラメータは、特定の実施形態に依存して、例えば、ユーザによって任意の(1つまたは複数の)値に設定され得る。
[0056]重み付けパラメータαL=αM=αH=1であるとき、式(7)および式(8)によって表される上記のサブバンド決定式は、上記で説明したフルバンドの式(3)の式と同様であることに留意されたい。
[0057]従って、一実施形態で、EVRC−WBは、複数のサブバンドにおける独立したVAD決定を行うために3つの帯域(0.2〜2kHz、2〜4kHzおよび4〜7kHz)を使用する。VAD決定は、フレームについての全体的なVAD決定を推定するためにOR演算される。
[0058]一実施形態では、いくらかの重複が(オクターブ当たりで)例えば、0.2〜1.7kHz、1.6kHz〜3.6kHz、および3.7kHz〜6.8kHzのような複数の帯域間であり得る。この重複がより良い結果を与えると判断されている。
[0059]一実施形態では、VAD基準が2つのサブバンドのいずれかで満たされる場合、それはボイスアクティブフレームとして扱われる。
[0060]上記で説明した例は別個の周波数範囲をもつ3つのサブバンドを使用するが、これは限定するものではない。実施形態に依存して、または必要に応じて、任意の周波数範囲と任意の量の重複とをもつ任意の数のサブバンドが使用され得る。
[0061]本明細書で説明するVADは、サブバンドVADとフルバンドVADとの間にトレードオフを有し、EVRC−WBタイプのサブバンドVADから改善された誤レートパフォーマンスと、AMR−WBタイプのフルバンドVADから改善された逃した音声検出パフォーマンスとの利点を有する能力を与える。
[0062]実施形態に依存して、任意の1つまたは複数の比較および/または閾値が使用され得るので、本明細書で説明する比較および閾値は限定するものではない。実施形態に依存して、追加のおよび/または代替の比較および閾値も使用され得る。
[0063]別段に規定されていない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する(その逆も同様)ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する(その逆も同様)ことをも明確に意図する。
[0064]本明細書で使用される場合、「判断する」という用語(およびその文法的な変形)は、極めて幅広い意味で使用される。「判断」という用語は、多種多様なアクションを包含し、従って、「判断」は、計算、算出、処理、導出、調査、ルックアップ(例えば、テーブル、データベースまたは別のデータ構造でのルックアップ)、確認などを含むことができる。また、「判断」は、受信(例えば、情報を受信すること)、アクセス(例えば、メモリ内のデータにアクセスすること)などを含むことができる。また、「判断」は、解決、選択、選定、確立などを含むことができる。
[0065]「例示的」という単語は、本開示全体にわたって、「例、事例、または例示の働きをすること」を意味するために使用する。本明細書で「例示的」と記載されたものは何でも、必ずしも他の手法または特徴よりも好ましいまたは有利であると解釈されるべきではない。
[0066]「信号処理」という用語(およびその文法的変化形)は、信号の処理および解釈を指すことがある。対象の信号は、音、画像、およびその他の多くのものを含み得る。このような信号の処理は、格納、再構築、雑音からの情報の分離、圧縮、および特徴抽出を含み得る。「デジタル信号処理」という用語は、デジタル表現における信号の検討と信号の処理方法とを指すことがある。デジタル信号処理は、移動局、非移動局、およびインターネットなどの多くの通信技術の要素である。デジタル信号処理のために利用されるアルゴリズムは、専用コンピュータを使用して実行され得、専用コンピュータは、(DSPと略される場合がある)デジタル信号プロセッサと呼ばれる専用マイクロプロセッサを利用し得る。
[0067]本明細書で開示する実施形態に関して説明する方法、プロセス、またはアルゴリズムのステップは、直接ハードウェアで実施され得るか、プロセッサによって実行されるソフトウェアモジュールで実施され得るか、またはその2つの組合せで実施され得る方法またはプロセスにおける様々なステップまたは行為は、示された順序で実行されることも、別の順序で実行されることもあり得る。加えて、1つまたは複数のプロセスまたは方法ステップが省略され得、あるいは1つまたは複数のプロセスまたは方法ステップが方法およびプロセスに追加され得る。方法およびプロセスの開始、終了、または介在する既存の要素に追加のステップ、ブロック、またはアクションが追加され得る。
[0068]図8に、ワイヤレス通信システムにおける例示的な移動局800の設計のブロック図を示す。移動局800は、スマートフォン、セルラーフォン、端末、ハンドセット、PDA、ワイヤレスモデム、コードレスフォンなどであり得る。ワイヤレス通信システムは、CDMAシステム、GSM(登録商標)システムなどであり得る。
[0069]移動局800は、受信経路と送信経路とを介して双方向通信を行うことが可能である。受信経路上で、基地局によって送信された信号は、アンテナ812によって受信され、受信機(RCVR)814に与えられる。受信機814は、受信信号を調整し、デジタル化し、さらなる処理のためにサンプルをデジタルセクション820に与える。送信経路上で、送信機(TMTR)816は、デジタルセクション820から送信すべきデータを受信し、データを処理し、調整し、変調信号を生成し、変調信号はアンテナ812を介して基地局に送信される。受信機814および送信機816は、CDMA、GSMなどをサポートし得るトランシーバの一部であり得る。
[0070]デジタルセクション820は、例えば、モデムプロセッサ822、縮小命令セットコンピュータ/デジタル信号プロセッサ(RISC/DSP)824、コントローラ/プロセッサ826、内部メモリ828、一般化されたオーディオエンコーダ832、一般化されたオーディオデコーダ834、グラフィックス/ディスプレイプロセッサ836、および外部バスインターフェース(EBI:external bus interface)838など、様々な処理、インターフェース、およびメモリユニットを含む。モデムプロセッサ822は、データ送信および受信、例えば符号化、変調、復調、および復号の処理を実行し得る。RISC/DSP824は、ワイヤレスデバイス800のための一般的および特別な処理を実行し得る。コントローラ/プロセッサ826は、デジタルセクション820内の様々な処理およびインターフェースユニットの演算を指示し得る。内部メモリ828は、デジタルセクション820内の様々なユニットのためのデータおよび/または命令を記憶し得る。
[0071]一般化されたオーディオエンコーダ832は、オーディオソース842、マイクロフォン843などからの入力信号の符号化を実行し得る。一般化されたオーディオデコーダ834は、コード化されたオーディオデータの復号を実行し得、出力信号をスピーカー/ヘッドセット844に与え得る。グラフィックス/ディスプレイプロセッサ836は、グラフィックス、ビデオ、画像、およびテキストの処理を実行し得、これらはディスプレイユニット846に提示され得る。EBI838は、デジタルセクション820とメインメモリ848との間のデータ転送を容易にし得る。
[0072]デジタルセクション820は、1つまたは複数のプロセッサ、DSP、マイクロプロセッサ、RISCなどを用いて実装され得る。デジタルセクション820はまた、1つまたは複数の特定用途向け集積回路(ASIC)および/または何らかの他のタイプの集積回路(IC)上に作製され得る。
[0073]図9に、例示的な実施形態および態様が実装され得る例示的なコンピューティング環境を示す。コンピューティングシステム環境は、適切なコンピューティング環境の一例にすぎず、使用または機能の範囲に関するいかなる限定も示唆するものではない。
[0074]コンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令が使用され得る。概して、プログラムモジュールは、特定のタスクを実行するか、または特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。通信ネットワークまたは他のデータ伝送媒体を介してリンクされる遠隔処理デバイスによってタスクが実行される、分散コンピューティング環境が使用され得る。分散コンピューティング環境では、プログラムモジュールおよび他のデータは、メモリストレージデバイスを含むローカルおよびリモートの両方のコンピュータ記憶媒体に配置され得る。
[0075]図9を参照すると、本明細書で説明する態様を実装するための例示的なシステムは、コンピューティングデバイス900などのコンピューティングデバイスを含む。その最も基本的な構成では、コンピューティングデバイス900は、一般に、少なくとも1つの処理ユニット902とメモリ904とを含む。コンピューティングデバイスの正確な構成およびタイプに依存して、メモリ904は、揮発性(例えばランダムアクセスメモリ(RAM))、不揮発性(例えば読取り専用メモリ(ROM)、フラッシュメモリなど)、または2つの何らかの組合せであり得る。この最も基本的な構成を図9に破線906で示す。
[0076]コンピューティングデバイス900は、追加の特徴および/または機能を有し得る。例えば、コンピューティングデバイス900は、限定はしないが、磁気または光学ディスク、あるいはテープを含む追加のストレージ(取外し可能および/または取外し不能)を含み得る。そのような追加のストレージが図9に取外し可能なストレージ808および取外し不能なストレージ910で示される。
[0077]コンピューティングデバイス900は、一般に、様々なコンピュータ可読媒体を含む。コンピュータ可読記憶媒体は、デバイス900によってアクセスされ得る任意の利用可能な媒体であり、揮発性媒体および不揮発性媒体と、取外し可能媒体および取外し不能媒体との両方を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータなど、情報の記憶のための任意の方法または技術において実装される揮発性および不揮発性、取外し可能および取外し不能な媒体を含む。メモリ904、取外し可能なストレージ908および取外し不能なストレージ910はすべて、コンピュータ記憶媒体の例である。コンピュータ記憶媒体は、限定はしないが、RAM、ROM、電気的消去可能プログラマブルROM(EEPROM(登録商標))、フラッシュメモリまたは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)または他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは所望の情報を記憶するために使用され得、コンピューティングデバイス900によってアクセスされ得る任意の他の媒体を含む。いかなるそのようなコンピュータ記憶媒体も、コンピューティングデバイス900の一部であり得る。
[0078]コンピューティングデバイス900は、デバイスが他のデバイスと通信することを可能にする(1つまたは複数の)通信接続912を含み得る。コンピューティングデバイス900はまた、キーボード、マウス、ペン、音声入力デバイス、タッチ入力デバイスなど、(1つまたは複数の)入力デバイス914を有し得る。また、ディスプレイ、スピーカー、プリンターなどの(1つまたは複数の)出力デバイス916が含まれ得る。これらのすべてのデバイスは、当技術分野でよく知られており、ここでは詳細に説明する必要はない。
[0079]概して、本明細書で説明したいかなるデバイスも、ワイヤレスまたはワイヤードフォン、セルラーフォン、ラップトップコンピュータ、ワイヤレスマルチメディアデバイス、ワイヤレス通信PCカード、PDA、外部または内部モデム、ワイヤレスまたはワイヤードチャネルを介して通信するデバイスなど、様々なタイプのデバイスを表し得る。デバイスは、アクセス端末(AT)、アクセスユニット、加入者ユニット、移動局、モバイルデバイス、モバイルユニット、モバイルフォン、モバイル、遠隔局、遠隔端末、遠隔ユニット、ユーザデバイス、ユーザ機器、携帯デバイス、非モバイル局、非モバイルデバイス、端点など、様々な名前を有し得る。本明細書で説明したいかなるデバイスも、命令およびデータ、並びにハードウェア、ソフトウェア、ファームウェア、またはそれらの組合せを記憶するためのメモリを有し得る。
[0080]本明細書で説明した技法は、様々な手段で実装され得る。例えば、これらの技法は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの組合せで実装され得る。さらに、本明細書の開示に関連して説明した様々な例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実装され得ることを、当業者は諒解されよう。ハードウェアとソフトウェアのこの互換性を明確に示すために、様々な例示的な構成要素、ブロック、モジュール、回路、およびステップについて、上記では概してそれらの機能に関して説明した。そのような機能をハードウェアとして実装するか、ソフトウェアとして実装するかは、特定の適用例および全体的なシステムに課せられた設計制約に依存する。当業者は、説明した機能を特定の適用例ごとに様々な方法で実装し得るが、そのような実装の決定は、本開示の範囲からの逸脱を生じるものと解釈すべきではない。
[0081]ハードウェア実装の場合、本技法を実行するために使用される処理ユニットは、1つまたは複数のASIC、DSP、デジタル信号処理デバイス(DSPD)、プログラマブル論理デバイス(PLD)、FPGA、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細書で説明した機能を実行するように設計された他の電子ユニット、コンピュータ、またはそれらの組合せ内で実装され得る。
[0082]従って、本明細書の開示に関連して説明した様々な例示的な論理ブロック、モジュール、および回路は、汎用プロセッサ、DSP、ASIC、FPGAまたは他のプログラマブル論理デバイス、個別ゲートまたはトランジスタロジック、個別ハードウェア構成要素、あるいは本明細書で説明した機能を実行するように設計されたそれらの任意の組合せを用いて実装または実行され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサはまた、コンピューティングデバイスの組合せ、例えば、DSPとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、DSPコアと連携する1つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装され得る。
[0083]ファームウェアおよび/またはソフトウェア実装では、本技法は、ランダムアクセスRAM、ROM、不揮発性RAM、プログラム可能ROM、EEPROM、フラッシュメモリ、コンパクトディスク(CD)、磁気または光学データストレージデバイスなど、コンピュータ可読媒体上の命令として具現化され得る。命令は、1つまたは複数のプロセッサによって実行可能であり得、本明細書で説明した機能のいくつかの態様を(1つまたは複数の)プロセッサに実行させ得る。
[0084]ソフトウェアで実装した場合、機能は、1つまたは複数の命令またはコードとしてコンピュータ可読媒体上に記憶されるか、あるいはコンピュータ可読媒体を介して送信され得る。コンピュータ可読媒体は、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む、コンピュータ記憶媒体とコンピュータ通信媒体の両方を含む。記憶媒体は、汎用または専用コンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。限定ではなく例として、そのようなコンピュータ可読媒体は、RAM、ROM、EEPROM、CD−ROMまたは他の光ディスクストレージ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは命令またはデータ構造の形態の所望のプログラムコード手段を搬送または記憶するために使用され得、汎用もしくは専用コンピュータ、または汎用もしくは専用プロセッサによってアクセスされ得る、任意の他の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。例えば、ソフトウェアが同軸ケーブル、光ファイバーケーブル、より対線、デジタル加入者線(「DSL」)、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他の遠隔ソースから送信される場合、その同軸ケーブル、光ファイバーケーブル、より対線、DSL、または赤外線、無線、およびマイクロ波などのワイヤレス技術が媒体の定義に含められる。本明細書で使用される場合、ディスク(disk)およびディスク(disc)は、CD(disc)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)およびブルーレイ(登録商標)ディスク(disc)を含み、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)は、データをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。
[0085]ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、または当技術分野で知られている任意の他の形態の記憶媒体内に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化され得る。プロセッサおよび記憶媒体はASIC内に常駐し得る。ASICはユーザ端末内に常駐し得る。代替として、プロセッサおよび記憶媒体は、ユーザ端末内に個別構成要素として常駐し得る。
[0086]例示的な実施形態は、1つまたは複数のスタンドアロンコンピュータシステムの文脈で、本開示の主題の態様を利用することに言及し得るが、主題は、そのように限定されるのではなく、むしろネットワークまたは分散コンピューティング環境など、任意のコンピューティング環境に関連して実装され得る。またさらに、本開示の主題の態様は、複数の処理チップまたはデバイスにおいてあるいはそれらにわたって実装され得、同様に複数のデバイスにわたって記憶が実施され得る。例えば、そのようなデバイスは、PC、ネットワークサーバ、およびハンドヘルドデバイスを含み得る。
[0087]主題について構造的機能および/または方法論的行為に特有の言語で説明したが、添付の特許請求の範囲において定義される主題は、必ずしも上記で説明した特定の特徴または行為に限定されるとは限らないことを理解されたい。むしろ、上記で説明した特定の特徴および行為は、特許請求の範囲を実装することの例示的な形態として開示される。
以下に本出願の当初の特許請求の範囲に記載された発明を付記する。
[C1] 背景雑音の存在下でボイスアクティビティを検出するための方法であって、
移動局のボイスアクティビティ検出器において音の1つまたは複数の入力フレームを受信することと、
前記入力フレームの各々の少なくとも1つの雑音特性を判断することと、
前記雑音特性に基づいて複数の帯域を判断することと、
前記雑音特性に基づいて帯域当たりの信号対雑音比(SNR)値を判断することと、
少なくとも1つの外れ値帯域を判断することと、
前記少なくとも1つの外れ値帯域に基づいて重み付けを判断することと、
帯域当たりの前記SNRに前記重み付けを適用することと、
帯域当たりの前記重み付きSNRを使用してボイスアクティビティの存在または不在を検出することと
を備える、方法。
[C2] SNR外れ値フィルタ処理を実行することをさらに備える、C1に記載の方法。
[C3] 各雑音特性が雑音レベル変動、雑音タイプ、または瞬時SNR値のうちの少なくとも1つを備える、C1に記載の方法。
[C4] 前記雑音特性に基づいて前記複数の帯域を判断することが、前記雑音レベル変動または前記雑音タイプのうちの少なくとも1つに基づいて前記複数の帯域を判断することを備える、C3に記載の方法。
[C5] 帯域当たりの前記SNR値を判断することが、前記雑音レベル変動または前記雑音タイプのうちの少なくとも1つに基づいて帯域当たりの修正瞬時SNR値を判断することを備える、C3に記載の方法。
[C6] 帯域当たりの前記修正瞬時SNR値を判断することが、
前記入力フレームの少なくとも前記瞬時SNRに基づいて帯域当たりの信号エネルギーの過去の推定値を使用して帯域当たりの信号エネルギーの現在の推定値を選択的に平滑化することと、
少なくとも前記雑音レベル変動と前記雑音タイプとに基づいて帯域当たりの雑音エネルギーの過去の推定値を使用して帯域当たりの雑音エネルギーの現在の推定値を選択的に平滑化することと、
帯域当たりの信号エネルギーの平滑化された推定値と雑音エネルギーの平滑化された推定値の比を判断することと
を備える、C5に記載の方法。
[C7] 前記帯域のうちのいずれか1つのにおける修正瞬時SNRが、前記帯域の残りにおける修正瞬時SNRの和よりも大きい、C6に記載の方法。
[C8] 前記少なくとも1つの外れ値帯域に基づいて前記重み付けを判断することが、前記雑音レベル変動、前記雑音タイプ、前記外れ値帯域のロケーション、または帯域当たりの前記修正瞬時SNR値のうちの少なくとも1つに基づいて適応重み付け関数を判断することを備える、C5に記載の方法。
[C9] 帯域当たりの前記SNRに前記重み付けを適用することが、帯域当たりの前記修正瞬時SNRに前記適応重み付け関数を適用することを備える、C8に記載の方法。
[C10] 前記帯域にわたって前記重み付き修正瞬時SNRを加算することによって入力フレーム当たりの重み付き平均SNRを判断することと、
信号またはボイスアクティビティの存在または不在を検出するために前記重み付き平均SNRを閾値と比較することと
をさらに備える、C9に記載の方法。
[C11] 信号またはボイスアクティビティの存在または不在を検出するために前記重み付き平均SNRを閾値と比較することが、
各帯域における前記重み付き平均SNRと前記閾値との間の差を判断することと、
各差に重みを適用することと、
前記重み付き差を合計することと、
前記追加重み付き差を別の閾値と比較することによってボイスアクティビティがあるか否かを判断することと
を備える、C10に記載の方法。
[C12] 前記閾値がゼロであり、前記追加重み付き差がゼロよりも大きい場合、ボイスアクティビティがあると判断し、そうでない場合、ボイスアクティビティがないと判断する、C11に記載の方法。
[C13] 単調な順序で前記帯域における前記修正瞬時SNR値をソートすることと、
前記帯域のうちのどれが前記外れ値帯域であるかを判断することと、
前記外れ値帯域に関連する前記重みをゼロに設定することによって前記適応重み付け関数を更新することと
を備える、SNR外れ値フィルタ処理を実行することをさらに備える、C8に記載の方法。
[C14] 背景雑音の存在下でボイスアクティビティを検出するための装置であって、
音の1つまたは複数の入力フレームを受信するための手段と、
前記入力フレームの各々の少なくとも1つの雑音特性を判断するための手段と、
前記雑音特性に基づいて複数の帯域を判断するための手段と、
前記雑音特性に基づいて帯域当たりの信号対雑音比(SNR)値を判断するための手段と、
少なくとも1つの外れ値帯域を判断するための手段と、
前記少なくとも1つの外れ値帯域に基づいて重み付けを判断するための手段と、
帯域当たりの前記SNRに前記重み付けを適用するための手段と、
帯域当たりの前記重み付きSNRを使用してボイスアクティビティの存在または不在を検出するための手段と
を備える、装置。
[C15] SNR外れ値フィルタ処理を実行するための手段をさらに備える、C14に記載の装置。
[C16] 各雑音特性が雑音レベル変動、雑音タイプ、または瞬時SNR値のうちの少なくとも1つを備える、C14に記載の装置。
[C17] 前記雑音特性に基づいて前記複数の帯域を判断するための前記手段が、前記雑音レベル変動または前記雑音タイプのうちの少なくとも1つに基づいて前記複数の帯域を判断するための手段を備える、C16に記載の装置。
[C18] 帯域当たりの前記SNR値を判断するための前記手段が、前記雑音レベル変動または前記雑音タイプのうちの少なくとも1つに基づいて帯域当たりの修正瞬時SNR値を判断するための手段を備える、C16に記載の装置。
[C19] 帯域当たりの前記修正瞬時SNR値を判断するための前記手段が、
前記入力フレームの少なくとも前記瞬時SNRに基づいて帯域当たりの信号エネルギーの過去の推定値を使用して帯域当たりの信号エネルギーの現在の推定値を選択的に平滑化するための手段と、
少なくとも前記雑音レベル変動と前記雑音タイプとに基づいて帯域当たりの雑音エネルギーの過去の推定値を使用して帯域当たりの雑音エネルギーの現在の推定値を選択的に平滑化するための手段と、
帯域当たりの信号エネルギーの平滑化された推定値と雑音エネルギーの平滑化された推定値の比を判断するための手段と
を備える、C18に記載の装置。
[C20] 前記帯域のうちのいずれか1つのにおける修正瞬時SNRが、前記帯域の残りにおける修正瞬時SNRの和よりも大きい、C19に記載の装置。
[C21] 前記少なくとも1つの外れ値帯域に基づいて前記重み付けを判断するための前記手段が、前記雑音レベル変動、前記雑音タイプ、前記外れ値帯域のロケーション、または帯域当たりの前記修正瞬時SNR値のうちの少なくとも1つに基づいて適応重み付け関数を判断するための手段を備える、C18に記載の装置。
[C22] 帯域当たりの前記SNRに前記重み付けを適用するための前記手段が、帯域当たりの前記修正瞬時SNRに前記適応重み付け関数を適用するための手段を備える、C21に記載の装置。
[C23] 前記帯域にわたって前記重み付き修正瞬時SNRを加算することによって入力フレーム当たりの重み付き平均SNRを判断するための手段と、
信号またはボイスアクティビティの存在または不在を検出するために前記重み付き平均SNRを閾値と比較するための手段と
をさらに備える、C22に記載の装置。
[C24] 信号またはボイスアクティビティの存在または不在を検出するために前記重み付き平均SNRを閾値と比較するための前記手段が、
各帯域における前記重み付き平均SNRと前記閾値との間の差を判断するための手段と、
各差に重みを適用するための手段と、
前記重み付き差を合計するための手段と、
前記追加重み付き差を別の閾値と比較することによってボイスアクティビティがあるか否かを判断するための手段と
を備える、C23に記載の装置。
[C25] 前記閾値がゼロであり、前記追加重み付き差がゼロよりも大きい場合、ボイスアクティビティがあると判断し、そうでない場合、ボイスアクティビティがないと判断する、C24に記載の装置。
[C26] 単調な順序で前記帯域における前記修正瞬時SNR値をソートするための手段と、
前記帯域のうちのどれが前記外れ値帯域であるかを判断するための手段と、
前記外れ値帯域に関連する前記重みをゼロに設定することによって前記適応重み付け関数を更新するための手段と
を備える、SNR外れ値フィルタ処理を実行するための手段をさらに備える、C21に記載の装置。
[C27] 音の1つまたは複数の入力フレームを受信することと、
前記入力フレームの各々の少なくとも1つの雑音特性を判断することと、
前記雑音特性に基づいて複数の帯域を判断することと、
前記雑音特性に基づいて帯域当たりの信号対雑音比(SNR)値を判断することと、
少なくとも1つの外れ値帯域を判断することと、
前記少なくとも1つの外れ値帯域に基づいて重み付けを判断することと、
帯域当たりの前記SNRに前記重み付けを適用することと、
帯域当たりの前記重み付きSNRを使用してボイスアクティビティの存在または不在を検出することと
をコンピュータに行わせる命令を備えるコンピュータ可読媒体。
[C28] SNR外れ値フィルタ処理を実行することを前記コンピュータに行わせるコンピュータ実行可能命令をさらに備える、C27に記載のコンピュータ可読媒体。
[C29] 各雑音特性が雑音レベル変動、雑音タイプ、または瞬時SNR値のうちの少なくとも1つを備える、C27に記載のコンピュータ可読媒体。
[C30] 前記雑音特性に基づいて前記複数の帯域を判断することを前記コンピュータに行わせる前記命令が、前記雑音レベル変動または前記雑音タイプのうちの少なくとも1つに基づいて前記複数の帯域を判断することを前記コンピュータに行わせる命令を備える、C29に記載のコンピュータ可読媒体。
[C31] 帯域当たりの前記SNR値を判断することを前記コンピュータに行わせる前記命令が、前記雑音レベル変動または前記雑音タイプのうちの少なくとも1つに基づいて帯域当たりの修正瞬時SNR値を判断することを前記コンピュータに行わせる命令を備える、C29に記載のコンピュータ可読媒体。
[C32] 帯域当たりの前記修正瞬時SNR値を判断することを前記コンピュータに行わせる前記命令が、
前記入力フレームの少なくとも前記瞬時SNRに基づいて帯域当たりの信号エネルギーの過去の推定値を使用して帯域当たりの信号エネルギーの現在の推定値を選択的に平滑化することと、
少なくとも前記雑音レベル変動と前記雑音タイプとに基づいて帯域当たりの雑音エネルギーの過去の推定値を使用して帯域当たりの雑音エネルギーの現在の推定値を選択的に平滑化することと、
帯域当たりの信号エネルギーの平滑化された推定値と雑音エネルギーの平滑化された推定値の比を判断することと
を前記コンピュータに行わせる命令を備える、C31に記載のコンピュータ可読媒体。
[C33] 前記帯域のうちのいずれか1つにおける修正瞬時SNRが、前記帯域の残りにおける修正瞬時SNRの和よりも大きい、C32に記載のコンピュータ可読媒体。
[C34] 前記少なくとも1つの外れ値帯域に基づいて前記重み付けを判断することを前記コンピュータに行わせる前記命令が、前記雑音レベル変動、前記雑音タイプ、前記外れ値帯域のロケーション、または帯域当たりの前記修正瞬時SNR値のうちの少なくとも1つに基づいて適応重み付け関数を判断することを前記コンピュータに行わせる命令を備える、C31に記載のコンピュータ可読媒体。
[C35] 帯域当たりの前記SNRに前記重み付けを適用することを前記コンピュータに行わせる前記命令が、帯域当たりの前記修正瞬時SNRに前記適応重み付け関数を適用することを前記コンピュータに行わせる命令を備える、C34に記載のコンピュータ可読媒体。
[C36] 前記帯域にわたって前記重み付き修正瞬時SNRを加算することによって入力フレーム当たりの重み付き平均SNRを判断することと、
信号またはボイスアクティビティの存在または不在を検出するために前記重み付き平均SNRを閾値と比較することと
を前記コンピュータに行わせるコンピュータ実行可能命令をさらに備える、C35に記載のコンピュータ可読媒体。
[C37] 信号またはボイスアクティビティの存在または不在を検出するために前記重み付き平均SNRを閾値と比較することを前記コンピュータに行わせる前記命令が、
各帯域における前記重み付き平均SNRと前記閾値との間の差を判断することと、
各差に重みを適用することと、
前記重み付き差を合計することと、
前記追加重み付き差を別の閾値と比較することによってボイスアクティビティがあるか否かを判断することと
を前記コンピュータに行わせる命令を備える、C36に記載のコンピュータ可読媒体。
[C38] 前記閾値がゼロであり、前記追加重み付き差がゼロよりも大きい場合、ボイスアクティビティがあると判断し、そうでない場合、ボイスアクティビティがないと判断する、C37に記載のコンピュータ可読媒体。
[C39] 単調な順序で前記帯域における前記修正瞬時SNR値をソートすることと、
前記帯域のうちのどれが前記外れ値帯域であるかを判断することと、
前記外れ値帯域に関連する前記重みをゼロに設定することによって前記適応重み付け関数を更新することと
を備える、SNR外れ値フィルタ処理を実行することを前記コンピュータに行わせるコンピュータ実行可能命令をさらに備える、C34に記載のコンピュータ可読媒体。
[C40] 背景雑音の存在下でボイスアクティビティを検出するためのボイスアクティビティ検出器であって、
音の1つまたは複数の入力フレームを受信する受信機と、
前記入力フレームの各々の少なくとも1つの雑音特性を判断することと、前記雑音特性に基づいて複数の帯域を判断することとを行うプロセッサと、
前記雑音特性に基づいて帯域当たりの信号対雑音比(SNR)値を判断するSNRモジュールと、
少なくとも1つの外れ値帯域を判断する外れ値フィルタと、
前記少なくとも1つの外れ値帯域に基づいて重み付けを判断することと、帯域当たりの前記SNRに前記重み付けを適用することとを行う重み付けモジュールと、
帯域当たりの前記重み付きSNRを使用してボイスアクティビティの存在または不在を検出する決定モジュールと
を備える、ボイスアクティビティ検出器。
[C41] 前記外れ値フィルタがSNR外れ値フィルタ処理を実行する、C40に記載のボイスアクティビティ検出器。
[C42] 各雑音特性が雑音レベル変動、雑音タイプ、または瞬時SNR値のうちの少なくとも1つを備える、C40に記載のボイスアクティビティ検出器。
[C43] 前記プロセッサが、前記雑音レベル変動または前記雑音タイプのうちの少なくとも1つに基づいて前記複数の帯域を判断する、C42に記載のボイスアクティビティ検出器。
[C44] 前記SNR計算モジュールが、前記雑音レベル変動または前記雑音タイプのうちの少なくとも1つに基づいて帯域当たりの修正瞬時SNR値を判断する、C42に記載のボイスアクティビティ検出器。
[C45] 前記SNR計算モジュールが、
前記入力フレームの少なくとも前記瞬時SNRに基づいて帯域当たりの信号エネルギーの過去の推定値を使用して帯域当たりの信号エネルギーの現在の推定値を選択的に平滑化することと、
少なくとも前記雑音レベル変動と前記雑音タイプとに基づいて帯域当たりの雑音エネルギーの過去の推定値を使用して帯域当たりの雑音エネルギーの現在の推定値を選択的に平滑化することと、
帯域当たりの信号エネルギーの平滑化された推定値と雑音エネルギーの平滑化された推定値の比を判断することと
を行う、C44に記載のボイスアクティビティ検出器。
[C46] 前記帯域のうちのいずれか1つにおける修正瞬時SNRが、前記帯域の残りにおける修正瞬時SNRの和よりも大きい、C45に記載のボイスアクティビティ検出器。
[C47] 前記重み付けモジュールが、前記雑音レベル変動、前記雑音タイプ、前記外れ値帯域のロケーション、または帯域当たりの前記修正瞬時SNR値のうちの少なくとも1つに基づいて適応重み付け関数を判断する、C44に記載のボイスアクティビティ検出器。
[C48] 前記重み付けモジュールが、帯域当たりの前記修正瞬時SNRに前記適応重み付け関数を適用する、C47に記載のボイスアクティビティ検出器。
[C49] 前記SNR計算モジュールが、前記帯域にわたって前記重み付き修正瞬時SNRを加算することによって入力フレーム当たりの重み付き平均SNRを判断し、前記決定モジュールが、信号またはボイスアクティビティの存在または不在を検出するために前記重み付き平均SNRを閾値と比較する、C48に記載のボイスアクティビティ検出器。
[C50] 前記決定モジュールが、各帯域における前記重み付き平均SNRと前記閾値との間の差を判断することと、各差に重みを適用することと、前記重み付き差を合計することと、前記追加重み付き差を別の閾値と比較することによってボイスアクティビティがあるか否かを判断することとを行う、C49に記載のボイスアクティビティ検出器。
[C51] 前記閾値がゼロであり、前記追加重み付き差がゼロよりも大きい場合、前記決定モジュールが、ボイスアクティビティがあると判断し、そうでない場合、ボイスアクティビティがないと判断する、C50に記載のボイスアクティビティ検出器。
[C52] 前記外れ値フィルタが、単調な順序で前記帯域における前記修正瞬時SNR値をソートすることと、前記帯域のうちのどれが前記外れ値帯域であるかを判断することと、前記外れ値帯域に関連する前記重みをゼロに設定することによって前記適応重み付け関数を更新することとを行う、C47に記載のボイスアクティビティ検出器。

Claims (48)

  1. 背景雑音の存在下でボイスアクティビティを検出するための方法であって、
    移動局のボイスアクティビティ検出器において音の1つまたは複数の入力フレームを受信することと、
    前記入力フレームの各々の少なくとも1つの雑音特性を判断することと、ここにおいて各雑音特性は雑音レベル変動、雑音タイプ、または瞬時SNR値のうちの少なくとも1つを備える、
    前記雑音特性に基づいて帯域当たりの信号対雑音比(SNR)値を判断することと、
    最も高いSNR値を持つ帯域を備える少なくとも1つの外れ値帯域を判断することと、
    前記少なくとも1つの外れ値帯域に基づいて重み付けを判断することと、
    平均SNRに前記重み付けおよびSNR外れ値フィルタ処理を適用することと、
    重み付き平均SNRを使用してボイスアクティビティの存在または不在を検出することと
    を備える、方法。
  2. 各雑音特性は瞬時SNR値である、請求項1に記載の方法。
  3. 前記雑音特性に基づいて複数の帯域を判断することをさらに備える、請求項1に記載の方法。
  4. 帯域当たりの前記SNR値を判断することが、雑音レベル変動または雑音タイプのうちの少なくとも1つに基づいて帯域当たりの修正瞬時SNR値を判断することを備える、請求項2に記載の方法。
  5. 帯域当たりの前記修正瞬時SNR値を判断することが、
    入力フレームの少なくとも前記瞬時SNR値に基づいて帯域当たりの信号エネルギーの過去の推定値を使用して帯域当たりの信号エネルギーの現在の推定値を選択的に平滑化することと、
    少なくとも前記雑音レベル変動と前記雑音タイプとに基づいて帯域当たりの雑音エネルギーの過去の推定値を使用して帯域当たりの雑音エネルギーの現在の推定値を選択的に平滑化することと、
    帯域当たりの信号エネルギーの平滑化された推定値と雑音エネルギーの平滑化された推定値の比を判断することと
    を備える、請求項4に記載の方法。
  6. 複数の帯域のうちのいずれか1つにおける前記修正瞬時SNR値が、前記複数の帯域の残りにおける修正瞬時SNR値の和よりも大きい、請求項5に記載の方法。
  7. 前記少なくとも1つの外れ値帯域に基づいて前記重み付けを判断することが、前記雑音レベル変動、前記雑音タイプ、前記少なくとも1つの外れ値帯域の少なくとも1つのロケーション、または帯域当たりの前記修正瞬時SNR値のうちの少なくとも1つに基づいて適応重み付け関数を判断することを備える、請求項4に記載の方法。
  8. 前記平均SNRに前記重み付けおよび前記SNR外れ値フィルタ処理を適用することが、修正瞬時SNR値に前記適応重み付け関数を適用することを備える、請求項7に記載の方法。
  9. 前記複数の帯域にわたって重み付き修正瞬時SNR値を加算することによって入力フレーム当たりの前記重み付き平均SNRを判断することと、
    信号またはボイスアクティビティの存在または不在を検出するために前記重み付き平均SNRを閾値と比較することと
    をさらに備える、請求項8に記載の方法。
  10. 信号またはボイスアクティビティの存在または不在を検出するために前記重み付き平均SNRを閾値と比較することが、
    前記複数の帯域のうちの各帯域における前記重み付き平均SNRと前記閾値との間の差を判断することと、
    各差に重みを適用することと、
    重み付き差を合わせて加算することと、
    加算された重み付き差を別の閾値と比較することによってボイスアクティビティがあるか否かを判断することと
    を備える、請求項9に記載の方法。
  11. 前記閾値がゼロであり、前記加算された重み付き差がゼロよりも大きい場合にボイスアクティビティがあると判断し、そうでない場合にボイスアクティビティがないと判断することをさらに備える、請求項10に記載の方法。
  12. 前記平均SNRに前記SNR外れ値フィルタ処理を適用することが、
    単調な順序で前記複数の帯域における修正瞬時SNR値をソートすることと、
    前記複数の帯域のうちのどの帯域が外れ値帯域であるかを前記修正瞬時SNR値に基づいて判断することと、
    前記外れ値帯域に関連する重みをゼロに設定することによって前記適応重み付け関数を更新することと
    を備える、請求項7に記載の方法。
  13. 背景雑音の存在下でボイスアクティビティを検出するための装置であって、
    音の1つまたは複数の入力フレームを受信するための手段と、
    前記入力フレームの各々の少なくとも1つの雑音特性を判断するための手段と、ここにおいて各雑音特性は雑音レベル変動、雑音タイプ、または瞬時SNR値のうちの少なくとも1つを備える、
    前記雑音特性に基づいて帯域当たりの信号対雑音比(SNR)値を判断するための手段と、
    最も高いSNR値を持つ帯域を備える少なくとも1つの外れ値帯域を判断するための手段と、
    前記少なくとも1つの外れ値帯域に基づいて重み付けを判断するための手段と、
    平均SNRに前記重み付けおよびSNR外れ値フィルタ処理を適用するための手段と、
    重み付き平均SNRを使用してボイスアクティビティの存在または不在を検出するための手段と
    を備える、装置。
  14. 各雑音特性は瞬時SNR値である、請求項13に記載の装置。
  15. 前記雑音特性に基づいて複数の帯域を判断するための手段をさらに備える、請求項13に記載の装置。
  16. 帯域当たりの前記SNR値を判断するための前記手段が、雑音レベル変動または雑音タイプのうちの少なくとも1つに基づいて帯域当たりの修正瞬時SNR値を判断するための手段を備える、請求項14に記載の装置。
  17. 帯域当たりの前記修正瞬時SNR値を判断するための前記手段が、
    入力フレームの少なくとも前記瞬時SNR値に基づいて帯域当たりの信号エネルギーの過去の推定値を使用して帯域当たりの信号エネルギーの現在の推定値を選択的に平滑化するための手段と、
    少なくとも前記雑音レベル変動と前記雑音タイプとに基づいて帯域当たりの雑音エネルギーの過去の推定値を使用して帯域当たりの雑音エネルギーの現在の推定値を選択的に平滑化するための手段と、
    帯域当たりの信号エネルギーの平滑化された推定値と雑音エネルギーの平滑化された推定値の比を判断するための手段と
    を備える、請求項16に記載の装置。
  18. 複数の帯域のうちのいずれか1つにおける前記修正瞬時SNR値が、前記複数の帯域の残りにおける修正瞬時SNR値の和よりも大きい、請求項17に記載の装置。
  19. 前記少なくとも1つの外れ値帯域に基づいて前記重み付けを判断するための前記手段が、前記雑音レベル変動、前記雑音タイプ、前記少なくとも1つの外れ値帯域の少なくとも1つのロケーション、または帯域当たりの前記修正瞬時SNR値のうちの少なくとも1つに基づいて適応重み付け関数を判断するための手段を備える、請求項16に記載の装置。
  20. 前記平均SNRに前記重み付けおよび前記SNR外れ値フィルタ処理を適用するための前記手段が、修正瞬時SNR値に前記適応重み付け関数を適用するための手段を備える、請求項19に記載の装置。
  21. 前記複数の帯域にわたって重み付き修正瞬時SNR値を加算することによって入力フレーム当たりの前記重み付き平均SNRを判断するための手段と、
    信号またはボイスアクティビティの存在または不在を検出するために前記重み付き平均SNRを閾値と比較するための手段と
    をさらに備える、請求項20に記載の装置。
  22. 信号またはボイスアクティビティの存在または不在を検出するために前記重み付き平均SNRを閾値と比較するための前記手段が、
    前記複数の帯域のうちの各帯域における前記重み付き平均SNRと前記閾値との間の差を判断するための手段と、
    各差に重みを適用するための手段と、
    重み付き差を合わせて加算するための手段と、
    加算された重み付き差を別の閾値と比較することによってボイスアクティビティがあるか否かを判断するための手段と
    を備える、請求項21に記載の装置。
  23. 前記閾値がゼロであり、前記加算された重み付き差がゼロよりも大きい場合にボイスアクティビティがあると判断し、そうでない場合にボイスアクティビティがないと判断するための手段をさらに備える、請求項22に記載の装置。
  24. 前記平均SNRに前記SNR外れ値フィルタ処理を適用するための手段が、
    単調な順序で前記複数の帯域における修正瞬時SNR値をソートするための手段と、
    前記複数の帯域のうちのどの帯域が外れ値帯域であるかを前記修正瞬時SNR値に基づいて判断するための手段と、
    前記外れ値帯域に関連する重みをゼロに設定することによって前記適応重み付け関数を更新するための手段と
    を備える、請求項19に記載の装置。
  25. 音の1つまたは複数の入力フレームを受信することと、
    前記入力フレームの各々の少なくとも1つの雑音特性を判断することと、ここにおいて各雑音特性は雑音レベル変動、雑音タイプ、または瞬時SNR値のうちの少なくとも1つを備える、
    前記雑音特性に基づいて帯域当たりの信号対雑音比(SNR)値を判断することと、
    最も高いSNR値を持つ帯域を備える少なくとも1つの外れ値帯域を判断することと、
    前記少なくとも1つの外れ値帯域に基づいて重み付けを判断することと、
    平均SNRに前記重み付けおよびSNR外れ値フィルタ処理を適用することと、
    重み付き平均SNRを使用してボイスアクティビティの存在または不在を検出することと
    をコンピュータに行わせる命令を備えるコンピュータ可読記憶媒体。
  26. 各雑音特性は瞬時SNR値である、請求項25に記載のコンピュータ可読記憶媒体。
  27. 前記雑音特性に基づいて複数の帯域を判断することを前記コンピュータに行わせる命令をさらに備える、請求項25に記載のコンピュータ可読記憶媒体。
  28. 帯域当たりの前記SNR値を判断することを前記コンピュータに行わせる前記命令が、雑音レベル変動または雑音タイプのうちの少なくとも1つに基づいて帯域当たりの修正瞬時SNR値を判断することを前記コンピュータに行わせる命令を備える、請求項26に記載のコンピュータ可読記憶媒体。
  29. 帯域当たりの前記修正瞬時SNR値を判断することを前記コンピュータに行わせる前記命令が、
    入力フレームの少なくとも前記瞬時SNR値に基づいて帯域当たりの信号エネルギーの過去の推定値を使用して帯域当たりの信号エネルギーの現在の推定値を選択的に平滑化することと、
    少なくとも前記雑音レベル変動と前記雑音タイプとに基づいて帯域当たりの雑音エネルギーの過去の推定値を使用して帯域当たりの雑音エネルギーの現在の推定値を選択的に平滑化することと、
    帯域当たりの信号エネルギーの平滑化された推定値と雑音エネルギーの平滑化された推定値の比を判断することと
    を前記コンピュータに行わせる命令を備える、請求項28に記載のコンピュータ可読記憶媒体。
  30. 複数の帯域のうちのいずれか1つにおける前記修正瞬時SNR値が、前記複数の帯域の残りにおける修正瞬時SNR値の和よりも大きい、請求項29に記載のコンピュータ可読記憶媒体。
  31. 前記少なくとも1つの外れ値帯域に基づいて前記重み付けを判断することを前記コンピュータに行わせる前記命令が、前記雑音レベル変動、前記雑音タイプ、前記少なくとも1つの外れ値帯域の少なくとも1つのロケーション、または帯域当たりの前記修正瞬時SNR値のうちの少なくとも1つに基づいて適応重み付け関数を判断することを前記コンピュータに行わせる命令を備える、請求項28に記載のコンピュータ可読記憶媒体。
  32. 前記平均SNRに前記重み付けおよび前記SNR外れ値フィルタ処理を適用することを前記コンピュータに行わせる前記命令が、修正瞬時SNR値に前記適応重み付け関数を適用することを前記コンピュータに行わせる命令を備える、請求項31に記載のコンピュータ可読記憶媒体。
  33. 前記複数の帯域にわたって重み付き修正瞬時SNR値を加算することによって入力フレーム当たりの前記重み付き平均SNRを判断することと、
    信号またはボイスアクティビティの存在または不在を検出するために前記重み付き平均SNRを閾値と比較することと
    を前記コンピュータに行わせるコンピュータ実行可能命令をさらに備える、請求項32に記載のコンピュータ可読記憶媒体。
  34. 信号またはボイスアクティビティの存在または不在を検出するために前記重み付き平均SNRを閾値と比較することを前記コンピュータに行わせる前記命令が、
    前記複数の帯域のうちの各帯域における前記重み付き平均SNRと前記閾値との間の差を判断することと、
    各差に重みを適用することと、
    重み付き差を合わせて加算することと、
    加算された重み付き差を別の閾値と比較することによってボイスアクティビティがあるか否かを判断することと
    を前記コンピュータに行わせる命令を備える、請求項33に記載のコンピュータ可読記憶媒体。
  35. 前記閾値がゼロであり、前記命令は、前記加算された重み付き差がゼロよりも大きい場合にボイスアクティビティがあると判断し、そうでない場合にボイスアクティビティがないと判断するためにも実行可能である、請求項34に記載のコンピュータ可読記憶媒体。
  36. 前記平均SNRに前記SNR外れ値フィルタ処理を適用することを前記コンピュータに行わせる前記命令が、
    単調な順序で前記複数の帯域における修正瞬時SNR値をソートすることと、
    前記複数の帯域のうちのどの帯域が外れ値帯域であるかを前記修正瞬時SNR値に基づいて判断することと、
    前記外れ値帯域に関連する重みをゼロに設定することによって前記適応重み付け関数を更新することと
    を前記コンピュータに行わせる命令を備える、請求項31に記載のコンピュータ可読記憶媒体。
  37. 背景雑音の存在下でボイスアクティビティを検出するためのボイスアクティビティ検出器であって、
    音の1つまたは複数の入力フレームを受信する受信機と、
    前記入力フレームの各々の少なくとも1つの雑音特性を判断することを行うプロセッサと、
    前記雑音特性に基づいて帯域当たりの信号対雑音比(SNR)値を判断するSNR計算モジュールと、ここにおいて各雑音特性は雑音レベル変動、雑音タイプ、または瞬時SNR値のうちの少なくとも1つを備える、
    最も高いSNR値を持つ帯域を備える少なくとも1つの外れ値帯域を判断する外れ値フィルタと、
    前記少なくとも1つの外れ値帯域に基づいて重み付けを判断することと、平均SNRに前記重み付けを適用することとを行う重み付けモジュールと、
    重み付き平均SNRを使用してボイスアクティビティの存在または不在を検出する決定モジュールと
    を備える、ボイスアクティビティ検出器。
  38. 各雑音特性は瞬時SNR値である、請求項37に記載のボイスアクティビティ検出器。
  39. 前記プロセッサが、前記雑音特性に基づいて複数の帯域を判断する、請求項37に記載のボイスアクティビティ検出器。
  40. 前記SNR計算モジュールが、雑音レベル変動または雑音タイプのうちの少なくとも1つに基づいて帯域当たりの修正瞬時SNR値を判断する、請求項38に記載のボイスアクティビティ検出器。
  41. 前記SNR計算モジュールが、
    入力フレームの少なくとも前記瞬時SNR値に基づいて帯域当たりの信号エネルギーの過去の推定値を使用して帯域当たりの信号エネルギーの現在の推定値を選択的に平滑化することと、
    少なくとも前記雑音レベル変動と前記雑音タイプとに基づいて帯域当たりの雑音エネルギーの過去の推定値を使用して帯域当たりの雑音エネルギーの現在の推定値を選択的に平滑化することと、
    帯域当たりの信号エネルギーの平滑化された推定値と雑音エネルギーの平滑化された推定値の比を判断することと
    を行う、請求項40に記載のボイスアクティビティ検出器。
  42. 複数の帯域のうちのいずれか1つにおける前記修正瞬時SNR値が、前記複数の帯域の残りにおける修正瞬時SNR値の和よりも大きい、請求項41に記載のボイスアクティビティ検出器。
  43. 前記重み付けモジュールが、前記雑音レベル変動、前記雑音タイプ、前記少なくとも1つの外れ値帯域の少なくとも1つのロケーション、または帯域当たりの前記修正瞬時SNR値のうちの少なくとも1つに基づいて適応重み付け関数を判断する、請求項40に記載のボイスアクティビティ検出器。
  44. 前記重み付けモジュールが、修正瞬時SNR値に前記適応重み付け関数を適用する、請求項43に記載のボイスアクティビティ検出器。
  45. 前記SNR計算モジュールが、前記複数の帯域にわたって重み付き修正瞬時SNR値を加算することによって入力フレーム当たりの前記重み付き平均SNRを判断し、前記決定モジュールが、信号またはボイスアクティビティの存在または不在を検出するために前記重み付き平均SNRを閾値と比較する、請求項44に記載のボイスアクティビティ検出器。
  46. 前記決定モジュールが、前記複数の帯域のうちの各帯域における前記重み付き平均SNRと前記閾値との間の差を判断することと、各差に重みを適用することと、重み付き差を合わせて加算することと、加算された重み付き差を別の閾値と比較することによってボイスアクティビティがあるか否かを判断することとを行う、請求項45に記載のボイスアクティビティ検出器。
  47. 前記閾値がゼロであり、前記決定モジュールが、前記加算された重み付き差がゼロよりも大きい場合にボイスアクティビティがあると判断し、そうでない場合にボイスアクティビティがないと判断する、請求項46に記載のボイスアクティビティ検出器。
  48. 前記外れ値フィルタが、単調な順序で前記複数の帯域における修正瞬時SNR値をソートすることと、前記複数の帯域のうちのどの帯域が外れ値帯域であるかを前記修正瞬時SNR値に基づいて判断することと、前記外れ値帯域に関連する重みをゼロに設定することによって前記適応重み付け関数を更新することとを行う、請求項43に記載のボイスアクティビティ検出器。
JP2014553316A 2012-01-20 2013-01-08 背景雑音の存在下でのボイスアクティビティ検出 Active JP5905608B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261588729P 2012-01-20 2012-01-20
US61/588,729 2012-01-20
US13/670,312 2012-11-06
US13/670,312 US9099098B2 (en) 2012-01-20 2012-11-06 Voice activity detection in presence of background noise
PCT/US2013/020636 WO2013109432A1 (en) 2012-01-20 2013-01-08 Voice activity detection in presence of background noise

Publications (3)

Publication Number Publication Date
JP2015504184A JP2015504184A (ja) 2015-02-05
JP2015504184A5 JP2015504184A5 (ja) 2015-12-03
JP5905608B2 true JP5905608B2 (ja) 2016-04-20

Family

ID=48797947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014553316A Active JP5905608B2 (ja) 2012-01-20 2013-01-08 背景雑音の存在下でのボイスアクティビティ検出

Country Status (7)

Country Link
US (1) US9099098B2 (ja)
EP (1) EP2805327A1 (ja)
JP (1) JP5905608B2 (ja)
KR (1) KR101721303B1 (ja)
CN (1) CN104067341B (ja)
BR (1) BR112014017708B1 (ja)
WO (1) WO2013109432A1 (ja)

Families Citing this family (179)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8948039B2 (en) * 2012-12-11 2015-02-03 Qualcomm Incorporated Packet collisions and impulsive noise detection
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) * 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
CN104424956B9 (zh) * 2013-08-30 2022-11-25 中兴通讯股份有限公司 激活音检测方法和装置
CN103630148B (zh) * 2013-11-01 2016-03-02 中国科学院物理研究所 信号取样平均仪和信号取样平均方法
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
CN104916292B (zh) * 2014-03-12 2017-05-24 华为技术有限公司 检测音频信号的方法和装置
US9516165B1 (en) * 2014-03-26 2016-12-06 West Corporation IVR engagements and upfront background noise
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9330684B1 (en) * 2015-03-27 2016-05-03 Continental Automotive Systems, Inc. Real-time wind buffet noise detection
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10511718B2 (en) 2015-06-16 2019-12-17 Dolby Laboratories Licensing Corporation Post-teleconference playback using non-destructive audio transport
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10224053B2 (en) * 2017-03-24 2019-03-05 Hyundai Motor Company Audio signal quality enhancement based on quantitative SNR analysis and adaptive Wiener filtering
US10339962B2 (en) 2017-04-11 2019-07-02 Texas Instruments Incorporated Methods and apparatus for low cost voice activity detector
CN107103916B (zh) * 2017-04-20 2020-05-19 深圳市蓝海华腾技术股份有限公司 一种应用于音乐喷泉的音乐开始和结束检测方法及系统
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
CN109767774A (zh) 2017-11-08 2019-05-17 阿里巴巴集团控股有限公司 一种交互方法和设备
US10332545B2 (en) * 2017-11-28 2019-06-25 Nuance Communications, Inc. System and method for temporal and power based zone detection in speaker dependent microphone environments
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11341987B2 (en) * 2018-04-19 2022-05-24 Semiconductor Components Industries, Llc Computationally efficient speech classifier and related methods
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US20200168317A1 (en) 2018-08-22 2020-05-28 Centre For Addiction And Mental Health Tool for assisting individuals experiencing auditory hallucinations to differentiate between hallucinations and ambient sounds
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
CN108848435B (zh) * 2018-09-28 2021-03-09 广州方硅信息技术有限公司 一种音频信号的处理方法和相关装置
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN110556128B (zh) * 2019-10-15 2021-02-09 出门问问信息科技有限公司 一种语音活动性检测方法、设备及计算机可读存储介质
CN113314133A (zh) * 2020-02-11 2021-08-27 华为技术有限公司 音频传输方法及电子设备
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11620999B2 (en) 2020-09-18 2023-04-04 Apple Inc. Reducing device processing of unintended audio
CN112802463B (zh) * 2020-12-24 2023-03-31 北京猿力未来科技有限公司 一种音频信号筛选方法、装置及设备
CN116705017B (zh) * 2022-09-14 2024-07-05 荣耀终端有限公司 语音检测方法及电子设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3739681A1 (de) * 1987-11-24 1989-06-08 Philips Patentverwaltung Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens
FR2697101B1 (fr) * 1992-10-21 1994-11-25 Sextant Avionique Procédé de détection de la parole.
DE4422545A1 (de) * 1994-06-28 1996-01-04 Sel Alcatel Ag Start-/Endpunkt-Detektion zur Worterkennung
CN101379548B (zh) * 2006-02-10 2012-07-04 艾利森电话股份有限公司 语音检测器和用于其中抑制子频带的方法
US8032370B2 (en) 2006-05-09 2011-10-04 Nokia Corporation Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes
CN100483509C (zh) * 2006-12-05 2009-04-29 华为技术有限公司 声音信号分类方法和装置
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
JP5395066B2 (ja) 2007-06-22 2014-01-22 ヴォイスエイジ・コーポレーション 音声区間検出および音声信号分類ための方法および装置
US8812309B2 (en) * 2008-03-18 2014-08-19 Qualcomm Incorporated Methods and apparatus for suppressing ambient noise using multiple audio signals
US8589152B2 (en) * 2008-05-28 2013-11-19 Nec Corporation Device, method and program for voice detection and recording medium

Also Published As

Publication number Publication date
KR101721303B1 (ko) 2017-03-29
BR112014017708B1 (pt) 2021-08-31
US9099098B2 (en) 2015-08-04
WO2013109432A1 (en) 2013-07-25
BR112014017708A2 (ja) 2017-06-20
CN104067341B (zh) 2017-03-29
US20130191117A1 (en) 2013-07-25
CN104067341A (zh) 2014-09-24
BR112014017708A8 (pt) 2017-07-11
KR20140121443A (ko) 2014-10-15
EP2805327A1 (en) 2014-11-26
JP2015504184A (ja) 2015-02-05

Similar Documents

Publication Publication Date Title
JP5905608B2 (ja) 背景雑音の存在下でのボイスアクティビティ検出
JP5763212B2 (ja) 制約付きのラウドスピーカ・エクスカーションを用いたラウドネスの最大化
US9443511B2 (en) System and method for recognizing environmental sound
KR101246954B1 (ko) 오디오 신호에서의 잡음 추정을 위한 방법 및 장치
CN106409313B (zh) 一种音频信号分类方法和装置
JP5964455B2 (ja) 複数のコーディングモードのための、オーディオ信号を分類する方法および装置
EP2539887B1 (en) Voice activity detection based on plural voice activity detectors
KR101537080B1 (ko) 통화중 과도 잡음의 존재를 표시하는 방법 및 그 장치
JP6058824B2 (ja) パーソナライズされた帯域幅拡張
EP1787285A1 (en) Detection of voice activity in an audio signal
JP2016507086A (ja) 周囲雑音二乗平均平方根(rms)検出器
KR20140026229A (ko) 음성 액티비티 검출
CN103632666A (zh) 语音识别方法、语音识别设备和电子设备
WO2012158156A1 (en) Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood
KR20160102300A (ko) 상황 종속적 트랜션트 억제
EP2681896A1 (en) Method and apparatus for identifying mobile devices in similar sound environment
US9280982B1 (en) Nonstationary noise estimator (NNSE)
CN111128244B (zh) 基于过零率检测的短波通信语音激活检测方法
CN111179966A (zh) 一种语音分析的方法、装置、电子设备和存储介质
TW202226226A (zh) 具低複雜度語音活動檢測演算之設備及方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151013

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151013

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20151013

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20151030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160316

R150 Certificate of patent or registration of utility model

Ref document number: 5905608

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250