JP2015504184A

JP2015504184A - 背景雑音の存在下でのボイスアクティビティ検出

Info

Publication number: JP2015504184A
Application number: JP2014553316A
Authority: JP
Inventors: アッティ、ベンカトラマン・スリニバサ; クリシュナン、ベンカテシュ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-01-20
Filing date: 2013-01-08
Publication date: 2015-02-05
Anticipated expiration: 2033-01-08
Also published as: KR101721303B1; BR112014017708B1; US9099098B2; WO2013109432A1; BR112014017708A2; CN104067341B; US20130191117A1; JP5905608B2; CN104067341A; BR112014017708A8; KR20140121443A; EP2805327A1

Abstract

音声処理システムでは、平均信号対雑音比（ＳＮＲ）計算において背景雑音の突然の変化の補償が行われる。ＳＮＲ外れ値フィルタ処理は、単独で、または平均ＳＮＲを重み付けすることと併せて使用され得る。適応重みは、平均ＳＮＲを計算する前に、帯域当たりのＳＮＲに適用され得る。重み付け関数は、雑音レベル、雑音タイプ、および／または瞬時ＳＮＲ値の関数であり得る。別の重み付け機構は、特定の帯域の重みをゼロに設定するヌルフィルタ処理または外れ値フィルタ処理を適用する。この特定の帯域は、他の帯域におけるＳＮＲよりも数倍高いＳＮＲを示す帯域として特徴づけられ得る。【選択図】図２

Description

関連出願の相互参照
[0001]本出願は、米国特許法第１１９条（ｅ）の利益に基づき、２０１２年１月２０日出願の米国仮特許出願第６１／５８８，７２９号の優先権を主張する。本仮特許出願は、その全体が参照により本明細書に明確に組み込まれる。

[0002]雑音の多い環境で通信が行われる適用例では、所望の音声信号を背景雑音から分離することが望ましいことがある。雑音は、所望の信号と干渉するかあるいは所望の信号を劣化させるすべての信号の組合せと定義され得る。背景雑音は、他の人々の背景会話など、音響環境内で発生される多数の雑音信号、並びに所望の信号および／または他の信号のいずれかから発生される反射および残響を含み得る。

[0003]ボイスアクティビティ検出器（ＶＡＤ：voice activity detector）などの信号アクティビティ検出器は、電子デバイスにおける不要な処理の量を最小化するために使用され得る。ボイスアクティビティ検出器は、マイクロフォンに続いて１つまたは複数の信号処理段階を選択的に制御し得る。例えば、記録デバイスは、雑音信号の処理と記録とを最小限に抑えるために、ボイスアクティビティ検出器を実装し得る。ボイスアクティビティ検出器は、ボイスアクティビティがない期間中、信号処理および記録を非活性化するか、あるいは非活動化し得る。同様に、スマートフォン、携帯電話、携帯情報端末（ＰＤＡ）、ラップトップ、または任意のポータブルコンピューティングデバイスなどの通信デバイスは、雑音信号に割り振られる処理能力を低減させるために、およびリモート宛先デバイスに送信されるか、あるいは通信される雑音信号を低減させるためにボイスアクティビティ検出器を実装し得る。ボイスアクティビティ検出器は、ボイスアクティビティがない期間中、ボイス処理および送信を非活性化するか、または非活動化し得る。

[0004]ボイスアクティビティ検出器が満足に動作する能力は、雑音条件を変化させることと著しい雑音エネルギーを有する雑音条件とによって妨げられ得る。ボイスアクティビティ検出が、動的雑音環境を受けるモバイルデバイスで統合されるとき、ボイスアクティビティ検出器のパフォーマンスはさらに複雑になり得る。モバイルデバイスは、比較的雑音のない環境下で動作することがあり、または雑音エネルギーがボイスエネルギー程度であるかなりの雑音条件下で動作することがある。動的雑音環境の存在はボイスアクティビティ決定を複雑にする。

[0005]従来、ボイスアクティビティ検出器は、入力フレームを背景雑音またはアクティブ音声として分類する。アクティブ／非アクティブ分類は、音声コーダが典型的な電話会話によくあるトークスパート(talk spurts)間の休止を活用させる。信号対雑音比（ＳＮＲ：signal-to-noise ratio）＞３０ｄＢなどの高いＳＮＲでは、単純なエネルギー測定が最小ビットレートでの符号化のためのボイス非アクティブセグメントを正確に検出するために妥当であり、それによって、より低いビットレート要件を満たす。しかしながら、低いＳＮＲでは、ボイスアクティビティ検出器のパフォーマンスが著しく劣化する。例えば、低いＳＮＲにおいて、保守的なＶＡＤは、増加された誤音声検出を生成し、良い高い平均符号化レートをもたらし得る。積極的なＶＡＤは、アクティブ音声セグメントを検出し損ない、それによって、音声品質の低下をもたらし得る。

[0006]最新のＶＡＤ技法は、入力フレームが背景雑音であるか、またはアクティブ音声であるのかのＶＡＤ決定を実行する際に使用する閾値（ＶＡＤ＿ＴＨＲと呼ばれる）を推定するために長期(long-term)ＳＮＲを使用する。低いＳＮＲや高速変動、非定常雑音の下で、平滑化された長期ＳＮＲは不正確なＶＡＤ＿ＴＨＲを生成し、その結果、音声を逃す確率の増加または誤音声検出の確率の増加をもたらすことになる。また、いくつかのＶＡＤ技法（例えば、適応マルチレート広帯域またはＡＭＲ−ＷＢ（Adaptive Multi-Rate Wideband））は、自動車雑音などの定常タイプの雑音に対してうまく動作するが、低いＳＮＲ（例えば、ＳＮＲ＜１５ｄＢ）での非定常雑音に対して（広範な誤検出により）極めて高いボイスアクティビティファクタを生成する。

[0007]このようにして、ボイスアクティビティの誤った指示は雑音信号の処理および送信をもたらし得る。雑音信号の処理および送信は、ボイスアクティビティ検出器によるボイスアクティビティの欠如の指示により雑音送信の期間に非アクティビティ期間が点在する場合に特に、粗末なユーザエクスペリエンスをもたらし得る。逆に、粗末なボイスアクティビティ検出はボイス信号の実質的部分の損失をもたらし得る。ボイスアクティビティの冒頭部分の損失は、ユーザが会話の一部分をしょっちゅう(regularly)繰り返す必要をもたらし得るもので、これは不所望な状態である。

[0008]本発明は、平均ＳＮＲ（すなわち、ＳＮＲａｖｇ）計算において背景雑音の突然の変化を補償することを意図する。一実施形態では、複数の帯域におけるＳＮＲ値が外れ値(outlier)フィルタ処理および／または重みを適用することによって選択的に調整される。ＳＮＲ外れ値フィルタ処理は、単独で、あるいは平均ＳＮＲを重み付けすることと併せて使用され得る。複数のサブバンドにおける適応手法も提供される。

[0009]一実施形態で、ＶＡＤは、音をキャプチャする１つまたは複数のマイクロフォンも含むモバイルデバイスに備えられるか、または結合され得る。デバイスは、到来音声信号を、複数ブロックの時間、あるいは複数の分析フレームまたは複数の部分に分割する。時間（またはフレーム）内の各セグメントの持続時間は、信号のスペクトルエンベロープが比較的定常のままである十分な短さである。

[0010]一実施形態で、平均ＳＮＲは重み付けされる。適応重みは、平均ＳＮＲを計算する前に、帯域当たりのＳＮＲに適用される。重み付け関数は、雑音レベル、雑音タイプ、および／または瞬時ＳＮＲ値の関数であり得る。

[0011]別の重み付け機構は、特定の帯域の重みをゼロ(zero )に設定するヌルフィルタ処理または外れ値フィルタ処理を適用する。この特定の帯域は、他の複数の帯域におけるＳＮＲよりも数倍高いＳＮＲを示す帯域として特徴づけられ得る。

[0012]一実施形態で、ＳＮＲ外れ値フィルタ処理を実行することは、単調な順序で帯域における修正瞬時ＳＮＲ値をソートすることと、（１つまたは複数の）帯域のうちのどれが（１つまたは複数の）外れ値帯域であるかを判断することと、（１つまたは複数の）外れ値帯域に関連する重みをゼロに設定することによって適応重み付け関数を更新することとを行うことを備える。

[0013]一実施形態では、複数のサブバンドにおける適応手法が使用される。サブバンドＶＡＤ決定を論理的に組み合わせる代わりに、複数のサブバンドにおける平均ＳＮＲと閾値との間の差が適応的に重み付けされる。ＶＡＤ閾値とこの平均ＳＮＲとの間の差は各サブバンドにおいて判断される。重みが各差に適用され、重み付けされた差が一緒に加算される。その結果をゼロなどの別の閾値と比較することによってボイスアクティビティがあるか否かが判断され得る。

[0014]この概要は、詳細な説明において以下でさらに述べる簡略化した形態の概念の選択を紹介するために提供される。この概要は、特許請求された主題の主要な特徴または本質的特徴を識別することを意図されず、特許請求された主題の範囲を限定したりするために使用することも意図されない。

[0015]上記の概要並びに例示的な実施形態についての以下の詳細な説明は、添付の図面と併せ読めば、よりよく理解される。実施形態を例示する目的で、図面には、実施形態の例示的な構造が示されているが、実施形態は、開示される特定の方法および手段に限定されない。

[0016]ＶＡＤ閾値を推定する際に使用され得るＶＡＤ閾値（ＶＡＤ＿ＴＨＲ）対長期ＳＮＲ（ＳＮＲ＿ＬＴ）のマッピング曲線の一例を示す図。 [0017]ボイスアクティビティ検出器の実施形態を示すブロック図。 [0018]ボイスアクティビティを検出する際に使用され得る平均ＳＮＲを重み付けする方法の実施形態の動作フローを示す図。 [0019]ボイスアクティビティを検出する際に使用され得るＳＮＲ外れ値フィルタ処理の方法の実施形態の動作フローを示す図。 [0020]誤検出中の帯域当たりのソートされたＳＮＲの確率分布関数（ＰＤＦ：probability distribution function）の一例を示す図。 [0021]背景雑音の存在下でボイスアクティビティを検出するための方法の実施形態の動作フローを示す図。 [0022]ボイスアクティビティを検出する際に使用され得る方法の実施形態の動作フローを示す図。 [0023]例示的な移動局の図。 [0024]例示的なコンピューティング環境を示す図。

詳細な説明
[0025]図面を参照して組み込む以下の詳細な説明は、１つまたは複数の特定の実施形態を説明し、例示するものである。限定するためではなく、例示し、教示するためだけに提供されるこれら実施形態は、当業者が特許請求の範囲を実施できるように十分詳細に図示され、説明される。従って、簡潔さのため、この説明は、当業者に知られているある情報を省略し得る。

[0026]多くの音声処理システムでは、ボイスアクティビティ検出は、一般に、マイクロフォン信号などのオーディオ入力信号、例えば、モバイルフォンのマイクロフォン信号から推定される。ボイスアクティビティ検出は、ボコーダおよび音声認識デバイスなど、多くの音声処理デバイスでは重要な機能である。

[0027]ボイスアクティビティ検出分析は、時間領域または周波数領域のいずれかにおいて実行され得る。背景雑音の存在下で、かつ低いＳＮＲでは、周波数領域ＶＡＤは、一般に、時間領域ＶＡＤのそれよりも好ましい。周波数領域ＶＡＤは、スペクトルビンの各々におけるＳＮＲを分析することの利点を有する。典型的な周波数領域ＶＡＤで、最初に、音声信号は複数のフレーム、例えば１０〜３０ｍｓ長にセグメント化される。次に、時間領域音声フレームは、ＮポイントＦＦＴ（高速フーリエ変換：fast Fourier transform）を使用して周波数領域に変換される。最初の半分、すなわち、Ｎ／２個の周波数ビンは、Ｍ個の帯域のような、いくつかの帯域に分割される。こうした複数の帯域へのスペクトルビンのグルーピングは、一般に、人間聴覚系の臨界帯域構造を模倣する。一例として、毎秒１６，０００サンプルでサンプリングされる広帯域音声に対して、Ｎ＝２５６ポイントのＦＦＴ、Ｍ＝２０個の帯域とする。第１の帯域はＮ１個のスペクトルビンを含み得、第２の帯域はＮ２個のスペクトルビンを含み得、以下同様である。

[0028]ｍ番目の帯域における帯域当たりの平均エネルギーＥｃｂ（ｍ）は、各帯域内における複数のＦＦＴビンの大きさを加算することによって計算される。次に、帯域当たりのＳＮＲは式（１）を使用して計算される。

Ｎｃｂ（ｍ）は、非アクティブフレーム中に更新されるｍ番目の帯域における背景雑音エネルギーである。次に、平均信号対雑音比、ＳＮＲａｖｇ、が式（２）を使用して計算される。

[0029]ＳＮＲａｖｇは閾値、ＶＡＤ＿ＴＨＲ、と比較され、決定が式（３）に示すように行われる。

[0030]ＶＡＤ＿ＴＨＲは、一般に、適応型で、長期信号と雑音エネルギーの比に基づくものであって、ＶＡＤ＿ＴＨＲは、フレームごとに変化する(vary)。ＶＡＤ＿ＴＨＲを推定する１つの一般的な方法は、図１に示す形のマッピング曲線を使用することである。図１は、ＶＡＤ閾値（すなわち、ＶＡＤ＿ＴＨＲ）対ＳＮＲ＿ＬＴ（長期ＳＮＲ）のマッピング曲線の一例である。長期信号エネルギーと雑音エネルギーとは、指数平滑化関数を使用して推定される。次いで、長期ＳＮＲ、ＳＮＲ_LT、は、式（４）を使用して計算される。

[0031]上記のように、最新のＶＡＤ技法は、ＶＡＤ決定を実行するためにＶＡＤ＿ＴＨＲを推定するために長期ＳＮＲを使用する。低いＳＮＲでまたは高速変動の非定常雑音の下で、平滑化された長期ＳＮＲは不正確なＶＡＤ＿ＴＨＲを生成し、音声を逃す確率の増加または誤音声検出の確率の増加をもたらす。また、いくつかのＶＡＤ技法（例えば、適応マルチレート広帯域またはＡＭＲ−ＷＢ）は、自動車雑音などの定常タイプの雑音に対してうまく動作するが、低いＳＮＲ（例えば、１５ｄＢ未満）での非定常雑音に対して（広範な誤検出により）極めて高いボイスアクティビティファクタを生成する。

[0032]本明細書における実施形態は、ＳＮＲａｖｇ計算において背景雑音の突然の変化を補償することを意図する。いくつかの実施形態に関して本明細書でさらに説明するように、複数の帯域におけるＳＮＲ値は、外れ値フィルタ処理および／または重みを適用することによって選択的に調整される。

[0033]図２は、ボイスアクティビティ検出器（ＶＡＤ）２００の実施形態を示すブロック図であり、図３は、平均ＳＮＲを重み付けする方法３００の実施形態の動作フローである。

[0034]一実施形態では、ＶＡＤ２００は、受信機２０５、プロセッサ２０７、重み付けモジュール２１０、ＳＮＲ計算モジュール２２０、外れ値フィルタ２３０、および決定モジュール２４０を備える。ＶＡＤ２００は、音をキャプチャする１つまたは複数のマイクロフォンも含むデバイスに備えられるか、結合され得る。代替または追加として、受信機２０５は、音をキャプチャするデバイスを備え得る。連続音は、離散間隔で音をサンプリングし、音を量子化する（例えば、デジタル化する）デジタイザ（例えば、プロセッサ２０７等のプロセッサ）に送信され得る。デバイスは、到来音声信号を、時間のブロック、あるいは複数の分析フレームまたは複数の部分に分割し得る。時間（またはフレーム）内の各セグメントの持続時間は、一般に、信号のスペクトルエンベロープが比較的定常のままであることが期待できる十分な短さになるように選択される。実施形態に応じて、ＶＡＤ２００は、移動局または他のコンピューティングデバイス内に備えられ得る。例示的な移動局が図８に関して説明される。例示的なコンピューティングデバイスが図９に関して説明される。

[0035]一実施形態では、平均ＳＮＲは、（例えば、重み付けモジュール２１０によって）重み付けされる。より詳細には、適応重みは、ＳＮＲａｖｇを計算する前に帯域当たりのＳＮＲに適用される。一実施形態では、これは、式（５）によって表される。

[0036]重み付け関数ＷＥＩＧＨＴ（ｍ）は、雑音レベル、雑音タイプ、および／または瞬時ＳＮＲ値の関数であり得る。３１０では、音の１つまたは複数の入力フレームがＶＡＤ２００で受信され得る。３２０では、雑音レベル、雑音タイプ、および／または瞬時ＳＮＲ値が例えば、ＶＡＤ２００のプロセッサによって判断され得る。瞬時ＳＮＲ値は、例えば、ＳＮＲ計算モジュール２２０によって判断され得る。

[0037]３３０では、重み付け関数が、例えば、ＶＡＤ２００のプロセッサによって、雑音レベル、雑音タイプ、および／または瞬時ＳＮＲ値に基づいて判断され得る。帯域（サブバンドとも呼ばれる）が例えば、ＶＡＤ２００のプロセッサによって３４０で判断され得、適応重みが３５０で帯域当たりのＳＮＲに適用され得る。複数の帯域にわたる平均ＳＮＲが、例えばＳＮＲ計算モジュール２２０によって３６０で判断され得る。

[0038]例えば、帯域１、２、および３における瞬時ＳＮＲ値が帯域≧４における瞬時ＳＮＲ値よりも著しく低い（例えば、２０倍）場合、ｍ＜４の場合のＳＮＲ_GB（ｍ）は、帯域ｍ≧４の場合よりも低い重みを受信し得る。これは、一般に、より低い帯域（＜３００Ｈｚ）におけるＳＮＲがボイス活性領域中に上位帯域におけるＳＮＲよりも著しく低くなる自動車雑音の場合である。

[0039]雑音タイプおよび背景雑音レベル変動は、ＷＥＩＧＨＴ（ｍ）曲線を選択するために検出され得る。一実施形態で、ＷＥＩＧＨＴ（ｍ）曲線のセットは、事前計算され、データベースまたは他のストレージまたはメモリデバイスまたは構造に記憶され得、各々は、検出された背景雑音タイプ（例えば、定常または非定常）とバックグラウンドノイズレベル変動（例えば、雑音レベルの３ｄＢ、６ｄＢ、９ｄＢ、１２ｄＢの増加）とに依存してフレームを処理するごとに選定される。

[0040]本明細書で説明するように、実施形態は、外れ値フィルタ処理と重みを適用することとによって帯域におけるＳＮＲ値を選択的に調節することによってＳＮＲａｖｇ計算における背景雑音の突然の変化を補償する。

[0041]一実施形態で、ＳＮＲ外れ値フィルタ処理は、単独で、あるいは平均ＳＮＲを重み付けすることと併せて使用され得る。より詳細には、別の重み付け機構が、特定の帯域の重みを本質的にゼロに設定するヌルフィルタ処理または外れ値フィルタ処理を適用し得る。この特定の帯域は、他の複数の帯域におけるＳＮＲよりも数倍高いＳＮＲを示す帯域として特徴づけられ得る。

[0042]図４は、ＳＮＲ外れ値フィルタ処理の方法４００の実施形態の動作フローである。この手法において、帯域ｍ＝１、２、．．．、２０におけるＳＮＲは４１０で昇順でソートされ、最大ＳＮＲ（外れ値）値を有する帯域が４２０で識別される。その外れ値帯域に関連する重みは４３０でゼロに設定される。そのような技法は、例えば、外れ値フィルタ２３０によって実行され得る。

[0043]このＳＮＲ外れ値問題は、例えば、いくつかの帯域におけるＳＮＲでスパイクを生成する雑音エネルギーの数値精度または過小評価により起こり得る。図５は、誤検出中の帯域当たりのソートされたＳＮＲの確率分布関数（ＰＤＦ）の一例を示す図である。図５に、ボイスアクティブとして誤って分類されたすべてのフレームにわたるソートされたＳＮＲのＰＤＦを示す。図５に示すように、外れ値ＳＮＲは、２０の帯域で中央ＳＮＲの数百倍である。さらに、（場合によっては、雑音または数値精度の過小評価により）１つの帯域におけるより高い（外れ値）ＳＮＲ値が、ＳＮＲａｖｇをＶＡＤ＿ＴＨＲよりも高く押し上げ、ｖｏｉｃｅ＿ａｃｔｉｖｉｔｙ＝真を生じている。

[0044]図６は、背景雑音の存在下でボイスアクティビティを検出するための方法６００の実施形態の動作フローを示す図である。６１０で、１つまたは複数の入力フレームの音が例えば、ＶＡＤ２００の受信機２０５のようなＶＡＤの受信機によって受信される。６２０で、各入力フレームの雑音特性が判断される。入力フレームの雑音レベル変動、雑音タイプ、および／または瞬時ＳＮＲ値などの雑音特性は例えば、ＶＡＤ２００のプロセッサ２０７によって判断される。

[0045]６３０では、例えばＶＡＤ２００のプロセッサ２０７を使用し、複数の帯域が少なくとも雑音レベル変動および／または雑音タイプに基づくなど、雑音特性に基づいて判断される。帯域当たりのＳＮＲ値が、６４０で雑音特性に基づいて判断される。一実施形態では、帯域当たりの修正瞬時ＳＮＲ値が、６４０で少なくとも雑音レベル変動および／または雑音タイプに基づいてＳＮＲ計算モジュール２２０によって判断される。例えば、帯域当たりの修正瞬時ＳＮＲ値は、入力フレームの少なくとも瞬時ＳＮＲに基づいて帯域当たりの信号エネルギーの過去の推定値を使用して帯域当たりの信号エネルギーの現在の推定値を選択的に平滑化することと、少なくとも雑音レベル変動と雑音タイプとに基づいて帯域当たりの雑音エネルギーの過去の推定値を使用して帯域当たりの雑音エネルギーの現在の推定値を選択的に平滑化することと、帯域当たりの信号エネルギーの平滑化された推定値と雑音エネルギーの平滑化された推定値の比を判断することとに基づいて判断され得る。

[0046]６５０では、外れ値帯域が（例えば、外れ値フィルタ２３０によって）判断され得る。一実施形態で、所与の帯域のいずれかにおける修正瞬時ＳＮＲは、帯域の残りにおける修正瞬時ＳＮＲの和よりも数倍大きい。

[0047]一実施形態では、６６０で、適応重み付け関数が（例えば、重み付けモジュール２１０によって）少なくとも雑音レベル変動、雑音タイプ、外れ値帯域のロケーション、および／または帯域当たりの修正瞬時ＳＮＲ値に基づいて判断され得る。適応重み付けは重み付けモジュール２１０によって６７０で帯域当たりの修正瞬時ＳＮＲに適用され得る。

[0048]６８０では、入力フレーム当たりの重み付き平均ＳＮＲが帯域にわたって重み付き修正瞬時ＳＮＲを加算することでＳＮＲ計算モジュール２２０によって判断され得る。６９０で、重み付き平均ＳＮＲは信号またはボイスアクティビティの存在または不在を検出するために閾値と比較される。例えば、そのような比較および判断は、決定モジュール２４０によって行われ得る。

[0049]一実施形態では、ＳＮＲ外れ値フィルタ処理を実行することは、単調な順序で帯域における修正瞬時ＳＮＲ値をソートすることと、（１つまたは複数の）帯域のうちのどれが（１つまたは複数の）外れ値帯域であるかを判断することと、（１つまたは複数の）外れ値帯域に関連する重みをゼロに設定することによって適応重み付け関数を更新することとを行うことを備える。

[0050]よく知られている手法は、複数のサブバンドにおけるＶＡＤ決定を行い、次いで、フレーム当たりの最終ＶＡＤ決定を取得するためにこれらのサブバンドＶＡＤ決定を論理的に組み合わせることである。例えば、拡張可変レートコーデック−広帯域（ＥＶＲＣ−ＷＢ：Enhanced Variable Rate Codec-Wideband）は、サブバンドにおいて独立したＶＡＤ決定を行うために３つの帯域（低または「Ｌ」：０．２〜２ｋＨｚ、または「Ｍ」：２〜４ｋＨｚおよび高または「Ｈ」：４〜７ｋＨｚ）を使用する。ＶＡＤ決定は、フレームについての全体的なＶＡＤ決定を推定するためにＯＲ演算される。これは、式（６）によって表される。

[0051]逃した音声検出事例の大部分(majority)中に（特に、低いＳＮＲで）、サブバンドＳＮＲａｖｇ値はサブバンドＶＡＤ＿ＴＨＲ値よりもわずかに小さくなるが、過去のフレームでは、サブバンドＳＮＲａｖｇ値のうちの少なくとも１つは、対応するサブバンドＶＡＤ＿ＴＨＲよりも著しく大きくなることが経験的にわかっている。

[0052]一実施形態では、サブバンドにおける適応ソフトＶＡＤ＿ＴＨＲ手法が使用され得る。サブバンドＶＡＤ決定を論理的に組み合わせる代わりに、ＶＡＤ＿ＴＨＲと複数のサブバンドにおけるＳＮＲａｖｇとの間の差が適応的に重み付けされる。

[0053]図７は、そのような方法７００の実施形態の動作フローである。７１０において、例えば、ＶＡＤ２００のプロセッサによって、各サブバンドにおけるＶＡＤ＿ＴＨＲとＳＮＲａｖｇとの間の差が判断される。例えば、ＶＡＤ２００の重み付けモジュール２１０によって、重みが７２０で各差に適用され、重み付き差が７３０で合計される。

[0054]７４０では、ボイスアクティビティがあるか否かが７３０の結果をゼロのような別の閾値と比較することで（例えば、決定モジュール２４０によって）判断され得る。これを式（７）および式（８）に示す。

[0055]一例として、重み付けパラメータα_L、α_M、α_Hは、例えば、ユーザによって、それぞれ、０．３、０．４、０．３に最初に初期化される。重み付けパラメータは、複数のサブバンドにおける長期ＳＮＲに従って適応的に変化し得る。重み付けパラメータは、特定の実施形態に依存して、例えば、ユーザによって任意の（１つまたは複数の）値に設定され得る。

[0056]重み付けパラメータα_L＝α_M＝α_H＝１であるとき、式（７）および式（８）によって表される上記のサブバンド決定式は、上記で説明したフルバンドの式（３）の式と同様であることに留意されたい。

[0057]従って、一実施形態で、ＥＶＲＣ−ＷＢは、複数のサブバンドにおける独立したＶＡＤ決定を行うために３つの帯域（０．２〜２ｋＨｚ、２〜４ｋＨｚおよび４〜７ｋＨｚ）を使用する。ＶＡＤ決定は、フレームについての全体的なＶＡＤ決定を推定するためにＯＲ演算される。

[0058]一実施形態では、いくらかの重複が（オクターブ当たりで）例えば、０．２〜１．７ｋＨｚ、１．６ｋＨｚ〜３．６ｋＨｚ、および３．７ｋＨｚ〜６．８ｋＨｚのような複数の帯域間であり得る。この重複がより良い結果を与えると判断されている。

[0059]一実施形態では、ＶＡＤ基準が２つのサブバンドのいずれかで満たされる場合、それはボイスアクティブフレームとして扱われる。

[0060]上記で説明した例は別個の周波数範囲をもつ３つのサブバンドを使用するが、これは限定するものではない。実施形態に依存して、または必要に応じて、任意の周波数範囲と任意の量の重複とをもつ任意の数のサブバンドが使用され得る。

[0061]本明細書で説明するＶＡＤは、サブバンドＶＡＤとフルバンドＶＡＤとの間にトレードオフを有し、ＥＶＲＣ−ＷＢタイプのサブバンドＶＡＤから改善された誤レートパフォーマンスと、ＡＭＲ−ＷＢタイプのフルバンドＶＡＤから改善された逃した音声検出パフォーマンスとの利点を有する能力を与える。

[0062]実施形態に依存して、任意の１つまたは複数の比較および／または閾値が使用され得るので、本明細書で説明する比較および閾値は限定するものではない。実施形態に依存して、追加のおよび／または代替の比較および閾値も使用され得る。

[0063]別段に規定されていない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する（その逆も同様）ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する（その逆も同様）ことをも明確に意図する。

[0064]本明細書で使用される場合、「判断する」という用語（およびその文法的な変形）は、極めて幅広い意味で使用される。「判断」という用語は、多種多様なアクションを包含し、従って、「判断」は、計算、算出、処理、導出、調査、ルックアップ（例えば、テーブル、データベースまたは別のデータ構造でのルックアップ）、確認などを含むことができる。また、「判断」は、受信（例えば、情報を受信すること）、アクセス（例えば、メモリ内のデータにアクセスすること）などを含むことができる。また、「判断」は、解決、選択、選定、確立などを含むことができる。

[0065]「例示的」という単語は、本開示全体にわたって、「例、事例、または例示の働きをすること」を意味するために使用する。本明細書で「例示的」と記載されたものは何でも、必ずしも他の手法または特徴よりも好ましいまたは有利であると解釈されるべきではない。

[0066]「信号処理」という用語（およびその文法的変化形）は、信号の処理および解釈を指すことがある。対象の信号は、音、画像、およびその他の多くのものを含み得る。このような信号の処理は、格納、再構築、雑音からの情報の分離、圧縮、および特徴抽出を含み得る。「デジタル信号処理」という用語は、デジタル表現における信号の検討と信号の処理方法とを指すことがある。デジタル信号処理は、移動局、非移動局、およびインターネットなどの多くの通信技術の要素である。デジタル信号処理のために利用されるアルゴリズムは、専用コンピュータを使用して実行され得、専用コンピュータは、（ＤＳＰと略される場合がある）デジタル信号プロセッサと呼ばれる専用マイクロプロセッサを利用し得る。

[0067]本明細書で開示する実施形態に関して説明する方法、プロセス、またはアルゴリズムのステップは、直接ハードウェアで実施され得るか、プロセッサによって実行されるソフトウェアモジュールで実施され得るか、またはその２つの組合せで実施され得る方法またはプロセスにおける様々なステップまたは行為は、示された順序で実行されることも、別の順序で実行されることもあり得る。加えて、１つまたは複数のプロセスまたは方法ステップが省略され得、あるいは１つまたは複数のプロセスまたは方法ステップが方法およびプロセスに追加され得る。方法およびプロセスの開始、終了、または介在する既存の要素に追加のステップ、ブロック、またはアクションが追加され得る。

[0068]図８に、ワイヤレス通信システムにおける例示的な移動局８００の設計のブロック図を示す。移動局８００は、スマートフォン、セルラーフォン、端末、ハンドセット、ＰＤＡ、ワイヤレスモデム、コードレスフォンなどであり得る。ワイヤレス通信システムは、ＣＤＭＡシステム、ＧＳＭ（登録商標）システムなどであり得る。

[0069]移動局８００は、受信経路と送信経路とを介して双方向通信を行うことが可能である。受信経路上で、基地局によって送信された信号は、アンテナ８１２によって受信され、受信機（ＲＣＶＲ）８１４に与えられる。受信機８１４は、受信信号を調整し、デジタル化し、さらなる処理のためにサンプルをデジタルセクション８２０に与える。送信経路上で、送信機（ＴＭＴＲ）８１６は、デジタルセクション８２０から送信すべきデータを受信し、データを処理し、調整し、変調信号を生成し、変調信号はアンテナ８１２を介して基地局に送信される。受信機８１４および送信機８１６は、ＣＤＭＡ、ＧＳＭなどをサポートし得るトランシーバの一部であり得る。

[0070]デジタルセクション８２０は、例えば、モデムプロセッサ８２２、縮小命令セットコンピュータ／デジタル信号プロセッサ（ＲＩＳＣ／ＤＳＰ）８２４、コントローラ／プロセッサ８２６、内部メモリ８２８、一般化されたオーディオエンコーダ８３２、一般化されたオーディオデコーダ８３４、グラフィックス／ディスプレイプロセッサ８３６、および外部バスインターフェース（ＥＢＩ：external bus interface）８３８など、様々な処理、インターフェース、およびメモリユニットを含む。モデムプロセッサ８２２は、データ送信および受信、例えば符号化、変調、復調、および復号の処理を実行し得る。ＲＩＳＣ／ＤＳＰ８２４は、ワイヤレスデバイス８００のための一般的および特別な処理を実行し得る。コントローラ／プロセッサ８２６は、デジタルセクション８２０内の様々な処理およびインターフェースユニットの演算を指示し得る。内部メモリ８２８は、デジタルセクション８２０内の様々なユニットのためのデータおよび／または命令を記憶し得る。

[0071]一般化されたオーディオエンコーダ８３２は、オーディオソース８４２、マイクロフォン８４３などからの入力信号の符号化を実行し得る。一般化されたオーディオデコーダ８３４は、コード化されたオーディオデータの復号を実行し得、出力信号をスピーカー／ヘッドセット８４４に与え得る。グラフィックス／ディスプレイプロセッサ８３６は、グラフィックス、ビデオ、画像、およびテキストの処理を実行し得、これらはディスプレイユニット８４６に提示され得る。ＥＢＩ８３８は、デジタルセクション８２０とメインメモリ８４８との間のデータ転送を容易にし得る。

[0072]デジタルセクション８２０は、１つまたは複数のプロセッサ、ＤＳＰ、マイクロプロセッサ、ＲＩＳＣなどを用いて実装され得る。デジタルセクション８２０はまた、１つまたは複数の特定用途向け集積回路（ＡＳＩＣ）および／または何らかの他のタイプの集積回路（ＩＣ）上に作製され得る。

[0073]図９に、例示的な実施形態および態様が実装され得る例示的なコンピューティング環境を示す。コンピューティングシステム環境は、適切なコンピューティング環境の一例にすぎず、使用または機能の範囲に関するいかなる限定も示唆するものではない。

[0074]コンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令が使用され得る。概して、プログラムモジュールは、特定のタスクを実行するか、または特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。通信ネットワークまたは他のデータ伝送媒体を介してリンクされる遠隔処理デバイスによってタスクが実行される、分散コンピューティング環境が使用され得る。分散コンピューティング環境では、プログラムモジュールおよび他のデータは、メモリストレージデバイスを含むローカルおよびリモートの両方のコンピュータ記憶媒体に配置され得る。

[0075]図９を参照すると、本明細書で説明する態様を実装するための例示的なシステムは、コンピューティングデバイス９００などのコンピューティングデバイスを含む。その最も基本的な構成では、コンピューティングデバイス９００は、一般に、少なくとも１つの処理ユニット９０２とメモリ９０４とを含む。コンピューティングデバイスの正確な構成およびタイプに依存して、メモリ９０４は、揮発性（例えばランダムアクセスメモリ（ＲＡＭ））、不揮発性（例えば読取り専用メモリ（ＲＯＭ）、フラッシュメモリなど）、または２つの何らかの組合せであり得る。この最も基本的な構成を図９に破線９０６で示す。

[0076]コンピューティングデバイス９００は、追加の特徴および／または機能を有し得る。例えば、コンピューティングデバイス９００は、限定はしないが、磁気または光学ディスク、あるいはテープを含む追加のストレージ（取外し可能および／または取外し不能）を含み得る。そのような追加のストレージが図９に取外し可能なストレージ８０８および取外し不能なストレージ９１０で示される。

[0077]コンピューティングデバイス９００は、一般に、様々なコンピュータ可読媒体を含む。コンピュータ可読記憶媒体は、デバイス９００によってアクセスされ得る任意の利用可能な媒体であり、揮発性媒体および不揮発性媒体と、取外し可能媒体および取外し不能媒体との両方を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータなど、情報の記憶のための任意の方法または技術において実装される揮発性および不揮発性、取外し可能および取外し不能な媒体を含む。メモリ９０４、取外し可能なストレージ９０８および取外し不能なストレージ９１０はすべて、コンピュータ記憶媒体の例である。コンピュータ記憶媒体は、限定はしないが、ＲＡＭ、ＲＯＭ、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ（登録商標））、フラッシュメモリまたは他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）または他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは所望の情報を記憶するために使用され得、コンピューティングデバイス９００によってアクセスされ得る任意の他の媒体を含む。いかなるそのようなコンピュータ記憶媒体も、コンピューティングデバイス９００の一部であり得る。

[0078]コンピューティングデバイス９００は、デバイスが他のデバイスと通信することを可能にする（１つまたは複数の）通信接続９１２を含み得る。コンピューティングデバイス９００はまた、キーボード、マウス、ペン、音声入力デバイス、タッチ入力デバイスなど、（１つまたは複数の）入力デバイス９１４を有し得る。また、ディスプレイ、スピーカー、プリンターなどの（１つまたは複数の）出力デバイス９１６が含まれ得る。これらのすべてのデバイスは、当技術分野でよく知られており、ここでは詳細に説明する必要はない。

[0079]概して、本明細書で説明したいかなるデバイスも、ワイヤレスまたはワイヤードフォン、セルラーフォン、ラップトップコンピュータ、ワイヤレスマルチメディアデバイス、ワイヤレス通信ＰＣカード、ＰＤＡ、外部または内部モデム、ワイヤレスまたはワイヤードチャネルを介して通信するデバイスなど、様々なタイプのデバイスを表し得る。デバイスは、アクセス端末（ＡＴ）、アクセスユニット、加入者ユニット、移動局、モバイルデバイス、モバイルユニット、モバイルフォン、モバイル、遠隔局、遠隔端末、遠隔ユニット、ユーザデバイス、ユーザ機器、携帯デバイス、非モバイル局、非モバイルデバイス、端点など、様々な名前を有し得る。本明細書で説明したいかなるデバイスも、命令およびデータ、並びにハードウェア、ソフトウェア、ファームウェア、またはそれらの組合せを記憶するためのメモリを有し得る。

[0080]本明細書で説明した技法は、様々な手段で実装され得る。例えば、これらの技法は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの組合せで実装され得る。さらに、本明細書の開示に関連して説明した様々な例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実装され得ることを、当業者は諒解されよう。ハードウェアとソフトウェアのこの互換性を明確に示すために、様々な例示的な構成要素、ブロック、モジュール、回路、およびステップについて、上記では概してそれらの機能に関して説明した。そのような機能をハードウェアとして実装するか、ソフトウェアとして実装するかは、特定の適用例および全体的なシステムに課せられた設計制約に依存する。当業者は、説明した機能を特定の適用例ごとに様々な方法で実装し得るが、そのような実装の決定は、本開示の範囲からの逸脱を生じるものと解釈すべきではない。

[0081]ハードウェア実装の場合、本技法を実行するために使用される処理ユニットは、１つまたは複数のＡＳＩＣ、ＤＳＰ、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブル論理デバイス（ＰＬＤ）、ＦＰＧＡ、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細書で説明した機能を実行するように設計された他の電子ユニット、コンピュータ、またはそれらの組合せ内で実装され得る。

[0082]従って、本明細書の開示に関連して説明した様々な例示的な論理ブロック、モジュール、および回路は、汎用プロセッサ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡまたは他のプログラマブル論理デバイス、個別ゲートまたはトランジスタロジック、個別ハードウェア構成要素、あるいは本明細書で説明した機能を実行するように設計されたそれらの任意の組合せを用いて実装または実行され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサはまた、コンピューティングデバイスの組合せ、例えば、ＤＳＰとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携する１つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装され得る。

[0083]ファームウェアおよび／またはソフトウェア実装では、本技法は、ランダムアクセスＲＡＭ、ＲＯＭ、不揮発性ＲＡＭ、プログラム可能ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、コンパクトディスク（ＣＤ）、磁気または光学データストレージデバイスなど、コンピュータ可読媒体上の命令として具現化され得る。命令は、１つまたは複数のプロセッサによって実行可能であり得、本明細書で説明した機能のいくつかの態様を（１つまたは複数の）プロセッサに実行させ得る。

[0084]ソフトウェアで実装した場合、機能は、１つまたは複数の命令またはコードとしてコンピュータ可読媒体上に記憶されるか、あるいはコンピュータ可読媒体を介して送信され得る。コンピュータ可読媒体は、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む、コンピュータ記憶媒体とコンピュータ通信媒体の両方を含む。記憶媒体は、汎用または専用コンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。限定ではなく例として、そのようなコンピュータ可読媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭまたは他の光ディスクストレージ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは命令またはデータ構造の形態の所望のプログラムコード手段を搬送または記憶するために使用され得、汎用もしくは専用コンピュータ、または汎用もしくは専用プロセッサによってアクセスされ得る、任意の他の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。例えば、ソフトウェアが同軸ケーブル、光ファイバーケーブル、より対線、デジタル加入者線（「ＤＳＬ」）、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他の遠隔ソースから送信される場合、その同軸ケーブル、光ファイバーケーブル、より対線、ＤＳＬ、または赤外線、無線、およびマイクロ波などのワイヤレス技術が媒体の定義に含められる。本明細書で使用される場合、ディスク（disk）およびディスク（disc）は、ＣＤ（disc）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）およびブルーレイ（登録商標）ディスク（disc）を含み、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）は、データをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。

[0085]ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭ、または当技術分野で知られている任意の他の形態の記憶媒体内に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化され得る。プロセッサおよび記憶媒体はＡＳＩＣ内に常駐し得る。ＡＳＩＣはユーザ端末内に常駐し得る。代替として、プロセッサおよび記憶媒体は、ユーザ端末内に個別構成要素として常駐し得る。

[0086]例示的な実施形態は、１つまたは複数のスタンドアロンコンピュータシステムの文脈で、本開示の主題の態様を利用することに言及し得るが、主題は、そのように限定されるのではなく、むしろネットワークまたは分散コンピューティング環境など、任意のコンピューティング環境に関連して実装され得る。またさらに、本開示の主題の態様は、複数の処理チップまたはデバイスにおいてあるいはそれらにわたって実装され得、同様に複数のデバイスにわたって記憶が実施され得る。例えば、そのようなデバイスは、ＰＣ、ネットワークサーバ、およびハンドヘルドデバイスを含み得る。

[0087]主題について構造的機能および／または方法論的行為に特有の言語で説明したが、添付の特許請求の範囲において定義される主題は、必ずしも上記で説明した特定の特徴または行為に限定されるとは限らないことを理解されたい。むしろ、上記で説明した特定の特徴および行為は、特許請求の範囲を実装することの例示的な形態として開示される。

Claims

背景雑音の存在下でボイスアクティビティを検出するための方法であって、
移動局のボイスアクティビティ検出器において音の１つまたは複数の入力フレームを受信することと、
前記入力フレームの各々の少なくとも１つの雑音特性を判断することと、
前記雑音特性に基づいて複数の帯域を判断することと、
前記雑音特性に基づいて帯域当たりの信号対雑音比（ＳＮＲ）値を判断することと、
少なくとも１つの外れ値帯域を判断することと、
前記少なくとも１つの外れ値帯域に基づいて重み付けを判断することと、
帯域当たりの前記ＳＮＲに前記重み付けを適用することと、
帯域当たりの前記重み付きＳＮＲを使用してボイスアクティビティの存在または不在を検出することと
を備える、方法。
ＳＮＲ外れ値フィルタ処理を実行することをさらに備える、請求項１に記載の方法。
各雑音特性が雑音レベル変動、雑音タイプ、または瞬時ＳＮＲ値のうちの少なくとも１つを備える、請求項１に記載の方法。
前記雑音特性に基づいて前記複数の帯域を判断することが、前記雑音レベル変動または前記雑音タイプのうちの少なくとも１つに基づいて前記複数の帯域を判断することを備える、請求項３に記載の方法。
帯域当たりの前記ＳＮＲ値を判断することが、前記雑音レベル変動または前記雑音タイプのうちの少なくとも１つに基づいて帯域当たりの修正瞬時ＳＮＲ値を判断することを備える、請求項３に記載の方法。
帯域当たりの前記修正瞬時ＳＮＲ値を判断することが、
前記入力フレームの少なくとも前記瞬時ＳＮＲに基づいて帯域当たりの信号エネルギーの過去の推定値を使用して帯域当たりの信号エネルギーの現在の推定値を選択的に平滑化することと、
少なくとも前記雑音レベル変動と前記雑音タイプとに基づいて帯域当たりの雑音エネルギーの過去の推定値を使用して帯域当たりの雑音エネルギーの現在の推定値を選択的に平滑化することと、
帯域当たりの信号エネルギーの平滑化された推定値と雑音エネルギーの平滑化された推定値の比を判断することと
を備える、請求項５に記載の方法。
前記帯域のうちのいずれか１つのにおける修正瞬時ＳＮＲが、前記帯域の残りにおける修正瞬時ＳＮＲの和よりも大きい、請求項６に記載の方法。
前記少なくとも１つの外れ値帯域に基づいて前記重み付けを判断することが、前記雑音レベル変動、前記雑音タイプ、前記外れ値帯域のロケーション、または帯域当たりの前記修正瞬時ＳＮＲ値のうちの少なくとも１つに基づいて適応重み付け関数を判断することを備える、請求項５に記載の方法。
帯域当たりの前記ＳＮＲに前記重み付けを適用することが、帯域当たりの前記修正瞬時ＳＮＲに前記適応重み付け関数を適用することを備える、請求項８に記載の方法。
前記帯域にわたって前記重み付き修正瞬時ＳＮＲを加算することによって入力フレーム当たりの重み付き平均ＳＮＲを判断することと、
信号またはボイスアクティビティの存在または不在を検出するために前記重み付き平均ＳＮＲを閾値と比較することと
をさらに備える、請求項９に記載の方法。
信号またはボイスアクティビティの存在または不在を検出するために前記重み付き平均ＳＮＲを閾値と比較することが、
各帯域における前記重み付き平均ＳＮＲと前記閾値との間の差を判断することと、
各差に重みを適用することと、
前記重み付き差を合計することと、
前記追加重み付き差を別の閾値と比較することによってボイスアクティビティがあるか否かを判断することと
を備える、請求項１０に記載の方法。
前記閾値がゼロであり、前記追加重み付き差がゼロよりも大きい場合、ボイスアクティビティがあると判断し、そうでない場合、ボイスアクティビティがないと判断する、請求項１１に記載の方法。
単調な順序で前記帯域における前記修正瞬時ＳＮＲ値をソートすることと、
前記帯域のうちのどれが前記外れ値帯域であるかを判断することと、
前記外れ値帯域に関連する前記重みをゼロに設定することによって前記適応重み付け関数を更新することと
を備える、ＳＮＲ外れ値フィルタ処理を実行することをさらに備える、請求項８に記載の方法。
背景雑音の存在下でボイスアクティビティを検出するための装置であって、
音の１つまたは複数の入力フレームを受信するための手段と、
前記入力フレームの各々の少なくとも１つの雑音特性を判断するための手段と、
前記雑音特性に基づいて複数の帯域を判断するための手段と、
前記雑音特性に基づいて帯域当たりの信号対雑音比（ＳＮＲ）値を判断するための手段と、
少なくとも１つの外れ値帯域を判断するための手段と、
前記少なくとも１つの外れ値帯域に基づいて重み付けを判断するための手段と、
帯域当たりの前記ＳＮＲに前記重み付けを適用するための手段と、
帯域当たりの前記重み付きＳＮＲを使用してボイスアクティビティの存在または不在を検出するための手段と
を備える、装置。
ＳＮＲ外れ値フィルタ処理を実行するための手段をさらに備える、請求項１４に記載の装置。
各雑音特性が雑音レベル変動、雑音タイプ、または瞬時ＳＮＲ値のうちの少なくとも１つを備える、請求項１４に記載の装置。
前記雑音特性に基づいて前記複数の帯域を判断するための前記手段が、前記雑音レベル変動または前記雑音タイプのうちの少なくとも１つに基づいて前記複数の帯域を判断するための手段を備える、請求項１６に記載の装置。
帯域当たりの前記ＳＮＲ値を判断するための前記手段が、前記雑音レベル変動または前記雑音タイプのうちの少なくとも１つに基づいて帯域当たりの修正瞬時ＳＮＲ値を判断するための手段を備える、請求項１６に記載の装置。
帯域当たりの前記修正瞬時ＳＮＲ値を判断するための前記手段が、
前記入力フレームの少なくとも前記瞬時ＳＮＲに基づいて帯域当たりの信号エネルギーの過去の推定値を使用して帯域当たりの信号エネルギーの現在の推定値を選択的に平滑化するための手段と、
少なくとも前記雑音レベル変動と前記雑音タイプとに基づいて帯域当たりの雑音エネルギーの過去の推定値を使用して帯域当たりの雑音エネルギーの現在の推定値を選択的に平滑化するための手段と、
帯域当たりの信号エネルギーの平滑化された推定値と雑音エネルギーの平滑化された推定値の比を判断するための手段と
を備える、請求項１８に記載の装置。
前記帯域のうちのいずれか１つのにおける修正瞬時ＳＮＲが、前記帯域の残りにおける修正瞬時ＳＮＲの和よりも大きい、請求項１９に記載の装置。
前記少なくとも１つの外れ値帯域に基づいて前記重み付けを判断するための前記手段が、前記雑音レベル変動、前記雑音タイプ、前記外れ値帯域のロケーション、または帯域当たりの前記修正瞬時ＳＮＲ値のうちの少なくとも１つに基づいて適応重み付け関数を判断するための手段を備える、請求項１８に記載の装置。
帯域当たりの前記ＳＮＲに前記重み付けを適用するための前記手段が、帯域当たりの前記修正瞬時ＳＮＲに前記適応重み付け関数を適用するための手段を備える、請求項２１に記載の装置。
前記帯域にわたって前記重み付き修正瞬時ＳＮＲを加算することによって入力フレーム当たりの重み付き平均ＳＮＲを判断するための手段と、
信号またはボイスアクティビティの存在または不在を検出するために前記重み付き平均ＳＮＲを閾値と比較するための手段と
をさらに備える、請求項２２に記載の装置。
信号またはボイスアクティビティの存在または不在を検出するために前記重み付き平均ＳＮＲを閾値と比較するための前記手段が、
各帯域における前記重み付き平均ＳＮＲと前記閾値との間の差を判断するための手段と、
各差に重みを適用するための手段と、
前記重み付き差を合計するための手段と、
前記追加重み付き差を別の閾値と比較することによってボイスアクティビティがあるか否かを判断するための手段と
を備える、請求項２３に記載の装置。
前記閾値がゼロであり、前記追加重み付き差がゼロよりも大きい場合、ボイスアクティビティがあると判断し、そうでない場合、ボイスアクティビティがないと判断する、請求項２４に記載の装置。
単調な順序で前記帯域における前記修正瞬時ＳＮＲ値をソートするための手段と、
前記帯域のうちのどれが前記外れ値帯域であるかを判断するための手段と、
前記外れ値帯域に関連する前記重みをゼロに設定することによって前記適応重み付け関数を更新するための手段と
を備える、ＳＮＲ外れ値フィルタ処理を実行するための手段をさらに備える、請求項２１に記載の装置。
音の１つまたは複数の入力フレームを受信することと、
前記入力フレームの各々の少なくとも１つの雑音特性を判断することと、
前記雑音特性に基づいて複数の帯域を判断することと、
前記雑音特性に基づいて帯域当たりの信号対雑音比（ＳＮＲ）値を判断することと、
少なくとも１つの外れ値帯域を判断することと、
前記少なくとも１つの外れ値帯域に基づいて重み付けを判断することと、
帯域当たりの前記ＳＮＲに前記重み付けを適用することと、
帯域当たりの前記重み付きＳＮＲを使用してボイスアクティビティの存在または不在を検出することと
をコンピュータに行わせる命令を備えるコンピュータ可読媒体。
ＳＮＲ外れ値フィルタ処理を実行することを前記コンピュータに行わせるコンピュータ実行可能命令をさらに備える、請求項２７に記載のコンピュータ可読媒体。
各雑音特性が雑音レベル変動、雑音タイプ、または瞬時ＳＮＲ値のうちの少なくとも１つを備える、請求項２７に記載のコンピュータ可読媒体。
前記雑音特性に基づいて前記複数の帯域を判断することを前記コンピュータに行わせる前記命令が、前記雑音レベル変動または前記雑音タイプのうちの少なくとも１つに基づいて前記複数の帯域を判断することを前記コンピュータに行わせる命令を備える、請求項２９に記載のコンピュータ可読媒体。
帯域当たりの前記ＳＮＲ値を判断することを前記コンピュータに行わせる前記命令が、前記雑音レベル変動または前記雑音タイプのうちの少なくとも１つに基づいて帯域当たりの修正瞬時ＳＮＲ値を判断することを前記コンピュータに行わせる命令を備える、請求項２９に記載のコンピュータ可読媒体。
帯域当たりの前記修正瞬時ＳＮＲ値を判断することを前記コンピュータに行わせる前記命令が、
前記入力フレームの少なくとも前記瞬時ＳＮＲに基づいて帯域当たりの信号エネルギーの過去の推定値を使用して帯域当たりの信号エネルギーの現在の推定値を選択的に平滑化することと、
少なくとも前記雑音レベル変動と前記雑音タイプとに基づいて帯域当たりの雑音エネルギーの過去の推定値を使用して帯域当たりの雑音エネルギーの現在の推定値を選択的に平滑化することと、
帯域当たりの信号エネルギーの平滑化された推定値と雑音エネルギーの平滑化された推定値の比を判断することと
を前記コンピュータに行わせる命令を備える、請求項３１に記載のコンピュータ可読媒体。
前記帯域のうちのいずれか１つにおける修正瞬時ＳＮＲが、前記帯域の残りにおける修正瞬時ＳＮＲの和よりも大きい、請求項３２に記載のコンピュータ可読媒体。
前記少なくとも１つの外れ値帯域に基づいて前記重み付けを判断することを前記コンピュータに行わせる前記命令が、前記雑音レベル変動、前記雑音タイプ、前記外れ値帯域のロケーション、または帯域当たりの前記修正瞬時ＳＮＲ値のうちの少なくとも１つに基づいて適応重み付け関数を判断することを前記コンピュータに行わせる命令を備える、請求項３１に記載のコンピュータ可読媒体。
帯域当たりの前記ＳＮＲに前記重み付けを適用することを前記コンピュータに行わせる前記命令が、帯域当たりの前記修正瞬時ＳＮＲに前記適応重み付け関数を適用することを前記コンピュータに行わせる命令を備える、請求項３４に記載のコンピュータ可読媒体。
前記帯域にわたって前記重み付き修正瞬時ＳＮＲを加算することによって入力フレーム当たりの重み付き平均ＳＮＲを判断することと、
信号またはボイスアクティビティの存在または不在を検出するために前記重み付き平均ＳＮＲを閾値と比較することと
を前記コンピュータに行わせるコンピュータ実行可能命令をさらに備える、請求項３５に記載のコンピュータ可読媒体。
信号またはボイスアクティビティの存在または不在を検出するために前記重み付き平均ＳＮＲを閾値と比較することを前記コンピュータに行わせる前記命令が、
各帯域における前記重み付き平均ＳＮＲと前記閾値との間の差を判断することと、
各差に重みを適用することと、
前記重み付き差を合計することと、
前記追加重み付き差を別の閾値と比較することによってボイスアクティビティがあるか否かを判断することと
を前記コンピュータに行わせる命令を備える、請求項３６に記載のコンピュータ可読媒体。
前記閾値がゼロであり、前記追加重み付き差がゼロよりも大きい場合、ボイスアクティビティがあると判断し、そうでない場合、ボイスアクティビティがないと判断する、請求項３７に記載のコンピュータ可読媒体。
単調な順序で前記帯域における前記修正瞬時ＳＮＲ値をソートすることと、
前記帯域のうちのどれが前記外れ値帯域であるかを判断することと、
前記外れ値帯域に関連する前記重みをゼロに設定することによって前記適応重み付け関数を更新することと
を備える、ＳＮＲ外れ値フィルタ処理を実行することを前記コンピュータに行わせるコンピュータ実行可能命令をさらに備える、請求項３４に記載のコンピュータ可読媒体。
背景雑音の存在下でボイスアクティビティを検出するためのボイスアクティビティ検出器であって、
音の１つまたは複数の入力フレームを受信する受信機と、
前記入力フレームの各々の少なくとも１つの雑音特性を判断することと、前記雑音特性に基づいて複数の帯域を判断することとを行うプロセッサと、
前記雑音特性に基づいて帯域当たりの信号対雑音比（ＳＮＲ）値を判断するＳＮＲモジュールと、
少なくとも１つの外れ値帯域を判断する外れ値フィルタと、
前記少なくとも１つの外れ値帯域に基づいて重み付けを判断することと、帯域当たりの前記ＳＮＲに前記重み付けを適用することとを行う重み付けモジュールと、
帯域当たりの前記重み付きＳＮＲを使用してボイスアクティビティの存在または不在を検出する決定モジュールと
を備える、ボイスアクティビティ検出器。
前記外れ値フィルタがＳＮＲ外れ値フィルタ処理を実行する、請求項４０に記載のボイスアクティビティ検出器。
各雑音特性が雑音レベル変動、雑音タイプ、または瞬時ＳＮＲ値のうちの少なくとも１つを備える、請求項４０に記載のボイスアクティビティ検出器。
前記プロセッサが、前記雑音レベル変動または前記雑音タイプのうちの少なくとも１つに基づいて前記複数の帯域を判断する、請求項４２に記載のボイスアクティビティ検出器。
前記ＳＮＲ計算モジュールが、前記雑音レベル変動または前記雑音タイプのうちの少なくとも１つに基づいて帯域当たりの修正瞬時ＳＮＲ値を判断する、請求項４２に記載のボイスアクティビティ検出器。
前記ＳＮＲ計算モジュールが、
前記入力フレームの少なくとも前記瞬時ＳＮＲに基づいて帯域当たりの信号エネルギーの過去の推定値を使用して帯域当たりの信号エネルギーの現在の推定値を選択的に平滑化することと、
少なくとも前記雑音レベル変動と前記雑音タイプとに基づいて帯域当たりの雑音エネルギーの過去の推定値を使用して帯域当たりの雑音エネルギーの現在の推定値を選択的に平滑化することと、
帯域当たりの信号エネルギーの平滑化された推定値と雑音エネルギーの平滑化された推定値の比を判断することと
を行う、請求項４４に記載のボイスアクティビティ検出器。
前記帯域のうちのいずれか１つにおける修正瞬時ＳＮＲが、前記帯域の残りにおける修正瞬時ＳＮＲの和よりも大きい、請求項４５に記載のボイスアクティビティ検出器。
前記重み付けモジュールが、前記雑音レベル変動、前記雑音タイプ、前記外れ値帯域のロケーション、または帯域当たりの前記修正瞬時ＳＮＲ値のうちの少なくとも１つに基づいて適応重み付け関数を判断する、請求項４４に記載のボイスアクティビティ検出器。
前記重み付けモジュールが、帯域当たりの前記修正瞬時ＳＮＲに前記適応重み付け関数を適用する、請求項４７に記載のボイスアクティビティ検出器。
前記ＳＮＲ計算モジュールが、前記帯域にわたって前記重み付き修正瞬時ＳＮＲを加算することによって入力フレーム当たりの重み付き平均ＳＮＲを判断し、前記決定モジュールが、信号またはボイスアクティビティの存在または不在を検出するために前記重み付き平均ＳＮＲを閾値と比較する、請求項４８に記載のボイスアクティビティ検出器。
前記決定モジュールが、各帯域における前記重み付き平均ＳＮＲと前記閾値との間の差を判断することと、各差に重みを適用することと、前記重み付き差を合計することと、前記追加重み付き差を別の閾値と比較することによってボイスアクティビティがあるか否かを判断することとを行う、請求項４９に記載のボイスアクティビティ検出器。
前記閾値がゼロであり、前記追加重み付き差がゼロよりも大きい場合、前記決定モジュールが、ボイスアクティビティがあると判断し、そうでない場合、ボイスアクティビティがないと判断する、請求項５０に記載のボイスアクティビティ検出器。
前記外れ値フィルタが、単調な順序で前記帯域における前記修正瞬時ＳＮＲ値をソートすることと、前記帯域のうちのどれが前記外れ値帯域であるかを判断することと、前記外れ値帯域に関連する前記重みをゼロに設定することによって前記適応重み付け関数を更新することとを行う、請求項４７に記載のボイスアクティビティ検出器。