JP2002366174A - G.729の付属書bに準拠した音声アクティビティ検出回路を収束させるための方法 - Google Patents
G.729の付属書bに準拠した音声アクティビティ検出回路を収束させるための方法Info
- Publication number
- JP2002366174A JP2002366174A JP2002162041A JP2002162041A JP2002366174A JP 2002366174 A JP2002366174 A JP 2002366174A JP 2002162041 A JP2002162041 A JP 2002162041A JP 2002162041 A JP2002162041 A JP 2002162041A JP 2002366174 A JP2002366174 A JP 2002366174A
- Authority
- JP
- Japan
- Prior art keywords
- energy
- value
- noise
- annex
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02168—Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mobile Radio Communication Systems (AREA)
- Noise Elimination (AREA)
- Telephonic Communication Services (AREA)
Abstract
たバックグラウンドノイズ特性の発散問題を解決するこ
と 【解決手段】 ITU(国際通信連合)勧告G.729
の付属書Bの音声アクティビティ検出(VAD)デバイ
スを初期化する方法は、信号の特性を定める一組のパラ
メータを信号から抽出する工程(16)と、前記パラメ
ータの組から前記信号のエネルギー測度を計算する工程
と、前記エネルギー測度と基準値とを比較する工程(2
3)と、信号のノイズ特性の平均値に対する初期値を決
定する工程(20)と、前記エネルギー測度が前記基準
レベルに等しくなったかまたはこれを越えた回数をカウ
ントする工程(26)とを備える。
Description
クティビティ検出(VAD)デバイスによる通信チャン
ネルにおけるバックグラウンドノイズエネルギーの推定
を改善することに関する。より詳細には、本発明は平均
バックグラウンドノイズエネルギーのより良好な初期推
定値を設定し、実際の値に向けて平均バックグラウンド
ノイズエネルギーのその後のすべての推定値を収束させ
るものである。
29の付属書Bは、信号内で音声アクティビティが検出
されない時に、着信信号内の受信されたバックグラウン
ドノイズに関する情報を伝送するための圧縮方式につい
て記述している。この圧縮方式は勧告V.70を満たす
ターミナルに対しては最適となっている。本願ではこの
文書のうちのITU−T G.729および付属書Bの
内容を参考例として援用する。
ーデック)は着信信号内で音声アクティビティが検出さ
れない時の期間中に通信リンクのバックグラウンドノイ
ズをシミュレートするために合成されたコンフォート
(comfort)ノイズを使用している。バックグラウンド
ノイズを合成することによりリンクの通信チャンネルを
通して実際のバックグラウンドノイズに関する情報をほ
とんどまたは全く送る必要がなくなる。しかしながら、
バックグラウンドノイズが統計的に定常状態となってい
ない(すなわち時間と共に分布関数が変化する)場合、
シミュレートされたコンフォートノイズは最初のバック
グラウンドノイズの自然さを与えることはできない。従
って、着信信号内でスピーチ信号が検出されない時に、
合成されたノイズの品位を改善するためにバックグラウ
ンドノイズに関するある情報を時々送ることが望まし
い。着信信号のうちのデジタル化されたフレーム(すな
わち10ms部分)におけるバックグラウンドノイズの
適当な表示は音声信号を適当に表示するのに必要な数よ
りも実質的に少ない、15程度のデジタルビットで達成
できる。勧告G.729の付属書Bは着信信号内で音声
アクティビティが検出されない時にこの情報を自動的に
送信する代わりにバックグラウンドノイズフレームの先
に送信した特徴に関し、かなりの変化が検出された時に
しかバックグラウンドノイズフレームの表示を伝送しな
いことを提案している。着信信号において音声アクティ
ビティがない時に、チャンネルを通して情報がほとんど
または全く伝送されないので、この圧縮方式によりかな
りの量のチャンネルバンド幅が保存される。
た半デュプレックス通信リンクを示している。このリン
クの送信側では着信信号におけるノイズまたは音声エネ
ルギーの検出を表示するためのデジタル出力をVADモ
ジュール1が発生する。出力値「1」は音声アクティビ
ティの存在が検出されたことを示し、出力値「0」は音
声アクティビティが存在しないことを示す。VAD1が
音声アクティビティを検出した場合、検出された音声信
号のデジタル表示を符号化するのにG.729スピーチ
エンコーダ3が呼び出される。しかしながら、VAD1
が音声アクティビティを検出しない場合、検出されたバ
ックグラウンドノイズ信号のデジタル表示を符号化する
のに不連続送信/コンフォートノイズ発生器(ノイズ)
エンコーダ2が使用される。これら音声信号およびバッ
クグラウンドノイズ信号のデジタル表示7は、連続する
10msの期間中に取り込まれた着信アナログ信号のサ
ンプルからの情報を含むデータフレームにフォーマット
化される。
れたビットストリームが検査される。フレームに対する
VADフィールドが「1」の値を含む場合、デジタル表
示内に含まれる情報を使ってフレームに対するアナログ
信号を再構成するために音声デコーダ6が使用される。
フレームに対するVADフィールドが「0」の値を含む
場合、関連するエンコーダが提供する情報を使ってバッ
クグラウンドノイズを合成するのにノイズデコーダ5が
使用される。
か、ノイズを含むのかを判断するために、VAD1はフ
レーム内の情報の4つのパラメータ特性を抽出し、これ
らを分析する。これら特性としてはフルバンドノイズエ
ネルギーと、ローバンドノイズエネルギーと、ラインス
ペクトル周波数(LSF)の組と、ゼロクロスレートと
が挙げられる。現在フレームの抽出された特性とバック
グラウンドノイズ特性の継続平均値との間の測度差がフ
レーム毎に計算される。小さい差が検出された場合、現
在フレームの特性はバックグラウンドノイズに対する継
続平均値の特性との相関性が高く、現在フレームは音声
アクティビティよりもバックグラウンドノイズを含む可
能性のほうがより高い。大きな差が検出された場合、現
在フレームは差分タイプの信号、例えば音声信号を含む
可能性のほうがより高い。
ているような4つの測度差のスペースでのマルチ境界判
断領域を使って着信フレームのコンテントに関する初期
のVAD判断が行われる。その後、現在フレームの検出
されたエネルギーと隣接する過去のフレームの検出され
たエネルギーとの関係に基づき、最終VAD判断が行わ
れる。この最終判断工程は、状態遷移の回数を減らす作
用がある。
はバックグラウンドノイズが存在し、スピーチ信号が存
在しない時にしか更新されない。従って、VAD1がノ
イズアクティビティしか含まない着信フレームを識別し
た時にしか更新は行われない。着信フレームの特性は適
用型スレッショルドと比較され、次の3つの条件が満た
された場合にしか更新が行われない。
ノイズエネルギーであり、次の式を使って計算される。
あり、 Ef,avg.=平均フルバンドノイズエネルギー、 RC(1)=最初の反射係数であり、 ∈SD=現在フレームに対して測定されたスペクトル距
離とスペクトル距離の継続(running)平均値との差で
あり、0.0637の∈SDは254.6Hzに対応す
る。
次の条件に従ってノイズフレームのカウンターCnのよ
うに更新される。
自己回帰(AR)方式を使って現在フレームの分布を示
すためにバックグラウンドノイズ特性の継続平均値を更
新する。異なるパラメータに対しては異なるAR係数が
使用され、通信開始時、またはノイズ特性の大きい変化
が検出された時に、係数の異なる組が使用される。設定
されたリンクのうちの最初の32個のフレーム(すなわ
ち最初の320ms)に対し、特性を平均化することに
より、バックグラウンドノイズ特性の継続平均値が初期
化される。32個のフレームのカウントには−70dB
mよりも低いフルバンドノイズエネルギーEfを有する
フレームは含まれず、これらフレームは初期継続平均値
を得るのに使用されない。
を更新するための、上記G.729の付属書Bによって
定められた条件に基づくと、継続平均値を現在および将
来のフレームのバックグラウンドノイズ特性から実質的
に発散させるような一般的な状況が存在する。継続平均
値を更新するかどうかを決定するための条件は、継続平
均値の値に依存しているので、これらの状況が生じる。
短時間の間に発生するバックグラウンドノイズ特性の実
質的な変動は、現在のバックグラウンドノイズ特性とこ
れら特性の継続平均値によって示されるような予測され
るバックグラウンドノイズ特性との相関性を減少させ
る。相関性が発散するにつれ、VAD1はバックグラウ
ンドノイズのフレームと音声アクティビティを含むフレ
ームとを区別することがより困難となる。発散値が臨界
点に達すると、VAD1はそれ以上バックグラウンドノ
イズと音声アクティビティとを正確に区別することがで
きなくなるので、バックグラウンドノイズ特性の継続平
均値を更新しなくなる。更に、VAD1はその後のすべ
ての着信信号を音声信号として解釈し、よって音声アク
ティビティとノイズとを区別することによってバンド幅
を節約することができなくなる。
書Bに記述されているアルゴリズムに対しある変更を行
わない場合、バックグラウンドノイズ特性の継続平均値
と実際の特性とが一旦クリティカルに発散状態となる
と、VAD1は設定されたリンクの残りの期間中に、意
図したようには作動しなくなる。次のようなときに実際
のアプリケーションでは重大な発散が生じる。
よび320msよりも長い間に極めて低レベルの信号を
受信した時。 2.VADがチャンネルリンクの開始時および320m
sよりも長い間に、その後の信号を表示しない信号を受
信した時。 3.バックグラウンドノイズの特性が急激に変化した
時。
特性の継続平均を含むベクトルはすべてゼロで初期化さ
れる。第2の状況では、ベクトルは実際のバックグラウ
ンドノイズ特性から除かれた値を含む。第3の状況で
は、スペクトル距離の差、すなわち∈SDが0.063
7よりも小さくなることはない。VAD1が通信チャン
ネル4を通してノイズの伝達に大幅にリソースを割り当
てるにつれ、VAD1はそれに比例してチャンネル4の
効率を低下させる。非効率的な通信チャンネルは高価に
つくので、本発明はこれら欠陥を克服せんとするもので
ある。
ノイズの特徴を定めるのに使用されるパラメータの記述
について説明する。着信信号のうちの10ms部分を示
す情報のフレームから抽出される自己相関係数の組を次
の式で表示するものとする。
一組のラインスペクトル周波数が誘導され、これは次の
式で示される。
Efは次の式によって得られる。
ある。ゼロからある周波数の上限F 1までの周波数スペ
クトルの間で測定される低バンドエネルギーは次の式に
よって得られる。
を有するFIRフィルタのインパルス応答であり、Rは
各対角線上に自己相関係数を有するテプリッツ(Toepli
tz)自己相関マトリックスである。
示される。
力信号である。
avg}と示されるバックグラウンドノイズの平均スペク
トルパラメータはフレームのラインスペクトル周波数の
平均値として初期化され、ZCavgと示されるバックグ
ラウンドノイズゼロクロスレートの平均値はフレームの
ゼロクロスレートの平均値ZCとして初期化される。E
f,avgと示されるフルバンドのバックグラウンドノイズ
エネルギーの継続平均値およびEl,avgと示されるバッ
クグラウンドノイズの低レベルエネルギーは次のように
初期化される。初期化方法はまず最初の32個のフレー
ムに対するフレームエネルギーの平均値EfをEn,avgに
置換する。これら3つのパラメータ{LSFavg}、Z
CavgおよびEn,avgは−70dBmより大きいエネルギ
ー、すなわちEfを有するフレームしか含まない。その
後、初期化方法は次のようにパラメータを設定する。
エネルギーパラメータEminを最小値Efとして計算す
る。
ウンドノイズパラメータの継続平均値との差から4つの
差の値が発生される。現在フレーム
の差の平方の和として、スペクトル歪の差の値が発生さ
れ、この値は次の式によって表示できる。
示される。
ネルギーである。
される。
ネルギーである。
式で示される。
レートである。
属書Bに準拠した通信では問題が生じるので、この問題
に対する解決案はこれら条件から逸脱することなく、勧
告を改善しなければならない。これを行うためのキー
は、バックグラウンドノイズパラメータを更新するため
の条件を、更新されたパラメータの値から独立させるこ
とである。この解決案は次のことから成る。
されたバックグラウンドノイズ特性を更新し、(b)初
期化期間の終了を決定するのに使用されるフレームカウ
ントに貢献することから極めて低いレベル、例えば−7
0dBmより低いレベルを有するすべてのフレームを除
く工程。 2.上記工程(1)の条件を満たすすべてのフレームに
対し、バックグラウンドノイズ特性を平均する補助バッ
クグラウンドノイズ識別アルゴリズムを提供する工程。 3.G.729の付属書Bに記載された方法を使って得
られた平均バックグラウンドノイズ特性と補助アルゴリ
ズムを使って得られた平均バックグラウンドノイズ特性
とを比較する工程。 4.G.729の付属書Bの方法を使って得られたバッ
クグラウンドノイズ特性と補助アルゴリズムを使って得
られたバックグラウンドノイズ特性の2つの組が実質的
に発散した時に、G.729の付属書Bの方法を使って
得られたバックグラウンドノイズ特性を補助アルゴリズ
ムを使用して得られたバックグラウンドノイズ特性に置
換する工程。
ズエネルギーと音声エネルギーの領域の間のマージンを
維持するのに使用される2つのスレッショルドを設定す
る。一方のスレッショルドはノイズエネルギーの上方の
境界を識別し、他方のスレッショルドは音声エネルギー
の下方の境界を識別する。現在フレームのブロックエネ
ルギーがノイズエネルギースレッショルドよりも小さい
場合、現在フレームの信号から抽出されたパラメータを
使って補助アルゴリズムのための予想バックグラウンド
ノイズの特性を定める。現在フレームのエネルギーが音
声スレッショルドよりも大であれば、現在フレームの信
号から抽出したパラメータを使って補助アルゴリズムに
対する現在の音声エネルギーの特性を定める。補助アル
ゴリズムのためのバックグラウンドノイズまたはノイズ
エネルギースレッショルドおよび音声エネルギースレッ
ショルドの特性を更新するのに、ノイズスレッショルド
と音声スレッショルドとの間にあるブロックエネルギー
は使用しない。
のスレッショルドレベルの間のエネルギー範囲外にある
時の、ノイズエネルギースレッショルドおよび音声エネ
ルギースレッショルドの特性とブロックエネルギーがノ
イズスレッショルド以下の時にバックグラウンドノイズ
の継続平均値の双方を更新するために、補助アルゴリズ
ムが使用される。G.729の付属書Bのアルゴリズム
を通して得られるよりもバックグラウンドノイズ特性の
継続平均値をより頻繁な更新をサポートするようにノイ
ズスレッショルドおよび音声スレッショルドが決定され
るので、補助アルゴリズムの継続平均値が次のフレーム
に対するバックグラウンドノイズ特性の予想値を表す可
能性のほうがより高い。G.729の付属書Bのアルゴ
リズムによるバックグラウンドノイズの特性決定を、補
助アルゴリズムによるバックグラウンドノイズの特性決
定に置換することにより、ノイズエネルギーの推定値と
音声エネルギーの推定値との結合を外し、発散が生じた
ときにこれらをG.729の付属書Bの特性決定から独
立したものにすることができる。ノイズスレッショルド
と音声スレッショルドの双方は1回の更新期間中の最小
ブロックエネルギーおよび最大ブロックエネルギーに基
づくものであり、1.28秒ごとに更新される。
施例について説明する。
信チャンネルの入力端におけるバックグラウンドノイズ
エネルギー8および音声エネルギー9に対する代表的な
確率分布関数を示す。この図では、水平軸12はエネル
ギーレベルの領域を示し、垂直軸13はプロットされた
関数8、9に対する確率密度範囲を示す。バックグラウ
ンドノイズだけを含む可能性のあるエネルギー領域の上
の境界をマークするために、ダイナミックノイズスレッ
ショルド10を数学的に決定し、これを使用する。同じ
ように、音声エネルギーを含む可能性のあるエネルギー
領域の下方の境界をマークするためにダイナミック音声
スレッショルド11を数学的に決定し、これを使用す
る。これらダイナミックスレッショルド10、11は、
確率分布関数が設定される時間θの間、ノイズエネルギ
ー確率分布関数8および音声エネルギー確率分布関数9
に従って変化する。
の間のノイズスレッショルド10および音声スレッショ
ルド11を決定するための補助アルゴリズムを使用す
る。この期間は長さが1.28秒であることが好ましい
ので、ノイズスレッショルドおよび音声スレッショルド
は1.28秒ごとに更新される。次のようにノイズスレ
ッショルド10および音声スレッショルド11を更新す
るのに補助アルゴリズムが使用される。
最大ブロックエネルギーとし、Emin=現在の更新期間
θp中に測定される最小ブロックエネルギーとし、T1=
Emin+(Emax−Emin)/32とし、T2=4×Emin
とする。
ドTnoiseおよび音声エネルギースレッショルドTvoice
を計算する。
の値T1とT2のうちの小さい方を決定することにより、
現在の更新期間θpの間にTnoiseを計算する。T1とT2
のうちの小さい方の値に2を掛け、その積と−21dB
mの値とを比較する。最後に−21dBmと前の文章で
説明した積のうちの小さい方の値を現在の更新期間θ p
中のノイズスレッショルドを識別するパラメータとして
指定する。
2つの値T1とT2のうちの大きい方を決定することによ
り、現在の更新期間θpにおいてTvoiceを計算する。T
1とT2のうちの大きい方の値に∀の値を掛け、その積と
−65dBmの値とを比較する。次に−60dBmと先
の文章で説明した積のうちの大きい方の値と−17dB
mの値とを比較し、現在の更新期間θpにおける音声ス
レッショルドを識別するパラメータとしてこれら2つの
値のうちの小さい方の値を指定する。
voice(2)、Evoice(3)、....、E
voice(j)}および{Enoise(1)、E
noise(2)、Enoise(3)、....、E
noise(j)}(ここで、jは更新期間における最大の
値のブロックインデックスである)から各更新期間θに
おけるノイズ確率分布関数および音声確率分布関数を決
定できる。これら組の値は次の式を使って計算される。
レッショルドおよび音声エネルギースレッショルドを更
新する他に、補助アルゴリズムは2つのスレッショルド
とデジタル化された信号の各着信フレームのうちのブロ
ックエネルギーとを比較し、補助バックグラウンドノイ
ズ特性の継続平均値をいつ更新するかを判断する。現在
フレームのブロックエネルギーがノイズスレッショルド
よりも低下したときはいつも、補助バックグラウンドノ
イズ特性の継続平均値を更新する。現在フレームのブロ
ックエネルギーが音声スレッショルドを越える時はいつ
も、音声エネルギーレベルの特性を更新する。スレッシ
ョルドに等しいか、または2つのスレッショルドの間に
あるブロックエネルギーを有するフレームは、補助バッ
クグラウンドノイズ特性の継続平均値または音声エネル
ギー特性のいずれかを更新するのに使用しない。
ムであるG.729の付属書BのVADアルゴリズムと
共に作動する。本明細書の発明が解決しようとする課題
の欄に記載したように、この基本VADアルゴリズムは
着信フレームの特性と適応型スレッショルドとを比較す
る。次の3つの条件が満たされた場合にしか基本バック
グラウンドノイズ特性の更新を行わない。
対するバックグラウンドノイズ特性の継続平均値は基本
アルゴリズムよりもより頻繁に更新されることになる。
従って、補助アルゴリズムのバックグラウンドノイズ特
性の継続平均値のほうがバックグラウンドノイズの次の
着信フレームに対する実際の特性を示す可能性が高い。
ウンドノイズ特性の継続平均値に対する更新を生じさせ
ない、連続する着信フレームのカウント数が維持され
る。このカウント数が臨界値に達すると、基本バックグ
ラウンドノイズ特性の継続平均値が実際の現在の値から
実質的に発散し、G.729の付属書Bのアルゴリズム
を使った再収束を単独で行うことはできなくなる。しか
しながら、補助バックグラウンドノイズ特性の継続平均
値を基本バックグラウンドノイズ特性の継続平均値に置
換することによって収束を設定できる。
ズムの情報に相補的な情報を提供する。この情報はバッ
クグラウンドノイズ特性の期待値と実際の現在の値との
収束を維持するのに使用される。更に、補助アルゴリズ
ムは極端に低振幅の信号が初期化期間中にバックグラウ
ンドノイズ特性の継続平均値にバイアスをかけるのを防
止する。変則的なバイアスを解消することにより、補助
アルゴリズムは基本バックグラウンドノイズ特性の初期
の継続平均値を実際の値に向けて良好に収束させる。
9の付属書Bと補助VADアルゴリズムの相補的な特徴
について更に詳細に説明する。2つのVADアルゴリズ
ムはパラレルに実行される別個のエンティティであるこ
とが好ましいが、これらは図解および説明を容易にする
ために図3および4では統合されたプロセス14として
示されている。
14がスタートされる(15)。リンクの送信側のマイ
クロフォンで受信される音響アナログ信号はトランスジ
ューサによって電気的アナログ信号に変換される。これ
ら電気アナログ信号はアナログ−デジタル(A/Dコン
バータ)によってサンプリングされ、サンプリングされ
た信号は多数のデジタルビットによって表示される。サ
ンプリングされた信号のデジタル化された表示はデジタ
ルビットから成るフレームに変換される。各フレームは
元の音響信号の連続する10msの部分のデジタル表示
を含む。マイクロフォンは話し手の音声またはバックグ
ラウンドノイズのいずれかを連続して受信するので、
G.729の付属書BのVADおよび補助VADによ
り、10msのフレームがシリアル状に連続して受信さ
れる。
含まれる情報から元の音響信号の特性を定める一組のパ
ラメータが抽出される。これらパラメータは勧告G.7
29に従って誘導され、次の式で示される自己相関係数
である。
記述されているような最小バッファへの更新が実行され
る(17)。
たかどうかを判断するため、参照番号18が示すよう
に、フレームカウントと値32との比較が行われる。フ
レームカウントの最後の初期化以来、−70dBm以上
のフルバンドエネルギーを有するG.729の付属書B
のVADが受信したフレーム数が32未満であれば、統
合プロセス14は参照番号23〜25および27で示さ
れるノイズ特性初期化プロセスを実行する。
ズが極端に低いレベルとなる期間が生じることが時々あ
り得る。バックグラウンドノイズのこのような変則的な
期間がノイズ特性の初期平均化にネガティブなバイアス
を掛けるのを防止するために、統合プロセス14は着信
フレームをフィルタリングする。参照番号23が示すよ
うに、現在フレームのフルバンドエネルギーと−70d
Bmの基準レベルとの比較が行われる。現在フレームの
エネルギーが基準レベル以上であれば、参照番号24が
示し、勧告G.729の付属書Bが記述するように、初
期平均フレームエネルギーEn,avg、平均ゼロクロスレ
ートZCavgおよび平均ラインスペクトル周波数LSM
i,avgに対する更新が行われる。その後、G.729の
付属書BのVADは参照番号25が示すように、現在フ
レームにおける音声アクティビティの存在が検出された
ことを示すために出力を「1」にセットし、フレームカ
ウントを「1」の値だけインクリメントする(26)。
現在フレームのエネルギーは基準レベル未満であれば、
参照番号27が示すように、現在フレームにおいて音声
アクティビティが検出されないことを示すためにG.7
29の付属書BのVADはその出力を「0」にセットす
る。G.729の付属書BのVADが音声アクティビテ
ィの存在に関する判断を行った(25、27)後に、統
合プロセス14は最大および最小フレームエネルギーの
値を抽出して続行する。
を有する受信された各フレームに対し、フレームカウン
トは「1」の値だけインクリメントされる。参照番号1
9が示す比較によって決定されるように、フレームカウ
ントが32に等しいときに、統合プロセス14は参照番
号20が示す、勧告G.729の付属書Bが記述するよ
うに、低バンドノイズエネルギーの継続平均値El,avg
とフルバンドエネルギーの継続平均値Ef,avgとを初期
化する。
レームのバックグラウンドノイズ特性とこれらノイズ特
性の継続平均値との間の差の値が発生される。このプロ
セスの工程はフレームカウントが32である時、低バン
ドエネルギーおよびフルバンドエネルギーの継続平均値
を初期化した後に実行されるが、フレームカウントが3
2を越える時は、参照番号19が示すフレームカウント
の比較後に直接実行される。勧告G.729の付属書B
はG.729の付属書BのVADおよび補助VADの双
方が使用する差分パラメータを発生するための方法につ
いて記述している。差分パラメータが発生された後に、
参照番号22が示すように現在フレームのフルバンドエ
ネルギーと−70dBmの基準値とが比較される。
ルバンドエネルギーが基準値以上であれば、マルチ境界
の初期のG.729の付属書BのVAD判断が行われ
る。基準値が現在フレームのフルバンドエネルギーを越
えていれば、現在フレーム内で検出された音声アクティ
ビティがないことを表示するために、初期のG.729
の付属書BのVAD判断はゼロ出力を発生する(2
9)。指定された初期値に係わらず、G.729の付属
書BのVADは参照番号30が示し、勧告G.729の
付属書Bに記述されるように音声信号の長期定常特性を
表すために初期判断を改善する。
判断に関し、初期VAD判断がスムーズにされた後に、
統合プロセスは参照番号31が示すように現在フレーム
のノイズ特性によってバックグラウンドノイズエネルギ
ースレッショルドが満たされたかどうかの判断を行う。
G.729の付属書BのVADによって着信フレームの
特性と適応性スレッショルドとが比較され、次の3つの
条件が満たされた場合に限り、G.729の付属書Bの
ノイズ特性の継続平均値に対する更新が行われる(3
2)。
離とスペクトル距離の継続平均値との差であり、0.0
637の∈SDは254.6Hzに対応している。更
に、次の条件に従ってフルバンドノイズエネルギーEf
を更にカウンターCnのように更新する。
ビティしか含まないフレームが検出されると、一次の自
己回帰方式を使って現在フレームの分布を示すように、
G.729の付属書Bのバックグラウンドノイズ特性の
継続平均値が更新される(32)。
バンドエネルギーを測定する。1.28秒の時間iごと
に最大および最小フルバンドエネルギーを識別し(3
3)、次の時間i+1の間にノイズスレッショルドを発
生する(34)。次の時間の間にノイズスレッショルド
Tnoise,i+1を発生するために、期間iの間に最大フル
バンドエネルギーEmaxおよび最小フルバンドエネルギ
ーEminを識別するこのプロセスは、次の条件のいずれ
かが満たされた時に実行される。
G.729の付属書BのVAD出力判断を行う場合。 2.参照番号31が識別する工程で決定されるように、
G.729の付属書Bのバックグラウンドノイズエネル
ギーのスレッショルドが満たされない場合。 3.参照番号32が示すように、G.729の付属書B
のバックグラウンドノイズ特性の継続平均値の更新が行
われる場合。 最初の時間iの間のTnoise,iの値は−55dBmに初
期化される。その後のすべての期間のiの間で補助アル
ゴリズムは次のようにノイズスレッショルドを発生する
(10)。
エネルギー、 Emin=現在更新期間θpの間に測定される最小ブロック
エネルギーである。
レームのフルバンドエネルギーは−70dBmの基準お
よび補助VADアルゴリズムが発生するノイズスレッシ
ョルドTnoise(10)と比較される。現在フレームの
フルバンドエネルギーが基準レベル以上である場合、お
よびノイズスレッショルド10、すなわちTnoise以下
である場合、補助VADアルゴリズムが発生するバック
グラウンドノイズ特性の継続平均値はG.729の付属
書BのVADに対して記述された自己回帰アルゴリズム
を使って更新される。この更新は、参照番号36により
統合プロセスのフローチャート14内に示されている。
において、現在フレームに対して否定的な判断がされた
場合、参照番号37が示すようなノイズスレッショルド
10を更新するかどうかの判断がなされる。ノイズスレ
ッショルド10に対する最終更新以来、約1.28秒が
経過していれば、参照番号38が示すように、先の期間
中に測定される最高フルバンドエネルギーレベルおよび
最低フルバンドエネルギーレベルに基づき、ノイズスレ
ッショルドが更新される。
G.729の付属書BのVADアルゴリズムと補助VA
Dアルゴリズムによって維持されるバックグラウンドノ
イズ特性の継続平均値を比較するかどうかの判断がなさ
れる。別個のVADアルゴリズムのノイズ特性を比較す
るとの判断は経過した時間、特定の数の経過フレームま
たは他の同様な尺度に基づいて行うことができる。好ま
しい実施例では、参照番号31が示すG.729の付属
書Bの更新条件が満たされなくても統合プロセス14に
よって受信された連続するフレームの数をカウントする
のにカウンターが使用される。
のVADアルゴリズムと補助VADアルゴリズムを使っ
て発生されたバックグラウンドノイズ特性の継続平均値
の間の発散の臨界点を最適に識別する連続フレームの特
定の数に達すると、これら2つの組の特性の間の比較が
なされる。この2つの組のノイズ特性の比較は参照番号
40で示されるプロセスステップで行われる。G.72
9の付属書BのVADアルゴリズムと補助VADアルゴ
リズムを使って計算されたバックグラウンドノイズ特性
の継続平均値が発散している場合、G.729の付属書
Bのアルゴリズムが発生したこれら特性のそれぞれの値
の代わりに補助VADアルゴリズムを発生したこれら特
性の値に置換される。この置換は参照番号41が示すス
テップで行われる。
場合、参照番号42が示すように、リンクが終了し、そ
れ以上作用するフレームがないかどうかの判断がなされ
る。
て、G.729の付属書BのVADアルゴリズムと補助
VADアルゴリズムに発生されたバックグラウンドノイ
ズ特性の継続平均値を比較するための最適時間に到達し
たかどうかに関して否定的な判断がなされた場合。 2.参照番号40が示すステップにおいて、G.729
の付属書BのVADアルゴリズムと補助VADアルゴリ
ズムに発生されたバックグラウンドノイズ特性の継続平
均値が発散したかどうかに関して否定的な判断がなされ
た場合。 3.参照番号41が示すステップにおいて、G.729
の付属書Bのアルゴリズムからのバックグラウンドノイ
ズ特性の継続平均値が補助アルゴリズムからのバックグ
ラウンドノイズ特性のそれぞれの継続平均値に置換され
た場合。
ムによってリンクの最終フレームが受信された場合、参
照番号43が示すように、統合プロセス14が終了され
る。受信されない場合、統合プロセス14は参照番号1
6が示すように、次に順次受信されたフレームから特性
パラメータを抽出する。
テスト信号48はG.729の付属書Bの通信リンクへ
与えられる。G.729の付属書BのVADは着信テス
ト信号58に応答して出力信号45を発生する。グラフ
46の水平軸は時間を単位とし、グラフ47の水平軸は
経過したフレームを単位とする。双方のグラフの垂直軸
は振幅を単位とする。VAD出力信号45に対する
「1」の振幅の値は、水平軸に沿った対応する値が示す
フレーム内に音声アクティビティが存在することが検出
されたことを示す。VAD出力45における振幅値
「0」は水平軸に沿った対応する値によって識別される
フレーム内で検出される音声アクティビティがないこと
を示す。
るグラフ46のテスト信号44を示す。低レベルの信号
54はG.729の付属書Bによりデジタルに符号化さ
れた信号からの640個の連続するゼロのアナログ表示
によって発生される。これと共に、テスト信号44と6
40個のゼロのアナログ表示はグラフ51におけるテス
ト信号48を形成する。グラフ52はテスト信号48に
対するG.729の付属書BのVAD応答49を示し、
同様に、グラフ53はテスト信号48に対する補助VA
Dアルゴリズムの応答50を示す。ある数の初期化フレ
ームが経過した後に、G.729の付属書BのVADア
ルゴリズムは着信するすべてのフレームを音声フレーム
として識別することに留意されたい。G.729の付属
書BのVADは320msよりも長い間、チャンネルリ
ンクの発生時に極めて低いレベルの信号54を受信して
いるので、バックグラウンドノイズのVADの特性決定
は予想された特性からクリティカルに発散している。こ
の結果、設定されたリンクの残りの時間にはG.729
の付属書BのVADは意図するようには作動しない。補
助VADアルゴリズムは結合された信号48におけるテ
スト信号44に先行する低レベル信号54の効果を無視
する。従って、変則的なノイズ信号は予想された特性か
ら離れたバックグラウンドノイズの補助VADによる特
性決定にバイアスを掛けない。グラフ53における信号
44に対する補助VAD応答はグラフ47における信号
44に対するG.729の付属書BのVAD応答と同一
またはほぼ同一であることを指摘したい。
クに提供される、グラフ58における会話テスト信号5
5を示す。グラフ59は標準G.729の付属書BのV
ADによるテスト信号55に対する応答56を示し、グ
ラフ60はテスト信号55に対する補助VADの応答5
7を示す。補助VAD応答と標準G.729の付属書B
の応答とを比較すると、補助VAD応答のほうがバンド
幅の節約および再生される音声の品位の点で性能がより
良好であることが判る。
クに提供される、別の会話テスト信号61を示す。グラ
フ64は標準G.729の付属書BのVADによるテス
ト信号61に対する応答48を示し、グラフ65はテス
ト信号61に対する補助VADの応答63を示す。補助
VAD応答と標準G.729の付属書Bの応答とを比較
すると、補助VAD応答のほうが後者のG.729の付
属書Bの応答よりも識別されるノイズフレームが5%多
いことが判る。従って、補助VADアルゴリズムは現在
フレームの予想特性と共により良好に収束することが判
る。
くの種々の異なる実施例が可能であり、法律上の説明上
の要件に従って詳細に本明細書に示した実施例におい
て、多数の変更を行うことができるので、本明細書に示
した細部は単に説明のものであり、発明を限定するもの
でないと理解すべきである。
する。 (1) 信号の特性を定める一組のパラメータを信号か
ら抽出する工程と、前記パラメータの組から前記信号の
エネルギー測度を計算する工程と、前記エネルギー測度
と基準値とを比較する工程と、前記エネルギー測度が前
記基準レベルに等しくなったか、またはこれを越えた回
数をカウントする工程とを備えた、ITU(国際電気通
信連合)勧告G.729の付属書Bの音声アクティビテ
ィ検出(VAD)デバイスを初期化する方法。
ム内の前記信号のデジタル表示から前記信号の特性を決
定するパラメータの組を抽出することを含み、前記パラ
メータが前記勧告G.729に従って誘導される自己相
関係数であり、前記自己相関係数のうちの第1自己相関
係数R(0)を240の定数値で割ることにより得られ
る商の10を底とする対数に10倍の値を掛けることに
よりフルバンドフレームエネルギーを計算することによ
って前記エネルギー測度を計算し、前記エネルギーと前
記基準値との前記比較が前記フルバンドフレームエネル
ギーの基準レベルとの比較を含み、前記フルバンドエネ
ルギーが前記基準レベルに等しいか、またはそれを越え
た場合に限り、前記カウント工程が前記初期化中にフレ
ームカウンターの値を変更することを含み、前記勧告
G.729の付属書Bに従ってノイズ特性の平均値に対
する初期値を更新する工程を更に備えた、ITU勧告
G.729の付属書Bの音声アクティビティ検出(VA
D)を初期化するための、第1項記載の方法。
定する工程と、信号の所定のエネルギー測度と前記ノイ
ズスレッショルド値とを比較する工程と、前記エネルギ
ー測度が前記ノイズスレッショルドよりも低くなったと
きに、前記数のエネルギー測度の平均値を示す第1の値
を決定する工程を備え、前記第1の値を決定するのに前
記ノイズスレッショルド値よりも低い値を有する、前記
数のエネルギー測度のうちのエネルギー測度しか使用し
ないようになっており、前記数のエネルギー測度の平均
値を示す第2の値を決定する工程と、前記第1の値と第
2の値との間の発散が時間と共に増加した時に、前記第
2の値を前記第1の値に置換する工程を備えた、ITU
勧告G.729の付属書Bの音声アクティビティ検出
(VAD)デバイスを収束させる方法。
値を前記第1の値に置換する工程を更に含む、第3項記
載の方法。
する工程と、前記数のエネルギー測度のうちの前記エネ
ルギー測度が前記高いスレッショルド基準値に等しくな
るか、またはこれを越えた連続する回数をカウントする
工程とを備え、前記高いスレッショルド基準値よりも低
い値を有する前記数のエネルギー測度のうちのエネルギ
ー測度だけを使って前記第2の値を決定し、前記数のエ
ネルギー測度のうちの前記エネルギー測度が所定の連続
する回数だけ前記基準値に等しくなるか、またはこれを
越えたときに、前記第2の値を前記第1の値に置換する
ようになっている、第3項記載の方法。
する工程と、信号の所定の数のエネルギー測度と前記ノ
イズスレショルド値を比較する工程と、前記信号の現在
のスペクトル状態と前記信号の所定の数の先のスペクト
ル状態の平均値を示す値との間のスペクトル距離差を決
定する工程と、前記エネルギー測度が前記ノイズスレッ
ショルドよりも小さくなった時に、前記信号のノイズ特
性の平均値を示す第1の組の値を更新する工程と、前記
エネルギー測度が基準レベルよりも小さくなり、前記ス
レッショルド距離差が約0.0637よりも小さい値を
有する時に、前記信号のノイズ特性の平均値を示す第2
の組の値を更新する工程と、特定の事象が生じたときに
前記第2の値を前記第1の値に置換する工程とを備え
た、ITU勧告G.729の付属書Bの音声アクティビ
ティ検出(VAD)デバイスを収束させる方法。
前記エネルギー測度が前記基準値に等しくなるか、また
はこれを越えた連続する回数をカウントする工程と、前
記数のエネルギー測度のうちの前記エネルギー測度が所
定の連続する回数だけ前記基準値に等しくなるか、また
はこれを越えた時に前記第2の値を前記第1の値に置換
する工程とを更に備えた、第6項記載の方法。
記更新期間θp中に生じた最大ブロックエネルギーを測
定し、前記測定された最大ブロックエネルギーをEmax
と指定する工程と、前記更新期間θp中に生じた最小ブ
ロックエネルギーを測定し、前記測定された最小ブロッ
クエネルギーをEminと指定する工程と、式T1=Emin
+(Emax−Emin)/32で示されるT1の値を計算す
る工程と、式T2=4×Eminで示されるT2の値を計算
する工程と、2つの値T1とT2のうちの小さい方の値を
決定する工程と、T1とT2のうちの前記小さい方の値に
2を掛け、積を得る工程と、前記積と−21dBmの値
とを比較する工程と、−20dBmと前記積とのうちの
小さい方の値を前記更新期間θpにおける前記ノイズス
レッショルドと指定する工程とを更に備えた、第6項記
載の方法。
ックエネルギーを測定し、前記測定された最大ブロック
エネルギーをEmaxと指定する工程と、前記更新期間θp
中に生じた最小ブロックエネルギーを測定し、前記測定
された最小ブロックエネルギーをEminと指定する工程
と、式T1=Emin+(Emax−Emin)/32で示される
T1の値を計算する工程と、式T2=4×Eminで示され
るT2の値を計算する工程と、2つの値T1とT2のうち
の小さい方の値を決定する工程と、T1とT2のうちの前
記小さい方の値に2を掛け、積を得る工程と、前記積と
−21dBmの値とを比較する工程と、信号のある数の
エネルギー測度と前記ノイズスレショルド値を比較する
工程と、前記信号の現在のスペクトル状態と前記信号の
所定の数の先のスペクトル状態の平均値を示す値との間
のスペクトル距離差を決定する工程と、前記エネルギー
測度が前記ノイズスレッショルドよりも小さくなった時
に、前記信号のノイズ特性の平均値を示す第1の組の値
を更新する工程と、前記エネルギー測度が基準レベルよ
りも小さくなり、前記スレッショルド距離差は約0.0
637よりも小さい値を有する時に、前記信号のノイズ
特性の平均値を示す第2の組の値を更新する工程と、前
記数のエネルギー測度のうちの前記エネルギー測度が前
記基準値に等しくなるか、またはこれを越えた連続する
回数をカウントする工程と、前記数のエネルギー測度の
うちの前記エネルギー測度が所定の連続する回数だけ前
記基準値に等しくなるか、またはこれを越えた時に前記
第2の値を前記第1の値に置換する工程とを更に備え
た、ITU勧告G.729の付属書Bの音声アクティビ
ティ検出(VAD)デバイスを収束させる方法。
とに前記ノイズスレッショルド値を更新する工程を更に
備えた、第9項記載の方法。
メータを信号から抽出する工程(16)と、前記パラメ
ータの組から前記信号のエネルギー測度を計算する工程
と、前記エネルギー測度と基準値とを比較する工程(2
3)と、信号のノイズ特性の平均値に対する初期値を決
定する工程(20)と、前記エネルギー測度が前記基準
レベルに等しくなったかまたはこれを越えた回数をカウ
ントする工程(26)とを備えた、ITU(国際通信連
合)勧告G.729の付属書Bの音声アクティビティ検
出(VAD)デバイスを初期化する方法が開示されてい
る。ノイズ識別スレッショルド値を決定する工程(2
8)と、信号の所定のエネルギー測度と前記ノイズスレ
ッショルド値とを比較する工程(31)と、前記エネル
ギー測度が前記ノイズスレッショルドよりも低くなった
ときに、前記数のエネルギー測度の平均値を示す第1の
値を決定する工程を備え、前記第1の値を決定するのに
前記ノイズスレッショルド値よりも低い値を有する、前
記数のエネルギー測度のうちのエネルギー測度しか使用
しないようになっており(32)、前記数のエネルギー
測度の平均値を示す第2の値を決定する工程(36)
と、前記第1の値と第2の値との間の発散を示す特定の
事象が生じた時に、前記第2の値を前記第1の値に置換
する工程(41)を備えた、ITU勧告G.729の付
属書Bの音声アクティビティ検出(VAD)デバイスを
収束する方法も開示されている。
レックス通信リンクを示す。
端におけるバックグラウンドノイズエネルギーおよび音
声エネルギーに対する代表的な確率分布関数を示す。
ゴリズムと補助VADアルゴリズムのためのプロセスフ
ローを示す。
る話し手の音声を示すテスト信号およびこの入力信号に
対するG.729の付属書BのVAD応答を示す。
み合わされたテスト信号に対するG.729の付属書B
のVAD応答および組み合わされテスト信号に対する補
助VADの応答を示す。
る会話テスト信号、標準G.729の付属書BのVAD
によるテスト信号に対する応答、およびテスト信号に対
する補助VADの応答を示す。
る第2の会話テスト信号、標準G.729の付属書Bの
VADによるテスト信号に対する応答、およびテスト信
号に対する補助VADの応答を示す。
Claims (1)
- 【請求項1】 信号の特性を定める一組のパラメータを
信号から抽出する工程と、 前記パラメータの組から前記信号のエネルギー測度を計
算する工程と、 前記エネルギー測度と基準値とを比較する工程と、 前記エネルギー測度が前記基準レベルに等しくなった
か、またはこれを越えた回数をカウントする工程とを備
えた、ITU(国際電気通信連合)勧告G.729の付
属書Bの音声アクティビティ検出(VAD)デバイスを
初期化する方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US871779 | 2001-06-01 | ||
US09/871,779 US7031916B2 (en) | 2001-06-01 | 2001-06-01 | Method for converging a G.729 Annex B compliant voice activity detection circuit |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002366174A true JP2002366174A (ja) | 2002-12-20 |
Family
ID=25358107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002162041A Pending JP2002366174A (ja) | 2001-06-01 | 2002-06-03 | G.729の付属書bに準拠した音声アクティビティ検出回路を収束させるための方法 |
Country Status (3)
Country | Link |
---|---|
US (2) | US7031916B2 (ja) |
EP (1) | EP1265224A1 (ja) |
JP (1) | JP2002366174A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010529494A (ja) * | 2007-06-07 | 2010-08-26 | 華為技術有限公司 | 音声活動を検出するための装置および方法 |
JP2013508773A (ja) * | 2009-10-19 | 2013-03-07 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 音声エンコーダの方法およびボイス活動検出器 |
Families Citing this family (121)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7236929B2 (en) * | 2001-05-09 | 2007-06-26 | Plantronics, Inc. | Echo suppression and speech detection techniques for telephony applications |
US7386447B2 (en) * | 2001-11-02 | 2008-06-10 | Texas Instruments Incorporated | Speech coder and method |
JP3963850B2 (ja) * | 2003-03-11 | 2007-08-22 | 富士通株式会社 | 音声区間検出装置 |
US7313233B2 (en) * | 2003-06-10 | 2007-12-25 | Intel Corporation | Tone clamping and replacement |
US7596488B2 (en) * | 2003-09-15 | 2009-09-29 | Microsoft Corporation | System and method for real-time jitter control and packet-loss concealment in an audio signal |
US7412376B2 (en) * | 2003-09-10 | 2008-08-12 | Microsoft Corporation | System and method for real-time detection and preservation of speech onset in a signal |
US7318030B2 (en) * | 2003-09-17 | 2008-01-08 | Intel Corporation | Method and apparatus to perform voice activity detection |
JP4739219B2 (ja) * | 2003-10-16 | 2011-08-03 | エヌエックスピー ビー ヴィ | 適応ノイズ下限トラッキングを伴う音声動作検出 |
GB0408856D0 (en) * | 2004-04-21 | 2004-05-26 | Nokia Corp | Signal encoding |
JP4381291B2 (ja) * | 2004-12-08 | 2009-12-09 | アルパイン株式会社 | 車載用オーディオ装置 |
US8102872B2 (en) * | 2005-02-01 | 2012-01-24 | Qualcomm Incorporated | Method for discontinuous transmission and accurate reproduction of background noise information |
US7231348B1 (en) * | 2005-03-24 | 2007-06-12 | Mindspeed Technologies, Inc. | Tone detection algorithm for a voice activity detector |
WO2006104555A2 (en) * | 2005-03-24 | 2006-10-05 | Mindspeed Technologies, Inc. | Adaptive noise state update for a voice activity detector |
CA2612903C (en) * | 2005-06-20 | 2015-04-21 | Telecom Italia S.P.A. | Method and apparatus for transmitting speech data to a remote device in a distributed speech recognition system |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8775168B2 (en) * | 2006-08-10 | 2014-07-08 | Stmicroelectronics Asia Pacific Pte, Ltd. | Yule walker based low-complexity voice activity detector in noise suppression systems |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
TW200849891A (en) * | 2007-06-04 | 2008-12-16 | Alcor Micro Corp | Method and system for assessing the statuses of channels |
CN101335000B (zh) * | 2008-03-26 | 2010-04-21 | 华为技术有限公司 | 编码的方法及装置 |
US8428632B2 (en) * | 2008-03-31 | 2013-04-23 | Motorola Solutions, Inc. | Dynamic allocation of spectrum sensing resources in cognitive radio networks |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US9142221B2 (en) * | 2008-04-07 | 2015-09-22 | Cambridge Silicon Radio Limited | Noise reduction |
US8140017B2 (en) * | 2008-09-29 | 2012-03-20 | Motorola Solutions, Inc. | Signal detection in cognitive radio systems |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8306561B2 (en) * | 2009-02-02 | 2012-11-06 | Motorola Solutions, Inc. | Targeted group scaling for enhanced distributed spectrum sensing |
JP5299024B2 (ja) * | 2009-03-27 | 2013-09-25 | ソニー株式会社 | ディジタルシネマ管理装置とディジタルシネマ管理方法 |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
CN102044243B (zh) * | 2009-10-15 | 2012-08-29 | 华为技术有限公司 | 语音激活检测方法与装置、编码器 |
KR20120091068A (ko) | 2009-10-19 | 2012-08-17 | 텔레폰악티에볼라겟엘엠에릭슨(펍) | 음성 활성 검출을 위한 검출기 및 방법 |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
SI3493205T1 (sl) | 2010-12-24 | 2021-03-31 | Huawei Technologies Co., Ltd. | Postopek in naprava za adaptivno zaznavanje glasovne aktivnosti v vstopnem avdio signalu |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
CN102800322B (zh) * | 2011-05-27 | 2014-03-26 | 中国科学院声学研究所 | 一种噪声功率谱估计与语音活动性检测方法 |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
GB2495222B (en) * | 2011-09-30 | 2016-10-26 | Apple Inc | Using context information to facilitate processing of commands in a virtual assistant |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
TWI557722B (zh) * | 2012-11-15 | 2016-11-11 | 緯創資通股份有限公司 | 語音干擾的濾除方法、系統,與電腦可讀記錄媒體 |
CN103839544B (zh) * | 2012-11-27 | 2016-09-07 | 展讯通信(上海)有限公司 | 语音激活检测方法和装置 |
US9711166B2 (en) | 2013-05-23 | 2017-07-18 | Knowles Electronics, Llc | Decimation synchronization in a microphone |
US10020008B2 (en) | 2013-05-23 | 2018-07-10 | Knowles Electronics, Llc | Microphone and corresponding digital interface |
EP3000241B1 (en) | 2013-05-23 | 2019-07-17 | Knowles Electronics, LLC | Vad detection microphone and method of operating the same |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101959188B1 (ko) | 2013-06-09 | 2019-07-02 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US9502028B2 (en) | 2013-10-18 | 2016-11-22 | Knowles Electronics, Llc | Acoustic activity detection apparatus and method |
US9147397B2 (en) | 2013-10-29 | 2015-09-29 | Knowles Electronics, Llc | VAD detection apparatus and method of operating the same |
ES2819032T3 (es) * | 2013-12-19 | 2021-04-14 | Ericsson Telefon Ab L M | Estimación de ruido de fondo en señales de audio |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
WO2016036163A2 (ko) * | 2014-09-03 | 2016-03-10 | 삼성전자 주식회사 | 오디오 신호를 학습하고 인식하는 방법 및 장치 |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
WO2016118480A1 (en) | 2015-01-21 | 2016-07-28 | Knowles Electronics, Llc | Low power voice trigger for acoustic apparatus and method |
US10121472B2 (en) | 2015-02-13 | 2018-11-06 | Knowles Electronics, Llc | Audio buffer catch-up apparatus and method with two microphones |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US9478234B1 (en) | 2015-07-13 | 2016-10-25 | Knowles Electronics, Llc | Microphone apparatus and method with catch-up buffer |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US11631421B2 (en) * | 2015-10-18 | 2023-04-18 | Solos Technology Limited | Apparatuses and methods for enhanced speech recognition in variable environments |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10403279B2 (en) | 2016-12-21 | 2019-09-03 | Avnera Corporation | Low-power, always-listening, voice command detection and capture |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US11189273B2 (en) * | 2017-06-29 | 2021-11-30 | Amazon Technologies, Inc. | Hands free always on near field wakeword solution |
US11438452B1 (en) | 2019-08-09 | 2022-09-06 | Apple Inc. | Propagating context information in a privacy preserving manner |
CN111540378A (zh) * | 2020-04-13 | 2020-08-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频检测方法、装置和存储介质 |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
US6125179A (en) | 1995-12-13 | 2000-09-26 | 3Com Corporation | Echo control device with quick response to sudden echo-path change |
US5765130A (en) | 1996-05-21 | 1998-06-09 | Applied Language Technologies, Inc. | Method and apparatus for facilitating speech barge-in in connection with voice recognition systems |
CA2206652A1 (en) * | 1996-06-04 | 1997-12-04 | Claude Laflamme | Baud-rate-independent asvd transmission built around g.729 speech-coding standard |
US5884255A (en) | 1996-07-16 | 1999-03-16 | Coherent Communications Systems Corp. | Speech detection system employing multiple determinants |
US6002762A (en) * | 1996-09-30 | 1999-12-14 | At&T Corp | Method and apparatus for making nonintrusive noise and speech level measurements on voice calls |
EP0883107B9 (en) * | 1996-11-07 | 2005-01-26 | Matsushita Electric Industrial Co., Ltd | Sound source vector generator, voice encoder, and voice decoder |
US5960389A (en) * | 1996-11-15 | 1999-09-28 | Nokia Mobile Phones Limited | Methods for generating comfort noise during discontinuous transmission |
US6185300B1 (en) | 1996-12-31 | 2001-02-06 | Ericsson Inc. | Echo canceler for use in communications system |
JP3255584B2 (ja) * | 1997-01-20 | 2002-02-12 | ロジック株式会社 | 有音検知装置および方法 |
JP3297346B2 (ja) * | 1997-04-30 | 2002-07-02 | 沖電気工業株式会社 | 音声検出装置 |
JP3119204B2 (ja) * | 1997-06-27 | 2000-12-18 | 日本電気株式会社 | 音声符号化装置 |
US6163608A (en) * | 1998-01-09 | 2000-12-19 | Ericsson Inc. | Methods and apparatus for providing comfort noise in communications systems |
US6023674A (en) | 1998-01-23 | 2000-02-08 | Telefonaktiebolaget L M Ericsson | Non-parametric voice activity detection |
US6141426A (en) * | 1998-05-15 | 2000-10-31 | Northrop Grumman Corporation | Voice operated switch for use in high noise environments |
US6223154B1 (en) * | 1998-07-31 | 2001-04-24 | Motorola, Inc. | Using vocoded parameters in a staggered average to provide speakerphone operation based on enhanced speech activity thresholds |
US20010014857A1 (en) * | 1998-08-14 | 2001-08-16 | Zifei Peter Wang | A voice activity detector for packet voice network |
US6108610A (en) | 1998-10-13 | 2000-08-22 | Noise Cancellation Technologies, Inc. | Method and system for updating noise estimates during pauses in an information signal |
US6768979B1 (en) * | 1998-10-22 | 2004-07-27 | Sony Corporation | Apparatus and method for noise attenuation in a speech recognition system |
SE9803698L (sv) * | 1998-10-26 | 2000-04-27 | Ericsson Telefon Ab L M | Metoder och anordningar i ett telekommunikationssystem |
US6381570B2 (en) * | 1999-02-12 | 2002-04-30 | Telogy Networks, Inc. | Adaptive two-threshold method for discriminating noise from speech in a communication signal |
US6249757B1 (en) * | 1999-02-16 | 2001-06-19 | 3Com Corporation | System for detecting voice activity |
US6556967B1 (en) * | 1999-03-12 | 2003-04-29 | The United States Of America As Represented By The National Security Agency | Voice activity detector |
US6519260B1 (en) * | 1999-03-17 | 2003-02-11 | Telefonaktiebolaget Lm Ericsson (Publ) | Reduced delay priority for comfort noise |
US6549587B1 (en) * | 1999-09-20 | 2003-04-15 | Broadcom Corporation | Voice and data exchange over a packet based network with timing recovery |
JP2000308167A (ja) * | 1999-04-20 | 2000-11-02 | Mitsubishi Electric Corp | 音声符号化装置 |
US6633841B1 (en) * | 1999-07-29 | 2003-10-14 | Mindspeed Technologies, Inc. | Voice activity detection speech coding to accommodate music signals |
US7263074B2 (en) * | 1999-12-09 | 2007-08-28 | Broadcom Corporation | Voice activity detection based on far-end and near-end statistics |
US20020075857A1 (en) * | 1999-12-09 | 2002-06-20 | Leblanc Wilfrid | Jitter buffer and lost-frame-recovery interworking |
US6687668B2 (en) * | 1999-12-31 | 2004-02-03 | C & S Technology Co., Ltd. | Method for improvement of G.723.1 processing time and speech quality and for reduction of bit rate in CELP vocoder and CELP vococer using the same |
US6662155B2 (en) * | 2000-11-27 | 2003-12-09 | Nokia Corporation | Method and system for comfort noise generation in speech communication |
US6631139B2 (en) * | 2001-01-31 | 2003-10-07 | Qualcomm Incorporated | Method and apparatus for interoperability between voice transmission systems during speech inactivity |
US6766020B1 (en) * | 2001-02-23 | 2004-07-20 | 3Com Corporation | System and method for comfort noise generation |
-
2001
- 2001-06-01 US US09/871,779 patent/US7031916B2/en not_active Expired - Lifetime
- 2001-08-03 US US09/920,710 patent/US7043428B2/en not_active Expired - Lifetime
-
2002
- 2002-05-30 EP EP02100610A patent/EP1265224A1/en not_active Withdrawn
- 2002-06-03 JP JP2002162041A patent/JP2002366174A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010529494A (ja) * | 2007-06-07 | 2010-08-26 | 華為技術有限公司 | 音声活動を検出するための装置および方法 |
US8275609B2 (en) | 2007-06-07 | 2012-09-25 | Huawei Technologies Co., Ltd. | Voice activity detection |
JP2013508773A (ja) * | 2009-10-19 | 2013-03-07 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 音声エンコーダの方法およびボイス活動検出器 |
Also Published As
Publication number | Publication date |
---|---|
US7043428B2 (en) | 2006-05-09 |
EP1265224A1 (en) | 2002-12-11 |
US20020188445A1 (en) | 2002-12-12 |
US7031916B2 (en) | 2006-04-18 |
US20020184015A1 (en) | 2002-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002366174A (ja) | G.729の付属書bに準拠した音声アクティビティ検出回路を収束させるための方法 | |
US6889187B2 (en) | Method and apparatus for improved voice activity detection in a packet voice network | |
US6807525B1 (en) | SID frame detection with human auditory perception compensation | |
JP4307557B2 (ja) | 音声活性度検出器 | |
JP3363336B2 (ja) | フレーム音声決定方法および装置 | |
Beritelli et al. | Performance evaluation and comparison of G. 729/AMR/fuzzy voice activity detectors | |
JP3963850B2 (ja) | 音声区間検出装置 | |
US6381570B2 (en) | Adaptive two-threshold method for discriminating noise from speech in a communication signal | |
US9401160B2 (en) | Methods and voice activity detectors for speech encoders | |
US9396738B2 (en) | Methods and apparatus for signal quality analysis | |
US7558729B1 (en) | Music detection for enhancing echo cancellation and speech coding | |
US8751221B2 (en) | Communication apparatus for adjusting a voice signal | |
AU2612402A (en) | Voice-activity detection using energy ratios and periodicity | |
JP3255584B2 (ja) | 有音検知装置および方法 | |
KR101260938B1 (ko) | 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 | |
JP2004514327A (ja) | 電気通信網における電話リンクの会話品質の測定 | |
KR101099325B1 (ko) | 객관적으로 음성 품질을 평가하는 방법 및 객관적 음성품질 평가 시스템 | |
Sakhnov et al. | Approach for Energy-Based Voice Detector with Adaptive Scaling Factor. | |
KR102307355B1 (ko) | 잡음 환경의 통화 품질을 개선하는 방법 및 장치 | |
EP2457233A1 (en) | Method, computer, computer program and computer program product for speech quality estimation | |
JP3331297B2 (ja) | 背景音/音声分類方法及び装置並びに音声符号化方法及び装置 | |
US8949121B2 (en) | Method and means for encoding background noise information | |
US7013266B1 (en) | Method for determining speech quality by comparison of signal properties | |
JPH09258792A (ja) | 雑音低減方法および装置 | |
KR100931487B1 (ko) | 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050524 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080822 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20081125 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20081128 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090303 |