JP2008534989A - 音声アクティビティ検出装置および方法 - Google Patents
音声アクティビティ検出装置および方法 Download PDFInfo
- Publication number
- JP2008534989A JP2008534989A JP2007546958A JP2007546958A JP2008534989A JP 2008534989 A JP2008534989 A JP 2008534989A JP 2007546958 A JP2007546958 A JP 2007546958A JP 2007546958 A JP2007546958 A JP 2007546958A JP 2008534989 A JP2008534989 A JP 2008534989A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- voice activity
- speech
- likelihood ratio
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Abstract
【解決手段】(a)ノイズパワー推定器において、スピーチ成分及びノイズ成分を有する信号内のノイズパワーを推定することと、(b)コンプレクスガウシアンン統計モデルと、ステップ(a)からのノイズ信号の推定パワーから、信号中のスピーチの存在に対する尤度比を計算することとの各ステップを含む音声アクティビティ検出方法。
【選択図】図2
【選択図】図2
Description
本発明は、信号処理に関し、特に、音声アクティビティ検出方法および音声アクティビティ検出器に関する。
スピーチ通信装置によって送信されるスピーチ信号は、しばしば、符号化、検出、及び認識アルゴリズムと干渉し、品質を低下させるノイズによって、ある程度乱されるだろう。
様々な異なる音声アクティビティ検出器及び検出方法は、スピーチとノイズとの両成分を含む入力信号におけるスピーチ期間を検出するために開発された。そのようなデバイス及び方法は、スピーチ符号化、スピーチ機能強化、及びスピーチ認識のような領域に応用がある。
音声アクティビティ検出の最も単純な形式は、入力信号のパワーが、スピーチが存在するか(つまり、エネルギーの増加が、スピーチの存在を示す)を判定するために評価されるエネルギーベースの方法である。そのような技術研究は信号対ノイズ比が高いところでは良好に機能するが、ノイズの多い信号の存在時には信頼性が低くなる。
統計モデルの使用に基づいた音声アクティビティ検出方法は、"A Statistical Model Based Voice Activity Detection" by Sohn et al [IEEE Signal Processing Letters Vol. 6, No. 1, January 1999](非特許文献1)に記載されている。尤度比(LR)統計(LR = [スピーチが存在する確率]/[スピーチが存在しない確率])を計算するために、ここで説明する統計モデルは、ノイズとスピーチに対するモデルを使用する。そのように計算されたLR統計は、次に、分析中のスピーチ信号(あるいはその部分)が、スピーチを含んでいるかを決定するためにしきい値と比較される。
Sohnらの技術は"Improved Voice Activity Detection Based on a Smoothed Statistical Likelihood Ratio" by Cho et al, In Proceedings of ICASSP, Salt Lake City, USA, vol. 2, pp 737-740, May 2001(非特許文献2)の中で修正された。この修正された技術は、スピーチオフセット領域において遭遇するかもしれない検出エラーを緩和するために、平滑化された尤度比(SLR)を用いることを提案している。
LR(又はSLR)を計算するために、上記の統計的手法は、何れも、既存のノイズパワー推定値を用いることを必要とする。このノイズ推定値は、分析フレームの前の反復中に計算されたLR/SLRを用いて得られる。
以前に導出された尤度比値を用いて計算される既存のノイズ推定値を用いて尤度比が計算される上述した統計方法には、フィードバックメカニズムが存在する。そのようなフィードバックメカニズムは、システムの全体的な性能にインパクトを与えるエラーが蓄積されるという結果になる。
上述したように、計算される尤度比は、スピーチが存在するかを決定するためにしきい値と比較される。しかしながら、上記の技術中で計算された尤度比は、60dBあるいはそれ以上のオーダに亘って変化しうる。入力信号中のノイズに大きな変動がある場合、しきい値は、スピーチの存在について不正確な表示をするかもしれず、システム性能が低下するかもしれない。
"A Statistical Model Based Voice Activity Detection" by Sohn et al [IEEE Signal Processing Letters Vol. 6, No. 1, January 1999 "Improved Voice Activity Detection Based on a Smoothed Statistical Likelihood Ratio" by Cho et al, In Proceedings of ICASSP, Salt Lake City, USA, vol. 2, pp 737-740, May 2001. "Quantile Based Noise Estimation for Spectral Subtration and Wiener Filtering" by Stahl, Fischer and Bippus, pp1875-1878, vol. 3, ICASSP 2000 "Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics", by Martin in IEEE Trans. Speech and Audio Processing, Vol. 9, No. 5, July 2001, pp. 504-512
"A Statistical Model Based Voice Activity Detection" by Sohn et al [IEEE Signal Processing Letters Vol. 6, No. 1, January 1999 "Improved Voice Activity Detection Based on a Smoothed Statistical Likelihood Ratio" by Cho et al, In Proceedings of ICASSP, Salt Lake City, USA, vol. 2, pp 737-740, May 2001. "Quantile Based Noise Estimation for Spectral Subtration and Wiener Filtering" by Stahl, Fischer and Bippus, pp1875-1878, vol. 3, ICASSP 2000 "Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics", by Martin in IEEE Trans. Speech and Audio Processing, Vol. 9, No. 5, July 2001, pp. 504-512
したがって、先行技術に関する上記の言及された問題を本質的に克服するか緩和する音声アクティビティ検出方法及び装置を提供することが、本発明の目的である。
本発明の第1の局面によれば、
(a)スピーチ成分とノイズ成分とを有する信号内のノイズパワーを、ノイズパワー推定部において推定することと、
(b)信号内にスピーチが存在する場合の尤度比を、コンプレクスガウシアン(complex Gaussian)統計モデル、及びステップ(a)からのノイズ信号の推定パワーから計算することとの各ステップを含む音声アクティビティ検出方法が提供される。
(a)スピーチ成分とノイズ成分とを有する信号内のノイズパワーを、ノイズパワー推定部において推定することと、
(b)信号内にスピーチが存在する場合の尤度比を、コンプレクスガウシアン(complex Gaussian)統計モデル、及びステップ(a)からのノイズ信号の推定パワーから計算することとの各ステップを含む音声アクティビティ検出方法が提供される。
本発明は、モデルにノイズ推定値を提供するために、独立したノイズ推定成分が使用される統計モデルに基づいた音声アクティビティ検出方法を提案する。ノイズ推定は、尤度比の計算に依存しないので、ノイズ推定とLR計算との間にフィードバックループは存在しない。
ノイズ推定は、変位値ベースのノイズ推定方法によって便利に行われる。(例えば、"Quantile Based Noise Estimation for Spectral Subtration and Wiener Filtering" by Stahl, Fischer and Bippus, pp1875-1878, vol. 3, ICASSP 2000(非特許文献3)、更には "Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics", by Martin in IEEE Trans. Speech and Audio Processing, Vol. 9, No. 5, July 2001, pp. 504-512(非特許文献4)を参照されたい)。しかしながら、任意の適切なノイズ推定技術が使用されてもよい。
好適には、ノイズ推定値は、更に、一次再帰関数によって推定された値を平滑化することにより処理される。
従来の変位値ベースのノイズ推定方法は、各時間フレームについて(K+1)個の周波数帯域とT個の時間フレームによって信号が分析されることを必要とする。これは、計算上コスト高になる。便利なことに、(K+1)個の周波数の部分集合のみが、任意の一つの時間フレームにおいて更新されうる。残りの周波数におけるノイズ推定値は、更新された値からの補間によって導出されうる。
スピーチの存在が評価されるしきい値は、音声アクティビティ検出器の性能全体を決定することが注目される。上述したように、計算された尤度比は、実際に多くのdBにわたって変化しうるので、好適には、入力スピーチダイナミックレンジ及び/又はノイズ条件における変化にロバストになるようにパラメータが設定されるべきである。
便利なことに、計算された尤度比は、予め定義した間隔(例えば0と1の間)への非線形関数を用いて、制限/圧縮することができる。このように尤度比を圧縮することによって、SNRの変化の影響は緩和される。また、音声検出器の性能が改善される。
本発明の第二の局面によれば、
(a)スピーチ成分とノイズ成分とを有する信号内のノイズパワーを推定することと、
(b)信号内にスピーチが存在する場合の尤度比を、コンプレクスガウシアン統計モデル及びステップ(a)からのノイズ信号の推定されたパワーから計算することと、
(c)ステップ(b)で計算された尤度比に基づいて、ノイズパワー推定値を更新することであって、前記尤度比は、非線形関数を使用して、予め定めた間隔へ制限されることとの各ステップを含む音声アクティビティ検出方法が提供される。
(a)スピーチ成分とノイズ成分とを有する信号内のノイズパワーを推定することと、
(b)信号内にスピーチが存在する場合の尤度比を、コンプレクスガウシアン統計モデル及びステップ(a)からのノイズ信号の推定されたパワーから計算することと、
(c)ステップ(b)で計算された尤度比に基づいて、ノイズパワー推定値を更新することであって、前記尤度比は、非線形関数を使用して、予め定めた間隔へ制限されることとの各ステップを含む音声アクティビティ検出方法が提供される。
本発明の第一及び第二の局面の音声アクティビティ方法では、スピーチの存在か不在かを判定するために、計算された尤度比が、予め定義されたしきい値と比較される。
便利なことに、本発明の両局面では、分析中のノイズの多いスピーチ信号は、高速フーリエ変換ステップによって、時間領域から周波数領域へと変換される。
また、λN,k及びλS,kはそれぞれ周波数インデクスkにおけるノイズ及びスピーチの分散である。
ここで、κは、平滑化係数であり、tは時間フレームインデクスである。
のように計算することができ、Ψ(t)は、スピーチの存在を決定するために使用される。[注:ノイズ特性に依存して、一定の周波数帯域を、上記合計からを削除することができる。]
本発明の第一の局面に対応する本発明の第三の局面では、コンプレクスガウシアン統計モデルと、ノイズの多い信号におけるノイズパワーの推定値を用いて、ノイズの多い信号におけるスピーチの存在に対する尤度比を計算する尤度比計算機を備えた音声アクティビティ検出器が提供される。ここでは、ノイズパワー推定値が、音声アクティビティ(VAD)と独立して計算される。
本発明の第一の局面に対応する本発明の第三の局面では、コンプレクスガウシアン統計モデルと、ノイズの多い信号におけるノイズパワーの推定値を用いて、ノイズの多い信号におけるスピーチの存在に対する尤度比を計算する尤度比計算機を備えた音声アクティビティ検出器が提供される。ここでは、ノイズパワー推定値が、音声アクティビティ(VAD)と独立して計算される。
本発明の第二の局面に対応する本発明の第四の局面では、コンプレクスガウシアン統計モデルと、ノイズの多い信号におけるノイズパワーの推定値を用いて、ノイズの多い信号におけるスピーチの存在に対する尤度比を計算する尤度比計算機を備えた音声アクティビティ検出器が提供される。ここでは、尤度比は、検出器内のノイズ評価値を更新するために使用される。また、ここでは、尤度比は、非線形関数を用いて、予め定めた間隔へ制限される。
本発明の更なる局面では、本発明の第三の局面に従った音声アクティビティ検出器、又は本発明の第一の局面を実施するように構成された音声アクティビティ検出器と、ノイズ成分及びスピーチ成分を含む信号のために、音声アクティビティ検出器にノイズ推定値を与えるノイズ推定器とを備えた音声アクティビティ検出システムが提供される。
熟練者であれば、上述した等化器及び方法は、例えばディスク、CD−又はDVD−ROMのような搬送媒体、例えば読み取り専用メモリ(ファームウェア)のようなプログラムされたメモリ、あるいは例えば光学又は電気的な搬送波のようなデータキャリア上で、プロセッサ制御コードとして具体化されうることを認識するであろう。
本発明のこれら及びその他の局面は、添付図面を参照して、一例のみとして記述される。
本発明(更にChoらによって記載された)中で用いられる統計モデルでは、音声アクティビティ決定は、2つの仮定、すなわちH0とH1とをテストすることによってなされる。ここで、H0は、スピーチの不在を示し、H1は、スピーチの存在を示す。
この統計モデルは、スピーチとノイズとの各スペクトル成分が、ノイズが付加的であり、スピーチと相関していないコンプレクスガウシアン分布を持っていると仮定する。この仮定に基づいて、H0,kとH1,kとが与えられた場合における、ノイズの多いスペクトル成分Xkの条件付きの確率密度関数(PDF)は、以下の通りとなる。
ここで、λN,k及びλS,kは、それぞれ、周波数インデクスkにおけるノイズ及びスピーチの分散である。
式(6)で計算されたノイズ分散が、スピーチの存在および不在に対してPDF値(式(7)における)を利用することに留意されたい。また、PDF計算は、λN,kに対する値を間接的に使用する(式(2)を参照)。
エラーの蓄積をもたらしうる先行技術に従って説明された方法で、フィードバックメカニズムが存在することは明らかである。
上記議論は、先行技術に従う音声アクティビティ検出器1が、尤度比計算部3、及びノイズ推定器5を含む図1の中で概略的に表わされる。LR部の出力7は、ノイズ推定器5に入り、ノイズ推定器の出力9は、LR部に入る。
本発明の第一(及び第三)の局面の音声アクティビティ検出方法は、図2において概略的に表される。ここでは、音声アクティビティ検出器11がLR部13を備えている。独立したノイズ推定部15は、尤度比を導出するために、ノイズ推定17を、LR成分へ供給する。
本発明の第一及び第三の局面に従った音声アクティビティ検出器は、適切な技術を使用して、外部でノイズ分散λN,kを推定する。例えば、変位値ベースのノイズ推定アプローチ(以下に詳述する)が、ノイズ分散を推定するために使用されてもよい。
本発明の第ニ及び第四の局面に従った音声アクティビティ検出器は、この比の値を、予め定めた間隔に制限するために、非線形関数を用いて、LR成分から導出される尤度比を処理する。
ここでは、βSは、スピーチ分散を無視した係数である。
その後、式(1)〜(5)に関して記述されたように、尤度比が計算される。その後、LRを閾値と比較することにより、スピーチ存在又は不在が計算される。
に示すような一次再帰システムを用いて、ログ領域における尤度比を平滑化することにより改善されうることが注目される。ここでは、tは時間フレームインデクスであり、κは平滑化係数である。その後、平滑化された尤度比(SLR)の幾何平均(ログ領域における算術平均と等価)は、以下のように計算されうる。
Ψ(t)は、閾値との比較によって、以前のように、スピーチ存在又は不在を検出するために使用することができる。
スピーチの存在を決定するためにLRとSLRとが比較されるしきい値は、音声アクティビティ検出器の振る舞いおよび性能に重要である。(例えばシミュレーション実験によって)パラメータのために選択された値は、入力スピーチダイナミックレンジ及び/又はノイズ条件における変化にロバストでなければならない。通常、SNR値が変化する場合は常に、このパラメータは調節されねばならない。
しかしながら、上述したように、LR/SLRは多くのdBを横切って変わるかもしれない。したがって、パラメータを適切な値に設定することは困難かもしれない。
SNR内の変化に対する緩和のために、本発明の第一及び第三の局面の中で計算されたLR/SLRは、尤度比に対する値を、例えば0と1との間のような特定の間隔に制限するために、非線形関数によって更に処理される。このように尤度比を圧縮することによって、ノイズ分散の影響が弱まり、システム性能が増加した。この制限機能は、本発明の第二の局面に相当するが、本発明の第一の局面と共に使用されうることに留意されたい。
本発明の第一の局面では、ノイズ推定値は、尤度比計算の外部から導出される。そのような推定値を導出する1つの方法は、変位量ベースのノイズ推定(QBNE)アプローチである。
QBNEアプローチは、スピーチ信号が定常ではなく、同じ周波数帯域を永久に占有しないだろうという仮定を適用することにより、ノイズパワースペクトルを連続的に(つまり、スピーチアクティビティの期間中でさえも)推定する。一方、ノイズ信号は、スピーチ信号と比較してゆっくり変化すると仮定される。従って、いくつかの連続する分析フレーム(期間)に対して比較的一定であると考えることができる。
上記仮定の下で動作することにより、考慮中の各周波数帯域についてノイズの多い信号を期間にわたってソートし(ソートされたバッファを構築するために)、そのように構築されたバッファからノイズ推定値を検索することが可能である。
QBNEアプローチは図3乃至図5に示される。
図3は、2つの異なる時間t1,t2(この図では、時間t1におけるスピーチ信号19とラベルされ、時間t2では20とラベルされる)において、ノイズ信号18とスピーチ信号との周波数に対する信号パワー(パワースペクトル)のプロットを示す。スピーチ信号は、各時間において同じ周波数を占有しないので、スピーチがその特定の周波数帯域を占有しない場合、ノイズが、特定の周波数において推定されると理解することができる。この図では、例えば、周波数f1およびf2におけるノイズは、時間t1において推定され、周波数f3及びf4におけるノイズは、時間t2において推定される。
ノイズの多い信号の場合、X(k、t)が、ノイズの多い信号のパワースペクトルである。ここで、kは周波数ビンインデクス、tは時間(フレーム)インデクスである。過去および将来のT/2フレームがバッファに格納される場合、フレームtについて、T個のフレームX(k、t)を、以下の式になるような昇順で各周波数ビンにおいて格納することができる。
上記式は図4及び図5で示される。図4には、周波数対時間プロットが、多くの時間フレームについて示される(明瞭さのために、合計のTフレームのうちの5つだけが示される)。特定用途に依存して、30の時間フレームが、バッファに格納されうる(つまりT=30)。各フレームでは、信号のパワースペクトルは、垂直ボックス(21、23、25、27、29)によって表わされるベクトルである。
特定の周波数k(図4のボックス31によって表されてる)では、T個のフレームのウィンドウにわたったパワースペクトル値が、図5で示されるようなFIFOバッファ内に格納されうる。そして、この格納されたフレームは、任意の高速ソート技術を用いて、昇順(式14に関して説明したように)でソートすることができる。
は、最も近い整数への繰り下がりを表す。
このノイズ推定値は、各周波数帯域に対して得られうる。
ノイズ推定値を計算する際に、T個のフレームについては、1つの特定の周波数は、時間の高々50%のスピーチ成分によって占有されるだろうと仮定されている。したがって、qが0.5に設定されると、中央値が、ノイズ推定値として選択される。中央変位量値は、周辺の変化に対してあまり影響を受けないので、他の変位量値よりも優れた性能を与えるであろうと考えられる。
は、平滑化されたノイズ推定値であり、ρ(k、t)は、信号対ノイズ比(SNR)に従ってフレームt毎に更新される周波数依存平滑化パラメータである。
との比として定義される。
になるように用いられるかもしれない。
として得られる。ここで、μは、QBNE推定値に対する感度を制御するパラメータである。
SNRが増加すると、特定の周波数に対するQBNEノイズ推定値が、更新されたノイズ推定値にほとんど影響を持つべきでないものと整えられるべきことが注目される。一方、SNRが低い場合、つまり、与えられた周波数において、ノイズが、与えられたフレームを支配するのであれば、あるフレームから次のフレームへのQBNE推定値は、より信頼性が高くなり、結果として、現在のノイズ推定値は、更新された推定値について大きな影響を持つべきである。このパラメータμは、QBNE推定値への感度を制御する。もしもμ→0であれば、ρ(k,t)→1となり、
は、各フレームにおいて推定値を支配するだろう。
従来のスピーチ分析システムは、100より多い周波数帯域中の入力信号を分析することが注目される。もしも近隣の30のフレームも、ノイズ推定値を導出するために格納され分析されるのであれば、全てのフレームについて、全ての周波数においてノイズ推定値を保持し、更新することは、計算上、法外に高価になるかもしれない。
従って、ノイズ推定値は、単に、分析中の周波数帯域全体の部分集合に対してのみ更新される。例えば、10の周波数帯域がある場合、最初のフレームtについて、奇数の周波数帯域(1,3,5,7,9)のみについてノイズ推定値が計算され、更新される。次のフレームt’の間、ノイズ推定値は、偶数の周波数帯域(2,4,6,8,10)について計算され、更新される。
フレームtについては、偶数の周波数帯域についてのノイズ推定値が、奇数の周波数値からの補間によって推定されるかもしれない。フレームt’については、奇数の周波数帯域についてのノイズ推定値が、偶数の周波数値からの補間によって推定されるかもしれない。
本発明の局面に従った音声アクティビティ検出器は、ドイツ語とイギリス英語との両方のスピーチ発言について従来の検出器に対して評価された。VADはスピーチ認識目的のために、発言の開始点及び終了点を検出するために使用された。
第1の実験では、異なる信号対ノイズ比において、自動車ノイズが、第一のデータセットに人工的に加えられた。スピーチ信号は、発言の開始点及び終了点において無声期間で当てがわれた。
図6は、ドイツ語のデータセットに対する第1の実験のスピーチ認識精度結果を示す。「FA」と記された実線は、強制的な調整によって得られた正確な終了点に対応する認識結果を表わす。
図6における線Xは、従来技術による音声アクティビティ検出器を使用した結果(内部ノイズ推定であり、尤度比の圧縮はない)を示す。線Yは、上述したように、平滑化され圧縮された尤度比を計算する音声アクティビティ検出器(すなわち、本発明の第二及び第四の局面に従った音声アクティビティ検出器)に対する結果を示す。そして線Zは、独立したノイズ推定器を利用する音声アクティビティ検出器(すなわち、本発明の第一及び第三の局面に従った音声アクティビティ検出器)に対する結果を示す。
本発明の局面に従った音声アクティビティ検出器が、特に低いSNRレベルにおいて、先行技術検出器より性能が優れていることが理解される。
更に、尤度比(Y行目)を平滑化し圧縮するバージョンと比較された時、外部ノイズ推定値(Z行目)の使用が、音声アクティビティ検出器の性能をさらに増強することが理解されるかもしれない。
図7は、英語データセットで実行された同様の評価の結果を示す。ドイツ語の発言に関しては、本発明の局面による結果は、先行技術システムに関する改良である。
更なる性能評価が、二つのデータセットC及びDについて表1に示される。これらは、車内で実施された第二の実験で記録された。
Claims (17)
- 音声アクティビティ検出方法であって、
(a)ノイズパワー推定器において、スピーチ成分とノイズ成分とを持つ信号内のノイズパワーを推定することと、
(b)コンプレクスガウシアン統計モデルと、ステップ(a)からのノイズ信号の推定されたパワーから、信号中のスピーチの存在に対する尤度比を計算することと
の各ステップを含む方法。 - ステップ(b)における尤度比は、非線形関数を用いて、予め定めた間隔に制限される請求項1に記載の音声アクティビティ検出方法。
- 前記ノイズパワー推定器は、前記ノイズパワーを推定する変位値ベースの推定方法を使用する請求項1乃至3のうち何れか1項に記載の音声アクティビティ検出方法。
- ノイズパワー推定値は、一次再帰関数を用いて平滑化される請求項4に記載の音声アクティビティ検出方法。
- 前記信号は、(K+1)個の周波数帯域にわたって分析され、各時間フレームについて、前記ノイズパワー推定値は、(K+1)個の周波数帯域の部分集合についてのみ更新される請求項1乃至5のうち何れか1項に記載の音声アクティビティ検出方法。
- 前記ノイズ推定値は、更新された周波数帯域の部分集合からの補間によって、(K+1)個の全ての周波数帯域にわたって更新される請求項6に記載の音声アクティビティ検出方法。
- (a)スピーチ成分とノイズ成分とを持つ信号内のノイズパワーを推定することと、
(b)コンプレクスガウシアン統計モデルと、ステップ(a)からのノイズ信号の推定されたパワーから、前記信号内におけるスピーチの存在に対する尤度比を計算することと、
(c)ステップ(b)で計算された尤度比に基づいて前記ノイズパワー推定値を更新することであって、前記尤度比は、非線形関数を用いて、予め定めた間隔へ制限されることと
の各ステップを含む音声アクティビティ検出方法。 - 前記尤度比は、スピーチの存在又は不在を検出するために、しきい値と比較される請求項1乃至8のうち何れか1項に記載の音声アクティビティ検出方法。
- コンプレクスガウシアン統計モデルと、ノイズの多い信号におけるノイズパワー推定値とを使用して、ノイズの多い信号におけるスピーチの存在に対する尤度比を計算する尤度比計算機を備え、前記ノイズパワー推定値は、音声アクティビティ検出器と独立して計算される音声アクティビティ検出器。
- コンプレクスガウシアン統計モデルと、ノイズの多い信号におけるノイズパワー推定値とを使用して、ノイズの多い信号におけるスピーチの存在に対する尤度比を計算する尤度比計算機を備え、前記尤度比は、検出器内のノイズ推定値を更新するために使用され、前記尤度比は、非線形関数を使用して、予め定めた間隔に制限される音声アクティビティ検出器。
- 実行時に、請求項1乃至12のうち何れか1項に記載の方法を実行するためのプロセッサ制御コードを搬送するキャリア。
- 実行時に、請求項13又は14に記載の音声アクティビティ検出器を実行するためのプロセッサ制御コードを搬送するキャリア。
- 請求項13に記載の音声アクティビティ検出器、又は請求項1乃至7のうち何れか1項に記載の方法を実行するように構成された音声アクティビティ検出器と、
ノイズ成分及びスピーチ成分を含む信号のために、ノイズ推定値を音声アクティビティ検出器に提供するノイズ推定器と
を備えた音声アクティビティ検出システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0509415A GB2426166B (en) | 2005-05-09 | 2005-05-09 | Voice activity detection apparatus and method |
PCT/JP2006/309624 WO2006121180A2 (en) | 2005-05-09 | 2006-05-09 | Voice activity detection apparatus and method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008534989A true JP2008534989A (ja) | 2008-08-28 |
Family
ID=34685294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007546958A Abandoned JP2008534989A (ja) | 2005-05-09 | 2006-05-09 | 音声アクティビティ検出装置および方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7596496B2 (ja) |
EP (1) | EP1722357A3 (ja) |
JP (1) | JP2008534989A (ja) |
CN (1) | CN101080765A (ja) |
GB (1) | GB2426166B (ja) |
WO (1) | WO2006121180A2 (ja) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE602007004217D1 (de) * | 2007-08-31 | 2010-02-25 | Harman Becker Automotive Sys | Schnelle Schätzung der Spektraldichte der Rauschleistung zur Sprachsignalverbesserung |
US20090150144A1 (en) * | 2007-12-10 | 2009-06-11 | Qnx Software Systems (Wavemakers), Inc. | Robust voice detector for receive-side automatic gain control |
KR101335417B1 (ko) * | 2008-03-31 | 2013-12-05 | (주)트란소노 | 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 |
KR101317813B1 (ko) * | 2008-03-31 | 2013-10-15 | (주)트란소노 | 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 |
CN101853666B (zh) * | 2009-03-30 | 2012-04-04 | 华为技术有限公司 | 一种语音增强的方法和装置 |
KR101581883B1 (ko) * | 2009-04-30 | 2016-01-11 | 삼성전자주식회사 | 모션 정보를 이용하는 음성 검출 장치 및 방법 |
WO2010126321A2 (ko) * | 2009-04-30 | 2010-11-04 | 삼성전자주식회사 | 멀티 모달 정보를 이용하는 사용자 의도 추론 장치 및 방법 |
JP5411936B2 (ja) * | 2009-07-21 | 2014-02-12 | 日本電信電話株式会社 | 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体 |
SI3493205T1 (sl) | 2010-12-24 | 2021-03-31 | Huawei Technologies Co., Ltd. | Postopek in naprava za adaptivno zaznavanje glasovne aktivnosti v vstopnem avdio signalu |
US8650029B2 (en) * | 2011-02-25 | 2014-02-11 | Microsoft Corporation | Leveraging speech recognizer feedback for voice activity detection |
JP5643686B2 (ja) * | 2011-03-11 | 2014-12-17 | 株式会社東芝 | 音声判別装置、音声判別方法および音声判別プログラム |
US20120245927A1 (en) * | 2011-03-21 | 2012-09-27 | On Semiconductor Trading Ltd. | System and method for monaural audio processing based preserving speech information |
US20130090926A1 (en) * | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
WO2013132926A1 (ja) * | 2012-03-06 | 2013-09-12 | 日本電信電話株式会社 | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 |
US9258653B2 (en) | 2012-03-21 | 2016-02-09 | Semiconductor Components Industries, Llc | Method and system for parameter based adaptation of clock speeds to listening devices and audio applications |
US20130317821A1 (en) * | 2012-05-24 | 2013-11-28 | Qualcomm Incorporated | Sparse signal detection with mismatched models |
CA2804120C (en) | 2013-01-29 | 2020-03-31 | Her Majesty The Queen In Right Of Canada As Represented By The Minister Of National Defence | Vehicle noise detectability calculator |
FR3002679B1 (fr) * | 2013-02-28 | 2016-07-22 | Parrot | Procede de debruitage d'un signal audio par un algorithme a gain spectral variable a durete modulable dynamiquement |
US9275638B2 (en) * | 2013-03-12 | 2016-03-01 | Google Technology Holdings LLC | Method and apparatus for training a voice recognition model database |
CN103730124A (zh) * | 2013-12-31 | 2014-04-16 | 上海交通大学无锡研究院 | 一种基于似然比测试的噪声鲁棒性端点检测方法 |
CN104269180B (zh) * | 2014-09-29 | 2018-04-13 | 华南理工大学 | 一种用于语音质量客观评价的准干净语音构造方法 |
CN105810201B (zh) * | 2014-12-31 | 2019-07-02 | 展讯通信(上海)有限公司 | 语音活动检测方法及其系统 |
WO2016135741A1 (en) * | 2015-02-26 | 2016-09-01 | Indian Institute Of Technology Bombay | A method and system for suppressing noise in speech signals in hearing aids and speech communication devices |
CN105513614B (zh) * | 2015-12-03 | 2019-05-03 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于噪声功率谱Gamma分布统计模型的有音区检测方法 |
CN105575406A (zh) * | 2016-01-07 | 2016-05-11 | 深圳市音加密科技有限公司 | 一种基于似然比测试的噪声鲁棒性的检测方法 |
CN110070883B (zh) * | 2016-01-14 | 2023-07-28 | 深圳市韶音科技有限公司 | 语音增强方法 |
CN105869658B (zh) * | 2016-04-01 | 2019-08-27 | 金陵科技学院 | 一种采用非线性特征的语音端点检测方法 |
US20170365249A1 (en) * | 2016-06-21 | 2017-12-21 | Apple Inc. | System and method of performing automatic speech recognition using end-pointing markers generated using accelerometer-based voice activity detector |
US10224053B2 (en) * | 2017-03-24 | 2019-03-05 | Hyundai Motor Company | Audio signal quality enhancement based on quantitative SNR analysis and adaptive Wiener filtering |
US10339962B2 (en) * | 2017-04-11 | 2019-07-02 | Texas Instruments Incorporated | Methods and apparatus for low cost voice activity detector |
WO2018236874A1 (en) | 2017-06-21 | 2018-12-27 | Monsanto Technology Llc | AUTOMATED SYSTEMS FOR PREPARING SEED TISSUE SAMPLES, AND ASSOCIATED METHODS |
CN109754823A (zh) * | 2019-02-26 | 2019-05-14 | 维沃移动通信有限公司 | 一种语音活动检测方法、移动终端 |
US11170760B2 (en) * | 2019-06-21 | 2021-11-09 | Robert Bosch Gmbh | Detecting speech activity in real-time in audio signal |
CN112489692A (zh) * | 2020-11-03 | 2021-03-12 | 北京捷通华声科技股份有限公司 | 语音端点检测方法和装置 |
CN113470621B (zh) * | 2021-08-23 | 2023-10-24 | 杭州网易智企科技有限公司 | 语音检测方法、装置、介质及电子设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0867856B1 (fr) | 1997-03-25 | 2005-10-26 | Koninklijke Philips Electronics N.V. | "Méthode et dispositif de detection d'activité vocale" |
US6349278B1 (en) | 1999-08-04 | 2002-02-19 | Ericsson Inc. | Soft decision signal estimation |
US20040064314A1 (en) * | 2002-09-27 | 2004-04-01 | Aubert Nicolas De Saint | Methods and apparatus for speech end-point detection |
KR100513175B1 (ko) * | 2002-12-24 | 2005-09-07 | 한국전자통신연구원 | 복소수 라플라시안 통계모델을 이용한 음성 검출기 및 음성 검출 방법 |
CA2420129A1 (en) | 2003-02-17 | 2004-08-17 | Catena Networks, Canada, Inc. | A method for robustly detecting voice activity |
JP4497911B2 (ja) * | 2003-12-16 | 2010-07-07 | キヤノン株式会社 | 信号検出装置および方法、ならびにプログラム |
JP2005249816A (ja) * | 2004-03-01 | 2005-09-15 | Internatl Business Mach Corp <Ibm> | 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム |
-
2005
- 2005-05-09 GB GB0509415A patent/GB2426166B/en not_active Expired - Fee Related
-
2006
- 2006-05-08 EP EP06252433A patent/EP1722357A3/en not_active Withdrawn
- 2006-05-08 US US11/429,308 patent/US7596496B2/en not_active Expired - Fee Related
- 2006-05-09 WO PCT/JP2006/309624 patent/WO2006121180A2/en active Application Filing
- 2006-05-09 JP JP2007546958A patent/JP2008534989A/ja not_active Abandoned
- 2006-05-09 CN CN200680000377.0A patent/CN101080765A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US7596496B2 (en) | 2009-09-29 |
EP1722357A2 (en) | 2006-11-15 |
GB2426166B (en) | 2007-10-17 |
CN101080765A (zh) | 2007-11-28 |
WO2006121180A3 (en) | 2007-05-18 |
US20060253283A1 (en) | 2006-11-09 |
GB2426166A (en) | 2006-11-15 |
WO2006121180A2 (en) | 2006-11-16 |
GB0509415D0 (en) | 2005-06-15 |
EP1722357A3 (en) | 2008-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008534989A (ja) | 音声アクティビティ検出装置および方法 | |
CN109643552B (zh) | 用于可变噪声状况中语音增强的鲁棒噪声估计 | |
US7072833B2 (en) | Speech processing system | |
US9208780B2 (en) | Audio signal section estimating apparatus, audio signal section estimating method, and recording medium | |
KR20010075343A (ko) | 저비트율 스피치 코더용 노이즈 억제 방법 및 그 장치 | |
JP6793706B2 (ja) | 音声信号を検出するための方法および装置 | |
RU2713852C2 (ru) | Оценивание фонового шума в аудиосигналах | |
JP5752324B2 (ja) | 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制 | |
KR20150032390A (ko) | 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법 | |
KR100784456B1 (ko) | Gmm을 이용한 음질향상 시스템 | |
KR20160116440A (ko) | 음성인식 시스템의 신호대잡음비 추정 장치 및 방법 | |
US11610601B2 (en) | Method and apparatus for determining speech presence probability and electronic device | |
KR20110061781A (ko) | 실시간 잡음 추정에 기반하여 잡음을 제거하는 음성 처리 장치 및 방법 | |
JP4755555B2 (ja) | 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体 | |
US8935159B2 (en) | Noise removing system in voice communication, apparatus and method thereof | |
Górriz et al. | Generalized LRT-based voice activity detector | |
KR100798056B1 (ko) | 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법 | |
Bai et al. | Two-pass quantile based noise spectrum estimation | |
KR101993003B1 (ko) | 잡음 제거 장치 및 방법 | |
Erkelens et al. | Speech enhancement based on Rayleigh mixture modeling of speech spectral amplitude distributions | |
KR100933604B1 (ko) | 유동적 주파수 밴드를 이용한 단채널 음질 향상 기술 | |
Erkelens et al. | Fast noise tracking based on recursive smoothing of MMSE noise power estimates | |
KR20200026587A (ko) | 음성 구간을 검출하는 방법 및 장치 | |
KR101543300B1 (ko) | 다중 선형회귀 분석 기반의 음성 존재 불확실성 추정 방법 | |
GB2437868A (en) | Estimating noise power spectrum, sorting time frames, calculating the quantile and interpolating values over all remaining frequencies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20100201 |