JP4769663B2 - 音声区間検出装置及び音声区間検出方法 - Google Patents

音声区間検出装置及び音声区間検出方法 Download PDF

Info

Publication number
JP4769663B2
JP4769663B2 JP2006223742A JP2006223742A JP4769663B2 JP 4769663 B2 JP4769663 B2 JP 4769663B2 JP 2006223742 A JP2006223742 A JP 2006223742A JP 2006223742 A JP2006223742 A JP 2006223742A JP 4769663 B2 JP4769663 B2 JP 4769663B2
Authority
JP
Japan
Prior art keywords
speech
signal
probability distribution
probability
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006223742A
Other languages
English (en)
Other versions
JP2007094388A (ja
Inventor
吉 鎭 張
正 壽 金
光 哲 ▲呉▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2007094388A publication Critical patent/JP2007094388A/ja
Application granted granted Critical
Publication of JP4769663B2 publication Critical patent/JP4769663B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、音声区間検出装置及び音声区間検出方法に関する。詳しくは、スペクトル引き算法及び確率分布モデルを用いて入力信号から音声信号が存在する区間を検出する音声区間検出装置及び音声区間検出方法に関する。
電子、通信、機械など多様な分野の技術が発達するにつれて、人間の生活をさらに便利にする多様な装置が開発されている。特に人間の音声を認識し、認識された音声情報によって適切な反応を示す装置の発達は著しい。このような音声認識分野の主要技術としては、入力された信号から音声が存在する区間を検出する技術分野と、検出された音声信号に含まれた内容を把握する技術分野とがある。このうち、音声が存在する区間を検出する技術は、音声認識及び音声圧縮などにおいて、必須に要求される技術であって、入力される信号から音声信号とノイズ信号とを区別することがその中核となっている。
このような技術の代表的な例が、非特許文献1に記載されている。この非特許文献1のアルゴリズムによれば、ノイズが除去された音声信号に対して特徴パラメータの時間的変化を用いることによって音声周波数帯域のエネルギー情報に基づく音声区間を検出することができるが、ノイズレベルが大きい場合には性能が低下するという問題がある。
また、特許文献1では、複素ガウス分布(complex Gaussian distribution)のような統計的モデリング手法を用いてノイズが混ざっている音声信号からノイズ信号と音声信号の各成分をリアルタイムで推定することによって、音声区間を検出する方法が記載されている。しかし、特許文献1による方法によっても、ノイズ信号が音声信号より大きくなれば、理論的に音声が存在する区間を推定し難くなるという問題がある。
前記した従来技術によれば、信号対ノイズ比(Signal to noise ratio:以下、「SNR」という)が小さくなるほど(ノイズが大きくなるほど)、音声が存在する区間とノイズだけ存在する区間とを区別し難くなる。
図1Aないし図1Dは、従来技術における前記問題点を示すSNRの変化によるノイズが混ざっている音声信号とノイズ信号との分布を示すヒストグラムである。符号110は、音声信号を示し、符号120は、ノイズ信号を示している。
図1Aないし図1Dにおいて、X軸は、音声信号の大きさと雑音信号の大きさを相対的に比較した値を示すものであって、1kHzないし1.03kHzの周波数帯域に対するバンドエネルギーの大きさを示し、Y軸はこれに対する確率を示している。
図1Aは、SNRが20dBである場合を、図1Bは、SNRが10dBである場合を、図1Cは、SNRが5dBである場合を、図1Dは、SNRが0dBである場合を各々示している。図1Aないし図1Dを参照すれば、SNRの値が小さくなるほど、ノイズが混ざっている音声信号110がノイズ信号120によりかき消されて、ノイズが混ざっている音声信号110をノイズ信号120から区別し難くなることがわかる。
したがって、音声が存在する区間を検出する技術において、従来技術によれば、低いSNRの値を有する入力信号に対しては音声が存在する区間とノイズだけ存在する区間とを区別し難いという問題がある。
韓国登録特許第10−304666号公報 "Extended advanced front−end feature extraction algorithm"(2003年11月ETSI(European Telecommunication Standard Institute)により選択)
本発明は、低いSNRでも音声が存在する区間とノイズだけ存在する区間との分布を推定し、推定された音声スペクトルの分布について統計的モデリング技法を使用ことにより分布推定のエラーを少なくすることができる音声区間検出装置及び音声区間検出方法を提供することを目的とする。
本発明の目的は、以上で言及した目的に制限されず、言及されていない他の目的は下の記載から当業者に明確に理解されうる。
前記目的を達成するための本発明の実施形態による音声区間検出装置は、受信された入力信号を所定の時間間隔に分けたフレーム単位で周波数領域の信号に変換するドメイン変換モジュールと、前記変換された周波数領域の信号から所定のノイズスペクトルを差し引いたスペクトル引き算信号を生成する引き算スペクトル生成モジュールと、前記スペクトル引き算信号を所定の確率分布モデルに適用するモデリングモジュール及び前記モデリングモジュールにより演算された確率分布を通じて現在のフレーム区間に音声信号が存在しているか否かを決定する音声検出モジュールを備えることを特徴とする。
また、前記目的を達成するための本発明の実施形態による音声区間検出方法は、受信された入力信号を所定の時間間隔に分けたフレーム単位で周波数領域の信号に変換する(a)ステップと、前記変換された周波数領域の信号から所定のノイズスペクトルを差し引いたスペクトル引き算信号を生成する(b)ステップと、前記スペクトル引き算信号を所定の確率分布モデルに適用する(c)ステップと、前記確率分布モデルの適用による確率分布を通じて現在のフレーム区間に音声信号が存在しているか否かを決定する(d)ステップと、を含むことを特徴とする。
本発明によれば、入力信号から音声信号が存在する区間を検出するに当たって、さらに向上した性能を提供する。
低いSNRでも音声が存在する区間とノイズだけ存在する区間との分布を推定し、推定した音声スペクトルの分布について統計的モデリング技法を使用することにより分布推定のエラーを少なくすることができる。
以下、図面を参照しながら、発明を実施するための最良の形態について説明する。
なお、同一の符号は、同一の構成を示している。
図2は、本発明の一実施形態による音声区間を検出する装置の構造を示すブロック図である。図3は、本発明の一実施形態による音声区間を検出する方法を示すフローチャートである。図4及び図5は、本発明の一実施形態によるノイズスペクトルの引き算効果を示すヒストグラムであって、X軸は、1kHzないし1.03kHzの周波数帯域に対するバンドエネルギーの大きさを示し、Y軸は、これに対する確率を示している。
図2に示すモジュール実行内容の流れは、図3のフロ−チャートに示すように本実施形態に係る方法の各ステップにより実行可能となる。
本実施形態に係る方法の各ステップは、コンピュータプログラムインストラクションとなり、汎用コンピュータ、用途を限定した専用コンピュータまたはその他のプログラミングが可能なデータプロセッシング装備のプロセッサーに搭載されうる。このように、コンピュータまたはその他のプログラミングが可能なデータプロセッシング装備のプロセッサーを通じて実行されるそのインストラクションによって、前記説明した機能を行う手段を生成するような構成を作ることができる。
これらのコンピュータプログラムインストラクションは、汎用コンピュータ、用途を限定した専用コンピュータ、又はコンピュータの部品となるプログラム可能なデータプロセッシング装置に搭載される。コンピュータのプロセッサーを経由して、もしくはその他プログラム可能なデータプロセッシング装置を経由して実行される前記インストラクションは、図5、図6のブロックやフローチャートにおいて示す機能を提供している。
前記コンピュータプログラムインストラクションは、コンピュータが利用可能な、もしくはコンピュータが判読可能な記憶媒体に保存してもよい。前記記憶媒体は、特定の方法で機能するコンピュータ又はプログラム可能なデータプロセッシング装置を管理する。前記インストラクションは、コンピュータが利用可能な、もしくはコンピュータが判読可能な記憶媒体に搭載される。前記インストラクションには、図5、図6のブロックやフローチャートにおいて示す機能を提供するインストラクションが含まれる。
また、各ブロックは、特定の論理的機能を行うための一つ以上の実行可能なインストラクションを含むモジュール等の一部を示すこともできる。他の実施形態では、図2に示した機能ブロックの順番(矢印の方向に従うことをいう)通りではない場合でも実行可能であり、例えば、図2において、連続した順序となっている2つのブロックは、実質的に同時に行われてもよく、または、当該2つのブロックについて、逆の順序で行われてもよい。
図2に示すように、本発明の実施に係る音声区間検出装置は、信号入力モジュール210、ドメイン変換モジュール220、引き算スペクトル生成モジュール230、モデリングモジュール240、及び音声検出モジュール250によって構成されている。
ここで、本実施形態に係る「モジュール」という用語は、ソフトウェアまたはFPGA(Field Programmable Gate Array)または注文型半導体(Application Specific Integrated Circuit;ASIC)のようなハードウェア構成要素を意味し、モジュールは所定の役割を担う。しかし、モジュールは前記ソフトウェアまたは前記ハードウェアに限定されるものではない。モジュールは、アドレッシング可能な記憶媒体に保存できるように構成されていても良く、1つまたはそれ以上のプロセッサーを実行させるように構成されていても良い。
前記モジュールは、例えば、ソフトウェア構成要素、客体指向ソフトウェア構成要素、クラス構成要素及びタスク構成要素のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバー、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ、及び変数等を含むものをいう。
前記種々の構成要素やモジュールから提供される機能は、より少数の構成要素及びモジュールに結合されるか、もしくは、付加的な構成要素及びモジュールに分離されうる。
さらに、前記種々の構成要素やモジュールは、装置に搭載される1または2以上のCPUを実行するために実装してもよい。
信号入力モジュール210は、マイクのような機器を用いて対象となる入力信号を受信する。
ドメイン変換モジュール220は、受信された入力信号を周波数領域の信号に変換する。すなわち、時間ドメイン方式での入力信号を周波数ドメイン方式での信号に変換することである。
ドメイン変換モジュール220は、前記受信された入力信号を所定の時間間隔に分けたフレーム単位でドメイン変換動作を行うことが望ましい。このような場合には、1つのフレームが1つの信号区間を形成し、n番目のフレームについての音声検出動作が完了した後、n+1番目のフレームについてのドメイン変換動作を行う。
引き算スペクトル生成モジュール230は、入力信号についての入力周波数スペクトルから以前フレームについての所定のノイズスペクトルを差し引いた信号(以下、「スペクトル引き算信号」という。)を生成する。
このとき、前記ノイズスペクトルは、前記モデリングモジュール240から受信した音声不存在確率についての情報を用いて演算することができる。
モデリングモジュール240は、確率分布に関する所定のモデルを設定し、引き算スペクトル生成モジュール230から受信したスペクトル引き算信号を前記設定された確率分布モデルに適用して、確率分布を演算する。このとき、音声検出モジュール250は、モデリングモジュール240により演算された確率分布を通じて現在のフレーム区間で音声信号が存在しているか否かを決定する。
音声区間検出装置200を構成するモジュールの具体的な動作関係を、図3のフローチャートを用いて具体的に説明する。
まず、信号入力モジュール210を通じて信号が入力される(S310)。
次に、ドメイン変換モジュール220により前記入力された信号についてのフレームが生成される(S320)。このとき、前記入力された信号についてのフレームは、信号入力モジュール210により生成された後、ドメイン変換モジュール220に伝えられうる。
生成されたフレームは、ドメイン変換モジュール220により高速フーリエ変換(Fast Fourie Transform。以下「FFT」という。)されて周波数領域の信号として表現される(S330)。すなわち、時間ドメインでの入力信号が周波数ドメインでの入力信号に変換されることである。
FFT演算により周波数スペクトルの絶対値Yが生成され、引き算スペクトル生成モジュール230は、YからノイズスペクトルNを引き算(S350)し、Uを生成する。
ここで、前記ノイズスペクトルNは、前記フレームに対するノイズスペクトルの推定値を示すものであって、フレームインデックスをtとすれば、Uは、式(1)のように示すことができる。
Figure 0004769663
ここで、(t)は、式(2)のようにモデリングされる。
Figure 0004769663
ここで、ηはノイズ更新比率を示すものであって、0と1との間の値を有する。そして、Pはt番目のフレームで音声信号が存在していない確率を示すものであって、モデリングモジュール240により演算された値である。
以上から、引き算スペクトル生成モジュール230は、Y及びモデリングモジュール240から受信したPを用いてノイズスペクトルを更新し(S340)、数式1によって更新されたノイズスペクトルN(t)は、次のフレームで引き算されるノイズスペクトルとして利用される。
前記方法でノイズスペクトルを差し引いた結果の一例を、図4A及び図4Bで示している。
図4Aは、入力信号のSNRが5dBである場合を示している。ノイズが混ざっている音声信号410とノイズ信号420とが本発明による更新されたノイズスペクトルNにより引き算されれば、引き算された音声信号412とノイズ信号422の交差する点は、バンドエネルギーレベル(X軸)が0となる地点に偏る。そのため入力信号から音声信号412とノイズ信号422とを区分することがノイズスペクトルNを引き算する以前より容易になる。
図4Bは、入力信号のSNRが0dBである場合を示している。この場合にもノイズが混ざっている音声信号430とノイズ信号440が本実施形態に係る更新されたノイズスペクトルNにより引き算されれば、引き算された音声信号432とノイズ信号442は、その交差点が図4Aと同様にバンドエネルギーレベル(X軸)が0となる地点に偏るために、入力信号から音声信号412とノイズ信号422とを区分するのが、ノイズスペクトルNを引き算する以前より容易になる。
すなわち、入力信号のSNRが0dB程度となっても、音声信号とノイズ信号との分布において重畳される領域が減り、音声信号とノイズ信号とをさらに容易に区分しうる。
モデリングモジュール240は、引き算スペクトル生成モジュール230から引き算されたスペクトルUを受信し、Uに音声が存在する確率を演算する(S360)。
本実施形態では、音声が存在する確率を演算するために統計学的なモデリング方法を使用する。
図4A及び図4Bに示されているように、入力信号からノイズスペクトルを差し引いた結果、音声信号とノイズ信号との交差点は、バンドエネルギーレベル(X軸)が0となる地点に偏る傾向を有するために、ピークがバンドエネルギーレベルの0に近くなり、ヒストグラムのテールが長い統計的モデルを適用することによって、確率誤差を減らすことができる。
本実施形態では、レイリーラプラス分布モデルを前記統計学的モデルとして適用している。
レイリーラプラス分布モデルは、レイリー分布モデルにラプラス分布(Laplace distribution)を適用したものであり、その過程を具体的に説明する。
まず、レイリー分布は、複素ランダム変数(complex random variable)zの確率密度関数(probability density function)として定義される。ここで、複素ランダム変数zを式(3)に示す。
Figure 0004769663
ここで、rは大きさまたは包絡線を示し、θは、位相を示す。
もし、2つのランダムプロセスxとyとが同じ偏差と平均0であるガウス分布による場合には、xとy各々に対する確率密度関数P(x)とP(y)は、式(4)のように示される。ここで、σは分散を示す。
Figure 0004769663
ここで、xとyとが統計学的独立であると仮定する場合には、xとyとを変数とする確率密度関数P(x,y)は、式(5)のように示される。
Figure 0004769663
ここで、微小領域dxdyに対してdxdy=rdrdθのように直交座標から曲座標に変換を行えば、rとθに対するジョイント確率密度関数は、式(6)のように示される。
Figure 0004769663
次いで、P(r,θ)をθに対して積分すれば、rに対する確率密度関数P(r)は、式(7)のように示される。
Figure 0004769663
この際、rに対するσ 分散は、式(8)のように示すので、P(r)は、式(9)のように示される。
Figure 0004769663
Figure 0004769663
一方、本発明によるレイリーラプラス分布は、レイリー分布と同様に式(3)のような複素ランダム変数zの確率密度関数として定義される。
しかし、レイリーラプラス分布の場合、前記レイリー分布とは違って、2つのランダムプロセスが、同一の分散を有しかつ平均として0となるガウス分布に依存しないときには、公知のラプラス分布に依存する。この場合にxとy各々に対する確率密度関数P(x)、P(y)は、式(10)のように示すことができる。
Figure 0004769663
ここで、xとyが、統計学的独立(statistically independent)であると仮定する場合には、xとyとを変数とする確率密度関数P(x,y)は、式(11)のように示される。
Figure 0004769663
ここで、微小領域(differential areas)dxdyに対してdxdy=rdxdθに変換し、|x|+|y|=r(|sinθ|+|cosθ|)≒rと仮定すれば、rとθに対するジョイント確率密度関数は式(12)のように示すことができる。
Figure 0004769663
次に、P(r,θ)をθに対して積分すれば、rに対する確率密度関数P(r)は、式(13)のように示される。
Figure 0004769663
ここで、rに対するσ 分散は、式(14)のように示され、P(r)は、式(15)のように示される。
Figure 0004769663
Figure 0004769663
したがって、本発明の実施によって現在のフレーム区間で音声信号が存在する確率をP(Y(t)|H)とすれば、P(Y(t)|H)は、式(15)を用いて式(16)のようにモデリングされうる。
Figure 0004769663
ここで、λS,K(t)は、t番目のフレームで、k番目の周波数ビン(frequency bin)での分散推定値である。このような分散推定値はフレーム毎に更新されうる。
一方、k番目のフレームで音声信号が存在しない確率は、前述した公知のレイリー分布モデルを使用できる。この場合、レイリー分布モデルは、複素ガウス分布のような統計的モデルと等価な特性を有する。
k番目のフレームで音声信号が存在しない確率をP(Y(t)|H)とすれば、P(Y(t)|H)は式(9)を用いて式(17)のようにモデリングされうる。
Figure 0004769663
ここで、λn,k(t)は、t番目のフレームで、k番目の周波数ビンでの分散推定値である。このような分散推定値は、フレーム毎に更新されうる。以後、説明の便宜上、P(Y(t)|H)はPと、P(Y(t)|H)はPと示す。
図5は、レイリーラプラス分布モデルの確率分布曲線を示す。レイリー分布モデルと比較してバンドエネルギーレベルが0側にさらに偏っている。これは、式(9)と式(15)とを比較すれば自明である。
一方、モデリングモジュール240は、現在のフレーム区間に音声信号が存在していない確率Pを引き算スペクトル生成モジュール230に伝達して、ノイズスペクトルを更新させる。
また、モデリングモジュール240は、PとPとを用いて現在のフレーム区間に音声信号が存在しているか否かを示す指標となる値を生成する。
例えば、現在のフレーム区間に音声信号が存在しているか否かについての指標値をAとすれば、Aは、式(18)のように示される。
Figure 0004769663
音声検出モジュール250は、前記モデリングモジュール240により生成された指標値を所定の基準値と比較して所定の基準値以上である場合、現在のフレーム区間に音声信号が存在すると判断する(S370)。
図6は、本発明の一実施形態による性能評価結果を示すグラフである。
本発明についての実験資料として、音声信号は、男女各8人が、人名、地名、商号名など100個の単語を発話して総数1600個の単語を発話した。また、ノイズとして自動車環境ノイズを用いたが、高速道路を時速100±10kmの定速走行中の車両で録音した自動車ノイズを用いた。
そして、実験のためにノイズが混ざっていない音声信号に録音されたノイズ信号をSNR=0dBとして付加し、録音されたノイズが混ざっている音声信号から音声が存在する区間を検出し、これを手動で記載された終点情報と比較した。一方、測定指標としては、音声検出確率エラー(Error of Speech Presence Probability:以下、ESPPと称する)と音声検出エラー(Error of Voice Activity Detection:以下、「EVAD」という。)を利用した。
前記音声検出確率エラーは、人が記載した音声区間から類推された確率と検出された音声検出確率との差を示し、音声検出エラーは、人が記載した音声区間と検出された区間との差をmsで表現したものである。
図6で図示したグラフのうち、符号610で表示される区間は、人が記載した音声区間を示すものであって、人が発話する単語を聞いて音声信号の開始と終了を手動で指定したものである。
これと比較して、符号620で表示されるグラフは、本発明の実施による音声検出確率から検出された音声区間を示しており、符号630で表示されるグラフは、音声が存在する確率を示す。
図6から分かるように、人により手動で記載された音声区間と本実施形態に係る音声区間とがほぼ一致するということが分かる。
一方、ESPPについての本実施形態の性能を前述した第1非特許文献及び第1特許文献と比較した結果を表1に示す。ここで、Yは、入力信号であって、ノイズが混ざっている音声信号を示す。すなわち、Y=S(speech)+N(noise)となる。そして、Uは、適切なノイズ抑制アルゴリズムにより得た音声信号の推定値である。すなわち、U=Y−Ne(Ne:ノイズ推定)となる。
Figure 0004769663
また、EVADについての本実施形態の性能を前述した非特許文献1及び特許文献1と比較すると、表2及び表3となる。
Figure 0004769663
Figure 0004769663
前記表1ないし表3から分かるように、本実施形態は、音声区間検出において 非特許文献1及び特許文献1に比べて優れた効果を奏していることが分かる。
以上、図を参照して本発明の実施例を説明したが、本発明が属する技術分野で当業者ならば本発明がその技術的思想や必須の技術的特徴を変更せずに他の実施形態を実現することは容易である。 したがって、前述した実施例は全ての面で例示的なものであって、限定的なものではなく、本発明は、これまでに説明した実施例に限定されるものではなく、この実施例から外れて多様な形に具現できる。
すなわち、本発明の技術的範囲は、特許請求の範囲の記載に基づいて定められ、発明を実施するための最良の形態の記載により制限されるものではない。
本発明は、音声区間検出関連の技術分野に好適に適用されうる。
SNRの変化によるノイズが混ざっている音声信号とノイズ信号との分布を示すヒストグラムである。 SNRの変化によるノイズが混ざっている音声信号とノイズ信号との分布を示すヒストグラムである。 SNRの変化によるノイズが混ざっている音声信号とノイズ信号との分布を示すヒストグラムである。 SNRの変化によるノイズが混ざっている音声信号とノイズ信号との分布を示すヒストグラムである。 本発明の一実施形態による音声区間を検出する装置の構造を示すブロック図である。 本発明の一実施形態による音声区間を検出する方法を示すフローチャートである。 本発明の一実施形態によるノイズスペクトルの引き算効果を示すヒストグラムである。 本発明の一実施形態によるノイズスペクトルの引き算効果を示すヒストグラムである。 本発明の一実施形態によるレイリーラプラス分布を示すグラフである。 本発明の一実施形態による性能評価結果を示すグラフである。
符号の説明
200 音声区間検出装置
210 信号入力モジュール
220 ドメイン変換モジュール
230 引き算スペクトル生成モジュール
240 モデリングモジュール
250 音声検出モジュール

Claims (15)

  1. 受信した音声入力信号を所定の時間間隔に分けたフレーム単位で周波数領域の信号に変換するドメイン変換モジュールと、
    前記変換された周波数領域の信号から、前のフレームの所定のノイズスペクトルを差し引いたスペクトル引き算信号を生成する引き算スペクトル生成モジュールと、
    前記スペクトル引き算信号を所定の確率分布モデルに適用するモデリングモジュールと、
    前記モデリングモジュールにより演算された確率分布を通じて現在のフレーム区間に音声信号が存在しているか否かを決定する音声検出モジュールと、
    を備え、
    前記モデリングモジュールは、前記確率分布モデから現在のフレームに音声が存在しない確率を演算し、演算された確率情報を前記引き算スペクトル生成モジュールへ伝送し、前記引き算スペクトル生成モジュールは前記伝送される確率情報を利用して前記ノイズスペクトルを更新し、更新したノイズスペクトルを次のフレームで引き算されるノイズスペクトルとして利用することを特徴とする音声区間検出装置。
  2. 前記ドメイン変換モジュールは、高速フーリエ変換(FFT)を用いて周波数領域の信号に変換することを特徴とする請求項1に記載の音声区間検出装置。
  3. 前記ノイズスペクトルは、前記変換された周波数領域の信号と前記モデリングモジュールから受信した音声不存在確率についての情報とを用いて演算することを特徴とする請求項1に記載の音声区間検出装置。
  4. 前記確率分布モデルは、ピークがバンドエネルギーレベルの0に近く、ヒストグラムのテールが長い統計的モデルを含むことを特徴とする請求項1に記載の音声区間検出装置。
  5. 前記確率分布モデルは、レイリー分布にラプラス分布を適用した確率分布モデルを含むことを特徴とする請求項1に記載の音声区間検出装置。
  6. 前記音声検出モジュールは、前記確率分布モデルによる確率分布から現在のフレームに音声が存在しているか否かを決定することを特徴とする請求項に記載の音声区間検出装置。
  7. 前記確率分布モデルは、レイリー分布モデルを含むことを特徴とする請求項1に記載の音声区間検出装置。
  8. コンピュータを用いて音声区間を検出する音声検出方法であって、
    ドメイン変換モジュールが、受信した入力信号を所定の時間間隔に分けたフレーム単位で周波数領域の信号に変換する(a)ステップと、
    引き算スペクトル生成モジュールが、前記変換された周波数領域の信号から、前のフレームの所定のノイズスペクトルを差し引いたスペクトル引き算信号を生成する(b)ステップと、
    モデリングモジュールが、前記スペクトル引き算信号を所定の確率分布モデルに適用する(c)ステップと、
    音声検出モジュールが、前記確率分布モデルの適用による確率分布を通じて現在のフレーム区間に音声信号が存在しているか否かを決定する(d)ステップと、
    を含み、
    前記(c)ステップは、前記確率分布モデルから現在のフレームに音声が存在しない確率の、前記演算された確率情報の伝送を含み、前記(b)ステップは、伝送された音声不存在確率についての情報を利用した前記ノイズスペクトル更新し、更新したノイズスペクトルの、次のフレームで引き算されるノイズスペクトルとしての利用を含む音声区間検出方法。
  9. 前記(a)ステップは、前記ドメイン変換モジュールが、高速フーリエ変換(FFT)を用いて周波数領域の信号に変換するステップを含むことを特徴とする請求項に記載の音声区間検出方法。
  10. 前記ノイズスペクトルは、前記変換された周波数信号と前記確率分布モデルの適用に係る音声不存在確率についての情報とを用いて演算することを特徴とする請求項に記載の音声区間検出方法。
  11. 前記確率分布モデルは、ピークがバンドエネルギーレベルの0に近く、ヒストグラムのテールが長い統計的モデルを含むことを特徴とする請求項に記載の音声区間検出方法。
  12. 前記確率分布モデルは、レイリー分布にラプラス分布を適用した確率分布モデルを含むことを特徴とする請求項に記載の音声区間検出方法。
  13. 前記(d)ステップは、前記音声検出モジュールが、前記確率分布モデルの確率分布から現在のフレームに音声が存在しているか否かを決定することを特徴とする請求項12に記載の音声区間検出方法。
  14. 前記確率分布モデルは、レイリー分布モデルを含むことを特徴とする請求項に記載の音声区間検出方法。
  15. 請求項14に記載の音声区間検出方法をコンピュータに実行させることを特徴とする音声区間検出プログラム。

JP2006223742A 2005-09-26 2006-08-21 音声区間検出装置及び音声区間検出方法 Expired - Fee Related JP4769663B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2005-0089526 2005-09-26
KR1020050089526A KR100745977B1 (ko) 2005-09-26 2005-09-26 음성 구간 검출 장치 및 방법

Publications (2)

Publication Number Publication Date
JP2007094388A JP2007094388A (ja) 2007-04-12
JP4769663B2 true JP4769663B2 (ja) 2011-09-07

Family

ID=37895263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006223742A Expired - Fee Related JP4769663B2 (ja) 2005-09-26 2006-08-21 音声区間検出装置及び音声区間検出方法

Country Status (3)

Country Link
US (1) US7711558B2 (ja)
JP (1) JP4769663B2 (ja)
KR (1) KR100745977B1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100657948B1 (ko) * 2005-02-03 2006-12-14 삼성전자주식회사 음성향상장치 및 방법
EP2242046A4 (en) * 2008-01-11 2013-10-30 Nec Corp SYSTEM, APPARATUS, METHOD AND PROGRAM FOR CONTROL OF SIGNAL ANALYSIS, SIGNAL ANALYSIS AND SIGNAL CONTROL
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
EP2261894A4 (en) * 2008-03-14 2013-01-16 Nec Corp SIGNAL ANALYSIS / CONTROL SYSTEM AND METHOD, SIGNAL CONTROL DEVICE AND METHOD, AND PROGRAM
JP5773124B2 (ja) * 2008-04-21 2015-09-02 日本電気株式会社 信号分析制御及び信号制御のシステム、装置、方法及びプログラム
GB0901504D0 (en) 2009-01-29 2009-03-11 Cambridge Silicon Radio Ltd Radio Apparatus
US8738367B2 (en) * 2009-03-18 2014-05-27 Nec Corporation Speech signal processing device
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
ES2489472T3 (es) 2010-12-24 2014-09-02 Huawei Technologies Co., Ltd. Método y aparato para una detección adaptativa de la actividad vocal en una señal de audio de entrada
KR20120080409A (ko) * 2011-01-07 2012-07-17 삼성전자주식회사 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
JP5668553B2 (ja) * 2011-03-18 2015-02-12 富士通株式会社 音声誤検出判別装置、音声誤検出判別方法、およびプログラム
US9280982B1 (en) * 2011-03-29 2016-03-08 Google Technology Holdings LLC Nonstationary noise estimator (NNSE)
US20130090926A1 (en) * 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
CN111226277B (zh) * 2017-12-18 2022-12-27 华为技术有限公司 语音增强方法及装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4897878A (en) * 1985-08-26 1990-01-30 Itt Corporation Noise compensation in speech recognition apparatus
US5148489A (en) * 1990-02-28 1992-09-15 Sri International Method for spectral estimation to improve noise robustness for speech recognition
JPH04251299A (ja) 1991-01-09 1992-09-07 Sanyo Electric Co Ltd 音声区間検出方法
JP3484757B2 (ja) 1994-05-13 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び雑音区間検出方法
JPH10240294A (ja) 1997-02-28 1998-09-11 Mitsubishi Electric Corp 雑音軽減方法及び雑音軽減装置
US6044341A (en) * 1997-07-16 2000-03-28 Olympus Optical Co., Ltd. Noise suppression apparatus and recording medium recording processing program for performing noise removal from voice
US6691087B2 (en) * 1997-11-21 2004-02-10 Sarnoff Corporation Method and apparatus for adaptive speech detection by applying a probabilistic description to the classification and tracking of signal components
AT408286B (de) * 1999-09-10 2001-10-25 Siemens Ag Oesterreich Verfahren zur unterdrückung von störrauschen in einem signalfeld
JP3878482B2 (ja) 1999-11-24 2007-02-07 富士通株式会社 音声検出装置および音声検出方法
US6615170B1 (en) * 2000-03-07 2003-09-02 International Business Machines Corporation Model-based voice activity detection system and method using a log-likelihood ratio and pitch
AU2001294989A1 (en) * 2000-10-04 2002-04-15 Clarity, L.L.C. Speech detection
KR100400226B1 (ko) * 2001-10-15 2003-10-01 삼성전자주식회사 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법
US7139703B2 (en) * 2002-04-05 2006-11-21 Microsoft Corporation Method of iterative noise estimation in a recursive framework
US7047047B2 (en) * 2002-09-06 2006-05-16 Microsoft Corporation Non-linear observation model for removing noise from corrupted signals
KR100513175B1 (ko) * 2002-12-24 2005-09-07 한국전자통신연구원 복소수 라플라시안 통계모델을 이용한 음성 검출기 및 음성 검출 방법
US7305132B2 (en) 2003-11-19 2007-12-04 Mitsubishi Electric Research Laboratories, Inc. Classification in likelihood spaces

Also Published As

Publication number Publication date
US7711558B2 (en) 2010-05-04
KR20070034881A (ko) 2007-03-29
KR100745977B1 (ko) 2007-08-06
JP2007094388A (ja) 2007-04-12
US20070073537A1 (en) 2007-03-29

Similar Documents

Publication Publication Date Title
JP4769663B2 (ja) 音声区間検出装置及び音声区間検出方法
US20200213728A1 (en) Audio-based detection and tracking of emergency vehicles
CN110197670B (zh) 音频降噪方法、装置及电子设备
US10510363B2 (en) Pitch detection algorithm based on PWVT
JP2021533423A (ja) オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム
CN101149928B (zh) 声音信号处理方法、声音信号处理设备及计算机程序
US8504362B2 (en) Noise reduction for speech recognition in a moving vehicle
JP2007114774A (ja) 音声信号における一過性ノイズの最小化
US9704495B2 (en) Modified mel filter bank structure using spectral characteristics for sound analysis
US20150032445A1 (en) Noise estimation apparatus, noise estimation method, noise estimation program, and recording medium
CN106558315A (zh) 异质麦克风自动增益校准方法及系统
Lee et al. Dynamic noise embedding: Noise aware training and adaptation for speech enhancement
May et al. Computational speech segregation based on an auditory-inspired modulation analysis
US11308970B2 (en) Voice correction apparatus and voice correction method
Jeon et al. Acoustic surveillance of hazardous situations using nonnegative matrix factorization and hidden Markov model
KR102329353B1 (ko) 심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치
US11176957B2 (en) Low complexity detection of voiced speech and pitch estimation
JP2017041752A (ja) 車両用音響装置
EP3956890B1 (en) A dialog detector
US20240355351A1 (en) Speech features-based single channel voice activity detection method and system for reducing noise from an audio signal
JP2009069305A (ja) 音響エコー削除装置および車載装置
Sunitha et al. Noise Robust Speech Recognition under Noisy Environments
JP6226065B2 (ja) ソーナー装置、信号処理方法及びプログラム
Gouhar et al. Speech enhancement using new iterative minimum statistics approach
Hwang et al. Energy contour enhancement for noisy speech recognition

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100224

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110315

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110607

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110620

R150 Certificate of patent or registration of utility model

Ref document number: 4769663

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140624

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees