JP4545729B2 - 音声信号検出システム及び方法 - Google Patents

音声信号検出システム及び方法 Download PDF

Info

Publication number
JP4545729B2
JP4545729B2 JP2006271127A JP2006271127A JP4545729B2 JP 4545729 B2 JP4545729 B2 JP 4545729B2 JP 2006271127 A JP2006271127 A JP 2006271127A JP 2006271127 A JP2006271127 A JP 2006271127A JP 4545729 B2 JP4545729 B2 JP 4545729B2
Authority
JP
Japan
Prior art keywords
peak
micro
audio signal
voltage level
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006271127A
Other languages
English (en)
Other versions
JP2007122047A (ja
Inventor
▲ヒュン▼秀 金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2007122047A publication Critical patent/JP2007122047A/ja
Application granted granted Critical
Publication of JP4545729B2 publication Critical patent/JP4545729B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01LMEASURING FORCE, STRESS, TORQUE, WORK, MECHANICAL POWER, MECHANICAL EFFICIENCY, OR FLUID PRESSURE
    • G01L15/00Devices or apparatus for measuring two or more fluid pressure values simultaneously
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Description

本発明は音声信号検出システム及び方法に関し、特に、時間軸におけるピーク情報を用いて音声信号を検出する音声信号検出システム及び方法に関する。
最近、音声信号を用いた多様なシステムが開発されつつあり、音声信号を用いたシステムでは、音声信号に基づいて、コーディング、認識、強化などのような音声信号を用いた応用プロセスを遂行する。これにより、音声信号を用いたシステムでは、音声信号の検出が基本的且つ正確に行われなければならないため、音声信号を正確且つ効率良く検出できる方法について鋭意研究が進められている。
通常の音声信号検出方法としては、例えば、入力信号のエネルギーを利用する方法や、入力信号のゼロクロスレート(Zero Crossing Rate)を利用する方法がある。エネルギーを利用する方法は、入力信号のエネルギーを測定し、エネルギー測定値が高くなれば、エネルギー測定値の高い部分を音声信号として検出するものである。ゼロクロスレートを利用する方法は、入力信号のゼロクロスレートを測定して、入力信号のゼロクロスレートの高い部分を音声信号として検出するものである。最近は、音声信号の検出の正確度を高めるために、前述した両方の方法を組合わせたものもよく利用されている。
しかしながら、前述した音声信号検出方法は、雑音が存在する場合、音声信号の検出の正確度が低い。例えば、エネルギー測定値の高い部分を音声信号として検出する方法は、雑音信号によるエネルギーを考慮しないため、雑音信号によるエネルギーが高くなれば、雑音信号を音声信号と判断したり、音声信号を雑音信号と判断したりする可能性がある。
また、ゼロクロスレートの高い部分を音声信号として検出する方法も、ゼロクロスレートが雑音信号によるものか、実際の音声信号によるものか判断し難いため、雑音信号によりゼルクロスレートが高くなれば、雑音信号を音声信号と判断したり、音声信号を雑音信号と判断したりする可能性がある。
前述したように、雑音信号を音声信号と判断する場合を加算エラー(additive error)といい、音声信号を雑音信号と判断する場合を減算エラー(subtractive error)という。加算エラーは付加的な処理により雑音信号が取り出されるが、減算エラーは音声信号が既に雑音信号と判断されて削除されたため、復旧出来ない場合が多い。よって、減算エラーを基本的に防止できる音声検出技術が要求されている。
また、従来の音声信号検出方法は、主にフレーム単位で音声信号を検出する。フレーム単位で音声信号を検出する場合、フレーム単位よりも小さい単位のエラーが発生しても、フレーム単位のエラーと認識され、エラーに対して敏感になる。また、従来の音声信号検出方法は、一つの固定された方法により音声信号を検出するため、所定のアルゴリズムが機能しなければ、そのエラーがそのまま次のプロセスに伝達されてエラーが累積されるという問題点がある。
よって、本発明の目的は、雑音が存在する状況でも音声信号を正確に検出できる音声信号検出システム、及び音声信号検出システムにおける時間軸ピーク情報を用いた音声信号検出方法を提供することにある。
本発明の他の目的では、音声信号が雑音信号と判断される減算エラーを防止できる音声信号検出システム、及び音声信号検出システムにおける時間軸ピーク情報を用いた音声信号検出方法を提供することにある。
本発明のさらに他の目的では、フレーム単位でないサンプル単位で音声信号を検出することによりエラーの影響が小さくなる音声信号検出システム、及び音声信号検出システムにおける時間軸ピーク情報を用いた音声信号検出方法を提供することにある。
本発明のさらに他の目的では、以前の音声信号検出時のエラーが次の音声信号検出時に影響を及ぼさないように、エラーの累積を防止する音声信号検出システム、及び音声信号検出システムにおける時間軸ピーク情報を用いた音声信号検出方法を提供することにある。
前記目的を達成するために、本発明は、音声信号検出システムにおいて、入力信号からピークを抽出するピーク抽出部と、前記抽出されたピークの電圧レベルと所定の閾値電圧レベルとを比較して、その比較結果を二進シーケンスに変換するピーク検出部と、前記変換された二進シーケンスを検査するためのテストウインドウの長さを決定し、前記テストウインドウの長さ単位でマイクロイベントを検出するマイクロイベント検出部と、前記検出されたマイクロイベントをリンクするマイクロイベントリンク部と、前記リンクされたマイクロイベントの開始点及び終了点を検出して、音声信号の開始点及び終了点を判断する音声信号の開始点及び終了点検出部とを含む。
また、本発明は、音声信号検出方法において、入力信号からピークを抽出するステップと、前記抽出されたピークの電圧レベルと所定の閾値電圧レベルとを比較して、その比較結果を二進シーケンスに変換するステップと、前記変換された二進シーケンスを検査するためのテストウインドウの長さを決定し、前記テストウインドウの長さ単位でマイクロイベントを検出するステップと、前記検出されたマイクロイベントをリンクするステップと、前記リンクされたマイクロイベントの開始点及び終了点を検出して、音声信号の開始点及び終了点を判断するステップとを含む。
本発明によれば、時間軸のピーク特徴情報の抽出及び分析を用いた音声検出方法を提供することで、簡単なサンプルの大きさの比較により、少ない計算量で検出できるだけでなく、音声信号が常に雑音レベルより上に存在して、雑音に非常に強い音声検出方法を提供できる。
また、本発明は、従来のフレーム単位の検出とは異なり、サンプル単位の検出により、幾つかのサンプル内でのより正確な検出が達成できる。
また、本発明は、雑音などの状況により特徴抽出変数を最適化して使用でき、最善と次善の音声検出開始点と終了点を提供して柔軟に適用できる。
また、本発明は、ピーク情報の特徴を利用することで、音声情報を消失し得る減算エラーを防止できる。
また、本発明は、別途のパラメーターの定義なしに使用でき、従来の他の方法とは異なり、信号に対するどのような仮定をしなくても良い。
また、本発明は、状況に合う最適な検出方法を選択することで、柔軟な音声検出が可能なので、実際の音声コーディング、認識、強化、合成などの全ての段階で使用可能である。
また、本発明は、少ない計算量で正確な音声検出が可能なので、携帯電話端末、テレマティックス、PDA、mp3などのような、移動性が強く、計算や格納容量の制限があったり、速い処理が要求されるアプリケーションに効果的に使用できる。
以下、添付図面に基づき、本発明の好適な実施形態について詳細に説明する。図面において、同一の構成要素に対しては、同一の参照符号を付与したことに留意すべきである。また、本発明の説明において、本発明に関連した公知の機能や構成についての具体的な説明が、本発明の要旨を不明瞭にすると判断される場合には、その詳細な説明を省略する。
図1は、本発明の実施形態による音声信号検出システムのブロック構成図である。図1によれば、本発明の実施形態による音声信号検出システムは、ピーク抽出部102と、背景雑音ヒストグラム生成部122と、ピーク検出閾値電圧レベル決定部124と、ピーク検出部104と、マイクロイベント検出部106と、マイクロイベント連結部108と、音声開始点及び終了点判断部110とを含む。
ピーク抽出部102は、入力信号のピーク抽出のためのウインドウの長さTを決定し、信号を入力されて、入力信号からピークを抽出する。本発明の実施形態では、入力信号に背景雑音のみが存在する場合(null hypothesis)、その入力信号をHといい、入力信号に背景雑音及び音声信号の両方が存在する場合(alternative hypothesis)、その入力信号をHという。
背景雑音ヒストグラム生成部122は、背景雑音だけが存在する入力信号から抽出されたピークと、そのピークの電圧レベルとを用いてヒストグラムを生成する。すなわち、背景雑音ヒストグラム生成部122は、背景雑音信号から抽出されたピークと、その抽出されたピークの電圧レベルとを用いて、ピークの大きさ(amplitude)の確率密度関数(PDF:Probability Density Function)の推定値を表すヒストグラムを生成する。
ピーク検出閾値電圧レベル決定部124は、背景雑音信号から抽出されたピークの電圧レベルに対するヒストグラムを用いて、所定のピーク選択率(count peak ratio;以下、“r”と称する)に対応する閾値電圧レベルLを決定する。例えば、背景雑音信号から抽出されたピークを100とすれば、ピーク検出閾値電圧レベル決定部124は、rが0.05である場合、100個のピークの中の閾値電圧レベルL以上のピークが5個存在するようにその閾値電圧レベルLを決定し、rが0.02である場合、抽出されたピークの中の閾値電圧レベルL以上のピークが2個存在するようにその閾値電圧レベルLを決定する。
このような閾値電圧レベルLは、背景雑音だけが存在する状況では、閾値電圧レベルL以上である部分にピークが存在する確率が、下記の式(1)のような二項係数の和(sum of binominal coefficient)により算出できるという根拠により決定され得る。
Figure 0004545729
式(1)において、Wは1回に1つのピークずつ前進するテストウインドウの長さを示すパラメータ、rは抽出されたピークの中の閾値電圧レベルL以上であるピークの比率、PはWのピークシーケンスが最小閾値電圧レベルL以上であるピークをN個以上持つ確率を示す。
ピーク検出部104は、前述したように、閾値電圧レベルLが決定されれば、背景雑音信号と音声信号とが混合された入力信号から抽出されたピークの電圧レベルと、決定された閾値電圧レベルLとを比較して、閾値電圧レベルLより大きいピークを検出する。このとき、ピーク検出部104は、背景雑音信号と音声信号とが混合された入力信号から抽出されたピークシーケンスの電圧レベルが、決定された閾値電圧レベルLより大きいか小さいかにより、そのピークシーケンスを二進シーケンスに変換する。入力信号から抽出されたピークシーケンスの電圧レベルが決定された閾値電圧レベルLより大きければ1になり、入力信号から抽出されたピークシーケンスの電圧レベルが決定された閾値電圧レベルLより小さければ0になる。例えば、ピークシーケンスは、電圧レベルによって“1100011110001111”のようなピークシーケンスに変換される。また、変換された二進シーケンスは、マイクロイベント検出部106に入力される。
マイクロイベント検出部106は、入力される二進シーケンスを検査するためのテストウインドウの長さWを決定し、二進シーケンスをテストウインドウの長さWの単位で検査して、各テストウインドウW内の“1”の値を持つシーケンスの個数を把握する。また、マイクロイベント検出部106は、テストウインドウ内の全てのシーケンスの中で“1”の値を持つシーケンスの個数が、所定の個数になれば、これをマイクロイベントとして検出する。
例えば、本発明の実施形態によれば、テストウインドウの長さWは4つのシーケンス長さにより決定され、そのテストウインドウ内の“1”の値を持つシーケンスが3個であれば、これをマイクロイベント検出部がマイクロイベントとして検出する。また、テストウインドウの長さWは5個のシーケンス長さにより決定され、そのテストウインドウ内の“1”の値を持つシーケンスが3個であれば、これをマイクロイベント検出部がマイクロイベントとして検出する。このようなマイクロイベントは、音声として検出できるピークの最小単位をいい、音声検出の単位として検出されたマイクロイベントは、マイクロイベント連結部108に入力される。
マイクロイベント連結部108は、入力されたマイクロイベントの中で一時的な相関閾値(temporal relationship threshold)を満足させるマイクロイベントをリンクする。このとき、リンクされたマイクロイベントのチェーン(chain)は、発話した音声信号の各部分に該当する。
ところが、マイクロイベントのリンク時、リンクされるマイクロイベント間にギャップ(gap)が存在する場合、リンクされたマイクロイベントと実際の音声信号との間に差が発生し、実質的な音声開始及び終了の検出に不確実性が発生し得る。このような問題を解決するために、マイクロイベントのリンクのためのリンク条件(link criteria)が必要である。このようなリンク条件は、‘B.Reaves、“Comments on: An Improved Endpoint Detector for Isolated Word Recognition”、IEEE Transactions on Signal Processing、Vol.39 No.2、February 1991。’のような参考文献の音声の性質及び時間的な整合性(temporal consistency)の研究を参照して決定できる。
前記参考文献では、2つの別々の音声信号がリンクできる性質について記載しており、本発明の実施形態によれば、音声信号のリンクは、40msのリンク条件でも(実験的に)良好に動作する。これにより、本発明では、リンク閾値(linking threshold)を通常40msで使用する。すなわち、本発明の実施形態では、マイクロイベントの間隔が40ms以内であれば、互いにリンク可能と判断してリンクする(実用的には、25〜150msの範囲でリンク可能である)。ここで、リンク閾値は、“L”値や“r”値によって変化させることができる。一方、前述したように、リンク条件によってリンクされたマイクロイベントは、音声開始点及び終了点判断部110に入力される。
音声開始点及び終了点判断部110は、リンクされたマイクロイベントの開始点及び終了点を検出する。このとき、音声開始点及び終了点判断部110は、音声信号の特徴により、リンクされたマイクロイベントの開始点及び終了点の検出の正確度を調節できる。例えば、音声開始点及び終了点判断部110は、音声信号の特徴により、リンクされたマイクロイベントの開始点及び終了点を非常に正確(最善)に検出したり、音声信号の検出性能に影響を及ぼさない程度の正確度(次善)で検出したりできる。また、音声開始点及び終了点判断部110は、検出されたマイクロイベントの開始点及び終了点を用いて、音声信号開始点及び終了点を判断し、このような音声信号の開始点及び終了点を用いて入力信号の中の音声信号部分を検出する。
前述したように構成された本発明の実施形態による音声信号検出システムでは、背景雑音だけが存在する状況で、背景雑音のピーク分布を用いてピーク選択率rを決定し、ピーク選択率rに対応する閾値電圧レベルを決定する。その後、決定された閾値電圧レベルLを用いて、入力信号に含まれた音声信号に該当するピークの中の該当ピークを検出し、音声信号に該当するピークから音声の開始点及び終了点を検出して音声を検出する。
よって、本発明の実施形態による音声信号検出システムは、入力信号の時間軸ピーク情報を用いて音声信号を検出することにより、計算量が少なく、背景雑音の影響も小さく、状況によって最適な検出方法を適用し得る。
以下、前述したように構成された本発明の実施形態による音声信号検出システムにおいて、時間軸ピーク情報を用いて音声信号を検出する方法について詳細に説明する。
まず、背景雑音だけが存在する状況で、背景雑音のピーク分布によってピーク選択のための閾値電圧レベルLを決定する過程について説明する。
図2は、本発明の実施形態による背景雑音のピーク分布を用いた閾値電圧レベルの決定過程を示すフローチャートである。
図2によれば、音声信号検出システムは、段階S202において、背景雑音信号だけが含まれた入力信号を受信して、背景雑音信号に対するピークを抽出する。
続いて、音声信号検出システムは、段階S204において、背景雑音信号に対するピークと、そのピークの電圧レベルとを用いてヒストグラムを生成する。
図3A及び図3Bは、背景雑音信号に対するピークと、そのピークの電圧レベルとを用いて生成したヒストグラムを示す図である。図3A及び図3Bにおいて、横軸は電圧レベルを示し、縦軸はピーク分布を示す。図3Aによれば、電圧レベルに従うピーク分布を示している。
音声信号検出システムは、段階S206段階において、所定のピーク選択率rにより、図3Bに示すように全体の背景雑音のピーク分布のうち、ピーク選択率rに対応するピークが閾値電圧レベルL以上になるように、閾値電圧レベルLを決定する。
前述したように、閾値電圧レベルLを決定した後、音声検出システムは、決定された閾値電圧レベルLを用いて、入力信号に含まれた音声信号の開始点及び終了点を判断して音声を検出する。
図4は、本発明の実施形態による閾値電圧レベルLを用いた音声検出方法に対するフローチャートである。図4によれば、音声検出システムは、段階S212において、信号の入力を受ける。続いて、段階S214において、入力信号のピーク抽出のためのウインドウの長さTを決定する。
続いて、段階S216において、決定されたウインドウの長さTによって入力信号からピークを抽出する。音声検出システムは、段階S218において、抽出されたピークの電圧レベルと所定の閾値電圧レベルLとを比較して、閾値電圧レベルLより大きいピークを検出する。
続いて、音声検出システムは、段階S220において、検出されたピークシーケンスの電圧レベルが、決定された閾値電圧レベルLより大きいか小さいかにより、そのピークシーケンスを二進シーケンスに変換する。このとき、入力信号から抽出されたピークシーケンスの電圧レベルが、決定された閾値電圧レベルLより大きければ1になり、決定された閾値電圧レベルLより小さければ0になる。例えば、ピークシーケンスは、電圧レベルによって“1100011110001111”のようなピークシーケンスに変換される。
音声検出システムは、段階S222において、変換された二進シーケンスを用いてマイクロイベントを検出する。すなわち、音声検出システムは、入力される二進シーケンスを検査するためのテストウインドウWの長さを決定し、二進シーケンスをテストウインドウの長さ単位で検査して、各テストウインドウ内の“1”の値を持つシーケンスの個数を把握する。また、テストウインドウ内の全てのシーケンスの中で“1”の値を持つシーケンスの個数が所定の個数になれば、これをマイクロイベントとして検出する。このようなマイクロイベントは、音声として検出できるピークの最小単位である。
音声検出システムは、マイクロイベントを検出した後、段階S224においてマイクロイベントをリンクする。このとき、リンクされたマイクロイベントのチェーンは発話した音声信号の各部分に該当する。マイクロイベントのリンク時、リンクされるマイクロイベント間にギャップが存在する場合、リンクされたマイクロイベントと実際の音声信号との間に差が発生することで、実質的な音声開始点及び終了点の検出が不確実になり得る。このような問題を解決するために、マイクロイベントのリンクのためのリンク条件が設定され、条件が満足されるとリンク処理を実行する。本発明の実施形態では、マイクロイベントの間隔が40ms以内であれば、互いにリンク可能と判断してリンクする(実用的には、25〜150msの範囲でリンク可能であるようにできる)。
前述したように、リンク条件によってマイクロイベントをリンクした後、音声検出システムは、段階S226において、リンクされたマイクロイベントの開始点及び終了点を検出する。このとき、音声信号の特徴により、リンクされたマイクロイベントの開始点及び終了点の検出の正確度を調節できる。音声検出システムは、検出されたマイクロイベントの開始点及び終了点を用いて音声信号開始点及び終了点を判断する。
続いて、音声検出システムは、段階S228において、判断された音声信号の開始点及び終了点を用いて、入力信号のうちの音声信号部分を検出する。
前述したように構成された本発明の実施形態による音声信号検出システムでは、背景雑音だけが存在する状況で、背景雑音のピーク分布を用いてピーク選択率rを決定し、ピーク選択率rに対応する閾値電圧レベルLを決定する。その後、決定された閾値電圧レベルLを用いて、入力信号に含まれた音声信号に該当するピークの中の該当ピークを検出し、音声信号に該当するピークから音声の開始点及び終了点を検出して音声を検出する。
よって、本発明の実施形態による音声信号検出システムは、入力信号の時間軸ピーク情報を用いて音声信号を検出することにより、計算量が少なく、背景雑音の影響も小さく、状況によって最適な検出方法を適用し得る。
前述した本発明の実施形態による音声検出方法を、より具体的に説明すれば、本発明の実施形態では、所定のピーク選択率rに従って決定される閾値電圧レベルLにより音声が検出される。このようなノンパラメトリック(non-parametric)過程の動作範囲(operating range)に対する理論は、パラメータを用いたガウス雑音背景(Gaussian noise background)における白色ガウス信号(white Gaussian signal)の分析により展開できる。すなわち、このような過程は、ガウス雑音背景での破裂音(plosive)の音声を非常に正確に検出できる。下記では、このような場合に対して動作パラメータを選択できるように詳細な例を説明する。
本発明の実施形態による音声検出方法では、背景雑音信号と入力信号との振幅境界を決定する振幅閾値設定値とピーク−周波数閾値の、2種類の密接な関係のパラメータが選択されるべきである。
ここで、振幅密度閾値の決定は、ソナー検出(sonar detection)における一般的な検出閾値と類似している。これは、特定雑音の場合に対する本発明の検出閾値を特性化するために、一般的な技法が使用され得ることを意味する。経験によるN個の統計的に独立的な値の集合からなる、簡単な二進仮定(binary hypothesis)によれば、雑音だけが存在する信号、及び雑音と信号とが含まれた信号は、下記の式(2)のように示される。
Figure 0004545729
式(2)において、雑音と信号とが含まれた信号と、雑音だけが存在する信号は白色ガウスプロセスにより、下記の式(3)のような密度関数で示される。
Figure 0004545729
上記式(3)において、雑音の平均値は、信号が加えられても変化しない。このとき、信号と雑音との平均は全部0である。しかしながら、ガウス信号が存在する場合、雑音は変移量(variance)を持つ。
このような雑音の変移を検出するのによく使用される技法は、全体エラーを最小化させて最適の判断ルールを検索するBayerの基準(Bayer's criterion)技法である。最適なBayerの判断ルールに従う中間式は、下記式(4)の通りである。
Figure 0004545729
上記式(4)は、公知の尤度比検定(likelihood ratio test)であって、Λ(R)は尤度比であり、ηは検定の振幅閾値である。これは、二進仮定検定の基本的な形態である。尤度比検定を利用すれば、観測結果のセット(set of observations)rに対する確率の比を下記の式(5)のように定義することができる。
Figure 0004545729
尤度比の実験的な形態は、経験値に雑音と信号との確率密度関数(PDF)を代入し、経験値を結合した確率密度関数(PDF)を求めることにより得られる。振幅閾値は、決定費用と、以前の確率のエラーとを最小化させるBayerの基準に適している。
一般的に、このような項目を設定するに際して、信号と雑音とに対して予めいくつかの仮定が要求される。最適の判断技法に対して利用可能な式を探し出す過程は、N個の経験値の集合を結合した密度関数を算出するものである。経験値は統計的に独立的と仮定されるので、結合された密度分布は一つのサンプル密度分布として用いられる。
Figure 0004545729
Figure 0004545729
式(6)及び式(7)を式(5)に代入すれば、尤度比検定式である式(4)は、下記の式(8)のように示される。
Figure 0004545729
上記式(8)は、通常、十分統計値(sufficient statistic)を含む式に再整理でき、これは標準的な検出方法を決定できるようにする。
本発明の音声検出方法との関係を単純化させるために、上記式(8)は、上記のような中間的な式にすることが要求される。
ここで、誤警報(false alarm;FA)の確率を求めるための雑音に対する二進係数が、下記式(9)のように示される。
Figure 0004545729
上記式(9)において、
Figure 0004545729
は、各々成功確率(probability of success;POS)及び失敗確率(probability of failure;POF)を示す。
すなわち、上記式(9)において、
Figure 0004545729
が各々0.995及び0.005である場合、10個のうちで8個以上のピークが雑音閾値を超過する確率は1.74E−17になる。ここで重要な点は、0.5%のピークだけが雑音閾値レベルを超過するように定められたということである。音声検出が行われるためには、POSを、POFよりも、すなわち、
Figure 0004545729
よりも大きくなるように増加させることで、潜在的な分布状態を変化させる信号が存在するようにする。このような分析は、尤度比検定を2種類の異なる二進係数の和に対する比較として用いる動機付けを提供することになる。
よって、本発明の実施形態では、雑音に対する二進係数と、信号及び雑音に対する二進係数とを比較する。このような雑音に対する二進係数と、信号及び雑音に対する二進係数との比較が、下記の式(10)を用いて実行される。
Figure 0004545729
上記式(10)では、2種類の異なる分布(信号及び雑音)の端部(すそ)の領域に基づく二進係数の和を比較している。このような尤度比検定では、二進和も十分統計値である。
本発明の実施形態を実質的に適用するに際して、上記式(10)を用いた直接的な計算よりは、異なる雑音−ピーク分布での閾値の設定値を決定するために、ルックアップテーブル(look-up table)を使用することができる。
このような閾値の設定値は、ピークヒストグラムに基づき、実質的にピーク大きさの設定値により決定される。
一方、式(10)を利用するためには、
Figure 0004545729
との間の関係を定義すべきである。このために、式(3)の信号及び雑音のピーク確率密度関数と、式(10)の二進パラメータとを数学的に関連させる式が必要である。
まず、ピーク確率密度関数を誘導するために、便利な統計的プラットホームとして順序統計量(OS:order statistics)を使用することができる。これは、データサンプル集合の次数を説明するのに使用される数学的統計方法である。ここで、ピークは、中間値が両側の2点よりも大きい、3点の集合に定義される。
このようなピークに対する定義は、H.J.Larson、“Introduction to Probability Theory and Statistical Inference”、3rded., NY:Wiley,1982., R.J.Larsen and M.L.Marx, “An Introduction to Mathematical Statistics and its Applications”2nd edition, Prentice-HallInc., Engelwood Cliffs N.J.,1986.のような参考文献を参考し、詳細な説明を省略する。
以下、Xを確率密度関数f(x)における継続的なランダム変数という。もし、サイズnのランダムなサンプルがf(x)から得られる場合、i番目のOSに対する限界の(marginal)PDFは、下記式(11)の通りである。
Figure 0004545729
背景雑音における3点のサンプルサイズを考慮すれば、次数(order)が3であるOSを利用できる。よって、n=3、i=3であれば、下記式(12)の通りである。
Figure 0004545729
上記の式(12)は、連続的な任意の変数に対する(例えば、フレーム長が3に対する)ピークのPDFを示すものである。ここで、ピークのPDFに関して解くために、式(2)のようなPDFの背景雑音に対する式を挿入すべきである。上記式(12)に背景雑音に対する式を挿入すれば、3次OSに対して下記式(13)が算出される。
Figure 0004545729
上記式(13)において、直交技法(quadrature technique)や変換技法(transformation approach)を使用した積分値が計算されるべきである。変換技法において、現在の積分値は、リンク可能なプログラムライブラリーにより現在の積分値が容易に計算される他の積分式に変換されるべきである。
このために、
Figure 0004545729
は、下記の式(14)のような式に変換され得る。
Figure 0004545729
また、上記の式(13)を容易に計算するために、積分のリミット(limit)を下記の式(15)のように適用できる。
Figure 0004545729
また、式(12)の累積分布関数(cumulative distribution function)は、エラー関数(error function)を使用して下記の式(16)のように変換できる。
Figure 0004545729
上記式(16)に対する確率密度グラフが、図5A及び図5Bに示されている。図5Aは“3次OS”を用いた確率密度グラフで、図5Bは修正された(modified)“3次OS”を用いた確率密度グラフである。
図5A及び図5Bには、2種類の確率密度グラフが示されている。このうち、不規則なカーブは、平均値0と標準偏差30とを持つガウス雑音背景のピークに対する実験的な確率密度グラフであり、ガウス乱数のシーケンスピークに対してヒストグラム技法を用いて生成されたものである。
一方、スムーズなカーブは、上記式(16)を用いて生成された確率密度グラフであって、“3次OS”の定義に基づくピークの振幅に対する理論的な確率密度グラフを示す。
“3次OS”の定義によれば、両方のカーブは整合されるべきであるが、そうでない。その理由は、実験的な解析時に、“i次OS”の定義に対する制限があるためである。理論的に、“i次OS”は、“順序集合(ordered set)で任意の2つの値が互いに異なる”という内容を含んでいる。しかしながら、実験的な解析時には、−128から+128までの間の整数値に限定された8ビットの数字が、ランダムな数を格納するために使用される。このような限界により、ピークを構成する3点のうちで2点が全く同じ状況が発生することになる。
このような問題点を解決するために、本発明の実施形態では、下記式(17)のような修正された“3次OS”を使用する。
Figure 0004545729
上記の式(17)において、Cは、上記式(17)が実際の確率密度関数になるように作る標準常数である。上記式(17)は、
Figure 0004545729
が0でない確率により発生するということを認識することにより、修正された“3次OS”になる。
よって、“3次OS”を構成する3点の集合を最大化するために、
Figure 0004545729
このとき、上記式(17)は、3つの確率の積からなる。例えば、ピークが同一の確率密度から、3つのランダムな数が選択される場合が、ここで説明される。
このために、まず、
Figure 0004545729
により一つのランダムな数を選び、1番目よりも確実に小さい2番目のランダムな数を選ぶ確率は、
Figure 0004545729
である。また、3番目も同様である。各3つのランダムな数を選ぶ確率が独立的なので、連続的な確率は、3つの確率の積になる。
このとき、“3次OS”を満足させながら、3つのランダムな数を選ぶことができる6つの異なる方法がある。しかしながら、実際のピークは最大点が中間に位置する場合にだけ該当し、実際のピークが存在する確率は、2/6=1/3の確率である。よって、下記式(18)、すなわち、
Figure 0004545729
より下の領域が約1/3であれば、標準化常数に対する適切な選択は3Cである。
図5A及び図5Bは、同一の実験的なピーク確率密度関数グラフを示す。このとき、背景雑音は平均0と標準偏差30とを持つガウス信号が用いられる。図5Bのスムーズなカーブは、上記の式(17)においてC=1.029の修正された“3次OS”に作られた理論的なピーク確率密度関数である。このとき、式(17)において、パラメータCは、まず、式(17)を標準化して適切な確率密度関数になるように、逆関数値を予測して計算される。よって、図5Bでは、理論的な確率密度関数グラフと実験的な確率密度関数グラフとが非常に正確に一致することを確認することができる。
すなわち、前述したような本発明の実施形態によれば、式(17)は、ピーク確率密度関数の実験的なヒストグラムと整合することになる。これに基づいて、ピーク確率密度関数のための式(17)は、雑音ピーク及びシングルピークガウス密度関数に使用されることができる。
これは、本発明の
Figure 0004545729
に関連した尤度比検定の動作を説明するのに必要な“ミッシングリンク(missing link)”を提供する。
Figure 0004545729
により雑音閾値が決定されれば、
Figure 0004545729
により雑音のピークに対する
Figure 0004545729
も決定される。
ここで、閾値は、物理的な電圧レベルにより決定される“レール(rail)”の形態であり、このようなレールの下、上に存在する雑音ピークのパーセンテージ(percentage)により説明される。ガウス信号が存在すれば、新しい信号雑音ガウス密度関数が生成される。この新しいカーブは“レール”の下、上に存在する他のピークのパーセンテージを有する。よって、一旦、雑音のピークに対する
Figure 0004545729
が定義されれば、全ての信号雑音密度に対する
Figure 0004545729
も、同様に定義される。
図6は、本発明の実施形態による雑音のみの信号、及び信号と雑音とが混合された信号の各々に対する確率密度関数グラフを示す図である。図6では、修正された“3次OS”の公式である式(17)に基づいたPDFを示す。より高いピークを持つカーブは雑音ピークに対するPDFで、より低いピークを持つカーブは信号と雑音とが混合された信号のピークに対するPDFである。同図において、信号と雑音とが混合された信号はゼロ平均ガウス信号(zero mean Gaussian signal)で、標準偏差は各々雑音のみの信号であるときは20で、信号と雑音とが混合された信号であるときは40である。結果的なSNR(信号対雑音比)は4.8dBで、他の検出方法より非常に良好なピーク検出のための最小の許容可能な目標SNRになる。カーブにある線は
Figure 0004545729
の場合の雑音ピークのうちのハイレバルピークのPOSに対する閾値セッティング値を示す。これに対応するPOFは
Figure 0004545729
であり、これは雑音ピークの90%が閾値セッティング値以下にあることを意味する。
本発明の実施形態では、閾値を線で表示することで、信号と雑音とが混合された信号の密度の閾値より上に存在するピークのパーセンテージが積分により容易に計算される。この場合、POFは雑音のみの信号で0.9にセッティングされ、信号と雑音とが混合された信号のPOFは0.46である。
Figure 0004545729
このとき、前述したような式(19)が有効統計値(efficient statistics)を示し、検出及び失敗の確率(probability of detection and failure)を定義するので、“ROC(receiver operating characteristic)カーブを作るために利用されることができる。ガウス雑音におけるガウス信号の標準検出器分析(standard detector analysis)において、座標系(coordinate system)は、尤度比検定における項のサブセット(subset of the terms in the likelihood ratio test)なので、座標系は、十分統計値を支援するために変更されるべきである。
上記式(19)の右項は、雑音ピークに対するPDFの上側端の下部の領域(直線、及び雑音ピークに対するPDFのカーブで区分された領域)を示すので、本発明の実施形態による音声検出方法では、下記の式(20)のように誤警報の確率、P(FA)になる。
Figure 0004545729
また、本発明の実施形態によれば、まず、雑音閾値が決定され、信号のレベル及びタイプによってPが決定される。このとき、nとkのパラメータ(k out of n:nのうちのk)は、検出される信号の性質によって決定されるべきである。ここで、nとkの適当な設定により音声信号検出の性能が左右される。
また、上記式(19)の左項は、検出の確率P(D)であり、信号と雑音とが混合された信号のピークに対するPDFの上側端の下側の領域(直線、及び信号と雑音とが混合された信号のピークに対するPDFのカーブで区分された領域)を示す。このような式(19)の左項は、下記式(21)のように示される。
Figure 0004545729
上記式(21)において、雑音に相対的である信号の強度によってPOS及びPOFが定義されれば、nとkはP(D)を決定することになり、P(D)の結果は予測可能である。例えば、信号と雑音とが混合された信号のピークPDFが右側に多く移動すれば、非常に大きい信号を意味し、P(D)=1になる。しかしながら、P(FA)は、閾値より上にある雑音ピークPDF部分だけに依存するので、相変らず0でない。
図6において、閾値が0.9である場合(すなわち、閾値の下に90%の雑音ピークが存在する場合)、6dBガウス信号で結果的なPは1.0−0.46=0.54である。このような情報は、様々なnとkセッティングによるROCカーブを作り出すために使用される。各“k out of n”シナリオは、各々異なる一つの検出器で具現されることができる。
各“k out of n”シナリオの例として、下記の表1では、3種類のPOF閾値0.9、0.95、0.98から、“k out of 5”に対する様々なパラメータセッティング値に対するP(D)と、それに対応するP(FA)とを示している。
Figure 0004545729
また、下記の表2では、3種類のPOF閾値0.9、0.95、0.98から、“k out of 10”に対する様々なパラメータセッティング値に対するP(D)と、それに対応するとを示している。
Figure 0004545729
本発明の実施形態によれば、前述したような各“k out of n”に従うテーブルを利用すれば、状況に応じて適切な値にセッティングして、音声信号を検出できる。前述した表1及び表2のセッティング値を用いた音声信号検出結果が、図7A〜図7Cに示されている。
図7A〜図7Cは、本発明の実施形態による選択率(count ratio)r=0.1、0.05、0.02で、n=10、5で、kは1〜10、1〜5に各々変化する時の色々なセッティングに対する検出値を示す図である。
図7A〜図7Cによれば、本発明では、音声の終了点をピーク(3データポイント)から検出するので、最大FA比率は、どのような検出がリンクされるかを制御できるようにセッティングされるべきである。それぞれのピーク検出は、テストウインドウサイズに基づいた一つのマイクロイベントである。ここで、連続的又は互いに隣接したマイクロイベントは自然に互いにリンクされ、非隣接したマイクロイベントも互いにリンクされる。このとき、音声エラーを作り得るマイクロイベントは、互いリンクしないようにすべきである。
有用なFA範囲は、150ms以上離れている音声エネルギーパルスはほぼ常に異なる発話に属しているという実験結果を活用して得られる。よって、FAが150ms以上離れていれば、誤ったリンクは起こらない。150msは、8kHzで1200ポイントであり、白色雑音に対して約400ピークに該当する。150ms毎の一つのFAは、6.67FAs/secに該当するが、このようなセッティングにより、本発明の方法は終了点を正確に検出できる。このようなFA制限をテーブルのセッティングと比較するために、表に記入されたP(FA)値は、テストウインドウに対するFAから時間に対するFAに変換されるべきである。このような変換FA比率に対する情報が、表3に示されている。
Figure 0004545729
上記の表3は、表1の変換されたFA比率情報を持つ。*が表示される部分は、8kHzサンプリング率におけるFA設定値により(FAが150ms毎に一つ以下であると仮定する時)、本発明の実施形態を満足する動作ポイントを示している。
本発明の実施形態では、ピークシーケンスを閾値電圧レベルLに基づいて二進シーケンスに変換する。テストウインドウWが選択されれば、信号の存在の有無を確認するためにウインドウ内の“1”の個数を把握し、仮に、閾値セッティングLがピークのトップ20%を分離すれば、少なくとも、10個のうちで8個のピークが現在の雑音背景で閾値を越える確率は7.79E−05になる。このような非常に低い確率は、10個のうちで8個のピークを含んだテストウインドウが、現在の背景雑音によるものでなく、実質的に新しい信号ということを示す。
ここで、数値的な確率は、10個のピークウインドウの観点より、P(FA)と考えられることができる。テストウインドウ(例えば、“4 out of 5”において5)は、3つのデータポイント毎に一つのピークのレートで現れる1次ピークからなるため、FA比率は30データポイント毎に7.79E−05である。
エラーには、雑音を信号と判断する加算エラー、及び信号を雑音と判断する減算エラーがあるが、情報を消失させる減算エラーが起きないようにすることが重要である。よって、低いSNRの状況では、閾値が非常に高いことが好ましい。テストウインドウが長い場合には、正弦波の周波数が大きくなる時、検出のためのピークのクラスター(cluster)がより小さくなる。従って、大きいテストウインドウの代りに、小さいテストウインドウを使用することが、FA比率をより低減でき、ピークのクラスターの検出信頼度をより高めることができる。例えば、テストウインドウの長さを10から5に低減し、“4 out of 5”の仮定において、FA比率は3.0E−05に改善され得る。このような“4 out of 5”テストウインドウにおける定常FA比率は、1秒当り0.12になる。よって、閾値上の与えられたピークの個数に対し、テストウインドウの長さを最小化すれば、P(FA)が最小化される。
基本的な概念は、テストウインドウの長さを、検出されるピーククラスターやマイクロイベントにマッチさせるものである。このような情報は、短期間の低いSNR正弦波を信頼性よく検出するのに利用される。仮に、正弦波が長い区間を有する場合、処理利得が検出の前に具現されるので、周波数領域技法を使用することができる。しかしながら、短い正弦波の場合は、時間軸で検出が行われるべきである。テストウインドウの長さをW=5に低減するとき、低い周波数正弦波のピーク間に何らの検出も行われない領域があり得る。これは、各テストウインドウが完全に検出された信号を含むように要求される場合のみに問題になる。仮に、信号が様々なテストウインドウに渡っている場合、最初及び最後のテストウインドウが、信号の開始点及び終了点を定義するために使用されることができる。参考文献において、各発話に相互の相関性があり、各パラメーターが音声検出のためのリンク基準として使用できるかを決定するために、パラメーターが選択されている。ここで、音声は相対的に機械的な過程により生成され、発音部は相対的に遅く動く。例えば、音声上の発音のランプアップ時間(立ち上がり時間:ramp-up time)は40msの水準であり、これは12kHzサンプリングで480データポイントであることを示す。
このとき、白色雑音データにおいて、480データポイントで約160個のピークが発生し、低いエネルギーを有する相関性がある音声間に与えられた時間は、150ms程度である。よって、“4 out of 5”のテストウインドウが表示され、次の“4 out of 5”のテストウインドウが表示されるまで30msの無音が存在すれば、このような二つのテストウインドウは一つのイベントにリンクされ得る。本発明では、このような接近方法を使用する。
“3 out of 4”や“4 out of 5”のような小さなテストウインドウを満足させるピークのシーケンスは、本発明ではマイクロイベントという。このようなマイクロイベントは、実際に検出できる最小のピークのパッケージであり、このような短いテストウインドウをFAの観点において強固にするように、ヒストグラム閾値以上のレベルを有するピークのパーセンテージ(例えば、ピーク選択率“r”)が、より小さくセッティングされ得る。一旦、このようなマイクロイベントが検出されれば、時間軸で互いに相関性があるかを決定するための理論が使用され得る。マイクロイベントが、時間関係閾値(temporal relationship threshold)を満足させると、互いにリンクされ得る。リンクされた長いマイクロイベントのチェーンは、発話した音声の部分を有効に検出することになる。ここで、検出はマイクロイベントのセットにおいて実行されるため、リンク条件によって、多数の音声開始点及び終了点が検出される。よって、状況に合う特徴抽出変数を適用して、柔軟で最適化した音声検出が可能である。
実際の性能比較実験の結果を、下記の表4及び表5に示す。
Figure 0004545729
Figure 0004545729
上記の表4及び表5において、1番は理想的な場合で、括弧内はエラー量を示す。2番はエネルギー検出方法を用いた音声検出の結果を示す。3番はゼロクロスレート方法を用いた音声検出の結果を示す。4番はエネルギー検出方法及びゼロクロスレート方法の両方を用いた音声検出の結果を示す。5番は本発明の実施形態による音声検出方法を用いた音声検出の結果を示す。
表4は、“eight”という単語を2回発音した場合に対する結果を示すもので、A(A')=最初の発話の開始点、B(B')=最初の発話の終了点、C(C')=2回の発話の開始点、D(D')=2回の発話の終了点であり、A、B、C、Dは雑音が殆どない場合(30dB)であり、A'、B'、C'、D’は強い雑音がある場合(5dB)である。ここで、“+のエラー”は加算エラーを示し、“−のエラー”は減算エラーを示す。本発明の結果は、従来の方法とは異なり、情報を消失した減算エラーが発生しないことを確認することができる。また、表5は、“nine”という単語を2回発音した場合に対する比較結果を示すもので、表4のように減算エラーが発生しないことを確認することができる。すなわち、本発明の実施形態による音声検出方法は、従来の方法に比べ、雑音環境において性能が優れるだけでなく、減算エラーが発生せず、計算が容易であることを確認することができる。
なお、本発明の詳細な説明では具体的な実施形態について説明したが、本発明の要旨から逸脱しない範囲内で多様に変形できる。よって、本発明の範囲は、前述の実施形態に限定されるものではなく、特許請求の範囲の記載及びこれと均等なものに基づいて定められるべきである。
本発明の実施形態による音声信号検出システムのブロック構成図である。 本発明の実施形態による背景雑音のピーク分布を用いた閾値電圧レベル決定過程を示すフローチャートである。 本発明の実施形態による背景雑音信号に対するピークと、そのピークの電圧レベルとに対するヒストグラムを示す図である。 本発明の実施形態による背景雑音信号に対するピークと、そのピークの電圧レベルとに対するヒストグラムを示す図である。 本発明の実施形態による閾値電圧レベルを用いた音声検出方法を示すフローチャートである。 本発明の実施形態による背景雑音のピークに対する確率密度グラフの例示図である。 本発明の実施形態による背景雑音のピークに対する確率密度グラフの例示図である。 本発明の実施形態による雑音信号及び音声と雑音とが混合された信号の各々に対する確率密度関数グラフの例示図である。 本発明の実施形態による色々なセッティングに対する音声信号検出結果を示す図である。 本発明の実施形態による色々なセッティングに対する音声信号検出結果を示す図である。 本発明の実施形態による色々なセッティングに対する音声信号検出結果を示す図である。
符号の説明
102 ピーク抽出部
104 ピーク検出部
106 マイクロイベント検出部
108 マイクロイベント連結部
110 音声開始点及び終了点判断部
122 背景雑音ヒストグラム生成部
124 ピーク検出閾値電圧レベル決定部

Claims (8)

  1. 音声信号検出システムにおいて、
    入力信号から時間軸上の該入力信号の振幅のピークを抽出するピーク抽出部と、
    抽出された前記ピークの電圧レベルと所定の閾値電圧レベルとを比較して、その比較結果を二進シーケンスに変換するピーク検出部と、
    前記変換された二進シーケンスを検査するためのテストウインドウの長さを決定し、前記テストウインドウの長さ単位でマイクロイベントを検出するマイクロイベント検出部と、
    前記検出されたマイクロイベントをリンクするマイクロイベントリンク部と、
    前記リンクされたマイクロイベントの開始点及び終了点を検出して、音声信号の開始点及び終了点を判断する音声信号の開始点及び終了点検出部と、を含み、
    前記マイクロイベント検出部は、前記各テストウインドウ内の前記閾値電圧レベルよりも大きいピークに該当するシーケンスの個数を把握し、把握されたシーケンスの個数が所定の個数であれば、そのシーケンスをマイクロイベントとして検出する
    ことを特徴とする、音声信号検出システム。
  2. 背景雑音だけが存在する入力信号から抽出された前記ピークと、そのピークの電圧レベルとを用いて、背景雑音ヒストグラムを生成する背景雑音ヒストグラム生成部と、
    生成された前記背景雑音ヒストグラムを用いて、所定のピーク選択率に対応する閾値電圧レベルLを決定する閾値電圧レベル決定部と、をさらに含むことを特徴とする、請求項1に記載の音声信号検出システム。
  3. 前記マイクロイベントリンク部は、前記検出されたマイクロイベントのうち、互いの時間間隔が一時的な相関閾値以内のマイクロイベントをリンクすることを特徴とする、請求項1に記載の音声信号検出システム。
  4. 前記一時的な相関閾値は40msであることを特徴とする、請求項3に記載の音声信号検出システム。
  5. 音声信号検出方法において、
    入力信号から時間軸上の該入力信号の振幅のピークを抽出するステップと、
    抽出された前記ピークの電圧レベルと所定の閾値電圧レベルとを比較して、その比較結果を二進シーケンスに変換するステップと、
    前記変換された二進シーケンスを検査するためのテストウインドウの長さを決定し、前記テストウインドウの長さ単位でマイクロイベントを検出するステップと、
    前記検出されたマイクロイベントをリンクするステップと、
    前記リンクされたマイクロイベントの開始点及び終了点を検出して、音声信号の開始点及び終了点を判断するステップと、を含み、
    前記マイクロイベントを検出するステップは、
    前記各テストウインドウ内の前記閾値電圧レベルよりも大きいピークに該当するシーケンスの個数を把握するステップと、
    把握されたシーケンスの個数が所定の個数であれば、そのシーケンスをマイクロイベントとして検出するステップと、を含む
    ことを特徴とする、音声信号検出方法。
  6. 背景雑音だけが存在する入力信号から抽出された前記ピークと、そのピークの電圧レベルとを用いて、背景雑音ヒストグラムを生成するステップと、
    生成された前記背景雑音ヒストグラムを用いて、所定のピーク選択率に対応する閾値電圧レベルLを決定するステップと、をさらに含むことを特徴とする、請求項5に記載の音声信号検出方法。
  7. 前記マイクロイベントをリンクするステップは、前記検出されたマイクロイベントのうち、互いの時間間隔が一時的な相関閾値以内のマイクロイベントをリンクすることを特徴とする、請求項5に記載の音声信号検出方法。
  8. 前記一時的な相関閾値は40msであることを特徴とする、請求項7に記載の音声信号検出方法。
JP2006271127A 2005-10-28 2006-10-02 音声信号検出システム及び方法 Expired - Fee Related JP4545729B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050102583A KR100800873B1 (ko) 2005-10-28 2005-10-28 음성 신호 검출 시스템 및 방법

Publications (2)

Publication Number Publication Date
JP2007122047A JP2007122047A (ja) 2007-05-17
JP4545729B2 true JP4545729B2 (ja) 2010-09-15

Family

ID=37635197

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006271127A Expired - Fee Related JP4545729B2 (ja) 2005-10-28 2006-10-02 音声信号検出システム及び方法

Country Status (6)

Country Link
US (1) US7739107B2 (ja)
EP (1) EP1780704B1 (ja)
JP (1) JP4545729B2 (ja)
KR (1) KR100800873B1 (ja)
CN (1) CN1956055A (ja)
DE (1) DE602006000487T2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101515454B (zh) * 2008-02-22 2011-05-25 杨夙 用于语音、音乐、噪音自动分类的信号特征提取方法
KR20100006492A (ko) * 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
CN101625859B (zh) * 2008-07-10 2012-06-06 新奥特(北京)视频技术有限公司 语音端点检测中的短时能频值波形斜率门限的确定方法
CN101625862B (zh) * 2008-07-10 2012-07-18 新奥特(北京)视频技术有限公司 自动字幕生成系统中语音区间的检测方法
JP5834449B2 (ja) * 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
CN102014017B (zh) 2010-09-30 2013-10-09 华为技术有限公司 一种信号检测电路、方法及系统
CN103856600B (zh) * 2012-12-04 2016-09-28 中兴通讯股份有限公司 一种内置搜索语音短信功能的移动终端及其搜索方法
KR20150105847A (ko) * 2014-03-10 2015-09-18 삼성전기주식회사 음성구간 검출 방법 및 장치
CN105095624B (zh) * 2014-05-15 2017-08-01 中国电子科技集团公司第三十四研究所 一种光纤传感振动信号的识别方法
CN105551491A (zh) * 2016-02-15 2016-05-04 海信集团有限公司 语音识别方法和设备
US10789965B2 (en) * 2018-07-03 2020-09-29 Silicon Laboratories Inc. System, apparatus and method for time synchronization of delayed data streams by matching of wavelet coefficients
KR20200017143A (ko) 2018-08-08 2020-02-18 주식회사 케이티 음성 신호를 처리하는 장치, 방법 및 컴퓨터 판독가능 매체
US10891936B2 (en) 2019-06-05 2021-01-12 Harman International Industries, Incorporated Voice echo suppression in engine order cancellation systems

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59104700A (ja) * 1983-11-18 1984-06-16 株式会社日立製作所 音声切り出し装置
JPH10301594A (ja) * 1997-05-01 1998-11-13 Fujitsu Ltd 有音検出装置
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
WO2001039175A1 (fr) * 1999-11-24 2001-05-31 Fujitsu Limited Procede et appareil de detection vocale
JP2002531882A (ja) * 1998-11-30 2002-09-24 マイクロソフト コーポレイション バレーパーセンテージを使用した純粋音声の検出
JP2003330491A (ja) * 2002-05-10 2003-11-19 Nec Corp 音声認識装置および音声認識方法ならびにプログラム
JP2007072005A (ja) * 2005-09-05 2007-03-22 Nippon Telegr & Teleph Corp <Ntt> 非定常雑音判別方法、その装置、そのプログラム及びその記録媒体

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1343869A (en) 1972-05-05 1974-01-16 Post Office Method and apparatus for detecting a speech signal in the presence of noise
US4514703A (en) * 1982-12-20 1985-04-30 Motrola, Inc. Automatic level control system
GB2139052A (en) 1983-04-20 1984-10-31 Philips Electronic Associated Apparatus for distinguishing between speech and certain other signals
JPH02244200A (ja) * 1989-03-17 1990-09-28 Akio Ogiwara 音声信号処理用ピッチ検出回路
US4975657A (en) 1989-11-02 1990-12-04 Motorola Inc. Speech detector for automatic level control systems
JPH0713585A (ja) 1993-06-21 1995-01-17 Casio Comput Co Ltd 音声区間切出し装置
US5563925A (en) 1995-07-20 1996-10-08 Siemens Medical Systems, Inc. Apparatus and method for adjusting radiation in a radiation-emitting device
KR100195009B1 (ko) 1995-09-30 1999-06-15 윤종용 음성재생장치의 음성신호 검출회로 및 그 방법
TW333610B (en) * 1997-10-16 1998-06-11 Winbond Electronics Corp The phonetic detecting apparatus and its detecting method
US6480823B1 (en) 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
JP2001067092A (ja) 1999-08-26 2001-03-16 Matsushita Electric Ind Co Ltd 音声検出装置
US6904146B2 (en) * 2002-05-03 2005-06-07 Acoustic Technology, Inc. Full duplex echo cancelling circuit

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59104700A (ja) * 1983-11-18 1984-06-16 株式会社日立製作所 音声切り出し装置
JPH10301594A (ja) * 1997-05-01 1998-11-13 Fujitsu Ltd 有音検出装置
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
JP2002531882A (ja) * 1998-11-30 2002-09-24 マイクロソフト コーポレイション バレーパーセンテージを使用した純粋音声の検出
WO2001039175A1 (fr) * 1999-11-24 2001-05-31 Fujitsu Limited Procede et appareil de detection vocale
JP2003330491A (ja) * 2002-05-10 2003-11-19 Nec Corp 音声認識装置および音声認識方法ならびにプログラム
JP2007072005A (ja) * 2005-09-05 2007-03-22 Nippon Telegr & Teleph Corp <Ntt> 非定常雑音判別方法、その装置、そのプログラム及びその記録媒体

Also Published As

Publication number Publication date
JP2007122047A (ja) 2007-05-17
DE602006000487T2 (de) 2009-01-22
CN1956055A (zh) 2007-05-02
EP1780704A1 (en) 2007-05-02
KR100800873B1 (ko) 2008-02-04
EP1780704B1 (en) 2008-01-23
KR20070045846A (ko) 2007-05-02
US7739107B2 (en) 2010-06-15
US20070100609A1 (en) 2007-05-03
DE602006000487D1 (de) 2008-03-13

Similar Documents

Publication Publication Date Title
JP4545729B2 (ja) 音声信号検出システム及び方法
KR101437830B1 (ko) 음성 구간 검출 방법 및 장치
US7912709B2 (en) Method and apparatus for estimating harmonic information, spectral envelope information, and degree of voicing of speech signal
US7917357B2 (en) Real-time detection and preservation of speech onset in a signal
US20040064314A1 (en) Methods and apparatus for speech end-point detection
US8046215B2 (en) Method and apparatus to detect voice activity by adding a random signal
US20110264449A1 (en) Detector and Method for Voice Activity Detection
US20140067388A1 (en) Robust voice activity detection in adverse environments
US9520141B2 (en) Keyboard typing detection and suppression
US20070106503A1 (en) Method and apparatus for extracting pitch information from audio signal using morphology
US7860708B2 (en) Apparatus and method for extracting pitch information from speech signal
WO2007023660A1 (ja) 音識別装置
US20100082341A1 (en) Speaker recognition device and method using voice signal analysis
JP4682700B2 (ja) 音声認識装置
Ramírez et al. Speech/non-speech discrimination based on contextual information integrated bispectrum LRT
KR20060058747A (ko) 음성 판별 방법
US20080172225A1 (en) Apparatus and method for pre-processing speech signal
KR20120056661A (ko) 음성 신호 전처리 장치 및 방법
US7630891B2 (en) Voice region detection apparatus and method with color noise removal using run statistics
US8103512B2 (en) Method and system for aligning windows to extract peak feature from a voice signal
KR100303477B1 (ko) 가능성비 검사에 근거한 음성 유무 검출 장치
JP2017116876A (ja) 話者認識装置、判別値生成方法及びプログラム
Górriz et al. Generalized LRT-based voice activity detector
US20050246169A1 (en) Detection of the audio activity
KR100530261B1 (ko) 통계적 모델에 기초한 유성음/무성음 판별 장치 및 그 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100430

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100601

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100630

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4545729

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees