JP4795919B2 - 音声区間検出方法 - Google Patents

音声区間検出方法 Download PDF

Info

Publication number
JP4795919B2
JP4795919B2 JP2006329871A JP2006329871A JP4795919B2 JP 4795919 B2 JP4795919 B2 JP 4795919B2 JP 2006329871 A JP2006329871 A JP 2006329871A JP 2006329871 A JP2006329871 A JP 2006329871A JP 4795919 B2 JP4795919 B2 JP 4795919B2
Authority
JP
Japan
Prior art keywords
frame
lip
noise
video
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006329871A
Other languages
English (en)
Other versions
JP2007156493A (ja
Inventor
リー、スー、ジョン
キム、サン、フン
リー、ヤン、ジク
キム、ユン、キュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Original Assignee
Electronics and Telecommunications Research Institute ETRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020060064262A external-priority patent/KR100820141B1/ko
Application filed by Electronics and Telecommunications Research Institute ETRI filed Critical Electronics and Telecommunications Research Institute ETRI
Publication of JP2007156493A publication Critical patent/JP2007156493A/ja
Application granted granted Critical
Publication of JP4795919B2 publication Critical patent/JP4795919B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Description

本発明は、映像信号と音響信号とを結合し、音声区間を検出する音声区間検出装置及び方法並びに音声認識システムに関する。
音声認識(speech recognition)は、人間が話す言葉の音響的な信号の特徴をコンピュータで分析し、文字に変換する一連の過程である。音声認識が行われる主要な手続は、大きく、前処理(preprocess)、探索(search)、及び後処理(post-process)に分けられる。
まず、音声入力装置を介して音響信号を受信するようになるが、前処理段階では、入力される音響信号を対象として音声の開始点と終点(音声区間(speech segment)又はEPD;End Point Detection)を検出した後、音響的特徴を抽出する。
次に、予め用意された音響モデルと発音辞典を探索し、前処理段階で抽出された特徴と類似した音素を探し出し、単語や文章で結合する探索過程がある。また、探索結果のエラーを低減するために、言語モデルを適用する後処理過程を経る。
前述したような音声認識過程を図1を参照して詳細に説明する。
図1は、従来の音声認識システムにおいての音声認識方法を示す流れ図である。
図1を参照すれば、音声認識システムは、音響信号が受信される場合(ステップS100)、前記受信された音響信号をフレーム化する(ステップS102)。
その後、前記音声認識システムは、前記音響信号に対してフレーム毎に静的雑音を除去する(ステップS104)。すなわち、前記音声認識装置は、フレーム毎に低域通過フィルタリングを行い、高域成分を除去する。
ステップS104を行った後、前記音声認識システムは、前記静的雑音が除去された各フレーム毎に絶対エネルギーが大きく、ゼロ交差率(zero-crossing rate)が小さいか否かを判断する(ステップS106)。すなわち、前記音声認識システムは、絶対エネルギーが小さいか、ゼロ交差率が大きい場合、雑音であると判断し、絶対エネルギーが大きく、ゼロ交差率が小さい場合、音声フレームであると判断する。
ステップS106の判断結果、当該フレームに対して 絶対エネルギーが大きく、ゼロ交差率が小さい場合、前記音声認識システムは、当該フレームを音声フレームであると判断する(ステップS108)。
その後、前記音声認識システムは、音声フレームが一定数以上持続されるか否かを判断する(ステップS110)。
ステップS110の判断結果、音声フレームが一定数以上持続される場合、前記音声認識システムは、当該フレーム区間を音声区間であると判断する(ステップS112)。
その後、前記音声認識システムは、前記判断された音声区間で特徴ベクトルを抽出し(ステップS114)、前記抽出された特徴ベクトルを用いて音声認識を行う(ステップS116)。
すなわち、前記音声認識システムは、音響モデルと発音辞典を探索し、前記抽出された特徴ベクトルと類似した音素を探し出し、単語や文章で結合する。その後、前記音声認識システムは、前記結合された単語や文章のエラーを低減するために、言語モデルを適用して音声認識を行う。
ステップS106の判断結果、仮に該当フレームに対して絶対エネルギーが大きくないか、ゼロ交差率が小さくない場合、前記音声認識システムは、該当フレームを雑音として判断し(ステップS118)、ステップS104を行う。
ステップS110の判断結果、仮に音声フレームが一定数以上持続されない場合、前記音声認識システムは、該当フレームを雑音として判断し(ステップS118)、ステップS104を行う。
前述したような過程により音声認識を行うことができる我らの日常環境は、周辺騒音やコンピュータ内部のチャンネル雑音及び通信網雑音など多様な雑音で取り囲まれている。
従って、音声認識の全体過程において、音声区間の検出は、必ず先決されなければならない課題であって、認識率の性能に直接的な影響を与えるようになる。
しかしながら、前述のような従来の音声区間検出方法は、基本的に入力信号の音響エネルギーの大きさとゼロ交差率及び連続性を主要なパラメータとして活用するので、音声と雑音を区別することが容易でないという短所がある。
また、音声区間検出は、音響エネルギーの有無が音声区間検出の出発点となるが、音声と雑音は、いずれも音響エネルギーを有しているので、音声と雑音を区別することが容易でないという短所を有する。
また、一定の大きさを有する音響エネルギーと高周波数を特徴とする静的(stationary)雑音の除去技術は多く活用されているが、動的(dynamic)雑音と音声を識別する技術がないという短所がある。
また、動的雑音が除去されずに、音声区間に分類され、音声認識過程に送られることによって、不要な資源が実行されるだけでなく、音声認識エラーが発生するという問題点がある。
米国特許公開US6,185,529B1号明細書 大韓民国特許公開第2005―0015585号明細書
従って、本発明の目的は、多様な雑音が存在する実際環境で音声認識エラーの主要な原因として提起されている動的雑音を効果的に除去できる音声区間検出装置及び方法並びに音声認識システムを提供することにある。
また、本発明の他の目的は、唇動きがない状態で入力される音響エネルギーを雑音として見なして、音声区間として検出されないようにして、音声認識のエラーを低減することができる音声区間検出装置及び方法並びに音声認識システムを提供することにある。
前記目的を達成するために、本発明の一態様に係る音声区間検出装置は、音響受信部及び映像受信部を備える音声区間検出装置において、前記映像受信部から出力される映像フレームで動き領域を検出し、前記検出された動き領域に唇動き映像特徴情報を適用して唇動き信号を検出する唇動き信号検出部と、前記音響受信部から出力される音響フレームと、前記唇動き信号検出部で検出された唇動き信号を用いて音声区間を検出する音声区間検出部と、を備えることを特徴とする。
また、本発明の他の態様に係る音声区間検出方法は、音響受信部及び映像受信部を備える音声認識システムにおいて音声区間を検出する方法であって、前記音響受信部から出力される音響フレームを対象として静的雑音を除去し、前記雑音が除去された音響フレームが音声可能フレームであるか否かを判断する段階と、前記判断結果、前記音響フレームが音声可能フレームなら、前記音声可能フレームが検出される時点に映像フレームで唇動き信号が検出されるか否かを判断する段階と、前記判断結果、前記映像フレームで唇動き信号が検出される場合、前記音声可能フレームを音声フレームとして判断して格納し、音声フレームの個数が予め定められた一定個数以上であるか否かを判断する段階と、前記判断結果、 音声フレームの個数が予め定められた一定個数以上である場合、当該音声フレームを音声区間として検出する段階と、を備えることを特徴とする。
前記音声可能フレームが検出される時点に映像フレームで唇動き信号が検出されるか否かを判断する段階は、連続して受信される映像フレームで以前フレームと現在フレームに対してピクセル単位でピクセル値を比較し、動き映像を検出する段階と、前記検出された動き領域毎に大きさ、幅、長さ、位置情報を把握する段階と、前記把握された動き領域の特徴に唇動き映像特徴情報を適用して唇動き領域であるか否かを判断し、当該判断結果に基づいて唇動き信号を生成する段階と、を備える。
ここで、前記把握された動き領域の特徴に唇動き映像特徴情報を適用して唇動き領域であるか否かを判断し、当該判断結果に基づいて唇動き信号を検出する段階は、前記把握された動き領域の特徴と前記唇動き映像特徴情報とを比較し、類似度を求める段階と、前記求められた類似度が予め定められた一定値以上である場合、唇動き領域として判断し、唇動き信号を生成する段階と、を備える。
また、本発明のさらに他の態様に係る音声認識システムは、ユーザにより入力された音響信号をデジタル信号に変換し、フレーム化する音響受信部と、映像撮影部を通じて撮影された映像信号をフレーム化する映像受信部と、前記映像受信部から出力される映像フレームで動き領域を検出し、前記検出された動き領域に唇動き映像特徴情報を適用して唇動き信号を検出する唇動き信号検出部と、前記音響受信部から出力される音響フレームと前記唇動き信号検出部で検出された唇動き信号を用いて音声区間を検出する音声区間検出部と、前記音声区間検出部で検出された音声区間に対して特徴ベクトルを抽出する特徴ベクトル抽出部と、前記特徴ベクトル抽出部で抽出された特徴ベクトルを用いて音声認識を行う音声認識部と、を備える。
本発明によれば、音声区間検出過程で唇動き映像情報を確認するので、動的雑音が音声として誤認識されることを予め防止することができる音声区間検出装置及び方法並びに音声認識システムを提供することができる。
また、本発明によれば、音声区間検出過程で動的音響雑音が除去されるので、音声認識率を高めることができる音声区間検出装置及び方法並びに音声認識システムを提供することができる。
また、本発明によれば、雑音による不要な音声認識実行を防止することができ、資源を節約することができる音声区間検出装置及び方法並びに音声認識システムを提供することができる。
以下、添付の図面を参照して、本発明の好適な実施例を詳細に説明する。
図2は、本発明に係る音声区間検出のための音声認識システムの構成を概略的に示すブロック図である。
図2を参照すれば、音声認識システムは、音響受信部200、映像受信部210、唇動き信号検出部220、音声区間検出部230、特徴ベクトル抽出部240、音声認識部250、データベース260を含む。
前記音響受信部200は、マイクなどを介してユーザにより入力された音響信号をデジタル音響信号に変換した後、フレーム化し、前記音声区間検出部230に伝送する。
前記映像受信部210は、カメラなどの映像撮影装置を通じて撮影された映像信号をフレーム化し、前記唇動き信号検出部220に伝送する。
前記唇動き信号検出部220は、前記映像受信部210からフレーム単位で入力される映像情報をフレーム間に互いに比較し、動き領域を検出し、微細な映像雑音を除去した後、前記雑音が除去された動き領域に唇動き映像特徴情報を適用して唇動き信号を実時間で生成する。ここで、前記唇動き映像特徴情報は、予め格納された情報であって、唇に対する大きさ、横長さ、縦長さ、横縦比率、位置などを含む。
すなわち、前記唇動き信号検出部220は、以前映像フレームと現在映像フレームに対してピクセル単位でピクセル値を比較し、ピクセル値に差異がある部分と、差異がない部分とに分ける。その後、前記唇動き信号検出部220は、ピクセル値に差異がある部分を対象として微細な雑音映像を除去し、臨界値を適用して動き領域を検出する。ここで、前記差異がある部分には、微細な雑音映像、唇以外の動き、唇動きが含まれているので、前記唇動き信号検出部220は、前記差異がある部分を対象として微細な雑音を除去し、臨界値を適用して動き領域を検出する。
例えば、ピクセル値の差異が10以上なら白色(ピクセル値:255)、10より小さければ、黒色(ピクセル値:0)に変換し、視覚的に容易に確認できるようにするが、白色領域は、動き領域であると判断する。従って、目が動いた場合、目部分が白色、唇が動いた場合、唇部分が白色、顎が動いた場合、顎部分が白色に現れる。
その後、前記唇動き信号検出部220は、前記白色(動き)領域に対して大きさ、横長さ、縦長さ、横縦比率、位置などの特徴を把握し、前記把握された特徴を予め格納された唇動き映像特徴情報と比較する。
前記比較結果、類似度が高い場合、唇動き領域として判断し、類似度が高いものが存在しない場合、唇動き領域でない他の動きであるか、又は動きがないものとして判断する。
上記のように求められた類似度(例えば:0.3、0.4、…0.9)は、共有メモリ空間に格納され、音声可否の判断資料として用いられる。
上記のように前記唇動き信号検出部220は、映像フレームでの動き領域に対してその形状及び変化(すなわち、唇特徴点の幅、広さ及びこれらの時間的変化など)のような唇動き特徴情報との相関度を比較し、唇動きがあるか否かを比較する。
その後、前記唇動き信号検出部220は、当該判断結果に基づいて唇動き信号を生成し、前記生成された信号を前記音声区間検出部230に伝送する。
前記音声区間検出部230は、前記音響受信部200を介して入力される音響信号と、前記唇動き信号検出部220で検出された唇動き信号を用いて音声区間を検出する。
すなわち、前記音声区間検出部230は、前記音響受信部200から出力される音響フレーム(sound frame)で一定の大きさと高周波数を特徴とする静的雑音を除去し、残りのエネルギーを対象として音響フレーム毎に絶対エネルギーの大きさとゼロ交差率を分析し、当該音響フレームが音声可能フレーム(potential speech frame)であるか又は雑音であるかを判断する。ここで、前記ゼロ交差率は、音声信号が零点(Zero)基準を交差する数であって、周波数の意味として見なされ、大部分が有声音で低い値を有し、無声音で高い値を有する。
従って、前記音声区間検出部230は、音響フレームに対して絶対エネルギーが小さいか、ゼロ交差率が大きい場合、雑音として判断し、絶対エネルギーが大きく、ゼロ交差率が小さい場合、音声可能フレームであると判断する。
その後、前記音声区間検出部230は、音声可能フレームとして判断された音響フレームに対して前記唇動き信号検出部220で検出された唇動き信号を用いて当該区間が音声区間であるか否かを判断する。
すなわち、前記音声区間検出部230は、前記音声可能フレームが検出される時点に前記唇動き信号検出部220で映像フレームに対して唇動き信号が検出されるか否かを判断する。
前記判断結果、前記音声可能フレームが検出される時点に映像フレームで唇動き信号がない場合、前記音声区間検出部230は、前記音声可能フレームを動的雑音として判断し、唇動き信号が存在する場合、前記音声可能フレームを音声フレーム(speech frame)として判断して格納する。
その後、前記音声区間検出部230は、前記格納された音声フレームの個数が予め定められた一定数以上である場合、該当音声フレームを最初フレームから音声区間開始点で表示し、その後に流入される音声フレームを音声認識過程に続いて進行させる。
前記過程で、音声フレームが流入されない状態が続く場合、前記音声区間検出部230は、音声区間の終点で表示し、音声区間を検出するようになる。
前記特徴ベクトル抽出部240は、前記音声区間検出部230で検出された音声区間で特徴ベクトルを抽出し、前記音声認識部250に転送する。
前記音声認識部250は、前記特徴ベクトル抽出部240で抽出された特徴ベクトルを用いて前記データベース260に登録された単語に対して類似度と最も類似した単語を選定するビタビ(Viterbi)探索を行う。この際、隠れマルコフモデル(Hidden markov model:HMM)を利用することができるが、これは、認識対象候補単語に対して予め訓練して構築した隠れマルコフモデルと、現在入力された音声の特徴データとの差異を比較し、最も類似した候補単語を決定することを言う。
その後、前記音声認識部250は、音響モデル262と発音辞典264を探索し、前記抽出された音響的特徴と類似した音素を探し出し、単語や文章で結合する。
その後、前記音声認識部250は、前記結合して生成された単語や文章のエラーを低減するために、言語モデル266を適用して音声認識を行う。
図3は、本発明に係る音声認識システムにおいて音声区間検出方法を示す流れ図である。
図3を参照すれば、音声認識システムは、マイクを介して音響信号が受信される場合(ステップS300)、前記音響信号をデジタル信号に変換し、フレーム化する(ステップS302)。
ステップS302を行った後、前記音声認識システムは、前記フレーム化した音響信号に対してフレーム毎に静的雑音を除去し(ステップS304)、前記雑音が除去された各フレームに対して絶対エネルギーが大きく、ゼロ交差率が小さいか否かを判断する(ステップS306)。
すなわち、前記音声認識装置は、前記フレーム化した音響信号から一定のサイズと高周波数を特徴とする静的雑音を除去した後、残りのエネルギーを対象として各音響フレーム毎に絶対エネルギーの大きさとゼロ交差率を分析し、当該音響フレームが音声可能フレームであるか又は雑音であるかを判断する。
前記音声認識システムは、絶対エネルギーが基準値より小さいか、ゼロ交差率が基準値より大きい場合、当該音響フレームを雑音として判断し、絶対エネルギーが基準値より大きく、ゼロ交差率が基準値より小さい場合、当該音響フレームを音声可能フレームとして判断する。
ステップS306の判断結果、前記雑音が除去された音響フレームに対して絶対エネルギーが大きく、ゼロ交差率が小さい場合、前記音声認識システムは、前記音声可能フレームが検出される時点に映像フレームで唇動き信号が検出されるか否かを判断する(ステップS308)。
音響フレームと映像フレームは、互いにマッチングされていて、前記音声認識システムは、前記音声可能フレームが検出される時点に映像フレームを抽出することができ、前記抽出された映像フレームで唇動き信号が検出されるか否かを判断することができる。
前記音声認識システムが映像フレームで唇動き信号を検出する方法について、図4を参照して説明する。
ステップS308の判断結果、前記音声可能フレームが検出される時点に映像フレームで唇動き信号が検出される場合、前記音声認識システムは、当該音響フレームを音声フレームとして判断し(ステップS310)、音声フレームの個数が予め定められた一定の個数以上であるか否かを判断する(ステップS312)。
ステップS312の判断結果、前記音声フレームの個数が予め定められた一定の個数以上である場合、前記音声認識システムは、当該フレームの最初フレームを音声区間開始点で表示し、音声区間を検出する(ステップS314)。
すなわち、前記音声認識システムは、音声フレームの個数が一定の水準を越える場合、当該音声フレームは、最初フレームから音声区間開始点で表示し、その後に流入される音声フレームを音声認識過程に続いて進行させる。音声フレームが流入されない状態が続く場合、前記音声区間システムは、音声区間の終点で表示し、音声区間を検出するようになる。
ステップS314を行った後、前記音声認識システムは、前記検出された音声区間に対して特徴ベクトルを抽出し(ステップS316)、音声認識を行う(ステップS318)。
ステップS306の判断結果、仮に、前記雑音が除去された音響フレームに対して絶対エネルギーが大きくないか、ゼロ交差率が小さくない場合、前記音声認識システムは、該当フレームを雑音として判断し(ステップS320)、ステップS304を行う。
ステップS308の判断結果、仮に、前記音声可能フレームが検出される時点に映像フレームで唇動き信号が検出されない場合、前記音声認識システムは、当該フレームを動的雑音として判断し、動的雑音を除去した後(ステップS322)、ステップS306を行う。
ステップS312の判断結果、仮に、前記音声フレームの個数が予め定められた一定の個数以上でない場合、前記音声認識システムは、当該フレームを雑音として判断し、ステップS304を行う。
図4は、本発明に係る音声認識システムにおいて唇動き信号検出方法を示す流れ図である。
図4を参照すれば、音声認識システムは、カメラを介して映像信号が受信される場合(ステップS400)、前記映像信号をデジタル信号に変換し、フレーム化する(ステップS402)。
ステップS402を行った後、前記音声認識システムは、前記フレーム化した映像信号から映像雑音を除去し(ステップS404)、前記映像雑音が除去された映像フレームで動き領域を検出する(ステップS406)。
すなわち、前記音声認識システムは、以前フレームと現在フレームに対してピクセル単位でピクセル値を比較し、動き領域を検出する。
ステップS406を行った後、前記音声認識システムは、前記検出された動き領域に対して大きさ、横長さ、縦長さ、横縦比率、位置などの特徴を把握する(ステップS408)。
段階408を行った後、前記音声認識システムは、前記把握された動き領域の特徴を、予め格納された唇動き映像特徴情報と比較し(ステップS410)、前記動き領域が唇動き領域であるか否かを判断する(ステップS412)。
すなわち、前記音声認識システムは、前記動き領域の特徴と前記唇動き映像特徴情報とを比較した結果、類似度が予め定められた一定値以上である場合、前記動き領域を唇動き領域として判断し、類似度が予め定められた一定値以上でない場合、前記動き領域を唇動き領域でない他の動きであるか、又は動きがないものとして判断する。ここで、前記唇動き映像特徴情報は、唇の形状及び変化、すなわち唇特徴点の幅、広さ及びこれらの時間的変化などを含む。
ステップS412の判断結果、前記動き領域が唇動き領域である場合、前記音声認識システムは、唇動き信号を生成する(ステップS414)。
上記のように生成された唇動き信号は、図3に説明されたように、音声フレームを判断するのに用いられる。
前述したような本発明の方法は、プログラムで具現され、コンピュータで読み取り可能な形態で記録媒体に格納されることができる。このような過程は、本発明の属する技術分野における通常の知識を有する者が容易に実施できるので、ここでは詳細に説明しない。
以上において説明した本発明は、本発明が属する技術の分野における通常の知識を有する者であれば、本発明の技術的思想を逸脱しない範囲内で、様々な置換、変形及び変更が可能であるので、上述した実施形態及び添付された図面に限定されるものではない。
従来の音声認識システムにおいての音声認識方法を示す流れ図である。 本発明に係る音声区間検出のための音声認識システムの構成を概略的に示すブロック図である 本発明に係る音声認識システムにおいて音声区間検出方法を示す流れ図である。 本発明に係る音声認識システムにおいて唇動き信号検出方法を示す流れ図である。
符号の説明
200 音響受信部
210 映像受信部
220 唇動き信号検出部
230 音声区間検出部
240 特徴ベクトル抽出部
250 音声認識部
260 データベース

Claims (7)

  1. 音響受信部及び映像受信部を備える音声認識システムにおいて音声区間を検出する方法であって、
    前記音響受信部から出力される音響フレームを対象として雑音を除去し、前記雑音が除去された音響フレームが音声可能フレームであるか否かを判断する段階と、
    前記判断結果、前記音響フレームが音声可能フレームなら、前記音声可能フレームが検出される時点に映像フレームで唇動き信号が検出されるか否かを判断する段階と、
    前記判断結果、前記映像フレームで唇動き信号が検出される場合、前記音声可能フレームを音声フレームとして判断して格納し、音声フレームの個数が予め定められた一定個数以上であるか否かを判断する段階と、
    前記判断結果、音声フレームの個数が予め定められた一定個数以上である場合、当該音声フレームを音声区間として検出する段階と、を備えることを特徴とする音声区間検出方法。
  2. 前記音響受信部から出力される音響フレームの静的雑音を除去することは、前記音響フレームに対して低域通過フィルタリングを行い、高域成分を除去することを特徴とする請求項1に記載の音声区間検出方法。
  3. 前記雑音が除去された音響フレームが音声可能フレームであるか否かを判断する段階は、前記雑音が除去された音響フレームに対して絶対エネルギー大きさとゼロ交差率を分析し、音声可能フレームであるか又は雑音フレームであるかを判断することを特徴とする請求項1に記載の音声区間検出方法。
  4. 前記音声可能フレームが検出される時点に映像フレームで唇動き信号が検出されるか否かを判断する段階は、
    連続して受信される映像フレームで以前フレームと現在フレームに対してピクセル単位でピクセル値を比較し、動き領域を検出する段階と、
    前記検出された動き領域毎に大きさ、幅、長さ、位置情報を把握する段階と、
    前記把握された動き領域の特徴に唇動き映像特徴情報を適用して唇動き領域であるか否かを判断し、当該判断結果に基づいて唇動き信号を生成する段階と、を備えることを特徴とする請求項1に記載の音声区間検出方法。
  5. 前記唇動き映像特徴情報は、唇の形状と唇の変化を含むことを特徴とする請求項4に記載の音声区間検出方法。
  6. 前記把握された動き領域の特徴に唇動き映像特徴情報を適用して唇動き領域であるか否かを判断し、当該判断結果に基づいて唇動き信号を検出する段階は、
    前記把握された動き領域の特徴と前記唇動き映像特徴情報とを比較し、類似度を求める段階と、
    前記求められた類似度が予め定められた一定値以上である場合、唇動き領域として判断し、唇動き信号を生成する段階と、を備えることを特徴とする請求項4に記載の音声区間検出方法。
  7. 前記判断結果、前記映像フレームで唇動き信号が検出されない場合、当該音声可能フレームを動的雑音として判断する段階をさらに備えることを特徴とする請求項1に記載の音声区間検出方法。
JP2006329871A 2005-12-08 2006-12-06 音声区間検出方法 Active JP4795919B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20050120040 2005-12-08
KR10-2005-0120040 2005-12-08
KR10-2006-0064262 2006-07-10
KR1020060064262A KR100820141B1 (ko) 2005-12-08 2006-07-10 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템

Publications (2)

Publication Number Publication Date
JP2007156493A JP2007156493A (ja) 2007-06-21
JP4795919B2 true JP4795919B2 (ja) 2011-10-19

Family

ID=38140541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006329871A Active JP4795919B2 (ja) 2005-12-08 2006-12-06 音声区間検出方法

Country Status (2)

Country Link
US (1) US7860718B2 (ja)
JP (1) JP4795919B2 (ja)

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9704502B2 (en) * 2004-07-30 2017-07-11 Invention Science Fund I, Llc Cue-aware privacy filter for participants in persistent communications
US9779750B2 (en) 2004-07-30 2017-10-03 Invention Science Fund I, Llc Cue-aware privacy filter for participants in persistent communications
JP5911796B2 (ja) * 2009-04-30 2016-04-27 サムスン エレクトロニクス カンパニー リミテッド マルチモーダル情報を用いるユーザ意図推論装置及び方法
KR101581883B1 (ko) * 2009-04-30 2016-01-11 삼성전자주식회사 모션 정보를 이용하는 음성 검출 장치 및 방법
WO2011025462A1 (en) * 2009-08-25 2011-03-03 Nanyang Technological University A method and system for reconstructing speech from an input signal comprising whispers
KR101644015B1 (ko) * 2009-11-27 2016-08-01 삼성전자주식회사 시스템과 다수 사용자 간의 대화 인터페이스 장치
US8635066B2 (en) 2010-04-14 2014-01-21 T-Mobile Usa, Inc. Camera-assisted noise cancellation and speech recognition
CN101916566B (zh) * 2010-07-09 2012-07-04 西安交通大学 一种电子喉语音重建方法及其系统
CN102063903B (zh) * 2010-09-25 2012-07-04 中国科学院深圳先进技术研究院 言语交互训练系统及方法
US8751565B1 (en) 2011-02-08 2014-06-10 Google Inc. Components for web-based configurable pipeline media processing
US8681866B1 (en) 2011-04-28 2014-03-25 Google Inc. Method and apparatus for encoding video by downsampling frame resolution
US9106787B1 (en) 2011-05-09 2015-08-11 Google Inc. Apparatus and method for media transmission bandwidth control using bandwidth estimation
JP5797009B2 (ja) * 2011-05-19 2015-10-21 三菱重工業株式会社 音声認識装置、ロボット、及び音声認識方法
CN103198834B (zh) * 2012-01-04 2016-12-14 中国移动通信集团公司 一种音频信号处理方法、装置及终端
US8863042B2 (en) * 2012-01-24 2014-10-14 Charles J. Kulas Handheld device with touch controls that reconfigure in response to the way a user operates the device
US8913103B1 (en) 2012-02-01 2014-12-16 Google Inc. Method and apparatus for focus-of-attention control
US8782271B1 (en) 2012-03-19 2014-07-15 Google, Inc. Video mixing using video speech detection
US20130257753A1 (en) * 2012-04-03 2013-10-03 Anirudh Sharma Modeling Actions Based on Speech and Touch Inputs
US9185429B1 (en) 2012-04-30 2015-11-10 Google Inc. Video encoding and decoding using un-equal error protection
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9263044B1 (en) * 2012-06-27 2016-02-16 Amazon Technologies, Inc. Noise reduction based on mouth area movement recognition
BR112015002920A2 (pt) * 2012-08-10 2017-08-08 Honda Access Kk método e dispositivo de reconhecimento de fala
JP2014085609A (ja) * 2012-10-26 2014-05-12 Sony Corp 信号処理装置および方法、並びに、プログラム
CN103824555B (zh) * 2012-11-19 2015-11-18 腾讯科技(深圳)有限公司 音频段提取方法及提取装置
US9172740B1 (en) 2013-01-15 2015-10-27 Google Inc. Adjustable buffer remote access
US9311692B1 (en) 2013-01-25 2016-04-12 Google Inc. Scalable buffer remote access
US9190058B2 (en) 2013-01-25 2015-11-17 Microsoft Technology Licensing, Llc Using visual cues to disambiguate speech inputs
US9225979B1 (en) 2013-01-30 2015-12-29 Google Inc. Remote access encoding
JP6171617B2 (ja) * 2013-06-24 2017-08-02 日本電気株式会社 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
US20150039312A1 (en) * 2013-07-31 2015-02-05 GM Global Technology Operations LLC Controlling speech dialog using an additional sensor
US9892745B2 (en) * 2013-08-23 2018-02-13 At&T Intellectual Property I, L.P. Augmented multi-tier classifier for multi-modal voice activity detection
CN104424956B9 (zh) * 2013-08-30 2022-11-25 中兴通讯股份有限公司 激活音检测方法和装置
CN103745723A (zh) * 2014-01-13 2014-04-23 苏州思必驰信息科技有限公司 一种音频信号识别方法及装置
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
CN105261375B (zh) * 2014-07-18 2018-08-31 中兴通讯股份有限公司 激活音检测的方法及装置
CN105389097A (zh) * 2014-09-03 2016-03-09 中兴通讯股份有限公司 一种人机交互装置及方法
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
CN105991851A (zh) 2015-02-17 2016-10-05 杜比实验室特许公司 处理电话会议系统中的烦扰
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10923126B2 (en) * 2015-03-19 2021-02-16 Samsung Electronics Co., Ltd. Method and device for detecting voice activity based on image information
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) * 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
CN106067989B (zh) * 2016-04-28 2022-05-17 江苏大学 一种人像语音视频同步校准装置及方法
US9853758B1 (en) * 2016-06-24 2017-12-26 Harman International Industries, Incorporated Systems and methods for signal mixing
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10332515B2 (en) * 2017-03-14 2019-06-25 Google Llc Query endpointing based on lip detection
US11189281B2 (en) 2017-03-17 2021-11-30 Samsung Electronics Co., Ltd. Method and system for automatically managing operations of electronic device
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN107293300A (zh) * 2017-08-01 2017-10-24 珠海市魅族科技有限公司 语音识别方法及装置、计算机装置及可读存储介质
US10910001B2 (en) 2017-12-25 2021-02-02 Casio Computer Co., Ltd. Voice recognition device, robot, voice recognition method, and storage medium
JP6729635B2 (ja) * 2017-12-25 2020-07-22 カシオ計算機株式会社 音声認識装置、ロボット、音声認識方法及び記録媒体
NL2021041B1 (nl) * 2018-01-31 2019-08-07 Iebm B V Spraakherkenning met beeld signaal
WO2021067020A1 (en) 2019-09-30 2021-04-08 Square Panda Inc. Language teaching machine
CN113160853A (zh) * 2021-03-31 2021-07-23 深圳鱼亮科技有限公司 一种基于实时人脸辅助的语音端点检测方法
CN113345472B (zh) * 2021-05-08 2022-03-25 北京百度网讯科技有限公司 语音端点检测方法、装置、电子设备及存储介质

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4975960A (en) * 1985-06-03 1990-12-04 Petajan Eric D Electronic facial tracking and detection system and method and apparatus for automated speech recognition
JPH06301393A (ja) 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 音声区間検出装置及び音声認識装置
US5473726A (en) * 1993-07-06 1995-12-05 The United States Of America As Represented By The Secretary Of The Air Force Audio and amplitude modulated photo data collection for speech recognition
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
US6272465B1 (en) * 1994-11-02 2001-08-07 Legerity, Inc. Monolithic PC audio circuit
JPH09198082A (ja) * 1996-01-12 1997-07-31 Oki Electric Ind Co Ltd 音声認識装置
US6028960A (en) * 1996-09-20 2000-02-22 Lucent Technologies Inc. Face feature analysis for automatic lipreading and character animation
JP3702978B2 (ja) * 1996-12-26 2005-10-05 ソニー株式会社 認識装置および認識方法、並びに学習装置および学習方法
US6185529B1 (en) * 1998-09-14 2001-02-06 International Business Machines Corporation Speech recognition aided by lateral profile image
US6487531B1 (en) * 1999-07-06 2002-11-26 Carol A. Tosaya Signal injection coupling into the human vocal tract for robust audible and inaudible voice recognition
US6567775B1 (en) * 2000-04-26 2003-05-20 International Business Machines Corporation Fusion of audio and video based speaker identification for multimedia information access
US6754373B1 (en) * 2000-07-14 2004-06-22 International Business Machines Corporation System and method for microphone activation using visual speech cues
JP2002091466A (ja) 2000-09-12 2002-03-27 Pioneer Electronic Corp 音声認識装置
WO2002029784A1 (en) * 2000-10-02 2002-04-11 Clarity, Llc Audio visual speech processing
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
KR20020068235A (ko) 2001-02-20 2002-08-27 유재천 치아와 입술 영상을 이용한 음성인식 장치 및 방법
US7082393B2 (en) * 2001-03-27 2006-07-25 Rast Associates, Llc Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech
US7219062B2 (en) * 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
KR100463657B1 (ko) 2002-11-30 2004-12-29 삼성전자주식회사 음성구간 검출 장치 및 방법
KR100499030B1 (ko) 2002-12-16 2005-07-01 한국전자통신연구원 휴대용 단말에서 입술인식 인터페이스 입력장치 및 방법
EP1443498B1 (en) * 2003-01-24 2008-03-19 Sony Ericsson Mobile Communications AB Noise reduction and audio-visual speech activity detection
JP2004271620A (ja) 2003-03-05 2004-09-30 Yamaha Corp 携帯端末
US7269560B2 (en) * 2003-06-27 2007-09-11 Microsoft Corporation Speech detection and enhancement using audio/video fusion
KR100567828B1 (ko) 2003-08-06 2006-04-05 삼성전자주식회사 향상된 음성인식 장치 및 방법

Also Published As

Publication number Publication date
US7860718B2 (en) 2010-12-28
US20070136071A1 (en) 2007-06-14
JP2007156493A (ja) 2007-06-21

Similar Documents

Publication Publication Date Title
JP4795919B2 (ja) 音声区間検出方法
KR100820141B1 (ko) 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템
CN108305615B (zh) 一种对象识别方法及其设备、存储介质、终端
US7472063B2 (en) Audio-visual feature fusion and support vector machine useful for continuous speech recognition
US9837068B2 (en) Sound sample verification for generating sound detection model
US7454342B2 (en) Coupled hidden Markov model (CHMM) for continuous audiovisual speech recognition
JP5323770B2 (ja) ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
JP2012047924A (ja) 情報処理装置、および情報処理方法、並びにプログラム
KR101616112B1 (ko) 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법
Potamianos et al. Joint audio-visual speech processing for recognition and enhancement
Iwano et al. Audio-visual speech recognition using lip information extracted from side-face images
CN111554279A (zh) 一种基于Kinect的多模态人机交互系统
JP2011013731A (ja) 情報処理装置、情報処理方法、およびプログラム
Yoshinaga et al. Audio-visual speech recognition using new lip features extracted from side-face images
JP2002189487A (ja) 音声認識装置および音声認識方法
JP7347511B2 (ja) 音声処理装置、音声処理方法、およびプログラム
Anguera et al. Evolutive speaker segmentation using a repository system
KR101430342B1 (ko) 발화자의 거리 추정을 이용한 음성인식방법 및 음성인식장치
JP2005165887A (ja) 単語認識装置
CN112017633B (zh) 语音识别方法、装置、存储介质及电子设备
JP2002041083A (ja) 遠隔制御システムおよび遠隔制御方法、並びに記録媒体
KR101092489B1 (ko) 음성 인식 시스템 및 방법
KR100737343B1 (ko) 음성 인식 장치 및 방법
Shen et al. Evaluation of real-time audio-visual speech recognition
Alghathbar et al. Block-based motion estimation analysis for lip reading user authentication systems

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110128

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110428

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110708

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110728

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4795919

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140805

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250