JP4795919B2

JP4795919B2 - 音声区間検出方法

Info

Publication number: JP4795919B2
Application number: JP2006329871A
Authority: JP
Inventors: リー、スー、ジョン; キム、サン、フン; リー、ヤン、ジク; キム、ユン、キュ
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2005-12-08
Filing date: 2006-12-06
Publication date: 2011-10-19
Anticipated expiration: 2026-12-06
Also published as: US7860718B2; US20070136071A1; JP2007156493A

Description

本発明は、映像信号と音響信号とを結合し、音声区間を検出する音声区間検出装置及び方法並びに音声認識システムに関する。

音声認識（speech recognition）は、人間が話す言葉の音響的な信号の特徴をコンピュータで分析し、文字に変換する一連の過程である。音声認識が行われる主要な手続は、大きく、前処理（preprocess）、探索（search）、及び後処理（post-process）に分けられる。

まず、音声入力装置を介して音響信号を受信するようになるが、前処理段階では、入力される音響信号を対象として音声の開始点と終点（音声区間（speech segment）又はＥＰＤ；End Point Detection）を検出した後、音響的特徴を抽出する。

次に、予め用意された音響モデルと発音辞典を探索し、前処理段階で抽出された特徴と類似した音素を探し出し、単語や文章で結合する探索過程がある。また、探索結果のエラーを低減するために、言語モデルを適用する後処理過程を経る。

前述したような音声認識過程を図１を参照して詳細に説明する。

図１は、従来の音声認識システムにおいての音声認識方法を示す流れ図である。

図１を参照すれば、音声認識システムは、音響信号が受信される場合（ステップＳ１００）、前記受信された音響信号をフレーム化する（ステップＳ１０２）。

その後、前記音声認識システムは、前記音響信号に対してフレーム毎に静的雑音を除去する（ステップＳ１０４）。すなわち、前記音声認識装置は、フレーム毎に低域通過フィルタリングを行い、高域成分を除去する。

ステップＳ１０４を行った後、前記音声認識システムは、前記静的雑音が除去された各フレーム毎に絶対エネルギーが大きく、ゼロ交差率(zero-crossing rate)が小さいか否かを判断する（ステップＳ１０６）。すなわち、前記音声認識システムは、絶対エネルギーが小さいか、ゼロ交差率が大きい場合、雑音であると判断し、絶対エネルギーが大きく、ゼロ交差率が小さい場合、音声フレームであると判断する。

ステップＳ１０６の判断結果、当該フレームに対して絶対エネルギーが大きく、ゼロ交差率が小さい場合、前記音声認識システムは、当該フレームを音声フレームであると判断する（ステップＳ１０８）。

その後、前記音声認識システムは、音声フレームが一定数以上持続されるか否かを判断する（ステップＳ１１０）。

ステップＳ１１０の判断結果、音声フレームが一定数以上持続される場合、前記音声認識システムは、当該フレーム区間を音声区間であると判断する（ステップＳ１１２）。

その後、前記音声認識システムは、前記判断された音声区間で特徴ベクトルを抽出し（ステップＳ１１４）、前記抽出された特徴ベクトルを用いて音声認識を行う（ステップＳ１１６）。

すなわち、前記音声認識システムは、音響モデルと発音辞典を探索し、前記抽出された特徴ベクトルと類似した音素を探し出し、単語や文章で結合する。その後、前記音声認識システムは、前記結合された単語や文章のエラーを低減するために、言語モデルを適用して音声認識を行う。

ステップＳ１０６の判断結果、仮に該当フレームに対して絶対エネルギーが大きくないか、ゼロ交差率が小さくない場合、前記音声認識システムは、該当フレームを雑音として判断し（ステップＳ１１８）、ステップＳ１０４を行う。

ステップＳ１１０の判断結果、仮に音声フレームが一定数以上持続されない場合、前記音声認識システムは、該当フレームを雑音として判断し（ステップＳ１１８）、ステップＳ１０４を行う。

前述したような過程により音声認識を行うことができる我らの日常環境は、周辺騒音やコンピュータ内部のチャンネル雑音及び通信網雑音など多様な雑音で取り囲まれている。

従って、音声認識の全体過程において、音声区間の検出は、必ず先決されなければならない課題であって、認識率の性能に直接的な影響を与えるようになる。

しかしながら、前述のような従来の音声区間検出方法は、基本的に入力信号の音響エネルギーの大きさとゼロ交差率及び連続性を主要なパラメータとして活用するので、音声と雑音を区別することが容易でないという短所がある。

また、音声区間検出は、音響エネルギーの有無が音声区間検出の出発点となるが、音声と雑音は、いずれも音響エネルギーを有しているので、音声と雑音を区別することが容易でないという短所を有する。

また、一定の大きさを有する音響エネルギーと高周波数を特徴とする静的（stationary）雑音の除去技術は多く活用されているが、動的（dynamic）雑音と音声を識別する技術がないという短所がある。

また、動的雑音が除去されずに、音声区間に分類され、音声認識過程に送られることによって、不要な資源が実行されるだけでなく、音声認識エラーが発生するという問題点がある。
米国特許公開ＵＳ６，１８５，５２９Ｂ１号明細書大韓民国特許公開第２００５―００１５５８５号明細書

従って、本発明の目的は、多様な雑音が存在する実際環境で音声認識エラーの主要な原因として提起されている動的雑音を効果的に除去できる音声区間検出装置及び方法並びに音声認識システムを提供することにある。

また、本発明の他の目的は、唇動きがない状態で入力される音響エネルギーを雑音として見なして、音声区間として検出されないようにして、音声認識のエラーを低減することができる音声区間検出装置及び方法並びに音声認識システムを提供することにある。

前記目的を達成するために、本発明の一態様に係る音声区間検出装置は、音響受信部及び映像受信部を備える音声区間検出装置において、前記映像受信部から出力される映像フレームで動き領域を検出し、前記検出された動き領域に唇動き映像特徴情報を適用して唇動き信号を検出する唇動き信号検出部と、前記音響受信部から出力される音響フレームと、前記唇動き信号検出部で検出された唇動き信号を用いて音声区間を検出する音声区間検出部と、を備えることを特徴とする。

また、本発明の他の態様に係る音声区間検出方法は、音響受信部及び映像受信部を備える音声認識システムにおいて音声区間を検出する方法であって、前記音響受信部から出力される音響フレームを対象として静的雑音を除去し、前記雑音が除去された音響フレームが音声可能フレームであるか否かを判断する段階と、前記判断結果、前記音響フレームが音声可能フレームなら、前記音声可能フレームが検出される時点に映像フレームで唇動き信号が検出されるか否かを判断する段階と、前記判断結果、前記映像フレームで唇動き信号が検出される場合、前記音声可能フレームを音声フレームとして判断して格納し、音声フレームの個数が予め定められた一定個数以上であるか否かを判断する段階と、前記判断結果、音声フレームの個数が予め定められた一定個数以上である場合、当該音声フレームを音声区間として検出する段階と、を備えることを特徴とする。

前記音声可能フレームが検出される時点に映像フレームで唇動き信号が検出されるか否かを判断する段階は、連続して受信される映像フレームで以前フレームと現在フレームに対してピクセル単位でピクセル値を比較し、動き映像を検出する段階と、前記検出された動き領域毎に大きさ、幅、長さ、位置情報を把握する段階と、前記把握された動き領域の特徴に唇動き映像特徴情報を適用して唇動き領域であるか否かを判断し、当該判断結果に基づいて唇動き信号を生成する段階と、を備える。

ここで、前記把握された動き領域の特徴に唇動き映像特徴情報を適用して唇動き領域であるか否かを判断し、当該判断結果に基づいて唇動き信号を検出する段階は、前記把握された動き領域の特徴と前記唇動き映像特徴情報とを比較し、類似度を求める段階と、前記求められた類似度が予め定められた一定値以上である場合、唇動き領域として判断し、唇動き信号を生成する段階と、を備える。

また、本発明のさらに他の態様に係る音声認識システムは、ユーザにより入力された音響信号をデジタル信号に変換し、フレーム化する音響受信部と、映像撮影部を通じて撮影された映像信号をフレーム化する映像受信部と、前記映像受信部から出力される映像フレームで動き領域を検出し、前記検出された動き領域に唇動き映像特徴情報を適用して唇動き信号を検出する唇動き信号検出部と、前記音響受信部から出力される音響フレームと前記唇動き信号検出部で検出された唇動き信号を用いて音声区間を検出する音声区間検出部と、前記音声区間検出部で検出された音声区間に対して特徴ベクトルを抽出する特徴ベクトル抽出部と、前記特徴ベクトル抽出部で抽出された特徴ベクトルを用いて音声認識を行う音声認識部と、を備える。

本発明によれば、音声区間検出過程で唇動き映像情報を確認するので、動的雑音が音声として誤認識されることを予め防止することができる音声区間検出装置及び方法並びに音声認識システムを提供することができる。

また、本発明によれば、音声区間検出過程で動的音響雑音が除去されるので、音声認識率を高めることができる音声区間検出装置及び方法並びに音声認識システムを提供することができる。

また、本発明によれば、雑音による不要な音声認識実行を防止することができ、資源を節約することができる音声区間検出装置及び方法並びに音声認識システムを提供することができる。

以下、添付の図面を参照して、本発明の好適な実施例を詳細に説明する。

図２は、本発明に係る音声区間検出のための音声認識システムの構成を概略的に示すブロック図である。

図２を参照すれば、音声認識システムは、音響受信部２００、映像受信部２１０、唇動き信号検出部２２０、音声区間検出部２３０、特徴ベクトル抽出部２４０、音声認識部２５０、データベース２６０を含む。

前記音響受信部２００は、マイクなどを介してユーザにより入力された音響信号をデジタル音響信号に変換した後、フレーム化し、前記音声区間検出部２３０に伝送する。

前記映像受信部２１０は、カメラなどの映像撮影装置を通じて撮影された映像信号をフレーム化し、前記唇動き信号検出部２２０に伝送する。

前記唇動き信号検出部２２０は、前記映像受信部２１０からフレーム単位で入力される映像情報をフレーム間に互いに比較し、動き領域を検出し、微細な映像雑音を除去した後、前記雑音が除去された動き領域に唇動き映像特徴情報を適用して唇動き信号を実時間で生成する。ここで、前記唇動き映像特徴情報は、予め格納された情報であって、唇に対する大きさ、横長さ、縦長さ、横縦比率、位置などを含む。

すなわち、前記唇動き信号検出部２２０は、以前映像フレームと現在映像フレームに対してピクセル単位でピクセル値を比較し、ピクセル値に差異がある部分と、差異がない部分とに分ける。その後、前記唇動き信号検出部２２０は、ピクセル値に差異がある部分を対象として微細な雑音映像を除去し、臨界値を適用して動き領域を検出する。ここで、前記差異がある部分には、微細な雑音映像、唇以外の動き、唇動きが含まれているので、前記唇動き信号検出部２２０は、前記差異がある部分を対象として微細な雑音を除去し、臨界値を適用して動き領域を検出する。

例えば、ピクセル値の差異が１０以上なら白色（ピクセル値：２５５）、１０より小さければ、黒色（ピクセル値：０）に変換し、視覚的に容易に確認できるようにするが、白色領域は、動き領域であると判断する。従って、目が動いた場合、目部分が白色、唇が動いた場合、唇部分が白色、顎が動いた場合、顎部分が白色に現れる。

その後、前記唇動き信号検出部２２０は、前記白色（動き）領域に対して大きさ、横長さ、縦長さ、横縦比率、位置などの特徴を把握し、前記把握された特徴を予め格納された唇動き映像特徴情報と比較する。

前記比較結果、類似度が高い場合、唇動き領域として判断し、類似度が高いものが存在しない場合、唇動き領域でない他の動きであるか、又は動きがないものとして判断する。

上記のように求められた類似度（例えば：０．３、０．４、…０．９）は、共有メモリ空間に格納され、音声可否の判断資料として用いられる。

上記のように前記唇動き信号検出部２２０は、映像フレームでの動き領域に対してその形状及び変化（すなわち、唇特徴点の幅、広さ及びこれらの時間的変化など）のような唇動き特徴情報との相関度を比較し、唇動きがあるか否かを比較する。

その後、前記唇動き信号検出部２２０は、当該判断結果に基づいて唇動き信号を生成し、前記生成された信号を前記音声区間検出部２３０に伝送する。

前記音声区間検出部２３０は、前記音響受信部２００を介して入力される音響信号と、前記唇動き信号検出部２２０で検出された唇動き信号を用いて音声区間を検出する。

すなわち、前記音声区間検出部２３０は、前記音響受信部２００から出力される音響フレーム（sound frame）で一定の大きさと高周波数を特徴とする静的雑音を除去し、残りのエネルギーを対象として音響フレーム毎に絶対エネルギーの大きさとゼロ交差率を分析し、当該音響フレームが音声可能フレーム(potential speech frame)であるか又は雑音であるかを判断する。ここで、前記ゼロ交差率は、音声信号が零点（Zero）基準を交差する数であって、周波数の意味として見なされ、大部分が有声音で低い値を有し、無声音で高い値を有する。

従って、前記音声区間検出部２３０は、音響フレームに対して絶対エネルギーが小さいか、ゼロ交差率が大きい場合、雑音として判断し、絶対エネルギーが大きく、ゼロ交差率が小さい場合、音声可能フレームであると判断する。

その後、前記音声区間検出部２３０は、音声可能フレームとして判断された音響フレームに対して前記唇動き信号検出部２２０で検出された唇動き信号を用いて当該区間が音声区間であるか否かを判断する。

すなわち、前記音声区間検出部２３０は、前記音声可能フレームが検出される時点に前記唇動き信号検出部２２０で映像フレームに対して唇動き信号が検出されるか否かを判断する。

前記判断結果、前記音声可能フレームが検出される時点に映像フレームで唇動き信号がない場合、前記音声区間検出部２３０は、前記音声可能フレームを動的雑音として判断し、唇動き信号が存在する場合、前記音声可能フレームを音声フレーム（speech frame）として判断して格納する。

その後、前記音声区間検出部２３０は、前記格納された音声フレームの個数が予め定められた一定数以上である場合、該当音声フレームを最初フレームから音声区間開始点で表示し、その後に流入される音声フレームを音声認識過程に続いて進行させる。

前記過程で、音声フレームが流入されない状態が続く場合、前記音声区間検出部２３０は、音声区間の終点で表示し、音声区間を検出するようになる。

前記特徴ベクトル抽出部２４０は、前記音声区間検出部２３０で検出された音声区間で特徴ベクトルを抽出し、前記音声認識部２５０に転送する。

前記音声認識部２５０は、前記特徴ベクトル抽出部２４０で抽出された特徴ベクトルを用いて前記データベース２６０に登録された単語に対して類似度と最も類似した単語を選定するビタビ（Viterbi）探索を行う。この際、隠れマルコフモデル（Hidden markov model：ＨＭＭ）を利用することができるが、これは、認識対象候補単語に対して予め訓練して構築した隠れマルコフモデルと、現在入力された音声の特徴データとの差異を比較し、最も類似した候補単語を決定することを言う。

その後、前記音声認識部２５０は、音響モデル２６２と発音辞典２６４を探索し、前記抽出された音響的特徴と類似した音素を探し出し、単語や文章で結合する。

その後、前記音声認識部２５０は、前記結合して生成された単語や文章のエラーを低減するために、言語モデル２６６を適用して音声認識を行う。

図３は、本発明に係る音声認識システムにおいて音声区間検出方法を示す流れ図である。

図３を参照すれば、音声認識システムは、マイクを介して音響信号が受信される場合（ステップＳ３００）、前記音響信号をデジタル信号に変換し、フレーム化する（ステップＳ３０２）。

ステップＳ３０２を行った後、前記音声認識システムは、前記フレーム化した音響信号に対してフレーム毎に静的雑音を除去し（ステップＳ３０４）、前記雑音が除去された各フレームに対して絶対エネルギーが大きく、ゼロ交差率が小さいか否かを判断する（ステップＳ３０６）。

すなわち、前記音声認識装置は、前記フレーム化した音響信号から一定のサイズと高周波数を特徴とする静的雑音を除去した後、残りのエネルギーを対象として各音響フレーム毎に絶対エネルギーの大きさとゼロ交差率を分析し、当該音響フレームが音声可能フレームであるか又は雑音であるかを判断する。

前記音声認識システムは、絶対エネルギーが基準値より小さいか、ゼロ交差率が基準値より大きい場合、当該音響フレームを雑音として判断し、絶対エネルギーが基準値より大きく、ゼロ交差率が基準値より小さい場合、当該音響フレームを音声可能フレームとして判断する。

ステップＳ３０６の判断結果、前記雑音が除去された音響フレームに対して絶対エネルギーが大きく、ゼロ交差率が小さい場合、前記音声認識システムは、前記音声可能フレームが検出される時点に映像フレームで唇動き信号が検出されるか否かを判断する（ステップＳ３０８）。

音響フレームと映像フレームは、互いにマッチングされていて、前記音声認識システムは、前記音声可能フレームが検出される時点に映像フレームを抽出することができ、前記抽出された映像フレームで唇動き信号が検出されるか否かを判断することができる。

前記音声認識システムが映像フレームで唇動き信号を検出する方法について、図４を参照して説明する。

ステップＳ３０８の判断結果、前記音声可能フレームが検出される時点に映像フレームで唇動き信号が検出される場合、前記音声認識システムは、当該音響フレームを音声フレームとして判断し（ステップＳ３１０）、音声フレームの個数が予め定められた一定の個数以上であるか否かを判断する（ステップＳ３１２）。

ステップＳ３１２の判断結果、前記音声フレームの個数が予め定められた一定の個数以上である場合、前記音声認識システムは、当該フレームの最初フレームを音声区間開始点で表示し、音声区間を検出する（ステップＳ３１４）。

すなわち、前記音声認識システムは、音声フレームの個数が一定の水準を越える場合、当該音声フレームは、最初フレームから音声区間開始点で表示し、その後に流入される音声フレームを音声認識過程に続いて進行させる。音声フレームが流入されない状態が続く場合、前記音声区間システムは、音声区間の終点で表示し、音声区間を検出するようになる。

ステップＳ３１４を行った後、前記音声認識システムは、前記検出された音声区間に対して特徴ベクトルを抽出し（ステップＳ３１６）、音声認識を行う（ステップＳ３１８）。

ステップＳ３０６の判断結果、仮に、前記雑音が除去された音響フレームに対して絶対エネルギーが大きくないか、ゼロ交差率が小さくない場合、前記音声認識システムは、該当フレームを雑音として判断し（ステップＳ３２０）、ステップＳ３０４を行う。

ステップＳ３０８の判断結果、仮に、前記音声可能フレームが検出される時点に映像フレームで唇動き信号が検出されない場合、前記音声認識システムは、当該フレームを動的雑音として判断し、動的雑音を除去した後（ステップＳ３２２）、ステップＳ３０６を行う。

ステップＳ３１２の判断結果、仮に、前記音声フレームの個数が予め定められた一定の個数以上でない場合、前記音声認識システムは、当該フレームを雑音として判断し、ステップＳ３０４を行う。

図４は、本発明に係る音声認識システムにおいて唇動き信号検出方法を示す流れ図である。

図４を参照すれば、音声認識システムは、カメラを介して映像信号が受信される場合（ステップＳ４００）、前記映像信号をデジタル信号に変換し、フレーム化する（ステップＳ４０２）。

ステップＳ４０２を行った後、前記音声認識システムは、前記フレーム化した映像信号から映像雑音を除去し（ステップＳ４０４）、前記映像雑音が除去された映像フレームで動き領域を検出する（ステップＳ４０６）。

すなわち、前記音声認識システムは、以前フレームと現在フレームに対してピクセル単位でピクセル値を比較し、動き領域を検出する。

ステップＳ４０６を行った後、前記音声認識システムは、前記検出された動き領域に対して大きさ、横長さ、縦長さ、横縦比率、位置などの特徴を把握する（ステップＳ４０８）。

段階４０８を行った後、前記音声認識システムは、前記把握された動き領域の特徴を、予め格納された唇動き映像特徴情報と比較し（ステップＳ４１０）、前記動き領域が唇動き領域であるか否かを判断する（ステップＳ４１２）。

すなわち、前記音声認識システムは、前記動き領域の特徴と前記唇動き映像特徴情報とを比較した結果、類似度が予め定められた一定値以上である場合、前記動き領域を唇動き領域として判断し、類似度が予め定められた一定値以上でない場合、前記動き領域を唇動き領域でない他の動きであるか、又は動きがないものとして判断する。ここで、前記唇動き映像特徴情報は、唇の形状及び変化、すなわち唇特徴点の幅、広さ及びこれらの時間的変化などを含む。

ステップＳ４１２の判断結果、前記動き領域が唇動き領域である場合、前記音声認識システムは、唇動き信号を生成する（ステップＳ４１４）。

上記のように生成された唇動き信号は、図３に説明されたように、音声フレームを判断するのに用いられる。

前述したような本発明の方法は、プログラムで具現され、コンピュータで読み取り可能な形態で記録媒体に格納されることができる。このような過程は、本発明の属する技術分野における通常の知識を有する者が容易に実施できるので、ここでは詳細に説明しない。

以上において説明した本発明は、本発明が属する技術の分野における通常の知識を有する者であれば、本発明の技術的思想を逸脱しない範囲内で、様々な置換、変形及び変更が可能であるので、上述した実施形態及び添付された図面に限定されるものではない。

従来の音声認識システムにおいての音声認識方法を示す流れ図である。本発明に係る音声区間検出のための音声認識システムの構成を概略的に示すブロック図である本発明に係る音声認識システムにおいて音声区間検出方法を示す流れ図である。本発明に係る音声認識システムにおいて唇動き信号検出方法を示す流れ図である。

符号の説明

２００音響受信部
２１０映像受信部
２２０唇動き信号検出部
２３０音声区間検出部
２４０特徴ベクトル抽出部
２５０音声認識部
２６０データベース

Claims

音響受信部及び映像受信部を備える音声認識システムにおいて音声区間を検出する方法であって、
前記音響受信部から出力される音響フレームを対象として雑音を除去し、前記雑音が除去された音響フレームが音声可能フレームであるか否かを判断する段階と、
前記判断結果、前記音響フレームが音声可能フレームなら、前記音声可能フレームが検出される時点に映像フレームで唇動き信号が検出されるか否かを判断する段階と、
前記判断結果、前記映像フレームで唇動き信号が検出される場合、前記音声可能フレームを音声フレームとして判断して格納し、音声フレームの個数が予め定められた一定個数以上であるか否かを判断する段階と、
前記判断結果、音声フレームの個数が予め定められた一定個数以上である場合、当該音声フレームを音声区間として検出する段階と、を備えることを特徴とする音声区間検出方法。
前記音響受信部から出力される音響フレームの静的雑音を除去することは、前記音響フレームに対して低域通過フィルタリングを行い、高域成分を除去することを特徴とする請求項１に記載の音声区間検出方法。
前記雑音が除去された音響フレームが音声可能フレームであるか否かを判断する段階は、前記雑音が除去された音響フレームに対して絶対エネルギー大きさとゼロ交差率を分析し、音声可能フレームであるか又は雑音フレームであるかを判断することを特徴とする請求項１に記載の音声区間検出方法。
前記音声可能フレームが検出される時点に映像フレームで唇動き信号が検出されるか否かを判断する段階は、
連続して受信される映像フレームで以前フレームと現在フレームに対してピクセル単位でピクセル値を比較し、動き領域を検出する段階と、
前記検出された動き領域毎に大きさ、幅、長さ、位置情報を把握する段階と、
前記把握された動き領域の特徴に唇動き映像特徴情報を適用して唇動き領域であるか否かを判断し、当該判断結果に基づいて唇動き信号を生成する段階と、を備えることを特徴とする請求項１に記載の音声区間検出方法。
前記唇動き映像特徴情報は、唇の形状と唇の変化を含むことを特徴とする請求項４に記載の音声区間検出方法。
前記把握された動き領域の特徴に唇動き映像特徴情報を適用して唇動き領域であるか否かを判断し、当該判断結果に基づいて唇動き信号を検出する段階は、
前記把握された動き領域の特徴と前記唇動き映像特徴情報とを比較し、類似度を求める段階と、
前記求められた類似度が予め定められた一定値以上である場合、唇動き領域として判断し、唇動き信号を生成する段階と、を備えることを特徴とする請求項４に記載の音声区間検出方法。
前記判断結果、前記映像フレームで唇動き信号が検出されない場合、当該音声可能フレームを動的雑音として判断する段階をさらに備えることを特徴とする請求項１に記載の音声区間検出方法。