JP3710205B2

JP3710205B2 - 音声認識装置

Info

Publication number: JP3710205B2
Application number: JP14255196A
Authority: JP
Inventors: 明宏藤井; 敏彦宮崎
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1996-06-05
Filing date: 1996-06-05
Publication date: 2005-10-26
Anticipated expiration: 2016-06-05
Also published as: JPH09325793A

Description

【０００１】
【発明の属する技術分野】
本発明は、例えば、コンピュータとの対話的な音声インターフェースを実現するのに用いて好適な音声認識装置に関するものである。
【０００２】
【従来の技術】
近年、計算機の演算処理によって、入力音声が意味する単語や文章を自動認識させようとする技術の研究及び開発が盛んに行われている。図２に、かかる自動認識に用いられる音声認識装置の基本構成を示す。なお、図２は、音声認識装置の中でも、特に単語の認識処理までを分担する音声認識部１０８を表している。
【０００３】
音声認識部１０８に入力された音声は、まず、音素特徴量抽出部１０８Ａに入力され、一定の短い時間間隔ごとの特徴量を表した特徴ベクトルに変換される。この特徴ベクトルは、時系列順に音素特徴記憶部１０８Ｂに記憶される。このように記憶された特徴ベクトルの時系列の連なりを特徴ベクトル系列と呼ぶことにする。
【０００４】
次に、この特徴ベクトル系列は、尤度算出部ｌ０８Ｃにおいて、単語辞書から読み出された単語モデルと比較される。ここで、単語辞書には、予め単語毎に求められておいた全ての単語モデルが記憶されているので、当該単語モデルとの比較により、入力音声がその単語と仮定した場合における信憑性（尤度）が求められる。
【０００５】
このように単語辞書に収容されている全ての単語について求めた信憑性（尤度）が最も高いものが、入力音声に対応する単語として認識されるのである。
【０００６】
なお、このような尤度の算出方法として、代表的なものに、ＤＰ（Dynamic Programming ）マッチング法やＨＭＭ（Hidden Markov Model:隠れマルコフモデル）法等がある。
【０００７】
また、これら従来技術に関する文献としては、「北脇信彦：マルチモーダル環境に向けた音声認識の実現を目指して：ＮＴＴＲ＆ＤＶｏｌ.４４Ｎｏ.１１１９９５」等がある。
【０００８】
【発明が解決しようとする課題】
ところが、従来の音声認識装置では、参照する単語数が多ければ、その分、尤度算出に必要な計算量（計算回数）が多く、計算機にかかる負荷が大きいという問題があった。
【０００９】
また、正解単語よりも高い尤度の単語が出現する可能性、つまり、誤った単語が認識結果として出力される可能性もあった。
【００１０】
【課題を解決するための手段】
かかる課題を解決するため、第１の本発明の音声認識装置は、登録する単語の音節情報及び音素モデルを有する単語辞書と、話者の口許を撮像した撮像画像から発話区間中の口の動きや口の開き具合を検出し、これらを収めた口形動作情報を出力する口形認識手段と、口形動作情報に含まれる特定の音節と単語辞書の単語の音節情報との類似度をマッチングする口形音節マッチング手段と、口形音節マッチング手段から得た類似度に基づいて、単語辞書に登録されている単語の絞り込みを行う単語候補絞り込手段と、入力音声と単語候補絞り込手段で絞り込まれた候補単語の音素モデルとの尤度を求め、入力音声について最も高い尤度が得られた候補単語を、入力音声についての認識結果とする音声認識手段とを備え、口形音節マッチング手段が、口形動作情報から検出した特定の音節の個数と、単語辞書の単語内の特定の音節の個数とを比較する音節個数比較部、口形動作情報から検出した特定の音節の位置と、単語辞書の単語内の特定の音節の位置とを比較する音節位置比較部、口形動作情報から検出した特定の音節に前後する口形状態と、単語辞書の単語内の特定の音節に前後する口形状態とを比較する音節前後比較部の３つ全て又は一部を有し、これらの比較結果より口形動作情報と単語辞書の単語とのマッチング程度を求めることを特徴とする。
【００１１】
また、第２の本発明の音声認識装置は、登録する単語の音節情報及び音素モデルを有する単語辞書と、入力音声と単語辞書に登録されている単語の音素モデルとの尤度を求め、高い尤度が得られた複数又は全ての単語を、候補単語としてその尤度と共に出力する音声認識手段と、話者の口許を撮像した撮像画像から発話区間中の口の動きや口の開き具合を検出し、これらを収めた口形動作情報を出力する口形認識手段と、口形動作情報に含まれる特定の音節と、音声認識手段により選出された単語辞書の単語の音節情報との類似度をマッチングする口形音節マッチング手段と、音声認識手段で選ばれた候補単語について、音声認識手段から得られた尤度と口形音節マッチング手段から得た類似度から総合的な類似度を調べ、最も高い総合類似度を持つ候補単語を、入力音声についての認識結果とする総合類似度算出部とを備え、口形音節マッチング手段が、口形動作情報から検出した特定の音節の個数と、単語辞書の単語内の特定の音節の個数とを比較する音節個数比較部、口形動作情報から検出した特定の音節の位置と、単語辞書の単語内の特定の音節の位置とを比較する音節位置比較部、口形動作情報から検出した特定の音節に前後する口形状態と、単語辞書の単語内の特定の音節に前後する口形状態とを比較する音節前後比較部の３つ全て又は一部を有し、これらの比較結果より口形動作情報と単語辞書の単語とのマッチング程度を求めることを特徴とする。
【００１２】
さらに、第３の本発明の音声認識装置は、登録する単語の音節情報及び音素モデルを有する単語辞書と、話者の口許を撮像した撮像画像から発話区間中の口の動きや口の開き具合を検出し、これらを収めた口形動作情報を出力する口形認識手段と、口形動作情報に含まれる特定の音節と単語辞書の単語の音節情報との類似度をマッチングする口形音節マッチング手段と、口形音節マッチング手段から得た類似度から単語辞書に登録されている単語を絞り込む単語候補絞り込手段と、入力音声と単語候補絞り込手段で絞り込まれた候補単語の音素モデルとの尤度を求め、高い尤度が得られた複数又は全ての候補単語を、その尤度と共に出力する音声認識手段と、音声認識手段で選ばれた候補単語について、音声認識手段から得られた尤度と口形音節マッチング手段から得た類似度から総合的な類似度を調べ、最も高い総合類似度を持つ候補単語を、入力音声についての認識結果とする総合類似度算出手段とを備え、口形音節マッチング手段が、口形動作情報から検出した特定の音節の個数と、単語辞書の単語内の特定の音節の個数とを比較する音節個数比較部、口形動作情報から検出した特定の音節の位置と、単語辞書の単語内の特定の音節の位置とを比較する音節位置比較部、口形動作情報から検出した特定の音節に前後する口形状態と、単語辞書の単語内の特定の音節に前後する口形状態とを比較する音節前後比較部の３つ全て又は一部を有し、これらの比較結果より口形動作情報と上記単語辞書の単語とのマッチング程度を求めることを特徴とする。
【００１９】
【発明の実施の形態】
（Ａ）第１の実施形態
以下、本発明による音声認識装置の第１の実施形態を図面を参照しながら詳述する。
【００２０】
（Ａ−１）音声認識装置の構成
図３は、本実施形態に係る音声認識装置１００によって構成される音声認識システムを表すブロック図である。この音声認識装置１００は、ビデオカメラ１が撮像した話者（ユーザ）の唇周辺画像を画像信号Ｓ１００として入力し、また、マイクロフォン２で取り込んだ話者（ユーザ）の音声を音声信号Ｓ１０６として入力し、処理している。
【００２１】
図１は、かかる音声認識装置１００の構成を機能ブロックで表した図である。
【００２２】
すなわち、音声認識装置１００は、実際上、ディスプレイやプリンタ等の出力装置、ハードディスク等の周辺装置を備えたコンピュータ等の情報処理装置で構成されるものであるが、音声認識機能から構成をブロック化すると、図１に示すようになる。
【００２３】
音声認識装置１００は、以下に示す機能ブロック１０１〜１０８により構成されている。
【００２４】
画像フレームバッファ１０１は、入力された画像信号Ｓ１００を１画面（フレーム）分記憶する記憶部である。
【００２５】
口形認識部１０２は、画像フレームバッファ１０１から読み出した顔画像信号Ｓ１０１（撮像され画像）から発音時の口の形や動きを認識する認識部であり、図４に示す機能ブロックにより構成されている。すなわち、１フレーム分の顔画像信号Ｓ１０１から口形部分の特徴ベクトル（口形特徴ペクトル）を出力する口形特徴抽出部１０２Ａと、口形特徴ペクトルを時系列順に記憶保持する口形特徴記憶部１０２Ｂと、口形特徴ペクトルの系列から口形の動作（口形動作情報）を抽出する口形動作抽出部１０２Ｃとで構成されている。
【００２６】
単語辞書１０４は、認識する単語候補について予め求めておいた音節情報と音素モデルとを記憶する記憶部である。
【００２７】
口形音節マッチング部１０３は、単語辞書１０４から入力された音節情報と口形の動作から得られた音節とのマッチング程度を調ベ、その結果（口形音節マッチングスコア）を出力するマッチング部である。
【００２８】
単語候補絞り込部１０５は、口形音節マッチングスコアに応じて単語候補を絞り込み、音声認識部１０８における認識処理の際に参照させる単語数を減らす部分である。
【００２９】
音声フレーム分割部１０６は、入力される音声信号を、一定の短い時間間隔の音声データ列（以下、音声フレームと呼ぶ）に区切り、出力する部分である。
【００３０】
有音検出部１０７は、入力された音声フレームＳ１０７が有音かそれとも無音かを判定する部分である。ここで、有音であることが判定された場合には、入力された音声フレーム１０８がそのまま音声フレームＳ１０８として音声認識部１０８に与えられる。また、この判定結果（現在有音か無音か）は、判定信号Ｓ１０９として口形認識部１０２に与えられる。
【００３１】
音声認識部１０８は、入力された有音区間の音声フレームＳ１０８の列と単語侯補絞り込部１０５で紋り込まれた単語の音素モデルＳ１１１とを比較し、最も尤度の高い単語を認識結果として出力するブロックである。この内部構成は、先に説明した図２と同様である。
【００３２】
（Ａ−２）第１の実施形態の動作
以下、第１の実施形態に係る音声認識装置１００の動作を説明する。図５は、かかる音声認識装置１００の動作を示すフローチャートである。
【００３３】
音声認識装置１００の動作は、プロセス（以下、Ｐで表す）１００から開始される。
【００３４】
（Ａ−２−１）処理動作の概要
Ｐ１０１に進むと、音声認識装置１００の初期化が行なわれ、フラグ（flag）変数（有音区間が入力されたか否かを識別する変数）にオフ(OFF) が代入される。このＰ１０１が終わると、次はＰ１０２に進む。
【００３５】
Ｐ１０２では、ビデオカメラ１で撮像された話者（ユーザ）の唇周辺部の画像である画像信号Ｓ１００と、マイクロフォン２で取り込まれた話者（ユーザ）の音声信号Ｓ１０６が音声認識装置１００に入力される。この画像信号Ｓ１００は、図１に示すように、音声認識装置１００内の画像フレームバッファ１０１に入力される。
【００３６】
一方、音声信号Ｓ１０６は、同じく、音声認識装置１００内の音声フレーム分割部１０６に順次入力される。ここで、音声フレーム分割部１０６は、入力された音声信号Ｓ１０６を、例えぱ８[ｍsec ]毎シフトしながら３２[ｍsec ]分の音声フレームに区切り、互いに前後の音声フレームと一部が重複した３２[ｍsec ]長の音声フレームを出力する。このＰ１０２では音声フレームが一つ完成すると、次のＰ１０３に進む。以上がＰ１０２の動作である。
【００３７】
Ｐ１０３では、音声フレーム分割部１０６から有音検出部１０７に入力された音声フレームＳ１０７が有音か無音かが判定される。この判定結果は判定信号Ｓ１０９として出力される。なお、音声フレームＳ１０７が有音であった場合、入力された音声フレームＳ１０７はそのまま音声認識部１０８に出力される。
【００３８】
この有音検出部１０７の有音判別方法としては、例えぱ、入力された音声フレームＳ１０７の内部サンプル値について求めた絶対値平均Ｑが閾値Ｕより大きいか否かで判定する方法がある。この有音検出部１０７での判定が有音であれぱＰ１０４に進み、無音であれぱＰ１０６に進む。以上がＰ１０３の説明である。
【００３９】
Ｐ１０４では、画像フレームＳ１０１及ぴ音声フレームＳ１０７の各々から口形特徴情報および音素特徴ペクトルが抽出される。このＰ１０４で実行される処理の詳細は、後述することにする。Ｐ１０４の処理を終えるとＰ１０５に進む。
【００４０】
Ｐ１０５では、フラグ（flag）変数にオン（ON）が代入される。Ｐ１０５を終えるとＰ１０２に戻る。
【００４１】
次に、Ｐ１０３からＰ１０６に進んだ場合を説明する。
【００４２】
Ｐ１０６では、フラグ(flag）変数の値がオン（ON）であれぱ、Ｐ１０７に進み、フラグ(flag）変数の値がオフ（OFF ）であればＰ１０２に進む。つまり、音声認識装置１００の処理が開始された後、有音区間が入力されるまではＰ１０２→Ｐ１０３→Ｐ１０６→Ｐ１０２の処理ループを繰り返す。
【００４３】
Ｐ１０６からＰ１０７に進んだ場合、Ｐ１０７では、口形特徴記憶部１０２Ｂに記憶されている口形特徴情報の系列Ｓ１０２Ｂが口形動作抽出部１０２Ｃに入力され、有音区間に口がどのように動いたかが調べられる。これには、前後の画像フレーム中の唇の縦・横の長さが比較され、口が開いたピークや口が閉じたピークのフレームとその時の唇の縦・横の長さを調べることにより行われる。この口形動作抽出部１０２Ｃの詳細については、後で詳しく述べることにする。こうして口形動作情報Ｓ１０３を得る。Ｐ１０７を終えるとＰ１０８に進む。
【００４４】
Ｐ１０８では、口形動作抽出部１０２Ｃで得られた口形動作情報Ｓ１０３が口形音節マッチング部１０３に入力され、口形動作情報Ｓ１０３から特定の音節部分を検出し、この口形から得られた音節と単語辞書１０４に記憶されている単語の音節とのマッチングを調ベ、そのマッチングの程度を口形音節マッチングスコアＳ１０５として出力する。
【００４５】
このマッチングを調べる処理を単語辞書１０４に登録されている全ての単語に対して行なった後、Ｐ１１０に進む。このＰ１０８の詳細についても後で述べることにする。
【００４６】
Ｐ１１０では、単語候補絞り込部１０５に入力された各単語の口形音節マッチン７スコアＳ１０５が閾値以上の単語のみ絞り込み、その絞り込まれた単語の音素モデルＳ１１１を単語辞書１０４から受けとり音声認識部１０８にその音素モデルＳ１１１を送る。Ｐ１０９を終えるとＰ１１０に進む。
【００４７】
Ｐ１１０では、尤度算出部１０８Ｃにおいて、単語侯補絞り込部１０５から送られてきた音素モデルＳ１１１と音声認識部１０８内部の音素特徴記憶部１０８Ｂに記憶されている音声信号の音素特徴ベクトルの系列との間でＤＰマッチング法やＨＭＭ法による尤度が算出される。Ｐ１１０を終えるとＰ１１１に進む。
【００４８】
Ｐ１１１では、尤度算出部１０８Ｃで求まった各単語に対する尤度の中から最大のものを入力音声に対する認識単語として出力する。Ｐ１１１を終えるとＰｌ１２に進み、音声認識装置１００の処理を終了する。
【００４９】
（Ａ−２−２）Ｐ１０４の処理内容
Ｐ１０４で実行される動作の詳細を図６に示す。このＰ１０４では、図６に示す通り、画像フレームＳ１０１から口形特徴情報を抽出して記憶保持する処理（Ｐｌ０４Ａ〜Ｐ１０４Ｃ）と、音声フレームＳ１０７から音素特徴ベクトルを抽出して記憶保持する処理（Ｐ１０４Ｄ〜Ｐ１０４Ｅ）との２つの処理が並列に行なわれる。
【００５０】
（Ａ−２−２−１）Ｐ１０４Ａ〜Ｐ１０４Ｃの処理
まず、Ｐ１０４Ａ〜Ｐ１０４Ｃの処理を、図４に示す口形認識部１０２の構成図を用いて説明する。
【００５１】
Ｐｌ０４Ａでは、既に画像フレームバッファ１０１に画像データが１画面分溜ったか調べられる。Ｐ１０４Ａで画像フレームバッファ１０１に画像データが１画面分あれぱＰ１０４Ｂに進み、そうでなければＰ１０４Ｃの次の処理（すなわち、Ｐ１０５）に進む。
【００５２】
Ｐ１０４Ｂでは、口形特徴抽出部１０２Ａにおいて、入力された１画面分の画像データから唇領域の抽出が行われ、唇の縦と横の長さ等が収まった口形特徴情報Ｓ１０１Ａが出カされる。この口形特徴抽出部１０２Ａで行われる詳細なフローチャートを図７に示す。
【００５３】
まず、Ｐ１０４Ｂ１で、入力画像に対する色変換（ＲＧＢ→ＨＳＶ［Ｈ：色相，Ｓ：色彩，Ｖ：明度］が行なわれる。このＰ１０４Ｂ１が終わると、Ｐ１０４Ｂ２に進む。
【００５４】
Ｐ１０４Ｂ２では、予め求めておいた色情報ＨＳＶで表された閾値の範囲（以下、閾値ベクトルと呼ぶ）を満たす画素を１とし、それ以外の画素を０として２値化する。この閾値ベクトルは、唇領域の色を満たす範囲であり、２値化された画素の値が１の部分がこの画像フレームの唇領域になる。Ｐ１０４Ｂ２が終わると、Ｐ１０４Ｂ３に進む。
【００５５】
Ｐ１０４Ｂ３では、２値化によって画素の値が１となった部分の縦と横の長さ（ｈｓ，ｗｓ）が求められる。Ｐ１０４Ｂ３が終わると、Ｐ１０４Ｂ４に進む。
Ｐ１０４Ｂ４では、Ｐ１０４Ｂ３で求めた唇の縦と横の長さ（ｈｓ，ｗｓ）の各々を、予め計測しておいた口を閉じた状態の唇の縦と横の長さ（Ｈｃ，Ｗｃ）で引いて割り、次の(1) 式で表される正規化した値を求める。
【００５６】
【数１】

以上がＰ１０４Ｂの処理の説明である。Ｐ１０４Ｂが終わるとＰ１０４Ｃに進む。
【００５７】
Ｐ１０４Ｃでは、口形特徴情報Ｓ１０１Ａを時系列順に口形特徴記憶部１０２Ｂに記憶させる。この口形特徴記憶部１０２Ｂでは、有音区間の最初からの口形特徴情報が時系列順に記憶される。
【００５８】
（Ａ−２−２−２）Ｐ１０４Ｄ〜Ｐ１０４Ｅの処理
次に、Ｐ１０４Ｄ〜Ｐ１０４Ｅまでの処理について、図２に示す音声認識部１０８の構成図を用いて説明する。
【００５９】
Ｐ１０４Ｄでは、音素特徴抽出部１０８Ａにおいて、入力された音声フレームＳ１０８から例えぱ周知の「ケプストラム」などの音素特徴ベクトルを抽出する。Ｐ１０４Ｄを終えるとＰ１０４Ｅに進む。
【００６０】
Ｐ１０４Ｅでは、音素特徴ベクトルを音素特徴記憶部１０８Ｂに記憶させる。以上の処理によって、この音素特徴記憶部１０８Ｂでは有音区間の最初からの音素特徴ベクトルが時系列順に記憶される。
【００６１】
以上がＰ１０４（Ｐ１０４Ａ〜Ｐ１０４Ｅ）の処理の説明である。
【００６２】
（Ａ−２−３）Ｐ１０７の処理内容
次に、口形動作抽出部１０２Ｃで行われるＰ１０７の詳細動作を説明する。口形動作抽出部１０２Ｃでは、唇の縦の動きの極点（口の開くピークや口の閉じるピーク）のフレームが検索され、その時の唇の縦・横の大きさを抽出した口形動作情報が出力される。図８に、口形動作抽出部１０２Ｃで実行される処理動作のフローチャートを示す。
【００６３】
なお、図８で使われる変数の内訳は、以下の通りとする。ｎ及びｉはカウンタのカウント値を表し、ｈ（ｎ）はｎ番目の画像フレームの唇の縦の長さを表し、ｗ（ｎ）はｎ番目の画像フレームの唇の横の長さを表し、ｄｈは現フレームと前フレームの唇の縦の長さの差分値を表し、ｐｄｈは一つ前のｄｈの値を表す。
【００６４】
まず、Ｐ１０７Ａで、口形動作抽出部１０２Ｃの初期化が行なわれる。ここで、ｎ＝１，ｄｐｈ＝０，ｉ＝０とそれぞれ代入される。Ｐ１０７Ａを終えると、Ｐ１０７Ｂに進む。
【００６５】
Ｐ１０７Ｂでは、唇の縦方向に関する現フレームの唇の縦の長さｈ（ｎ）と、前フレームの唇の縦の長さｈ（ｎ−１）についての差分値（＝ｈ（ｎ）−ｈ（ｎ−１））が求められる。Ｐ１０７Ｂを終えるとＰ１０７Ｃに進む。
【００６６】
Ｐ１０７Ｃでは、ｄｈとｐｄｈの符号が調べられる。ここで、符号とは、ｄｈ＞０であれば「プラス（＋）」、ｄｈ＜０であれぱ「マイナス（−）」、ｄｈ＝０であれば「ゼロ（０）」の三通りの符号であり、もしｄｈとｐｄｈの符号が異なっていれば、Ｐ１０７Ｄに進み、ｄｈとｐｄｈの符号が一致していれぱＰ１０７Ｆに進む。
【００６７】
Ｐ１０７Ｄでは、ｎ−１番目の画像フレームについての以下の情報を、口形動作情報のｉ番目の記憶素子［mlip(i) ］に記憶する。ここで、口形動作情報の記憶素子[mlip(i) ]は、mlip(i).frame （フレーム番号ｎ‐１格納用）、mlip(i).h （唇の縦の長さｈ（ｎ‐１）格納用）、mlip(i).w（唇の横の長さｗ（ｎ‐１）格納用）、mlip(i).pdh（ｐｄｈの符号格納用）、mlip(i).dh（ｄｈの符号格納用）の５つでなる。
【００６８】
Ｐ１０７Ｄを終えると、Ｐ１０７Ｅに進む。
【００６９】
Ｐ１０７Ｅでは、ｉの値に１が加えられる。Ｐ１０７Ｅを終えるとＰ１０７Ｆに進む。
【００７０】
Ｐ１０７Ｆでは、ｐｄｈにｄｈを代入し、ｎの値に１を加える。Ｐ１０７Ｆを終えると、Ｐ１０７Ｇに進む。
【００７１】
Ｐ１０７Ｇでは、ｎの値がこの有音区間の最終フレーム番号より小さいか否かを調べる。もし小さければＰ１０７Ｂに戻り、そうでなけれぱＰ１０７Ｈに進む。
【００７２】
Ｐ１０７Ｈでは、口形音節マッチング部１０３にこれまで得られた口形動作情報が出力される。以上が、口形動作抽出部１０２Ｃで実行されるＰ１０７の詳細動作である。
【００７３】
（Ａ−２−４）Ｐ１０８の処理内容
続いて、口形音節マッチング部１０３で実行されるＰ１０８の詳細動作を説明する。
【００７４】
口形音節マッチング部１０３は、口形動作情報から、／ｍ／，／ｐ／，／ｂ／などのように発声に唇を一瞬閉じる動作を伴う音（以下、両唇音という）の発生箇所を見つけ、次の(i) 〜(iii) に示す３つの事項を比較する。
【００７５】
(i) 口形動作情報に含まれる両唇音の個数と、参照する単語内部に含まれる両唇音の個数
(ii) 有音区間中に現れた両唇音の位置と、参照する単語内部の両唇音の位置
(iii)動作情報から得られる両唇音の前後の母音について発声時の口形と、参照する単語内の両唇音の前後の母音から導かれるモデル口形
これらの比較処理を行う口形音節マッチング部１０３の処理動作を、図９に示すフローチャート（Ｐ１０８）で説明する。
【００７６】
（Ａ−２−４−１）Ｐ１０８Ａの処理
まず、Ｐ１０８Ａでは、口形動作情報から両唇音を発声している箇所（フレーム番号）と、その前後の唇の動きの極点の口形およぴ両唇音の総個数（ｌｎ）が調べられる。このＰ１０８Ａで行われる詳細動作を、図１０を用いて説明する。まず、図１０のＰ１０８Ａ１では、両唇音の個数をカウントする変数ｎに０が代入され、口形動作情報の各アドレスを示すｉに１が代入される。
【００７７】
次に、Ｐ１０８Ａ２で、口形動作情報のｉ番目の記憶素子に記憶されている各情報の中からmlip(i).pdh とmlip(i).dhの符号が調ベられ、mlip(i).pdh の符号が[−]であり、かつ、mlip(i).dhの符号が[＋]であるとき、Ｐ１０８Ａ３に進む。それ以外は、Ｐ１０８Ａ６に進む。
【００７８】
Ｐ１０８Ａ３では、この時の唇の縦横の長さmlip(i).h 及びmlip(i).w が、口を閉じたときの長さを中心に任意の閾値の範囲内にあるか、つまり、両唇音を発話する瞬間の口の形になっているかを調べる。このＰ１０８Ａ３の条件を満たせばＰ１０８Ａ４に進み、そうでなければＰ１０８Ａ６に進む。
【００７９】
Ｐ１０８Ａ４では、ｎに１が加えられ、Ｐ１０８Ａ５に進む。
【００８０】
Ｐ１０８Ａ５では、以下の３つの情報を記憶する。すなわち、フレーム番号（mlip(i).frame）、一つ前の極点の口形（mlip(i-1).hとmlip(i-1).w ）、一つ後の極点の口形（mlip(i+1).hとmlip(i+1).w）の３つの情報が記憶される。このＰ１０８Ａ５を終えると、Ｐ１０８Ａ６に進む。
【００８１】
Ｐ１０８Ａ６では、ｉに１が加えられ、Ｐ１０８Ａ７に進む。
【００８２】
Ｐ１０８Ａ７では、口形動作情報の最後まで調べたかがチェックされ、最後まで調べた場合は、Ｐ１０８Ａ８に進み、そうでなけれぱＰ１０８Ａ２に戻る。
【００８３】
Ｐ１０８Ａ８では、この口形動作情報から検出された両唇音の総個数（ｌｎ）にｎが代入され、Ｐ１０８Ｂに進む。以上がＰ１０８Ａの説明である。
【００８４】
（Ａ−２−４−２）Ｐ１０８Ｂ〜Ｅの処理
再ぴ図９に戻り、Ｐ１０８の説明を続ける。
【００８５】
Ｐ１０８Ｂでは、単語辞書１０４に記憶されている侯補単語の番号に対応する変数ｉを０に初期北する。Ｐ１０８Ｂを終えると、Ｐ１０８Ｃに進む。
【００８６】
Ｐ１０８Ｃでは、第ｉ番目の侯補単語であるｗｏｒｄ(i) に含まれる両唇音の位置と、その前後の母音と、両唇音の総個数（ｗｎ）とが調べられる。これは、例えば候補単語ｗｏｒｄ(i) が「くるまえび（ｋｕｒｍａｅｂｉ）」であれぱ、両唇音の総個数（ｗｎ）は２で、最初の両唇音／ｍ／の前後の母音は／ｕ／，／ａ／であり、２番目の両唇音／ｂ／の前後の母音は／ｅ／，／ｉ／である。
【００８７】
ただし、「パイナップル（ｐａｉｎａｐｐｕｒｕ）」の最初の／ｐ／のように単語の先頭にある両唇音については、これをカウントしないことにする。従って、この場合、単語の中間に位置する／ｐ／が両唇音となり、この／ｐ／の前後の母音は／ａ／，／ｕ／となる。Ｐ１０８Ｃが終わると、Ｐ１０８Ｄに進む。
【００８８】
Ｐ１０８Ｄでは、口形動作情報から得た両唇音の総個数ｌｎと参照単語ｗｏｒｄ(i) に含まれる両唇音の総個数ｗｎが等しいかを調べ、等しければＰ１０８Ｅに進み、等しくなけれぱＰ１０８Ｍで口形音節マッチングスコアＳＣ(i) の値を０にしてからＰ１０８Ｋに進む。
【００８９】
Ｐ１０８Ｅでは、両唇音の総個数が０より大きいかを調ベ、大きけれぱＰ１０８Ｆに進み、両唇音の総個数が０であれぱＰ１０８Ｎで口形音節マッチングスコアＳＣ(i) の値を１にしてからＰ１０８Ｋに進む。
【００９０】
（Ａ−２−４−３）Ｐ１０８Ｆの処理
Ｐ１０８Ｆでは、両唇音が単語中のどの位置にあるかのマッチングを調べる。
図１１に、Ｐ１０８Ｆの詳細なフローチャートを示す。
【００９１】
図１１において、まずＰ１０８Ｆ１では、両唇音をカウントする変数ｊを０に初期化し、位置スコアＡの初期値を１にする。Ｐ１０８Ｆ１を終えると、Ｐ１０８Ｆ２に進む。
【００９２】
次に、Ｐ１０８Ｆ２では、口形動作情報から得た第ｊ番目の両唇音の画像フレームの相対位置ｓｖ(j) を算出する。ｓｖ(j) の算出式は、次の(2) 式で与えられる。
【００９３】
【数２】

このＰ１０８Ｆ２を終えると、次は、Ｐ１０８Ｆ３に進む。
【００９４】
次のＰ１０８Ｆ３では、候補単語中の第ｊ番目の両唇音の相対位置ｓｗ(j) を算出する。ｓｗ(j) の算出式は、次の(3) 式のようになる。
【００９５】
【数３】

例えぱ、候補単語が「くるまえび」の場合、最初（第０番目）の両唇音／ｍ／の相対位置ｓｗ(j) は、候補単語中の音節数５に対して両唇音がある音節位置は２であるので（位置０が「く」、位置１が「る」）、(3) 式より２／５＝0.4 である。なお、相対位置ｓｗ(j) はその都度算出するのではなく、予め全て求めておいても良く、また、予め実際の音声から両唇音の位置を求めるようにしても良い。Ｐ１０８Ｆ３を終えると、Ｐ１０８Ｆ４に進む。
【００９６】
Ｐ１０８Ｆ４では、ｓｖ(j) とｓｗ(j) のマッチング度ｓ(j) を算出する。このマッチング度ｓ(j) は、ｘ＝｜ｓｖ(j) −ｓｗ(j) ｜として、図１２に示す非線形関数ｆ（ｘ）についての出力値で与えられる。Ｐ１０８Ｆ４を終えると、Ｐ１０８Ｆ５に進む。
【００９７】
Ｐ１０８Ｆ５では、位置スコアＡにマッチング度ｓ(j) を掛け合わせる。Ｐｌ０８Ｆ５を終えると、Ｐ１０８Ｆ６に進む。
【００９８】
Ｐ１０８Ｆ６では、ｊに１を加算する。Ｐ１０８Ｆ６を終えると、Ｐ１０８Ｆ７に進む。
【００９９】
Ｐ１０８Ｆ７では、ｊ＜ｌｎ（両唇音の個数）を満たすか否かが判定され、条件を満たしていればＰ１０８Ｆ２に戻り、それ以外はＰ１０８Ｆの処理を終了して位置スコアＡを出力し。Ｐ１０８Ｇに進む。以上がＰ１０８Ｆの説明である。
【０１００】
（Ａ−２−４−４）Ｐ１０８Ｇ、Ｈの処理
再び図９に戻り、Ｐ１０８Ｇ以降の処理を説明をする。
【０１０１】
Ｐ１０８Ｇでは、位置スコアＡが閾値ＬＡより大きいか否かを調ベ、大きければＰ１０８Ｈに進み、そうでなければＰ１０８Ｏで口形音節マッチングスコアＳＣ(i) の値を０にしてからＰ１０８Ｋに進む。
【０１０２】
Ｐ１０８Ｈでは、両唇音の前後の口形と候補単語の両唇音の前後の母音を発声している場合のモデル口形との類似度を調べ、前後母音スコアＢを算出する。なお、予め複数の口形情報から各母音（／ａ／，／ｉ／，／ｕ／，／ｅ／，／ｏ／）毎に発声時の唇の縦と横の長さの平均値と、分散値と、唇の縦と横の長さの相関係数を求めておく。
【０１０３】
まずここで、Ｐ１０８Ｈの処理に用いる各種変数の定義をしておく。母音ｖ（＝／ａ／，／ｉ／，／ｕ／，／ｅ／，／ｏ／）を発声している場合の口形の平均値、分散値、相関係数を、それぞれ次のように定義する。
【０１０４】
すなわち、母音ｖにおける唇の縦およぴ横の長さの平均値をμｈ(v) ，μｗ(v) とし、母音ｖにおける唇の縦および横の長さの分散の平方根をσｈ(v)，σｗ(v)とし、母音ｖにおける唇の縦と横の長さの相関係数をρ(ｖ)とする。
【０１０５】
また、口形動作情報から得られた第ｊ番目の両唇音の前後の口形を、それぞれ次のように定義する。
【０１０６】
すなわち、両唇音の一つ前の極点の縦およぴ横の長さをｈ０(j)，ｗ０(j) とし、両唇音の一つ後の極点の縦およぴ横の長さをｈ１(j) ，ｗ１(j) とする。
【０１０７】
前後母音スコアＢを算出するステップは、検出されたｌｎ個の各両唇音について、前母音と後母音の類似度（スコア）を求め、前母音と後母音のスコアを線形結合させた値の掛け合わせから求める。
【０１０８】
さて、第ｊ番目の両唇音についての前後母音スコアＢ(j) を求める方法を述べる。
【０１０９】
このときまず、第ｊ番目の両唇音の前の母音ｖ０に対する類似度Ｂ０(j) は、次の(4) 式で与えられる。
【０１１０】
【数４】

また、第ｊ番目の両唇音の後の母音ｖ１に対する類似度Ｂ１(j) は、次の(5) 式のようになる。
【０１１１】
【数５】

そして、第０番目の両唇音から第ｌｎ‐１番目の両唇音までの前後母音スコアＢは、次の(6) 式で与えられる。
【０１１２】
【数６】

以上が前後母音スコアＢの算出方法である。なお、βは０≦β≦１を満たす任意の定数である。Ｐ１０８Ｈを終えると、Ｐ１０８Ｉに進む。
【０１１３】
（Ａ−２−４−５）Ｐ１０８Ｉ〜１０８Ｐの処理
Ｐ１０８Ｉでは、前後母音スコアＢが閾値ＬＢより大きいかを調べる。閾値ＬＢより大きい場合はＰ１０８Ｊに進み、小さい場合はＰ１０８Ｐで口形音節マッチングスコアＳＣ(i) の値を０にしてからＰ１０８Ｋに進む。
【０１１４】
Ｐ１０８Ｊでは、Ｐ１０８Ｆで得られた位置スコアＡと、Ｐ１０８Ｈで得られた前後母音スコアＢとで最終的な候補単語ｗｏｒｄ(i) に対する口形音節マッチングスコアＳＣ(i) を算出する。この単語に対する口形音節マッチングスコアＳＣ(i) の算出式は、次の(7) 式のようになる。
【０１１５】
【数７】

なお、αは０≦α≦１を満たす任意の定数である。Ｐ１０８Ｊを終えると、Ｐ１０８Ｋに進む。
【０１１６】
Ｐ１０８Ｋでは、ｉに１を加算する。Ｐ１０８Ｋを終えると、Ｐ１０８Ｌに進む。
【０１１７】
Ｐ１０８Ｌでは、ｉが候補単語数を越えていないか、つまりまだ参照していない候補単語があれば、Ｐ１０８Ｃに戻り、次の候補単語を参照する。もし全ての候補単語を参照し終っていれぱＰ１０８の処理は終りであり、次のＰ１０９に進む。
【０１１８】
こうして得られた各単語に対する口形音節マッチングスコアＳＣ(i) が、閾値以上の単語のみが音声認識装置によって認識されるのである。
【０１１９】
（Ａ−３）第１の実施形態の効果
以上のように第１の実施例によれば、口形情報から予め音声認識で参照する候補単語の絞り込みを行なうので、従来の音声認識装置の中で最も処理負荷の大きい尤度計算の回数を減らすことができる。
【０１２０】
また、特に、両唇音は他の音に比べ発声時の口形がはっきりしており、口形からの両唇音の検出は極めて容易であるので、両唇音の個数や位置には高い信頼性があり、不特定話者に適応可能である。
【０１２１】
また、取り扱う音声が日本語であれば、単語の先頭に両唇音がある場合を除いて、両唇音の前後は母音である。そして、その母音発声時の口形は、それぞれ両唇音の前後の口形動作の極点になる。そこで、前後母音の類似性を求めることによって、更に精度の高い候補単語の絞り込みを行なうことができる。
【０１２２】
以上のように、両唇音の個数と位置と前後母音の類似性から精度の高い候補単語の絞り込みを行なうことができる。
【０１２３】
（Ｂ）第２の実施形態
次に、本発明による音声認識装置の第２の実施形態を図面を参照しながら説明する。
【０１２４】
第１の実施形態は、口形情報から単語辞書に登録されている候補単語の絞り込みを行なった上で、音素モデルと入力音声の尤度の最も高い単語を認識結果として出力していたが、第２の実施形態では、第１の実施形態と逆の処理順序で認識結果を求めていることが異なる。
【０１２５】
すなわち、第２の実施形態では、まず、単語辞書に登録されている候補単語の音素モデルと入力音声の尤度の計算を行ない、その中から尤度の高いものを複数絞り込み、その絞り込まれた単語の音節と口形情報から得られた音節情報とのマッチングに基づいて最も相応しい単語を認識結果として出力するようにする。
【０１２６】
この相違点の説明を中心に、第２の実施形態を説明する。
【０１２７】
（Ｂ−１）第２の実施形態の構成
第２の実施形態で説明する音声認識装置は、機能ブロック図で表すと、第１の実施形態に係る図１と同様に表すことができる。本実施形態に係る音声認識装置２００の構成を表したが図１３である。この図１３では、図１との同一、対応部分に同一、対応符号を付して示している。
【０１２８】
図１３が図１と異なる点は、単語候補絞り込部１０５がなくなった点、本実施形態ようの音声認識部２０２を用いる点、総合マッチングスコア算出部２０３が新たに設けられた点である。ここでは、相違点の構成についてのみ説明する。
【０１２９】
まず、音声認識部２０２について説明する。この音声認識部２０２の基本構成は、第１の実施形態の音声認識部１０８と同様であり、その詳細構成は図２に示したものと同じである。ただし、この実施形態に係る音声認識装置２０２の場合、入力された音声フレーム列と単語辞書１０４から入力された候補単語の音素モデルとを比較し、類似度の高い単語を複数個出力するだけで、最終的な認識結果を得るものではない。
【０１３０】
一方、総合マッチングスコア算出部２０３は、口形音節マッチング部１０３のスコアと音声認識部２０２の尤度とから総合的なマッチングスコアを算出し、最も高い総合マッチングスコアが得られた単語を出力するようになされている。
【０１３１】
（Ｂ−２）第２の実施形態の動作
以下、第２の実施形態に係る音声認識装置２００の動作を説明する。図１４は、かかる音声認識装置２００の動作を示すフローチャートである。なお、図１４において、Ｐ１００からＰ１０６までの処理は、第１の実施形態で説明した内容と同じであるので説明を省略し、相違点のみについて説明する。従って、以下の説明では、Ｐ２０１以降から説明を始める。
【０１３２】
まず、Ｐ２０１では、入力音声から得られた音素ベクトル系列と単語辞書１０４に登録されている候補単語の各音素モデルとの間の尤度を求める。この尤度を求める方法は、第１の実施形態の場合と同様、ＨＭＭ等から求める。Ｐ２０１を終えると、Ｐ２０２に進む。
【０１３３】
Ｐ２０２では、Ｐ２０１で求められた尤度が高かった単語を複数選ぶ。これは尤度の高い順に上位ｎ個までの単語を選ぶようにしても良いし、ある閾値以上の尤度を持つ単語を選ぶようにしても良い。Ｐ２０２を終えると、Ｐ２０３に進む。
【０１３４】
Ｐ２０３では、第１の実施形態で説明したＰ１０７と同様の処理を行なう。つまり、口形特徴情報から口形動作情報を得る。Ｐ２０３を終えると、Ｐ２０４に進む。
【０１３５】
Ｐ２０４では、Ｐ２０２で選ぱれた候補単語について、その音節情報と口形動作情報から得られた両唇音を中心とした音節情報とのマッチングを行なう。このＰ２０４で行なうマッチングは、第１の実施形態のＰ１０８で行なったように両唇音の個数と位置と前後の母音についてマッチングを行ない、口形音節マッチングスコアＳＣ(i) を出力する。Ｐ２０４を終えると、Ｐ２０５に進む。
【０１３６】
Ｐ２０５では、総合マッチングスコア算出部２０３において、Ｐ２０１で得られた尤度Ｎと、Ｐ２０４で得られた口形音節マッチングスコアＳＣ(i) とから、最終的なマッチングスコアＬＳＣを算出し、最も高いマッチングスコアＬＳＣを得た単語を認識結果として出力する。
【０１３７】
このマッチングスコア（ＬＳＣ）の算出方法の例を、次の(8) 式に示す。
【０１３８】
ＬＳＣ＝λＮ＋（１−λ）ＳＣ ……(8)
ただし、０≦λ≦１であり、λは任意の定数とする。
【０１３９】
（Ｂ−３）第２の実施形態の効果
以上のように、第２の実施形態によれば、入力音声と候補単語の音素モデルとの尤度計算から即座に認識単語を求めるのではなく、複数の候補を絞り込み、当該絞り込まれた候補について口形情報を併用して認識単語を決定することにしたので、従来の音声認識装置に比べて認識精度を高めることができる。
【０１４０】
また、両唇音は他の音に比べ発声時の口形がはっきりしており、口形からの両唇音の検出は極めて容易であるので、両唇音の個数や位置には高い信頼性があり、不特定話者に適応可能である。特に背景雑音が大きい環境の中で音声の自動認識を行なう際に有効である。
【０１４１】
（Ｃ）第３の実施形態
続いて、本発明による音声認識装置の第３の実施形態を図面を参照しながら説明する。
【０１４２】
この第３の実施形態は、前述した第１の実施形態と、第２の実施形態とを組み合わせたものであり、全体の流れは、おおよそ次の３段階に分けることができる。
【０１４３】
すなわち、(1) 口形情報から単語辞書に登録されている候補単語の絞り込みを行なう段階と、(2) 絞り込まれた候補単語の音素モデルと入力音声の尤度を計算し、特に尤度の高かった単語を複数選ぶ段階と、(3) 先に説明した(2) で選ぱれた単語に対し、その尤度と(1) で求めた口形音節マッチングスコアから最終的な認識単語を出力する段階の３つである。以下、この点を中心に説明する。
【０１４４】
（Ｃ−１）第３の実施形態の構成
第３の実施形態で説明する音声認識装置は、機能ブロック図で表すと、第１及び第２の実施形態に係る図１及び図１３と同様に表すことができる。本実施形態に係る音声認識装置３００の構成を表したが図１５である。この図１５では、図１及び図１３との同一、対応部分に同一、対応符号を付して示している。
【０１４５】
図１５が図１及び図１３と異なる点は、新たに口形マッチングスコア記憶部３０１が設けられた点である。
【０１４６】
ここで、口形音節マッチングスコア記憶部３０１は、口形音節マッチング部１０３で得られた口形音節マッチングスコアを一時記憶するのに用いられる記憶部であり、総合マッチングスコア算出部２０３の処理が開始されるまで保持する役割を有している。
【０１４７】
なお、この実施形態の音声認識部２０２は、入力された音声フレーム列と、予め単語候補絞り込部１０５で絞り込まれた候補単語の音素モデルとを比較するようになされ、当該比較結果から類似度の高い単語を複数個出力するようになっている。
【０１４８】
また、この実施形態の総合マッチングスコア算出部２０３は、口形音節マッチングスコア３０１に保持されている口形音節マッチングスコアと、音声認識部２０２から得られた尤度から総合的なマッチングスコアを算出し、総合的なマッチングスコアの一番高かった単語を認識結果として出力するようになっている。
【０１４９】
（Ｃ−２）第３の実施形態の動作
以下、第３の実施形態にかかる音声認識装置３００の動作の詳細を述べる。図１６に、本発明の第３の実施例の音声認識装置３００の動作のフローチャートを示す。なお、図１６において、Ｐ１００からＰ１１０までの処理は、第１の実施形態の動作を説明した図５の場合と同じであるので、その説明は省略する。以下、Ｐ３０１以降から説明を始める。
【０１５０】
まず、Ｐ３０１では、Ｐ１１０で求められたモデル音素との尤度が高かった単語を複数選ぶことにする。これは尤度の高い順に上位ｎ個までの単語を選ぶようにしても良いし、ある関値以上の尤度の持つ単語を選ぶようにしても良い。いずれにしても、Ｐ３０１を終えると、Ｐ３０２に進む。
【０１５１】
Ｐ３０２では、Ｐ１１０で得られた尤度Ｎと、Ｐ１０８で得られた口形音節マッチングスコアＳＣ(i) とから、総合的なマッチングスコアＬＳＣを算出する。この総合マッチングスコアＬＳＣの算出方法は、第２の実施形態のＰ２０５の処理と同様であり、(8) 式を用いることができる。Ｐ３０２を終えると、Ｐ３０３に進む。
【０１５２】
Ｐ３０３では、Ｐ３０２で求めた総合マッチングスコアＬＳＣの最も高かった単語を認識結果として出カする。Ｐ３０３を終えると、Ｐ３０４に進み一連の処理を終える。
【０１５３】
以上が、第３の実施形態に特有な動作部分の説明である。
【０１５４】
（Ｃ−３）第３の実施形態の効果
以上のように、第３の実施形態によれば、まず、口形情報から予め候補単語を絞り込み、絞り込まれた単語について音声認識を行なうので、音声認識に費やす処理の軽減を実現できる。
【０１５５】
更に、音声認識部２０２で認識結果を一つに絞り込むのではなく、更に再ぴ口形情報から求まった口形音節マッチングスコアＬＳＣも用いて最終的に出力する認識結果を一つに絞り込むので、音声認識の精度を高めることが可能になる。
【０１５６】
このように、両唇音という他の音に比べ発声時の口形がはっきりしている口形の情報を用いて認識処理するため、背景雑音が大きい環境の中で話者の音声を高い精度で自動認識することが可能となる。
【０１５７】
（Ｄ）第４の実施形態
さらに、本発明による音声認識装置の第４の実施形態を図面を参照しながら説明する。
【０１５８】
この第４の実施形態は、第１の実施形態の変形例とも言うべきものであり、口形音節マッチング部１０３が口形音節マッチングスコアを求める際に用いる処理方法のみを異にするものである。
【０１５９】
すなわち、第１の実施形態は、口形音節マッチングスコアを求める際、両唇音の前後に位置する波形のピーク位置を母音位置と決定する手法を用いていたが、第４の実施形態においては、発話速度が一定であるとの仮定の下に、両唇音から時間的距離がある範囲内であり、かつ、唇の開き具合が閾値以上であるような位置を母音位置として決定する。
【０１６０】
以下、この部分を中心に、第４の実施形態を説明する。
【０１６１】
（Ｄ−１）第４実施形態の構成
第４の実施形態に係る音声認識装置４００の機能ブロック構成を図１７に示す。この図１７には、図１との同一、対応部分に同一、対応符号を付して示している。図１７から分かるように、音声認識装置４００の機能ブロック構成は、第１の実施形態で説明した音声認識装置１００の機能ブロック構成と同じである。異なるのは、入力された音節情報と、口形の動作から得られた音節とのマッチング程度を調べ、結果を口形音節マッチングスコアとして出力する口形音節マッチング部１０３で行われる処理内容のみである。
【０１６２】
（Ｄ−２）第４実施形態の動作
以下、第４の実施形態にかかる音声認識装置４００の動作の詳細を述べる。参考までに音声認識装置４００の動作のフローチャートを図１８に示す。図１８からも分かるように、その内容は第１の実施形態の説明に用いた図５と同じである。異なるのは、この一連の処理のうち、Ｐ１０８’に係る部分である。従って、Ｐ１０８’の詳細のみを説明する。
【０１６３】
（Ｄ−２−１）Ｐ１０８’の処理内容
続いて、口形音節マッチング部１０３で実行されるＰ１０８’の詳細動作を、図１９を用いて説明する。
【０１６４】
口形音節マッチング部１０３は、このＰ１０８’により、口形動作情報から／ｍ／，／ｐ／，／ｂ／などの両唇音の発生箇所を見つけ、次の(1) 〜(3) に示す３つの事項を比較する。なお、第１の実施形態の場合とは、(2) の内容が異なる。
【０１６５】
(1) 口形動作情報に含まれる両唇音の個数と、参照する単語内部に含まれる両唇音の個数
(2) 有音区間中に現れた両唇音の始端・終端位置と、参照する単語内の両唇音の始端・終端位置
(3) 動作情報から得られる両唇音の前後の母音について発声時の口形と、参照する単内の両唇音の前後の母音から導かれるモデル口形
次に、Ｐ１０８’を構成する各処理の内容を説明する。
【０１６６】
（Ｄ−２−１−１）Ｐ１０８Ａ’の処理
まず、Ｐ１０８’の最初の処理として行われるＰ１０８Ａ’の処理を説明する。
【０１６７】
Ｐ１０８Ａ’では、口形動作情報から両唇音を発声している始端およぴ終端位置（フレーム番号）と、両唇音の前後の唇の動きの極点の口形との抽出がなされ、両唇音の総個数ｌｎが調べられる。このＰｌ０８Ａ’の詳細を表したのが図２０のフローチャートである。
【０１６８】
（Ｄ−２−１−１−１）Ｐ１０８Ａ１’〜Ｐ１０８Ａ２’の処理
まず、Ｐ１０８Ａ１’で、両唇音の個数をカウントする変数ｌｎを０とし、口形動作情報の番号を示すｉに１を代入する。
【０１６９】
次に、Ｐ１０８Ａ２’で、口形動作情報のｉ番目の口形動作情報 mlip(i)が両唇音の始端のフレームのものであるかを調べる。この判別には、次の(1) 〜(3) の３つの条件が用いられる。
【０１７０】
(1) mlip(i).pdh が［−］
(2) mlip(i).dh が［＋］又は[０]
(3) 唇の縦横の長さである mlip(i).hと、mlip(i).w とが、閾値Ｌ０＝（Ｌｈ０，Ｌｗ０）〜Ｌ１＝（Ｌｈ１，Ｌｗ１）の範囲に収まっている
ここで、口形動作情報 mlip(i)が上記３つの条件を同時に満たせば、mlip(i).frame は両唇音の始端フレームとなり、以後、この両唇音の終端、両唇音の直前・直後の母音の位置検出を行なう。なお、この両唇音の始端のｉを、以下、ｓｉとする。このＰ１０８Ａ２’で、始端であることが確認されれば、Ｐ１０８Ａ３’に進み、そうでなければ、Ｐ１０８Ａ８’に進む。
【０１７１】
（Ｄ−２−１−１−２）Ｐ１０８Ａ３’〜Ｐ１０８Ａ４’の処理
Ｐ１０８Ａ３’では、第ｌｎ番目の両唇音の始端情報ｌｖｓ（ｌｎ）に mlip(i)を代入する。Ｐ１０８Ａ３’を終えると、Ｐ１０８Ａ４’に進む。
【０１７２】
Ｐ１０８Ａ４’では、この両唇音の直前の母音を発話した時の口形動作情報を捜す処理と、見つかった口形動作情報を両唇音の直前母音情報ｌｖｈ（ｌｎ）に代入する処理を行う。図２１に、両唇音の直前の母音位置を検出手順を示す詳細なフローチャートを示す。
【０１７３】
まず、Ｐ１０８Ａ４１’でｉにｓｉ−１を代入する。次に、Ｐ１０８Ａ４２’で、mlip(i) が次の(1) 、(2) の２つの条件を同時に満たすか調べる。
【０１７４】
(1) mlip(i).dhが［−］
(2) 唇の縦横の長さであるmlip(i).h と、mlip(i).w が共に閾値の範囲外にあるここで、mlip(i) が上記の２つの条件を同時に満たせば、Ｐ１０８Ａ４５’に進み、条件を満たさなければ、Ｐ１０８Ａ４３’に進む。
【０１７５】
Ｐ１０８Ａ４５’では、ｌｎ番目の両唇音の直前の母音情報１ｖｈ（ｌｎ）にmlip(i) を代入し、Ｐ１０８Ａ５’に進む。
【０１７６】
一方、Ｐ１０８Ａ４２’からＰ１０８Ａ４３’に進んだ場合、Ｐ１０８Ａ４３’でｉから１を減算し、次のＰ１０８Ａ４４’でｉが閾値ＭＬＶＨより小さいか否か調べる。小さければ、Ｐ１０８Ａ８’に進み、小さくなければＰ１０８Ａ４２’に戻る。
【０１７７】
すなわち、このＰ１０４Ａ４’で両唇音の直前母音が見つからない場合はＰ１０８Ａ８’に進み、見つかった場合はＰ１０８Ａ５’に進む。
【０１７８】
（Ｄ−２−１−１−３）Ｐ１０８Ａ５’の処理
Ｐｌ０８Ａ５’では、両唇音の終端のフレームの捜索が行われ、その時の口形動作情報を終端情報ｌｖｅ（ｌｎ）に代入する処理がなされる。図２２に、両唇音の終端の位置検出の詳細なフローチャートを示す。
【０１７９】
まず、Ｐ１０８Ａ５１’で、ｉにｓｉ＋ｌを代入する。次に、Ｐ１０８Ａ５２’で、mlip(i).h とmlip(i).w が共に閾値Ｌ０〜Ｌｌの範囲にあるかを調べる。ここで、閾値の範囲外であれば、Ｐ１０８Ａ５５’に進み、閾値の範囲内であればＰ１０８Ａ５３’に進む。
【０１８０】
Ｐ１０８Ａ５５’では、ｌｎ番目の両唇音の終端情報ｌｖｅ（ｌｎ）にmlip(i-1) を代入し、Ｐ１０８Ａ６’に進む。
【０１８１】
一方、Ｐｌ０８Ａ５２’からＰ１０８Ａ５３’に進んだ場合、Ｐｌ０８Ａ５３’では、ｉに１を加算する。
【０１８２】
次に、ｉが閾値ＭＬＶＥより大きいか調べ、大きければＰ１０８Ａ８’に進み、大きくなければＰ１０８Ａ５２’に戻る。なお、Ｐ１０８Ａ５５’のときのｉを、以下、ｅｉとする。
【０１８３】
すなわち、このＰ１０８Ａ５’で両唇音の終端が見つからない場合はＰ１０８Ａ８’に進み、見つからない場合はＰ１０８Ａ６’に進む。
【０１８４】
（Ｄ−２−１−１−４）Ｐ１０８Ａ６’の処理
Ｐ１０８Ａ６’では、この両唇音の直後の母音を発話した時の口形動作情報の探索が行われ、この口形動作情報を両唇音の直後の母音情報ｌｖｔ（ｌｎ）に代入する処理を行う。図２３に、両唇音の直後の母音位置検出処理の詳細なフローチャートを示す。
【０１８５】
まず、Ｐ１０８Ａ６１’で、ｉにｅｉ＋１を代入する。次に、Ｐ１０８Ａ６２’で、mlip(i) が次の(1) 、(2) の２つの条件を同時に満たすか調べる。
【０１８６】
(1) mlip(i).dhが[＋]
(2) 唇の縦横の長さであるmlip(i).h と、mlip(i).w が共に閾値の範囲外にある
ここで、mlip(i) が上記の２つの条件を同時に満たせば、Ｐ１０８Ａ６５’に進み、条件を満たさなければ、Ｐ１０８Ａ６３’に進む。
【０１８７】
Ｐ１０８Ａ６５’では、ｌｎ番目の両唇音の直後の母音情報ｌｖｈ（ｌｎ）にmlip(i) を代入し、Ｐ１０８Ａ７’に進む。
【０１８８】
一方、Ｐ１０８Ａ６２’からＰ１０８Ａ６３’に進んだ場合、Ｐ１０８Ａ６３’では、ｉに１を加算する。次に、ｉが閾値ＭＬＶＴより大きいかを調べ、大きければＰ１０８Ａ８’に進み、大きくなければＰ１０８Ａ６２’に戻る。
【０１８９】
すなわち、このＰ１０８Ａ６’で両唇音の直後の母音が見つからない場合はＰｌ０８Ａ８’に進み、見つかった場合はＰ１０８Ａ７’に進む。
【０１９０】
（Ｄ−２−１−１−５）Ｐ１０８Ａ７’〜Ｐ１０８Ａ９’の処理
Ｐ１０８Ａ７’では、ｌｎに１を加える。Ｐ１０８Ａ７’を終えると、Ｐ１０８Ａ８’に進む。
【０１９１】
Ｐｌ０８Ａ８’では、ｉに１を加える。Ｐｌ０８Ａ８’を終えると、Ｐ１０８Ａ９’に進む。
【０１９２】
Ｐ１０８Ａ９’では、口形動作情報の最後まで調べたかをチェックし、最後まで調べた場合には、Ｐ１０８Ｂに進み、そうでなければＰ１０８Ａ２’に戻る。
以上がＰ１０８Ａ’の説明である。
【０１９３】
（Ｄ−２−１−２）Ｐ１０８Ｂ〜Ｐ１０８Ｃ’の処理
Ｐ１０８Ｂでは、単語辞書１０４に記憶されている候補単語の番号に対応する変数ｉの初期化が行われる。初期化により、変数ｉは０になる。Ｐ１０８Ｂを終えると、Ｐ１０８Ｃ’に進む。
【０１９４】
Ｐ１０８Ｃ’では、第ｉ番目の候補単語であるｗｏｒｄ(i) に含まれる両唇音の個数ｗｎと、各々の両唇音の始端と終端の位置と、前後の母音を調べる。
【０１９５】
両唇音の始端と終端の位置は、両唇音の単語中における音節位置によって決まる。通常は、第ｎ番目の音節に両唇音があれば、両唇音の位置は、始端がｎ−１、終端がｎ−１である。
【０１９６】
例えば、入力音声が「にまいがい」の場合、両唇音「ま」は第二音節にあるので始端位置は１、終端位置は１である。但し、「みかん」のように両唇音「み」が単語の第一音節にある両唇音については、これをカウントしない。
【０１９７】
更に例外として、両唇音の前の音節が「つまる音」（例えば、パイナップルの場合の「ッ」）や「はねる音」（例えば、さんまの場合の「ん」）の場合は、両唇音の始端はこれらの音節の位置になる。つまり、「パイナップル」の両唇音「ップ」の始端位置は３、終端位置は４となる。
【０１９８】
また、前後の母音とは、両唇音の前の音節が「つまる音」や「はねる音」の場合は、これを含めた両唇音の直前直後の母音をいう。例えば、「さんま」の場合、「んま」の前の母音は／ａ／、後の母音は／ａ／である。このＰ１０８Ｃ’を終えると、Ｐ１０８Ｄに進む。
【０１９９】
（Ｄ−２−１−３）Ｐ１０８Ｄ〜Ｐ１０８Ｆ’の処理
Ｐ１０８Ｄでは、口形動作情報から得た両唇音の総個数ｌｎと、参照単語Ｗｏｒｄ(i) に含まれる両唇音の総個数Ｗｎとが等しいかを調ベ、等しければＰ１０８Ｅに進み、等しくなければＰ１０８Ｍで口形音節マッチングスコアＳＣ(i) の値を０にしてからＰ１０８Ｋに進む。
【０２００】
Ｐｌ０８Ｅでは、両唇音の総個数ｌｎが０より大きいかを調べ、大きければＰｌ０８Ｆ’に進み、両唇音の総個数が０であればＰ１０８Ｎで口形音節マッチングスコアＳＣ(i) の値を１にしてからＰ１０８Ｋに進む。
【０２０１】
Ｐ１０８Ｆ’では、ｗｏｒｄ(i)に対する両唇音の位置のマッチングを調べる。図２４に、Ｐ１０８Ｆ’の詳細なフローチャートを示す。
【０２０２】
まず、Ｐ１０８Ｆ１’で、両唇音をカウントする変数ｊを０に初期化し、位置スコアＡの初期値を１にする。Ｐ１０８Ｆ１’を終えると、Ｐ１０８Ｆ２’に進む。
【０２０３】
次に、Ｐ１０８Ｆ２’では、口形動作情報から得た第ｊ番目の両唇音の始端・終端の相対位置ｓｖ(j) （＝[ｓｖ(j).ｓ，ｓｖ(j).ｅ]）を算出する。このとき、ｓｖ(j) の算出式は、次の(9) 、(10)式で与えられる。
【０２０４】
【数８】

【数９】

以上、両唇音の始端の画像フレーム番号Ｐ１０８Ｆ２’を終えると、Ｐ１０８Ｆ３’に進む。
【０２０５】
次に、Ｐ１０８Ｆ３’では、Ｐ１０８Ａ’の処理で得られた候補単語中の第ｊ番目の始端・終端の両唇音の位置ｓｗ(j) （＝［ｓｗ(j).ｓ，ｓｗ(j).ｅ］）に代入する。Ｐ１０８Ｆ３’を終えると、Ｐ１０８Ｆ４’に進む。
【０２０６】
Ｐ１０８Ｆ４’では、ｓｖ(j) とｓｗ(j) についてのマッチング度ｓ(j) の算出が行われる。ここで、マッチング度ｓ(j) は、両唇音の始端相対位置の差分ｘｓ（＝｜ｓｖ(j).s−ｓｗ(j).s｜）と、両唇音の終端相対位置の差分ｘｅ（＝｜ｓｖ(j).e −ｓｗ(j).e｜）とを、図１２のような非線形関数ｆ(x) で変換した出力値ｆ(xs)、ｆ(xe) の積（＝ｆ(xs)×ｆ(xe)）で与えられる。マッチング度ｓ(j) は、ｘｓ又はｘｅが小さい、つまり、位置のマッチングが合っているほど大きく、位置のマッチングがずれているほど小さい値になる。このＰ１０８Ｆ４’を終えると、Ｐ１０８Ｆ５’に進む。
【０２０７】
Ｐ１０８Ｆ５’では、位置スコアＡにマッチング度ｓ(j) を掛け合わせる。Ｐ１０８Ｆ５’を終えると、Ｐ１０８Ｆ６’に進む。
【０２０８】
Ｐ１０８Ｆ６’では、ｊに１を加算する。Ｐ１０８Ｆ６’を終えると、Ｐ１０８Ｆ７’に進む。
【０２０９】
Ｐ１０８Ｆ７’では、ｊ＜ｌｎ（両唇音の個数）を満たしていればＰ１０８Ｆ２’に戻り、それ以外はＰ１０８Ｆ’の処理を終了し、位置スコアＡを出力してＰ１０８Ｇに進む。以上がＰ１０８Ｆ’の説明である。
【０２１０】
（Ｄ−２−１−４）Ｐ１０８Ｇ〜Ｐ１０８Ｐの処理
次のＰ１０８Ｇでは、位置スコアＡが閾値ＬＡより大きいかを調べる。ここで大きければＰ１０８Ｈ’に進み、小さければＰ１０８Ｏで口形音節マッチングスコアＳＣ(i) の値を０にしてからＰ１０８Ｋに進む。
【０２１１】
Ｐ１０８Ｈ’では、ｗｏｒｄ(i) 内の各両唇音について、その前後の口形と候補単語の両唇音の前後の母音を発声している場合のモデルロ形との類似度を調べ、前後母音スコアＢを算出する。なお、予め、複数の口形情報から各母音（／ａ／，／ｉ／，／ｕ／，／ｅ／，／ｏ／）毎に、発声時の唇の縦と横の大きさの平均値と、分散値とを求めておく。
【０２１２】
まずここで、Ｐ１０８Ｈ’の処理で用いる各種変数の定義をしておく。母音ｖ（＝／ａ／，／ｉ／，／ｕ／，／ｅ／，／ｏ／）を発声している場合の口形の平均値と分散値を、それぞれ次のように定義する。
【０２１３】
すなわち、母音ｖにおける唇の縦およぴ横の長さの平均値をＨμ(v) ，Ｗμ(v) とし、母音ｖにおける唇の縦および横の長さの分散の平方根をＨσ(v)，Ｗσ(v)とする。
【０２１４】
また、口形動作情報から得られた第ｊ番目の両唇音の前後の口形を、それぞれ次のように定義する。
【０２１５】
すなわち、両唇音の一つ前の極点の縦およぴ横の長さをsｈ０(j) ，sｗ０(j) とし、両唇音の一つ後の極点の縦およぴ横の長さをｓｈ１(j) ，ｓｗ１(j) とする。
【０２１６】
前後母音スコアＢを算出するステップは、検出されたｌｎ個の各両唇音について、前母音と後母音の類似度（スコア）を求め、前母音と後母音のスコアを加重加算させた値より両唇音の前後母音のマッチング程度を調べる。
【０２１７】
続いて、第ｊ番目の両唇音についての前後母音スコアＢ(j) を求める方法を述べる。まず、第ｊ番目の両唇音の前にある母音ｖ０に対する類似度Ｂ０(j) を、次の(11)式で求める。
【０２１８】
【数１０】

同様に、第ｊ番目の両唇音の後にある母音ｖ１に対する類似度Ｂ１(j) を、次の(12)式で求める。
【０２１９】
【数１１】

そして、ｗｏｒｄ(i) に対する第０番目の両唇音から第ｌｎ−１番目の両唇音までの前後母音スコアＢは、次の(13)式となる。
【０２２０】
【数１２】

以上が前後母音スコアＢの算出方法である。なお、βは例えば 0.5等の任意の定数である。Ｐ１０８Ｈ’を終えると、Ｐ１０８Ｉに進む。
【０２２１】
Ｐ１０８Ｉでは、前後母音スコアＢが閾値ＬＢより大きいかを調べる。ここで閾値ＬＢより大きい場合はＰ１０８Ｊに進み、小さい場合はＰ１０８Ｐで口形音節マッチングスコアＳＣ(i) の値を０にしてからＰ１０８Ｋに進む。。
【０２２２】
Ｐ１０８Ｊでは、Ｐ１０８Ｆ’で得られた位置スコアＡと、Ｐ１０８Ｈ’で得られた前後母音スコアＢとで最終的な候補単語ｗｏｒｄ(i) に対する口形音節マッチングスコアＳＣ(i) を算出する。この単語に対する口形音節マッチングスコアＳＣ(i) の算出式は、次の(14)式となる。
【０２２３】
ＳＣ(i) ＝αＡ＋（１−α）Ｂ ……(14)
ただし、０≦α≦１であり、αは任意の定数である。Ｐ１０８Ｊを終えると、Ｐ１０８Ｋに進む。
【０２２４】
Ｐ１０８Ｋでは、ｉに１を加算する。Ｐ１０８Ｋを終えると、Ｐ１０８Ｌに進む。
【０２２５】
Ｐ１０８Ｌでは、ｉが候補単語数を越えていないかを調べる。まだマッチングを行なっていない候補単語があれば、Ｐ１０８Ｂに戻り、次の候補単語とのマッチング処理を行なう。もし全ての候補単語とのマッチング処理を終了していればＰ１０８’の処理は終りであり、次のＰ１０９に進む。
【０２２６】
なお、これ以降の処理は、第１の実施形態の場合と同様である。
【０２２７】
（Ｄ−３）第４実施形態の効果
以上のように、第４の実施形態によれば、音声認識で参照する候補単語を予め口形情報で絞り込んでから尤度計算を実行するので、第１の実施形態の場合と同様、尤度計算の回数の低減と信頼性の向上を実現することができる。
【０２２８】
また、発話速度が一定であるという仮定が成り立つ環境下では、第４の実施形態の方が高い精度で両唇音の前後に位置する母音の位置を決定できるので、第１の実施形態よりも高い認識精度が得られる。
【０２２９】
（Ｅ）第５の実施形態
次に、本発明による音声認識装置の第５の実施形態を図面を参照しながら説明する。
【０２３０】
図２５は、第５の実施形態に係る音声認識装置５００の機能ブロック図である。なお、図２５では、図１３との同一、対応部分に同一、対応符号を付して示している。図２５から分かるように、第５の実施形態は、第１の実施形態に対する第２の実施形態と同じ関係にある実施形態である。
【０２３１】
すなわち、第４の実施形態では、口形情報から単語辞書に登録されている候補単語の絞り込みを行なった後、音素モデルと入力音声の尤度計算を実行していたが、第５の実施形態では、単語辞書に登録されている候補単語の音素モデルと入力音声との尤度計算を行なった後、その中から尤度の高いものを複数絞り込み、その絞り込まれた単語の音節と口形情報から得られた音節情報とのマッチング処理を行う。
【０２３２】
このことからも分かるように、音声認識装置５００の音声認識処理手順は、第２の実施形態で説明した図１４と同じである。
【０２３３】
ただし、口形特徴情報から特定の音節部分を検出し口形から得られた音節と選ばれた単語の音節情報との間でマッチングをとるＰ２０４の処理において、両唇音の前後の母音位置の決定する際、第４の実施形態で説明した方法を用いるようにする。
【０２３４】
すなわち、発話速度が一定であるという仮定の下、両唇音からの時間的な距離がある範囲内であり、かつ唇の開き具合が閾値以上であるような音を両唇音の前後にある母音の位置と決定する。
【０２３５】
以上のように、この第５の実施形態のように構成しても、従来の音声認識装置に比して認識精度の高い音声認識装置を実現することができる。しかも、発話速度が一定であるという仮定が成り立つ環境下では、第５の実施形態の方が高い精度で両唇音の前後に位置する母音の位置を決定できるので、第２の実施形態よりも高い認識精度を得ることが可能である。
【０２３６】
（Ｆ）第６の実施形態
次に、本発明による音声認識装置の第６の実施形態を図面を参照しながら説明する。
【０２３７】
図２６は、第６の実施形態に係る音声認識装置５００の機能ブロック図である。なお、図２６では、図１５との同一、対応部分に同一、対応符号を付して示している。図２６から分かるように、第６の実施形態は、第１及び第２の実施形態に対する第３の実施形態と同じ関係にある実施形態である。
【０２３８】
すなわち、第６の実施形態は、前述した第４の実施形態と、第５の実施形態とを組み合わせたものであり、(1) 口形情報から単語辞書に登録されている候補単語の絞り込み処理と、(2) 絞り込まれた候補単語の音素モデルと入力音声の尤度を計算し、特に尤度の高かった単語を複数選ぶ処理と、(3) (2) で選ばれた単語に対し、その尤度と(1) で求めた口形音節マッチングスコアから最終的な認識単語を出力する処理の３段階からなるものである。
【０２３９】
このことからも分かるように、音声認識装置６００の音声認識処理手順は、第３の実施形態で説明した図１６と同じである。
【０２４０】
ただし、図１６のフローチャートのうち、口形特徴情報から特定の音節部分を検出し口形から得られた音節と単語辞書１０４に記憶されている音節情報との間でマッチングをとるＰ１０８の処理と、口形音節マッチングスコアと音素モデルの尤度から総合的なマッチングスコアを算出するＰ３０２の処理とにおいて、両唇音の前後の母音位置の決定する際、第４の実施形態で説明した手法を用いるようにする。
【０２４１】
すなわち、発話速度が一定であるという仮定の下、両唇音からの時間的な距離がある範囲内であり、かつ唇の開き具合が閾値以上であるような音を両唇音の前後にある母音の位置と決定する。
【０２４２】
このようにしても、従来の音声認識装置に比して認識精度の高い音声認識装置を実現することができる。しかも、発話速度が一定であるという仮定が成り立つ環境下では、第６の実施形態の方が高い精度で両唇音の前後に位置する母音の位置を決定できるので、第３の実施形態よりも高い認識精度を得ることが可能である。
【０２４３】
（Ｇ）第７の実施形態
次に、本発明による音声認識装置の第７の実施形態を図面を参照しながら説明する。
【０２４４】
この実施形態は、第４〜第６の実施形態においてマッチング精度が低下したときの補完手法ともいうべきものである。すなわち、第４〜第６の実施形態においては、口形音節マッチング部１０３内で両唇音の前後にある母音のマッチング処理（Ｐ１０８Ｈ’）する際、口形動作情報内の口の縦横の大きさと、予め求めてある各母音（／ａ／、／ｉ／，／ｕ／，／ｅ／，／ｏ／）毎の発声時の唇の縦と横の長さの平均値と分散値と、口の縦横の長さの相関係数から両唇音の前後の音を決定した。
【０２４５】
この方法は、各母音毎のとのマッチング精度が高い反面、通常より発話時の声が小さく口の開きが小さい場合や、逆に、通常より発話時の声が大きく口の開きが大きい場合、うまくマッチングできないおそれがある。
【０２４６】
そこで、第７の実施形態に係る音声認識装置７００では、単に両唇音の直前母音を発声した時の口の開きと両唇音の直後母音を発声した時の口の開きの大きさを比較し、どちらが大きいかだけに基づいてマッチングを行なうようにする。
【０２４７】
なお、第７の実施形態の構成は、第４〜第６の実施形態の各構成と基本的に同じであるので、ここでは省略する。異なる点は、口形音節マッチング部１０３（１０３’）内の処理のうち、両唇音前後の母音マッチング処理（Ｐ１０８Ｈ（１０８Ｈ’））以降である。
【０２４８】
（Ｇ−１）第７の実施形態の動作
図２７に、第７の実施形態における口形音節マッチング部１０３のフローチャートを示す。なお、図２７において、Ｐ１０８Ａ’〜Ｐ１０８Ｇまでの処理については第４〜第６の実施形態の場合と同様であるので説明を省略する。従って、Ｐ１０８Ｇで肯定結果が得られた場合に実行されるＰ１０８Ｑ以降について説明する。
【０２４９】
（Ｇ−１−１）Ｐ１０８Ｑの処理
Ｐ１０８Ｑでは、参照単語中の第ｉ番目の両唇音について、両唇音の直前母音を発声したときの口の開きと、両唇音の直後母音を発声した時の口の開きの大きさを比較し、どちらが大きいかのマッチングを行なう。
【０２５０】
ここで、Ｐ１０８Ｑの処理で用いる各種変数の定義をする。
【０２５１】
すなわち、参照単語ｗｏｒｄ(i) 中の第ｊ番目の両唇音の直前の母音をｖｔとし、直後の母音をｖｃとする。また、ＶｔとＶｃの縦およぴ横の大小関係をｖｃｈ及びｖｃｗとする。さらに、口形動作情報から得られた第ｊ番目の両唇音の前後の口形については、両唇音の直前の縦およぴ横の大きさを、それぞれｈ０(j) およびｗ０(j) とし、両唇音の直後の縦およぴ横の大きさを、ｈ１(j) およびｗ１(j) とする。
【０２５２】
この定義の下、Ｐ１０８Ｑの具体的な処理手順を図２８に示す。
【０２５３】
まず、Ｐ１０８Ｑ１で、ｊを０に初期化する。
【０２５４】
次に、Ｐｌ０８Ｑ２で、参照単語中にある第ｊ番目の両唇音の直前の母音ｖｔと直後の母音ｖｃの縦方向の大小関係ｖｃｈ（＋，−，×の３種類）を図２９に示す図表（ａ）から検索する。ここで、'＋'は、前の母音の方が大きいことを意味する。また、'−'は、後の母音の方が大きいことを意味する。そして、'×'は、前と後とどちらが大きいかは分からないことを意味する。
【０２５５】
例えば、前母音ｖｔが／ａ／で、後母音ｖｅが／ｏ／であれば、縦方向の大小関係ｖｃｈは'＋'となる。大小関係を表から検索したら、Ｐ１０８Ｑ３に進む。Ｐ１０８Ｑ３では、縦方向の大小関係ｖｃｈが'×'であるか否かを判定し、縦方向の大小関係ｖｃｈが'×'であればＰ１０８Ｑ５に進む。これに対して、'×'でなければ、Ｐ１０８Ｑ４に進む。
【０２５６】
Ｐｌ０８Ｑ４では、以下の２つの条件(1) 及び(2) のうちいづれかが満たされるかを調べる。
【０２５７】
(1) ｈ０(i) −ｈ１(i) の符号が＋で、ｖｃｈが'＋'
(2) ｈ０(i) −ｈ１(i) の符号が−で、ｖｃｈが'−'
もし、上記の条件を満たせば、Ｐ１０８Ｑ５に進む。上記の条件を満たさない場合はＰ１０８Ｐに進む。
【０２５８】
さて、Ｐ１０８Ｑ４からＰ１０８Ｑ５に進んだ場合、Ｐ１０８Ｑ３では、参照単語中の第ｉ番目の両唇音の直前の母音ｖｔと、直後の母音ｖｅの横方向の大小関係ｖｃｗを、図２９の図表（ｂ）から検索する。
【０２５９】
例えば、両唇音の直前の母音ｖｔが／ａ／で、直後の母音ｖｅが／ｏ／であれは、ｖｃｗは'＋'である。検索したら、Ｐ１０８Ｑ６に進む。
【０２６０】
Ｐ１０８Ｑ６では、もし、ｖｃｗが'×'であれば、Ｐ１０８Ｑ７に進み、それ以外は、Ｐ１０８Ｑ８に進む。
【０２６１】
Ｐ１０８Ｑ７では、以下の２つの条件(1) 及び(2) のうちいづれかが満たされるかを調べる。
【０２６２】
(1) ｗ０(i) −ｗ１(i) の符号が＋で、ｖｃｗが'＋'
(2) ｗ０(i) −ｗ１(i) の符号が−で、ｖｃｗが'−'
もし、上記条件を満たせば、Ｐ１０８Ｑ８に進む。上記の条件を満たさない場合は、Ｐ１０８Ｐに進む。
【０２６３】
Ｐ１０８Ｑ７からＰ１０８Ｑ８に進んだ場合、Ｐ１０８Ｑ８で、ｊに１が加算される。
【０２６４】
次にＰ１０８Ｑ９で、ｊがｗｏｒｄ(i) の両唇音数ｌｎを越えているかを調べ、ｊ＜ｌｎならＰ１０８Ｒに進み、それ以外はＰ１０８Ｑ２に戻る。以上がＰ１０８Ｑで行われる処理の説明である。
【０２６５】
（Ｇ−１−１）Ｐ１０８Ｋ、Ｐ１０８Ｌ、Ｐ１０８Ｐ、Ｐ１０８Ｒの処理
続いて、Ｐｌ０８Ｑ以後の処理を説明する。
【０２６６】
Ｐ１０８ＱからＰ１０８Ｒに進んだ場合、候補単語ｗｏｒｄ(i) のマッチングスコアＳＣ(i) の値を０にしてＰ１０８Ｋに進む。
【０２６７】
一方、Ｐ１０８ＱからＰｌ０８Ｒに進んだ場合、マッチングスコアＳＣ(i) の候補単語ｗｏｒｄ(i) に位置スコアＡを代入する。以後の処理は第４〜６の実施形態の場合と同じである。
【０２６８】
（Ｇ−２）第７の実施形態の効果
以上のように、第７の実施形態によれば、発話時の口の開きが通常より全体的に大きい場合や小さい場合における音声認識のように、前後母音のマッチング精度が十分得られないような環境下では、両唇音の前後の母音の口形の大小関係の一致具合を考慮し、当該大小関係が一致している場合には、両唇音の位置マッチングにより得られた位置スコアを候補単語ｗｏｒｄ(i) についての口形音節マッチングスコアＳＣ(i) として用いるようにしたことにより、その分、候補単語の絞り込み精度を向上させることができる。
【０２６９】
（Ｈ）他の実施形態
(H-1) なお、上述の第１〜第７の実施形態においては、音声認識の対象を単語とする場合について述べたが、本発明はこれに限らず、音声認識の対象を文章とする場合にも適用し得る。
【０２７０】
(H-2) また、上述の第１〜第７の実施形態においては、口形音節マッチングの際、両唇音の位置と、その前後に位置する母音のそれぞれについてマッチング処理を行なったが、いずれか一方の母音についてマッチング処理を行うようにしても良い。
【０２７１】
(H-3) さらに、第１〜第７の実施形態においては、口形音節マッチングにおいて、口形特徴情報から両唇音を検出したが、他にも英語の'ｖ’，'ｆ’のように発声時の口形が一定の音節があればこれを用いても良い。更に、同時に複数の音節を用いても良い。
【０２７２】
(H-4) さらにまた、第１〜第７の実施形態においては、口形特徴抽出部１０２Ａにおける唇領域の抽出の方法として、画像フレーム中の色成分を２値化する方法を採用したが、これに限定するものではない。例えば、前フレームとの動きベクトルなどから唇特徴を抽出しても良い。
【０２７３】
(H-5) また、第２、第３、第５及び第６の実施形態においては、音声認識部２０２で尤度の高い単語を複数個選び、当該選択された単語を出力する場合について述べたが、全ての単語を尤度と共に出力するようにしても良い。
【０２７４】
(H-6) さらに、第１〜第７の実施形態においては、口形音節マッチングの際、口の縦と横の２つの大きさを用いる場合について述べたが、口の縦又は横だけを用いるようにしても良い。
【０２７５】
(H-7) また、第１〜第７の実施形態においては、口形音節マッチング部１０３において、候補単語の両唇音の位置を音節位置から求めたが、音声認識装置１０８（２０２）から音節の位置が分かれば、これを用いても良い。
【０２７６】
(H-8) さらに、第７の実施形態においては、両唇音を挟む前後母音の口の大小関係を表す図表として図２９を用いたが、本発明はこれに限らず、他の関係表を用いても良い。
【０２７７】
【発明の効果】
上述のように、本発明によれば、登録する単語の音節情報及び音素モデルを有する単語辞書と、話者の口許を撮像した撮像画像から発話区間中の口の動きや口の開き具合を検出し、これらを収めた口形動作情報を出力する口形認識手段と、口形動作情報に含まれる特定の音節と単語辞書の単語の音節情報との類似度をマッチングする口形音節マッチング手段と、口形音節マッチング手段から得た類似度に基づいて、単語辞書に登録されている単語の絞り込みを行う単語候補絞り込手段と、入力音声と単語候補絞り込手段で絞り込まれた候補単語の音素モデルとの尤度を求め、入力音声について最も高い尤度が得られた候補単語を、入力音声についての認識結果とする音声認識手段とを備え、口形音節マッチング手段が、口形動作情報から検出した特定の音節の個数と、単語辞書の単語内の特定の音節の個数とを比較する音節個数比較部、口形動作情報から検出した特定の音節の位置と、単語辞書の単語内の特定の音節の位置とを比較する音節位置比較部、口形動作情報から検出した特定の音節に前後する口形状態と、単語辞書の単語内の特定の音節に前後する口形状態とを比較する音節前後比較部の３つ全て又は一部を有し、これらの比較結果より口形動作情報と単語辞書の単語とのマッチング程度を求めることにより、尤度の算出にかかる回数を減らすことができ、従来に比して、計算機にかかる負荷を小さくできる。また、話者が実際に発話したときの口の形を情報に使用するため、高い精度を実現できる。
【０２７８】
また、本発明によれば、登録する単語の音節情報及び音素モデルを有する単語辞書と、入力音声と単語辞書に登録されている単語の音素モデルとの尤度を求め、高い尤度が得られた複数又は全ての単語を、候補単語としてその尤度と共に出力する音声認識手段と、話者の口許を撮像した撮像画像から発話区間中の口の動きや口の開き具合を検出し、これらを収めた口形動作情報を出力する口形認識手段と、口形動作情報に含まれる特定の音節と、音声認識手段により選出された単語辞書の単語の音節情報との類似度をマッチングする口形音節マッチング手段と、音声認識手段で選ばれた候補単語について、音声認識手段から得られた尤度と口形音節マッチング手段から得た類似度から総合的な類似度を調べ、最も高い総合類似度を持つ候補単語を、入力音声についての認識結果とする総合類似度算出部とを備え、口形音節マッチング手段が、口形動作情報から検出した特定の音節の個数と、単語辞書の単語内の特定の音節の個数とを比較する音節個数比較部、口形動作情報から検出した特定の音節の位置と、単語辞書の単語内の特定の音節の位置とを比較する音節位置比較部、口形動作情報から検出した特定の音節に前後する口形状態と、単語辞書の単語内の特定の音節に前後する口形状態とを比較する音節前後比較部の３つ全て又は一部を有し、これらの比較結果より口形動作情報と単語辞書の単語とのマッチング程度を求めることにより、従来に比して、背景雑音が大きい環境下での音声認識精度を高めることができる。
【０２７９】
さらに、本発明によれば、登録する単語の音節情報及び音素モデルを有する単語辞書と、話者の口許を撮像した撮像画像から発話区間中の口の動きや口の開き具合を検出し、これらを収めた口形動作情報を出力する口形認識手段と、口形動作情報に含まれる特定の音節と単語辞書の単語の音節情報との類似度をマッチングする口形音節マッチング手段と、口形音節マッチング手段から得た類似度から単語辞書に登録されている単語を絞り込む単語候補絞り込手段と、入力音声と単語候補絞り込手段で絞り込まれた候補単語の音素モデルとの尤度を求め、高い尤度が得られた複数又は全ての候補単語を、その尤度と共に出力する音声認識手段と、音声認識手段で選ばれた候補単語について、音声認識手段から得られた尤度と口形音節マッチング手段から得た類似度から総合的な類似度を調べ、最も高い総合類似度を持つ候補単語を、入力音声についての認識結果とする総合類似度算出手段とを備え、口形音節マッチング手段が、口形動作情報から検出した特定の音節の個数と、単語辞書の単語内の特定の音節の個数とを比較する音節個数比較部、口形動作情報から検出した特定の音節の位置と、単語辞書の単語内の特定の音節の位置とを比較する音節位置比較部、口形動作情報から検出した特定の音節に前後する口形状態と、単語辞書の単語内の特定の音節に前後する口形状態とを比較する音節前後比較部の３つ全て又は一部を有し、これらの比較結果より口形動作情報と上記単語辞書の単語とのマッチング程度を求めることにより、処理に要する負荷を低減することができる。また、尤度の計算の際に認識結果を一つに絞り込むのではなく、複数の候補への絞り込みにとどめ、再び、口形動作情報に基づく類似度を含めた総合的な類似度で最終的な認識結果を絞り込むので、精度をさらに高めることができる。
【図面の簡単な説明】
【図１】第１の実施形態の全体構成を表すブロック図である。
【図２】音声認識部の構成を示すブロック図である。
【図３】音声認識装置の利用形態を示すブロック図である。
【図４】口形認識部の構成を示すブロック図である。
【図５】第１の実施形態による音声認識手順を示すフローチャートである。
【図６】Ｐ１０４の詳細な処理内容を示すフローチャートである。
【図７】Ｐ１０４Ｂの詳細な処理内容を示すフローチャートである。
【図８】Ｐ１０７の詳細な処理内容を示すフローチャートである。
【図９】Ｐ１０８の詳細な処理内容を示すフローチャートである。
【図１０】Ｐ１０８Ａの詳細な処理内容を示すフローチャートである。
【図１１】Ｐ１０８Ｆの詳細な処理内容を示すフローチャートである。
【図１２】マッチング度の算出の際使用する非線形関数を示す説明図である。
【図１３】第２の実施形態の全体構成を表すブロック図である。
【図１４】第２の実施形態による音声認識手順を示すフローチャートである。
【図１５】第３の実施形態の全体構成を表すブロック図である。
【図１６】第３の実施形態による音声認識手順を示すフローチャートである。
【図１７】第４の実施形態の全体構成を表すブロック図である。
【図１８】第４の実施形態による音声認識手順を示すフローチャートである。
【図１９】Ｐ１０８’の詳細な処理内容を示すフローチャートである。
【図２０】Ｐ１０８Ａ’の詳細な処理内容を示すフローチャートである。
【図２１】両唇音の直前の母音位置検出手順を示すフローチャートである。
【図２２】両唇音の終端位置検出手順を示すフローチャートである。
【図２３】両唇音の直後の母音位置検出手順を示すフローチャートである。
【図２４】Ｐ１０８Ｆ’の詳細な処理内容を示すフローチャートである。
【図２５】第５の実施形態の全体構成を表すブロック図である。
【図２６】第６の実施形態の全体構成を表すブロック図である。
【図２７】第７の実施形態におけるＰ１０８の詳細な処理内容を示すフローチャートである。
【図２８】Ｐ１０８Ｑの詳細な処理内容を示すフローチャートである。
【図２９】両唇音の直後の口形大小マッチング表の説明図である。
【符号の説明】
１……ビデオカメラ、２……マイクロフォン、１００、２００、３００、４００、５００、６００、７００……音声認識装置、１０１……画像フレームバッファ、１０２……口形認識部、１０２Ａ……口形特徴抽出部、１０２Ｂ……口形特徴記憶部、１０２Ｃ……口形動作抽出部、１０３……口形音節マッチング部、１０４……単語辞書、１０５……単語候補絞り込部、１０６……音声フレーム分割部、１０７……有音検出部、１０８……音声認識部、１０８Ａ……音素特徴量抽出部、１０８Ｂ……音素特徴記憶部、１０８Ｃ……尤度算出部、２０２……音声認識部、２０３……総合マッチングスコア算出部。

Claims

登録する単語の音節情報及び音素モデルを有する単語辞書と、
話者の口許を撮像した撮像画像から発話区間中の口の動きや口の開き具合を検出し、これらを収めた口形動作情報を出力する口形認識手段と、
上記口形動作情報に含まれる特定の音節と上記単語辞書の単語の音節情報との類似度をマッチングする口形音節マッチング手段と、
上記口形音節マッチング手段から得た類似度に基づいて、上記単語辞書に登録されている単語の絞り込みを行う単語候補絞り込手段と、
入力音声と上記単語候補絞り込手段で絞り込まれた候補単語の音素モデルとの尤度を求め、上記入力音声について最も高い尤度が得られた候補単語を、上記入力音声についての認識結果とする音声認識手段と
を備え、
上記口形音節マッチング手段が、
上記口形動作情報から検出した特定の音節の個数と、上記単語辞書の単語内の特定の音節の個数とを比較する音節個数比較部、
上記口形動作情報から検出した特定の音節の位置と、上記単語辞書の単語内の特定の音節の位置とを比較する音節位置比較部、
上記口形動作情報から検出した特定の音節に前後する口形状態と、上記単語辞書の単語内の特定の音節に前後する口形状態とを比較する音節前後比較部
の３つ全て又は一部を有し、これらの比較結果より上記口形動作情報と上記単語辞書の単語とのマッチング程度を求める
ことを特徴とする音声認識装置。
登録する単語の音節情報及び音素モデルを有する単語辞書と、
入力音声と上記単語辞書に登録されている単語の音素モデルとの尤度を求め、高い尤度が得られた複数又は全ての単語を、候補単語としてその尤度と共に出力する音声認識手段と、
話者の口許を撮像した撮像画像から発話区間中の口の動きや口の開き具合を検出し、これらを収めた口形動作情報を出力する口形認識手段と、
上記口形動作情報に含まれる特定の音節と、上記音声認識手段により選出された上記単語辞書の単語の音節情報との類似度をマッチングする口形音節マッチング手段と、
上記音声認識手段で選ばれた候補単語について、上記音声認識手段から得られた尤度と上記口形音節マッチング手段から得た類似度から総合的な類似度を調べ、最も高い総合類似度を持つ候補単語を、入力音声についての認識結果とする総合類似度算出部と
を備え、
上記口形音節マッチング手段が、
上記口形動作情報から検出した特定の音節の個数と、上記単語辞書の単語内の特定の音節の個数とを比較する音節個数比較部、
上記口形動作情報から検出した特定の音節の位置と、上記単語辞書の単語内の特定の音節の位置とを比較する音節位置比較部、
上記口形動作情報から検出した特定の音節に前後する口形状態と、上記単語辞書の単語内の特定の音節に前後する口形状態とを比較する音節前後比較部
の３つ全て又は一部を有し、これらの比較結果より上記口形動作情報と上記単語辞書の単語とのマッチング程度を求める
ことを特徴とする音声認識装置。
登録する単語の音節情報及び音素モデルを有する単語辞書と、
話者の口許を撮像した撮像画像から発話区間中の口の動きや口の開き具合を検出し、これらを収めた口形動作情報を出力する口形認識手段と、
上記口形動作情報に含まれる特定の音節と上記単語辞書の単語の音節情報との類似度をマッチングする口形音節マッチング手段と、
口形音節マッチング手段から得た類似度から上記単語辞書に登録されている単語を絞り込む単語候補絞り込手段と、
入力音声と上記単語候補絞り込手段で絞り込まれた候補単語の音素モデルとの尤度を求め、高い尤度が得られた複数又は全ての候補単語を、その尤度と共に出力する音声認識手段と、
上記音声認識手段で選ばれた候補単語について、上記音声認識手段から得られた尤度と上記口形音節マッチング手段から得た類似度から総合的な類似度を調べ、最も高い総合類似度を持つ候補単語を、入力音声についての認識結果とする総合類似度算出手段と
を備え、
上記口形音節マッチング手段が、
上記口形動作情報から検出した特定の音節の個数と、上記単語辞書の単語内の特定の音節の個数とを比較する音節個数比較部、
上記口形動作情報から検出した特定の音節の位置と、上記単語辞書の単語内の特定の音節の位置とを比較する音節位置比較部、
上記口形動作情報から検出した特定の音節に前後する口形状態と、上記単語辞書の単語内の特定の音節に前後する口形状態とを比較する音節前後比較部
の３つ全て又は一部を有し、これらの比較結果より上記口形動作情報と上記単語辞書の単語とのマッチング程度を求める
ことを特徴とする音声認識装置。
上記音節位置比較部は、それぞれの特定音節の始端と終端の位置について比較する
ことを特徴とする請求項１〜３のいずれかに記載の音声認識装置。
上記音節前後比較部は、それぞれの特定音節の前及び後の口形状態の大きさについて各々類似度を求める
ことを特徴とする請求項１〜３のいずれかに記載の音声認識装置。
上記音節前後比較部は、それぞれの特定音節の前及び後口形状態のどちらが大きいかの大小関係について各々比較する
ことを特徴とする請求項１〜３のいずれかに記載の音声認識装置。