JP4849630B2

JP4849630B2 - 発話内容識別装置及び個人識別装置

Info

Publication number: JP4849630B2
Application number: JP2007129363A
Authority: JP
Inventors: 朋宏柳; 篤史坂本; 光穗山田
Original assignee: Tokai University Educational Systems
Current assignee: Tokai University Educational Systems
Priority date: 2007-05-15
Filing date: 2007-05-15
Publication date: 2012-01-11
Anticipated expiration: 2027-05-15
Also published as: JP2008287340A

Description

本発明は、発話者が発話する際の口唇動作から発話内容を識別する発話内容識別装置及び発話者個人を識別する個人識別装置に関する。

発話者が任意の言語（例えば、日本語）を発話する際の口唇動作を利用して、発話した内容（日本語発話内容）を識別する従来方法として、次に述べる方法が非特許文献１に開示されている。

この非特許文献１に開示されている従来方法（以下、従来の母音識別方法という）は、発話者の口唇の上下（Ａ１，Ａ２）及び左右（Ｂ１，Ｂ２）と、下顎とに基準点（Ａ３）を設定し、口唇の横幅Ｗ（Ｂ１〜Ｂ２）、口唇の縦幅Ｈ（Ａ１〜Ａ２）及び上唇から下顎までの距離ＨＸ（Ａ１〜Ａ３）の３つの変数を測定し、発話した際の横幅Ｗ、縦幅Ｈ及び距離ＨＸの変化を算出することにより、発話内容を識別するものである。

この従来の母音識別方法では、例えば、２つの母音「あ」と「い」とを続けて発話する場合、「あ」と発話する場合の３つの変数（Ｗ１、Ｈ１、ＨＸ１）とし、「い」と発話した場合の３つの変数（Ｗ２、Ｈ２、ＨＸ２）とすると、この場合の連続発話パターン（２連続母音発話パターン）は、６つの変数に関連付けられることになり、変数がどの様に変化するのかを算出することによって、「あ」と「い」との連続発話パターンを識別している。

このような従来の母音識別方法を含めた、発話内容を識別する従来方法は、「あ」、「い」、「１」、「２」等が発話された場合に、発話内容を５０音の行列とはみなしていない。例えば、従来方法では、果物の「イチゴ」という発話内容を識別する際に、「い」＋「ち」＋「ご」の結合した行列とみなして識別しておらず、予めデータベースに登録しておいた「イチゴ」という単語のパターンと一致するか否かによって識別している。
渡辺「読唇による２連母音識別」日本機械学会論文集Ｃ編、５５巻、５０９号、１９８９年１月

しかしながら、発話内容を識別する従来方法では、データベースに単語自体を登録しておくことを前提とし、発話内容を、一個一個の単語が集合した単語集合として識別しており、発話内容として発話される可能性がある単語すべてをデータベースに登録しておく必要があり、当該データベースのデータ量が膨大になるという問題がある。

また、発話内容を識別する従来方法では、発話内容として発話される可能性がある単語すべてをデータベースに登録しておく必要があるばかりか、この単語の数だけ、対応する口唇動作のパターンも規定しておかなければならず、当該口唇動作のパターンを記憶しておくデータベースのデータ量も膨大になるという問題がある。

さらに、発話内容を識別する従来方法では、母音を連続して発音した連続発音時における母音同士の相互影響、すなわち、前発音の影響が後発音に色濃く反映され、結果として前発音によって、後発音が同じ母音であっても、口唇動作が異なり、この結果、発話者が発話する際の口唇動作から発話内容を識別する場合の誤差（識別誤差）が大きくなるという問題がある。

つまり、連続する母音を発話者が発音する際の口唇動作をパターン化して検出することが困難であり、また、連続する母音以外について発話者が発話する際の口唇動作をパターン化しようとした場合、発話者それぞれの個人差によって、当該パターン化する際に設定する各種パラメータを綿密に調整し、この調整した各種パラメータに応じて口唇動作のパターンを規定しなければならないので、やはり、データベースのデータ量が膨大になるという問題がある。

また、連続する母音以外について、発話者が発話した発話内容を推定する場合に、発音に要する時間の長短によって、得られる口唇動作が左右され、結果として全く別の単語や文章を識別してしまい、やはり、識別誤差が大きくなるという問題がある。

そこで、本発明では、前記した問題を解決し、口唇動作を識別する際に用いるデータベースのデータ量を抑え、且つ、口唇動作から発話内容を識別する際の識別誤差を小さくすることができる発話内容識別装置及び口唇動作の特徴から個人を識別することができる個人識別装置を提供することを目的とする。

前記課題を解決するため、請求項１に記載の発話内容識別装置は、撮影手段で撮影された、発話者が発話している際の口唇部分の映像から当該発話者の口唇動作を得て、この口唇動作から発話内容を識別する発話内容識別装置であって、画像処理手段と、動作測定手段と、データ変換手段と、母音行列生成手段と、発話内容識別手段と、を備える構成とした。

かかる構成によれば、発話内容識別装置は、画像処理手段によって、口唇部分の映像を構成する画像の画素値の差に基づいて、当該口唇部分における予め設定した特徴点の位置を抽出する。続いて、発話内容識別装置は、動作測定手段によって、画像処理手段で抽出した特徴点の位置の変化を、口唇動作の履歴である動作履歴として測定する。そして、発話内容識別装置は、データ変換手段によって、動作測定手段で測定された動作履歴を、数値解析することで、予め設定した複数のスペクトル成分で表される動作スペクトルグラフに変換する。なお、数値解析として、フーリエ変換、関数近似等の信号処理が挙げられる。そして、発話内容識別装置は、母音行列生成手段によって、データ変換手段で変換された動作スペクトルグラフと、予め母音の動作スペクトルグラフとして保持されている母音サンプルデータとを照合し、前記発話内容に含まれる単語を、母音行列として生成する。
そして、発話内容識別装置は、発話内容識別手段によって、母音行列生成手段で生成された母音行列と、予め母音行列として特定のジャンルの単語を登録しておいた言語テーブルとを比較し、母音行列が一致した単語を検出することで、発話内容を識別する。

請求項２に記載の発話内容識別装置は、請求項１に記載の発話内容識別装置において、前記口唇部分の映像に距離画像が含まれており、前記画像処理手段が、前記距離画像から前記口唇部分の奥行きの変位を検出することを特徴とする。

かかる構成によれば、発話内容識別装置は、画像処理手段によって、口唇部分の奥行きの変位を検出することで、発話時の正確な動作を抽出することができる。なお、距離画像は、撮影手段にステレオカメラを採用することで得ることができる。なお、この場合、当該ステレオカメラは、通常の映像も出力する必要がある。

請求項３に記載の発話内容識別装置は、請求項１又は２に記載の発話内容識別装置において、前記画像処理手段が、前記口唇部分の上下左右端の少なくとも一点を前記特徴点として抽出することを特徴とする。

かかる構成によれば、発話内容識別装置は、画像処理手段によって、上下左右端の少なくとも一点を特徴点として抽出することで、口唇部分の変化を正確に捉えることができる。

請求項４に記載の発話内容識別装置は、請求項１乃至３に記載の発話内容識別装置において、前記母音行列生成手段が、前記発話内容に含まれる単語を、当該単語を構成する母音の５音にそれぞれ対応した数値に置き換え、前記発話内容識別手段が、前記数値又は符号と前記動作スペクトルグラフとの関係を規定した言語テーブルを用いることを特徴とする。

かかる構成によれば、発話内容識別装置は、母音行列生成手段によって、単語を構成する母音の５音を数値に置き換え、発話内容識別手段によって、並べた数値と動作スペクトルグラフとの関係を規定した言語テーブルを用いることで、発話内容に含まれる単語中の子音に拘わらず、単語中の母音の関係のみで当該単語が動作スペクトルグラフに置き換えられる。

請求項５に記載の個人識別装置は、撮影手段で撮影された、発話者が発話している際の口唇部分の映像から当該発話者の口唇動作を得て、この口唇動作の相違から個人を識別する個人識別装置であって、画像処理手段と、動作測定手段と、データ変換手段と、母音行列生成手段と、発話内容識別手段と、個人識別手段と、を備える構成とした。

かかる構成によれば、個人識別装置は、画像処理手段によって、口唇部分の映像を構成する画像の画素値の差に基づいて、当該口唇部分における予め設定した特徴点の位置を抽出する。続いて、個人識別装置は、動作測定手段によって、画像処理手段で抽出した特徴点の位置の変化を、口唇動作の履歴である動作履歴として測定する。そして、個人識別装置は、データ変換手段によって、動作測定手段で測定された動作履歴を、数値解析することで、予め設定した複数のスペクトル成分で表される動作スペクトルグラフに変換する。そして、個人識別装置は、母音行列生成手段によって、データ変換手段で変換された動作スペクトルグラフと、予め母音の動作スペクトルグラフとして保持されている母音サンプルデータとを照合し、発話された言語の母音を識別し、前記発話内容に含まれる単語を、母音行列として生成する。そして、個人識別装置は、発話内容識別手段によって、母音行列生成手段で生成した母音行列と、予め特定のジャンルの単語を母音行列として登録しておいた言語テーブルとを比較し、母音行列が一致した単語を検出することで、発話内容を識別する。そして、個人識別装置は、個人識別手段によって、発話内容識別手段で識別された発話内容及びデータ変換手段で変換された動作スペクトルグラフと、予め発話内容をパスワードとして発話者が発話する際の動作スペクトルグラフと当該パスワードとを対応付けた個人パターンとを照合して、発話者の個人識別を行う。

請求項６に記載の個人識別装置は、請求項５に記載の個人識別装置において、前記個人パターンが、複数の発話者間にて異なる動作スペクトルグラフであり、複数の発話者を識別する際に用いる個人識別動作スペクトルグラフを含むことを特徴とする。

かかる構成によれば、個人識別装置は、個人を識別する際に用いる個人パターンに、複数の発話者間にて異なる動作スペクトルグラフである個人識別動作スペクトルグラフを含むことで、複数の発話者から個人の識別を行うことができる。

請求項７に記載の個人識別装置は、請求項５又は６に記載の個人識別装置において、前記個人識別手段が、前記発話内容識別手段で識別された発話内容と前記パスワードとが一致する場合と、前記データ変換手段で変換された動作スペクトルグラフと前記個人パターンに対応付けられている動作スペクトルグラフとが一致する場合との少なくとも一方が成立した場合又は双方とも成立した場合のみに、前記発話者の個人識別を行うことを特徴とする。

かかる構成によれば、個人識別装置は、個人識別手段によって、発話内容とパスワードとが一致する場合と、変換された動作スペクトルグラフと個人パターンの動作スペクトルグラフとが一致する場合との少なくとも一方が成立した場合又は双方とも成立した場合のみに個人が識別されることで、確実に発話者個人を特定することができる。なお、ここでいう一致とは、完全一致であってもよいし、予め、ある程度の許容範囲（許容幅）を持たせておいてもよい。つまり、識別された発話内容及び動作スペクトルグラフが、個人パターンに含まれているパスワード及び動作スペクトルグラフの許容幅に収まっていれば、発話者個人を特定することができる。

請求項１に記載の発明によれば、発話内容に含まれる単語を母音行列として定義し、予め特定ジャンルの単語を母音行列として登録しておいた言語テーブルと生成した母音行列とを比較することで、発話内容を識別しているので、当該言語テーブルのデータ量を抑えることができる。また、口唇動作における母音を発音する際の各個人による誤差が容易に識別できることから、母音単体の識別は高精度に行うことができ、その結果、母音行列が得られれば、言語テーブルに登録しておいた単語から、該当する単語を高精度に特定することができるので、口唇動作から発話内容を識別する際の識別誤差を小さくすることができる。

請求項２に記載の発明によれば、口唇部分の奥行きの変位を検出することで、発話時の正確な動作を抽出することができるので、口唇動作から発話内容を識別する際の識別誤差を小さくすることができる。

請求項３に記載の発明によれば、上下左右端の少なくとも一点を特徴点として抽出することで、口唇部分の変化を正確に捉えることができるので、口唇動作から発話内容を識別する際の識別誤差を小さくすることができる。

請求項４に記載の発明によれば、発話内容に含まれる単語中の母音の関係のみで当該単語が動作スペクトルグラフに置き換えられ、母音行列が得られるので、口唇動作から発話内容を識別する際の識別誤差を小さくすることができる。

請求項５に記載の発明によれば、識別した発話内容と、予め登録しておいた、当該発話内容を発話者が発話する際の個人パターンとを照合することで、発話内容が一致し、且つ、当該発話内容が発せられた際の個人パターン、つまり、口唇動作から得られる各単語を区切る際の時間の違い等の個人差が一致すれば、口唇動作の特徴から個人を識別することができる。

請求項６に記載の発明によれば、動作スペクトルグラフに共通動作スペクトルグラフと個人識別動作スペクトルグラフとを含むことで、個人識別動作スペクトルグラフから個人ごとの発話時の特徴を検出することができ、複数の発話者から個人の識別を行うことができる。

請求項７に記載の発明によれば、パスワード及び動作スペクトルグラフが一致した場合に個人が識別されることで、確実に発話者個人を特定することができる。

次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
（発話内容識別装置の構成）
図１は、発話内容識別システムのブロック図である。この図１に示すように、発話内容識別システムは、発話内容識別装置１（個人識別装置を包含）と、撮影手段２とから構成されている。発話内容識別装置１の構成の説明に先立ち、撮影手段２について説明する。

撮影手段２は、発話者が発話している際に、当該発話者の口唇部分を撮影するためのものである。この撮影手段２で撮影された映像は、発話内容識別装置１に入力される。この実施形態では、口唇部分の奥行きの変位を検出可能なステレオカメラを採用している。なお、口唇部分の映像は、発話者が発話している間、継続して撮影されたものである。また、口唇部分とは、口唇の周囲だけではなく、発話者の顔面下部まで（鼻下から下顎まで）を含んでもよい。

発話内容識別装置１は、撮影手段２で撮影された発話者の口唇部分の映像から、当該発話者が発話した発話内容を識別するもので、画像処理手段３と、動作測定手段５と、データ変換手段７と、発話内容識別手段９と、言語テーブル記憶手段１１と、個人識別手段１３と、個人パターン記憶手段１５とを備えている。なお、発話内容識別装置１には音声は入力されておらず、撮影手段２で撮影された映像のみから発話内容を識別（推定）している。つまり、実際に発話者は、発声していなくてもよく、いわゆる口パク（発声せずに発声時と同様の口唇動作を行うこと）でよい。

また、この発話内容識別装置１は、発話者が発話した日本語の発話内容を識別するものであるが、日本語以外の言語（例えば、英語、ドイツ語等）について発話内容を識別しようとした場合、言語テーブル記憶手段１１に記憶されている言語テーブル（詳細は後記）として、日本語以外の言語に対応するものが用意できれば、発話内容を識別可能となる。また、日本語以外の言語を発話した個人を識別しようとした場合、個人パターン記憶手段１５に記憶されている個人パターン（詳細は後記）として、日本語以外の言語に対応するものが用意できれば、個人を識別可能となる。

画像処理手段３は、撮影手段２で撮影された口唇部分の映像を構成する画像の画素値の差に基づいて、当該口唇部分における予め設定した特徴点の位置を抽出するものである。ここで、図２を参照して、抽出する特徴点について説明する。図２に示すように、口唇部分の特徴点は、口唇部分の上端（口唇上部の上端部２点（ａ_１、ａ_２）の中点）Ａ点、下端Ｂ点、左端Ｃ点、右端Ｄ点の４点である。なお、各点は、口唇部分を示す赤色の画素値を有する画素と、顔面部分を示す肌色の画素値を有する画素との画素値の差が最大となる画素（境界となる画素）、つまり、口唇上部（上唇）及び口唇下部（下唇）の最端座標に位置する画素が対象となっている。

また、この実施形態では、画像処理手段３は、図２に示したように４点を特徴点として抽出しているが、これに限定されるものではなく、任意個数（４点未満でもよいし、５点以上でもよい）の点を特徴点として抽出してもよい。例えば、口唇部分の映像として、発話者の顔面下部が撮影されている場合、下顎の頂点を特徴点として抽出してもよい。この場合、顎部の肌色の画素値を有する画素と首部の肌色の画素値を有する画素との画素値の差（輝度の差）が最大となる画素で、且つ、最下端に位置する画素を抽出すればよい。図１に戻る。

そして、この画像処理手段３は、撮影手段２から口唇部分の映像が継続して入力される限り、各画像について、特徴点を抽出し続ける。つまり、画像処理手段３は、１つの画像について、４点を抽出し、映像を構成する複数の画像（通常、１秒間に３０フレーム）ごとに抽出していき、抽出した特徴点を、口唇部分の映像を撮影していた時刻に沿った時系列データとして、出力することとなる。

動作測定手段５は、画像処理手段３で抽出された特徴点の位置について、当該特徴点の位置の変化を、口唇動作の履歴である動作履歴として測定するものである。そして、この動作測定手段５では、画像処理手段３で抽出された４点（又は５点）の特徴点それぞれについて、特徴点それぞれの変化について、動作履歴を測定する。なお、画像処理手段３に口唇部分の映像が継続して入力され、特徴点が抽出された際に、一定時間、特徴点の変化が無い場合、つまり、口唇部分の映像には変化がない（動きがない）場合、この動作測定手段５によって、発話者は発話していないと判定される。この実施形態では、一定時間は２秒間と設定している。

ここで、図３を参照して、動作履歴（動作履歴グラフ）の例について説明する。この図３に示した動作履歴グラフは、口唇下部（下唇）のＢ点（図２参照）の変化について示したものであり、横軸に時間ｔ（ｍｓ）、縦軸に変位ｙ（ｍｍ）を取ったものである。この動作履歴グラフの例に示したように、下唇は、時間経過により、一旦下がって（１４ｍｓで最も下がる（約５１ｍｍ））、その後上がっている。図１に戻る。

データ変換手段７は、動作測定手段５で測定された動作履歴（動作履歴グラフ）を、数値解析することで、予め設定した複数のスペクトル成分で表される動作スペクトルグラフに変換するものである。このデータ変換手段７では、動作測定手段５で測定された４つ（又は５つ）の動作履歴それぞれを、動作スペクトルグラフに変換する。この実施形態では、数値解析にフーリエ変換を採用している。なお、この数値解析には、フーリエ変換以外に、動作履歴グラフを関数に見立てて近似する関数近似（関数を近似で求める近似法）や、動作履歴グラフについて微小時間ごとの特徴点の移動量を基に解析する方法等を採用してもよい。

ここで、図４を参照して、動作スペクトルグラフの例について説明する。この図４は、横軸に周波数を取って、縦軸にスペクトル強度を取ったものである。この動作スペクトルグラフの例は、発話者が「あ」という母音を発話した際に、画像処理手段３で下顎部の特徴点を抽出し、この特徴点について、動作測定手段５で動作履歴を測定したものを、データ変換手段７で変換したものである。

このように、動作スペクトルグラフは、特徴的なピークを有したもの、この例では、検出されたスペクトルにおいて、周波数が“１”のところにピークが存在となる。この特徴的なピークは、発話者が発話する際に、口唇部分の動作が以下に述べるようになるために生じるものである。すなわち、口唇部分の動作は、発話時にまず開かれ、ある形状に変形され、母音一語が発音された後に、閉じられるという一連の動作の繰り返しになる。そしてこのとき、母音一語の発音では、口唇部分が開かれてから閉じられるまでの一連の動作について、多少の個人差はあるものの、動作履歴グラフが非常に周期的になる。この結果、母音発音時には、必ず特徴的な周波数が現出することになる。

なお、データ変換手段７において、フーリエ変換を用いて動作スペクトルグラフを識別する場合、発話者が発話した際の動作速度（発話速度）が速くなったり遅くなったりしても、現出する様々なパターン（スペクトルパターン）は周波数の位置が異なるだけで、パターン形状が変化することがない。つまり、このデータ変換手段７では、パターン全体の位置、つまり、周波数間の比を求めることにより、発話者がいかなる発話速度で発話しても、発話内容に対応した動作スペクトルグラフを得ることができる。

そして、この様々なパターンを有する動作スペクトルグラフには、複数の発話者間にて共通に現れる動作スペクトルグラフである共通動作スペクトルグラフと、複数の発話者間にて異なる動作スペクトルグラフであり、複数の発話者を識別する際に用いる個人識別動作スペクトルグラフとがある。図１に戻る。

発話内容識別手段９は、データ変換手段７で変換された動作スペクトルグラフから発話された言語の母音を割り出し（識別し）、発話者が発した発話内容に含まれる単語を、母音行列として生成する母音行列生成手段９ａを備え、この母音行列生成手段９ａで生成した母音行列と、予め特定のジャンルの単語を母音行列として登録しておいた言語テーブルとを比較し、母音行列が一致した単語を検出することで、発話内容を識別するものである。

母音行列生成手段９ａは、データ変換手段７で変換された動作スペクトルグラフと、予め保持されている母音サンプルデータとを照合し、発話された言語の母音を識別している。この母音サンプルデータは、画像処理手段３で抽出した特徴点ごとに保持されている。

そして、この発話内容識別手段９では、各特徴点について、母音サンプルデータと照合処理を行って、この照合処理した結果最も一致していたもの（例えば、特徴点が４点の場合、２点の特徴点が「あ」の母音サンプルデータと一致していた場合、「あ」とする）と識別する。

母音は、発話者が発している言語が日本語であるので、「あいうえお」の５音となる。なお、日本語以外の言語が発せられている場合には、当該言語に対応したものとなる。そして、発話内容識別手段９では、この５音をそれぞれに対応した数値（又は符号）に置き換えることとしており、この実施形態では、あ＝１、い＝２、う＝３、え＝４、お＝５と置き換えている。また、動作測定手段５において、発話者は発話していないと判定された場合、発話前及び発話終了（口唇動作無し）＝０と置き換えている。

母音行列は、発話内容に含まれる単語について、あ＝１、い＝２、う＝３、え＝４、お＝５と置き換えて時系列順に並べたものである。つまり、この母音行列は、母音と子音とからなる５０音中の任意個数が任意の順序で結合されて様々な単語が作られているという前提に基づき、当該単語に含まれている子音を除外した母音を数値で置き換えたものとなる。

例えば、単語の“いんこ”（インコ）は母音行列「０２５０」となる。また、位置を示す単語の“うえ”（上）、“した”（下）、“ひだり”（左）、“みぎ”（右）は、それぞれ「０３４０」（“うえ”）、「０２１０」（“した”の母音は「いあ」）、「０２１２０」（“ひだり”の母音は「いあい」）、「０２２０」（“みぎ”の母音は「いい」）となる。

特定のジャンルは、各言語に存在する単語を分類するための種々の区分を示すものであり、例えば、「動物」、「果物」、「防犯具」、「携帯電話」等が挙げられる。そして、動物の“いんこ”（母音行列０２５０）と、果物の“りんご”（母音行列０２５０）と、防犯具の“きんこ”（金庫）（母音行列０２５０）とが同じ母音行列となることから、特定のジャンルを設定しておかないと、区別できないことになる。

言語テーブルは、各言語に存在する単語について、特定ジャンルごとの単語を、母音行列として予め登録しておいたものである。例えば、特定ジャンル「果物」の言語テーブルの場合、「りんご、みかん、なし、ばなな、・・・」等の単語が登録されている。また、特定ジャンル「携帯電話」の言語テーブルの場合、「電話、番号、メール、通話、カレンダー、通話帳、カメラ、・・・」等の単語が登録されている。そして、「果物」の言語テーブルを採用していた場合、この言語テーブルには果物名のみが登録されているので、先程述べた母音行列０２５０と一致する単語として「りんご」が検出されることになり、「いんこ」及び「きんこ」は排除されることになる。

このように、言語テーブルは、特定ジャンルごとの単語を登録しておくことで、異なるジャンル間で母音行列が同じになる単語の検出が可能となる。ただし、言語テーブルに、特定ジャンルごとの単語を登録しておいても、母音行列が同じなる単語が多数存在する場合（例えば、特定のジャンルの単語として「駅名」、「県名」を登録する場合）、正確に単語を検出することが困難になるおそれが生じる。この場合、二次的な選択手段を構築する必要がある。

この二次的な選択手段は、発話内容識別装置１に予めディスプレイやスピーカ等の提示手段とキーボードやマウス等の操作手段とを接続しておいて、発話者又は当該装置１の操作者に対し、提示手段によって、母音行列生成手段９ａで生成された母音行列が同じになる特定のジャンルの単語を、選択画面や音声アナウンスで提示することで、該当する単語を操作手段で選択させるものである。

例えば、特定ジャンル「県名」の言語テーブルに登録されている単語「奈良」と「佐賀」とは、母音行列が同じ（双方とも母音行列０１１０）になっているので、発話者が発話している際の口唇部分の映像が処理され結果、母音行列生成手段９ａにより母音行列０１１０が生成された場合には、選択画面に「「奈良」と「佐賀」のどちらですか？「奈良」の場合は、数字の“１”（予め設定した任意のキー）を、「佐賀」の場合は、数字の“９”９を押下してください。」と提示する。

ただし、このような場合でも、「県名」の言語テーブルをさらに、地方ごとに構築しておけば、このような二次的な選択手段を用いなくてもよい。つまり、「県名」の言語テーブルを更に細分化した、「九州地方の県名」の言語テーブルと「近畿地方の県名」の言語テーブルとを構築しおけばよい（佐賀は九州地方に属し、奈良は近畿地方に属しています）。このように、言語テーブルをいかに詳細にジャンル分けして構築するかという構築法によって、二次的な選択手段を用いることなく、母音行列から高精度に発話内容を識別することができる。

ここで、図５を参照して、母音行列生成手段９ａによる母音識別方法について説明する。
まず、母音行列生成手段９ａは、データ変換手段７で変換された動作スペクトルグラフを読み込む（ステップＳ１）。続いて、母音行列生成手段９ａは、予め保持されているフィルタ（所定周波数の周波数帯域を通すバンドパスフィルタ）Ａｎを読み出す（ステップＳ２）。

そして、母音行列生成手段９ａは、ピークが規定内（所定周波数の周波数帯域内）に存在するか否かを判定し（ステップＳ３）、ピークが規定内に存在すると判定しなかった場合（ステップＳ３、Ｎｏ）にフィルタＡｎのｎ（フィルタ番号）をｎ＋１に変更し（ステップＳ４）、このｎが６以上か否かを判定する（ステップＳ５）。

そして、母音行列生成手段９ａは、ｎが６以上でない場合（ステップＳ５、Ｎｏ）、ステップＳ２に戻り、ｎが６以上の場合（ステップＳ５、Ｙｅｓ）、該当するフィルタＡｎ無しとして、動作を終了する。また、母音行列生成手段９ａは、ステップＳ３にてピークが規定内に存在すると判定した場合（ステップＳ３、Ｙｅｓ）、該当するフィルタＡｎのフィルタ番号を得る（ステップＳ６）。なお、ステップＳ５において、ｎを６以上としているのは、あくまでもスペクトル成分を分類する際の一例であり、ｎは任意数とすることができる。

そして、母音行列生成手段９ａは、データ変換手段７で変換された動作スペクトルグラフの数だけ（すなわち、画像処理手段３で抽出した特徴点の数だけ）、同様の母音識別方法を用いて、フィルタ番号を得る。

そして、この母音行列生成手段９ａでは、フィルタ番号を得ることで、特徴的なピークがどの周波数帯域で現出しているのかが判明することとなる。このとき、複数の発話者間において、ある程度、発話速度に個人差が生じているが、母音一語では、ほぼ同じ速度となるため、現出する特徴的なピークの平均値を取った場合、発話者それぞれの発話速度と当該平均値との差は小さい（ほとんどない）。すなわち、複数の発話者間における発話速度に関してグラフを求めると、標準偏差が小さいグラフとなる。このため、４つ又は５つの動作スペクトルグラフにおいて、特徴的なピークがどの位置に現出するかを測定することにより、母音の識別（推定）が可能となる。

このとき、口唇部分の上下左右端の４つの特徴点、又は、この４つの特徴点及び下顎部の特徴点を含めた５つの特徴点は、それぞれ独特の動きをするため、４つ又は５つの特徴点の動作履歴は発音される母音によって大きく異なることになる。この結果、これらの特徴点の動作履歴グラフを変換した動作スペクトルグラフは、発音される母音によって大きく異なることになる。

このため、この母音行列生成手段９ａでは、４つ又は５つの動作スペクトルグラフを比較して、母音を識別する際に、特徴的なピークが現出する範囲を予め設定しておく必要があり、該当するスペクトル成分（特徴的なピークをとるスペクトル成分）が他のスペクトル成分に比べて、一定以上の強さを持っているか否かを判定基準としている。

例えば、５つの動作スペクトルグラフを比較する場合、「下顎部の特徴点の動作履歴グラフを変換した動作スペクトルグラフ及び下唇（口唇下部）の特徴点の動作履歴グラフを変換した動作スペクトルグラフにおいて、スペクトル成分（フィルタ番号）２−４近傍に強いスペクトルを持つ（２−４近傍に特徴的なピークが存在する）場合には母音と識別する」等の母音識別条件を予め設定しておいて、この母音行列生成手段９ａでは、動作履歴グラフを比較することによって、母音の識別（推定）を行っている。

この場合、母音行列生成手段９ａでは、母音識別条件としてさらに、「上唇（口唇上部）の特徴点の動作履歴グラフを変換した動作スペクトルグラフにおいて、スペクトル成分４−６に強いスペクトルを持つ（４−６に特徴的なピークが存在する）、且つ、左端及び右端の特徴点の動作履歴グラフを変換した動作スペクトルグラフにおいて、直流成分（フーリエ変換した場合のサイン波の周波数成分を指す）以外強いスペクトルはない（特徴的なピークは存在しない）場合には、母音「あ」とする」を設定しておき、これらをすべて満たした場合には、母音「あ」を識別結果として出力する。

言語テーブル記憶手段１１は、言語テーブルを予め記憶してあるもので、一般的なハードディスク等によって構成されている。この言語テーブルは、発話内容識別手段９によって適宜読み出される。この実施形態では、日本語に関する言語テーブルが記憶されている。

ここで、図６を参照して、発話者が「上（うえ）」、「下（した）」、「左（ひだり）」、「右（みぎ）」と発話した際に、発話内容識別装置１によって識別された識別率について説明する。これら「上（うえ）」、「下（した）」、「左（ひだり）」及び「右（みぎ）」は、発話内容識別装置１をヒューマンインターフェースに採用する場合に、例えば、何らかの操作画面に表示されたカーソル移動に必要な単語である。

この図６に示したように、４つの特徴点（識別率（４点））と５つの特徴点（識別率（５点））とを比較した場合、「下（した）」以外の「上（うえ）」、「左（ひだり）」及び「右（みぎ）」は、５つの特徴点の方が、識別率は高くなっている。

そして、これらの単語が、発話者の口唇部分を撮影した映像から正確に識別されることで、発話内容識別装置１を用いると、騒音等の多い環境で音声によらず、或いは、キーボードやマウス等の操作手段（図示せず）を直接扱わずに、信頼性の高いヒューマンインターフェースを構築することが可能になる。図１に戻る。

個人識別手段１３は、発話内容識別手段９で識別された発話内容と、予め登録しておいた、発話内容を発話者が発話する際の個人パターンとを照合することで、発話者の個人識別を行うものである。

個人パターンは、パスワードとして、発話者の個人差が大きく現出するように平常通り何らかの言葉を発し、この言葉を発した際の口唇部分の映像から得られた動作スペクトルグラフ（個人識別動作スペクトルグラフ）と当該パスワードとを対応付けたものである。つまり、この個人パターンは、口唇動作から得られる各単語を区切る際の時間の違い等の個人差を、個人識別動作スペクトルグラフとして反映させたものである。

この個人識別手段１３は、発話内容識別手段９で識別された発話内容とパスワードとが一致し、且つ、データ変換手段７で変換された動作スペクトルグラフと個人パターンに対応付けられている動作スペクトルグラフとが一致する場合に、発話者の個人識別を行っている。

また、この個人識別手段１３は、発話内容識別手段９で識別された発話内容とパスワードとが一致する場合と、データ変換手段７で変換された動作スペクトルグラフと個人パターンに対応付けられている動作スペクトルグラフとが一致する場合との少なくとも一方が成立した場合に、発話者の個人識別を行うこととすることもできる。

この場合、個人識別手段１３では、発話者が発話した発話内容とパスワードとが一致する場合のみで個人識別を行うこともできる。ただし、Ａさんの個人パターンに「開けドア」と登録されていて、Ａさんが「開けドア」と発話又は別のＢさんが「開けドア」と発話し、双方とも発話内容が「開けドア」と識別されれば、発話者Ａさんと識別することになる。

また、個人識別手段１３では、データ変換手段７で変換された動作スペクトルグラフと個人パターンに対応付けられている動作スペクトルグラフとが一致する場合のみで個人識別を行うこともできる。ただし、Ａさんの個人パターンに「開けドア」と登録されていて、Ａさんが「開けごま」と発話した場合であっても、動作スペクトルグラフが一致（いずれかの動作スペクトルグラフが一致）さえすれば、発話者Ａさんと識別することになる。

個人パターン記憶手段１５は、個人パターンを予め記憶してあるもので、一般的なハードディスク等によって構成されている。この個人パターンは、個人識別手段１３によって適宜読み出される。この実施形態では、日本語に関する個人パターンが記憶されている。

この発話内容識別装置１によれば、母音行列生成手段９ａによって、発話内容に含まれる単語を母音行列として生成し、発話内容識別手段９によって、予め特定ジャンルの単語を母音行列として登録しておいた言語テーブルと比較することで、発話内容を識別しており、言語テーブルに登録しておいた単語から、該当する単語を高精度に特定することができるので、口唇動作から発話内容を識別する際の識別誤差を小さくすることができる。

また、発話内容識別装置１によれば、画像処理手段３によって、上下左右端の少なくとも一点を特徴点として抽出することで、口唇部分の変化を正確に捉えることができるので、口唇動作から発話内容を識別する際の識別誤差を小さくすることができる。

さらに、発話内容識別装置１によれば、個人識別手段１３によって、識別した発話内容と、予め登録しておいた、当該発話内容を発話者が発話する際の個人パターンとを照合することで、発話内容が一致し、且つ、当該発話内容が発せられた際の個人パターン、つまり、口唇動作から得られる各単語を区切る際の時間や個人差が一致すれば、口唇動作の特徴から個人を識別することができる。

そして、発話内容識別装置１によれば、個人パターンに個人識別動作スペクトルグラフを含むことで、当該個人識別動作スペクトルグラフから個人ごとの発話時の特徴を検出することができ、複数の発話者から個人の識別を行うことができる。

なお、発話内容識別装置１に入力される口唇部分の映像を撮影する撮影手段２に、通常の映像を出力すると共に、距離画像を出力するステレオカメラを用いてもよい。そして、画像処理手段３によって、口唇部分の奥行きの変位（Ｚ軸方向の変位）を検出することで、発話時の正確な動作を抽出することができるので、口唇動作から発話内容を識別する際の識別誤差を小さくすることができる。

（発話内容識別装置の動作）
次に、図７に示すフローチャートを参照して、発話内容識別装置１の動作について説明する（適宜、図１参照）。
まず、発話内容識別装置１は、画像処理手段３によって、撮影手段２から入力された口唇部分の映像から特徴点を抽出する（ステップＳ１１）。続いて、発話内容識別装置１は、動作測定手段５によって、画像処理手段３で抽出された特徴点の変化を、動作履歴（動作履歴グラフ）として測定する（ステップＳ１２）。

そして、発話内容識別装置１は、データ変換手段７によって、動作測定手段５で測定された動作履歴グラフを数値解析し、動作スペクトルグラフに変換する（ステップＳ１３）。そして、発話内容識別装置１は、母音行列生成手段９ａによって、動作スペクトルグラフから母音を識別し、母音行列を得て、発話内容識別手段９によって、言語テーブル記憶手段１１に記憶されている言語テーブルと照合することで、発話内容を識別する（ステップＳ１４）。

さらに、発話内容識別装置１は、個人識別手段１３によって、発話内容識別手段９で識別された発話内容及びデータ変換手段７で変換された動作スペクトルグラフと、個人パターン記憶手段１５に記憶されている個人パターンとを照合することで、発話者個人を識別する（ステップＳ１５）。

以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、発話内容識別装置１として説明したが、各構成の処理を実施可能にコンピュータ言語で記述した発話内容識別プログラム（又は個人識別プログラム）として構成することも可能である。

本発明の実施形態に係る発話内容識別システムのブロック図である。口唇部分の特徴点の例を示した図である。動作履歴グラフの例を示した図である。動作スペクトルグラフの例を示した図である。母音識別の手順を示したフローチャートである。所定の単語について識別率の例を示した図である。発話内容識別装置の動作を示したフローチャートである。

符号の説明

１発話内容識別装置
２撮影手段
３画像処理手段
５動作測定手段
７データ変換手段
９発話内容識別手段
９ａ母音行列生成手段
１１言語テーブル記憶手段
１３個人識別手段
１５個人パターン記憶手段

Claims

撮影手段で撮影された、発話者が発話している際の口唇部分の映像から当該発話者の口唇動作を得て、この口唇動作から発話内容を識別する発話内容識別装置であって、
前記口唇部分の映像を構成する画像の画素値の差に基づいて、当該口唇部分における予め設定した特徴点の位置を抽出する画像処理手段と、
この画像処理手段で抽出した特徴点の位置の変化を、前記口唇動作の履歴である動作履歴として測定する動作測定手段と、
この動作測定手段で測定された動作履歴を、数値解析することで、予め設定した複数のスペクトル成分で表される動作スペクトルグラフに変換するデータ変換手段と、
このデータ変換手段で変換された動作スペクトルグラフと、予め母音の動作スペクトルグラフとして保持されている母音サンプルデータとを照合し、発話された言語の母音を識別し、前記発話内容に含まれる単語を、母音行列として生成する母音行列生成手段と、
この母音行列生成手段で生成された母音行列と、予め特定のジャンルの単語を母音行列として登録しておいた言語テーブルとを比較し、母音行列が一致した単語を検出することで、前記発話内容を識別する発話内容識別手段と、
を備えることを特徴とする発話内容識別装置。
前記口唇部分の映像に、距離画像が含まれており、
前記画像処理手段は、前記距離画像から前記口唇部分の奥行きの変位を検出することを特徴とする請求項１に記載の発話内容識別装置。
前記画像処理手段は、前記口唇部分の上下左右端の少なくとも一点を前記特徴点として抽出することを特徴とする請求項１又は２に記載の発話内容識別装置。
前記母音行列生成手段は、前記発話内容に含まれる単語を、当該単語を構成する母音の５音にそれぞれ対応した数値又は符号に置き換え、
前記発話内容識別手段は、前記数値又は符号と前記動作スペクトルグラフとの関係を規定した言語テーブルを用いることを特徴とする請求項１乃至３に記載の発話内容識別装置。
撮影手段で撮影された、発話者が発話している際の口唇部分の映像から当該発話者の口唇動作を得て、この口唇動作の相違から個人を識別する個人識別装置であって、
前記口唇部分の映像を構成する画像の画素値の差に基づいて、当該口唇部分における予め設定した特徴点の位置を抽出する画像処理手段と、
この画像処理手段で抽出した特徴点の位置の変化を、前記口唇動作の履歴である動作履歴として測定する動作測定手段と、
この動作測定手段で測定された動作履歴を、数値解析することで、予め設定した複数のスペクトル成分で表される動作スペクトルグラフに変換するデータ変換手段と、
このデータ変換手段で変換された動作スペクトルグラフと、予め母音の動作スペクトルグラフとして保持されている母音サンプルデータとを照合し、発話された言語の母音を識別し、前記発話内容に含まれる単語を、母音行列として生成する母音行列生成手段と、
この母音行列生成手段で生成された母音行列と、予め特定のジャンルの単語を母音行列として登録しておいた言語テーブルとを比較し、母音行列が一致した単語を検出することで、前記発話内容を識別する発話内容識別手段と、
この発話内容識別手段で識別された発話内容及び前記データ変換手段で変換された動作スペクトルグラフと、予め発話内容をパスワードとして発話者が発話する際の動作スペクトルグラフと当該パスワードとを対応付けた個人パターンとを照合して、前記発話者の個人識別を行う個人識別手段と、
を備えることを特徴とする個人識別装置。
前記個人パターンは、複数の発話者間にて異なる動作スペクトルグラフであり、複数の発話者を識別する際に用いる個人識別動作スペクトルグラフを含むことを特徴とする請求項５に記載の個人識別装置。
前記個人識別手段は、前記発話内容識別手段で識別された発話内容と前記パスワードとが一致する場合と、前記データ変換手段で変換された動作スペクトルグラフと前記個人パターンに対応付けられている動作スペクトルグラフとが一致する場合との少なくとも一方が成立した場合又は双方とも成立した場合のみに、前記発話者の個人識別を行うことを特徴とする請求項５又は６に記載の個人識別装置。