JP4849630B2 - 発話内容識別装置及び個人識別装置 - Google Patents

発話内容識別装置及び個人識別装置 Download PDF

Info

Publication number
JP4849630B2
JP4849630B2 JP2007129363A JP2007129363A JP4849630B2 JP 4849630 B2 JP4849630 B2 JP 4849630B2 JP 2007129363 A JP2007129363 A JP 2007129363A JP 2007129363 A JP2007129363 A JP 2007129363A JP 4849630 B2 JP4849630 B2 JP 4849630B2
Authority
JP
Japan
Prior art keywords
utterance content
vowel
lip
identification device
spectrum graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007129363A
Other languages
English (en)
Other versions
JP2008287340A (ja
Inventor
朋宏 柳
篤史 坂本
光穗 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokai University Educational Systems
Original Assignee
Tokai University Educational Systems
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokai University Educational Systems filed Critical Tokai University Educational Systems
Priority to JP2007129363A priority Critical patent/JP4849630B2/ja
Publication of JP2008287340A publication Critical patent/JP2008287340A/ja
Application granted granted Critical
Publication of JP4849630B2 publication Critical patent/JP4849630B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、発話者が発話する際の口唇動作から発話内容を識別する発話内容識別装置及び発話者個人を識別する個人識別装置に関する。
発話者が任意の言語(例えば、日本語)を発話する際の口唇動作を利用して、発話した内容(日本語発話内容)を識別する従来方法として、次に述べる方法が非特許文献1に開示されている。
この非特許文献1に開示されている従来方法(以下、従来の母音識別方法という)は、発話者の口唇の上下(A1,A2)及び左右(B1,B2)と、下顎とに基準点(A3)を設定し、口唇の横幅W(B1〜B2)、口唇の縦幅H(A1〜A2)及び上唇から下顎までの距離HX(A1〜A3)の3つの変数を測定し、発話した際の横幅W、縦幅H及び距離HXの変化を算出することにより、発話内容を識別するものである。
この従来の母音識別方法では、例えば、2つの母音「あ」と「い」とを続けて発話する場合、「あ」と発話する場合の3つの変数(W1、H1、HX1)とし、「い」と発話した場合の3つの変数(W2、H2、HX2)とすると、この場合の連続発話パターン(2連続母音発話パターン)は、6つの変数に関連付けられることになり、変数がどの様に変化するのかを算出することによって、「あ」と「い」との連続発話パターンを識別している。
このような従来の母音識別方法を含めた、発話内容を識別する従来方法は、「あ」、「い」、「1」、「2」等が発話された場合に、発話内容を50音の行列とはみなしていない。例えば、従来方法では、果物の「イチゴ」という発話内容を識別する際に、「い」+「ち」+「ご」の結合した行列とみなして識別しておらず、予めデータベースに登録しておいた「イチゴ」という単語のパターンと一致するか否かによって識別している。
渡辺 「読唇による2連母音識別」 日本機械学会論文集C編、55巻、509号、1989年 1月
しかしながら、発話内容を識別する従来方法では、データベースに単語自体を登録しておくことを前提とし、発話内容を、一個一個の単語が集合した単語集合として識別しており、発話内容として発話される可能性がある単語すべてをデータベースに登録しておく必要があり、当該データベースのデータ量が膨大になるという問題がある。
また、発話内容を識別する従来方法では、発話内容として発話される可能性がある単語すべてをデータベースに登録しておく必要があるばかりか、この単語の数だけ、対応する口唇動作のパターンも規定しておかなければならず、当該口唇動作のパターンを記憶しておくデータベースのデータ量も膨大になるという問題がある。
さらに、発話内容を識別する従来方法では、母音を連続して発音した連続発音時における母音同士の相互影響、すなわち、前発音の影響が後発音に色濃く反映され、結果として前発音によって、後発音が同じ母音であっても、口唇動作が異なり、この結果、発話者が発話する際の口唇動作から発話内容を識別する場合の誤差(識別誤差)が大きくなるという問題がある。
つまり、連続する母音を発話者が発音する際の口唇動作をパターン化して検出することが困難であり、また、連続する母音以外について発話者が発話する際の口唇動作をパターン化しようとした場合、発話者それぞれの個人差によって、当該パターン化する際に設定する各種パラメータを綿密に調整し、この調整した各種パラメータに応じて口唇動作のパターンを規定しなければならないので、やはり、データベースのデータ量が膨大になるという問題がある。
また、連続する母音以外について、発話者が発話した発話内容を推定する場合に、発音に要する時間の長短によって、得られる口唇動作が左右され、結果として全く別の単語や文章を識別してしまい、やはり、識別誤差が大きくなるという問題がある。
そこで、本発明では、前記した問題を解決し、口唇動作を識別する際に用いるデータベースのデータ量を抑え、且つ、口唇動作から発話内容を識別する際の識別誤差を小さくすることができる発話内容識別装置及び口唇動作の特徴から個人を識別することができる個人識別装置を提供することを目的とする。
前記課題を解決するため、請求項1に記載の発話内容識別装置は、撮影手段で撮影された、発話者が発話している際の口唇部分の映像から当該発話者の口唇動作を得て、この口唇動作から発話内容を識別する発話内容識別装置であって、画像処理手段と、動作測定手段と、データ変換手段と、母音行列生成手段と、発話内容識別手段と、を備える構成とした。
かかる構成によれば、発話内容識別装置は、画像処理手段によって、口唇部分の映像を構成する画像の画素値の差に基づいて、当該口唇部分における予め設定した特徴点の位置を抽出する。続いて、発話内容識別装置は、動作測定手段によって、画像処理手段で抽出した特徴点の位置の変化を、口唇動作の履歴である動作履歴として測定する。そして、発話内容識別装置は、データ変換手段によって、動作測定手段で測定された動作履歴を、数値解析することで、予め設定した複数のスペクトル成分で表される動作スペクトルグラフに変換する。なお、数値解析として、フーリエ変換、関数近似等の信号処理が挙げられる。そして、発話内容識別装置は、母音行列生成手段によって、データ変換手段で変換された動作スペクトルグラフと、予め母音の動作スペクトルグラフとして保持されている母音サンプルデータとを照合し、前記発話内容に含まれる単語を、母音行列として生成する。
そして、発話内容識別装置は、発話内容識別手段によって、母音行列生成手段で生成された母音行列と、予め母音行列として特定のジャンルの単語を登録しておいた言語テーブルとを比較し、母音行列が一致した単語を検出することで、発話内容を識別する。
請求項2に記載の発話内容識別装置は、請求項1に記載の発話内容識別装置において、前記口唇部分の映像に距離画像が含まれており、前記画像処理手段が、前記距離画像から前記口唇部分の奥行きの変位を検出することを特徴とする。
かかる構成によれば、発話内容識別装置は、画像処理手段によって、口唇部分の奥行きの変位を検出することで、発話時の正確な動作を抽出することができる。なお、距離画像は、撮影手段にステレオカメラを採用することで得ることができる。なお、この場合、当該ステレオカメラは、通常の映像も出力する必要がある。
請求項3に記載の発話内容識別装置は、請求項1又は2に記載の発話内容識別装置において、前記画像処理手段が、前記口唇部分の上下左右端の少なくとも一点を前記特徴点として抽出することを特徴とする。
かかる構成によれば、発話内容識別装置は、画像処理手段によって、上下左右端の少なくとも一点を特徴点として抽出することで、口唇部分の変化を正確に捉えることができる。
請求項4に記載の発話内容識別装置は、請求項1乃至3に記載の発話内容識別装置において、前記母音行列生成手段が、前記発話内容に含まれる単語を、当該単語を構成する母音の5音にそれぞれ対応した数値に置き換え、前記発話内容識別手段が、前記数値又は符号と前記動作スペクトルグラフとの関係を規定した言語テーブルを用いることを特徴とする。
かかる構成によれば、発話内容識別装置は、母音行列生成手段によって、単語を構成する母音の5音を数値に置き換え、発話内容識別手段によって、並べた数値と動作スペクトルグラフとの関係を規定した言語テーブルを用いることで、発話内容に含まれる単語中の子音に拘わらず、単語中の母音の関係のみで当該単語が動作スペクトルグラフに置き換えられる。
請求項5に記載の個人識別装置は、撮影手段で撮影された、発話者が発話している際の口唇部分の映像から当該発話者の口唇動作を得て、この口唇動作の相違から個人を識別する個人識別装置であって、画像処理手段と、動作測定手段と、データ変換手段と、母音行列生成手段と、発話内容識別手段と、個人識別手段と、を備える構成とした。
かかる構成によれば、個人識別装置は、画像処理手段によって、口唇部分の映像を構成する画像の画素値の差に基づいて、当該口唇部分における予め設定した特徴点の位置を抽出する。続いて、個人識別装置は、動作測定手段によって、画像処理手段で抽出した特徴点の位置の変化を、口唇動作の履歴である動作履歴として測定する。そして、個人識別装置は、データ変換手段によって、動作測定手段で測定された動作履歴を、数値解析することで、予め設定した複数のスペクトル成分で表される動作スペクトルグラフに変換する。そして、個人識別装置は、母音行列生成手段によって、データ変換手段で変換された動作スペクトルグラフと、予め母音の動作スペクトルグラフとして保持されている母音サンプルデータとを照合し、発話された言語の母音を識別し、前記発話内容に含まれる単語を、母音行列として生成する。そして、個人識別装置は、発話内容識別手段によって、母音行列生成手段で生成した母音行列と、予め特定のジャンルの単語を母音行列として登録しておいた言語テーブルとを比較し、母音行列が一致した単語を検出することで、発話内容を識別する。そして、個人識別装置は、個人識別手段によって、発話内容識別手段で識別された発話内容及びデータ変換手段で変換された動作スペクトルグラフと、予め発話内容をパスワードとして発話者が発話する際の動作スペクトルグラフと当該パスワードとを対応付けた個人パターンとを照合して、発話者の個人識別を行う。
請求項6に記載の個人識別装置は、請求項5に記載の個人識別装置において、前記個人パターンが、複数の発話者間にて異なる動作スペクトルグラフであり、複数の発話者を識別する際に用いる個人識別動作スペクトルグラフを含むことを特徴とする。
かかる構成によれば、個人識別装置は、個人を識別する際に用いる個人パターンに、複数の発話者間にて異なる動作スペクトルグラフである個人識別動作スペクトルグラフを含むことで、複数の発話者から個人の識別を行うことができる。
請求項7に記載の個人識別装置は、請求項5又は6に記載の個人識別装置において、前記個人識別手段が、前記発話内容識別手段で識別された発話内容と前記パスワードとが一致する場合と、前記データ変換手段で変換された動作スペクトルグラフと前記個人パターンに対応付けられている動作スペクトルグラフとが一致する場合との少なくとも一方が成立した場合又は双方とも成立した場合のみに、前記発話者の個人識別を行うことを特徴とする。
かかる構成によれば、個人識別装置は、個人識別手段によって、発話内容とパスワードとが一致する場合と、変換された動作スペクトルグラフと個人パターンの動作スペクトルグラフとが一致する場合との少なくとも一方が成立した場合又は双方とも成立した場合のみに個人が識別されることで、確実に発話者個人を特定することができる。なお、ここでいう一致とは、完全一致であってもよいし、予め、ある程度の許容範囲(許容幅)を持たせておいてもよい。つまり、識別された発話内容及び動作スペクトルグラフが、個人パターンに含まれているパスワード及び動作スペクトルグラフの許容幅に収まっていれば、発話者個人を特定することができる。
請求項1に記載の発明によれば、発話内容に含まれる単語を母音行列として定義し、予め特定ジャンルの単語を母音行列として登録しておいた言語テーブルと生成した母音行列とを比較することで、発話内容を識別しているので、当該言語テーブルのデータ量を抑えることができる。また、口唇動作における母音を発音する際の各個人による誤差が容易に識別できることから、母音単体の識別は高精度に行うことができ、その結果、母音行列が得られれば、言語テーブルに登録しておいた単語から、該当する単語を高精度に特定することができるので、口唇動作から発話内容を識別する際の識別誤差を小さくすることができる。
請求項2に記載の発明によれば、口唇部分の奥行きの変位を検出することで、発話時の正確な動作を抽出することができるので、口唇動作から発話内容を識別する際の識別誤差を小さくすることができる。
請求項3に記載の発明によれば、上下左右端の少なくとも一点を特徴点として抽出することで、口唇部分の変化を正確に捉えることができるので、口唇動作から発話内容を識別する際の識別誤差を小さくすることができる。
請求項4に記載の発明によれば、発話内容に含まれる単語中の母音の関係のみで当該単語が動作スペクトルグラフに置き換えられ、母音行列が得られるので、口唇動作から発話内容を識別する際の識別誤差を小さくすることができる。
請求項5に記載の発明によれば、識別した発話内容と、予め登録しておいた、当該発話内容を発話者が発話する際の個人パターンとを照合することで、発話内容が一致し、且つ、当該発話内容が発せられた際の個人パターン、つまり、口唇動作から得られる各単語を区切る際の時間の違い等の個人差が一致すれば、口唇動作の特徴から個人を識別することができる。
請求項6に記載の発明によれば、動作スペクトルグラフに共通動作スペクトルグラフと個人識別動作スペクトルグラフとを含むことで、個人識別動作スペクトルグラフから個人ごとの発話時の特徴を検出することができ、複数の発話者から個人の識別を行うことができる。
請求項7に記載の発明によれば、パスワード及び動作スペクトルグラフが一致した場合に個人が識別されることで、確実に発話者個人を特定することができる。
次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
(発話内容識別装置の構成)
図1は、発話内容識別システムのブロック図である。この図1に示すように、発話内容識別システムは、発話内容識別装置1(個人識別装置を包含)と、撮影手段2とから構成されている。発話内容識別装置1の構成の説明に先立ち、撮影手段2について説明する。
撮影手段2は、発話者が発話している際に、当該発話者の口唇部分を撮影するためのものである。この撮影手段2で撮影された映像は、発話内容識別装置1に入力される。この実施形態では、口唇部分の奥行きの変位を検出可能なステレオカメラを採用している。なお、口唇部分の映像は、発話者が発話している間、継続して撮影されたものである。また、口唇部分とは、口唇の周囲だけではなく、発話者の顔面下部まで(鼻下から下顎まで)を含んでもよい。
発話内容識別装置1は、撮影手段2で撮影された発話者の口唇部分の映像から、当該発話者が発話した発話内容を識別するもので、画像処理手段3と、動作測定手段5と、データ変換手段7と、発話内容識別手段9と、言語テーブル記憶手段11と、個人識別手段13と、個人パターン記憶手段15とを備えている。なお、発話内容識別装置1には音声は入力されておらず、撮影手段2で撮影された映像のみから発話内容を識別(推定)している。つまり、実際に発話者は、発声していなくてもよく、いわゆる口パク(発声せずに発声時と同様の口唇動作を行うこと)でよい。
また、この発話内容識別装置1は、発話者が発話した日本語の発話内容を識別するものであるが、日本語以外の言語(例えば、英語、ドイツ語等)について発話内容を識別しようとした場合、言語テーブル記憶手段11に記憶されている言語テーブル(詳細は後記)として、日本語以外の言語に対応するものが用意できれば、発話内容を識別可能となる。また、日本語以外の言語を発話した個人を識別しようとした場合、個人パターン記憶手段15に記憶されている個人パターン(詳細は後記)として、日本語以外の言語に対応するものが用意できれば、個人を識別可能となる。
画像処理手段3は、撮影手段2で撮影された口唇部分の映像を構成する画像の画素値の差に基づいて、当該口唇部分における予め設定した特徴点の位置を抽出するものである。ここで、図2を参照して、抽出する特徴点について説明する。図2に示すように、口唇部分の特徴点は、口唇部分の上端(口唇上部の上端部2点(a、a)の中点)A点、下端B点、左端C点、右端D点の4点である。なお、各点は、口唇部分を示す赤色の画素値を有する画素と、顔面部分を示す肌色の画素値を有する画素との画素値の差が最大となる画素(境界となる画素)、つまり、口唇上部(上唇)及び口唇下部(下唇)の最端座標に位置する画素が対象となっている。
また、この実施形態では、画像処理手段3は、図2に示したように4点を特徴点として抽出しているが、これに限定されるものではなく、任意個数(4点未満でもよいし、5点以上でもよい)の点を特徴点として抽出してもよい。例えば、口唇部分の映像として、発話者の顔面下部が撮影されている場合、下顎の頂点を特徴点として抽出してもよい。この場合、顎部の肌色の画素値を有する画素と首部の肌色の画素値を有する画素との画素値の差(輝度の差)が最大となる画素で、且つ、最下端に位置する画素を抽出すればよい。図1に戻る。
そして、この画像処理手段3は、撮影手段2から口唇部分の映像が継続して入力される限り、各画像について、特徴点を抽出し続ける。つまり、画像処理手段3は、1つの画像について、4点を抽出し、映像を構成する複数の画像(通常、1秒間に30フレーム)ごとに抽出していき、抽出した特徴点を、口唇部分の映像を撮影していた時刻に沿った時系列データとして、出力することとなる。
動作測定手段5は、画像処理手段3で抽出された特徴点の位置について、当該特徴点の位置の変化を、口唇動作の履歴である動作履歴として測定するものである。そして、この動作測定手段5では、画像処理手段3で抽出された4点(又は5点)の特徴点それぞれについて、特徴点それぞれの変化について、動作履歴を測定する。なお、画像処理手段3に口唇部分の映像が継続して入力され、特徴点が抽出された際に、一定時間、特徴点の変化が無い場合、つまり、口唇部分の映像には変化がない(動きがない)場合、この動作測定手段5によって、発話者は発話していないと判定される。この実施形態では、一定時間は2秒間と設定している。
ここで、図3を参照して、動作履歴(動作履歴グラフ)の例について説明する。この図3に示した動作履歴グラフは、口唇下部(下唇)のB点(図2参照)の変化について示したものであり、横軸に時間t(ms)、縦軸に変位y(mm)を取ったものである。この動作履歴グラフの例に示したように、下唇は、時間経過により、一旦下がって(14msで最も下がる(約51mm))、その後上がっている。図1に戻る。
データ変換手段7は、動作測定手段5で測定された動作履歴(動作履歴グラフ)を、数値解析することで、予め設定した複数のスペクトル成分で表される動作スペクトルグラフに変換するものである。このデータ変換手段7では、動作測定手段5で測定された4つ(又は5つ)の動作履歴それぞれを、動作スペクトルグラフに変換する。この実施形態では、数値解析にフーリエ変換を採用している。なお、この数値解析には、フーリエ変換以外に、動作履歴グラフを関数に見立てて近似する関数近似(関数を近似で求める近似法)や、動作履歴グラフについて微小時間ごとの特徴点の移動量を基に解析する方法等を採用してもよい。
ここで、図4を参照して、動作スペクトルグラフの例について説明する。この図4は、横軸に周波数を取って、縦軸にスペクトル強度を取ったものである。この動作スペクトルグラフの例は、発話者が「あ」という母音を発話した際に、画像処理手段3で下顎部の特徴点を抽出し、この特徴点について、動作測定手段5で動作履歴を測定したものを、データ変換手段7で変換したものである。
このように、動作スペクトルグラフは、特徴的なピークを有したもの、この例では、検出されたスペクトルにおいて、周波数が“1”のところにピークが存在となる。この特徴的なピークは、発話者が発話する際に、口唇部分の動作が以下に述べるようになるために生じるものである。すなわち、口唇部分の動作は、発話時にまず開かれ、ある形状に変形され、母音一語が発音された後に、閉じられるという一連の動作の繰り返しになる。そしてこのとき、母音一語の発音では、口唇部分が開かれてから閉じられるまでの一連の動作について、多少の個人差はあるものの、動作履歴グラフが非常に周期的になる。この結果、母音発音時には、必ず特徴的な周波数が現出することになる。
なお、データ変換手段7において、フーリエ変換を用いて動作スペクトルグラフを識別する場合、発話者が発話した際の動作速度(発話速度)が速くなったり遅くなったりしても、現出する様々なパターン(スペクトルパターン)は周波数の位置が異なるだけで、パターン形状が変化することがない。つまり、このデータ変換手段7では、パターン全体の位置、つまり、周波数間の比を求めることにより、発話者がいかなる発話速度で発話しても、発話内容に対応した動作スペクトルグラフを得ることができる。
そして、この様々なパターンを有する動作スペクトルグラフには、複数の発話者間にて共通に現れる動作スペクトルグラフである共通動作スペクトルグラフと、複数の発話者間にて異なる動作スペクトルグラフであり、複数の発話者を識別する際に用いる個人識別動作スペクトルグラフとがある。図1に戻る。
発話内容識別手段9は、データ変換手段7で変換された動作スペクトルグラフから発話された言語の母音を割り出し(識別し)、発話者が発した発話内容に含まれる単語を、母音行列として生成する母音行列生成手段9aを備え、この母音行列生成手段9aで生成した母音行列と、予め特定のジャンルの単語を母音行列として登録しておいた言語テーブルとを比較し、母音行列が一致した単語を検出することで、発話内容を識別するものである。
母音行列生成手段9aは、データ変換手段7で変換された動作スペクトルグラフと、予め保持されている母音サンプルデータとを照合し、発話された言語の母音を識別している。この母音サンプルデータは、画像処理手段3で抽出した特徴点ごとに保持されている。
そして、この発話内容識別手段9では、各特徴点について、母音サンプルデータと照合処理を行って、この照合処理した結果最も一致していたもの(例えば、特徴点が4点の場合、2点の特徴点が「あ」の母音サンプルデータと一致していた場合、「あ」とする)と識別する。
母音は、発話者が発している言語が日本語であるので、「あいうえお」の5音となる。なお、日本語以外の言語が発せられている場合には、当該言語に対応したものとなる。そして、発話内容識別手段9では、この5音をそれぞれに対応した数値(又は符号)に置き換えることとしており、この実施形態では、あ=1、い=2、う=3、え=4、お=5と置き換えている。また、動作測定手段5において、発話者は発話していないと判定された場合、発話前及び発話終了(口唇動作無し)=0と置き換えている。
母音行列は、発話内容に含まれる単語について、あ=1、い=2、う=3、え=4、お=5と置き換えて時系列順に並べたものである。つまり、この母音行列は、母音と子音とからなる50音中の任意個数が任意の順序で結合されて様々な単語が作られているという前提に基づき、当該単語に含まれている子音を除外した母音を数値で置き換えたものとなる。
例えば、単語の“いんこ”(インコ)は母音行列「0250」となる。また、位置を示す単語の“うえ”(上)、“した”(下)、“ひだり”(左)、“みぎ”(右)は、それぞれ「0340」(“うえ”)、「0210」(“した”の母音は「いあ」)、「02120」(“ひだり”の母音は「いあい」)、「0220」(“みぎ”の母音は「いい」)となる。
特定のジャンルは、各言語に存在する単語を分類するための種々の区分を示すものであり、例えば、「動物」、「果物」、「防犯具」、「携帯電話」等が挙げられる。そして、動物の“いんこ”(母音行列0250)と、果物の“りんご”(母音行列0250)と、防犯具の“きんこ”(金庫)(母音行列0250)とが同じ母音行列となることから、特定のジャンルを設定しておかないと、区別できないことになる。
言語テーブルは、各言語に存在する単語について、特定ジャンルごとの単語を、母音行列として予め登録しておいたものである。例えば、特定ジャンル「果物」の言語テーブルの場合、「りんご、みかん、なし、ばなな、・・・」等の単語が登録されている。また、特定ジャンル「携帯電話」の言語テーブルの場合、「電話、番号、メール、通話、カレンダー、通話帳、カメラ、・・・」等の単語が登録されている。そして、「果物」の言語テーブルを採用していた場合、この言語テーブルには果物名のみが登録されているので、先程述べた母音行列0250と一致する単語として「りんご」が検出されることになり、「いんこ」及び「きんこ」は排除されることになる。
このように、言語テーブルは、特定ジャンルごとの単語を登録しておくことで、異なるジャンル間で母音行列が同じになる単語の検出が可能となる。ただし、言語テーブルに、特定ジャンルごとの単語を登録しておいても、母音行列が同じなる単語が多数存在する場合(例えば、特定のジャンルの単語として「駅名」、「県名」を登録する場合)、正確に単語を検出することが困難になるおそれが生じる。この場合、二次的な選択手段を構築する必要がある。
この二次的な選択手段は、発話内容識別装置1に予めディスプレイやスピーカ等の提示手段とキーボードやマウス等の操作手段とを接続しておいて、発話者又は当該装置1の操作者に対し、提示手段によって、母音行列生成手段9aで生成された母音行列が同じになる特定のジャンルの単語を、選択画面や音声アナウンスで提示することで、該当する単語を操作手段で選択させるものである。
例えば、特定ジャンル「県名」の言語テーブルに登録されている単語「奈良」と「佐賀」とは、母音行列が同じ(双方とも母音行列0110)になっているので、発話者が発話している際の口唇部分の映像が処理され結果、母音行列生成手段9aにより母音行列0110が生成された場合には、選択画面に「「奈良」と「佐賀」のどちらですか?「奈良」の場合は、数字の“1”(予め設定した任意のキー)を、「佐賀」の場合は、数字の“9”9を押下してください。」と提示する。
ただし、このような場合でも、「県名」の言語テーブルをさらに、地方ごとに構築しておけば、このような二次的な選択手段を用いなくてもよい。つまり、「県名」の言語テーブルを更に細分化した、「九州地方の県名」の言語テーブルと「近畿地方の県名」の言語テーブルとを構築しおけばよい(佐賀は九州地方に属し、奈良は近畿地方に属しています)。このように、言語テーブルをいかに詳細にジャンル分けして構築するかという構築法によって、二次的な選択手段を用いることなく、母音行列から高精度に発話内容を識別することができる。
ここで、図5を参照して、母音行列生成手段9aによる母音識別方法について説明する。
まず、母音行列生成手段9aは、データ変換手段7で変換された動作スペクトルグラフを読み込む(ステップS1)。続いて、母音行列生成手段9aは、予め保持されているフィルタ(所定周波数の周波数帯域を通すバンドパスフィルタ)Anを読み出す(ステップS2)。
そして、母音行列生成手段9aは、ピークが規定内(所定周波数の周波数帯域内)に存在するか否かを判定し(ステップS3)、ピークが規定内に存在すると判定しなかった場合(ステップS3、No)にフィルタAnのn(フィルタ番号)をn+1に変更し(ステップS4)、このnが6以上か否かを判定する(ステップS5)。
そして、母音行列生成手段9aは、nが6以上でない場合(ステップS5、No)、ステップS2に戻り、nが6以上の場合(ステップS5、Yes)、該当するフィルタAn無しとして、動作を終了する。また、母音行列生成手段9aは、ステップS3にてピークが規定内に存在すると判定した場合(ステップS3、Yes)、該当するフィルタAnのフィルタ番号を得る(ステップS6)。なお、ステップS5において、nを6以上としているのは、あくまでもスペクトル成分を分類する際の一例であり、nは任意数とすることができる。
そして、母音行列生成手段9aは、データ変換手段7で変換された動作スペクトルグラフの数だけ(すなわち、画像処理手段3で抽出した特徴点の数だけ)、同様の母音識別方法を用いて、フィルタ番号を得る。
そして、この母音行列生成手段9aでは、フィルタ番号を得ることで、特徴的なピークがどの周波数帯域で現出しているのかが判明することとなる。このとき、複数の発話者間において、ある程度、発話速度に個人差が生じているが、母音一語では、ほぼ同じ速度となるため、現出する特徴的なピークの平均値を取った場合、発話者それぞれの発話速度と当該平均値との差は小さい(ほとんどない)。すなわち、複数の発話者間における発話速度に関してグラフを求めると、標準偏差が小さいグラフとなる。このため、4つ又は5つの動作スペクトルグラフにおいて、特徴的なピークがどの位置に現出するかを測定することにより、母音の識別(推定)が可能となる。
このとき、口唇部分の上下左右端の4つの特徴点、又は、この4つの特徴点及び下顎部の特徴点を含めた5つの特徴点は、それぞれ独特の動きをするため、4つ又は5つの特徴点の動作履歴は発音される母音によって大きく異なることになる。この結果、これらの特徴点の動作履歴グラフを変換した動作スペクトルグラフは、発音される母音によって大きく異なることになる。
このため、この母音行列生成手段9aでは、4つ又は5つの動作スペクトルグラフを比較して、母音を識別する際に、特徴的なピークが現出する範囲を予め設定しておく必要があり、該当するスペクトル成分(特徴的なピークをとるスペクトル成分)が他のスペクトル成分に比べて、一定以上の強さを持っているか否かを判定基準としている。
例えば、5つの動作スペクトルグラフを比較する場合、「下顎部の特徴点の動作履歴グラフを変換した動作スペクトルグラフ及び下唇(口唇下部)の特徴点の動作履歴グラフを変換した動作スペクトルグラフにおいて、スペクトル成分(フィルタ番号)2−4近傍に強いスペクトルを持つ(2−4近傍に特徴的なピークが存在する)場合には母音と識別する」等の母音識別条件を予め設定しておいて、この母音行列生成手段9aでは、動作履歴グラフを比較することによって、母音の識別(推定)を行っている。
この場合、母音行列生成手段9aでは、母音識別条件としてさらに、「上唇(口唇上部)の特徴点の動作履歴グラフを変換した動作スペクトルグラフにおいて、スペクトル成分4−6に強いスペクトルを持つ(4−6に特徴的なピークが存在する)、且つ、左端及び右端の特徴点の動作履歴グラフを変換した動作スペクトルグラフにおいて、直流成分(フーリエ変換した場合のサイン波の周波数成分を指す)以外強いスペクトルはない(特徴的なピークは存在しない)場合には、母音「あ」とする」を設定しておき、これらをすべて満たした場合には、母音「あ」を識別結果として出力する。
言語テーブル記憶手段11は、言語テーブルを予め記憶してあるもので、一般的なハードディスク等によって構成されている。この言語テーブルは、発話内容識別手段9によって適宜読み出される。この実施形態では、日本語に関する言語テーブルが記憶されている。
ここで、図6を参照して、発話者が「上(うえ)」、「下(した)」、「左(ひだり)」、「右(みぎ)」と発話した際に、発話内容識別装置1によって識別された識別率について説明する。これら「上(うえ)」、「下(した)」、「左(ひだり)」及び「右(みぎ)」は、発話内容識別装置1をヒューマンインターフェースに採用する場合に、例えば、何らかの操作画面に表示されたカーソル移動に必要な単語である。
この図6に示したように、4つの特徴点(識別率(4点))と5つの特徴点(識別率(5点))とを比較した場合、「下(した)」以外の「上(うえ)」、「左(ひだり)」及び「右(みぎ)」は、5つの特徴点の方が、識別率は高くなっている。
そして、これらの単語が、発話者の口唇部分を撮影した映像から正確に識別されることで、発話内容識別装置1を用いると、騒音等の多い環境で音声によらず、或いは、キーボードやマウス等の操作手段(図示せず)を直接扱わずに、信頼性の高いヒューマンインターフェースを構築することが可能になる。図1に戻る。
個人識別手段13は、発話内容識別手段9で識別された発話内容と、予め登録しておいた、発話内容を発話者が発話する際の個人パターンとを照合することで、発話者の個人識別を行うものである。
個人パターンは、パスワードとして、発話者の個人差が大きく現出するように平常通り何らかの言葉を発し、この言葉を発した際の口唇部分の映像から得られた動作スペクトルグラフ(個人識別動作スペクトルグラフ)と当該パスワードとを対応付けたものである。つまり、この個人パターンは、口唇動作から得られる各単語を区切る際の時間の違い等の個人差を、個人識別動作スペクトルグラフとして反映させたものである。
この個人識別手段13は、発話内容識別手段9で識別された発話内容とパスワードとが一致し、且つ、データ変換手段7で変換された動作スペクトルグラフと個人パターンに対応付けられている動作スペクトルグラフとが一致する場合に、発話者の個人識別を行っている。
また、この個人識別手段13は、発話内容識別手段9で識別された発話内容とパスワードとが一致する場合と、データ変換手段7で変換された動作スペクトルグラフと個人パターンに対応付けられている動作スペクトルグラフとが一致する場合との少なくとも一方が成立した場合に、発話者の個人識別を行うこととすることもできる。
この場合、個人識別手段13では、発話者が発話した発話内容とパスワードとが一致する場合のみで個人識別を行うこともできる。ただし、Aさんの個人パターンに「開けドア」と登録されていて、Aさんが「開けドア」と発話又は別のBさんが「開けドア」と発話し、双方とも発話内容が「開けドア」と識別されれば、発話者Aさんと識別することになる。
また、個人識別手段13では、データ変換手段7で変換された動作スペクトルグラフと個人パターンに対応付けられている動作スペクトルグラフとが一致する場合のみで個人識別を行うこともできる。ただし、Aさんの個人パターンに「開けドア」と登録されていて、Aさんが「開けごま」と発話した場合であっても、動作スペクトルグラフが一致(いずれかの動作スペクトルグラフが一致)さえすれば、発話者Aさんと識別することになる。
個人パターン記憶手段15は、個人パターンを予め記憶してあるもので、一般的なハードディスク等によって構成されている。この個人パターンは、個人識別手段13によって適宜読み出される。この実施形態では、日本語に関する個人パターンが記憶されている。
この発話内容識別装置1によれば、母音行列生成手段9aによって、発話内容に含まれる単語を母音行列として生成し、発話内容識別手段9によって、予め特定ジャンルの単語を母音行列として登録しておいた言語テーブルと比較することで、発話内容を識別しており、言語テーブルに登録しておいた単語から、該当する単語を高精度に特定することができるので、口唇動作から発話内容を識別する際の識別誤差を小さくすることができる。
また、発話内容識別装置1によれば、画像処理手段3によって、上下左右端の少なくとも一点を特徴点として抽出することで、口唇部分の変化を正確に捉えることができるので、口唇動作から発話内容を識別する際の識別誤差を小さくすることができる。
さらに、発話内容識別装置1によれば、個人識別手段13によって、識別した発話内容と、予め登録しておいた、当該発話内容を発話者が発話する際の個人パターンとを照合することで、発話内容が一致し、且つ、当該発話内容が発せられた際の個人パターン、つまり、口唇動作から得られる各単語を区切る際の時間や個人差が一致すれば、口唇動作の特徴から個人を識別することができる。
そして、発話内容識別装置1によれば、個人パターンに個人識別動作スペクトルグラフを含むことで、当該個人識別動作スペクトルグラフから個人ごとの発話時の特徴を検出することができ、複数の発話者から個人の識別を行うことができる。
なお、発話内容識別装置1に入力される口唇部分の映像を撮影する撮影手段2に、通常の映像を出力すると共に、距離画像を出力するステレオカメラを用いてもよい。そして、画像処理手段3によって、口唇部分の奥行きの変位(Z軸方向の変位)を検出することで、発話時の正確な動作を抽出することができるので、口唇動作から発話内容を識別する際の識別誤差を小さくすることができる。
(発話内容識別装置の動作)
次に、図7に示すフローチャートを参照して、発話内容識別装置1の動作について説明する(適宜、図1参照)。
まず、発話内容識別装置1は、画像処理手段3によって、撮影手段2から入力された口唇部分の映像から特徴点を抽出する(ステップS11)。続いて、発話内容識別装置1は、動作測定手段5によって、画像処理手段3で抽出された特徴点の変化を、動作履歴(動作履歴グラフ)として測定する(ステップS12)。
そして、発話内容識別装置1は、データ変換手段7によって、動作測定手段5で測定された動作履歴グラフを数値解析し、動作スペクトルグラフに変換する(ステップS13)。そして、発話内容識別装置1は、母音行列生成手段9aによって、動作スペクトルグラフから母音を識別し、母音行列を得て、発話内容識別手段9によって、言語テーブル記憶手段11に記憶されている言語テーブルと照合することで、発話内容を識別する(ステップS14)。
さらに、発話内容識別装置1は、個人識別手段13によって、発話内容識別手段9で識別された発話内容及びデータ変換手段7で変換された動作スペクトルグラフと、個人パターン記憶手段15に記憶されている個人パターンとを照合することで、発話者個人を識別する(ステップS15)。
以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、発話内容識別装置1として説明したが、各構成の処理を実施可能にコンピュータ言語で記述した発話内容識別プログラム(又は個人識別プログラム)として構成することも可能である。
本発明の実施形態に係る発話内容識別システムのブロック図である。 口唇部分の特徴点の例を示した図である。 動作履歴グラフの例を示した図である。 動作スペクトルグラフの例を示した図である。 母音識別の手順を示したフローチャートである。 所定の単語について識別率の例を示した図である。 発話内容識別装置の動作を示したフローチャートである。
符号の説明
1 発話内容識別装置
2 撮影手段
3 画像処理手段
5 動作測定手段
7 データ変換手段
9 発話内容識別手段
9a 母音行列生成手段
11 言語テーブル記憶手段
13 個人識別手段
15 個人パターン記憶手段

Claims (7)

  1. 撮影手段で撮影された、発話者が発話している際の口唇部分の映像から当該発話者の口唇動作を得て、この口唇動作から発話内容を識別する発話内容識別装置であって、
    前記口唇部分の映像を構成する画像の画素値の差に基づいて、当該口唇部分における予め設定した特徴点の位置を抽出する画像処理手段と、
    この画像処理手段で抽出した特徴点の位置の変化を、前記口唇動作の履歴である動作履歴として測定する動作測定手段と、
    この動作測定手段で測定された動作履歴を、数値解析することで、予め設定した複数のスペクトル成分で表される動作スペクトルグラフに変換するデータ変換手段と、
    このデータ変換手段で変換された動作スペクトルグラフと、予め母音の動作スペクトルグラフとして保持されている母音サンプルデータとを照合し、発話された言語の母音を識別し、前記発話内容に含まれる単語を、母音行列として生成する母音行列生成手段と、
    この母音行列生成手段で生成された母音行列と、予め特定のジャンルの単語を母音行列として登録しておいた言語テーブルとを比較し、母音行列が一致した単語を検出することで、前記発話内容を識別する発話内容識別手段と、
    を備えることを特徴とする発話内容識別装置。
  2. 前記口唇部分の映像に、距離画像が含まれており、
    前記画像処理手段は、前記距離画像から前記口唇部分の奥行きの変位を検出することを特徴とする請求項1に記載の発話内容識別装置。
  3. 前記画像処理手段は、前記口唇部分の上下左右端の少なくとも一点を前記特徴点として抽出することを特徴とする請求項1又は2に記載の発話内容識別装置。
  4. 前記母音行列生成手段は、前記発話内容に含まれる単語を、当該単語を構成する母音の5音にそれぞれ対応した数値又は符号に置き換え、
    前記発話内容識別手段は、前記数値又は符号と前記動作スペクトルグラフとの関係を規定した言語テーブルを用いることを特徴とする請求項1乃至3に記載の発話内容識別装置。
  5. 撮影手段で撮影された、発話者が発話している際の口唇部分の映像から当該発話者の口唇動作を得て、この口唇動作の相違から個人を識別する個人識別装置であって、
    前記口唇部分の映像を構成する画像の画素値の差に基づいて、当該口唇部分における予め設定した特徴点の位置を抽出する画像処理手段と、
    この画像処理手段で抽出した特徴点の位置の変化を、前記口唇動作の履歴である動作履歴として測定する動作測定手段と、
    この動作測定手段で測定された動作履歴を、数値解析することで、予め設定した複数のスペクトル成分で表される動作スペクトルグラフに変換するデータ変換手段と、
    このデータ変換手段で変換された動作スペクトルグラフと、予め母音の動作スペクトルグラフとして保持されている母音サンプルデータとを照合し、発話された言語の母音を識別し、前記発話内容に含まれる単語を、母音行列として生成する母音行列生成手段と、
    この母音行列生成手段で生成された母音行列と、予め特定のジャンルの単語を母音行列として登録しておいた言語テーブルとを比較し、母音行列が一致した単語を検出することで、前記発話内容を識別する発話内容識別手段と、
    この発話内容識別手段で識別された発話内容及び前記データ変換手段で変換された動作スペクトルグラフと、予め発話内容をパスワードとして発話者が発話する際の動作スペクトルグラフと当該パスワードとを対応付けた個人パターンとを照合して、前記発話者の個人識別を行う個人識別手段と、
    を備えることを特徴とする個人識別装置。
  6. 前記個人パターンは、複数の発話者間にて異なる動作スペクトルグラフであり、複数の発話者を識別する際に用いる個人識別動作スペクトルグラフを含むことを特徴とする請求項5に記載の個人識別装置。
  7. 前記個人識別手段は、前記発話内容識別手段で識別された発話内容と前記パスワードとが一致する場合と、前記データ変換手段で変換された動作スペクトルグラフと前記個人パターンに対応付けられている動作スペクトルグラフとが一致する場合との少なくとも一方が成立した場合又は双方とも成立した場合のみに、前記発話者の個人識別を行うことを特徴とする請求項5又は6に記載の個人識別装置。
JP2007129363A 2007-05-15 2007-05-15 発話内容識別装置及び個人識別装置 Expired - Fee Related JP4849630B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007129363A JP4849630B2 (ja) 2007-05-15 2007-05-15 発話内容識別装置及び個人識別装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007129363A JP4849630B2 (ja) 2007-05-15 2007-05-15 発話内容識別装置及び個人識別装置

Publications (2)

Publication Number Publication Date
JP2008287340A JP2008287340A (ja) 2008-11-27
JP4849630B2 true JP4849630B2 (ja) 2012-01-11

Family

ID=40147026

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007129363A Expired - Fee Related JP4849630B2 (ja) 2007-05-15 2007-05-15 発話内容識別装置及び個人識別装置

Country Status (1)

Country Link
JP (1) JP4849630B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6258442B1 (ja) * 2016-10-28 2018-01-10 三菱電機インフォメーションシステムズ株式会社 動作特定装置、動作特定方法及び動作特定プログラム
CN111274846B (zh) * 2018-12-04 2023-09-19 北京嘀嘀无限科技发展有限公司 一种张闭动作识别的方法和系统
JP7140409B2 (ja) * 2020-12-22 2022-09-21 Necプラットフォームズ株式会社 認証装置、認証方法及びプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62239231A (ja) * 1986-04-10 1987-10-20 Kiyarii Rabo:Kk 口唇画像入力による音声認識方法
JPH06301393A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 音声区間検出装置及び音声認識装置
US5761329A (en) * 1995-12-15 1998-06-02 Chen; Tsuhan Method and apparatus employing audio and video data from an individual for authentication purposes
JP3112254B2 (ja) * 1997-03-04 2000-11-27 富士ゼロックス株式会社 音声検出装置
JP3688879B2 (ja) * 1998-01-30 2005-08-31 株式会社東芝 画像認識装置、画像認識方法及びその記録媒体
JP2000200098A (ja) * 1999-01-07 2000-07-18 Sony Corp 学習装置および学習方法、並びに認識装置および認識方法
JP2001167283A (ja) * 1999-12-10 2001-06-22 Yukinobu Kunihiro 顔面運動解析装置および顔面運動解析のためのプログラムを記憶した記憶媒体
JP2004240154A (ja) * 2003-02-06 2004-08-26 Hitachi Ltd 情報認識装置
CN100592749C (zh) * 2004-05-12 2010-02-24 吉峰贵司 会话支持系统与会话支持方法
JP2005353016A (ja) * 2004-06-09 2005-12-22 Cci:Kk 動画像の行動パターン識別の評価と方法
JP4553667B2 (ja) * 2004-09-10 2010-09-29 日本信号株式会社 発話識別方法及びこれを用いたパスワード照合装置
JP2005276230A (ja) * 2005-04-18 2005-10-06 Toshiba Corp 画像認識装置

Also Published As

Publication number Publication date
JP2008287340A (ja) 2008-11-27

Similar Documents

Publication Publication Date Title
EP3469582B1 (en) Neural network-based voiceprint information extraction method and apparatus
CN106503646B (zh) 多模态情感辨识系统及方法
US9672829B2 (en) Extracting and displaying key points of a video conference
Mariooryad et al. Compensating for speaker or lexical variabilities in speech for emotion recognition
US9047866B2 (en) System and method for identification of a speaker by phonograms of spontaneous oral speech and by using formant equalization using one vowel phoneme type
JP6654611B2 (ja) 成長型対話装置
JP6154155B2 (ja) プロミネンスを使用した音声対話システム
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
JP2019053126A (ja) 成長型対話装置
US10806393B2 (en) System and method for detection of cognitive and speech impairment based on temporal visual facial feature
JPS62239231A (ja) 口唇画像入力による音声認識方法
EP2879130A1 (en) Methods and systems for splitting a digital signal
JP2010256391A (ja) 音声情報処理装置
US20080004879A1 (en) Method for assessing learner's pronunciation through voice and image
CN107886968A (zh) 语音评测方法及系统
US8219386B2 (en) Arabic poetry meter identification system and method
JP2018180334A (ja) 感情認識装置、方法およびプログラム
CN112017633A (zh) 语音识别方法、装置、存储介质及电子设备
JP4849630B2 (ja) 発話内容識別装置及び個人識別装置
CN113327620A (zh) 声纹识别的方法和装置
CN115312030A (zh) 虚拟角色的显示控制方法、装置及电子设备
US20080120108A1 (en) Multi-space distribution for pattern recognition based on mixed continuous and discrete observations
JP2007316330A (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP2019152737A (ja) 話者推定方法および話者推定装置
US20220262363A1 (en) Speech processing device, speech processing method, and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100507

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110927

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111014

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141028

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees