JP2008310382A

JP2008310382A - 読唇装置および方法、情報処理装置および方法、検出装置および方法、プログラム、データ構造、並びに、記録媒体

Info

Publication number: JP2008310382A
Application number: JP2007154785A
Authority: JP
Inventors: Toyoshiro Nakajima; 豊四郎中島; Takeshi Miyazaki; 剛宮崎; Tanichi Ando; 丹一安藤; Shunji Ota; 俊二太田
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2007-06-12
Filing date: 2007-06-12
Publication date: 2008-12-25

Abstract

【課題】口の動きに基づいて正確に言葉を認識する。
【解決手段】類似度検出部１８１は、口形画像におけるユーザの口形と複数の種類の基本口形との類似度を検出する。口形期間検出部１９１は、類似度に基づいて、初口形が出現する初口形期間、および、終口形が出現する終口形期間を検出する。基本スコア算出部１９２は、各期間におけるユーザの口形と各基本口形との類似度を示す基本スコアを算出する。認識部１７２は、基本スコアを用いて、口形辞書に登録されている各語句が、ユーザが発した言葉である確率を示す認識スコアを算出する。本発明は、口の動きに基づいて言葉を認識する読唇装置に適用できる。
【選択図】図７

Description

本発明は、読唇装置および方法、情報処理装置および方法、検出装置および方法、プログラム、データ構造、並びに、記録媒体に関し、特に、口の動きに基づいて正確に言葉を認識できるようにした読唇装置および方法、情報処理装置および方法、検出装置および方法、プログラム、データ構造、並びに、記録媒体に関する。

近年、音声認識機能を搭載した電子機器の普及が進んでいる。しかし、騒音がひどい状況や声を出せない状況では、音声認識の認識率が低下したり、音声認識の利用が困難になるため、音声認識機能を補完したり、音声認識に代わる技術として、人の口の動きに基づいて言葉を認識する読唇技術の研究が進められている。

例えば、人の顔を撮影した画像（以下、顔画像と称する）に基づいて検出した唇の特徴から音節の区間を求め、求めた音節区間を元にDPマッチングのための整合窓を生成することにより、音声認識装置の認識精度を向上させることが提案されている（例えば、特許文献１参照）。

また、顔画像に基づいて、発声時に唇を一瞬閉じる動作を伴う音（以下、両唇音と称する）の個数、位置、または、両唇音の前後の口形を検出し、検出結果に基づいて候補となる単語を絞り込むことにより、音声認識装置の認識精度を上げることが提案されている（例えば、特許文献２参照）。

さらに、顔画像の中の上唇と下唇の動きを追跡し、追跡した動きと、予め登録されているパターンとのマッチングを行うことにより、人が発した言葉を認識することが提案されている（例えば、特許文献３参照）。

また、顔画像に基づいて、口の開き具合の時間的変化を検出し、口の開き具合の時間的変化を波形で表した場合の谷の部分の種別を識別したり、口の開き具合の時間的変化の波形から求めた各音節における母音部分の口の開きと、候補となる単語の各音節の母音から想定される口の開きとのマッチングを取ることにより、人が発した言葉を認識することが提案されている（例えば、特許文献４参照）。

特開平９−１９８０８２号公報特許第３７１０２０５号公報特開平１０−９１７８９号公報特開平１１−１４９２９６号公報

特許文献１乃至４に記載の手法を用いることにより、口の動きに基づいてある程度言葉の認識率を向上させることができるが、音声認識機能の補完技術または代替技術への要求が高まっている近年においては、口の動きに基づいて言葉を認識するための別の手法の提案が望まれている。

本発明は、このような状況に鑑みてなされたものであり、口の動きに基づいて正確に言葉を認識できるようにするものである。

本発明の第１の側面の読唇装置は、口の動きに基づいて言葉を認識する読唇装置であって、話者の口形を示す口形情報に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形、および、１つの音を発し終える際に形作られる口形である第２の口形を検出する第１の口形検出手段と、検出された第１の口形および第２の口形に基づいて、話者が発した言葉を認識する認識手段とを備える。

本発明の第１の側面の読唇装置においては、話者の口形を示す口形情報に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形、および、１つの音を発し終える際に形作られる口形である第２の口形が検出され、検出された第１の口形および第２の口形に基づいて、話者が発した言葉が認識される。

従って、口の動きに基づいて正確に言葉を認識することができる。

この第１の口形検出手段、認識手段は、例えば、CPU（Central Processing Unit）により構成される。

この口形情報は、例えば、話者の口を含む画像、話者の顔に照射された可視光、赤外線、紫外線、電波やX線などの電磁波、もしくは、超音波など音波の反射波、話者の顔の熱により発せられる赤外線を検出する赤外線画像センサにより検出された画像、または、静電容量センサや近距離レーダなどの物体センサにより検出された話者の口形の情報などにより構成される。

この第１の口形および第２の口形は、言葉の中の各音を発するために形作られる口形を分類した複数の種類の口形である基本口形のうちのいずれかであるようにすることができる。

これにより、第１の口形および第２の口形をより正確に検出することができる。

この基本口形は、母音を発するときに形作られる母音口形、および、唇を閉じた状態の閉唇口形を含むようにすることができる。

これにより、少ない種類の基本口形で、言葉を認識することができる。

この第１の口形検出手段には、口形情報に示される口形と基本口形との類似度を検出する類似度検出手段と、類似度に基づいて、第１の口形および第２の口形を検出する第２の口形検出手段とを設けることができる。

これにより、類似度に基づいて、正確に言葉を認識することができる。

この類似度検出手段、第２の口形検出手段は、例えば、CPU（Central Processing Unit）により構成される。

この第２の口形検出手段には、類似度の時系列の変化に基づいて、第１の口形が現れる第１の口形期間および第２の口形が現れる第２の口形期間を検出する口形期間検出手段と、第１の口形期間および第２の口形期間における類似度に基づいて、第１の口形および第２の口形を検出する第３の口形検出手段とを設けることができる。

これにより、第１の口形期間および第２の口形期間における類似度に基づいて、正確に言葉を認識することができる。

この口形期間検出手段、第３の口形検出手段は、例えば、CPU（Central Processing Unit）により構成される。

この認識手段には、検出された第１の口形および第２の口形の種類の並びに基づいて、話者が発した言葉を認識させることができる。

これにより、第１の口形および第２の口形の種類の並びに基づいて、正確かつ簡単に言葉を認識することができる。

この認識手段には、認識する対象となる語句と語句を発する場合に現れる第１の口形および第２の口形の種類を出現する順番に並べた口形パターンデータとが関連づけられている辞書に登録されている口形パターンデータと、検出された第１の口形および第２の口形の種類の並びとの類似度に基づいて、語句の中から話者が発した言葉を認識させることができる。

これにより、辞書に登録されている語句の中から話者が発した言葉を正確に認識することができる。

この読唇装置には、辞書に語句を登録する場合、登録する語句が発せられたときに第１の口形検出手段により検出された第１の口形および第２の口形の種類の並びを語句に対応する口形パターンデータとして辞書に登録する登録手段をさらに設けることができる。

これにより、各個人に応じた辞書を生成することができ、より正確に言葉を認識することができる。また、所望の語句に対応する口形パターンデータを簡単に辞書に登録することができる。

この登録手段は、例えば、CPU（Central Processing Unit）により構成される。

この読唇装置には、入力された語句の読みから口形パターンデータを生成し、生成した口形パターンデータを入力された語句に対応する口形パターンデータとして辞書に登録する登録手段をさらに設けることができる。

この読唇装置には、すでに同じ口形パターンデータが辞書に登録されている場合、登録する語句の変更を指示する情報を出力する出力手段をさらに設けることができる。

これにより、口形パターンデータの重複を避けつつ、必要な語句を確実に辞書に登録することができる。

この出力手段は、例えば、ディスプレイ、スピーカなどにより構成される。

この口形情報は、話者の口を含む画像とすることができる。

これにより、話者の口を含む画像に基づいて、正確に言葉を認識することができる。

この第１の口形検出手段には、複数の話者の口を含む画像に基づいて、複数の話者の第１の口形および第２の口形をそれぞれ検出させ、この認識手段には、複数の話者の第１の口形および第２の口形に基づいて、複数の話者が発した言葉をそれぞれ認識させることができる。

これにより、複数の話者が同時に発した言葉を正確に認識することができる。

本発明の第１の側面の読唇方法またはプログラムは、話者の口形を示す口形情報に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形、および、１つの音を発し終える際に形作られる口形である第２の口形を検出する口形検出ステップと、検出された第１の口形および第２の口形に基づいて、話者が発した言葉を認識する認識ステップとを含む。

本発明の第１の側面の読唇方法またはプログラムにおいては、話者の口形を示す口形情報に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形、および、１つの音を発し終える際に形作られる口形である第２の口形が検出され、検出された第１の口形および第２の口形に基づいて、話者が発した言葉が認識される。

この口形検出ステップは、例えば、話者の口形を示す口形情報に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形、および、１つの音を発し終える際に形作られる口形である第２の口形をCPUにより検出する口形検出ステップにより構成され、この認識ステップは、例えば、検出された第１の口形および第２の口形に基づいて、話者が発した言葉をCPUにより認識する認識ステップにより構成される。

本発明の第２の側面の情報処理装置は、話者の口形を示す口形情報に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形、および、１つの音を発し終える際に形作られる口形である第２の口形を検出する口形検出手段を備える。

本発明の第２の側面の情報処理装置においては、話者の口形を示す口形情報に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形、および、１つの音を発し終える際に形作られる口形である第２の口形が検出される。

従って、第１の口形と第２の口形を検出することができ、その結果、第１の口形と第２の口形の検出結果を用いて、口の動きに基づいて正確に言葉を認識できるようになる。

この口形検出手段は、例えば、CPUにより構成される。

本発明の第２の側面の情報処理方法またはプログラムは、話者の口形を示す口形情報に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形、および、１つの音を発し終える際に形作られる口形である第２の口形を検出する口形検出ステップを含む。

本発明の第２の側面の情報処理方法またはプログラムにおいては、話者の口形を示す口形情報に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形、および、１つの音を発し終える際に形作られる口形である第２の口形が検出される。

この口形検出ステップは、例えば、話者の口形を示す口形情報に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形、および、１つの音を発し終える際に形作られる口形である第２の口形をCPUにより検出する口形検出ステップにより構成される。

本発明の第３の側面の情報処理装置は、話者の口形と、言葉の中の各音を発するために形作られる口形を分類した複数の種類の口形である基本口形との類似度を検出する類似度検出手段と、類似度の時系列の変化に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形が現れる第１の口形期間、および、１つの音を発し終える際に形作られる口形である第２の口形が現れる第２の口形期間を検出する口形期間検出手段と、類似度に基づいて、それぞれの第１の口形期間および第２の口形期間における話者の口形と基本口形との類似度を示す基本スコアを算出する算出手段とを備える。

本発明の第３の側面の情報処理装置においては、話者の口形と、言葉の中の各音を発するために形作られる口形を分類した複数の種類の口形である基本口形との類似度が検出され、類似度の時系列の変化に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形が現れる第１の口形期間、および、１つの音を発し終える際に形作られる口形である第２の口形が現れる第２の口形期間が検出され、類似度に基づいて、それぞれの第１の口形期間および第２の口形期間における話者の口形と基本口形との類似度を示す基本スコアが算出される。

従って、それぞれの第１の口形期間および第２の口形期間における話者の口形と基本口形との類似度を示す基本スコアを算出することができ、その結果、算出された基本スコアを用いて、口の動きに基づいて正確に言葉を認識できるようになる。

この類似度検出手段、口形期間検出手段、算出手段は、例えば、CPUにより構成される。

本発明の第３の情報処理方法またはプログラムは、話者の口形と、言葉の中の各音を発するために形作られる口形を分類した複数の種類の口形である基本口形との類似度を検出する類似度検出ステップと、類似度の時系列の変化に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形が現れる第１の口形期間、および、１つの音を発し終える際に形作られる口形である第２の口形が現れる第２の口形期間を検出する口形期間検出ステップと、類似度に基づいて、それぞれの第１の口形期間および第２の口形期間における話者の口形と基本口形との類似度を示す基本スコアを算出する算出ステップとを含む。

本発明の第３の情報処理方法またはプログラムにおいては、話者の口形と、言葉の中の各音を発するために形作られる口形を分類した複数の種類の口形である基本口形との類似度が検出され、類似度の時系列の変化に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形が現れる第１の口形期間、および、１つの音を発し終える際に形作られる口形である第２の口形が現れる第２の口形期間が検出され、類似度に基づいて、それぞれの第１の口形期間および第２の口形期間における話者の口形と基本口形との類似度を示す基本スコアが算出される。

この類似度検出ステップは、例えば、話者の口形と、言葉の中の各音を発するために形作られる口形を分類した複数の種類の口形である基本口形との類似度をCPUにより検出する類似度検出ステップにより構成され、この口形期間検出ステップは、例えば、類似度の時系列の変化に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形が現れる第１の口形期間、および、１つの音を発し終える際に形作られる口形である第２の口形が現れる第２の口形期間をCPUにより検出する口形期間検出ステップにより構成され、この算出ステップは、例えば、類似度に基づいて、それぞれの第１の口形期間および第２の口形期間における話者の口形と基本口形との類似度を示す基本スコアをCPUにより算出する算出ステップにより構成される。

本発明の第４の側面の検出装置は、話者が言葉を発している期間である発話期間を検出する検出装置であって、話者の口形と、言葉の中の各音を発するために形作られる口形を分類した複数の種類の口形である基本口形との類似度を検出する類似度検出手段と、類似度の時系列の変化に基づいて、発話期間を検出する発話期間検出手段とを備える。

本発明の第４の側面の検出装置においては、話者の口形と、言葉の中の各音を発するために形作られる口形を分類した複数の種類の口形である基本口形との類似度が検出され、類似度の時系列の変化に基づいて、発話期間が検出される。

従って、発話期間を正確に検出することができ、その結果、検出された発話期間を用いて、口の動きに基づいて正確に言葉を認識できるようになる。

この類似度検出手段、発話期間検出手段は、例えば、CPUにより構成される。

この基本口形は、母音を発するときに形作られる母音口形、および、唇を閉じた状態の閉唇口形を含み、この発話期間検出手段には、閉唇口形に対する類似度が最大となり、かつ、全ての基本口形に対する類似度の変化が所定の閾値以下となる期間を除く期間を発話期間として検出させることができる。

これにより、少ない種類の基本口形で、発話期間を検出することができる。

本発明の第４の側面の検出方法またはプログラムは、話者の口形と、言葉の中の各音を発するために形作られる口形を分類した複数の種類の口形である基本口形との類似度を検出する類似度検出ステップと、類似度の時系列の変化に基づいて、発話期間を検出する発話期間検出ステップとを含む。

本発明の第４の側面の検出方法またはプログラムにおいては、話者の口形と、言葉の中の各音を発するために形作られる口形を分類した複数の種類の口形である基本口形との類似度が検出され、類似度の時系列の変化に基づいて、発話期間が検出される。

この類似度検出ステップは、例えば、話者の口形と、言葉の中の各音を発するために形作られる口形を分類した複数の種類の口形である基本口形との類似度をCPUにより検出する類似度検出ステップにより構成され、この発話期間検出ステップは、例えば、類似度の時系列の変化に基づいて、発話期間をCPUにより検出する発話期間検出ステップにより構成される。

本発明の第５の側面のデータ構造、または、記録媒体に記録されているデータが有するデータ構造は、認識する対象となる語句と、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形、および、１つの音を発し終える際に形作られる口形である第２の口形の種類を、語句を発する場合に現れる順番に並べた口形パターンデータとが関連づけられている。

従って、認識する対象となる語句と口形パターンデータを関連づけたデータを提供することができ、その結果、認識する対象となる語句と口形パターンデータを関連づけたデータを用いて、口の動きに基づいて正確に言葉を認識できるようになる。

以上のように、本発明の第１の側面によれば、話者が発した言葉を認識することができる。特に、本発明の第１の側面によれば、口の動きに基づいて正確に言葉を認識することができる。

本発明の第２の側面によれば、第１の口形と第２の口形を検出することができ、その結果、第１の口形と第２の口形の検出結果を用いて、口の動きに基づいて正確に言葉を認識できるようになる。

本発明の第３の側面によれば、第１の口形が現れる第１の口形期間および第２の口形が現れる第２の口形期間を検出することができる。特に、本発明の第３の側面によれば、それぞれの第１の口形期間および第２の口形期間における話者の口形と基本口形との類似度を示す基本スコアを算出することができ、その結果、算出された基本スコアを用いて、口の動きに基づいて正確に言葉を認識できるようになる。

本発明の第４の側面によれば、発話期間を正確に検出することができ、その結果、検出された発話期間を用いて、口の動きに基づいて正確に言葉を認識できるようになる。

本発明の第５の側面によれば、認識する対象となる語句と口形パターンデータを関連づけたデータを提供することができ、その結果、認識する対象となる語句と口形パターンデータを関連づけたデータを用いて、口の動きに基づいて正確に言葉を認識できるようになる。

以下、図を参照して、本発明の実施の形態について説明する。

まず、本発明の実施の形態において用いられる読唇手法、および、本明細書で用いるいくつかの用語について説明する。

なお、以下、「発話する」「発音する」「発声する」「言葉を発する」「話す」など言葉を声に出す動作を表す用語を用いる場合、特に断りがない限り、声を出さずに、声を出す場合と同様に口を動かす動作も含むものとする。

人が言葉を話すとき、それぞれの言葉に応じて所定の口の形を形作って発声することで、それぞれの言葉に対応し、他の人が認識できる音声が発せられる。また、人が同じ言葉を話すときには、同じ音が発せられるように、その都度類似した口の動きをする。従って、同じ人が同じ言葉を話すときには、非常に類似した口の動きとなる。また、異なる人が同じ言語の同じ言葉を話すときも、類似度の高い口の動きとなる。

“基本口形”とは、人が言葉を話すときに、言葉の中の各音を発するために形作られる口形であり、発せられる音または口形の特徴などに応じて、複数の種類に分類される。従って、人が話す言葉に含まれる各音を発音するとき、人の口の形は、発音する音の種類に応じて、基本口形の中のいずれかの口形となる。そして、ある基本口形から別の基本口形へと口形の変化が繰り返され、その口形の変化に合わせて発声が行われることで言葉が発せられる。

基本口形は以下の特徴を有する。

特徴１．同じ基本口形でも、発音される音が異なるものがある。換言すれば、複数の種類の音に対応する基本口形が存在する。

特徴２．基本口形のうち母音に対応する口形が形作られていても、必ずしもその口形に対応する母音が発音されているとは限らない。

特徴３．日本語の場合、ア、イ、ウ、エ、オの５つの母音を発するときに形作られる口形（以下、母音口形と称する）、および、唇を閉じた状態の口形（以下、閉唇口形と称する）の合計６種類に基本口形を分類することができる。なお、以下、５種類の母音口形を、それぞれ、対応する母音ごとに、ア口形、イ口形、ウ口形、エ口形、オ口形と称する。

また、日本語の各音は、単口形音と複口形音に分類される。

“単口形音”とは、発音するときの口形が、初口形を含まず、終口形のみで構成される音である。単口形音を発音する場合、例えば、図１の単口形音の発音期間Ｓｕ１のほとんどの期間Ｐｅ１において、単口形音の母音に対応する終口形が現れる。

また、“複口形音”とは、発音するときの口形に初口形と終口形が含まれる音である。複口形音を発音する場合、例えば、図２の複口形音の発音期間Ｓｕ１１の前半の期間Ｐｂ１１において、その音の母音に対応する基本口形とは異なる初口形が現れた後、期間Ｐｅ１１において、その音の母音に対応する終口形が現れる。

ここで、“初口形”とは、話者が言葉の中の１つの音を発音するとき、その音を発音するために予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である。

また、“終口形”とは、話者が言葉の中の１つの音を発音するとき、その音を発し終える際に形作られる口形である。

なお、日本語以外にも、日本語と同様に単口形音と複口形音に各音が分類される言語が多く存在する。すなわち、日本語以外にも、話者が言葉の中の１つの音を発音しようとしたとき、その音の母音とは異なる口形、すなわち、初口形を形作る必要がある音を有する言語が数多く存在する。

なお、以下、初口形が出現する期間を初口形期間と称し、終口形が出現する期間を終口形期間と称する。すなわち、図２の期間Ｐｂ１１が初口形期間に相当し、図１の期間Ｐｅ１および図２の期間Ｐｅ１１が終口形期間に相当する。

図３は、促音（ッ）および撥音（ン）を除く日本語の各音を単独で発音した場合に出現する基本口形のパターン（以下、口形パターンと称する）をまとめた表である。表内の各欄の上段には、各音が平仮名で示されており、下段には、各音に対応する口形パターンが示されている。

図３に示されるように、口形パターンは、小文字のアルファベットと大文字のアルファベットによる記号（以下、口形記号と称する）により表される。小文字のアルファベットは初口形の種類を表し、大文字のアルファベットは終口形の種類を表す。具体的には、小文字のｉは初口形がイ口形であることを示し、小文字のuは初口形がウ口形であることを示し、小文字のxは初口形が閉唇口形であることを示す。また、大文字のAは終口形がア口形であることを示し、大文字のIは終口形がイ口形であることを示し、大文字のUは終口形がウ口形であることを示し、大文字のEは終口形がエ口形であることを示し、大文字のOは終口形がオ口形であることを示す。

例えば、「あ」の口形パターンの欄には大文字の「A」が示されており、「あ」の口形パターンは、初口形がなく、終口形がア口形であることが分かる。また、例えば、「ど」の口形パターンの欄には「uO」が示されており、「ど」の口形パターンは、初口形がウ口形、かつ、終口形がオ口形であることが分かる。

なお、図３の複口形音の列に含まれる欄のうち斜線で示される欄の音は、単口形音となる。

ここで、図３を参照しながら、日本語における初口形と終口形の特徴について説明する。

日本語における初口形の特徴は以下のとおりである。

特徴１．初口形は、イ口形、ウ口形、閉唇口形のいずれかである。

特徴２．必ずしも全ての音に初口形が必要というわけではない。換言すれば、発音時に初口形が現れない音がある。具体的には、ア行，カ行，ハ行，ガ行の音は初口形を必要としない。また、サ行、タ行、ナ行、ラ行、ザ行、および、ダ行のイ段の音は初口形を必要としない。さらに、サ行、タ行、ナ行、ヤ行、ラ行、ザ行、ダ行、キャ行、シャ行、チャ行、ニャ行、ヒャ行、リャ行、ギャ行、および、ジャ行のウ段の音は初口形を必要としない。

特徴３．サ行、タ行、ナ行、ヤ行、ラ行、ザ行、ダ行、キャ行、シャ行、チャ行、ニャ行、ヒャ行、リャ行、ギャ行、および、ジャ行のア段の音、サ行、タ行、ナ行、ラ行、ザ行、ダ行、キャ行、シャ行、チャ行、ニャ行、ヒャ行、リャ行、ギャ行、および、ジャ行のエ段の音の初口形はイ口形となる。

特徴４．サ行、タ行、ナ行、ヤ行、ラ行、ザ行、ダ行、キャ行、シャ行、チャ行、ニャ行、ヒャ行、リャ行、ギャ行、および、ジャ行のオ段の音、ワ行のア段およびオ段の音、並びに、ウァ行およびファ行のア段、イ段、エ段およびオ段の音の初口形はウ口形となる。

特徴５．マ行、バ行、パ行、ミャ行、ビャ行、および、ピャ行の全ての音の初口形は閉唇口形となる。

特徴６．単独で発音する場合に初口形が必要な音でも、他の音と続けて発音する場合には、直前の音との関係により初口形が不要となる場合がある。換言すれば、単独で発音する場合に初口形が現れる音でも、他の音と続けて発音する場合には、直前の音との関係により初口形が現れなくなる場合がある。より具体的には、イ段の音の後のイ口形の初口形、ウ段の音の後のウ口形の初口形、および、閉唇により発音された音の後の閉唇口形の初口形は不要となる。

特徴７．地方の方言においては、初口形が上記と異なる特徴を持つことがある。

なお、以上では、日本語における初口形の特徴を示したが、言語の種類によっては、初口形の特徴が日本語と相違する場合がある。

日本語における終口形の特徴は以下のとおりである。

特徴１．終口形はすべての音で形作られる。換言すれば、全ての音の発音時に必ず終口形が現れる。

特徴２．撥音および促音以外の音の終口形は、その音の母音に対応する母音口形となる。

特徴３．撥音または促音の終口形は、イ口形、ウ口形、閉唇口形のいずれかになる。

特徴４．長音の終口形は、その前の音の終口形と同じ口形になる。

なお、以下、単語や文章などを発音した場合に現れる口形を、口形パターンを用いて表現したデータを口形パターンデータと称する。すなわち、口形パターンデータは、単語や文章などを発音した場合に現れる初口形および終口形の種類の並びを示すデータである。

ところで、日本語においては、複数の音を連続して発音した場合、前または後の音の影響により、以下のルールに基づいて口形が変化する。

ルール１．初口形が１つ前の音の終口形と同じ場合、その初口形は、１つ前の音の終口形に吸収され、出現しない。このルールは、上述した日本語の初口形の特徴６に基づくものである。

例えば、「イセ」と発音する場合、イの口形パターンは「I」、セの口形パターンは「iE」であり、イの終口形とセの初口形は同じイ口形である。従って、ルール１に従い、セの初口形はイの終口形に吸収され、出現しないため、「イセ」の口形パターンデータは、「IiE」ではなく、「IE」となる。

ルール２．促音または撥音が、初口形が閉唇口形となる音の前に来る場合、その促音または撥音を発音するときの口形は閉唇口形となり、その後の閉唇口形の初口形は出現しなくなる。

例えば、「コップ」のプの前のッ、「サンマ」のマの前のンを発音するときの口形は、ルール２に従い、閉唇口形となる。

ルール３．促音または撥音が、ア段またはエ段の音の後に来る場合、その促音または撥音を発音するときの口形はイ口形となる。ただし、ルール２がルール３より優先される。

例えば、「バット」のバの後のッを発音するときの口形、および、「エンド」のエの後のンを発音するときの口形は、ルール３に従い、イ口形となる。

ルール４．促音または撥音が、オ段の音の後に来る場合、その促音または撥音を発音するときの口形はウ口形となる。ただし、ルール２がルール４より優先される。

例えば、「ヨット」のヨの後のッを発音するときの口形、および、「ロンリ」のロの後のンを発音するときの口形は、ルール４に従い、ウ口形となる。

ルール５．促音または撥音が、イ段またはウ段の音の後に来る場合、その促音または撥音を発音するときの口形は、前の音の終口形と同じ口形となる。すなわち、その促音または撥音を発音するときの口形は、前の音の終口形に吸収される。ただし、ルール２がルール５より優先される。

例えば、「キンシ」のキの後のンを発音するときの口形は、ルール５に従い、キの終口形と同じイ口形となり、「ズット」のズの後のッを発音する場合の口形は、ルール５に従い、ズの終口形と同じウ口形となる。

このように、初口形および終口形は、人が発した言葉を構成する各音に応じて、一定の法則に従って現れるため、人が発した言葉を認識するために非常に有効な情報となる。

なお、以下、口形パターンデータにおける音節、すなわち、口形に基づく音節を口形音節と称する。口形音節は、終口形と次に続く初口形または終口形との間で分割され、音声に基づく音節とは異なる。例えば、「交通（こうつう）」と発音した場合、音声による音節数は４である。一方、「こうつう」の「うつう」の部分においては、初口形が出現せず、ウ口形の終口形が連続し、口形が変化しない。従って、「交通」の口形パターンデータは「OU」となり、口形音節数は２となる。

次に、本発明を適用した読唇システムについて説明する。図４は、本発明を適用した読唇システム１０１の一実施の形態を示すブロック図である。読唇システム１０１は、上述した人が言葉を話すときの口の動きの特徴を利用して、言葉を認識する読唇処理を行うシステムである。読唇システム１０１は、画像取得部１１１、読唇処理部１１２、認識結果出力部１１３、登録データ入力部１１４、口形辞書管理部１１５、および、登録情報表示部１１６を含むように構成される。

画像取得部１１１は、撮影部１３１および画像入力部１３２を含むように構成され、人の顔を撮影し、撮影した画像（以下、顔画像と称する）を読唇処理部１１２に供給する。

画像取得部１１１の構成要素のうち、撮影部１３１は、カメラなどにより構成される。撮影部１３１は、人の顔を撮影し、撮影した顔画像をフレーム毎に画像入力部１３２に供給する。

画像入力部１３２は、必要に応じて、顔画像に画像処理を施す。画像入力部１３２は、顔画像を読唇処理部１１２の口検出部１４１に供給する。

読唇処理部１１２は、口検出部１４１、基本口形データ生成部１４２、基本口形データ登録部１４３、基本口形データ記憶部１４４、および、認識処理部１４５を含むように構成され、顔画像における人の口の動きに基づいて言葉を認識する。

読唇処理部１１２の構成要素のうち、口検出部１４１は、顔画像における人の口の位置を検出する。口検出部１４１は、人の口を含む所定の領域の画像を顔画像から抽出し、抽出した画像（以下、口形画像と称する）を、基本口形データ生成部１４２または認識処理部１４５に供給する。

基本口形データ生成部１４２は、基本口形データを生成し、生成した基本口形データを基本口形データ登録部１４３に供給する。また、基本口形データ生成部１４２は、図示せぬ外部の出力装置等を用いて、基本口形データを生成するときのガイダンスを行う。

図５は、基本口形データのデータ構造の一例を示す図である。基本口形データの各レコードは、インデックス（index）、基本口形、および、基本口形画像のフィールドを含むように構成される。

インデックスのフィールドには、基本口形データの各レコードを識別するための番号が設定される。具体的には、ア口形のレコードのインデックスには０が設定され、イ口形のレコードのインデックスには１が設定され、ウ口形のレコードのインデックスには２が設定され、エ口形のレコードのインデックスには３が設定され、オ口形のレコードのインデックスには４が設定され、閉唇口形のレコードのインデックスには５が設定される。

基本口形のフィールドには、基本口形の種類を示す記号が設定される。具体的には、ア口形のレコードの基本口形にはＡが設定され、イ口形のレコードの基本口形にはIが設定され、ウ口形のレコードの基本口形にはUが設定され、エ口形のレコードの基本口形にはEが設定され、オ口形のレコードの基本口形にはOが設定され、閉唇口形のレコードの基本口形にはXが設定される。

基本口形画像のフィールドは、人の口の形が基本口形になっているときの口形画像である基本口形画像が登録される。図５において、画像ＢＰａはア口形の基本口形画像であり、画像ＢＰｉはイ口形の基本口形画像であり、画像ＢＰｕはウ口形の基本口形画像であり、画像ＢＰｅはエ口形の基本口形画像であり、画像ＢＰｏはオ口形の基本口形画像であり、画像ＢＰｘは閉唇口形の基本口形画像である。

なお、複数のユーザを対象に読唇処理を行う場合、各ユーザの基本口形画像が登録された基本口形データが、ユーザごとに生成される。

基本口形データ登録部１４３は、基本口形データを基本口形データ記憶部１４４に記憶させる。

認識処理部１４５は、図１２などを参照して後述するように、口形画像、基本口形データ、および、口形辞書記憶部１５３に記憶されている口形辞書に基づいて、人が発した言葉を認識する。認識処理部１４５は、認識結果を示す情報を認識結果出力部１１３、または、口形パターンデータ生成部１５１に供給する。

認識結果出力部１１３は、図２５などを参照して後述するように、認識処理部１４５による認識結果を後段の装置に出力する。

登録データ入力部１１４は、外部から入力される、口形辞書に登録する語句およびその読みを含む登録データを取得する。登録データ入力部１１４は、取得した登録データを口形辞書管理部１１５の口形パターンデータ生成部１５１および口形辞書登録部１５２に供給する。

口形パターンデータ生成部１５１は、図１０および図２９を参照して後述するように、登録データの読み、または、認識処理部１４５による認識結果に基づいて、口形辞書に登録する語句に対応する口形パターンデータを生成する。口形パターンデータ生成部１５１は、生成した口形パターンデータを口形辞書登録部１５２に供給する。

口形辞書登録部１５２は、図１０および図２９を参照して後述するように、口形辞書記憶部１５３に記憶されている口形辞書へのデータの登録を行う。また、口形辞書登録部１５２は、口形辞書に登録した内容を示す登録情報を登録情報表示部１１６に供給する。

図６は、口形辞書のデータ構造の一例を示す図である。口形辞書の各レコードは、インデックス（index）、語句、読み、および、口形パターンデータのフィールドを含むように構成される。

インデックスのフィールドは、口形辞書の各レコードを識別するための番号が設定される。

語句のフィールドには、読唇システム１０１において認識する対象となる語句が登録される。

読みのフィールドには、同じレコードの語句に対する読みが登録される。

口形パターンデータのフィールドには、同じレコードの語句に対応する口形パターンデータが登録される。

すなわち、口形辞書の各レコードには、インデックス、認識する対象となる語句、その語句の読み、および、その語句に対応する口形パターンデータが関連づけられて登録されている。

なお、図１０または図２９を参照して後述する処理により、ユーザが口形辞書のデータを全て登録するようにしてもよいし、あるいは、出荷時などに予めいくつかのデータを口形辞書に登録しておき、必要に応じてユーザがデータを追加するようにしてもよい。

登録情報表示部１１６は、例えば、ディスプレイなどにより構成され、口形辞書への登録情報を表示する。

図７は、図４の認識処理部１４５の機能的構成を示すブロック図である。

認識処理部１４５は、検出部１７１および認識部１７２を含むように構成される。

検出部１７１は、類似度検出部１８１および口形検出部１８２を含むように構成され、口形画像に基づいて、発話中に現れる初口形および終口形を検出する。

検出部１７１の構成要素のうち、類似度検出部１８１は、図１３などを参照して後述するように、口形画像の各フレームにおける人の口形と各基本口形との類似度を検出する。類似度検出部１８１は、検出した類似度を示す情報を口形検出部１８２に供給する。

口形検出部１８２は、口形期間検出部１９１および基本スコア算出部１９２を含むように構成され、類似度に基づいて、発話中に現れる初口形および終口形を検出する。

口形検出部１８２の構成要素のうち、口形期間検出部１９１は、図１５などを参照して後述するように、類似度に基づいて、口形画像の各フレームのうち、人が話し始めたフレーム（以下、発話開始フレームと称する）、および、人が話し終えたフレーム（以下、発話終了フレームと称する）を検出する。また、口形期間検出部１９１は、図１７などを参照して後述するように、類似度の時系列の変化に基づいて、発話開始フレームと発話終了フレームの間の期間（以下、発話期間と称する）において、初口形が現れる初口形期間、および、終口形が現れる終口形出現期間を検出する。さらに、口形期間検出部１９１は、図１７などを参照して後述するように、口形画像の初口形期間内のフレームのうち、実際に初口形が出現した可能性が高いフレーム（以下、初口形出現フレームと称する）を検出する。口形期間検出部１９１は、類似度、初口形期間、初口形出現フレーム、および、終口形期間を示す情報を、基本スコア算出部１９２に供給する。

基本スコア算出部１９２は、初口形期間および終口形期間における類似度に基づいて、発話中に現れる初口形および終口形を検出する。より具体的には、基本スコア算出部１９２は、図１２などを参照して後述するように、各初口形期間および終口形期間における人の口形と各基本口形との類似度を示す基本スコアを算出する。基本スコア算出部１９２は、算出した基本スコアを示す情報を認識部１７２に供給する。

認識部１７２は、発話中に現れる初口形および終口形に基づいて、人が発した言葉を認識する。より具体的には、認識部１７２は、図１２を参照して後述するように、基本スコアに基づいて、口形辞書に登録されている各語句の中から人が発した言葉を認識する。認識部１７２は、認識結果を示す情報を認識結果出力部１１３に供給する。

次に、図８乃至図２９を参照して、読唇システム１０１の処理について説明する。

まず、図８のフローチャートを参照して、読唇システム１０１により実行される基本口形データ登録処理について説明する。なお、この処理は、例えば、ユーザが、読唇システム１０１の図示せぬ操作部を介して、基本口形データ登録処理の開始の指令を入力したとき開始される。

ステップＳ１において、基本口形データ生成部１４２は、ユーザに口の形を指示する。具体的には、基本口形データ生成部１４２は、６種類の基本口形のうち、まだ基本口形画像を生成していない基本口形を１つ選択する。基本口形データ生成部１４２は、図示せぬ外部の出力装置等を用いて、選択した基本口形に対応する口の形をするようにユーザに指示する。例えば、基本口形データ生成部１４２は、「“ア”の口の形をしてください。」というようなガイダンス音声を外部の出力装置に出力させる。

ステップＳ２において、画像取得部１１１は、顔画像取得処理を行う。顔画像取得処理の詳細は、図９を参照して後述するが、この処理により、ステップＳ１において、指示された口の形をしたユーザの顔画像が複数フレーム撮影される。

ステップＳ３において、口検出部１４１は、口形画像を生成する。具体的には、口検出部１４１は、所定の手法に基づいて、顔画像の各フレームにおけるユーザの口の位置を検出する。口の位置を検出する手法の詳細については、例えば、特開平９−１７１５５９号公報などに開示されている。口検出部１４１は、各フレームにおいて、ユーザの口の中心を中心とする所定の領域（例えば、縦120×横160ドット）の画像を抽出することにより、口形画像を生成する。口検出部１４１は、生成した口形画像を基本口形データ生成部１４２に供給する。

ステップＳ４において、基本口形データ生成部１４２は、基本口形画像を選択する。具体的には、基本口形データ生成部１４２は、取得した口形画像の各フレームのうち画像が安定したフレームを、基本口形画像として選択する。基本口形データ生成部１４２は、例えば、前のフレームとの画素値の差分が所定の値より小さくなるフレームを基本口形画像として選択する。

ステップＳ５において、基本口形データ生成部１４２は、全ての基本口形について処理したかを判定する。まだ全ての基本口形について処理していないと判定された場合、処理はステップＳ１に戻り、ステップＳ５において、全ての基本口形について処理したと判定されるまで、ステップＳ１乃至Ｓ５の処理が繰り返し実行される。すなわち、全ての基本口形に対応する基本口形画像が生成される。

ステップＳ５において、全ての基本口形について処理したと判定された場合、処理はステップＳ６に進む。

ステップＳ６において、基本口形データ生成部１４２は、基本口形データを生成する。具体的には、基本口形データ生成部１４２は、各基本口形画像に、対応するインデックス番号、および、基本口形の種類を示す記号を関連づけた基本口形データを生成する。基本口形データ生成部１４２は、生成した基本口形データを基本口形データ登録部１４３に供給する。

ステップＳ７において、基本口形データ登録部１４３は、基本口形データ記憶部１４４に基本口形データを記憶させ、基本口形データ登録処理は終了する。

次に、図９のフローチャートを参照して、図８のステップＳ２の顔画像取得処理の詳細について説明する。

ステップＳ２１において、撮影部１３１は、ユーザの顔を撮影する。撮影部１３１は、撮影した画像、すなわち、顔画像をフレーム毎に画像入力部１３２に供給する。

ステップＳ２２において、画像入力部１３２は、必要に応じて画像処理を施して、顔画像取得処理は終了する。例えば、画像入力部１３２は、必要に応じて、A/D（Analog/Digital）変換、画像サイズの変換、カラー画像からモノクロ画像への変換、ノイズ除去、特徴量の抽出、周波数成分分解などの画像処理を顔画像に対して施す。画像入力部１３２は、画像処理を施した顔画像を口検出部１４１に供給する。なお、画像処理を施さない場合、画像入力部１３２は、撮影部１３１により撮影された顔画像を、そのまま口検出部１４１に供給する。

次に、図１０のフローチャートを参照して、読唇システム１０１により実行される口形辞書登録処理について説明する。なお、この処理は、例えば、ユーザが、読唇システム１０１の図示せぬ操作部を介して、口形辞書へのデータの登録の指令を入力したとき、開始される。

ステップＳ４１において、登録データ入力部１１４は、登録データを取得する。具体的には、ユーザは、新たに登録したい語句、および、その読みを含む登録データを登録データ入力部１１４に入力する。登録データ入力部１１４は、ユーザにより入力された登録データを取得し、口形パターンデータ生成部１５１および口形辞書登録部１５２に供給する。

ステップＳ４２において、口形パターンデータ生成部１５１は、口形パターンデータを生成する。具体的には、口形パターンデータ生成部１５１は、まず、図３の表に基づいて、入力された語句の読みの各音を口形パターンに置き換えた口形パターンデータを生成する。なお、このとき、長音は直前の音と同じであるため無視される。例えば、「チズ」と「チーズ」は同じ口形パターンデータとなる。また、撥音および促音は、上述したルール２乃至５に基づいて、口形パターンに置き換えられる。

次に、口形パターンデータ生成部１５１は、生成した口形パターンデータにおいて同じ口形記号が連続する場合、１つの口形記号にまとめる。例えば、「AAA」のようにア口形の口形記号が連続する場合、「A」に置き換えられる。

最後に、口形パターンデータ生成部１５１は、上述したルール１に従って、１つ前の終口形と同じ初口形を削除する。例えば、「IiA」は、「i」が一つ前の「I」に吸収され、「IA」に置き換えられる。

口形パターンデータ生成部１５１は、このようにして生成した口形パターンデータを口形辞書登録部１５２に供給する。

ステップＳ４３において、口形辞書登録部１５２は、すでに登録されているデータであるかを判定する。口形辞書登録部１５２は、口形辞書記憶部１５３に記憶されている口形辞書に、生成された口形パターンデータと一致する口形パターンデータが登録されていない場合、まだ登録されていないデータであると判定し、処理はステップＳ４４に進む。

ステップＳ４４において、口形辞書登録部１５２は、データを登録する。具体的には、口形辞書登録部１５２は、登録データに含まれる語句および読みと、その語句に対応する口形パターンデータとを関連づけ、さらに、インデックスを付加して、口形辞書記憶部１５３に記憶されている口形辞書に登録する。また、口形辞書登録部１５２は、登録した語句、読み、および、口形パターンデータを示す登録情報を登録情報表示部１１６に供給する。

ステップＳ４５において、登録情報表示部１１６は、登録情報を出力し、口形辞書登録処理は終了する。具体的には、登録情報表示部１１６は、新たに登録した語句、読み、および、口形パターンデータをユーザに対して表示する。

ステップＳ４３において、口形辞書登録部１５２は、口形辞書記憶部１５３に記憶されている口形辞書に、生成された口形パターンデータと一致する口形パターンデータが登録されている場合、すでに登録されているデータであると判定し、処理はステップＳ４６に進む。

ステップＳ４６において、登録情報表示部１１６は、すでに登録されているデータであることを通知し、口形辞書登録処理は終了する。具体的には、口形辞書登録部１５２は、登録しようとしたデータがすでに登録されていることを示す情報を登録情報表示部１１６に供給する。登録情報表示部１１６は、登録しようとしたデータがすでに登録されていることを通知する情報を表示する。なお、情報を表示する代わりに、あるいは、情報の表示とともに、音声を用いてユーザに登録しようとしたデータがすでに登録されていることを通知するようにしてもよい。また、このとき、例えば、画像、テキスト情報、音声メッセージなどを用いて、登録する語句の変更を指示する情報をユーザに対して出力するようにしてもよい。

なお、口形パターンデータが同じで、語句および読みが異なるデータ、あるいは、読みおよび口形パターンデータが同じで、語句が異なるデータをそれぞれ個別に口形辞書に登録できるようにしてもよい。

また、ユーザは、所定の操作を行うことにより、口形辞書の各レコードを削除したり、各レコードのデータを修正したりすることが可能である。

次に、図１１のフローチャートを参照して、読唇システム１０１により実行される読唇処理について説明する。なお、この処理は、例えば、ユーザが、読唇システム１０１の図示せぬ操作部を介して、読唇処理の開始の指令を入力したとき、開始される。

ステップＳ１０１において、撮影部１３１は、ユーザの顔の撮影を開始する。撮影部１３１は、撮影したユーザの顔画像、すなわち、話者の顔画像の画像入力部１３２への供給を開始する。

ステップＳ１０２において、画像入力部１３２は、画像処理を開始する。具体的には、画像入力部１３２は、必要に応じて、図９のステップＳ２２と同様の顔画像に対する画像処理を開始し、画像処理を施した顔画像の口検出部１４１への供給を開始する。

ステップＳ１０３において、口検出部１４１は、口形画像の生成を開始する。具体的には、口検出部１４１は、上述した図８のステップＳ３と同様の処理を開始し、生成した口形画像の類似度検出部１８１への供給を開始する。

ステップＳ１０４において、読唇処理部１１２は、認識処理を実行する。認識処理の詳細は、図１２を参照して後述するが、この処理により、ユーザが発した言葉が認識される。

ステップＳ１０５において、認識結果出力部１１３は、認識結果出力処理を実行する。認識結果出力処理の詳細は、図２５を参照して後述するが、この処理により、ユーザが発した言葉を認識した結果が出力される。

ステップＳ１０６において、読唇システム１０１は、処理の停止が指令されたかを判定する。処理の停止が指令されていないと判定された場合、処理はステップＳ１０４に戻り、ステップＳ１０６において、処理の停止が指令されたと判定されるまで、ステップＳ１０４乃至Ｓ１０６の処理が繰り返し実行される。

一方、ステップＳ１０６において、例えば、ユーザが、読唇システム１０１の図示せぬ操作部を介して、読唇処理の停止の指令を入力したとき、読唇システム１０１は、処理の停止が指令されたと判定し、読唇処理は終了する。

次に、図１２のフローチャートを参照して、図１１のステップＳ１０４の認識処理の詳細について説明する。

ステップＳ１２１において、類似度検出部１８１は、類似度検出処理を実行する。ここで、図１３のフローチャートを参照して、類似度検出処理の詳細について説明する。

ステップＳ１４１において、類似度検出部１８１は、基本口形画像の画素値の平均値と標準偏差を算出する。具体的には、類似度検出部１８１は、発話者であるユーザの基本口形データを基本口形データ記憶部１４４から読み出す。類似度検出部１８１は、以下の式（１）に基づいて、基本口形データに含まれる各基本口形画像の画素値の平均値Mを算出する。

なお、Wは基本口形画像の横方向の画素数、Hは基本口形画像の縦方向の画素数、g(x,y)は基本口形画像の座標(x,y)の画素の画素値を表す。

また、類似度検出部１８１は、以下の式（２）に基づいて、各基本口形画像の画素値の標準偏差Ｓを算出する。

また、口形期間検出部１９１はカウンタの値をリセットする。すなわち、口形期間検出部１９１はカウンタの値を初期値に設定する。

なお、各基本口形画像の画素値の平均値および標準偏差を予め算出し、基本口形データに登録しておき、ステップＳ１４１において、基本口形画像の画素値の平均値および標準偏差の算出を行わないようにしてもよい。

ステップＳ１４２において、類似度検出部１８１は、全てのフレームについて処理したかを判定する。類似度検出部１８１は、口検出部１４１から取得した口形画像の各フレームのうち、まだ処理していないフレームがある場合、または、口検出部１４１からの口形画像の供給が継続している場合、まだ全てのフレームについて処理していないと判定し、処理はステップＳ１４３に進む。

ステップＳ１４３において、類似度検出部１８１は、対象フレームの画素値の平均値と標準偏差を算出する。具体的には、類似度検出部１８１は、まだ処理していない口形画像のフレームのうち先頭のフレーム（時間軸方向において最も古いフレーム）を、処理を行う対象である対象フレームに選択する。類似度検出部１８１は、上述した式（１）および（２）と同様の計算式により、対象フレームの画素値の平均値と標準偏差を算出する。

ステップＳ１４４において、類似度検出部１８１は、対象フレームにおけるユーザの口形と基本口形との類似度を求める。具体的には、類似度検出部１８１は、以下の式（３）に基づいて、対象フレームにおけるユーザの口形と各基本口形の類似度として、対象フレームと各基本口形画像との類似度を求める。

なお、T(G1,G2)は画像G1と画像G2との類似度を表し、S(G1)は画像G1の画素値の標準偏差を表し、S(G2)は画像G2の画素値の標準偏差を表し、g1(x,y)は画像G1の座標(x,y)の画素値を表し、g2(x,y)は画像G2の座標(x,y)の画素値を表し、M(G1)は画像G1の画素値の平均値を表し、M(G2)は画像G2の画素値の平均値を表す。

例えば、式（３）において、G1を対象フレーム、G2を基本口形画像とすることで、対象フレームと各基本口形画像との類似度を求めることができる。

図１４は、ユーザが「カーナビ」と発音した場合に、式（３）に基づいて検出したユーザの口形と各基本口形との類似度の時系列の変化の例を示している。図１４の横軸は口形画像のフレーム番号を示し、縦軸は類似度の値を示す。また、曲線Ｃａ１はア口形に対する類似度の時系列の変化を表し、曲線Ｃｉ１はイ口形に対する類似度の時系列の変化を表し、曲線Ｃｕ１はウ口形に対する類似度の時系列の変化を表し、曲線Ｃｅ１はエ口形に対する類似度の時系列の変化を表し、曲線Ｃｏ１はオ口形に対する類似度の時系列の変化を表し、曲線Ｃｘ１は閉唇口形に対する類似度の時系列の変化を表す。なお、以下、適宜、図１４に示される類似度の時系列の変化の例を用いて、読唇システム１０１の処理を説明する。

類似度検出部１８１は、求めた類似度を示す情報を口形期間検出部１９１に供給する。

なお、類似度を求める方法は、上述した例に限定されるものではない。例えば、正規化相関を用いずに、以下の式（４）に基づいて、類似度を算出するようにしてもよい。

また、例えば、対象フレームおよび基本口形画像から唇の輪郭を抽出して、唇の輪郭の類似度を求めたり、対象フレームおよび基本口形画像から唇の縦または横、あるいはその両方の長さを検出して、検出した長さに基づいて類似度を求めるようにしてもよい。

ステップＳ１４５において、口形期間検出部１９１は、発話期間検出処理を実行する。ここで、図１５のフローチャートを参照して、発話期間検出処理の詳細について説明する。

ステップＳ１６１において、口形期間検出部１９１は、前のフレームとの類似度の差分を算出する。具体的には、口形期間検出部１９１は、各基本口形について、対象フレームと１つ前のフレームとの類似度の差分を算出する。

ステップＳ１６２において、口形期間検出部１９１は、前のフレームとの類似度の差が所定の閾値未満かつ閉唇口形に対する類似度が最大であるかを判定する。口形期間検出部１９１は、全ての基本口形について、前のフレームとの類似度の差が所定の閾値未満、かつ、対象フレームにおいて、各基本口形に対する類似度のうち閉唇口形に対する類似度が最大であると判定した場合、すなわち、対象フレームにおけるユーザの口形が閉唇口形である可能性が高い場合、処理はステップＳ１６３に進む。

ステップＳ１６３において、口形期間検出部１９１は、カウンタの値を１つインクリメントする。

ステップＳ１６４において、口形期間検出部１９１は、カウンタの値が所定の閾値を超えているかを判定する。カウンタの値が所定の閾値を超えていると判定された場合、すなわち、前のフレームとの類似度の差が所定の閾値未満かつ閉唇口形に対する類似度が最大である状態（以下、閉唇安定状態と称する）が所定の期間以上連続している場合、さらに換言すれば、ユーザの口形が閉唇口形である可能性が高い状態が所定の期間以上連続している場合、処理はステップＳ１６５に進む。

ステップＳ１６５において、口形期間検出部１９１は、発話期間が確定していない発話開始フレームが検出されているかを判定する。口形期間検出部１９１は、対象フレームより前のフレームにおいて発話開始フレームが検出されており、かつ、対象フレームより前で最も対象フレームに近いフレームにおいて検出された発話開始フレームと対象フレームとの間に発話終了フレームが検出されていない場合、すなわち、対応する発話終了フレームが検出されていない発話開始フレームが検出されている場合、発話期間が確定していない発話開始フレームが検出されていると判定し、処理はステップＳ１６６に進む。

ステップＳ１６６において、口形期間検出部１９１は、発話終了フレームを設定する。具体的には、口形期間検出部１９１は、対象フレームを含む期間であって、閉唇安定状態が連続している期間の１つ前のフレームを、発話終了フレームに設定する。

ステップＳ１６５において、口形期間検出部１９１は、発話開始フレームが検出されていない場合、または、対象フレームより前で最も対象フレームに近いフレームにおいて検出された発話開始フレームと対象フレームとの間に発話終了フレームが検出されている場合、すなわち、対応する発話終了フレームが検出されていない発話開始フレームが検出されていない場合、発話期間が確定していない発話開始フレームが検出されていないと判定し、ステップＳ１６６の処理はスキップされ、発話期間検出処理は終了する。

ステップＳ１６４において、カウンタの値が所定の閾値を超えてないと判定された場合、すなわち、閉唇安定状態がまだ所定の期間以上連続していない場合、ステップＳ１６５およびＳ１６６の処理はスキップされ、発話期間検出処理は終了する。

ステップＳ１６２において、口形期間検出部１９１は、少なくとも１つの基本口形について、前のフレームとの類似度の差が所定の閾値以上であるか、または、対象フレームにおいて、各基本口形に対する類似度のうち閉唇口形に対する類似度が最大でないと判定した場合、すなわち、対象フレームにおいてユーザの口形が閉唇口形である可能性が低い場合、処理はステップＳ１６７に進む。

ステップＳ１６７において、ステップＳ１６５の処理と同様に、発話期間が確定していない発話開始フレームが検出されているかが判定される。発話期間が確定していない発話開始フレームが検出されていないと判定された場合、処理はステップＳ１６８に進む。

ステップＳ１６８において、口形期間検出部１９１は、カウンタの値が所定の閾値を超えているかを判定する。カウンタの値が所定の閾値を超えていると判定された場合、すなわち、１つ前のフレームまで閉唇安定状態が所定の期間以上連続していた場合、処理はステップＳ１６９に進む。

ステップＳ１６９において、口形期間検出部１９１は、発話開始フレームを設定する。具体的には、口形期間検出部１９１は、対象フレーム、すなわち、閉唇安定状態が連続していた期間の最後のフレームの次のフレームを発話開始フレームに設定する。

ステップＳ１６８において、カウンタの値が所定の閾値を超えていないと判定された場合、すなわち、１つ前のフレームにおいて、閉唇安定状態が所定の期間以上連続していなかった場合、ステップＳ１６９の処理はスキップされ、処理はステップＳ１７０に進む。

ステップＳ１６７において、発話期間が確定していない発話開始フレームが検出されていると判定された場合、ステップＳ１６８およびＳ１６９の処理はスキップされ、処理はステップＳ１７０に進む。

ステップＳ１７０において、口形期間検出部１９１は、カウンタの値をリセットし、すなわち、カウンタの値を初期値に設定し、発話期間検出処理は終了する。

図１６は、各基本口形に対する類似度が、上述した図１４に示されるように変化する場合に検出された発話開始フレームおよび発話終了フレームの位置の例を示す図である。なお、図１６は、図１４に発話開始フレームであるフレームＦｓ１および発話終了フレームであるフレームＦｅ１の位置を示す補助線を追加した図である。

人が言葉を発する場合、通常、言葉を発する前および言葉を発した後に、口を閉じた状態がしばらく継続する。従って、言葉を発する前において、例えば、図１６の先頭のフレームからフレームＦｓ１までの期間のように、閉唇口形に対する類似度が最も高く、かつ、全ての基本口形に対する類似度がほとんど変化しない閉唇安定状態が連続し、言葉を発した後にも、例えば、図１６のフレームＦｅ１から最終フレームまでの期間のように、閉唇安定状態が連続する。

上述した発話期間検出処理では、言葉を発する前に現れる閉唇安定状態が所定の期間以上連続する期間の最後のフレームの次のフレーム、すなわち、図１６のフレームＦｓ１が発話開始フレームとして検出され、言葉を発した後に現れる閉唇安定状態が所定の期間以上連続する期間の１つ前のフレーム、すなわち、図１６のフレームＦｅ１が発話終了フレームとして検出される。そして、閉唇安定状態が連続する期間を除く、発話開始フレームから発話終了フレームまでの期間が、発話期間として検出される。

図１３に戻り、ステップＳ１４６において、類似度検出部１８１は、発話終了フレームが検出されたかを判定する。発話終了フレームが検出されていないと判定された場合、処理はステップＳ１４２に戻る。その後、ステップＳ１４２において、全てのフレームについて処理したと判定されるか、ステップＳ１４６において、発話終了フレームが検出されたと判定されるまで、ステップＳ１４２乃至Ｓ１４６の処理が繰り返し実行される。すなわち、各フレームにおけるユーザの口形と各基本口形との類似度、並びに、発話開始フレームおよび発話終了フレームの検出が行われる。

ステップＳ１４６において、ステップＳ１４５の発話期間検出処理の結果、発話終了フレームが検出されたと判定された場合、すなわち、新たな発話期間が検出された場合、類似度検出処理は終了する。

ステップＳ１４２において、類似度検出部１８１は、例えば、ユーザが、読唇システム１０１の図示せぬ操作部を介して、読唇処理の停止の指令を入力し、口検出部１４１からの口形画像の供給が停止され、かつ、口検出部１４１から取得した口形画像の全てのフレームについて処理した場合、全てのフレームについて処理したと判定し、処理はステップＳ１４７に進む。

ステップＳ１４７において、口形期間検出部１９１は、発話終了フレームを設定する。具体的には、口形期間検出部１９１は、口形画像の最終フレームの状態が閉唇安定状態である場合、最終フレームを含む期間であって、閉唇安定状態が連続している期間の１つ前のフレームを発話終了フレームに設定する。また、口形期間検出部１９１は、口形画像の最終フレームの状態が閉唇安定状態でない場合、最終フレームを発話終了フレームに設定する。なお、このステップＳ１４７の処理は、発話期間検出処理により発話終了フレームが検出されなかった場合の処理である。

ステップＳ１４８において、口形期間検出部１９１は、発話開始フレームが検出されているかを判定する。発話開始フレームが検出されていないと判定された場合、処理はステップＳ１４９に進む。

ステップＳ１４９において、口形期間検出部１９１は、発話開始フレームを設定し、類似度検出処理は終了する。具体的には、口形期間検出部１９１は、口形画像の２番目のフレームの状態が閉唇安定状態である場合、２番目のフレームを含む期間であって、閉唇安定状態が連続している期間の最後のフレームの次のフレームを発話開始フレームに設定する。また、口形期間検出部１９１は、口形画像の２番目のフレームの状態が閉唇安定状態でない場合、口形画像の先頭のフレームを発話開始フレームに設定する。

ステップＳ１４８において、発話開始フレームが検出されていると判定された場合、ステップＳ１４９の処理はスキップされ、類似度検出処理は終了する。

図１２に戻り、ステップＳ１２２において、口形期間検出部１９１は、口形期間検出処理を実行する。ここで、図１７のフローチャートを参照して、口形期間検出処理の詳細について説明する。

ステップＳ１８１において、口形期間検出部１９１は、各基本口形に対する類似度の時系列の変化の傾向を分析する。具体的には、口形期間検出部１９１は、発話期間内の各フレームについて、１つ前のフレームからの各基本口形に対する類似度の変化の傾向を「増加」「減少」「平衡」のいずれかに分類する。例えば、ア口形に対する類似度が１つ前のフレームから所定の閾値以上増加している場合、そのフレームにおけるア口形に対する類似度の変化の傾向は「増加」に分類される。また、例えば、イ口形に対する類似度が１つ前のフレームから所定の閾値以上減少している場合、そのフレームにおけるイ口形に対する類似度の変化の傾向は「減少」に分類される。さらに、例えば、閉唇口形に対する類似度が１つ前のフレームから変化した値の絶対値が所定の閾値未満である場合、そのフレームにおける閉唇口形に対する類似度の変化の傾向は「平衡」に分類される。

なお、以下、類似度の変化の傾向が「増加」であると判定されたフレームを増加傾向フレーム、類似度の変化の傾向が「減少」であると判定されたフレームを減少傾向フレーム、類似度の変化の傾向が「平衡」であると判定されたフレームを平衡フレームと称する。なお、類似度の変化の傾向は各基本口形に対して求められるので、同じフレームにおいて、基本口形ごとに類似度の変化の傾向の分類が異なる場合がある。例えば、同じフレームが、ア口形に対しては増加傾向フレームとなり、イ口形に対しては減少傾向フレームとなる場合がある。

図１８は、図１６のウ口形に対する類似度の変化を表す曲線Ｃｕ１上に、各フレームのウ口形に対する類似度の変化の傾向の分類を示した図である。なお、図１８において、上向きの黒い三角が増加傾向フレームを表し、下向きの黒い三角が減少傾向フレームを表し、黒丸が平衡フレームを表す。

なお、図１８おいては、フレームＦｓ１より前のフレーム、および、フレームＦｅ１より後のフレームについても、類似度の変化の傾向の分類が示されているが、実際には、ステップＳ１８１において、発話期間内のフレームについてのみ類似度の変化の傾向が分析される。

また、前のフレームとの類似度の差分値により、類似度の変化の傾向を分析する以外に、例えば、類似度の時系列のグラフの微分値などを用いて、類似度の変化の傾向を分析するようにしてもよい。

ステップＳ１８２において、口形期間検出部１９１は、類似度の変化が大きい期間を検出する。具体的には、口形期間検出部１９１は、基本口形を１つ選択し、選択した基本口形に対する増加傾向フレームが連続する期間が所定の閾値より短い期間を検出する。口形期間検出部１９１は、検出した期間ごとに、選択した基本口形に対する類似度の隣接するフレーム間の差分の合計値を求める。口形期間検出部１９１は、求めた合計値が所定の閾値より小さい場合、その期間内の、選択した基本口形に対する増加傾向フレームを平衡フレームに変更する。すなわち、類似度の増加が連続する期間が短く、かつ、類似度の変化が小さい期間内の、選択した基本口形に対する増加傾向フレームが平衡フレームに変更される。

また、口形期間検出部１９１は、選択した基本口形に対する減少傾向フレームが連続する期間が所定の閾値より短い期間を検出する。口形期間検出部１９１は、検出した期間ごとに、選択した基本口形に対する類似度の隣接するフレーム間の差分の絶対値の合計値を求める。口形期間検出部１９１は、求めた合計値が所定の閾値より小さい場合、その期間内の、選択した基本口形に対する減少傾向フレームを平衡フレームに変更する。すなわち、類似度の減少が連続する期間が短く、かつ、類似度の変化が小さい期間内の、選択した基本口形に対する減少傾向フレームが平衡フレームに変更される。

口形期間検出部１９１は、残った増加傾向フレームからなる期間を、選択した基本口形に対する類似度の増加傾向期間として検出する。すなわち、増加傾向期間は、選択した基本口形に対する類似度が大きく増加する期間、または、類似度の増加が連続する期間が長い期間である。また、口形期間検出部１９１は、残った減少傾向フレームからなる期間を、選択した基本口形に対する類似度の減少傾向期間として検出する。すなわち、減少傾向期間は、選択した基本口形に対する類似度が大きく減少する期間、または、類似度の減少が連続する期間が長い期間である。

口形期間検出部１９１は、この処理を全ての基本口形について実行する。

図１９は、図１８のウ口形に対する類似度の変化を表す曲線Ｃｕ１上に、ウ口形に対する類似度の増加傾向期間のフレームおよび減少傾向期間のフレームの位置を示した図である。図１９において、上向きの白い三角が増加傾向期間のフレームを表し、下向きの白い三角が減少傾向期間のフレームを表す。また、上向きの黒い三角は、増加傾向期間に含まれなかったため、増加傾向フレームから平衡フレームに変更されたフレームを表し、下向きの黒い三角は、減少傾向期間に含まれなかったため、減少傾向フレームから平衡フレームに変更されたフレームを表す。

また、図２０は、図１６の各基本口形に対する類似度の変化を表す曲線Ｃａ１乃至Ｃｘ１上に、各基本口形に対する類似度の増加傾向期間のフレームおよび減少傾向期間のフレームの位置を示した図である。図２０において、黒丸がア口形に対する類似度の増加傾向期間および減少傾向期間のフレームを表し、黒の四角がイ口形に対する類似度の増加傾向期間および減少傾向期間のフレームを表し、黒の三角がウ口形に対する類似度の増加傾向期間および減少傾向期間のフレームを表し、白丸がエ口形に対する類似度の増加傾向期間および減少傾向期間のフレームを表し、白の四角がオ口形に対する類似度の増加傾向期間および減少傾向期間のフレームを表し、白の三角が閉唇口形に対する類似度の増加傾向期間および減少傾向期間のフレームを表している。

このステップＳ１８２の処理により、認識処理において誤差の原因となる可能性がある類似度の細かな振動が除去される。

ステップＳ１８３において、口形期間検出部１９１は、各フレームを初口形フレームと終口形フレームに分類する。具体的には、口形期間検出部１９１は、発話期間内のフレームについて、少なくとも１つの基本口形に対して平衡フレームでないフレームを初口形フレームに分類し、すべての基本口形に対して平衡フレームであるフレームを終口形フレームに分類する。すなわち、口形期間検出部１９１は、初口形が現れる期間は口の動きが大きく、終口形が現れる期間は口の動きが小さいという特徴を利用して、初口形フレームと終口形フレームとを分類する。

図２１は、図１６に、初口形フレームおよび終口形フレームの分類などを追加して示した図である。なお、図２１の曲線Ｃａ１乃至Ｃｘ１の下部に白丸が示されているフレームが初口形フレームであり、白の四角で示されるフレームが終口形フレームである。

ステップＳ１８４において、口形期間検出部１９１は、連続する期間が短い終口形フレームを初口形フレームに変更する。具体的には、口形期間検出部１９１は、終口形フレームが連続する期間が所定の閾値より短い期間における終口形フレームを、初口形フレームに変更する。すなわち、終口形フレームが連続する期間が短い期間が終口形期間から除外される。例えば、図２１において、フレームＦ１１乃至Ｆ１３は、終口形フレームが連続する期間が短いため、終口形フレームから初口形フレームに変更される。

また、口形期間検出部１９１は、初口形フレームが連続する期間を初口形期間として検出し、終口形フレームが連続する期間を終口形期間として検出する。例えば、図２１の例においては、期間Ｐｂ１１乃至Ｐｂ１４がそれぞれ初口形期間と検出され、期間Ｐｅ１１乃至Ｐｅ１３がそれぞれ終口形期間として検出される。

ステップＳ１８５において、口形期間検出部１９１は、発話終了フレームの位置を補正する。具体的には、口形期間検出部１９１は、発話終了フレームの位置を、発話期間における最後の終口形フレームに補正する。例えば、図２１において、発話期間内の最後の終口形期間である期間Ｐｅ１３の最後のフレームＦｅ２に発話終了フレームが変更される。これにより、発話期間は、フレームＦｓ１からフレームＦｅ２までの期間に変更される。

発話が終了して唇を閉じる際、発話時の最後の口形から閉唇の口形へ変化する段階で類似度が大きく変化するが、この期間は、発話の内容に関係がなく発話期間から除外することが望ましいため、この発話期間の変更により発話期間から除去される。

また、口形期間検出部１９１は、初口形期間および終口形期間に基づいて、口形音節を検出する。具体的には、口形期間検出部１９１は、終口形期間の最後のフレームごとに発話期間を分割し、分割した各期間を口形音節とする。例えば、図２１においては、期間Ｐｂ１１の最初のフレームから期間Ｐｅ１１の最後のフレームまでの期間、期間Ｐｂ１２の最初のフレームから期間Ｐｅ１２の最後のフレームまでの期間、および、期間Ｐｂ１３の最初のフレームから期間Ｐｅ１３の最後のフレームまでの期間の３つの口形音節が検出される。

図２２は、「交通（こうつう）」と発音した場合の各基本口形に対する類似度の時系列の変化の例を示している。なお、図１４などと同様に、図２２の横軸は口形画像のフレーム番号を示し、縦軸は類似度の値を示す。また、曲線Ｃａ１１はア口形に対する類似度の時系列の変化を表し、曲線Ｃｉ１１はイ口形に対する類似度の時系列の変化を表し、曲線Ｃｕ１１はウ口形に対する類似度の時系列の変化を表し、曲線Ｃｅ１１はエ口形に対する類似度の時系列の変化を表し、曲線Ｃｏ１１はオ口形に対する類似度の時系列の変化を表し、曲線Ｃｘ１１は閉唇口形に対する類似度の時系列の変化を表す。

図２２の例の場合、例えば、閉唇安定状態が所定の期間以上連続する期間を除いたフレームＦｓ２１およびフレームＦｅ２１までの期間が発話期間として検出される。また、例えば、発話期間において、各基本口形に対する類似度の変化が小さい状態が連続する期間である期間Ｐｅ２１および期間Ｐｅ２２が終口形期間として検出される。さらに、例えば、発話期間において、終口形期間以外の期間である期間Ｐｂ２１および期間Ｐｂ２２が初口形期間として検出される。従って、期間Ｐｂ２１の最初のフレームから期間Ｐｅ２１の最後のフレームまでの期間Ｐｓ２１、および、期間Ｐｂ２２の最初のフレームから期間Ｐｅ２２の最後のフレームまでの期間Ｐｓ２２の２つの口形音節が検出される。

このように、発話期間、および、口形音節が正確に検出されることにより、ユーザが発した言葉の認識率を向上させることができる。

ステップＳ１８６において、口形期間検出部１９１は、初口形出現フレームを検出し、口形期間検出処理は終了する。初口形は終口形に比べて出現する期間が非常に短く、初口形が現れる期間において、その初口形に対応する基本口形に対する類似度の変化を表すグラフの形状は、上に凸、かつ、ピークの幅が狭い波形となる特徴がある。口形期間検出部１９１は、この特徴に基づいて、初口形として現れる可能性がある基本口形、すなわち、イ口形、ウ口形、および、閉唇口形のそれぞれについて、平衡フレームが連続する期間が所定の閾値より短い期間であって、その期間の１つ前のフレームが増加傾向フレーム、および、その期間の１つ後のフレームが減少傾向フレームとなる期間内のフレーム、または、平衡フレームがなく増加傾向フレームからすぐに減少傾向フレームに変化する場合の増加傾向フレームを、その基本口形に対する初口形出現フレームとして検出する。

図２３は、図２１に、各基本口形の初口形出現フレームの位置を追加して示した図である。図２３において、白丸はイ口形の初口形出現フレームを表し、白の菱形はウ口形の初口形出現フレームを表し、白の四角は閉唇口形の初口形出現フレームを表す。なお、図２３においては、初口形期間および終口形期間の位置を明確に示すための補助線が追加されている。

図２３の例においては、イ口形の初口形出現フレームが、第２口形音節において１フレーム検出され、ウ口形の初口形出現フレームは検出されず、閉唇口形の初口形出現フレームが、第３口形音節において２フレーム検出されている。

口形期間検出部１９１は、類似度、各基本口形の初口形期間および初口形出現フレーム、並びに、終口形期間を示す情報を、基本スコア算出部１９２に供給する。

図１２に戻り、ステップＳ１２３において、基本スコア算出部１９２は、基本スコアを算出する。具体的には、基本スコア算出部１９２は、各基本口形に対する初口形の基本スコア、および、各基本口形に対する終口形の基本スコアを、口形音節ごとに算出する。

より具体的には、基本スコア算出部１９２は、各基本口形に対する初口形の基本スコアとして、その基本口形の初口形出現フレームにおける類似度の平均値を口形音節ごとに算出する。

例えば、図２３の例について考えた場合、第１口形音節においては、各基本口形とも初口形出現フレームが検出されていないので、第１口形音節における各基本口形の初口形の基本スコアは０とされる。

また、第２口形音節におけるイ口形の初口形の基本スコアは、第２口形音節のイ口形の初口形出現フレームにおけるイ口形に対する類似度の平均値とされる。いまの場合、第２口形音節においてイ口形の初口形出現フレームは１つしか検出されていないので、その初口形出現フレームにおけるイ口形に対する類似度が、第２口形音節におけるイ口形の初口形の基本スコアとされる。第２口形音節におけるウ口形および閉唇口形の初口形の基本スコアは、第２口形音節において、ウ口形および閉唇口形の初口形出現フレームは検出されていないので、０とされる。

さらに、第３口形音節におけるイ口形およびウ口形の初口形の基本スコアは、第３口形音節において、イ口形およびウ口形の初口形出現フレームは検出されていないので、０とされる。第３口形音節における閉唇口形の初口形の基本スコアは、第３口形の閉唇口形の初口形出現フレームにおける閉唇口形に対する類似度の平均値とされる。

また、基本スコア算出部１９２は、各基本口形に対する終口形の基本スコアとして、その基本口形に対する類似度の各終口形期間における平均値を算出する。

例えば、図２３の例について考えた場合、第１口形音節における各基本口形の終口形の基本スコアは、終口形期間Ｐｅ１１における各基本口形に対する類似度の平均値とされる。例えば、第１口形音節におけるア口形の終口形の基本スコアは、終口形期間Ｐｅ１１におけるア口形に対する類似度の平均値となる。また、第２口形音節における各基本口形の終口形の基本スコアは、終口形期間Ｐｅ１２における各基本口形に対する類似度の平均値とされる。さらに、第３口形音節における各基本口形の終口形の基本スコアは、終口形期間Ｐｅ１３における各基本口形に対する類似度の平均値とされる。

図２４は、図２３の類似度の例に基づいて算出した基本スコアの値の例を示している。図２４の例において、第１口形音節では、全ての基本口形の初口形の基本スコアが０、かつ、ア口形の終口形の基本スコアが最大となり、第２口形音節では、イ口形の初口形の基本スコアが最大、かつ、ア口形の終口形の基本スコアが最大となり、第３口形音節では、閉唇口形の初口形の基本スコアが最大、かつ、イ口形の終口形の基本スコアが最大となっている。基本スコアが最大となる基本口形の種類を並べると、ア口形の終口形−イ口形の初口形−ア口形の終口形−閉唇口形の初口形−イ口形の終口形となり、「カーナビ」の口形パターンデータである「AiAxI」と一致する。

基本スコア算出部１９２は、算出した基本スコアを示す情報を認識部１７２に供給する。

なお、上述した各期間の類似度の平均値以外にも、類似度の中間値や最大値などを用いて基本スコアを算出するようにすることも可能である。

図１２に戻り、ステップＳ１２４において、認識部１７２は、認識スコアを算出し、認識処理は終了する。具体的には、認識部１７２は、算出された基本スコアを用いて、口形辞書に登録されている各語句が、ユーザが発した言葉である確率を示す認識スコアを算出する。

例えば、図２４の基本スコアを用いて、「ラジオ」に対する認識スコアを算出する場合について考える。「ラジオ」の口形パターンデータは「iAIO」であり、「iA」＋「I」＋「O」の３つの口形音節により構成される。「ラジオ」の第１口形音節のイ口形の初口形の基本スコアは0.000000であり、第１口形音節のア口形の終口形の基本スコアは3.277173であり、第２口形音節のイ口形の終口形の基本スコアは1.101432であり、第３口形音節のオ口形の終口形の基本スコアは-0.314880である。従って、「ラジオ」に対する認識スコアは4.063725（＝0.000000＋3.277173＋1.101432−0.314880）となる。

このように、各語句の口形パターンデータに対して基本スコアを適用することにより、各語句に対する認識スコアを算出する。従って、認識スコアは、口形辞書に登録されている口形パターンデータと、実際に出現したユーザの初口形および終口形の種類の並びとの類似度を示しているといえる。

なお、検出した口形音節数と、口形辞書の語句の口形音節数とが異なる場合、口形音節数の違いに応じて、認識スコアの値を下げるようにしてもよい。例えば、図２４の基本スコアを用いて、「エアコン」に対する認識スコアを算出した場合、認識スコアは5.463864となる。しかし、検出された口形音節数、すなわち、「カーナビ」の口形音節数は３であり、「エアコン」の口形音節数は４なので、その差は１となる。従って、例えば、算出した認識スコアから口形音節数の差に相当する値αを引いた値（5.463864−α）を、「エアコン」に対する認識スコアとするようにしてもよい。

また、まず終口形だけを用いて各語句に対する認識スコアを算出し、その時点で認識スコアが上位の語句のみを対象に、初口形を含めた認識スコアを算出するようにしてもよい。これにより、認識スコアの精度を向上させることができる。

認識部１７２は、口形辞書に登録されている各語句に対する認識スコアを算出し、算出した結果を示す情報を認識結果出力部１１３に供給する。

次に、図２５のフローチャートを参照して、図１１のステップＳ１０５の認識結果出力処理の詳細について説明する。

ステップＳ２０１において、認識結果出力部１１３は、口形辞書に登録されている語句を認識スコアの高い順にソートする。

ステップＳ２０２において、認識結果出力部１１３は、認識結果を出力して、認識結果出力処理は終了する。

図２６は、認識結果の出力例を示している。認識結果出力部１１３は、図２６に示されるように、口形辞書に記憶されている語句を認識スコアの高い順に並べたデータを、後段の装置に出力したり、図示せぬディスプレイに表示させたりする。

読唇システム１０１から認識結果を取得した後段の装置は、取得した認識結果に対応する動作を行う。例えば、後段の装置が、車両の電子機器を制御する制御装置である場合、いまの場合、「カーナビ」の認識スコアが最も高いので、ユーザの発した言葉が「カーナビ」であると認識して、それに対応する動作を行う。

なお、全ての語句を出力せずに、認識スコアが上位の語句のみを出力するようにしてもよい。また、語句の代わりに口形パターンデータを出力するようにしてもよい。

以上のように、従来の口の動きに基づいて言葉を認識する技術（例えば、特開平１１−１４９２９６号公報など）では行われていない、発音された音を識別するために有効な情報である初口形および終口形に基づいて、人が発した言葉を認識することにより、認識率を大幅に向上させることができる。

また、複数の基本口形に対する類似度を同時に求め、各基本口形に対する類似度の時系列の変化を詳細に分析することにより、微細な口形の変化まで検出することができ、話者が言葉を構成するそれぞれの音を出すために形成した初口形および終口形、音が変化した部分などを正確に検出することができる。従って、単純に各基本口形との類似度に基づいて言葉を認識するよりも、より高い精度で言葉を認識することが可能になる。

図２７および図２８は、本発明を適用した読唇システムを用いて、ユーザの発した言葉を認識する実験の結果を示している。図２７および図２８の左端の列、および、上端の行には口形辞書に登録されている語句が示されており、表内の数値は、上端の各列に示される言葉をユーザが発した場合に、左端の各行に示される語句に対して算出された認識スコアを示している。例えば、図２７には、ユーザが「ラジオ」と発音した場合における、「ラジオ」に対する認識スコアは10.806753、「エアコン」に対する認識スコアは7.152163であることが示されている。

図２７および図２８に示されるように、全てのケースで、ユーザが発した言葉と一致する語句に対する認識スコアが最も高くなっている。すなわち、読唇システム１０１により、確実にユーザが発した言葉を認識できることが示されている。

また、複雑な演算処理を用いないので、簡単かつ迅速にユーザの発した言葉を認識することができる。

さらに、人の話す言葉の音波をマイクロホンなどにより検出して得られる音声情報を用いずに、人の口の形のみに基づいて言葉を認識するので、音声情報に基づいて言葉を認識する音声認識技術が持つ以下の問題点が発生しない。

音（音波）を検出できない場合、言葉を認識することができない。また、話者の声の音量により、認識率が変動する。従って、話者の位置が遠かったり、声が小さかったり、声が発せられなかったりすると、言葉の認識が困難または不可能になる。

騒音の影響により認識率が低下する。騒音レベルが高いとほとんど認識できなくなる。

騒音や他人が話した言葉により誤認識が発生する場合がある。例えば、音声認識装置が、車内の車載装置に指示を与えるための音声コマンドを認識する場合、騒音によるノイズを音声コマンドと認識したり、ラジオから流れる音声を音声コマンドと認識して、誤動作する場合がある。例えば、車内のエアコンの温度の設定を、「エアコン２８」のように短い音声コマンドにより行うようにした場合、騒音によるノイズを音声コマンドが発せられたと誤認識したり、ラジオから「省エネのためエアコンは２８度に設定しましょう」とアナウンスが流れ、騒音などの影響により音声コマンドが発せられたと誤認識した場合、意図していないのにエアコンの温度が変更されてしまう。

複数の人が同時に話すと、声が重なって分離できなくなり、特定の人の言葉を認識することが困難になる。

マイクロホンなどの音声検出手段が必要となる。

従って、本発明によれば、音声認識と比較して、以下の効果を得ることができる。

人が声を出しても出さなくても、また、話者の声の音量に関わらず、口の動きが同じであれば、同じ認識結果を得ることができる。従って、例えば、他の人に言葉を聞かれずに、言葉を認識させたり、防音ガラスの向こうにいる人の言葉を認識することができる。また、例えば、カメラに望遠レンズを取り付けることで、数１０ｍ離れた場所にある車の中にいる人や、１ｋｍ以上離れた場所にいる人など、遠方にいる人が発した言葉を認識することができる。

騒音により認識率が低下しない。騒音レベルが高い環境下においても、言葉を認識することができる。

特定の人物のみの言葉が認識されるので、騒音や他人が話した言葉により誤認識が発生しない。例えば、読唇システム１０１が、車内の車載装置に指示を与えるための操作コマンドを認識する場合、例えば、騒音やラジオから流れる音声などにより車載装置の誤動作が引き起こされることがない。なお、ここでいう操作コマンドとは、有声または無声に関わらず、音声コマンドと同じ口の動きにより車内の車載装置に指示を与えるためのコマンドのことである。

複数の人が同時に話しても、特定の人が話している言葉を確実に認識することができる。また、複数の人の顔が画像に含まれる場合、各個人の顔を認識し、各個人の口の形および動きを検出することにより、各個人が発した言葉を個別に認識することが可能である。これにより、例えば、車内にいる複数の人々が、それぞれ操作コマンドを用いて、同時にラジオ、エアコンなどの車載装置の操作を行うことができる。

マイクロホンなどの音声検出手段が不要である。

また、図１５などを参照して上述したように、基本口形との類似度の変化に基づいて、発話期間を検出することにより、騒音の影響などを受けずに、正確に発話期間を検出することができる。

なお、以上の説明では、図１０の口形辞書登録処理において、登録する語句の読みに基づいて口形パターンデータを生成して、口形辞書に登録する例を示したが、実際のユーザの口の動きに基づいて口形パターンデータを生成して、口形辞書に登録するようにしてもよい。ここで、図２９を参照して、実際のユーザの口の動きに基づいて口形パターンデータを生成して、口形辞書に登録するようにした場合の口形辞書登録処理について説明する。

ステップＳ３０１において、図８のステップＳ２の処理と同様に、顔画像取得処理が実行され、登録する語句を発音したときのユーザの顔画像が取得される。

ステップＳ３０２において、図８のステップＳ３の処理と同様に、口形画像が生成される。

ステップＳ３０３乃至Ｓ３０５の処理は、上述した図１２のステップＳ１２１乃至Ｓ１２３の処理と同様であり、その説明は繰り返しになるので省略するが、この処理により、登録する語句を発音したときの基本スコアが算出される。

ステップＳ３０６において、口形パターンデータ生成部１５１は、口形パターンデータを生成する。具体的には、口形パターンデータ生成部１５１は、基本スコア算出部１９２から、基本スコアを示す情報を取得する。口形パターンデータ生成部１５１は、各口形音節の初口形および終口形において基本スコアが最大となる基本口形の種類の並びに基づいて、口形パターンデータを生成する。例えば、基本スコアが図２４に示される結果となった場合、各口形音節の初口形および終口形において基本スコアが最大となる基本口形の種類の並びは、ア口形の終口形−イ口形の初口形−ア口形の終口形−閉唇口形の初口形−イ口形の終口形となるので、その並びに基づいて、「AiAxI」の口形パターンデータが生成される。なお、初口形の基本スコアの最大値が所定の閾値以下の口形音節については、初口形が存在しないと判定するようにしてもよい。口形パターンデータ生成部１５１は、生成した口形パターンデータを口形辞書登録部１５２に供給する。

ステップＳ３０７において、上述した図１０のステップＳ４３の処理と同様に、すでに登録されているデータであるかが判定され、まだ登録されていないデータであると判定された場合、処理はステップＳ３０８に進む。

ステップＳ３０８において、上述した図１０のステップＳ４１の処理と同様に、登録データが取得される。

ステップＳ３０９において、口形辞書登録部１５２は、データを登録する。具体的には、口形辞書登録部１５２は、登録データに含まれる語句および読みと、口形パターンデータ生成部１５１により生成された口形パターンデータとを関連づけて、口形辞書記憶部１５３に記憶されている口形辞書に登録する。また、口形辞書登録部１５２は、登録した語句、読み、および、口形パターンデータを示す登録情報を登録情報表示部１１６に供給する。

ステップＳ３１０において、上述した図１０のステップＳ４５の処理と同様に、登録情報が出力され、口形辞書登録処理は終了する。

ステップＳ３０７において、すでに登録されているデータであると判定された場合、処理はステップＳ３１１に進む。

ステップＳ３１１において、上述した図１０のステップＳ４６の処理と同様に、すでに登録されているデータであることが通知され、口形辞書登録処理は終了する。

これにより、実際のユーザの口形に対応した口形パターンデータが口形辞書に登録されるので、さらに認識率を向上させることができる。

また、以上の説明では、読唇システム１０１が、口形辞書に登録されている各語句に対する認識スコアを認識結果として出力する例を示したが、他の形態の認識結果を出力するようにすることも可能である。

例えば、認識部１７２が、口形辞書に登録されている語句のうち、認識スコアが最大となる語句を抽出し、抽出した語句またはその口形パターンデータを認識結果として出力するようにしてもよい。

また、例えば、基本スコア算出部１９２が、図２９のステップＳ３０６の口形パターンデータ生成部１５１の処理と同様に、基本スコアに基づいて口形パターンデータを生成し、生成した口形パターンデータを認識結果として出力するようにしてもよい。

さらに、例えば、基本スコア算出部１９２が、基本スコアに基づいて口形パターンデータを生成した後、認識部１７２が、生成された口形パターンデータと一致する語句、または、類似度の高い口形パターンデータを有する語句を口形辞書から検索し、検索した語句を認識結果として出力するようにしてもよい。

また、以上の説明では、基本口形の種類を５種類の母音口形および閉唇口形の６種類とする例を示したが、必要に応じて、これ以外の種類に基本口形を分類するようにしてもよい。

さらに、日本語には初口形および終口形の構成は同じであるが、音が異なる言葉、すなわち、同口形異音語が存在する。例えば、他の装置への動作の指示を行うための操作コマンドを読唇システム１０１に認識させる場合、口形辞書に登録するコマンドに同口形異音語が含まれないように操作コマンドの種類を構成するようにすることで、すなわち、口形パターンデータと操作コマンドとが１対１に対応するようにすることで、操作コマンドの認識率を向上させることができる。

また、本発明の実施の形態においては、周囲の騒音が大きくても発話期間を正確に検出できるので、複数の短い操作コマンドを組み合わせることにより、同口形異音語による誤認識率を容易に低下させることができる。例えば、「ボイスコマンド」「エアコン」「２８度」や「ボイスコマンド」「ラジオ」「チャンネル」「１」のように、短い単語を区切って発するように操作コマンドを定め、「ボイスコマンド」が検出されたときにのみ、後に続く言葉に操作を指示する意図があると判定するようにすれば、会話のなかで「エアコン」や「ラジオ」などの単語が発せられても、操作を指示する意図があると誤認識されることがなくなる。

さらに、読唇システム１０１により得られた認識結果を、音声認識装置の音声認識の補助として用いたり、音声認識結果と組み合わせて言葉を認識するようにすることも可能である。例えば、音声認識の結果と読唇システム１０１の認識結果の双方に基づいて、言葉を認識するようにすることで、騒音が大きい、声の検出レベルが低い、音声情報にノイズが乗る等の要因による音声認識の認識率の低下を抑制することができる。また、同口形異音語が口形辞書に登録されている場合、音声認識した結果と組み合わせて判定することで、同口形異音語のいずれが発せられたかを認識することができる。

また、音声と口の動きの両方で言葉を認識した場合と、口の動きでのみで言葉を認識した場合とで、すなわち、話者が音声を発した場合と発しなかった場合とで、認識結果を用いて動作する装置の処理を変更するようにしてもよい。例えば、車両に搭載されている車載装置に対して、ドライバが、声に出して「ボイスコマンド」「メール」「確認」と操作コマンドを与えた場合には、車載装置や携帯電話機などに着信したメールの文章を読み上げるようにし、声を出さずに口だけを動かして「ボイスコマンド」「メール」「確認」と操作コマンドを与えた場合には、メールの文章をドライバだけに見えるように表示するようにすることができる。このようにすれば、同乗者にメールの内容を知られたくない場合においても、同乗者に気づかれずにメールを確認することができる。

また、以上の説明では、話者であるユーザの口形を示す情報として、ユーザの口を含む画像を用いる例を示したが、他の形態の情報を用いるようにしてもよい。例えば、ユーザの顔に照射された可視光、赤外線、紫外線、電波やX線などの電磁波、または、超音波など音波の反射波をユーザの口形を示す情報として用いるようにして、反射波を分析することにより、ユーザの口の形や動きを検出するようにしてもよい。あるいは、ユーザの顔の熱により発せられる赤外線を検出する赤外線画像センサにより検出された画像をユーザの口形を示す情報として用いるようにして、その画像を分析することにより、ユーザの口の形や動きを検出するようにしてもよい。あるいは、静電容量センサや近距離レーダなどの物体センサを用いて、ユーザの口や唇の形や動きを検出するようにしてもよい。

さらに、画像を用いて口の形や動きを検出する場合、２次元の画像を分析するようにしてもよいし、X線CT(Computed Tomography)などによる３次元の画像を分析するようにしてもよい。

また、以上の説明では、各ユーザの実際の基本口形画像を含む基本口形データを生成し、生成した基本口形データを用いて読唇処理を行う例を示したが、例えば、各基本口形に対する平均的な人の口形を表す画像を、CG（Computer Graphics）などにより作成したり、あるいは、モデルを使って作成し、作成した画像を用いた基本口形データを予め登録しておき、その基本口形データを用いて読唇処理を行うようにすることも可能である。

なお、以上の説明では、言葉を認識する対象となる話者が人である場合の例を示したが、本発明によれば、例えば、人の口の動きを正確に再現するロボットが話者である場合においても、話者が発した言葉を正確に認識することができる。

上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図３０は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータ４００の構成の例を示すブロック図である。CPU（Central Processing Unit）４０１は、ROM（Read Only Memory）４０２、または記録部４０８に記憶されているプログラムに従って各種の処理を実行する。RAM（Random Access Memory）４０３には、CPU４０１が実行するプログラムやデータなどが適宜記憶される。これらのCPU４０１、ROM４０２、およびRAM４０３は、バス４０４により相互に接続されている。

CPU４０１にはまた、バス４０４を介して入出力インタフェース４０５が接続されている。入出力インタフェース４０５には、キーボード、マウス、マイクロホン、カメラなどよりなる入力部４０６、ディスプレイ、スピーカなどよりなる出力部４０７が接続されている。CPU４０１は、入力部４０６から入力される指令に対応して各種の処理を実行する。そして、CPU４０１は、処理の結果を出力部４０７に出力する。

入出力インタフェース４０５に接続されている記録部４０８は、例えばハードディスクからなり、CPU４０１が実行するプログラムや各種のデータを記憶する。通信部４０９は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。

また、通信部４０９を介してプログラムを取得し、記録部４０８に記憶してもよい。

入出力インタフェース４０５に接続されているドライブ４１０は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア４１１が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記録部４０８に転送され、記憶される。

コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図３０に示すように、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア４１１、または、プログラムが一時的もしくは永続的に格納されるROM４０２や、記録部４０８を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部４０９を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。

なお、CPU４０１、ROM４０２、RAM４０３、バス４０４、および、入出力インタフェース４０５を、例えば、ワンチップマイコンにより構成することが可能である。

なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

さらに、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

単口形音を説明するための図である。複口形音を説明するための図である。日本語の各音の口形パターンの一覧である。本発明を適用した読唇システムの一実施の形態を示すブロック図である。基本口形データのデータ構造の例を示す図である。口形辞書のデータ構造の例を示す図である。図４の認識処理部の機能的構成を示すブロック図である。図４の読唇システムにより実行される基本口形データ登録処理を説明するためのフローチャートである。図８のステップＳ２の顔画像取得処理の詳細を説明するためのフローチャートである。図４の読唇システムにより実行される口形辞書登録処理を説明するための図である。図４の読唇システムにより実行される読唇処理を説明するためのフローチャートである。図１１のステップＳ１０４の認識処理の詳細を説明するためのフローチャートである。図１２のステップＳ１２１の類似度検出処理の詳細を説明するためのフローチャートである。類似度の時系列の変化の例を示す図である。図１３のステップＳ１４５の発話期間検出処理の詳細を説明するためのフローチャートである。発話開始フレームおよび発話終了フレームの位置の例を示す図である。図１２のステップＳ１２２の口形期間検出処理の詳細を説明するためのフローチャートである。類似度の変化の傾向を説明するための図である。増加傾向期間および減少傾向期間を説明するための図である。増加傾向期間および減少傾向期間を説明するための図である。初口形期間および終口形期間を説明するための図である。口形音節を説明するための図である。初口形出現フレームの位置の例を示す図である。基本スコアの例を示す図である。図１１のステップＳ１０５の識別結果出力処理の詳細を説明するためのフローチャートである。認識結果の出力例を示す図である。本発明を適用した読唇システムを用いて、ユーザの発した言葉を認識する実験の結果を示す図である。本発明を適用した読唇システムを用いて、ユーザの発した言葉を認識する実験の結果を示す図である。口形辞書登録処理の第２の実施の形態を説明するためのフローチャートである。パーソナルコンピュータの構成の例を示すブロック図である。

符号の説明

１０１読唇システム
１１１画像取得部
１１２読唇処理部
１１３認識結果出力部
１１５口形辞書管理部
１３１撮影部
１４１口検出部
１４２基本口形データ生成部
１４４基本口形データ記憶部
１４５認識処理部
１５１口形パターンデータ生成部
１５３口形辞書記憶部
１７１検出部
１７２認識部
１８１類似度検出部
１８２口形検出部
１９１口形期間検出部
１９２基本スコア算出部

Claims

口の動きに基づいて言葉を認識する読唇装置において、
話者の口形を示す口形情報に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形、および、１つの音を発し終える際に形作られる口形である第２の口形を検出する第１の口形検出手段と、
検出された前記第１の口形および前記第２の口形に基づいて、前記話者が発した言葉を認識する認識手段と
を含む読唇装置。
前記第１の口形および前記第２の口形は、言葉の中の各音を発するために形作られる口形を分類した複数の種類の口形である基本口形のうちのいずれかである
請求項１に記載の読唇装置。
前記基本口形は、母音を発するときに形作られる母音口形、および、唇を閉じた状態の閉唇口形を含む
請求項２に記載の読唇装置。
前記第１の口形検出手段は、
前記口形情報に示される口形と前記基本口形との類似度を検出する類似度検出手段と、
前記類似度に基づいて、前記第１の口形および前記第２の口形を検出する第２の口形検出手段と
を含む請求項２に記載の読唇装置。
前記第２の口形検出手段は、
前記類似度の時系列の変化に基づいて、前記第１の口形が現れる第１の口形期間および前記第２の口形が現れる第２の口形期間を検出する口形期間検出手段と、
前記第１の口形期間および前記第２の口形期間における前記類似度に基づいて、前記第１の口形および前記第２の口形を検出する第３の口形検出手段と
を含む請求項４に記載の読唇装置。
前記認識手段は、検出された前記第１の口形および前記第２の口形の種類の並びに基づいて、前記話者が発した言葉を認識する
請求項１に記載の読唇装置。
前記認識手段は、認識する対象となる語句と前記語句を発する場合に現れる前記第１の口形および前記第２の口形の種類を出現する順番に並べた口形パターンデータとが関連づけられている辞書に登録されている前記口形パターンデータと、検出された前記第１の口形および前記第２の口形の種類の並びとの類似度に基づいて、前記語句の中から前記話者が発した言葉を認識する
請求項１に記載の読唇装置。
前記辞書に語句を登録する場合、登録する語句が発せられたときに前記第１の口形検出手段により検出された前記第１の口形および前記第２の口形の種類の並びを前記語句に対応する前記口形パターンデータとして前記辞書に登録する登録手段を
さらに含む請求項７に記載の読唇装置。
入力された語句の読みから前記口形パターンデータを生成し、生成した前記口形パターンデータを入力された前記語句に対応する前記口形パターンデータとして前記辞書に登録する登録手段を
さらに含む請求項７に記載の読唇装置。
すでに同じ前記口形パターンデータが前記辞書に登録されている場合、登録する語句の変更を指示する情報を出力する出力手段を
さらに含む請求項８または９に記載の読唇装置。
前記口形情報は、前記話者の口を含む画像である
請求項１に記載の読唇装置。
前記第１の口形検出手段は、複数の話者の口を含む画像に基づいて、前記複数の話者の前記第１の口形および前記第２の口形をそれぞれ検出し、
前記認識手段は、前記複数の話者の前記第１の口形および前記第２の口形に基づいて、前記複数の話者が発した言葉をそれぞれ認識する
請求項１１に記載の読唇装置。
口の動きに基づいて言葉を認識する読唇装置の読唇方法において、
話者の口形を示す口形情報に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形、および、１つの音を発し終える際に形作られる口形である第２の口形を検出する口形検出ステップと、
検出された前記第１の口形および前記第２の口形に基づいて、前記話者が発した言葉を認識する認識ステップと
を含む読唇方法。
口の動きに基づいて言葉を認識する処理をコンピュータに実行させるプログラムであって、
話者の口形を示す口形情報に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形、および、１つの音を発し終える際に形作られる口形である第２の口形を検出する口形検出ステップと、
検出された前記第１の口形および前記第２の口形に基づいて、前記話者が発した言葉を認識する認識ステップと
を含むプログラム。
話者の口形を示す口形情報に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形、および、１つの音を発し終える際に形作られる口形である第２の口形を検出する口形検出手段を
含む情報処理装置。
話者の口形を示す口形情報に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形、および、１つの音を発し終える際に形作られる口形である第２の口形を検出する口形検出ステップを
を含む情報処理方法。
話者の口形を示す口形情報に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形、および、１つの音を発し終える際に形作られる口形である第２の口形を検出する口形検出ステップを
を含む処理をコンピュータに実行させるプログラム。
話者の口形と、言葉の中の各音を発するために形作られる口形を分類した複数の種類の口形である基本口形との類似度を検出する類似度検出手段と、
前記類似度の時系列の変化に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形が現れる第１の口形期間、および、１つの音を発し終える際に形作られる口形である第２の口形が現れる第２の口形期間を検出する口形期間検出手段と、
前記類似度に基づいて、それぞれの前記第１の口形期間および前記第２の口形期間における前記話者の口形と前記基本口形との類似度を示す基本スコアを算出する算出手段と
を含む情報処理装置。
話者の口形と、言葉の中の各音を発するために形作られる口形を分類した複数の種類の口形である基本口形との類似度を検出する類似度検出ステップと、
前記類似度の時系列の変化に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形が現れる第１の口形期間、および、１つの音を発し終える際に形作られる口形である第２の口形が現れる第２の口形期間を検出する口形期間検出ステップと、
前記類似度に基づいて、それぞれの前記第１の口形期間および前記第２の口形期間における前記話者の口形と前記基本口形との類似度を示す基本スコアを算出する算出ステップと
を含む情報処理方法。
話者の口形と、言葉の中の各音を発するために形作られる口形を分類した複数の種類の口形である基本口形との類似度を検出する類似度検出ステップと、
前記類似度の時系列の変化に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形が現れる第１の口形期間、および、１つの音を発し終える際に形作られる口形である第２の口形が現れる第２の口形期間を検出する口形期間検出ステップと、
前記類似度に基づいて、それぞれの前記第１の口形期間および前記第２の口形期間における前記話者の口形と前記基本口形との類似度を示す基本スコアを算出する算出ステップと
を含む処理をコンピュータに実行させるプログラム。
話者が言葉を発している期間である発話期間を検出する検出装置において、
話者の口形と、言葉の中の各音を発するために形作られる口形を分類した複数の種類の口形である基本口形との類似度を検出する類似度検出手段と、
前記類似度の時系列の変化に基づいて、前記発話期間を検出する発話期間検出手段と
を含む検出装置。
前記基本口形は、母音を発するときに形作られる母音口形、および、唇を閉じた状態の閉唇口形を含み、
前記発話期間検出手段は、前記閉唇口形に対する前記類似度が最大となり、かつ、全ての前記基本口形に対する前記類似度の変化が所定の閾値以下となる期間を除く期間を前記発話期間として検出する
請求項２１に記載の検出装置。
話者が言葉を発している期間である発話期間を検出する検出装置の検出方法において、
話者の口形と、言葉の中の各音を発するために形作られる口形を分類した複数の種類の口形である基本口形との類似度を検出する類似度検出ステップと、
前記類似度の時系列の変化に基づいて、前記発話期間を検出する発話期間検出ステップと
を含む検出方法。
話者が言葉を発している期間である発話期間を検出する処理をコンピュータに実行させるプログラムにおいて、
話者の口形と、言葉の中の各音を発するために形作られる口形を分類した複数の種類の口形である基本口形との類似度を検出する類似度検出ステップと、
前記類似度の時系列の変化に基づいて、前記発話期間を検出する発話期間検出ステップと
を含むプログラム。
口の動きに基づいて言葉を認識するコンピュータによる処理の用に供するデータのデータ構造であって、
認識する対象となる語句と、
所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第１の口形、および、１つの音を発し終える際に形作られる口形である第２の口形の種類を、前記語句を発する場合に現れる順番に並べた口形パターンデータと
を関連づけたデータ構造。
請求項２５に記載のデータ構造を有するデータが記録されている記録媒体。