JP2015172848A

JP2015172848A - 読唇入力装置、読唇入力方法及び読唇入力プログラム

Info

Publication number: JP2015172848A
Application number: JP2014048268A
Authority: JP
Inventors: 光昭小関; Mitsuaki Koseki
Original assignee: Zenrin Datacom Co Ltd
Current assignee: Zenrin Datacom Co Ltd
Priority date: 2014-03-12
Filing date: 2014-03-12
Publication date: 2015-10-01

Abstract

【課題】読唇技術を用いて高い認識率の文字入力を可能にする読唇入力装置を提供する。
【解決手段】日本語の文字の一文字ずつを人の唇の動きパターンから認識して入力された文字とする読唇入力装置である。日本語の少なくとも母音の文字に対応する唇の動きパターンの画像データを記憶する読唇用パターン記憶部を備える。読唇手段は、カメラ部で撮影された人の唇の動きパターンと読唇用パターン記憶部に記憶されている唇の動きパターンとのパターンマッチング処理により、人の唇の動きパターンに対応する文字を認識する。日本語の子音の文字のそれぞれを選択指定するための補助操作を認識するための補助操作認識手段を備える。補助操作認識手段において、補助操作がなされたか否かを判別し、補助操作がなされたと判別したときには、読唇手段での認識結果と補助操作認識手段で認識された補助操作とから入力文字を判定して読唇結果とする。
【選択図】図１

Description

この発明は、文字を発音するときの人の唇の動きパターンから文字を認識するようにする読唇入力装置及び読唇入力方法並びに読唇入力プログラムに関する。

最近は音声認識の認識率が高くなり、種々の機器に音声認識技術が適用されている。例えば、スマートフォンと呼ばれる高機能携帯電話端末では音声認識による入力手段が標準で装備されるようになっている。

しかし、電車の中など周囲に人がいる場合には、声を出すと迷惑になるために、音声認識を利用しにくい。また、騒音がひどい状況では、音声認識の認識率が低下してしまう。

そこで、従来から、人の唇の動きパターンに基づいて言葉を認識する読唇技術により、音声認識機能を補完する発明が、例えば特許文献１（特開２００８‐３１０３８２号公報）や特許文献２（特開２０１３‐０４５２８２号公報）など、種々提案されている。

特開２００８‐３１０３８２号公報特開２０１３‐０４５２８２号公報

上記の特許文献１や特許文献２も含め、従来は、読唇技術は音声認識を補完する技術としか利用されていない。これは、読唇技術を単独で用いた場合の認識率が現状では低く、単独の認識技術としては実用的ではないという理由による。

しかしながら、読唇技術を音声認識の補完に用いる場合には、音声認識が主となっているので、人が声を発することが前提となっている。このため、上述のような声を出せない状況や、騒音がひどい状況では利用しづらいという問題は依然として改善されていない。

この発明は、以上の点に鑑み、音声認識の補完ではなく、読唇技術を用いて高い認識率の文字入力を可能にする読唇入力装置を提供することを目的とする。

上記の課題を解決するために、この発明は、
日本語の文字の一文字ずつを人の唇の動きパターンから認識して入力された文字とする読唇入力装置であって、
人の唇の動きパターンを撮影するカメラ部と、
日本語の少なくとも母音の文字に対応する唇の動きパターンの画像データを記憶する読唇用パターン記憶部と、
日本語の子音の文字のそれぞれを選択指定するための補助操作を認識するための補助操作認識手段と、
前記カメラ部で撮影された前記人の唇の動きパターンと前記読唇用パターン記憶部に記憶されている唇の動きパターンとのパターンマッチング処理により、前記カメラ部で撮影された前記人の唇の動きパターンに対応する文字を認識する読唇手段と、
前記補助操作認識手段において、前記補助操作がなされたか否かを判別し、前記補助操作がなされたと判別したときには、前記読唇手段での認識結果と前記補助操作認識手段で認識された補助操作とから入力文字を判定して読唇結果とする読唇結果出力手段と、
を備えることを特徴とする読唇入力装置を提供する。

日本語は、例えば「そ・ば・や・を・け・ん・さ・く」というように、語句を一文字ずつに区切ってゆっくりと発音することで語句の入力が可能である。これに対して、例えば英語は、対応する語句（フレーズ）「Search Soba Noodle Restaurant」を、アルファベットの一文字ずつ区切って発音しても「エス、イー、エー、アール、・・・」となってしまい、入力したい語句（フレーズ）を入力できない。すなわち、日本語は、語句を一文字ずつに区切ってゆっくりと発音することで語句の入力が可能な極めて稀な言語と言える。

また、日本語の５０音の文字は、「あ」、「い」、「う」、「え」、「お」の５個の母音と、「あ、か、さ、た、な、は、ま、や、ら、わ」の１０個の子音とを組み合わせて発音することができる。そして、各文字を発音する際の唇の動きパターンは、母音に応じたものとなる。ただし、「ん」の文字は、特殊である。

この発明は、以上の日本語の特徴に基づいて、認識対象を日本語に絞った読唇入力装置を提供するものである。

すなわち、この発明においては、読唇用パターン記憶部には、少なくとも「あ」、「い」、「う」、「え」、「お」の５個の母音の文字に対応する唇の動きパターンの画像データが記憶されている。

読唇手段は、カメラ部で撮影された人の唇の動きパターンと、読唇用パターン記憶部に記憶されている唇の動きパターンとのパターンマッチング処理により、カメラ部で撮影された人の唇の動きパターンに対応する文字を認識する。したがって、「あ」、「い」、「う」、「え」、「お」の文字は、そのまま入力文字として認識することができる。しかし、「か行」、「さ行」、「た行」、「な行」、「は行」、「ま行」、「や行」、「ら行」、「わ行」などの文字は、唇の動きパターンのみでは、誤認識してしまう恐れがある。

この発明では、補助操作認識手段を設ける。この補助操作認識手段は、日本語の子音の文字のそれぞれを選択指定するための補助操作を認識する。そして、読唇結果出力手段は、補助操作認識手段において、補助操作がなされたか否かを判別し、補助操作がなされたと判別したときには、読唇手段での認識結果と補助操作認識手段で認識された補助操作とから入力文字を判定して読唇結果とする。

したがって、読唇結果出力手段は、例えば読唇手段で、人の唇の動き画像に基づいて認識した文字が「う」であり、補助操作認識手段での補助操作により「か行」が選択指定されているときには、人の唇の動きで入力された文字は、「く」であると判定する。

この発明による読唇入力装置によれば、読唇手段の読唇結果を、補助操作認識手段での補助操作で補正することにより、日本語の文字についての読唇による入力を高い認識率で実現することができる。

この発明による読唇入力装置の実施形態としての携帯電話端末の構成例を示すブロック図である。図１の構成例の一部の構成を説明するための図である。図１の構成例の一部の構成を説明するための図である。この発明による読唇入力装置の実施形態の処理動作例を説明するための図である。この発明による読唇入力装置の実施形態の処理動作例における処理の流れを説明するためのフローチャートの一部を示す図である。この発明による読唇入力装置の実施形態の処理動作例における処理の流れを説明するためのフローチャートの一部を示す図である。この発明による読唇入力装置の実施形態の一部の構成の他の例を説明するための図である。

以下、この発明による読唇入力装置の実施形態を、図を参照しながら説明する。この発明による読唇入力装置は、種々の電子機器の日本語の文字入力装置として適用可能である。以下に説明する例は、スマートフォンと呼ばれる高機能携帯電話端末の日本語入力手段として、この発明による読唇入力装置が適用された場合である。

図１は、この発明による読唇入力装置の実施形態が適用された携帯電話端末１のハードウエア構成例を示すブロック図である。すなわち、この実施形態の携帯電話端末１は、バス１００を通じて、制御部１０１に対して、無線電話通信回路部１０２、通話回路部１０３、表示制御部１０４、タッチパネルインターフェース１０５、カメラ部１０６、読唇部１０７、読唇用唇動きパターン記憶部１０８、補助操作情報記憶部１０９、補助操作認識部１１０、読唇結果出力部１１１、のそれぞれが接続されて、構成されている。

制御部１０１は、携帯電話端末１の全体を制御するためのもので、コンピュータで構成されている。無線電話通信回路部１０２は、携帯電話端末１の基地局と無線接続されて、携帯電話網を通じて通信を行うためのものである。

通話回路部１０３には、受話器としてのスピーカ１２１が接続されると共に、送話器としてのマイクロホン１２２が接続されている。また、表示制御部１０４には、例えばＬＣＤからなるディスプレイ１２３が接続され、このディスプレイ１２３に重畳して、タッチパネル１２４が設けられて、使用者の操作入力用とされる。タッチパネル１２４は、タッチパネルインターフェース１０５に接続されている。

カメラ部１０６は、ディスプレイ１２３の表示画面を見ている携帯電話端末１の使用者を撮影することができるように、ディスプレイ１２３の表示画面と同一面に配置されている。このカメラ部１０６は、静止画のみではなく、動画の撮影が可能とされている。後述する読唇入力装置のアプリケーションが携帯電話端末で起動されたときには、このカメラ部１０６は、制御部１０１の制御に基づいて動画を撮影する状態となって、撮影して得た使用者の唇の動き画像をバス１００に出力するようにする。

読唇用唇動きパターン記憶部１０８は、読唇により認識する文字についての唇の動きパターンを記憶している。この実施形態では、この読唇用動きパターン記憶部１０８には、図２に示すように、日本語の母音である「あ」、「い」、「う」、「え」、「お」の各文字と、特殊な唇パターンの文字「ん」の文字の、合計６文字を認識対象文字として、それぞれの文字に対応する唇の動きパターン画像が登録されている。

この実施形態では、携帯電話端末１の使用者が、予め、「あ」、「い」、「う」、「え」、「お」、「ん」の文字を発音する際の自身の唇の動きパターンを、カメラ部１０６で撮影して登録し、読唇用唇動きパターン記憶部１０８に記憶するようにする。

なお、製造会社あるいは販売会社において、予め、携帯電話端末１の読唇用唇動きパターン記憶部１０８に、日本人の平均的な「あ」、「い」、「う」、「え」、「お」、「ん」の文字を発音する際の唇の動きパターンを記憶しておいても良い。

読唇部１０７は、カメラ部１０６で撮影した携帯電話端末１の使用者の唇の動き画像と、読唇用唇動きパターン記憶部１０８に記憶されている６個の文字についての唇の動きパターン画像とを比較してパターンマッチングを行って、携帯電話端末１の使用者の唇の動き画像と一致するとすることができる認識対象文字を判定する機能部である。そして、読唇部１０７は、判定した認識対象文字の情報を読唇結果出力部１１１に送る。ここで、携帯電話端末１の使用者の唇の動き画像と、読唇用唇動きパターン記憶部１０８に記憶されている６個の文字についての唇の動きパターン画像とが一致したとは、完全一致ではなく、類似度が所定の閾値を超えている場合である。

補助操作表示情報生成部１０９は、読唇部１０７でのパターンマッチング処理の結果を補完するための補助操作のための表示情報を生成して、ディスプレイ１２３の表示画面に表示する。この実施形態では、補助操作表示情報生成部１０９は、図３に示すように、「あいうえお」の母音と組み合わせて５０音の文字を生成することができる子音の「あかさたなはまやらわ」の１０文字と、母音と組み合わせて濁音、半濁音、拗音で表される文字を生成するための文字（図３参照）とを、補助操作用文字として、ディスプレイ１２３の表示画面にタッチパネル１２４で操作可能となる状態で表示して、使用者に操作させるようにする。

補助操作認識部１１０は、補助操作表示情報生成部１０９からの表示情報と、タッチパネルインターフェース１０５を通じたタッチパネル１２３における使用者の操作情報とから、図３に示した補助操作用文字の内のいずれかの文字が選択指示操作されたか否かを判別し、選択指示操作がされたと判別したときには、その選択指示操作された文字が何かを認識する。そして、補助操作認識部１１０は、使用者により補助操作用文字のいずれかが選択指示操作されたかどうかの情報と、選択指示操作がされたときには、当該選択指示操作された補助操作用文字の情報を、読唇結果出力部１１１に送る。

読唇結果出力部１１１は、読唇部１０７から送られてくる認識対象文字の情報と、補助操作認識部１１０からの情報とに基づいて、読唇結果とする文字を判定する。そして、この実施形態では、使用者の一文字ずつの確定操作（例えば後述するディスプレイ１２３の画面をタップする操作）に応じて、その判定した文字を確定した読唇結果として表示するようにする。

すなわち、読唇結果出力部１１１は、補助操作認識部１１０からの補助操作用文字が選択指示操作されたかどうか情報により、補助操作用文字が選択指示操作されてはいないと判別したときには、読唇部１０７から送られてくる認識対象文字を読唇結果とする文字と判定する。すなわち、この実施形態では、「あ」、「い」、「う」、「え」、「お」、「ん」の各文字は、読唇部１０７で認識された文字がそのまま読唇結果として判定され、表示出力される。

また、読唇結果出力部１１１は、補助操作認識部１１０からの補助操作用文字が選択指示操作されたかどうか情報により、補助操作用文字が選択指示操作されていると判別したときには、読唇部１０７から送られてくる認識対象文字と補助操作認識部１１０からの選択指示操作された補助操作用文字の情報とから、読唇結果とする文字を判定する。例えば、読唇部１０７から送られてくる認識対象文字が「う」であって、補助操作認識部１１０から送られてきた選択指示操作された補助操作用文字が「か」であれば、読唇結果として、「く」が判定され、表示出力される。

以上のように、この実施形態の携帯電話端末１においては、カメラ部１０６、読唇部１０７、読唇用唇動きパターン記憶部１０８、補助操作表示情報生成部１０９、補助操作認識部１１０及び読唇結果出力部１１１により、読唇入力装置の実施形態が構成される。携帯電話端末１では、この読唇入力装置を、一つのアプリケーションとして搭載しており、携帯電話端末１のユーザからの起動要求に応じて起動することができる。

なお、読唇部１０７、補助操作表示情報生成部１０９、補助操作認識部１１０、読唇結果出力部１１１のそれぞれの機能は、制御部１０１がプログラムを実行することで実行するソフトウエア機能として実現することもできるものである。また、読唇用唇動きパターン記憶部１０８に、使用者が自分の唇の動きパターンを登録して記憶するようにする機能処理も、そのプログラムに含まれる。なお、このプログラムは、携帯電話端末１に最初から組み込んでおくようにしてもよいし、携帯電話端末１の使用者が、インターネットや、パッケージメディアなどを通じて取得して、携帯電話端末１にインストールするようにしてもよい。

［携帯電話端末１における読唇入力装置の機能の処理動作例］
図４は、この携帯電話端末１における読唇入力装置の機能の処理動作例を説明するための図である。携帯電話端末１の使用者は、携帯電話端末１において、この読唇入力装置のアプリケーションを起動する。そして、図４（Ａ）に示すように、使用者２は、携帯電話端末１を、そのディスプレイ１２３側の面を自分に向けてカメラ部１０６で自分を撮影することができる状態で保持する。この状態で、使用者２が、「そばやをけんさく」という語句を入力するために、発声せずに、あるいは発声を伴って、唇を動かした場合を想定する。

図４（Ｂ）及び図４（Ｃ）は、この時の携帯電話端末１のディスプレイ１２３の表示画面１２３Ｄにおける表示例を示すものである。図４（Ｂ）、（Ｃ）の表示例では、使用者２が「そばやを」までを読唇入力した状態から、次の文字である「け」を読唇結果とする場合を示している。

図４（Ｂ）、（Ｃ）の表示例において、表示画面１２３Ｄには、読唇入力語句表示欄３１と、読唇入力候補文字表示欄３２と、補助操作用文字群３３及び入力語句決定ボタン３４などが表示されている。この実施形態では、読唇入力候補表示欄３２には、読唇結果出力部１１１で判定されて出力された文字が表示される。そして、例えば当該読唇入力候補表示欄３２が使用者２により指でタップされると、その時に表示されていた文字が読唇結果の文字として確定され、読唇入力語句表示欄３１に、その前に確定されていた文字列の最後に追加表示されるように構成されている。

なお、この実施形態では、読唇入力候補表示欄３２を指でタップ操作することで、その時に読唇入力候補表示欄３２に表示されていた文字を読唇結果の文字として確定するようにしたが、このようなタップ操作がなくても、使用者２が次の文字を入力するように唇の動きを変化されたときには、それを確定のトリガと見なして、その時に読唇入力候補表示欄３２に表示されていた文字を読唇結果の文字として確定するようにしてもよい。

補助操作用文字群３３は、補助操作表示情報生成部１０９で生成されるものであり、前述の図３に示した補助操作用文字群からなる。そして、この実施形態では、使用者２が、この補助操作用文字群３３のそれぞれの文字を、タッチパネル１２４を通じて選択指示操作入力をすることができるようにされている。

図４（Ａ）に示すように、使用者２が例えば「け」を入力するように唇を動かすと、その時の唇の動き画像が、カメラ部１０６で撮影され、当該撮影された唇の動き画像が読唇部１０７に供給される。読唇部１０７では、このカメラ部１０６からの唇の動き画像と、読唇用唇動きパターン記憶部１０８の図２に示した読唇用唇動きパターンとのパターンマッチング処理がなされ、「え」の文字が認識される。このとき、使用者２により、補助操作用文字群３３のいずれもが選択指示操作されていないときには、読唇結果出力部１１１は、読唇部１０７で認識された母音の「え」を入力された文字として判定し、出力する。したがって、使用者２により、補助操作用文字群３３のいずれもが選択指示操作されていないときには、読唇入力候補表示欄３２には、図４（Ｂ）に示すように、読唇部１０７で認識された「え」の文字がそのまま表示される。

また、使用者２により、補助操作用文字群３３の内の「か」が選択指示操作されていたときには、読唇結果出力部１１１は、読唇部１０７で認識された母音の「え」と、補助操作用文字群３３で選択指示操作されている子音の文字「か」とから、「け」が入力されたと文字として判定し、出力する。したがって、読唇入力候補表示欄３２には、図４（Ｃ）に示すように、当該「け」の文字が表示される。

その後、この実施形態では、読唇入力候補表示欄３２が使用者２により指でタップされると、読唇入力候補表示欄３２に表示されていた読唇入力候補文字が、読唇入力文字として確定され、読唇入力語句表示欄３１に移行して表示され、読唇入力候補表示欄３２の文字は消去され、次の読唇入力候補文字の入力の準備が整った状態となる。

使用者は、これに引き続き、「ん」、「さ」、「く」の文字を発声するように唇を動かす（必要に応じて音声は発しない）ようにする。これにより、「そばやをけんさく」の語句の入力が終了したら、使用者は決定ボタン３４を操作する。携帯電話端末１では、この例では、この読唇入力語句に基づいて、「蕎麦屋」の検索動作を実行するようにする。

なお、補助操作用文字群３３に対する補助指示操作は、使用者が入力したい文字の発声をするように唇を動かすのと同時（例えば「か」を操作しながら、使用者が「う」または「く」の発声をするように唇を動かす）であってもよいし、使用者が入力したい文字の発声をするように唇を動かして、これに応じて読唇部１０７が認識した読唇入力候補文字を、読唇結果出力部１１１が読唇入力候補表示欄３２に表示している状態で、使用者が後から、補助操作用文字群３３の内の希望する子音などの文字を操作するようにして、読唇入力候補表示欄３２に表示する読唇結果を入力を希望する文字に補正するようにしてもよい。

［読唇入力処理の流れの例］
図５及びその続きである図６に、以上説明した読唇入力処理の流れの例のフローチャートを示す。以下の図５及び図６のフローチャートの説明は、制御部１０１が、読唇部１０７、補助操作表示情報生成部１０９、補助操作認識部１１０、読唇結果出力部１１１のそれぞれの機能を、プログラムを用いて実行するとした場合として説明する。

制御部１０１は、まず、読唇入力のアプリケーションが起動されたか否か判別する（ステップＳ１０１）。このステップＳ１０１で、読唇入力のアプリケーションが起動されていないと判別したときには、制御部１０１は、その他の処理を実行し（ステップＳ１０２）、その処理の終了の後、処理をステップＳ１０１に戻す。

ステップＳ１０１で、読唇入力のアプリケーションが起動されたと判別したときには、制御部１０１は、図４（Ｂ），（Ｃ）に示したような読唇入力用画面を、ディスプレイ１２３の表示画面１２３Ｄに表示する（ステップＳ１０３）。そして、制御部１０１は、カメラ部１０６を起動して動画の撮影を開始させ、読唇部１０７の機能である読唇処理を実行する（ステップＳ１０４）。

そして、ステップＳ１０４での読唇処理の結果として、カメラ部１０６からの使用者の唇の動き画像が、読唇用唇動きパターン記憶部１０８に記憶されている唇動きパターンのいずれかと一致したか否かにより、読唇認識ができたか否か判別し（ステップＳ１０５）、読唇認識ができなかったときには、読唇認識ができるまで、ステップＳ１０５の処理を継続する。このステップＳ１０５で、使用者の唇の動き画像について、読唇用唇動きパターン記憶部１０８に記憶されている唇動きパターンのいずれかと一致したとして読唇認識ができたと判別したときには、制御部１０１は、補助操作用文字群３３のいずれかが操作されているか否かを監視することにより、補助操作がなされているか否か判別する（ステップＳ１０６）。

このステップＳ１０６で、補助操作がなされていないと判別したときには、制御部１０１は、ステップＳ１０５で、読唇部１０７の機能により唇の動き画像について読唇認識できた文字を、図４（Ｂ）に示したように、ディスプレイ１２３の表示画面１２３Ｄの読唇入力候補表示欄３２に表示する（ステップＳ１０７）。そして、制御部１０１は、補助操作用文字群３３のいずれかが操作されているか否かを監視することにより、補助操作がなされているか否か判別する（ステップＳ１０８）。

そして、ステップＳ１０６またはステップＳ１０８で、補助操作がなされていると判別したときには、制御部１０１は、ステップＳ１０５で、唇の動き画像について読唇認識できた文字を母音とし、補助操作として選択指示操作されている補助操作用文字群３３の内の文字を子音として、読唇結果の文字を判定し、ディスプレイ１２３の表示画面１２３Ｄの読唇入力候補表示欄３２に表示する（ステップＳ１０９）。

このステップＳ１０９の次には、例えばディスプレイ１２３の表示画面１２３Ｄの読唇入力候補表示欄３２がタップされたか否かを監視することにより、確定操作がなされたか否か判別し（ステップＳ１１０）。ステップＳ１０８で、補助操作がなされていないと判別したときにも、制御部１０１は、処理をこのステップＳ１１０に進め、確定操作がなされたか否か判別する。

このステップＳ１１０で、確定操作はなされていないと判別したときには、制御部１０１は、処理をステップＳ１０５に戻し、このステップＳ１０５の処理を繰り返す。また、ステップＳ１１０で、確定操作がなされたと判別したときには、制御部１０１は、読唇入力候補表示欄３２に表示されていた文字を確定した文字として、ディスプレイ１２３の表示画面１２３Ｄの読唇入力語句表示欄３１に移動させるようにする（図６のステップＳ１２１）。このとき、確定された文字は、それまでに、この読唇入力語句表示欄３１に表示されていた文字の最後尾に表示する。

次に、制御部１０１は、決定ボタン３４が操作されたか否か判別し（ステップＳ１２２）、決定ボタン３４は操作されていないと判別したときには、処理を図５のステップＳ１０５に戻し、このステップＳ１０５以降の処理を繰り返す。

ステップＳ１２２で、決定ボタン３４が操作されたと判別したときには、制御部１０１は、当該決定ボタン３４が操作された時点に読唇入力語句表示欄３１に表示されていた文字列からなる語句を入力語句として判定し、その語句で指示される処理を実行するようにする（ステップＳ１２３）。その後は、制御部１０１は、この読唇入力処理のルーチンを終了して、その指示された処理のルーチンを続いて実行する。

［実施形態の効果］
以上のようにして、上述の実施形態の読唇入力装置を備える携帯電話端末１によれば、音声認識の補助ではなく、唇の動きに基づいて、日本語の文字を一文字ずつ認識および判定して、日本語の語句の入力をすることができる。この場合に、上述の実施形態によれば、日本語の特質を生かして、読唇部１０７の認識結果を、補助操作により補完するようにしたので、読唇結果は、高い認識率となる。

そして、上述の実施形態では、読唇部１０７で読唇認識するための比較用の唇動きパターン画像は、高々６文字分であるので、読唇部１０７での認識速度は非常に高速になる。このため、補助操作を加えても、比較的高速に文字入力を行えるという効果がある。

［その他の実施形態又は変形例］
なお、上述の実施形態では、「あかさたなはまやらわ」などの補助操作用文字群３３の補助操作用表示画像を生成して、表示画面に表示するようにしたが、既存のキーボード文字を補助操作用文字として利用することもできる。図７は、その場合の補助操作用文字の例と、その補助操作用文字での認識対象の対応表である。すなわち、例えば「Ｋ」の文字は、子音の「か行」を意味している。また、「ＫＹ」は、「Ｋ」と「Ｙ」の２文字の操作を意味し、それは拗音の「きゃ、きゅ、きょ」を意味するものとなっている。

また、補助操作用の操作手段は、上述の実施形態のような表示画面に表示する文字を選択する操作に限られるものではない。例えば、使用者が、「あかさたなはまやらわ」などの補助操作用文字をそれぞれを特定するための操作を、指や手の形や仕草や動きの違いにより表現するようにし、当該指や手の形や仕草や動きをカメラ部１０６で撮影し、その撮像画像から、「あかさたなはまやらわ」などの補助操作用文字のいずれを選択指示しているかを判断するようにしてもよい。

なお、上述の実施形態では、読唇用唇動きパターン記憶部１０８には、「あ」、「い」、「う」、「え」、「お」、「ん」の６文字についてのみ、対応する唇の動きパターン画像を登録するようにしたが、その他の各文字について、対応する唇の動きパターン画像を登録するようにしてもよい。その場合においても、読唇による認識結果が誤っている場合には、補助操作をすることで、正しい文字に補正することができることは容易に理解できよう。

１０１…制御部、１０６…カメラ部、１２…歩行者用ＮＷデータ格納部、１３…自動車用ＮＷデータ格納部、１４…経路探索部、１５…メモリ部、１８…経路案内処理部、１９…現在位置測定部、１５１…経路探索結果格納部

Claims

日本語の文字の一文字ずつを人の唇の動きパターンから認識して入力された文字とする読唇入力装置であって、
人の唇の動きパターンを撮影するカメラ部と、
日本語の少なくとも母音の文字に対応する唇の動きパターンの画像データを記憶する読唇用パターン記憶部と、
日本語の子音の文字のそれぞれを選択指定するための補助操作を認識するための補助操作認識手段と、
前記カメラ部で撮影された前記人の唇の動きパターンと前記読唇用パターン記憶部に記憶されている唇の動きパターンとのパターンマッチング処理により、前記カメラ部で撮影された前記人の唇の動きパターンに対応する文字を認識する読唇手段と、
前記補助操作認識手段において、前記補助操作がなされたか否かを判別し、前記補助操作がなされたと判別したときには、前記読唇手段での認識結果と前記補助操作認識手段で認識された補助操作とから入力文字を判定して読唇結果とする読唇結果出力手段と、
を備えることを特徴とする読唇入力装置。
前記読唇用パターン記憶部には、少なくとも「あ」、「い」、「う」、「え」、「お」及び「ん」の文字を発音するときの唇の動きパターンの画像データが記憶されている
ことを特徴とする請求項１に記載の読唇入力装置。
前記補助操作は、日本語の子音の文字に対応する複数個の操作子の中の操作子を選択する操作である
ことを特徴とする請求項１または請求項２に記載の読唇入力装置。
前記補助操作は、日本語の子音の文字に対応する人の所作またはジェスチャーである
ことを特徴とする請求項１または請求項２に記載の読唇入力装置。
前記読唇結果出力手段からの前記読唇結果の入力文字を表示画面に表示する表示手段を備える
ことを特徴とする請求項１〜請求項４のいずれかに記載の読唇入力装置。
日本語の文字の一文字ずつを人の唇の動きパターンから認識して入力された文字とする読唇入力装置であって、人の唇の動きパターンを撮影するカメラ部と、日本語の少なくとも母音の文字に対応する唇の動きパターンの画像データを記憶する読唇用パターン記憶部とを備える読唇入力装置が行う読唇入力方法であって、
前記カメラ部で撮影された前記人の唇の動きパターンと前記読唇用パターン記憶部に記憶されている唇の動きパターンとのパターンマッチング処理により、前記カメラ部で撮影された前記人の唇の動きパターンに対応する文字を認識する読唇工程と、
日本語の子音の文字のそれぞれを選択指定するための補助操作を認識する補助操作認識工程と、
前記補助操作認識工程において、前記補助操作がなされたか否かを判別する判別工程と、
前記判別工程で、前記補助操作がなされたと判別したときには、前記読唇工程での認識結果と前記補助操作認識工程で認識された補助操作とから入力文字を判定して読唇結果とする読唇結果出力工程と、
を有することを特徴とする読唇入力方法。
日本語の文字の一文字ずつを人の唇の動きパターンから認識して入力された文字とする読唇入力装置であって、人の唇の動きパターンを撮影するカメラ部と、日本語の少なくとも母音の文字に対応する唇の動きパターンの画像データを記憶する読唇用パターン記憶部とを備える読唇入力装置が備えるコンピュータが、
前記カメラ部で撮影された前記人の唇の動きパターンと前記読唇用パターン記憶部に記憶されている唇の動きパターンとのパターンマッチング処理により、前記カメラ部で撮影された前記人の唇の動きパターンに対応する文字を認識する読唇工程、
日本語の子音の文字のそれぞれを選択指定するための補助操作を認識する補助操作認識工程、
前記補助操作認識工程において、前記補助操作がなされたか否かを判別する判別工程、
前記判別工程で、前記補助操作がなされたと判別したときには、前記読唇工程での認識結果と前記補助操作認識工程で認識された補助操作とから入力文字を判定して読唇結果とする読唇結果出力工程、
を実行するための読唇入力プログラム。