JP2015172848A - 読唇入力装置、読唇入力方法及び読唇入力プログラム - Google Patents
読唇入力装置、読唇入力方法及び読唇入力プログラム Download PDFInfo
- Publication number
- JP2015172848A JP2015172848A JP2014048268A JP2014048268A JP2015172848A JP 2015172848 A JP2015172848 A JP 2015172848A JP 2014048268 A JP2014048268 A JP 2014048268A JP 2014048268 A JP2014048268 A JP 2014048268A JP 2015172848 A JP2015172848 A JP 2015172848A
- Authority
- JP
- Japan
- Prior art keywords
- lip
- lip reading
- auxiliary operation
- character
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
- Image Analysis (AREA)
Abstract
【課題】読唇技術を用いて高い認識率の文字入力を可能にする読唇入力装置を提供する。
【解決手段】日本語の文字の一文字ずつを人の唇の動きパターンから認識して入力された文字とする読唇入力装置である。日本語の少なくとも母音の文字に対応する唇の動きパターンの画像データを記憶する読唇用パターン記憶部を備える。読唇手段は、カメラ部で撮影された人の唇の動きパターンと読唇用パターン記憶部に記憶されている唇の動きパターンとのパターンマッチング処理により、人の唇の動きパターンに対応する文字を認識する。日本語の子音の文字のそれぞれを選択指定するための補助操作を認識するための補助操作認識手段を備える。補助操作認識手段において、補助操作がなされたか否かを判別し、補助操作がなされたと判別したときには、読唇手段での認識結果と補助操作認識手段で認識された補助操作とから入力文字を判定して読唇結果とする。
【選択図】図1
【解決手段】日本語の文字の一文字ずつを人の唇の動きパターンから認識して入力された文字とする読唇入力装置である。日本語の少なくとも母音の文字に対応する唇の動きパターンの画像データを記憶する読唇用パターン記憶部を備える。読唇手段は、カメラ部で撮影された人の唇の動きパターンと読唇用パターン記憶部に記憶されている唇の動きパターンとのパターンマッチング処理により、人の唇の動きパターンに対応する文字を認識する。日本語の子音の文字のそれぞれを選択指定するための補助操作を認識するための補助操作認識手段を備える。補助操作認識手段において、補助操作がなされたか否かを判別し、補助操作がなされたと判別したときには、読唇手段での認識結果と補助操作認識手段で認識された補助操作とから入力文字を判定して読唇結果とする。
【選択図】図1
Description
この発明は、文字を発音するときの人の唇の動きパターンから文字を認識するようにする読唇入力装置及び読唇入力方法並びに読唇入力プログラムに関する。
最近は音声認識の認識率が高くなり、種々の機器に音声認識技術が適用されている。例えば、スマートフォンと呼ばれる高機能携帯電話端末では音声認識による入力手段が標準で装備されるようになっている。
しかし、電車の中など周囲に人がいる場合には、声を出すと迷惑になるために、音声認識を利用しにくい。また、騒音がひどい状況では、音声認識の認識率が低下してしまう。
そこで、従来から、人の唇の動きパターンに基づいて言葉を認識する読唇技術により、音声認識機能を補完する発明が、例えば特許文献1(特開2008‐310382号公報)や特許文献2(特開2013‐045282号公報)など、種々提案されている。
上記の特許文献1や特許文献2も含め、従来は、読唇技術は音声認識を補完する技術としか利用されていない。これは、読唇技術を単独で用いた場合の認識率が現状では低く、単独の認識技術としては実用的ではないという理由による。
しかしながら、読唇技術を音声認識の補完に用いる場合には、音声認識が主となっているので、人が声を発することが前提となっている。このため、上述のような声を出せない状況や、騒音がひどい状況では利用しづらいという問題は依然として改善されていない。
この発明は、以上の点に鑑み、音声認識の補完ではなく、読唇技術を用いて高い認識率の文字入力を可能にする読唇入力装置を提供することを目的とする。
上記の課題を解決するために、この発明は、
日本語の文字の一文字ずつを人の唇の動きパターンから認識して入力された文字とする読唇入力装置であって、
人の唇の動きパターンを撮影するカメラ部と、
日本語の少なくとも母音の文字に対応する唇の動きパターンの画像データを記憶する読唇用パターン記憶部と、
日本語の子音の文字のそれぞれを選択指定するための補助操作を認識するための補助操作認識手段と、
前記カメラ部で撮影された前記人の唇の動きパターンと前記読唇用パターン記憶部に記憶されている唇の動きパターンとのパターンマッチング処理により、前記カメラ部で撮影された前記人の唇の動きパターンに対応する文字を認識する読唇手段と、
前記補助操作認識手段において、前記補助操作がなされたか否かを判別し、前記補助操作がなされたと判別したときには、前記読唇手段での認識結果と前記補助操作認識手段で認識された補助操作とから入力文字を判定して読唇結果とする読唇結果出力手段と、
を備えることを特徴とする読唇入力装置を提供する。
日本語の文字の一文字ずつを人の唇の動きパターンから認識して入力された文字とする読唇入力装置であって、
人の唇の動きパターンを撮影するカメラ部と、
日本語の少なくとも母音の文字に対応する唇の動きパターンの画像データを記憶する読唇用パターン記憶部と、
日本語の子音の文字のそれぞれを選択指定するための補助操作を認識するための補助操作認識手段と、
前記カメラ部で撮影された前記人の唇の動きパターンと前記読唇用パターン記憶部に記憶されている唇の動きパターンとのパターンマッチング処理により、前記カメラ部で撮影された前記人の唇の動きパターンに対応する文字を認識する読唇手段と、
前記補助操作認識手段において、前記補助操作がなされたか否かを判別し、前記補助操作がなされたと判別したときには、前記読唇手段での認識結果と前記補助操作認識手段で認識された補助操作とから入力文字を判定して読唇結果とする読唇結果出力手段と、
を備えることを特徴とする読唇入力装置を提供する。
日本語は、例えば「そ・ば・や・を・け・ん・さ・く」というように、語句を一文字ずつに区切ってゆっくりと発音することで語句の入力が可能である。これに対して、例えば英語は、対応する語句(フレーズ)「Search Soba Noodle Restaurant」を、アルファベットの一文字ずつ区切って発音しても「エス、イー、エー、アール、・・・」となってしまい、入力したい語句(フレーズ)を入力できない。すなわち、日本語は、語句を一文字ずつに区切ってゆっくりと発音することで語句の入力が可能な極めて稀な言語と言える。
また、日本語の50音の文字は、「あ」、「い」、「う」、「え」、「お」の5個の母音と、「あ、か、さ、た、な、は、ま、や、ら、わ」の10個の子音とを組み合わせて発音することができる。そして、各文字を発音する際の唇の動きパターンは、母音に応じたものとなる。ただし、「ん」の文字は、特殊である。
この発明は、以上の日本語の特徴に基づいて、認識対象を日本語に絞った読唇入力装置を提供するものである。
すなわち、この発明においては、読唇用パターン記憶部には、少なくとも「あ」、「い」、「う」、「え」、「お」の5個の母音の文字に対応する唇の動きパターンの画像データが記憶されている。
読唇手段は、カメラ部で撮影された人の唇の動きパターンと、読唇用パターン記憶部に記憶されている唇の動きパターンとのパターンマッチング処理により、カメラ部で撮影された人の唇の動きパターンに対応する文字を認識する。したがって、「あ」、「い」、「う」、「え」、「お」の文字は、そのまま入力文字として認識することができる。しかし、「か行」、「さ行」、「た行」、「な行」、「は行」、「ま行」、「や行」、「ら行」、「わ行」などの文字は、唇の動きパターンのみでは、誤認識してしまう恐れがある。
この発明では、補助操作認識手段を設ける。この補助操作認識手段は、日本語の子音の文字のそれぞれを選択指定するための補助操作を認識する。そして、読唇結果出力手段は、補助操作認識手段において、補助操作がなされたか否かを判別し、補助操作がなされたと判別したときには、読唇手段での認識結果と補助操作認識手段で認識された補助操作とから入力文字を判定して読唇結果とする。
したがって、読唇結果出力手段は、例えば読唇手段で、人の唇の動き画像に基づいて認識した文字が「う」であり、補助操作認識手段での補助操作により「か行」が選択指定されているときには、人の唇の動きで入力された文字は、「く」であると判定する。
この発明による読唇入力装置によれば、読唇手段の読唇結果を、補助操作認識手段での補助操作で補正することにより、日本語の文字についての読唇による入力を高い認識率で実現することができる。
以下、この発明による読唇入力装置の実施形態を、図を参照しながら説明する。この発明による読唇入力装置は、種々の電子機器の日本語の文字入力装置として適用可能である。以下に説明する例は、スマートフォンと呼ばれる高機能携帯電話端末の日本語入力手段として、この発明による読唇入力装置が適用された場合である。
図1は、この発明による読唇入力装置の実施形態が適用された携帯電話端末1のハードウエア構成例を示すブロック図である。すなわち、この実施形態の携帯電話端末1は、バス100を通じて、制御部101に対して、無線電話通信回路部102、通話回路部103、表示制御部104、タッチパネルインターフェース105、カメラ部106、読唇部107、読唇用唇動きパターン記憶部108、補助操作情報記憶部109、補助操作認識部110、読唇結果出力部111、のそれぞれが接続されて、構成されている。
制御部101は、携帯電話端末1の全体を制御するためのもので、コンピュータで構成されている。無線電話通信回路部102は、携帯電話端末1の基地局と無線接続されて、携帯電話網を通じて通信を行うためのものである。
通話回路部103には、受話器としてのスピーカ121が接続されると共に、送話器としてのマイクロホン122が接続されている。また、表示制御部104には、例えばLCDからなるディスプレイ123が接続され、このディスプレイ123に重畳して、タッチパネル124が設けられて、使用者の操作入力用とされる。タッチパネル124は、タッチパネルインターフェース105に接続されている。
カメラ部106は、ディスプレイ123の表示画面を見ている携帯電話端末1の使用者を撮影することができるように、ディスプレイ123の表示画面と同一面に配置されている。このカメラ部106は、静止画のみではなく、動画の撮影が可能とされている。後述する読唇入力装置のアプリケーションが携帯電話端末で起動されたときには、このカメラ部106は、制御部101の制御に基づいて動画を撮影する状態となって、撮影して得た使用者の唇の動き画像をバス100に出力するようにする。
読唇用唇動きパターン記憶部108は、読唇により認識する文字についての唇の動きパターンを記憶している。この実施形態では、この読唇用動きパターン記憶部108には、図2に示すように、日本語の母音である「あ」、「い」、「う」、「え」、「お」の各文字と、特殊な唇パターンの文字「ん」の文字の、合計6文字を認識対象文字として、それぞれの文字に対応する唇の動きパターン画像が登録されている。
この実施形態では、携帯電話端末1の使用者が、予め、「あ」、「い」、「う」、「え」、「お」、「ん」の文字を発音する際の自身の唇の動きパターンを、カメラ部106で撮影して登録し、読唇用唇動きパターン記憶部108に記憶するようにする。
なお、製造会社あるいは販売会社において、予め、携帯電話端末1の読唇用唇動きパターン記憶部108に、日本人の平均的な「あ」、「い」、「う」、「え」、「お」、「ん」の文字を発音する際の唇の動きパターンを記憶しておいても良い。
読唇部107は、カメラ部106で撮影した携帯電話端末1の使用者の唇の動き画像と、読唇用唇動きパターン記憶部108に記憶されている6個の文字についての唇の動きパターン画像とを比較してパターンマッチングを行って、携帯電話端末1の使用者の唇の動き画像と一致するとすることができる認識対象文字を判定する機能部である。そして、読唇部107は、判定した認識対象文字の情報を読唇結果出力部111に送る。ここで、携帯電話端末1の使用者の唇の動き画像と、読唇用唇動きパターン記憶部108に記憶されている6個の文字についての唇の動きパターン画像とが一致したとは、完全一致ではなく、類似度が所定の閾値を超えている場合である。
補助操作表示情報生成部109は、読唇部107でのパターンマッチング処理の結果を補完するための補助操作のための表示情報を生成して、ディスプレイ123の表示画面に表示する。この実施形態では、補助操作表示情報生成部109は、図3に示すように、「あいうえお」の母音と組み合わせて50音の文字を生成することができる子音の「あかさたなはまやらわ」の10文字と、母音と組み合わせて濁音、半濁音、拗音で表される文字を生成するための文字(図3参照)とを、補助操作用文字として、ディスプレイ123の表示画面にタッチパネル124で操作可能となる状態で表示して、使用者に操作させるようにする。
補助操作認識部110は、補助操作表示情報生成部109からの表示情報と、タッチパネルインターフェース105を通じたタッチパネル123における使用者の操作情報とから、図3に示した補助操作用文字の内のいずれかの文字が選択指示操作されたか否かを判別し、選択指示操作がされたと判別したときには、その選択指示操作された文字が何かを認識する。そして、補助操作認識部110は、使用者により補助操作用文字のいずれかが選択指示操作されたかどうかの情報と、選択指示操作がされたときには、当該選択指示操作された補助操作用文字の情報を、読唇結果出力部111に送る。
読唇結果出力部111は、読唇部107から送られてくる認識対象文字の情報と、補助操作認識部110からの情報とに基づいて、読唇結果とする文字を判定する。そして、この実施形態では、使用者の一文字ずつの確定操作(例えば後述するディスプレイ123の画面をタップする操作)に応じて、その判定した文字を確定した読唇結果として表示するようにする。
すなわち、読唇結果出力部111は、補助操作認識部110からの補助操作用文字が選択指示操作されたかどうか情報により、補助操作用文字が選択指示操作されてはいないと判別したときには、読唇部107から送られてくる認識対象文字を読唇結果とする文字と判定する。すなわち、この実施形態では、「あ」、「い」、「う」、「え」、「お」、「ん」の各文字は、読唇部107で認識された文字がそのまま読唇結果として判定され、表示出力される。
また、読唇結果出力部111は、補助操作認識部110からの補助操作用文字が選択指示操作されたかどうか情報により、補助操作用文字が選択指示操作されていると判別したときには、読唇部107から送られてくる認識対象文字と補助操作認識部110からの選択指示操作された補助操作用文字の情報とから、読唇結果とする文字を判定する。例えば、読唇部107から送られてくる認識対象文字が「う」であって、補助操作認識部110から送られてきた選択指示操作された補助操作用文字が「か」であれば、読唇結果として、「く」が判定され、表示出力される。
以上のように、この実施形態の携帯電話端末1においては、カメラ部106、読唇部107、読唇用唇動きパターン記憶部108、補助操作表示情報生成部109、補助操作認識部110及び読唇結果出力部111により、読唇入力装置の実施形態が構成される。携帯電話端末1では、この読唇入力装置を、一つのアプリケーションとして搭載しており、携帯電話端末1のユーザからの起動要求に応じて起動することができる。
なお、読唇部107、補助操作表示情報生成部109、補助操作認識部110、読唇結果出力部111のそれぞれの機能は、制御部101がプログラムを実行することで実行するソフトウエア機能として実現することもできるものである。また、読唇用唇動きパターン記憶部108に、使用者が自分の唇の動きパターンを登録して記憶するようにする機能処理も、そのプログラムに含まれる。なお、このプログラムは、携帯電話端末1に最初から組み込んでおくようにしてもよいし、携帯電話端末1の使用者が、インターネットや、パッケージメディアなどを通じて取得して、携帯電話端末1にインストールするようにしてもよい。
[携帯電話端末1における読唇入力装置の機能の処理動作例]
図4は、この携帯電話端末1における読唇入力装置の機能の処理動作例を説明するための図である。携帯電話端末1の使用者は、携帯電話端末1において、この読唇入力装置のアプリケーションを起動する。そして、図4(A)に示すように、使用者2は、携帯電話端末1を、そのディスプレイ123側の面を自分に向けてカメラ部106で自分を撮影することができる状態で保持する。この状態で、使用者2が、「そばやをけんさく」という語句を入力するために、発声せずに、あるいは発声を伴って、唇を動かした場合を想定する。
図4は、この携帯電話端末1における読唇入力装置の機能の処理動作例を説明するための図である。携帯電話端末1の使用者は、携帯電話端末1において、この読唇入力装置のアプリケーションを起動する。そして、図4(A)に示すように、使用者2は、携帯電話端末1を、そのディスプレイ123側の面を自分に向けてカメラ部106で自分を撮影することができる状態で保持する。この状態で、使用者2が、「そばやをけんさく」という語句を入力するために、発声せずに、あるいは発声を伴って、唇を動かした場合を想定する。
図4(B)及び図4(C)は、この時の携帯電話端末1のディスプレイ123の表示画面123Dにおける表示例を示すものである。図4(B)、(C)の表示例では、使用者2が「そばやを」までを読唇入力した状態から、次の文字である「け」を読唇結果とする場合を示している。
図4(B)、(C)の表示例において、表示画面123Dには、読唇入力語句表示欄31と、読唇入力候補文字表示欄32と、補助操作用文字群33及び入力語句決定ボタン34などが表示されている。この実施形態では、読唇入力候補表示欄32には、読唇結果出力部111で判定されて出力された文字が表示される。そして、例えば当該読唇入力候補表示欄32が使用者2により指でタップされると、その時に表示されていた文字が読唇結果の文字として確定され、読唇入力語句表示欄31に、その前に確定されていた文字列の最後に追加表示されるように構成されている。
なお、この実施形態では、読唇入力候補表示欄32を指でタップ操作することで、その時に読唇入力候補表示欄32に表示されていた文字を読唇結果の文字として確定するようにしたが、このようなタップ操作がなくても、使用者2が次の文字を入力するように唇の動きを変化されたときには、それを確定のトリガと見なして、その時に読唇入力候補表示欄32に表示されていた文字を読唇結果の文字として確定するようにしてもよい。
補助操作用文字群33は、補助操作表示情報生成部109で生成されるものであり、前述の図3に示した補助操作用文字群からなる。そして、この実施形態では、使用者2が、この補助操作用文字群33のそれぞれの文字を、タッチパネル124を通じて選択指示操作入力をすることができるようにされている。
図4(A)に示すように、使用者2が例えば「け」を入力するように唇を動かすと、その時の唇の動き画像が、カメラ部106で撮影され、当該撮影された唇の動き画像が読唇部107に供給される。読唇部107では、このカメラ部106からの唇の動き画像と、読唇用唇動きパターン記憶部108の図2に示した読唇用唇動きパターンとのパターンマッチング処理がなされ、「え」の文字が認識される。このとき、使用者2により、補助操作用文字群33のいずれもが選択指示操作されていないときには、読唇結果出力部111は、読唇部107で認識された母音の「え」を入力された文字として判定し、出力する。したがって、使用者2により、補助操作用文字群33のいずれもが選択指示操作されていないときには、読唇入力候補表示欄32には、図4(B)に示すように、読唇部107で認識された「え」の文字がそのまま表示される。
また、使用者2により、補助操作用文字群33の内の「か」が選択指示操作されていたときには、読唇結果出力部111は、読唇部107で認識された母音の「え」と、補助操作用文字群33で選択指示操作されている子音の文字「か」とから、「け」が入力されたと文字として判定し、出力する。したがって、読唇入力候補表示欄32には、図4(C)に示すように、当該「け」の文字が表示される。
その後、この実施形態では、読唇入力候補表示欄32が使用者2により指でタップされると、読唇入力候補表示欄32に表示されていた読唇入力候補文字が、読唇入力文字として確定され、読唇入力語句表示欄31に移行して表示され、読唇入力候補表示欄32の文字は消去され、次の読唇入力候補文字の入力の準備が整った状態となる。
使用者は、これに引き続き、「ん」、「さ」、「く」の文字を発声するように唇を動かす(必要に応じて音声は発しない)ようにする。これにより、「そばやをけんさく」の語句の入力が終了したら、使用者は決定ボタン34を操作する。携帯電話端末1では、この例では、この読唇入力語句に基づいて、「蕎麦屋」の検索動作を実行するようにする。
なお、補助操作用文字群33に対する補助指示操作は、使用者が入力したい文字の発声をするように唇を動かすのと同時(例えば「か」を操作しながら、使用者が「う」または「く」の発声をするように唇を動かす)であってもよいし、使用者が入力したい文字の発声をするように唇を動かして、これに応じて読唇部107が認識した読唇入力候補文字を、読唇結果出力部111が読唇入力候補表示欄32に表示している状態で、使用者が後から、補助操作用文字群33の内の希望する子音などの文字を操作するようにして、読唇入力候補表示欄32に表示する読唇結果を入力を希望する文字に補正するようにしてもよい。
[読唇入力処理の流れの例]
図5及びその続きである図6に、以上説明した読唇入力処理の流れの例のフローチャートを示す。以下の図5及び図6のフローチャートの説明は、制御部101が、読唇部107、補助操作表示情報生成部109、補助操作認識部110、読唇結果出力部111のそれぞれの機能を、プログラムを用いて実行するとした場合として説明する。
図5及びその続きである図6に、以上説明した読唇入力処理の流れの例のフローチャートを示す。以下の図5及び図6のフローチャートの説明は、制御部101が、読唇部107、補助操作表示情報生成部109、補助操作認識部110、読唇結果出力部111のそれぞれの機能を、プログラムを用いて実行するとした場合として説明する。
制御部101は、まず、読唇入力のアプリケーションが起動されたか否か判別する(ステップS101)。このステップS101で、読唇入力のアプリケーションが起動されていないと判別したときには、制御部101は、その他の処理を実行し(ステップS102)、その処理の終了の後、処理をステップS101に戻す。
ステップS101で、読唇入力のアプリケーションが起動されたと判別したときには、制御部101は、図4(B),(C)に示したような読唇入力用画面を、ディスプレイ123の表示画面123Dに表示する(ステップS103)。そして、制御部101は、カメラ部106を起動して動画の撮影を開始させ、読唇部107の機能である読唇処理を実行する(ステップS104)。
そして、ステップS104での読唇処理の結果として、カメラ部106からの使用者の唇の動き画像が、読唇用唇動きパターン記憶部108に記憶されている唇動きパターンのいずれかと一致したか否かにより、読唇認識ができたか否か判別し(ステップS105)、読唇認識ができなかったときには、読唇認識ができるまで、ステップS105の処理を継続する。このステップS105で、使用者の唇の動き画像について、読唇用唇動きパターン記憶部108に記憶されている唇動きパターンのいずれかと一致したとして読唇認識ができたと判別したときには、制御部101は、補助操作用文字群33のいずれかが操作されているか否かを監視することにより、補助操作がなされているか否か判別する(ステップS106)。
このステップS106で、補助操作がなされていないと判別したときには、制御部101は、ステップS105で、読唇部107の機能により唇の動き画像について読唇認識できた文字を、図4(B)に示したように、ディスプレイ123の表示画面123Dの読唇入力候補表示欄32に表示する(ステップS107)。そして、制御部101は、補助操作用文字群33のいずれかが操作されているか否かを監視することにより、補助操作がなされているか否か判別する(ステップS108)。
そして、ステップS106またはステップS108で、補助操作がなされていると判別したときには、制御部101は、ステップS105で、唇の動き画像について読唇認識できた文字を母音とし、補助操作として選択指示操作されている補助操作用文字群33の内の文字を子音として、読唇結果の文字を判定し、ディスプレイ123の表示画面123Dの読唇入力候補表示欄32に表示する(ステップS109)。
このステップS109の次には、例えばディスプレイ123の表示画面123Dの読唇入力候補表示欄32がタップされたか否かを監視することにより、確定操作がなされたか否か判別し(ステップS110)。ステップS108で、補助操作がなされていないと判別したときにも、制御部101は、処理をこのステップS110に進め、確定操作がなされたか否か判別する。
このステップS110で、確定操作はなされていないと判別したときには、制御部101は、処理をステップS105に戻し、このステップS105の処理を繰り返す。また、ステップS110で、確定操作がなされたと判別したときには、制御部101は、読唇入力候補表示欄32に表示されていた文字を確定した文字として、ディスプレイ123の表示画面123Dの読唇入力語句表示欄31に移動させるようにする(図6のステップS121)。このとき、確定された文字は、それまでに、この読唇入力語句表示欄31に表示されていた文字の最後尾に表示する。
次に、制御部101は、決定ボタン34が操作されたか否か判別し(ステップS122)、決定ボタン34は操作されていないと判別したときには、処理を図5のステップS105に戻し、このステップS105以降の処理を繰り返す。
ステップS122で、決定ボタン34が操作されたと判別したときには、制御部101は、当該決定ボタン34が操作された時点に読唇入力語句表示欄31に表示されていた文字列からなる語句を入力語句として判定し、その語句で指示される処理を実行するようにする(ステップS123)。その後は、制御部101は、この読唇入力処理のルーチンを終了して、その指示された処理のルーチンを続いて実行する。
[実施形態の効果]
以上のようにして、上述の実施形態の読唇入力装置を備える携帯電話端末1によれば、音声認識の補助ではなく、唇の動きに基づいて、日本語の文字を一文字ずつ認識および判定して、日本語の語句の入力をすることができる。この場合に、上述の実施形態によれば、日本語の特質を生かして、読唇部107の認識結果を、補助操作により補完するようにしたので、読唇結果は、高い認識率となる。
以上のようにして、上述の実施形態の読唇入力装置を備える携帯電話端末1によれば、音声認識の補助ではなく、唇の動きに基づいて、日本語の文字を一文字ずつ認識および判定して、日本語の語句の入力をすることができる。この場合に、上述の実施形態によれば、日本語の特質を生かして、読唇部107の認識結果を、補助操作により補完するようにしたので、読唇結果は、高い認識率となる。
そして、上述の実施形態では、読唇部107で読唇認識するための比較用の唇動きパターン画像は、高々6文字分であるので、読唇部107での認識速度は非常に高速になる。このため、補助操作を加えても、比較的高速に文字入力を行えるという効果がある。
[その他の実施形態又は変形例]
なお、上述の実施形態では、「あかさたなはまやらわ」などの補助操作用文字群33の補助操作用表示画像を生成して、表示画面に表示するようにしたが、既存のキーボード文字を補助操作用文字として利用することもできる。図7は、その場合の補助操作用文字の例と、その補助操作用文字での認識対象の対応表である。すなわち、例えば「K」の文字は、子音の「か行」を意味している。また、「KY」は、「K」と「Y」の2文字の操作を意味し、それは拗音の「きゃ、きゅ、きょ」を意味するものとなっている。
なお、上述の実施形態では、「あかさたなはまやらわ」などの補助操作用文字群33の補助操作用表示画像を生成して、表示画面に表示するようにしたが、既存のキーボード文字を補助操作用文字として利用することもできる。図7は、その場合の補助操作用文字の例と、その補助操作用文字での認識対象の対応表である。すなわち、例えば「K」の文字は、子音の「か行」を意味している。また、「KY」は、「K」と「Y」の2文字の操作を意味し、それは拗音の「きゃ、きゅ、きょ」を意味するものとなっている。
また、補助操作用の操作手段は、上述の実施形態のような表示画面に表示する文字を選択する操作に限られるものではない。例えば、使用者が、「あかさたなはまやらわ」などの補助操作用文字をそれぞれを特定するための操作を、指や手の形や仕草や動きの違いにより表現するようにし、当該指や手の形や仕草や動きをカメラ部106で撮影し、その撮像画像から、「あかさたなはまやらわ」などの補助操作用文字のいずれを選択指示しているかを判断するようにしてもよい。
なお、上述の実施形態では、読唇用唇動きパターン記憶部108には、「あ」、「い」、「う」、「え」、「お」、「ん」の6文字についてのみ、対応する唇の動きパターン画像を登録するようにしたが、その他の各文字について、対応する唇の動きパターン画像を登録するようにしてもよい。その場合においても、読唇による認識結果が誤っている場合には、補助操作をすることで、正しい文字に補正することができることは容易に理解できよう。
101…制御部、106…カメラ部、12…歩行者用NWデータ格納部、13…自動車用NWデータ格納部、14…経路探索部、15…メモリ部、18…経路案内処理部、19…現在位置測定部、151…経路探索結果格納部
Claims (7)
- 日本語の文字の一文字ずつを人の唇の動きパターンから認識して入力された文字とする読唇入力装置であって、
人の唇の動きパターンを撮影するカメラ部と、
日本語の少なくとも母音の文字に対応する唇の動きパターンの画像データを記憶する読唇用パターン記憶部と、
日本語の子音の文字のそれぞれを選択指定するための補助操作を認識するための補助操作認識手段と、
前記カメラ部で撮影された前記人の唇の動きパターンと前記読唇用パターン記憶部に記憶されている唇の動きパターンとのパターンマッチング処理により、前記カメラ部で撮影された前記人の唇の動きパターンに対応する文字を認識する読唇手段と、
前記補助操作認識手段において、前記補助操作がなされたか否かを判別し、前記補助操作がなされたと判別したときには、前記読唇手段での認識結果と前記補助操作認識手段で認識された補助操作とから入力文字を判定して読唇結果とする読唇結果出力手段と、
を備えることを特徴とする読唇入力装置。 - 前記読唇用パターン記憶部には、少なくとも「あ」、「い」、「う」、「え」、「お」及び「ん」の文字を発音するときの唇の動きパターンの画像データが記憶されている
ことを特徴とする請求項1に記載の読唇入力装置。 - 前記補助操作は、日本語の子音の文字に対応する複数個の操作子の中の操作子を選択する操作である
ことを特徴とする請求項1または請求項2に記載の読唇入力装置。 - 前記補助操作は、日本語の子音の文字に対応する人の所作またはジェスチャーである
ことを特徴とする請求項1または請求項2に記載の読唇入力装置。 - 前記読唇結果出力手段からの前記読唇結果の入力文字を表示画面に表示する表示手段を備える
ことを特徴とする請求項1〜請求項4のいずれかに記載の読唇入力装置。 - 日本語の文字の一文字ずつを人の唇の動きパターンから認識して入力された文字とする読唇入力装置であって、人の唇の動きパターンを撮影するカメラ部と、日本語の少なくとも母音の文字に対応する唇の動きパターンの画像データを記憶する読唇用パターン記憶部とを備える読唇入力装置が行う読唇入力方法であって、
前記カメラ部で撮影された前記人の唇の動きパターンと前記読唇用パターン記憶部に記憶されている唇の動きパターンとのパターンマッチング処理により、前記カメラ部で撮影された前記人の唇の動きパターンに対応する文字を認識する読唇工程と、
日本語の子音の文字のそれぞれを選択指定するための補助操作を認識する補助操作認識工程と、
前記補助操作認識工程において、前記補助操作がなされたか否かを判別する判別工程と、
前記判別工程で、前記補助操作がなされたと判別したときには、前記読唇工程での認識結果と前記補助操作認識工程で認識された補助操作とから入力文字を判定して読唇結果とする読唇結果出力工程と、
を有することを特徴とする読唇入力方法。 - 日本語の文字の一文字ずつを人の唇の動きパターンから認識して入力された文字とする読唇入力装置であって、人の唇の動きパターンを撮影するカメラ部と、日本語の少なくとも母音の文字に対応する唇の動きパターンの画像データを記憶する読唇用パターン記憶部とを備える読唇入力装置が備えるコンピュータが、
前記カメラ部で撮影された前記人の唇の動きパターンと前記読唇用パターン記憶部に記憶されている唇の動きパターンとのパターンマッチング処理により、前記カメラ部で撮影された前記人の唇の動きパターンに対応する文字を認識する読唇工程、
日本語の子音の文字のそれぞれを選択指定するための補助操作を認識する補助操作認識工程、
前記補助操作認識工程において、前記補助操作がなされたか否かを判別する判別工程、
前記判別工程で、前記補助操作がなされたと判別したときには、前記読唇工程での認識結果と前記補助操作認識工程で認識された補助操作とから入力文字を判定して読唇結果とする読唇結果出力工程、
を実行するための読唇入力プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014048268A JP2015172848A (ja) | 2014-03-12 | 2014-03-12 | 読唇入力装置、読唇入力方法及び読唇入力プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014048268A JP2015172848A (ja) | 2014-03-12 | 2014-03-12 | 読唇入力装置、読唇入力方法及び読唇入力プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015172848A true JP2015172848A (ja) | 2015-10-01 |
Family
ID=54260135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014048268A Pending JP2015172848A (ja) | 2014-03-12 | 2014-03-12 | 読唇入力装置、読唇入力方法及び読唇入力プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015172848A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020076846A (ja) * | 2018-11-07 | 2020-05-21 | 太朗 瀬水 | 音出力装置、音出力方法、及びコンピュータプログラム |
CN114241594A (zh) * | 2020-07-31 | 2022-03-25 | 南宁富联富桂精密工业有限公司 | 唇语识别方法及电子装置 |
WO2022062884A1 (zh) * | 2020-09-27 | 2022-03-31 | 华为技术有限公司 | 文字输入方法、电子设备及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002269544A (ja) * | 2001-03-09 | 2002-09-20 | Sensor:Kk | 目の動きと口の形状認識を利用した文字入力装置 |
JP2005108079A (ja) * | 2003-10-01 | 2005-04-21 | Sharp Corp | かな文字入力装置、かな文字入力方法、プログラムおよび記録媒体 |
JP2011186994A (ja) * | 2010-03-11 | 2011-09-22 | Fujitsu Ltd | 文字入力装置および文字入力方法 |
JP2014038543A (ja) * | 2012-08-20 | 2014-02-27 | Ikutoku Gakuen | 指文字を認識するための文字認識システムおよびプログラム |
-
2014
- 2014-03-12 JP JP2014048268A patent/JP2015172848A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002269544A (ja) * | 2001-03-09 | 2002-09-20 | Sensor:Kk | 目の動きと口の形状認識を利用した文字入力装置 |
JP2005108079A (ja) * | 2003-10-01 | 2005-04-21 | Sharp Corp | かな文字入力装置、かな文字入力方法、プログラムおよび記録媒体 |
JP2011186994A (ja) * | 2010-03-11 | 2011-09-22 | Fujitsu Ltd | 文字入力装置および文字入力方法 |
JP2014038543A (ja) * | 2012-08-20 | 2014-02-27 | Ikutoku Gakuen | 指文字を認識するための文字認識システムおよびプログラム |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020076846A (ja) * | 2018-11-07 | 2020-05-21 | 太朗 瀬水 | 音出力装置、音出力方法、及びコンピュータプログラム |
CN114241594A (zh) * | 2020-07-31 | 2022-03-25 | 南宁富联富桂精密工业有限公司 | 唇语识别方法及电子装置 |
WO2022062884A1 (zh) * | 2020-09-27 | 2022-03-31 | 华为技术有限公司 | 文字输入方法、电子设备及计算机可读存储介质 |
CN114356109A (zh) * | 2020-09-27 | 2022-04-15 | 华为终端有限公司 | 文字输入方法、电子设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6570651B2 (ja) | 音声対話装置および音声対話方法 | |
CN106796786B (zh) | 语音识别系统 | |
US9922640B2 (en) | System and method for multimodal utterance detection | |
JP6605995B2 (ja) | 音声認識誤り修正装置、方法及びプログラム | |
WO2016163530A1 (ja) | ロボット及びロボット制御方法並びにロボットシステム | |
KR101819457B1 (ko) | 음성 인식 장치 및 시스템 | |
KR102193029B1 (ko) | 디스플레이 장치 및 그의 화상 통화 수행 방법 | |
CN112585674B (zh) | 信息处理装置、信息处理方法和存储介质 | |
JP7533472B2 (ja) | 情報処理装置、及びコマンド処理方法 | |
WO2021208531A1 (zh) | 一种语音处理方法、装置和电子设备 | |
JP6214297B2 (ja) | ナビゲーション装置および方法 | |
JP2015172848A (ja) | 読唇入力装置、読唇入力方法及び読唇入力プログラム | |
US11948567B2 (en) | Electronic device and control method therefor | |
CN104200807B (zh) | 一种erp语音控制方法 | |
CN111640452B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN111192586A (zh) | 语音识别方法及装置、电子设备、存储介质 | |
CN105913841B (zh) | 语音识别方法、装置及终端 | |
JP2018116206A (ja) | 音声認識装置、音声認識方法及び音声認識システム | |
JP6401488B2 (ja) | 外国語会話理解支援装置、外国語会話理解支援方法及びプログラム | |
WO2020116001A1 (ja) | 情報処理装置および情報処理方法 | |
JP2006251699A (ja) | 音声認識装置 | |
US20180336191A1 (en) | Method for multi-sense fusion using synchrony | |
JP2015227915A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
CN109841209A (zh) | 语音识别设备和系统 | |
WO2016143420A1 (ja) | 提示装置、提示装置の制御方法、および制御プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160328 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170314 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170322 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20171011 |