JP6190909B2

JP6190909B2 - 携帯端末装置及び情報処理システム

Info

Publication number: JP6190909B2
Application number: JP2016046542A
Authority: JP
Inventors: 鈴木　基之; 基之鈴木; 西島　英男; 英男西島
Original assignee: Hitachi Maxell Energy Ltd
Current assignee: Hitachi Maxell Energy Ltd
Priority date: 2016-03-10
Filing date: 2016-03-10
Publication date: 2017-08-30
Anticipated expiration: 2033-01-07
Also published as: JP2016129069A

Description

本発明は、携帯端末装置及び情報処理システムに関する。

近年、携帯電話、カーナビゲーションシステム、家庭内ＡＶ機器等の端末において、キーボードやマウス等の操作手段を用いずに、音声を認識することにより容易に操作可能なユーザインタフェースが注目されている。

特開２００７−４１０８９公報

しかし、これらの音声認識により操作を行う端末では、図書館のように声を発するのが好ましくない環境や騒音が大きい環境では操作できないという問題が生じる。

本発明の目的は、前記課題を考慮し、声を発するのが好ましくない環境や騒音が大きい環境においても、より使い勝手の良い携帯端末装置及び情報処理システムを提供することにある。

前記課題を解決するための手段として、例えば特許請求の範囲に記載の構成を採用すればよい。一例を挙げるならば、操作者の映像を撮影する撮像部と、前記撮像部が取得した映像における操作者の動きに関する情報に基づいて実行する操作を認識する動き認識部と、操作者の音声を取り込むマイクと、前記マイクにより取り込んだ音声に基づいて実行する操作を認識する音声認識部と、前記撮像部が取得した映像又は前記マイクにより取り込んだ音声により操作者を認識する操作者認識部と、制御部と、を備え、前記制御部は、前記操作者認識部により認識された操作者が予め登録された特定の操作者と認識された場合に限り、前記音声認識部により成功した音声認識結果に基づいて、前記特定の操作者の音声に基づく操作を実行するように制御することを特徴とする構成を用いる。

本発明の技術を用いることにより、声を発するのが好ましくない環境や騒音が大きい環境においても、より使い勝手の良い携帯端末装置及び情報処理システムを提供することが可能となる。

本発明の実施例に係る携帯端末装置の構成例を示すブロック図である。音声認識或いは口唇動き認識により携帯端末の操作を行う処理のフローチャートの例である。携帯端末の状態に対応した操作選択肢テーブルの例を示す図である。操作決定処理を説明するフローチャートの例である。操作者の音声及び映像を取り込む処理を説明するフローチャートの例である。操作者の音声及び映像を取り込む処理における携帯端末の表示例を示す図である。音声認識操作決定処理を説明するフローチャートの例である。口唇動き認識操作決定処理を説明するフローチャートの例である。口唇の大きさの定義の例を示す図である。口唇動き認識操作決定処理における口唇動き認識データと取得口唇動きデータの例を示す図である。口唇動き認識データ更新処理の例を説明する図である。操作対象決定処理を説明するフローチャートの例である。口唇動き認識カテゴリ決定処理を説明するフローチャートの例である。操作に対応したカテゴリ選択肢テーブルの例を示す図である。音声認識カテゴリ決定処理を説明するフローチャートの例である。口唇動き認識操作対象決定処理を説明するフローチャートの例である。口唇動き認識による操作対象選択処理を説明するフローチャートの例である。操作対象選択処理における携帯端末の表示例を示す図である。口唇動き認識操作対象決定処理における口唇動き認識データと口唇動き取得データの例を示す図である。音声認識操作対象決定処理を説明するフローチャートの例である。口唇動き認識操作決定処理を説明するフローチャートの第２の例である。操作選択肢に対応する母音並びのテーブルの例である。音節母音並び変換処理を説明するフローチャートの例である。母音に対応した口唇形状の一例を示す図である。母音に対応した口唇の大きさのテーブルの例を示す図である。音声及び映像を取り込む処理を説明するフローチャートの第２の例である。音声及び映像を取り込む処理における表示例を示す図である。本発明の第２の実施例に係る携帯端末装置の構成例を示すブロック図である。本発明の実施例２に係る操作決定処理を説明するフローチャートの例である。本発明の第３の実施例に係る携帯端末装置の構成例を示すブロック図である。本発明の第３の実施例に係る携帯端末装置と音声・口唇動き認識サーバーからなる情報処理システムの概略構成を示すブロック図である。本発明の情報処理システムの処理の一例を示すフローチャートである。本発明の情報処理システムの処理の一例を示すフローチャートである。音声・口唇動き認識サーバーにおける音声・口唇動き認識処理の一例を示すフローチャートである。音声・口唇動き認識サーバーにおける音声認識処理の一例を示すフローチャートである。音声・口唇動き認識サーバーにおける口唇動き認識処理の一例を示すフローチャートである。

以下、本発明の実施形態の例を、図面を用いて説明する。

図１は、本発明の一実施例による携帯端末装置１００の内部構成例を示すブロック図である。

ここでは、スマートフォンの場合を例にして説明する。携帯端末１００は、制御部１０１、音声認識部１０２、口唇動き認識部１０３、メモリ１０４、ストレージ１０５、ＧＰＳ（Global Positioning System）受信部１０６、地磁気センサ１０７、加速度センサ１０８、ジャイロセンサ１０９、基地局通信部１１０、無線通信部１１１、マイク１１２、音声処理部１１３、スピーカ１１４、音声出力部１１５、タッチパネル１１６、操作入力部１１７、表示部１１８、画像処理部１１９、撮像部１２０、入出力Ｉ／Ｆ１２１を備え、それぞれはバス１５０に相互に接続されている。

基地局通信部１１０は、Ｗ−ＣＤＭＡ（Wideband Code Division Multiple Access）やＧＳＭ（登録商標）（Global System for Mobile communications）などの基地局４００と遠距離の無線通信を行う通信インターフェースである。これにより基地局５００を通して外部ネットワーク６００に接続し、情報の送受信を行うこともできる。

制御部１０１はＣＰＵ（Central Processing Unit）等で構成されは、メモリ１０４に記憶したプログラムを実行することによって、各構成部を制御し、各種の処理を行っている。

音声認識部１０２はマイク１１２から音声処理部１１３を介して取り込んだ操作者の音声を認識し、音声で指示した操作を認識するものである。また、口唇動き認識部１０３は撮像部１２０から画像処理部１１９を介して取り込んだ操作者の口唇を含む映像を認識し、操作者の口唇の動きで指示した操作を認識するものである。

制御部１０１は、操作者の音声から認識した結果により操作を実行するか、操作者の口唇の動きから認識した結果により操作を実行するかを選択し、選択した結果に基づいて操作を実行する。

メモリ１０４は、フラッシュメモリなどであり、プログラム、データなどを記憶している。上記した音声認識部１０２や口唇動き認識部１０３で認識のために使用するデータはメモリ１０４の所定の領域１０４ａ，１０４ｂに保存されている。

さらに携帯端末１００はメモリカードなどのストレージ１０５を備えており、ストレージ１０５にもメールアドレスや音楽、ビデオ、写真のデータなどを保存することができる。

メモリ１０４或いはストレージ１０５に記憶されるプログラム或いはデータは、基地局通信部１１０が基地局と無線通信を行い、図示しない外部サーバーなどからダウンロードすることにより、随時更新・追加することが可能である。また、入出力Ｉ／Ｆ１２１を介してパソコン等の外部機器３００と接続し、データやプログラム等を更新、追加することも可能である。

ＧＰＳ受信部１０６は、上空にあるＧＰＳ衛星からの信号を受信するものである。これにより、携帯端末１００の現在位置を検出することができる。

地磁気センサ１０７は携帯端末１００の向いている方向を検出するセンサである。

加速度センサ１０８は携帯端末１００の加速度を検出するセンサ、ジャイロセンサ１０９は、携帯端末１００の角速度を検出するセンサである。これらにより、携帯端末１００の傾き、動きを詳細に検出することができる。

無線通信部１１１は、IEEE802.11a/b/nなどの無線ＬＡＮによる無線通信を行う通信インターフェースであり、無線ルータ５００を介して外部ネットワーク６００に接続することができる。

マイク１１２は、外部の音声を入力するものであり、スピーカ１１１は、外部に対して音声を出力するものである。外部音声出力部１１５はイヤフォン２００を接続して音声を出力するものである。入出力される音声は、音声処理部１１３にて音声処理される。

タッチパネル１１６は、操作入力部１１７、表示部１１８からなる。表示部１１８はＬＣＤなど映像や画像を表示するものであり、その表示面にはタッチパッドのような操作入力部１１７を有する。

操作入力部１１７は、例えば静電容量式などのタッチパッドであり、指やタッチペンなどによる接触操作（以降、タッチという）を操作入力として検出するものである。

撮像部１２０は、カメラなどである。表示部１１８に表示される映像や、撮像部１２０から入力された映像は、画像処理部１１９にて処理される。

入出力Ｉ／Ｆ１２１は、例えばＵＳＢ（Universal Serial Bus）などであり、外部機器３００とデータの送受信を行うインターフェースである。

次に携帯端末装置１００において、音声認識或いは口唇動き認識により操作を実行する制御部１０１の処理のフローチャートの例を図２に示す。

図２において、まず携帯端末装置１００の状態により実行可能な操作の選択肢から、どのような操作を行うかを決定する（Ｓ２０１）。図３に携帯端末装置１００の状態に対応した実行可能な操作のテーブルの例を示す。例えば、ホーム画面が表示されている状態では「音楽再生」や「メール」等が操作選択肢となり、音楽を再生している状態では「停止」や「前スキップ」等が操作選択肢となる。次に、操作を行う対象を選択する必要の有無により分岐処理を行う（Ｓ２０２）。例えば、操作として「音楽再生」を行う場合、どの曲を再生するのかというように操作（音楽再生など）を行う対象（曲など）の選択が必要となる。また、音楽再生中の操作として「停止」を行う場合、操作（停止など）を行う対象の選択は必要ない。操作対象の選択がある場合（Ｙｅs）には，操作対象を決定する処理Ｓ２０３を行い、選択した操作対象（例えば曲）に対して、操作（例えば音楽再生）を実行する（Ｓ２０４）。分岐処理Ｓ２０２で操作対象の選択がない場合（Ｎｏ）には操作（例えば停止）を実行する。図３に示した携帯端末装置の状態に応じた操作選択肢のテーブルデータはメモリ領域１０４ｃに記憶されている。図４は操作決定処理Ｓ２０1の一例を示すフローチャートである。

図４において、まずマイク１１２から音声処理部１１３を介して音声を、撮像部１２０から画像処理部１１９を介して操作者の少なくとも口唇部分を含む映像を取り込む（Ｓ４０１）。次に、音声認識部１０２で音声認識操作決定処理Ｓ４０２を行い、口唇動き認識部１０３で口唇動き認識操作決定処理Ｓ４０３を行う。分岐処理Ｓ４０４では音声認識操作決定処理Ｓ４０２で音声認識に成功したかどうかを音声認識フラグにより判断する。音声認識に成功した場合（Ｙｅs）には音声認識操作決定処理Ｓ４０２で認識した結果に基づいてどのような操作を行うかを決定する（Ｓ４０５）。次に分岐処理４０６で口唇部分が撮影範囲から外れることなく映像の取り込みが行われ、口唇動きデータの取得に成功したかを口唇検出フラグにより判断する。口唇動きデータの取得に成功した場合（Ｙｅｓ）には音声認識結果に対応してメモリ領域１０４ｂの口唇動き認識データを更新し（Ｓ４０７）、マナーモードを解除（Ｓ４０８）して処理を終了する。マナーモード解除以降の操作においては、スピーカ１１４から（或いはイヤフォン２００が接続されている場合には外部音声出力部１１５を介して、イヤフォンから）の音声による操作ガイド、音による着信案内等を行う。一方、分岐処理Ｓ４０６で口唇検出フラグにより口唇動きデータの取得に失敗したと判断した場合（Ｎｏ）にはメモリ領域１０４ｂの口唇動き認識データを更新せず、マナーモードを解除（Ｓ４０８）して処理を終了する。

分岐処理Ｓ４０４で音声認識フラグにより音声認識に失敗したと判断した場合（Ｎｏ）には分岐処理４０９で口唇動き認識フラグにより口唇動き認識操作決定処理Ｓ４０３で認識に成功したかどうかを判断する。口唇動き認識に成功した場合（Ｙｅｓ）には口唇動き認識操作決定処理Ｓ４０３で認識した結果に基づいてどのような操作を行うかを決定（Ｓ４１０）し、マナーモードを設定（Ｓ４１１）して処理を終了する。マナーモードにおいてはスピーカ１１４からの出力をオフとし、音声無しの画面表示での操作ガイド或いは着信案内等を行う。一方、分岐処理Ｓ４０９で口唇動き認識フラグにより口唇動き認識が失敗したと判断した場合（Ｎｏ）には再度音声および映像を取り込む処理（Ｓ４０１）に戻る。

以上の処理により、音声認識操作決定処理に成功した場合には音声認識結果に従って操作が決定され、音声認識操作決定処理に失敗して口唇動き認識操作決定処理に成功した場合には口唇動き認識に従って操作が決定される。また、音声認識に成功し、口唇動きデータの取得に成功した場合にはメモリ領域１０４ｂの口唇動き認識データの更新が行われる。

以上の説明のように、雑踏等で騒音が大きい環境や図書館等で声を出すのがふさわしくない環境で音声認識操作決定処理が行えない場合にも、口唇動き認識操作決定処理を行うことでどのような操作を行うかを決定することができる。また、マナーモードの設定・解除が音声認識及び口唇動き認識の処理によって自動的に行うことが可能となる。

図５は音声及び口唇部分を含む映像を取り込む処理Ｓ４０１の一例を示すフローチャートである。

図５において、まず音声及び映像の取り込み開始を判断する（Ｓ５０１）。取り込み開始の判断としては、例えば図６に示す携帯端末装置１００のタッチパネル１１６の所定の部位Ｍがタッチされたかにより判断を行う。所定の部位Ｍがタッチされた（Ｙｅｓ）と判断すると、音声及び口唇部分の映像の取り込み（Ｓ５０２）を開始するとともに、取り込んだ映像を携帯端末装置１００の表示部１１８の所定の部位Ｗに表示する（Ｓ５０３）。口唇動き検出部１０３により、取り込んだ映像により口唇部分が撮影範囲から外れていないかを検出する（Ｓ５０４）。分岐処理Ｓ５０５では口唇検出結果により分岐処理を行い、図６（ａ）のように、口唇部分が撮影範囲から外れていない（Ｙｅs）の場合には、例えば表示部１１８の所定の部位Ｗの表示枠を青色とする（Ｓ５０６）。図６（ｂ）のように口唇部分が撮影範囲から外れている（Ｎｏ）と判断した場合には、例えば表示部１１８の所定の部位Ｗの表示枠を赤色とする（Ｓ５０７）。分岐処理Ｓ５０８では音声及び映像の取り込み終了を判断する。取り込み終了の判断としては、携帯端末装置１００のタッチパネル１１６の所定の部位Ｍが再度タッチされたかにより判断を行う。所定の部位Ｍがタッチされていない（Ｎｏ）と判断した場合にはＳ５０２に戻り、音声及び映像の取り込みを続ける。所定の部位Ｍがタッチされた（Ｙｅｓ）と判断すると、音声及び口唇部分の映像の取り込みを終了し（Ｓ５０９）、処理を終了する。

以上の処理により、音声及び口唇部分の映像の取り込みが行われる。また、取り込んだ映像の表示及び表示枠の色により口唇部分が撮影範囲から外れたかどうかを容易に判断することができ、操作者が撮影位置を修正することができる。なお、ここでは口唇部分の映像が撮影範囲から外れたかどうかを操作者に知らせる方法として表示枠の色を変えるようにしたが、他の表示方法により知らせるようにしてもよい。

次に，音声認識部１０２における音声認識操作決定処理Ｓ４０２のフローチャートの一例を図７に示す。

図７において、まず音声分析を行い、入力音声の特徴パラメータの時系列パターン（具体的には，スペクトルやケプストラムの時系列）を抽出する（Ｓ７０１）。次にＨＭＭ（Hidden Markov Model）による音響モデルとしてメモリ領域１０４ａに記憶された操作選択肢に対応する音声認識データとの尤度を計算する（Ｓ７０２）。分岐処理Ｓ７０３では、尤度計算の結果の最大確率 (最大尤度)が所定の値（ここでは一例として０．６とした）以上の場合（Ｙｅｓ）には音声認識フラグをＯＫとし（Ｓ７０４）、最大確率を与える操作選択肢を認識結果として決定し（Ｓ７０５）、処理を終了する。一方、分岐処理Ｓ７０３でＮｏと判断した場合には、騒音等により音声認識が失敗したと判断し、音声認識フラグをＮＧとして（Ｓ７０６）、処理を終了する。

次に、口唇動き認識部１０３における口唇動き認識操作決定処理Ｓ４０３について、図８の例を用いて説明する。

図８のフローチャートにおいて、まず入力された口唇の動きの映像から、口唇の動きを検出し、口唇動きデータを取得する（Ｓ８０１）。口唇の動きのデータとしては、例えば図９に示すように口唇の横の大きさXと口唇の縦の大きさYの時間的な変化を検出する。
口唇部分が撮影範囲から外れていて入力された映像から口唇部分の検出ができず、口唇動きデータ取得処理Ｓ８０１において口唇動きデータの取得に失敗した場合には、分岐処理８０２においてＮｏと判断し、口唇検出フラグ及び口唇動き認識フラグをＮＧに設定（Ｓ８０３、Ｓ８０９）し、処理を終了する。一方、入力された映像から口唇動きデータの取得に成功した場合には、分岐処理Ｓ８０２においてＹｅｓと判断し、口唇検出フラグをＯＫに設定（Ｓ８０４）する。次に、この取得した口唇動きデータとメモリ領域１０４ｂに記憶されている操作選択肢に対応する口唇動き認識データとの尤度を計算する（Ｓ８０５）。分岐処理Ｓ８０６では尤度計算の結果の最大確率 (最大尤度)が所定の値（ここでは一例として０．６とした）以上の場合（Ｙｅｓ）には、口唇動き認識フラグをＯＫとし（Ｓ８０７）、最大確率を与える操作選択肢を認識結果として決定し（Ｓ８０８）、処理を終了する。一方、分岐処理Ｓ８０６でＮｏと判断した場合には口唇動き認識フラグをＮＧとし（Ｓ８０９）、処理を終了する。

図１０に口唇動き認識データXr(t)、Yr(t)と取得した口唇動きデータXd(t)、Yd(t)の例を示す。図１０（ａ）は操作選択肢「音楽再生（おんがくさいせい）」に対応し、図１０（ｂ）は「ビデオ再生（びでおさいせい）」に対応する。Xは口唇の横の大きさ、Yは口唇の縦の大きさを示している。例えば母音「あ」に対応する「が」「さ」の口唇の大きさはX、Yともに大きくなっている。一方、母音「い」に対応する「い」「び」の口唇の大きさXは比較的大きいのに対して、Yは小さくなっている。このように、口唇の動きとして取得した口唇動きデータXd(t)、Yd(t)とメモリ１０４に記憶された操作選択肢に対応する口唇動き認識データXr(t)、Yr(t)から口唇の大きさX，Yの時間的変化が最も近い選択肢を認識結果として決定することができる。

口唇動き認識データ更新処理Ｓ４０７の一例を、図１１を用いて説明する。

図１１（ａ）は更新前の口唇動き認識データYr(t)を、図１１(ｂ)は取得した口唇動きデータYd(t)を、図１１(ｃ)は更新後の口唇動き認識データYr(t)‘を示している。ここで、更新後の口唇動き認識データYr(t)‘を以下の式で定義する。

(数１) Yr(t)‘=Yr(t)＋α・(Yd(t)-Yr(t))
更新後の口唇動き認識データYr(t)‘は次の口唇動き認識における口唇動き認識データYr(t)として用いられる。
ここで、αは口唇動き認識データが取得した口唇動きデータに収束する速さを決定する係数であり、例えば、α＝１とすると、
(数２) Yr(t)‘=Yd(t)
となり、取得した口唇動きデータYd(t)が次の口唇動き認識における口唇動き認識データとなる。α＝０．５とすると、
(数３) Yr(t)‘=0.5・(Yd(t)＋Yr(t))
となり、取得した口唇動きデータYd(t)と更新前の口唇動き認識データYr(t)の平均が次の口唇動き認識における口唇動き認識データとなる。αの範囲は、
(数４) ０＜α＜１
が選ばれる。αが大きいほど口唇動き認識データが取得した口唇動きデータに早く収束する。図１１(ｃ)はα＝０．５の場合を示している。

更新後の口唇動き認識データXr(t)‘も同様に次式で与えられる。

(数５) Xr(t)‘=Xr(t)＋α・(Xd(t)-Xr(t))
以上の処理により、更新後の口唇動き認識データXr(t)’、Yr(t)’は更新前よりも実際に取得した口唇動きに近いデータに更新され、次の口唇動き認識において口唇動き認識データXr(t)、Yr(t)として用いられる。これを繰り返すことで、より操作者の口唇動きに合わせた口唇動き認識データXr(t)、Yr(t)を得ることができ、口唇動き認識の精度を向上することができる。

以上の音声認識操作決定処理、或いは口唇動き認識操作決定処理によりどのような操作を行うかを決定することができる。

次に操作を行う対象を決定する処理（Ｓ２０３）について説明する。

図１２に操作対象決定処理のフローチャートの例を示す。

図１２において、まずマイク１１２から音声処理部１１３を介して音声を、撮像部１２０から画像処理部１１９を介して操作者の少なくとも口唇部分を含む映像を取り込む（Ｓ１２０１）。次に、音声認識カテゴリ決定処理Ｓ１２０２、口唇動き認識カテゴリ決定処理Ｓ１２０３を行う。分岐処理Ｓ１２０４では音声認識カテゴリ決定処理Ｓ１２０２で音声認識に成功したかどうかを音声認識フラグにより判断する。音声認識に成功した場合（Ｙｅs）には音声認識カテゴリ決定処理Ｓ１２０２で認識した結果に基づいて操作対象のカテゴリを決定する（Ｓ１２０５）。次に分岐処理１２０６で口唇部分が撮影範囲から外れることなく映像の取り込みが行われ、口唇動きデータの取得に成功したかを口唇検出フラグにより判断する。口唇動きデータの取得に成功した場合（Ｙｅｓ）には音声認識結果に対応してメモリ領域１０４ｂの口唇動き認識データを更新（Ｓ１２０７）し、次の処理Ｓ１２１０に進む。一方、分岐処理Ｓ１２０６で口唇検出フラグにより口唇動きデータの取得に失敗したと判断した場合（Ｎｏ）にはメモリ領域１０４ｂの口唇動き認識データを更新せず、次の処理Ｓ１２１０に進む。

分岐処理Ｓ１２０４で音声認識フラグにより音声認識に失敗したと判断した場合（Ｎｏ）には分岐処理１２０８で口唇動き認識フラグにより口唇動き認識カテゴリ決定処理Ｓ１２０３で認識に成功したかどうかを判断する。口唇動き認識に成功した場合（Ｙｅｓ）には口唇動き認識カテゴリ決定処理Ｓ４０３で認識した結果に基づいて操作対象のカテゴリを決定し（Ｓ１２０９）、次の処理Ｓ１２１０に進む。一方、分岐処理Ｓ１２０８で口唇動き認識フラグにより口唇動き認識に失敗したと判断した場合（Ｎｏ）には再度音声および映像を取り込む処理（Ｓ１２０１）に戻る。

Ｓ１２１０では再度音声及び操作者の少なくとも口唇部分を含む映像を取り込む。取り込んだ音声及び映像をもとに音声認識操作対象決定処理Ｓ１２１１、口唇動き認識操作対象決定処理Ｓ１２１２を行う。分岐処理Ｓ１２１３では音声認識操作対象決定処理Ｓ１２１１で認識に成功したかどうかを音声認識フラグにより判断する。音声認識に成功した場合（Ｙｅs）には音声認識操作対象決定処理Ｓ１２１１で認識した結果に基づいて操作対象を決定する（Ｓ１２１４）。次に分岐処理Ｓ１２１５で口唇部分が撮影範囲から外れることなく映像の取り込みが行われ、口唇動きデータの取得に成功したかを口唇検出フラグにより判断する。口唇動きデータの取得に成功した場合（Ｙｅｓ）には音声認識結果に対応してメモリ領域１０４ｂの口唇動き認識データを更新し（Ｓ１２１６）、処理を終了する。一方、分岐処理Ｓ１２１５で口唇検出フラグにより口唇動きデータの取得に失敗したと判断した場合（Ｎｏ）にはメモリ領域１０４ｂの口唇動き認識データを更新せず、処理を終了する。

分岐処理Ｓ１２１３で音声認識フラグにより音声認識に失敗したと判断した場合（Ｎｏ）には分岐処理１２１７で口唇動き認識フラグにより口唇動き認識操作対象決定処理Ｓ１２１２で口唇動き認識に成功したかどうかを判断する。口唇動き認識に成功した場合（Ｙｅｓ）には口唇動き認識操作対象決定処理Ｓ１２１２で認識した結果に基づいて操作対象を決定（Ｓ１２１８）し、処理を終了する。一方、分岐処理Ｓ１２１７で口唇動き認識フラグにより口唇動き認識に失敗したと判断した場合（Ｎｏ）には再度音声および映像を取り込む処理（Ｓ１２１０）に戻る。

図１３は口唇動き認識カテゴリ決定処理の一例を示すフローチャートである。

図１３のフローチャートにおいて、まず入力された口唇の動きの映像から、口唇の動きを検出し、口唇動きデータを取得する（Ｓ１３０１）。口唇部分が撮影範囲から外れていて口唇検出ができず、口唇動きデータ取得処理Ｓ１３０１において口唇動きデータの取得に失敗した場合には、分岐処理１３０２においてＮｏと判断し、口唇検出フラグ及び口唇動き認識フラグをＮＧに設定（Ｓ１３０３、Ｓ１３０９）し、処理を終了する。一方、口唇動きデータ取得処理Ｓ１３０１において入力された口唇の映像からの口唇動きデータの取得に成功した場合には、分岐処理１３０２においてＹｅｓと判断し、口唇検出フラグをＯＫに設定する（Ｓ１３０４）。次に、この取得した口唇動きデータとメモリ領域１０４ｂに記憶されている操作選択肢に対応する口唇動き認識データとの尤度を計算する（Ｓ１３０５）。

図１４に操作に対応したカテゴリ選択肢のテーブルの例を示す。音楽、写真等のデータに付与されているメタデータの属性がカテゴリに相当する。例えば各音楽データには曲名、アーティスト、アルバム等の属性（カテゴリ）に関するデータがメタデータとして付与されている。

分岐処理Ｓ１３０６では尤度計算の結果の最大確率 (最大尤度)が所定の値（ここでは一例として０．６とした）以上の場合（Ｙｅｓ）には、口唇動き認識フラグをＯＫとし（Ｓ１３０７）、最大確率を与える操作カテゴリを認識結果として決定し（Ｓ１３０８）、処理を終了する。一方、分岐処理Ｓ１３０６でＮｏと判断した場合には口唇動き認識フラグをＮＧとし（Ｓ１３０９）、処理を終了する。

次に、音声認識カテゴリ決定処理（Ｓ１２０２）について説明する。

図１５は音声認識カテゴリ決定処理の一例を示すフローチャートである。

図１５において、まずマイク１１２から音声処理部１１３を介して入力された音声の分析を行い、入力音声の特徴パラメータの時系列パターンを抽出する（Ｓ１５０１）。次にＨＭＭによる音響モデルとしてメモリ領域１０４ａに記憶されたカテゴリ選択肢に対応する音声認識データとの尤度を計算する（Ｓ１５０２）。分岐処理Ｓ１５０３では、尤度計算の結果の最大確率 (最大尤度)が所定の値（ここでは一例として０．６とした）以上の場合（Ｙｅｓ）には認識フラグをＯＫとし（Ｓ１５０４）、最大確率を与えるカテゴリ選択肢を認識結果として決定し（Ｓ１５０５）、処理を終了する。一方、分岐処理Ｓ１５０３でＮｏと判断した場合には、騒音等により音声認識に失敗したと判断し、認識フラグをＮＧとし（Ｓ１５０６）、処理を終了する。

以上の口唇動き認識カテゴリ決定処理、或いは音声認識カテゴリ決定処理により操作対象がどのカテゴリに属するかを決定することができる。

次に、決定したカテゴリに属する操作対象を決定するための口唇動き認識操作対象決定処理、および音声認識操作対象決定処理について説明する。

図１６は口唇動き認識操作対象決定処理の例を示すフローチャートである。

図１６のフローチャートにおいて、まず入力された口唇の動きの映像から、口唇の動きを検出し、口唇動きデータを取得する（Ｓ１６０１）。口唇動きデータ取得処理Ｓ１６０１において口唇部分が撮影範囲から外れていて口唇検出ができず、口唇動きデータの取得に失敗した場合には、分岐処理Ｓ１６０２においてＮｏと判断し、口唇検出フラグ及び口唇動き認識フラグをＮＧに設定（Ｓ１６０３、Ｓ１６１１）し、処理を終了する。一方、口唇動きデータ取得処理Ｓ１６０１において入力された口唇部分の映像からの口唇動きデータの取得に成功した場合には、分岐処理Ｓ１６０２においてＹｅｓと判断し、口唇検出フラグをＯＫに設定する（Ｓ１６０４）。ストレージ１０５に記憶されている音楽、写真等のデータにはタイトル、アーティスト、撮影日等の属性に関するメタデータ付与されている。Ｓ１６０５では選択したカテゴリの属性部分の記述に対応した口唇動き認識データ（例えばカテゴリとして曲名を選択した場合には各音楽データのメタデータとして記録されている曲のタイトルに対応した口唇動き認識データ）と取得した口唇動きデータとの尤度を計算する。分岐処理１６０６では尤度計算の結果の最大確率 (最大尤度)が所定の値（ここでは一例として０．６とした）以上の場合（Ｙｅｓ）には、候補数が複数あるか、すなわち最大確率が所定の値以上となるデータが複数あるかを判断して分岐処理を行う（Ｓ１６０７）。候補数が１つの場合（Ｙｅｓ）には口唇動き認識フラグをＯＫとし（Ｓ１６０８）、最大確率を与える操作対象を認識結果として決定し（Ｓ１６０９）、処理を終了する。一方、分岐処理Ｓ１６０７で候補数が複数の場合（Ｎｏ）と判断した場合には操作対象選択処理（Ｓ１６１０）を行い、処理を終了する。一方、分岐処理Ｓ１６０６でＮｏと判断した場合には、口唇動き認識フラグをＮＧとし（Ｓ１６１１）、処理を終了する。

操作対象選択処理Ｓ１６１０について、図１７のフローチャートを用いて説明する。

図１７において、まずタッチパッド１１６の表示部１１８に複数の候補を表示する（Ｓ１７０１）。表示の例を図１８に示す。ここでは、候補となる曲が３つある場合の例である。また、これに対応した口唇動き認識データおよび取得口唇動きデータを図１９に示す。この場合、口唇動き認識データXr(t),Yr(t)がほとんど同じ部分が含まれ、口唇の動きだけでは操作対象を決定できない。そこで、選択のための口唇形状が異なる文字を曲名に付加して表示している（ここでは、「あ」「い」「う」）。次に撮像部１２０から画像処理部１１９を介して操作者の少なくとも口唇部分を含む映像を取り込む（Ｓ１７０２）。
まず入力された口唇の動きの映像から、口唇の動きを検出し、口唇動きデータを取得する（Ｓ１７０３）。口唇動きデータ取得処理Ｓ１７０３において口唇が撮影範囲から外れていて口唇検出ができず、口唇動きデータの取得に失敗した場合には、分岐処理１７０４においてＮｏと判断し、口唇検出フラグ及び口唇動き認識フラグをＮＧに設定（Ｓ１７０５、Ｓ１７１１）し、処理を終了する。一方、口唇動きデータ取得処理Ｓ１７０３において入力された映像から口唇動きデータの取得に成功した場合には、分岐処理Ｓ１７０４においてＹｅｓと判断し、口唇検出フラグをＯＫに設定する（Ｓ１７０６）。次に、この入力映像に対応した口唇動きデータと選択のために付加した文字（図１８の例では「あ」「い」「う」）に対応した口唇動き認識データとの尤度を計算する（Ｓ１７０７）。分岐処理Ｓ１７０８では尤度計算の結果の最大確率 (最大尤度)が所定の値（ここでは一例として０．６とした）以上の場合（Ｙｅｓ）には、口唇動き認識フラグをＯＫとし（Ｓ１７０９）、最大確率を与える選択肢を操作対象として決定し（Ｓ１７１０）、処理を終了する。
一方、分岐処理Ｓ１７０８でＮｏと判断した場合には口唇動き認識フラグをＮＧとし（Ｓ１７１１）、処理を終了する。

以上のように、口唇動きがほぼ同じ候補が複数ある場合にも、口唇形状が異なる文字或いは文字列を付加することで、操作対象を決定することができる。

図２０は音声認識操作対象決定処理Ｓ１２１１の例を示すフローチャートである。

図２０において、まずマイク１１２から音声処理部１１３を介して入力された音声の分析を行い、入力音声の特徴パラメータの時系列パターンを抽出する（Ｓ２００１）。音楽、写真等のデータの属性部分の記載（例えばカテゴリとして曲名を選択した場合には各音楽データのメタデータとして記録されている曲のタイトル）について、メモリ領域１０４ａに音響モデルとして記憶されている音声認識データとの尤度を計算する（Ｓ２００２）。分岐処理Ｓ２００３では、尤度計算の結果の最大確率 (最大尤度)が所定の値（ここでは一例として０．６とした）以上の場合（Ｙｅｓ）には音声認識フラグをＯＫとし（Ｓ２００４）、最大確率を与える操作対象を認識結果として決定し（Ｓ２００５）、処理を終了する。一方、分岐処理Ｓ２００３でＮｏと判断した場合には、音声認識フラグをＮＧとして処理を終了する。

口唇動き認識操作決定処理Ｓ４０５の他の実施例を図２１に示す。本実施例では口唇の形状を母音に対応させ、口唇の動きを母音の並びとして認識を行うものである。
図２１において、まず入力された口唇の動きの映像から、音節数Ｎを決定する（Ｓ２１０１）。次に、音節母音並び変換処理により各音節に対応する口唇の形状がどの母音に対応するかを判別し、Ｎ個の音節に対応した母音の並びに変換する（Ｓ２１０２）。この入力映像に対応した母音の並びとメモリ１０４ｂに記憶されている操作選択肢に対応する母音の並びで表現された口唇動き認識データとの尤度を計算する（Ｓ２１０３）。
分岐処理２１０４では尤度計算の結果の最大確率 (最大尤度)が所定の値（ここでは一例として０．６とした）以上の場合（Ｙｅｓ）には、認識フラグをＯＫとし（Ｓ２１０５）、最大確率を与える操作選択肢を認識結果として決定し（Ｓ２１０６）、処理を終了する。一方、分岐処理Ｓ２１０４でＮｏと判定した場合には認識フラグをＮＧとし（Ｓ２１０７）、処理を終了する。

メモリ１０４ｂに予め記憶されている操作選択肢に対応する母音並びのテーブルの例を図２２に示す。例えば「音楽再生」に対応する母音並びは「おあうあいえい」となる。この操作選択肢に対応する母音並びと入力映像に対応した母音並びの尤度を計算し、最も尤度が大きい操作選択肢を認識結果として決定する。各操作選択肢の文字列の母音並びが異なるようにすることで操作選択肢と母音並びが一対一に対応し、母音並びにより操作選択肢を決定することができる。母音並びによる認識では操作選択肢に対する母音の並びを記憶するため、図１０に示す操作選択肢に対する口唇動き認識データのように口唇の大きさＸ及びＹの時間的な変化を記憶する必要がなく、メモリ１０４ｂの使用量を少なくすることができる。

図２３に音節母音並び変換処理（Ｓ２１０２）のフローチャートの一例を示す。

図２３において、まず母音口唇形状と比較する音節を指定するパラメータＩを１から音節数Ｎまでとして、ループ処理を開始し（Ｓ２３０１）、Ｓ２３０３のループ終了処理までＳ２３０２の処理を繰り返して行う。Ｓ２３０２では入力された映像のＩ番目の音節に対応する口唇の形状とメモリ１０４ｂに記憶されている口唇認識データの母音に対応する口唇の形状を比較し、Ｉ番目の音節に対応する母音を決定する。以上の処理により、入力映像に対応したＮ個の音節が母音の並びに変換される。

図２４に母音に対応した口唇形状の例を示す。ここでは、日本語の「あ」「い」「う」「え」「お」の母音に対する口唇形状を示している。例えば、図２５のテーブルに示すように口唇の縦の幅Ｘと横の幅Ｙの大きさを３段階で表し、各母音と対応させる。これにより、入力映像の口唇形状の縦の幅Ｘと横の幅Ｙを求め、図２５のテーブルに従って対応する母音を決定することができる。

以上の母音並びによる認識方法は口唇動き認識操作決定処理Ｓ４０５に限らず、口唇動き認識カテゴリ決定処理Ｓ１１０４、口唇動き認識操作対象決定処理Ｓ１１０９に適用してもよい。

図２６は音声及び口唇部分を含む映像を取り込む処理の他の実施例を示すフローチャートである。

図２６において、図５の音声・映像取り込み処理と異なるのは選択肢表示処理Ｓ５１０を付加した点である。図２７に音声及び口唇部分を含む映像を取り込む処理における表示の例を示す。図２７（ａ）は操作決定処理においてホームの状態での操作選択肢の表示であり、図２７（ｂ）は操作対象決定処理において音楽再生時におけるカテゴリ選択肢の表示である。選択のための母音が異なる文字或いは文字列を付加して表示し、付加した文字或いは文字列部分について音声認識或いは口唇動き認識により操作選択処理を行なう。これにより、母音が異なる短い文字或いは文字列で認識できるため、認識を容易に確実に行うことが可能となる。

以上のように、選択肢を表示部１１８に表示することで操作選択肢或いはカテゴリ選択肢をいちいち覚えておく必要がなく、確実に選択することができる。ただし、操作者が携帯端末の操作に慣れた場合などには選択肢を表示しないように、選択肢を表示するかどうかを設定できるようにしてもよい。

図２８は携帯端末装置１００の第２の実施例の構成例を示すブロック図であり、図１の構成例と同一機能部分には同じ記号を付し、説明を省略する。

本実施例では図１の構成例に対して操作者認識部１２２及びメモリ１０４の所定の領域１０４ｄに操作者認識データを設けるようにしており、携帯端末装置１００を使用する操作者が複数いる場合に対応するものである。

図２９は実施例２に係る操作決定処理Ｓ２０1の一例を示すフローチャートであり、図４のフローチャートと同一処理には同一の記号を付している。

図２９において、まずマイク１１２から音声処理部１１３を介して音声を、撮像部１２０から画像処理部１１９を介して操作者の少なくとも口唇部分を含む映像を取り込む（Ｓ４０１）。次に、操作者認識部１２２で音声・映像取り込み処理Ｓ４０１で取り込んだ音声及び/或いは映像とメモリ領域１０４ｄに記憶されている操作者認識データに基づいて操作している操作者Ｎを認識する（Ｓ４２０）。操作者認識データとしては、例えば携帯端末装置１００にログインするために予め登録した音声認証用データ或いは顔認証用データを用いることができる。操作者認識後、音声認識部１０２で音声認識操作決定処理Ｓ４０２を行い、口唇動き認識部１０３で口唇動き認識操作決定処理Ｓ４０３を行う。分岐処理Ｓ４０４では音声認識操作決定処理Ｓ４０２で音声認識に成功したかどうかを音声認識フラグにより判断する。音声認識に成功した場合（Ｙｅs）には音声認識操作決定処理Ｓ４０２で認識した結果に基づいてどのような操作を行うかを決定する（Ｓ４０５）。次に分岐処理４０６で口唇部分が撮影範囲から外れることなく映像の取り込みが行われ、口唇動きデータの取得に成功したかを口唇検出フラグにより判断する。口唇動きデータの取得に成功した場合（Ｙｅｓ）には音声認識結果に対応してメモリ領域１０４ｂの操作者Ｎに対応した口唇動き認識データを更新し（Ｓ４２１）、マナーモードを解除（Ｓ４０８）して処理を終了する。マナーモード解除以降の操作においては、スピーカ１１４から（或いはイヤフォン２００が接続されている場合には外部音声出力部１１５を介して、イヤフォンから）の音声による操作ガイド、音による着信案内等を行う。一方、分岐処理Ｓ４０６で口唇検出フラグにより口唇動きデータの取得に失敗したと判断した場合（Ｎｏ）にはメモリ領域１０４ｂの口唇動き認識データを更新せず、マナーモードを解除（Ｓ４０８）して処理を終了する。

以上の処理により、操作者毎に操作者に対応した口唇動き認識データが更新され、口唇の動きの個人差に対応した口唇動き認識データを得ることができる。したがって、口唇動き認識操作決定処理Ｓ４０３では操作者に対応して更新された口唇動き認識データを用いて口唇動き認識を行うことで、携帯端末装置を複数の人が使用する場合にも口唇動き認識の精度を向上することができる。
また、操作決定処理Ｓ２０１に限らず、操作対象決定処理Ｓ２０３についても同様に操作者に対応した口唇動き認識データ更新処理を適用してもよい。

図３０は携帯端末装置１００の第３の実施例の構成例を示すブロック図であり、図２８の構成例と同一機能部分には同じ記号を付し、説明を省略する。また、図３１は本実施例の携帯端末装置１００と音声・口唇動き認識サーバー７００からなる音声・口唇動き認識情報処理システムの概略構成を示すブロック図である。

本実施例の携帯端末装置１００では図２８の構成例に対して音声認識部１０２、口唇動き認識部１０３、メモリ１０４の音声認識データ領域及び口唇動き認識データ領域を設けておらず、これらに対応する部位を音声・口唇動き認識サーバー７００に設けている。

図３１において音声・口唇動き認識サーバー７００は、制御部７０１、音声認識部７０２、口唇動き認識部７０３、メモリ７０４、ストレージ７０５、通信部７０６を備え、それぞれはバス７１０に相互に接続されている。

通信部７０６は外部ネットワーク６００と接続するためのインターフェースであり、基地局４００或いは無線ルータ５００を介して携帯端末装置１００と接続される。

制御部７０１はＣＰＵ等で構成されは、メモリ７０４に記憶したプログラムを実行することによって、各構成部を制御し、各種の処理を行っている。

音声認識部７０２は通信部７０６を介して得られた携帯端末装置１００の操作者の音声データを認識し、音声データに対応した文字列に変換するものである。また、口唇動き認識部７０３は通信手段７０６を介して得られた携帯端末装置１００の操作者の映像データから口唇の動きを認識し、映像データに対応した文字列に変換するものである。制御部７０１は操作者の音声から認識した結果或いは操作者の口唇の動きから認識した結果を通信部７０６を介して携帯端末装置１００に送信する。

メモリ７０４は、フラッシュメモリなどであり、プログラム、データなどを記憶している。ストレージ７０５はＳＳＤ（Solid State Device）或いはハードディスクであり、上記した音声認識部７０２や口唇動き認識部７０３で認識のために使用するデータはストレージ７０５の所定の領域７０５ａ，７０５ｂに保存されている。

図３２は図３１の携帯端末装置１００と音声・口唇動き認識サーバー７００からなる情報処理システムにおける制御部１０１及び制御部７０１の処理の一例を示すフローチャートである。

図３２において、まず携帯端末装置１００においてマイク１１２から音声処理部１１３を介して音声を、撮像部１２０から画像処理部１１９を介して操作者の少なくとも口唇部分を含む映像を取り込む（Ｓ３２０１）。操作者認識部１２２で音声・映像取り込み処理Ｓ３２０１で取り込んだ音声及び/或いは映像とメモリ領域１０４ｄに記憶されている操作者認識データに基づいて操作している操作者Ｎを認識する（Ｓ３２０２）。

次に、取り込んだ音声及び映像のデータを基地局通信部１１０或いは無線通信部１１１を介して音声・口唇動き認識サーバー７００に送信する（Ｓ３２０３）。音声・口唇動き認識サーバー７００では受信した音声及び映像のデータに基づいて音声及び口唇動き認識処理Ｓ３２０４を行い、認識結果を通信部７０６を介して携帯端末装置１００に送信する（Ｓ３２０５）。Ｓ３２０６では音声・口唇動き認識サーバー７００から送られた認識結果の音声認識フラグ及び口唇動き認識フラグに基づいて分岐処理を行い、音声認識及び口唇動き認識に失敗した場合（Ｎｏ）には音声・映像取り込み処理Ｓ３２０１に戻る。音声認識或いは口唇動き認識に成功した場合（Ｙｅｓ）には操作決定処理Ｓ３２０７を行い、メモリ１０４ｃに記憶された図３に示すような操作に関する選択肢データと認識結果との尤度に基づいてどのような操作を行うのかを決定し、認識結果に対応した操作選択肢が存在する場合には決定成否フラグをＯＫとする。分岐処理３４０８では決定成否フラグにより分岐処理を行い、認識結果に対応した操作選択肢が存在しない場合（Ｎｏ）には音声・映像取り込み処理Ｓ３２０１に戻る。認識結果に対応した操作選択肢が存在する場合（Ｙｅｓ）には分岐処理Ｓ３２０９で音声認識フラグに基づいて分岐処理を行う。音声認識に成功した場合（Ｙｅｓ）にはマナーモードを解除（Ｓ３２１０）し、失敗した場合（Ｎｏ）にはマナーモードを設定（Ｓ３２１１）する。

次に、操作を行う対象を選択する必要の有無により分岐処理を行う（Ｓ３２１２）。例えば、操作として「音楽再生」を行う場合、どの曲を再生するのかというように操作（音楽再生など）を行う対象（曲など）の選択が必要となる。また、音楽再生中の操作として「停止」を行う場合、操作（停止など）を行う対象の選択は必要ない。操作対象の選択がない場合（Ｎｏ）には決定した操作を実行する（Ｓ３２２８）。分岐処理Ｓ３２１２において操作選択肢ありと判断した場合（Ｙｅｓ）には音声・映像取り込み処理Ｓ３２１３を行い、取り込んだ音声及び映像のデータを音声・口唇動き認識サーバー７００に送信する（Ｓ３２１４）。音声・口唇動き認識サーバー７００では受信した音声及び映像のデータに基づいて音声及び口唇動き認識処理Ｓ３２１５を行い、認識結果を携帯端末装置１００に送信する（Ｓ３２１６）。Ｓ３２１７では音声・口唇動き認識サーバー７００から送られた認識結果の音声認識フラグ及び口唇動き認識フラグに基づいて分岐処理を行い、音声認識及び口唇動き認識に失敗した場合（Ｎｏ）には音声・映像取り込み処理Ｓ３２１３に戻る。音声認識或いは口唇動き認識に成功した場合（Ｙｅｓ）には操作カテゴリ決定処理Ｓ３２１８を行い、メモリ１０４ｃに記憶された図１３に示すような操作に対応したカテゴリ選択肢データと認識結果との尤度に基づいて操作対象のカテゴリを決定し、認識結果に対応したカテゴリ選択肢が存在する場合には決定成否フラグをＯＫとする。分岐処理３４１８では決定成否フラグにより分岐処理を行い、認識結果に対応したカテゴリ選択肢が存在しない場合（Ｎｏ）には音声・映像取り込み処理Ｓ３２１３に戻る。認識結果に対応したカテゴリ選択肢が存在する場合（Ｙｅｓ）には音声・映像取り込み処理Ｓ３２２０を行い、取り込んだ音声及び映像のデータを音声・口唇動き認識サーバー７００に送信する（Ｓ３２２１）。音声・口唇動き認識サーバー７００では受信した音声及び映像のデータに基づいて音声及び口唇動き認識処理Ｓ３２２２を行い、認識結果を携帯端末装置１００に送信する（Ｓ３２２３）。Ｓ３２２４では音声・口唇動き認識サーバー７００から送られた認識結果の音声認識フラグ及び口唇動き認識フラグに基づいて分岐処理を行い、音声認識及び口唇動き認識に失敗した場合（Ｎｏ）には音声・映像取り込み処理Ｓ３２２０に戻る。認識に成功した場合（Ｙｅｓ）には操作対象決定処理Ｓ３２２５を行う。携帯端末１００のメモリ１０４ｅには操作者毎の履歴データが記憶されており、音声認識によりインターネット検索したときの検索対象の語句等の履歴が保存されている。また、携帯端末装置１００のストレージ１０５に記憶されている音楽、写真等のデータにはタイトル、アーティスト、撮影日等の属性に関するメタデータ付与されている。メモリ１０４ｅに記憶された履歴データ及び操作カテゴリ決定処理Ｓ３２１８で決定したカテゴリの属性部分の記述（例えばカテゴリとして曲名を選択した場合には各音楽データのメタデータとして記録されている曲のタイトルに対応した記述）と認識結果との尤度に基づいて操作対象を決定し、認識結果に対応した操作対象が存在する場合には決定成否フラグをＯＫとする。分岐処理３４２６では決定成否フラグにより分岐処理を行い、認識結果に対応した操作対象が存在しない場合（Ｎｏ）には音声・映像取り込み処理Ｓ３２２０に戻る。認識結果に対応した操作対象が存在する場合（Ｙｅｓ）にはメモリ１０４ｅに記憶されている操作者Ｎに対応した履歴データに決定した操作対象を追加・更新（Ｓ３２２７）し、決定した操作対象に対して操作を実行する（Ｓ３２２８）。

音声・口唇動き認識処理Ｓ３２０４，Ｓ３２１５，Ｓ３２２２のフローチャートの一例を図３３に示す。図３３において、まず通信部７０６を介して取得した操作者の音声データ及び少なくとも口唇部分を含む映像データに基づいて音声認識部７０２で音声認識処理Ｓ３３０１を行い、口唇動き認識部７０３で口唇動き認識定処理Ｓ３３０２を行う。分岐処理Ｓ３３０３では音声認識処理Ｓ３３０１で音声認識に成功したかどうかを音声認識フラグにより判断する。音声認識に失敗した場合（Ｎｏ）には処理を終了する。音声認識に成功した場合（Ｙｅs）には分岐処理Ｓ３３０４で口唇部分が撮影範囲から外れることなく映像の取り込みが行われ、口唇動きデータの取得に成功したかを口唇検出フラグにより判断する。口唇動きデータの取得に成功した場合（Ｙｅｓ）には音声認識で得られた文字列に対応した口唇認識データの有無により分岐処理を行う。音声認識で得られた文字列に対応した口唇認識データがある場合（Ｙｅs）には文字列に対応したストレージ領域７０５ｂの口唇認識データを更新し（Ｓ３３０６）、口唇認識データがない場合（Ｎｏ）には音声認識で得られた文字列に対応した口唇認識データをストレージ領域７０５ｂに追加し（Ｓ３３０７）、処理を終了する。一方、分岐処理Ｓ３３０４で口唇動きデータの取得に失敗したと判断した場合（Ｎｏ）には口唇動き認識データを更新せず、処理を終了する。

以上の処理により、音声認識に成功し、口唇動きデータの取得に成功した場合には音声認識結果に対応した口唇動き認識データの更新及び追加が行われる。

音声認識処理Ｓ３３０１のフローチャートの一例を図３４に示す。図３４において、まず音声分析を行い、入力音声の特徴パラメータの時系列パターンを抽出する（Ｓ３４０１）。次にＨＭＭによる音響モデルとしてストレージの所定の領域７０５ａに記憶された音声認識データとの尤度を計算する（Ｓ３４０２）。分岐処理Ｓ３４０３では、尤度計算の結果の最大確率 (最大尤度)が所定の値（ここでは一例として０．６とした）以上の場合（Ｙｅｓ）には音声認識フラグをＯＫとし（Ｓ３４０４）、最大確率を与える音声認識データを認識結果として処理を終了する。一方、分岐処理Ｓ３４０３でＮｏと判断した場合には、騒音等により音声認識が失敗したと判断し、音声認識フラグをＮＧとして（Ｓ３４０５）、処理を終了する。

次に、口唇動き認識処理Ｓ３３０２について、図３５の例を用いて説明する。

図３５のフローチャートにおいて、まず入力された映像から口唇の動きを検出し、口唇動きデータを取得する（Ｓ３５０１）。口唇部分が撮影範囲から外れていて入力された映像から口唇部分の検出ができず、口唇動きデータ取得処理Ｓ３５０１において口唇動きデータの取得に失敗した場合には、分岐処理３７０２においてＮｏと判断し、口唇検出フラグ及び口唇動き認識フラグをＮＧに設定（Ｓ３５０３、Ｓ３５０８）し、処理を終了する。一方、入力された映像から口唇動きデータの取得に成功した場合には、分岐処理Ｓ３５０２においてＹｅｓと判断し、口唇検出フラグをＯＫに設定（Ｓ３５０４）する。次に、この取得した口唇動きデータとストレージの所定の領域７０５ｂに記憶されている口唇動き認識データとの尤度を計算する（Ｓ３５０５）。分岐処理Ｓ３５０６では尤度計算の結果の最大確率 (最大尤度)が所定の値（ここでは一例として０．６とした）以上の場合（Ｙｅｓ）には、口唇動き認識フラグをＯＫとし（Ｓ３５０７）、最大確率を与える口唇動き認識データを認識結果として処理を終了する。一方、分岐処理Ｓ３５０６でＮｏと判断した場合には口唇動き認識フラグをＮＧとし（Ｓ３５０８）、処理を終了する。

上記の実施例では携帯端末装置１００において取り込んだ音声及び映像データを音声・口唇動き認識サーバー７００に送信するようにしているが、携帯端末装置１００において入力音声の特徴パラメータの時系列パターンを抽出する音声分析を行い、入力された映像から口唇の動きを検出して口唇動きデータ取得した結果を音声・口唇動き認識サーバー７００に送信するようにしてもよい。これにより、携帯端末装置１００から音声・口唇動き認識サーバー７００に送るデータ量を低減し、処理時間を低減することが可能となる。

以上の実施例では音声・口唇動き認識サーバー７００で音声認識及び口唇認識を行うことにより、多数の操作者の音声及び口唇動きのデータに基づいて口唇動き認識データが更新されるため、口唇動き認識の精度をより高めることが可能となる。また、操作者毎の履歴データを設け、音声認識で新たに使用された語句等を履歴データとして追加し、履歴データを口唇動き認識において利用することで、携帯端末装置の操作者毎に使用頻度の高い語句を口唇動き認識させることが可能となる。

尚、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。例えば、第１及び第２の実施例では音声認識データ、口唇動き認識データ、選択肢データ、をメモリ１０４に記憶するようにしたが、ストレージ１０５に記憶するようにしてもよい。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現しても良い。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現しても良い。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ１０４やストレージ１０５に置くことができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えても良い

１００：携帯端末装置、１０１：制御部、１０２：音声認識部、１０３：口唇動き認識部、１０４：メモリ、１０５：ストレージ、１１０：基地局通信部、１１１：無線通信部、１１２：マイク、１１３：音声処理部、１１４：スピーカ、１１５：外部音声出力部、１１６：タッチパネル、１１７：操作入力部、１１８：表示部、１１９：画像処理部、１２０：撮像部、１２２：操作者認識部、４００：基地局、５００：無線ルータ、６００：外部ネットワーク、７００：音声・口唇動き認識サーバー、７０１：制御部、７０２：音声認識部、７０３：口唇動き認識部、７０５：ストレージ、７０６：通信部

Claims

操作者の映像を撮影する撮像部と、
前記撮像部が取得した映像における操作者の動きに関する情報に基づいて実行する操作を認識する動き認識部と、
操作者の音声を取り込むマイクと、
前記マイクにより取り込んだ音声に基づいて実行する操作を認識する音声認識部と、
前記撮像部が取得した映像又は前記マイクにより取り込んだ音声により操作者を認識する操作者認識部と、
外部サーバとの間でデータの送受信を行う通信部と、
制御部と、
を備え、
前記制御部は、音声認識による操作を行う過程において、
前記撮像部による映像の取得又は前記マイクによる音声の取り込みがあると、前記操作者認識部より、前記取得した映像又は前記取り込んだ音声のいずれか一方に基づいて、操作者が予め登録された特定の操作者であるか否かを認識するように制御し、
前記操作者認識部により操作者が予め登録された特定の操作者であると認識されると、前記撮像部により取得された映像と前記マイクにより取り込まれた音声のデータを前記通信部により外部サーバに対して送信するように制御し、
前記通信部が前記送信したデータに対し前記外部サーバから前記送信された映像における口唇の横の大きさと口唇の縦の大きさの時間的な変化に基づいて前記外部サーバにより認識された結果に関する情報を受信すると、前記受信した情報に基づく操作を実行するように制御することを特徴とする携帯端末装置。
請求項１記載の携帯端末装置であって、
さらに、音声を出力するスピーカーを備え、
前記制御部は、前記スピーカーからの出力をオフとするマナーモード設定時であっても前記外部サーバから受信した情報に基づく操作に関する音声を前記スピーカーから出力するように制御することを特徴とする携帯端末装置。
携帯端末装置と音声認識及び動き認識を行うサーバを備える情報処理システムであって、
前記携帯端末装置は、
操作者の映像を撮影する撮像部と、
操作者の音声を取り込むマイクと、
前記撮像部が取得した映像又は前記マイクにより取り込んだ音声により操作者を認識する操作者認識部と、
前記サーバとの間でデータの送受信を行う通信部と、
制御部と、
を備え、
前記制御部は、音声認識による操作を行う過程において、
前記撮像部による映像の取得又は前記マイクによる音声の取り込みがあると、前記操作者認識部より、前記取得した映像又は前記取り込んだ音声のいずれか一方に基づいて、操作者が予め登録された特定の操作者であるか否かを認識するように制御し、
前記操作者認識部により操作者が予め登録された特定の操作者であると認識されると、前記撮像部により取得された映像と前記マイクにより取り込まれた音声のデータを前記通信部により前記サーバに対して送信するように制御し、
前記通信部が前記送信したデータに対し前記サーバから前記送信された映像における口唇の横の大きさと口唇の縦の大きさの時間的な変化に基づいて前記サーバにより認識された結果に関する情報を受信すると、前記受信した情報に基づく操作を実行するように制御し、
前記サーバは、
前記携帯端末装置から前記映像と前記音声のデータを受信し、前記受信された映像における口唇の横の大きさと口唇の縦の大きさの時間的な変化に基づいて認識された結果に関する情報を送信するサーバ通信部と、
前記サーバ通信部が受信した前記映像における操作者の口唇の横の大きさと口唇の縦の大きさの時間的な変化に関する情報に基づいて実行する操作を認識する動き認識部と、
前記サーバ通信部が受信した前記音声に基づいて実行する操作を認識する音声認識部と、
を備えることを特徴とする情報処理システム。
請求項３記載の情報処理システムにおいて、
前記携帯端末装置は、さらに、音声を出力するスピーカーを備え、
前記制御部は、前記スピーカーからの出力をオフとするマナーモード設定時であっても前記サーバから受信した情報に基づく操作に関する音声を前記スピーカーから出力するように制御することを特徴とする情報処理システム。