JP6064737B2

JP6064737B2 - 音声認識装置及び音声認識プログラム

Info

Publication number: JP6064737B2
Application number: JP2013067643A
Authority: JP
Inventors: 智己片野; 邦宏伊藤
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2013-03-27
Filing date: 2013-03-27
Publication date: 2017-01-25
Anticipated expiration: 2033-03-27
Also published as: JP2014191239A

Description

本発明は、音声認識が可能な音声認識装置及び音声認識プログラムに関する。

従来、ユーザの頭部に装着可能な、ユーザが発する音声を認識し、認識した音声に基づいて種々の制御を行う音声認識装置が知られている。例えば、特許文献１に記載のヘッドマウントディスプレイは、ヘッドセットを備えている。ヘッドセットには、マイクロフォンと音声制御切り換えスイッチとが設けられている。頭部に装着されたヘッドマウントディスプレイにおいて、マイクロフォンはユーザの口近くに位置し、音声制御切り換えスイッチは、マイクロフォンの近傍に位置する。ヘッドマウントディスプレイ本体には、音声信号処理回路が設けられている。音声信号処理回路は、マイクロフォンによって取得されたユーザの音声を検出し、所定の音声認識処理を行う。音声信号処理回路は、音声認識処理の結果が、事前に保存されたキーワードに一致するときに、外部コンピュータに対して供給画像の切り換え及びその他の動作を行わせるための指示信号を送信する。ヘッドマウントディスプレイは、音声制御切り換えスイッチのオン・オフが切り換えられた場合に、音声認識処理のオン・オフを切り換える。

特開２００２−１６５１５６号公報

しかしながら、前記従来のヘッドマウントディスプレイに音声認識処理を実行させる場合、ユーザは音声切り換えスイッチを手で操作する必要がある。よって、ハンズフリーで音声認識処理を実行できず、ユーザの作業を妨げる場合がある。

本発明の目的は、ハンズフリーで音声認識処理を実行可能な音声認識装置及び音声認識プログラムを提供することである。

本発明の第１の態様に係る音声認識装置は、音声入力部に入力された音声の音声データを取得する音声データ取得手段と、頭部に装着可能な頭部装着部に設けられた撮像部によって撮像された画像の画像データを取得する画像データ取得手段と、記憶部に記憶された所定のパターンを示す情報であるパターン情報と前記画像データとの比較に基づいて、前記画像データ取得手段によって取得された前記画像データに基づく前記画像に、前記パターン情報に基づく前記パターンが含まれるか否かを判断するパターン判断手段と、前記パターン判断手段によって前記画像データに基づく前記画像に前記パターンが含まれると判断された場合に、前記音声データ取得手段によって取得された前記音声データに基づく前記音声に対して音声認識処理を実行することで、前記音声に対応するテキストデータを生成する音声認識手段と、前記パターン判断手段によって前記画像データに基づく前記画像に前記パターンが含まれると判断された場合に、前記音声認識手段による前記音声認識処理が実行可能な状態を示す表示である実行表示を、前記頭部装着部に設けられた表示部に表示する第一表示制御手段と、前記音声認識手段によって生成された前記テキストデータに基づいて処理を実行する実行手段とを備え、前記記憶部には、前記頭部装着部の制御を指示する操作ワードに対応する指示データと、前記頭部装着部に実行させる動作についてのデータである動作データとが対応付けられた対応データが記憶され、前記記憶部に記憶された前記対応データと前記テキストデータとの比較に基づいて、前記音声認識手段によって生成された前記テキストデータに、前記指示データが含まれるか否かを判断する指示判断手段を備え、前記実行手段は、前記指示判断手段によって前記テキストデータに前記指示データが含まれると判断された場合に、前記対応データにおいて前記指示判断手段によって含まれると判断された前記指示データに対応付けられた前記動作データに基づく動作を前記頭部装着部に実行させる。

この場合、撮像部によって撮像された画像に所定のパターンが含まれる場合に、音声認識処理が実行され、生成されたテキストデータに基づいて処理が実行される。このため、頭部装着部のユーザは、撮像部をパターンに向けて画像を撮像させるだけで、音声認識装置に音声認識処理を実行させることができる。よって、例えば、手で頭部装着部のスイッチ等を操作する必要がなく、ユーザはハンズフリーで、音声認識装置に音声認識処理を実行させることができる。また、頭部装着部のユーザは、操作ワードを発声するだけで、頭部装着部に動作データに基づく動作を実行させることができる。

前記音声認識装置において、前記第一表示制御手段によって前記表示部に表示される前記実行表示は、前記記憶部に記憶された前記指示データに対応する前記操作ワードを示すテキストであってもよい。この場合、操作ワードを示すテキストが表示部に表示されるので、頭部装着部のユーザは、使用可能な操作ワードを確認できる。

前記音声認識装置において、前記記憶部には、前記対応データと前記パターン情報とが対応付けて記憶され、前記指示判断手段は、前記記憶部において前記パターン判断手段によって前記画像に含まれると判断された前記パターンについての前記パターン情報に対応付けられた前記対応データと前記テキストデータとの比較に基づいて、前記音声認識手段によって生成された前記テキストデータに、前記指示データが含まれるか否かを判断してもよい。この場合、対応データとパターン情報とが対応付けられているので、指示判断手段は、撮像手段によって撮像されるパターンに基づいて、テキストデータに指示データが含まれるか否かを判断するための候補を絞りこむことができる。よって、指示判断手段による判断精度が向上する。

前記音声認識装置において、前記記憶部には複数の前記対応データが記憶され、前記複数の対応データは夫々、互いに異なる種類の複数の前記パターン情報に対応付けられ、
前記指示判断手段は、前記記憶部に記憶された前記複数のパターン情報のうち、前記パターン判断手段によって前記画像に含まれると判断された前記パターンについての前記パターン情報に対応付けられた前記対応データを参照し、前記音声認識手段によって生成された前記テキストデータに、前記指示データが含まれるか否かを判断してもよい。この場合、複数のパターン情報に分けられて対応データが対応付けられている。このため、全ての指示データが、１つのパターン情報に対応付けられている場合に比べて、パターン情報に対応付けられている対応データ中の指示データの数が少なくなる。よって、指示判断手段におけるテキストデータに指示データが含まれているか否かの判断の精度が向上する。よって、より確実に、実行手段によって指示データに対応付けられた動作データに基づく動作を頭部装着部に実行させることができる。

前記音声認識装置において、前記第一表示制御手段によって前記表示部に表示される前記実行表示は、前記記憶部に記憶された前記複数のパターン情報のうち、前記パターン判断手段によって前記画像に含まれると判断された前記パターンについての前記パターン情報に対応付けられた前記対応データに含まれる前記指示データに対応する操作ワードを示すテキストであってもよい。この場合、操作ワードを示すテキストが表示部に表示されるので、頭部装着部のユーザは、使用可能な操作ワードを確認できる。

前記音声認識装置は、第一所定時間以上継続して、前記パターン判断手段によって前記画像データに基づく前記画像に前記パターンが含まれると判断された場合に、前記音声認識手段による前記音声認識処理を停止する第一処理停止手段を備えてもよい。パターンが第一所定時間以上画像に含まれる場合、ユーザが音声認識処理を音声認識装置に実行させようとしている可能性が低い。この場合に、自動で音声認識処理が停止されるので、ユーザの利便性が向上する。

前記音声認識装置は、前記第一処理停止手段によって前記音声認識手段による前記音声認識処理が停止された場合に、前記第一表示制御手段による前記実行表示の表示を停止する第一表示停止手段を備えてもよい。音声認識処理が停止される場合に実行表示が停止されるので、ユーザは、音声認識処理が停止されたことを認識することができる。

前記音声認識装置は、前記音声認識手段によって前記音声認識処理の実行が開始された後、前記パターン判断手段によって前記画像データに基づく前記画像に前記パターンが含まれないと判断された場合に、第二所定時間経過後に、前記音声認識手段による前記音声認識処理を停止する第二処理停止手段を備えてもよい。この場合、パターンが画像に含まれなくなっても第二所定時間の間、音声認識処理が実行される。よって、例えば、ユーザは撮像部をパターンに向けることなく、第二所定時間の間、作業をしながら音声認識処理を使用することができる。よって、ユーザの作業効率が向上する。また、例えば、撮像部が撮像する画像から一時的にパターンが外れても、音声認識処理が継続されるので、ユーザは常に撮像部をパターンに向けておく必要がない。よって、ユーザの作業効率が向上する。また、第二所定時間経過後に自動で音声認識処理が停止されるので、ユーザが音声認識処理の停止の操作をする必要がない。よって、ユーザの利便性が向上する。

前記音声認識装置は、前記第二処理停止手段によって前記音声認識手段による前記音声認識処理が停止された場合に、前記第一表示制御手段による前記実行表示の表示を停止する第二表示停止手段を備えてもよい。この場合、音声認識処理が停止される場合に実行表示が停止されるので、ユーザは、音声認識処理が停止されたことを認識することができる。また、第二処理停止手段によって実行表示の表示が停止されるまでは、第一表示制御手段による実行表示の表示が継続されるので、ユーザは、音声認識処理が実行されていることを認識することができる。

前記音声認識装置は、前記画像データ取得手段によって取得された前記画像データに基づく前記画像を前記表示部に表示する第二表示制御手段を備えてもよい。この場合、ユーザは撮像手段によって撮像された画像にパターンが含まれているか否かを把握することができる。このため、撮像部にパターンを撮像させる場合、及び撮像させない場合を容易に切り替えることができる。よって、ユーザは、音声認識処理を実行させるか否かを切り替えることができる。

本発明の第２の態様に係る音声認識プログラムは、音声認識装置において実行される音声認識プログラムであって、前記音声認識装置のコントローラに、音声入力部に入力された音声の音声データを取得する音声データ取得ステップと、頭部に装着可能な頭部装着部に設けられた撮像部によって撮像された画像の画像データを取得する画像データ取得ステップと、記憶部に記憶された所定のパターンを示す情報であるパターン情報と前記画像データとの比較に基づいて、前記画像データ取得ステップによって取得された前記画像データに基づく前記画像に、前記パターン情報に基づく前記パターンが含まれるか否かを判断するパターン判断ステップと、前記パターン判断ステップによって前記画像データに基づく前記画像に前記パターンが含まれると判断された場合に、前記音声データ取得ステップによって取得された前記音声データに基づく前記音声に対して音声認識処理を実行することで、前記音声に対応するテキストデータを生成する音声認識ステップと、前記パターン判断ステップによって前記画像データに基づく前記画像に前記パターンが含まれると判断された場合に、前記音声認識ステップによる前記音声認識処理が実行されることを示す表示である実行表示を、前記頭部装着部に設けられた表示部に表示する第一表示制御ステップと、前記音声認識ステップによって生成された前記テキストデータに基づいて処理を実行する実行ステップとを実行させ、前記記憶部には、前記頭部装着部の制御を指示する操作ワードに対応する指示データと、前記頭部装着部に実行させる動作についてのデータである動作データとが対応付けられた対応データが記憶され、前記記憶部に記憶された前記対応データと前記テキストデータとの比較に基づいて、前記音声認識ステップによって生成された前記テキストデータに、前記指示データが含まれるか否かを判断する指示判断ステップを実行させ、前記実行ステップは、前記指示判断ステップによって前記テキストデータに前記指示データが含まれると判断された場合に、前記対応データにおいて前記指示判断ステップによって含まれると判断された前記指示データに対応付けられた前記動作データに基づく動作を前記頭部装着部に実行する。この場合、手で頭部装着部のスイッチ等を操作する必要がなく、ユーザはハンズフリーで、音声認識装置に音声認識処理を実行させることができる。

ＨＭＤ１の斜視図である。ＨＭＤ１及びサーバ８０の電気的構成を示すブロック図である。パターンデータテーブル９５のデータ構成図である。画像表示部１４に表示される画像の一例を示す図である。第一メイン処理のフローチャートである。画像表示部１４に表示される画像の一例を示す図である。第二メイン処理のフローチャートである。

以下、本発明を具体化した実施の形態について、図面を参照して説明する。図１に示すように、ヘッドマウントディスプレイ（以下、「ＨＭＤ」という。）１は、投影装置（以下、「ヘッドディスプレイ」又は「ＨＤ」という。）１０と制御装置（以下、「コントロールボックス」又は「ＣＢ」という。）５０を備える。ＨＤ１０は、例えばユーザの頭部に装着される。ＣＢ５０は、例えばユーザの腰ベルトや腕等に装着される。ＨＭＤ１は、図２に示すサーバ８０と、無線通信又は有線通信を介して接続し、システムを構成することも可能である。以下の説明において、図１の上方、下方、右斜め下方、左斜め上方、右斜め上方及び左斜め下方がそれぞれ、ＨＭＤ１の上方、下方、前方、後方、右方及び左方である。

ＨＤ１０は専用の装着具である眼鏡５に装着して使用される。ＨＤ１０は、ユーザが日常的に使用する眼鏡、ヘルメット、ヘッドホンなど、他の装着具に取り付けられてもよい。ＨＤ１０は、ユーザの眼に画像光を照射する。ＨＤ１０はハーネス７を介してＣＢ５０と着脱可能に接続する。ＣＢ５０は、ＨＤ１０を制御する。

ＨＤ１０の構成について説明する。ＨＤ１０は筐体２を備える。筐体２は、ＨＭＤ１のユーザ側から見て右端側（図１における左側）にハーフミラー３を備える。ハーフミラー３は、ユーザがＨＤ１０を頭部に装着したとき、ユーザの眼（例えば左眼）の前方に配置される。ＨＤ１０は、筐体２の内部に、画像表示部１４（図２参照）と接眼光学系（図示略）を備える。画像表示部１４は、ＣＢ５０からハーネス７を介して送信される映像信号に基づいて画像を表示する。画像表示部１４は、例えば、液晶素子等の空間変調素子及び光源である。画像表示部１４は、画像信号に応じた強度のレーザ光を２次元走査して画像表示を行う網膜走査型表示部、液晶ディスプレイ、及び有機ＥＬ（Organic Electro-luminescence）ディスプレイ等であってもよい。ＨＤ１０は、カメラ２０を備える。カメラ２０は、ＨＤ１０の正面方向の外界の風景を撮像する。

接眼光学系は、画像表示部１４に表示された画像を示す画像光を集光し、ハーフミラー３に対して射出する。接眼光学系から射出された画像光は、筐体２の左側に設けられたハーフミラー３によって少なくとも一部（例えば半分）が反射される。ＨＭＤ１がユーザに装着されている場合、ハーフミラー３によって反射された画像光は、ユーザの一方（例えば左）の眼球（図示略）に入射する。ハーフミラー３は外界の実像からの光の少なくとも一部を透過するので、ユーザは、自己の視野において実像（外界の風景）に重畳して画像を見ることができる。

眼鏡５は、ＨＤ１０をユーザの頭部に保持するための構成である。眼鏡５は、フレーム６において、左眼用レンズを支えるリム部の上面右端（ユーザから見て上面左端）に、支持部４を備える。支持部４は、ＨＤ１０の筐体２を保持し、筐体２を眼鏡５に取り付ける。支持部４は、筐体２の保持位置を上下方向及び左右方向に調整することができる。ユーザは、眼球の位置に合わせた位置にハーフミラー３を配置することができる。

眼鏡５は、フレーム６において、右耳に掛けるテンプル部に、マイク１７及びイヤホン１８を内蔵するヘッドセット１６を備える。ヘッドセット１６には骨伝導型のものを用いてもよい。なお、眼鏡５自体の形状は通常の眼鏡に類似のため、詳細な説明は省略する。

ＣＢ５０の構成について説明する。ＣＢ５０は、略直方体状で縁部を丸めた箱型の筐体を有する。ＣＢ５０は電源ランプ６３を内蔵する電源スイッチ６２を含む操作部６１を備える。ユーザは、電源スイッチ６２を操作し、ＨＭＤ１の電源をオン又はオフにすることができる。ユーザは、ＨＤ１０における各種設定や、使用時における各種操作等を、操作部６１を介して行うことが可能である。

ＣＢ５０は、公知の無線通信を介して図２に示すサーバ８０と接続し、サーバ８０との間で音声データや画像データを含む各種データの送受信を行うことが可能である。ＣＢ５０は有線通信のインターフェイスを備え、通信ケーブルを用いてネットワーク９（図２参照）に接続し、サーバ８０と接続してもよい。あるいはＣＢ５０は、ＵＳＢインターフェイスを備え、ＵＳＢケーブルを用い、サーバ８０に接続してもよい。なお、サーバ８０は、パーソナルコンピュータ、スマートフォン、及びタブレット型携帯端末など、その他の機器であってもよい。

図２を参照し、ＨＭＤ１の電気的構成について説明する。ＨＤ１０は、ＨＤ１０全体の制御を行うＣＰＵ１１を備える。ＣＰＵ１１は、ＲＡＭ１２、プログラムＲＯＭ１３、画像表示部１４、インターフェイス１５、及び接続コントローラ１９に電気的に接続される。ＣＰＵ１１は、インターフェイス１５を介してカメラ２０及びヘッドセット１６に電気的に接続される。ＲＡＭ１２は、各種データを一時的に記憶する。プログラムＲＯＭ１３は、ＣＰＵ１１が実行する各種プログラム等を記憶する。各種プログラムは、ＨＤ１０の出荷時にプログラムＲＯＭ１３に記憶される。なお、ＣＰＵ１１は、後述するＣＢ５０のフラッシュＲＯＭ５４に記憶されたプログラムも実行することができる。

画像表示部１４は前述の通り、映像信号に基づいて画像を表示する。インターフェイス１５はカメラ２０及びヘッドセット１６に接続し、信号の入出力を制御する。接続コントローラ１９は、ハーネス７を介してＣＢ５０の接続コントローラ５８に接続し、有線通信を行う。カメラ２０は画像を撮像する。ヘッドセット１６はマイク１７及びイヤホン１８を備える。ヘッドセット１６はマイク１７に入力するアナログの音をデジタルに変換し、インターフェイス１５を介して音声データをＣＰＵ１１に送信する。ヘッドセット１６はインターフェイス１５を介してＣＰＵ１１から受信する音声データをデジタルからアナログに変換し、イヤホン１８から出力する。なお、ＨＤ１０は、ヘッドセット１６の代わりに、筐体２にマイクとスピーカを内蔵してもよい。

ＣＢ５０の電気的構成について説明する。ＣＢ５０は、ＣＢ５０全体の制御を行うＣＰＵ５１を備える。ＣＰＵ５１は、ＲＡＭ５２、プログラムＲＯＭ５３、フラッシュＲＯＭ５４、インターフェイス５５、ビデオＲＡＭ５６、画像処理部５７、接続コントローラ５８、及び無線通信部５９に電気的に接続される。ＲＡＭ５２は、各種データを一時的に記憶する。

プログラムＲＯＭ５３は、ＣＰＵ５１が実行する各種プログラム等を記憶する。プログラムＲＯＭ５３は、メインプログラム記憶エリア５３１を少なくとも備える。メインプログラム記憶エリア５３１は、ＣＰＵ５１がＨＭＤ１の各種動作を制御するために実行するメインプログラムを記憶する。メインプログラムは、例えば、後述する第一メイン処理を実行するためのプログラム等を含む。また、プログラムＲＯＭ５３は、ＯＳを記憶する。メインプログラムは、ＯＳ上で実行される。メインプログラム及びＯＳは、ＨＭＤ１の出荷時にプログラムＲＯＭ５３に記憶される。また、ＨＭＤ１は、プログラムダウンロード用のサーバからメインプログラム及びＯＳを無線通信部５９を介してダウンロードし、インストールしてもよい。例えば、メインプログラム及びＯＳは、コンピュータで読み取り可能な一時的な記憶媒体（例えば、伝送信号）として、サーバからＨＭＤ１に送信される。メインプログラムは、ＨＭＤ１が備えるコンピュータで読み取り可能な記憶装置、例えば、プログラムＲＯＭ５３に保存される。但し、記憶装置は、例えばＲＯＭ、フラッシュＲＯＭ、ＨＤＤ、ＲＡＭなどの、一時的な記憶媒体を除く記憶媒体であってよい。また、記憶装置は、非一時的な記憶媒体であってよい。非一時的な記憶媒体は、データを記憶する時間の長さに関わらず、データを留めておくことが可能なものである。なお、ＣＰＵ５１は、フラッシュＲＯＭ５４に記憶されたプログラムも実行可能である。

フラッシュＲＯＭ５４は、インストールされる各種プログラム等を記憶する。インターフェイス５５は電源スイッチ６２及び電源ランプ６３を含む操作部６１に接続し、ユーザによる操作の入力信号やランプの点灯信号等の入出力を行う。画像処理部５７は、ＨＤ１０の画像表示部１４に表示する画像を形成する処理を行う。なお、画像処理部５７は、ＣＰＵ４１がプログラムに従って実行するデータ処理で実現されてもよいし、電気回路で実現されてもよい。ビデオＲＡＭ５６は、画像処理部５７が形成した画像を画像表示部１４に表示するための映像信号を生成するため、画像を仮想的に表示した仮想画面を記憶領域内に形成する。接続コントローラ５８は、ハーネス７を介してＨＤ１０の接続コントローラ１９に接続し、有線通信を行う。無線通信部５９は、ネットワーク９のアクセスポイント（図示略）へ無線で接続し、例えば、サーバ８０など、ネットワーク９に接続する他の機器と通信を行う。

サーバ８０は、サーバ８０全体の制御を行うＣＰＵ８１を備える。ＣＰＵ８１は、データバスを介してＲＯＭ８２、ＲＡＭ８３、及び入出力バス（以下、「Ｉ／Ｏバス」という。）８５と電気的に接続する。ＲＯＭ８２は、ＣＰＵ８１が実行するＢＩＯＳ等のプログラムを記憶する読出し専用の記憶装置である。ＲＡＭ８３は、データを一時的に記憶する読み書き可能な記憶装置である。

Ｉ／Ｏバス８５には、ハードディスクドライブ（以下、「ＨＤＤ」という。）８４及び通信部８６が接続されている。ＨＤＤ８４は、ＯＳやプログラム等がインストールされる記憶装置である。通信部８６は、ネットワーク９のアクセスポイント（図示略）へ有線通信又は無線通信で接続し、サーバ８０をネットワーク９に接続する。また、図示しないが、Ｉ／Ｏバス８５にはマウスやキーボード等の入力デバイスも接続されている。

図３を参照して、パターンデータテーブル９５について説明する。パターンデータテーブル９５は、例えば、フラッシュＲＯＭ５４に記憶されている。パターンデータテーブル９５にはパターン情報と対応データとが対応付けられている。パターン情報は、所定のパターンを示す情報である。対応データは、複数の指示データと複数の動作データとを含む。例えば、指示データ「再生」、「停止」、「早送り」、「巻戻し」と、夫々の指示データに対応付けられている動作データとが、パターン９０１のパターン情報に対応付けられている１の種類の対応データである。同様に、指示データ「拡大」、「縮小」、「元のサイズ」、「画面フィット」と、夫々の指示データに対応付けられている動作データとが、パターン９０２のパターン情報に対応付けられている１の種類の対応データである。指示データ「次のページ」、「前のページ」と、夫々の指示データに対応付けられている動作データとが、パターン９０３のパターン情報に対応付けられている１の種類の対応データである。指示データ「録画」、「停止」と、夫々の指示データに対応付けられている動作データとが、パターン９０４のパターン情報に対応付けられている１の種類の対応データである。

パターン９０１〜９０４は、それぞれ、星形、三角形、五角形、及びひし形である。以下の説明では、パターン９０１〜９０４等、種々のパターンを総称する場合、又はいずれかを特定しない場合、パターン９０という。指示データは、ＨＭＤ１の制御を指示する操作ワードに対応する指示のデータである。操作ワードは、ユーザが発する言葉である。動作データは、ＨＭＤ１に実行させる動作についてのデータである。例えば、ユーザが操作ワード「再生」を発声すると、「再生」の指示データが対応データに含まれると判断され（後述する図５のＳ２５：ＹＥＳ）、動作データ「動画の再生を開始する」に基づく動作が実行される（後述する図５のＳ２６）。

図４を参照して、画像表示部１４に表示される画像の一例について説明する。図４に示すように、画像表示部１４の左下部には、撮像画像表示領域１４１が設けられている。撮像画像表示領域１４１には、カメラ２０によって撮像された自動車１４２が表示されている。撮像画像表示領域１４１の右上には、表示領域１４３が設けられている。表示領域１４３には、動画及び作業マニュアル等、種々の画像が表示される。本実施形態では、自動車１４２についての修理マニュアルの動画が表示されるとする。なお、図４に示す表示領域１４３に表示された動画は、まだ再生されておらず、静止画の状態であるとする。

図５を参照して、第一メイン処理について説明する。操作部５０を介して第一メイン処理のプログラムの起動指示が受け付けられると、ＣＰＵ５１は、プログラムＲＯＭ５３に記憶された第一メイン処理のプログラムをＲＡＭ５２に展開し、処理を実行する。なお、以下の説明では、ＨＭＤ１は、ネットワーク９及びサーバ８０に接続されていないとする。また、図４に示す自動車１４２が作業対象物であり、ユーザが自動車１４２の修理をする場合を具体例として例示しながら説明する。図４に示す表示領域１４３には、自動車１４２の修理マニュアルの動画の初期画面の静止画が表示されている。この修理マニュアルは、フラッシュＲＯＭ５４に記憶されており、ユーザの操作によって選択されることで、表示領域１４３に表示されているとする。

第一メイン処理では、ＣＰＵ５１は、マイク１７から入力される音声の音声データの取得を開始する（Ｓ１１）。ＣＰＵ５１は、Ｓ１１を実行した後、音声データの取得を継続する。ＣＰＵ５１は、カメラ２０に対して制御信号を送信することにより、画像データを取得する（Ｓ１２）。ＣＰＵ５１は、Ｓ１２で取得した画像データに基づく画像を画像表示部１４に表示する指示を、ＨＤ１０に送信する（Ｓ１３）。具体例では、ユーザが自動車１４２に前方に立っており、カメラ２０は自動車１４２に向けられているとする。この場合、図４に示すように、自動車１４２を前方から見た画像が撮像画像表示領域１４１に表示される。

ＣＰＵ５１は、図３に示すパターンデータテーブル９５のパターン情報とＳ１２において取得した画像データとの比較に基づいて、Ｓ１２において取得した画像データに基づく画像に、パターン情報に基づくパターン９０が含まれるか否かを特定する（Ｓ１４）。すなわち、ＣＰＵ５１は、画像解析を実行する。

画像解析の一例について述べる。例えば、ＣＰＵ５１は、画像データに基づく画像に対して公知のエッジ抽出を実行する。エッジ抽出には、例えば、２次微分及びハフ変換等を用いることができる。これによって、ＣＰＵ５１は、パターン９０及び自動車１４２等の輪郭を抽出する。次いで、ＣＰＵ５１は、パターンマッチング法によって、画像中に、図３に示すパターンデータテーブル９５に登録されているパターン情報に対応するパターン９０が含まれているか否かを特定する。

ＣＰＵ５１は、Ｓ１４の結果、Ｓ１２で取得された画像データに基づく画像にパターン９０が含まれるか否かを判断する（Ｓ１５）。画像にパターン９０が含まれない場合（Ｓ１５：ＮＯ）、ＣＰＵ５１は処理をＳ１２に戻す。

具体例において、図６に示すように、カメラ２０が自動車１４２の横（紙面右側）に配置されたパターン９０１の方向に向けられたとする。この場合、ＣＰＵ５１は、パターン９０１が撮像された画像データを取得し（図５のＳ１２）、図６に示すように撮像画像表示領域１４１に表示する指示を、ＨＤ１０に送信する（図５のＳ１３）。なお、パターン９０１は、カードに描かれており、事前に机の上に置かれている。図６では説明のため、パターン９０１を大きく表示している。図３に示すパターンデータテーブル９５には、パターン９０１が登録されているので、ＣＰＵ５１は、Ｓ１２において取得した画像データに基づく画像にパターン９０１が含まれることを特定する（Ｓ１４）。そして、ＣＰＵ５１は、パターン９０１が含まれると判断する（Ｓ１５：ＹＥＳ）。

図５に示すように、画像にパターン９０が含まれる場合（Ｓ１５：ＹＥＳ）、ＣＰＵ５１は、音声認識処理が実行可能な状態を示す情報である実行表示１４４を画像表示部１４に表示する指示を、ＨＤ１０に送信する（Ｓ１６）。本実施形態における実行表示１４４は、操作ワードを示すテキストである。具体例では、ＣＰＵ５１は、Ｓ１４において画像にパターン９０１が含まれていることを特定している。このため、Ｓ１６において、ＣＰＵ５１は、図３に示すパターンデータテーブル９５に登録されている複数のパターン９０のうち、パターン９０１のパターン情報に対応付けられた指示データ「再生」、「停止」、「早送り」、「巻戻し」を特定する。そして、ＣＰＵ５１は、図６に示すように、指示データ「再生」、「停止」、「早送り」、「巻戻し」に対応する操作ワードを示すテキスト「再生」、「停止」、「早送り」、「巻戻し」を画像表示部１４に表示する指示を、ＨＤ１０に対して送信する。操作ワードを示すテキストが表示されることで、ユーザは、ＨＭＤ１において音声認識処理が実行されることを認識することができる。また、操作ワードを示すテキストが画像表示部１４に表示されるので、ＨＭＤ１のユーザは、使用可能な操作ワードを確認できる。

ＣＰＵ５１は、ＯＳのタイマ機能を利用して、時間Ｔ１の計測を「０」から開始する（Ｓ１７）。ＣＰＵ５１は、マイク１７を介して取得した音声データに基づく音声のレベルが、所定レベル以上であるか否かを判断する（Ｓ１８）。所定レベルは、周囲の雑音より大きいレベルに設定される。例えば、ユーザが発声した場合には、ＣＰＵ５１は、音声データに基づく音声のレベルが所定レベル以上であると判断する。なお、所定レベルは、予めフラッシュＲＯＭ５４に記憶されていてもよいし、ユーザが発声していない定常状態の時の音声データに基づく音声より大きいレベルにＣＰＵ５１が設定してもよい。

音声のレベルが所定レベル以上でない場合（Ｓ１８：ＮＯ）、ＣＰＵ５１は、時間Ｔ１が第一所定時間より大きくなったか否かを判断する（Ｓ１９）。なお、Ｓ１９は、後述するＳ２３において、後述するＳ２０で取得された画像データに基づく画像にパターン９０が含まれると判断された場合に（Ｓ２３：ＹＥＳ）、継続して実行される。すなわち、ＣＰＵ５１は、Ｓ１９において、第一所定時間以上継続して、Ｓ２０で取得した画像データに基づく画像にパターン９０が含まれるか否かを判断している。

時間Ｔ１が第一所定時間より大きくない場合（Ｓ１９：ＮＯ）、ＣＰＵ５１は、Ｓ１２と同様に、画像データを取得する（Ｓ２０）。ＣＰＵ５１は、Ｓ１３と同様に、Ｓ２０で取得した画像データに基づく画像を画像表示部１４に表示する指示を、ＨＤ１０に送信する（Ｓ２１）。ＣＰＵ５１は、Ｓ１４と同様に、パターンデータテーブル９５のパターン情報とＳ２０において取得された画像データとの比較に基づいて、Ｓ２０で取得した画像データに基づく画像に、パターン情報に基づくパターン９０が含まれるか否かを特定する（Ｓ２２）。ＣＰＵ５１は、Ｓ２２の結果に従って、Ｓ２０において取得した画像データに基づく画像にパターン９０が含まれるか否かを判断する（Ｓ２３）。画像にパターン９０が含まれる場合（Ｓ２３：ＹＥＳ）、ＣＰＵ５１は処理をＳ１８に戻す。

音声のレベルが所定レベル以上である場合（Ｓ１８：ＹＥＳ）、ＣＰＵ５１は、マイク１７を介して取得した音声データに基づく音声に対して音声認識処理を実行することで、音声に対応するテキストデータを生成する（Ｓ２４）。すなわち、本実施形態では、画像にパターン９０が含まれると判断された場合に（Ｓ１５：ＹＥＳ）、音声認識処理が実行される状態になっている。ＣＰＵ５１は、生成したテキストデータを、ＲＡＭ５２に記憶する。具体例においては、ユーザが「動画を再生」と言葉を発声したとする。この場合、ＣＰＵ５１は、音声のレベルが所定レベル以上であると判断し（Ｓ１８：ＹＥＳ）、音声認識処理によって「動画を再生」のテキストデータを作成する（Ｓ２４）。

ＣＰＵ５１は、パターンデータテーブル９５に登録された指示データと、Ｓ２４において生成したテキストデータとの比較に基づいて、Ｓ２４において生成したテキストデータに指示データが含まれるか否かを判断する（Ｓ２５）。より詳細には、Ｓ２５において、ＣＰＵ５１は、パターンデータテーブル９５における複数のパターン情報のうち、Ｓ１５又はＳ２３において画像に含まれると判断したパターン９０についてのパターン情報に対応付けられた対応データを参照する。そして、ＣＰＵ５１は、Ｓ２４において生成したテキストデータに、指示データが含まれるか否かを判断する。具体例では、ＣＰＵ５１は、Ｓ２４の音声認識処理において「動画を再生」のテキストデータを作成している。また、ＣＰＵ５１は、Ｓ１５又はＳ２３において、パターン９０１のパターン情報が含まれると判断している。パターン９０１のパターン情報には、指示データ「再生」が対応付けられている。よって、ＣＰＵ５１は、テキストデータに、指示データが含まれると判断し（Ｓ２５：ＹＥＳ）、Ｓ２６を実行する。

ＣＰＵ５１は、Ｓ２５において含まれると判断した指示データに対応付けられた動作データに基づく動作を実行する（Ｓ２６）。具体例の場合、図３に示すパターンデータテーブル９５において、指示データ「再生」には、動作データ「動画の再生を開始する」が登録されている。よって、ＣＰＵ５１は、表示領域１４３に表示された修理マニュアルの動画の再生を開始する。これによって、ユーザは修理マニュアルの動画を確認しながら、自動車１４２の修理を行うことができる。ＣＰＵ５１は処理をＳ１８に戻す。なお、Ｓ２５において、ＣＰＵ５１は、テキストデータに指示データが含まれないと判断した場合（Ｓ２５：ＮＯ）、処理をＳ１８に戻す。すなわち、ＣＰＵ５１は、ユーザが会話等を行い、指示データに含まれない言葉を発声しても、Ｓ２６を実行しない。

第一所定時間以上継続して、Ｓ２０で取得される画像データに基づく画像にパターン９０が含まれる場合、ＣＰＵ５１は、時間Ｔ１が第一所定時間より大きいと判断する（Ｓ１９：ＮＯ）。この場合、ＣＰＵ５１は、Ｓ１６において開始した実行表示１４４の表示を停止する指示を、ＨＤ１０に対して送信する（Ｓ２７）。なお、ＣＰＵ５１は、Ｓ２７を実行する場合、Ｓ２４を実行しない。すなわち、ＣＰＵ５１は、音声認識処理を停止する場合に、Ｓ２７において実行表示１４４の表示を停止している。ＣＰＵ５１は、時間Ｔ１の計測を停止する（Ｓ２８）。ＣＰＵ５１は、処理をＳ１２に戻す。

ＣＰＵ５１は、Ｓ２０において取得した画像データに基づく画像にパターン９０が含まれないと判断した場合（Ｓ２３：ＮＯ）、処理をＳ２７に進める。すなわち、ＣＰＵ５１は、カメラ２０がパターン９０が撮像されない向きに向けられた場合、音声認識処理を停止し、実行表示１４４の表示を停止する。

以上のように、ＣＰＵ５１は、本実施形態における処理を実行する。本実施形態では、ＣＰＵ５１は、カメラ２０によって撮像された画像にパターン９０が含まれる場合（Ｓ１５：ＹＥＳ、又は、Ｓ２３：ＹＥＳ）、音声認識処理を実行する（Ｓ２４）。そして、ＣＰＵ５１は、音声認識処理によって生成したテキストデータに基づいて処理を実行する（Ｓ２６）。このため、ＣＰＵ５１は、カメラ２０がパターン９０に向けられて画像が撮像されるだけで、音声認識処理を実行する。よって、例えば、ユーザは手でスイッチ等を操作する必要がなく、ハンズフリーで、ＣＰＵ５１に音声認識処理を実行させることができる。具体例において動画の再生が開始された後、ユーザが、動画の停止、早送り、及び巻戻しのいずれかをＨＭＤ１に実行させたい場合に、カメラ２０をパターン９０１に向ければ、音声認識処理を開始させることができる（Ｓ１５：ＹＥＳ）。ユーザは、「停止」、「早送り」、及び「巻戻し」のいずれかの操作ワードを発声することで、ＨＭＤ１を操作することができる（Ｓ１８：ＹＥＳ、Ｓ２４、及びＳ２６）。

また、ユーザが操作ワードを発声すると、ＣＰＵ５１は、Ｓ２４において生成したテキストデータに、指示データが含まれると判断し（Ｓ２５：ＹＥＳ）、動作データに基づく動作を実行する（Ｓ２６）。すなわち、ユーザが操作ワードを発声するだけで、操作ワードに対応する動作をＨＭＤ１に実行させることができる。よって、ユーザの利便性が向上する。

また、図３のパターンデータテーブル９５では、複数の対応データが記憶され、複数の対応データは互いに異なる種類の複数のパターン情報に対応付けられている。すなわち、複数のパターン情報に分けられて指示データが対応付けられている。このため、全ての指示データが１つのパターン情報に対応付けられている場合に比べて、パターン情報に対応付けられている対応データ中の指示データの数が少なくなる。よって、ＣＰＵ５１が生成したテキストデータに指示データが含まれているか否かの判断を行うＳ２５の精度が向上する。よって、ＣＰＵ５１は、Ｓ２６において、指示データに対応付けられた動作データに基づく動作をＨＭＤ１により確実に実行させることができる。

カメラ２０によって撮像された画像にパターン９０が第一所定時間以上含まれる状況として、例えば、ユーザが作業を終了し、パターン９０がカメラ２０に撮像される位置にＨＭＤ１を置いた場合、又は、パターン９０がカメラ２０に撮像される位置でユーザが休んでいる場合などの状況が考えられる。これらの例のように、カメラ２０によって撮像された画像にパターン９０が第一所定時間以上含まれる場合、ユーザが音声認識処理をＨＭＤ１に実行させようとしている可能性が低い。この場合に、ＣＰＵ５１は、自動で音声認識処理を停止する（Ｓ１９：ＹＥＳ）。よって、ユーザの利便性が向上する。

また、ＣＰＵ５１は、音声認識処理を停止する場合（Ｓ１９：ＹＥＳ、又は、Ｓ２３：ＮＯ）、実行表示１４４の表示を停止する（Ｓ２７）。よって、ユーザは、実行表示１４４の表示が画像表示部１４から消えることを確認することで、音声認識処理が停止されたことを認識することができる。

また、ＣＰＵ５１は、カメラ２０によって撮像された画像を画像表示部１４に表示する（Ｓ１３及びＳ２１）。このため、ユーザは、カメラ２０によって撮像された画像にパターン９０が含まれるか否かを把握することができる。このため、カメラ２０にパターン９０を撮像させる場合、及び撮像させない場合を容易に切り替えることができる。よって、ユーザは、ＨＭＤ１に音声認識処理を実行させるか否かを切り替えることができる。

上記実施形態において、ＨＭＤ１は本発明の「音声認識装置」の一例である。マイク１７は本発明の「音声入力部」の一例である。ヘッドディスプレイ１０及びＨＭＤ１は本発明の「頭部装着部」の一例である。フラッシュＲＯＭ５４は本発明の「記憶部」の一例である。Ｓ１１において音声データの取得が開始された後、音声データの取得を継続する処理を行うＣＰＵ５１は本発明の「音声データ取得手段」の一例である。Ｓ１２及びＳ２０の処理を行うＣＰＵ５１は本発明の「画像データ取得手段」の一例である。Ｓ１４、Ｓ１５、Ｓ２２、及びＳ２３の処理を行うＣＰＵ５１は本発明の「パターン判断手段」の一例である。Ｓ２４の処理を行うＣＰＵ５１は本発明の「音声認識手段」の一例である。Ｓ１６の処理を行うＣＰＵ５１は本発明の「第一表示制御手段」の一例である。画像表示部１４は本発明の「表示部」の一例である。Ｓ２６の処理を行うＣＰＵ５１は本発明の「実行手段」の一例である。Ｓ２５の処理を行うＣＰＵ５１は本発明の「指示判断手段」の一例である。Ｓ１９：ＹＥＳの処理を行うＣＰＵ５１は本発明の「第一処理停止手段」の一例である。Ｓ２７の処理を行うＣＰＵ５１は本発明の「第一表示停止手段」の一例である。Ｓ１３及びＳ２１の処理を行うＣＰＵ５１は本発明の「第二表示制御手段」の一例である。

Ｓ１１において音声データの取得が開始された後、音声データの取得を継続する処理は本発明の「音声データ取得ステップ」の一例である。Ｓ１２及びＳ２０の処理は本発明の「画像データ取得ステップ」の一例である。Ｓ１４、Ｓ１５、Ｓ２２、及びＳ２３の処理は本発明の「パターン判断ステップ」の一例である。Ｓ２４の処理は本発明の「音声認識ステップ」の一例である。Ｓ１６の処理は本発明の「第一表示制御ステップ」の一例である。Ｓ２６の処理は本発明の「実行ステップ」の一例である。

なお、本発明は上記の実施形態に限定されるものではなく、種々の変更が可能である。例えば、Ｓ１６では、実行表示１４４として、操作ワードを示すテキストが表示されているが、これに限定されない。例えば、実行表示１４４として、「音声認識処理を実行中です。」等のメッセージが表示されてもよい。また、音声認識処理が停止された場合に、Ｓ２８において実行表示１４４の表示が停止されていたが、表示が停止されなくてもよい。また、Ｓ１３及びＳ２１において、カメラ２０に撮像された画像が画像表示部１４に表示されたが、表示されなくてもよい。

ＣＰＵ５１は、Ｓ１１において音声データの取得を開始しているが、これに限定されない。例えば、ＣＰＵ５１は、Ｓ１８〜Ｓ２６を実行している間のみ、すなわち、音声認識処理が実行可能な状態にある時のみ、音声データの取得を行ってもよい。

また、具体例において、パターン９０が描かれたカードが机上に置かれていたが、これに限定されない。例えば、ユーザがパターン９０が描かれたカードを手で持ち、カメラ２０に撮像させてもよい。この場合でも、ユーザは従来のように音声制御切り換えスイッチのオン・オフを操作する必要がないので、音声制御切り替えスイッチを手で探すことなどの行う必要がない。よって、従来の場合に比べてハンズフリーでの作業性が向上する。

また、パターン９０は星形等の形状であったが、これに限定されない。例えば、パターン９０は、模様又は色等であってもよい。パターン９０は特定の図形でなく、コップの形状など、外界に実際に存在する物体の形状であってもよい。パターン９０がコップの形状の場合、カメラ２０がコップに向けられれば、ＣＰＵ５１は音声認識処理を開始する。また、例えば、パターン９０はユーザが作業を行う作業対象物の一部であってもよい。例えば、自動車が作業対象物である場合、パターン９０はナンバープレートであってもよい。この場合、ユーザは自動車に対して作業を行いながら、音声認識処理をＨＭＤ１に実行させたい場合に、ナンバープレートにカメラ２０を向ける。このため、ユーザは作業対象物の他にパターン９０が描かれたカード等を用意してカメラ２０に撮像させる必要がなく、ユーザの作業効率が向上する。また、パターン９０は、身体の一部、例えば、人間の手であってもよい。この場合、ユーザは、手をカメラ２０に撮像させることで、音声認識処理をＨＭＤ１に実行させることができる。

また、ＣＰＵ５１は、Ｓ２６において、Ｓ２５において含まれると判断した指示データに対応付けられた動作データに基づく動作を実行しなくてもよい。ＣＰＵ５１は、Ｓ２６において、Ｓ２４において生成したテキストデータに基づいて処理を行えばよい。例えば、ＣＰＵ５１は、Ｓ２６において、Ｓ２４において生成したテキストデータをフラッシュＲＯＭ５４に記憶してもよい。

また、図３のパターンデータテーブル９５では、複数の対応データが記憶され、複数の対応データは互いに異なる種類の複数のパターン情報に対応付けられていたが、これに限定されない。対応データがパターン情報に対応付けられていればよく、例えば、１つのパターン情報のみに対応データが対応付けられていてもよい。この場合でも、対応データとパターン情報とが対応付けられているので、ＣＰＵ５１は、Ｓ２５において判断を行う場合に、カメラ２０によって撮像されるパターン９０に基づいて、テキストデータに指示データが含まれるか否かを判断するための候補を絞りこむことができる。よって、Ｓ２５における判断精度が向上する。

また、ＣＰＵ５１は、第一所定時間以上継続して画像にパターン９０が含まれる場合（Ｓ１９：ＹＥＳ）、又は、画像にパターン９０が含まれない場合（Ｓ２３：ＮＯ）、音声認識処理を停止する。しかし、例えば、ＣＰＵ５１は、音声認識処理の実行を開始した後、画像データに基づく画像にパターン９０が含まれないと判断した場合に、第二所定時間経過後に、音声認識処理を停止してもよい。以下、この変形例について、図７を参照して詳述する。

図７に示す第二メイン処理において、図５に示す第一メイン処理と同様の処理は同じ符号で示し、詳細の説明は省略する。図７に示すように、第二メイン処理では、ＣＰＵ５１は、第一メイン処理と同様に、Ｓ１１〜Ｓ１６の処理を実行する。ＣＰＵ５１は、Ｓ１６の処理を実行した後、Ｓ１８を実行する。ＣＰＵ５１は、Ｓ１８において、音声のレベルが所定レベル以上であると判断した場合（Ｓ１８：ＹＥＳ）、第一メイン処理と同様に、Ｓ２４〜Ｓ２６の処理を実行する。音声のレベルが所定レベル以上でない場合（Ｓ１８：ＮＯ）、ＣＰＵ５１は、Ｓ２０〜Ｓ２３の処理を実行する。Ｓ２０〜Ｓ２３は第一メイン処理と同様である。

ＣＰＵ５１は、Ｓ２０において取得した画像データに基づく画像にパターン９０が含まれないと判断した場合（Ｓ２３：ＮＯ）、時間Ｔ２を計測中であるか否かを判断する（Ｓ３１）。時間Ｔ２を計測中である場合（Ｓ３１：ＹＥＳ）、ＣＰＵ５１は、後述するＳ３３を実行する。時間Ｔ２を計測中でない場合（Ｓ３１：ＮＯ）、ＣＰＵ５１は、ＯＳのタイマ機能を利用して、時間Ｔ２の計測を「０」から開始する（Ｓ３２）。ＣＰＵ５１は、時間Ｔ２が第二所定時間より大きいか否かを判断する（Ｓ３３）。第二所定時間は例えば、２０秒である。時間Ｔ２が第二所定時間よりも大きくない場合（Ｓ３３：ＮＯ）、ＣＰＵ５１は処理をＳ１８に戻す。すなわち、ＣＰＵ５１はＳ２４による音声認識処理を継続する。

時間Ｔ２が第二所定時間よりも大きい場合（Ｓ３３：ＹＥＳ）、ＣＰＵ５１は、処理をＳ２７に進める。すなわち、ＣＰＵ５１は、Ｓ２４による音声認識処理の実行を停止する。ＣＰＵ５１は、時間Ｔ２の計測を停止する（Ｓ３５）。ＣＰＵ５１は処理をＳ１２に戻す。ＣＰＵ５１は、Ｓ２３において、画像データに基づく画像にパターン９０が含まれると判断した場合（Ｓ２３：ＹＥＳ）、時間Ｔ２を「０」に設定する（Ｓ３４）。なお、例えば、ＣＰＵ５１は、Ｓ３２で時間Ｔ２の計測を開始していた場合、時間Ｔ２を「０」に設定すると共に、時間Ｔ２の計測を停止する。ＣＰＵ５１は処理をＳ１８に戻す。すなわち、ＣＰＵ５１は、Ｓ２４による音声認識処理の実行を継続する。

以上のように、本変形例に係る処理が実行される。本変形例では、ＣＰＵ５１は、画像にパターン９０が含まれると判断し（Ｓ１５：ＹＥＳ）、音声認識処理の実行を開始した後、画像にパターン９０が含まれないと判断した場合に（Ｓ２３：ＮＯ）、第二時間経過後に、音声認識処理を停止する（Ｓ３３：ＹＥＳ）。言い換えると、ＣＰＵ５１は、パターン９０が画像に含まれなくなっても、第二所定時間の間、音声認識処理を実行する（Ｓ３３：ＮＯ、及びＳ２４）。よって、例えば、音声認識処理が開始されれば（Ｓ１５：ＹＥＳ）、ユーザはカメラ２０をパターン９０に向けなくても、第二所定時間の間、作業をしながら音声認識処理を使用できる。よって、ユーザの作業効率が向上する。また、ＣＰＵ５１は、カメラ２０が撮像する画像から一時的にパターン９０が外れても、第二所定時間以内にパターン９０が画像に含まれる状態になれば、音声認識処理を継続する（Ｓ２３：ＹＥＳ）。カメラ２０が撮像する画像から一時的にパターン９０が外れても、音声認識処理が継続されるので、ユーザは常にカメラ２０をパターン９０に向けておく必要がない。よって、ユーザの作業効率が向上する。また、ＣＰＵ５１は、第二所定時間経過後に自動で音声認識処理を停止するので（Ｓ３３：ＹＥＳ）、ユーザが音声認識処理の停止の操作をする必要がない。よって、ユーザの利便性が向上する。

また、本変形例におけるＳ２７では、ＣＰＵ５１は、時間Ｔ２が第二所定時間より大きくなり、音声認識処理を停止した場合に、実行表示１４４の表示を停止する。よって、ユーザは、音声認識処理が停止されたことを認識することができる。また、Ｓ２７において実行表示１４４の表示が停止されるまでは、実行表示１４４の表示が継続されるので、ユーザは、音声認識処理が実行されていることを認識することができる。

本変形例において、Ｓ３３：ＹＥＳの処理を行うＣＰＵ５１は本発明の「第二処理停止手段」の一例である。Ｓ２７の処理を行ＣＰＵ５１は本発明の「第二表示停止手段」の一例である。

なお、第一メイン処理及び第二メイン処理がＨＭＤ１のＣＰＵ５１によって実行されていたが、これに限定されない。例えば、第一メイン処理及び第二メイン処理はサーバ８０のＣＰＵ８１によって実行される処理であってもよい。すなわち、サーバ８０が音声認識処理を実行してもよい。以下、第一メイン処理を例にして、サーバ８０のＣＰＵ８１によって処理が実行される場合の変形例について説明する。

以下の説明では、ＨＭＤ１のＣＰＵ５１とサーバ８０のＣＰＵ８１は、それぞれ、無線通信部５９、通信部８６を介してネットワーク９に接続され、相互にデータを送受信可能であるとする。また、第一メイン処理を実行するプログラム及びパターンデータテーブル９５は、ＨＤＤ８４に記憶されているとする。以下の説明では、ＨＭＤ１のＣＰＵ５１が第一メイン処理を実行する場合と異なる処理について説明し、他の処理の説明は省略する。

Ｓ１１で音声データの取得が開始されると、ＣＰＵ８１は音声データを取得する。ＣＰＵ８１が取得する音声データは、ＨＭＤ１のＣＰＵ５１がマイク１７を介して取得し、サーバ８０に送信した音声データである。また、Ｓ１２及びＳ２０においてＣＰＵ８１が取得する画像データは、ＨＭＤ１のＣＰＵ５１がカメラ２０を介して取得し、サーバ８０に送信した画像データである。また、ＣＰＵ８１は、Ｓ１３及びＳ２１において画像表示部１４に画像を表示させる場合、Ｓ１２及びＳ２０で取得した画像データをＨＭＤ１に送信する。ＨＭＤ１のＣＰＵ５１は画像データを受信し、画像表示部１４に表示する。また、ＣＰＵ８１は、Ｓ１６において実行表示１４４を画像表示部１４に表示させる場合、実行表示１４４を表示するためのデータをＨＭＤ１に送信する。ＨＭＤ１のＣＰＵ５１は実行表示を表示するためのデータを受信し、画像表示部１４が実行表示１４４を表示する。

ＣＰＵ８１は、Ｓ２７において実行表示１４４の停止をする場合、実行表示１４４の停止を指示するデータをＨＭＤ１に送信する。ＨＭＤ１のＣＰＵ５１は、実行表示１４４の停止を指示するデータを受信し、実行表示１４４の表示を停止する。ＣＰＵ８１は、Ｓ２６においてＳ２５において含まれると判断された画像データに対応付けられた動作データに基づく動作をＨＭＤ１に実行させる。この場合、ＣＰＵ８１は、動作データに基づく動作を実行する指示のデータをＨＭＤ１に送信する（Ｓ２６）。ＨＭＤ１のＣＰＵ５１は、動作データに基づく動作を実行する指示のデータを受信し、動作データに基づく動作を実行する。以上の処理以外の処理は、ＨＭＤ１のＣＰＵ５１が実行する場合と同様である。すなわち、画像データに基づく画像にパターン９０が含まれると、音声認識処理が実行される。

本変形例において、サーバ８０は本発明の「音声認識装置」の一例である。ヘッドディスプレイ１０及びＨＭＤ１は本発明の「頭部装着部」の一例である。ＨＤＤ８４は本発明の「記憶部」の一例である。Ｓ１１において音声データの取得が開始された後、音声データの取得を継続する処理を行うＣＰＵ８１は本発明の「音声データ取得手段」の一例である。Ｓ１２の処理を行うＣＰＵ８１は本発明の「画像データ取得手段」の一例である。Ｓ１４、Ｓ１５、Ｓ２２、及びＳ２３の処理を行うＣＰＵ８１は本発明の「パターン判断手段」の一例である。Ｓ２４の処理を行うＣＰＵ８１は本発明の「音声認識手段」の一例である。Ｓ１６の処理を行うＣＰＵ８１は本発明の「第一表示制御手段」の一例である。Ｓ２６の処理を行うＣＰＵ８１は本発明の「実行手段」の一例である。Ｓ２５の処理を行うＣＰＵ８１は本発明の「指示判断手段」の一例である。Ｓ１９：ＹＥＳの処理を行うＣＰＵ８１は本発明の「第一処理停止手段」の一例である。Ｓ２７の処理を行うＣＰＵ８１は本発明の「第一表示停止手段」の一例である。

Ｓ１１において音声データの取得が開始された後、音声データの取得を継続する処理は本発明の「音声データ取得ステップ」の一例である。Ｓ１２の処理は本発明の「画像データ取得ステップ」の一例である。Ｓ１４、Ｓ１５、Ｓ２２、及びＳ２３の処理は本発明の「パターン判断ステップ」の一例である。Ｓ２４の処理は本発明の「音声認識ステップ」の一例である。Ｓ１６の処理は本発明の「第一表示制御ステップ」の一例である。Ｓ２６の処理は本発明の「実行ステップ」の一例である。

前述したように、第二メイン処理についても、第一メイン処理と同様に、ＣＰＵ８１が実行してもよい。この場合、Ｓ３３：ＹＥＳの処理を行うＣＰＵ８１は本発明の「第二処理停止手段」の一例である。Ｓ２７の処理を行ＣＰＵ８１は本発明の「第二表示停止手段」の一例である。

なお、第一メイン処理及び第二メイン処理における全ての処理ステップをＣＰＵ５１及びＣＰＵ８１の一方のみが実行する必要は無く、ＣＰＵ５１が実行する処理ステップとＣＰＵ８１が実行する処理ステップとを分けてもよい。

１ヘッドマウントディスプレイ
１０ヘッドディスプレイ
５１，８１ＣＰＵ
１４画像表示部
１７マイク
２０カメラ
５４フラッシュＲＯＭ
８０サーバ
８４ＨＤＤ
９０，９０１，９０２，９０３パターン
９５パターンデータテーブル
１４４実行表示

Claims

音声入力部に入力された音声の音声データを取得する音声データ取得手段と、
頭部に装着可能な頭部装着部に設けられた撮像部によって撮像された画像の画像データを取得する画像データ取得手段と、
記憶部に記憶された所定のパターンを示す情報であるパターン情報と前記画像データとの比較に基づいて、前記画像データ取得手段によって取得された前記画像データに基づく前記画像に、前記パターン情報に基づく前記パターンが含まれるか否かを判断するパターン判断手段と、
前記パターン判断手段によって前記画像データに基づく前記画像に前記パターンが含まれると判断された場合に、前記音声データ取得手段によって取得された前記音声データに基づく前記音声に対して音声認識処理を実行することで、前記音声に対応するテキストデータを生成する音声認識手段と、
前記パターン判断手段によって前記画像データに基づく前記画像に前記パターンが含まれると判断された場合に、前記音声認識手段による前記音声認識処理が実行可能な状態を示す表示である実行表示を、前記頭部装着部に設けられた表示部に表示する第一表示制御手段と、
前記音声認識手段によって生成された前記テキストデータに基づいて処理を実行する実行手段と
を備え、
前記記憶部には、前記頭部装着部の制御を指示する操作ワードに対応する指示データと、前記頭部装着部に実行させる動作についてのデータである動作データとが対応付けられた対応データが記憶され、
前記記憶部に記憶された前記対応データと前記テキストデータとの比較に基づいて、前記音声認識手段によって生成された前記テキストデータに、前記指示データが含まれるか否かを判断する指示判断手段を備え、
前記実行手段は、前記指示判断手段によって前記テキストデータに前記指示データが含まれると判断された場合に、前記対応データにおいて前記指示判断手段によって含まれると判断された前記指示データに対応付けられた前記動作データに基づく動作を前記頭部装着部に実行させることを特徴とする音声認識装置。
前記第一表示制御手段によって前記表示部に表示される前記実行表示は、前記記憶部に記憶された前記指示データに対応する前記操作ワードを示すテキストであることを特徴とする請求項１に記載の音声認識装置。
前記記憶部には、前記対応データと前記パターン情報とが対応付けて記憶され、
前記指示判断手段は、前記記憶部において前記パターン判断手段によって前記画像に含まれると判断された前記パターンについての前記パターン情報に対応付けられた前記対応データと前記テキストデータとの比較に基づいて、前記音声認識手段によって生成された前記テキストデータに、前記指示データが含まれるか否かを判断することを特徴とする請求項１又は２に記載の音声認識装置。
前記記憶部には複数の前記対応データが記憶され、前記複数の対応データは夫々、互いに異なる種類の複数の前記パターン情報に対応付けられ、
前記指示判断手段は、前記記憶部に記憶された前記複数のパターン情報のうち、前記パターン判断手段によって前記画像に含まれると判断された前記パターンについての前記パターン情報に対応付けられた前記対応データを参照し、前記音声認識手段によって生成された前記テキストデータに、前記指示データが含まれるか否かを判断することを特徴とする請求項１に記載の音声認識装置。
前記第一表示制御手段によって前記表示部に表示される前記実行表示は、前記記憶部に記憶された前記複数のパターン情報のうち、前記パターン判断手段によって前記画像に含まれると判断された前記パターンについての前記パターン情報に対応付けられた前記対応データに含まれる前記指示データに対応する操作ワードを示すテキストであることを特徴とする請求項４に記載の音声認識装置。
第一所定時間以上継続して、前記パターン判断手段によって前記画像データに基づく前記画像に前記パターンが含まれると判断された場合に、前記音声認識手段による前記音声認識処理を停止する第一処理停止手段を備えたことを特徴とする請求項１から５のいずれかに記載の音声認識装置。
前記第一処理停止手段によって前記音声認識手段による前記音声認識処理が停止された場合に、前記第一表示制御手段による前記実行表示の表示を停止する第一表示停止手段を備えたことを特徴とする請求項６に記載の音声認識装置。
前記音声認識手段によって前記音声認識処理の実行が開始された後、前記パターン判断手段によって前記画像データに基づく前記画像に前記パターンが含まれないと判断された場合に、第二所定時間経過後に、前記音声認識手段による前記音声認識処理を停止する第二処理停止手段を備えたことを特徴とする請求項１から７のいずれかに記載の音声認識装置。
前記第二処理停止手段によって前記音声認識手段による前記音声認識処理が停止された場合に、前記第一表示制御手段による前記実行表示の表示を停止する第二表示停止手段を備えたことを特徴とする請求項８に記載の音声認識装置。
前記画像データ取得手段によって取得された前記画像データに基づく前記画像を前記表示部に表示する第二表示制御手段を備えたことを特徴とする請求項１から９のいずれかに記載の音声認識装置。
音声認識装置において実行される音声認識プログラムであって、
前記音声認識装置のコントローラに、
音声入力部に入力された音声の音声データを取得する音声データ取得ステップと、
頭部に装着可能な頭部装着部に設けられた撮像部によって撮像された画像の画像データを取得する画像データ取得ステップと、
記憶部に記憶された所定のパターンを示す情報であるパターン情報と前記画像データとの比較に基づいて、前記画像データ取得ステップによって取得された前記画像データに基づく前記画像に、前記パターン情報に基づく前記パターンが含まれるか否かを判断するパターン判断ステップと、
前記パターン判断ステップによって前記画像データに基づく前記画像に前記パターンが含まれると判断された場合に、前記音声データ取得ステップによって取得された前記音声データに基づく前記音声に対して音声認識処理を実行することで、前記音声に対応するテキストデータを生成する音声認識ステップと、
前記パターン判断ステップによって前記画像データに基づく前記画像に前記パターンが含まれると判断された場合に、前記音声認識ステップによる前記音声認識処理が実行されることを示す表示である実行表示を、前記頭部装着部に設けられた表示部に表示する第一表示制御ステップと、
前記音声認識ステップによって生成された前記テキストデータに基づいて処理を実行する実行ステップと
を実行させ、
前記記憶部には、前記頭部装着部の制御を指示する操作ワードに対応する指示データと、前記頭部装着部に実行させる動作についてのデータである動作データとが対応付けられた対応データが記憶され、
前記記憶部に記憶された前記対応データと前記テキストデータとの比較に基づいて、前記音声認識ステップによって生成された前記テキストデータに、前記指示データが含まれるか否かを判断する指示判断ステップを実行させ、
前記実行ステップは、前記指示判断ステップによって前記テキストデータに前記指示データが含まれると判断された場合に、前記対応データにおいて前記指示判断ステップによって含まれると判断された前記指示データに対応付けられた前記動作データに基づく動作を前記頭部装着部に実行することを特徴とする音声認識プログラム。