JP2017037212A

JP2017037212A - 音声認識装置、制御方法、及び、コンピュータープログラム

Info

Publication number: JP2017037212A
Application number: JP2015158629A
Authority: JP
Inventors: 薫千代; Kaoru Sendai; 勇一毛利; Yuichi Mori; 和夫西沢; Kazuo Nishizawa
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2015-08-11
Filing date: 2015-08-11
Publication date: 2017-02-16

Abstract

【課題】音声認識の技術について、処理時間が過度にかかるなどの音声認識についての様々な不具合を低減する技術を提供する。
【解決手段】音声認識装置の音声認識調整部は、所定の語彙に対して複数の組み合わせパターンに基づいて規定された前記語彙を特定するための語彙識別情報を有する調整用語彙リストのうちの、前記所定の語彙に関する語彙画像を前記画像表示部に表示させ、前記表示した前記語彙画像についての前記発話者の音声と、前記調整用語彙リストの前記語彙識別情報と、を比較して前記組み合わせパターンを特定することで、複数の語彙リストの中から前記使用語彙リストを決定する。
【選択図】図７

Description

本発明は、発話者の音声を認識するための技術に関する。

発話者の音声を取得し、取得した音声が表す語彙を認識する音声認識技術が知られている（例えば、特許文献１〜３）。

特開２０１０−２３０８５２号公報特開２００９−１４５７５５号公報特表２０１２−５１８２０７号公報

従来の技術では、発話者の音声を取得し、取得した音声が表す語彙（文字列）を構成する音素列（発話音素列）を推定し、推定した音素列と予め登録された音素列（登録音素列）とを比較して、推定した音素列に一致する登録音素列が表す語彙を、発話者が発した語彙であると認識している。また、従来の技術では、音声認識装置が認識した語彙に応じて音声認識装置の動作が制御される。

不特定多数の発話者に対して音声認識の精度を向上させるために、多くの種類の語彙と、語彙ごとに発話者の音声の特徴に対応した多くの音素列とを含むデータ（認識用データ）を予め用意したり、発話者の音声の特徴を音声認識装置に学習させるたりする技術が考えられる。

しかしながら、音声認識の精度を向上させるための上記の技術では、データの容量が過度に大きくなったり、音声認識装置の音声認識のための制御が複雑になったりすることで種々の不具合が生じ得る。例えば、音声認識にかかる処理時間が過度にかかる場合がある。また例えば、音声認識装置のための認識用データを記憶するために大容量の記憶装置が必要となる。また例えば、認識用データを構成する各データが大量であるために、認識用データを作成するための時間が過度にかかる場合がある。

このほか、音声認識装置において、小型化、低コスト化、省電力化、製造の容易化、使い勝手の向上等が望まれている。

本発明は、上述の課題の少なくとも一部を解決するためになされたものであり、以下の形態として実現することが可能である。

（１）本発明の一形態によれば、音声認識装置が提供される。この音声認識装置は、画像を表示する画像表示部と、発話者の音声を取得する音声取得部と、使用語彙リストを用いて、前記音声取得部が取得した音声が表す語彙を認識する音声認識部と、所定の語彙に対して複数の組み合わせパターンに基づいて規定された前記語彙を特定するための語彙識別情報を有する調整用語彙リストのうちの、前記所定の語彙に関する語彙画像を前記画像表示部に表示させ、前記表示した前記語彙画像についての前記発話者の音声と、前記調整用語彙リストの前記語彙識別情報と、を比較して前記組み合わせパターンを特定することで、複数の語彙リストの中から前記使用語彙リストを決定する音声認識調整部と、を備える。この形態によれば、所定の語彙を発話者に発話させることで、複数の語彙リストのうちの１つを使用語彙リストとして容易に決定できる。

（２）上記形態の音声認識装置であって、前記複数の語彙リストは、複数の前記語彙と前記語彙を特定するための前記語彙識別情報とをそれぞれ有し、前記複数の語彙と前記複数の語彙のそれぞれに対応する前記語彙識別情報との前記組み合わせパターンが異なっていても良い。この形態によれば、複数の語彙と語彙識別情報との組み合わせパターンが異なる複数の語彙リストを用いて使用語彙リストを決定できる。

（３）上記形態の音声認識装置であって、さらに、前記発話者の頭部に装着するための保持部を有し、前記画像表示部は、前記発話者に視認させるための虚像を表示可能であっても良い。この形態によれば、画像表示部に虚像を表示できる。

（４）上記形態の音声認識装置であって、前記音声認識調整部は、使用シーンごとに規定された複数の前記調整用語彙リストの中から、前記音声認識装置の使用シーンに応じて１つの前記調整用語彙リストを選択し、前記選択した前記調整用語彙リストを用いて前記使用語彙リストを決定しても良い。この形態によれば、使用シーンに応じた調整用語彙リストを用いて使用語彙リストを決定するため、使用シーンに用いられる語彙の認識を精度良く行うことができる。

（５）上記形態の音声認識装置であって、さらに、外景を撮像する撮像部を有し、前記音声認識調整部は、撮像された画像に基づいて前記使用シーンを推定しても良い。この形態によれば、撮像された画像に基づいて容易に使用シーンを推定できる。

（６）上記形態の音声認識装置であって、さらに、前記音声認識装置の現在位置を検出するための位置特定部を有し、前記音声認識調整部は、前記位置特定部が検出した現在位置に基づいて前記使用シーンを推定しても良い。この形態によれば、位置特定部が検出した現在位置に基づいて容易に使用シーンを推定できる。

（７）上記形態の音声認識装置であって、前記音声認識装置は、前記発話者が行う作業の進捗状況に基づいて前記使用シーンを推定しても良い。この形態によれば、作業の進捗状況に基づいて容易に使用シーンを推定できる。

（８）上記形態の音声認識装置であって、前記音声認識調整部は、前記使用シーンに応じて前記所定の語彙を決定しても良い。この形態によれば、使用シーンに応じて適切な所定の語彙を決定できる。

（９）上記形態の音声認識装置であって、前記画像表示部は、外景を透過可能であり、
前記音声認識調整部は、前記外景に存在する前記所定の語彙が表す対象物を前記発話者に識別させるための識別画像を前記画像表示部に表示しても良い。この形態によれば、対象物を発話者が視認することで所定の語彙をより確実に認識することができるので、音声認識調整部を用いた音声調整の精度を向上できる。

（１０）上記形態の音声認識装置であって、前記音声認識部は、前記語彙リストの前記語彙を表す語彙画像と、前記語彙に関連付けられた関連画像であって前記語彙リストの他の前記語彙に基づく関連画像と、を含む組み合わせ画像を前記画像表示部に表示させ、取得された前記音声が前記語彙と前記関連画像に関連する関連語彙のいずれかであると前記音声認識部が認識した場合に、前記語彙と前記関連語彙とに対応付けられた所定の機能を実行する機能実行部と、を有しても良い。この形態によれば、所定の機能に対応付けられた語彙が複数あるため、音声認識によって所定の機能を実行させることがより容易にできる。

（１１）上記形態の音声認識装置であって、前記所定の語彙は、前記発話者の発音の特徴を区別できる音素を含んでも良い。この形態によれば、所定の語彙を用いてより精度良く音声認識部で用いる使用語彙リストを決定できる。

（１２）上記形態の音声認識装置であって、前記所定の語彙は、前記語彙リストの前記語彙とは異なる語彙であって前記発話者の発音の特徴を区別するための前記音素を含んでも良い。この形態によれば、所定の語彙を用いてより精度良く音声認識部で用いる使用語彙リストを決定できる。

（１３）上記形態の音声認識装置であって、前記所定の語彙は、前記語彙リストを構成する前記複数の語彙の少なくとも１つであっても良い。この形態によれば、発話者の音声の特徴により対応する語彙リストを使用語彙リストとして決定できる。

（１４）上記形態の音声認識装置であって、前記所定の語彙は、前記語彙リストを構成する前記複数の語彙の全部を含んでも良い。この形態によれば、発話者の音声の特徴に最も対応する語彙リストを使用語彙リストとして決定できる。

（１５）上記形態の音声認識装置であって、前記音声認識部は、前記音声が表す語彙を認識できなかった場合に、前記使用語彙リストと前記音声認識装置の使用シーンとの少なくとも一つを用いて前記認識されなかった前記音声が表す語彙を推定し、前記使用語彙リストに含まれる推定した前記語彙に定められた前記語彙識別情報を更新しても良い。この形態によれば、発話者の音声の特徴により対応した使用語彙リストを作成できる。

（１６）上記形態の音声認識装置であって、前記語彙識別情報は、前記語彙の発音記号を含んでも良い。この形態によれば、発音記号に基づいて使用語彙リストを決定できる。

（１７）上記形態の音声認識装置であって、前記音声認識部は、前記使用語彙リストが有する前記語彙と、前記音声が表す語彙とが一致しないと判定した場合は、前記使用語彙リストが有する前記複数の語彙の中から前記音声が表す語彙を推定し、前記推定した語彙に関する推定語彙画像を前記画像表示部に表示しても良い。この形態によれば、音声認識部は、音声が表す語彙と使用語彙リストの語彙とが一致しなかった場合でも、使用語彙リストの複数の語彙の中から音声が表す語彙を推定して、推定した語彙を発話者に認識させることができる。

（１８）上記形態の音声認識装置であって、前記音声認識部は、前記音声が表す語彙と前記使用語彙リストに含まれる前記語彙とが一致した場合は、一致した前記語彙に関連する画像を前記画像表示部に表示させても良い。この形態によれば、発話者に対して音声に基づいて音声認識部が認識した語彙を報知させることができる。

（１９）上記形態の音声認識装置であって、前記音声認識部は、前記音声が表す語彙と前記使用語彙リストに含まれる前記語彙とが一致したか否かを前記発話者に報知させても良い。この形態によれば、音声が表す語彙と使用語彙リストに含まれる語彙とが一致したか否かを発話者に報知させることができる。

（２０）上記形態の音声認識装置であって、前記音声認識調整部は、前記発話者ごとに、前記発話者を識別するための発話者識別情報と、決定した前記使用語彙リストとを対応付けた発話者パターン情報を生成し、特定の前記発話者が前記音声認識装置を用いる場合に、生成した前記発話者パターン情報の中から前記特定の発話者の前記使用語彙リストを表す情報を前記画像表示部に表示させても良い。この形態によれば、以前に決定された使用語彙リストを利用して音声認識部による音声認識を実行できる。

（２１）上記形態の音声認識装置であって、記複数の語彙リストは、前記音声認識装置とは異なる外部装置に記憶され、前記音声認識部は、前記使用語彙リストを前記外部装置から読み込んで使用しても良い。この形態によれば、音声認識装置が複数の語彙リストを記憶している必要がない。

（２２）上記形態の音声認識装置であって、前記調整用語彙リストは、前記音声認識装置とは異なる外部装置に記憶され、前記音声認識調整部は、前記調整用語彙リストを前記外部装置から読み込んで使用しても良い。この形態によれば、音声認識装置が調整用語彙リストを記憶している必要がない。

（２３）上記形態の音声認識装置であって、前記複数の語彙リストと前記調整用語彙リストとの少なくとも一方を記憶する記憶部を有しても良い。この形態によれば、記憶部に記憶されている語彙リスト又は調整用語彙リストを音声認識のために利用できる。

上述した本発明の各形態の有する複数の構成要素は全てが必須のものではなく、上述の課題の一部または全部を解決するため、あるいは、本明細書に記載された効果の一部または全部を達成するために、適宜、前記複数の構成要素の一部の構成要素について、その変更、削除、新たな構成要素との差し替え、限定内容の一部削除を行うことが可能である。また、上述の課題の一部または全部を解決するため、あるいは、本明細書に記載された効果の一部または全部を達成するために、上述した本発明の一形態に含まれる技術的特徴の一部または全部を上述した本発明の他の形態に含まれる技術的特徴の一部または全部と組み合わせて、本発明の独立した一形態とすることも可能である。

例えば、本発明の一形態は、画像表示部と、音声取得部と、音声認識調整部と、音声認識部との４つの要素のうちの一部または全部の要素を備えた装置として実現可能である。すなわち、この装置は、画像表示部を有していてもよく、有していなくてもよい。また、この装置は、音声取得部を有していてもよく、有していなくてもよい。また、この装置は、音声認識調整部を有していてもよく、有していなくてもよい。また、この装置は、音声認識部を有していてもよく、有していなくてもよい。こうした装置は、例えば音声認識装置として実現できるが、音声認識装置以外の他の装置としても実現可能である。前述した表示システムの各形態の技術的特徴の一部または全部は、いずれもこの装置に適用することが可能である。

なお、本発明は、種々の態様で実現することが可能であり、例えば、音声認識装置の制御方法、音声認識装置の機能を実現するためのコンピュータープログラム、そのコンピュータープログラムを記憶した記憶媒体等の形態で実現することができる。

実施形態における頭部装着型表示装置の概略構成を示す説明図である。ＨＭＤの構成を機能的に示すブロック図である。ＨＭＤによる拡張現実表示の一例を示す説明図である。記憶部が記憶する調整用語彙リストを説明するための図である。記憶部が記憶する操作シーンの語彙リストを説明するための図である。記憶部が記憶する録音シーンの語彙リストを説明するための図である。記憶部が記憶する一般用シーンの語彙リストを説明するための図である。実行可能情報の一例を説明するための図である。音声認識調整部が実行する音声認識調整工程のフロー図である。使用シーンの推定について説明するための図である。ステップＳ４０を説明するための図である。音声認識部が実行する音声認識工程を説明するためのフロー図である。ステップＳ１００を説明するための図である。ステップＳ１５０を説明するための図である。ステップＳ１７０，Ｓ１８０の処理を説明するための図である。変形例におけるＨＭＤの外観の構成を示す説明図である。

Ａ．実施形態：
Ａ−１．頭部装着型表示装置の基本構成：
図１は、本発明の実施形態における頭部装着型表示装置の概略構成を示す説明図である。頭部装着型表示装置１００は、頭部に装着する表示装置であり、ヘッドマウントディスプレイ（Head Mounted Display、ＨＭＤ）とも呼ばれる。ＨＭＤ１００は、グラスを通過して視認される外景の中に画像が浮かび上がる透過型の頭部装着型表示装置である。ＨＭＤ１００が課題を解決するための手段に記載の「音声認識装置」に相当する。

ＨＭＤ１００は、使用者（発話者）の頭部に装着可能はヘッドフォン部９０と、使用者の頭部に装着された状態において使用者に虚像を視認させる画像表示部２０と、使用者の頭部に装着された状態において使用者の音声を取得する音声取得部を有するマイク部３０と、ヘッドフォン部９０を制御する制御部（コントローラー）１０と、を備えている。

ヘッドフォン部９０は、頭部に沿って装着可能なように湾曲したヘッドバンド９１と、ヘッドバンド９１の両端に設けられた右左のイヤーカップ９２，９３とを備える。右側のイヤーカップ９２の内部には音響の右チャンネル用のスピーカー９４(図２）が設けられており、左側のイヤーカップ９３の内部には音響の左チャンネル用のスピーカー９５が設けられている。ヘッドバンド９１には、画像表示部２０が固定した形で取り付けられている。

画像表示部２０は、使用者の頭部に装着される装着体であり、本実施形態では眼鏡形状を有している。画像表示部２０は、右保持部２１と、右表示駆動部２２と、左保持部２３と、左表示駆動部２４と、右光学像表示部２６と、左光学像表示部２８と、を含んでいる。右光学像表示部２６および左光学像表示部２８は、それぞれ、使用者がヘッドバンド９１を装着した際に使用者の右および左の眼前に位置する。右光学像表示部２６の一端と左光学像表示部２８の一端とは、使用者が画像表示部２０を装着した際の使用者の眉間に対応する位置で、互いに接続されている。また、画像表示部２０は、外景を透過可能である。

右保持部２１は、右光学像表示部２６の他端である端部ＥＲから略水平方向に延び、ヘッドバンド９１の右側の端部付近に固定されている。同様に、左保持部２３は、左光学像表示部２８の他端である端部ＥＬから略水平方向に延び、ヘッドバンド９１の左側の端部付近に固定されている。右保持部２１および左保持部２３は、ヘッドバンド９１を頭部に装着した使用者の眼前に光学像表示部２６，２８が位置するよう、光学像表示部２６，２８を保持する。また、右保持部２１および左保持部２３は、使用者の頭部に装着するための保持部としても機能する。

右表示駆動部２２は、右保持部２１の内側、換言すれば、使用者が画像表示部２０を装着した際の使用者の頭部に対向する側に配置されている。また、左表示駆動部２４は、左保持部２３の内側に配置されている。なお、以降では、右保持部２１および左保持部２３を区別せず「保持部」として説明する。同様に、右表示駆動部２２および左表示駆動部２４を区別せず「表示駆動部」として説明し、右光学像表示部２６および左光学像表示部２８を区別せず「光学像表示部」として説明する。

表示駆動部は、液晶ディスプレイ（Liquid Crystal Display、以下「ＬＣＤ」と呼ぶ）２４１、２４２や投写光学系２５１、２５２等を含む（図２参照）。表示駆動部の構成の詳細は後述する。光学部材としての光学像表示部は、導光板２６１、２６２（図２参照）と調光板とを含んでいる。導光板２６１、２６２は、光透過性の樹脂材料等によって形成され、表示駆動部から出力された画像光を使用者の眼に導く。調光板は、薄板状の光学素子であり、画像表示部２０の表側（使用者の眼の側とは反対の側）を覆うように配置されている。調光板は、導光板２６１、２６２を保護し、導光板２６１、２６２の損傷や汚れの付着等を抑制する。また、調光板の光透過率を調整することによって、使用者の眼に入る外光量を調整して虚像の視認のしやすさを調整することができる。なお、調光板は省略可能である。

マイク部３０は、音声取得部としてのマイクロフォン３１と、アーム３２と、連結部３３と、を有する。マイクロフォン３は、使用者（発話者）の音声を取得する機能を有する。すなわち、マイクロフォン３１は、発話者の音声を電気信号に変換する。変換した電気信号は図示しないＡ／Ｄ変換器でデジタル信号に変換され、これを音声データとしてＣＰＵ１４０に出力される。また、マイクロフォン３１は、アーム３２の先端に接続されている。アーム３２のうちマイクロフォン３１とは反対側の端部は、連結部３３によって、画像表示部２０の右イヤーカップ９２の上面９２ａに連結されている。連結されることで、マイクロフォン３１は、使用者の口の前に位置する。なお、連結部３３は、アーム３２を回動可能に、かつ任意のポジションに固定可能に連結する。

画像表示部２０、マイク部３０、およびヘッドフォン部９０の一体物と、制御部１０との間は、接続コード４０によって接続される。接続コード４０の一端は、ヘッドフォン部９０の右イヤーカップ９２内に挿入され、必要に応じて分岐され、画像表示部２０の左右の表示駆動部２２，２４、左右のスピーカー９４，９５や、マイク部３０のマイクロフォン３１に接続されている。接続コード４０の他端は、制御部１０に接続されている。接続コード４０における右イヤーカップ９２と反対側の端部と、制御部１０とのそれぞれには、互いに嵌合するコネクター（図示省略）が設けられており、接続コード４０のコネクターと制御部１０のコネクターとの嵌合／嵌合解除により、上記の一体物と制御部１０との間が接続されたり切り離されたりする。接続コード４０には、例えば、金属ケーブルや光ファイバーを採用することができる。

制御部１０は、ＨＭＤ１００を制御するための装置である。制御部１０は、点灯部１２と、タッチパッド１４と、方向キー１６と、決定キー１１と、電源スイッチ１８とを含んでいる。点灯部１２は、ＨＭＤ１００の動作状態（例えば、電源のＯＮ／ＯＦＦ等）を、その発光態様によって通知する。点灯部１２としては、例えば、ＬＥＤ（Light Emitting Diode）を用いることができる。タッチパッド１４は、タッチパッド１４の操作面上での接触操作を検出して、検出内容に応じた信号を出力する。タッチパッド１４としては、静電式や圧力検出式、光学式といった種々のタッチパッドを採用することができる。方向キー１６は、上下左右方向に対応するキーへの押下操作を検出して、検出内容に応じた信号を出力する。決定キー１１は、押下操作を検出して、制御部１０で操作された内容を決定する信号を出力する。電源スイッチ１８は、スイッチのスライド操作を検出することで、ＨＭＤ１００の電源の状態を切り替える。

図２は、ＨＭＤ１００の構成を機能的に示すブロック図である。制御部１０は、入力情報取得部１１０と、記憶部１２０と、電源１３０と、無線通信部１３２と、ＧＰＳモジュール１３４と、ＣＰＵ１４０と、インターフェイス１８０と、送信部（Ｔｘ）５１および５２とを備え、各部は図示しないバスにより相互に接続されている。

入力情報取得部１１０は、例えば、タッチパッド１４や方向キー１６、電源スイッチ１８などに対する操作入力に応じた信号を取得する。

電源１３０は、ＨＭＤ１００の各部に電力を供給する。電源１３０としては、例えば、リチウムポリマーバッテリー、リチウムイオンバッテリーなどの二次電池を用いることができる。さらに、二次電池に替えて、一次電池や燃料電池でもよいし、無線給電を受けて動作するようにしてもよい。さらには、太陽電池とキャパシターから給電を受けるようにしてもよい。無線通信部１３２は、無線ＬＡＮやＢｌｕｅｔｏｏｔｈ（登録商標）、ｉＢｅａｃｏｎ（登録商標）といった所定の無線通信規格に則って、他の機器との間で無線通信を行う。位置特定部としてのＧＰＳモジュール１３４は、ＧＰＳ衛星からの信号を受信することにより、自身（ＨＭＤ１００）の現在位置を検出する。なお、位置特定部は、ＧＰＳモジュール１３４に限定されるものではなく、現在位置を検出できる構成であれば他の構成であっても良い。例えば、位置特定部は、ｉＢｅａｃｏｎ等の無線装置から位置情報（座標や位置を特定するための名称）を受信する構成であったり、ＧＰＳ衛星からの信号値を基準として、より詳細な屋内における使用者の位置を検出できる構成であったり、無線ＬＡＮ等のネットワークと接続された場合における、ＩＰアドレスから大体の現在位置を推定できる構成であっても良い。

記憶部１２０は、ＲＯＭ、ＲＡＭ、ＤＲＡＭ、ハードディスク等によって構成されている。記憶部１２０には、オペレーティングシステム（ОＳ）をはじめとする種々のコンピュータープログラムが格納されている。また、記憶部１２０は、語彙リスト１２１と、調整用語彙リスト１２２と、実行可能情報１２４と、音響モデル１２５とを記憶する。

音響モデル１２５は、音素（母音や子音）がそれぞれどのような周波数特性を持っているかを表したものである。音響モデルとしては、例えば隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）が用いられている。語彙リスト１２１は、複数の語彙（文字列）と複数の語彙ごとに定められた語彙を特定するための語彙識別情報とを規定したデータである。本実施形態において、語彙識別情報は、語彙を構成する音素を発音記号で表した情報である。複数の語彙リスト１２１が記憶部１２０に記憶され、そのうちの１つが音声認識のために用いられる。調整用語彙リスト１２２は、発話者の音声の特徴のパターンが、予め定めた複数のパターンのうちのいずれに該当するかを判定するために用いられる。実行可能情報１２４は、ＨＭＤ１００が実行可能な機能を階層に区別して記憶すると共に機能のそれぞれに対応付けた画像も記憶している。語彙リスト１２１、調整用語彙リスト１２２、実行可能情報１２４の詳細は後述する。

ＣＰＵ１４０は、記憶部１２０に格納されているコンピュータープログラムを読み出して実行することにより、オペレーティングシステム（ОＳ）１５０、画像処理部１６０、表示制御部１６２、音声認識部１６４、音声認識調整部１６６、および音声処理部１７０として機能する。

画像処理部１６０は、インターフェイス１８０や無線通信部１３２を介して入力されるコンテンツ（映像）に基づいて信号を生成する。そして、画像処理部１６０は、生成した信号を、接続コード４０を介して画像表示部２０に供給することで、画像表示部２０を制御する。画像表示部２０に供給するための信号は、アナログ形式とディジタル形式の場合で異なる。アナログ形式の場合、画像処理部１６０は、クロック信号ＰＣＬＫと、垂直同期信号ＶＳｙｎｃと、水平同期信号ＨＳｙｎｃと、画像データＤａｔａとを生成し、送信する。具体的には、画像処理部１６０は、コンテンツに含まれる画像信号を取得する。取得した画像信号は、例えば動画像の場合、一般的に１秒あたり３０枚のフレーム画像から構成されているアナログ信号である。画像処理部１６０は、取得した画像信号から垂直同期信号ＶＳｙｎｃや水平同期信号ＨＳｙｎｃ等の同期信号を分離し、それらの周期に応じて、ＰＬＬ回路等によりクロック信号ＰＣＬＫを生成する。画像処理部１６０は、同期信号が分離されたアナログ画像信号を、Ａ／Ｄ変換回路等を用いてディジタル画像信号に変換する。画像処理部１６０は、変換後のディジタル画像信号を、ＲＧＢデータの画像データＤａｔａとして、１フレームごとに記憶部１２０内のＤＲＡＭに格納する。

一方、ディジタル形式の場合、画像処理部１６０は、クロック信号ＰＣＬＫと、画像データＤａｔａとを生成し、送信する。具体的には、コンテンツがディジタル形式の場合、クロック信号ＰＣＬＫが画像信号に同期して出力されるため、垂直同期信号ＶＳｙｎｃおよび水平同期信号ＨＳｙｎｃの生成と、アナログ画像信号のＡ／Ｄ変換とが不要となる。なお、画像処理部１６０は、記憶部１２０に格納された画像データＤａｔａに対して、解像度変換処理や、輝度、彩度の調整といった種々の色調補正処理や、キーストーン補正処理等の画像処理を実行してもよい。

画像処理部１６０は、生成されたクロック信号ＰＣＬＫ、垂直同期信号ＶＳｙｎｃ、水平同期信号ＨＳｙｎｃと、記憶部１２０内のＤＲＡＭに格納された画像データＤａｔａとを、送信部５１，５２を介してそれぞれ送信する。なお、送信部５１を介して送信される画像データＤａｔａを「右眼用画像データＤａｔａ１」とも呼び、送信部５２を介して送信される画像データＤａｔａを「左眼用画像データＤａｔａ２」とも呼ぶ。送信部５１、５２は、制御部１０と画像表示部２０との間におけるシリアル伝送のためのトランシーバーとして機能する。

表示制御部１６２は、右表示駆動部２２および左表示駆動部２４を制御する制御信号を生成する。具体的には、表示制御部１６２は、制御信号により、右ＬＣＤ制御部２１１による右ＬＣＤ２４１の駆動ＯＮ／ＯＦＦや、右バックライト制御部２０１による右バックライト２２１の駆動ＯＮ／ＯＦＦ、左ＬＣＤ制御部２１２による左ＬＣＤ２４２の駆動ＯＮ／ＯＦＦや、左バックライト制御部２０２による左バックライト２２２の駆動ＯＮ／ＯＦＦなどを個別に制御することにより、右表示駆動部２２および左表示駆動部２４のそれぞれによる画像光の生成および射出を制御する。表示制御部１６２は、右ＬＣＤ制御部２１１と左ＬＣＤ制御部２１２とに対する制御信号を、送信部５１および５２を介してそれぞれ送信する。同様に、表示制御部１６２は、右バックライト制御部２０１と左バックライト制御部２０２とに対する制御信号を、それぞれ送信する。

音声認識部１６４は、マイクロフォン３１から送信された音声データと、記憶部１２０に記憶された音響モデル１２５と語彙リスト１２１を用いて音声データが表す語彙（文字列）を認識する。

音声認識調整部１６６は、マイクロフォン３１から送信された音声データと記憶部１２０に記憶された音響モデル１２５及び調整用語彙リスト１２２とを用いて、複数の語彙リスト１２１の中から音声認識部１６４が音声認識処理の際に用いる語彙リスト（使用語彙リスト）１２１を決定する。

音声処理部１７０は、コンテンツに含まれる音声信号を取得し、取得した音声信号を増幅して、連結部材４６に接続された右イヤーカップ９２内のスピーカー９４および左イヤーカップ９３内のスピーカー９５に対して供給する。なお、例えば、Ｄｏｌｂｙ（登録商標）システムを採用した場合、音声信号に対する処理がなされ、右左のスピーカー９４，９５からは、それぞれ、例えば周波数等が変えられた異なる音が出力される。

機能実行部１７１は、音声認識部１６４の機能の一部である。機能実行部１７１は、画像表示部２０によって画像が表示された後に、表示された画像に対応付けられた操作（音声認識等も含む）を受け付けると、受け付けた操作に対応するＨＭＤ１００が実行可能な機能を、ＨＭＤ１００に実行させる。

インターフェイス１８０は、制御部１０に対して、コンテンツの供給元となる種々の外部機器ＯＡを接続するためのインターフェイスである。外部機器ОＡとしては、例えば、パーソナルコンピューターＰＣや携帯電話端末ＰＨ、ゲーム端末ＧＭ等がある。インターフェイス１８０としては、例えば、ＵＳＢインターフェイスや、マイクロＵＳＢインターフェイス、メモリーカード用インターフェイス等を用いることができる。

画像表示部２０は、右表示駆動部２２と、左表示駆動部２４と、右光学像表示部２６としての右導光板２６１と、左光学像表示部２８としての左導光板２６２と、撮像部としてのカメラ６１（図１も参照）と、９軸センサー６６と、を備えている。

カメラ６１は、ＲＧＢカメラであり、使用者が画像表示部２０を装着した際の使用者の鼻根部に対応する位置に配置されている。そのため、カメラ６１は、ＨＭＤ１００の所定の向き、すなわち、使用者が画像表示部２０を頭部に装着した状態において使用者が向いている方向の外景をカラー撮像する。なお、カメラ６１は、ＲＧＢカメラに換えて、白黒カメラとすることができる。

９軸センサー６６は、加速度（３軸）、角速度（３軸）、地磁気（３軸）を検出するモーションセンサーであり、本実施形態では使用者の眉間に対応する位置に配置されている。９軸センサー６６は、画像表示部２０に設けられているため、画像表示部２０が使用者の頭部に装着されているときには、使用者の頭部の動きを検出する。検出された頭部の動きから画像表示部２０の向き、すなわち、使用者の視界が特定される。

右表示駆動部２２は、受信部（Ｒｘ）５３と、光源として機能する右バックライト（ＢＬ）制御部２０１および右バックライト（ＢＬ）２２１と、表示素子として機能する右ＬＣＤ制御部２１１および右ＬＣＤ２４１と、右投写光学系２５１とを含んでいる。なお、右バックライト制御部２０１と、右ＬＣＤ制御部２１１と、右バックライト２２１と、右ＬＣＤ２４１とを総称して「画像光生成部」とも呼ぶ。

受信部５３は、制御部１０と画像表示部２０との間におけるシリアル伝送のためのレシーバーとして機能する。右バックライト制御部２０１は、入力された制御信号に基づいて、右バックライト２２１を駆動する。右バックライト２２１は、例えば、ＬＥＤやエレクトロルミネセンス（ＥＬ）等の発光体である。右ＬＣＤ制御部２１１は、受信部５３を介して入力されたクロック信号ＰＣＬＫと、垂直同期信号ＶＳｙｎｃと、水平同期信号ＨＳｙｎｃと、右眼用画像データＤａｔａ１とに基づいて、右ＬＣＤ２４１を駆動する。右ＬＣＤ２４１は、複数の画素をマトリクス状に配置した透過型液晶パネルである。右ＬＣＤ２４１は、マトリクス状に配置された各画素位置の液晶を駆動することによって、右ＬＣＤ２４１を透過する光の透過率を変化させることにより、右バックライト２２１から照射される照明光を、画像を表す有効な画像光へと変調する。

右投写光学系２５１は、右ＬＣＤ２４１から射出された画像光を並行状態の光束にするコリメートレンズによって構成される。右光学像表示部２６としての右導光板２６１は、右投写光学系２５１から出力された画像光を、所定の光路に沿って反射させつつ使用者の右眼ＲＥに導く。光学像表示部は、画像光を用いて使用者の眼前に虚像を形成する限りにおいて任意の方式を用いることができ、例えば、回折格子を用いてもよいし、半透過反射膜を用いてもよい。なお、ＨＭＤ１００が画像光を出射することを、本明細書では「画像を表示する」とも呼ぶ。

左表示駆動部２４は、右表示駆動部２２と同様の構成を有している。すなわち、左表示駆動部２４は、受信部（Ｒｘ）５４と、光源として機能する左バックライト（ＢＬ）制御部２０２および左バックライト（ＢＬ）２２２と、表示素子として機能する左ＬＣＤ制御部２１２および左ＬＣＤ２４２と、左投写光学系２５２とを含んでいる。右ＬＣＤ２４１と同様に、左ＬＣＤ２４２は、マトリクス状に配置された各画素位置の液晶を駆動することによって、左ＬＣＤ２４２を透過する光の透過率を変化させることにより、左バックライト２２２から照射される照明光を、画像を表す有効な画像光へと変調する。なお、本実施形態ではバックライト方式を採用することとしたが、フロントライト方式や、反射方式を用いて画像光を射出してもよい。

図３は、ＨＭＤ１００による拡張現実表示の一例を示す説明図である。図３では、使用者の視界ＶＲを例示している。上述のようにして、ＨＭＤ１００の使用者の両眼に導かれた画像光が使用者の網膜に結像することにより、使用者は拡張現実（ＡＲ）としての画像ＶＩを視認する。図３の例では、画像ＶＩは、ＨＭＤ１００のＯＳの待ち受け画面である。また、光学像表示部２６，２８が外景ＳＣからの光を透過することで、使用者は外景ＳＣを視認する。このように、本実施形態のＨＭＤの使用者は、視界ＶＲのうち画像ＶＩが表示された部分については、画像ＶＩと、画像ＶＩの背後に外景ＳＣとを見ることができる。また、使用者は、視界ＶＲのうち画像ＶＩが表示されていない部分については、外景ＳＣだけを見ることができる。

図４は、記憶部１２０（図２）が記憶する調整用語彙リスト１２２を説明するための図である。調整用語彙リスト１２２は、発話者の使用シーンに応じた複数の調製用語彙リスト１２２Ａ，１２２Ｂ，１２２Ｃを含む。本実施形態では、使用シーンが操作シーンと録音シーンと一般用シーンとの３つ分類されている。調整用語彙リスト１２２Ａ〜１２２Ｃのそれぞれは、所定の語彙と、所定の語彙を特定するための語彙識別情報（本実施形態では発音記号）であって所定の語彙に対して後述する複数の組み合わせパターンに基づいて規定された語彙識別情報とを有する。すなわち、調整用語彙リスト１２２Ａ〜１２２Ｃは、異なる発音記号を用いて作成された所定の語彙（例えば、母音「あ」を含む語彙）を含む。言い換えれば、調整用語彙リスト１２２Ａ〜１２２Ｃは、発話者の発音の特徴を区別するための一定の規則（例えば、母音の「あ」は３種類の発音記号で規定するという規則）を有する複数の異なるパターンに基づいて作成されている。所定の語彙は、発話者の発音の特徴を区別できる音素を含むことが好ましい。発話者の発音の特徴を区別できる音素としては、例えば、母音又は子音が挙げられる。こうすることで、所定の語彙を用いてより精度良く、音声認識部１６４で用いる使用語彙リストを決定できる。本実施形態において、「組み合わせパターン」を単に「パターン」とも呼ぶ。

複数のパターンは、複数の発話者の音声（発声方式）を分析することで分類された音声の特徴パターン（所定のパターン）である。本実施形態では、複数のパターンは、母音の発音によって分類されている。なお、複数のパターンはこれに限定されるものではなく、音声の特徴を分類できる特徴であれば良く、例えば、性別ごとに分類しても良いし、出身地域（例えば、東北地方、東海地方など）ごとに分類しても良いし、年齢（例えば、１０代、２０代、３０代など）ごとに分類しても良いし、ＨＭＤ１００の習熟度の程度を表す使用時間や使用年数（例えば、１年未満、１年以上）ごとに分類しても良い。

操作シーンの調整用語彙リスト１２２Ａは、制御部１０（図１）の一般的な操作を音声認識によって行うために用いられるリストである。録音シーンの調整用語彙リスト１２２Ｂは、マイク部３０（図１）を用いた録音操作を音声認識によって行うために用いられるリストである。一般用シーンの調整用語彙リスト１２２Ｃは、その他の一般的な音声認識操作（例えば、音声認識によって認識された語彙をタッチパッド１４に表示させる操作や、メール作成操作）を音声認識によって行うために用いられるリストである。

調整用語彙リスト１２２Ａは、所定の語彙が、パターン１Ａ，パターン２Ａ，パターン３Ａの規則に従った発音記号で表されている。調整用語彙リスト１２２Ａで用いられる所定の語彙は、後述する操作シーンの音声認識に用いられる語彙リスト１２１Ａａ〜１２１Ａｃを構成する複数の語彙の全部である。これにより、発話者の音声の特徴に最も対応する語彙リストを使用語彙リストとして決定できる。本実施形態では、調整用語彙リスト１２２Ａの語彙は「アップ」、「ダウン」、「メニュー」、「バック」、「ホーム」の５つである。パターン１Ａ〜３Ａは、複数の母音（例えば、「ア」と「オ」）の発音記号の組み合わせが異なる。例えば、パターン１Ａ〜パターン３Ａにおいて、語彙である「ア」や「オ」の発音記号はそれぞれ異なり、「ウ」の発音記号は同じである。調整用語彙リスト１２２Ａの所定の語彙には、制御部１０（図１）の一般的な操作を行うための語彙が用いられる。例えば、ＣＰＵ１４０は、「ホーム」の音声を認識した場合は、図３に示す待ち受け画面を画像ＶＩとして画像表示部２０に表示する。また例えば、ＣＰＵ１４０は、「メニュー」の音声を認識した場合は、ＯＳが実行可能な様々な機能を文字として表した画面を画像ＶＩとして画像表示部２０に表示する。また例えば、ＣＰＵ１４０は、「バック」の音声を認識した場合は、１つ前に表示されていた画面を画像ＶＩとして画像表示部２０に表示する。また例えば、ＣＰＵ１４０は、「アップ」や「ダウン」の音声を認識した場合は、画像ＶＩの位置を上下に移動させる。

調整用語彙リスト１２２Ｂは、所定の語彙が、パターン１Ｂ，パターン２Ｂ，パターン３Ｂの発音記号で表されている。調整用語彙リスト１２２Ｂで用いられる所定の語彙は、後述する録音シーンの音声認識に用いられる語彙リストを構成する複数の語彙の一部である。本実施形態では、調整用語彙リスト１２２Ｂの語彙は「あお」、「あか」、「みどり」、「くろ」の４つである。パターン１Ｂ〜３Ｂは、複数の母音（例えば、「ア」や「オ」）の組み合わせが異なる。例えば、パターン１Ｂ〜パターン３Ｂにおいて、語彙である「ア」の発音記号はそれぞれ異なり、「ウ」の発音記号は同じである。調整用語彙リスト１２２Ｂの所定の語彙には、録音シーンの操作を行うための語彙の一部が用いられることが好ましい。「あか」、「あお」、「みどり」、「くろ」などの語彙をＣＰＵ１４０が認識することによって、録音の開始や停止などの録音の操作が実行される。なお、この詳細は後述する。

調整用語彙リスト１２２Ｃは、所定の語彙が、パターン１Ｃ，パターン２Ｃ，パターン３Ｃの発音記号で表されている。調整用語彙リスト１２２Ｃで用いられる所定の語彙は、日本語の母音である。本実施形態では、調整用語彙リスト１２２Ｃの語彙は「あ」、「い」、「う」、「え」、「お」の５つである。パターン１Ｃ〜３Ｃは、複数の母音（例えば、「あ」〜「お」）の組み合わせが異なる。例えば、パターン１Ｃ〜パターン３Ｃにおいて、語彙である「あ」の発音記号はそれぞれ異なり、「う」の発音記号は同じである。また、「い」、「え」、「お」のそれぞれは、パターン１Ｃ〜パターン３Ｃの一部において発音記号が異なる。

図５Ａは、記憶部１２０（図２）が記憶する語彙リスト１２１のうちの操作シーンに用いられる語彙リスト１２１Ａａ〜１２１Ａｃを説明するための図である。図５Ｂは、記憶部１２０（図２）が記憶する語彙リスト１２１のうちの録音シーンに用いられる語彙リスト１２１Ｂａ〜１２１Ｂｃを説明するための図である。図５Ｃは、記憶部１２０（図２）が記憶する語彙リスト１２１のうちの一般用シーンに用いられる語彙リスト１２１Ｃａ〜１２１Ｃｃを説明するための図である。語彙リスト１２１は、発話者の使用シーンに応じた複数の語彙リスト１２１Ａａ〜１２１Ｃｃを含む。複数の語彙リスト１２１Ａａ〜１２１Ｃｃの使用シーンと、複数の調整用リスト１２２Ａ〜１２２Ｃの使用シーンとは対応関係にある。つまり、語彙リスト１２１は、使用シーンが操作シーンと録音シーンと一般用シーンとの３つに分類されている。語彙リスト１２１Ａａ〜１２１Ｃｃのそれぞれは、使用シーンの際に用いられると予想される複数の語彙と、複数の語彙ごとの発音記号とが規定されている。語彙リスト１２１Ａａ〜１２１Ｃｃに規定された複数の語彙のそれぞれには、調整用語彙リスト１２２で用いられる複数のパターンと同じ発音のパターン（音素に対する発音記号の付け方の規則）を用いて発音記号が対応付けられている。

図５Ａに示す操作シーンの語彙リスト１２１Ａａ〜１２１Ａｃの語彙は、操作シーンの調整用語彙リスト１２２Ａ（図４）に規定された所定の語彙と同じである。また、語彙リスト１２Ａａで用いる発音記号のパターンは、調整用語彙リスト１２２Ａのパターン１Ａをであり、語彙リスト１２２Ａｂの発音記号のパターンは、調整用語彙リスト１２２Ａのパターン２Ａであり、調整用語彙リスト１２２Ａｃの発音記号のパターン、調整用語彙リスト１２２Ａのパターン３Ａである。

図５Ｂに示す録音シーンの語彙リスト１２１Ｂａ〜１２１Ｂｃの語彙は、録音シーンの調整用語彙リスト１２２Ｂに規定された所定の語彙に加え、さらに録音シーンで用いられる複数の語彙（例えば、メニューやフォルダー）を含む。また、語彙リスト１２１Ｂａ〜１２１Ｂｃにおいて、複数の語彙ごとに調整用語彙リスト１２２Ｂで用いた発音記号のパターン（パターン１Ｂ〜パターン３Ｂ）を用いて発音記号が対応付けられている。

図５Ｂに示す一般用シーンの語彙リスト１２１Ｃａ〜１２１Ｃｃの語彙は、一般用シーンの調整用語彙リスト１２２Ｃに規定された所定の語彙に加え、さらに一般用シーンで用いられると予想される複数の語彙（例えば、「あつい」や「さむい」）を含む。また、語彙リスト１２１Ｃａ〜１２１Ｃｃにおいて、複数の語彙ごとに調整用語彙リスト１２２Ｃで用いた発音記号のパターン（パターン１Ｃ〜パターン３Ｃ）を発音記号が対応付けられている。なお、本実施形態では、３つの使用シーンにおける、パターン１Ａ，１Ｂ，１Ｃは同じ発音パターン（発音規則）であり、パターン１Ｂ，２Ｂ，３Ｂは同じ発音パターン（発音規則）であり、パターン１Ｃ，２Ｃ，３Ｃは同じ発音パターン（発音規則）である。なお、使用シーンが異なる２つのシーンにおいて、同じ語彙を異なる発音記号で規定しても良い。

複数の語彙リスト１２１Ａａ〜１２１Ａｃ，１２１Ｂａ〜１２１Ｂｃ，１２１Ｃａ〜１１２１Ｃｃのパターンと、複数の調整用リスト１２２Ａ〜１２２Ｃのパターンとの対応関係は、音素に対する発音記号のつけ方の規則によって行っていたが、これに限定されるものではない。例えば、パターンの対応関係は、性別ごとや、出身地ごとや、人種ごとや、年齢ごとに音声の特徴を分類できる発音記号（分類ごとに、同じ音素に対して異なる発音記号）によって対応関係をつけても良い。

図６は、実行可能情報の一例を説明するための図である。図６を用いて外部の音声を記録する録音シーンの実行可能情報を説明する。図６では、階層構造における記憶された機能の対応関係が示されている。実行可能情報は、実行可能な機能を表現する語彙（語彙画像）と、語彙に関連付けられた関連画像とを含む。実行可能な機能を表現する語彙とは、「メニュー」や「フォルダー」などであり、関連画像とは色画像（例えば、赤を表す画像や青を表す画像）である。語彙画像と関連画像とは組み合わせ画像を構成する。

機能実行部１７１（図２）が音声認識によって所定の操作を受け付けると、音声認識部１６４は、実行可能情報１２４の階層の内の最も上の階層である第１階層ＦＲ１に記憶された「メニュー」の機能に対応付けられた画像を画像表示部２０に表示させる。この場合に、音声認識部１６４は、語彙である「メニュー」を表す語彙画像に、「あか」に対応付けられた色の赤によって作成した関連画像を組み合わせる。関連画像は、語彙である「メニュー」に関連付けられている。「メニュー」の画像と赤で作成された画像とを組み合わせた画像を組み合わせ画像とも呼ぶ。また、関連画像は、語彙リスト１２１の複数の語彙のうち、語彙画像の語彙（例えば、メニュー）とは異なる他の語彙である関連語彙（例えば、あか）を表す画像である。語彙画像に基づく語彙（例えば、メニュー）と関連画像に基づく関連語彙（例えば、あか）とは、ＨＭＤ１００に対して同じ機能を実行させるための指示内容である。すなわち、語彙画像（語彙）と関連画像（関連語彙）とはＨＭＤ１００に実行させる機能によって関連付けられている。この組み合わせ画像の詳細については後述する。

所定の操作が受け付けられることにより、第１階層ＦＲ１の「メニュー」が選択されると、音声認識部１６４は、「メニュー」に対応付けられて第２階層ＦＲ２に記憶された機能を表す画像を画像表示部２０に表示させる。この場合に、音声認識部１６４は、選択された下の階層に記憶されたフォルダー一覧を表示する「フォルダー」を、赤で作成された画像に組み合わせて、選択されるとマイク６３が取得した外部の音声を記録する「レコード」を青で作成された画像に組み合わせて、選択されると１つ上の階層に戻る「バック」を黄色で作成されたに組み合わせて、画像表示部２０に表示させる。すなわち、機能実行部１７１は、「メニュー」が選択されると、「メニュー」に対応付けられた機能である１つ下の階層の第２階層ＦＲ２に記憶された機能を組み合わせ画像として画像表示部２０に表示させる。

第２階層ＦＲ２において、「レコード」が選択されると、音声認識部１６４は、「レコード」の機能である第２階層ＦＲ２の下の階層の第３階層ＦＲ３に記憶された機能を組み合わせ画像として画像表示部２０に表示させる。この場合に、音声認識部１６４は、選択されると新規ファイルを作成する「サクセイ」の画像を赤で作成された画像に組み合わせて、選択されると以前に作成したファイルを選択する「セレクト」の画像を青で作成された画像に組み合わせて、「バック」の画像を黄色で作成された画像に組み合わせて、選択されると１番上の階層である第１階層ＦＲ１に戻る「ホーム」を緑で作成された画像に組み合わせて画像表示部２０に表示させる。図６では、第３階層ＦＲ３において、「サクセイ」が選択された場合について示されている。

第３階層ＦＲ３において、「サクセイ」が選択されると、音声認識部１６４は、「サクセイ」の機能として、第３階層ＦＲ３の下の階層の第４階層ＦＲ４に記憶された機能を組み合わせ画像として画像表示部２０に表示させる。この場合に、音声認識部１６４は、選択されると録音を開始する「スタート」の画像を赤で作成された画像に組み合わせて、選択されると録音していた場合に録音を終了する「エンド」の画像を青で作成された画像に組み合わせて、「バック」の画像を黄で作成された画像に組み合わせて、「ホーム」の画像を緑で作成された画像に組み合わせて画像表示部２０に表示させる。以上説明したとおり、実行可能情報１２４に記憶された画像は、音声として短い語彙である色に対応付けられているため、音声の誤認識に起因する選択の間違いが低減される。

図７は、音声認識調整部１６６（図２）が実行する音声認識調整工程のフロー図である。この音声認識調整工程は、ＨＭＤ１００のＯＳの待ち受け画面ＶＩ（図３）に表示された音声認識調整マークを使用者（発話者）が選択したことをトリガーとして開始される。なお、トリガーはこれに限定されるものではなく、例えば、ＨＭＤの電源がＯＮ状態になったことをトリガーとしても良い。また、例えば、発話者（発話者識別情報）ごとにＨＭＤ１００を起動したことや、発話者（発話者識別情報）ごとに作業用のアプリケーション（例えば、録音用のアプリケーション）が起動したことをトリガーとしても良い。

音声認識調整部１６６は、発話者を識別するための発話者識別情報の入力を受け付ける（ステップＳ１０）。本実施形態では、発話者識別情報は発話者の氏名である。具体的には、タッチパッド１４上に氏名を入力するための氏名入力画面を表示し、氏名の入力を受け付ける。受け付けられた氏名を表す氏名データは、記憶部１２０に記憶される。なお、ステップＳ１０は、後述するステップＳ６０以前に実行される限りにおいて実行される順番は問わない。なお、発話者識別情報は、発話者を識別できる情報であれば上記に限定されるものではなく、例えば、発話者に予め割り当てられた識別番号であっても良い。

音声認識調整部１６６は、ステップＳ１０の次に、ＨＭＤ１００が使用される使用シーンを推定する（ステップＳ２０）。図８は、使用シーンの推定について説明するための図である。図８は、ステップＳ２０において、画像表示部２０に表示される画像ＶＩａを示している。画像ＶＩａは、発話者に使用シーンを選択させるための画像である。画像ＶＩａは、「使用シーンを選択ください」という画像と、複数の使用シーンを表す画像と、三角形のカーソルと、を含む。発話者は、複数の使用シーンのうちで実際に使用する使用シーンの左にカーソルを移動させて決定キー１１を押すことで、実際に使用する使用シーンが選択される。音声認識調整部１６６は、発話者によって選択された使用シーンをＨＭＤ１００が使用される使用シーンとして推定する。

なお、使用シーンの推定は上記に限定されるものではなく、他の種々の方法を用いて推定しても良い。使用シーンの他の推定方法としては例えば以下が挙げられる。
・撮像画像に基づく使用シーンの推定
・ＨＭＤ１００の現在位置に基づく使用シーンの推定
・発話者が行う作業の進捗状況に基づく使用シーンの推定
以下に上記に例示した具体的内容を説明する。

・撮像画像に基づく使用シーンの推定：
この推定方法は、画像表示部２０に外景ＳＣの撮影を発話者に指示する画像を表示させ、カメラ６１によって撮像された画像（撮像画像）に基づいて使用シーンを推定する方法である。この方法では、記憶部１２０に、種々の画像と画像ごとに対応付けられた使用シーンとを有する第１の使用シーン推定テーブルを予め記憶させておく。そして、第１の使用シーン推定テーブルの複数の画像の中から撮像画像と一致する画像をパターンマッチングや統計的手法によって決定する。決定した画像に対応付けられた使用シーンをＨＭＤ１００が使用される使用シーンとして推定する。例えば、撮像画像がタッチパッド１４を含む画像であれば、操作シーンを使用シーンとして推定する。また例えば、撮像画像が黒板やホワイトボードなどの録音が行われると推定される画像を含む画像であれば録音シーンを使用シーンとして推定する。また例えば、撮影画像が操作シーン及び録音シーンに対応付けられた画像以外の画像であれば一般用シーンを使用シーンとして推定する。この方法によれば、撮像された画像に基づいて容易に使用シーンを推定できる。

・ＨＭＤ１００の現在位置に基づく使用シーンの推定：
この推定方法は、ＨＭＤ１００のＧＰＳモジュール１３４（図２）が検出した現在位置に基づいて使用シーンを推定する方法である。この方法では、記憶部１２０に、特定の位置や領域を表す位置特定情報（例えば、経度および緯度によって規定された領域情報）と、位置特定情報に対応付けて規定された使用シーンとを有する第２の使用シーン推定テーブルを予め記憶させておく。制御部１０は、音声調整処理工程が開始された時点の現在位置をＧＰＳモジュール１３４によって検出する。そして、音声認識調整部１６６は、位置特定情報の中から、ＧＰＳモジュール１３４が検出した現在位置が表す現在位置情報と一致する情報を決定する。そして、決定した位置特定情報に対応付けて規定された使用シーンをＨＭＤ１００が使用される使用シーンとして推定する。例えば、現在位置が所定の学校の教室であれば録音シーンを使用シーンとして推定する。また例えば、現在位置が地下鉄の構内であれば操作シーンを使用シーンとして推定する。また例えば、操作シーンや録音シーンに対応付けられた位置特定情報以外の現在位置であれば、一般用シーンを使用シーンとして推定する。この方法によれば、ＧＰＳモジュール１３４が検出した現在位置に基づいて容易に使用シーンを推定できる。

・発話者が行う作業の進捗状況に基づく使用シーンの推定：
この推定方法は、ＨＭＤ１００を装着する発話者が行う作業の進捗状況に基づいて使用シーンを推定する方法である。この方法では、記憶部１２０に、音声認識調整部１６６の処理が実行される直前の発話者のＨＭＤ１００に対する操作内容と、操作内容から推定される使用シーンとを有する第３の使用シーン推定テーブルを予め記憶させておく。そして、直前の操作内容と第３の使用シーン推定テーブルとを用いて使用シーンを決定する。例えば、音声認識調整部１６６の処理が実行される前の直前の操作内容が、カメラによる外景ＳＣの撮影である場合、撮影操作に対応して記憶された録音シーンを使用シーンとして推定する。この方法によれば、作業の進捗状況に基づいて容易に使用シーンを推定できる。また、別の方法として、発話者が行う作業工程（全体の工程や、その一部の工程）が予め分かっている場合は、作業工程を表す情報を記憶部１２０に記憶させて、この情報に基づいて使用シーンを推定しても良い。

ステップＳ２０の次に、音声認識調整部１６６は、推定した使用シーンに基づいて、調整用語彙リスト１２２Ａ〜１２２Ｃの中から１つの調整用語彙リストを選択する（ステップＳ３０）。例えば、推定された使用シーンが操作シーンである場合は、操作シーン用の調整用語彙リスト１２２Ａ（図４（Ａ））を次以降のステップに用いる調整用語彙リストとして選択する。

ステップＳ３０の次に、音声認識調整部１６６は、選択した調整用語彙リスト（例えば、操作シーン用の調整用語彙リスト１２２Ａ）に定められた所定の語彙に関する語彙画像を画像表示部２０に表示させる（ステップＳ４０）。

図９は、ステップＳ４０を説明するための図である。図９は、ステップＳ４０において、画像表示部２０に表示される語彙画像ＶＩｂを示す図である。語彙画像ＶＩｂは、発話者に発話を促すための画像である「お話ください」という画像と、ステップＳ３０によって決定された調整用語彙リスト１２２に規定された複数の所定の語彙と、複数の所定の語彙の左に設けられたマーク画像ＶＩｂ１と、所定の語彙を構成する各文字の上に設けられるマーク画像ＶＩｂ２とを含む。マーク画像ＶＩｂ１及びマーク画像ＶＩｂ２は、発話者に所定の語彙を発話させるタイミングをはかるための画像である。マーク画像ＶＩｂ１は、例えばハッチングを施した丸画像であり、発話対象の所定の語彙（図９では、「ダウン」）に付されている。マーク画像ＶＩｂ２は、例えばハッチングを施した丸画像と白抜きの丸画像とを含む、それぞれの丸画像の下には発話対象の所定の語彙を構成する文字が位置する。ハッチングを施した丸画像の下に位置する文字（図９では、「ウ」）は、発話者に発話を促す文字である。マーク画像ＶＩｂ１とマーク画像ＶＩｂ２とは、時間の経過とともに発話者に発話させる所定の語彙と文字に応じて変化する。例えば、マーク画像ＶＩｂ１とマーク画像ＶＩｂ２とは、語彙「ダウン」の位置に対応する位置に移動してから所定の時間経過後に次に発話を促す語彙である「メニュー」の位置に対応する位置に移動する。ステップＳ４０は、音声認識調整部１６６が複数の所定の語彙が発話されたことを認識するまで継続して実行しても良いし、ステップＳ４０が開始されたから所定の時間経過した時点で終了しても良い。また、ステップＳ４０は、発話者の操作によって終了しても良い。

図７に示すように、ステップＳ４０の次に、音声認識調整部１６６はパターン（組み合わせパターン）を特定して、複数の使用語彙リスト１２１の中から、音声認識部１６４が音声認識のために用いる使用語彙リストを決定する（ステップＳ５０）。具体的には、音声認識調整部１６６は発話された音声の特徴が、ステップＳ４０で用いられた調整用語彙リスト１２２のうちのどのパターンに分類されるのかを特定する。この特定は、複数のパターンごとに規定された複数の所定の語彙のうち、最も発話の音声が一致する所定の語彙を規定するパターンを特定することで行っても良い。例えば、調整用語彙リスト１２２Ａを用いた場合、語彙「アップ」、「ダウン」、「メニュー」に対する発話の音声がパターン１Ａの発音記号と一致し、語彙「バック」、「ホーム」に対する発話の音声がパターン１Ｂの発音記号と一致した場合は、一致した所定の語彙が多いパターン１Ａを発話者の音声の特徴を最も表すパターン（組み合わせパターン）として特定する。そして、音声認識調整部１６６は、語彙リスト１２１（図２、図５）の中から、ステップＳ２０で特定された使用シーンと、特定した調整用語彙リスト１２２Ａの組み合わせパターンとに対応する語彙リストを使用語彙リストとして決定する。例えば、使用シーンが操作シーンである場合に、パターン１Ａのパターンが特定された場合は、操作シーンとパターンとが一致する語彙リスト１２２Ａ１を使用語彙リストとして決定する。

ステップＳ５０の次に、音声認識調整部１６６は、決定した使用語彙リストとステップＳ１０で受け付けた発話者識別情報とを対応付けた発話者パターン情報を生成する（ステップＳ６０）。生成された発話者パターン情報は記憶部１２０に記憶される。発話者パターン情報は、以前に音声認識調整工程を行った発話者が再び音声認識調整工程を開始する際に用いられる。具体的には、音声認識調整を過去に利用した発話者が再び音声認識調整を開始しようとした場合、ステップＳ１０の後に、以前に決定した使用語彙リストを表す情報（例えば、「あなたの使用語彙リストは、操作シーン・パターン１Ａです」の文字情報）を画像表示部２０に画像として表示させる。また、以前に決定した使用語彙リスト（決定済み使用語彙リスト）を方向キー１６及び決定キー１１などによって発話者は選択でき、選択した決定済み使用語彙リストを用いて音声認識部１６４による音声認識を開始させることができる。こうすることで、決定済み使用語彙リストを用いて音声認識部１６４による音声認識を実行できるため、再度の音声認識調整部１６６の処理工程を省略できる。発話者が決定済み使用語彙リストを選択した場合は、音声認識調整工程はステップＳ１０以外の工程を実行することなく終了しても良い。このように、以前に音声認識調整工程を実行した特定の発話者がＨＭＤ１０の音声認識機能を用いる場合に、音声認識調整部１６６は、発話者パターン情報の中から特定の発話者の使用語彙リストを表す情報を画像表示部２０に表示させる。こうすることで、以前に決定された使用語彙リストを利用して音声認識部による音声認識を実行できる。

図１０は、音声認識部１６４（図２）が実行する音声認識工程を説明するためのフロー図である。図１１は、ステップＳ１００を説明するための図である。図１２は、ステップＳ１５０を説明するための図である。この音声認識工程は、音声認識調整工程が完了したことと、発話者の指示を受け付けたことの少なくとも一方をトリガーとして開始される。発話者の指示を受け付けたこととは、例えば、図３に示す録音マークを発話者が選択したことである。以下では、録音シーンの例として発話者が学校の講義内容を録音するシーンについて説明する。図１１に示す図において外景ＳＣには、学校で講義を行なっている教師ＴＥと、その講義を聞いている複数の生徒ＳＴと、教師ＴＥがホワイトボートＷＢに書いた文字と、が含まれている。また、音声認識調整工程において、使用語彙リストとして図５Ｂに示す語彙リスト１２１Ｂａ（分類が「録音シーン・パターン１Ｂ」）が決定されたものとする。

図１０に示すように、音声認識部１６４は、組み合わせ画像を画像表示部２０に表示させる（ステップＳ１００）。例えば、図１１に示すように、発話者の作業（操作）の進捗の程度を表す階層が階層ＦＲ１である場合、音声認識部１６４は組み合わせ画像として組み合わせ画像ＣＩ１を画像表示部２０に表示させる。組み合わせ画像ＣＩ１は、「メニュー」を表す語彙画像ＩＭＧ１と、語彙画像ＩＭＧ１の左に位置する関連画像ｃｈ１とを含む。関連画像ｃｈ１は赤色で作成された画像である。

図１０に示すように、ステップＳ１０の次に、音声認識部１６４は発話者の音声を取得する（ステップＳ１１０）。次に、音声認識部１６４は、音声認識ができたか否かを判定する（ステップＳ１２０）。具体的には、音声認識部１６４は、使用語彙リスト１２１Ｂａと音響モデル１２５（図２）とを用いて取得された音声が表す語彙と、使用語彙リスト１２１Ｂａに含まれる語彙とが一致するかどうかを判定し、一致する場合は音声認識ができたと判定する。一方で、音声認識部１６４は、音声が表す語彙と、使用語彙リスト１２１Ｂａに含まれる語彙とが一致しない場合は、音声認識ができなかったと判定する。

音声が表す語彙と使用語彙リスト１２１Ｂａに含まれる語彙とが一致した場合は、音声認識部１６４は、音声認識ができたことを発話者に報知する（ステップＳ１３０）。例えば、スピーカー９４，９５から音声認識できたことを表す音（例えば、「ピンポン」という音）を出力する。なお、発話者への報知方法は上記に限定されるものではなく、例えば、画像表示部２０やタッチパッド１４に音声認識できたか否かを表す画像を表示させても良い。また例えば、音声認識部は、一致した語彙に関連する画像を画像表示部２０に表示させても良い。関連する画像とは、例えば、一致した語彙を表す語彙画像（例えば、「一致しました」という語彙画像）であったり、語彙画像と関連する画像とを組み合わせた画像であっても良い。また、関連する画像とは、例えば、一致した語彙自体を強調表示した画像であったり、一致した語彙を識別するための画像（例えば、発音記号）であっても良い。こうすることで、発話者に対して音声に基づいて音声認識部１６４が認識した語彙を報知させることができる。なお、発話者の習熟度（例えば、ＨＭＤ１００の利用時間）が一定の基準よりも高い場合には、関連する画像の表示は行わなくても良い。

ステップＳ１３０の次に、音声認識部１６４は、音声認識した語彙に対応付けられた所定の機能が実行可能か否かを判定する（ステップＳ１４０）。例えば図１１に示す場面（第１階層ＦＲ１の場面）では、音声認識部１６４は「メニュー」の機能を実行可能である。よって、音声認識した語彙が「メニュー」や「あか」である場合は、音声認識部１６４は、図１２に示すように第２階層ＦＲ２の組み合わせ画像ＣＩ２を画像表示部２０に表示させる機能を実行する。一方で、例えば、音声認識した語彙が第２階層ＦＲ２の「レコード」や「あお」のような、第１階層ＦＲ１において所定の機能を実行するための語彙ではない場合は、所定の機能を実行できないと判定しステップＳ１１０が再び行われる。すなわち音声認識部Ｓ１１０は発話者からの音声の取得を受け付ける。

図１２に示す組み合わせ画像ＣＩ２は、第２階層ＦＲ２において実行可能な所定の機能を表す複数の語彙画像ＩＭＧ２と、複数の語彙画像ＩＭＧ２のそれぞれの左に位置する関連画像ｃｈ２とを含む。関連画像ｃｈ２は、図６の第２階層ＦＲ２の括弧書きで示した色で作成された画像である。

次に、音声認識ができなかった場合（ステップＳ１２０：ＮＯ）に音声認識部１６４が実行する処理について説明する。まず、音声認識部１６４は、音声認識ができなかったことを発話者に報知する（ステップＳ１６０）。例えば、スピーカー９４，９５から音声認識できなかったことを表す音（例えば、「ブー」という音）を出力する。なお、発話者への報知方法は上記に限定されるものではなく、例えば、画像表示部２０やタッチパッド１４に音声認識できたか否かを表す画像を表示させても良い。

次に、音声認識部１６４は、使用語彙リスト１２１Ｂａの中から音声が表す語彙を推定し、推定した語彙に関する推定語彙画像を画像表示部２０に表示させる（ステップＳ１７０）。推定語彙画像は、推定した語彙を強調したり、識別したりするための画像である。例えば、推定語彙画像は、推定した語彙を表す画像であっても良いし、推定した語彙を識別するための画像（例えば、発音記号）であっても良い。これにより、音声認識部１６４は、音声が表す語彙と使用語彙リスト１２１Ｂａの語彙とが一致しなかった場合でも、使用語彙リスト１２１Ｂａの複数の語彙の中から音声が表す語彙を推定して、推定した語彙を発話者に認識させることができる。

推定語彙画像は、推定した語彙（推定語彙）を表す画像である。本実施形態では、使用語彙リスト１２１Ｂａに規定された発音記号と、発話された発音に基づいて生成された発音記号とが最も一致する使用語彙リスト１２１Ｂａの語彙を推定語彙としている。例えば、発話された音声の発音記号が「ｒｅｃｏｄｏｕ」である場合は、使用語彙リスト１２１Ｂａに規定された発音記号「ｒｅｃｏｕｄｏ」によって表される語彙「レコード」を推定語彙として推定する。また、推定語彙画像は、例えば、「レコード」の文字画像を含む画像である。なお、推定語彙の決定方法はこれに限定されるものではなく、使用シーンに応じて決定しても良いし、使用シーンと使用語彙リストとを用いて決定しても良い。例えば、使用シーンが録音シーンの場合は、発音された発音記号が「ｒｅｃｏｄｏｕ」である場合は、使用語彙リスト１２１Ｂａに規定された発音記号「ｒｅｃｏｕｄｏ」によって表される語彙「レコード」を推定語彙として推定する。また、使用語彙リスト１２１Ｂａに含まれる推定した語彙「レコード」に定められた語彙識別情報である発音記号を、音声を分析して決定した発音記号「ｒｅｃｏｄｏｕ」に書き換えることで更新しても良い。こうすることで、発話者の音声の特徴により対応した使用語彙リストを作成できる。

ステップＳ１７０の次に、推定語彙画像が音声認識部１６４は発話された語彙であるかを判定する（ステップＳ１８０）。ステップＳ１８０は、発話者に推定語彙が発話された語彙であるかを選択させ、その選択結果に基づき判定が行われる。図１３は、ステップＳ１７０とステップＳ１８０との処理を説明するための図である。

図１３では、推定語彙の文字を表す文字画像（「レコード」）を含む推定語彙画像ＶＩｃは、発話者に推定語彙が発話されたかどうかを選択させる画像も含む。具体的には、推定語彙画像ＶＩｃは「１．レコードＯＫ？」と「２、レコードＮＯ？」とを表す画像を含む。発話者は三角形のカーソルを移動させて、推定語彙画像が発話された語彙であることを示す「１．レコードＯＫ？」と、推定語彙画像が発話された語彙ではないことを示す「２．レコードＮＯ」のいずれかを選択する。この選択結果に基づいて、音声認識部１６４は、推定語彙画像が音声認識部１６４は発話された語彙であるかを判定する。

ステップＳ１８０において推定語彙が発話語彙であると判定された場合は、ステップＳ１４０が実行され、ステップＳ１８０において推定語彙が発話語彙ではないと判定された場合は、ステップＳ１００が実行される。

上記実施形態によれば、所定の語彙を発話者に発話させることで、複数の語彙リスト１２１Ａａ〜１２１Ｃｃの中から発話者の音声（音素）の特徴を最も表す語彙リストを使用語彙リストとして容易に決定できる。

また上記実施形態によれば、音声認識調整部１６６は、複数の語彙ごとに定められた発音記号のパターンが異なる複数の語彙リスト（例えば、図５Ｂの語彙リスト１２１Ｂａ，１２１Ｂｂ、１２１Ｂｃ）の中から音声認識部１６４が用いる使用語彙リストを決定している（図７）。この使用語彙リストは、発話者の音声の特徴を表す指標（例えば、母音の発音や、子音の発音や、性別や、出身地域や、年齢）に基づいて分類された所定の規則に基づいて作成されている。音声認識部１６４は、音声認識調整部１６６が決定した使用語彙リストを用いて音声認識を行っている。これにより、音声認識の際に用いる語彙リストが語彙リスト１２１の全てではなく、そのうちの１つの語彙リストで良いため、音声認識の処理時間を短縮できる。

また上記実施形態によれば、画像表示部２０は発話者に視認させるための虚像を表示可能である。これにより、音声認識調整工程や音声認識工程の際に用いる画像を虚像として画像表示部に表示できる。

また、上記実施形態によれば、音声認識調整部１６６は、使用シーンごとに規定された複数の調整用語彙リスト１２２Ａ〜１２２Ｃの中から、ＨＭＤ１００の使用シーンに応じて１つの調整用語彙リスト１２２を選択している（図７のステップＳ３０）。これは言い換えれば、音声認識調整部１６６は、使用シーン（例えば、操作シーン）に応じて所定の語彙（例えば、アップ、ダウン、メニュー、バック、ホーム）を決定しているとも言える。そして、選択した調整用語彙リスト１２２を用いて使用語彙リスト１２１を決定している（図７のステップＳ５０）。これにより、使用シーンに応じた調整用語彙リスト１２２を用いて使用語彙リストを決定できるため、使用シーンに用いられる語彙の音声認識部１６４による音声認識を精度良く行うことができる。また、使用シーンに応じて適切な所定の語彙を決定できる。具体的には、使用シーンに用いられる語彙を所定の語彙として決定できる。

また、上記実施形態によれば、音声認識部１６４は、取得された音声が語彙と関連画像に関連する関連語彙のいずれかであると認識した場合に、その語彙と関連語彙とに対応付けられた所定の機能を実行している（図１０のステップＳ１５０）。例えば、図１１において、音声認識部１６４が、取得された音声が語彙である「メニュー」と関連語彙である「あか」のいずれかであると認識した場合に、「メニュー」と「あか」とに対応付けられた機能（第２階層ＦＲ２に移行するという機能）を実行する。このように、所定の機能に対応付けられた語彙が複数あるため、音声認識によって所定の機能を実行させることがより容易にできる。

Ｂ．変形例：
上記実施形態において、ハードウェアによって実現されるとした構成の一部をソフトウェアに置き換えるようにしてもよく、逆に、ソフトウェアによって実現されるとした構成の一部をハードウェアに置き換えるようにしてもよい。ソフトウェアによって実現された構成をハードウェアに置き換える場合、複数の構成を組み合わせて１つのハードウェアとしても良い。例えば、図２に示す、ＣＰＵ１４０の機能部である音声認識部１６４と音声認識調整部１６６とが一体となったハードウェアであっても良い。その他、以下のような変形も可能である。

・変形例１：
上記実施形態では、音声認識調整部１６６は、所定の語彙に関する語彙画像を画像表示部２０に表示させていたが（図７のステップＳ４０、図９）、これに加えて、カメラ６１の撮影画像に基づいて所定の語彙が表す対象物が外景ＳＣに存在することを検出した場合は、対象物を識別させるための識別画像を画像表示部２０に表示させても良い。ここで、識別画像は、対象物に向けた矢印であったり、対象物を取り囲む枠状の画像などである。すなわち、識別画像は、識別するための画像であり、識別するための画像は対象物を強調するための画像であっても良い。例えば、所定の語彙に「タッチパッド」が規定されている場合に撮影画像にタッチパッド１４（図１）が含まれている場合は、タッチパッド１４を取り囲む枠状の画像を識別画像として画像表示部２０に表示させる。こうすることで、対象物を発話者が視認することで所定の語彙をより確実に認識することができるので、音声認識調整部１６６を用いた音声調整の精度が向上する。

・変形例２：
上記実施形態において、使用シーンごとに、調整用語彙リスト１２２の所定の語彙は、語彙リスト１２１に規定された語彙の少なくとも一部を用いていたが、これに限定されるものではない。例えば、所定の語彙は、語彙リスト１２１の語彙とは異なる語彙であっても良い。また異なる語彙は、発話者の発音を区別するための音素を含んでいても良い。こうすることで、上記実施形態と同様に、所定の語彙を用いてより精度良く、音声認識部１６４で用いる使用語彙リストを決定できる。

・変形例３：
上記実施形態では複数の語彙リスト１２１Ａａ〜１２１Ｃｃ（図５Ａ〜図５Ｃ）と、複数の調整用語彙リスト１２２Ａ〜１２２Ｃ（図４）と、音響モデル１２５（図２）とは、ＨＭＤ１００の記憶部１２０に記憶されていたが、少なくともいずれか一つはＨＭＤ１００とは異なるＨＤＤやＳＤカードなどの外部装置（外部記憶装置）に記憶されていても良い。この場合、外部記憶装置に記憶されたリスト１２１，１２２や音響モデル１２５は、ＨＭＤ１００によって使用される際にはＨＭＤ１００の記憶部１２０としてのＲＡＭなどに読み込まれる。こうすることで、ＨＭＤ１００の記憶部１２０に全てのデータを記憶させておく必要がないため、ＨＭＤ１００の記憶部１２０の記憶容量を小さくできる。また、例えば、外部装置（外部記憶装置）に記憶された複数の調整用語彙リスト１２２Ａ〜１２２Ｃ（図４）を記憶部１２０としてのＲＡＭに読み込んで、音声認識調整部１６６が発話者の音声の特徴パターンを決定し、その後に決定したパターンの語彙リスト１２１のみを外部装置（外部記憶装置）から記憶部１２０としてのＲＡＭに読み込んで音声認識部１６４が音声認識処理に用いても良い。こうすることで、必要なデータのみを外部装置（外部記憶装置）からＨＭＤ１００に読み込んで使用できるため、ＨＭＤ１００の記憶部１２０の記憶容量を小さくできる。

・変形例４：
上記実施形態では、音声認識装置の一例としてＨＭＤ１００を用いていたが、これに限定されるものではない。例えば、スマートフォンやパーソナルコンピューターなどの画像表示部を備える他の装置であっても良い。

・変形例５：
上記実施形態では、日本語による語彙を用いて説明したがこれに限定されるものではなく、英語や中国語などの他の言語にも本発明は適用できる。また、上記実施形態では、語彙を特定するための語彙識別情報として英語に用いられる発音記号を用いたが、語彙識別情報は語彙を特定できる情報（音声記号）であればこれに限定されるものではない。例えば、国際音声学会（ＩＰＡ）が定めた国際音声記号を語彙識別情報としても良い。

・変形例６：
上記実施形態では、図９に示すように、画像表示部２０に表示された語彙画像ＶＩｂは、調整用語彙リスト１２２Ａに規定された複数の所定の語彙を全てを表す文字画像を含んでいたが、これに限定されるものではない。例えば、複数の所定の語彙を表す文字画像を１つずつ時系列に画像表示部２０に表示させても良い。

・変形例７：
上記実施形態では、調整用語彙リスト１２２に規定された所定の語彙は、発話者の音声（音素）の特徴を分類できる語彙であれば上記に限定されるものではない。例えば、所定の語彙として用いることができる語彙を以下に例示する。
＜所定の語彙の他の例＞
・「記載」、「買う」、「計画」、「コイル」、「応答」、「察知」、「キック」、「ルック」、「セット」、「突起」などの、特定の使用シーンに頻繁に用いられる語彙。
・「あい」、「あう」、「えい」、「おい」、「おう」などの複合母音を含む語彙。
・あ段の破裂音、又は、い段の破裂音、又は、う段の破裂音、又は、え段の破裂音、又は、お段の破裂音、又は、う段の特殊音などの特殊音を含む語彙。
また、５つの母音（「あ」、「い」、「う」、「え」、「お」）を全て含む語彙や、複数の語彙によって５つの母音を網羅できる語彙群を所定の語彙として用いても良い。母音は、発話者の音声の特徴を最も表す音素の一つであるためである。
また、「メニュー」、「オープン」などの特定のシーン（録音シーン）において、特定のシーンの機能の実行のためのトリガーに対応する語彙を所定の語彙として用いても良い。こうすることで、特定のシーンの機能を実行のための音声認識を精度良く行うことができる。
また、「イエス」や「ノー」などのＨＭＤ１００が行う処理の選択を行うための選択肢を決定するための語彙を所定の語彙として用いても良い。こうすることで、選択の決定をより精度良く行うことができる。
また、発話者の作業過程（例えば、ＨＭＤ１００による録音を行うための作業）に頻出する語彙や、作業の対象物を表す語彙を所定の語彙として用いても良い。こうすることで、音声認識を用いたＨＭＤ１００を用いた作業をより精度良く行うことができる。

・変形例８：
図１４は、変形例におけるＨＭＤの外観の構成を示す説明図である。図１４（Ａ）の例の場合、画像表示部２０ｘは、右光学像表示部２６に代えて右光学像表示部２６ｘを備え、左光学像表示部２８に代えて左光学像表示部２８ｘを備えている。右光学像表示部２６ｘと左光学像表示部２８ｘとは、上記実施形態の光学部材よりも小さく形成され、ＨＭＤの装着時における使用者の右眼および左眼の斜め上にそれぞれ配置されている。図１４（Ｂ）の例の場合、画像表示部２０ｙは、右光学像表示部２６に代えて右光学像表示部２６ｙを備え、左光学像表示部２８に代えて左光学像表示部２８ｙを備えている。右光学像表示部２６ｙと左光学像表示部２８ｙとは、上記実施形態の光学部材よりも小さく形成され、ＨＭＤの装着時における使用者の右眼および左眼の斜め下にそれぞれ配置されている。このように、光学像表示部は使用者の眼の近傍に配置されていれば足りる。また、光学像表示部を形成する光学部材の大きさも任意であり、光学像表示部が使用者の眼の一部分のみを覆う態様、換言すれば、光学像表示部が使用者の眼を完全に覆わない態様のＨＭＤとして実現することもできる。

例えば、ヘッドマウントディスプレイは、両眼タイプの透過型ヘッドマウントディスプレイであるものとしたが、単眼タイプのヘッドマウントディスプレイとしてもよい。また、使用者がヘッドマウントディスプレイを装着した状態において外景の透過が遮断される非透過型ヘッドマウントディスプレイとして構成してもよい。

例えば、画像処理部、表示制御部、音声処理部等の機能部は、ＣＰＵがＲＯＭやハードディスクに格納されているコンピュータープログラムをＲＡＭに展開して実行することにより実現されるものとして記載した。しかし、これら機能部は、当該機能を実現するために設計されたＡＳＩＣ（Application Specific Integrated Circuit：特定用途向け集積回路）を用いて構成されてもよい。

例えば、上記実施形態では、画像表示部を眼鏡のように装着するヘッドマウントディスプレイであるとしているが、画像表示部が通常の平面型ディスプレイ装置（液晶ディスプレイ装置、プラズマディスプレイ装置、有機ＥＬディスプレイ装置等）であるとしてもよい。この場合にも、制御部と画像表示部との間の接続は、有線の信号伝送路を介した接続であってもよいし、無線の信号伝送路を介した接続であってもよい。このようにすれば、制御部を、通常の平面型ディスプレイ装置のリモコンとして利用することもできる。

また、画像表示部として、第１実施形態のようにヘッドバンドを掛けることによって装着する構成や、第２実施形態のように眼鏡のように装着する構成に代えて、例えば帽子のように装着する画像表示部といった他の形状の画像表示部を採用してもよい。また、スピーカーは、イヤホンに換えてもよく、イヤホンは、耳掛け型やヘッドバンド型を採用してもよい。また、例えば、自動車や飛行機等の車両に搭載されるヘッドアップディスプレイ（ＨＵＤ、Head-Up Display）として構成されてもよい。また、例えば、ヘルメット等の身体防護具に内蔵されたヘッドマウントディスプレイとして構成されてもよい。

例えば、上記実施形態では、表示駆動部は、バックライトと、バックライト制御部と、ＬＣＤと、ＬＣＤ制御部と、投写光学系を用いて構成されるものとした。しかし、上記の態様はあくまで例示である。表示駆動部は、これらの構成部と共に、またはこれらの構成部に代えて、他の方式を実現するための構成部を備えていてもよい。例えば、表示駆動部は、有機ＥＬ（有機エレクトロルミネッセンス、Organic Electro-Luminescence）のディスプレイと、有機ＥＬ制御部と、投写光学系とを備える構成としてもよい。例えば、表示駆動部は、ＬＣＤに代えてＤＭＤ（デジタル・マイクロミラー・デバイス）等を用いることもできる。例えば、表示駆動部は、ＲＧＢの各色光を発生させるための色光源とリレーレンズを含む信号光変調部と、ＭＥＭＳミラーを含む走査光学系と、これらを駆動する駆動制御回路と、を含むように構成されてもよい。このように、有機ＥＬやＤＭＤやＭＥＭＳミラーを用いても、「表示駆動部における射出領域」とは、表示駆動部から画像光が実際に射出される領域であることに変わりはなく、各デバイス（表示駆動部）における射出領域を上記実施形態と同様に制御することによって、上記実施形態と同様の効果を得ることができる。また、例えば、表示駆動部は、画素信号に応じた強度のレーザーを、使用者の網膜へ出射する１つ以上のレーザーを含むように構成されてもよい。この場合、「表示駆動部における射出領域」とは、表示駆動部から画像を表すレーザー光が実際に射出される領域を表す。レーザー（表示駆動部）におけるレーザー光の射出領域を上記実施形態と同様に制御することによって、上記実施形態と同様の効果を得ることができる。

また、上記実施形態では、マイクロフォン３１とヘッドフォン部９０とがＨＭＤ１００の構成部材としてＨＭＤ１００と一体となった構成であったがこれに限定されるものではない。例えば、マイクロフォン３１とヘッドフォン部９０とがＨＭＤ１００と別体であっても良い。この場合、例えば、マイクロフォン３１とヘッドフォン部９０とはヘッドセットとして一体に構成され、ヘッドセットとＨＭＤ１００とが有線又は無線によって接続されていても良い。

・変形例９：
上記実施形態では、組み合わせ画像ＣＩ１，ＣＩ２は、語彙画像ＩＭＧ１，ＩＭＧ２と語彙画像ＩＭＧ１，ＩＭＧ２の左に位置する所定の色（例えば、赤）の関連画像ｃｈ１，ｃｈ２との組み合わせであったが（図１１，図１２）、これに限定されるものではない。関連画像ｃｈ１，ｃｈ２は、語彙に関連付けられた画像であれば良く、例えば、語彙画像ＩＭＧ１，ＩＭＧ２の語彙を所定の色で表示させる色画像であっても良い。例えば、図１１に示す関連画像ｃｈ１は、「メニュー」を表す語彙画像ＩＭＧ１を赤色で表示する色画像であっても良い。

・変形例１０：
上記実施形態では、実行可能情報１２４は、ＨＭＤ１００が実行可能な機能を階層に区別して記憶していたが（図２，図６）、これに限定されるものではなく、ＨＭＤ１００が実行可能な情報を記憶していれば、階層構造でなくても良い。

本発明は、上述の実施形態や実施例、変形例に限られるものではなく、その趣旨を逸脱しない範囲において種々の構成で実現することができる。例えば、発明の概要の欄に記載した各形態中の技術的特徴に対応する実施形態、実施例、変形例中の技術的特徴は、上述の課題の一部または全部を解決するために、あるいは、上述の効果の一部または全部を達成するために、適宜、差し替えや組み合わせを行うことが可能である。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜、削除することが可能である。

１０…制御部
１１…決定キー
１２…点灯部
１４…タッチパッド
１６…方向キー
１８…電源スイッチ
２０…画像表示部
２０ｘ…画像表示部
２０ｙ…画像表示部
２１…右保持部
２２…右表示駆動部
２３…左保持部
２４…左表示駆動部
２６…右光学像表示部
２６ｘ…右光学像表示部
２６ｙ…右光学像表示部
２８…左光学像表示部
２８ｘ…左光学像表示部
２８ｙ…左光学像表示部
３０…マイク部
３１…マイクロフォン
３２…アーム
３３…連結部
４０…接続コード
４６…連結部材
５１…送信部
５２…送信部
５３…受信部
６１…カメラ
６３…マイク
６６…９軸センサー
９０…ヘッドフォン部
９１…ヘッドバンド
９２…右イヤーカップ
９２ａ…上面
９３…イヤーカップ
９４…スピーカー
９５…スピーカー
１００…頭部装着型表示装置
１１０…入力情報取得部
１２０…記憶部
１２１…語彙リスト
１２２…調整用語彙リスト
１２４…実行可能情報
１２５…音響モデル
１３０…電源
１３２…無線通信部
１３４…ＧＰＳモジュール
１４０…ＣＰＵ
１６０…画像処理部
１６２…表示制御部
１６４…音声認識部
１６６…音声認識調整部
１７０…音声処理部
１７１…機能実行部
１８０…インターフェイス
２０１…右バックライト制御部
２０２…左バックライト制御部
２１１…右ＬＣＤ制御部
２１２…左ＬＣＤ制御部
２２１…右バックライト
２２２…左バックライト
２５１…右投写光学系
２５２…左投写光学系
２６１…右導光板
２６２…左導光板
ＳＣ…外景
ＶＲ…視界

Claims

音声認識装置であって、
画像を表示する画像表示部と、
発話者の音声を取得する音声取得部と、
使用語彙リストを用いて、前記音声取得部が取得した音声が表す語彙を認識する音声認識部と、
所定の語彙に対して複数の組み合わせパターンに基づいて規定された前記語彙を特定するための語彙識別情報を有する調整用語彙リストのうちの、前記所定の語彙に関する語彙画像を前記画像表示部に表示させ、前記表示した前記語彙画像についての前記発話者の音声と、前記調整用語彙リストの前記語彙識別情報と、を比較して前記組み合わせパターンを特定することで、複数の語彙リストの中から前記使用語彙リストを決定する音声認識調整部と、を備える、音声認識装置。
請求項１に記載の音声認識装置であって、
前記複数の語彙リストは、複数の前記語彙と前記語彙を特定するための前記語彙識別情報とをそれぞれ有し、前記複数の語彙と前記複数の語彙のそれぞれに対応する前記語彙識別情報との前記組み合わせパターンが異なる、音声認識装置。
請求項１又は請求項２に記載の音声認識装置であって、さらに、
前記発話者の頭部に装着するための保持部を有し
前記画像表示部は、前記発話者に視認させるための虚像を表示可能である、音声認識装置。
請求項３に記載の音声認識装置であって、
前記音声認識調整部は、使用シーンごとに規定された複数の前記調整用語彙リストの中から、前記音声認識装置の使用シーンに応じて１つの前記調整用語彙リストを選択し、前記選択した前記調整用語彙リストを用いて前記使用語彙リストを決定する、音声認識装置。
請求項４に記載の音声認識装置であって、さらに、
外景を撮像する撮像部を有し、
前記音声認識調整部は、撮像された画像に基づいて前記使用シーンを推定する、音声認識装置。
請求項４に記載の音声認識装置であって、さらに、
前記音声認識装置の現在位置を検出するための位置特定部を有し、
前記音声認識調整部は、前記位置特定部が検出した現在位置に基づいて前記使用シーンを推定する、音声認識装置。
請求項４に記載の音声認識装置であって、
前記音声認識装置は、前記発話者が行う作業の進捗状況に基づいて前記使用シーンを推定する、音声認識装置。
請求項４から請求項７までのいずれか一項に記載の音声認識装置であって、
前記音声認識調整部は、前記使用シーンに応じて前記所定の語彙を決定する、音声認識装置。
請求項４から請求項８までのいずれか一項に記載の音声認識装置であって、
前記画像表示部は、外景を透過可能であり、
前記音声認識調整部は、前記外景に存在する前記所定の語彙が表す対象物を前記発話者に識別させるための識別画像を前記画像表示部に表示する、音声認識装置。
請求項４から請求項９までのいずれか一項に記載の音声認識装置であって、
前記音声認識部は、
前記語彙リストの前記語彙を表す語彙画像と、前記語彙に関連付けられた関連画像であって前記語彙リストの他の前記語彙に基づく関連画像と、を含む組み合わせ画像を前記画像表示部に表示させ、
取得された前記音声が前記語彙と前記関連画像に関連する関連語彙のいずれかであると前記音声認識部が認識した場合に、前記語彙と前記関連語彙とに対応付けられた所定の機能を実行する機能実行部と、を有する、音声認識装置。
請求項１から請求項１０までのいずれか一項に記載の音声認識装置であって、
前記所定の語彙は、前記発話者の発音の特徴を区別できる音素を含む、音声認識装置。
請求項１１に記載の音声認識装置であって、
前記所定の語彙は、前記語彙リストの前記語彙とは異なる語彙であって前記発話者の発音の特徴を区別するための前記音素を含む、音声認識装置。
請求項１１に記載の音声認識装置であって、
前記所定の語彙は、前記語彙リストを構成する前記複数の語彙の少なくとも１つである、音声認識装置。
請求項１３に記載の音声認識装置であって、
前記所定の語彙は、前記語彙リストを構成する前記複数の語彙の全部を含む、音声認識装置。
請求項１から請求項１４までのいずれか一項に記載の音声認識装置であって、
前記音声認識部は、前記音声が表す語彙を認識できなかった場合に、前記使用語彙リストと前記音声認識装置の使用シーンとの少なくとも一つを用いて前記認識されなかった前記音声が表す語彙を推定し、前記使用語彙リストに含まれる推定した前記語彙に定められた前記語彙識別情報を更新する、音声認識装置。
請求項１から請求項１５までのいずれか一項に記載の音声認識装置であって、
前記語彙識別情報は、前記語彙の発音記号を含む、音声認識装置。
請求項１から請求項１６までのいずれか一項に記載の音声認識装置であって、
前記音声認識部は、前記使用語彙リストが有する前記語彙と、前記音声が表す語彙とが一致しないと判定した場合は、前記使用語彙リストが有する前記複数の語彙の中から前記音声が表す語彙を推定し、前記推定した語彙に関する推定語彙画像を前記画像表示部に表示する、音声認識装置。
請求項１から請求項１７までのいずれか一項に記載の音声認識装置であって、
前記音声認識部は、前記音声が表す語彙と前記使用語彙リストに含まれる前記語彙とが一致した場合は、一致した前記語彙に関連する画像を前記画像表示部に表示させる、音声認識装置。
請求項１から請求項１８までのいずれか一項に記載の音声認識装置であって、
前記音声認識部は、前記音声が表す語彙と前記使用語彙リストに含まれる前記語彙とが一致したか否かを前記発話者に報知させる、音声認識装置。
請求項１から請求項１９までのいずれか一項に記載の音声認識装置であって、
前記音声認識調整部は、
前記発話者ごとに、前記発話者を識別するための発話者識別情報と、決定した前記使用語彙リストとを対応付けた発話者パターン情報を生成し、
特定の前記発話者が前記音声認識装置を用いる場合に、生成した前記発話者パターン情報の中から前記特定の発話者の前記使用語彙リストを表す情報を前記画像表示部に表示させる、音声認識装置。
請求項１から請求項２０までのいずれか一項に記載の音声認識装置であって、
前記複数の語彙リストは、前記音声認識装置とは異なる外部装置に記憶され、
前記音声認識部は、前記使用語彙リストを前記外部装置から読み込んで使用する、音声認識装置。
請求項１から請求項２０までのいずれか一項に記載の音声認識装置であって、
前記調整用語彙リストは、前記音声認識装置とは異なる外部装置に記憶され、
前記音声認識調整部は、前記調整用語彙リストを前記外部装置から読み込んで使用する、音声認識装置。
請求項１から請求項２０までのいずれか一項に記載の音声認識装置であって、
前記複数の語彙リストと前記調整用語彙リストとの少なくとも一方を記憶する記憶部を有する、音声認識装置。
画像を表示する画像表示部と、発話者の音声を取得する音声取得部と、を有する音声認識装置の制御方法で、
使用語彙リストを用いて、前記音声取得部が取得した音声が表す語彙を認識する音声認識工程と、
所定の語彙に対して複数の組み合わせパターンに基づいて規定された前記語彙を特定するための語彙識別情報を有する調整用語彙リストのうちの、前記所定の語彙に関する語彙画像を前記画像表示部に表示させ、前記表示した前記語彙画像についての前記発話者の音声と、前記調整用語彙リストの前記語彙識別情報と、を比較して前記組み合わせパターンを特定することで、複数の語彙リストの中から前記使用語彙リストを決定する音声認識調整工程と、を備える、制御方法。
画像を表示する画像表示部と、発話者の音声を取得する音声取得部と、を有する音声認識装置を制御するためのコンピュータープログラムであって、
使用語彙リストを用いて、前記音声取得部が取得した音声が表す語彙を認識する音声認識機能と、
所定の語彙に対して複数の組み合わせパターンに基づいて規定された前記語彙を特定するための語彙識別情報を有する調整用語彙リストのうちの、前記所定の語彙に関する語彙画像を前記画像表示部に表示させ、前記表示した前記語彙画像についての前記発話者の音声と、前記調整用語彙リストの前記語彙識別情報と、を比較して前記組み合わせパターンを特定することで、複数の語彙リストの中から前記使用語彙リストを決定する音声認識調整機能と、をコンピューターに実現させる、コンピュータープログラム。