JP2017037212A - 音声認識装置、制御方法、及び、コンピュータープログラム - Google Patents

音声認識装置、制御方法、及び、コンピュータープログラム Download PDF

Info

Publication number
JP2017037212A
JP2017037212A JP2015158629A JP2015158629A JP2017037212A JP 2017037212 A JP2017037212 A JP 2017037212A JP 2015158629 A JP2015158629 A JP 2015158629A JP 2015158629 A JP2015158629 A JP 2015158629A JP 2017037212 A JP2017037212 A JP 2017037212A
Authority
JP
Japan
Prior art keywords
vocabulary
speech recognition
unit
image
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015158629A
Other languages
English (en)
Inventor
薫 千代
Kaoru Sendai
薫 千代
勇一 毛利
Yuichi Mori
勇一 毛利
和夫 西沢
Kazuo Nishizawa
和夫 西沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2015158629A priority Critical patent/JP2017037212A/ja
Publication of JP2017037212A publication Critical patent/JP2017037212A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声認識の技術について、処理時間が過度にかかるなどの音声認識についての様々な不具合を低減する技術を提供する。
【解決手段】音声認識装置の音声認識調整部は、所定の語彙に対して複数の組み合わせパターンに基づいて規定された前記語彙を特定するための語彙識別情報を有する調整用語彙リストのうちの、前記所定の語彙に関する語彙画像を前記画像表示部に表示させ、前記表示した前記語彙画像についての前記発話者の音声と、前記調整用語彙リストの前記語彙識別情報と、を比較して前記組み合わせパターンを特定することで、複数の語彙リストの中から前記使用語彙リストを決定する。
【選択図】図7

Description

本発明は、発話者の音声を認識するための技術に関する。
発話者の音声を取得し、取得した音声が表す語彙を認識する音声認識技術が知られている(例えば、特許文献1〜3)。
特開2010−230852号公報 特開2009−145755号公報 特表2012−518207号公報
従来の技術では、発話者の音声を取得し、取得した音声が表す語彙(文字列)を構成する音素列(発話音素列)を推定し、推定した音素列と予め登録された音素列(登録音素列)とを比較して、推定した音素列に一致する登録音素列が表す語彙を、発話者が発した語彙であると認識している。また、従来の技術では、音声認識装置が認識した語彙に応じて音声認識装置の動作が制御される。
不特定多数の発話者に対して音声認識の精度を向上させるために、多くの種類の語彙と、語彙ごとに発話者の音声の特徴に対応した多くの音素列とを含むデータ(認識用データ)を予め用意したり、発話者の音声の特徴を音声認識装置に学習させるたりする技術が考えられる。
しかしながら、音声認識の精度を向上させるための上記の技術では、データの容量が過度に大きくなったり、音声認識装置の音声認識のための制御が複雑になったりすることで種々の不具合が生じ得る。例えば、音声認識にかかる処理時間が過度にかかる場合がある。また例えば、音声認識装置のための認識用データを記憶するために大容量の記憶装置が必要となる。また例えば、認識用データを構成する各データが大量であるために、認識用データを作成するための時間が過度にかかる場合がある。
このほか、音声認識装置において、小型化、低コスト化、省電力化、製造の容易化、使い勝手の向上等が望まれている。
本発明は、上述の課題の少なくとも一部を解決するためになされたものであり、以下の形態として実現することが可能である。
(1)本発明の一形態によれば、音声認識装置が提供される。この音声認識装置は、画像を表示する画像表示部と、発話者の音声を取得する音声取得部と、使用語彙リストを用いて、前記音声取得部が取得した音声が表す語彙を認識する音声認識部と、所定の語彙に対して複数の組み合わせパターンに基づいて規定された前記語彙を特定するための語彙識別情報を有する調整用語彙リストのうちの、前記所定の語彙に関する語彙画像を前記画像表示部に表示させ、前記表示した前記語彙画像についての前記発話者の音声と、前記調整用語彙リストの前記語彙識別情報と、を比較して前記組み合わせパターンを特定することで、複数の語彙リストの中から前記使用語彙リストを決定する音声認識調整部と、を備える。この形態によれば、所定の語彙を発話者に発話させることで、複数の語彙リストのうちの1つを使用語彙リストとして容易に決定できる。
(2)上記形態の音声認識装置であって、前記複数の語彙リストは、複数の前記語彙と前記語彙を特定するための前記語彙識別情報とをそれぞれ有し、前記複数の語彙と前記複数の語彙のそれぞれに対応する前記語彙識別情報との前記組み合わせパターンが異なっていても良い。この形態によれば、複数の語彙と語彙識別情報との組み合わせパターンが異なる複数の語彙リストを用いて使用語彙リストを決定できる。
(3)上記形態の音声認識装置であって、さらに、前記発話者の頭部に装着するための保持部を有し、前記画像表示部は、前記発話者に視認させるための虚像を表示可能であっても良い。この形態によれば、画像表示部に虚像を表示できる。
(4)上記形態の音声認識装置であって、前記音声認識調整部は、使用シーンごとに規定された複数の前記調整用語彙リストの中から、前記音声認識装置の使用シーンに応じて1つの前記調整用語彙リストを選択し、前記選択した前記調整用語彙リストを用いて前記使用語彙リストを決定しても良い。この形態によれば、使用シーンに応じた調整用語彙リストを用いて使用語彙リストを決定するため、使用シーンに用いられる語彙の認識を精度良く行うことができる。
(5)上記形態の音声認識装置であって、さらに、外景を撮像する撮像部を有し、前記音声認識調整部は、撮像された画像に基づいて前記使用シーンを推定しても良い。この形態によれば、撮像された画像に基づいて容易に使用シーンを推定できる。
(6)上記形態の音声認識装置であって、さらに、前記音声認識装置の現在位置を検出するための位置特定部を有し、前記音声認識調整部は、前記位置特定部が検出した現在位置に基づいて前記使用シーンを推定しても良い。この形態によれば、位置特定部が検出した現在位置に基づいて容易に使用シーンを推定できる。
(7)上記形態の音声認識装置であって、前記音声認識装置は、前記発話者が行う作業の進捗状況に基づいて前記使用シーンを推定しても良い。この形態によれば、作業の進捗状況に基づいて容易に使用シーンを推定できる。
(8)上記形態の音声認識装置であって、前記音声認識調整部は、前記使用シーンに応じて前記所定の語彙を決定しても良い。この形態によれば、使用シーンに応じて適切な所定の語彙を決定できる。
(9)上記形態の音声認識装置であって、前記画像表示部は、外景を透過可能であり、
前記音声認識調整部は、前記外景に存在する前記所定の語彙が表す対象物を前記発話者に識別させるための識別画像を前記画像表示部に表示しても良い。この形態によれば、対象物を発話者が視認することで所定の語彙をより確実に認識することができるので、音声認識調整部を用いた音声調整の精度を向上できる。
(10)上記形態の音声認識装置であって、前記音声認識部は、前記語彙リストの前記語彙を表す語彙画像と、前記語彙に関連付けられた関連画像であって前記語彙リストの他の前記語彙に基づく関連画像と、を含む組み合わせ画像を前記画像表示部に表示させ、取得された前記音声が前記語彙と前記関連画像に関連する関連語彙のいずれかであると前記音声認識部が認識した場合に、前記語彙と前記関連語彙とに対応付けられた所定の機能を実行する機能実行部と、を有しても良い。この形態によれば、所定の機能に対応付けられた語彙が複数あるため、音声認識によって所定の機能を実行させることがより容易にできる。
(11)上記形態の音声認識装置であって、前記所定の語彙は、前記発話者の発音の特徴を区別できる音素を含んでも良い。この形態によれば、所定の語彙を用いてより精度良く音声認識部で用いる使用語彙リストを決定できる。
(12)上記形態の音声認識装置であって、前記所定の語彙は、前記語彙リストの前記語彙とは異なる語彙であって前記発話者の発音の特徴を区別するための前記音素を含んでも良い。この形態によれば、所定の語彙を用いてより精度良く音声認識部で用いる使用語彙リストを決定できる。
(13)上記形態の音声認識装置であって、前記所定の語彙は、前記語彙リストを構成する前記複数の語彙の少なくとも1つであっても良い。この形態によれば、発話者の音声の特徴により対応する語彙リストを使用語彙リストとして決定できる。
(14)上記形態の音声認識装置であって、前記所定の語彙は、前記語彙リストを構成する前記複数の語彙の全部を含んでも良い。この形態によれば、発話者の音声の特徴に最も対応する語彙リストを使用語彙リストとして決定できる。
(15)上記形態の音声認識装置であって、前記音声認識部は、前記音声が表す語彙を認識できなかった場合に、前記使用語彙リストと前記音声認識装置の使用シーンとの少なくとも一つを用いて前記認識されなかった前記音声が表す語彙を推定し、前記使用語彙リストに含まれる推定した前記語彙に定められた前記語彙識別情報を更新しても良い。この形態によれば、発話者の音声の特徴により対応した使用語彙リストを作成できる。
(16)上記形態の音声認識装置であって、前記語彙識別情報は、前記語彙の発音記号を含んでも良い。この形態によれば、発音記号に基づいて使用語彙リストを決定できる。
(17)上記形態の音声認識装置であって、前記音声認識部は、前記使用語彙リストが有する前記語彙と、前記音声が表す語彙とが一致しないと判定した場合は、前記使用語彙リストが有する前記複数の語彙の中から前記音声が表す語彙を推定し、前記推定した語彙に関する推定語彙画像を前記画像表示部に表示しても良い。この形態によれば、音声認識部は、音声が表す語彙と使用語彙リストの語彙とが一致しなかった場合でも、使用語彙リストの複数の語彙の中から音声が表す語彙を推定して、推定した語彙を発話者に認識させることができる。
(18)上記形態の音声認識装置であって、前記音声認識部は、前記音声が表す語彙と前記使用語彙リストに含まれる前記語彙とが一致した場合は、一致した前記語彙に関連する画像を前記画像表示部に表示させても良い。この形態によれば、発話者に対して音声に基づいて音声認識部が認識した語彙を報知させることができる。
(19)上記形態の音声認識装置であって、前記音声認識部は、前記音声が表す語彙と前記使用語彙リストに含まれる前記語彙とが一致したか否かを前記発話者に報知させても良い。この形態によれば、音声が表す語彙と使用語彙リストに含まれる語彙とが一致したか否かを発話者に報知させることができる。
(20)上記形態の音声認識装置であって、前記音声認識調整部は、前記発話者ごとに、前記発話者を識別するための発話者識別情報と、決定した前記使用語彙リストとを対応付けた発話者パターン情報を生成し、特定の前記発話者が前記音声認識装置を用いる場合に、生成した前記発話者パターン情報の中から前記特定の発話者の前記使用語彙リストを表す情報を前記画像表示部に表示させても良い。この形態によれば、以前に決定された使用語彙リストを利用して音声認識部による音声認識を実行できる。
(21)上記形態の音声認識装置であって、記複数の語彙リストは、前記音声認識装置とは異なる外部装置に記憶され、前記音声認識部は、前記使用語彙リストを前記外部装置から読み込んで使用しても良い。この形態によれば、音声認識装置が複数の語彙リストを記憶している必要がない。
(22)上記形態の音声認識装置であって、前記調整用語彙リストは、前記音声認識装置とは異なる外部装置に記憶され、前記音声認識調整部は、前記調整用語彙リストを前記外部装置から読み込んで使用しても良い。この形態によれば、音声認識装置が調整用語彙リストを記憶している必要がない。
(23)上記形態の音声認識装置であって、前記複数の語彙リストと前記調整用語彙リストとの少なくとも一方を記憶する記憶部を有しても良い。この形態によれば、記憶部に記憶されている語彙リスト又は調整用語彙リストを音声認識のために利用できる。
上述した本発明の各形態の有する複数の構成要素は全てが必須のものではなく、上述の課題の一部または全部を解決するため、あるいは、本明細書に記載された効果の一部または全部を達成するために、適宜、前記複数の構成要素の一部の構成要素について、その変更、削除、新たな構成要素との差し替え、限定内容の一部削除を行うことが可能である。また、上述の課題の一部または全部を解決するため、あるいは、本明細書に記載された効果の一部または全部を達成するために、上述した本発明の一形態に含まれる技術的特徴の一部または全部を上述した本発明の他の形態に含まれる技術的特徴の一部または全部と組み合わせて、本発明の独立した一形態とすることも可能である。
例えば、本発明の一形態は、画像表示部と、音声取得部と、音声認識調整部と、音声認識部との4つの要素のうちの一部または全部の要素を備えた装置として実現可能である。すなわち、この装置は、画像表示部を有していてもよく、有していなくてもよい。また、この装置は、音声取得部を有していてもよく、有していなくてもよい。また、この装置は、音声認識調整部を有していてもよく、有していなくてもよい。また、この装置は、音声認識部を有していてもよく、有していなくてもよい。こうした装置は、例えば音声認識装置として実現できるが、音声認識装置以外の他の装置としても実現可能である。前述した表示システムの各形態の技術的特徴の一部または全部は、いずれもこの装置に適用することが可能である。
なお、本発明は、種々の態様で実現することが可能であり、例えば、音声認識装置の制御方法、音声認識装置の機能を実現するためのコンピュータープログラム、そのコンピュータープログラムを記憶した記憶媒体等の形態で実現することができる。
実施形態における頭部装着型表示装置の概略構成を示す説明図である。 HMDの構成を機能的に示すブロック図である。 HMDによる拡張現実表示の一例を示す説明図である。 記憶部が記憶する調整用語彙リストを説明するための図である。 記憶部が記憶する操作シーンの語彙リストを説明するための図である。 記憶部が記憶する録音シーンの語彙リストを説明するための図である。 記憶部が記憶する一般用シーンの語彙リストを説明するための図である。 実行可能情報の一例を説明するための図である。 音声認識調整部が実行する音声認識調整工程のフロー図である。 使用シーンの推定について説明するための図である。 ステップS40を説明するための図である。 音声認識部が実行する音声認識工程を説明するためのフロー図である。 ステップS100を説明するための図である。 ステップS150を説明するための図である。 ステップS170,S180の処理を説明するための図である。 変形例におけるHMDの外観の構成を示す説明図である。
A.実施形態:
A−1.頭部装着型表示装置の基本構成:
図1は、本発明の実施形態における頭部装着型表示装置の概略構成を示す説明図である。頭部装着型表示装置100は、頭部に装着する表示装置であり、ヘッドマウントディスプレイ(Head Mounted Display、HMD)とも呼ばれる。HMD100は、グラスを通過して視認される外景の中に画像が浮かび上がる透過型の頭部装着型表示装置である。HMD100が課題を解決するための手段に記載の「音声認識装置」に相当する。
HMD100は、使用者(発話者)の頭部に装着可能はヘッドフォン部90と、使用者の頭部に装着された状態において使用者に虚像を視認させる画像表示部20と、使用者の頭部に装着された状態において使用者の音声を取得する音声取得部を有するマイク部30と、ヘッドフォン部90を制御する制御部(コントローラー)10と、を備えている。
ヘッドフォン部90は、頭部に沿って装着可能なように湾曲したヘッドバンド91と、ヘッドバンド91の両端に設けられた右左のイヤーカップ92,93とを備える。右側のイヤーカップ92の内部には音響の右チャンネル用のスピーカー94(図2)が設けられており、左側のイヤーカップ93の内部には音響の左チャンネル用のスピーカー95が設けられている。ヘッドバンド91には、画像表示部20が固定した形で取り付けられている。
画像表示部20は、使用者の頭部に装着される装着体であり、本実施形態では眼鏡形状を有している。画像表示部20は、右保持部21と、右表示駆動部22と、左保持部23と、左表示駆動部24と、右光学像表示部26と、左光学像表示部28と、を含んでいる。右光学像表示部26および左光学像表示部28は、それぞれ、使用者がヘッドバンド91を装着した際に使用者の右および左の眼前に位置する。右光学像表示部26の一端と左光学像表示部28の一端とは、使用者が画像表示部20を装着した際の使用者の眉間に対応する位置で、互いに接続されている。また、画像表示部20は、外景を透過可能である。
右保持部21は、右光学像表示部26の他端である端部ERから略水平方向に延び、ヘッドバンド91の右側の端部付近に固定されている。同様に、左保持部23は、左光学像表示部28の他端である端部ELから略水平方向に延び、ヘッドバンド91の左側の端部付近に固定されている。右保持部21および左保持部23は、ヘッドバンド91を頭部に装着した使用者の眼前に光学像表示部26,28が位置するよう、光学像表示部26,28を保持する。また、右保持部21および左保持部23は、使用者の頭部に装着するための保持部としても機能する。
右表示駆動部22は、右保持部21の内側、換言すれば、使用者が画像表示部20を装着した際の使用者の頭部に対向する側に配置されている。また、左表示駆動部24は、左保持部23の内側に配置されている。なお、以降では、右保持部21および左保持部23を区別せず「保持部」として説明する。同様に、右表示駆動部22および左表示駆動部24を区別せず「表示駆動部」として説明し、右光学像表示部26および左光学像表示部28を区別せず「光学像表示部」として説明する。
表示駆動部は、液晶ディスプレイ(Liquid Crystal Display、以下「LCD」と呼ぶ)241、242や投写光学系251、252等を含む(図2参照)。表示駆動部の構成の詳細は後述する。光学部材としての光学像表示部は、導光板261、262(図2参照)と調光板とを含んでいる。導光板261、262は、光透過性の樹脂材料等によって形成され、表示駆動部から出力された画像光を使用者の眼に導く。調光板は、薄板状の光学素子であり、画像表示部20の表側(使用者の眼の側とは反対の側)を覆うように配置されている。調光板は、導光板261、262を保護し、導光板261、262の損傷や汚れの付着等を抑制する。また、調光板の光透過率を調整することによって、使用者の眼に入る外光量を調整して虚像の視認のしやすさを調整することができる。なお、調光板は省略可能である。
マイク部30は、音声取得部としてのマイクロフォン31と、アーム32と、連結部33と、を有する。マイクロフォン3は、使用者(発話者)の音声を取得する機能を有する。すなわち、マイクロフォン31は、発話者の音声を電気信号に変換する。変換した電気信号は図示しないA/D変換器でデジタル信号に変換され、これを音声データとしてCPU140に出力される。また、マイクロフォン31は、アーム32の先端に接続されている。アーム32のうちマイクロフォン31とは反対側の端部は、連結部33によって、画像表示部20の右イヤーカップ92の上面92aに連結されている。連結されることで、マイクロフォン31は、使用者の口の前に位置する。なお、連結部33は、アーム32を回動可能に、かつ任意のポジションに固定可能に連結する。
画像表示部20、マイク部30、およびヘッドフォン部90の一体物と、制御部10との間は、接続コード40によって接続される。接続コード40の一端は、ヘッドフォン部90の右イヤーカップ92内に挿入され、必要に応じて分岐され、画像表示部20の左右の表示駆動部22,24、左右のスピーカー94,95や、マイク部30のマイクロフォン31に接続されている。接続コード40の他端は、制御部10に接続されている。接続コード40における右イヤーカップ92と反対側の端部と、制御部10とのそれぞれには、互いに嵌合するコネクター(図示省略)が設けられており、接続コード40のコネクターと制御部10のコネクターとの嵌合/嵌合解除により、上記の一体物と制御部10との間が接続されたり切り離されたりする。接続コード40には、例えば、金属ケーブルや光ファイバーを採用することができる。
制御部10は、HMD100を制御するための装置である。制御部10は、点灯部12と、タッチパッド14と、方向キー16と、決定キー11と、電源スイッチ18とを含んでいる。点灯部12は、HMD100の動作状態(例えば、電源のON/OFF等)を、その発光態様によって通知する。点灯部12としては、例えば、LED(Light Emitting Diode)を用いることができる。タッチパッド14は、タッチパッド14の操作面上での接触操作を検出して、検出内容に応じた信号を出力する。タッチパッド14としては、静電式や圧力検出式、光学式といった種々のタッチパッドを採用することができる。方向キー16は、上下左右方向に対応するキーへの押下操作を検出して、検出内容に応じた信号を出力する。決定キー11は、押下操作を検出して、制御部10で操作された内容を決定する信号を出力する。電源スイッチ18は、スイッチのスライド操作を検出することで、HMD100の電源の状態を切り替える。
図2は、HMD100の構成を機能的に示すブロック図である。制御部10は、入力情報取得部110と、記憶部120と、電源130と、無線通信部132と、GPSモジュール134と、CPU140と、インターフェイス180と、送信部(Tx)51および52とを備え、各部は図示しないバスにより相互に接続されている。
入力情報取得部110は、例えば、タッチパッド14や方向キー16、電源スイッチ18などに対する操作入力に応じた信号を取得する。
電源130は、HMD100の各部に電力を供給する。電源130としては、例えば、リチウムポリマーバッテリー、リチウムイオンバッテリーなどの二次電池を用いることができる。さらに、二次電池に替えて、一次電池や燃料電池でもよいし、無線給電を受けて動作するようにしてもよい。さらには、太陽電池とキャパシターから給電を受けるようにしてもよい。無線通信部132は、無線LANやBluetooth(登録商標)、iBeacon(登録商標)といった所定の無線通信規格に則って、他の機器との間で無線通信を行う。位置特定部としてのGPSモジュール134は、GPS衛星からの信号を受信することにより、自身(HMD100)の現在位置を検出する。なお、位置特定部は、GPSモジュール134に限定されるものではなく、現在位置を検出できる構成であれば他の構成であっても良い。例えば、位置特定部は、iBeacon等の無線装置から位置情報(座標や位置を特定するための名称)を受信する構成であったり、GPS衛星からの信号値を基準として、より詳細な屋内における使用者の位置を検出できる構成であったり、無線LAN等のネットワークと接続された場合における、IPアドレスから大体の現在位置を推定できる構成であっても良い。
記憶部120は、ROM、RAM、DRAM、ハードディスク等によって構成されている。記憶部120には、オペレーティングシステム(ОS)をはじめとする種々のコンピュータープログラムが格納されている。また、記憶部120は、語彙リスト121と、調整用語彙リスト122と、実行可能情報124と、音響モデル125とを記憶する。
音響モデル125は、音素(母音や子音)がそれぞれどのような周波数特性を持っているかを表したものである。音響モデルとしては、例えば隠れマルコフモデル(HMM:Hidden Markov Model)が用いられている。語彙リスト121は、複数の語彙(文字列)と複数の語彙ごとに定められた語彙を特定するための語彙識別情報とを規定したデータである。本実施形態において、語彙識別情報は、語彙を構成する音素を発音記号で表した情報である。複数の語彙リスト121が記憶部120に記憶され、そのうちの1つが音声認識のために用いられる。調整用語彙リスト122は、発話者の音声の特徴のパターンが、予め定めた複数のパターンのうちのいずれに該当するかを判定するために用いられる。実行可能情報124は、HMD100が実行可能な機能を階層に区別して記憶すると共に機能のそれぞれに対応付けた画像も記憶している。語彙リスト121、調整用語彙リスト122、実行可能情報124の詳細は後述する。
CPU140は、記憶部120に格納されているコンピュータープログラムを読み出して実行することにより、オペレーティングシステム(ОS)150、画像処理部160、表示制御部162、音声認識部164、音声認識調整部166、および音声処理部170として機能する。
画像処理部160は、インターフェイス180や無線通信部132を介して入力されるコンテンツ(映像)に基づいて信号を生成する。そして、画像処理部160は、生成した信号を、接続コード40を介して画像表示部20に供給することで、画像表示部20を制御する。画像表示部20に供給するための信号は、アナログ形式とディジタル形式の場合で異なる。アナログ形式の場合、画像処理部160は、クロック信号PCLKと、垂直同期信号VSyncと、水平同期信号HSyncと、画像データDataとを生成し、送信する。具体的には、画像処理部160は、コンテンツに含まれる画像信号を取得する。取得した画像信号は、例えば動画像の場合、一般的に1秒あたり30枚のフレーム画像から構成されているアナログ信号である。画像処理部160は、取得した画像信号から垂直同期信号VSyncや水平同期信号HSync等の同期信号を分離し、それらの周期に応じて、PLL回路等によりクロック信号PCLKを生成する。画像処理部160は、同期信号が分離されたアナログ画像信号を、A/D変換回路等を用いてディジタル画像信号に変換する。画像処理部160は、変換後のディジタル画像信号を、RGBデータの画像データDataとして、1フレームごとに記憶部120内のDRAMに格納する。
一方、ディジタル形式の場合、画像処理部160は、クロック信号PCLKと、画像データDataとを生成し、送信する。具体的には、コンテンツがディジタル形式の場合、クロック信号PCLKが画像信号に同期して出力されるため、垂直同期信号VSyncおよび水平同期信号HSyncの生成と、アナログ画像信号のA/D変換とが不要となる。なお、画像処理部160は、記憶部120に格納された画像データDataに対して、解像度変換処理や、輝度、彩度の調整といった種々の色調補正処理や、キーストーン補正処理等の画像処理を実行してもよい。
画像処理部160は、生成されたクロック信号PCLK、垂直同期信号VSync、水平同期信号HSyncと、記憶部120内のDRAMに格納された画像データDataとを、送信部51,52を介してそれぞれ送信する。なお、送信部51を介して送信される画像データDataを「右眼用画像データData1」とも呼び、送信部52を介して送信される画像データDataを「左眼用画像データData2」とも呼ぶ。送信部51、52は、制御部10と画像表示部20との間におけるシリアル伝送のためのトランシーバーとして機能する。
表示制御部162は、右表示駆動部22および左表示駆動部24を制御する制御信号を生成する。具体的には、表示制御部162は、制御信号により、右LCD制御部211による右LCD241の駆動ON/OFFや、右バックライト制御部201による右バックライト221の駆動ON/OFF、左LCD制御部212による左LCD242の駆動ON/OFFや、左バックライト制御部202による左バックライト222の駆動ON/OFFなどを個別に制御することにより、右表示駆動部22および左表示駆動部24のそれぞれによる画像光の生成および射出を制御する。表示制御部162は、右LCD制御部211と左LCD制御部212とに対する制御信号を、送信部51および52を介してそれぞれ送信する。同様に、表示制御部162は、右バックライト制御部201と左バックライト制御部202とに対する制御信号を、それぞれ送信する。
音声認識部164は、マイクロフォン31から送信された音声データと、記憶部120に記憶された音響モデル125と語彙リスト121を用いて音声データが表す語彙(文字列)を認識する。
音声認識調整部166は、マイクロフォン31から送信された音声データと記憶部120に記憶された音響モデル125及び調整用語彙リスト122とを用いて、複数の語彙リスト121の中から音声認識部164が音声認識処理の際に用いる語彙リスト(使用語彙リスト)121を決定する。
音声処理部170は、コンテンツに含まれる音声信号を取得し、取得した音声信号を増幅して、連結部材46に接続された右イヤーカップ92内のスピーカー94および左イヤーカップ93内のスピーカー95に対して供給する。なお、例えば、Dolby(登録商標)システムを採用した場合、音声信号に対する処理がなされ、右左のスピーカー94,95からは、それぞれ、例えば周波数等が変えられた異なる音が出力される。
機能実行部171は、音声認識部164の機能の一部である。機能実行部171は、画像表示部20によって画像が表示された後に、表示された画像に対応付けられた操作(音声認識等も含む)を受け付けると、受け付けた操作に対応するHMD100が実行可能な機能を、HMD100に実行させる。
インターフェイス180は、制御部10に対して、コンテンツの供給元となる種々の外部機器OAを接続するためのインターフェイスである。外部機器ОAとしては、例えば、パーソナルコンピューターPCや携帯電話端末PH、ゲーム端末GM等がある。インターフェイス180としては、例えば、USBインターフェイスや、マイクロUSBインターフェイス、メモリーカード用インターフェイス等を用いることができる。
画像表示部20は、右表示駆動部22と、左表示駆動部24と、右光学像表示部26としての右導光板261と、左光学像表示部28としての左導光板262と、撮像部としてのカメラ61(図1も参照)と、9軸センサー66と、を備えている。
カメラ61は、RGBカメラであり、使用者が画像表示部20を装着した際の使用者の鼻根部に対応する位置に配置されている。そのため、カメラ61は、HMD100の所定の向き、すなわち、使用者が画像表示部20を頭部に装着した状態において使用者が向いている方向の外景をカラー撮像する。なお、カメラ61は、RGBカメラに換えて、白黒カメラとすることができる。
9軸センサー66は、加速度(3軸)、角速度(3軸)、地磁気(3軸)を検出するモーションセンサーであり、本実施形態では使用者の眉間に対応する位置に配置されている。9軸センサー66は、画像表示部20に設けられているため、画像表示部20が使用者の頭部に装着されているときには、使用者の頭部の動きを検出する。検出された頭部の動きから画像表示部20の向き、すなわち、使用者の視界が特定される。
右表示駆動部22は、受信部(Rx)53と、光源として機能する右バックライト(BL)制御部201および右バックライト(BL)221と、表示素子として機能する右LCD制御部211および右LCD241と、右投写光学系251とを含んでいる。なお、右バックライト制御部201と、右LCD制御部211と、右バックライト221と、右LCD241とを総称して「画像光生成部」とも呼ぶ。
受信部53は、制御部10と画像表示部20との間におけるシリアル伝送のためのレシーバーとして機能する。右バックライト制御部201は、入力された制御信号に基づいて、右バックライト221を駆動する。右バックライト221は、例えば、LEDやエレクトロルミネセンス(EL)等の発光体である。右LCD制御部211は、受信部53を介して入力されたクロック信号PCLKと、垂直同期信号VSyncと、水平同期信号HSyncと、右眼用画像データData1とに基づいて、右LCD241を駆動する。右LCD241は、複数の画素をマトリクス状に配置した透過型液晶パネルである。右LCD241は、マトリクス状に配置された各画素位置の液晶を駆動することによって、右LCD241を透過する光の透過率を変化させることにより、右バックライト221から照射される照明光を、画像を表す有効な画像光へと変調する。
右投写光学系251は、右LCD241から射出された画像光を並行状態の光束にするコリメートレンズによって構成される。右光学像表示部26としての右導光板261は、右投写光学系251から出力された画像光を、所定の光路に沿って反射させつつ使用者の右眼REに導く。光学像表示部は、画像光を用いて使用者の眼前に虚像を形成する限りにおいて任意の方式を用いることができ、例えば、回折格子を用いてもよいし、半透過反射膜を用いてもよい。なお、HMD100が画像光を出射することを、本明細書では「画像を表示する」とも呼ぶ。
左表示駆動部24は、右表示駆動部22と同様の構成を有している。すなわち、左表示駆動部24は、受信部(Rx)54と、光源として機能する左バックライト(BL)制御部202および左バックライト(BL)222と、表示素子として機能する左LCD制御部212および左LCD242と、左投写光学系252とを含んでいる。右LCD241と同様に、左LCD242は、マトリクス状に配置された各画素位置の液晶を駆動することによって、左LCD242を透過する光の透過率を変化させることにより、左バックライト222から照射される照明光を、画像を表す有効な画像光へと変調する。なお、本実施形態ではバックライト方式を採用することとしたが、フロントライト方式や、反射方式を用いて画像光を射出してもよい。
図3は、HMD100による拡張現実表示の一例を示す説明図である。図3では、使用者の視界VRを例示している。上述のようにして、HMD100の使用者の両眼に導かれた画像光が使用者の網膜に結像することにより、使用者は拡張現実(AR)としての画像VIを視認する。図3の例では、画像VIは、HMD100のOSの待ち受け画面である。また、光学像表示部26,28が外景SCからの光を透過することで、使用者は外景SCを視認する。このように、本実施形態のHMDの使用者は、視界VRのうち画像VIが表示された部分については、画像VIと、画像VIの背後に外景SCとを見ることができる。また、使用者は、視界VRのうち画像VIが表示されていない部分については、外景SCだけを見ることができる。
図4は、記憶部120(図2)が記憶する調整用語彙リスト122を説明するための図である。調整用語彙リスト122は、発話者の使用シーンに応じた複数の調製用語彙リスト122A,122B,122Cを含む。本実施形態では、使用シーンが操作シーンと録音シーンと一般用シーンとの3つ分類されている。調整用語彙リスト122A〜122Cのそれぞれは、所定の語彙と、所定の語彙を特定するための語彙識別情報(本実施形態では発音記号)であって所定の語彙に対して後述する複数の組み合わせパターンに基づいて規定された語彙識別情報とを有する。すなわち、調整用語彙リスト122A〜122Cは、異なる発音記号を用いて作成された所定の語彙(例えば、母音「あ」を含む語彙)を含む。言い換えれば、調整用語彙リスト122A〜122Cは、発話者の発音の特徴を区別するための一定の規則(例えば、母音の「あ」は3種類の発音記号で規定するという規則)を有する複数の異なるパターンに基づいて作成されている。所定の語彙は、発話者の発音の特徴を区別できる音素を含むことが好ましい。発話者の発音の特徴を区別できる音素としては、例えば、母音又は子音が挙げられる。こうすることで、所定の語彙を用いてより精度良く、音声認識部164で用いる使用語彙リストを決定できる。本実施形態において、「組み合わせパターン」を単に「パターン」とも呼ぶ。
複数のパターンは、複数の発話者の音声(発声方式)を分析することで分類された音声の特徴パターン(所定のパターン)である。本実施形態では、複数のパターンは、母音の発音によって分類されている。なお、複数のパターンはこれに限定されるものではなく、音声の特徴を分類できる特徴であれば良く、例えば、性別ごとに分類しても良いし、出身地域(例えば、東北地方、東海地方など)ごとに分類しても良いし、年齢(例えば、10代、20代、30代など)ごとに分類しても良いし、HMD100の習熟度の程度を表す使用時間や使用年数(例えば、1年未満、1年以上)ごとに分類しても良い。
操作シーンの調整用語彙リスト122Aは、制御部10(図1)の一般的な操作を音声認識によって行うために用いられるリストである。録音シーンの調整用語彙リスト122Bは、マイク部30(図1)を用いた録音操作を音声認識によって行うために用いられるリストである。一般用シーンの調整用語彙リスト122Cは、その他の一般的な音声認識操作(例えば、音声認識によって認識された語彙をタッチパッド14に表示させる操作や、メール作成操作)を音声認識によって行うために用いられるリストである。
調整用語彙リスト122Aは、所定の語彙が、パターン1A,パターン2A,パターン3Aの規則に従った発音記号で表されている。調整用語彙リスト122Aで用いられる所定の語彙は、後述する操作シーンの音声認識に用いられる語彙リスト121Aa〜121Acを構成する複数の語彙の全部である。これにより、発話者の音声の特徴に最も対応する語彙リストを使用語彙リストとして決定できる。本実施形態では、調整用語彙リスト122Aの語彙は「アップ」、「ダウン」、「メニュー」、「バック」、「ホーム」の5つである。パターン1A〜3Aは、複数の母音(例えば、「ア」と「オ」)の発音記号の組み合わせが異なる。例えば、パターン1A〜パターン3Aにおいて、語彙である「ア」や「オ」の発音記号はそれぞれ異なり、「ウ」の発音記号は同じである。調整用語彙リスト122Aの所定の語彙には、制御部10(図1)の一般的な操作を行うための語彙が用いられる。例えば、CPU140は、「ホーム」の音声を認識した場合は、図3に示す待ち受け画面を画像VIとして画像表示部20に表示する。また例えば、CPU140は、「メニュー」の音声を認識した場合は、OSが実行可能な様々な機能を文字として表した画面を画像VIとして画像表示部20に表示する。また例えば、CPU140は、「バック」の音声を認識した場合は、1つ前に表示されていた画面を画像VIとして画像表示部20に表示する。また例えば、CPU140は、「アップ」や「ダウン」の音声を認識した場合は、画像VIの位置を上下に移動させる。
調整用語彙リスト122Bは、所定の語彙が、パターン1B,パターン2B,パターン3Bの発音記号で表されている。調整用語彙リスト122Bで用いられる所定の語彙は、後述する録音シーンの音声認識に用いられる語彙リストを構成する複数の語彙の一部である。本実施形態では、調整用語彙リスト122Bの語彙は「あお」、「あか」、「みどり」、「くろ」の4つである。パターン1B〜3Bは、複数の母音(例えば、「ア」や「オ」)の組み合わせが異なる。例えば、パターン1B〜パターン3Bにおいて、語彙である「ア」の発音記号はそれぞれ異なり、「ウ」の発音記号は同じである。調整用語彙リスト122Bの所定の語彙には、録音シーンの操作を行うための語彙の一部が用いられることが好ましい。「あか」、「あお」、「みどり」、「くろ」などの語彙をCPU140が認識することによって、録音の開始や停止などの録音の操作が実行される。なお、この詳細は後述する。
調整用語彙リスト122Cは、所定の語彙が、パターン1C,パターン2C,パターン3Cの発音記号で表されている。調整用語彙リスト122Cで用いられる所定の語彙は、日本語の母音である。本実施形態では、調整用語彙リスト122Cの語彙は「あ」、「い」、「う」、「え」、「お」の5つである。パターン1C〜3Cは、複数の母音(例えば、「あ」〜「お」)の組み合わせが異なる。例えば、パターン1C〜パターン3Cにおいて、語彙である「あ」の発音記号はそれぞれ異なり、「う」の発音記号は同じである。また、「い」、「え」、「お」のそれぞれは、パターン1C〜パターン3Cの一部において発音記号が異なる。
図5Aは、記憶部120(図2)が記憶する語彙リスト121のうちの操作シーンに用いられる語彙リスト121Aa〜121Acを説明するための図である。図5Bは、記憶部120(図2)が記憶する語彙リスト121のうちの録音シーンに用いられる語彙リスト121Ba〜121Bcを説明するための図である。図5Cは、記憶部120(図2)が記憶する語彙リスト121のうちの一般用シーンに用いられる語彙リスト121Ca〜121Ccを説明するための図である。語彙リスト121は、発話者の使用シーンに応じた複数の語彙リスト121Aa〜121Ccを含む。複数の語彙リスト121Aa〜121Ccの使用シーンと、複数の調整用リスト122A〜122Cの使用シーンとは対応関係にある。つまり、語彙リスト121は、使用シーンが操作シーンと録音シーンと一般用シーンとの3つに分類されている。語彙リスト121Aa〜121Ccのそれぞれは、使用シーンの際に用いられると予想される複数の語彙と、複数の語彙ごとの発音記号とが規定されている。語彙リスト121Aa〜121Ccに規定された複数の語彙のそれぞれには、調整用語彙リスト122で用いられる複数のパターンと同じ発音のパターン(音素に対する発音記号の付け方の規則)を用いて発音記号が対応付けられている。
図5Aに示す操作シーンの語彙リスト121Aa〜121Acの語彙は、操作シーンの調整用語彙リスト122A(図4)に規定された所定の語彙と同じである。また、語彙リスト12Aaで用いる発音記号のパターンは、調整用語彙リスト122Aのパターン1Aをであり、語彙リスト122Abの発音記号のパターンは、調整用語彙リスト122Aのパターン2Aであり、調整用語彙リスト122Acの発音記号のパターン、調整用語彙リスト122Aのパターン3Aである。
図5Bに示す録音シーンの語彙リスト121Ba〜121Bcの語彙は、録音シーンの調整用語彙リスト122Bに規定された所定の語彙に加え、さらに録音シーンで用いられる複数の語彙(例えば、メニューやフォルダー)を含む。また、語彙リスト121Ba〜121Bcにおいて、複数の語彙ごとに調整用語彙リスト122Bで用いた発音記号のパターン(パターン1B〜パターン3B)を用いて発音記号が対応付けられている。
図5Bに示す一般用シーンの語彙リスト121Ca〜121Ccの語彙は、一般用シーンの調整用語彙リスト122Cに規定された所定の語彙に加え、さらに一般用シーンで用いられると予想される複数の語彙(例えば、「あつい」や「さむい」)を含む。また、語彙リスト121Ca〜121Ccにおいて、複数の語彙ごとに調整用語彙リスト122Cで用いた発音記号のパターン(パターン1C〜パターン3C)を発音記号が対応付けられている。なお、本実施形態では、3つの使用シーンにおける、パターン1A,1B,1Cは同じ発音パターン(発音規則)であり、パターン1B,2B,3Bは同じ発音パターン(発音規則)であり、パターン1C,2C,3Cは同じ発音パターン(発音規則)である。なお、使用シーンが異なる2つのシーンにおいて、同じ語彙を異なる発音記号で規定しても良い。
複数の語彙リスト121Aa〜121Ac,121Ba〜121Bc,121Ca〜1121Ccのパターンと、複数の調整用リスト122A〜122Cのパターンとの対応関係は、音素に対する発音記号のつけ方の規則によって行っていたが、これに限定されるものではない。例えば、パターンの対応関係は、性別ごとや、出身地ごとや、人種ごとや、年齢ごとに音声の特徴を分類できる発音記号(分類ごとに、同じ音素に対して異なる発音記号)によって対応関係をつけても良い。
図6は、実行可能情報の一例を説明するための図である。図6を用いて外部の音声を記録する録音シーンの実行可能情報を説明する。図6では、階層構造における記憶された機能の対応関係が示されている。実行可能情報は、実行可能な機能を表現する語彙(語彙画像)と、語彙に関連付けられた関連画像とを含む。実行可能な機能を表現する語彙とは、「メニュー」や「フォルダー」などであり、関連画像とは色画像(例えば、赤を表す画像や青を表す画像)である。語彙画像と関連画像とは組み合わせ画像を構成する。
機能実行部171(図2)が音声認識によって所定の操作を受け付けると、音声認識部164は、実行可能情報124の階層の内の最も上の階層である第1階層FR1に記憶された「メニュー」の機能に対応付けられた画像を画像表示部20に表示させる。この場合に、音声認識部164は、語彙である「メニュー」を表す語彙画像に、「あか」に対応付けられた色の赤によって作成した関連画像を組み合わせる。関連画像は、語彙である「メニュー」に関連付けられている。「メニュー」の画像と赤で作成された画像とを組み合わせた画像を組み合わせ画像とも呼ぶ。また、関連画像は、語彙リスト121の複数の語彙のうち、語彙画像の語彙(例えば、メニュー)とは異なる他の語彙である関連語彙(例えば、あか)を表す画像である。語彙画像に基づく語彙(例えば、メニュー)と関連画像に基づく関連語彙(例えば、あか)とは、HMD100に対して同じ機能を実行させるための指示内容である。すなわち、語彙画像(語彙)と関連画像(関連語彙)とはHMD100に実行させる機能によって関連付けられている。この組み合わせ画像の詳細については後述する。
所定の操作が受け付けられることにより、第1階層FR1の「メニュー」が選択されると、音声認識部164は、「メニュー」に対応付けられて第2階層FR2に記憶された機能を表す画像を画像表示部20に表示させる。この場合に、音声認識部164は、選択された下の階層に記憶されたフォルダー一覧を表示する「フォルダー」を、赤で作成された画像に組み合わせて、選択されるとマイク63が取得した外部の音声を記録する「レコード」を青で作成された画像に組み合わせて、選択されると1つ上の階層に戻る「バック」を黄色で作成されたに組み合わせて、画像表示部20に表示させる。すなわち、機能実行部171は、「メニュー」が選択されると、「メニュー」に対応付けられた機能である1つ下の階層の第2階層FR2に記憶された機能を組み合わせ画像として画像表示部20に表示させる。
第2階層FR2において、「レコード」が選択されると、音声認識部164は、「レコード」の機能である第2階層FR2の下の階層の第3階層FR3に記憶された機能を組み合わせ画像として画像表示部20に表示させる。この場合に、音声認識部164は、選択されると新規ファイルを作成する「サクセイ」の画像を赤で作成された画像に組み合わせて、選択されると以前に作成したファイルを選択する「セレクト」の画像を青で作成された画像に組み合わせて、「バック」の画像を黄色で作成された画像に組み合わせて、選択されると1番上の階層である第1階層FR1に戻る「ホーム」を緑で作成された画像に組み合わせて画像表示部20に表示させる。図6では、第3階層FR3において、「サクセイ」が選択された場合について示されている。
第3階層FR3において、「サクセイ」が選択されると、音声認識部164は、「サクセイ」の機能として、第3階層FR3の下の階層の第4階層FR4に記憶された機能を組み合わせ画像として画像表示部20に表示させる。この場合に、音声認識部164は、選択されると録音を開始する「スタート」の画像を赤で作成された画像に組み合わせて、選択されると録音していた場合に録音を終了する「エンド」の画像を青で作成された画像に組み合わせて、「バック」の画像を黄で作成された画像に組み合わせて、「ホーム」の画像を緑で作成された画像に組み合わせて画像表示部20に表示させる。以上説明したとおり、実行可能情報124に記憶された画像は、音声として短い語彙である色に対応付けられているため、音声の誤認識に起因する選択の間違いが低減される。
図7は、音声認識調整部166(図2)が実行する音声認識調整工程のフロー図である。この音声認識調整工程は、HMD100のOSの待ち受け画面VI(図3)に表示された音声認識調整マークを使用者(発話者)が選択したことをトリガーとして開始される。なお、トリガーはこれに限定されるものではなく、例えば、HMDの電源がON状態になったことをトリガーとしても良い。また、例えば、発話者(発話者識別情報)ごとにHMD100を起動したことや、発話者(発話者識別情報)ごとに作業用のアプリケーション(例えば、録音用のアプリケーション)が起動したことをトリガーとしても良い。
音声認識調整部166は、発話者を識別するための発話者識別情報の入力を受け付ける(ステップS10)。本実施形態では、発話者識別情報は発話者の氏名である。具体的には、タッチパッド14上に氏名を入力するための氏名入力画面を表示し、氏名の入力を受け付ける。受け付けられた氏名を表す氏名データは、記憶部120に記憶される。なお、ステップS10は、後述するステップS60以前に実行される限りにおいて実行される順番は問わない。なお、発話者識別情報は、発話者を識別できる情報であれば上記に限定されるものではなく、例えば、発話者に予め割り当てられた識別番号であっても良い。
音声認識調整部166は、ステップS10の次に、HMD100が使用される使用シーンを推定する(ステップS20)。図8は、使用シーンの推定について説明するための図である。図8は、ステップS20において、画像表示部20に表示される画像VIaを示している。画像VIaは、発話者に使用シーンを選択させるための画像である。画像VIaは、「使用シーンを選択ください」という画像と、複数の使用シーンを表す画像と、三角形のカーソルと、を含む。発話者は、複数の使用シーンのうちで実際に使用する使用シーンの左にカーソルを移動させて決定キー11を押すことで、実際に使用する使用シーンが選択される。音声認識調整部166は、発話者によって選択された使用シーンをHMD100が使用される使用シーンとして推定する。
なお、使用シーンの推定は上記に限定されるものではなく、他の種々の方法を用いて推定しても良い。使用シーンの他の推定方法としては例えば以下が挙げられる。
・撮像画像に基づく使用シーンの推定
・HMD100の現在位置に基づく使用シーンの推定
・発話者が行う作業の進捗状況に基づく使用シーンの推定
以下に上記に例示した具体的内容を説明する。
・撮像画像に基づく使用シーンの推定:
この推定方法は、画像表示部20に外景SCの撮影を発話者に指示する画像を表示させ、カメラ61によって撮像された画像(撮像画像)に基づいて使用シーンを推定する方法である。この方法では、記憶部120に、種々の画像と画像ごとに対応付けられた使用シーンとを有する第1の使用シーン推定テーブルを予め記憶させておく。そして、第1の使用シーン推定テーブルの複数の画像の中から撮像画像と一致する画像をパターンマッチングや統計的手法によって決定する。決定した画像に対応付けられた使用シーンをHMD100が使用される使用シーンとして推定する。例えば、撮像画像がタッチパッド14を含む画像であれば、操作シーンを使用シーンとして推定する。また例えば、撮像画像が黒板やホワイトボードなどの録音が行われると推定される画像を含む画像であれば録音シーンを使用シーンとして推定する。また例えば、撮影画像が操作シーン及び録音シーンに対応付けられた画像以外の画像であれば一般用シーンを使用シーンとして推定する。この方法によれば、撮像された画像に基づいて容易に使用シーンを推定できる。
・HMD100の現在位置に基づく使用シーンの推定:
この推定方法は、HMD100のGPSモジュール134(図2)が検出した現在位置に基づいて使用シーンを推定する方法である。この方法では、記憶部120に、特定の位置や領域を表す位置特定情報(例えば、経度および緯度によって規定された領域情報)と、位置特定情報に対応付けて規定された使用シーンとを有する第2の使用シーン推定テーブルを予め記憶させておく。制御部10は、音声調整処理工程が開始された時点の現在位置をGPSモジュール134によって検出する。そして、音声認識調整部166は、位置特定情報の中から、GPSモジュール134が検出した現在位置が表す現在位置情報と一致する情報を決定する。そして、決定した位置特定情報に対応付けて規定された使用シーンをHMD100が使用される使用シーンとして推定する。例えば、現在位置が所定の学校の教室であれば録音シーンを使用シーンとして推定する。また例えば、現在位置が地下鉄の構内であれば操作シーンを使用シーンとして推定する。また例えば、操作シーンや録音シーンに対応付けられた位置特定情報以外の現在位置であれば、一般用シーンを使用シーンとして推定する。この方法によれば、GPSモジュール134が検出した現在位置に基づいて容易に使用シーンを推定できる。
・発話者が行う作業の進捗状況に基づく使用シーンの推定:
この推定方法は、HMD100を装着する発話者が行う作業の進捗状況に基づいて使用シーンを推定する方法である。この方法では、記憶部120に、音声認識調整部166の処理が実行される直前の発話者のHMD100に対する操作内容と、操作内容から推定される使用シーンとを有する第3の使用シーン推定テーブルを予め記憶させておく。そして、直前の操作内容と第3の使用シーン推定テーブルとを用いて使用シーンを決定する。例えば、音声認識調整部166の処理が実行される前の直前の操作内容が、カメラによる外景SCの撮影である場合、撮影操作に対応して記憶された録音シーンを使用シーンとして推定する。この方法によれば、作業の進捗状況に基づいて容易に使用シーンを推定できる。また、別の方法として、発話者が行う作業工程(全体の工程や、その一部の工程)が予め分かっている場合は、作業工程を表す情報を記憶部120に記憶させて、この情報に基づいて使用シーンを推定しても良い。
ステップS20の次に、音声認識調整部166は、推定した使用シーンに基づいて、調整用語彙リスト122A〜122Cの中から1つの調整用語彙リストを選択する(ステップS30)。例えば、推定された使用シーンが操作シーンである場合は、操作シーン用の調整用語彙リスト122A(図4(A))を次以降のステップに用いる調整用語彙リストとして選択する。
ステップS30の次に、音声認識調整部166は、選択した調整用語彙リスト(例えば、操作シーン用の調整用語彙リスト122A)に定められた所定の語彙に関する語彙画像を画像表示部20に表示させる(ステップS40)。
図9は、ステップS40を説明するための図である。図9は、ステップS40において、画像表示部20に表示される語彙画像VIbを示す図である。語彙画像VIbは、発話者に発話を促すための画像である「お話ください」という画像と、ステップS30によって決定された調整用語彙リスト122に規定された複数の所定の語彙と、複数の所定の語彙の左に設けられたマーク画像VIb1と、所定の語彙を構成する各文字の上に設けられるマーク画像VIb2とを含む。マーク画像VIb1及びマーク画像VIb2は、発話者に所定の語彙を発話させるタイミングをはかるための画像である。マーク画像VIb1は、例えばハッチングを施した丸画像であり、発話対象の所定の語彙(図9では、「ダウン」)に付されている。マーク画像VIb2は、例えばハッチングを施した丸画像と白抜きの丸画像とを含む、それぞれの丸画像の下には発話対象の所定の語彙を構成する文字が位置する。ハッチングを施した丸画像の下に位置する文字(図9では、「ウ」)は、発話者に発話を促す文字である。マーク画像VIb1とマーク画像VIb2とは、時間の経過とともに発話者に発話させる所定の語彙と文字に応じて変化する。例えば、マーク画像VIb1とマーク画像VIb2とは、語彙「ダウン」の位置に対応する位置に移動してから所定の時間経過後に次に発話を促す語彙である「メニュー」の位置に対応する位置に移動する。ステップS40は、音声認識調整部166が複数の所定の語彙が発話されたことを認識するまで継続して実行しても良いし、ステップS40が開始されたから所定の時間経過した時点で終了しても良い。また、ステップS40は、発話者の操作によって終了しても良い。
図7に示すように、ステップS40の次に、音声認識調整部166はパターン(組み合わせパターン)を特定して、複数の使用語彙リスト121の中から、音声認識部164が音声認識のために用いる使用語彙リストを決定する(ステップS50)。具体的には、音声認識調整部166は発話された音声の特徴が、ステップS40で用いられた調整用語彙リスト122のうちのどのパターンに分類されるのかを特定する。この特定は、複数のパターンごとに規定された複数の所定の語彙のうち、最も発話の音声が一致する所定の語彙を規定するパターンを特定することで行っても良い。例えば、調整用語彙リスト122Aを用いた場合、語彙「アップ」、「ダウン」、「メニュー」に対する発話の音声がパターン1Aの発音記号と一致し、語彙「バック」、「ホーム」に対する発話の音声がパターン1Bの発音記号と一致した場合は、一致した所定の語彙が多いパターン1Aを発話者の音声の特徴を最も表すパターン(組み合わせパターン)として特定する。そして、音声認識調整部166は、語彙リスト121(図2、図5)の中から、ステップS20で特定された使用シーンと、特定した調整用語彙リスト122Aの組み合わせパターンとに対応する語彙リストを使用語彙リストとして決定する。例えば、使用シーンが操作シーンである場合に、パターン1Aのパターンが特定された場合は、操作シーンとパターンとが一致する語彙リスト122A1を使用語彙リストとして決定する。
ステップS50の次に、音声認識調整部166は、決定した使用語彙リストとステップS10で受け付けた発話者識別情報とを対応付けた発話者パターン情報を生成する(ステップS60)。生成された発話者パターン情報は記憶部120に記憶される。発話者パターン情報は、以前に音声認識調整工程を行った発話者が再び音声認識調整工程を開始する際に用いられる。具体的には、音声認識調整を過去に利用した発話者が再び音声認識調整を開始しようとした場合、ステップS10の後に、以前に決定した使用語彙リストを表す情報(例えば、「あなたの使用語彙リストは、操作シーン・パターン1Aです」の文字情報)を画像表示部20に画像として表示させる。また、以前に決定した使用語彙リスト(決定済み使用語彙リスト)を方向キー16及び決定キー11などによって発話者は選択でき、選択した決定済み使用語彙リストを用いて音声認識部164による音声認識を開始させることができる。こうすることで、決定済み使用語彙リストを用いて音声認識部164による音声認識を実行できるため、再度の音声認識調整部166の処理工程を省略できる。発話者が決定済み使用語彙リストを選択した場合は、音声認識調整工程はステップS10以外の工程を実行することなく終了しても良い。このように、以前に音声認識調整工程を実行した特定の発話者がHMD10の音声認識機能を用いる場合に、音声認識調整部166は、発話者パターン情報の中から特定の発話者の使用語彙リストを表す情報を画像表示部20に表示させる。こうすることで、以前に決定された使用語彙リストを利用して音声認識部による音声認識を実行できる。
図10は、音声認識部164(図2)が実行する音声認識工程を説明するためのフロー図である。図11は、ステップS100を説明するための図である。図12は、ステップS150を説明するための図である。この音声認識工程は、音声認識調整工程が完了したことと、発話者の指示を受け付けたことの少なくとも一方をトリガーとして開始される。発話者の指示を受け付けたこととは、例えば、図3に示す録音マークを発話者が選択したことである。以下では、録音シーンの例として発話者が学校の講義内容を録音するシーンについて説明する。図11に示す図において外景SCには、学校で講義を行なっている教師TEと、その講義を聞いている複数の生徒STと、教師TEがホワイトボートWBに書いた文字と、が含まれている。また、音声認識調整工程において、使用語彙リストとして図5Bに示す語彙リスト121Ba(分類が「録音シーン・パターン1B」)が決定されたものとする。
図10に示すように、音声認識部164は、組み合わせ画像を画像表示部20に表示させる(ステップS100)。例えば、図11に示すように、発話者の作業(操作)の進捗の程度を表す階層が階層FR1である場合、音声認識部164は組み合わせ画像として組み合わせ画像CI1を画像表示部20に表示させる。組み合わせ画像CI1は、「メニュー」を表す語彙画像IMG1と、語彙画像IMG1の左に位置する関連画像ch1とを含む。関連画像ch1は赤色で作成された画像である。
図10に示すように、ステップS10の次に、音声認識部164は発話者の音声を取得する(ステップS110)。次に、音声認識部164は、音声認識ができたか否かを判定する(ステップS120)。具体的には、音声認識部164は、使用語彙リスト121Baと音響モデル125(図2)とを用いて取得された音声が表す語彙と、使用語彙リスト121Baに含まれる語彙とが一致するかどうかを判定し、一致する場合は音声認識ができたと判定する。一方で、音声認識部164は、音声が表す語彙と、使用語彙リスト121Baに含まれる語彙とが一致しない場合は、音声認識ができなかったと判定する。
音声が表す語彙と使用語彙リスト121Baに含まれる語彙とが一致した場合は、音声認識部164は、音声認識ができたことを発話者に報知する(ステップS130)。例えば、スピーカー94,95から音声認識できたことを表す音(例えば、「ピンポン」という音)を出力する。なお、発話者への報知方法は上記に限定されるものではなく、例えば、画像表示部20やタッチパッド14に音声認識できたか否かを表す画像を表示させても良い。また例えば、音声認識部は、一致した語彙に関連する画像を画像表示部20に表示させても良い。関連する画像とは、例えば、一致した語彙を表す語彙画像(例えば、「一致しました」という語彙画像)であったり、語彙画像と関連する画像とを組み合わせた画像であっても良い。また、関連する画像とは、例えば、一致した語彙自体を強調表示した画像であったり、一致した語彙を識別するための画像(例えば、発音記号)であっても良い。こうすることで、発話者に対して音声に基づいて音声認識部164が認識した語彙を報知させることができる。なお、発話者の習熟度(例えば、HMD100の利用時間)が一定の基準よりも高い場合には、関連する画像の表示は行わなくても良い。
ステップS130の次に、音声認識部164は、音声認識した語彙に対応付けられた所定の機能が実行可能か否かを判定する(ステップS140)。例えば図11に示す場面(第1階層FR1の場面)では、音声認識部164は「メニュー」の機能を実行可能である。よって、音声認識した語彙が「メニュー」や「あか」である場合は、音声認識部164は、図12に示すように第2階層FR2の組み合わせ画像CI2を画像表示部20に表示させる機能を実行する。一方で、例えば、音声認識した語彙が第2階層FR2の「レコード」や「あお」のような、第1階層FR1において所定の機能を実行するための語彙ではない場合は、所定の機能を実行できないと判定しステップS110が再び行われる。すなわち音声認識部S110は発話者からの音声の取得を受け付ける。
図12に示す組み合わせ画像CI2は、第2階層FR2において実行可能な所定の機能を表す複数の語彙画像IMG2と、複数の語彙画像IMG2のそれぞれの左に位置する関連画像ch2とを含む。関連画像ch2は、図6の第2階層FR2の括弧書きで示した色で作成された画像である。
次に、音声認識ができなかった場合(ステップS120:NO)に音声認識部164が実行する処理について説明する。まず、音声認識部164は、音声認識ができなかったことを発話者に報知する(ステップS160)。例えば、スピーカー94,95から音声認識できなかったことを表す音(例えば、「ブー」という音)を出力する。なお、発話者への報知方法は上記に限定されるものではなく、例えば、画像表示部20やタッチパッド14に音声認識できたか否かを表す画像を表示させても良い。
次に、音声認識部164は、使用語彙リスト121Baの中から音声が表す語彙を推定し、推定した語彙に関する推定語彙画像を画像表示部20に表示させる(ステップS170)。推定語彙画像は、推定した語彙を強調したり、識別したりするための画像である。例えば、推定語彙画像は、推定した語彙を表す画像であっても良いし、推定した語彙を識別するための画像(例えば、発音記号)であっても良い。これにより、音声認識部164は、音声が表す語彙と使用語彙リスト121Baの語彙とが一致しなかった場合でも、使用語彙リスト121Baの複数の語彙の中から音声が表す語彙を推定して、推定した語彙を発話者に認識させることができる。
推定語彙画像は、推定した語彙(推定語彙)を表す画像である。本実施形態では、使用語彙リスト121Baに規定された発音記号と、発話された発音に基づいて生成された発音記号とが最も一致する使用語彙リスト121Baの語彙を推定語彙としている。例えば、発話された音声の発音記号が「recodou」である場合は、使用語彙リスト121Baに規定された発音記号「recoudo」によって表される語彙「レコード」を推定語彙として推定する。また、推定語彙画像は、例えば、「レコード」の文字画像を含む画像である。なお、推定語彙の決定方法はこれに限定されるものではなく、使用シーンに応じて決定しても良いし、使用シーンと使用語彙リストとを用いて決定しても良い。例えば、使用シーンが録音シーンの場合は、発音された発音記号が「recodou」である場合は、使用語彙リスト121Baに規定された発音記号「recoudo」によって表される語彙「レコード」を推定語彙として推定する。また、使用語彙リスト121Baに含まれる推定した語彙「レコード」に定められた語彙識別情報である発音記号を、音声を分析して決定した発音記号「recodou」に書き換えることで更新しても良い。こうすることで、発話者の音声の特徴により対応した使用語彙リストを作成できる。
ステップS170の次に、推定語彙画像が音声認識部164は発話された語彙であるかを判定する(ステップS180)。ステップS180は、発話者に推定語彙が発話された語彙であるかを選択させ、その選択結果に基づき判定が行われる。図13は、ステップS170とステップS180との処理を説明するための図である。
図13では、推定語彙の文字を表す文字画像(「レコード」)を含む推定語彙画像VIcは、発話者に推定語彙が発話されたかどうかを選択させる画像も含む。具体的には、推定語彙画像VIcは「1.レコードOK?」と「2、レコードNO?」とを表す画像を含む。発話者は三角形のカーソルを移動させて、推定語彙画像が発話された語彙であることを示す「1.レコードOK?」と、推定語彙画像が発話された語彙ではないことを示す「2.レコードNO」のいずれかを選択する。この選択結果に基づいて、音声認識部164は、推定語彙画像が音声認識部164は発話された語彙であるかを判定する。
ステップS180において推定語彙が発話語彙であると判定された場合は、ステップS140が実行され、ステップS180において推定語彙が発話語彙ではないと判定された場合は、ステップS100が実行される。
上記実施形態によれば、所定の語彙を発話者に発話させることで、複数の語彙リスト121Aa〜121Ccの中から発話者の音声(音素)の特徴を最も表す語彙リストを使用語彙リストとして容易に決定できる。
また上記実施形態によれば、音声認識調整部166は、複数の語彙ごとに定められた発音記号のパターンが異なる複数の語彙リスト(例えば、図5Bの語彙リスト121Ba,121Bb、121Bc)の中から音声認識部164が用いる使用語彙リストを決定している(図7)。この使用語彙リストは、発話者の音声の特徴を表す指標(例えば、母音の発音や、子音の発音や、性別や、出身地域や、年齢)に基づいて分類された所定の規則に基づいて作成されている。音声認識部164は、音声認識調整部166が決定した使用語彙リストを用いて音声認識を行っている。これにより、音声認識の際に用いる語彙リストが語彙リスト121の全てではなく、そのうちの1つの語彙リストで良いため、音声認識の処理時間を短縮できる。
また上記実施形態によれば、画像表示部20は発話者に視認させるための虚像を表示可能である。これにより、音声認識調整工程や音声認識工程の際に用いる画像を虚像として画像表示部に表示できる。
また、上記実施形態によれば、音声認識調整部166は、使用シーンごとに規定された複数の調整用語彙リスト122A〜122Cの中から、HMD100の使用シーンに応じて1つの調整用語彙リスト122を選択している(図7のステップS30)。これは言い換えれば、音声認識調整部166は、使用シーン(例えば、操作シーン)に応じて所定の語彙(例えば、アップ、ダウン、メニュー、バック、ホーム)を決定しているとも言える。そして、選択した調整用語彙リスト122を用いて使用語彙リスト121を決定している(図7のステップS50)。これにより、使用シーンに応じた調整用語彙リスト122を用いて使用語彙リストを決定できるため、使用シーンに用いられる語彙の音声認識部164による音声認識を精度良く行うことができる。また、使用シーンに応じて適切な所定の語彙を決定できる。具体的には、使用シーンに用いられる語彙を所定の語彙として決定できる。
また、上記実施形態によれば、音声認識部164は、取得された音声が語彙と関連画像に関連する関連語彙のいずれかであると認識した場合に、その語彙と関連語彙とに対応付けられた所定の機能を実行している(図10のステップS150)。例えば、図11において、音声認識部164が、取得された音声が語彙である「メニュー」と関連語彙である「あか」のいずれかであると認識した場合に、「メニュー」と「あか」とに対応付けられた機能(第2階層FR2に移行するという機能)を実行する。このように、所定の機能に対応付けられた語彙が複数あるため、音声認識によって所定の機能を実行させることがより容易にできる。
B.変形例:
上記実施形態において、ハードウェアによって実現されるとした構成の一部をソフトウェアに置き換えるようにしてもよく、逆に、ソフトウェアによって実現されるとした構成の一部をハードウェアに置き換えるようにしてもよい。ソフトウェアによって実現された構成をハードウェアに置き換える場合、複数の構成を組み合わせて1つのハードウェアとしても良い。例えば、図2に示す、CPU140の機能部である音声認識部164と音声認識調整部166とが一体となったハードウェアであっても良い。その他、以下のような変形も可能である。
・変形例1:
上記実施形態では、音声認識調整部166は、所定の語彙に関する語彙画像を画像表示部20に表示させていたが(図7のステップS40、図9)、これに加えて、カメラ61の撮影画像に基づいて所定の語彙が表す対象物が外景SCに存在することを検出した場合は、対象物を識別させるための識別画像を画像表示部20に表示させても良い。ここで、識別画像は、対象物に向けた矢印であったり、対象物を取り囲む枠状の画像などである。すなわち、識別画像は、識別するための画像であり、識別するための画像は対象物を強調するための画像であっても良い。例えば、所定の語彙に「タッチパッド」が規定されている場合に撮影画像にタッチパッド14(図1)が含まれている場合は、タッチパッド14を取り囲む枠状の画像を識別画像として画像表示部20に表示させる。こうすることで、対象物を発話者が視認することで所定の語彙をより確実に認識することができるので、音声認識調整部166を用いた音声調整の精度が向上する。
・変形例2:
上記実施形態において、使用シーンごとに、調整用語彙リスト122の所定の語彙は、語彙リスト121に規定された語彙の少なくとも一部を用いていたが、これに限定されるものではない。例えば、所定の語彙は、語彙リスト121の語彙とは異なる語彙であっても良い。また異なる語彙は、発話者の発音を区別するための音素を含んでいても良い。こうすることで、上記実施形態と同様に、所定の語彙を用いてより精度良く、音声認識部164で用いる使用語彙リストを決定できる。
・変形例3:
上記実施形態では複数の語彙リスト121Aa〜121Cc(図5A〜図5C)と、複数の調整用語彙リスト122A〜122C(図4)と、音響モデル125(図2)とは、HMD100の記憶部120に記憶されていたが、少なくともいずれか一つはHMD100とは異なるHDDやSDカードなどの外部装置(外部記憶装置)に記憶されていても良い。この場合、外部記憶装置に記憶されたリスト121,122や音響モデル125は、HMD100によって使用される際にはHMD100の記憶部120としてのRAMなどに読み込まれる。こうすることで、HMD100の記憶部120に全てのデータを記憶させておく必要がないため、HMD100の記憶部120の記憶容量を小さくできる。また、例えば、外部装置(外部記憶装置)に記憶された複数の調整用語彙リスト122A〜122C(図4)を記憶部120としてのRAMに読み込んで、音声認識調整部166が発話者の音声の特徴パターンを決定し、その後に決定したパターンの語彙リスト121のみを外部装置(外部記憶装置)から記憶部120としてのRAMに読み込んで音声認識部164が音声認識処理に用いても良い。こうすることで、必要なデータのみを外部装置(外部記憶装置)からHMD100に読み込んで使用できるため、HMD100の記憶部120の記憶容量を小さくできる。
・変形例4:
上記実施形態では、音声認識装置の一例としてHMD100を用いていたが、これに限定されるものではない。例えば、スマートフォンやパーソナルコンピューターなどの画像表示部を備える他の装置であっても良い。
・変形例5:
上記実施形態では、日本語による語彙を用いて説明したがこれに限定されるものではなく、英語や中国語などの他の言語にも本発明は適用できる。また、上記実施形態では、語彙を特定するための語彙識別情報として英語に用いられる発音記号を用いたが、語彙識別情報は語彙を特定できる情報(音声記号)であればこれに限定されるものではない。例えば、国際音声学会(IPA)が定めた国際音声記号を語彙識別情報としても良い。
・変形例6:
上記実施形態では、図9に示すように、画像表示部20に表示された語彙画像VIbは、調整用語彙リスト122Aに規定された複数の所定の語彙を全てを表す文字画像を含んでいたが、これに限定されるものではない。例えば、複数の所定の語彙を表す文字画像を1つずつ時系列に画像表示部20に表示させても良い。
・変形例7:
上記実施形態では、調整用語彙リスト122に規定された所定の語彙は、発話者の音声(音素)の特徴を分類できる語彙であれば上記に限定されるものではない。例えば、所定の語彙として用いることができる語彙を以下に例示する。
<所定の語彙の他の例>
・「記載」、「買う」、「計画」、「コイル」、「応答」、「察知」、「キック」、「ルック」、「セット」、「突起」などの、特定の使用シーンに頻繁に用いられる語彙。
・「あい」、「あう」、「えい」、「おい」、「おう」などの複合母音を含む語彙。
・あ段の破裂音、又は、い段の破裂音、又は、う段の破裂音、又は、え段の破裂音、又は、お段の破裂音、又は、う段の特殊音などの特殊音を含む語彙。
また、5つの母音(「あ」、「い」、「う」、「え」、「お」)を全て含む語彙や、複数の語彙によって5つの母音を網羅できる語彙群を所定の語彙として用いても良い。母音は、発話者の音声の特徴を最も表す音素の一つであるためである。
また、「メニュー」、「オープン」などの特定のシーン(録音シーン)において、特定のシーンの機能の実行のためのトリガーに対応する語彙を所定の語彙として用いても良い。こうすることで、特定のシーンの機能を実行のための音声認識を精度良く行うことができる。
また、「イエス」や「ノー」などのHMD100が行う処理の選択を行うための選択肢を決定するための語彙を所定の語彙として用いても良い。こうすることで、選択の決定をより精度良く行うことができる。
また、発話者の作業過程(例えば、HMD100による録音を行うための作業)に頻出する語彙や、作業の対象物を表す語彙を所定の語彙として用いても良い。こうすることで、音声認識を用いたHMD100を用いた作業をより精度良く行うことができる。
・変形例8:
図14は、変形例におけるHMDの外観の構成を示す説明図である。図14(A)の例の場合、画像表示部20xは、右光学像表示部26に代えて右光学像表示部26xを備え、左光学像表示部28に代えて左光学像表示部28xを備えている。右光学像表示部26xと左光学像表示部28xとは、上記実施形態の光学部材よりも小さく形成され、HMDの装着時における使用者の右眼および左眼の斜め上にそれぞれ配置されている。図14(B)の例の場合、画像表示部20yは、右光学像表示部26に代えて右光学像表示部26yを備え、左光学像表示部28に代えて左光学像表示部28yを備えている。右光学像表示部26yと左光学像表示部28yとは、上記実施形態の光学部材よりも小さく形成され、HMDの装着時における使用者の右眼および左眼の斜め下にそれぞれ配置されている。このように、光学像表示部は使用者の眼の近傍に配置されていれば足りる。また、光学像表示部を形成する光学部材の大きさも任意であり、光学像表示部が使用者の眼の一部分のみを覆う態様、換言すれば、光学像表示部が使用者の眼を完全に覆わない態様のHMDとして実現することもできる。
例えば、ヘッドマウントディスプレイは、両眼タイプの透過型ヘッドマウントディスプレイであるものとしたが、単眼タイプのヘッドマウントディスプレイとしてもよい。また、使用者がヘッドマウントディスプレイを装着した状態において外景の透過が遮断される非透過型ヘッドマウントディスプレイとして構成してもよい。
例えば、画像処理部、表示制御部、音声処理部等の機能部は、CPUがROMやハードディスクに格納されているコンピュータープログラムをRAMに展開して実行することにより実現されるものとして記載した。しかし、これら機能部は、当該機能を実現するために設計されたASIC(Application Specific Integrated Circuit:特定用途向け集積回路)を用いて構成されてもよい。
例えば、上記実施形態では、画像表示部を眼鏡のように装着するヘッドマウントディスプレイであるとしているが、画像表示部が通常の平面型ディスプレイ装置(液晶ディスプレイ装置、プラズマディスプレイ装置、有機ELディスプレイ装置等)であるとしてもよい。この場合にも、制御部と画像表示部との間の接続は、有線の信号伝送路を介した接続であってもよいし、無線の信号伝送路を介した接続であってもよい。このようにすれば、制御部を、通常の平面型ディスプレイ装置のリモコンとして利用することもできる。
また、画像表示部として、第1実施形態のようにヘッドバンドを掛けることによって装着する構成や、第2実施形態のように眼鏡のように装着する構成に代えて、例えば帽子のように装着する画像表示部といった他の形状の画像表示部を採用してもよい。また、スピーカーは、イヤホンに換えてもよく、イヤホンは、耳掛け型やヘッドバンド型を採用してもよい。また、例えば、自動車や飛行機等の車両に搭載されるヘッドアップディスプレイ(HUD、Head-Up Display)として構成されてもよい。また、例えば、ヘルメット等の身体防護具に内蔵されたヘッドマウントディスプレイとして構成されてもよい。
例えば、上記実施形態では、表示駆動部は、バックライトと、バックライト制御部と、LCDと、LCD制御部と、投写光学系を用いて構成されるものとした。しかし、上記の態様はあくまで例示である。表示駆動部は、これらの構成部と共に、またはこれらの構成部に代えて、他の方式を実現するための構成部を備えていてもよい。例えば、表示駆動部は、有機EL(有機エレクトロルミネッセンス、Organic Electro-Luminescence)のディスプレイと、有機EL制御部と、投写光学系とを備える構成としてもよい。例えば、表示駆動部は、LCDに代えてDMD(デジタル・マイクロミラー・デバイス)等を用いることもできる。例えば、表示駆動部は、RGBの各色光を発生させるための色光源とリレーレンズを含む信号光変調部と、MEMSミラーを含む走査光学系と、これらを駆動する駆動制御回路と、を含むように構成されてもよい。このように、有機ELやDMDやMEMSミラーを用いても、「表示駆動部における射出領域」とは、表示駆動部から画像光が実際に射出される領域であることに変わりはなく、各デバイス(表示駆動部)における射出領域を上記実施形態と同様に制御することによって、上記実施形態と同様の効果を得ることができる。また、例えば、表示駆動部は、画素信号に応じた強度のレーザーを、使用者の網膜へ出射する1つ以上のレーザーを含むように構成されてもよい。この場合、「表示駆動部における射出領域」とは、表示駆動部から画像を表すレーザー光が実際に射出される領域を表す。レーザー(表示駆動部)におけるレーザー光の射出領域を上記実施形態と同様に制御することによって、上記実施形態と同様の効果を得ることができる。
また、上記実施形態では、マイクロフォン31とヘッドフォン部90とがHMD100の構成部材としてHMD100と一体となった構成であったがこれに限定されるものではない。例えば、マイクロフォン31とヘッドフォン部90とがHMD100と別体であっても良い。この場合、例えば、マイクロフォン31とヘッドフォン部90とはヘッドセットとして一体に構成され、ヘッドセットとHMD100とが有線又は無線によって接続されていても良い。
・変形例9:
上記実施形態では、組み合わせ画像CI1,CI2は、語彙画像IMG1,IMG2と語彙画像IMG1,IMG2の左に位置する所定の色(例えば、赤)の関連画像ch1,ch2との組み合わせであったが(図11,図12)、これに限定されるものではない。関連画像ch1,ch2は、語彙に関連付けられた画像であれば良く、例えば、語彙画像IMG1,IMG2の語彙を所定の色で表示させる色画像であっても良い。例えば、図11に示す関連画像ch1は、「メニュー」を表す語彙画像IMG1を赤色で表示する色画像であっても良い。
・変形例10:
上記実施形態では、実行可能情報124は、HMD100が実行可能な機能を階層に区別して記憶していたが(図2,図6)、これに限定されるものではなく、HMD100が実行可能な情報を記憶していれば、階層構造でなくても良い。
本発明は、上述の実施形態や実施例、変形例に限られるものではなく、その趣旨を逸脱しない範囲において種々の構成で実現することができる。例えば、発明の概要の欄に記載した各形態中の技術的特徴に対応する実施形態、実施例、変形例中の技術的特徴は、上述の課題の一部または全部を解決するために、あるいは、上述の効果の一部または全部を達成するために、適宜、差し替えや組み合わせを行うことが可能である。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜、削除することが可能である。
10…制御部
11…決定キー
12…点灯部
14…タッチパッド
16…方向キー
18…電源スイッチ
20…画像表示部
20x…画像表示部
20y…画像表示部
21…右保持部
22…右表示駆動部
23…左保持部
24…左表示駆動部
26…右光学像表示部
26x…右光学像表示部
26y…右光学像表示部
28…左光学像表示部
28x…左光学像表示部
28y…左光学像表示部
30…マイク部
31…マイクロフォン
32…アーム
33…連結部
40…接続コード
46…連結部材
51…送信部
52…送信部
53…受信部
61…カメラ
63…マイク
66…9軸センサー
90…ヘッドフォン部
91…ヘッドバンド
92…右イヤーカップ
92a…上面
93…イヤーカップ
94…スピーカー
95…スピーカー
100…頭部装着型表示装置
110…入力情報取得部
120…記憶部
121…語彙リスト
122…調整用語彙リスト
124…実行可能情報
125…音響モデル
130…電源
132…無線通信部
134…GPSモジュール
140…CPU
160…画像処理部
162…表示制御部
164…音声認識部
166…音声認識調整部
170…音声処理部
171…機能実行部
180…インターフェイス
201…右バックライト制御部
202…左バックライト制御部
211…右LCD制御部
212…左LCD制御部
221…右バックライト
222…左バックライト
251…右投写光学系
252…左投写光学系
261…右導光板
262…左導光板
SC…外景
VR…視界

Claims (25)

  1. 音声認識装置であって、
    画像を表示する画像表示部と、
    発話者の音声を取得する音声取得部と、
    使用語彙リストを用いて、前記音声取得部が取得した音声が表す語彙を認識する音声認識部と、
    所定の語彙に対して複数の組み合わせパターンに基づいて規定された前記語彙を特定するための語彙識別情報を有する調整用語彙リストのうちの、前記所定の語彙に関する語彙画像を前記画像表示部に表示させ、前記表示した前記語彙画像についての前記発話者の音声と、前記調整用語彙リストの前記語彙識別情報と、を比較して前記組み合わせパターンを特定することで、複数の語彙リストの中から前記使用語彙リストを決定する音声認識調整部と、を備える、音声認識装置。
  2. 請求項1に記載の音声認識装置であって、
    前記複数の語彙リストは、複数の前記語彙と前記語彙を特定するための前記語彙識別情報とをそれぞれ有し、前記複数の語彙と前記複数の語彙のそれぞれに対応する前記語彙識別情報との前記組み合わせパターンが異なる、音声認識装置。
  3. 請求項1又は請求項2に記載の音声認識装置であって、さらに、
    前記発話者の頭部に装着するための保持部を有し
    前記画像表示部は、前記発話者に視認させるための虚像を表示可能である、音声認識装置。
  4. 請求項3に記載の音声認識装置であって、
    前記音声認識調整部は、使用シーンごとに規定された複数の前記調整用語彙リストの中から、前記音声認識装置の使用シーンに応じて1つの前記調整用語彙リストを選択し、前記選択した前記調整用語彙リストを用いて前記使用語彙リストを決定する、音声認識装置。
  5. 請求項4に記載の音声認識装置であって、さらに、
    外景を撮像する撮像部を有し、
    前記音声認識調整部は、撮像された画像に基づいて前記使用シーンを推定する、音声認識装置。
  6. 請求項4に記載の音声認識装置であって、さらに、
    前記音声認識装置の現在位置を検出するための位置特定部を有し、
    前記音声認識調整部は、前記位置特定部が検出した現在位置に基づいて前記使用シーンを推定する、音声認識装置。
  7. 請求項4に記載の音声認識装置であって、
    前記音声認識装置は、前記発話者が行う作業の進捗状況に基づいて前記使用シーンを推定する、音声認識装置。
  8. 請求項4から請求項7までのいずれか一項に記載の音声認識装置であって、
    前記音声認識調整部は、前記使用シーンに応じて前記所定の語彙を決定する、音声認識装置。
  9. 請求項4から請求項8までのいずれか一項に記載の音声認識装置であって、
    前記画像表示部は、外景を透過可能であり、
    前記音声認識調整部は、前記外景に存在する前記所定の語彙が表す対象物を前記発話者に識別させるための識別画像を前記画像表示部に表示する、音声認識装置。
  10. 請求項4から請求項9までのいずれか一項に記載の音声認識装置であって、
    前記音声認識部は、
    前記語彙リストの前記語彙を表す語彙画像と、前記語彙に関連付けられた関連画像であって前記語彙リストの他の前記語彙に基づく関連画像と、を含む組み合わせ画像を前記画像表示部に表示させ、
    取得された前記音声が前記語彙と前記関連画像に関連する関連語彙のいずれかであると前記音声認識部が認識した場合に、前記語彙と前記関連語彙とに対応付けられた所定の機能を実行する機能実行部と、を有する、音声認識装置。
  11. 請求項1から請求項10までのいずれか一項に記載の音声認識装置であって、
    前記所定の語彙は、前記発話者の発音の特徴を区別できる音素を含む、音声認識装置。
  12. 請求項11に記載の音声認識装置であって、
    前記所定の語彙は、前記語彙リストの前記語彙とは異なる語彙であって前記発話者の発音の特徴を区別するための前記音素を含む、音声認識装置。
  13. 請求項11に記載の音声認識装置であって、
    前記所定の語彙は、前記語彙リストを構成する前記複数の語彙の少なくとも1つである、音声認識装置。
  14. 請求項13に記載の音声認識装置であって、
    前記所定の語彙は、前記語彙リストを構成する前記複数の語彙の全部を含む、音声認識装置。
  15. 請求項1から請求項14までのいずれか一項に記載の音声認識装置であって、
    前記音声認識部は、前記音声が表す語彙を認識できなかった場合に、前記使用語彙リストと前記音声認識装置の使用シーンとの少なくとも一つを用いて前記認識されなかった前記音声が表す語彙を推定し、前記使用語彙リストに含まれる推定した前記語彙に定められた前記語彙識別情報を更新する、音声認識装置。
  16. 請求項1から請求項15までのいずれか一項に記載の音声認識装置であって、
    前記語彙識別情報は、前記語彙の発音記号を含む、音声認識装置。
  17. 請求項1から請求項16までのいずれか一項に記載の音声認識装置であって、
    前記音声認識部は、前記使用語彙リストが有する前記語彙と、前記音声が表す語彙とが一致しないと判定した場合は、前記使用語彙リストが有する前記複数の語彙の中から前記音声が表す語彙を推定し、前記推定した語彙に関する推定語彙画像を前記画像表示部に表示する、音声認識装置。
  18. 請求項1から請求項17までのいずれか一項に記載の音声認識装置であって、
    前記音声認識部は、前記音声が表す語彙と前記使用語彙リストに含まれる前記語彙とが一致した場合は、一致した前記語彙に関連する画像を前記画像表示部に表示させる、音声認識装置。
  19. 請求項1から請求項18までのいずれか一項に記載の音声認識装置であって、
    前記音声認識部は、前記音声が表す語彙と前記使用語彙リストに含まれる前記語彙とが一致したか否かを前記発話者に報知させる、音声認識装置。
  20. 請求項1から請求項19までのいずれか一項に記載の音声認識装置であって、
    前記音声認識調整部は、
    前記発話者ごとに、前記発話者を識別するための発話者識別情報と、決定した前記使用語彙リストとを対応付けた発話者パターン情報を生成し、
    特定の前記発話者が前記音声認識装置を用いる場合に、生成した前記発話者パターン情報の中から前記特定の発話者の前記使用語彙リストを表す情報を前記画像表示部に表示させる、音声認識装置。
  21. 請求項1から請求項20までのいずれか一項に記載の音声認識装置であって、
    前記複数の語彙リストは、前記音声認識装置とは異なる外部装置に記憶され、
    前記音声認識部は、前記使用語彙リストを前記外部装置から読み込んで使用する、音声認識装置。
  22. 請求項1から請求項20までのいずれか一項に記載の音声認識装置であって、
    前記調整用語彙リストは、前記音声認識装置とは異なる外部装置に記憶され、
    前記音声認識調整部は、前記調整用語彙リストを前記外部装置から読み込んで使用する、音声認識装置。
  23. 請求項1から請求項20までのいずれか一項に記載の音声認識装置であって、
    前記複数の語彙リストと前記調整用語彙リストとの少なくとも一方を記憶する記憶部を有する、音声認識装置。
  24. 画像を表示する画像表示部と、発話者の音声を取得する音声取得部と、を有する音声認識装置の制御方法で、
    使用語彙リストを用いて、前記音声取得部が取得した音声が表す語彙を認識する音声認識工程と、
    所定の語彙に対して複数の組み合わせパターンに基づいて規定された前記語彙を特定するための語彙識別情報を有する調整用語彙リストのうちの、前記所定の語彙に関する語彙画像を前記画像表示部に表示させ、前記表示した前記語彙画像についての前記発話者の音声と、前記調整用語彙リストの前記語彙識別情報と、を比較して前記組み合わせパターンを特定することで、複数の語彙リストの中から前記使用語彙リストを決定する音声認識調整工程と、を備える、制御方法。
  25. 画像を表示する画像表示部と、発話者の音声を取得する音声取得部と、を有する音声認識装置を制御するためのコンピュータープログラムであって、
    使用語彙リストを用いて、前記音声取得部が取得した音声が表す語彙を認識する音声認識機能と、
    所定の語彙に対して複数の組み合わせパターンに基づいて規定された前記語彙を特定するための語彙識別情報を有する調整用語彙リストのうちの、前記所定の語彙に関する語彙画像を前記画像表示部に表示させ、前記表示した前記語彙画像についての前記発話者の音声と、前記調整用語彙リストの前記語彙識別情報と、を比較して前記組み合わせパターンを特定することで、複数の語彙リストの中から前記使用語彙リストを決定する音声認識調整機能と、をコンピューターに実現させる、コンピュータープログラム。
JP2015158629A 2015-08-11 2015-08-11 音声認識装置、制御方法、及び、コンピュータープログラム Pending JP2017037212A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015158629A JP2017037212A (ja) 2015-08-11 2015-08-11 音声認識装置、制御方法、及び、コンピュータープログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015158629A JP2017037212A (ja) 2015-08-11 2015-08-11 音声認識装置、制御方法、及び、コンピュータープログラム

Publications (1)

Publication Number Publication Date
JP2017037212A true JP2017037212A (ja) 2017-02-16

Family

ID=58047728

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015158629A Pending JP2017037212A (ja) 2015-08-11 2015-08-11 音声認識装置、制御方法、及び、コンピュータープログラム

Country Status (1)

Country Link
JP (1) JP2017037212A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019038875A1 (ja) * 2017-08-24 2019-02-28 マクセル株式会社 ヘッドマウントディスプレイ
CN110211576A (zh) * 2019-04-28 2019-09-06 北京蓦然认知科技有限公司 一种语音识别的方法、装置和系统
CN113311936A (zh) * 2020-02-27 2021-08-27 中移(成都)信息通信科技有限公司 基于ar的语音点评方法、装置、设备及存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019038875A1 (ja) * 2017-08-24 2019-02-28 マクセル株式会社 ヘッドマウントディスプレイ
JPWO2019038875A1 (ja) * 2017-08-24 2020-03-26 マクセル株式会社 ヘッドマウントディスプレイ
US11455042B2 (en) 2017-08-24 2022-09-27 Maxell, Ltd. Head-mounted display
JP2023076451A (ja) * 2017-08-24 2023-06-01 マクセル株式会社 表示装置
JP7526841B2 (ja) 2017-08-24 2024-08-01 マクセル株式会社 表示装置
CN110211576A (zh) * 2019-04-28 2019-09-06 北京蓦然认知科技有限公司 一种语音识别的方法、装置和系统
CN110211576B (zh) * 2019-04-28 2021-07-30 北京蓦然认知科技有限公司 一种语音识别的方法、装置和系统
CN113311936A (zh) * 2020-02-27 2021-08-27 中移(成都)信息通信科技有限公司 基于ar的语音点评方法、装置、设备及存储介质
CN113311936B (zh) * 2020-02-27 2022-12-02 中移(成都)信息通信科技有限公司 基于ar的语音点评方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
JP7200195B2 (ja) 感覚式アイウェア
JP6155622B2 (ja) 表示装置、頭部装着型表示装置、表示装置の制御方法、および、頭部装着型表示装置の制御方法
JP6380091B2 (ja) 頭部装着型表示装置、頭部装着型表示装置の制御方法、および、コンピュータープログラム
US10114610B2 (en) Display device, method of controlling display device, and program
US9542958B2 (en) Display device, head-mount type display device, method of controlling display device, and method of controlling head-mount type display device
US10635182B2 (en) Head mounted display device and control method for head mounted display device
US9972319B2 (en) Display device, method of controlling display device, and program having display of voice and other data
US20160313973A1 (en) Display device, control method for display device, and computer program
US20170243600A1 (en) Wearable device, display control method, and computer-readable recording medium
US10296105B2 (en) Head-mounted display device, computer program, and control method for head-mounted display device
JP6492673B2 (ja) 頭部装着型表示装置、頭部装着型表示装置を制御する方法、コンピュータープログラム
JP6432197B2 (ja) 表示装置、表示装置の制御方法、および、プログラム
JP6364735B2 (ja) 表示装置、頭部装着型表示装置、表示装置の制御方法、および、頭部装着型表示装置の制御方法
JP2017037212A (ja) 音声認識装置、制御方法、及び、コンピュータープログラム
JP2018206080A (ja) 頭部装着型表示装置、プログラム、及び頭部装着型表示装置の制御方法
JP6467922B2 (ja) 頭部装着型表示装置、頭部装着型表示装置の制御方法、情報システム、および、コンピュータープログラム
JP6201332B2 (ja) 音処理装置
JP6766403B2 (ja) 頭部装着型表示装置、頭部装着型表示装置の制御方法、コンピュータープログラム
WO2021020069A1 (ja) 表示装置、表示方法、及び、プログラム
US20240119684A1 (en) Display control apparatus, display control method, and program
US11955135B2 (en) Wearable speech input-based to moving lips display overlay
US20240242541A1 (en) Eyewear processing sign language to issue commands
JP2018092206A (ja) 頭部装着型表示装置、プログラム、及び頭部装着型表示装置の制御方法
JP6565202B2 (ja) 頭部装着型表示装置およびその制御方法、並びにコンピュータープログラム
JP2017092596A (ja) 頭部装着型表示装置およびその制御方法、並びにコンピュータープログラム