JP6064737B2 - 音声認識装置及び音声認識プログラム - Google Patents

音声認識装置及び音声認識プログラム Download PDF

Info

Publication number
JP6064737B2
JP6064737B2 JP2013067643A JP2013067643A JP6064737B2 JP 6064737 B2 JP6064737 B2 JP 6064737B2 JP 2013067643 A JP2013067643 A JP 2013067643A JP 2013067643 A JP2013067643 A JP 2013067643A JP 6064737 B2 JP6064737 B2 JP 6064737B2
Authority
JP
Japan
Prior art keywords
data
pattern
unit
image
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013067643A
Other languages
English (en)
Other versions
JP2014191239A (ja
Inventor
智己 片野
智己 片野
邦宏 伊藤
邦宏 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2013067643A priority Critical patent/JP6064737B2/ja
Publication of JP2014191239A publication Critical patent/JP2014191239A/ja
Application granted granted Critical
Publication of JP6064737B2 publication Critical patent/JP6064737B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

本発明は、音声認識が可能な音声認識装置及び音声認識プログラムに関する。
従来、ユーザの頭部に装着可能な、ユーザが発する音声を認識し、認識した音声に基づいて種々の制御を行う音声認識装置が知られている。例えば、特許文献1に記載のヘッドマウントディスプレイは、ヘッドセットを備えている。ヘッドセットには、マイクロフォンと音声制御切り換えスイッチとが設けられている。頭部に装着されたヘッドマウントディスプレイにおいて、マイクロフォンはユーザの口近くに位置し、音声制御切り換えスイッチは、マイクロフォンの近傍に位置する。ヘッドマウントディスプレイ本体には、音声信号処理回路が設けられている。音声信号処理回路は、マイクロフォンによって取得されたユーザの音声を検出し、所定の音声認識処理を行う。音声信号処理回路は、音声認識処理の結果が、事前に保存されたキーワードに一致するときに、外部コンピュータに対して供給画像の切り換え及びその他の動作を行わせるための指示信号を送信する。ヘッドマウントディスプレイは、音声制御切り換えスイッチのオン・オフが切り換えられた場合に、音声認識処理のオン・オフを切り換える。
特開2002−165156号公報
しかしながら、前記従来のヘッドマウントディスプレイに音声認識処理を実行させる場合、ユーザは音声切り換えスイッチを手で操作する必要がある。よって、ハンズフリーで音声認識処理を実行できず、ユーザの作業を妨げる場合がある。
本発明の目的は、ハンズフリーで音声認識処理を実行可能な音声認識装置及び音声認識プログラムを提供することである。
本発明第1の態様に係る音声認識装置は、音声入力部に入力された音声の音声データを取得する音声データ取得手段と、頭部に装着可能な頭部装着部に設けられた撮像部によって撮像された画像の画像データを取得する画像データ取得手段と、記憶部に記憶された所定のパターンを示す情報であるパターン情報と前記画像データとの比較に基づいて、前記画像データ取得手段によって取得された前記画像データに基づく前記画像に、前記パターン情報に基づく前記パターンが含まれるか否かを判断するパターン判断手段と、前記パターン判断手段によって前記画像データに基づく前記画像に前記パターンが含まれると判断された場合に、前記音声データ取得手段によって取得された前記音声データに基づく前記音声に対して音声認識処理を実行することで、前記音声に対応するテキストデータを生成する音声認識手段と、前記パターン判断手段によって前記画像データに基づく前記画像に前記パターンが含まれると判断された場合に、前記音声認識手段による前記音声認識処理が実行可能な状態を示す表示である実行表示を、前記頭部装着部に設けられた表示部に表示する第一表示制御手段と、前記音声認識手段によって生成された前記テキストデータに基づいて処理を実行する実行手段とを備え、前記記憶部には、前記頭部装着部の制御を指示する操作ワードに対応する指示データと、前記頭部装着部に実行させる動作についてのデータである動作データとが対応付けられた対応データが記憶され、前記記憶部に記憶された前記対応データと前記テキストデータとの比較に基づいて、前記音声認識手段によって生成された前記テキストデータに、前記指示データが含まれるか否かを判断する指示判断手段を備え、前記実行手段は、前記指示判断手段によって前記テキストデータに前記指示データが含まれると判断された場合に、前記対応データにおいて前記指示判断手段によって含まれると判断された前記指示データに対応付けられた前記動作データに基づく動作を前記頭部装着部に実行させる。
この場合、撮像部によって撮像された画像に所定のパターンが含まれる場合に、音声認識処理が実行され、生成されたテキストデータに基づいて処理が実行される。このため、頭部装着部のユーザは、撮像部をパターンに向けて画像を撮像させるだけで、音声認識装置に音声認識処理を実行させることができる。よって、例えば、手で頭部装着部のスイッチ等を操作する必要がなく、ユーザはハンズフリーで、音声認識装置に音声認識処理を実行させることができる。また、頭部装着部のユーザは、操作ワードを発声するだけで、頭部装着部に動作データに基づく動作を実行させることができる。
前記音声認識装置において、前記第一表示制御手段によって前記表示部に表示される前記実行表示は、前記記憶部に記憶された前記指示データに対応する前記操作ワードを示すテキストであってもよい。この場合、操作ワードを示すテキストが表示部に表示されるので、頭部装着部のユーザは、使用可能な操作ワードを確認できる。
前記音声認識装置において、前記記憶部には、前記対応データと前記パターン情報とが対応付けて記憶され、前記指示判断手段は、前記記憶部において前記パターン判断手段によって前記画像に含まれると判断された前記パターンついての前記パターン情報に対応付けられた前記対応データと前記テキストデータとの比較に基づいて、前記音声認識手段によって生成された前記テキストデータに、前記指示データが含まれるか否かを判断してもよい。この場合、対応データとパターン情報とが対応付けられているので、指示判断手段は、撮像手段によって撮像されるパターンに基づいて、テキストデータに指示データが含まれるか否かを判断するための候補を絞りこむことができる。よって、指示判断手段による判断精度が向上する。
前記音声認識装置において、前記記憶部には複数の前記対応データが記憶され、前記複数の対応データは夫々、互いに異なる種類の複数の前記パターン情報に対応付けられ、
前記指示判断手段は、前記記憶部に記憶された前記複数のパターン情報のうち、前記パターン判断手段によって前記画像に含まれると判断された前記パターンについての前記パターン情報に対応付けられた前記対応データを参照し、前記音声認識手段によって生成された前記テキストデータに、前記指示データが含まれるか否かを判断してもよい。この場合、複数のパターン情報に分けられて対応データが対応付けられている。このため、全ての指示データが、1つのパターン情報に対応付けられている場合に比べて、パターン情報に対応付けられている対応データ中の指示データの数が少なくなる。よって、指示判断手段におけるテキストデータに指示データが含まれているか否かの判断の精度が向上する。よって、より確実に、実行手段によって指示データに対応付けられた動作データに基づく動作を頭部装着部に実行させることができる。
前記音声認識装置において、前記第一表示制御手段によって前記表示部に表示される前記実行表示は、前記記憶部に記憶された前記複数のパターン情報のうち、前記パターン判断手段によって前記画像に含まれると判断された前記パターンについての前記パターン情報に対応付けられた前記対応データに含まれる前記指示データに対応する操作ワードを示すテキストであってもよい。この場合、操作ワードを示すテキストが表示部に表示されるので、頭部装着部のユーザは、使用可能な操作ワードを確認できる。
前記音声認識装置は、第一所定時間以上継続して、前記パターン判断手段によって前記画像データに基づく前記画像に前記パターンが含まれると判断された場合に、前記音声認識手段による前記音声認識処理を停止する第一処理停止手段を備えてもよい。パターンが第一所定時間以上画像に含まれる場合、ユーザが音声認識処理を音声認識装置に実行させようとしている可能性が低い。この場合に、自動で音声認識処理が停止されるので、ユーザの利便性が向上する。
前記音声認識装置は、前記第一処理停止手段によって前記音声認識手段による前記音声認識処理が停止された場合に、前記第一表示制御手段による前記実行表示の表示を停止する第一表示停止手段を備えてもよい。音声認識処理が停止される場合に実行表示が停止されるので、ユーザは、音声認識処理が停止されたことを認識することができる。
前記音声認識装置は、前記音声認識手段によって前記音声認識処理の実行が開始された後、前記パターン判断手段によって前記画像データに基づく前記画像に前記パターンが含まれないと判断された場合に、第二所定時間経過後に、前記音声認識手段による前記音声認識処理を停止する第二処理停止手段を備えてもよい。この場合、パターンが画像に含まれなくなっても第二所定時間の間、音声認識処理が実行される。よって、例えば、ユーザは撮像部をパターンに向けることなく、第二所定時間の間、作業をしながら音声認識処理を使用することができる。よって、ユーザの作業効率が向上する。また、例えば、撮像部が撮像する画像から一時的にパターンが外れても、音声認識処理が継続されるので、ユーザは常に撮像部をパターンに向けておく必要がない。よって、ユーザの作業効率が向上する。また、第二所定時間経過後に自動で音声認識処理が停止されるので、ユーザが音声認識処理の停止の操作をする必要がない。よって、ユーザの利便性が向上する。
前記音声認識装置は、前記第二処理停止手段によって前記音声認識手段による前記音声認識処理が停止された場合に、前記第一表示制御手段による前記実行表示の表示を停止する第二表示停止手段を備えてもよい。この場合、音声認識処理が停止される場合に実行表示が停止されるので、ユーザは、音声認識処理が停止されたことを認識することができる。また、第二処理停止手段によって実行表示の表示が停止されるまでは、第一表示制御手段による実行表示の表示が継続されるので、ユーザは、音声認識処理が実行されていることを認識することができる。
前記音声認識装置は、前記画像データ取得手段によって取得された前記画像データに基づく前記画像を前記表示部に表示する第二表示制御手段を備えてもよい。この場合、ユーザは撮像手段によって撮像された画像にパターンが含まれているか否かを把握することができる。このため、撮像部にパターンを撮像させる場合、及び撮像させない場合を容易に切り替えることができる。よって、ユーザは、音声認識処理を実行させるか否かを切り替えることができる。
本発明の第2の態様に係る音声認識プログラムは、音声認識装置において実行される音声認識プログラムであって、前記音声認識装置のコントローラに、音声入力部に入力された音声の音声データを取得する音声データ取得ステップと、頭部に装着可能な頭部装着部に設けられた撮像部によって撮像された画像の画像データを取得する画像データ取得ステップと、記憶部に記憶された所定のパターンを示す情報であるパターン情報と前記画像データとの比較に基づいて、前記画像データ取得ステップによって取得された前記画像データに基づく前記画像に、前記パターン情報に基づく前記パターンが含まれるか否かを判断するパターン判断ステップと、前記パターン判断ステップによって前記画像データに基づく前記画像に前記パターンが含まれると判断された場合に、前記音声データ取得ステップによって取得された前記音声データに基づく前記音声に対して音声認識処理を実行することで、前記音声に対応するテキストデータを生成する音声認識ステップと、前記パターン判断ステップによって前記画像データに基づく前記画像に前記パターンが含まれると判断された場合に、前記音声認識ステップによる前記音声認識処理が実行されることを示す表示である実行表示を、前記頭部装着部に設けられた表示部に表示する第一表示制御ステップと、前記音声認識ステップによって生成された前記テキストデータに基づいて処理を実行する実行ステップとを実行させ、前記記憶部には、前記頭部装着部の制御を指示する操作ワードに対応する指示データと、前記頭部装着部に実行させる動作についてのデータである動作データとが対応付けられた対応データが記憶され、前記記憶部に記憶された前記対応データと前記テキストデータとの比較に基づいて、前記音声認識ステップによって生成された前記テキストデータに、前記指示データが含まれるか否かを判断する指示判断ステップを実行させ、前記実行ステップは、前記指示判断ステップによって前記テキストデータに前記指示データが含まれると判断された場合に、前記対応データにおいて前記指示判断ステップによって含まれると判断された前記指示データに対応付けられた前記動作データに基づく動作を前記頭部装着部に実行する。この場合、手で頭部装着部のスイッチ等を操作する必要がなく、ユーザはハンズフリーで、音声認識装置に音声認識処理を実行させることができる。


HMD1の斜視図である。 HMD1及びサーバ80の電気的構成を示すブロック図である。 パターンデータテーブル95のデータ構成図である。 画像表示部14に表示される画像の一例を示す図である。 第一メイン処理のフローチャートである。 画像表示部14に表示される画像の一例を示す図である。 第二メイン処理のフローチャートである。
以下、本発明を具体化した実施の形態について、図面を参照して説明する。図1に示すように、ヘッドマウントディスプレイ(以下、「HMD」という。)1は、投影装置(以下、「ヘッドディスプレイ」又は「HD」という。)10と制御装置(以下、「コントロールボックス」又は「CB」という。)50を備える。HD10は、例えばユーザの頭部に装着される。CB50は、例えばユーザの腰ベルトや腕等に装着される。HMD1は、図2に示すサーバ80と、無線通信又は有線通信を介して接続し、システムを構成することも可能である。以下の説明において、図1の上方、下方、右斜め下方、左斜め上方、右斜め上方及び左斜め下方がそれぞれ、HMD1の上方、下方、前方、後方、右方及び左方である。
HD10は専用の装着具である眼鏡5に装着して使用される。HD10は、ユーザが日常的に使用する眼鏡、ヘルメット、ヘッドホンなど、他の装着具に取り付けられてもよい。HD10は、ユーザの眼に画像光を照射する。HD10はハーネス7を介してCB50と着脱可能に接続する。CB50は、HD10を制御する。
HD10の構成について説明する。HD10は筐体2を備える。筐体2は、HMD1のユーザ側から見て右端側(図1における左側)にハーフミラー3を備える。ハーフミラー3は、ユーザがHD10を頭部に装着したとき、ユーザの眼(例えば左眼)の前方に配置される。HD10は、筐体2の内部に、画像表示部14(図2参照)と接眼光学系(図示略)を備える。画像表示部14は、CB50からハーネス7を介して送信される映像信号に基づいて画像を表示する。画像表示部14は、例えば、液晶素子等の空間変調素子及び光源である。画像表示部14は、画像信号に応じた強度のレーザ光を2次元走査して画像表示を行う網膜走査型表示部、液晶ディスプレイ、及び有機EL(Organic Electro-luminescence)ディスプレイ等であってもよい。HD10は、カメラ20を備える。カメラ20は、HD10の正面方向の外界の風景を撮像する。
接眼光学系は、画像表示部14に表示された画像を示す画像光を集光し、ハーフミラー3に対して射出する。接眼光学系から射出された画像光は、筐体2の左側に設けられたハーフミラー3によって少なくとも一部(例えば半分)が反射される。HMD1がユーザに装着されている場合、ハーフミラー3によって反射された画像光は、ユーザの一方(例えば左)の眼球(図示略)に入射する。ハーフミラー3は外界の実像からの光の少なくとも一部を透過するので、ユーザは、自己の視野において実像(外界の風景)に重畳して画像を見ることができる。
眼鏡5は、HD10をユーザの頭部に保持するための構成である。眼鏡5は、フレーム6において、左眼用レンズを支えるリム部の上面右端(ユーザから見て上面左端)に、支持部4を備える。支持部4は、HD10の筐体2を保持し、筐体2を眼鏡5に取り付ける。支持部4は、筐体2の保持位置を上下方向及び左右方向に調整することができる。ユーザは、眼球の位置に合わせた位置にハーフミラー3を配置することができる。
眼鏡5は、フレーム6において、右耳に掛けるテンプル部に、マイク17及びイヤホン18を内蔵するヘッドセット16を備える。ヘッドセット16には骨伝導型のものを用いてもよい。なお、眼鏡5自体の形状は通常の眼鏡に類似のため、詳細な説明は省略する。
CB50の構成について説明する。CB50は、略直方体状で縁部を丸めた箱型の筐体を有する。CB50は電源ランプ63を内蔵する電源スイッチ62を含む操作部61を備える。ユーザは、電源スイッチ62を操作し、HMD1の電源をオン又はオフにすることができる。ユーザは、HD10における各種設定や、使用時における各種操作等を、操作部61を介して行うことが可能である。
CB50は、公知の無線通信を介して図2に示すサーバ80と接続し、サーバ80との間で音声データや画像データを含む各種データの送受信を行うことが可能である。CB50は有線通信のインターフェイスを備え、通信ケーブルを用いてネットワーク9(図2参照)に接続し、サーバ80と接続してもよい。あるいはCB50は、USBインターフェイスを備え、USBケーブルを用い、サーバ80に接続してもよい。なお、サーバ80は、パーソナルコンピュータ、スマートフォン、及びタブレット型携帯端末など、その他の機器であってもよい。
図2を参照し、HMD1の電気的構成について説明する。HD10は、HD10全体の制御を行うCPU11を備える。CPU11は、RAM12、プログラムROM13、画像表示部14、インターフェイス15、及び接続コントローラ19に電気的に接続される。CPU11は、インターフェイス15を介してカメラ20及びヘッドセット16に電気的に接続される。RAM12は、各種データを一時的に記憶する。プログラムROM13は、CPU11が実行する各種プログラム等を記憶する。各種プログラムは、HD10の出荷時にプログラムROM13に記憶される。なお、CPU11は、後述するCB50のフラッシュROM54に記憶されたプログラムも実行することができる。
画像表示部14は前述の通り、映像信号に基づいて画像を表示する。インターフェイス15はカメラ20及びヘッドセット16に接続し、信号の入出力を制御する。接続コントローラ19は、ハーネス7を介してCB50の接続コントローラ58に接続し、有線通信を行う。カメラ20は画像を撮像する。ヘッドセット16はマイク17及びイヤホン18を備える。ヘッドセット16はマイク17に入力するアナログの音をデジタルに変換し、インターフェイス15を介して音声データをCPU11に送信する。ヘッドセット16はインターフェイス15を介してCPU11から受信する音声データをデジタルからアナログに変換し、イヤホン18から出力する。なお、HD10は、ヘッドセット16の代わりに、筐体2にマイクとスピーカを内蔵してもよい。
CB50の電気的構成について説明する。CB50は、CB50全体の制御を行うCPU51を備える。CPU51は、RAM52、プログラムROM53、フラッシュROM54、インターフェイス55、ビデオRAM56、画像処理部57、接続コントローラ58、及び無線通信部59に電気的に接続される。RAM52は、各種データを一時的に記憶する。
プログラムROM53は、CPU51が実行する各種プログラム等を記憶する。プログラムROM53は、メインプログラム記憶エリア531を少なくとも備える。メインプログラム記憶エリア531は、CPU51がHMD1の各種動作を制御するために実行するメインプログラムを記憶する。メインプログラムは、例えば、後述する第一メイン処理を実行するためのプログラム等を含む。また、プログラムROM53は、OSを記憶する。メインプログラムは、OS上で実行される。メインプログラム及びOSは、HMD1の出荷時にプログラムROM53に記憶される。また、HMD1は、プログラムダウンロード用のサーバからメインプログラム及びOSを無線通信部59を介してダウンロードし、インストールしてもよい。例えば、メインプログラム及びOSは、コンピュータで読み取り可能な一時的な記憶媒体(例えば、伝送信号)として、サーバからHMD1に送信される。メインプログラムは、HMD1が備えるコンピュータで読み取り可能な記憶装置、例えば、プログラムROM53に保存される。但し、記憶装置は、例えばROM、フラッシュROM、HDD、RAMなどの、一時的な記憶媒体を除く記憶媒体であってよい。また、記憶装置は、非一時的な記憶媒体であってよい。非一時的な記憶媒体は、データを記憶する時間の長さに関わらず、データを留めておくことが可能なものである。なお、CPU51は、フラッシュROM54に記憶されたプログラムも実行可能である。
フラッシュROM54は、インストールされる各種プログラム等を記憶する。インターフェイス55は電源スイッチ62及び電源ランプ63を含む操作部61に接続し、ユーザによる操作の入力信号やランプの点灯信号等の入出力を行う。画像処理部57は、HD10の画像表示部14に表示する画像を形成する処理を行う。なお、画像処理部57は、CPU41がプログラムに従って実行するデータ処理で実現されてもよいし、電気回路で実現されてもよい。ビデオRAM56は、画像処理部57が形成した画像を画像表示部14に表示するための映像信号を生成するため、画像を仮想的に表示した仮想画面を記憶領域内に形成する。接続コントローラ58は、ハーネス7を介してHD10の接続コントローラ19に接続し、有線通信を行う。無線通信部59は、ネットワーク9のアクセスポイント(図示略)へ無線で接続し、例えば、サーバ80など、ネットワーク9に接続する他の機器と通信を行う。
サーバ80は、サーバ80全体の制御を行うCPU81を備える。CPU81は、データバスを介してROM82、RAM83、及び入出力バス(以下、「I/Oバス」という。)85と電気的に接続する。ROM82は、CPU81が実行するBIOS等のプログラムを記憶する読出し専用の記憶装置である。RAM83は、データを一時的に記憶する読み書き可能な記憶装置である。
I/Oバス85には、ハードディスクドライブ(以下、「HDD」という。)84及び通信部86が接続されている。HDD84は、OSやプログラム等がインストールされる記憶装置である。通信部86は、ネットワーク9のアクセスポイント(図示略)へ有線通信又は無線通信で接続し、サーバ80をネットワーク9に接続する。また、図示しないが、I/Oバス85にはマウスやキーボード等の入力デバイスも接続されている。
図3を参照して、パターンデータテーブル95について説明する。パターンデータテーブル95は、例えば、フラッシュROM54に記憶されている。パターンデータテーブル95にはパターン情報と対応データとが対応付けられている。パターン情報は、所定のパターンを示す情報である。対応データは、複数の指示データと複数の動作データとを含む。例えば、指示データ「再生」、「停止」、「早送り」、「巻戻し」と、夫々の指示データに対応付けられている動作データとが、パターン901のパターン情報に対応付けられている1の種類の対応データである。同様に、指示データ「拡大」、「縮小」、「元のサイズ」、「画面フィット」と、夫々の指示データに対応付けられている動作データとが、パターン902のパターン情報に対応付けられている1の種類の対応データである。指示データ「次のページ」、「前のページ」と、夫々の指示データに対応付けられている動作データとが、パターン903のパターン情報に対応付けられている1の種類の対応データである。指示データ「録画」、「停止」と、夫々の指示データに対応付けられている動作データとが、パターン904のパターン情報に対応付けられている1の種類の対応データである。
パターン901〜904は、それぞれ、星形、三角形、五角形、及びひし形である。以下の説明では、パターン901〜904等、種々のパターンを総称する場合、又はいずれかを特定しない場合、パターン90という。指示データは、HMD1の制御を指示する操作ワードに対応する指示のデータである。操作ワードは、ユーザが発する言葉である。動作データは、HMD1に実行させる動作についてのデータである。例えば、ユーザが操作ワード「再生」を発声すると、「再生」の指示データが対応データに含まれると判断され(後述する図5のS25:YES)、動作データ「動画の再生を開始する」に基づく動作が実行される(後述する図5のS26)。
図4を参照して、画像表示部14に表示される画像の一例について説明する。図4に示すように、画像表示部14の左下部には、撮像画像表示領域141が設けられている。撮像画像表示領域141には、カメラ20によって撮像された自動車142が表示されている。撮像画像表示領域141の右上には、表示領域143が設けられている。表示領域143には、動画及び作業マニュアル等、種々の画像が表示される。本実施形態では、自動車142についての修理マニュアルの動画が表示されるとする。なお、図4に示す表示領域143に表示された動画は、まだ再生されておらず、静止画の状態であるとする。
図5を参照して、第一メイン処理について説明する。操作部50を介して第一メイン処理のプログラムの起動指示が受け付けられると、CPU51は、プログラムROM53に記憶された第一メイン処理のプログラムをRAM52に展開し、処理を実行する。なお、以下の説明では、HMD1は、ネットワーク9及びサーバ80に接続されていないとする。また、図4に示す自動車142が作業対象物であり、ユーザが自動車142の修理をする場合を具体例として例示しながら説明する。図4に示す表示領域143には、自動車142の修理マニュアルの動画の初期画面の静止画が表示されている。この修理マニュアルは、フラッシュROM54に記憶されており、ユーザの操作によって選択されることで、表示領域143に表示されているとする。
第一メイン処理では、CPU51は、マイク17から入力される音声の音声データの取得を開始する(S11)。CPU51は、S11を実行した後、音声データの取得を継続する。CPU51は、カメラ20に対して制御信号を送信することにより、画像データを取得する(S12)。CPU51は、S12で取得した画像データに基づく画像を画像表示部14に表示する指示を、HD10に送信する(S13)。具体例では、ユーザが自動車142に前方に立っており、カメラ20は自動車142に向けられているとする。この場合、図4に示すように、自動車142を前方から見た画像が撮像画像表示領域141に表示される。
CPU51は、図3に示すパターンデータテーブル95のパターン情報とS12において取得した画像データとの比較に基づいて、S12において取得した画像データに基づく画像に、パターン情報に基づくパターン90が含まれるか否かを特定する(S14)。すなわち、CPU51は、画像解析を実行する。
画像解析の一例について述べる。例えば、CPU51は、画像データに基づく画像に対して公知のエッジ抽出を実行する。エッジ抽出には、例えば、2次微分及びハフ変換等を用いることができる。これによって、CPU51は、パターン90及び自動車142等の輪郭を抽出する。次いで、CPU51は、パターンマッチング法によって、画像中に、図3に示すパターンデータテーブル95に登録されているパターン情報に対応するパターン90が含まれているか否かを特定する。
CPU51は、S14の結果、S12で取得された画像データに基づく画像にパターン90が含まれるか否かを判断する(S15)。画像にパターン90が含まれない場合(S15:NO)、CPU51は処理をS12に戻す。
具体例において、図6に示すように、カメラ20が自動車142の横(紙面右側)に配置されたパターン901の方向に向けられたとする。この場合、CPU51は、パターン901が撮像された画像データを取得し(図5のS12)、図6に示すように撮像画像表示領域141に表示する指示を、HD10に送信する(図5のS13)。なお、パターン901は、カードに描かれており、事前に机の上に置かれている。図6では説明のため、パターン901を大きく表示している。図3に示すパターンデータテーブル95には、パターン901が登録されているので、CPU51は、S12において取得した画像データに基づく画像にパターン901が含まれることを特定する(S14)。そして、CPU51は、パターン901が含まれると判断する(S15:YES)。
図5に示すように、画像にパターン90が含まれる場合(S15:YES)、CPU51は、音声認識処理が実行可能な状態を示す情報である実行表示144を画像表示部14に表示する指示を、HD10に送信する(S16)。本実施形態における実行表示144は、操作ワードを示すテキストである。具体例では、CPU51は、S14において画像にパターン901が含まれていることを特定している。このため、S16において、CPU51は、図3に示すパターンデータテーブル95に登録されている複数のパターン90のうち、パターン901のパターン情報に対応付けられた指示データ「再生」、「停止」、「早送り」、「巻戻し」を特定する。そして、CPU51は、図6に示すように、指示データ「再生」、「停止」、「早送り」、「巻戻し」に対応する操作ワードを示すテキスト「再生」、「停止」、「早送り」、「巻戻し」を画像表示部14に表示する指示を、HD10に対して送信する。操作ワードを示すテキストが表示されることで、ユーザは、HMD1において音声認識処理が実行されることを認識することができる。また、操作ワードを示すテキストが画像表示部14に表示されるので、HMD1のユーザは、使用可能な操作ワードを確認できる。
CPU51は、OSのタイマ機能を利用して、時間T1の計測を「0」から開始する(S17)。CPU51は、マイク17を介して取得した音声データに基づく音声のレベルが、所定レベル以上であるか否かを判断する(S18)。所定レベルは、周囲の雑音より大きいレベルに設定される。例えば、ユーザが発声した場合には、CPU51は、音声データに基づく音声のレベルが所定レベル以上であると判断する。なお、所定レベルは、予めフラッシュROM54に記憶されていてもよいし、ユーザが発声していない定常状態の時の音声データに基づく音声より大きいレベルにCPU51が設定してもよい。
音声のレベルが所定レベル以上でない場合(S18:NO)、CPU51は、時間T1が第一所定時間より大きくなったか否かを判断する(S19)。なお、S19は、後述するS23において、後述するS20で取得された画像データに基づく画像にパターン90が含まれると判断された場合に(S23:YES)、継続して実行される。すなわち、CPU51は、S19において、第一所定時間以上継続して、S20で取得した画像データに基づく画像にパターン90が含まれるか否かを判断している。
時間T1が第一所定時間より大きくない場合(S19:NO)、CPU51は、S12と同様に、画像データを取得する(S20)。CPU51は、S13と同様に、S20で取得した画像データに基づく画像を画像表示部14に表示する指示を、HD10に送信する(S21)。CPU51は、S14と同様に、パターンデータテーブル95のパターン情報とS20において取得された画像データとの比較に基づいて、S20で取得した画像データに基づく画像に、パターン情報に基づくパターン90が含まれるか否かを特定する(S22)。CPU51は、S22の結果に従って、S20において取得した画像データに基づく画像にパターン90が含まれるか否かを判断する(S23)。画像にパターン90が含まれる場合(S23:YES)、CPU51は処理をS18に戻す。
音声のレベルが所定レベル以上である場合(S18:YES)、CPU51は、マイク17を介して取得した音声データに基づく音声に対して音声認識処理を実行することで、音声に対応するテキストデータを生成する(S24)。すなわち、本実施形態では、画像にパターン90が含まれると判断された場合に(S15:YES)、音声認識処理が実行される状態になっている。CPU51は、生成したテキストデータを、RAM52に記憶する。具体例においては、ユーザが「動画を再生」と言葉を発声したとする。この場合、CPU51は、音声のレベルが所定レベル以上であると判断し(S18:YES)、音声認識処理によって「動画を再生」のテキストデータを作成する(S24)。
CPU51は、パターンデータテーブル95に登録された指示データと、S24において生成したテキストデータとの比較に基づいて、S24において生成したテキストデータに指示データが含まれるか否かを判断する(S25)。より詳細には、S25において、CPU51は、パターンデータテーブル95における複数のパターン情報のうち、S15又はS23において画像に含まれると判断したパターン90についてのパターン情報に対応付けられた対応データを参照する。そして、CPU51は、S24において生成したテキストデータに、指示データが含まれるか否かを判断する。具体例では、CPU51は、S24の音声認識処理において「動画を再生」のテキストデータを作成している。また、CPU51は、S15又はS23において、パターン901のパターン情報が含まれると判断している。パターン901のパターン情報には、指示データ「再生」が対応付けられている。よって、CPU51は、テキストデータに、指示データが含まれると判断し(S25:YES)、S26を実行する。
CPU51は、S25において含まれると判断した指示データに対応付けられた動作データに基づく動作を実行する(S26)。具体例の場合、図3に示すパターンデータテーブル95において、指示データ「再生」には、動作データ「動画の再生を開始する」が登録されている。よって、CPU51は、表示領域143に表示された修理マニュアルの動画の再生を開始する。これによって、ユーザは修理マニュアルの動画を確認しながら、自動車142の修理を行うことができる。CPU51は処理をS18に戻す。なお、S25において、CPU51は、テキストデータに指示データが含まれないと判断した場合(S25:NO)、処理をS18に戻す。すなわち、CPU51は、ユーザが会話等を行い、指示データに含まれない言葉を発声しても、S26を実行しない。
第一所定時間以上継続して、S20で取得される画像データに基づく画像にパターン90が含まれる場合、CPU51は、時間T1が第一所定時間より大きいと判断する(S19:NO)。この場合、CPU51は、S16において開始した実行表示144の表示を停止する指示を、HD10に対して送信する(S27)。なお、CPU51は、S27を実行する場合、S24を実行しない。すなわち、CPU51は、音声認識処理を停止する場合に、S27において実行表示144の表示を停止している。CPU51は、時間T1の計測を停止する(S28)。CPU51は、処理をS12に戻す。
CPU51は、S20において取得した画像データに基づく画像にパターン90が含まれないと判断した場合(S23:NO)、処理をS27に進める。すなわち、CPU51は、カメラ20がパターン90が撮像されない向きに向けられた場合、音声認識処理を停止し、実行表示144の表示を停止する。
以上のように、CPU51は、本実施形態における処理を実行する。本実施形態では、CPU51は、カメラ20によって撮像された画像にパターン90が含まれる場合(S15:YES、又は、S23:YES)、音声認識処理を実行する(S24)。そして、CPU51は、音声認識処理によって生成したテキストデータに基づいて処理を実行する(S26)。このため、CPU51は、カメラ20がパターン90に向けられて画像が撮像されるだけで、音声認識処理を実行する。よって、例えば、ユーザは手でスイッチ等を操作する必要がなく、ハンズフリーで、CPU51に音声認識処理を実行させることができる。具体例において動画の再生が開始された後、ユーザが、動画の停止、早送り、及び巻戻しのいずれかをHMD1に実行させたい場合に、カメラ20をパターン901に向ければ、音声認識処理を開始させることができる(S15:YES)。ユーザは、「停止」、「早送り」、及び「巻戻し」のいずれかの操作ワードを発声することで、HMD1を操作することができる(S18:YES、S24、及びS26)。
また、ユーザが操作ワードを発声すると、CPU51は、S24において生成したテキストデータに、指示データが含まれると判断し(S25:YES)、動作データに基づく動作を実行する(S26)。すなわち、ユーザが操作ワードを発声するだけで、操作ワードに対応する動作をHMD1に実行させることができる。よって、ユーザの利便性が向上する。
また、図3のパターンデータテーブル95では、複数の対応データが記憶され、複数の対応データは互いに異なる種類の複数のパターン情報に対応付けられている。すなわち、複数のパターン情報に分けられて指示データが対応付けられている。このため、全ての指示データが1つのパターン情報に対応付けられている場合に比べて、パターン情報に対応付けられている対応データ中の指示データの数が少なくなる。よって、CPU51が生成したテキストデータに指示データが含まれているか否かの判断を行うS25の精度が向上する。よって、CPU51は、S26において、指示データに対応付けられた動作データに基づく動作をHMD1により確実に実行させることができる。
カメラ20によって撮像された画像にパターン90が第一所定時間以上含まれる状況として、例えば、ユーザが作業を終了し、パターン90がカメラ20に撮像される位置にHMD1を置いた場合、又は、パターン90がカメラ20に撮像される位置でユーザが休んでいる場合などの状況が考えられる。これらの例のように、カメラ20によって撮像された画像にパターン90が第一所定時間以上含まれる場合、ユーザが音声認識処理をHMD1に実行させようとしている可能性が低い。この場合に、CPU51は、自動で音声認識処理を停止する(S19:YES)。よって、ユーザの利便性が向上する。
また、CPU51は、音声認識処理を停止する場合(S19:YES、又は、S23:NO)、実行表示144の表示を停止する(S27)。よって、ユーザは、実行表示144の表示が画像表示部14から消えることを確認することで、音声認識処理が停止されたことを認識することができる。
また、CPU51は、カメラ20によって撮像された画像を画像表示部14に表示する(S13及びS21)。このため、ユーザは、カメラ20によって撮像された画像にパターン90が含まれるか否かを把握することができる。このため、カメラ20にパターン90を撮像させる場合、及び撮像させない場合を容易に切り替えることができる。よって、ユーザは、HMD1に音声認識処理を実行させるか否かを切り替えることができる。
上記実施形態において、HMD1は本発明の「音声認識装置」の一例である。マイク17は本発明の「音声入力部」の一例である。ヘッドディスプレイ10及びHMD1は本発明の「頭部装着部」の一例である。フラッシュROM54は本発明の「記憶部」の一例である。S11において音声データの取得が開始された後、音声データの取得を継続する処理を行うCPU51は本発明の「音声データ取得手段」の一例である。S12及びS20の処理を行うCPU51は本発明の「画像データ取得手段」の一例である。S14、S15、S22、及びS23の処理を行うCPU51は本発明の「パターン判断手段」の一例である。S24の処理を行うCPU51は本発明の「音声認識手段」の一例である。S16の処理を行うCPU51は本発明の「第一表示制御手段」の一例である。画像表示部14は本発明の「表示部」の一例である。S26の処理を行うCPU51は本発明の「実行手段」の一例である。S25の処理を行うCPU51は本発明の「指示判断手段」の一例である。S19:YESの処理を行うCPU51は本発明の「第一処理停止手段」の一例である。S27の処理を行うCPU51は本発明の「第一表示停止手段」の一例である。S13及びS21の処理を行うCPU51は本発明の「第二表示制御手段」の一例である。
S11において音声データの取得が開始された後、音声データの取得を継続する処理は本発明の「音声データ取得ステップ」の一例である。S12及びS20の処理は本発明の「画像データ取得ステップ」の一例である。S14、S15、S22、及びS23の処理は本発明の「パターン判断ステップ」の一例である。S24の処理は本発明の「音声認識ステップ」の一例である。S16の処理は本発明の「第一表示制御ステップ」の一例である。S26の処理は本発明の「実行ステップ」の一例である。
なお、本発明は上記の実施形態に限定されるものではなく、種々の変更が可能である。例えば、S16では、実行表示144として、操作ワードを示すテキストが表示されているが、これに限定されない。例えば、実行表示144として、「音声認識処理を実行中です。」等のメッセージが表示されてもよい。また、音声認識処理が停止された場合に、S28において実行表示144の表示が停止されていたが、表示が停止されなくてもよい。また、S13及びS21において、カメラ20に撮像された画像が画像表示部14に表示されたが、表示されなくてもよい。
CPU51は、S11において音声データの取得を開始しているが、これに限定されない。例えば、CPU51は、S18〜S26を実行している間のみ、すなわち、音声認識処理が実行可能な状態にある時のみ、音声データの取得を行ってもよい。
また、具体例において、パターン90が描かれたカードが机上に置かれていたが、これに限定されない。例えば、ユーザがパターン90が描かれたカードを手で持ち、カメラ20に撮像させてもよい。この場合でも、ユーザは従来のように音声制御切り換えスイッチのオン・オフを操作する必要がないので、音声制御切り替えスイッチを手で探すことなどの行う必要がない。よって、従来の場合に比べてハンズフリーでの作業性が向上する。
また、パターン90は星形等の形状であったが、これに限定されない。例えば、パターン90は、模様又は色等であってもよい。パターン90は特定の図形でなく、コップの形状など、外界に実際に存在する物体の形状であってもよい。パターン90がコップの形状の場合、カメラ20がコップに向けられれば、CPU51は音声認識処理を開始する。また、例えば、パターン90はユーザが作業を行う作業対象物の一部であってもよい。例えば、自動車が作業対象物である場合、パターン90はナンバープレートであってもよい。この場合、ユーザは自動車に対して作業を行いながら、音声認識処理をHMD1に実行させたい場合に、ナンバープレートにカメラ20を向ける。このため、ユーザは作業対象物の他にパターン90が描かれたカード等を用意してカメラ20に撮像させる必要がなく、ユーザの作業効率が向上する。また、パターン90は、身体の一部、例えば、人間の手であってもよい。この場合、ユーザは、手をカメラ20に撮像させることで、音声認識処理をHMD1に実行させることができる。
また、CPU51は、S26において、S25において含まれると判断した指示データに対応付けられた動作データに基づく動作を実行しなくてもよい。CPU51は、S26において、S24において生成したテキストデータに基づいて処理を行えばよい。例えば、CPU51は、S26において、S24において生成したテキストデータをフラッシュROM54に記憶してもよい。
また、図3のパターンデータテーブル95では、複数の対応データが記憶され、複数の対応データは互いに異なる種類の複数のパターン情報に対応付けられていたが、これに限定されない。対応データがパターン情報に対応付けられていればよく、例えば、1つのパターン情報のみに対応データが対応付けられていてもよい。この場合でも、対応データとパターン情報とが対応付けられているので、CPU51は、S25において判断を行う場合に、カメラ20によって撮像されるパターン90に基づいて、テキストデータに指示データが含まれるか否かを判断するための候補を絞りこむことができる。よって、S25における判断精度が向上する。
また、CPU51は、第一所定時間以上継続して画像にパターン90が含まれる場合(S19:YES)、又は、画像にパターン90が含まれない場合(S23:NO)、音声認識処理を停止する。しかし、例えば、CPU51は、音声認識処理の実行を開始した後、画像データに基づく画像にパターン90が含まれないと判断した場合に、第二所定時間経過後に、音声認識処理を停止してもよい。以下、この変形例について、図7を参照して詳述する。
図7に示す第二メイン処理において、図5に示す第一メイン処理と同様の処理は同じ符号で示し、詳細の説明は省略する。図7に示すように、第二メイン処理では、CPU51は、第一メイン処理と同様に、S11〜S16の処理を実行する。CPU51は、S16の処理を実行した後、S18を実行する。CPU51は、S18において、音声のレベルが所定レベル以上であると判断した場合(S18:YES)、第一メイン処理と同様に、S24〜S26の処理を実行する。音声のレベルが所定レベル以上でない場合(S18:NO)、CPU51は、S20〜S23の処理を実行する。S20〜S23は第一メイン処理と同様である。
CPU51は、S20において取得した画像データに基づく画像にパターン90が含まれないと判断した場合(S23:NO)、時間T2を計測中であるか否かを判断する(S31)。時間T2を計測中である場合(S31:YES)、CPU51は、後述するS33を実行する。時間T2を計測中でない場合(S31:NO)、CPU51は、OSのタイマ機能を利用して、時間T2の計測を「0」から開始する(S32)。CPU51は、時間T2が第二所定時間より大きいか否かを判断する(S33)。第二所定時間は例えば、20秒である。時間T2が第二所定時間よりも大きくない場合(S33:NO)、CPU51は処理をS18に戻す。すなわち、CPU51はS24による音声認識処理を継続する。
時間T2が第二所定時間よりも大きい場合(S33:YES)、CPU51は、処理をS27に進める。すなわち、CPU51は、S24による音声認識処理の実行を停止する。CPU51は、時間T2の計測を停止する(S35)。CPU51は処理をS12に戻す。CPU51は、S23において、画像データに基づく画像にパターン90が含まれると判断した場合(S23:YES)、時間T2を「0」に設定する(S34)。なお、例えば、CPU51は、S32で時間T2の計測を開始していた場合、時間T2を「0」に設定すると共に、時間T2の計測を停止する。CPU51は処理をS18に戻す。すなわち、CPU51は、S24による音声認識処理の実行を継続する。
以上のように、本変形例に係る処理が実行される。本変形例では、CPU51は、画像にパターン90が含まれると判断し(S15:YES)、音声認識処理の実行を開始した後、画像にパターン90が含まれないと判断した場合に(S23:NO)、第二時間経過後に、音声認識処理を停止する(S33:YES)。言い換えると、CPU51は、パターン90が画像に含まれなくなっても、第二所定時間の間、音声認識処理を実行する(S33:NO、及びS24)。よって、例えば、音声認識処理が開始されれば(S15:YES)、ユーザはカメラ20をパターン90に向けなくても、第二所定時間の間、作業をしながら音声認識処理を使用できる。よって、ユーザの作業効率が向上する。また、CPU51は、カメラ20が撮像する画像から一時的にパターン90が外れても、第二所定時間以内にパターン90が画像に含まれる状態になれば、音声認識処理を継続する(S23:YES)。カメラ20が撮像する画像から一時的にパターン90が外れても、音声認識処理が継続されるので、ユーザは常にカメラ20をパターン90に向けておく必要がない。よって、ユーザの作業効率が向上する。また、CPU51は、第二所定時間経過後に自動で音声認識処理を停止するので(S33:YES)、ユーザが音声認識処理の停止の操作をする必要がない。よって、ユーザの利便性が向上する。
また、本変形例におけるS27では、CPU51は、時間T2が第二所定時間より大きくなり、音声認識処理を停止した場合に、実行表示144の表示を停止する。よって、ユーザは、音声認識処理が停止されたことを認識することができる。また、S27において実行表示144の表示が停止されるまでは、実行表示144の表示が継続されるので、ユーザは、音声認識処理が実行されていることを認識することができる。
本変形例において、S33:YESの処理を行うCPU51は本発明の「第二処理停止手段」の一例である。S27の処理を行CPU51は本発明の「第二表示停止手段」の一例である。
なお、第一メイン処理及び第二メイン処理がHMD1のCPU51によって実行されていたが、これに限定されない。例えば、第一メイン処理及び第二メイン処理はサーバ80のCPU81によって実行される処理であってもよい。すなわち、サーバ80が音声認識処理を実行してもよい。以下、第一メイン処理を例にして、サーバ80のCPU81によって処理が実行される場合の変形例について説明する。
以下の説明では、HMD1のCPU51とサーバ80のCPU81は、それぞれ、無線通信部59、通信部86を介してネットワーク9に接続され、相互にデータを送受信可能であるとする。また、第一メイン処理を実行するプログラム及びパターンデータテーブル95は、HDD84に記憶されているとする。以下の説明では、HMD1のCPU51が第一メイン処理を実行する場合と異なる処理について説明し、他の処理の説明は省略する。
S11で音声データの取得が開始されると、CPU81は音声データを取得する。CPU81が取得する音声データは、HMD1のCPU51がマイク17を介して取得し、サーバ80に送信した音声データである。また、S12及びS20においてCPU81が取得する画像データは、HMD1のCPU51がカメラ20を介して取得し、サーバ80に送信した画像データである。また、CPU81は、S13及びS21において画像表示部14に画像を表示させる場合、S12及びS20で取得した画像データをHMD1に送信する。HMD1のCPU51は画像データを受信し、画像表示部14に表示する。また、CPU81は、S16において実行表示144を画像表示部14に表示させる場合、実行表示144を表示するためのデータをHMD1に送信する。HMD1のCPU51は実行表示を表示するためのデータを受信し、画像表示部14が実行表示144を表示する。
CPU81は、S27において実行表示144の停止をする場合、実行表示144の停止を指示するデータをHMD1に送信する。HMD1のCPU51は、実行表示144の停止を指示するデータを受信し、実行表示144の表示を停止する。CPU81は、S26においてS25において含まれると判断された画像データに対応付けられた動作データに基づく動作をHMD1に実行させる。この場合、CPU81は、動作データに基づく動作を実行する指示のデータをHMD1に送信する(S26)。HMD1のCPU51は、動作データに基づく動作を実行する指示のデータを受信し、動作データに基づく動作を実行する。以上の処理以外の処理は、HMD1のCPU51が実行する場合と同様である。すなわち、画像データに基づく画像にパターン90が含まれると、音声認識処理が実行される。
本変形例において、サーバ80は本発明の「音声認識装置」の一例である。ヘッドディスプレイ10及びHMD1は本発明の「頭部装着部」の一例である。HDD84は本発明の「記憶部」の一例である。S11において音声データの取得が開始された後、音声データの取得を継続する処理を行うCPU81は本発明の「音声データ取得手段」の一例である。S12の処理を行うCPU81は本発明の「画像データ取得手段」の一例である。S14、S15、S22、及びS23の処理を行うCPU81は本発明の「パターン判断手段」の一例である。S24の処理を行うCPU81は本発明の「音声認識手段」の一例である。S16の処理を行うCPU81は本発明の「第一表示制御手段」の一例である。S26の処理を行うCPU81は本発明の「実行手段」の一例である。S25の処理を行うCPU81は本発明の「指示判断手段」の一例である。S19:YESの処理を行うCPU81は本発明の「第一処理停止手段」の一例である。S27の処理を行うCPU81は本発明の「第一表示停止手段」の一例である。
S11において音声データの取得が開始された後、音声データの取得を継続する処理は本発明の「音声データ取得ステップ」の一例である。S12の処理は本発明の「画像データ取得ステップ」の一例である。S14、S15、S22、及びS23の処理は本発明の「パターン判断ステップ」の一例である。S24の処理は本発明の「音声認識ステップ」の一例である。S16の処理は本発明の「第一表示制御ステップ」の一例である。S26の処理は本発明の「実行ステップ」の一例である。
前述したように、第二メイン処理についても、第一メイン処理と同様に、CPU81が実行してもよい。この場合、S33:YESの処理を行うCPU81は本発明の「第二処理停止手段」の一例である。S27の処理を行CPU81は本発明の「第二表示停止手段」の一例である。
なお、第一メイン処理及び第二メイン処理における全ての処理ステップをCPU51及びCPU81の一方のみが実行する必要は無く、CPU51が実行する処理ステップとCPU81が実行する処理ステップとを分けてもよい。
1 ヘッドマウントディスプレイ
10 ヘッドディスプレイ
51,81 CPU
14 画像表示部
17 マイク
20 カメラ
54 フラッシュROM
80 サーバ
84 HDD
90,901,902,903 パターン
95 パターンデータテーブル
144 実行表示

Claims (11)

  1. 音声入力部に入力された音声の音声データを取得する音声データ取得手段と、
    頭部に装着可能な頭部装着部に設けられた撮像部によって撮像された画像の画像データを取得する画像データ取得手段と、
    記憶部に記憶された所定のパターンを示す情報であるパターン情報と前記画像データとの比較に基づいて、前記画像データ取得手段によって取得された前記画像データに基づく前記画像に、前記パターン情報に基づく前記パターンが含まれるか否かを判断するパターン判断手段と、
    前記パターン判断手段によって前記画像データに基づく前記画像に前記パターンが含まれると判断された場合に、前記音声データ取得手段によって取得された前記音声データに基づく前記音声に対して音声認識処理を実行することで、前記音声に対応するテキストデータを生成する音声認識手段と、
    前記パターン判断手段によって前記画像データに基づく前記画像に前記パターンが含まれると判断された場合に、前記音声認識手段による前記音声認識処理が実行可能な状態を示す表示である実行表示を、前記頭部装着部に設けられた表示部に表示する第一表示制御手段と、
    前記音声認識手段によって生成された前記テキストデータに基づいて処理を実行する実行手段と
    を備え
    前記記憶部には、前記頭部装着部の制御を指示する操作ワードに対応する指示データと、前記頭部装着部に実行させる動作についてのデータである動作データとが対応付けられた対応データが記憶され、
    前記記憶部に記憶された前記対応データと前記テキストデータとの比較に基づいて、前記音声認識手段によって生成された前記テキストデータに、前記指示データが含まれるか否かを判断する指示判断手段を備え、
    前記実行手段は、前記指示判断手段によって前記テキストデータに前記指示データが含まれると判断された場合に、前記対応データにおいて前記指示判断手段によって含まれると判断された前記指示データに対応付けられた前記動作データに基づく動作を前記頭部装着部に実行させることを特徴とする音声認識装置。
  2. 前記第一表示制御手段によって前記表示部に表示される前記実行表示は、前記記憶部に記憶された前記指示データに対応する前記操作ワードを示すテキストであることを特徴とする請求項に記載の音声認識装置。
  3. 前記記憶部には、前記対応データと前記パターン情報とが対応付けて記憶され、
    前記指示判断手段は、前記記憶部において前記パターン判断手段によって前記画像に含まれると判断された前記パターンついての前記パターン情報に対応付けられた前記対応データと前記テキストデータとの比較に基づいて、前記音声認識手段によって生成された前記テキストデータに、前記指示データが含まれるか否かを判断することを特徴とする請求項又はに記載の音声認識装置。
  4. 前記記憶部には複数の前記対応データが記憶され、前記複数の対応データは夫々、互いに異なる種類の複数の前記パターン情報に対応付けられ、
    前記指示判断手段は、前記記憶部に記憶された前記複数のパターン情報のうち、前記パターン判断手段によって前記画像に含まれると判断された前記パターンについての前記パターン情報に対応付けられた前記対応データを参照し、前記音声認識手段によって生成された前記テキストデータに、前記指示データが含まれるか否かを判断することを特徴とする請求項に記載の音声認識装置。
  5. 前記第一表示制御手段によって前記表示部に表示される前記実行表示は、前記記憶部に記憶された前記複数のパターン情報のうち、前記パターン判断手段によって前記画像に含まれると判断された前記パターンについての前記パターン情報に対応付けられた前記対応データに含まれる前記指示データに対応する操作ワードを示すテキストであることを特徴とする請求項に記載の音声認識装置。
  6. 第一所定時間以上継続して、前記パターン判断手段によって前記画像データに基づく前記画像に前記パターンが含まれると判断された場合に、前記音声認識手段による前記音声認識処理を停止する第一処理停止手段を備えたことを特徴とする請求項1からのいずれかに記載の音声認識装置。
  7. 前記第一処理停止手段によって前記音声認識手段による前記音声認識処理が停止された場合に、前記第一表示制御手段による前記実行表示の表示を停止する第一表示停止手段を備えたことを特徴とする請求項に記載の音声認識装置。
  8. 前記音声認識手段によって前記音声認識処理の実行が開始された後、前記パターン判断手段によって前記画像データに基づく前記画像に前記パターンが含まれないと判断された場合に、第二所定時間経過後に、前記音声認識手段による前記音声認識処理を停止する第二処理停止手段を備えたことを特徴とする請求項1からのいずれかに記載の音声認識装置。
  9. 前記第二処理停止手段によって前記音声認識手段による前記音声認識処理が停止された場合に、前記第一表示制御手段による前記実行表示の表示を停止する第二表示停止手段を備えたことを特徴とする請求項に記載の音声認識装置。
  10. 前記画像データ取得手段によって取得された前記画像データに基づく前記画像を前記表示部に表示する第二表示制御手段を備えたことを特徴とする請求項1からのいずれかに記載の音声認識装置。
  11. 音声認識装置において実行される音声認識プログラムであって、
    前記音声認識装置のコントローラに、
    音声入力部に入力された音声の音声データを取得する音声データ取得ステップと、
    頭部に装着可能な頭部装着部に設けられた撮像部によって撮像された画像の画像データを取得する画像データ取得ステップと、
    記憶部に記憶された所定のパターンを示す情報であるパターン情報と前記画像データとの比較に基づいて、前記画像データ取得ステップによって取得された前記画像データに基づく前記画像に、前記パターン情報に基づく前記パターンが含まれるか否かを判断するパターン判断ステップと、
    前記パターン判断ステップによって前記画像データに基づく前記画像に前記パターンが含まれると判断された場合に、前記音声データ取得ステップによって取得された前記音声データに基づく前記音声に対して音声認識処理を実行することで、前記音声に対応するテキストデータを生成する音声認識ステップと、
    前記パターン判断ステップによって前記画像データに基づく前記画像に前記パターンが含まれると判断された場合に、前記音声認識ステップによる前記音声認識処理が実行されることを示す表示である実行表示を、前記頭部装着部に設けられた表示部に表示する第一表示制御ステップと、
    前記音声認識ステップによって生成された前記テキストデータに基づいて処理を実行する実行ステップと
    を実行させ
    前記記憶部には、前記頭部装着部の制御を指示する操作ワードに対応する指示データと、前記頭部装着部に実行させる動作についてのデータである動作データとが対応付けられた対応データが記憶され、
    前記記憶部に記憶された前記対応データと前記テキストデータとの比較に基づいて、前記音声認識ステップによって生成された前記テキストデータに、前記指示データが含まれるか否かを判断する指示判断ステップを実行させ、
    前記実行ステップは、前記指示判断ステップによって前記テキストデータに前記指示データが含まれると判断された場合に、前記対応データにおいて前記指示判断ステップによって含まれると判断された前記指示データに対応付けられた前記動作データに基づく動作を前記頭部装着部に実行することを特徴とする音声認識プログラム。
JP2013067643A 2013-03-27 2013-03-27 音声認識装置及び音声認識プログラム Expired - Fee Related JP6064737B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013067643A JP6064737B2 (ja) 2013-03-27 2013-03-27 音声認識装置及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013067643A JP6064737B2 (ja) 2013-03-27 2013-03-27 音声認識装置及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2014191239A JP2014191239A (ja) 2014-10-06
JP6064737B2 true JP6064737B2 (ja) 2017-01-25

Family

ID=51837510

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013067643A Expired - Fee Related JP6064737B2 (ja) 2013-03-27 2013-03-27 音声認識装置及び音声認識プログラム

Country Status (1)

Country Link
JP (1) JP6064737B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6565202B2 (ja) * 2015-02-13 2019-08-28 セイコーエプソン株式会社 頭部装着型表示装置およびその制御方法、並びにコンピュータープログラム
US10416671B2 (en) * 2017-07-11 2019-09-17 Waymo Llc Methods and systems for vehicle occupancy confirmation

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05188993A (ja) * 1991-12-19 1993-07-30 Tokico Ltd 音声認識装置
JPH10123450A (ja) * 1996-10-15 1998-05-15 Sony Corp 音声認識機能付ヘッドアップディスプレイ装置
JP3688879B2 (ja) * 1998-01-30 2005-08-31 株式会社東芝 画像認識装置、画像認識方法及びその記録媒体
EP1215658A3 (en) * 2000-12-05 2002-08-14 Hewlett-Packard Company Visual activation of voice controlled apparatus
JP2006276460A (ja) * 2005-03-29 2006-10-12 Nec Corp 音声認識用辞書配信システム、音声認識用辞書配信方法及び音声認識用辞書配信プログラム
JP5229209B2 (ja) * 2009-12-28 2013-07-03 ブラザー工業株式会社 ヘッドマウントディスプレイ
JP5666219B2 (ja) * 2010-09-10 2015-02-12 ソフトバンクモバイル株式会社 眼鏡型表示装置及び翻訳システム

Also Published As

Publication number Publication date
JP2014191239A (ja) 2014-10-06

Similar Documents

Publication Publication Date Title
US9959591B2 (en) Display apparatus, method for controlling display apparatus, and program
US10142618B2 (en) Imaging apparatus and imaging method
US9411160B2 (en) Head mounted display, control method for head mounted display, and image display system
JP6155622B2 (ja) 表示装置、頭部装着型表示装置、表示装置の制御方法、および、頭部装着型表示装置の制御方法
JP6344125B2 (ja) 表示装置、表示装置の制御方法、および、プログラム
CN108957761B (zh) 显示装置及其控制方法、头戴式显示装置及其控制方法
US20160080672A1 (en) Preparation of Image Capture Device in Response to Pre-Image-Capture Signal
US20160313973A1 (en) Display device, control method for display device, and computer program
JP3642336B2 (ja) 目画像撮像装置
JP2017102516A (ja) 表示装置、通信システム、表示装置の制御方法、及び、プログラム
JP6432197B2 (ja) 表示装置、表示装置の制御方法、および、プログラム
JP2016033757A (ja) 表示装置、表示装置の制御方法、および、プログラム
JP2015149552A (ja) ウェアラブル型電子機器
JP6364735B2 (ja) 表示装置、頭部装着型表示装置、表示装置の制御方法、および、頭部装着型表示装置の制御方法
JP2016033759A (ja) 表示装置、表示装置の制御方法、および、プログラム
US11145304B2 (en) Electronic device and control method
KR20190123869A (ko) 외부 장치의 자세 조정을 통해 복수의 카메라들을 이용하여 이미지를 획득하는 전자 장치 및 방법
JP6064737B2 (ja) 音声認識装置及び音声認識プログラム
JP6064736B2 (ja) 情報記憶装置および情報記憶プログラム
JP2015087523A (ja) 頭部装着型表示装置、頭部装着型表示装置の制御方法、および、画像表示システム
JP2014027459A (ja) 通信装置、通信方法及び通信プログラム
JP6201332B2 (ja) 音処理装置
JP2020047061A (ja) 電子機器および制御方法
JP2016033763A (ja) 表示装置、表示装置の制御方法、および、プログラム
JP2017183857A (ja) 頭部装着型表示装置、頭部装着型表示装置の制御方法、コンピュータープログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150317

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160621

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161205

R150 Certificate of patent or registration of utility model

Ref document number: 6064737

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees