JP5229209B2

JP5229209B2 - ヘッドマウントディスプレイ

Info

Publication number: JP5229209B2
Application number: JP2009297133A
Authority: JP
Inventors: 知裕佐藤
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2009-12-28
Filing date: 2009-12-28
Publication date: 2013-07-03
Anticipated expiration: 2029-12-28
Also published as: JP2011139227A; US20110157365A1

Description

本発明はヘッドマウントディスプレイに関する。より詳細には、映像にテキスト情報を付加して表示するヘッドマウントディスプレイに関する。

従来、撮影映像や視野映像に音声のテキスト情報を付加して表示するヘッドマウントディスプレイが知られている。利用者は、撮影映像や視野映像とテキスト情報とを同時に視認することで、撮影映像や視野映像とテキスト情報とを関連付けて認識できる。

例えば、特許文献１に記載のヘッドマウントディスプレイでは、撮影映像に対応したせりふ情報が表示される。利用者は、大型ディスプレイやスクリーン等の画面に表示される撮影映像と、ヘッドマウントディスプレイに表示されるせりふ情報とを同時に視認できる。それ故利用者は、せりふの吹き替え作業を、台本と映像とを交互に見ることなく行うことができる。

特開２００２−３５１３８５号公報

しかしながら上述のヘッドマウントディスプレイでは、せりふ情報などのテキスト情報が予め準備されていない場合、音声認識等によってテキスト情報を作成しながら、作成されたテキスト情報を撮影映像に対応付ける必要がある。この場合、テキスト情報の作成には時間を要するので、撮影映像の進行にテキスト情報の作成が追い付かず、撮影映像とテキスト情報とを容易に同期させることができないという問題点がある。

本開示の目的は、撮影映像とテキスト情報とを容易に同期させて表示できるヘッドマウントディスプレイを提供することにある。

本発明の第一態様に係るヘッドマウントディスプレイは、映像を撮影する撮影手段と、前記撮影手段による撮影の開始時点を特定する第一特定手段と、前記第一特定手段によって特定された前記開始時点から、前記撮影手段による撮影を開始する開始手段と、前記第一特定手段によって特定された前記開始時点以後、前記撮影手段の撮影対象から発せられる音声をテキスト化した音声テキストを取得する第一取得手段と、前記開始手段によって撮影が開始されてから、前記第一取得手段によって前記音声テキストが取得されるまでの間に撮影された撮影映像を、記憶手段に記憶する記憶制御手段と、前記第一取得手段によって前記音声テキストが取得された場合に、前記記憶手段に記憶した前記撮影映像の開始時点と、前記音声テキストの開始時点とが揃うように前記音声テキストを前記撮影映像に重ねることで、前記撮影映像と前記音声テキストとが同期した表示映像を作成する第一作成手段と、前記第一作成手段によって作成された前記表示映像を表示手段に表示する表示制御手段とを備えている。

本発明の第一態様に係るヘッドマウントディスプレイでは、撮影手段によって撮影された撮影映像は、記憶手段に記憶される。音声の内容を示す音声テキストを取得した場合、記憶手段に記憶した撮影映像に、取得された音声テキストを重ねることで、表示映像が作成される。撮影映像は一旦記憶手段に記憶されるので、音声テキストの取得に時間を要する場合であっても、撮影映像と音声テキストを同期させて表示映像を作成できる。また、記憶された撮影映像と音声テキストとは、開始時点が一致するように重ねられる。撮影映像と音声テキストとを容易に同期させることができる。

また、第一態様において、前記第一特定手段は、前記表示制御手段によって前記表示映像が前記表示手段に表示されている状態で、新たな前記開始時点である新規開始時点を特定し、前記第一取得手段は、前記表示制御手段によって前記表示映像が前記表示手段に表示されている状態で、新たな前記音声テキストである新規音声テキストを取得し、前記記憶制御手段は、前記第一特定手段によって前記新規開始時点が特定されてから、前記第一取得手段によって前記新規音声テキストが取得されるまでの間に撮影された撮影映像である新規撮影映像を、前記記憶手段に記憶し、前記第一作成手段は、前記記憶手段に記憶した前記新規撮影映像に、前記新規音声テキストを重ねた表示映像である新規表示映像を作成し、前記表示制御手段は、前記表示映像の表示中に前記新規表示映像が作成された場合には、表示中の前記表示映像の表示を中止し、前記新規表示映像を前記表示手段に表示してもよい。表示映像の表示中に、新規表示映像が作成された場合には、表示中の表示映像の表示を中止し、代わりに新規表示映像を表示する。新規表示映像を遅滞なく表示することで、表示遅延の累積を防止できる。使用者は、遅滞なく表示映像を視認できる。

また、第一態様において、前記表示制御手段は、前記第一取得手段によって取得した前記音声テキストの文字量に応じて、前記表示映像の表示速度を変更してもよい。音声テキストの文字量が大きい場合、利用者が音声テキストを認識するために時間を要するので、表示速度を遅くする。一方、音声テキストの文字量が少ない場合、利用者は音声テキストを素早く認識できるので、表示速度を速くする。これによって、使用者による音声テキストの認識を妨げることなく、表示時間を極力短くできる。従って、表示映像の表示遅延を極力小さくできる。

また、第一態様において、前記音声テキストの音量を取得する第二取得手段を備え、前記第一作成手段は、前記第二取得手段によって取得した前記音量に応じて前記音声テキストの大きさを変更し、大きさを変更した音声テキストを前記撮影映像に重ねた表示映像を作成してもよい。例えば、音量が大きい場合には、表示する音声テキストの大きさを大きくし、音量が小さい場合には、表示する音声テキストの大きさを小さくする。これによって使用者は、音声テキストを視認することで、表示される音声テキストの音量を認識できる。

また、第一態様において、音声が入力される入力手段と、前記入力手段によって入力された前記音声を認識し、音声テキストを作成する第二作成手段とを備え、前記第一取得手段は、前記第二作成手段によって前記音声テキストが作成された場合に、作成された前記音声テキストを取得してもよい。音声は音声認識され、音声テキストが作成される。作成された音声テキストは、撮影映像に重ねられ、表示映像が作成される。音声認識によって作成した音声テキストに基づいて、表示映像を作成できる。予め音声テキストが用意されていない場合であっても、撮影映像と音声テキストとを重ねた表示映像を作成できる。

また、第一態様において、前記第一特定手段は、前記入力手段によって入力された音声の音量が、所定未満から所定以上となった時点を前記開始時点として特定してもよい。これによって、撮影対象からの発話音声の発声が開始された時点を、撮影開始時点とすることができる。音声テキストの開始時点と、撮影映像の開始時点とを一致させることができるので、撮影映像と音声テキストとの開始時点が同期した表示映像を容易に作成できる。また、発話音声を漏れなく取得し、撮影映像に音声テキストを重ねた表示映像を作成できる。

また、第一態様において、前記入力手段によって入力される音声の音量が所定以上から所定未満となった時点を、終了時点として特定する第二特定手段を備え、前記第一作成手段は、前記開始時点から、前記第二特定手段によって特定された前記終了時点までの間に、前記入力手段によって入力された前記音声を認識し、音声テキストを作成してもよい。これによって、撮影対象からの発話音声の発声が終了された時点で音声テキストが作成され、この時点で同時に撮影が終了される。撮影映像と音声テキストとの終了時点を揃えることができるので、撮影映像と音声テキストとの終了時点が同期した表示映像を容易に作成できる。また、発話音声が発生されていない場合には音声テキストは作成されないので、発話音声のみを確実に取得して音声テキストを作成することができる。

また、第一態様において、前記第一取得手段は、前記音声テキストを受信することで取得する第一受信手段を備えていてもよい。これによって、音声テキストを受信し、受信したテキストと撮影映像とから表示映像を作成できる。ヘッドマウントディスプレイ自身が音声テキストを作成せずに済むので、ヘッドマウントディスプレイの処理負荷を軽減できる。

また、第一態様において、所定の時点を指示する指示信号を受信する第二受信手段を備え、前記第一特定手段は、前記第二受信手段によって前記指示信号を受信した時点を前記開始時点として特定してもよい。これによって、指示信号を受信した時点を開始時点として特定できる。指示信号を送信する外部機器が、撮影の開始時点を制御できる。該外部機器によって作成された音声テキストの開始時点と、ヘッドマウントディスプレイによって撮影された撮影映像の開始時点とを一致させることができる。音声テキストを撮影映像に重ねることで、開始時点が一致する表示映像を容易に作成できる。

ＨＭＤ２００を含むシステム構成の概要を示す模式図である。ＨＭＤ２００の概要を示す模式図である。ＨＭＤ２００の電気的構成を示すブロック図である。認識処理を示すフローチャートである。撮影処理を示すフローチャートである。表示処理を示すフローチャートである。表示映像１５を示す図である。音声テキスト取得処理を示すフローチャートである。

以下、本発明の一実施形態に係るヘッドマウントディスプレイ（以下「ＨＭＤ」という。）２００について、図面を参照して説明する。図面は、本発明が採用し得る技術的特徴を説明する為に用いる。図面に記載している装置の構成、各種処理のフローチャート等は、単なる説明例であり、本発明を限定するものではない。

図１を参照し、ＨＭＤ２００及びＨＭＤ２００を含むシステム構成の概要について説明する。使用者３〜５は、其々ＨＭＤ２００を装着している。使用者３〜５は、説明者６の説明を視聴しており、使用者３〜５の視野方向は、説明者６の方向に向けられている。ＨＭＤ２００は、使用者３〜５の視野方向を撮影可能なカメラ７を備えている。従って使用者３〜５が装着するＨＭＤ２００のカメラ７は、説明者６を撮影可能な状態となっている。ＨＭＤ２００は、マイク８（図３参照）を備えている。マイク８は、説明者６が発話した音声を収録できる。

本実施形態では、説明者６の発話した音声は、ＨＭＤ２００のマイク８によって収録され、音声認識される。音声認識によって、発話内容を示すテキスト情報が作成される（以下、作成されたテキスト情報を「音声テキスト」という。）。また説明者６は、ＨＭＤ２００のカメラ７によって撮影される。ＨＭＤ２００では、音声認識の結果作成された音声テキストの開始時点と、カメラ７において撮影された映像（以下「撮影映像」という。）の開始時点とが揃うように、撮影映像に音声テキストが重ねられる。結果、撮影映像と音声テキストとが同期した映像（以下、「表示映像」という。）が作成される。ＨＭＤ２００は、作成された表示映像を使用者３〜５に視認させることができる。使用者３〜５は、表示映像を視認することで、説明者６の撮影映像と音声テキストとを関連付けて認識できる。これによって例えば、説明者６がホワイトボード９を指し示しながら説明を行った場合であっても、表示映像では、説明者がホワイトボード９を指し示すタイミングと、音声テキストの内容とが同期する。これによって使用者３〜５は、説明者６の説明を十分理解することができる。

なお上述では、ＨＭＤ２００は音声認識によって発話内容を示す音声テキストが作成されたが、本発明はこの方法に限定されない。例えば、説明者６の発話言語を使用者３〜５が理解できない場合には、音声認識の結果得られるテキスト情報を、使用者３〜５の其々が理解可能な言語に翻訳することで、音声テキストを作成してもよい。作成された音声テキストに基づく表示映像を使用者３〜５が視認することで、説明者６の発話言語を理解できない場合であっても、使用者３〜５は説明者６の発話内容を理解することができる。

図２を参照し、ＨＭＤ２００の構成について説明する。ＨＭＤ２００は、所謂網膜走査型ディスプレイである。網膜走査型ディスプレイは、画像信号に応じた光束を２次元方向に走査し、走査した光を眼に導き網膜上に表示画像を形成する。なおＨＭＤ２００は、網膜走査型ディスプレイに限定されない。例えばＨＭＤ２００は、液晶ディスプレイ、有機ＥＬ（ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｅｎｃｅ）ディスプレイ等、他の画像表示装置を備えていてもよい。

図２に示すように、ＨＭＤ２００は、画像信号に応じて変調されたレーザ光（以下「映像光１１」という。）を走査して、使用者の少なくとも一方の眼の網膜に出射する。これによりＨＭＤ２００は、使用者の網膜に画像を直接投影し、映像を視認させることができる。ＨＭＤ２００は、出射装置１００と、プリズム１５０と、カメラ７とを少なくとも備えている。

出射装置１００は、使用者に視認させるための映像の信号（以下「映像信号」という。）に応じた映像光１１を、プリズム１５０に対し出射する。プリズム１５０は、出射装置１００に対して固定的な位置にある。プリズム１５０は、出射装置１００から出射した映像光１１を、使用者の眼に向かって反射させる。プリズム１５０は、図示しないビームスプリッタ部を備える。プリズム１５０は、外界からの外光１０を透過させ、使用者の眼に導く。プリズム１５０は、使用者３の側方から入射した映像光１１を使用者の眼に入射させる。プリズム１５０は、外界からの外光１０を使用者の眼に入射させる。これにより使用者は、実際の視界と、出射装置１００から出射した映像光１１に基づく映像とを視認可能となる。カメラ７は、使用者の視野方向の映像を撮影できる。

図３を参照し、ＨＭＤ２００の電気的構成について説明する。図３に示すように、ＨＭＤ２００は、表示部４０、入力部４１、通信部４３、フラッシュメモリ４９、制御部４６、カメラ７、マイク８、及び電源部４７を備えている。

表示部４０は、使用者に映像を視認させる。表示部４０は、映像信号処理部７０、レーザ群７２、及び、レーザドライバ群７１を備えている。映像信号処理部７０は、制御部４６と電気的に接続している。映像信号処理部７０は、制御部４６から映像信号を受信できる。映像信号処理部７０は、受信した映像信号を、使用者の網膜に直接投影するために必要な各信号に変換する。レーザ群７２は、青色出力レーザ（Ｂレーザ）７２１、緑色出力レーザ（Ｇレーザ）７２２、赤色出力レーザ（Ｒレーザ）７２３を含む。レーザ群７２は、青色、緑色及び赤色のレーザ光を出力する。レーザドライバ群７１は、レーザ群７２からレーザ光を出力させるための制御を行う。映像信号処理部７０はレーザドライバ群７１と電気的に接続している。レーザドライバ群７１は、Ｂレーザ７２１、Ｇレーザ７２２、及びＲレーザ７２３と其々電気的に接続している。映像信号処理部７０は、所望のレーザ光を所望のタイミングで出力させることが可能である。

表示部４０は、垂直走査ミラー８１２、垂直走査制御回路８１１、水平走査ミラー７９２、及び水平走査制御回路７９１を備えている。垂直走査ミラー８１２は、レーザ群７２より出力されたレーザ光を垂直方向に反射させることによって走査を行う。垂直走査制御回路８１１は、垂直走査ミラー８１２の駆動制御を行う。水平走査ミラー７９２は、レーザ群７２より出力されたレーザ光を水平方向に反射させることによって走査を行う。水平走査制御回路７９１は、水平走査ミラー７９２の駆動制御を行う。映像信号処理部７０は、垂直走査制御回路８１１及び水平走査制御回路７９１と其々電気的に接続している。垂直走査制御回路８１１は垂直走査ミラー８１２と電気的に接続している。水平走査制御回路７９１は水平走査ミラー７９２と電気的に接続している。映像信号処理部７０は、垂直走査制御回路８１１を介して垂直走査ミラー８１２を制御する。映像信号処理部７０は、水平走査制御回路７９１を介して及び水平走査ミラー７９２を制御する。これによって、所望の方向にレーザ光を反射させることができる。

入力部４１は、各種操作や設定情報の入力を行う。入力部４１は、操作ボタン群５０、及び入力制御回路５１を備えている。操作ボタン群５０は、各種機能キーなどを備えている。入力制御回路５１は、操作ボタン群５０のキーが操作されたことを検出し、制御部４６に通知する。操作ボタン群５０は入力制御回路５１と電気的に接続している。入力制御回路５１は制御部４６と電気的に接続している。制御部４６は、操作ボタン群５０のキーに入力された情報を認識できる。

通信部４３は、必要に応じて音声テキストを外部機器（ＰＣ等）から受信することができる。通信部４３は、通信モジュール５７と、通信制御回路５８とを備えている。通信モジュール５７は、無線電波を使用し、音声テキストの受信を行う。通信制御回路５８は、通信モジュール５７を制御する。制御部４６は通信制御回路５８と電気的に接続している。通信モジュール５７は通信制御回路５８と電気的に接続している。制御部４６は、通信部４３を介して音声テキストを受信できる。なお、通信モジュール５７の通信方式としては特に限定されず、従来周知の無線通信方式が使用可能である。例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＵＷＢ（ＵｌｔｒａＷｉｄｅＢａｎｄ）規格、無線ＬＡＮ（ＩＥＥＥ８０２．１１ｂ，１１ｇ，１１ｎなど）規格、ＷｉｒｅｌｅｓｓＵＳＢ規格などに準拠した無線通信方式が使用可能である。また、赤外線を利用したＩｒＤＡ（ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ）規格に準拠した無線通信方式も使用可能である。

カメラ７は、使用者の視野方向の映像を撮影する。カメラ７は、制御部４６と電気的に接続している。制御部４６は、カメラ７にて撮影された撮影映像を取得できる。マイク８は、制御部４６と電気的に接続している。制御部４６は、マイク８にて収録された音声を取得できる。

電源部４７は、電池５９及び充電制御回路６０を備えている。電池５９は、ＨＭＤ２００を駆動する電源となる。電池５９は充電可能な二次電池である。充電制御回路６０は、電池５９の電力をＨＭＤ２００に供給する。充電制御回路６０は、充電用アダプタ（図示せず）から供給される電力を電池５９へ供給して電池５９の充電を行う。

フラッシュメモリ４９には、ＨＭＤ２００に対する各種設定情報や、カメラ７において撮影された撮影映像、音声テキスト等が記憶される。フラッシュメモリ４９は、制御部４６と電気的に接続している。制御部４６は、フラッシュメモリ４９に記憶された情報を参照することができる。

制御部４６は、ＨＭＤ２００全体を制御する。制御部４６は、例えば、所望の映像を表示部４０に表示させる。制御部４６は、ＣＰＵ６１、ＲＯＭ６２、及びＲＡＭ４８を少なくとも備えている。ＲＯＭ６２は、各種プログラムを格納する。ＲＡＭ４８は、各種データを一時的に記憶する。制御部４６では、ＲＯＭ６２に格納された各種プログラムをＣＰＵ６１が読み出すことにより、各処理が実行される。ＲＡＭ４８は、ＣＰＵ６１が各処理を実行する場合に必要な各種フラグ（第一フラグ〜第三フラグ）やタイマ等の記憶領域を提供する。第一フラグは、音声の収録が開始されているか否かを示す。第二フラグは、音声テキストの作成が終了したか否かを示す。第三フラグは、表示映像が作成されたか否かを示す（詳細は後述する）。

図４〜図６を参照し、ＨＭＤ２００のＣＰＵ６１において実行される各種処理（認識処理、撮影処理、表示処理）について説明する。認識処理（図４参照）では、マイク８にて収録された音声に基づいて音声認識が実行され、音声テキストが作成される。撮影処理（図５参照）では、カメラ７を介して撮影映像が撮影されると共に、表示映像が作成される。表示処理（図６）では、作成された表示映像が表示される。これらの処理は、ＨＭＤ２００の電源が投入された場合において、ＣＰＵ６１において起動され実行される。またこれらの処理は、ＯＳが所定の周期で順次切り替えながら実行される（タイムスライス方式）。従って認識処理、撮影処理、及び表示処理は、並列して実行される。なおＣＰＵ６１は、所謂イベントドリブン方式によって各処理を切り替えてもよい。なおＲＡＭ４８に記憶された第一フラグ〜第三フラグは、ＨＭＤ２００の起動時にＯＦＦされ、初期化される。

図４を参照し、認識処理について説明する。認識処理が起動されると、マイク８にて収録された音声の音量が所定の閾値以上であるかが判断される（Ｓ１１）。音声の音量が所定の閾値未満である場合（Ｓ１１：ＮＯ）、音量が小さく発話が開始されていないことになるので、Ｓ１１の処理に戻り、継続して音声の音量が監視される。音声の音量が所定の閾値以上となった場合（Ｓ１１：ＹＥＳ）、発話が開始されたことになるので、音声の収録が開始されたことを示すために、ＲＡＭ４８に記憶した第一フラグがＯＮされる（Ｓ１３）。

マイク８にて収録された音声の音声認識が開始される（Ｓ１５）。音声認識の結果、発話内容が特定される（Ｓ１７）。収録された音声の音量が特定される（Ｓ１９）。特定された音量が所定の閾値未満となったかが判断される（Ｓ２１）。特定された音量が継続して所定の閾値以上である場合（Ｓ２１：ＮＯ）、Ｓ１７の処理に戻り、継続して発話内容の特定が実行される。このように、音声認識によって発話内容が特定されるので、予め音声テキストが準備されていない場合であっても、後述する処理によって表示映像を作成できる。

Ｓ１９の処理によって特定された音量が所定の閾値未満となった場合（Ｓ２１：ＹＥＳ）、発話が終了したことになるので、Ｓ１５の処理によって開始された音声認識処理が終了される（Ｓ２３）。このように、音声の音量が所定の閾値以上である場合に、音声を収録して音声認識を行うので、発話音声を漏れなく取得できる。Ｓ１７の処理によって特定された発話内容から音声テキストが作成され、フラッシュメモリ４９に記憶される（Ｓ２５）。音声テキストの文字数が特定され、ＲＡＭ４８に記憶される（Ｓ２７）。Ｓ１９において特定された音量のうち最大の音量（以下「最大音量」という。）が、ＲＡＭ４８に記憶される（Ｓ２９）。音声テキストの作成が終了したことを示すために、ＲＡＭ４８に記憶した第二フラグがＯＮされる（Ｓ３１）。そしてＳ１１の処理に戻る。

図５を参照し、撮影処理について説明する。撮影処理が起動されると、ＲＡＭ４８に記憶した第一フラグがＯＮであるかが判断される（Ｓ４１）。第一フラグがＯＦＦである場合（Ｓ４１：ＮＯ）、発話が開始されておらず発話音声が収録されていない状態であるので、Ｓ４１の処理に戻る。継続して第一フラグが監視される。

第一フラグがＯＮである場合（Ｓ４１：ＹＥＳ）、発話が開始され、発話音声の収録及び音声認識が開始されている（Ｓ１３、Ｓ１５、図４参照）。第一フラグがＯＦＦされる（Ｓ４３）。カメラ７による撮影が開始される（Ｓ４５）。カメラ７による撮影の結果取得される撮影映像は、フラッシュメモリ４９に記憶される（Ｓ４７）。これによって、音声テキストの開始時点と、撮影映像の開始時点とを一致させている。

第二フラグがＯＮであるかが判断される（Ｓ４９）。第二フラグがＯＦＦである場合（Ｓ４９：ＮＯ）、発話音声は収録中であり、音声認識が継続して実行中であるので、Ｓ４７の処理に戻る。カメラ７による撮影が継続され、撮影映像はフラッシュメモリ４９に記憶される。第二フラグがＯＮである場合（Ｓ４９：ＹＥＳ）、発話が終了し、音声テキストが作成されたことになる（Ｓ３１、図４参照）。カメラ７による撮影が終了される（Ｓ５０）。これによって、音声テキストの終了時点と、撮影映像の終了時点とを一致させている。第二フラグがＯＦＦされる（Ｓ５１）。Ｓ２９（図４参照）の処理でＲＡＭ４８に記憶された最大音量が取得される。取得された最大音量に基づいて、表示映像を作成する場合に撮影映像に重ねられる音声テキストの大きさが設定される（Ｓ５３）。例えば、最大音量が大きいほど、撮影映像に重ねられる音声テキストの大きさは大きく設定される。これによって、表示される音声テキストの音量を使用者に認識させる。

撮影映像の開始時点と、音声テキストの開始時点とが揃うように、音声テキストは撮影映像に重ねられる。音声テキストは、Ｓ５３において設定された大きさで、撮影映像に重ねられる。これによって、撮影映像と音声テキストとが同期した表示映像が作成される（Ｓ５５）。表示映像が作成されたことを示すために、ＲＡＭ４８に記憶した第三フラグがＯＮされる（Ｓ５７）。そしてＳ４１の処理に戻る。

図６を参照し、表示処理について説明する。表示処理が起動されると、ＲＡＭ４８に記憶した第三フラグがＯＮであるかが判断される（Ｓ７１）。第三フラグがＯＦＦである場合（Ｓ７１：ＮＯ）、表示映像は未だ作成されていない状態であるので、Ｓ７１の処理に戻る。継続して第三フラグが監視される。

第三フラグがＯＮである場合（Ｓ７１：ＹＥＳ）、表示映像の作成が完了していることになる（Ｓ５７、図５参照）。第三フラグがＯＦＦされる（Ｓ７３）。Ｓ２７（図４参照）の処理でＲＡＭ４８に記憶された文字数が取得される。取得された文字数に基づいて、表示映像を表示する場合の表示速度が設定される（Ｓ７５）。例えば、文字数が大きいほど、表示映像の表示速度は速く設定される。これによって、使用者による音声テキストの認識を妨げることなく、表示映像の表示時間を極力短くしている。

なお本実施の形態では、取得された文字数に基づいて、表示映像を表示する場合の表示速度が設定されていた。しかしながら本発明はこの方法に限定されない。例えば音声テキストの文字量（データサイズやワード数など）に基づいて表示速度を設定してもよい。

Ｓ７５において設定された表示速度に基づき、表示映像を表示する処理が開始される（Ｓ７７）。使用者は、表示映像を視認可能となる。表示映像では、撮影映像と音声テキストとが同期している（撮影映像と音声テキストとで開始時点及び終了時点が揃っている）ので、使用者は撮影映像と音声テキストとを関連付けて認識できる。

図７を参照し、表示映像の一例である表示映像１５について説明する。表示映像１５には、説明者の映像１３と、ホワイトボードの映像１４とが含まれている。説明者は、ホワイトボードを指し示しながら説明を行っている。説明者の発話音声がテキスト化された音声テキスト１２が表示される。ＨＭＤ２００の使用者は、説明者の発話音声を、音声テキスト１２を視認することで認識できる。音声テキスト１２の表示タイミングは、説明者の発話のタイミングと同期している。それ故、ＨＭＤ２００の使用者は、説明者がホワイトボードを指し示すタイミングと、音声テキストの内容とを関連付けて認識できる。ＨＭＤ２００の使用者は、説明者の説明を十分理解することができる。

図６に示すように、作成された表示映像をすべて表示し、表示が終了したかが判断される（Ｓ７９）。表示映像をすべて表示し、表示が終了した場合（Ｓ７９：ＹＥＳ）、表示を終了させるための終了処理（表示部４０の初期化等）が実行され（Ｓ８３）、Ｓ７１の処理に戻る。一方、表示されていない表示映像が残存する場合（Ｓ７９：ＮＯ）、第三フラグがＯＮであるかが判断される（Ｓ８１）。認識処理（図４参照）において、新たに所定の閾値以上の音量の音声が検出されて音声テキスト（新規音声テキスト）が作成され（Ｓ２５、図４参照）、撮影処理（図５参照）において、新たに撮影映像（新規撮影映像）が取得されて（Ｓ４７、図５参照）表示映像（新規表示映像）が作成された（Ｓ５５、図５参照）場合、第三フラグがＯＮされる（Ｓ５７、図５参照）。第三フラグがＯＮである場合（Ｓ８１：ＹＥＳ）、新規表示映像が作成されたことを示しているので、表示中の表示映像を、新規表示映像に切り替える必要がある。表示映像の表示を終了させるために、Ｓ８３の処理に進む。表示映像の表示が終了され（Ｓ８３）、Ｓ７１の処理に戻る。ここで第三フラグはＯＮであるので（Ｓ７１：ＹＥＳ）、第三フラグがＯＦＦされ（Ｓ７３）、表示速度が設定された（Ｓ７５）後、撮影処理（図５参照）において新規表示映像の表示が開始される（Ｓ７７）。これによって、新規表示映像を遅滞なく表示することができるので、表示遅延の累積を防止できる。使用者は、遅滞なく表示映像を視認できる。

一方、第三フラグがＯＦＦである場合（Ｓ８１：ＮＯ）、新たな表示映像は作成されていないので、継続して表示映像を表示させるためにＳ７９の処理に戻る。

以上説明したように、ＨＭＤ２００では、音声認識によって作成された音声テキストが、カメラ７によって撮影された撮影映像に重ねられ、表示映像が作成される。撮影映像は一旦フラッシュメモリ４９に記憶されるので、音声テキストの作成に時間を要する場合であっても、撮影映像と音声テキストとが同期した表示映像を作成できる。また、表示映像における撮影映像と音声テキストとは、開始時点及び終了時点を一致させることで容易に同期させることができる。これによって使用者は、撮影映像と音声テキストとを関連付けて認識できる。

なお、本発明は上記実施の形態に限定されるものではなく、種々の変更が可能である。上述の実施の形態では、ＨＭＤ２００のマイク８にて収録された音声を音声認識することによって発話内容が特定され、音声テキストが作成されていた。しかしながら本発明はこの方法に限定されない。例えば音声テキストは、オペレータ等が発話音声を聞き、外部機器（ＰＣ等）に発話内容をテキスト入力することで作成されてもよい。ＨＭＤ２００では、通信部４３を介して外部機器（ＰＣ等）から音声テキストを受信し、受信した音声テキストを撮影映像に重ねることによって、表示映像が作成されてもよい。以下、本実施の形態の変形例について説明する。

図８を参照し、本実施の形態の変形例における音声テキスト取得処理について説明する。音声テキスト取得処理では、外部機器から音声テキストを受信する処理が実行される。音声テキスト取得処理は、ＨＭＤ２００の電源が投入された場合において、ＣＰＵ６１において起動され実行される。音声テキスト取得処理は、上述した実施の形態における認識処理に代わって処理を行う。撮影処理及び表示処理は、上述した実施の形態と同様であるので、以下では説明を省略している。

図８に示すように、音声テキスト取得処理が起動されると、外部機器から通信部４３を介して、カメラ７による撮影を開始する指示を受信したかが判断される（Ｓ９１）。通信部４３を介して何ら指示が受信されない状態では（Ｓ９１：ＮＯ）、Ｓ９１の処理に戻る。継続して開始指示の受信が監視される。

外部機器は、オペレータ等による外部機器へのテキスト入力が開始され、音声テキストの作成が開始されたタイミングで、ＨＭＤ２００に対してカメラ７による撮影の開始指示を送信する。カメラ７による撮影の開始指示が受信された場合（Ｓ９１：ＹＥＳ）、カメラ７による撮影を開始させるために、ＲＡＭ４８に記憶した第一フラグがＯＮされる（Ｓ９３）。マイク８にて収録された音声の音量が特定される（Ｓ９５）。なお撮影処理（図５参照）では、第一フラグがＯＮとなった場合（Ｓ４１：ＹＥＳ、図５参照）、カメラ７による撮影が開始される（Ｓ４５、図５参照）。撮影された撮影映像は、フラッシュメモリ４９に記憶される（Ｓ４７、図５参照）。

通信部４３を介し、外部機器から音声テキストを受信したかが判断される（Ｓ９７）。外部機器から音声テキストを受信していない場合（Ｓ９７：ＮＯ）、Ｓ９７の処理に戻る。継続して音声テキストの受信が監視される。

オペレータによる発話内容のテキスト入力が終了した場合、外部機器は、テキスト入力によって作成された音声テキストを、ＨＭＤ２００に対して送信する。ＨＭＤ２００は、外部機器から音声テキストが送信された場合、通信部４３を介して該音声テキストを受信する（Ｓ９７：ＹＥＳ）。

外部機器から送信された音声テキストを受信した場合、受信した音声テキストはフラッシュメモリ４９に記憶される（Ｓ９９）。音声テキストの文字数が特定され、ＲＡＭ４８に記憶される（Ｓ１０１）。Ｓ９５において特定された音量に基づいて最大音量が特定され、ＲＡＭ４８に記憶される（Ｓ１０３）。音声テキストの作成が終了したことを示すために、ＲＡＭ４８に記憶した第二フラグがＯＮされる（Ｓ１０５）。そしてＳ９１の処理に戻る。

以上説明したように、本変形例では、外部機器から音声テキストを受信し、受信した音声テキストと撮影映像とから表示映像を作成できる。音声認識によって音声テキストを作成する処理が不要となるので、ＨＭＤ２００の処理負荷を軽減できる。また、外部機器からＨＭＤ２００に対して開始指示が送信される。ＨＭＤ２００では、開始指示を受信した時点を、カメラ７による撮影開始時点として特定する。このように、外部機器が、ＨＭＤ２００による撮影の開始タイミングを制御できるので、外部機器において作成される音声テキストと、ＨＭＤ２００において撮影取得される撮影映像との開始時期を一致させることができる。音声テキストと撮影映像とを容易に同期させることができる。

なお、図２のカメラ７が本発明の「撮影手段」に相当する。図３のマイク８が本発明の「入力手段」に相当する。図４のＳ１１の処理を行うＣＰＵ６１が本発明の「第一特定手段」に相当する。図５のＳ４５の処理を行うＣＰＵ６１が本発明の「開始手段」に相当する。図４のＳ２５、図８のＳ９７の処理を行うＣＰＵ６１が本発明の「第一取得手段」に相当する。図５のＳ４７の処理を行うＣＰＵ６１が本発明の「記憶制御手段」に相当し、Ｓ５３において決定した音声テキストの大きさに基づき、Ｓ５５において音声テキストを撮影映像に重ねる処理を行うＣＰＵ６１が、本発明の「第一作成手段」に相当する。図６のＳ７５において設定した表示速度に基づいて、Ｓ７７において表示処理を行うＣＰＵ６１が本発明の「表示制御手段」に相当する。図４のＳ１９の処理を行うＣＰＵ６１が本発明の「第二取得手段」に相当する。図４のＳ２５の処理を行うＣＰＵ６１が本発明の「第二作成手段」に相当する。図４のＳ２１の処理を行うＣＰＵ６１が本発明の「第二特定手段」に相当する。図８のＳ９７の処理を行うＣＰＵ６１が本発明の「第一受信手段」に相当し、Ｓ９１の処理を行うＣＰＵ６１が本発明の「第二受信手段」に相当する。

なお、本発明は上記実施の形態に限定されるものではなく、種々の変更が可能である。上述の実施の形態では、開始時点と終了時点とを定めた音声テキスト及び撮影映像に基づいて、表示映像が作成されていた。しかしながら本発明はこの方法に限定されない。例えば、音声テキスト及び撮影映像に、開始時点と終了時点とを示すタイムスタンプを記憶させてもよい。表示映像は、タイムスタンプが揃うように、音声テキストと撮影映像とを重ねることによって作成されてもよい。

上述の実施の形態では、ＨＭＤ２００のカメラ７によって撮影された撮影映像に音声テキストが重ねられて表示映像が作成されていたが、本発明はこの方法に限定されない。別のカメラによって撮影された撮影された撮影映像を通信部４３を介して受信し、受信した撮影映像に、作成された音声テキストを重ねることで、表示映像を作成してもよい。

上述の実施の形態では、収録された音声の音量に応じて音声テキストの文字の大きさを変化させていたが、本発明はこの方法に限定されない。例えば、収録された音声の音量に応じて音声テキストの色を変化させてもよい。また例えば、音声の音量を示す映像を別途作成して表示させてもよい。

上述の実施の形態では、収録される音声の音量が所定の閾値以上となった場合に音声認識処理を開始し、音量が所定の閾値未満となった場合に音声認識処理を終了させていた。しかしながら本発明はこの方法に限定されない。例えば、音量が所定の閾値以上である状態が所定時間以上継続した場合に音声認識処理を開始させてもよい。音量が所定の閾値未満である状態が所定時間以上継続した場合に音声認識処理を終了させてもよい。

７カメラ
８マイク
４９フラッシュメモリ
６１ＣＰＵ
２００ＨＭＤ

Claims

映像を撮影する撮影手段と、
前記撮影手段による撮影の開始時点を特定する第一特定手段と、
前記第一特定手段によって特定された前記開始時点から、前記撮影手段による撮影を開始する開始手段と、
前記第一特定手段によって特定された前記開始時点以後、前記撮影手段の撮影対象から発せられる音声をテキスト化した音声テキストを取得する第一取得手段と、
前記開始手段によって撮影が開始されてから、前記第一取得手段によって前記音声テキストが取得されるまでの間に撮影された撮影映像を、記憶手段に記憶する記憶制御手段と、
前記第一取得手段によって前記音声テキストが取得された場合に、前記記憶手段に記憶した前記撮影映像の開始時点と、前記音声テキストの開始時点とが揃うように前記音声テキストを前記撮影映像に重ねることで、前記撮影映像と前記音声テキストとが同期した表示映像を作成する第一作成手段と、
前記第一作成手段によって作成された前記表示映像を表示手段に表示する表示制御手段と
を備えたことを特徴とするヘッドマウントディスプレイ。
前記第一特定手段は、
前記表示制御手段によって前記表示映像が前記表示手段に表示されている状態で、新たな前記開始時点である新規開始時点を特定し、
前記第一取得手段は、
前記表示制御手段によって前記表示映像が前記表示手段に表示されている状態で、新たな前記音声テキストである新規音声テキストを取得し、
前記記憶制御手段は、
前記第一特定手段によって前記新規開始時点が特定されてから、前記第一取得手段によって前記新規音声テキストが取得されるまでの間に撮影された撮影映像である新規撮影映像を、前記記憶手段に記憶し、
前記第一作成手段は、
前記記憶手段に記憶した前記新規撮影映像に、前記新規音声テキストを重ねた表示映像である新規表示映像を作成し、
前記表示制御手段は、
前記表示映像の表示中に前記新規表示映像が作成された場合には、表示中の前記表示映像の表示を中止し、前記新規表示映像を前記表示手段に表示することを特徴とする請求項１に記載のヘッドマウントディスプレイ。
前記表示制御手段は、
前記第一取得手段によって取得した前記音声テキストの文字量に応じて、前記表示映像の表示速度を変更することを特徴とする請求項１又は２に記載のヘッドマウントディスプレイ。
前記音声テキストの音量を取得する第二取得手段を備え、
前記第一作成手段は、
前記第二取得手段によって取得した前記音量に応じて前記音声テキストの大きさを変更し、大きさを変更した音声テキストを前記撮影映像に重ねた表示映像を作成することを特徴とする請求項１から３のいずれかに記載のヘッドマウントディスプレイ。
音声が入力される入力手段と、
前記入力手段によって入力された前記音声を認識し、音声テキストを作成する第二作成手段と
を備え、
前記第一取得手段は、
前記第二作成手段によって前記音声テキストが作成された場合に、作成された前記音声テキストを取得することを特徴とする請求項１から４のいずれかに記載のヘッドマウントディスプレイ。
前記第一特定手段は、
前記入力手段によって入力された音声の音量が、所定未満から所定以上となった時点を前記開始時点として特定することを特徴とする請求項５に記載のヘッドマウントディスプレイ。
前記入力手段によって入力される音声の音量が所定以上から所定未満となった時点を、終了時点として特定する第二特定手段を備え、
前記第一作成手段は、
前記開始時点から、前記第二特定手段によって特定された前記終了時点までの間に、前記入力手段によって入力された前記音声を認識し、音声テキストを作成することを特徴とする請求項５又は６に記載のヘッドマウントディスプレイ。
前記第一取得手段は、
前記音声テキストを受信することで取得する第一受信手段を備えたことを特徴とする請求項１から４のいずれかに記載のヘッドマウントディスプレイ。
所定の時点を指示する指示信号を受信する第二受信手段を備え、
前記第一特定手段は、
前記第二受信手段によって前記指示信号を受信した時点を前記開始時点として特定することを特徴とする８に記載のヘッドマウントディスプレイ。