JP6518134B2

JP6518134B2 - 眼前装着型表示装置

Info

Publication number: JP6518134B2
Application number: JP2015107815A
Authority: JP
Inventors: 大場　章男; 章男大場
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2015-05-27
Filing date: 2015-05-27
Publication date: 2019-05-22
Anticipated expiration: 2035-05-27
Also published as: US10275021B2; JP2016224554A; US20160349839A1

Description

本発明は、眼前装着型表示装置に関する。

ディスプレイユーザの頭部に装着して利用するヘッドマウントディスプレイなどの眼前装着型表示装置が開発されている。眼前装着型表示装置の利用時のユーザの入力方法の一つとして、キーボードなどの入力インタフェースや手の動作を必要としない音声入力を用いることは効果的である。しかし、声を出しにくい公共の場や、周囲の騒音により集音しにくい場では音声入力を使用することは難しい。また、声を出すこと自体に抵抗があるユーザにとって音声入力は使いにくい。

そこで、無音声であっても口の動きからユーザが入力したいキーワードを推定できるようにすれば、利便性は向上する。そのためにはカメラ等でユーザの口の動きを撮像する必要があるが、ユーザの頭部が動いたり、ユーザ自身が動いたりすると、口周辺を正確に撮像することは難しい。

本発明の目的の一つは、ユーザの口周辺を撮像可能なカメラを備える眼前装着型表示装置を提供することにある。

上記課題を解決するために、本発明に係る眼前装着型表示装置は、ユーザの口の動きを撮像可能な位置に設けられる口周辺撮像カメラと、前記口周辺撮像カメラにより撮像された前記口の動きから推定される前記ユーザの入力情報に基づく映像を表示する表示制御手段と、を備えることを特徴とする。

また、上記眼前装着型表示装置において、前記ユーザの目周辺の表情を撮像可能な位置に設けられる目周辺撮像カメラ、をさらに備え、前記表示制御手段は、前記口周辺撮像カメラにより撮像された前記口の動きと、前記目周辺撮像カメラにより撮像された前記目周辺の表情と、に基づいて推定される前記ユーザの入力情報に基づく映像を表示する、こととしてもよい。

また、上記眼前装着型表示装置において、前記目周辺撮像カメラは、前記ユーザの視線を検出可能であり、前記表示制御手段は、前記口の動きと、前記目周辺の表情と、前記目周辺撮像カメラにより検出される前記ユーザの視線に関する情報と、に基づいて推定される前記ユーザの入力情報に基づく映像を表示する、こととしてもよい。

また、上記眼前装着型表示装置において、前記ユーザが発する音声を集音するマイク、をさらに備える、こととしてもよい。

本実施形態に係るヘッドマウントディスプレイの外観図である。本実施形態に係るヘッドマウントディスプレイに備えられる第１撮像部の一例を示す図である。本実施形態に係るヘッドマウントディスプレイに備えられる第１撮像部の他の例を示す図である。本実施形態に係るヘッドマウントディスプレイの上面図である。本実施形態に係るヘッドマウントディスプレイに備えられる第２撮像部と赤外線ＬＥＤの一例を示す図である。本実施形態に係るヘッドマウントディスプレイ及び情報処理装置が実現する機能の一例を示す機能ブロック図である。本実施形態に係るヘッドマウントディスプレイ及び情報処理装置が実行するユーザ入力情報推定処理の流れを示すシーケンス図である。

以下、本発明の実施の形態について、図面に基づき詳細に説明する。本実施形態においては、眼前装着型表示装置としてヘッドマウントディスプレイを用いた例について説明する。

図１は、本実施形態に係る情報処理システム１の全体構成の一例を示す図である。図１に示すように、本実施形態に係る情報処理システムは、ヘッドマウントディスプレイ１０及び情報処理装置２０を含んで構成される。ヘッドマウントディスプレイ１０及び情報処理装置２０は、有線または無線の通信手段を介して互いに接続されており、互いに通信されるようになっている。

ヘッドマウントディスプレイ１０は、ユーザの頭部に装着され、その内部に備えられる表示デバイスを用いてユーザに静止画、動画等の映像を提示するための眼前装着型表示装置であり、ヘッドマウントディスプレイ１０にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである制御部、ＲＯＭやＲＡＭ等の記憶素子やハードディスクドライブなどである記憶部、ネットワークボードなどの通信インタフェースである通信部などを含んでいる。本実施形態に係るヘッドマウントディスプレイ１０は、情報処理装置２０から送信される出力情報が示す映像を表示部１１に表示する。

情報処理装置２０は、例えばゲーム装置、コンピュータ等であって、情報処理装置２０にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである制御部、ＲＯＭやＲＡＭ等の記憶素子やハードディスクドライブなどである記憶部、ネットワークボードなどの通信インタフェースである通信部などを含んでいる。本実施形態に係る情報処理装置２０は、例えば、インストールされているプログラムの実行などにより生成される映像を示す出力情報をヘッドマウントディスプレイ１０へ送信する。

本実施形態に係るヘッドマウントディスプレイ１０はユーザの頭部に装着され、その内部に備えられる表示部１１を用いてユーザに３次元映像を提示する。なお、ヘッドマウントディスプレイ１０は２次元映像を提示することも可能である。そして、ヘッドマウントディスプレイ１０は、表示部１１、第１撮像部１３、及び第２撮像部１４を含んで構成されている。

表示部１１は、例えば、液晶ディスプレイ、有機ＥＬディスプレイ等の表示デバイスであり、ヘッドマウントディスプレイ１０がユーザに装着されたときにユーザの両目の前方に位置するよう配置されている。そして、ユーザの右目前方に位置する表示部１１の右領域には、右目用の映像が表示され、ユーザの左目前方に位置する表示部１１の左領域には、左目用の映像が表示される。なお、表示部１１の右領域、左領域がそれぞれ個別の表示部１１として構成されていてもよい。

第１撮像部１３（口周辺撮像カメラ）は、例えば、ＣＣＤイメージセンサ、ＣＭＯＳイメージセンサ、赤外線イメージセンサ等の撮像素子であり、ヘッドマウントディスプレイ１０がユーザに装着されたときにユーザの口の動きを撮像できるよう配置されている。

図２は、本実施形態に係るヘッドマウントディスプレイ１０に備えられる第１撮像部１３の一例を示す図である。図２に示すように、第１撮像部１３は、ヘッドマウントディスプレイ１０がユーザに装着されたときのヘッドマウントディスプレイ１０の筐体下面に外側を向くよう配置される。これにより、第１撮像部１３は、ヘッドマウントディスプレイ１０がユーザに装着されたときに、ヘッドマウントディスプレイ１０の筐体下面から下方向に位置するユーザの口周辺を撮像することができる。さらに、第１撮像部１３は、ヘッドマウントディスプレイ１０がユーザに装着されたときにユーザの口方向を向くよう角度をつけて設置されることで、ユーザの口周辺が撮像されやすくなる。

また、図３は、本実施形態に係るヘッドマウントディスプレイ１０に備えられる第１撮像部１３の他の例を示す図である。図３に示すように、第１撮像部１３が、フレキシブルシャフト１７の先端に設けられる。フレキシブルシャフト１７の他端は、ヘッドマウントディスプレイ１０の筐体（左側面、右側面、下面、上面、前面など）に支持され、フレキシブルシャフト１７は、ヘッドマウントディスプレイ１０がユーザに装着されたときのヘッドマウントディスプレイ１０の筐体下面より下方向に延伸する。これにより、第１撮像部１３は、ヘッドマウントディスプレイ１０がユーザに装着されたときに、ヘッドマウントディスプレイ１０の筐体下面から下方向に位置するユーザの口周辺を撮像することができる。また、フレキシブルシャフト１７は可撓性を有し、第１撮像部１３がユーザの口の動きを撮像できる適切な位置に配置されるよう変形可能となっている。つまり、ユーザがフレキシブルシャフト１７を曲げることで、第１撮像部１３の配置の微調整が可能となっている。なお、フレキシブルシャフト１７の先端には第１撮像部１３の他に、ユーザが発する音声を集音するマイクロホンユニットが設けられていてもよい。

ここで、図３においては、第１撮像部１３がユーザの口の正面に位置する例を示している。第１撮像部１３がユーザの口の正面に位置することでユーザの口周辺を撮像しやすいという利点がある。一方で、第１撮像部１３がユーザの口の正面に位置するとユーザの唾などの汚れが付着しやすくなり、精細な動画像を撮像できなくなる恐れがある。そこで、ヘッドマウントディスプレイ１０がユーザに装着されたときに、第１撮像部１３がユーザの口の正面からオフセットする位置に設けられているとより好ましい。具体的には、例えば、図３に示すように、ヘッドマウントディスプレイ１０の側面を見た場合のユーザの上唇の位置である位置ａから下唇の位置である位置ｂまでの範囲を口の正面とする。このとき、位置ａより上方向（ヘッドマウントディスプレイ１０の下面から位置ａまで）の範囲、または位置ｂより下方向の範囲に第１撮像部１３が位置するようにフレキシブルシャフト１７が設けられることとしてもよい。ここで、位置ａ、及び位置ｂはあくまで一例であって、口の中心から所定の距離であってもよく、一般的な人の顔の大きさから定めた口の正面を示す位置であればよい。

次に、図４に、本実施形態に係るヘッドマウントディスプレイ１０の上面図を示す。図４に示すように、ヘッドマウントディスプレイ１０の上面を見た場合のヘッドマウントディスプレイ１０の中心である位置ｃをユーザの口の正面とする。このとき、ヘッドマウントディスプレイ１０の中心である位置ｃからオフセットする、位置ｃより左方向の範囲、または位置ｃより右方向の範囲に第１撮像部１３が位置するようにフレキシブルシャフト１７が設けられることとしてもよい。ここで、位置ｃはあくまで一例であって、例えば、ヘッドマウントディスプレイ１０の中心である位置ｃから左右に所定距離の範囲をユーザの口の正面としてもよい。この場合は、当該範囲から左方向または右方向にオフセットする位置に第１撮像部１３が位置するようフレキシブルシャフト１７が設けられればよい。

なお、マイクロホンユニットもユーザの口の正面に位置するとユーザの唾などの汚れが付着しやすくなり、集音の感度が劣化する恐れがある。そこで、マイクロホンユニットも第１撮像部１３と同様に、ユーザの口の正面からオフセットする位置に設けられているとより好ましい。

また、マイクロホンユニットと第１撮像部１３との両方が設けられる場合に、主にユーザの口の動きによるユーザ入力を使用するときは、第１撮像部１３をマイクロホンユニットより口の正面側に位置することで、第１撮像部１３がユーザの口周辺を撮像しやすくなる。一方で、主に音声入力を使用するときは、マイクロホンユニットを第１撮像部１３より口の正面側に位置することで、ユーザの発する音声を集音しやすくなる。

このように、第１撮像部１３がユーザの口周辺を撮像可能にヘッドマウントディスプレイ１０に備えられることで、ユーザの頭部やユーザ自身が動いたとしても正確にユーザの口の動きを撮像することが可能となる。

第２撮像部１４（目周辺撮像カメラ）は、例えば、ＣＣＤイメージセンサ、ＣＭＯＳイメージセンサ、赤外線イメージセンサ等の撮像素子であり、ヘッドマウントディスプレイ１０がユーザに装着されたときにユーザの目周辺を撮像できるよう配置されている。

図５は、本実施形態に係るヘッドマウントディスプレイ１０に備えられる第２撮像部１４と赤外線ＬＥＤ１５の一例を示す図である。図５に示すように、第２撮像部１４及び赤外線ＬＥＤ１５は、ヘッドマウントディスプレイ１０がユーザに装着されたときのヘッドマウントディスプレイ１０の筐体内面に表示部１１と対向する方向を向くよう配置される。これにより、赤外線ＬＥＤ１５は、ヘッドマウントディスプレイ１０がユーザに装着されたときに、表示部１１と対向する方向に位置するユーザの目周辺に赤外線を照射することができる。そして、第２撮像部１４が、反射された赤外線を撮像することで、ヘッドマウントディスプレイ１０がユーザに装着されときのユーザの目周辺を撮像することができる。また、眼球の動きや瞬きの頻度によって反射される赤外線の方向や量が変化することを用いて、ユーザの視線方向、瞳孔の動き、瞬きの回数または頻度などを検出することもできる。

なお、図５では、第２撮像部１４及び赤外線ＬＥＤ１５が表示部１１の上方に配置される例を示しているが、ユーザの両目を撮像できる位置に配置されていればこの例に限定されない。例えば、第２撮像部１４及び赤外線ＬＥＤ１５が表示部１１の下方、左側、右側に配置されてもよいし、ヘッドマウントディスプレイ１０の筐体内面であってユーザの視線方向（または表示部１１）に対して側面に配置されてもよい。また、第２撮像部１４は、ユーザの両目それぞれを個別に撮像するための左目用撮像部、及び右目用撮像部を含んでいてもよい。その場合、第２撮像部１４は、左目用撮像部及び右目用撮像部のいずれか片方だけを含めばよい。

一般的に、ユーザが発話する際に、顎の開閉や、唇、舌、頬、目などの形状変化が生じる。上述したヘッドマウントディスプレイ１０に備えられる第１撮像部１３や第２撮像部１４により、口の動き、目の形状、目周辺の皮膚の形状といったユーザが発話しようとする際のユーザの表情を示す顔特徴情報を検出することで、ユーザが実際に声を出さない場合であっても発話しようとしたキーワードを推定することを可能とする。以下に、ユーザの顔特徴情報を用いたキーワードの推定処理について説明する。

図６は、本実施形態に係るヘッドマウントディスプレイ１０及び情報処理装置２０が実現する機能の一例を示す機能ブロック図である。図６に示すように、本実施形態に係るヘッドマウントディスプレイ１０は、第１撮像部１３及び第２撮像部１４を含む撮像部１２、及び表示制御部１６を含んで構成される。これらの機能は、記憶部に記憶されたプログラムを制御部が実行することで実現される。このプログラムは、例えば光ディスク等のコンピュータ読み取り可能な各種の情報記憶媒体に格納されて提供されてもよいし、インターネット等の通信ネットワークを介して提供されてもよい。

また、本実施形態に係る情報処理装置２０は、顔特徴情報取得部２２、入力情報推定部２４、出力情報生成部２６、顔特徴モデルテーブル２８を含んで構成される。これらの機能のうち、特徴情報取得部、入力情報推定部２４、及び出力情報生成部２６は、記憶部に記憶されたプログラムを制御部が実行することで実現される。このプログラムは、例えば光ディスク等のコンピュータ読み取り可能な各種の情報記憶媒体に格納されて提供されてもよいし、インターネット等の通信ネットワークを介して提供されてもよい。また、顔特徴モデルテーブル２８は、記憶部によって実現される。

ヘッドマウントディスプレイ１０の撮像部１２は、ヘッドマウントディスプレイ１０を装着したユーザの顔の動画像を撮像する。本実施形態では、撮像部１２にはユーザの口周辺を撮像する第１撮像部１３と、ユーザの目周辺を撮像する第２撮像部１４と、を含む。

ヘッドマウントディスプレイ１０の表示制御部１６は、ヘッドマウントディスプレイ１０の記憶部に保持されている情報や、情報処理装置２０の出力情報生成部２６が生成した出力情報を取得して表示部１１に表示する。

情報処理装置２０の顔特徴情報取得部２２は、ヘッドマウントディスプレイ１０から送信されるユーザの顔の動画像からユーザの顔特徴情報を取得する。ここで、顔特徴情報取得部２２は、顔特徴情報として、ヘッドマウントディスプレイ１０の第１撮像部１３が撮像した動画像から抽出されるユーザの口周辺特徴情報と、ヘッドマウントディスプレイ１０の第２撮像部１４が撮像した動画像から抽出されるユーザの目周辺特徴情報と、を取得する。口周辺特徴情報としては、唇の幅や高さといった唇の輪郭を示す情報や、画像に含まれる色成分の分布、彩度の分布、明度の分布を示す情報とする。目周辺特徴情報としては、目の幅や高さといった目の輪郭を示す情報や、画像に含まれる色成分の分布、彩度の分布、明度の分布を示す情報とする。また、目周辺特徴情報は、視線方向、瞬きの回数などといったユーザの視線に関する情報であってもよい。

情報処理装置２０の入力情報推定部２４は、顔特徴情報取得部２２が取得したユーザの顔特徴情報からユーザが発話しようとしたキーワード（ユーザ入力情報とする）を推定する。

ここで、情報処理装置２０の入力情報推定部２４が実行するユーザの顔特徴情報からユーザ入力情報を推定する処理について具体的に説明する。本実施形態では、特徴情報取得部が取得したユーザの顔特徴情報（ここでは、口周辺特徴情報）と、情報処理装置２０の顔特徴モデルテーブル２８に記憶されている顔特徴モデルとのマッチングを行うことでユーザ入力情報を推定する。顔特徴情報のマッチング手法としては、ＤＰ（Dynamic Programming：動的計画）やＨＭＭ（Hidden Markov Model）等の公知の手法が利用可能である。例えば、情報処理装置２０の顔特徴モデルテーブル２８には、複数のキーワードの候補（音素、音節、または単語）に関して多人数の顔特徴情報により学習した顔特徴モデルが記憶される。ここでは、事前に、多数の人が発声する音声データと発声する際の顔の動画像を収集し、顔の動画像から抽出される顔特徴情報から、ＥＭ（Expectation Maximization）アルゴリズム等の公知の学習アルゴリズムを用いて各キーワードのＨＭＭを学習し、顔特徴モデルテーブル２８に記憶しておくこととする。情報処理装置２０の顔特徴モデルテーブル２８に記憶される顔特徴モデルとしては、例えば、音素をキーワードの単位として、母音「ａ」、母音「ｉ」、母音「ｕ」、母音「ｅ」、及び母音「ｏ」等を発声する際の口の形状を示す口形状モデルや子音を発生する際の口の形状を示す口形状モデルが記憶される。そして、入力情報推定部２４が、顔特徴情報取得部２２が取得したユーザの顔特徴情報と最も類似度の高い顔特徴モデルに対応するキーワードの候補を時系列に連結して構成される単語をユーザ入力情報として推定する。また、顔特徴モデルとしては、単語をキーワードの単位として、単語を発声する際の口の形状を示す口形状モデルが記憶されてもよい。この場合も、入力情報推定部２４が、顔特徴情報取得部２２が取得したユーザの顔特徴情報と最も類似度の高い顔特徴モデルに対応する単語をユーザ入力情報として推定する。これにより、実際に発音しない場合であってもユーザの口の動きにより発話しようとしたキーワードを推定することが可能となる。なお、顔特徴モデルテーブル２８は外部のサーバに記憶されていることとし、情報処理装置２０が外部のサーバに問い合わせることでキーワードを取得することとしてもよい。

また、入力情報推定部２４は、特徴情報取得部が取得した顔特徴情報のうち目周辺の特徴情報を加味してユーザが発話しようとしたキーワードを推定してもよい。この場合、情報処理装置２０の顔特徴モデルテーブル２８には、顔特徴モデルとして、母音「ａ」、母音「ｉ」、母音「ｕ」、母音「ｅ」、及び母音「ｏ」等を発声する際の目の形状や、目周辺の皮膚の形状を示す目周辺形状モデルがさらに記憶されている。入力情報推定部２４は、顔特徴情報取得部２２が取得したユーザの顔特徴情報（口周辺特徴情報及び目周辺特徴情報）と最も類似度の高い顔特徴モデルに対応するキーワードの候補を時系列に連結して構成される単語をユーザ入力情報として推定する。これにより、口の形状だけでは推定できないようなキーワードであっても目周辺の特徴情報を加味することで高精度にキーワードを推定できるようになる。

また、入力情報推定部２４は、ユーザがユーザ入力情報を入力する状況に応じてユーザ入力情報の候補となるキーワードを限定してからユーザ入力情報の推定を実行してもよい。例えば「出身国を入力する」場合は、入力され得るキーワードが国名に限定される。このように、ある程度入力され得るキーワードが想定される状況では、ユーザ入力情報の候補となるキーワードを限定して推定処理を行うことで、より高精度にキーワードを推定することができる。

情報処理装置２０の出力情報生成部２６は、情報処理装置２０の入力情報推定部２４が推定したユーザ入力情報に基づいてヘッドマウントディスプレイ１０の表示部１１に表示させる映像を示す出力情報を生成する。具体的には、出力情報生成部２６は、入力情報推定部２４が推定したユーザ入力情報を文字情報として生成してもよいし、出力情報生成部２６は、入力情報推定部２４が推定したユーザ入力情報に対応する画像情報として生成してもよい。

ここで、本実施形態に係るヘッドマウントディスプレイ１０及び情報処理装置２０が実行するユーザ入力情報推定処理の流れを図７のシーケンス図を参照して説明する。

まず、ユーザがヘッドマウントディスプレイ１０を装着するなどヘッドマウントディスプレイ１０の使用が開始されると、ヘッドマウントディスプレイ１０の撮像部１２がユーザの顔の動画像の撮像を開始する（Ｓ１）。そして、撮像された動画像に含まれるフレーム画像が、所定時間ごとに情報処理装置２０へ送信される（Ｓ２）。なお、撮像された動画像に含まれるフレーム画像は、ユーザが入力操作を開始するタイミングなど所定のタイミングで情報処理装置２０へ送信されることとしてもよい。ユーザが入力操作を開始するタイミングとしては、例えば、文字入力をするとき、選択操作をするとき、質問に返答するときなどがあげられる。

情報処理装置２０の顔特徴情報取得部２２は、ヘッドマウントディスプレイ１０から送信されるフレーム画像からユーザの顔特徴情報を取得する（Ｓ３）。

情報処理装置２０の入力情報推定部２４は、情報処理装置２０の顔特徴情報取得部２２が取得した顔特徴情報と、情報処理装置２０の顔特徴モデルテーブル２８に記憶されている顔特徴モデルと、に基づいてユーザ入力情報を推定する（Ｓ４）。

情報処理装置２０の出力情報生成部２６は、情報処理装置２０の入力情報推定部２４が推定したユーザ入力情報に基づく、ヘッドマウントディスプレイ１０の表示部１１に表示させる映像を示す出力情報を生成する（Ｓ５）。

そして、情報処理装置２０の出力情報生成部２６が生成した出力情報がヘッドマウントディスプレイ１０へ送信されると（Ｓ６）、ヘッドマウントディスプレイ１０の表示制御部１６は、情報処理装置２０から送信された出力情報が示す映像を表示部１１に表示する（Ｓ７）。

なお、本発明は上述の実施形態に限定されるものではない。

例えば、ヘッドマウントディスプレイ１０の表示制御部１６は、ヘッドマウントディスプレイ１０がユーザに装着されたときに、第１撮像部１３がユーザの口周辺を撮像できているか否かを示す画像を表示部１１に表示させることとしてもよい。具体的には、ヘッドマウントディスプレイ１０がユーザに装着されたタイミングで、ヘッドマウントディスプレイ１０が、第１撮像部１３により少なくともユーザの口全体を含む口周辺の動画像が撮像されているか否かを判断する。そして、ヘッドマウントディスプレイ１０の表示制御部１６が、第１撮像部１３により口周辺の動画像が撮像されているか否かの判断結果に応じた画像を表示部１１に表示させる。例えば、表示制御部１６は、口周辺の動画像が撮像されている場合は口の動きによる入力が可能であることを示す画像を表示し、口周辺の動画像が撮像されていない場合はエラーを示す画像を表示する。また、表示制御部１６は、ヘッドマウントディスプレイ１０の設定画面を表示させて、ユーザに音声入力や口の動きによる入力の設定を行わせてもよい。なお、第１撮像部１３により口周辺の動画像が撮像されているか否かの判断結果に応じて表示部１１に表示される画像は、情報処理装置２０の出力情報生成部２６が生成してもよい。この場合、ヘッドマウントディスプレイ１０が第１撮像部１３により少なくともユーザの口全体を含む口周辺の動画像が撮像されているか否かを判断した判断結果を情報処理装置２０へ送信する。情報処理装置２０の出力情報生成部２６は、情報処理装置２０から送信される判断結果を取得して判断結果に応じた出力情報を生成する。そして、ヘッドマウントディスプレイ１０の表示制御部１６は、情報処理装置２０から送信される出力情報を表示部１１に表示させる。これにより、ヘッドマウントディスプレイ１０がユーザに装着されたときに、ユーザは口の動きによる入力が可能か否かを認識することができる。

さらに、ヘッドマウントディスプレイ１０の表示制御部１６は、ヘッドマウントディスプレイ１０がユーザに装着されたときに、第１撮像部１３が撮像する動画像を表示部１１へ表示させることとしてもよい。第１撮像部１３が、可撓性を有するフレキシブルシャフト１７の先端に設けられている場合など、ヘッドマウントディスプレイ１０に対して可動に取り付けられている場合は、第１撮像部１３の位置を動かしたときに口周辺を撮像できているか否かを認識しにくい。そこで、第１撮像部１３が撮像する動画像を表示部１１へ表示させることで、ユーザに口周辺を撮像できているかを認識させるとともに、ユーザに口周辺を撮像できる範囲内で第１撮像部１３の位置を調整させることができる。

また、上述の実施形態では、ユーザが発話しようとする際の顔特徴情報を用いて、ユーザ入力情報を推定した。ここで、従来の音声入力に組み合わせて顔特徴情報を用いたユーザ入力情報の推定を行うこととしてもよい。具体的には、マイクロホンユニットが集音するユーザが発する音声の音声認識と、ユーザが音声を発した際のユーザの顔特徴情報を用いたユーザ入力情報の推定と、を組み合わせて実行することとする。特に、音声認識に向かない単語が発話された場合や、周囲の雑音が多いことにより音声認識しにくい場合などに顔特徴情報を用いたユーザ入力情報の推定を行うこととしてもよい。

また、上述の実施形態では、情報処理装置２０に顔特徴情報取得部２２が含まれることとしているが、ヘッドマウントディスプレイ１０に顔特徴情報取得部２２が含まれることとしてもよい。具体的には、ヘッドマウントディスプレイ１０において、第１撮像部１３が撮像した動画像から口周辺特徴情報を取得し、取得した口周辺徴情報を情報処理装置２０へ送信する。そして、情報処理装置２０の入力情報推定部２４が、ヘッドマウントディスプレイ１０から送信された口周辺特徴情報を取得し、当該口周辺特徴情報に基づいてユーザが発話しようとしたキーワードを推定する。これにより、第１撮像部１３が撮像した動画像のフレーム画像を情報処理装置２０へ送信しないこととなるので、ヘッドマウントディスプレイ１０と情報処理装置２０との間の通信帯域を節約することができる。また、同様にして、ヘッドマウントディスプレイ１０において、第２撮像部１４が撮像した動画像から目周辺特徴情報を取得し、取得した目周辺徴情報を情報処理装置２０へ送信してもよい。この場合も、第２撮像部１４が撮像した動画像のフレーム画像を情報処理装置２０へ送信しないこととなるので、ヘッドマウントディスプレイ１０と情報処理装置２０との間の通信帯域を節約することができる。

また、上述の実施形態では、情報処理装置２０においてユーザ入力情報の推定処理を行うこととしているが、ヘッドマウントディスプレイ１０においてユーザ入力情報の推定処理を行うこととしてもよい。

１情報処理システム、１０ヘッドマウントディスプレイ、１１表示部、１２撮像部、１３第１撮像部、１４第２撮像部、１５赤外線ＬＥＤ、１６表示制御部、１７フレキシブルシャフト、２０情報処理装置、２２顔特徴情報取得部、２４入力情報推定部、２６出力情報生成部、２８顔特徴モデルテーブル。

Claims

ユーザの口の動きを撮像可能な位置に設けられる口周辺撮像カメラと、
前記口周辺撮像カメラにより撮像された前記口の動きから推定される前記ユーザの入力情報に基づく映像を表示する表示制御手段と、を備える眼前装着型表示装置であって、
前記口周辺撮像カメラは、前記眼前装着型表示装置が前記ユーザに装着されたときの前記眼前装着型表示装置の筐体下面、又は、当該筐体下面に支持されたシャフトの先端に設けられている、
ことを特徴とする眼前装着型表示装置。
前記ユーザの目周辺の表情を撮像可能な位置に設けられる目周辺撮像カメラ、をさらに備え、
前記表示制御手段は、前記口周辺撮像カメラにより撮像された前記口の動きと、前記目周辺撮像カメラにより撮像された前記目周辺の表情と、に基づいて推定される前記ユーザの入力情報に基づく映像を表示する、
ことを特徴とする請求項１に記載の眼前装着型表示装置。
前記表示制御手段は、前記口周辺撮像カメラにより撮像された画像から抽出される口周辺特徴情報と、前記目周辺撮像カメラにより撮像された画像から抽出される目周辺特徴情報と、を含む顔特徴情報と、顔特徴モデルと、のマッチングに基づいて推定される前記ユーザの入力情報に基づく映像を表示する、
ことを特徴とする請求項２に記載の眼前装着型表示装置。
前記表示制御手段は、前記ユーザの目の形状、及び、前記ユーザの目若しくは目周辺の皮膚の形状に基づいて推定される前記ユーザの入力情報に基づく映像を表示する、
ことを特徴とする請求項２に記載の眼前装着型表示装置。
前記目周辺撮像カメラは、前記ユーザの視線を検出可能であり、
前記表示制御手段は、前記口の動きと、前記目周辺の表情と、前記目周辺撮像カメラにより検出される前記ユーザの視線に関する情報と、に基づいて推定される前記ユーザの入力情報に基づく映像を表示する、
ことを特徴とする請求項２に記載の眼前装着型表示装置。
前記ユーザが発する音声を集音するマイク、をさらに備える、
ことを特徴とする請求項１から５のいずれか一項に記載の眼前装着型表示装置。