JP2018032094A

JP2018032094A - 画像処理装置、画像処理方法

Info

Publication number: JP2018032094A
Application number: JP2016162205A
Authority: JP
Inventors: 雄一山川; Yuichi Yamakawa
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-08-22
Filing date: 2016-08-22
Publication date: 2018-03-01

Abstract

【課題】複合現実空間を体感しているユーザがより簡便な方法でもって所望の仮想物体を操作するための技術を提供すること。【解決手段】頭部装着型表示装置が有する撮像装置による撮像画像を取得し、撮像画像に１以上の特徴が含まれている状態において音声が入力されると、該１以上の特徴のうちの１つの特徴を、該音声に対する認識の結果に基づいて選択する。選択した特徴に配置する仮想物体を上記認識の結果に基づいて決定し、該決定した仮想物体の画像を頭部装着型表示装置に対して出力する。【選択図】図１

Description

本発明は、現実空間の画像と仮想空間の画像との合成画像を生成して提示する為の技術に関するものである。

近年、現実世界と仮想世界とをリアルタイムにシームレスに融合させる技術として複合現実技術、いわゆるMR(Mixed Reality)技術が知られている。このMR技術の１つに、ビデオシースルーHMD(Head Mounted Display)を利用して、複合現実画像を使用者に提示する技術がある。

ビデオシースルーHMDに内蔵されているビデオカメラは、使用者の瞳位置から観測される被写体と略一致する被写体を撮像する。ビデオシースルーHMDの表示パネルが、この撮像画像にCG(Computer Graphics)を重畳した画像を表示することで、ビデオシースルーHMDは複合現実空間を該使用者に提供する。このようなＭＲ技術を用いることによって、誰でも直感的に3DCGデータの検証を行うことが出来る。

3DCGデータの検証を行う上で、複数の3DCGデータうち特定の3DCGデータを操作したい、という要望が発生しうる。これについて特許文献１では、指で仮想空間中の座標を指示することで、複数の3DCGデータのうち特定の3DCGデータを特定する方法が開示されている。また特許文献２では、使用者の視点位置との相対位置から特定の3DCGデータを特定する方法が開示されている。

特開2012-155678号公報特開2002-42172号公報

特許文献１では、指を使って3DCGデータを特定するため、両手がふさがっている場合には3DCGデータを特定することができない。特許文献２では、特定の3DCGデータを操作するためには、3DCGデータを特定し、該特定した3DCGデータに対して操作を選択する、という２段階の指示を実施する必要があった。

本発明はこのような問題に鑑みてなされたものであり、複合現実空間を体感しているユーザがより簡便な方法でもって所望の仮想物体を操作するための技術を提供する。

本発明の一様態は、頭部装着型表示装置が有する撮像装置による撮像画像を取得する手段と、前記撮像画像に１以上の特徴が含まれている状態において音声が入力されると、該１以上の特徴のうちの１つの特徴を、該音声に対する認識の結果に基づいて選択する選択手段と、前記選択手段が選択した特徴に配置する仮想物体を前記認識の結果に基づいて決定する決定手段と、前記決定手段が決定した仮想物体の画像を前記頭部装着型表示装置に対して出力する出力手段とを備えることを特徴とする。

本発明の構成によれば、複合現実空間を体感しているユーザがより簡便な方法でもって所望の仮想物体を操作することができる。

システムの構成例を示すブロック図。システムを使用する環境を説明する図。仮想現実空間を提示するシステムの構成例を示すブロック図。ステップＳ６０４を説明する図。コマンドとマーカとの対応関係が登録されたテーブルの構成例を示す図。画像処理装置１１０が行う処理のフローチャート。ステップＳ６０６における処理の詳細を示すフローチャート。第２の実施形態を説明する図。システムの構成例を示すブロック図。ステップＳ６０６における処理の詳細を示すフローチャート。コンピュータ装置のハードウェア構成例を示すブロック図。

以下、添付図面を参照し、本発明の実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載した構成の具体的な実施例の１つである。

［第１の実施形態］
本実施形態では、以下のような構成を有する画像処理装置の一例について説明する。即ちこの画像処理装置は、頭部装着型表示装置が有する撮像装置による撮像画像を取得し、該撮像画像に１以上の特徴が含まれている状態において音声が入力されると、該１以上の特徴のうちの１つの特徴を、該音声に対する認識の結果に基づいて選択する。そして、該選択した特徴に配置する仮想物体を上記認識の結果に基づいて決定し、該決定した仮想物体の画像を頭部装着型表示装置に対して出力する。

先ず、本実施形態に係るシステムの構成例について、図１のブロック図を用いて説明する。本実施形態に係るシステムは、頭部装着型表示装置を頭部に装着したユーザに、現実空間と仮想空間とを融合させた複合現実空間を提示するためのもので、図１に示す如く、頭部装着型表示装置１００、画像処理装置１１０、外部センサ１２０を有する。

先ず、頭部装着型表示装置１００について説明する。頭部装着型表示装置１００は、ビデオシースルー型のＨＭＤである。

撮像部１０１は、頭部装着型表示装置１００を頭部に装着するユーザの眼前に提示する現実空間の映像を撮像するためのもので、例えば、頭部装着型表示装置１００を頭部に装着するユーザの視界と略一致する視界の現実空間を撮像する。撮像部１０１は、撮像した現実空間の映像を構成する各フレームの画像（撮像画像）を順次、画像処理装置１１０に対して出力する。

音声入力部１０２は、頭部装着型表示装置１００を頭部に装着したユーザが発する音声を入力するためのものであり、入力された音声を音声信号として画像処理装置１１０に対して出力する。

表示部１０３は、頭部装着型表示装置１００を頭部に装着したユーザの眼前に位置するように頭部装着型表示装置１００に設けられたものであり、画像処理装置１１０から出力された映像信号に応じた画像や文字を表示する。然るに頭部装着型表示装置１００を頭部に装着したユーザの眼前には、画像処理装置１１０から出力された映像信号に応じた画像や文字が提示されることになる。

次に、外部センサ１２０について説明する。外部センサ１２０は、頭部装着型表示装置１００に取り付けられたマーカを検出し、該検出の結果に応じて該頭部装着型表示装置１００の位置姿勢を求め、該求めた位置姿勢を画像処理装置１１０に対して出力する。

次に、画像処理装置１１０について説明する。画像処理装置１１０は、撮像部１０１による撮像画像上に、仮想物体の画像を重畳した合成画像（複合現実空間の画像）を生成し、該生成した合成画像を頭部装着型表示装置１００の表示部１０３に対して出力する。これにより、頭部装着型表示装置１００を頭部に装着したユーザの眼前には、この合成画像が提示されることになる。

本実施形態では、このようなシステムを図２に示すような環境下において使用するケースについて説明する。図２に示したケースにおいては、ユーザ１０は自身の頭部に頭部装着型表示装置１００を装着しており、頭部装着型表示装置１００（例えば撮像部１０１）にはマーカ１００ａが取り付けられている。外部センサ１２０は、該マーカ１００ａを検出し、該検出の結果に基づいて該マーカ１００ａの位置姿勢を頭部装着型表示装置１００（撮像部１０１）の位置姿勢として求め、該求めた頭部装着型表示装置１００の位置姿勢を画像処理装置１１０に対して出力する。また、現実空間中の規定位置には規定姿勢でもってマーカ１５０ａが配置されており、後述する処理により、マーカ１５０ａの位置にはマーカ１５０ａの姿勢でもって、マーカ１５０ａに対応する仮想物体が配置される。また、ユーザ１０は現実物体１６０，１６１，１６２のうち任意の１以上を把持することができ（図２では現実物体１６０を把持している）、現実物体１６０，１６１，１６２のそれぞれには、マーカ１６０ａ、１６１ａ、１６２ａが取り付けられている。後述する処理により、マーカ１６０ａの位置にはマーカ１６０ａの姿勢でもってマーカ１６０ａに対応する仮想物体が配置される。また、マーカ１６１ａの位置にはマーカ１６１ａの姿勢でもってマーカ１６１ａに対応する仮想物体が配置される。また、マーカ１６２ａの位置にはマーカ１６２ａの姿勢でもってマーカ１６２ａに対応する仮想物体が配置される。

以下では具体的な説明を行うために、マーカ１５０ａ、１６０ａ、１６１ａ、１６２ａのそれぞれの位置に配置する仮想物体は車、工具Ａ、工具Ｂ、工具Ｃであるとするが、これらはあくまで一例であり、以下の説明はこれらの仮想物体に限ったものではない。

そして本実施形態に係るシステムは、このようなケースにおいて、ユーザ１０の視界（すなわち撮像部１０１の視界）の範囲内に位置しているマーカの位置姿勢で配置する仮想物体を他の仮想物体に変更するための操作を、ユーザによる音声入力に基づいて行う。

ここで、画像処理装置１１０（の各機能部）が合成画像を生成して頭部装着型表示装置１００の表示部１０３に出力するために行う処理について、図６のフローチャートを用いて説明する。なお、図６のフローチャートに従った処理は、１フレーム分の合成画像を生成して出力する処理である。然るに実際には、画像処理装置１１０は、図６のフローチャートに従った処理を繰り返し行うことで、複数フレームの合成画像を生成して頭部装着型表示装置１００の表示部１０３に対して出力している。

ステップＳ６０１では、計測部１１１は、外部センサ１２０から頭部装着型表示装置１００の位置姿勢を取得する。

ステップＳ６０２では、計測部１１１は、撮像部１０１からの撮像画像中に１以上のマーカが含まれているか否かを判断する。この判断の結果、撮像画像中に１以上のマーカが含まれている場合には。処理はステップＳ６０３に進み、撮像画像中に１つもマーカが含まれていない場合には、処理はステップＳ６０７に進む。

ステップＳ６０３では、計測部１１１は、撮像画像中に含まれているそれぞれのマーカの位置姿勢（撮像部１０１に対する相対的な位置姿勢）を求める。図２の例では、撮像画像中にマーカ１５０ａや、マーカ１６０ａ、１６１ａ、１６２ａが含まれていれば、計測部１１１は、撮像画像からマーカ１５０ａや、マーカ１６０ａ、１６１ａ、１６２ａを検出し、その位置姿勢を求める。

なお、マーカ１５０ａ、１６０ａ、１６１ａ、１６２ａの位置姿勢は、マーカ１００ａと同様に外部センサ１２０により測定しても良い。この場合、測定したマーカ１５０ａ、１６０ａ、１６１ａ、１６２ａの位置姿勢と、マーカ１００ａの位置姿勢と、を用いて、マーカ１００ａに対するマーカ１５０ａ、１６０ａ、１６１ａ、１６２ａの相対的な位置姿勢を算出する。この場合、図３に示すようなシステムを適用することができる。このように、マーカ１００ａ（撮像部１０１）に対するマーカ１５０ａ、１６０ａ、１６１ａ、１６２ａの相対的な位置姿勢を算出するための方法は、特定の方法に限らない。

ステップＳ６０４では、対象推定部１１２は、計測部１１１が位置姿勢を求めたマーカのうち、ユーザからの音声入力に応じた処理の対象となるマーカの候補（候補マーカ）を１つ以上選択する。例えば図４に示す如く、撮像部１０１による撮像画像４９０中にマーカ１５０ａ、１６０ａ、１６１ａが含まれている場合、対象推定部１１２は、撮像画像４９０の中央領域４００内に含まれているマーカ１５０ａ及び１６０ａを、候補マーカとして選択する。これは即ち、撮像部１０１の視界内に属するマーカを候補マーカとして選択することを意味する。然るに、同様の目的を達成できるのであれば、候補マーカの選択方法は特定の選択方法に限らない。

ここで、対象推定部１１２が、計測部１１１が位置姿勢を求めたマーカから候補マーカに該当するものを１以上選択できた場合には、処理はステップＳ６０５を介してステップＳ６０６に進む。一方、対象推定部１１２が、計測部１１１が位置姿勢を求めたマーカから候補マーカに該当するものを１つも選択できなかった場合には、処理はステップＳ６０５を介してステップＳ６０７に進む。図４の例では、中央領域４００内に１以上のマーカが含まれていれば、処理はステップＳ６０５を介してステップＳ６０６に進むし、中央領域４００内に１つもマーカが含まれていない場合には、処理はステップＳ６０５を介してステップＳ６０７に進む。

ステップＳ６０６では、候補マーカのうち、ユーザからの音声入力の対象となるマーカを決定し、該決定したマーカの位置姿勢でもって配置する仮想物体を、該ユーザから入力された音声に対する音声認識の結果に基づいて決定する。ステップＳ６０６における処理の詳細について、図７のフローチャートを用いて説明する。

ステップＳ７０１では、音声認識部１１３は、音声入力部１０２から入力された音声信号が表す音声を認識する。ユーザは、現在注視している仮想物体を他の仮想物体に変更するためのコマンドを音声にて音声入力部１０２に入力する。

ステップＳ７０２では、音声認識部１１３は、ステップＳ７０１における音声認識の結果が、予め画像処理装置１１０が保持する複数の規定コマンドの何れかに該当するのかを判断する。この判断の結果、音声認識の結果が、何れかの規定コマンドに該当する場合には、処理はステップＳ７０３に進み、音声認識の結果が、何れの規定コマンドにも該当していない場合には、処理はステップＳ６０７に進む。

ステップＳ７０３では、対象特定部１１４は、対象推定部１１２が選択した候補マーカのうち、音声認識部１１３が認識したコマンドに対応する候補マーカを対象マーカとして特定する。例えば、画像処理装置１１０は図５に例示するテーブルを予め保持している。音声認識部１１３が認識したコマンドが「車１」であるとすると、コマンド「車１」に対応するマーカは「車用マーカ」であるから、この場合、対象特定部１１４は、対象推定部１１２が選択した候補マーカのうち車用マーカを対象マーカとして特定する。図２の例では、マーカ１５０ａを車用マーカとしているので、この場合、ステップＳ７０３では、マーカ１５０ａが対象マーカとして特定される。これは、コマンド「車２」、「車３」についても同様である。

また、音声認識部１１３が認識したコマンドが「１番プラスドライバ」であるとすると、コマンド「１番プラスドライバ」に対応するマーカは「工具用マーカ」である。この場合、対象特定部１１４は、対象推定部１１２が選択した候補マーカのうち工具用マーカを対象マーカとして特定する。図２の例では、マーカ１６０ａ、１６１ａ、１６２ａを工具用マーカとしているので、この場合、ステップＳ７０３では、マーカ１６０ａ、１６１ａ、１６２ａのうち候補マーカとなっているものから１つが対象マーカとして特定される。なお、マーカ１６０ａ、１６１ａ、１６２ａのうち２つ以上が候補マーカである場合には、該２つ以上の候補マーカのうち何れか１つを対象マーカとして特定する。特定方法については特定の方法に限らない。例えば、撮像画像の中心により近いマーカを対象マーカとして特定しても良いし、より撮像部１０１に近い位置にあるマーカを対象マーカとして特定しても良い。これは、コマンド「２番プラスドライバ」、「マイナスドライバ」、「ペンチ」についても同様である。

そして対象特定部１１４は、対象マーカの位置姿勢でもって配置する仮想物体として、音声認識部１１３が認識したコマンドに対応する仮想物体に変更する。例えば、音声認識部１１３が認識したコマンドが「車１」であるとすると、対象マーカの位置姿勢でもって配置する仮想物体を「車１」の仮想物体に変更する。これは他のコマンドについても同様である。なお、コマンドは他の仮想物体に変更するコマンドに限らない。例えば、現在の仮想物体に対する何らかの処理を施すためのコマンドであっても良い。

図６に戻って次に、ステップＳ６０７では、ＣＧ重畳部１１５は、各マーカについて、該マーカの位置に該マーカの姿勢でもって、該マーカに対応する仮想物体を配置する。なお、対象マーカの位置には対象マーカの姿勢でもって、ステップＳ７０３で変更した仮想物体が配置される。仮想物体は、該仮想物体の形状や色、質感などを規定するＣＧデータ１１６により規定されている。そしてＣＧ重畳部１１５は、配置した各仮想物体を、計測部１１１が外部センサ１２０から取得した位置姿勢を有する視点から見た画像を生成し、該生成した仮想物体の画像を、撮像部１０１から取得した撮像画像上に重畳した合成画像を生成する。そしてＣＧ重畳部１１５は、該生成した合成画像を頭部装着型表示装置１００の表示部１０３に対して送出する。これにより頭部装着型表示装置１００を頭部に装着したユーザの眼前には、この合成画像が提示されることになる。

なお、撮像画像上には仮想物体の画像だけでなく、他の情報を更に重畳させても良い。例えば、候補マーカの位置姿勢でもって配置した仮想物体を、他のマーカ（非候補マーカ）の位置姿勢でもって配置した仮想物体とは異なる表示形態で表示するようにしても良い。また、対象マーカの位置姿勢でもって配置した仮想物体を、他のマーカ（非対象マーカ）の位置姿勢でもって配置した仮想物体とは異なる表示形態で表示するようにしても良い。また、図５のテーブルにおける「受付コマンド」の一覧を撮像画像上に重畳させるようにしても良い。これによりユーザは、発声可能なコマンドを把握することができる。このような様々な合成画像の生成は何れも、ＣＧ重畳部１１５が行う。

そしてステップＳ６０８では、ＣＧ重畳部１１５は、ステップＳ６０７で生成した合成画像を頭部装着型表示装置１００の表示部１０３に対して出力する。これによりユーザの眼前には、現実空間の画像上に仮想物体の画像が重畳された合成画像が提示されることになる。更に、ユーザが着目仮想物体を注視している状態（撮像部１０１の視線方向に着目仮想物体が存在する）で、該着目仮想物体を他の仮想物体に変更するコマンドを音声で入力した場合、該コマンドに応じて該着目仮想物体を他の仮想物体に変更することができる。

＜変形例＞
頭部装着型表示装置１００の位置姿勢を求めるための方法には様々な方法があり、本実施形態では如何なる方法を採用しても良い。例えば、頭部装着型表示装置１００に位置姿勢センサを取り付けて、該位置姿勢センサによる計測結果に基づいて頭部装着型表示装置１００の位置姿勢を算出しても良い。他にも例えば、現実空間中に配置位置が既知のマーカを配置しておき、撮像部１０１が撮像した撮像画像中のマーカの画像座標と、該マーカの現実空間における配置位置と、に基づいて頭部装着型表示装置１００（撮像部１０１）の位置姿勢を求めても良い。

また、上記の例では、仮想物体を配置する箇所にはマーカを設けたが、マーカの代わりに、現実物体の自然特徴（現実物体の角、辺、枠など）を用いても良い。すなわち、仮想物体は、マーカ等の人工的に設けた特徴点、自然特徴等の特徴点、の何れに配置しても良い。その場合、上記の候補マーカは候補特徴点となる。

［第２の実施形態］
本実施形態では、音声認識したコマンドに対応する候補マーカが複数の場合に、複数の候補マーカから１つの候補マーカを選択する別の形態について説明する。以下では第１の実施形態との差分について重点的に説明し、以下で特に触れない限りは、第１の実施形態と同様であるものとする。

本実施形態に係るシステムの構成例を図９に示す。図９において図１との共通部分には同じ参照番号を付しており、その説明は省略する。図９に示した構成は、図１に示した構成において、画像処理装置１１０に音量評価部１１７を加えたものである。

音量評価部１１７は、音声入力部１０２から入力された音声信号が表す音量を取得し、該音量が基準値以上であるか否かを判断する。この基準値は全てのユーザで共通のデフォルト値として予め画像処理装置１１０に設定されたものであっても良いし、画像処理装置１１０にログインしたユーザに関連づけられたものであっても良い。また、過去に音量評価部１１７が求めた音量の平均値を基準値として用いても良い。

対象特定部１１４は、音声認識部１１３が認識したコマンドに対応する候補マーカが複数の場合には、音量評価部１１７による判断結果に応じて、該複数の候補マーカのうち何れか１つを対象マーカとして特定する。具体的には、音声入力部１０２から入力された音声信号が表す音量が基準値以上であれば、複数の候補マーカのうち撮像部１０１からより遠い候補マーカを対象マーカとして選択する。一方、音声入力部１０２から入力された音声信号が表す音量が基準値未満であれば、複数の候補マーカのうち撮像部１０１により近い候補マーカを対象マーカとして選択する。また音声入力部１０２からの音声信号が表す音量が、最大音量から最小音量までの間を複数の区間に分割した場合のどの区間に属するのかを判断し、属すると判断した区間に対応する距離範囲（撮像部１０１からの距離範囲）に属する候補マーカを選択しても良い。

例えば図８に示す如く、中央領域４００内に工具用のマーカ１６０ａ及びマーカ１６１ａが属しており、且つ撮像部１０１とマーカ１６０ａとの間の距離が撮像部１０１とマーカ１６１ａとの間の距離より近いとする。このとき、音声入力部１０２から入力された音声信号が表す音量が基準値以上であれば、マーカ１６１ａを対象マーカとして選択し、基準値未満であれば、マーカ１６０ａを対象マーカとして選択する。

本実施形態では、上記のステップＳ６０６では、図７のフローチャートに従った処理の代わりに、図１０のフローチャートに従った処理を行う。図１０のフローチャートにおいて、図７に示した処理ステップと同じ処理ステップには同じステップ番号を付しており、該処理ステップに係る説明は省略する。

ステップＳ１００１では、音量評価部１１７は、音声入力部１０２から入力された音声信号が表す音量を取得し、該音量が基準値以上であるか否かを判断する。そしてステップＳ１００２では、対象特定部１１４は、音声認識部１１３が認識したコマンドに対応する候補マーカが複数の場合には、音量評価部１１７による判断結果に応じて、該複数の候補マーカのうち何れか１つを対象マーカとして特定する。なお、音声認識部１１３が認識したコマンドに対応する候補マーカが１つの場合には、該１つを対象マーカとして特定する。

［第３の実施形態］
図１，３，９に示した画像処理装置１１０を構成する各機能部（ＣＧデータ１１６は除く）は、ハードウェアで実装しても良いが、ソフトウェア（コンピュータプログラム）で実装しても良い。各機能部をソフトウェアで実装する場合、このソフトウェアを実行するコンピュータ装置は、この画像処理装置１１０に適用することができる。このコンピュータ装置のハードウェア構成例について、図１１のブロック図を用いて説明する。

ＣＰＵ１１０１は、ＲＡＭ１１０２やＲＯＭ１１０３に格納されているコンピュータプログラムやデータを用いて処理を実行する。これによりＣＰＵ１１０１は、コンピュータ装置全体の動作制御を行うと共に、画像処理装置１１０が行うものとして上述した各処理を実行若しくは制御する。

ＲＡＭ１１０２は、ＲＯＭ１１０３や外部記憶装置１１０６からロードされたコンピュータプログラムやデータ、Ｉ／Ｆ（インターフェース）１１０７を介して外部から受信したデータ、を格納するためのエリアを有する。更にＲＡＭ１１０２は、ＣＰＵ１１０１が各種の処理を実行する際に用いるワークエリアを有する。このようにＲＡＭ１１０２は各種のエリアを適宜提供することができる。ＲＯＭ１１０３には、書き換え不要の本装置の設定データやブートプログラムなどが格納されている。

操作部１１０４は、キーボードやマウスなどのユーザインターフェースにより構成されており、本装置のユーザが操作することで、各種の指示をＣＰＵ１１０１に対して入力することができる。

表示部１１０５はＣＲＴや液晶画面などにより構成されており、ＣＰＵ１１０１による処理結果を画像や文字などでもって表示することができる。なお、操作部１１０４と表示部１１０５とを一体化させてタッチパネル画面を構成しても良い。

外部記憶装置１１０６は、ハードディスクドライブ装置に代表される大容量情報記憶装置である。外部記憶装置１１０６には、ＯＳ（オペレーティングシステム）や、図１，３，９に示した画像処理装置１１０の各機能部の機能をＣＰＵ１１０１に実現させるためのコンピュータプログラムやデータが保存されている。このデータには、上記のＣＧデータ１１６や、上記の説明において既知の情報として説明したものが含まれている。外部記憶装置１１０６に保存されているコンピュータプログラムやデータは、ＣＰＵ１１０１による制御に従って適宜ＲＡＭ１１０２にロードされ、ＣＰＵ１１０１による処理対象となる。

Ｉ／Ｆ１１０７には、上記の外部センサ１２０や頭部装着型表示装置１００が接続される。なお、Ｉ／Ｆ１１０７は外部センサ１２０と頭部装着型表示装置１００とで共通のインターフェースとするのではなく、それぞれで別個のインターフェースとしても良い。

ＣＰＵ１１０１、ＲＡＭ１１０２、ＲＯＭ１１０３、操作部１１０４、表示部１１０５、外部記憶装置１１０６、Ｉ／Ｆ１１０７は何れもバス１１０８に接続されている。なお、図１１に示した構成は、画像処理装置１１０に適用可能なこのコンピュータ装置のハードウェア構成の一例である。また、上記の各実施形態や変形例は、その一部若しくは全部を適宜組み合わせても構わないし、選択的に使用しても良い。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００：頭部装着型表示装置１１０：画像処理装置

Claims

頭部装着型表示装置が有する撮像装置による撮像画像を取得する手段と、
前記撮像画像に１以上の特徴が含まれている状態において音声が入力されると、該１以上の特徴のうちの１つの特徴を、該音声に対する認識の結果に基づいて選択する選択手段と、
前記選択手段が選択した特徴に配置する仮想物体を前記認識の結果に基づいて決定する決定手段と、
前記決定手段が決定した仮想物体の画像を前記頭部装着型表示装置に対して出力する出力手段と
を備えることを特徴とする画像処理装置。
前記選択手段は、前記１以上の特徴のうち前記撮像画像の中央領域に属する特徴を候補特徴として選択し、該候補特徴のうち、前記認識の結果が表す仮想物体と関連づけられている候補特徴を選択することを特徴とする請求項１に記載の画像処理装置。
前記選択手段は、前記認識の結果が表す仮想物体と関連づけられている候補特徴が複数の場合、前記撮像画像の中心により近い候補特徴を選択することを特徴とする請求項２に記載の画像処理装置。
前記選択手段は、前記認識の結果が表す仮想物体と関連づけられている候補特徴が複数の場合、前記撮像装置により近い候補特徴を選択することを特徴とする請求項２に記載の画像処理装置。
更に、
前記音声の音量を取得する手段を備え、
前記選択手段は、前記認識の結果が表す仮想物体と関連づけられている候補特徴が複数の場合、前記音量に応じた候補特徴を選択することを特徴とする請求項２に記載の画像処理装置。
前記選択手段は、前記認識の結果が表す仮想物体と関連づけられている候補特徴が複数の場合、前記音量が基準値以上であれば前記撮像装置からより遠い候補特徴を選択し、前記音量が基準値未満であれば前記撮像装置により近い候補特徴を選択することを特徴とする請求項５に記載の画像処理装置。
前記出力手段は、前記決定手段が決定した仮想物体の画像と、ユーザが発声可能なコマンドの一覧と、を合成した画像を前記頭部装着型表示装置に対して出力し、
前記選択手段は、前記音声に対する認識の結果が前記一覧に属するコマンドのうち何れか１つのコマンドであれば、前記１以上の特徴のうち前記撮像画像の中央領域に属する特徴から、該１つのコマンドが表す仮想物体と関連づけられている特徴を選択し、
前記決定手段は、前記選択手段が選択した特徴に配置する仮想物体を、前記１つのコマンドが表す仮想物体に決定する
ことを特徴とする請求項１乃至４の何れか１項に記載の画像処理装置。
更に、前記撮像画像と前記決定手段が決定した仮想物体の画像とが合成された合成画像を生成する合成手段を備え、
前記出力手段は、前記合成手段で生成された合成画像を出力することを特徴とする請求項１乃至７の何れか１項に記載の画像処理装置。
画像処理装置が行う画像処理方法であって、
前記画像処理装置の取得手段が、頭部装着型表示装置が有する撮像装置による撮像画像を取得する工程と、
前記画像処理装置の選択手段が、前記撮像画像に１以上の特徴が含まれている状態において音声が入力されると、該１以上の特徴のうちの１つの特徴を、該音声に対する認識の結果に基づいて選択する選択工程と、
前記画像処理装置の決定手段が、前記選択工程で選択した特徴に配置する仮想物体を前記認識の結果に基づいて決定する決定工程と、
前記画像処理装置の出力手段が、前記決定工程で決定した仮想物体の画像を前記頭部装着型表示装置に対して出力する出力工程と
を備えることを特徴とする画像処理方法。
コンピュータを、請求項１乃至８の何れか１項に記載の画像処理装置の各手段として機能させるためのコンピュータプログラム。