JP6600186B2

JP6600186B2 - 情報処理装置、制御方法およびプログラム

Info

Publication number: JP6600186B2
Application number: JP2015144440A
Authority: JP
Inventors: 典朗多和田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-07-21
Filing date: 2015-07-21
Publication date: 2019-10-30
Anticipated expiration: 2035-07-21
Also published as: JP2017028465A

Description

本発明は、情報処理装置、情報処理システム、情報処理装置の制御方法およびプログラムに関する。

全方位を撮影可能な全方位カメラで撮影を行い、スティッチ等の適切な後処理を行うことで、全方位映像（パノラマ映像もその一種）を得ることができる。また、撮影と同時に複数のマイク素子で構成されるマイクアレイで録音を行い、ビームフォーマ等の指向性制御処理を行うことで、全方位映像の各方向に対応する方向ごとの音（以下、「方向音」と呼ぶ）を得ることができる。このようにして取得した映像をユーザに提示すると共にユーザの周囲に配置された複数のスピーカから各スピーカの配置方向に対応する方向音を再生する。すると、まるで現場にいるとユーザが感じるかのような、高い臨場感と没入感を得ることができる。

特許文献１には、ユーザの周囲に複数のディスプレイとスピーカを配置し、ディスプレイを窓に見立ててユーザの位置（視点）に応じて表示する映像を変え、同時にスピーカから再生する音も変えるようなシステムが開示されている。またこのとき、元となる映像がＣＧ映像ではなく（実写の）パノラマ映像の場合は、映像の拡大表示や縮小表示によってユーザの視点に応じた表示を行うことが開示されている。

特開２００５−９９０６４号公報

例えば、ヘッドマウントディスプレイ（ＨＭＤ）等のようにユーザ個別の表示装置に全方位映像を表示し、ユーザが移動可能な状態で、固定設置された複数のスピーカから方向音を再生するシステムを考える。この場合、特許文献１の技術を用いると、ユーザが移動すると、ＨＭＤに表示される映像は、ユーザの移動に応じて変わり、同様に、各スピーカから出力される音信号は、ユーザの位置に応じて変わる。しかしながら、特定のユーザの位置にのみに応じてスピーカから出力される音信号を制御すると、他のユーザのＨＭＤに表示される映像と各スピーカからの出力による音像とのずれが生じる恐れがある。複数ユーザに一律に、特定のユーザの位置に応じた指向性制御処理等の処理を行わず、各スピーカに音を出力させる必要がある。

このように、各スピーカに出力させる音信号の制御を行わずに、ＨＭＤに表示される映像と各スピーカの出力による音像とのずれを低減させるためには、ＨＭＤに表示される映像を各スピーカから出力される方向音による音像に対応させることが考えられる。

しかしながら、従来技術では、各スピーカに出力させる音信号の制御を行わずに、ユーザ個別の表示装置に表示される映像と各スピーカの出力による音像とのずれを低減させることは考慮されておらず、改善の余地がある。

本発明は、上記の課題に鑑みてなされたものであり、映像における所定方向からの音を出力する出力装置による音像と表示装置の位置に応じて表示させる映像とのずれを低減させることを目的とする。

上記の目的を達成するために、本発明の一態様による情報処理装置は以下の構成を備える。即ち、
表示装置を保持するユーザに対して画像を表示する前記表示装置の位置及び向きに関する第１情報を取得する第１取得手段と、
音を出力する出力装置の位置に関する第２情報を取得する第２取得手段と、
前記表示装置に表示されるオブジェクトの表示位置が、前記オブジェクトに関する音を出力する前記出力装置に対する前記ユーザの位置及び向きの変化に応じて変化するように、前記第１取得手段により取得された前記第１情報と前記第２取得手段により取得された前記第２情報とに基づいて前記表示装置に画像を表示させる表示制御手段と
を有することを特徴とする。

本発明によれば、映像における所定方向からの音を出力する出力装置による音像と表示装置の位置に応じて表示させる映像とのずれを低減させることができる。

情報処理装置のブロック図。周囲スピーカが等距離の場合の説明図。、周囲スピーカが等距離でない場合の説明図。本実施形態に係る処理の手順を示すフローチャート。

以下、添付の図面を参照しながら、本実施形態について説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。

はじめに、本実施形態の基本的な考え方を説明する。本実施形態の特徴は、個別ディスプレイと周囲スピーカを使用して、映像と音像のずれが生じない全方位スクリーンおよび周囲スピーカのシステムと同じ状況を作り出すことにある。そのためには、あたかも全方位スクリーンを見ているような映像を、各ユーザの個別ディスプレイに表示すればよい。これを実現するため、周囲スピーカの位置に仮想的に配置した全方位スクリーンに全方位映像を投影する。そして、ユーザ位置を起点として特定されるユーザの顔方向から所定範囲（例えば、個別ディスプレイの視野角範囲）で仮想的に配置した全方位スクリーンに投影させた全方位映像を切り出した映像を個別ディスプレイに表示することで実現できる。

まず、図２に示すように、スピーカ２１１〜２１８がリスニングポイント（基準位置とも呼ぶ）から等距離で配置され、各スピーカからスピーカ配置方向に対応する、全方位映像の一例であるパノラマ映像の方向音が再生される場合を考える。ユーザ２３１〜２３３は、それぞれ頭部に個別ディスプレイの一例であるＨＭＤ２４１〜２４３を装着し、各ユーザの位置および顔方向（視線の方向）に応じた映像を見ることができる。なお、スピーカ２１１〜２１８は、音を出力する出力装置である。

例えば、リスニングポイントにいるユーザ２３１については、ユーザ２３１の顔がグローバル座標系で正面方向（基準位置からスピーカ２１１を向いた方向）を向いている。よって、パノラマ映像の正面方向を中心にＨＭＤ２４１の視野角範囲で切り出した映像をＨＭＤ２４１に表示する。これにより、例えばパノラマ映像で正面（０°）方向に映っている犬が、ＨＭＤ２４１の中央に表示される。また、犬の鳴き声を再生するグローバル座標系正面方向のスピーカ２１１の音が、ユーザ２３１から見てＨＭＤ２４１の同じく中央方向から聞こえるため、映像と音像の方向が一致している。

次に、基準位置からずれた位置にいるユーザ２３２について、ユーザ２３２の顔はグローバル座標系でユーザ２３１と同じ正面方向を向いている。もし単純に、ユーザの顔方向のみに応じてＨＭＤに表示する映像信号を生成すると、ユーザ２３１のＨＭＤ２４１とユーザ２３２のＨＭＤ２４２に表示される映像は同じとなる。しかしこれでは、先ほどの犬がＨＭＤ２４２の中央に表示される一方、犬の鳴き声を再生するスピーカ２１１の音がユーザ２３２から見てＨＭＤ２４２の左端方向から聞こえるため、映像と音像のずれが生じている。

そこで、ユーザの顔方向だけでなく位置にも応じてＨＭＤに表示する映像信号を生成するよう、スピーカ２１１〜２１８の位置に、パノラマ映像を仮想的に投影する全方位スクリーンの一例である円筒スクリーン２０１を想定する。そして、円筒スクリーン２０１にパノラマ映像を仮想的に投影し、ユーザ２３２の位置を起点としてユーザ２３２の顔方向からＨＭＤ２４２の視野角２５２で切り出した映像２６２をＨＭＤ２４２に表示する。これにより、映像２６２上の犬２２１がＨＭＤ２４２の左端に表示される。

また、犬２２１の鳴き声を再生するスピーカ２１１の音も、ユーザ２３２から見てＨＭＤ２４２の同じく左端方向から聞こえる（模式的に犬音像２２２で表す）ため、映像と音像の方向が一致するようになる。すなわち、ＨＭＤとスピーカ２１１〜２１８とで、映像と音像のずれが生じない円筒スクリーン２０１およびスピーカ２１１〜２１８のシステムと同じ状況を作り出している。

ここで、パノラマ映像を仮想的に投影する円筒スクリーンは、適当な位置ではなく周囲スピーカの位置に想定する。例えば、基準位置からスピーカ２１１〜２１８までの距離より遠くに円筒スクリーン２０２を想定すると、ユーザ２３２の位置を起点としてユーザ２３２の顔方向からＨＭＤ２４２の視野角２５２で切り出した映像２７２をＨＭＤ２４２に表示することになる。しかしこれでは、映像２７２上の犬２２１がＨＭＤ２４２の中央やや左に表示される一方、犬２２１の鳴き声を再生するスピーカ２１１の音がユーザ２３２から見てＨＭＤ２４２の左端方向から聞こえる（犬音像２２２）ため、映像と音像のずれが生じてしまう。

同様に、基準位置からずれた位置にいるユーザ２３３については、以下のようになる。すなわち、円筒スクリーン２０１にパノラマ映像を仮想的に投影し、ユーザ２３３の位置を起点としてユーザ２３３の顔方向からＨＭＤ２４３の視野角２５３で切り出した映像２６３をＨＭＤ２４３に表示する。これにより、例えば映像２６３上の猫２２３（パノラマ映像では左（９０°）方向に映っている）が、ＨＭＤ２４３の右端に表示される。また、猫２２３の鳴き声を再生するスピーカ２１３（グローバル座標系左方向）の音が、ユーザ２３３から見てＨＭＤ２４３の同じく右端方向から聞こえる（猫音像２２４）ため、映像と音像の方向が一致する。

一方、円筒スクリーン２０２にパノラマ映像を仮想的に投影すると、ユーザ２３３の位置を起点としてユーザ２３３の顔方向からＨＭＤ２４３の視野角２５３で切り出した映像２７３をＨＭＤ２４３に表示することになる。しかし、これでは猫２２３が視野角２５３の外になってＨＭＤ２４３に表示されなくなる一方、猫２２３の鳴き声を再生するスピーカ２１３の音がユーザ２３３から見てＨＭＤ２４３の右端方向から聞こえる（猫音像２２４）。そのため、映像と音像の不一致が生じてしまう。

よって、基準位置からずれてもユーザが視聴する映像と音像の方向が一致するために、パノラマ映像を仮想的に投影する円筒スクリーンを、周囲スピーカの距離に想定する。

なお、基準位置にいるユーザ２３１については、以下のようになる。すなわち、基準位置からスピーカまでの距離に対応する円筒スクリーン２０１にパノラマ映像を仮想的に投影する。そして、ユーザ２３１の位置を起点としてユーザ２３１の顔方向からＨＭＤ２４１の視野角２５１で切り出した映像２６１をＨＭＤ２４１に表示する。これにより、映像２６１上の犬２２１がＨＭＤ２４１の中央に表示される。また、犬２２１の鳴き声を再生するスピーカ２１１の音が、ユーザ２３１から見てＨＭＤ２４１の同じく中央方向から聞こえる（犬音像２２２）ため、映像と音像の方向が一致する。

一方、基準位置からスピーカまでの距離より遠くの円筒スクリーン２０２にパノラマ映像を仮想的に投影すると、ユーザ２３１の位置を起点としてユーザ２３１の顔方向からＨＭＤ２４１の視野角２５１で切り出した映像２７１をＨＭＤ２４１に表示することになる。ただし、映像２６１と２７１はパノラマ映像の同じ範囲を切り出したものとなるため、スピーカ距離と異なる円筒スクリーンを想定してもユーザ２３１が視聴する映像と音像の方向は一致する。すなわち、ユーザが基準位置からずれていない場合は、パノラマ映像を仮想的に投影する円筒スクリーンの想定距離は影響しない。

なお、本実施形態では複数のユーザ（必然的に基準位置からずれたユーザを含む）を想定しており、周囲スピーカについては複数のユーザで共用するため再生音を所定のユーザに特化した指向性制御のように適応的に変化させることはしない。即ち、本実施形態の情報処理システム１０は、各スピーカの配置に対応し、各スピーカに予め設定した、全方位映像における方向音をそのまま再生する。

図１は、本実施形態の一実施形態に係る情報処理装置の構成例を示すブロック図である。情報処理システム１０は、情報処理装置１００と、スピーカ１１１〜１１８と、動き検出部１２０と、ＨＭＤ１４１〜１４２とを含む。情報処理装置１００は、制御部１０１と、記憶部１０２と、信号解析処理部１０３と、音響信号出力部１０４とを備え、スピーカ１１１〜１１８、動き検出部１２０、ＨＭＤ１４１〜１４２と通信する。

制御部１０１は、各構成要素の統御を行う。記憶部１０２は、各種データを記憶しておくと共に、制御部１０１が読み出して実行するためのプログラムも記憶する。記憶部１０２は、パノラマ映像および、このパノラマ映像に対応する音響信号（スピーカ１１１〜１１８の配置方向に対応するパノラマ映像の８つの方向音で構成される）を保持している。信号解析処理部１０３は、信号の解析処理を含めた各種処理を行う。詳細は後述する。音響信号出力部１０４は、ユーザの周囲に配置されたスピーカ１１１〜１１８と共に再生系の機能を実現する。音響信号出力部１０４は、８チャンネルの音響信号にＤＡ変換および増幅を施し、スピーカ１１１〜１１８からそれぞれ再生する。なお、各スピーカの位置や方向を示す配置情報は記憶部１０２があらかじめ保持しているものとする。すなわち、配置情報は、映像における所定方向からの音を出力する出力装置の位置を示す第２位置情報である。制御部１０１が記憶部１０２から配置情報を読み出して取得する。なお、配置情報はユーザの入力により取得されてもよい。なお、スピーカの数や配置は、図１に限られるものではなく任意でよい。

ＨＭＤ１４１〜１４２は、表示系の機能を実現する要素であり、複数のユーザ１３１〜１３２がそれぞれ頭部に装着する。ＨＭＤ１４１〜１４２は、映像を表示する表示装置である。信号解析処理部１０３は、後述するように各ユーザの位置および顔方向に応じて各ユーザに提示する映像信号を生成し、スピーカ１１１〜１１８から再生する音響信号と同期して各ＨＭＤが表示する提示映像を各ＨＭＤへ送信する。

動き検出部１２０は、ユーザの位置座標および顔方向を含むユーザ情報を検出する。本実施形態において動き検出部１２０は、各スピーカで囲まれた空間範囲を撮影可能な撮像装置１２１と、映像解析部１２２とを備えている。

撮像装置１２１は、例えば広角のレンズを備え、部屋の中央部天井に配置されることで、各スピーカに囲まれたユーザを画角に収めることができる。映像解析部１２２は、撮像装置１２１が出力した映像、および、記憶部１０２があらかじめ保持している撮像装置１２１の配置情報に基づいて、撮像装置１２１の映像の解析を行うことでユーザの位置座標および顔方向を算出する。なお、ユーザの位置および顔方向の検出を容易にするため、ＨＭＤにマーカ等を付けてもよい。なお、スピーカの配置情報、撮像装置１２１の配置情報、ユーザの位置座標および顔方向は、共通の座標系（グローバル座標系）で記述されているものとする。なお、スピーカの配置情報や撮像装置１２１の配置情報、またパノラマ映像や音響信号は、記憶部１０２と接続された不図示のデータ入出力部を介して、外部から入力するようにしてもよい。なお、動き検出部１２０は、ＨＭＤ１４１〜１４２の位置や方向を検出することで、ユーザの位置および顔方向の検出を行うようにしてもよい。すなわち、映像を表示する表示装置の位置を示す第１位置情報および表示装置の向きを示す方向情報を検出してもよい。

なお、動き検出部１２０の機能は、映像解析の他、マイクを備えたＨＭＤがスピーカから発せられる可聴域外の超音波を収音し、その収音結果に基づいてユーザの位置座標および顔方向を検出する方法であってもよい。また、ＨＭＤが赤外線センサ、ＧＰＳセンサ、加速度センサ、ジャイロセンサ、磁気センサ等を備え、各センサの出力結果に基づいて、ＨＭＤの位置や方向を検出する方法で実現してもよい。すなわち、ユーザの位置や顔方向を検出できるものであれば何でもよい。なお、マーカ等をスピーカにも付ければ、スピーカの配置情報も検出可能である。

なお、各処理部の機能は情報処理システム１０に含まれる何れの構成要素が実施してもよい。例えば、信号解析処理部１０３の機能の一部を各ＨＭＤが備えるように構成することもできる。

ここで、図２に示すように、スピーカ２１１〜２１８が基準位置から等距離で配置されている場合は、その距離を仮想円筒スクリーンの円半径とすればよかった。しかしながら、現実にスピーカを配置する場合は、スピーカを配置する部屋の形状や部屋に置かれた物の配置などにより、必ずしも基準位置から等距離の円周上に並べられるとは限らない。

例えば、図３Ａのように、スピーカ３１１〜３１８が基準位置から等距離で配置できなかった場合は、パノラマ映像を仮想的に投影する仮想スクリーン（投影曲面とも呼ぶ）について、以下の２つの方法が考えられる。

第１の方法は、スピーカ３１１〜３１８の中から基準となるスピーカ（基準スピーカと呼ぶ）を選択し、基準位置と基準スピーカとの間の距離を円半径として、図２と同様の定型的な円筒曲面（定型曲面と呼ぶ）を投影曲面とする方法である。この方法によると、基準位置からずれた位置にいるユーザ３３１については、以下のようになる。

まず、例えばスピーカ３１６を基準スピーカとすると、スピーカ３１６の距離の定型曲面３０１にパノラマ映像を仮想的に投影して、投影されたパノラマ映像（投影映像と呼ぶ）を生成する。そして、ユーザ３３１の位置を起点としてユーザ３３１の顔方向からＨＭＤ３４１の視野角で投影映像を切り出し、映像信号として生成してＨＭＤ３４１に送信し、映像を表示させる。これにより、例えば提示映像上の犬３２１（パノラマ映像では右後ろ（２２５°）方向に映っている）が、ＨＭＤ３４１の方向３５１に表示される。また、犬３２１の鳴き声を再生するスピーカ３１６（グローバル座標系右後ろ方向）の音が、ユーザ３３１から見てＨＭＤ３４１の同じく方向３５１から聞こえる（犬音像３２２）ため、映像と音像の方向が一致する。

一方、提示映像上の猫３２３（パノラマ映像では右（２７０°）方向に映っている）は、ＨＭＤ３４１の方向３５２に表示される。しかしこれでは、猫３２３がＨＭＤ３４１の方向３５２に表示される一方、猫３２３の鳴き声を再生するスピーカ３１７（グローバル座標系右方向）の音がユーザ３３１から見てＨＭＤ３４１の方向３５３から聞こえる（猫音像３２４）。そのため、映像と音像のずれ３５４が生じている。

すなわち、第１の方法では、基準スピーカの方向では映像と音像の方向が一致するが、それ以外の方向では映像と音像のずれが生じ、ユーザが基準位置からずれるほど映像と音像のずれも大きくなると考えられる。

第２の方法は、スピーカ３１１〜３１８を結ぶような線を断面とする、非定型な筒型曲面（非定型曲面と呼ぶ）を投影曲面とする方法である。この方法によると、基準位置からずれた位置にいるユーザ３３２については、以下のようになる。

まず、スピーカ３１１〜３１８を結ぶ線を断面とする、非定型曲面３０２にパノラマ映像を仮想的に投影して投影映像信号を生成する。そして、ユーザ３３２の位置を起点としてユーザ３３２の顔方向からＨＭＤ３４２の視野角で投影映像を切り出し、映像信号を生成してＨＭＤ３４２に送信する。これにより、例えば提示映像上の犬３２１がＨＭＤ３４２の方向３６１に表示される。また、犬３２１の鳴き声を再生するスピーカ３１６の音が、ユーザ３３２から見てＨＭＤ３４２の同じく方向３６１から聞こえる（犬音像３２２）ため、映像と音像の方向が一致する。

また、提示映像上の猫３２３は、ＨＭＤ３４２の方向３６２に表示される。そして、猫３２３の鳴き声を再生するスピーカ３１７の音が、ユーザ３３２から見てＨＭＤ３４２の同じく方向３６２から聞こえる（猫音像３２４）ため、こちらも映像と音像の方向が一致する。すなわち、２つ目の方法では、ユーザが基準位置からずれても各スピーカの方向で映像と音像の方向が一致する。

ただし、映像としては、非定型曲面３０２のような歪曲した筒型スクリーンに投影されたパノラマ映像を見ている状態となるため、基準位置からずれた位置にいるユーザには映像の伸縮ムラが知覚される可能性がある。

これらの２つの方法の特徴をまとめると、定型曲面を投影曲面とする第１の方法は、ユーザが基準位置からずれるほど基準スピーカ以外の方向で映像と音像のずれが大きくなるが、ユーザがＨＭＤで見る提示映像に第２の方法のような伸縮ムラは生じない。一方、非定型曲面を投影曲面とする第２の方法は、ユーザが基準位置からずれても各スピーカの方向で映像と音像の方向が一致するが、ユーザがＨＭＤで見る提示映像に伸縮ムラが生じる。

そこで、これら２つの方法を組み合わせることを考える。例えば、ユーザの基準位置からのずれが小さいときは、第１の方法により提示映像に伸縮ムラが生じないようにしつつ、基準スピーカの選択法を工夫することで、映像と音像のずれもなるべくユーザに知覚されないようにする。そして、ユーザの基準位置からのずれが大きくなったら第２の方法に切り替えることで、提示映像に伸縮ムラは生じるものの、ユーザに知覚されるような映像と音像のずれは引き続き生じないようにする。

以下、図３Ａの場合を例として、図４のフローチャートを参照して、本実施形態に係る提示映像信号を生成する処理の手順を説明する。なお、図４のフローチャートの処理は、主として信号解析処理部１０３が行うものとし、所定時間ごと、例えば動き検出部１２０による動き検出の周期に合わせて実行されるものとする。なお、音響信号については、スピーカ３１１〜３１８の配置方向に対応するものが用意されているとする。

Ｓ４０１では、信号解析処理部１０３は、記憶部１０２があらかじめ保持しているスピーカ３１１〜３１８の配置情報を取得する。Ｓ４０２では、信号解析処理部１０３は、リスニングポイントである基準位置を算出する。例えば、Ｓ４０１で取得したスピーカ３１１〜３１８の配置情報に含まれる各配置座標を用いて重心位置を算出し、基準位置３１０とする。なお、図２に示すように周囲スピーカが円周上に配置される場合は、その円の中心が基準位置となる。

Ｓ４０３では、信号解析処理部１０３は、Ｓ４０１で取得したスピーカ３１１〜３１８の配置情報に基づいて、投影曲面の候補である非定型曲面を決定する。例えば、図３Ａのように、スピーカ３１１〜３１８を結ぶ曲線を断面とする非定型曲面３０２を決定すればよい。このような曲線の生成には、スピーカの配置座標を制御点（アンカーポイントや方向点）とするベジェ曲線や、スプライン曲線といった自由曲線を利用することができる。なお、各スピーカを直線で結んでも構わないが、ユーザが基準位置からずれたときの提示映像の歪は、曲線で結ぶ場合に比べて特に各スピーカ方向で目立ち易くなると考えられる。なお、これらの線は必ずしも厳密にスピーカ配置座標を通過しなくても、スピーカ近傍を通過すればよい。

Ｓ４０４からＳ４１５はユーザごとの処理であり、各ユーザについてループする。Ｓ４０４では、動き検出部１２０は、スピーカ３１１〜３１８に囲まれた各ユーザの動きを検出する。ここで、ユーザの動きとは現周期におけるユーザの位置座標や顔方向であり、さらに前周期や前々周期との差分として、それらの速度や加速度も含められる。

Ｓ４０５では、信号解析処理部１０３は、後のステップで定型曲面を決定するために、スピーカ３１１〜３１８から基準スピーカを選択する。ここでは、ユーザが見る可能性が高い方向のスピーカを基準スピーカとして選択する。

例えば、大きな音がすると人はその方向を向く可能性が高いため、８チャンネルの音響信号で、信号（音）のエネルギーが相対的に大きいチャンネルを再生するスピーカを基準スピーカとする。例えば、最もエネルギーの大きいチャンネルを再生するスピーカを基準スピーカとしてもよい。類する考え方として、全方位から同じように聞こえる非方向性の音は映像と音像のずれが知覚されにくいのに対し、ある方向から他と異なって聞こえる方向性の音は、人の気を引くと同時に映像と音像のずれが知覚され易い。

そこで、８チャンネル音響信号で他のチャンネルとの差、例えば信号のエネルギー差や（正規化）スペクトルの形状差が相対的に大きいチャンネルを再生するスピーカを基準スピーカとする。このような基準スピーカ選択のための音響信号の解析は、時間領域で行ってもよいし、音響信号を時間周波数変換して得られる例えば振幅スペクトログラム上で、人の聴覚感度が高い周波数帯域を重視して行ったりしてもよい。

また、音響信号の他に、パノラマ映像の解析によってユーザが見る可能性が高い方向を予測してもよい。例えば、パノラマ映像で輝度、色、動きベクトル等の時間的変化や空間的変化（他の方向との差）が大きい方向は人目を引き易いため、その方向に近いスピーカを基準スピーカとする。もしくは、人や動物といった音を発し得るオブジェクトの認識を行い、オブジェクトの方向に近いスピーカを基準スピーカとしてもよい。

Ｓ４０６では、信号解析処理部１０３は、基準位置とＳ４０５で選択した基準スピーカとの間の距離に基づき、投影曲面の候補である定型曲面を決定する。例えば、図３Ａでスピーカ３１６が基準スピーカである場合、基準位置３１０とスピーカ３１６との間の距離を円半径として定型曲面３０１が決定される。

なお、Ｓ４０５で選択する基準スピーカは、１つではなく複数であっても構わない。例えば、音響信号で信号エネルギーが大きいチャンネルが２つあれば、それらを再生する２つのスピーカを基準スピーカとし、２つの基準スピーカの（重み付き）平均距離を定型曲面の円半径としてもよい。また、全てのスピーカを基準スピーカとすれば、全スピーカの平均距離を定型曲面の円半径とすることになり、全ての方向で映像と音像のずれを抑制することができる。

また、例えばパノラマ映像上のオブジェクトの方向が２つのスピーカの間であれば、基準位置からオブジェクトの方向に線を伸ばし、２つのスピーカを結ぶ線と交わるまでの距離を定型曲面の円半径としてもよい。

Ｓ４０７では、信号解析処理部１０３は、基準位置と、Ｓ４０４で検出したユーザ位置との間の距離を算出し、その値が閾値未満であればＳ４０８へ、閾値以上であればＳ４０９へ進む。

Ｓ４０８では、信号解析処理部１０３は、現周期の投影曲面の候補として、Ｓ４０６で決定した定型曲面を選択する。これは、ユーザの基準位置からのずれが小さければ、定型曲面を投影曲面とすることで提示映像に伸縮ムラが生じないようにしつつ、Ｓ４０５の基準スピーカ選択によって、映像と音像のずれもユーザに知覚されにくくすることが可能となるからである。

一方、Ｓ４０９では、信号解析処理部１０３は、現周期の投影曲面の候補として、Ｓ４０３で決定した非定型曲面を選択する。これは、ユーザの基準位置からのずれが大きければ、非定型曲面を投影曲面とすることで提示映像に伸縮ムラは生じるものの、ユーザに知覚されるような映像と音像のずれは生じないようにすることが可能となるからである。なお、Ｓ４０８で選択された定型曲面、またはＳ４０９で選択された非定型曲面を、選択曲面と呼ぶ。

なお、Ｓ４０７〜Ｓ４０９の処理の考え方は、投影曲面を定型曲面とした場合にユーザが視聴する映像と音像のずれが大きければ、投影曲面を非定型曲面にすることで映像と音像のずれを抑制するというものである。このとき、ユーザが基準位置からずれるほど映像と音像のずれも大きくなる可能性が高いことから、Ｓ４０７の判定に基準位置とユーザとの間の距離を用いることで、間接的に映像と音像のずれを扱っている。

そこで、Ｓ４０７の判定には、図３Ａの３５４で示されるような映像と音像のずれを直接用いてもよい。このとき、映像と音像のずれが小さければ、音像が映像に引っ張られるため所定のずれ角度αまではずれが知覚されないと考えられるが、このようなα（例えば公知の実験結果を参考に決定する）をＳ４０７における判定の閾値として用いてもよい。

Ｓ４１０では、信号解析処理部１０３は、Ｓ４０８またはＳ４０９で選択した選択曲面が前周期の投影曲面と異なるかを調べ、前周期の投影曲面と同じであれば投影曲面の変更は不要としてＳ４１２へ、前周期の投影曲面と異なればＳ４１１へ進む。

ここで、前周期と投影曲面を変えると、ユーザがほとんど動いていなくてもＨＭＤに表示される提示映像がそれなりに変化することになるため、ユーザが違和感を覚える可能性がある。そこで、ユーザがある程度動いている場合のみ投影曲面を変化させるようにすれば、元々ユーザの動き量（位置や顔方向の変化）に応じて提示映像を変更していたので、投影曲面の変化はユーザに知覚されにくくなる。

そこでＳ４１１では、信号解析処理部１０３は、Ｓ４０４で取得したユーザの動き量（位置や顔方向の速度や加速度とする）が閾値以上であるかを判定する。ユーザの動き量が閾値以上であれば投影曲面の変更は可能としてＳ４１３へ、閾値未満であれば投影曲面の変更は見送るとしてＳ４１２へ進む。なお、変更前後の投影曲面の形状差が大きいほど、本ステップの閾値を大きくするようにしてもよい。

Ｓ４１２では、信号解析処理部１０３は、現周期の投影曲面を前周期と同じにすることで、前周期の投影曲面を維持する。一方、Ｓ４１３では、信号解析処理部１０３は、現周期の投影曲面をＳ４０８またはＳ４０９で選択した選択曲面とすることで、前周期から投影曲面を変更する。

なお、Ｓ４１１では投影曲面の変化が知覚され得るかをユーザの動き量で判定していたが、（投影曲面を仮に定めた）提示映像から判定してもよい。例えば、提示映像の時間的変化が大きい動きのあるシーンでは、投影曲面の変化による提示映像の伸縮が知覚されにくいと考えられる。また、提示映像が暗転する場合（シーン変化時）や、提示映像が一様な自然風景（青空、雪原等）である場合など、提示映像の空間的変化が少ない場合も伸縮が知覚されにくいと考えられる。そこで、提示映像の時間的変化の量が閾値以上である、及び／又は、空間的変化の量が閾値未満であるなどの場合にＳ４１３へ進んで、投影曲面を変更するようにしてもよい。

Ｓ４１４では、信号解析処理部１０３は、基準位置を起点としてパノラマ映像を投影曲面に仮想投影し、当該仮想投影に基づく投影映像信号を生成する。すなわち、パノラマ映像の各画素がグローバル座標系の方位角θ（０〜３６０°）および仰角φ（例えば−３０〜３０°）と対応付けられており、基準位置３１０から各（θ、φ）方向に各画素を放射状に仮想投影する。図３Ｂに、定型曲面３０１や非定型曲面３０２にパノラマ映像を仮想投影して、当該仮想投影に基づく投影映像信号を生成する様子を模式的に示す。なお、投影曲面の高さは例えば、投影曲面の水平断面で基準位置３１０から最も遠い点（定型曲面３０１では円周）において、パノラマ映像の全仰角範囲が投影できるような高さに定める。

Ｓ４１５では、信号解析処理部１０３は、Ｓ４１４で生成した投影映像から提示映像信号を生成して、ユーザのＨＭＤに送信して表示させる。すなわち、現在のユーザループで対象としているユーザの位置３７０を起点として、ユーザの顔方向からＨＭＤの視野角３７１で投影映像を切り出して提示映像信号を生成する。そして、必要に応じてＨＭＤの光学系に応じた幾何変換を提示映像に施し、ユーザのＨＭＤに表示させる。

具体的には、例えば、図３Ｂに示すようにＨＭＤの方向３７２には、投影曲面が定型曲面３０１の場合はパノラマ映像の方向３８１の映像が、投影曲面が非定型曲面３０２の場合はパノラマ映像の方向３８２の映像が表示されるよう提示映像信号を生成する。なお、基準位置にいるユーザについては、仮想投影の起点（基準位置３１０）と投影映像切り出しの起点が一致するため、提示映像は投影曲面に依存しない。

以上説明したように、本実施形態では、映像と、出力装置の音の出力により形成される音像とのずれが小さくなるように表示装置に表示させる映像を制御する。これにより、個別ディスプレイと周囲スピーカを用いて、映像と音像のずれを低減した表示・再生を行うことができる。また、全方位映像における所定方向からの音を出力する出力装置の位置と、当該映像における所定方向とを一致させるように表示装置に表示させる映像を、表示装置の位置、表示装置の向き及び出力装置の位置に基づいて制御することができる。

なお、Ｓ４０７〜Ｓ４０９では、基準位置とユーザとの間の距離を閾値と比較し、投影曲面の候補を定型曲面３０１と非定型曲面３０２とで二値的に切り替える例を説明した。しかし、投影曲面の変化が滑らかになるよう、図３Ａに示すような定型曲面３０１と非定型曲面３０２との間の中間的な曲面３０３などを導入し、基準位置とユーザとの間の距離に応じて投影曲面の候補を矢印３０４のように連続的に切り替えてもよい。

なお、Ｓ４０５〜Ｓ４０６では、音響信号やパノラマ映像を解析することでユーザが見る可能性が高い方向を予測し、基準スピーカの選択や定型曲面の決定を行っていた。しかし、ユーザの動きから直接的に基準スピーカの選択を行ってもよく、ユーザ位置と近い位置のスピーカや、ユーザ顔方向と近い方向のスピーカを基準スピーカとしてもよい。

具体的には、例えば、図３Ａにおいて、ユーザの顔方向がスピーカ３１６の方向からスピーカ３１７の方向へ変化する場合を考える。この場合、ユーザの位置からユーザの顔方向に線を伸ばし、基準スピーカとするスピーカ３１６〜３１７を結ぶ線との交点を求め、その交点と基準位置３１０との間の距離を逐次定型曲面の円半径とすればよい。すなわち、矢印３０６で示すように、スピーカ３１６の距離の定型曲面３０１から、スピーカ３１７の距離の定型曲面３０５へ定型曲面の円半径が適応的に変化することになるため、このような場合は非定型曲面への切り替えを行わなくてもよい。

なお、本実施形態では、スピーカが２次元に配置され、仰角範囲が限定されたパノラマ映像を筒型スクリーンに仮想投影する場合を例に説明した。しかし、本実施形態は例えば、スピーカが３次元に配置され、仰角φ＝−９０〜９０°の全方位映像を全方位スクリーン（球形スクリーン等）に仮想投影するような場合にも適用できる。

なお、情報処理システム１０は、表示（個別ディスプレイ）および再生（周囲スピーカ）の機能に加えて、撮影（全方位カメラ）および録音（マイクアレイ）の機能を備えていてもよい。このとき、撮影・録音系と表示・再生系がそれぞれ遠隔地で同期的に動作すれば、遠隔ライブシステムを実現することができる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０：情報処理システム、１００：情報処理装置、１０１：制御部、１０２：記憶部、１０３：信号解析処理部、１０４：音響信号出力部、１１１〜１１８：スピーカ、１２０：動き検出部、１２１：撮像装置、１２２：映像解析部、１４１、１４２：ＨＭＤ

Claims

表示装置を保持するユーザに対して画像を表示する前記表示装置の位置及び向きに関する第１情報を取得する第１取得手段と、
音を出力する出力装置の位置に関する第２情報を取得する第２取得手段と、
前記表示装置に表示されるオブジェクトの表示位置が、前記オブジェクトに関する音を出力する前記出力装置に対する前記ユーザの位置及び向きの変化に応じて変化するように、前記第１取得手段により取得された前記第１情報と前記第２取得手段により取得された前記第２情報とに基づいて前記表示装置に画像を表示させる表示制御手段と
を有することを特徴とする情報処理装置。
前記第２取得手段は、複数の出力装置の位置を示す前記第２情報を取得し、
前記表示制御手段は、前記表示装置に表示されるオブジェクトの表示位置が、前記複数の出力装置のうち前記オブジェクトに関する音を出力する１以上の出力装置に対する前記ユーザの位置及び向きの変化に応じて変化するように、前記表示装置に前記画像を表示させることを特徴とする請求項１に記載の情報処理装置。
前記表示制御手段は、前記表示装置に表示されるオブジェクトの表示位置が、前記オブジェクトに関する音を出力する２以上の出力装置の位置と前記２以上の出力装置により出力される前記オブジェクトに関する音の音量の比率とに応じた表示位置になるように、前記表示装置に前記画像を表示させることを特徴とする請求項２に記載の情報処理装置。
前記表示制御手段は、前記表示装置を保持する前記ユーザから前記表示装置に表示されたオブジェクトが見える方向と、前記１以上の出力装置による音の出力により前記ユーザに知覚される前記オブジェクトに対応する音像の方向とが略一致するように、前記表示装置に前記画像を表示させることを特徴とする請求項２又は３に記載の情報処理装置。
前記表示制御手段は、前記第２取得手段により取得される前記第２情報に基づいて決定される仮想的な投影面上に前記オブジェクトが位置するように、前記表示装置に前記画像を表示させることを特徴とする請求項２乃至４の何れか１項に記載の情報処理装置。
前記仮想的な投影面は、前記複数の出力装置の位置を含むことを特徴とする請求項５に記載の情報処理装置。
前記仮想的な投影面は、基準位置と前記複数の出力装置に含まれる出力装置の位置との間の距離に基づいて決定される半径を有する曲面であることを特徴とする請求項５又は６に記載の情報処理装置。
前記仮想的な投影面は、前記複数の出力装置のうち前記表示装置に表示される画像に基づいて特定される出力装置の位置に基づいて決定されることを特徴とする請求項５乃至７の何れか１項に記載の情報処理装置。
前記仮想的な投影面は、前記複数の出力装置のうち前記表示装置の位置及び向きの少なくとも何れかに基づいて特定される出力装置の位置に基づいて決定されることを特徴とする請求項５乃至８の何れか１項に記載の情報処理装置。
前記仮想的な投影面は、前記複数の出力装置のうち出力される音の特徴に基づいて特定される出力装置の位置に基づいて決定されることを特徴とする請求項５乃至９の何れか１項に記載の情報処理装置。
前記表示制御手段は、前記表示装置の位置、前記表示装置の向き、及び前記表示装置に表示される画像の少なくとも何れかに基づいて、前記オブジェクトを位置させる前記仮想的な投影面を変更することを特徴とする請求項５に記載の情報処理装置。
前記第１取得手段は、撮影画像及び前記表示装置が有するセンサにより得られるセンサ情報の少なくとも何れかに基づいて前記第１情報を取得することを特徴とする請求項１乃至１１の何れか１項に記載の情報処理装置。
前記表示装置は、ヘッドマウントディスプレイであることを特徴とする請求項１乃至１２の何れか１項に記載の情報処理装置。
前記第１取得手段は、前記表示装置を保持するユーザの位置及び向きを示す情報として、前記表示装置の位置及び向きに応じた前記第１情報を取得することを特徴とする請求項１乃至１３の何れか１項に記載の情報処理装置。
表示装置を保持するユーザに対して画像を表示する前記表示装置の位置及び向きに関する第１情報を取得する第１取得工程と、
音を出力する出力装置の位置に関する第２情報を取得する第２取得工程と、前記表示装置に表示されるオブジェクトの表示位置が、前記オブジェクトに関する音を出力する前記出力装置に対する前記ユーザの位置及び向きの変化に応じて変化するように、前記第１取得工程により取得された前記第１情報と前記第２取得工程により取得された前記第２情報とに基づいて前記表示装置に画像を表示させる表示制御工程と
を有することを特徴とする制御方法。
前記第２取得工程は、複数の出力装置の位置を示す前記第２情報を取得し、
前記表示制御工程は、前記表示装置に表示されるオブジェクトの表示位置が、前記複数の出力装置のうち前記オブジェクトに関する音を出力する１以上の出力装置に対する前記ユーザの位置及び向きの変化に応じて変化するように、前記表示装置に前記画像を表示させることを特徴とする請求項１５に記載の制御方法。
前記表示制御工程は、前記表示装置を保持する前記ユーザから前記表示装置に表示されたオブジェクトが見える方向と、前記１以上の出力装置による音の出力により前記ユーザに知覚される前記オブジェクトに対応する音像の方向とが略一致するように、前記表示装置に前記画像を表示させることを特徴とする請求項１６に記載の制御方法。
コンピュータを、請求項１乃至１４の何れか１項に記載の情報処理装置の各手段として機能させるためのプログラム。