JP6971932B2

JP6971932B2 - 映像操作装置、映像操作方法、及び映像操作プログラム

Info

Publication number: JP6971932B2
Application number: JP2018141395A
Authority: JP
Inventors: 愛磯貝; 英明木全; 大介越智; 拓郎中尾; ユンスエンパイ; クンツェカイ
Original assignee: Nippon Telegraph and Telephone Corp; Keio University
Current assignee: Nippon Telegraph and Telephone Corp; Keio University
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2021-11-24
Anticipated expiration: 2038-07-27
Also published as: JP2020017202A

Description

本発明は、映像操作装置、映像操作方法、及び映像操作プログラムに関する。

近年、ＡＲ（Augumented Reality：拡張現実）を実現するための視聴デバイスの普及が進んでいる。ＡＲは、実在する空間（以下、実空間という）の一部を変化させることにより、拡張した空間を表現する技術である。ＡＲ用の視聴デバイスとして、例えば、実空間を透過させながら情報を表示するシースルーグラスや、カメラで実空間を撮影し、撮影した実空間の映像に実空間の一部を変化させた拡張空間を重ねて表示するビデオシースルーなどがある。

このような視聴デバイスが普及し始めると、利用者が、視聴するだけでなく、更に高度な機能、例えば、利用者が見ている物体の位置を自由に動かしたり、利用者が見ている場所の時間を過去に戻して、過去の出来事を見たりする機能を求めるようになってきている。

このような機能を備えることにより、例えば、サッカー場などの競技場において試合を見ている利用者が、以下のようなことを行うことが可能となる。例えば、手前に存在する選手によって奥に存在する選手が隠されるために、奥に存在する選手の動きがよく見えない場合、手前の選手の位置を変えることで、奥に存在する選手の動きを見ることができるようになる。また、ゴールのような試合展開を決定付ける重要なシーンが生じた場合、利用者がゴールの周辺の空間の時間を任意の過去の時間に戻すことにより、もう一度、当該シーンを視聴することができるようになる。

古井貞熙、"音声認識技術の実用化への取り組み"、2010年11月、情報処理、Vol.51、No.11、pp1387-1393

ＡＲの分野において、物体の位置を自由に動かしたり、時間を自由に戻したりする操作手法に関する技術が提案されているが、従来の手法には、下記のような問題がある。例えば、ＡＲにおいて、利用者が視聴している物体を操作する手法として、視聴デバイスに装着されたマイクで収音した音声データを認識し、その認識結果に応じて操作を行う操作手法がある。当該操作手法は、会話という自然な動作であるものの、例えば、サッカー場のような雑音が多い環境では、音声データの認識が困難であるという問題があり、また、周囲に人が存在するような環境において音声操作をすることに抵抗を感じる人が多いという問題がある（例えば、非特許文献１参照）。

また、人の動作において最も自然である手指を利用する操作手法も提案されている。当該手法では、例えば、視聴デバイスや周囲に設置されたカメラによって、手指を動かすジェスチャを撮影し、撮影した手指の動きの方向や移動量に応じて映像を変化させて表示する。しかしながら、サッカーのように複数選手が動いているスポーツの場合、試合を見ながら、任意の選手を手指の動きのみで選択することは困難であるという問題がある。

上記事情に鑑み、本発明は、実空間、または実空間を撮影した映像を見ている利用者が、容易に操作対象を選択することができ、かつ、抵抗感なく操作対象を写した映像を操作することができる技術の提供を目的としている。

本発明の一態様は、実空間を撮影装置によって撮影することにより得られる映像情報を取得する映像情報取得部と、画面において利用者が選択する位置を示す選択位置情報を前記利用者の視線に基づいて検出する選択位置検出部と、前記視線を動かす以外の前記利用者が行う動作に基づいて、前記映像情報に対して行う操作を示す操作情報を検出する操作情報検出部と、前記選択位置情報に基づいて前記操作の対象である選択領域を設定し、前記映像情報取得部が取得する前記映像情報から前記選択領域に含まれる前記映像情報を切り出し、切り出した前記映像情報に対して前記操作情報に基づく操作を行うことにより重畳映像情報を生成する映像情報レンダリング部と、前記重畳映像情報を出力して前記画面に表示させる映像情報出力部と、を備える映像操作装置である。

本発明の一態様は、上記の映像操作装置であって、前記利用者は、透過する前記画面を介して前記実空間を見ているか、または、前記実空間を前記撮影装置によって撮影することにより得られる前記映像情報の映像が表示される前記画面を見ており、前記映像情報出力部は、前記利用者が、前記透過する画面を介して前記実空間を見ている場合、前記重畳映像情報を前記画面に表示させ、前記利用者が、前記実空間を前記撮影装置によって撮影することにより得られる前記映像情報の映像が表示される前記画面を見ている場合、前記画面に表示される前記映像情報に重ねて前記重畳映像情報を表示させる。

本発明の一態様は、上記の映像操作装置であって、前記操作情報検出部は、前記視線を動かす以外の前記利用者が行う動作である前記利用者の口腔内における舌の動きに基づいて、前記操作情報を検出する。

本発明の一態様は、上記の映像操作装置であって、前記実空間は、複数の前記撮影装置によって撮影されており、前記操作情報による操作は、前記選択範囲に含まれる前記映像情報の位置を変更する操作であり、前記映像情報取得部は、前記利用者の位置に最も近い前記撮影装置が撮影した前記映像情報を取得し、前記映像情報レンダリング部は、前記操作情報にしたがって前記切り出した映像情報の位置を変更し、位置を変更した後の前記切り出した映像情報を第１の前記重畳映像情報とし、前記切り出した映像情報を撮影した前記撮影装置以外の前記撮影装置の中から、前記切り出した映像情報の映像に写っている物によって隠されている背景を撮影した前記撮影装置を選択し、選択した前記撮影装置が撮影した前記映像情報に基づいて、前記選択領域の前記背景の映像情報を第２の前記重畳映像情報として生成し、前記映像情報出力部は、前記第１及び第２の重畳映像情報を出力して前記画面に表示させる。

本発明の一態様は、上記の映像操作装置であって、前記操作情報による操作は、前記選択領域に含まれる前記映像情報の再生範囲を定める操作であり、前記映像情報取得部は、前記利用者によって指定される再生範囲の終了時刻以前の過去の前記映像情報を取得し、前記映像情報レンダリング部は、前記選択領域に含まれる前記過去の映像情報を切り出して部分過去映像情報とし、前記操作情報に基づいて前記再生範囲の開始時刻を算出し、前記開始時刻と前記終了時刻により定められる前記再生範囲の前記部分過去映像情報を第３の前記重畳映像情報として生成し、前記映像情報出力部は、前記第３の重畳映像情報を出力して前記画面に表示させる。

本発明の一態様は、実空間を撮影装置によって撮影することにより得られる映像情報を取得し、画面において利用者が選択する位置を示す選択位置情報を前記利用者の視線に基づいて検出し、前記視線を動かす以外の前記利用者が行う動作に基づいて、前記映像情報に対して行う操作を示す操作情報を検出し、前記選択位置情報に基づいて前記操作の対象である選択領域を設定し、取得した前記映像情報から前記選択領域に含まれる前記映像情報を切り出し、切り出した前記映像情報に対して前記操作情報に基づく操作を行うことにより重畳映像情報を生成し、生成した前記重畳映像情報を出力して前記画面に表示する映像操作方法である。

本発明の一態様は、上記の映像操作装置としてコンピュータを実行させるための映像操作プログラムである。

本発明により、実空間、または実空間を撮影した映像を見ている利用者が、容易に操作対象を選択することができ、かつ、抵抗感なく操作対象を写した映像を操作することが可能となる。

第１の実施形態の映像表示システムの構成を示すブロック図である。同実施形態において利用者の顔に顔センサを配置する例を示す図である。同実施形態における顔センサリストテーブルのデータ構成を示す図である。同実施形態における利用者情報テーブルのデータ構成を示す図である。同実施形態おける世界座標、利用者座標、カメラ座標の関係を示す図である。同実施形態における利用者表示装置の内部構成を示すブロック図である。同実施形態における配信サーバ装置の内部構成、及び配信サーバ装置とカメラとの接続関係を示すブロック図である。同実施形態におけるカメラリストテーブルのデータ構成を示す図である。同実施形態における利用者リストテーブルのデータ構成を示す図である。同実施形態における映像操作装置の処理の流れを示すフローチャートである。同実施形態における顔センサの電圧変化を示すグラフの一例を示す図である。同実施形態における選択領域、注視対象物映像情報、第１の重畳映像情報、及び第２の重畳映像情報の一例を示す図である。第２の実施形態の映像表示システムの構成を示すブロック図である。同実施形態における利用者情報テーブルのデータ構成を示す図である。同実施形態における利用者表示装置の内部構成を示すブロック図である。同実施形態における配信サーバ装置の内部構成、及び配信サーバ装置とカメラとの接続関係を示すブロック図である。同実施形態における映像操作装置の処理の流れを示すフローチャートである。

（第１の実施形態）
以下、本発明の実施形態について図面を参照して説明する。図１は、第１の実施形態の映像表示システム１の構成を示すブロック図である。第１の実施形態では、利用される状況として、例えば、競技場においてサッカーの試合を見ている映像表示システム１の利用者２０が、複数の選手がある場所に集中しているために、手前に存在する選手の後ろに存在する選手が保持しているサッカーボールが見えない状況を想定している。この状況において、利用者２０が、映像表示システム１を利用することにより、手前の選手を移動させて、当該選手の後ろに存在する選手が保持するサッカーボールが見えるようになる。

映像表示システム１は、例えば、ビデオシースルー型のＡＲのシステムであり、映像操作装置１０と、眼球センサ２１と、顔センサユニット２２と、位置姿勢センサ２３と、利用者表示装置３０と、配信サーバ装置４０と、カメラ５０−１，５０−２，５０−３と、通信ネットワーク６０とを備える。

映像表示システム１において、通信ネットワーク６０は、例えば、インターネット網や専用回線により構築される通信網であり、通信ネットワーク６０への接続は、有線接続であっても、無線接続であってもよい。

カメラ５０−１，５０−２，５０−３は、動画像を撮影する撮影装置であり、予め定められる位置や姿勢で固定的に配置され、例えば、サッカーの競技場等の実空間を撮影する。

なお、図１では、一例として、３台のカメラ５０−１，５０−２，５０−３を示しているが、台数は、３台に限られず、少なくとも２台以上あればよい。第１の実施形態では、映像操作装置１０の映像情報レンダリング部１７による処理において、複数の方向から撮影された映像情報が必要となるため、撮影する実空間の広さ等に応じて、適切な台数のカメラ５０−１，５０−２，…が配置されるものとする。

また、カメラ５０−１，５０−２，５０−３の各々は、内部に、例えば、時計等の計時手段を備えており、全ての計時手段の時刻は、現在時刻になるように同期している。また、カメラ５０−１，５０−２，５０−３の各々は、計時手段から得られる時刻の情報を撮影により得られた動画像のフレームごとに付与して映像情報を生成する。また、カメラ５０−１，５０−２，５０−３の各々には、それぞれ異なるカメラ識別情報が予め割り当てられており、カメラ５０−１，５０−２，５０−３の各々は、生成した映像情報に、各々に割り当てられているカメラ識別情報を付与して配信サーバ装置４０に出力する。

眼球センサ２１は、利用者２０の左右の眼球の視線方向、及び左右の視線方向がなす輻輳角θを一定の周期で繰り返し検出するセンサであり、例えば、利用者表示装置３０の内部に装着される。また、眼球センサ２１は、内部に無線通信手段を備えており、検出した左右の眼球の視線方向と、輻輳角θとを含む時系列データを無線通信により映像操作装置１０に送信する。

顔センサユニット２２は、図２に示すように、例えば、４個の顔センサ２２０−Ａ，２２０−Ｂ，２２０−Ｃ，２２０−Ｄを含んでいる。４個の顔センサ２２０−Ａ，２２０−Ｂ，２２０−Ｃ，２２０−Ｄは、人が筋肉を動かすときに生じる電圧を計測するＥＭＧ(Electromyography：筋電位、筋電図)センサである。

また、４個の顔センサ２２０−Ａ，２２０−Ｂ，２２０−Ｃ，２２０−Ｄは、図２に示すように、利用者２０の顔の頬や上唇に装着される。また、４個の顔センサ２２０−Ａ，２２０−Ｂ，２２０−Ｃ，２２０−Ｄは、利用者２０が、口腔内において舌を頬に押し付けた状態で、舌を動かした際の隆起位置の変化を電圧値として一定の周期で繰り返し検出する。

また、４個の顔センサ２２０−Ａ，２２０−Ｂ，２２０−Ｃ，２２０−Ｄの各々には、それぞれ異なるセンサ識別情報が予め割り当てられている。また、４個の顔センサ２２０−Ａ，２２０−Ｂ，２２０−Ｃ，２２０−Ｄの各々は、内部に無線通信手段を備えており、検出した電圧値に、各々に割り当てられているセンサ識別情報を付与して時系列データとして無線通信により映像操作装置１０に送信する。

位置姿勢センサ２３は、既存のキャリブレーション処理を行う機能を備えており、利用者２０の位置と、姿勢を示す角度を一定の周期で繰り返し検出するセンサであり、例えば、利用者表示装置３０の内部に装着される。また、位置姿勢センサ２３は、内部に無線通信手段を備えており、検出した利用者２０の位置の情報と、姿勢を示す角度の情報とを含む時系列データを無線通信により映像操作装置１０に送信する。

（映像操作装置の構成）
映像操作装置１０は、計時部１１、記憶部１２、選択位置検出部１３、操作情報検出部１４、モード切替部１５、映像情報取得部１６、映像情報レンダリング部１７、映像情報出力部１８、位置姿勢情報更新部１９、及び無線通信部２０を備える。映像操作装置１０において、無線通信部２０は、眼球センサ２１、顔センサユニット２２、位置姿勢センサ２３、及び利用者表示装置３０との間で無線通信を行う。

計時部１１は、例えば、要求を受けて時刻情報を出力する時計である。計時部１１の時計の時刻は、カメラ５０−１〜５０−３の各々が内部に備える計時手段の時刻に同期するように予め設定される。

記憶部１２は、図３に示す顔センサリストテーブル１２１を予め記憶する。顔センサリストテーブル１２１は、「センサ識別情報」、及び「センサ位置情報」の項目を有する。「センサ識別情報」の項目には、顔センサ２２０−Ａ，２２０−Ｂ，２２０−Ｃ，２２０−Ｄの各々のセンサ識別情報が書き込まれる。図３は、顔センサ２２０−Ａ，２２０−Ｂ，２２０−Ｃ，２２０−Ｄのセンサ識別情報が、それぞれ「Ａ」，「Ｂ」，「Ｃ」，「Ｄ」である例を示している。

「センサ位置情報」の項目には、顔センサ２２０−Ａ，２２０−Ｂ，２２０−Ｃ，２２０−Ｄの各々の利用者２０の顔における位置を示す情報が書き込まれる。顔における位置を示す情報は、例えば、図２に示すように、利用者２０の顔において、口角を結ぶ直線を水平軸、すなわちｘ軸とし、口角の中間を原点座標としたｘｙ座標によって示される。

顔センサ２２０−Ａ，２２０−Ｂ，２２０−Ｃ，２２０−Ｄの各々の位置を、当該ｘｙ座標における座標値（ｘ_ｓ，ｙ_ｓ）として表すことができ、各々の座標値（ｘ_ｓ，ｙ_ｓ）が、「センサ位置情報」の項目の各々に対応する行に予め書き込まれる。図３は、顔センサ２２０−Ａ，２２０−Ｂ，２２０−Ｃ，２２０−Ｄのセンサ位置情報が、それぞれ（−１００，０），（−５０，０），（５０，０），（１００，０）である例を示している。

また、記憶部１２は、図４に示す利用者情報テーブル１２２を予め記憶する。利用者情報テーブル１２２は、「利用者識別情報」、「モード種別」、「移動スケール」、「位置・姿勢」、「位置情報」の項目を有する。「利用者識別情報」の項目には、利用者表示装置３０に予め割り当てられている利用者識別情報が予め書き込まれる。

ここで、利用者識別情報とは、配信サーバ装置４０に接続する利用者表示装置３０に対して予め割り当てられる識別情報であり、複数の利用者表示装置３０が接続する場合、それぞれに異なる利用者識別情報が割り当てられる。図４は、利用者識別情報として「１」が書き込まれている例を示している。なお、１台の映像操作装置１０に接続する利用者表示装置３０は１台であるため、利用者情報テーブル１２２の「利用者識別情報」の項目は、接続する１台の利用者表示装置３０の利用者識別情報のみを記憶する。

「モード種別」の項目には、モード切替部１５によってモード種別を示す情報が書き込まれる。図４は、モード種別を示す情報として、移動操作モード種別を示す「移動操作」が書き込まれている例を示している。

「移動スケール」の項目には、移動スケールの値が予め書き込まれる。ここで、移動スケールとは、顔センサリストテーブル１２１の「センサ位置情報」の項目が記憶する座標値の座標、すなわち、図２を参照して説明した利用者２０の顔において定義した座標と、カメラ５０−１〜５０−３が撮影する動画像の座標のスケールを補正する値である。図４は、移動スケールとして、「１」が書き込まれている例を示している。移動スケールの値が、「１」の場合、両座標のスケールは一致する。なお、以下の説明において、移動スケールを、移動スケールαともいう。

「位置・姿勢」の項目には、位置姿勢情報更新部１９が、位置姿勢センサ２３から受信する利用者２０の位置及び姿勢を示す角度の情報に基づいて算出する利用者座標Ｍ_ｕにおける利用者２０の回転行列Ｒ_ｕと並進ベクトルｔ_ｕの情報が書き込まれる。「位置情報」の項目には、位置姿勢情報更新部１９が、位置姿勢センサ２３から受信する利用者２０の位置を示す情報に基づいて算出する世界座標Ｍ_ｗにおける利用者座標Ｍ_ｕの原点の位置を示す情報が書き込まれる。

ここで、利用者座標、世界座標等の用語について、図５を参照しつつ説明する。図５は、利用者２０と、カメラ５０−１，５０−２，５０−３の位置関係を示す一例であり、世界座標Ｍ_ｗとは、空間全体を表す座標系である。利用者座標Ｍ_ｕは、利用者２０の位置を原点とする座標系である。カメラ座標Ｍ_ｃ１，Ｍ_ｃ２，Ｍ_ｃ３は、それぞれカメラ５０−１，５０−２，５０−３の位置を原点とする座標系である。

世界座標Ｍ_ｗと、利用者座標Ｍ_ｕと、カメラ座標Ｍ_ｃ１，Ｍ_ｃ２，Ｍ_ｃ３の各々は、原点が異なるが、Ｘ軸、Ｙ軸、Ｚ軸の方向は同一の座標である。なお、Ｙ軸は、紙面に垂直な軸であって、手前から奥に向かう方向が正の方向である軸である。

利用者２０の位置の情報、及び姿勢を示す角度の情報は、位置姿勢センサ２３が一定の周期で繰り返し検出するため、利用者２０の動きに応じて変化する情報である。これに対して、カメラ５０−１，５０−２，５０−３の位置や姿勢は、上述したように、固定されているため、既存のキャリブレーション技術によって、各々の座標系ごとに原点の位置情報や位置や姿勢を示す回転行列や並進ベクトルが予め求められている。

図１に戻り、選択位置検出部１３は、無線通信部２０を介して眼球センサ２１から左右の眼球の視線方向と、輻輳角θとを含む時系列データを受信する。また、選択位置検出部１３は、時系列データに含まれる左右の眼球の視線方向と、輻輳角θとに基づいて利用者２０が、注視している注視点の実空間における３次元位置を算出する。また、選択位置検出部１３は、算出した３次元位置を示す座標情報（以下、３次元位置座標情報という）を選択位置情報として、映像情報レンダリング部１７に出力する。

操作情報検出部１４は、無線通信部２０を介して顔センサユニット２２に含まれる顔センサ２２０−Ａ，２２０−Ｂ，２２０−Ｃ，２２０−Ｄの各々から、センサ識別情報が付与された電圧値の時系列データを受信する。また、操作情報検出部１４は、受信したセンサ識別情報が付与された電圧値の時系列データと、記憶部１２の顔センサリストテーブル１２１が記憶する顔センサ２２０−Ａ，２２０−Ｂ，２２０−Ｃ，２２０−Ｄの位置情報に基づいて、利用者２０の舌の動きを示す情報である移動ベクトルを算出する。

顔や口腔内の形状、舌を押し当てる位置等は、利用者２０ごとに異なるため、電圧値の変化パターンや大きさも利用者２０ごとに異なることになる。そのため、操作情報検出部１４は、学習手段を有しており、ある１人の利用者２０が頬に舌を押し当てて移動させた際の電圧値の変化を事前に学習手段を用いて学習する。操作情報検出部１４は、移動方向の分類精度や、移動量の検出精度が高められた状態で、実際の運用に適用される。

また、操作情報検出部１４は、算出した移動ベクトルを操作情報として映像情報レンダリング部１７に出力する。なお、以下の説明において、移動ベクトルを、移動ベクトルｖともいう。

位置姿勢情報更新部１９は、無線通信部２０を介して位置姿勢センサ２３から利用者２０の位置及び姿勢を示す角度の情報を含む時系列データを受信する。また、位置姿勢情報更新部１９は、受信した時系列データに含まれる利用者２０の位置及び姿勢を示す角度の情報に基づいて、利用者座標Ｍ_ｕにおける利用者２０の回転行列Ｒ_ｕと並進ベクトルｔ_ｕと、世界座標Ｍ_ｗにおける利用者座標Ｍ_ｕの原点の位置を示す情報とを算出する。

また、位置姿勢情報更新部１９は、算出した利用者座標Ｍ_ｕにおける利用者２０の回転行列Ｒ_ｕと並進ベクトルｔ_ｕを、利用者情報テーブル１２２の「位置・姿勢」の項目に書き込んで更新する。また、位置姿勢情報更新部１９は、算出した世界座標Ｍ_ｗにおける利用者座標Ｍ_ｕの原点の位置を示す情報を、利用者情報テーブル１２２の「位置情報」の項目に書き込んで更新する。

また、位置姿勢情報更新部１９は、利用者情報テーブル１２２の「利用者識別情報」の項目から利用者識別情報を読み出す。また、位置姿勢情報更新部１９は、通信ネットワーク６０に接続しており、算出した利用者座標Ｍ_ｕにおける利用者２０の回転行列Ｒ_ｕと並進ベクトルｔ_ｕ、及び世界座標Ｍ_ｗにおける利用者座標Ｍ_ｕの原点の位置を示す情報に対して、読み出した利用者識別情報を付与して配信サーバ装置４０に送信する。

モード切替部１５は、利用者表示装置３０が利用者２０の操作を受けて送信する移動操作モード通知を無線通信部２０を介して受信し、受信した際に移動操作モード種別を示す情報を利用者情報テーブル１２２の「モード種別」の項目に書き込んで記憶させる。また、モード切替部１５は、利用者表示装置３０が利用者２０の操作を受けて送信する終了モード通知を無線通信部２０を介して受信し、受信した際に終了モード種別を示す情報を利用者情報テーブル１２２の「モード種別」の項目に書き込んで記憶させる。

また、モード切替部１５は、移動操作モード通知を受信した場合、移動操作モード種別を示す情報と、利用者情報テーブル１２２が記憶する利用者識別情報と、計時部１１に要求して取得する時刻情報とを含む情報を映像情報取得部１６に出力する。また、モード切替部１５は、終了モード通知を受信した場合、終了モード種別を示す情報と、利用者情報テーブル１２２が記憶する利用者識別情報とを含む情報を映像情報取得部１６に出力する。

映像情報取得部１６は、通信ネットワーク６０を介して配信サーバ装置４０に接続する。また、映像情報取得部１６は、モード切替部１５から移動操作モード種別を示す情報と、利用者識別情報と、時刻情報とを含む情報を受けた場合、利用者識別情報と、時刻情報とを含む配信要求情報を生成して配信サーバ装置４０に送信する。なお、配信要求情報が含む時刻情報は、配信映像の開始時刻を示しており、以下、配信サーバ装置４０に対して配信を要求する映像の開始時刻を、配信映像の開始時刻情報ｓ＿Ｔｉｍｅ_ｕともいう。

また、映像情報取得部１６は、配信要求情報を受信した配信サーバ装置４０が送信する映像情報と、利用者識別情報と、カメラリスト情報とを受信する。ここで、カメラリスト情報とは、配信サーバ装置４０の映像情報記憶部４２が記憶するカメラリストテーブル４２１の「カメラ識別情報」、「位置・姿勢」、「位置情報」の項目の全ての内容を含む情報である。なお、カメラリスト情報において、カメラリスト情報と共に受信する映像情報に対応するカメラ識別情報のレコードには、当該映像情報とカメラ識別情報の関係が特定できるようにフラグが立てられているものとする。

また、映像情報取得部１６は、受信した利用者識別情報が、利用者情報テーブル１２２の「利用者識別情報」の項目の情報に一致する場合、受信した利用者識別情報と、映像情報と、カメラリスト情報とを取り込む。また、映像情報取得部１６は、取り込んだ利用者識別情報と、映像情報と、カメラリスト情報とに対して、利用者情報テーブル１２２が記憶するモード種別を示す情報を付与して映像情報レンダリング部１７に出力する。

なお、映像情報取得部１６が配信サーバ装置４０から受信する映像情報は、配信映像の開始時刻情報ｓ＿Ｔｉｍｅ_ｕ以降の連続した映像情報である。第１の実施形態では、配信映像の開始時刻情報ｓ＿Ｔｉｍｅ_ｕとして指定する時刻は、計時部１１から取得した時刻である。そのため、第１の実施形態において配信映像の開始時刻情報ｓ＿Ｔｉｍｅ_ｕとして指定される時刻は、映像操作装置１０や配信サーバ装置４０の内部処理による遅延があるため厳密には、実時間、すなわち「リアルタイム」ではないが、以下、説明の便宜上、配信映像の開始時刻情報ｓ＿Ｔｉｍｅ_ｕ以降の連続した映像情報をリアルタイム映像情報という。

また、映像情報取得部１６は、モード切替部１５から終了モード種別を示す情報と、利用者識別情報を含む情報を受けた場合、当該情報に含まれる利用者識別情報を含む終了命令情報を生成して配信サーバ装置４０に送信する。

映像情報レンダリング部１７は、選択位置検出部１３が出力する選択位置情報を用いて、選択領域を設定し、設定した選択領域に含まれるリアルタイム映像情報の位置を、操作情報検出部１４が出力する操作情報に基づいて変更する操作を行う。

映像情報レンダリング部１７は、選択位置検出部１３が出力する選択位置情報である３次元位置座標情報と、操作情報検出部１４が出力する操作情報である移動ベクトルｖを取り込む。また、映像情報レンダリング部１７は、映像情報取得部１６が出力する利用者識別情報と、リアルタイム映像情報と、カメラリスト情報と、モード種別を示す情報とを取り込む。また、映像情報レンダリング部１７は、記憶部１２が記憶する利用者情報テーブル１２２の「移動スケール」の項目から移動スケールαの値を読み出し、「位置・姿勢」の項目から利用者座標Ｍ_ｕにおける利用者２０の回転行列Ｒ_ｕ、並進ベクトルｔ_ｕを読み出し、「位置情報」から利用者座標Ｍ_ｕの原点の位置情報を読み出す。

また、映像情報レンダリング部１７は、取り込んだモード種別を示す情報が移動操作モード種別を示す場合、取り込んだリアルタイム映像情報から、カメラリスト情報と、３次元位置座標情報とに基づいて定める選択領域の映像情報を切り出す。また、映像情報レンダリング部１７は、切り出した映像情報を移動ベクトルｖ及び移動スケールαにしたがって移動させて第１の重畳映像情報を生成する。

また、映像情報レンダリング部１７は、選択領域において切り出した映像情報に人物等の物が写っているために、当該物によって隠されている背景を写した映像の映像情報を生成する。そのために、映像情報レンダリング部１７は、利用者座標Ｍ_ｕにおける利用者２０の回転行列Ｒ_ｕ、並進ベクトルｔ_ｕ、及び利用者座標Ｍ_ｕの原点の位置情報と、受信したカメラリスト情報とに基づいて、当該背景を写した映像の映像情報を撮影したカメラ５０−１〜５０−３のカメラ識別情報を検出する。

また、映像情報レンダリング部１７は、通信ネットワーク６０に接続しており、通信ネットワーク６０を介して配信サーバ装置４０に対して、検出したカメラ識別情報と、映像情報取得部１６から受けた利用者識別情報とを含む追加配信要求情報を送信する。また、映像情報レンダリング部１７は、当該追加配信要求情報を受けて配信サーバ装置４０が送信する映像情報を受信し、受信した映像情報と、カメラリスト情報と、利用者座標Ｍ_ｕにおける利用者２０の回転行列Ｒ_ｕ及び並進ベクトルｔ_ｕと、利用者座標Ｍ_ｕの原点の位置情報とに基づいて、選択領域内の背景を写した映像の映像情報である第２の重畳映像情報を生成する。

また、映像情報レンダリング部１７は、生成した第１の重畳映像情報と、第２の重畳映像情報とに対して、各々の中心位置を示す情報を付与して映像情報出力部１８に出力する。映像情報出力部１８は、映像情報レンダリング部１７が出力する第１及び第２の重畳映像情報と、第１及び第２の重畳映像情報の各々の中心位置を示す情報とを取り込み、取り込んだ情報を無線通信部２０を介して利用者表示装置３０に送信する。

（利用者表示装置の構成）
利用者表示装置３０は、例えば、ＡＲの視聴デバイスであり、図６に示すように、映像情報表示処理部３１、表示部３２、記憶部３３、計時部３４、情報送信部３５、及び操作部３６を備える。利用者表示装置３０において、記憶部３３は、利用者表示装置３０に予め割り当てられている利用者識別情報を予め記憶する。計時部３４は、例えば、時計であり、要求を受けて時刻情報を出力する。計時部３４の時計の時刻は、カメラ５０−１〜５０−３の各々が内部に備える計時手段の時刻、及び計時部１１の時刻に同期するように予め設定されている。

映像情報表示処理部３１は、通信ネットワーク６０を介して配信サーバ装置４０に接続する際、記憶部３３が記憶する利用者識別情報と、計時部３４から取得した時刻情報とを含むリアルタイム映像配信要求情報を配信サーバ装置４０に送信する。また、映像情報表示処理部３１は、当該リアルタイム映像配信要求情報を受けて配信サーバ装置４０が送信するリアルタイム映像情報を通信ネットワーク６０を介して受信して表示部３２に出力する。

また、映像情報表示処理部３１は、無線通信手段を備えており、映像操作装置１０の映像情報出力部１８が無線通信部２０を介して送信する第１及び第２の重畳映像情報と、第１及び第２の重畳映像情報の各々の中心位置を示す情報とを受信する。また、映像情報表示処理部３１は、受信した第１及び第２の重畳映像情報と、第１及び第２の重畳映像情報の各々の中心位置を示す情報とを表示部３２に出力する。

表示部３２は、例えば、ＬＣＤ(Liquid Crystal Display)等の画面を備えており、映像情報表示処理部３１が出力するリアルタイム映像情報を取り込んで画面に表示する。また、表示部３２は、映像情報表示処理部３１が出力する第１及び第２の重畳映像情報と、第１及び第２の重畳映像情報の各々の中心位置を示す情報とを取り込み、第１及び第２の重畳映像情報の各々の中心位置を示す情報に応じた画面の位置に、リアルタイム映像情報に重ねて第１及び第２の重畳映像情報を表示する。ここで、リアルタイム映像情報に重ねて表示するとは、第１及び第２の重畳映像情報を重ねた領域においてリアルタイム映像情報が利用者２０から見えなくなるように第１及び第２の重畳映像情報を表示することである。

操作部３６は、移動操作モードボタン部３６−１と、終了モードボタン部３６−２とを備える。移動操作モードボタン部３６−１及び終了モードボタン部３６−２の各々は、利用者２０によって操作を受けるボタンを備えており、当該ボタンが押下された場合、当該ボタンが押下されたことを示す情報を情報送信部３５に出力する。

情報送信部３５は、移動操作モードボタン部３６−１からボタンが押下されたことを示す情報を受けた場合、移動操作モード通知を映像操作装置１０のモード切替部１５に送信する。また、情報送信部３５は、終了モードボタン部３６−２からボタンが押下されたことを示す情報を受けた場合、終了モード通知を映像操作装置１０のモード切替部１５に送信する。

（配信サーバ装置の構成）
配信サーバ装置４０は、図７に示す内部構成を有しており、映像情報取込部４１、映像情報記憶部４２、映像情報配信処理部４３、記憶部４４、及び情報更新部４５を備える。配信サーバ装置４０において、映像情報記憶部４２は、図８に示すカメラリストテーブル４２１を記憶する。

カメラリストテーブル４２１は、「カメラ識別情報」、「位置・姿勢」、「位置情報」、「映像情報」の項目を有している。「カメラ識別情報」の項目には、カメラ５０−１〜５０−３に割り当てられているカメラ識別情報が書き込まれる。図８は、カメラ５０−１，５０−２，５０−３に割り当てられているカメラ識別情報が、それぞれ「１」，「２」，「３」である例を示している。

「位置・姿勢」の項目には、カメラ５０−１〜５０−３の各々に対応するカメラ座標Ｍ_ｃ１，Ｍ_ｃ２，Ｍ_ｃ３におけるカメラ５０−１〜５０−３の位置及び姿勢を示す情報である回転行列と並進ベクトルが書き込まれる。図８は、「カメラ識別情報」が「１」のレコードの「位置・姿勢」の項目に、カメラ座標Ｍ_ｃ１におけるカメラ５０−１の回転行列Ｒ_ｃ１と、並進ベクトルｔ_ｃ１が書き込まれている例を示している。同様に、「カメラ識別情報」が「２」，「３」のレコードの「位置・姿勢」の項目に、カメラ座標Ｍ_ｃ２，Ｍ_ｃ３におけるカメラ５０−２，５０−３の回転行列Ｒ_ｃ２，Ｒ_ｃ３と、並進ベクトルｔ_ｃ２，ｔ_ｃ３が書き込まれている。

「位置情報」の項目には、カメラ５０−１〜５０−３に対応するカメラ座標Ｍ_ｃ１，Ｍ_ｃ２，Ｍ_ｃ３の原点の世界座標Ｍ_ｗにおける座標情報が書き込まれる。図８は、カメラ座標Ｍ_ｃ１，Ｍ_ｃ２，Ｍ_ｃ３の原点の世界座標Ｍ_ｗにおける位置がそれぞれ（−１００，１００，−１００），（０，１００，−１００），（１００，１００，−１００）である例を示している。

「映像情報」の項目には、カメラ５０−１〜５０−３の各々が撮影した映像情報が書き込まれる。図８に示す例は、「カメラ識別情報」が「１」に対応する「映像情報」の項目に、カメラ５０−１が撮影した「映像情報１」というファイル名称の映像情報が書き込まれている例を示している。同様に、「カメラ識別情報」が「２」，「３」に対応する「映像情報」の項目に、カメラ５０−２，５０−３が撮影した「映像情報２」，「映像情報３」というファイル名称の映像情報が書き込まれている。

映像情報取込部４１は、カメラ５０−１，５０−２，５０−３の各々が出力するカメラ識別情報が付与された映像情報のフレームを取り込む。また、映像情報取込部４１は、取り込んだ映像情報のフレームに付与されているカメラ識別情報に対応するカメラリストテーブル４２１のレコードの「映像情報」の項目が記憶する映像情報に対して、取り込んだ映像情報のフレームを追加して映像情報を更新する。

記憶部４４は、図９に示す利用者リストテーブル４４１を記憶する。利用者リストテーブル４４１は、「利用者識別情報」、「位置・姿勢」、「位置情報」の項目を有している。「利用者識別情報」の項目には、配信サーバ装置４０に接続している利用者表示装置３０に割り当てられている利用者識別情報が書き込まれる。複数の利用者表示装置３０が接続している場合、利用者リストテーブル４４１は、複数の利用者表示装置３０ごとの複数のレコードを有することになる。

「位置・姿勢」の項目には、利用者表示装置３０を利用する利用者２０の利用者座標Ｍ_ｕにおける利用者２０の位置及び姿勢を示す情報である回転行列Ｒ_ｕと並進ベクトルｔ_ｕが書き込まれる。「位置情報」の項目には、利用者座標Ｍ_ｕの原点の世界座標Ｍ_ｗにおける座標情報が書き込まれる。図９に示す例は、利用者座標Ｍ_ｕの原点の世界座標Ｍ_ｗにおける位置が（０，０，０）である例、すなわち世界座標Ｍ_ｗと、利用者座標Ｍ_ｕとが一致している例を示している。

情報更新部４５は、通信ネットワーク６０に接続しており、通信ネットワーク６０を介して映像操作装置１０の位置姿勢情報更新部１９から利用者識別情報と、利用者座標Ｍ_ｕにおける利用者２０の回転行列Ｒ_ｕ及び並進ベクトルｔ_ｕと、世界座標Ｍ_ｗにおける利用者座標Ｍ_ｕの原点の位置情報とを受信する。また、情報更新部４５は、受信した利用者識別情報に対応する利用者リストテーブル４４１のレコードを検出する。また、情報更新部４５は、検出したレコードの「位置・姿勢」の項目に、受信した利用者座標Ｍ_ｕにおける利用者２０の回転行列Ｒ_ｕ及び並進ベクトルｔ_ｕを書き込み、当該レコードの「位置情報」の項目に、受信した世界座標Ｍ_ｗにおける利用者座標Ｍ_ｕの原点の位置情報を書き込んで更新する。

映像情報配信処理部４３は、通信ネットワーク６０に接続されており、通信ネットワーク６０を介して接続する利用者表示装置３０から利用者識別情報と、時刻情報と含むリアルタイム映像配信要求情報を受信する。また、映像情報配信処理部４３は、リアルタイム映像配信要求情報に含まれる利用者識別情報に対応する利用者リストテーブル４４１の「位置情報」の項目が記憶する利用者座標Ｍ_ｕの原点の位置情報を読み出す。また、映像情報配信処理部４３は、読み出した利用者座標Ｍ_ｕの原点の位置情報と、カメラリストテーブル４２１の「位置情報」の項目が記憶する各カメラ５０−１〜５０−３のカメラ座標の原点の位置情報とを対比し、利用者表示装置３０の位置に最も近いいずれか１つのカメラ５０−１〜５０−３のレコードを検出する。また、映像情報配信処理部４３は、検出したレコードの「映像情報」の項目からリアルタイム映像配信要求情報に含まれる時刻情報以降の映像情報を読み出してリアルタイム映像情報とし、利用者表示装置３０に対するリアルタイム映像情報の送信を開始する。

また、映像情報配信処理部４３は、通信ネットワーク６０を介して接続する映像操作装置１０の映像情報取得部１６から配信要求情報を受信する。また、映像情報配信処理部４３は、配信要求情報に含まれる利用者識別情報と、利用者リストテーブル４４１と、カメラリストテーブル４２１とに基づいて、利用者表示装置３０の位置に最も近いいずれか１つのカメラ５０−１〜５０−３のレコードをカメラリストテーブル４２１から検出する。また、映像情報配信処理部４３は、検出したレコードの「映像情報」の項目から配信要求情報に含まれる配信映像情報の開始時刻情報ｓ＿Ｔｉｍｅ_ｕ以降の映像情報を読み出してリアルタイム映像情報とする。

また、映像情報配信処理部４３は、映像情報記憶部４２が記憶するカメラリストテーブル４２１の「カメラ識別情報」、「位置・姿勢」、「位置情報」の項目が記憶する全ての情報を読み出し、読み出した情報に基づいてカメラリスト情報を生成する。なお、映像情報配信処理部４３は、カメラリスト情報を生成する際、当該カメラリスト情報と共に送信する映像情報に対応するカメラ識別情報のレコードに、当該映像情報とカメラ識別情報の関係が特定できるようにフラグを立てて生成する。また、映像情報配信処理部４３は、読み出した映像情報と、カメラリスト情報と、配信要求情報に含まれる利用者識別情報とを映像情報取得部１６に送信する。

また、映像情報配信処理部４３は、通信ネットワーク６０を介して接続する映像操作装置１０の映像情報レンダリング部１７から追加配信要求情報を受信する。また、映像情報配信処理部４３は、追加配信要求情報に含まれるカメラ識別情報に対応する最新の映像情報をカメラリストテーブル４２１から読み出す。また、映像情報配信処理部４３は、読み出した映像情報を映像情報レンダリング部１７に送信する。

また、映像情報配信処理部４３は、利用者識別情報、及び送信先の装置に関連付けて送信している映像情報を管理しており、映像操作装置１０から終了命令情報を受信した場合、終了命令情報に含まれる利用者識別情報に対応する送信中の映像情報を検出する。また、映像情報配信処理部４３は、検出した利用者識別情報に対応する送信中の映像情報のうち、終了命令情報の送信元の映像操作装置１０の映像情報取得部１６及び映像情報レンダリング部１７に対する映像情報の送信を停止する。

（第１の実施形態の映像操作装置の処理）
図１０は、第１の実施形態の映像操作装置１０による処理の流れを示すフローチャートである。以下の処理の前提として、利用者表示装置３０の記憶部３３が記憶する利用者識別情報は、「１」であるとし、映像操作装置１０の記憶部１２が記憶する利用者情報テーブル１２２の「利用者識別情報」の項目にも「１」が記憶され、「位置・姿勢」及び「位置情報」の項目は、位置姿勢情報更新部１９によって順次更新されている。

また、配信サーバ装置４０の記憶部４４が記憶する利用者リストテーブル４４１の「利用者識別情報」の項目にも「１」が記憶され、「位置・姿勢」及び「位置情報」の項目は、情報更新部４５によって順次更新されている。また、カメラリストテーブル４２１は、図８に示す例の情報を記憶しており、図９に示した利用者リストテーブル４４１の例の通り、世界座標Ｍ_ｗと、利用者座標Ｍ_ｕとが一致しているものとして説明する。

図１０に示す処理が開始される前に、利用者表示装置３０と配信サーバ装置４０とが通信ネットワーク６０を介して接続し、利用者表示装置３０が配信サーバ装置４０からリアルタイム映像情報の受信を開始しているものとする。すなわち、利用者表示装置３０は、配信サーバ装置４０に対してリアルタイム映像配信要求情報を送信し、配信サーバ装置４０は、利用者２０の位置に最も近いカメラ５０−１〜５０−３が撮影したリアルタイム映像情報を通信ネットワーク６０を介して利用者表示装置３０に送信する。

ここでは、図４の利用者情報テーブル１２２及び図９の利用者リストテーブル４４１に示す例の通り、利用者２０の位置は「（０，０，０）」であり、図８のカメラリストテーブル４２１に示す例の通りであるため、カメラ５０−２が利用者２０の最も近くに存在することになる。

利用者表示装置３０の映像情報表示処理部３１は、配信サーバ装置４０が送信するカメラ５０−２が撮影したリアルタイム映像情報を受信して表示部３２に出力し、表示部３２が画面にリアルタイム映像情報の映像を表示する。利用者２０は、利用者表示装置３０の画面に表示される映像を視聴している。なお、表示部３２の画面の座標は、左上が原点であり、右方向の水平軸が、ｘ軸の正方向、下方向の垂直軸が、ｙ軸の正方向となる。

利用者２０は、画面に表示される映像を視聴しながら移動させたい物、例えば、選手等の対象物を見つけると、当該対象物を注視して、利用者表示装置３０の操作部３６の移動操作モードボタン部３６−１のボタンを押下する。移動操作モードボタン部３６−１は、ボタンが押下されたことを示す情報を情報送信部３５に出力する。情報送信部３５は、移動操作モードボタン部３６−１が出力するボタンが押下されたことを示す情報を受けて、無線通信により、移動操作モード通知を映像操作装置１０のモード切替部１５に対して送信する。モード切替部１５は、無線通信部２０を介して移動操作モード通知を受信する（ステップＳ１０１）。

モード切替部１５は、移動操作モード通知を受信すると、記憶部１２が記憶する利用者情報テーブル１２２の「モード種別」の項目に、移動操作モード種別を示す情報、例えば、「移動操作」を書き込む。モード切替部１５は、計時部１１から時刻情報を取得する。ここでは、例えば、モード切替部１５が、「１１時３０分１０秒」の時刻情報を取得したとする。

モード切替部１５は、取得した時刻情報「１１時３０分１０秒」と、移動操作モード種別を示す情報と、利用者情報テーブル１２２の「利用者識別情報」の項目が記憶する利用者識別情報「１」とを映像情報取得部１６に送信する。

映像情報取得部１６は、モード切替部１５から時刻情報と、移動操作モード種別を示す情報と、利用者識別情報とを含む情報を受けると、時刻情報と、利用者識別情報とを含む配信要求情報を生成する。映像情報取得部１６は、生成した配信要求情報を通信ネットワーク６０を介して配信サーバ装置４０に送信する（ステップＳ１０２）。

配信サーバ装置４０の映像情報配信処理部４３は、映像情報取得部１６が送信した配信要求情報を受信し、受信した配信要求情報に含まれる利用者識別情報を読み出す。映像情報配信処理部４３は、記憶部４４の利用者リストテーブル４４１を参照し、読み出した利用者識別情報に対応するレコードの「位置情報」の項目を読み出す。ここでは、利用者識別情報は「１」であるため、映像情報配信処理部４３は、利用者リストテーブル４４１を参照し、図９に示す例の通り「位置情報」として「（０，０，０）」を読み出す。

映像情報配信処理部４３は、映像情報記憶部４２が記憶するカメラリストテーブル４２１の「位置情報」の項目を参照し、読み出した位置情報「（０，０，０）」に最も近い「（０，１００，−１００）」を検出する。位置情報が「（０，１００，−１００）」のレコードは、カメラ識別情報が「２」であり、「映像情報」の項目の「映像情報２」というファイル名称の映像情報は、カメラ５０−２が撮影した映像情報である。

映像情報配信処理部４３は、配信要求情報に含まれる配信映像情報の開始時刻情報ｓ＿Ｔｉｍｅ_ｕが示す時刻、すなわち「１１時３０分１０秒」以降のカメラ５０−２が撮影したリアルタイム映像情報を読み出す。映像情報配信処理部４３は、カメラリストテーブル４２１から「カメラ識別情報」、「位置・姿勢」、「位置情報」の全ての情報を読み出し、読み出した情報に基づいてカメラリスト情報を生成する。映像情報配信処理部４３は、カメラリスト情報を生成する際、送信するリアルタイム映像情報を撮影したカメラ５０−２に対応するカメラ識別情報「２」に対してフラグを立ててカメラリスト情報を生成する。

映像情報配信処理部４３は、読み出したリアルタイム映像情報と、カメラリスト情報と、配信要求情報に含まれる利用者識別情報とを通信ネットワーク６０を介して映像情報取得部１６に送信する。映像情報取得部１６は、通信ネットワーク６０を介してリアルタイム映像情報と、カメラリスト情報と、利用者識別情報とを含む情報を受信する。

映像情報取得部１６は、受信した情報に含まれる利用者識別情報が、利用者情報テーブル１２２の「利用者識別情報」の項目の情報に一致する場合、受信したリアルタイム映像情報と、カメラリスト情報と、利用者識別情報とを取り込む。ここでは、映像情報取得部１６が受信した利用者識別情報が「１」であり、利用者情報テーブル１２２の「利用者識別情報」の項目が記憶する「１」と一致するため、映像情報取得部１６は、リアルタイム映像情報と、カメラリスト情報と、利用者識別情報とを取り込む（ステップＳ１０３）。

映像情報取得部１６は、取り込んだリアルタイム映像情報と、カメラリスト情報と、利用者識別情報とに対して、利用者情報テーブル１２２が記憶するモード種別を示す情報、すなわち「移動操作」を付与して映像情報レンダリング部１７に出力する。

映像情報レンダリング部１７は、映像情報取得部１６が出力するリアルタイム映像情報と、カメラリスト情報と、利用者識別情報と、モード種別を示す情報とを取り込む。映像情報レンダリング部１７は、取り込んだモード種別を示す情報が移動操作モード種別を示す場合、以下の処理により、当該リアルタイム映像情報において選択領域を設定する。

ステップＳ１０１において、利用者２０は、移動させたい対象物を注視して、移動操作モードボタン部３６−１のボタンを押下している。選択位置検出部１３は、眼球センサ２１が出力する利用者２０の左右の眼球の視線方向と、輻輳角θとを含む時系列データを取り込む。

選択位置検出部１３は、取り込んだ時系列データに含まれる利用者２０の左右の眼球の視線方向と、輻輳角θとに基づいて、例えば、下記の参考文献に示される手法により、利用者２０が、表示部３２の画面において注視している注視点の実空間における３次元位置座標情報Ｐ＝（Ｘ１，Ｙ１，Ｚ１）を算出する。

「参考文献：満上，浮田，木戸出，“視線情報を用いた注視点の３次元位置推定，”電子情報通信学会技術研究報告PRMU，102(554)，1-6，2003」

例えば、利用者２０が、正面にある奥行き５ｍの位置にある対象物を見ている場合、３次元位置座標情報Ｐが示す位置は、（０，０，５）となる。選択位置検出部１３は、算出した３次元位置座標情報Ｐを選択位置情報として映像情報レンダリング部１７に出力する。

映像情報レンダリング部１７は、選択位置検出部１３が出力する選択位置情報である３次元位置座標情報Ｐの位置に対応する、二次元の画面上の位置の座標ｍ_ｃ＝（ｘ_ｃ，ｙ_ｃ）を次式（１）に基づいて算出する。

ｓｍ_ｃ＝Ａ_ｃ（Ｒ_ｗｃＰ＋ｔ_ｗｃ）・・・（１）

式（１）において、ｓは、スカラー係数であり、Ａ_ｃは、内部パラメータである。また、Ｒ_ｗｃとｔ_ｗｃは、世界座標Ｍ_ｗにおけるリアルタイム映像情報を撮影したカメラ５０−１〜５０−３の回転行列と並進ベクトルである。

映像情報レンダリング部１７は、取り込んだカメラリスト情報においてフラグが立てられているカメラ５０−２のカメラ座標Ｍｃ_２における回転行列Ｒ_ｃ２と、並進ベクトルｔ_ｃ２とを読み出す。映像情報レンダリング部１７は、読み出した回転行列Ｒ_ｃ２と、並進ベクトルｔ_ｃ２を世界座標Ｍ_ｗに変換し、世界座標Ｍ_ｗにおけるカメラ５０−２の回転行列Ｒ_ｗｃ２と、並進ベクトルｔ_ｗｃ２を算出して、式（１）のＲ_ｗｃと、ｔ_ｗｃに代入して演算を行う。

ここでは、映像情報レンダリング部１７が、式（１）に基づいて３次元位置座標情報Ｐ＝（０，０，５）に対応する、画面上の位置として、ｍ_ｃ＝（１９２０，１０００）を算出したとする。上述したように、利用者表示装置３０の画面は、左上が原点であり、右方向の水平軸が、ｘ軸の正方向、下方向の垂直軸が、ｙ軸の正方向となる。

例えば、利用者２０が注視している対象物（以下、注視対象物という）が存在する領域を矩形形状の領域とし、当該矩形形状の領域の幅ｗ＝１００とし、高さｈ＝１００とする。矩形形状の選択領域を、（ｘ_ｃ，ｙ_ｃ，ｗ，ｈ）で表すと、（１９２０，１０００，１００，１００）となる。映像情報レンダリング部１７は、選択領域として（１９２０，１０００，１００，１００）を設定する（ステップＳ１０４）。なお、選択領域の各要素の単位は、映像情報において指定するため、ｐｉｘｅｌである。

操作情報検出部１４は、顔センサユニット２２に含まれる顔センサ２２０−Ａ，２２０−Ｂ，２２０−Ｃ，２２０−Ｄが出力する電圧値と、記憶部１２が記憶する顔センサリストテーブル１２１とに基づいて移動ベクトルｖを算出する。操作情報検出部１４は、例えば、以下の手順により、移動ベクトルｖを算出する。

例えば、利用者２０が、頬の舌を押し付けた状態で、口角横から右方向に舌を移動させると、顔センサ２２０−Ａ，２２０−Ｂ，２２０−Ｃ，２２０−Ｄが検出する電圧値が変化する。図１１は、（ａ），（ｂ），（ｃ），（ｄ）の順に顔センサ２２０−Ａ，２２０−Ｂ，２２０−Ｃ，２２０−Ｄが検出した電圧値の変化の一例を示すグラフである。当該グラフにおいて、横軸が時間であり、縦軸が電圧値である。また、図１１に示す（ａ），（ｂ），（ｃ），（ｄ）のグラフの横方向の破線は、閾値を示している。閾値は、図１１（ａ），（ｂ），（ｃ），（ｄ）において同一値であり、操作情報検出部１４が予め記憶する。

図１１（ｂ）のグラフが示すように、時刻ｔ１において、顔センサ２２０−Ｂが検出した電圧値が閾値を超えたことを、操作情報検出部１４が検出し、顔センサ２２０−Ｂの位置（−５０，０）が始点となる。利用者２０が、舌を右方向に動かすにしたがって、顔センサ２２０−Ａが検出する電圧値において、図１１（ａ）のグラフが示すような変化が発生する。時刻ｔ２において、顔センサ２２０−Ａが検出した電圧値が閾値を超えたことを、操作情報検出部１４が検出し、顔センサ２２０−Ａの位置（−１００，０）が終点となる。

操作情報検出部１４は、始点の座標値（−５０，０）と、終点の座標値（−１００，０）とに基づいて、移動ベクトルｖとして（−５０，０）を算出する。操作情報検出部１４は、算出した移動ベクトルｖの（−５０，０）を映像情報レンダリング部１７に出力する。映像情報レンダリング部１７は、移動ベクトルｖを操作情報として取り込む（ステップＳ１０５）。

映像情報レンダリング部１７は、記憶部１２の利用者情報テーブル１２２の「移動スケール」の項目から移動スケールαとして「１」を読み出す。映像情報レンダリング部１７は、操作情報検出部１４が出力する移動ベクトルｖの（−５０，０）と、読み出した移動スケールαの「１」とにしたがって、切り出した注視対象物映像情報の中心位置を移動させ、移動後の注視対象物映像情報を第１の重畳映像情報とする。

上記の例では、注視対象物映像情報の中心位置の座標が、ｍ_ｃ＝（１９２０，１０００）であり、移動スケールαは「１」であるため、移動ベクトルｖの値をそのまま適用して、ｘ軸方向に「−５０」ｐｉｘｅｌ移動させることにより、移動後の注視対象物映像情報の中心位置の座標は、（１８７０，１０００）となる。

図１２（ａ）は、映像情報取得部１６が配信サーバ装置４０から受信したリアルタイム映像情報によって表示される映像の例を示した図である。例えば、図１２（ａ）に示すように、映像情報レンダリング部１７が、選択領域１７０を設定し、選択領域１７０に含まれるリアルタイム映像情報から注視対象物映像情報１７１として切り出す。

図１２（ｂ）は、利用者表示装置３０の表示部３２の画面に表示される映像の例を示した図である。図１２（ｂ）に示すように、映像情報レンダリング部１７は、移動ベクトルｖと、移動スケールαにしたがって、切り出した注視対象物映像情報１７１の中心位置を移動させて、第１の重畳映像情報１７２とする（ステップＳ１０６）。

映像情報レンダリング部１７は、選択領域１７０において、注視対象物映像情報１７１に含まれる対象物を移動させた後の背景を写した映像を撮影したカメラ５０−１〜５０−３をカメラリスト情報に基づいて検出する。映像情報レンダリング部１７は、利用者情報テーブル１２２から利用者座標Ｍ_ｕにおける利用者２０の回転行列Ｒ_ｕ及び並進ベクトルｔ_ｕと、利用者座標Ｍ_ｕの原点の位置情報とを読み出す。

例えば、上記の例では、リアルタイム映像情報を撮像したカメラは、カメラ５０−２である。そのため、映像情報レンダリング部１７は、残りのカメラ５０−１、カメラ５０−３の各々のカメラ座標Ｍ_ｃ１，Ｍ_ｃ３における回転行列Ｒ_ｃ１，Ｒ_ｃ３と、並進ベクトルｔ_ｃ１，ｔ_ｃ３と、カメラ座標Ｍ_ｃ１，Ｍ_ｃ３の各々の原点の位置情報（−１００，１００，−１００）、（１００，１００，−１００）と、読み出した利用者座標Ｍ_ｕにおける利用者２０の回転行列Ｒ_ｕ及び並進ベクトルｔ_ｕと、利用者座標Ｍ_ｕの原点の位置情報とに基づいて、背景を写した映像を撮影しているいずれか一方のカメラ５０−１、カメラ５０−３を検出する。

なお、映像情報レンダリング部１７による背景を写した映像を撮影したカメラを選択する手法は、残りのカメラ５０−１，５０−２と、利用者２０との位置関係に基づいて選択したり、カメラ５０−１，５０−２の光軸の方向と、利用者２０の視線の方向に基づいて選択したりするといった様々な手法がある。これらの手法として、例えば、特願２０１７−０２０５８３、特願２０１７−０２０５８４の出願において開示されている手法等がある。

ここでは、映像情報レンダリング部１７は、背景を写した映像を撮影したカメラとしてカメラ５０−１を検出したとする。映像情報レンダリング部１７は、検出したカメラ５０−１に対応するカメラ識別情報「１」と、映像情報取得部１６から受けた利用者識別情報とを含む追加配信要求情報を通信ネットワーク６０を介して配信サーバ装置４０の映像情報配信処理部４３に送信する。

映像情報配信処理部４３は、追加配信要求情報を受信すると、追加配信要求情報に含まれているカメラ識別情報を読み出し、読み出したカメラ識別情報に対応する最新の映像情報をカメラリストテーブル４２１から読み出す。映像情報配信処理部４３は、読み出した映像情報を通信ネットワーク６０を介して映像情報レンダリング部１７に送信する。

映像情報レンダリング部１７は、当該追加配信要求情報を受けて映像情報配信処理部４３が送信するカメラ５０−１が撮影した最新の映像情報を受信する。最新の映像情報の時刻は、リアルタイム映像情報の時刻に一致している場合もあるが、一致していない場合もあるため、映像情報レンダリング部１７は、受信した最新の映像情報の時刻を、第１の重畳映像情報の時刻、すなわちリアルタイム映像情報の時刻に一致させる。

映像情報レンダリング部１７は、カメラリスト情報から、カメラ座標Ｍ_ｃ１におけるカメラ５０−１の回転行列Ｒ_ｃ１及び並進ベクトルｔ_ｃ１と、カメラ座標Ｍ_ｃ１の原点の位置情報とを読み出す。

映像情報レンダリング部１７は、時刻を一致させた後のカメラ５０−１が撮影した映像情報と、読み出した回転行列Ｒ_ｃ１及び並進ベクトルｔ_ｃ１と、カメラ座標Ｍ_ｃ１の原点の位置情報と、利用者座標Ｍ_ｕにおける利用者２０の回転行列Ｒ_ｕ及び並進ベクトルｔ_ｕと、利用者座標Ｍ_ｕの原点の位置情報とに基づいて、選択領域１７０内の背景を写した映像の映像情報として第２の重畳映像情報を生成する（ステップＳ１０７）。

例えば、映像情報レンダリング部１７は、第２の重畳映像情報として、図１２（ｂ）に示すように、注視対象物映像情報１７１に含まれる注視対象物の選手が移動した後に見えるサッカーボールの映像を含んだ第２の重畳映像情報１７３を生成する。

映像情報レンダリング部１７は、第１の重畳映像情報１７２に当該第１の重畳映像情報１７２の中心位置を示す情報、すなわち（１８７０，１０００）を付与し、第２の重畳映像情報１７３に、当該第２の重畳映像情報１７２の中心位置を示す情報、すなわち（１９２０，１０００）を付与する。映像情報レンダリング部１７は、中心位置の情報を付与した第１の重畳映像情報１７２と、第２の重畳映像情報１７３とを映像情報出力部１８に出力する。

映像情報出力部１８は、映像情報レンダリング部１７が出力する第１及び第２の重畳映像情報と、第１及び第２の重畳映像情報の各々の中心位置を示す情報とを取り込み、取り込んだ情報を無線通信部２０を介して利用者表示装置３０に送信する。

利用者表示装置３０の映像情報表示処理部３１は、第１及び第２の重畳映像情報と、第１及び第２の重畳映像情報の各々の中心位置を示す情報とを受信する。映像情報表示処理部３１は、受信した第１及び第２の重畳映像情報と、第１及び第２の重畳映像情報の各々の中心位置を示す情報とを表示部３２に出力する。

表示部３２は、第１及び第２の重畳映像情報の各々の中心位置を示す情報に応じた画面の位置に、リアルタイム映像情報に重ねて第１及び第２の重畳映像情報を表示する（ステップＳ１０８）。これにより、例えば、表示部３２の画面には、図１２（ｂ）に示すような映像が表示されることになる。

モード切替部１５が、利用者表示装置３０から終了モード通知を受信しない間（ステップＳ１０９、Ｎｏ）、ステップＳ１０８の処理が継続する。利用者２０が、利用者表示装置３０の操作部３６の終了モードボタン部３６−２のボタンを押下すると、終了モードボタン部３６−２は、ボタンが押下されたことを示す情報を情報送信部３５に出力する。

情報送信部３５は、終了モードボタン部３６−２が出力するボタンが押下されたことを示す情報を受けて、無線通信により終了モード通知をモード切替部１５に送信する。モード切替部１５は、終了モード通知を受信すると、記憶部１２の利用者情報テーブル１２２の「モード種別」の項目に終了モード種別を示す情報、例えば、「終了」を書き込む。モード切替部１５は、終了モード種別を示す情報と、利用者情報テーブル１２２が記憶する利用者識別情報とを含む情報を映像情報取得部１６に出力する。映像情報取得部１６は、モード切替部１５から終了モード種別を示す情報と、利用者識別情報を含む情報を受けた場合、当該情報に含まれる利用者識別情報を含む終了命令情報を生成して通信ネットワーク６０を介して配信サーバ装置４０に送信する。

配信サーバ装置４０の映像情報配信処理部４３は、映像操作装置１０から終了命令情報を受信した場合、送信先が映像操作装置１０であって終了命令情報に含まれる利用者識別情報に対応する映像情報、すなわち映像操作装置１０の映像情報取得部１６及び映像情報レンダリング部１７への映像情報の送信を停止する（ステップＳ１０９、Ｙｅｓ）。これにより、第１及び第２の重畳映像情報が画面から消えるため、利用者表示装置３０の表示部３２の画面には、配信サーバ装置４０から直接受信しているリアルタイム映像情報のみが表示されることになる。

（第２の実施形態）
図１３は、第２の実施形態の映像表示システム１ａの構成を示すブロック図である。第２の実施形態では、利用される状況として、例えば、競技場においてサッカーの試合を見ている映像表示システム１ａの利用者２０が、試合の途中で、当該試合の序盤において、ある選手が決めたゴールのシーンをもう一度見たくなった状況を想定している。この状況において、利用者２０が、映像表示システム１ａを利用することにより、過去に起きた当該シーンをもう一度視聴することができるようになる。

第２の実施形態において、第１の実施形態と同一の構成については、同一の符号を付し、以下、異なる構成について説明する。映像表示システム１ａは、例えば、ビデオシースルー型のＡＲのシステムであり、映像操作装置１０ａと、眼球センサ２１と、顔センサユニット２２と、位置姿勢センサ２３と、利用者表示装置３０ａと、配信サーバ装置４０ａと、カメラ５０−１，５０−２，５０−３と、通信ネットワーク６０とを備える。第２の実施形態において、カメラ５０−１，５０−２，５０−３の台数は、３台に限られず、１台以上であればよい。

（映像操作装置の構成）
映像操作装置１０ａは、記憶部１２ａ、選択位置検出部１３、操作情報検出部１４、モード切替部１５ａ、映像情報取得部１６ａ、映像情報レンダリング部１７ａ、映像情報出力部１８、位置姿勢情報更新部１９、及び無線通信部２０を備える。

映像操作装置１０ａにおいて、記憶部１２ａは、図１４に示す利用者情報テーブル１２２ａを記憶する。利用者情報テーブル１２２ａは、「利用者識別情報」、「モード種別」、「時間変化スケール」、「操作可能映像範囲時間長」、「位置・姿勢」、「位置情報」の項目を有する。「利用者識別情報」の項目には、利用者表示装置３０ａに予め割り当てられている利用者識別情報が予め書き込まれる。

「モード種別」の項目には、モード切替部１５ａによってモード種別を示す情報が書き込まれる。図１４は、モード種別を示す情報として、時間操作モード種別を示す「時間操作」が書き込まれている例を示している。

「時間変化スケール」の項目には、操作情報検出部１４が出力する移動ベクトルｖに基づいて示される映像情報の時間の長さを補正する時間変化スケールが秒単位で予め書き込まれる。時間変化スケールの値が、「１」の場合、１秒を表す。図１４は、時間変化スケールとして「０．１」が書き込まれている例を示している。なお、以下の説明において、時間変化スケールを、時間変化スケールγともいう。

「操作可能映像範囲時間長」の項目には、配信サーバ装置４０ａに対して要求する過去の映像情報の時間長を示す情報が秒単位で予め書き込まれる。図１４は、操作可能映像範囲時間長を示す情報として、予め定められる３０秒を示す「３０」が書き込まれている例を示している。なお、３０秒という値は一例であり、操作可能映像範囲時間長は、１秒以上であればどのような値であってもよい。なお、以下の説明において、任意の秒数の操作可能映像範囲時間長を、変数「Ｎ」を用いて、操作可能映像範囲Ｎ、または、単にＮ秒ともいう。

モード切替部１５ａは、利用者表示装置３０ａが利用者２０の操作を受けて送信する時間操作モード通知を無線通信部２０を介して受信し、受信した際に時間操作モード種別を示す情報を利用者情報テーブル１２２ａの「モード種別」の項目に書き込んで記憶させる。また、モード切替部１５ａは、利用者表示装置３０ａが利用者２０の操作を受けて送信する終了モード通知を無線通信部２０を介して受信し、受信した際に終了モード種別を示す情報を利用者情報テーブル１２２ａの「モード種別」の項目に書き込んで記憶させる。

また、モード切替部１５ａは、時間操作モード通知を受信した場合、時間操作モード通知に含まれている時刻情報を読み出す。また、モード切替部１５ａは、時間操作モード種別を示す情報と、読み出した時刻情報と、利用者情報テーブル１２２ａが記憶する利用者識別情報とを含む情報を映像情報取得部１６ａに出力する。

また、モード切替部１５ａは、終了モード通知を受信した場合、終了モード種別を示す情報と、利用者情報テーブル１２２ａが記憶する利用者識別情報とを含む情報を映像情報取得部１６ａに出力する。

映像情報取得部１６ａは、通信ネットワーク６０を介して配信サーバ装置４０ａに接続する。また、映像情報取得部１６ａは、モード切替部１５ａから時間操作モード種別を示す情報と、時刻情報と、利用者識別情報とを受けた場合、時間操作モードにおいて必要となる、操作可能映像範囲Ｎを利用者情報テーブル１２２ａの「操作可能映像範囲時間長」の項目から読み出す。

また、映像情報取得部１６ａは、モード切替部１５ａから受けた時刻情報及び利用者識別情報と、読み出した操作可能映像範囲Ｎとを含む配信要求情報を生成して配信サーバ装置４０ａに送信する。なお、配信要求情報が含む時刻情報は、配信映像の終了時刻を示しており、配信要求情報により配信サーバ装置４０ａが送信する映像情報は、配信映像の終了時刻からＮ秒前を開始時刻とし、当該終了時刻までのＮ秒間の映像情報である。以下、配信サーバ装置４０ａに対して配信を要求する映像の終了時刻を、配信映像の終了時刻情報ｅ＿Ｔｉｍｅ_ｕともいう。

また、映像情報取得部１６ａは、配信要求情報を受信した配信サーバ装置４０ａが送信する映像情報と、当該映像情報に対応するカメラ情報と、利用者識別情報とを受信する。ここで、カメラ情報とは、映像情報取得部１６ａが受信する映像情報を撮影したカメラ５０−１〜５０−３に対応する、カメラリストテーブル４２１の「カメラ識別情報」、「位置・姿勢」、「位置情報」の項目の内容を含んだ情報である。

また、映像情報取得部１６ａは、受信した利用者識別情報が、利用者情報テーブル１２２ａの「利用者識別情報」の項目の情報に一致する場合、受信した映像情報と、カメラ情報とを取り込む。また、映像情報取得部１６ａは、取り込んだ映像情報と、カメラ情報とに対して利用者情報テーブル１２２ａが記憶するモード種別を示す情報を付与して映像情報レンダリング部１７ａに出力する。

なお、映像情報取得部１６ａが配信サーバ装置４０ａから受信する映像情報は、上述したように、配信映像の終了時刻情報ｅ＿Ｔｉｍｅ_ｕよりＮ秒前から配信映像の終了時刻情報ｅ＿Ｔｉｍｅ_ｕまでのＮ秒の長さの映像情報である。第２の実施形態では、配信映像の終了時刻情報ｅ＿Ｔｉｍｅ_ｕとして、利用者２０が、利用者表示装置３０ａにおいて指定する時刻は、過去の時刻である。そのため、以下、説明の便宜のため、第２の実施形態において、映像情報取得部１６ａが配信サーバ装置４０ａから受信するＮ秒の長さの映像情報を、以下、過去映像情報という。

また、映像情報取得部１６ａは、モード切替部１５ａから終了モード種別を示す情報と、利用者識別情報を含む情報を受けた場合、当該情報に含まれる利用者識別情報を含む終了命令情報を配信サーバ装置４０ａに送信する。

映像情報レンダリング部１７ａは、選択位置検出部１３が出力する選択位置情報を用いて、選択領域を設定し、設定した選択領域に対して表示する過去映像情報の開始時刻を、操作情報検出部１４が出力する操作位置情報に基づいて変更する操作を行う。

映像情報レンダリング部１７ａは、選択位置検出部１３が出力する選択位置情報である３次元位置座標情報と、操作情報検出部１４が出力する操作情報である移動ベクトルｖを取り込む。また、映像情報レンダリング部１７ａは、映像情報取得部１６ａが出力する過去映像情報と、カメラ情報と、モード種別を示す情報とを取り込む。また、映像情報レンダリング部１７ａは、記憶部１２ａが記憶する利用者情報テーブル１２２ａの「時間変化スケール」の項目から時間変化スケールγの値を読み出す。

また、映像情報レンダリング部１７ａは、取り込んだモード種別を示す情報が時間操作モード種別を示す場合、取り込んだ過去映像情報から、カメラ情報と、３次元位置座標情報とに基づいて定める選択領域の映像情報を切り出す。また、映像情報レンダリング部１７ａは、移動ベクトルｖ及び時間変化スケールγにしたがって、切り出した過去映像情報の再生開始時刻を算出する。

また、映像情報レンダリング部１７ａは、算出した再生開始時刻から最後まで、すなわち配信映像の終了時刻情報ｅ＿Ｔｉｍｅ_ｕまでを再生範囲とし、切り出した過去映像情報から当該再生範囲を選択して第３の重畳映像情報とする。また、映像情報レンダリング部１７ａは、第３の重畳映像情報に対して、第３の重畳映像情報の中心位置を示す情報を付与して映像情報出力部１８に出力する。

（利用者表示装置の構成）
利用者表示装置３０ａは、例えば、ＡＲの視聴デバイスであり、図１５に示すように、映像情報表示処理部３１、表示部３２、記憶部３３、計時部３４、情報送信部３５ａ、及び操作部３６ａを備える。利用者表示装置３０ａにおいて、操作部３６ａは、時間操作モードボタン部３６−３と、時刻指定部３６−４と、終了モードボタン部３６−２とを備える。時間操作モードボタン部３６−３は、利用者２０によって操作を受けるボタンを備えており、当該ボタンが押下された場合、当該ボタンが押下されたことを示す情報を情報送信部３５ａに出力する。時刻指定部３６−４は、利用者２０の時刻情報の指定操作を受けて、配信映像の終了時刻情報ｅ＿Ｔｉｍｅ_ｕとなる時刻情報を情報送信部３５ａに出力する。

情報送信部３５ａは、時間操作モードボタン部３６−３からボタンが押下されたことを示す情報を受けた場合、時刻指定部３６−４が時刻情報を出力するまで待機する。また、情報送信部３５ａは、時刻指定部３６−４が時刻情報を出力した場合、出力した時刻情報を取り込み、取り込んだ時刻情報を含む時間操作モード通知を生成する。また、情報送信部３５ａは、生成した時間操作モード通知を映像操作装置１０ａのモード切替部１５ａに送信する。また、情報送信部３５ａは、終了モードボタン部３６−２からボタンが押下されたことを示す情報を受けた場合、終了モード通知を映像操作装置１０ａのモード切替部１５ａに送信する。

（配信サーバ装置の構成）
配信サーバ装置４０ａは、図１６に示す内部構成を有しており、映像情報取込部４１、映像情報記憶部４２、映像情報配信処理部４３ａ、記憶部４４、及び情報更新部４５を備える。

配信サーバ装置４０ａにおいて、映像情報配信処理部４３ａは、通信ネットワーク６０に接続されており、通信ネットワーク６０を介して接続する利用者表示装置３０ａから利用者識別情報と、時刻情報と含むリアルタイム映像配信要求情報を受信する。また、映像情報配信処理部４３ａは、第１の実施形態の映像情報配信処理部４３ａと同一の手順により、利用者２０の位置に最も近いいずれか１つのカメラ５０−１〜５０−３が撮影したリアルタイム映像情報を利用者表示装置３０ａに送信する。

また、映像情報配信処理部４３ａは、通信ネットワーク６０を介して接続する映像操作装置１０ａの映像情報取得部１６ａから配信要求情報を受信する。また、映像情報配信処理部４３ａは、配信要求情報に含まれる利用者識別情報と、利用者リストテーブル４４１と、カメラリストテーブル４２１とに基づいて、利用者表示装置３０の位置に最も近いいずれか１つのカメラ５０−１〜５０−３のレコードをカメラリストテーブル４２１から検出する。また、映像情報配信処理部４３ａは、検出したカメラ５０−１〜５０−３に対応するカメラリストテーブル４２１の「カメラ識別情報」、「位置・姿勢」、「位置情報」の項目が記憶する情報を含むカメラ情報を生成する。

また、映像情報配信処理部４３ａは、配信要求情報に含まれる配信映像情報の終了時刻情報ｅ＿Ｔｉｍｅ_ｕと、操作可能映像範囲Ｎとを読み出し、検出したレコードの「映像情報」の項目から配信映像情報の終了時刻情報ｅ＿Ｔｉｍｅ_ｕのＮ秒前から、配信映像情報の終了時刻情報ｅ＿Ｔｉｍｅ_ｕまでの映像情報を読み出す。また、映像情報配信処理部４３ａは、読み出した映像情報と、生成したカメラ情報と、配信要求情報に含まれる利用者識別情報とを映像情報取得部１６ａに送信する。

また、映像情報配信処理部４３ａは、利用者識別情報、及び送信先の装置に関連付けて送信している映像情報を管理しており、映像操作装置１０ａから終了命令情報を受信した場合、終了命令情報に含まれる利用者識別情報に対応する送信中の映像情報を検出する。また、映像情報配信処理部４３ａは、検出した利用者識別情報に対応する送信中の映像情報のうち、終了命令情報の送信元の映像操作装置１０ａの映像情報取得部１６に対する映像情報の送信を停止する。

（第２の実施形態の映像操作装置の処理）
図１７は、第２の実施形態の映像操作装置１０ａによる処理の流れを示すフローチャートである。以下の処理の前提として、利用者表示装置３０ａの記憶部３３が記憶する利用者識別情報は、「１」であるとし、映像操作装置１０ａの記憶部１２ａが記憶する利用者情報テーブル１２２ａの「利用者識別情報」の項目にも「１」が記憶され、「位置・姿勢」及び「位置情報」の項目は、位置姿勢情報更新部１９によって順次更新されている。

また、配信サーバ装置４０ａの記憶部４４が記憶する利用者リストテーブル４４１の「利用者識別情報」の項目にも「１」が記憶され、「位置・姿勢」及び「位置情報」の項目は、情報更新部４５によって順次更新されている。また、カメラリストテーブル４２１は、図８に示す例の情報を記憶しており、図９に示した利用者リストテーブル４４１の例の通り、世界座標Ｍ_ｗと、利用者座標Ｍ_ｕとが一致しているものとして説明する。

図１７に示す処理が開始される前に、利用者表示装置３０ａと配信サーバ装置４０ａとが通信ネットワーク６０を介して接続し、利用者表示装置３０ａが配信サーバ装置４０ａからリアルタイム映像情報の受信を開始しているものとする。すなわち、利用者表示装置３０ａは、配信サーバ装置４０ａに対してリアルタイム映像配信要求情報を送信し、配信サーバ装置４０ａは、利用者２０の位置に最も近いカメラ５０−１〜５０−３が撮影したリアルタイム映像情報を通信ネットワーク６０を介して利用者表示装置３０ａに送信する。

ここでは、図１４の利用者情報テーブル１２２ａ及び図９の利用者リストテーブル４４１に示す例の通り、利用者２０の位置は「（０，０，０）」であり、図８のカメラリストテーブル４２１に示す例の通りであり、カメラ５０−２が利用者２０の最も近くに存在することになる。

利用者表示装置３０ａの映像情報表示処理部３１は、配信サーバ装置４０ａが送信するカメラ５０−２が撮影したリアルタイム映像情報を受信して表示部３２に出力し、表示部３２が画面にリアルタイム映像情報に基づく映像を表示する。利用者２０は、利用者表示装置３０ａの画面に表示される映像を視聴している。なお、表示部３２の画面の座標は、左上が原点であり、右方向の水平軸が、ｘ軸の正方向、下方向の垂直軸が、ｙ軸の正方向となる。

利用者２０は、画面に表示される映像、例えば、試合の映像を視聴しながら、当該試合において既に発生した出来事をもう一度みたくなり、当該出来事が発生した場所を注視して、利用者表示装置３０ａの操作部３６ａの時間操作モードボタン部３６−３のボタンを押下する。時間操作モードボタン部３６−３は、ボタンが押下されたことを示す情報を情報送信部３５ａに出力する。

情報送信部３５ａは、操作部３６ａの時刻指定部３６−４が時刻情報を出力するのを待機する。利用者２０は、操作部３６ａの時刻指定部３６−４を操作して時刻の指定を行う。例えば、指定を行う際の計時部３４の時刻が「１１時３０分１０秒」である場合、当該時刻より前の時刻の指定が可能であり、ここでは、利用者は、「１１時３０分００秒」を指定する操作をしたとする。時刻指定部３６−４は、利用者２０の指定操作を受けて「１１時３０分００秒」の時刻情報を情報送信部３５ａに出力する。

情報送信部３５ａは、時刻指定部３６−４が時刻情報を出力すると、時刻指定部３６−４が出力する時刻情報を取り込み、取り込んだ時刻情報を含む時間操作モード通知を生成する。情報送信部３５ａは、生成した時間操作モード通知を映像操作装置１０ａのモード切替部１５ａに対して送信する。モード切替部１５ａは、無線通信部２０を介して時間操作モード通知を受信する（ステップＳ２０１）。

モード切替部１５ａは、時間操作モード通知を受信すると、記憶部１２ａが記憶する利用者情報テーブル１２２ａの「モード種別」の項目に、時間操作モード種別を示す情報、例えば、「時間操作」を書き込む。

モード切替部１５ａは、受信した時間操作モード通知に含まれている時刻情報を読み出し、読み出した時刻情報と、時間操作モード種別を示す情報と、利用者情報テーブル１２２の「利用者識別情報」の項目が記憶する利用者識別情報「１」とを映像情報取得部１６ａに送信する。

映像情報取得部１６ａは、モード切替部１５ａから時刻情報と、時間操作モード種別を示す情報と、利用者識別情報とを含む情報を受信する。映像情報取得部１６ａは、受信した情報に時間操作モード種別を示す情報が含まれていることを検出すると、時間操作モードにおいて必要となる記憶部１２ａの利用者情報テーブル１２２ａの「操作可能映像範囲時間長」の項目に記憶されている操作可能映像範囲Ｎの情報を読み出す（ステップＳ２０２）。ここでは、映像情報取得部１６ａは、図１４に示した利用者情報テーブル１２２ａの例の通り、３０秒を示す「３０」を読み出す。

映像情報取得部１６ａは、読み出した操作可能映像範囲Ｎと、時刻情報と、利用者識別情報とを含む配信要求情報を生成する。映像情報取得部１６ａは、生成した配信要求情報を通信ネットワーク６０を介して配信サーバ装置４０ａに送信する（ステップＳ２０３）。

配信サーバ装置４０ａの映像情報配信処理部４３ａは、映像情報取得部１６ａが送信した配信要求情報を受信し、受信した配信要求情報に含まれる利用者識別情報を読み出す。映像情報配信処理部４３ａは、記憶部４４の利用者リストテーブル４４１を参照し、読み出した利用者識別情報に対応するレコードの「位置情報」の項目を読み出す。ここでは、利用者識別情報は「１」であるため、映像情報配信処理部４３ａは、利用者リストテーブル４４１を参照し、図９に示す例の通り「位置情報」として「（０，０，０）」を読み出す。

映像情報配信処理部４３ａは、映像情報記憶部４２が記憶するカメラリストテーブル４２１の「位置情報」の項目を参照し、読み出した位置情報「（０，０，０）」に最も近い「（０，１００，−１００）」を検出する。位置情報が「（０，１００，−１００）」のレコードは、カメラ識別情報が「２」であり、「映像情報」の項目の「映像情報２」というファイル名称の映像情報は、カメラ５０−２が撮影した映像情報である。

映像情報配信処理部４３ａは、検出したカメラ５０−２に対応するカメラリストテーブル４２１の「カメラ識別情報」、「位置・姿勢」、「位置情報」の項目が記憶する情報を含むカメラ情報を生成する。

映像情報配信処理部４３ａは、配信要求情報に含まれる配信映像情報の終了時刻情報ｅ＿Ｔｉｍｅ_ｕが示す時刻、すなわち「１１時３０分００秒」と、操作可能映像範囲Ｎ、すなわち「３０」とを読み出す。映像情報配信処理部４３ａは、読み出した配信映像情報の終了時刻情報ｅ＿Ｔｉｍｅ_ｕの時刻と、操作可能映像範囲Ｎとに基づいて、終了時刻情報ｅ＿Ｔｉｍｅ_ｕの時刻のＮ秒前から終了時刻情報ｅ＿Ｔｉｍｅ_ｕまでのカメラ５０−２が撮影した過去映像情報を読み出す。すなわち、過去映像情報は、「１１時２９分３０秒」から「１１時３０分００秒」までの３０秒の映像情報となる。

映像情報配信処理部４３ａは、読み出した過去映像情報と、生成したカメラ情報と、配信要求情報に含まれる利用者識別情報とを通信ネットワーク６０を介して映像情報取得部１６ａに送信する。映像情報取得部１６ａは、通信ネットワーク６０を介して過去映像情報と、カメラ情報と、利用者識別情報とを含む情報を受信する。

映像情報取得部１６ａは、受信した情報に含まれる利用者識別情報が、利用者情報テーブル１２２ａの「利用者識別情報」の項目の情報に一致する場合、受信した過去映像情報と、カメラ情報と、利用者識別情報とを取り込む。ここでは、映像情報取得部１６ａが受信した利用者識別情報が「１」であり、利用者情報テーブル１２２ａの「利用者識別情報」の項目が記憶する「１」と一致するため、映像情報取得部１６ａは、過去映像情報と、カメラ情報と、利用者識別情報とを取り込む（ステップＳ２０４）。

映像情報取得部１６ａは、取り込んだ過去映像情報と、カメラ情報とに対して、利用者情報テーブル１２２ａが記憶するモード種別を示す情報、すなわち「時間操作」を付与して映像情報レンダリング部１７ａに出力する。映像情報レンダリング部１７ａは、映像情報取得部１６ａが出力する過去映像情報と、カメラ情報と、モード種別を示す情報とを取り込む。

映像情報レンダリング部１７ａは、選択位置検出部１３が出力する、利用者２０が注視している場所の位置を示す３次元位置座標情報Ｐ＝（Ｘ１，Ｙ１，Ｚ１）を取り込む。映像情報レンダリング部１７ａは、取り込んだ過去映像情報と、カメラ情報と、モード種別を示す情報と、３次元位置座標情報Ｐとに基づいて、第１の実施形態の映像情報レンダリング部１７のステップＳ１０４の処理と、同一の処理を行うことにより、当該過去映像情報を対象とした選択領域を設定する（ステップＳ２０５）。

なお、上記式（１）において必要となるＲ_ｗｃとｔ_ｗｃは、映像情報レンダリング部１７ａが、取り込んだカメラ情報に基づいて算出する。映像情報レンダリング部１７ａが取り込んだカメラ情報には、カメラ５０−２に対応する情報が含まれている。そのため、映像情報レンダリング部１７ａは、カメラ情報に含まれるカメラ座標Ｍ_ｃ２におけるカメラ５０−２の回転行列Ｒ_ｃ２と、並進ベクトルｔ_ｃ２とを世界座標Ｍ_ｗに変換して世界座標Ｍ_ｗにおける回転行列Ｒ_ｗｃ２と、並進ベクトルｔ_ｗｃ２を算出して式（１）に適用する。

ステップＳ２０５の処理結果として、第１の実施形態と同様に、第２の実施形態においても、映像情報レンダリング部１７ａは、選択領域として（１９２０，１０００，１００，１００）を設定したとする。

映像情報レンダリング部１７ａは、第１の実施形態のステップＳ１０５と、同一の処理を経て、第１の実施形態の映像情報レンダリング部１７と同様に、操作情報検出部１４が出力する移動ベクトルｖを操作情報として取り込む（ステップＳ２０６）。

映像情報レンダリング部１７ａは、設定した選択領域に基づいて、過去映像情報から座標ｍ_ｃ＝（１９２０，１０００）を中心として、幅ｗ＝１００、高さｈ＝１００の部分過去映像情報を切り出す。映像情報レンダリング部１７ａは、記憶部１２ａの利用者情報テーブル１２２ａの「時間変化スケール」の項目に記憶されている時間変化スケールγの「０．１」を読み出す。

映像情報レンダリング部１７ａは、移動ベクトルｖ（−５０，０）の量である「５０」に対して、時間変化スケールγの「０．１」を乗算して、「５」の値を算出する。映像情報レンダリング部１７ａは、部分過去映像情報の終了時刻である「１１時３０分００秒」の５秒前である「１１時２９分５５秒」から「１１時３０分００秒」までを再生範囲とし、部分過去映像情報から当該再生範囲を選択し、選択した部分過去映像情報の一部を第３の重畳映像情報として生成する（ステップＳ２０７）。

映像情報レンダリング部１７ａは、第３の重畳映像情報に当該第３の重畳映像情報の中心位置を示す情報、すなわち（１９２０，１０００）を付与して映像情報出力部１８に出力する。映像情報出力部１８は、映像情報レンダリング部１７ａが出力する第３の重畳映像情報と、第３の重畳映像情報の中心位置を示す情報とを取り込み、取り込んだ情報を無線通信部２０を介して利用者表示装置３０ａに送信する。

利用者表示装置３０ａの映像情報表示処理部３１は、第３の重畳映像情報と、第３の重畳映像情報の中心位置を示す情報とを受信する。映像情報表示処理部３１は、受信した第３の重畳映像情報と、第３の重畳映像情報の中心位置を示す情報とを表示部３２に出力する。表示部３２は、第３の重畳映像情報の各々の中心位置を示す情報に応じた画面の位置に、リアルタイム映像情報に重ねて第３の重畳映像情報を表示する（ステップＳ２０８）。

モード切替部１５ａが、利用者表示装置３０から終了モード通知を受信しない間（ステップＳ２０９、Ｎｏ）であって、第３の重畳映像情報が終了していない間（ステップＳ２１０、Ｎｏ）、ステップＳ２０８の処理が継続する。第３の重畳映像情報の表示が終了すると（ステップＳ２１０、Ｙｅｓ）、利用者表示装置３０の表示部３２の画面には、配信サーバ装置４０から直接受信しているリアルタイム映像情報のみが表示されることになる。

また、利用者２０が、利用者表示装置３０ａの操作部３６の終了モードボタン部３６−２のボタンを押下すると、終了モードボタン部３６−２は、ボタンが押下されたことを示す情報を情報送信部３５ａに出力する。

情報送信部３５ａは、終了モードボタン部３６−２が出力するボタンが押下されたことを示す情報を受けて、無線通信により終了モード通知をモード切替部１５ａに送信し、配信サーバ装置４０ａは、第１の実施形態と同様に、終了命令情報を受信して、映像操作装置１０ａの映像情報取得部１６ａへの映像情報の送信を停止する（ステップＳ２０９、Ｙｅｓ）。これにより、第３の重畳映像情報が画面から消えるため、利用者表示装置３０ａの表示部３２の画面には、配信サーバ装置４０ａから直接受信しているリアルタイム映像情報のみが表示されることになる。

なお、上記の第２の実施形態において、映像操作装置１０ａの記憶部１２ａの利用者情報テーブル１２２ａの「位置・姿勢」の項目、及び配信サーバ装置４０ａの記憶部４４の利用者リストテーブル４４１の「位置・姿勢」の項目が、利用者座標系Ｍ_ｕにおける利用者２０の回転行列Ｒ_ｕと並進ベクトルｔ_ｕとを記憶するようにしている。また、映像操作装置１０ａの記憶部１２ａの利用者情報テーブル１２２ａの「位置情報」の項目が、利用者座標Ｍ_ｕの世界座標Ｍ_ｗにおける原点の位置を記憶するようにしている。しかしながら、第２の実施形態では、これらの項目が記憶する情報を参照しないため、これらの項目を有さない構成であってもよい。

上記の第１及び第２の実施形態の構成により、映像操作装置１０，１０ａにおいて、映像情報取得部１６，１６ａは、実空間をカメラ５０−１〜５０−３によって撮影することにより得られる映像情報を取得する。選択位置検出部１３は、利用者表示装置３０，３０ａの表示部３２の画面において利用者２０が選択する位置を示す選択位置情報を利用者２０の視線に基づいて検出する。操作情報検出部１４は、視線を動かす以外の利用者２０が行う動作に基づいて、映像情報に対して行う操作を示す操作情報を検出する。映像情報レンダリング部１７，１７ａは、選択位置情報に基づいて操作の対象である選択領域を設定し、映像情報取得部１６，１６ａが取得する映像情報から選択領域に含まれる映像情報を切り出し、切り出した映像情報に対して操作情報に基づく操作を行うことにより重畳映像情報を生成する。映像情報出力部１８は、重畳映像情報を出力して利用者表示装置３０，３０ａの表示部３２の画面に表示させる。これにより、利用者２０が、画面における操作対象の映像を含む領域を選択する選択工程と、選択した領域に対して操作を行う操作工程とを分けることが可能となる。

選択工程では、３次元空間内で利用者２０が見ているどの対象物やどの場所を操作対象にするかを特定する必要がある。選択位置検出部１３は、上記の参考文献に示されている技術に基づいて、利用者２０の左右の眼球の視線方向と、輻輳角θとに基づいて３次元空間内のどの位置を注視しているのかを検出し、検出した位置を選択位置情報として出力する。映像情報レンダリング部１７，１７ａは、選択位置情報に基づいて、対象物や場所を含むと推定される選択領域を設定する。

操作工程では、選択領域の映像に対して行う位置や時間を変化させる操作における変化の方向と、変化の量を与える。このとき、利用者２０が、視線を変える等して、視聴体験を妨げないように変化の方向と、変化の量を得る必要がある。そのため、操作情報検出部１４は、視線を動かすことなく、利用者２０が自由に動かすことができる体の一部を用いた動作に基づいて、変化の方向と、変化の量を検出する。上記の第１及び第２の実施形態では、操作情報検出部１４は、周囲の人が見ても目立たない、利用者２０の口腔内における舌の動きに基づいて、変化の方向と、変化の量を検出する。なお、視線を動かす以外の利用者２０の動作であればどのような動作であってもよく、例えば、利用者２０の手指や足の動きによって変化の方向と、変化の量を検出するようにしてもよい。

したがって、上記の第１及び第２の実施形態の構成により、サッカー場等の広い空間で行われるスポーツをＡＲを用いて観戦する際、視線と舌という頭部における自然な操作で、注視している選手等の対象物を見失ったり、操作によって視聴体験を妨げたりすることなく、対象物や場所を選択して操作することが可能となる。すなわち、実空間、または実空間を撮影した映像を見ている利用者２０が、容易に操作対象を選択することができ、かつ、抵抗感なく操作対象を写した映像を操作することが可能となる。

なお、上記の第１及び第２の実施形態において、映像情報レンダリング部１７，１７ａが出力する第１、第２、及び第３の重畳映像情報の解像度と、利用者表示装置３０，３０ａの表示部３２の画面解像度とが一致している場合、映像情報出力部１８は、第１、第２、及び第３の重畳映像情報を表示部３２の正しい位置に表示させることができる。

これに対して、第１、第２、及び第３の重畳映像情報の解像度と、利用者表示装置３０，３０ａの表示部３２の画面解像度とが、一致していない場合、予め定められる解像度補正係数βを用いて、第１、第２、及び第３の重畳映像情報の補正を行う。第１、第２、及び第３の重畳映像情報の横方向の解像度が「３８４０」であり、縦方向の解像度が「２１６０」であるとする。一方、利用者表示装置３０，３０ａの表示部３２の横方向の解像度が「１９２０」であり、縦方向の解像度が「１０８０」であるとする。この場合、解像度補正係数β＝１９２０／３８４０＝０．５となる。

第１の重畳映像情報の大きさは、幅が「１００」であり、高さが「１００」であり、中心位置は、（１８７０，１０００）である。また、第２及び第３の重畳映像情報の大きさは、幅が「１００」であり、高さが「１００」であり、中心位置は、（１９２０，１０００）である。映像情報出力部１８が、第１、第２、及び第３の重畳映像情報に対して、解像度補正係数β＝０．５を適用することにより、第１、第２、及び第３の重畳映像情報の幅は「５０」となり、高さも「５０」となる。また、第１の重畳映像情報の中心位置は、（９３５，５００）となり、第２及び第３の重畳映像情報（９６０，５００）となる。

映像情報出力部１８は、サイズが縮小された第１、第２、及び第３の重畳映像情報と、変更された中心位置を示す（９３５，５００），（９６０，５００）とを無線通信部２０を介して利用者表示装置３０，３０ａに送信する。

利用者表示装置３０，３０ａの映像情報表示処理部３１は、第１、第２、及び第３の重畳映像情報と、第１、第２、及び第３の重畳映像情報の各々の中心位置を示す情報とを受信する。利用者表示装置３０，３０ａの表示部３２の画面には、既に、映像情報表示処理部３１が配信サーバ装置４０，４０ａから受信して、画面の解像度に一致させたリアルタイム映像情報の映像が表示されている。

映像情報表示処理部３１は、映像情報出力部１８から受信した第１、第２、及び第３の重畳映像情報を、第１、第２、及び第３の重畳映像情報の各々の中心位置を示す情報に基づいて表示部３２に出力し、表示部３２が表示するリアルタイム映像情報に重ねて表示させる。これにより、表示部３２の画面解像度と一致するため、第１、第２、及び第３の重畳映像情報は、画面の正しい位置に正しい大きさで表示されることになる。

また、上記の第１の実施形態は、移動操作モード、または終了モードを選択する構成であり、第２の実施形態は、時間操作モード、または終了モードを選択する構成であるが、第１及び第２の実施形態を組み合わせて、移動操作モード、時間操作モード、または終了モードを選択する構成にしてもよい。この場合、映像操作装置１０，１０ａを組み合わせるため、モード切替部１５，１５ａが組み合わされた構成、映像情報取得部１６，１６ａが組み合わされた構成、映像情報レンダリング部１７，１７ａが組み合わされた構成には、移動操作モード、時間操作モード、または終了モードを判定する構成が追加されることになる。

また、上記の第１及び第２の実施形態において、映像情報レンダリング部１７，１７ａが設定する選択領域の形状を矩形形状であるとし、矩形形状の幅ｗ＝１００、高さｈ＝１００としているが、本発明の構成は、当該実施の形態に限られない。幅や高さの大きさは任意に変更することができ、また、選択領域の形状として、映像に含まれる対象物を検出する物体検出手法等を適用して、矩形形状以外の任意の形状を適用するようにしてもよい。

また、上記の第１及び第２の実施形態では、利用者表示装置３０，３０ａは、配信サーバ装置４０，４０ａからリアルタイム映像情報を受信して表示部３２の画面に表示する、いわゆるビデオシースルー型の視聴デバイスになっているが、本発明の構成は、当該実施の形態に限られない。表示部３２の画面が透過する画面であり、利用者２０が画面を通して実空間を見るようなシースルーグラス型の視聴デバイスあってもよい。この場合、利用者表示装置３０，３０ａの映像情報表示処理部３１は、配信サーバ装置４０，４０ａからリアルタイム映像情報を受信しない構成となる。なお、上記の第１及び第２の実施形態では、利用者２０は、映像情報の映像を視聴、すなわち見たり聞いたりするとしているが、音を含まない映像を見ているだけであってもよい。

また、上記の第１及び第２の実施形態において、図８に示したカメラリストテーブル４２１の「位置・姿勢」の項目には、カメラ座標Ｍ_ｃ１，Ｍ_ｃ２，Ｍ_ｃ３における各カメラ５０−１〜５０−３の回転行列Ｒ_ｃ１，Ｒ_ｃ２，Ｒ_ｃ３と、並進ベクトルｔ_ｃ１，ｔ_ｃ２，ｔ_ｃ３が書き込まれるとしているが、本発明の構成は、当該実施の形態に限られない、世界座標Ｍ_ｗにおける各カメラ５０−１，５０−２，５０−３の回転行列Ｒ_ｗｃ１，Ｒ_ｗｃ２，Ｒ_ｗｃ３と、並進ベクトルｔ_ｗｃ１，ｔ_ｗｃ２，ｔ_ｗｃ３が書き込まれてもよく、その場合、「位置情報」の項目を含めなくてもよい。この場合、式（１）に対して適用する際、映像情報レンダリング部１７，１７ａは、カメラ座標Ｍ_ｃ１，Ｍ_ｃ２，Ｍ_ｃ３から世界座標Ｍ_ｗへの変換を行う必要がない。

同様に、図４及び図１４に示した利用者情報テーブル１２２，１２２ａ、並びに図９に示した利用者リストテーブル４４１の「位置・姿勢」の項目には、利用者座標Ｍ_ｕにおける利用者座標Ｍ_ｕにおける利用者２０の回転行列Ｒ_ｕと、並進ベクトルｔ_ｕが書き込まれるとしているが、本発明の構成は、当該実施の形態に限られない、世界座標Ｍ_ｗにおける利用者２０の回転行列Ｒ_ｗｕと、並進ベクトルｔ_ｕが書き込まれてもよく、その場合、「位置情報」の項目を含めなくてもよい。

また、上記の第１及び第２の実施形態では、世界座標Ｍ_ｗと、利用者座標Ｍ_ｕの原点が一致している例について説明しているが、世界座標Ｍ_ｗの原点と、利用者座標Ｍ_ｕの原点が一致していない場合、映像情報レンダリング部１７，１７ａは、世界座標Ｍ_ｗの原点と、利用者座標Ｍ_ｕの原点との距離を考慮して演算を行うことになる。

また、上記の第１及び第２の実施形態において、映像操作装置１０，１０ａは、通信ネットワーク６０を介して配信サーバ装置４０，４０ａに接続する構成になっているが、本発明の構成は、当該実施の形態に限られない。配信サーバ装置４０，４０ａが、映像操作装置１０，１０ａを内部に備えて一体となっている構成であってもよい。

また、上記の第１及び第２の実施形態において、カメラ５０−１〜５０−３が、内部に計時手段を備えて、映像情報のフレームごとに時刻情報を付与する構成としているが、本発明の構成は、当該実施の形態に限られない。例えば、配信サーバ装置４０，４０ａの内部に計時手段を備え、映像情報取込部４１が、計時手段から取得した時刻情報を映像情報のフレームごとに付与するようにしてもよい。

また、上記の第１及び第２の実施形態において、眼球センサ２１、及び位置姿勢センサ２３は、利用者表示装置３０の内部に備えられる構成としているが、利用者表示装置３０の外部に備えられていてもよい。

また、上記の第１及び第２の実施形態において、眼球センサ２１、顔センサユニット２２、及び位置姿勢センサ２３は、無線通信により映像操作装置１０，１０ａに接続する構成としているが、本発明の構成は、当該実施の形態に限られない。例えば、眼球センサ２１、顔センサユニット２２、または位置姿勢センサ２３のいずれか、または、全てが、有線接続により映像操作装置１０，１０ａに接続され、映像操作装置１０，１０ａの一部の構成になっていてもよい。

また、上記の第１及び第２の実施形態において、利用者表示装置３０，３０ａは、無線通信により、映像操作装置１０，１０ａに接続する構成としているが、有線接続により映像操作装置１０，１０ａに接続されていてもよい。
また、上記の第１及び第２の実施形態において、利用者表示装置３０，３０ａ、眼球センサ２１、顔センサユニット２２、及び位置姿勢センサ２３の全てが、有線接続により映像操作装置１０，１０ａに接続され、映像操作装置１０，１０ａの一部の構成になっていてもよい。

また、上記の第１及び第２の実施形態において、顔センサ２２０−Ａ，２２０−Ｂ，２２０−Ｃ，２２０−Ｄの各々の位置を示す座標として、利用者２０の顔において、口角を結ぶ直線を水平軸、すなわちｘ軸とし、口角の中間を原点座標としたｘｙ座標を適用する例を示したが、当該ｘｙ座標は一例であり、原点の位置や、ｘ軸の方向を任意に定めるようにしてもよい。

また、上記の第１及び第２の実施形態において、顔センサユニット２２は、４個の顔センサ２２０−Ａ，２２０−Ｂ，２２０−Ｃ，２２０−Ｄを備えるとしているが、４個以上備えるようにしてもよい。

また、上記の第１及び第２の実施形態において、操作部３６，３６ａの移動操作モードボタン部３６−１、終了モードボタン部３６−２、時間操作モードボタン部３６−３、及び時刻指定部３６−４は、利用者表示装置３０，３０ａの内部に備えられるとしているが、本発明の構成は、当該実施の形態に限られない。移動操作モードボタン部３６−１、終了モードボタン部３６−２、時間操作モードボタン部３６−３、及び時刻指定部３６−４が、利用者表示装置３０，３０ａの外部に備えられ、有線接続、または、無線接続により利用者表示装置３０，３０ａに接続するようにしてもよい。

なお、上記の第１の実施形態の図１０に示した映像操作装置１０による処理において、ステップＳ１０４と、ステップＳ１０５の順番は入れ替わってもよく、また、ステップＳ１０６と、ステップＳ１０７の順番は入れ替わってもよい。また、第２の実施形態の図１７に示した映像操作装置１０ａによる処理において、ステップＳ２０５と、ステップＳ２０６の順番は入れ替わってもよい。

上述した第１及び第２の実施形態における映像操作装置１０，１０ａをコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ（Field Programmable Gate Array）等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１…映像表示システム，１０…映像操作装置，１１…計時部，１２…記憶部，１３…選択位置検出部，１４…操作情報検出部，１５…モード切替部，１６…映像情報取得部，１７…映像情報レンダリング部，１８…映像情報出力部，１９…位置姿勢情報更新部，２０…無線通信部，２１…眼球センサ，２２…顔センサユニット，２３…位置姿勢センサ，３０…利用者表示装置，４０…配信サーバ装置，５０−１〜５０−３…カメラ，６０…通信ネットワーク

Claims

実空間を撮影装置によって撮影することにより得られる映像情報を取得する映像情報取得部と、
画面において利用者が選択する位置を示す選択位置情報を前記利用者の視線に基づいて検出する選択位置検出部と、
前記視線を動かす以外の前記利用者が行う動作に基づいて、前記映像情報に対して行う操作を示す操作情報を検出する操作情報検出部と、
前記選択位置情報に基づいて前記操作の対象である選択領域を設定し、前記映像情報取得部が取得する前記映像情報から前記選択領域に含まれる前記映像情報を切り出し、切り出した前記映像情報に対して前記操作情報に基づく操作を行うことにより重畳映像情報を生成する映像情報レンダリング部と、
前記重畳映像情報を出力して前記画面に表示させる映像情報出力部と、
を備え、
前記実空間は、複数の前記撮影装置によって撮影されており、
前記操作情報による操作は、前記選択領域に含まれる前記映像情報の位置を変更する操作であり、
前記映像情報取得部は、
前記利用者の位置に最も近い前記撮影装置が撮影した前記映像情報を取得し、
前記映像情報レンダリング部は、
前記操作情報にしたがって前記切り出した映像情報の位置を変更し、位置を変更した後の前記切り出した映像情報を第１の前記重畳映像情報とし、
前記切り出した映像情報を撮影した前記撮影装置以外の前記撮影装置の中から、前記切り出した映像情報の映像に写っている物によって隠されている背景を撮影した前記撮影装置を選択し、選択した前記撮影装置が撮影した前記映像情報に基づいて、前記選択領域の前記背景の映像情報を第２の前記重畳映像情報として生成し、
前記映像情報出力部は、
第１及び第２の前記重畳映像情報を出力して前記画面に表示させる映像操作装置。
実空間を撮影装置によって撮影することにより得られる映像情報を取得する映像情報取得部と、
画面において利用者が選択する位置を示す選択位置情報を前記利用者の視線に基づいて検出する選択位置検出部と、
前記視線を動かす以外の前記利用者が行う動作に基づいて、前記映像情報に対して行う操作を示す操作情報を検出する操作情報検出部と、
前記選択位置情報に基づいて前記操作の対象である選択領域を設定し、前記映像情報取得部が取得する前記映像情報から前記選択領域に含まれる前記映像情報を切り出し、切り出した前記映像情報に対して前記操作情報に基づく操作を行うことにより重畳映像情報を生成する映像情報レンダリング部と、
前記重畳映像情報を出力して前記画面に表示させる映像情報出力部と、
を備え、
前記操作情報による操作は、前記選択領域に含まれる前記映像情報の再生範囲を定める操作であり、
前記映像情報取得部は、
前記利用者によって指定される再生範囲の終了時刻以前の過去の前記映像情報を取得し、
前記映像情報レンダリング部は、
前記選択領域に含まれる前記過去の映像情報を切り出して部分過去映像情報とし、前記操作情報に基づいて前記再生範囲の開始時刻を算出し、前記開始時刻と前記終了時刻により定められる前記再生範囲の前記部分過去映像情報を第３の前記重畳映像情報として生成し、
前記映像情報出力部は、
第３の前記重畳映像情報を出力して前記画面に表示させる映像操作装置。
前記利用者は、透過する前記画面を介して前記実空間を見ているか、または、前記実空間を前記撮影装置によって撮影することにより得られる前記映像情報の映像が表示される前記画面を見ており、
前記映像情報出力部は、
前記利用者が、前記透過する画面を介して前記実空間を見ている場合、前記重畳映像情報を前記画面に表示させ、前記利用者が、前記実空間を前記撮影装置によって撮影することにより得られる前記映像情報の映像が表示される前記画面を見ている場合、前記画面に表示される前記映像情報に重ねて前記重畳映像情報を表示させる、請求項１又は２に記載の映像操作装置。
前記操作情報検出部は、
前記視線を動かす以外の前記利用者が行う動作である前記利用者の口腔内における舌の動きに基づいて、前記操作情報を検出する、請求項１から３のいずれか一項に記載の映像操作装置。
実空間を撮影装置によって撮影することにより得られる映像情報を取得し、
画面において利用者が選択する位置を示す選択位置情報を前記利用者の視線に基づいて検出し、
前記視線を動かす以外の前記利用者が行う動作に基づいて、前記映像情報に対して行う操作を示す操作情報を検出し、
前記選択位置情報に基づいて前記操作の対象である選択領域を設定し、取得した前記映像情報から前記選択領域に含まれる前記映像情報を切り出し、切り出した前記映像情報に対して前記操作情報に基づく操作を行うことにより重畳映像情報を生成し、
生成した前記重畳映像情報を出力して前記画面に表示し、
前記実空間は、複数の前記撮影装置によって撮影されており、
前記操作情報による操作は、前記選択領域に含まれる前記映像情報の位置を変更する操作であり、
前記利用者の位置に最も近い前記撮影装置が撮影した前記映像情報を取得し、
前記操作情報にしたがって前記切り出した映像情報の位置を変更し、位置を変更した後の前記切り出した映像情報を第１の前記重畳映像情報とし、
前記切り出した映像情報を撮影した前記撮影装置以外の前記撮影装置の中から、前記切り出した映像情報の映像に写っている物によって隠されている背景を撮影した前記撮影装置を選択し、選択した前記撮影装置が撮影した前記映像情報に基づいて、前記選択領域の前記背景の映像情報を第２の前記重畳映像情報として生成し、
第１及び第２の前記重畳映像情報を出力して前記画面に表示する映像操作方法。
実空間を撮影装置によって撮影することにより得られる映像情報を取得し、
画面において利用者が選択する位置を示す選択位置情報を前記利用者の視線に基づいて検出し、
前記視線を動かす以外の前記利用者が行う動作に基づいて、前記映像情報に対して行う操作を示す操作情報を検出し、
前記選択位置情報に基づいて前記操作の対象である選択領域を設定し、取得した前記映像情報から前記選択領域に含まれる前記映像情報を切り出し、切り出した前記映像情報に対して前記操作情報に基づく操作を行うことにより重畳映像情報を生成し、
生成した前記重畳映像情報を出力して前記画面に表示し、
前記操作情報による操作は、前記選択領域に含まれる前記映像情報の再生範囲を定める操作であり、
前記利用者によって指定される再生範囲の終了時刻以前の過去の前記映像情報を取得し、
前記選択領域に含まれる前記過去の映像情報を切り出して部分過去映像情報とし、前記操作情報に基づいて前記再生範囲の開始時刻を算出し、前記開始時刻と前記終了時刻により定められる前記再生範囲の前記部分過去映像情報を第３の前記重畳映像情報として生成し、
第３の前記重畳映像情報を出力して前記画面に表示する映像操作方法。
請求項１から４のいずれか一項に記載の映像操作装置としてコンピュータを実行させるための映像操作プログラム。