JP6392738B2

JP6392738B2 - 情報取得装置、情報取得方法及び情報取得プログラム

Info

Publication number: JP6392738B2
Application number: JP2015235178A
Authority: JP
Inventors: 康輔高橋; 弾三上; 麻理子五十川; 明小島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-12-01
Filing date: 2015-12-01
Publication date: 2018-09-19
Anticipated expiration: 2035-12-01
Also published as: JP2017103613A

Description

本発明は、複数のカメラからの画像データを処理する情報取得装置、情報取得方法及び情報取得プログラムに関する。

近年、周囲３６０度を含む全天の画像である全天球画像を撮影できるカメラ（以下、全天球カメラという。）およびその全天球画像の視聴において利用者が向いた方向を視聴することができるヘッドマウントディスプレイ（ＨＭＤ）が普及し始めている。そして、ネットワークを介して全天球画像を配信するサービスが注目を集めている。上記のような全天球画像は、ＨＭＤで視聴することで高い臨場感を得ることができ、スポーツやアーティストのライブ等のコンテンツの視聴における利用が期待されている。

一般に、これらの全天球画像は、所望の視点に全天球カメラを設置することで撮影することができる。しかしながら、競技中のサッカーコートの中やバスケットコートの中は、全天球カメラを設置しようとすると競技者の邪魔となるため、全天球カメラを設置することができない。しかし、競技中のサッカーコートの中やバスケットコートの中に立っているかのような映像を視聴してみたいという要望がある。そこで、通常では全天球カメラを設置することのできない場所に仮想的な視点である仮想視点を設定して、仮想視点を含む領域を撮影する複数のカメラを設置し、それらのカメラからの画像を合成することにより、この仮想視点において全天球カメラで撮影したかのような全天球画像を得る技術が考案されている（例えば、非特許文献１）。以下の説明において、仮想視点における全天球画像を、仮想全天球画像という。

仮想全天球画像を複数のカメラからの画像の合成によって得る画像処理システムの具体例について説明する。図１５は、従来の仮想全天球画像を得るための画像処理システムを示す図である。図１５に示すように、画像処理システム１は、全天球カメラ２と、Ｎ台の複数のカメラ３−１、３−２、３−３、…、３−Ｎ（以下、カメラ群３とする。）と、画像処理装置４と、表示装置５とを備える。画像処理システム１は、フットサルのコート１０内に仮想視点１１を設定した場合に、コート１０の周囲に設置したカメラ群３からの画像の合成によって仮想視点１１における仮想全天球画像を得る。

全天球カメラ２は、全天球画像を撮影するカメラである。全天球カメラ２は、試合が行われる前のタイミングでコート１０内の仮想視点１１の位置に設置される。全天球カメラ２は、予め、仮想視点１１の位置から仮想全天球画像の背景となる背景画像２０を撮影する。全天球カメラ２で撮影された背景画像２０は、画像処理装置４に入力されて蓄積される。

コート１０の周囲には、カメラ群３が設置されている。図１５においてＮは４以上の自然数である。カメラ群３は、各カメラがそれぞれ仮想視点１１を含む画角となるようにコート１０の周囲に設置されている。画像処理装置４は、背景画像２０に対して合成するためカメラ群３の各カメラが出力する入力画像に対して画像処理を行う。画像処理装置４は、全天球カメラ２より取得した背景画像２０に画像処理後の入力画像を合成して仮想全天球画像を生成する。表示装置５は、画像処理装置４で生成した仮想全天球画像を表示する装置であり、液晶ディスプレイ等である。

画像処理システム１における画像処理の具体例を説明する。図１６は、画像処理システム１における画像処理される画像の具体例を示す図である。図１６（Ａ）は、仮想視点１１の位置に設置された全天球カメラ２で撮影された背景画像２０の例を示す図である。仮想視点１１を中心とする３６０度の画像となっている。背景画像２０は、競技開始前に撮影される画像であるのでコート１０内に競技を行う選手等は映っていない。

図１６（Ｂ）は、左からカメラ３−１で撮影した入力画像２１と、カメラ３−２で撮影した入力画像２２と、カメラ３−３で撮影した入力画像２３とを示している。画像処理装置４は、入力画像２１〜２３のそれぞれから仮想視点１１を含み、かつ、フットサルの選手を含む領域２１１、２２１、２３１を切り出す。画像処理装置４は、切り出した領域２１１、２２１、２３１の画像に対して、画像処理を行うことで背景画像２０に貼り付け可能な部分画像２１１ａ、２２１ａ、２３１ａを生成する。

画像処理装置４は、背景画像２０に対して部分画像２１１ａ、２２１ａ、２３１ａを合成することで、仮想全天球画像２４を生成する。図１６（Ｃ）は、画像処理装置４が生成する仮想全天球画像２４の例を示す図である。図１６（Ｃ）に示すように、仮想全天球画像２４は、所定の領域に部分画像２１１ａ、２２１ａ、２３１ａを貼り付けているので、コート１０上で競技を行っているフットサルの選手が映っている画像である。

従来の画像処理システム１は、合成に用いているカメラ群３の光学中心および仮想視点１１において想定する仮想全天球カメラの光学中心はそれぞれ異なる。このため、合成された仮想全天球画像２４は幾何学的に正しくない画像を含む。これを防ぐためには、画像処理装置４は、部分画像２１１ａ、２２１ａ、２３１ａを、仮想視点１１からの距離を示す奥行きの一点で整合性が保たれるよう画像処理を行い背景画像２０に貼り付ける必要がある。しかしながら、整合性が保たれる奥行きに存在せずに別の奥行に存在している物体（例えば、競技中の選手）の部分画像を貼り付ける場合には、画像処理により奥行きの整合性を保つことができない。このような奥行に整合性のない物体は、仮想全天球画像２４において、その画像が分身（多重像）したり、消失したりする現象が発生する。

以下に、図面を用いて仮想全天球画像２４において、物体の画像が分身したり、消失したりする現象について説明する。図１７は、画像処理システム１における課題を説明するための図である。図１７において、撮影範囲４１は、カメラ３−１の撮影範囲の一部であって図１６（Ｂ）に示した領域２１１の撮影範囲を示す。撮影範囲４２は、カメラ３−２の撮影範囲の一部であって図１６（Ｂ）に示した領域２２１の撮影範囲を示す。撮影範囲４３は、カメラ３−３の撮影範囲の一部であって図１６（Ｂ）に示した領域２３１の撮影範囲を示す。すなわち、撮影範囲４１〜４３は、入力画像から切り出す切り出し領域に対応する撮影範囲を示している。また、仮想視点１１からの距離（奥行）が異なる３つの被写体（選手）４９〜５１が存在する。

図１７において破線で示している仮想視点１１からの第１の距離を示す奥行４６は、各撮影範囲４１〜４３が、重なりなく並んでいる。このような奥行４６に位置する被写体４９は、その画像が分身したり消失したりすることがなく、奥行に整合性のある被写体４９である。仮想視点１１からの第２の距離を示す奥行４７は、各撮影範囲４１〜４３が、横線部分４４に示すように重なっている。このような奥行４７に位置する被写体５０は、その画像が分身してしまうので、奥行に整合性のない被写体５０となる。仮想視点１１からの第３の距離を示す奥行４８は、各撮影範囲４１〜４３の間が斜線部分４５に示すように空いている。このような奥行４８に位置する被写体５１は、その画像の一部が消失してしまうので、奥行に整合性のない被写体５１となる。

このような被写体の画像が分身したり、消失したりする問題は、上述した仮想全天球画像２４を生成する場合に限られるものではない。例えば、カメラ３−１及びカメラ３−２からの２つの入力画像を合成して、仮想視点１１から被写体５０を撮影したかのような仮想視点画像を生成する場合にも生じる問題である。

高橋康輔、外３名、「複数カメラ映像を用いた仮想全天球映像合成に関する検討」、信学技報、2015年06月01日、vol.115, no.76、MVE2015-5、p.43-48

仮想全天球画像等の仮想視点画像において被写体が存在する領域は、視聴者が注視する領域である可能性が高く、その注視する領域において被写体の分身や消失が発生すると、仮想全天球画像等の仮想視点画像の画質が低下するという問題がある。

上記事情に鑑み、本発明は、設定した奥行に応じて複数の入力画像を合成して仮想視点からの仮想視点画像を生成する画像処理において、仮想視点画像の画質の低下を抑制する奥行を設定することができる情報取得装置、情報取得方法及び情報取得プログラムを提供することを目的としている。

本発明の一態様は、所定の位置を含む領域が撮影範囲となるように前記所定の位置を含む領域の周囲に設置された複数の撮像装置が撮影した画像を複数の入力画像として、前記所定の位置を仮想的な視点である仮想視点として前記仮想視点に対して設定された奥行に基づいて複数の前記入力画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置であって、各前記入力画像から被写体であるオブジェクトを検出する検出部と、前記検出部が検出した前記オブジェクトの中から複数の主オブジェクトを特定するオブジェクト特定部と、複数の前記主オブジェクトに対応する前記撮像装置の撮像面又は前記撮像装置の撮像面の一部の領域に対して、複数の前記主オブジェクトと前記仮想視点との距離に基づいて設定する複数の前記奥行を取得する奥行取得部と、を備える情報取得装置である。

本発明の一態様は、所定の位置を含む領域が撮影範囲となるように前記所定の位置を含む領域の周囲に設置された複数の撮像装置が撮影した画像を複数の入力画像として、前記所定の位置を仮想的な視点である仮想視点として前記仮想視点に対して設定された奥行に基づいて複数の前記入力画像に基づく画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置であって、各前記入力画像から被写体であるオブジェクトを検出する検出部と、前記検出部が検出した前記オブジェクトの中から複数の主オブジェクトを特定するオブジェクト特定部と、複数の前記主オブジェクトに対応する前記入力画像又は前記入力画像の一部の領域に対して、複数の前記主オブジェクトと前記仮想視点との距離に基づいて設定する複数の前記奥行を取得する奥行取得部と、を備える情報取得装置である。

本発明の一態様は、前記の情報取得装置であって、全ての前記主オブジェクトの近傍を通る奥行線を求めて、前記撮像装置の撮像面又は前記撮像装置の撮像面の一部の領域に対して、又は、前記入力画像又は前記入力画像の一部の領域に対して、前記奥行線と前記仮想視点との距離に基づいて複数の奥行を設定する奥行補間部をさらに備える。

本発明の一態様は、前記の情報取得装置であって、前記撮像装置は、複数の前記主オブジェクトに対応する複数の第１の撮像装置と、複数の前記主オブジェクトに対応しない複数の第２の撮像装置とを含み、かつ、前記奥行取得部が、各前記第１の撮像装置に対して異なる前記奥行を設定した場合、又は、前記撮像装置の撮像面の一部の領域は、複数の前記主オブジェクトに対応する前記撮像装置の撮像面の一部である複数の第１の領域と、複数の前記主オブジェクトに対応しない前記撮像装置の撮像面の一部である複数の第２の領域とを含み、かつ、前記奥行取得部が、各前記第１の領域に対して異なる前記奥行を設定した場合に、前記仮想視点を囲むように全ての前記主オブジェクトの近傍を通る奥行線を求めて、前記奥行線に基づいて前記第２の撮像装置又は前記第２の領域に対して奥行を設定する奥行補間部をさらに備える。

本発明の一態様は、前記の情報取得装置であって、前記画像合成処理は、前記奥行取得部又は前記奥行補間部が設定した前記奥行に基づいて前記入力画像において切り出す領域である切り出し領域を特定して、前記入力画像から特定した領域の画像を切り出す切出処理部と、前記奥行取得部又は前記奥行補間部が設定した前記奥行に基づいて、前記切出処理部が切り出した画像を前記仮想視点画像として合成するための変形処理を行い部分画像を生成し、生成した部分画像を合成する画像合成部とを備える画像処理装置を用いて行う。

本発明の一態様は、前記の情報取得装置であって、前記奥行補間部は、前記仮想視点を囲むように全ての前記主オブジェクトの位置を通る高次曲線を前記奥行線として求める。

本発明の一態様は、前記の情報取得装置であって、前記奥行補間部は、前記仮想視点を囲むように全ての前記主オブジェクトの位置を通る折れ線を前記奥行線として求める。

本発明の一態様は、前記の情報取得装置であって、前記奥行補間部は、全ての前記主オブジェクトの位置近傍を通り、かつ、仮想視点１１を囲む曲線又は折れ線を前記奥行線として求める。

本発明の一態様は、前記の情報取得装置であって、前記仮想視点画像は、広角画像又は全天球画像である。

本発明の一態様は、所定の位置を含む領域が撮影範囲となるように前記所定の位置を含む領域の周囲に設置された複数の撮像装置が撮影した画像を複数の入力画像として、前記所定の位置を仮想的な視点である仮想視点として前記仮想視点に対して設定された奥行に基づいて複数の前記入力画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置を用いた情報取得方法であって、各前記入力画像から被写体であるオブジェクトを検出する検出ステップと、前記検出ステップにおいて検出した前記オブジェクトの中から複数の主オブジェクトを特定するオブジェクト特定ステップと、複数の前記主オブジェクトに対応する前記撮像装置の撮像面又は前記撮像装置の撮像面の一部の領域に対して、複数の前記主オブジェクトと前記仮想視点との距離に基づいて設定する複数の前記奥行を取得する奥行取得ステップと、を有する情報取得方法である。

本発明の一態様は、所定の位置を含む領域が撮影範囲となるように前記所定の位置を含む領域の周囲に設置された複数の撮像装置が撮影した画像を複数の入力画像として、前記所定の位置を仮想的な視点である仮想視点として前記仮想視点に対して設定された奥行に基づいて複数の前記入力画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置で実行される情報取得プログラムであって、各前記入力画像から被写体であるオブジェクトを検出する検出ステップと、前記検出ステップにおいて検出した前記オブジェクトの中から複数の主オブジェクトを特定するオブジェクト特定ステップと、複数の前記主オブジェクトに対応する前記撮像装置の撮像面又は前記撮像装置の撮像面の一部の領域に対して、複数の前記主オブジェクトと前記仮想視点との距離に基づいて設定する複数の前記奥行を取得する奥行取得ステップと、をコンピュータに実行させるための情報取得プログラムである。

本発明により、設定した奥行に応じて複数の入力画像を合成して仮想視点からの仮想視点画像を生成する画像処理において、仮想視点画像の画質の低下を抑制する奥行を設定することができる。

第１の実施形態における画像処理システム及び視聴システムの概略を示す図である。第１の実施形態における画像処理装置３０の構成例を示す図である。第１の実施形態におけるオブジェクト情報格納部３０３に格納するオブジェクト情報の一例を示す図である。第１の実施形態における奥行補間部３９の補間処理の概要を示す図である。隣り合う部分画像間の境界領域において重複が発生する場合の具体例を示す図である。第１の実施形態における画像処理装置３０が１フレームの仮想全天球画像を作成する動作を示すフロー図である。第１の実施形態における画像処理装置３０が動画の仮想全天球画像を作成する動作について説明するフロー図である。複数の主オブジェクトに対応する複数のカメラに異なる奥行を設定して仮想全天球画像を合成する場合に、奥行補間部３９による補間処理を行わなかったときの問題点を説明する図である。第２の実施形態における画像処理システムの構成例を示す図である。第２の実施形態における画像処理装置３０Ａの構成例を示す図である。第２の実施形態における視野情報に基づいて主オブジェクトを特定する第１の方法を示す図である。図１１に示すオブジェクトにおいて奥行取得部３２Ａが中心線６１に最も近い位置に存在するオブジェクトを特定する方法の具体例を示す図である。ＳａｌｉｅｎｃｙＭａｐの具体例を示す図である。第２の実施形態における画像処理装置３０Ａが動画の仮想全天球画像を作成する動作について説明する図である。従来の仮想全天球画像を得るための画像処理システムを示す図である。画像処理システム１における画像処理される画像の具体例を示す図である。画像処理システム１における課題を説明するための図である。

以下、図面を参照して、本発明の実施形態について説明する。
（第１の実施形態）
図１は、第１の実施形態における画像処理システム及び視聴システムの概略を示す図である。図１に示す画像処理システム１Ａにおいて、図１５に示した従来の画像処理システム１と同じ構成には、同一符号を付しており、説明を簡略化する。

図１に示すように、画像処理システム１Ａは、全天球カメラ２と、Ｎ台（Ｎ≧２）の複数のカメラ３−１、３−２、３−３、…、３−Ｎ（以下、カメラ群３とする。）と、画像処理装置３０と、表示装置５とを備える。画像処理システム１Ａは、フットサルのコート１０内に仮想視点１１を設定した場合に、コート１０の周囲に設置したカメラ群３からの画像の合成によって仮想視点１１における仮想全天球画像を得る。

全天球カメラ２は、全天球画像を撮影するカメラである。全天球カメラ２は、競技が行われる前のタイミングでコート１０内の仮想視点１１の位置に設置される。全天球カメラ２は、予め、仮想視点１１の位置から仮想全天球画像の背景となる背景画像２０を撮影する。全天球カメラ２で撮影された背景画像２０は、画像処理装置４に入力されて蓄積される。全天球カメラ２は、競技中も仮想視点１１に設置したままだと競技の支障となるため、競技開始前に仮想視点１１の位置から取り除かれる。

コート１０の周囲には、カメラ群３が設置されている。カメラ群３の各カメラ３−１、３−２、３−３、…、３−Ｎは、背景画像２０に対して合成する部分画像を含む入力画像を動画で撮影するカメラであり、それぞれ仮想視点１１を含む画角となるようにコート１０の周囲を取り囲むように設置されている。カメラ群３によって撮影された動画（映像）は、複数フレームの画像により構成されており、画像処理装置４は、動画（映像）に含まれる処理対象となるフレームの画像を入力画像としている。Ｎは、２以上の整数であり、同程度の画質の仮想全天球画像を得ようとするのであればコート１０が大きいほど大きな値となる。また、コート１０の大きさが同じであれば、Ｎの値が大きい程、合成領域（仮想全天球画像において、背景画像２０にカメラ群３からの画像を合成する領域）の面積が大きくなり、あるいは合成領域の大きさが同じであれば合成領域における画質が向上する。

画像処理装置３０は、カメラ群３の各カメラ３−１、３−２、３−３、…、３−Ｎからの入力画像に対して画像処理を施して、全天球カメラ２より取得した背景画像２０に画像処理後の入力画像を合成する処理を行う。表示装置５は、画像処理装置３０で生成した仮想全天球画像を表示する装置であり、液晶ディスプレイ、ヘッドマウントディスプレイ（ＨＭＤ）等である。

視聴システム９は、画像サーバ６と、ネットワーク７と、複数の視聴装置８とを備える。画像サーバ６は、ネットワーク７を介して画像処理装置３０が生成した仮想全天球画像を配信するサーバである。ネットワーク７は、例えばインターネット等の通信網である。視聴装置８は、ネットワーク７に接続可能なユーザ端末８１と、ユーザ端末８１に接続されたＨＭＤ８２とから構成される装置である。ユーザ端末８１は、ネットワーク７を介して画像サーバ６が配信する仮想全天球画像を受信する機能と、受信した仮想全天球画像をＨＭＤ８２で視聴可能な映像信号に変換してＨＭＤ８２へ出力する機能とを備える。

なお、音声信号を処理する構成については図２に示していないが、画像データと音声データとを含む映像データを取得して配信する公知の技術を用いる構成であればよい。例えば、画像処理装置３０は、コート１０周辺の音声をマイクで集音して得た音声データを取得して、仮想全天球画像の画像データとともに所定の信号形式の映像データに変換して画像サーバ６に送信する。画像サーバ６は、受信した所定の信号形式の映像データを蓄積して、視聴装置８からの要求に応じて蓄積した映像データを配信する。

ＨＭＤ８２は、ユーザ端末８１から映像信号等を受信する受信部と、受信部を介して受信した映像信号を表示する液晶ディスプレイや有機ＥＬディスプレイ等で構成される画面と、視聴者の頭の動きを検出する検出部と、検出部が検出した結果をユーザ端末８１に送信する送信部とを備える。ＨＭＤ８２の画面に表示される映像は、仮想全天球画像に基づいた仮想全天球映像の一部であり視野と呼ぶ。ＨＭＤ８２は、検出部が検出した視聴者の頭の動きに応じて表示する映像の範囲である視野を変更する機能を有する。

頭を上下左右に動かすことに応じて視聴している映像が変化するので、ＨＭＤ８２を頭に装着した視聴者は、仮想視点１１の位置から競技を見ているかのような映像を視聴することができる。このように、ＨＭＤ８２を装着した視聴者は、あたかも仮想視点１１に立って競技を観戦しているかのような臨場感のある映像を視聴することができる。

画像処理システム１Ａにおいて処理される画像は、図１６に示した従来の画像処理システム１で処理される画像と同様であるので、図１６を用いて画像処理システム１Ａの動作について簡単に説明する。全天球カメラ２は、コート１０内の仮想視点１１に設置されて、図１６（Ａ）に示す背景画像２０を競技開始前に撮影する。競技が開始されるとカメラ群３の各カメラが撮影を開始する。例えば、カメラ群３内のカメラ３−１、３−２、３−３は、図１６（Ｂ）に示す入力画像２１〜２３を撮影する。

画像処理装置３０は、撮影された入力画像２１〜２３のそれぞれから仮想視点１１を含み、かつ、競技中の選手を含む領域２１１、２２１、２３１を切り出す。画像処理装置３０は、切り出した領域２１１、２２１、２３１の画像に対して、画像処理を行うことで背景画像２０に貼り付け可能な部分画像２１１ａ、２２１ａ、２３１ａを生成する。画像処理装置３０は、背景画像２０に対して部分画像２１１ａ、２２１ａ、２３１ａを合成することで、図１６（Ｃ）に示すような仮想全天球画像２４を生成する。

なお、視聴システム９は、図１に示す構成に限定されるものではない。視聴システム９は、画像処理装置３０が生成した仮想全天球画像を編集してから画像サーバ６へ出力する編集装置を備える構成等、仮想全天球画像をネットワーク７経由で配信可能な構成であればよい。視聴装置８の構成は、ネットワーク７を介して受信した仮想全天球画像の一部を歪みのない画像として画面に表示する構成であれば、どのような構成であってもよい。

次に、第１の実施形態における画像処理システム１Ａの画像処理装置３０の構成例について説明する。
図２は、第１の実施形態における画像処理装置３０の構成例を示す図である。図２に示すように、画像処理装置３０は、オブジェクト解析部３１と、奥行取得部３２と、合成情報取得部３３と、画像入力部３４と、画像切り出し部３５と、画像合成部３６と、表示処理部３７と、キーボードやマウス等で構成され、奥行に関する情報を入力する入力部３８と、奥行補間部３９と、カメラ群３の各カメラが撮影した入力画像を格納する入力画像格納部３０１と、背景画像２０を格納する背景画像格納部３０２と、オブジェクト情報格納部３０３と、合成情報テーブル３０４とを備える。

オブジェクト解析部３１は、入力画像格納部３０１に格納されている入力画像を入力とし、入力画像中に含まれるオブジェクトを抽出する。ここでオブジェクトとは、背景画像２０に含まれていないが入力画像に含まれている人物、物体（例えばボール）等である。オブジェクト解析部３１は、抽出したオブジェクトに対して当該オブジェクトを識別するための識別子であるＩＤを付与して、ＩＤ及び抽出したオブジェクトに関する情報を含むオブジェクト情報として出力する。

カメラ群３の各カメラで撮影される入力画像は、所定のフレーム周期を有する動画像であり、各フレームには撮影時間が関連付けられている。オブジェクト解析部３１は、入力された入力画像において時間方向に一連のフレームから抽出した同一オブジェクトに対して同じＩＤを付与し、撮影時刻も関連付けてオブジェクト情報として出力する。オブジェクト情報格納部３０３は、オブジェクト解析部３１が出力するオブジェクト情報を入力とし、オブジェクトを抽出する対象とした入力画像のフレーム毎の撮影時刻に関連付けてオブジェクト解析部３１が付与したＩＤを含むオブジェクトに関する情報を格納する。

例えば、オブジェクト解析部３１は、カメラ３−１が撮影した撮影時刻ｔ、ｔ＋１、ｔ＋２、…の一連のフレームである入力画像２１から抽出したオブジェクトには、ＩＤ１の識別子を付与する。同様に、オブジェクト解析部３１は、カメラ３−２が撮影した撮影時刻ｔ、ｔ＋１、ｔ＋２、…の一連のフレームである入力画像２２から抽出したオブジェクトには、ＩＤ２の識別子を付与し、カメラ３−３が撮影した撮影時刻ｔ、ｔ＋１、ｔ＋２、…の一連のフレームである入力画像２３から抽出したオブジェクトには、ＩＤ３の識別子を付与する。なお、オブジェクト解析部３１が、抽出したオブジェクトに付与するＩＤは、オブジェクトを特定するものである。例えば、カメラ３−１及びカメラ３−２が同じオブジェクトを撮影した入力画像を出力している場合は、オブジェクト解析部３１は、カメラ３−１及びカメラ３−２からの２つの入力画像を解析して、１つのＩＤを含む１つのオブジェクト情報を生成する。

オブジェクト解析部３１は、入力画像を解析してオブジェクトを抽出する際に、オブジェクトの属性を示すラベルと、オブジェクトのコート１０上の空間における三次元的な位置情報である三次元位置情報とを取得する。ラベルの具体例としては、人物であることを示す「人」、ボールであることを示す「ボール」、物体Ａであることを示す「物体Ａ」、物体Ｂであることを示す「物体Ｂ」、…等のカメラ群３の撮影範囲を移動する可能性のある物体を識別する情報を用いる。

オブジェクト解析部３１は、オブジェクトを抽出するために入力画像を解析処理することで、オブジェクトが「人」、「ボール」、「物体Ａ」、「物体Ｂ」のいずれに該当するのかを解析・判定して、その判定結果をラベルとして出力する。なお、オブジェクトが「人」、「ボール」、「物体Ａ」、「物体Ｂ」のいずれに該当するのかを解析・判定する手法としては、公知の画像解析技術を用いる。例えば、画像の解析により人を検出する技術を開示する文献として以下の公知文献１がある。
公知文献１：山内悠嗣、外２名、「[サーベイ論文] 統計的学習手法による人検出」、電子情報通信学会技術研究報告、vol.112、no.197、PRMU2012-43、pp.113-126、2012年9月

また、オブジェクト解析部３１は、入力画像内におけるオブジェクトの位置、オブジェクトを撮影したカメラ群３内の複数のカメラの位置及びその複数のカメラの撮影範囲（撮影方向及び画角）等の情報に基づいて、コート１０上の空間におけるオブジェクトの三次元位置を取得する。このオブジェクトの三次元位置を取得する手法としては、図示しない測距センサ（ＴｏＦ（Time of Flight）カメラなど）を用いる手法や、多視点カメラからの画像を利用する手法など公知の技術を用いる。また、カメラ群３で撮影した入力画像を表示装置５に表示させて、表示させた入力画像に基づいて、人が手入力により入力してもよい。また、オブジェクトの位置を特定する情報としては、三次元位置を特定する情報に替えて、コート１０上の位置をコート１０と平行な平面上の２次元座標で表して、その座標に基づいて２次元位置を特定する情報を用いてもよい。この２次元座標は、例えば、仮想視点１１に対応する点を原点とするものである。

オブジェクト情報格納部３０３は、オブジェクト解析部３１が抽出したオブジェクトに関する情報であるオブジェクト情報を、その撮影時刻に関連付けて格納する。オブジェクト情報は、オブジェクトを識別するＩＤと、オブジェクトの属性を示すラベルと、オブジェクトの三次元位置とを含む。

図３は、第１の実施形態におけるオブジェクト情報格納部３０３に格納するオブジェクト情報の一例を示す図である。図３に示すように、入力画像の各フレームの撮影時刻ｔ、ｔ＋１、ｔ＋２、…に関連付けて複数のオブジェクト情報を格納している。撮影時刻ｔにおいては、オブジェクト１のオブジェクト情報として、ＩＤ１、ラベル１、三次元位置情報１が格納され、オブジェクト２のオブジェクト情報として、ＩＤ２、ラベル２、三次元位置情報２が格納されている。撮影時刻ｔ＋１、撮影時刻ｔ＋２においても、同じ情報が格納されている。

奥行取得部３２は、オブジェクト情報格納部３０３に格納されているオブジェクト情報と、入力部３８から入力されるオブジェクト情報とを入力とする。奥行取得部３２は、オブジェクト情報格納部３０３よりオブジェクト情報を読み出して、各撮影時刻において、複数のオブジェクトの中から重要なオブジェクトである主オブジェクトを特定する。奥行取得部３２は、仮想視点１１から特定した主オブジェクトまでの距離を取得し、主オブジェクトに対応するカメラに対して取得した距離を奥行として設定する。重要なオブジェクトとは、例えば、仮想全天球画像の中で視聴者が注視する領域に存在するオブジェクトや、視聴者が注視する特定のオブジェクトなどである。

なお、主オブジェクトとして特定するオブジェクトは１つに限るものではなく、主オブジェクトとして複数のオブジェクトを特定してもよい。主オブジェクトが複数のオブジェクトを含む場合は、奥行取得部３２は、例えば、仮想視点１１から特定した複数の主オブジェクトまでの距離を、各主オブジェクトに対応するカメラに設定する奥行とする。ここで、主オブジェクトに対応するカメラとは、主オブジェクトから仮想視点１１を通過する直線を引いた場合に、その直線に最も近い位置に設置されているカメラ群３内のカメラである。奥行取得部３２は、主オブジェクトに対応するカメラを特定するカメラコードに関連づけて、主オブジェクトに対応するカメラに設定する奥行を出力する。

例えば、特定された主オブジェクトの数が４〜６個である場合、主オブジェクトに対応するカメラも同数程度であり、主オブジェクトに対応するカメラは、カメラ群３の一部である。カメラ群３には、主オブジェクトに対応するカメラ以外の他のカメラ（以下、主オブジェクトに対応していないカメラという。）が含まれる。奥行補間部３９は、主オブジェクトに対応していないカメラに設定する奥行を、主オブジェクトに対応するカメラに設定された奥行を用いて補間して出力する。

奥行補間部３９は、例えば、奥行取得部３２が取得した全ての主オブジェクトの上を通る高次曲線である奥行線を求める。奥行補間部３９は、主オブジェクトに対応していないカメラに対して、各カメラから仮想視点１１を通る直線と、その奥行線との交点を求める。奥行補間部３９は、主オブジェクトに対応していないカメラに対して、求めた交点から仮想視点１１までの距離に基づき、奥行を設定する。

奥行補間部３９は、主オブジェクトに対応していないカメラに対して、各カメラから仮想視点１１を通る直線と、その奥行線との交点を求める。奥行補間部３９は、主オブジェクトに対応していないカメラに対して、求めた交点から仮想視点１１までの距離に基づき、奥行を設定する。

図４は、第１の実施形態における奥行補間部３９の補間処理の概要を示す図である。図４において、オブジェクト５３、５４は、奥行取得部３２が特定した主オブジェクトである。カメラ３−ａは、主オブジェクトであるオブジェクト５３に対応するカメラであり、カメラ群３に含まれるカメラの中で、オブジェクト５３から仮想視点１１を通る直線に最も近い位置に設置されている。カメラ３−ｄは、主オブジェクトであるオブジェクト５４に対応するカメラであり、カメラ群３に含まれるカメラの中で、オブジェクト５４から仮想視点１１を通る直線に最も近い位置に設置されている。

奥行取得部３２は、カメラ３−ａに対して仮想視点１１からオブジェクト５３までの距離Ｄ１に基づいて、例えば、奥行Ｄ１を設定する。奥行取得部３２は、カメラ３−ｄに対して仮想視点１１からオブジェクト５４までの距離Ｄ２に基づいて、例えば、奥行Ｄ２を設定する。カメラ３−ａとカメラ３−ｄとの間には、複数のカメラが設置されているが、それら複数のカメラに含まれるカメラ３−ｂとカメラ３−ｃに対する奥行の設定について説明する。

奥行補間部３９は、仮想視点１１を囲むようにオブジェクト５３、５４を通る高次曲線である奥行線５５を求める。奥行補間部３９は、カメラ３−ｂから仮想視点１１を通る直線と、奥行線５５の交点を求めて、その交点から仮想視点１１までの距離Ｄ３を、カメラ３−ｂに対する奥行として設定する。奥行補間部３９は、カメラ３−ｃから仮想視点１１を通る直線と、奥行線５５の交点を求めて、その交点から仮想視点１１までの距離Ｄ４を、カメラ３−ｃに対する奥行として設定する。

なお、奥行補間部３９において、仮想視点１１を囲むように全ての主オブジェクトの上を通過する高次曲線を奥行線としたが、これに限定されるものではない。例えば、奥行補間部３９は、仮想視点１１を囲むように全ての主オブジェクト上を通過する折れ線を求めて、この折れ線を奥行線としてもよい。また、奥行補間部３９は、全ての主オブジェクトの近傍を通過して、かつ、仮想視点１１を中心とする円を近似する近似曲線又は近似折れ線を求めて、その近似曲線又は近似折れ線を奥行線としてもよい。近似する仮想視点１１を中心とする円としては、例えば、全ての主オブジェクトと仮想視点１１との距離の平均値を半径とする円を用いる。また、全ての主オブジェクトの近傍を通過して、かつ、仮想視点１１を中心とする円を近似する近似曲線又は近似折れ線とは、例えば、全ての主オブジェクト上を通過する高次曲線又は全ての主オブジェクト上を通過する折れ線における凹凸を、近似の対象となる仮想視点１１を中心とする円に近づける処理により得られる。奥行補間部３９は、全ての主オブジェクトの近傍を通る近似曲線として、例えば、全ての主オブジェクト上を通過する折れ線における凹凸をなだらかにしたような曲線を求めてもよい。

以上に説明したとおり、奥行補間部３９は、全ての主オブジェクトの位置に応じて、全ての主オブジェクトの位置近傍を通る奥行線を求めて、奥行線に基づいて主オブジェクトに対応してない各カメラに対して奥行を設定する。

奥行取得部３２は、複数の主オブジェクトの内、同一の視野に収まる主オブジェクトの仮想視点１１までの距離の平均値を求めて、その視野に応じて設定する奥行として取得してもよい。この視野に応じて設定する奥行は、その視野の中心線に対応するカメラに設定される奥行である。視野の中心線に対応するカメラとは、視野の中心線をカメラ群３方向に延長した線に対して最も近い位置に設置されたカメラ群３内のカメラである。視野に応じて設定する奥行を取得した場合は、奥行取得部３２は、視野の中心線に対応するカメラのカメラコードに取得した奥行を対応付けて出力する。

なお、視野に設定する奥行を取得する方法は、上述した同一視野内の主オブジェクトの奥行の平均値を求める方法に限定されるものではない。例えば、視野の中心線から同一視野内の各主オブジェクトまでの距離に重み係数を乗算してから加算平均して、その視野の奥行としてもよい。重み係数は、複数の主オブジェクトにおける、仮想視点１１との位置関係、画面内での大きさ、ラベル及びそれらの組み合わせのいずれかに基づいて決定される。

また、奥行取得部３２は、仮想視点１１から各主オブジェクトまでの距離に基づいて奥行を取得したが、この限りではなく、仮想視点１１から同一視野内の主オブジェクトまでの距離の平均値を奥行として取得してもよい。この場合も、仮想視点１１から同一視野内の主オブジェクトまでの距離に重み係数を乗算してから加算平均して奥行を取得してもよい。重み係数は、複数の主オブジェクトにおける、仮想視点１１との位置関係、画面内での大きさ、ラベル及びそれらの組み合わせのいずれかに基づいて決定される。

奥行取得部３２は、予め各撮影時刻における主オブジェクトを特定しておく。具体的には、仮想全天球画像を作成するコンテンツ作成者が、各撮影時刻において視聴者が注視すると推定される領域又は視聴者が注視すると推定されるオブジェクトを特定する情報を入力部３８から入力する。これにより、奥行取得部３２は、入力された情報に基づいて各撮影時刻における主オブジェクトを特定する。

奥行取得部３２において、主オブジェクトを特定する方法は、上述した方法に限定されるものではなく、色々な方法を用いてよい。例えば、撮影した入力画像における見る人の関心の度合いを示す顕著度を領域別に表したマップであるＳａｌｉｅｎｃｙＭａｐ（サリエンシーマップ）を奥行取得部３２に入力する。奥行取得部３２では、入力されたＳａｌｉｅｎｃｙＭａｐに基づいて視覚的に顕著な領域に存在するオブジェクトを主オブジェクトとして特定しても良い。また、予め被験者に入力画像である動画を視聴させ、各撮影時刻においてどの領域を見ていたかという視聴ログを奥行取得部３２に入力し、入力された視聴ログに基づいて主オブジェクトを特定しても良い。

なお、ＳａｌｉｅｎｃｙＭａｐの求め方は公知の技術であり、例えば、以下の公知文献２に記載の技術を用いても良い。
公知文献２：Laurent Itti, Christof Koch, and Ernst Niebur,”A Model of Saliency-Based Visual Attention for Rapid Scene Analysis”,IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(11):1254-1259 (1998)

合成情報テーブル３０４は、入力画像から仮想視点１１を含む領域を切り出すための切り出し領域に関する情報である切出領域情報と、その切り出し領域に応じて切り出した画像を部分画像に変換するための情報である変換情報とを含む合成情報を格納する。部分画像は、切り出した画像を背景画像２０の対応領域に違和感なく貼り付けるために、切り出した画像に対して上記変換情報に応じて拡大、縮小、回転等の変形処理を行って生成される。この変形処理は、例えば、画像に対してアフィン変換を施すことによって行う。画像に対してアフィン変換を施す場合の変換情報は、例えばアフィン変換行列である。以下、部分領域画像に対して行う変形処理としてアフィン変換を用いる例を示すが、変形処理はアフィン変換に限定される必要はなく、変換情報に応じて拡大、縮小、回転等による画像の変換を行う処理であればどのような処理であってもよい。合成情報テーブル３０４は、カメラ群３において処理対象となる入力画像を撮影したカメラを特定するカメラコードと、仮想視点１１からの奥行と、その奥行に応じたアフィン変換行列である変換情報と、その奥行に応じた切出領域情報とを対応づけて格納するテーブルである。

アフィン変換行列は、以下に示す方法により予め取得して合成情報テーブル３０４に記憶しておく。例えば、仮想視点１１から複数種類の距離（奥行）の位置に格子模様のチェスボードを設置して、仮想視点１１に設置した全天球カメラ２で撮影したチェスボードを含む画像と、カメラ群３で撮影したチェスボードを含む画像とを比較する。そして両画像において、撮影したチェスボードの各格子が対応するように画像を変換するアフィン変換行列を求める。このようにして、チェスボードを設置した奥行に対応したアフィン変換行列を求める。

切出領域情報は、以下に示す方法により予め取得して合成情報テーブル３０４に記憶しておく。例えば、カメラ群３の内の隣接する２つのカメラで撮影された入力画像に同一の被写体（チェスボード）が存在する重複している領域がある場合は、一方の領域のみ残るように双方のカメラの画像に対する切り出し領域を設定する。切り出し領域は、仮想視点１１から被写体（チェスボード）まで複数種類の距離について、カメラ群３に含まれるカメラ毎に求める。なお、双方のカメラの画像において、数画素〜数十画素の幅の重複領域を残すように切り出し領域を設定してもよい。

合成情報取得部３３は、奥行取得部３２又は奥行補間部３９がカメラ群３の各カメラに設定した奥行を入力とし、入力された奥行に基づいて、合成情報テーブル３０４から、カメラ群３の各カメラで撮影された入力画像に対応する切り出し領域及びアフィン変換行列を含む合成情報を取得する。なお、合成情報テーブル３０４に格納されている奥行は数種類〜数十種類なので、奥行取得部３２又は奥行補間部３９が設定した奥行と同じ値の奥行のテーブルが無い場合が想定される。このような場合は、合成情報取得部３３は、奥行取得部３２又は奥行補間部３９が設定した奥行の前後の値となる合成情報テーブル３０４に記録済の２つの奥行の値に対応する合成情報（切出領域情報及び変換情報）を用いて、奥行取得部３２が取得した奥行に対応する合成情報を算出する。具体的には、上記記録済の２つの奥行の値に対応する切出領域情報の切り出し領域の座標値を線形補間することにより、その中間に位置する切り出し領域を特定する。上記記録済の２つの奥行の値に対応するアフィン変換行列の各係数を線形補間することにより、その中間値となるアフィン変換行列を算出する。

入力画像格納部３０１は、カメラ群３内の各カメラを特定するカメラコードに関連付けてカメラ群３の各カメラで撮影した入力画像を格納する。入力画像は、撮影時刻及び動画の画像データを含む。入力画像格納部３０１は、例えば、図１６（Ｂ）に示す入力画像２１を、カメラ３−１を特定するカメラコードに関連付けて格納し、入力画像２２を、カメラ３−３を特定するカメラコードに関連付けて格納し、入力画像２３を、カメラ３−３を特定するカメラコードに関連付けて格納する。

背景画像格納部３０２は、全天球カメラ２で撮影した全天球画像である背景画像２０を格納する。背景画像格納部３０２は、例えば、コート１０内の仮想視点１１に設置した全天球カメラ２で撮影した図１６（Ａ）に示す背景画像２０を格納する。格納する背景画像２０は、１フレーム分の画像データでも所定時間分の動画の画像データでもよい。所定時間分の画像データを格納する場合は、背景画像２０において周期的に変化する部分（例えば電光掲示板が映っている部分があり、かつ、電光掲示板の表示内容が周期的に変化している部分。）があれば、その周期に応じた時間分の画像データを背景画像２０として格納すればよい。

画像処理装置３０が全天球カメラ２から背景画像２０を取得する構成はどのような構成であってもよい。例えば、画像処理装置３０が全天球カメラ２と有線又は無線で通信可能な通信部を備えて、その通信部を介して背景画像２０を取得する構成であってもよい。また、全天球カメラ２に着脱可能な記録媒体を用いて当該記録媒体に背景画像２０を記録して、記録後の記録媒体を画像処理装置３０に接続して、画像処理装置３０が記録媒体から背景画像２０を読み出す構成により、背景画像２０を取得する構成であってもよい。また、画像処理装置３０が、カメラ群３から入力画像を取得する構成も全天球カメラ２の場合と同様にどのような構成であってもよい。

画像入力部３４は、入力画像格納部３０１に格納された入力画像と、背景画像格納部３０２に格納された背景画像２０とを入力とする。画像入力部３４は、入力画像格納部３０１から入力画像を取得し、背景画像格納部３０２から背景画像２０を取得して、入力画像を画像切り出し部３５へ出力し、背景画像２０を画像合成部３６へ出力する。画像切り出し部３５は、画像入力部３４が出力する入力画像と、合成情報取得部３３が出力する合成情報とを入力とする。画像切り出し部３５は、合成情報取得部３３から入力された合成情報に含まれる切出領域情報に基づいて、カメラ群３の各カメラからの入力画像に対応する切り出し領域を特定し、入力画像から特定した切り出し領域を切り出して、切り出した画像を画像合成部３６へ出力する。画像切り出し部３５は、例えば、図１６（Ｂ）に示す入力画像２１〜２３のそれぞれから切り出し領域２１１、２２１、２３１を切り出す処理を行う。

画像合成部３６は、画像入力部３４が出力する背景画像２０と、画像切り出し部３５が切り出した画像と、合成情報取得部３３が取得した合成情報とを入力とし、画像切り出し部３５が切り出した画像に対して、合成情報取得部３３が取得した合成情報に含まれる変換情報のアフィン変換行列に基づいて変形処理を行い、部分画像を生成する。画像合成部３６は、生成した部分画像をアフィン変換行列に基づいて背景画像２０に貼り付けて合成することで仮想全天球画像を生成し、出力する。なお、アフィン変換行列は、背景画像２０において部分画像を貼り付ける領域を示す情報を含む。画像合成部３６は、生成した仮想全天球画像を画像サーバ６へ送信する機能を有する。

画像合成部３６は、例えば、図１６（Ｂ）に示す入力画像２１〜２３のそれぞれから切り出し領域２１１、２２１、２３１を切り出した画像に対して、アフィン変換行列に基づいた変形処理を行うことで、部分画像２１１ａ、２２１ａ、２３１ａを生成する。画像合成部３６は、例えば、背景画像２０に対して、部分画像２１１ａ、２２１ａ、２３１ａを所定の領域に貼り付けて合成することで図１６（Ｃ）に示す仮想全天球画像２４を生成する。

部分画像を背景画像２０に貼り付けて仮想全天球画像２４を生成した際に、隣り合う部分画像間の境界領域において重複が発生する場合がある。図５は、隣り合う部分画像間の境界領域において重複が発生する場合の具体例を示す図である。図５に示すように、仮想全天球画像２４に貼り付けた部分画像２１１ｂと部分画像２２１ｂとが境界領域２５において重複している。なお、図５に示す部分画像２１１ｂと部分画像２２１ｂが、図１６（Ｃ）に示した部分画像２１１ａ及び部分画像２２１ａと比較して異なる点は、両画像に重複する領域がある点である。

図５に示すように、部分画像２１１ｂと部分画像２２１ｂとが境界領域２５において重複している場合には、画像合成部３６は、重複している境界領域２５に対して以下に示すブレンディング（Ｂｌｅｎｄｉｎｇ）処理を行う。画像合成部３６は、Ｂｌｅｎｄｉｎｇパラメータαを定め、（式１）に基づいて重複している境界領域２５の各ピクセルの値を算出する。
ｇ（ｘ、ｙ）＝αＩ_ｉ（ｘ、ｙ）＋（１−α）Ｉ_ｉ＋１（ｘ、ｙ） … （式１）

（式１）において、ｘ、ｙは、仮想全天球画像２４上における水平方向、垂直方向の座標である。ｇ（ｘ、ｙ）は、重複している境界領域２５内の座標（ｘ、ｙ）の画素値の値である。Ｉ_ｉ（ｘ、ｙ）とＩ_ｉ＋１（ｘ、ｙ）は、カメラ群３内のカメラ３−ｉおよびカメラ３−（ｉ＋１）（ｉは１≦ｉ≦Ｎ−１となる整数。）によって撮影された入力画像に基づいて生成された部分画像の座標（ｘ、ｙ）の画素値の値を表す。また、このαの値は重複している境界領域２５で一定であるが、以下の（式２）に示すように変化させてもよい。
α（ｘ）＝（ｘ−ｘ_ｓ）／（ｘ_ｅ−ｘ_ｓ） … （式２）
（式２）において、ｘ_ｓおよびｘ_ｅは、図５に示すように重複している境界領域２５の両端のｘ座標であり、ｘ_ｓ＜ｘ_ｅである。

表示処理部３７は、画像合成部３６が出力する仮想全天球画像を入力とし、入力された仮想全天球画像を表示装置５において表示可能な映像信号に変換して出力する。仮想全天球画像２４は、図１６（Ｃ）に示す通り、歪みを含む画像であり、かつ、仮想視点１１を中心とする３６０度の景色を含む画像であるので、表示処理部３７は、仮想全天球画像から表示装置５に表示させる範囲の画像を切り出して、切り出した画像の歪みを補正する機能を有する。

画像処理装置３０は、入力画像格納部３０１及び背景画像格納部３０２を備える構成としたが、これに限定されるものではない。例えば、入力画像格納部３０１及び背景画像格納部３０２を備える画像格納装置を別に設け、画像処理装置３０は、画像格納装置から入力画像格納部３０１及び背景画像格納部３０２を取得する構成であってもよい。また、画像処理装置３０は、背景画像格納部３０２を備え、入力画像格納部３０１を備えずに、カメラ群３から入力される入力画像をリアルタイムで取得して、取得した入力画像を順次処理する構成としてもよい。

上述した第１の実施形態においては、奥行取得部３２及び奥行補間部３９は、カメラに対して奥行を設定していたが、この構成に限られるものではない。奥行取得部３２及び奥行補間部３９は、カメラから出力される入力画像に対して奥行を設定してもよい。この場合には、奥行取得部３２及び奥行補間部３９は、入力画像を特定する情報である入力画像情報に関連付けて設定した奥行を出力する。入力画像情報には、少なくとも、入力画像を出力したカメラのカメラコード及び入力画像の撮影時刻に関する情報が含まれている。合成情報取得部３３は、奥行取得部３２又は奥行補間部３９からの奥行と、入力画像情報に含まれているカメラコードとに基づいて、構成情報テーブル３０４から合成情報を取得する。

上述した第１の実施形態においては、奥行取得部３２は、主オブジェクトに対応するカメラに対して奥行を設定し、奥行補間部３９は、主オブジェクトに対応していないカメラに対して奥行を設定していたが、この構成に限られるものではない。奥行補間部３９は、補間により求めた奥行線に基づいて、主オブジェクトに対応するカメラに対して奥行を設定してもよい。また、上述したように入力画像に対して奥行を設定する場合には、奥行補間部３９は、補間により求めた奥行線に基づいて、主オブジェクトに対応する入力画像及び主オブジェクトに対応していない入力画像に対して奥行を設定してもよい。

次に、画像処理システム１Ａにおいて１フレームの仮想全天球画像を作成する動作について説明する。図６は、第１の実施形態における画像処理装置３０が１フレームの仮想全天球画像を作成する動作を示すフロー図である。図６に示す動作は、各撮影時刻における仮想全天球画像を生成する処理の前に、予めオブジェクト情報、合成情報、背景画像２０及び入力画像を取得する処理も含まれる。

仮想視点１１に全天球カメラ２を設置し、仮想視点１１から所定の距離（奥行）にチェスボードを設置した後に、全天球カメラ２は、チェスボードを含む全天球画像を撮影する（ステップＳ１０１）。全天球カメラ２を仮想視点１１から取り去って、カメラ群３の各カメラで、仮想視点１１及びチェスボードを含む撮影範囲を撮影し、全天球カメラ２で撮影された全天球画像に含まれるチェスボードと、カメラ群３内の一つのカメラで撮影された画像に含まれるチェスボードとを対応させるための合成情報を求める（ステップＳ１０２）。なお、ステップＳ１０１、１０２におけるチェスボードの撮影は、仮想視点１１から複数種類の距離にチェスボードを設置して行われる。

仮想視点１１に全天球カメラ２を設置した後に、全天球カメラ２は、背景画像２０を撮影する（ステップＳ１０３）。撮影された背景画像２０は、背景画像格納部３０２に格納される。全天球カメラ２を仮想視点１１から取り去った後であって、例えば競技開始と共に、カメラ群３は撮影を開始する。これにより、画像処理装置３０は、カメラ群３が撮影した入力画像を入力画像格納部３０１に格納する。オブジェクト解析部３１は、入力画像格納部３０１から入力画像を読み出して解析処理し、解析結果をオブジェクト情報格納部３０３に格納する。奥行取得部３２は、オブジェクト情報格納部３０３に格納されているオブジェクトの中から、入力部３８から入力された情報に基づいて主オブジェクトを特定する。奥行取得部３２は、特定した主オブジェクトに対応するカメラに対して仮想視点１１からの奥行を設定する。奥行補間部３９は、奥行取得部３２が特定した主オブジェクトの位置等に基づいて、主オブジェクトに対応していないカメラに対して奥行を設定する（ステップＳ１０４）。

合成情報取得部３３は、奥行取得部３２又は奥行補間部３９がカメラ群３の各カメラに設定した奥行に基づいて、合成情報テーブル３０４から、各入力画像に対応する切り出し領域及びアフィン変換行列を含む合成情報を取得する（ステップＳ１０５）。ステップＳ１０５において、合成情報取得部３３は、奥行取得部３２又は奥行補間部３９がカメラ群３の各カメラに設定した奥行と同じ値の奥行のテーブルが無い場合は、奥行取得部３２又は奥行補間部３９がカメラ群３の各カメラに設定した奥行の前後の値となる奥行に対応する合成情報に基づいて、奥行取得部３２又は奥行補間部３９がカメラ群３の各カメラに設定した奥行に対応する合成情報を求める。

画像切り出し部３５は、合成情報取得部３３が取得した合成情報に含まれる切出領域情報に基づいて、カメラ群３の各カメラからの入力画像に対応する切り出し領域を特定し、入力画像から特定した切り出し領域を切り出して、切り出した画像を画像合成部３６へ出力する。画像合成部３６は、画像切り出し部３５が切り出した画像に対して、合成情報に含まれる変換情報のアフィン変換行列に基づいて変形処理を行い、部分画像を生成する。画像合成部３６は、生成した部分画像をアフィン変換行列に基づいて背景画像２０に貼り付けて合成することで仮想全天球画像を生成する（ステップＳ１０６）。

画像合成部３６は、背景画像２０に貼り付ける２つの部分画像間の境界領域において重複している場合には、重複している境界領域に対してブレンディング処理を行う（ステップＳ１０７）。画像合成部３６が生成した仮想全天球画像は、例えば、画像サーバ６に蓄積される。画像サーバ６は、視聴装置８からの視聴要求に応じて蓄積した仮想全天球画像をネットワーク７経由で配信する。

上述した画像処理システム１Ａの動作の変形例として、カメラ群３で撮影した入力画像をリアルタイムで背景画像２０に合成して仮想全天球画像を生成する動作について説明する。リアルタイムで仮想全天球画像を生成する場合、画像処理システム１Ａは、図６の処理において、ステップＳ１０１〜Ｓ１０３までの処理を事前に行い、ステップＳ１０４以降の処理をリアルタイムで行う。リアルタイムで仮想全天球画像を生成するとは、例えば、入力画像が１秒間に６０フレームを有する動画像であれば、画像処理システム１Ａが、その動画像の入力画像を処理して、１秒間に６０フレームを有する仮想全天球画像を生成することである。

次に、第１の実施形態における画像処理装置３０が動画の仮想全天球画像を作成する動作について説明する。図７は、第１の実施形態における画像処理装置３０が動画の仮想全天球画像を作成する動作について説明するフロー図である。図７の動作においては、図６に示したステップＳ１０１〜ステップＳ１０４における入力画像の撮影までの処理は既に終えているものとする。図７に示すように、画像処理装置３０は、最初の撮影時刻のフレームに対する処理を開始する（ステップＳ２０１）。

画像入力部３４は、入力画像格納部３０１から入力画像を取得し、背景画像格納部３０２から背景画像２０を取得して、入力画像を画像切り出し部３５へ出力し、背景画像２０を画像合成部３６へ出力する（ステップＳ２０２）。奥行取得部３２は、オブジェクト情報格納部３０３に格納されているオブジェクトの中から、入力部３８から入力された情報に基づいて主オブジェクトを特定して、特定した主オブジェクトに対応するカメラに対して奥行を設定する。奥行補間部３９は、奥行取得部３２が特定した主オブジェクトの位置等に基づいて、主オブジェクトに対応していないカメラに対して奥行を設定する（ステップＳ２０３）。

合成情報取得部３３は、奥行取得部３２又は奥行補間部３９がカメラ群３の各カメラに設定した奥行に基づいて、合成情報テーブル３０４から、各入力画像に対応する合成情報を取得する（ステップＳ２０４）。画像切り出し部３５は、合成情報取得部３３が取得した合成情報に基づいて、入力画像から切り出し領域を切り出して、切り出した画像を画像合成部３６へ出力する。画像合成部３６は、画像切り出し部３５が切り出した画像に対して、合成情報に含まれるアフィン変換行列に基づいて変形処理を行い、部分画像を生成する。画像合成部３６は、生成した部分画像をアフィン変換行列に基づいて背景画像２０に貼り付けて合成して、仮想全天球画像を生成する（ステップＳ２０５）。画像処理装置３０は、次の撮影時刻の入力画像があればステップＳ２０１に戻りループを継続し、次の撮影時刻の入力画像がなければ、ループを終了する（ステップＳ２０６）。

以上に説明したように、第１の実施形態における画像処理装置３０は、視聴者が注目する主オブジェクトに対応したカメラに設定する奥行を求めて、求めた奥行に対応した部分画像を生成し、生成した部分画像を背景画像２０に貼り付けることで仮想全天球画像を生成することができる。これにより、第１の実施形態における画像処理装置３０は、仮想全天球画像に含まれる主オブジェクトである被写体において分身が起こったり、消失が起こったりすることを抑制することができる。第１の実施形態における画像処理装置３０は、視聴品質の低下を抑制した仮想全天球画像を視聴者に提供することができる。

第１の実施形態における画像処理装置３０は、仮想全天球画像を生成する場合以外にも、例えば、図４に示すカメラ３−ａ及びカメラ３−ｄからの２つの入力画像を合成して、仮想視点１１から撮影したかのような仮想視点画像を生成する場合にも対応できる構成としてもよい。要は、画像合成部３６は、部分画像を背景画像２０への貼り付ける処理を必ずしも行う必要はない。この場合、第１の実施形態における画像処理装置３０と同様に、２つの入力画像に含まれる各オブジェクト５３、５４に基づいた奥行Ｄ１、Ｄ２を取得し、この取得した奥行Ｄ１、Ｄ２に基づいて合成情報取得部３３が合成情報を取得する。カメラ３−ａ及びカメラ３−ｄからの２つの入力画像は、奥行が異なるので、２つの入力画像の境界部分に対して、上述したブレンディング処理等を施してもよい。

ここで、複数の主オブジェクトに対応する複数のカメラに異なる奥行を設定して仮想全天球画像を合成する場合に、奥行補間部３９による補間処理を行わなかったときの問題点について説明する。図８は、複数の主オブジェクトに対応する複数のカメラに異なる奥行を設定して仮想全天球画像を合成する場合に、奥行補間部３９による補間処理を行わなかったときの問題点を説明する図である。なお、図８において、図４と同じ構成がある場合は、図４と同じ符号を付与している。

図８に示すように、主オブジェクトであるオブジェクト５３を含む領域を撮影するカメラ３−ａ１、３−ａ、３−ａ２に対して、奥行５６を設定して、設定した奥行５６に応じた撮影範囲５８−１〜５８−３（＝入力画像からの切り出し範囲）が設定されている。また、主オブジェクトであるオブジェクト５４を含む領域を撮影するカメラ３−ｄ１、３−ｄ、３−ｄ２に対して、奥行５７を設定して、設定した奥行５７に応じた撮影範囲５８−４〜５８−６が設定されている。

視聴者が、図８に示すような奥行を設定して生成した仮想全天球画像をＨＭＤで視聴した場合について考える。視聴者が、頭の方向を動かすことによりオブジェクト５３を含む領域を視聴していた状態から、オブジェクト５４を含む領域を視聴する状態に視野を移行したとする。そうすると、視聴者は、視野の移行の途中において、奥行５６に設定して生成した映像から、奥行５６と異なる奥行５７に設定して生成した映像に切り換わる境界線５９を含む映像を視聴することとなる。この境界線５９を含む映像は、奥行が急激に変わるため視聴者が違和感を覚えたり、不自然さを感じたりする可能性が高いという問題がある。

そこで、第１の実施形態の画像処理システム１Ａにおいては、奥行補間部３９を設けることにより、図４に示したとおり図８の場合と比べて各カメラに設定される奥行が急激に変化することを抑制している。これにより、複数の主オブジェクトに対応する複数のカメラに異なる奥行を設定して生成された仮想全天球画像を視聴する場合に、視聴者が、ある奥行の主オブジェクトを含む領域から異なる奥行の主オブジェクトを含む領域へ視野を移す途中で画像の不自然さを感じることを防ぐことができる。

（第１の実施形態の変形例）
上述した第１の実施形態では、１台のカメラが出力する１つの入力画像から１つの切り出し画像を切り出す場合を説明したが、これに限定されるものではない。１台のカメラが出力する１つの入力画像から複数の切り出し画像を切り出すように構成してもよい。この場合は、合成情報テーブル３０４は、カメラコードと、仮想視点１１からの奥行と、その奥行に応じたアフィン変換行列である変換情報と、その奥行に応じた切出領域情報とを対応づけて格納する際に、奥行に応じた切出領域情報として、所定の数の切出領域情報を含むこととなる。合成情報テーブル３０４は、切り出し領域毎に、変換情報と、切出領域情報とを格納する。なお、変換情報および切出領域情報の求め方は、上述した方法と同様の方法により予め取得する。また、同一カメラ内における複数の切出領域情報は、上述した方法で求めた変換情報を用いて、以下の方法によって求めてもよい。

同一カメラ内における複数の切出領域情報は、仮想全天球画像を合成する上でカメラが取得した入力画像において、利用する領域を複数の部分領域に分割して、その部分領域に対して変換情報に含まれるアフィン変換行列の逆行列を用いて変換することで求めることができる。画像切り出し部３５は、所定の数の切出領域情報に基づいて、入力画像から特定した複数の切り出し領域を切り出して、複数の切り出し画像を画像合成部３６へ出力する。

１つの入力画像に対して複数の切り出し領域を設定して複数の切り出し画像を出力する場合は、奥行取得部３２は、例えば、仮想視点１１から特定した複数の主オブジェクトまでの距離を、各主オブジェクトに対応する切り出し領域（第１の領域）に対して設定する奥行とする。ここで、主オブジェクトに対応する切り出し領域とは、主オブジェクトから仮想視点１１を通過する直線を引いた場合に、その直線に最も近い位置に設置されているカメラ群３内のカメラの撮像面の一部の領域である。奥行取得部３２は、主オブジェクトに対応する切り出し領域を特定する切出領域情報及びカメラを特定するカメラコードに関連づけて、主オブジェクトに対応する切り出し領域に設定する奥行を出力する。奥行補間部３９は、主オブジェクトに対応していない切り出し領域（第２の領域）に対して、各切り出し領域の中心から仮想視点１１を通る直線と、その奥行線との交点を求める。奥行補間部３９は、主オブジェクトに対応していない切り出し領域に対して、求めた交点から仮想視点１１までの距離に基づき、奥行を設定する。

合成情報取得部３３は、奥行取得部３２又は奥行補間部３９が各切り出し領域に設定した奥行を入力とし、入力された奥行に基づいて、合成情報テーブル３０４から、奥行に対応する切り出し領域及びアフィン変換行列を含む合成情報を取得する。画像合成部３６は、画像入力部３４が出力する背景画像２０と、画像切り出し部３５が切り出した複数の切り出し画像と、合成情報取得部３３が取得した合成情報とを入力とする。画像合成部３６は、画像切り出し部３５が切り出した複数の切り出し画像に対して、合成情報取得部３３が取得した合成情報に含まれる変換情報のアフィン変換行列に基づいて変形処理を行い、部分画像を生成する。画像合成部３６は、生成した部分画像をアフィン変換行列に基づいて背景画像２０に貼り付けて合成することで仮想全天球画像を生成し、出力する。

画像切り出し部３５において、１台のカメラが出力する１つの入力画像から複数の切り出し画像を切り出す手法として、例えば、主オブジェクトの数によって切り出す領域の数を増減させる構成としてもよい。カメラが出力する入力画像から切り出す領域の数ＮｉにおいてＮｉ＝１（初期値）として以下の方法により決定する。なお、合成先の背景画像２０上において、カメラで撮影した入力画像を貼り付ける領域は既知であるとする。入力画像における主オブジェクトの位置情報は既知であるとする。画像切り出し部３５は、オブジェクト情報格納部３０３に格納されているオブジェクト情報を参照可能であるとする。画像切り出し部３５は、入力画像の各主オブジェクトを含む領域に対して設定された奥行を奥行取得部３２又は奥行補間部３９より取得する。

画像切り出し部３５は、Ｎｉ＝１の場合におけるスライスの領域内に含まれる主オブジェクトの数を、入力画像から切り出す領域の数Ｎｉとする。画像切り出し部３５は、入力画像を、切り出す領域の数Ｎｉ個の部分領域に分割する。この時、各部分領域にはそれぞれ１つの主オブジェクトが含まれる。画像切り出し部３５は、例えば、入力画像上における主オブジェクトの重心を結んだ直線に対して直交するような直線を引いて、その直線を境界線として分割する方法や、主オブジェクトを含むように矩形の領域を切り出す方法を用いる。

合成情報取得部３３は、各部分領域に含まれる主オブジェクトの奥行に基づいて、各部分領域に対する変換情報を取得する。画像合成部３６は、各部分領域に対して、合成情報取得部３３が取得した変換情報を適用して変形処理を行って部分画像を生成し、生成した部分画像を背景画像２０に合成する。なお、変形処理後の部分画像は、背景画像２０上において貼り付け処理対象とする領域と一致しない場合がある。貼り付け処理対象とする領域をカバーするためには、少し大きめのサイズとなる部分領域を設定して切り出し処理を行う方法や、切り出した部分領域の画像を拡大処理する方法を用いる。

（第２の実施形態）
第２の実施形態における画像処理システムの構成例について説明する。
図９は、第２の実施形態における画像処理システムの構成例を示す図である。図９に示すとおり、第２の実施形態における画像処理システム１Ｂは、図１に示した第１の実施形態における画像処理システム１Ａとほぼ同じ構成であり、図１と機能等が異なる構成要素には図１と異なる符号を付与している。

ＨＭＤ８２Ａは、図１に示したＨＭＤ８２が有する機能に加えて、画面に表示中の被写体の範囲を示す仮想視点１１からの視野を検出する機能と、検出した視野に関する情報である視野情報をユーザ端末８１Ａに送信する機能とをさらに備える。ユーザ端末８１Ａは、図１に示したユーザ端末８１が有する機能に加えて、ＨＭＤ８２Ａから受信した視野情報をネットワーク７経由で画像サーバ６Ａに送信する機能をさらに備える。画像サーバ６Ａは、図１に示した画像サーバ６が有する機能に加えて、ユーザ端末８１Ａから受信した視野情報を画像処理システム１Ｂに送信する機能をさらに備える。

第２の実施形態における画像処理システム１Ｂは、ユーザ端末８１Ａ、ネットワーク７及び画像サーバ６Ａを経由してＨＭＤ８２Ａから受信した視野情報に基づいて主オブジェクトを特定する点が第１の実施形態における画像処理システム１Ａとは異なる。第２の実施形態における画像処理システム１Ｂは、受信した視野情報を用いることで、第１の実施形態の画像処理システム１Ａと比べて、視聴者が注目する領域又は主オブジェクトを精度良く特定することを目的としている。

次に、第２の実施形態における画像処理システム１Ｂが備える画像処理装置３０Ａの構成例について説明する。
図１０は、第２の実施形態における画像処理装置３０Ａの構成例を示す図である。図１０に示す画像処理装置３０Ａは、図２に示した第１の実施形態における画像処理装置３０と比較すると、オブジェクト解析部３１Ａと、奥行取得部３２Ａと、オブジェクト情報格納部３０３Ａとを備え、奥行に関する情報を入力する入力部３８を備えていない点で異なる。画像処理装置３０Ａにおいて、図２に示した画像処理装置３０と同じ構成部分には、同じ符号を付与して、それらの説明は簡略化又は省略する。画像処理装置３０Ａは、ＨＭＤ８２Ａを含む視聴装置８Ａからネットワーク７及び画像サーバ６Ａを介して視聴者の視野情報を受信する機能を有する。

図１０に示すように、画像処理装置３０Ａは、オブジェクト解析部３１Ａと、奥行取得部３２Ａと、合成情報取得部３３と、画像入力部３４と、画像切り出し部３５と、画像合成部３６と、表示処理部３７と、奥行補間部３９と、カメラ群３の各カメラが撮影した入力画像を格納する入力画像格納部３０１と、背景画像２０を格納する背景画像格納部３０２と、オブジェクト情報格納部３０３Ａと、合成情報テーブル３０４とを備える。

オブジェクト解析部３１Ａは、画像サーバ６Ａ等を経由したＨＭＤ８２Ａからの視野情報と、入力画像格納部３０１に格納されている入力画像とを入力とし、オブジェクト情報を出力する。オブジェクト解析部３１Ａは、図２に示したオブジェクト解析部３１の機能に加えて、ＨＭＤ８２Ａから受信した視野情報に基づいて、オブジェクトを解析する機能をさらに備える。オブジェクト情報格納部３０３Ａは、図２に示したオブジェクト情報格納部３０３が格納する情報に加えて、視野情報に基づいた解析結果に関する情報をさらに格納する。奥行取得部３２Ａは、図２に示した奥行取得部３２の機能に加えて、ＨＭＤ８２Ａから受信した視野情報に基づいて、主オブジェクトを特定する機能をさらに備える。

奥行取得部３２Ａは、オブジェクト情報格納部３０３Ａに格納されているオブジェクト情報と、画像サーバ６Ａから入力される視野情報とを入力とする。奥行取得部３２Ａは、オブジェクト情報格納部３０３Ａよりオブジェクト情報を読み出して、各撮影時刻において、視野に含まれる複数のオブジェクトの中から重要なオブジェクトである主オブジェクトを特定する。奥行取得部３２Ａは、仮想視点１１から特定した主オブジェクトまでの距離を取得し、主オブジェクトに対応するカメラに対して取得した距離を奥行として設定し、出力する。重要なオブジェクトとは、例えば、仮想全天球画像の中で視聴者が注視する領域に存在するオブジェクトである。

奥行取得部３２Ａは、入力された視野情報と、オブジェクト情報格納部３０３Ａから参照するオブジェクト情報との少なくとも一つに基づいて主オブジェクトを特定する。以下の説明において、視野情報に基づいて主オブジェクトを特定する方法として、「第１の方法」〜「第４の方法」の４種類の方法について説明する。なお、主オブジェクトとして特定するオブジェクトは１つに限るものではなく、主オブジェクトとして複数のオブジェクトを特定してもよい。

複数の主オブジェクトを特定する場合は、奥行取得部３２Ａは、例えば、仮想視点１１から特定した複数の主オブジェクトまでの距離に基づいて、各主オブジェクトに対応するカメラに奥行を設定する。ここで、主オブジェクトに対応するカメラとは、主オブジェクトから仮想視点１１を通過する直線を引いた場合に、その直線に最も近い位置に設置されているカメラ群３内のカメラである。奥行取得部３２Ａは、主オブジェクトに対応するカメラを特定するカメラコードに関連づけて、主オブジェクトに対応するカメラに設定する奥行を出力する。

奥行補間部３９は、奥行取得部３２Ａが取得した全ての主オブジェクト上を通る高次曲線である奥行線を求める。奥行補間部３９は、主オブジェクトに対応していないカメラに対して、各カメラから仮想視点１１を通る直線と、その奥行線との交点を求める。奥行補間部３９は、主オブジェクトに対応していないカメラに対して、求めた交点から仮想視点１１までの距離に基づき、奥行を設定する。

なお、奥行補間部３９において、全ての主オブジェクト上を通過する高次曲線を奥行線としたが、これに限定されるものではない。例えば、奥行補間部３９は、全ての主オブジェクト上を通過する折れ線を求めて、この折れ線を奥行線としてもよい。また、奥行補間部３９は、全ての主オブジェクトの近傍を通過して、かつ、仮想視点１１を中心とする円を近似する円近似曲線又は円近似折れ線を求めて、その円近似曲線又は円近似折れ線を奥行線としてもよい。

奥行取得部３２Ａは、複数の主オブジェクトの内、同一の視野に収まる主オブジェクトの仮想視点１１までの距離の平均値を求めて、その視野に応じて設定する奥行として取得してもよい。この視野に応じて設定する奥行は、その視野の中心線に対応するカメラに設定される奥行である。視野の中心線に対応するカメラとは、視野の中心線をカメラ群３方向に延長した線に対して最も近い位置に設置されたカメラ群３内のカメラである。視野に応じて設定する奥行を取得した場合は、奥行取得部３２Ａは、視野の中心線に対応するカメラのカメラコードに取得した奥行を対応付けて出力する。

なお、主オブジェクトを特定する方法は、「第１の方法」〜「第４の方法」の４種類の方法に限定されるものではなく、視聴者の注視する領域又はオブジェクトを推定（又は特定）して、その推定（又は特定）した領域にあるオブジェクト又は推定（又は特定）したオブジェクトを主オブジェクトとする構成であればよい。例えば、ボールを用いた競技の映像であれば、「ボール」のラベルを有するオブジェクトが存在する領域を視聴者が注視する領域として推定し、推定した領域に含まれるオブジェクトであって「人」のラベルを有するオブジェクトを主オブジェクトとする構成でもよい。

合成情報取得部３３は、奥行取得部３２Ａ又は奥行補間部３９がカメラ群３の各カメラに設定した奥行に基づいて、合成情報テーブル３０４から、カメラ群３の各カメラで撮影された入力画像に対応する切り出し領域及びアフィン変換行列を含む合成情報を取得する。なお、合成情報取得部３３は、合成情報テーブル３０４に格納されている奥行は数種類〜数十種類なので、奥行取得部３２Ａ又は奥行補間部３９がカメラ群３の各カメラに設定した奥行と同じ値のテーブルが無い場合が想定される。このような場合は、合成情報取得部３３は、奥行取得部３２Ａ又は奥行補間部３９がカメラ群３の各カメラに設定した奥行の前後の値となる合成情報テーブル３０４に記録済の２つの奥行の値を用いて、奥行取得部３２Ａが取得した奥行に対応する合成情報を算出する（例えば線形補間等により算出する）。

（第１の方法）
第２の実施形態における視野情報に基づいて主オブジェクトを特定する「第１の方法」について説明する。
図１１は、第２の実施形態における視野情報に基づいて主オブジェクトを特定する第１の方法を示す図である。図１１に示すように、コート１０内の仮想視点１１の周りに、４つのオブジェクトＯＢ−１〜ＯＢ−４が存在する。このオブジェクトＯＢ−１〜ＯＢ−４は、例えば競技を行っている選手であり、「人」のラベルを有してオブジェクト情報格納部３０３Ａに格納されている。

破線６０で挟まれている領域が、ＨＭＤ８２Ａで利用者が視聴している視野の範囲を示している。「第１の方法」では、奥行取得部３２Ａは、オブジェクト情報と、視野情報とを入力として、以下の処理によって奥行を取得する。オブジェクト情報は、仮想全天球画像２４として撮影される撮影空間内に存在する全てのオブジェクトに関する三次元位置の情報を含む。視野情報は、仮想視点１１の位置に関する情報と、視聴者の視線に関する情報とを含む。

まず、奥行取得部３２Ａは、視野情報に基づいて視野の中心となる中心線６１を求める。次に、奥行取得部３２Ａは、オブジェクト情報に基づいて、中心線６１に最も近い位置に存在するオブジェクトＯＢ−４を主オブジェクトとして特定する。次に、奥行取得部３２Ａは、仮想視点１１から主オブジェクトであるオブジェクトＯＢ−４までの距離を奥行として取得する。点線６２は、奥行取得部３２Ａが取得した奥行を示す。このようにして、奥行取得部３２Ａは、視野情報及びオブジェクト情報に基づいて主オブジェクトを特定して、主オブジェクトまでの奥行を取得する。

図１２は、図１１に示すオブジェクトにおいて奥行取得部３２Ａが中心線６１（仮想視点１１に視聴者がいると仮定した場合の、視聴者の視線に相当）に最も近い位置に存在するオブジェクトを特定する方法の具体例を示す図である。図１２に示すように、奥行取得部３２Ａは、各オブジェクトＯＢ−１〜ＯＢ−４から中心線６１に対して垂線６３−１〜６３−４を引き、その垂線の長さが最短のオブジェクトを主オブジェクトとして特定する。図１２の例では、奥行取得部３２Ａは、垂線６３−４が最も短いので、オブジェクトＯＢ−４を主オブジェクトとして特定する。

また、奥行取得部３２Ａは、中心線６１に１番目に近い位置にあるオブジェクトＯＢ−４と、２番目に近い位置にあるオブジェクトＯＢ−１との２つのオブジェクトを主オブジェクトとして特定してもよい。この場合は、奥行取得部３２Ａは、仮想視点１１からオブジェクトＯＢ−１までの距離と、仮想視点１１からオブジェクトＯＢ−４までの距離との平均を奥行として取得する。また、奥行取得部３２Ａは、仮想視点１１からオブジェクトＯＢ−１までの距離と、仮想視点１１からオブジェクトＯＢ−４までの距離とに重み係数を乗算してから加算平均して奥行としてもよい。重み係数は、中心線６１からオブジェクトＯＢ−１、オブジェクトＯＢ−４までの距離に応じて設定される値である。具体的には、中心線６１から各オブジェクトまでの距離が短い程大きな値となるような重み係数を設定する。

「第１の方法」を用いることで、視聴者が注視している可能性の高い視野の中心線付近に位置するオブジェクトの奥行に応じて、画像切り出し部３５及び画像合成部３６の処理を行うことができる。第２の実施形態における画像処理装置３０Ａは、視聴者の注目する被写体（オブジェクト）の奥行に応じた合成処理を行うことで、仮想全天球画像に含まれる視聴者の注目する被写体における分身の発生を抑制することができ、視聴品質の低下を抑制した仮想全天球画像を視聴者に提供することができる。なお、「第１の方法」を行う場合は、オブジェクト解析部３１Ａ及びオブジェクト情報格納部３０３Ａは、視野情報に応じたオブジェクトの解析等を行う必要がないので、図２に示したオブジェクト解析部３１及びオブジェクト情報格納部３０３と同じ構成であってもよい。

（第２の方法）
第２の実施形態における視野情報に基づいて主オブジェクトを特定する「第２の方法」について説明する。「第２の方法」では、奥行取得部３２Ａは、オブジェクト情報と、視野情報とを入力として、以下の処理によって奥行を取得する。オブジェクト情報は、仮想全天球画像２４内に存在する全てのオブジェクトの内、視野情報で特定される視聴者の視野の範囲に含まれるオブジェクトに関する三次元位置の情報と、視野内のオブジェクトの顕著度とを含む。視野情報は、仮想視点１１の位置に関する情報と、視聴者の視野に関する情報とを含む。

図１１と同じ配置でオブジェクトＯＢ−１〜ＯＢ−４が存在し、視野も破線６０で示す範囲である場合に、オブジェクト解析部３１Ａは、視野内に存在する入力画像に対してＳａｌｉｅｎｃｙＭａｐ（サリエンシーマップ）を作成して、入力画像に含まれる各オブジェクトに顕著度（重要度）を付与する。具体的には、オブジェクト解析部３１Ａは、視野に含まれる入力画像における人の関心の度合いである顕著度を各画素で表したマップ、あるいは、画素毎の顕著度に基づいてクラスタリングした領域別の顕著度を表したマップであるＳａｌｉｅｎｃｙＭａｐを作成する。入力画像における人の関心の度合いとは、人が入力画像を見た場合に関心を持つ度合いのことであり、例えば、入力画像に人の顔の画像の領域があれば、その領域は人が関心をもつ領域であり顕著度が高くなる。

オブジェクト解析部３１Ａは、作成したＳａｌｉｅｎｃｙＭａｐに基づいて、各オブジェクトに対応する顕著度を付与し、オブジェクト情報として出力する。ここで、顕著度は、例えば、０〜４の数値であり大きな値を有するオブジェクトほど顕著なオブジェクトである。オブジェクト情報格納部３０３Ａは、各オブジェクトの三次元位置の情報と、オブジェクト解析部３１Ａが各オブジェクトに付与した顕著度とを含むオブジェクト情報を入力とし、入力されたオブジェクト情報を格納する。

図１３は、ＳａｌｉｅｎｃｙＭａｐの具体例を示す図である。図１３においては、図１１のオブジェクトＯＢ−１を含む入力画像と、図１１のオブジェクトＯＢ−４を含む入力画像とに基づいて作成されたＳａｌｉｅｎｃｙＭａｐ１１０、１１１を示している。また、図１３に示すＳａｌｉｅｎｃｙＭａｐは、顕著度に応じて濃度が決まっており、濃度が薄い程その領域の顕著度が高い。ＳａｌｉｅｎｃｙＭａｐ１１０において、領域１１０Ａは他の領域よりも濃度が薄く顕著度＝３であり、その他の斜線部分の領域は顕著度＝０である。ＳａｌｉｅｎｃｙＭａｐ１１１において、領域１１１Ａは他の領域よりも濃度が薄く顕著度＝４であり、その他の斜線部分の領域は顕著度＝０である。

ＳａｌｉｅｎｃｙＭａｐ１１０の領域１１０Ａは、オブジェクトＯＢ−１に対応した領域であることから、オブジェクト解析部３１Ａは、オブジェクトＯＢ−１に顕著度＝３を付与する。ＳａｌｉｅｎｃｙＭａｐ１１１の領域１１１Ａは、オブジェクトＯＢ−４に対応した領域であることから、オブジェクト解析部３１Ａは、オブジェクトＯＢ−４に顕著度＝４を付与する。そして、奥行取得部３２Ａは、オブジェクト情報格納部３０３Ａからオブジェクト情報を参照して、顕著度が最も高いオブジェクトＯＢ−４を主オブジェクトとして特定する。奥行取得部３２Ａは、特定した主オブジェクトＯＢ−４のオブジェクト情報に含まれる三次元位置の情報と、視野情報に含まれる仮想視点１１の位置に関する情報とに基づいて奥行を取得し、出力する。

オブジェクト解析部３１Ａは、カメラ群３の各カメラからの入力画像に対し、各入力画像の各画素毎に顕著度を付与したＳａｌｉｅｎｃｙＭａｐを作成する。オブジェクト解析部３１Ａは、作成したＳａｌｉｅｎｃｙＭａｐに基づいて、各オブジェクトに顕著度を付与する。なお、奥行取得部３２Ａは、各オブジェクトの顕著度に応じた重み係数を、仮想視点１１から各オブジェクトまでの距離に乗算してから加算平均した値を奥行として取得する構成であってもよい。

オブジェクト解析部３１Ａは、入力画像中からオブジェクトＯｊの領域Ｒｉｊを特定し、入力画像に対応するＳａｌｉｅｎｃｙＭａｐにおける領域Ｒｉｊも特定する。オブジェクト解析部３１Ａは、ＳａｌｉｅｎｃｙＭａｐの各画素に対してＫ−ｍｅａｎｓ等のクラスタリング処理を行い、顕著度に応じた複数のクラスタに分類する。オブジェクト解析部３１Ａは、各クラスタに属する画素の顕著度に基づいて、各クラスタの顕著度を算出する。オブジェクト解析部３１Ａは、各領域Ｒｉｊに含まれるクラスタの顕著度に基づいて領域Ｒｉｊの顕著度を算出する。オブジェクト解析部３１Ａは、領域Ｒｉｊに対応するオブジェクトＯｊの顕著度を、複数のＳａｌｉｅｎｃｙＭａｐの領域Ｒｉｊの顕著度に基づいて算出する。上述したクラスタの顕著度、領域Ｒｉｊの顕著度及びオブジェクトＯｊの顕著度を算出する際には、顕著度の平均値、最大値、最小値及び中央値のいずれかを用いてよい。

オブジェクトＯｊの顕著度を算出する他の例として、オブジェクト解析部３１Ａは、領域Ｒｉｊに含まれる各画素の顕著度を算出し、各画素の顕著度に基づいて領域Ｒｉｊの顕著度を算出してもよい。オブジェクト解析部３１Ａは、各入力画像から得られる領域Ｒｉｊの顕著度に基づいて、オブジェクトＯｊの顕著度を算出する。本例における領域Ｒｉｊの顕著度及びオブジェクトＯｊの顕著度を算出する際には、顕著度の平均値、最大値、最小値及び中央値のいずれかを用いてよい。なお、添え字ｊはオブジェクトを特定する数字であり、添え字ｉは、カメラ３−１〜３−Ｎのいずれかを特定するカメラ３−ｉ（１≦ｉ≦Ｎ）を示す。

「第２の方法」を用いることで、視聴者が注視している可能性の高いオブジェクトとして、視野内で最も顕著度の高いオブジェクトの奥行に応じて、画像切り出し部３５及び画像合成部３６の処理を行うことができる。これにより、視聴者が視野の中央から離れた周辺領域に存在する特徴的な被写体を注視した場合に対応することができる。「第２の方法」を用いた第２の実施形態における画像処理装置３０Ａは、視聴者の注目する被写体（オブジェクト）の奥行に応じた合成処理を行うことで、仮想全天球画像に含まれる視聴者の注目する被写体における分身の発生を抑制することができ、視聴品質の低下を抑制した仮想全天球画像を視聴者に提供することができる。

（第３の方法）
第２の実施形態における視野情報に基づいて主オブジェクトを特定する「第３の方法」について説明する。「第３の方法」では、奥行取得部３２Ａは、オブジェクト情報と、視野情報とを入力として、以下の処理によって奥行を取得する。オブジェクト情報は、仮想全天球画像２４として撮影される撮影空間内に存在する全てのオブジェクトに関する三次元位置の情報と、各オブジェクトの属性を示すラベルとを含む。視野情報は、仮想視点１１の位置に関する情報と、視聴者の視野に関する情報とを含む。

図１１と同じ配置でオブジェクトＯＢ−１〜ＯＢ−４が存在し、視野も破線６０で示す範囲である場合に、奥行取得部３２Ａは、視野内に存在する各オブジェクトのオブジェクト情報をオブジェクト情報格納部３０３Ａより入力されたオブジェクト情報の中から抽出する。奥行取得部３２Ａは、抽出したオブジェクト情報のうち、視野内に存在する各オブジェクトのラベルを参照して「人」のラベルのオブジェクトがあれば、そのオブジェクトを主オブジェクトとして特定する。奥行取得部３２Ａは、特定した主オブジェクトのオブジェクト情報に含まれる三次元位置の情報と、視野情報に含まれる仮想視点１１の位置に関する情報とに基づいて奥行を取得し、出力する。

図１１において視野に含まれているオブジェクトＯＢ−１のラベルが「物体Ａ」であり、オブジェクトＯＢ−４のラベルが「人」である。このような場合に、奥行取得部３２Ａは、オブジェクトＯＢ−４を特定オブジェクトとして特定する。なお、奥行取得部３２Ａは、各オブジェクトのラベルに応じた重み係数を、仮想視点１１から各オブジェクトまでの距離に乗算してから加算平均した値を奥行として取得する構成であってもよい。

「第３の方法」を用いることで、視聴者が注視している可能性の高いオブジェクトとして、「人」のラベルを有するオブジェクトの奥行に応じて、画像切り出し部３５及び画像合成部３６の処理を行うことができる。「第３の方法」を用いた第２の実施形態における画像処理装置３０Ａは、物の被写体と、人の被写体との双方が視野内に存在する場合に、視聴者が注目すると推定される人の被写体の奥行に応じた合成処理を行うことで、仮想全天球画像に含まれる視聴者の注目する被写体における分身の発生を抑制することができ、視聴品質の低下を抑制した仮想全天球画像を視聴者に提供することができる。

上述した「第１の方法」〜「第３の方法」において、奥行取得部３２Ａは、中心線６１からオブジェクトまでの距離に応じた重み係数、各オブジェクトの顕著度に応じた重み係数及び各オブジェクトのラベルに応じた重み係数のいずれかを用いて奥行を取得しているが、更に、オブジェクトの大きさに応じた重み係数、オブジェクトの動きに応じた重み係数を用いて奥行を取得する構成としてもよい。オブジェクト解析部３１Ａは、オブジェクトの大きさに関する情報であるサイズ情報と、オブジェクトの動きに関する情報である動き情報とを取得する機能を有する。

（第４の方法）
第２の実施形態における視野情報に基づいて主オブジェクトを特定する「第４の方法」について説明する。「第４の方法」では、奥行取得部３２Ａは、オブジェクト情報と、視野情報とを入力として、以下の処理によって奥行を取得する。オブジェクト情報は、仮想全天球画像２４として撮影される撮影空間内に存在する全てのオブジェクトに関する三次元位置の情報と、視野情報で特定される視聴者の視野の範囲に含まれるオブジェクトに関する三次元位置の情報及び視野内のオブジェクトの顕著度と、各オブジェクトの属性を示すラベルとを含む。視野情報は、仮想視点１１の位置に関する情報と、視聴者の視線及び視野に関する情報とを含む。

奥行取得部３２Ａは、上述した「第１の方法」〜「第３の方法」を複合した以下の（式３）に示すコスト関数Ｃｊを用いて、Ｃｊの値が最大（最大コスト）となるオブジェクトを主オブジェクトとして特定する。なお、ａ、ｂ、ｃは任意の係数。
Ｃｊ＝ａ／（オブジェクトＯｊの視野の中心線からの距離）＋ｂ×（オブジェクトＯｊの顕著度）＋ｃ×（オブジェクトＯｊのラベルが人か否か） … （式３）

「第４の方法」を用いることで、視聴者が注視している可能性の高いオブジェクトの奥行に応じて、画像切り出し部３５及び画像合成部３６の処理を行うことができる。「第４の方法」を用いた第２の実施形態における画像処理装置３０Ａは、係数ａ、ｂ、ｃの値を調整することで、「第１の方法」〜「第３の方法」をそれぞれ単体で利用する場合より精度よく視聴者が注目するオブジェクトを推定することができる。よって、「第４の方法」を用いた第２の実施形態における画像処理装置３０Ａは、視聴者に注目される被写体の奥行に応じた合成処理を行うことで、仮想全天球画像に含まれる視聴者に注目される被写体における分身の発生を抑制することができ、視聴品質の低下を抑制した仮想全天球画像を視聴者に提供することができる。

次に、第２の実施形態における画像処理装置３０Ａが動画の仮想全天球画像を作成する動作について説明する。図１４は、第２の実施形態における画像処理装置３０Ａが動画の仮想全天球画像を作成する動作について説明する図である。図１４の動作においては、図６に示したステップＳ１０１〜ステップＳ１０４における入力画像の撮影までの処理は既に終えているものとする。図１４に示すように、画像処理装置３０Ａは、最初の撮影時刻のフレームに対する処理を開始する（ステップＳ３０１）。

画像入力部３４は、入力画像格納部３０１から入力画像を取得し、背景画像格納部３０２から背景画像２０を取得して、入力画像を画像切り出し部３５へ出力し、背景画像２０を画像合成部３６へ出力する（ステップＳ３０２）。画像処理装置３０Ａは、ＨＭＤ８２Ａを含む視聴装置８Ａからネットワーク７及び画像サーバ６Ａを介して視聴者の視野情報を取得する。オブジェクト解析部３１Ａは、ＨＭＤ８２Ａから受信した視野情報に基づいて、入力画像に含まれるオブジェクトを解析して、各オブジェクトに関する情報であるラベル、三次元位置情報及び顕著度等を取得する（ステップｓ３０３）。

奥行取得部３２Ａは、オブジェクト情報格納部３０３に格納されているオブジェクトの中から、オブジェクト情報及び視野情報に基づいて主オブジェクトを特定して、特定した主オブジェクトに対応するカメラに対して奥行を設定する。奥行補間部３９は、奥行取得部３２が特定した主オブジェクトの位置等に基づいて、主オブジェクトに対応していないカメラに対して奥行を設定する（ステップＳ３０４）。

合成情報取得部３３は、奥行取得部３２Ａ又は奥行補間部３９がカメラ群３の各カメラに設定した奥行に基づいて、合成情報テーブル３０４から、各入力画像に対応する合成情報を取得する（ステップＳ３０５）。画像切り出し部３５は、合成情報取得部３３が取得した合成情報に基づいて、入力画像から切り出し領域を切り出して、切り出した画像を画像合成部３６へ出力する。画像合成部３６は、画像切り出し部３５が切り出した画像に対して、合成情報に含まれるアフィン変換行列に基づいて変形処理を行い、部分画像を生成する。画像合成部３６は、生成した部分画像をアフィン変換行列に基づいて背景画像２０に貼り付けて合成して、仮想全天球画像を生成する（ステップＳ３０６）。画像処理装置３０Ａは、次の撮影時刻の入力画像があればステップＳ３０１に戻りループを継続し、次の撮影時刻の入力画像がなければ、ループを終了する（ステップＳ３０７）。

以上に説明したように、第２の実施形態における画像処理装置３０Ａは、視野情報を考慮して視聴者が注目する主オブジェクトを特定し、特定した主オブジェクトに対応するカメラに設定する奥行を求めて、求めた奥行に対応した部分画像を生成し、生成した部分画像を背景画像２０に貼り付けることで仮想全天球画像を生成することができる。これにより、第２の実施形態における画像処理装置３０Ａは、仮想全天球画像に含まれる主オブジェクトである被写体において分身が起こったり、消失が起こったりすることを抑制することができる。第２の実施形態における画像処理装置３０Ａは、視聴品質の低下を抑制した仮想全天球画像を視聴者に提供することができる。

第２の実施形態の画像処理装置３０Ａにおいては、奥行補間部３９を設けることにより、第１の実施形態において説明した図４に示したとおり図８の場合と比べて各カメラに設定される奥行が急激に変化することを抑制している。これにより、複数の主オブジェクトに対応する複数のカメラに異なる奥行を設定して生成された仮想全天球画像を視聴する場合に、視聴者が、ある奥行の被写体から異なる奥行の被写体へ視野を移す途中で画像の不自然さを感じることを防ぐことができる。

なお、ＨＭＤ８２Ａは、視聴者の視線を検出する機能と、検出した視聴者の視線に関する情報である視線情報をユーザ端末８１Ａに送信する機能とをさらに備えてもよい。この場合には、ユーザ端末８１Ａは、ＨＭＤ８２Ａから受信した視線情報をネットワーク７経由で画像サーバ６Ａに送信する機能をさらに備える。画像サーバ６Ａは、ユーザ端末８１Ａから受信した視線情報を画像処理システム１Ｂに送信する機能をさらに備える。画像処理システム１Ｂは、視野に関する情報に加えて視線情報も考慮して、主オブジェクトを選択する。

上述した第１の実施形態の画像処理システム１Ａ及び第２の実施形態の画像処理システム１Ｂは、仮想視点１１に設置した全天球カメラ２で撮影した全天球画像を背景画像２０としたが、仮想視点１１に広角で撮影可能な広角カメラを設置して撮影した広角画像を背景画像２０としてもよい。このような場合は、画像処理システム１Ａ又は画像処理システム１Ｂは、広角画像である背景画像２０に対して部分画像を合成することで仮想広角画像を生成する。ただし、視聴装置８又は視聴装置８Ａで視聴可能な範囲は、広角画像に含まれる広角カメラで撮影した範囲となる。

上述した第１の実施形態の画像処理装置３０及び第２の実施形態の画像処理装置３０Ａは、図２及び図１０に具体的な構成を示したが、この構成に限定されるものではない。例えば、画像処理装置３０を、入力画像格納部３０１及び背景画像格納部３０２を備える画像蓄積装置と、オブジェクト解析部３１、オブジェクト情報格納部３０３、奥行取得部３２、奥行補間部３９及び入力部３８を備える情報取得装置と、合成情報取得部３３、画像入力部３４、画像切り出し部３５、画像合成部３６、表示処理部３７及び合成情報テーブル３０４を備える画像合成装置とから構成してもよい。また、画像処理装置３０Ａを、入力画像格納部３０１及び背景画像格納部３０２を備える画像蓄積装置と、オブジェクト解析部３１Ａ、オブジェクト情報格納部３０３Ａ、奥行取得部３２Ａ及び奥行補間部３９を備える情報取得装置と、合成情報取得部３３、画像入力部３４、画像切り出し部３５、画像合成部３６、表示処理部３７及び合成情報テーブル３０４を備える画像合成装置とから構成されるようにしてもよい。

上述した第１の実施形態の画像処理システム１Ａ及び第２の実施形態の画像処理システム１Ｂは、全天球カメラ２を含む構成としたが、背景画像２０となる全天球画像を得ることができる構成であれば、全天球カメラ２を含まない構成でもよい。上述した第１の実施形態の画像処理装置３０及び第２の実施形態の画像処理装置３０Ａは、入力画像格納部３０１と、背景画像格納部３０２とを備える構成としたが、これに限定されるものではない。画像処理装置３０及び画像処理装置３０Ａは、入力画像格納部３０１及び背景画像格納部３０２を備えずに、入力画像格納部３０１及び背景画像格納部３０２を備える装置を別に設けてもよい。

第１の実施形態の視聴装置８及び第２の実施形態の視聴装置８Ａは、ＨＭＤ８２（又はＨＭＤ８２Ａ）を備える構成であったが、ＨＭＤに替えて携帯型の表示装置を備える構成であってもよい。携帯型の表示装置は、装置本体の動きを検出する検出部を備え、検出部が検出した装置本体の動きに応じて表示する映像の範囲である視野を変更する機能を有する。視聴装置８又は視聴装置８Ａは、携帯型の表示装置が通信機能や映像信号を処理する機能を有する場合は、ユーザ端末８１又はユーザ端末８１Ａを省略した構成としてもよい。

第１、第２の実施形態における画像処理システム１Ａ、１Ｂは、サッカー等のスポーツの映像やコンサート、ライブなどの映像のように、様々な奥行のオブジェクト（人など）がシーン内に存在し、視聴している領域や注視しているオブジェクトの奥行と、部分画像を全天球画像に合成する際に設定した奥行とが必ずしも合わないという問題を解決することができる。

上述した第１の実施形態における画像処理装置３０又は第２の実施形態における画像処理装置３０Ａの備える各機能部は、例えば、コンピュータで実現することができる。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ（Field Programmable Gate Array）等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明の情報取得装置、情報取得方法及び情報取得プログラムは、サッカー等のスポーツの映像やコンサート、ライブなどの映像のように、様々な奥行きのオブジェクト（人など）がシーン内に存在する映像を仮想全天球映像として視聴者に視聴させるシステムを構築する場合に用いている。

１、１Ａ、１Ｂ…画像処理システム，２…全天球カメラ，３…カメラ群，３−１〜３−Ｎ…カメラ，４、３０、３０Ａ…画像処理装置，５…表示装置，６、６Ａ…画像サーバ，８、８Ａ…視聴装置，９、９Ａ…視聴システム，８２、８２Ａ…ＨＭＤ，２０…背景画像，３１、３１Ａ…オブジェクト解析部，３２、３２Ａ…奥行取得部，３３…合成情報取得部，３４…画像入力部，３５…画像切り出し部，３６…画像合成部，３９…奥行補間部，３０１…入力画像格納部，３０２…背景画像格納部，３０３、３０３Ａ…オブジェクト情報格納部，３０４…合成情報テーブル

Claims

所定の位置を含む領域が撮影範囲となるように前記所定の位置を含む領域の周囲に設置された複数の撮像装置が撮影した画像を複数の入力画像として、前記所定の位置を仮想的な視点である仮想視点として前記仮想視点に対して設定された奥行に基づいて複数の前記入力画像に基づく画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置であって、
各前記入力画像から被写体であるオブジェクトを検出する検出部と、
前記検出部が検出した前記オブジェクトの中から複数の主オブジェクトを特定するオブジェクト特定部と、
複数の前記主オブジェクトに対応する前記撮像装置の撮像面又は前記撮像装置の撮像面の一部の領域に対して、複数の前記主オブジェクトと前記仮想視点との距離に基づいて設定する複数の前記奥行を取得する奥行取得部と、
を備え、
全ての前記主オブジェクトの近傍を通る奥行線を求めて、前記撮像装置の撮像面又は前記撮像装置の撮像面の一部の領域に対して、又は、前記入力画像又は前記入力画像の一部の領域に対して、前記奥行線と前記仮想視点との距離に基づいて複数の前記奥行を設定する奥行補間部をさらに備える情報取得装置。
所定の位置を含む領域が撮影範囲となるように前記所定の位置を含む領域の周囲に設置された複数の撮像装置が撮影した画像を複数の入力画像として、前記所定の位置を仮想的な視点である仮想視点として前記仮想視点に対して設定された奥行に基づいて複数の前記入力画像に基づく画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置であって、
各前記入力画像から被写体であるオブジェクトを検出する検出部と、
前記検出部が検出した前記オブジェクトの中から複数の主オブジェクトを特定するオブジェクト特定部と、
複数の前記主オブジェクトに対応する前記撮像装置の撮像面又は前記撮像装置の撮像面の一部の領域に対して、複数の前記主オブジェクトと前記仮想視点との距離に基づいて設定する複数の前記奥行を取得する奥行取得部と、
を備え、
前記撮像装置は、
複数の前記主オブジェクトに対応する複数の第１の撮像装置と、
複数の前記主オブジェクトに対応しない複数の第２の撮像装置と、
を含み、かつ、
前記奥行取得部が、各前記第１の撮像装置に対して異なる前記奥行を設定した場合、
又は、
前記撮像装置の撮像面の一部の領域は、複数の前記主オブジェクトに対応する前記撮像装置の撮像面の一部である複数の第１の領域と、複数の前記主オブジェクトに対応しない前記撮像装置の撮像面の一部である複数の第２の領域と、を含み、かつ、前記奥行取得部が、各前記第１の領域に対して異なる前記奥行を設定した場合に、
前記仮想視点を囲むように全ての前記主オブジェクトの近傍を通る奥行線を求めて、前記奥行線に基づいて前記第２の撮像装置又は前記第２の領域に対して前記奥行を設定する奥行補間部をさらに備える情報取得装置。
所定の位置を含む領域が撮影範囲となるように前記所定の位置を含む領域の周囲に設置された複数の撮像装置が撮影した画像を複数の入力画像として、前記所定の位置を仮想的な視点である仮想視点として前記仮想視点に対して設定された奥行に基づいて複数の前記入力画像に基づく画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置であって、
各前記入力画像から被写体であるオブジェクトを検出する検出部と、
前記検出部が検出した前記オブジェクトの中から複数の主オブジェクトを特定するオブジェクト特定部と、
複数の前記主オブジェクトに対応する前記入力画像又は前記入力画像の一部の領域に対して、複数の前記主オブジェクトと前記仮想視点との距離に基づいて設定する複数の前記奥行を取得する奥行取得部と、
を備え、
全ての前記主オブジェクトの近傍を通る奥行線を求めて、前記撮像装置の撮像面又は前記撮像装置の撮像面の一部の領域に対して、又は、前記入力画像又は前記入力画像の一部の領域に対して、前記奥行線と前記仮想視点との距離に基づいて複数の前記奥行を設定する奥行補間部をさらに備える情報取得装置。
前記画像合成処理は、
前記奥行取得部又は前記奥行補間部が設定した前記奥行に基づいて前記入力画像において切り出す領域である切り出し領域を特定して、前記入力画像から特定した領域の画像を切り出す切出処理部と、
前記奥行取得部又は前記奥行補間部が設定した前記奥行に基づいて、前記切出処理部が切り出した画像を前記仮想視点画像として合成するための変形処理を行った部分画像を生成し、生成した部分画像を前記仮想視点画像に合成する画像合成部とを備える画像処理装置を用いて行う
請求項２に記載の情報取得装置。
前記奥行補間部は、前記仮想視点を囲むように全ての前記主オブジェクトの位置を通る高次曲線を前記奥行線として求める請求項１から４のいずれか一項に記載の情報取得装置。
前記奥行補間部は、前記仮想視点を囲むように全ての前記主オブジェクトの位置を通る折れ線を前記奥行線として求める請求項１から４のいずれか一項に記載の情報取得装置。
前記奥行補間部は、全ての前記主オブジェクトの位置近傍を通り、かつ、仮想視点を囲む曲線又は折れ線を前記奥行線として求める請求項１から４のいずれか一項に記載の情報取得装置。
前記仮想視点画像は、広角画像又は全天球画像である請求項１から７のいずれか一項に記載の情報取得装置。
所定の位置を含む領域が撮影範囲となるように前記所定の位置を含む領域の周囲に設置された複数の撮像装置が撮影した画像を複数の入力画像として、前記所定の位置を仮想的な視点である仮想視点として前記仮想視点に対して設定された奥行に基づいて複数の前記入力画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置を用いた情報取得方法であって、
各前記入力画像から被写体であるオブジェクトを検出する検出ステップと、
前記検出ステップにおいて検出した前記オブジェクトの中から複数の主オブジェクトを特定するオブジェクト特定ステップと、
複数の前記主オブジェクトに対応する前記撮像装置の撮像面又は前記撮像装置の撮像面の一部の領域に対して、複数の前記主オブジェクトと前記仮想視点との距離に基づいて設定する複数の前記奥行を取得する奥行取得ステップと、
を有し、
全ての前記主オブジェクトの近傍を通る奥行線を求めて、前記撮像装置の撮像面又は前記撮像装置の撮像面の一部の領域に対して、又は、前記入力画像又は前記入力画像の一部の領域に対して、前記奥行線と前記仮想視点との距離に基づいて複数の前記奥行を設定するステップをさらに有する情報取得方法。
所定の位置を含む領域が撮影範囲となるように前記所定の位置を含む領域の周囲に設置された複数の撮像装置が撮影した画像を複数の入力画像として、前記所定の位置を仮想的な視点である仮想視点として前記仮想視点に対して設定された奥行に基づいて複数の前記入力画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置を用いた情報取得方法であって、
各前記入力画像から被写体であるオブジェクトを検出する検出ステップと、
前記検出ステップにおいて検出した前記オブジェクトの中から複数の主オブジェクトを特定するオブジェクト特定ステップと、
複数の前記主オブジェクトに対応する前記撮像装置の撮像面又は前記撮像装置の撮像面の一部の領域に対して、複数の前記主オブジェクトと前記仮想視点との距離に基づいて設定する複数の前記奥行を取得する奥行取得ステップと、
を有し、
前記撮像装置は、
複数の前記主オブジェクトに対応する複数の第１の撮像装置と、
複数の前記主オブジェクトに対応しない複数の第２の撮像装置と、
を含み、かつ、
前記奥行取得ステップにおいて、各前記第１の撮像装置に対して異なる前記奥行を設定した場合、
又は、
前記撮像装置の撮像面の一部の領域は、複数の前記主オブジェクトに対応する前記撮像装置の撮像面の一部である複数の第１の領域と、複数の前記主オブジェクトに対応しない前記撮像装置の撮像面の一部である複数の第２の領域と、を含み、かつ、前記奥行取得ステップにおいて、各前記第１の領域に対して異なる前記奥行を設定した場合に、
前記仮想視点を囲むように全ての前記主オブジェクトの近傍を通る奥行線を求めて、前記奥行線に基づいて前記第２の撮像装置又は前記第２の領域に対して前記奥行を設定するステップをさらに有する情報取得方法。
所定の位置を含む領域が撮影範囲となるように前記所定の位置を含む領域の周囲に設置された複数の撮像装置が撮影した画像を複数の入力画像として、前記所定の位置を仮想的な視点である仮想視点として前記仮想視点に対して設定された奥行に基づいて複数の前記入力画像に基づく画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置を用いた情報取得方法であって、
各前記入力画像から被写体であるオブジェクトを検出する検出ステップと、
前記検出ステップにおいて検出した前記オブジェクトの中から複数の主オブジェクトを特定するオブジェクト特定ステップと、
複数の前記主オブジェクトに対応する前記入力画像又は前記入力画像の一部の領域に対して、複数の前記主オブジェクトと前記仮想視点との距離に基づいて設定する複数の前記奥行を取得する奥行取得ステップと、
を有し、
全ての前記主オブジェクトの近傍を通る奥行線を求めて、前記撮像装置の撮像面又は前記撮像装置の撮像面の一部の領域に対して、又は、前記入力画像又は前記入力画像の一部の領域に対して、前記奥行線と前記仮想視点との距離に基づいて複数の前記奥行を設定するステップをさらに有する情報取得方法。
請求項１から請求項３のいずれか一項に記載の情報取得装置としてコンピュータを機能させるための情報取得プログラム。