JP2019016230A

JP2019016230A - 学習装置、画像合成装置、学習方法、画像合成方法、及びプログラム

Info

Publication number: JP2019016230A
Application number: JP2017134024A
Authority: JP
Inventors: 広太竹内; Kota Takeuchi; 木全　英明; Hideaki Kimata; 英明木全; 越智　大介; Daisuke Ochi; 大介越智; 和樹岡見; Kazuki Okami
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-07-07
Filing date: 2017-07-07
Publication date: 2019-01-31

Abstract

【課題】より少ない教師データと学習時間で学習処理を行い、学習処理によって得られた学習済みデータにより高品質な任意視点画像を合成すること。
【解決手段】学習用合成視点位置と、参照視点位置とを含む複数の視点位置から撮像した複数の画像データを取得し、取得した画像データに基づいて、画像データ間において対応する位置関係にある画像対応点を検出し、検出した画像対応点の三次元座標情報と、視点位置ごとのカメラパラメータとを算出し、算出した情報により参照視点位置において撮像された画像データを、学習用合成視点位置の視点方向に位置し学習用合成視点位置において撮影される画像の画像平面と平行である投影平面に投影することにより投影画像データを生成し、投影画像データを入力データとし、学習用合成視点位置で撮像された画像データを教師データとして学習処理を行うことによって学習済みデータを生成する。
【選択図】図１

Description

本発明は、学習装置、画像合成装置、学習方法、画像合成方法、及びプログラムに関する。

複数の視点から撮影した画像を入力画像として、撮影していない視点の画像を合成することを自由視点映像合成といい、古くから盛んに研究開発が進められている。例えば、視聴者が自由に視点を操作して任意の視点から視聴できる自由視点映像コンテンツを生成する技術や、スポーツ中継のリプレイ映像をより魅力的なアングルの映像に変換する映像編集技術などが研究開発されている。自由視点映像合成の技術は、様々なアプリケーションへの応用が期待されている。

しかし、現在の自由視点映像合成技術では、現状のテレビ映像と同等の映像品質で合成するために、膨大な数のカメラの設置と計算機リソースが求められるため、実用化に至っておらず、現在も合成アルゴリズムの改良が求められている。自由視点映像を合成する手法はステレオカメラなど複数台のカメラ映像から推定する手法と、デプスセンサ・レーザセンサを併用する手法の２つに大別することができる。

複数台のカメラを用いる前者の手法の場合、カメラパラメータと呼ばれるカメラの位置、姿勢およびカメラの焦点距離などを利用し、各カメラの画像間の対応関係の推定からシーンのデプス画像を推定する（例えば、非特許文献１参照）。これに対して、デプスセンサなどを用いる後者の手法の場合、被写体に対し非可視光である近赤外線などを高周波に照射し、その反射波との位相差信号からデプス画像を推定する（例えば、非特許文献２参照）。

上記のいずれの手法においても、デプス画像を推定することにより被写体の三次元形状を観測し、それを任意の視点に投影することで画像を合成しているため、デプス画像の品質が、ダイレクトに合成画像品質に影響する。そのため、より精度の高いデプス画像を求めることが必要となる。

これに対して、明にデプス画像を推定せずに、多視点画像から直接的に画像を合成しようとする手法も提案されている（例えば、非特許文献３参照）。この手法ではデプス画像を明には推定せずに、画像対応の推定を利用し、画像補間を行うことで任意視点の画像を合成している。例えば、画像中の空や壁等の均一な輝度をもつ広い領域では、画素毎に明に正しいデプスを推定することが難しく、この画像補間による手法を適用することで、このような領域であっても比較的高品質に任意視点画像を合成することができる。

Andreas Klaus, Mario Sormann and Konrad Karner, "Segment-Based Stereo Matching Using Belief Propagation and a Self-Adapting Dissimilarity Measure", 18th International Conference on Pattern Recognition (ICPR'06). Vol. 3. IEEE, 2006. Zhengyou Zhang, "Microsoft Kinect Sensor and Its Effect", IEEE multimedia 19.2 (2012): 4-10. Shenchang Eric Chen, Lance Williams, "View Interpolation for Image Synthesis", Proceedings of the 20th annual conference on Computer graphics and interactive techniques. ACM, 1993.

非特許文献３に示される手法等の多くの画像合成手法では、任意視点画像を合成するために、合成したい視点の近傍で撮影された複数の多視点画像のみを入力画像としている。そのため、オクルージョンや反射情報等、入力される多視点画像に含まれる情報だけからでは、推定できない情報の復元が必要となってしまう。

情報量の不足分を補うため、上記の複数の多視点画像に併せて、過去に撮られた多視点画像や、ＣＧ(Computer Graphics)で生成される多視点画像などを利用して情報量を増やすことも考えられる。例えば、このようにして情報量を増やした情報を教師データとして、ＤＮＮ（Deep Neural Network）に与えて学習処理を行うことで、より高品質な任意視点画像を合成するといったことも考えられる。

しかしながら、多視点画像を入力層に与えて出力層から任意視点画像を出力する単純なＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋでは、中間層において、画像合成の本質的な構成だけでなく、各カメラの視点位置等のカメラの幾何関係も学習する必要がある。そのため、膨大な教師データと学習時間が必要となるため、現実的に実現することが難しいという問題がある。

上記事情に鑑み、本発明は、より少ない教師データと、より短い学習時間の学習処理とで、より高品質な任意視点画像を合成することができる技術の提供を目的としている。

本発明の一態様は、学習用に予め定められる学習用合成視点位置と、予め定められる参照視点位置とを含む複数の視点位置から撮像した複数の画像データを取得し、取得した前記画像データに基づいて、前記画像データ間において対応する位置関係にある画像対応点を検出し、検出した前記画像対応点の三次元座標情報と、前記視点位置ごとのカメラパラメータとを算出する事前処理部と、前記画像対応点の三次元座標情報と、前記カメラパラメータとに基づいて、前記参照視点位置において撮像された前記画像データを、前記学習用合成視点位置の視点方向に位置する投影平面であって前記学習用合成視点位置において撮影される画像の画像平面と平行である投影平面に投影することにより投影画像データを生成する投影画像生成部と、前記投影画像データを入力データとし、前記学習用合成視点位置で撮像された前記画像データを教師データとしてディープニューラルネットワークに与えて学習処理を行うことによって学習済みデータを生成する学習処理部と、を備える学習装置である。

本発明の一態様は、上記の学習装置であって、前記投影画像生成部は、前記学習用合成視点位置のカメラパラメータに基づいて、前記画像対応点の三次元座標情報を前記学習用合成視点位置における前記画像平面に投影し、前記画像平面を予め定められる大きさの領域に分割し、分割した前記領域の各々に対して、前記領域を含む前記領域より広い第１の参照領域を設け、前記第１の参照領域ごとに奥行き探索範囲を定め、定めた前記奥行き探索範囲内に前記投影平面を設け、設けた前記投影平面に対して前記参照視点位置において撮像される前記画像データを変換し、前記投影平面に変換された前記画像データを前記第１の参照領域に投影することにより、前記領域ごとに前記第１の参照領域の大きさを有する前記投影画像データを生成する。

本発明の一態様は、上記の学習装置であって、前記投影画像生成部は、第１の参照領域ごとに、当該第１の参照領域に対応する前記奥行き探索範囲内で、前記学習用合成視点位置の視点方向に予め定められる数の投影平面を設け、前記学習処理部は、ディープニューラルネットワークを用いて学習処理を行い、前記ディープニューラルネットワークは、同一構成である第１のネットワークと第２のネットワークと、前記第１のネットワークに接続する追加中間層と、前記第２のネットワークと前記追加中間層とに接続するイメージング層と、前記イメージング層に接続する出力層とを備え、前記第１のネットワークと第２のネットワークの各々は、前記投影平面の数に応じたサブネットワークを有しており、前記サブネットワークの各々が、前記参照視点位置の数の入力層を有しており、前記第１のネットワークと第２のネットワークの各々は、前記参照視点位置の数に前記投影平面の数を乗じた枚数の前記領域ごとの前記投影画像データの各々を、前記枚数と同数の前記入力層により取り込み、前記サブネットワークの各々が前記投影画像データに対して畳み込み演算を行い、前記サブネットワークの出力情報を結合して得られる前記第１の参照領域と同一の大きさの画像データであって前記投影平面の枚数分の画像データを出力し、前記追加中間層は、前記第１のネットワークが出力する前記投影平面の枚数と同数の前記画像データに対して畳み込み演算を行い前記画像データに含まれる画素に関する出力情報を出力し、前記イメージング層は、前記第２のネットワークが出力する前記画像データと、前記追加中間層の前記出力情報とに基づいて新たに画像データを合成し前記出力層を通じて前記新たな画像データを出力画像データとして出力し、前記学習処理部は、前記出力層から出力される前記領域の各々に対応する前記出力画像データと、前記教師データとして与えられる前記学習用合成視点位置で撮像された前記画像データのうち前記出力画像データに対応する部分の画像データとに基づいて、前記ディープニューラルネットワークに適用される重み係数の更新値の算出を行うことにより前記学習済みデータを生成する。

本発明の一態様は、上記の学習装置であって、前記投影画像生成部は、前記画像平面を予め定められる大きさの領域に分割して得られる第１の参照領域を設けた場合には、前記第１の参照領域に投影されている前記画像対応点のＺ方向の成分の値であるデプス値の最大値と最小値に基づいて、前記第１の参照領域ごとの前記奥行き探索範囲を定め、前記画像平面全体を分割しない場合には、前記画像平面全体を含む第２の参照領域を設定し、設定した前記第２の参照領域に投影されている前記画像対応点のＺ方向の成分の値であるデプス値の最大値と最小値に基づいて、前記第２の参照領域ごとの前記奥行き探索範囲を定める。

本発明の一態様は、予め定められる複数の参照視点位置から撮像した複数の画像データを取得し、取得した前記画像データに基づいて、前記画像データ間において対応する位置関係にある画像対応点を検出し、検出した前記画像対応点の三次元座標情報と、前記参照視点位置ごとのカメラパラメータとを算出する事前処理部と、任意に定められる任意合成視点位置のカメラパラメータを取得し、前記事前処理部が算出する前記画像対応点の三次元座標情報と、前記参照視点位置ごとのカメラパラメータと、前記任意合成視点位置のカメラパラメータとに基づいて、前記参照視点位置において撮像された前記画像データを、前記任意合成視点位置の視点方向に位置する投影平面であって前記任意合成視点位置の画像平面と平行である投影平面に投影して投影画像データを生成する投影画像生成部と、上記の学習装置が生成した学習済みデータを取り込み、前記学習装置のディープニューラルネットワークと同一の前記ディープニューラルネットワークに取り込んだ前記学習済みデータを適用し、前記学習済みデータを適用した前記ディープニューラルネットワークに対して、前記投影画像生成部が生成する前記投影画像データを入力データとして与え、前記任意合成視点位置において合成した画像データを出力する画像合成部と、を備える画像合成装置である。

本発明の一態様は、学習用に予め定められる学習用合成視点位置と、予め定められる参照視点位置とを含む複数の視点位置から撮像した複数の画像データを取得し、取得した前記画像データに基づいて、前記画像データ間において対応する位置関係にある画像対応点を検出し、検出した前記画像対応点の三次元座標情報と、前記視点位置ごとのカメラパラメータとを算出する事前処理ステップと、前記画像対応点の三次元座標情報と、前記カメラパラメータとに基づいて、前記参照視点位置において撮像された前記画像データを、前記学習用合成視点位置の視点方向に位置する投影平面であって前記学習用合成視点位置において撮影される画像の画像平面と平行である投影平面に投影することにより投影画像データを生成する投影画像生成ステップと、前記投影画像データを入力データとし、前記学習用合成視点位置で撮像された前記画像データを教師データとしてディープニューラルネットワークに与えて学習処理を行うことによって学習済みデータを生成する学習処理ステップと、を有する学習方法である。

本発明の一態様は、予め定められる複数の参照視点位置から撮像した複数の画像データを取得し、取得した前記画像データに基づいて、前記画像データ間において対応する位置関係にある画像対応点を検出し、検出した前記画像対応点の三次元座標情報と、前記参照視点位置ごとのカメラパラメータとを算出する事前処理ステップと、任意に定められる任意合成視点位置のカメラパラメータを取得し、前記事前処理部が算出する前記画像対応点の三次元座標情報と、前記参照視点位置ごとのカメラパラメータと、前記任意合成視点位置のカメラパラメータとに基づいて、前記参照視点位置において撮像された前記画像データを、前記任意合成視点位置の視点方向に位置する投影平面であって前記任意合成視点位置の画像平面と平行である投影平面に投影して投影画像データを生成する投影画像生成ステップと、上記の学習装置が生成した学習済みデータを取り込み、前記学習装置のディープニューラルネットワークと同一の前記ディープニューラルネットワークに取り込んだ前記学習済みデータを適用し、前記学習済みデータを適用した前記ディープニューラルネットワークに対して、前記投影画像生成部が生成する前記投影画像データを入力データとして与え、前記任意合成視点位置において合成した画像データを出力する画像合成ステップと、を有する画像合成方法である。

また、本発明の一態様は、上記の学習装置、または上記の画像合成装置をコンピュータに実現させるためのプログラムである。

本発明により、より少ない教師データと、より短い学習時間の学習処理とで、より高品質な任意視点画像を合成することが可能となる。

本発明の一実施形態による学習装置の構成を示すブロック図である。学習装置に関係する情報を示す図である。学習装置の学習処理部が備えるＤＮＮ部の構成を示す図である。学習装置の事前処理部による処理の流れを示すフローチャートである。学習装置の投影画像生成部による処理の流れを示すフローチャートである。投影画像生成部の投影平面選定部による処理を説明する図（その１）である。投影画像生成部の投影平面選定部による処理を説明する図（その２）である。学習処理部による処理の流れを示すフローチャートである。投影画像生成部のＤＮＮ部に与えられる入力データを説明する図である。本発明の一実施形態による画像合成装置の構成を示すブロック図である。画像合成装置による処理の流れを示すフローチャートである。画像合成装置に関係する情報を示す図である。

以下、本発明の一実施形態について図面を参照して説明する。本実施形態は、学習段階の構成と、画像合成段階の構成の２つの構成を含んでおり、最初に、図１に示す学習装置１に基づく学習段階の構成について説明する。その後、図９に示す画像合成装置１ａが、学習装置１が生成した学習済みデータ１１５を用いて画像データを合成する画像合成段階の構成について説明する。

（学習段階の構成について）
図１は、本実施形態による学習装置１の構成を示すブロック図である。学習装置１は、事前処理部１０、投影画像生成部２０、及び学習処理部３０を備える。事前処理部１０は、画像データ取得部１１、画像対応点検出部１２、カメラパラメータ・三次元座標算出部１３、及び記憶部１４を備える。

事前処理部１０において、画像データ取得部１１は、図２に示されるように、外部から与えられる参照視点画像データ群１０１と、学習用合成視点画像データ１０２とを取り込む。参照視点画像データ群１０１は、予め定められる複数の参照視点位置においてカメラ等の撮像装置により撮影された複数の画像データである。学習用合成視点画像データ１０２は、予め定められる学習用の合成視点位置において撮像装置により撮影された１つの画像データである。

ここで、合成視点位置と参照視点位置の関係について説明する。複数の異なる参照視点位置から共通する被写体を撮影した画像データに基づいて、任意に定める視点位置から参照する際の画像データを合成する場合、当該任意に定める視点位置のことを合成視点位置という。本実施形態では、学習段階において学習用に予め定められる合成視点位置を学習用合成視点位置といい、これに対して、画像合成段階において任意に定める合成視点位置を任意合成視点位置という。

学習用合成視点位置と、任意合成視点位置の違いは、学習段階では、教師データとして与える正確な画像データが必要となる。そのため、学習用合成視点位置は、複数の参照視点位置の近傍の位置に定められ、参照視点位置から撮影した被写体と同一の被写体が、学習用合成視点位置から同じ時間帯に実際に撮影される。学習用合成視点位置において、撮影された画像データが学習用合成視点画像データ１０２として事前処理部１０に与えられる。これに対して、画像合成段階では、参照視点の画像データに基づいて任意合成視点位置における画像データを合成するため、任意合成視点位置では、画像データの撮影は行われないという違いがある。

画像対応点検出部１２は、画像データ取得部１１が取り込んだ複数の画像データから画像特徴点を検出する。ここで、画像特徴点としては、例えば、ＳＩＦＴやＨａｒｒｉｓの画像特徴点が適用されるが、これらに限られるわけではなく、他の画像特徴点が適用されてもよい。また、画像対応点検出部１２は、検出した画像特徴点に基づいて、画像データ間での二次元の対応関係を算出して画像対応点の検出を行う。例えば、異なる画像データの各々に異なる角度から撮影した共通する被写体が示されている場合、当該被写体の画像間における同一またはほぼ同一の画像特徴を示す画像特徴点の位置が、各々の画像データにおける画像対応点となる。

カメラパラメータ・三次元座標算出部１３は、画像対応点検出部１２が検出した画像対応点に基づいて、画像対応点の三次元復元を行い、図２に示すように、画像対応点の三次元座標情報１０３と、視点位置の各々に対応するカメラパラメータとを算出する。カメラパラメータには、参照視点ごとのカメラパラメータ１０４と、学習用合成視点のカメラパラメータ１０５とが含まれる。算出方法としては、例えば、ＢｕｎｄｌｅＡｄｊｕｓｔｍｅｎｔによる手法や因子分解法が適用されるが、これら以外の一般に広く知られた手法が適用されてもよい。

記憶部１４は、画像データ取得部１１が取り込んだ参照視点画像データ群１０１及び学習用合成視点画像データ１０２と、カメラパラメータ・三次元座標算出部１３が算出した画像対応点の三次元座標情報１０３、参照視点群のカメラパラメータ１０４、及び学習用合成視点のカメラパラメータ１０５とを記憶する。

投影画像生成部２０は、画像対応点投影処理部２１、座標情報記憶部２２、投影平面選定部２３、参照視点画像投影処理部２４、及び投影画像記憶部２５を備える。投影画像生成部２０において、画像対応点投影処理部２１は、事前処理部１０の記憶部１４に記憶されている画像対応点の三次元座標情報１０３と、学習用合成視点のカメラパラメータ１０５とに基づいて、画像対応点を学習用合成視点の画像平面に投影する。ここで、投影とは、例えば、透視投影変換として広く知られた投影手法による投影である。

座標情報記憶部２２は、画像対応点投影処理部２１によって学習用合成視点の画像平面に投影された画像対応点の三次元座標情報を記憶する。投影平面選定部２３は、座標情報記憶部２２に記憶されている学習用合成視点の画像平面に投影された画像対応点の三次元座標情報に基づいて、学習用合成視点位置の視点方向に位置する投影平面であって合成視点の画像平面と平行な投影平面を選定する。

参照視点画像投影処理部２４は、事前処理部１０の記憶部１４に記憶されている参照視点ごとのカメラパラメータ１０４及び学習用合成視点のカメラパラメータ１０５に基づいて、参照視点画像データ群１０１を投影平面選定部２３が選定した投影平面に投影することにより投影画像データ群１１０を生成する。投影画像記憶部２５は、投影画像データ群１１０を記憶する。

学習処理部３０は、入力データ取得部３１、教師データ取得部３２、ＤＮＮ（Deep Neural Network：以下、ディープニューラルネットワークともいう）部３３、更新処理部３４、及び重み係数記憶部３５を備える。入力データ取得部３１は、投影画像生成部２０から投影画像データ群１１０を読み出し、読み出した投影画像データ群１１０を入力データとしてＤＮＮ部３３に与える。教師データ取得部３２は、事前処理部１０の記憶部１４から学習用合成視点画像データ１０２を読み出し、読み出した投影画像データ群１１０を教師データとしてＤＮＮ部３３に与える。

ＤＮＮ部３３は、ディープニューラルネットワーク、すなわち多層構造を有するニューラルネットワークであり、例えば、図３に示すように、同一の内部構成を有するネットワークＮＮ−Ａと、ネットワークＮＮ−Ｂとを有しており、ネットワークＮＮ−Ｂには更に、追加中間層が接続され、当該追加中間層には、第５畳み込み層５５０、第６畳み込み層５６０、第７畳み込み層５７０、Ｔａｎｈ層６１１、Ｓｏｆｔｍａｘ層６１２とが含まれる。なお、「畳み込み層」は、図３では、「畳込層」として記載している。

イメージング層６１３の入力は、ネットワークＮＮ−Ｂの出力と、Ｓｏｆｔｍａｘ層６１２の出力に接続されており、出力層６１４が、イメージング層６１３の出力に接続されている。ネットワークＮＮ−ＡとネットワークＮＮ−Ｂの各々は、投影平面選定部２３が選定するＭ枚の投影平面の数に対応するＭ個のサブネットワーク７００−１〜７００−Ｍと、サブネットワーク７００−１〜７００−Ｍの出力データをチャネル方向に連結する第２連結層６０２とを備える。サブネットワーク７００−１〜７００−Ｍの各々は、参照視点位置の数に応じた個数の入力層４００−１〜４００−４と、入力層４００−１〜４００−４の各々に接続する第１畳み込み層５１０−１〜５１０−４と、第１畳み込み層５１０−１〜５１０−４の出力データをチャネル方向に連結する第１連結層６０１と、第１連結層６０１の後段に備えられる第２畳み込み層５２０、第３畳み込み層５３０、第４畳み込み層５４０を備える。

第１畳み込み層５１０−１〜５１０−４、及び第２畳から第７の畳み込み層５２０〜５７０は、一般的に知られている二次元の畳み込み演算を行う層であり、活性化関数としてランプ関数が適用され、カーネルサイズとチャネル数は自由に設計可能となっている。Ｔａｎｈ層６１１は、一般的に知られているハイパボリックタンジェント関数の活性化関数を適用した演算を行う層である。Ｓｏｆｔｍａｘ層６１２は、一般的に知られているソフトマックス関数を適用した演算を行う層である。

イメージング層６１３は、ネットワークＮＮ−Ｂの第２連結層６０２の出力と、Ｓｏｆｔｍａｘ層６１２の出力とに基づいて画像データを生成する。出力層６１４は、出力する画像データの画素数分の素子を有しており、イメージング層６１３が生成した画像データを出力する。なお、以下において、入力層４００−１〜４００−４と、出力層６１４以外の層を中間層ともいう。

更新処理部３４は、教師データ取得部３２が取得した教師データである学習用合成視点画像データ１０２と、ＤＮＮ部３３の出力層６１４が出力する画像データとに基づいて、ＤＮＮ部３３の各層の重み係数の更新を行う。重み係数記憶部３５は、ＤＮＮ部３３の各層に適用される重み係数を記憶する。重み係数記憶部３５は、重み係数の初期値を予め記憶しており、記憶する重み係数が、更新処理部３４が算出する新たな重み係数に書き換えられて更新される。

（学習段階における処理：事前処理部による処理）
次に、学習装置１による学習処理の流れについて説明する。図４は、事前処理部１０による処理の流れを示すフローチャートである。事前処理部１０の画像データ取得部１１は、参照視点画像データ群１０１と、学習用合成視点画像データ１０２とを外部から取り込む（ステップＳａ１）。

画像対応点検出部１２は、参照視点画像データ群１０１と、学習用合成視点画像データ１０２とに含まれる画像データから画像特徴点を検出し、検出した画像特徴点に基づいて、画像データ間での二次元の対応関係を算出して画像対応点の検出を行う（ステップＳａ２）。カメラパラメータ・三次元座標算出部１３は、画像対応点検出部１２が検出した画像対応点に基づいて、画像対応点の三次元復元を行い、ワールド座標系における画像対応点の三次元座標情報１０３と、参照視点ごとのカメラパラメータ１０４と、学習用合成視点のカメラパラメータ１０５とを算出して記憶部１４に書き込んで記憶させる（ステップＳａ３）。

ここで、ワールド座標系における三次元座標点を次式（１）で表すとする。

また、式（１）で示される三次元座標点を、カメラ座標系に変換した三次元座標点を次式（２）で表すとする。

また、画像データの画像面の二次元座標に投影した座標点を次式（３）で表すとする。

このとき、式（１）のワールド座標系と、式（２）のカメラ座標系には、次式（４）で示される関係が成立する。

また、式（２）のカメラ座標系と、式（３）の画像平面の座標系には、次式（５）で示される関係が成立する。

なお、式（５）において、αは、スケールパラメータとして一般的に知られたパラメータであり、次式（６）の関係がある。

式（６）の右辺は、カメラ座標系のＺ成分の値であり、以下において、「Ｐ_ｚ ^ｃ」として表す。カメラパラメータとは、式（４）の右辺の最初の行列の各要素である外部パラメータの（Ｒ_００〜Ｒ_２２，Ｔ_ｘ，Ｔ_ｙ，Ｔ_ｚ）と、式（５）の右辺の内部パラメータの（ｆ_ｘ，ｆ_ｙ，ｃ_ｘ，ｃ_ｙ）とによって示されるパラメータである。なお、カメラのレンズ歪みを考慮するカメラモデルの場合、カメラパラメータにレンズ歪みパラメータを加えるようにしてもよい。

（学習段階における処理：投影画像生成部による処理）
図５は、投影画像生成部２０による処理の流れを示すフローチャートである。投影画像生成部２０の画像対応点投影処理部２１は、事前処理部１０の記憶部１４から画像対応点の三次元座標情報１０３と、学習用合成視点のカメラパラメータ１０５とを読み出す。画像対応点投影処理部２１は、読み出した画像対応点の三次元座標情報１０３と、学習用合成視点のカメラパラメータ１０５に基づいて画像対応点の三次元座標情報１０３を学習用合成視点画像平面２５０に投影する。

画像対応点投影処理部２１は、投影することにより上式（２）により示される学習用合成視点のカメラ座標系の三次元座標情報を得る。学習用合成視点のカメラ座標系の三次元座標情報のうち、Ｚ成分である「Ｐ_ｚ ^ｃ」をデプス値という。デプス値は、カメラ座標系のカメラから被写体までの奥行値を表す値である。画像対応点投影処理部２１は、Ｚ成分の「Ｐ_ｚ ^ｃ」を、式（２）のｘ成分とｙ成分とから検索できるように、ｘ成分「Ｐ_ｘ ^ｃ」とｙ成分「Ｐ_ｙ ^ｃ」とともに座標情報記憶部２２に書き込んで記憶させる（ステップＳｂ１）。

投影平面選定部２３は、学習用の合成視点画像平面２５０を図６（ａ）に示すような格子状、すなわちグリッド形状に分割する（ステップＳｂ２）。なお、図６（ａ）では、左上のグリッドのみに対して符号２６０−０を付して示しているが、以下の説明において、いずれか１つの任意のグリッドを示す場合、グリッド２６０−ｇ（ただし、ｇは、０から始まる正の整数値であり、図６（ａ）の合成視点画像平面２５０の場合、０≦ｇ≦３４の整数値である）という。

各々のグリッド２６０−ｇの大きさは全て同一であり、以下、横方向の画素数をＧｘ、縦方向の画素数をＧｙとして表す。具体的な画素数としては、例えば、Ｇｘ＝８、Ｇｙ＝８の８×８画素程度の大きさが適用される。

投影平面選定部２３は、グリッド２６０−ｇの各々に対して、グリッド２６０−ｇを中心として、当該グリッド２６０−ｇを含んだ予め定められる範囲の参照領域を定める。例えば、投影平面選定部２３の処理対象が、図６（ｂ）に示すグリッド２６０−ｇの位置の場合、投影平面選定部２３は、グリッド２６０−ｇを含む参照領域として、参照領域２６５−ｇを定める。グリッド２６０−ｇの中心位置と、参照領域２６５−ｇの中心位置とは、同一位置であり、図６では、グリッド２６０−ｇが８×８画素の大きさを有する場合の一例として、３２×３２画素の大きさの参照領域２６５−ｇの例を示している。

投影平面選定部２３は、処理対象のグリッド２６０−ｇの参照領域２６５−ｇの中にステップＳｂ１において、学習用の合成視点画像平面２５０に投影された画像対応点が１つ以上存在するか否かを判定する（ステップＳｂ３）。投影平面選定部２３は、参照領域２６５−ｇの中に画像対応点が１つ以上存在すると判定した場合（ステップＳｂ３、ＹＥＳ）、投影平面選定部２３は、参照領域２６５−ｇの中に投影された画像対応点の中から最小と最大のデプス値を有する画像対応点を選択する（ステップＳｂ４）。

一方、投影平面選定部２３は、参照領域２６５−ｇの中に画像対応点が存在しないと判定した場合（ステップＳｂ３、ＮＯ）、投影平面選定部２３は、更に広い参照領域２６５−ｇを設定し、設定した更に広い参照領域２６５−ｇにおいて最小と最大のデプス値を有する画像対応点を選択する（ステップＳｂ５）。更に広い参照領域２６５−ｇを設定する手法としては、どのような手法が適用されてもよいが、例えば、以下のような手法がある。すなわち、投影平面選定部２３は、処理対象としているグリッド２６０−ｇの近傍に存在する他のグリッド２６０−ｇの中から、既に最小と最大のデプス値を有する他のグリッド２６０−ｇを検出する。投影平面選定部２３は、検出した他のグリッド２６０−ｇの最小と最大のデプス値を処理対象のグリッド２６０−ｇの最小と最大のデプス値とする。

以下の説明において、ステップＳｂ４及びステップＳｂ５において、選択された最小と最大のデプス値をそれぞれＤ_{Ｃｌｏｓｅ}、Ｄ_ｆａｒとして表すものとする。なお、画像対応点が１つしか存在しない場合、当該１つの画像対応点が、最小と最大のデプス値を兼ねるものとし、Ｄ_{Ｃｌｏｓｅ}＝Ｄ_ｆａｒとなる。

投影平面選定部２３は、デプス値がＤ_{Ｃｌｏｓｅ}とＤ_ｆａｒとに基づいて、処理理対象のグリッド２６０−ｇに対して、図７に示すような奥行き探索範囲２７５−ｇを設定する（ステップＳｂ６）。図７に示す例は、参照視点位置の数をＮとした場合、Ｎ＝４とした例であり、４つの参照カメラ２１０，２１１，２１２，２１３が、参照視点位置に配置される。４つの参照カメラ２１０，２１１，２１２，２１３の各々によって、参照視点画像データ群１０１に含まれる４つの参照視点画像データが撮影される。合成視点カメラ２００は、学習用合成視点位置に配置され、学習用合成視点画像データ１０２を撮影する。

学習用合成視点画像データ１０２の画像平面である合成視点画像平面２５０の視点方向、すなわち画像平面に対して垂直方向の一方に、上底を合成視点画像平面２５０とし、合成視点カメラ２００の画角に応じて広がる四角錐台が形成される。この四角錐を合成視点の視錐台２８０という。デプス値は、合成視点の視錐台２８０に沿って、合成視点画像平面２５０の中心から離れた距離を示す値となる。奥行き探索範囲２７５−ｇは、合成視点の視錐台２８０の内部の領域において、上底を参照領域２６５−ｇとした四角錐台であって後述するＷ_{ｃｌｏｓｅ}とＷ_ｆａｒの分の余裕を加えて、デプス値がＤ_{Ｃｌｏｓｅ}からＤ_ｆａｒの部分を切り取った範囲となる。

投影平面選定部２３は、奥行き探索範囲２７５−ｇにおいて、合成視点画像平面２５０と平行な平面であって予め定められるＭ枚の仮想的な平面である投影平面２７０−ｇ−０〜２７０−ｇ−（Ｍ−１）を選定する（ステップＳｂ７）。Ｍは、任意の枚数としてよいが、例えば、Ｍ＝９６枚程度の枚数が適用される。なお、投影平面は、三次元画像処理の分野において、デプスレイヤと呼ばれるレイヤに相当するものである。

投影平面選定部２３は、ｍ（ただし、ｍは、０≦ｍ≦Ｍ−１の整数値）枚目の投影平面２７０−ｇ−ｍのデプス値ｄ_ｍを次式（７）に基づいて算出する。

式（７）において、ａの値は、次式（８）によって定められ、ｂの値は、次式（９）によって定められ、ｋの値は、次式（１０）によって定められる。

また、式（１０）におけるｋ_ｆａｒとｋ_{ｃｌｏｓｅ}は、次式（１１）及び（１２）によって定められる。

式（８）及び式（９）において、Ｄ_ｍｉｎとＤ_ｍａｘは、全てのグリッド２６０−ｇにおける最小と最大のデプス値、すなわち合成視点画像平面２５０に投影された画像対応点の中における最小と最大のデプス値である。式（１０）におけるＷ_{ｃｌｏｓｅ}とＷ_ｆａｒは、それぞれ奥行き探索範囲２７５−ｇを厳密にＤ_{Ｃｌｏｓｅ}からＤ_ｆａｒまでの範囲とするのではなく、少し余裕のある範囲とするためのパラメータであり、例えば、Ｍの１割から２割程度の値が適用される。

上記の式（７）から式（１２）を適用して、投影平面選定部２３が、デプス値ｄ_{０〜Ｍ−１}の値を算出することで、各々のデプス値ｄ_{０〜Ｍ−１}に選定される投影平面２７０−ｇ−０〜２７０−ｇ−（Ｍ−１）の間隔が、合成視点位置から離れれば離れるほど疎になる、すなわち間隔が大きくなるようにすることができる。これにより、合成劣化を招くことなく計算量を抑えることが可能となる。

参照視点画像投影処理部２４は、投影平面選定部２３が選定した投影平面２７０−ｇ−０〜２７０−ｇ−（Ｍ−１）の各々に対して、参照カメラ２１０，２１１，２１２，２１３で撮影された参照視点画像データ群１０１を投影することにより投影画像データを生成する（ステップＳｂ８）。ここで、以下の説明の便宜上、投影平面２７０−ｇ−０〜２７０−ｇ−（Ｍ−１）の各々に対応して、参照視点画像データごとに生成される投影画像データを投影画像データ１１０−ｇ−０−ｎ〜１１０−ｇ−（Ｍ−１）−ｎ（ただし、ｎは、０≦ｎ≦Ｎ−１の整数値）として記載する。

例えば、上述した例の通り、参照視点数Ｎが、Ｎ＝４である場合、参照視点画像投影処理部２４は、事前処理部１０の記憶部１４から参照視点ごと、すなわち４つの参照カメラ２１０，２１１，２１２，２１３の各々に対応するカメラパラメータ１０４を読み出す。参照視点画像投影処理部２４は、読み出した４つのカメラパラメータ１０４を用いて、参照視点画像データ群１０１に含まれる４つの参照視点画像データを１つ目の投影平面２７０−ｇ−０に変換する。

次に、参照視点画像投影処理部２４は、事前処理部１０の記憶部１４から学習用合成視点のカメラパラメータ１０５を読み出す。参照視点画像投影処理部２４は、読み出した学習用合成視点のカメラパラメータ１０５を用いて、投影平面２７０−ｇ−０に変換された４つの参照視点画像データのそれぞれを合成視点画像平面２５０の参照領域２６５−ｇに投影する。

これにより、参照視点画像投影処理部２４は、１つ目の投影平面２７０−ｇ−０に対応する４つの参照視点画像データごとの投影画像データ１１０−ｇ−０−０，１１０−ｇ−０−１，１１０−ｇ−０−２，１１０−ｇ−０−３を生成する。この処理を残りのＭ−１枚の投影平面２７０−ｇ−１〜２７０−ｇ−（Ｍ−１）の各々に対して行うことにより、参照視点画像投影処理部２４は、合計で４×Ｍ枚の投影画像データ１１０−ｇ−１−０〜１１０−ｇ−（Ｍ−１）−３を生成する。参照視点画像投影処理部２４は、参照領域２６５−ｇに対応して生成した投影画像データ１１０−ｇ−０−０〜１１０−ｇ−（Ｍ−１）−３を投影画像記憶部２５に書き込んで記憶させる。

なお、参照視点画像投影処理部２４が行う投影も一般的な透視投影変換である。参照視点画像データ群１０１に含まれる参照視点画像データの参照視点画像平面から投影平面２７０−ｇ−ｍの各々に対する変換は、例えば、Ｈｏｍｏｇｒａｐｈｙ行列を用いて変換する手法等が適用される。

参照視点画像投影処理部２４は、全てのグリッド２６０−ｇに対しての処理が終了したか否かを判定する（ステップＳｂ９）。参照視点画像投影処理部２４は、全てのグリッド２６０−ｇに対しての処理が終了していないと判定した場合（ステップＳｂ９、ＮＯ）、処理を行っていない次のグリッド２６０−ｇを選択し（ステップＳｂ１０）、投影平面選定部２３に、ステップＳｂ３からの処理を行わせる。

図７に示す他の奥行き探索範囲２７５−Ｇは、処理対象が、グリッド２６０−Ｇの場合おいて、投影平面選定部２３によって定められる探索範囲である。奥行き探索範囲２７５−Ｇ内に設定される投影平面２７０−Ｇ−１〜２７０−Ｇ−（Ｍ−１）に基づいて、参照視点画像投影処理部２４が、参照領域２６５−Ｇに対応する投影画像データ１１０−Ｇ−０−０〜１１０−Ｇ−（Ｍ−１）−３を生成する。

一方、参照視点画像投影処理部２４は、全てのグリッド２６０−ｇに対しての処理が終了していると判定した場合（ステップＳｂ９、ＹＥＳ）、処理を終了する。これにより、参照視点画像投影処理部２４は、全てのグリッド２６０−ｇの参照領域２６５−ｇに対応する投影画像データ１１０−ｇ−ｍ−ｎの生成を完了する。投影画像記憶部２５には、最終的に、投影画像データ群１１０が記憶されることになる。

投影画像データ１１０−ｇ−ｍ−ｎの各々の解像度は、対応する参照領域２６５−ｇの解像度と同一である。上述したように、参照領域２６５−ｇの解像度を３２×３２画素とした場合、投影画像データ１１０−ｇ−ｍ−ｎの各々の解像度も３２×３２画素となる。

投影画像データ１１０−ｇ−ｍ−ｎの各々は、ＲＧＢの３チャネルにＡチャネルを加えた、ＲＧＢＡの４チャネルの画像データとなっている。画像データ取得部１１が取り込む参照視点画像データ群１０１及び学習用合成視点画像データ１０２は、ＲＧＢの３チャネル画像データである。Ａチャネルは、参照視点画像投影処理部２４によって加えられるチャネルである。例えば、ある参照視点画像データをある投影平面２７０−ｇ−ｍに変換する場合、投影平面２７０−ｇ−ｍの一部の画素に参照視点画像データが含まれておらず空白のままになる場合がある。この場合、参照視点画像投影処理部２４は、Ａチャネルの値を「０」とし、ＲＧＢの全てのチャネルを「０」として設定する。これに対して、画素が存在する場合、参照視点画像投影処理部２４は、Ａチャネルの値を「２５５」とし、ＲＧＢのチャネルには、変換された各々の色に対応する画素値とする。これにより、任意の投影画像データ１１０−ｇ−ｍ−ｎにおいて画素の有無をＡチャネルにより示すことができる。

（学習段階における処理：学習処理部による処理）
図８は、学習処理部３０による処理の流れを示すフローチャートである。学習処理部３０の入力データ取得部３１は、ＤＮＮ部３３に与える入力データとして、投影画像記憶部２５から投影画像データ群１１０を読み出す（ステップＳｃ１）。

投影画像データ１１０−ｇ−ｍ−ｎは、参照領域２６５−ｇごとに、Ｎ（参照視点数）×Ｍ（投影平面数）＝ＮＭ枚存在しており、１枚ごとに上記したＲＧＢＡの４チャネルの情報が含まれている。以下の説明において、投影画像データ１１０−ｇ−ｍ−ｎを、Ｉ_{ｇ，ｎ，ｍ}（ｐ）としても表す。Ｉ_{ｇ，ｎ，ｍ}（ｐ）は、ｇ番目のグリッド２６０−ｇの参照領域２６５−ｇに対応するデプス値ｄ_ｍにあるｍ枚目の投影平面２７０−ｇ−ｍに対して、ｎ枚目の参照視点画像データを変換し、更に、参照領域２６５−ｇに投影して得られる画像データを示す。入力データ取得部３１が、最初のステップＳｃ１において、例えば、ｇ＝０から順に読み出すとすると、グリッド２６０−０についてのＮＭ枚のＩ_{ｇ＝０，ｎ，ｍ}（ｐ）をまとめて読み出して入力データとすることになる。

教師データ取得部３２は、更新処理部３４に与える教師データとして、事前処理部１０の記憶部１４から学習用合成視点画像データ１０２を読み出す（ステップＳｃ２）。ＤＮＮ部３３は、重み係数記憶部３５に予め記憶されている初期値の重み係数を重み係数記憶部３５から読み出し、ＤＮＮ部３３の各層に対して読み出した重み係数を適用する。（ステップＳｃ３）。

ＤＮＮ部３３は、入力データ取得部３１によって与えられる入力データと、各層に対して適用した重み係数とに基づく演算を行う（ステップＳｃ４）。入力データ取得部３１によって、各々が４チャネル分の情報を含むＮＭ枚のＩ_{ｇ，ｎ，ｍ}（ｐ）が、ネットワークＮＮ−Ａ，ＮＮ−Ｂの各々のサブネットワーク７００−１〜７００−Ｍの入力層４００−１〜４００−４に対して、図９に示すように与えられる。なお、図９においてｇの値は固定値であり、入力データ取得部３１が、Ｉ_{ｇ，ｎ，ｍ}（ｐ）をｇ＝０から順に読み出すとすると、初回のステップＳｃ４の処理では、ｇ＝０となる。

図９においてｒは、０≦ｒ≦Ｍ−１の整数値である。すなわち、入力層４００−１〜４００−４の各々には、１枚の投影画像データ１１０−ｇ−ｍ−ｎが与えられることになる。入力層４００−１〜４００−４の各々は、取り込んだＩ_{ｇ，ｎ，ｍ}（ｐ）の画像を２５５．０で除算し、画素値を０〜１．０の小数値に正規化する。

第１連結層６０１の出力チャネル数は、第１畳み込み層５１０−１〜５１０−４のチャネル数がｃｈである場合、チャネル方向に連結するためｃｈ×Ｎの出力チャネル数となる。したがって、例えば、参照視点数Ｎが、Ｎ＝４の場合であって、ＲＧＢＡの４チャネルの場合、第１連結層６０１は、４×４＝１６の出力チャネル数となる。

第４畳み込み層５４０のチャネル数は、ＲＧＢの３チャネルであり、出力サイズはＧｘ×Ｇｙである。第２連結層６０２の出力チャネル数は、第４畳み込み層５４０のチャネル数がｃｈである場合、チャネル方向に連結するためｃｈ×Ｍの出力チャネル数となる。したがって、ＲＧＢ３チャネルの場合、３×Ｍの出力チャネル数となり、また、例えば、Ｍが、Ｍ＝９６の場合には、３×９６＝２８８チャネルとなる。第７畳み込み層５７０のチャネル数は、Ｍチャネルであり、出力サイズはＧｘ×Ｇｙとなる。

イメージング層６１３は、下段のネットワークＮＮ−Ｂの第２連結層６０２が出力するＧｘ×Ｇｙの画素数の３×Ｍチャネルの行列を３チャネルずつに分解してＭ個の３チャネル行列とする。このｍ番目の３チャネル行列をＡ_ｍとし、Ａ_ｍ（ｐ）を画素ｐにおけるＡ_ｍの３チャネルの画素値とする。

イメージング層６１３は、Ｓｏｆｔｍａｘ層６１２が出力するＧｘ×Ｇｙの画素数を有するＭチャネルの行列を１チャネルごとに分解し、ｍ番目の１チャネル行列をＲ_ｍとし、Ｒ_ｍ（ｐ）を画素ｐにおける１チャネルの信号値とする。Ｒ_ｍ（ｐ）は、例えば、Ｍ枚のＧｘ×Ｇｙの画素数の画像データにおける画素ｐごとの存在確率を示す情報となる。イメージング層６１３は、Ｒ_ｍ（ｐ）とＡ_ｍ（ｐ）に対して次式（１３）を適用して画素ｐごとにＳ（ｐ）を算出する。

式（１３）により、Ｍ枚の候補となるＲＧＢ画像データＡ_ｍ（ｐ）の中から、Ｒ_ｍ（ｐ）に基づいて、Ｍ枚の候補の中から、合成視点位置の画素として適切な画素を選択するような演算が行われることになる。式（１３）の出力であるＳ（ｐ）が、学習用合成視点における１つのグリッド２６０−ｇに対応する出力画像データとなる。出力層６１４は、Ｇｘ×Ｇｙの解像度の出力画像データＳ（ｐ）を出力する。

更新処理部３４は、教師データ取得部３２が取得した学習用合成視点画像データ１０２を合成視点画像平面２５０と同様の大きさのグリッド形状に分割し、分割したｇ番目のグリッドに含まれる画像データを学習用合成視点画像データ１０２−ｇとする。

更新処理部３４は、出力層６１４が出力した出力画像データＳ（ｐ）が生成された際に入力層４００−１〜４００−４に与えられたグリッド２６０−ｇに対応するｇ番目のグリッドの位置の学習用合成視点画像データ１０２−ｇをＣとし、Ｃ（ｐ）を画素ｐにおける画素値とする。

更新処理部３４は、出力層６１４が出力した出力画像データＳ（ｐ）と、教師データＣ（ｐ）とに基づいて、次式（１４）により、推定誤差Ｅを算出する（ステップＳｃ５）。更新処理部３４は、算出した推定誤差Ｅが、予め定められる閾値以下であるか否かを判定する（ステップＳｃ６）。

更新処理部３４は、算出した推定誤差Ｅが、予め定められる閾値を超えていると判定した場合（ステップＳｃ６、ＮＯ）、算出した推定誤差Ｅに基づいて、例えば、誤差逆伝播法等を適用して、ＤＮＮ部３３の各層に適用する新たな重み係数を算出する。更新処理部３４は、重み係数記憶部３５に記憶されている重み係数に対して、算出した新たな重み係数を上書きして更新を行う（ステップＳｃ７）。その後、処理は、ステップＳｃ３に進められ、ＤＮＮ部３３は、重み係数記憶部３５に記憶されている更新された重み係数を読み出し、読み出した重み係数に含まれる重み係数をＤＮＮ部３３の各層に適用してステップＳｃ４以降の処理を行う。

一方、更新処理部３４は、算出した推定誤差Ｅが、予め定められる閾値以下であると判定した場合（ステップＳｃ６、ＹＥＳ）、学習処理を終了する。学習処理部３０による学習処理が終了した際、重み係数記憶部３５には、学習済みの重み係数を含む学習済みデータ１１５が記憶されることになる。

（画像合成段階の構成について）
図１０は、画像合成装置１ａの構成を示すブロック図である。図１０において、図１の学習装置１と同一の構成については、同一の符号を付し、以下、異なる構成について説明する。画像合成装置１ａは、事前処理部１０、投影画像生成部２０、及び画像合成部３０ａを備える。画像合成部３０ａは、入力データ取得部３１、ＤＮＮ部３３、重み係数記憶部３５ａ、及び画像結合部３６を備える。重み係数記憶部３５ａは、学習済みデータ１１５を予め記憶する。ここで、学習済みデータ１１５とは、学習装置１において図８に示す学習処理が終了した際に重み係数記憶部３５に記憶されている重み係数である。画像結合部３６は、ＤＮＮ部３３の出力層６１４が出力するＧｘ×Ｇｙの大きさの画像データを結合して最終的な任意合成視点の画像データを生成して出力する。

すなわち、画像合成部３０ａは、学習装置１の学習処理部３０から教師データ取得部３２と更新処理部３４とを除き、画像結合部３６を加えた構成であって、重み係数記憶部３５に代えて置き換えられる重み係数記憶部３５ａが、学習済みデータ１１５を予め記憶する構成となる。

（画像合成装置による画像合成処理）

図１１及び図１２を参照しつつ、画像合成装置１ａによる画像合成処理について説明する。図１２に示すように、画像合成装置１ａの事前処理部１０の画像データ取得部１１は、参照視点画像データ群１０１を取得する（ステップＳｄ１）。画像対応点検出部１２は、参照視点画像データ群１０１に含まれる画像データから画像特徴点を検出し、検出した画像特徴点に基づいて、画像データ間での二次元の対応関係を算出して画像対応点の検出を行う（ステップＳｄ２）。

カメラパラメータ・三次元座標算出部１３は、画像対応点検出部１２が検出した画像対応点に基づいて、画像対応点の三次元復元を行い、ワールド座標系における画像対応点の三次元座標情報１０３と、参照視点ごとのカメラパラメータ１０４を算出して記憶部１４に書き込んで記憶させる（ステップＳｄ３）。

投影画像生成部２０の画像対応点投影処理部２１は、外部から与えられる任意合成視点のカメラパラメータ１２０を取得する（ステップＳｄ４）。ここで、任意合成視点のカメラパラメータ１２０は、上述したように予め与えられる情報である。例えば、任意合成視点位置を、参照視点位置を右側に５ｍ動かした視点や、前に３ｍ進めた視点や、２つの参照視点位置の間の位置であって各々の参照視点位置までの距離が３：７になっている視点等のように参照視点位置に基づいて定めることにより、任意合成視点のカメラパラメータ１２０を予め算出して与えることができる。

画像対応点投影処理部２１、投影平面選定部２３、及び投影画像記憶部２５は、学習用合成視点のカメラパラメータ１０５を取得した任意合成視点のカメラパラメータ１２０に置き換えて、図５に示したフローチャートにしたがって投影画像データ群１１０を生成する処理を行う（ステップＳｄ５）。

画像合成部３０ａの入力データ取得部３１は、ＤＮＮ部３３に与える入力データとして、投影画像記憶部２５から投影画像データ群１１０を読み出す（ステップＳｄ６）。ＤＮＮ部３３は、重み係数記憶部３５ａに予め記憶されている学習済みデータ１１５を重み係数記憶部３５ａから読み出し、ＤＮＮ部３３の各層に対して学習済みデータ１１５に含まれる重み係数を適用する（ステップＳｄ７）。

ＤＮＮ部３３は、入力データである投影画像データ群１１０と、学習済みデータ１１５に含まれる重み係数とに基づいて、投影画像データ群１１０に含まれる全ての投影画像データ１１０−ｇ−ｍ−ｎに対して図８のステップＳｃ４と同様の所定の演算を行う。これにより、出力層６１４が、グリッド２６０−ｇの数分のＧｘ×Ｇｙの大きさの画像データを出力する（ステップＳｄ８）。画像結合部３６は、ＤＮＮ部３３の出力層６１４が出力するＧｘ×Ｇｙの大きさの画像データを結合して最終的な任意合成視点画像データ１４５を生成して出力する（ステップＳｄ９）。

上記の実施形態の学習装置１において、事前処理部１０は、学習用に予め定められる学習用合成視点位置と、予め定められる参照視点位置とを含む複数の視点位置から撮像した複数の画像データ、すなわち学習用合成視点画像データ１０２及び参照視点画像データ群１０１を取り込む。事前処理部１０は、取り込んだ画像データに基づいて、画像データ間において対応する位置関係にある画像対応点を検出し、検出した画像対応点の三次元座標情報１０３と、視点位置ごとのカメラパラメータ、すなわち学習用合成視点のカメラパラメータ１０５及び参照視点ごとのカメラパラメータ１０４を算出する。投影画像生成部２０は、画像対応点の三次元座標情報１０３と、カメラパラメータ１０４，１０５とに基づいて、参照視点位置において撮像された参照視点画像データ群１０１を、学習用合成視点位置の視点方向に位置する投影平面であって学習用合成視点位置において撮影される画像の画像平面と平行である投影平面２７０−ｇ−ｍに投影することにより投影画像データ群１１０を生成する。学習処理部３０は、投影画像データ群１１０を入力データとし、学習用合成視点位置で撮像された画像データを教師データとしてＤＮＮ部３３に与えて学習処理を行い学習済みデータ１１５を生成する。

また、上記の実施形態の画像合成装置１ａにおいて、事前処理部１０は、予め定められる複数の参照視点位置から撮像した参照視点画像データ群１０１を取り込み、取り込んだ参照視点画像データ群１０１に含まれる画像データに基づいて、画像データ間において対応する位置関係にある画像対応点を検出し、検出した画像対応点の三次元座標情報１０３と、参照視点位置ごとのカメラパラメータ１０４とを算出する。投影画像生成部２０は、任意に定められる任意合成視点位置のカメラパラメータ１２０を取り込み、事前処理部１０が算出する画像対応点の三次元座標情報１０３と、参照視点位置ごとのカメラパラメータ１０４と、任意合成視点位置のカメラパラメータ１２０とに基づいて、参照視点位置において撮像された画像データを、任意合成視点位置の視点方向に位置する投影平面であって任意合成視点位置の画像平面と平行である投影平面に投影して投影画像データ群１１０を生成する。画像合成部３０ａは、学習装置１が生成した学習済みデータ１１５を取り込み、ＤＮＮ部３３に取り込んだ学習済みデータ１１５を適用し、学習済みデータ１１５を適用したＤＮＮ部３３に対して、投影画像生成部２０が生成する投影画像データ群１１０を入力データとして与え、任意合成視点位置において合成した任意合成視点画像データ１４５を出力する。

上記の学習装置１の構成により、画像対応点の三次元座標情報と、カメラパラメータとに基づいて、参照視点位置において撮像された画像データを投影平面に投影することによって投影画像データを生成する。そして、生成した投影画像データを入力データとしてＤＮＮ部３３に与えている。すなわち、学習装置１では、撮像された画像データの各々に含まれている視点位置等のカメラの幾何関係の情報を投影平面を用いて抽出するという事前処理を行った入力データをＤＮＮ部３３に与えるようにしている。また、ＤＮＮ部３３の構成において、投影画像データの各々を取り込む入力層４００−１〜４００−４の数を、参照視点の数と投影平面の数に応じた数としている。すなわち、１つのグリッド２６０−ｇに対して生成される全ての投影画像データを、繰り返し行われる学習処理の１ステップにおける入力データとして一度に取り込むようにしている。そのため、ＤＮＮ部３３のディープニューラルネットワークにおいて、視点位置等のカメラの幾何関係、すなわち多視点画像間の幾何関係であるエピポーラ幾何制約を学習する必要がないため効率的に学習処理を進めることができる。したがって、学習装置１は、ＤＮＮ部３３、すなわちディープニューラルネットワークによって、より少ない教師データと学習時間で学習処理を行うことが可能となる。また、画像合成装置１ａは、学習処理によって得られた学習済みデータ１１５をディープニューラルネットワークに適用することで、多視点画像データに含まれる情報だけからでは推定できない情報を復元可能とし、高品質な任意視点画像を合成することが可能となる。

また、上記の学習装置１または画像合成装置１ａにおいて、投影画像生成部２０の画像対応点投影処理部２１は、学習用または任意の合成視点位置のカメラパラメータ１０５，１２０に基づいて、画像対応点の三次元座標情報を合成視点位置における画像平面に投影する。投影平面選定部２３は、画像平面を予め定められる大きさのグリッド２６０−ｇに分割し、分割したグリッド２６０−ｇの各々に対して、グリッド２６０−ｇを含むグリッド２６０−ｇより広い参照領域２６５−ｇを設ける。投影平面選定部２３は、設けた参照領域２６５−ｇごとに奥行き探索範囲２７５−ｇを定め、定めた奥行き探索範囲２７５−ｇ内に投影平面２７０−ｇ−ｍを設ける。参照視点画像投影処理部２４は、設けられた投影平面２７０−ｇ−ｍに対して参照視点画像データ群１０１の各々を変換し、更に、投影平面２７０−ｇ−ｍに変換される画像データを参照領域２６５−ｇに投影することにより、グリッド２６０−ｇごとに参照領域２６５−ｇの大きさを有する投影画像データ群１１０を生成している。

上記の投影平面２７０−ｇ−ｍを合成視点カメラ２００からどれだけ離れた位置に設けるのかということが合成する画像データの品質に大きな影響を与える。例えば、被写体が奥行き方向に伸びているような画像の場合に、仮に合成視点画像平面２５０の全体を対象として奥行き探索範囲２７５−ｇを定めるとする。この場合、合成視点カメラ２００から最も近い位置にある投影平面２７０−ｇ−ｍと、最も遠い位置にある投影平面２７０−ｇ−ｍとの間である奥行き探索範囲２７５−ｇの範囲が広くなり、より多くの投影平面２７０−ｇ−ｍが必要となるため、計算コストの情報と、合成する画像データの品質とを低下させてしまう。

これに対して、上記のように分割したグリッド２６０−ｇの参照領域２６５−ｇごとに奥行き探索範囲２７５−ｇを定めることにより、グリッド２６０−ｇの参照領域２６５−ｇの中での最大と最小の視差量を考慮すればよくなる。すなわち、参照領域２６５−ｇに対応する奥行き探索範囲２７５−ｇに限って探索を行えばなくなるため、画像データ全体に対応する奥行き探索範囲での探索を行う必要がないため、余分な探索を行う必要もなくなる。したがって、ＤＮＮ部３３において、適切な探索範囲での学習処理を行うことが可能となり、局所解に落ちる可能性も少なく、計算量を節約することもでき、再学習も容易であり、また、高品質な画像合成を行うことが可能となる。

また、さらに、合成視点画像平面２５０の全体ではなく、一定サイズのグリッド２６０−ｇに分割した投影画像データ群１１０を入力データとして与えることで、ＤＮＮ部３３において、一度の学習で要するメモリ量を節約する事ができる。また、さらに、合成視点画像平面２５０の全体ではなく、一定サイズのグリッド２６０−ｇに分割しておくことで、入力データとして与える画像データの解像度が異なるたびにＤＮＮ部３３の学習をしなおす必要もなく、ＤＮＮ部３３の中間層に含まれる第１から第７畳み込み層５１０−１〜５１０−４，５２０〜５７０のカーネルサイズの再設計を行う必要もなくなる。

また、上記の学習装置１または画像合成装置１ａにおいて、投影画像生成部２０は、参照領域２６５−ｇに存在する画像対応点のＺ方向の成分であるデプス値の最大値と最小値に基づいて、参照領域２６５−ｇごとの奥行き探索範囲２７５−ｇを定めるようにしている。これにより、人手を介さずに、画像対応点のデプス値の最大値と最小値に基づいて、適切な奥行き探索範囲２７５−ｇを参照領域２６５−ｇごとに設定することが可能となる。

なお、グリッド２６−ｇの大きさは、小さければ小さいほど合成品質は下がってしまうが、計算コストも下がるため高速な処理に向いている。これに対して、大きなグリッドサイズにした場合、合成品質の向上が見込めるが、ディープニューラルネットワークを用いた画像合成処理においては計算機メモリの量の限界がある。そのため、現状の計算機の性能では、上述した８×８画素程度の大きさが現実的な大きさであり、計算機の性能の向上とともに大きくすることができる。

また、図６（ａ）及び（ｂ）では、７×５の合計３５個のグリッド２６０−ｇに分割しているが、当該分割数は、一例であり、合成視点画像平面２５０の大きさやグリッド２６０−ｇの大きさに応じて適宜定められる値である。

また、上記の実施形態では、グリッド２６０−ｇを格子状にしているが、一定の領域であれば、格子状以外の形状であってもよい。

なお、上記の実施形態の構成では、カメラで撮影した静止画の画像データを対象とした処理となっているが、当該実施の形態に限られるわけではない。例えば、本実施形態の構成を複数の連続する画像データに対して適用し、本実施形態の処理を複数の連続する画像データに対して繰り返すことで映像、すなわち動画像を処理することもできる。また、映像の全てのフレームに適用するのではなく、一部に対して本実施形態を適用し、残りのフレームには別の手段を適用するようにしてもよい。

また、上記の実施形態の構成において、投影平面２７０−ｇ−ｍの数であるＭとして、例えば、９６枚程度の数が適用されるとして説明したが、Ｍの値には、計算コストと合成コストの間のトレードオフの関係がある。Ｍを大きな値にすると、低速な処理になるが、高品質な合成結果を得ることができる。Ｍの値もまた、計算機の性能の向上とともに大きくすることができる。また、図７における合成視点カメラ２００の位置である学習用合成視点位置から見た場合の参照カメラ２１０〜２３４の各々の参照視点位置に対する合成視点画像平面２５０上での最小視差量と最大視差量の差分値をそのままＭとしてもよい。

また、上記の実施形態の構成において、投影画像データ１１０−ｇ−ｍ−ｎは、ＲＧＢＡの４チャネル情報であるとしているが、カラー画像でなく、グレースケール画像を適用してもよく、その場合、画素値成分と、Ａチャネル成分の２チャネル情報となる。

また、上記の実施形態の構成において、図３のＤＮＮ部３３の構成は、一例であり、例えば、ネットワークＮＮ−Ａ，ＮＮ−Ｂについては、１つのグリッド２６０ｇについてのＮＭ枚の投影画像データ１１０−ｇ−ｍ−ｎを一度に読み込む構成のディープニューラルネットワークであればどのような構成であってもよい。

また、上記の実施形態の構成において、式（１４）の演算式は、Ｌ１ノルムの差分を適用して推定誤差を算出しているが、Ｌ２ノルム等の他の差分演算を適用して推定誤差を算出するようにしてもよい。

また、上記の学習装置１と画像合成装置１ａとは、同一の装置内に備えられていてもよい。その場合、例えば、学習処理部３０が、更に、画像結合部３６を備え、当該装置内に、学習を行う処理と、画像合成を行う処理とを切り替える指示情報を出力する制御部を備え、事前処理部１０、投影画像生成部２０、及び学習処理部３０が、制御部からの指示情報に応じて取り込むデータを切り替え、内部で行う処理を切り替えることになる。

上述した実施形態では、グリットに分割して、グリッドを含む領域を参照領域とする構成を示したが、参照領域はこの領域に限定される必要はない。例えば、合成視点画像平面２５０全体を一つの大きなグリッドとみなした場合には、合成視点画像平面２５０全体を含む領域を参照領域（第２の参照領域）としてもよい。ここで、合成視点画像平面２５０全体を一つの大きなグリッドとみなした場合とは、合成視点画像平面２５０を分割しないで、グリッドの横方向の画素数Ｇｘを合成視点画像平面２５０の横方向の画素数とし、縦方向の画素数Ｇｙを合成視点画像平面２５０の縦方向の画素数と設定した場合である。合成視点画像平面２５０を分割するか否かは予めユーザによって入力されてもよい。このように構成される場合、投影画像生成部２０は、ユーザから入力された分割数に応じて参照領域を設定する。例えば、分割数が０である場合、投影画像生成部２０はグリッドの横方向の画素数Ｇｘを合成視点画像平面２５０の横方向の画素数とし、縦方向の画素数Ｇｙを合成視点画像平面２５０の縦方向の画素数とした参照領域を設定し、設定した参照領域に基づいて処理を行う。

上述した実施形態における学習装置１及び画像合成装置１ａをコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ（Field Programmable Gate Array）等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１…学習装置，１０…事前処理部，１１…画像データ取得部，１２…画像対応点検出部，１３…カメラパラメータ・三次元座標算出部，１４…記憶部，２０…投影画像生成部，２１…画像対応点投影処理部，２２…座標情報記憶部，２３…投影平面選定部，２４…参照視点画像投影処理部，２５…投影画像記憶部，３０…学習処理部，３１…入力データ取得部，３２…教師データ取得部，３３…ＤＮＮ部，３４…更新処理部，３５…重み係数記憶部

Claims

学習用に予め定められる学習用合成視点位置と、予め定められる参照視点位置とを含む複数の視点位置から撮像した複数の画像データを取得し、取得した前記画像データに基づいて、前記画像データ間において対応する位置関係にある画像対応点を検出し、検出した前記画像対応点の三次元座標情報と、前記視点位置ごとのカメラパラメータとを算出する事前処理部と、
前記画像対応点の三次元座標情報と、前記カメラパラメータとに基づいて、前記参照視点位置において撮像された前記画像データを、前記学習用合成視点位置の視点方向に位置する投影平面であって前記学習用合成視点位置において撮影される画像の画像平面と平行である投影平面に投影することにより投影画像データを生成する投影画像生成部と、
前記投影画像データを入力データとし、前記学習用合成視点位置で撮像された前記画像データを教師データとしてディープニューラルネットワークに与えて学習処理を行うことによって学習済みデータを生成する学習処理部と、
を備える学習装置。
前記投影画像生成部は、
前記学習用合成視点位置のカメラパラメータに基づいて、前記画像対応点の三次元座標情報を前記学習用合成視点位置における前記画像平面に投影し、前記画像平面を予め定められる大きさの領域に分割し、分割した前記領域の各々に対して、前記領域を含む前記領域より広い第１の参照領域を設け、前記第１の参照領域ごとに奥行き探索範囲を定め、定めた前記奥行き探索範囲内に前記投影平面を設け、設けた前記投影平面に対して前記参照視点位置において撮像される前記画像データを変換し、前記投影平面に変換された前記画像データを前記第１の参照領域に投影することにより、前記領域ごとに前記第１の参照領域の大きさを有する前記投影画像データを生成する、請求項１に記載の学習装置。
前記投影画像生成部は、
前記第１の参照領域ごとに、当該第１の参照領域に対応する前記奥行き探索範囲内で、前記学習用合成視点位置の視点方向に予め定められる数の投影平面を設け、
前記学習処理部は、ディープニューラルネットワークを用いて学習処理を行い、
前記ディープニューラルネットワークは、
同一構成である第１のネットワークと第２のネットワークと、
前記第１のネットワークに接続する追加中間層と、
前記第２のネットワークと前記追加中間層とに接続するイメージング層と、
前記イメージング層に接続する出力層とを備え、
前記第１のネットワークと第２のネットワークの各々は、前記投影平面の数に応じたサブネットワークを有しており、前記サブネットワークの各々が、前記参照視点位置の数の入力層を有しており、
前記第１のネットワークと第２のネットワークの各々は、前記参照視点位置の数に前記投影平面の数を乗じた枚数の前記領域ごとの前記投影画像データの各々を、前記枚数と同数の前記入力層により取り込み、前記サブネットワークの各々が前記投影画像データに対して畳み込み演算を行い、前記サブネットワークの出力情報を結合して得られる前記第１の参照領域と同一の大きさの画像データであって前記投影平面の枚数分の画像データを出力し、
前記追加中間層は、
前記第１のネットワークが出力する前記投影平面の枚数と同数の前記画像データに対して畳み込み演算を行い前記画像データに含まれる画素に関する出力情報を出力し、
前記イメージング層は、
前記第２のネットワークが出力する前記画像データと、前記追加中間層の前記出力情報とに基づいて新たに画像データを合成し前記出力層を通じて前記新たな画像データを出力画像データとして出力し、
前記学習処理部は、
前記出力層から出力される前記領域の各々に対応する前記出力画像データと、前記教師データとして与えられる前記学習用合成視点位置で撮像された前記画像データのうち前記出力画像データに対応する部分の画像データとに基づいて、前記ディープニューラルネットワークに適用される重み係数の更新値の算出を行うことにより前記学習済みデータを生成する、請求項２に記載の学習装置。
前記投影画像生成部は、
前記画像平面を予め定められる大きさの領域に分割して得られる第１の参照領域を設けた場合には、前記第１の参照領域に投影されている前記画像対応点のＺ方向の成分の値であるデプス値の最大値と最小値に基づいて、前記第１の参照領域ごとの前記奥行き探索範囲を定め、
前記画像平面全体を分割しない場合には、前記画像平面全体を含む第２の参照領域を設定し、設定した前記第２の参照領域に投影されている前記画像対応点のＺ方向の成分の値であるデプス値の最大値と最小値に基づいて、前記第２の参照領域ごとの前記奥行き探索範囲を定める、請求項１から３のいずれか一項に記載の学習装置。
予め定められる複数の参照視点位置から撮像した複数の画像データを取得し、取得した前記画像データに基づいて、前記画像データ間において対応する位置関係にある画像対応点を検出し、検出した前記画像対応点の三次元座標情報と、前記参照視点位置ごとのカメラパラメータとを算出する事前処理部と、
任意に定められる任意合成視点位置のカメラパラメータを取得し、前記事前処理部が算出する前記画像対応点の三次元座標情報と、前記参照視点位置ごとのカメラパラメータと、前記任意合成視点位置のカメラパラメータとに基づいて、前記参照視点位置において撮像された前記画像データを、前記任意合成視点位置の視点方向に位置する投影平面であって前記任意合成視点位置の画像平面と平行である投影平面に投影して投影画像データを生成する投影画像生成部と、
請求項１から４のいずれか一項に記載の学習装置が生成した学習済みデータを取り込み、前記学習装置のディープニューラルネットワークと同一の前記ディープニューラルネットワークに取り込んだ前記学習済みデータを適用し、前記学習済みデータを適用した前記ディープニューラルネットワークに対して、前記投影画像生成部が生成する前記投影画像データを入力データとして与え、前記任意合成視点位置において合成した画像データを出力する画像合成部と、
を備える画像合成装置。
学習用に予め定められる学習用合成視点位置と、予め定められる参照視点位置とを含む複数の視点位置から撮像した複数の画像データを取得し、取得した前記画像データに基づいて、前記画像データ間において対応する位置関係にある画像対応点を検出し、検出した前記画像対応点の三次元座標情報と、前記視点位置ごとのカメラパラメータとを算出する事前処理ステップと、
前記画像対応点の三次元座標情報と、前記カメラパラメータとに基づいて、前記参照視点位置において撮像された前記画像データを、前記学習用合成視点位置の視点方向に位置する投影平面であって前記学習用合成視点位置において撮影される画像の画像平面と平行である投影平面に投影することにより投影画像データを生成する投影画像生成ステップと、
前記投影画像データを入力データとし、前記学習用合成視点位置で撮像された前記画像データを教師データとしてディープニューラルネットワークに与えて学習処理を行うことによって学習済みデータを生成する学習処理ステップと、
を有する学習方法。
予め定められる複数の参照視点位置から撮像した複数の画像データを取得し、取得した前記画像データに基づいて、前記画像データ間において対応する位置関係にある画像対応点を検出し、検出した前記画像対応点の三次元座標情報と、前記参照視点位置ごとのカメラパラメータとを算出する事前処理ステップと、
任意に定められる任意合成視点位置のカメラパラメータを取得し、前記事前処理部が算出する前記画像対応点の三次元座標情報と、前記参照視点位置ごとのカメラパラメータと、前記任意合成視点位置のカメラパラメータとに基づいて、前記参照視点位置において撮像された前記画像データを、前記任意合成視点位置の視点方向に位置する投影平面であって前記任意合成視点位置の画像平面と平行である投影平面に投影して投影画像データを生成する投影画像生成ステップと、
請求項１から４のいずれか一項に記載の学習装置が生成した学習済みデータを取り込み、前記学習装置のディープニューラルネットワークと同一の前記ディープニューラルネットワークに取り込んだ前記学習済みデータを適用し、前記学習済みデータを適用した前記ディープニューラルネットワークに対して、前記投影画像生成部が生成する前記投影画像データを入力データとして与え、前記任意合成視点位置において合成した画像データを出力する画像合成ステップと、
を有する画像合成方法。
請求項１から４のいずれか一項に記載の学習装置、又は請求項５に記載の画像合成装置をコンピュータに実現させるためのプログラム。