JP7091844B2

JP7091844B2 - 画像処理装置、画像処理方法およびプログラム

Info

Publication number: JP7091844B2
Application number: JP2018103239A
Authority: JP
Inventors: 恭史国定; 蔵人前野; 康平山本; 素子加賀谷
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2022-06-28
Anticipated expiration: 2038-05-30
Also published as: JP2019207601A

Description

本発明は、画像処理装置、画像処理方法およびプログラムに関する。

近年、複数のカメラそれぞれによって撮像された画像を合成することによって、仮想視点を基準とした１枚の合成画像を生成する技術が知られている。しかし、かかる技術においては、複数のカメラの視点が異なるため、複数のカメラそれぞれによって撮像された画像の端部や、画像同士の繋ぎ目の周辺部分などに歪みが生じやすい。そのため、かかる技術においては、合成画像と実世界との間に相違が生じやすい。

例えば、複数のカメラそれぞれによって撮像された画像を、３次元空間のあらかじめ決められた空間モデルにマッピングし、マッピングした結果に基づいて３次元空間における任意の仮想視点を基準とした合成画像を生成する技術が開示されている（例えば、特許文献１参照）。かかる技術では、任意の仮想視点を基準とした合成画像を生成するために特定の仮想視点を基準とした広角の合成画像を生成する。したがって、かかる技術では、複数のカメラそれぞれによって撮像された画像の端部や、画像同士の繋ぎ目の周辺部分などに大きな歪みが生じやすい。

一方、複数のカメラそれぞれによって撮像された画像を、視線軸が平行な仮想視点に従って変換し、変換後の画像に基づいて合成画像を生成する技術が開示されている（例えば、特許文献２参照）。

国際公開第２０００／０７３７３号特開２０１４－９０３１５号公報

特許文献２に開示された技術では、複数のカメラそれぞれによって撮像された画像の端部や、画像同士の繋ぎ目の周辺部分などに生じる歪みを低減させることは可能である。しかし、特許文献２に開示された技術では、移動体の前方に設置されたカメラの中心軸と平行になるように仮想視点が設定されなくてはならないという制約がある。したがって、特許文献２に開示された技術では、複数のカメラを任意の位置に設定することが困難である。

そこで、複数のカメラを任意の位置に設定することを可能としつつ、複数のカメラそれぞれによって撮像された画像に基づく合成画像を生成することを可能とする技術が提供されることが望まれる。

上記問題を解決するために、本発明のある観点によれば、互いに異なる視点から撮像を行い撮像範囲が一部または全部重複する複数の撮像部それぞれからの入力画像に基づいて前記撮像部ごとに特徴量を抽出し、抽出した前記撮像部ごとの前記特徴量を逐次的に出力する複数の画像処理部と、前記複数の画像処理部に接続された再帰型ニューラルネットワークを有し、前記再帰型ニューラルネットワークによって、前記画像処理部から逐次的に入力される前記特徴量を合成する合成処理部と、を備える、画像処理装置が提供される。

前記画像処理部それぞれは、畳み込みニューラルネットワークを有し、前記畳み込みニューラルネットワークによって、対応する前記撮像部からの入力画像に基づいて前記特徴量を抽出してもよい。

前記撮像部それぞれに対応する畳み込みニューラルネットワークには、共通のパラメータが設定されていてもよい。

前記画像処理部それぞれは、再帰型ニューラルネットワークを有し、前記再帰型ニューラルネットワークによって、時間変化に応じた前記特徴量を出力してもよい。

前記合成処理部は、前記撮像部ごとの前記特徴量に対してカメラ情報を付加し、前記カメラ情報と前記特徴量との組み合わせを合成してもよい。

前記撮像部は、複数のグループに分けられており、前記合成処理部は、前記グループごとに前記特徴量を合成してもよい。

前記画像処理装置は、合成後の前記特徴量に応じた出力を行う出力部を備えてもよい。

前記出力部は、３次元情報を含んだ合成後の前記特徴量に基づいて３次元モデルを生成し、生成した前記３次元モデルを出力してもよい。

前記出力部は、合成後の前記特徴量に基づいて所定の視点を基準とした仮想画像を生成し、生成した前記仮想画像を出力してもよい。

前記画像処理装置は、視点情報を検出する視点情報検出部を備え、前記出力部は、前記視点情報が示す視点を基準とした前記仮想画像を生成してもよい。

前記出力部は、合成後の前記特徴量に基づいて物体を検出し、前記物体の検出結果を出力してもよい。

また、本発明の別の観点によれば、互いに異なる視点から撮像を行い撮像範囲が一部または全部重複する複数の撮像部それぞれからの入力画像に基づいて前記撮像部ごとに特徴量を抽出し、抽出した前記撮像部ごとの前記特徴量を逐次的に出力することと、再帰型ニューラルネットワークによって、逐次的に入力される前記特徴量を合成することと、前記撮像部の個数に基づいて前記再帰型ニューラルネットワークの構造を制御することと、を含む、画像処理方法が提供される。

また、本発明の別の観点によれば、コンピュータを、互いに異なる視点から撮像を行い撮像範囲が一部または全部重複する複数の撮像部それぞれからの入力画像に基づいて前記撮像部ごとに特徴量を抽出し、抽出した前記撮像部ごとの前記特徴量を逐次的に出力する複数の画像処理部と、前記複数の画像処理部に接続された再帰型ニューラルネットワークを有し、前記再帰型ニューラルネットワークによって、前記画像処理部から逐次的に入力される前記特徴量を合成する合成処理部と、前記撮像部の個数に基づいて前記再帰型ニューラルネットワークの構造を制御するネットワーク構造制御部と、を備える画像処理装置として機能させるためのプログラムが提供される。

以上説明したように本発明によれば、複数のカメラを任意の位置に設定することを可能としつつ、複数のカメラそれぞれによって撮像された画像に基づく合成画像を生成することを可能とする技術が提供される。

本発明の実施形態に係る画像処理システムの構成例を示す図である。本発明の第１の実施形態に係る画像処理装置の機能構成例を示すブロック図である。同実施形態に係る画像処理部の詳細構成例を示す図である。同実施形態に係る時間変化参照ＲＮＮの詳細構成例を示す図である。同実施形態に係る合成処理部の詳細構成例を示す図である。同実施形態に係る空間変化参照ＲＮＮの詳細構成例を示す図である。同実施形態に係る出力部の詳細構成例を示す図である。同実施形態に係る３次元画像の例を示す図である。同実施形態に係る２次元画像の例を示す図である。同実施形態に係る物体検出結果の例を示す図である。本発明の第２の実施形態に係る画像処理装置の機能構成例を示すブロック図である。同実施形態に係る合成処理部の詳細構成例を示す図である。本発明の第３の実施形態に係る画像処理装置の機能構成例を示すブロック図である。同実施形態に係る出力部の詳細構成例を示す図である。本発明の各実施形態に係る画像処理装置の例としての情報処理装置のハードウェア構成を示す図である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合がある。ただし、実質的に同一の機能構成を有する複数の構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。また、異なる実施形態の類似する構成要素については、同一の符号の後に異なるアルファベットを付して区別する場合がある。ただし、異なる実施形態の類似する構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。

（０．概要）
図１は、本発明の実施形態に係る画像処理システムの構成例を示す図である。図１に示されるように、本発明の実施形態に係る画像処理システムは、画像処理装置１０と複数のカメラ（複数の撮像部）の例としてのカメラＣ１～Ｃ４とを有する。図１に示された例では、カメラＣ１～Ｃ４は、道路平面を走行する車両３０に設けられている。しかし、カメラＣ１～Ｃ４は、車両３０の代わりに、他の物体に設けられてもよい。例えば、カメラＣ１～Ｃ４は、車両３０とは異なる移動体（例えば、船舶、航空機など）に設けられてもよいし、移動しない物体（例えば、建物など）に設けられてもよい。

図１に示された例では、カメラＣ１が車両３０の前面に設けられ、カメラＣ２が車両３０の右側面に設けられ、カメラＣ３が車両３０の背面に設けられ、カメラＣ４が車両３０の左側面に設けられる例が示されている。しかし、カメラＣ１～Ｃ４が設けられる位置は限定されない。また、撮像方向も限定されない。例えば、図１に示された例では、カメラＣ１～Ｃ４が車両３０の周囲を撮像しているが、カメラＣ１～Ｃ４の撮像方向は、必ずしも車両３０の周囲への方向でなくてもよい。

カメラＣ１～Ｃ４は、互いに異なる視点から撮像を行う。図１を参照すると、カメラＣ１の撮像範囲Ｒ１が示され、カメラＣ２の撮像範囲Ｒ２が示され、カメラＣ３の撮像範囲Ｒ３が示され、カメラＣ４の撮像範囲Ｒ４が示されている。撮像範囲Ｒ１～Ｒ４を参照すると、カメラＣ１～Ｃ４それぞれの画角が１８０度であるが、カメラＣ１～Ｃ４それぞれの画角は特に限定されない。

そして、カメラＣ１の撮像範囲Ｒ１の一部とカメラＣ２の撮像範囲Ｒ２の一部とは重複領域ｒ１２において重複しており、カメラＣ２の撮像範囲Ｒ２の一部とカメラＣ３の撮像範囲Ｒ３の一部とは重複領域ｒ２３において重複しており、カメラＣ３の撮像範囲Ｒ３の一部とカメラＣ４の撮像範囲Ｒ４の一部とは重複領域ｒ３４において重複しており、カメラＣ４の撮像範囲Ｒ４の一部とカメラＣ１の撮像範囲Ｒ１の一部とは重複領域ｒ４１において重複している。

図１に示された例では、撮像範囲Ｒ１～Ｒ４それぞれの一部は、他のいずれか二つの撮像範囲の一部と重複している。しかし、撮像範囲Ｒ１～Ｒ４は、他の少なくとも一つの撮像範囲と一部または全部重複していればよい。撮像範囲Ｒ１～Ｒ４は空間的に連続していることが理想ではあるが、撮像手段を取り付ける物体の形状等の制約により一部空間的に連続ではない箇所があってもよい。これによって、死角（カメラＣ１～Ｃ４によって撮像されない範囲）が少なくなるようにカメラＣ１～Ｃ４が設けられ得る。

さらに、図１に示された例では、カメラの個数が４個であるが、カメラの個数は複数であれば特に限定されない。以下では、カメラの個数をＭ（Ｍは２以上の整数）個とし、画像処理システムが、Ｍ個のカメラ（カメラＣ１～ＣＭ）を有する場合を主に想定する。本発明の実施形態においては、カメラＣ１～ＣＭを任意の位置に設定することを可能としつつ、カメラＣ１～ＣＭそれぞれによって撮像された画像に基づく合成画像の歪みを低減させることを可能とする技術について主に説明する。

なお、カメラＣ１～ＣＭそれぞれは、イメージセンサを含んで構成されており、イメージセンサによって撮像範囲を撮像する。カメラＣ１～ＣＭの種類は特に限定されない。例えば、カメラＣ１～ＣＭは、可視光カメラであってもよいし、赤外光カメラであってもよい。カメラＣ１～ＣＭそれぞれによって撮像された画像は、入力画像として、撮像時刻（以下、単に「時刻」とも言う。）とともに、逐次的に画像処理装置１０に入力される。撮像時刻の基準は特に限定されず、任意に設定されてよい。

以上、本発明の実施形態の概要について説明した。

（１．第１の実施形態）
続いて、本発明の第１の実施形態について説明する。

図２は、本発明の第１の実施形態に係る画像処理装置の機能構成例を示すブロック図である。図２に示されるように、本発明の第１の実施形態に係る画像処理装置１０Ａは、画像処理部１２０－１～１２０－Ｍ、カメラ個数検出部１５０、ネットワーク構造制御部１６０、合成処理部１７０Ａおよび出力部１８０Ａを備える。

画像処理装置１０Ａは、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などを含み、図示しない記憶部により記憶されているプログラムがＣＰＵによりＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）に展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。あるいは、画像処理装置１０Ａは、専用のハードウェアにより構成されていてもよいし、複数のハードウェアの組み合わせにより構成されてもよい。

画像処理部１２０－１～１２０－Ｍは、それぞれ対応するカメラに接続されている。例えば、画像処理部１２０－１は、カメラＣ１に接続されており、画像処理部１２０－２は、カメラＣ２に接続されており、画像処理部１２０－Ｍは、カメラＣＭに接続されている。画像処理部１２０－１～１２０－Ｍは、それぞれ対応するカメラからの入力画像に基づいて特徴量を抽出する。そして、画像処理部１２０－１～１２０－Ｍは、抽出したカメラごとの特徴量を逐次的に合成処理部１７０Ａに出力する。

図３は、画像処理部１２０－１～１２０－Ｍの詳細構成例を示す図である。画像処理部１２０－１～１２０－Ｍそれぞれは、画像特徴量抽出ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）１２２－１～１２２－Ｎ、時間方向結合部１２３および時間変化参照ＲＮＮ（ＲｅｃｃｕｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）１２４を有する。

なお、本発明の実施形態では、カメラＣ１～ＣＭによって動画が撮像される（画像が連続的に撮像される）場合を想定する。しかし、カメラＣ１～ＣＭによって静止画が撮像されてもよい（画像が１枚撮像されてもよい）。かかる場合には、画像処理部１２０－１～１２０－Ｍそれぞれは、画像特徴量抽出ＣＮＮ１２２を１つずつ有していればよく、時間方向結合部１２３および時間変化参照ＲＮＮ１２４を有していなくてよい。

画像特徴量抽出ＣＮＮ１２２－１～１２２－Ｎには、対応するカメラから入力画像と時刻とが入力される。例えば、画像処理部１２０－１において、画像特徴量抽出ＣＮＮ１２２－１には、カメラＣ１からの（時刻Ｔ１における）入力画像と時刻Ｔ１とが入力され、画像特徴量抽出ＣＮＮ１２２－Ｎには、カメラＣ１からの（時刻ＴＮにおける）入力画像と時刻ＴＮとが入力される。画像特徴量抽出ＣＮＮ１２２－１～１２２－Ｎは、畳み込みニューラルネットワークであり、対応するカメラからの入力画像に基づいて特徴量を抽出する。画像特徴量抽出ＣＮＮ１２２－１～１２２－Ｎは、特徴量と時刻との組み合わせを時間方向結合部１２３に出力する。

なお、画像特徴量抽出ＣＮＮ１２２－１～１２２－Ｎの具体的な構成は限定されない。例えば、画像特徴量抽出ＣＮＮ１２２－１～１２２－Ｎは、１つの畳み込み層を有してもよいし、複数の畳み込み層を有してもよい。また、画像特徴量抽出ＣＮＮ１２２－１～１２２－Ｎは、畳み込み層以外の構成をさらに有していてもよく、例えば、プーリング層を有してもよい。

また、画像特徴量抽出ＣＮＮ１２２－１～１２２－Ｎそれぞれのパラメータ（例えば、重み、バイアスなど）の初期値には、どのような値が設定されてもよい。例えば、画像特徴量抽出ＣＮＮ１２２－１～１２２－Ｎそれぞれのパラメータの初期値には、ランダムに決められたパラメータが設定されてもよいし、事前訓練済みのパラメータが設定されてもよい。

また、図３に示された例では、画像特徴量抽出ＣＮＮ１２２－１～１２２－Ｎによって、各カメラからの入力画像に基づいて特徴量が抽出される。しかし、各カメラからの入力画像に基づく特徴量は、必ずしも画像特徴量抽出ＣＮＮ１２２－１～１２２－Ｎによって抽出されなくてもよい。例えば、各カメラからの入力画像に基づく特徴量は、畳み込みニューラルネットワークが用いられずに抽出されてもよい。

時間方向結合部１２３には、画像特徴量抽出ＣＮＮ１２２－１～１２２－Ｎから特徴量と時刻との組み合わせが入力される。時間方向結合部１２３は、画像特徴量抽出ＣＮＮ１２２－１～１２２－Ｎから入力される時刻に基づいて、各特徴量を結合する。ここでは、時間方向結合部１２３が、時刻Ｔ１に対応する特徴量、時刻Ｔ２に対応する特徴量、・・・、時刻ＴＮに対応する特徴量の順（時刻の早い順）に各特徴量を結合する場合を想定する。しかし、各特徴量の結合順序は限定されない。時間方向結合部１２３は、このようにして結合した各特徴量を時間変化参照ＲＮＮ１２４に出力する。

時間変化参照ＲＮＮ１２４は、再帰型ニューラルネットワークである。時間変化参照ＲＮＮ１２４には、時間方向結合部１２３によって結合された各特徴量が入力データ（時刻Ｔ１～ＴＮ）として入力される。そして、時間変化参照ＲＮＮ１２４によって各特徴量の時間変化が参照される。時間変化参照ＲＮＮ１２４からは、時間変化に応じた各特徴量が出力される。

図４は、時間変化参照ＲＮＮ１２４の詳細構成例を示す図である。図４に示されるように、時間変化参照ＲＮＮ１２４は、中間ノード１２５－１～１２５－Ｎを有する。中間ノード１２５－１～１２５－Ｎには、対応する特徴量が入力データとして入力される。例えば、中間ノード１２５－１には、時刻Ｔ１に対応する特徴量が入力データとして入力され、中間ノード１２５－２には、時刻Ｔ２に対応する特徴量が入力データとして入力され、中間ノード１２５－Ｎには、時刻ＴＮに対応する特徴量が入力データとして入力される。

中間ノード１２５－１は、パラメータに基づいて入力データに対応する出力データを算出し、算出した出力データを合成処理部１７０Ａに出力するとともに、次の中間ノード（図４に示された例では、次時刻に対応する中間ノード１２５－２）に出力する。これによって、中間ノード１２５－２は、自ノードへの入力データに加えて、前の中間ノード（図４に示された例では、前時刻に対応する中間ノード１２５－１）からの出力データに基づいて、自ノードからの出力データを算出することができる。

中間ノード１２５－２は、自ノードからの出力データを合成処理部１７０Ａに出力するとともに、次の中間ノード（図４に示された例では、次時刻に対応する中間ノード）に出力する。以降の中間ノードも、中間ノード１２５－２と同様に、出力データを算出し、算出した出力データを合成処理部１７０Ａに出力するとともに、次の中間ノードに出力する。そして、中間ノード１２５－Ｎも、中間ノード１２５－２と同様に、出力データを算出する。そして、中間ノード１２５－Ｎは、算出した出力データを合成処理部１７０Ａに出力する。

上記したように、合成画像に生じる歪みは、カメラＣ１～ＣＭによって撮像された画像の端部に生じやすい。しかし、移動体（車両３０など）にカメラＣ１～ＣＭが設けられる場合、ある時刻において画像の端に写っていた場所が、次の時刻においては画像の端から（歪みの小さい位置に）移動していることがあり得る。そこで、時間変化参照ＲＮＮ１２４は、上記したように時間変化を参照することによって、歪みの小さい画像も参照し、合成画像に生じる歪みを低減することができる。

図４に示されるように、中間ノード１２５－２～１２５－Ｎは、時刻Ｔ１～ＴＮに対応する出力データを出力する。時刻Ｔ１～ＴＮに対応する出力データは、対応するカメラの出力データとして、合成処理部１７０Ａに出力される。例えば、図３に示されるように、画像処理部１２０－１の時間変化参照ＲＮＮ１２４からは、カメラＣ１に対応する出力データが合成処理部１７０Ａに出力される。また、画像処理部１２０－Ｍの時間変化参照ＲＮＮ１２４からは、カメラＣＭに対応する出力データが合成処理部１７０Ａに出力される。

時間変化参照ＲＮＮ１２４の構成は、図４に示された例に限定されない。例えば、中間ノード１２５の数や、中間ノード１２５同士の接続関係は適宜に変更されてよい。また、中間ノードの出力は時刻Ｔ１～ＴＮに対応していなくてもよいし、最終ノードから一つのデータを出力する構成であってもよい。例えば、時間変化参照ＲＮＮ１２４は、畳み込み層を有してもよいし、全結合層を有してもよい。また、時間変化参照ＲＮＮ１２４は、他の中間ノードと結合しない中間ノードを有してもよい。また、時間変化参照ＲＮＮ１２４は、ＲＮＮの一例としてのＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）を有してもよいし、ＲＮＮの一例としてのＢＲＮＮ（ＢｉｄｉｒｅｃｔｉｏｎａｌＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ）を有してもよい。

なお、図４に示された例では、画像処理部１２０－１～１２０－Ｍは、論理的に別々のブロックに分けられている。しかし、画像処理部１２０－１～１２０－Ｍは、物理的には共通のブロックであってよい。すなわち、画像処理部１２０－１～１２０－Ｍは、物理的に共通のモジュールによって実現されてよい。このとき、画像処理装置１０Ａは、共通のモジュールに対してカメラＣ１～ＣＭからの入力画像および時刻を与えることによって、共通のモジュールからカメラＣ１～ＣＭそれぞれに対応する出力データを得ることができる。

例えば、画像特徴量抽出ＣＮＮ１２２－１は、画像処理部１２０－１～１２０－Ｍそれぞれにおいて、物理的に共通のネットワークであってよく、画像特徴量抽出ＣＮＮ１２２－１には、カメラに依存しない共通のパラメータが設定されてよい。画像特徴量抽出ＣＮＮ１２２－２～１２２－Ｎも同様である。これによって、画像処理装置１０Ａに接続されるカメラに依存せずに、すべてのカメラからの入力画像に基づく特徴量の抽出が実行され得るため、カメラの個数が任意に設定され得る。

また、画像特徴量抽出ＣＮＮ１２２－１～１２２－Ｎは、論理的に別々のブロックに分けられている。しかし、画像特徴量抽出ＣＮＮ１２２－１～１２２－Ｎは、物理的には共通のブロックであってよい。すなわち、画像特徴量抽出ＣＮＮ１２２－１～１２２－Ｎは、物理的に共通のネットワークによって実現されてよい。このとき、画像処理装置１０Ａは、共通のネットワークに対して時刻Ｔ１～ＴＮの入力画像を与えることによって、共通のネットワークから時刻Ｔ１～ＴＮそれぞれに対応する特徴量を得ることができる。

同様に、時間変化参照ＲＮＮ１２４は、画像処理部１２０－１～１２０－Ｍそれぞれにおいて、物理的に共通のネットワークであってよく、時間変化参照ＲＮＮ１２４には、カメラに依存しない共通のパラメータが設定されてよい。これによって、画像処理装置１０Ａに接続されるカメラに依存せずに、すべてのカメラからの入力画像に基づく特徴量の時間変化が参照され得るため、カメラの個数が任意に設定され得る。

図２に戻って説明を続ける。合成処理部１７０Ａは、画像処理部１２０－１～１２０－Ｍに接続された再帰型ニューラルネットワークを有し、再帰型ニューラルネットワークによって、画像処理部１２０－１～１２０－Ｍから逐次的に入力される各特徴量を合成する。このように、カメラＣ１～ＣＭの間の空間変化（空間的な位置の相違）を参照して、各特徴量を合成することによって、カメラの位置を任意に設定することが可能となる。すなわち、かかる構成によれば、カメラの位置の変更があっても、変更前後で同じ学習モデルを用いて推論を行うことが可能となる。

図５は、合成処理部１７０Ａの詳細構成例を示す図である。合成処理部１７０Ａは、空間方向結合部１７１、カメラ情報記憶部１７２、カメラ情報結合部１７３および空間変化参照ＲＮＮ１７４を有する。

空間方向結合部１７１には、画像処理部１２０－１～１２０－ＭからカメラＣ１～ＣＭそれぞれに対応する入力データ（特徴量）が入力される。空間方向結合部１７１は、カメラＣ１～ＣＭそれぞれに対応する入力データ（特徴量）を結合する。ここでは、空間方向結合部１７１が、カメラＣ１に対応する特徴量、カメラＣ２に対応する特徴量、・・・、カメラＣＭに対応する特徴量の順に各特徴量を結合する場合を想定する。各特徴量の結合順序は限定されない。空間方向結合部１７１は、このようにして結合した各特徴量をカメラ情報結合部１７３に出力する。

カメラ情報記憶部１７２は、カメラ情報を記憶している。ここでは、カメラ情報が、カメラの設置に関する情報を含む場合を主に想定する。そして、カメラの設置に関する情報が、カメラの位置情報およびカメラの方向情報を含む場合を主に想定する。しかし、カメラ情報は限定されない。例えば、カメラの設置に関する情報は、カメラの位置情報およびカメラの方向情報の一方のみを含んでもよい。なお、カメラの位置情報は、カメラが設置されている３次元的な位置を示す情報であってよい。カメラの方向情報は、カメラが向いている３次元的な方向を示す情報であってよい。

カメラ情報結合部１７３は、カメラＣ１～ＣＭそれぞれのカメラ情報をカメラ情報記憶部１７２から取得する。そして、カメラ情報結合部１７３は、カメラＣ１～ＣＭそれぞれの特徴量に対して、対応するカメラ情報を付加する。例えば、カメラ情報結合部１７３は、カメラＣ１の特徴量に対して、カメラＣ１のカメラ情報を付加し、カメラＣＭの特徴量に対して、カメラＣＭのカメラ情報を付加する。これによって、カメラごとにカメラ情報と特徴量との組み合わせが生成される。カメラ情報結合部１７３と空間方向結合部１７１の順序は特に限定されず、どちらが先であってもよい。

空間変化参照ＲＮＮ１７４は、カメラ情報結合部１７３によって生成されたカメラ情報と特徴量との各組み合わせを合成する。このように、カメラ情報と特徴量との各組み合わせが合成されることによって、各カメラの空間的な位置がより反映された合成がなされ得る。しかし、必ずしも特徴量とカメラ情報とは結合されなくてもよく、空間変化参照ＲＮＮ１７４は、カメラ情報とは結合されていない各特徴量を合成してもよい。

図６は、空間変化参照ＲＮＮ１７４の詳細構成例を示す図である。図６に示されるように、空間変化参照ＲＮＮ１７４は、中間ノード１７５－１～１７５－Ｍを有する。中間ノード１７５－１～１７５－Ｍには、対応する組み合わせが入力データとして入力される。例えば、中間ノード１７５－１には、カメラＣ１に対応する組み合わせが入力データとして入力され、中間ノード１７５－２には、カメラＣ２に対応する組み合わせが入力データとして入力され、中間ノード１７５－Ｍには、カメラＣＭに対応する組み合わせが入力データとして入力される。

中間ノード１７５－１は、パラメータに基づいて入力データに対応する出力データを算出し、算出した出力データを次の中間ノード（図６に示された例では、次のカメラＣ２に対応する中間ノード１７５－２）に出力する。これによって、中間ノード１７５－２は、自ノードへの入力データに加えて、前の中間ノード１７５－１からの出力データに基づいて、自ノードからの出力データを算出することができる。

中間ノード１７５－２は、自ノードからの出力データを次の中間ノードに出力する。以降の中間ノードも、中間ノード１７５－２と同様に、出力データを算出し、算出した出力データを次の中間ノードに出力する。このようにして、隣接する中間ノード間において、ある方向（図６に示された例では、上から下への方向）に出力データが伝搬していく。そして、中間ノード１７５－Ｍは、中間ノード１７５－２と同様に、出力データを算出する。中間ノード１７５－Ｍは、算出した出力データを前の中間ノードに出力する。

中間ノード１７５－Ｍよりも前の中間ノード（中間ノード１７５－１を除く）は、自ノードへの入力データと上記方向と逆方向に入力される出力データとに基づいて、自ノードからの出力データを算出して、前の中間ノードに出力する。このようにして、隣接する中間ノード間において、逆方向（図６に示された例では、下から上への方向）に出力データが伝搬していく。中間ノード１７５－１は、同様にして自ノードからの出力データを算出する。そして、中間ノード１７５－１は、出力データを出力部１８０Ａに出力する。かかる出力データは、カメラＣ１～ＣＭそれぞれに対応する組み合わせが合成されたデータに相当する。

空間変化参照ＲＮＮ１７４の構成は、図６に示された例に限定されない。例えば、中間ノード１７５の数や、中間ノード１７５同士の接続関係は適宜に変更されてよい。例えば、空間変化参照ＲＮＮ１７４は、畳み込み層を有してもよいし、全結合層を有してもよい。また、空間変化参照ＲＮＮ１７４は、他の中間ノードと結合しない中間ノードを有してもよい。また、空間変化参照ＲＮＮ１７４は、ＲＮＮの一例としてのＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）を有してもよいし、ＢＲＮＮ以外のＲＮＮを有してもよい。

カメラ個数検出部１５０（図２）は、画像処理装置１０に接続されているカメラの個数を検出する。カメラの個数はどのように検出されてもよい。例えば、カメラ個数検出部１５０は、ユーザによって図示しない操作部（例えば、タッチパネル、ボタンなど）を介して入力される値をカメラの個数として検出してもよいし、カメラからの入力信号が有る接続端子の数をカメラの個数として自動的に検出してもよい。

そして、ネットワーク構造制御部１６０は、カメラ個数検出部１５０によって検出されたカメラの個数に基づいて空間変化参照ＲＮＮ１７４の構造を制御する。例えば、ネットワーク構造制御部１６０は、カメラの個数と中間ノード１７５の数とが同一になるように空間変化参照ＲＮＮ１７４の構造を制御してよい。これによって、カメラの個数に合った空間変化参照ＲＮＮ１７４の構造が自動的に設定され得る。

図２に戻って説明を続ける。出力部１８０Ａには、合成処理部１７０Ａから合成後のデータが入力される。出力部１８０Ａは、合成処理部１７０Ａから入力される合成後のデータに応じた出力を行う。なお、出力部１８０Ａからのデータの出力先は限定されない。例えば、出力部１８０Ａからのデータが、図示しないディスプレイに出力された場合、出力部１８０Ａから出力されたデータが、かかるディスプレイによって表示されてよい。

図７は、出力部１８０Ａの詳細構成例を示す図である。図７に示されるように、出力部１８０Ａは、３次元画像生成部１８１、３次元画像出力部１８２、２次元画像生成部１８３Ａ、２次元画像出力部１８４、物体検出部１８５および検出結果出力部１８６を有する。なお、出力部１８０Ａは、これらのブロックの全部を有する必要はなく、これらのブロックの一部のみを有してもよいし、これらのブロックの代わりに他のブロックを有してもよい。

３次元画像生成部１８１は、合成後のデータに基づいて３次元画像を生成する。３次元画像は、どのように生成されてもよい。例えば、３次元画像生成部１８１は、合成後のデータに対してアップサンプリングを行うことによって３次元画像を生成する。アップサンプリングは、逆畳み込み層、アンプーリング層などを有するニューラルネットワークによって実行されてもよい。逆畳み込み層およびアンプーリング層それぞれの数は１つに限定されず、複数であってもよい。３次元画像出力部１８２は、３次元画像生成部１８１によって生成された３次元画像を出力する。

図８は、３次元画像の例を示す図である。３次元画像Ｇ１には、車両３０（図１）の前方を走行する車両の３次元モデル３２や背景が写っている。かかる３次元画像Ｇ１が３次元画像生成部１８１によって生成される。そして、３次元画像出力部１８２は、このようにして生成された３次元画像Ｇ１を出力する。

図７に戻って説明を続ける。２次元画像生成部１８３Ａは、合成後のデータに基づいて所定の視点（仮想視点）を基準とした２次元画像（仮想画像）を生成する。ここでは、２次元画像の基準となる視点が、あらかじめ決められている場合を想定する。しかし、後に説明するように、２次元画像の基準となる視点は、任意に決められてもよい。

２次元画像は、どのように生成されてもよい。例えば、２次元画像生成部１８３Ａは、合成後のデータに対して、３次元画像生成部１８１が用いたアップサンプリングとは異なるアップサンプリングを行うことによって２次元画像を生成する。２次元画像生成部１８３Ａが用いるアップサンプリングも、３次元画像生成部１８１が用いるアップサンプリングと同様に、逆畳み込み層、アンプーリング層などを有するニューラルネットワークによって実行されてもよい。逆畳み込み層およびアンプーリング層それぞれの数は１つに限定されず、複数であってもよい。

２次元画像出力部１８４は、２次元画像生成部１８３Ａによって生成された２次元画像を出力する。

図９は、２次元画像の例を示す図である。２次元画像Ｇ２は、２次元画像生成部１８３Ａによって生成される。２次元画像Ｇ２には、車両３０（図１）の前方を走行する車両の２次元画像３４や背景が写っている。そして、２次元画像出力部１８４は、このようにして生成された２次元画像Ｇ２を出力する。

図７に戻って説明を続ける。物体検出部１８５は、合成後のデータに基づいて物体を検出する。物体はどのように検出されてもよい。例えば、物体検出部１８５は、合成後のデータに対して、物体検知ニューラルネットワークを適用することによって物体を検出してよい。物体検知ニューラルネットワークには、Ｒ－ＣＮＮ（ＲｅｇｉｏｎｓｗｉｔｈＣＮＮｆｅａｔｕｒｅｓ）が用いられてもよいし、ＳＳＤ（ＳｉｎｇｌｅＳｈｏｔＤｅｔｅｃｔｏｒ）を用いられてもよい。

物体検出部１８５は、合成後のデータに対して、物体検知ニューラルネットワークを直接適用してもよいし、合成後のデータに対してアップサンプリングが行われて得られた２次元画像に対して、物体検知ニューラルネットワークを適用してもよい。物体検知ニューラルネットワークが適用される２次元画像は、物体検出部１８５によって生成されてもよいし、２次元画像生成部１８３Ａによって生成された２次元画像であってもよい。検出結果出力部１８６は、物体の検出結果を出力する。

図１０は、物体検出結果の例を示す図である。物体検出結果Ｇ３は、物体検出部１８５によって得られる。物体検出結果Ｇ３には、車両３０（図１）の前方を走行する車両の領域（物体領域３６）が含まれている。なお、図１０には、物体の検出結果として、物体領域が得られる例が示されているが、物体の検出結果は、かかる例に限定されない。例えば、物体の検出結果は、物体が検出された位置を示す情報（座標）であってもよいし、物体の種類（例えば、車両の種類）であってもよいし、単に物体の有無を示す情報であってもよい。そして、検出結果出力部１８６は、このようにして得られた物体検出結果Ｇ３を出力する。

例えば、上記各種のニューラルネットワークのパラメータは、誤差伝播法を用いた教師あり学習によって学習されてよい。このとき、上記各種のニューラルネットワークのパラメータは、出力される結果の種類（２次元画像または３次元画像）ごとに学習されてよい。すなわち、上記各種のニューラルネットワークのパラメータは、３次元画像が生成される場合と２次元画像が生成される場合とにおいて、共通である必要はなく、異なっていてよい。

以上に説明したように、本発明の第１の実施形態によれば、再帰型ニューラルネットワークによって、画像処理部１２０－１～１２０－Ｍから逐次的に入力される各特徴量が合成される。このように、カメラＣ１～ＣＭの間の空間変化（空間的な位置の相違）を参照して、各特徴量を合成することによって、カメラの位置を任意に設定することが可能となる。すなわち、かかる構成によれば、カメラの位置の変更があっても、変更前後で同じ学習モデルを用いて推論を行うことが可能となる。

また、上記したように、合成画像に生じる歪みは、カメラＣ１～ＣＭによって撮像された画像の端部に生じやすい。しかし、移動体（車両３０など）にカメラＣ１～ＣＭが設けられる場合、ある時刻において画像の端に写っていた場所が、次の時刻においては画像の端から（歪みの小さい位置に）移動していることがあり得る。本発明の第１の実施形態によれば、時間変化参照ＲＮＮ１２４が、上記したように時間変化を参照することによって、歪みの小さい画像も参照し、合成画像に生じる歪みを低減することができる。

さらに、上記したように、画像特徴量抽出ＣＮＮ１２２－１には、画像処理部１２０－１～１２０－Ｍそれぞれにおいて、共通のパラメータが設定されてよい。画像特徴量抽出ＣＮＮ１２２－２～１２２－Ｎも同様である。これによって、画像処理装置１０Ａに接続されるカメラに依存せずに、すべてのカメラからの入力画像に基づく特徴量の抽出が実行され得るため、カメラの個数が任意に設定され得る。

同様に、時間変化参照ＲＮＮ１２４には、画像処理部１２０－１～１２０－Ｍそれぞれにおいて、カメラに依存しない共通のパラメータが設定されてよい。これによって、画像処理装置１０Ａに接続されるカメラに依存せずに、特徴量の時間変化が参照され得るため、カメラの個数が任意に設定されても、すべてのカメラからの入力画像に基づく特徴量の時間変化が参照され得るため、カメラの個数が任意に設定され得る。

例えば、カメラが設けられる物体の形状（例えば、船舶の形状、建物の形状など）に応じて、適切なカメラの個数が異なる場合が想定される。あるいは、出力内容の用途（例えば、建物の近くの監視など）に応じて、適切なカメラの個数が異なる場合も想定される。このように、適切なカメラの個数が状況に応じて異なる場合であっても、本発明の第１の実施形態によれば、ニューラルネットワーク構造の変更、再学習を必要としないため、画像処理装置１０Ａの用途拡大や自由度向上といった効果が期待され得る。

以上、本発明の第１の実施形態について説明した。

（２．第２の実施形態）
続いて、本発明の第２の実施形態について説明する。

図１１は、本発明の第２の実施形態に係る画像処理装置の機能構成例を示すブロック図である。図１１に示されるように、本発明の第２の実施形態に係る画像処理装置１０Ｂは、合成処理部１７０Ａ（図２）の代わりに、合成処理部１７０Ｂを有する点において、本発明の第１の実施形態に係る画像処理装置１０Ａと主に異なる。したがって、以下では、合成処理部１７０Ｂについて主に説明し、他の構成についての詳細な説明は省略する。

本発明の第２の実施形態においては、カメラＣ１～ＣＭは、複数のグループに分けられる。グループ数やカメラＣ１～ＣＭそれぞれがどのグループに属するかは、あらかじめ任意に設定されてよい。例えば、グループ数やカメラＣ１～ＣＭそれぞれがどのグループに属するかは、ユーザによる操作によって設定されてもよいし、合成処理部１７０Ｂによって（例えば、事前訓練済みのパラメータに基づいて）自動的に設定されてもよい。そして、合成処理部１７０Ｂは、グループごとに特徴量を合成する。

例えば、カメラＣ１～ＣＭそれぞれがどのグループに属するかは、カメラＣ１～ＣＭの位置に基づいて決定されてもよい。例えば、位置が近いカメラ同士が同じグループに属するようにグループ分けがされてもよい。一例として、カメラＣ１～ＣＭが航空機に設けられる場合には、カメラＣ１～ＣＭのうち、航空機の右翼側に設けられるカメラが、第１のグループに属し、航空機の左翼側に設けられるカメラが、第２のグループに属するようにグループ分けがされてもよい。

図１２は、合成処理部１７０Ｂの詳細構成例を示す図である。図１２に示された例では、カメラＣ１～ＣＭが２つのグループに分かれている。すなわち、カメラＣ１～ＣＬが第１のグループに属しており、それ以降が第２のグループに属している。そして、合成処理部１７０Ｂは、第１のグループに対応して、空間方向結合部１７１－１、カメラ情報結合部１７３－１、空間変化参照ＲＮＮ１７４－１を有し、第２グループに対応して、空間方向結合部１７１－２、カメラ情報結合部１７３－２、空間変化参照ＲＮＮ１７４－２を有する。

空間方向結合部１７１－１は、第１のグループに対応する入力データ（特徴量）を結合し、カメラ情報結合部１７３－１に出力する。同様に、空間方向結合部１７１－２は、第２のグループに対応する入力データ（特徴量）を結合し、カメラ情報結合部１７３－２に出力する。なお、空間方向結合部１７１－１および空間方向結合部１７１－２それぞれによる入力データ（特徴量）の結合は、本発明の第１の実施形態に係る空間方向結合部１７１による結合と同様に行われてよい。

カメラ情報結合部１７３－１は、空間方向結合部１７１－１からの入力データ（特徴量）に対してカメラ情報を結合し、空間変化参照ＲＮＮ１７４－１に出力する。同様に、カメラ情報結合部１７３－２は、空間方向結合部１７１－２からの入力データ（特徴量）に対してカメラ情報を結合し、空間変化参照ＲＮＮ１７４－２に出力する。なお、カメラ情報結合部１７３－１およびカメラ情報結合部１７３－２それぞれによるカメラ情報の結合は、本発明の第１の実施形態に係るカメラ情報結合部１７３による結合と同様に行われてよい。

空間変化参照ＲＮＮ１７４－１は、第１のグループに対応するカメラ情報と特徴量との各組み合わせを合成し、出力部１８０Ａおよび空間変化参照ＲＮＮ１７４－３に出力する。同様に、空間変化参照ＲＮＮ１７４－２は、第２のグループに対応するカメラ情報と特徴量との各組み合わせを合成し、出力部１８０Ａおよび空間変化参照ＲＮＮ１７４－３に出力する。なお、空間変化参照ＲＮＮ１７４－１および空間変化参照ＲＮＮ１７４－２それぞれによる合成は、本発明の第１の実施形態に係る空間変化参照ＲＮＮ１７４による合成と同様に行われてよい。

空間変化参照ＲＮＮ１７４－３は、空間変化参照ＲＮＮ１７４－１および空間変化参照ＲＮＮ１７４－２それぞれからの入力データを合成し、グループ全体に対応する出力データとして出力部１８０Ａに出力する。なお、空間変化参照ＲＮＮ１７４－３による合成も、本発明の第１の実施形態に係る空間変化参照ＲＮＮ１７４による合成と同様に行われてよい。

なお、ネットワーク構造制御部１６０は、カメラ個数検出部１５０によって検出された第１のグループに属するカメラの個数に基づいて空間変化参照ＲＮＮ１７４－１の構造を制御すればよい。また、ネットワーク構造制御部１６０は、カメラ個数検出部１５０によって検出された第２のグループに属するカメラの個数に基づいて空間変化参照ＲＮＮ１７４－２の構造を制御すればよい。また、ネットワーク構造制御部１６０は、グループ数と中間ノードの数とが同一になるように空間変化参照ＲＮＮ１７４－３の構造を制御してよい。

図１２に示された例では、空間方向結合部１７１－１および空間方向結合部１７１－２は、論理的に別々のブロックに分けられている。しかし、空間方向結合部１７１－１および空間方向結合部１７１－２は、物理的には共通のブロックであってよい。すなわち、空間方向結合部１７１－１および空間方向結合部１７１－２は、物理的に共通のモジュールによって実現されてよい。

同様に、図１２に示された例では、カメラ情報結合部１７３－１およびカメラ情報結合部１７３－２は、論理的に別々のブロックに分けられている。しかし、カメラ情報結合部１７３－１およびカメラ情報結合部１７３－２は、物理的には共通のブロックであってよい。すなわち、カメラ情報結合部１７３－１およびカメラ情報結合部１７３－２は、物理的に共通のモジュールによって実現されてもよい。

図１２に示された例では、空間変化参照ＲＮＮ１７４－１～１７４－３は、論理的に別々のネットワークに分けられている。しかし、空間変化参照ＲＮＮ１７４－１～１７４－３は、物理的に共通のネットワークであってよく、空間変化参照ＲＮＮ１７４－１～１７４－３には、共通のパラメータが設定されてよい。これによって、グループ分けに依存せずに、カメラＣ１～ＣＭの間の空間変化（空間的な位置の相違）が参照されて各特徴量が合成され得るため、任意にグループ分けが行われ得る。

以上に説明したように、本発明の第２の実施形態によれば、本発明の第１の実施形態と同様の効果が期待される。さらに、本発明の第２の実施形態によれば、出力部１８０Ａによって、グループごとに合成されたデータと、グループ全体として合成されたデータとの双方に基づく出力が行われ得る。例えば、カメラが設けられる物体の形状または出力内容の用途に応じて、ユーザが所望する出力の単位が異なる場合が想定される。本発明の第２の実施形態によれば、ユーザが所望する単位で出力が行われ得る。

（３．第３の実施形態）
続いて、本発明の第３の実施形態について説明する。

図１３は、本発明の第３の実施形態に係る画像処理装置の機能構成例を示すブロック図である。図１３に示されるように、本発明の第３の実施形態に係る画像処理装置１０Ｃは、出力部１８０Ａ（図２）の代わりに出力部１８０Ｂを有するとともに、視点情報検出部１９０を有する点において、本発明の第１の実施形態に係る画像処理装置１０Ｃと主に異なる。したがって、以下では、出力部１８０Ｂおよび視点情報検出部１９０について主に説明し、他の構成についての詳細な説明は省略する。

本発明の第３の実施形態において、任意の視点を基準とした２次元画像（仮想画像）が生成され得る。より具体的に、視点情報検出部１９０は、視点情報を検出する。視点情報は、どのようにして検出されてもよい。例えば、図示しない操作部を介してユーザによって入力された視点情報が検出されてもよい。例えば、視点情報は、どの位置を基準とするかを示す３次元的な位置およびどの方向を基準とするかを示す３次元的な方向を含んでよい。そして、出力部１８０Ｂは、視点情報検出部１９０によって検出された視点情報が示す視点を基準とした２次元画像（仮想画像）を生成する。

図１４は、出力部１８０Ｂの詳細構成例を示す図である。図１４に示されるように、本発明の第３の実施形態に係る出力部１８０Ｂは、２次元画像生成部１８３Ａ（図７）の代わりに２次元画像生成部１８３Ｂを有する点において、本発明の第１の実施形態に係る出力部１８０Ａと主に異なる。したがって、以下では、２次元画像生成部１８３Ｂについて主に説明し、他の構成についての詳細な説明は省略する。

２次元画像生成部１８３Ｂには、視点情報検出部１９０から視点情報が入力される。そして、２次元画像生成部１８３Ｂは、視点情報検出部１９０から入力された視点情報が示す視点を基準とした２次元画像（仮想画像）を生成する。

例えば、２次元画像生成部１８３Ｂは、合成処理部１７０Ａから入力されるデータと視点情報とに対して、全結合層を有するニューラルネットワークを適用することによって、当該データと視点情報とを合成してもよい。その後、２次元画像生成部１８３Ｂは、当該データと視点情報との合成結果に対して、本発明の第１の実施形態に係る２次元画像生成部１８３Ａによるアップサンプリングと同様のアップサンプリングを行うことによって２次元画像を生成してよい。

以上に説明したように、本発明の第３の実施形態によれば、本発明の第１の実施形態と同様の効果が期待される。さらに、本発明の第３の実施形態によれば、出力部１８０Ｂが、視点情報検出部１９０によって検出された視点情報が示す視点を基準とした２次元画像（仮想画像）を生成するため、任意の視点を基準とした２次元画像（仮想画像）が生成され得る。例えば、カメラが設けられる物体の形状または出力内容の用途に応じて、ユーザが所望する視点が異なる場合が想定される。本発明の第３の実施形態によれば、ユーザが所望する視点を基準とした２次元画像（仮想画像）が出力され得る。

（４．ハードウェア構成例）
続いて、本発明の各実施形態に係る画像処理装置１０のハードウェア構成例について説明する。以下では、本発明の各実施形態に係る画像処理装置１０のハードウェア構成例として、情報処理装置９００のハードウェア構成例について説明する。なお、以下に説明する情報処理装置９００のハードウェア構成例は、画像処理装置１０のハードウェア構成の一例に過ぎない。したがって、画像処理装置１０のハードウェア構成は、以下に説明する情報処理装置９００のハードウェア構成から不要な構成が削除されてもよいし、新たな構成が追加されてもよい。

図１５は、本発明の各実施形態に係る画像処理装置１０の例としての情報処理装置９００のハードウェア構成を示す図である。情報処理装置９００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３と、ホストバス９０４と、ブリッジ９０５と、外部バス９０６と、インタフェース９０７と、入力装置９０８と、出力装置９０９と、ストレージ装置９１０と、通信装置９１１と、を備える。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはＣＰＵバス等から構成されるホストバス９０４により相互に接続されている。

ホストバス９０４は、ブリッジ９０５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バス等の外部バス９０６に接続されている。なお、必ずしもホストバス９０４、ブリッジ９０５および外部バス９０６を分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

入力装置９０８は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバー等ユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路等から構成されている。情報処理装置９００を操作するユーザは、この入力装置９０８を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。

出力装置９０９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ）装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置、ランプ等の表示装置およびスピーカ等の音声出力装置を含む。

ストレージ装置９１０は、データ格納用の装置である。ストレージ装置９１０は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置９１０は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）で構成される。このストレージ装置９１０は、ハードディスクを駆動し、ＣＰＵ９０１が実行するプログラムや各種データを格納する。

通信装置９１１は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置９１１は、無線通信または有線通信のどちらに対応してもよい。

以上、本発明の各実施形態に係る画像処理装置１０のハードウェア構成例について説明した。

（５．まとめ）
以上に説明したように、本発明の実施形態によれば、互いに異なる視点から撮像を行い撮像範囲が一部または全部重複する複数の撮像部それぞれからの入力画像に基づいて前記撮像部ごとに特徴量を抽出し、抽出した前記撮像部ごとの前記特徴量を逐次的に出力する複数の画像処理部と、前記複数の画像処理部に接続された再帰型ニューラルネットワークを有し、前記再帰型ニューラルネットワークによって、前記画像処理部から逐次的に入力される前記特徴量を合成する合成処理部と、を備える、画像処理装置が提供される。

かかる構成によれば、複数のカメラを任意の位置に設定することを可能としつつ、複数のカメラそれぞれによって撮像された画像に基づく合成画像を生成することが可能となる。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

例えば、上記では、画像処理装置１０と図示しないディスプレイとが別体として存在する場合を主に説明した。しかし、画像処理装置１０と図示しないディスプレイとは、一体化されていてもよい。また、上記では、カメラＣ１～ＣＭが画像処理装置１０とは別体として構成される場合を主に説明した。しかし、カメラＣ１～ＣＭの一部または全部は、画像処理装置１０と一体化されていてもよい。

また、本発明の各実施形態においては、カメラＣ１～ＣＭの設置を終了し、画像処理装置１０の動作を開始させた後、カメラの個数を特に変更しない場合を想定した。しかし、画像処理装置１０の動作を開始させた後、カメラの数を変更することが可能であってもよい。例えば、画像処理装置１０の動作を開始させた後、カメラの数を増加させてもよい。かかる場合には、上記各種のニューラルネットワークのパラメータは、再度学習され直してもよい。

また、上記では、本発明の各実施形態を順次に説明したが、本発明の各実施形態は適宜に組み合わされてよい。例えば、本発明の第２の実施形態と本発明の第３の実施形態とが組み合わされてもよい。具体的に、本発明の第２の実施形態に係る合成処理部１７０Ｂと本発明の第３の実施形態に係る出力部１８０Ｂとの双方が組み込まれた画像処理装置が提供されてもよい。

１０（１０Ａ～１０Ｃ）画像処理装置
１２０画像処理部
１２２画像特徴量抽出ＣＮＮ
１２３時間方向結合部
１２４時間変化参照ＲＮＮ
１２５中間ノード
１５０カメラ個数検出部
１６０ネットワーク構造制御部
１７０（１７０Ａ、１７０Ｂ）合成処理部
１７１空間方向結合部
１７２カメラ情報記憶部
１７３カメラ情報結合部
１７４空間変化参照ＲＮＮ
１７５中間ノード
１８０（１８０Ａ、１８０Ｂ）出力部
１８１３次元画像生成部
１８２３次元画像出力部
１８３（１８３Ａ、１８３Ｂ）２次元画像生成部
１８４２次元画像出力部
１８５物体検出部
１８６検出結果出力部
１９０視点情報検出部

Claims

互いに異なる視点から撮像を行い撮像範囲が一部または全部重複する複数の撮像部それぞれからの入力画像に基づいて前記撮像部ごとに特徴量を抽出し、抽出した前記撮像部ごとの前記特徴量を逐次的に出力する複数の画像処理部と、
前記複数の画像処理部に接続された再帰型ニューラルネットワークを有し、前記再帰型ニューラルネットワークによって、前記画像処理部から逐次的に入力される前記特徴量を合成する合成処理部と、
前記撮像部の個数に基づいて前記再帰型ニューラルネットワークの構造を制御するネットワーク構造制御部と、
を備える、画像処理装置。
前記画像処理部それぞれは、畳み込みニューラルネットワークを有し、前記畳み込みニューラルネットワークによって、対応する前記撮像部からの入力画像に基づいて前記特徴量を抽出する、
請求項１に記載の画像処理装置。
前記撮像部それぞれに対応する畳み込みニューラルネットワークには、共通のパラメータが設定されている、
請求項２に記載の画像処理装置。
前記画像処理部それぞれは、再帰型ニューラルネットワークを有し、前記再帰型ニューラルネットワークによって、時間変化に応じた前記特徴量を出力する、
請求項１に記載の画像処理装置。
前記合成処理部は、前記撮像部ごとの前記特徴量に対してカメラ情報を付加し、前記カメラ情報と前記特徴量との組み合わせを合成する、
請求項１に記載の画像処理装置。
前記撮像部は、複数のグループに分けられており、
前記合成処理部は、前記グループごとに前記特徴量を合成する、
請求項１に記載の画像処理装置。
前記画像処理装置は、合成後の前記特徴量に応じた出力を行う出力部を備える、
請求項１に記載の画像処理装置。
前記出力部は、合成後の前記特徴量に基づいて３次元モデルを生成し、生成した前記３次元モデルを出力する、
請求項７に記載の画像処理装置。
前記出力部は、３次元情報を含んだ合成後の前記特徴量に基づいて所定の視点を基準とした仮想画像を生成し、生成した前記仮想画像を出力する、
請求項７に記載の画像処理装置。
前記画像処理装置は、視点情報を検出する視点情報検出部を備え、
前記出力部は、前記視点情報が示す視点を基準とした前記仮想画像を生成する、
請求項９に記載の画像処理装置。
前記出力部は、合成後の前記特徴量に基づいて物体を検出し、前記物体の検出結果を出力する、
請求項７に記載の画像処理装置。
互いに異なる視点から撮像を行い撮像範囲が一部または全部重複する複数の撮像部それぞれからの入力画像に基づいて前記撮像部ごとに特徴量を抽出し、抽出した前記撮像部ごとの前記特徴量を逐次的に出力することと、
再帰型ニューラルネットワークによって、逐次的に入力される前記特徴量を合成することと、
前記撮像部の個数に基づいて前記再帰型ニューラルネットワークの構造を制御することと、
を含む、画像処理方法。
コンピュータを、
互いに異なる視点から撮像を行い撮像範囲が一部または全部重複する複数の撮像部それぞれからの入力画像に基づいて前記撮像部ごとに特徴量を抽出し、抽出した前記撮像部ごとの前記特徴量を逐次的に出力する複数の画像処理部と、
前記複数の画像処理部に接続された再帰型ニューラルネットワークを有し、前記再帰型ニューラルネットワークによって、前記画像処理部から逐次的に入力される前記特徴量を合成する合成処理部と、
前記撮像部の個数に基づいて前記再帰型ニューラルネットワークの構造を制御するネットワーク構造制御部と、
を備える画像処理装置として機能させるためのプログラム。