JP2021128592A

JP2021128592A - 画像処理装置、画像処理方法、学習済みモデルの生成方法、およびプログラム

Info

Publication number: JP2021128592A
Application number: JP2020023374A
Authority: JP
Inventors: 秀藤田; Shu Fujita; 圭吾米田; Keigo Yoneda; 俊太郎荒谷; Shuntaro Araya; 厚伊達; Atsushi Date; 俊彰藤井; Toshiaki Fujii; 桂太高橋; Keita Takahashi; 孝士杉江; Takashi Sugie
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-02-14
Filing date: 2020-02-14
Publication date: 2021-09-02
Anticipated expiration: 2040-02-14
Also published as: WO2021161878A1; EP4089631A4; US20220383589A1; JP7427467B2; EP4089631A1

Abstract

【課題】仮想視点画像の画質の低下を抑制する。【解決手段】画像生成装置１は、複数の撮像装置２により複数の視点からオブジェクトを撮像することにより得られた撮像画像と、オブジェクトの３次元形状データとに基づいて生成される仮想視点画像を取得し、取得された仮想視点画像において、３次元形状データの精度に起因して発生するノイズを除去する。【選択図】図１

Description

本開示は、仮想視点画像に関する。

複数の撮像装置により得られた複数の画像を用いて、仮想視点からの見えを表す仮想視点コンテンツを生成する技術がある。特許文献１では、仮想視点コンテンツを生成するために、まず、被写体を複数の方向から撮像して取得された画像に基づいて推定した被写体の３次元形状を構成する各要素に対して、複数の撮像画像を用いて色を決定することが開示されている。

特開２０１９−０５７２４８号公報

特許文献１のような方法で仮想視点画像を生成する場合、３次元形状の推定の精度が仮想視点画像の画質に影響を及ぼす。つまり、適切に３次元形状の推定が行われない場合、仮想視点画像の画質が低下する恐れが生じる。例えば、撮像領域においてオブジェクト（被写体）が密集する領域、つまり、オクルージョンが発生する領域などでは、オブジェクトが本来存在しないにもかかわらず、オブジェクトが存在するとして３次元形状の推定が行われてしまう場合がある。この場合、３次元形状を構成する複数の要素のうち、オブジェクトが本来存在しないにもかかわらず、オブジェクトが存在するとされた要素に対して、誤った色が決定されてしまう。その結果として、仮想視点画像にノイズが発生し、画質が低下する場合がある。

本開示は、仮想視点画像の画質の低下を抑制することを目的とする。

本開示の一態様に係る画像処理装置は、複数の撮像装置により複数の視点からオブジェクトを撮像することにより得られた複数の撮像画像と、前記オブジェクトの３次元形状データとに基づいて生成される仮想視点画像を取得する取得手段と、前記取得手段により取得された前記仮想視点画像において、前記３次元形状データの精度に起因して発生するノイズを除去する除去手段と、を有することを特徴とする。

本開示によれば、仮想視点画像の画質の低下を抑制することができる。

画像処理システムの構成の例を示す図である。ゼリーノイズが発生する場合の例を説明する図である。学習モデルの概略を説明する図である。画像生成装置のハードウェア構成の例を示す図である。画像生成装置において行われる処理の例を示すフローチャートである。カメラ座標系とカメラ画像座標系の概略図である。画像処理システムの構成を示す図である。ゼリーノイズマップを説明する図である。ゼリーノイズ領域の検出を行う学習モデルの概略を説明する図である。ゼリーノイズ領域の修復を行う学習モデルの概略を説明する図である。画像生成装置７が行う処理の例を示すフローチャートである。画像生成装置７が行う処理の例を示すフローチャートである。

以下、図面を参照しながら、本開示の一態様を実施するための形態について説明する。なお、以下の実施形態は本開示事項を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本開示事項の一態様の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。

＜＜第１実施形態＞＞
本実施形態では、精度が低い形状推定結果に起因して発生するノイズ（以下、本明細書ではゼリーノイズという）を含んだ仮想視点画像を修復（修正または補正と呼んでもよい）する処理を行う例を述べる。修復する処理には、学習済みモデル（ニューラルネットワーク（以下、ＮＮという））が用いられる。具体的には、学習済みモデルに対してゼリーノイズを含んだ仮想視点画像を入力することで、ゼリーノイズ部分が除去（改善）された仮想視点画像が学習済みモデルから出力される。

なお、ゼリーノイズは、３次元形状の推定の際に、本来オブジェクト（被写体と呼んでもよい）が存在しないにもかかわらず、オクルージョンによりオブジェクトが存在すると推定されたことに起因して発生する。また、ゼリーノイズは、凹凸が多く含まれるような複雑な形状を有するオブジェクトがある場合にも発生しやすい。

本実施形態の画像処理システムは、複数の撮像装置により異なる方向から撮像して取得された複数の撮像画像と、撮像装置の状態と、仮想視点を示す仮想視点情報とに基づいて、仮想視点からの見えを表す仮想視点画像を生成する。

複数の撮像装置は、異なる複数の方向から撮像領域を撮像する。撮像領域は、例えば、ラグビーまたはサッカーなどが行われる競技場の平面と任意の高さとで囲まれた領域である。複数の撮像装置は、このような撮像領域を取り囲むようにして、それぞれ異なる位置および方向に設置され、同期して撮像を行う。なお、撮像装置は、撮像領域の全周にわたって設置されなくてもよく、設置場所の制限等によっては撮像領域の一部にのみ設置されていてもよい。撮像装置の数は限定されず、例えば、撮像領域をラグビーの競技場とする場合、競技場の周囲に数十〜数百台程度の撮像装置が設置されてもよい。

望遠カメラおよび広角カメラなどのように、画角が異なる複数の撮像装置が設置されていてもよい。例えば、望遠カメラを用いれば、高解像度にオブジェクトを撮像できるので、生成される仮想視点画像の解像度も向上する。また、例えば、広角カメラを用いれば、一台のカメラで撮像できる範囲が広いので、カメラ台数を減らすことができる。撮像装置は、現実世界の一つの時刻情報で同期され、撮像した映像には毎フレームの画像に撮像時刻情報が付与される。

なお、１台の撮像装置は、１台のカメラで構成されていてもよいし、複数台のカメラで構成されていてもよい。さらに、撮像装置は、カメラ以外の装置を含んでいてもよい。

撮像装置の状態とは、撮像装置の位置、姿勢（向き及び撮像方向）、焦点距離、光学中心、および歪みなどの状態のことをいう。撮像装置の位置および姿勢（向き及び撮像方向）は、撮像装置そのもので制御されてもよいし、撮像装置の位置および姿勢を制御する雲台により制御されてもよい。以下では、撮像装置の状態を示すデータのことを撮像装置のカメラパラメータとして説明を行うが、そのパラメータには、雲台等の別の装置により制御されるパラメータが含まれていてもよい。また、撮像装置の位置および姿勢（向き及び撮像方向）に関するカメラパラメータは、いわゆる外部パラメータである。撮像装置の焦点距離、画像中心、および歪みに関するパラメータは、いわゆる内部パラメータである。撮像装置の位置および姿勢は、一つの原点と直交する３軸を持つ座標系（以下、世界座標系という）で表現される。

仮想視点画像は、自由視点画像とも呼ばれるものであるが、ユーザが自由に（任意に）指定した視点に対応する画像に限定されず、例えば、複数の候補からユーザが選択した視点に対応する画像なども仮想視点画像に含まれる。また、仮想視点の指定は、ユーザ操作により行われてもよいし、画像解析の結果等に基づいて自動で行われてもよい。また、本実施形態では、仮想視点画像が静止画である場合を中心に説明するが、仮想視点画像は動画であってもよい。

仮想視点画像の生成に用いられる仮想視点情報は、例えば仮想視点の位置及び向きを示す情報である。具体的には、仮想視点情報は、仮想視点の３次元位置を表すパラメータと、パン、チルト、及びロール方向における仮想視点の向きを表すパラメータとを含む。なお、仮想視点情報の内容は上記に限定されない。例えば、仮想視点情報のパラメータには、仮想視点の視野の大きさ（画角）を表すパラメータが含まれてもよい。また、仮想視点情報は、複数フレームのパラメータを有していてもよい。つまり、仮想視点情報が、仮想視点画像の動画を構成する複数のフレームにそれぞれ対応するパラメータを有し、連続する複数の時点それぞれにおける仮想視点の位置及び向きを示す情報であってもよい。

仮想視点画像は、例えば、以下のような方法で生成される。まず、撮像装置により異なる方向からそれぞれの撮像領域を撮像することで、複数の撮像画像が取得される。次に、複数の撮像画像から、人物またはボールなどのオブジェクトに対応する前景領域を抽出した前景画像と、前景領域以外の背景領域を抽出した背景画像とが取得される。前景画像および背景画像は、テクスチャ情報（色情報など）を有している。そして、オブジェクトの３次元形状を表す前景モデルと、前景モデルに色付けするためのテクスチャデータとが、前景画像に基づいて生成される。前景モデルは、例えば視体積交差法（ｓｈａｐｅ−ｆｒｏｍ−ｓｉｌｈｏｕｅｔｔｅ法）などの形状推定方法により推定される。背景モデルは、例えばスタジアムまたは会場などを事前に３次元測定しておくことで生成される。また、競技場などの背景の３次元形状を表す背景モデルに色づけするためのテクスチャデータは、背景画像に基づいて生成される。そして、前景モデルと背景モデルとに対してテクスチャデータをマッピングし、仮想視点情報が示す仮想視点に応じてレンダリングを行うことにより、仮想視点画像が生成される。なお、仮想視点画像の生成方法はこれに限定されず、前景モデルおよび背景モデルを用いずに、撮像画像の射影変換により仮想視点画像を生成する方法など、種々の方法を用いることができる。

前景画像とは、撮像装置により撮像されて取得された撮像画像から、オブジェクトの領域（前景領域）を抽出した画像である。前景領域として抽出されるオブジェクトとは、一般的に、時系列で同じ方向から撮像を行った場合において動きのある（その位置または形が変化し得る）動的オブジェクト（動体）を指す。オブジェクトは、例えば、競技において、競技が行われるフィールド内にいる選手または審判などの人物を含み、球技であれば人物に加えボールなども含み得る。また、コンサートまたはエンタテイメントなどにおいては、歌手、演奏者、パフォーマー、または司会者などが、オブジェクトの一例である。

背景画像とは、少なくとも前景となるオブジェクトとは異なる領域（背景領域）の画像である。具体的には、背景画像は、撮像画像から前景となるオブジェクトを取り除いた状態の画像である。また、背景は、時系列で同じ方向から撮像を行った場合において静止している、又は静止に近い状態が継続している撮像対象物を指す。このような撮像対象物は、例えば、コンサート等のステージ、競技などのイベントを行うスタジアム、球技で使用するゴールなどの構造物、またはフィールドなどである。ただし、背景は、少なくとも前景となるオブジェクトとは異なる領域であり、撮像対象物としては、オブジェクトと背景との他に、別の物体等が含まれていてもよい。

＜システム構成＞
図１は、本実施形態における画像処理システムの構成の例を示す図である。画像処理システムは、画像生成装置１と複数の撮像装置２と形状推定装置３と表示装置４とを有する。図１では、１台の撮像装置２を示し、他の撮像装置は、図示を省略している。

画像処理装置である画像生成装置１は、撮像装置２と形状推定装置３と表示装置４に、デイジーチェーン方式で、または、所定のネットワークを介して接続されている。画像生成装置１は、撮像装置２から撮像画像データを取得する。また、画像生成装置１は、形状推定装置３からオブジェクトの３次元形状データを取得する。そして、画像生成装置１は、撮像装置２から得た撮像画像データと形状推定装置３から得た３次元形状データとに基づいて、仮想視点画像データを生成する。撮像画像データによって表される画像を撮像画像といい、仮想視点画像データによって表される画像を仮想視点画像という。以下では、説明を簡素化するため、各種の画像データを取得または生成することなどを、単に、仮想視点画像を取得または生成する、などと表現することがある。画像生成装置１は、仮想視点画像を生成するために、仮想視点情報の指定を受け付け、その仮想視点情報に基づいて仮想視点画像を生成する。仮想視点情報は、例えば、ジョイスティック、ジョグダイヤル、タッチパネル、キーボード、及びマウスなどの不図示の入力部により、ユーザ（操作者）から指定される。なお、仮想視点情報の指定はこれに限定されず、オブジェクトを認識するなどして、自動的に指定されてもよい。画像生成装置１が生成した仮想視点画像は、表示装置４へ出力される。

撮像装置２は、他の撮像装置２と識別するための固有の識別番号を持つ。撮像装置２は、撮像して取得した画像から前景画像を抽出する機能など、他の機能を有してよく、その機能を実現するハードウェア（回路または装置など）も含んでもよい。

形状推定装置３は、撮像装置２から撮像画像又は前景画像を取得し、オブジェクトの３次元形状を推定し、３次元形状データを出力する。表示装置４は、画像生成装置１から仮想視点画像を取得し、仮想視点画像をディスプレイなどの表示デバイスを用いて出力する。

次に、画像生成装置１の構成を説明する。画像生成装置１は、カメラ情報取得部１１、仮想視点画像生成部１２、および仮想視点画像修復部１３を有する。

カメラ情報取得部１１は、複数の撮像装置２から撮像画像を取得する。また、カメラ情報取得部１１は、複数の撮像装置２のそれぞれのカメラパラメータを取得する。なお、カメラ情報取得部１１が、撮像装置２のカメラパラメータを算出して取得するようにしてもよい。例えば、カメラ情報取得部１１は、複数の撮像装置２から取得した撮像画像から対応点を算出する。そして、対応点を撮像装置の視点に投影した時の誤差が最小になるように最適化し、各撮像装置の視点の位置および姿勢等を校正することでカメラパラメータを算出してもよい。なお、校正方法は既存のいかなる方法であってもよい。カメラパラメータは、撮像画像に同期して取得されてもよいし、事前準備の段階で取得されてもよいし、また必要に応じて撮像画像に非同期で取得されてもよい。

仮想視点画像生成部１２は、カメラ情報取得部１１が取得した撮像装置２の撮像画像と、カメラパラメータと、形状推定装置３が出力した３次元形状データと、仮想視点情報とに基づいて、仮想視点画像を生成する。

仮想視点画像修復部１３は、仮想視点画像生成部１２によって生成された仮想視点画像を修復する。仮想視点画像生成部１２により生成された仮想視点画像には、精度が低い形状推定に起因するゼリーノイズが含まれている可能性があるためである。仮想視点画像修復部１３は、このゼリーノイズを除去する。

＜ゼリーノイズの説明＞
図２は、精度が低い形状推定が原因で、上記のゼリーノイズが発生する場合の例を説明する図である。図２を用いてゼリーノイズを説明する。図２（ａ）は、所定の撮像装置２がオブジェクトを撮像して取得した撮像画像２０１を示す。撮像画像２０１には、オブジェクト２０２、２０３、２０４が表れている。図２（ｂ）は、オブジェクト２０２、２０３、２０４を上面から見たときのオブジェクトの例を示している。図２（ｂ）のオブジェクト２１２、２１３、２１４は、図２（ａ）のオブジェクト２０２、２０３、２０４にそれぞれ対応している。

図２（ｃ）は、図２（ａ）のオブジェクト２０２、２０３、２０４を撮像している複数の撮像装置２を用いてオブジェクトの形状推定を行った結果を用いて、撮像画像２０１を取得した所定の撮像装置２の視点に仮想視点を指定した場合の画像２２１の例である。図２（ｃ）の領域２２２、２２３、２２４は、オブジェクト２０２、２０３、２０４にそれぞれ対応する。なお、図２（ｃ）の領域２２２、２２３、２２４の各要素に対しては、色が決定されていないものとする。この図２（ｃ）は、領域２２２、２２３、２２４に対応する３次元形状データを構成する要素が存在することを示している。

図２（ａ）のオブジェクト２０２、２０３、２０４が密集すると、撮像領域において、複数の撮像装置２から不可視な領域が発生する。この場合、形状推定の精度が低くなり、例えば図２（ｃ）の領域２２５、２２６、２２７のように、本来オブジェクトが存在しない領域においても、３次元形状データを構成する要素が存在することが生じ得る。図２（ｄ）は、図２（ｃ）の領域２２２〜２２７が示す３次元形状データを上面から示した図である。つまり、図２（ｄ）に示すように、オクルージョンの影響により、領域２２２〜２２７が一塊の３次元形状データ２３１として形成されてしまう。

図２（ｅ）は、図２（ｃ）の画像２２１において、領域２２２、２２３、２２４の要素に対して色付けを行って得られる仮想視点画像２４１を示している。図２（ｅ）の領域２４２、２４３、２４４は、図２（ｃ）の領域２２２、２２３、２２４にそれぞれ対応する。図２（ｅ）の領域２４５、２４６、２４７は、図２（ｃ）の領域２２５、２２６、２２７にそれぞれ対応している。

図２（ｆ）は、図２（ｅ）の領域２４２〜２４７が示す３次元形状データを上面から示した図である。図２（ｆ）の領域２５２、２５３、２５４は、図２（ｂ）のオブジェクト２１２、２１３、２１４に対応する３次元形状データである。図２（ｅ）の領域２４２、２４３、２４４、または、図２（ｆ）の領域２５２、２５３、２５４のように、オブジェクトが存在する位置にある３次元点に対しては、色が元々のオブジェクトとほぼ同一になると期待できる。しかしながら、図２（ｅ）の領域２４５、２４６、２４７のように、本来オブジェクトとして存在しない箇所に対しては、誤った色が付けられる可能性が高い。また、図２（ｆ）の３次元形状データの一部のデータ領域２５５は、図２（ｂ）のオブジェクト２１２、２１３、２１４に囲まれたオクルージョン領域に該当する領域である。これらの箇所に誤った色が付けられると、ゼリーノイズを含む仮想視点画像が結果として生成され、仮想視点画像の画質の低下を招いてしまう。以上が、ゼリーノイズが発生する場合の例である。

＜仮想視点画像修復部の説明＞
図１に戻り説明を続ける。仮想視点画像修復部１３は、仮想視点画像生成部１２によって生成されたゼリーノイズを含み得る仮想視点画像を修復する。なお、本実施形態では、ニューラルネットワークを学習させた学習済みモデルを生成し、その学習済みモデルによって仮想視点画像の修復を行うことを想定している。以下、仮想視点画像修復部１３の説明を行う。仮想視点画像修復部１３は、教師データ生成部１３１、修復学習部１３２、および修復部１３３を有する。

教師データ生成部１３１は、仮想視点画像生成部１２で生成された仮想視点画像を入力とし、カメラ情報取得部１１で取得できる対応視点のカメラの撮像画像をその正解とする、１組の教師データを生成する。なお、正解データである画像として、実空間を実際に撮影して得られる画像を用いてもよいし、二つの実カメラの撮像画像から補間して生成される画像を用いてもよい。また、正解データである画像は、三つ以上の実カメラの撮像画像から合成される画像であってもよい。また、ＣＧ（コンピュータグラフィックス）によって作成した仮の３次元空間上で得られるカメラのシミュレーション画像を用いてもよい。ただし、正解データとして実際の撮影に用いたカメラを使用する場合、入力とする仮想視点画像の仮想視点の位置姿勢は、実カメラの位置姿勢のものに限定される。また、正解データとして二つの実カメラの撮像画像から補間して生成される画像を用いる場合は、撮影領域が重なっている二つのカメラを選んだ上で、両方あるいはどちらかのカメラによって撮影されている領域のみを有効な正解データとする。また、正解データとしてＣＧによるシミュレーション画像を用いる場合、オブジェクトの正解３次元形状は既知となる。しかしながら、仮想視点画像生成部１２では正解３次元形状を用いず、シミュレーションによって得られる複数カメラ情報を形状推定装置３へ入力して、その出力として得られる３次元形状を用いて生成した仮想視点画像を入力に使用する。正解データとして実カメラの撮像画像から補間して生成される画像を用いる場合、または、ＣＧによるシミュレーション画像を用いる場合においても、入力として用いる仮想視点画像の視点は、それらの画像に対応する視点が用いられる。つまり、教師データ生成部１３１は、入力とする仮想視点画像の視点の位置姿勢を、正解データである画像の位置姿勢に対応させた教師データを生成する。以上のようにして、教師データ生成部１３１は、適切な教師データを生成する。なお、教師データは、学習用データともいう。

修復学習部１３２は、教師データ生成部１３１で生成された教師データに基づいて、正解に対する入力の損失関数を定義し、その損失関数を最小化または最大化できるようにニューラルネットワークのパラメータを繰り返し最適化していくことで、学習を進める。そして、学習して得られたモデル（学習済みモデルという）は修復部１３３へ出力される。

図３は、学習モデルの概略を説明する図である。図３（ａ）は、修復学習部１３２で行われる学習処理の例を示している。例えば、実カメラＣ１の視点位置に対応する仮想視点画像を入力データとし、その実カメラＣ１で撮像された撮像画像を正解データとする教師データを用いて学習が行われる。そして、入力データと正解データとのずれ量Ｌが最小化または最大化するように、繰り返し学習が行われる。ここでは、一つの視点の実カメラを例に挙げたが、画像処理システムを構成する各撮像装置２の対応視点における教師データを用いて繰り返し学習が行われる。

なお、修復学習部１３２は、誤差検出部と、更新部と、を備えてもよい。誤差検出部は、入力層に入力される入力データに応じてニューラルネットワークの出力層から出力される出力データと、教師データとの誤差を得る。誤差検出部は、損失関数を用いて、ニューラルネットワークからの出力データと教師データとの誤差を計算するようにしてもよい。更新部は、誤差検出部で得られた誤差に基づいて、その誤差が小さくなるように、ニューラルネットワークのノード間の結合重み付け係数等を更新する。この更新部は、例えば、誤差逆伝播法を用いて、結合重み付け係数等を更新する。誤差逆伝播法は、上記の誤差が小さくなるように、各ニューラルネットワークのノード間の結合重み付け係数等を調整する手法である。また、本実施形態では、ニューラルネットワークを利用して、学習するための特徴量および結合重み付け係数を自ら生成する深層学習（ディープラーニング）をすることを想定している。なお、利用するニューラルネットワークのネットワーク構造としては、ネットワークの入力と出力とが画像データであり、入出力の関係を十分に学習できるものであれば、いかなる方法でもよい。

修復部１３３は、修復学習部１３２で得られた学習済みモデルに対して、仮想視点画像生成部１２から与えられる仮想視点画像を入力として与えることで、ゼリーノイズを含む仮想視点画像を修復する。修復後の仮想視点画像は、表示装置４へと出力される。

図３（ｂ）は、修復部１３３で行われる修復処理（推論処理）の例を示している。修復学習部１３２で得られた学習済みモデルに対して、任意の仮想視点の仮想視点画像を入力データとして入力すると、修復済みの仮想視点画像が出力データとして出力される。

＜ハードウェア構成＞
図４は、画像生成装置１のハードウェア構成の例を示す図である。画像生成装置１は、ＣＰＵ４１１、ＲＯＭ４１２、ＲＡＭ４１３、補助記憶装置４１４、表示部４１５、操作部４１６、通信Ｉ／Ｆ４１７、ＧＰＵ４１８、及びバス４１９を有する。ＣＰＵ４１１は、ＲＯＭ４１２またはＲＡＭ４１３に格納されているコンピュータプログラムおよびデータを用いて画像生成装置１の全体を制御することで、図１に示す画像生成装置１の各機能を実現する。なお、画像生成装置１がＣＰＵ４１１とは異なる１又は複数の専用のハードウェアを有し、ＣＰＵ４１１による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ＡＳＩＣ（特定用途向け集積回路）、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、およびＤＳＰ（デジタルシグナルプロセッサ）などがある。ＲＯＭ４１２は、変更を必要としないプログラムなどを格納する。ＲＡＭ４１３は、補助記憶装置４１４から供給されるプログラムおよびデータ、並びに、通信Ｉ／Ｆ４１７を介して外部から供給されるデータなどを一時記憶する。補助記憶装置４１４は、例えばハードディスクドライブ等で構成され、画像データまたは音声データなどの種々のデータを記憶する。ＧＰＵ４１８は、データをより多く並列処理することで効率的な演算を行うことができるので、ディープラーニングのような学習モデルを用いて複数回に渡り学習を行う場合にはＧＰＵ４１８で処理を行うことが有効である。そこで本実施形態では、修復学習部１３２による処理には、ＣＰＵ４１１に加えてＧＰＵ４１８を用いる。具体的には、学習モデルを含む学習プログラムを実行する場合に、ＣＰＵ４１１とＧＰＵ４１８とが協働して演算を行うことで学習を行う。なお、修復学習部１３２の処理は、ＣＰＵ４１１またはＧＰＵ４１８の一方のみにより演算が行われても良い。また、修復部１３３も修復学習部１３２と同様にＧＰＵ４１８を用いても良い。

表示部４１５は、例えば液晶ディスプレイまたはＬＥＤ等で構成され、ユーザが画像生成装置１を操作するためのＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）などを表示する。操作部４１６は、例えばキーボード、マウス、ジョイスティック、またはタッチパネル等で構成され、ユーザによる操作を受けて各種の指示をＣＰＵ４１１に入力する。ＣＰＵ４１１は、表示部４１５を制御する表示制御部及び操作部４１６を制御する操作制御部として動作する。

通信Ｉ／Ｆ４１７は、画像生成装置１の外部の装置との通信に用いられる。例えば、画像生成装置１が外部の装置と有線で接続される場合には、通信用のケーブルが通信Ｉ／Ｆ４１７に接続される。画像生成装置１が外部の装置と無線通信する機能を有する場合には、通信Ｉ／Ｆ４１７はアンテナを備える。バス４１９は、画像生成装置１の各部をつないで情報を伝達する。

本実施形態では表示部４１５と操作部４１６とが画像生成装置１の内部に存在するものとするが、表示部４１５と操作部４１６との少なくとも一方が画像生成装置１の外部に別の装置として存在していてもよい。

＜処理フロー＞
図５は、本実施形態の画像生成装置１において行われる処理の例を示すフローチャートである。図５に示す処理は、ＣＰＵ４１１またはＧＰＵ４１８が、ＲＯＭ４１２または補助記憶装置４１４に記憶されているプログラムを実行することで行われる。なお、各処理の説明における記号「Ｓ」は、当該フローチャートにおけるステップであることを意味する（以下、本明細書において同様である）。

図５（ａ）は、修復学習部１３２において行われる学習処理を示すフローチャートである。まず、図５（ａ）を用いて、仮想視点画像修復を行うニューラルネットワークの学習処理のフローチャートを説明する。

Ｓ５０１において、カメラ情報取得部１１は、撮像装置２からカメラ情報を取得する。カメラ情報は、撮像画像およびカメラパラメータを含み得る。即ち、Ｓ５０１において、カメラ情報取得部１１は、撮像装置２から複数の撮像画像を取得する。取得された撮像画像は、仮想視点画像生成部１２および教師データ生成部１３１に出力される。なお、ここで取得された撮像画像は、ニューラルネットワークを学習する際の正解データとなる。さらに、Ｓ５０１においてカメラ情報取得部１１は、撮像装置２からカメラパラメータを取得する。なお、カメラ情報取得部１１が、該カメラパラメータを算出するようにしてもよい。また、カメラパラメータは、撮像画像を取得する度に算出される必要はなく、仮想視点画像を生成する前に少なくとも１度算出されればよい。取得したカメラパラメータは、仮想視点画像生成部１２に出力される。

Ｓ５０２において、仮想視点画像生成部１２は、形状推定装置３から、オブジェクトを構成する３次元点群の情報（３次元形状データ）を取得する。

Ｓ５０３において、仮想視点画像生成部１２は、実カメラの視点位置に対応する仮想視点画像群を生成する。生成された仮想視点画像群は、教師データ生成部１３１へと出力される。即ち、Ｓ５０３において生成された仮想視点画像は、ニューラルネットワークの学習をするための入力データとなる。本例のＳ５０３では、全ての実カメラの視点位置に対応する仮想視点画像を生成する。ただし、本例では、それらの仮想視点画像の全フレームを教師データ生成部１３１へと出力するのではなく、該仮想視点画像で何らかの前景オブジェクトを撮影しているフレームの中から、ゼリーノイズを含むフレームと含まないフレームをユーザが予め選択する。そして、仮想視点画像生成部１２は、ゼリーノイズを含むフレームと含まないフレームとのシーンの割合が等しくなるようにランダムで選択した仮想視点画像を、教師データ生成部１３１へ出力する。ゼリーノイズが発生していないシーンも含めて学習入力データとすることで、ゼリーノイズ領域とは異なり大幅な修正を必要としない領域についても学習できることが期待される。

ここで、仮想視点画像を生成する方法を説明する。仮想視点画像生成部１２は、前景仮想視点画像（オブジェクト領域の仮想視点画像）を生成する処理と、背景仮想視点画像（オブジェクト領域以外の仮想視点画像）を生成する処理とを実行する。そして、生成した背景仮想視点画像に前景仮想視点画像を重ねることで仮想視点画像を生成する。

仮想視点画像の前景仮想視点画像を生成する方法を説明する。前景仮想視点画像は、ボクセルを、座標が（Ｘｗ，Ｙｗ，Ｚｗ）である３次元点と仮定し、ボクセルの色を算出し、色が付いたボクセルを既存のＣＧレンダリング手法によりレンダリングすることで生成できる。色を算出する前に、まず、撮像装置２のカメラからオブジェクトの３次元形状の表面までの距離を画素値とする距離画像を生成する。

距離画像を生成する方法を説明する。距離画像は、撮像画像と同じ幅、高さとし、各画素には距離値が格納される。例えば、まず、３次元点群の点Ｐの座標（Ｘｗ、Ｙｗ、Ｚｗ）に、外部行列Ｔｅをかけることで、世界座標系の座標からカメラ座標系のカメラ座標（Ｘｃ、Ｙｃ）に変換する。カメラ座標系とは、カメラのレンズ中心を原点とし、レンズ平面（Ｘｃ、Ｙｃ）とレンズ光軸（Ｚｃ）から定義される３次元座標系である。ここで外部行列Ｔｅは、実カメラの外部パラメータから構成される行列である。カメラ位置を原点に実カメラのレンズが向く方向をカメラ座標系のｚ軸の正とすると、カメラ座標（Ｘｃ、Ｙｃ）のｚ座標が、その点を実カメラから見た場合の距離値である。

次に、カメラ座標（Ｘｃ、Ｙｃ）の画像座標（Ｘｉ、Ｙｉ）を算出し、距離値を格納する距離画像の座標を求める。画像座標（Ｘｉ、Ｙｉ）は、カメラ座標（Ｘｃ、Ｙｃ）をｚ座標で正規化した正規化カメラ座標に内部行列Ｔｉをかけることで算出されるカメラ画像座標系の座標である。カメラ画像座標系は、図６に示すように、レンズ面から前方にある一定距離離れた平面上に定義され、カメラ座標系のＸｃ軸とＹｃ軸およびカメラ画像座標系のＸｉ軸とＹｉ軸とが、それぞれ平行であるような２次元座標系である。図６（ａ）は、カメラ座標系の概略図であり、図６（ｂ）は、カメラ画像座標系の概略図である。なお、内部行列Ｔｉは、実カメラの内部パラメータから構成される行列である。画像座標（Ｘｉ、Ｙｉ）の画素に既に計算した別の点の距離値が格納されている場合、その値と画像座標（Ｘｉ、Ｙｉ）のｚ座標とを比較する。そして、ｚ座標の方が小さい場合に、ｚ座標を画像座標（Ｘｉ、Ｙｉ）における画素値として新しく格納する。３次元点群の全ての点Ｐにこれらの処理を実行することで１台の実カメラの距離画像を生成することができる。さらに、全ての実カメラについて処理することで、全実カメラの距離画像を生成することができる。

次に、ボクセルに色を割り当てるために、３次元点（Ｘｗ，Ｙｗ，Ｚｗ）を画角内に含むカメラにおいて、その３次元点をカメラ座標系に一度変換する。そして、カメラ座標系に変換された３次元点を、カメラ画像座標系に変換し、該ボクセルからカメラまでの距離ｄとカメラ画像座標系上の座標（Ｘｉ，Ｙｉ）とを算出する。そして、距離ｄと、先に生成した距離画像における対応する座標（Ｘｉ，Ｙｉ）の画素値（＝表面までの距離）との差を算出し、予め設定した閾値以下であれば、該ボクセルは該カメラから可視であると判定される。可視と判定された場合、該カメラに対応する撮像装置２の撮像画像における座標（Ｘｉ，Ｙｉ）の画素値を、該ボクセルの色とする。該ボクセルが複数のカメラにおいて可視と判定された場合、撮像装置２の各撮像画像からの前景画像のテクスチャデータから画素値が取得され、例えば、それらの平均値を該ボクセルの色とする。ただし、色を算出する方法はこれに限定されない。例えば、平均値ではなく、仮想視点から最も近い撮像装置２から取得された撮像画像の画素値を用いるなどの方法を用いても構わない。全ボクセルについて同じ処理を繰り返すことで３次元形状データを構成する全ボクセルに色を割り当てることができる。

なお、本例では、仮想視点画像生成部１２が、各３次元点がどのカメラから可視であるか否かを判定する例を説明したが、これに限られない。形状推定装置３が、各３次元点がどのカメラから可視であるか否かを表す可視情報を有する場合、仮想視点画像生成部１２は、形状推定装置３から当該可視情報を取得し、取得した情報を用いて処理を行ってもよい。

次に、仮想視点画像の背景仮想視点画像を生成する方法を説明する。背景仮想視点画像を生成するために、競技場などの背景の３次元形状データが取得される。背景の３次元形状データは、競技場などのＣＧモデルを予め作成し、システム内に保存しておいたＣＧモデルが用いられる。ＣＧモデルを構成する各面の法線ベクトルと撮像装置２を構成する各カメラの方向ベクトルとを比較し、各面を画角内に収め、最も正対する撮像装置２が算出される。そして、この撮像装置２に面の頂点座標を投影し、面に貼るテクスチャ画像が生成され、既存のテクスチャマッピング手法でレンダリングすることで、背景仮想視点画像が生成される。このようにして得られた仮想視点画像の背景仮想視点画像上に前景仮想視点画像を重ねる（合成する）ことで、仮想視点画像が生成される。

図５のフローチャートの説明を続ける。Ｓ５０４において、教師データ生成部１３１は、仮想視点画像の修復を行うニューラルネットワークの学習のための教師データを生成する。ここでは、Ｓ５０３において生成された、実カメラの視点位置に対応する仮想視点画像を入力データとし、Ｓ５０１において取得した、その仮想視点の位置に対応する実カメラの撮像画像を正解データとする１組の教師データを生成するものとする。実カメラの視点位置に対応する仮想視点画像における色情報は、撮影に使用された実カメラ画像に等しい。このため、仮想視点の位置姿勢と実カメラの位置姿勢とを同一とすれば、理想的には、仮想視点画像と実カメラ画像とが等しくなるためである。なお、Ｓ５０４では、学習に必要な教師データの数を確保するために、データの拡張も付随して行ってもよい。適用するデータの拡張の方法としては、例えば次のような処理を適用する方法が挙げられる。即ち、入力データの仮想視点画像とそれに対応する正解データである実カメラ画像に対して、対応し合う同一の画像部分領域をランダムに切り取る処理（ただし、切り取る画像サイズは固定）と、左右反転させる処理とを適用する方法が例として挙げられる。

Ｓ５０５において、修復学習部１３２は、Ｓ５０４において生成された教師データを用いて、学習モデル（ニューラルネットワーク）を学習させる。例えば、任意の仮想視点画像を入力としたときに、出力としてゼリーノイズのない、あるいは低減させた仮想視点画像を生成できるように学習モデルを学習させる。学習して得られる学習済みモデルは、修復部１３３へと出力される。なお、ニューラルネットワークの学習をする際に用いる損失関数としては、正解に対する入力の忠実度を測るために、平均二乗誤差を用いる。また、その損失関数を最小化するようにニューラルネットワークのパラメータを最適化するための方法としては、Ａｄａｍ法を用いる。また、ニューラルネットワークのアーキテクチャとしては、Ｕ−Ｎｅｔとして知られているアーキテクチャと同等のものを用いる。Ｕ−Ｎｅｔは、画像の多重解像度分析をしながら処理をするネットワークアーキテクチャであり、画像特徴のスケールに対してロバストになるという特徴を有する。そのため、様々な大きさのゼリーノイズに対して対応が可能になると考えられるため、今回の仮想視点画像修復に対しても効果が期待できる。以上が、学習フェーズにおける処理である。

次に、学習済みのニューラルネットワークモデルを用いて、実際に仮想視点画像の修復を行う推論処理を説明する。

図５（ｂ）は、学習済みのニューラルネットワークモデルを用いて、仮想視点画像の修復を行う推論処理のフローチャートの例を示す図である。図５（ｂ）において、Ｓ５０１のカメラ情報の取得処理およびＳ５０２の形状推定情報の取得処理は、図５（ａ）と同様の処理であるので、説明を省略する。

Ｓ５０２に続くＳ５１３において、仮想視点画像生成部１２は、任意の視点位置における仮想視点画像を生成する。仮想視点画像の生成方法は、図５（ａ）のＳ５０４で説明した方法と同じである。推論フェーズにおいては、任意の視点位置における仮想視点画像が生成される。生成された仮想視点画像は、修復部１３３へと出力され、学習済みモデルへの入力となる。

Ｓ５１４において、修復部１３３は、Ｓ５０５で学習された学習済みモデルに対して、Ｓ５１３において生成された仮想視点画像を入力し、仮想視点画像を修復する。なお、ここでは、ゼリーノイズの有無に関わらず、任意の仮想視点画像を入力とする。これは、Ｓ５０５で実施された学習が、Ｓ５０３において生成された教師データに基づいて行われており、そして、該教師データは仮想視点画像にゼリーノイズが無い場合も含んでいる。そのため、ゼリーノイズがない仮想視点画像が入力されたとしても、不必要な修復が行われることがないことが期待される。修復部１３３で修復された仮想視点画像は、表示装置４に出力される。

また、例えばゼリーノイズがある場合にだけ、修復部１３３により仮想視点画像が修復されるような構成でもよい。この場合には、画像生成装置１が、仮想視点画像がゼリーノイズを含むか否かを判断する判断部を有していてもよい。その判断部が仮想視点画像修復部１３に含まれていてもよい。そして、仮想視点画像生成部１２から出力される仮想視点画像が判断部に入力され、その判断部が入力された仮想視点画像にゼリーノイズが含まれるか判断する。そして、ゼリーノイズが仮想視点画像に含まれる場合に、修復部１３３にその仮想視点画像が出力され、修復部１３３で修復の処理が行われる。一方、ゼリーノイズが仮想視点画像に含まれない場合には、その仮想視点画像は、判断部から修復部１３３を介さずに、表示装置４に出力される。

また、ゼリーノイズが発生しやすいイベントの際に、仮想視点画像生成部１２で生成された仮想視点画像が仮想視点画像修復部１３に出力される構成にしてもよい。例えば、ラグビーなどのオブジェクトが密集しやすいようなイベントの場合は、どの撮像装置からも撮像されない領域が生じ、ゼリーノイズが発生しやすいため、上記の構成とする。一方、被写体が密集しにくいようなイベントの場合には、仮想視点画像生成部１２で生成された仮想視点画像が仮想視点画像修復部１３を介さずに、表示装置４に出力されるようにしてもよい。この構成を達成するため、例えば、イベント情報に基づいて、自動で、仮想視点画像生成部１２の出力先が、仮想視点画像修復部１３か表示装置４に切り替わるようにしてもよい。また、イベント情報に限らず、被写体の密集度などゼリーノイズの発生の可能性が変わることを示す情報に基づいて、出力先が切り替わる構成にしてもよい。また、ユーザの操作や設定に応じて、出力先の切り替えを行うように、画像処理装置１が構成されていてもよい。

また、学習には、同じ会場で行われた同一のイベントのみの入力データと正解データの組からなる教師データを用いたが、これに限られない。つまり、複数の異なる会場で行われる様々なイベントのそれぞれにおいて撮像される撮像画像と、それに基づいて生成される仮想視点画像との組を入力データと正解データの組を含む教師データを用いて学習を行ってもよい。例えば、会場Ａで開催されたラグビーの試合での撮像に基づいて教師データＡを生成し、会場Ｂで開催されたラグビーの試合での撮像に基づいて教師データＢを生成してもよい。そして、教師データＡと教師データＢとを含む教師データを用いて、修復学習部１３２の学習が行われてもよい。さらに、教師データとして、教師データＡと教師データＢの他に、会場Ｃで開催されるサッカーの試合での撮像に基づいて生成された教師データＣを含んでもよく、その教師データを用いて修復学習部１３２の学習が行われてもよい。また、教師データの中から、イベントなどの情報、またはユーザの設定に基づいて、学習に適切なデータが選択されて、選択された教師データに基づいて学習が行われてもよい。

仮想視点画像生成部１２から出力される仮想視点画像に対して、例えば自動的、あるいはユーザの設定によりゼリーノイズ、さらにはその他のノイズを特定し、ノイズが特定された仮想視点画像を教師データ生成部に入力する構成であってもよい。

以上説明したように、本実施形態によれば、精度が低い形状推定結果に起因して発生するゼリーノイズを、事後処理によって仮想視点画像から取り除くことができる。この結果、仮想視点画像の画質の低下を抑制することができる。

＜＜第２実施形態＞＞
本実施形態では、仮想視点画像中のどの領域にゼリーノイズがあるかを検出し、検出した領域を修復する処理を、検出用および修復用の二つのニューラルネットワークに分けて学習させる。即ち、検出用の第一モデルと、修復用の第二モデルとをそれぞれ学習させる。そして、その学習済みモデルを組み合わせることで、修復結果をニューラルネットワークに推論させる例を説明する。

＜システム構成＞
図７は、本実施形態における画像処理システムの構成を示す図である。本実施形態の画像処理システムは、第１実施形態で説明した画像生成装置１の代わりに、画像生成装置７が備えられている。図７に示すように、画像生成装置７は、撮像装置２、形状推定装置３、表示装置４に、デイジーチェーン方式で、または、所定のネットワークを介して接続されている。撮像装置２、形状推定装置３、および表示装置４の構成は第１実施形態と同じである。以下、第１実施形態と同じ構成については説明を省略する。

画像生成装置７は、カメラ情報取得部１１、仮想視点画像生成部１２、および仮想視点画像修復部７３を有する。第１実施形態と比べて、仮想視点画像修復部７３の機能と動作が異なる。

仮想視点画像修復部７３は、仮想視点画像生成部１２が生成した仮想視点画像において、ゼリーノイズがどの領域にあるかを検出し、その検出したゼリーノイズ領域を修復する。この過程を、図８を用いて説明する。

図８は、ゼリーノイズマップを説明する図である。図８（ａ）は、図２（ｃ）の画像２２１で表されるような仮想視点画像を入力として得られる、ゼリーノイズ領域を表した画像であるゼリーノイズマップを示す図である。図８（ｂ）は、図８（ａ）に示されるゼリーノイズ領域を修復した仮想視点画像を説明する図である。

図８（ａ）は、図２（ｃ）の画像２２１の例におけるゼリーノイズマップ８０１を示している。図８（ａ）の領域８０５、８０６、８０７は、図２（ｃ）の画像２２１においてゼリーノイズとして観測される領域２２５、２２６、２２７にそれぞれ対応する画素領域である。図８（ｂ）の画像６１１は、図８（ａ）のゼリーノイズマップ８０１に基づいて、ゼリーノイズ領域を修復した仮想視点画像の例である。図８（ｂ）の領域８１２、８１３、８１４は、図２（ａ）のオブジェクト２０２、２０３、２０４にそれぞれ対応する画像領域の例である。本実施形態では、ゼリーノイズ領域を検出し、その検出した領域を修復の対象とすることで、それ以外の画像領域を不必要に変えないため、仮想視点画像の画質が安定して向上することが期待される。

本実施形態では、これらのゼリーノイズ領域の検出と修復との処理を二つのニューラルネットワークに分けて学習させ、その二つの学習済みモデルを組み合わせることで、仮想視点画像の修復を行うことを想定している。本実施形態の仮想視点画像修復部７３は、ノイズ検出用教師データ生成部７３１、ノイズ検出学習部７３２、ノイズ検出部７３３、修復用教師データ生成部７３４、修復学習部７３５、および領域修復部７３６を有する。

ノイズ検出用教師データ生成部７３１は、例えば次の１組の教師データを生成する。即ち、仮想視点画像生成部１２で生成される仮想視点画像を入力データとし、その仮想視点画像とカメラ情報取得部１１で取得できる対応視点のカメラの撮像画像との差分領域を正解データとした、教師データを生成する。なお、正解データに用いるカメラの撮像画像として、実空間を実際に撮影して得られる画像を用いてもよいし、二つの実カメラの撮像画像から補間して生成される画像を用いてもよい。また、ＣＧによって作成した仮の３次元空間上で得られるカメラのシミュレーション画像を用いてもよい。それぞれの場合における制約は、第１実施形態で説明した例と同様である。

ノイズ検出学習部７３２は、ノイズ検出用教師データ生成部７３１で生成された教師データに基づいて、正解に対する入力の損失関数を定義する。そして、その損失関数を最小化または最大化できるようにニューラルネットワークのパラメータを繰り返し最適化していくことで、学習を進める。そして、学習して得られたモデルは、ノイズ検出部７３３へ出力される。

図９は、ゼリーノイズ領域の検出を行う学習モデルの概略を説明する図である。図９（ａ）は、ノイズ検出学習部７３２で行われる学習処理の例を示している。実カメラＣ１の視点位置に対応する仮想視点画像Ｐ１を入力データとし、その仮想視点画像Ｐ１と実カメラＣ１で撮像された撮像画像との差分領域を正解データとする教師データを用いて学習が行われる。そして、入力データと正解データとのずれ量Ｌが最小化または最大化するように、繰り返し学習が行われる。ここでは、一つの視点の実カメラを例に挙げたが、画像処理システムを構成する各撮像装置２の対応視点における教師データを用いて繰り返し学習が行われる。

なお、ノイズ検出学習部７３２は、誤差検出部と、更新部と、を備えてもよく、それらの機能は第１実施形態で説明した修復学習部１３２が備えているものと同様である。また、本実施形態では、ニューラルネットワークを利用して、学習するための特徴量および結合重み付け係数を自ら生成する深層学習（ディープラーニング）をすることを想定している。なお、利用するニューラルネットワークのネットワーク構造としては、ネットワークの入力と出力とが画像データであり、入出力の関係を十分に学習できるものであれば、いかなる方法でもよい。

ノイズ検出部７３３は、ノイズ検出学習部７３２で得られた学習済みモデルに対して仮想視点画像を入力として与えることで、仮想視点画像においてゼリーノイズがどの領域にあるかを検出する。ここで検出されたゼリーノイズ領域は、ゼリーノイズマップという入力の仮想視点画像と同じサイズの画像形式に変換された後に、修復用教師データ生成部７３４と領域修復部７３６とに出力され得る。なお、ノイズ検出学習部７３２からゼリーノイズマップそのものが出力されるように学習が行われてもよい。また、入力として与えられた仮想視点画像も、修復用教師データ生成部７３４と領域修復部７３６とに出力され得る。修復用の学習フェーズの場合には、入力として与えられた仮想視点画像とニューラルネットワークから得られたゼリーノイズマップとは、領域修復部７３６に出力される。修復用の推論フェーズの場合には、入力として与えられた仮想視点画像とニューラルネットワークから得られたゼリーノイズマップとは、領域修復部７３６に出力される。

図９（ｂ）は、ノイズ検出部７３３で行われるゼリーノイズ領域の検出処理（推論処理）の例を示している。ノイズ検出学習部７３２で得られた学習済みモデルに対して、任意の仮想視点の仮想視点画像Ｐ２を入力データとして入力すると、仮想視点画像Ｐ２におけるゼリーノイズ領域Ｒ２が検出される。そして、ゼリーノイズ領域Ｒ２は、仮想視点画像Ｐ２と同じサイズのゼリーノイズマップＭ２に変換される。

修復用教師データ生成部７３４は、ノイズ検出部７３３から得られる仮想視点画像とゼリーノイズマップとを入力データとし、カメラ情報取得部１１で取得できる対応視点のカメラの撮像画像を正解データとした、１組の教師データを生成する。なお、ノイズ検出用教師データ生成部７３１で説明した例と同様に、正解データとするカメラの撮像画像として、実空間を実際に撮影して得られる画像を用いてもよいし、二つの実カメラの撮像画像から補間して生成される画像を用いてもよい。また、ＣＧ（コンピュータグラフィックス）によって作成した仮の３次元空間上で得られるカメラのシミュレーション画像を用いてもよい。それぞれの場合における制約は、第１実施形態で説明した例と同様である。

修復学習部７３５は、修復用教師データ生成部７３４で生成された教師データに基づいて、正解に対する入力の損失関数を定義する。そして、その損失関数を最小化または最大化できるようにニューラルネットワークのパラメータを繰り返し最適化していくことで、学習を進める。そして、学習して得られたモデルは領域修復部７３６へ出力される。

図１０は、仮想視点画像におけるゼリーノイズ領域の修復を行う学習モデルの概略を説明する図である。図１０（ａ）は、修復学習部７３５で行われる学習処理の例を示している。実カメラＣ１の視点位置に対応する仮想視点画像Ｐ１と、仮想視点画像Ｐ１に対応するゼリーノイズマップＭ１とを入力データとし、実カメラＣ１で撮像された撮像画像を正解データとする教師データを用いて学習が行われる。そして、入力データと正解データとのずれ量Ｌが最小化または最大化するように、繰り返し学習が行われる。ここでは、一つの視点の実カメラを例に挙げたが、画像処理システムを構成する各撮像装置２の対応視点における教師データを用いて繰り返し学習が行われる。

なお、修復学習部７３５は、誤差検出部と、更新部と、を備えてもよく、それらの機能は第１実施形態で説明した修復学習部１３２が備えているものと同様である。また、本実施形態では、ニューラルネットワークを利用して、学習するための特徴量および結合重み付け係数を自ら生成する深層学習（ディープラーニング）をすることを想定している。なお、利用するニューラルネットワークのネットワーク構造としては、ネットワークの入力と出力とが画像データであり、入出力の関係を十分に学習できるものであれば、いかなる方法でもよい。

領域修復部７３６は、修復学習部７３５で得られた学習済みモデルに対して、ノイズ検出部７３３から与えられるゼリーノイズマップと仮想視点画像とを入力として与えることで、仮想視点画像を修復する。修復後の仮想視点画像は、表示装置４へと出力される。

図１０（ｂ）は、領域修復部７３６で行われるゼリーノイズ領域の修復処理（推論処理）の例を示している。修復学習部７３５で得られた学習済みモデルに対して、任意の仮想視点の仮想視点画像Ｐ２と、仮想視点画像Ｐ２に対応するゼリーノイズマップＭ２とを入力データとして入力する。すると、仮想視点画像Ｐ２におけるゼリーノイズ領域Ｒ２が修復された修復済み仮想視点画像が学習済みモデルから出力される。

＜処理フロー＞
図１１および図１２は、本実施形態の画像生成装置７が行う処理の例を示すフローチャートである。図１１および図１２に示すフローチャートを用いて、本実施形態の画像生成装置７の処理を説明する。なお、図５のフローチャートと同じ番号が付与されたステップは、第１実施形態で説明したステップと同じであるため、説明を省略する。

まず、図１１（ａ）を用いて、仮想視点画像におけるゼリーノイズ領域の検出を行うニューラルネットワークの学習処理に関するフローチャートを説明する。Ｓ５０１およびＳ５０２の処理に続いて、Ｓ１１０３の処理が行われる。

Ｓ１１０３において、仮想視点画像生成部１２は、実カメラの位置に対応する仮想視点画像群を生成する。生成された仮想視点画像群は、ノイズ検出用教師データ生成部７３１へと出力される。Ｓ１１０３において生成された仮想視点画像は、ニューラルネットワークの学習をするための入力データとなる。なお、Ｓ１１０３では第１実施形態とは異なり、ノイズ検出用教師データ生成部７３１へ出力する仮想視点画像群は、ゼリーノイズを含む仮想視点画像のみでもよいし、あるいはゼリーノイズを含まない仮想視点画像を１％程度の割合で混入させてもよい。ゼリーノイズが発生するシーンを重点的に学習に用いる入力データとすることで、ゼリーノイズ領域の特徴を重点的に学習させることができる。また、全てをゼリーノイズ有にするのではなく、ゼリーノイズ無しの仮想視点画像も少量加えることで、学習済みモデルのロバスト性が向上することが期待される。

Ｓ１１０４において、ノイズ検出用教師データ生成部７３１は、Ｓ５０１において取得した実カメラの撮像画像とＳ１１０３において生成した、この実カメラの視点位置に応じた仮想視点画像から、差分画像を算出する。なお、この差分画像は、前景領域の各画素について、二つの画像の差の絶対値が閾値以上なら画素値に１をとり、そうでなければ０をとる二値画像である。なお、背景領域の全ての画素は、画素値に０をとる。つまり、二つの画像の差が閾値以上となる画素をゼリーノイズとして検出する。ここで、閾値はゼリーノイズとして検出するか否かの許容値を表しており、どの程度の差まで許容するかどうかで任意に設定可能である。本実施形態においては、例えば５として設定する。なお、本実施形態では、ゼリーノイズ領域の正解データとして、仮想視点画像と対応視点の撮像画像との差分画像を用いる例を説明するが、Ｓ１１０４では、正解データとして用いるデータ（画像データ）を取得できればよい。他の例として、被写体を構成する３次元点群に対する各カメラからの可視性に基づく重み画像を取得してもよいし、ユーザが手動でゼリーノイズ領域を指定したマスク画像を取得してもよい。なお、各カメラからの可視性に基づく重み画像は、注目３次元点があるカメラから可視なら、その３次元点をカメラへ射影した画素の重みを１、不可視なら０として生成した重み画像である。これは、ゼリーノイズが、撮影に使用しているカメラ群から不可視となる領域で発生することが多く、該重み画像内にはゼリーノイズ領域が検出されていると期待されるためである。なお、ユーザが手動でゼリーノイズ領域を指定する場合は、仮想視点画像のみを基にして最初からゼリーノイズマップを作成してもよい。また、上記のような方法によって作成されたゼリーノイズマップと見立てた画像に対してゼリーノイズの過不足がある領域のみ修正した修正画像を用いてもよい。ユーザが手動でゼリーノイズ領域を指定する場合は、ゼリーノイズ領域を指定する工程を別途設ければよい。

Ｓ１１０５において、ノイズ検出用教師データ生成部７３１は、仮想視点画像におけるゼリーノイズ検出を行うニューラルネットワークの学習のための教師データを生成する。なお、ここでは、Ｓ１１０３において生成された仮想視点画像を入力データ、Ｓ１１０４において算出された差分画像を正解データとみなした１組の教師データを生成する。仮想視点画像における色情報は、撮影に使用された実カメラ画像に等しいため、仮想視点の位置姿勢と実カメラの位置姿勢とを同一とすれば、理想的には仮想視点画像と実カメラ画像とが等しくなる。このため、差分画像にはゼリーノイズ領域が浮かび上がっていることが期待されるためである。なお、Ｓ１１０５では、学習に必要な教師データの数を確保するために、データの拡張も付随して行ってもよい。適用するデータの拡張の方法としては、例えば次の処理を適用する方法が挙げられる。即ち、入力データの仮想視点画像とそれに対応する正解データである差分画像とに対して、対応し合う同一の画像部分領域をランダムに切り取る処理（ただし、切り取る画像サイズは固定）と、左右反転させる処理とを適用する方法が挙げられる。

Ｓ１１０６において、ノイズ検出学習部７３２は、Ｓ１１０５において生成された教師データを用いてニューラルネットワークを学習させる。即ち、ノイズ検出学習部７３２は、任意の仮想視点画像を入力としたときに、出力としてゼリーノイズ領域を表した画像であるゼリーノイズマップを生成できるようにニューラルネットワークを学習させる。学習して得られる学習済みモデルは、ノイズ検出部７３３へと出力される。

この学習済みモデルの出力で得られるゼリーノイズ領域を表した画像であるゼリーノイズマップは、本実施形態では、各画素がゼリーノイズか否か、つまり０か１かの二値を画素値としてとるものと想定している。したがって、ゼリーノイズ検出はラベル付け問題として解釈できるため、ニューラルネットワークの学習をする際に用いる損失関数としては、ラベルが合っているか否かを評価するために用いられる交差エントロピー誤差を用いる。また、その損失関数を最小化するようにニューラルネットワークのパラメータを最適化するための方法としては、確率的勾配法を用いる。また、ニューラルネットワークのアーキテクチャとしては、高精度なセグメンテーションが可能であることで知られているＳｅｇＮｅｔで使用されているものと同等のものを用いる。なお、本実施形態では、ゼリーノイズマップが二値であるとして処理をしたが、ゼリーノイズマップが多値であるとして扱って処理を行ってもよい。その場合、ラベルを多値にわけるか、画素値をラベルとしてではなくゼリーノイズの尤度と考え、各画素におけるニューラルネットワークの出力として、ラベル値ではなく確率を出力すればよい。

なお、このゼリーノイズマップに対して、ユーザが処理を加えてもよい。例えば、後段のゼリーノイズ修復用ＮＮにおいて、同時に修復させたいノイズをユーザが特定し、その特定されたノイズの画像領域に対し、アノテーションを付ける処理をしてもよい。そのアノテーションが付された領域の画素値がゼリーノイズの領域と同じ画素値にすればよい。また、ユーザが同時に修復させたいノイズを特定し、特定されたノイズの領域を含むマップとゼリーノイズマップとから、いずれかのマップにノイズとして含まれる領域をノイズとして生成された合成マップが、ゼリーノイズマップとして用いられてもよい。

次に、図１１（ｂ）に示す、仮想視点画像におけるゼリーノイズ領域の修復を行うニューラルネットワークの学習処理に関するフローチャートを説明する。Ｓ５０１、Ｓ５０２、Ｓ１１０３の処理は、図１１（ａ）に示す処理と同じである。これらの処理に続き、Ｓ１１１４の処理が行われる。

Ｓ１１１４において、ノイズ検出部７３３は、ノイズ検出学習部７３２より得られる学習済みのモデルに対して、Ｓ１１０３において生成した実カメラ位置に応じた仮想視点画像を入力して、ゼリーノイズマップを生成する。生成されたゼリーノイズマップは、修復用教師データ生成部７３４へ出力さる。

Ｓ１１１５において、修復用教師データ生成部７３４は、仮想視点画像におけるゼリーノイズ領域に対して修復処理を行うニューラルネットワークの学習のための教師データを生成する。ここでは、Ｓ１１０３において生成された仮想視点画像と、Ｓ１１１４において生成されたゼリーノイズマップとを入力データとし、Ｓ５０１において取得した、その仮想視点の位置に対応する実カメラの撮像画像を正解データとした、教師データを生成する。仮想視点画像における色情報は、撮影に使用された実カメラ画像に等しいため、仮想視点の位置姿勢と実カメラの位置姿勢を同一とすれば、理想的には仮想視点画像と実カメラ画像が等しくなるためである。

Ｓ１１１６において、修復学習部７３５は、Ｓ１１１５において生成された教師データを用いて、ニューラルネットワークを学習させる。即ち、修復学習部７３５は、任意の仮想視点画像とそれに対応するゼリーノイズマップとを入力としたときに、出力としてゼリーノイズ領域を修復した仮想視点画像を生成できるようにニューラルネットワークを学習させる。なお、入力として与えられた仮想視点画像とゼリーノイズマップとは、ニューラルネットワークに対して、一つの入力層、つまり仮想視点画像とゼリーノイズマップとを統合した１枚の多チャンネル画像として入力される。学習して得られる学習済みモデルは、領域修復部７３６へと出力される。なお、ニューラルネットワークの学習をする際に用いる損失関数としては、正解に対する入力の忠実度を測るために、平均二乗誤差を用いる。ただし、誤差を計算する画素は、ゼリーノイズマップにおいてゼリーノイズと判断されている領域のみとする。誤差を計算する画素の対象をゼリーノイズ領域のみとすることで、ゼリーノイズ領域ではない領域への画質の影響をなくすことができる。また、その損失関数を最小化するようにニューラルネットワークのパラメータを最適化するための方法としては、Ａｄａｍ法を用いる。また、ニューラルネットワークのアーキテクチャとしては、第１実施形態で採用したＵ−Ｎｅｔにおける畳み込み層を、ＰａｒｔｉａｌＣｏｎｖｏｌｕｔｉｏｎＬａｙｅｒ（部分的畳み込み層）で置き換えたものを用いる。部分的畳み込み層は、演算に使用する画素の位置をマスク画像として与えることで、マスクされた領域の値のみを用いて処理を行う。そのため、部分的畳み込み層は、画像のインペインティング処理に適している。本実施形態での仮想視点画像修復はゼリーノイズ領域のインペインティング処理として解釈できるため、部分的畳み込み層は有効である。

次に、学習済みのゼリーノイズ領域の検出用と修復用のニューラルネットワークモデルを用いて、実際に仮想視点画像の修復を行う推論処理のフローチャートを、図１２を用いて説明する。図１２では、第１実施形態で説明したＳ５０１、Ｓ５０２、Ｓ５１３の処理に続いて、Ｓ１２０４の処理が行われる。

Ｓ１２０４において、ノイズ検出部７３３は、ノイズ検出学習部７３２から取得できる学習済みモデルに対して、Ｓ５１３において生成された仮想視点画像を入力し、ゼリーノイズマップを生成する。なお、ここでは、ゼリーノイズを含むか否かを検出するために、任意の仮想視点画像を入力とする。生成されたゼリーノイズマップは、領域修復部７３６へと出力され、学習済みモデルへの入力となる。

Ｓ１２０５において、領域修復部７３６は、Ｓ１１１６で学習された学習済みモデルに対して、Ｓ１２０４において与えられた対応仮想視点画像と生成されたゼリーノイズマップとを入力し、仮想視点画像を修復する。なお、ここでは、ゼリーノイズの有無に関わらず、任意の仮想視点画像を入力とする。これは、Ｓ１１１６において学習された学習済みモデルは、ゼリーノイズ領域のみを修復するように学習がなされており、Ｓ１２０５においてゼリーノイズ領域が検出されない限り、その他の領域には影響を与えないためである。その結果、副作用を抑え、ゼリーノイズ領域の改善を行うことができる。修復された仮想視点画像は、表示装置４に出力される。

なお、図１２の処理においては、ゼリーノイズの有無に関わらず、任意の仮想視点画像を領域修復部７３６に入力する例を説明したが、これに限られない。Ｓ１２０４で生成されたゼリーノイズマップにおいてゼリーノイズ領域が存在しない場合には、対応する仮想視点画像を、領域修復部７３６に入力せず、修復処理を省略してもよい。

以上説明したように、本実施形態によれば、精度が低い形状推定結果に起因して発生するゼリーノイズが仮想視点画像のどの領域にあるかを検出することができ、その検出結果に基づいてゼリーノイズ領域を修復することができる。このため、ゼリーノイズではない領域に影響を与えずに仮想視点画像を修復することができる。この結果、仮想視点画像の画質の低下を抑制することができる。

＜＜その他の実施形態＞＞
上述した各実施形態では、画像生成装置において学習部と修復部または検出部（推論部という）との両方が備えられている例を説明したが、学習部と推論部とが別々の画像生成装置に備えられていてもよい。例えば、学習部を備えている第一の画像生成装置で学習が行われてよい。そして学習された学習済みモデルが、推論部を備える第二の画像生成装置に送られ、第二の画像生成装置において推論処理が行われてもよい。

また、以上の実施形態において、学習済みモデルは別の環境（図１の画像処理システム以外）で作成しておき、その学習結果を適用してノイズを修復するようにしてもよい。

また、以上の実施形態では機械学習を用いてノイズ領域を補正するものとしたがこれに限らない。所定の仮想視点の仮想視点画像と、当該仮想視点と同じ、あるいは当該仮想視点に近い実カメラ画像との比較により差分を抽出し、その差分を用いて仮想視点画像を補正することによってノイズを除去あるいは低減させた仮想視点画像を得ることも可能である。このとき実カメラ画像を、比較対象とする仮想視点画像の仮想視点に一致または近付けるために射影変換等を行ってから比較するようにしてもよい。また、複数の実カメラ画像を適宜ブレンド（合成処理）した画像と比較するようにしてもよい。

本発明は上述の実施形態の１以上の機能を実現するプログラムをネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１画像生成装置
２撮像装置
３形状推定装置
１２仮想視点画像生成部
１３仮想視点画像修復部

Claims

複数の撮像装置により複数の視点からオブジェクトを撮像することにより得られた複数の撮像画像と、前記オブジェクトの３次元形状データとに基づいて生成される仮想視点画像を取得する取得手段と、
前記取得手段により取得された前記仮想視点画像において、前記３次元形状データの精度に起因して発生するノイズを除去する除去手段と、
を有することを特徴とする画像処理装置。
前記除去手段は、所定の位置および姿勢に対応する視点の仮想視点画像を入力データとし、前記所定の位置および姿勢に対応する画像を正解データとした教師データに基づいて学習された学習済みモデルを用いて、前記ノイズを除去することを特徴とする請求項１に記載の画像処理装置。
前記所定の位置および姿勢は、所定の撮像装置の位置および姿勢であり、前記所定の位置および姿勢に対応する前記画像は、前記所定の撮像装置の撮像により取得された撮像画像であることを特徴とする請求項２に記載の画像処理装置。
前記除去手段は、
前記仮想視点画像において前記ノイズの領域を検出するように構成された検出手段と、
前記仮想視点画像における、前記検出手段で検出されたノイズの領域を修復するように構成された修復手段と、
を含むことを特徴とする請求項１乃至３のいずれか一項に記載の画像処理装置。
前記検出手段は、所定の位置および姿勢に対応する視点の仮想視点画像を入力データとし、当該仮想視点画像と前記所定の位置および姿勢に対応する画像との差分を示す差分画像を正解データとした教師データに基づいて学習された学習済みモデルである第一モデルを用いて検出を行うことを特徴とする請求項４に記載の画像処理装置。
前記検出手段は、前記差分画像をユーザが修正した修正画像を、前記差分画像の代わりに前記正解データとして用いることを特徴とする請求項５に記載の画像処理装置。
前記検出手段は、所定の位置および姿勢に対応する視点の仮想視点画像を入力データとし、前記所定の位置および姿勢に対応する画像が示す画像内のオブジェクトを構成する３次元形状データの可視性に基づく画像を正解データとした教師データに基づいて学習された学習済みモデルである第一モデルを用いて検出を行うことを特徴とする請求項４に記載の画像処理装置。
前記検出手段は、前記可視性に基づく画像をユーザが修正した修正画像を、前記画像の代わりに前記正解データとして用いることを特徴とする請求項７に記載の画像処理装置。
前記検出手段は、所定の位置および姿勢に対応する視点の仮想視点画像を入力データとし、前記所定の位置および姿勢に対応する画像内においてユーザがノイズ領域を設定したマスク画像を正解データとした教師データに基づいて学習された学習済みモデルである第一モデルを用いて検出を行うことを特徴とする請求項４に記載の画像処理装置。
前記所定の位置および姿勢は、所定の撮像装置の位置および姿勢であり、前記所定の位置および姿勢に対応する前記画像は、前記所定の撮像装置の撮像により取得された撮像画像であることを特徴とする請求項９に記載の画像処理装置。
前記修復手段は、所定の第二位置および姿勢に対応する視点の仮想視点画像と、当該仮想視点画像において前記ノイズが発生していると前記検出手段によって検出された前記領域とを入力データとし、前記第二位置および姿勢に対応する画像を正解データとした教師データに基づいて学習された学習済みモデルである第二モデルを用いて修復を行うことを特徴とする請求項４乃至１０のいずれか一項に記載の画像処理装置。
前記検出手段は、前記仮想視点画像においてノイズが発生する領域を検出し、当該仮想視点画像と検出した領域とを前記修復手段に出力し、
前記修復手段は、前記検出手段から出力された前記仮想視点画像と前記領域とを前記第二モデルに入力することで、前記領域のノイズを修復することを特徴とする請求項１１に記載の画像処理装置。
前記第二位置および姿勢は、所定の撮像装置の位置および姿勢であり、前記第二位置および姿勢に対応する前記画像は、当該所定の撮像装置の撮像により取得された撮像画像であることを特徴とする請求項１１または１２に記載の画像処理装置。
複数の撮像装置により複数の視点からオブジェクトを撮像することにより得られた複数の撮像画像に基づいて生成される、仮想視点に対応した仮想視点画像を取得する取得手段と、
前記取得手段により取得された前記仮想視点画像を、前記複数の撮像画像のうち、少なくとも前記仮想視点に対応する視点から前記オブジェクトを撮像した撮像装置により撮像された撮像画像に基づいて補正する補正手段と、
を有することを特徴とする画像処理装置。
複数の撮像装置により複数の視点からオブジェクトを撮像することにより得られた複数の撮像画像に基づいて生成される、仮想視点に対応した仮想視点画像を取得する取得手段と、
前記取得手段により取得された前記仮想視点画像を、前記複数の視点に対応する複数の仮想視点画像を入力データとし、前記複数の視点に対応する複数の撮像装置により撮像されることで取得された複数の撮像画像を正解データとした教師データに基づく学習結果に基づいて、補正する補正手段と、
を有することを特徴とする画像処理装置。
複数の撮像装置により複数の視点からオブジェクトを撮像することにより得られた複数の撮像画像と、前記オブジェクトの３次元形状データとに基づいて生成される仮想視点画像を取得する取得工程と、
前記取得工程により取得された前記仮想視点画像において、前記３次元形状データの精度に起因して発生するノイズを除去する除去工程と、
を有することを特徴とする画像処理方法。
複数の撮像装置により複数の視点からオブジェクトを撮像することにより得られた複数の撮像画像に基づいて生成される、仮想視点に対応した仮想視点画像を取得する取得工程と、
前記取得工程により取得された前記仮想視点画像を、前記複数の撮像画像のうち、少なくとも前記仮想視点に対応する視点から前記オブジェクトを撮像した撮像装置により撮像された撮像画像に基づいて補正する補正工程と、
を有することを特徴とする画像処理方法。
複数の撮像装置により複数の視点からオブジェクトを撮像することにより得られた複数の撮像画像に基づいて生成される、仮想視点に対応した仮想視点画像を取得する取得工程と、
前記取得工程により取得された前記仮想視点画像を、前記複数の視点に対応する複数の仮想視点画像を入力データとし、前記複数の視点に対応する複数の撮像装置により撮像されることで取得された複数の撮像画像を正解データとした教師データに基づく学習結果に基づいて、補正する補正工程と、
を有することを特徴とする画像処理方法。
複数の撮像装置により複数の視点からオブジェクトを撮像することにより得られた複数の撮像画像と、前記複数の撮像画像に基づいて生成される、前記複数の視点に対応する複数の仮想視点画像と、を取得する取得工程と、
前記取得工程で取得した前記仮想視点画像を入力データとし、前記取得工程で取得した前記撮像画像を正解データとした教師データに基づいて、学習済みモデルを生成する学習工程と、
を有することを特徴とする学習済みモデルの生成方法。
コンピュータを、請求項１乃至１５のいずれか一項に記載の画像処理装置として機能させるためのプログラム。