JP2022093262A

JP2022093262A - 画像処理装置、画像処理装置の制御方法およびプログラム

Info

Publication number: JP2022093262A
Application number: JP2021166499A
Authority: JP
Inventors: 圭吾米田; Keigo Yoneda
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-12-11
Filing date: 2021-10-08
Publication date: 2022-06-23

Abstract

【課題】仮想オブジェクトを含む仮想視点画像を適切に生成する。【解決手段】画像処理装置は、１または複数の撮影装置の撮影に基づく１または複数の画像を取得し、仮想オブジェクトに関する情報を取得し、１または複数の画像と仮想オブジェクトに関する情報とに基づいて、当該仮想オブジェクトを含む二次元画像を生成する。画像処理装置は、二次元画像の生成において、仮想オブジェクトの色情報を１または複数の画像に含まれる実オブジェクトの色情報に基づいて決定する。【選択図】図２

Description

本発明は、仮想視点画像を生成する画像処理装置、画像処理装置の制御方法、プログラムに関する。

複数の物理カメラで撮影した画像（以下、複数視点画像）を用いて、３次元空間内に仮想的に配置したカメラ（以下、仮想カメラ）からの画像（以下、仮想視点画像）を再現する技術がある。また、そのような仮想視点画像に、仮想カメラで仮想オブジェクトを撮影し生成したコンピュータグラフィックス（以下、ＣＧ）画像を重畳して表示する技術が存在する。例えば、複数視点画像に基づいて撮影空間を再構築することで得られた三次元空間（以下、仮想空間）に、仮想オブジェクト、例えば広告を目的とした仮想の看板、を配置する。そして、仮想カメラでこの仮想空間を撮影することにより、仮想視点画像上に仮想広告（ＣＧ画像）を重畳し、描画することが可能となる。

撮影画像に基づく仮想視点画像と、撮影画像とは独立に生成されたＣＧ画像を重畳して表示した場合、仮想視点画像中のＣＧ画像が浮いて見えるなどの不自然さが生じる場合がある。特許文献１では、撮影画像とＣＧ画像のより自然な合成画像を生成するために、仮想オブジェクトの撮影画像に発生するノイズを推定し付加するノイズ処理を行い、ノイズ処理されたＣＧ画像を撮影画像に重ね合わせて合成画像を生成する構成が開示されている。特許文献１によれば、撮影画像とＣＧ画像のノイズ感を合わせることで合成画像における不自然さの低減が図られる。

特開２０１４－２０３３２６号公報

しかしながら、特許文献１では、撮影空間の照明条件や物理カメラの撮影条件などに応じて変化する実オブジェクトの色味や解像感と仮想オブジェクトの色味や解像感を合わせることは考慮されていない。そのため、依然として、撮影画像に基づいて生成される仮想視点画像と、仮想オブジェクトのＣＧ画像との合成画像において不自然さが生じてしまう。

本開示は、仮想オブジェクトを含む仮想視点画像を適切に生成することを目的とする。

本開示の一態様による画像処理装置は以下の構成を有する。すなわち、
１または複数の撮影装置の撮影に基づく１または複数の画像を取得する第１取得手段と、
仮想オブジェクトに関する情報を取得する第２取得手段と、
前記第１取得手段により取得された１または複数の画像と、前記第２取得手段により取得された前記仮想オブジェクトに関する情報に基づいて、前記仮想オブジェクトを含む二次元画像を生成する生成手段と、を有し、
前記生成手段は、前記仮想オブジェクトの色情報を前記１または複数の画像に含まれる実オブジェクトの色情報に基づいて決定することにより前記二次元画像を生成する。

本開示によれば、仮想オブジェクトを含む仮想視点画像を適切に生成することができる。

（ａ）は画像処理システムの構成例を示すブロック図、（ｂ）は画像処理装置のハードウェア構成例を示すブロック図。画像処理装置の機能構成例を示すブロック図。第１実施形態による合成画像の生成を説明する図。第１実施形態による合成画像の生成処理の一例を示すフローチャート。第１実施形態によるＣＧ画像の加工処理の一例を示すフローチャート。第２実施形態による合成画像の生成を説明する図。第２実施形態によるＣＧ画像の加工処理の一例を示すフローチャート。第３実施形態による合成画像の生成を説明する図。第３実施形態によるＣＧ画像の加工処理の一例を示すフローチャート。第４実施形態による画像処理システムの構成例を示すブロック図。第４実施形態による画像処理装置の機能構成例を示すブロック図。第４実施形態による合成画像の生成を説明する図。第４実施形態による合成画像の生成処理の一例を示すフローチャート。第４実施形態による合成画像の加工処理の一例を示すフローチャート。第５実施形態による画像処理システムの構成例を示すブロック図。第５実施形態による画像処理装置の機能構成例を示すブロック図。第５実施形態によるＣＧ画像の生成処理の一例を示すフローチャート。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

なお、以下の実施形態において、仮想視点画像とは、ユーザ及び／又は専任のオペレータ等が自由に仮想カメラの位置及び姿勢を操作することによって生成される画像であり、自由視点画像や任意視点画像などとも呼ばれる。また、特に断りが無い限り、画像という文言が動画と静止画の両方の概念を含むものとして説明する。

（第１実施形態）
仮想視点画像上に描かれる実オブジェクト、例えば現実に存在する看板は、天候、照明、遮蔽物の影等の影響を受けて色が明るくなったり暗くなったりする。一方、ＣＧ画像上に描かれる仮想オブジェクト、例えば仮想看板は、そのような照明条件をシミュレートして描画しなければ周囲の環境の変化に応じた明るさにならない。しかしながら、時々刻々と変化する照明条件をコンピュータグラフィックスにより忠実にシミュレートすることは非常に困難である。撮影空間の照明条件により明るさに変化がある仮想視点画像と、そのような変化のないＣＧ画像とを合成して得られる合成画像は、視聴者に不自然な印象を与える可能性がある。

第１実施形態では、複数の視点からの複数の画像（以下、複数視点画像）により生成された仮想視点画像上にＣＧ画像が重畳された合成画像を生成する際に、ＣＧ画像の色味を調整することによって、より自然な合成画像を生成する構成を説明する。ＣＧ画像の色味の調整は、例えば、仮想視点画像の生成に用いられた複数視点画像を用いて生成された被写体（実オブジェクト）のテクスチャデータ（すなわち、色情報）に基づいて、ＣＧ画像の彩度および／または明度を加工することで行われ得る。

＜画像処理システムのハードウェア構成＞
図１（ａ）は、第１実施形態に係る、画像処理システム１０の構成の一例を示す図である。画像処理システム１０は、撮影システム１０１、画像処理装置１０２、情報処理装置１０３を備え、仮想視点画像、ＣＧ画像及びそれらを重畳した合成画像を生成する。

撮影システム１０１は、異なる位置に配置された複数の撮影装置（以下、物理カメラともいう）を有し、複数の物理カメラによる同期撮影（本実施形態では、複数の物理カメラの同時撮影）を行う。撮影システム１０１は、複数の物理カメラにより３次元空間を同時撮影することにより、複数の撮影画像からなる複数視点画像を取得し、それらを画像処理装置１０２に送信する。

画像処理装置１０２は、複数視点画像をもとに仮想カメラから撮影される仮想視点画像を生成する。また、画像処理装置１０２は、当該仮想カメラで、３次元空間に配置された仮想オブジェクトを撮影することにより得られるＣＧ画像を生成する。そして、画像処理装置１０２は、実オブジェクトの描画に用いられる情報（テクスチャ）に基づいてＣＧ画像を加工する。より具体的には、画像処理装置１０２は、仮想オブジェクトに近い実オブジェクトの色情報に基づいて、実オブジェクトと仮想オブジェクトの色味を合わせるようＣＧ画像を加工し、加工したＣＧ画像と仮想視点画像を重畳して合成画像を生成する。このようなＣＧ画像の加工により、撮影システム１０１が有する物理カメラの撮影条件や撮影空間の照明条件などに応じて色味が変化するＣＧ画像が生成され、より自然な合成画像を得ることができる。なお、仮想カメラの視点は、後述する情報処理装置１０３が決定するカメラパラメータによって表現される。画像処理装置１０２は、生成した合成画像を情報処理装置１０３に送信する。

情報処理装置１０３は、仮想カメラ（視点）を制御するためのコントローラと、合成画像などを表示する表示部とを有する。コントローラは、キーボードやマウスといったユーザが入力操作を行うための一般的なデバイスの他、仮想カメラの位置や姿勢を操作するためのジョイスティック、つまみ、ジョグダイヤル等を含む。表示部は、１又は複数の表示デバイス（以下、「モニタ」と表記）を有し、ユーザに必要な情報を表示する。表示デバイスとして例えばタッチパネルディプレイを採用した場合は、タッチパネルが上述のコントローラの一部またはすべてを兼ねてもよい。モニタには仮想カメラ制御用のＵＩ画面が表示される。ユーザはモニタの表示を見ながら仮想カメラの操作量、つまり移動方向、向き（姿勢）、回転、移動距離や移動速度などを指示することができる。情報処理装置１０３は、コントローラを介してユーザにより指示された操作量から仮想カメラの位置、姿勢、またはズームなどを示すカメラパラメータを決定し、それを画像処理装置１０２に送信する。決定されたパラメータは仮想カメラの状態としてモニタに表示されてもよい。また、情報処理装置１０３は、画像処理装置１０２が生成した合成画像を受信しモニタに表示する。

図１（ｂ）は、画像処理装置１０２のハードウェア構成の一例を示す図である。画像処理装置１０２は、ＣＰＵ１１１、ＲＡＭ１１２、ＲＯＭ１１３、通信部１１４を備える。ＣＰＵ１１１は、ＲＡＭ１１２をワークメモリとして、ＲＯＭ１１３に格納されたプログラムを実行し、画像処理装置１０２の各構成部を統括的に制御するプロセッサである。ＣＰＵ１１１が、各種プログラムを実行することで、後述の図２に示される各機能部が実現される。ＲＡＭ１１２は、ＲＯＭ１１３から読み出されたコンピュータプログラムや計算の途中の結果などを一時的に記憶する。ＲＯＭ１１３は、変更を必要としないコンピュータプログラムやデータを保持する。ＲＯＭ１１３に保持されるデータは、物理カメラのカメラパラメータ、後述する背景モデルおよび仮想オブジェクトの３Ｄデータ等を含む。通信部１１４は、ＥｔｈｅｒｎｅｔやＵＳＢなどの通信手段を有し、撮影システム１０１及び情報処理装置１０３との通信を行う。

＜画像処理装置１０２の機能構成＞
図２は、画像処理装置１０２の機能構成例を示すブロック図である。図２では、物理カメラの撮影条件や撮影空間の照明条件に応じたＣＧ画像となるようにＣＧ画像を加工し、加工したＣＧ画像と仮想視点画像とを重ね合わせることにより合成画像を生成する処理を実現する機能構成の一例が示されている。本実施形態の画像処理装置１０２は、機能構成として、通信制御部２０１、仮想視点画像生成部２０２、ＣＧ画像生成部２０３、ＣＧ画像加工部２０４、合成画像生成部２０５を有する。

通信制御部２０１は、通信部１１４を用いて、撮影システム１０１から複数視点画像を受信し、情報処理装置１０３から仮想カメラのカメラパラメータの情報を受信する。通信制御部２０１は、受信した複数視点画像を仮想視点画像生成部２０２に出力し、受信したカメラパラメータを仮想視点画像生成部２０２とＣＧ画像生成部２０３に出力する。また、通信制御部２０１は、合成画像生成部２０５から合成画像を入力し、通信部１１４を介して情報処理装置１０３に送信する。仮想視点画像生成部２０２は、通信制御部２０１から受信した複数視点画像と仮想カメラのカメラパラメータ、および、ＲＯＭ１１３に予め保存されている物理カメラのカメラパラメータに基づき、仮想視点画像を生成する。

仮想視点画像生成部２０２は、例えば以下のような方法で仮想視点画像を生成する。まず、仮想視点画像生成部２０２は、複数視点画像から人物やボールなどの所定のオブジェクトに対応する前景領域を抽出した前景画像と、複数視点画像から前景領域以外の背景領域を抽出した背景画像とを取得する。仮想視点画像生成部２０２は、前景画像と物理カメラのカメラパラメータに基づき、所定のオブジェクトの三次元形状を表す前景モデルと、前景モデルの仮想空間における位置の情報と、前景モデルの表面を描画するためのテクスチャデータとを生成する。また、仮想視点画像生成部２０２は、ＲＯＭ１１３に予め保存した競技場などの背景のオブジェクトの三次元形状を表す背景モデルの表面を描画するためのテクスチャデータを背景画像に基づいて生成する。仮想視点画像生成部２０２は、前景モデルと背景モデルに対してテクスチャデータをマッピングし、仮想カメラのカメラパラメータに応じて仮想空間をレンダリングすることにより、仮想視点画像を生成する。ただし、仮想視点画像の生成方法はこれに限られるものではなく、三次元モデルを用いずに撮影画像の射影変換により仮想視点画像を生成する方法など、種々の方法を用いることができる。

なお、前景画像とは、複数視点画像から、所定のオブジェクトの領域（前景領域）を抽出した画像である。所定のオブジェクトとは、例えば、固定位置から撮影を行った場合に動きのある（その絶対位置や形が変化し得る）動的なオブジェクト（動体）である。そのようなオブジェクトとは、例えば、競技が行われるフィールド内にいる選手や審判などの人物、球技において用いられるボール、コンサートやエンタテイメントにおける歌手、演奏者、パフォーマー、司会者などである。また、背景画像とは、少なくとも前景となるオブジェクトとは異なる領域（背景領域）の画像である。より具体的には、背景画像は、固定位置から撮影を行った場合において静止している、又は静止に近い状態が継続しているオブジェクト（不動体）を指す。そのようなオブジェクトとは、例えば、コンサート等のステージ、競技などのイベントを行うスタジアム、球技で使用するゴールなどの構造物、フィールド、などである。

仮想視点画像生成部２０２は、以上のようにして生成した仮想視点画像をＣＧ画像加工部２０４、合成画像生成部２０５に送る。また、仮想視点画像生成部２０２は、複数視点画像、仮想視点画像を生成する際に生じる中間データ（例えば前景オブジェクトそれぞれの仮想空間上での位置や、それらのテクスチャデータ等）をＣＧ画像加工部２０４に送る。

ＣＧ画像生成部２０３は、通信制御部２０１から受信した仮想カメラのカメラパラメータに基づき、仮想オブジェクトの撮影（仮想オブジェクトの画像上への投影）、ラスタライズ、色の決定等の処理を行い、ＣＧ画像を生成する。仮想オブジェクトは、３Ｄデータ（メッシュデータやテクスチャデータ、マテリアルデータ等）を有する、仮想空間にのみ存在するオブジェクトである。ＣＧ画像生成部２０３は、ＲＯＭ１１３に予め保存されている仮想オブジェクトの３Ｄデータを取得し、仮想オブジェクトを仮想空間の任意の位置に配置し、仮想カメラから見た画像を生成する。仮想オブジェクトは、例えば、物理カメラの撮影空間には存在しない仮想の看板であり、仮想カメラがそれを撮影することにより仮想広告画像（ＣＧ画像）が生成される。ＣＧ画像生成部２０３は、生成したＣＧ画像及びＣＧ画像を生成するために用いた仮想オブジェクトの３ＤデータをＣＧ画像加工部２０４に送る。

ＣＧ画像加工部２０４は、仮想視点画像生成部２０２から送られた仮想視点画像と複数視点画像と中間データ、および、ＣＧ画像生成部２０３から送られた仮想オブジェクトの３Ｄデータを用いて、ＣＧ画像生成部２０３から受信したＣＧ画像を加工する。ＣＧ画像加工部２０４は、加工したＣＧ画像を合成画像生成部２０５に送る。ＣＧ画像の加工方法については、図３を用いて後述する。合成画像生成部２０５は、仮想視点画像生成部２０２から入力した仮想視点画像と、ＣＧ画像加工部２０４から入力したＣＧ画像とを合成することで、前景、背景、ＣＧが描画された合成画像を生成する。合成画像生成部２０５は、生成した合成画像を通信制御部２０１に出力する。

＜ＣＧ画像の加工と合成画像の生成方法の説明＞
図３を用いて、第１実施形態による、ＣＧ画像の加工と合成画像の生成の手順を説明する。ここでは、ＣＧ画像加工部２０４によるＣＧ画像の加工の一例として、仮想視点画像における実オブジェクトのテクスチャ（色情報）に基づいてＣＧ画像の色味を変化させる態様を説明する。図３（ａ）は、撮影システム１０１の撮影空間上に実在する前景オブジェクト３０１、背景オブジェクト３０２、撮影空間上に実在しない仮想オブジェクト３０３を仮想カメラ３０４で撮影する様子を俯瞰で見た概略図である。図３（ｂ）は、図３（ａ）で生成される仮想視点画像３１２とＣＧ画像３１３とを合成する方法を説明した概略図である。

撮影システム１０１が有する物理カメラ３０５と物理カメラ３０６は、前景オブジェクト３０１および背景オブジェクト３０２を撮影し、撮影画像３０７と撮影画像３０８を生成する。前景オブジェクト３０１は、太陽やライトなどの光源３０９に照らされているため、撮影画像３０７は逆光により暗い画像となり、撮影画像３０８は順光により明るい画像となる。画像処理装置１０２は、撮影システム１０１が撮影した複数視点画像に基づき、前景オブジェクト３０１、背景オブジェクト３０２を仮想空間上に再構築した前景モデル３１０と背景モデル３１１を生成する。そして、画像処理装置１０２は、情報処理装置１０３から受信した仮想カメラ３０４のカメラパラメータに基づき、前景モデル３１０と背景モデル３１１を撮影した仮想視点画像３１２と、仮想オブジェクト３０３を撮影したＣＧ画像３１３を生成する。

画像処理装置１０２は、前景モデル３１０のテクスチャデータを生成する際に、より仮想カメラから撮影した画像に近づけるため、仮想カメラ３０４と近い物理カメラ３０５の撮影画像のテクスチャを優先的に使うとする。そうすると、仮想視点画像３１２に映る前景モデル３１０は、撮影画像３０８に比べて暗い画像になる。一方、ＣＧ画像３１３は、仮想空間上で光源３０９を模倣しない限り、撮影システム１０１の撮影空間上の照明条件の影響を受けず、仮想カメラ３０４を動かしても仮想オブジェクト３０３の色の変化はない。そのため、仮想視点画像３１２とＣＧ画像３１３をそのまま合成すると、前景モデル３１０と仮想オブジェクト３０３の色味が異なり不自然な合成画像となる可能性がある。ＣＧ画像３１３を生成する際に、撮影システム１０１の撮影空間上の照明を模倣することも可能だが、太陽やスタジアムのライトなどの多数の照明が存在する場合、画像処理装置１０２はそれらをシミュレートするために多大な処理時間が必要となる。また、太陽やステージのライトなどは時々刻々と色や強度が変化するため、それらを忠実に模倣することは難しい。そこで、第１実施形態の画像処理装置１０２は、自然な合成画像を生成するために、仮想視点画像３１２における前景モデル３１０のテクスチャデータに基づいてＣＧ画像３１３の彩度や明度を変化させたＣＧ画像３１４を生成する。以上のようにＣＧ画像３１３を加工することにより得られたＣＧ画像３１４と仮想視点画像３１２とを合成することで、より自然な仮想視点画像とＣＧ画像との合成画像３１５を生成することが可能となる。

＜ＣＧ画像の加工と合成画像の生成の制御＞
図４は、本実施形態に係る、ＣＧ画像と仮想視点画像の生成及びそれらの合成処理を示すフローチャートである。図４に示される処理は、例えば、ＲＯＭ１１３に格納された制御プログラムがＲＡＭ１１２に読み出され、ＣＰＵ１１１がこれを実行することによって実現される。通信制御部２０１は、撮影システム１０１から複数視点画像を受信し、情報処理装置１０３から仮想カメラのカメラパラメータを受信する。仮想視点画像生成部２０２およびＣＧ画像生成部２０３がこれら受信データを通信制御部２０１から受け取ると図４に示される処理が開始される。

Ｓ４０１において、仮想視点画像生成部２０２は、複数の撮影装置（複数の物理カメラ）からの複数の画像を取得する。なお、複数の画像として本実施形態では複数視点画像（複数の撮影装置による複数の撮影画像）を用いられているが、これに限られるものではない。例えば、複数の画像は、複数の撮影画像のそれぞれから得られる前景オブジェクトのテクスチャ画像（撮影画像から前景オブジェクトの領域を抽出した部分画像）を含んでもよい。或いは、複数の画像は、複数の撮影画像のそれぞれから得られる背景オブジェクトのテクスチャ画像（撮影画像から背景オブジェクトの領域を抽出した部分画像）を含んでもよい。これらの場合、撮影システム１０１において、撮影画像のそれぞれから前景オブジェクトおよび背景オブジェクトが抽出され、複数の画像として画像処理装置１０２に送られることになる。なお、画像処理装置１０２が複数視点画像を受信する場合、複数視点画像を構成する複数の撮影画像のそれぞれからの前景オブジェクトおよび背景オブジェクトの抽出は、例えば仮想視点画像生成部２０２で行われ得る。Ｓ４０２において、ＣＧ画像生成部２０３は、仮想オブジェクトに関する情報を取得する。仮想オブジェクトに関する情報は、仮想オブジェクトの３次元形状データ（例えば、ポリゴンデータまたはボクセルデータ）と仮想オブジェクトの仮想空間における配置位置（例えば、ユーザ（オペレータ）が設定した位置）の少なくとも何れかを含む。

Ｓ４０３において、仮想視点画像生成部２０２は、Ｓ４０１で取得された複数視点画像と仮想カメラのカメラパラメータ（仮想視点の位置、姿勢））に基づいて仮想カメラによって撮影される仮想視点画像を生成する。なお、仮想カメラのカメラパラメータは通信制御部２０１から入力される。すなわち、指定された仮想視点から観察される実空間を表す画像が仮想視点画像として生成される。生成された仮想視点画像は、合成画像生成部２０５に送られる。また、仮想視点画像の生成途中の中間データ（例えば前景オブジェクトそれぞれの仮想空間上での位置や、それらのテクスチャデータ等）は、ＣＧ画像加工部２０４に送られる。Ｓ４０４において、ＣＧ画像生成部２０３は、Ｓ４０２で取得された仮想オブジェクトに関する情報と仮想カメラのカメラパラメータとに基づいて、仮想カメラから仮想オブジェクトを撮影することにより得られるＣＧ画像を生成する。なお、仮想カメラのカメラパラメータは、Ｓ４０３でも用いられたものであり、通信制御部２０１から入力される。すなわち、上記仮想視点画像の生成に用いられた仮想視点から観察される仮想オブジェクトを表す画像がＣＧ画像として生成される。生成されたＣＧ画像は、ＣＧ画像加工部２０４に送られる。

Ｓ４０５において、ＣＧ画像加工部２０４は、仮想視点画像生成部２０２から入力された中間データに基づいてＣＧ画像生成部２０３から入力されたＣＧ画像を加工する。Ｓ４０５におけるＣＧ画像の加工処理の詳細は、図５の参照により後述する。加工されたＣＧ画像は、合成画像生成部２０５に出力される。Ｓ４０６において、合成画像生成部２０５は、仮想視点画像生成部２０２から入力された仮想視点画像とＣＧ画像加工部２０４から入力された加工済みのＣＧ画像とを合成し、合成画像を生成する。その後、本処理は終了する。本処理の終了後、生成された合成画像は合成画像生成部２０５から通信制御部２０１を介して情報処理装置１０３に送信される。以上が、第１実施形態に係る、仮想視点画像とＣＧ画像の合成画像処理である。

＜ＣＧ画像の加工処理の説明＞
図５は、本実施形態に係る、ＣＧ画像の加工処理の一例を示すフローチャートであり、図４のＳ４０５におけるＣＧ画像の加工処理の詳細を示す。第１実施形態におけるＣＧ画像の加工処理では、３次元空間において仮想オブジェクトに近い前景モデルのテクスチャデータ（彩度と明度）に基づいてＣＧ画像の色情報を決定し、加工する。より具体的には、ＣＧ画像加工部２０４は、仮想空間上で仮想オブジェクトが配置された位置に近い前景モデルの彩度と明度を取得し、それらに近づくように仮想オブジェクトの彩度と明度を変更する。加工前のＣＧ画像の彩度や明度は、仮想オブジェクトのテクスチャデータやマテリアルデータに基づき、ＣＧ画像生成部２０３により算出されている。図５に示される処理は、ＣＧ画像加工部２０４により実行される。また、図５に示される処理は、仮想視点画像生成部２０２から中間データが取得され、ＣＧ画像加工部２０４からＣＧ画像が取得されたことをトリガとして開始する。

Ｓ５０１において、ＣＧ画像加工部２０４は、仮想視点画像生成部２０２から入力された中間データより、仮想オブジェクトに近い前景モデルを選択し、そのテクスチャデータを取得する。仮想オブジェクトに近い前景モデルとは、例えば、仮想オブジェクトに最も近い位置にある実オブジェクトの前景モデルである。なお、Ｓ５０１で選択される前景モデルはこれに限られるものではない。例えば、仮想オブジェクトから近い順に所定数の実オブジェクトの前景モデルが選択されるようにしてもよいし、仮想オブジェクトから所定距離内に存在する全ての実オブジェクトの前景モデルが選択されるようにしてもよい。すなわち、ＣＧ画像を加工する際に、仮想オブジェクトと近くに位置する前景モデルが複数ある場合に、一つの前景モデルだけでなく複数の前景モデルに基づいてＣＧ画像を加工するようにしてもよい。また、実オブジェクトと仮想オブジェクトとの距離には、例えば、両オブジェクトの重心位置の距離、両オブジェクトの表面間の最短距離などが用いられ得る。また、必ずしも選択された前景モデルの描画に用いられるテクスチャデータの全体が用いられなくてもよい。すなわち、前景オブジェクトの一部分のテクスチャデータ（例えば、前景オブジェクトの仮想オブジェクトに最も近い点を中心とした所定範囲内の部分に対応するテクスチャデータ）が取得されるようにしてもよい。

Ｓ５０２において、ＣＧ画像加工部２０４は、Ｓ５０２で取得された前景モデルのテクスチャデータをＲＧＢ空間からＨＳＩ空間へ変換する。Ｓ５０３において、ＣＧ画像加工部２０４は、ＣＧ画像生成部２０３により生成されたＣＧ画像の色情報をＲＧＢ空間からＨＳＩ空間へ変換する。Ｓ５０４において、ＣＧ画像加工部２０４は、前景モデルのテクスチャデータのＨＳＩ空間モデルに基づき、ＣＧ画像の彩度と明度を加工する。例えば、ＣＧ画像加工部２０４は、前景モデルのテクスチャデータの彩度と明度の平均値をそれぞれ算出する。そして、ＣＧ画像加工部２０４は、ＣＧ画像の色相はそのままで、ＣＧ画像の彩度と明度のそれぞれの平均値が前景モデルのテクスチャデータについて算出されたそれぞれの平均値と一致するまたは近づくように、ＣＧ画像の彩度と明度を変更する。Ｓ５０５において、ＣＧ画像加工部２０４は、ＣＧ画像をＨＳＩ空間からＲＧＢ空間に逆変換する。以上が、第１実施形態に係るＣＧ画像の加工処理の例である。

以上説明したように、第１実施形態では、複数視点画像に基づき生成された前景モデルのテクスチャデータを用いて、ＣＧ画像の彩度と明度を加工する処理が行われる。これにより、仮想視点画像とＣＧ画像を重ね合わせたときに、仮想視点画像の実オブジェクトとＣＧ画像の色味が近くなり、より自然な合成画像を生成することが可能となる。

なお、第１実施形態では、前景モデルのテクスチャデータを用いて彩度と明度を加工する例を説明したが、これに限られるものではない。例えば、背景モデルのテクスチャデータが用いられてもよい。また、背景モデルがスタジアムやフィールドのように大きい場合には、その一部分が用いられてもよい。例えば、背景モデルのテクスチャデータのうち仮想オブジェクトに近い部分のテクスチャデータを抽出し、抽出されたテクスチャデータが用いられるようにしてもよい。また、仮想オブジェクトの位置と面の向きに基づいて選択した物理カメラによる撮影画像を複数視点画像から選択し、選択された撮影画像の彩度や明度が用いられてもよい。仮想オブジェクトの面の向きは、例えば、ポリゴンの面法線や頂点法線に基づいて決定することができる。またその場合、選択された撮影画像の全体の色情報が用いられてもよいし、選択された撮影画像の一部分を抽出し、抽出した部分の画像の色情報が用いられてもよい。撮影画像から抽出される部分の画像としては、例えば、仮想オブジェクトの近傍の所定範囲の画像、仮想オブジェクトに近い実オブジェクトの領域の画像などがあげられる。

また、ＣＧ画像を加工する際は、ＣＧ画像が急激に変化しないように徐々に変化させるようにしてもよい。ＣＧ画像の加工を毎フレーム行うのではなく、所定の単位時間を設定し、その単位時間ごとにＣＧ画像を加工してもよい。また、その際にも、ＣＧ画像を徐々に変化させるようにしてよい。複数視点画像に基づくＣＧ画像の加工を常時行わず、ユーザにより情報処理装置１０３を介して、加工の有無を切り替えてもよい。また、ＣＧ画像の加工は、複数視点画像に基づくものだけでなく、光源やマテリアルを設定して、コンピュータグラフィックスにより加工を加えてもよい。また、本実施形態では、ＣＧ画像生成部２０３とＣＧ画像加工部２０４を分けて記載したが、これに限られるものではない。例えば、ＣＧ画像加工部２０４は、ＣＧ画像生成部２０３の機能の一部又はすべてを兼ねてもよい。この場合、例えば、ＣＧ画像加工部２０４は複数視点画像（から得られるテクスチャデータ）に基づいて仮想オブジェクトの画像を加工しながらＣＧ画像を生成するようにしてもよい。

（第２実施形態）
第１実施形態では、前景モデルのテクスチャに基づいて、仮想視点画像に重畳するＣＧ画像の彩度と明度を加工することで、仮想視点画像の実オブジェクトとＣＧ画像の仮想オブジェクトの色味を合わせ、合成画像における違和感を低減する構成を説明した。第２実施形態では、実オブジェクトと仮想オブジェクトの解像度の違いにより生じる違和感を低減する構成を説明する。例えば、物理カメラから近い、もしくは望遠で撮影された現実の看板の画像は解像度が高くなり、反対に物理カメラから遠い、もしくは広角で撮影された現実の看板の画像の解像度は低くなる。このように、撮影条件により現実の看板の画像の解像度は異なるが、仮想オブジェクトである仮想看板のＣＧ画像は常にその解像度が一定である。そのため、仮想空間に配置された仮想看板の画像と周囲の現実の看板の画像との解像度が異なるものとなり、看板どうしの解像感が不均一になるために、違和感のある不自然な合成画像が生成される可能性がある。

第２実施形態では、仮想オブジェクトと距離が近い背景モデルのテクスチャデータ（すなわち色情報）の解像度に応じて、仮想モデルのテクスチャデータの解像度を加工する。なお、画像処理装置１０２のハードウェア構成や機能構成など第１実施形態と共通する部分は説明を省略ないしは簡略化し、以下では差異点であるＣＧ画像の加工制御を中心に説明を行う。

図６は、第２実施形態に係る、仮想視点画像とＣＧ画像との合成処理を説明する図である。図７は、第２実施形態に係るＣＧ画像の加工処理を示すフローチャートである。第２実施形態によるＣＧ画像の加工処理では、背景モデルの表面を描画するためのテクスチャデータの解像度に応じて、ＣＧ画像の解像度が変更される。

図６において、仮想視点画像６０１は現実に存在する実看板６０２を仮想カメラで撮影することにより得られた画像であり、ＣＧ画像６０３は仮想看板６０４を仮想カメラで撮影することにより得られた画像である。ＣＧ画像６０３に映る仮想看板６０４のテクスチャデータの解像度は、仮想視点画像６０１の実看板６０２のテクスチャデータの解像度より高い。実看板６０２に比べて仮想看板６０４のテクスチャデータの解像度が過度に高い状態で仮想視点画像６０１にＣＧ画像６０３が重畳されると、不自然な合成画像になる可能性がある。そのため、第２実施形態のＣＧ画像加工部２０４は、仮想看板６０４のテクスチャデータの解像度を仮想視点画像６０１における実看板６０２のテクスチャデータの解像度に近づけるようにＣＧ画像６０３を加工する。合成画像生成部２０５は、こうして加工されたＣＧ画像６０５を仮想視点画像６０１に重畳することで、解像度の違いに起因した不自然さが低減または解消された合成画像６０６を生成する。

図７は、図４のＳ４０５の処理（ＣＧ画像の加工処理）を詳細に示すフローチャートである。ＣＧ画像加工部２０４は、仮想視点画像生成部２０２から背景モデルのテクスチャデータが入力され、ＣＧ画像生成部２０３から仮想オブジェクトのテクスチャデータが入力されると、図７に示される加工処理を開始する。

Ｓ７０１において、ＣＧ画像加工部２０４は、仮想オブジェクトに近い背景モデルに貼られるテクスチャデータを取得する。仮想オブジェクトに近い背景モデルに貼られるテクスチャデータは、例えば、背景オブジェクトのテクスチャデータから、仮想オブジェクトに近い部分（仮想オブジェクトに最も近い位置を中心とした所定の大きさの範囲）を抽出したテクスチャデータである。もちろん、これに限られるものではなく、例えば、仮想オブジェクトに最も近い実オブジェクトに対応する背景モデルのテクスチャデータ全体が選択されるようにしてもよい。Ｓ７０２において、ＣＧ画像加工部２０４は、仮想オブジェクトに貼られるテクスチャデータを取得する。

Ｓ７０３において、ＣＧ画像加工部２０４は、背景モデルと仮想オブジェクトのテクスチャデータの解像度を比較する。本実施形態において、背景モデルのテクスチャデータの解像度は、例えば当該テクスチャデータのもととなる撮影画像において当該テクスチャデータが貼られる範囲の画素数と、当該範囲の３次元空間における実際の大きさとから得られる。また、本実施形態において、仮想オブジェクトのテクスチャデータの解像度は、仮想オブジェクトにおける当該テクスチャデータが貼られる範囲の大きさと、その範囲に対応するＣＧ画像の画素数から得られる。Ｓ７０４において、ＣＧ画像加工部２０４は、Ｓ７０３における解像度の比較結果に従って処理を分岐する。背景モデルと仮想オブジェクトのテクスチャデータの解像度の差が所定値以下である場合（Ｓ７０４でＮＯ）、本処理は終了する。この場合、Ｓ４０６における合成画像の生成では、Ｓ４０４で生成されたＣＧ画像がそのまま用いられることになる。

背景モデルと仮想オブジェクトのテクスチャデータの解像度の差が所定値より大きい場合（Ｓ７０４でＹＥＳ）、処理はＳ７０４からＳ７０５に進む。Ｓ７０５において、ＣＧ画像加工部２０４は、背景モデルのテクスチャデータの解像度に基づいて、ＣＧ画像における仮想オブジェクトのテクスチャデータの解像度を変更する。例えば、仮想オブジェクトと背景モデルが同じ大きさで、仮想オブジェクトのテクスチャデータの解像度が背景モデルのテクスチャデータの解像度の２倍であったとする。この場合、ＣＧ画像加工部２０４は、Ｓ４０４で生成されたＣＧ画像を仮想オブジェクトのテクスチャデータサイズを５０％に縮小する加工を行う。こうして、合成画像に用いられる現実の看板と仮想の看板の画像のテクスチャデータの解像度を一致させる、或いはそれらテクスチャデータの解像度を近づけることができる。

以上のように、第２実施形態によれば、背景モデルのテクスチャデータの解像度に応じて仮想オブジェクトの解像度を変化させることによりＣＧ画像が加工され、加工されたＣＧ画像と仮想視点画像を重畳することでより自然な合成画像が生成される。なお、ＣＧ画像の加工に用いられるテクスチャデータは、背景モデルに限られるものではなく、第１実施形態のように仮想オブジェクトの近くに存在する前景モデルのテクスチャデータが用いられてもよい。また、第２実施形態では、仮想の看板の近くの現実に存在する看板（現実の看板）のテクスチャデータに基づきＣＧ画像の加工を行ったが、これに限られるものではない。例えば、現実の看板を仮想の看板で置き換える場合は、置き換えの対象となる現実の看板のテクスチャデータに基づいて仮想の看板のテクスチャデータを変化させてもよい。

（第３実施形態）
第１実施形態および第２実施形態では、仮想オブジェクトとの位置関係に基づいて選択された実オブジェクトに基づいてテクスチャデータが選択され、選択されたテクスチャデータに基づいてＣＧ画像の加工が行われた。第３実施形態では、撮影システム１０１が撮影する空間に存在する実オブジェクトの種類（選手、ボール、看板など）を識別し、識別された種類と仮想オブジェクトの種類に基づいて選択された実オブジェクトのテクスチャデータに基づいてＣＧ画像を加工する。なお、画像処理装置１０２のハードウェア構成や機能構成など第１実施形態と共通する部分は説明を省略ないしは簡略化し、以下では差異点であるＣＧ画像の加工処理を中心に説明する。

図８は、第３実施形態に係る、仮想視点画像とＣＧ画像の合成処理を説明する図である。図９は、第３実施形態に係るＣＧ画像の加工処理を示すフローチャートである。上述のように、第３実施形態では、オブジェクトの種類を識別し、種類が識別されたオブジェクトのうちの所定のオブジェクトのテクスチャデータに応じて、ＣＧ画像を加工する。

図８において、仮想視点画像８０１は、現実に存在する看板８０２と看板以外のオブジェクト８０３を仮想カメラで撮影した画像である。また、ＣＧ画像８０４は、仮想の看板８０５を、仮想カメラで撮影した画像である。仮想の看板８０５のテクスチャデータは、現実に存在する看板８０２に比べて解像度が高い。第２実施形態では、仮想オブジェクトに近い、前景又は背景モデルのテクスチャデータを用いてＣＧ画像の解像度を加工する方法を説明した。これに対し、第３実施形態のＣＧ画像加工部２０４は、前景又は背景モデルのオブジェクトの種類を識別し、事前に設定された種類のオブジェクトを選択し、選択したオブジェクトのテクスチャデータを用いてＣＧ画像を加工する。

図８の例では、仮想オブジェクトの種類は看板であり、これと同一の種類の実オブジェクトである看板８０２が選択され、そのテクスチャデータに基づいて仮想の看板８０５のテクスチャデータが変更される。合成画像生成部２０５は、こうして加工されたＣＧ画像８０６を仮想視点画像８０１に重畳して合成画像８０７を生成する。例えば、実オブジェクトのテクスチャデータの色味または解像度に基づいて仮想オブジェクトの色味または解像度が変更される。色味の変更は第１実施形態で、解像度の変更は第２実施形態で説明したとおりである。これにより、仮想カメラに現実に存在する看板と仮想看板が映った際に、現実の看板と仮想看板の色味や解像感が似ることで、違和感の少ない合成画像を生成することが可能となる。

図９のフローチャートにより示される処理は、第３実施形態のＣＧ画像加工部２０４により実行される処理である。ＣＧ画像加工部２０４は、仮想視点画像生成部２０２から前景モデル又は背景モデルの各位置とテクスチャデータが入力され、ＣＧ画像生成部２０３から仮想オブジェクトのテクスチャデータが入力されると、図９の処理を開始する。図９は、図４のＳ４０５の処理（ＣＧ画像を加工する処理）を詳細に説明したフローチャートである。

Ｓ９０１において、ＣＧ画像加工部２０４は、前景または背景モデルの実オブジェクトの種類を識別し、仮想オブジェクトと同一種類の実オブジェクトを選択する。オブジェクトの種類の識別には、例えば物体検出アルゴリズムが用いられ得る。また、背景モデルであれば、例えばメッシュデータに種類を示す情報が埋め込まれていてもよい。Ｓ９０２において、ＣＧ画像加工部２０４は、Ｓ９０１で選択された実オブジェクトのテクスチャデータに基づき、仮想オブジェクトのＣＧ画像を加工する。ＣＧ画像の加工は、第１実施形態、第２実施形態で説明したとおりである。

以上のように、第３実施形態によれば、種類が識別した実オブジェクトの中から、所定の種類のオブジェクトのためのテクスチャデータに基づいて、ＣＧ画像が加工される。このような第３実施形態によれば、例えば、現実の複数の看板のうちの一つを仮想の看板で置き換えた合成画像を生成するような場合に、より確実に看板のオブジェクトのテクスチャデータを用いてＣＧ画像を加工することができる。このように、仮想オブジェクトと同一種別の実オブジェクトのテクスチャデータによりＣＧ画像が加工されるため、より自然な合成画像を得ることができる。なお、第１実施形態～第３実施形態は適宜組み合わせて用いることが可能であることは言うまでもない。

（第４実施形態）
第１実施形態乃至第３実施形態では、二次元画像である仮想視点画像上にＣＧ画像を重畳する際に、複数視点画像により生成されたオブジェクトのテクスチャデータに基づき、ＣＧ画像を加工する処理を説明した。第４実施形態では、二次元画像として拡張現実画像が用いられる。すなわち、第４実施形態では、拡張現実（ＡＲ：ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）において、カメラの撮影画像に基づき、ＣＧ画像を加工する態様を説明する。昨今、拡張現実技術を利用した様々なサービスが提供されている。ＡＲ技術を用いると、現実空間を撮像した画像（実画像）上にＣＧ画像を重畳表示することができる。例えば、実画像に仮想広告（ＣＧ画像）を表示することができる。しかしながら、実画像とＣＧ画像を重畳して表示した場合、実画像中のＣＧ画像が浮いて見える不自然さが生じる場合がある。これは、第１実施形態乃至第３実施形態で説明した不自然さと同様である。拡張現実においても、撮影空間の照明条件やカメラの撮影条件などに応じて、実画像に写る現実空間に存在するオブジェクト（実オブジェクト）とＣＧ画像に写る仮想オブジェクトの色味や解像感を合わせる必要がある。そこで、第４実施形態では、実オブジェクトと仮想オブジェクトの色味を合わせる一例として、カメラにより撮影された実画像に基づき、ＣＧ画像の彩度および／または明度を加工する手法を説明する。なお、第１実施形態乃至第３実施形態と共通する部分は省略ないしは簡略化して説明する。

＜画像処理システムのハードウェア構成＞
図１０は、本実施形態に係る、画像処理システム全体構成の一例を示す図である。画像処理システム１０００は、カメラの撮影画像を取得し、撮影画像に写った実オブジェクトの色情報に応じてＣＧ画像の色情報を決定する。そして、画像処理システム１０００は、決定したＣＧ画像の色情報に基づき合成画像を生成し出力する。画像処理システム１０００は、カメラ１０１０、画像処理装置１０２０、及び表示装置１０３０を有する。第４実施形態の画像処理装置１０２０のハードウェア構成例は、第１実施形態（図１（ｂ））で説明したとおりである。

カメラ１０１０は、現実空間を撮影する。そして撮影した撮影画像、事前に計算したカメラ１０１０の内部パラメータなどが、画像処理装置１０２０に送信される。カメラの内部パラメータとは、カメラ固有の内部パラメータであり、例えば、焦点距離、画像中心、及びレンズ歪みパラメータ等である。なお、カメラは１台に限らず複数台でもよい。カメラが複数台ある場合、複数の撮影画像および内部パラメータが画像処理装置１０２０に送信される。本実施形態では、１台のカメラの撮影画像に基づきＣＧ画像を加工する処理を説明しているが、それに限らず、複数台の撮影画像に基づき１つのＣＧ画像を加工してもよい。

画像処理装置１０２０は、カメラ１０１０から入力した撮影画像、カメラの内部パラメータに基づき、現実空間の三次元情報とカメラの位置姿勢を推定する。現実空間の三次元情報とカメラの位置姿勢の推定は、例えば、ＶｉｓｕａｌＳＬＡＭなどの技術を用いて行われる。この技術を用いれば、カメラの周囲の三次元情報やカメラの位置姿勢を示すパラメータ（カメラの外部パラメータ）を算出することが可能である。現実空間の三次元情報は、例えばＶｉｓｕａｌＳＬＡＭであれば、カメラの撮影画像から周辺の物体の特徴点を認識して、多数の特徴点の三次元座標の集合（点群）として出力される。すなわち、現実空間の実オブジェクト群の三次元情報（三次元座標）が取得できる。なお、現実空間の三次元情報の推定は、この方法に限らず、ＬｉＤＡＲに代表されるレーザーセンサなどのセンサを利用・併用してもよく、画像処理装置１０２０は各種センサ（デプスセンサや加速度センサ）を含んでもよい。実オブジェクト群の三次元情報は、三次元座標だけでなく、物体認識技術を併用し、三次元座標と対応する実オブジェクトの種別（看板、床、壁など）などの情報を含んでもよい。また、カメラの外部パラメータの推定は、例えば、現実空間中に設置された固有の識別情報を持つマーカを検出することで幾何学的に算出されてもよく、上記の方法に限らない。カメラの外部パラメータは、例えば回転行列及び位置ベクトル等で表現される。カメラの内部パラメータと外部パラメータを合わせて、カメラパラメータと呼ぶ。本実施形態では、現実のカメラ（実カメラ）の位置姿勢が仮想カメラの位置姿勢と一致しているものとし、仮想カメラのカメラパラメータを実カメラのカメラパラメータに一致させる。なお、これに限らず、実カメラと仮想カメラのカメラパラメータは異なっていてもよい。また、三次元情報を推定する現実空間と仮想広告を配置する仮想空間の座標系は一致するものとする。

画像処理装置１０２０は、取得したカメラパラメータに基づき、仮想広告などの仮想オブジェクトを配置した仮想空間を撮影しＣＧ画像を生成する。仮想オブジェクトの３Ｄデータは、ＲＯＭ１１３（図１（ｂ））に予め保存されており、それを読み出し使用する。仮想オブジェクトの３Ｄデータは、配置情報（姿勢情報や位置情報）を有しており、それに基づき仮想オブジェクトを仮想空間に配置する。なお、仮想オブジェクトの配置位置はこれに限らず、画像処理装置１０２０が仮想オブジェクトの位置や姿勢を変化させてもよく、仮想空間上に任意の位置姿勢で配置してもよい。そして、画像処理装置１０２０は、撮影画像、生成した実オブジェクト群の三次元情報に基づいてＣＧ画像を加工する。より具体的には、画像処理装置１０２０は、仮想オブジェクトと近い実オブジェクトの色情報に基づいて、実オブジェクトと仮想オブジェクトの色味を合わせるようＣＧ画像を加工する。まず、画像処理装置１０２０は、実オブジェクト群の三次元情報を用いて仮想オブジェクトと距離が近い実オブジェクト（もしくは点）を選択し、それをカメラパラメータに基づき撮影画像に投影する。そして、画像処理装置１０２０は、投影先の色情報を取得し、その色情報に基づいて、仮想オブジェクトの色情報を変化させ加工する。最後に、画像処理装置１０２０は、撮影画像と加工したＣＧ画像を重畳して合成画像を生成する。このようなＣＧ画像の加工により、カメラ１０１０の撮影条件や撮影空間の照明条件などに応じて色味が変化するＣＧ画像が生成され、より自然な合成画像を得ることができる。

画像処理装置１０２０は、生成した合成画像を表示装置１０３０に出力する。

表示装置１０３０は、画像処理装置１０２０により生成され出力された合成画像を表示する。表示装置１０３０は合成画像を逐次更新して連続して表示することで拡張現実を実現する。ユーザは、表示装置１０３０に表示された合成画像を見て、カメラ１０１０を操作し、カメラのズームや位置姿勢を指定する。表示装置１０３０は、例えばモニタや、タブレット、ビデオシースルー型のヘッドマウントディスプレイ（ＨＭＤ）である。

なお、本実施形態では、カメラ１０１０、画像処理装置１０２０、表示装置１０３０は、別々の装置を想定しているが、これに限らず、画像処理装置１０２０が、カメラ１０１０または表示装置１０３０の機能を兼ねてもよい。例えば、カメラ内蔵のタッチパネルディスプレイを採用したタブレットで合成画像を表示する場合、タブレットが、カメラ１０１０、画像処理装置１０２０、表示装置１０３０を兼ねることもできる。タブレットのタッチパネルディスプレイには合成画像が表示され、ユーザはタッチパネルディスプレイに触れてタブレットを操作し、後述するＣＰＵ、ＲＡＭ、ＲＯＭが連携することで合成画像が生成される。

＜画像処理装置の機能構成＞
図１１は、画像処理装置１０２０の、カメラ１０１０の撮影画像に基づき、ＣＧ画像を加工する処理に係る機能構成の一例を示す図である。

画像処理装置１０２０は、通信制御部１１０１、カメラ情報推定部１１０２、ＣＧ画像生成部１１０３、ＣＧ画像加工部１１０４、合成画像生成部１１０５を備える。

通信制御部１１０１は、通信部１１４を用いて、カメラ１０１０から撮影画像、カメラ１０１０の内部パラメータを受信する。通信制御部１１０１は、受信した撮影画像と内部パラメータをカメラ情報推定部１１０２に出力する。また、通信制御部１１０１は、撮影画像をＣＧ画像加工部１１０４に出力する。さらに、通信制御部１１０１は、通信部１１４を用いて、合成画像生成部１１０５から受信した合成画像を表示装置１０３０に送信する。

カメラ情報推定部１１０２は、通信制御部１１０１から取得したカメラ１０１０の撮影画像と内部パラメータに基づいて、現実空間の三次元情報とカメラ１０１０の外部パラメータを推定する。カメラ情報推定部１１０２は、通信制御部１１０１から入力した内部パラメータと、生成した現実空間の三次元情報とカメラ１０１０の外部パラメータをＣＧ画像生成部１１０３に出力する。

ＣＧ画像生成部１１０３は、カメラ情報推定部１１０２から入力したカメラパラメータに基づき、仮想オブジェクトを撮影し、ＣＧ画像を生成する。カメラパラメータは、カメラ１０１０のものであるため、生成したＣＧ画像の画角や位置姿勢はカメラ１０１０の撮影画像の画角や位置姿勢と一致する。ＣＧ画像生成部１１０３は生成したＣＧ画像、仮想オブジェクトの配置情報、カメラ情報推定部１１０２から入力した現実空間の三次元情報とカメラパラメータをＣＧ画像加工部１１０４に出力する。

ＣＧ画像加工部１１０４は、通信制御部１１０１から送られてきたカメラ１０１０の撮影画像、および、ＣＧ画像生成部１１０３から送られた仮想オブジェクトの配置情報、現実空間の三次元情報、カメラパラメータを用いて、ＣＧ画像生成部１１０３から受信したＣＧ画像を加工する。ＣＧ画像加工部１１０４は加工したＣＧ画像とカメラ１０１０の撮影画像を合成画像生成部１１０５に送る。ＣＧ画像の加工方法は図１２を用いて後述する。

合成画像生成部１１０５は、ＣＧ画像加工部１１０４から入力したカメラ１０１０の撮影画像とＣＧ画像を合成することで、カメラ１０１０の撮影画像にＣＧが描画された合成画像を生成する。合成画像生成部１１０５は、生成した合成画像を通信制御部１１０１に出力する。

＜ＣＧ画像の加工と合成画像の生成方法の説明＞
図１２を用いて、第４実施形態による、ＣＧ画像の加工と合成画像の生成の手順を説明する。ここでは、ＣＧ画像加工部１１０４によるＣＧ画像の加工の一例として、実オブジェクトの撮影画像に基づいてＣＧ画像の色味を変化させる態様を説明する。図１２（ａ）は、カメラ１０１０の撮影空間上の実オブジェクト１２０１、撮影空間上に実在しない仮想オブジェクト１２０２を実カメラ（仮想カメラ）１２０３で撮影する様子を俯瞰で見た概略図である。なお、実カメラと仮想カメラの位置姿勢は一致している。図１２（ｂ）は、図１２（ａ）の撮影画像１２０４とＣＧ画像１２０６とを合成する方法を説明した概略図である。

実カメラ１２０３は、実オブジェクト１２０１を撮影し、撮影画像１２０４を生成する。実カメラ１２０３は、カメラ１０１０に対応する。実オブジェクト１２０１は、太陽やライトなどの光源１２０５に照らされて逆光の状態となるため順光より暗い色となる。画像処理装置１０２０は、実カメラ１２０３が撮影した撮影画像１２０４に基づき、実オブジェクト１２０１を含む三次元情報、カメラの外部パラメータを推定する。そして、画像処理装置１０２０は、カメラ１０１０のカメラパラメータに基づき、ＣＧ画像１２０６を生成する。さらに、画像処理装置１０２０は、推定した三次元情報と撮影画像１２０４に基づき、ＣＧ画像１２０６の色の彩度や明度を実オブジェクト１２０１の色の彩度や明度に近づけるように加工してＣＧ画像１２０７を生成する。ここで、ＣＧ画像１２０６の色の彩度や明度を加工するために使われる実オブジェクトは、例えば仮想オブジェクトと距離が近いものを選んで行われる。最後に、画像処理装置１０２０は、加工したＣＧ画像１２０７と撮影画像１２０４を重畳して合成画像１２０８を生成する。

以上のようにＣＧ画像１２０６に写る仮想オブジェクト１２０２の色味を、撮影画像１２０４に写る実オブジェクト１２０１の色情報に応じて加工することで、仮想空間上で光源１２０５を模倣しなくても、自然な合成画像１２０８を生成することが可能となる。

＜ＣＧ画像の加工と合成画像の生成の制御＞
図１３は、本実施形態に係る、撮影画像とＣＧ画像の合成処理を示すフローチャートである。図１３に示される処理は、例えばＲＯＭ１１３に格納された制御プログラムがＲＡＭ１１２に読み出され、ＣＰＵ１１１がこれらを実行することで実現される。通信制御部１１０１は、カメラ１０１０から撮影画像と内部パラメータを受信する。カメラ情報推定部１１０２がこれら受信データを通信制御部１１０１から受け取ると図１３に示される処理が開始される。

Ｓ１３０１において、カメラ情報推定部１１０２は、カメラ１０１０の撮影画像と内部パラメータを取得する。そして、それらの取得データに基づいて、現実空間の三次元情報とカメラ１０１０の外部パラメータを推定する。カメラ情報推定部１１０２は、カメラパラメータと現実空間の三次元情報をＣＧ画像生成部１１０３に出力する。

Ｓ１３０２において、ＣＧ画像生成部１１０３は、カメラ１０１０のカメラパラメータ、仮想オブジェクトの３Ｄデータを取得し、仮想オブジェクトを映したＣＧ画像を生成する。ＣＧ画像生成部１１０３は、生成したＣＧ画像、仮想オブジェクトの配置情報、現実空間の三次元情報、カメラパラメータをＣＧ画像加工部１１０４に出力する。

Ｓ１３０３において、ＣＧ画像加工部１１０４は、ＣＧ画像生成部１１０３から入力した仮想オブジェクトの配置情報、現実空間の三次元情報、カメラパラメータ、通信制御部１１０１から入力した撮影画像に基づいてＣＧ画像生成部１１０３から入力したＣＧ画像を加工する。Ｓ１３０３におけるＣＧ画像の加工処理の詳細は、図１４の参照により後述する。ＣＧ画像加工部１１０４は、加工したＣＧ画像と撮影画像を合成画像生成部１１０５に出力する。

Ｓ１３０４において、合成画像生成部１１０５は、ＣＧ画像加工部１１０４から入力した撮影画像とＣＧ画像とを合成し、合成画像を生成する。その後、Ｓ１３０５において、合成画像生成部１１０５は生成された合成画像を出力する。本実施形態では、合成画像生成部１１０５は、通信制御部１１０１を介して表示装置１０３０に合成画像を送信する。以上が、第４実施形態に係る、カメラ１０１０の撮影画像とＣＧ画像の合成処理である。

＜ＣＧ画像の加工処理の説明＞
図１４は、本実施形態に係る、ＣＧ画像の加工処理の一例を示すフローチャートであり、図１３のＳ１３０３におけるＣＧ画像の加工処理の詳細を示す。第４実施形態におけるＣＧ画像の加工処理では、３次元空間において仮想オブジェクトと近い実オブジェクトの撮影画像の彩度と明度に基づいてＣＧ画像の色情報を決定し、加工する。より具体的には、ＣＧ画像加工部１１０４は、現実（仮想）空間上で配置位置が仮想オブジェクトに近い実オブジェクトの撮影画像の彩度と明度を取得し、それらに近づくように仮想オブジェクトの彩度と明度を変更する。加工前のＣＧ画像の彩度や明度は、仮想オブジェクトのテクスチャデータやマテリアルデータに基づき、ＣＧ画像生成部１１０３により算出されている。図１４に示される処理は、ＣＧ画像加工部１０４により実行される。また、図１４に示される処理は、通信制御部１１０１から撮影画像が取得され、ＣＧ画像生成部から現実空間の三次元情報、ＣＧ画像、仮想オブジェクトの配置情報、カメラパラメータが取得されたことをトリガとして開始される。ただし、現実空間の三次元情報は、実オブジェクト群の三次元座標の集合（点群）を想定する。

Ｓ１４０１において、ＣＧ画像加工部１１０４は、ＣＧ画像生成部から入力された実オブジェクト群の三次元座標の集合（点群）より、仮想オブジェクトの配置位置に近い実オブジェクトの点群を取得する。例えば、ＣＧ画像加工部１１０４は、仮想オブジェクトの配置位置から所定距離の範囲内に存在する実オブジェクトの点群を取得する。なお、点群は複数の点の座標を含んでもよいし、一点の座標でもよい。実オブジェクトの点群の選択は、点群とその点群に対応した種別情報が存在する場合、その種別情報に基づき判定されてもよい。例えば、仮想の看板広告のＣＧ画像を加工する場合、現実空間に存在する看板の点群が優先的に選ばれてもよい。

Ｓ１４０２において、ＣＧ画像加工部１１０４は、選択した実オブジェクトの点群をＣＧ画像生成部から入力されたカメラパラメータに基づき、通信制御部１１０１から入力した撮影画像に投影する。

Ｓ１４０３において、ＣＧ画像加工部１１０４は、実オブジェクトの点群の投影先の撮影画像の色情報を取得する。

Ｓ１４０４において、ＣＧ画像加工部１１０４は、取得した色情報をＲＧＢ空間からＨＳＩ空間へ変換する。

Ｓ１４０５において、ＣＧ画像加工部１１０４は、ＣＧ画像生成部１１０３により生成されたＣＧ画像の色情報をＲＧＢ空間からＨＳＩ空間へ変換する。

Ｓ１４０６において、ＣＧ画像加工部１１０４は、撮影画像の色情報のＨＳＩ空間モデルに基づき、ＣＧ画像の彩度と明度を加工する。例えば、ＣＧ画像加工部１１０４は、Ｓ１４０４で取得した撮影画像の色情報の彩度と明度の平均値をそれぞれ算出する。そして、ＣＧ画像加工部１１０４は、ＣＧ画像の色相はそのままで、ＣＧ画像の彩度と明度のそれぞれの平均値が撮影画像の色情報について算出されたそれぞれの平均値と一致するまたは近づくように、ＣＧ画像の彩度と明度を変更する。

Ｓ１４０７において、ＣＧ画像加工部１１０４は、ＣＧ画像をＨＳＩ空間からＲＧＢ空間に逆変換する。以上が、第４実施形態に係るＣＧ画像の加工処理の例である。

以上説明したように、第４実施形態では、カメラ１０１０の撮影画像を用いて、ＣＧ画像の彩度と明度を加工する処理が行われる。これにより、拡張現実において、撮影画像とＣＧ画像を重ね合わせたときに、撮影画像に写る実オブジェクトとＣＧ画像に写る仮想オブジェクトの色味が近くなり、より自然な合成画像を生成することが可能となる。なお、第１実施形態の色味の加工方法など、第１実施形態乃至第３実施形態で説明した各種方法は、第４実施形態においても適宜組み合わせで用いることも可能である。

（第５実施形態）
第４実施形態では、表示装置１０３０に実画像にＣＧ画像を重畳した合成画像を表示する処理を説明した。第５実施形態では、光学シースルー型の表示装置、例えば拡張／複合現実用の光学シースルー型ＨＭＤに、撮影した実画像に基づき加工したＣＧ画像を表示する態様を説明する。なお、第４実施形態と共通する部分は省略ないしは簡略化して説明する。

図１５は本実施形態に係る、画像処理システム全体構成の一例を示す図である。画像処理システム１５００は、カメラの撮影画像を取得し、撮影画像に写った実オブジェクトの色情報に応じてＣＧ画像の色情報を決定する。そして、画像処理システム１５００は、色情報を決定したＣＧ画像を表示する。画像処理システム１５００は、カメラ１５１０、画像処理装置１５２０、及び表示装置１５３０を有する。ただし、カメラ１５１０はカメラ１０１０と同様である。第５実施形態の画像処理装置１５２０のハードウェア構成例は、第１実施形態（図１（ｂ））で示したとおりである。

画像処理装置１５２０は、画像処理装置１０２０と異なり、カメラ１５１０の撮影画像に基づき加工したＣＧ画像を撮影画像に重畳せずに、そのまま表示装置１５３０に出力する。それ以外は、画像処理装置１０２０と同様である。

表示装置１５３０は、画像処理装置１５２０により生成され出力されたＣＧ画像を表示する。表示装置１５３０は、例えば光学シースルー型ＨＭＤであり、透過型のスクリーンにＣＧ画像を表示し、現実の景色と重ね合わせること拡張／複合現実を実現する。

なお、本実施形態では、カメラ１５１０、画像処理装置１５２０、表示装置１５３０は、別々の装置を想定しているが、第４実施形態と同様に、画像処理装置１５２０が、カメラ１５１０、表示装置１５３０の機能を兼ねてもよい。

図１６は、画像処理装置１５２０の、カメラ１５１０の撮影画像に基づき、ＣＧ画像を加工する処理に係る機能構成の一例を示す図である。

画像処理装置１５２０は、通信制御部１６０１、カメラ情報推定部１６０２、ＣＧ画像生成部１６０３、ＣＧ画像加工部１６０４を備える。ただし、カメラ情報推定部１６０２、ＣＧ画像生成部１６０３はそれぞれ、カメラ情報推定部１１０２、ＣＧ画像生成部１１０３と同様である。

通信制御部１６０１は、通信部１１４を用いて、カメラ１５１０から撮影画像、カメラ１５１０の内部パラメータを受信する。通信制御部１６０１は、受信した撮影画像と内部パラメータをカメラ情報推定部１６０２に、撮影画像をＣＧ画像加工部１６０４に出力する。また、通信制御部１６０１は、通信部１１４を用いて、ＣＧ画像加工部１６０４から受信したＣＧ画像を表示装置１５３０に送信する。

ＣＧ画像加工部１６０４は、通信制御部１６０１から送られてきたカメラ１５１０の撮影画像、および、ＣＧ画像生成部１１０３から送られてきた仮想オブジェクトの配置情報、現実空間の三次元情報、カメラパラメータを用いて、ＣＧ画像生成部１６０３から受信したＣＧ画像を加工する。ＣＧ画像加工部１６０４は加工したＣＧ画像を通信制御部１６０１に送る。ＣＧ画像の加工方法は、第４実施形態のＣＧ画像の加工方法と同様である。

図１７は、第５実施形態に係る、ＣＧ画像の生成処理を示すフローチャートである。上述のように、第５実施形態では、カメラ１５１０の撮影画像に基づいて生成されたＣＧ画像を撮影画像と重畳せずそのまま表示装置１５３０に出力する。図１７に示される処理は、例えばＲＯＭ１１３に格納された制御プログラムがＲＡＭ１１２に読み出され、ＣＰＵ１１１がこれらを実行することで実現される。通信制御部１６０１は、カメラ１５１０から撮影画像と内部パラメータを受信する。カメラ情報推定部１６０２がこれら受信データを通信制御部１６０１から受け取ると図１７に示される処理が開始される。ただし、Ｓ１７０１およびＳ１７０２は、それぞれＳ１３０１およびＳ１３０２と同様である。

Ｓ１７０３において、ＣＧ画像加工部１６０４は、ＣＧ画像生成部１６０３から入力した仮想オブジェクトの配置情報、現実空間の三次元情報、カメラパラメータ、通信制御部１６０１から入力した撮影画像に基づいてＣＧ画像生成部１６０３から入力したＣＧ画像を加工する。ＣＧ画像の加工は、第４実施形態（図１４）で説明したとおりである。Ｓ１７０４において、ＣＧ画像加工部１６０４は、加工されたＣＧ画像を通信制御部１６０１に出力する。そして、本処理は終了する。加工されたＣＧ画像は、通信制御部１６０１から表示装置１５３０に送信される。以上が、第５実施形態に係る、ＣＧ画像の生成処理である。

以上、説明したように、第５実施形態では、カメラ１５１０の撮影画像を用いて、ＣＧ画像を加工し、そのＣＧ画像を光学シースルー型ＨＭＤなどの透過型のスクリーンに表示する。これにより、現実の景色とＣＧ画像の色味が近くなり、より自然な拡張／複合現実を実現することが可能となる。なお、第４実施形態のＣＧ画像の加工方法など、第１実施形態乃至第３実施形態で説明した各種方法は、第５実施形態においても適宜組み合わせて用いることも可能である。

（その他の実施形態）
本開示は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

本開示は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために、以下の請求項を添付する。

１０１：撮影システム、１０２：画像処理装置、１０３：情報処理装置、２０１：通信制御部、２０２：仮想視点画像生成部、２０３：ＣＧ画像生成部、２０４：ＣＧ画像加工部、２０５：合成画像生成部

Claims

１または複数の撮影装置の撮影に基づく１または複数の画像を取得する第１取得手段と、
仮想オブジェクトに関する情報を取得する第２取得手段と、
前記第１取得手段により取得された１または複数の画像と、前記第２取得手段により取得された前記仮想オブジェクトに関する情報に基づいて、前記仮想オブジェクトを含む二次元画像を生成する生成手段と、を有し、
前記生成手段は、前記仮想オブジェクトの色情報を前記１または複数の画像に含まれる実オブジェクトの色情報に基づいて決定することにより前記二次元画像を生成することを特徴とする画像処理装置。
前記二次元画像は、前記複数の撮影装置によって撮影された複数の画像に基づき生成される仮想視点画像であることを特徴とする請求項１に記載の画像処理装置。
前記複数の画像は、前記複数の撮影装置により撮影される撮影画像、前記撮影画像から前景オブジェクトを抽出した部分画像、または、撮影画像から背景オブジェクトの領域を抽出した部分画像のいずれかを含むことを特徴とする請求項１または２に記載の画像処理装置。
前記生成手段は、
前記複数の画像に基づいて仮想視点から観察される画像を生成し、
前記仮想オブジェクトの情報に基づいて前記仮想視点から観察される前記仮想オブジェクトのＣＧ画像を生成し、
前記仮想視点からの画像における前記実オブジェクトの色情報に基づいて前記ＣＧ画像の色情報を決定し、
前記仮想視点からの画像と加工された前記ＣＧ画像とを合成して前記二次元画像を生成することを特徴とする請求項１乃至３のいずれか１項に記載の画像処理装置。
前記二次元画像は、前記１または複数の撮影装置によって撮影された１または複数の画像に基づき生成される拡張現実画像であることを特徴とする請求項１に記載の画像処理装置。
前記二次元画像は、前記１または複数の撮影装置によって撮影された１または複数の画像に基づき生成されるＣＧ画像であることを特徴とする請求項１に記載の画像処理装置。
前記生成手段は、前記画像を用いてカメラの周囲の三次元情報とカメラの位置姿勢を推定し、前記画像と前記カメラの周囲の三次元情報と前記カメラの位置姿勢に基づいて、前記仮想オブジェクトのＣＧ画像の色情報を決定することを特徴とする請求項５または６に記載の画像処理装置。
前記仮想オブジェクトに関する情報は、仮想オブジェクトの３次元形状データ、または、仮想オブジェクトの仮想空間における配置位置を含むことを特徴とする請求項１乃至７のいずれか１項に記載の画像処理装置。
前記生成手段は、前記仮想オブジェクトとの位置関係に基づいて選択した実オブジェクトの色情報に基づいて前記仮想オブジェクトの色情報を決定することを特徴とする請求項１乃至８のいずれか１項に記載の画像処理装置。
前記生成手段は、前記仮想オブジェクトに最も近い、または、前記仮想オブジェクトから所定距離の範囲にある前景オブジェクトの色情報に基づいて前記仮想オブジェクトの色情報を決定することを特徴とする請求項１乃至９のいずれか１項に記載の画像処理装置。
前記生成手段は、前記仮想オブジェクトからの距離に基づいて選択した背景オブジェクトまたは背景オブジェクトの一部の色情報に基づいて、前記仮想オブジェクトの色情報を決定することを特徴とする請求項１乃至１０のいずれか１項に記載の画像処理装置。
前記生成手段は、前記仮想オブジェクトの色情報が表す彩度と明度の少なくとも一方を、前記実オブジェクトの色情報が表わす彩度と明度の少なくとも一方に基づいて決定することを特徴とする請求項１乃至１１のいずれか１項に記載の画像処理装置。
前記生成手段は、前記実オブジェクトの色情報の彩度および明度のそれぞれの平均値と前記仮想オブジェクトの彩度および明度のそれぞれの平均値が一致するまたは近づくように、前記仮想オブジェクトの彩度および明度を変更することを特徴とする請求項１乃至１２のいずれか１項に記載の画像処理装置。
前記生成手段は、前記仮想オブジェクトの色情報の解像度が前記実オブジェクトの色情報の解像度に一致するまたは近づくように、前記仮想オブジェクトの色情報の解像度を決定することを特徴とする請求項１乃至１３のいずれか１項に記載の画像処理装置。
前記生成手段は、前記仮想オブジェクトの色情報の解像度と前記実オブジェクトの色情報の解像度との差が所定値よりも大きい場合に、前記仮想オブジェクトの色情報の解像度を変更することを特徴とする請求項１４に記載の画像処理装置。
前記実オブジェクトの種類を識別する識別手段をさらに有し、
前記生成手段は、所定の種類の実オブジェクトの色情報に基づいて前記仮想オブジェクトの色情報を変更することを特徴とする請求項１乃至１５のいずれか１項に記載の画像処理装置。
前記生成手段は、前記仮想オブジェクトの位置と前記仮想オブジェクトの面の方向とに基づいて前記複数の画像の中から選択された画像の色情報に基づいて、前記仮想オブジェクトの色情報を決定することを特徴とする請求項１乃至４のいずれか１項に記載の画像処理装置。
前記生成手段は、前記複数の画像のうちの、前記仮想オブジェクトの位置と前記仮想オブジェクトの面の方向とに基づいて前記複数の撮影装置の中から選択された撮影装置により撮影された撮影画像の色情報に基づいて、前記仮想オブジェクトの色情報を決定することを特徴とする請求項１７に記載の画像処理装置。
前記生成手段は、前記選択された撮影装置により得られた撮影画像のうちの、前記仮想オブジェクトの位置に基づいて抽出された部分の画像の色情報に基づいて前記仮想オブジェクトの色情報を決定することを特徴とする請求項１８に記載の画像処理装置。
前記仮想オブジェクトは、前記１または複数の撮影装置により撮影されないオブジェクトであることを特徴とする請求項１乃至１９のいずれか１項に記載の画像処理装置。
１または複数の撮影装置の撮影に基づく１または複数の画像を取得する第１取得工程と、
仮想オブジェクトに関する情報を取得する第２取得工程と、
前記第１取得工程により取得された１または複数の画像と、前記第２取得工程により取得された前記仮想オブジェクトに関する情報に基づいて、前記仮想オブジェクトを含む二次元画像を生成する生成工程と、を有し、
前記生成工程では、前記仮想オブジェクトの色情報を前記１または複数の画像に含まれる実オブジェクトの色情報に基づいて決定することにより前記二次元画像を生成することを特徴とする画像処理装置の制御方法。
コンピュータを、請求項１乃至２０のいずれか１項に記載された画像処理装置の各手段として機能させるためのプログラム。