JP6959459B2

JP6959459B2 - 学習装置、前景領域推定装置、学習方法、前景領域推定方法、及び、プログラム

Info

Publication number: JP6959459B2
Application number: JP2020558117A
Authority: JP
Inventors: 文香中谷; 森貞　英彦; 篠原　隆之
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2018-11-26
Filing date: 2019-09-17
Publication date: 2021-11-02
Anticipated expiration: 2039-09-17
Also published as: US20210350547A1; WO2020110432A1; WO2020110169A1; JPWO2020110432A1

Description

本発明は、学習装置、前景領域推定装置、学習方法、前景領域推定方法、及び、プログラムに関する。

背景と前景を含む画像から、前景の領域を示す推定データを生成する背景差分やキーイング等の技術が知られている。背景差分は、例えば、背景と前景を示す第１入力画像と、背景を示す第２入力画像の差分を抽出することで、前景や背景の領域を推定する技術である。第１入力画像は、例えば、背景が自然の風景である人物画像等である。キーイングには、例えば、背景が特定の色に統一された画像を撮影し、当該画像のうち特定の色である領域に別の画像を合成するクロマキーと呼ばれる技術がある。

また、前景と背景を含む画像とともに、トライマップ（Ｔｒｉｍａｐ）画像と呼ばれる３個の領域を示すラベル画像を用いることで、前景の領域を推定するイメージマッティングという技術がある。ここで、３個の領域は、前景を示す領域、背景を示す領域、及び、前景を示すか背景示すか不明な領域である。さらに、当該イメージマッティングにディープラーニングを適用することで、前景の領域を示す推定データを生成するディープイメージマッティングという技術がある(下記非特許文献１参照)。当該技術は、学習画像を学習した機械学習モデルによって実現されることで、高精度に前景を示す領域を推定している。

非特許文献1：ニン・シィー外３名、"ディープイメージマッティング”、[online］、平成29年4月11日、アーカイヴ[平成30年10月1日検索］、インターネット<URL：https://arxiv.org/pdf/1703.03872>

背景差分やキーイングを用いる場合において、上記のような第１入力画像に含まれる背景は、時間に応じて変化する。例えば、カメラの設置された位置、方向やズームが変化する場合がある。また、第１入力画像と第２入力画像の撮影時刻が異なることにより、背景の被写体に照射される光の色や強さ、また、当該光で生じる影の長さ等が変化する場合もある。さらに、背景に含まれる被写体が、追加されたり、取り除かれたりする場合もある。その為、人物等が前景に含まれる画像を撮影した直後に背景のみの画像を撮影したとしても、両画像に含まれる背景が示す領域を完全に同一とすることは困難である。このような場合、背景差分やキーイングを用いて、前景の領域を推定することは困難である。

また、キーイングに含まれるクロマキーは、比較的容易に前景の領域の推定できる。しかしながら、クロマキーを用いる場合には、例えば、背景として緑色などの単色の布や、背景色に応じた照明装置等を準備する必要があるため、手間を要する。イメージマッティングを用いる為には、前景の領域を推定する画像ごとにトライマップを手作業で作成する必要がある。特に、動画像に対してイメージマッティングを適用する場合、フレーム毎にトライマップを作成すると膨大な時間を要する。

本発明は、上記問題点に鑑みてなされたものであり、その目的は、背景と前景を示す第１入力画像と、該第１入力画像と異なる態様で背景を示す第２入力画像を取得した場合であっても、高精度にかつ容易に前景の領域を示す推定データを生成する学習装置、前景領域推定装置、学習方法、前景領域推定方法、及び、プログラムを提供することである。

上記課題を解決するために、本発明に係る学習装置は、背景と前景を示す第１入力画像と、該第１入力画像と異なる態様で前記背景を示す第２入力画像と、を組み合わせて取得する入力画像取得部と、前記第１入力画像と前記第２入力画像の入力に応じて前記第１入力画像における前記前景の領域を示す推定データを生成する推定部を含み、該推定部に前記第１入力画像と前記第２入力画像を入力した際に生成された前記推定データと、所与の教師画像と、に基づいて、前記推定部の学習を実行する学習部と、を含む。

この態様では、前記所与の教師画像は、前記第１入力画像における前記前景の領域を示す第１教師画像を含む。

この態様では、前記所与の教師画像は、前記第１入力画像と同じ態様で前記前景を示す第２教師画像と、前記第１入力画像と同じ態様で前記背景を示す第３教師画像と、を含み、前記学習部は、さらに、生成された前記推定データと、前記第２教師画像と、前記第３教師画像と、に基づいて合成画像を生成する合成画像生成部を含み、前記学習部は、さらに、前記合成画像生成部に前記推定データと前記第２教師画像と前記第３教師画像とを入力した際に生成された前記合成画像と、前記第１入力画像と、に基づいて、前記推定部の学習を実行する。

この態様では、前記入力画像取得部は、異なる画像処理が適用された複数の第２入力画像のぞれぞれと、共通の前記第１入力画像とを組み合わせて取得する。

この態様では、前記入力画像取得部は、前記背景をＣＧモデリングすることで形成されたオブジェクトから、レンダリングによって生成された前記第２入力画像を取得する。

本発明に係る前景領域推定装置は、背景と前景を示す第１入力画像と、該第１入力画像と異なる態様で前記背景を示す第２入力画像と、を組み合わせて取得する入力画像取得部と、前記第１入力画像と前記第２入力画像の入力に応じて前記前景の領域を示す推定データを生成する推定部を含み、前記推定部は、該推定部に前記第１入力画像と前記第２入力画像を入力した際に生成された前記推定データと、所与の教師画像と、に基づく学習が実行済の機械学習モデルである。

この態様では、前記前景領域推定装置は、さらに、生成された前記推定データと、前記第１入力画像と、前記第２入力画像と、に基づいて合成画像を生成する合成画像生成部を含み、前記所与の教師画像は、前記第１入力画像と同じ態様で前記前景を示す第２教師画像と、前記第１入力画像と同じ態様で前記背景を示す第３教師画像と、を含み、前記推定部は、前記合成画像生成部に前記推定データと前記第２教師画像と前記第３教師画像とを入力した際に生成された前記合成画像と、前記第１入力画像と、に基づく学習が実行済の機械学習モデルである。

この態様では、前記入力画像取得部は、複数の前記第２入力画像の候補から、前記第１入力画像と対応する前記第２入力画像を選択して取得する。

この態様では、前記候補は、予め定められた画角及び相対的な撮影方向で設置された複数のカメラにより、前記背景がそれぞれ撮影される複数の画像である。

この態様では、前記入力画像取得部は、前記候補から、特徴点マッチングにより前記第１入力画像と対応する前記第２入力画像を選択して取得する。

この態様では、前記候補は、異なる色の照明が照射された前記背景が撮影された複数の画像であって、前記入力画像取得部は、前記候補から、既に生成された前記推定データにより背景を示す位置における画素の色情報に基づいて、前記第１入力画像と対応する前記第２入力画像を選択して取得する。

この態様では、前記候補は、照明が照射されていない状態で撮影された前記背景を示す画像から、前記背景に含まれる各物体の反射特性に基づいて、前記照明が照射された状態にある前記背景を示す画像として生成された画像である。

この態様では、共通の前記第１入力画像と、該共通の第１入力画像と組み合わせて入力された複数の第２入力画像と、に基づいて生成された複数の前記推定データから、１個の推定データを選択する選択部をさらに有する。

この態様では、前記入力画像取得部は、さらに、順次異なる撮影方向で撮影された動画像の一部を構成する静止画である第３入力画像を取得し、前記第２入力画像は、異なる撮影方向で予め撮影された複数の候補となる画像に基づいて、取得された画像であり、前記推定部は、前記第３入力画像と前記第２入力画像の入力に応じて前記前景の領域を示す推定データを生成する。

この態様では、前記第２入力画像は、前記複数の候補となる画像のうち、前記第３入力画像が撮影されたときの撮影方向と最も近い撮影方向から撮影された画像として選択された画像である。

この態様では、前記第２入力画像は、前記複数の候補となる画像の撮影方向と前記第３入力画像が撮影されたときの撮影方向との差に基づいて選択された画像に基づいて生成された画像である。

本発明に係る学習方法は、背景と前景を示す第１入力画像と、該第１入力画像と異なる態様で前記背景を示す第２入力画像と、を組み合わせて取得するステップと、前記第１入力画像と前記第２入力画像の入力に応じて前記前景の領域を示す推定データを生成する推定部に前記第１入力画像と前記第２入力画像を入力した際に生成された前記推定データと、所与の教師画像と、に基づいて、前記推定部の学習を実行するステップと、を含む。

本発明に係る前景領域推定方法は、背景と前景を示す第１入力画像と、該第１入力画像と異なる態様で前記背景を示す第２入力画像と、を組み合わせて取得するステップと、前記第１入力画像と前記第２入力画像を入力した際に生成される推定データと、所与の教師画像と、に基づく学習が実行済の機械学習モデルである推定部に前記第１入力画像と前記第２入力画像を入力することで、当該推定部に前記前景の領域を示す前記推定データを生成させるステップと、を含む。

本発明に係るプログラムは、背景と前景を示す第１入力画像と、該第１入力画像と異なる態様で前記背景を示す第２入力画像と、を組み合わせて取得する手順、前記第１入力画像と前記第２入力画像の入力に応じて前記前景の領域を示す推定データを生成する推定部に前記第１入力画像と前記第２入力画像を入力した際に生成された前記推定データと、所与の教師画像と、に基づいて、前記推定部の学習を実行する手順、をコンピュータに実行させる。

本発明に係るプログラムは、背景と前景を示す第１入力画像と、該第１入力画像と異なる態様で前記背景を示す第２入力画像と、を組み合わせて取得する手順、前記第１入力画像と前記第２入力画像を入力した際に生成される推定データと、所与の教師画像と、に基づく学習が実行済の機械学習モデルである推定部に前記第１入力画像と前記第２入力画像を入力することで、当該推定部に前記前景の領域を示す前記推定データを生成させる手順、をコンピュータに実行させる。

本発明の第１実施形態に係る画像処理装置の構成図である。本発明の第１実施形態に係る学習の一例を示す図である。本発明の第１実施形態に係る画像処理装置で行われる学習処理の流れの一例を示すフロー図である。本発明の第１実施形態に係る画像の生成の一例を示す図である。本発明の第１実施形態に係る画像の生成の他の一例を示す図である。本発明の第１実施形態に係る画像処理装置で行われる画像生成の流れの一例を示すフロー図である。本発明の第１実施形態に係る画像処理装置で実装される機能の一例を示す機能ブロック図である。第２実施形態における第２入力画像の候補を示す一例である。第２実施形態における第１入力画像及び推定データを示す一例である。第２実施形態に係る画像処理装置で実装される機能の一例を示す機能ブロック図である。第３実施形態の適用例を示す図である。第３実施形態の適用例を示す図である。

〔第１実施形態〕
以下、本発明の第１実施形態について図面に基づき詳細に説明する。図１は、本実施形態に係る画像処理装置１０の構成図である。

本実施形態に係る画像処理装置１０は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。図１に示すように、本実施形態に係る画像処理装置１０は、例えば、プロセッサ１２、記憶部１４、操作部１６、表示部１８を含んでいる。

プロセッサ１２は、例えば画像処理装置１０にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである。

記憶部１４は、ＲＯＭやＲＡＭ等の記憶素子やハードディスクドライブなどである。記憶部１４には、プロセッサ１２によって実行されるプログラムなどが記憶される。

操作部１６は、キーボード、マウス、ゲームコンソールのコントローラ等のユーザインタフェースであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ１２に出力する。

表示部１８は、液晶ディスプレイ等の表示デバイスであって、プロセッサ１２の指示に従って各種の画像を表示する。

なお、画像処理装置１０は、ネットワークボードなどの通信インタフェース、ＤＶＤ−ＲＯＭやＢｌｕ−ｒａｙ（登録商標）ディスクなどの光ディスクを読み取る光ディスクドライブ、ＵＳＢ（Universal Serial Bus）ポートなどを含んでいてもよい。

本実施形態に係る画像処理装置１０には学習済の機械学習モデルが実装される。そして当該機械学習モデルを用いて、背景と前景を示す第１入力画像２０４と、該第１入力画像２０４と異なる態様で背景を示す第２入力画像２０６の入力に応じて、第１入力画像２０４における前景の領域を示す推定データ２１２が生成される。

また、本実施形態では、推定部２１０の学習が実行される。推定部２１０が実行する学習について、学習の態様を示す図２を参照しながら説明する。ここで推定部２１０の学習に用いられるデータを学習データと呼ぶこととする。学習データには、第１入力画像２０４、第２入力画像２０６、及び、所与の教師画像が含まれる。

まず、入力画像取得部２０８は、背景と前景を示す第１入力画像２０４と、該第１入力画像２０４と異なる態様で背景を示す第２入力画像２０６と、を組み合わせて取得する。具体的には、例えば、入力画像取得部２０８は、図２に示すような第１入力画像２０４及び第２入力画像２０６を取得する。図２の第１入力画像２０４は、植物等を背景として、人物を前景として撮影された画像である。ここで、異なる態様とは、例えば、両入力画像が異なる画角で撮影される場合や、背景に含まれる物体の配置や形状等が異なる状態で両入力画像が撮影される場合等を含む。

なお、入力画像取得部２０８は、画像の一部をスケールして第１入力画像２０４及び第２入力画像２０６を取得してもよい。具体的には、例えば、取得される背景と前景を示す画像と、該画像と異なる態様で背景を示す画像が４Ｋサイズであってもよい。この場合、入力画像取得部２０８は、当該画像を圧縮して３２０×３２０のサイズの画像を生成し、それぞれ第１入力画像２０４及び第２入力画像２０６として取得してもよい。

また、入力画像取得部２０８は、画像の一部をクロップした上で第１入力画像２０４及び第２入力画像２０６を取得してもよい。具体的には、例えば、背景と前景を示す画像に占める前景の領域が小さい場合、入力画像取得部２０８は、当該前景が示された領域の付近をクロップした画像を第１入力画像２０４として取得してもよい。また、この場合、入力画像取得部２０８は、背景と前景を示す画像のクロップされた領域と対応する領域を、背景を示す画像からクロップして第２入力画像２０６として取得する。

背景と前景の区別は、ユーザの認識によってなされる。すなわち、ユーザは、ユーザが背景及び前景の両方を含む画像として認識する画像を第１入力画像２０４として、入力画像取得部２０８に入力する。また、ユーザは、ユーザが背景のみを含む画像として認識する画像を第２入力画像２０６として入力画像取得部２０８に入力する。従って、前景の人物とは異なる人物が背景に含まれてもよい。

また、推定部２１０の過学習を防止するため、いわゆるオーグメンテーションが実施されることが望ましい。具体的には、入力画像生成部２０２は、第１入力画像２０４と異なる態様で背景を示す１枚の画像に基づいて、異なる画像処理が適用された複数の第２入力画像２０６を生成してもよい。例えば、入力画像生成部２０２は、第１入力画像２０４と異なる態様で背景を示す１枚の画像に対して、それぞれ異なるガンマ値が設定された第２入力画像２０６を生成してもよい。また、例えば、入力画像生成部２０２は、第１入力画像２０４と異なる態様で背景を示す１枚の画像に対して、それぞれ異なるノイズを加える処理が施すことで第２入力画像２０６を生成してもよい。また、例えば、入力画像生成部２０２は、第１入力画像２０４と異なる態様で背景を示す１枚の画像に対して、背景に含まれる被撮影物の一部が変更（例えば、削除、追加、位置の変更等）された第２入力画像２０６を生成してもよい。

この場合、入力画像取得部２０８は、入力画像生成部２０２に生成された複数の第２入力画像２０６を取得する。すなわち、入力画像取得部２０８は、それぞれ異なる画像処理が施された第２入力画像２０６のそれぞれと、共通の第１入力画像２０４とを組み合わせて取得する。

なお、入力画像生成部２０２は、第２入力画像２０６に限られず、第１入力画像２０４、第２教師画像２１８及び第３教師画像２２０に対して、ガンマ値の設定変更やノイズ処理を行ってもよい。

さらに、入力画像生成部２０２は、背景をＣＧモデリングすることで形成されたオブジェクトから、レンダリングによって第２入力画像２０６を生成してもよい。具体的には、例えば、ユーザは、レーザセンサやフォトグラメトリを用いて、事前に背景のＣＧモデリングを行う。そして、入力画像取得部２０８は、ＣＧモデリングで形成されたオブジェクトから、レンダリングによって当該第２入力画像２０６と対応する第１入力画像２０４を生成してもよい。

さらに、入力画像取得部２０８は、入力画像生成部２０２によって生成された第１入力画像２０４と第２入力画像２０６を組み合わせて取得する。第１入力画像２０４及び第２入力画像２０６は、レンダリングによって生成されるため、異なる画角または異なる視点で生成された第１入力画像２０４及び第２入力画像２０６を取得できる。

以上のように、入力画像生成部２０２によって、１組の第１入力画像２０４及び第１入力画像２０４と異なる態様で背景を示す１枚の画像に基づいて、複数の学習データを生成することができる。

推定部２１０は、第１入力画像２０４と第２入力画像２０６の入力に応じて第１入力画像２０４における前景の領域を示す推定データ２１２を生成する。具体的には、例えば、推定部２１０は、入力画像取得部２０８が取得した第１入力画像２０４と第２入力画像２０６が入力される。そして、推定部２１０は、第１入力画像２０４と第２入力画像２０６の入力に応じて第１入力画像２０４における前景の領域を示す推定データ２１２を生成する。推定データ２１２は、例えば、前景を示す座標において１というアルファ値を有し、背景を示す座標において０というアルファ値を有するアルファマップである。なお、アルファ値は、０または１のいずれかの値である場合に限られない。例えば、アルファ値は、０以上１以下の実数であってもよいし、０から２５５の間の整数であってもよい。

推定部２１０は、例えば、畳み込みニューラルネットワーク（ＣＮＮ）により実装された機械学習モデルである。推定部２１０が含むニューラルネットワーク全体は、エンコーダネットワークとデコーダネットワークとからなる。エンコーダネットワークとデコーダネットワークとは、従来技術であるブリッジ構造を有することが望ましい。

画像処理装置１０が前景領域推定装置として機能する場合には、推定部２１０は、該推定部２１０に第１入力画像２０４と第２入力画像２０６を入力した際に生成された推定データ２１２と、所与の教師画像と、に基づく学習が実行済の機械学習モデルである。所与の教師画像は、教師画像取得部７０４（図７参照）によって取得される。所与の教師画像には、第１教師画像２１４、第２教師画像２１８及び第３教師画像２２０が含まれる。

第１教師画像２１４は、対応する第１入力画像２０４の前景を示す領域を表す正解の推定データ２１２（例えばアルファマップ）である。第２教師画像２１８は、第１入力画像２０４に含まれる前景のみを表す正解画像（すなわち、前景の正解画像）である。第３教師画像２２０は、第１入力画像２０４に含まれる背景と、第１入力画像２０４において前景が占める領域に表された背景と、を含む正解画像（すなわち、背景の正解画像）である。

本実施形態に係る学習において、まず、学習データに含まれる第１入力画像２０４及び第２入力画像２０６が、推定部２１０に入力される。すると推定部２１０は、当該第１入力画像２０４及び当該第２入力画像２０６の入力に応じて、推定データ２１２としてアルファマップを生成する。

そして、当該アルファマップと、学習部７０２（図７参照）に入力された第１教師画像２１４との比較結果（以下、第１誤差）が特定される。ここで例えば第１誤差は、０以上１以下の値をとるデータであってもよい。この場合、第１誤差は例えば、生成されたアルファマップと第１教師画像２１４が一致する場合に値として０をとり、一致しない場合に値として１をとるデータであってもよい。

さらに、本実施形態では例えば、アルファマップと、学習部７０２に入力された第１教師画像２１４との誤差に基づいて、例えば誤差逆伝搬法により、推定部２１０のパラメータの値が更新される。また、推定部２１０には、第１入力画像２０４と第２入力画像２０６の複数の組み合わせが入力される。これにより、推定部２１０のパラメータの値の更新が、繰り返し実行される。以上のようにして、画像処理装置１０に実装されている機械学習モデルが学習される。

本実施形態では、さらに、合成画像生成部２１６が生成した合成画像２２２を用いて、学習部７０２の学習が実行されてもよい。すなわち、推定部２１０は、合成画像生成部２１６に推定データ２１２と第２教師画像２１８と第３教師画像２２０とを入力した際に生成された合成画像２２２と、第１入力画像２０４と、に基づく学習が実行済の機械学習モデルであってもよい。

合成画像生成部２１６は、前景及び背景を示す画像と背景を示す画像とのアルファ値に基づく合成処理が実行されることによって、合成画像２２２を生成する。例えば、前景を示す画像に含まれる画素の画素値と、アルファマップの当該画素のアルファ値と、背景を示す画像に含まれる当該画素に対応付けられる画素の画素値と、に基づいて、合成画像２２２に含まれる当該画素に対応付けられる画素の画素値が決定される。

例えば前景を示す画像に含まれる画素の赤色の階調値を表すＲ値がＲ１であり、当該画素のアルファ値がＡであり、背景を示す画像における当該画素と同じ座標値の画素のＲ値がＲ０であることとする。また、アルファ値は、０から２５５の間の整数であるとする。この場合、Ｒ０×（１−Ａ／２５５）＋Ｒ１×Ａ／２５５との数式で算出される値が、合成画像２２２に含まれる当該画素と同じ座標値の画素のＲ値として決定される。合成画像生成部２１６は、全ての画素における赤色、緑色及び青色の階調値に対して同様の処理を行うことによって、合成画像２２２を生成する。

また、合成画像生成部２１６は、前景及び背景を示す画像とアルファマップに基づいて、合成画像２２２を生成してもよい。具体的には、例えば前景を示す画像に含まれる画素の赤色の階調値を表すＲ値がＲ１であり、当該画素のアルファ値がＡであるとする。この場合、合成画像生成部２１６は、Ｒ１×Ａ／２５５との数式で算出される値が、合成画像２２２に含まれる当該画素と同じ座標値の画素のＲ値として決定される。さらに、合成画像生成部２１６は、合成画像２２２に含まれる当該画素のアルファ値がＡであると決定する。合成画像生成部２１６は、全ての画素における赤色、緑色及び青色の階調値に対して同様の処理を行うことによって、合成画像２２２を生成する。すなわち、合成画像生成部２１６は、前景のみが表され、背景が透明な合成画像２２２を生成してもよい。

本実施形態に係る学習において、まず、生成された推定データ２１２と、学習データに含まれる第２教師画像２１８と、第３教師画像２２０と、が、合成画像生成部２１６に入力される。ここで、第２教師画像２１８は、第１入力画像２０４に含まれる前景のみを表す正解画像（すなわち、前景の正解画像）である。第３教師画像２２０は、第１入力画像２０４に含まれる背景と、第１入力画像２０４において前景が占める領域に表された背景と、を含む正解画像（すなわち、背景の正解画像）である。すると、合成画像生成部２１６は、上記の方法で、生成された推定データ２１２と、第２教師画像２１８と、第３教師画像２２０と、に基づいて合成画像２２２を生成する。

そして、当該合成画像２２２と、推定部２１０に入力された教師画像である第１入力画像２０４との比較結果（第２誤差）が特定される。ここで例えば第２誤差が０以上１以下の値をとるデータであってもよい。この場合、第２誤差は例えば、生成された合成画像２２２と第１入力画像２０４が一致する場合に値として０をとり、一致しない場合に値として１をとるデータであってもよい。

さらに、本実施形態では例えば、合成画像２２２と、学習部７０２に入力された第１入力画像２０４との誤差に基づいて、例えば誤差逆伝搬法により、推定部２１０のパラメータの値が更新される。また、推定部２１０には、第１入力画像２０４と第２入力画像２０６の複数の組み合わせが入力される。これにより、推定部２１０のパラメータの値の更新が、繰り返し実行される。以上のようにして、画像処理装置１０に実装されている機械学習モデルが学習されてもよい。

以上のように、学習部７０２が、第１誤差及びまたは第２誤差を繰り返し特定することによって学習が実行される。なお、第１誤差を用いた学習と、第２誤差を用いた学習と、は、一方のみが実行されてもよいし、両方が実行されてもよい。

続いて、推定部２１０が第１誤差及び第２誤差を用いて実行する学習のフローについて、図３を参照しながら説明する。ここでは例えば、５×ｍ（ｍは自然数）個の学習データが取得されることとする。また、５×ｍ個の学習データは、５個ずつのデータ群に分割されていることとする。１個のデータ群は、第１入力画像２０４、第２入力画像２０６、第１教師画像２１４、第２教師画像２１８及び第３教師画像２２０を含む。以下、ｉ（１≦ｉ≦ｍ）番目のデータ群を第ｉデータ群と呼ぶこととする。

まず、入力画像生成部２０２は、第１入力画像２０４と異なる態様で背景を示す１枚の画像が入力され、当該画像に基づいて異なる画像処理が適用されたｍ個の第２入力画像２０６を生成する（Ｓ３０２）。そして、入力画像取得部２０８は、共通の第１入力画像２０４と組み合わせて、生成されたｍ個の第２入力画像２０６を取得する（Ｓ３０４）。また、教師画像取得部７０４は、Ｓ３０２で取得された第１入力画像２０４と対応する第１教師画像２１４、第２教師画像２１８及び第３教師画像２２０を取得する（Ｓ３０６）。

そして、学習部７０２は、変数ｉの値に１を設定する（Ｓ３０８）。そして、学習部７０２は、第ｉデータ群に含まれる３個の学習データを用いて、アルファマップに基づく推定部２１０の学習を実行する（Ｓ３１０）。ここで、３個の学習データは、第１入力画像２０４、第２入力画像２０６及び第１教師画像２１４である。さらに、学習部７０２は、第ｉデータ群に含まれる２個の学習データを用いて、合成画像２２２に基づく推定部２１０の学習を実行する（Ｓ３１２）。ここで、２個の学習データは、第２教師画像２１８及び第３教師画像２２０である。

そして、学習部７０２は、変数ｉの値がｍであるか否かを確認する（Ｓ３１４）。値がｍでない場合は（Ｓ３１４：Ｎ）、学習部７０２は、変数ｉの値を１増加させて（Ｓ３１６）、Ｓ３１０に示す処理に戻る。値がｍである場合は（Ｓ３１４：Ｙ）、本処理例に示す処理を終了する。

本実施形態では例えば、以上のようにして学習が実行された機械学習モデルを用いて、推定データ２１２の生成及び合成画像２２２の生成が行われる。

以下、学習済の機械学習モデルを用いた推定データ２１２の生成及び合成画像２２２の生成について図４を参照しながら説明する。

まず、背景と前景を示す第１入力画像２０４と、該第１入力画像２０４と異なる態様で背景を示す第２入力画像２０６と、が組み合わせて入力画像取得部２０８に入力される。例えば、ユーザが所持したカメラまたは所定の位置に固定されたカメラは、家具等が配置された背景をバックにした人物を撮影する（第１入力画像２０４）。また、当該カメラは、当該人物がカメラの撮影範囲から外れた状態で、同じ位置から家具等が配置された部屋を撮影する（第２入力画像２０６）。なお、第１入力画像２０４及び第２入力画像２０６のサイズは、３２０×３２０である。

次に、入力画像取得部２０８が取得した第１入力画像２０４及び第２入力画像２０６は、学習済の推定部２１０に入力される。そして、推定部２１０は、第１入力画像２０４と第２入力画像２０６の入力に応じて第１入力画像２０４における前景の領域を示す推定データ２１２を生成する。ここで生成される推定データ２１２は、各画素における前景と背景の階調値の割合を示すアルファマップである。アルファマップのサイズは、３２０×３２０である。

そして、合成画像生成部２１６は、アルファマップと第１入力画像２０４に基づいて、合成画像２２２を生成する。ここで生成される合成画像２２２は、第１入力画像２０４に含まれる前景のみが表され、背景が透明な合成画像２２２である。合成画像２２２のサイズは、３２０×３２０である。

なお、入力画像のサイズと、推定部２１０が生成する推定データ２１２のサイズは一致しなくてもよい。当該場合について、図５を参照しながら説明する。

まず、背景と前景を示す画像と、該画像と異なる態様で背景を示す画像と、が組み合わせて入力画像生成部２０２に入力される。例えば、ユーザが所持したカメラまたは所定の位置に固定されたカメラは、家具等が配置された背景をバックにした人物を撮影する（前景及び背景を示す画像）。また、当該カメラは、当該人物がカメラの撮影範囲から外れた状態で、同じ位置から家具等が配置された部屋を撮影する（背景を示す画像）。ここで、前景及び背景を示す画像と、背景を示す画像は、いずれも４Ｋサイズである。

次に、前景及び背景を示す画像と、背景を示す画像は、３２０×３２０のサイズにスケールされる。当該スケール動作は、ユーザによって手作業で実行されてもよいし、入力画像取得部２０８が実行してもよい。そして、入力画像取得部２０８は、両画像をそれぞれ前景が示された領域の付近でクロップした画像を第１入力画像２０４及び第２入力画像２０６として取得する。なお、図５では、クロップ後の第１入力画像２０４及び第２入力画像２０６は、人物の付近が拡大されている。

次に、入力画像取得部２０８が取得した第１入力画像２０４及び第２入力画像２０６は、学習済の推定部２１０に入力される。そして、推定部２１０は、第１入力画像２０４と第２入力画像２０６の入力に応じて各画素における前景と背景の階調値の割合を示す推定データ２１２（例えば、アルファマップ）を生成する。ここで、生成されたアルファマップのサイズは、３２０×３２０である。さらに、推定部２１０は、ユーザまたは入力画像取得部２０８から取得した上記スケール前の画像サイズの情報に基づいて、アルファマップを元の画像データのサイズに復元する。すなわち、推定部２１０は、４Ｋサイズのアルファマップを生成する。さらに、合成画像生成部２１６が上記と同様の処理を行うことにより、合成画像２２２を生成する。

次に、本実施形態に係る画像処理装置１０で行われる、合成画像２２２の生成処理の流れの一例を、図６に例示するフロー図を参照しながら説明する。

まず、入力画像取得部２０８には、いずれも４Ｋサイズである前景及び背景を示す画像と、背景を示す画像と、が入力される（Ｓ６０２）。入力画像取得部２０８は、前景及び背景を示す画像と、背景を示す画像を３２０×３２０のサイズにスケール及び又はクロップする（Ｓ６０４）。なお、ここで入力画像取得部２０８は、元の画像サイズに関する情報を合わせて取得し、推定部２１０に送る。そして、入力画像取得部２０８は、スケールされた画像をクロップし、第１入力画像２０４及び第２入力画像２０６として取得する（Ｓ６０６）。

次に、第１入力画像２０４及び第２入力画像２０６は、推定部２１０に入力される（Ｓ６０８）。推定部２１０は、入力された第１入力画像２０４及び第２入力画像２０６に基づいて、３２０×３２０のサイズである推定データ２１２を生成する（Ｓ６１０）。さらに、推定部２１０は、ユーザまたは入力画像取得部２０８から取得した上記スケール及び又はクロップ前の画像サイズの情報に基づいて、４Ｋサイズの推定データ２１２を生成する（Ｓ６１２）。そして、合成画像生成部２１６は、推定データ２１２と第１入力画像２０４に基づいて、第１入力画像２０４に含まれる前景のみが表され、背景が透明な合成画像２２２を生成する（Ｓ６１４）。なお、Ｓ６１４の後に、合成画像生成部２１６は、Ｓ６１４で生成された合成画像２２２と、任意の背景を含む画像と、に基づいて、Ｓ６１４で生成された合成画像２２２に含まれる前景と、任意の背景と、を含む合成画像２２２をさらに生成してもよい。

続いて、本実施形態に係る画像処理装置１０の機能、及び、画像処理装置１０で実行される処理についてさらに説明する。

図７は、本実施形態に係る画像処理装置１０で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る画像処理装置１０で、図７に示す機能のすべてが実装される必要はなく、また、図７に示す機能以外の機能が実装されていても構わない。

図７に示すように、本実施形態に係る画像処理装置１０には、機能的には例えば、入力画像生成部２０２、入力画像取得部２０８、学習部７０２、教師画像取得部７０４、が含まれる。学習部７０２には、推定部２１０、合成画像生成部２１６、パラメータ保存部７０６が含まれる。以上の要素はプロセッサ１２、及び、記憶部１４を主として実装される。

なお、入力画像生成部２０２、入力画像取得部２０８、推定部２１０、合成画像生成部２１６、パラメータ保存部７０６、教師画像取得部７０４が、学習装置としての役割に相当する。また、入力画像生成部２０２、入力画像取得部２０８、推定部２１０、合成画像生成部２１６、パラメータ保存部７０６が、前景領域推定装置としての役割に相当する。

以上の機能は、コンピュータである画像処理装置１０にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ１２で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して画像処理装置１０に供給されてもよい。

入力画像生成部２０２は、第１入力画像２０４と異なる態様で背景を示す１枚の画像に基づいて、異なる画像処理が適用された複数の第２入力画像２０６を生成する。なお、上述のように、入力画像生成部２０２は、背景をＣＧモデリングすることで形成されたオブジェクトから、レンダリングによって第２入力画像２０６を生成してもよい。

入力画像取得部２０８は、背景と前景を示す第１入力画像２０４と、該第１入力画像２０４と異なる態様で背景を示す第２入力画像２０６と、を組み合わせて取得する。入力画像取得部２０８は、入力画像生成部２０２が生成した第１入力画像２０４及び第２入力画像２０６を取得してもよいし、ユーザによって入力された第１入力画像２０４及び第２入力画像２０６を取得してもよい。

教師画像取得部７０４は、第１教師画像２１４、第２教師画像２１８及び第３教師画像２２０を取得する。なお、推定データ２１２に基づく学習のみが実行される場合には、教師画像取得部７０４は、第１教師画像２１４のみを取得してもよい。また、合成画像２２２に基づく学習のみが実行される場合には、教師画像取得部７０４は、第２教師画像２１８及び第３教師画像２２０のみを取得してもよい。

学習部７０２は、推定部２１０に第１入力画像２０４と第２入力画像２０６を入力した際に生成された推定データ２１２と、所与の教師画像と、に基づいて、推定部２１０の学習を実行する。また、学習部７０２は、さらに、合成画像生成部２１６に推定データ２１２と第２教師画像２１８と第３教師画像２２０とを入力した際に生成された合成画像２２２と、第１入力画像２０４と、に基づいて、推定部２１０の学習を実行してもよい。

推定部２１０は、第１入力画像２０４と第２入力画像２０６の入力に応じて第１入力画像２０４における前景の領域を示す推定データ２１２を生成する。推定部２１０は、ＣＮＮなどの機械学習モデルにより実装されていてもよい。

合成画像生成部２１６は、生成された推定データ２１２と、第２教師画像２１８と、第３教師画像２２０と、に基づいて合成画像２２２を生成する。また、合成画像生成部２１６は、推定データ２１２と第１入力画像２０４に基づいて、合成画像２２２を生成してもよい。

パラメータ保存部７０６は、推定部２１０のパラメータの値を保存する。学習実行時に、パラメータ保存部７０６に保存されるパラメータの値は随時更新される。一方、画像処理装置１０が前景領域推定装置として機能する場合には、推定部２１０が学習済である状態におけるパラメータが、固定の値としてパラメータ保存部７０６に保存される。

以上のようにして、本実施形態によれば、精度の高い推定データ２１２及び合成画像２２２を容易に得ることができる。

本発明は、例えば以下のシーンで実施されて上記効果を奏する。例えば、バスケットボール等のスポーツやエレクトロニックスポーツ等のスポーツの試合中継の際に、動く選手を前景として抽出できる。また、リアルタイムの入場シーンから背景を除外して、選手の紹介ビデオを作成できる。また、歌手やダンサーが歌ったり踊ったりするライブ映像から、歌手やダンサーを抽出できる。また、ユーザが所持するスマートフォンやカメラ等で撮影した画像から、背景を変更した画像を作成できる。また、グリーンバックを用いない低予算の番組を撮影する際に、舞台セットでない場所で演じる役者を前景として抽出し、背景である舞台セットと合成できる。また、本発明は、ＶＲ映像作品を制作する際にも実施できる。ＰＳＣａｍｅｒａ（登録商標）でユーザがゲームしているところを撮影し、ユーザの動作を前景として抽出できる。また、リモートワークするユーザがテレビ会議をする際に、背景である部屋を他の画像と合成できる。

〔第２実施形態〕
続いて、第２実施形態について、図８から図１０を参照しながら説明する。第２実施形態では、画像処理装置１０は、共通の第１入力画像２０４と、該共通の第１入力画像２０４組み合わせて入力された複数の第２入力画像２０６と、に基づいて生成された複数の推定データ２１２から、１個の推定データ２１２を選択する選択部１００４を含む（図１０参照）。なお、図１０では、選択部１００４は入力画像取得部２０８及び学習部７０２の外側に配置される構成を記載しているが、選択部１００４は、入力画像取得部２０８及びまたは学習部７０２の内部に設けられてもよい。

具体的には、コート上の選手に時間によって異なる色のスポットライトが照射される場合について説明する。この場合、選手の服の色やコートに色と、スポットライトの色が近い場合、推定部２１０は、高精度に前景の領域を示す推定データ２１２を生成できないおそれがある。

このような場合、ユーザは、予め、種々の色のスポットライトがそれぞれ照射された背景を撮影した複数の画像を撮影する。入力画像取得部２０８は、当該スポットライトの色のみが異なる複数の第２入力画像２０６を取得する。推定部２１０は、共通の第１入力画像２０４と、該共通の第１入力画像２０４と組み合わせて入力された複数の第２入力画像２０６と、に基づいて複数の推定データ２１２を生成する。そして、選択部１００４は、当該複数の推定データ２１２の中から、最も前景の占める領域の小さい推定データ２１２を選択する。これにより、スポットライトの色の変化によって、前景の占める領域の大きさが変化したとしても、ユーザにとって余計な部分が少ない推定データ２１２を得ることができる。

なお、選択部１００４は、複数の推定データ２１２の中から、最も前景の占める領域の大きい推定データ２１２を選択してもよい。選択部１００４が推定データ２１２を選択する際の基準は、ユーザの目的に応じて適宜設定される。

また、画像処理装置１０が前景領域推定装置として機能する場合において、入力画像取得部２０８は、複数の第２入力画像２０６の候補から、第１入力画像２０４と対応する第２入力画像２０６を選択して取得してもよい。

候補は、例えば、予め定められた画角及び相対的な撮影方向で設置された複数のカメラにより、背景がそれぞれ撮影される複数の画像である。具体的には、ユーザは、予め、コートの周囲を取り囲むように設置された複数のカメラで背景を撮影する。入力画像取得部２０８は、当該複数の画像の中から、第１入力画像２０４に含まれる背景と最も近い画角で撮影された画像を第２入力画像２０６として取得する。従って、第１入力画像２０４に含まれる背景と最も近い背景を含む第２入力画像２０６を用いることにより、高精度に推定データ２１２を生成することができる。

また、入力画像取得部２０８は、候補から、特徴点マッチングにより第１入力画像２０４と対応する第２入力画像２０６を選択して取得してもよい。具体的には、上記例では、入力画像取得部２０８は、コートの周囲を取り囲むように設置された複数のカメラで撮影された各画像と、第１入力画像２０４と、について特徴点マッチングを行う。そして、入力画像取得部２０８は、特徴点マッチングの結果、第１入力画像２０４に含まれる背景と最も近い画角で撮影された画像を第２入力画像２０６として取得してもよい。

また、候補は、異なる色の照明が照射された背景が撮影された複数の画像であってもよい。そして、入力画像取得部２０８は、候補から、既に生成された推定データ２１２により背景を示す位置における画素の色情報に基づいて、第１入力画像２０４と対応する第２入力画像２０６を選択して取得してもよい。

具体的には、上記のように、コート上の選手に時間によって異なる色のスポットライトが照射される場合について説明する。ユーザは、予め、種々の色のスポットライトがそれぞれ照射された背景を撮影した複数の画像を撮影する。例えば、各シーンを想定して、特定の位置にスポットライトが照射された背景を撮影する。ここで、ユーザは、シーン毎（例えばシーン１からｎ）に複数の色（例えば、赤、緑、青等）のスポットライトが照射された画像（以下、Ｒ１画像等と記載する）を撮影する。図８は、シーン１からシーンｎに至るシーン毎に、赤、緑及び青色のスポットライトが照射された背景を示す画像群の一例である。当該シーン毎に種々の色のスポットライトが照射された背景画像は、第２入力画像２０６の候補である。

続いて、入力画像取得部２０８は、第１入力画像２０４を取得する。ここで、例えば、第１入力画像２０４は、特定の選手にスポットライトが照射された状態で、試合が撮影された動画像における１シーンであるとする。図９は、当該動画像の特定のフレームの一例である。前景領域推定装置に動画像が入力される場合、入力画像取得部２０８は当該動画像に含まれる各フレームを順に第１入力画像２０４として取得する。

入力画像取得部２０８は、前フレームの第１入力画像２０４と組み合わせて、当該前フレームの画像と対応する第２入力画像２０６を選択して取得する。例えば、前フレームにおいてスポットライトが照射されている位置及び当該スポットライトの色に基づいて、入力画像取得部２０８は、複数の候補から対応する第２入力画像２０６を取得する。ここでは、例えば、入力画像取得部２０８は、シーン１の赤色のスポットライトが照射された第２入力画像２０６（Ｒ１画像）を取得したとする。そして、推定部２１０は、第１入力画像２０４と第２入力画像２０６の入力に応じて、図９の前フレームの推定データ２１２を生成する。

次のフレーム（現フレーム）において、入力画像取得部２０８は、現フレームの静止画像を第１入力画像２０４として取得するとともに、候補から第２入力画像２０６を選択して取得する。ここで、入力画像取得部２０８は、前フレームで生成された推定データ２１２が背景であることを表す領域の画素データに基づいて、候補から第２入力画像２０６を選択する。

具体的には、前フレームにおいて第１入力画像２０４として取得されたＲ１画像はシーン１に属する。また、シーン１に属する候補（Ｒ１画像、Ｇ１画像からＢ１画像に至る各画像）は、推定データ２１２が背景であることを表す領域において、画素データが同一である。そこで、入力画像取得部２０８は、シーン１に属する候補（Ｒ１画像、Ｇ１画像からＢ１画像に至る各画像）から、第２入力画像２０６を選択して取得する。例えば、前フレームから現フレームにかけてスポットライトに色が青に変化したとすると、入力画像取得部２０８は、第２入力画像２０６としてＢ１画像を取得する。

現フレームと前フレームの第１入力画像２０４は、撮影される時刻が異なるため、スポットライトの色や照射される位置が異なる。しかしながら、１フレームの間における選手の位置の変化は小さいため、スポットライトの照射される位置の変化は小さい可能性が高い。一方、色が大きく変化する可能性は高い。従って、同じ位置にスポットライトが照射されている第２入力画像２０６の候補（シーン１に属する各図）から、第２入力画像２０６を選択することで、正確な推定データ２１２を得ることができる。

また、上記において、入力画像取得部２０８は、現フレームにおける第２入力画像２０６を選択する際に、前フレームで選択されたシーンの次のシーンに属する候補から第２入力画像２０６を選択してもよい。第２入力画像２０６の後方である各シーンの画像を、試合中に照射されるスポットライトの位置を想定した画像とすることにより、正確な推定データ２１２を得ることができる。

また、候補は、照明が照射されていない状態で撮影された背景を示す画像から、背景に含まれる各物体の反射特性に基づいて、照明が照射された状態にある背景を示す画像として生成された画像であってもよい。

具体的には、例えば、まず、ユーザは、背景を撮影した画像から背景に写った各被写体の反射特性を取得する。ここで、ユーザは、スペキュラなどの映り込みがないような状態で背景画像を撮影する。第１入力画像２０４が動画像である場合、入力画像生成部２０２は、当該動画像における照明の動きを推定（あるいは事前に取得）する。また、入力画像生成部２０２は、当該照明の動きと、反射特性に基づいて、ライティングをシミュレーションすることで、各フレームの第２入力画像２０６を作成する。そして、入力画像取得部２０８は、照明が照射された状態にある背景を示す画像として生成された当該画像を第２入力画像２０６として取得する。これにより、様々な態様で照明が照射された第２入力画像２０６を取得できる。

〔第３実施形態〕
続いて、第３実施形態について、図１１及び図１２を参照しながら説明する。図１１及び図１２は、第３実施形態の適用例を示す図である。具体的には、図１１は、撮影装置１１０２と、前景領域推定装置１１０３と、情報処理装置１１０４と、サーバ１１０８と、ユーザ端末１１１０と、を含む。情報処理装置１１０４と、サーバ１１０８と、ユーザ端末１１１０と、はネットワーク１１０６によって接続される。ネットワーク１１０６は、例えばインターネットである。

撮影装置１１０２は、ビデオカメラ等の動画像を撮影する装置である。撮影装置１１０２は、例えばスタジオに配置され、テーブルや壁を背景とし人物を前景として含む動画像を撮影する。撮影装置１１０２は、人物がスタジオの中で動く場合に、撮影方向を人物の方向に変えながら動画像を撮影する。また、図１２に示すように、撮影装置１１０２は、複数であってもよい。この場合、撮影装置１１０２は、第１ビデオカメラと第２ビデオカメラを含み、複数の方向から動画像を撮影する。

前景領域推定装置１１０３は、第１及び第２実施形態と同様に、背景と前景を含む画像から、前景の領域を示す推定データを生成する。ここで、第３実施形態では、入力画像取得部２０８は、さらに、順次異なる撮影方向で撮影された動画像の一部を構成する静止画である第３入力画像を取得する。当該第３入力画像は、例えば、撮影装置１１０２によって撮影された動画像を構成する静止画像である。

第３実施形態では、第２入力画像２０６は、異なる撮影方向で予め撮影された複数の候補となる画像に基づいて、取得された画像である。具体的には、複数の候補となる画像は、第３入力画像が撮影される際に想定される撮影位置から種々の撮影方向で撮影された複数の画像である。第２入力画像２０６は、複数の候補となる画像のうち、第３入力画像が撮影されたときの撮影方向と最も近い撮影方向から撮影された画像として選択された画像である。例えば、第３入力画像が第１ビデオカメラの位置から椅子とテーブルが配置された方向で撮影された画像である場合、複数の候補となる画像から、第１ビデオカメラの位置から椅子とテーブルの方向に最も近い方向に撮影した画像が第２入力画像２０６として選択される。当該第２入力画像２０６の選択は、第２実施形態と同様、画像処理装置１０に含まれる選択部１００４によって行われてもよい。

また、第２入力画像２０６は、複数の候補となる画像の撮影方向と第３入力画像が撮影されたときの撮影方向との差に基づいて選択された画像に基づいて生成された画像であってもよい。例えば、候補となる画像に、第３入力画像が撮影されたときの撮影方向と左方向と右方向に５度異なる撮影方向から撮影された画像が含まれる場合、当該２個の候補画像が選択される。当該２個の候補画像に基づいて、その中間の方向から撮影された画像として生成された画像を第２入力画像２０６としてもよい。

そして、推定部２１０は、第３入力画像と第２入力画像２０６の入力に応じて前景の領域を示す推定データ２１２を生成する。第３実施形態では、第１入力画像２０４の代わりに第３入力画像が入力されるが、その他の点は第１及び第２実施形態と同様である。また、第１及び第２実施形態と同様、前景領域推定装置１１０３は、推定データ２１２に基づいて、合成画像２２２を生成する。本実施形態では、撮影装置１１０２が第３入力画像を毎フレーム撮影する。そのため、前景領域推定装置１１０３は、合成画像２２２を毎フレーム生成する。これにより、合成画像２２２によって構成される合成動画が生成される。

情報処理装置１１０４及びサーバ１１０８は、例えばパーソナルコンピュータ等の演算装置である。情報処理装置１１０４は、通信機能を有し、サーバ１１０８やユーザ端末１１１０との間でデータ通信を行う。ユーザ端末１１１０は、例えばパーソナルコンピュータや、ゲーム機である。ユーザ端末１１１０は、サーバ１１０８や情報処理装置１１０４と通信を行い、受信したデータを表示する。情報処理装置１１０４がサーバ１１０８を介して、または、直接ユーザ端末１１１０に合成動画を配信することにより、ユーザは合成動画を閲覧できる。

なお、図１１では、前景領域推定装置１１０３が撮影装置１１０２と情報処理装置１１０４の間に配置される構成を記載しているが、前景領域推定装置１１０３がユーザ端末１１１０に含まれる構成であってもよいし、前景領域推定装置１１０３がユーザ端末１１１０と接続される構成であってもよい。この場合、前景領域推定装置１１０３に含まれる入力画像取得部２０８は、撮影装置１１０２から、情報処理装置１１０４及びネットワーク１１０６を介して、上記第３入力画像を取得する。本構成によれば、ユーザは、ユーザが所有するユーザ端末１１１０または前景領域推定装置１１０３を用いて、合成動画を生成することができる。また、ユーザは独自に作成した合成画像をサーバ１１０８にアップロードし、他のユーザと共有することができる。

なお、本発明は上述の実施形態に限定されるものではない。また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

Claims

背景と前景を示す第１入力画像と、該第１入力画像と異なる態様で前記背景を示す第２入力画像と、を組み合わせて取得する入力画像取得部と、
前記第１入力画像と前記第２入力画像の入力に応じて前記第１入力画像における前記前景の領域を示す推定データを生成する推定部を含み、該推定部に前記第１入力画像と前記第２入力画像を入力した際に生成された前記推定データと、所与の教師画像と、に基づいて、前記推定部の学習を実行する学習部と、
を含むことを特徴とする学習装置。
前記所与の教師画像は、前記第１入力画像における前記前景の領域を示す第１教師画像を含むことを特徴とする請求項１に記載の学習装置。
前記所与の教師画像は、前記第１入力画像と同じ態様で前記前景を示す第２教師画像と、前記第１入力画像と同じ態様で前記背景を示す第３教師画像と、を含み、
前記学習部は、さらに、生成された前記推定データと、前記第２教師画像と、前記第３教師画像と、に基づいて合成画像を生成する合成画像生成部を含み、
前記学習部は、さらに、前記合成画像生成部に前記推定データと前記第２教師画像と前記第３教師画像とを入力した際に生成された前記合成画像と、前記第１入力画像と、に基づいて、前記推定部の学習を実行する、
ことを特徴とする請求項２に記載の学習装置。
前記入力画像取得部は、異なる画像処理が適用された複数の第２入力画像のぞれぞれと、共通の前記第１入力画像とを組み合わせて取得する、
ことを特徴とする請求項１に記載の学習装置。
前記入力画像取得部は、前記背景をＣＧモデリングすることで形成されたオブジェクトから、レンダリングによって生成された前記第２入力画像を取得することを特徴とする請求項１に記載の学習装置。
背景と前景を示す第１入力画像と、該第１入力画像と異なる態様で前記背景を示す第２入力画像と、を組み合わせて取得する入力画像取得部と、
前記第１入力画像と前記第２入力画像の入力に応じて前記前景の領域を示す推定データを生成する推定部を含み、
前記推定部は、該推定部に前記第１入力画像と前記第２入力画像を入力した際に生成された前記推定データと、所与の教師画像と、に基づく学習が実行済の機械学習モデルである、
ことを特徴とする前景領域推定装置。
前記所与の教師画像は、前記第１入力画像における前記前景の領域を示す第１教師画像を含むことを特徴とする請求項６に記載の前景領域推定装置。
前記前景領域推定装置は、さらに、生成された前記推定データと、前記第１入力画像と、前記第２入力画像と、に基づいて合成画像を生成する合成画像生成部を含み、
前記所与の教師画像は、前記第１入力画像と同じ態様で前記前景を示す第２教師画像と、前記第１入力画像と同じ態様で前記背景を示す第３教師画像と、を含み、
前記推定部は、前記合成画像生成部に前記推定データと前記第２教師画像と前記第３教師画像とを入力した際に生成された前記合成画像と、前記第１入力画像と、に基づく学習が実行済の機械学習モデルである、
ことを特徴とする請求項７に記載の前景領域推定装置。
前記入力画像取得部は、複数の前記第２入力画像の候補から、前記第１入力画像と対応する前記第２入力画像を選択して取得することを特徴とする請求項８に記載の前景領域推定装置。
前記候補は、予め定められた画角及び相対的な撮影方向で設置された複数のカメラにより、前記背景がそれぞれ撮影される複数の画像であることを特徴とする請求項９に記載の前景領域推定装置。
前記入力画像取得部は、前記候補から、特徴点マッチングにより前記第１入力画像と対応する前記第２入力画像を選択して取得することを特徴とする請求項９に記載の前景領域推定装置。
前記候補は、異なる色の照明が照射された前記背景が撮影された複数の画像であって、
前記入力画像取得部は、前記候補から、既に生成された前記推定データにより背景を示す位置における画素の色情報に基づいて、前記第１入力画像と対応する前記第２入力画像を選択して取得する、
ことを特徴とする請求項９に記載の前景領域推定装置。
前記候補は、照明が照射されていない状態で撮影された前記背景を示す画像から、前記背景に含まれる各物体の反射特性に基づいて、前記照明が照射された状態にある前記背景を示す画像として生成された画像である、ことを特徴とする請求項９に記載の前景領域推定装置。
共通の前記第１入力画像と、該共通の第１入力画像と組み合わせて入力された複数の第２入力画像と、に基づいて生成された複数の前記推定データから、１個の推定データを選択する選択部をさらに有する、ことを特徴とする請求項６に記載の前景領域推定装置。
背景と前景を示す第１入力画像と、該第１入力画像と異なる態様で前記背景を示す第２入力画像と、を組み合わせて取得するステップと、
前記第１入力画像と前記第２入力画像の入力に応じて前記前景の領域を示す推定データを生成する推定部に前記第１入力画像と前記第２入力画像を入力した際に生成された前記推定データと、所与の教師画像と、に基づいて、前記推定部の学習を実行するステップと、
を含むことを特徴とする学習方法。
背景と前景を示す第１入力画像と、該第１入力画像と異なる態様で前記背景を示す第２入力画像と、を組み合わせて取得するステップと、
前記第１入力画像と前記第２入力画像を入力した際に生成される推定データと、所与の教師画像と、に基づく学習が実行済の機械学習モデルである推定部に前記第１入力画像と前記第２入力画像を入力することで、当該推定部に前記前景の領域を示す前記推定データを生成させるステップと、
を含むことを特徴とする前景領域推定方法。
背景と前景を示す第１入力画像と、該第１入力画像と異なる態様で前記背景を示す第２入力画像と、を組み合わせて取得する手順、
前記第１入力画像と前記第２入力画像の入力に応じて前記前景の領域を示す推定データを生成する推定部に前記第１入力画像と前記第２入力画像を入力した際に生成された前記推定データと、所与の教師画像と、に基づいて、前記推定部の学習を実行する手順、
をコンピュータに実行させることを特徴とするプログラム。
背景と前景を示す第１入力画像と、該第１入力画像と異なる態様で前記背景を示す第２入力画像と、を組み合わせて取得する手順、
前記第１入力画像と前記第２入力画像を入力した際に生成される推定データと、所与の教師画像と、に基づく学習が実行済の機械学習モデルである推定部に前記第１入力画像と前記第２入力画像を入力することで、当該推定部に前記前景の領域を示す前記推定データを生成させる手順、
をコンピュータに実行させることを特徴とするプログラム。
前記入力画像取得部は、さらに、順次異なる撮影方向で撮影された動画像の一部を構成する静止画である第３入力画像を取得し、
前記第２入力画像は、異なる撮影方向で予め撮影された複数の候補となる画像に基づいて、取得された画像であり、
前記推定部は、前記第３入力画像と前記第２入力画像の入力に応じて前記前景の領域を示す推定データを生成する、
ことを特徴とする請求項６に記載の前景領域推定装置。
前記第２入力画像は、前記複数の候補となる画像のうち、前記第３入力画像が撮影されたときの撮影方向と最も近い撮影方向から撮影された画像として選択された画像である、ことを特徴とする請求項１９に記載の前景領域推定装置。
前記第２入力画像は、前記複数の候補となる画像の撮影方向と前記第３入力画像が撮影されたときの撮影方向との差に基づいて選択された画像に基づいて生成された画像である、ことを特徴とする請求項１９に記載の前景領域推定装置。