JP2020129276A

JP2020129276A - 画像処理装置、画像処理方法、およびプログラム

Info

Publication number: JP2020129276A
Application number: JP2019021687A
Authority: JP
Inventors: 暢小倉; Toru Kokura
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-02-08
Filing date: 2019-02-08
Publication date: 2020-08-27
Also published as: US20200258196A1

Abstract

【課題】高精度な高解像度化を行うことができる画像処理装置、画像処理方法及びプログラムを提供する。【解決手段】画像処理装置１０６は、複数の撮像装置で撮像された撮像画像を入力画像取得部５０１において取得する。前景背景分離部５０３は、取得された撮像画像のうち、特定のオブジェクトを含む前景領域を分離した前景入力画像を取得する。高解像度化部５０６に前景入力画像を入力することにより、高解像度化部５０６から前景入力画像よりも解像度が高い前景出力画像が出力される。【選択図】図５

Description

本発明は、機械学習を用いる画像処理の技術に関する。

低解像度な画像を高解像度化する技術として、畳み込みニューラルネットワークを利用した手法が知られている（非特許文献１）。この処理は、以下の２つの段階に分かれる。第１の段階（学習段階）では、高解像度な教師画像と、それに対応する低解像度な低解像度画像との組を複数用意し、低解像度画像を教師画像に変換する処理装置の学習が行われる。第２の段階（適用段階）では、学習された処理装置に、学習に用いたものとは別の低解像度な入力画像を入力することで、その入力画像に対応する高解像度な画像が出力される。

ＤｏｎｇＣｈａｏ，ｅｔａｌ． "Ｌｅａｒｎｉｎｇａｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｆｏｒｉｍａｇｅｓｕｐｅｒ−ｒｅｓｏｌｕｔｉｏｎ．" ＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２０１４．

入力画像上には、主題となるオブジェクトのみならず、床、壁、構造物、または主題と別の人物などのような様々な物体が映りうる。つまり、主題となるオブジェクトが同じであっても、入力画像に映り込んだ他の物体の影響により、出力画像中にボケやアーティファクトが発生してしまうという課題があった。

本発明は、ボケやアーティファクトの発生を抑制し、画像の高解像度化を行うことを目的とする。

本発明の一態様に係る画像処理装置は、仮想視点画像を生成するために用いられる画像処理装置であって、複数の撮像装置の撮像により取得される撮像画像を取得する第一取得手段と、前記第一取得手段で取得された撮像画像のうち、特定のオブジェクトを含む第一領域を分離した第一入力画像を取得する第二取得手段と、前記第二取得手段により取得された前記第一入力画像を入力することにより第一出力画像を出力する出力手段と、を有し前記第一出力画像は、前記第一入力画像よりも解像度が高いことを特徴とする。

本発明によれば、ボケやアーティファクトの発生を抑制し、画像の高解像度化を行うことができる。

撮像システムの模式図。画像処理装置のハードウェア構成を示すブロック図。高解像度処理の概要を説明する図。高解像度化の精度が低下することを説明する図。画像処理装置の機能構成を示すブロック図。高解像度化処理の流れを示すフローチャート。統合時にアーティファクトが生じる例を説明する図。画像処理装置の機能構成を示すブロック図。高解像度化処理の流れを示すフローチャート。特異画素の数が多い状況を表す図。高解像度化処理の概要を説明する図。画像処理装置の機能構成を示すブロック図。高解像度化処理の流れを示すフローチャート。高解像度化処理の流れを示すフローチャート。画像処理装置の機能構成を示すブロック図。

以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。

＜＜実施形態１＞＞
＜撮像システムの全体構成＞
実施形態１では、学習に基づく高解像度化を行う画像処理装置の例を説明する。学習段階では、主題となるオブジェクトであるスポーツ選手の顔を撮像することで得られた高解像度な画像に基づいて学習が行われる。そして、適用段階では、低解像度な入力画像を高解像度化する処理が行われる。なお、本実施形態で説明する「低解像度」および「高解像度」は、解像度の相対的な関係の一例を示すものである。このため、所定の解像度（例えば３００ｄｐｉ）が、低解像度の値となる場合もあれば、高解像度の値となる場合もあり得ることに留意されたい。換言すると、高解像度化処理は、第一の解像度の入力画像を、第一の解像度よりも高い解像度である第二の解像度の出力画像に変換する処理と言える。

図１は、本実施形態の撮像システムの一例を示した模式図である。スタジアムには撮像装置１０１が配置されている。撮像装置１０１を用いて選手１０５の顔を含む全身が撮像され、画像１０８が得られる。得られた画像を高解像度化するために用いられる画像を、撮像装置１０２が撮像する。撮像装置１０２は、撮像装置１０１に比べて長い焦点距離のレンズを有しており、画像１０８に比べ画角は狭いものの高解像度でオブジェクト（選手１０５）を撮像した画像１０９が得られる。撮像システムは、画像を高解像度化するための画像処理装置１０６、および、表示装置１０７を含む。なお、撮像装置１０１と同じく低解像度でオブジェクトを撮像する撮像装置１０３、および、撮像装置１０２と同じく高解像度でオブジェクトを撮像する撮像装置１０４が他に複数存在してもよい。また、図１ではスポーツシーンを例にとって説明したが、異なる解像度で物体を撮像する一般的なシーンにも適用可能である。また、主題となるオブジェクトが顔以外である画像にも適用可能である。

＜画像処理装置のハードウェア構成＞
図２は、本実施形態の画像処理装置１０６の構成を示す図である。画像処理装置１０６は、ＣＰＵ２０１と、ＲＡＭ２０２と、ＲＯＭ２０３と、記憶部２０４と、入力インターフェース２０５と、出力インターフェース２０６と、システムバス２０７とを含む。外部メモリ２０８は、入力インターフェース２０５と出力インターフェース２０６とに接続されており、出力装置２０９は、出力インターフェース２０６に接続されている。

ＣＰＵ２０１は、画像処理装置１０６の各構成を統括的に制御するプロセッサである。ＲＡＭ２０２は、ＣＰＵ２０１の主メモリおよびワークエリアとして機能するメモリである。ＲＯＭ２０３は、画像処理装置１０６内の処理に用いられるプログラム等を格納するメモリである。ＣＰＵ２０１は、ＲＡＭ２０２をワークエリアとしてＲＯＭ２０３に格納されたプログラムを実行することで、後述する様々な処理を実行する。記憶部２０４は、画像処理装置１０６での処理に用いる画像データや、処理のためのパラメタなどを記憶する記憶デバイスである。記憶部２０４としては、ＨＤＤ、光ディスクドライブ、またはフラッシュメモリなどを用いることができる。

なお、画像処理装置１０６がＣＰＵ２０１とは異なる専用の１又は複数のハードウェアあるいはＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を有してもよい。そして、ＣＰＵ２０１による処理の少なくとも一部をＧＰＵあるいは専用のハードウェアが行うようにしてもよい。専用のハードウェアの例としては、ＡＳＩＣ（特定用途向け集積回路）、及びＤＳＰ（デジタルシグナルプロセッサ）等がある。

入力インターフェース２０５は、例えばＵＳＢまたはＩＥＥＥ１３９４などのシリアルバスインターフェースである。画像処理装置１０６は、入力インターフェース２０５を介して、外部メモリ２０８（例えば、ハードディスク、メモリカード、ＣＦカード、ＳＤカード、ＵＳＢメモリ）から処理対象の画像データ等を取得することができる。出力インターフェース２０６は、例えばＤＶＩやＨＤＭＩ（登録商標）などの映像出力端子である。画像処理装置１０６は、この出力インターフェース２０６を介して、出力装置２０９（液晶ディスプレイなどの画像表示デバイス）に、画像処理装置１０６で処理した画像データを出力することができる。なお、画像処理装置１０６の構成要素は上記のもの以外のものが存在し得るが、ここでは説明を省略する。

＜高解像度化処理の概要＞
本実施形態では、画像において主題となるオブジェクトを「前景」と呼び、この前景以外のものを「背景」と呼ぶ。例えば前景は、人物の顔を含む領域である。この領域には、顔の近傍の領域が含まれてもよく、例えば人物の上半身の一部が含まれていてもよい。背景は、前景以外のものであり、例えば床、壁、および構造物などが含まれる。また、背景には、主題となるオブジェクトとは別の人物の顔が含まれていてもよい。

図３は、本実施形態における高解像度処理の概要を説明する図である。本実施形態では、画像処理装置１０６は、入力画像を前景部分と背景部分とに分離（分割）する。そして、前景部分の画像と背景部分の画像とを個別に高解像度化する。このように前景部分と背景部分とを個別に高解像度化するために、画像処理装置１０６は、学習段階においても前景部分を高解像度化する変換パラメタと、背景部分を高解像度化する変換パラメタとを、個別に学習する。以下、図３を用いて説明する。

まず、学習段階においては、前景低解像度画像３０９と、前景低解像度画像３０９に対応する高解像度の画像である前景教師画像３１３との組が、前景学習部３１１に入力される。前景学習部３１１は、このような組を入力として学習を行い、前景低解像度画像３０９を前景教師画像３１３に変換する関数の変換パラメタを得る。同様に、背景低解像度画像３１０と、背景低解像度画像３１０に対応する高解像度の画像である背景教師画像３１４との組が、背景学習部３１２に入力される。背景学習部３１２は、このような組を入力として学習を行い、背景低解像度画像３１０を背景教師画像３１４に変換する関数の変換パラメタを得る。なお、前景学習部３１１および背景学習部３１２の詳細は、後述する。

次いで、適用段階においては、画像処理装置１０６は、低解像度な入力画像３０１を受け取り、前景に対応する前景入力画像３０２と背景に対応する背景入力画像３０３とに入力画像を分離する。画像処理装置１０６において、前景を高解像度化するニューラルネットワークである前景高解像度化部３０４に前景入力画像３０２を入力する。また、背景を高解像度化するニューラルネットワークである背景高解像度化部３０５に背景入力画像３０３を入力する。前景高解像度化部３０４では、前景学習部３１１において学習された変換パラメタを用いた変換が行われる。背景高解像度化部３０５では、背景学習部３１２において学習された変換パラメタを用いた変換が行われる。前景高解像度化部３０４は、高解像度化された前景出力画像３０６を出力し、背景高解像度化部３０５は、高解像度化された背景出力画像３０７を出力する。画像処理装置１０６は、前景出力画像３０６と背景出力画像３０７とを統合して、高解像度化された統合画像３０８を得る。

このような処理によれば、主題となるオブジェクト（前景）は同じであるが、映り込む他の物体の影響により教師画像と類似しない入力画像が入力される場合であっても、ボケやアーティファクトの発生を抑制した高解像度の画像を得ることができる。即ち、画像中に解像度が低い箇所が発生したり、自然画像らしくない箇所が発生するなどの画像の破たんが発生したりすることを抑制した高解像度の画像を得ることができる。

図４は、ボケやアーティファクトの発生することを説明する図である。画像４０１乃至画像４０３は、主題となるオブジェクト（前景）は同一人物であるものの、画像ごとに背景が大きく異なる例である。サッカーまたはラグビーといったスポーツを行うスタジアムでは、画像４０１のように芝を背景とした画像が多く取得される。一方、画像４０２のように、看板または文字の描かれた床などのように、芝以外の地面が背景となる画像が取得される場合もある。また、画像４０３のように、他の人物が背景に映る場合もある。非特許文献１に記載の手法では、学習段階で用いた画像に類似していない画像は、適用段階においてボケやアーティファクトが発生する。例えば、画像４０１のように芝を背景とした画像を使って学習した場合、画像４０２または画像４０３を適用段階において入力データとした場合に、学習した画像と背景が類似しない画像が入力画像となり、ボケやアーティファクトが発生するおそれがある。

一方、画像４０４乃至画像４０６は、背景を含む全体の構図は同等の画像であるものの、画像ごとに主題となるオブジェクト（前景）が大きく異なる例である。画像４０４のように撮像方向に応じて前景の形状に差がある場合、画像４０５のように表情が異なる場合、画像４０６のようにヘルメットなどの装備によって輪郭が隠蔽されている場合、といった差異が存在しうる。このような場合、学習段階で用いた画像に前景が類似していない画像が入力画像とすると、高解像度化処理を行った画像中にボケまたはアーティファクトが発生してしまうおそれがある。

このように、画像に応じて、背景に差異が存在する場合もあれば前景に差異が存在する場合もある。本実施形態では、学習段階および適用段階のいずれにおいても、入力画像を、前景領域を示す画像（前景教師画像または前景入力画像）と背景領域を示す画像（背景教師画像または背景入力画像）とに分離する。学習段階では、前景教師画像を用いた学習と、背景教師画像を用いた学習とがそれぞれ行われる。適用段階では、前景教師画像を用いた学習により生成された前景高解像度化部を用いて前景入力画像の高解像度化が行われ、背景教師画像を用いた学習により生成された背景高解像度化部を用いて背景入力画像の高解像度化が行われる。そして、高解像度化された前景出力画像と背景出力画像とを統合することで、高解像度化された統合画像が得られることになる。このような処理によれば、前景に差異が存在する場合および背景に差異が存在する場合のいずれにおいても、ボケやアーティファクトの発生を抑制しつつ高解像度化を実現することができる。

＜画像処理装置の構成および処理の流れ＞
図５は、本実施形態の画像処理装置１０６の機能構成を示すブロック図である。画像処理装置１０６は、入力画像取得部５０１、教師画像取得部５０２、前景背景分離部５０３、低解像度画像生成部５０４、学習部５０５、高解像度化部５０６、および前景背景統合部５０７を備える。図３で示した前景学習部３１１および背景学習部３１２は、学習部５０５に含まれる。また、図３で示した前景高解像度化部３０４および背景高解像度化部３０５は、高解像度化部５０６に含まれる。画像処理装置１０６は、ＲＯＭ２０３に格納されたプログラムをＣＰＵ２０１がＲＡＭ２０２をワークメモリとして実行することで、図５に示す各構成部として機能する。

なお、本実施形態では、学習段階の処理と適用段階の処理とが、同一の画像処理装置１０６で行われる形態を例に挙げて説明するが、これに限られない。画像処理システムが、学習段階の処理を行う第一装置と、適用段階の処理を行う第二装置とを有する形態であってもよい。この場合、第一装置には、教師画像取得部５０２、前景背景分離部５０３、低解像度画像生成部５０４、および学習部５０５に相当する構成が含まれてよい。第二装置には、入力画像取得部５０１、前景背景分離部５０３、高解像度化部５０６、および前景背景統合部５０７に相当する構成が含まれてよい。そして、学習済みの変換パラメタが第一装置から第二装置に提供される構成があればよい。

また、前景学習部３１１は、ニューラルネットワーク構造を有し、学習に基づいて種々のパラメタが調整されることにより、入力画像を高解像度化する処理を行うことができる構成でもよい。すなわち、学習された前景学習部３１１が前景高解像度化部３０４として機能するように構成してもよい。また、背景学習部３１２も同様に、ニューラルネットワーク構造を有し、学習に基づいて種々のパラメタが調整されることにより、入力画像を高解像度化する処理を行うことができる構成でもよい。前景高解像度化部５０７として機能するように構成されてもよい。つまり、高解像度化部５０６は、学習部５０５を学習することにより生成される処理部として機能させてもよい。

図６は、本実施形態の画像処理装置１０６の処理の一例を示すフローチャートである。図６（ａ）は、学習段階における処理を示す。図６（ｂ）は、適用段階における処理を示す。以下、図５のブロック図および図６のフローチャートを用いて画像処理装置１０６の各構成の処理の説明を行う。図６のフローチャートで示される一連の処理は、ＣＰＵ２０１がＲＯＭ２０３に記憶されているプログラムコードをＲＡＭ２０２に展開し実行することにより行われる。あるいはまた、図６におけるステップの一部または全部の機能をＡＳＩＣや電子回路等のハードウェアで実現してもよい。なお、各処理の説明における記号「Ｓ」は、当該フローチャートにおけるステップであることを意味する。

＜学習段階の処理＞
Ｓ６０１において、教師画像取得部５０２は、高解像度で被写体を撮像する撮像装置１０２から、または、記憶部２０４から、画像の画像データを取得する。本実施形態においてＳ６０１で取得される画像は、選手の顔が映っている矩形の画像である。図１の画像１０９のように選手以外の領域が大きい画像が撮像される場合は、教師画像取得部５０２は、選手の顔部分を切り抜いて画像を生成することでＳ６０１における画像を取得してもよい。取得された画像は、前景背景分離部５０３に出力される。

Ｓ６０２において前景背景分離部５０３は、教師画像取得部５０２から出力された画像を前景部分と背景部分とに分離する。即ち、前景背景分離部５０３は、教師画像取得部５０２から出力された画像から、図３に示すように前景教師画像３１３と背景教師画像３１４とを生成する。前景教師画像３１３において、分離前に背景が存在した箇所は、輝度値０の画素、即ち黒画素で埋められる。一方、背景教師画像３１４において、分離前に前景が存在した箇所は、輝度値０の画素、即ち黒画素で埋められる。なお、分離前に前景又は背景が存在した箇所を区別することができれば、輝度値は０でなくてもよい。

前景を背景部分から切り離す処理は、前景背景分離処理と呼ばれる。前景背景分離処理は、前景領域を推定して決定する処理であり、一般的に背景差分法によって行われる。背景差分法とは、同視野の別時刻での観測結果から移動物体と静止物体を切り分ける手法である。例えば、背景画像と、前景を含む入力画像との差分を求め、差分値が所定の閾値以上と判定された画素の集まりである領域を前景領域とする、というものである。前景領域の推定処理において、輝度、色、またはテクスチャなどの画像の特徴量を用いて差分を求めることが一般的である。本実施形態では、前景背景分離部５０３には、同視野の別時刻での観測結果に基づいて得られた背景画像が外部から与えているものとする。前景背景分離部５０３は、この背景画像を用いて、教師画像のうち背景画像と一致する部分を背景、一致しない部分を前景として分離を行う。なお、前景背景分離処理は、この例に限られるものではない。前景背景分離部５０３は、グラフカットによって前景と背景との分離を行ってもよい。また、オプティカルフロー算出手法により求めた動きベクトルが周囲と異なる領域を前景としてもよい。また、デプス推定手法により求めた距離が周囲より小さい領域を前景としてもよい。画像を前景領域と、前景領域以外の領域である背景領域とに分離できる手法であれば、いずれの手法でもよい。前景背景分離部５０３によって生成された前景教師画像および背景教師画像は、低解像度画像生成部５０４に出力される。

Ｓ６０３において、低解像度画像生成部５０４は、前景背景分離部５０３から出力された前景教師画像を低解像度化した前景低解像度画像３０９を生成する。また、低解像度画像生成部５０４は、背景教師画像を低解像度化した背景低解像度画像３１０を生成する。低解像度化には、教師画像における複数の画素の画素値の平均を、低解像度画像におけるその複数に対応する一つの画素の画素値とすることで画像を縮小する面積平均法を用いることができる。なお、ｂｉｃｕｂｉｃ法などの補間に基づいて画像を縮小してもよい。また、高周波成分を低減するフィルタを用いて低解像度化を行ってもよい。また、短い焦点距離で教師画像を撮像する過程を再現する手法に基づいた低解像度化を行ってもよい。

なお、本実施形態では、教師画像を前景教師画像と背景教師画像とに分離し、分離後の前景教師画像および背景教師画像からそれぞれ低解像度画像を生成する例を示しているが、これに限られない。教師画像取得部５０２から低解像度画像生成部５０４に教師画像が出力され、低解像度画像生成部５０４が教師画像を低解像度化した低解像度画像を生成し、生成後の低解像度画像を前景背景分離部５０３に出力してもよい。そして、前景背景分離部５０３は、低解像度画像生成部５０４から出力された低解像度画像を、前景低解像度画像と背景低解像度画像とに分離してもよい。また、低解像度画像は、記憶部２０４から取得してもよいし、低解像度で被写体を撮像する撮像装置から取得してもよい。このように得られた前景低解像度画像、背景低解像度画像、前景教師画像、および背景教師画像は、学習部５０５に出力される。

Ｓ６０４において学習部５０５は、受け取った各画像を学習部５０５が有するニューラルネットワークの入力層に入力し、学習する。第１に、前景用ニューラルネットワーク（前景学習部３１１）に前景低解像度画像が入力され、前景低解像度画像を前景教師画像に変換するように、ニューラルネットワークのパラメタ（前景変換パラメタ）が調整され、前景変換パラメタが得られる。第２に、背景用ニューラルネットワーク（背景学習部３１２）に背景低解像度画像が入力され、背景低解像度画像を背景教師画像に変換するように、ニューラルネットワークのパラメタ（背景変換パラメタ）が調整され、背景変換パラメタが得られる。ここで用いるニューラルネットワークは、非特許文献1に記載されている高解像度化ネットワークである。また、高解像度化ネットワークとして、敵対的生成ネットワーク（ＧＡＮ：Generative Adversarial Network）を用いてもよい。敵対的生成ネットワークでは、一般的にＧｅｎｅｒａｔｏｒとＤｉｓｃｒｉｍｉｎａｔｏｒとの２つのネットワークを用いた処理が行われる。Ｇｅｎｅｒａｔｏｒは、Ｄｉｓｃｒｉｍｉｎａｔｏｒに見破られないようにオリジナルに限りなく近い「偽物」を生成するように学習される。Ｄｉｓｃｒｉｍｉｎａｔｏｒは、入力されたものが、Ｇｅｎｅｒａｔｏｒによって生成された「偽物」かオリジナル（「本物」）かを判定し、Ｇｅｎｅｒａｔｏｒによって生成された「偽物」を見破るように学習される。このような２つのネットワークが、いわば互いに切磋琢磨するように学習することで、Ｇｅｎｅｒａｔｏｒの学習精度が高まる。

学習部５０５によって得られた前景変換パラメタおよび背景変換パラメタは、高解像度化部５０６に出力される。ここまでが学習段階の処理の説明である。このような教師画像の入力と、学習とを繰り返すことで、変換パラメタの最適化が行われる。即ち、図６（ａ）に示す処理が繰り返され、学習が行われる。

＜適用段階の処理＞
次に、適用段階での処理の流れを説明する。なお、学習段階の直後に適用段階の処理が行われなくてもよく、適用段階と学習段階との間に所定の期間が介在してもよい。

Ｓ６５１において入力画像取得部５０１は、低解像度で被写体を撮像する撮像装置１０１から、または、記憶部２０４から、入力画像を取得する。入力画像は選手の顔が映っている矩形の画像であり、教師画像と同様に、必要に応じて選手の顔部分を切り抜いて生成することで取得してもよい。取得された入力画像は、前景背景分離部５０３に出力される。

Ｓ６５２において前景背景分離部５０３は、Ｓ６０２と同様の処理により、入力画像３０１を前景部分と背景部分とに分離する。分離して得られた前景入力画像３０２および背景入力画像３０３は、高解像度化部５０６に出力される。

Ｓ６５３において高解像度化部５０６は、前景背景分離部５０３から前景入力画像と背景入力画像を取得する。また、高解像度化部５０６は、学習部５０５から前景変換パラメタと背景変換パラメタとを取得している。高解像度化部５０６は、図３の前景高解像度化部３０４と背景高解像度化部３０５を備えている。これらは、学習部５０５で用いたものと同じ層構造のニューラルネットワークである。高解像度化部５０６は、前景用ニューラルネットワーク（前景高解像度化部３０４）に、前景変換パラメタを代入し、前景入力画像３０２を入力することで、その出力として、高解像度化された前景出力画像３０６を得る。同様に、高解像度化部５０６は、背景用ニューラルネットワーク（背景高解像度化部３０５）に背景入力画像３０３を入力し、その出力として、高解像度な背景出力画像３０７を得る。前景出力画像３０６および背景出力画像３０７は、前景背景統合部５０７に出力される。

Ｓ６５４において前景背景統合部５０７は、高解像度化部５０６から出力された前景出力画像３０６と背景出力画像３０７とを統合し、１枚の画像に前景部分と背景部分が含まれるようにした統合画像３０８を生成する。統合画像３０８は、以下の式（１）のように、前景出力画像３０６と背景出力画像３０７の画素ごとの和として決定される。
ｓ_x,y,c＝ｆ_x,y,c＋ｂ_x,y,c 式（１）

ここで、ｓ_x,y,cは、統合画像中の座標位置（ｘ，ｙ）における画素の第ｃチャネルの値である。ｆ_x,y,cは、前景出力画像中の座標位置（ｘ，ｙ）における画素の第ｃチャネルの値である。ｂ_x,y,cは、背景出力画像中の座標位置（ｘ，ｙ）における画素の第ｃチャネルの値である。なお、ｓ_x,y,cの値は、ｆ_x,y,c、ｂ_x,y,cの両者の重み付け和や最大値として決定するなど、別の統合方法を用いて決定されてもよい。

なお、用途によっては、前景出力画像３０６と背景出力画像３０７を統合する必要はない。

以上説明したように、本実施形態においては、学習段階において、画像を前景部分の教師画像と背景部分の教師画像とに分離し、前景と背景とが個別に学習される。また、適用段階においても、入力画像を前景部分の入力画像と背景部分の入力画像とに分離し、前景と背景とが個別に高解像度化される。このような処理によれば、映り込む他の物体の影響により教師画像と類似しない入力画像が入力される場合であっても、高解像度化の精度が低下することを抑制することができる。

なお、上記では、画像を前景と背景とに分離する例を示したが、異なる基準での分離を行ってもよい。例えば、風景画像を高解像度化する際に、画像を地面と空とに分離してもよい。文書画像を高解像度化する際に、画像を文字と紙面とに分離してもよい。

また、画像を３つ以上の領域に分離しても構わない。例えば、画像を、人物の領域、地面の領域（芝や舗装路など）、および構造物の領域（ポールや柱など）に分離してもよい。また、人物の領域をさらに頭部・衣服・手足などと細かく分離したりしても構わない。いずれの場合においても、分離された領域ごとに学習と高解像度化を行い、各高解像度化結果を統合すればよい。

また、上記では高解像度な教師画像を取得するために焦点距離の長い撮像装置を利用する例を説明したが、高画素数の撮像装置を利用してもよい。また、画面の手前に映った被写体は、ピントが合っている場合には、奥で映った場合に比べて高解像度で撮像されるため、撮像装置１０１の画面手前に映った被写体の画像を教師画像として用いてもよい。

なお、本実施形態で示した技術は、スポーツに限られず、コンサートなどにも適用することができる。

＜＜実施形態２＞＞
実施形態１で説明した処理を用いて高解像度化を行った場合、統合時に前景と背景との境界付近でアーティファクトが発生する場合がある。

図７は、統合時にアーティファクトが生じる例を説明する図である。画像７０３および画像７０４は、それぞれ前景出力画像７０１および背景出力画像７０２の輪郭付近の同じ領域を拡大した概念図である。統合画像７０５は、画像７０３と画像７０４とを統合した画像である。画像７０３において、画素７０６は、前景出力画像７０１上において輝度の低い画素（即ち、背景と推定された画素）となっている。また、画像７０４において、画素７０８は、背景出力画像７０２上において輝度の低い画素（即ち、前景と推定された画素）となっている。これらの両画像を統合する際、統合画像の輝度値を両画像の輝度値の和とした場合、画素７０６と画素７０８との輝度値の和で表される画素７１０の輝度値は、周囲より際立って小さくなる。このような際立った画素を特異画素と呼ぶ。

同様に、前景出力画像７０１上において輝度の高い画素７０７（即ち、前景と推定された画素）と、背景出力画像７０２上において輝度の高い画素７０９（即ち、背景と推定された画素）とを統合した場合、際立って輝度値の高い特異画素７１１が生成される。ここでは簡単のため輝度チャネルのみの画像について言及したが、ＲＧＢ画像のような多チャネルの画像にも、同様に特異画素が発生しうる。

本実施形態においては、このような特異画素を統合画像中から検出し、特異画素の周辺の画素を用いて特異画素の画素値を補正することにより、アーティファクトに対処する形態を説明する。

図８は、本実施形態の画像処理装置１０６の機能構成を示すブロック図である。実施形態１で説明した図５の構成と同じ構成については同一符号を付し、説明を省略することとする。本実施形態の画像処理装置１０６は、実施形態１の構成に加えて、特異画素補正部８０８をさらに備えている。また、前景背景分離部８０３は、実施形態１で説明した処理に加えて、マスク画像のデータを特異画素補正部８０８に出力するように構成されている。特異画素補正部８０８は、前景背景統合部５０７で統合された統合画像を、マスク画像を用いて補正し、補正後の統合画像を出力する。

図９は、本実施形態におけるフローチャートの一例を示す図である。図６で示した処理と同等の処理については同一の符号を付し、説明を省略する。本実施形態においては、学習段階の処理は実施形態１と同様であるので、説明を省略する。

適用段階におけるＳ６５１の処理は、実施形態１と同様である。その後、Ｓ９５２において前景背景分離部８０３は、実施形態１で説明したように、入力画像取得部５０１から出力された入力画像を、前景部分と背景部分とに分離する処理を行う。このとき、本実施形態において前景背景分離部８０３は、前景部分の輝度値を１、背景部分の輝度値を０とした画像であるマスク画像を生成し、特異画素補正部８０８に出力する。その後、実施形態１と同様に、Ｓ６５３の高解像度化処理を経て、Ｓ６５４にて統合画像が出力される。その後、Ｓ９５５に処理が進む。

Ｓ９５５において特異画素補正部８０８は、図７に示した画素７１０または画素７１１のような特異画素を検出する。そして、検出した特異画素の周囲の画素値を参照して、特異画素の値を補正する。本実施形態では、統合画像上の任意の座標（ｕ、ｖ）について、（Ａ）前景および背景の境界との距離が一定以下で、かつ（Ｂ）周囲との画素値の差異が一定以上である、という２条件が成り立つならば、その座標の画素を特異画素として扱う。即ち、特異画素補正部８０８は、上記の２条件が成り立つ画素を特異画素として検出する。ここで、境界との近さは、前景背景分離部５０３から出力されたマスク画像を参照して求められる。例えば、前景と背景とが切り替わるような画素のうち最近傍の画素との距離として求められる。また、下記の式（２）が成立する場合に上記の条件（Ｂ）が真であるとする。

ここで、θは所与の閾値である。Ｍ［・］は括弧内の統計量を表し、本実施形態では中央値である。Ｎは、隣接集合である。隣接集合Ｎは、座標（ｕ，ｖ）の近傍画素の画素値の集合を表す。例えば、式（２）は、いずれかのチャンネルｃにおいて、統合画像ｓの座標（ｕ、ｖ）のチャンネルｃの値と、その座標（ｕ、ｖ）の近傍画素のｃチャンネルの中央値との差が閾値θを超えているものがある、ということを表している。ここで、隣接集合Ｎは、

と記述できる。ここで、

である。
また、

は、ｐノルムであり、ｐ＝２であるが、ｐ＝１やｐ＝∞としても構わない。また、θ_distは探索範囲の広さを表すパラメタである。

検出された特異画素の値は、下記の式（４）のように、周囲の画素値の中央値として修正する。

なお、Ｍ［・］は、括弧内の最頻値・平均値であるとしても構わない。また、隣接集合Ｎに、入力画像の該当箇所の画素値を含めても構わない。複数の時刻の画像を高解像度化する場合、前後の時刻での高解像度化結果の画素値を隣接集合Ｎに含めても構わない。また、インペインティング手法を用いて特異画素を補正しても構わない。

なお、本実施形態では、画像を前景と背景とに分離し、前景と背景との境界部分の特異画素を補正する形態を例に挙げて説明したが、これに限られない。画像を分離した際に、分離したオブジェクトの境界部分に現れ得る特異画素を補正する形態であればよい。

以上、本実施形態によれば、分離した境界部分に現れる特異画素を検出して補正することにより、境界部分に生じ得るアーティファクトを抑制することができる。

＜＜実施形態３＞＞
実施形態２では、特異画素の画素値を、その周囲の画素の画素値を用いて補正する形態を説明した。しかし、特異画素の数が多い場合には、補正の精度が低下し得る。

図１０は、特異画素の数が多い状況を表す図である。統合画像１００１の境界部分には、特異画素７１０が発生している。拡大画像１００２は、境界部分の拡大した模式図である。拡大画像１００２を参照すると、特異画素７１０が密集して存在していることがわかる。この場合、隣接集合Ｎ内に特異画素の画素値が大量に含まれることになり、実施形態２の方法では、精度よく補正を行うことは難しい。

そこで、本実施形態では、境界部分を含む領域を抽出した画像を別個に高解像度化しておき、それを統合画像に対して重畳することで、特異画素の発生に対処する。本実施形態の概要を、図１１を用いて説明する。

図１１は、本実施形態における処理の概要を示す図である。なお、実施形態１で説明した処理の概要については省略している。本実施形態では、境界部分を含む領域を抽出した画像を用意する。この画像は、境界教師画像１１０７に示すように、前景と背景との境界部分を含み、境界部分から所定の距離の画素を抽出した画像である。学習段階においては、このような境界教師画像１１０７と、対応する境界低解像度画像１１０５との組を境界学習部１１０６に入力して学習が行われる。学習によって得られた変換パラメタは、境界高解像度化部１１０２に出力される。

適用段階においては、画像処理装置１０６は、低解像度な入力画像から、前景と背景との境界付近を抽出した境界入力画像１１０１を生成する。そして、画像処理装置１０６は、境界部分を高解像度化するニューラルネットワーク（境界高解像度化部１１０２）に境界入力画像１１０１を入力し、高解像度化された境界出力画像１１０３を得る。この境界出力画像１１０３を、特異画素を含んだ統合画像１００１に対して重畳し、第２の統合画像１１０４を得る。このような処理により、特異画素の画素値を、特異画素の周囲の情報ではなく、境界出力画像の情報に基づいて補正できるため、よりアーティファクトの少ない画像を得ることができる。

図１２は、本実施形態の機能構成を示すブロック図である。実施形態１と同様の構成について同じ符号を付し、説明を省略する。本実施形態では、画像処理装置１０６は、境界画像取得部１２０１と境界統合部１２０２とをさらに備えている。

図１３は、本実施形態における処理の一例を示すフローチャートである。なお、実施形態１と同様の処理については同じ符号を付し説明を省略する。以下、図１２および図１３を用いて本実施形態の処理を説明する。

図１３（ａ）は学習段階の処理フローチャートを示す図である。学習段階のＳ６０１およびＳ６０２の処理は、実施形態１と同様である。その後、Ｓ１３１１において境界画像取得部１２０１は、前景背景分離部５０３から分離前の画像を取得し、その境界付近を抽出した境界教師画像１１０７を生成する。本実施形態において境界教師画像は、境界画素までの距離が閾値θ_border以下である画素の値は分離前の画像と同じ画素になり、そうでない画素は黒画素となる画像である。なお、後述する入力境界画像の定義も同様である。境界画素とは、背景の画素と隣接している前景の画素、またはその逆である。境界画素は、前景背景分離部５０３で分離された画像を用いて決定される。また、θ_borderは、境界画像の幅の広さを指定するパラメタである。本実施形態では、前景背景分離部５０３で生成されたマスク画像の微分画像の中で、画素値が非零となる画素を境界画素とする。抽出された境界教師画像は低解像度画像生成部５０４に入力される。

Ｓ１３１２において低解像度画像生成部５０４は、実施形態１で説明したＳ６０３の手順に加えて、境界教師画像を低解像度化した境界低解像度画像１１０５を生成する処理を行う。低解像度化は、Ｓ６０３で説明した処理と同等とすることができる。境界低解像度画像および境界教師画像は学習部５０５に出力される。

Ｓ１３１３において学習部５０５は、実施形態１で説明したＳ６０４と同様に、受け取った各画像をニューラルネットワークにより学習させる。Ｓ１３１３においては、Ｓ６０４の手順に加えて、以下の手順が行われる。即ち、境界用ニューラルネットワーク（境界学習部１１０６）に境界低解像度画像を入力し、境界低解像度画像を境界教師画像に変換するように、ニューラルネットワークのパラメタ（境界変換パラメタ）が調整され、境界変換パラメタが得られる。得られた境界変換パラメタは、高解像度化部５０６に出力される。以上が学習段階での処理の説明である。

次に、適用段階の処理を説明する。図１３（ｂ）は適用段階の処理フローチャートを示す図である。Ｓ６５１およびＳ６５２の処理は、実施形態１と同様である。その後、Ｓ１３２１において境界画像取得部１２０１は、前景背景分離部５０３から入力画像を取得し、Ｓ１３１１での方法と同様にその境界付近を抽出した境界入力画像１１０１を得る。得られた境界入力画像１１０１は、高解像度化部５０６に出力される。

Ｓ１３２２において高解像度化部５０６は、実施形態１で説明したＳ６０７と同様に、受け取った画像の高解像度化処理を行う。本実施形態では、Ｓ６０７の手順に加えて、境界画像取得部１２０１から境界入力画像を取得する。また高解像度化部５０６は、学習部５０５から境界変換パラメタを取得する。高解像度化部５０６は、学習部５０５で用いたものと同じ層構造の境界用ニューラルネットワーク（境界高解像度化部１１０２）に、境界変換パラメタを代入し、境界入力画像を入力することで、出力として、高解像度化された境界出力画像１１０３を得る。境界出力画像は境界統合部１２０２に出力される。

Ｓ１３２３において境界統合部１２０２は、高解像度化部５０６から境界出力画像１１０３を取得する。また、前景背景統合部５０７から統合画像１００１を取得する。そして境界統合部１２０２は、取得した両画像を以下のように統合して第２の統合画像１１０４を生成する。

式（５）において、ｓ’_x,y,cは、第２の統合画像中の座標位置（ｘ，ｙ）における画素の第ｃチャネルの値である。ｅ_x,y,cは、境界出力画像中の座標位置（ｘ，ｙ）における画素の第ｃチャネルの値である。また、αは統合時の両画像のブレンド比率を表すパラメタであり、境界画素付近ほど大きく設定する。具体的には、式（６）の通りである。

ここで、ｄ_x、yは、座標（ｘ，ｙ）から見て最も距離が近い境界画素までの距離である。つまり、αの値は境界上では１となり、境界から遠くなるほど０に近づく。

以上説明したように、本実施形態によれば、境界部分に特異画素が多く発生するような場合においても、境界部分に生じ得るアーティファクトを抑制することができる。

＜＜実施形態４＞＞
実施形態１から３においては、ニューラルネットワークへの入力として前景入力画像および背景入力画像を用いたが、代わりに入力画像とマスク画像との組を用いても構わない。本実施形態では、２つの画像をニューラルネットワークに入力する形態を説明する。

図１４は、本実施形態の処理の例を示す図である。図１４（ａ）に示すように、適用段階では、入力画像３０１と、その前景をマスクしたマスク画像である入力マスク画像１４０１との組を前景用ニューラルネットワーク（前景高解像度化部３０４）に入力し、前景出力画像３０６を得る。この場合、前景用ニューラルネットワークは、２入力１出力の構造を取る。学習段階においては、学習部５０５は、教師画像を低解像度化した低解像度画像１４０２と、その前景をマスクしたマスク画像である低解像度マスク画像１４０３との対を低解像度画像生成部５０４から受け取る。そして、その対を前景教師画像３１３に変換する前景変換パラメタを学習する。以上の処理は、背景出力画像を得る工程に関しても同様である。即ち、適用段階では、入力画像と、その背景をマスクしたマスク画像である入力マスク画像との組を背景用ニューラルネットワークに入力し、背景出力画像を得る。学習段階においては、学習部５０５は、教師画像を低解像度化した低解像度画像と、その背景をマスクしたマスク画像である低解像度マスク画像との対を低解像度画像生成部５０４から受け取る。そして、その対を背景教師画像に変換する背景変換パラメタを学習する。

なお、マスク画像を用いる場合、ニューラルネットワークで直接統合画像３０８を得るよう学習しても構わない。この場合、図１４（ｂ）に示すように、学習段階においては低解像度画像１４０２と低解像度マスク画像１４０３との組を教師画像１４０４に変換する変換パラメタを学習する。適用段階においては、学習したパラメタに基づき、入力画像３０１と入力マスク画像１４０１との組をニューラルネットワークに入力し、統合画像３０８を取得する。

なお、実施形態２または３で説明した形態と組み合わせた形態としてもよい。即ち、マスク画像を用いて高解像度化した画像における特異画素を補正する処理をさらに行う形態としてもよい。

＜＜実施形態５＞＞
本実施形態では、実施形態１から４で説明した処理によって高度化された画像を用いた仮想視点画像を生成する形態を説明する。図１５は、本実施形態における画像処理装置１０６の機能構成を示すブロック図である。実施形態１で説明した図５の構成と同じ構成については同一符号を付し、説明を省略することとする。本実施形態の画像処理装置１０６は、実施形態１の構成から前景背景統合部５０７の代わりに、仮想視点画像生成部１５０７を備えている構成である。また、入力画像取得部５０１で取得された入力画像（撮像装置で撮像された撮像画像）は、仮想視点画像生成部１５０７に入力される。なお、ここでは、前景背景統合部５０７を備えていない形態を示しているが、実施形態１で説明した図５の構成と同様に、前景背景統合部を備えていてもよく、その前景背景統合部で統合された画像が仮想視点画像生成部１５０７に入力されてもよい。

仮想視点画像の概要を簡単に説明する。複数の視点で撮像された複数視点の画像を用いて、任意の仮想視点における仮想視点画像を生成する技術がある。例えば、仮想視点画像を用いると、サッカーやバスケットボールのハイライトシーンを様々な角度から視聴閲覧することができるので、通常の画像と比較してユーザに高臨場感を与えることができる。

このような複数視点画像に基づく仮想視点画像の生成は、複数のカメラが撮像した画像をサーバなどの画像処理装置１０６に集約し、画像処理装置１０６の仮想視点画像生成部１５０７にてレンダリングなどの処理を施すことで行われてよい。また、生成された仮想視点画像は、ユーザ端末に伝送され、ユーザ端末において閲覧される。

仮想視点画像を生成する際には、主な被写体（オブジェクト）である前景を背景部分から切り離してモデル化した上でレンダリングする処理が行われる。前景をモデル化する際には、複数のカメラから見たときの前景のシルエットに相当する前景マスクの情報と前景のテクスチャの情報（例えば前景の各画素のＲ、Ｇ、Ｂの色情報）とが必要となる。前景のモデル化は、複数視点の前景マスクおよび前景テクスチャを用いて、撮影シーン内に存在する各オブジェクトの３次元形状推定処理を実行することで行われる。推定手法としては、オブジェクトの輪郭情報を用いるＶｉｓｕａｌ−ｈｕｌｌ手法、または三角測量を用いたＭｕｌｔｉ−ｖｉｅｗｓｔｅｒｅｏ手法など公知の手法を適用すればよい。これにより、オブジェクトの３次元形状を表すデータ（例えば、ポリゴンデータまたはボクセルデータ）が生成される。

そして、仮想視点画像生成部１５０７は、仮想視点を表す仮想カメラのカメラパラメータ等に従って、仮想視点画像を生成する。仮想視点画像は、形状推定処理で得られたオブジェクトの３Ｄ形状データを用いて、仮想カメラから見た画像をコンピュータグラフィックスの技術を用いることで生成することができる。この生成処理には公知の技術を適宜適用すればよい。

上述した実施形態で説明した、前景背景分離処理は、仮想視点画像を生成する過程において行われる処理である。このため、仮想視点画像を生成する処理で得られる前景画像と背景画像とを高解像度化した画像を用いることで、より高精度な仮想視点画像を生成することができる。つまり、仮想視点画像生成部１５０７に、前景背景分離部５０３が含まれてもよい。また、仮想視点画像を生成する過程においては、前景画像または背景画像のうちの一方のみを高解像度化した画像を用いて仮想視点画像を生成する処理が行われてよい。例えば、前景をモデル化する際に、前景画像を高解像度化した後に、上述したモデル化処理が行われてもよい。この場合、高解像度化部５０６において高解像度化された前景画像と背景画像とを結合しなくてもよい。また、高解像度化部５０６では、前景画像のみを高解像度化してもよい。

なお、本実施形態では、画像処理装置１０６が仮想視点画像生成部１５０７を備えている構成を例に挙げているが、画像処理装置１０６とは別の仮想視点画像生成装置で仮想視点画像が生成されてもよい。即ち、図１５に示すような画像処理装置１０６が、各撮像装置ごとに備えられており、各画像処理装置１０６で高解像度化された画像が、仮想視点画像生成装置に出力され、仮想視点画像生成装置で仮想視点画像が生成されてもよい。この場合、前景のみを高解像度化した画像および背景のみを高解像化した画像の少なくとも一方が仮想視点画像生成装置に出力されてもよいし、両者を統合した統合画像が出力されてもよい。

＜＜その他の実施形態＞＞
上述した実施形態においては、画像を高解像度化する形態の例を示したが、一般の画像処理に上述した実施形態で説明した処理を適用してもよい。例えば、学習に基づいて画像認識を行う際や、ノイズ低減・ボケ低減・テクスチャ変換といった画像変換を行う際、画像を前景と背景に分離して学習を行っても構わない。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

５０３前景背景分離部
５０５学習部
５０６高解像度化部
５０７前景背景統合部

Claims

仮想視点画像を生成するために用いられる画像処理装置であって、
複数の撮像装置の撮像により取得される撮像画像を取得する第一取得手段と、
前記第一取得手段で取得された撮像画像のうち、特定のオブジェクトを含む第一領域を分離した第一入力画像を取得する第二取得手段と、
前記第二取得手段により取得された前記第一入力画像を入力することにより第一出力画像を出力する出力手段と、を有し
前記第一出力画像は、前記第一入力画像よりも解像度が高いことを特徴とする画像処理装置。
前記第二取得手段は、前記第一取得手段で取得された撮像画像のうち、前記特定のオブジェクトを含む第一領域以外の第二領域を分離した第二入力画像をさらに取得し、
前記出力手段は、前記第二取得手段により取得された前記第二入力画像を入力することにより第二出力画像を出力し、
前記第二出力画像は、前記第二入力画像よりも解像度が高いことを特徴とする請求項１に記載の画像処理装置。
前記出力手段によって出力された前記第一出力画像と、前記複数の撮像装置の撮像により取得される前記撮像画像とを、仮想視点画像を生成する生成手段に出力する第二出力手段をさらに有することを特徴とする請求項１または２に記載の画像処理装置。
前記出力手段は、特定のオブジェクトを含む第一領域を分離した第一教師画像と、前記第一教師画像に対応する画像であって前記第一教師画像よりも解像度が低い第一画像とを用いた学習によって生成されることを特徴とする請求項１から３のいずれか一項に記載の画像処理装置。
前記出力手段は、特定のオブジェクトを含む第一領域以外の第二領域を分離した第二教師画像と、前記第二教師画像に対応する画像であって前記第二教師画像よりも解像度が低い第二画像とを用いた学習によって生成されることを特徴とする請求項１から４のいずれか一項に記載の画像処理装置。
画像を取得する第一取得手段と、
前記第一取得手段で取得された画像のうち、特定のオブジェクトを含む第一領域を分離した第一教師画像を取得する第二取得手段と、
前記第一教師画像と、前記第一教師画像に対応する画像であって前記第一教師画像よりも解像度が低い第一画像とを用いて学習する学習手段と、
を有することを特徴とする画像処理装置。
前記第一画像は、前記第二取得手段で取得された前記第一教師画像から解像度の低い画像を生成することで取得されることを特徴とする請求項６に記載の画像処理装置。
前記第一画像は、前記第一取得手段で取得された画像から解像度が低い画像を生成し、生成後の画像のうち、前記特定のオブジェクトを含む第一領域を分離することで取得されることを特徴とする請求項６に記載の画像処理装置。
前記第二取得手段は、前記第一領域以外の第二領域を分離した第二教師画像をさらに取得し、
前記学習手段は、前記第二教師画像と、前記第二教師画像に対応する画像であって前記第二教師画像よりも解像度が低い第二画像とを用いてさらに学習することを特徴とする請求項６から８のいずれか一項に記載の画像処理装置。
前記第二画像は、前記第二取得手段で取得された前記第二教師画像から解像度の低い画像を生成することで取得されることを特徴とする請求項９に記載の画像処理装置。
前記第二画像は、前記第一取得手段で取得された画像から解像度が低い画像を生成し、生成後の画像のうち、前記特定のオブジェクトを含む第一領域以外の第二領域を分離することで取得されることを特徴とする請求項９に記載の画像処理装置。
入力画像を取得する第三取得手段と、
前記第三取得手段で取得された入力画像のうち、特定のオブジェクトを含む第三領域を分離した第一入力画像を取得する第四取得手段と、
前記第四取得手段により取得された前記第一入力画像を入力することにより第一出力画像を出力する出力手段と、
をさらに有し、
前記出力手段は、前記学習手段による学習によって生成され、
前記第一出力画像は、前記第一入力画像よりも解像度が高いことを特徴とする請求項６から１１のいずれか一項に記載の画像処理装置。
前記第四取得手段は、前記第三取得手段で取得された入力画像のうち、特定のオブジェクトを含む第一領域以外の第二領域を分離した第二入力画像をさらに取得し、
前記出力手段は、前記第四取得手段により取得された前記第二入力画像を入力することにより第二出力画像を出力し、
前記第二出力画像は、前記第二入力画像よりも解像度が高いことを特徴とする請求項１２に記載の画像処理装置。
前記出力手段によって出力された前記第一出力画像および前記第二出力画像を統合する統合手段をさらに有することを特徴とする請求項１３に記載の画像処理装置。
前記統合手段において統合された統合画像における前記第一領域と前記第二領域との間の境界部分の画素の値を補正する補正手段をさらに有することを特徴とする請求項１４に記載の画像処理装置。
前記補正手段は、前記境界部分の画素の値のうち、周囲の画素の値との差が閾値以上の画素の値を補正することを特徴とする請求項１５に記載の画像処理装置。
前記補正手段は、前記差が閾値以上の画素の値を、前記境界部分の周辺の画素の値を用いて補正することを特徴とする請求項１６に記載の画像処理装置。
前記補正手段は、前記差が閾値以上の画素の値を、前記境界部分の周辺の画素の中央値、平均値、または最頻値のうちのいずれかの値で置き換えることで前記補正を行うことを特徴とする請求項１６または１７に記載の画像処理装置。
前記第二取得手段は、前記第一取得手段で取得された画像のうち、前記第一領域と前記第二領域との間の境界部分を含む領域を抽出した第三教師画像をさらに取得し、
前記学習手段は、前記第三教師画像と、前記第三教師画像に対応する画像であって前記第三教師画像よりも解像度が低い第三画像とを用いてさらに学習し、
前記第四取得手段は、前記第三取得手段で取得された入力画像のうち前記第一領域と前記第二領域との間の境界部分を含む領域を抽出した第三入力画像をさらに取得し、
前記出力手段は、前記第三入力画像を入力することにより第三出力画像をさらに出力し、
前記補正手段は、前記統合手段によって統合された統合画像と前記第三出力画像とをブレンドすることで前記境界部分の画素の値を補正する、
ことを特徴とする請求項１５に記載の画像処理装置。
前記補正手段は、前記第三出力画像のうち、前記境界部分に近いほどブレンド比を高めるように、前記第三出力画像と前記統合画像とをブレンドすることを特徴とする請求項１９に記載の画像処理装置。
前記第二取得手段は、第一取得手段で取得された画像のうち、前記第一領域の位置を示す第一マスク画像と、前記第二領域の位置を示す第二マスク画像とをさらに取得し、
前記学習手段は、前記第一マスク画像と前記第一画像と前記第二マスク画像とを用いて学習し、
前記第四取得手段は、前記第三取得手段で取得された入力画像のうち、前記第一領域の位置を示す第三マスク画像と、前記第二領域の位置を示す第四マスク画像とをさらに取得し、
前記出力手段は、前記第一入力画像と前記第三マスク画像とを入力して前記第一出力画像を出力し、前記第二入力画像と前記第四マスク画像とを入力して前記第二出力画像を出力する、ことを特徴とする請求項１３から２０のいずれか一項に記載の画像処理装置。
前記学習手段と前記出力手段とは、同じ層構造のニューラルネットワークであることを特徴とする請求項１２から２１のいずれか一項に記載の画像処理装置。
仮想視点画像を生成するために用いられる画像処理方法であって、
複数の撮像装置の撮像により取得される撮像画像を取得する第一取得ステップと、
前記第一取得ステップで取得された撮像画像のうち、特定のオブジェクトを含む第一領域を分離した第一入力画像を取得する第二取得ステップと、
前記第二取得ステップにより取得された前記第一入力画像を入力することにより第一出力画像を出力する出力ステップと、を有し
前記第一出力画像は、前記第一入力画像よりも解像度が高いことを特徴とする画像処理方法。
前記出力ステップによって出力された前記第一出力画像と、前記複数の撮像装置の撮像により取得される前記撮像画像とを、仮想視点画像を生成する生成手段に出力する第二出力ステップをさらに有することを特徴とする請求項２３に記載の画像処理方法。
画像を取得する第一取得ステップと、
前記第一取得ステップで取得された画像のうち、特定のオブジェクトを含む第一領域を分離した第一教師画像を取得する第二取得ステップと、
前記第一教師画像と、前記第一教師画像に対応する画像であって前記第一教師画像よりも解像度が低い第一画像とを用いて学習する学習ステップと、
を有することを特徴とする画像処理方法。
コンピュータを、請求項１から２２のいずれか一項に記載の画像処理装置の各手段として機能させるためのプログラム。