JP2020129276A - 画像処理装置、画像処理方法、およびプログラム - Google Patents
画像処理装置、画像処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2020129276A JP2020129276A JP2019021687A JP2019021687A JP2020129276A JP 2020129276 A JP2020129276 A JP 2020129276A JP 2019021687 A JP2019021687 A JP 2019021687A JP 2019021687 A JP2019021687 A JP 2019021687A JP 2020129276 A JP2020129276 A JP 2020129276A
- Authority
- JP
- Japan
- Prior art keywords
- image
- output
- foreground
- unit
- teacher
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012545 processing Methods 0.000 title claims abstract description 132
- 238000003672 processing method Methods 0.000 title claims abstract 6
- 238000000034 method Methods 0.000 claims description 66
- 238000013528 artificial neural network Methods 0.000 claims description 26
- 238000003384 imaging method Methods 0.000 claims description 24
- 230000010354 integration Effects 0.000 claims description 22
- 238000012937 correction Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 11
- 239000000203 mixture Substances 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims 2
- 238000006243 chemical reaction Methods 0.000 abstract description 31
- 238000000926 separation method Methods 0.000 abstract description 29
- 238000010586 diagram Methods 0.000 description 25
- KNMAVSAGTYIFJF-UHFFFAOYSA-N 1-[2-[(2-hydroxy-3-phenoxypropyl)amino]ethylamino]-3-phenoxypropan-2-ol;dihydrochloride Chemical compound Cl.Cl.C=1C=CC=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC=C1 KNMAVSAGTYIFJF-UHFFFAOYSA-N 0.000 description 5
- 230000000873 masking effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000011410 subtraction method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4053—Super resolution, i.e. output image resolution higher than sensor resolution
- G06T3/4076—Super resolution, i.e. output image resolution higher than sensor resolution by iteratively correcting the provisional high resolution image using the original low-resolution image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4053—Super resolution, i.e. output image resolution higher than sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20004—Adaptive image processing
- G06T2207/20012—Locally adaptive
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
【課題】高精度な高解像度化を行うことができる画像処理装置、画像処理方法及びプログラムを提供する。【解決手段】画像処理装置106は、複数の撮像装置で撮像された撮像画像を入力画像取得部501において取得する。前景背景分離部503は、取得された撮像画像のうち、特定のオブジェクトを含む前景領域を分離した前景入力画像を取得する。高解像度化部506に前景入力画像を入力することにより、高解像度化部506から前景入力画像よりも解像度が高い前景出力画像が出力される。【選択図】図5
Description
本発明は、機械学習を用いる画像処理の技術に関する。
低解像度な画像を高解像度化する技術として、畳み込みニューラルネットワークを利用した手法が知られている(非特許文献1)。この処理は、以下の2つの段階に分かれる。第1の段階(学習段階)では、高解像度な教師画像と、それに対応する低解像度な低解像度画像との組を複数用意し、低解像度画像を教師画像に変換する処理装置の学習が行われる。第2の段階(適用段階)では、学習された処理装置に、学習に用いたものとは別の低解像度な入力画像を入力することで、その入力画像に対応する高解像度な画像が出力される。
Dong Chao, et al. "Learning a deep convolutional network for image super−resolution." European Conference on Computer Vision, 2014.
入力画像上には、主題となるオブジェクトのみならず、床、壁、構造物、または主題と別の人物などのような様々な物体が映りうる。つまり、主題となるオブジェクトが同じであっても、入力画像に映り込んだ他の物体の影響により、出力画像中にボケやアーティファクトが発生してしまうという課題があった。
本発明は、ボケやアーティファクトの発生を抑制し、画像の高解像度化を行うことを目的とする。
本発明の一態様に係る画像処理装置は、仮想視点画像を生成するために用いられる画像処理装置であって、複数の撮像装置の撮像により取得される撮像画像を取得する第一取得手段と、前記第一取得手段で取得された撮像画像のうち、特定のオブジェクトを含む第一領域を分離した第一入力画像を取得する第二取得手段と、前記第二取得手段により取得された前記第一入力画像を入力することにより第一出力画像を出力する出力手段と、を有し前記第一出力画像は、前記第一入力画像よりも解像度が高いことを特徴とする。
本発明によれば、ボケやアーティファクトの発生を抑制し、画像の高解像度化を行うことができる。
以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。
<<実施形態1>>
<撮像システムの全体構成>
実施形態1では、学習に基づく高解像度化を行う画像処理装置の例を説明する。学習段階では、主題となるオブジェクトであるスポーツ選手の顔を撮像することで得られた高解像度な画像に基づいて学習が行われる。そして、適用段階では、低解像度な入力画像を高解像度化する処理が行われる。なお、本実施形態で説明する「低解像度」および「高解像度」は、解像度の相対的な関係の一例を示すものである。このため、所定の解像度(例えば300dpi)が、低解像度の値となる場合もあれば、高解像度の値となる場合もあり得ることに留意されたい。換言すると、高解像度化処理は、第一の解像度の入力画像を、第一の解像度よりも高い解像度である第二の解像度の出力画像に変換する処理と言える。
<撮像システムの全体構成>
実施形態1では、学習に基づく高解像度化を行う画像処理装置の例を説明する。学習段階では、主題となるオブジェクトであるスポーツ選手の顔を撮像することで得られた高解像度な画像に基づいて学習が行われる。そして、適用段階では、低解像度な入力画像を高解像度化する処理が行われる。なお、本実施形態で説明する「低解像度」および「高解像度」は、解像度の相対的な関係の一例を示すものである。このため、所定の解像度(例えば300dpi)が、低解像度の値となる場合もあれば、高解像度の値となる場合もあり得ることに留意されたい。換言すると、高解像度化処理は、第一の解像度の入力画像を、第一の解像度よりも高い解像度である第二の解像度の出力画像に変換する処理と言える。
図1は、本実施形態の撮像システムの一例を示した模式図である。スタジアムには撮像装置101が配置されている。撮像装置101を用いて選手105の顔を含む全身が撮像され、画像108が得られる。得られた画像を高解像度化するために用いられる画像を、撮像装置102が撮像する。撮像装置102は、撮像装置101に比べて長い焦点距離のレンズを有しており、画像108に比べ画角は狭いものの高解像度でオブジェクト(選手105)を撮像した画像109が得られる。撮像システムは、画像を高解像度化するための画像処理装置106、および、表示装置107を含む。なお、撮像装置101と同じく低解像度でオブジェクトを撮像する撮像装置103、および、撮像装置102と同じく高解像度でオブジェクトを撮像する撮像装置104が他に複数存在してもよい。また、図1ではスポーツシーンを例にとって説明したが、異なる解像度で物体を撮像する一般的なシーンにも適用可能である。また、主題となるオブジェクトが顔以外である画像にも適用可能である。
<画像処理装置のハードウェア構成>
図2は、本実施形態の画像処理装置106の構成を示す図である。画像処理装置106は、CPU201と、RAM202と、ROM203と、記憶部204と、入力インターフェース205と、出力インターフェース206と、システムバス207とを含む。外部メモリ208は、入力インターフェース205と出力インターフェース206とに接続されており、出力装置209は、出力インターフェース206に接続されている。
図2は、本実施形態の画像処理装置106の構成を示す図である。画像処理装置106は、CPU201と、RAM202と、ROM203と、記憶部204と、入力インターフェース205と、出力インターフェース206と、システムバス207とを含む。外部メモリ208は、入力インターフェース205と出力インターフェース206とに接続されており、出力装置209は、出力インターフェース206に接続されている。
CPU201は、画像処理装置106の各構成を統括的に制御するプロセッサである。RAM202は、CPU201の主メモリおよびワークエリアとして機能するメモリである。ROM203は、画像処理装置106内の処理に用いられるプログラム等を格納するメモリである。CPU201は、RAM202をワークエリアとしてROM203に格納されたプログラムを実行することで、後述する様々な処理を実行する。記憶部204は、画像処理装置106での処理に用いる画像データや、処理のためのパラメタなどを記憶する記憶デバイスである。記憶部204としては、HDD、光ディスクドライブ、またはフラッシュメモリなどを用いることができる。
なお、画像処理装置106がCPU201とは異なる専用の1又は複数のハードウェアあるいはGPU(Graphics Processing Unit)を有してもよい。そして、CPU201による処理の少なくとも一部をGPUあるいは専用のハードウェアが行うようにしてもよい。専用のハードウェアの例としては、ASIC(特定用途向け集積回路)、及びDSP(デジタルシグナルプロセッサ)等がある。
入力インターフェース205は、例えばUSBまたはIEEE1394などのシリアルバスインターフェースである。画像処理装置106は、入力インターフェース205を介して、外部メモリ208(例えば、ハードディスク、メモリカード、CFカード、SDカード、USBメモリ)から処理対象の画像データ等を取得することができる。出力インターフェース206は、例えばDVIやHDMI(登録商標)などの映像出力端子である。画像処理装置106は、この出力インターフェース206を介して、出力装置209(液晶ディスプレイなどの画像表示デバイス)に、画像処理装置106で処理した画像データを出力することができる。なお、画像処理装置106の構成要素は上記のもの以外のものが存在し得るが、ここでは説明を省略する。
<高解像度化処理の概要>
本実施形態では、画像において主題となるオブジェクトを「前景」と呼び、この前景以外のものを「背景」と呼ぶ。例えば前景は、人物の顔を含む領域である。この領域には、顔の近傍の領域が含まれてもよく、例えば人物の上半身の一部が含まれていてもよい。背景は、前景以外のものであり、例えば床、壁、および構造物などが含まれる。また、背景には、主題となるオブジェクトとは別の人物の顔が含まれていてもよい。
本実施形態では、画像において主題となるオブジェクトを「前景」と呼び、この前景以外のものを「背景」と呼ぶ。例えば前景は、人物の顔を含む領域である。この領域には、顔の近傍の領域が含まれてもよく、例えば人物の上半身の一部が含まれていてもよい。背景は、前景以外のものであり、例えば床、壁、および構造物などが含まれる。また、背景には、主題となるオブジェクトとは別の人物の顔が含まれていてもよい。
図3は、本実施形態における高解像度処理の概要を説明する図である。本実施形態では、画像処理装置106は、入力画像を前景部分と背景部分とに分離(分割)する。そして、前景部分の画像と背景部分の画像とを個別に高解像度化する。このように前景部分と背景部分とを個別に高解像度化するために、画像処理装置106は、学習段階においても前景部分を高解像度化する変換パラメタと、背景部分を高解像度化する変換パラメタとを、個別に学習する。以下、図3を用いて説明する。
まず、学習段階においては、前景低解像度画像309と、前景低解像度画像309に対応する高解像度の画像である前景教師画像313との組が、前景学習部311に入力される。前景学習部311は、このような組を入力として学習を行い、前景低解像度画像309を前景教師画像313に変換する関数の変換パラメタを得る。同様に、背景低解像度画像310と、背景低解像度画像310に対応する高解像度の画像である背景教師画像314との組が、背景学習部312に入力される。背景学習部312は、このような組を入力として学習を行い、背景低解像度画像310を背景教師画像314に変換する関数の変換パラメタを得る。なお、前景学習部311および背景学習部312の詳細は、後述する。
次いで、適用段階においては、画像処理装置106は、低解像度な入力画像301を受け取り、前景に対応する前景入力画像302と背景に対応する背景入力画像303とに入力画像を分離する。画像処理装置106において、前景を高解像度化するニューラルネットワークである前景高解像度化部304に前景入力画像302を入力する。また、背景を高解像度化するニューラルネットワークである背景高解像度化部305に背景入力画像303を入力する。前景高解像度化部304では、前景学習部311において学習された変換パラメタを用いた変換が行われる。背景高解像度化部305では、背景学習部312において学習された変換パラメタを用いた変換が行われる。前景高解像度化部304は、高解像度化された前景出力画像306を出力し、背景高解像度化部305は、高解像度化された背景出力画像307を出力する。画像処理装置106は、前景出力画像306と背景出力画像307とを統合して、高解像度化された統合画像308を得る。
このような処理によれば、主題となるオブジェクト(前景)は同じであるが、映り込む他の物体の影響により教師画像と類似しない入力画像が入力される場合であっても、ボケやアーティファクトの発生を抑制した高解像度の画像を得ることができる。即ち、画像中に解像度が低い箇所が発生したり、自然画像らしくない箇所が発生するなどの画像の破たんが発生したりすることを抑制した高解像度の画像を得ることができる。
図4は、ボケやアーティファクトの発生することを説明する図である。画像401乃至画像403は、主題となるオブジェクト(前景)は同一人物であるものの、画像ごとに背景が大きく異なる例である。サッカーまたはラグビーといったスポーツを行うスタジアムでは、画像401のように芝を背景とした画像が多く取得される。一方、画像402のように、看板または文字の描かれた床などのように、芝以外の地面が背景となる画像が取得される場合もある。また、画像403のように、他の人物が背景に映る場合もある。非特許文献1に記載の手法では、学習段階で用いた画像に類似していない画像は、適用段階においてボケやアーティファクトが発生する。例えば、画像401のように芝を背景とした画像を使って学習した場合、画像402または画像403を適用段階において入力データとした場合に、学習した画像と背景が類似しない画像が入力画像となり、ボケやアーティファクトが発生するおそれがある。
一方、画像404乃至画像406は、背景を含む全体の構図は同等の画像であるものの、画像ごとに主題となるオブジェクト(前景)が大きく異なる例である。画像404のように撮像方向に応じて前景の形状に差がある場合、画像405のように表情が異なる場合、画像406のようにヘルメットなどの装備によって輪郭が隠蔽されている場合、といった差異が存在しうる。このような場合、学習段階で用いた画像に前景が類似していない画像が入力画像とすると、高解像度化処理を行った画像中にボケまたはアーティファクトが発生してしまうおそれがある。
このように、画像に応じて、背景に差異が存在する場合もあれば前景に差異が存在する場合もある。本実施形態では、学習段階および適用段階のいずれにおいても、入力画像を、前景領域を示す画像(前景教師画像または前景入力画像)と背景領域を示す画像(背景教師画像または背景入力画像)とに分離する。学習段階では、前景教師画像を用いた学習と、背景教師画像を用いた学習とがそれぞれ行われる。適用段階では、前景教師画像を用いた学習により生成された前景高解像度化部を用いて前景入力画像の高解像度化が行われ、背景教師画像を用いた学習により生成された背景高解像度化部を用いて背景入力画像の高解像度化が行われる。そして、高解像度化された前景出力画像と背景出力画像とを統合することで、高解像度化された統合画像が得られることになる。このような処理によれば、前景に差異が存在する場合および背景に差異が存在する場合のいずれにおいても、ボケやアーティファクトの発生を抑制しつつ高解像度化を実現することができる。
<画像処理装置の構成および処理の流れ>
図5は、本実施形態の画像処理装置106の機能構成を示すブロック図である。画像処理装置106は、入力画像取得部501、教師画像取得部502、前景背景分離部503、低解像度画像生成部504、学習部505、高解像度化部506、および前景背景統合部507を備える。図3で示した前景学習部311および背景学習部312は、学習部505に含まれる。また、図3で示した前景高解像度化部304および背景高解像度化部305は、高解像度化部506に含まれる。画像処理装置106は、ROM203に格納されたプログラムをCPU201がRAM202をワークメモリとして実行することで、図5に示す各構成部として機能する。
図5は、本実施形態の画像処理装置106の機能構成を示すブロック図である。画像処理装置106は、入力画像取得部501、教師画像取得部502、前景背景分離部503、低解像度画像生成部504、学習部505、高解像度化部506、および前景背景統合部507を備える。図3で示した前景学習部311および背景学習部312は、学習部505に含まれる。また、図3で示した前景高解像度化部304および背景高解像度化部305は、高解像度化部506に含まれる。画像処理装置106は、ROM203に格納されたプログラムをCPU201がRAM202をワークメモリとして実行することで、図5に示す各構成部として機能する。
なお、本実施形態では、学習段階の処理と適用段階の処理とが、同一の画像処理装置106で行われる形態を例に挙げて説明するが、これに限られない。画像処理システムが、学習段階の処理を行う第一装置と、適用段階の処理を行う第二装置とを有する形態であってもよい。この場合、第一装置には、教師画像取得部502、前景背景分離部503、低解像度画像生成部504、および学習部505に相当する構成が含まれてよい。第二装置には、入力画像取得部501、前景背景分離部503、高解像度化部506、および前景背景統合部507に相当する構成が含まれてよい。そして、学習済みの変換パラメタが第一装置から第二装置に提供される構成があればよい。
また、前景学習部311は、ニューラルネットワーク構造を有し、学習に基づいて種々のパラメタが調整されることにより、入力画像を高解像度化する処理を行うことができる構成でもよい。すなわち、学習された前景学習部311が前景高解像度化部304として機能するように構成してもよい。また、背景学習部312も同様に、ニューラルネットワーク構造を有し、学習に基づいて種々のパラメタが調整されることにより、入力画像を高解像度化する処理を行うことができる構成でもよい。前景高解像度化部507として機能するように構成されてもよい。つまり、高解像度化部506は、学習部505を学習することにより生成される処理部として機能させてもよい。
図6は、本実施形態の画像処理装置106の処理の一例を示すフローチャートである。図6(a)は、学習段階における処理を示す。図6(b)は、適用段階における処理を示す。以下、図5のブロック図および図6のフローチャートを用いて画像処理装置106の各構成の処理の説明を行う。図6のフローチャートで示される一連の処理は、CPU201がROM203に記憶されているプログラムコードをRAM202に展開し実行することにより行われる。あるいはまた、図6におけるステップの一部または全部の機能をASICや電子回路等のハードウェアで実現してもよい。なお、各処理の説明における記号「S」は、当該フローチャートにおけるステップであることを意味する。
<学習段階の処理>
S601において、教師画像取得部502は、高解像度で被写体を撮像する撮像装置102から、または、記憶部204から、画像の画像データを取得する。本実施形態においてS601で取得される画像は、選手の顔が映っている矩形の画像である。図1の画像109のように選手以外の領域が大きい画像が撮像される場合は、教師画像取得部502は、選手の顔部分を切り抜いて画像を生成することでS601における画像を取得してもよい。取得された画像は、前景背景分離部503に出力される。
S601において、教師画像取得部502は、高解像度で被写体を撮像する撮像装置102から、または、記憶部204から、画像の画像データを取得する。本実施形態においてS601で取得される画像は、選手の顔が映っている矩形の画像である。図1の画像109のように選手以外の領域が大きい画像が撮像される場合は、教師画像取得部502は、選手の顔部分を切り抜いて画像を生成することでS601における画像を取得してもよい。取得された画像は、前景背景分離部503に出力される。
S602において前景背景分離部503は、教師画像取得部502から出力された画像を前景部分と背景部分とに分離する。即ち、前景背景分離部503は、教師画像取得部502から出力された画像から、図3に示すように前景教師画像313と背景教師画像314とを生成する。前景教師画像313において、分離前に背景が存在した箇所は、輝度値0の画素、即ち黒画素で埋められる。一方、背景教師画像314において、分離前に前景が存在した箇所は、輝度値0の画素、即ち黒画素で埋められる。なお、分離前に前景又は背景が存在した箇所を区別することができれば、輝度値は0でなくてもよい。
前景を背景部分から切り離す処理は、前景背景分離処理と呼ばれる。前景背景分離処理は、前景領域を推定して決定する処理であり、一般的に背景差分法によって行われる。背景差分法とは、同視野の別時刻での観測結果から移動物体と静止物体を切り分ける手法である。例えば、背景画像と、前景を含む入力画像との差分を求め、差分値が所定の閾値以上と判定された画素の集まりである領域を前景領域とする、というものである。前景領域の推定処理において、輝度、色、またはテクスチャなどの画像の特徴量を用いて差分を求めることが一般的である。本実施形態では、前景背景分離部503には、同視野の別時刻での観測結果に基づいて得られた背景画像が外部から与えているものとする。前景背景分離部503は、この背景画像を用いて、教師画像のうち背景画像と一致する部分を背景、一致しない部分を前景として分離を行う。なお、前景背景分離処理は、この例に限られるものではない。前景背景分離部503は、グラフカットによって前景と背景との分離を行ってもよい。また、オプティカルフロー算出手法により求めた動きベクトルが周囲と異なる領域を前景としてもよい。また、デプス推定手法により求めた距離が周囲より小さい領域を前景としてもよい。画像を前景領域と、前景領域以外の領域である背景領域とに分離できる手法であれば、いずれの手法でもよい。前景背景分離部503によって生成された前景教師画像および背景教師画像は、低解像度画像生成部504に出力される。
S603において、低解像度画像生成部504は、前景背景分離部503から出力された前景教師画像を低解像度化した前景低解像度画像309を生成する。また、低解像度画像生成部504は、背景教師画像を低解像度化した背景低解像度画像310を生成する。低解像度化には、教師画像における複数の画素の画素値の平均を、低解像度画像におけるその複数に対応する一つの画素の画素値とすることで画像を縮小する面積平均法を用いることができる。なお、bicubic法などの補間に基づいて画像を縮小してもよい。また、高周波成分を低減するフィルタを用いて低解像度化を行ってもよい。また、短い焦点距離で教師画像を撮像する過程を再現する手法に基づいた低解像度化を行ってもよい。
なお、本実施形態では、教師画像を前景教師画像と背景教師画像とに分離し、分離後の前景教師画像および背景教師画像からそれぞれ低解像度画像を生成する例を示しているが、これに限られない。教師画像取得部502から低解像度画像生成部504に教師画像が出力され、低解像度画像生成部504が教師画像を低解像度化した低解像度画像を生成し、生成後の低解像度画像を前景背景分離部503に出力してもよい。そして、前景背景分離部503は、低解像度画像生成部504から出力された低解像度画像を、前景低解像度画像と背景低解像度画像とに分離してもよい。また、低解像度画像は、記憶部204から取得してもよいし、低解像度で被写体を撮像する撮像装置から取得してもよい。このように得られた前景低解像度画像、背景低解像度画像、前景教師画像、および背景教師画像は、学習部505に出力される。
S604において学習部505は、受け取った各画像を学習部505が有するニューラルネットワークの入力層に入力し、学習する。第1に、前景用ニューラルネットワーク(前景学習部311)に前景低解像度画像が入力され、前景低解像度画像を前景教師画像に変換するように、ニューラルネットワークのパラメタ(前景変換パラメタ)が調整され、前景変換パラメタが得られる。第2に、背景用ニューラルネットワーク(背景学習部312)に背景低解像度画像が入力され、背景低解像度画像を背景教師画像に変換するように、ニューラルネットワークのパラメタ(背景変換パラメタ)が調整され、背景変換パラメタが得られる。ここで用いるニューラルネットワークは、非特許文献1に記載されている高解像度化ネットワークである。また、高解像度化ネットワークとして、敵対的生成ネットワーク(GAN:Generative Adversarial Network)を用いてもよい。敵対的生成ネットワークでは、一般的にGeneratorとDiscriminatorとの2つのネットワークを用いた処理が行われる。Generatorは、Discriminatorに見破られないようにオリジナルに限りなく近い「偽物」を生成するように学習される。Discriminatorは、入力されたものが、Generatorによって生成された「偽物」かオリジナル(「本物」)かを判定し、Generatorによって生成された「偽物」を見破るように学習される。このような2つのネットワークが、いわば互いに切磋琢磨するように学習することで、Generatorの学習精度が高まる。
学習部505によって得られた前景変換パラメタおよび背景変換パラメタは、高解像度化部506に出力される。ここまでが学習段階の処理の説明である。このような教師画像の入力と、学習とを繰り返すことで、変換パラメタの最適化が行われる。即ち、図6(a)に示す処理が繰り返され、学習が行われる。
<適用段階の処理>
次に、適用段階での処理の流れを説明する。なお、学習段階の直後に適用段階の処理が行われなくてもよく、適用段階と学習段階との間に所定の期間が介在してもよい。
次に、適用段階での処理の流れを説明する。なお、学習段階の直後に適用段階の処理が行われなくてもよく、適用段階と学習段階との間に所定の期間が介在してもよい。
S651において入力画像取得部501は、低解像度で被写体を撮像する撮像装置101から、または、記憶部204から、入力画像を取得する。入力画像は選手の顔が映っている矩形の画像であり、教師画像と同様に、必要に応じて選手の顔部分を切り抜いて生成することで取得してもよい。取得された入力画像は、前景背景分離部503に出力される。
S652において前景背景分離部503は、S602と同様の処理により、入力画像301を前景部分と背景部分とに分離する。分離して得られた前景入力画像302および背景入力画像303は、高解像度化部506に出力される。
S653において高解像度化部506は、前景背景分離部503から前景入力画像と背景入力画像を取得する。また、高解像度化部506は、学習部505から前景変換パラメタと背景変換パラメタとを取得している。高解像度化部506は、図3の前景高解像度化部304と背景高解像度化部305を備えている。これらは、学習部505で用いたものと同じ層構造のニューラルネットワークである。高解像度化部506は、前景用ニューラルネットワーク(前景高解像度化部304)に、前景変換パラメタを代入し、前景入力画像302を入力することで、その出力として、高解像度化された前景出力画像306を得る。同様に、高解像度化部506は、背景用ニューラルネットワーク(背景高解像度化部305)に背景入力画像303を入力し、その出力として、高解像度な背景出力画像307を得る。前景出力画像306および背景出力画像307は、前景背景統合部507に出力される。
S654において前景背景統合部507は、高解像度化部506から出力された前景出力画像306と背景出力画像307とを統合し、1枚の画像に前景部分と背景部分が含まれるようにした統合画像308を生成する。統合画像308は、以下の式(1)のように、前景出力画像306と背景出力画像307の画素ごとの和として決定される。
sx,y,c=fx,y,c+bx,y,c 式(1)
sx,y,c=fx,y,c+bx,y,c 式(1)
ここで、sx,y,cは、統合画像中の座標位置(x,y)における画素の第cチャネルの値である。fx,y,cは、前景出力画像中の座標位置(x,y)における画素の第cチャネルの値である。bx,y,cは、背景出力画像中の座標位置(x,y)における画素の第cチャネルの値である。なお、sx,y,cの値は、fx,y,c、bx,y,cの両者の重み付け和や最大値として決定するなど、別の統合方法を用いて決定されてもよい。
なお、用途によっては、前景出力画像306と背景出力画像307を統合する必要はない。
以上説明したように、本実施形態においては、学習段階において、画像を前景部分の教師画像と背景部分の教師画像とに分離し、前景と背景とが個別に学習される。また、適用段階においても、入力画像を前景部分の入力画像と背景部分の入力画像とに分離し、前景と背景とが個別に高解像度化される。このような処理によれば、映り込む他の物体の影響により教師画像と類似しない入力画像が入力される場合であっても、高解像度化の精度が低下することを抑制することができる。
なお、上記では、画像を前景と背景とに分離する例を示したが、異なる基準での分離を行ってもよい。例えば、風景画像を高解像度化する際に、画像を地面と空とに分離してもよい。文書画像を高解像度化する際に、画像を文字と紙面とに分離してもよい。
また、画像を3つ以上の領域に分離しても構わない。例えば、画像を、人物の領域、地面の領域(芝や舗装路など)、および構造物の領域(ポールや柱など)に分離してもよい。また、人物の領域をさらに頭部・衣服・手足などと細かく分離したりしても構わない。いずれの場合においても、分離された領域ごとに学習と高解像度化を行い、各高解像度化結果を統合すればよい。
また、上記では高解像度な教師画像を取得するために焦点距離の長い撮像装置を利用する例を説明したが、高画素数の撮像装置を利用してもよい。また、画面の手前に映った被写体は、ピントが合っている場合には、奥で映った場合に比べて高解像度で撮像されるため、撮像装置101の画面手前に映った被写体の画像を教師画像として用いてもよい。
なお、本実施形態で示した技術は、スポーツに限られず、コンサートなどにも適用することができる。
<<実施形態2>>
実施形態1で説明した処理を用いて高解像度化を行った場合、統合時に前景と背景との境界付近でアーティファクトが発生する場合がある。
実施形態1で説明した処理を用いて高解像度化を行った場合、統合時に前景と背景との境界付近でアーティファクトが発生する場合がある。
図7は、統合時にアーティファクトが生じる例を説明する図である。画像703および画像704は、それぞれ前景出力画像701および背景出力画像702の輪郭付近の同じ領域を拡大した概念図である。統合画像705は、画像703と画像704とを統合した画像である。画像703において、画素706は、前景出力画像701上において輝度の低い画素(即ち、背景と推定された画素)となっている。また、画像704において、画素708は、背景出力画像702上において輝度の低い画素(即ち、前景と推定された画素)となっている。これらの両画像を統合する際、統合画像の輝度値を両画像の輝度値の和とした場合、画素706と画素708との輝度値の和で表される画素710の輝度値は、周囲より際立って小さくなる。このような際立った画素を特異画素と呼ぶ。
同様に、前景出力画像701上において輝度の高い画素707(即ち、前景と推定された画素)と、背景出力画像702上において輝度の高い画素709(即ち、背景と推定された画素)とを統合した場合、際立って輝度値の高い特異画素711が生成される。ここでは簡単のため輝度チャネルのみの画像について言及したが、RGB画像のような多チャネルの画像にも、同様に特異画素が発生しうる。
本実施形態においては、このような特異画素を統合画像中から検出し、特異画素の周辺の画素を用いて特異画素の画素値を補正することにより、アーティファクトに対処する形態を説明する。
図8は、本実施形態の画像処理装置106の機能構成を示すブロック図である。実施形態1で説明した図5の構成と同じ構成については同一符号を付し、説明を省略することとする。本実施形態の画像処理装置106は、実施形態1の構成に加えて、特異画素補正部808をさらに備えている。また、前景背景分離部803は、実施形態1で説明した処理に加えて、マスク画像のデータを特異画素補正部808に出力するように構成されている。特異画素補正部808は、前景背景統合部507で統合された統合画像を、マスク画像を用いて補正し、補正後の統合画像を出力する。
図9は、本実施形態におけるフローチャートの一例を示す図である。図6で示した処理と同等の処理については同一の符号を付し、説明を省略する。本実施形態においては、学習段階の処理は実施形態1と同様であるので、説明を省略する。
適用段階におけるS651の処理は、実施形態1と同様である。その後、S952において前景背景分離部803は、実施形態1で説明したように、入力画像取得部501から出力された入力画像を、前景部分と背景部分とに分離する処理を行う。このとき、本実施形態において前景背景分離部803は、前景部分の輝度値を1、背景部分の輝度値を0とした画像であるマスク画像を生成し、特異画素補正部808に出力する。その後、実施形態1と同様に、S653の高解像度化処理を経て、S654にて統合画像が出力される。その後、S955に処理が進む。
S955において特異画素補正部808は、図7に示した画素710または画素711のような特異画素を検出する。そして、検出した特異画素の周囲の画素値を参照して、特異画素の値を補正する。本実施形態では、統合画像上の任意の座標(u、v)について、(A)前景および背景の境界との距離が一定以下で、かつ(B)周囲との画素値の差異が一定以上である、という2条件が成り立つならば、その座標の画素を特異画素として扱う。即ち、特異画素補正部808は、上記の2条件が成り立つ画素を特異画素として検出する。ここで、境界との近さは、前景背景分離部503から出力されたマスク画像を参照して求められる。例えば、前景と背景とが切り替わるような画素のうち最近傍の画素との距離として求められる。また、下記の式(2)が成立する場合に上記の条件(B)が真であるとする。
ここで、θは所与の閾値である。M[・]は括弧内の統計量を表し、本実施形態では中央値である。Nは、隣接集合である。隣接集合Nは、座標(u,v)の近傍画素の画素値の集合を表す。例えば、式(2)は、いずれかのチャンネルcにおいて、統合画像sの座標(u、v)のチャンネルcの値と、その座標(u、v)の近傍画素のcチャンネルの中央値との差が閾値θを超えているものがある、ということを表している。ここで、隣接集合Nは、
と記述できる。ここで、
である。
また、
また、
は、pノルムであり、p=2であるが、p=1やp=∞としても構わない。また、θdistは探索範囲の広さを表すパラメタである。
検出された特異画素の値は、下記の式(4)のように、周囲の画素値の中央値として修正する。
なお、M[・]は、括弧内の最頻値・平均値であるとしても構わない。また、隣接集合Nに、入力画像の該当箇所の画素値を含めても構わない。複数の時刻の画像を高解像度化する場合、前後の時刻での高解像度化結果の画素値を隣接集合Nに含めても構わない。また、インペインティング手法を用いて特異画素を補正しても構わない。
なお、本実施形態では、画像を前景と背景とに分離し、前景と背景との境界部分の特異画素を補正する形態を例に挙げて説明したが、これに限られない。画像を分離した際に、分離したオブジェクトの境界部分に現れ得る特異画素を補正する形態であればよい。
以上、本実施形態によれば、分離した境界部分に現れる特異画素を検出して補正することにより、境界部分に生じ得るアーティファクトを抑制することができる。
<<実施形態3>>
実施形態2では、特異画素の画素値を、その周囲の画素の画素値を用いて補正する形態を説明した。しかし、特異画素の数が多い場合には、補正の精度が低下し得る。
実施形態2では、特異画素の画素値を、その周囲の画素の画素値を用いて補正する形態を説明した。しかし、特異画素の数が多い場合には、補正の精度が低下し得る。
図10は、特異画素の数が多い状況を表す図である。統合画像1001の境界部分には、特異画素710が発生している。拡大画像1002は、境界部分の拡大した模式図である。拡大画像1002を参照すると、特異画素710が密集して存在していることがわかる。この場合、隣接集合N内に特異画素の画素値が大量に含まれることになり、実施形態2の方法では、精度よく補正を行うことは難しい。
そこで、本実施形態では、境界部分を含む領域を抽出した画像を別個に高解像度化しておき、それを統合画像に対して重畳することで、特異画素の発生に対処する。本実施形態の概要を、図11を用いて説明する。
図11は、本実施形態における処理の概要を示す図である。なお、実施形態1で説明した処理の概要については省略している。本実施形態では、境界部分を含む領域を抽出した画像を用意する。この画像は、境界教師画像1107に示すように、前景と背景との境界部分を含み、境界部分から所定の距離の画素を抽出した画像である。学習段階においては、このような境界教師画像1107と、対応する境界低解像度画像1105との組を境界学習部1106に入力して学習が行われる。学習によって得られた変換パラメタは、境界高解像度化部1102に出力される。
適用段階においては、画像処理装置106は、低解像度な入力画像から、前景と背景との境界付近を抽出した境界入力画像1101を生成する。そして、画像処理装置106は、境界部分を高解像度化するニューラルネットワーク(境界高解像度化部1102)に境界入力画像1101を入力し、高解像度化された境界出力画像1103を得る。この境界出力画像1103を、特異画素を含んだ統合画像1001に対して重畳し、第2の統合画像1104を得る。このような処理により、特異画素の画素値を、特異画素の周囲の情報ではなく、境界出力画像の情報に基づいて補正できるため、よりアーティファクトの少ない画像を得ることができる。
図12は、本実施形態の機能構成を示すブロック図である。実施形態1と同様の構成について同じ符号を付し、説明を省略する。本実施形態では、画像処理装置106は、境界画像取得部1201と境界統合部1202とをさらに備えている。
図13は、本実施形態における処理の一例を示すフローチャートである。なお、実施形態1と同様の処理については同じ符号を付し説明を省略する。以下、図12および図13を用いて本実施形態の処理を説明する。
図13(a)は学習段階の処理フローチャートを示す図である。学習段階のS601およびS602の処理は、実施形態1と同様である。その後、S1311において境界画像取得部1201は、前景背景分離部503から分離前の画像を取得し、その境界付近を抽出した境界教師画像1107を生成する。本実施形態において境界教師画像は、境界画素までの距離が閾値θborder以下である画素の値は分離前の画像と同じ画素になり、そうでない画素は黒画素となる画像である。なお、後述する入力境界画像の定義も同様である。境界画素とは、背景の画素と隣接している前景の画素、またはその逆である。境界画素は、前景背景分離部503で分離された画像を用いて決定される。また、θborderは、境界画像の幅の広さを指定するパラメタである。本実施形態では、前景背景分離部503で生成されたマスク画像の微分画像の中で、画素値が非零となる画素を境界画素とする。抽出された境界教師画像は低解像度画像生成部504に入力される。
S1312において低解像度画像生成部504は、実施形態1で説明したS603の手順に加えて、境界教師画像を低解像度化した境界低解像度画像1105を生成する処理を行う。低解像度化は、S603で説明した処理と同等とすることができる。境界低解像度画像および境界教師画像は学習部505に出力される。
S1313において学習部505は、実施形態1で説明したS604と同様に、受け取った各画像をニューラルネットワークにより学習させる。S1313においては、S604の手順に加えて、以下の手順が行われる。即ち、境界用ニューラルネットワーク(境界学習部1106)に境界低解像度画像を入力し、境界低解像度画像を境界教師画像に変換するように、ニューラルネットワークのパラメタ(境界変換パラメタ)が調整され、境界変換パラメタが得られる。得られた境界変換パラメタは、高解像度化部506に出力される。以上が学習段階での処理の説明である。
次に、適用段階の処理を説明する。図13(b)は適用段階の処理フローチャートを示す図である。S651およびS652の処理は、実施形態1と同様である。その後、S1321において境界画像取得部1201は、前景背景分離部503から入力画像を取得し、S1311での方法と同様にその境界付近を抽出した境界入力画像1101を得る。得られた境界入力画像1101は、高解像度化部506に出力される。
S1322において高解像度化部506は、実施形態1で説明したS607と同様に、受け取った画像の高解像度化処理を行う。本実施形態では、S607の手順に加えて、境界画像取得部1201から境界入力画像を取得する。また高解像度化部506は、学習部505から境界変換パラメタを取得する。高解像度化部506は、学習部505で用いたものと同じ層構造の境界用ニューラルネットワーク(境界高解像度化部1102)に、境界変換パラメタを代入し、境界入力画像を入力することで、出力として、高解像度化された境界出力画像1103を得る。境界出力画像は境界統合部1202に出力される。
S1323において境界統合部1202は、高解像度化部506から境界出力画像1103を取得する。また、前景背景統合部507から統合画像1001を取得する。そして境界統合部1202は、取得した両画像を以下のように統合して第2の統合画像1104を生成する。
式(5)において、s’x,y,cは、第2の統合画像中の座標位置(x,y)における画素の第cチャネルの値である。ex,y,cは、境界出力画像中の座標位置(x,y)における画素の第cチャネルの値である。また、αは統合時の両画像のブレンド比率を表すパラメタであり、境界画素付近ほど大きく設定する。具体的には、式(6)の通りである。
ここで、dx、yは、座標(x,y)から見て最も距離が近い境界画素までの距離である。つまり、αの値は境界上では1となり、境界から遠くなるほど0に近づく。
以上説明したように、本実施形態によれば、境界部分に特異画素が多く発生するような場合においても、境界部分に生じ得るアーティファクトを抑制することができる。
<<実施形態4>>
実施形態1から3においては、ニューラルネットワークへの入力として前景入力画像および背景入力画像を用いたが、代わりに入力画像とマスク画像との組を用いても構わない。本実施形態では、2つの画像をニューラルネットワークに入力する形態を説明する。
実施形態1から3においては、ニューラルネットワークへの入力として前景入力画像および背景入力画像を用いたが、代わりに入力画像とマスク画像との組を用いても構わない。本実施形態では、2つの画像をニューラルネットワークに入力する形態を説明する。
図14は、本実施形態の処理の例を示す図である。図14(a)に示すように、適用段階では、入力画像301と、その前景をマスクしたマスク画像である入力マスク画像1401との組を前景用ニューラルネットワーク(前景高解像度化部304)に入力し、前景出力画像306を得る。この場合、前景用ニューラルネットワークは、2入力1出力の構造を取る。学習段階においては、学習部505は、教師画像を低解像度化した低解像度画像1402と、その前景をマスクしたマスク画像である低解像度マスク画像1403との対を低解像度画像生成部504から受け取る。そして、その対を前景教師画像313に変換する前景変換パラメタを学習する。以上の処理は、背景出力画像を得る工程に関しても同様である。即ち、適用段階では、入力画像と、その背景をマスクしたマスク画像である入力マスク画像との組を背景用ニューラルネットワークに入力し、背景出力画像を得る。学習段階においては、学習部505は、教師画像を低解像度化した低解像度画像と、その背景をマスクしたマスク画像である低解像度マスク画像との対を低解像度画像生成部504から受け取る。そして、その対を背景教師画像に変換する背景変換パラメタを学習する。
なお、マスク画像を用いる場合、ニューラルネットワークで直接統合画像308を得るよう学習しても構わない。この場合、図14(b)に示すように、学習段階においては低解像度画像1402と低解像度マスク画像1403との組を教師画像1404に変換する変換パラメタを学習する。適用段階においては、学習したパラメタに基づき、入力画像301と入力マスク画像1401との組をニューラルネットワークに入力し、統合画像308を取得する。
なお、実施形態2または3で説明した形態と組み合わせた形態としてもよい。即ち、マスク画像を用いて高解像度化した画像における特異画素を補正する処理をさらに行う形態としてもよい。
<<実施形態5>>
本実施形態では、実施形態1から4で説明した処理によって高度化された画像を用いた仮想視点画像を生成する形態を説明する。 図15は、本実施形態における画像処理装置106の機能構成を示すブロック図である。実施形態1で説明した図5の構成と同じ構成については同一符号を付し、説明を省略することとする。本実施形態の画像処理装置106は、実施形態1の構成から前景背景統合部507の代わりに、仮想視点画像生成部1507を備えている構成である。また、入力画像取得部501で取得された入力画像(撮像装置で撮像された撮像画像)は、仮想視点画像生成部1507に入力される。なお、ここでは、前景背景統合部507を備えていない形態を示しているが、実施形態1で説明した図5の構成と同様に、前景背景統合部を備えていてもよく、その前景背景統合部で統合された画像が仮想視点画像生成部1507に入力されてもよい。
本実施形態では、実施形態1から4で説明した処理によって高度化された画像を用いた仮想視点画像を生成する形態を説明する。 図15は、本実施形態における画像処理装置106の機能構成を示すブロック図である。実施形態1で説明した図5の構成と同じ構成については同一符号を付し、説明を省略することとする。本実施形態の画像処理装置106は、実施形態1の構成から前景背景統合部507の代わりに、仮想視点画像生成部1507を備えている構成である。また、入力画像取得部501で取得された入力画像(撮像装置で撮像された撮像画像)は、仮想視点画像生成部1507に入力される。なお、ここでは、前景背景統合部507を備えていない形態を示しているが、実施形態1で説明した図5の構成と同様に、前景背景統合部を備えていてもよく、その前景背景統合部で統合された画像が仮想視点画像生成部1507に入力されてもよい。
仮想視点画像の概要を簡単に説明する。複数の視点で撮像された複数視点の画像を用いて、任意の仮想視点における仮想視点画像を生成する技術がある。例えば、仮想視点画像を用いると、サッカーやバスケットボールのハイライトシーンを様々な角度から視聴閲覧することができるので、通常の画像と比較してユーザに高臨場感を与えることができる。
このような複数視点画像に基づく仮想視点画像の生成は、複数のカメラが撮像した画像をサーバなどの画像処理装置106に集約し、画像処理装置106の仮想視点画像生成部1507にてレンダリングなどの処理を施すことで行われてよい。また、生成された仮想視点画像は、ユーザ端末に伝送され、ユーザ端末において閲覧される。
仮想視点画像を生成する際には、主な被写体(オブジェクト)である前景を背景部分から切り離してモデル化した上でレンダリングする処理が行われる。前景をモデル化する際には、複数のカメラから見たときの前景のシルエットに相当する前景マスクの情報と前景のテクスチャの情報(例えば前景の各画素のR、G、Bの色情報)とが必要となる。前景のモデル化は、複数視点の前景マスクおよび前景テクスチャを用いて、撮影シーン内に存在する各オブジェクトの3次元形状推定処理を実行することで行われる。推定手法としては、オブジェクトの輪郭情報を用いるVisual−hull手法、または三角測量を用いたMulti−view stereo手法など公知の手法を適用すればよい。これにより、オブジェクトの3次元形状を表すデータ(例えば、ポリゴンデータまたはボクセルデータ)が生成される。
そして、仮想視点画像生成部1507は、仮想視点を表す仮想カメラのカメラパラメータ等に従って、仮想視点画像を生成する。仮想視点画像は、形状推定処理で得られたオブジェクトの3D形状データを用いて、仮想カメラから見た画像をコンピュータグラフィックスの技術を用いることで生成することができる。この生成処理には公知の技術を適宜適用すればよい。
上述した実施形態で説明した、前景背景分離処理は、仮想視点画像を生成する過程において行われる処理である。このため、仮想視点画像を生成する処理で得られる前景画像と背景画像とを高解像度化した画像を用いることで、より高精度な仮想視点画像を生成することができる。つまり、仮想視点画像生成部1507に、前景背景分離部503が含まれてもよい。また、仮想視点画像を生成する過程においては、前景画像または背景画像のうちの一方のみを高解像度化した画像を用いて仮想視点画像を生成する処理が行われてよい。例えば、前景をモデル化する際に、前景画像を高解像度化した後に、上述したモデル化処理が行われてもよい。この場合、高解像度化部506において高解像度化された前景画像と背景画像とを結合しなくてもよい。また、高解像度化部506では、前景画像のみを高解像度化してもよい。
なお、本実施形態では、画像処理装置106が仮想視点画像生成部1507を備えている構成を例に挙げているが、画像処理装置106とは別の仮想視点画像生成装置で仮想視点画像が生成されてもよい。即ち、図15に示すような画像処理装置106が、各撮像装置ごとに備えられており、各画像処理装置106で高解像度化された画像が、仮想視点画像生成装置に出力され、仮想視点画像生成装置で仮想視点画像が生成されてもよい。この場合、前景のみを高解像度化した画像および背景のみを高解像化した画像の少なくとも一方が仮想視点画像生成装置に出力されてもよいし、両者を統合した統合画像が出力されてもよい。
<<その他の実施形態>>
上述した実施形態においては、画像を高解像度化する形態の例を示したが、一般の画像処理に上述した実施形態で説明した処理を適用してもよい。例えば、学習に基づいて画像認識を行う際や、ノイズ低減・ボケ低減・テクスチャ変換といった画像変換を行う際、画像を前景と背景に分離して学習を行っても構わない。
上述した実施形態においては、画像を高解像度化する形態の例を示したが、一般の画像処理に上述した実施形態で説明した処理を適用してもよい。例えば、学習に基づいて画像認識を行う際や、ノイズ低減・ボケ低減・テクスチャ変換といった画像変換を行う際、画像を前景と背景に分離して学習を行っても構わない。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
503 前景背景分離部
505 学習部
506 高解像度化部
507 前景背景統合部
505 学習部
506 高解像度化部
507 前景背景統合部
Claims (26)
- 仮想視点画像を生成するために用いられる画像処理装置であって、
複数の撮像装置の撮像により取得される撮像画像を取得する第一取得手段と、
前記第一取得手段で取得された撮像画像のうち、特定のオブジェクトを含む第一領域を分離した第一入力画像を取得する第二取得手段と、
前記第二取得手段により取得された前記第一入力画像を入力することにより第一出力画像を出力する出力手段と、を有し
前記第一出力画像は、前記第一入力画像よりも解像度が高いことを特徴とする画像処理装置。 - 前記第二取得手段は、前記第一取得手段で取得された撮像画像のうち、前記特定のオブジェクトを含む第一領域以外の第二領域を分離した第二入力画像をさらに取得し、
前記出力手段は、前記第二取得手段により取得された前記第二入力画像を入力することにより第二出力画像を出力し、
前記第二出力画像は、前記第二入力画像よりも解像度が高いことを特徴とする請求項1に記載の画像処理装置。 - 前記出力手段によって出力された前記第一出力画像と、前記複数の撮像装置の撮像により取得される前記撮像画像とを、仮想視点画像を生成する生成手段に出力する第二出力手段をさらに有することを特徴とする請求項1または2に記載の画像処理装置。
- 前記出力手段は、特定のオブジェクトを含む第一領域を分離した第一教師画像と、前記第一教師画像に対応する画像であって前記第一教師画像よりも解像度が低い第一画像とを用いた学習によって生成されることを特徴とする請求項1から3のいずれか一項に記載の画像処理装置。
- 前記出力手段は、特定のオブジェクトを含む第一領域以外の第二領域を分離した第二教師画像と、前記第二教師画像に対応する画像であって前記第二教師画像よりも解像度が低い第二画像とを用いた学習によって生成されることを特徴とする請求項1から4のいずれか一項に記載の画像処理装置。
- 画像を取得する第一取得手段と、
前記第一取得手段で取得された画像のうち、特定のオブジェクトを含む第一領域を分離した第一教師画像を取得する第二取得手段と、
前記第一教師画像と、前記第一教師画像に対応する画像であって前記第一教師画像よりも解像度が低い第一画像とを用いて学習する学習手段と、
を有することを特徴とする画像処理装置。 - 前記第一画像は、前記第二取得手段で取得された前記第一教師画像から解像度の低い画像を生成することで取得されることを特徴とする請求項6に記載の画像処理装置。
- 前記第一画像は、前記第一取得手段で取得された画像から解像度が低い画像を生成し、生成後の画像のうち、前記特定のオブジェクトを含む第一領域を分離することで取得されることを特徴とする請求項6に記載の画像処理装置。
- 前記第二取得手段は、前記第一領域以外の第二領域を分離した第二教師画像をさらに取得し、
前記学習手段は、前記第二教師画像と、前記第二教師画像に対応する画像であって前記第二教師画像よりも解像度が低い第二画像とを用いてさらに学習することを特徴とする請求項6から8のいずれか一項に記載の画像処理装置。 - 前記第二画像は、前記第二取得手段で取得された前記第二教師画像から解像度の低い画像を生成することで取得されることを特徴とする請求項9に記載の画像処理装置。
- 前記第二画像は、前記第一取得手段で取得された画像から解像度が低い画像を生成し、生成後の画像のうち、前記特定のオブジェクトを含む第一領域以外の第二領域を分離することで取得されることを特徴とする請求項9に記載の画像処理装置。
- 入力画像を取得する第三取得手段と、
前記第三取得手段で取得された入力画像のうち、特定のオブジェクトを含む第三領域を分離した第一入力画像を取得する第四取得手段と、
前記第四取得手段により取得された前記第一入力画像を入力することにより第一出力画像を出力する出力手段と、
をさらに有し、
前記出力手段は、前記学習手段による学習によって生成され、
前記第一出力画像は、前記第一入力画像よりも解像度が高いことを特徴とする請求項6から11のいずれか一項に記載の画像処理装置。 - 前記第四取得手段は、前記第三取得手段で取得された入力画像のうち、特定のオブジェクトを含む第一領域以外の第二領域を分離した第二入力画像をさらに取得し、
前記出力手段は、前記第四取得手段により取得された前記第二入力画像を入力することにより第二出力画像を出力し、
前記第二出力画像は、前記第二入力画像よりも解像度が高いことを特徴とする請求項12に記載の画像処理装置。 - 前記出力手段によって出力された前記第一出力画像および前記第二出力画像を統合する統合手段をさらに有することを特徴とする請求項13に記載の画像処理装置。
- 前記統合手段において統合された統合画像における前記第一領域と前記第二領域との間の境界部分の画素の値を補正する補正手段をさらに有することを特徴とする請求項14に記載の画像処理装置。
- 前記補正手段は、前記境界部分の画素の値のうち、周囲の画素の値との差が閾値以上の画素の値を補正することを特徴とする請求項15に記載の画像処理装置。
- 前記補正手段は、前記差が閾値以上の画素の値を、前記境界部分の周辺の画素の値を用いて補正することを特徴とする請求項16に記載の画像処理装置。
- 前記補正手段は、前記差が閾値以上の画素の値を、前記境界部分の周辺の画素の中央値、平均値、または最頻値のうちのいずれかの値で置き換えることで前記補正を行うことを特徴とする請求項16または17に記載の画像処理装置。
- 前記第二取得手段は、前記第一取得手段で取得された画像のうち、前記第一領域と前記第二領域との間の境界部分を含む領域を抽出した第三教師画像をさらに取得し、
前記学習手段は、前記第三教師画像と、前記第三教師画像に対応する画像であって前記第三教師画像よりも解像度が低い第三画像とを用いてさらに学習し、
前記第四取得手段は、前記第三取得手段で取得された入力画像のうち前記第一領域と前記第二領域との間の境界部分を含む領域を抽出した第三入力画像をさらに取得し、
前記出力手段は、前記第三入力画像を入力することにより第三出力画像をさらに出力し、
前記補正手段は、前記統合手段によって統合された統合画像と前記第三出力画像とをブレンドすることで前記境界部分の画素の値を補正する、
ことを特徴とする請求項15に記載の画像処理装置。 - 前記補正手段は、前記第三出力画像のうち、前記境界部分に近いほどブレンド比を高めるように、前記第三出力画像と前記統合画像とをブレンドすることを特徴とする請求項19に記載の画像処理装置。
- 前記第二取得手段は、第一取得手段で取得された画像のうち、前記第一領域の位置を示す第一マスク画像と、前記第二領域の位置を示す第二マスク画像とをさらに取得し、
前記学習手段は、前記第一マスク画像と前記第一画像と前記第二マスク画像とを用いて学習し、
前記第四取得手段は、前記第三取得手段で取得された入力画像のうち、前記第一領域の位置を示す第三マスク画像と、前記第二領域の位置を示す第四マスク画像とをさらに取得し、
前記出力手段は、前記第一入力画像と前記第三マスク画像とを入力して前記第一出力画像を出力し、前記第二入力画像と前記第四マスク画像とを入力して前記第二出力画像を出力する、ことを特徴とする請求項13から20のいずれか一項に記載の画像処理装置。 - 前記学習手段と前記出力手段とは、同じ層構造のニューラルネットワークであることを特徴とする請求項12から21のいずれか一項に記載の画像処理装置。
- 仮想視点画像を生成するために用いられる画像処理方法であって、
複数の撮像装置の撮像により取得される撮像画像を取得する第一取得ステップと、
前記第一取得ステップで取得された撮像画像のうち、特定のオブジェクトを含む第一領域を分離した第一入力画像を取得する第二取得ステップと、
前記第二取得ステップにより取得された前記第一入力画像を入力することにより第一出力画像を出力する出力ステップと、を有し
前記第一出力画像は、前記第一入力画像よりも解像度が高いことを特徴とする画像処理方法。 - 前記出力ステップによって出力された前記第一出力画像と、前記複数の撮像装置の撮像により取得される前記撮像画像とを、仮想視点画像を生成する生成手段に出力する第二出力ステップをさらに有することを特徴とする請求項23に記載の画像処理方法。
- 画像を取得する第一取得ステップと、
前記第一取得ステップで取得された画像のうち、特定のオブジェクトを含む第一領域を分離した第一教師画像を取得する第二取得ステップと、
前記第一教師画像と、前記第一教師画像に対応する画像であって前記第一教師画像よりも解像度が低い第一画像とを用いて学習する学習ステップと、
を有することを特徴とする画像処理方法。 - コンピュータを、請求項1から22のいずれか一項に記載の画像処理装置の各手段として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019021687A JP2020129276A (ja) | 2019-02-08 | 2019-02-08 | 画像処理装置、画像処理方法、およびプログラム |
US16/750,520 US20200258196A1 (en) | 2019-02-08 | 2020-01-23 | Image processing apparatus, image processing method, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019021687A JP2020129276A (ja) | 2019-02-08 | 2019-02-08 | 画像処理装置、画像処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020129276A true JP2020129276A (ja) | 2020-08-27 |
JP2020129276A5 JP2020129276A5 (ja) | 2022-02-17 |
Family
ID=71945152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019021687A Withdrawn JP2020129276A (ja) | 2019-02-08 | 2019-02-08 | 画像処理装置、画像処理方法、およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20200258196A1 (ja) |
JP (1) | JP2020129276A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022088588A (ja) * | 2021-06-09 | 2022-06-14 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 画像画質補強方法、装置、機器および媒体 |
WO2022153476A1 (ja) * | 2021-01-15 | 2022-07-21 | 日本電信電話株式会社 | 映像処理装置、映像処理方法、及び、映像処理プログラム |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020172019A1 (en) * | 2019-02-20 | 2020-08-27 | Saudi Arabian Oil Company | Method for fast calculation of seismic attributes using artificial intelligence |
CN112396558A (zh) * | 2019-08-15 | 2021-02-23 | 株式会社理光 | 图像处理方法、装置及计算机可读存储介质 |
WO2021053735A1 (ja) * | 2019-09-17 | 2021-03-25 | 株式会社ソニー・インタラクティブエンタテインメント | アップスケーリング装置、アップスケーリング方法、及び、アップスケーリングプログラム |
US11461594B2 (en) * | 2020-03-23 | 2022-10-04 | Raytheon Company | Transform disentangling auto-encoder and related methods |
JP2021179833A (ja) | 2020-05-14 | 2021-11-18 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP2022002376A (ja) | 2020-06-22 | 2022-01-06 | キヤノン株式会社 | 画像処理装置、画像処理方法およびプログラム |
JP2022085643A (ja) * | 2020-11-27 | 2022-06-08 | キヤノン株式会社 | 画像処理装置、画像処理方法及びプログラム |
US20240070806A1 (en) * | 2022-08-23 | 2024-02-29 | Tmrw Foundation Ip S. À R.L. | System and method for transmission and receiving of image frames |
-
2019
- 2019-02-08 JP JP2019021687A patent/JP2020129276A/ja not_active Withdrawn
-
2020
- 2020-01-23 US US16/750,520 patent/US20200258196A1/en not_active Abandoned
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022153476A1 (ja) * | 2021-01-15 | 2022-07-21 | 日本電信電話株式会社 | 映像処理装置、映像処理方法、及び、映像処理プログラム |
JP2022088588A (ja) * | 2021-06-09 | 2022-06-14 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 画像画質補強方法、装置、機器および媒体 |
JP7389840B2 (ja) | 2021-06-09 | 2023-11-30 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 画像画質補強方法、装置、機器および媒体 |
Also Published As
Publication number | Publication date |
---|---|
US20200258196A1 (en) | 2020-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020129276A (ja) | 画像処理装置、画像処理方法、およびプログラム | |
JP6371553B2 (ja) | 映像表示装置および映像表示システム | |
JP6347675B2 (ja) | 画像処理装置、撮像装置、画像処理方法、撮像方法及びプログラム | |
JP6635799B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
US9202263B2 (en) | System and method for spatio video image enhancement | |
KR101223046B1 (ko) | 정지장면의 연속프레임 영상에 기반한 영상분할장치 및 방법 | |
Fredembach et al. | Simple shadow remova | |
KR20110078175A (ko) | 영상 데이터 생성 방법 및 장치 | |
CN111510691B (zh) | 颜色插值方法及装置、设备、存储介质 | |
US11282176B2 (en) | Image refocusing | |
JP7159384B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP2012208553A (ja) | 画像処理装置、および画像処理方法、並びにプログラム | |
JP2018025878A (ja) | 画像処理装置、画像処理方法及びプログラム | |
US20150035828A1 (en) | Method for processing a current image of an image sequence, and corresponding computer program and processing device | |
JP7374582B2 (ja) | 画像処理装置、画像生成方法およびプログラム | |
WO2016113805A1 (en) | Image processing method, image processing apparatus, image pickup apparatus, program, and storage medium | |
JP5286215B2 (ja) | 輪郭抽出装置、輪郭抽出方法、および輪郭抽出プログラム | |
JP7312026B2 (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP6938282B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP6056511B2 (ja) | 画像処理装置、方法、及びプログラム、並びに撮像装置 | |
JP2018160024A (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP6762779B2 (ja) | 画像処理装置、撮像装置、画像処理方法、及びプログラム | |
JP7445109B2 (ja) | 画像処理プログラム、画像処理装置、画像処理システム、及び画像処理方法 | |
JP6314281B1 (ja) | 画像処理方法及び前景領域取得方法 | |
JP7369333B2 (ja) | 三次元形状モデル生成システム、三次元形状モデル生成方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220208 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221216 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20221222 |