JP2020197774A - 画像処理方法、画像処理装置、撮像装置、画像処理プログラム、および、記憶媒体 - Google Patents

画像処理方法、画像処理装置、撮像装置、画像処理プログラム、および、記憶媒体 Download PDF

Info

Publication number
JP2020197774A
JP2020197774A JP2019101896A JP2019101896A JP2020197774A JP 2020197774 A JP2020197774 A JP 2020197774A JP 2019101896 A JP2019101896 A JP 2019101896A JP 2019101896 A JP2019101896 A JP 2019101896A JP 2020197774 A JP2020197774 A JP 2020197774A
Authority
JP
Japan
Prior art keywords
image
image processing
normal
normal map
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019101896A
Other languages
English (en)
Inventor
義明 井田
Yoshiaki Ida
義明 井田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2019101896A priority Critical patent/JP2020197774A/ja
Publication of JP2020197774A publication Critical patent/JP2020197774A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Length Measuring Devices By Optical Means (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 反射特性や形状の制約がない一般的な被写体において、破綻の少ない高精度な法線情報を推定することが可能な画像処理方法を提供すること。【解決手段】 被写体空間を撮影した撮影画像と、該被写体空間の法線分布を表す第1の法線マップと、予め学習された学習情報と、を取得する工程と、前記撮影画像の少なくとも一部である入力画像と前記学習情報に基づいて、第2の法線マップを推定する工程と、前記第1および第2の法線マップを合成して、第3の法線マップを生成する工程と、を有し、前記第2の法線マップは、Nを2以上の整数、nを1からNまでの整数とした時、前記入力画像に対して、前記学習情報に基づく複数の線型関数それぞれによる第n線型変換と、非線型関数による第n非線型変換を、nが1からNになるまで順に実行して中間データを生成する工程と、前記中間データに対して、前記学習情報に基づく少なくとも1つ以上の線型関数による第N+1線型変換を実行する工程と、を実行することによって生成されることを特徴とする。【選択図】図1

Description

本発明は、被写体の法線情報を取得する画像処理方法に関する。
デジタルカメラ等の撮像装置で被写体を撮像して得られた撮影画像から、被写体の形状情報として面法線の情報(以下、法線情報という)を取得する方法が知られている。法線情報を取得する方法としては、シェイプフロムシェーディング法や、照度差ステレオ法がある。
シェイプフロムシェーディング法は1枚の撮影画像からも法線情報を推定できるが、対象物体の反射率が一様であることや被写体の形状がなめらかに変化すること等の仮定を必要とする。
照度差ステレオ法は、被写体の面法線と光源方向に基づいた反射特性を仮定し、複数の光源位置での被写体の輝度情報と仮定した反射特性とから面法線を決定する方法である。複数の光源位置で撮像した撮影画像を用いることでシェイプフロムシェーディング法よりも少ない仮定の下で法線情報を推定できる。仮定される被写体の反射特性としてはランバートの余弦則に従うランバート反射モデルが用いられることが多い。
一般に、物体での反射には、鏡面反射と拡散反射とがある。鏡面反射は、物体表面での正反射であり、物体表面(界面)においてフレネルの式に従うフレネル反射である。拡散反射は、被写体の表面を透過した後に物体内部で散乱されて光が返ってくる反射である。鏡面反射した光は上述のランバートの余弦則では表せず、撮像装置で観測される被写体からの反射光に鏡面反射光が含まれていると、シェイプフロムシェーディング法や照度差ステレオ法では面法線が正確に求まらない。光源からの光が当たらない陰影部においても仮定した反射モデルからのずれが生じ、被写体の法線情報を正確に取得することができない。さらに、表面の粗い被写体や半透明体などでは拡散反射成分もランバートの余弦則からずれを生じる。また相互反射が生じている場合および拡散反射成分が観測されない金属や透明体などにおいても、被写体の法線情報を正確に取得することができない。
特許文献1には、4つ以上の光源を使用して得られた複数の法線候補から、鏡面反射成分の影響を除いて高精度に面法線を求める方法が開示されている。また、非特許文献1には、畳み込みニューラルネットワークを応用して1枚の撮影画像から法線情報を推定する方法が開示されている。
特開2010−122158号公報
しかし、特許文献1に開示された手法では、鏡面反射成分の影響を受ける撮影画像が複数ある場合、陰影部が生じた場合、ランバートの余弦則からずれた反射特性を持つ被写体の場合、相互反射が生じた場合、および金属や透明体の場合等において、被写体の法線情報を推定できずに破綻してしまう。非特許文献1に開示された手法では、推定できないことによる破綻部は生じにくいが、照度差ステレオ法等で高精度に取得された法線マップに対して推定精度が低い。
そこで、本発明の目的は、反射特性や形状の制約がない一般的な被写体において、破綻の少ない高精度な法線情報を推定することが可能な画像処理方法を提供することにある。
上記の目的を達成するために、本発明に係る画像処理方法は、
被写体空間を撮影した撮影画像と、該被写体空間の法線分布を表す第1の法線マップと、予め学習された学習情報と、を取得する工程と、前記撮影画像の少なくとも一部である入力画像と前記学習情報に基づいて、第2の法線マップを推定する工程と、前記第1および第2の法線マップを合成して、第3の法線マップを生成する工程と、を有し、前記第2の法線マップは、Nを2以上の整数、nを1からNまでの整数とした時、前記入力画像に対して、前記学習情報に基づく複数の線型関数それぞれによる第n線型変換と、非線型関数による第n非線型変換を、nが1からNになるまで順に実行して中間データを生成する工程と、前記中間データに対して、前記学習情報に基づく少なくとも1つ以上の線型関数による第N+1線型変換を実行する工程と、を実行することによって生成されることを特徴とする。
本発明によれば、反射特性や形状の制約がない一般的な被写体において、破綻の少ない高精度な法線情報を推定することが可能な画像処理方法の提供を実現できる。
実施例1乃至3における第2の法線マップ推定のネットワーク構造を示した図 実施例1及び3における撮像装置のブロック図 実施例1及び3における撮像装置の外観図 実施例1における第3の法線マップ生成に関するフローを示した図 実施例1乃至3における学習情報の学習に関するフローを示した図 実施例2における画像処理システムのブロック図 実施例2における画像処理システムの外観図 実施例2における撮像部を示した図 実施例2における第3の法線マップ生成に関するフローを示した図 実施例3における第3の法線マップ生成に関するフローを示した図
以下、本発明を実施するための形態について、図面を参照しながら詳細に説明する。各図において、同一の部材については同一の参照番号を付し、重複する説明は省略する。
実施例の具体的な説明へ入る前に、本発明の要旨を述べる。本発明では、シェイプフロムシェーディング法や照度差ステレオ法などで求めた法線マップ(第1の法線マップ)と、ディープラーニング(深層学習)によって撮影画像から推定した法線マップ(第2の法線マップ)を合成することで、高精度な法線マップ(第3の法線マップ)を得る。ディープラーニングによって推定される法線マップは、照度差ステレオ法などによって取得された法線マップに対して精度が低いが、破綻部を生じにくい。そのため、照度差ステレオ法などで高精度に取得された法線マップの破綻部を、ディープラーニングで推定した法線マップに基づいて補正することによって、破綻の少ない高精度な法線マップを得ることができる。ここで法線マップとは被写体空間の法線情報を画像として並べたマップであり、法線情報とは、法線方向ベクトルや、法線を表す各自由度を指す。
本発明の画像処理方法を撮像装置へ適用した第1の実施例について述べる。本実施例では、照度差ステレオ法によって第1の法線マップを取得する。
実施例1における基本構成は図2で示され、外観は図3に示されたような撮像装置100の形態を取っている。まず、各部材の概略を説明することとし、その詳細については後述する。
撮像装置100は図2に示したように、被写体空間の像を撮影画像として取得する撮像部101を有している。撮像部101は、被写体空間から入射する光を集光する結像光学系101aと、複数の画素を有する撮像素子101bを有している。撮像素子101bは、例えばCCD(Charge Coupled Device)センサや、CMOS(Complementary Metal-Oxide Semiconductor)センサなどである。撮影画像(部分画像)は画像処理部102に入力され、画像処理部102は法線情報の推定を行う。
画像処理部102は、学習部102a、第1の法線マップ算出部102b、法線マップ整形部102cを有する。第1の法線マップ算出部102bは、複数光源環境下で撮影した撮影画像から、照度差ステレオ法を用いて被写体空間の法線情報分布を表す第1の法線マップを生成する。複数光源環境下で撮影した撮影画像は、撮像装置100が有する光源110を選択的に点灯しながら撮影することで取得する。光源110を全て消灯し、環境光のみで撮影した撮影画像を含んでもよい。ここでは光源110は撮像装置100と一体的に構成されているが、別途外部装置を用いてもよい。第1の法線マップは、鏡面反射などの影響により推定された法線に破綻が生じている可能性がある。
法線マップ整形部102cは、学習部102aによって予め学習された学習情報を記憶部103から読み出し、第1の法線マップを整形する。この処理の詳細は後述する。整形された法線マップ(第3の法線マップ)は撮影画像と合わせて記録媒体105に保存される。表示部104には、第3の法線マップを用いて生成された画像(例えばレンダリング画像)を表示することができる。
なお、第1及び第3の法線マップを生成せずに撮影画像のみを記録媒体105に保存してもよいし、記憶媒体105に保存された撮影画像を読み出して第1及び第3の法線マップを任意のタイミングで生成してもよい。また、撮影画像は動画でもよく、この場合、動画中の1フレームに対して法線マップを生成する。以上の一連の制御は、システムコントローラ106によって行われる。
次に、法線マップ整形部102cで行われる法線マップの整形処理に関して説明する。該整形処理では、事前に学習された学習情報を用いるが、この学習に関する詳細は後述する。図4は、法線マップの整形処理に関するフローチャートである。
ステップS101では、撮影画像の少なくとも一部である入力画像と学習情報と第1の法線マップを取得する。入力画像は、複数光源環境下で撮影した複数画像のうち一光源条件の画像でもよいし、複数画像それぞれから部分領域を抽出した画像でもよい。複数の部分領域を抽出する際は、各光源環境下の画像に対して同一の位置が含まれるように部分領域を抽出する。ただし、各部分領域のサイズは必ずしも同一でなくてよい。なお、各光源環境下における撮影画像のそれぞれに対して、電子的な手振れ補正処理等の位置ずらし処理を行ってもよい。また、入力画像に複数の光源環境下における被写体の輝度情報が存在する場合は、光源環境に依存した輝度変化から法線を見積もることができるため、部分領域のサイズは小さくてもよい。しかし、ある一光源環境下の画像のみを入力画像とする場合は、画像の構図など非局所的な特徴から法線情報を推定するため、ある程度の画像サイズを有していることが望ましい。学習情報とは、入力画像と法線マップを結びつけるために予め学習された情報である。
ステップS102では、学習情報を用いて入力画像から第2の法線マップを推定する。該推定処理に関して、図1を用いて説明する。図1は、ディープラーニングの一手法であるCNN(Convolutional Neural Network)のネットワーク構造を示している。ただし、CNN以外の手法、例えばDBN(Deep Belief Network)などを用いても構わない。CNNとDBNの詳細に関しては、それぞれ以下の参考文献1及び2を参照するとよい。
[参考文献1]
Y. LeCun, et al. “Gradient-based Learning Applied to Document Recognition”, Proc. of The IEEE, 1998.
[参考文献2]
G. E. Hinton, et al. “A fast learning algorithm for deep belief nets”, Neural Comput. 2006 Jul; 18(7): 1527-54.
CNNは、複数の層構造になっており、各層で学習情報を用いた線型変換と非線型変換が実行される。ここでnを1からNまでの整数とした時、n番目の層を第n層、第n層における線型変換と非線型変換をそれぞれ、第n線型変換と第n非線型変換と呼称する。ただし、Nは2以上の整数である。
入力画像201は、第1層で複数のフィルタ202それぞれとのコンボリューションと、定数(図1中のbias)との和を取られる。前記コンボリューションと和を、複数の線型関数による第1線型変換とする。実施例1において入力画像201は、3チャンネルの情報を有し、各チャンネルは異なる光源条件下において撮影された画像である。撮像素子101bで取得された複数光源環境下における撮影画像から、いずれか3つの光源条件を選択して入力画像とする。ただし、光源条件数はこれに限定されない。
また、各光源条件の画像がRGB(Red,Green,Blue)成分を有する場合は、色と光源条件をチャンネル成分としてもよいし(この場合、9チャンネルになる)、グレースケールに変換してもよい。さらに前述したように、入力画像201はある単一の光源条件下で撮影した画像でもよく、光源110を点灯せずに環境光下で撮影した画像でもよい。
また、法線マップのチャンネル数は、法線情報の表現方法によって異なる。法線ベクトルの3次元の成分を各チャンネルに割り当てれば3チャンネルであり、法線ベクトルの方向を2つの角度で表現すれば2チャンネルである。なお、第2の法線マップを得る際に、視点の異なる複数の撮影画像(視差画像)を入力してもよい。視点によっても光の反射角が変化することから被写体の反射特性に応じて撮影画像の輝度値も変化する。従って、同一の被写体に対して異なる光の反射を受けた画像を複数入力することで、推定精度を向上することができる。この際、第1の法線マップを取得する際には視差画像を用いていなくともよい。
フィルタ202は複数存在し、それぞれと入力画像201とのコンボリューションを個別に算出する。フィルタ202の係数は、学習情報から決定される。学習情報はフィルタ係数そのものでもよいし、フィルタをなんらかの関数でフィッティングした際の係数でもよい。フィルタ202それぞれのチャンネル数は入力画像201と一致し、入力画像201のチャンネル数が2以上の場合、3次元フィルタとなる(3次元目がチャンネル数を表す)。
入力画像201は、第1線型変換を施された後、活性化関数(Activation Function:図1ではAFと表記)と呼ばれる非線型関数で変換(第1非線型変換)される。活性化関数f(x)の例としては、以下の式(1)乃至(3)が挙げられる。
式(1)はシグモイド関数、式(2)はハイパボリックタンジェント関数、式(3)はReLU(Rectified Linear Unit)と呼ばれる。式(3)中のmaxは、引数のうち最大値を出力するMAX関数を表す。式(1)乃至(3)は、全て単調増加関数である。また、活性化関数としてMaxoutを使用してもよい。Maxoutは、第n線型変換の出力の各画素に対して、チャンネルの中から最大値の信号値を出力するMAX関数である。Maxoutに関しては、以下の参考文献3に詳しい。
[参考文献3]
I. J. Goodfellow, et al., “Maxout networks”, arXiv preprint arXiv:1302.4389 (2013).
第1線型変換、及び第1非線型変換を施された入力画像201を、第1変換データ203と呼称する。ここで、第1変換データ203の各チャンネル成分は、入力画像201とフィルタ202それぞれのコンボリューションから生成される。そのため、第1変換データ203のチャンネル数は、フィルタ202の数と同じになる。図1において、第1変換データ203のチャンネル数は4であるが、発明はこれに限定されない。
第2層では、第1変換データ203に対して、第1層と同様に学習情報から決定される複数のフィルタ204とのコンボリューション及び定数の和(第2線型変換)を行い、活性化関数による非線型変換(第2非線型変換)を施す。第2層で使用するフィルタ204は、第1層で使用するフィルタ202と一般に同一ではない。フィルタのサイズや数も一致しなくて良い。ただし、フィルタ204のチャンネル数と第1変換データ203のチャンネル数は一致する。同様の演算を第N層まで繰り返すことで、中間データ210を得る。最後に、第N+1層で中間データ210に対し、第N+1線型変換として全結合(Full Connection:図1ではFCと表記)211を実行する。全結合211は、中間データにおける全信号の線型結合と定数の和を行う。この際、各信号にかかる係数と定数は、学習情報によって決定される。また、係数と定数は複数種類が存在し、それぞれの係数と定数に対して線型結合が計算され、複数の結果が出力される。それらの出力を配列したものが、推定法線212となる。
入力画像201が撮影画像の画角全体を含む場合は、推定法線情報212が第2の法線マップとなる。入力画像201が撮影画像の画角を部分的にのみ含む場合は、撮影画像の異なる位置から入力画像201を複数抽出し、それぞれの入力画像201で推定された推定法線212を合成することによって、第2の法線マップを得る。なお、入力画像201と推定法線212のサイズは必ずしも一致しなくてよい。コンボリューション時、入力画像201の外側にはデータが存在しないため、データの存在する領域のみで演算すると、コンボリューション結果はサイズが小さくなる。ただし、適当な境界条件をかすことで、サイズを保つこともできる。また、第N+1線型変換は全結合でなく、フィルタとのコンボリューションでもよく、逆に第1乃至第N線型変換で全結合を用いてもよい。さらに、任意の層でダウンサンプリングであるプーリング(Pooling)などを行ってもよい。
ディープラーニングが高い性能を発揮できる理由は、非線型変換を多層構造によって何度も行うことで、高い非線型性が得られるためである。仮に、非線型変換を担う活性化関数が存在せず、線型変換のみでネットワークが構成されていた場合、いくら多層にしてもそれと等価な単層の線型変換が存在するため、多層構造にする意味がない。ディープラーニングは、より多層にする方が強い非線型を得られるため、高い性能が出やすいと言われている。一般に、少なくとも3層以上を有する場合がディープラーニングと呼ばれている。
ステップS103では、第1の法線マップの信頼度マップと撮影画像のラベルマップを取得する。信頼度マップとは、第1の法線マップの各位置において、法線情報の値がどの程度信頼できるかを示した分布である。信頼度マップは、例えば第1の法線マップがランバートモデルを仮定した照度差ステレオ法から算出されている場合、第1の法線マップおよびランバートモデルから推測される輝度値と実際の輝度値との差分量などから生成することができる。ラベルマップとは、被写体の特性に基づいて撮影画像の各領域をラベル付けした分布である。被写体の特性とは、主に透過・反射特性を指し、例えば以下の参考文献4に挙げた手法などで被写体の材質ごとにラベル付けをすることで、その領域がどのような透過・反射特性を有しているかが分かる。他にも鏡面反射領域、相互反射領域、または影領域など第1の法線マップを取得する際に破綻の原因となる領域を公知の手法により取得してラベル付けしてもよい。
[参考文献4]
S. Bell, et al., “Material recognition in the wild with the materials in context database”, Proceedings of the IEEE conference on CVPR (2015).
ここで照度差ステレオ法などの各法線取得方法において、どのような被写体が法線取得の破綻部になるか説明する。まず、照度差ステレオ法に関して述べる。照度差ステレオ法によって法線を取得する場合、異なる光源環境下で撮影した際の輝度の変化から法線方向を取得する。一般の反射特性に対応した照度差ステレオ法もあるが、撮影枚数や計算負荷が増えるため、多くの場合はランバートモデルに従う拡散反射を仮定している。従って鏡面反射が観測される場合には誤った法線が取得される。入射光が遮蔽される影部や入射光が当たらない陰部、他の物体からの反射光が入射する相互反射による輝度の変化によっても法線が破綻しやすい。表面の粗い被写体や内部散乱の強い半透明体においてはランバートモデルから外れた反射特性を示し、また光沢のある金属やグラスのような透明体では拡散反射が観測されないため、これらの被写体においても法線が破綻しやすい。また、環境光が強い場合には、光源からの入射光による寄与が相対的に小さくなり、取得精度が低下する。シェイプフロムシェーディング法においてもランバートモデルが仮定されることが多く、同様の被写体で破綻が生じやすい。また法線の連続的な変化を仮定した場合に、細かい凹凸形状がなまされる場合がある。
また、予め取得した距離マップから法線情報を取得する方法もある。この場合は遠近の被写体に対する境界部で距離が不連続的に変化すると誤った法線情報が推定される。法線情報は距離情報の微分に相当するため、距離マップのノイズにも強く影響される。また、距離マップの取得方法によって距離マップ自体に破綻がある場合もあり、この場合も法線情報が破綻する。例えば多視点画像から視点間の相関をもとに距離を取得する場合、視点ごとに見えの異なる鏡面反射体や透明体、オクルージョン、テクスチャが少ないために位置ごとの輝度変化も少ない被写体や、周期的な構造を持つ被写体などによって距離が破綻しやすい。Time of flight法によって距離を取得する場合は、光が返ってこない鏡面反射体や透明体で距離が取得できなかったり、低反射物体や外光の強い環境下でノイズによって取得精度が低下したりする。
以上のような第1の法線マップの精度が低くなる領域を判定するために、ラベルマップや信頼度マップを取得する。
ステップS104では、信頼度マップとラベルマップに基づいて、第1及び第2の法線マップを合成し、第3の法線マップを生成する。合成に使用するのは、信頼度マップとラベルマップのどちらか一方のみでもよい。前述したような第1の法線マップにおいて精度が低下する領域を、信頼度マップとラベルマップから判定し、該領域において第2の法線マップの重みを大きくして合成を行う。それ以外の領域においては、第1の法線マップの重みを大きくすることが望ましい。これは仮定が成り立つ領域においては、第1の法線マップの方が高精度に法線を取得できている可能性が高いためである。合成は、第1及び第2の法線マップの加重平均によって行ってもよいし、第1の法線マップの精度が低い領域のみを第2の法線マップで置換する(第1の法線マップの重みがゼロの場合に相当)ことによって行ってもよい。これによって、第1の法線マップにおける破綻部、又は低精度な領域が補正された第3の法線マップを生成することができる。
ステップS105では、第3の法線マップを出力する。
以上の処理によって、破綻の少ない高精度な法線マップを推定することができる。
なお、第1の法線マップを取得する方法は照度差ステレオ法に限定されず、シェイプフロムシェーディング法や視差画像から取得した被写体空間のデプスマップ(距離マップ)に基づいて取得してもよい。
次に、学習情報の学習に関して、図5のフローチャートを用いて説明する。学習は、第2の法線マップの生成前であれば、撮像装置100の学習部102aで行なってもよいし、撮像装置100とは別の演算装置で行なってもよい。本実施例では、学習部102aで学習を実行する場合を例に挙げて説明する。
ステップS201では、複数の学習ペアを取得する。学習ペアとは参照画像と該参照画像に対応する参照法線マップである。参照画像は、第2の法線マップを求める際の入力画像と同じ形式の画像である。例えば、入力画像がある一つの光源環境下の画像であれば、参照画像もある一つの光源環境下の画像であり、入力画像が異なる複数の光源環境下の画像であれば参照画像も同様である。参照画像と参照法線マップは、実際の被写体に対して実写、及び法線を実測したデータを用いてもよいし、CGによるシミュレーションの結果を用いてもよい。学習情報は第1の法線マップの補正に使用するため、参照画像の幾つかには第1の法線マップで法線の精度が低くなる被写体が含まれている。本実施例では照度差ステレオ法により第1の法線マップを生成するため、参照画像には前述したように照度差ステレオ法が破綻しやすい被写体である、金属や透明体、ランバートモデルに従わない反射特性の被写体などが含まれる。
ステップS202では、複数の学習ペアから学習情報を生成する。学習では、第2の法線マップ生成と同じネットワーク構造を使用する。本実施例では、図1に示したネットワーク構造に対して参照画像を入力し、その出力結果と参照法線マップの誤差を算出する。該誤差が最小化されるように、例えば誤差逆伝播法(Backpropagation)などを用いて、第1乃至N+1層で用いる係数と和をとる定数(学習情報)を更新、最適化する。フィルタや全結合の係数と定数の初期値はなんでもよく、例えば乱数から決定するとよい。或いは、各層ごとに初期値を事前学習するAuto Encoderなどのプレトレーニングを行なってもよい。Auto Encoderに関しては、以下の参考文献5に詳しい。
[参考文献5]
G. E. Hinton & R .R. Salakhutdinov (2006-07-28). “Reducing the Dimensionality of Data with Neural Networks”, Science 313(5786): 504-507.
学習ペアを全てネットワーク構造へ入力し、それら全ての情報を使って学習情報を更新する手法をバッチ学習と呼ぶ。ただし、この学習方法は学習ペアの数が増えるにつれて、計算負荷が膨大になってしまう。逆に、学習情報の更新に1つの学習ペアのみを使用し、更新ごとに異なる学習ペアを使用する学習手法をオンライン学習と呼ぶ。この手法は、学習ペアが増えても計算量が増大しない利点があるが、その代わりに1つの学習ペアに存在するノイズの影響を大きく受ける問題がある。そのため、これら2つの手法の中間に位置するミニバッチ法を用いて学習することが望ましい。ミニバッチ法は、全学習ペアの中から少数を抽出し、それらを用いて学習情報の更新を行なう。次の更新では、異なる小数の学習ペアを抽出して使用する。これを繰り返すことで、バッチ学習とオンライン学習の問題点を小さくすることができ、法線の推定精度が向上しやすくなる。
ステップS203では、学習された学習情報を出力する。本実施例では、学習情報は記憶部103に記憶される。
以上の処理によって、破綻の少ない高精度な法線マップを推定することが可能な学習情報を学習することができる。
また、以上の処理に加えて、CNNの性能を向上させる工夫を併用してもよい。例えば、ロバスト性の向上のためネットワークの各層において、ドロップアウト(Dropout)やダウンサンプリングであるプーリング(pooling)を行なってもよい。或いは学習精度の向上のため、学習画像の画素の平均値を0、分散を1に正規化してもよい。ドロップアウトに関しては、以下の参考文献6に詳しく記載されている。
[参考文献6]
N. Srivastava, et al., “Dropout: A simple way to prevent neural networks from overfitting”, The Journal of Machine Learning Research, 15(1):1929-1958, 2014.
以上の構成によって、破綻の少ない高精度な法線マップを推定することが可能な撮像装置を提供することができる。
本発明の画像処理方法を画像処理システムに適用した第2の実施例に関して述べる。実施例2では、法線マップを推定する画像処理装置と、撮影画像を取得する撮像装置、学習を行なうサーバーが個別に存在している。また、多視点画像から取得したデプスマップに基づいて第1の法線マップを算出する。
実施例2における画像処理システムの基本構成は図6で示され、外観は図7に示されたような形態を取っている。撮像装置300の撮像部330は、被写体空間の多視点画像(撮影画像)を取得する。
撮像部330は、図8に示すような構成をしており、該構成はPlenoptic1.0構成と呼ばれる。図8中の一点鎖線は軸上光束を表す。撮像素子330bは、マイクロレンズアレイ322と、複数の画素321を有する。マイクロレンズアレイ322は、結像光学系330aを介して被写体面320と共役になる位置に配置される。マイクロレンズアレイ322を構成するマイクロレンズには、それぞれ複数の画素が対応付けられている。これによって結像光学系301aの瞳を分割し、1つのマイクロレンズに対応する各画素が異なる視点(瞳の位置)から被写体空間を観察した情報を取得することで、多視点画像を取得する。本実施例では、1つのマイクロレンズに対して2次元的に4つの画素が配列されており、4視点の画像を取得する。なお、撮像部330の構成はこれに限定されず、多視点画像を取得可能な構成(複眼など)であればなんでもよい。また、視点数にも限定はない。取得された多視点画像は、画像処理装置301内の記憶部302に記憶される。
画像処理装置301は、推定部303にて多視点画像からブロックマッチングなどの公知の方法によって一度デプスマップを算出し、該デプスマップの差分に基づいて第1の法線マップを推定する。さらに画像処理装置301は、ネットワーク305と有線、又は無線で接続されており、同様に接続されたサーバー306にアクセスする。サーバー306は、撮影画像から第2の法線マップを算出するための学習情報を学習する学習部308と、該学習情報を記憶する記憶部307を有している。画像処理装置301は、サーバー306の記憶部307から学習情報を取得し、整形部304で撮影画像から第2の法線マップを算出する。その後、整形部304は第1及び第2の法線マップを合成し、第3の法線マップを生成する。第3の法線マップ、或いは第3の法線マップを用いて画像処理(例えば、仮想光源を用いてレンダリングしたリライティング画像など)を施された撮影画像は、表示装置309、記録媒体310、出力装置311の少なくともいずれかに出力される。
表示装置309は、例えば液晶ディスプレイやプロジェクタなどである。ユーザーは表示装置309を介して、処理途中の画像を確認しながら作業を行うことができる。記録媒体310は、例えば半導体メモリ、ハードディスク、ネットワーク上のサーバー等である。出力装置311は、プリンタなどである。画像処理装置301は、必要に応じて現像処理やその他の画像処理を行う機能を有していてよい。
次に、整形部304で行なう第3の法線マップ生成処理を、図9のフローチャートを用いて説明する。実施例2では、撮影画像のラベルマップ、又は第1の法線マップの信頼度マップに基づいて、撮影画像から第1の法線マップの精度が低い領域のみを入力画像として抽出する。これにより、第2の法線マップを算出する領域が小さくなり、計算負荷が低減される。
ステップS301では、撮影画像と第1の法線マップを取得する。
ステップS302では、撮影画像の法線マップと第1の法線マップの信頼度マップを取得する。ただし、取得するのはどちらか一方のみでもよい。
ステップS303では、ラベルマップ、及び信頼度マップ(どちらか一方のみでもよい)に基づいて、撮影画像から入力画像を抽出する。入力画像は、第1の法線マップにおいて法線の精度が低い領域である。実施例1のステップS103で説明したような被写体の領域を入力画像として抽出する。また、実施例2における入力画像は、撮影画像のうち少なくとも2枚以上の視点が異なる複数の画像それぞれから、同一位置の部分領域を抽出した複数の画像である。つまり、入力画像は単一の画像ではなく、視点が異なる2枚以上の画像を含む。単一の画像からディープラーニングを用いて法線を取得するためには、画像内の被写体の配置に関する非局所的な情報があると有利である。しかし、実施例2における入力画像は、撮影画像の画角の一部のみしか含まれないため、非局所的な被写体の配置に関する情報が不足する可能性がある。そのため、視点の異なる複数の画像から、第2の法線マップを推定する。これは撮像装置300に複数の光源を有する撮像系を使用した場合も同様であり、この際の入力画像は2枚以上の光源条件が異なる画像を含む。
ステップS304では、入力画像から第2の法線マップを算出する。算出には、実施例1と同様に図1のネットワーク構造を用いる。
ステップS305では、第1及び第2の法線マップを合成し、第3の法線マップを生成する。第2の法線マップの法線が算出された領域における第1の法線マップの法線を、第2の法線マップの法線で置換することで、第3の法線マップを生成する。ただし、合成方法はこれに限定されない。
ステップS306では、第3の法線マップを出力する。
以上の処理によって、破綻の少ない高精度な法線マップを推定することができる。
学習部308が行なう学習情報の学習は、実施例1と同様に図5に示したフローチャートに従う。学習情報の学習は複数の参照画像を用いて行う。実施例2では、第1の法線マップにおいて精度が低い領域のみを、第2の法線マップを算出する際の入力画像とするため、参照画像は第1の法線マップにおいて精度が低くなる被写体のみを含むようにしてもよい。
以上のような構成により、破綻の少ない高精度な法線マップを推定することが可能な画像処理システムを提供することができる。
本発明の画像処理方法を撮像装置に適用した第3の実施例に関して述べる。実施例3では、シェイプフロムシェーディング法によって第1の法線マップを得る。
撮像装置の構成は図2と同様であり、外観は図3と同様である。実施例1では第1の法線マップ算出部102bは照度差ステレオ法に基づいて法線を算出したのに対し、実施例3ではシェイプフロムシェーディング法に基づいて第1の法線マップを算出する点で異なる。シェイプフロムシェーディング法では複数の光源条件での撮影は必須ではないため、光源110は使わなくともよく、通常の補助光として用いてもよい。その他の部材の説明は実施例1と同様のため省略する。
法線マップ整形部102cは、図10のフローチャートに従って第3の法線マップを生成する。
ステップS401では、入力画像と学習情報と第1の法線マップを取得する。本実施例において、入力画像は撮影画像全体である。
ステップS402では、第2の法線マップを推定する。実施例1と同様に図1のネットワーク構造を用いて推定を行う。
ステップS403では、第1及び第2の法線マップを合成して、第3の法線マップを生成する。第1の法線マップにおいて局所的に法線のばらつきが大きい領域、或いは第1及び第2の法線マップの間で法線の乖離が大きい領域は、第1の法線マップの精度が低い領域と思われる。そのため、該領域は第2の法線マップの重みを大きくして合成を行う。
ステップS404では、第3の法線マップを出力する。
学習部402aで行う学習情報の学習は実施例1と同様のため、省略する。
以上の構成により、破綻の少ない高精度な法線マップを推定することが可能な撮像装置を提供することができる。
(他の実施例)
本発明は、上述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
各実施例によれば、破綻の少ない高精度な法線マップを推定することが可能な画像処理装置、撮像装置、画像処理方法、画像処理プログラム、および、記憶媒体を提供することができる。
以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されたものではなく、その要旨の範囲内で様々な変形、及び変更が可能である。
100 撮像装置、101a 結像光学系、101b 撮像素子、
102a 学習部、102b 第1の法線マップ算出部、
102c 法線マップ整形部、201 入力画像、
202及び204 フィルタ、203 第1変換データ、
210 中間データ、211 全結合、212 推定法線、
300 撮像装置、301 画像処置装置、306 サーバー、
309 表示装置、310 記録媒体、311 出力装置、
330 撮像部

Claims (13)

  1. 被写体空間を撮影した撮影画像と、該被写体空間の法線分布を表す第1の法線マップと、予め学習された学習情報と、を取得する工程と、
    前記撮影画像の少なくとも一部である入力画像と前記学習情報に基づいて、第2の法線マップを推定する工程と、
    前記第1および第2の法線マップを合成して、第3の法線マップを生成する工程と、を有し、
    前記第2の法線マップは、Nを2以上の整数、nを1からNまでの整数とした時、
    前記入力画像に対して、前記学習情報に基づく複数の線型関数それぞれによる第n線型変換と、非線型関数による第n非線型変換を、nが1からNになるまで順に実行して中間データを生成する工程と、
    前記中間データに対して、前記学習情報に基づく少なくとも1つ以上の線型関数による第N+1線型変換を実行する工程と、を実行することによって生成されることを特徴とする画像処理方法。
  2. 前記合成は、被写体の特性に基づいて前記撮影画像の各領域をラベル付けしたラベルマップ、または前記第1の法線マップにおける法線の信頼度マップに基づいて、行われることを特徴とする請求項1に記載の画像処理方法。
  3. 前記合成は、前記ラベルマップのうち前記第1の法線マップにおいて精度が低くなる被写体を表すラベルの領域、または前記信頼度マップの信頼度が低い領域に対して、合成における前記第2の法線マップの重みを前記第1の法線マップより大きくすることを特徴とする請求項2に記載の画像処理方法。
  4. 前記入力画像は、被写体の特性に基づいて前記撮影画像の各領域をラベル付けしたラベルマップ、または前記第1の法線マップにおける法線の信頼度マップに基づいて、前記撮影画像から抽出されることを特徴とする請求項1乃至請求項3の何れか一項に記載の画像処理方法。
  5. 前記入力画像は、前記ラベルマップのうち前記第1の法線マップにおいて精度が低くなる被写体を表すラベルの領域、又は前記信頼度マップの信頼度が低い領域を前記撮影画像から抽出した画像であることを特徴とする請求項4に記載の画像処理方法。
  6. 前記学習情報は、複数の参照画像と該参照画像に対応する参照法線マップに基づいて学習された情報であり、
    前記参照画像は前記第1の法線マップにおいて精度が低くなる被写体を含むことを特徴とする請求項1乃至請求項5の何れか一項に記載の画像処理方法。
  7. 前記学習情報は、複数の参照画像と該参照画像に対応する参照法線マップに基づいて学習された情報であり、
    前記参照画像は前記第1の法線マップにおいて精度が低くなる被写体のみを含むことを特徴とする請求項4又は請求項5に記載の画像処理方法。
  8. 前記撮影画像は、前記被写体空間を異なる複数の光源環境下で撮影した複数の画像であり、
    前記入力画像は、前記複数の画像それぞれから同一位置の部分領域を抽出した複数の部分画像であることを特徴とする請求項1乃至請求項7の何れか一項に記載の画像処理方法。
  9. 前記第1の法線マップは、照度差ステレオ法またはシェイプフロムシェーディング法に基づいて算出された法線マップであることを特徴とする請求項1乃至請求項8の何れか一項に記載の画像処理方法。
  10. 請求項1乃至請求項9の何れか一項に記載の画像処理方法を実行する画像処理部と、
    前記学習情報を記憶する記憶部と、を有することを特徴とする画像処理装置。
  11. 被写体空間の像を撮影画像として取得する撮像部と、
    前記撮影画像に対して請求項1乃至9のいずれか1項に記載の画像処理方法を実行する画像処理部と、
    前記学習情報を記憶する記憶部と、を有することを特徴とする撮像装置。
  12. コンピュータに画像処理を実行させるコンピュータプログラムであって、
    請求項1乃至請求項9の何れか一項に記載の画像処理方法を前記画像処理として実行させるプログラム。
  13. 請求項12に記載の画像処理プログラムを記憶していることを特徴とする記憶媒体。
JP2019101896A 2019-05-31 2019-05-31 画像処理方法、画像処理装置、撮像装置、画像処理プログラム、および、記憶媒体 Pending JP2020197774A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019101896A JP2020197774A (ja) 2019-05-31 2019-05-31 画像処理方法、画像処理装置、撮像装置、画像処理プログラム、および、記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019101896A JP2020197774A (ja) 2019-05-31 2019-05-31 画像処理方法、画像処理装置、撮像装置、画像処理プログラム、および、記憶媒体

Publications (1)

Publication Number Publication Date
JP2020197774A true JP2020197774A (ja) 2020-12-10

Family

ID=73648035

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019101896A Pending JP2020197774A (ja) 2019-05-31 2019-05-31 画像処理方法、画像処理装置、撮像装置、画像処理プログラム、および、記憶媒体

Country Status (1)

Country Link
JP (1) JP2020197774A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113538549A (zh) * 2021-08-31 2021-10-22 广州光锥元信息科技有限公司 在处理图像时保留图像质感纹理的方法及系统
WO2023071287A1 (zh) * 2021-10-29 2023-05-04 浙江凌迪数字科技有限公司 通过多角度打光拍摄生成材质贴图的方法及电子装置
WO2024079853A1 (ja) * 2022-10-13 2024-04-18 日本電気株式会社 情報処理装置、情報処理方法、及び記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113538549A (zh) * 2021-08-31 2021-10-22 广州光锥元信息科技有限公司 在处理图像时保留图像质感纹理的方法及系统
CN113538549B (zh) * 2021-08-31 2023-12-22 广州光锥元信息科技有限公司 在处理图像时保留图像质感纹理的方法及系统
WO2023071287A1 (zh) * 2021-10-29 2023-05-04 浙江凌迪数字科技有限公司 通过多角度打光拍摄生成材质贴图的方法及电子装置
WO2024079853A1 (ja) * 2022-10-13 2024-04-18 日本電気株式会社 情報処理装置、情報処理方法、及び記録媒体

Similar Documents

Publication Publication Date Title
WO2020192483A1 (zh) 图像显示方法和设备
CN110799991B (zh) 用于使用卷积图像变换执行同时定位和映射的方法和系统
US11663691B2 (en) Method and apparatus for restoring image
JP7101646B2 (ja) イメージ復元方法及び装置
CN109819675B (zh) 图像生成装置以及图像生成方法
JP2019016275A (ja) 画像処理方法、画像処理プログラム、記憶媒体、画像処理装置、および撮像装置
EP3797384A1 (en) Method and system for imaging and image processing
KR20210089166A (ko) 신경망을 사용한 밝은 반점 제거
JP2020197774A (ja) 画像処理方法、画像処理装置、撮像装置、画像処理プログラム、および、記憶媒体
JP6910780B2 (ja) 画像処理方法、画像処理装置、撮像装置、画像処理プログラム、および、記憶媒体
CN112102182B (zh) 一种基于深度学习的单图像去反射方法
TW202117611A (zh) 電腦視覺訓練系統及訓練電腦視覺系統的方法
Cheng et al. Omnidirectional depth extension networks
US11741579B2 (en) Methods and systems for deblurring blurry images
CN112767467A (zh) 一种基于自监督深度学习的双图深度估计方法
JP7370922B2 (ja) 学習方法、プログラム及び画像処理装置
KR20220052359A (ko) 듀얼 카메라 및 듀얼 픽셀을 통한 조인트 깊이 예측
JP2019074777A (ja) 画像処理方法、画像処理装置、および撮像装置
Kang et al. Facial depth and normal estimation using single dual-pixel camera
Hossain et al. High dynamic range imaging of non-static scenes
JP7146461B2 (ja) 画像処理方法、画像処理装置、撮像装置、プログラム、および、記憶媒体
JP7246943B2 (ja) 画像処理方法、画像処理装置、画像処理システム、撮像装置、プログラム、および、記憶媒体
JP7286268B2 (ja) 画像処理方法、画像処理装置、撮像装置、画像処理プログラム、および、記憶媒体
CN115423927A (zh) 一种基于ViT的多视角3D重建方法及系统
JP5478533B2 (ja) 全方位画像生成方法、画像生成装置およびプログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20191125