JP2020101922A - 画像処理装置、画像処理方法およびプログラム - Google Patents

画像処理装置、画像処理方法およびプログラム Download PDF

Info

Publication number
JP2020101922A
JP2020101922A JP2018238658A JP2018238658A JP2020101922A JP 2020101922 A JP2020101922 A JP 2020101922A JP 2018238658 A JP2018238658 A JP 2018238658A JP 2018238658 A JP2018238658 A JP 2018238658A JP 2020101922 A JP2020101922 A JP 2020101922A
Authority
JP
Japan
Prior art keywords
image processing
image
shape
feature amount
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018238658A
Other languages
English (en)
Inventor
達朗 小泉
Tatsuro Koizumi
達朗 小泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2018238658A priority Critical patent/JP2020101922A/ja
Publication of JP2020101922A publication Critical patent/JP2020101922A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】オブジェクトの3次元形状の推定時に、より高い精度で偽物体の発生を抑制する。【解決手段】画像処理装置102において、複数のカメラ101を用いて複数の視点から撮像した画像からオブジェクトの形状を推定する。その際に、まず、各撮像画像における画素毎の特徴量を導出する。そして、当該導出された画素単位の特徴量に基づいて、オブジェクトの3次元形状を推定する。【選択図】図6

Description

本発明は複数視点画像からオブジェクトの形状を推定する技術に関する。
オブジェクト(被写体)を複数台のカメラで様々な方向から撮影して得られた撮像画像(複数視点画像)から、当該オブジェクトの3次元形状を復元する方法として、視体積交差法(Visual Hull)が知られている。視体積交差法では、各撮像画像におけるオブジェクトのシルエットを空間に投影し、それによって得られる複数の投影領域の共通部分を、オブジェクトの3次元形状として推定する。したがって、オブジェクトの形状が凸でない場合、推定によって得られた形状と実際の形状との誤差が大きくなる。特に、撮影シーンにおいて複数のオブジェクトが密集している場合、実際には存在しない偽物体(「Phantom Volume」とも呼ばれる)が、推定形状に含まれてしまう。この偽物体の発生を低減する方法としては、偽物体の候補を特定して除去するSafe Hull(非特許文献1)や、複数の視点間で色の整合性が取れる点のみ推定形状に残すPhoto Hull(特許文献1)などがある。
特開2012−208759号公報
"Safe Hulls", In IET European Conference on Visual Media Production, pages 1|8, 2007, G. Miller and A. Hilton "Fully Convolutional Networks for Semantic Segmentation", Computer Vision and Pattern Recognition (CVPR), 2015 , Jonathan Long, Evan Shelhamer,、Trevor Darrell "Deep Learning for Human Part Discovery in Images", IEEE International Conference on Robotics and Automation (ICRA), 2016, Thomas Brox et al.
しかしながら、上述のSafe HullやPhoto Hullの手法も偽物体の発生を抑制するには依然として十分とはいえなかった。例えば、Safe Hullでは、実際に存在する物体と偽物体とを上手く区別できない場合があった。また、Photo Hullでは、撮像画像に含まれる様々なノイズによって色の整合性が上手く取れない場合があった。そして、いずれの場合においても、実存の物体が消えたり、偽物体が残ったりしてしまうという問題が生じていた。
本発明に係る画像処理装置は、オブジェクトを複数の視点から撮像して取得された複数の撮像画像から当該オブジェクトの形状を推定する画像処理装置であって、各撮像画像の画素毎にオブジェクトらしさを表す特徴量を導出する導出手段と、前記各撮像画像から導出された特徴量に基づいて、前記オブジェクトの3次元形状を推定する推定手段と、を備えることを特徴とする。
本発明によれば、オブジェクトの形状推定時に、より高い精度で偽物体の発生を抑制することが可能となる。
複数視点画像からオブジェクトの形状推定を行う画像処理システムの構成の一例を示す図 従来技術における課題を説明する模式図 本実施形態に係る形状推定手法の概要を説明する模式図 画像処理装置のハードウェア構成の一例を示す図 画像処理装置の形状推定処理に関わるソフトウェア構成の一例を示す図 オブジェクトの3次元形状を推定する処理の流れを示すフローチャート 特徴量導出部の内部構成の一例を示すブロック図 カテゴリ情報が生成される過程を模式的に示した図 4チャネル画像情報の一例を示す図 実施形態1に係る、形状推定部の内部構成の一例を示すブロック図 実施形態1に係る、形状推定処理の詳細を示すフローチャート 実施形態2に係る、形状推定部の内部構成の一例を示すブロック図 実施形態2に係る、形状推定処理の詳細を示すフローチャート
以下、本発明の実施形態について図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。
実施形態1
(システム構成)
図1は、本実施形態に係る、複数視点画像からオブジェクトの形状推定を行う画像処理システムの構成の一例を示す図である。画像処理システム100は、複数のカメラ(撮像装置)101、画像処理装置102、表示デバイス103、入力デバイス104及び105を有する。カメラ101は、オブジェクト(ここでは、家110、木111、人112)を囲むように配置され、複数の方向からオブジェクトを撮像する。画像処理装置102は、各カメラ101での撮像によって得られた複数視点画像データを用いてオブジェクトの形状推定を行い、オブジェクトの3次元形状データを生成する。形状推定の詳細については後述する。
表示デバイス103は、液晶ディスプレイ等であり、UI画面を介してユーザに必要な情報を提供する。入力デバイス104及び105は、画像処理装置102に対してユーザが各種操作・指示を行うためのキーボードとマウスである。ユーザは、表示デバイス103に表示されたUI画面を介してキーボード104やマウス105を操作することで、撮像条件の設定や、複数視点画像データの確認、形状推定結果の確認などを行う。なお、表示デバイス103として例えばタッチパネルディスプレイを採用した場合は、上述の入力デバイス104及び105の機能を兼ねることになる。
(従来技術における課題)
図2は、従来技術における課題を説明する模式図である。いま、家110、木111及び人112の3つのオブジェクトが、視点Aと視点Bの2つの視点から撮像されるものとする。破線の矩形200はオブジェクトを真上から俯瞰した状態を示している。いま、視点Aからの撮像画像201と視点Bからの撮像画像202に対してオブジェクト抽出を行って得られた結果が、シルエット画像203及び204である。そして、シルエット画像203及び204における各オブジェクトのシルエットを視点Aと視点Bから空間に投影し共通部分を取ることで、各オブジェクトの形状が推定される。いま、推定結果の俯瞰図205には、5種類の再現物体210〜214が存在している。これら再現物体のうち、再現物体210〜212はそれぞれ家110、木111及び人112に相当する実在の物体であるが、再現物体213及び214は実在しない偽物体である。オブジェクトの色を考慮するPhoto Hullの手法によっても、例えば家110と木111との色が似ていた場合などには偽物体の発生を防ぐことができない。形状推定時における偽物体の発生を高精度で抑制することが本実施形態の課題である。
図3は、本実施形態に係る、偽物体の発生を抑制しつつ形状推定を行う手法の概要を説明する模式図である。図2と同様、家110、木111及び人112の3つのオブジェクトが、視点Aと視点Bの2つの視点から撮像されるものとする。本手法においては、シルエット画像の代わりに、オブジェクトらしさを表した特徴量を用いてオブジェクト形状を推定する。この特徴量は、撮像画像の画素毎に、各オブジェクトカテゴリに属する可能性の高さが多次元ベクトルで表される。前述の図1のような撮影シーンの場合、「木」「家」「人」の3種類のオブジェクトカテゴリを設ければよい。この場合において、特定の方向からの撮像画像におけるある画素について、「木」に属する尤度が“0.7”、「家」に属する尤度が“0.2”、「人」に属する尤度が“0.1”ならば、当該画素の特徴量は(0.7,0.2,0.1)の3次元ベクトルとして表される。図3において、視点Aからの撮像画像301からは特徴量Aが、視点Bからの撮像画像302からは特徴量Bが、それぞれ得られたとする。本手法では、複数視点画像の各撮像画像から得られた特徴量を画素単位で比較し、特徴量が類似している領域のみを残すことでオブジェクト形状を推定する。いま、推定結果の俯瞰図303には3種類の再現物体304〜306が存在しており、それぞれ、家110、木111及び人112に相当する実在の物体である。そして、前述の図2にはあった偽物体は存在しない。これは、偽物体に対応する部分の画素において、特徴量Aと特徴量Bとの差が大きく、再現物体として抽出されなかったことを意味している。このように本手法では、画像全体の特徴量を用いて再現物体の抽出を行うため、偽物体の発生を高精度で抑制することができる。なお、本手法において対象となるオブジェクトはどのようなものでもよく、オブジェクトカテゴリも撮影シーンなどに応じて適宜設定すればよい。例えば、スポーツの試合を撮影シーンとして、選手や審判といった人物を対象として形状推定を行う場合、人物の手、足、頭、胴といったより小さな単位でオブジェクトカテゴリを設けてもよい。また、ここでは説明の簡単化のため視点数が2つの場合を例に説明を行ったが、当然のことながら3つ以上でもよく、一般的には視点数が多いほど高精度の形状推定が可能となる。
(画像処理装置のハードウェア構成)
図4は、画像処理装置102のハードウェア構成の一例を示す図である。画像処理装置102は、CPU401、RAM402、ROM403、HDD404、通信I/F405、入力デバイスI/F406、出力デバイスI/F407を有する。CPU401は、RAM402をワークメモリとして、ROM403に格納された各種プログラムを実行し、画像処理装置102の各部を統括的に制御するプロセッサである。CPU401が、各種プログラムを実行することによって、後述の図5に示す各部の機能が実現される。なお、画像処理装置102がCPU401とは異なる専用の1又は複数のハードウェアあるいはGPU(Graphics Processing Unit)を有し、CPU401による処理の少なくとも一部をGPUあるいは専用のハードウェアが行うようにしても良い。専用のハードウェアの例としては、ASIC(特定用途向け集積回路)、及びDSP(デジタルシグナルプロセッサ)等がある。RAM402は、ROM403から読み出されたプログラムや演算結果など、通信I/F405を介して外部から供給されるデータなどを一時的に記憶する。ROM403は、変更を必要としないOSなどのプログラムやデータを保持する。HDD404は、上述の複数視点画像データ、その撮影を行ったカメラ101のカメラパラメータ、特徴量の導出時に用いる学習データ、形状推定時の対象空間を規定する処理範囲データなどの各種データを格納する大容量記憶装置であり、例えばSSDなどでもよい。通信I/F405は、複数のカメラ101から撮像画像データを受信するためのインタフェースである。入力デバイスI/F406は、ユーザが入力操作を行うためのキーボード104やマウス105を接続するインタフェースである。出力デバイスI/F407は、ユーザに必要な情報を表示する液晶ディスプレイ等の表示デバイスと接続するインタフェースである。
(画像処理装置のソフトウェア構成)
図5は、画像処理装置102の形状推定処理に関わるソフトウェア構成の一例を示す機能ブロック図である。画像処理装置102は、画像取得部501、特徴導出部502、形状推定部503を有する。以下、各部の概要を説明する。
画像取得部501は、複数の視点から撮影して得られた画像データ(複数視点画像データ)を、通信I/F405を介して取得する。取得した複数視点画像データは、特徴量導出部502に送られる。
特徴量導出部502は、複数視点画像を構成する各撮像画像について、それぞれの特徴量を導出する。この特徴量導出部502は、学習データに基づく機械学習によって得られる。学習データとは、撮影シーンに存在し得るオブジェクトを様々な向きや大きさで撮像し、得られた各画像に対して認識に適したラベルを教師信号として対応付けたデータである。学習前の特徴量導出部502に対し撮像画像を入力し、出力されるデータ(特徴量のデータ)と正解ラベルとの乖離が閾値より小さくなるように、特徴量導出部502を構成するニューラルネットワークの係数が調整される。ここで、正解ラベルは、予め入力した撮像画像と対応付けたラベル(特徴量のデータ)である。学習データは、例えばHDD404に保存しておいてもよい。このようにして、学習済みの特徴量導出部502が得られる。特徴量導出部502によって導出された各撮像画像の特徴量のデータは、形状推定部503に送られる。なお、ここでは特徴量導出部502が、ニューラルネットワークで構成される場合を説明したが、これに限定されるものではない。
形状推定部503は、各撮像画像から導出された特徴量と各視点に対応するカメラパラメータを用いて、撮影シーンに存在するオブジェクトの3次元形状を推定する。カメラパラメータは、各カメラ101の位置、姿勢、焦点距離などを表す情報であり、予めHDD404に格納されているものとする。本実施形態では、カメラパラメータの形式として、内部パラメータ行列と外部パラメータ行列を用いるものとする。
図6は、画像処理装置102における、オブジェクトの3次元形状を推定する処理の大まかな流れを示すフローチャートである。図6に示すフローは、ROM403に格納された制御プログラムがRAM402に読み出され、CPU401がこれを実行することによって実現される。複数視点画像データが画像取得部501によって取得・格納された後、ユーザからの形状推定処理の開始指示をトリガとして、図6のフローの実行が開始される。なお、以下の説明において「S」はステップを意味する。
S601では、特徴量導出部502が、複数視点画像データと学習データをHDD404から読み込む。これにより、特徴量の導出処理ができる状態になる。続くS602では、特徴量導出部502が、複数視点画像の中から処理対象とする1つの撮像画像(以下、「注目撮像画像」と表記)を決定する。そして、S603では、特徴量導出部502が、S602で決定した注目撮像画像についての特徴量を導出する。この特徴量導出処理の詳細については後述する。続くS604では、特徴量導出部502が、複数視点画像を構成する全ての撮像画像について特徴量の導出処理が完了したかどうかを判定する。未処理の撮像画像があればS602に戻って、次の注目撮像画像を決定して処理を続行する。一方、全ての撮像画像について特徴量の導出処理が終わっていればS605に進む。
S605では、形状推定部503が、複数視点画像の各撮像画像から導出された特徴量に基づき、オブジェクトの3次元形状を推定する処理を行う。この形状推定処理の詳細については後述する。
以上が、複数視点画像からオブジェクトの3次元形状を推定する処理の大まかな流れである。
(特徴量導出処理の詳細)
続いて、撮像画像から特徴量を導出する処理(S603)について詳しく説明する。図7は、特徴量導出部502の内部構成の一例を示すブロック図である。特徴量導出部502は、画素分類部701と判別用画像生成部702とを有する。以下、各部の動作を詳しく説明する。以下では、特徴量導出部502は、学習済みの特徴量導出部502として説明する。
画素分類部701は、撮像画像を構成する画素毎に、撮影シーンにおいて想定される所定のオブジェクトカテゴリへの帰属の度合いを表す情報(以下、「カテゴリ情報」と表記)を生成する。このカテゴリ情報の生成は、例えば畳み込みニューラルネットワーク(CNN:Convolutional Neural Networks)などの手法を用いて行う。CNNは、画像に畳み込み演算をした結果に更に別の畳み込み演算を連結することで、画像が持つ情報を徐々に縮約していく非線形の画像変換技術であり、その概要は以下のとおりである。まず、1階層目では、入力画像をfとして、畳み込み演算結果の画像gを以下の式(1)を用いて得る。そして、以降の階層では、前の階層で得た畳み込み演算結果の画像gが、その階層における入力画像fとなる。この処理が繰り返される。
Figure 2020101922
上記 式(1)において「*」は畳み込み演算オペレータであり、その詳細を以下の式(2)に示す。
Figure 2020101922
つまり、上記式(1)の「*」は、縦横の幅がそれぞれu、vの畳み込みカーネルwを入力画像fの座標(x,y)に対して適用することを、全ての座標(x,y)について行うことを示している。また、上記式(1)及び(2)中の関数γは非線形の活性化関数であり、シグモイド関数やアークタンジェント関数等が用いられる。図8は、CNNの手法によって、本実施形態のカテゴリ情報が生成される過程を模式的に示した図である。本実施形態では、入力画像800に対し、学習結果に基づく重み係数(フィルタ)で畳み込み演算を行い、その出力を非線形関数に入力して新たな画像としての情報を生成し、これを何層も繰り返すことで最終的に画素単位のカテゴリ情報を得る。この場合、それぞれの画素の周辺画素の情報なども加味されるので、ある画素とある画素がたとえ同じ色であっても、それぞれ内容の異なるカテゴリ情報が導出され得る。つまり、本実施形態で得られる画素単位のカテゴリ情報は、注目画素だけでなくその周辺画素や画像全体をも考慮しているため、単に画素の色のみを用いる手法では得られないより詳しい識別情報となる。こうして得られた画素単位のカテゴリ情報は、特徴画像生成部702に送られる。
判別用画像生成部702は、画素分類部701から受け取った画素単位のカテゴリ情報に基づき、処理対象の撮像画像について、前述の特徴量としての画像情報を生成する。この画像情報には、オブジェクトカテゴリへの各画素の帰属を判別するための画像(以下、「判別用画像」と表記)が少なくとも含まれる。図9(a)〜(d)は、オブジェクトカテゴリとして「家」「木」「人」の3種類を想定した場合の4チャネル画像情報の一例を示す。図9(a)は原画像、同(b)はオブジェクトカテゴリ「家」の判別用画像、同(c)はオブジェクトカテゴリ「木」の判別用画像、同(d)はオブジェクトカテゴリ「人」の判別用画像を示している。入力された画素単位のカテゴリ情報に基づき、同じオブジェクトカテゴリに属する画素を集めることで、図9(b)〜(d)に示すような、各オブジェクトカテゴリにそれぞれ対応した判別用画像が得られる。図9(a)〜(d)に示す4チャネル画像情報において、ある注目画素900における特徴量は、(0.2, 0.0, 0.9, 0.0)のように4次元のベクトルで表される。
なお、本実施形態では識別性を向上させるため、原画像を加えているがなくてもよい。また、原画像を加える際には、1チャネルでも複数チャネルでも構わない。また、上述した特徴量の導出方法は一例に過ぎない。予め用意した学習データに基づき、注目画素に対しその周辺画素の情報を用いてオブジェクトカテゴリへの帰属の度合いを表す値を画素毎に求め、求めた値に基づき特徴量を導出する方法であればどのような方法でも構わない。例えば、撮像画像に対し、人体の関節や物体の中心点といった部位の検出をさらに行い、検出した部位と各画素との位置関係(距離)に基づいて、各画素がどのオブジェクトカテゴリに帰属するのかを決定しても構わない。
(形状推定処理の詳細)
続いて、オブジェクトの3次元形状を推定する処理(S605)について詳しく説明する。図10は、本実施形態に係る、形状推定部503の内部構成の一例を示すブロック図である。形状推定部503は、候補点設定部1001、射影変換部1002、類似度算出部1003、類似度評価部1004、点群生成部1005を有する。処理範囲データとカメラパラメータはHDD404から読み出され、それぞれ候補点設定部1001と射影変換部1002に入力される。特徴量導出部502で各撮像画像から導出された特徴量のデータは類似度算出部1003に入力される。以下、図11のフローチャートを参照して、各部の動作を詳しく説明する。なお、以下の説明において「S」はステップを意味する。
まず、S1101において、候補点設定部1001が、処理範囲データで規定される対象空間の中から、オブジェクト形状を成す点群の候補となる処理対象として注目する点(以下、「候補点」と表記)を設定する。本ステップで設定される候補点のうち、一定の条件を満たす点が、3次元形状データとしての点群データを構成することになる。
次に、S1102において、射影変換部1002が、複数視点画像を撮影した際の各視点の中から処理対象として注目する視点(以下、「注目視点」と表記)を設定する。続くS1103において、射影変換部1002は、注目視点に対応するカメラ101のカメラパラメータに基づき、注目視点の撮像画像上に候補点を射影し、当該候補点の当該撮像画像上における位置を特定する。この場合において、撮像画像上での候補点の画素位置(u,v)は、以下の式(3)によって求めることができる。
Figure 2020101922
上記式(3)において、X、Y、Zは候補点の座標を表し、Aと[R T]は注目視点のカメラパラメータにおける内部パラメータ行列と外部パラメータ行列をそれぞれ表す。
次に、S1104において、類似度算出部1003が、S1103で特定された画素位置における特徴量を、注目視点の撮像画像の特徴量データから取り出す。
次に、S1105では、射影変換部1002が、複数視点画像における全ての視点について処理が完了したか否かを判定する。未処理の視点があればS1102に戻って次の視点を注目視点に設定して処理を繰り返す。一方、すべての視点についての処理が完了していればS1106に進む。
次に、S1106において、類似度算出部1003が、S1101で設定された候補点についての、全視点における特徴量を対象として、特徴量間の類似度を算出する。ここで、類似度Sは、以下の式(4)によって表される。
Figure 2020101922
上記式(4)において、Nは複数視点画像における視点数を表し、Fn及びFmは候補点をn及びm番目の視点の撮像画像上に射影した際の特徴量のベクトルをそれぞれ表す。そして、「1/N×ΣFm」は、m=1からNまでのFmの平均値(正確には平均ベクトル)を表す。つまり、上記式(4)におけるexpの中身は、各視点における特徴量ベクトルの分散値の符号を反転させたものである。
次に、S1107において、類似度評価部1004が、S1106で算出された類似度Sが所定の閾値以上か否かを判定する。すなわち、一定以上の高い類似度Sを示す場合に、候補点がオブジェクト形状を表す点群を構成する点として有効であると判定する。判定の結果、類似度Sが閾値以上であればS1108に進む。一方、類似度Sが閾値未満であればS1109に進む。
S1108では、点群生成部1005が、現在の候補点の座標情報を候補点設定部1001から取得し、当該座標情報で特定される点を、オブジェクトの3次元形状を表す点群データに追加する。こうして、点群データを構成する点が順次追加されていく。
S1109では、候補点設定部1001が、処理範囲データ内の全ての点を候補点として設定したかを判定する。未処理の点があればS1101に戻って次の点を候補点に設定して処理を繰り返す。一方、すべての点が候補点として設定されていれば本処理は終了となる。
以上が、本実施形態に係る、形状推定処理の内容である。こうして、図11のフローの終了時点において得られた点群データが、オブジェクトの3次元形状データとなる。なお、点群に代えてボクセルなど他の形式で3次元形状を表現する場合においても本実施形態は適用可能である。また、S1106で説明した類似度Sは、特徴量間の相違の度合いを表す指標の一例であり、上述の式(4)の内容に限定されない。たとえば、特徴量間の相違の度合いとして、特徴量を表す多次元ベクトルの各要素を全ての視点について乗じた値の総和を用いてもよい。また、類似度の代わりに、特徴量間の違いの大きさを表す値を求め、当該求めた値が閾値より小さい場合に、候補点がオブジェクト形状を表す点群を構成する点として有効であると判定しても構わない。
本実施形態によれば、複数視点画像を構成する各撮像画像から導出された特徴量に基づきオブジェクトの3次元形状を推定する。これにより、偽物体の発生を高精度で抑制することが可能となる。
実施形態2
実施形態1は、処理範囲データが規定する空間中に含まれる全ての点を処理対象の候補点に設定し、最終的に得られた点群データを、オブジェクトの3次元形状データとする態様であった。次に、オブジェクトの初期形状データを先ず生成し、当該初期形状データを構成する各点を処理対象の候補点に設定する態様を、実施形態2として説明する。なお、画像処理装置の基本的な構成など実施形態1と共通する部分は説明を省略ないしは簡略化し、以下では、差異点である形状推定部の内容を中心に説明を行うものとする。
図12は、本実施形態に係る、形状推定部503’の内部構成の一例を示すブロック図である。形状推定部503’は、図10で示した各部(候補点設定部1001、射影変換部1002、類似度算出部1003、類似度評価部1004、点群生成部1005)に加え、初期形状生成部1201、距離マップ生成部1202及び遮蔽判定部1203を有する。本実施形態では、処理範囲データを使用しない代わりに、複数視点画像データに基づき初期形状データを生成する。以下、図13のフローチャートを参照して、本実施形態に係る形状推定部503’の動作を詳しく説明する。なお、以下の説明において「S」はステップを意味する。
S1301では、初期形状生成部1201が、入力された複数視点画像データとその撮影に用いた各カメラ101のカメラパラメータに基づき、オブジェクトの初期形状データを生成する。ここでは、初期形状を点群で表したデータを、例えば視体積交差法を用いて生成するものとする。その際に必要となるオブジェクトのシルエット画像は背景差分法にて複数視点画像データから得るものとする。生成した初期形状データは、候補点設定部1001に送られる。
S1302では、射影変換部1002が、複数視点画像を撮影した際の各視点の中から注目視点を設定する。続くS1303では、射影変換部1002が、S1302で設定した注目視点に対応するカメラ101のカメラパラメータに基づき、初期形状を成す点群を注目視点の撮像画像上に射影し、距離情報を生成する。ここで、距離情報とは、カメラ101の視点位置から空間中のある点(x,y,z)に向かうベクトルを光軸に射影した際の長さであり、前述の式(3)におけるλで与えられる量(距離値)である。生成した距離情報は距離マップ生成部1202に送られる。
次に、S1304では、距離マップ生成部1202が、S1303で生成された距離情報に基づき、注目視点の撮像画像に対する距離マップを生成する。距離マップは、画素毎に、ある視点からオブジェクトまでの距離値が格納されたデータである。初期形状を表す点群を前述の式(3)に基づいて、注目視点の撮像画像に射影し、位置座標(u,v)で与えられる画素に距離情報を対応付けることで、この距離マップが得られる。この際、距離情報が格納されない画素が生じる場合がある。その際には、その周辺画素における距離情報を用いた補間処理によって、当該画素の距離情報を求めればよい。このようにして、注目視点の撮像画像に対する距離マップが得られる。
S1305では、射影変換部1002が、複数視点画像における全ての視点について処理が完了したかを判定する。未処理の視点があればS1302に戻って次の視点を注目視点に設定して処理を繰り返す。一方、全ての視点が処理されていればS1306に進む。
S1306〜S1308の各ステップは、実施形態1の図11のフローにおけるS1101〜S1103にそれぞれ対応する。まず、S1306では、候補点設定部1001が、オブジェクト形状を成す点群の候補として注目する候補点を設定する。実施形態1のS1101との違いは、処理範囲データで特定される空間ではなく、S1301で生成された初期形状データで特定される空間(オブジェクトの大雑把な3次元形状を表す空間)の中から、候補点を設定することである。こうして設定された候補点のうち一定の条件を満たす点が、最終的にオブジェクトの3次元形状を成す点群を構成することになる。続くS1307では、S1302と同様、射影変換部1002が、複数視点画像を撮影した際の各視点の中から注目視点を設定する。そして、S1308では、射影変換部1002が、S1307で設定した注目視点に対応するカメラ101のカメラパラメータに基づき、S1306で設定された候補点を注目視点の撮像画像上に射影して、当該撮像画像上での画素位置(u,v)を算出すると共にその距離情報を生成する。
S1309では、遮蔽判定部1203が、注目視点の撮像画像において、S1306で設定された候補点が見えているか否かを判定する。いま、候補点について、注目視点の撮像画像上での画素位置(u,v)と距離情報λが分かっている。そこで、注目視点の距離マップでの同じ画素位置(u,v)における距離情報λ’(u,v)を特定し、2つの距離情報を比較して、λ>λ’(u,v)であれば、候補点は別の点(別のオブジェクト)によって遮蔽されて見えないと判定する。判定結果は、候補点が遮蔽されずに見えている場合を“1”、遮蔽されて見えていない場合を“0”で表した2値情報(以下、「可視判定情報」と呼ぶ。)の形式で類似度算出部1003に送られる。
S1310及びS1311の各ステップは、実施形態1の図11のフローにおけるS1104及びS1105にそれぞれ対応する。すなわち、S1310では、類似度算出部1003が、候補点の射影位置における特徴量を、注目視点の撮像画像の特徴量データから取り出す。続くS1311では、射影変換部1002が、複数視点画像における全ての視点を処理したかを判定する。未処理の視点があればS1306に戻って次の視点を注目視点に設定して処理を繰り返す。一方、全ての視点が処理されていればS1312に進む。
S1312では、類似度算出部1003が、S1309での遮蔽判定結果としての可視判定情報とS1310で取得した各視点における特徴量とに基づき、候補点が遮蔽されることなく見えている視点における特徴量を対象として、それらの類似度を算出する。ここでの類似度Sは、以下の式(5)によって表される。
Figure 2020101922
上記式(5)において、Nは複数視点画像における視点数を表す。そして、Fn及びFmは候補点をn及びm番目の視点の撮像画像上に射影した際の特徴量のベクトルをそれぞれ表す。そして、Vn及びVmは候補点をn及びm番目の視点の撮像画像上に射影した際の可視判定結果(可視=1、不可視=0)のベクトルをそれぞれ表す。そして、「1/(ΣVm)ΣVmFm」は、候補点が見えると判定された視点のみで得られた特徴量ベクトルの平均値を表す。つまり、上記式(5)におけるexpの中身は、可視判定において候補点が見えると判定された視点のみで得られた特徴量ベクトルの分散値の符号を反転させたものである。
S1313〜S1315の各ステップは、実施形態1の図11のフローにおけるS1107〜S1109にそれぞれ対応する。すなわち、S1313では、類似度評価部1004が、S1312で算出された類似度Sが所定の閾値以上か否かを判定する。類似度Sが閾値以上の場合、候補点がオブジェクト形状を表す点群を構成する点として有効であることを意味する。判定の結果、類似度Sが閾値以上であればS1314に進む。一方、類似度Sが閾値未満であればS1315に進む。
S1314では、点群生成部1005が、現在の候補点の座標情報を候補点設定部1001から取得し、当該座標情報で特定される点を、オブジェクトの3次元形状を表す点群データに追加する。こうして、点群データを構成する点が順次追加されていく。
S1315では、候補点設定部1001が、処理範囲データ内の全ての点を候補点として設定したかを判定する。未処理の点があればS1306に戻って次の点を候補点に設定して処理を繰り返す。一方、全ての点が候補点として設定されていれば本処理は終了となる。
以上が、本実施形態に係る、形状推定処理の内容である。図13のフローの終了時点において得られた点群データが、オブジェクトの3次元形状データとなる。
なお、本実施形態では、初期形状の生成に視体積交差法を用いる例を説明したが、ステレオマッチングなど他の手法を用いても構わない。また、本実施形態では距離マップに基づき可視判定を行ったが、光線を用いて遮蔽の有無を探索するなど他の方法で行ってもよい。
また、初期形状を表す点群の中から類似度が低いと判定された点を順次削除していき、削除する度に可視判定を行うような構成でもよい。この際の処理手順は概ね以下のとおりである。
1)初期形状データを生成
2)各視点に対する距離マップを生成
3)初期形状データが表す空間の中から候補点を設定
4)候補点が見えている視点を、距離マップを基に特定
5)候補点が見えている視点における特徴量を求め、それらの類似度を算出
6)類似度が低ければ候補点を削除
7)上記3)〜6)を複数回繰り返した後、上記2)に戻り、繰り返しによって得られた形状データを用いて、改めて上記3)〜6)を繰り返す。
また、初期形状データを生成すると共にその信頼度を求め、信頼度の高い部分については、初期形状データをそのまま採用してもよい。例えば、視体積交差法で得られる初期形状の幅を、信頼度として用いることができる。例えば、形状推定の対象オブジェクトが人であった場合に、人間の典型的な横幅を超えない部分は信頼度が高いと考えて、当該越えない部分の点群をそのまま最終的な3次元形状を成す点群として採用するといった具合である。この場合、例えば生成した初期形状データについて信頼度を算出し、当該信頼度が一定未満の部分の中から候補点を順に設定すればよい。
以上、本実施形態によれば、撮影シーンに存在するオブジェクトの初期形状データを先ず生成し、その空間に含まれる点を候補点として処理することで、より効率よく、オブジェクトの形状を推定することが可能となる。また、特徴量の類似度を求める際にオブジェクト間の遮蔽を考慮することで、類似度算出の精度低下を抑えることができる。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
102 画像処理装置
502 特徴量導出部
503 形状推定部

Claims (18)

  1. オブジェクトを複数の視点から撮像して取得された複数の撮像画像から当該オブジェクトの形状を推定する画像処理装置であって、
    各撮像画像の画素毎にオブジェクトらしさを表す特徴量を導出する導出手段と、
    前記各撮像画像から導出された特徴量に基づいて、前記オブジェクトの3次元形状を推定する推定手段と、
    を備えることを特徴とする画像処理装置。
  2. 前記特徴量は、前記オブジェクトらしさとして、予め定めたオブジェクトカテゴリに属する可能性の高さを表す多次元ベクトルで表されることを特徴とする請求項1に記載の画像処理装置。
  3. 前記導出手段は、
    前記撮像画像の画素毎に、所定のオブジェクトカテゴリへの帰属の度合いを表すカテゴリ情報を生成し、
    前記カテゴリ情報に基づき、前記所定のオブジェクトカテゴリを判別するための画像を、前記特徴量として生成する
    ことを特徴とする請求項2に記載の画像処理装置。
  4. 前記導出手段は、学習に基づき、前記カテゴリ情報を生成することを特徴とする請求項3に記載の画像処理装置。
  5. 前記導出手段は、畳み込みニューラルネットワークによって前記カテゴリ情報を生成することを特徴とする請求項4に記載の画像処理装置。
  6. 前記導出手段は、前記撮像画像に含まれるオブジェクトの部位を検出し、検出した部位と各画素との距離に基づき、前記カテゴリ情報を生成することを特徴とする請求項3に記載の画像処理装置。
  7. 前記推定手段は、空間中の所定の点に対応する前記各撮像画像における画素位置についての特徴量間の相違の度合いに基づき、前記オブジェクトの3次元形状を推定する、ことを特徴とする請求項1乃至6のいずれか1項に記載の画像処理装置。
  8. 前記推定手段は、前記特徴量間の相違の度合いとして類似度を算出し、算出した類似度が所定の閾値以上である前記所定の点を、前記オブジェクトの形状を構成する点として決定することにより、前記オブジェクトの形状を推定する、ことを特徴とする請求項7に記載の画像処理装置。
  9. 前記類似度は、以下の式によって表され、
    Figure 2020101922
    上記式において、Sは類似度を表し、Nは複数視点画像における視点数を表し、Fn及びFmは候補点をn及びm番目の視点の撮像画像上に射影した際の特徴量のベクトルをそれぞれ表す
    ことを特徴とする請求項8に記載の画像処理装置。
  10. 前記推定手段は、設定した前記所定の点が各視点から見えているかどうかを判定し、見えていると判定された視点における特徴量を用いて、前記類似度を算出することを特徴とする請求項8又は9に記載の画像処理装置。
  11. 前記推定手段は、オブジェクトまでの距離を画素毎に格納した距離マップを前記各撮像画像について生成し、当該距離マップを用いて前記判定を行うことを特徴とする請求項10に記載の画像処理装置。
  12. 前記推定手段は、予め定めた処理範囲が規定する空間の中から前記所定の点を順に設定して、前記オブジェクトの形状を推定することを特徴とする請求項7乃至11のいずれか1項に記載の画像処理装置。
  13. 前記推定手段は、前記オブジェクトの初期形状を生成し、生成した初期形状が表す空間の中から前記所定の点を順に設定して、前記オブジェクトの形状を推定することを特徴とする請求項7乃至11のいずれか1項に記載の画像処理装置。
  14. 前記推定手段は、前記初期形状の信頼度をさらに求め、求めた信頼度が一定未満の部分の中から前記所定の点を順に設定することを特徴とする請求項13に記載の画像処理装置。
  15. オブジェクトを複数の視点から撮像した複数の撮像画像から当該オブジェクトの形状を推定する画像処理方法であって、
    各撮像画像の画素毎のオブジェクトらしさを表す特徴量を導出するステップと、
    前記各撮像画像から導出された特徴量に基づいて、前記オブジェクトの3次元形状を推定するステップと、
    を含むことを特徴とする画像処理方法。
  16. 前記特徴量は、前記オブジェクトらしさとして、 予め定めたオブジェクトカテゴリに属する可能性の高さを表す多次元ベクトルで表されることを特徴とする請求項15に記載の画像処理方法。
  17. 前記導出するステップでは、
    前記撮像画像の画素毎に、所定のオブジェクトカテゴリへの帰属の度合いを表すカテゴリ情報を生成し、
    前記カテゴリ情報に基づき、前記所定のオブジェクトカテゴリを判別するための画像を、前記特徴量として生成する
    ことを特徴とする請求項16に記載の画像処理方法。
  18. コンピュータを請求項1乃至14のいずれか1項に記載の画像処理装置として機能させるためのプログラム。
JP2018238658A 2018-12-20 2018-12-20 画像処理装置、画像処理方法およびプログラム Pending JP2020101922A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018238658A JP2020101922A (ja) 2018-12-20 2018-12-20 画像処理装置、画像処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018238658A JP2020101922A (ja) 2018-12-20 2018-12-20 画像処理装置、画像処理方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2020101922A true JP2020101922A (ja) 2020-07-02

Family

ID=71139594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018238658A Pending JP2020101922A (ja) 2018-12-20 2018-12-20 画像処理装置、画像処理方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2020101922A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7487266B2 (ja) 2022-08-15 2024-05-20 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7487266B2 (ja) 2022-08-15 2024-05-20 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム

Similar Documents

Publication Publication Date Title
US10701332B2 (en) Image processing apparatus, image processing method, image processing system, and storage medium
US20200234397A1 (en) Automatic view mapping for single-image and multi-view captures
JP7403528B2 (ja) シーンの色及び深度の情報を再構成するための方法及びシステム
US10410089B2 (en) Training assistance using synthetic images
JP6685827B2 (ja) 画像処理装置、画像処理方法及びプログラム
KR102120046B1 (ko) 오브젝트를 표시하는 방법
US20200258309A1 (en) Live in-camera overlays
US11176355B2 (en) Facial image processing method and apparatus, electronic device and computer readable storage medium
JP4597391B2 (ja) 顔領域検出装置およびその方法並びにコンピュータ読み取り可能な記録媒体
US20200320727A1 (en) Method and apparatus for generating a three-dimensional model
US11055900B1 (en) Computer-generated image processing including volumetric scene reconstruction to replace a designated region
US11228707B1 (en) Scene capture for reconstruction of obscured views
CN115496863B (zh) 用于影视智能创作的情景互动的短视频生成方法及系统
US20230394834A1 (en) Method, system and computer readable media for object detection coverage estimation
CN113723317A (zh) 3d人脸的重建方法、装置、电子设备和存储介质
KR20160046399A (ko) 텍스쳐 맵 생성 방법 및 장치와 데이터 베이스 생성 방법
US11798227B2 (en) Image processing apparatus and image processing method
JP2020101922A (ja) 画像処理装置、画像処理方法およびプログラム
CN116051736A (zh) 一种三维重建方法、装置、边缘设备和存储介质
US20210350625A1 (en) Augmenting live images of a scene for occlusion
US20220157016A1 (en) System and method for automatically reconstructing 3d model of an object using machine learning model
JP2002032742A (ja) 3次元画像生成システムおよび3次元画像生成方法、並びにプログラム提供媒体
WO2024034388A1 (ja) 画像処理装置、画像処理方法、およびプログラム
JP3122290B2 (ja) ジェスチャ動画像認識方法
JP2024020677A (ja) 情報処理装置、情報処理方法及びプログラム