JP2023110260A

JP2023110260A - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: JP2023110260A
Application number: JP2022011602A
Authority: JP
Inventors: 智一佐藤; Tomokazu Sato
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2023-08-09
Also published as: US20230245343A1; EP4231239A2; EP4231239A3

Abstract

【課題】オブジェクトの正面方向に対して傾きのある視点から得られる特徴点の精度の低下に起因して、特徴点の三次元座標の推定精度が低下してしまうる。【解決手段】複数の視点で撮像された複数の画像それぞれから、オブジェクトの特徴点を検出し、検出された特徴点に対し、オブジェクトのどの領域に属しているかを示す属性情報を付与する。そして、同じ属性情報ごとに、複数の視点以下の２以上の視点に対応する画像上の特徴点の二次元座標を用いて、特徴点の三次元座標を算出する。【選択図】図３

Description

本開示は、オブジェクトの特徴点の三次元座標を再構成する技術に関する。

被写体（オブジェクト）を異なる視点から撮像して得られた複数の撮像画像に基づきオブジェクトの３Ｄモデル（三次元形状データ）を生成する技術がコンピュータグラフィクスなどの分野において幅広く利用されている。特許文献１には、人の頭部を立体的に囲んで撮像して得られた画像データを用いて、頭部の三次元形状を再構成するにあたり、最適な視点を選択する方法が開示されている。

特開２００５－３１７０００号公報特開２００７－１０２６０１号公報

複数の視点に対応する複数の撮像画像からオブジェクトの３Ｄモデルを生成する際には、当該オブジェクトの特徴点の三次元座標（世界座標）を高精度に取得することが求められる。特許文献２には、人の顔を対象として、多視点で撮像して得られた各画像上の目尻や口角といった特徴点の画像座標を用いて、標準の顔モデルの特徴点を、撮像対象となった人の顔の形状に合うように補正する手法が開示されている。ここで、画像座標とは画像上の１点を示す二次元の座標情報である。自由な姿勢を取り得るオブジェクトの特徴点の世界座標を高精度で取得するためには、各撮像画像に対応する複数の視点の中から適切な視点を選択して、特徴点の画像座標を高精度に得られるようにすることが重要となる。例えば人の顔の撮像画像から特徴点を検出する場合、顔を斜め右から捉えた撮像画像においては顔の右半分の特徴点を高精度に検出できるものの、左半分（反対側）の特徴点については検出精度が落ちることが多い。これは、人の顔が鼻を中心として左右対称に斜めの立体構造を持つことに起因している。ここで、人の顔を正面から捉えた撮像画像であれば全ての特徴点を高精度に検出可能である。しかしながら、画像座標から世界座標を精度よく取得するには一定量の視差が必要であり、人の顔を正面から捉えた撮像画像のみから、顔特徴点の三次元座標を精度良く取得することはできない。

以上のとおり、特徴点の世界座標の再構成にオブジェクトを斜め方向から捉えた撮像画像を利用することにはメリットがある。その一方で、撮像視点から遠い側の特徴点の画像座標については精度が落ちてしまうというデメリットもあり、その結果、取得される三次元座標の精度低下を招くという問題があった。

本開示に係る画像処理装置は、複数の視点から撮像されることで取得された複数の画像から、オブジェクトの特徴点を検出する検出手段と、検出された前記特徴点に対し、当該特徴点が属する前記オブジェクトの領域を示す属性情報を付与する付与手段と、前記複数の視点以下の２以上の視点に対応する画像における前記特徴点の二次元座標に基づいて、前記付与手段によって同じ属性情報が付与された特徴点の三次元座標を、決定する決定手段と、を有することを特徴とする。

本開示の技術によれば、視点の異なる複数の撮像画像からオブジェクトの特徴点の三次元座標を高精度に取得することができる。

画像処理装置のハードウェア構成例を示す図。実施形態１に係る、画像処理装置のソフトウェア構成を示すブロック図。実施形態１に係る、特徴点の世界座標を導出する処理の流れを示すフローチャート。人の顔を、異なる視点から撮像する様子を表した模式図。（ａ）は、左顔の撮像画像の一例を示す図、（ｂ）は顔の特徴点の一例を示す図。（ａ）は正面顔の特徴点を示す図、（ｂ）及び（ｃ）は顔特徴点に付与された属性ラベルの一例を示す図。右手系におけるロール、ピッチ、ヨーを説明する図。カメラ座標系の定義を示鈴。候補視点の抽出を説明する図。（ａ）は２つの顔を２つの視点から撮像する様子を示した図、（ｂ）及び（ｃ）は２つの視点に対応する撮像画像を示す図。（ａ）は特徴点の世界座標の算出エラーを説明する図、（ｂ）及び（ｃ）は人物の同定結果を説明する図。実施形態２に係る、画像処理装置のソフトウェア構成を示すブロック図。実施形態２に係る、特徴点の世界座標を導出する処理の流れを示すフローチャート。自動車の特徴点の一例を示す図。

以下、本開示の実施形態について図面を用いて説明する。なお、以下の実施形態に示す構成は一例に過ぎず、本開示の範囲をその構成のみに限定するものではない。

［実施形態１］
＜ハードウェア構成＞
図１は、本実施形態における画像処理装置１００のハードウェア構成例を示す図である。図１において、ＣＰＵ１０１は、ＲＡＭ１０２をワークメモリとして、ＲＯＭ１０３およびハードディスクドライブ（ＨＤＤ）１０５に格納されたプログラムを実行し、システムバス１１２を介して後述する各ブロックの動作を制御する。ＨＤＤインタフェイス（以下、インタフェイスは「Ｉ／Ｆ」と記す）１０４は、ＨＤＤ１０５や光ディスクドライブなどの二次記憶装置を接続する。ＨＤＤＩ／Ｆ１０４は、例えばシリアルＡＴＡ（ＳＡＴＡ）などのＩ／Ｆである。ＣＰＵ１０１は、ＨＤＤＩ／Ｆ１０４を介して、ＨＤＤ１０５からのデータ読み出しおよびＨＤＤ１０５へのデータ書き込みが可能である。さらにＣＰＵ１０１は、ＨＤＤ１０５に格納されたデータをＲＡＭ１０２に展開することができ、逆に、ＲＡＭ１０２に展開されたデータをＨＤＤ１０５に保存することもできる。そしてＣＰＵ１０１は、ＲＡＭ１０２に展開したデータをプログラムとして実行することができる。入力Ｉ／Ｆ１０６は、キーボードやマウス、デジタルカメラ、スキャナなどの入力デバイス１０７を接続する。入力Ｉ／Ｆ１０６は、例えばＵＳＢやＩＥＥＥ１３９４などのシリアルバスＩ／Ｆである。ＣＰＵ１０１は、入力Ｉ／Ｆ１０６を介して入力デバイス１０７から撮像画像などの各種データを読み込むことができる。出力Ｉ／Ｆ１０８は、画像処理装置１００と、出力デバイス１０９であるディスプレイとを接続する。出力Ｉ／Ｆ１０８は、例えばＤＶＩやＨＤＭＩ（登録商標）などの映像出力Ｉ／Ｆである。ＣＰＵ１０１は、出力Ｉ／Ｆ１０８を介してディスプレイにデータを送り、ディスプレイに所定の映像を表示させることができる。ネットワークＩ／Ｆ１１０８は、画像処理装置１００と、外部サーバ１１１とを接続する。

＜ソフトウェア構成＞
図２は、本実施形態に係る画像処理装置１００のソフトウェア構成を示すブロック図である。以下、図３に示すフローチャートを参照して、本実施形態の画像処理装置１００が有する各機能について説明する。なお、以下の説明において記号「Ｓ」はステップを意味する。

Ｓ３０１では、データ取得部２０１が、異なる視点で撮像された複数の画像（以下、「多視点画像」と呼ぶ。）のデータおよびそのカメラパラメータをＨＤＤ１０５等から読み込んで取得する。図４は、撮像対象となるオブジェクトとしての人の頭部４００を、顔が見える６つの異なる視点４０１～４０６から撮像する様子を表した模式図である。ここでは、図示されるような６つの異なる方向から撮像することで得られた多視点画像とその際のカメラパラメータが取得されたものとして説明を行う。なお、カメラパラメータは、視点の位置、姿勢、焦点距離、主点を含み、画像上の二次元座標を、視点の位置を通るレイ（ｒａｙ）に変換可能な情報である。

Ｓ３０２では、特徴点検出部２０２が、取得された多視点画像を構成する各撮像画像からオブジェクトの特徴点を検出する。人の顔が映っている撮像画像からの顔特徴点の検出には、例えばDlibやOpenCVといった公知の顔認識技術を用いればよい。ここでは、目尻及び目頭、口角、鼻先の７点を顔特徴点として検出するものとする。なお、顔特徴点としての上記７点は一例であり、上記７点のいずれかを含んでいなくてもよいし、眉間や頬上の点や顎のライン上の点など、その他の点を含んでいてもよい。図５（ａ）は、図４における視点４０２から頭部４００を撮像して得られた撮像画像を示している。そして、図５（ｂ）は、図５（ａ）の撮像画像から検出された、上述の７つの顔特徴点、右目尻５０１、右眼頭５０２、左目尻５０３、左目頭５０４、鼻先５０５、右口角５０６及び左口角５０７の画像上の位置（画像座標）を表している。このように顔を左側から写した撮像画像においては、顔の右側の特徴点、すなわち、右目尻５０１、右目頭５０２、右口角５０６の検出精度が相対的に下がることになる。また、本実施形態では、特徴点検出部２０２が、オブジェクトの姿勢の推定を併せて行う。例えば上述のDlibは、顔の特徴点を検出する機能に加え、顔の姿勢を推定する機能も有しており、これを利用することで顔の姿勢情報も併せて取得できる。ここで、オブジェクトの姿勢は、撮像視点に対する相対的なものであり、ロール、ピッチ、ヨーで表される。

Ｓ３０３では、ラベル付与部２０３が、Ｓ３０２にて検出された特徴点それぞれに対し、オブジェクトのどの領域に属しているかを示す属性情報としてのラベル（以下、「属性ラベル」と呼ぶ。）を付与する。図６（ａ）は視点４０４に対応する撮像画像から検出された上記７つの顔特徴点（右目尻６０１、右眼頭６０２、左目尻６０３、左目頭６０４、鼻先６０５、右口角６０６及び左口角６０７）を示している。そして、図６（ｂ）は、図６（ａ）の顔特徴点６０１～６０７に付与された属性ラベルを示している。図６（ｂ）に示すように、中央を含む顔右側に属する特徴点（右目尻６０１、右眼頭６０２、鼻先６０５、右口角６０６）には右ラベルが付与される。また、中央を含む顔左側に属する特徴点（左目尻６０３、左目頭６０４、鼻先６０５及び左口角６０７）には左ラベルが付与される。ここで、属性ラベルの付与は、特徴点毎に行うということに留意が必要である。すなわち、例えば「右目尻」に右ラベルを付与する場合、多視点画像を構成する全ての撮像画像における「右目尻」に対して右ラベルが付与されることになる。なお、ここでは、顔を左右いずれの領域に分類する属性ラベルを付与しているが、属性ラベルの種類はこれに限らず、例えば、図６（ｃ）に示すように、上側と下側のいずれの領域に属するかを表す属性ラベルを付与してもよい。さらには、左右と上下を組み合わせて、右上ラベル、右下ラベル、左上ラベル、左下ラベル、といった４種類に分類してもよい。属性ラベルの分類は、対象オブジェクトの形状特性に応じて適宜決定すればよい。本実施形態では、特徴点検出の結果に基づき自動で属性ラベルを付与することを想定しているが、属性ラベルの付与はオペレータが手動で行ってもよい。

Ｓ３０４では、世界座標決定部２０４が、Ｓ３０２にて検出された特徴点の世界座標を、Ｓ３０３にて付与された属性ラベルごとに算出する。この算出においては、まず、多視点画像の各視点の中から、特徴点の世界座標の算出に用いる視点の候補となる視点（候補視点）を、属性ラベルごとに、Ｓ３０２にて特定されたオブジェクトの姿勢情報に基づき抽出する。その後、抽出した候補視点に対応する撮像画像上の特徴点の画像座標（二次元座標）を用いて、特徴点の世界座標（三次元座標）を算出する。ここで、オブジェクトが人の顔であって、左右２種類の属性ラベルを付与する場合の、属性ラベルごとに特徴点の世界座標を算出する処理の具体的な流れについて、図を参照して詳しく説明する。

≪候補視点の抽出≫
上述のとおり顔の姿勢情報は、ロール、ピッチ、ヨーで表される。図７は、右手系におけるロール、ピッチ、ヨーの回転のイメージを示した図であり、本実施形態では右手系を採用するが左手系であってもよい。ヨーは視点に対する左右の振り向きを表しており、ヨーが０度の時、顔は正面を向いている。また、ロールは視点に対する回転を表しており、ロールが０度の時、顔は正立している（ロールが１８０度の時、倒立している）。そして、ピッチは視点に対する仰俯角を表しており、ピッチが０度の時に顔は正面を向いており、ピッチが大きくなると俯くことになる。例えば、ロール、ピッチが０度の時、ヨーが正であれば顔の右側が撮像されており、ヨーが負であれば顔の左側が撮像されていると判断することができる。そこで、ロール、ピッチ、ヨーを、三次元のカメラ座標系の方向ベクトル（単位ベクトル）に変換し、視点のｘ成分が、閾値Ｒ以下の場合に左ラベルにおける候補視点とし、閾値Ｌ以上の場合に右ラベルにおける候補視点とする。図８は、カメラ座標系の定義を示している。ここで、カメラ座標系とは、撮像装置（カメラ）の位置を原点とし、カメラの光軸方向をｚ、右方向をｘ、下方向をｙと定義した座標系である。顔が視点方向を向いている場合、方向ベクトルのｚ軸の値は負となる。顔の左右の向きはｘ軸の値で表され、これは顔の左右角度に対する正弦に一致する。従って、例えば正面から反対方向に２５度までの範囲を対象として属性ラベルを付与する場合には、閾値Ｒはsin(25°)、閾値Ｌは-sin(25°)と設定すればよい。図９は、図４の具体例において、頭部４００の正面方向に対する±２５度の範囲を示している。この例では、＋２５°を示す線分９０１よりも左側にある４つの視点４０１～４０４が左ラベルの候補視点として抽出され、－２５°を示す線分９０２よりも右側にある４つの視点４０３～４０６が右ラベルの候補視点として抽出される。こうして、入力された多視点画像に対応する複数の視点以下の２以上の視点が候補視点として抽出されることになる。

≪世界座標の算出≫
次に、属性ラベルごとに抽出した候補視点の中から２視点の組を選び、当該２視点に対応する撮像画像上の特徴点の画像座標を用いて、同じ属性ラベルが付与されている特徴点の世界座標を算出する。全ての２視点の組について算出が完了すると、誤差が最も小さかった組の世界座標を、当該同じ属性ラベルにおける世界座標とする。ここでは、誤差を、ねじれの関係にある３次元空間における二つのレイの間の距離として扱う。誤差の計算方法を、図９の具体例に沿って詳しく説明する。まず、視点４０１～４０６で検出される特徴点の画像座標をｑ_ijと定義する。ここで、ｉは視点番号を表し、ｊは特徴点の番号を表す。次に、各視点の世界座標系における姿勢情報をＲ_i、位置情報をｄ_iとする。Ｒ_i及びｄ_iは、一般にカメラの外部パラメータと呼ばれる。次に、各カメラの焦点距離、および主点を３×３の行列内部パラメータをＡ_iとする。これらのパラメータを用いて、視点iにおける特徴点ｊに対応するレイｒ_ijは以下の式（１）で求められる。

上記式（１）において、tは係数である。また、ｑ′_ijはｑ_ijの同次座標（３次元）であり、２次元の画像座標の最後の要素に１を加えることで生成される。独立に取得された特徴点から成る二つのレイが交わることは稀であり、ほとんどの場合、ねじれの関係にある。そこで、交点を求める際には近似的に、２つのレイ上の２点から成る線分が最も短くなる時の、線分の中点を取得する。ここで、レイｒ_ijのうち２つのレイ、ｒ₁（ｔ₁）及びｒ₂（ｔ₂）を、それぞれ以下の式（２）及び式（３）のように置き直す。

この時、上述の最も短くなる線分の各レイ上の点に対応する係数ｔ₁、ｔ₂は、それぞれ以下の式（２）及び式（３）で表される。

従って、取得される交点ｈは、これら係数ｔ₁及びｔ₂から得られる２点の中点であり、以下の式(６)で表される。

また、その誤差ｅは、線分の長さの半分であり、以下の式（７）で求めることができる。

こうして、候補視点の中から選んだ２視点の組を対象として上述の誤差eを求め、誤差ｅが最も小さくなる組から得られた世界座標を、その属性ラベルにおける特徴点の世界座標とする。例えば、顔の左側を捉える視点４０１に対応する撮像画像上では顔の右側の特徴点のズレが通常は大きいことから、視点４０２～４０４のどの視点との組み合わせにおいても誤差ｅが大きくなる。そのため、視点４０１を含む２視点の組から得られた世界座標は、左ラベルについての世界座標としては採用されないことになる。これは、顔の右側を捉える視点４０６についても同じである。つまり、同様に、視点４０３～４０５のどの視点との組み合わせにおいても誤差ｅが大きくなるため、視点４０６を含む２視点の組から得られた世界座標は、右ラベルについての世界座標としては採用されないことになる。

以上をまとめると、視点４０１や視点４０６は顔の正面方向に対して、傾きの大きな位置から撮像しているため、特徴点の検出位置のズレが大きく、結果的に上述の誤差ｅが大きくなる。また、視点４０２～４０５は、顔を正面方向から捉えているため視点４０１や視点４０６よりも精度よく特徴点を検出できる。しかしその一方で、撮像方向に対して反対側（視点４０２及び４０３から見たときの顔の右半分、視点４０４及び４０５から見たときの顔の左半分）の特徴点の検出精度は下がる傾向にあり、やはり、誤差が大きくなる。結果的に、左ラベルについては視点４０２と視点４０３との組から算出した世界座標が採用され、右ラベルについては視点４０４と視点４０５との組から算出した世界座標が採用されることになる。

Ｓ３０５では、世界座標決定部２０４が、属性ラベルごとに算出された特徴点の世界座標に基づき、オブジェクト全体における特徴点の世界座標を決定する。前述の図６（ｂ）の例では、顔右側の各特徴点（右目尻６０１、右眼頭６０２、鼻先６０５、右口角６０６）には右ラベルが付与されており、それぞれに対して、選択された視点４０４及び４０５から推定された世界座標が得られている。また、顔左側の各特徴点（左目尻６０３、左目頭６０４、鼻先６０５及び左口角６０７）には左ラベルが付与されており、それぞれに対して、選択された視点４０２及び４０３から推定された世界座標が得られている。この場合、鼻先６０５以外の特徴点に対しては１つの属性ラベルだけが付与されているので、それぞれの属性ラベルに関して算出した世界座標をそのまま採用する。そして、鼻先６０５については、右ラベルと左ラベルのそれぞれで世界座標が得られているので、これらの中点を鼻先６０５についての世界座標として採用する。なお、属性ラベルが３つ以上ある場合は、それらの平均を求めることで、対象となる特徴点の世界座標とすればよい。或いは、各属性ラベルについて得られた世界座標の中央値や最頻値を採用してもよいし、各属性ラベルについて得られた世界座標のうち再投影誤差が最も小さいものを採用してもよい。

Ｓ３０６では、出力部２０５が、世界座標決定部２０４で導出された世界座標を出力する。なお、この出力された世界座標の情報を用いて、三次元モデルの補正を行うことができる。例えば、世界座標の情報は、予め生成された三次元モデルに対して、凹み部分を特定することに利用されて、その分のデータを除去するようにしてもよい。あるいは、データの除去でなくてもよく、三次元モデルを構成する要素の位置を変更してもよい。このように三次元モデルの凹凸を精度良く再現するように、世界座標の情報が利用されてもよい。なお、予め生成された三次元モデルは、被写体を撮像した撮像画像を基に生成されたものでもいいし、コンピュータグラフィックス（CG）技術を用いて生成されたものでもよいし、それらを組み合わせて作られたものでもよい。また、世界座標の情報は、例えば、被写体（顔や頭）の姿勢を推定することに利用されてもよい。また、被写体は、顔以外の物体でもよい。

以上が、本実施形態に係る画像処理装置１００における、多視点画像からオブジェクトの特徴点の世界座標を得る処理の流れである。本実施形態では、候補視点の中から選んだ２視点の組に対して、同じ属性ラベルを持つ特徴点の誤差を計算し、その最大値が最も小さくなる２視点を選択する。これにより、ある視点に対応する撮像画像においてズレの大きな特徴点に関し誤差が偶然的に小さく見積もられた場合にも、その他の特徴点に関しては誤差が大きくなることで、当該ある視点は選択されにくくなる。そして、最終的には最も適切な視点を選択することができるようになる。

＜変形例１＞
上述の実施形態の方法では、視点間の距離ｂが近い（レイ同士が平行に近い）ときに、視点に対して奥行方向に誤差ｅが大きくなる傾向がある。これを考慮して、視点間を結ぶ直線と推定した点までの距離をcとして、以下の式（８）で表される誤差ｅ′を視点間の距離が小さいほど大きくなる誤差として見積もってもよい。

として、

＜変形例２＞
上述の実施形態では、属性ラベルごとの候補視点の中から２視点の組を順次選択して、各組から求めた特徴点の世界座標のうち、誤差が最小となる２視点の組から得られた世界座標を、その属性ラベルにおける世界座標として採用していた。このような方法以外にも、例えば、全ての候補視点を用いて特徴点の世界座標を算出し、算出された世界座標の中央値や平均値を、その属性ラベルにおける世界座標として採用してもよい。或いは、全ての候補視点のレイとの距離の総和が最も小さくなる視点を選択して、特徴点の世界座標を算出してもよい。また、これらを組み合わせて、再投影誤差の大きい（算出誤差が大きいと見積もられる）視点を除外して、属性ラベルにおける特徴点の世界座標を求めてもよい。さらには、オブジェクトに対する視点の角密度が一定になるように候補視点の中から視点を選択してもよい。

本実施形態によれば、撮像環境において自由な姿勢を取り得るオブジェクトの特徴点の世界座標を高精度に取得することが可能となる。

［実施形態２］
実施形態１では、１人の頭部を対象として顔特徴点の世界座標を高精度に取得する具体例を説明した。図１０（ａ）に示すように、異なる視点１００１及び１００２から複数の人の頭部１００３及び１００４を同時に撮像した場合、視点１００１に対応する図１０（ｂ）の撮像画像と、視点１００２に対応する図１０（ｃ）の撮像画像が得られる。双方の撮像画像それぞれには複数の人の顔が映っており、それぞれの撮像画像から、それぞれの人についての顔特徴点が検出されることになる。しかしながらそのままでは、各撮像画像から検出された顔特徴点が、異なる視点間（異なる撮像画像間）でそれぞれどの人に対応付いているのかまでは不明である。図１１（ａ）は異なる人に属する顔特徴点の画像座標を使って世界座標を算出した場合の一例であり、実際には人の顔が存在しない位置に顔特徴点が現れることになる。図１１（ａ）において、実在する頭部１００３における左右の眼１１０１と実在する頭部１００４における左右の眼１１０２とは別に、人の頭部が存在しない位置に左右の眼１１０３が出現している。このようなエラーを防ぐためには各撮像画像から検出された特徴点がそれぞれどのオブジェクに属するのか、特徴点とオブジェクトとの対応付けが必要となる。オブジェクトが人の頭部（顔）である場合は、顔認証技術を利用することで異なる撮像画像に映る同一人物を特定でき、この問題を解消することは可能である。しかし、事前に各人の顔の特徴を取得する必要があったり、処理に時間を要するといった別の問題が生じることになる。

そこで、顔特徴点の世界座標を算出する過程で得られる中間情報を用いて、異なる視点間（異なる撮像画像間）においてオブジェクトの同定を行う態様を、実施形態２として説明する。なお、実施形態１と共通する内容については説明を省略し、以下では差異点について説明を行うこととする。

＜ソフトウェア構成＞
図１２は、本実施形態に係る画像処理装置１００のソフトウェア構成を示すブロック図である。以下、図１３に示すフローチャートを参照して、本実施形態の画像処理装置１００が有する各機能について説明する。なお、以下の説明において記号「Ｓ」はステップを意味する。

Ｓ１３０１～Ｓ１３０３は実施形態１の図３のフローにおけるＳ３０１～Ｓ３０３と同じであるので説明を省く。Ｓ１３０４では、同定部１２０１が、複数の撮像画像に映っている複数のオブジェクトについて、撮像画像間での同定を行う。前述の図１０（ｂ）及び（ｃ）に示す撮像画像からは、頭部１００３についての顔特徴点と頭部１００４についての顔特徴点がそれぞれ得られる。ここでは説明の簡単化のため、左右の眼を特徴点として検出した場合を例に説明する。図１０（ａ）に示す実線矢印は視点１００１から見たときの顔１００３と顔１００４それぞれの両眼に対応するレイを表しており、破線矢印は視点１００２から見たときの頭部１００３と頭部１００４それぞれの両眼に対応するレイを表している。さらに、実線のレイ１０１１は視点１００１で撮像された頭部１００３の右眼に向かうレイ、破線のレイ１０１２は視点１００２で撮像された頭部１００３の右眼に向かうレイである。また、実線のレイ１０１３は視点１００１で撮像された頭部１００４の右眼に向かうレイであり、破線のレイ１０１４は視点１００２で撮像された頭部１００４の右眼に向かうレイである。
いま、それぞれの撮像視点において右眼に向かうレイが２つずつ存在し、それらの組み合わせによるレイ同士の交差点に基づき、右眼の世界座標が４通り算出されることになる。しかしながら、例えば実線のレイ１０１１と破線のレイ１０１４との組み合わせにおいては、レイ同士の交差点（不図示）が撮像視点の遥か後方となる。すなわち、この組み合わせから得られる右眼の世界座標は、撮像視点の後方に位置することになり成立し得ず、間違いであることが容易に分かる。そして、左眼についても同様の結果が得られることになる。しかしながら、前述の１１（ａ）で示した、撮像視点の前方に出現する左右の眼１１０３の場合、その世界座標は成立し得るため、間違いであるかどうかをすぐに確定できない。

そこで、まず、検出されたすべての右眼と左眼の世界座標を算出する。そして、各右眼について、それぞれ確からしい位置に左眼の世界座標が存在するかどうかを確認する。ここで、例えば日本の成人女性の左右の眼の距離は１０ｃｍ程度である。そこで、子供や男性などの場合も考慮してマージンを持たせ、算出された右眼の世界座標の位置から８ｃｍ～１５ｃｍ離れた位置に左眼の世界座標の位置がくるかどうかを確認すればよい。そして、右眼に対して確からしい位置に左眼がある場合、その組み合わせに係る左右の眼は現実に存在し、その世界座標はおよそ正確な世界座標であると判断する。これによって、現実には存在し得ない顔特徴点を排除することが可能になる。ここでは説分かりやすさのため左右の眼の組合せを例に説明を行ったが、実際には同じ属性ラベルが付与されている特徴点の集合を対象として、特徴点間の距離（例えば鼻先と右口角）が正常な距離の範囲内か調べ、範囲外となった特徴点の組合せを除外する。その後、異なる属性ラベル間で更に、算出された三次元座標に基づく特徴点間の距離を確認し、特徴点同士の位置関係が整合する組合せを探索する。これにより、同一人物に係る特徴点の組合せを特定し、異なる視点の複数の撮像画像に映る複数の人の顔それぞれについて同定することができる。図１１の（ｂ）及び（ｃ）は、上述の組み合わせ探索によって得られた、同一の顔（人物）と同定された各視点の撮像画像における顔のグループを表しており、（ｂ）が頭部１００４のグループ、（ｃ）が頭部１００３のグループを示している。Ｓ１３０５以降の工程では、同定された人物のグループごとに顔特徴点を処理することで、精度の高い世界座標を得ることが可能となる。

以上のとおり本実施形態によれば、複数のオブジェクトが同時に撮像される状況においても、各オブジェクトについての特徴点の世界座標を精度よく取得することができる。

［実施形態３］
実施形態１及び２では、オブジェクトとして人の頭部を例に顔特徴点の世界座標を導出するケースを説明したが、撮像対象となるオブジェクトは人の顔に限定されない。その一例として、自動車を撮像対象としてその特徴点の世界座標を導出する態様を、実施形態３として説明する。なお、画像処理装置のハードウェア構成やソフトウェア構成は実施形態１と共通であるので説明を省略し、以下では差異点について説明することとする。

＜属性ラベルの付与＞
本実施形態の場合、検出された特徴点に対して属性ラベルを付与（Ｓ３０３）する際に、オブジェクトの基本モデルを利用する。ここで、基本モデルとは、オブジェクトの大まかな立体構造（基本構造）とその特徴点の位置情報を持つ三次元形状データである。各撮像画像から検出される特徴点は、基本モデルが表す全部または一部の特徴点に相当している。そこで、検出された特徴点それぞれに対し、基本モデルの表面の法線方向に従って例えば、左右、上下、前後といった属性ラベルを付与することができる。具体的には、法線をクラスタリングし、クラスタごとに属性ラベルを付与すればよい。図１４は、自動車を斜め前方から捉えた撮像画像から検出された６つの特徴点（前輪ホイール１４０１ａ及び１４０１ｂ、後輪ホイール１４０２ａ及び１４０２ｂ、フロントライト１４０３ａ及び１４０３ｂ）を例示している。ここでは、深層学習を用いた特徴点検出を利用することで、車の遮蔽された部位の特徴点も、学習に基づいて推定することが可能である。この場合、右側の２つのホイール１４０１ａと１４０２ａに右ラベル、左側の２つのホイール１４０１ｂと１４０２ｂに左ラベル、２つのフロントライト１４０３ａと１４０３ｂに前ラベルを付与することができる。なお、法線方向は基本モデルのローカル座標系に対して定義されるものであり、後述の方法で特定される自動車の姿勢に応じて回転し、撮像装置と共通の世界座標系において、方向ベクトルが算出される。

＜姿勢推定＞
本実施形態の場合、特徴点検出部２０２ではなく世界座標決定部２０４が、基本モデルを前提としたオブジェクトの姿勢推定を、候補視点の抽出に先立って行う。本実施形態におけるオブジェクトは自動車であり、一般に自動車は地面に対して平行な面の上にホイールの中心が存在し、更に、フロントライトが前ホイールと平行な位置に存在している。このような自動車が持つ構造の特性を利用して、撮像画像に映っている自動車の姿勢を推定する。具体的な手順は以下のとおりである。

まず、実施形態１で説明した手法により、各特徴点（ここでは、上述の６つの特徴点）の世界座標を算出する。次に、算出した世界座標のうち４つのホイールの特徴点の世界座標を参照して、画像に映っている自動車における上下、左右、前後の各方向を決定する。具体的には、右前輪ホイール１４０１ａと左前輪ホイール１４０１ｂとを結ぶ直線及び右後輪ホイール１４０２ａと左後輪ホイール１４０２ｂとを結ぶ直線それぞれとの成す角が最小となる方向を横方向（左右方向）とする。そして、横方向と垂直かつ、右前輪ホイール１４０１ａと右後輪ホイール１４０２ａとを結ぶ直線及び左前輪ホイール１４０１ｂと左後輪ホイール１４０２ｂとを結ぶ直線それぞれとの成す角が最小となる方向を前後方向とする。また、横方向と前後方向の外積から上下方向を求める。これにより、撮像画像に映る自動車の姿勢を求めることができる。また、４つのホイールの特徴点の世界座標の平均を取ることで、撮像空間における三次元位置も特定可能である。
こうして得られた世界座標系におけるオブジェクトの姿勢を、各視点のカメラ座標系に変換することで、実施形態１と同様に、属性ラベルごとの候補視点抽出（Ｓ３０４）が可能になる。なお、ここでは自動車を例に説明を行ったが、本実施形態の適用対象となるオブジェクトは自動車に限定されないことは言うまでもない。

以上のとおり本実施形態の構成によっても、撮像環境において自由な姿勢を取り得るオブジェクトの特徴点の三次元座標を高精度に取得することが可能となる。

（その他の実施例）
本開示は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００画像処理装置
２０２特徴点検出部
２０３ラベル付与部
２０４世界座標決定部

Claims

複数の視点から撮像されることで取得された複数の画像から、オブジェクトの特徴点を検出する検出手段と、
検出された前記特徴点に対し、当該特徴点が属する前記オブジェクトの領域を示す属性情報を付与する付与手段と、
前記複数の視点以下の２以上の視点に対応する画像における前記特徴点の二次元座標に基づいて、前記付与手段によって同じ属性情報が付与された特徴点の三次元座標を、決定する決定手段と、
を有する
ことを特徴とする画像処理装置。
前記決定手段は、
前記同じ属性情報ごとに、前記複数の視点の中から候補視点を抽出し、
前記候補視点の中から選択した視点に対応する前記画像上の前記特徴点の二次元座標に基づいて、同じ属性情報が付与された特徴点の三次元座標を決定する、ことを特徴とする請求項１に記載の画像処理装置。
前記決定手段は、前記オブジェクトに対する視点の角密度が一定になるように前記候補視点の中から視点を選択する、ことを特徴とする請求項２に記載の画像処理装置。
前記オブジェクトの姿勢を推定する推定手段を有し、
前記決定手段は、推定された前記オブジェクトの姿勢に基づいて、前記候補視点を抽出する、
ことを特徴とする請求項２又は３に記載の画像処理装置。
前記付与手段は、
前記オブジェクトの基本構造とその特徴点の位置情報を持つ基本モデルを取得し、
前記位置情報によって特定される前記特徴点の法線をクラスタリングすることで付与すべき前記属性情報の内容を決定し、
検出された前記特徴点に応じた前記属性情報を、前記決定した前記属性情報の中から付与する、
ことを特徴とする請求項２乃至４のいずれか一項に記載の画像処理装置。
前記付与手段は、
前記位置情報によって特定される前記特徴点の法線を取得し、
前記基本モデルのローカル座標系に対して１つ以上の方向ベクトルを定義し、該方向ベクトルと法線との成す角に基づき、該方向ベクトルに対応する前記属性情報を付与する、
ことを特徴とする請求項５に記載の画像処理装置。
前記決定手段は、前記基本モデルのローカル座標系に対して定義された前記属性情報に対応する方向ベクトルを前記オブジェクトの姿勢に応じて回転し、当該回転された方向ベクトルに基づいて、前記候補視点を抽出する、
ことを特徴とする請求項５に記載の画像処理装置。
前記付与手段は、検出された特徴点のうち、前記オブジェクトの中央を含む右側に属する特徴点に対して右側の領域に属することを示す属性情報を付与し、前記オブジェクトの中央を含む左側に属する特徴点に対して左側の領域に属することを示す属性情報を付与することを特徴とする請求項１乃至７のいずれか一項に記載の画像処理装置。
前記付与手段は、前記オブジェクトの中央を含む上側に属する特徴点に対して上側の領域に属することを示す属性情報を付与し、前記オブジェクトの中央を含む下側に属する特徴点に対して下側の領域に属することを示す属性情報を付与することを特徴とする請求項１乃至７のいずれか一項に記載の画像処理装置。
前記付与手段は、前記オブジェクトの中央を含む前側に属する特徴点に対して前側の領域に属することを示す属性情報を付与し、前記オブジェクトの中央を含む後ろ側に属する特徴点に対して後ろ側の領域に属することを示す属性情報を付与することを特徴とする請求項１乃至７のいずれか一項に記載の画像処理装置。
前記決定手段は、複数の前記属性情報が付与された前記特徴点の三次元座標の平均値、中央値、最頻値のいずれか１つを、当該特徴点の三次元座標として決定する、ことを特徴とする請求項１乃至９のいずれか一項に記載の画像処理装置。
前記決定手段は、複数の前記属性情報が付与された前記特徴点の三次元座標のうち再投影誤差が最も小さい三次元座標を、当該特徴点の三次元座標として決定する、ことを特徴とする請求項１乃至９のいずれか一項に記載の画像処理装置。
前記決定手段は、
前記複数の画像において複数の前記オブジェクトが映っている場合、異なる画像間において前記オブジェクトの同定を行い、
同定されたオブジェクトごとに、検出された前記特徴点の三次元座標を決定する、
ことを特徴とする請求項１乃至１２のいずれか一項に記載の画像処理装置。
前記決定手段は、同じ属性情報が付与されている特徴点の集合を対象として特徴点間の距離を求め、求めた距離に基づく特徴点同士の位置関係から同一のオブジェクトに係る特徴点の組合せを特定することによって、前記オブジェクトの同定を行うことを特徴とする１３に記載の画像処理装置。
複数の視点から撮像されることで取得された複数の画像から、オブジェクトの特徴点を検出する検出ステップと、
検出された前記特徴点に対し、当該特徴点が属する前記オブジェクトの領域を示す属性情報を付与する付与ステップと、
前記複数の視点以下の２以上の視点に対応する画像における前記特徴点の二次元座標に基づいて、前記付与ステップにて同じ属性情報が付与された特徴点の三次元座標を決定する決定ステップと、
を含む
ことを特徴とする画像処理方法。
コンピュータを、請求項１乃至１４のいずれか一項に記載の画像処理装置として機能させるためのプログラム。