JP2023110260A - 画像処理装置、画像処理方法及びプログラム - Google Patents

画像処理装置、画像処理方法及びプログラム Download PDF

Info

Publication number
JP2023110260A
JP2023110260A JP2022011602A JP2022011602A JP2023110260A JP 2023110260 A JP2023110260 A JP 2023110260A JP 2022011602 A JP2022011602 A JP 2022011602A JP 2022011602 A JP2022011602 A JP 2022011602A JP 2023110260 A JP2023110260 A JP 2023110260A
Authority
JP
Japan
Prior art keywords
feature points
attribute information
viewpoints
image processing
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022011602A
Other languages
English (en)
Inventor
智一 佐藤
Tomokazu Sato
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2022011602A priority Critical patent/JP2023110260A/ja
Priority to US18/154,062 priority patent/US20230245343A1/en
Priority to EP23152393.7A priority patent/EP4231239A3/en
Publication of JP2023110260A publication Critical patent/JP2023110260A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • G06T7/596Depth or shape recovery from multiple images from stereo images from three or more stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/12Acquisition of 3D measurements of objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 オブジェクトの正面方向に対して傾きのある視点から得られる特徴点の精度の低下に起因して、特徴点の三次元座標の推定精度が低下してしまうる。【解決手段】複数の視点で撮像された複数の画像それぞれから、オブジェクトの特徴点を検出し、検出された特徴点に対し、オブジェクトのどの領域に属しているかを示す属性情報を付与する。そして、同じ属性情報ごとに、複数の視点以下の2以上の視点に対応する画像上の特徴点の二次元座標を用いて、特徴点の三次元座標を算出する。【選択図】図3

Description

本開示は、オブジェクトの特徴点の三次元座標を再構成する技術に関する。
被写体(オブジェクト)を異なる視点から撮像して得られた複数の撮像画像に基づきオブジェクトの3Dモデル(三次元形状データ)を生成する技術がコンピュータグラフィクスなどの分野において幅広く利用されている。特許文献1には、人の頭部を立体的に囲んで撮像して得られた画像データを用いて、頭部の三次元形状を再構成するにあたり、最適な視点を選択する方法が開示されている。
特開2005-317000号公報 特開2007-102601号公報
複数の視点に対応する複数の撮像画像からオブジェクトの3Dモデルを生成する際には、当該オブジェクトの特徴点の三次元座標(世界座標)を高精度に取得することが求められる。特許文献2には、人の顔を対象として、多視点で撮像して得られた各画像上の目尻や口角といった特徴点の画像座標を用いて、標準の顔モデルの特徴点を、撮像対象となった人の顔の形状に合うように補正する手法が開示されている。ここで、画像座標とは画像上の1点を示す二次元の座標情報である。自由な姿勢を取り得るオブジェクトの特徴点の世界座標を高精度で取得するためには、各撮像画像に対応する複数の視点の中から適切な視点を選択して、特徴点の画像座標を高精度に得られるようにすることが重要となる。例えば人の顔の撮像画像から特徴点を検出する場合、顔を斜め右から捉えた撮像画像においては顔の右半分の特徴点を高精度に検出できるものの、左半分(反対側)の特徴点については検出精度が落ちることが多い。これは、人の顔が鼻を中心として左右対称に斜めの立体構造を持つことに起因している。ここで、人の顔を正面から捉えた撮像画像であれば全ての特徴点を高精度に検出可能である。しかしながら、画像座標から世界座標を精度よく取得するには一定量の視差が必要であり、人の顔を正面から捉えた撮像画像のみから、顔特徴点の三次元座標を精度良く取得することはできない。
以上のとおり、特徴点の世界座標の再構成にオブジェクトを斜め方向から捉えた撮像画像を利用することにはメリットがある。その一方で、撮像視点から遠い側の特徴点の画像座標については精度が落ちてしまうというデメリットもあり、その結果、取得される三次元座標の精度低下を招くという問題があった。
本開示に係る画像処理装置は、複数の視点から撮像されることで取得された複数の画像から、オブジェクトの特徴点を検出する検出手段と、検出された前記特徴点に対し、当該特徴点が属する前記オブジェクトの領域を示す属性情報を付与する付与手段と、前記複数の視点以下の2以上の視点に対応する画像における前記特徴点の二次元座標に基づいて、前記付与手段によって同じ属性情報が付与された特徴点の三次元座標を、決定する決定手段と、を有することを特徴とする。
本開示の技術によれば、視点の異なる複数の撮像画像からオブジェクトの特徴点の三次元座標を高精度に取得することができる。
画像処理装置のハードウェア構成例を示す図。 実施形態1に係る、画像処理装置のソフトウェア構成を示すブロック図。 実施形態1に係る、特徴点の世界座標を導出する処理の流れを示すフローチャート。 人の顔を、異なる視点から撮像する様子を表した模式図。 (a)は、左顔の撮像画像の一例を示す図、(b)は顔の特徴点の一例を示す図。 (a)は正面顔の特徴点を示す図、(b)及び(c)は顔特徴点に付与された属性ラベルの一例を示す図。 右手系におけるロール、ピッチ、ヨーを説明する図。 カメラ座標系の定義を示鈴。 候補視点の抽出を説明する図。 (a)は2つの顔を2つの視点から撮像する様子を示した図、(b)及び(c)は2つの視点に対応する撮像画像を示す図。 (a)は特徴点の世界座標の算出エラーを説明する図、(b)及び(c)は人物の同定結果を説明する図。 実施形態2に係る、画像処理装置のソフトウェア構成を示すブロック図。 実施形態2に係る、特徴点の世界座標を導出する処理の流れを示すフローチャート。 自動車の特徴点の一例を示す図。
以下、本開示の実施形態について図面を用いて説明する。なお、以下の実施形態に示す構成は一例に過ぎず、本開示の範囲をその構成のみに限定するものではない。
[実施形態1]
<ハードウェア構成>
図1は、本実施形態における画像処理装置100のハードウェア構成例を示す図である。図1において、CPU101は、RAM102をワークメモリとして、ROM103およびハードディスクドライブ(HDD)105に格納されたプログラムを実行し、システムバス112を介して後述する各ブロックの動作を制御する。HDDインタフェイス(以下、インタフェイスは「I/F」と記す)104は、HDD105や光ディスクドライブなどの二次記憶装置を接続する。HDDI/F104は、例えばシリアルATA(SATA)などのI/Fである。CPU101は、HDDI/F104を介して、HDD105からのデータ読み出しおよびHDD105へのデータ書き込みが可能である。さらにCPU101は、HDD105に格納されたデータをRAM102に展開することができ、逆に、RAM102に展開されたデータをHDD105に保存することもできる。そしてCPU101は、RAM102に展開したデータをプログラムとして実行することができる。入力I/F106は、キーボードやマウス、デジタルカメラ、スキャナなどの入力デバイス107を接続する。入力I/F106は、例えばUSBやIEEE1394などのシリアルバスI/Fである。CPU101は、入力I/F106を介して入力デバイス107から撮像画像などの各種データを読み込むことができる。出力I/F108は、画像処理装置100と、出力デバイス109であるディスプレイとを接続する。出力I/F108は、例えばDVIやHDMI(登録商標)などの映像出力I/Fである。CPU101は、出力I/F108を介してディスプレイにデータを送り、ディスプレイに所定の映像を表示させることができる。ネットワークI/F1108は、画像処理装置100と、外部サーバ111とを接続する。
<ソフトウェア構成>
図2は、本実施形態に係る画像処理装置100のソフトウェア構成を示すブロック図である。以下、図3に示すフローチャートを参照して、本実施形態の画像処理装置100が有する各機能について説明する。なお、以下の説明において記号「S」はステップを意味する。
S301では、データ取得部201が、異なる視点で撮像された複数の画像(以下、「多視点画像」と呼ぶ。)のデータおよびそのカメラパラメータをHDD105等から読み込んで取得する。図4は、撮像対象となるオブジェクトとしての人の頭部400を、顔が見える6つの異なる視点401~406から撮像する様子を表した模式図である。ここでは、図示されるような6つの異なる方向から撮像することで得られた多視点画像とその際のカメラパラメータが取得されたものとして説明を行う。なお、カメラパラメータは、視点の位置、姿勢、焦点距離、主点を含み、画像上の二次元座標を、視点の位置を通るレイ(ray)に変換可能な情報である。
S302では、特徴点検出部202が、取得された多視点画像を構成する各撮像画像からオブジェクトの特徴点を検出する。人の顔が映っている撮像画像からの顔特徴点の検出には、例えばDlibやOpenCVといった公知の顔認識技術を用いればよい。ここでは、目尻及び目頭、口角、鼻先の7点を顔特徴点として検出するものとする。なお、顔特徴点としての上記7点は一例であり、上記7点のいずれかを含んでいなくてもよいし、眉間や頬上の点や顎のライン上の点など、その他の点を含んでいてもよい。図5(a)は、図4における視点402から頭部400を撮像して得られた撮像画像を示している。そして、図5(b)は、図5(a)の撮像画像から検出された、上述の7つの顔特徴点、右目尻501、右眼頭502、左目尻503、左目頭504、鼻先505、右口角506及び左口角507の画像上の位置(画像座標)を表している。このように顔を左側から写した撮像画像においては、顔の右側の特徴点、すなわち、右目尻501、右目頭502、右口角506の検出精度が相対的に下がることになる。また、本実施形態では、特徴点検出部202が、オブジェクトの姿勢の推定を併せて行う。例えば上述のDlibは、顔の特徴点を検出する機能に加え、顔の姿勢を推定する機能も有しており、これを利用することで顔の姿勢情報も併せて取得できる。ここで、オブジェクトの姿勢は、撮像視点に対する相対的なものであり、ロール、ピッチ、ヨーで表される。
S303では、ラベル付与部203が、S302にて検出された特徴点それぞれに対し、オブジェクトのどの領域に属しているかを示す属性情報としてのラベル(以下、「属性ラベル」と呼ぶ。)を付与する。図6(a)は視点404に対応する撮像画像から検出された上記7つの顔特徴点(右目尻601、右眼頭602、左目尻603、左目頭604、鼻先605、右口角606及び左口角607)を示している。そして、図6(b)は、図6(a)の顔特徴点601~607に付与された属性ラベルを示している。図6(b)に示すように、中央を含む顔右側に属する特徴点(右目尻601、右眼頭602、鼻先605、右口角606)には右ラベルが付与される。また、中央を含む顔左側に属する特徴点(左目尻603、左目頭604、鼻先605及び左口角607)には左ラベルが付与される。ここで、属性ラベルの付与は、特徴点毎に行うということに留意が必要である。すなわち、例えば「右目尻」に右ラベルを付与する場合、多視点画像を構成する全ての撮像画像における「右目尻」に対して右ラベルが付与されることになる。なお、ここでは、顔を左右いずれの領域に分類する属性ラベルを付与しているが、属性ラベルの種類はこれに限らず、例えば、図6(c)に示すように、上側と下側のいずれの領域に属するかを表す属性ラベルを付与してもよい。さらには、左右と上下を組み合わせて、右上ラベル、右下ラベル、左上ラベル、左下ラベル、といった4種類に分類してもよい。属性ラベルの分類は、対象オブジェクトの形状特性に応じて適宜決定すればよい。本実施形態では、特徴点検出の結果に基づき自動で属性ラベルを付与することを想定しているが、属性ラベルの付与はオペレータが手動で行ってもよい。
S304では、世界座標決定部204が、S302にて検出された特徴点の世界座標を、S303にて付与された属性ラベルごとに算出する。この算出においては、まず、多視点画像の各視点の中から、特徴点の世界座標の算出に用いる視点の候補となる視点(候補視点)を、属性ラベルごとに、S302にて特定されたオブジェクトの姿勢情報に基づき抽出する。その後、抽出した候補視点に対応する撮像画像上の特徴点の画像座標(二次元座標)を用いて、特徴点の世界座標(三次元座標)を算出する。ここで、オブジェクトが人の顔であって、左右2種類の属性ラベルを付与する場合の、属性ラベルごとに特徴点の世界座標を算出する処理の具体的な流れについて、図を参照して詳しく説明する。
≪候補視点の抽出≫
上述のとおり顔の姿勢情報は、ロール、ピッチ、ヨーで表される。図7は、右手系におけるロール、ピッチ、ヨーの回転のイメージを示した図であり、本実施形態では右手系を採用するが左手系であってもよい。ヨーは視点に対する左右の振り向きを表しており、ヨーが0度の時、顔は正面を向いている。また、ロールは視点に対する回転を表しており、ロールが0度の時、顔は正立している(ロールが180度の時、倒立している)。そして、ピッチは視点に対する仰俯角を表しており、ピッチが0度の時に顔は正面を向いており、ピッチが大きくなると俯くことになる。例えば、ロール、ピッチが0度の時、ヨーが正であれば顔の右側が撮像されており、ヨーが負であれば顔の左側が撮像されていると判断することができる。そこで、ロール、ピッチ、ヨーを、三次元のカメラ座標系の方向ベクトル(単位ベクトル)に変換し、視点のx成分が、閾値R以下の場合に左ラベルにおける候補視点とし、閾値L以上の場合に右ラベルにおける候補視点とする。図8は、カメラ座標系の定義を示している。ここで、カメラ座標系とは、撮像装置(カメラ)の位置を原点とし、カメラの光軸方向をz、右方向をx、下方向をyと定義した座標系である。顔が視点方向を向いている場合、方向ベクトルのz軸の値は負となる。顔の左右の向きはx軸の値で表され、これは顔の左右角度に対する正弦に一致する。従って、例えば正面から反対方向に25度までの範囲を対象として属性ラベルを付与する場合には、閾値Rはsin(25°)、閾値Lは-sin(25°)と設定すればよい。図9は、図4の具体例において、頭部400の正面方向に対する±25度の範囲を示している。この例では、+25°を示す線分901よりも左側にある4つの視点401~404が左ラベルの候補視点として抽出され、-25°を示す線分902よりも右側にある4つの視点403~406が右ラベルの候補視点として抽出される。こうして、入力された多視点画像に対応する複数の視点以下の2以上の視点が候補視点として抽出されることになる。
≪世界座標の算出≫
次に、属性ラベルごとに抽出した候補視点の中から2視点の組を選び、当該2視点に対応する撮像画像上の特徴点の画像座標を用いて、同じ属性ラベルが付与されている特徴点の世界座標を算出する。全ての2視点の組について算出が完了すると、誤差が最も小さかった組の世界座標を、当該同じ属性ラベルにおける世界座標とする。ここでは、誤差を、ねじれの関係にある3次元空間における二つのレイの間の距離として扱う。誤差の計算方法を、図9の具体例に沿って詳しく説明する。まず、視点401~406で検出される特徴点の画像座標をqijと定義する。ここで、iは視点番号を表し、jは特徴点の番号を表す。次に、各視点の世界座標系における姿勢情報をRi、位置情報をdiとする。Ri及びdiは、一般にカメラの外部パラメータと呼ばれる。次に、各カメラの焦点距離、および主点を3×3の行列内部パラメータをAiとする。これらのパラメータを用いて、視点iにおける特徴点jに対応するレイrijは以下の式(1)で求められる。
上記式(1)において、tは係数である。また、q′ijはqijの同次座標(3次元)であり、2次元の画像座標の最後の要素に1を加えることで生成される。独立に取得された特徴点から成る二つのレイが交わることは稀であり、ほとんどの場合、ねじれの関係にある。そこで、交点を求める際には近似的に、2つのレイ上の2点から成る線分が最も短くなる時の、線分の中点を取得する。ここで、レイrijのうち2つのレイ、r1(t1)及びr2(t2)を、それぞれ以下の式(2)及び式(3)のように置き直す。
この時、上述の最も短くなる線分の各レイ上の点に対応する係数t1、t2は、それぞれ以下の式(2)及び式(3)で表される。
従って、取得される交点hは、これら係数t1及びt2から得られる2点の中点であり、以下の式(6)で表される。
また、その誤差eは、線分の長さの半分であり、以下の式(7)で求めることができる。
こうして、候補視点の中から選んだ2視点の組を対象として上述の誤差eを求め、誤差eが最も小さくなる組から得られた世界座標を、その属性ラベルにおける特徴点の世界座標とする。例えば、顔の左側を捉える視点401に対応する撮像画像上では顔の右側の特徴点のズレが通常は大きいことから、視点402~404のどの視点との組み合わせにおいても誤差eが大きくなる。そのため、視点401を含む2視点の組から得られた世界座標は、左ラベルについての世界座標としては採用されないことになる。これは、顔の右側を捉える視点406についても同じである。つまり、同様に、視点403~405のどの視点との組み合わせにおいても誤差eが大きくなるため、視点406を含む2視点の組から得られた世界座標は、右ラベルについての世界座標としては採用されないことになる。
以上をまとめると、視点401や視点406は顔の正面方向に対して、傾きの大きな位置から撮像しているため、特徴点の検出位置のズレが大きく、結果的に上述の誤差eが大きくなる。また、視点402~405は、顔を正面方向から捉えているため視点401や視点406よりも精度よく特徴点を検出できる。しかしその一方で、撮像方向に対して反対側(視点402及び403から見たときの顔の右半分、視点404及び405から見たときの顔の左半分)の特徴点の検出精度は下がる傾向にあり、やはり、誤差が大きくなる。結果的に、左ラベルについては視点402と視点403との組から算出した世界座標が採用され、右ラベルについては視点404と視点405との組から算出した世界座標が採用されることになる。
S305では、世界座標決定部204が、属性ラベルごとに算出された特徴点の世界座標に基づき、オブジェクト全体における特徴点の世界座標を決定する。前述の図6(b)の例では、顔右側の各特徴点(右目尻601、右眼頭602、鼻先605、右口角606)には右ラベルが付与されており、それぞれに対して、選択された視点404及び405から推定された世界座標が得られている。また、顔左側の各特徴点(左目尻603、左目頭604、鼻先605及び左口角607)には左ラベルが付与されており、それぞれに対して、選択された視点402及び403から推定された世界座標が得られている。この場合、鼻先605以外の特徴点に対しては1つの属性ラベルだけが付与されているので、それぞれの属性ラベルに関して算出した世界座標をそのまま採用する。そして、鼻先605については、右ラベルと左ラベルのそれぞれで世界座標が得られているので、これらの中点を鼻先605についての世界座標として採用する。なお、属性ラベルが3つ以上ある場合は、それらの平均を求めることで、対象となる特徴点の世界座標とすればよい。或いは、各属性ラベルについて得られた世界座標の中央値や最頻値を採用してもよいし、各属性ラベルについて得られた世界座標のうち再投影誤差が最も小さいものを採用してもよい。
S306では、出力部205が、世界座標決定部204で導出された世界座標を出力する。なお、この出力された世界座標の情報を用いて、三次元モデルの補正を行うことができる。例えば、世界座標の情報は、予め生成された三次元モデルに対して、凹み部分を特定することに利用されて、その分のデータを除去するようにしてもよい。あるいは、データの除去でなくてもよく、三次元モデルを構成する要素の位置を変更してもよい。このように三次元モデルの凹凸を精度良く再現するように、世界座標の情報が利用されてもよい。なお、予め生成された三次元モデルは、被写体を撮像した撮像画像を基に生成されたものでもいいし、コンピュータグラフィックス(CG)技術を用いて生成されたものでもよいし、それらを組み合わせて作られたものでもよい。また、世界座標の情報は、例えば、被写体(顔や頭)の姿勢を推定することに利用されてもよい。また、被写体は、顔以外の物体でもよい。
以上が、本実施形態に係る画像処理装置100における、多視点画像からオブジェクトの特徴点の世界座標を得る処理の流れである。本実施形態では、候補視点の中から選んだ2視点の組に対して、同じ属性ラベルを持つ特徴点の誤差を計算し、その最大値が最も小さくなる2視点を選択する。これにより、ある視点に対応する撮像画像においてズレの大きな特徴点に関し誤差が偶然的に小さく見積もられた場合にも、その他の特徴点に関しては誤差が大きくなることで、当該ある視点は選択されにくくなる。そして、最終的には最も適切な視点を選択することができるようになる。
<変形例1>
上述の実施形態の方法では、視点間の距離bが近い(レイ同士が平行に近い)ときに、視点に対して奥行方向に誤差eが大きくなる傾向がある。これを考慮して、視点間を結ぶ直線と推定した点までの距離をcとして、以下の式(8)で表される誤差e′を視点間の距離が小さいほど大きくなる誤差として見積もってもよい。
として、
<変形例2>
上述の実施形態では、属性ラベルごとの候補視点の中から2視点の組を順次選択して、各組から求めた特徴点の世界座標のうち、誤差が最小となる2視点の組から得られた世界座標を、その属性ラベルにおける世界座標として採用していた。このような方法以外にも、例えば、全ての候補視点を用いて特徴点の世界座標を算出し、算出された世界座標の中央値や平均値を、その属性ラベルにおける世界座標として採用してもよい。或いは、全ての候補視点のレイとの距離の総和が最も小さくなる視点を選択して、特徴点の世界座標を算出してもよい。また、これらを組み合わせて、再投影誤差の大きい(算出誤差が大きいと見積もられる)視点を除外して、属性ラベルにおける特徴点の世界座標を求めてもよい。さらには、オブジェクトに対する視点の角密度が一定になるように候補視点の中から視点を選択してもよい。
本実施形態によれば、撮像環境において自由な姿勢を取り得るオブジェクトの特徴点の世界座標を高精度に取得することが可能となる。
[実施形態2]
実施形態1では、1人の頭部を対象として顔特徴点の世界座標を高精度に取得する具体例を説明した。図10(a)に示すように、異なる視点1001及び1002から複数の人の頭部1003及び1004を同時に撮像した場合、視点1001に対応する図10(b)の撮像画像と、視点1002に対応する図10(c)の撮像画像が得られる。双方の撮像画像それぞれには複数の人の顔が映っており、それぞれの撮像画像から、それぞれの人についての顔特徴点が検出されることになる。しかしながらそのままでは、各撮像画像から検出された顔特徴点が、異なる視点間(異なる撮像画像間)でそれぞれどの人に対応付いているのかまでは不明である。図11(a)は異なる人に属する顔特徴点の画像座標を使って世界座標を算出した場合の一例であり、実際には人の顔が存在しない位置に顔特徴点が現れることになる。図11(a)において、実在する頭部1003における左右の眼1101と実在する頭部1004における左右の眼1102とは別に、人の頭部が存在しない位置に左右の眼1103が出現している。このようなエラーを防ぐためには各撮像画像から検出された特徴点がそれぞれどのオブジェクに属するのか、特徴点とオブジェクトとの対応付けが必要となる。オブジェクトが人の頭部(顔)である場合は、顔認証技術を利用することで異なる撮像画像に映る同一人物を特定でき、この問題を解消することは可能である。しかし、事前に各人の顔の特徴を取得する必要があったり、処理に時間を要するといった別の問題が生じることになる。
そこで、顔特徴点の世界座標を算出する過程で得られる中間情報を用いて、異なる視点間(異なる撮像画像間)においてオブジェクトの同定を行う態様を、実施形態2として説明する。なお、実施形態1と共通する内容については説明を省略し、以下では差異点について説明を行うこととする。
<ソフトウェア構成>
図12は、本実施形態に係る画像処理装置100のソフトウェア構成を示すブロック図である。以下、図13に示すフローチャートを参照して、本実施形態の画像処理装置100が有する各機能について説明する。なお、以下の説明において記号「S」はステップを意味する。
S1301~S1303は実施形態1の図3のフローにおけるS301~S303と同じであるので説明を省く。S1304では、同定部1201が、複数の撮像画像に映っている複数のオブジェクトについて、撮像画像間での同定を行う。前述の図10(b)及び(c)に示す撮像画像からは、頭部1003についての顔特徴点と頭部1004についての顔特徴点がそれぞれ得られる。ここでは説明の簡単化のため、左右の眼を特徴点として検出した場合を例に説明する。図10(a)に示す実線矢印は視点1001から見たときの顔1003と顔1004それぞれの両眼に対応するレイを表しており、破線矢印は視点1002から見たときの頭部1003と頭部1004それぞれの両眼に対応するレイを表している。さらに、実線のレイ1011は視点1001で撮像された頭部1003の右眼に向かうレイ、破線のレイ1012は視点1002で撮像された頭部1003の右眼に向かうレイである。また、実線のレイ1013は視点1001で撮像された頭部1004の右眼に向かうレイであり、破線のレイ1014は視点1002で撮像された頭部1004の右眼に向かうレイである。
いま、それぞれの撮像視点において右眼に向かうレイが2つずつ存在し、それらの組み合わせによるレイ同士の交差点に基づき、右眼の世界座標が4通り算出されることになる。しかしながら、例えば実線のレイ1011と破線のレイ1014との組み合わせにおいては、レイ同士の交差点(不図示)が撮像視点の遥か後方となる。すなわち、この組み合わせから得られる右眼の世界座標は、撮像視点の後方に位置することになり成立し得ず、間違いであることが容易に分かる。そして、左眼についても同様の結果が得られることになる。しかしながら、前述の11(a)で示した、撮像視点の前方に出現する左右の眼1103の場合、その世界座標は成立し得るため、間違いであるかどうかをすぐに確定できない。
そこで、まず、検出されたすべての右眼と左眼の世界座標を算出する。そして、各右眼について、それぞれ確からしい位置に左眼の世界座標が存在するかどうかを確認する。ここで、例えば日本の成人女性の左右の眼の距離は10cm程度である。そこで、子供や男性などの場合も考慮してマージンを持たせ、算出された右眼の世界座標の位置から8cm~15cm離れた位置に左眼の世界座標の位置がくるかどうかを確認すればよい。そして、右眼に対して確からしい位置に左眼がある場合、その組み合わせに係る左右の眼は現実に存在し、その世界座標はおよそ正確な世界座標であると判断する。これによって、現実には存在し得ない顔特徴点を排除することが可能になる。ここでは説分かりやすさのため左右の眼の組合せを例に説明を行ったが、実際には同じ属性ラベルが付与されている特徴点の集合を対象として、特徴点間の距離(例えば鼻先と右口角)が正常な距離の範囲内か調べ、範囲外となった特徴点の組合せを除外する。その後、異なる属性ラベル間で更に、算出された三次元座標に基づく特徴点間の距離を確認し、特徴点同士の位置関係が整合する組合せを探索する。これにより、同一人物に係る特徴点の組合せを特定し、異なる視点の複数の撮像画像に映る複数の人の顔それぞれについて同定することができる。図11の(b)及び(c)は、上述の組み合わせ探索によって得られた、同一の顔(人物)と同定された各視点の撮像画像における顔のグループを表しており、(b)が頭部1004のグループ、(c)が頭部1003のグループを示している。S1305以降の工程では、同定された人物のグループごとに顔特徴点を処理することで、精度の高い世界座標を得ることが可能となる。
以上のとおり本実施形態によれば、複数のオブジェクトが同時に撮像される状況においても、各オブジェクトについての特徴点の世界座標を精度よく取得することができる。
[実施形態3]
実施形態1及び2では、オブジェクトとして人の頭部を例に顔特徴点の世界座標を導出するケースを説明したが、撮像対象となるオブジェクトは人の顔に限定されない。その一例として、自動車を撮像対象としてその特徴点の世界座標を導出する態様を、実施形態3として説明する。なお、画像処理装置のハードウェア構成やソフトウェア構成は実施形態1と共通であるので説明を省略し、以下では差異点について説明することとする。
<属性ラベルの付与>
本実施形態の場合、検出された特徴点に対して属性ラベルを付与(S303)する際に、オブジェクトの基本モデルを利用する。ここで、基本モデルとは、オブジェクトの大まかな立体構造(基本構造)とその特徴点の位置情報を持つ三次元形状データである。各撮像画像から検出される特徴点は、基本モデルが表す全部または一部の特徴点に相当している。そこで、検出された特徴点それぞれに対し、基本モデルの表面の法線方向に従って例えば、左右、上下、前後といった属性ラベルを付与することができる。具体的には、法線をクラスタリングし、クラスタごとに属性ラベルを付与すればよい。図14は、自動車を斜め前方から捉えた撮像画像から検出された6つの特徴点(前輪ホイール1401a及び1401b、後輪ホイール1402a及び1402b、フロントライト1403a及び1403b)を例示している。ここでは、深層学習を用いた特徴点検出を利用することで、車の遮蔽された部位の特徴点も、学習に基づいて推定することが可能である。この場合、右側の2つのホイール1401aと1402aに右ラベル、左側の2つのホイール1401bと1402bに左ラベル、2つのフロントライト1403aと1403bに前ラベルを付与することができる。なお、法線方向は基本モデルのローカル座標系に対して定義されるものであり、後述の方法で特定される自動車の姿勢に応じて回転し、撮像装置と共通の世界座標系において、方向ベクトルが算出される。
<姿勢推定>
本実施形態の場合、特徴点検出部202ではなく世界座標決定部204が、基本モデルを前提としたオブジェクトの姿勢推定を、候補視点の抽出に先立って行う。本実施形態におけるオブジェクトは自動車であり、一般に自動車は地面に対して平行な面の上にホイールの中心が存在し、更に、フロントライトが前ホイールと平行な位置に存在している。このような自動車が持つ構造の特性を利用して、撮像画像に映っている自動車の姿勢を推定する。具体的な手順は以下のとおりである。
まず、実施形態1で説明した手法により、各特徴点(ここでは、上述の6つの特徴点)の世界座標を算出する。次に、算出した世界座標のうち4つのホイールの特徴点の世界座標を参照して、画像に映っている自動車における上下、左右、前後の各方向を決定する。具体的には、右前輪ホイール1401aと左前輪ホイール1401bとを結ぶ直線及び右後輪ホイール1402aと左後輪ホイール1402bとを結ぶ直線それぞれとの成す角が最小となる方向を横方向(左右方向)とする。そして、横方向と垂直かつ、右前輪ホイール1401aと右後輪ホイール1402aとを結ぶ直線及び左前輪ホイール1401bと左後輪ホイール1402bとを結ぶ直線それぞれとの成す角が最小となる方向を前後方向とする。また、横方向と前後方向の外積から上下方向を求める。これにより、撮像画像に映る自動車の姿勢を求めることができる。また、4つのホイールの特徴点の世界座標の平均を取ることで、撮像空間における三次元位置も特定可能である。
こうして得られた世界座標系におけるオブジェクトの姿勢を、各視点のカメラ座標系に変換することで、実施形態1と同様に、属性ラベルごとの候補視点抽出(S304)が可能になる。なお、ここでは自動車を例に説明を行ったが、本実施形態の適用対象となるオブジェクトは自動車に限定されないことは言うまでもない。
以上のとおり本実施形態の構成によっても、撮像環境において自由な姿勢を取り得るオブジェクトの特徴点の三次元座標を高精度に取得することが可能となる。
(その他の実施例)
本開示は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
100 画像処理装置
202 特徴点検出部
203 ラベル付与部
204 世界座標決定部

Claims (16)

  1. 複数の視点から撮像されることで取得された複数の画像から、オブジェクトの特徴点を検出する検出手段と、
    検出された前記特徴点に対し、当該特徴点が属する前記オブジェクトの領域を示す属性情報を付与する付与手段と、
    前記複数の視点以下の2以上の視点に対応する画像における前記特徴点の二次元座標に基づいて、前記付与手段によって同じ属性情報が付与された特徴点の三次元座標を、決定する決定手段と、
    を有する
    ことを特徴とする画像処理装置。
  2. 前記決定手段は、
    前記同じ属性情報ごとに、前記複数の視点の中から候補視点を抽出し、
    前記候補視点の中から選択した視点に対応する前記画像上の前記特徴点の二次元座標に基づいて、同じ属性情報が付与された特徴点の三次元座標を決定する、ことを特徴とする請求項1に記載の画像処理装置。
  3. 前記決定手段は、前記オブジェクトに対する視点の角密度が一定になるように前記候補視点の中から視点を選択する、ことを特徴とする請求項2に記載の画像処理装置。
  4. 前記オブジェクトの姿勢を推定する推定手段を有し、
    前記決定手段は、推定された前記オブジェクトの姿勢に基づいて、前記候補視点を抽出する、
    ことを特徴とする請求項2又は3に記載の画像処理装置。
  5. 前記付与手段は、
    前記オブジェクトの基本構造とその特徴点の位置情報を持つ基本モデルを取得し、
    前記位置情報によって特定される前記特徴点の法線をクラスタリングすることで付与すべき前記属性情報の内容を決定し、
    検出された前記特徴点に応じた前記属性情報を、前記決定した前記属性情報の中から付与する、
    ことを特徴とする請求項2乃至4のいずれか一項に記載の画像処理装置。
  6. 前記付与手段は、
    前記位置情報によって特定される前記特徴点の法線を取得し、
    前記基本モデルのローカル座標系に対して1つ以上の方向ベクトルを定義し、該方向ベクトルと法線との成す角に基づき、該方向ベクトルに対応する前記属性情報を付与する、
    ことを特徴とする請求項5に記載の画像処理装置。
  7. 前記決定手段は、前記基本モデルのローカル座標系に対して定義された前記属性情報に対応する方向ベクトルを前記オブジェクトの姿勢に応じて回転し、当該回転された方向ベクトルに基づいて、前記候補視点を抽出する、
    ことを特徴とする請求項5に記載の画像処理装置。
  8. 前記付与手段は、検出された特徴点のうち、前記オブジェクトの中央を含む右側に属する特徴点に対して右側の領域に属することを示す属性情報を付与し、前記オブジェクトの中央を含む左側に属する特徴点に対して左側の領域に属することを示す属性情報を付与することを特徴とする請求項1乃至7のいずれか一項に記載の画像処理装置。
  9. 前記付与手段は、前記オブジェクトの中央を含む上側に属する特徴点に対して上側の領域に属することを示す属性情報を付与し、前記オブジェクトの中央を含む下側に属する特徴点に対して下側の領域に属することを示す属性情報を付与することを特徴とする請求項1乃至7のいずれか一項に記載の画像処理装置。
  10. 前記付与手段は、前記オブジェクトの中央を含む前側に属する特徴点に対して前側の領域に属することを示す属性情報を付与し、前記オブジェクトの中央を含む後ろ側に属する特徴点に対して後ろ側の領域に属することを示す属性情報を付与することを特徴とする請求項1乃至7のいずれか一項に記載の画像処理装置。
  11. 前記決定手段は、複数の前記属性情報が付与された前記特徴点の三次元座標の平均値、中央値、最頻値のいずれか1つを、当該特徴点の三次元座標として決定する、ことを特徴とする請求項1乃至9のいずれか一項に記載の画像処理装置。
  12. 前記決定手段は、複数の前記属性情報が付与された前記特徴点の三次元座標のうち再投影誤差が最も小さい三次元座標を、当該特徴点の三次元座標として決定する、ことを特徴とする請求項1乃至9のいずれか一項に記載の画像処理装置。
  13. 前記決定手段は、
    前記複数の画像において複数の前記オブジェクトが映っている場合、異なる画像間において前記オブジェクトの同定を行い、
    同定されたオブジェクトごとに、検出された前記特徴点の三次元座標を決定する、
    ことを特徴とする請求項1乃至12のいずれか一項に記載の画像処理装置。
  14. 前記決定手段は、同じ属性情報が付与されている特徴点の集合を対象として特徴点間の距離を求め、求めた距離に基づく特徴点同士の位置関係から同一のオブジェクトに係る特徴点の組合せを特定することによって、前記オブジェクトの同定を行うことを特徴とする13に記載の画像処理装置。
  15. 複数の視点から撮像されることで取得された複数の画像から、オブジェクトの特徴点を検出する検出ステップと、
    検出された前記特徴点に対し、当該特徴点が属する前記オブジェクトの領域を示す属性情報を付与する付与ステップと、
    前記複数の視点以下の2以上の視点に対応する画像における前記特徴点の二次元座標に基づいて、前記付与ステップにて同じ属性情報が付与された特徴点の三次元座標を決定する決定ステップと、
    を含む
    ことを特徴とする画像処理方法。
  16. コンピュータを、請求項1乃至14のいずれか一項に記載の画像処理装置として機能させるためのプログラム。
JP2022011602A 2022-01-28 2022-01-28 画像処理装置、画像処理方法及びプログラム Pending JP2023110260A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022011602A JP2023110260A (ja) 2022-01-28 2022-01-28 画像処理装置、画像処理方法及びプログラム
US18/154,062 US20230245343A1 (en) 2022-01-28 2023-01-13 Image processing apparatus, image processing method, and storage medium
EP23152393.7A EP4231239A3 (en) 2022-01-28 2023-01-19 Image processing apparatus, image processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022011602A JP2023110260A (ja) 2022-01-28 2022-01-28 画像処理装置、画像処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2023110260A true JP2023110260A (ja) 2023-08-09

Family

ID=85019031

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022011602A Pending JP2023110260A (ja) 2022-01-28 2022-01-28 画像処理装置、画像処理方法及びプログラム

Country Status (3)

Country Link
US (1) US20230245343A1 (ja)
EP (1) EP4231239A3 (ja)
JP (1) JP2023110260A (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005317000A (ja) 2004-04-30 2005-11-10 Mitsubishi Electric Research Laboratories Inc 最適な視点のセットで得られた2d画像からの顔の3d形状構築に最適な視点のセットを求める方法
JP4539519B2 (ja) * 2005-10-06 2010-09-08 コニカミノルタホールディングス株式会社 立体モデル生成装置および立体モデル生成方法
CN113313097B (zh) * 2021-07-30 2021-11-16 浙江大华技术股份有限公司 人脸识别方法、终端及计算机可读存储介质

Also Published As

Publication number Publication date
US20230245343A1 (en) 2023-08-03
EP4231239A2 (en) 2023-08-23
EP4231239A3 (en) 2023-11-08

Similar Documents

Publication Publication Date Title
US10977827B2 (en) Multiview estimation of 6D pose
US10109055B2 (en) Multiple hypotheses segmentation-guided 3D object detection and pose estimation
Deng et al. Amodal detection of 3d objects: Inferring 3d bounding boxes from 2d ones in rgb-depth images
Rothermel et al. SURE: Photogrammetric surface reconstruction from imagery
EP2430588B1 (en) Object recognition method, object recognition apparatus, and autonomous mobile robot
Berretti et al. 3D face recognition using isogeodesic stripes
US8126261B2 (en) 3D face reconstruction from 2D images
WO2015161816A1 (en) Three-dimensional facial recognition method and system
US9305206B2 (en) Method for enhancing depth maps
WO2017099097A1 (en) Method and system for detecting and localizing object and slam method
CN111612728B (zh) 一种基于双目rgb图像的3d点云稠密化方法和装置
JP2008304268A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US20150348269A1 (en) Object orientation estimation
Berretti et al. Description and retrieval of 3D face models using iso-geodesic stripes
US20200226392A1 (en) Computer vision-based thin object detection
Yang et al. Stereo matching using epipolar distance transform
CN115393519A (zh) 一种基于红外可见光融合图像的三维重构方法
Chen et al. M3DGAF: Monocular 3D object detection with geometric appearance awareness and feature fusion
CN111444768A (zh) 一种用于反光地面场景的微小障碍物发现方法
JP5734000B2 (ja) 物体識別システムおよび方法、並びに、特徴点位置抽出システムおよび方法
JP2023110260A (ja) 画像処理装置、画像処理方法及びプログラム
Konno et al. Incremental multi-view object detection from a moving camera
JP2008261756A (ja) ステレオ画像対から3次元の頭部姿勢をリアルタイムで推定するための装置及びプログラム
Lu et al. A Study on 3D Face Similarity by Point Cloud Based Metric for Japanese Terracotta Figurines (Haniwa)
Zhu et al. Occlusion registration in video-based augmented reality

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231012