JP2012524920A - トレーニング方法及び装置並びに画像における対象の姿勢視角を推定する方法及び装置 - Google Patents

トレーニング方法及び装置並びに画像における対象の姿勢視角を推定する方法及び装置 Download PDF

Info

Publication number
JP2012524920A
JP2012524920A JP2012506329A JP2012506329A JP2012524920A JP 2012524920 A JP2012524920 A JP 2012524920A JP 2012506329 A JP2012506329 A JP 2012506329A JP 2012506329 A JP2012506329 A JP 2012506329A JP 2012524920 A JP2012524920 A JP 2012524920A
Authority
JP
Japan
Prior art keywords
viewing angle
image
model
feature
target posture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012506329A
Other languages
English (en)
Other versions
JP5500245B2 (ja
Inventor
リー,リャン
ウー,ウェイクオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JP2012524920A publication Critical patent/JP2012524920A/ja
Application granted granted Critical
Publication of JP5500245B2 publication Critical patent/JP5500245B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/77Determining position or orientation of objects or cameras using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

トレーニング方法及び装置並びに画像における対象の姿勢視角を推定する方法及び装置を提供した。入力画像に基づいてトレーニングを行う装置は、視角タイプを有する複数の入力画像のそれぞれから画像特徴を抽出する抽出ユニットと、複数の視角タイプのそれぞれに対して、線形回帰分析により、前記視角タイプに属する入力画像から抽出された画像特徴を、前記入力画像と相応する三次元対象姿勢情報に変換するマッピングモデルを推定するマップ推定ユニットと、前記画像特徴を相応する三次元対象姿勢情報に連結することにより得られたサンプルに基づいて、連合確率分布モデルを算出する確率モデル算出ユニットとを備え、前記連合確率分布モデルの基づいた単一確率分布モデルは、異なる視角タイプに対応し、且つ各前記単一確率分布モデルは、相応する視角タイプの入力画像から抽出された画像特徴を含むサンプルによるものである。
【選択図】図1

Description

本発明は、対象姿勢の推定に関し、特に、対象の姿勢視角の推定を行うためのトレーニング方法及び装置並びに画像における対象の姿勢視角を推定する方法及び装置に関する。
単一画像において対象(例えば、動物、物体など)の姿勢を推定する方法は、技術的にモデルによる方法と学習による方法に分けられている。学習による方法は、画像特徴から対象の三次元姿勢を直接的に推定するものである。多く使用される画像特徴は、対象輪郭情報である。
従来の対象姿勢推定方法では、対象姿勢の視角を区別していない。対象姿勢の変化の複雑性の原因で、対象姿勢の異なる視角により、より大きい曖昧さが生じることになる。したがって、異なる視角の画像姿勢推定の正確さは、単一視角の姿勢推定と比べて遙かに低い。
本発明は、従来の技術による前記欠陥に鑑みてなされたものであって、対象姿勢推定において対象姿勢視角を区分することに有利である、入力画像に基づいてトレーニングを行う方法及び装置及び画像における対象の姿勢視角を推定する方法及び装置を提供することを目的とする。
本発明の一実施例は、入力画像に基づいてトレーニングを行う方法であって、視角タイプを有する複数の入力画像のそれぞれから画像特徴を抽出し、複数の視角タイプのそれぞれに対して、線形回帰分析により、前記視角タイプに属する入力画像から抽出された画像特徴を、前記入力画像と相応する三次元対象姿勢情報に変換するマッピングモデルを推定することと、前記画像特徴を相応する三次元対象姿勢情報に連結することにより得られたサンプルに基づいて、連合確率分布モデルを算出することを含み、前記連合確率分布モデルの基づいた単一確率分布モデルは、異なる視角タイプに対応し、且つ各前記単一確率分布モデルは、相応する視角タイプの入力画像から抽出された画像特徴を含むサンプルによるものである。
本発明の他の一実施例は、入力画像に基づいてトレーニングを行う装置であって、視角タイプを有する複数の入力画像のそれぞれから画像特徴を抽出する抽出ユニットと、複数の視角タイプのそれぞれに対して、線形回帰分析により、前記視角タイプに属する入力画像から抽出された画像特徴を、前記入力画像と相応する三次元対象姿勢情報に変換するマッピングモデルを推定するマップ推定ユニットと、前記画像特徴を相応する三次元対象姿勢情報に連結することにより得られたサンプルに基づいて、連合確率分布モデルを算出する確率モデル算出ユニットとを備え、前記連合確率分布モデルの基づいた単一確率分布モデルは異なる視角タイプに対応し、且つ各前記単一確率分布モデルは相応する視角タイプの入力画像から抽出された画像特徴を含むサンプルによるものである。
本発明の前記実施例によれば、各入力画像は各自の視角タイプを有する。各入力画像から画像特徴を抽出することができる。視角タイプに従って、線形回帰分析により、マッピングモデルを推定することができる。このようなマッピングモデルは、当該視角タイプの画像特徴を相応する三次元対象姿勢情報に変換する関数として機能する。画像特徴を相応する三次元対象姿勢情報に連結してサンプルを取得することにより、これらのサンプルに基づいて連合確率分布モデルを算出することができる。連合確率分布モデルは若干の単一確率分布モデルによるものであり、各視角タイプは一つの単一確率分布モデルを有する。相応する視角タイプの画像特徴を含むサンプルに基づいて相応する単一確率分布モデルを取得することができる。したがって、本発明の実施例によれば、対象姿勢視角を推定するためのモデル、即ち、各姿勢視角のマッピングモデル及び連合確率分布モデルをトレーニングすることができる。
さらに、前記実施例において、次元降下法を利用して画像特徴を次元降下する特徴変換モデルを算出することができる。それに対して、マッピングモデルの推定及び連合確率分布モデルの算出に用いられるように、特徴変換モデルを利用して画像特徴を変換することができる。特徴変換モデルにより変換された画像特徴は、より低い次元数を有し、後続の推定及び算出の作業量を低減することに有利である。
本発明の他の一実施例は、画像における対象の姿勢視角を推定する方法であって、入力画像から画像特徴を抽出し、複数の視角タイプのそれぞれに対して、当該視角タイプと対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、前記画像特徴の相応する三次元対象姿勢情報を取得し、前記視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、視角タイプ毎の、前記画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、前記連合確率に基づいて、前記相応する三次元対象姿勢情報の条件での前記画像特徴の条件確率を算出し、前記条件確率のうち最大の条件確率の対応する視角タイプを、前記入力画像における対象姿勢視角として推定することを含む。
本発明の他の一実施例は、画像における対象の姿勢視角を推定する装置であって、入力画像から画像特徴を抽出する抽出ユニットと、複数の視角タイプのそれぞれに対して、当該視角タイプと対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、前記画像特徴の相応する三次元対象姿勢情報を取得するマッピングユニットと、前記視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、視角タイプ毎の、前記画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、且つ前記連合確率に基づいて、前記相応する三次元対象姿勢情報の条件での前記画像特徴の条件確率を算出する確率算出ユニットと、前記条件確率のうち最大条件確率の対応する視角タイプを前記入力画像における対象姿勢視角として推定する推定ユニットとを備える。
本発明の上記実施例によれば、入力画像から画像特徴を抽出することができる。各視角タイプは相応する、当該視角タイプの画像特徴を三次元対象姿勢情報に変換するためのマッピングモデルを有するため、それぞれ画像特徴が各視角タイプを有すると仮定することにより、相応するマッピングモデルを利用して、画像特徴の相応する三次元対象姿勢情報を取得することができる。連合確率分布モデルに基づいて、仮定した各視角タイプにおいて当該画像特徴及び相応する三次元対象姿勢情報が出現する連合確率を算出することができる。当該連合確率に基づいて、当該相応する三次元対象姿勢情報が出現した条件で、当該画像特徴が出現する条件確率を算出することができる。以上からわかるように、最大条件確率が対応する視角タイプは、入力画像における対象姿勢視角として推定されてもよい。したがって、本発明の実施例は、対象姿勢視角を推定することができる。
さらに、前記実施例において、三次元対象姿勢情報の取得に用いられるように、次元降下用の特徴変換モデルにより画像特徴を変換することができる。特徴変換モデルにより変換された画像特徴は、より低い次元数を有し、後続のマッピング及び確率算出の作業量を低減することに有利である。
従来の対象姿勢推定方法は、対象姿勢の視角を区分していない。対象姿勢変化の複雑性の原因で、対象姿勢の異なる視角により、大きい推定の曖昧さが生じることになる。したがって、異なる視角の画像姿勢の推定の正確さは、単一視角の姿勢の推定と比べて遙かに低い。本発明は、画像及びビデオにおける対象視角を推定することにより、さらに単一視角における対象姿勢を推定することを目的とした。実験結果により、本発明は、画像及びビデオにおける対象姿勢を効率に推定することができる。
以下の図面に基づく本発明の実施例に対する説明を参照し、本発明の以上及びその他の目的、特徴、利点をより容易に理解することができる。図面において、同一又は対応の技術的特徴又は部品は、同一又は対応の符号で示される。
本発明の一実施例による入力画像に基づいてトレーニングを行うための装置の構造を示すブロック図である。 入力画像からブロックを抽出する方法のモードを示す模式図である。 本発明の一実施例による入力画像に基づいてトレーニングを行うための方法を示すフローチャートである。 本発明の好適な一実施例による入力画像に基づいてトレーニングを行うための装置の構造を示すブロック図である。 本発明の好適な一実施例による入力画像に基づいてトレーニングを行うための方法を示すフローチャートである。 本発明の一実施例による画像における対象の姿勢視角を推定するための装置の構造を示すブロック図である。 本発明の一実施例による画像における対象の姿勢視角を推定するための方法を示すフローチャートである。 本発明の好適な一実施例による画像における対象の姿勢視角を推定するための装置の構造を示すブロック図である。 本発明の好適な一実施例による画像における対象の姿勢視角を推定するための方法を示すフローチャートである。 本発明の実施例を実現するコンピュータの例示的な構造を示すブロック図である。
以下、図面を参照しながら本発明の実施例を説明する。注意すべきのは、明瞭にするために、図面及び明細書における本発明と関係していない、当業者の既知している部品及び処理の表示や説明を省略したことである。
図1のブロック図は、本発明の一実施例による入力画像に基づいてトレーニングを行うための装置100の構造を示す。
図1に示されるように、装置100は、抽出ユニット101と、マップ推定ユニット102と、確率モデル算出ユニット103とを含む。
入力画像は、各種の姿勢視角タイプを有する対象を含む画像である。各姿勢視角タイプは、それぞれ対象の取った異なる視角を示す。例えば、姿勢視角タイプは、-80°、-40°、0°、+40°及び+80°を含んでも良い。なお、-80°は対象がカメラレンズに対して右へ80度を回転したことを示す姿勢視角タイプ、-40°は対象がカメラレンズに対して右へ40度を回転したことを示す姿勢視角タイプ、0°は対象がカメラレンズと正対面に対向していることを示す姿勢視角タイプ、+40°は対象がカメラレンズに対して左へ40度を回転したことを示す姿勢視角タイプ、+80°は対象がカメラレンズに対して左へ80度を回転したことを示す姿勢視角タイプである。
勿論、姿勢視角タイプは視角範囲を表すこともできる。例えば、対象の正面視角の、左側面から右側面までの180°の範囲を[-90°,-54°]、[-54°,-18°]、[-18°,18°]、[18°,54°]、[54°,90°]という5つの視角範囲、即ち5つの姿勢視角タイプに分ける。
姿勢視角タイプの数及びその示された具体的な姿勢視角は、上記の例に限定されず、必要に応じて任意に設定されても良い。
本発明の実施例において、入力画像と相応する姿勢視角タイプとの両方も装置100に供給される。
入力画像は、背景が含まれない各種の姿勢視角の対象画像と、背景が含まれる各種の姿勢視角の対象画像とを含むものであることが好ましい。
抽出ユニット101は、視角タイプを有する複数の入力画像のそれぞれから、画像特徴を抽出する。画像特徴は、対象姿勢推定に用いられる各種の特徴であっても良い。好ましくは、画像特徴は、入力画像におけるエッジ方向の統計的特徴、例えば勾配方向ヒストグラムHOG特徴及びスケール不変特徴変換のSIFT特徴である。
具体的な例において、勾配方向ヒストグラムを画像特徴とし、入力画像が一致した幅及び高さ(120画素×100画素)を有する。しかしながら、本発明の実施例は、仮定された具体的な特徴及びサイズに限定されない。
この例において、抽出ユニット101は、入力画像における各画素の水平方向及び垂直方向における勾配をそれぞれ算出することができる。即ち、
Figure 2012524920
おける座標を示す。
そこで、抽出ユニット101は、入力画像における各画素の水平及び垂直の勾配に基づき、当該画素の勾配方向及び勾配の大きさをそれぞれ算出することができる。即ち、
Figure 2012524920
ただし、勾配方向θ(x,y)の範囲は[0, π]となる。
この例において、抽出ユニット101は、入力画像において、左から右へ、上から下への順に従って、32x32の大きさのブロックを24個取ることができる。なお、水平方向は、行ごとに6個のブロックがあり、垂直方向は、列ごとに4個のブロックがある。水平方向及び垂直方向において隣接した任意な二つのブロックの間は、半分が重なっている。
図2の模式図は、入力画像からブロックを抽出するモードを示す。図2において、3つの大きさが32x32のブロック201、202及び203が示されている。ブロック202は、垂直方向においてブロック201と16個の画素が重なっているが、ブロック203は、水平方向においてブロック201と16個の画像が重なっている。
抽出ユニット101は、各32x32のブロックを、16個の8x8の小さいブロックに区分することができる。ただし、水平方向は、行ごとに4個の小さいブロックがあり、垂直方向は、列ごとに4個の小さいブロックがある。小さいブロックは、先に水平、後に垂直の順で配列される。
各8x8の小さいブロックのそれぞれに対して、抽出ユニット101が小さいブロックにおける64個の画素の勾配方向ヒストグラムを算出する。ここで、勾配方向を8個の方向区間に区分し、即ち、0からπまでの範囲内においてπ/8ごとに一つの方向区間とする。つまり、各8x8の小さいブロックの64個画素に基づいて、8つの方向区間のそれぞれに対して、勾配方向が当該方向区間に属する画素の勾配の大きさの和を算出することにより、一つの8次元ベクトルが得られた。それに対して、32x32のブロックことに一つの128次元ベクトルが得られた。
入力画像毎に、抽出ユニット101が各ブロックのベクトルを順に接続することにより、画像特徴が得られる。従って、画像特徴の次元数は3072、即ち128X24 =3072となる。
本発明の実施例が上記の例に示されたブロック及び小さいブロックの区分モードと具体的な数字に限定されず、他の区分モード及び具体的な数字を採用しても良い。本発明の実施例は、上記の例における特徴の抽出方法に限定されず、他の対象姿勢推定に用いられる画像特徴を抽出する方法を使用してもよい。
図1に戻り、マップ推定ユニット102は、複数の視角タイプのうちのそれぞれに対して、線形回帰分析により、当該視角タイプに属する入力画像から抽出された画像特徴を当該入力画像に相応する三次元対象姿勢情報に変換するマッピングモデルを推定する。つまり、各姿勢視角タイプは、ある関数関係またはマッピング関係が存在することが考えられ、当該関係によって、当該姿勢視角タイプの入力画像から抽出された画像特徴を、当該入力画像の相応する三次元対象姿勢情報に変換し、またはマッピングすることができる。線形回帰分析により、抽出された画像特徴及び相応する三次元対象姿勢情報に基づいて、このような関数またはマッピング関係、即ちマッピングモデルを推定可能である。
入力画像ごとに対して、当該入力画像に含まれる対象の姿勢に対応する三次元対象姿勢情報が予め用意されておいた。
Figure 2012524920
で示される。
Figure 2012524920
デルである。
図1に戻り、確率モデル算出ユニット103は、画像特徴を相応する三次元対象姿勢情報と連結して得られたサンプルに基づいて、連合確率分布モデルを算出する。なお、連合確率分布モデルが基づいた単一確率分布モデルは異なる視角タイプに対応し、各単一確率分布モデルは相応する視角タイプの入力画像から抽出された画像特徴を含むサンプルによるものである。
つまり、前記連合確率分布モデルは、異なる視角タイプに対する単一確率分布モデルによるものである。既知している方法により、各視角タイプのサンプルの集合に基づき、相応する単一確率分布モデル(即ち、モデルパラメータ)を算出することができ、さらにすべての姿勢視角タイプの単一確率分布モデルの連合確率分布モデル(即ち、モデルパラメータ)を算出することができる。
使用に適する連合確率分布モデルは、混合ガウスモデル、隠れマルコフモデル及び条件付き確率場を含むが、これらに限定されない。
一つの具体的な例において、混合ガウスモデルが採用された。この例において、画像特徴(
Figure 2012524920
デルを算出することができる。
図3は、本発明の一実施例による入力画像に基づいてトレーニングを行うための方法300のフローチャートを示す。
図3に示されるように、方法300は、ステップ301からスタートする。ステップ303において、視角タイプを有する複数の入力画像のそれぞれから、画像特徴を抽出する。入力画像及び姿勢視角タイプは、前記図1の実施例を参照して説明された入力画像及び姿勢視角タイプであってもよい。画像特徴は対象姿勢推定に用いられる各種の特徴であっても良い。好ましくは、画像特徴は、入力画像におけるエッジ方向の統計的特徴、例えば勾配方向ヒストグラムHOG特徴及びスケール不変特徴変換のSIFT特徴である。
ステップ305において、複数の視角タイプのうちのそれぞれに対して、線形回帰分析により、当該視角タイプに属する入力画像から抽出された画像特徴を当該入力画像と相応する三次元対象姿勢情報に変換するマッピングモデルを推定する。つまり、各姿勢視角タイプは、ある関数関係又はマッピング関係が存在することが考えられ、当該関係により、当該姿勢視角タイプの入力画像から抽出された画像特徴を、当該入力画像と相応する三次元対象姿勢情報に変換し、又はマッピングすることができる。線形回帰分析により、抽出された画像特徴及び相応する三次元対象姿勢情報に基づいて、このような関数またはマッピング関係、即ちマッピングモデルを推定することができる。
各入力画像に対して、当該入力画像に含まれる対象の姿勢に相応する三次元対象姿勢情報が予め用意されておいた。
Figure 2012524920
Figure 2012524920
デルである。Q個の視角タイプがあれば、Q個の相応するマッピングモデルが生成されることになる。
次に、ステップ307において、画像特徴を相応する三次元対象姿勢情報と連結して得られたサンプルに基づいて、連合確率分布モデルを算出する。ただし、連合確率分布モデルの基づいた単一確率分布モデルは異なる視角タイプに対応し、且つ、各単一確率分布モデルは相応する視角タイプの入力画像から抽出された画像特徴を含むサンプルによるものである。
つまり、前記連合確率分布モデルは、異なる視角タイプに対する単一確率分布モデルによるものである。既知している方法により、各視角タイプのサンプルの集合に基づき、相応する単一確率分布モデル(即ち、モデルパラメータ)を算出することができ、さらにすべての姿勢視角タイプの単一確率分布モデルの連合確率分布モデル(即ち、モデルパラメータ)を算出することができる。
使用に適する連合確率分布モデルは、混合ガウスモデル、隠れマルコフモデル及び条件付き確率場を含むが、これらに限定されない。
一つの具体的な例において、混合ガウスモデルが採用された。この例において、画像特徴(
Figure 2012524920
ルを算出することができる。
次に、方法300は、ステップ309において終了する。
図4のブロック図は、本発明の好適な一実施例による入力画像に基づいてトレーニングを行うための装置400の構造を示す。
図4に示されたように、装置400は、抽出ユニット401と、マップ推定ユニット402と、確率モデル算出ユニット403と、変換モデル算出ユニット404と、特徴変換ユニット405とを含む。抽出ユニット401と、マップ推定ユニット402と、確率モデル算出ユニット403との機能は、図1の抽出ユニット101と、マップ推定ユニット102と、確率モデル算出ユニット103との機能と同じであるため、説明を重複しない。しかしながら、抽出ユニット401は、変換モデル算出ユニット404及び特徴変換ユニット405に抽出された画像特徴を出力するように配置され、マップ推定ユニット402、確率モデル算出ユニット403に入力された画像特徴は、特徴変換ユニット405からのものである。
変換モデル算出ユニット404は、次元降下法を利用して画像特徴を次元降下する特徴変換モデルを算出する。次元降下法は、主成分分析法、因子分析法、特異値分解、多次元尺度分析、局所線形埋め込み、等距離マッピング、線形判別分析、局所接空間位置合わせおよび最大分散展開を含むが、これらに限定されない。得られた特徴変換モデルは、抽出ユニット401により抽出された画像特徴を次元数がより小さい画像特徴に変換するために使用可能である。
Figure 2012524920
特徴変換ユニット405は、特徴変換モデルで画像特徴を変換してマッピングモデルの推定及び連合確率分布モデルの算出に使用する。例えば、前記の例において、以下の式により、変換された画像特徴を算出することができる。即ち、
Figure 2012524920
変換された画像特徴(次元数はd)は、マップ推定ユニット402、確率モデル算出ユニット403に供給される。
前記の実施例において、特徴変換モデルによって変換された画像特徴がより低い次元数を有するため、後続の推定及び算出の作業量を低減することに有利である。
図5は、本発明の好適な一実施例による入力画像に基づいてトレーニングを行うための方法500のフローチャートを示す。
図5に示されるように、方法500は、ステップ501からスタートする。ステップ502において、方法300のステップ303と同様に、視角タイプを有する複数の入力画像のそれぞれから画像特徴を抽出する。
ステップ503において、次元降下法を利用して、ステップ502で抽出された画像特徴を次元降下する特徴変換モデルを算出する。次元降下法は、主成分分析法、因子分析法、特異値分解、多次元尺度分析、局所線形埋め込み、等距離マッピング、線形判別分析、局所接空間位置合わせおよび最大分散展開を含むが、これらに限定されない。得られた特徴変換モデルは、抽出された画像特徴を次元数がより小さい画像特徴に変換するために使用可能である。
Figure 2012524920
ステップ504において、特徴変換モデルで画像特徴を変換してマッピングモデルの推定及び連合確率分布モデルの算出に使用する。例えば、前記の例において、以下の式により、変換された画像特徴を算出することができる。即ち、
Figure 2012524920
ステップ505において、方法300のステップ305と同様に、複数の視角タイプのそれぞれに対して、線形回帰分析により、当該視角タイプに属する入力画像から抽出された画像特徴(既に変換されたもの)を当該入力画像と相応する三次元対象姿勢情報に変換するマップングモデルを推定する。
次に、ステップ507において、方法300のステップ307と同様に、画像特徴(既に変換されたもの)を相応する三次元対象姿勢情報と連結することにより得られたサンプルに基づいて、連合確率分布モデルを算出する。ただし、連合確率分布模型の基づいた単一確率分布モデルは異なる視角タイプに対応し、且つ、各単一確率分布模型は、相応する視角タイプの入力画像から抽出された画像特徴を含むサンプルによるものである。
次に、方法500は、ステップ509において終了する。
図6のブロック図は、本発明の一実施例による画像における対象の姿勢視角を推定するための装置600の構造を示す。
図6に示されるように、装置600は、抽出ユニット601と、マッピングユニット602と、確率算出ユニット603と、推定ユニット604とを含む。
抽出ユニット601は、入力画像から画像特徴を抽出する。入力画像の規格は、前記図1の実施例を参照して説明された入力画像の規格と同じである。画像特徴及び画像特徴を抽出する方法は、採用しようとするマッピングモデルが基づいた画像特徴及びその抽出方法(前記図1の実施例を参照して説明された内容の通り)と同じである。
マッピングユニット602は、複数の視角タイプのそれぞれに対して、当該視角タイプと対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、画像特徴の相応する三次元対象姿勢情報を取得する。マッピングモデルは、前記図1の実施例を参
Figure 2012524920
Figure 2012524920
確率算出ユニット603は、視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、各視角タイプの、画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、連合確率に基づいて相応する三次元対象姿勢情報の条件での画像特徴の条件確率を算出する。連合確率分布モデルは、前記図1の実施例を参照して説明された連合確率分布モデルである。つまり、各仮定した視角タイプに対して、確率算出ユニット603は、画像特徴
Figure 2012524920
Figure 2012524920
うち最大の条件確率が対応する視角タイプを、入力画像における対象姿勢視角として推定する。
図7は、本発明の一実施例による画像における対象の姿勢視角を推定するための方法700のフローチャートを示す。
図7に示されるように、方法700は、ステップ701からスタートする。ステップ703において、入力画像から画像特徴を抽出する。入力画像の規格は、前記図1の実施例を参照して説明された入力画像の規格と相同である。画像特徴及び画像特徴を抽出する方法は、採用しようとするマッピングモデルの基づいた画像特徴及びその抽出方法(例えば、前記図1の実施例を参照して説明された内容の通り)と同じである。
ステップ705において、複数の視角タイプのそれぞれに対して、当該視角タイプと対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、画像特徴の相応する三次元対象姿勢情報を取得する。マッピングモデルは、前記図1の実施例を参照し
Figure 2012524920
ステップ707において、視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、各視角タイプの、画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、連合確率に基づいて相応する三次元対象姿勢情報の条件での画像特徴の条件確率を算出する。連合確率分布モデルは、前記図1の実施例を参照して説明された連合確率分布モデ
Figure 2012524920
Figure 2012524920
Figure 2012524920
のうち最大の条件確率が対応する視角タイプを、入力画像における対象姿勢視角として推定する。方法700は、ステップ709において終了する。
図8のブロック図は、本発明の好適な一実施例による画像における対象の姿勢視角を推定するための装置800の構造を示す。
図8に示されるように、装置800は、抽出ユニット801と、変換ユニット805と、マッピングユニット802と、確率算出ユニット803と、推定ユニット804とを含む。抽出ユニット801、マッピングユニット802、確率算出ユニット803及び推定ユニット804の機能は、それぞれ図6の実施例の抽出ユニット601、マッピングユニット602、確率算出ユニット603及び推定ユニット604と同じであるため、説明を重複しない。しかしながら、抽出ユニット801は変換ユニット805に抽出された画像特徴を出力するように配置され、マッピングユニット802、確率算出ユニット803の画像特徴は変換ユニット805からのものである。
変換ユニット805は、三次元対象姿勢情報の取得に用いられるように、次元降下用の特徴変換モデルにより画像特徴を変換する。特徴変換モデルは、前記図4の実施例を参照して説明された特徴変換モデルであっても良い。
上記実施例において、特徴変換モデルにより変換された画像特徴は、より低い次元数を有するため、後続のマッピング及び算出の作業量を低減することに有利である。
図9は、本発明の好適な一実施例による画像における対象の姿勢視角を推定するための方法900のフローチャートを示す。
図9に示されるように、方法900は、ステップ901からスタートする。ステップ903において、ステップ703と同様に、入力画像から画像特徴を抽出する。
ステップ904において、三次元対象姿勢情報の取得に用いられるように、次元降下用の特徴変換モデルにより画像特徴を変換する。特徴変換モデルは、前記図4の実施例を参照して説明された特徴変換モデルであっても良い。
ステップ905において、ステップ705と同様に、複数の視角タイプのうちのそれぞれに対して、当該視角タイプと対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、画像特徴の相応する三次元対象姿勢情報を取得する。
ステップ907において、ステップ707と同様に、視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、各視角タイプの、画像特徴と相応する三次元対象姿勢情報とを含む連合特徴の連合確率を算出し、連合確率に基づいて相応する三次元対象姿勢情報の条件での画像特徴の条件確率を算出する。
ステップ908において、ステップ708と同様に、すべての可能な視角タイプに対して算出された条件確率のうち最大の条件確率が対応する視角タイプを、入力画像における対象姿勢視角として推定する。方法900は、ステップ909において終了する。
以上のように画像に対して本発明の実施例が説明されたが、本発明の実施例は、ビデオに適用可能である。この場合に、ビデオを画像のシーケンスとして処理する。
図10は、本発明の実施例を実現するコンピュータの例示的な構造を示すブロック図である。
図10において、中央処理ユニット(CPU)1001は、リードオンリマッピングデータ(ROM)1002に記憶されたプログラムまたは記憶部1008からランダムアクセスマッピングデータ(RAM)1003にロードしたプログラムに基づいて、各種の処理を実行する。RAM1003において、必要に応じて、CPU1001が各種の処理等を実行するときに必要なデータも記憶される。
CPU1001、ROM1002及びRAM1003はバス1004を介して互いに接続する。入力/出力インターフェース1005もバス1004に接続される。
キーボード、マウス等を含む入力部1006と、ブラウン管(CRT)、液晶ディスプレイ(LCD)等のようなディスプレイとスピーカ等を含む出力部1007と、ハードディスク等を含む記憶部1008と、LANカード、モデム等のようなネットワークインターフェースカードを含む通信部1009とは、入力/出力インタフェース1005に接続されている。通信部1009はネットワーク、例えばインターネットを経由して通信処理を実行する。
必要に応じて、入力/出力インタフェース1005にはドライバ1010も接続されている。磁気ディスク、光ディスク、光磁気ディスク、半導体マッピングデータ等のような取り外し可能な媒体1011は、必要に応じてドライバ1010に取り付けられており、その中から読み出されたコンピュータプログラムが必要に応じて記憶部1008にインストールされる。
ソフトウェアにより前記ステップ及び処理が実現される場合には、ネットワーク例えばインターネット、または記憶媒体例えば取り外し可能な媒体1011から、ソフトウェアを構成するプログラムをインストールする。
このような記憶媒体は、図10に示されたような、プログラムが記憶されており、方法と離れて配送されることでユーザにプログラムを提供する取り外し可能な媒体1011には限定されないことを、当業者は理解すべきである。取り外し可能な媒体1011の例として、磁気ディスク、光ディスク(コンパクトディスクリードオンリマッピングデータ(CD−ROM)やディジタルヴァーサタイルディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)含む)及び半導体マッピングデータを含む。または、記憶媒体はROM1002、記憶部1008に含まれるハードディスクなどであっても良い。その中にプログラムが記憶されており、且つこれらを含む方法と一緒にユーザに配送される。
前記の明細書において、特定の実施例を参照しながら本発明を説明したが、特許請求の範囲に限定された本発明の範囲を逸脱しない前提で各種の修正及び変更を行えることは、当業者が理解すべきである。


本発明は、対象姿勢の推定に関し、特に、対象の姿勢視角の推定を行うためのトレーニング方法及び装置並びに画像における対象の姿勢視角を推定する方法及び装置に関する。
単一画像において対象(例えば、動物、物体など)の姿勢を推定する方法は、技術的にモデルによる方法と学習による方法に分けられている。学習による方法は、画像特徴から対象の三次元姿勢を直接的に推定するものである。多く使用される画像特徴は、対象輪郭情報である。
従来の対象姿勢推定方法では、対象姿勢の視角を区別していない。対象姿勢の変化の複雑性の原因で、対象姿勢の異なる視角により、より大きい曖昧さが生じることになる。したがって、異なる視角の画像姿勢推定の正確さは、単一視角の姿勢推定と比べて遙かに低い。
本発明は、従来の技術による前記欠陥に鑑みてなされたものであって、対象姿勢推定において対象姿勢視角を区分することに有利である、入力画像に基づいてトレーニングを行う方法及び装置及び画像における対象の姿勢視角を推定する方法及び装置を提供することを目的とする。
本発明の一実施例は、入力画像に基づいてトレーニングを行う方法であって、視角タイプを有する複数の入力画像のそれぞれから画像特徴を抽出し、複数の視角タイプのそれぞれに対して、線形回帰分析により、前記視角タイプに属する入力画像から抽出された画像特徴を、前記入力画像と相応する三次元対象姿勢情報に変換するマッピングモデルを推定することと、前記画像特徴を相応する三次元対象姿勢情報に連結することにより得られたサンプルに基づいて、連合確率分布モデルを算出することを含み、前記連合確率分布モデルの基づいた単一確率分布モデルは、異なる視角タイプに対応し、且つ各前記単一確率分布モデルは、相応する視角タイプの入力画像から抽出された画像特徴を含むサンプルによるものである。
本発明の他の一実施例は、入力画像に基づいてトレーニングを行う装置であって、視角タイプを有する複数の入力画像のそれぞれから画像特徴を抽出する抽出ユニットと、複数の視角タイプのそれぞれに対して、線形回帰分析により、前記視角タイプに属する入力画像から抽出された画像特徴を、前記入力画像と相応する三次元対象姿勢情報に変換するマッピングモデルを推定するマップ推定ユニットと、前記画像特徴を相応する三次元対象姿勢情報に連結することにより得られたサンプルに基づいて、連合確率分布モデルを算出する確率モデル算出ユニットとを備え、前記連合確率分布モデルの基づいた単一確率分布モデルは異なる視角タイプに対応し、且つ各前記単一確率分布モデルは相応する視角タイプの入力画像から抽出された画像特徴を含むサンプルによるものである。
本発明の前記実施例によれば、各入力画像は各自の視角タイプを有する。各入力画像から画像特徴を抽出することができる。視角タイプに従って、線形回帰分析により、マッピングモデルを推定することができる。このようなマッピングモデルは、当該視角タイプの画像特徴を相応する三次元対象姿勢情報に変換する関数として機能する。画像特徴を相応する三次元対象姿勢情報に連結してサンプルを取得することにより、これらのサンプルに基づいて連合確率分布モデルを算出することができる。連合確率分布モデルは若干の単一確率分布モデルによるものであり、各視角タイプは一つの単一確率分布モデルを有する。相応する視角タイプの画像特徴を含むサンプルに基づいて相応する単一確率分布モデルを取得することができる。したがって、本発明の実施例によれば、対象姿勢視角を推定するためのモデル、即ち、各姿勢視角のマッピングモデル及び連合確率分布モデルをトレーニングすることができる。
さらに、前記実施例において、次元降下法を利用して画像特徴を次元降下する特徴変換モデルを算出することができる。それに対して、マッピングモデルの推定及び連合確率分布モデルの算出に用いられるように、特徴変換モデルを利用して画像特徴を変換することができる。特徴変換モデルにより変換された画像特徴は、より低い次元数を有し、後続の推定及び算出の作業量を低減することに有利である。
本発明の他の一実施例は、画像における対象の姿勢視角を推定する方法であって、入力画像から画像特徴を抽出し、複数の視角タイプのそれぞれに対して、当該視角タイプと対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、前記画像特徴の相応する三次元対象姿勢情報を取得し、前記視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、視角タイプ毎の、前記画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、前記連合確率に基づいて、前記相応する三次元対象姿勢情報の条件での前記画像特徴の条件確率を算出し、前記条件確率のうち最大の条件確率の対応する視角タイプを、前記入力画像における対象姿勢視角として推定することを含む。
本発明の他の一実施例は、画像における対象の姿勢視角を推定する装置であって、入力画像から画像特徴を抽出する抽出ユニットと、複数の視角タイプのそれぞれに対して、当該視角タイプと対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、前記画像特徴の相応する三次元対象姿勢情報を取得するマッピングユニットと、前記視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、視角タイプ毎の、前記画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、且つ前記連合確率に基づいて、前記相応する三次元対象姿勢情報の条件での前記画像特徴の条件確率を算出する確率算出ユニットと、前記条件確率のうち最大条件確率の対応する視角タイプを前記入力画像における対象姿勢視角として推定する推定ユニットとを備える。
本発明の上記実施例によれば、入力画像から画像特徴を抽出することができる。各視角タイプは相応する、当該視角タイプの画像特徴を三次元対象姿勢情報に変換するためのマッピングモデルを有するため、それぞれ画像特徴が各視角タイプを有すると仮定することにより、相応するマッピングモデルを利用して、画像特徴の相応する三次元対象姿勢情報を取得することができる。連合確率分布モデルに基づいて、仮定した各視角タイプにおいて当該画像特徴及び相応する三次元対象姿勢情報が出現する連合確率を算出することができる。当該連合確率に基づいて、当該相応する三次元対象姿勢情報が出現した条件で、当該画像特徴が出現する条件確率を算出することができる。以上からわかるように、最大条件確率が対応する視角タイプは、入力画像における対象姿勢視角として推定されてもよい。したがって、本発明の実施例は、対象姿勢視角を推定することができる。
さらに、前記実施例において、三次元対象姿勢情報の取得に用いられるように、次元降下用の特徴変換モデルにより画像特徴を変換することができる。特徴変換モデルにより変換された画像特徴は、より低い次元数を有し、後続のマッピング及び確率算出の作業量を低減することに有利である。
従来の対象姿勢推定方法は、対象姿勢の視角を区分していない。対象姿勢変化の複雑性の原因で、対象姿勢の異なる視角により、大きい推定の曖昧さが生じることになる。したがって、異なる視角の画像姿勢の推定の正確さは、単一視角の姿勢の推定と比べて遙かに低い。本発明は、画像及びビデオにおける対象視角を推定することにより、さらに単一視角における対象姿勢を推定することを目的とした。実験結果により、本発明は、画像及びビデオにおける対象姿勢を効率に推定することができる。
以下の図面に基づく本発明の実施例に対する説明を参照し、本発明の以上及びその他の目的、特徴、利点をより容易に理解することができる。図面において、同一又は対応の技術的特徴又は部品は、同一又は対応の符号で示される。
本発明の一実施例による入力画像に基づいてトレーニングを行うための装置の構造を示すブロック図である。 入力画像からブロックを抽出する方法のモードを示す模式図である。 本発明の一実施例による入力画像に基づいてトレーニングを行うための方法を示すフローチャートである。 本発明の好適な一実施例による入力画像に基づいてトレーニングを行うための装置の構造を示すブロック図である。 本発明の好適な一実施例による入力画像に基づいてトレーニングを行うための方法を示すフローチャートである。 本発明の一実施例による画像における対象の姿勢視角を推定するための装置の構造を示すブロック図である。 本発明の一実施例による画像における対象の姿勢視角を推定するための方法を示すフローチャートである。 本発明の好適な一実施例による画像における対象の姿勢視角を推定するための装置の構造を示すブロック図である。 本発明の好適な一実施例による画像における対象の姿勢視角を推定するための方法を示すフローチャートである。 本発明の実施例を実現するコンピュータの例示的な構造を示すブロック図である。
以下、図面を参照しながら本発明の実施例を説明する。注意すべきのは、明瞭にするために、図面及び明細書における本発明と関係していない、当業者の既知している部品及び処理の表示や説明を省略したことである。
図1のブロック図は、本発明の一実施例による入力画像に基づいてトレーニングを行うための装置100の構造を示す。
図1に示されるように、装置100は、抽出ユニット101と、マップ推定ユニット102と、確率モデル算出ユニット103とを含む。
入力画像は、各種の姿勢視角タイプを有する対象を含む画像である。各姿勢視角タイプは、それぞれ対象の取った異なる視角を示す。例えば、姿勢視角タイプは、-80°、-40°、0°、+40°及び+80°を含んでも良い。なお、-80°は対象がカメラレンズに対して右へ80度を回転したことを示す姿勢視角タイプ、-40°は対象がカメラレンズに対して右へ40度を回転したことを示す姿勢視角タイプ、0°は対象がカメラレンズと正対面に対向していることを示す姿勢視角タイプ、+40°は対象がカメラレンズに対して左へ40度を回転したことを示す姿勢視角タイプ、+80°は対象がカメラレンズに対して左へ80度を回転したことを示す姿勢視角タイプである。
勿論、姿勢視角タイプは視角範囲を表すこともできる。例えば、対象の正面視角の、左側面から右側面までの180°の範囲を[-90°,-54°]、[-54°,-18°]、[-18°,18°]、[18°,54°]、[54°,90°]という5つの視角範囲、即ち5つの姿勢視角タイプに分ける。
姿勢視角タイプの数及びその示された具体的な姿勢視角は、上記の例に限定されず、必要に応じて任意に設定されても良い。
本発明の実施例において、入力画像と相応する姿勢視角タイプとの両方も装置100に供給される。
入力画像は、背景が含まれない各種の姿勢視角の対象画像と、背景が含まれる各種の姿勢視角の対象画像とを含むものであることが好ましい。
抽出ユニット101は、視角タイプを有する複数の入力画像のそれぞれから、画像特徴を抽出する。画像特徴は、対象姿勢推定に用いられる各種の特徴であっても良い。好ましくは、画像特徴は、入力画像におけるエッジ方向の統計的特徴、例えば勾配方向ヒストグラムHOG特徴及びスケール不変特徴変換のSIFT特徴である。
具体的な例において、勾配方向ヒストグラムを画像特徴とし、入力画像が一致した幅及び高さ(120画素×100画素)を有する。しかしながら、本発明の実施例は、仮定された具体的な特徴及びサイズに限定されない。
Figure 2012524920
向における座標を示す。
そこで、抽出ユニット101は、入力画像における各画素の水平及び垂直の勾配に基づき、当該画素の勾配方向及び勾配の大きさをそれぞれ算出することができる。即ち、
Figure 2012524920
ただし、勾配方向θ(x,y)の範囲は[0, π]となる。
この例において、抽出ユニット101は、入力画像において、左から右へ、上から下への順に従って、32x32の大きさのブロックを24個取ることができる。なお、水平方向は、行ごとに6個のブロックがあり、垂直方向は、列ごとに4個のブロックがある。水平方向及び垂直方向において隣接した任意な二つのブロックの間は、半分が重なっている。
図2の模式図は、入力画像からブロックを抽出するモードを示す。図2において、3つの大きさが32x32のブロック201、202及び203が示されている。ブロック202は、垂直方向においてブロック201と16個の画素が重なっているが、ブロック203は、水平方向においてブロック201と16個の画像が重なっている。
抽出ユニット101は、各32x32のブロックを、16個の8x8の小さいブロックに区分することができる。ただし、水平方向は、行ごとに4個の小さいブロックがあり、垂直方向は、列ごとに4個の小さいブロックがある。小さいブロックは、先に水平、後に垂直の順で配列される。
各8x8の小さいブロックのそれぞれに対して、抽出ユニット101が小さいブロックにおける64個の画素の勾配方向ヒストグラムを算出する。ここで、勾配方向を8個の方向区間に区分し、即ち、0からπまでの範囲内においてπ/8ごとに一つの方向区間とする。つまり、各8x8の小さいブロックの64個画素に基づいて、8つの方向区間のそれぞれに対して、勾配方向が当該方向区間に属する画素の勾配の大きさの和を算出することにより、一つの8次元ベクトルが得られた。それに対して、32x32のブロックことに一つの128次元ベクトルが得られた。
入力画像毎に、抽出ユニット101が各ブロックのベクトルを順に接続することにより、画像特徴が得られる。従って、画像特徴の次元数は3072、即ち128X24 =3072となる。
本発明の実施例が上記の例に示されたブロック及び小さいブロックの区分モードと具体的な数字に限定されず、他の区分モード及び具体的な数字を採用しても良い。本発明の実施例は、上記の例における特徴の抽出方法に限定されず、他の対象姿勢推定に用いられる画像特徴を抽出する方法を使用してもよい。
図1に戻り、マップ推定ユニット102は、複数の視角タイプのうちのそれぞれに対して、線形回帰分析により、当該視角タイプに属する入力画像から抽出された画像特徴を当該入力画像に相応する三次元対象姿勢情報に変換するマッピングモデルを推定する。つまり、各姿勢視角タイプは、ある関数関係またはマッピング関係が存在することが考えられ、当該関係によって、当該姿勢視角タイプの入力画像から抽出された画像特徴を、当該入力画像の相応する三次元対象姿勢情報に変換し、またはマッピングすることができる。線形回帰分析により、抽出された画像特徴及び相応する三次元対象姿勢情報に基づいて、このような関数またはマッピング関係、即ちマッピングモデルを推定可能である。
入力画像ごとに対して、当該入力画像に含まれる対象の姿勢に対応する三次元対象姿勢情報が予め用意されておいた。
Figure 2012524920
Figure 2012524920
モデルである。
図1に戻り、確率モデル算出ユニット103は、画像特徴を相応する三次元対象姿勢情報と連結して得られたサンプルに基づいて、連合確率分布モデルを算出する。なお、連合確率分布モデルが基づいた単一確率分布モデルは異なる視角タイプに対応し、各単一確率分布モデルは相応する視角タイプの入力画像から抽出された画像特徴を含むサンプルによるものである。
つまり、前記連合確率分布モデルは、異なる視角タイプに対する単一確率分布モデルによるものである。既知している方法により、各視角タイプのサンプルの集合に基づき、相応する単一確率分布モデル(即ち、モデルパラメータ)を算出することができ、さらにすべての姿勢視角タイプの単一確率分布モデルの連合確率分布モデル(即ち、モデルパラメータ)を算出することができる。
使用に適する連合確率分布モデルは、混合ガウスモデル、隠れマルコフモデル及び条件付き確率場を含むが、これらに限定されない。
Figure 2012524920
Figure 2012524920
きる。即ち、混合ガウスモデルを算出することができる。
図3は、本発明の一実施例による入力画像に基づいてトレーニングを行うための方法300のフローチャートを示す。
図3に示されるように、方法300は、ステップ301からスタートする。ステップ303において、視角タイプを有する複数の入力画像のそれぞれから、画像特徴を抽出する。入力画像及び姿勢視角タイプは、前記図1の実施例を参照して説明された入力画像及び姿勢視角タイプであってもよい。画像特徴は対象姿勢推定に用いられる各種の特徴であっても良い。好ましくは、画像特徴は、入力画像におけるエッジ方向の統計的特徴、例えば勾配方向ヒストグラムHOG特徴及びスケール不変特徴変換のSIFT特徴である。
ステップ305において、複数の視角タイプのうちのそれぞれに対して、線形回帰分析により、当該視角タイプに属する入力画像から抽出された画像特徴を当該入力画像と相応する三次元対象姿勢情報に変換するマッピングモデルを推定する。つまり、各姿勢視角タイプは、ある関数関係又はマッピング関係が存在することが考えられ、当該関係により、当該姿勢視角タイプの入力画像から抽出された画像特徴を、当該入力画像と相応する三次元対象姿勢情報に変換し、又はマッピングすることができる。線形回帰分析により、抽出された画像特徴及び相応する三次元対象姿勢情報に基づいて、このような関数またはマッピング関係、即ちマッピングモデルを推定することができる。
各入力画像に対して、当該入力画像に含まれる対象の姿勢に相応する三次元対象姿勢情報が予め用意されておいた。

Figure 2012524920
Figure 2012524920
グモデルである。Q個の視角タイプがあれば、Q個の相応するマッピングモデルが生成されることになる。
次に、ステップ307において、画像特徴を相応する三次元対象姿勢情報と連結して得られたサンプルに基づいて、連合確率分布モデルを算出する。ただし、連合確率分布モデルの基づいた単一確率分布モデルは異なる視角タイプに対応し、且つ、各単一確率分布モデルは相応する視角タイプの入力画像から抽出された画像特徴を含むサンプルによるものである。
つまり、前記連合確率分布モデルは、異なる視角タイプに対する単一確率分布モデルによるものである。既知している方法により、各視角タイプのサンプルの集合に基づき、相応する単一確率分布モデル(即ち、モデルパラメータ)を算出することができ、さらにすべての姿勢視角タイプの単一確率分布モデルの連合確率分布モデル(即ち、モデルパラメータ)を算出することができる。
使用に適する連合確率分布モデルは、混合ガウスモデル、隠れマルコフモデル及び条件付き確率場を含むが、これらに限定されない。
一つの具体的な例において、混合ガウスモデルが採用された。この例において、画像特
Figure 2012524920
次に、方法300は、ステップ309において終了する。
図4のブロック図は、本発明の好適な一実施例による入力画像に基づいてトレーニングを行うための装置400の構造を示す。
図4に示されたように、装置400は、抽出ユニット401と、マップ推定ユニット402と、確率モデル算出ユニット403と、変換モデル算出ユニット404と、特徴変換ユニット405とを含む。抽出ユニット401と、マップ推定ユニット402と、確率モデル算出ユニット403との機能は、図1の抽出ユニット101と、マップ推定ユニット102と、確率モデル算出ユニット103との機能と同じであるため、説明を重複しない。しかしながら、抽出ユニット401は、変換モデル算出ユニット404及び特徴変換ユニット405に抽出された画像特徴を出力するように配置され、マップ推定ユニット402、確率モデル算出ユニット403に入力された画像特徴は、特徴変換ユニット405からのものである。
変換モデル算出ユニット404は、次元降下法を利用して画像特徴を次元降下する特徴変換モデルを算出する。次元降下法は、主成分分析法、因子分析法、特異値分解、多次元尺度分析、局所線形埋め込み、等距離マッピング、線形判別分析、局所接空間位置合わせおよび最大分散展開を含むが、これらに限定されない。得られた特徴変換モデルは、抽出ユニット401により抽出された画像特徴を次元数がより小さい画像特徴に変換するために使用可能である。
Figure 2012524920
Figure 2012524920
変換された画像特徴(次元数はd)は、マップ推定ユニット402、確率モデル算出ユニット403に供給される。
前記の実施例において、特徴変換モデルによって変換された画像特徴がより低い次元数を有するため、後続の推定及び算出の作業量を低減することに有利である。
図5は、本発明の好適な一実施例による入力画像に基づいてトレーニングを行うための方法500のフローチャートを示す。
図5に示されるように、方法500は、ステップ501からスタートする。ステップ502において、方法300のステップ303と同様に、視角タイプを有する複数の入力画像のそれぞれから画像特徴を抽出する。
ステップ503において、次元降下法を利用して、ステップ502で抽出された画像特徴を次元降下する特徴変換モデルを算出する。次元降下法は、主成分分析法、因子分析法、特異値分解、多次元尺度分析、局所線形埋め込み、等距離マッピング、線形判別分析、局所接空間位置合わせおよび最大分散展開を含むが、これらに限定されない。得られた特徴変換モデルは、抽出された画像特徴を次元数がより小さい画像特徴に変換するために使用可能である。
Figure 2012524920
Figure 2012524920
ステップ505において、方法300のステップ305と同様に、複数の視角タイプのそれぞれに対して、線形回帰分析により、当該視角タイプに属する入力画像から抽出された画像特徴(既に変換されたもの)を当該入力画像と相応する三次元対象姿勢情報に変換するマップングモデルを推定する。
次に、ステップ507において、方法300のステップ307と同様に、画像特徴(既に変換されたもの)を相応する三次元対象姿勢情報と連結することにより得られたサンプルに基づいて、連合確率分布モデルを算出する。ただし、連合確率分布模型の基づいた単一確率分布モデルは異なる視角タイプに対応し、且つ、各単一確率分布模型は、相応する視角タイプの入力画像から抽出された画像特徴を含むサンプルによるものである。
次に、方法500は、ステップ509において終了する。
図6のブロック図は、本発明の一実施例による画像における対象の姿勢視角を推定するための装置600の構造を示す。
図6に示されるように、装置600は、抽出ユニット601と、マッピングユニット602と、確率算出ユニット603と、推定ユニット604とを含む。
抽出ユニット601は、入力画像から画像特徴を抽出する。入力画像の規格は、前記図1の実施例を参照して説明された入力画像の規格と同じである。画像特徴及び画像特徴を抽出する方法は、採用しようとするマッピングモデルが基づいた画像特徴及びその抽出方法(前記図1の実施例を参照して説明された内容の通り)と同じである。
Figure 2012524920
確率算出ユニット603は、視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、各視角タイプの、画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、連合確率に基づいて相応する三次元対象姿勢情報の条件での画像特徴の条件確率を算出する。連合確率分布モデルは、前記図1の実施例を参照して説明された連合確率分布モデルである。つまり、各仮定した視角タイプに対して、確率算
Figure 2012524920
推定ユニット604は、すべての可能な視角タイプに対して算出された条件確率
Figure 2012524920
として推定する。
図7は、本発明の一実施例による画像における対象の姿勢視角を推定するための方法700のフローチャートを示す。
図7に示されるように、方法700は、ステップ701からスタートする。ステップ703において、入力画像から画像特徴を抽出する。入力画像の規格は、前記図1の実施例を参照して説明された入力画像の規格と相同である。画像特徴及び画像特徴を抽出する方法は、採用しようとするマッピングモデルの基づいた画像特徴及びその抽出方法(例えば、前記図1の実施例を参照して説明された内容の通り)と同じである。
ステップ705において、複数の視角タイプのそれぞれに対して、当該視角タイプと対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、画像特徴の相応する三次元対象姿勢情報を取得する。マッピングモデルは、前記図1の実施例を参照して説明されたマッピングモデルである。ここで、入力画像から抽出さ
Figure 2012524920
ステップ707において、視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、各視角タイプの、画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、連合確率に基づいて相応する三次元対象姿勢情報の条件での画像特徴の条件確率を算出する。連合確率分布モデルは、前記図1の実施例を参照して説明された連合確率分布モデルである。つまり、各仮定した視角タイプに対して、ステップ
Figure 2012524920

Figure 2012524920
ステップ708において、すべての可能な視角タイプに対して算出された条件確率
Figure 2012524920
として推定する。方法700は、ステップ709において終了する。
図8のブロック図は、本発明の好適な一実施例による画像における対象の姿勢視角を推定するための装置800の構造を示す。
図8に示されるように、装置800は、抽出ユニット801と、変換ユニット805と、マッピングユニット802と、確率算出ユニット803と、推定ユニット804とを含む。抽出ユニット801、マッピングユニット802、確率算出ユニット803及び推定ユニット804の機能は、それぞれ図6の実施例の抽出ユニット601、マッピングユニット602、確率算出ユニット603及び推定ユニット604と同じであるため、説明を重複しない。しかしながら、抽出ユニット801は変換ユニット805に抽出された画像特徴を出力するように配置され、マッピングユニット802、確率算出ユニット803の画像特徴は変換ユニット805からのものである。
変換ユニット805は、三次元対象姿勢情報の取得に用いられるように、次元降下用の特徴変換モデルにより画像特徴を変換する。特徴変換モデルは、前記図4の実施例を参照して説明された特徴変換モデルであっても良い。
上記実施例において、特徴変換モデルにより変換された画像特徴は、より低い次元数を有するため、後続のマッピング及び算出の作業量を低減することに有利である。
図9は、本発明の好適な一実施例による画像における対象の姿勢視角を推定するための方法900のフローチャートを示す。
図9に示されるように、方法900は、ステップ901からスタートする。ステップ903において、ステップ703と同様に、入力画像から画像特徴を抽出する。
ステップ904において、三次元対象姿勢情報の取得に用いられるように、次元降下用の特徴変換モデルにより画像特徴を変換する。特徴変換モデルは、前記図4の実施例を参照して説明された特徴変換モデルであっても良い。
ステップ905において、ステップ705と同様に、複数の視角タイプのうちのそれぞれに対して、当該視角タイプと対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、画像特徴の相応する三次元対象姿勢情報を取得する。
ステップ907において、ステップ707と同様に、視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、各視角タイプの、画像特徴と相応する三次元対象姿勢情報とを含む連合特徴の連合確率を算出し、連合確率に基づいて相応する三次元対象姿勢情報の条件での画像特徴の条件確率を算出する。
ステップ908において、ステップ708と同様に、すべての可能な視角タイプに対して算出された条件確率のうち最大の条件確率が対応する視角タイプを、入力画像における対象姿勢視角として推定する。方法900は、ステップ909において終了する。
以上のように画像に対して本発明の実施例が説明されたが、本発明の実施例は、ビデオに適用可能である。この場合に、ビデオを画像のシーケンスとして処理する。
図10は、本発明の実施例を実現するコンピュータの例示的な構造を示すブロック図である。
図10において、中央処理ユニット(CPU)1001は、リードオンリマッピングデータ(ROM)1002に記憶されたプログラムまたは記憶部1008からランダムアクセスマッピングデータ(RAM)1003にロードしたプログラムに基づいて、各種の処理を実行する。RAM1003において、必要に応じて、CPU1001が各種の処理等を実行するときに必要なデータも記憶される。
CPU1001、ROM1002及びRAM1003はバス1004を介して互いに接続する。入力/出力インターフェース1005もバス1004に接続される。
キーボード、マウス等を含む入力部1006と、ブラウン管(CRT)、液晶ディスプレイ(LCD)等のようなディスプレイとスピーカ等を含む出力部1007と、ハードディスク等を含む記憶部1008と、LANカード、モデム等のようなネットワークインターフェースカードを含む通信部1009とは、入力/出力インタフェース1005に接続されている。通信部1009はネットワーク、例えばインターネットを経由して通信処理を実行する。
必要に応じて、入力/出力インタフェース1005にはドライバ1010も接続されている。磁気ディスク、光ディスク、光磁気ディスク、半導体マッピングデータ等のような取り外し可能な媒体1011は、必要に応じてドライバ1010に取り付けられており、その中から読み出されたコンピュータプログラムが必要に応じて記憶部1008にインストールされる。
ソフトウェアにより前記ステップ及び処理が実現される場合には、ネットワーク例えばインターネット、または記憶媒体例えば取り外し可能な媒体1011から、ソフトウェアを構成するプログラムをインストールする。
このような記憶媒体は、図10に示されたような、プログラムが記憶されており、方法と離れて配送されることでユーザにプログラムを提供する取り外し可能な媒体1011には限定されないことを、当業者は理解すべきである。取り外し可能な媒体1011の例として、磁気ディスク、光ディスク(コンパクトディスクリードオンリマッピングデータ(CD−ROM)やディジタルヴァーサタイルディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)含む)及び半導体マッピングデータを含む。または、記憶媒体はROM1002、記憶部1008に含まれるハードディスクなどであっても良い。その中にプログラムが記憶されており、且つこれらを含む方法と一緒にユーザに配送される。
前記の明細書において、特定の実施例を参照しながら本発明を説明したが、特許請求の範囲に限定された本発明の範囲を逸脱しない前提で各種の修正及び変更を行えることは、当業者が理解すべきである。

Claims (8)

  1. 画像における対象の姿勢視角を推定する方法であって、
    入力画像から画像特徴を抽出し、
    複数の視角タイプのそれぞれに対して、当該視角タイプに対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、前記画像特徴の相応する三次元対象姿勢情報を取得し、
    前記視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、視角タイプ毎の、前記画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、
    前記連合確率に基づいて、前記相応する三次元対象姿勢情報の条件での前記画像特徴の条件確率を算出し、及び
    前記条件確率のうち最大の条件確率の対応する視角タイプを、前記入力画像における対象姿勢視角として推定することを含む方法。
  2. 前記三次元対象姿勢情報の取得に用いられるように、次元降下用の特徴変換モデルにより前記画像特徴を変換することをさらに含む請求項1に記載の方法。
  3. 前記画像特徴は、画像エッジ方向の統計的特徴である請求項1または2に記載の方法。
  4. 前記連合確率分布モデルは、混合ガウスモデル、隠れマルコフモデル、または条件付き確率場によるものである請求項1または2に記載の方法。
  5. 画像における対象の姿勢視角を推定する装置であって、
    入力画像から画像特徴を抽出する抽出ユニットと、
    複数の視角タイプのそれぞれに対して、当該視角タイプに対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、前記画像特徴の相応する三次元対象姿勢情報を取得するマッピングユニットと、
    前記視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、視角タイプ毎の、前記画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、且つ前記連合確率に基づいて前記相応する三次元対象姿勢情報の条件での前記画像特徴の条件確率を算出する確率算出ユニットと、
    前記条件確率のうち最大の条件確率の対応する視角タイプを前記入力画像における対象姿勢視角として推定する推定ユニットとを備える装置。
  6. 前記三次元対象姿勢情報の取得に用いられるように、次元降下用の特徴変換モデルにより前記画像特徴を変換する変換ユニットをさらに備える請求項5に記載の装置。
  7. 前記画像特徴は、画像エッジ方向の統計的特徴である請求項5または6に記載の装置。
  8. 前記連合確率分布モデルは、混合ガウスモデル、隠れマルコフモデル、または条件付き確率場によるものである請求項5または6に記載の装置。


JP2012506329A 2009-04-24 2010-04-23 トレーニング方法及び装置並びに画像における対象の姿勢視角を推定する方法及び装置 Expired - Fee Related JP5500245B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200910137360.5 2009-04-24
CN200910137360A CN101872476A (zh) 2009-04-24 2009-04-24 估计图像中对象姿势视角的方法、设备
PCT/CN2010/072150 WO2010121568A1 (zh) 2009-04-24 2010-04-23 训练方法、设备和估计图像中对象姿势视角的方法、设备

Publications (2)

Publication Number Publication Date
JP2012524920A true JP2012524920A (ja) 2012-10-18
JP5500245B2 JP5500245B2 (ja) 2014-05-21

Family

ID=42997321

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012506329A Expired - Fee Related JP5500245B2 (ja) 2009-04-24 2010-04-23 トレーニング方法及び装置並びに画像における対象の姿勢視角を推定する方法及び装置

Country Status (5)

Country Link
US (1) US20120045117A1 (ja)
EP (1) EP2423878A1 (ja)
JP (1) JP5500245B2 (ja)
CN (1) CN101872476A (ja)
WO (1) WO2010121568A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101326230B1 (ko) * 2010-09-17 2013-11-20 한국과학기술원 사용자 동적 기관 제스처 인식 방법 및 인터페이스와, 이를 사용하는 전기 사용 장치
KR101298024B1 (ko) * 2010-09-17 2013-08-26 엘지디스플레이 주식회사 사용자 동적 기관 제스처 인식 방법 및 인터페이스와, 이를 사용하는 전기 사용 장치
KR101904203B1 (ko) * 2012-06-20 2018-10-05 삼성전자주식회사 시프트 알고리즘을 이용하여 대용량 소스 이미지의 특징점 정보를 추출하는 장치 및 방법
CN104050712B (zh) * 2013-03-15 2018-06-05 索尼公司 三维模型的建立方法和装置
US10254758B2 (en) * 2017-01-18 2019-04-09 Ford Global Technologies, Llc Object tracking by unsupervised learning

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003141538A (ja) * 2001-11-07 2003-05-16 Communication Research Laboratory テンプレート・マッチング方法
JP2003150963A (ja) * 2001-11-13 2003-05-23 Japan Science & Technology Corp 顔画像認識方法及び顔画像認識装置
JP2004220292A (ja) * 2003-01-15 2004-08-05 Nippon Telegr & Teleph Corp <Ntt> 物体追跡方法、物体追跡装置、物体追跡方法のプログラム並びにそのプログラムを記録した記録媒体
JP2006293756A (ja) * 2005-04-12 2006-10-26 Denso Corp 演算回路及び画像認識装置
JP2008242833A (ja) * 2007-03-27 2008-10-09 National Institute Of Information & Communication Technology 3次元の人の顔の表面データを再構築するための装置及びプログラム
JP2008269572A (ja) * 2007-04-23 2008-11-06 Mitsubishi Electric Research Laboratories Inc レンジ画像から物体の姿勢を求める方法及びシステム
JP2010181366A (ja) * 2009-02-09 2010-08-19 Nec Corp 回転推定装置、回転推定方法およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4318465B2 (ja) * 2002-11-08 2009-08-26 コニカミノルタホールディングス株式会社 人物検出装置および人物検出方法
US7447337B2 (en) * 2004-10-25 2008-11-04 Hewlett-Packard Development Company, L.P. Video content understanding through real time video motion analysis
JP4148281B2 (ja) * 2006-06-19 2008-09-10 ソニー株式会社 モーションキャプチャ装置及びモーションキャプチャ方法、並びにモーションキャプチャプログラム
EP1879149B1 (en) * 2006-07-10 2016-03-16 Fondazione Bruno Kessler method and apparatus for tracking a number of objects or object parts in image sequences
CN101271515B (zh) * 2007-03-21 2014-03-19 株式会社理光 能识别多角度目标的图像检测装置
CN100485713C (zh) * 2007-03-29 2009-05-06 浙江大学 基于集成隐马尔可夫模型学习方法的人体运动数据的识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003141538A (ja) * 2001-11-07 2003-05-16 Communication Research Laboratory テンプレート・マッチング方法
JP2003150963A (ja) * 2001-11-13 2003-05-23 Japan Science & Technology Corp 顔画像認識方法及び顔画像認識装置
JP2004220292A (ja) * 2003-01-15 2004-08-05 Nippon Telegr & Teleph Corp <Ntt> 物体追跡方法、物体追跡装置、物体追跡方法のプログラム並びにそのプログラムを記録した記録媒体
JP2006293756A (ja) * 2005-04-12 2006-10-26 Denso Corp 演算回路及び画像認識装置
JP2008242833A (ja) * 2007-03-27 2008-10-09 National Institute Of Information & Communication Technology 3次元の人の顔の表面データを再構築するための装置及びプログラム
JP2008269572A (ja) * 2007-04-23 2008-11-06 Mitsubishi Electric Research Laboratories Inc レンジ画像から物体の姿勢を求める方法及びシステム
JP2010181366A (ja) * 2009-02-09 2010-08-19 Nec Corp 回転推定装置、回転推定方法およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200701147018; 藤吉弘亘: '"Gradientベースの特徴抽出 -SIFTとHOG-"' 情報処理学会研究報告 Vol.2007 No.87 第2007巻 第87号, 20070903, p.211〜224, 社団法人情報処理学会 *
JPN6012018814; 藤吉弘亘: '"Gradientベースの特徴抽出 -SIFTとHOG-"' 情報処理学会研究報告 Vol.2007 No.87 第2007巻 第87号, 20070903, p.211〜224, 社団法人情報処理学会 *

Also Published As

Publication number Publication date
CN101872476A (zh) 2010-10-27
EP2423878A1 (en) 2012-02-29
JP5500245B2 (ja) 2014-05-21
WO2010121568A1 (zh) 2010-10-28
US20120045117A1 (en) 2012-02-23

Similar Documents

Publication Publication Date Title
JP7040278B2 (ja) 顔認識のための画像処理装置の訓練方法及び訓練装置
JP6681729B2 (ja) オブジェクトの3d姿勢およびオブジェクトのランドマーク点の3dロケーションを求める方法、およびオブジェクトの3d姿勢およびオブジェクトのランドマークの3dロケーションを求めるシステム
WO2019011249A1 (zh) 一种图像中物体姿态的确定方法、装置、设备及存储介质
Huang et al. A coarse-to-fine algorithm for matching and registration in 3D cross-source point clouds
JP4613994B2 (ja) 動態推定装置、動態推定方法、プログラム
CN103729885B (zh) 多视角投影与三维注册联合的手绘场景三维建模方法
CN106529573A (zh) 一种结合三维点云分割和局部特征匹配的实时物体检测方法
CN104021547A (zh) 肺部 ct 的三维配准方法
CN112257605B (zh) 基于自标注训练样本的三维目标检测方法、系统及装置
CN112102294B (zh) 生成对抗网络的训练方法及装置、图像配准方法及装置
JP5500245B2 (ja) トレーニング方法及び装置並びに画像における対象の姿勢視角を推定する方法及び装置
CN107025647B (zh) 图像篡改取证方法及装置
JP2018055199A (ja) 画像処理プログラム、画像処理装置、及び画像処理方法
KR101478709B1 (ko) Rgb-d 영상 특징점 추출 및 특징 기술자 생성 방법 및 장치
US8351650B2 (en) Foreground action estimating apparatus and foreground action estimating method
Wang et al. Joint head pose and facial landmark regression from depth images
EP3825804A1 (en) Map construction method, apparatus, storage medium and electronic device
WO2022247126A1 (zh) 视觉定位方法、装置、设备、介质及程序
CN111709269B (zh) 一种深度图像中基于二维关节信息的人手分割方法和装置
JP2010072700A (ja) 画像処理装置、画像処理方法、及び、撮像システム
JP4324123B2 (ja) モデルデータ表示プログラム、モデルデータ表示装置およびモデルデータ表示方法
KR101373397B1 (ko) 증강현실의 호모그래피 정확도 향상을 위한 csp 기반의 ransac 샘플링 방법
JP2018010359A (ja) 情報処理装置、情報処理方法、およびプログラム
CN107316025B (zh) 一种手部姿态识别方法及识别系统
Le et al. Geometry-Based 3D Object Fitting and Localizing in Grasping Aid for Visually Impaired

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131001

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140225

LAPS Cancellation because of no payment of annual fees