JP5500245B2 - トレーニング方法及び装置並びに画像における対象の姿勢視角を推定する方法及び装置 - Google Patents
トレーニング方法及び装置並びに画像における対象の姿勢視角を推定する方法及び装置 Download PDFInfo
- Publication number
- JP5500245B2 JP5500245B2 JP2012506329A JP2012506329A JP5500245B2 JP 5500245 B2 JP5500245 B2 JP 5500245B2 JP 2012506329 A JP2012506329 A JP 2012506329A JP 2012506329 A JP2012506329 A JP 2012506329A JP 5500245 B2 JP5500245 B2 JP 5500245B2
- Authority
- JP
- Japan
- Prior art keywords
- viewing angle
- image
- model
- feature
- target posture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 55
- 238000012549 training Methods 0.000 title description 12
- 238000013507 mapping Methods 0.000 claims description 48
- 238000006243 chemical reaction Methods 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012417 linear regression Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000036544 posture Effects 0.000 description 96
- 238000000605 extraction Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 12
- 238000012821 model calculation Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000000556 factor analysis Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/77—Determining position or orientation of objects or cameras using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Description
本発明は、対象姿勢の推定に関し、特に、対象の姿勢視角の推定を行うためのトレーニング方法及び装置並びに画像における対象の姿勢視角を推定する方法及び装置に関する。
単一画像において対象(例えば、動物、物体など)の姿勢を推定する方法は、技術的にモデルによる方法と学習による方法に分けられている。学習による方法は、画像特徴から対象の三次元姿勢を直接的に推定するものである。多く使用される画像特徴は、対象輪郭情報である。
従来の対象姿勢推定方法では、対象姿勢の視角を区別していない。対象姿勢の変化の複雑性の原因で、対象姿勢の異なる視角により、より大きい曖昧さが生じることになる。したがって、異なる視角の画像姿勢推定の正確さは、単一視角の姿勢推定と比べて遙かに低い。
本発明は、従来の技術による前記欠陥に鑑みてなされたものであって、対象姿勢推定において対象姿勢視角を区分することに有利である、入力画像に基づいてトレーニングを行う方法及び装置及び画像における対象の姿勢視角を推定する方法及び装置を提供することを目的とする。
本発明の一実施例は、入力画像に基づいてトレーニングを行う方法であって、視角タイプを有する複数の入力画像のそれぞれから画像特徴を抽出し、複数の視角タイプのそれぞれに対して、線形回帰分析により、前記視角タイプに属する入力画像から抽出された画像特徴を、前記入力画像と相応する三次元対象姿勢情報に変換するマッピングモデルを推定することと、前記画像特徴を相応する三次元対象姿勢情報に連結することにより得られたサンプルに基づいて、連合確率分布モデルを算出することを含み、前記連合確率分布モデルの基づいた単一確率分布モデルは、異なる視角タイプに対応し、且つ各前記単一確率分布モデルは、相応する視角タイプの入力画像から抽出された画像特徴を含むサンプルによるものである。
本発明の他の一実施例は、入力画像に基づいてトレーニングを行う装置であって、視角タイプを有する複数の入力画像のそれぞれから画像特徴を抽出する抽出ユニットと、複数の視角タイプのそれぞれに対して、線形回帰分析により、前記視角タイプに属する入力画像から抽出された画像特徴を、前記入力画像と相応する三次元対象姿勢情報に変換するマッピングモデルを推定するマップ推定ユニットと、前記画像特徴を相応する三次元対象姿勢情報に連結することにより得られたサンプルに基づいて、連合確率分布モデルを算出する確率モデル算出ユニットとを備え、前記連合確率分布モデルの基づいた単一確率分布モデルは異なる視角タイプに対応し、且つ各前記単一確率分布モデルは相応する視角タイプの入力画像から抽出された画像特徴を含むサンプルによるものである。
本発明の前記実施例によれば、各入力画像は各自の視角タイプを有する。各入力画像から画像特徴を抽出することができる。視角タイプに従って、線形回帰分析により、マッピングモデルを推定することができる。このようなマッピングモデルは、当該視角タイプの画像特徴を相応する三次元対象姿勢情報に変換する関数として機能する。画像特徴を相応する三次元対象姿勢情報に連結してサンプルを取得することにより、これらのサンプルに基づいて連合確率分布モデルを算出することができる。連合確率分布モデルは若干の単一確率分布モデルによるものであり、各視角タイプは一つの単一確率分布モデルを有する。相応する視角タイプの画像特徴を含むサンプルに基づいて相応する単一確率分布モデルを取得することができる。したがって、本発明の実施例によれば、対象姿勢視角を推定するためのモデル、即ち、各姿勢視角のマッピングモデル及び連合確率分布モデルをトレーニングすることができる。
さらに、前記実施例において、次元降下法を利用して画像特徴を次元降下する特徴変換モデルを算出することができる。それに対して、マッピングモデルの推定及び連合確率分布モデルの算出に用いられるように、特徴変換モデルを利用して画像特徴を変換することができる。特徴変換モデルにより変換された画像特徴は、より低い次元数を有し、後続の推定及び算出の作業量を低減することに有利である。
本発明の他の一実施例は、画像における対象の姿勢視角を推定する方法であって、入力画像から画像特徴を抽出し、複数の視角タイプのそれぞれに対して、当該視角タイプと対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、前記画像特徴の相応する三次元対象姿勢情報を取得し、前記視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、視角タイプ毎の、前記画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、前記連合確率に基づいて、前記相応する三次元対象姿勢情報の条件での前記画像特徴の条件確率を算出し、前記条件確率のうち最大の条件確率の対応する視角タイプを、前記入力画像における対象姿勢視角として推定することを含む。
本発明の他の一実施例は、画像における対象の姿勢視角を推定する装置であって、入力画像から画像特徴を抽出する抽出ユニットと、複数の視角タイプのそれぞれに対して、当該視角タイプと対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、前記画像特徴の相応する三次元対象姿勢情報を取得するマッピングユニットと、前記視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、視角タイプ毎の、前記画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、且つ前記連合確率に基づいて、前記相応する三次元対象姿勢情報の条件での前記画像特徴の条件確率を算出する確率算出ユニットと、前記条件確率のうち最大条件確率の対応する視角タイプを前記入力画像における対象姿勢視角として推定する推定ユニットとを備える。
本発明の上記実施例によれば、入力画像から画像特徴を抽出することができる。各視角タイプは相応する、当該視角タイプの画像特徴を三次元対象姿勢情報に変換するためのマッピングモデルを有するため、それぞれ画像特徴が各視角タイプを有すると仮定することにより、相応するマッピングモデルを利用して、画像特徴の相応する三次元対象姿勢情報を取得することができる。連合確率分布モデルに基づいて、仮定した各視角タイプにおいて当該画像特徴及び相応する三次元対象姿勢情報が出現する連合確率を算出することができる。当該連合確率に基づいて、当該相応する三次元対象姿勢情報が出現した条件で、当該画像特徴が出現する条件確率を算出することができる。以上からわかるように、最大条件確率が対応する視角タイプは、入力画像における対象姿勢視角として推定されてもよい。したがって、本発明の実施例は、対象姿勢視角を推定することができる。
さらに、前記実施例において、三次元対象姿勢情報の取得に用いられるように、次元降下用の特徴変換モデルにより画像特徴を変換することができる。特徴変換モデルにより変換された画像特徴は、より低い次元数を有し、後続のマッピング及び確率算出の作業量を低減することに有利である。
従来の対象姿勢推定方法は、対象姿勢の視角を区分していない。対象姿勢変化の複雑性の原因で、対象姿勢の異なる視角により、大きい推定の曖昧さが生じることになる。したがって、異なる視角の画像姿勢の推定の正確さは、単一視角の姿勢の推定と比べて遙かに低い。本発明は、画像及びビデオにおける対象視角を推定することにより、さらに単一視角における対象姿勢を推定することを目的とした。実験結果により、本発明は、画像及びビデオにおける対象姿勢を効率に推定することができる。
以下の図面に基づく本発明の実施例に対する説明を参照し、本発明の以上及びその他の目的、特徴、利点をより容易に理解することができる。図面において、同一又は対応の技術的特徴又は部品は、同一又は対応の符号で示される。
以下、図面を参照しながら本発明の実施例を説明する。注意すべきのは、明瞭にするために、図面及び明細書における本発明と関係していない、当業者の既知している部品及び処理の表示や説明を省略したことである。
図1のブロック図は、本発明の一実施例による入力画像に基づいてトレーニングを行うための装置100の構造を示す。
図1に示されるように、装置100は、抽出ユニット101と、マップ推定ユニット102と、確率モデル算出ユニット103とを含む。
入力画像は、各種の姿勢視角タイプを有する対象を含む画像である。各姿勢視角タイプは、それぞれ対象の取った異なる視角を示す。例えば、姿勢視角タイプは、-80°、-40°、0°、+40°及び+80°を含んでも良い。なお、-80°は対象がカメラレンズに対して右へ80度を回転したことを示す姿勢視角タイプ、-40°は対象がカメラレンズに対して右へ40度を回転したことを示す姿勢視角タイプ、0°は対象がカメラレンズと正対面に対向していることを示す姿勢視角タイプ、+40°は対象がカメラレンズに対して左へ40度を回転したことを示す姿勢視角タイプ、+80°は対象がカメラレンズに対して左へ80度を回転したことを示す姿勢視角タイプである。
勿論、姿勢視角タイプは視角範囲を表すこともできる。例えば、対象の正面視角の、左側面から右側面までの180°の範囲を[-90°,-54°]、[-54°,-18°]、[-18°,18°]、[18°,54°]、[54°,90°]という5つの視角範囲、即ち5つの姿勢視角タイプに分ける。
姿勢視角タイプの数及びその示された具体的な姿勢視角は、上記の例に限定されず、必要に応じて任意に設定されても良い。
本発明の実施例において、入力画像と相応する姿勢視角タイプとの両方も装置100に供給される。
入力画像は、背景が含まれない各種の姿勢視角の対象画像と、背景が含まれる各種の姿勢視角の対象画像とを含むものであることが好ましい。
抽出ユニット101は、視角タイプを有する複数の入力画像のそれぞれから、画像特徴を抽出する。画像特徴は、対象姿勢推定に用いられる各種の特徴であっても良い。好ましくは、画像特徴は、入力画像におけるエッジ方向の統計的特徴、例えば勾配方向ヒストグラムHOG特徴及びスケール不変特徴変換のSIFT特徴である。
具体的な例において、勾配方向ヒストグラムを画像特徴とし、入力画像が一致した幅及び高さ(120画素×100画素)を有する。しかしながら、本発明の実施例は、仮定された具体的な特徴及びサイズに限定されない。
そこで、抽出ユニット101は、入力画像における各画素の水平及び垂直の勾配に基づき、当該画素の勾配方向及び勾配の大きさをそれぞれ算出することができる。即ち、
ただし、勾配方向θ(x,y)の範囲は[0, π]となる。
ただし、勾配方向θ(x,y)の範囲は[0, π]となる。
この例において、抽出ユニット101は、入力画像において、左から右へ、上から下への順に従って、32x32の大きさのブロックを24個取ることができる。なお、水平方向は、行ごとに6個のブロックがあり、垂直方向は、列ごとに4個のブロックがある。水平方向及び垂直方向において隣接した任意な二つのブロックの間は、半分が重なっている。
図2の模式図は、入力画像からブロックを抽出するモードを示す。図2において、3つの大きさが32x32のブロック201、202及び203が示されている。ブロック202は、垂直方向においてブロック201と16個の画素が重なっているが、ブロック203は、水平方向においてブロック201と16個の画像が重なっている。
抽出ユニット101は、各32x32のブロックを、16個の8x8の小さいブロックに区分することができる。ただし、水平方向は、行ごとに4個の小さいブロックがあり、垂直方向は、列ごとに4個の小さいブロックがある。小さいブロックは、先に水平、後に垂直の順で配列される。
各8x8の小さいブロックのそれぞれに対して、抽出ユニット101が小さいブロックにおける64個の画素の勾配方向ヒストグラムを算出する。ここで、勾配方向を8個の方向区間に区分し、即ち、0からπまでの範囲内においてπ/8ごとに一つの方向区間とする。つまり、各8x8の小さいブロックの64個画素に基づいて、8つの方向区間のそれぞれに対して、勾配方向が当該方向区間に属する画素の勾配の大きさの和を算出することにより、一つの8次元ベクトルが得られた。それに対して、32x32のブロックことに一つの128次元ベクトルが得られた。
入力画像毎に、抽出ユニット101が各ブロックのベクトルを順に接続することにより、画像特徴が得られる。従って、画像特徴の次元数は3072、即ち128X24 =3072となる。
本発明の実施例が上記の例に示されたブロック及び小さいブロックの区分モードと具体的な数字に限定されず、他の区分モード及び具体的な数字を採用しても良い。本発明の実施例は、上記の例における特徴の抽出方法に限定されず、他の対象姿勢推定に用いられる画像特徴を抽出する方法を使用してもよい。
図1に戻り、マップ推定ユニット102は、複数の視角タイプのうちのそれぞれに対して、線形回帰分析により、当該視角タイプに属する入力画像から抽出された画像特徴を当該入力画像に相応する三次元対象姿勢情報に変換するマッピングモデルを推定する。つまり、各姿勢視角タイプは、ある関数関係またはマッピング関係が存在することが考えられ、当該関係によって、当該姿勢視角タイプの入力画像から抽出された画像特徴を、当該入力画像の相応する三次元対象姿勢情報に変換し、またはマッピングすることができる。線形回帰分析により、抽出された画像特徴及び相応する三次元対象姿勢情報に基づいて、このような関数またはマッピング関係、即ちマッピングモデルを推定可能である。
入力画像ごとに対して、当該入力画像に含まれる対象の姿勢に対応する三次元対象姿勢情報が予め用意されておいた。
図1に戻り、確率モデル算出ユニット103は、画像特徴を相応する三次元対象姿勢情報と連結して得られたサンプルに基づいて、連合確率分布モデルを算出する。なお、連合確率分布モデルが基づいた単一確率分布モデルは異なる視角タイプに対応し、各単一確率分布モデルは相応する視角タイプの入力画像から抽出された画像特徴を含むサンプルによるものである。
つまり、前記連合確率分布モデルは、異なる視角タイプに対する単一確率分布モデルによるものである。既知している方法により、各視角タイプのサンプルの集合に基づき、相応する単一確率分布モデル(即ち、モデルパラメータ)を算出することができ、さらにすべての姿勢視角タイプの単一確率分布モデルの連合確率分布モデル(即ち、モデルパラメータ)を算出することができる。
使用に適する連合確率分布モデルは、混合ガウスモデル、隠れマルコフモデル及び条件付き確率場を含むが、これらに限定されない。
図3は、本発明の一実施例による入力画像に基づいてトレーニングを行うための方法300のフローチャートを示す。
図3に示されるように、方法300は、ステップ301からスタートする。ステップ303において、視角タイプを有する複数の入力画像のそれぞれから、画像特徴を抽出する。入力画像及び姿勢視角タイプは、前記図1の実施例を参照して説明された入力画像及び姿勢視角タイプであってもよい。画像特徴は対象姿勢推定に用いられる各種の特徴であっても良い。好ましくは、画像特徴は、入力画像におけるエッジ方向の統計的特徴、例えば勾配方向ヒストグラムHOG特徴及びスケール不変特徴変換のSIFT特徴である。
ステップ305において、複数の視角タイプのうちのそれぞれに対して、線形回帰分析により、当該視角タイプに属する入力画像から抽出された画像特徴を当該入力画像と相応する三次元対象姿勢情報に変換するマッピングモデルを推定する。つまり、各姿勢視角タイプは、ある関数関係又はマッピング関係が存在することが考えられ、当該関係により、当該姿勢視角タイプの入力画像から抽出された画像特徴を、当該入力画像と相応する三次元対象姿勢情報に変換し、又はマッピングすることができる。線形回帰分析により、抽出された画像特徴及び相応する三次元対象姿勢情報に基づいて、このような関数またはマッピング関係、即ちマッピングモデルを推定することができる。
各入力画像に対して、当該入力画像に含まれる対象の姿勢に相応する三次元対象姿勢情報が予め用意されておいた。
次に、ステップ307において、画像特徴を相応する三次元対象姿勢情報と連結して得られたサンプルに基づいて、連合確率分布モデルを算出する。ただし、連合確率分布モデルの基づいた単一確率分布モデルは異なる視角タイプに対応し、且つ、各単一確率分布モデルは相応する視角タイプの入力画像から抽出された画像特徴を含むサンプルによるものである。
つまり、前記連合確率分布モデルは、異なる視角タイプに対する単一確率分布モデルによるものである。既知している方法により、各視角タイプのサンプルの集合に基づき、相応する単一確率分布モデル(即ち、モデルパラメータ)を算出することができ、さらにすべての姿勢視角タイプの単一確率分布モデルの連合確率分布モデル(即ち、モデルパラメータ)を算出することができる。
使用に適する連合確率分布モデルは、混合ガウスモデル、隠れマルコフモデル及び条件付き確率場を含むが、これらに限定されない。
次に、方法300は、ステップ309において終了する。
図4のブロック図は、本発明の好適な一実施例による入力画像に基づいてトレーニングを行うための装置400の構造を示す。
図4に示されたように、装置400は、抽出ユニット401と、マップ推定ユニット402と、確率モデル算出ユニット403と、変換モデル算出ユニット404と、特徴変換ユニット405とを含む。抽出ユニット401と、マップ推定ユニット402と、確率モデル算出ユニット403との機能は、図1の抽出ユニット101と、マップ推定ユニット102と、確率モデル算出ユニット103との機能と同じであるため、説明を重複しない。しかしながら、抽出ユニット401は、変換モデル算出ユニット404及び特徴変換ユニット405に抽出された画像特徴を出力するように配置され、マップ推定ユニット402、確率モデル算出ユニット403に入力された画像特徴は、特徴変換ユニット405からのものである。
変換モデル算出ユニット404は、次元降下法を利用して画像特徴を次元降下する特徴変換モデルを算出する。次元降下法は、主成分分析法、因子分析法、特異値分解、多次元尺度分析、局所線形埋め込み、等距離マッピング、線形判別分析、局所接空間位置合わせおよび最大分散展開を含むが、これらに限定されない。得られた特徴変換モデルは、抽出ユニット401により抽出された画像特徴を次元数がより小さい画像特徴に変換するために使用可能である。
前記の実施例において、特徴変換モデルによって変換された画像特徴がより低い次元数を有するため、後続の推定及び算出の作業量を低減することに有利である。
図5は、本発明の好適な一実施例による入力画像に基づいてトレーニングを行うための方法500のフローチャートを示す。
図5に示されるように、方法500は、ステップ501からスタートする。ステップ502において、方法300のステップ303と同様に、視角タイプを有する複数の入力画像のそれぞれから画像特徴を抽出する。
ステップ503において、次元降下法を利用して、ステップ502で抽出された画像特徴を次元降下する特徴変換モデルを算出する。次元降下法は、主成分分析法、因子分析法、特異値分解、多次元尺度分析、局所線形埋め込み、等距離マッピング、線形判別分析、局所接空間位置合わせおよび最大分散展開を含むが、これらに限定されない。得られた特徴変換モデルは、抽出された画像特徴を次元数がより小さい画像特徴に変換するために使用可能である。
ステップ505において、方法300のステップ305と同様に、複数の視角タイプのそれぞれに対して、線形回帰分析により、当該視角タイプに属する入力画像から抽出された画像特徴(既に変換されたもの)を当該入力画像と相応する三次元対象姿勢情報に変換するマップングモデルを推定する。
次に、ステップ507において、方法300のステップ307と同様に、画像特徴(既に変換されたもの)を相応する三次元対象姿勢情報と連結することにより得られたサンプルに基づいて、連合確率分布モデルを算出する。ただし、連合確率分布模型の基づいた単一確率分布モデルは異なる視角タイプに対応し、且つ、各単一確率分布模型は、相応する視角タイプの入力画像から抽出された画像特徴を含むサンプルによるものである。
次に、方法500は、ステップ509において終了する。
図6のブロック図は、本発明の一実施例による画像における対象の姿勢視角を推定するための装置600の構造を示す。
図6に示されるように、装置600は、抽出ユニット601と、マッピングユニット602と、確率算出ユニット603と、推定ユニット604とを含む。
抽出ユニット601は、入力画像から画像特徴を抽出する。入力画像の規格は、前記図1の実施例を参照して説明された入力画像の規格と同じである。画像特徴及び画像特徴を抽出する方法は、採用しようとするマッピングモデルが基づいた画像特徴及びその抽出方法(前記図1の実施例を参照して説明された内容の通り)と同じである。
確率算出ユニット603は、視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、各視角タイプの、画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、連合確率に基づいて相応する三次元対象姿勢情報の条件での画像特徴の条件確率を算出する。連合確率分布モデルは、前記図1の実施例を参照して説明された連合確率分布モデルである。つまり、各仮定した視角タイプに対して、確率算
図7は、本発明の一実施例による画像における対象の姿勢視角を推定するための方法700のフローチャートを示す。
図7に示されるように、方法700は、ステップ701からスタートする。ステップ703において、入力画像から画像特徴を抽出する。入力画像の規格は、前記図1の実施例を参照して説明された入力画像の規格と相同である。画像特徴及び画像特徴を抽出する方法は、採用しようとするマッピングモデルの基づいた画像特徴及びその抽出方法(例えば、前記図1の実施例を参照して説明された内容の通り)と同じである。
ステップ705において、複数の視角タイプのそれぞれに対して、当該視角タイプと対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、画像特徴の相応する三次元対象姿勢情報を取得する。マッピングモデルは、前記図1の実施例を参照して説明されたマッピングモデルである。ここで、入力画像から抽出さ
ステップ707において、視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、各視角タイプの、画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、連合確率に基づいて相応する三次元対象姿勢情報の条件での画像特徴の条件確率を算出する。連合確率分布モデルは、前記図1の実施例を参照して説明された連合確率分布モデルである。つまり、各仮定した視角タイプに対して、ステップ
図8のブロック図は、本発明の好適な一実施例による画像における対象の姿勢視角を推定するための装置800の構造を示す。
図8に示されるように、装置800は、抽出ユニット801と、変換ユニット805と、マッピングユニット802と、確率算出ユニット803と、推定ユニット804とを含む。抽出ユニット801、マッピングユニット802、確率算出ユニット803及び推定ユニット804の機能は、それぞれ図6の実施例の抽出ユニット601、マッピングユニット602、確率算出ユニット603及び推定ユニット604と同じであるため、説明を重複しない。しかしながら、抽出ユニット801は変換ユニット805に抽出された画像特徴を出力するように配置され、マッピングユニット802、確率算出ユニット803の画像特徴は変換ユニット805からのものである。
変換ユニット805は、三次元対象姿勢情報の取得に用いられるように、次元降下用の特徴変換モデルにより画像特徴を変換する。特徴変換モデルは、前記図4の実施例を参照して説明された特徴変換モデルであっても良い。
上記実施例において、特徴変換モデルにより変換された画像特徴は、より低い次元数を有するため、後続のマッピング及び算出の作業量を低減することに有利である。
図9は、本発明の好適な一実施例による画像における対象の姿勢視角を推定するための方法900のフローチャートを示す。
図9に示されるように、方法900は、ステップ901からスタートする。ステップ903において、ステップ703と同様に、入力画像から画像特徴を抽出する。
ステップ904において、三次元対象姿勢情報の取得に用いられるように、次元降下用の特徴変換モデルにより画像特徴を変換する。特徴変換モデルは、前記図4の実施例を参照して説明された特徴変換モデルであっても良い。
ステップ905において、ステップ705と同様に、複数の視角タイプのうちのそれぞれに対して、当該視角タイプと対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、画像特徴の相応する三次元対象姿勢情報を取得する。
ステップ907において、ステップ707と同様に、視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、各視角タイプの、画像特徴と相応する三次元対象姿勢情報とを含む連合特徴の連合確率を算出し、連合確率に基づいて相応する三次元対象姿勢情報の条件での画像特徴の条件確率を算出する。
ステップ908において、ステップ708と同様に、すべての可能な視角タイプに対して算出された条件確率のうち最大の条件確率が対応する視角タイプを、入力画像における対象姿勢視角として推定する。方法900は、ステップ909において終了する。
以上のように画像に対して本発明の実施例が説明されたが、本発明の実施例は、ビデオに適用可能である。この場合に、ビデオを画像のシーケンスとして処理する。
図10は、本発明の実施例を実現するコンピュータの例示的な構造を示すブロック図である。
図10において、中央処理ユニット(CPU)1001は、リードオンリマッピングデータ(ROM)1002に記憶されたプログラムまたは記憶部1008からランダムアクセスマッピングデータ(RAM)1003にロードしたプログラムに基づいて、各種の処理を実行する。RAM1003において、必要に応じて、CPU1001が各種の処理等を実行するときに必要なデータも記憶される。
CPU1001、ROM1002及びRAM1003はバス1004を介して互いに接続する。入力/出力インターフェース1005もバス1004に接続される。
キーボード、マウス等を含む入力部1006と、ブラウン管(CRT)、液晶ディスプレイ(LCD)等のようなディスプレイとスピーカ等を含む出力部1007と、ハードディスク等を含む記憶部1008と、LANカード、モデム等のようなネットワークインターフェースカードを含む通信部1009とは、入力/出力インタフェース1005に接続されている。通信部1009はネットワーク、例えばインターネットを経由して通信処理を実行する。
必要に応じて、入力/出力インタフェース1005にはドライバ1010も接続されている。磁気ディスク、光ディスク、光磁気ディスク、半導体マッピングデータ等のような取り外し可能な媒体1011は、必要に応じてドライバ1010に取り付けられており、その中から読み出されたコンピュータプログラムが必要に応じて記憶部1008にインストールされる。
ソフトウェアにより前記ステップ及び処理が実現される場合には、ネットワーク例えばインターネット、または記憶媒体例えば取り外し可能な媒体1011から、ソフトウェアを構成するプログラムをインストールする。
このような記憶媒体は、図10に示されたような、プログラムが記憶されており、方法と離れて配送されることでユーザにプログラムを提供する取り外し可能な媒体1011には限定されないことを、当業者は理解すべきである。取り外し可能な媒体1011の例として、磁気ディスク、光ディスク(コンパクトディスクリードオンリマッピングデータ(CD−ROM)やディジタルヴァーサタイルディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)含む)及び半導体マッピングデータを含む。または、記憶媒体はROM1002、記憶部1008に含まれるハードディスクなどであっても良い。その中にプログラムが記憶されており、且つこれらを含む方法と一緒にユーザに配送される。
前記の明細書において、特定の実施例を参照しながら本発明を説明したが、特許請求の範囲に限定された本発明の範囲を逸脱しない前提で各種の修正及び変更を行えることは、当業者が理解すべきである。
Claims (10)
- 画像における対象の姿勢視角を推定する方法であって、
画像から画像特徴を抽出し、
複数の視角タイプのそれぞれに対して、線形回帰分析により推定される、当該視角タイプに対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、前記画像特徴の相応する三次元対象姿勢情報を取得し、
前記視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、視角タイプ毎の、前記画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、
前記連合確率に基づいて、前記相応する三次元対象姿勢情報の条件での前記画像特徴の条件確率を算出し、及び
前記条件確率のうち最大の条件確率の対応する視角タイプを、前記画像における対象姿勢視角として推定することを含む方法。 - 前記三次元対象姿勢情報の取得に用いられるように、次元降下用の特徴変換モデルにより前記画像特徴を変換することをさらに含む請求項1に記載の方法。
- 前記画像特徴は、画像エッジ方向の統計的特徴である請求項1または2に記載の方法。
- 前記連合確率分布モデルは、混合ガウスモデル、隠れマルコフモデル、または条件付き確率場によるものである請求項1または2に記載の方法。
- 画像における対象の姿勢視角を推定する装置であって、
画像から画像特徴を抽出する抽出ユニットと、
複数の視角タイプのそれぞれに対して、線形回帰分析により推定される、当該視角タイプに対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、前記画像特徴の相応する三次元対象姿勢情報を取得するマッピングユニットと、
前記視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、視角タイプ毎の、前記画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、且つ前記連合確率に基づいて前記相応する三次元対象姿勢情報の条件での複数の視角タイプのそれぞれに対する前記画像特徴の条件確率を算出する確率算出ユニットと、
前記条件確率のうち最大の条件確率の対応する視角タイプを前記画像における対象姿勢視角として推定する推定ユニットとを備える装置。 - 前記三次元対象姿勢情報の取得に用いられるように、次元降下用の特徴変換モデルにより前記画像特徴を変換する変換ユニットをさらに備える請求項5に記載の装置。
- 前記画像特徴は、画像エッジ方向の統計的特徴である請求項5または6に記載の装置。
- 前記連合確率分布モデルは、混合ガウスモデル、隠れマルコフモデル、または条件付き確率場によるものである請求項5または6に記載の装置。
- 機器で読取可能な指令コードが記憶され、
前記指令コードが機器により読取られて実行される際に、請求項1に記載の方法を実行できるプログラム。 - 機器で読取可能な指令コードを持ち、
前記指令コードが機器により読取られて実行される際に、請求項1に記載の方法を実行できる記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910137360A CN101872476A (zh) | 2009-04-24 | 2009-04-24 | 估计图像中对象姿势视角的方法、设备 |
CN200910137360.5 | 2009-04-24 | ||
PCT/CN2010/072150 WO2010121568A1 (zh) | 2009-04-24 | 2010-04-23 | 训练方法、设备和估计图像中对象姿势视角的方法、设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012524920A JP2012524920A (ja) | 2012-10-18 |
JP5500245B2 true JP5500245B2 (ja) | 2014-05-21 |
Family
ID=42997321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012506329A Expired - Fee Related JP5500245B2 (ja) | 2009-04-24 | 2010-04-23 | トレーニング方法及び装置並びに画像における対象の姿勢視角を推定する方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20120045117A1 (ja) |
EP (1) | EP2423878A1 (ja) |
JP (1) | JP5500245B2 (ja) |
CN (1) | CN101872476A (ja) |
WO (1) | WO2010121568A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101326230B1 (ko) * | 2010-09-17 | 2013-11-20 | 한국과학기술원 | 사용자 동적 기관 제스처 인식 방법 및 인터페이스와, 이를 사용하는 전기 사용 장치 |
KR101298024B1 (ko) * | 2010-09-17 | 2013-08-26 | 엘지디스플레이 주식회사 | 사용자 동적 기관 제스처 인식 방법 및 인터페이스와, 이를 사용하는 전기 사용 장치 |
KR101904203B1 (ko) * | 2012-06-20 | 2018-10-05 | 삼성전자주식회사 | 시프트 알고리즘을 이용하여 대용량 소스 이미지의 특징점 정보를 추출하는 장치 및 방법 |
CN104050712B (zh) * | 2013-03-15 | 2018-06-05 | 索尼公司 | 三维模型的建立方法和装置 |
US10254758B2 (en) * | 2017-01-18 | 2019-04-09 | Ford Global Technologies, Llc | Object tracking by unsupervised learning |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003141538A (ja) * | 2001-11-07 | 2003-05-16 | Communication Research Laboratory | テンプレート・マッチング方法 |
JP2003150963A (ja) * | 2001-11-13 | 2003-05-23 | Japan Science & Technology Corp | 顔画像認識方法及び顔画像認識装置 |
JP4318465B2 (ja) * | 2002-11-08 | 2009-08-26 | コニカミノルタホールディングス株式会社 | 人物検出装置および人物検出方法 |
JP4070618B2 (ja) * | 2003-01-15 | 2008-04-02 | 日本電信電話株式会社 | 物体追跡方法、物体追跡装置、物体追跡方法のプログラム並びにそのプログラムを記録した記録媒体 |
US7447337B2 (en) * | 2004-10-25 | 2008-11-04 | Hewlett-Packard Development Company, L.P. | Video content understanding through real time video motion analysis |
JP4600128B2 (ja) * | 2005-04-12 | 2010-12-15 | 株式会社デンソー | 演算回路及び画像認識装置 |
JP4148281B2 (ja) * | 2006-06-19 | 2008-09-10 | ソニー株式会社 | モーションキャプチャ装置及びモーションキャプチャ方法、並びにモーションキャプチャプログラム |
EP1879149B1 (en) * | 2006-07-10 | 2016-03-16 | Fondazione Bruno Kessler | method and apparatus for tracking a number of objects or object parts in image sequences |
CN101271515B (zh) * | 2007-03-21 | 2014-03-19 | 株式会社理光 | 能识别多角度目标的图像检测装置 |
JP4850768B2 (ja) * | 2007-03-27 | 2012-01-11 | 独立行政法人情報通信研究機構 | 3次元の人の顔の表面データを再構築するための装置及びプログラム |
CN100485713C (zh) * | 2007-03-29 | 2009-05-06 | 浙江大学 | 基于集成隐马尔可夫模型学习方法的人体运动数据的识别方法 |
US7844105B2 (en) * | 2007-04-23 | 2010-11-30 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for determining objects poses from range images |
JP5617166B2 (ja) * | 2009-02-09 | 2014-11-05 | 日本電気株式会社 | 回転推定装置、回転推定方法およびプログラム |
-
2009
- 2009-04-24 CN CN200910137360A patent/CN101872476A/zh active Pending
-
2010
- 2010-04-23 US US13/266,057 patent/US20120045117A1/en not_active Abandoned
- 2010-04-23 JP JP2012506329A patent/JP5500245B2/ja not_active Expired - Fee Related
- 2010-04-23 EP EP10766658A patent/EP2423878A1/en not_active Withdrawn
- 2010-04-23 WO PCT/CN2010/072150 patent/WO2010121568A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN101872476A (zh) | 2010-10-27 |
US20120045117A1 (en) | 2012-02-23 |
JP2012524920A (ja) | 2012-10-18 |
EP2423878A1 (en) | 2012-02-29 |
WO2010121568A1 (zh) | 2010-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7040278B2 (ja) | 顔認識のための画像処理装置の訓練方法及び訓練装置 | |
CN109544677B (zh) | 基于深度图像关键帧的室内场景主结构重建方法及系统 | |
Huang et al. | A coarse-to-fine algorithm for matching and registration in 3D cross-source point clouds | |
US7916919B2 (en) | System and method for segmenting chambers of a heart in a three dimensional image | |
WO2019011249A1 (zh) | 一种图像中物体姿态的确定方法、装置、设备及存储介质 | |
CN112102294B (zh) | 生成对抗网络的训练方法及装置、图像配准方法及装置 | |
CN103729885A (zh) | 多视角投影与三维注册联合的手绘场景三维建模方法 | |
CN105574527A (zh) | 一种基于局部特征学习的快速物体检测方法 | |
JP5500245B2 (ja) | トレーニング方法及び装置並びに画像における対象の姿勢視角を推定する方法及び装置 | |
JP2011508323A (ja) | 不変の視覚場面及び物体の認識 | |
EP3300025A1 (en) | Image processing device and image processing method | |
KR101478709B1 (ko) | Rgb-d 영상 특징점 추출 및 특징 기술자 생성 방법 및 장치 | |
EP3825804A1 (en) | Map construction method, apparatus, storage medium and electronic device | |
CN113436251B (zh) | 一种基于改进的yolo6d算法的位姿估计系统及方法 | |
CN111709269B (zh) | 一种深度图像中基于二维关节信息的人手分割方法和装置 | |
CN104123724B (zh) | 一种3d点云物体的快速检测方法 | |
CN117689887A (zh) | 基于点云分割的工件抓取方法、装置、设备及存储介质 | |
JP6202938B2 (ja) | 画像認識装置および画像認識方法 | |
CN110458177B (zh) | 图像深度信息的获取方法、图像处理装置以及存储介质 | |
JP2018097795A (ja) | 法線推定装置、法線推定方法、及び法線推定プログラム | |
KR101373397B1 (ko) | 증강현실의 호모그래피 정확도 향상을 위한 csp 기반의 ransac 샘플링 방법 | |
JP2006260280A (ja) | モデルデータ表示プログラム、モデルデータ表示装置およびモデルデータ表示方法 | |
CN117474953B (zh) | 一种描述子匹配方法及存储介质 | |
JP6668228B2 (ja) | 被写体識別装置、方法、及びプログラム | |
JP5719277B2 (ja) | 物体座標系変換行列推定成否判定装置および物体座標系変換行列推定成否判定方法ならびにそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131001 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140225 |
|
LAPS | Cancellation because of no payment of annual fees |