JP2012524920A

JP2012524920A - トレーニング方法及び装置並びに画像における対象の姿勢視角を推定する方法及び装置

Info

Publication number: JP2012524920A
Application number: JP2012506329A
Authority: JP
Inventors: リー，リャン; ウー，ウェイクオ
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-04-24
Filing date: 2010-04-23
Publication date: 2012-10-18
Anticipated expiration: 2030-04-23
Also published as: CN101872476A; EP2423878A1; JP5500245B2; WO2010121568A1; US20120045117A1

Abstract

トレーニング方法及び装置並びに画像における対象の姿勢視角を推定する方法及び装置を提供した。入力画像に基づいてトレーニングを行う装置は、視角タイプを有する複数の入力画像のそれぞれから画像特徴を抽出する抽出ユニットと、複数の視角タイプのそれぞれに対して、線形回帰分析により、前記視角タイプに属する入力画像から抽出された画像特徴を、前記入力画像と相応する三次元対象姿勢情報に変換するマッピングモデルを推定するマップ推定ユニットと、前記画像特徴を相応する三次元対象姿勢情報に連結することにより得られたサンプルに基づいて、連合確率分布モデルを算出する確率モデル算出ユニットとを備え、前記連合確率分布モデルの基づいた単一確率分布モデルは、異なる視角タイプに対応し、且つ各前記単一確率分布モデルは、相応する視角タイプの入力画像から抽出された画像特徴を含むサンプルによるものである。
【選択図】図１

Description

本発明は、対象姿勢の推定に関し、特に、対象の姿勢視角の推定を行うためのトレーニング方法及び装置並びに画像における対象の姿勢視角を推定する方法及び装置に関する。

単一画像において対象（例えば、動物、物体など）の姿勢を推定する方法は、技術的にモデルによる方法と学習による方法に分けられている。学習による方法は、画像特徴から対象の三次元姿勢を直接的に推定するものである。多く使用される画像特徴は、対象輪郭情報である。

従来の対象姿勢推定方法では、対象姿勢の視角を区別していない。対象姿勢の変化の複雑性の原因で、対象姿勢の異なる視角により、より大きい曖昧さが生じることになる。したがって、異なる視角の画像姿勢推定の正確さは、単一視角の姿勢推定と比べて遙かに低い。

本発明は、従来の技術による前記欠陥に鑑みてなされたものであって、対象姿勢推定において対象姿勢視角を区分することに有利である、入力画像に基づいてトレーニングを行う方法及び装置及び画像における対象の姿勢視角を推定する方法及び装置を提供することを目的とする。

本発明の一実施例は、入力画像に基づいてトレーニングを行う方法であって、視角タイプを有する複数の入力画像のそれぞれから画像特徴を抽出し、複数の視角タイプのそれぞれに対して、線形回帰分析により、前記視角タイプに属する入力画像から抽出された画像特徴を、前記入力画像と相応する三次元対象姿勢情報に変換するマッピングモデルを推定することと、前記画像特徴を相応する三次元対象姿勢情報に連結することにより得られたサンプルに基づいて、連合確率分布モデルを算出することを含み、前記連合確率分布モデルの基づいた単一確率分布モデルは、異なる視角タイプに対応し、且つ各前記単一確率分布モデルは、相応する視角タイプの入力画像から抽出された画像特徴を含むサンプルによるものである。

本発明の他の一実施例は、入力画像に基づいてトレーニングを行う装置であって、視角タイプを有する複数の入力画像のそれぞれから画像特徴を抽出する抽出ユニットと、複数の視角タイプのそれぞれに対して、線形回帰分析により、前記視角タイプに属する入力画像から抽出された画像特徴を、前記入力画像と相応する三次元対象姿勢情報に変換するマッピングモデルを推定するマップ推定ユニットと、前記画像特徴を相応する三次元対象姿勢情報に連結することにより得られたサンプルに基づいて、連合確率分布モデルを算出する確率モデル算出ユニットとを備え、前記連合確率分布モデルの基づいた単一確率分布モデルは異なる視角タイプに対応し、且つ各前記単一確率分布モデルは相応する視角タイプの入力画像から抽出された画像特徴を含むサンプルによるものである。

本発明の前記実施例によれば、各入力画像は各自の視角タイプを有する。各入力画像から画像特徴を抽出することができる。視角タイプに従って、線形回帰分析により、マッピングモデルを推定することができる。このようなマッピングモデルは、当該視角タイプの画像特徴を相応する三次元対象姿勢情報に変換する関数として機能する。画像特徴を相応する三次元対象姿勢情報に連結してサンプルを取得することにより、これらのサンプルに基づいて連合確率分布モデルを算出することができる。連合確率分布モデルは若干の単一確率分布モデルによるものであり、各視角タイプは一つの単一確率分布モデルを有する。相応する視角タイプの画像特徴を含むサンプルに基づいて相応する単一確率分布モデルを取得することができる。したがって、本発明の実施例によれば、対象姿勢視角を推定するためのモデル、即ち、各姿勢視角のマッピングモデル及び連合確率分布モデルをトレーニングすることができる。

さらに、前記実施例において、次元降下法を利用して画像特徴を次元降下する特徴変換モデルを算出することができる。それに対して、マッピングモデルの推定及び連合確率分布モデルの算出に用いられるように、特徴変換モデルを利用して画像特徴を変換することができる。特徴変換モデルにより変換された画像特徴は、より低い次元数を有し、後続の推定及び算出の作業量を低減することに有利である。

本発明の他の一実施例は、画像における対象の姿勢視角を推定する方法であって、入力画像から画像特徴を抽出し、複数の視角タイプのそれぞれに対して、当該視角タイプと対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、前記画像特徴の相応する三次元対象姿勢情報を取得し、前記視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、視角タイプ毎の、前記画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、前記連合確率に基づいて、前記相応する三次元対象姿勢情報の条件での前記画像特徴の条件確率を算出し、前記条件確率のうち最大の条件確率の対応する視角タイプを、前記入力画像における対象姿勢視角として推定することを含む。

本発明の他の一実施例は、画像における対象の姿勢視角を推定する装置であって、入力画像から画像特徴を抽出する抽出ユニットと、複数の視角タイプのそれぞれに対して、当該視角タイプと対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、前記画像特徴の相応する三次元対象姿勢情報を取得するマッピングユニットと、前記視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、視角タイプ毎の、前記画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、且つ前記連合確率に基づいて、前記相応する三次元対象姿勢情報の条件での前記画像特徴の条件確率を算出する確率算出ユニットと、前記条件確率のうち最大条件確率の対応する視角タイプを前記入力画像における対象姿勢視角として推定する推定ユニットとを備える。

本発明の上記実施例によれば、入力画像から画像特徴を抽出することができる。各視角タイプは相応する、当該視角タイプの画像特徴を三次元対象姿勢情報に変換するためのマッピングモデルを有するため、それぞれ画像特徴が各視角タイプを有すると仮定することにより、相応するマッピングモデルを利用して、画像特徴の相応する三次元対象姿勢情報を取得することができる。連合確率分布モデルに基づいて、仮定した各視角タイプにおいて当該画像特徴及び相応する三次元対象姿勢情報が出現する連合確率を算出することができる。当該連合確率に基づいて、当該相応する三次元対象姿勢情報が出現した条件で、当該画像特徴が出現する条件確率を算出することができる。以上からわかるように、最大条件確率が対応する視角タイプは、入力画像における対象姿勢視角として推定されてもよい。したがって、本発明の実施例は、対象姿勢視角を推定することができる。

さらに、前記実施例において、三次元対象姿勢情報の取得に用いられるように、次元降下用の特徴変換モデルにより画像特徴を変換することができる。特徴変換モデルにより変換された画像特徴は、より低い次元数を有し、後続のマッピング及び確率算出の作業量を低減することに有利である。

従来の対象姿勢推定方法は、対象姿勢の視角を区分していない。対象姿勢変化の複雑性の原因で、対象姿勢の異なる視角により、大きい推定の曖昧さが生じることになる。したがって、異なる視角の画像姿勢の推定の正確さは、単一視角の姿勢の推定と比べて遙かに低い。本発明は、画像及びビデオにおける対象視角を推定することにより、さらに単一視角における対象姿勢を推定することを目的とした。実験結果により、本発明は、画像及びビデオにおける対象姿勢を効率に推定することができる。

以下の図面に基づく本発明の実施例に対する説明を参照し、本発明の以上及びその他の目的、特徴、利点をより容易に理解することができる。図面において、同一又は対応の技術的特徴又は部品は、同一又は対応の符号で示される。

本発明の一実施例による入力画像に基づいてトレーニングを行うための装置の構造を示すブロック図である。入力画像からブロックを抽出する方法のモードを示す模式図である。本発明の一実施例による入力画像に基づいてトレーニングを行うための方法を示すフローチャートである。本発明の好適な一実施例による入力画像に基づいてトレーニングを行うための装置の構造を示すブロック図である。本発明の好適な一実施例による入力画像に基づいてトレーニングを行うための方法を示すフローチャートである。本発明の一実施例による画像における対象の姿勢視角を推定するための装置の構造を示すブロック図である。本発明の一実施例による画像における対象の姿勢視角を推定するための方法を示すフローチャートである。本発明の好適な一実施例による画像における対象の姿勢視角を推定するための装置の構造を示すブロック図である。本発明の好適な一実施例による画像における対象の姿勢視角を推定するための方法を示すフローチャートである。本発明の実施例を実現するコンピュータの例示的な構造を示すブロック図である。

以下、図面を参照しながら本発明の実施例を説明する。注意すべきのは、明瞭にするために、図面及び明細書における本発明と関係していない、当業者の既知している部品及び処理の表示や説明を省略したことである。

図１のブロック図は、本発明の一実施例による入力画像に基づいてトレーニングを行うための装置１００の構造を示す。

図１に示されるように、装置１００は、抽出ユニット１０１と、マップ推定ユニット１０２と、確率モデル算出ユニット１０３とを含む。

入力画像は、各種の姿勢視角タイプを有する対象を含む画像である。各姿勢視角タイプは、それぞれ対象の取った異なる視角を示す。例えば、姿勢視角タイプは、-８０°、-４０°、０°、+４０°及び+８０°を含んでも良い。なお、-８０°は対象がカメラレンズに対して右へ８０度を回転したことを示す姿勢視角タイプ、-４０°は対象がカメラレンズに対して右へ４０度を回転したことを示す姿勢視角タイプ、０°は対象がカメラレンズと正対面に対向していることを示す姿勢視角タイプ、+４０°は対象がカメラレンズに対して左へ４０度を回転したことを示す姿勢視角タイプ、+８０°は対象がカメラレンズに対して左へ８０度を回転したことを示す姿勢視角タイプである。

勿論、姿勢視角タイプは視角範囲を表すこともできる。例えば、対象の正面視角の、左側面から右側面までの１８０°の範囲を[-９０°,-５４°]、[-５４°,-１８°]、[-１８°，１８°]、[１８°，５４°]、[５４°，９０°]という５つの視角範囲、即ち５つの姿勢視角タイプに分ける。

姿勢視角タイプの数及びその示された具体的な姿勢視角は、上記の例に限定されず、必要に応じて任意に設定されても良い。

本発明の実施例において、入力画像と相応する姿勢視角タイプとの両方も装置１００に供給される。

入力画像は、背景が含まれない各種の姿勢視角の対象画像と、背景が含まれる各種の姿勢視角の対象画像とを含むものであることが好ましい。

抽出ユニット１０１は、視角タイプを有する複数の入力画像のそれぞれから、画像特徴を抽出する。画像特徴は、対象姿勢推定に用いられる各種の特徴であっても良い。好ましくは、画像特徴は、入力画像におけるエッジ方向の統計的特徴、例えば勾配方向ヒストグラムHOG特徴及びスケール不変特徴変換のSIFT特徴である。

具体的な例において、勾配方向ヒストグラムを画像特徴とし、入力画像が一致した幅及び高さ（１２０画素×１００画素）を有する。しかしながら、本発明の実施例は、仮定された具体的な特徴及びサイズに限定されない。

この例において、抽出ユニット１０１は、入力画像における各画素の水平方向及び垂直方向における勾配をそれぞれ算出することができる。即ち、

おける座標を示す。

そこで、抽出ユニット１０１は、入力画像における各画素の水平及び垂直の勾配に基づき、当該画素の勾配方向及び勾配の大きさをそれぞれ算出することができる。即ち、

ただし、勾配方向θ(ｘ,y)の範囲は[0, π]となる。

この例において、抽出ユニット１０１は、入力画像において、左から右へ、上から下への順に従って、３２x３２の大きさのブロックを２４個取ることができる。なお、水平方向は、行ごとに６個のブロックがあり、垂直方向は、列ごとに４個のブロックがある。水平方向及び垂直方向において隣接した任意な二つのブロックの間は、半分が重なっている。

図２の模式図は、入力画像からブロックを抽出するモードを示す。図２において、３つの大きさが３２x３２のブロック２０１、２０２及び２０３が示されている。ブロック２０２は、垂直方向においてブロック２０１と１６個の画素が重なっているが、ブロック２０３は、水平方向においてブロック２０１と１６個の画像が重なっている。

抽出ユニット１０１は、各３２x３２のブロックを、１６個の８x８の小さいブロックに区分することができる。ただし、水平方向は、行ごとに４個の小さいブロックがあり、垂直方向は、列ごとに４個の小さいブロックがある。小さいブロックは、先に水平、後に垂直の順で配列される。

各８x８の小さいブロックのそれぞれに対して、抽出ユニット１０１が小さいブロックにおける６４個の画素の勾配方向ヒストグラムを算出する。ここで、勾配方向を８個の方向区間に区分し、即ち、０からπまでの範囲内においてπ／８ごとに一つの方向区間とする。つまり、各８x８の小さいブロックの６４個画素に基づいて、８つの方向区間のそれぞれに対して、勾配方向が当該方向区間に属する画素の勾配の大きさの和を算出することにより、一つの８次元ベクトルが得られた。それに対して、３２x３２のブロックことに一つの１２８次元ベクトルが得られた。

入力画像毎に、抽出ユニット１０１が各ブロックのベクトルを順に接続することにより、画像特徴が得られる。従って、画像特徴の次元数は３０７２、即ち１２８X２４ =３０７２となる。

本発明の実施例が上記の例に示されたブロック及び小さいブロックの区分モードと具体的な数字に限定されず、他の区分モード及び具体的な数字を採用しても良い。本発明の実施例は、上記の例における特徴の抽出方法に限定されず、他の対象姿勢推定に用いられる画像特徴を抽出する方法を使用してもよい。

図１に戻り、マップ推定ユニット１０２は、複数の視角タイプのうちのそれぞれに対して、線形回帰分析により、当該視角タイプに属する入力画像から抽出された画像特徴を当該入力画像に相応する三次元対象姿勢情報に変換するマッピングモデルを推定する。つまり、各姿勢視角タイプは、ある関数関係またはマッピング関係が存在することが考えられ、当該関係によって、当該姿勢視角タイプの入力画像から抽出された画像特徴を、当該入力画像の相応する三次元対象姿勢情報に変換し、またはマッピングすることができる。線形回帰分析により、抽出された画像特徴及び相応する三次元対象姿勢情報に基づいて、このような関数またはマッピング関係、即ちマッピングモデルを推定可能である。

入力画像ごとに対して、当該入力画像に含まれる対象の姿勢に対応する三次元対象姿勢情報が予め用意されておいた。

で示される。

デルである。

図１に戻り、確率モデル算出ユニット１０３は、画像特徴を相応する三次元対象姿勢情報と連結して得られたサンプルに基づいて、連合確率分布モデルを算出する。なお、連合確率分布モデルが基づいた単一確率分布モデルは異なる視角タイプに対応し、各単一確率分布モデルは相応する視角タイプの入力画像から抽出された画像特徴を含むサンプルによるものである。

つまり、前記連合確率分布モデルは、異なる視角タイプに対する単一確率分布モデルによるものである。既知している方法により、各視角タイプのサンプルの集合に基づき、相応する単一確率分布モデル(即ち、モデルパラメータ)を算出することができ、さらにすべての姿勢視角タイプの単一確率分布モデルの連合確率分布モデル(即ち、モデルパラメータ)を算出することができる。

使用に適する連合確率分布モデルは、混合ガウスモデル、隠れマルコフモデル及び条件付き確率場を含むが、これらに限定されない。

一つの具体的な例において、混合ガウスモデルが採用された。この例において、画像特徴（

デルを算出することができる。

図３は、本発明の一実施例による入力画像に基づいてトレーニングを行うための方法３００のフローチャートを示す。

図３に示されるように、方法３００は、ステップ３０１からスタートする。ステップ３０３において、視角タイプを有する複数の入力画像のそれぞれから、画像特徴を抽出する。入力画像及び姿勢視角タイプは、前記図１の実施例を参照して説明された入力画像及び姿勢視角タイプであってもよい。画像特徴は対象姿勢推定に用いられる各種の特徴であっても良い。好ましくは、画像特徴は、入力画像におけるエッジ方向の統計的特徴、例えば勾配方向ヒストグラムHOG特徴及びスケール不変特徴変換のSIFT特徴である。

ステップ３０５において、複数の視角タイプのうちのそれぞれに対して、線形回帰分析により、当該視角タイプに属する入力画像から抽出された画像特徴を当該入力画像と相応する三次元対象姿勢情報に変換するマッピングモデルを推定する。つまり、各姿勢視角タイプは、ある関数関係又はマッピング関係が存在することが考えられ、当該関係により、当該姿勢視角タイプの入力画像から抽出された画像特徴を、当該入力画像と相応する三次元対象姿勢情報に変換し、又はマッピングすることができる。線形回帰分析により、抽出された画像特徴及び相応する三次元対象姿勢情報に基づいて、このような関数またはマッピング関係、即ちマッピングモデルを推定することができる。

各入力画像に対して、当該入力画像に含まれる対象の姿勢に相応する三次元対象姿勢情報が予め用意されておいた。

デルである。Q個の視角タイプがあれば、Q個の相応するマッピングモデルが生成されることになる。

次に、ステップ３０７において、画像特徴を相応する三次元対象姿勢情報と連結して得られたサンプルに基づいて、連合確率分布モデルを算出する。ただし、連合確率分布モデルの基づいた単一確率分布モデルは異なる視角タイプに対応し、且つ、各単一確率分布モデルは相応する視角タイプの入力画像から抽出された画像特徴を含むサンプルによるものである。

ルを算出することができる。

次に、方法３００は、ステップ３０９において終了する。

図４のブロック図は、本発明の好適な一実施例による入力画像に基づいてトレーニングを行うための装置４００の構造を示す。

図４に示されたように、装置４００は、抽出ユニット４０１と、マップ推定ユニット４０２と、確率モデル算出ユニット４０３と、変換モデル算出ユニット４０４と、特徴変換ユニット４０５とを含む。抽出ユニット４０１と、マップ推定ユニット４０２と、確率モデル算出ユニット４０３との機能は、図１の抽出ユニット１０１と、マップ推定ユニット１０２と、確率モデル算出ユニット１０３との機能と同じであるため、説明を重複しない。しかしながら、抽出ユニット４０１は、変換モデル算出ユニット４０４及び特徴変換ユニット４０５に抽出された画像特徴を出力するように配置され、マップ推定ユニット４０２、確率モデル算出ユニット４０３に入力された画像特徴は、特徴変換ユニット４０５からのものである。

変換モデル算出ユニット４０４は、次元降下法を利用して画像特徴を次元降下する特徴変換モデルを算出する。次元降下法は、主成分分析法、因子分析法、特異値分解、多次元尺度分析、局所線形埋め込み、等距離マッピング、線形判別分析、局所接空間位置合わせおよび最大分散展開を含むが、これらに限定されない。得られた特徴変換モデルは、抽出ユニット４０１により抽出された画像特徴を次元数がより小さい画像特徴に変換するために使用可能である。

特徴変換ユニット４０５は、特徴変換モデルで画像特徴を変換してマッピングモデルの推定及び連合確率分布モデルの算出に使用する。例えば、前記の例において、以下の式により、変換された画像特徴を算出することができる。即ち、

変換された画像特徴(次元数はｄ)は、マップ推定ユニット４０２、確率モデル算出ユニット４０３に供給される。

前記の実施例において、特徴変換モデルによって変換された画像特徴がより低い次元数を有するため、後続の推定及び算出の作業量を低減することに有利である。

図５は、本発明の好適な一実施例による入力画像に基づいてトレーニングを行うための方法５００のフローチャートを示す。

図５に示されるように、方法５００は、ステップ５０１からスタートする。ステップ５０２において、方法３００のステップ３０３と同様に、視角タイプを有する複数の入力画像のそれぞれから画像特徴を抽出する。

ステップ５０３において、次元降下法を利用して、ステップ５０２で抽出された画像特徴を次元降下する特徴変換モデルを算出する。次元降下法は、主成分分析法、因子分析法、特異値分解、多次元尺度分析、局所線形埋め込み、等距離マッピング、線形判別分析、局所接空間位置合わせおよび最大分散展開を含むが、これらに限定されない。得られた特徴変換モデルは、抽出された画像特徴を次元数がより小さい画像特徴に変換するために使用可能である。

ステップ５０４において、特徴変換モデルで画像特徴を変換してマッピングモデルの推定及び連合確率分布モデルの算出に使用する。例えば、前記の例において、以下の式により、変換された画像特徴を算出することができる。即ち、

ステップ５０５において、方法３００のステップ３０５と同様に、複数の視角タイプのそれぞれに対して、線形回帰分析により、当該視角タイプに属する入力画像から抽出された画像特徴(既に変換されたもの)を当該入力画像と相応する三次元対象姿勢情報に変換するマップングモデルを推定する。

次に、ステップ５０７において、方法３００のステップ３０７と同様に、画像特徴（既に変換されたもの）を相応する三次元対象姿勢情報と連結することにより得られたサンプルに基づいて、連合確率分布モデルを算出する。ただし、連合確率分布模型の基づいた単一確率分布モデルは異なる視角タイプに対応し、且つ、各単一確率分布模型は、相応する視角タイプの入力画像から抽出された画像特徴を含むサンプルによるものである。

次に、方法５００は、ステップ５０９において終了する。

図６のブロック図は、本発明の一実施例による画像における対象の姿勢視角を推定するための装置６００の構造を示す。

図６に示されるように、装置６００は、抽出ユニット６０１と、マッピングユニット６０２と、確率算出ユニット６０３と、推定ユニット６０４とを含む。

抽出ユニット６０１は、入力画像から画像特徴を抽出する。入力画像の規格は、前記図１の実施例を参照して説明された入力画像の規格と同じである。画像特徴及び画像特徴を抽出する方法は、採用しようとするマッピングモデルが基づいた画像特徴及びその抽出方法（前記図１の実施例を参照して説明された内容の通り)と同じである。

マッピングユニット６０２は、複数の視角タイプのそれぞれに対して、当該視角タイプと対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、画像特徴の相応する三次元対象姿勢情報を取得する。マッピングモデルは、前記図１の実施例を参

確率算出ユニット６０３は、視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、各視角タイプの、画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、連合確率に基づいて相応する三次元対象姿勢情報の条件での画像特徴の条件確率を算出する。連合確率分布モデルは、前記図１の実施例を参照して説明された連合確率分布モデルである。つまり、各仮定した視角タイプに対して、確率算出ユニット６０３は、画像特徴

うち最大の条件確率が対応する視角タイプを、入力画像における対象姿勢視角として推定する。

図７は、本発明の一実施例による画像における対象の姿勢視角を推定するための方法７００のフローチャートを示す。

図７に示されるように、方法７００は、ステップ７０１からスタートする。ステップ７０３において、入力画像から画像特徴を抽出する。入力画像の規格は、前記図１の実施例を参照して説明された入力画像の規格と相同である。画像特徴及び画像特徴を抽出する方法は、採用しようとするマッピングモデルの基づいた画像特徴及びその抽出方法(例えば、前記図１の実施例を参照して説明された内容の通り)と同じである。

ステップ７０５において、複数の視角タイプのそれぞれに対して、当該視角タイプと対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、画像特徴の相応する三次元対象姿勢情報を取得する。マッピングモデルは、前記図１の実施例を参照し

ステップ７０７において、視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、各視角タイプの、画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、連合確率に基づいて相応する三次元対象姿勢情報の条件での画像特徴の条件確率を算出する。連合確率分布モデルは、前記図１の実施例を参照して説明された連合確率分布モデ

のうち最大の条件確率が対応する視角タイプを、入力画像における対象姿勢視角として推定する。方法７００は、ステップ７０９において終了する。

図８のブロック図は、本発明の好適な一実施例による画像における対象の姿勢視角を推定するための装置８００の構造を示す。

図８に示されるように、装置８００は、抽出ユニット８０１と、変換ユニット８０５と、マッピングユニット８０２と、確率算出ユニット８０３と、推定ユニット８０４とを含む。抽出ユニット８０１、マッピングユニット８０２、確率算出ユニット８０３及び推定ユニット８０４の機能は、それぞれ図６の実施例の抽出ユニット６０１、マッピングユニット６０２、確率算出ユニット６０３及び推定ユニット６０４と同じであるため、説明を重複しない。しかしながら、抽出ユニット８０１は変換ユニット８０５に抽出された画像特徴を出力するように配置され、マッピングユニット８０２、確率算出ユニット８０３の画像特徴は変換ユニット８０５からのものである。

変換ユニット８０５は、三次元対象姿勢情報の取得に用いられるように、次元降下用の特徴変換モデルにより画像特徴を変換する。特徴変換モデルは、前記図４の実施例を参照して説明された特徴変換モデルであっても良い。

上記実施例において、特徴変換モデルにより変換された画像特徴は、より低い次元数を有するため、後続のマッピング及び算出の作業量を低減することに有利である。

図９は、本発明の好適な一実施例による画像における対象の姿勢視角を推定するための方法９００のフローチャートを示す。

図９に示されるように、方法９００は、ステップ９０１からスタートする。ステップ９０３において、ステップ７０３と同様に、入力画像から画像特徴を抽出する。

ステップ９０４において、三次元対象姿勢情報の取得に用いられるように、次元降下用の特徴変換モデルにより画像特徴を変換する。特徴変換モデルは、前記図４の実施例を参照して説明された特徴変換モデルであっても良い。

ステップ９０５において、ステップ７０５と同様に、複数の視角タイプのうちのそれぞれに対して、当該視角タイプと対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、画像特徴の相応する三次元対象姿勢情報を取得する。

ステップ９０７において、ステップ７０７と同様に、視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、各視角タイプの、画像特徴と相応する三次元対象姿勢情報とを含む連合特徴の連合確率を算出し、連合確率に基づいて相応する三次元対象姿勢情報の条件での画像特徴の条件確率を算出する。

ステップ９０８において、ステップ７０８と同様に、すべての可能な視角タイプに対して算出された条件確率のうち最大の条件確率が対応する視角タイプを、入力画像における対象姿勢視角として推定する。方法９００は、ステップ９０９において終了する。

以上のように画像に対して本発明の実施例が説明されたが、本発明の実施例は、ビデオに適用可能である。この場合に、ビデオを画像のシーケンスとして処理する。

図１０は、本発明の実施例を実現するコンピュータの例示的な構造を示すブロック図である。

図１０において、中央処理ユニット(ＣＰＵ)１００１は、リードオンリマッピングデータ(ＲＯＭ)１００２に記憶されたプログラムまたは記憶部１００８からランダムアクセスマッピングデータ(ＲＡＭ)１００３にロードしたプログラムに基づいて、各種の処理を実行する。ＲＡＭ１００３において、必要に応じて、ＣＰＵ１００１が各種の処理等を実行するときに必要なデータも記憶される。

ＣＰＵ１００１、ＲＯＭ１００２及びＲＡＭ１００３はバス１００４を介して互いに接続する。入力／出力インターフェース１００５もバス１００４に接続される。

キーボード、マウス等を含む入力部１００６と、ブラウン管（CRT）、液晶ディスプレイ（LCD）等のようなディスプレイとスピーカ等を含む出力部１００７と、ハードディスク等を含む記憶部１００８と、LANカード、モデム等のようなネットワークインターフェースカードを含む通信部１００９とは、入力／出力インタフェース１００５に接続されている。通信部１００９はネットワーク、例えばインターネットを経由して通信処理を実行する。

必要に応じて、入力／出力インタフェース１００５にはドライバ１０１０も接続されている。磁気ディスク、光ディスク、光磁気ディスク、半導体マッピングデータ等のような取り外し可能な媒体１０１１は、必要に応じてドライバ１０１０に取り付けられており、その中から読み出されたコンピュータプログラムが必要に応じて記憶部１００８にインストールされる。

ソフトウェアにより前記ステップ及び処理が実現される場合には、ネットワーク例えばインターネット、または記憶媒体例えば取り外し可能な媒体１０１１から、ソフトウェアを構成するプログラムをインストールする。

このような記憶媒体は、図１０に示されたような、プログラムが記憶されており、方法と離れて配送されることでユーザにプログラムを提供する取り外し可能な媒体１０１１には限定されないことを、当業者は理解すべきである。取り外し可能な媒体１０１１の例として、磁気ディスク、光ディスク（コンパクトディスクリードオンリマッピングデータ（ＣＤ−ＲＯＭ）やディジタルヴァーサタイルディスク（ＤＶＤ）を含む）、光磁気ディスク（ミニディスク(ＭＤ)含む）及び半導体マッピングデータを含む。または、記憶媒体はＲＯＭ１００２、記憶部１００８に含まれるハードディスクなどであっても良い。その中にプログラムが記憶されており、且つこれらを含む方法と一緒にユーザに配送される。

前記の明細書において、特定の実施例を参照しながら本発明を説明したが、特許請求の範囲に限定された本発明の範囲を逸脱しない前提で各種の修正及び変更を行えることは、当業者が理解すべきである。

向における座標を示す。

ただし、勾配方向θ(ｘ,y)の範囲は[0, π]となる。

モデルである。

きる。即ち、混合ガウスモデルを算出することができる。

グモデルである。Q個の視角タイプがあれば、Q個の相応するマッピングモデルが生成されることになる。

一つの具体的な例において、混合ガウスモデルが採用された。この例において、画像特

次に、方法３００は、ステップ３０９において終了する。

次に、方法５００は、ステップ５０９において終了する。

確率算出ユニット６０３は、視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、各視角タイプの、画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、連合確率に基づいて相応する三次元対象姿勢情報の条件での画像特徴の条件確率を算出する。連合確率分布モデルは、前記図１の実施例を参照して説明された連合確率分布モデルである。つまり、各仮定した視角タイプに対して、確率算

推定ユニット６０４は、すべての可能な視角タイプに対して算出された条件確率

として推定する。

ステップ７０５において、複数の視角タイプのそれぞれに対して、当該視角タイプと対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、画像特徴の相応する三次元対象姿勢情報を取得する。マッピングモデルは、前記図１の実施例を参照して説明されたマッピングモデルである。ここで、入力画像から抽出さ

ステップ７０７において、視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、各視角タイプの、画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、連合確率に基づいて相応する三次元対象姿勢情報の条件での画像特徴の条件確率を算出する。連合確率分布モデルは、前記図１の実施例を参照して説明された連合確率分布モデルである。つまり、各仮定した視角タイプに対して、ステップ

ステップ７０８において、すべての可能な視角タイプに対して算出された条件確率

として推定する。方法７００は、ステップ７０９において終了する。

Claims

画像における対象の姿勢視角を推定する方法であって、
入力画像から画像特徴を抽出し、
複数の視角タイプのそれぞれに対して、当該視角タイプに対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、前記画像特徴の相応する三次元対象姿勢情報を取得し、
前記視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、視角タイプ毎の、前記画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、
前記連合確率に基づいて、前記相応する三次元対象姿勢情報の条件での前記画像特徴の条件確率を算出し、及び
前記条件確率のうち最大の条件確率の対応する視角タイプを、前記入力画像における対象姿勢視角として推定することを含む方法。
前記三次元対象姿勢情報の取得に用いられるように、次元降下用の特徴変換モデルにより前記画像特徴を変換することをさらに含む請求項１に記載の方法。
前記画像特徴は、画像エッジ方向の統計的特徴である請求項１または２に記載の方法。
前記連合確率分布モデルは、混合ガウスモデル、隠れマルコフモデル、または条件付き確率場によるものである請求項１または２に記載の方法。
画像における対象の姿勢視角を推定する装置であって、
入力画像から画像特徴を抽出する抽出ユニットと、
複数の視角タイプのそれぞれに対して、当該視角タイプに対応する、画像特徴を三次元対象姿勢情報にマッピングするためのマッピングモデルに基づいて、前記画像特徴の相応する三次元対象姿勢情報を取得するマッピングユニットと、
前記視角タイプに対する単一確率分布モデルによる連合確率分布モデルに基づいて、視角タイプ毎の、前記画像特徴及び相応する三次元対象姿勢情報を含む連合特徴の連合確率を算出し、且つ前記連合確率に基づいて前記相応する三次元対象姿勢情報の条件での前記画像特徴の条件確率を算出する確率算出ユニットと、
前記条件確率のうち最大の条件確率の対応する視角タイプを前記入力画像における対象姿勢視角として推定する推定ユニットとを備える装置。
前記三次元対象姿勢情報の取得に用いられるように、次元降下用の特徴変換モデルにより前記画像特徴を変換する変換ユニットをさらに備える請求項５に記載の装置。
前記画像特徴は、画像エッジ方向の統計的特徴である請求項５または６に記載の装置。
前記連合確率分布モデルは、混合ガウスモデル、隠れマルコフモデル、または条件付き確率場によるものである請求項５または６に記載の装置。