JP2017062778A

JP2017062778A - 画像のオブジェクトを分類するための方法およびデバイスならびに対応するコンピュータプログラム製品およびコンピュータ可読媒体

Info

Publication number: JP2017062778A
Application number: JP2016167041A
Authority: JP
Inventors: ブルゴスハビエル; Burgos Xavier; カバジネザ; Kabbaj Nezha; ルクレールフランソワ; Leclair Francois
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2015-08-28
Filing date: 2016-08-29
Publication date: 2017-03-30
Also published as: EP3136289A1; US20170061252A1; CN106485260A; US10169683B2; EP3136292A1; KR20170026222A

Abstract

【課題】オブジェクト自動形状推定方法によって提供される結果を良好な結果または不良な結果に自動的に分類する方法を提供する。
【解決手段】少なくとも第１のランドマークに対して、少なくとも第１の選択されたランドマークを含む現在の画像のエリアを説明する少なくとも第１の記述子を取得することであって、少なくとも第１のランドマークは、その第１の識別子が第２のランドマークの第２の識別子に対応するとき選択され、第２のランドマークの第２の記述子は、オブジェクトを分類するための分類器において使用される、取得することと、少なくとも第１の記述子による、及び第２の記述子に関連付けられた重み付け情報による、形状の信頼度を表す情報を決定すること（１１３）とを含む。
【選択図】図１

Description

本開示は、コンピュータビジョンに関し、より詳細には、オブジェクト認識としても知られる、画像またはビデオシーケンス内の所与の意味カテゴリすなわちオブジェクトを見つけて識別するというコンピュータビジョン問題に関する。より詳細には、本開示は、画像内のオブジェクトの形状を適切に決定することに関する。

本開示の原理から、顔アニメーション、ヒューマンコンピュータインタラクション、ビデオ会議のための視線補正、顔レタッチ、法医学、または動物の検出およびその正確な体の姿勢の推定などのオブジェクト認識を実施する任意のフィールドの特定のアプリケーションが見い出される。

計算パワーが増加することの主な利益の１つは、コンピュータビジョンアプリケーションの数が着実に上昇することである。以前は任意の妥当な時間の量で解決することが不可能であったコンピュータビジョン問題は、ますます実現可能になりつつある。

画像またはビデオシーケンス内のオブジェクトを効率的に検出および分類することは、コンピュータビジョンの主な難題の１つである。検出は、問題「オブジェクト／カテゴリｘは画像内にあるか？」に対する１ビットの答えが得られることからなる。

いくつかの機械学習法がこの問題に適用されており、オブジェクト検出精度および速度の著しい改善を示す。

さらに、ほとんどの場合、オブジェクトの存在／欠如を設定するだけでは十分ではなく、画像内のその正確な位置も知ることが望まれ、または、オブジェクトが構成される部分すら単独で検出および特定される。

Ｐ．Ｄｏｌｌａｒら（「ＣａｓｃａｄｅｄＰｏｓｅＲｅｇｒｅｓｓｉｏｎ」）ＩＥＥＥＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ２０１０年１０７８−１０８５頁によって開示されるように、その最も単純な形態において、位置特定は、探索されたオブジェクトを含む画像の最も小さい方形領域を識別することからなるが、より一般的には、オブジェクトの「形状」を復元することが望まれる。

形状とは、関節式の（articulated）オブジェクト（およびそれが構成される部分）の幾何学的構成、たとえば、人体の肢の構成または乗り物のレイアウトを指す。より概括的には、形状とは、オブジェクトの外観の系統的でパラメータ化可能な変化の任意のセットである。

この目的のために、ランドマーク推定方法が開発された。そのような方法の中でも、上記で引用された、Ｐ．Ｄｏｌｌａｒによって開示されたｃａｓｃａｄｅｄｐｏｓｅｒｅｇｒｅｓｓｉｏｎ（ＣＰＲ）技法は、形状推定（本明細書では、「形状」という用語は、顔の幾何学図形的配列を特徴づけるランドマーク位置のセットを指す）とも呼ばれる、顔ランドマーク検出のために使用される。

より正確には、ｃａｓｃａｄｅｄｐｏｓｅｒｅｇｒｅｓｓｉｏｎ（ＣＰＲ）は、未加工（raw）の初期形状推測Ｓ⁰から始まって推定を徐々に改良し、最終形状推定Ｓ^Tを出力する一連のＴ個のリグレッサーＲ^1…Tによって形成される。形状Ｓは、一連のＰ個の部分位置Ｓ_p＝［ｘ_p，ｙ_p］として表され、ｐ∈１…Ｐである。一般に、これらの部分は顔ランドマークに対応する。各繰り返しでは、リグレッサーＲ^tは更新δＳを生じさせ、更新δＳは、次いで、前の繰り返しの推定値Ｓ^t-1と組み合わされて、新しい形状を形成する。

学習中、各リグレッサーＲ^tは、真の形状と前の繰り返しＳ^t-1の形状推定値との差を最小にしようとするように訓練される。利用可能な特徴は、現在の形状推定値に、したがってあらゆる繰り返しにおけるアルゴリズムの変化に依存し、そのような特徴は、姿勢にインデックスが付与された（pose-indexed）または形状にインデックスが付与された（shape-indexed）特徴として知られており、ＣＰＲ技法の鍵は、ロバストな形状にインデックスが付与された特徴を計算し、各繰り返しで推定誤差を徐々に減少させることが可能なリグレッサーを訓練することにある。

ｒｏｂｕｓｔｃａｓｃａｄｅｄｐｏｓｅｒｅｇｒｅｓｓｉｏｎ（ＲＣＰＲ）は、ＣＰＲから派生し、発明者Ｘ．Ｐ．Ｂｕｒｇｏｓ−Ａｒｔｉｚｚｕら（「Ｒｏｂｕｓｔｆａｃｅｌａｎｄｍａｒｋｅｓｔｉｍａｔｉｏｎｕｎｄｅｒｏｃｃｌｕｓｉｏｎ」）、ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、Ｓｙｄｎｅｙ２０１３年によって開示されるように隠蔽を扱うアルゴリズムである。この方法は、訓練セット内の隠蔽のために正解アノテーション（ground truth annotation）を必要とする。そのため、そのｘ座標およびｙ座標のみによって部分位置を定義する代わりに、可視性（visibility）パラメータが追加され、部分位置と同時に学習も可能である。

しかしながら、ＣＰＲ技法は、またはＲＣＰＲ技法ですら、特に非常に難しい顔を扱うとき、姿勢および隠蔽に関して、オブジェクトの形状を正しく推定するのに常に成功するとは限らない。

現在、そのようなオブジェクト形状推定失敗は、オペレータによって手動で検出される必要があり、それは、冗長で時間のかかるプロセスである。

したがって、自動形状推定方法によって提供される結果を良好な結果または不良な結果に自動的に分類することが、依然としてかなり必要とされている。

以下は、本開示のいくつかの態様の基本的な理解を提供するために、本開示の概要を示す。この概要は、本開示の網羅的な概要ではない。本開示の重要または不可欠な要素を識別することを意図するものではない。以下の概要は、以下で提供されるより詳細な説明の前置きとして、本開示のいくつかの態様を簡略化された形態で示すにすぎない。

本開示は、従来技術の欠点のうちの少なくとも１つを、現在の画像のオブジェクトを分類するための方法であって、前記オブジェクトの形状を表す複数の第１のランドマークは現在の画像に関連付けられ、第１の一意の識別子は各第１のランドマークに関連付けられる、方法を用いて直すことを目指す。

そのような方法は、
− 複数の第１のランドマークの中で選択された少なくとも第１のランドマークに対して、前記少なくとも第１の選択されたランドマークを含む現在の画像のエリアを説明する少なくとも第１の記述子を取得することであって、
〇前記少なくとも第１のランドマークは、その第１の識別子により選択され、
〇前記少なくとも第１のランドマークは、その第１の識別子が第２のランドマークの第２の識別子に対応するとき選択され、この第２のランドマークの第２の記述子は、前記オブジェクトを分類するための分類器において使用される、取得することと、
− 前記少なくとも第１の記述子による、および前記第２の記述子に関連付けられた重み付け情報による、前記形状の信頼度を表す情報を決定すること
を含む。

したがって、本開示は、現在の画像のオブジェクトを分類するための新規で進歩性のある方法に依拠する。実際に、本開示は、画像のオブジェクトの分類器の具体的な性質から利益を得、推定されたランドマークの良好性を評価する。

より正確には、前記現在の画像はテスト画像に対応する。前記テスト画像は、複数の第１のランドマークでアノテーションされる（「第１の」という用語は、以下では常にテスト画像に関連付けられ、「第２の」という用語は常に分類器に関連付けられる）。前記複数のランドマークの各ランドマークは識別子によって識別され、この識別子は、同じタイプのオブジェクトに対して永続的である。

言い換えれば、オブジェクトが人間または動物の顔に対応すると考慮すると、たとえば、そのような顔をアノテーションするために６８のランドマークが使用され、左目の左隅にあるランドマークは常に番号７によって識別され、左目の中央にあるランドマークは常に番号８によって識別され、左目右隅にあるランドマークは常に番号９によって識別され、以下同様である。

本開示による方法は、後処理のために画像内にあるように要求する、乗り物、植物、または建物などの、人間または動物の顔以外の他のタイプのオブジェクトを分類するために使用可能であることに留意しなければならない。

したがって、テスト画像をアノテーションするために使用される第１のランドマークは、入力データセットから建物分類モデルへの系統的な方法に対応する分類器によって使用される第２のランドマークと同じ様式で番号が付与される。

その場合、分類器は、１つの第２のランドマークの識別子（前記識別子は、本開示では「第２の識別子」と呼ばれる）を提供することが可能であり、その記述子（前記記述子は、本開示では「第２の記述子」と呼ばれる）は、分類器が前に訓練されている画像のセットに関してオブジェクトを分類するために最も識別力がある（テスト画像は、訓練画像の前記セットに属さない）。

前記第２の記述子は、それに関連付けられた重み付け情報を有する分類器によって提供される。

前記第２の識別子は、次いで、同じ識別子を示すテスト画像をアノテーションするために使用される第１のランドマークを選択するために使用される。

分類器によって提供される第２の識別子と同じ識別子を示す前記第１のランドマークが取得されると、それに関連付けられた第１のランドマークの記述子（第１の記述子と呼ばれる）が、前記テスト画像をアノテーションために使用される第１のランドマークのセットに対応する前記形状推定の信頼度を表す情報を決定するために使用される。

そのような決定は、前記第１の記述子と、分類器によって提供される第２の記述子に関連付けられた重み付け情報の両方を、入力として必要とする。

言い換えれば、本開示により提案される方法は、分類器の前の学習を利用して、分類器によって学習される最も識別力がある第２の記述子に対応する、テスト画像の第１の記述子を直接的に選択する。

本開示によれば、分類器が本方法の実装形態とは無関係に訓練されることが可能であることに留意されなければならない。唯一の要件は、分類器が、そのような識別力のある第２の記述子の識別子およびそれに関連付けられた重み付け情報を提供することが可能であることである。

したがって、テスト画像に対して適用される自動形状推定方法によって提供される結果の全体的割合は迅速かつ効率的に取得され、これによって、テスト画像のリアルタイム格付けが可能になる。言い換えれば、テスト画像の形状アノテーションの「オンライン」評価が可能である。

本開示の特定の態様によると、信頼度を表す情報の前記決定は、前記少なくとも第１の記述子を、前記少なくとも第２の記述子に関連付けられた閾値と比較することを含む。

たとえば、前記第１の記述子の値が前記閾値よりも低い場合、前記テスト画像内で推定される形状の信頼度を表す情報は、前記重み付け情報の正の値に等しく、そうでない場合は、負の値に等しい。

したがって、信頼度を表す情報の負の値は、全体テスト画像に対して、自動形状推定方法によって提供される結果が不良な結果であることを直接的に示す。

本開示のさらなる態様によると、信頼度を表す前記情報は、信頼度の確率値を提供するように正規化される。

実際、確率の形をとる信頼度の値は、オペレータにとって、より理解しやすいことがある。そのような正規化は、前記少なくとも第１の記述子を前記少なくとも第２の記述子に関連付けられた閾値と比較した後で取得される負の値を、テスト画像がオブジェクトを含まないことまたはランドマークアノテーションが誤っていることを示す、ゼロに近い非常に低い確率に変換すること、および逆に、正の値を、０．５から１の間に含まれる確率に変換するに存在することができる。

本開示の実施形態によると、前記現在の画像に対して、前記複数の第１のランドマークの各ランドマークに関連付けられた第１の記述子が、それらの識別子に応じた順序に従って連結されて、第１のベクトルを形成し、前記分類器に対して、複数の第２のランドマークの各ランドマークに関連付けられた第２の記述子が、それらの識別子に応じた前記順序に従って連結されて、第２のベクトルを形成する。

そのような連結によって、１つのベクトルのみが処理されてからの時間に関してプロセスを最適化することが可能になる。さらに、そのような連結は、テスト画像全体の全体的形状を表す単一のベクトルを提供する。本開示は、テスト画像全体に対する信頼度を表す全体的情報を決定し、単一のランドマークの信頼度を表す情報を決定しないことを意図するので、テスト画像のそのような全体的表現は妥当である。

特定の態様によると、前記分類器は、複数の繰り返しを実施する繰り返し分類器であり、２回目の繰り返しから、各繰り返しは、前の繰り返しの結果を使用する。

その結果、分類器が繰り返しである場合、本開示による方法も繰り返しである。言い換えれば、少なくとも第１の記述子を取得するステップおよび次いで信頼度を表す情報の決定は両方とも繰り返されて、信頼度を表す前記情報を改良する。

より正確には、分類器は、第２の識別子と、前記第２の識別子によって識別される第２の記述子に関連付けられた重み付け情報（および任意選択で閾値）を提供し、これは、繰り返しごとに異なることができる。

言い換えれば、１回目の繰り返しにおいて、分類器は、第２の識別子、たとえば番号７（左目の左隅にあるランドマークに関連付けられた記述子に対応する）と、７という番号が付与された前記第２の識別子によって識別される第２の記述子に関連付けられた重み付け情報（および任意選択で閾値）を提供する。

同じく番号７によって識別される、テスト画像に関連付けられた第１の記述子が選択され、次いで、テスト画像の複数の第１のランドマークによってアノテーションされた全体的形状の信頼度を表す情報を決定するために使用される。

１回目の繰り返しで決定された信頼度を表すそのような情報は、次いで、少なくとも２回目の繰り返しで改良される。

２回目の繰り返しにおいて、分類器は、第２の識別子、たとえば番号１５（鼻中心にあるランドマークに関連付けられた記述子に対応する）と、１５という番号が付与された前記第２の識別子によって識別される第２の記述子に関連付けられた重み付け情報（および任意選択で閾値）を提供する。

同じく番号１５によって識別される、テスト画像に関連付けられた第１の記述子が選択され、次いで、１回目の繰り返しで取得された信頼度を表す情報を改良するために使用され、以下同様である。

本開示の特定の特徴によると、前記分類器は、
− アダブーストアルゴリズムを実施する分類器、
− ２進決定木を実施する分類器、
− サポートベクトルマシン分類器、
− 最近傍分類器、
からなるグループに属する。

上記ですでに言及されたように、分類技法すなわち分類器は、入力データセットから分類モデルを構築する系統的な方法である。各々が学習アルゴリズムを用いて、入力データの属性セットとクラスラベルとの関係に最も良く適合し、それが以前に見られていない例であるテストデータのクラスラベルも正しく予測するモデルを識別するいくつかの技法がある。

Ｒ．Ｓｈａｐｉｒｅら（「ＡｂｒｉｅｆｉｎｔｒｏｄｕｃｔｉｏｎｔｏＢｏｏｓｔｉｎｇ」）、ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、１９９９年によって開示されたアダブーストアルゴリズムは、訓練例において異なる分布上で学習器を何度も呼び出すことによって非常に正確な予測ルールを形成するための弱学習器の使用に基づく。弱学習器すなわち弱分類器は、ランダム推測よりも良い一般化誤差を有する分類器である。弱学習アルゴリズムすなわち弱学習器は、５０％よりも高い確率でデータを正しく分類する弱分類器を見つけることが可能であると仮定される。ブースティングは、弱学習器のセットを、各個の弱学習器よりもはるかに優れた分類性能を有する強学習器へと組み合わせる。

別の分類技法は、２進決定木である。２進決定木の主なタスクは、テストレコードの属性についての慎重に練られた一連の質問を尋ねることによって分類問題を解決することである。回答が受け取られるたび、レコードのラベルについての結論に到達するまで、関連質問が尋ねられる。質問およびそれらの可能な一連の回答は、決定木の形で編成可能であり、決定木は、ノードおよび指向エッジからなる階層構造である。木は、３つのタイプのノード、すなわち、入って来るエッジを持たず、０以上の出て行くエッジを持つルートノード、その各々が正確に１つの入って来るエッジと２つ以上の出て行くエッジとを有する内部ノード、およびその各々が正確に１つの入って来るエッジを持ち、出て行くエッジを持たない葉ノードまたは終端ノードを有する。各葉は、クラスラベルに割り当てられる。非終端ノードは、異なる特性を有するレコードを分離する属性テスト条件を含む。

別の分類技法は、Ｖ．Ｖａｐｎｉｋら（「Ｓｕｐｐｏｒｔｖｅｃｔｏｒｍｅｔｈｏｄｆｏｒｆｕｎｃｔｉｏｎａｐｐｒｏｘｉｍａｔｉｏｎ，ｒｅｇｒｅｓｓｉｏｎｅｓｔｉｍａｔｉｏｎ，ａｎｄｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ」）、ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓ９、１９９６年によって開示されたサポートベクトルマシン（ＳＶＭ）分類器は、別個のカテゴリの例が可能な限り広い明らかなギャップによって分割されるようにマッピングされた空間内の点としてのデータの表現である。次いで、新しいデータが同じ空間へとマッピングされ、それらがギャップのどちらの側にあるかに基づくカテゴリに属すると予測される。

別の分類技法は、Ｏ．Ｂｏｉｍａｎら（「ＩｎｄｅｆｅｎｓｅｏｆＮｅａｒｅｓｔ−Ｎｅｉｇｈｂｏｒｂａｓｅｄｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ」）、ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ、２００８年によって開示される最近傍分類であり、データベース内のその最近傍（最も類似した）画像のクラスによって画像を分類する。

本開示の特定の特徴によると、前記第１の記述子と前記第２の記述子は同じタイプであり、前記タイプは、
− 勾配方向ヒストグラム、
− 輪郭を表す情報、
− 輝度値、
− 強度値、
− テクスチャ値
を含むグループに属する。

Ｎ．Ｄａｌａｉら（「Ｈｉｓｔｏｇｒａｍｓｏｆｏｒｉｅｎｔｅｄｇｒａｄｉｅｎｔｓｆｏｒｈｕｍａｎｄｅｔｅｃｔｉｏｎ」）、ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ、２００５年によって開示された勾配方向ヒストグラムは、コンピュータビジョンにおいてオブジェクト検出のために使用される特徴記述子である。

勾配方向ヒストグラム記述子の背後にある主なアイデアは、オブジェクトの局所的な外見ならびに画像内の形状が、強度勾配またはエッジ方向の分布によって説明可能であるということである。したがって、画像は、セルと呼ばれる小さな領域に分割され、ユーザは、これらのセルのサイズ、ならびに２つの隣接するセル間の重複、およびの各ヒストグラムに対する方向ビンの数を選定することができ、次いで、勾配方向ヒストグラムは、各セル内のピクセルに対して編集される。特徴の最終ベクトルは、すべてのこれらのヒストグラムの連結である。照明および陰影の変化の問題を克服するために、ヒストグラム平坦化が、ＨＯＧ特徴の抽出前に画像全体に対して実行可能である。

それとは異なり、前記タイプはまた、たとえばグレイレベルを表す強度値、またはＲＧＢ空間内の特定の色すなわちＲＧＢ空間の３色の各々に対する三つ組などとすることができる。

本開示の実施形態によると、前記方法は、前記分類器の前の訓練を含む。

実際、分類器は、本開示の実装形態とは無関係に、異なるデバイスによって訓練可能であり、次いで、訓練された分類器は、前記方法の入力として提供される。

それにもかかわらず、本方法は、使用される分類器の訓練も実施することができる。そのような訓練は、少なくとも第１の記述子を取得するステップおよび次いで信頼度を表す情報の決定の前に実行されなければならない。前記訓練は、有利には、テスト画像のリアルタイム処理を可能にするために「オフラインで」実行される。

前記実施形態の特定の特徴によると、前記分類器の前記訓練は、
− 前記分類器によって処理されるとき正の分類結果を提供する訓練画像の第１のセットと、
− 前記分類器によって処理されるとき負の分類結果を提供する訓練画像の第２のセットと
を含む訓練画像のデータセットを使用することによって実行され、
− その結果、分類器はまた、負の分類結果を提供するように訓練される。

より正確には、前記訓練画像の第２のセットは、オブジェクトが示されていない画像および／またはオブジェクトランドマークアノテーションが誤っている画像を含む。

このようにして、分類器は、これらの訓練画像のうちのいくらかが誤ったランドマークアノテーションを示す場合でも、訓練画像のランキングを提供することが可能である。したがって、そのような分類器によって提供される結果は、テスト画像の信頼度情報をより適切に決定しようとしている。

別の実施形態によると、前記方法は、前記現在の画像の前記オブジェクトの前のランドマークアノテーション付与をさらに含む。

実際、外部デバイスによってすでにアノテーションされたテスト画像は、本開示による前記テスト画像のオブジェクトを分類するための方法の入力として直接的に提供可能である。

それにもかかわらず、そのようなアノテーションはまた、少なくとも第１の記述子を取得するステップおよび次いで信頼度を表す情報の決定の前に実施可能である。

この別の実施形態の特定の態様によると、前記現在の画像の前記オブジェクトの前記ランドマークアノテーション付与は、
− ｃａｓｃａｄｅｄｐｏｓｅｒｅｇｒｅｓｓｉｏｎ、
− ｒｏｂｕｓｔｃａｓｃａｄｅｄｐｏｓｅｒｅｇｒｅｓｓｉｏｎ
を含むグループに属する方法のうちの１つを使用することによって実行される。

本開示の別の態様は、現在の画像のオブジェクトを分類するためのデバイスであって、前記オブジェクトの形状を表す複数の第１のランドマークは前記現在の画像に関連付けられ、第１の一意の識別子は各第１のランドマークに関連付けられ、前記デバイスは、
− 前記複数の第１のランドマークの中で選択された少なくとも第１のランドマークに対して、前記少なくとも第１の選択されたランドマークを含む前記現在の画像のエリアを説明する少なくとも第１の記述子を取得するためのモジュールであって、
〇前記少なくとも第１のランドマークは、その第１の識別子により選択され、
〇前記少なくとも第１のランドマークは、その第１の識別子が第２のランドマークの第２の識別子に対応するとき選択され、前記第２のランドマークの第２の記述子は、前記オブジェクトを分類するための分類器において使用される、モジュールと、
− 前記少なくとも第１の記述子による、および前記第２の記述子に関連付けられた重み付け情報による、前記形状の信頼度を表す情報を決定するためのモジュールと
を制御するように構成されたプロセッサーを備える、デバイスに関する。

そのようなデバイスは、特に現在の画像のオブジェクトを分類するための方法を実施するために適合される。

本開示はまた、上記で説明された現在の画像のオブジェクトを分類するための方法を実施するためのプログラムコード命令を含み、通信ネットワークからダウンロード可能であり、および／またはコンピュータによって読み取り可能な媒体上に記録され、および／またはプロセッサーによって実行可能なコンピュータプログラム製品に関する。

本開示はまた、上記で説明された現在の画像のオブジェクトを分類するための方法を実施するためのプログラムコード命令を含む、その上に記録され、プロセッサーによって実行されることが可能なコンピュータプログラム製品を含む非一時的なコンピュータ可読媒体に関する。

そのようなコンピュータプログラムは、コンピュータ可読記憶媒体上に記憶され得る。本明細書で使用されるコンピュータ可読記憶媒体は、その中に情報を記憶する固有の能力ならびにそれからの情報の検索を提供する固有の能力が与えられた非一時的な記憶媒体と考えられる。コンピュータ可読記憶媒体は、たとえば、限定するものではないが、電子的、磁気的、光学式、電磁的、赤外線、または半導体システム、装置、もしくはデバイス、または前述のものの任意の適切な組み合わせとすることができる。以下は、本原理が適用可能なコンピュータ可読記憶媒体のより具体的な例を提供しているが、説明に役立つにすぎず、当業者によって容易に諒解される網羅的なリストすなわち、ポータブルコンピュータディスケット、ハードディスク、読出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読出し専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、ポータブルコンパクトディスク読出し専用メモリ（ＣＤ−ＲＯＭ）、光学式デバイス、磁気記憶デバイス、または前述のものの任意の適切な組み合わせではない。

上述の一般的な説明と以下の詳細な説明の両方は例示的で説明的であり、特許請求される本開示を制限するものではないことを理解されたい。

本明細書における「一実施形態」または「実施形態（an embodiment）」の言及は、説明される実施形態が特定の特徴、構造、または特性を含んでよいが、あらゆる実施形態は特定の特徴、構造、または特性を必ずしも含むとは限らないことがあることを示すことも理解されなければならない。

さらに、そのような句は、必ずしも同じ実施形態を参照するとは限らない。さらに、特定の特徴、構造、または特性が実施形態に関連して説明されるとき、明示的に説明されようが説明されなかろうが、他の実施形態に関連するそのような特徴、構造、または特性に影響を及ぼすことは、当業者の知識の範囲内であることが提起される。

本開示の具体的な性質ならびに本開示の他の目的、利点、特徴、および用途は、添付の図面と併せて取り上げる実施形態の以下の説明から明らかになろう。

本開示の実施形態は、例として与えられ、保護の範囲を制限するものではない、以下の説明および図面を参照してより良く理解可能である。
本開示による、現在の画像のオブジェクトを分類するための方法の主なステップの図を概略的に示す。本開示により使用可能である分類器の一例を示す。本開示による、現在の画像から取得可能である記述子のタイプの一例を示す。画像をランドマークアノテーションするための方法の第１の例を示す。画像をランドマークアノテーションするための方法の第１の例を示す。画像をランドマークアノテーションするための方法の第２の例を示す。本開示の実施形態によるデバイスのアーキテクチャの一例を示す。

類似または同じ要素は、同じ参照番号を用いて参照される。図中の構成要素は、必ずしも一定の縮尺ではなく、代わりに、本開示の原理を示す強調がなされる。

一般的な原理
本開示の一般的な原理は、全体的な現在の画像に対する信頼度を表す情報を決定することによって現在の画像のオブジェクトをリアルタイムで分類するための新しい様式に存在し、決定することは、訓練画像のデータセットを用いて前に訓練された分類器によって提供される訓練結果を考慮に入れ、訓練画像は、現在の画像を含まず、以下ではテスト画像と呼ばれる。

次に、現在の画像のオブジェクトを分類するための、方法、対応するデバイス、およびコンピュータ可読記憶媒体の説明が与えられる。

しかしながら、本開示は、多くの代替形態で実施されてよく、本明細書で説明される実施形態に制限されると解釈されるべきではない。したがって、本開示は、さまざまな修正形態および代替形態の余地があるが、その具体的な実施形態は、図面内で例として示され、本明細書で詳細に説明される。しかしながら、本開示を開示の特定の形態に制限する意図はなく、逆に、本開示は、特許請求の範囲によって定義される本開示の趣旨および範囲内に含まれるすべての修正形態、等価物、および代替物を包含するべきであることを理解されたい。

本明細書で使用される用語は、特定の実施形態を説明することのみを目的とし、本開示を制限することを意図するものではない。本明細書で使用されるとき、単数形「１つの（a）」、「１つの（an）」、および、「その（the）」は、文脈で別途明確に示唆しない限り、複数形も含むことを意図する。「〜を備える、含む（comprises）」、「〜を備える、含む（comprising）」、「〜を含む（includes）」、および／または「〜を含む（including）」という用語は、本明細書で使用されるとき、述べられた特徴、整数、ステップ、動作、要素、および／または構成要素の存在を指定するが、１または複数の他の特徴、整数、ステップ、動作、要素、構成要素、および／またはそのグループの存在または追加を排除するものではないことをさらに理解されたい。

さらに、要素が、別の要素に「応答する（responsive）」または「接続された（connected）」と参照されるとき、それは、他の要素に直接的に応答するまたは接続されることができ、または、介在要素が存在することもある。対照的に、要素が他の要素に「直接応答する」または「直接接続された」と表現されたとき、介在要素は存在しない。本明細書で使用されるときに、「および／または」という用語は、１または複数の関連記載項目のありとあらゆる組み合わせを含み、「／」と省略されてよい。

第１の、第２の、などの用語がさまざまな要素を説明するために本明細書で使用されるが、これらの要素はこれらの用語によって制限されるべきではないことが理解されるであろう。これらの用語は、１つの要素を他の要素と区別するためにのみ使用される。たとえば、本開示の教示から逸脱することなく、第１の要素は第２の要素と表現される場合があり、また同様に、第２の要素が第１の要素と表現される場合もある。

図のうちのいくつかは、通信の主要方向を示す通信経路上の矢印を含むが、通信は、示された矢印とは反対方向に行われることがあることを理解されたい。

いくつかの実施形態は、各ブロックが指定された論理機能を実施するための１または複数の実行可能命令を含む回路要素、モジュール、またはコードの一部分を表すブロック図および動作フローチャートに関連して説明される。他の実装形態では、ブロック内で述べられる機能は、述べられた順序とは異なるように行われてよいことにも留意されたい。たとえば、含まれる機能性に応じて、連続して示される２つのブロックは、実際は実質的に同時に実行されてもよいし、ブロックが逆の順序で実行される場合があってもよい。

本明細書における「一実施形態」または「実施形態」の言及は、その実施形態に関連して説明される特定の特徴、構造、または特性を本発明の少なくとも１つの実施形態に含むことができることを意味する。本明細書のさまざまな場所における「一実施形態では」または「実施形態によると」という句の出現は、必ずしもすべてが同じ実施形態を指すとは限らず、また別個の実施形態または代替実施形態が必ずしも他の実施形態と相互に排他的であるとは限らない。

特許請求の範囲に出現する参照番号は、単なる例示にすぎず、特許請求の範囲に対して制限する効果を持たないものとする。

明示的に説明されないが、本実施形態および変形態は、任意の組み合わせまたは副組み合わせで用いられてよい。

本開示は、現在の画像のオブジェクトを分類するために説明されるが、現在の画像内の複数のオブジェクトの分類、または一連の画像内で表されるオブジェクトに拡張されない。これは、この一連に属する各画像のオブジェクトが、以下で説明されるように順次分類されるからである。

画像のオブジェクトを分類するための方法
図１は、本開示により現在の画像のオブジェクトを分類するための方法（１０）の主なステップの図を概略的に示し、この方法は、以下ではテスト画像（１００）と呼ばれる現在の画像のオブジェクトを分類するためのデバイスによって実行される。

本開示によると、テスト画像（１００）のオブジェクトを分類するための方法（１０）は、有利には、オンラインで実行可能であり、テスト画像（１００）に訓練された分類器（１０００）によって提供される結果を適用することに存在する。

テスト画像は、オブジェクトの形状を表す複数の第１のランドマーク（１１１）でアノテーションされたランドマーク（１１０２）である。Ｎ個のランドマークを含む複数のランドマークの各ランドマークは、ｉ∈［１；Ｎ］である識別子ｉによって識別され、この識別子は、同じタイプのオブジェクトに対して永続的である。

たとえば、オブジェクトが人間または動物の顔に対応すると考慮すると、たとえば、そのような顔をアノテーションするためにＮ＝６８のランドマークが使用され、左目の左隅にあるランドマークは常に番号７によって識別され、左目の中央にあるランドマークは常に番号８によって識別され、左目右隅にあるランドマークは常に番号９によって識別され、以下同様である。

任意選択で（点線で示される）、ランドマークアノテーション（１１０２）は、本開示により現在の画像のオブジェクトを分類するためのデバイスによる形状推定（１１０）のフェーズにおいて実行可能であり、または別個のデバイス、によって実行され、次いで本開示により現在の画像のオブジェクトを分類するためのデバイスに送信可能である。

そのような形状推定（１１０）は、Ｐ．Ｄｏｌｌａｒら（「ＣａｓｃａｄｅｄＰｏｓｅＲｅｇｒｅｓｓｉｏｎ」）ＩＥＥＥＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ２０１０年１０７８−１０８５頁によって開示されるｃａｓｃａｄｅｄｐｏｓｅｒｅｇｒｅｓｓｉｏｎ技法（ＣＰＲ）、またはＣＰＲから派生し、発明者Ｘ．Ｐ．Ｂｕｒｇｏｓ−Ａｒｔｉｚｚｕら（「Ｒｏｂｕｓｔｆａｃｅｌａｎｄｍａｒｋｅｓｔｉｍａｔｉｏｎｕｎｄｅｒｏｃｃｌｕｓｉｏｎ」）、ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、Ｓｙｄｎｅｙ２０１３年によって開示された隠蔽を扱うｒｏｂｕｓｔｃａｓｃａｄｅｄｐｏｓｅｒｅｇｒｅｓｓｉｏｎ（ＲＣＰＲ）を使用することによって実行可能である。

図４Ａおよび図４Ｂは、隠蔽を考慮せず、Ｎ＝６８のランドマークを推定するモデルを用いてテスト画像（１００）のために取得されたそのような形状推定を示す。

わかるように、図４Ａ上では、そのような形状推定（１１０）は、最初に境界ボックス（４１）内の顔を検出するようにあらかじめ訓練された顔検出器を適用すること（１１０１）と、次いで、この境界ボックス（４１）を使用しランドマーク（４０）位置を取得するようにあらかじめ訓練されたＣＰＲまたはＲＣＰＲを適用すること（１１０２）とを含む。

そのようなあらかじめ訓練された顔検出器は、Ｐ．Ｖｉｏｌａら（「ＲｏｂｕｓｔＲｅａｌ−ｔｉｍｅＦａｃｅｄｅｔｅｃｔｉｏｎ」）ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆｃｏｍｐｕｔｅｒＶｉｓｉｏｎ、第５７巻第２号、１３７−１５４頁、２００４年によって開示された技法などの従来技術の技法を使用して取得可能である。

図５は、隠蔽を考慮し、Ｎ＝２９のランドマークを推定するモデルを用いてテスト画像（１００）のために取得されたそのような形状推定を示す。実際、ランドマーク（５１）（十字によって表される）は、それらが髪によって重複される場合ですら左目眉のランドマークに対応するが、他のランドマーク（点によって表される）は、重複しない関心顔点に対応する。

複数の第１のランドマークですでにアノテーションされたテスト画像（１００）が取得される（別のデバイスから受信されるまたは提案された方法の中で計算される）と、各ランドマークｉに関連付けられ、ｉ∈［１；Ｎ］である第１の記述子

が取得される（１１２）。

そのようなＮ個の第１の記述子は、
− 勾配方向ヒストグラム、
− 輪郭を表す情報、
− 輝度値、
− 強度値、
− テクスチャ値
を含むグループに属するタイプである。

たとえば、図１によって示される実施形態によると、各記述子は、Ｎ．Ｄａｌａｉら（「Ｈｉｓｔｏｇｒａｍｓｏｆｏｒｉｅｎｔｅｄｇｒａｄｉｅｎｔｓｆｏｒｈｕｍａｎｄｅｔｅｃｔｉｏｎ」）、ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ、２００５年によって開示される勾配方向ヒストグラムである。

一例として、図３は、サイズ１６および９つの方向のビンを使用して顔を含む画像上で抽出可能なすべてのＨＯＧ記述子を表す。

次いで、図１によって示される実施形態の特定の態様によると、すべての第１の記述子

は、連結され（１０１０）て第１のベクトルを形成する。ベクトルは、テスト画像（１００）の全体的な形状を表す。

連結された記述子のそのような取得されたベクトルの中で、各記述子は、第１の識別子ｉによって識別されるランドマークに関連付けられ、１つの第１の記述子

は、その第１の識別子ｉが、その第２の記述子

が訓練画像のデータセット１００１内のオブジェクトを良好に分類する分類器（１０００）において識別されている（１０３０）第２のランドマークの第２の識別子に対応するときに選択される。

テスト画像のために取得される（１１２）第１の記述子のタイプが、分類器（１０００）によって使用される記述子と同じタイプであることに留意しなければならない。言い換えれば、第１の記述子

と第２の記述子

は、たとえば両方ともＨＯＧ記述子である。

次いで、テスト画像（１００）の第１の記述子

および第２の記述子

に関連付けられた重み付け情報ｗ_iは、複数の第１のランドマーク（１１１）に対応する形状の信頼度を表す情報Ｉ_CONFを決定する（１１３）ために使用される。

図１によって示される実施形態の特定の態様によると、決定すること（１１３）は、第１の記述子

を、第２の記述子

に関連付けられた閾値ｔｈ_iと比較すること（１１３１）を含む。

たとえば、信頼度を表す情報Ｉ_CONFは、

ように値Ｈに対応する。

言い換えれば、信頼度を表す情報Ｉ_CONFの負の値Ｈは、全体テスト画像に対して、自動形状推定方法によって提供される結果が不良な結果であることを直接的に示す。

そのようなテスト画像の後処理を行うために設計され、特に形状推定結果が良好であることをチェックすることを担当するオペレータの理解を改善するために、そのような値Ｈは、信頼度の確率値を提供するように正規化される１１３２。

たとえば、顔認識のアプリケーションを目指すとき、非常に低い信頼度（たとえば、０から０．３の間）は、処理された画像パッチが顔を表さない高い確率を有する、言い換えれば、顔検出器の可能性がある失敗を示す。したがって、信頼度インジケータは、標準的な顔検出器によって考慮されない形状キューに基づいて、顔検出性能を改善する助けとなることができる。

高い可能性の適切な顔検出を示すが、不良な品質ランドマーク位置特定を示す「中くらいの」信頼度（たとえば、０．３から０．７の間）の場合、顔ランドマーク推定を使用する適用モジュールは、有利には、顔ランドマーク推定結果に依拠しないフォールバックモードに切り換え可能である。

実際、分類に使用される特徴は、ランドマークの位置によってインデックスが付与されるので、この確率は、テスト画像パッチ内の顔の存在に対する指示（非常に低い値）だけでなく、ランドマーク推定の精度に対する指示（範囲［０．５…０．９］内の適度に高い値）も提供する。

は、
図１によって示される実施形態でわかるように、第１の記述子

を選択する（または抽出する）ために使用される識別子を提供するために使用される訓練された分類器は、繰り返し分類器である。

言い換えれば、そのような分類器は、その訓練中にＴ回の繰り返しを実施して、第２の記述子

を決定し、これは、分類精度を改良するために各繰り返しで最も識別力が高く、各繰り返しは、前の繰り返しの結果を考慮に入れる。

したがって、この態様を考慮すると、本開示によるテスト画像のオンライン処理中に、信頼度を表す情報Ｉ_CONFも繰り返し改良される。

しかしながら、各テスト画像（１００）の迅速な処理を目指すとき、１回きりの繰り返しを実施することが可能である。

たとえば、１回目の繰り返しｔ＝１において、分類器（１０００）は、第１の記述子

を選択するために識別子３４を提供し（１０３０）、次いで、第１の記述子は、同じく分類器（１０００）によって提供される（１０３０）閾値ｔｈ₃₄と比較され、この比較（１１３１）に応じて、情報Ｉ_CONFの値Ｖ₁は±ｗ₃₄である。

２回目の繰り返しｔ＝２において、分類器（１０００）は、第１の記述子

を選択するために識別子４７を提供し（１０３０）、次いで、第１の記述子は、同じく分類器（１０００）によって提供される（１０３０）閾値ｔｈ₄₇と比較され、この比較（１１３１）に応じて、情報Ｉ_CONFの値Ｖ₂は±ｗ₄₇であり、以下の繰り返しに対して同様である。

したがって、信頼度を表す情報Ｉ_CONFの各繰り返し値Ｖ_tは、繰り返しｔにおいて、

であるようなものである。

本開示により使用される分類器はすでに訓練されており、テスト画像（１００）の信頼度を表す情報Ｉ_CONFをリアルタイムで決定するための本開示による方法を実行するために識別子、閾値、および重み付けからなる三つ組をオンラインで提供することが可能であることに留意されなければならない。

任意選択で、図１に表されるように、本開示による方法は、分類器（１０００）の前の訓練（１０２０）も含むことができる。訓練（１０２０）は、有利には、オフラインで一度のみ実行され、任意のテスト画像を後でテストするのに役立つ。

第１の例によると、そのような分類器は分類に２進決定木を使用し、その一例が図２に表されている。

別の例によると、そのような分類器は、Ｒ．Ｓｈａｐｉｒｅら（「ＡｂｒｉｅｆｉｎｔｒｏｄｕｃｔｉｏｎｔｏＢｏｏｓｔｉｎｇ」）、ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、１９９９年によって開示されたアダブーストアルゴリズムを実施し、繰り返し分類器である。

一般に、そのようなアルゴリズムの入力は、検出し、｛−１，＋１｝の正解アノテーションｙ_iでアノテーションされるオブジェクトの正の例および負の例ｘｉのデータセットからなり、ここで、ｙ_i＝＋１は正の例であり、ｙ_i＝−１は負の例である。データセット内の各（正または負の）サンプル（ｘｉ，ｙｉ）には、重み付けｗ_iが割り当てられる。

アルゴリズムの各段階（すなわち、繰り返し）ｔにおいて、弱学習器ｈ（ｘ）を使用して誤分類された点に対する誤差の重み付け和を最小にするこの弱学習器が選択される。

そのような弱学習器はＴ個の弱学習器の中から選択され、数Ｔも繰り返しの数に対応する。

次に、訓練サンプルの重みが、誤分類されたサンプルがより高い重みを与えられ、適切に分類されたサンプルがより低い重みを与えられるように更新される。最終的な強学習器は、各段階ｔで計算された弱学習器の重み付け和として計算される。さらに、重み付けパラメータα_tは、弱学習器ｈ_tに対する分類誤差の関数として計算され、誤差が小さいほど、重み付けパラメータα_tの値が大きくなる。

訓練１０２０中、強分類器Ｈ（ｘ）の値は、事後クラス確率（posterior class probability）の推定値を導き出すために使用可能であり、言い換えれば、各ｘ（すなわち、正の訓練サンプル）に対してｙ（すなわち、負の訓練サンプル）に関する分布が存在すると仮定して、分類器の出力と条件付き確率との関係を取得する。Ｃ．Ｒｕｄｉｎ（「ＢｏｏｓｔｉｎｇＭＩＴ１５．０９７ＣｏｕｒｓｅＮｏｔｅｓ」）、ＭＩＴＯｐｅｎＣｏｕｒｓｅＷａｒｅ、２０１２年によって開示されるように、この確率は、

によって十分に近似されると示すことができる。

より正確には、特定の実施形態によると、分類器がアダブーストアルゴリズムを実施する本開示の場合、分類器のオフライン訓練（１０２０）は、
− 分類器によって処理されるとき正の分類結果を提供する訓練画像の第１のセット（１００２）と、
− 分類器によって処理されるとき負の分類結果を提供する訓練画像の第２のセット（１００３）であって、オブジェクトが存在しない画像および／またはオブジェクトランドマークアノテーションが誤っている画像を含む、訓練画像の第２のセット（１００３）
を含む訓練画像のデータセット（１００１）を使用することによって実行される。

たとえば、データセット（１００１）は、顔画像と、非顔画像とを含む。このデータセットにおいて、顔画像は、顔の位置でアノテーションされ、境界長方形としてマークされ（図４Ａで示されるもの（４１）に類似しているが、この場合、そのような境界長方形は、データセットの訓練画像（１００１）内でマークされる）、およびランドマークの正解位置としてマークされる（図４Ｂで示されるもの（４０）に類似しているが、この場合、そのような境界長方形はデータセットの訓練画像（１００１）内でマークされる）。

境界ボックスは、訓練画像の非顔第２のセット（１００３）内でランダムに選択され、各そのような境界ボックス内で、ランドマーク位置のセットが生成される。たとえば、各境界ボックスに対するランドマーク位置のセットは、訓練データセット（１００１）全体の負の訓練画像（１００３）内の顔境界ボックス例に対するランドマーク位置のセットを平均するようにセット可能である。

より正確には、このオフライン訓練（１０２０）の前に、第２の記述子

（添字ｉは、ｉの番号が付与されたランドマークを表す）が計算され（１００４）、次いで、正（１００１）のサンプルと負の（１００２０）サンプルの両方を含むデータセット（１００１）の各訓練画像に対して連結される（１０１０）。テスト画像に対して取得される（１１２）第１の記述子

のタイプは、分類器（１０００）によって使用されるものと同じタイプであることに留意しなければならない。たとえば、第１の記述子

および第２の記述子

はＨＯＧ記述子である。

具体的には、ＨＯＧ記述子は、ランドマークの各々の中央に置かれた長方形内で計算される。長方形の寸法は、ランドマークの位置から計算された所定値に正規化される。

次いで、アダブースト分類器は、ＢＯＧ特徴に対してオフラインで訓練される（１０２０）。ランドマークは、顔の中の意味論的関心点（semantic point of interest）に結び付けられるので、ランドマークのまわりの長方形内の勾配の分布は、顔画像パッチ間でほぼ不変であり、非顔パッチのまわりの勾配の分布とは大きく異なるべきである。したがって、計算されたＨＯＧ特徴は、顔を非顔から十分に弁別するべきである、したがって、顔分類器にとって特徴の良好な選択肢である。

変形態によると、訓練画像とテストの両方に対して、Ｎ個の元のランドマークの中からＭ（Ｍ＜Ｎ）個のランドマークを含む所定のサブセットが定義され、ＨＯＧ特徴の計算はこのサブセットのみに制限される。

言い換えれば、訓練画像またはテスト画像に対して各６８のランドマークそれぞれに対して第１の記述子

および第２の記述子

を計算する代わりに、計算が、３４の第１の記述子

および第２の記述子

それぞれ（２つのうちの１つ）を計算するように減少される。そのような減少されたサブセットは、２つのうちの１つの記述子を計算する際に存在するルールなどの所定のルールにより、ランダムに取得可能であり、またはオペレータによって手動で定義可能である。

したがって、そのような減少されたサブセットは、第２の記述子

を計算するステップ（１００４）および第１の記述子

を取得するステップ（１１２）の処理時間をそれぞれ減少させることが可能である。
画像のオブジェクトを分類するためのデバイスの構造
図１では、モジュールは、区別可能な物理ユニットと関係してもしなくてもよい機能ユニットである。たとえば、これらのモジュールまたはそれらのうちのいくつかは、一意の構成要素または回路内でまとめられてもよいし、ソフトウェアの機能性に寄与してもよい。反対に（a contrario）、いくつかのモジュールは、潜在的に別個の物理エンティティから構成されてよい。本開示に適合する装置は、たとえばそれぞれ＜＜特定用途向け集積回路＞＞、＜＜フィールドプログラマブルゲートアレイ＞＞、＜＜超大規模集積＞＞であるＡＳＩＣもしくはＦＰＧＡもしくはＶＬＳＩなど専用ハードウェアを使用する純粋なハードウェアを使用して、またはデバイスに埋め込まれたいくつかの集積された電子構成要素から、もしくはハードウェア構成要素とソフトウェア構成要素の混合物から実施される。

図６は、図１に関連して説明されたようにオブジェクトを分類するための方法を実施するように構成され得るデバイス６００の例示的なアーキテクチャを表す。

デバイス６００は、データおよびアドレスバス６０１によって一緒に結ばれた以下の要素、すなわち
− たとえばＤＳＰ（すなわちディジタル信号プロセッサー）である、マイクロプロセッサ６０２（またはＣＰＵ）と、
− ＲＯＭ（すなわち読出し専用メモリ）６０３と、
− ＲＡＭ（すなわちランダムアクセスメモリ）６０４と、
− アプリケーションからのデータの送信および／または受信のためのＩ／Ｏインタフェース６０５と、
− バッテリ６０６と
を備える。

変形態によると、バッテリ６０６はデバイスの外部にある。図６のこれらの要素の各々は当業者によってよく知られており、さらに開示されない。言及されたメモリの各々では、本明細書において使用される＜＜レジスタ＞＞という単語は、小容量（いくつかのビット）のエリアまたは非常に大きなエリアに対応することができる。ＲＯＭ６０３は、少なくともプログラムとパラメータとを備える。本開示による方法のアルゴリズムは、ＲＯＭ６０３に記憶される。電源が投入されると、ＣＰＵ６０２は、ＲＡＭにプログラムをアップロードし、対応する命令を実行する。

ＲＡＭ６０４は、ＣＰＵ６０２によって実行されデバイス６００の電源投入後にアップロードされるプログラムをレジスタ内に備え、入力データをレジスタ内に備え、方法の異なる状態における中間データをレジスタ内に備え、方法の実行に使用される他の変数をレジスタ内に備える。

本明細書で説明される実装形態は、たとえば、方法もしくはプロセス、装置、ソフトウェアプログラム、データストリーム、または信号において実施され得る。実装形態の単数形の文脈のみで説明される（たとえば、方法またはデバイスとしてのみ説明される）場合でも、説明される特徴の実装形態は、他の形態（たとえばプログラム）でも実施され得る。装置は、たとえば、適切なハードウェア、ソフトウェア、およびファームウェアにおいて実施され得る。たとえば、方法は、一般にたとえば、コンピュータ、マイクロプロセッサ、集積回路、またはプログラマブル論理デバイスを含む処理デバイスを指すたとえばプロセッサーなどの装置において実施され得る。プロセッサーは、たとえば、コンピュータ、セル電話、ポータブル／携帯情報端末（「ＰＤＡ」）、およびエンドユーザ間での情報の通信を容易にする他のデバイスなどの通信デバイスも含む。

特定の実施形態によると、現在の画像はソースから取得される。たとえば、このソースは、
− ローカルメモリ（６０３または６０４）、たとえば、ビデオメモリまたはＲＡＭ（すなわちランダムアクセスメモリ）、フラッシュメモリ、ＲＯＭ（すなわち読出し専用メモリ）、ハードディスクと、
− 記憶装置インタフェース、たとえば、大容量記憶装置、ＲＡＭ、フラッシュメモリ、ＲＯＭ、光ディスク、または磁気式補助装置（magnetic support）とのインタフェースと、
− 通信インタフェース（６０５）、たとえばワイヤラインインタフェース（たとえば、バスインタフェース、ワイドエリアネットワークインタフェース、ローカルエリアネットワークインタフェース）またはワイヤレスインタフェース（ＩＥＥＥ８０２．１１インタフェースまたはＢｌｕｅｔｏｏｔｈ（登録商標）インタフェースなどの）と、
− ピクチャ取り込み回路（たとえば、ＣＣＤ（すなわち電荷結合デバイス）またはＣＭＯＳ（すなわち相補型金属酸化膜半導体）などのたとえばセンサ）と
を含むセットに属する。

異なる実施形態によると、デバイスによって配信されるビットストリームは、宛先に送られる。一例として、このビットストリームは、ローカルメモリまたはリモートメモリ、たとえばビデオメモリ（６０４）またはＲＡＭ（６０４）、ハードディスク（６０３）に記憶される。変形態では、ビットストリームは、記憶装置インタフェース、たとえば、大容量記憶装置、フラッシュメモリ、ＲＯＭ、光ディスク、または磁気式補助装置とのインタフェースに送られ、および／または通信インタフェース（６０５）、たとえばポイントツーポイントリンク、通信バス、ポイントツーマルチポイントリンク、またはブロードキャストネットワークへのインタフェースを介して送信される。

本明細書で説明されるさまざまなプロセスおよび特徴の実装形態は、さまざまな異なる機器またはアプリケーションにおいて実施され得る。そのような機器の例としては、デバイス、デコーダから出力を処理するポストプロセッサー、符号化器に入力を提供するプリプロセッサー、ビデオコーダ、ビデオデコーダ、ビデオコーデック、ウェブサーバー、セットトップボックス、ラップトップ、パーソナルコンピュータ、セル電話、ＰＤＡ、およびピクチャまたはビデオまたは他の通信デバイスを処理するための他の任意のデバイスがある。明らかであるべきであるように、機器はモバイルであってよく、移動車両にインストールされてすらよい。

さらに、方法は、プロセッサーによって実行される命令によって実施されてよく、そのような命令（および／または実装形態によって生じさせられるデータ値）は、コンピュータ可読記憶媒体上に記憶されてよい。コンピュータ可読記憶媒体は、１または複数のコンピュータ可読媒体内で実施され、その上で実施され、コンピュータによって実行可能なコンピュータ可読プログラムコードを有するコンピュータ可読プログラム製品の形をとることができる。本明細書で使用されるコンピュータ可読記憶媒体は、その中に情報を記憶する固有の能力ならびにそれからの情報の検索を提供する固有の能力が与えられた非一時的な記憶媒体と考えられる。コンピュータ可読記憶媒体は、たとえば、限定するものではないが、電子的、磁気的、光学式、電磁的、赤外線、または半導体システム、装置、もしくはデバイス、または前述のものの任意の適切な組み合わせとすることができる。以下は、本原理が適用可能なコンピュータ可読記憶媒体のより具体的な例を提供しているが、説明に役立つにすぎず、当業者によって容易に諒解される網羅的なリストではない。ポータブルコンピュータディスケット、ハードディスク、読出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読出し専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、ポータブルコンパクトディスク読出し専用メモリ（ＣＤ−ＲＯＭ）、光学式デバイス、磁気記憶デバイス、または前述のものの任意の適切な組み合わせではない。

命令は、プロセッサー可読媒体上で有形に実施されるアプリケーションプログラムを形成し得る。

命令は、たとえば、ハードウェア、ファームウェア、常駐ソフトウェア、マイクロコードなどの中にあってもよいし、すべて一般に本明細書では「回路」、「モジュール」、または「システム」と呼ぶことがあるソフトウェア態様とハードウェア態様を組み合わせた実施形態であってもよい。

本原理が１またはいくつかのハードウェア構成要素によって実施されるとき、ハードウェア構成要素は、中央処装置、および／またはマイクロプロセッサ、および／または特定用途向け集積回路（ＡＳＩＣ）、および／または特定用途向け命令セットプロセッサー（ＡＳＩＰ）、および／またはグラフィックス処理ユニット（ＧＰＵ）、および／または物理処理ユニット（ＰＰＵ）、および／またはディジタル信号プロセッサー（ＤＳＰ）、および／または画像処理回路、および／またはコプロセッサー、および／または浮動小数点ユニット、および／またはネットワークプロセッサー、および／またはオーディオプロセッサー、および／またはマルチコアプロセッサーなどの集積回路であるプロセッサーを含むことに留意されたい。さらに、ハードウェア構成要素は、ベースバンドプロセッサー（たとえばメモリユニットおよびファームウェアを含む）および／または無線信号を受信または送信する無線電子回路（アンテナを備えることができる）も含むことができる。一実施形態では、ハードウェア成要素は、ＩＳＯ／ＩＥＣ１８０９２／ＥＣＭＡ−３４０、ＩＳＯ／ＩＥＣ２１４８１／ＥＣＭＡ−３５２、ＧＳＭＡ、ＳｔｏＬＰａＮ、ＥＴＳＩ／ＳＣＰ（スマートカードプラットフォーム）、ＧｌｏｂａｌＰｌａｔｆｏｒｍ（すなわち、セキュアな要素）などの１または複数の規格に準拠する。変形態では、ハードウェア構成要素は、無線周波数識別（ＲＦＩＤ）タグである。一実施形態では、ハードウェア構成要素は、Ｂｌｕｅｔｏｏｔｈ通信、および／またはＷｉ−ｆｉ通信、および／またはＺｉｇｂｅｅ通信、および／またはＵＳＢ通信、および／またはＦｉｒｅｗｉｒｅ通信、および／またはＮＦＣ（近距離）通信をイネーブルにする回路を含む。

そのうえ、本原理の態様は、コンピュータ可読記憶媒体の形をとることができる。１または複数のコンピュータ可読記憶媒体の任意の組み合わせが利用されてよい。

したがって、たとえば、本明細書で提示されるブロック図は、本開示の原理を実施する例示的なシステム構成要素および／または回路の概念図を表すことが当業者には理解されるであろう。同様に、あらゆるフローチャート、流れ図、状態遷移図、擬似コードなどは、コンピュータ可読記憶媒体で実質的に表され、その結果、コンピュータまたはプロセッサーが明示的に示されているかどうかにかかわらず、そのようなコンピュータまたはプロセッサーによって実行され得るさまざまなプロセスを表すことが理解されるであろう。

当業者には明らかなように、実装形態は、たとえば記憶または送信され得る情報を搬送するようにフォーマットされたさまざまな信号を生じ得る。この情報は、たとえば、方法を実行する命令、または説明した実装形態のうちの１つによって生じさせられたデータを含んでよい。たとえば、信号は、説明した実施形態のシンタックスを書き込むまたは読み取るためのルールをデータとして搬送するようにフォーマットされてもよいし、説明した実施形態によって書き込まれた実際のシンタックス値をデータとして搬送するようにフォーマットされてもよい。そのような信号は、たとえば、電磁波（たとえば、スペクトルの無線周波数部分を使用する）としてフォーマットされてもよいし、ベースバンド信号としてフォーマットされてもよい。フォーマットとしては、たとえば、データストリームを符号化すること、および符号化されたデータストリームを用いて搬送波を変調することがある。信号が搬送する情報は、たとえば、アナログ情報またはディジタル情報であってよい。信号は、知られているように、さまざまな異なるワイヤードまたはワイヤレスリンクを介して送信され得る。信号は、プロセッサー可読媒体上に記憶されてよい。

いくつかの実装形態について説明してきた。それにもかかわらず、さまざまな修正が加えられ得ることが理解されよう。たとえば、異なる実装形態の要素は、他の実装形態を生じさせるために組み合わされてもよいし、補われてもよいし、修正されてもよいし、除去されてもよい。さらに、他の構造およびプロセスがそれらの開示されたものの代わりに使われてよく、結果として得られる実装形態は、開示された実装形態と少なくとも実質的に同じ機能を少なくとも実質的に同じ様式で実行して、少なくとも実質的に同じ結果を達成することは当業者には理解されよう。したがって、これらおよび他の実装形態は、本出願によって企図される。

Claims

現在の画像（１００）のオブジェクトを分類するための方法（１０）であって、前記オブジェクトの形状を表す複数の第１のランドマーク（１１１）は前記現在の画像（１００）に関連付けられ、第１の一意の識別子は各第１のランドマークに関連付けられ、前記方法は、
− 前記複数の第１のランドマーク（１１１）の中で選択された少なくとも第１のランドマークについて、前記少なくとも第１の選択されたランドマークを含む前記現在の画像のエリアを説明する少なくとも第１の記述子を取得するステップ（１１２）であって、
− 前記少なくとも第１のランドマークは、その第１の識別子により選択され、
− 前記少なくとも第１のランドマークは、その第１の識別子が第２のランドマークの第２の識別子に対応するときに選択され、前記第２のランドマークの第２の記述子は、前記オブジェクトを分類するための分類器において使用される、取得するステップ（１１２）と、
− 前記少なくとも第１の記述子による、および前記第２の記述子に関連付けられた重み付け情報による、前記形状の信頼度を表す情報を決定するステップ（１１３）と
を含む、前記方法。
前記信頼度を表す情報を決定するステップは、前記少なくとも第１の記述子を、前記少なくとも第２の記述子に関連付けられた閾値と比較するステップ（１１３１）を含む、請求項１に記載の現在の画像のオブジェクトを分類するための方法。
前記信頼度を表す情報が、信頼度の確率値を提供するように正規化される（１１３２）、請求項１または２に記載の現在の画像のオブジェクトを分類するための方法。
前記分類器が、複数の繰り返しを実施する繰り返し分類器（１０４０）であり、２回目の繰り返しから、各繰り返しが前の繰り返しの結果を使用する、請求項１〜３のいずれか一項に記載の現在の画像のオブジェクトを分類するための方法。
前記第１の記述子と前記第２の記述子が同じタイプであり、前記タイプは、
− 勾配方向ヒストグラム、
− 輪郭を表す情報、
− 輝度値、
− 強度値、
− テクスチャ値
からなるグループに属する、請求項１〜４のいずれか一項に記載の現在の画像のオブジェクトを分類するための方法。
前記方法が前記分類器の前の訓練（１０２０）を備える、請求項１〜５のいずれか一項に記載の現在の画像のオブジェクトを分類するための方法。
前記方法が、前記現在の画像の前記オブジェクトの前のランドマークアノテーション（１１０２）を備える、請求項１〜６のいずれか一項に記載の現在の画像のオブジェクトを分類するための方法。
現在の画像のオブジェクトを分類するためのデバイスであって、前記オブジェクトの形状を表す複数の第１のランドマークは前記現在の画像に関連付けられ、第１の一意の識別子は各第１のランドマークに関連付けられ、前記デバイスは、
− 前記複数の第１のランドマークの中で選択された少なくとも第１のランドマークについて、前記少なくとも第１の選択されたランドマークを含む前記現在の画像のエリアを説明する少なくとも第１の記述子を取得するためのモジュールであって、
・前記少なくとも第１のランドマークは、その第１の識別子により選択され、
・前記少なくとも第１のランドマークは、その第１の識別子が第２のランドマークの第２の識別子に対応するとき選択され、前記第２のランドマークの第２の記述子は、前記オブジェクトを分類するための分類器において使用される、モジュールと、
− 前記少なくとも第１の記述子による、および前記第２の記述子に関連付けられた重み付け情報による、前記形状の信頼度を表す情報を決定するためのモジュールと
を制御するように構成されたプロセッサーを備える、前記デバイス。
前記信頼度を表す情報を決定することは、前記少なくとも第１の記述子を、前記少なくとも第２の記述子に関連付けられた閾値と比較すること（１１３１）を含む、請求項８に記載の現在の画像のオブジェクトを分類するためのデバイス。
前記信頼度を表す情報が、信頼度の確率値を提供するように正規化される（１１３２）、請求項８または９に記載の現在の画像のオブジェクトを分類するためのデバイス。
前記分類器が、複数の繰り返しを実施する繰り返し（１０４０）分類器であり、２回目の繰り返しから、各繰り返しが前の繰り返しの結果を使用する、請求項８〜１０のいずれか一項に記載の現在の画像のオブジェクトを分類するためのデバイス。
前記第１の記述子と前記第２の記述子が同じタイプであり、前記タイプは、
− 勾配方向ヒストグラム、
− 輪郭を表す情報、
− 輝度値、
− 強度値、
− テクスチャ値
からなるグループに属する、請求項８〜１１のいずれか一項に記載の現在の画像のオブジェクトを分類するためのデバイス。
前記プロセッサーが、前記分類器の前の訓練（１０２０）を処理するようにさらに構成される、請求項８〜１２のいずれか一項に記載の現在の画像のオブジェクトを分類するための方法。
前記プロセッサーが、前記現在の画像の前記オブジェクトの前のランドマークアノテーション（１１０２）を処理するようにさらに構成される、請求項８〜１３のいずれか一項に記載の現在の画像のオブジェクトを分類するためのデバイス。
その上に記録され、プロセッサーによって実行されることが可能であり、それがプロセッサーによって実行されるとき請求項１〜１２のいずれか一項に記載の少なくとも１つの適合誤差を検出するための前記方法の前記ステップを実施するためのプログラムコード命令を含むコンピュータプログラム製品を備える非一時的なコンピュータ可読媒体。