JP5657113B2

JP5657113B2 - 映像内のオブジェクトの意味解析

Info

Publication number: JP5657113B2
Application number: JP2013521133A
Authority: JP
Inventors: バケロ、ダニエル; フェリス、ロジェリオ、シュミット; ハンパプール、アルン; ブラウン、リサ、マリー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2010-07-28
Filing date: 2011-07-27
Publication date: 2015-01-21
Anticipated expiration: 2031-07-27
Also published as: JP2013533563A; US20130177249A1; US20140185937A1; US20120027304A1; DE112011101927B4; US9002117B2; US8532390B2; US20150131910A1; US20160132730A1; GB201302234D0; WO2012013711A2; US9245186B2; US9679201B2; KR20130095727A; GB2495881B; CN103703472A; KR101507662B1; GB2495881A; US8588533B2; WO2012013711A3

Description

本発明は映像処理及びオブジェクト識別に関し、より具体的にはオブジェクトの画像を分析して属性を識別することに関する。

映像内のオブジェクト及びそれらの部分の位置を自動的に識別することは、多くのタスクにとって重要である。例えば、人体の部分の場合、人体部分の位置を自動的に識別することは、自動動作認識、人間の姿勢推定などのタスクにとって重要である。人体解析（ｂｏｄｙｐａｒｓｉｎｇ）は、映像内の個々の人体部分のコンピュータによる位置確認を説明するために用いられる用語である。映像内の人体解析のための現在の方法は、頭、脚、腕といった部分の位置のみを推定する。例えば、非特許文献１及び非特許文献２を参照されたい。

殆どの従来の方法は、実際にはオブジェクトの構文解析だけを行うものであり、即ち、オブジェクトの部分（例えば、腕、脚、顔など）に関連付けられた意味属性を効率的に推定せずにオブジェクトの部分の位置を推定するだけである。

Ｒａｍａｎａｎ他著「ＳｔｒｉｋｅａＰｏｓｅ：ＴｒａｃｋｉｎｇＰｅｏｐｌｅｂｙＦｉｎｄｉｎｇＳｔｙｌｉｚｅｄＰｏｓｅｓ」、ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）、サンジエゴ、カルフォルニア、２００５年６月Ｆｅｌｚｅｎｓｚｗａｌｂ他著「ＰｉｃｔｏｒｉａｌＳｔｒｕｃｔｕｒｅｓｆｏｒＯｂｊｅｃｔＲｅｃｏｇｎｉｔｉｏｎ」、ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＩＪＣＶ）、２００５年１月Ｎ．Ｄａｌａｌ及びＢ．Ｔｒｉｇｇｓ著「ＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓｆｏｒＨｕｍａｎＤｅｔｅｃｔｉｏｎ」、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ、第２巻、８８６−８９３ページ、サンジエゴ、米国、２００５年６月Ｖｉｏｌａ他著「ＲｏｂｕｓｔＲｅａｌ−ｔｉｍｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ」、ＣａｍｂｒｉｄｇｅＲｅｓｅａｒｃｈＬａｂｏｒａｔｏｒｙＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ、２００１年２月ＢｏＷｕ他著「ＦａｓｔＲｏｔａｔｉｏｎＩｎｖａｒｉａｎｔＭｕｌｔｉ−ＶｉｅｗＦａｃｅＤｅｔｅｃｔｉｏｎＢａｓｅｄｏｎＲｅａｌＡｄａｂｏｏｓｔ」、ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｕｔｏｍａｔｉｃＦａｃｅａｎｄＧｅｓｔｕｒｅＲｅｃｏｇｎｉｔｉｏｎ、２００４年ＮａｉｖｅＢａｙｅｓＣｌａｓｓｉｆｉｅｒ（ＵＲＬ：ｈｔｔｐ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｎａｉｖｅ＿Ｂａｙｅｓ＿ｃｌａｓｓｉｆｉｅｒ）Ｔｓｏｃｈａｎｔａｒｉｄｉｓ他著「ＬａｒｇｅＭａｒｇｉｎＭｅｔｈｏｄｓｆｏｒＳｔｒｕｃｔｕｒｅｄａｎｄＩｎｔｅｒｄｅｐｅｎｄｅｎｔＯｕｔｐｕｔＶａｒｉａｂｌｅｓ」、ＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ（ＪＭＬＲ）、２００５年９月Ｔｒａｎ他著「ＣｏｎｆｉｇｕｒａｔｉｏｎＥｓｔｉｍａｔｅｓＩｍｐｒｏｖｅＰｅｄｅｓｔｒｉａｎＦｉｎｄｉｎｇ」、ＮａｔｉｏｎａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓＦｏｕｎｄａｔｉｏｎ、２００７年

上記のことを考慮すると、画像からオブジェクトの意味属性を効果的に識別するための方法及びシステムが必要とされている。

本発明は、映像内のオブジェクトの部分及び属性を推定するための方法、コンピュータ・プログラム製品、コンピュータ・システム及びプロセスにある。この方法、コンピュータ・プログラム製品、コンピュータ・システム及びプロセスは、映像入力を受け取るステップと、映像入力からオブジェクトを検出し、映像入力からオブジェクトの画像を切り抜くステップと、オブジェクトに関して、関連付けられた部分を有する複数の意味属性を受け取るステップと、各々のバージョンがオブジェクトの画像の異なる解像度を有する、画像の複数のバージョンを生成してストアするステップと、オブジェクトの画像のバージョンのうちの最低解像度バージョン上の複数の領域の各々の領域において複数の意味属性に関する出現スコアを計算するステップであって、各領域に対する複数の意味属性のうちの少なくとも１つの意味属性に関する出現スコアは、少なくとも１つの意味属性のうちの各意味属性がその領域内に出現する確率を示す、計算するステップと、最低解像度バージョンにおける各領域に関する解像度コンテキスト・スコアを計算するために、最低解像度バージョンよりも次第により高い解像度バージョンを分析するステップであって、最低解像度バージョンにおける解像度コンテキスト・スコアは、各領域に関して、最低解像度バージョンにおけるよりも次第により高い解像度バージョンにおいて、より精徴な空間構造が存在する程度を示す、分析するステップと、最低解像度バージョンにおける身体部分の最適配置及び関連付けられた意味属性を確認するステップであって、前記確認するステップが、最低解像度バージョンにおける各領域内の出現スコア及び解像度コンテキスト・スコアを利用する、確認するステップと、身体部分の最適配置及び関連付けられた意味属性を表示及び／又はストアするステップとを含む。

次に、以下の図面を参照しながら、本発明の好ましい実施形態を例示のみを目的として説明する。

本発明の一実施形態による、人体の意味属性を検出するためのシステムの例証的な環境を示す。本発明の一実施形態による、映像内の人体内の意味属性を検出するための例証的な環境の詳細図を示す。本発明の一実施形態による、入力及び出力の一例を示す。本発明の一実施形態による、画像上の意味属性を検出するための例証的なデータ・フローを示す。本発明の一実施形態による、身体部分に関連付けられた意味属性の例を示す。本発明の一実施形態による、人体画像に対する意味属性の適用の例を示す。本発明の一実施形態による、人体画像に対する意味属性の適用の例を示す。本発明の一実施形態による、出現スコアを評価することの例を示す。本発明の一実施形態による、出現スコアを計算するステップに関する入力及び出力を示す。本発明の一実施形態による、解像度コンテキスト・スコアを計算することの例を示す。本発明の一実施形態による、解像度コンテキスト・スコアを計算することの例を示す。本発明の一実施形態による、解像度コンテキスト・スコアを計算するステップに関する入力及び出力を示す。本発明の一実施形態による、最適配置に関する幾何学的スコアを計算するための例を示す。本発明の一実施形態による、最適配置に関する幾何学的スコアを計算するための例を示す。本発明の一実施形態による、幾何学的スコアを計算するステップに関する入力及び出力を示す。本発明の一実施形態による、総スコアを計算するステップに関する入力及び出力を示す。

図面は一定の尺度で描かれていないことに留意されたい。図面は、本発明の典型的な態様のみを示すことを意図したものであり、それゆえに本発明の範囲を限定するものと考えるべきではない。図面は、映像内の人体の処理を示すが、本発明は映像内の他のオブジェクトの処理に拡張される。図面において、類似の番号付けは図面間で類似の要素を表す。

本発明は映像処理及びオブジェクト識別に関し、より具体的には、オブジェクトの画像を分析して属性を識別することに関する。

本発明の態様は、映像内のオブジェクトの意味属性を検出するための改善された解決策を提供する。例えば、本発明の態様は、身体部分からの属性の抽出を規定し、個人的記述に基づいて映像内の人々の自動探索を可能にする。別の実施例において、本発明は自動車からの属性の抽出を規定し、自動車の記述に基づいて映像内の自動車の自動探索を可能にする。考えられる照会として、「先月ＩＢＭに入った、あごひげを有し、サングラスをかけ、赤い上着及び青いズボンを身につけた全ての人を示せ」又は「先週ＩＢＭの駐車場に入った、ダイアモンド型ハブキャップを有するブルーの２ドアトヨタを示せ」が可能である。

本発明は、オブジェクトの意味解析の問題を取扱うものであり、目標は、同一プロセス内で部分の位置及び意味属性の両方を効果的に推定することである。人体の解析を例として用いて、本発明の実施形態は、同一プロセス内で人体部分の位置確認と共に人体部分の意味属性の推定を規定する。従来の手法の非効率性及び不正確さを克服して、本発明は大域的最適化機構を利用して部分及びそれらの対応する属性の両方を同時に推定する。

従来の手法とは異なり、本発明の実施形態は、「あごひげ」、「口ひげ」及び「ひげ無し」などの意味属性を用いて人体部分の位置を特定するだけでなく身体部分の属性を識別する。例えば、「脚」などの身体部分を識別するだけではなく、本発明は「黒いズボン」「長いスカート」及び「ショーツ」などの意味属性を用いて身体部分の位置を特定すると共にその属性を識別する。本発明は、各々の意味属性を対応する身体部分に関連づけるデータ表を維持する。例えば、意味属性「あごひげ」は、身体部分「下部顔領域」に対応する。

本発明の実施形態は、３種類の特徴、即ち、出現特徴、解像度コンテキスト特徴、及び幾何学的特徴に基づく。出現特徴は、画像ライブラリからの意味属性と画像上に出現したものとを比較して一致の確率を評価することによって得られるスコアを指す。解像度コンテキスト特徴は、異なる画像解像度のもとでのオブジェクトの一貫性を指す。特定領域に関する解像度コンテキスト・スコアは、特定領域の、より高解像度の画像から得られる加重平均スコアである。総スコアは、出現スコアと、幾何学的スコアと、より高解像度の画像が入手可能である場合には解像度コンテキスト・スコアとを加え合わせることによって、より高解像度の画像に対して計算される。解像度コンテキスト・スコアは、より高解像度の画像から、分析対象のより高解像度画像上の領域を構成する多数のサブ領域によって分割された所与の領域の総スコアとして計算される。幾何学的特徴は、確からしい配置における根底にある部分間の空間的関係性に基づいて計算されるスコアを指す。例えば、「あごひげ」の可能性のある属性は「顔」に対応し、「黒いシャツ」は「胴」に対応する。幾何学的特徴は、「顔」は「胴」の上方にあり、且つ、「胴」からある特定の距離にある、という一般的な人体配置原理を適用することによって、意味属性候補の正確さを検定する。

人体解析の実施例において、本発明の態様は人体部分の位置だけでなく、例えば、色、ひげの種類、眼鏡の存在など、それらの意味属性もまた推定する。換言すれば、本発明の態様は、構文解析、即ち、位置推定と、意味解析、即ち、各身体部分を記述する意味属性の抽出と、の両方を実行するための統合学習スキームを用いる。本発明は、同じプロセスにおいて身体部分及び属性の両方を検出して、人体部分の属性を従来技術よりも正確に識別する。

図面を参照すると、図１は本発明の一実施形態による人体の意味属性を検出するための例証的な環境を示す。この点に関して、少なくとも１つのカメラ４２がシーン又は背景９０を捉える。多くの場合、背景又はシーン９０は、人物９２など少なくとも１つのオブジェクトを含み得る。デジタル映像入力４０が取得され、システム１２に送られ、このシステム１２は、本明細書で論じるように、例えば、意味属性検出プログラム３０、データ５０、所定の又は指定の意味属性５２、出力５４などを含む。

図２は、本発明の一実施形態による、映像４０内の人物９２（図１）の意味属性を検出するための例証的な環境１０の詳細図を示す。この点に関して、環境１０は、映像４０内の人物９２の意味属性を検出するために本明細書で説明するプロセスを実行することができる、コンピュータ・システム１２を含む。詳細には、コンピュータ・システム１２は、意味属性検出プログラム３０を含むコンピューティング・デバイス１４を含むように図示されており、プログラム３０は、コンピューティング・デバイス１４を、本明細書で説明するプロセスを実行することによって映像４０内の人物９２（図１）の意味属性を検出するように動作させることができる。

コンピューティング・デバイス１４は、プロセッサ２０、メモリ２２Ａ、入力／出力（Ｉ／Ｏ）インタフェース２４、及びバス２６を含むように図示されている。さらに、コンピューティング・デバイス１４は、外部Ｉ／Ｏデバイス／リソース２８、及び一時的ではないコンピュータ可読固定記憶デバイス２２Ｂ（例えば、ハード・ディスク、フロッピー・ディスク、磁気テープ、コンパクトディスク（ＣＤ）又はデジタル・ビデオ・ディスク（ＤＶＤ）などの光記憶装置）と通信するように図示されている。一般にプロセッサ２０は、例えばメモリ２２Ａ（例えば、ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）、読み出し専用メモリ（ＲＯＭ）など）及び／又は記憶デバイス２２Ｂなどの記憶システム内にストアされた意味属性検出プログラム３０のような、プログラム・コードを実行する。プログラム・コードを実行すると同時に、プロセッサ２０は、メモリ２２Ａ、記憶デバイス２２Ｂ、及び／又はＩ／Ｏインタフェース２４への／からのデータ５０のようなデータの読み出し及び／又は書込みを行うことができる。コンピュータ・プログラム製品は、映像内のオブジェクトの部分及び属性を推定する方法を実行するために後でプロセッサ２０によって実行されるプログラム・コードがその上にストアされた、記憶デバイス２２Ｂを含む。バス２６は、コンピューティング・デバイス１４内の各コンポーネント間の通信リンクを提供する。Ｉ／Ｏデバイス２８は、ユーザ１６とコンピューティング・デバイス１４との間、及び／又は、デジタル映像入力４０とコンピューティング・デバイス１４との間で情報を伝える任意のデバイスを含むことができる。この点に関して、Ｉ／Ｏデバイス２８は、個々のユーザ１６がコンピューティング・デバイス１４と相互作用できるようにするユーザＩ／Ｏデバイス、及び／又は、任意の型式の通信リンクを用いてデジタル映像入力４０などの要素がコンピューティング・デバイス１４と通信することを可能にする通信デバイスを含むことができる。Ｉ／Ｏデバイス２８は、少なくとも１つの入力デバイス（例えば、キーボード、マウスなど）及び少なくとも１つの出力デバイス（例えば、プリンタ、プロッタ、コンピュータ・スクリーン、磁気テープ、取外し可能ハード・ディスク、フロッピー・ディスク）を表す。

いずれにしても、コンピューティング・デバイス１４は、その上にインストールされたプログラム・コードを実行することができる、任意の汎用コンピューティング製品を含むことができる。しかし、コンピューティング・デバイス１４及び意味属性検出プログラム３０は、本明細書で説明するプロセスを実行することができる種々の可能な等価なコンピューティング・デバイスの代表に過ぎないことを理解されたい。この点に関して、他の実施形態においては、コンピューティング・デバイス１４及び意味属性検出プログラム３０によって提供される機能は、汎用及び／又は専用ハードウェア及び／又はプログラム・コードの任意の組合せを含むコンピューティング製品によって実装することができる。各実施形態において、プログラム・コード及びハードウェアは、それぞれ標準的なプログラミング技術及び工学技術を用いて作成することができる。そのような標準的なプログラミング技術及び工学技術は、異なる場所からの処理の統合を可能にするオープン・アーキテクチャを含むことができる。そのようなオープン・アーキテクチャは、クラウド・コンピューティングを含むことができる。従って、本発明は、コンピュータ・インフラストラクチャをサポートし、コンピュータ可読コードをコンピュータ・システム１２内に統合し、ホストし、維持し、及び、配備するためのプロセスを開示し、ここで、コードは、コンピュータ・システム１２と共同して、映像内のオブジェクトの部分及び属性を推定する方法を実行することができる。

同様に、コンピュータ・システム１２は、本発明の態様を実装するための種々の型式のコンピュータ・システムの例証に過ぎない。例えば、一実施形態において、コンピュータ・システム１２は、例えばネットワーク、共用メモリなど任意の型式の通信リンクによって通信して、本明細書で説明するプロセスを実行する、２つ又はそれ以上のコンピューティング・デバイスを含む。さらに、本明細書で説明するプロセスを実行すると同時に、コンピュータ・システム１２内の１つ又は複数のコンピューティング・デバイスは、コンピュータ・システム１２の外部の１つ又は複数の他のコンピューティング・デバイスと、任意の型式の通信リンクを用いて通信することができる。いずれの場合にも、通信リンクは、種々の型式の有線及び／又は無線リンクの任意の組合せを含むことができ、１つ又は複数の型式のネットワークの任意の組合せを含むことができ、及び／又は、種々の型式の通信技術及びプロトコルの任意の組合せを用いることができる。

本明細書で論じるように、意味属性検出プログラム３０は、コンピュータ・システム１２が映像４０内の人物９２（図１）のようなオブジェクトの意味属性を検出することを可能にする。この点に関して、意味属性検出プログラム３０は、オブジェクト検出モジュール３２、出現スコア・モジュール３４、幾何学的スコア・モジュール３６、解像度コンテキスト・モジュール３７、配置最適化モジュール３８、総スコア計算モジュール３９、及び構造化学習モジュール３５を含むように図示されている。これらモジュールの各々の動作については、本明細書でさらに論じる。しかし、図２に示す種々のモジュールの幾つかは独立に実施することができ、組み合せることができ、及び／又は、コンピュータ・システム１２に含まれる１つ又は複数の別々のコンピューティング・デバイスのメモリにストアすることができることを理解されたい。さらに、幾つかのモジュール及び／又は機能は、実装されないこともあり、又は、付加的なモジュール及び／又は機能がコンピュータ・システム１２の一部分として含まれることがあることを理解されたい。

本発明の態様は、映像４０内の人物９２（図１）のようなオブジェクトの意味属性を検出するための改善された解決策を提供する。この点に関して、図３は、本発明の一実施形態による入力９０（図１）及び出力５４（図１）の一例を示す。上述（図１）のように、入力９０は少なくとも１つのオブジェクト、この例では人物、を有するシーンである。出力５４は、画像上に身体部分の空間的位置及び属性を含む。例えば、本発明は、領域４０２を上部顔領域として識別し、同じ領域からその人物の属性「禿頭」を識別する。領域４０４は中部顔領域であり、「サングラス」という属性が識別される。領域４０６は下部顔領域であり、「あごひげ」という属性が識別される。領域４０８は腕として識別され、「いれずみ」という属性が識別される。領域４１０は脚として識別され、「黒いズボン」という属性が識別される。さらに、出力５４は、本明細書で説明するように、画像の出現スコア、幾何学的スコア、及び利用できる場合には解像度コンテキスト・スコアの、総スコア及び／又は加重平均スコアを含む。

本発明の態様は、映像４０内の人物９２（図１）のようなオブジェクトの意味属性を検出するための改善された解決策を提供する。この点に関して、図４は、本発明の一実施形態による、画像上の人物９２（図１）の意味属性を意味属性検出プログラム３０のモジュール（図２）を用いて検出するための例証的なデータ・フローを示す。例えば、システム１２は、Ｄ１において、デジタル・カラー映像入力４０を受け取る。デジタル・カラー映像入力４０は、典型的にはレッド・グリーン・ブルー（ＲＧＢ）形式であり、人物９２（図１）を有する映像入力のフレームが、各時間インスタンスにおいてオブジェクト検出モジュール３２（図２）に到着する。

Ｓ１において、オブジェクト検出モジュール３２（図２）は、映像入力のフレーム内のオブジェクトを検出し、そのオブジェクトの種類を識別する。この検出は、オブジェクト分類器を用いて、オブジェクトの画像をオブジェクト・ライブラリ内に以前にストアされて継続的に自己学習しているオブジェクトと比較することによって検定することができる（非特許文献３を参照されたい）。ひとたびオブジェクトが画像から識別されると、そのオブジェクトを含む画像領域が切り抜かれる。既存の技術は、画像の低解像度バージョンの生成をサポートする。切り抜かれた領域から、元の切り抜かれた領域の少なくとも１つの低解像度画像が生成され、元の切り抜かれた領域と共にさらなる分析のために保存される。後者のステップにおいて、切り抜かれた領域の最低解像度画像が最初に処理され、画像は低解像度から高解像度へと順番に処理される。解像度コンテキスト・スコアを得るために高解像度画像が処理される。具体的には、解像度コンテキスト・スコア・モジュール３７（図２）が、オブジェクトの種々の部分及び副部分に対応する画像の種々の領域及び副領域の、次第に高解像度の画像を分析する。より高解像度の画像の分析は、最低解像度画像内の領域よりも粒状度が高い副領域に対して、意味属性に関する出現スコアを計算すること、幾何学的スコアを計算すること、及び解像度コンテキスト・スコアを計算することを含む。最低解像度画像の解像度は、意味属性検出プログラム３０内の定数としてストアされるものとして予め決定するか、又はＩ／Ｏデバイス２８（図２）を介した入力として与えられるものとすることができる。

Ｄ２は、意味属性及び関連付けられた画像のリストを保持する。意味属性を記述することに加えて、各意味属性は身体部分に対応する。例えば、意味属性「サングラス」、「眼鏡」及び「眼鏡無し」は、全て身体部分「中部顔領域」に対応し、意味属性「あごひげ」、「口ひげ」及び「ひげ無し」は、全て身体部分「下部顔領域」に対応する。図５は、本発明の一実施形態による、身体部分に関連付けられた意味属性の例を示す。意味属性５２（図１）のリストは、意味属性及びそれらに対応する身体部分の両方を含む。

Ｓ２において、出現スコア・モジュール３４（図２）は、Ｓ１からの保存された画像を、実時間又は遅延時間モードで、意味属性５２（Ｄ２）が画像の領域に存在する確率を評価することにより分析する。前述のように、最低解像度画像が最初に分析される。最低解像度画像上で見えそうな意味属性はこの段階で評価することができ、一方より高解像度の画像上で見えそうな他の意味属性は、後のステップにおいて評価することができる。意味属性の画像は、継続的に自己学習する意味属性ライブラリ内にストアされる。

Ｓ２において、意味属性が画像の領域に存在する確率を評価する際に、本発明の態様は非特許文献４の研究に記載の方法を用いる。この方法は、非特許文献５の研究において、実数値信頼スコアを用いてさらに説明されている。この方法は、ある属性がある領域に存在する確率を表す出現スコアを計算するステップを提供する。意味属性の存在は、意味属性検出器の適用により評価される。意味属性の検出器は、画像のある領域を間隔［０，１］内の実数にマッピングする関数であり、出力は、入力として与えられた画像領域内に意味属性が存在する確率を示す。本発明においては、結果として得られる出現スコアの値は、０から１までの範囲に分布することができる。画像の各領域において、同じ領域に複数の意味属性が存在する確率に対応する、複数の出現スコアが存在することができる。

図６及び図７は、本発明の一実施形態による、人体画像に意味属性を適用することの例を示す。図６において、画像領域６０、６２及び６４をそれぞれ頭、胴及び脚として識別するだけの従来技術とは異なり、本発明の実施形態はさらに、領域６０から皮膚の色、領域６２からシャツの色、領域６４からズボンの色などを抽出する。同様に図７において、領域６６は、上部顔領域として識別されるだけでなく、頭髪、禿頭、又は帽子の存在を記述する属性を提供することができる。領域６８は、中部顔領域として識別されるだけでなく、目、眼鏡又はサングラスを記述する属性を提供することができる。領域７０は下部顔領域として識別されるだけでなく、口、口ひげ又はあごひげの属性を提供することができる。さらに、図６の画像は図７よりも低い解像度のものである。皮膚の色、シャツの色、ズボンの色など、全身に適用可能な属性検出器が図６の低解像度画像に適用され、一方、髪型、眼鏡の存在及び口ひげなど、顔専用の属性検出器が図７に適用される。

次にＳ２（図４）において、出現スコア・モジュール３４（図２）は、意味属性検出器を画像に適用した結果として得られた全ての出現スコアに対して、閾値を適用する。閾値より小さい出現スコアは破棄されることになり、一方、残った出現スコアは保持される。閾値は、意味属性検出プログラム３０内の定数としてストアされるものとして予め決定するか、又はＩ／０デバイス２８（図２）を介した入力として与えられるものとすることができる。閾値を適用した後でもなお、画像の一領域に１つより多くの出現スコアが残っていることがある。画像の各領域における各出現スコアは、意味属性に対応する。前述のように、各意味属性は、身体部分に対応する。従って、画像の領域における各出現スコアもまた、身体部分に対応する。それで、閾値を上回る出現スコアを有する各領域が、対応する身体部分でタグ付けされることになる。結果として、出現スコア・モジュール３４の出力は、出現スコアでマーク付けされ、且つ、意味属性及び身体部分の名称でタグ付けされた領域の位置を含み、例えば領域ｘに関して、出現スコアは０．６であり、タグは「あごひげ／下部顔領域」であり、「あごひげ」は意味属性であり、「下部顔領域」は身体部分である。

図８は、本発明の一実施形態による、出現スコアを評価することの例を示す。領域６０２は、あごひげ（０．１）、口ひげ（０．１）、及び「無毛」（０．９５）という３つの出現スコアを獲得する。例えば、閾値を０．５とする。その結果、前述のように、「無毛」に閾値０．５を上回るスコアを与えられるので、「無毛」が領域６０２の属性として選択される。同様に、領域６０４は、あごひげ（０．９）、口ひげ（０．２）、及び「無毛」（０．１）という３つの出現スコアを獲得する。従って、あごひげに閾値０．５を上回るスコアが与えられるので、あごひげが領域６０４の属性として選択される。前述のように領域６０４及び領域６０２の両方が、「下部顔領域」の身体部分でタグ付けされることになる。領域６０４は、Ｓ５（図４）における配置最適化モジュールによる評価により、低い幾何学的スコア並びに低解像度コンテキスト・スコアを有するものとして後で拒絶され得る。

Ｓ２（図４）の出力は、属性及び出現スコアでマーク付けされ、身体部分の名称でタグ付けされた領域の位置を含む。図９は、本発明の一実施形態による出現スコアを計算するステップに関する入力及び出力を示す。出現スコアを計算する際に、出現スコア・モジュール３４（図２）は、オブジェクトの切り抜かれた画像６１２、対応する部分を伴う意味属性のリスト５２、参照としての意味属性の画像ライブラリ６２０、及び出現スコアの閾値６３０を含む、入力６１０を取り込む。出力６９０は、意味属性、部分の名称及び出現スコアを伴う、画像上の領域６５０を含む。出力される出現スコアは、全て出現スコア閾値６３０を上回るものである。

Ｓ３（図４）において、Ｓ２で処理された画像（例えば、画像ｘ）の解像度コンテキスト・スコアを計算するために、解像度コンテキスト・スコア・モジュール３７（図２）は、画像ｘのより高解像度の画像を分析する必要がある。上述のように、より高解像度の画像は、Ｓ１から生成され、保存される。主な考え方は、ある身体部分が所与の解像度の画像内で見える場合には、より高い解像度においても同じ画像内で見えるはずであるということである。例えば、領域ｙという特定の領域において、意味属性「あごひげ」に０．９のスコアが与えられ、その結果、領域ｙに「あごひげ／下部顔領域」のタグが付けられているとする。より高解像度の画像において、領域ｙは、下部顔領域の副部分（例えば、口、あごなど）を示すと予想される。そうならない場合には、領域ｙ内には身体部分「下部顔領域」が実際には存在しないと考えられ、低い解像度コンテキスト・スコアが領域ｙに割り当てられることになる。

図１０は、本発明の一実施形態による、解像度コンテキスト・スコアを評価することの例を示す。低解像度画像のもとで、画像７００上で、出現スコア・モジュール３４（図２）は、あごひげ又は眼鏡又は顔面皮膚色などの意味属性検出器を適用することにより、領域７０２において顔部分を検出する。画像７５０は、領域７０２のより高解像度の画像である。ある領域に関する解像度コンテキスト・スコアの入手可能性は、その領域のより高解像度の画像の入手可能性に依存するので、画像７５０が入手可能であれば、画像７００上の領域７０２に関する解像度コンテキスト・スコアを得ることができる。画像７５０のもとで、画像７００上に検出された顔が、目、鼻、及び口などの期待される副部分を含むかどうかについて領域７０２が評価される。あごひげ又は眼鏡、さらには目の色などの関連する意味属性検出器を、画像７５０に適用することができる。従って、領域７０４などの領域に適用される意味属性に関して、出現スコアが画像７５０上で計算される。さらに、所定の閾値を上回る意味属性で識別された領域に対して、幾何学的スコアが計算される。要するに、図４のステップＳ２からＳ７までが画像７５０に適用され、画像７５０に関する出力５４の一部である総スコア及び／又は加重平均スコアが生成される。各画像は、分析されたときに出力５４を生成する。画像７５０からの加重平均スコアが、画像７００上の領域７０２に関する解像度コンテキスト・スコアとなる。

図１１は、解像度コンテキスト・スコア・モジュール３７がどのように解像度スコアに達するかをさらに示す。低解像度画像から高解像度画像までの処理において、解像度Ｎにおける画像６７０は、解像度Ｎ＋１における画像６９０よりも低い解像度の画像である。画像６７０上の領域６７５において、「ヨーロッパ人型顔」の属性が０．９の出現スコアを有する。画像６９０は、領域６７５をより高解像度で検査する。画像６９０に適用される分析プロセスは、意味属性を適用することによって出現スコアを計算すること、解像度コンテキスト・スコアを計算すること、幾何学的スコアを計算すること（後の段階で説明する）、配置最適化を実行すること（後の段階で説明する）、及び、総スコアを計算すること（後の段階で説明する）を含む。上述のように、出力５４は、本明細書で説明する画像の出現スコア、解像度コンテキスト・スコア及び幾何学的スコアの加重平均を含む。従って、画像６９０に関する出力５４からの、この場合には０．７である加重平均スコアは、画像６７０上の領域６７５の解像度コンテキスト・スコアである。

図１１の画像６７０上の領域６７５がいかにして０．７の解像度コンテキスト・スコアを有するかをさらに説明するために、画像６９０に適用される意味属性検出器に基づいて画像６９０上に検出される３つの領域が存在すると仮定する。３つの領域は、領域ｘ、領域ｙ、及び領域ｚとする。画像６９０上の領域ｘ、領域ｙ、及び領域ｚに関する出現スコアは、それぞれ０．９、０．８、及び０．９とする。画像６９０上の領域ｘ、領域ｙ、及び領域ｚに関する幾何学的スコアは、それぞれ０．５、０．６、及び０．３５とする。領域ｘ、領域ｙ、及び領域ｚに対してより高解像度の画像が存在するものとする。領域ｘのより高解像度の画像は、２つの副領域、領域ｘｘ及び領域ｘｙを有するものとする。領域ｘｘ及び領域ｘｙは、対応するより高解像度の画像を有しないものとする。領域ｘｘは０．９５の出現スコアを有し、領域ｘｙは０．９の出現スコアを有するものとする。領域ｘｘ及び領域ｘｙの幾何学的スコアは、それぞれ０．９及び０．８とする。領域ｘｘ及び領域ｘｙに対して、対応するより高解像度の画像が存在しないので、領域ｘｘ及び領域ｘｙの解像度コンテキスト・スコアは０となる。出現スコア、幾何学的スコア及び解像度コンテキスト・スコアの重み因子は、本実施例の全ての分析において、それぞれ０．５、０．３及び０．２とする。従って、画像６９０上の領域ｘに対応する最高解像度画像に関する数値は、表１に表すことができる。

画像６９０上の領域ｘに対応する最高解像度画像に関する加重平均スコアは、

（０．９５＊０．５＋０．９＊０．３＋０＊０．２＋０．９＊０．５＋０．８＊０．３＋０＊０．２）／２＝０．７２７５

となる。

計算の中に２つの領域（領域ｘｘ及び領域ｘｙ）があるので、和を２で割る。０．７２７５の出力が、画像６９０上の領域ｘの解像度コンテキスト・スコアとなる。同様に、領域ｙ及び領域ｚのより高解像度の画像の分析において、領域ｙ及び領域ｚの解像度コンテキスト・スコアを、それぞれ０．６及び０．５とする。表２は、画像６９０上の領域ｘ、領域ｙ及び領域ｚに関するスコアを示す。

従って、画像６９０に関する加重平均スコアは、

（０．９＊０．５＋０．５＊０．３＋０．７２７５＊０．２＋０．８＊０．５＋０．６＊０．３＋０．６＊０．２＋０．９＊０．５＋０．３５＊０．３＋０．５＊０．２）／３≒０．７

となる。

画像６９０は、画像６７０の領域６７５の対応する高解像度画像であるので、画像６７０の領域６７５は、０．７の解像度コンテキスト・スコアを有する。

図１１にさらに示すように、ある領域に関する解像度コンテキスト・スコアの存在は、その領域のより高解像度の画像が分析に利用できるかどうかに依存する。従って、最高解像度画像は、解像度コンテキスト・スコアを有しない。その結果、最高解像度画像に関する出力５４の加重平均スコアは、出現スコア及び幾何学的スコアのみの加重平均を含むことになる。また、図１１に示すように、画像６９０は、画像６７０上の領域６７５に関する解像度コンテキスト・スコアを与える。画像６７０上の他の領域は、上記と同様の分析を経てそれらの対応する解像度コンテキスト・スコアに達しなければならない。

Ｓ３（図４）の出力は、意味属性、部分の名称及び解像度コンテキスト・スコアを有する最低解像度画像上の領域を含む。図１２は、本発明の一実施形態による解像度コンテキスト・スコアを評価するステップに関する入力及び出力を示す。解像度スコアを計算する際に、解像度・スコア・モジュール３７（図２）は、異なる解像度の画像８６０、並びに、意味属性、部分の名称及び出現スコアを伴う最低解像度画像上の領域６５０を含む、入力８３０を取り込む。出力８８０は、意味属性、部分の名称及び解像度コンテキスト・スコアを伴う最低解像度画像上の領域８８５を含む。最終の出力に達する際に、解像度スコア・モジュール３７は、意味属性、部分の名称及び解像度コンテキスト・スコアを有する異なる解像度の画像上の領域を含んだ中間出力を生成することができる。

Ｓ４（図４）において、幾何学的スコア・モジュール３６（図２）は、分析対象の候補領域の特定の配置間の距離及び角度を計測して、候補領域間の距離及び角度を人体の幾何学的配置に適合させるように試みることによって、幾何学的スコアを計算する。例えば、候補領域の配置が人体の自然の変位に適合する確からしさが高いほど、その配置内の各部分に対してより高い幾何学的スコアが与えられる。一実施形態において、幾何学的スコアを計算するためのアルゴリズムは次の通りである。ステップ２（図４）で識別された意味属性の間で属性から部分の名称を抽出し、各部分に対して、幾何学的スコア・モジュール３６が、全ての他の部分からの距離及び角度を計算するか、又は、最適化のために動的プログラミングを用いる場合には親部分だけからの距離及び角度を計算し、標準的な分類方法（例えば、非特許文献６における単純ベイズ分類器（ＮａｉｖｅＢａｙｅｒＣｌａｓｓｉｆｉｅｒ））を用いて、距離及び角度の特徴ベクトルが人体の可能な配置にどのように対応するかについての０から１までの範囲のスコアを与える。実施形態において、幾何学的スコアを計算することの例を以下に示す。

幾何学的スコア（Ｇ_ｉ）の例。
身体部分ｉ（又は領域ｉ）の幾何学的スコア（Ｇ_ｉ）は、角度に基づく幾何学的スコア（Ｇ_Ａｉ）及び／又は距離に基づく幾何学的スコア（Ｇ_Ｄｉ）を用いて表すことができる。
一実施形態において、Ｇ_ｉ＝（Ｇ_Ａｉ＋Ｇ_Ｄｉ）／２であり、これは単純算術平均である。
一実施形態において、Ｇ_ｉ＝Ｗ_ＡＧ_Ａｉ＋Ｗ_ＤＧ_Ｄｉであり、これは加重算術平均であり、ここで、重み（Ｗ_Ａ，Ｗ_Ｄ）は、Ｗ_Ａ＋Ｗ_Ｄ＝１を満たす負でない実数であり、重み（Ｗ_Ａ，Ｗ_Ｄ）は、一例において、幾何学的スコアＧ_Ａｉ及びＧ_Ｄｉを計算するのに用いる角度及び距離の参照値の相対的正確度及び／又は重要度（以下を参照されたい）のような因子に基づいて、選択又は決定することができる。
一実施形態において、Ｇ_ｉ＝（Ｇ_Ａｉ＊Ｇ_Ｄｉ）^１／２であり、これは幾何平均である。
一実施形態において、Ｇ_ｉ＝Ｇ_Ａｉであり、角度のみが用いられ、距離は用いられない。
一実施形態において、Ｇ_ｉ＝Ｇ_Ｄｉであり、距離のみが用いられ、角度は用いられない。

角度に基づく幾何学的スコア（Ｇ_Ａｉ）。
Ａ_ｉ＝｛Ａ_ｉ１，Ａ_ｉ２，．．．，Ａ_ｉＮ｝は、部分ｉ（又は領域ｉ）と、他の身体部分（又は領域）の各対との間で前述のように決定された、Ｎ個の角度の配列を示すものとする。
ａ_ｉ＝｛ａ_ｉ１，ａ_ｉ２，．．．，ａ_ｉＮ｝は、ライブラリ又はファイル内にストアされたＮ個（Ｎ≧２）の対応する参照角度の配列を示すものとする。
δ_Ａｉは、Ａ_ｉとａ_ｉとの間の差の計量を示すものとする。
一実施形態において、δ_Ａｉ＝［｛（Ａ_ｉ１−ａ_ｉ１）^２＋（Ａ_ｉ２−ａ_ｉ２）^２＋．．．＋（Ａ_ｉＮ−ａ_ｉＮ）^２｝／Ｎ］^１／２である。
一実施形態において、δ_Ａｉ＝（│Ａ_ｉ１−ａ_ｉ１│＋│Ａ_ｉ２−ａ_ｉ２│＋．．．＋│Ａ_ｉＮ−ａ_ｉＮ│）／Ｎである。
ｔ_Ａは、指定された又は入力された角度閾値を示すものとし、
δ_Ａｉ≧ｔ_Ａの場合、Ｇ_Ａｉ＝０であり、
δ_Ａｉ＜ｔ_Ａの場合、Ｇ_Ａｉ＝１−δ_Ａｉ／ｔ_Ａであるとする。

従って、Ｇ_Ａｉは、０≦Ｇ_Ａｉ≦１を満たす。特に、δ_Ａｉ＝０の場合（即ち、全ての決定された角度が対応する参照角度の全てに等しい場合）は、Ｇ_Ａｉ＝１となる。さらに、δ_Ａｉ≧ｔ_Ａの場合（即ち、Ａ_ｉとａ_ｉとの間の差の計量が大き過ぎる場合）には、Ｇ_Ａｉ＝０となる。

距離に基づく幾何学的スコア（Ｇ_Ｄｉ）。
Ｄ_ｉ＝｛Ｄ_ｉ１，Ｄ_ｉ２，．．．，Ｄ_ｉＭ｝は、身体部分ｉ（又は領域ｉ）と、各々の他の身体部分（又は領域）との間で前述のように決定された、Ｍ個の距離の配列を示すものとする。
ｄ_ｉ＝｛ｄ_ｉ１，ｄ_ｉ２，．．．，ｄ_ｉＭ｝は、ライブラリ又はファイル内にストアされたＭ個（Ｍ≧２）の対応する参照距離の配列を示すとする。
δ_Ｄｉは、Ｄ_ｉとｄ_ｉとの間の差の計量を示すものとする。
一実施形態において、δ_Ｄｉ＝［｛（Ｄ_ｉ１−ｄ_ｉ１）^２＋（Ｄ_ｉ２−ｄ_ｉ２）^２＋．．．＋（Ｄ_ｉＭ−ｄ_ｉＭ）^２｝／Ｍ］^１／２である。
一実施形態において、δ_Ｄｉ＝（│Ｄ_ｉ１−ｄ_ｉ１│＋│Ｄ_ｉ２−ｄ_ｉ２│＋．．．＋│Ｄ_ｉＭ−ｄ_ｉＭ│）／Ｍである。
ｔ_Ｄは、指定された又は入力された距離閾値を示すものとし、
δ_Ｄｉ≧ｔ_Ｄの場合、Ｇ_Ｄｉ＝０であり、
δ_Ｄｉ＜ｔ_Ｄの場合、Ｇ_Ｄｉ＝１−δ_Ｄｉ／ｔ_Ｄであるとする。

従って、Ｇ_Ｄｉは、０≦Ｇ_Ｄｉ≦１を満たす。特に、δ_Ｄｉ＝０の場合（即ち、全ての決定された距離が対応する参照距離の全てに等しい場合）は、Ｇ_Ｄｉ＝１となる。さらに、δ_Ｄｉ≧ｔ_Ｄの場合（即ち、Ｄ_ｉとｄ_ｉとの間の差の計量が大き過ぎる場合）には、Ｇ_Ｄｉ＝０となる。

図１３及び図１４は、本発明の一実施形態による、最適配置に関する幾何学的スコアを評価することの例を示す。図１３には、イラスト８００上で識別された多くの部分が存在し、ここで各々の四角は、部分名称を伴う意味属性を識別する画像上の領域を表す。多くの孤立した部分が識別されているので、人体を形成することが可能な、多くの可能な配置が存在する。画像内の実際の人体が図１３に重ねられる。例えば、頭部は、領域８０１において検出され得る。２つの腕は、領域８０３及び８０５において検出され、２つの脚は、領域８０７及び８０９において検出される。図１４は、配置最適化モジュール３８によって最適配置の一部分として選択された、イラスト８０２上の一組の領域を示す。配置最適化モジュール３８の機能は、後のステップで説明する。図１４に示すように、領域８０１、８０３、８０５、８０７、及び８０９が、最適配置の部分として選択されている。所与の配置における各領域に関する幾何学的スコアは、他の領域に対する角度及び距離を計測することによって計算される。例えば、領域８０１の幾何学的スコアは、特定の配置候補に属する全ての他の領域に対する領域８０１の角度及び距離を計測することによって計算することができる。

Ｓ４（図４）の出力は、各部分（ｉ）に意味属性、出現スコアＡ_ｉ、解像度コンテキスト・スコアＲ_ｉ、及び幾何学的スコアＧ_ｉが関連付けられた、候補部分の配置を含む。図１５は、本発明の一実施形態による、幾何学的スコアを評価するステップに関する入力及び出力を示す。幾何学的スコアを計算する際に、幾何学的スコア・モジュール３６（図２）は、入力８１０を取り込み、この入力８１０は、最適化モジュール８１５によって分析されている部分の候補配置（出現スコア及び解像度スコアを有する部分の組）、及び、部分間の角度及び距離の参照ライブラリ８２０を含むことができる。出力８９０は、各部分（ｉ）に意味属性、出現スコアＡ_ｉ、解像度コンテキスト・スコアＲ_ｉ、及び幾何学的スコアＧ_ｉが関連付けられた、部分の候補配置８５０を含む。

Ｓ５（図４）において、配置最適化モジュール３８（図２）は、動的プログラミングを用いて、出現スコア、幾何学的スコア、及び解像度コンテキスト・スコアに基づいて最適配置を選択する。候補の組が与えられると、画像からの最終的な身体部分領域及び属性評価として選択される可能性がある幾つかの可能な配置が存在し得る。最適配置は、最大の出現スコア、幾何学的スコア、及び解像度スコアを有する配置であり、非特許文献２によって提案されたアルゴリズムを用いて、動的プラグラミングにより選択される。最適配置が選択されるとき、その最適配置のための選択された領域には、上述のように、既に意味属性が関連付けられており、その領域における身体部分タグを有する。

従って、Ｓ５（図４）において、使用可能な領域及びそれらに関連付けられた身体部分タグ及び属性から、多くの可能な候補身体配置を導出することができる。Ｓ５の目標は、多くの可能な身体配置の中から最良の配置を選択することである。最適化モジュールは、この配置空間を探索し、出現スコア、解像度コンテキスト・スコア、及び幾何学的スコアに関して最高の加重平均スコアを有する配置を決定することを目指す。例えば、配置最適化モジュール３８は、表１及び表２と関連して用いられた前述の式を用いて、各々の可能な配置に関する加重平均スコアを計算し、最大の加重平均スコアを有する配置を出力として選択することができる。

加重平均スコアを計算するときに３種類のスコアに対する所定の重みを有する代りに、重みを動的に決定することができる。３種類のスコア全部から最適の加重平均スコアを計算するために、Ｓ６（図４）は、スコアに対する最適加重を決定することができる。最適加重を決定する際に、Ｓ６（図４）において、構造化学習モジュール３５（図２）は、非特許文献７に記載の「構造化学習」と呼ばれる機械学習手続きを用いる。基本的な考え方は、身体部分の配置の多くの例を、それらの属性を含めて、システムに対して提示することを含む。次に、構造化学習モジュールは、提示された例示的な組の中のいずれの配置も、妥当な人体構造に対応しない無効配置よりも高い全体的スコアを有するように、重みを最適化することになる。構造化学習は、非特許文献８にも記載されている。これは、一連の正しい例を用いて特徴の互いに対する適切な重みを推定し、配置を推定するのに有効なスコアを生成する方法である。

Ｓ７（図４）において、総スコア計算モジュール３９（図２）は、最適化配置における領域からの出現スコア、幾何学的スコア、及び解像度コンテキスト・スコアに基づいて、最適化総スコアを計算する。構造化学習モジュール３５（図２）からの入力により、総スコア計算モジュール３９は、出現スコア、幾何学的スコア、及び解像度コンテキスト・スコアに与えられた最適な重みを利用して最適化総スコアを計算し、次に総スコアを分析対象の領域の数で割ることによって、出現スコア、幾何学的スコア、及び解像度コンテキスト・スコアの加重平均スコアを生成する。

従って、分析対象の各々の配置は、各部分（ｉ）に属性及び対応する出現スコアＡ_ｉ、解像度コンテキスト・スコアＲ_ｉ、及び幾何学的スコアＧ_ｉが関連付けられた、一組の部分から構成される。Ｓ７（図４）において、総スコア計算モジュール３９（図２）は、次式を用いて最適化総スコアを計算する。

式中、配置の各部分ｉに対して、Ａ_ｉは出現スコアを表し、Ｇ_ｉは幾何学的スコアを表し、Ｒ_ｉは解像度コンテキスト・スコアを表し、Ｗ_１、Ｗ_２、及びＷ_３は、構造化学習モジュールによって得られる重みに対応する。Ｗ_１、Ｗ_２、及びＷ_３は、前述の方法によりＳ６の構造化学習モジュール３５（図２）によって与えられる。

図１６は、本発明の一実施形態による、総スコアを計算するステップに関する入力及び出力を示す。総ステップ計算モジュール３９（図２）に対する入力８４０は、各部分（ｉ）が出現スコアＡ_ｉ、解像度スコアＲ_ｉ、及び幾何学的スコアＧ_ｉを有する部分の候補配置８４２、並びに、構造化学習モジュールによって与えられる重み８４４を含む。ひとたび総スコアが計算されると、総スコアを分析対象の画像上の領域の数で割ることによって、加重平均スコアを計算することができる。出力８４９は、Ａ_ｉ、Ｒ_ｉ、及びＧ_ｉの加重平均であるスコア８４７を含む。

本明細書で用いる場合、「プログラム・コード」は、任意の言語、コード又は表記法による命令文又は命令の任意の組であって、情報処理能力を有するコンピューティング・デバイスに、直接的に、又は、以下の（ａ）別の言語、コード又は表記法への変換、（ｂ）異なる有形形態での複製、及び／又は（ｃ）復元のいずれかの組合せの後で、特定の機能を実行させるものを意味する。この点に関して、プログラム・コードは、アプリケーション／ソフトウェア・プログラム、コンポネント・ソフトウェア／関数ライブラリ、オペレーティング・システム、並びに、特定の計算デバイス、記憶デバイス及び／又はＩ／Ｏデバイスのための基本Ｉ／Ｏシステム／ドライバなどの、１つ又は複数の型式のコンピュータ・プログラムの任意の組合せとして具体化することができる。

本発明の種々の態様の前述の説明は、例証及び説明のために提示したものである。これは、網羅的であること、又は本発明を開示した通りの形態に限定することを意図したものではなく、明らかに、多くの修正及び変形が可能である。当業者には明らかであり得る修正及び変化は、添付の特許請求の範囲によって定められる本発明の範囲に含まれる。

１０：環境
１２：コンピュータ・システム
２６：バス
４２：カメラ
５４：出力
９０：背景又はシーン（入力）
９２：人物
６０、６２、６４、６６、６８、７０、４０２、４０４、４０６、４０８、４１０、６０２、６０４、６７５、７０２、７０４、８０１、８０３、８０５、８０７、８０９：領域
６７０、６９０、７００、７５０：画像
８００、８０２：イラスト

Claims

映像内のオブジェクトの部分及び関連付けられた属性を決定する方法であって、
映像入力を受け取るステップと、
前記映像入力からオブジェクトを検出し、前記映像入力から前記オブジェクトの画像を切り抜くステップと、
前記オブジェクトに関して、関連付けられた部分を有する複数の意味属性を受け取るステップと、
各々のバージョンが前記オブジェクトの前記画像の異なる解像度を有する、前記画像の複数のバージョンを生成してストアするステップと、
前記オブジェクトの前記画像の前記バージョンのうちの最低解像度バージョン上の複数の領域の各々の領域において前記複数の意味属性に関する出現スコアを計算するステップであって、各領域に対する前記複数の意味属性のうちの少なくとも１つの意味属性に関する前記出現スコアは、前記少なくとも１つの意味属性のうちの各意味属性が前記領域内に出現する確率を示す、計算するステップと、
前記最低解像度バージョンにおける各領域に関する解像度コンテキスト・スコアを計算するために、前記最低解像度バージョンよりも次第により高い解像度バージョンを分析するステップであって、前記最低解像度バージョンにおける前記解像度コンテキスト・スコアは、各領域に関して、前記最低解像度バージョンにおけるよりも次第により高い解像度バージョンにおいて、より精徴な空間構造が存在する程度を示す、前記分析するステップと、
前記最低解像度バージョンにおける身体部分の最適化配置及び関連付けられた意味属性を確認するステップであって、前記確認するステップが、前記最低解像度バージョンにおける前記領域内の前記出現スコア及び前記解像度コンテキスト・スコアを利用する、確認するステップと、
前記身体部分の最適化配置及び関連付けられた意味属性を表示し及び／又はストアするステップと
を含む方法。
前記最低解像度バージョンの前記複数の領域の各々の領域に関する幾何学的スコアを計算するステップであって、前記幾何学的スコアが、ある領域が、前記複数の領域間の角度及び距離に関して、前記検出されたオブジェクトに対応する参照オブジェクトに関するストアされた参照データと一致する確率を算定するものである、幾何学的スコアを計算するステップをさらに含む、請求項１に記載の方法。
前記画像のより低い解像度バージョンに関する前記解像度コンテキスト・スコアは、前記画像の前記より高い解像度バージョンのうちの次に高い解像度バージョンに関する複数のスコアから計算される加重平均スコアとして計算される、請求項２に記載の方法。
前記画像の前記次に高い解像度バージョンに関する前記複数のスコアは、出現スコア及び幾何学的スコアを含む、請求項３に記載の方法。
前記画像の前記次に高い解像度バージョンに関する前記複数のスコアは、出現スコア、幾何学的スコア及び解像度コンテキスト・スコアを含む、請求項３に記載の方法。
前記画像の前記次に高い解像度バージョンに関する前記加重平均スコアは、次式をＩで割ったものを用いて計算され、

ここで、Ｉは前記画像の前記次に高い解像度バージョンにおける領域の数を表し、ｉは領域のインデックスであり、Σ_ｉはｉ＝１からｉ＝Ｉまでの和を表し、Ａ_ｉは領域ｉにおける出現スコアを表し、Ｇ_ｉは領域ｉにおける幾何学的スコアを表し、Ｒ_ｉは領域ｉにおける解像度コンテキスト・スコアを表し、Ｗ_１、Ｗ_２、及びＷ_３は、それぞれ前記出現スコア、前記幾何学的スコア、及び前記解像度コンテキスト・スコアに割り当てられた重みを表す、請求項５に記載の方法。
前記画像の前記より高いレベルのバージョンのうちの少なくとも１つのバージョンにおける前記画像の少なくとも１つの部分の出力を、意味属性及び関連付けられた部分についての空間情報と共に、ストアし及び／又は表示するステップをさらに含む、請求項６に記載の方法。
コンピュータ可読プログラム・コードを有するコンピュータ・プログラムであって、前記コンピュータ可読プログラム・コードは、映像内のオブジェクトの部分及び属性を推定する方法を実施する命令を含み、前記方法は、
映像入力を受け取るステップと、
前記映像入力からオブジェクトを検出し、前記映像入力から前記オブジェクトの画像を切り抜くステップと、
前記オブジェクトに関して、関連づけられた部分を有する複数の意味属性を受け取るステップと、
各々のバージョンが前記オブジェクトの前記画像の異なる解像度を有する、前記画像の複数のバージョンを生成してストアするステップと、
前記オブジェクトの前記画像の前記バージョンのうちの最低解像度バージョン上の複数の領域の各々の領域において前記複数の意味属性に関する出現スコアを計算するステップであって、各領域に対する前記複数の意味属性のうちの少なくとも１つの意味属性に関する前記出現スコアは、前記少なくとも１つの意味属性のうちの各意味属性が前記領域内に出現する確率を示す、計算するステップと、
前記最低解像度バージョンにおける各領域に関する解像度コンテキスト・スコアを計算するために、前記最低解像度バージョンよりも次第により高い解像度バージョンを分析するステップであって、前記最低解像度バージョンにおける前記解像度コンテキスト・スコアは、各領域に関して、前記最低解像度バージョンにおけるよりも次第により高い解像度バージョンにおいて、より精徴な空間構造が存在する程度を示す、前記分析するステップと、
前記最低解像度バージョンにおける身体部分の最適化配置及び関連付けられた意味属性を確認するステップであって、前記確認するステップが、前記最低解像度バージョンにおける前記領域内の前記出現スコア及び前記解像度コンテキスト・スコアを利用する、確認するステップと、
前記身体部分の最適化配置及び関連付けられた意味属性を表示し及び／又はストアするステップと
を含む方法である、コンピュータ・プログラム。
前記方法は、前記最低解像度バージョンの前記複数の領域の各々の領域に関する幾何学的スコアを計算するステップであって、前記幾何学的スコアが、ある領域が、前記複数の領域間の角度及び距離に関して、前記検出されたオブジェクトに対応する参照オブジェクトに関するストアされた参照データと一致する確率を算定するものである、前記幾何学的スコアを計算するステップをさらに含む、請求項８に記載のコンピュータ・プログラム。
前記画像のより低い解像度バージョンに関する前記解像度コンテキスト・スコアは、前記画像の前記より高い解像度バージョンのうちの次に高い解像度バージョンに関する複数のスコアから計算される加重平均スコアとして計算される、請求項９に記載のコンピュータ・プログラム。
前記画像の前記次に高い解像度バージョンに関する前記複数のスコアは、出現スコア及び幾何学的スコアを含む、請求項１０に記載のコンピュータ・プログラム。
前記画像の前記次に高い解像度バージョンに関する前記複数のスコアは、出現スコア、幾何学的スコア及び解像度コンテキスト・スコアを含む、請求項１０に記載のコンピュータ・プログラム。
前記画像の前記次に高い解像度バージョンに関する前記加重平均スコアは、次式をＩで割ったものを用いて計算され、

ここで、Ｉは前記画像の前記次に高い解像度バージョンにおける領域の数を表し、ｉは領域のインデックスであり、Σ_ｉはｉ＝１からｉ＝Ｉまでの和を表し、Ａ_ｉは領域ｉにおける出現スコアを表し、Ｇ_ｉは領域ｉにおける幾何学的スコアを表し、Ｒ_ｉは領域ｉにおける解像度コンテキスト・スコアを表し、Ｗ_１、Ｗ_２、及びＷ_３は、それぞれ前記出現スコア、前記幾何学的スコア、及び前記解像度コンテキスト・スコアに割り当てられた重みを表す、請求項１２に記載のコンピュータ・プログラム。
前記方法は、前記画像の前記より高いレベルのバージョンのうちの少なくとも１つのバージョンにおける前記画像の少なくとも１つの部分の出力を、意味属性及び関連付られた部分についての空間情報と共に、ストアし及び／又は表示するステップをさらに含む、請求項１３に記載のコンピュータ・プログラム。
プロセッサ、及び前記プロセッサに結合されたコンピュータ可読メモリ・ユニットを備えたコンピュータ・システムであって、前記コンピュータ可読メモリ・ユニットは、前記プロセッサによって実行されたときに映像内のオブジェクトの部分及び属性を推定する方法を実施する命令を含み、前記方法は、
映像入力を受け取るステップと、
前記映像入力からオブジェクトを検出し、前記映像入力から前記オブジェクトの画像を切り抜くステップと、
前記オブジェクトに関して、関連付けられた部分を有する複数の意味属性を受け取るステップと、
各々のバージョンが前記オブジェクトの前記画像の異なる解像度を有する、前記画像の複数のバージョンを生成してストアするステップと、
前記オブジェクトの前記画像の前記バージョンのうちの最低解像度バージョン上の複数の領域の各々の領域において前記複数の意味属性に関する出現スコアを計算するステップであって、各領域に対する前記複数の意味属性のうちの少なくとも１つの意味属性に関する前記出現スコアは、前記少なくとも１つの意味属性のうちの各意味属性が前記領域内に出現する確率を示す、計算するステップと、
前記最低解像度バージョンにおける各領域に関する解像度コンテキスト・スコアを計算するために、前記最低解像度バージョンよりも次第により高い解像度バージョンを分析するステップであって、前記最低解像度バージョンにおける前記解像度コンテキスト・スコアは、各領域に関して、前記最低解像度バージョンにおけるよりも次第により高い解像度バージョンにおいて、より精徴な空間構造が存在する程度を示す、前記分析するステップと、
前記最低解像度バージョンにおける身体部分の最適化配置及び関連付けられた意味属性を確認するステップであって、前記確認するステップが、前記最低解像度バージョンにおける前記領域内の前記出現スコア及び前記解像度コンテキスト・スコアを利用する、確認するステップと、
前記身体部分の最適化配置及び関連付けられた意味属性を表示し及び／又はストアするステップと
を含む方法である、コンピュータ・システム。
前記方法は、前記最低解像度バージョンの前記複数の領域の各々の領域に関する幾何学的スコアを計算するステップであって、前記幾何学的スコアが、ある領域が、前記複数の領域間の角度及び距離に関して、前記検出されたオブジェクトに対応する参照オブジェクトに関するストアされた参照データと一致する確率を算定するものである、幾何学的スコアを計算するステップをさらに含む、請求項１５に記載のシステム。
前記画像のより低い解像度バージョンに関する前記解像度コンテキスト・スコアは、前記画像の前記より高い解像度バージョンのうちの次に高い解像度バージョンに関する複数のスコアから計算される加重平均スコアとして計算される、請求項１６に記載のシステム。
前記画像の前記次に高い解像度バージョンに関する前記複数のスコアは、出現スコア及び幾何学的スコアを含む、請求項１７に記載のシステム。
前記画像の前記次に高い解像度バージョンに関する前記複数のスコアは、出現スコア、幾何学的スコア及び解像度コンテキスト・スコアを含む、請求項１７に記載のシステム。
前記画像の前記次に高い解像度バージョンに関する前記加重平均スコアは、次式をＩで割ったものを用いて計算され、

ここで、Ｉは前記画像の前記次に高い解像度バージョンにおける領域の数を表し、ｉは領域のインデックスであり、Σ_ｉはｉ＝１からｉ＝Ｉまでの和を表し、Ａ_ｉは領域ｉにおける出現スコアを表し、Ｇ_ｉは領域ｉにおける幾何学的スコアを表し、Ｒ_ｉは領域ｉにおける解像度コンテキスト・スコアを表し、Ｗ_１、Ｗ_２、及びＷ_３は、それぞれ前記出現スコア、前記幾何学的スコア、及び前記解像度コンテキスト・スコアに割り当てられた重みを表す、請求項１９に記載のシステム。
前記方法は、前記画像の前記より高いレベルのバージョンのうちの少なくとも１つのバージョンにおける前記画像の少なくとも１つの部分の出力を、意味属性及び関連付けられた部分についての空間情報と共に、ストアし及び／又は表示するステップをさらに含む、請求項２０に記載のシステム。
コンピュータ・インフラストラクチャをサポートするプロセスであって、前記プロセスは、コンピュータ・システム内のコンピュータ可読コードを作成すること、統合すること、ホストすること、維持すること、及び配備することのうちの少なくとも１つに関する、少なくとも１つのサポート・サービスを提供することを含み、前記コードは前記コンピューティング・システムとの組み合わせで、映像内のオブジェクトの部分及び属性を推定する方法を実行することができ、前記方法は、
映像入力を受け取るステップと、
前記映像入力からオブジェクトを検出し、前記映像入力から前記オブジェクトの画像を切り抜くステップと、
前記オブジェクトに関して、関連付けられた部分を有する複数の意味属性を受け取るステップと、
各々のバージョンが前記オブジェクトの前記画像の異なる解像度を有する、前記画像の複数のバージョンを生成してストアするステップと、
前記オブジェクトの前記画像の前記バージョンのうちの最低解像度バージョンの複数の領域の各々の領域における前記複数の意味属性に関する出現スコアを計算するステップであって、各領域に対する前記複数の意味属性のうちの少なくとも１つの意味属性に関する前記出現スコアは、前記少なくとも１つの意味属性のうちの各々の意味属性が前記領域内に出現する確率を示す、計算するステップと、
前記最低解像度バージョンにおける各領域に関する解像度コンテキスト・スコアを計算するために、前記最低解像度バージョンよりも次第により高い解像度バージョンを分析するステップであって、前記最低解像度バージョンにおける前記解像度コンテキスト・スコアは、各領域に関して、前記最低解像度バージョンにおけるよりも次第により高い解像度バージョンにおいて、より精徴な空間構造が存在する程度を示す、前記分析するステップと、
前記最低解像度バージョンにおける身体部分の最適化配置及び関連付けられた意味属性を確認するステップであって、前記確認するステップが、前記最低解像度バージョンにおける前記領域内の前記出現スコア及び前記解像度コンテキスト・スコアを利用する、確認するステップと、
前記身体部分の最適化配置及び関連付けられた意味属性を表示し及び／又はストアするステップと
を含む方法である、プロセス
前記方法は、前記最低解像度バージョンの前記複数の領域の各々の領域に関する幾何学的スコアを計算するステップであって、前記幾何学的スコアが、ある領域が、前記複数の領域間の角度及び距離に関して、前記検出されたオブジェクトに対応する参照オブジェクトに関するストアされた参照データと一致する確率を算定するものである、前記幾何学的スコアを計算するステップをさらに含む、請求項２２に記載のプロセス。
前記画像のより低い解像度バージョンに関する前記解像度コンテキスト・スコアは、前記画像の前記より高い解像度バージョンのうちの次に高い解像度バージョンに関する複数のスコアから計算される加重平均スコアとして計算される、請求項２３に記載のプロセス。