JP5657113B2 - 映像内のオブジェクトの意味解析 - Google Patents

映像内のオブジェクトの意味解析 Download PDF

Info

Publication number
JP5657113B2
JP5657113B2 JP2013521133A JP2013521133A JP5657113B2 JP 5657113 B2 JP5657113 B2 JP 5657113B2 JP 2013521133 A JP2013521133 A JP 2013521133A JP 2013521133 A JP2013521133 A JP 2013521133A JP 5657113 B2 JP5657113 B2 JP 5657113B2
Authority
JP
Japan
Prior art keywords
score
image
region
resolution version
resolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013521133A
Other languages
English (en)
Other versions
JP2013533563A (ja
Inventor
バケロ、ダニエル
フェリス、ロジェリオ、シュミット
ハンパプール、アルン
ブラウン、リサ、マリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2013533563A publication Critical patent/JP2013533563A/ja
Application granted granted Critical
Publication of JP5657113B2 publication Critical patent/JP5657113B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/426Graphical representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • G06V30/2504Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm

Description

本発明は映像処理及びオブジェクト識別に関し、より具体的にはオブジェクトの画像を分析して属性を識別することに関する。
映像内のオブジェクト及びそれらの部分の位置を自動的に識別することは、多くのタスクにとって重要である。例えば、人体の部分の場合、人体部分の位置を自動的に識別することは、自動動作認識、人間の姿勢推定などのタスクにとって重要である。人体解析(body parsing)は、映像内の個々の人体部分のコンピュータによる位置確認を説明するために用いられる用語である。映像内の人体解析のための現在の方法は、頭、脚、腕といった部分の位置のみを推定する。例えば、非特許文献1及び非特許文献2を参照されたい。
殆どの従来の方法は、実際にはオブジェクトの構文解析だけを行うものであり、即ち、オブジェクトの部分(例えば、腕、脚、顔など)に関連付けられた意味属性を効率的に推定せずにオブジェクトの部分の位置を推定するだけである。
Ramanan他著「Strike a Pose: Tracking People by Finding Stylized Poses」、Computer Vision and Pattern Recognition(CVPR)、サンジエゴ、カルフォルニア、2005年6月 Felzenszwalb他著「Pictorial Structures for Object Recognition」、International Journal of Computer Vision(IJCV)、2005年1月 N.Dalal及びB.Triggs著「Histograms of Oriented Gradients for Human Detection」、Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition、第2巻、886−893ページ、サンジエゴ、米国、2005年6月 Viola他著「Robust Real−time Object Detection」、Cambridge Research Laboratory Technical Report、2001年2月 Bo Wu他著「Fast Rotation Invariant Multi−View Face Detection Based on Real Adaboost」、IEEE International Conference on Automatic Face and Gesture Recognition、2004年 Naive Bayes Classifier(URL:http://en.wikipedia.org/wiki/Naive_Bayes_classifier) Tsochantaridis他著「Large Margin Methods for Structured and Interdependent Output Variables」、Journal of Machine Learning Research(JMLR)、2005年9月 Tran他著「Configuration Estimates Improve Pedestrian Finding」、National Information Processing Systems Foundation、2007年
上記のことを考慮すると、画像からオブジェクトの意味属性を効果的に識別するための方法及びシステムが必要とされている。
本発明は、映像内のオブジェクトの部分及び属性を推定するための方法、コンピュータ・プログラム製品、コンピュータ・システム及びプロセスにある。この方法、コンピュータ・プログラム製品、コンピュータ・システム及びプロセスは、映像入力を受け取るステップと、映像入力からオブジェクトを検出し、映像入力からオブジェクトの画像を切り抜くステップと、オブジェクトに関して、関連付けられた部分を有する複数の意味属性を受け取るステップと、各々のバージョンがオブジェクトの画像の異なる解像度を有する、画像の複数のバージョンを生成してストアするステップと、オブジェクトの画像のバージョンのうちの最低解像度バージョン上の複数の領域の各々の領域において複数の意味属性に関する出現スコアを計算するステップであって、各領域に対する複数の意味属性のうちの少なくとも1つの意味属性に関する出現スコアは、少なくとも1つの意味属性のうちの各意味属性がその領域内に出現する確率を示す、計算するステップと、最低解像度バージョンにおける各領域に関する解像度コンテキスト・スコアを計算するために、最低解像度バージョンよりも次第により高い解像度バージョンを分析するステップであって、最低解像度バージョンにおける解像度コンテキスト・スコアは、各領域に関して、最低解像度バージョンにおけるよりも次第により高い解像度バージョンにおいて、より精徴な空間構造が存在する程度を示す、分析するステップと、最低解像度バージョンにおける身体部分の最適配置及び関連付けられた意味属性を確認するステップであって、前記確認するステップが、最低解像度バージョンにおける各領域内の出現スコア及び解像度コンテキスト・スコアを利用する、確認するステップと、身体部分の最適配置及び関連付けられた意味属性を表示及び/又はストアするステップとを含む。
次に、以下の図面を参照しながら、本発明の好ましい実施形態を例示のみを目的として説明する。
本発明の一実施形態による、人体の意味属性を検出するためのシステムの例証的な環境を示す。 本発明の一実施形態による、映像内の人体内の意味属性を検出するための例証的な環境の詳細図を示す。 本発明の一実施形態による、入力及び出力の一例を示す。 本発明の一実施形態による、画像上の意味属性を検出するための例証的なデータ・フローを示す。 本発明の一実施形態による、身体部分に関連付けられた意味属性の例を示す。 本発明の一実施形態による、人体画像に対する意味属性の適用の例を示す。 本発明の一実施形態による、人体画像に対する意味属性の適用の例を示す。 本発明の一実施形態による、出現スコアを評価することの例を示す。 本発明の一実施形態による、出現スコアを計算するステップに関する入力及び出力を示す。 本発明の一実施形態による、解像度コンテキスト・スコアを計算することの例を示す。 本発明の一実施形態による、解像度コンテキスト・スコアを計算することの例を示す。 本発明の一実施形態による、解像度コンテキスト・スコアを計算するステップに関する入力及び出力を示す。 本発明の一実施形態による、最適配置に関する幾何学的スコアを計算するための例を示す。 本発明の一実施形態による、最適配置に関する幾何学的スコアを計算するための例を示す。 本発明の一実施形態による、幾何学的スコアを計算するステップに関する入力及び出力を示す。 本発明の一実施形態による、総スコアを計算するステップに関する入力及び出力を示す。
図面は一定の尺度で描かれていないことに留意されたい。図面は、本発明の典型的な態様のみを示すことを意図したものであり、それゆえに本発明の範囲を限定するものと考えるべきではない。図面は、映像内の人体の処理を示すが、本発明は映像内の他のオブジェクトの処理に拡張される。図面において、類似の番号付けは図面間で類似の要素を表す。
本発明は映像処理及びオブジェクト識別に関し、より具体的には、オブジェクトの画像を分析して属性を識別することに関する。
本発明の態様は、映像内のオブジェクトの意味属性を検出するための改善された解決策を提供する。例えば、本発明の態様は、身体部分からの属性の抽出を規定し、個人的記述に基づいて映像内の人々の自動探索を可能にする。別の実施例において、本発明は自動車からの属性の抽出を規定し、自動車の記述に基づいて映像内の自動車の自動探索を可能にする。考えられる照会として、「先月IBMに入った、あごひげを有し、サングラスをかけ、赤い上着及び青いズボンを身につけた全ての人を示せ」又は「先週IBMの駐車場に入った、ダイアモンド型ハブキャップを有するブルーの2ドアトヨタを示せ」が可能である。
本発明は、オブジェクトの意味解析の問題を取扱うものであり、目標は、同一プロセス内で部分の位置及び意味属性の両方を効果的に推定することである。人体の解析を例として用いて、本発明の実施形態は、同一プロセス内で人体部分の位置確認と共に人体部分の意味属性の推定を規定する。従来の手法の非効率性及び不正確さを克服して、本発明は大域的最適化機構を利用して部分及びそれらの対応する属性の両方を同時に推定する。
従来の手法とは異なり、本発明の実施形態は、「あごひげ」、「口ひげ」及び「ひげ無し」などの意味属性を用いて人体部分の位置を特定するだけでなく身体部分の属性を識別する。例えば、「脚」などの身体部分を識別するだけではなく、本発明は「黒いズボン」「長いスカート」及び「ショーツ」などの意味属性を用いて身体部分の位置を特定すると共にその属性を識別する。本発明は、各々の意味属性を対応する身体部分に関連づけるデータ表を維持する。例えば、意味属性「あごひげ」は、身体部分「下部顔領域」に対応する。
本発明の実施形態は、3種類の特徴、即ち、出現特徴、解像度コンテキスト特徴、及び幾何学的特徴に基づく。出現特徴は、画像ライブラリからの意味属性と画像上に出現したものとを比較して一致の確率を評価することによって得られるスコアを指す。解像度コンテキスト特徴は、異なる画像解像度のもとでのオブジェクトの一貫性を指す。特定領域に関する解像度コンテキスト・スコアは、特定領域の、より高解像度の画像から得られる加重平均スコアである。総スコアは、出現スコアと、幾何学的スコアと、より高解像度の画像が入手可能である場合には解像度コンテキスト・スコアとを加え合わせることによって、より高解像度の画像に対して計算される。解像度コンテキスト・スコアは、より高解像度の画像から、分析対象のより高解像度画像上の領域を構成する多数のサブ領域によって分割された所与の領域の総スコアとして計算される。幾何学的特徴は、確からしい配置における根底にある部分間の空間的関係性に基づいて計算されるスコアを指す。例えば、「あごひげ」の可能性のある属性は「顔」に対応し、「黒いシャツ」は「胴」に対応する。幾何学的特徴は、「顔」は「胴」の上方にあり、且つ、「胴」からある特定の距離にある、という一般的な人体配置原理を適用することによって、意味属性候補の正確さを検定する。
人体解析の実施例において、本発明の態様は人体部分の位置だけでなく、例えば、色、ひげの種類、眼鏡の存在など、それらの意味属性もまた推定する。換言すれば、本発明の態様は、構文解析、即ち、位置推定と、意味解析、即ち、各身体部分を記述する意味属性の抽出と、の両方を実行するための統合学習スキームを用いる。本発明は、同じプロセスにおいて身体部分及び属性の両方を検出して、人体部分の属性を従来技術よりも正確に識別する。
図面を参照すると、図1は本発明の一実施形態による人体の意味属性を検出するための例証的な環境を示す。この点に関して、少なくとも1つのカメラ42がシーン又は背景90を捉える。多くの場合、背景又はシーン90は、人物92など少なくとも1つのオブジェクトを含み得る。デジタル映像入力40が取得され、システム12に送られ、このシステム12は、本明細書で論じるように、例えば、意味属性検出プログラム30、データ50、所定の又は指定の意味属性52、出力54などを含む。
図2は、本発明の一実施形態による、映像40内の人物92(図1)の意味属性を検出するための例証的な環境10の詳細図を示す。この点に関して、環境10は、映像40内の人物92の意味属性を検出するために本明細書で説明するプロセスを実行することができる、コンピュータ・システム12を含む。詳細には、コンピュータ・システム12は、意味属性検出プログラム30を含むコンピューティング・デバイス14を含むように図示されており、プログラム30は、コンピューティング・デバイス14を、本明細書で説明するプロセスを実行することによって映像40内の人物92(図1)の意味属性を検出するように動作させることができる。
コンピューティング・デバイス14は、プロセッサ20、メモリ22A、入力/出力(I/O)インタフェース24、及びバス26を含むように図示されている。さらに、コンピューティング・デバイス14は、外部I/Oデバイス/リソース28、及び一時的ではないコンピュータ可読固定記憶デバイス22B(例えば、ハード・ディスク、フロッピー・ディスク、磁気テープ、コンパクトディスク(CD)又はデジタル・ビデオ・ディスク(DVD)などの光記憶装置)と通信するように図示されている。一般にプロセッサ20は、例えばメモリ22A(例えば、ダイナミック・ランダム・アクセス・メモリ(DRAM)、読み出し専用メモリ(ROM)など)及び/又は記憶デバイス22Bなどの記憶システム内にストアされた意味属性検出プログラム30のような、プログラム・コードを実行する。プログラム・コードを実行すると同時に、プロセッサ20は、メモリ22A、記憶デバイス22B、及び/又はI/Oインタフェース24への/からのデータ50のようなデータの読み出し及び/又は書込みを行うことができる。コンピュータ・プログラム製品は、映像内のオブジェクトの部分及び属性を推定する方法を実行するために後でプロセッサ20によって実行されるプログラム・コードがその上にストアされた、記憶デバイス22Bを含む。バス26は、コンピューティング・デバイス14内の各コンポーネント間の通信リンクを提供する。I/Oデバイス28は、ユーザ16とコンピューティング・デバイス14との間、及び/又は、デジタル映像入力40とコンピューティング・デバイス14との間で情報を伝える任意のデバイスを含むことができる。この点に関して、I/Oデバイス28は、個々のユーザ16がコンピューティング・デバイス14と相互作用できるようにするユーザI/Oデバイス、及び/又は、任意の型式の通信リンクを用いてデジタル映像入力40などの要素がコンピューティング・デバイス14と通信することを可能にする通信デバイスを含むことができる。I/Oデバイス28は、少なくとも1つの入力デバイス(例えば、キーボード、マウスなど)及び少なくとも1つの出力デバイス(例えば、プリンタ、プロッタ、コンピュータ・スクリーン、磁気テープ、取外し可能ハード・ディスク、フロッピー・ディスク)を表す。
いずれにしても、コンピューティング・デバイス14は、その上にインストールされたプログラム・コードを実行することができる、任意の汎用コンピューティング製品を含むことができる。しかし、コンピューティング・デバイス14及び意味属性検出プログラム30は、本明細書で説明するプロセスを実行することができる種々の可能な等価なコンピューティング・デバイスの代表に過ぎないことを理解されたい。この点に関して、他の実施形態においては、コンピューティング・デバイス14及び意味属性検出プログラム30によって提供される機能は、汎用及び/又は専用ハードウェア及び/又はプログラム・コードの任意の組合せを含むコンピューティング製品によって実装することができる。各実施形態において、プログラム・コード及びハードウェアは、それぞれ標準的なプログラミング技術及び工学技術を用いて作成することができる。そのような標準的なプログラミング技術及び工学技術は、異なる場所からの処理の統合を可能にするオープン・アーキテクチャを含むことができる。そのようなオープン・アーキテクチャは、クラウド・コンピューティングを含むことができる。従って、本発明は、コンピュータ・インフラストラクチャをサポートし、コンピュータ可読コードをコンピュータ・システム12内に統合し、ホストし、維持し、及び、配備するためのプロセスを開示し、ここで、コードは、コンピュータ・システム12と共同して、映像内のオブジェクトの部分及び属性を推定する方法を実行することができる。
同様に、コンピュータ・システム12は、本発明の態様を実装するための種々の型式のコンピュータ・システムの例証に過ぎない。例えば、一実施形態において、コンピュータ・システム12は、例えばネットワーク、共用メモリなど任意の型式の通信リンクによって通信して、本明細書で説明するプロセスを実行する、2つ又はそれ以上のコンピューティング・デバイスを含む。さらに、本明細書で説明するプロセスを実行すると同時に、コンピュータ・システム12内の1つ又は複数のコンピューティング・デバイスは、コンピュータ・システム12の外部の1つ又は複数の他のコンピューティング・デバイスと、任意の型式の通信リンクを用いて通信することができる。いずれの場合にも、通信リンクは、種々の型式の有線及び/又は無線リンクの任意の組合せを含むことができ、1つ又は複数の型式のネットワークの任意の組合せを含むことができ、及び/又は、種々の型式の通信技術及びプロトコルの任意の組合せを用いることができる。
本明細書で論じるように、意味属性検出プログラム30は、コンピュータ・システム12が映像40内の人物92(図1)のようなオブジェクトの意味属性を検出することを可能にする。この点に関して、意味属性検出プログラム30は、オブジェクト検出モジュール32、出現スコア・モジュール34、幾何学的スコア・モジュール36、解像度コンテキスト・モジュール37、配置最適化モジュール38、総スコア計算モジュール39、及び構造化学習モジュール35を含むように図示されている。これらモジュールの各々の動作については、本明細書でさらに論じる。しかし、図2に示す種々のモジュールの幾つかは独立に実施することができ、組み合せることができ、及び/又は、コンピュータ・システム12に含まれる1つ又は複数の別々のコンピューティング・デバイスのメモリにストアすることができることを理解されたい。さらに、幾つかのモジュール及び/又は機能は、実装されないこともあり、又は、付加的なモジュール及び/又は機能がコンピュータ・システム12の一部分として含まれることがあることを理解されたい。
本発明の態様は、映像40内の人物92(図1)のようなオブジェクトの意味属性を検出するための改善された解決策を提供する。この点に関して、図3は、本発明の一実施形態による入力90(図1)及び出力54(図1)の一例を示す。上述(図1)のように、入力90は少なくとも1つのオブジェクト、この例では人物、を有するシーンである。出力54は、画像上に身体部分の空間的位置及び属性を含む。例えば、本発明は、領域402を上部顔領域として識別し、同じ領域からその人物の属性「禿頭」を識別する。領域404は中部顔領域であり、「サングラス」という属性が識別される。領域406は下部顔領域であり、「あごひげ」という属性が識別される。領域408は腕として識別され、「いれずみ」という属性が識別される。領域410は脚として識別され、「黒いズボン」という属性が識別される。さらに、出力54は、本明細書で説明するように、画像の出現スコア、幾何学的スコア、及び利用できる場合には解像度コンテキスト・スコアの、総スコア及び/又は加重平均スコアを含む。
本発明の態様は、映像40内の人物92(図1)のようなオブジェクトの意味属性を検出するための改善された解決策を提供する。この点に関して、図4は、本発明の一実施形態による、画像上の人物92(図1)の意味属性を意味属性検出プログラム30のモジュール(図2)を用いて検出するための例証的なデータ・フローを示す。例えば、システム12は、D1において、デジタル・カラー映像入力40を受け取る。デジタル・カラー映像入力40は、典型的にはレッド・グリーン・ブルー(RGB)形式であり、人物92(図1)を有する映像入力のフレームが、各時間インスタンスにおいてオブジェクト検出モジュール32(図2)に到着する。
S1において、オブジェクト検出モジュール32(図2)は、映像入力のフレーム内のオブジェクトを検出し、そのオブジェクトの種類を識別する。この検出は、オブジェクト分類器を用いて、オブジェクトの画像をオブジェクト・ライブラリ内に以前にストアされて継続的に自己学習しているオブジェクトと比較することによって検定することができる(非特許文献3を参照されたい)。ひとたびオブジェクトが画像から識別されると、そのオブジェクトを含む画像領域が切り抜かれる。既存の技術は、画像の低解像度バージョンの生成をサポートする。切り抜かれた領域から、元の切り抜かれた領域の少なくとも1つの低解像度画像が生成され、元の切り抜かれた領域と共にさらなる分析のために保存される。後者のステップにおいて、切り抜かれた領域の最低解像度画像が最初に処理され、画像は低解像度から高解像度へと順番に処理される。解像度コンテキスト・スコアを得るために高解像度画像が処理される。具体的には、解像度コンテキスト・スコア・モジュール37(図2)が、オブジェクトの種々の部分及び副部分に対応する画像の種々の領域及び副領域の、次第に高解像度の画像を分析する。より高解像度の画像の分析は、最低解像度画像内の領域よりも粒状度が高い副領域に対して、意味属性に関する出現スコアを計算すること、幾何学的スコアを計算すること、及び解像度コンテキスト・スコアを計算することを含む。最低解像度画像の解像度は、意味属性検出プログラム30内の定数としてストアされるものとして予め決定するか、又はI/Oデバイス28(図2)を介した入力として与えられるものとすることができる。
D2は、意味属性及び関連付けられた画像のリストを保持する。意味属性を記述することに加えて、各意味属性は身体部分に対応する。例えば、意味属性「サングラス」、「眼鏡」及び「眼鏡無し」は、全て身体部分「中部顔領域」に対応し、意味属性「あごひげ」、「口ひげ」及び「ひげ無し」は、全て身体部分「下部顔領域」に対応する。図5は、本発明の一実施形態による、身体部分に関連付けられた意味属性の例を示す。意味属性52(図1)のリストは、意味属性及びそれらに対応する身体部分の両方を含む。
S2において、出現スコア・モジュール34(図2)は、S1からの保存された画像を、実時間又は遅延時間モードで、意味属性52(D2)が画像の領域に存在する確率を評価することにより分析する。前述のように、最低解像度画像が最初に分析される。最低解像度画像上で見えそうな意味属性はこの段階で評価することができ、一方より高解像度の画像上で見えそうな他の意味属性は、後のステップにおいて評価することができる。意味属性の画像は、継続的に自己学習する意味属性ライブラリ内にストアされる。
S2において、意味属性が画像の領域に存在する確率を評価する際に、本発明の態様は非特許文献4の研究に記載の方法を用いる。この方法は、非特許文献5の研究において、実数値信頼スコアを用いてさらに説明されている。この方法は、ある属性がある領域に存在する確率を表す出現スコアを計算するステップを提供する。意味属性の存在は、意味属性検出器の適用により評価される。意味属性の検出器は、画像のある領域を間隔[0,1]内の実数にマッピングする関数であり、出力は、入力として与えられた画像領域内に意味属性が存在する確率を示す。本発明においては、結果として得られる出現スコアの値は、0から1までの範囲に分布することができる。画像の各領域において、同じ領域に複数の意味属性が存在する確率に対応する、複数の出現スコアが存在することができる。
図6及び図7は、本発明の一実施形態による、人体画像に意味属性を適用することの例を示す。図6において、画像領域60、62及び64をそれぞれ頭、胴及び脚として識別するだけの従来技術とは異なり、本発明の実施形態はさらに、領域60から皮膚の色、領域62からシャツの色、領域64からズボンの色などを抽出する。同様に図7において、領域66は、上部顔領域として識別されるだけでなく、頭髪、禿頭、又は帽子の存在を記述する属性を提供することができる。領域68は、中部顔領域として識別されるだけでなく、目、眼鏡又はサングラスを記述する属性を提供することができる。領域70は下部顔領域として識別されるだけでなく、口、口ひげ又はあごひげの属性を提供することができる。さらに、図6の画像は図7よりも低い解像度のものである。皮膚の色、シャツの色、ズボンの色など、全身に適用可能な属性検出器が図6の低解像度画像に適用され、一方、髪型、眼鏡の存在及び口ひげなど、顔専用の属性検出器が図7に適用される。
次にS2(図4)において、出現スコア・モジュール34(図2)は、意味属性検出器を画像に適用した結果として得られた全ての出現スコアに対して、閾値を適用する。閾値より小さい出現スコアは破棄されることになり、一方、残った出現スコアは保持される。閾値は、意味属性検出プログラム30内の定数としてストアされるものとして予め決定するか、又はI/0デバイス28(図2)を介した入力として与えられるものとすることができる。閾値を適用した後でもなお、画像の一領域に1つより多くの出現スコアが残っていることがある。画像の各領域における各出現スコアは、意味属性に対応する。前述のように、各意味属性は、身体部分に対応する。従って、画像の領域における各出現スコアもまた、身体部分に対応する。それで、閾値を上回る出現スコアを有する各領域が、対応する身体部分でタグ付けされることになる。結果として、出現スコア・モジュール34の出力は、出現スコアでマーク付けされ、且つ、意味属性及び身体部分の名称でタグ付けされた領域の位置を含み、例えば領域xに関して、出現スコアは0.6であり、タグは「あごひげ/下部顔領域」であり、「あごひげ」は意味属性であり、「下部顔領域」は身体部分である。
図8は、本発明の一実施形態による、出現スコアを評価することの例を示す。領域602は、あごひげ(0.1)、口ひげ(0.1)、及び「無毛」(0.95)という3つの出現スコアを獲得する。例えば、閾値を0.5とする。その結果、前述のように、「無毛」に閾値0.5を上回るスコアを与えられるので、「無毛」が領域602の属性として選択される。同様に、領域604は、あごひげ(0.9)、口ひげ(0.2)、及び「無毛」(0.1)という3つの出現スコアを獲得する。従って、あごひげに閾値0.5を上回るスコアが与えられるので、あごひげが領域604の属性として選択される。前述のように領域604及び領域602の両方が、「下部顔領域」の身体部分でタグ付けされることになる。領域604は、S5(図4)における配置最適化モジュールによる評価により、低い幾何学的スコア並びに低解像度コンテキスト・スコアを有するものとして後で拒絶され得る。
S2(図4)の出力は、属性及び出現スコアでマーク付けされ、身体部分の名称でタグ付けされた領域の位置を含む。図9は、本発明の一実施形態による出現スコアを計算するステップに関する入力及び出力を示す。出現スコアを計算する際に、出現スコア・モジュール34(図2)は、オブジェクトの切り抜かれた画像612、対応する部分を伴う意味属性のリスト52、参照としての意味属性の画像ライブラリ620、及び出現スコアの閾値630を含む、入力610を取り込む。出力690は、意味属性、部分の名称及び出現スコアを伴う、画像上の領域650を含む。出力される出現スコアは、全て出現スコア閾値630を上回るものである。
S3(図4)において、S2で処理された画像(例えば、画像x)の解像度コンテキスト・スコアを計算するために、解像度コンテキスト・スコア・モジュール37(図2)は、画像xのより高解像度の画像を分析する必要がある。上述のように、より高解像度の画像は、S1から生成され、保存される。主な考え方は、ある身体部分が所与の解像度の画像内で見える場合には、より高い解像度においても同じ画像内で見えるはずであるということである。例えば、領域yという特定の領域において、意味属性「あごひげ」に0.9のスコアが与えられ、その結果、領域yに「あごひげ/下部顔領域」のタグが付けられているとする。より高解像度の画像において、領域yは、下部顔領域の副部分(例えば、口、あごなど)を示すと予想される。そうならない場合には、領域y内には身体部分「下部顔領域」が実際には存在しないと考えられ、低い解像度コンテキスト・スコアが領域yに割り当てられることになる。
図10は、本発明の一実施形態による、解像度コンテキスト・スコアを評価することの例を示す。低解像度画像のもとで、画像700上で、出現スコア・モジュール34(図2)は、あごひげ又は眼鏡又は顔面皮膚色などの意味属性検出器を適用することにより、領域702において顔部分を検出する。画像750は、領域702のより高解像度の画像である。ある領域に関する解像度コンテキスト・スコアの入手可能性は、その領域のより高解像度の画像の入手可能性に依存するので、画像750が入手可能であれば、画像700上の領域702に関する解像度コンテキスト・スコアを得ることができる。画像750のもとで、画像700上に検出された顔が、目、鼻、及び口などの期待される副部分を含むかどうかについて領域702が評価される。あごひげ又は眼鏡、さらには目の色などの関連する意味属性検出器を、画像750に適用することができる。従って、領域704などの領域に適用される意味属性に関して、出現スコアが画像750上で計算される。さらに、所定の閾値を上回る意味属性で識別された領域に対して、幾何学的スコアが計算される。要するに、図4のステップS2からS7までが画像750に適用され、画像750に関する出力54の一部である総スコア及び/又は加重平均スコアが生成される。各画像は、分析されたときに出力54を生成する。画像750からの加重平均スコアが、画像700上の領域702に関する解像度コンテキスト・スコアとなる。
図11は、解像度コンテキスト・スコア・モジュール37がどのように解像度スコアに達するかをさらに示す。低解像度画像から高解像度画像までの処理において、解像度Nにおける画像670は、解像度N+1における画像690よりも低い解像度の画像である。画像670上の領域675において、「ヨーロッパ人型顔」の属性が0.9の出現スコアを有する。画像690は、領域675をより高解像度で検査する。画像690に適用される分析プロセスは、意味属性を適用することによって出現スコアを計算すること、解像度コンテキスト・スコアを計算すること、幾何学的スコアを計算すること(後の段階で説明する)、配置最適化を実行すること(後の段階で説明する)、及び、総スコアを計算すること(後の段階で説明する)を含む。上述のように、出力54は、本明細書で説明する画像の出現スコア、解像度コンテキスト・スコア及び幾何学的スコアの加重平均を含む。従って、画像690に関する出力54からの、この場合には0.7である加重平均スコアは、画像670上の領域675の解像度コンテキスト・スコアである。
図11の画像670上の領域675がいかにして0.7の解像度コンテキスト・スコアを有するかをさらに説明するために、画像690に適用される意味属性検出器に基づいて画像690上に検出される3つの領域が存在すると仮定する。3つの領域は、領域x、領域y、及び領域zとする。画像690上の領域x、領域y、及び領域zに関する出現スコアは、それぞれ0.9、0.8、及び0.9とする。画像690上の領域x、領域y、及び領域zに関する幾何学的スコアは、それぞれ0.5、0.6、及び0.35とする。領域x、領域y、及び領域zに対してより高解像度の画像が存在するものとする。領域xのより高解像度の画像は、2つの副領域、領域xx及び領域xyを有するものとする。領域xx及び領域xyは、対応するより高解像度の画像を有しないものとする。領域xxは0.95の出現スコアを有し、領域xyは0.9の出現スコアを有するものとする。領域xx及び領域xyの幾何学的スコアは、それぞれ0.9及び0.8とする。領域xx及び領域xyに対して、対応するより高解像度の画像が存在しないので、領域xx及び領域xyの解像度コンテキスト・スコアは0となる。出現スコア、幾何学的スコア及び解像度コンテキスト・スコアの重み因子は、本実施例の全ての分析において、それぞれ0.5、0.3及び0.2とする。従って、画像690上の領域xに対応する最高解像度画像に関する数値は、表1に表すことができる。
Figure 0005657113
画像690上の領域xに対応する最高解像度画像に関する加重平均スコアは、

(0.95*0.5+0.9*0.3+0*0.2+0.9*0.5+0.8*0.3+0*0.2)/2=0.7275

となる。
計算の中に2つの領域(領域xx及び領域xy)があるので、和を2で割る。0.7275の出力が、画像690上の領域xの解像度コンテキスト・スコアとなる。同様に、領域y及び領域zのより高解像度の画像の分析において、領域y及び領域zの解像度コンテキスト・スコアを、それぞれ0.6及び0.5とする。表2は、画像690上の領域x、領域y及び領域zに関するスコアを示す。
Figure 0005657113
従って、画像690に関する加重平均スコアは、

(0.9*0.5+0.5*0.3+0.7275*0.2+0.8*0.5+0.6*0.3+0.6*0.2+0.9*0.5+0.35*0.3+0.5*0.2)/3≒0.7

となる。
画像690は、画像670の領域675の対応する高解像度画像であるので、画像670の領域675は、0.7の解像度コンテキスト・スコアを有する。
図11にさらに示すように、ある領域に関する解像度コンテキスト・スコアの存在は、その領域のより高解像度の画像が分析に利用できるかどうかに依存する。従って、最高解像度画像は、解像度コンテキスト・スコアを有しない。その結果、最高解像度画像に関する出力54の加重平均スコアは、出現スコア及び幾何学的スコアのみの加重平均を含むことになる。また、図11に示すように、画像690は、画像670上の領域675に関する解像度コンテキスト・スコアを与える。画像670上の他の領域は、上記と同様の分析を経てそれらの対応する解像度コンテキスト・スコアに達しなければならない。
S3(図4)の出力は、意味属性、部分の名称及び解像度コンテキスト・スコアを有する最低解像度画像上の領域を含む。図12は、本発明の一実施形態による解像度コンテキスト・スコアを評価するステップに関する入力及び出力を示す。解像度スコアを計算する際に、解像度・スコア・モジュール37(図2)は、異なる解像度の画像860、並びに、意味属性、部分の名称及び出現スコアを伴う最低解像度画像上の領域650を含む、入力830を取り込む。出力880は、意味属性、部分の名称及び解像度コンテキスト・スコアを伴う最低解像度画像上の領域885を含む。最終の出力に達する際に、解像度スコア・モジュール37は、意味属性、部分の名称及び解像度コンテキスト・スコアを有する異なる解像度の画像上の領域を含んだ中間出力を生成することができる。
S4(図4)において、幾何学的スコア・モジュール36(図2)は、分析対象の候補領域の特定の配置間の距離及び角度を計測して、候補領域間の距離及び角度を人体の幾何学的配置に適合させるように試みることによって、幾何学的スコアを計算する。例えば、候補領域の配置が人体の自然の変位に適合する確からしさが高いほど、その配置内の各部分に対してより高い幾何学的スコアが与えられる。一実施形態において、幾何学的スコアを計算するためのアルゴリズムは次の通りである。ステップ2(図4)で識別された意味属性の間で属性から部分の名称を抽出し、各部分に対して、幾何学的スコア・モジュール36が、全ての他の部分からの距離及び角度を計算するか、又は、最適化のために動的プログラミングを用いる場合には親部分だけからの距離及び角度を計算し、標準的な分類方法(例えば、非特許文献6における単純ベイズ分類器(Naive Bayer Classifier))を用いて、距離及び角度の特徴ベクトルが人体の可能な配置にどのように対応するかについての0から1までの範囲のスコアを与える。実施形態において、幾何学的スコアを計算することの例を以下に示す。
幾何学的スコア(G)の例。
身体部分i(又は領域i)の幾何学的スコア(G)は、角度に基づく幾何学的スコア(GAi)及び/又は距離に基づく幾何学的スコア(GDi)を用いて表すことができる。
一実施形態において、G=(GAi+GDi)/2であり、これは単純算術平均である。
一実施形態において、G=WAi+WDiであり、これは加重算術平均であり、ここで、重み(W,W)は、W+W=1を満たす負でない実数であり、重み(W,W)は、一例において、幾何学的スコアGAi及びGDiを計算するのに用いる角度及び距離の参照値の相対的正確度及び/又は重要度(以下を参照されたい)のような因子に基づいて、選択又は決定することができる。
一実施形態において、G=(GAi*GDi1/2であり、これは幾何平均である。
一実施形態において、G=GAiであり、角度のみが用いられ、距離は用いられない。
一実施形態において、G=GDiであり、距離のみが用いられ、角度は用いられない。
角度に基づく幾何学的スコア(GAi)。
={Ai1,Ai2,...,AiN}は、部分i(又は領域i)と、他の身体部分(又は領域)の各対との間で前述のように決定された、N個の角度の配列を示すものとする。
={ai1,ai2,...,aiN}は、ライブラリ又はファイル内にストアされたN個(N≧2)の対応する参照角度の配列を示すものとする。
δAiは、Aとaとの間の差の計量を示すものとする。
一実施形態において、δAi=[{(Ai1−ai1+(Ai2−ai2+...+(AiN−aiN}/N]1/2である。
一実施形態において、δAi=(│Ai1−ai1│+│Ai2−ai2│+...+│AiN−aiN│)/Nである。
は、指定された又は入力された角度閾値を示すものとし、
δAi≧tの場合、GAi=0であり、
δAi<tの場合、GAi=1−δAi/tであるとする。
従って、GAiは、0≦GAi≦1を満たす。特に、δAi=0の場合(即ち、全ての決定された角度が対応する参照角度の全てに等しい場合)は、GAi=1となる。さらに、δAi≧tの場合(即ち、Aとaとの間の差の計量が大き過ぎる場合)には、GAi=0となる。
距離に基づく幾何学的スコア(GDi)。
={Di1,Di2,...,DiM}は、身体部分i(又は領域i)と、各々の他の身体部分(又は領域)との間で前述のように決定された、M個の距離の配列を示すものとする。
={di1,di2,...,diM}は、ライブラリ又はファイル内にストアされたM個(M≧2)の対応する参照距離の配列を示すとする。
δDiは、Dとdとの間の差の計量を示すものとする。
一実施形態において、δDi=[{(Di1−di1+(Di2−di2+...+(DiM−diM}/M]1/2である。
一実施形態において、δDi=(│Di1−di1│+│Di2−di2│+...+│DiM−diM│)/Mである。
は、指定された又は入力された距離閾値を示すものとし、
δDi≧tの場合、GDi=0であり、
δDi<tの場合、GDi=1−δDi/tであるとする。
従って、GDiは、0≦GDi≦1を満たす。特に、δDi=0の場合(即ち、全ての決定された距離が対応する参照距離の全てに等しい場合)は、GDi=1となる。さらに、δDi≧tの場合(即ち、Dとdとの間の差の計量が大き過ぎる場合)には、GDi=0となる。
図13及び図14は、本発明の一実施形態による、最適配置に関する幾何学的スコアを評価することの例を示す。図13には、イラスト800上で識別された多くの部分が存在し、ここで各々の四角は、部分名称を伴う意味属性を識別する画像上の領域を表す。多くの孤立した部分が識別されているので、人体を形成することが可能な、多くの可能な配置が存在する。画像内の実際の人体が図13に重ねられる。例えば、頭部は、領域801において検出され得る。2つの腕は、領域803及び805において検出され、2つの脚は、領域807及び809において検出される。図14は、配置最適化モジュール38によって最適配置の一部分として選択された、イラスト802上の一組の領域を示す。配置最適化モジュール38の機能は、後のステップで説明する。図14に示すように、領域801、803、805、807、及び809が、最適配置の部分として選択されている。所与の配置における各領域に関する幾何学的スコアは、他の領域に対する角度及び距離を計測することによって計算される。例えば、領域801の幾何学的スコアは、特定の配置候補に属する全ての他の領域に対する領域801の角度及び距離を計測することによって計算することができる。
S4(図4)の出力は、各部分(i)に意味属性、出現スコアA、解像度コンテキスト・スコアR、及び幾何学的スコアGが関連付けられた、候補部分の配置を含む。図15は、本発明の一実施形態による、幾何学的スコアを評価するステップに関する入力及び出力を示す。幾何学的スコアを計算する際に、幾何学的スコア・モジュール36(図2)は、入力810を取り込み、この入力810は、最適化モジュール815によって分析されている部分の候補配置(出現スコア及び解像度スコアを有する部分の組)、及び、部分間の角度及び距離の参照ライブラリ820を含むことができる。出力890は、各部分(i)に意味属性、出現スコアA、解像度コンテキスト・スコアR、及び幾何学的スコアGが関連付けられた、部分の候補配置850を含む。
S5(図4)において、配置最適化モジュール38(図2)は、動的プログラミングを用いて、出現スコア、幾何学的スコア、及び解像度コンテキスト・スコアに基づいて最適配置を選択する。候補の組が与えられると、画像からの最終的な身体部分領域及び属性評価として選択される可能性がある幾つかの可能な配置が存在し得る。最適配置は、最大の出現スコア、幾何学的スコア、及び解像度スコアを有する配置であり、非特許文献2によって提案されたアルゴリズムを用いて、動的プラグラミングにより選択される。最適配置が選択されるとき、その最適配置のための選択された領域には、上述のように、既に意味属性が関連付けられており、その領域における身体部分タグを有する。
従って、S5(図4)において、使用可能な領域及びそれらに関連付けられた身体部分タグ及び属性から、多くの可能な候補身体配置を導出することができる。S5の目標は、多くの可能な身体配置の中から最良の配置を選択することである。最適化モジュールは、この配置空間を探索し、出現スコア、解像度コンテキスト・スコア、及び幾何学的スコアに関して最高の加重平均スコアを有する配置を決定することを目指す。例えば、配置最適化モジュール38は、表1及び表2と関連して用いられた前述の式を用いて、各々の可能な配置に関する加重平均スコアを計算し、最大の加重平均スコアを有する配置を出力として選択することができる。
加重平均スコアを計算するときに3種類のスコアに対する所定の重みを有する代りに、重みを動的に決定することができる。3種類のスコア全部から最適の加重平均スコアを計算するために、S6(図4)は、スコアに対する最適加重を決定することができる。最適加重を決定する際に、S6(図4)において、構造化学習モジュール35(図2)は、非特許文献7に記載の「構造化学習」と呼ばれる機械学習手続きを用いる。基本的な考え方は、身体部分の配置の多くの例を、それらの属性を含めて、システムに対して提示することを含む。次に、構造化学習モジュールは、提示された例示的な組の中のいずれの配置も、妥当な人体構造に対応しない無効配置よりも高い全体的スコアを有するように、重みを最適化することになる。構造化学習は、非特許文献8にも記載されている。これは、一連の正しい例を用いて特徴の互いに対する適切な重みを推定し、配置を推定するのに有効なスコアを生成する方法である。
S7(図4)において、総スコア計算モジュール39(図2)は、最適化配置における領域からの出現スコア、幾何学的スコア、及び解像度コンテキスト・スコアに基づいて、最適化総スコアを計算する。構造化学習モジュール35(図2)からの入力により、総スコア計算モジュール39は、出現スコア、幾何学的スコア、及び解像度コンテキスト・スコアに与えられた最適な重みを利用して最適化総スコアを計算し、次に総スコアを分析対象の領域の数で割ることによって、出現スコア、幾何学的スコア、及び解像度コンテキスト・スコアの加重平均スコアを生成する。
従って、分析対象の各々の配置は、各部分(i)に属性及び対応する出現スコアA、解像度コンテキスト・スコアR、及び幾何学的スコアGが関連付けられた、一組の部分から構成される。S7(図4)において、総スコア計算モジュール39(図2)は、次式を用いて最適化総スコアを計算する。

Figure 0005657113

式中、配置の各部分iに対して、Aは出現スコアを表し、Gは幾何学的スコアを表し、Rは解像度コンテキスト・スコアを表し、W、W、及びWは、構造化学習モジュールによって得られる重みに対応する。W、W、及びWは、前述の方法によりS6の構造化学習モジュール35(図2)によって与えられる。
図16は、本発明の一実施形態による、総スコアを計算するステップに関する入力及び出力を示す。総ステップ計算モジュール39(図2)に対する入力840は、各部分(i)が出現スコアA、解像度スコアR、及び幾何学的スコアGを有する部分の候補配置842、並びに、構造化学習モジュールによって与えられる重み844を含む。ひとたび総スコアが計算されると、総スコアを分析対象の画像上の領域の数で割ることによって、加重平均スコアを計算することができる。出力849は、A、R、及びGの加重平均であるスコア847を含む。
本明細書で用いる場合、「プログラム・コード」は、任意の言語、コード又は表記法による命令文又は命令の任意の組であって、情報処理能力を有するコンピューティング・デバイスに、直接的に、又は、以下の(a)別の言語、コード又は表記法への変換、(b)異なる有形形態での複製、及び/又は(c)復元のいずれかの組合せの後で、特定の機能を実行させるものを意味する。この点に関して、プログラム・コードは、アプリケーション/ソフトウェア・プログラム、コンポネント・ソフトウェア/関数ライブラリ、オペレーティング・システム、並びに、特定の計算デバイス、記憶デバイス及び/又はI/Oデバイスのための基本I/Oシステム/ドライバなどの、1つ又は複数の型式のコンピュータ・プログラムの任意の組合せとして具体化することができる。
本発明の種々の態様の前述の説明は、例証及び説明のために提示したものである。これは、網羅的であること、又は本発明を開示した通りの形態に限定することを意図したものではなく、明らかに、多くの修正及び変形が可能である。当業者には明らかであり得る修正及び変化は、添付の特許請求の範囲によって定められる本発明の範囲に含まれる。
10:環境
12:コンピュータ・システム
26:バス
42:カメラ
54:出力
90:背景又はシーン(入力)
92:人物
60、62、64、66、68、70、402、404、406、408、410、602、604、675、702、704、801、803、805、807、809:領域
670、690、700、750:画像
800、802:イラスト

Claims (24)

  1. 映像内のオブジェクトの部分及び関連付けられた属性を決定する方法であって、
    映像入力を受け取るステップと、
    前記映像入力からオブジェクトを検出し、前記映像入力から前記オブジェクトの画像を切り抜くステップと、
    前記オブジェクトに関して、関連付けられた部分を有する複数の意味属性を受け取るステップと、
    各々のバージョンが前記オブジェクトの前記画像の異なる解像度を有する、前記画像の複数のバージョンを生成してストアするステップと、
    前記オブジェクトの前記画像の前記バージョンのうちの最低解像度バージョン上の複数の領域の各々の領域において前記複数の意味属性に関する出現スコアを計算するステップであって、各領域に対する前記複数の意味属性のうちの少なくとも1つの意味属性に関する前記出現スコアは、前記少なくとも1つの意味属性のうちの各意味属性が前記領域内に出現する確率を示す、計算するステップと、
    前記最低解像度バージョンにおける各領域に関する解像度コンテキスト・スコアを計算するために、前記最低解像度バージョンよりも次第により高い解像度バージョンを分析するステップであって、前記最低解像度バージョンにおける前記解像度コンテキスト・スコアは、各領域に関して、前記最低解像度バージョンにおけるよりも次第により高い解像度バージョンにおいて、より精徴な空間構造が存在する程度を示す、前記分析するステップと、
    前記最低解像度バージョンにおける身体部分の最適化配置及び関連付けられた意味属性を確認するステップであって、前記確認するステップが、前記最低解像度バージョンにおける前記領域内の前記出現スコア及び前記解像度コンテキスト・スコアを利用する、確認するステップと、
    前記身体部分の最適化配置及び関連付けられた意味属性を表示し及び/又はストアするステップと
    を含む方法。
  2. 前記最低解像度バージョンの前記複数の領域の各々の領域に関する幾何学的スコアを計算するステップであって、前記幾何学的スコアが、ある領域が、前記複数の領域間の角度及び距離に関して、前記検出されたオブジェクトに対応する参照オブジェクトに関するストアされた参照データと一致する確率を算定するものである、幾何学的スコアを計算するステップをさらに含む、請求項1に記載の方法。
  3. 前記画像のより低い解像度バージョンに関する前記解像度コンテキスト・スコアは、前記画像の前記より高い解像度バージョンのうちの次に高い解像度バージョンに関する複数のスコアから計算される加重平均スコアとして計算される、請求項2に記載の方法。
  4. 前記画像の前記次に高い解像度バージョンに関する前記複数のスコアは、出現スコア及び幾何学的スコアを含む、請求項3に記載の方法。
  5. 前記画像の前記次に高い解像度バージョンに関する前記複数のスコアは、出現スコア、幾何学的スコア及び解像度コンテキスト・スコアを含む、請求項3に記載の方法。
  6. 前記画像の前記次に高い解像度バージョンに関する前記加重平均スコアは、次式をIで割ったものを用いて計算され、
    Figure 0005657113
    ここで、Iは前記画像の前記次に高い解像度バージョンにおける領域の数を表し、iは領域のインデックスであり、Σはi=1からi=Iまでの和を表し、Aは領域iにおける出現スコアを表し、Gは領域iにおける幾何学的スコアを表し、Rは領域iにおける解像度コンテキスト・スコアを表し、W、W、及びWは、それぞれ前記出現スコア、前記幾何学的スコア、及び前記解像度コンテキスト・スコアに割り当てられた重みを表す、請求項5に記載の方法。
  7. 前記画像の前記より高いレベルのバージョンのうちの少なくとも1つのバージョンにおける前記画像の少なくとも1つの部分の出力を、意味属性及び関連付けられた部分についての空間情報と共に、ストアし及び/又は表示するステップをさらに含む、請求項6に記載の方法。
  8. コンピュータ可読プログラム・コードを有するコンピュータ・プログラムであって、前記コンピュータ可読プログラム・コードは、映像内のオブジェクトの部分及び属性を推定する方法を実施する命令を含み、前記方法は、
    映像入力を受け取るステップと、
    前記映像入力からオブジェクトを検出し、前記映像入力から前記オブジェクトの画像を切り抜くステップと、
    前記オブジェクトに関して、関連づけられた部分を有する複数の意味属性を受け取るステップと、
    各々のバージョンが前記オブジェクトの前記画像の異なる解像度を有する、前記画像の複数のバージョンを生成してストアするステップと、
    前記オブジェクトの前記画像の前記バージョンのうちの最低解像度バージョン上の複数の領域の各々の領域において前記複数の意味属性に関する出現スコアを計算するステップであって、各領域に対する前記複数の意味属性のうちの少なくとも1つの意味属性に関する前記出現スコアは、前記少なくとも1つの意味属性のうちの各意味属性が前記領域内に出現する確率を示す、計算するステップと、
    前記最低解像度バージョンにおける各領域に関する解像度コンテキスト・スコアを計算するために、前記最低解像度バージョンよりも次第により高い解像度バージョンを分析するステップであって、前記最低解像度バージョンにおける前記解像度コンテキスト・スコアは、各領域に関して、前記最低解像度バージョンにおけるよりも次第により高い解像度バージョンにおいて、より精徴な空間構造が存在する程度を示す、前記分析するステップと、
    前記最低解像度バージョンにおける身体部分の最適化配置及び関連付けられた意味属性を確認するステップであって、前記確認するステップが、前記最低解像度バージョンにおける前記領域内の前記出現スコア及び前記解像度コンテキスト・スコアを利用する、確認するステップと、
    前記身体部分の最適化配置及び関連付けられた意味属性を表示し及び/又はストアするステップと
    を含む方法である、コンピュータ・プログラム。
  9. 前記方法は、前記最低解像度バージョンの前記複数の領域の各々の領域に関する幾何学的スコアを計算するステップであって、前記幾何学的スコアが、ある領域が、前記複数の領域間の角度及び距離に関して、前記検出されたオブジェクトに対応する参照オブジェクトに関するストアされた参照データと一致する確率を算定するものである、前記幾何学的スコアを計算するステップをさらに含む、請求項8に記載のコンピュータ・プログラム。
  10. 前記画像のより低い解像度バージョンに関する前記解像度コンテキスト・スコアは、前記画像の前記より高い解像度バージョンのうちの次に高い解像度バージョンに関する複数のスコアから計算される加重平均スコアとして計算される、請求項9に記載のコンピュータ・プログラム。
  11. 前記画像の前記次に高い解像度バージョンに関する前記複数のスコアは、出現スコア及び幾何学的スコアを含む、請求項10に記載のコンピュータ・プログラム。
  12. 前記画像の前記次に高い解像度バージョンに関する前記複数のスコアは、出現スコア、幾何学的スコア及び解像度コンテキスト・スコアを含む、請求項10に記載のコンピュータ・プログラム。
  13. 前記画像の前記次に高い解像度バージョンに関する前記加重平均スコアは、次式をIで割ったものを用いて計算され、
    Figure 0005657113
    ここで、Iは前記画像の前記次に高い解像度バージョンにおける領域の数を表し、iは領域のインデックスであり、Σはi=1からi=Iまでの和を表し、Aは領域iにおける出現スコアを表し、Gは領域iにおける幾何学的スコアを表し、Rは領域iにおける解像度コンテキスト・スコアを表し、W、W、及びWは、それぞれ前記出現スコア、前記幾何学的スコア、及び前記解像度コンテキスト・スコアに割り当てられた重みを表す、請求項12に記載のコンピュータ・プログラム。
  14. 前記方法は、前記画像の前記より高いレベルのバージョンのうちの少なくとも1つのバージョンにおける前記画像の少なくとも1つの部分の出力を、意味属性及び関連付られた部分についての空間情報と共に、ストアし及び/又は表示するステップをさらに含む、請求項13に記載のコンピュータ・プログラム。
  15. プロセッサ、及び前記プロセッサに結合されたコンピュータ可読メモリ・ユニットを備えたコンピュータ・システムであって、前記コンピュータ可読メモリ・ユニットは、前記プロセッサによって実行されたときに映像内のオブジェクトの部分及び属性を推定する方法を実施する命令を含み、前記方法は、
    映像入力を受け取るステップと、
    前記映像入力からオブジェクトを検出し、前記映像入力から前記オブジェクトの画像を切り抜くステップと、
    前記オブジェクトに関して、関連付けられた部分を有する複数の意味属性を受け取るステップと、
    各々のバージョンが前記オブジェクトの前記画像の異なる解像度を有する、前記画像の複数のバージョンを生成してストアするステップと、
    前記オブジェクトの前記画像の前記バージョンのうちの最低解像度バージョン上の複数の領域の各々の領域において前記複数の意味属性に関する出現スコアを計算するステップであって、各領域に対する前記複数の意味属性のうちの少なくとも1つの意味属性に関する前記出現スコアは、前記少なくとも1つの意味属性のうちの各意味属性が前記領域内に出現する確率を示す、計算するステップと、
    前記最低解像度バージョンにおける各領域に関する解像度コンテキスト・スコアを計算するために、前記最低解像度バージョンよりも次第により高い解像度バージョンを分析するステップであって、前記最低解像度バージョンにおける前記解像度コンテキスト・スコアは、各領域に関して、前記最低解像度バージョンにおけるよりも次第により高い解像度バージョンにおいて、より精徴な空間構造が存在する程度を示す、前記分析するステップと、
    前記最低解像度バージョンにおける身体部分の最適化配置及び関連付けられた意味属性を確認するステップであって、前記確認するステップが、前記最低解像度バージョンにおける前記領域内の前記出現スコア及び前記解像度コンテキスト・スコアを利用する、確認するステップと、
    前記身体部分の最適化配置及び関連付けられた意味属性を表示し及び/又はストアするステップと
    を含む方法である、コンピュータ・システム。
  16. 前記方法は、前記最低解像度バージョンの前記複数の領域の各々の領域に関する幾何学的スコアを計算するステップであって、前記幾何学的スコアが、ある領域が、前記複数の領域間の角度及び距離に関して、前記検出されたオブジェクトに対応する参照オブジェクトに関するストアされた参照データと一致する確率を算定するものである、幾何学的スコアを計算するステップをさらに含む、請求項15に記載のシステム。
  17. 前記画像のより低い解像度バージョンに関する前記解像度コンテキスト・スコアは、前記画像の前記より高い解像度バージョンのうちの次に高い解像度バージョンに関する複数のスコアから計算される加重平均スコアとして計算される、請求項16に記載のシステム。
  18. 前記画像の前記次に高い解像度バージョンに関する前記複数のスコアは、出現スコア及び幾何学的スコアを含む、請求項17に記載のシステム。
  19. 前記画像の前記次に高い解像度バージョンに関する前記複数のスコアは、出現スコア、幾何学的スコア及び解像度コンテキスト・スコアを含む、請求項17に記載のシステム。
  20. 前記画像の前記次に高い解像度バージョンに関する前記加重平均スコアは、次式をIで割ったものを用いて計算され、
    Figure 0005657113
    ここで、Iは前記画像の前記次に高い解像度バージョンにおける領域の数を表し、iは領域のインデックスであり、Σはi=1からi=Iまでの和を表し、Aは領域iにおける出現スコアを表し、Gは領域iにおける幾何学的スコアを表し、Rは領域iにおける解像度コンテキスト・スコアを表し、W、W、及びWは、それぞれ前記出現スコア、前記幾何学的スコア、及び前記解像度コンテキスト・スコアに割り当てられた重みを表す、請求項19に記載のシステム。
  21. 前記方法は、前記画像の前記より高いレベルのバージョンのうちの少なくとも1つのバージョンにおける前記画像の少なくとも1つの部分の出力を、意味属性及び関連付けられた部分についての空間情報と共に、ストアし及び/又は表示するステップをさらに含む、請求項20に記載のシステム。
  22. コンピュータ・インフラストラクチャをサポートするプロセスであって、前記プロセスは、コンピュータ・システム内のコンピュータ可読コードを作成すること、統合すること、ホストすること、維持すること、及び配備することのうちの少なくとも1つに関する、少なくとも1つのサポート・サービスを提供することを含み、前記コードは前記コンピューティング・システムとの組み合わせで、映像内のオブジェクトの部分及び属性を推定する方法を実行することができ、前記方法は、
    映像入力を受け取るステップと、
    前記映像入力からオブジェクトを検出し、前記映像入力から前記オブジェクトの画像を切り抜くステップと、
    前記オブジェクトに関して、関連付けられた部分を有する複数の意味属性を受け取るステップと、
    各々のバージョンが前記オブジェクトの前記画像の異なる解像度を有する、前記画像の複数のバージョンを生成してストアするステップと、
    前記オブジェクトの前記画像の前記バージョンのうちの最低解像度バージョンの複数の領域の各々の領域における前記複数の意味属性に関する出現スコアを計算するステップであって、各領域に対する前記複数の意味属性のうちの少なくとも1つの意味属性に関する前記出現スコアは、前記少なくとも1つの意味属性のうちの各々の意味属性が前記領域内に出現する確率を示す、計算するステップと、
    前記最低解像度バージョンにおける各領域に関する解像度コンテキスト・スコアを計算するために、前記最低解像度バージョンよりも次第により高い解像度バージョンを分析するステップであって、前記最低解像度バージョンにおける前記解像度コンテキスト・スコアは、各領域に関して、前記最低解像度バージョンにおけるよりも次第により高い解像度バージョンにおいて、より精徴な空間構造が存在する程度を示す、前記分析するステップと、
    前記最低解像度バージョンにおける身体部分の最適化配置及び関連付けられた意味属性を確認するステップであって、前記確認するステップが、前記最低解像度バージョンにおける前記領域内の前記出現スコア及び前記解像度コンテキスト・スコアを利用する、確認するステップと、
    前記身体部分の最適化配置及び関連付けられた意味属性を表示し及び/又はストアするステップと
    を含む方法である、プロセス
  23. 前記方法は、前記最低解像度バージョンの前記複数の領域の各々の領域に関する幾何学的スコアを計算するステップであって、前記幾何学的スコアが、ある領域が、前記複数の領域間の角度及び距離に関して、前記検出されたオブジェクトに対応する参照オブジェクトに関するストアされた参照データと一致する確率を算定するものである、前記幾何学的スコアを計算するステップをさらに含む、請求項22に記載のプロセス。
  24. 前記画像のより低い解像度バージョンに関する前記解像度コンテキスト・スコアは、前記画像の前記より高い解像度バージョンのうちの次に高い解像度バージョンに関する複数のスコアから計算される加重平均スコアとして計算される、請求項23に記載のプロセス。
JP2013521133A 2010-07-28 2011-07-27 映像内のオブジェクトの意味解析 Active JP5657113B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/845,095 2010-07-28
US12/845,095 US8532390B2 (en) 2010-07-28 2010-07-28 Semantic parsing of objects in video
PCT/EP2011/062925 WO2012013711A2 (en) 2010-07-28 2011-07-27 Semantic parsing of objects in video

Publications (2)

Publication Number Publication Date
JP2013533563A JP2013533563A (ja) 2013-08-22
JP5657113B2 true JP5657113B2 (ja) 2015-01-21

Family

ID=44629362

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013521133A Active JP5657113B2 (ja) 2010-07-28 2011-07-27 映像内のオブジェクトの意味解析

Country Status (8)

Country Link
US (6) US8532390B2 (ja)
JP (1) JP5657113B2 (ja)
KR (1) KR101507662B1 (ja)
CN (1) CN103703472B (ja)
DE (1) DE112011101927B4 (ja)
GB (1) GB2495881B (ja)
TW (1) TWI505200B (ja)
WO (1) WO2012013711A2 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2009243528B2 (en) * 2009-12-04 2013-08-01 Canon Kabushiki Kaisha Location-based signature selection for multi-camera object tracking
US8515127B2 (en) * 2010-07-28 2013-08-20 International Business Machines Corporation Multispectral detection of personal attributes for video surveillance
US9134399B2 (en) 2010-07-28 2015-09-15 International Business Machines Corporation Attribute-based person tracking across multiple cameras
US10424342B2 (en) 2010-07-28 2019-09-24 International Business Machines Corporation Facilitating people search in video surveillance
US8532390B2 (en) * 2010-07-28 2013-09-10 International Business Machines Corporation Semantic parsing of objects in video
TW201217920A (en) * 2010-10-22 2012-05-01 Hon Hai Prec Ind Co Ltd Avoiding clamped system, method, and electrically operated gate with the system
US20130236065A1 (en) * 2012-03-12 2013-09-12 Xianwang Wang Image semantic clothing attribute
US8254647B1 (en) * 2012-04-16 2012-08-28 Google Inc. Facial image quality assessment
US20140328570A1 (en) * 2013-01-09 2014-11-06 Sri International Identifying, describing, and sharing salient events in images and videos
US20140317009A1 (en) * 2013-04-22 2014-10-23 Pangea Connect, Inc Managing Online and Offline Interactions Between Recruiters and Job Seekers
JP2016129269A (ja) * 2013-04-22 2016-07-14 パナソニック株式会社 画像・音声処理装置、集積回路、およびプログラム
GB2519348B (en) 2013-10-18 2021-04-14 Vision Semantics Ltd Visual data mining
US9600897B2 (en) * 2013-10-31 2017-03-21 Nec Corporation Trajectory features and distance metrics for hierarchical video segmentation
US20150317511A1 (en) * 2013-11-07 2015-11-05 Orbeus, Inc. System, method and apparatus for performing facial recognition
US20150142884A1 (en) * 2013-11-21 2015-05-21 Microsoft Corporation Image Sharing for Online Collaborations
US9668367B2 (en) 2014-02-04 2017-05-30 Microsoft Technology Licensing, Llc Wearable computing systems
KR102232797B1 (ko) 2014-03-03 2021-03-26 에스케이플래닛 주식회사 객체 식별 장치, 그 방법 및 컴퓨터 프로그램이 기록된 기록매체
CN104103075A (zh) * 2014-07-24 2014-10-15 北京邮电大学 一种多视角人体部件语义匹配方法和装置
KR101659657B1 (ko) * 2014-09-29 2016-09-23 동명대학교산학협력단 개선된 리얼 아다부스트 알고리즘에 근거한 새로운 멀티 뷰 얼굴감지방식
US10437835B2 (en) 2014-12-18 2019-10-08 International Business Machines Corporation Scoring attributes in a deep question answering system based on syntactic or semantic guidelines
US10049273B2 (en) * 2015-02-24 2018-08-14 Kabushiki Kaisha Toshiba Image recognition apparatus, image recognition system, and image recognition method
US10582125B1 (en) * 2015-06-01 2020-03-03 Amazon Technologies, Inc. Panoramic image generation from video
AU2015203591A1 (en) * 2015-06-26 2017-01-19 Canon Kabushiki Kaisha System and method for object matching
US10289727B2 (en) 2015-09-17 2019-05-14 International Business Machines Corporation Incorporation of semantic attributes within social media
JP2017092899A (ja) * 2015-11-17 2017-05-25 ソニー株式会社 画像処理装置、画像処理方法、及び、プログラム
CN106022208A (zh) * 2016-04-29 2016-10-12 北京天宇朗通通信设备股份有限公司 人体动作识别方法及装置
KR102650650B1 (ko) * 2017-01-20 2024-03-25 한화비전 주식회사 영상 관리 시스템 및 영상 관리 방법
KR20180086048A (ko) * 2017-01-20 2018-07-30 한화에어로스페이스 주식회사 카메라 및 카메라의 영상 처리 방법
CN107358573A (zh) * 2017-06-16 2017-11-17 广东欧珀移动通信有限公司 图像美颜处理方法和装置
US10460470B2 (en) * 2017-07-06 2019-10-29 Futurewei Technologies, Inc. Recognition and reconstruction of objects with partial appearance
US11210499B2 (en) * 2018-07-06 2021-12-28 Kepler Vision Technologies Bv Determining a social group to which customers belong from appearance and using artificial intelligence, machine learning, and computer vision, for estimating customer preferences and intent, and for improving customer services
DE102018212961A1 (de) * 2018-08-02 2020-02-06 Robert Bosch Gmbh Verfahren und Vorrichtung zur Analyse eines Bildes
CN110008802B (zh) 2018-12-04 2023-08-29 创新先进技术有限公司 从多个脸部中选择目标脸部及脸部识别比对方法、装置
KR102217547B1 (ko) 2019-05-14 2021-02-19 주식회사 아이에스피디 다중 인공지능 시맨틱 세그멘테이션 모델 결합에 의한 영상 처리 속도 및 정확도 개선 장치 및 방법
KR20200131424A (ko) 2019-05-14 2020-11-24 주식회사 아이에스피디 인공지능 영상인식 시맨틱 세그멘테이션을 이용한 영상 처리 장치 및 방법
US11669743B2 (en) * 2019-05-15 2023-06-06 Huawei Technologies Co., Ltd. Adaptive action recognizer for video
CN110458005B (zh) * 2019-07-02 2022-12-27 重庆邮电大学 一种基于多任务渐进配准网络的旋转不变人脸检测方法
US11258991B2 (en) * 2019-12-23 2022-02-22 Evolon Technology, Inc. Video processing request system for converting synchronous video processing task requests to asynchronous video processing requests

Family Cites Families (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850252B1 (en) * 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
US8604932B2 (en) 1992-05-05 2013-12-10 American Vehicular Sciences, LLC Driver fatigue monitoring system and method
JP3557659B2 (ja) * 1994-08-22 2004-08-25 コニカミノルタホールディングス株式会社 顔抽出方法
US5870138A (en) 1995-03-31 1999-02-09 Hitachi, Ltd. Facial image processing
JPH10222678A (ja) * 1997-02-05 1998-08-21 Toshiba Corp 物体検出装置および物体検出方法
JPH11250071A (ja) 1998-02-26 1999-09-17 Minolta Co Ltd 画像データベースの構築方法および画像データベース装置並びに画像情報記憶媒体
US6608930B1 (en) 1999-08-09 2003-08-19 Koninklijke Philips Electronics N.V. Method and system for analyzing video content using detected text in video frames
DE19962201A1 (de) 1999-09-06 2001-03-15 Holger Lausch Verfahren und Anordnung zur Erfassung und Analyse des Rezeptionsverhaltens von Personen
US6795567B1 (en) 1999-09-16 2004-09-21 Hewlett-Packard Development Company, L.P. Method for efficiently tracking object models in video sequences via dynamic ordering of features
DE19960372A1 (de) 1999-12-14 2001-06-21 Definiens Ag Verfahren zur Verarbeitung von Datenstrukturen
US7006950B1 (en) 2000-06-12 2006-02-28 Siemens Corporate Research, Inc. Statistical modeling and performance characterization of a real-time dual camera surveillance system
US20050162515A1 (en) 2000-10-24 2005-07-28 Objectvideo, Inc. Video surveillance system
US6973201B1 (en) 2000-11-01 2005-12-06 Koninklijke Philips Electronics N.V. Person tagging in an image processing system utilizing a statistical model based on both appearance and geometric features
US6792136B1 (en) 2000-11-07 2004-09-14 Trw Inc. True color infrared photography and video
JP2002175538A (ja) 2000-12-08 2002-06-21 Mitsubishi Electric Corp 似顔絵生成装置及び似顔絵生成方法及び似顔絵生成プログラムを記録した記録媒体及び通信用端末及び通信用端末による通信方法
US6829384B2 (en) 2001-02-28 2004-12-07 Carnegie Mellon University Object finder for photographic images
US6920236B2 (en) 2001-03-26 2005-07-19 Mikos, Ltd. Dual band biometric identification system
US20020175997A1 (en) * 2001-05-22 2002-11-28 Matsushita Electric Industrial Co., Ltd. Surveillance recording device and method
JP2003223414A (ja) 2001-11-21 2003-08-08 Matsushita Electric Ind Co Ltd 属性情報保護システムと装置とコンピュータプログラム
US20060165386A1 (en) 2002-01-08 2006-07-27 Cernium, Inc. Object selective video recording
JP2003219225A (ja) 2002-01-25 2003-07-31 Nippon Micro Systems Kk 動体画像監視装置
US7274803B1 (en) 2002-04-02 2007-09-25 Videomining Corporation Method and system for detecting conscious hand movement patterns and computer-generated visual feedback for facilitating human-computer interaction
US7406184B2 (en) 2002-07-03 2008-07-29 Equinox Corporation Method and apparatus for using thermal infrared for face recognition
US8351647B2 (en) 2002-07-29 2013-01-08 Videomining Corporation Automatic detection and aggregation of demographics and behavior of people
AU2003247051A1 (en) * 2002-07-31 2004-02-23 Koninklijke Philips Electronics N.V. System and method for segmenting
JP4151341B2 (ja) 2002-08-02 2008-09-17 日産自動車株式会社 顔状態検出装置
AU2003282943A1 (en) 2002-10-11 2004-05-04 Digimarc Corporation Systems and methods for recognition of individuals using multiple biometric searches
AU2003235202A1 (en) 2002-10-31 2004-05-25 Korea Institute Of Science And Technology Image processing method for removing glasses from color facial images
US7257569B2 (en) 2002-10-31 2007-08-14 International Business Machines Corporation System and method for determining community overlap
US7764808B2 (en) 2003-03-24 2010-07-27 Siemens Corporation System and method for vehicle detection and tracking
US7395316B2 (en) 2003-07-16 2008-07-01 Sap Aktiengesellschaft Establishing dynamic communication group by searching implicit information that is obtained through inference
JP2005078376A (ja) * 2003-08-29 2005-03-24 Sony Corp 対象物検出装置、対象物方法、及びロボット装置
US7450735B1 (en) 2003-10-16 2008-11-11 University Of Central Florida Research Foundation, Inc. Tracking across multiple cameras with disjoint views
US8421872B2 (en) 2004-02-20 2013-04-16 Google Inc. Image base inquiry system for search engines for mobile telephones with integrated camera
US7697026B2 (en) 2004-03-16 2010-04-13 3Vr Security, Inc. Pipeline architecture for analyzing multiple video streams
JP4683200B2 (ja) 2004-04-30 2011-05-11 花王株式会社 髪領域の自動抽出方法
GB2418310B (en) 2004-09-18 2007-06-27 Hewlett Packard Development Co Visual sensing for large-scale tracking
FR2875629B1 (fr) 2004-09-23 2007-07-13 Video & Network Concept Sarl Systeme d'indexation de video de surveillance
US20060184553A1 (en) 2005-02-15 2006-08-17 Matsushita Electric Industrial Co., Ltd. Distributed MPEG-7 based surveillance servers for digital surveillance applications
FR2884008A1 (fr) 2005-03-31 2006-10-06 France Telecom Systeme et procede de localisation de points d'interet dans une image d'objet mettant en oeuvre un reseau de neurones
EP1901228B1 (en) * 2005-06-08 2011-05-18 Fujitsu Ltd. Apparatus, method and program for image matching
US7720257B2 (en) 2005-06-16 2010-05-18 Honeywell International Inc. Object tracking system
KR100724932B1 (ko) 2005-08-02 2007-06-04 삼성전자주식회사 얼굴 검출 장치 및 방법
US7787011B2 (en) 2005-09-07 2010-08-31 Fuji Xerox Co., Ltd. System and method for analyzing and monitoring 3-D video streams from multiple cameras
JP2009508450A (ja) 2005-09-13 2009-02-26 ヴェリフィコン コーポレーション 物体のトラッキングおよび活動分析のためのシステムおよび方法
US7599527B2 (en) 2005-09-28 2009-10-06 Facedouble, Inc. Digital image search system and method
JP2007148872A (ja) 2005-11-29 2007-06-14 Mitsubishi Electric Corp 画像認証装置
JP4658788B2 (ja) 2005-12-06 2011-03-23 株式会社日立国際電気 画像処理装置、画像処理方法およびプログラム
US7613360B2 (en) 2006-02-01 2009-11-03 Honeywell International Inc Multi-spectral fusion for video surveillance
US7822227B2 (en) * 2006-02-07 2010-10-26 International Business Machines Corporation Method and system for tracking images
US7864989B2 (en) 2006-03-31 2011-01-04 Fujifilm Corporation Method and apparatus for adaptive context-aided human classification
US20070254307A1 (en) * 2006-04-28 2007-11-01 Verseon Method for Estimation of Location of Active Sites of Biopolymers Based on Virtual Library Screening
WO2007140609A1 (en) * 2006-06-06 2007-12-13 Moreideas Inc. Method and system for image and video analysis, enhancement and display for communication
US10078693B2 (en) * 2006-06-16 2018-09-18 International Business Machines Corporation People searches by multisensor event correlation
US20070291118A1 (en) 2006-06-16 2007-12-20 Shu Chiao-Fe Intelligent surveillance system and method for integrated event based surveillance
US8131011B2 (en) 2006-09-25 2012-03-06 University Of Southern California Human detection and tracking system
US7881505B2 (en) 2006-09-29 2011-02-01 Pittsburgh Pattern Recognition, Inc. Video retrieval system for human face content
US8004394B2 (en) * 2006-11-07 2011-08-23 Rosco Inc. Camera system for large vehicles
CN101201822B (zh) * 2006-12-11 2010-06-23 南京理工大学 基于内容的视频镜头检索方法
US20080159352A1 (en) * 2006-12-27 2008-07-03 Dhananjay Adhikari Temperature calculation based on non-uniform leakage power
JP5358083B2 (ja) 2007-11-01 2013-12-04 株式会社日立製作所 人物画像検索装置及び画像検索装置
GB2459602B (en) 2007-02-21 2011-09-21 Pixel Velocity Inc Scalable system for wide area surveillance
US7995106B2 (en) 2007-03-05 2011-08-09 Fujifilm Corporation Imaging apparatus with human extraction and voice analysis and control method thereof
KR100795160B1 (ko) 2007-03-22 2008-01-16 주식회사 아트닉스 얼굴영역검출장치 및 검출방법
US20080252722A1 (en) 2007-04-11 2008-10-16 Yuan-Kai Wang System And Method Of Intelligent Surveillance And Analysis
WO2008134625A1 (en) 2007-04-26 2008-11-06 Ford Global Technologies, Llc Emotive advisory system and method
US7460149B1 (en) 2007-05-28 2008-12-02 Kd Secure, Llc Video data storage, search, and retrieval using meta-data and attribute data in a video surveillance system
US8432449B2 (en) 2007-08-13 2013-04-30 Fuji Xerox Co., Ltd. Hidden markov model for camera handoff
JP2011510521A (ja) 2007-09-12 2011-03-31 ディジセンサリー・テクノロジーズ・プロプライアタリー・リミテッド チップ上スマート・ネットワーク・カメラ・システム
US7986828B2 (en) 2007-10-10 2011-07-26 Honeywell International Inc. People detection in video and image data
JP5273998B2 (ja) * 2007-12-07 2013-08-28 キヤノン株式会社 撮像装置、その制御方法及びプログラム
WO2009117607A1 (en) 2008-03-19 2009-09-24 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for automatically classifying face images
JP4535164B2 (ja) * 2008-04-09 2010-09-01 ソニー株式会社 撮像装置、画像処理装置、これらにおける画像解析方法およびプログラム
JP2009271577A (ja) 2008-04-30 2009-11-19 Panasonic Corp 類似画像検索の結果表示装置及び類似画像検索の結果表示方法
TW200951884A (en) 2008-06-02 2009-12-16 Asia Optical Co Inc Monitoring systems and control methods thereof
TWI361093B (en) * 2008-08-05 2012-04-01 Ind Tech Res Inst Measuring object contour method and measuring object contour apparatus
FR2935498B1 (fr) 2008-08-27 2010-10-15 Eads Europ Aeronautic Defence Procede d'identification d'un objet dans une archive video.
US9342594B2 (en) 2008-10-29 2016-05-17 International Business Machines Corporation Indexing and searching according to attributes of a person
TW201020935A (en) * 2008-11-20 2010-06-01 Ind Tech Res Inst Recognition and constitution method and system for video-based two-dimensional objects
US20100150447A1 (en) 2008-12-12 2010-06-17 Honeywell International Inc. Description based video searching system and method
TWM381850U (en) 2010-01-29 2010-06-01 cai-zheng Xu Small anti-theft device for recording images of event
US8532390B2 (en) * 2010-07-28 2013-09-10 International Business Machines Corporation Semantic parsing of objects in video
US8254647B1 (en) 2012-04-16 2012-08-28 Google Inc. Facial image quality assessment

Also Published As

Publication number Publication date
JP2013533563A (ja) 2013-08-22
US20130177249A1 (en) 2013-07-11
US20140185937A1 (en) 2014-07-03
US20120027304A1 (en) 2012-02-02
DE112011101927B4 (de) 2016-03-17
US9002117B2 (en) 2015-04-07
US8532390B2 (en) 2013-09-10
US20150131910A1 (en) 2015-05-14
US20160132730A1 (en) 2016-05-12
GB201302234D0 (en) 2013-03-27
WO2012013711A2 (en) 2012-02-02
US9245186B2 (en) 2016-01-26
US9679201B2 (en) 2017-06-13
KR20130095727A (ko) 2013-08-28
GB2495881B (en) 2017-05-03
CN103703472A (zh) 2014-04-02
KR101507662B1 (ko) 2015-03-31
GB2495881A (en) 2013-04-24
US8588533B2 (en) 2013-11-19
WO2012013711A3 (en) 2013-02-21
DE112011101927T5 (de) 2013-09-05
US8774522B2 (en) 2014-07-08
TW201227535A (en) 2012-07-01
TWI505200B (zh) 2015-10-21
CN103703472B (zh) 2016-12-07
US20130308868A1 (en) 2013-11-21

Similar Documents

Publication Publication Date Title
JP5657113B2 (ja) 映像内のオブジェクトの意味解析
JP5545361B2 (ja) 画像分類方法、装置、プログラム製品および記憶媒体
JP2019109709A (ja) 画像処理装置、画像処理方法およびプログラム
MX2013002904A (es) Aparato de proceso de imagenes de personas y metodo para procesar imagenes de personas.
JP2014093023A (ja) 物体検出装置、物体検出方法及びプログラム
JP6071002B2 (ja) 信頼度取得装置、信頼度取得方法および信頼度取得プログラム
WO2020195732A1 (ja) 画像処理装置、画像処理方法、およびプログラムが格納された記録媒体
JP2014164656A (ja) 画像処理方法およびプログラム
JP6417664B2 (ja) 人物属性推定装置、人物属性推定方法及びプログラム
JP2007048172A (ja) 情報分類装置
CN115862113A (zh) 陌生人异常识别方法、装置、设备及存储介质
JP7409499B2 (ja) 画像処理装置、画像処理方法、及びプログラム
CN115661903B (zh) 一种基于空间映射协同目标过滤的识图方法及装置
JP2005250692A (ja) 物体の同定方法、移動体同定方法、物体同定プログラム、移動体同定プログラム、物体同定プログラム記録媒体、移動体同定プログラム記録媒体
Gurkan et al. Evaluation of human and machine face detection using a novel distinctive human appearance dataset
JP7468642B2 (ja) 画像処理装置、画像処理方法、及びプログラム
CN115457644B (zh) 一种基于扩展空间映射获得目标的识图方法及装置
JP7364077B2 (ja) 画像処理装置、画像処理方法、及びプログラム
Ji et al. Contribution estimation of participants for human interaction recognition
WO2023152974A1 (ja) 画像処理装置、画像処理方法、およびプログラム
KR20240019030A (ko) 시선 방향을 검출하는 딥러닝 기반의 시선 방향 검출 모델을 학습하는 학습 방법 및 학습 장치, 이를 이용한 테스트 방법 및 테스트 장치
KR101420020B1 (ko) 측면 얼굴 검출 방법 및 장치
Nambiar Towards automatic long term Person Re-identification System in video surveillance

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141125

R150 Certificate of patent or registration of utility model

Ref document number: 5657113

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250