JP2017062778A - 画像のオブジェクトを分類するための方法およびデバイスならびに対応するコンピュータプログラム製品およびコンピュータ可読媒体 - Google Patents

画像のオブジェクトを分類するための方法およびデバイスならびに対応するコンピュータプログラム製品およびコンピュータ可読媒体 Download PDF

Info

Publication number
JP2017062778A
JP2017062778A JP2016167041A JP2016167041A JP2017062778A JP 2017062778 A JP2017062778 A JP 2017062778A JP 2016167041 A JP2016167041 A JP 2016167041A JP 2016167041 A JP2016167041 A JP 2016167041A JP 2017062778 A JP2017062778 A JP 2017062778A
Authority
JP
Japan
Prior art keywords
descriptor
landmark
current image
classifier
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016167041A
Other languages
English (en)
Inventor
ブルゴス ハビエル
Burgos Xavier
ブルゴス ハビエル
カバジ ネザ
Kabbaj Nezha
カバジ ネザ
ル クレール フランソワ
Leclair Francois
ル クレール フランソワ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JP2017062778A publication Critical patent/JP2017062778A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】オブジェクト自動形状推定方法によって提供される結果を良好な結果または不良な結果に自動的に分類する方法を提供する。
【解決手段】少なくとも第1のランドマークに対して、少なくとも第1の選択されたランドマークを含む現在の画像のエリアを説明する少なくとも第1の記述子を取得することであって、少なくとも第1のランドマークは、その第1の識別子が第2のランドマークの第2の識別子に対応するとき選択され、第2のランドマークの第2の記述子は、オブジェクトを分類するための分類器において使用される、取得することと、少なくとも第1の記述子による、及び第2の記述子に関連付けられた重み付け情報による、形状の信頼度を表す情報を決定すること(113)とを含む。
【選択図】図1

Description

本開示は、コンピュータビジョンに関し、より詳細には、オブジェクト認識としても知られる、画像またはビデオシーケンス内の所与の意味カテゴリすなわちオブジェクトを見つけて識別するというコンピュータビジョン問題に関する。より詳細には、本開示は、画像内のオブジェクトの形状を適切に決定することに関する。
本開示の原理から、顔アニメーション、ヒューマンコンピュータインタラクション、ビデオ会議のための視線補正、顔レタッチ、法医学、または動物の検出およびその正確な体の姿勢の推定などのオブジェクト認識を実施する任意のフィールドの特定のアプリケーションが見い出される。
計算パワーが増加することの主な利益の1つは、コンピュータビジョンアプリケーションの数が着実に上昇することである。以前は任意の妥当な時間の量で解決することが不可能であったコンピュータビジョン問題は、ますます実現可能になりつつある。
画像またはビデオシーケンス内のオブジェクトを効率的に検出および分類することは、コンピュータビジョンの主な難題の1つである。検出は、問題「オブジェクト/カテゴリxは画像内にあるか?」に対する1ビットの答えが得られることからなる。
いくつかの機械学習法がこの問題に適用されており、オブジェクト検出精度および速度の著しい改善を示す。
さらに、ほとんどの場合、オブジェクトの存在/欠如を設定するだけでは十分ではなく、画像内のその正確な位置も知ることが望まれ、または、オブジェクトが構成される部分すら単独で検出および特定される。
P.Dollarら(「Cascaded Pose Regression」) IEEE Computer Vision and Pattern recognition 2010年1078−1085頁によって開示されるように、その最も単純な形態において、位置特定は、探索されたオブジェクトを含む画像の最も小さい方形領域を識別することからなるが、より一般的には、オブジェクトの「形状」を復元することが望まれる。
形状とは、関節式の(articulated)オブジェクト(およびそれが構成される部分)の幾何学的構成、たとえば、人体の肢の構成または乗り物のレイアウトを指す。より概括的には、形状とは、オブジェクトの外観の系統的でパラメータ化可能な変化の任意のセットである。
この目的のために、ランドマーク推定方法が開発された。そのような方法の中でも、上記で引用された、P.Dollarによって開示されたcascaded pose regression(CPR)技法は、形状推定(本明細書では、「形状」という用語は、顔の幾何学図形的配列を特徴づけるランドマーク位置のセットを指す)とも呼ばれる、顔ランドマーク検出のために使用される。
より正確には、cascaded pose regression(CPR)は、未加工(raw)の初期形状推測S0から始まって推定を徐々に改良し、最終形状推定STを出力する一連のT個のリグレッサーR1…Tによって形成される。形状Sは、一連のP個の部分位置Sp=[xp,yp]として表され、p∈1…Pである。一般に、これらの部分は顔ランドマークに対応する。各繰り返しでは、リグレッサーRtは更新δSを生じさせ、更新δSは、次いで、前の繰り返しの推定値St-1と組み合わされて、新しい形状を形成する。
学習中、各リグレッサーRtは、真の形状と前の繰り返しSt-1の形状推定値との差を最小にしようとするように訓練される。利用可能な特徴は、現在の形状推定値に、したがってあらゆる繰り返しにおけるアルゴリズムの変化に依存し、そのような特徴は、姿勢にインデックスが付与された(pose-indexed)または形状にインデックスが付与された(shape-indexed)特徴として知られており、CPR技法の鍵は、ロバストな形状にインデックスが付与された特徴を計算し、各繰り返しで推定誤差を徐々に減少させることが可能なリグレッサーを訓練することにある。
robust cascaded pose regression(RCPR)は、CPRから派生し、発明者X.P.Burgos−Artizzuら(「Robust face landmark estimation under occlusion」)、IEEE International Conference on Computer Vision、Sydney 2013年によって開示されるように隠蔽を扱うアルゴリズムである。この方法は、訓練セット内の隠蔽のために正解アノテーション(ground truth annotation)を必要とする。そのため、そのx座標およびy座標のみによって部分位置を定義する代わりに、可視性(visibility)パラメータが追加され、部分位置と同時に学習も可能である。
しかしながら、CPR技法は、またはRCPR技法ですら、特に非常に難しい顔を扱うとき、姿勢および隠蔽に関して、オブジェクトの形状を正しく推定するのに常に成功するとは限らない。
現在、そのようなオブジェクト形状推定失敗は、オペレータによって手動で検出される必要があり、それは、冗長で時間のかかるプロセスである。
したがって、自動形状推定方法によって提供される結果を良好な結果または不良な結果に自動的に分類することが、依然としてかなり必要とされている。
以下は、本開示のいくつかの態様の基本的な理解を提供するために、本開示の概要を示す。この概要は、本開示の網羅的な概要ではない。本開示の重要または不可欠な要素を識別することを意図するものではない。以下の概要は、以下で提供されるより詳細な説明の前置きとして、本開示のいくつかの態様を簡略化された形態で示すにすぎない。
本開示は、従来技術の欠点のうちの少なくとも1つを、現在の画像のオブジェクトを分類するための方法であって、前記オブジェクトの形状を表す複数の第1のランドマークは現在の画像に関連付けられ、第1の一意の識別子は各第1のランドマークに関連付けられる、方法を用いて直すことを目指す。
そのような方法は、
− 複数の第1のランドマークの中で選択された少なくとも第1のランドマークに対して、前記少なくとも第1の選択されたランドマークを含む現在の画像のエリアを説明する少なくとも第1の記述子を取得することであって、
〇 前記少なくとも第1のランドマークは、その第1の識別子により選択され、
〇 前記少なくとも第1のランドマークは、その第1の識別子が第2のランドマークの第2の識別子に対応するとき選択され、この第2のランドマークの第2の記述子は、前記オブジェクトを分類するための分類器において使用される、取得することと、
− 前記少なくとも第1の記述子による、および前記第2の記述子に関連付けられた重み付け情報による、前記形状の信頼度を表す情報を決定すること
を含む。
したがって、本開示は、現在の画像のオブジェクトを分類するための新規で進歩性のある方法に依拠する。実際に、本開示は、画像のオブジェクトの分類器の具体的な性質から利益を得、推定されたランドマークの良好性を評価する。
より正確には、前記現在の画像はテスト画像に対応する。前記テスト画像は、複数の第1のランドマークでアノテーションされる(「第1の」という用語は、以下では常にテスト画像に関連付けられ、「第2の」という用語は常に分類器に関連付けられる)。前記複数のランドマークの各ランドマークは識別子によって識別され、この識別子は、同じタイプのオブジェクトに対して永続的である。
言い換えれば、オブジェクトが人間または動物の顔に対応すると考慮すると、たとえば、そのような顔をアノテーションするために68のランドマークが使用され、左目の左隅にあるランドマークは常に番号7によって識別され、左目の中央にあるランドマークは常に番号8によって識別され、左目右隅にあるランドマークは常に番号9によって識別され、以下同様である。
本開示による方法は、後処理のために画像内にあるように要求する、乗り物、植物、または建物などの、人間または動物の顔以外の他のタイプのオブジェクトを分類するために使用可能であることに留意しなければならない。
したがって、テスト画像をアノテーションするために使用される第1のランドマークは、入力データセットから建物分類モデルへの系統的な方法に対応する分類器によって使用される第2のランドマークと同じ様式で番号が付与される。
その場合、分類器は、1つの第2のランドマークの識別子(前記識別子は、本開示では「第2の識別子」と呼ばれる)を提供することが可能であり、その記述子(前記記述子は、本開示では「第2の記述子」と呼ばれる)は、分類器が前に訓練されている画像のセットに関してオブジェクトを分類するために最も識別力がある(テスト画像は、訓練画像の前記セットに属さない)。
前記第2の記述子は、それに関連付けられた重み付け情報を有する分類器によって提供される。
前記第2の識別子は、次いで、同じ識別子を示すテスト画像をアノテーションするために使用される第1のランドマークを選択するために使用される。
分類器によって提供される第2の識別子と同じ識別子を示す前記第1のランドマークが取得されると、それに関連付けられた第1のランドマークの記述子(第1の記述子と呼ばれる)が、前記テスト画像をアノテーションために使用される第1のランドマークのセットに対応する前記形状推定の信頼度を表す情報を決定するために使用される。
そのような決定は、前記第1の記述子と、分類器によって提供される第2の記述子に関連付けられた重み付け情報の両方を、入力として必要とする。
言い換えれば、本開示により提案される方法は、分類器の前の学習を利用して、分類器によって学習される最も識別力がある第2の記述子に対応する、テスト画像の第1の記述子を直接的に選択する。
本開示によれば、分類器が本方法の実装形態とは無関係に訓練されることが可能であることに留意されなければならない。唯一の要件は、分類器が、そのような識別力のある第2の記述子の識別子およびそれに関連付けられた重み付け情報を提供することが可能であることである。
したがって、テスト画像に対して適用される自動形状推定方法によって提供される結果の全体的割合は迅速かつ効率的に取得され、これによって、テスト画像のリアルタイム格付けが可能になる。言い換えれば、テスト画像の形状アノテーションの「オンライン」評価が可能である。
本開示の特定の態様によると、信頼度を表す情報の前記決定は、前記少なくとも第1の記述子を、前記少なくとも第2の記述子に関連付けられた閾値と比較することを含む。
たとえば、前記第1の記述子の値が前記閾値よりも低い場合、前記テスト画像内で推定される形状の信頼度を表す情報は、前記重み付け情報の正の値に等しく、そうでない場合は、負の値に等しい。
したがって、信頼度を表す情報の負の値は、全体テスト画像に対して、自動形状推定方法によって提供される結果が不良な結果であることを直接的に示す。
本開示のさらなる態様によると、信頼度を表す前記情報は、信頼度の確率値を提供するように正規化される。
実際、確率の形をとる信頼度の値は、オペレータにとって、より理解しやすいことがある。そのような正規化は、前記少なくとも第1の記述子を前記少なくとも第2の記述子に関連付けられた閾値と比較した後で取得される負の値を、テスト画像がオブジェクトを含まないことまたはランドマークアノテーションが誤っていることを示す、ゼロに近い非常に低い確率に変換すること、および逆に、正の値を、0.5から1の間に含まれる確率に変換するに存在することができる。
本開示の実施形態によると、前記現在の画像に対して、前記複数の第1のランドマークの各ランドマークに関連付けられた第1の記述子が、それらの識別子に応じた順序に従って連結されて、第1のベクトルを形成し、前記分類器に対して、複数の第2のランドマークの各ランドマークに関連付けられた第2の記述子が、それらの識別子に応じた前記順序に従って連結されて、第2のベクトルを形成する。
そのような連結によって、1つのベクトルのみが処理されてからの時間に関してプロセスを最適化することが可能になる。さらに、そのような連結は、テスト画像全体の全体的形状を表す単一のベクトルを提供する。本開示は、テスト画像全体に対する信頼度を表す全体的情報を決定し、単一のランドマークの信頼度を表す情報を決定しないことを意図するので、テスト画像のそのような全体的表現は妥当である。
特定の態様によると、前記分類器は、複数の繰り返しを実施する繰り返し分類器であり、2回目の繰り返しから、各繰り返しは、前の繰り返しの結果を使用する。
その結果、分類器が繰り返しである場合、本開示による方法も繰り返しである。言い換えれば、少なくとも第1の記述子を取得するステップおよび次いで信頼度を表す情報の決定は両方とも繰り返されて、信頼度を表す前記情報を改良する。
より正確には、分類器は、第2の識別子と、前記第2の識別子によって識別される第2の記述子に関連付けられた重み付け情報(および任意選択で閾値)を提供し、これは、繰り返しごとに異なることができる。
言い換えれば、1回目の繰り返しにおいて、分類器は、第2の識別子、たとえば番号7(左目の左隅にあるランドマークに関連付けられた記述子に対応する)と、7という番号が付与された前記第2の識別子によって識別される第2の記述子に関連付けられた重み付け情報(および任意選択で閾値)を提供する。
同じく番号7によって識別される、テスト画像に関連付けられた第1の記述子が選択され、次いで、テスト画像の複数の第1のランドマークによってアノテーションされた全体的形状の信頼度を表す情報を決定するために使用される。
1回目の繰り返しで決定された信頼度を表すそのような情報は、次いで、少なくとも2回目の繰り返しで改良される。
2回目の繰り返しにおいて、分類器は、第2の識別子、たとえば番号15(鼻中心にあるランドマークに関連付けられた記述子に対応する)と、15という番号が付与された前記第2の識別子によって識別される第2の記述子に関連付けられた重み付け情報(および任意選択で閾値)を提供する。
同じく番号15によって識別される、テスト画像に関連付けられた第1の記述子が選択され、次いで、1回目の繰り返しで取得された信頼度を表す情報を改良するために使用され、以下同様である。
本開示の特定の特徴によると、前記分類器は、
− アダブーストアルゴリズムを実施する分類器、
− 2進決定木を実施する分類器、
− サポートベクトルマシン分類器、
− 最近傍分類器、
からなるグループに属する。
上記ですでに言及されたように、分類技法すなわち分類器は、入力データセットから分類モデルを構築する系統的な方法である。各々が学習アルゴリズムを用いて、入力データの属性セットとクラスラベルとの関係に最も良く適合し、それが以前に見られていない例であるテストデータのクラスラベルも正しく予測するモデルを識別するいくつかの技法がある。
R.Shapireら(「A brief introduction to Boosting」)、IEEE International Conference on Artificial Intelligence、1999年によって開示されたアダブーストアルゴリズムは、訓練例において異なる分布上で学習器を何度も呼び出すことによって非常に正確な予測ルールを形成するための弱学習器の使用に基づく。弱学習器すなわち弱分類器は、ランダム推測よりも良い一般化誤差を有する分類器である。弱学習アルゴリズムすなわち弱学習器は、50%よりも高い確率でデータを正しく分類する弱分類器を見つけることが可能であると仮定される。ブースティングは、弱学習器のセットを、各個の弱学習器よりもはるかに優れた分類性能を有する強学習器へと組み合わせる。
別の分類技法は、2進決定木である。2進決定木の主なタスクは、テストレコードの属性についての慎重に練られた一連の質問を尋ねることによって分類問題を解決することである。回答が受け取られるたび、レコードのラベルについての結論に到達するまで、関連質問が尋ねられる。質問およびそれらの可能な一連の回答は、決定木の形で編成可能であり、決定木は、ノードおよび指向エッジからなる階層構造である。木は、3つのタイプのノード、すなわち、入って来るエッジを持たず、0以上の出て行くエッジを持つルートノード、その各々が正確に1つの入って来るエッジと2つ以上の出て行くエッジとを有する内部ノード、およびその各々が正確に1つの入って来るエッジを持ち、出て行くエッジを持たない葉ノードまたは終端ノードを有する。各葉は、クラスラベルに割り当てられる。非終端ノードは、異なる特性を有するレコードを分離する属性テスト条件を含む。
別の分類技法は、V.Vapnikら(「Support vector method for function approximation, regression estimation, and signal processing」)、Advances in Neural Information Processing systems 9、1996年によって開示されたサポートベクトルマシン(SVM)分類器は、別個のカテゴリの例が可能な限り広い明らかなギャップによって分割されるようにマッピングされた空間内の点としてのデータの表現である。次いで、新しいデータが同じ空間へとマッピングされ、それらがギャップのどちらの側にあるかに基づくカテゴリに属すると予測される。
別の分類技法は、O.Boimanら(「In defense of Nearest−Neighbor based image classification」)、IEEE Conference on computer Vision and Pattern Recognition、2008年によって開示される最近傍分類であり、データベース内のその最近傍(最も類似した)画像のクラスによって画像を分類する。
本開示の特定の特徴によると、前記第1の記述子と前記第2の記述子は同じタイプであり、前記タイプは、
− 勾配方向ヒストグラム、
− 輪郭を表す情報、
− 輝度値、
− 強度値、
− テクスチャ値
を含むグループに属する。
N.Dalaiら(「Histograms of oriented gradients for human detection」)、IEEE Conference on computer Vision and Pattern Recognition、2005年によって開示された勾配方向ヒストグラムは、コンピュータビジョンにおいてオブジェクト検出のために使用される特徴記述子である。
勾配方向ヒストグラム記述子の背後にある主なアイデアは、オブジェクトの局所的な外見ならびに画像内の形状が、強度勾配またはエッジ方向の分布によって説明可能であるということである。したがって、画像は、セルと呼ばれる小さな領域に分割され、ユーザは、これらのセルのサイズ、ならびに2つの隣接するセル間の重複、およびの各ヒストグラムに対する方向ビンの数を選定することができ、次いで、勾配方向ヒストグラムは、各セル内のピクセルに対して編集される。特徴の最終ベクトルは、すべてのこれらのヒストグラムの連結である。照明および陰影の変化の問題を克服するために、ヒストグラム平坦化が、HOG特徴の抽出前に画像全体に対して実行可能である。
それとは異なり、前記タイプはまた、たとえばグレイレベルを表す強度値、またはRGB空間内の特定の色すなわちRGB空間の3色の各々に対する三つ組などとすることができる。
本開示の実施形態によると、前記方法は、前記分類器の前の訓練を含む。
実際、分類器は、本開示の実装形態とは無関係に、異なるデバイスによって訓練可能であり、次いで、訓練された分類器は、前記方法の入力として提供される。
それにもかかわらず、本方法は、使用される分類器の訓練も実施することができる。そのような訓練は、少なくとも第1の記述子を取得するステップおよび次いで信頼度を表す情報の決定の前に実行されなければならない。前記訓練は、有利には、テスト画像のリアルタイム処理を可能にするために「オフラインで」実行される。
前記実施形態の特定の特徴によると、前記分類器の前記訓練は、
− 前記分類器によって処理されるとき正の分類結果を提供する訓練画像の第1のセットと、
− 前記分類器によって処理されるとき負の分類結果を提供する訓練画像の第2のセットと
を含む訓練画像のデータセットを使用することによって実行され、
− その結果、分類器はまた、負の分類結果を提供するように訓練される。
より正確には、前記訓練画像の第2のセットは、オブジェクトが示されていない画像および/またはオブジェクトランドマークアノテーションが誤っている画像を含む。
このようにして、分類器は、これらの訓練画像のうちのいくらかが誤ったランドマークアノテーションを示す場合でも、訓練画像のランキングを提供することが可能である。したがって、そのような分類器によって提供される結果は、テスト画像の信頼度情報をより適切に決定しようとしている。
別の実施形態によると、前記方法は、前記現在の画像の前記オブジェクトの前のランドマークアノテーション付与をさらに含む。
実際、外部デバイスによってすでにアノテーションされたテスト画像は、本開示による前記テスト画像のオブジェクトを分類するための方法の入力として直接的に提供可能である。
それにもかかわらず、そのようなアノテーションはまた、少なくとも第1の記述子を取得するステップおよび次いで信頼度を表す情報の決定の前に実施可能である。
この別の実施形態の特定の態様によると、前記現在の画像の前記オブジェクトの前記ランドマークアノテーション付与は、
− cascaded pose regression、
− robust cascaded pose regression
を含むグループに属する方法のうちの1つを使用することによって実行される。
本開示の別の態様は、現在の画像のオブジェクトを分類するためのデバイスであって、前記オブジェクトの形状を表す複数の第1のランドマークは前記現在の画像に関連付けられ、第1の一意の識別子は各第1のランドマークに関連付けられ、前記デバイスは、
− 前記複数の第1のランドマークの中で選択された少なくとも第1のランドマークに対して、前記少なくとも第1の選択されたランドマークを含む前記現在の画像のエリアを説明する少なくとも第1の記述子を取得するためのモジュールであって、
〇 前記少なくとも第1のランドマークは、その第1の識別子により選択され、
〇 前記少なくとも第1のランドマークは、その第1の識別子が第2のランドマークの第2の識別子に対応するとき選択され、前記第2のランドマークの第2の記述子は、前記オブジェクトを分類するための分類器において使用される、モジュールと、
− 前記少なくとも第1の記述子による、および前記第2の記述子に関連付けられた重み付け情報による、前記形状の信頼度を表す情報を決定するためのモジュールと
を制御するように構成されたプロセッサーを備える、デバイスに関する。
そのようなデバイスは、特に現在の画像のオブジェクトを分類するための方法を実施するために適合される。
本開示はまた、上記で説明された現在の画像のオブジェクトを分類するための方法を実施するためのプログラムコード命令を含み、通信ネットワークからダウンロード可能であり、および/またはコンピュータによって読み取り可能な媒体上に記録され、および/またはプロセッサーによって実行可能なコンピュータプログラム製品に関する。
本開示はまた、上記で説明された現在の画像のオブジェクトを分類するための方法を実施するためのプログラムコード命令を含む、その上に記録され、プロセッサーによって実行されることが可能なコンピュータプログラム製品を含む非一時的なコンピュータ可読媒体に関する。
そのようなコンピュータプログラムは、コンピュータ可読記憶媒体上に記憶され得る。本明細書で使用されるコンピュータ可読記憶媒体は、その中に情報を記憶する固有の能力ならびにそれからの情報の検索を提供する固有の能力が与えられた非一時的な記憶媒体と考えられる。コンピュータ可読記憶媒体は、たとえば、限定するものではないが、電子的、磁気的、光学式、電磁的、赤外線、または半導体システム、装置、もしくはデバイス、または前述のものの任意の適切な組み合わせとすることができる。以下は、本原理が適用可能なコンピュータ可読記憶媒体のより具体的な例を提供しているが、説明に役立つにすぎず、当業者によって容易に諒解される網羅的なリストすなわち、ポータブルコンピュータディスケット、ハードディスク、読出し専用メモリ(ROM)、消去可能プログラマブル読出し専用メモリ(EPROMまたはフラッシュメモリ)、ポータブルコンパクトディスク読出し専用メモリ(CD−ROM)、光学式デバイス、磁気記憶デバイス、または前述のものの任意の適切な組み合わせではない。
上述の一般的な説明と以下の詳細な説明の両方は例示的で説明的であり、特許請求される本開示を制限するものではないことを理解されたい。
本明細書における「一実施形態」または「実施形態(an embodiment)」の言及は、説明される実施形態が特定の特徴、構造、または特性を含んでよいが、あらゆる実施形態は特定の特徴、構造、または特性を必ずしも含むとは限らないことがあることを示すことも理解されなければならない。
さらに、そのような句は、必ずしも同じ実施形態を参照するとは限らない。さらに、特定の特徴、構造、または特性が実施形態に関連して説明されるとき、明示的に説明されようが説明されなかろうが、他の実施形態に関連するそのような特徴、構造、または特性に影響を及ぼすことは、当業者の知識の範囲内であることが提起される。
本開示の具体的な性質ならびに本開示の他の目的、利点、特徴、および用途は、添付の図面と併せて取り上げる実施形態の以下の説明から明らかになろう。
本開示の実施形態は、例として与えられ、保護の範囲を制限するものではない、以下の説明および図面を参照してより良く理解可能である。
本開示による、現在の画像のオブジェクトを分類するための方法の主なステップの図を概略的に示す。 本開示により使用可能である分類器の一例を示す。 本開示による、現在の画像から取得可能である記述子のタイプの一例を示す。 画像をランドマークアノテーションするための方法の第1の例を示す。 画像をランドマークアノテーションするための方法の第1の例を示す。 画像をランドマークアノテーションするための方法の第2の例を示す。 本開示の実施形態によるデバイスのアーキテクチャの一例を示す。
類似または同じ要素は、同じ参照番号を用いて参照される。図中の構成要素は、必ずしも一定の縮尺ではなく、代わりに、本開示の原理を示す強調がなされる。
一般的な原理
本開示の一般的な原理は、全体的な現在の画像に対する信頼度を表す情報を決定することによって現在の画像のオブジェクトをリアルタイムで分類するための新しい様式に存在し、決定することは、訓練画像のデータセットを用いて前に訓練された分類器によって提供される訓練結果を考慮に入れ、訓練画像は、現在の画像を含まず、以下ではテスト画像と呼ばれる。
次に、現在の画像のオブジェクトを分類するための、方法、対応するデバイス、およびコンピュータ可読記憶媒体の説明が与えられる。
しかしながら、本開示は、多くの代替形態で実施されてよく、本明細書で説明される実施形態に制限されると解釈されるべきではない。したがって、本開示は、さまざまな修正形態および代替形態の余地があるが、その具体的な実施形態は、図面内で例として示され、本明細書で詳細に説明される。しかしながら、本開示を開示の特定の形態に制限する意図はなく、逆に、本開示は、特許請求の範囲によって定義される本開示の趣旨および範囲内に含まれるすべての修正形態、等価物、および代替物を包含するべきであることを理解されたい。
本明細書で使用される用語は、特定の実施形態を説明することのみを目的とし、本開示を制限することを意図するものではない。本明細書で使用されるとき、単数形「1つの(a)」、「1つの(an)」、および、「その(the)」は、文脈で別途明確に示唆しない限り、複数形も含むことを意図する。「〜を備える、含む(comprises)」、「〜を備える、含む(comprising)」、「〜を含む(includes)」、および/または「〜を含む(including)」という用語は、本明細書で使用されるとき、述べられた特徴、整数、ステップ、動作、要素、および/または構成要素の存在を指定するが、1または複数の他の特徴、整数、ステップ、動作、要素、構成要素、および/またはそのグループの存在または追加を排除するものではないことをさらに理解されたい。
さらに、要素が、別の要素に「応答する(responsive)」または「接続された(connected)」と参照されるとき、それは、他の要素に直接的に応答するまたは接続されることができ、または、介在要素が存在することもある。対照的に、要素が他の要素に「直接応答する」または「直接接続された」と表現されたとき、介在要素は存在しない。本明細書で使用されるときに、「および/または」という用語は、1または複数の関連記載項目のありとあらゆる組み合わせを含み、「/」と省略されてよい。
第1の、第2の、などの用語がさまざまな要素を説明するために本明細書で使用されるが、これらの要素はこれらの用語によって制限されるべきではないことが理解されるであろう。これらの用語は、1つの要素を他の要素と区別するためにのみ使用される。たとえば、本開示の教示から逸脱することなく、第1の要素は第2の要素と表現される場合があり、また同様に、第2の要素が第1の要素と表現される場合もある。
図のうちのいくつかは、通信の主要方向を示す通信経路上の矢印を含むが、通信は、示された矢印とは反対方向に行われることがあることを理解されたい。
いくつかの実施形態は、各ブロックが指定された論理機能を実施するための1または複数の実行可能命令を含む回路要素、モジュール、またはコードの一部分を表すブロック図および動作フローチャートに関連して説明される。他の実装形態では、ブロック内で述べられる機能は、述べられた順序とは異なるように行われてよいことにも留意されたい。たとえば、含まれる機能性に応じて、連続して示される2つのブロックは、実際は実質的に同時に実行されてもよいし、ブロックが逆の順序で実行される場合があってもよい。
本明細書における「一実施形態」または「実施形態」の言及は、その実施形態に関連して説明される特定の特徴、構造、または特性を本発明の少なくとも1つの実施形態に含むことができることを意味する。本明細書のさまざまな場所における「一実施形態では」または「実施形態によると」という句の出現は、必ずしもすべてが同じ実施形態を指すとは限らず、また別個の実施形態または代替実施形態が必ずしも他の実施形態と相互に排他的であるとは限らない。
特許請求の範囲に出現する参照番号は、単なる例示にすぎず、特許請求の範囲に対して制限する効果を持たないものとする。
明示的に説明されないが、本実施形態および変形態は、任意の組み合わせまたは副組み合わせで用いられてよい。
本開示は、現在の画像のオブジェクトを分類するために説明されるが、現在の画像内の複数のオブジェクトの分類、または一連の画像内で表されるオブジェクトに拡張されない。これは、この一連に属する各画像のオブジェクトが、以下で説明されるように順次分類されるからである。
画像のオブジェクトを分類するための方法
図1は、本開示により現在の画像のオブジェクトを分類するための方法(10)の主なステップの図を概略的に示し、この方法は、以下ではテスト画像(100)と呼ばれる現在の画像のオブジェクトを分類するためのデバイスによって実行される。
本開示によると、テスト画像(100)のオブジェクトを分類するための方法(10)は、有利には、オンラインで実行可能であり、テスト画像(100)に訓練された分類器(1000)によって提供される結果を適用することに存在する。
テスト画像は、オブジェクトの形状を表す複数の第1のランドマーク(111)でアノテーションされたランドマーク(1102)である。N個のランドマークを含む複数のランドマークの各ランドマークは、i∈[1;N]である識別子iによって識別され、この識別子は、同じタイプのオブジェクトに対して永続的である。
たとえば、オブジェクトが人間または動物の顔に対応すると考慮すると、たとえば、そのような顔をアノテーションするためにN=68のランドマークが使用され、左目の左隅にあるランドマークは常に番号7によって識別され、左目の中央にあるランドマークは常に番号8によって識別され、左目右隅にあるランドマークは常に番号9によって識別され、以下同様である。
任意選択で(点線で示される)、ランドマークアノテーション(1102)は、本開示により現在の画像のオブジェクトを分類するためのデバイスによる形状推定(110)のフェーズにおいて実行可能であり、または別個のデバイス、によって実行され、次いで本開示により現在の画像のオブジェクトを分類するためのデバイスに送信可能である。
そのような形状推定(110)は、P.Dollarら(「Cascaded Pose Regression」) IEEE Computer Vision and Pattern recognition 2010年 1078−1085頁によって開示されるcascaded pose regression技法(CPR)、またはCPRから派生し、発明者X.P.Burgos−Artizzuら(「Robust face landmark estimation under occlusion」)、IEEE International Conference on Computer Vision、Sydney 2013年によって開示された隠蔽を扱うrobust cascaded pose regression(RCPR)を使用することによって実行可能である。
図4Aおよび図4Bは、隠蔽を考慮せず、N=68のランドマークを推定するモデルを用いてテスト画像(100)のために取得されたそのような形状推定を示す。
わかるように、図4A上では、そのような形状推定(110)は、最初に境界ボックス(41)内の顔を検出するようにあらかじめ訓練された顔検出器を適用すること(1101)と、次いで、この境界ボックス(41)を使用しランドマーク(40)位置を取得するようにあらかじめ訓練されたCPRまたはRCPRを適用すること(1102)とを含む。
そのようなあらかじめ訓練された顔検出器は、P.Violaら(「Robust Real−time Face detection」) International Journal of computer Vision、第57巻第2号、137−154頁、2004年によって開示された技法などの従来技術の技法を使用して取得可能である。
図5は、隠蔽を考慮し、N=29のランドマークを推定するモデルを用いてテスト画像(100)のために取得されたそのような形状推定を示す。実際、ランドマーク(51)(十字によって表される)は、それらが髪によって重複される場合ですら左目眉のランドマークに対応するが、他のランドマーク(点によって表される)は、重複しない関心顔点に対応する。
複数の第1のランドマークですでにアノテーションされたテスト画像(100)が取得される(別のデバイスから受信されるまたは提案された方法の中で計算される)と、各ランドマークiに関連付けられ、i∈[1;N]である第1の記述子
が取得される(112)。
そのようなN個の第1の記述子は、
− 勾配方向ヒストグラム、
− 輪郭を表す情報、
− 輝度値、
− 強度値、
− テクスチャ値
を含むグループに属するタイプである。
たとえば、図1によって示される実施形態によると、各記述子は、N.Dalaiら(「Histograms of oriented gradients for human detection」)、IEEE Conference on computer Vision and Pattern Recognition、2005年によって開示される勾配方向ヒストグラムである。
一例として、図3は、サイズ16および9つの方向のビンを使用して顔を含む画像上で抽出可能なすべてのHOG記述子を表す。
次いで、図1によって示される実施形態の特定の態様によると、すべての第1の記述子
は、連結され(1010)て第1のベクトルを形成する。ベクトルは、テスト画像(100)の全体的な形状を表す。
連結された記述子のそのような取得されたベクトルの中で、各記述子は、第1の識別子iによって識別されるランドマークに関連付けられ、1つの第1の記述子
は、その第1の識別子iが、その第2の記述子
が訓練画像のデータセット1001内のオブジェクトを良好に分類する分類器(1000)において識別されている(1030)第2のランドマークの第2の識別子に対応するときに選択される。
テスト画像のために取得される(112)第1の記述子のタイプが、分類器(1000)によって使用される記述子と同じタイプであることに留意しなければならない。言い換えれば、第1の記述子
と第2の記述子
は、たとえば両方ともHOG記述子である。
次いで、テスト画像(100)の第1の記述子
および第2の記述子
に関連付けられた重み付け情報wiは、複数の第1のランドマーク(111)に対応する形状の信頼度を表す情報ICONFを決定する(113)ために使用される。
図1によって示される実施形態の特定の態様によると、決定すること(113)は、第1の記述子
を、第2の記述子
に関連付けられた閾値thiと比較すること(1131)を含む。
たとえば、信頼度を表す情報ICONFは、
ように値Hに対応する。
言い換えれば、信頼度を表す情報ICONFの負の値Hは、全体テスト画像に対して、自動形状推定方法によって提供される結果が不良な結果であることを直接的に示す。
そのようなテスト画像の後処理を行うために設計され、特に形状推定結果が良好であることをチェックすることを担当するオペレータの理解を改善するために、そのような値Hは、信頼度の確率値を提供するように正規化される1132。
たとえば、顔認識のアプリケーションを目指すとき、非常に低い信頼度(たとえば、0から0.3の間)は、処理された画像パッチが顔を表さない高い確率を有する、言い換えれば、顔検出器の可能性がある失敗を示す。したがって、信頼度インジケータは、標準的な顔検出器によって考慮されない形状キューに基づいて、顔検出性能を改善する助けとなることができる。
高い可能性の適切な顔検出を示すが、不良な品質ランドマーク位置特定を示す「中くらいの」信頼度(たとえば、0.3から0.7の間)の場合、顔ランドマーク推定を使用する適用モジュールは、有利には、顔ランドマーク推定結果に依拠しないフォールバックモードに切り換え可能である。
実際、分類に使用される特徴は、ランドマークの位置によってインデックスが付与されるので、この確率は、テスト画像パッチ内の顔の存在に対する指示(非常に低い値)だけでなく、ランドマーク推定の精度に対する指示(範囲[0.5…0.9]内の適度に高い値)も提供する。
は、
図1によって示される実施形態でわかるように、第1の記述子
を選択する(または抽出する)ために使用される識別子を提供するために使用される訓練された分類器は、繰り返し分類器である。
言い換えれば、そのような分類器は、その訓練中にT回の繰り返しを実施して、第2の記述子
を決定し、これは、分類精度を改良するために各繰り返しで最も識別力が高く、各繰り返しは、前の繰り返しの結果を考慮に入れる。
したがって、この態様を考慮すると、本開示によるテスト画像のオンライン処理中に、信頼度を表す情報ICONFも繰り返し改良される。
しかしながら、各テスト画像(100)の迅速な処理を目指すとき、1回きりの繰り返しを実施することが可能である。
たとえば、1回目の繰り返しt=1において、分類器(1000)は、第1の記述子
を選択するために識別子34を提供し(1030)、次いで、第1の記述子は、同じく分類器(1000)によって提供される(1030)閾値th34と比較され、この比較(1131)に応じて、情報ICONFの値V1は±w34である。
2回目の繰り返しt=2において、分類器(1000)は、第1の記述子
を選択するために識別子47を提供し(1030)、次いで、第1の記述子は、同じく分類器(1000)によって提供される(1030)閾値th47と比較され、この比較(1131)に応じて、情報ICONFの値V2は±w47であり、以下の繰り返しに対して同様である。
したがって、信頼度を表す情報ICONFの各繰り返し値Vtは、繰り返しtにおいて、
であるようなものである。
本開示により使用される分類器はすでに訓練されており、テスト画像(100)の信頼度を表す情報ICONFをリアルタイムで決定するための本開示による方法を実行するために識別子、閾値、および重み付けからなる三つ組をオンラインで提供することが可能であることに留意されなければならない。
任意選択で、図1に表されるように、本開示による方法は、分類器(1000)の前の訓練(1020)も含むことができる。訓練(1020)は、有利には、オフラインで一度のみ実行され、任意のテスト画像を後でテストするのに役立つ。
第1の例によると、そのような分類器は分類に2進決定木を使用し、その一例が図2に表されている。
別の例によると、そのような分類器は、R.Shapireら(「A brief introduction to Boosting」)、IEEE International Conference on Artificial Intelligence、1999年によって開示されたアダブーストアルゴリズムを実施し、繰り返し分類器である。
一般に、そのようなアルゴリズムの入力は、検出し、{−1,+1}の正解アノテーションyiでアノテーションされるオブジェクトの正の例および負の例xiのデータセットからなり、ここで、yi=+1は正の例であり、yi=−1は負の例である。データセット内の各(正または負の)サンプル(xi,yi)には、重み付けwiが割り当てられる。
アルゴリズムの各段階(すなわち、繰り返し)tにおいて、弱学習器h(x)を使用して誤分類された点に対する誤差の重み付け和を最小にするこの弱学習器が選択される。
そのような弱学習器はT個の弱学習器の中から選択され、数Tも繰り返しの数に対応する。
次に、訓練サンプルの重みが、誤分類されたサンプルがより高い重みを与えられ、適切に分類されたサンプルがより低い重みを与えられるように更新される。最終的な強学習器は、各段階tで計算された弱学習器の重み付け和として計算される。さらに、重み付けパラメータαtは、弱学習器htに対する分類誤差の関数として計算され、誤差が小さいほど、重み付けパラメータαtの値が大きくなる。
訓練1020中、強分類器H(x)の値は、事後クラス確率(posterior class probability)の推定値を導き出すために使用可能であり、言い換えれば、各x(すなわち、正の訓練サンプル)に対してy(すなわち、負の訓練サンプル)に関する分布が存在すると仮定して、分類器の出力と条件付き確率との関係を取得する。C.Rudin(「Boosting MIT15.097 Course Notes」)、MIT OpenCourseWare、2012年によって開示されるように、この確率は、
によって十分に近似されると示すことができる。
より正確には、特定の実施形態によると、分類器がアダブーストアルゴリズムを実施する本開示の場合、分類器のオフライン訓練(1020)は、
− 分類器によって処理されるとき正の分類結果を提供する訓練画像の第1のセット(1002)と、
− 分類器によって処理されるとき負の分類結果を提供する訓練画像の第2のセット(1003)であって、オブジェクトが存在しない画像および/またはオブジェクトランドマークアノテーションが誤っている画像を含む、訓練画像の第2のセット(1003)
を含む訓練画像のデータセット(1001)を使用することによって実行される。
たとえば、データセット(1001)は、顔画像と、非顔画像とを含む。このデータセットにおいて、顔画像は、顔の位置でアノテーションされ、境界長方形としてマークされ(図4Aで示されるもの(41)に類似しているが、この場合、そのような境界長方形は、データセットの訓練画像(1001)内でマークされる)、およびランドマークの正解位置としてマークされる(図4Bで示されるもの(40)に類似しているが、この場合、そのような境界長方形はデータセットの訓練画像(1001)内でマークされる)。
境界ボックスは、訓練画像の非顔第2のセット(1003)内でランダムに選択され、各そのような境界ボックス内で、ランドマーク位置のセットが生成される。たとえば、各境界ボックスに対するランドマーク位置のセットは、訓練データセット(1001)全体の負の訓練画像(1003)内の顔境界ボックス例に対するランドマーク位置のセットを平均するようにセット可能である。
より正確には、このオフライン訓練(1020)の前に、第2の記述子
(添字iは、iの番号が付与されたランドマークを表す)が計算され(1004)、次いで、正(1001)のサンプルと負の(10020)サンプルの両方を含むデータセット(1001)の各訓練画像に対して連結される(1010)。テスト画像に対して取得される(112)第1の記述子
のタイプは、分類器(1000)によって使用されるものと同じタイプであることに留意しなければならない。たとえば、第1の記述子
および第2の記述子
はHOG記述子である。
具体的には、HOG記述子は、ランドマークの各々の中央に置かれた長方形内で計算される。長方形の寸法は、ランドマークの位置から計算された所定値に正規化される。
次いで、アダブースト分類器は、BOG特徴に対してオフラインで訓練される(1020)。ランドマークは、顔の中の意味論的関心点(semantic point of interest)に結び付けられるので、ランドマークのまわりの長方形内の勾配の分布は、顔画像パッチ間でほぼ不変であり、非顔パッチのまわりの勾配の分布とは大きく異なるべきである。したがって、計算されたHOG特徴は、顔を非顔から十分に弁別するべきである、したがって、顔分類器にとって特徴の良好な選択肢である。
変形態によると、訓練画像とテストの両方に対して、N個の元のランドマークの中からM(M<N)個のランドマークを含む所定のサブセットが定義され、HOG特徴の計算はこのサブセットのみに制限される。
言い換えれば、訓練画像またはテスト画像に対して各68のランドマークそれぞれに対して第1の記述子
および第2の記述子
を計算する代わりに、計算が、34の第1の記述子
および第2の記述子
それぞれ(2つのうちの1つ)を計算するように減少される。そのような減少されたサブセットは、2つのうちの1つの記述子を計算する際に存在するルールなどの所定のルールにより、ランダムに取得可能であり、またはオペレータによって手動で定義可能である。
したがって、そのような減少されたサブセットは、第2の記述子
を計算するステップ(1004)および第1の記述子
を取得するステップ(112)の処理時間をそれぞれ減少させることが可能である。
画像のオブジェクトを分類するためのデバイスの構造
図1では、モジュールは、区別可能な物理ユニットと関係してもしなくてもよい機能ユニットである。たとえば、これらのモジュールまたはそれらのうちのいくつかは、一意の構成要素または回路内でまとめられてもよいし、ソフトウェアの機能性に寄与してもよい。反対に(a contrario)、いくつかのモジュールは、潜在的に別個の物理エンティティから構成されてよい。本開示に適合する装置は、たとえばそれぞれ<<特定用途向け集積回路>>、<<フィールドプログラマブルゲートアレイ>>、<<超大規模集積>>であるASICもしくはFPGAもしくはVLSIなど専用ハードウェアを使用する純粋なハードウェアを使用して、またはデバイスに埋め込まれたいくつかの集積された電子構成要素から、もしくはハードウェア構成要素とソフトウェア構成要素の混合物から実施される。
図6は、図1に関連して説明されたようにオブジェクトを分類するための方法を実施するように構成され得るデバイス600の例示的なアーキテクチャを表す。
デバイス600は、データおよびアドレスバス601によって一緒に結ばれた以下の要素、すなわち
− たとえばDSP(すなわちディジタル信号プロセッサー)である、マイクロプロセッサ602(またはCPU)と、
− ROM(すなわち読出し専用メモリ)603と、
− RAM(すなわちランダムアクセスメモリ)604と、
− アプリケーションからのデータの送信および/または受信のためのI/Oインタフェース605と、
− バッテリ606と
を備える。
変形態によると、バッテリ606はデバイスの外部にある。図6のこれらの要素の各々は当業者によってよく知られており、さらに開示されない。言及されたメモリの各々では、本明細書において使用される<<レジスタ>>という単語は、小容量(いくつかのビット)のエリアまたは非常に大きなエリアに対応することができる。ROM603は、少なくともプログラムとパラメータとを備える。本開示による方法のアルゴリズムは、ROM603に記憶される。電源が投入されると、CPU602は、RAMにプログラムをアップロードし、対応する命令を実行する。
RAM604は、CPU602によって実行されデバイス600の電源投入後にアップロードされるプログラムをレジスタ内に備え、入力データをレジスタ内に備え、方法の異なる状態における中間データをレジスタ内に備え、方法の実行に使用される他の変数をレジスタ内に備える。
本明細書で説明される実装形態は、たとえば、方法もしくはプロセス、装置、ソフトウェアプログラム、データストリーム、または信号において実施され得る。実装形態の単数形の文脈のみで説明される(たとえば、方法またはデバイスとしてのみ説明される)場合でも、説明される特徴の実装形態は、他の形態(たとえばプログラム)でも実施され得る。装置は、たとえば、適切なハードウェア、ソフトウェア、およびファームウェアにおいて実施され得る。たとえば、方法は、一般にたとえば、コンピュータ、マイクロプロセッサ、集積回路、またはプログラマブル論理デバイスを含む処理デバイスを指すたとえばプロセッサーなどの装置において実施され得る。プロセッサーは、たとえば、コンピュータ、セル電話、ポータブル/携帯情報端末(「PDA」)、およびエンドユーザ間での情報の通信を容易にする他のデバイスなどの通信デバイスも含む。
特定の実施形態によると、現在の画像はソースから取得される。たとえば、このソースは、
− ローカルメモリ(603または604)、たとえば、ビデオメモリまたはRAM(すなわちランダムアクセスメモリ)、フラッシュメモリ、ROM(すなわち読出し専用メモリ)、ハードディスクと、
− 記憶装置インタフェース、たとえば、大容量記憶装置、RAM、フラッシュメモリ、ROM、光ディスク、または磁気式補助装置(magnetic support)とのインタフェースと、
− 通信インタフェース(605)、たとえばワイヤラインインタフェース(たとえば、バスインタフェース、ワイドエリアネットワークインタフェース、ローカルエリアネットワークインタフェース)またはワイヤレスインタフェース(IEEE802.11インタフェースまたはBluetooth(登録商標)インタフェースなどの)と、
− ピクチャ取り込み回路(たとえば、CCD(すなわち電荷結合デバイス)またはCMOS(すなわち相補型金属酸化膜半導体)などのたとえばセンサ)と
を含むセットに属する。
異なる実施形態によると、デバイスによって配信されるビットストリームは、宛先に送られる。一例として、このビットストリームは、ローカルメモリまたはリモートメモリ、たとえばビデオメモリ(604)またはRAM(604)、ハードディスク(603)に記憶される。変形態では、ビットストリームは、記憶装置インタフェース、たとえば、大容量記憶装置、フラッシュメモリ、ROM、光ディスク、または磁気式補助装置とのインタフェースに送られ、および/または通信インタフェース(605)、たとえばポイントツーポイントリンク、通信バス、ポイントツーマルチポイントリンク、またはブロードキャストネットワークへのインタフェースを介して送信される。
本明細書で説明されるさまざまなプロセスおよび特徴の実装形態は、さまざまな異なる機器またはアプリケーションにおいて実施され得る。そのような機器の例としては、デバイス、デコーダから出力を処理するポストプロセッサー、符号化器に入力を提供するプリプロセッサー、ビデオコーダ、ビデオデコーダ、ビデオコーデック、ウェブサーバー、セットトップボックス、ラップトップ、パーソナルコンピュータ、セル電話、PDA、およびピクチャまたはビデオまたは他の通信デバイスを処理するための他の任意のデバイスがある。明らかであるべきであるように、機器はモバイルであってよく、移動車両にインストールされてすらよい。
さらに、方法は、プロセッサーによって実行される命令によって実施されてよく、そのような命令(および/または実装形態によって生じさせられるデータ値)は、コンピュータ可読記憶媒体上に記憶されてよい。コンピュータ可読記憶媒体は、1または複数のコンピュータ可読媒体内で実施され、その上で実施され、コンピュータによって実行可能なコンピュータ可読プログラムコードを有するコンピュータ可読プログラム製品の形をとることができる。本明細書で使用されるコンピュータ可読記憶媒体は、その中に情報を記憶する固有の能力ならびにそれからの情報の検索を提供する固有の能力が与えられた非一時的な記憶媒体と考えられる。コンピュータ可読記憶媒体は、たとえば、限定するものではないが、電子的、磁気的、光学式、電磁的、赤外線、または半導体システム、装置、もしくはデバイス、または前述のものの任意の適切な組み合わせとすることができる。以下は、本原理が適用可能なコンピュータ可読記憶媒体のより具体的な例を提供しているが、説明に役立つにすぎず、当業者によって容易に諒解される網羅的なリストではない。ポータブルコンピュータディスケット、ハードディスク、読出し専用メモリ(ROM)、消去可能プログラマブル読出し専用メモリ(EPROMまたはフラッシュメモリ)、ポータブルコンパクトディスク読出し専用メモリ(CD−ROM)、光学式デバイス、磁気記憶デバイス、または前述のものの任意の適切な組み合わせではない。
命令は、プロセッサー可読媒体上で有形に実施されるアプリケーションプログラムを形成し得る。
命令は、たとえば、ハードウェア、ファームウェア、常駐ソフトウェア、マイクロコードなどの中にあってもよいし、すべて一般に本明細書では「回路」、「モジュール」、または「システム」と呼ぶことがあるソフトウェア態様とハードウェア態様を組み合わせた実施形態であってもよい。
本原理が1またはいくつかのハードウェア構成要素によって実施されるとき、ハードウェア構成要素は、中央処装置、および/またはマイクロプロセッサ、および/または特定用途向け集積回路(ASIC)、および/または特定用途向け命令セットプロセッサー(ASIP)、および/またはグラフィックス処理ユニット(GPU)、および/または物理処理ユニット(PPU)、および/またはディジタル信号プロセッサー(DSP)、および/または画像処理回路、および/またはコプロセッサー、および/または浮動小数点ユニット、および/またはネットワークプロセッサー、および/またはオーディオプロセッサー、および/またはマルチコアプロセッサーなどの集積回路であるプロセッサーを含むことに留意されたい。さらに、ハードウェア構成要素は、ベースバンドプロセッサー(たとえばメモリユニットおよびファームウェアを含む)および/または無線信号を受信または送信する無線電子回路(アンテナを備えることができる)も含むことができる。一実施形態では、ハードウェア成要素は、ISO/IEC18092/ECMA−340、ISO/IEC21481/ECMA−352、GSMA、StoLPaN、ETSI/SCP(スマートカードプラットフォーム)、GlobalPlatform(すなわち、セキュアな要素)などの1または複数の規格に準拠する。変形態では、ハードウェア構成要素は、無線周波数識別(RFID)タグである。一実施形態では、ハードウェア構成要素は、Bluetooth通信、および/またはWi−fi通信、および/またはZigbee通信、および/またはUSB通信、および/またはFirewire通信、および/またはNFC(近距離)通信をイネーブルにする回路を含む。
そのうえ、本原理の態様は、コンピュータ可読記憶媒体の形をとることができる。1または複数のコンピュータ可読記憶媒体の任意の組み合わせが利用されてよい。
したがって、たとえば、本明細書で提示されるブロック図は、本開示の原理を実施する例示的なシステム構成要素および/または回路の概念図を表すことが当業者には理解されるであろう。同様に、あらゆるフローチャート、流れ図、状態遷移図、擬似コードなどは、コンピュータ可読記憶媒体で実質的に表され、その結果、コンピュータまたはプロセッサーが明示的に示されているかどうかにかかわらず、そのようなコンピュータまたはプロセッサーによって実行され得るさまざまなプロセスを表すことが理解されるであろう。
当業者には明らかなように、実装形態は、たとえば記憶または送信され得る情報を搬送するようにフォーマットされたさまざまな信号を生じ得る。この情報は、たとえば、方法を実行する命令、または説明した実装形態のうちの1つによって生じさせられたデータを含んでよい。たとえば、信号は、説明した実施形態のシンタックスを書き込むまたは読み取るためのルールをデータとして搬送するようにフォーマットされてもよいし、説明した実施形態によって書き込まれた実際のシンタックス値をデータとして搬送するようにフォーマットされてもよい。そのような信号は、たとえば、電磁波(たとえば、スペクトルの無線周波数部分を使用する)としてフォーマットされてもよいし、ベースバンド信号としてフォーマットされてもよい。フォーマットとしては、たとえば、データストリームを符号化すること、および符号化されたデータストリームを用いて搬送波を変調することがある。信号が搬送する情報は、たとえば、アナログ情報またはディジタル情報であってよい。信号は、知られているように、さまざまな異なるワイヤードまたはワイヤレスリンクを介して送信され得る。信号は、プロセッサー可読媒体上に記憶されてよい。
いくつかの実装形態について説明してきた。それにもかかわらず、さまざまな修正が加えられ得ることが理解されよう。たとえば、異なる実装形態の要素は、他の実装形態を生じさせるために組み合わされてもよいし、補われてもよいし、修正されてもよいし、除去されてもよい。さらに、他の構造およびプロセスがそれらの開示されたものの代わりに使われてよく、結果として得られる実装形態は、開示された実装形態と少なくとも実質的に同じ機能を少なくとも実質的に同じ様式で実行して、少なくとも実質的に同じ結果を達成することは当業者には理解されよう。したがって、これらおよび他の実装形態は、本出願によって企図される。

Claims (15)

  1. 現在の画像(100)のオブジェクトを分類するための方法(10)であって、前記オブジェクトの形状を表す複数の第1のランドマーク(111)は前記現在の画像(100)に関連付けられ、第1の一意の識別子は各第1のランドマークに関連付けられ、前記方法は、
    − 前記複数の第1のランドマーク(111)の中で選択された少なくとも第1のランドマークについて、前記少なくとも第1の選択されたランドマークを含む前記現在の画像のエリアを説明する少なくとも第1の記述子を取得するステップ(112)であって、
    − 前記少なくとも第1のランドマークは、その第1の識別子により選択され、
    − 前記少なくとも第1のランドマークは、その第1の識別子が第2のランドマークの第2の識別子に対応するときに選択され、前記第2のランドマークの第2の記述子は、前記オブジェクトを分類するための分類器において使用される、取得するステップ(112)と、
    − 前記少なくとも第1の記述子による、および前記第2の記述子に関連付けられた重み付け情報による、前記形状の信頼度を表す情報を決定するステップ(113)と
    を含む、前記方法。
  2. 前記信頼度を表す情報を決定するステップは、前記少なくとも第1の記述子を、前記少なくとも第2の記述子に関連付けられた閾値と比較するステップ(1131)を含む、請求項1に記載の現在の画像のオブジェクトを分類するための方法。
  3. 前記信頼度を表す情報が、信頼度の確率値を提供するように正規化される(1132)、請求項1または2に記載の現在の画像のオブジェクトを分類するための方法。
  4. 前記分類器が、複数の繰り返しを実施する繰り返し分類器(1040)であり、2回目の繰り返しから、各繰り返しが前の繰り返しの結果を使用する、請求項1〜3のいずれか一項に記載の現在の画像のオブジェクトを分類するための方法。
  5. 前記第1の記述子と前記第2の記述子が同じタイプであり、前記タイプは、
    − 勾配方向ヒストグラム、
    − 輪郭を表す情報、
    − 輝度値、
    − 強度値、
    − テクスチャ値
    からなるグループに属する、請求項1〜4のいずれか一項に記載の現在の画像のオブジェクトを分類するための方法。
  6. 前記方法が前記分類器の前の訓練(1020)を備える、請求項1〜5のいずれか一項に記載の現在の画像のオブジェクトを分類するための方法。
  7. 前記方法が、前記現在の画像の前記オブジェクトの前のランドマークアノテーション(1102)を備える、請求項1〜6のいずれか一項に記載の現在の画像のオブジェクトを分類するための方法。
  8. 現在の画像のオブジェクトを分類するためのデバイスであって、前記オブジェクトの形状を表す複数の第1のランドマークは前記現在の画像に関連付けられ、第1の一意の識別子は各第1のランドマークに関連付けられ、前記デバイスは、
    − 前記複数の第1のランドマークの中で選択された少なくとも第1のランドマークについて、前記少なくとも第1の選択されたランドマークを含む前記現在の画像のエリアを説明する少なくとも第1の記述子を取得するためのモジュールであって、
    ・ 前記少なくとも第1のランドマークは、その第1の識別子により選択され、
    ・ 前記少なくとも第1のランドマークは、その第1の識別子が第2のランドマークの第2の識別子に対応するとき選択され、前記第2のランドマークの第2の記述子は、前記オブジェクトを分類するための分類器において使用される、モジュールと、
    − 前記少なくとも第1の記述子による、および前記第2の記述子に関連付けられた重み付け情報による、前記形状の信頼度を表す情報を決定するためのモジュールと
    を制御するように構成されたプロセッサーを備える、前記デバイス。
  9. 前記信頼度を表す情報を決定することは、前記少なくとも第1の記述子を、前記少なくとも第2の記述子に関連付けられた閾値と比較すること(1131)を含む、請求項8に記載の現在の画像のオブジェクトを分類するためのデバイス。
  10. 前記信頼度を表す情報が、信頼度の確率値を提供するように正規化される(1132)、請求項8または9に記載の現在の画像のオブジェクトを分類するためのデバイス。
  11. 前記分類器が、複数の繰り返しを実施する繰り返し(1040)分類器であり、2回目の繰り返しから、各繰り返しが前の繰り返しの結果を使用する、請求項8〜10のいずれか一項に記載の現在の画像のオブジェクトを分類するためのデバイス。
  12. 前記第1の記述子と前記第2の記述子が同じタイプであり、前記タイプは、
    − 勾配方向ヒストグラム、
    − 輪郭を表す情報、
    − 輝度値、
    − 強度値、
    − テクスチャ値
    からなるグループに属する、請求項8〜11のいずれか一項に記載の現在の画像のオブジェクトを分類するためのデバイス。
  13. 前記プロセッサーが、前記分類器の前の訓練(1020)を処理するようにさらに構成される、請求項8〜12のいずれか一項に記載の現在の画像のオブジェクトを分類するための方法。
  14. 前記プロセッサーが、前記現在の画像の前記オブジェクトの前のランドマークアノテーション(1102)を処理するようにさらに構成される、請求項8〜13のいずれか一項に記載の現在の画像のオブジェクトを分類するためのデバイス。
  15. その上に記録され、プロセッサーによって実行されることが可能であり、それがプロセッサーによって実行されるとき請求項1〜12のいずれか一項に記載の少なくとも1つの適合誤差を検出するための前記方法の前記ステップを実施するためのプログラムコード命令を含むコンピュータプログラム製品を備える非一時的なコンピュータ可読媒体。
JP2016167041A 2015-08-28 2016-08-29 画像のオブジェクトを分類するための方法およびデバイスならびに対応するコンピュータプログラム製品およびコンピュータ可読媒体 Pending JP2017062778A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP15306329.2A EP3136289A1 (en) 2015-08-28 2015-08-28 Method and device for classifying an object of an image and corresponding computer program product and computer-readable medium
EP15306329.2 2015-08-28

Publications (1)

Publication Number Publication Date
JP2017062778A true JP2017062778A (ja) 2017-03-30

Family

ID=54782632

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016167041A Pending JP2017062778A (ja) 2015-08-28 2016-08-29 画像のオブジェクトを分類するための方法およびデバイスならびに対応するコンピュータプログラム製品およびコンピュータ可読媒体

Country Status (5)

Country Link
US (1) US10169683B2 (ja)
EP (2) EP3136289A1 (ja)
JP (1) JP2017062778A (ja)
KR (1) KR20170026222A (ja)
CN (1) CN106485260A (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10198626B2 (en) 2016-10-19 2019-02-05 Snap Inc. Neural networks for facial modeling
EP3422255B1 (en) * 2017-06-30 2023-03-15 Axis AB Method and system for training a neural network to classify objects or events
CN109190478A (zh) * 2018-08-03 2019-01-11 北京猎户星空科技有限公司 焦点跟随过程中目标对象的切换方法、装置及电子设备
CN109376781B (zh) * 2018-10-24 2022-05-06 深圳市腾讯网络信息技术有限公司 一种图像识别模型的训练方法、图像识别方法和相关装置
US11361505B2 (en) * 2019-06-06 2022-06-14 Qualcomm Technologies, Inc. Model retrieval for objects in images using field descriptors
KR20200142374A (ko) 2019-06-12 2020-12-22 삼성전자주식회사 입력 데이터에 근거한 ai 모델 선택 방법 및 그에 따른 방법을 수행하는 디스플레이 장치
CN111104988B (zh) * 2019-12-28 2023-09-29 Oppo广东移动通信有限公司 图像识别方法及相关装置
EP3893144A1 (en) * 2020-04-06 2021-10-13 Deutsche Post AG Unique object face id
CN112269907B (zh) * 2020-11-02 2021-09-03 山东万里红信息技术有限公司 一种物联网健康大数据的处理方法
CN113288452B (zh) * 2021-04-23 2022-10-04 北京大学 手术质量检测方法及装置
US11423680B1 (en) * 2021-11-10 2022-08-23 Sas Institute Inc. Leveraging text profiles to select and configure models for use with textual datasets
US11967137B2 (en) * 2021-12-02 2024-04-23 International Business Machines Corporation Object detection considering tendency of object location

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100104158A1 (en) * 2006-12-21 2010-04-29 Eli Shechtman Method and apparatus for matching local self-similarities
JP5202037B2 (ja) * 2008-02-29 2013-06-05 キヤノン株式会社 特徴点位置決定方法及び装置
KR101365789B1 (ko) * 2010-05-26 2014-02-20 닛본 덴끼 가부시끼가이샤 얼굴 특징점 위치 보정 장치, 얼굴 특징점 위치 보정 방법, 및 얼굴 특징점 위치 보정 프로그램을 기록한 컴퓨터 판독가능 기록 매체
KR101405410B1 (ko) * 2010-10-20 2014-06-24 고려대학교 산학협력단 객체 검출 장치 및 시스템
JP5929896B2 (ja) * 2011-03-17 2016-06-08 日本電気株式会社 画像認識システム、画像認識方法および画像認識用プログラム
US20130085893A1 (en) * 2011-09-30 2013-04-04 Ebay Inc. Acquisition and use of query images with image feature data
CN103348381B (zh) * 2012-02-09 2017-10-24 松下电器(美国)知识产权公司 图像识别装置、图像识别方法及集成电路
WO2013184070A1 (en) * 2012-06-05 2013-12-12 Agency For Science, Technology And Research A drusen lesion image detection system
US8774519B2 (en) * 2012-08-07 2014-07-08 Apple Inc. Landmark detection in digital images
US9152847B2 (en) * 2012-11-27 2015-10-06 Adobe Systems Incorporated Facial landmark localization by exemplar-based graph matching
US8948517B2 (en) 2013-03-01 2015-02-03 Adobe Systems Incorporated Landmark localization via visual search
US9208567B2 (en) 2013-06-04 2015-12-08 Apple Inc. Object landmark detection in images
US9129152B2 (en) 2013-11-14 2015-09-08 Adobe Systems Incorporated Exemplar-based feature weighting
US20150138078A1 (en) * 2013-11-18 2015-05-21 Eyal Krupka Hand pose recognition using boosted look up tables
US9361510B2 (en) 2013-12-13 2016-06-07 Intel Corporation Efficient facial landmark tracking using online shape regression method
JP2017524196A (ja) * 2014-08-04 2017-08-24 ヴェンタナ メディカル システムズ, インク. コンテキストフィーチャを用いた画像解析システム
KR20160103398A (ko) * 2015-02-24 2016-09-01 삼성전자주식회사 이미지의 품질 측정 방법 및 장치
US9922271B2 (en) * 2015-03-20 2018-03-20 Netra, Inc. Object detection and classification
CN105095881B (zh) * 2015-08-21 2023-04-07 小米科技有限责任公司 人脸识别方法、装置及终端
US10373019B2 (en) * 2016-01-13 2019-08-06 Ford Global Technologies, Llc Low- and high-fidelity classifiers applied to road-scene images
US10163036B2 (en) * 2016-04-14 2018-12-25 Disney Enterprises, Inc. System and method of analyzing images using a hierarchical set of models
US10007866B2 (en) * 2016-04-28 2018-06-26 Microsoft Technology Licensing, Llc Neural network image classifier

Also Published As

Publication number Publication date
EP3136289A1 (en) 2017-03-01
US20170061252A1 (en) 2017-03-02
CN106485260A (zh) 2017-03-08
US10169683B2 (en) 2019-01-01
EP3136292A1 (en) 2017-03-01
KR20170026222A (ko) 2017-03-08

Similar Documents

Publication Publication Date Title
JP2017062778A (ja) 画像のオブジェクトを分類するための方法およびデバイスならびに対応するコンピュータプログラム製品およびコンピュータ可読媒体
WO2019100724A1 (zh) 训练多标签分类模型的方法和装置
JP6330385B2 (ja) 画像処理装置、画像処理方法およびプログラム
US10055673B2 (en) Method and device for processing an image of pixels, corresponding computer program product and computer-readable medium
US9633044B2 (en) Apparatus and method for recognizing image, and method for generating morphable face images from original image
CN108230291B (zh) 物体识别系统训练方法、物体识别方法、装置和电子设备
US10032093B2 (en) Method and device for determining the shape of an object represented in an image, corresponding computer program product and computer-readable medium
Bedagkar-Gala et al. Multiple person re-identification using part based spatio-temporal color appearance model
WO2023010758A1 (zh) 一种动作检测方法、装置、终端设备和存储介质
Xia et al. Loop closure detection for visual SLAM using PCANet features
CN110348331B (zh) 人脸识别方法及电子设备
CN110909618B (zh) 一种宠物身份的识别方法及装置
CN111414946B (zh) 基于人工智能的医疗影像的噪声数据识别方法和相关装置
Wang et al. Learning deep conditional neural network for image segmentation
US11138464B2 (en) Image processing device, image processing method, and image processing program
WO2023124278A1 (zh) 图像处理模型的训练方法、图像分类方法及装置
CN112836625A (zh) 人脸活体检测方法、装置、电子设备
KR20210051473A (ko) 동영상 콘텐츠 식별 장치 및 방법
US20240087352A1 (en) System for identifying companion animal and method therefor
JP2011181016A (ja) 判別器生成装置および方法並びにプログラム
WO2023124869A1 (zh) 用于活体检测的方法、装置、设备及存储介质
Ren et al. Face and facial expressions recognition and analysis
Han et al. Hyperbolic Face Anti-Spoofing
US20240196086A1 (en) Method and apparatus for detecting best shot in long-range face recognition system
Wang et al. Mtfcn: multi-task fully convolutional network for cow face detection

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20161202

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20161202