JP5591178B2 - テスト画像内のオブジェクトを分類するための方法 - Google Patents

テスト画像内のオブジェクトを分類するための方法 Download PDF

Info

Publication number
JP5591178B2
JP5591178B2 JP2011108543A JP2011108543A JP5591178B2 JP 5591178 B2 JP5591178 B2 JP 5591178B2 JP 2011108543 A JP2011108543 A JP 2011108543A JP 2011108543 A JP2011108543 A JP 2011108543A JP 5591178 B2 JP5591178 B2 JP 5591178B2
Authority
JP
Japan
Prior art keywords
feature
proposition
image
classifier
boolean
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011108543A
Other languages
English (en)
Other versions
JP2011248879A5 (ja
JP2011248879A (ja
Inventor
ファティー・エム・ポリクリ
ヴィジェイ・ヴェンカタラマン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2011248879A publication Critical patent/JP2011248879A/ja
Publication of JP2011248879A5 publication Critical patent/JP2011248879A5/ja
Application granted granted Critical
Publication of JP5591178B2 publication Critical patent/JP5591178B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Description

本発明は、包括的にはコンピュータービジョンに関し、より詳細には画像内のオブジェクトを検出することに関する。
オブジェクト検出は、依然としてコンピュータービジョンにおける最も基本的でかつやりがいのある困難なタスクの1つである。オブジェクト検出は、全ての可能な無制限のオブジェクトでない背景から、大量のオブジェクトの外観を正確にモデル化及び区別することができる顕著領域記述子及び適格な二値識別器を必要とする。可変の外観及び統合された構造が、外部照明及び姿勢変動と組み合わされると、検出問題の複雑度が増す。
通常のオブジェクト検出方法は、最初に特徴を抽出する。これらの方法では、検出プロセスに関する最も情報を与えるオブジェクト記述子が視覚コンテンツから取得され、次にこれらの特徴を分類フレームワークにおいて評価し、関心オブジェクトを検出する。
コンピュータービジョンにおける進歩の結果、特徴記述子が過多になった。簡単に言えば、特徴抽出は、スパース表現として、関心点の周りに、オブジェクト部分に関する価値のある情報をカプセル化すると共に変化の下で安定したままであるローカル領域のセットを生成することができる。
代替的に、検出ウィンドウの内側で全体論的な密表現を特徴として求めることができる。次に、入力画像全体を、場合によっては各ピクセルにおいて走査し、オブジェクトモデルの習得された識別器が評価される。
いくつかの方法は、記述子自体として、輝度テンプレート、及び主成分分析(PCA(principal component analysis))係数を用いる。PCAは、画像を圧縮部分空間上に投影する。PCAは、視覚的にコヒーレントな表現を提供する一方、撮像条件における変動によって容易に影響を受ける傾向にある。モデルをより変化に適応させるため、局所受容野(LRF(local receptive field))特徴が、多層パーセプトロン(multi-layer perceptrons)を用いて抽出される。同様に、2つの領域間の輝度差を符号化する既定関数のセットであるハールウェーブレットベース(Haar wavelet-based)の記述子は、効率的な計算、及び視覚パターンの符号化に優れていることに起因して一般的である。
スケール不変特徴変換(SIFT(scale-invariant feature transform))記述子等の、空間コンテキストにおける勾配ヒストグラム(HOG(Histogram of gradient))表現及びエッジ、又は形状コンテキストにおける勾配ヒストグラム(HOG)表現及びエッジは、ロバスト(robust)で区別可能な記述子をもたらす。
関心領域(ROI(region of interest))は、空間ロケーション、輝度、及び高次導関数等の画像属性の共分散行列によって、検出ウィンドウ内のオブジェクト記述子として表すことができる。
いくつかの検出方法は、生成的モデル及び差別的モデルによって、又は形状の照合を介して、確率フレームワークにおける空間関係に従って検出部分を組み立てる。部分に基づく手法は、一般に、部分遮蔽の場合に、よりロバストである。最も全体論的な手法は、k−最近傍、ニューラルネットワーク(NM(neural networks))、サポートベクトルマシン(SVM(support vector machines))、及びブースティングを含む識別器方法である。
SVM法及びブースティング法は、高次元状態空間を扱うことができ、大きなセットの中から関連記述子を選択することが可能であるので、頻繁に用いられる。
AdaBoostを用いてトレーニングされる複数の弱識別器を連結して、何らかの識別器が仮説を拒絶した場合に該仮説が否定的な例と見なされるような、拒絶カスケードを形成することができる。
ブースティングされた識別器において、用語「弱」及び「強」は、当該技術分野において明確に定義された用語である。Adaboostは弱識別器のカスケードから強識別器を構築する。米国特許第5,819,247号(特許文献1)及び同7,610,250号(特許文献2)を参照されたい。Adaboostは特徴選択により、効率的な方法を提供する。さらに、カスケード構造により、領域のほとんどにおいてわずかな数の識別器のみが評価される。SVM識別器は、密にサンプリングされたHOGを用いてトレーニングされた従来の識別器よりも、同じ検出率で少なくとも1桁〜2桁低い誤検出率を有し得る。
米国特許第5,819,247号明細書 米国特許第7,610,250号明細書
領域ブースティング方法は、部分領域、すなわち弱識別器の選択プロセスを通じて構造情報を組み込むことができる。これらの方法は各弱識別器を検出ウィンドウの単一の領域に相関させることを可能にするが、より強い空間構造を確立するであろうウィンドウ内の2つ以上の領域間の対毎の関係及びグループ毎の関係をカプセル化することができない。
関係検出器において、n連結という用語は、n個の別個の値のセットを指す。これらの値は、画像内のピクセルインデックス、画像のヒストグラムに基づく表現のビンインデックス、又は画像のベクトルベースの表現のベクトルインデックスに対応することができる。たとえば、特徴付けられる特徴は、ピクセルインデックスを用いる場合、対応するピクセルの輝度値である。次に、或る特定のピクセル連結においてサンプリングされた輝度値の特徴ベクトルを形成することによって入力マッピングが得られる。
一般に、関係検出器は、多層ニューラルネットワークにおいて単純なパーセプトロンとして特徴付けることができ、二値入力画像を介して光特徴認識に主に用いることができる。本方法は濃淡値にも拡張され、マンハッタン距離を用いて、顔検出の照合プロセス中に、最も近いn連結パターンを見つける。しかしながら、これらの全ての手法は厳密に輝度(又は二値)値を利用し、ピクセル間の比較関係は符号化しない。
同様の方法がスパース特徴を用いる。スパース特徴は、顆粒と呼ばれる有限数の四角形の特徴セットを含む。そのような顆粒空間において、スパース特徴はいくつかの重み付けされた顆粒の線形結合として表される。これらの特徴は、ハールウェーブレットに勝る或る特定の利点を有する。これらは高度にスケーリング可能であり、複数のメモリアクセスを必要としない。ハールウェーブレットの場合のように特徴空間を2つの部分に分割する代わりに、本方法は、特徴をより細かな粒度に区分し、ビン毎に複数の値を出力する。
本発明の実施の形態は、画像内のオブジェクトを検出するための方法を提供する。本方法は、画像から、低レベル特徴、たとえばピクセルの係数の連結を抽出する。これらは、最大で所定のサイズ、たとえば二つ組、三つ組等のn連結とすることができる。これらの連結は次のステップのためのオペランドである。
関係演算子がオペランドに適用され、命題空間が生成される。演算子は、オペランドの各可能な対にわたるマージンベースの相似則とすることができる。関係の空間は命題空間を構成する。
命題空間の場合、ブール演算子の連結関数が、命題空間内の全ての可能な論理命題をモデル化する複合仮説を構築するように定義される。
係数がピクセル座標に関連付けられる場合、より高次の空間構造をオブジェクトウィンドウ内にカプセル化することができる。ピクセルの代わりに特徴ベクトルを用いることによって、効率的な特徴選択メカニズムを課すことができる。
本方法は、離散AdaBoost手順を用いて、これらの関係から弱識別器のセットを反復的に選択する。次に、弱識別器を用いて、画像内のオブジェクトの、非常に高速なウィンドウベースの二項分類を実行することができる。
顔の画像を分類するタスクの場合、本方法は、放射基底関数(RBF(Radial Basis Functions))を用いるサポートベクトルマシン(SVM(Support Vector Machine))に基づく識別器と比較して検出を約70倍高速にする一方、誤検出を約1桁低減する。
従来の領域特徴の欠点に対処するために、本発明は、最大で規定のサイズn(対、三つ組、四つ組等)の関係連結特徴を用いる。関係連結特徴は、複数の低レベルの属性係数の連結から生成される。低レベルの属性係数は、オブジェクトウィンドウのピクセル座標又はウィンドウ自体を表す特徴ベクトル係数と直接対応することができる。
本発明においては、これらの連結を、次の段階のオペランドとして考える。これらのオペランドの各可能な対にわたってマージンベースの相似則等の関係演算子を適用する。関係の空間は命題空間を構成する。この空間から、ブール演算子、たとえば論理積及び論理和の連結関数を定義して複合仮説を形成する。したがって、オペランドに対して任意の関係規則、換言すれば低レベル記述子係数に対する全ての可能な論理命題を作成することができる。
本発明においては、これらの係数がピクセル座標に関連付けられる場合、より高次の空間構造情報をオブジェクトウィンドウ内にカプセル化する。ピクセル値の代わりに記述子ベクトルを用いて、PCA等の、計算量が多い基底変換を一切用いることなく、効率的に特徴選択を課す。
画像(又はn個のベクトル係数)にn個のピクセル間の関係を符号化する方法を提供することに加えて、ブースティングを用いてこれらの関係から弱識別器のセットを反復的に選択し、非常に高速なウィンドウ分類を実行する。
本発明の方法は、生の輝度(又は勾配)値ではなく、習得した類似度閾値と共に論理演算子を明示的に用いるので、従来技術と大幅に異なる。
スパース特徴又は関連付けられるペアリングとは異なり、低レベル属性の連結を複数のオペランドに拡張し、トレーニングする識別器に対し、より良好なオブジェクト構造を課すことができる。
本発明は、オブジェクトウィンドウの直接ピクセル輝度又は特徴ベクトルから非常に単純な関係特徴の連結を用いる検出方法である。本方法は、ブースティングフレームワークにおいて、SVM−RBFと同じだけ優位性があるが、計算負荷の一部しか必要としない識別器を構築するのに用いることができる。
本発明の実施形態による、画像内のオブジェクトを検出するための方法及びシステムのブロック図である。 本発明の実施形態による仮説のテーブルである。 本発明の実施形態による仮説のテーブルである。 本発明の実施形態による、識別器をブースティングするための擬似コードの図である。
図1は、本発明の実施形態による、画像内のオブジェクトを検出するための方法及びシステム100を示している。本方法のステップは、当該技術分野において既知のメモリ及び入力/出力インターフェースを備えるプロセッサにおいて実行することができる。
(1つ又は複数の)トレーニング画像のセット101におけるウィンドウ内のd個の特徴を抽出する(102)。ウィンドウは、オブジェクトを含む画像の部分である。オブジェクトウィンドウは画像の一部分又は画像全体とすることができる。当該特徴は、d次元ベクトルx103に格納することができる。特徴は、オブジェクトウィンドウにおいてピクセル輝度をラスター走査することによって得ることができる。したがって、dはウィンドウ内のピクセル数である。代替的に、特徴は勾配ヒストグラム(HOG(histogram of gradients))とすることができる。いずれの場合でも、特徴は比較的低レベルである。
特徴のn個の正規化された係数104、たとえばC、C、C、...、Cをランダムにサンプリングする(105)。ランダムなサンプルの数は、所望の性能に依拠して変動し得る。サンプルの数は約10個〜2000個の範囲内とすることができる。
これらのサンプリングされた係数の可能な連結毎にn連結111を決定する(110)。n連結は、最大で所定のサイズ、たとえば二つ組、三つ組等とすることができる。換言すれば、連結は、2、3、又はより多くの低いレベルの特徴、たとえばピクセル輝度又はヒストグラムビンに関するものとすることができる。本発明においては、ピクセル又はヒストグラムの輝度/値を取り、或る相似則、たとえば以下の式(1)を適用する。最終結果は連結された特徴に関して1又は0のいずれかである。連結は次のステップのためのオペランドである。
サンプリングされた係数104の可能な連結毎に、関係演算子g119を用いて、ブール値命題pijをpij=g(c,c)として規定する。たとえば、マージンベースの相似則によって、
Figure 0005591178
が得られる。これは、勾配演算子のタイプと見なすことができる。本発明の好ましい実施形態では、ブール代数を用いる。しかしながら、本発明は、ファジー論理を含む非二値論理に拡張することができる。マージン値τは、受容可能な変動レベルを示し、対応する仮説の分類性能を最大にするように選択される。
換言すれば、関係演算子をオペランドに適用するとき、命題空間121を生成する(120)。上述したように、演算子はオペランド(n連結111)の各可能な対に対するマージンベースの相似則とすることができる。関係の空間は、命題空間121を構成する。
命題空間121に関して、ブール演算子129の連結関数、たとえば論理積、論理和等を規定して、全ての可能な論理命題をモデル化する複合仮説(h,h,h,...)122を構築する(130)。
係数がピクセル座標に関連付けられている場合、より高次の空間構造をオブジェクトウィンドウ内にカプセル化することができる。ピクセルの代わりに特徴ベクトルを用いることによって、効率的な特徴選択メカニズムを課すことができる。
nを所与として、対から構成された計
Figure 0005591178
個の基本命題を符号化することができる。この段階において、係数の連結を長さkのブール列にマッピングしている。より高いレベルの命題は結果として
Figure 0005591178
列となる。さらに、連続値のスカラー空間から二値空間への変換を得る。
ブール演算子との第2の連結マッピングによって、全ての可能な4 個のブール演算子をカバーする仮説hが構築される(130)。たとえば、2つの係数をサンプリングする場合、4つの仮説が図3Aに示される。3つの係数のサンプリングによって、図2Bに示す256個の仮説が得られる。
第1列及び最終列等、上記の仮説のうちのいくつかは縮退しており、論理的に有効とすることができない。残りの列の半分は補数である。このため、仮説空間内を探索するとき、全ての4 個の可能性を調べる必要はない。命題の値は、サンプルが正(1)として分類されるか又は負(0)として分類されるかを示す。図1を参照されたい。
ブースティング
大量の候補特徴から最も弁別的な特徴を選択するために、本発明では、離散AdaBoost手順を用いる。なぜなら出力が二値であり、離散AdaBoostフレームワーク内で良好に適合するためである。AdaBoostは一連のラウンドにおいて弱識別器を反復して呼び出す。呼び出し毎に、分類のためのデータセット内の事例の重要度を示す重みDの分布が更新される。各ラウンドにおいて、各不正確に分類された事例の重みが増加され、各正確に分類された事例の重みが減少され、それによって新たな識別器は正確に分類された事例により集中する。
図3は、本発明のAdaBoostプロセスの擬似コードを示している。この手順は、弱識別器のレベルにおいて従来のAdaBoostと異なっている。本発明の場合、弱識別器のドメインが仮説空間内にある。本発明では、上記の論考に従って、複数の入力係数から、M回ランダムにサンプリングし、M個の関係連結(RelCom(relational combinatorial))特徴を取得し、それぞれについて重み付けされた分類誤差を評価する。こうして、本発明では、誤差を最小にするものを選択し、トレーニングサンプル重みを更新する。
代理損失関数を特定することによって、異なるブースティングアルゴリズムを定義することができる。たとえば、LogitBoostは、二次誤差項を解くことによって分類条件確率対数比(class conditional probability log ratio)を加法的項に適合させる重み付け回帰によって、識別器境界を求める。BrownBoostは、境界から遠い事例ほど重みが減少するような非単調重み付け関数、及び、ターゲット誤差率を達成することを試みるアルゴリズムを用いる。GentleBoostは、対数比の代わりに仮説のユークリッド確率差を用いて重みを更新し、このため重みは[0 1]の範囲にあることが保証される。
識別器140が構築された後、該識別器を用いてオブジェクトを検出することができる。図1に示すように、テスト画像139のための弱識別器140の出力は、選択された特徴の重み付けされた応答の和の符号(0/1)である。テスト画像の場合、特徴が抽出され、ランダムに選択され、トレーニング画像に関して上述したのと同じだけ正確に連結される。このため、本発明の主な焦点は、識別器にはあまりなく、本発明の新規な関係連結特徴にある。該関係連結特徴によって、後述するように、正確さを損なうことなく計算負荷を大幅に低減することができる。
計算負荷
関係演算子gは、非常に単純なマージンに基づく距離の形態を有する。したがって、式(1)において与えられる距離ノルムの場合、命題毎に応答を符号化する2Dルックアップテーブルを構築し、次に応答を連結して別個の仮説2Dルックアップテーブルにすることが可能である。複合仮説内のn連結の場合、これらのルックアップテーブルはn次元になる。テーブルへのインデックスは、特徴表現に依拠して、ピクセル輝度値、又はベクトル値の量子化された範囲とすることができる。256レベルの輝度値等の固定数の離散特徴低レベル表現の場合、情報損失、及び離散していない他の特徴低レベル表現に関する有意でない適応量子化損失がないので、ルックアップテーブルを用いることによって、関係演算子gの正確な結果がもたらされる。
例として、256レベルの輝度画像及び選択された複合仮説が2D関係演算子pij=g(c,c)を利用するものとすると、水平インデックス(c)及び垂直インデックス(c)が0〜255までである2Dルックアップテーブルを構築する。本発明は、オフラインで、全ての対応するc、cインデックスについて関係演算子応答を計算し、それをテーブル内に保持する。複合仮説を適用するためのテスト画像が与えられると、特徴ピクセルの輝度値を得て、実際に関係演算子出力を計算することなく、対応するテーブル要素に直接アクセスする。
特に、計算負荷をメモリに基づくテーブルと交換することができる。それらのテーブルは比較的小さく、たとえば特徴数と同じ100×00又は256×256の二値テーブルである。500個の三つ組の場合、2Dルックアップテーブル用のメモリは約100MBである。ルックアップテーブルから命題値を得た後、二値を弱識別器の対応する重みと乗算し、重み付けされた和を合計して応答を求める。
したがって、高速なアレイアクセスのみを、はるかに低速な算術演算の代わりに用い、この結果、おそらく当該技術分野で既知の最速の検出器となる。ベクトル乗算に起因して、SVM RBFも線形カーネルもそのように実施することはできない。
本発明のブースティングされた識別器の拒絶カスケードも用いることができる。拒絶カスケードは、走査に基づく検出における計算負荷をさらに大幅に減少させる。検出は、750倍高速にすることができ、テストされる特徴の有効数を、6000個から、平均でわずか8個に減少させる。
発明の効果
本発明は、オブジェクトウィンドウの直接ピクセル輝度又は特徴ベクトルから非常に単純な関係特徴の連結を用いる検出方法である。本方法は、ブースティングフレームワークにおいて、SVM−RBFと同じだけ優位性があるが、計算負荷の一部しか必要としない識別器を構築するのに用いることができる。
本発明の特徴によって、検出の速度を効率的に数桁上げることができる。なぜなら、本発明の方法は、2Dルックアップテーブルを用いるので、複雑な計算を一切必要としないためである。
この特徴は、ピクセル輝度に限定されず、たとえばウィンドウレベル特徴を用いることができる。
本発明は、より高次の関係演算子を用いて、オブジェクトウィンドウ内の空間構造をより効率的に取得することができる。
本発明を好ましい実施形態の例として説明してきたが、本発明の精神及び範囲内で様々な他の適応及び変更を行うことができることは理解されたい。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲内に入る全ての変形及び変更を包含することである。

Claims (18)

  1. テスト画像内のオブジェクトを分類するための方法であって、トレーニング画像のセット内のトレーニング画像毎に、
    前記トレーニング画像内のウィンドウから特徴を抽出するステップであって、該ウィンドウは前記オブジェクトを含む、抽出するステップと、
    前記特徴の係数cをランダムにサンプリングするステップと、
    前記係数の可能なセット毎にn連結を求めるステップと、
    前記係数の可能な連結毎に、関係演算子を用いてブール値命題を定義して、命題空間を生成するステップと、
    前記命題空間にブール演算子の連結関数を適用することによって識別器の複合仮説を構築し、前記命題空間内の全ての可能な論理命題を構築するステップと、
    前記テスト画像から抽出された特徴に前記識別器の前記複合仮説を適用して、前記テスト画像が前記オブジェクトを含むか否かを検出するステップと
    を含み、
    前記各ステップは、プロセッサが実行する、方法。
  2. 前記係数は、トレーニングデータセット画像に関して、前記テスト画像内で正規化される、請求項1に記載の方法。
  3. 前記特徴はピクセル輝度である、請求項1に記載の方法。
  4. 前記特徴は勾配ヒストグラムである、請求項1に記載の方法。
  5. 前記特徴は、前記トレーニング画像に関連付けられる記述子ベクトルの前記係数である、請求項1に記載の方法。
  6. 前記ブール値命題はpijであり、前記関係演算子はgであり、pij=g(c,c)であり、ここで、c及びcは前記特徴の係数である、請求項1に記載の方法。
  7. 前記ブール値命題はマージンに基づく相似則
    Figure 0005591178
    であり、ここでτはマージン値である、請求項6に記載の方法。
  8. 前記ブール演算子は、論理積及び論理和を含む、請求項1に記載の方法。
  9. 前記ブール演算子は、ファジー論理システム、三値論理システム、多値論理システムにおいて適用される演算子を含む非二値論理演算子を含む、請求項1に記載の方法。
  10. 前記特徴は、d次元ベクトルx内に格納される、請求項1に記載の方法。
  11. 前記識別器は、AdaBoost手順、離散AdaBoost手順、LogitBoost手順、BrownBoost手順、及びGentleBoost手順の変形を含むブースティングされた学習器の形態である、請求項1に記載の方法。
  12. 前記論理命題は、前記識別器の前記複合仮説を適用するとき、前記命題毎の応答のルックアップテーブルにおいて符号化される、請求項1に記載の方法。
  13. 前記構築された複合仮説のそれぞれは、nルックアップテーブルにおいて符号化され、該ルックアップテーブルはn次元である、請求項1に記載の方法。
  14. 前記複合仮説の前記適用は、前記ルックアップテーブルにアクセスすると共に前記応答の重み付けされた和を合算することによって行われる、請求項12に記載の方法。
  15. 前記ルックアップテーブルのインデックスは、前記画像内のピクセルの輝度値の範囲内にある、請求項12に記載の方法。
  16. 前記ルックアップテーブルのインデックスは、ベクトル値の量子化された範囲内にある、請求項12に記載の方法。
  17. 前記識別器はブースティングされた識別器であり、拒絶カスケードを構成する、請求項1に記載の方法。
  18. 前記マージン値は、前記トレーニング画像のセットに対する対応する複合仮説の検出性能を最適化する、請求項7に記載の方法。
JP2011108543A 2010-05-25 2011-05-13 テスト画像内のオブジェクトを分類するための方法 Active JP5591178B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/786,648 US20110293173A1 (en) 2010-05-25 2010-05-25 Object Detection Using Combinations of Relational Features in Images
US12/786,648 2010-05-25

Publications (3)

Publication Number Publication Date
JP2011248879A JP2011248879A (ja) 2011-12-08
JP2011248879A5 JP2011248879A5 (ja) 2014-05-01
JP5591178B2 true JP5591178B2 (ja) 2014-09-17

Family

ID=45022186

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011108543A Active JP5591178B2 (ja) 2010-05-25 2011-05-13 テスト画像内のオブジェクトを分類するための方法

Country Status (2)

Country Link
US (1) US20110293173A1 (ja)
JP (1) JP5591178B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8913783B2 (en) * 2009-10-29 2014-12-16 Sri International 3-D model based method for detecting and classifying vehicles in aerial imagery
KR101395094B1 (ko) * 2010-09-29 2014-05-16 안동대학교 산학협력단 개체 검출 방법 및 시스템
JP5671928B2 (ja) * 2010-10-12 2015-02-18 ソニー株式会社 学習装置、学習方法、識別装置、識別方法、およびプログラム
US9275306B2 (en) * 2013-11-13 2016-03-01 Canon Kabushiki Kaisha Devices, systems, and methods for learning a discriminant image representation
CN106575364A (zh) 2014-04-11 2017-04-19 英特尔公司 使用定向滤波的目标检测
JP6474210B2 (ja) 2014-07-31 2019-02-27 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 大規模画像データベースの高速検索手法
US9697443B2 (en) * 2014-12-11 2017-07-04 Intel Corporation Model compression in binary coded image based object detection
CN105184312B (zh) * 2015-08-24 2018-09-25 中国科学院自动化研究所 一种基于深度学习的文字检测方法及装置
US11250256B2 (en) 2015-12-26 2022-02-15 Intel Corporation Binary linear classification
KR20190117584A (ko) 2017-02-09 2019-10-16 페인티드 도그, 인크. 스트리밍 비디오 내의 객체를 검출하고, 필터링하고 식별하기 위한 방법 및 장치
CN107403192B (zh) * 2017-07-18 2020-09-29 四川长虹电器股份有限公司 一种基于多分类器的快速目标检测方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2167748A1 (en) * 1995-02-09 1996-08-10 Yoav Freund Apparatus and methods for machine learning hypotheses
US7536044B2 (en) * 2003-11-19 2009-05-19 Siemens Medical Solutions Usa, Inc. System and method for detecting and matching anatomical structures using appearance and shape
US7447359B2 (en) * 2004-09-07 2008-11-04 Siemens Medical Solutions Usa, Inc. System and method for anatomical structure parsing and detection
US7876934B2 (en) * 2004-11-08 2011-01-25 Siemens Medical Solutions Usa, Inc. Method of database-guided segmentation of anatomical structures having complex appearances
CN100472556C (zh) * 2005-10-09 2009-03-25 欧姆龙株式会社 特定被摄体检测装置及方法
US7693301B2 (en) * 2006-10-11 2010-04-06 Arcsoft, Inc. Known face guided imaging method
US8306262B2 (en) * 2008-05-15 2012-11-06 Arcsoft, Inc. Face tracking method for electronic camera device
US20090290791A1 (en) * 2008-05-20 2009-11-26 Holub Alex David Automatic tracking of people and bodies in video
US8121424B2 (en) * 2008-09-26 2012-02-21 Axis Ab System, computer program product and associated methodology for video motion detection using spatio-temporal slice processing
JP2011013732A (ja) * 2009-06-30 2011-01-20 Sony Corp 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
JP2011248879A (ja) 2011-12-08
US20110293173A1 (en) 2011-12-01

Similar Documents

Publication Publication Date Title
JP5591178B2 (ja) テスト画像内のオブジェクトを分類するための方法
Nandhini Abirami et al. Deep CNN and Deep GAN in Computational Visual Perception‐Driven Image Analysis
US20190087726A1 (en) Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications
CN115937655B (zh) 多阶特征交互的目标检测模型及其构建方法、装置及应用
US11443514B2 (en) Recognizing minutes-long activities in videos
KR20090131626A (ko) 영상 데이터내의 특정 클래스의 오브젝트를 세그멘테이션하기 위한 시스템 및 방법
Xiang et al. Towards interpretable skin lesion classification with deep learning models
Parashar et al. Deep learning pipelines for recognition of gait biometrics with covariates: a comprehensive review
KR102214922B1 (ko) 행동 인식을 위한 특징 벡터 생성 방법, 히스토그램 생성 방법, 및 분류기 학습 방법
CN110827265B (zh) 基于深度学习的图片异常检测方法
CN109242097B (zh) 无监督学习的视觉表示学习系统及方法
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
JP7225731B2 (ja) 多変数データシーケンスの画像化
Jemilda et al. Moving object detection and tracking using genetic algorithm enabled extreme learning machine
CN111340051A (zh) 图片处理方法、装置及存储介质
CN109508640A (zh) 一种人群情感分析方法、装置和存储介质
Yao A compressed deep convolutional neural networks for face recognition
CN113869234A (zh) 人脸表情识别方法、装置、设备及存储介质
CN115410000A (zh) 对象分类方法以及装置
WO2022126367A1 (en) Sequence processing for a dataset with frame dropping
Cristin et al. Image forgery detection using supervised learning algorithm
EP4058940A1 (en) Permutation invariant convolution (pic) for recognizing long-range activities
Rao et al. Learning semantic features for classifying very large image datasets using convolution neural network
Shi et al. A novel artificial fish swarm algorithm for pattern recognition with convex optimization
Thakur et al. Machine Learning and Deep Learning Techniques

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140313

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140313

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20140313

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20140416

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140701

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140729

R150 Certificate of patent or registration of utility model

Ref document number: 5591178

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250