JP2012527664A - 画像分類方法、装置、プログラム製品および記憶媒体 - Google Patents

画像分類方法、装置、プログラム製品および記憶媒体 Download PDF

Info

Publication number
JP2012527664A
JP2012527664A JP2012511134A JP2012511134A JP2012527664A JP 2012527664 A JP2012527664 A JP 2012527664A JP 2012511134 A JP2012511134 A JP 2012511134A JP 2012511134 A JP2012511134 A JP 2012511134A JP 2012527664 A JP2012527664 A JP 2012527664A
Authority
JP
Japan
Prior art keywords
regions
region
axis
gradient
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012511134A
Other languages
English (en)
Other versions
JP5545361B2 (ja
Inventor
ジャン,ルン
ウー,ウェイクオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JP2012527664A publication Critical patent/JP2012527664A/ja
Application granted granted Critical
Publication of JP5545361B2 publication Critical patent/JP5545361B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/446Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering using Haar-like filters, e.g. using integral image techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

画像に対して分類を行う方法及び装置である。方法は、前記画像から、1グループの特徴を抽出して特徴ベクトルとする(ここで、前記抽出は、前記特徴ベクトルの各特徴のそれぞれに対して、第1軸の方向に沿って配置された複数の第1領域と、前記第1軸と交差する第2軸の方向に沿って配置された複数の第2領域とを特定すること、前記の複数の第1領域の画素和間または平均値間の第1差と、前記の複数の第2領域の画素和間または平均値間の第2差とを算出すること、前記の第1差及び第2差に基づいて勾配の大きさ及び勾配の方向を算出して、前記の各特徴のそれぞれを形成するようにすることを含む)こと、前記の抽出された特徴ベクトルにより、前記画像に対して分類を行うこと、を含む。
【選択図】図1

Description

本発明は、ビデオ又は画像に対する分類(対象が含まれる/対象が含まれない)、即ち、ビデオ又は画像における対象の検出又は認識に関し、特に、ビデオ又は画像において検出しようとする対象が含まれるか否かを区別するための分類器を生成する方法及び装置、並びに、生成された分類器で画像に対して分類を行う方法及び装置に関する。
ビデオモニターや人工知能、コンピュータ視覚等の応用の普及に伴って、ビデオ及び画像において現れる特定対象、例えば、人、動物や車両等を検出する技術への要求が益々増えていく。ビデオ又は画像における対象を検出するための方法には、以下のような種類の方法が周知されており、即ち、静態的な画像特徴を採用してビデオ又は画像において対象または非対象が含まれるか否かを区別するための分類器を構築し、この分類器で画像に対して分類を行い、即ち画像において対象を検出し、ここで、ビデオに対し、各フレームのそれぞれを一枚の画像と見なして検出を行う。
Paul ViolaとMichael Jonesとが、「Robust Real−time Object Detection」、Second International Workshop On Statistical And Computational Theories Of Vision−Modeling、Learning、Computing、And Sampling、Vancouver、Canada、July13,2001には、このような技術の一種を開示している。Paul Violaらの技術では、画像から矩形ブロックの画素和間の差を抽出して特徴とし、AdaBoost方法で抽出された特徴から、対象または非対象を区別するためのに、より適する特徴を選出して弱分類器を形成するとともに、弱分類器を融合することによって強分類器を形成する。このような方法は、画像において例えば人の顔のような対象を検出することに適しているが、人のような対象に対する検出のロバスト性が高くはない。
前記の課題に鑑みて、本発明の目的として、画像における対象の検出のロバスト性を向上するため、分類器を生成する方法及び装置、並びに画像に対して分類を行う方法及び装置を提供することにある。
本発明の一実施例は、対象画像と非対象画像とを区別するための分類器を生成する方法であって、複数の入力画像のそれぞれから、特徴ベクトルの各特徴のそれぞれに対して、第1軸の方向に沿って配置された複数の第1領域と、前記第1軸と交差する第2軸の方向に沿って配置された複数の第2領域とを特定すること、前記の複数の第1領域の画素和間または平均値間の第1差と、前記の複数の第2領域の画素和間または平均値間の第2差とを算出すること、前記の第1差及び第2差に基づいて勾配の大きさ及び勾配の方向を算出して、前記の各特徴のそれぞれを形成するようにすることで1グループの特徴を抽出して特徴ベクトルとすることと、前記の抽出された特徴ベクトルにより、訓練して前記分類器を得ること、を含む。
本発明のほかの一実施例は、対象画像と非対象画像とを区別するための分類器を生成する装置であって、前記装置は、複数の入力画像のそれぞれから、1グループの特徴を抽出して特徴ベクトルとし、前記装置は、前記特徴ベクトルの各特徴のそれぞれに対して第1軸の方向に沿って配置された複数の第1領域と、前記第1軸と交差する第2軸の方向に沿って配置された複数の第2領域とを特定する特定手段と、前記の複数の第1領域の画素和間または平均値間の第1差と、前記の複数の第2領域の画素和間または平均値間の第2差とを算出する差分算出手段と、前記の第1差及び第2差に基づいて勾配の大きさ及び勾配の方向を算出して前記の各特徴のそれぞれを形成する勾配算出手段と、前記抽出された特徴ベクトルにより訓練して前記分類器を得る訓練手段と、を含む。
本発明の前記実施例によれば、二つの方向に沿って配置された領域の画素に基づいて勾配の方向および勾配の大きさを含む特徴を算出することで、抽出された特徴は、相応の画像部分における対象のエッジの分布をより真実的に反映することができる。このような特徴に基づいて生成された分類器は、画像において、例えば、人または動物の対象、特に各種の姿勢を有する対象をよりロバストに検出することができる。
更に、前記方法及び装置において、各領域は矩形領域であってもよい。ここで、第1領域同士は互いに接しており、且つ第2領域同士も互いに接している。
前記方法及び装置において、第1領域の数及び第2領域の数の何れも2であり、第1領域同士が接しており且つ第2領域同士が接している場合に、第1軸と第2軸との交点は、第1領域の接続線上または接続点からの予め定められた範囲内に位置するとともに、第2領域の接続線上または接続点からの予め定められた範囲内に位置する。
前記方法及び装置において、第1領域の数及び第2領域の数のいずれも2であり、第1領域同士は間隔を有しており、且つ第2領域同士は間隔を有している場合に、第1軸と第2軸との交点は、第1領域の位置中心間の中点及び第2領域の位置中心間の中点からの予め定められた範囲内に位置する。
前記方法及び装置において、第1領域の数及び第2領域の数のいずれも3である場合に、第1軸と第2軸との交点は、それぞれ第1領域のうち中間にある第1領域内及び第2領域のうち中間にある第2領域内に位置する。
前記方法及び装置において、少なくとも二つの特徴が基づいた領域の配置の間の区別には、領域の相対位置関係、領域の数、領域の形状、領域の大きさ、領域の縦横比のうちの一つまたは複数を含む。これによって、考察可能な特徴がより豊富となり、対象及び非対象を区別するに適する特徴の選択により有利である。
前記方法及び装置において、複数の特徴ベクトルの少なくとも一つの次元の特徴に対して変換を行い、変換される特徴は、勾配方向及び勾配の大きさを含み、前記変換は、前記勾配方向を複数の予め定められた区間のうち前記勾配方向が属する区間に変換することを含む。前記の少なくとも一つの次元の各次元毎に、前記予め定められた区間にそれぞれ対応するサブ分類器を含む分類器を生成する。ここで、前記予め定められた区間毎に、前記特徴ベクトルのうちその区間が予め定められた区間と同じである当該次元の特徴の勾配の大きさの分布に基づいて、相応するサブ分類器の閾値を取得する。
本発明のほかの一実施例は、画像に対して分類を行う方法であって、複数画像から、1グループの特徴を抽出して特徴ベクトルとする(ここで、前記抽出は、前記特徴ベクトルの各特徴のそれぞれに対して、第1軸の方向に沿って配置された複数の第1領域と、前記第1軸と交差する第2軸の方向に沿って配置された複数の第2領域とを特定すること、前記の複数の第1領域の画素和間または平均値間の第1差と、前記の複数の第2領域の画素和間または平均値間の第2差とを算出すること、前記第1差及び第2差の基づいて勾配の大きさ及び勾配方向を算出して、前記の各特徴のそれぞれを形成することを含む)こと、前記の抽出された特徴ベクトルにより前記画像に対して分類を行うこと、を含む。
本発明のほかの一実施例は、画像に対して分類を行う装置であって、複数画像から、1グループの特徴を抽出して特徴ベクトルとする特徴抽出装置(ここで、前記特徴抽出装置は、前記特徴ベクトルの各特徴のそれぞれに対して第1軸の方向に沿って配置された複数の第1領域と、前記第1軸と交差する第2軸の方向に沿って配置された複数の第2領域とを特定する特定手段と、前記の複数の第1領域の画素和間または平均値間の第1差と、前記の複数の第2領域の画素和間または平均値間の第2差とを算出する差算出手段と、前記第1差及び第2差の基づいて勾配の大きさ及び勾配方向を算出して前記の各特徴のそれぞれを形成する勾配算出手段とを含む)と、前記抽出された特徴ベクトルにより、画像に対して分類を行う分類手段と、を含む。
前記方法及び装置において、前記のように、複数の領域の画素に基づいて画像部分の勾配を算出することができるので、抽出された特徴は、相応の画像部分における対象のエッジの分布をより全面に反映できることによって、対象姿勢の変化の影響を受けることが少なくなる。このような特徴に基づいて生成された分類器は、画像において、例えば人または動物の対象、特に、各種の姿勢を有する対象をよりロバストに検出することができる。
前記方法及び装置において、各領域は矩形領域であってもよい。ここで、第1領域同士は互いに接しており、且つ第2領域同士は接している。
前記方法及び装置において、第1領域の数及び第2領域の数のいずれも2であり、第1領域同士が互いに接しており、且つ第2領域同士が互いに接している場合に、第1軸と第2軸との交点は、第1領域の接続線上または接続点からの予め定められた範囲内に位置するとともに、第2領域の接続線上または接続点からの予め定められた範囲内に位置する。
前記方法及び装置において、第1領域の数及び第2領域の数のいずれも2であり、第1領域同士は間隔を有しており、且つ第2領域同士は間隔を有している場合に、第1軸と第2軸との交点は、第1領域の位置中心間の中点及び第2領域の位置中心間の中点からの予め定められた範囲内に位置する。
前記方法及び装置において、第1領域の数及び第2領域の数のいずれも3である場合に、第1軸と第2軸との交点は、第1領域のうち中間にある第1領域内及び第2領域のうち中間にある第2領域内にそれぞれ位置する。
さらに、前記方法及び装置いおいて、少なくとも二つの特徴が基づいた領域配置の間の区別には、領域の相対位置関係、領域の数、領域の形状、領域の大きさ、領域の縦横比のうちの一つまたは複数を含む。これによって、考察可能な特徴がより豊富となり、対象及び非対象を区別するに適する特徴の選択により有利である。
さらに、前記方法及び装置において、画像に対して分類を行うことは、各特徴毎の勾配方向及び勾配の大きさに対して複数の勾配方向区間のうちその勾配方向が属する勾配方向区間を特定する(各勾配方向区間は相応する閾値を有する)こと、前記の勾配の大きさ及び特定された勾配方向区間の相応の閾値を比較すること、比較結果により分類結果を生成することを含む。
以下の図面による本発明の実施例に対する説明を参照することにより、本発明の以上及びその他の目的、特徴、利点をより容易に理解することができる。図面において、同一又は対応の技術的特徴又は部品は、同一又は対応の符号で示される。図面において、手段のサイズ及び相対する位置を縮尺に従って作成する必要がない。
図1のブロック図は、本発明の一実施例による、対象または非対象を区別するための分類器を生成する装置の構造を示す。
図2a乃至図2hは、特定手段により特定された領域配置の例を示す模式図である。
図3aは、対象(人体)のエッジ輪郭の分布の一例を示す。
図3a及び図3cそれぞれは、図2a及び図2bに示された領域配置に基づいて図3aに示された部分において第1領域及び第2領域を特定する模式図である。
図4aは、図3aに示された部分302において含まれた対象エッジ輪郭を示す模式図である。
図4bは、勾配算出手段が、差算出手段により図3b及び図3cに示された第1領域及び第2領域に基づいて算出された第1差及び第2差に基づいて算出された勾配の模式図である。
図5は、本発明の一実施例による対象と非対象とを区別するための分類器を生成する方法のフローチャートである。
図6のブロック図は、本発明の一つの好適実施例による、対象と非対象とを区別するための分類器を生成する訓練手段の構造を示す。
図7は、本発明の一つの好適な実施例による、対象画像と非対象画像とを区別するための分類器を生成する訓練方法を示すフローチャートである。
図8のブロック図は、本発明の一実施例による、画像に対して分類を行う装置の構造を示す。
図9は、本発明の一つの実施例による、画像における対象を検出する方法を示すフローチャートである。
図10のブロック図は、本発明の一つの好適な実施例による分類手段の構造を示す。
図11は、本発明の一つの好適な実施例による分類方法を示すフローチャートである。
図12は、本発明を実現するコンピュータの例示的な構造を示すブロック図である。
以下、図面を参照しながら本発明の実施例を説明する。ここで注意すべきなのは、明瞭にするために、図面及び説明において本発明と関係しない、当業者が既知している部品及び処理の表記及び説明は省略されたことである。
図1のブロック図は、本発明の一実施例による、対象または非対象を区別するための分類器を生成する装置100の構造を示す。
図1に示したように、装置100は、特定手段101と、差算出手段102と、勾配算出手段103及び訓練手段104とを含む。
静態的な画像特徴を採用して分類器を構築する技術において、対象画像と非対象画像とを収集し、収集した対象画像及び非対象画像から特徴を抽出し、AdaBoost法で抽出された特徴に対して選出及び融合を行って、対象画像と非対象画像とを区別する分類器が得られる。Dingらのテーマが「A Robust Human Face Detecting Method In Complicated Background Image」の特許出願WO 2008/151470において、このような対象画像と非対象画像とを収集及び準備する方法(明細書、第2ページないし第3ページ参照)が開示されている。収集及び準備された対象画像と非対象画像を装置100の入力画像とすることができる。装置100は、複数の入力画像のそれぞれから、1グループの特徴を抽出して特徴ベクトルとする。
特定手段101が、前記特徴ベクトルの各特徴のそれぞれに対して、第1軸の方向に沿って配置された複数の第1領域と、前記第1軸と交差する(例えば、直角や非直角で交差)第2軸の方向に沿って配置された複数の第2領域とを特定する。
抽出しようとする特徴は、通常は、入力画像における画素に基づいたものである。特定手段101は、抽出しようとする各特徴のそれぞれが基づく、入力画像における画素を特定するためのものである。特定手段101は、予め定められた領域配置により、その基づいた入力画像における画素を特定することができる。
第1領域及び第2領域の配置は各種の方式があることができる。一つの例において、複数の第1領域の画素の位置の加重平均位置、及び複数の第2領域の画像の位置の加重平均位置が、前記の第1軸と第2軸との交点からの予め定められた範囲内にある。具体的に第1領域を例として、第1領域の画素の位置を(xij, yij )と表すことができ、なお、xijは、第i番目の第1領域における第j番目の画素の、第1軸(即ちX軸)上での座標を表し、yijは、第i番目の第1領域における第j番目の画素の、第2軸(即ちY軸)上での座標を表す。第1領域の画像の位置の加重平均位置(xa, ya)を下式のように定義することができる。
ただし、Nは第1領域の数であり、Mは第i番目の第1領域における画素の数であり、wは第i番目の第1領域の重みであり、且つ、
更にまたは選択可能に、前記の例において、すべての第1領域の重みは、同じであってもよいが、少なくとも部分的に異なっても良い。異なる場合に、画像が多く含まれた第1領域に比較的に小さい重みを割り当てることができ、画像が少なく含まれた第1領域に比較的に大きい重みを割り当てることができる。
上記に第1領域を例として加重平均位置を説明したが、上記の説明が第2領域にも適用することができる。
その他の例において、領域は矩形領域であっても良い。第1領域同士は接しているものであり、且つ、第2領域同士は接しているものである。
図2は、特定手段101により特定された領域配置の他の例を示す概略図である。図2において、Xは第1軸、Yは第2軸を示し、且つ矩形ブロックの白色と黒色とは、ただ区別の目的をとしている。図2の第1軸と第2軸とは、互いに直交していると示しているが、第1軸と第2軸とは非直角の角度で交差することもできる。
一種の領域配置によれば、第1領域の数と第2領域の数とはいずれも2であり、第1領域同士が接しており、且つ第2領域同士は接している。このような配置では、第1軸と第2軸との交点は、第1領域の接続線上又は接続点(例えば、矩形領域の頂点が接している場合)からの予め定められた範囲内(例えば、基本的に重ね合い)にあり、且つ、第2領域の接続線上または接続点からの予め定められた範囲内にある。
図2a及び図2bは、このような配置の一つの例を示している。具体的には、図2aは、第1軸における第1領域の配置を示している。なお、白色の矩形ブロック201と黒色の矩形ブロック202とが何れも第1領域を示しており、且つ接続線上で接している。しかも、第1軸と第2軸との交点は、接続線上にある。図2bは第2軸における第2領域の配置を示している。なお、白色の矩形ブロック203と黒色の矩形ブロック204とが、何れも第2領域を示しており、且つ接続線上で接している。しかも、第1軸と第2軸との交点は、接続線上にある。図2a及び図2bのそれぞれが第1軸及び第1軸における領域配置を示したが、実際に反映したのは、図2aと図2bとが合併され、即ち、図2aの第1軸及び第2軸は、それぞれ図2bの第1軸及び第2軸と同じとなるときの領域配置である。選択可能に、矩形ブロック201と202、及び矩形ブロック203と204は、それぞれの頂点を通して互いに接することができる。
他の一種の領域配置によれば、第1領域の数と第2領域の数とはいずれも2であり、第1領域同士は間隔を有しており、第2領域同士は間隔を有している。このような配置では、第1軸と第2軸との交点は、第1領域の位置中心間の中点と第2領域の位置中心間の中点からの予め定められた範囲内にある。
図2c及び図2dは、この種の領域配置の一つの例を示す。図2cは、第1軸上での第1領域の配置を示し、白色の矩形ブロック205と黒色の矩形ブロック206とも第1領域を示し、この両者の間に間隔を有している。第1軸と第2軸との交点は、白色の矩形ブロック205と黒色の矩形ブロック206との位置中心間の中点からの予め定められた範囲内にある。図2dは、第2軸における第2領域の配置を示しており、白色の矩形ブロック207と黒色の矩形ブロック208とはいずれも第2領域を示しており、且つ間隔を有している。第1軸と第2軸との交点は、白色の矩形ブロック207と黒色の矩形ブロック208との位置中心間の中点からの予め定められた範囲内にある。図2c及び図2dのそれぞれが第1軸及び第2時軸における領域の配置を示しているが、実際に反映しているのは、図2cと図2dとが合併され、即ち、図2cの第1軸及び第2軸は、それぞれ図2dの第1軸及び第2軸と同じとなるときの領域配置である。
図2g及び図2hは、このような領域配置の他の例を示している。なお、矩形ブロックの頂点が対向している。図2gは、第1軸における第1領域の配置を示しており、白色の矩形ブロック215と黒色の矩形ブロック216とはいずれも第1領域を示しており、且つ、間隔を有している。第1軸と第2軸との交点は、白色の矩形ブロック215と黒色の矩形ブロック216との位置中心間の中点からの予め定められた範囲内にある。図2hは第2軸における第2領域の配置を示しており、白色の矩形ブロック217と黒色の矩形ブロック218とはいずれも第2領域を示しており、且つ、間隔を有している。第1軸と第2軸との交点は、白色の矩形ブロック217と黒色の矩形ブロック218との位置中心間の中点からの予め定められた範囲内にある。図2g及び図2hのそれぞれが、第1軸及び第2軸における領域の配置を示しているが、実際に反映しているのは、図2gと図2hとが合併され、即ち、図2gの第1軸及び第2軸はそれぞれ図2hの第1軸及び第2軸と同じとなるときの領域配置である。
他の種の領域配置によれば、第1領域の数と第2領域の数とはいずれも3である。このような配置では、第1軸及び第2軸との交点は、それぞれ第1領域のうち中間にある第1領域内、及び、第2領域のうち中間にある第2領域内に位置する。
図2e及び図2fは、このような領域配置の一つの例を示している。図2eは、第1軸における第1領域の配置を示しおり、なお、白色の矩形ブロック210と黒色の矩形ブロック209、211とは何れも第1領域を示しており、且つ、第1軸と第2軸との交点は、中間に位置する白色の矩形ブロック210内にある。図2fは、第2軸における第2領域の配置を示しており、白色の矩形ブロック213と黒色の矩形ブロック212、214とは何れも第2領域を示しており、且つ、第1軸と第2軸との交点は、中間に位置する白色の矩形ブロック213内にある。図2e及び図2fのそれぞれは、第1軸及び第2軸における領域の配置を示しているが、実際に反映しているのは、図2eと図2fとが合併され、即ち、図2eの第1軸及び第2軸はそれぞれ図2fの第1軸及び第2軸と同じとなるときの領域配置である。選択可能に、矩形ブロック209、210及び211、並びに矩形ブロック212、213及び214は接しているものでなく、離れているものであってもよい。
注意すべきなのは、第1領域と第2領域との形状は、矩形に限定されず、他の形状であっても良いことである。他の形状、例えば、多辺形、三角形や円形、環状、不規則形状であってもよい。第1領域と第2領域との形状は異なるものであっても良く、且つ、異なる第1/第2領域の形状も異なるものであってもよい。
また、矩形形状を持つ場合に、第1領域のうち異なる領域の辺は、互いに平行しているものであってもよく、互いにある角度を相対的に回転したものであってもよい。同様に、矩形形状を持つ場合に、第2領域のうち異なっている領域の辺は互いに平行しているものであってもよく、互いにある角度を相対的に回転したものであってもよい。矩形形状を持つ場合に、矩形領域が接していることは、各自の辺を介して接している場合(即ち、第1軸と第2軸との交点がこれらの辺にある)と、各自の角部の頂点を介して接している場合(即ち、第1軸と第2軸との交点は、こられの頂点の箇所にある)とを含む。
さらに注意すべきなのは、第1軸において配置した第1領域と、第2軸において配置した第2領域の数は、図2に示した数に限定されなく、且つ、第1領域の数は必ず第2領域の数と同じである必要がないことである。第1領域の画素の位置の加重平均位置、及び第2領域の画素の位置の加重平均位置は、第1軸と第2軸との交点からの予め定められた範囲内にあればよい。好ましくは、第1領域の数と第2領域の数とは何れも3を超えないことである。
さらに注意すべきなのは、第1領域の相対的な位置関係、及び第2領域の相対的な位置関係は、任意なものであってもよい。例えば、第1軸において配置した第1領域は、互いに接しているものや離れているもの、部分的に接しているもの、部分的に離れているものであってもよく、第2軸において配置した第2領域は、互いに接しているものや離れているもの、部分的に接しているもの、部分的に離れているものであってもよい。第1領域の画素の位置の加重平均位置及び第2領域の画素の位置の加重平均位置は第1軸と第2軸との交点からの予め定められた範囲内にあればよい。
収集された対象画像において、対象のエッジ輪郭は、非対象と区別する特徴を現れる。対象のエッジ輪郭が対象画像において各種の分布を有する可能性がある。対象のエッジ輪郭を反映する特徴を十分に抽出することができるために、特定手段101は、入力画像の異なっている位置にある、大きさが異なっている部分内に第1領域と第2領域を特定して、当該部分内のエッジ輪郭を取得するようにすることができる。
図3aは、対象(人体)のエッジ輪郭の分布の一つ例を示している。図3aに示したように、入力画像において、人体のエッジ輪郭は、例えば、部分301、302、303の大きさが異なる、位置が異なる各部分にある。
図3b及び3cは、図2a及び2bに示された領域配置に基づいて、図3aに示された部分302において、第1領域及び第2領域を特定することを示す模式図である。図3bにおいて、図面の符号304は、第1領域の配置を示す。図3cにおいて、図面の符号305は、第1領域の配置を示す。
一つの実施例において、特定手段101は、ある種の領域配置に基づいて入力画像の異なっている位置において第1領域及び第2領域を特定することができる。次に、この種の領域配置における領域の大きさ及び/または領域の縦横比を変更することによって、新しい領域配置を取得するとともに、新しい領域配置に基づいて入力画像の異なっている位置において、第1領域及び第2領域を特定する。この種の領域配置のすべての可能な領域の大きさ又は領域の縦横比が試みられるまで、この過程を繰り返す。
更に、又は、選択可能に、前記実施例において、特定手段101は、領域配置における領域の相対位置関係を変更することによって、新しい領域配置を取得することができる。
更に、又は、選択可能に、前記実施例において、特定手段101は、領域配置における領域の数を変更することによって、新しい領域配置を取得することができる。
更に、又は、選択可能に、前記実施例において、特定手段101は、領域配置における領域の形状を変更することによって、新しい領域配置を取得することができる。
特定手段101がある種の領域配置に基づいて入力画像のある位置において特定した第1領域及び第2領域は、一つの抽出しようとする特徴を決めた。概括に言うと、少なくとも二つの特徴が基づいた領域は異なっているものである。例えば、異なる領域配置間の区別は、領域の相対位置関係、領域の数、領域の形状、領域の大きさ、領域の縦横比のうちの一つ又は複数を含むことができる。
図1に戻ると、差算出手段102は、特定手段101が各領域配置のそれぞれに基づいて入力画像における各位置において特定した第1領域及び第2領域に対して、第1領域の画素和間又は平均値(階調)間の第1差dx、及び第2領域の画素和間または平均値(階調)間の第2差dyを算出する。
例えば、図2a及び2bに示された領域配置に対して、下式により第1差及び第2差を算出することができる。
第1差=矩形ブロック202の画素和、又は平均値−矩形ブロック201の画素和、又は平均値、
第2差=矩形ブロック202の画素和、又は平均値−矩形ブロック201の画素和、又は平均値。
また、例えば、図2c及び2dに示した領域配置に対して、下式により第1差及び第2差を算出することができる。
第1差=矩形ブロック206の画素和、又は平均値−矩形ブロック205の画素和、又は平均値、
第2差=矩形ブロック208の画素和、又は平均値−矩形ブロック207の画素和、又は平均値。
また、例えば、図2e及び2fに示された領域配置に対して、下式により第1差及び第2差を算出することができる。
第1差=矩形ブロック209の画素和、又は平均値+矩形ブロック211の画素和、又は平均値―矩形ブロック210の画素和または平均値×2、
第2差=矩形ブロック212の画素和、又は平均値+矩形ブロック214の画素和、又は平均値−矩形ブロック213の画素和または平均値×2。
また、例えば、図2g及び2hに示された領域配置に対して、下式により第1差及び第2差を算出することができる。
第1差=矩形ブロック216の画素和、または平均値―矩形ブロック215の画素和、又は平均値、
第2差=矩形ブロック218の画素和、又は平均値―矩形ブロック217の画素和、又は平均値。
軸方向における領域の画素和間、又は平均値(階調)間の差を算出する目的として、相応する軸方向における画素階調の変化を反映する情報を取得することにある。異なっている領域配置に対して、このような変化を反映することができれば、第1差及び第2差を算出する相応の方法を有することができる。
図1に戻ると、勾配算出手段103は、差算出手段により計算された第1差及び第2差に基づいて、勾配の大きさ及び勾配方向を算出して、抽出される特徴を形成する。下式により勾配の方向及び大きさを算出することができる。
上式(1)により、勾配方向の角度範囲は0〜180度である。選択可能な実施例において、下式により勾配方向を算出することができる。
上式(1’)により、勾配方向の角度範囲は、0〜360度である。
図4aは、図3aに示した部分302に含まれた対象エッジ輪郭を示している模式図である。図4aに示したように、エッジ401は部分302に含まれたエッジ輪郭を模式的に示す。
図4bは、勾配算出手段103が、差算出手段102が図3bおよび3cに示した第1領域および第2領域に基づいて算出した第1差および第2差に基づいて算出した勾配方向を示している模式図である。図4bにおいて、斜線402の法線403は、算出した勾配方向を示す。
二つの方向に沿って配置した、協同して定位した領域の画素によって勾配方向および勾配の大きさを含む特徴を算出することで、抽出された特徴は、相応する画像部分における対象エッジの分布をより真実的に反映することができる。それに応じて、このような特徴に基づいて生成された分類器は、画像における、例えば、人または動物の対象、特に各種の姿勢を有する対象をよりロバストに検出することができる。
入力画像ごとに抽出したすべての特徴は、一つの特徴ベクトルを形成する。
図1に戻ると、訓練手段104は、抽出された特徴ベクトルに基づいて分類器を訓練する。
方向性勾配ヒストグラムを採用することができ、例えばSVM(サポートベクターマシン)による機械学習方法で、前記実施例において取得した特徴ベクトルに基づいて分類器を訓練する。Dalalらの「Histograms of Oriented Gradients for Human Detection」,Proc.of IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2005:886 −893及びTriggsらの「Human Detection Using Oriented Histograms of Flow and Appearance」,Proc. European Conference on Computer Vision, 2006の文献においてこのような勾配特徴に基づいて分類器を訓練する方法を記述した。
図5は、本発明の一実施例による、対象画像と非対象画像とを区別するための分類器を生成する方法500を示すフローチャートである。
図5に示したように、方法500はステップ501からスタートする。ステップ503、505及び507は、現在の入力画像から1グループの特徴を抽出して特徴ベクトルとするために用いられる。ステップ503において、特徴ベクトルの各特徴のそれぞれに対して、第1軸の方向に沿って配置した複数の第1領域と、前記の第1軸と交差する(例えば、直角または非直角で交差する)第2軸の方向に沿って配置した複数の第2領域とを特定する。
図1に基づいた説明ように、Dingらのテーマが「A Robust Human Face Detecting Method In Complicated Background Image」である特許出願WO 2008/151470に開示された方法(明細書第2ページ乃至第3ページを参照)により、対象画像と非対象画像とを含む入力画像を収集し及び準備する。
第1領域及び第2領域の配置は、前記の図1に基づいた実施例の説明における領域配置であってもよい。
ステップ503において、入力画像の異なっている位置における大きさの異なっている部分内において第1領域及び第2領域を特定して、当該部分内のエッジ輪郭特徴を取得するようにすることができる。
方法500の一つの修正実施例において、ステップ503には、ある種の領域配置に基づいて入力画像の異なっている位置において第1領域と第2領域とを特定することができる。次に、この種の領域配置における、領域の大きさ及び/または領域の縦横比を変更することによって新しい領域配置を取得し、さらに新しい領域配置に基づいて、入力画像の異なっている位置において第1領域と第2領域とを特定する。この種の領域配置の、すべての可能な領域の大きさまたは領域の縦横比が試みられるまで、この過程を繰り返す。
更に、又は、選択可能に、前記実施例においてステップ503は領域配置における領域の相対位置関係を変更することによって新しい領域配置を取得することができる。
更に、又は、選択可能に、前記実施例においてステップ503は領域配置における領域の数を変更することによって新しい領域配置を取得することができる。
更に、又は、選択可能に、前記実施例においてステップ503は領域配置における領域の形状を変更することによって新しい領域配置を取得することができる。
ステップ503において、ある種の領域配置に基づいて入力画像におけるある位置において特定した第1領域及び第2領域は、一つの抽出しようとする特徴を決めた。概括に言うと、少なくとも二つの特徴が基づいた領域配置は異なっている。例えば、異なる領域配置間の区別は、領域の相対位置関係、領域の数、領域の形状、領域の大きさ、領域の縦横比のうちの一つまたは複数を含むことができる。
ステップ505において、第1領域の画素和間または平均値間の第1差と、第2領域の画素和間または平均値間の第2差を算出する。前記の図1に基づいた実施例の説明の方法により、第1差及び第2差を算出することができる。
ステップ507において、算出した第1差及び第2差に基づいて、勾配の大きさ及び勾配方向を算出して、抽出される特徴を形成する。公式(1)(または(1’))及び(2)により勾配方向及び勾配の大きさを算出することができる。
次に、ステップ509において、現在の入力画像に対して、抽出されていない特徴が存在するか否かを特定する。存在すると、ステップ503に戻って、次の特徴を抽出する過程を実行する。そうでないと、ステップ511を実行する。
ステップ511において、特徴ベクトルの抽出されていない入力画像が存在するか否かを特定する。存在すると、ステップ503に戻って、次の入力画像の特徴ベクトルを抽出する過程を実行する。そうでないと、方法は、ステップ513に進む。
方法500では、二つの方向に沿って配置した、協同して定位された領域の画素により勾配方向および勾配の大きさを含む特徴を算出することで、抽出された特徴は、相応する画像部分における対象エッジの分布をより真実的に反映することができる。それに応じて、このような特徴に基づいて生成された分類器は、画像における、例えば、人または動物の対象、特に各種の姿勢を有する対象をよりロバストに検出することができる。
入力画像ごとに抽出したすべての特徴は、一つの特徴ベクトルを形成する。
ステップ513において、抽出された特徴ベクトルに基づいて分類器を訓練する。
方向性勾配ヒストグラムを採用することができ、例えばSVM(サポートベクターマシン)による機械学習方法で、前記実施例において取得した特徴ベクトルに基づいて分類器を訓練する。例えば、Dalalらの「Histograms of Oriented Gradients for Human Detection」,Proc.of IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2005:886 −893及びTriggsらの「Human Detection Using Oriented Histograms of Flow and Appearance」,Proc. European Conference on Computer Vision, 2006の文献においてこのような勾配特徴に基づいて分類器を訓練する方法を記述した。
方法500は、ステップ515において終了する。
以下に説明するように、方向性勾配ヒストグラムを採用せずに前記実施例において取得した勾配特徴に基づいて分類器を訓練してもよい。
図6のブロック図は、本発明の一つの好適実施例による、対象と非対象とを区別するための分類器を生成する訓練手段104の構造を示している。
図6に示したように、訓練手段104は、変換手段601と分類器生成手段602とを含む。
変換手段601は、複数の特徴ベクトルのうちの少なくとも一つの次元の特徴に対して変換を行う。おな、変換される特徴は、勾配方向及び勾配の大きさを含む。例えば、特徴ベクトルは、前記の図1及び図5を参照して説明した実施例において生成した特徴ベクトルであってもよい。変換手段601により行われた変換は、勾配方向を、複数の予め定められた区間のうち当該勾配方向の属する区間に変換することを含む。
例えば、勾配方向の角度範囲(即ち、複数の予め定められた区間の角度により覆われた範囲)は180度である。この範囲を若干の予め定められた区間(勾配方向区間とも称す)に区分することができ、例えば、0〜60度と、60〜120度と、120〜180度との三つの区間に区分することができる。勿論、ほかの区分にしてもよい。勾配方向の角度範囲は360度となってもよい。予め定められた区間の数は3〜15であることは好ましい。予め定められた数が大きいほど、角度の区分が細かくなり、より強い分類能力(より低い誤り率)が得られることにより有利となる。しかしながら、検出する際に過剰学習現象がより生じやすくなり、分類効果が悪化するとなる。予め定められた区間の数が小さいほど、角度の区分が粗くなり、分類能力が弱くなるが、角度の変化に敏感しなくなり、姿勢変化に対するロバスト性を高めるに有利である。具体的な実現の需要に応じて分類能力と姿勢のロバスト性との間で折衷を取って、予め定められた区間の数を特定することができる。
変換手段601は、特徴の勾配方向が位置する区間に基づいて、勾配方向を相応する区間に変換する。
仮に、N個の予め定められた区間があり、特徴ベクトルは<f, …, f>と示され、fは、勾配の大きさIと勾配方向Oとを含む。変換しようとする特徴fに対し、変換された特徴はf’と示され、f’は、勾配の大きさI と区間Rとを含む。
各特徴ベクトルの同一次元の特徴fに基づいて当該次元に相応する分類器を生成することができる。当該分類器は、h(I, O)と示すことができ、Iは勾配の大きさを示し、Oは勾配方向を示す。分類器は、それぞれN個の予め定められた区間Kに対応するN個の分類器hij(I)を含み、ここで、0<j<N+1であり、その勾配方向が相応の予め定められた区間に属する特徴に対して分類を行うために用いられる。各サブ分類器のそれぞれhij(I)は、相応の閾値θijと、当該閾値に基づいて特定された分類aij及びbij(対象、非対象)とを有する。hij(I)の処理は、以下のように示されることができ、即ち、I<θijである場合、hij(I)= aijなり、そうでないと、hij(I)= bijとなる。各サブ分類器のそれぞれhij(I)に対し、各変換された特徴ベクトルの特徴f’のうち区間Rと区間Kとが同じである特徴の勾配の大きさの分布に基づいて学習して、閾値θijと、分類aij及びbijとが得られる。
分類器生成手段602は、前記の少なくとも一つの次元の各次元に対して、それぞれ前記予め定められた区間のサブ分類器に対応する分類器を生成する。なお、前記の予め定められた区間毎に対して、前記特徴ベクトルのうちその区間が前記予め定められた区間と同じである当該次元の特徴の勾配の大きさの分布に基づいて、相応するサブ分類器の閾値と、当該閾値に基づいて特定した分類とを取得する。選択可能に、特定された分類和の信頼性の度量をさらに取得することもできる。
一つの簡単の実現において、一つの次元のみに対して変換及び分類器の生成を行い、生成された分類器を、対象画像と非対象画像とを区別するための分類器とする。
好ましくは、前記の少なくとも一つの次元は、特徴ベクトルの少なくとも二つの次元またはすべての次元を含むことができる。この場合は、次元毎に相応する分類器をそれぞれ生成するとともに、生成された各分類器により、最終の分類器を取得することができる。
既知の方法により各次元に対応する分類器を最終の分類器に組み合わせることができる。例えば、Adaboost方法は、分類用の方法であり、各次元に対して生成した分類器を一緒に融合して、新しい非常に強い分類器を組み合わせることができる。
Adaboost方法では、サンプル毎に重みを付け、繰り返し方法により分類器を組み合わせる。毎回繰り返し行う時に、分類器が幾らかのサンプルに対する分類を正確にを行うと、これらのサンプルの重み値を減少し、誤った分類を行うと、これらのサンプルの重みを増やして、学習アゴリズムは後続の学習において難しい訓練サンプルに集中して学習するようにして、最終には、認識の正確率が満足である分類器を取得する。
Paul Viola及びMichael Jonesの文章“Robust Real−time Object Detection”,Second International Workshop On Statistical And Computational Theories Of Vision − Modeling, Learning, Computing, And Sampling,Vancouver, Canada, July 13, 2001においてこのような、複数の分類器を選択、融合して最終の分類器を形成する技術が記載されている。
一つの好適な実施例において、予め定められた区間の一つとしては、弱い勾配を代表する区間がある。この場合に、変換手段601は、特徴の勾配大きさが予め定められた閾値より小さい場合に、勾配方向を弱い勾配を代表する区間に変換する。弱い勾配を代表する区間に相応するサブ弱分類器に対して、勾配の大きさにかかわらず、特徴を非対象に分類する。
図7は、本発明の一つの好適な実施例による、対象画像と非対象画像とを区別するための分類器を生成する訓練方法700を示すフローチャートである。
図7に示したように、方法700は、ステップ701からスタートする。ステップ703において、複数の特徴ベクトルの少なくとも一つの次元の特徴に対して変換を行い、変換される特徴は、勾配方向と勾配の大きさとを含む。例えば、特徴ベクトルは、前の図1及び図5を参照して説明した実施例において生じた特徴ベクトルであってもよい。行われた変換は、勾配方向を複数の予め定められた区間のうち当該勾配方向が属する区間に変換することを含む。
ステップ705において、変換された特徴ベクトルの現在の次元に対し、それぞれ前記の予め定められた区間に対応するサブ分類器を含む分類器を生成する。なお、前記の予め定められた区間毎に対して、前記特徴ベクトルうちその区間が前記予め定められた区間と同じである現在の次元の特徴の勾配大きさの分布に基づいて、相応するサブ分類器の閾値と、当該閾値に基づいて特定した分類とを取得する。選択可能に、特定された分類和の信頼性の度量をさらに取得することもできる。
ステップ707において、分類器を生成していない次元があるか否かを特定する。ある場合に、ステップ705へ戻って、次の次元の分類器を生成し、そうでないと、方法はステップ709において終了する。
一つの簡単な実現において、一つの次元のみに対して変換及び分類器の生成を行い、生成された分類器が、対象画像と非対象画像とを区別するための分類器とされる。
好ましくは、前記の少なくとも一つの次元は、特徴ベクトルの少なくとも二つの次元またはすべての次元を含むことができる。この場合は、次元ごとに相応する分類器をそれぞれ生成するとともに、生成された各分類器に基づいて最終の分類器を取得することができる。
既知の方法により各次元に対応する分類器を最終の分類器に組み合わせることができる。例えば、Paul ViolaらのAdaBoost方法により、生成された分類器に基づいて最終の分類器を形成する。
一つの好適な実施例において、予め定められた区間の一つとしては、弱い勾配を代表する区間がある。この場合に、ステップ703において、特徴の勾配大きさが予め定められた閾値より小さい場合には、勾配方向を弱い勾配を代表する区間に変換する。弱い勾配を代表する区間に相応するサブ弱分類器に対して、勾配の大きさにかかわらず、特徴を非対象に分類する。
図8のブロック図は、本発明の一実施例による、画像に対して分類を行う装置800の構造を示す。
図8に示したように、装置800は、特定手段801と、差算出手段802と、勾配算出手段803と、分類手段804とを含む。
装置800に入力される画像は、スキャンウインドウにより処理しようとする画像から予め定められたサイズを取得した画像であってもよい。Dingらのテーマが「A Robust Human Face Detecting Method In Complicated Background Image」である特許出願WO 2008/151470に記述した方法で画像を取得することができる(明細書第5ページを参照)。
この実施例において、抽出しようとする特徴ベクトルは、分類手段804が使用した分類器が基づいた特徴ベクトルである。
特徴手段801は、前記特徴ベクトルの各特徴のそれぞれに対して、第1軸の方向に沿って配置した複数の第1領域と、前記第1軸と交差(例えば、直角または非直角で交差する)する第2軸の方向に沿って配置した複数の第2領域とを特定する。
特徴手段801が基づいた第1領域及び第2領域の領域配置は、前記特徴手段801を結合して記述した領域配置であってもよい。
差算出手段802は、特徴手段801が各領域配置のそれぞれに基づいて入力画像における各位置において特定した第1領域及び第2領域に対して、第1領域の画素和間または平均値(階調)間の第1差dxと、第2領域の画素和間または平均値(階調)間の第2差dyとを算出する。公式(1)(または(1’))及び(2)に基づいて勾配方向及び勾配の大きさを算出することができる。
勾配算出手段803は、差算出手段802により算出された第1差及び第2差に基づいて勾配の大きさ及び勾配方向を算出して、抽出される特徴を形成する。勾配算出手段103を結合して記述した方法により、勾配の大きさ及び勾配方向を算出することができる。
入力画像に対して抽出したすべての特徴は、一つの特徴ベクトルを形成する。分類手段804は、抽出された特徴ベクトルに基づいて、入力画像に対して分類を行う。分類手段804が採用する分類器は、前の実施例において生成された分類器であってもよい。例えば、方向性勾配ヒストグラムを採用して生成した分類器や勾配方向区間に基づいて生成された分類器である。
図9は、本発明の一つの実施例による、画像に対して分類を行う方法900を示すフローチャートである。
図9に示したように、方法900はステップ901からスタートする。ステップ903、905及び907は、現在の入力画像から1グループの特徴を抽出して特徴ベクトルとするために用いられる。抽出しようとする特徴ベクトルは、使用される分類器が基づいた特徴ベクトルである。入力画像は、スキャンウインドウにより処理しようとする画像から予め定められたサイズを取得した画像であってもよい。Dingらのテーマが「A Robust Human Face Detecting Method In Complicated Background Image」である特許出願WO 2008/151470に記述した方法で画像を取得することができる(明細書第5ページを参照)。
ステップ903において、前記特徴ベクトルの各特徴のそれぞれに対して、第1軸の方向に沿って配置した複数の第1領域と、前記第1軸と交差(例えば、直角または非直角で交差する)する第2軸の方向に沿って配置した複数の第2領域とを特定する。ステップ903が基づいた第1領域及び第2領域の領域配置は、前の特定手段101を結合して記述した領域配置であってもよい。
次にステップ907において、計算された第1差と第2差に基づいて勾配の大きさ及び勾配方向を計算して、抽出される特徴を形成する。公式(1)(または(1’))及び(2)に基づいて勾配方向及び勾配の大きさを算出することができる。
次に、ステップ909において、現在の入力画像に対して、抽出されていない特徴が存在するか否かを特定する。存在すると、ステップ903に戻って、次の特徴を抽出する過程を実行する。そうでないと、ステップ901を実行する。
入力画像に対して抽出したすべての特徴は、一つの特徴ベクトルを形成する。ステップ911において、抽出された特徴ベクトルに基づいて、入力画像に対して分類を行う。ステップ911が採用する分類器は、前の実施例において生成された分類器であってもよい。例えば、方向性勾配ヒストグラムを採用して生成した分類器や勾配方向区間に基づいて生成された分類器である。
方法900はステップ913において終了する。
図10のブロック図は、本発明の一つの好適な実施例による分類手段104の構造を示す。
図12に示したように、分類手段104は、分類器1001乃至100Mを含み、Mは、抽出される特徴ベクトルにおける特徴の数である。各分類器のそれぞれが一つの特徴に対応する。分類器1001乃至100Mは、前に図6を参照して記述した分類器であってもよい。分類器1001を例として、分類器1001は、複数のサブ分類器1001−1乃至1001−Nを含む。前に図6を参照して記述したように、サブ分類器1001−1乃至1001−Nのそれぞれは一つの異なっている勾配方向区間に対応し、且つ各勾配方向区間のそれぞれは相応する閾値を有する。
抽出された特徴ベクトルの各特徴のそれぞれに対して、相応の分類器(例えば分類器1001)において、当該特徴の勾配方向が属する一つのサブ分類器(例えばサブ分類器1000−1乃至1001−Nのうちの一つ)が対応する勾配方向区間である場合に、当該サブ分類器により当該特徴の勾配の大きさ及び当該勾配方向区間の相応の閾値を比較し、さらに、比較結果によって分類結果を生じる。分類結果は、画像の分類(対象、非対象)であってもよい。選択可能に、分類結果は、画像分類の信頼性をさらに含むこともできる。
示されていない手段において、既知の方法により、各分類器が特徴ベクトルの相応の特徴に基づいて生じた分類結果を最終の分類結果に組み合わせることができる。例えば、Adaboost方法を採用することができる。
図11は、本発明の一つの好適な実施例による分類方法を示すフローチャートである。当該方法は、図9のステップ911を実現することができる。
図11に示したように、方法はステップ1101からスタートする。ステップ103において、抽出された特徴ベクトルの一つの特徴に対して、当該特徴と関連する複数の勾配方向区間(例えば、図6を基づいて記述したもの)のうち当該特徴の勾配方向が属する勾配方向区間を特定する。図6に基づいて記述したように、各勾配方向区間のそれぞれは、相応する閾値を有する。
ステップ1105において当該特徴の勾配の大きさ及び特定された勾配方向区間の相応の閾値を比較する。
ステップ1107において、比較結果により分類結果を生成する。分類結果は、画像の分類(対象、非対象)であってもよい。選択可能に、分類結果は、画像分類の信頼性をさらに含むこともできる。
ステップ1109において、特徴ベクトルにおいてまだ処理されていない特徴があるか否かを特定する。ある場合に、ステップ1103へ戻り、続いて次の特徴を処理する。ない場合に、方法は、ステップ1111において終了する。
図12は、本発明を実現するコンピュータの例示的な構造のブロック図である。
本発明の装置及び方法の実現環境は、図12のように示される。
図12において、中央処理ユニット(CPU)1201は、リードオンリメモリ(ROM)1202に記憶されたプログラムまたは記憶部1208からランダムアクセスメモリ(RAM)1203にロードしたプログラムに基づいて、各種の処理を実行する。RAM1203において、必要に応じて、CPU1201が各種の処理等を実行するときに必要なデータも記憶される。
CPU1201、ROM1202及びRAM1203はバス1204を介して互いに接続される。入力/出力インターフェース1205もバス1204に接続される。
入力部1206(キーボード、マウス等を含む)と、出力部1207(ディスプレイ、例えばブラウン管(CRT)、液晶ディスプレイ(LCD)等とスピーカ等を含む)と、記憶部1208(ハードディスク等を含む)と、通信部1209(ネットワークインターフェースカード、例えばLANカード、モデム等を含む)とは、入力/出力インタフェース1105に接続されている。通信部1209はネットワーク、例えばインターネットを経由して通信処理を実行する。
必要に応じて、入力/出力インタフェース1105にはドライブ1210も接続されている。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等のような取り外し可能な媒体1211は、必要に応じてドライブ1210に取り付けられており、その中から読み出されたコンピュータプログラムが必要に応じて記憶部1208にインストールされる。
ソフトウェアで前記のステップ及び処理を実現する場合、ネットワーク例えばインターネット、又は記憶媒体例えば取り外し可能な媒体1211からソフトウェアを構成するプログラムをインストールする。
このような記憶媒体は、図12に示されたような、その中にプログラムが記憶されているものであって、デバイスから離れて配送されることでユーザにプログラムを提供する取り外し可能な媒体1211に限定されないことは、当業者が理解すべきである。取り外し可能な媒体1211の例として、磁気ディスク、光ディスク(コンパクトディスクリードオンリーメモリ(CD−ROM)やディジタルヴァーサタイルディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD))を含む)及び半導体メモリを含む。または、記憶媒体はROM1202、記憶部1208に含まれるハードディスクなどであっても良い。その中にプログラムが記憶されており、且つこれらを含むデバイスと一緒にユーザに配送される。
前記の明細書において、特定の実施例を参照しながら本発明を説明したが、特許請求の範囲に限定された本発明の範囲を逸脱しない前提で各種の修正及び変更を行えることは、当業者が理解すべきである。

Claims (14)

  1. 画像を分類する方法であって、
    前記画像から、特徴ベクトルの各特徴のそれぞれに対して、第1軸の方向に沿って配置された複数の第1領域と、前記第1軸と交差する第2軸の方向に沿って配置された複数の第2領域とを特定することと、
    前記の複数の第1領域の画素和間または平均値間の第1差と、前記の複数の第2領域の画素和間または平均値間の第2差とを算出することと、
    前記の第1差及び第2差に基づいて勾配の大きさ及び勾配の方向を算出して、前記の各特徴のそれぞれを形成するようにすることで1グループの特徴を抽出して特徴ベクトルとすることと、
    前記の抽出された特徴ベクトルにより、前記画像に対して分類を行うこと、
    を含む方法。
  2. 前記領域は矩形領域であり、前記第1領域同士は接しており、且つ第2領域同士は接している請求項1に記載の方法。
  3. 前記第1領域の数及び前記第2領域の数のいずれも2であり、前記第1領域同士が接しており、且つ第2領域同士が接している場合に、前記第1軸と第2軸との交点は、前記第1領域の接続線上または接続点からの予め定められた範囲内に位置するとともに、前記第2領域の接続線上または接続点からの予め定められた範囲内に位置し、
    前記第1領域の数及び前記第2領域の数のいずれも2であり、前記第1領域同士は間隔を有しており、且つ前記第2領域同士は間隔を有している場合に、前記第1軸と第2軸との交点は、前記第1領域の位置中心間の中点及び前記第2領域の位置中心間の中点からの予め定められた範囲内に位置し、
    前記第1領域の数及び前記第2領域の数のいずれも3である場合に、前記第1軸と第2軸との交点は、前記第1領域のうち中間にある第1領域内及び前記第2領域のうち中間にある第2領域内にそれぞれ位置する請求項1に記載の方法。
  4. 少なくとも二つの前記特徴が基づいた領域配置間の区別には、領域の相対位置関係、領域の数、領域の形状、領域の大きさ、領域の縦横比のうちの一つまたは複数を含む請求項1に記載の方法。
  5. 前記画像に対して分類を行うことは、
    前記各特徴のそれぞれに対して、前記特徴と関連する複数の勾配方向区間のうち前記特徴の勾配方向の属する勾配方向区間を特定することと、
    前記特徴の勾配の大きさ及び特定された勾配方向区間の相応の閾値を比較することと、
    比較結果により分類結果を生じること、
    を含む請求項1に記載の方法。
  6. 前記の複数の勾配方向区間の数は3〜15である請求項5に記載の方法。
  7. 複数の勾配方向区間により覆われた範囲は、180度または360度である請求項5に記載の方法。
  8. 画像に対して分類を行う装置であって、
    前記装置は、前記画像から、1グループの特徴を抽出して特徴ベクトルとし、且つ、
    前記特徴ベクトルの各特徴のそれぞれに対して第1軸の方向に沿って配置された複数の第1領域と、前記第1軸と交差する第2軸の方向に沿って配置された複数の第2領域とを特定する特定手段と、
    前記の複数の第1領域の画素和間または平均値間の第1差と、前記の複数の第2領域の画素和間または平均値間の第2差とを算出する差分算出手段と、
    前記の第1差及び第2差に基づいて勾配の大きさ及び勾配の方向を算出して前記の各特徴のそれぞれを形成する勾配算出手段と、
    前記抽出された特徴ベクトルにより画像に対して分類する分類手段と、
    を含む装置。
  9. 前記領域は矩形領域であり、前記第1領域同士は接しており、且つ前記第2領域同士は接している請求項8に記載の装置。
  10. 前記第1領域の数及び前記第2領域の数のいずれも2であり、前記第1領域同士が接しており、且つ第2領域同士が接している場合に、前記第1軸と第2軸との交点は、前記第1領域の接続線上または接続点からの予め定められた範囲内に位置するとともに、前記第2領域の接続線上または接続点からの予め定められた範囲内に位置し、
    前記第1領域の数及び前記第2領域の数のいずれも2であり、前記第1領域同士は間隔を有しており、且つ前記第2領域同士は間隔を有している場合に、前記第1軸と第2軸との交点は、前記第1領域の位置中心間の中点及び前記第2領域の位置中心間の中点からの予め定められた範囲内に位置し、
    前記第1領域の数及び前記第2領域の数のいずれも3である場合に、前記第1軸と第2軸との交点は、前記第1領域のうち中間にある第1領域内及び前記第2領域のうち中間にある第2領域内にそれぞれ位置する請求項8に記載の装置。
  11. 少なくとも二つの前記特徴が基づいた領域配置間の区別には、領域の相対位置関係、領域の数、領域の形状、領域の大きさ、領域の縦横比のうちの一つまたは複数を含む請求項8に記載の装置。
  12. 前記各特徴のそれぞれに対して、前記分類手段は相応する分類器を含み、前記分類器は、
    それぞれが一つの異なっている勾配方向区間に対応する複数のサブ分類器を含み、
    各サブ分類器のそれぞれは、前記特徴の勾配方向が、前記サブ分類器に対応する勾配方向区間に属する場合に、前記特徴の勾配の大きさ及び前記勾配方向区間の相応の閾値を比較して、比較結果により分類結果を生成するように配置される請求項8に記載の装置。
  13. 前記勾配方向区間の数は3〜15である請求項12に記載の装置。
  14. 前記勾配方向区間のすべてにより覆われた範囲は、180度または360度である請求項12に記載の装置。

JP2012511134A 2009-05-20 2010-05-18 画像分類方法、装置、プログラム製品および記憶媒体 Expired - Fee Related JP5545361B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200910135298.6 2009-05-20
CN200910135298.6A CN101894262B (zh) 2009-05-20 2009-05-20 对图像进行分类的方法和设备
PCT/CN2010/072867 WO2010133161A1 (zh) 2009-05-20 2010-05-18 对图像进行分类的方法和设备

Publications (2)

Publication Number Publication Date
JP2012527664A true JP2012527664A (ja) 2012-11-08
JP5545361B2 JP5545361B2 (ja) 2014-07-09

Family

ID=43103450

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012511134A Expired - Fee Related JP5545361B2 (ja) 2009-05-20 2010-05-18 画像分類方法、装置、プログラム製品および記憶媒体

Country Status (5)

Country Link
US (1) US20120093420A1 (ja)
EP (1) EP2434431A1 (ja)
JP (1) JP5545361B2 (ja)
CN (1) CN101894262B (ja)
WO (1) WO2010133161A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9767354B2 (en) 2009-02-10 2017-09-19 Kofax, Inc. Global geographic information retrieval, validation, and normalization
US9036903B2 (en) * 2010-01-06 2015-05-19 Nec Corporation Learning device, identification device, learning identification system and learning identification device
CN102609713A (zh) * 2011-01-20 2012-07-25 索尼公司 对图像进行分类的方法和设备
US8781221B2 (en) 2011-04-11 2014-07-15 Intel Corporation Hand gesture recognition system
WO2013063765A1 (en) * 2011-11-01 2013-05-10 Intel Corporation Object detection using extended surf features
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US9165188B2 (en) 2012-01-12 2015-10-20 Kofax, Inc. Systems and methods for mobile image capture and processing
JP2013161126A (ja) * 2012-02-01 2013-08-19 Honda Elesys Co Ltd 画像認識装置、画像認識方法および画像認識プログラム
US9355312B2 (en) * 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US10127636B2 (en) 2013-09-27 2018-11-13 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US20140316841A1 (en) 2013-04-23 2014-10-23 Kofax, Inc. Location-based workflows and services
CN103345631B (zh) * 2013-06-04 2016-12-28 北京大学深圳研究生院 图像特征提取、训练、检测方法及模块、装置、系统
WO2015073920A1 (en) 2013-11-15 2015-05-21 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
US9830528B2 (en) * 2015-12-09 2017-11-28 Axis Ab Rotation invariant object feature recognition
CN108475338B (zh) * 2017-07-14 2020-04-14 深圳市柔宇科技有限公司 全景图像、视频的识别方法、分类器建立方法及电子装置
US11062176B2 (en) 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
JP6901386B2 (ja) * 2017-12-08 2021-07-14 株式会社東芝 勾配推定装置、勾配推定方法、プログラムおよび制御システム
US11315352B2 (en) * 2019-05-08 2022-04-26 Raytheon Company Calculating the precision of image annotations

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268825A (ja) * 2005-02-28 2006-10-05 Toshiba Corp オブジェクト検出装置、学習装置、オブジェクト検出システム、方法、およびプログラム
JP2007188294A (ja) * 2006-01-13 2007-07-26 Central Res Inst Of Electric Power Ind 画像処理による移動体候補の検出方法及び移動体候補から移動体を検出する移動体検出方法、移動体検出装置及び移動体検出プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5291563A (en) * 1990-12-17 1994-03-01 Nippon Telegraph And Telephone Corporation Method and apparatus for detection of target object with improved robustness
JP3606430B2 (ja) * 1998-04-14 2005-01-05 松下電器産業株式会社 画像整合性判定装置
JP2005044330A (ja) * 2003-07-24 2005-02-17 Univ Of California San Diego 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置
CN100405388C (zh) * 2004-05-14 2008-07-23 欧姆龙株式会社 特定被摄体检测装置
US7693301B2 (en) * 2006-10-11 2010-04-06 Arcsoft, Inc. Known face guided imaging method
KR101330636B1 (ko) * 2007-01-24 2013-11-18 삼성전자주식회사 얼굴시점 결정장치 및 방법과 이를 채용하는 얼굴검출장치및 방법
WO2008151470A1 (fr) * 2007-06-15 2008-12-18 Tsinghua University Procédé de détection robuste de visage humain dans une image d'arrière-plan compliquée
US8325983B2 (en) * 2008-09-22 2012-12-04 Samsung Electronics Co., Ltd. Combination detector and object detection method using the same
US20100091127A1 (en) * 2008-09-30 2010-04-15 University Of Victoria Innovation And Development Corporation Image reconstruction method for a gradient camera
JP2010204947A (ja) * 2009-03-03 2010-09-16 Toshiba Corp オブジェクト検出装置、オブジェクト検出方法、及び、プログラム
WO2010138645A2 (en) * 2009-05-29 2010-12-02 University Of Pittsburgh - Of The Commonwealth System Of Higher Education Blood vessel segmentation with three-dimensional spectral domain optical coherence tomography
US8509526B2 (en) * 2010-04-13 2013-08-13 International Business Machines Corporation Detection of objects in digital images

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268825A (ja) * 2005-02-28 2006-10-05 Toshiba Corp オブジェクト検出装置、学習装置、オブジェクト検出システム、方法、およびプログラム
JP2007188294A (ja) * 2006-01-13 2007-07-26 Central Res Inst Of Electric Power Ind 画像処理による移動体候補の検出方法及び移動体候補から移動体を検出する移動体検出方法、移動体検出装置及び移動体検出プログラム

Also Published As

Publication number Publication date
CN101894262B (zh) 2014-07-09
US20120093420A1 (en) 2012-04-19
CN101894262A (zh) 2010-11-24
EP2434431A1 (en) 2012-03-28
JP5545361B2 (ja) 2014-07-09
WO2010133161A1 (zh) 2010-11-25

Similar Documents

Publication Publication Date Title
JP5545361B2 (ja) 画像分類方法、装置、プログラム製品および記憶媒体
JP5709410B2 (ja) パターン処理装置及びその方法、プログラム
CN108334848B (zh) 一种基于生成对抗网络的微小人脸识别方法
CN110348319B (zh) 一种基于人脸深度信息和边缘图像融合的人脸防伪方法
CN106874894B (zh) 一种基于区域全卷积神经网络的人体目标检测方法
US10049262B2 (en) Method and system for extracting characteristic of three-dimensional face image
Xu et al. Combining local features for robust nose location in 3D facial data
CN105894047B (zh) 一种基于三维数据的人脸分类系统
Agarwal et al. Learning to detect objects in images via a sparse, part-based representation
JP4410732B2 (ja) 顔画像検出装置、顔画像検出方法および顔画像検出プログラム
JP5657113B2 (ja) 映像内のオブジェクトの意味解析
US7840037B2 (en) Adaptive scanning for performance enhancement in image detection systems
US20070172099A1 (en) Scalable face recognition method and apparatus based on complementary features of face image
US20070058836A1 (en) Object classification in video data
Zhou et al. Histograms of categorized shapes for 3D ear detection
JP2006524394A (ja) 画像における人体輪郭描写
JP2014093023A (ja) 物体検出装置、物体検出方法及びプログラム
CN111860309A (zh) 一种人脸识别方法及系统
CN112001448A (zh) 一种形状规则小物体检测方法
JP4749884B2 (ja) 顔判別装置の学習方法、顔判別方法および装置並びにプログラム
JP2004178569A (ja) データ分類装置、物体認識装置、データ分類方法及び物体認識方法
KR101473991B1 (ko) 얼굴 검출 방법 및 그 장치
KR20120040004A (ko) 텐서 보팅에 기반을 둔 컬러 클러스터링 시스템 및 그 방법
Wu et al. A two-level pose estimation framework using majority voting of gabor wavelets and bunch graph analysis
CN111860288B (zh) 人脸识别方法、装置及系统、可读存储介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130618

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130910

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140310

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140415

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140428

LAPS Cancellation because of no payment of annual fees