JP2009301104A - Object detecting apparatus - Google Patents

Object detecting apparatus Download PDF

Info

Publication number
JP2009301104A
JP2009301104A JP2008151709A JP2008151709A JP2009301104A JP 2009301104 A JP2009301104 A JP 2009301104A JP 2008151709 A JP2008151709 A JP 2008151709A JP 2008151709 A JP2008151709 A JP 2008151709A JP 2009301104 A JP2009301104 A JP 2009301104A
Authority
JP
Japan
Prior art keywords
feature
feature amount
input image
state
luminance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008151709A
Other languages
Japanese (ja)
Other versions
JP4997178B2 (en
Inventor
Hironobu Fujiyoshi
弘亘 藤吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chubu University
Original Assignee
Chubu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chubu University filed Critical Chubu University
Priority to JP2008151709A priority Critical patent/JP4997178B2/en
Publication of JP2009301104A publication Critical patent/JP2009301104A/en
Application granted granted Critical
Publication of JP4997178B2 publication Critical patent/JP4997178B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To improve accuracy of detection of an object in an object detecting apparatus in which feature amount based on intensity gradient is used. <P>SOLUTION: In the object detecting apparatus which calculates first feature amount of an area based on the intensity gradient of the area which is divided into a plurality of pieces within an input image, calculates second feature amount which combines the first feature amounts of a plurality of areas whose positions are different with each other, and identifies the object within the input image based on the second feature amount, the second feature amount is made to be input, then a weak identifier for identifying whether it is the object or not by the fact whether or not conditional probability of being the object to be calculated from weight of a learning sample is higher than conditional probability of being one except for the object. Then a first strong identifier for selecting the second feature amount useful for identifying the object is configured in each of all areas of the input image by a first AdaBoost using a plurality of weak identifiers, then combination of areas useful for identifying the object is selected from the second feature amount corresponding to all combination of the plurality of areas by second AdaBoost using the first strong identifier. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、入力画像から物体を検出する物体検出装置に関する。   The present invention relates to an object detection apparatus that detects an object from an input image.

近年、セキュリティやITS(Intelligent Transport System:高度道路交通システム)、マーケティングなどの分野で人検出の実現が期待され、多くの手法が提案されている。従来、人検出に用いられるアピアランス特徴として、局所領域における輝度の勾配方向をヒストグラム化した特徴ベクトルであるHOG(Histograms of Oriented Gradients)を用いた手法が提案されている(非特許文献1参照)。このHOGは、照明変動や影の影響を受けにくく、局所的な幾何学的変化に頑健であるため、HOGを用いた人検出手法が多く提案されている(非特許文献2〜4)。
N. Dalal and B. Triggs, “Histograms of Oriented Gradients for Human Detection”, IEEE Computer Vision and Pattern Recognition, pp. 886-893, 2005年 F.Suard and A.Broggi,“Pedestrian Detection using Infrared images and Histograms of Oriented Gradients”, IEEE Symposium on Intelligent Vehicule, pp. 206-212, Jun, 2006年 Q.Zhu,S.Avidan, M.Yeh and K.Cheng,“Fast Human Detection Using a Cascade of Histograms of Oriented Gradients”, IEEE Computer Vision and Pattern Recognition, Vol. 2, pp. 1491-1498, Jun, 2006年 小林拓也, 日高章理, 栗田多喜夫,“Histograms of Oriented Gradients を用いた対象識別での特徴選択”, 信学技報, Vol. 106, pp. 119-124, Mar, 2007年
In recent years, the realization of human detection is expected in the fields of security, ITS (Intelligent Transport System), marketing, etc., and many methods have been proposed. Conventionally, as an appearance feature used for human detection, a method using HOG (Histograms of Oriented Gradients), which is a feature vector in which the gradient direction of luminance in a local region is histogrammed, has been proposed (see Non-Patent Document 1). Since this HOG is not easily affected by illumination fluctuations and shadows and is robust against local geometric changes, many human detection methods using HOG have been proposed (Non-Patent Documents 2 to 4).
N. Dalal and B. Triggs, “Histograms of Oriented Gradients for Human Detection”, IEEE Computer Vision and Pattern Recognition, pp. 886-893, 2005 F. Suard and A. Broggi, “Pedestrian Detection using Infrared images and Histograms of Oriented Gradients”, IEEE Symposium on Intelligent Vehicule, pp. 206-212, Jun, 2006 Q.Zhu, S.Avidan, M.Yeh and K.Cheng, “Fast Human Detection Using a Cascade of Histograms of Oriented Gradients”, IEEE Computer Vision and Pattern Recognition, Vol. 2, pp. 1491-1498, Jun, 2006 Year Takuya Kobayashi, Akinori Hidaka, Takio Kurita, “Feature Selection for Object Identification Using Histograms of Oriented Gradients”, IEICE Technical Report, Vol. 106, pp. 119-124, Mar, 2007

しかしながら、HOG特徴のようなローレベル(low-lebel)な特徴は、単一の特徴のみでは検出対象の識別に困難なパターンが存在する場合がある。   However, a low-level feature such as an HOG feature may have a pattern that is difficult to identify a detection target using only a single feature.

そこで、本発明は上記点に鑑み、輝度勾配に基づく特徴量を用いた物体検出装置において、物体の検出精度を向上させることを目的とする。   Therefore, in view of the above points, the present invention has an object of improving the object detection accuracy in an object detection apparatus using a feature amount based on a luminance gradient.

上記目的を達成するため、本発明の請求項1に記載の発明では、入力画像中を複数に分割した領域の輝度勾配に基づいて前記領域の第1の特徴量を算出する第1の特徴量算出手段と、位置が異なる複数の前記領域の前記第1の特徴量同士を組み合わせた第2の特徴量を算出する第2の特徴量算出手段と、前記第2の特徴量に基づいて前記入力画像から検出対象である物体を検出する識別手段と、学習サンプルを前記入力画像として、学習により前記識別手段を構築する学習手段とを備え、
前記学習手段は、前記第2の特徴量を入力とし、予め設定された前記学習サンプルの重みから算出される前記物体である条件付き確率が前記物体以外である条件付き確率より高いか否かにより、前記物体又は前記物体以外とを識別する弱識別器を構築する弱識別器構築手段と、複数の前記弱識別器を用いた第1のアダブーストにより、前記入力画像のすべての前記領域それぞれにおいて、前記物体の識別に有用な前記第2の特徴量を選択する第1強識別器を構築する第1強識別器構築手段と、前記第1強識別器を用いた第2のアダブーストにより、複数の前記領域のすべての組み合わせに対応する前記第2の特徴量から、前記物体の識別に有用な前記領域の組み合わせを選択する第2強識別器構築手段とを備えて構成されており、
前記識別手段は、第2強識別器構築手段により選択された前記領域の組み合わせに対応する前記第2の特徴量に基づいて、前記入力画像から前記物体を検出することを特徴としている。
In order to achieve the above object, according to the first aspect of the present invention, the first feature value for calculating the first feature value of the region based on the luminance gradient of the region obtained by dividing the input image into a plurality of regions. A calculating means; a second feature quantity calculating means for calculating a second feature quantity by combining the first feature quantities of the plurality of regions having different positions; and the input based on the second feature quantity. An identification unit that detects an object to be detected from an image; and a learning unit that constructs the identification unit by learning using a learning sample as the input image,
The learning means receives the second feature amount and determines whether a conditional probability that is the object calculated from a weight of the learning sample set in advance is higher than a conditional probability that is other than the object. In each of the regions of the input image, a weak classifier construction unit that constructs a weak classifier that identifies the object or other than the object, and a first Adaboost using a plurality of the weak classifiers, A first strong classifier constructing unit that constructs a first strong classifier that selects the second feature quantity useful for identifying the object, and a second AdaBoost using the first strong classifier, so that a plurality of A second strong classifier construction unit that selects combinations of the regions useful for identifying the object from the second feature values corresponding to all combinations of the regions; and
The discriminating unit detects the object from the input image based on the second feature amount corresponding to the combination of the regions selected by the second strong discriminator constructing unit.

このように、位置が異なる複数の領域の第1の特徴量同士を組み合わせた第2の特徴量を用いることで、複数箇所で同時に第1の特徴量を捉えることができるので、自動的に検出対象の外観上の特徴を捉えやすくなり、識別精度を向上させることができる。さらに、2段階のアダブーストを用いることで、検出対象の識別に有効な第2の特徴量のみを選択することができ、高精度な識別が可能となる。   In this way, by using the second feature value obtained by combining the first feature values of a plurality of regions having different positions, the first feature value can be captured at a plurality of locations at the same time. It becomes easy to capture the feature on the appearance of the object, and the identification accuracy can be improved. Further, by using two-stage Adaboost, only the second feature amount effective for identifying the detection target can be selected, and high-precision identification is possible.

また、請求項2に記載の発明では、前記入力画像における画像フレーム中の各領域の輝度変化に基づく前記領域の状態を第3の特徴量として算出する第3の特徴量算出手段を備え、前記第2の特徴量算出手段は、位置が異なる複数の前記領域の前記第1の特徴量同士、前記第3の特徴量同士、又は前記第1の特徴量と前記第3の特徴量を組み合わせて第2の特徴量を算出するように構成されていることを特徴としている。このように、輝度勾配に基づく第1の特徴量と輝度変化に基づく第3の特徴量を併用することで、第1の特徴量のみでは識別困難な検出対象に似た形状の他の物体等を誤検出することを抑制でき、物体の識別率を向上させることができる。   The invention according to claim 2 further comprises third feature amount calculation means for calculating a state of the region based on a luminance change of each region in the image frame in the input image as a third feature amount, The second feature quantity calculating means combines the first feature quantities of the plurality of regions having different positions, the third feature quantities, or the combination of the first feature quantity and the third feature quantity. The second feature amount is configured to be calculated. In this way, by using the first feature quantity based on the luminance gradient and the third feature quantity based on the luminance change in combination, other objects having a shape similar to the detection target that is difficult to identify only by the first feature quantity, etc. Can be prevented from being erroneously detected, and the object identification rate can be improved.

また、請求項3に記載の発明では、前記第3の特徴量算出手段は、前記画像フレーム中の前記領域の輝度の変化量を検出する第3の特徴量検出手段と、前記変化量が予め設定された所定変化量より大きい場合に動状態と判定する第1状態判定手段と、前記画像フレームより後の複数の画像フレーム中の前記領域に対応する領域の輝度の分散を算出する分散算出手段と、前記第1状態判定手段により動状態と判定され、かつ、前記分散が予め設定された所定値より小さい場合に背景または静状態と判定する第2状態判定手段と、前記第2状態判定手段により背景または静状態と判定された場合に、前記画像フレームの領域の輝度が予め設定された背景用輝度に属するときに背景と判定し、属さないときに静状態と判定する第3状態判定手段とを備え、前記領域を背景、動状態、静状態のいずれかに判別した結果を前記第3の特徴量として算出するように構成されていることを特徴としている。このように、各画素を背景、動状態、静状態のいずれかに判別することで、物体が静止状態であっても、識別率を向上させることができる。   In the third aspect of the invention, the third feature amount calculation unit includes a third feature amount detection unit that detects a change amount of luminance of the region in the image frame, and the change amount is determined in advance. A first state determination unit that determines a moving state when the amount of change is larger than a predetermined change amount; and a variance calculation unit that calculates a variance of luminance in a region corresponding to the region in a plurality of image frames after the image frame And a second state determination unit that determines a background state or a static state when the first state determination unit determines that the state is a moving state and the variance is smaller than a predetermined value that is set in advance. Third state determination means for determining that the background of the image frame region belongs to the background luminance set in advance and determining that the background is still or the still state when not belonging to the background. And For example, the background the area is characterized by being configured to calculate a dynamic state, the third feature quantity the result of determination in either static state. In this way, by determining each pixel as one of the background, the moving state, and the static state, the identification rate can be improved even when the object is in the static state.

また、請求項4に記載の発明では、前記第1の特徴量算出手段は、前記入力画像を多重解像度化するように構成され、前記共起特徴算出手段は、解像度が異なる複数の前記入力画像の前記第1の特徴量を組み合わせて前記第2の特徴量を算出することを特徴としている。これにより、例えば検出対象が人であれば、顔の特徴を選択しやすい解像度画像から算出した特徴量と上半身の特徴を選択しやすい解像度画像から算出した特徴量を組み合わせて第2の特徴量を算出することができ、入力画像を多様な捉え方で観測でき、高精度な検出を行うことができる。   According to a fourth aspect of the present invention, the first feature amount calculating unit is configured to multi-resolution the input image, and the co-occurrence feature calculating unit includes a plurality of the input images having different resolutions. The second feature value is calculated by combining the first feature values. Thus, for example, if the detection target is a person, the second feature value is obtained by combining the feature value calculated from the resolution image that allows easy selection of facial features and the feature value calculated from the resolution image that allows easy selection of upper body features. It can be calculated, the input image can be observed in various ways, and highly accurate detection can be performed.

なお、上記各手段の括弧内の符号は、後述する実施形態に記載の具体的手段との対応関係を示すものである。   In addition, the code | symbol in the bracket | parenthesis of each said means shows the correspondence with the specific means as described in embodiment mentioned later.

(第1実施形態)
以下、本発明の第1実施形態について図1〜図5に基づいて説明する。本実施形態の物体検出装置は、撮像手段により取得された画像を分析して、画像に含まれる物体を検出するものである。本実施形態の物体検出装置は、入力画像から人を検出する人検出装置として構成されている。また、撮像手段は、監視カメラに多く用いられる固定式カメラや車載カメラのような移動式カメラなどを用いることができる。
(First embodiment)
Hereinafter, a first embodiment of the present invention will be described with reference to FIGS. The object detection device according to the present embodiment analyzes an image acquired by an imaging unit and detects an object included in the image. The object detection device of this embodiment is configured as a human detection device that detects a person from an input image. As the imaging means, a fixed camera often used for a surveillance camera, a mobile camera such as an in-vehicle camera, or the like can be used.

図1は、本実施形態の物体検出装置の構成を示している。物体検出装置は、CPU、メモリ等を備える周知のコンピュータから構成することができる。図1に示すように、物体検出装置は、特徴量算出部10、識別部20を備えている。これらの各構成要素10、20は、CPUが所定のプログラムを実行することによって実現される。   FIG. 1 shows the configuration of the object detection apparatus of this embodiment. The object detection device can be configured by a known computer including a CPU, a memory, and the like. As shown in FIG. 1, the object detection apparatus includes a feature amount calculation unit 10 and an identification unit 20. Each of these components 10 and 20 is realized by the CPU executing a predetermined program.

特徴量算出部10は、入力画像の輝度勾配に基づく特徴量(第1の特徴量)としてHOG(Histograms of Oriented Gradients)特徴量を算出する。識別部20は、入力画像中の複数の異なるセル(領域)のHOG特徴量を組み合わせたジョイントHOG特徴量(第2の特徴量)を算出し、ジョイントHOG特徴量に基づいて入力画像に検出対象である人が含まれるか否かを識別する。識別部20は、周知のアダブースト(AdaBoost)によるカスケード型の識別器として構成されている。アダブーストによって構築される識別器は、識別関数が誤認識を起こしたデータを重視して再学習を行う。この処理をラウンド数T回反復した後、生成された識別器群の識別関数のアンサンブルによって最終的な識別関数を生成する。識別部20の学習には、学習サンプルが用いられる。学習サンプルは、検出対象画像(人の画像)と非検出対象画像(人以外の画像)の画像からなる。なお、特徴量算出部が本発明の第1の特徴量算出手段に相当し、識別部20が本発明の識別手段、学習手段、弱識別器構築手段、第1強識別器構築手段、第2強識別器構築手段に相当している。   The feature amount calculation unit 10 calculates a HOG (Histograms of Oriented Gradients) feature amount as a feature amount (first feature amount) based on the luminance gradient of the input image. The identification unit 20 calculates a joint HOG feature amount (second feature amount) obtained by combining HOG feature amounts of a plurality of different cells (regions) in the input image, and detects an input image based on the joint HOG feature amount. Whether or not a person is included is identified. The discriminating unit 20 is configured as a cascade type discriminator based on the well-known AdaBoost. The discriminator constructed by Adaboost performs re-learning with emphasis on data in which the discriminant function has caused erroneous recognition. After this process is repeated T rounds, a final discriminant function is generated by ensemble of discriminant functions of the generated discriminator group. A learning sample is used for learning by the identification unit 20. The learning sample is made up of images of detection target images (human images) and non-detection target images (non-human images). The feature amount calculation unit corresponds to the first feature amount calculation unit of the present invention, and the identification unit 20 includes the identification unit, the learning unit, the weak classifier construction unit, the first strong classifier construction unit, the second of the present invention. This corresponds to strong classifier construction means.

アダブーストの識別器は、弱識別器のすべての判別結果が(検出対象画像であれば「1」、非検出対象画像であれば「0」)が結合機に供給され、結合機はすべての判別結果に対して、対応する弱識別器毎に学習時に算出された信頼度を重み付け加算し、その重み付き多数決の結果を出力し、結合機の出力値を評価することで入力された画像が検出対象か否かを判定するものである。識別器をカスケード型に構築することによって、検出対象の検出率を低下させることなく、誤検出率を抑制することができる。   In the AdaBoost classifier, all the discrimination results of the weak classifiers (“1” for the detection target image and “0” for the non-detection target image) are supplied to the coupling machine. The input image is detected by weighting and adding the reliability calculated at the time of learning for each corresponding weak classifier, outputting the weighted majority result, and evaluating the output value of the combiner. It is determined whether or not it is a target. By constructing the discriminator in a cascade type, it is possible to suppress the false detection rate without reducing the detection rate of the detection target.

図1に示すように、本実施形態の識別部20は、2段階に構築されたアダブースト識別器となっている。まず、1段目のアダブースト識別器により位置の異なる2つのローレベルな特徴であるHOG特徴を組み合わせたジョイントHOG特徴の集合体であるジョイントHOG特徴プールを作成する。次に、ジョイントHOG特徴を入力とした2段階目のアダブースト識別器により最終識別器を構築する。2段階目のアダブースト識別器は、ジョイントHOG特徴プールから自動的に人検出に最適なジョイントHOG特徴を選択する。   As shown in FIG. 1, the identification unit 20 of the present embodiment is an Adaboost classifier constructed in two stages. First, a joint HOG feature pool that is an aggregate of joint HOG features obtained by combining two low-level features of HOG features with different positions is created by the first-stage Adaboost classifier. Next, a final discriminator is constructed by a second-stage Adaboost discriminator using the joint HOG feature as an input. The second-stage Adaboost classifier automatically selects joint HOG features that are optimal for human detection from the joint HOG feature pool.

以下、識別部20における2段階に構築したアダブーストによる学習方法について説明する。   Hereinafter, a learning method based on Adaboost constructed in two stages in the identification unit 20 will be described.

まず、入力画像中の各ピクセル(画素)の輝度勾配に基づくHOG特徴量を算出する。HOG特徴量の算出は、特徴量算出部10により行われる。特徴量算出部10では、ローレベルな特徴としてアピアランス(画像の見え)に基づくHOG(Histograms of Oriented Gradients)を用いている。「HOG」は、局所領域における輝度の勾配方向をヒストグラム化した特徴ベクトルであり、物体の輪郭情報を得ることができ、物体の形状(エッジ)を表わすことが可能である。近接画素の勾配を局所領域によってヒストグラム化するため、照明や影の影響を受けにくく、局所的な幾何学変化に頑強である。   First, the HOG feature amount based on the luminance gradient of each pixel (pixel) in the input image is calculated. The feature amount calculation unit 10 calculates the HOG feature amount. The feature amount calculation unit 10 uses HOG (Histograms of Oriented Gradients) based on appearance (image appearance) as low-level features. “HOG” is a feature vector in which the gradient direction of luminance in the local region is histogrammed, can obtain the contour information of the object, and can represent the shape (edge) of the object. Since the gradient of the neighboring pixels is made into a histogram by the local region, it is not easily affected by illumination or shadow, and is robust to local geometric changes.

図2は、入力画像の構造を示しており、図2(a)は入力画像を示し、図2(b)は入力画像を複数のセルに分割した状態を示し、図2(c)はブロックによる正規化を行う状態を示している。なお、本実施形態の入力画像は、30×60個のピクセルから構成されている。   FIG. 2 shows the structure of the input image, FIG. 2 (a) shows the input image, FIG. 2 (b) shows the state in which the input image is divided into a plurality of cells, and FIG. This shows the state where normalization is performed. Note that the input image of the present embodiment is composed of 30 × 60 pixels.

まず、特徴量算出部10では、各ピクセルの輝度勾配を算出する。輝度勾配とは、対象となるピクセル近傍での輝度変化の度合を示すものであり、入力画像内で物体の境界領域(輪郭)で大きな値となる。ここでは、対象となる入力画像に含まれるすべてのピクセルについて、各ピクセルの輝度Lから輝度の勾配強度mと勾配方向θを数式1により算出する。   First, the feature amount calculation unit 10 calculates the luminance gradient of each pixel. The luminance gradient indicates the degree of luminance change in the vicinity of the target pixel, and has a large value in the boundary region (contour) of the object in the input image. Here, with respect to all the pixels included in the target input image, the luminance gradient strength m and the gradient direction θ are calculated from the luminance L of each pixel using Equation 1.

Figure 2009301104
ここで、fx(x,y)はx方向(図2の左右方向)の輝度の差分であり、fy(x,y)はy方向(図2の上下方向)の輝度の差分であり、これらは数式2により算出することができる。
Figure 2009301104
Here, fx (x, y) is a luminance difference in the x direction (left and right direction in FIG. 2), and fy (x, y) is a luminance difference in the y direction (up and down direction in FIG. 2). Can be calculated by Equation 2.

Figure 2009301104
次に、特徴量算出部10は、数式1で算出された勾配強度mと勾配方向θを用いて、勾配方向ヒストグラムの作成を行う。勾配方向ヒストグラム作成は、複数のピクセルからなるセル単位で行う。図2(b)に示すように、本実施形態では、5×5ピクセルを1セルとした領域において、輝度の勾配方向ヒストグラムを作成する。ただし、算出された勾配方向は0°〜360°となるが、ここでは勾配方向の向きを考慮する必要がないため、0°〜180°の範囲とする。本実施形態では、勾配方向を20°ずつに分割し、各方向毎に1セルに含まれる各ピクセルの勾配強度mを加算して9方向の勾配方向ヒストグラムを作成する。このため、1セル当たり9次元の特徴量が存在する。本実施形態では入力画像に6×12個のセルが存在し、72個のセルそれぞれに対して勾配方向ヒストグラム(V=[v1,v2,v3,…,v9])を作成する。
Figure 2009301104
Next, the feature quantity calculation unit 10 creates a gradient direction histogram using the gradient strength m and the gradient direction θ calculated by Equation 1. Gradient direction histogram creation is performed in units of cells composed of a plurality of pixels. As shown in FIG. 2B, in this embodiment, a luminance gradient direction histogram is created in a region where 5 × 5 pixels are one cell. However, although the calculated gradient direction is 0 ° to 360 °, it is not necessary to consider the direction of the gradient direction here, so the range is 0 ° to 180 °. In the present embodiment, the gradient direction is divided by 20 °, and the gradient intensity histogram of nine directions is created by adding the gradient strength m of each pixel included in one cell for each direction. For this reason, there is a nine-dimensional feature amount per cell. In this embodiment, 6 × 12 cells exist in the input image, and a gradient direction histogram (V = [v 1 , v 2 , v 3 ,..., V 9 ]) is created for each of 72 cells. .

次に、特徴量算出部10は、各セルで作成した輝度の勾配ヒストグラムの正規化を行う。つまり、個々のセルには、輝度の偏りが含まれる場合があるので、近接するセルを含めたブロック単位で正規化を行って平均化する。本実施形態では、3×3セルを1ブロックとして正規化を行う。1セル当たりの9次元の特徴量を有しているので、1ブロック(=3×3セル)当たり81次元の特徴量を有することとなる。最後に次の数式3によりHOG特徴量を正規化する。   Next, the feature amount calculation unit 10 normalizes the luminance gradient histogram created in each cell. In other words, since there is a case where luminance deviation is included in each cell, normalization is performed in units of blocks including adjacent cells and averaged. In this embodiment, normalization is performed with 3 × 3 cells as one block. Since each cell has 9-dimensional feature values, each block (= 3 × 3 cells) has 81-dimensional feature values. Finally, the HOG feature value is normalized by the following Equation 3.

Figure 2009301104
ここで、vは正規化後のHOG特徴量、kはブロック内のHOG特徴量の数、εは分母が0の場合に計算不能になることを防ぐ係数である。
Figure 2009301104
Here, v is the normalized HOG feature value, k is the number of HOG feature values in the block, and ε is a coefficient that prevents the calculation from becoming impossible when the denominator is 0.

正規化は、図2(c)のようにブロックを1セルずつ移動させることにより行う。このため、特徴量は、異なるブロックの領域によって何度も正規化される。入力画像を30×60ピクセルとした場合、x方向に4ブロック、y方向に10ブロック移動できるため、合計40ブロックに対して正規化を行う。各ブロック毎に正規化されたHOG特徴ベクトルは、3240次元(=40ブロック×81次元)となる。   Normalization is performed by moving the block one cell at a time as shown in FIG. For this reason, the feature amount is normalized many times by different block regions. When the input image is 30 × 60 pixels, it can move 4 blocks in the x direction and 10 blocks in the y direction, so normalization is performed for a total of 40 blocks. The HOG feature vector normalized for each block is 3240 dimensions (= 40 blocks × 81 dimensions).

以上の過程により、入力画像における各セルc1〜c72の9つのHOG特徴量(HOGv1〜HOGv9)が得られ、図1の最下段に示す低位レベル(low-lebel)のHOG特徴プール(HOG特徴の集合体)が作成される。 Through the above process, nine HOG feature values (HOGv 1 to HOGv 9 ) of the cells c 1 to c 72 in the input image are obtained, and the low-level HOG feature pool shown at the bottom of FIG. (A collection of HOG features) is created.

次に、ジョイントHOG特徴を算出する。ジョイントHOG特徴の算出は、識別部20により行われる。まず、ジョイントHOG特徴を生成するために、複数のHOG特徴により共起を表現する。本実施形態では、「T. Mita, T. Kaneko and O.Hori: “Joint Haar-like Features for Face Detection”, ICCV, pp. 1619-1626, 2005.」で提案された共起の表現方法を用いる。まず、各セルの各HOG特徴に対して、次の数式4から「人(1)」若しくは「人以外(0)」を表わす2値符号sを算出する。   Next, joint HOG features are calculated. The calculation of the joint HOG feature is performed by the identification unit 20. First, in order to generate a joint HOG feature, a co-occurrence is expressed by a plurality of HOG features. In this embodiment, the co-occurrence expression method proposed in “T. Mita, T. Kaneko and O. Hori:“ Joint Haar-like Features for Face Detection ”, ICCV, pp. 1619-1626, 2005.” Use. First, for each HOG feature of each cell, a binary code s representing “person (1)” or “non-person (0)” is calculated from Equation 4 below.

Figure 2009301104
ここで、θは閾値、pは不等号の向きを決定する符号であり、「+1」または「−1」をとる。V(=[v1,v2,v3,…,v9])は、1のセルから算出される特徴量、oは勾配の方向を表わす。これにより、得られた2値化符号を2つ組み合わせることで共起を表現した特徴jを得ることができる。
Figure 2009301104
Here, θ is a threshold value, p is a code for determining the direction of the inequality sign, and takes “+1” or “−1”. V (= [v 1 , v 2 , v 3 ,..., V 9 ]) is a feature amount calculated from one cell, and o represents the direction of the gradient. Thereby, the characteristic j expressing co-occurrence can be obtained by combining two obtained binarized codes.

図3は、HOG特徴の共起を説明するための図である。例えば、図3に示すような入力画像において、異なる2つのセルcm、cnのHOG特徴vを2値化した符号s1=1、s2=1を観測したとき、共起を表現した特徴j=(11)2=3となる。共起を表現した特徴jは、2進数表現された特徴との組み合わせのインデックス番号であり、本実施形態では2つの特徴量の組み合わせであるため、(00)2=0、(01)2=1、(10)2=2、(11)2=3の4通りの値をとる。 FIG. 3 is a diagram for explaining co-occurrence of HOG features. For example, in the input image as shown in FIG. 3, when s1 = 1 and s2 = 1, which are binarized HOG features v of two different cells cm and cn, are observed, a feature j = (representing co-occurrence 11) 2 = 3. The feature j expressing the co-occurrence is an index number of a combination with the feature expressed in binary number, and is a combination of two feature amounts in the present embodiment, so (00) 2 = 0, (01) 2 = There are four values: 1, (10) 2 = 2 and (11) 2 = 3.

次に、これまでに算出したHOG特徴量の共起を表現した特徴量を組み合わせて中位レベル(mid-lebel)なジョイントHOG特徴量として表現する。上述の数式4で算出したHOG特徴の共起を用いて、2つのセルの低位レベルのHOG特徴から算出した共起を表現した特徴量と、1段階目のアダブーストによりジョイントHOG特徴を生成する。複数の異なるセルのHOG特徴量を組み合わせたジョイントHOG特徴量を用いることにより、物体形状の対称性やエッジの連続性だけでなく、位置の異なるセルとセルとの関係を捉えることが可能となる。   Next, feature values expressing the co-occurrence of the HOG feature values calculated so far are combined and expressed as a mid-lebel joint HOG feature value. Using the co-occurrence of the HOG feature calculated by the above equation 4, a joint HOG feature is generated by the feature amount expressing the co-occurrence calculated from the low-level HOG feature of two cells and the first-stage AdaBoost. By using joint HOG feature values that combine HOG feature values of a plurality of different cells, it becomes possible to capture not only object shape symmetry and edge continuity, but also the relationship between cells at different positions. .

まず、位置の異なる2つのセルcm、cnにおいて、共起を表現した特徴の中から、検出対象の識別に有効な特徴を学習により選択する。入力画像xからの特徴量Jt(x)=jを観測したときに、1段階目のアダブースト弱識別器ht(x)は次の数式5により表わされる。なお、識別部20が行う数式5の処理が本発明の弱識別器構築手段に相当している。 First, in the two cells cm and cn at different positions, a feature effective for identifying the detection target is selected by learning from features expressing co-occurrence. When the feature value J t (x) = j from the input image x is observed, the first-stage Adaboost weak classifier h t (x) is expressed by the following Equation 5. In addition, the process of Numerical formula 5 which the discrimination | determination part 20 performs corresponds to the weak discriminator construction means of this invention.

Figure 2009301104
ここで、yは正解ラベルy∈{+1,−1}を表わし、Pt(y=+1|j)及びPt(y=−1|j)は、それぞれHOG特徴の共起を表現したときの条件付き確率である。条件付き確率は、予め設定された学習サンプルiの重みDt(i)に基づいて、次の数式6により算出することにより、誤認識した学習サンプルを重視した学習が可能となる。
Figure 2009301104
Here, y represents the correct label yε {+ 1, −1}, and Pt (y = + 1 | j) and Pt (y = −1 | j) are the conditions for expressing the co-occurrence of HOG features, respectively. It is a probability. The conditional probability is calculated by the following equation 6 based on the preset weight D t (i) of the learning sample i, so that learning with an emphasis on the erroneously recognized learning sample can be performed.

Figure 2009301104
次に、1段階目の強識別器であるジョイントHOG特徴Hcm,cn(x)を次の数式7により構築する。なお、識別部20が行う数式7の処理が本発明の第1強識別器構築手段に相当している。
Figure 2009301104
Next, the joint HOG feature H cm, cn (x) , which is the strong discriminator at the first stage, is constructed by the following Expression 7. Note that the processing of Equation 7 performed by the identification unit 20 corresponds to the first strong classifier construction unit of the present invention.

Figure 2009301104
ここで、Tは学習回数、αt cm,cnは1段目の弱識別器htcm,cn(数式5)の重みを表わしている。重みαt cm,cnは学習により設定される。
Figure 2009301104
Here, T represents the number of learning times, and α t cm, cn represents the weight of the first-stage weak classifier ht cm, cn (Formula 5). The weight α t cm, cn is set by learning.

数式7の処理を入力画像のすべてのセルの組み合わせに対して行う。本実施形態では、検出ウィンドウ(30×60ピクセル)に対して72個のセルがあるため、2つのセルの組み合わせは2556通りとなり、2556個のジョイントHOG特徴からなるジョイントHOG特徴プール(ジョイントHOG特徴の集合体)が作成される。これにより、図2の中段に示す中位レベル(mid-lebel)のジョイントHOG特徴プールが作成される。   The process of Formula 7 is performed for all combinations of cells of the input image. In the present embodiment, since there are 72 cells for the detection window (30 × 60 pixels), there are 2556 combinations of the two cells, and a joint HOG feature pool (joint HOG feature consisting of 2556 joint HOG features). Is created). As a result, a mid-lebel joint HOG feature pool shown in the middle of FIG. 2 is created.

次に、2段階目のアダブースト識別器について説明する。2段階目のアダブースト識別器では、1段階目のアダブースト識別器(数式7)により生成したジョイントHOG特徴プールを入力として最終識別器を構築する。2段階目のアダブーストでは、ジョイントHOG特徴で構築した1段階目の強識別器Hcm,cn(x)のプールの中から識別に有効なものを選択して学習を行い、2段階目の強識別器G(c)を構築する。強識別器Hcm,cn(x)のプールの中から選択された強識別器をgt(c)とした場合に、2段階目のアダブーストにより得られる最終的な強識別器G(c)は次の数式8により得られる。なお、識別部20が行う数式8の処理が本発明の第1強識別器構築手段に相当している。 Next, the second stage Adaboost classifier will be described. In the second-stage Adaboost classifier, the final classifier is constructed with the joint HOG feature pool generated by the first-stage Adaboost classifier (Formula 7) as an input. In the second-stage AdaBoost, learning is performed by selecting an effective classifier from the pool of first-stage strong classifiers H cm, cn (x) constructed with the joint HOG feature, and performing the second-level strong boost. Construct classifier G (c). When the strong classifier selected from the pool of strong classifiers H cm, cn (x) is g t (c), the final strong classifier G (c) obtained by the second-stage Adaboost Is obtained by the following equation (8). Note that the processing of Equation 8 performed by the identification unit 20 corresponds to the first strong classifier construction unit of the present invention.

Figure 2009301104
λは識別器の閾値であり、αtは1段階目の強識別器gt(c)の重みを表わしている。重みαtは学習により設定される。cmとcnはセルの組み合わせを表わし、c={cm,cn:1≦m≦72,1≦n≦72}である。
Figure 2009301104
λ is a discriminator threshold, and α t represents the weight of the strong discriminator g t (c) at the first stage. The weight α t is set by learning. cm and cn represent a combination of cells, and c = {cm, cn: 1 ≦ m ≦ 72, 1 ≦ n ≦ 72}.

図4は、2段階目の強識別器G(c)で選択されるジョイントHOG特徴を説明するための図である。図4に示すように、2段階目のアダブーストにより、ジョイントHOG特徴プールから識別に有効な特徴量のみを選択して、最終識別器が構築される。   FIG. 4 is a diagram for explaining the joint HOG feature selected by the second-stage strong classifier G (c). As shown in FIG. 4, the final classifier is constructed by selecting only the feature quantity effective for discrimination from the joint HOG feature pool by the second stage of boosting.

以上の過程により識別部20の学習が完了する。学習により構築された識別部20は、数式8により選択されたセルの組み合わせに対応するジョイントHOG特徴を用いて、入力画像中に検出対象である人が含まれているか否を識別する。   The learning of the identification unit 20 is completed through the above process. The identification unit 20 constructed by learning identifies whether or not a person to be detected is included in the input image using the joint HOG feature corresponding to the combination of cells selected by Equation 8.

次に、本実施形態の物体検出装置の2段階のアダブーストにより選択されるジョイントHOG特徴量について説明する。まず、1段階目のアダブースト(数式7)では、入力画像中のすべてのセル領域のジョイントHOG特徴が選択され、その中でも特に人の形状に沿った勾配に対応するジョイントHOG特徴が多く選択されて重みが高くなる。次に、2段階目のアダブースト(数式8)では、1段階目のアダブーストで選択されたジョイントHOG特徴であっても、人の輪郭以外は選択されにくい傾向となる。これは、2段階目のアダブーストの特徴選択において、人の輪郭以外に対応するジョイントHOG特徴量は、人と人以外を識別するためには有効でないと判断されるためである。以上のことから、2段階にアダブーストを構築することにより、人の識別に有効な特徴が自動的に選択されることがわかる。   Next, the joint HOG feature value selected by the two-stage AdaBoost of the object detection device of the present embodiment will be described. First, in the first stage AdaBoost (Formula 7), joint HOG features of all cell regions in the input image are selected, and among them, many joint HOG features corresponding to the gradient along the human shape are selected. The weight increases. Next, in the second stage AdaBoost (Formula 8), even the joint HOG feature selected in the first stage AdaBoost tends to be difficult to select other than the human contour. This is because, in the second-stage AdaBoost feature selection, it is determined that the joint HOG feature value corresponding to other than the contour of the person is not effective for identifying the person and the person other than the person. From the above, it can be seen that by building Adaboost in two stages, features effective for human identification are automatically selected.

次に、本実施形態の物体検出装置で行った評価実験の結果を説明する。実験に用いた画像は、固定カメラにより撮影された多様な照明、背景、人の歩行方向など、異なる複数の場所で撮影された画像である。学習用ポジティブサンプルは2054枚、学習用ネガティブサンプルは6258枚、評価用ポジティブサンプルは1000枚、評価用ネガティブサンプルは1234枚、それぞれ用いた。評価実験では、本実施形態の物体検出装置によるジョイントHOG特徴を用いた場合と、特徴算出部20で算出された低位レベル(low-lebel)のHOG特徴を用いた場合とを比較した。   Next, the results of an evaluation experiment performed with the object detection apparatus of this embodiment will be described. The images used in the experiment are images taken at a plurality of different locations such as various illuminations, backgrounds, and walking directions taken by a fixed camera. 2054 positive samples for learning, 6258 negative samples for learning, 1000 positive samples for evaluation, and 1234 negative samples for evaluation were used. In the evaluation experiment, the case where the joint HOG feature by the object detection device of the present embodiment is used is compared with the case where the low-level (low-lebel) HOG feature calculated by the feature calculator 20 is used.

識別実験結果の比較はDET(Detection Error Tradeoff)によって評価を行った。DETは、横軸に誤検出率(人以外を人と認識する確率)、縦軸に未検出率(人を人以外と認識する確率)を両対数グラフによって表わしたものである。識別器のしきい値を変化させることによって、誤検出率に対する未検出率の比較を行うことができる。   The comparison of the discrimination experiment results was evaluated by DET (Detection Error Tradeoff). In the DET, the horizontal axis represents a false detection rate (probability of recognizing a person other than a person) and the vertical axis represents a non-detection rate (probability of recognizing a person other than a person) by a log-log graph. By changing the threshold value of the discriminator, it is possible to compare the undetected rate against the false detection rate.

図5は、評価実験結果を示している。本実施形態のジョイントHOG特徴を用いた場合には、HOG特徴を用いた場合と比較して、検出精度が向上していることがわかる。誤検出率5.0%の場合、検出率を約24.6%向上させることができた。これは、単一のHOG特徴量のみでは識別困難なパターンに対しても、異なる位置の複数のセルのHOG特徴を組み合わせたジョイントHOG特徴を用いることで、識別可能となったためである。このように、ジョイントHOG特徴を用いることで、複数箇所で同時にHOG特徴量を捉えることができるので、自動的に検出対象の外観上の特徴を捉えやすくなり、識別精度を向上させることができる。   FIG. 5 shows the results of the evaluation experiment. When the joint HOG feature of this embodiment is used, it can be seen that the detection accuracy is improved as compared with the case where the HOG feature is used. When the false detection rate was 5.0%, the detection rate could be improved by about 24.6%. This is because even a pattern that is difficult to identify with only a single HOG feature amount can be identified by using a joint HOG feature in which HOG features of a plurality of cells at different positions are combined. Thus, by using the joint HOG feature, it is possible to simultaneously capture the HOG feature quantity at a plurality of locations, so that it becomes easy to capture the feature on the appearance of the detection target automatically, and the identification accuracy can be improved.

(第2実施形態)
次に、本発明の第2実施形態について説明する。
(Second Embodiment)
Next, a second embodiment of the present invention will be described.

図6は、本第2実施形態の物体検出装置の構成を示している。本実施形態では、ローレベルな特徴として、アピアランスに基づくHOG特徴に加えて時空間特徴を用いている。本実施形態では、時空間特徴を扱うため、撮像手段として監視カメラに多く用いられる固定式カメラを用い、時系列的に並んだ複数の画像フレームから構成される連続映像を入力画像として用いている。なお、本実施形態の特徴量算出部10が本発明の第1の特徴量算出手段、第3の特徴量検出手段、第1状態判定手段、分散算出手段、第2状態判定手段、第3状態判定手段に相当している。   FIG. 6 shows the configuration of the object detection apparatus of the second embodiment. In this embodiment, spatio-temporal features are used as low-level features in addition to HOG features based on appearance. In this embodiment, in order to handle spatio-temporal features, a fixed camera that is often used as a monitoring camera is used as an imaging unit, and a continuous video composed of a plurality of image frames arranged in time series is used as an input image. . It should be noted that the feature quantity calculation unit 10 of the present embodiment has a first feature quantity calculation unit, a third feature quantity detection unit, a first state determination unit, a variance calculation unit, a second state determination unit, and a third state of the present invention. This corresponds to the determination means.

本実施形態の特徴量算出部10では、HOG特徴の算出に加え、入力画像のピクセルの輝度変化に基づいてピクセル状態分析(PSA:Pixel State Analysis)を行い、各ピクセルの状態を判別し、PSA特徴量を算出している。「ピクセル状態分析」とは、フレームに含まれる各ピクセルの輝度の時間的変化をモデル化することにより、各ピクセルを背景差分により背景と前景に区別し、さらに前景の各ピクセルを輝度値の変化と安定度から物体の動きを示す動状態と静状態として、各ピクセルを背景、動状態、静状態のいずれかに判別する手法である。ピクセル状態分析によるPSA特徴は、空間的情報とモーション情報(時間情報)の両方の情報を含む特徴である。   In the feature amount calculation unit 10 of the present embodiment, in addition to the calculation of the HOG feature, a pixel state analysis (PSA) is performed based on the luminance change of the pixel of the input image, the state of each pixel is determined, and the PSA The feature amount is calculated. “Pixel state analysis” is a method of modeling temporal changes in the brightness of each pixel included in a frame, distinguishing each pixel into a background and foreground based on background differences, and further changing the brightness value of each pixel in the foreground. In other words, each pixel is identified as a background, a moving state, or a static state as a moving state and a static state indicating the movement of the object from the stability. The PSA feature by the pixel state analysis is a feature including both spatial information and motion information (temporal information).

図7は、ピクセル状態分析の状態遷移を示している。図7に示すように、各ピクセルの初期状態は背景(BG)に設定されており、背景(BG)から動状態(TR)に遷移することができ、動状態(TR)から背景(BG)または静状態(ST)に遷移することができ、静状態(ST)から動状態(TR)に遷移することができる。   FIG. 7 shows the state transition of the pixel state analysis. As shown in FIG. 7, the initial state of each pixel is set to the background (BG), and the transition from the background (BG) to the moving state (TR) can be made, and the moving state (TR) to the background (BG). Or it can change to a static state (ST) and can change to a dynamic state (TR) from a static state (ST).

これらの3つの状態を判定するための基本的原理として、ピクセルの輝度が状況に応じて、(1)〜(3)のように変化する点を利用する。(1)物体がピクセル上を通過する場合には、そのピクセルの輝度値は急激な変化を伴う。その後、一時的に不安的な状態が続き、再度急激な変化の後、背景である元の輝度値に戻る。(2)物体がピクセル上で停止した場合には、そのピクセルの輝度値は急激な変化の後、一時的に不安的な状態が続き、最終的には物体の輝度値に安定する。(3)太陽が雲に隠れた等の環境変化が生じた場合には、輝度値は緩やかに変化する。   As a basic principle for determining these three states, the point that the luminance of the pixel changes as in (1) to (3) depending on the situation is used. (1) When an object passes over a pixel, the luminance value of the pixel is accompanied by a rapid change. Thereafter, the state of anxiety temporarily continues, and after a sudden change again, the original luminance value as the background is restored. (2) When the object stops on the pixel, the luminance value of the pixel is suddenly changed and then temporarily in an unstable state, and finally becomes stable at the luminance value of the object. (3) When an environmental change occurs, such as when the sun is hidden behind a cloud, the luminance value changes gradually.

図8は、ピクセル状態分析を行うフレームの時系列的な関係を示している。ピクセルの状態遷移を捉えるには、各ピクセルの輝度値の急激な変化(Motion Trigger)と輝度値の安定度(Stability Measure)を検出する。輝度値の急激な変化の検出は、ピクセル状態分析の対象となっている現在のフレームtより前の複数フレーム(図8の例では5フレーム)に着目して行い、輝度値の安定度の検出には、現在のフレームtから後の複数フレーム(図8の例では5フレーム)に着目して行う。   FIG. 8 shows a time-series relationship between frames in which pixel state analysis is performed. In order to capture the state transition of a pixel, a sudden change (Motion Trigger) in the luminance value of each pixel and the stability (Stability Measure) of the luminance value are detected. Detection of a sudden change in the luminance value is performed by paying attention to a plurality of frames (5 frames in the example of FIG. 8) before the current frame t, which is an object of pixel state analysis, and detection of luminance value stability. Is performed by paying attention to a plurality of frames (5 frames in the example of FIG. 8) after the current frame t.

まず最初に、輝度値の急激な変化の検出を行う。ここで、ピクセル状態分析の対象となっている現在のフレームtからkフレーム前の輝度値をItとする。輝度値の変化量Tを求めるには、Itと、フレームtからkフレーム前までの各フレームのIt-jの差分(輝度値の最大変化量)の絶対値を算出する。急激な輝度値の変化がピクセル上に生じたとき、輝度値の変化量Tの値は大きくなる。輝度値の変化量Tは、数式9により算出することができる。 First, a sudden change in luminance value is detected. Here, it is assumed that the luminance value before k frames from the current frame t which is the object of the pixel state analysis is It. In order to obtain the change amount T of the luminance value, the absolute value of the difference (the maximum change amount of the luminance value) between It and Itj of each frame from frame t to k frames before is calculated. When a sudden luminance value change occurs on the pixel, the luminance value change amount T increases. The change amount T of the luminance value can be calculated by Equation 9.

Figure 2009301104
次に、ピクセルの輝度値の安定度について考える。輝度値の安定状態の検出は、現在のフレームtより後のkフレームに着目し、フレームtからフレームt+kまでの輝度値の分散の逆数として算出する。安定度Sは、輝度値が安定した状態では大きい値となる。安定度Sは、数式10により算出することができる。
Figure 2009301104
Next, the stability of the luminance value of the pixel will be considered. The detection of the stable state of the luminance value is calculated as the reciprocal of the variance of the luminance values from the frame t to the frame t + k, focusing on the k frames after the current frame t. The stability S is a large value when the luminance value is stable. The stability S can be calculated by Equation 10.

Figure 2009301104
ここで、フレームの各ピクセルの判別方法を図9のフローチャートに基づいて説明する。
Figure 2009301104
Here, a method of discriminating each pixel of the frame will be described based on the flowchart of FIG.

まず、ピクセル状態が背景または静状態であり、かつ、数式4で算出した輝度値の変化量Tが所定変化量を上回っているか否かを判定する(S10)。所定変化量は、急激な変化を判別するための閾値であり、予め設定された固定値としてもよいが、固定値の場合には、建物の陰となっているような領域を物体が移動しても、その物体と背景である影の部分の輝度値に大きな差がないため、輝度値の変化量が閾値を上回らない場合がある。しかしながら、影の領域を物体が移動すると、このピクセルの過去の輝度の平均値より大きな変化が生じる。このため、検出対象フレームtより過去の複数フレームにおいて、対応するピクセルの輝度値の分散により所定変化量を決定することで、適切な閾値を得ることができる。   First, it is determined whether or not the pixel state is the background or the static state, and the change amount T of the luminance value calculated by Equation 4 exceeds a predetermined change amount (S10). The predetermined amount of change is a threshold value for discriminating abrupt changes, and may be a fixed value set in advance, but in the case of a fixed value, the object moves in an area that is behind the building. However, since there is no great difference between the luminance values of the shadow portion that is the object and the background, the amount of change in the luminance value may not exceed the threshold value. However, when the object moves in the shadow area, a change larger than the average value of the past luminance of this pixel occurs. For this reason, an appropriate threshold value can be obtained by determining the predetermined change amount based on the dispersion of the luminance values of the corresponding pixels in a plurality of frames past the detection target frame t.

S10の判定処理の結果、肯定判定された場合には、ピクセル状態を動状態に設定する(S11)。一方、否定判定された場合には、ピクセル状態を背景または静状態のままとする。   If an affirmative determination is made as a result of the determination process in S10, the pixel state is set to a moving state (S11). On the other hand, if a negative determination is made, the pixel state remains the background or the static state.

次に、ピクセル状態が動状態であり、かつ、数式5で算出した輝度値の安定度Sが所定安定度を上回っているか否かを判定する(S12)。所定安定度は、安定性を判定するための閾値である。この結果、否定判定された場合には、ピクセル状態を動状態のままとする。一方、肯定判定された場合には、ピクセルの輝度値が背景画像の輝度値であるか否かを判定する(S13)。背景画像は、S13の判定処理に先立ち予め用意されているものとし、IIRフィルタなどを用いて環境変化に対応可能となるように適宜更新すればよい。   Next, it is determined whether or not the pixel state is a moving state and the stability S of the luminance value calculated by Expression 5 exceeds a predetermined stability (S12). The predetermined stability is a threshold for determining stability. As a result, if a negative determination is made, the pixel state remains in the moving state. On the other hand, if a positive determination is made, it is determined whether the luminance value of the pixel is the luminance value of the background image (S13). The background image is prepared in advance prior to the determination processing in S13, and may be updated as appropriate so as to be able to cope with environmental changes using an IIR filter or the like.

この結果、肯定判定された場合には、ピクセル状態を背景に設定し(S14)、否定判定された場合には、ピクセル状態を静状態に設定する(S15)。以上の処理をフレームに含まれる各ピクセルに対して行うことで、各ピクセルを背景、動状態、静状態のいずれかに分類することができる。なお、図9のフローチャートにおけるS10、S11の処理が本発明の第1状態判定手段に相当し、S12、S13、S15の処理が本発明の第2状態判定手段に相当し、S12、S13、S14の処理が本発明の第3状態判定手段に相当している。   As a result, when an affirmative determination is made, the pixel state is set to the background (S14), and when a negative determination is made, the pixel state is set to a static state (S15). By performing the above processing on each pixel included in the frame, each pixel can be classified into one of a background, a moving state, and a static state. Note that the processing of S10 and S11 in the flowchart of FIG. 9 corresponds to the first state determination means of the present invention, the processing of S12, S13 and S15 corresponds to the second state determination means of the present invention, and S12, S13 and S14. This process corresponds to the third state determination means of the present invention.

ピクセル状態分析では、フレーム間差分に加えて背景差分を用いているため、同一フレームに歩行者と静止している人が含まれている場合であっても、歩行者は動状態、静止している人は静状態として判別することができる。オプティカルフローなどの物体の動きを示す特徴量では、静止状態にある物体の情報を得ることは困難だが、ピクセル状態分析を行うことにより、静状態である物体の情報を得ることができる。   In the pixel state analysis, since the background difference is used in addition to the inter-frame difference, even if the same frame includes a pedestrian and a stationary person, the pedestrian is in a moving state, The person who is present can be determined as a static state. Although it is difficult to obtain information on an object in a stationary state with a feature quantity indicating the movement of the object such as an optical flow, information on an object in a stationary state can be obtained by performing pixel state analysis.

次に、ピクセル状態分析結果をセル領域によってヒストグラム化し、PSA特徴となる特徴ベクトルを算出する。まず最初に、上述のHOG特徴ベクトルのヒストグラム化で用いたセル領域の構造(図2(b)参照)を用いて、HOGと同様にピクセル状態ヒストグラムを作成する。各ピクセルは、3つの状態(背景、静状態、動状態)に分類されるので、1つのヒストグラム(1つのセル)から3つの特徴ベクトルが算出される。   Next, the pixel state analysis result is converted into a histogram by the cell region, and a feature vector to be a PSA feature is calculated. First, a pixel state histogram is created in the same manner as HOG, using the structure of the cell region (see FIG. 2B) used in the above-described HOG feature vector histogram. Since each pixel is classified into three states (background, static state, and moving state), three feature vectors are calculated from one histogram (one cell).

最後に、上述のHOG特徴ベクトルの正規化で述べたHOGと同様の手順でブロック(図2(c)参照)による正規化を行う。1ブロックは、3×3セルなので、1ブロックあたり27次元(=3×3×9次元)の特徴ベクトルとなる。そして、入力画像を30×60ピクセルとした場合、1フレーム当たり40ブロックなので、PSA特徴から得られる特徴ベクトルは、1080次元(=40ブロック×27次元)となる。   Finally, normalization by the block (see FIG. 2C) is performed in the same procedure as the HOG described in the above-described normalization of the HOG feature vector. Since one block is 3 × 3 cells, the feature vector has 27 dimensions (= 3 × 3 × 9 dimensions) per block. When the input image is 30 × 60 pixels, 40 frames per frame, so the feature vector obtained from the PSA feature is 1080 dimensions (= 40 blocks × 27 dimensions).

以上の過程により、入力画像における各セルc1〜c72の9つのHOG特徴量(HOGv1〜HOGv9)に加えて3つのPSA特徴量(PSAv10〜PSAv12)が得られ、図6の最下段に示す低位レベル(low-lebel)の特徴プールが作成される。さらに、上記第1実施形態で説明した数式4〜10と同様の処理を行い、2段階のアダブーストによりジョイント特徴プールを作成し、最終的な識別器を構築する。本実施形態のジョイント特徴は、HOG特徴同士の組み合わせ、PSA特徴同士の組み合わせ、HOG特徴とPSA特徴の組み合わせの3種類が存在する。 Through the above process, in addition to the nine HOG feature values (HOGv 1 to HOGv 9 ) of the cells c 1 to c 72 in the input image, three PSA feature values (PSAv 10 to PSAv 12 ) are obtained. A low-lebel feature pool is created as shown at the bottom. Further, the same processing as Expressions 4 to 10 described in the first embodiment is performed, a joint feature pool is created by two-stage Adaboost, and a final discriminator is constructed. There are three types of joint features of the present embodiment: combinations of HOG features, combinations of PSA features, and combinations of HOG features and PSA features.

図10は、本実施形態の物体検出装置の学習時に選択された特徴の割合を示している。図10に示すように、学習初期にはPSA特徴が多く選択され、学習の後半ではHOG特徴が多く選択される傾向がある。これは、識別時において、まず物体の動きを表わすことが可能なPSA特徴により、大まかに人と人以外に判別し、その後、より詳細に識別境界を形成するためにアピアランス情報であるHOG特徴量が選択されたものと考えられる。さらに、学習初期に選択されたPSA特徴を詳細に検討してみると、ピクセル状態分析の背景から得られるPSA特徴が多く選択されていた。これは、背景の状態を占めるピクセルが多い/少ないによって、人を判別していることを示している。   FIG. 10 shows the ratio of features selected during learning by the object detection apparatus of the present embodiment. As shown in FIG. 10, many PSA features tend to be selected in the early stage of learning, and many HOG features tend to be selected in the latter half of learning. This is because, at the time of identification, first, a PSA feature that can represent the movement of an object is used to roughly discriminate between a person and a person, and then an HOG feature amount that is appearance information to form an identification boundary in more detail. Is considered to have been selected. Furthermore, when the PSA features selected at the initial stage of learning are examined in detail, many PSA features obtained from the background of pixel state analysis are selected. This indicates that the person is discriminated based on the number of pixels occupying the background state.

次に、本実施形態の物体検出装置で行った評価実験の結果を説明する。評価実験では、上記第1実施形態と同一の学習用サンプル画像と評価用サンプル画像を用いた。評価実験では、本実施形態のHOG特徴とPSAからジョイント特徴を作成した場合と、上記第1実施形態のHOG特徴のみからジョイント特徴を用いた場合と、特徴算出部20で算出された低位レベル(low-lebel)のHOG特徴を用いた場合とを比較した。   Next, the results of an evaluation experiment performed with the object detection apparatus of this embodiment will be described. In the evaluation experiment, the same learning sample image and evaluation sample image as those in the first embodiment were used. In the evaluation experiment, when the joint feature is created from the HOG feature and the PSA of the present embodiment, when the joint feature is used only from the HOG feature of the first embodiment, the lower level ( Low-lebel) HOG features were compared.

図11は、評価実験結果を示している。本第2実施形態の物体検出装置では、上記第1実施形態の物体検出装置に比較して、誤検出率5%の場合に、検出率が約9%向上しており、検出率約99%を得ることができた。つまり、HOG特徴のみからなるジョイント特徴を用いる場合より、アピアランスに基づくHOG特徴に時空間特徴に基づくPSA特徴を併用したジョイント特徴を用いた場合の方が、より高精度な識別が可能となることがわかる。   FIG. 11 shows the results of the evaluation experiment. In the object detection device of the second embodiment, the detection rate is improved by about 9% when the false detection rate is 5%, compared with the object detection device of the first embodiment, and the detection rate is about 99%. Could get. In other words, it is possible to identify with higher accuracy when using a joint feature that uses a PSA feature based on a spatio-temporal feature in addition to a HOG feature based on appearance than when using a joint feature consisting only of HOG features. I understand.

(第3実施形態)
次に、本発明の第3実施形態について説明する。
(Third embodiment)
Next, a third embodiment of the present invention will be described.

本実施形態では、ローレベルな特徴として、多重解像度画像から得られるHOG特徴を用いる。具体的には、入力画像を多重解像度化し、異なる解像度の画像のセルのHOG特徴を組み合わせてジョイントHOG特徴を作成する。   In the present embodiment, the HOG feature obtained from the multi-resolution image is used as the low-level feature. Specifically, the input image is multi-resolution, and joint HOG features are created by combining the HOG features of cells of images with different resolutions.

図12は、本実施形態の物体検出装置で取り扱う入力画像を示している。人の頭部領域と上半身領域では、外観上の特徴を最も表現する解像度が同一であるとは限らない。このため、本実施形態の物体検出装置では、図12に示すように、入力画像から切り出した頭部画像と上半身画像を、それぞれ多重解像度化している。   FIG. 12 shows an input image handled by the object detection apparatus of this embodiment. The human head region and the upper body region do not necessarily have the same resolution that best represents the appearance features. For this reason, in the object detection apparatus according to the present embodiment, as shown in FIG. 12, the head image and the upper body image cut out from the input image are each converted to multiple resolutions.

図12の例では、入力画像から切り出した状態の上半身画像の解像度は128×128ピクセルであり、それを半分の大きさまで0.125ずつ倍率を縮小している。このため、5つの上半身画像のピクセル数はそれぞれ、128×128、112×112、96×96、80×80、64×64となる。同様に、入力画像から切り出した状態の顔画像の解像度は64×64ピクセルであり、それを半分の大きさまで0.125ずつ倍率を縮小している。このため、5つの顔画像のピクセル数はそれぞれ、64×64、56×56、48×48、40×40、32×32となる。上半身画像では、セルサイズを16×16ピクセルとし、ブロックサイズを2×2セルとしている。顔画像では、セルサイズを8×8ピクセルとし、ブロックサイズを2×2セルとしている。   In the example of FIG. 12, the resolution of the upper body image cut out from the input image is 128 × 128 pixels, and the magnification is reduced by 0.125 to a half size. Therefore, the number of pixels of the five upper body images is 128 × 128, 112 × 112, 96 × 96, 80 × 80, and 64 × 64, respectively. Similarly, the resolution of the face image cut out from the input image is 64 × 64 pixels, and the magnification is reduced by 0.125 to a half size. For this reason, the number of pixels of the five face images is 64 × 64, 56 × 56, 48 × 48, 40 × 40, and 32 × 32, respectively. In the upper body image, the cell size is 16 × 16 pixels, and the block size is 2 × 2 cells. In the face image, the cell size is 8 × 8 pixels, and the block size is 2 × 2 cells.

次に、多重解像度のHOG特徴量による共起特徴の算出について説明する。まず、多重解像度画像からセルのサイズを固定してHOG特徴量を算出する。これにより、解像度が異なる複数の画像について、各セルのHOG特徴量が算出され、HOG特徴プールが作成される。次に、頭部画像と上半身画像から算出したHOG特徴量を1つずつ用いることにより共起特徴を算出する。これにより、位置と解像度が異なるHOG特徴量間の共起を表現することが可能となる。そして、2段階のアダブーストを行って、最終的な識別器を構築する。   Next, calculation of co-occurrence features using multi-resolution HOG feature amounts will be described. First, the HOG feature value is calculated by fixing the cell size from the multi-resolution image. Accordingly, the HOG feature amount of each cell is calculated for a plurality of images having different resolutions, and an HOG feature pool is created. Next, co-occurrence features are calculated by using one HOG feature amount calculated from the head image and the upper body image. As a result, it is possible to express the co-occurrence between HOG feature quantities having different positions and resolutions. Then, a two-stage AdaBoost is performed to construct a final discriminator.

次に、本実施形態の物体検出装置の学習時に選択される特徴について説明する。特徴選択の傾向が出やすい学習初期では、頭部は高解像度のHOG特徴量が選択され、上半身は低解像度のHOG特徴量が選択される。このことから、頭部は高解像度の方が特徴を表現しやすく、上半身は低解像度の方が特徴を表現しやすいと考えられる。頭部のように勾配にばらつきが少ないと、局所領域でも頭部のラインを捉えることができるため、高解像度のHOG特徴が選択されると考えられる。これに対し、上半身は性別、衣服、年齢などにより肩のラインの勾配がばらつく傾向にある。低解像度のHOG特徴は、広い範囲でヒストグラムをまとめることになるため、勾配のばらつきを吸収でき、上半身で選択されやすいと考えられる。   Next, features selected during learning of the object detection device of the present embodiment will be described. At the initial stage of learning that tends to cause feature selection, a high-resolution HOG feature is selected for the head, and a low-resolution HOG feature is selected for the upper body. From this, it is considered that the head is easier to express the features when the resolution is higher, and the upper body is easier to express the features when the resolution is lower. If the gradient is small as in the head, the head line can be captured even in the local region, so it is considered that a high-resolution HOG feature is selected. On the other hand, the upper body has a tendency that the gradient of the shoulder line varies depending on gender, clothes, age, and the like. Since the low resolution HOG feature collects histograms over a wide range, it can absorb gradient variations and is easily selected in the upper body.

以上説明した本実施形態の物体検出装置では、入力画像の解像度を変化させながら算出したHOG特徴量を用いることで、例えば顔の特徴を選択しやすい解像度画像から算出したHOG特徴量と上半身の特徴を選択しやすい解像度画像から算出したHOG特徴量とを組み合わせてジョイントHOG特徴を算出することができ、入力画像を多様な捉え方で観測でき、高精度な検出を行うことができる。   In the object detection device according to the present embodiment described above, the HOG feature amount calculated from the resolution image that allows easy selection of the facial feature and the upper body feature, for example, by using the HOG feature amount calculated while changing the resolution of the input image. The joint HOG feature can be calculated by combining with the HOG feature amount calculated from the resolution image that is easy to select, the input image can be observed in various ways, and high-precision detection can be performed.

(他の実施形態)
なお、上記各実施形態では、物体検出装置の検出対象の物体を人としたが、これに限らず、動物や自動車などの人以外の物体を検出対象としてもよい。さらに、物体検出装置の検出対象は必ずしも物体全体である必要はなく、例えば人の顔のように物体の一部であってもよい。
(Other embodiments)
In each of the embodiments described above, the object to be detected by the object detection device is a person. Furthermore, the detection target of the object detection device does not necessarily have to be the entire object, and may be a part of the object such as a human face, for example.

また、上記各実施形態では、2つのセルのHOG特徴量を組み合わせてジョイントHOG特徴量を算出したが、組み合わせるセルの数は2つに限らず、3以上であってもよい。   In each of the above embodiments, the joint HOG feature value is calculated by combining the HOG feature values of two cells, but the number of cells to be combined is not limited to two and may be three or more.

また、上記第2実施形態の特徴量算出部10では、第3の特徴量としてピクセル状態分析により各ピクセルの状態を判別したPSA特徴量を算出するように構成したが、これに限らず、公知のフレーム間差分や背景差分により輝度変化に基づいて、第3の特徴量の算出を行ってもよい。   Further, the feature amount calculation unit 10 of the second embodiment is configured to calculate the PSA feature amount obtained by determining the state of each pixel by the pixel state analysis as the third feature amount. The third feature amount may be calculated based on the luminance change by the inter-frame difference or the background difference.

フレーム間差分(TD)は、現在入力されている画像フレームと前回入力された画像フレームとの差分を計算し、差分値の大きい領域を物体として検出するものであり、各ピクセルの状態を動状態と動状態以外に判別することができる。背景間差分(BS)は、検出すべき物体が存在しない背景画像フレームを予め用意しておき、現在入力されている画像フレームと背景画像フレームとの差分を計算して前景を検出するものであり、各ピクセルの状態を背景と背景以外に判別することができる。フレーム間差分および背景間差分を用いる場合にも、上記第2実施形態と同様、セルによるヒストグラム化、ブロックによる正規化を行う。   The inter-frame difference (TD) calculates the difference between the currently input image frame and the previously input image frame, and detects a region having a large difference value as an object. It can be determined other than the moving state. Difference between backgrounds (BS) is to prepare a background image frame in which no object to be detected exists in advance and calculate the difference between the currently input image frame and the background image frame to detect the foreground. The state of each pixel can be discriminated other than the background and the background. Even when the inter-frame difference and the inter-background difference are used, similarly to the second embodiment, histogram formation by cells and normalization by blocks are performed.

また、上記第3実施形態では、入力画像から切り出した異なる画像(顔画像と上半身画像)を多重解像度化して用いたが、これに限らず、同一画像(例えば、顔画像のみ又は上半身画像のみ)を多重解像度化して用いてもよい。   In the third embodiment, different images (a face image and an upper body image) cut out from the input image are used with multiple resolutions. However, the present invention is not limited to this, and the same image (for example, only a face image or only an upper body image) is used. May be used with multiple resolutions.

第1実施形態の物体検出装置の構成を示す図である。It is a figure which shows the structure of the object detection apparatus of 1st Embodiment. 入力画像の構造を示す図であり、(a)は入力画像を示し、(b)は入力画像を複数のセルに分割した状態を示し、(c)はブロックによる正規化を行う状態を示している。It is a figure which shows the structure of an input image, (a) shows an input image, (b) shows the state which divided | segmented the input image into several cells, (c) shows the state which normalizes by a block Yes. HOG特徴の共起を説明するための図である。It is a figure for demonstrating the co-occurrence of a HOG feature. 2段階目の強識別器で選択されるジョイントHOG特徴を説明するための図である。It is a figure for demonstrating the joint HOG characteristic selected with the strong discriminator of a 2nd step. 第1実施形態の物体検出装置の評価実験結果を示す図である。It is a figure which shows the evaluation experiment result of the object detection apparatus of 1st Embodiment. 第2実施形態の物体検出装置の構成を示す図である。It is a figure which shows the structure of the object detection apparatus of 2nd Embodiment. ピクセル状態分析の状態遷移を示す図である。It is a figure which shows the state transition of a pixel state analysis. ピクセル状態分析を行うフレームの時系列的な関係を示す図である。It is a figure which shows the time-sequential relationship of the frame which performs a pixel state analysis. ピクセル状態分析によるピクセルの判別方法を示すフローチャートである。It is a flowchart which shows the discrimination method of the pixel by pixel state analysis. 第2実施形態の物体検出装置の学習時に選択された特徴の割合を示す図である。It is a figure which shows the ratio of the feature selected at the time of the learning of the object detection apparatus of 2nd Embodiment. 第2実施形態の物体検出装置の評価実験結果を示す図である。It is a figure which shows the evaluation experiment result of the object detection apparatus of 2nd Embodiment. 第3実施形態の物体検出装置で取り扱う入力画像を示すである。It is an input image handled with the object detection apparatus of 3rd Embodiment.

符号の説明Explanation of symbols

10 特徴量算出部
20 識別器
10 feature amount calculation unit 20 classifier

Claims (4)

入力画像中を複数に分割した領域の輝度勾配に基づいて前記領域の第1の特徴量を算出する第1の特徴量算出手段と、
位置が異なる複数の前記領域の前記第1の特徴量同士を組み合わせた第2の特徴量を算出する第2の特徴量算出手段と、
前記第2の特徴量に基づいて前記入力画像から検出対象である物体を検出する識別手段と、
学習サンプルを前記入力画像として、学習により前記識別手段を構築する学習手段とを備え、
前記学習手段は、
前記第2の特徴量を入力とし、予め設定された前記学習サンプルの重みから算出される前記物体である条件付き確率が前記物体以外である条件付き確率より高いか否かにより、前記物体又は前記物体以外とを識別する弱識別器を構築する弱識別器構築手段と、
複数の前記弱識別器を用いた第1のアダブーストにより、前記入力画像のすべての前記領域それぞれにおいて、前記物体の識別に有用な前記第2の特徴量を選択する第1強識別器を構築する第1強識別器構築手段と、
前記第1強識別器を用いた第2のアダブーストにより、複数の前記領域のすべての組み合わせに対応する前記第2の特徴量から、前記物体の識別に有用な前記領域の組み合わせを選択する第2強識別器構築手段とを備えて構成されており、
前記識別手段は、第2強識別器構築手段により選択された前記領域の組み合わせに対応する前記第2の特徴量に基づいて、前記入力画像から前記物体を検出することを特徴とする物体検出装置。
First feature amount calculating means for calculating a first feature amount of the region based on a luminance gradient of the region obtained by dividing the input image into a plurality of regions;
A second feature amount calculating means for calculating a second feature amount by combining the first feature amounts of the plurality of regions having different positions;
Identification means for detecting an object to be detected from the input image based on the second feature amount;
Learning means that uses the learning sample as the input image and constructs the identification means by learning;
The learning means includes
Depending on whether the conditional probability that is the object calculated from the weight of the learning sample set in advance is higher than the conditional probability that is other than the object, the object or the Weak classifier construction means for constructing a weak classifier for discriminating objects other than objects;
A first strong classifier that selects the second feature quantity useful for classifying the object in each of all the regions of the input image is constructed by first Adaboost using a plurality of the weak classifiers. First strong classifier construction means;
The second Adaboost using the first strong discriminator selects a combination of the regions useful for identifying the object from the second feature amount corresponding to all the combinations of the plurality of regions. With strong classifier construction means,
The object detection device, wherein the identification unit detects the object from the input image based on the second feature amount corresponding to the combination of the regions selected by the second strong classifier construction unit. .
前記入力画像における画像フレーム中の前記各領域の輝度変化に基づく前記領域の状態を第3の特徴量として算出する第3の特徴量算出手段を備え、
前記第2の特徴量算出手段は、位置が異なる複数の前記領域の前記第1の特徴量同士、前記第3の特徴量同士、又は前記第1の特徴量と前記第3の特徴量を組み合わせて第2の特徴量を算出するように構成されていることを特徴とする請求項1に記載の物体検出装置。
A third feature amount calculating means for calculating a state of the region based on a luminance change of each region in the image frame in the input image as a third feature amount;
The second feature quantity calculation means combines the first feature quantities, the third feature quantities, or the first feature quantity and the third feature quantity in a plurality of regions having different positions. The object detection device according to claim 1, wherein the second feature amount is calculated.
前記第3の特徴量算出手段は、前記画像フレーム中の前記領域の輝度の変化量を検出する第3の特徴量検出手段と、前記変化量が予め設定された所定変化量より大きい場合に動状態と判定する第1状態判定手段と、前記画像フレームより後の複数の画像フレーム中の前記領域に対応する領域の輝度の分散を算出する分散算出手段と、前記第1状態判定手段により動状態と判定され、かつ、前記分散が予め設定された所定値より小さい場合に背景または静状態と判定する第2状態判定手段と、前記第2状態判定手段により背景または静状態と判定された場合に、前記画像フレームの領域の輝度が予め設定された背景用輝度に属するときに背景と判定し、属さないときに静状態と判定する第3状態判定手段とを備え、前記領域を背景、動状態、静状態のいずれかに判別した結果を前記第3の特徴量として算出するように構成されていることを特徴とする請求項2に記載の物体検出装置。   The third feature amount calculation means is configured to detect a change amount of luminance of the region in the image frame, and detect when the change amount is larger than a predetermined change amount. A first state determination unit that determines a state, a variance calculation unit that calculates a variance of luminance in a region corresponding to the region in a plurality of image frames after the image frame, and a moving state by the first state determination unit And when the variance is smaller than a predetermined value set in advance, a second state determination unit that determines a background or a static state and a second state determination unit that determines a background or a static state And a third state determining means for determining that the region of the image frame belongs to a background when the luminance belongs to a preset background luminance, and determines that the region is a static state when not belonging to the background luminance. , Static Object detection apparatus according to claim 2, characterized in that it is configured to calculate the result of the determination in any one of states as the third feature amount. 前記第1の特徴量算出手段は、前記入力画像を多重解像度化するように構成され、
前記共起特徴算出手段は、解像度が異なる複数の前記入力画像の前記第1の特徴量を組み合わせて前記第2の特徴量を算出することを特徴とする請求項1ないし3のいずれか1つに記載の物体検出装置。
The first feature quantity calculating means is configured to multi-resolution the input image,
4. The co-occurrence feature calculating unit calculates the second feature amount by combining the first feature amounts of a plurality of the input images having different resolutions. The object detection apparatus described in 1.
JP2008151709A 2008-06-10 2008-06-10 Object detection device Expired - Fee Related JP4997178B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008151709A JP4997178B2 (en) 2008-06-10 2008-06-10 Object detection device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008151709A JP4997178B2 (en) 2008-06-10 2008-06-10 Object detection device

Publications (2)

Publication Number Publication Date
JP2009301104A true JP2009301104A (en) 2009-12-24
JP4997178B2 JP4997178B2 (en) 2012-08-08

Family

ID=41547972

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008151709A Expired - Fee Related JP4997178B2 (en) 2008-06-10 2008-06-10 Object detection device

Country Status (1)

Country Link
JP (1) JP4997178B2 (en)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010067102A (en) * 2008-09-12 2010-03-25 Sony Corp Object detecting device, imaging apparatus, object detecting method, and program
WO2010140613A1 (en) * 2009-06-03 2010-12-09 学校法人中部大学 Object detection device
JP2011216069A (en) * 2010-03-16 2011-10-27 Panasonic Corp Object identification device and method, and learning method of the device
WO2012073894A1 (en) * 2010-11-29 2012-06-07 国立大学法人 九州工業大学 Object detecting method and object detecting device using same
US8306318B2 (en) 2009-09-02 2012-11-06 Kabushiki Kaisha Toyota Chuo Kenkyusho Image processing apparatus, image processing method, and computer readable storage medium
JP2013117865A (en) * 2011-12-02 2013-06-13 Kyushu Institute Of Technology Detection method for body and detection device for body using the method
JP2013132682A (en) * 2011-12-27 2013-07-08 Jfe Steel Corp Device for detecting abnormal sheet passing
WO2013108686A1 (en) 2012-01-17 2013-07-25 ソニー株式会社 Information processing device and method, and program
JP2013533998A (en) * 2010-06-11 2013-08-29 トヨタ モーター ヨーロッパ ナームロゼ フェンノートシャップ/ソシエテ アノニム Object detection in images using self-similarity
CN103530610A (en) * 2013-10-12 2014-01-22 智博锐视(北京)科技有限公司 Target detection method and device
JP2015099616A (en) * 2015-02-26 2015-05-28 カシオ計算機株式会社 Multiple class identifier generation device, data identification device, multiple class identifier generation method, data identification method, and program
WO2015145588A1 (en) * 2014-03-25 2015-10-01 富士通フロンテック株式会社 Biometric authentication device, biometric authentication method, and program
WO2015145589A1 (en) * 2014-03-25 2015-10-01 富士通フロンテック株式会社 Biometric authentication device, biometric authentication method, and program
WO2015145590A1 (en) * 2014-03-25 2015-10-01 富士通フロンテック株式会社 Biometric authentication device, biometric authentication method, and program
WO2015145591A1 (en) * 2014-03-25 2015-10-01 富士通フロンテック株式会社 Biometric authentication device, biometric authentication method, and program
JP2015230715A (en) * 2014-06-06 2015-12-21 株式会社デンソーアイティーラボラトリ Feature quantity arithmetic device, feature quantity arithmetic method, and feature quantity arithmetic program
CN105631410A (en) * 2015-12-18 2016-06-01 华南理工大学 Classroom detection method based on intelligent video processing technology
JP2016153994A (en) * 2015-02-20 2016-08-25 ウィッツェル株式会社 Imprint completion determination method
CN107145894A (en) * 2017-03-13 2017-09-08 中山大学 A kind of object detection method based on direction gradient feature learning
WO2017170877A1 (en) * 2016-03-30 2017-10-05 株式会社エクォス・リサーチ Image processing device, semiconductor device, image recognition device, mobile device, and image processing method
JP2017213594A (en) * 2016-06-02 2017-12-07 コマツ産機株式会社 Controller, forging pressure machine, and controlling method thereof
JP2017213593A (en) * 2016-06-02 2017-12-07 コマツ産機株式会社 Controller, forging pressure machine, and controlling method thereof
WO2018143277A1 (en) * 2017-01-31 2018-08-09 株式会社エクォス・リサーチ Image feature value output device, image recognition device, image feature value output program, and image recognition program
WO2018143278A1 (en) * 2017-01-31 2018-08-09 株式会社エクォス・リサーチ Image processing device, image recognition device, image processing program, and image recognition program
JP2018124963A (en) * 2017-01-31 2018-08-09 株式会社エクォス・リサーチ Image processing device, image recognition device, image processing program, and image recognition program
US11074712B2 (en) 2018-06-29 2021-07-27 Denso Corporation Gradient direction calculation device
CN110249366B (en) * 2017-01-31 2024-05-10 株式会社爱信 Image feature quantity output device, image recognition device, and storage medium

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251955A (en) * 2005-03-09 2006-09-21 Fuji Photo Film Co Ltd Discriminator creating device, discriminator creating method and its program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251955A (en) * 2005-03-09 2006-09-21 Fuji Photo Film Co Ltd Discriminator creating device, discriminator creating method and its program

Cited By (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8385645B2 (en) 2008-09-12 2013-02-26 Sony Corporation Object detecting device, imaging apparatus, object detecting method, and program
JP4626692B2 (en) * 2008-09-12 2011-02-09 ソニー株式会社 Object detection apparatus, imaging apparatus, object detection method, and program
JP2010067102A (en) * 2008-09-12 2010-03-25 Sony Corp Object detecting device, imaging apparatus, object detecting method, and program
WO2010140613A1 (en) * 2009-06-03 2010-12-09 学校法人中部大学 Object detection device
US8611604B2 (en) 2009-06-03 2013-12-17 Chubu University Educational Foundation Object detection device
US8306318B2 (en) 2009-09-02 2012-11-06 Kabushiki Kaisha Toyota Chuo Kenkyusho Image processing apparatus, image processing method, and computer readable storage medium
JP2011216069A (en) * 2010-03-16 2011-10-27 Panasonic Corp Object identification device and method, and learning method of the device
JP2013533998A (en) * 2010-06-11 2013-08-29 トヨタ モーター ヨーロッパ ナームロゼ フェンノートシャップ/ソシエテ アノニム Object detection in images using self-similarity
WO2012073894A1 (en) * 2010-11-29 2012-06-07 国立大学法人 九州工業大学 Object detecting method and object detecting device using same
US8908921B2 (en) 2010-11-29 2014-12-09 Kyushu Institute Of Technology Object detection method and object detector using the method
JP5916134B2 (en) * 2010-11-29 2016-05-11 国立大学法人九州工業大学 Object detection method and object detection apparatus using the method
JP2013117865A (en) * 2011-12-02 2013-06-13 Kyushu Institute Of Technology Detection method for body and detection device for body using the method
JP2013132682A (en) * 2011-12-27 2013-07-08 Jfe Steel Corp Device for detecting abnormal sheet passing
WO2013108686A1 (en) 2012-01-17 2013-07-25 ソニー株式会社 Information processing device and method, and program
CN103530610A (en) * 2013-10-12 2014-01-22 智博锐视(北京)科技有限公司 Target detection method and device
JPWO2015145588A1 (en) * 2014-03-25 2017-04-13 富士通フロンテック株式会社 Biometric authentication device, biometric authentication method, and program
US9898673B2 (en) 2014-03-25 2018-02-20 Fujitsu Frontech Limited Biometrics authentication device and biometrics authentication method
WO2015145590A1 (en) * 2014-03-25 2015-10-01 富士通フロンテック株式会社 Biometric authentication device, biometric authentication method, and program
WO2015145591A1 (en) * 2014-03-25 2015-10-01 富士通フロンテック株式会社 Biometric authentication device, biometric authentication method, and program
US10019619B2 (en) 2014-03-25 2018-07-10 Fujitsu Frontech Limited Biometrics authentication device and biometrics authentication method
WO2015145588A1 (en) * 2014-03-25 2015-10-01 富士通フロンテック株式会社 Biometric authentication device, biometric authentication method, and program
US10019616B2 (en) 2014-03-25 2018-07-10 Fujitsu Frontech Limited Biometrics authentication device and biometrics authentication method
US10019617B2 (en) 2014-03-25 2018-07-10 Fujitsu Frontech Limited Biometrics authentication device and biometrics authentication method
JP6069582B2 (en) * 2014-03-25 2017-02-01 富士通フロンテック株式会社 Biometric authentication device, biometric authentication method, and program
JP6069581B2 (en) * 2014-03-25 2017-02-01 富士通フロンテック株式会社 Biometric authentication device, biometric authentication method, and program
JPWO2015145589A1 (en) * 2014-03-25 2017-04-13 富士通フロンテック株式会社 Biometric authentication device, biometric authentication method, and program
WO2015145589A1 (en) * 2014-03-25 2015-10-01 富士通フロンテック株式会社 Biometric authentication device, biometric authentication method, and program
JPWO2015145591A1 (en) * 2014-03-25 2017-04-13 富士通フロンテック株式会社 Biometric authentication device, biometric authentication method, and program
JPWO2015145590A1 (en) * 2014-03-25 2017-04-13 富士通フロンテック株式会社 Biometric authentication device, biometric authentication method, and program
JP2015230715A (en) * 2014-06-06 2015-12-21 株式会社デンソーアイティーラボラトリ Feature quantity arithmetic device, feature quantity arithmetic method, and feature quantity arithmetic program
JP2016153994A (en) * 2015-02-20 2016-08-25 ウィッツェル株式会社 Imprint completion determination method
JP2015099616A (en) * 2015-02-26 2015-05-28 カシオ計算機株式会社 Multiple class identifier generation device, data identification device, multiple class identifier generation method, data identification method, and program
CN105631410B (en) * 2015-12-18 2019-04-09 华南理工大学 A kind of classroom detection method based on intelligent video processing technique
CN105631410A (en) * 2015-12-18 2016-06-01 华南理工大学 Classroom detection method based on intelligent video processing technology
JP2017182438A (en) * 2016-03-30 2017-10-05 株式会社エクォス・リサーチ Image processing device, semiconductor device, image recognition device, mobile device, and image processing method
WO2017170877A1 (en) * 2016-03-30 2017-10-05 株式会社エクォス・リサーチ Image processing device, semiconductor device, image recognition device, mobile device, and image processing method
US11017262B2 (en) 2016-03-30 2021-05-25 Equos Research Co., Ltd. Method and device to determine image features using multi-resolution gradient analysis
JP2017213593A (en) * 2016-06-02 2017-12-07 コマツ産機株式会社 Controller, forging pressure machine, and controlling method thereof
JP2017213594A (en) * 2016-06-02 2017-12-07 コマツ産機株式会社 Controller, forging pressure machine, and controlling method thereof
US10685450B2 (en) 2016-06-02 2020-06-16 Komatsu Industries Corporation Controller, forming machine, and control method
JPWO2018143277A1 (en) * 2017-01-31 2020-01-09 株式会社エクォス・リサーチ Image feature output device, image recognition device, image feature output program, and image recognition program
CN110249366A (en) * 2017-01-31 2019-09-17 株式会社爱考斯研究 Image feature amount output device, pattern recognition device, image feature amount output program and image recognition program
JP2018124963A (en) * 2017-01-31 2018-08-09 株式会社エクォス・リサーチ Image processing device, image recognition device, image processing program, and image recognition program
WO2018143278A1 (en) * 2017-01-31 2018-08-09 株式会社エクォス・リサーチ Image processing device, image recognition device, image processing program, and image recognition program
WO2018143277A1 (en) * 2017-01-31 2018-08-09 株式会社エクォス・リサーチ Image feature value output device, image recognition device, image feature value output program, and image recognition program
US11256950B2 (en) 2017-01-31 2022-02-22 Aisin Corporation Image feature amount output device, image recognition device, the image feature amount output program, and image recognition program
JP7072765B2 (en) 2017-01-31 2022-05-23 株式会社アイシン Image processing device, image recognition device, image processing program, and image recognition program
US11468572B2 (en) 2017-01-31 2022-10-11 Aisin Corporation Image processing device, image recognition device, image processing program, and image recognition program
JP7165353B2 (en) 2017-01-31 2022-11-04 株式会社アイシン Image feature output device, image recognition device, image feature output program, and image recognition program
CN110249366B (en) * 2017-01-31 2024-05-10 株式会社爱信 Image feature quantity output device, image recognition device, and storage medium
CN107145894A (en) * 2017-03-13 2017-09-08 中山大学 A kind of object detection method based on direction gradient feature learning
CN107145894B (en) * 2017-03-13 2020-03-13 中山大学 Target detection method based on directional gradient feature learning
US11074712B2 (en) 2018-06-29 2021-07-27 Denso Corporation Gradient direction calculation device

Also Published As

Publication number Publication date
JP4997178B2 (en) 2012-08-08

Similar Documents

Publication Publication Date Title
JP4997178B2 (en) Object detection device
Gajjar et al. Human detection and tracking for video surveillance: A cognitive science approach
Gong et al. Learning and classifying actions of construction workers and equipment using Bag-of-Video-Feature-Words and Bayesian network models
Liu et al. Foreground object detection using top-down information based on EM framework
JP4767595B2 (en) Object detection device and learning device thereof
US9008365B2 (en) Systems and methods for pedestrian detection in images
JP4429370B2 (en) Human detection by pause
Sebe et al. Skin detection: A bayesian network approach
US8750614B2 (en) Method and system for classifying features in a video sequence
Yao et al. Fast human detection from videos using covariance features
CN106373146B (en) A kind of method for tracking target based on fuzzy learning
US9171210B2 (en) Method and apparatus for object classifier generation, and method and apparatus for detecting object in image
KR20130018763A (en) Face detection and method and apparatus
CN101814147A (en) Method for realizing classification of scene images
JP6095817B1 (en) Object detection device
Chang et al. A Bayesian approach for object classification based on clusters of SIFT local features
CN104036284A (en) Adaboost algorithm based multi-scale pedestrian detection method
Moctezuma et al. Person detection in surveillance environment with HoGG: Gabor filters and histogram of oriented gradient
WO2012046426A1 (en) Object detection device, object detection method, and object detection program
CN113536946B (en) Self-supervision pedestrian re-identification method based on camera relationship
Mitsui et al. Object detection by joint features based on two-stage boosting
Zhang et al. Transfer learning‐based online multiperson tracking with Gaussian process regression
Shi et al. Smoke detection based on dark channel and convolutional neural networks
Dong et al. Nighttime pedestrian detection with near infrared using cascaded classifiers
Borhade et al. Advanced driver assistance system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110526

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120406

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120417

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120514

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150518

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4997178

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees