JP2019061407A - Object detection device - Google Patents
Object detection device Download PDFInfo
- Publication number
- JP2019061407A JP2019061407A JP2017184443A JP2017184443A JP2019061407A JP 2019061407 A JP2019061407 A JP 2019061407A JP 2017184443 A JP2017184443 A JP 2017184443A JP 2017184443 A JP2017184443 A JP 2017184443A JP 2019061407 A JP2019061407 A JP 2019061407A
- Authority
- JP
- Japan
- Prior art keywords
- candidate
- density
- image
- candidate position
- congestion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Closed-Circuit Television Systems (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、人等の物体が存在し得る空間が撮影された撮影画像から個々の物体の位置を検出する物体検出装置に関し、特に、混雑が生じ得る空間が撮影された撮影画像から個々の物体の位置を検出する物体検出装置に関する。 The present invention relates to an object detection apparatus for detecting the position of an individual object from a photographed image in which a space where an object such as a human can exist is photographed, and in particular, an individual object from a photographed image in which a space where congestion may occur is photographed. Object detection apparatus for detecting the position of
イベント会場等の混雑が発生し得る空間においてはパニックの発生等を防止するために、異常な行動をとる不審者を早期に発見することが求められる。この要請に応えるため、例えば、会場の各所に監視カメラを配置して撮影画像から人の分布を推定し、推定した分布を表示することによって監視員による混雑状況の把握を容易化することが期待される。そして、その際に、個々の人の位置を検出して、検出した各位置に人の形状を模したモデルを表示すること等によって個々の人の位置を示せば、より一層の監視効率向上が期待できる。 In a space such as an event site where congestion may occur, early detection of a suspicious person taking an abnormal action is required to prevent occurrence of panic or the like. In order to respond to this request, for example, it is expected that surveillance cameras will be arranged at various places in the hall to estimate the distribution of people from photographed images and display the estimated distribution to facilitate understanding of the congestion situation by the surveillance staff Be done. Then, at that time, if the position of each person is detected and the position of each person is shown by displaying a model imitating the shape of the person at each detected position, the monitoring efficiency is further improved. I can expect it.
複数人が撮影された撮影画像から個々の人の位置を検出する方法の1つに、単独の人が撮影された画像の特徴量を事前に学習した識別器を用いて撮影画像を探索することによって撮影画像から単独の人の画像特徴が現れている位置を検出する方法がある。 As one of the methods for detecting the position of each person from the photographed images taken by a plurality of people, searching for the photographed images using a classifier that previously learned the feature amounts of the images taken by a single person There is a method of detecting the position where the image feature of a single person appears from the photographed image according to.
識別器を用いた探索処理では、一人ひとりに対して複数の候補位置が近接して抽出され得、一般に、近接して抽出された複数の候補位置に基づいて一人ひとりの位置が決定される。例えば、下記特許文献1に記載の対象検出装置は、指標値(識別器のスコア)が第一閾値を超える候補領域を抽出し、一定以上の割合で重複して抽出された複数の候補領域からなる領域グループを生成する。そして各領域グループの中から最高スコアのものを対象領域(人の領域)として検出し、または、領域グループごとに当該領域グループをなす複数の候補領域を平均化して対象領域を検出する。 In the search processing using a classifier, a plurality of candidate positions may be extracted in proximity to each other, and generally, positions of each individual are determined based on a plurality of candidate positions extracted in proximity. For example, the target detection device described in Patent Document 1 below extracts candidate areas where the index value (score of the classifier) exceeds the first threshold, and from a plurality of candidate areas extracted in duplicate at a certain ratio or more Create an area group that Then, the one with the highest score is detected as a target area (a human area) from each area group, or a plurality of candidate areas forming the area group are averaged for each area group to detect a target area.
しかしながら、イベント会場等を撮影した撮影画像においては、混雑した領域において隣り合う人物の候補領域同士が一定以上の割合で重複して抽出され得る。そのため、従来技術では複数人の候補領域が混ざった領域グループから1人の領域を決定することとなってしまい、検出し損ねを生じるおそれがあった。 However, in a photographed image obtained by photographing an event hall or the like, candidate areas of adjacent persons in a crowded area may be extracted redundantly at a certain ratio or more. Therefore, in the related art, one area is determined from an area group in which a plurality of candidate areas are mixed, which may cause a failure in detection.
一方、検出し損ねを防ぐために狭い範囲で領域グループを生成すると、混雑が生じていない領域において1人しか撮影されていないにも拘らず複数の領域グループが生成されてしまい、過剰な検出を生じるおそれがある。 On the other hand, if area groups are generated in a narrow range in order to prevent detection failure, a plurality of area groups will be generated even though only one person is photographed in an area where congestion does not occur, resulting in excessive detection. There is a fear.
このように、混雑状態によらず常に一定の基準で物体の候補領域(候補位置)を統合していると、領域ごとの混雑状態の違いや混雑状態の変化によって、物体の位置を検出する精度が低下する問題があった。 As described above, when the candidate areas (candidate positions) of the object are integrated on a constant basis regardless of the congestion state, the accuracy of detecting the position of the object by the difference in the congestion state or the change in the congestion state for each area There was a problem that decreased.
本発明は、上記問題を鑑みてなされたものであり、混雑状態によらず高精度に個々の物体の位置を検出することのできる物体検出装置を提供することを目的とする。 The present invention has been made in view of the above problems, and an object of the present invention is to provide an object detection apparatus capable of detecting the positions of individual objects with high accuracy regardless of congestion.
(1)本発明に係る物体検出装置は、物体による混雑が生じ得る空間が撮影された撮影画像から個々の前記物体の位置を検出する装置であって、前記撮影画像内の任意の領域を解析して当該領域に撮影された前記物体の混雑度合いを推定する混雑推定手段と、単独の前記物体が撮影された単体画像の特徴を学習した単体識別器を用いて、前記撮影画像において前記単体画像の特徴を有する候補位置を抽出する候補位置抽出手段と、前記撮影画像内の前記混雑度合いが高い位置ほど前記候補位置同士の近接度合いに関する下限を高く設定し、前記下限以上に近接している前記候補位置からなる候補位置グループを生成するグループ生成手段と、前記候補位置グループごとに、当該候補位置グループに帰属する候補位置に基づいて前記物体の位置を決定する物体位置決定手段と、を備える。 (1) An object detection apparatus according to the present invention is an apparatus for detecting the position of an individual object from a photographed image in which a space in which congestion due to the object may occur is photographed, and analyzes an arbitrary region in the photographed image Using the congestion estimation means for estimating the congestion degree of the object photographed in the area, and the simple discriminator which has learned the features of the simple image in which the single object is photographed, in the photographed image Candidate position extracting means for extracting candidate positions having the following characteristics, and the lower limit regarding the proximity degree of the candidate positions is set higher as the position with higher degree of congestion in the captured image is higher, Group generation means for generating a candidate position group consisting of candidate positions; and the position of the object based on the candidate positions belonging to the candidate position group for each of the candidate position groups And a object position determining means for determining.
(2)上記(1)に記載の物体検出装置において、前記候補位置抽出手段は、前記候補位置を基準として前記単体画像の特徴を有する候補領域を抽出し、前記グループ生成手段は、前記候補領域同士の重複部分の割合によって前記近接度合いを測り、前記撮影画像内の前記混雑度合いが高い位置ほど前記重複部分に関する下限割合を大きく設定し、前記下限割合以上で重複している前記候補領域に対応する前記候補位置グループを生成する構成とすることができる。 (2) In the object detection device according to (1), the candidate position extraction unit extracts a candidate region having a feature of the single image based on the candidate position, and the group generation unit is configured to The proximity degree is measured by the ratio of overlapping parts of each other, and the lower limit ratio regarding the overlapping part is set larger as the position of the congestion degree in the captured image is higher, and the candidate area overlapping at the lower limit ratio is coped The candidate position group may be generated.
(3)上記(1)に記載の物体検出装置において、前記グループ生成手段は、前記候補位置同士の距離によって前記近接度合いを測り、前記撮影画像内の前記混雑度合いが高い位置ほど前記距離に関する上限を小さく設定し、前記上限以下の距離にある前記候補位置からなる前記候補位置グループを抽出する構成とすることができる。 (3) In the object detection device according to (1), the group generation unit measures the proximity degree by the distance between the candidate positions, and the upper limit related to the distance increases as the congestion degree in the photographed image increases. Can be set small, and the candidate position group consisting of the candidate positions at a distance below the upper limit can be extracted.
(4)上記(1)〜(3)に記載の物体検出装置において、前記混雑推定手段は、所定の密度ごとに当該密度にて前記物体が存在する空間を撮影した密度画像それぞれの特徴を学習した密度推定器を用いて、前記撮影画像内の任意の領域に撮影された前記物体の前記密度を前記混雑度合いとして推定する構成とすることができる。 (4) In the object detection device according to (1) to (3), the congestion estimation unit learns features of density images obtained by photographing the space in which the object is present at the predetermined density. The density of the object captured in an arbitrary area in the captured image may be estimated as the degree of congestion using the density estimator.
(5)上記(4)に記載の物体検出装置において、前記グループ生成手段は、前記撮影画像内の任意の領域にて前記混雑推定手段により推定される前記物体の前記密度に対する、前記候補位置抽出手段により抽出される前記候補位置の当該領域における密度の比に応じて、当該領域における前記候補位置グループを構成する候補位置の上限数を設定し、前記上限数以下の前記候補位置からなる前記候補位置グループを生成する構成とすることができる。 (5) In the object detection device according to (4), the group generation unit extracts the candidate position with respect to the density of the object estimated by the congestion estimation unit in an arbitrary area in the captured image. The upper limit number of candidate positions constituting the candidate position group in the area is set according to the density ratio in the area of the candidate positions extracted by the means, and the candidate consisting of the candidate positions not exceeding the upper limit number It can be configured to generate location groups.
本発明によれば、混雑状態によらず高精度に個々の物体の位置を検出できる物体検出装置が得られる。 According to the present invention, it is possible to obtain an object detection apparatus capable of detecting the positions of individual objects with high accuracy regardless of congestion.
以下、本発明の実施形態として、イベント会場が撮影された撮影画像から個々の人を検出する物体検出装置の例を含み、検出結果を監視員に対して表示する画像監視装置1の例を説明する。 Hereinafter, as an embodiment of the present invention, an example of an image monitoring apparatus 1 including an example of an object detection apparatus that detects an individual from an image captured of an event hall will be described. Do.
[画像監視装置1の構成]
図1は画像監視装置1の概略の構成を示すブロック図である。画像監視装置1は、撮影部2、通信部3、記憶部4、画像処理部5および表示部6からなる。
[Configuration of Image Monitoring Device 1]
FIG. 1 is a block diagram showing a schematic configuration of the image monitoring device 1. The image monitoring apparatus 1 includes a photographing unit 2, a
撮影部2は監視カメラであり、通信部3を介して画像処理部5と接続され、監視空間を所定の時間間隔で撮影して撮影画像を生成し、撮影画像を順次、画像処理部5に入力する撮影手段である。例えば、撮影部2はイベント会場に設置されたポールに当該監視空間を俯瞰する視野を有して設置される。その視野は固定されていてもよいし、予めのスケジュール或いは通信部3を介した外部からの指示に従って変更されてもよい。また、例えば、撮影部2は監視空間をフレーム周期1秒で撮影してカラー画像を生成する。カラー画像の代わりにモノクロ画像を生成してもよい。
The photographing unit 2 is a monitoring camera, and is connected to the
通信部3は通信回路であり、その一端が画像処理部5に接続され、他端が同軸ケーブルまたはLAN(Local Area Network)、インターネットなどの通信網を介して撮影部2および表示部6と接続される。通信部3は撮影部2から撮影画像を取得して画像処理部5に入力し、画像処理部5から入力された検出結果を表示部6に出力する。
The
記憶部4は、ROM(Read Only Memory)、RAM(Random Access Memory)等のメモリ装置であり、各種プログラムや各種データを記憶する。記憶部4は画像処理部5と接続され、画像処理部5との間でこれらの情報を入出力する。
The
画像処理部5は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、MCU(Micro Control Unit)等の演算装置で構成される。画像処理部5は記憶部4と接続され、記憶部4からプログラムを読み出して実行することにより各種の処理手段・制御手段として動作し、各種データを記憶部4に記憶させ、また記憶部4から読み出す。また、画像処理部5は、通信部3を介して撮影部2および表示部6とも接続され、通信部3経由で撮影部2から取得した撮影画像を解析することにより個々の人を検出し、検出結果を通信部3経由で表示部6に出力する。
The
表示部6は、液晶ディスプレイ又はCRT(Cathode Ray Tube)ディスプレイ等のディスプレイ装置であり、通信部3を介して画像処理部5と接続され、画像処理部5による検出結果を表示する表示手段である。監視員は表示された検出結果を視認して混雑の発生等を判断し、必要に応じて人員配置の変更等の対処を行う。
The
なお、本実施形態においては、撮影部2と画像処理部5の個数が1対1である画像監視装置1を例示するが、別の実施形態においては、撮影部2と画像処理部5の個数を多対1或いは多対多とすることもできる。
In the present embodiment, the image monitoring device 1 in which the number of the imaging unit 2 and the number of the
[画像監視装置1の機能]
図2は画像監視装置1の機能を示す機能ブロック図である。通信部3は画像取得手段30および物体位置出力手段31等として機能し、記憶部4は密度推定器記憶手段40および単体識別器記憶手段41等として機能する。画像処理部5は、密度推定手段50、候補位置抽出手段51、グループ生成手段52および物体位置決定手段53等として機能する。
[Function of Image Monitoring Device 1]
FIG. 2 is a functional block diagram showing the functions of the image monitoring device 1. The
画像取得手段30は撮影手段である撮影部2から撮影画像を順次取得して、取得した撮影画像を密度推定手段50および候補位置抽出手段51に順次出力する。
The
密度推定器記憶手段40は、所定の密度ごとに当該密度にて物体(人)が存在する空間を撮影した画像(密度画像)それぞれの画像特徴を学習した推定密度算出関数であって、画像の特徴量を入力されると当該画像に撮影されている物体の密度の推定値(推定密度)を算出して出力する推定器(密度推定器)を表す情報を予め記憶している。つまり密度推定器記憶手段40は上記推定密度算出関数の係数等のパラメータを密度推定器の情報として予め記憶している。 The density estimator storage means 40 is an estimated density calculation function which learns the image features of each image (density image) obtained by photographing a space where an object (person) exists at the density for each predetermined density. When the feature amount is input, information representing an estimator (density estimator) which calculates and outputs an estimated value (estimated density) of the density of the object captured in the image is stored in advance. That is, the density estimator storage means 40 stores in advance parameters such as the coefficients of the estimated density calculation function as information of the density estimator.
密度推定手段50は、画像取得手段30から入力された撮影画像内の任意の領域を解析して当該領域に撮影された物体の密度を、当該領域における物体の混雑の度合い(混雑度合い)として推定する混雑推定手段である。具体的には、密度推定手段50は、任意の領域の撮影画像から密度推定用の特徴量(推定用特徴量)を抽出するとともに密度推定器記憶手段40から密度推定器を読み出して、抽出した推定用特徴量のそれぞれを密度推定器に入力することによって密度を推定する。この推定を撮影画像内の複数の位置にて行うことにより、撮影画像内での推定密度の分布(物体の密度分布)が求められ、密度推定手段50は推定した密度分布を候補位置抽出手段51に出力する。
The density estimating means 50 analyzes an arbitrary area in the photographed image inputted from the
密度推定の処理と密度推定器について具体的に説明する。 The process of density estimation and the density estimator will be specifically described.
密度推定手段50は、撮影画像の各画素の位置に窓(推定用抽出窓)を設定し、各推定用抽出窓における撮影画像から推定用特徴量を抽出する。推定用特徴量はGLCM(Gray Level Co-occurrence Matrix)特徴である。
The
各推定用抽出窓に撮影されている監視空間内の領域は同一サイズであることが望ましい。すなわち、好適には密度推定手段50は不図示のカメラパラメータ記憶手段から予め記憶されている撮影部2のカメラパラメータを読み出し、カメラパラメータを用いたホモグラフィ変換により撮影画像の任意の画素に撮影されている監視空間内の領域が同一サイズとなるように撮影画像を変形してから推定用特徴量を抽出する。
It is desirable that the areas in the monitoring space captured by the estimation extraction windows have the same size. That is, preferably, the
密度推定器は多クラスの画像を識別する識別器で実現することができ、多クラスSVM(Support Vector Machine)法で学習した識別関数とすることができる。 The density estimator can be realized by a classifier that identifies multiple classes of images, and can be a classification function learned by the multiclass Support Vector Machine (SVM) method.
密度は、例えば、人が存在しない「背景」クラス、0人/m2より高く2人/m2以下である「低密度」クラス、2人/m2より高く4人/m2以下である「中密度」クラス、4人/m2より高い「高密度」クラスの4クラスと定義することができる。 The density is, for example, a "background" class in which there are no people, a "low density" class which is higher than 0 person / m 2 and not more than 2 people / m 2, and not less than 2 people / m 2 and not more than 4 people / m 2 It can be defined as four classes of "medium density" class and "high density" class higher than 4 persons / m 2 .
推定密度は各クラスに予め付与された値であり、分布推定の結果として出力される値である。本実施形態では各クラスに対応する値を「背景」、「低密度」、「中密度」、「高密度」と表記する。 The estimated density is a value given in advance to each class, and is a value output as a result of distribution estimation. In the present embodiment, values corresponding to each class are described as “background”, “low density”, “medium density”, and “high density”.
すなわち、密度推定器は「背景」クラス、「低密度」クラス、「中密度」クラス、「高密度」クラスのそれぞれに帰属する多数の画像(密度画像)の特徴量に多クラスSVM法を適用して学習して得られる、各クラスの密度画像を他のクラスと識別するための識別関数である。この学習により導出された識別関数のパラメータが密度推定器として記憶されている。なお、密度画像の特徴量は、推定用特徴量と同種であり、GLCM特徴である。 That is, the density estimator applies the multi-class SVM method to the feature quantities of a large number of images (density images) belonging to the "background" class, the "low density" class, the "medium density" class, and the "high density" class. It is a discriminant function for discriminating density images of each class from other classes obtained by learning. The parameters of the discriminant function derived by this learning are stored as a density estimator. The feature amount of the density image is the same as the feature amount for estimation, and is a GLCM feature.
密度推定手段50は、各画素に対応して抽出した推定用特徴量のそれぞれを密度推定器に入力することによってその出力値である推定密度を取得する。なお、撮影画像を変形させて推定用特徴量を抽出した場合、密度推定手段50はカメラパラメータを用いたホモグラフィ変換により密度分布を元の撮影画像の形状に変形させる。
The density estimation means 50 acquires estimated density which is the output value by inputting each of the feature quantities for estimation extracted corresponding to each pixel to the density estimator. When the photographed image is deformed and the estimation feature amount is extracted, the
こうして得られた、撮影画像の画素ごとの推定密度の集まりが密度分布である。ここで、密度推定手段50が出力する密度分布からは撮影画像の各所における人の粗密状況が分かるが、密度分布から個々の人の位置までは分からない。これに対し、密度推定手段50の後に設けられる候補位置抽出手段51、グループ生成手段52および物体位置決定手段53は、撮影画像に現れている個々の人の位置を検出する手段である。 A group of estimated densities for each pixel of the captured image obtained in this manner is a density distribution. Here, although the density condition of the person in each place of the photographed image can be known from the density distribution outputted by the density estimating means 50, the position of the individual person can not be known from the density distribution. On the other hand, candidate position extraction means 51, group generation means 52 and object position determination means 53 provided after density estimation means 50 are means for detecting the position of each person appearing in the photographed image.
単体識別器記憶手段41は、単独の人(物体)が撮影された画像(単体画像)の特徴を学習した識別器(単体識別器)を予め記憶している。 The single identifier storage means 41 stores in advance a identifier (single identifier) that has learned the features of an image (single image) in which a single person (object) is photographed.
図3は単体識別器記憶手段41が記憶している単体識別器の情報を模式的に表した図である。 FIG. 3 is a view schematically showing the information of the single discriminator stored in the single discriminator storage means 41. As shown in FIG.
単体識別器は、画像の特徴量を入力されると当該画像が単体画像であることの尤もらしさを表す評価値(識別スコア)を算出して出力する評価値算出関数の係数、および識別スコアに対して適用する閾値等のパラメータで表される。 The simple discriminator calculates the evaluation value (identification score) that represents the likelihood that the image is a simple image when the feature amount of the image is input, and outputs the evaluation score calculation function coefficient and the discrimination score. It is represented by parameters such as a threshold value applied to it.
単体識別器は多数の単体画像とそれぞれが人以外しか写っていない多数の無人画像とからなる学習用画像の特徴量に線形SVM法を適用して学習した識別器とすることができる。 The single-piece discriminator can be a discriminator learned by applying the linear SVM method to the feature amount of a learning image consisting of a large number of single-piece images and a large number of unmanned images in which each person is only a person.
学習用アルゴリズムとして線形SVMを用いた場合、評価値算出関数の係数は重みベクトルである。この重みベクトルは特徴量の各要素に対する重みであり、入力された画像の特徴量と重みベクトルとの内積の値が識別スコアを表す。学習において、当該重みベクトルと特徴量との内積が0より大きい場合は人、0以下の場合は人以外と識別されるように調整される。よって、入力された画像が単体画像であるか否かを識別する閾値は原理上は0であり、通常は、閾値は0に設定することができる。ただし、単体画像を単体画像でないと識別する誤りを減じるために、閾値を0よりも小さな値に設定してもよい。 When a linear SVM is used as a learning algorithm, the coefficient of the evaluation value calculation function is a weight vector. The weight vector is a weight for each element of the feature amount, and the value of the inner product of the feature amount of the input image and the weight vector represents the identification score. In learning, when the inner product of the weight vector and the feature amount is larger than 0, it is adjusted so as to be identified as a person, and when less than 0, it is identified as other than a person. Therefore, the threshold for identifying whether the input image is a single image is in principle 0, and the threshold can usually be set to 0. However, the threshold may be set to a value smaller than 0 in order to reduce an error in identifying a single image as not being a single image.
なお、学習用画像の特徴量はHOG(Histograms of Oriented Gradients)特徴量である。 Note that the feature amounts of the learning image are HOG (Histograms of Oriented Gradients) feature amounts.
単体識別器記憶手段41が記憶している単体識別器は、密度が高いほど単独の物体を構成する部分のうちの少ない部分の画像特徴を学習した識別器となっている。単体識別器記憶手段41は、低密度クラスを表す値と対応付けて単独の人の全身の画像特徴を学習した単体識別器である全身識別器100、中密度クラスを表す値と対応付けて単独の人の上部2/3の画像特徴を学習した単体識別器である上半身識別器101、高密度クラスを表す値と対応付けて単独の人の上部1/3の画像特徴を学習した単体識別器である頭部近傍識別器102を記憶している。
The single-piece classifier stored in the single-piece
全身識別器100は単独の人の全身が撮影された単体画像を用いて学習した単体識別器であり、上半身識別器101は単独の人の上部2/3が撮影された単体画像(人の全身が撮影された単体画像の上部2/3を切り出した画像など)を用いて学習した単体識別器であり、頭部近傍識別器102は単独の人の上部1/3が撮影された単体画像(人の全身が撮影された単体画像の上部1/3を切り出した画像など)を用いて学習した単体識別器である。
The whole-
このように、単体識別器記憶手段41は、低密度クラスと対応付けて全身識別器100を、中密度クラスと対応付けて上半身識別器101を、高密度クラスと対応付けて頭部近傍識別器102を記憶している。
As described above, the single
候補位置抽出手段51は、単体識別器記憶手段41から単体識別器を読み出し、読み出した単体識別器を用いて、撮影画像において単体画像の特徴を有する候補位置を抽出し、抽出した候補位置をグループ生成手段52に出力する。 The candidate position extraction means 51 reads out the simplex discriminator from the simplex discriminator storage means 41, extracts the candidate position having the feature of the simplex image in the photographed image using the read out simplex discriminator, and groups the extracted candidate positions It is output to the generation means 52.
具体的には、まず、候補位置抽出手段51は、撮影画像内に所定間隔にて評価位置を複数設定し、各評価位置を基準として識別用の窓(識別用抽出窓)を設定する。例えば、候補位置抽出手段51は、撮影画像全体に1画素間隔で評価位置を設定し、各画素の位置を人の頭部重心を表す評価位置として当該位置を基準に識別用抽出窓を設定する。
Specifically, first, the candidate
そして、識別用抽出窓を設定した候補位置抽出手段51は、各識別用抽出窓内の画像の特徴量を抽出し、抽出した特徴量を単体識別器に入力することによって各評価位置の識別スコアを取得する。 And candidate position extraction means 51 which set the extraction window for identification extracts the feature-value of the image in each extraction window for identification, The identification score of each evaluation position is input by inputting the extracted feature-value to a single-piece | unit discriminator To get
このとき、候補位置抽出手段51は、混雑によるオクルージョンを考慮しつつ識別に用いる画像をできる限り大きくするために、各評価位置における物体の密度が高いほど識別用抽出窓を小さく、密度が低いほど識別用抽出窓を大きく設定し、識別用抽出窓の大きさに対応した単体識別器を用いる。 At this time, in order to make the image used for identification as large as possible while taking into consideration the occlusion due to congestion, the candidate position extraction means 51 makes the extraction window for identification smaller as the density of objects at each evaluation position is higher, and the lower the density is. The discrimination extraction window is set large, and a single discriminator corresponding to the size of the discrimination extraction window is used.
そのために、候補位置抽出手段51は、各評価位置に単独の人の上部1/3の形状に定められた窓を設定するとともに密度推定手段50から入力された密度分布を参照し、当該窓内における最多の推定密度を当該評価位置の密度と決定する。
For that purpose, the candidate
そして、候補位置抽出手段51は、密度が低密度である評価位置に単独の人の全身の形状に定められた識別用抽出窓を設定して識別用抽出窓内の撮影画像から単体識別用の特徴量(識別用特徴量)を抽出し、抽出した特徴量を全身識別器に入力して識別スコアを取得する。また、候補位置抽出手段51は、密度が中密度である評価位置に単独の人の上部2/3の形状に定められた識別用抽出窓を設定して識別用抽出窓内の撮影画像から識別用特徴量を抽出し、抽出した特徴量を上半身識別器に入力して識別スコアを取得する。また、候補位置抽出手段51は、密度が高密度である評価位置に単独の人の上部1/3の形状に定められた識別用抽出窓を設定して識別用抽出窓内の撮影画像から識別用特徴量を抽出し、抽出した特徴量を頭部近傍識別器に入力して識別スコアを取得する。 Then, the candidate position extraction means 51 sets the identification extraction window defined in the shape of the whole body of a single person at the evaluation position where the density is low, and for the single identification from the photographed image in the identification extraction window. A feature amount (feature amount for identification) is extracted, and the extracted feature amount is input to the whole-body classifier to acquire an identification score. Further, the candidate position extraction means 51 sets the identification extraction window defined in the shape of the upper part 2/3 of a single person at the evaluation position where the density is medium density, and identifies from the photographed image in the identification extraction window Feature amounts are extracted, and the extracted feature amounts are input to the upper body classifier to obtain an identification score. Further, the candidate position extraction means 51 sets an identification extraction window defined in the shape of the upper 1/3 of a single person at an evaluation position having a high density and identifies it from the photographed image in the identification extraction window Feature quantities are extracted, and the extracted feature quantities are input to the near-head classifier to obtain a discrimination score.
こうして評価位置ごとの識別スコアを取得した候補位置抽出手段51は、各識別スコアを予め定めた閾値と比較し、識別スコアが閾値以上である評価位置を候補位置として抽出する。例えば、上述したように人と人以外とを分ける閾値を0と定めたSVMを用いた場合、候補位置抽出手段51は、0より大きな識別スコアが取得された評価位置を抽出する。そして、候補位置抽出手段51は候補位置ごとに、候補位置、密度、識別スコア、使用した単体識別器の閾値および使用した識別用抽出窓を対応付けた情報(候補位置情報)をグループ生成手段52に出力する。
Thus, the candidate
こうして抽出される候補位置は、多くの場合、個々の人のそれぞれに対して複数個抽出される。そこで、グループ生成手段52が候補位置のうち同一人物のものと考えられる1以上の候補位置からなるグループ(候補位置グループ)を生成し、物体位置決定手段53が候補位置グループごとに候補位置を1つに統合して個々の人の位置(物体位置)を決定する。
In many cases, a plurality of candidate positions extracted in this manner are extracted for each individual person. Therefore, the
図4は密度クラスごとの候補位置と候補位置グループの例を示す模式図である。図4(a)は低密度領域の例であり、図4(b)は中密度領域の例であり、図4(c)は高密度領域の例である。図4(a)〜(c)それぞれの左側部分には人物の近傍にて抽出された複数の候補位置に対応する識別用抽出窓の例を示している。具体的には、図4(a)の低密度領域では1人の人物200の近傍に4つの候補位置が抽出され、これに対応して全身に対応した形状・大きさの4つの識別用抽出窓201が示されている。図4(b)の中密度領域では近接する2人の人物210,211の近傍に5つの候補位置が抽出され、これに対応して人の上部2/3に対応した形状・大きさの5つの識別用抽出窓212が示されている。図4(c)の高密度領域では近接する3人の人物220〜222の近傍に7つの候補位置が抽出され、これに対応して人の上部1/3に対応した形状・大きさの7つの識別用抽出窓223が示されている。また、図4(a)〜(c)の右側部分はそれぞれの左側部分に示した候補位置から生成される候補位置グループの例を示している。
FIG. 4 is a schematic view showing an example of candidate positions and candidate position groups for each density class. FIG. 4A is an example of the low density region, FIG. 4B is an example of the medium density region, and FIG. 4C is an example of the high density region. The left part of each of FIGS. 4A to 4C shows an example of an identification extraction window corresponding to a plurality of candidate positions extracted in the vicinity of a person. Specifically, in the low density region of FIG. 4A, four candidate positions are extracted in the vicinity of one
ここで、高い密度が推定された領域では人同士が近接しているため広い範囲で候補位置グループを生成すると、複数人の候補位置から1つの候補位置グループを生成する誤りが生じて、人の位置を検出し損ねる。その一方で、低い密度が推定された領域では高い密度が推定された領域よりも広い範囲で同一人物についての候補位置が抽出され得るため、狭い範囲で候補位置グループを生成すると、同一人物の候補位置から複数の候補位置グループを生成する誤りが生じて、人の位置が過剰に検出されてしまう。 Here, when the candidate position group is generated in a wide range because people are close to each other in the area where the high density is estimated, an error occurs to generate one candidate position group from a plurality of candidate positions. It fails to detect the position. On the other hand, since candidate positions for the same person can be extracted in a wider range than a region where high density is estimated in a region where low density is estimated, when candidate position groups are generated in a narrow range, candidates for the same person are candidates. An error occurs to generate a plurality of candidate position groups from the positions, and the position of the person is excessively detected.
そこで、グループ生成手段52は、候補位置にて推定された密度を参照し、撮影画像内の密度が高い位置ほど狭い範囲(統合範囲)で抽出された候補位置からなる候補位置グループを生成する。例えば、低密度領域では統合範囲が広い結果、図4(a)の右側に示すように、1人の人物200の近傍の識別用抽出窓201で示す4つの候補位置全てから1つの候補位置グループ202が生成され得る。これに対して中密度領域では統合範囲が狭く設定される結果、図4(b)の右側に示すように、識別用抽出窓212で示す5つの候補位置から2人の人物210,211に対応して2つの候補位置グループ213,214が生成され、またさらに統合範囲が狭く設定される高密度領域では図4(c)の右側に示すように、識別用抽出窓223で示す7つの候補位置から3人の人物220〜222に対応して3つの候補位置グループ224〜226が生成され得る。
Therefore, the
統合範囲は候補位置同士の近接度合いを示す任意の尺度を用いて定義することができる。つまり、グループ生成手段52は、近接度合いに関する下限を設定し、当該下限以上に近接していれば統合範囲内であるとして候補位置グループを生成する。そして、その際に、グループ生成手段52は、撮影画像内の密度が高い位置ほど候補位置同士の近接度合いに関する下限を高く設定し、密度が低い位置ほど下限を低くする。
The integrated range can be defined using any measure indicating the degree of proximity of candidate positions. That is, the
グループ生成手段52は生成した各候補位置グループに帰属する候補位置の候補位置情報に当該候補位置グループの識別子を付与し、各候補位置グループの情報を物体位置決定手段53に出力する。
The
具体的にはグループ生成手段52は各候補位置と対応して設定された識別用抽出窓(候補領域)同士の重複割合によって近接度合いを測り、統合範囲を制御することができる。すなわち、重複割合について下限割合を設定し、識別用抽出窓同士が下限割合以上に重複している場合を統合範囲とする。そして、グループ生成手段52は、撮影画像内の密度が高い位置ほど高い下限割合を設定し、下限割合以上で重複している複数の候補領域からなる候補位置グループを抽出する。例えば、候補領域AとBの重複割合を式(1)にて定義し、密度が低密度である候補位置に対しては下限割合を0.5と設定し、密度が中密度である候補位置に対しては下限割合を0.65と設定し、密度が高密度である候補位置に対しては下限割合を0.8と設定する。なお、式(1)においてSA,SB,SA∩Bはそれぞれ候補領域Aの面積、候補領域Bの面積、候補領域A,Bの重複部分の面積を表す。
Specifically, the
さらに、グループ生成手段52は、人の配置の偏りによる検出し損ねを防止するために、撮影画像内の任意の領域にて密度推定手段50により推定される物体の密度に対する、候補位置抽出手段51により抽出される候補位置の当該領域における密度の比に応じて、当該領域における候補位置グループを構成する候補位置の上限数を設定し、上限数以下の候補位置からなる前記候補位置グループを生成・抽出する。具体的には、グループ生成手段52は、密度推定手段50により推定された密度ごとに、抽出された候補位置の数および当該密度が推定された領域の大きさに応じて候補位置グループを構成する候補位置の上限数を設定する。例えば、2人/m2より高く4人/m2以下の密度画像から学習した中密度クラスと推定された領域が3.5m2相当である場合、当該領域に撮影されている人の数は7〜14人と推定される。そして、例えば、当該領域から40個の候補位置が抽出された場合、候補位置グループを構成する候補位置の数は平均的には2.9〜5.7個と推定される。これに対応してグループ生成手段52は、中密度の候補位置グループを構成する候補位置の上限数を6個に設定する。
Furthermore, the
物体位置決定手段53は、例えば、候補位置グループごとに、当該候補位置グループを構成する候補位置のうち識別スコアが最大の候補位置を物体位置と決定する。そして、物体位置決定手段53は、決定した物体位置の情報を物体位置出力手段31に出力する。 The object position determination means 53 determines the candidate position having the largest identification score among the candidate positions constituting the candidate position group as the object position, for example, for each candidate position group. Then, the object position determination means 53 outputs the information of the determined object position to the object position output means 31.
物体位置出力手段31は物体位置決定手段53から入力された物体位置の情報を表示部6に順次出力し、表示部6は物体位置出力手段31から入力された物体位置の情報を表示する。例えば、物体位置の情報はインターネット経由で送受信され、表示部6に表示される。監視員は表示された情報を視認することによって監視空間に混雑が発生している地点を把握し、当該地点に警備員を派遣し或いは増員するなどの対処を行う。
The object
[画像監視装置1の動作]
図5、図6および図7のフロー図を参照して画像監視装置1の動作を説明する。
[Operation of Image Monitoring Device 1]
The operation of the image monitoring device 1 will be described with reference to the flowcharts of FIG. 5, FIG. 6 and FIG.
画像監視装置1が動作を開始すると、イベント会場に設置されている撮影部2は所定時間おきに監視空間を撮影して撮影画像を画像処理部5が設置されている画像解析センター宛に順次送信する。そして、画像処理部5は撮影画像を受信するたびに図5のフロー図に従った動作を繰り返す。
When the image monitoring apparatus 1 starts operation, the imaging unit 2 installed in the event hall captures an image of the monitoring space at predetermined time intervals and sequentially transmits the captured image to the image analysis center where the
まず、通信部3は画像取得手段30として動作し、撮影部2からの撮影画像の受信待ち状態となる。撮影画像を取得した画像取得手段30は当該撮影画像を画像処理部5に出力する(ステップS1)。
First, the
撮影画像を入力された画像処理部5は密度推定手段50として動作し、撮影画像から密度分布を推定する(ステップS2)。密度推定手段50は、撮影画像の各画素の位置にて推定用特徴量を抽出するとともに記憶部4の密度推定器記憶手段40から密度推定器を読み出し、各推定用特徴量を密度推定器に入力して撮影画像の各画素における推定密度を取得することにより、撮影画像における密度分布を推定する。
The
密度分布を推定した画像処理部5は候補位置抽出手段51としても動作し、候補位置抽出手段51には画像取得手段30から撮影画像が入力されるとともに密度推定手段50から密度分布が入力される。これらを入力された候補位置抽出手段51は、密度分布に背景クラス以外の推定密度が含まれているか否かを確認する(ステップS3)。
The
背景クラス以外の推定密度が含まれている場合は(ステップS3にてYES)、候補位置抽出手段51は、少なくとも1人以上の人が撮影されているとして、撮影画像から個々の物体の候補位置を抽出する処理を行う(ステップS4)。他方、背景クラスのみの場合は(ステップS3にてNO)、人が撮影されていないとして、ステップS4,S5の処理を省略する。
If an estimated density other than the background class is included (YES in step S3), the candidate
図6のフローチャートを参照して、ステップS4の候補位置抽出処理を説明する。 The candidate position extraction process of step S4 will be described with reference to the flowchart of FIG.
候補位置抽出手段51は、撮影画像中の各画素の位置を順次、評価位置に設定する(ステップS400)。そして、候補位置抽出手段51は、密度推定手段50から入力される密度分布を参照して、評価位置の密度を特定する(ステップS401)。具体的には、候補位置抽出手段51は評価位置に単独の人の上部1/3の形状に定められた窓を設定して当該窓内で最多の推定密度を評価位置の密度として特定する。
The candidate
密度を特定した候補位置抽出手段51は、単体識別器記憶手段41から当該密度に応じた単体識別器を読み出し、当該密度に応じた識別用抽出窓を設定して識別用抽出窓内の撮影画像から識別用特徴量を抽出し(ステップS402)、抽出した識別用特徴量を当該密度に応じた単体識別器に入力して識別スコア(評価値)を算出する(ステップS403)。 The candidate position extraction means 51 which specified the density reads the single-body discriminator according to the density from the single-body discriminator storage means 41, sets the extraction window for identification according to the density, and picks up the photographed image in the extraction window for identification The feature amount for identification is extracted from (step S402), and the extracted feature amount for identification is input to the single discriminator according to the density to calculate an identification score (evaluation value) (step S403).
そして、候補位置抽出手段51は、評価位置の評価値が所定の閾値を超えていれば(ステップS404にてYES)、当該評価位置を物体の候補位置とし、候補位置情報を生成する(ステップS405)。一方、評価位置の評価値が所定の閾値を超えていなければ(ステップS404にてNO)、当該評価位置は候補位置とはされず、ステップS405の処理は省略される。
Then, if the evaluation value of the evaluation position exceeds the predetermined threshold (YES in step S404), the candidate
候補位置抽出手段51は、ステップS404,S405にて或る画素を評価位置とした処理を終えると、撮影画像の全ての画素の位置を評価位置に設定し終えたか否かを確認し(ステップS406)、未設定の画素がある場合は(ステップS406にてNO)、処理をステップS400に戻して次の画素の位置を処理する。
When the candidate
他方、候補位置抽出手段51が全ての画素の位置を評価位置に設定して候補位置の抽出処理を終えた場合(ステップS406にてYES)、生成された候補位置情報はグループ生成手段52に出力され、処理は図5のステップS5に進められる。候補位置抽出手段51は生成した候補位置情報をグループ生成手段52に出力する。
On the other hand, when candidate position extraction means 51 sets the positions of all the pixels as evaluation positions and finishes the extraction process of the candidate positions (YES in step S406), the generated candidate position information is output to group generation means 52 The process proceeds to step S5 of FIG. The candidate
図7のフローチャートを参照して、ステップS5の候補位置統合処理を説明する。 The candidate position integration process of step S5 will be described with reference to the flowchart of FIG.
グループ生成手段52は評価値の降順に候補位置情報を並べたリストを生成する(ステップS500)。グループ生成手段52は、リスト先頭の候補位置の密度に応じた下限割合と上限数とを設定するとともに(ステップS501)、候補位置グループのメンバー数を“1”に初期化する(ステップS502)。
The
グループ生成手段52は、リストの2番目以降の候補位置情報を順次、比較位置情報に設定し(ステップS503)、リスト先頭の候補位置の識別用抽出窓と比較位置情報の候補位置(比較位置)の識別用抽出窓との重複割合を算出する。当該重複割合がステップS501にて設定した下限割合を超えている場合(ステップS504にてYES)、グループ生成手段52は比較位置をリスト先頭の候補位置と同じ候補位置グループとすることとし、比較位置情報をリストから削除するとともに(ステップS505)、メンバー数を1だけ増加する(ステップS506)。
The
ステップS506にて増加させたメンバー数がステップS501にて設定した上限数に達していない場合(ステップS507にてNO)、グループ生成手段52は比較位置情報がリスト終端であるか否かを判断する(ステップS508)。また、ステップS504にて重複割合が下限割合以下である場合は(ステップS504にてNO)、ステップS505〜S507の処理を省略してステップS508の判断を行う。
When the number of members increased in step S506 does not reach the upper limit number set in step S501 (NO in step S507), the
グループ生成手段52は、比較位置情報がリスト終端でない場合(ステップS508にてNO)、ステップS503〜S508の処理を繰り返し、リスト終端に達すると(ステップS508にてYES)、現在のリスト先頭の候補位置についての候補位置グループの抽出を終了する。
When the comparison position information does not indicate the end of the list (NO in step S508), the
また、グループ生成手段52は、ステップS506にて増加させたメンバー数が上限数に達した場合(ステップS507にてYES)、比較位置情報がリスト終端でなくても、現在のリスト先頭の候補位置についての候補位置グループの抽出を終了する。
Further, when the number of members increased in step S506 reaches the upper limit number (YES in step S507), the
グループ生成手段52によりリスト先頭の候補位置についての候補位置グループが生成されると、物体位置決定手段53は、候補位置グループ内の評価値が最大の候補位置、つまりリスト先頭の候補位置を物体位置に決定する(ステップS509)。
When the candidate position group for the candidate position at the top of the list is generated by the
また、グループ生成手段52は候補位置グループの生成処理S501〜S508が完了したリスト先頭の候補位置情報を削除する(ステップS510)。ステップS510の削除処理後、リストに候補位置情報が残っていれば(ステップS511にてNO)、グループ生成手段52は処理をステップS501に戻し、新たなリスト先頭の候補位置についての候補位置グループの生成を行う。一方、リストが空になると(ステップS511にてYES)、候補位置統合処理S5は終了し、処理は図5のステップS6に進められる。候補位置抽出手段51は、生成した候補位置情報をグループ生成手段52に出力する。
Further, the
再び図5を参照して説明を続ける。物体位置決定手段53はステップS5にて決定した物体位置の情報を通信部3に出力し(ステップS6)、通信部3は物体位置出力手段31として動作して物体位置の情報を表示部6に送信する。
Description will be continued with reference to FIG. 5 again. The object position determination means 53 outputs the information on the object position determined in step S5 to the communication unit 3 (step S6), and the
以上の処理を終えると、処理はステップS1に戻され、次の撮影画像に対する処理が行われる。 When the above process is completed, the process is returned to step S1, and the process is performed on the next captured image.
[変形例]
(1)上記実施形態において、グループ生成手段52は各候補位置と対応して設定された識別用抽出窓(候補領域)同士の重複割合を尺度に用いて候補位置同士の近接度合いを測る具体例を示したが、重複割合に代えて候補位置間の距離を尺度に用い、候補位置同士の距離によって近接度合いを測ることもできる。この構成では、グループ生成手段52は、候補位置同士の距離について上限を設定する。そして、グループ生成手段52は撮影画像内の混雑度合いが高い位置ほど短い上限距離を設定し、上限距離以下の距離にある複数の候補位置からなる候補位置グループを抽出する。この場合、例えば、グループ生成手段52は、密度が低密度である候補位置同士に対しては上限距離を60画素と設定し、密度が中密度である候補位置同士に対しては上限距離を40画素と設定し、密度が高密度である候補位置同士に対しては上限距離を30画素と設定して、密度ごとに候補位置グループを抽出する。
[Modification]
(1) In the above embodiment, the
(2)上記実施形態およびその変形例において、グループ生成手段52の処理として例示した、候補位置グループを構成する候補位置の上限数の設定および当該上限数以下の候補位置からなる候補位置グループを抽出する処理は省略することもできる。
(2) In the above embodiment and the modification thereof, extraction of a candidate position group including setting of the upper limit number of candidate positions constituting the candidate position group and processing of the
(3)上記実施形態およびその変形例において、物体位置決定手段53は評価値が最大の候補位置を物体位置と決定したが、候補位置の平均値または重み付け平均値を物体位置と決定してもよい。すなわち、物体位置決定手段53は、候補位置グループごとに当該候補位置グループを構成する候補位置の平均値を物体位置と決定する、または、候補位置グループごとに当該候補位置グループを構成する候補位置を当該候補位置の評価値(負の評価値を含み得る場合は全てを正となるようシフトさせた評価値)で重み付けて平均して重み付け平均値を物体位置と決定する。 (3) In the above embodiment and its modification, the object position determination means 53 determined the candidate position having the largest evaluation value as the object position, but it is also possible to determine the average value or the weighted average value of the candidate positions as the object position Good. That is, the object position determination means 53 determines the average value of the candidate positions constituting the candidate position group as the object position for each candidate position group, or the candidate positions constituting the candidate position group for each candidate position group The weighted average value is determined as the object position by weighting with the evaluation value of the candidate position (the evaluation value shifted so that all become positive if negative evaluation values can be included) and averaged.
(4)上記実施形態およびその変形例においては、検出対象の物体を人とする例を示したが、これに限らず、検出対象の物体を車両、椅子や机等の什器、牛や羊等の動物等とすることもできる。また、検出対象を1種類とせず人、椅子および机の3種類とするなど、複数種類とすることもできる(複数種類の物体が混在する空間での検出)。 (4) In the above embodiment and its modification, an example in which the object to be detected is a human is shown, but the invention is not limited to this, and the object to be detected is a vehicle, a fixture such as a chair or desk, a cow, a sheep, etc. The animals can also be In addition, a plurality of types of detection targets can be used such as one type of person, a chair, and a desk (detection in a space in which a plurality of types of objects are mixed).
(5)上記実施形態およびその変形例においては、各密度クラスに対応付ける単体識別器として人の全身、上部2/3および上部1/3を識別するものを用いたが、識別する部分および大きさは一例であり、検出対象や撮影する監視空間の特性、採用する特徴量や評価値の種類などの違いに応じ、それぞれに適した別の設定とすることができる。 (5) In the above-described embodiment and the modification thereof, the one that identifies the whole human body, the upper 2/3 and the upper 1/3, is used as a single body identifier that corresponds to each density class. Is an example, and different settings suitable for each can be made according to differences in the detection target, the characteristics of the monitoring space to be photographed, the feature value to be adopted, the type of evaluation value, and the like.
(6)上記実施形態およびその変形例においては、多クラスSVM法にて学習した密度推定器を例示したが、多クラスSVM法に代えて、決定木型のランダムフォレスト法、多クラスのアダブースト(AdaBoost)法または多クラスロジスティック回帰法などにて学習した密度推定器など種々の密度推定器とすることができる。 (6) In the above embodiment and its modification, the density estimator learned by the multiclass SVM method is exemplified, but instead of the multiclass SVM method, a decision tree type random forest method, multiclass adaboost ( It can be various density estimators, such as a density estimator learned by AdaBoost) method or multiclass logistic regression method.
或いは識別型のCNN(Convolutional Neural Network)を用いた密度推定器とすることもできる。 Alternatively, it may be a density estimator using a discrimination type CNN (Convolutional Neural Network).
(7)上記実施形態およびその変形例においては、密度推定器が推定する背景以外の密度のクラスを3クラスとしたが、より細かくクラスを分けてもよい。 (7) In the above embodiment and its modification, the class of density other than the background estimated by the density estimator is three classes, but the classes may be divided more finely.
その場合、3段階(全身、上半身および頭部近傍)の単体識別器に代えて、クラス分けに対応したより細かい段階の単体識別器とし、クラスと単体識別器を対応付けて単体識別器記憶手段41に記憶させておくことができる。或いは、クラスと3段階の単体識別器を多対一で対応付けて単体識別器記憶手段41に記憶させておくこともできる。
In that case, instead of the single-class classifiers of the three stages (whole body, upper body and vicinity of the head), a single-class classifier of finer stages corresponding to classification is used 41 can be stored. Alternatively, the class and the three-step single classifiers can be associated in many-to-one correspondence and stored in the single
(8)上記実施形態およびその変形例においては、多クラスに分類する密度推定器を例示したがこれに代えて、特徴量から密度の値(推定密度)を回帰する回帰型の密度推定器とすることもできる。すなわち、リッジ回帰法、サポートベクターリグレッション法、回帰木型のランダムフォレスト法またはガウス過程回帰(Gaussian Process Regression)などによって、特徴量から推定密度を求めるための回帰関数のパラメータを学習した密度推定器とすることができる。 (8) In the above embodiment and its modification, the density estimator classified into multiple classes is exemplified, but instead, a regression type density estimator that regresses the value of density (estimated density) from the feature amount and You can also That is, a density estimator which learns parameters of a regression function for obtaining an estimated density from feature amounts by ridge regression method, support vector regression method, regression tree type random forest method, Gaussian process regression, or the like can do.
或いは回帰型のCNNを用いた密度推定器とすることもできる。 Alternatively, it may be a density estimator using a regression type CNN.
これらの場合、密度クラスの値の代わりに連続値で出力される推定密度の値域を、単体識別器と対応付けて単体識別器記憶手段41に記憶させておく。
In these cases, the value range of the estimated density, which is output as a continuous value instead of the value of the density class, is stored in the single
(9)上記実施形態およびその変形例においては、密度推定器が学習する特徴量および推定用特徴量としてGLCM特徴を例示したが、これらはGLCM特徴に代えて、局所二値パターン(Local Binary Pattern:LBP)特徴量、ハールライク(Haar-like)特徴量、HOG特徴量、輝度パターンなどの種々の特徴量とすることができ、またはGLCM特徴とこれらのうちの複数を組み合わせた特徴量とすることもできる。 (9) In the above embodiment and its modification, GLCM features are exemplified as feature quantities to be learned by the density estimator and feature quantities for estimation. However, these may be replaced with GLCM features, and local binary patterns (Local Binary Pattern) may be used. : LBP) A variety of feature quantities such as a feature quantity, a Haar-like feature quantity, an HOG feature quantity, a luminance pattern, etc., or a feature quantity combining a plurality of GLCM features and these You can also.
(10)上記各実施形態およびその各変形例においては、混雑推定手段である密度推定手段50が物体の混雑度合いとしてその密度を推定する例を示したが、混雑推定手段は画像の複雑度の解析によって混雑度合いを推定することもできる。例えば、混雑推定手段は撮影画像を互いに色が類似する隣接画素ごとの領域に分割し、所定のブロックごとに分割領域を計数して計数値に応じた高さの複雑度を算出する(予めの実験を通じて求めた、計数値が多いほど高い複雑度が定まる関係に基づき算出)。或いは、混雑推定手段は所定のブロックごとに撮影画像の周波数解析を行ってピーク周波数の高さに応じた高さの複雑度を求める(予めの実験を通じて求めた、ピーク周波数が高いほど高い複雑度が定まる関係に基づき算出)。そして、混雑推定手段は、ブロックごとに複雑度に応じた高さの混雑度合いを推定する(予めの実験を通じて求めた、複雑度が高いほど高い混雑度合いが定まる関係に基づき算出)。
(10) In each of the above-described embodiments and their modifications, the
(11)上記実施形態およびその変形例においては、注目している候補位置に人の上部1/3の形状に定められたモデルの投影領域または該形状に定められた窓を設定して当該領域内の推定密度を集計することによって、当該候補位置における推定密度を決定する例を示したが、処理量を削減するために当該領域に代えて候補位置の画素、候補位置の8近傍領域または16近傍領域などの小さな領域とすることもできる。或いは、確度を上げるために当該領域に代えて候補位置を代表位置とする単独の人の上部2/3の形状に定められたモデルの投影領域または該形状に定められた窓、または候補位置を代表位置とする単独の人の全身の形状に定められたモデルの投影領域または該形状に定められた窓などの大きな領域とすることもできる。 (11) In the above embodiment and the variation thereof, the projection area of the model defined in the shape of the upper 1/3 of the person or the window defined in the shape is set at the candidate position of interest and the area is set In this example, the estimated density at the candidate position is determined by adding up the estimated density in the area, but in order to reduce the amount of processing, the pixel at the candidate position, eight neighboring areas of the candidate position or It can also be a small area such as a near area. Alternatively, in order to increase the accuracy, instead of the area concerned, the projection area of the model defined in the shape of the upper 2/3 of a single person whose representative position is the representative position or the window defined in the shape or the candidate position The projection area of the model defined in the shape of the whole body of a single person taken as a representative position or a large area such as a window defined in the shape can also be used.
(12)上記実施形態およびその変形例において示した、識別スコアと対比する閾値は単体識別器ごとに異なる値とすることもできる。 (12) The threshold value to be compared with the discrimination score shown in the above embodiment and the modification thereof may be a different value for each single classifier.
(13)上記実施形態およびその変形例においては、線形SVM法により学習された単体識別器を例示したが、線形SVM法に代えてアダブースト法など、従来知られた各種の学習法を用いて学習した単体識別器とすることもできる。また、識別器の代わりにパターンマッチング器を用いることもでき、その場合の識別スコアは人の学習用画像から抽出した特徴量の平均パターンと入力画像の特徴量との内積などとなり、識別スコア算出関数は当該スコアを出力値とし入力画像の特徴量を入力値とする関数とすることができる。また単体識別器として識別型のCNNを用いても良い。特に、識別処理に加えて識別用抽出窓のサイズの推定処理をも行うR−CNN(Regions with CNN features)法等を用いる場合、候補領域である識別用抽出窓の大きさは可変サイズとすることができる。R−CNN法については例えば"Rich feature hierarchies for accurate object detection and semantic segmentation", Ross Girshick他, CVPR 2014に記載がある。 (13) In the above embodiment and its modification, the single discriminator learned by the linear SVM method is exemplified, but instead of the linear SVM method, learning is performed using various known learning methods such as the Adaboost method. It can also be used as a single identifier. In addition, a pattern matching unit can be used instead of the classifier, and the classification score in that case is the inner product of the average pattern of the feature quantities extracted from the human learning image and the feature quantity of the input image, etc. The function can be a function having the score as an output value and the feature amount of the input image as an input value. Alternatively, a discrimination type CNN may be used as a single discriminator. In particular, when using the R-CNN (Regions with CNN features) method or the like which performs estimation processing of the size of the extraction window for identification in addition to identification processing, the size of the extraction window for identification which is a candidate region is variable. be able to. The R-CNN method is described, for example, in "Rich feature hierarchies for accurate object detection and semantic segmentation", Ross Girshick et al., CVPR 2014.
(14)上記実施形態およびその変形例においては、単体識別器が学習する特徴量としてHOG特徴量を例示したが、これらはHOG特徴量に代えて、局所二値パターン特徴量、ハールライク特徴量、輝度パターンなどの種々の特徴量とすることができ、またはHOG特徴量とこれらのうちの複数を組み合わせた特徴量とすることもできる。 (14) Although the HOG feature has been exemplified as the feature to be learned by the simplex discriminator in the above embodiment and the variation thereof, these are local binary pattern feature, Haar-like feature, instead of the HOG feature. It may be various feature quantities such as a luminance pattern, or it may be a feature quantity combining a HOG feature quantity and a plurality of these.
1 画像監視装置、2 撮影部、3 通信部、4 記憶部、5 画像処理部、6 表示部、30 画像取得手段、31 物体位置出力手段、40 密度推定器記憶手段、41 単体識別器記憶手段、50 密度推定手段、51 候補位置抽出手段、52 グループ生成手段、53 物体位置決定手段、100 全身識別器、101 上半身識別器、102 頭部近傍識別器。 Reference Signs List 1 image monitoring apparatus, 2 imaging unit, 3 communication unit, 4 storage unit, 5 image processing unit, 6 display unit, 30 image acquisition unit, 31 object position output unit, 40 density estimator storage unit, 41 single classifier storage unit , 50 density estimation means, 51 candidate position extraction means, 52 group generation means, 53 object position determination means, 100 whole body discriminator, 101 upper body discriminator, 102 head near discriminator.
Claims (5)
前記撮影画像内の任意の領域を解析して当該領域に撮影された前記物体の混雑度合いを推定する混雑推定手段と、
単独の前記物体が撮影された単体画像の特徴を学習した単体識別器を用いて、前記撮影画像において前記単体画像の特徴を有する候補位置を抽出する候補位置抽出手段と、
前記撮影画像内の前記混雑度合いが高い位置ほど前記候補位置同士の近接度合いに関する下限を高く設定し、前記下限以上に近接している前記候補位置からなる候補位置グループを生成するグループ生成手段と、
前記候補位置グループごとに、当該候補位置グループに帰属する候補位置に基づいて前記物体の位置を決定する物体位置決定手段と、
を備えたことを特徴とする物体検出装置。 An object detection apparatus for detecting the position of each of the objects from a captured image obtained by capturing a space in which congestion due to the object may occur.
Congestion estimation means for analyzing an arbitrary area in the photographed image to estimate the degree of congestion of the object photographed in the area;
Candidate position extraction means for extracting a candidate position having a feature of the single image in the captured image using a single classifier that learns the features of the single image in which the single object is captured;
A group generation unit configured to set a lower limit regarding the proximity degree of the candidate positions to a higher position as the congestion degree in the captured image is higher, and generate a candidate position group including the candidate positions closer to the lower limit or more;
Object position determining means for determining the position of the object based on the candidate positions belonging to the candidate position group for each of the candidate position groups;
An object detection apparatus comprising:
前記グループ生成手段は、前記候補領域同士の重複部分の割合によって前記近接度合いを測り、前記撮影画像内の前記混雑度合いが高い位置ほど前記重複部分に関する下限割合を大きく設定し、前記下限割合以上で重複している前記候補領域に対応する前記候補位置グループを生成すること、
を特徴とする請求項1に記載の物体検出装置。 The candidate position extraction unit extracts a candidate area having a feature of the single image based on the candidate position.
The group generation unit measures the proximity degree by the ratio of overlapping portions of the candidate areas, and sets the lower limit ratio regarding the overlapping portion to a larger value as the congestion degree is higher in the photographed image, Generating the candidate position group corresponding to the overlapping candidate region;
The object detection apparatus according to claim 1, characterized in that
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017184443A JP6920944B2 (en) | 2017-09-26 | 2017-09-26 | Object detector |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017184443A JP6920944B2 (en) | 2017-09-26 | 2017-09-26 | Object detector |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019061407A true JP2019061407A (en) | 2019-04-18 |
JP6920944B2 JP6920944B2 (en) | 2021-08-18 |
Family
ID=66177421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017184443A Active JP6920944B2 (en) | 2017-09-26 | 2017-09-26 | Object detector |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6920944B2 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016040705A (en) * | 2014-08-13 | 2016-03-24 | セコム株式会社 | Object detection device |
JP2017097510A (en) * | 2015-11-20 | 2017-06-01 | ソニー株式会社 | Image processing apparatus, image processing method, and program |
-
2017
- 2017-09-26 JP JP2017184443A patent/JP6920944B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016040705A (en) * | 2014-08-13 | 2016-03-24 | セコム株式会社 | Object detection device |
JP2017097510A (en) * | 2015-11-20 | 2017-06-01 | ソニー株式会社 | Image processing apparatus, image processing method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP6920944B2 (en) | 2021-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101964397B1 (en) | Information processing apparatus and information processing method | |
KR101337060B1 (en) | Imaging processing device and imaging processing method | |
US8737740B2 (en) | Information processing apparatus, information processing method, and non-transitory computer-readable storage medium | |
KR20170006355A (en) | Method of motion vector and feature vector based fake face detection and apparatus for the same | |
JP2008146539A (en) | Face authentication device | |
JP2007148988A (en) | Face authentication unit, face authentication method, and entrance/exit management device | |
JP6851221B2 (en) | Image monitoring device | |
JP7005213B2 (en) | Image analyzer | |
JP4729188B2 (en) | Gaze detection device | |
Iazzi et al. | Fall detection based on posture analysis and support vector machine | |
CN107231519B (en) | Video processing apparatus and control method | |
JP6893812B2 (en) | Object detector | |
JP6920949B2 (en) | Object distribution estimator | |
JP6920944B2 (en) | Object detector | |
JP6855175B2 (en) | Image processing equipment, image processing methods and programs | |
CN107798282B (en) | Method and device for detecting human face of living body | |
JP6542279B2 (en) | Image monitoring device | |
JP6851246B2 (en) | Object detector | |
JP6964993B2 (en) | Distribution estimator | |
JP7337541B2 (en) | Information processing device, information processing method and program | |
JP7099809B2 (en) | Image monitoring system | |
JP6851241B2 (en) | Image analyzer | |
JP6658402B2 (en) | Frame rate determination device, frame rate determination method, and computer program for frame rate determination | |
JP6905363B2 (en) | Object detector | |
JP2012146040A (en) | Detecting system of abnormal situation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200622 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210625 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210713 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210727 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6920944 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |