JP2018165966A - Object detection device - Google Patents
Object detection device Download PDFInfo
- Publication number
- JP2018165966A JP2018165966A JP2017063887A JP2017063887A JP2018165966A JP 2018165966 A JP2018165966 A JP 2018165966A JP 2017063887 A JP2017063887 A JP 2017063887A JP 2017063887 A JP2017063887 A JP 2017063887A JP 2018165966 A JP2018165966 A JP 2018165966A
- Authority
- JP
- Japan
- Prior art keywords
- image
- density
- evaluation value
- unit
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 52
- 238000011156 evaluation Methods 0.000 claims abstract description 199
- 238000009826 distribution Methods 0.000 claims abstract description 50
- 238000003860 storage Methods 0.000 description 126
- 238000000034 method Methods 0.000 description 79
- 238000012544 monitoring process Methods 0.000 description 74
- 238000004364 calculation method Methods 0.000 description 68
- 238000012545 processing Methods 0.000 description 65
- 230000008569 process Effects 0.000 description 55
- 230000006870 function Effects 0.000 description 46
- 238000004891 communication Methods 0.000 description 32
- 238000000605 extraction Methods 0.000 description 31
- 238000010586 diagram Methods 0.000 description 29
- 238000003384 imaging method Methods 0.000 description 21
- 238000012986 modification Methods 0.000 description 20
- 230000004048 modification Effects 0.000 description 20
- 230000008859 change Effects 0.000 description 10
- 238000012806 monitoring device Methods 0.000 description 10
- 238000012706 support-vector machine Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 9
- 230000005484 gravity Effects 0.000 description 6
- 238000012804 iterative process Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000008571 general function Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、人等の所定の物体が存在し得る空間が撮影された撮影画像から個々の物体を検出する物体検出装置に関し、特に、混雑が生じ得る空間が撮影された撮影画像から個々の物体を検出する物体検出装置に関する。 The present invention relates to an object detection device that detects individual objects from a captured image in which a space in which a predetermined object such as a person can exist is captured, and in particular, an individual object from a captured image in which a space in which congestion can occur is captured. The present invention relates to an object detection device for detecting the above.
イベント会場等の混雑が発生し得る空間においては事故防止等のために、混雑が発生している区域に警備員を多く配置するなどの対応が求められる。そこで、会場の各所に監視カメラを配置して撮影画像から人の分布を推定し、推定した分布を表示することによって監視員による混雑状況の把握を容易化することができる。 In an event venue or other space where congestion can occur, countermeasures such as placing a large number of guards in the crowded area are required to prevent accidents. Therefore, monitoring cameras can be arranged at various locations in the venue to estimate the distribution of people from the captured images and display the estimated distribution, thereby facilitating the understanding of the congestion situation by the monitoring staff.
その際、個々の人の位置を検出して、検出した各位置に人の形状を模したモデルを表示し、または/および人の位置関係(例えば行列を為している、取り囲んでいる)を解析して解析結果を報知することによって、より一層の監視効率向上が期待できる。 At that time, the position of each person is detected, and a model imitating the person's shape is displayed at each detected position, or / and the positional relationship of the person (for example, forming a matrix or surrounding) Further analysis efficiency can be expected by analyzing and notifying the analysis result.
複数人が撮影された撮影画像から個々の人の位置を検出する方法に、人を模したモデルを複数個組み合わせて撮影画像に当てはめる方法や、単独の人が撮影された画像の特徴量を事前に学習した識別器を用いて撮影画像をスキャンする方法など、予め用意した単独の人の画像特徴を用いて撮影画像から単独の人の画像特徴が現れている位置を検出する方法がある。 The method of detecting the position of each person from a photographed image taken by multiple people, combining multiple models that imitate people, and applying it to the photographed image, as well as feature values of images taken by a single person in advance There is a method of detecting a position where an image feature of a single person appears from a captured image using a previously prepared image feature of a single person, such as a method of scanning a captured image using a discriminator that has been learned.
例えば、特許文献1に記載の移動物体追跡装置においては、監視画像と背景画像との比較によって変化画素が抽出された位置に、追跡中の移動物体の形状を模した移動物体モデルを追跡中の移動物体の数だけ組み合わせて当てはめることによって個々の移動物体の位置を検出している。この移動物体追跡装置においては、人の全身の形状を近似した移動物体モデルを用いることが例示されている。
For example, in the moving object tracking device described in
また、例えば、特許文献2に記載の物体検出装置は、多数の「人」の画像データ、「人以外」の画像データを用いて予め学習させた識別器を用いて入力画像から人を検出する。この物体検出装置が用いる識別器は、人の全身の画像データを用いて学習したものであることが示唆されている。また、この物体検出装置においては、入力画像から円を検出して人体頭部の候補領域としている。
Further, for example, the object detection device described in
しかしながら、混雑が生じ得る空間が撮影された撮影画像においては、混雑状態に応じて人の隠蔽状態が変化する。そのため、単独の人の画像特徴として、混雑状態によらず常に同一部分の画像特徴を用いていると個々の人を精度良く検出し続けることが困難となる問題があった。 However, in a captured image in which a space where congestion can occur is captured, the concealment state of a person changes according to the congestion state. For this reason, there has been a problem that it is difficult to accurately detect individual persons if the image characteristics of the same part are always used as the image characteristics of a single person regardless of the congestion state.
すなわち、混雑が生じておらず、全身が撮影されている人が多い撮影画像については、人を模したモデルを用いる方法においても、人の画像を学習した識別器を用いる方法においても、全身の画像特徴を用いた方が頭部近傍のみの画像特徴を用いるよりも高い精度で当該人を検出できる。 That is, for a captured image in which there are many people who are not crowded and the whole body has been photographed, both in the method using a model imitating a person and in the method using a discriminator that learns a human image, The person using the image feature can be detected with higher accuracy than using the image feature only near the head.
一方、混雑が生じ、隠蔽状態が多発している撮影画像については、人を模したモデルを用いる方法においても、人の画像を学習した識別器を用いる方法においても、全身の画像特徴を用いるよりも頭部近傍のみの画像特徴を用いた方が高い精度で当該人を検出できる。 On the other hand, for captured images that are congested and frequently concealed, both in the method using a model imitating a person and in the method using a discriminator that learns a human image, the image features of the whole body are used. The person can be detected with higher accuracy by using only the image feature near the head.
そのため、例えば、混雑時の検出精度を高めるために頭部近傍のみの画像特徴を常に用いていると混雑が生じていない時の検出精度が低下し、混雑が生じていない時の検出精度を高めるために全身の画像特徴を常に用いていると混雑時の検出精度が低下する。
つまり、混雑状態と、個々の物体の検出のために用いる部分の多寡には、隠蔽状態の変化を要因とするトレードオフがある。
Therefore, for example, if image features only near the head are always used to increase detection accuracy during congestion, the detection accuracy when there is no congestion is reduced, and detection accuracy when there is no congestion is increased. For this reason, if the image features of the whole body are always used, the detection accuracy at the time of congestion decreases.
That is, there is a trade-off between the congestion state and the number of parts used for detecting individual objects due to a change in the concealment state.
また、撮影画像中には混雑状態の異なる領域が混在し得る。これによって領域ごとに検出精度が変わることとなり、問題がより複雑化する。 In addition, regions with different congestion states may be mixed in the captured image. This changes the detection accuracy for each region, and the problem becomes more complicated.
このように、混雑が生じ得る空間が撮影された撮影画像においては検出対象の物体の隠蔽状態が混雑状態に応じて変化するため、当該撮影画像から個々の物体を精度良く検出することが困難であった。 In this way, in the captured image in which a space where congestion can occur is captured, the concealment state of the object to be detected changes according to the congestion state, and thus it is difficult to accurately detect individual objects from the captured image. there were.
本発明は上記問題に鑑みてなされたものであり、混雑が生じ得る空間が撮影された撮影画像であっても当該撮影画像中の個々の物体を精度良く検出することができる物体検出装置を提供することを目的とする。 The present invention has been made in view of the above problems, and provides an object detection device that can accurately detect individual objects in a captured image even in a captured image of a space in which congestion can occur. The purpose is to do.
かかる目的を達成するために本発明は、所定の物体による混雑が生じ得る空間が撮影された撮影画像から個々の前記物体を検出する物体検出装置であって、所定の密度ごとに当該密度にて前記物体が存在する空間を撮影した密度画像それぞれの画像特徴を学習した密度推定器を用いて、前記撮影画像に撮影された前記物体の前記密度の分布を推定する密度推定手段と、前記撮影画像内に個々の前記物体が存在し得る候補位置を設定して当該候補位置の前記撮影画像に単独の前記物体の画像特徴が現れている度合いを表す評価値を算出し、前記評価値が所定値以上である候補位置を前記物体の位置と判定する物体位置判定手段と、を備え、前記物体位置判定手段は、前記候補位置における前記密度に応じ、単独の前記物体を構成する部分のうちの重視する部分を変更して前記評価値を算出することを特徴とした物体検出装置を提供する。 In order to achieve such an object, the present invention provides an object detection device for detecting individual objects from a captured image in which a space in which congestion due to a predetermined object may occur is captured, and for each predetermined density Density estimating means for estimating the density distribution of the object photographed in the photographed image using a density estimator that has learned image features of the respective density images photographed in the space in which the object exists, and the photographed image A candidate position where each of the objects can exist is set, and an evaluation value representing the degree to which the image feature of the single object appears in the captured image at the candidate position is calculated, and the evaluation value is a predetermined value Object position determination means for determining the candidate position as described above as the position of the object, wherein the object position determination means is a part of a part constituting the single object according to the density at the candidate position. To provide an object detection apparatus and calculates the evaluation value by changing the portion to be emphasized.
前記物体位置判定手段は、前記候補位置における前記密度が高いほど、単独の前記物体を構成する部分のうちの少ない部分の画像特徴を重視して前記評価値を算出することが好適である。 It is preferable that the object position determination unit calculates the evaluation value with an emphasis on image features of a small part of the parts constituting the single object as the density at the candidate position is higher.
また、前記物体位置判定手段は、前記候補位置における前記密度が高いほど、前記撮影画像の当該候補位置に単独の前記物体を構成する部分のうちの少ない部分の画像特徴が現れている度合いを表す前記評価値を算出することが好適である。 Further, the object position determination means represents the degree that the image features of a small part of the parts constituting the single object appear at the candidate position of the photographed image as the density at the candidate position is higher. It is preferable to calculate the evaluation value.
または、前記物体位置判定手段は、前記撮影画像の前記候補位置に単独の前記物体を構成する複数の部分の画像特徴が現れている度合いを表す部分評価値を算出し、当該候補位置における前記密度が高いほど、前記物体を構成する部分のうちの少ない部分の前記部分評価値に高く重み付けて前記部分評価値を総和することによって前記評価値を算出することが好適である。 Alternatively, the object position determination unit calculates a partial evaluation value indicating a degree of appearance of image features of a plurality of parts constituting the single object at the candidate position of the captured image, and the density at the candidate position is calculated. It is preferable that the higher the is, the higher the weight is given to the partial evaluation values of a small part of the parts constituting the object, and the evaluation value is calculated by summing the partial evaluation values.
また、前記物体位置判定手段は、それぞれが1以上の前記候補位置を含む互いに異なる複数通りの配置を生成する配置生成手段と、前記複数通りの配置それぞれについて、前記各候補位置に、当該候補位置における前記密度が高いほど、単独の前記物体を構成する部分のうちの少ない部分を模した物体モデルを描画してモデル画像を生成するモデル画像生成手段と、前記複数通りの配置それぞれについて、前記モデル画像の前記撮影画像に対する類似の度合いを表す前記評価値を算出する評価値算出手段と、前記評価値が最大の配置における前記候補位置を前記物体の位置と決定する最適配置決定手段と、を含むことが好適である。 In addition, the object position determination unit is configured to generate a plurality of different arrangements each including one or more candidate positions, and to each candidate position for each of the plurality of arrangements. The model image generating means for generating a model image by drawing an object model simulating a small part of the parts constituting the single object, and the model for each of the plurality of arrangements, Evaluation value calculating means for calculating the evaluation value representing the degree of similarity of the image to the photographed image, and optimum arrangement determining means for determining the candidate position in the arrangement having the maximum evaluation value as the position of the object. Is preferred.
また、前記物体位置判定手段は、それぞれが1以上の前記候補位置を含む互いに異なる複数通りの配置を生成する配置生成手段と、前記複数通りの配置それぞれについて、前記各候補位置に単独の前記物体を模した物体モデルを描画してモデル画像を生成するモデル画像生成手段と、前記複数通りの配置の前記モデル画像それぞれについて、前記物体を構成する部分ごとに前記物体モデルの前記撮影画像に対する類似度を求め、前記候補位置における前記密度が高いほど少ない部分に偏重させた重み付けを行って前記類似度を総和することにより前記評価値を算出する評価値算出手段と、前記評価値が最大の配置における前記候補位置を前記物体の位置と決定する最適配置決定手段と、を含むことが好適である。 In addition, the object position determination unit generates a plurality of different arrangements each including one or more candidate positions, and the object at each candidate position for each of the plurality of arrangements. Model image generation means for generating a model image by drawing an object model simulating an object model, and for each of the model images in the plurality of arrangements, the degree of similarity of the object model to the captured image for each part constituting the object And an evaluation value calculation means for calculating the evaluation value by performing weighting with a weight being applied to a smaller portion as the density at the candidate position is higher and summing up the similarities, and an arrangement in which the evaluation value is the maximum It is preferable that an optimum arrangement determining unit that determines the candidate position as the position of the object is included.
また、前記物体位置判定手段は、前記撮影画像内に所定間隔にて複数の前記候補位置を設定する候補位置設定手段と、前記候補位置それぞれについて、当該候補位置の前記密度が高いほど単独の前記物体を構成する部分のうちの少ない部分の画像特徴を学習した識別器に、当該候補位置の前記撮影画像の画像特徴を入力して前記評価値を算出する評価値算出手段と、予め定めた基準を満たす前記評価値が算出された前記候補位置を前記物体の位置と決定する位置決定手段と、を含むことが好適である。 In addition, the object position determination unit includes a candidate position setting unit that sets a plurality of candidate positions at predetermined intervals in the captured image, and for each of the candidate positions, the higher the density of the candidate positions, Evaluation value calculating means for calculating the evaluation value by inputting the image feature of the photographed image at the candidate position to the discriminator that has learned the image characteristics of a small part of the parts constituting the object, and a predetermined reference It is preferable that a position determination unit that determines the candidate position where the evaluation value satisfying the condition is calculated as the position of the object is included.
また、前記物体位置判定手段は、前記撮影画像内に所定間隔にて複数の前記候補位置を設定する候補位置設定手段と、前記候補位置それぞれについて、単独の前記物体を構成する複数の部分の画像特徴を学習した識別器に当該候補位置の前記撮影画像の画像特徴を入力して前記複数の部分の部分評価値を求め、前記候補位置における前記密度が高いほど少ない部分に偏重させた重み付けを行って前記部分評価値を総和することにより前記評価値を算出する評価値算出手段と、予め定めた基準を満たす前記評価値が算出された前記候補位置を前記物体の位置と決定する位置決定手段と、を含むことが好適である。 In addition, the object position determination unit includes a candidate position setting unit that sets a plurality of candidate positions at predetermined intervals in the captured image, and a plurality of partial images that constitute the single object for each of the candidate positions. The image features of the photographed image at the candidate position are input to the classifier that has learned the features to obtain partial evaluation values of the plurality of portions, and weighting is applied to the smaller portions at the candidate positions with increasing weight. Evaluation value calculating means for calculating the evaluation value by summing the partial evaluation values, and position determining means for determining the candidate position where the evaluation value satisfying a predetermined criterion is calculated as the position of the object It is preferable to contain.
本発明によれば、混雑が生じ得る空間が撮影された撮影画像から個々の物体を精度良く検出できる。 According to the present invention, it is possible to accurately detect individual objects from a captured image in which a space where congestion can occur is captured.
[第一の実施形態]
以下、本発明の実施形態として、イベント会場が撮影された撮影画像から個々の人を検出する物体検出装置の例を含み、検出結果を監視員に対して表示する画像監視装置1の例を説明する。この実施形態に係る画像監視装置1は、特に、物体検出装置が人を模した物体モデルを用いて個々の人を検出し、その際に物体検出装置が人の密度によって物体モデルを切り替える例を含む。
[First embodiment]
Hereinafter, as an embodiment of the present invention, an example of an
<第一の実施形態に係る画像監視装置1の構成>
図1は画像監視装置1の概略の構成を示すブロック図である。画像監視装置1は、撮影部2、通信部3、記憶部4、画像処理部5、および表示部6からなる。
<Configuration of
FIG. 1 is a block diagram showing a schematic configuration of the
撮影部2は、監視カメラであり、通信部3を介して画像処理部5と接続され、監視空間を所定の時間間隔で撮影して撮影画像を生成し、撮影画像を順次画像処理部5に入力する撮影手段である。例えば、撮影部2は、イベント会場に設置されたポールに当該監視空間を俯瞰する視野を有して設置される。その視野は固定されていてもよいし、予めのスケジュール或いは通信部3を介した外部からの指示に従って変更されてもよい。また、例えば、撮影部2は監視空間をフレーム周期1秒で撮影してカラー画像を生成する。カラー画像の代わりにモノクロ画像を生成してもよい。
The photographing
通信部3は、通信回路であり、その一端が画像処理部5に接続され、他端が同軸ケーブルまたはLAN(Local Area Network)、インターネットなどの通信網を介して撮影部2および表示部6と接続される。通信部3は、撮影部2から撮影画像を取得して画像処理部5に入力し、画像処理部5から入力された検出結果を表示部6に出力する。
The communication unit 3 is a communication circuit, one end of which is connected to the image processing unit 5 and the other end is connected to the photographing
記憶部4は、ROM(Read Only Memory)、RAM(Random Access Memory)等のメモリ装置であり、各種プログラムや各種データを記憶する。記憶部4は、画像処理部5と接続されて画像処理部5との間でこれらの情報を入出力する。 The storage unit 4 is a memory device such as a ROM (Read Only Memory) or a RAM (Random Access Memory), and stores various programs and various data. The storage unit 4 is connected to the image processing unit 5 and inputs / outputs such information to / from the image processing unit 5.
画像処理部5は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、MCU(Micro Control Unit)等の演算装置で構成される。画像処理部5は、記憶部4および表示部6と接続され、記憶部4からプログラムを読み出して実行することにより各種処理手段・制御手段として動作し、各種データを記憶部4に記憶させ、読み出す。また、画像処理部5は、通信部3を介して撮影部2および表示部6とも接続され、通信部3経由で撮影部2から取得した撮影画像を解析することにより個々の人を検出し、検出結果を通信部3経由で表示部6に表示させる。
The image processing unit 5 is configured by an arithmetic device such as a CPU (Central Processing Unit), a DSP (Digital Signal Processor), or an MCU (Micro Control Unit). The image processing unit 5 is connected to the storage unit 4 and the display unit 6, operates as various processing units / control units by reading out and executing programs from the storage unit 4, and stores various types of data in the storage unit 4 for reading. . The image processing unit 5 is also connected to the
表示部6は、液晶ディスプレイ又はCRT(Cathode Ray Tube)ディスプレイ等のディスプレイ装置であり、通信部3を介して画像処理部5と接続され、画像処理部5による検出結果を表示する表示手段である。監視員は表示された検出結果を視認して混雑の発生等を判断し、必要に応じて人員配置の変更等の対処を行う。 The display unit 6 is a display device such as a liquid crystal display or a CRT (Cathode Ray Tube) display, and is a display unit that is connected to the image processing unit 5 via the communication unit 3 and displays a detection result by the image processing unit 5. . The monitor visually checks the displayed detection result to determine the occurrence of congestion, and takes measures such as changing the personnel arrangement as necessary.
なお、本実施形態においては、撮影部2と画像処理部5の個数が1対1である画像監視装置1を例示するが、別の実施形態においては、撮影部2と画像処理部5の個数を多対1或いは多対多とすることもできる。
In the present embodiment, the
<第一の実施形態に係る画像監視装置1の機能>
図2および図3は画像監視装置1の機能を示す機能ブロック図である。通信部3は画像取得手段30および物体位置出力手段31等として機能し、記憶部4は密度推定器記憶手段40および単体特徴記憶手段41等として機能する。画像処理部5は、密度推定手段50および物体位置判定手段51等として機能する。また、単体特徴記憶手段41は物体モデル記憶手段410aとしての機能を含み、物体位置判定手段51は配置生成手段510a、モデル画像生成手段512a、評価値算出手段514aおよび最適配置決定手段516aとしての機能を含む。
<Function of the
2 and 3 are functional block diagrams showing functions of the
画像取得手段30は、撮影手段である撮影部2から撮影画像を順次取得して、取得した撮影画像を密度推定手段50および物体位置判定手段51に順次出力する。
The
密度推定器記憶手段40は、所定の密度ごとに当該密度にて物体(人)が存在する空間を撮影した密度画像それぞれの画像特徴を学習した推定密度算出関数であって、画像の特徴量を入力されると当該画像に撮影されている物体の密度の推定値(推定密度)を算出し、算出した推定密度を出力する推定器(密度推定器)の情報を予め記憶している。つまり上記推定密度算出関数の係数等のパラメータを密度推定器の情報として予め記憶している。
The density
密度推定手段50は、画像取得手段30から入力された撮影画像の各所から密度推定用の特徴量(推定用特徴量)を抽出するとともに密度推定器記憶手段40から密度推定器を読み出して、抽出した推定用特徴量のそれぞれを密度推定器に入力することによって推定密度の分布(密度分布)を推定し、推定した密度分布を物体位置判定手段51に出力する。
The
密度推定の処理と密度推定器について具体的に説明する。 The density estimation process and the density estimator will be specifically described.
密度推定手段50は、撮影画像の各画素の位置に窓(推定用抽出窓)を設定し、各推定用抽出窓における撮影画像から推定用特徴量を抽出する。推定用特徴量はGLCM(Gray Level Co-occurrence Matrix)特徴である。 The density estimation means 50 sets a window (estimation extraction window) at the position of each pixel of the captured image, and extracts an estimation feature amount from the captured image in each estimation extraction window. The estimation feature amount is a GLCM (Gray Level Co-occurrence Matrix) feature.
各推定用抽出窓に撮影されている監視空間内の領域は同一サイズであることが望ましい。すなわち、好適には密度推定手段50は不図示のカメラパラメータ記憶手段から予め記憶されている撮影部2のカメラパラメータを読み出し、カメラパラメータを用いたホモグラフィ変換により撮影画像の任意の画素に撮影されている監視空間内の領域が同一サイズとなるように撮影画像を変形してから推定用特徴量を抽出する。
It is desirable that the area in the monitoring space photographed by each estimation extraction window is the same size. That is, preferably, the density estimation means 50 reads out the camera parameters of the photographing
密度推定器は多クラスの画像を識別する識別器で実現することができ、多クラスSVM(Support Vector Machine)法で学習した識別関数とすることができる。
密度は、例えば、人が存在しない「背景」クラス、0人/m2より高く2人/m2以下である「低密度」クラス、2人/m2より高く4人/m2以下である「中密度」クラス、4人/m2より高い「高密度」クラスの4クラスと定義することができる。
The density estimator can be realized by a classifier that identifies multi-class images, and can be a discrimination function learned by a multi-class SVM (Support Vector Machine) method.
Density, for example, there is no human "Background" class is 0 people / m higher than 2 is two / m 2 or less "low density" class, higher than two / m 2 4 persons / m 2 or less It can be defined as 4 classes of “medium density” class, “high density” class higher than 4 persons / m 2 .
推定密度は各クラスに予め付与された値であり、分布推定の結果として出力される値である。本実施形態では各クラスに対応する値を「背景」「低密度」「中密度」「高密度」と表記する。 The estimated density is a value given in advance to each class, and is a value output as a result of distribution estimation. In the present embodiment, values corresponding to each class are expressed as “background”, “low density”, “medium density”, and “high density”.
すなわち、密度推定器は「背景」クラス、「低密度」クラス、「中密度」クラス、「高密度」クラスのそれぞれに帰属する多数の画像(密度画像)の特徴量に多クラスSVM法を適用して学習した、各クラスの画像を他のクラスと識別するための識別関数である。この学習により導出された識別関数のパラメータが密度推定器として記憶されている。なお、密度画像の特徴量は、推定用特徴量と同種であり、GLCM特徴である。 That is, the density estimator applies the multi-class SVM method to the feature quantities of a large number of images (density images) belonging to the “background” class, “low density” class, “medium density” class, and “high density” class. This is an identification function for discriminating the images of each class from other classes. The parameters of the discriminant function derived by this learning are stored as a density estimator. The feature amount of the density image is the same type as the estimation feature amount and is a GLCM feature.
密度推定手段50は、各画素に対応して抽出した推定用特徴量のそれぞれを密度推定器に入力することによってその出力値である推定密度を取得する。なお、撮影画像を変形させて推定用特徴量を抽出した場合、密度推定手段50は、カメラパラメータを用いたホモグラフィ変換により密度分布を元の撮影画像の形状に変形させる。
The density estimation means 50 acquires the estimated density which is the output value by inputting each of the estimation feature quantities extracted corresponding to each pixel to the density estimator. In addition, when the estimated feature amount is extracted by deforming the captured image, the
こうして得られた、撮影画像の画素ごとの推定密度の集まりが密度分布である。 A collection of estimated densities for each pixel of the captured image thus obtained is a density distribution.
密度推定手段50が出力する密度分布から撮影画像の各所における人の粗密状況が分かるが、密度分布から個々の人の位置までは分からない。
これに対し、密度推定手段50の後段の物体位置判定手段51は、撮影画像に現れている個々の人の位置を判定する手段である。
From the density distribution output by the density estimation means 50, the density of people at various locations in the photographed image can be understood, but the position of each person cannot be determined from the density distribution.
On the other hand, the object position determination means 51 subsequent to the density estimation means 50 is a means for determining the position of each person appearing in the captured image.
物体位置判定手段51は、単独の物体(人)としての画像特徴が現れている箇所を撮影画像上で探索することにより個々の物体を検出して個々の物体の位置を判定する。すなわち、物体位置判定手段51は、撮影画像内に個々の物体が存在し得る候補位置を設定して当該候補位置の撮影画像に単独の物体の画像特徴(単体特徴)が現れている度合いを表す評価値を算出し、評価値が所定値以上である候補位置を物体の位置と判定する。例えば、単体特徴は人の形状であり、単体特徴記憶手段41が予め単体特徴を記憶している。また例えば、評価値は撮影画像のエッジと人の形状を表すモデルとの類似度である。
The object position determination means 51 detects an individual object by searching a captured image for a place where an image feature as a single object (person) appears, and determines the position of the individual object. That is, the object
ここで、混雑が生じ得る空間が撮影された撮影画像においては、混雑によって人と人の間で生じる隠蔽が単体特徴の一部を隠し、それによって評価値が下がれば個々の人を検出し損ねる。撮影部2が俯瞰設置されている場合は、足元に近いほど隠蔽は発生しやすく、頭に近いほど隠蔽は発生しにくい。このことを考慮し、混雑に適応させるべく単体特徴を人の頭部だけにすると混雑時の検出し損ねは減少する。しかし、頭部だけの単体特徴は肩などに対しても比較的高い評価値が算出されてしまうため、混雑していないときの誤検出が増加する。
Here, in a captured image in which a space in which congestion can occur is captured, concealment that occurs between people due to congestion hides some of the single features, and if the evaluation value decreases thereby, individual persons cannot be detected. . When the photographing
物体位置判定手段51は、密度分布を参照することによって、このような評価する部分の多寡と個々の物体の検出精度との間に存在するトレードオフを解消する。すなわち、物体位置判定手段51は、候補位置における密度に応じ、単独の物体を構成する部分のうちの重視する部分を変更して評価値を算出する。特に、物体位置判定手段51は、候補位置における密度が高いほど、物体を構成する部分のうちの少ない部分の画像特徴を重視して評価値を算出する。例えば、物体位置判定手段51は、候補位置の推定密度が低密度であれば全身を均等に評価して評価値を算出し、中密度であれば上半身を重視して評価値を算出し、高密度であれば頭部近傍を重視して評価値を算出する。
The object
以下、個々の物体の検出と単体特徴について説明する。 Hereinafter, detection of individual objects and single unit characteristics will be described.
単体特徴記憶手段41は、単独の人(物体)の形状を模した物体モデルの情報を予め記憶した物体モデル記憶手段410aとして機能し、物体モデルの情報を単体特徴として記憶している。
The single
図4は、単体特徴記憶手段41が記憶している単体特徴、すなわち物体モデル記憶手段410aが記憶している物体モデルの情報を模式的に表した図である。
FIG. 4 is a diagram schematically showing the information of the single feature stored in the single
物体モデル記憶手段410aが記憶している物体モデルは、具体的には立位の人の頭部、胴部、脚部に対応する3つの回転楕円体から構成される立体モデル700である。なお頭部重心を人の代表位置とする。さらに物体モデル記憶手段410aは、立体モデル700と併せて、密度ごとの評価範囲702を記憶し、また立体モデル700を撮影画像の座標系に投影するために撮影部2のカメラパラメータ701を記憶している。カメラパラメータ701は、実際の監視空間における撮影部2の設置位置及び撮像方向といった外部パラメータ、撮影部2の焦点距離、画角、レンズ歪みその他のレンズ特性や、撮像素子の画素数といった内部パラメータを含む情報である。
The object model stored in the object
評価範囲702は密度が高いほど単独の物体を構成する部分のうちの少ない部分となっている。具体的には物体モデル記憶手段410aは、低密度クラスを表す値と対応付けて「全体」、中密度クラスを表す値と対応付けて「上部2/3」、高密度クラスを表す値と対応付けて「上部1/3」という設定を記憶している。以下、全体という評価範囲と立体モデル700との組み合わせによって表される低密度用の物体モデル710を全身モデル、上部2/3という評価範囲と立体モデル700との組み合わせによって表される中密度用の物体モデル711を上半身モデル、上部1/3という評価範囲と立体モデル700との組み合わせによって表される高密度用の物体モデル712を頭部近傍モデルと称する。
The
このように、物体モデル記憶手段410aは、低密度クラスと対応付けて全身モデル710を、中密度クラスと対応付けて上半身モデル711を、高密度クラスと対応付けて頭部近傍モデル712を、カメラパラメータ701ととともに物体モデルの情報として記憶している。
As described above, the object
配置生成手段510aは、それぞれが1以上の候補位置を含む互いに異なる複数通りの配置を生成し、生成した各配置をモデル画像生成手段512aに出力する。
The
そのために、配置生成手段510aは、乱数に基づき撮影画像の画素のうちの推定密度が低密度、中密度または高密度である画素の中から1個以上上限個数以下の個数(配置数)の画素をランダムに決定し、決定した各画素の位置を候補位置とすることで配置を生成する。配置生成手段510aは、この生成を、配置数を順次増加させながら配置数ごとに予め定めた回数ずつ反復することによって、互いに異なる複数通りの配置を生成する。なお、配置数の上限個数は監視空間に存在し得る物体の数の上限とすることができ、例えば監視空間を模した仮想空間中に立位の人の立体モデルを重ならずに配置可能な数として算出できる。
For this purpose, the
モデル画像生成手段512aは、配置生成手段510aから入力された複数通りの配置それぞれについて、各候補位置に、当該候補位置における密度が高いほど、単独の物体を構成する部分のうちの少ない部分を模した物体モデルを描画してモデル画像を生成し、生成した各モデル画像を評価値算出手段514aに出力する。
For each of a plurality of arrangements input from the
そのために、モデル画像生成手段512aは、物体モデル記憶手段410aからカメラパラメータを読み出し、配置ごとに、カメラパラメータを用いて、各候補位置を立体モデルの頭部重心の高さ(例えば1.5m)の水平面に逆投影することで、当該候補位置に投影される立体モデルの、監視空間を模した仮想空間内における代表位置を算出する。
For this purpose, the model
また、モデル画像生成手段512aは、物体モデル記憶手段410aから頭部近傍モデルを読み出して各候補位置と対応する仮想空間内の代表位置に頭部近傍モデルを配置し、カメラパラメータを用いて頭部近傍モデルを撮影画像の座標系に投影する。そして、モデル画像生成手段512aは、密度推定手段50から入力された密度分布を参照して各候補位置に対応する頭部近傍モデルの投影領域内の推定密度を集計し、各候補位置における最多の推定密度(ただし背景クラスは除く)を当該候補位置の密度と決定する。
Further, the model
また、モデル画像生成手段512aは、候補位置ごとに当該候補位置の密度に応じた物体モデルを物体モデル記憶手段410aから読み出す。具体的には、モデル画像生成手段512aは、候補位置の密度が低密度であれば全身モデルを読み出し、中密度であれば上半身モデルを読み出し、高密度であれば頭部近傍モデルを読み出す。そして、モデル画像生成手段512aは、各配置について、各候補位置に対応して読み出した物体モデルを当該候補位置と対応する仮想空間内の代表位置に配置し、カメラパラメータを用いて各全身モデルの形状を撮影画像の座標系に投影することによって、配置ごとのモデル画像を生成する。
なお、モデル画像生成手段512aは、撮影部2からの距離が遠い代表位置に配置した物体モデルから順に投影し、投影領域を上書きすることによって、物体モデル間の隠蔽を表現したモデル画像を生成する。
In addition, the model
Note that the model
また、モデル画像生成手段512aは、配置ごとに、モデル画像における物体モデルどうしの重なり度合いを表す隠蔽度を次式に従って算出する。
隠蔽度=モデル間の重複領域の面積/モデルの投影領域の和領域の面積 (1)
In addition, the model
Concealment degree = area of overlapping area between models / area of sum area of model projection areas (1)
そして、モデル画像生成手段512aは、配置とモデル画像と隠蔽度を対応付けて評価値算出手段514aに出力する。
Then, the model
図5は、第一の実施形態に係る密度推定手段50、配置生成手段510aおよびモデル画像生成手段512aによる処理例を模式的に示した図である。
画像720は、密度推定手段50が推定した密度分布を画像化したものである。当該密度分布においては、白抜き部は推定密度が背景である領域、横線部は推定密度が低密度である領域、斜線部は推定密度が中密度である領域、格子部は推定密度が高密度である領域をそれぞれ示している。
画像721は、配置生成手段510aが生成した配置に含まれる8個の候補位置を撮影画像の座標系に×印でプロットしたものである。
3次元モデル722は、モデル画像生成手段512aが画像721に示した8個の候補位置と対応する仮想空間内の代表位置に立体モデルを配置した様子を図示したものである。
画像723は、モデル画像生成手段512aが、画像720で示した密度分布に基づいて各候補位置の密度を特定し、当該密度に応じた評価範囲の立体モデルを各候補位置に投影して作成したモデル画像を示している。
FIG. 5 is a diagram schematically illustrating a processing example by the
The
The
The three-dimensional model 722 illustrates a state in which the three-dimensional model is arranged at the representative position in the virtual space corresponding to the eight candidate positions shown in the
The
評価値算出手段514aは、複数通りの配置それぞれについて、モデル画像生成手段512aから入力されたモデル画像の撮影画像に対する類似の度合いを表す評価値を算出し、配置ごとの評価値を最適配置決定手段516aに出力する。
The evaluation
具体的には、評価値算出手段514aは、各モデル画像と撮影画像の類似度を次式に従って算出する。
類似度 = 形状適合度 − WHa×隠蔽度 (2)
ただし、WHaは0より大きな重み係数であり、事前の実験に基づいて予め設定される。形状適合度から減じる隠蔽度は過剰な物体モデルの重なりを抑制するためのペナルティ値である。このように隠蔽度を含めた類似度に基づいて最適配置を決定することで、本来の物体数以上の物体モデルが当てはまることによる物体位置の誤検出を防止できる。
Specifically, the evaluation
Similarity = Shape conformity-W Ha x Concealment (2)
However, W Ha is a weighting coefficient larger than 0, and is preset based on a prior experiment. The degree of concealment subtracted from the shape matching degree is a penalty value for suppressing the overlap of excessive object models. In this way, by determining the optimum arrangement based on the similarity including the concealment degree, it is possible to prevent erroneous detection of the object position due to the application of an object model equal to or more than the original number of objects.
形状適合度は、モデル画像と撮影画像とのエッジの類似度とすることができる。評価値算出手段514aは、各モデル画像と撮影画像のそれぞれからエッジを抽出し、各モデル画像について、モデル画像から有効なエッジが抽出された画素ごとに、対応する撮影画像の画素のエッジとの差の絶対値を算出して総和し、総和値をモデル画像からエッジが抽出された画素数で除して符号を反転した値を、当該モデル画像の形状適合度として算出する。 The shape matching degree can be the similarity of the edge between the model image and the captured image. The evaluation value calculation means 514a extracts an edge from each model image and each photographed image, and for each model image, for each pixel from which a valid edge is extracted from the model image, the corresponding edge of the pixel of the photographed image. The absolute value of the difference is calculated and summed, and the value obtained by dividing the sum by the number of pixels from which the edge is extracted from the model image and inverting the sign is calculated as the shape suitability of the model image.
或いは、評価値算出手段514aは、各モデル画像と撮影画像のそれぞれからエッジ画像を生成し、各モデル画像について、撮影画像から生成したエッジ画像と当該モデル画像から生成したエッジ画像とのチャンファーマッチング(Chamfer Matching)を行って得られるチャンファー距離の符号を反転した値を、当該モデル画像の形状適合度として算出する。
Alternatively, the evaluation
最適配置決定手段516aは、評価値算出手段514aから入力された配置ごとの評価値を参照し、評価値が最大の配置における候補位置を物体の位置と決定し、決定した物体位置の情報を物体位置出力手段31に出力する。すなわち、最適配置決定手段516aは、最大の類似度が算出された配置に含まれる各候補位置を撮影画像に撮影されている各人の位置と決定する。
例えば、最適配置決定手段516aは、監視員が視認し易いよう、各物体位置に物体モデルを当該物体位置の密度に応じて色分けして描画して物体位置の情報を生成し、出力する。または、物体位置の情報は物体位置の座標値そのものとすることもでき、物体位置の情報は、描画した各物体モデルの、他の物体モデルと重複していない領域とすることもできる。或いは、物体位置の情報は、上述したデータのうちの2以上を含んだデータとしてもよい。
The optimum arrangement determining unit 516a refers to the evaluation value for each arrangement input from the evaluation
For example, the optimum arrangement determining unit 516a generates and outputs information on the object position by drawing an object model in each object position in a color-coded manner according to the density of the object position so that the observer can easily recognize it. Alternatively, the object position information may be the coordinate value of the object position itself, and the object position information may be a region of each drawn object model that does not overlap with other object models. Alternatively, the object position information may be data including two or more of the above-described data.
物体位置出力手段31は物体位置判定手段51から入力された物体位置の情報を表示部6に順次出力し、表示部6は物体位置出力手段31から入力された物体位置の情報を表示する。例えば、物体位置の情報は、インターネット経由で送受信され、表示部6に表示される。監視員は、表示された情報を視認することによって監視空間に混雑が発生している地点を把握し、当該地点に警備員を派遣し或いは増員するなどの対処を行う。
The object
<第一の実施形態に係る画像監視装置1の動作>
図6、図7および図8のフローチャートを参照して画像監視装置1の動作を説明する。
<Operation of the
The operation of the
画像監視装置1が動作を開始すると、イベント会場に設置されている撮影部2は所定時間おきに監視空間を撮影して撮影画像を画像処理部5が設置されている画像解析センター宛に順次送信する。そして、画像処理部5は撮影画像を受信するたびに図6のフローチャートに従った動作を繰り返す。
When the
まず、通信部3は画像取得手段30として動作し、撮影部2からの撮影画像の受信待ち状態となる。撮影画像を取得した画像取得手段30は当該撮影画像を画像処理部5に出力する(ステップS1)。
First, the communication unit 3 operates as the
撮影画像を入力された画像処理部5は密度推定手段50として動作し、撮影画像から密度分布を推定する(ステップS2)。密度推定手段50は、撮影画像の各画素の位置にて推定用特徴量を抽出するとともに記憶部4の密度推定器記憶手段40から密度推定器を読み出し、各推定用特徴量を密度推定器に入力して撮影画像の各画素における推定密度を取得することにより密度分布を推定する。
The image processing unit 5 to which the photographed image is input operates as the density estimating means 50, and estimates the density distribution from the photographed image (step S2). The
密度分布を推定した画像処理部5は物体位置判定手段51としても動作し、物体位置判定手段51には画像取得手段30から撮影画像が入力されるとともに密度推定手段50から密度分布が入力される。これらを入力された物体位置判定手段51は、密度分布に背景クラス以外の推定密度が含まれているか否かを確認する(ステップS3)。
The image processing unit 5 that has estimated the density distribution also operates as the object
背景クラス以外の推定密度が含まれている場合は(ステップS3にてYES)、物体位置判定手段51は、少なくとも1人以上の人が撮影されているとして、撮影画像から個々の物体の位置を判定する処理を行う(ステップS4)。他方、背景クラスのみの場合は(ステップS3にてNO)、人が撮影されていないとして、ステップS4,S5の処理を省略する。
If the estimated density other than the background class is included (YES in step S3), the object
図7および図8のフローチャートを参照して、ステップS4の物体位置判定処理を説明する。単体特徴記憶手段41が物体モデル記憶手段410aとして動作し、物体位置判定手段51が配置生成手段510a、モデル画像生成手段512a、評価値算出手段514aおよび最適配置決定手段516aとして動作して、物体位置判定処理が実行される。
The object position determination process in step S4 will be described with reference to the flowcharts of FIGS. The single
配置生成手段510aは、1から上限個数以下の範囲で配置数を順次設定して(ステップS100)、ステップS100〜S114のループ処理を制御する。
The
また、配置生成手段510aは、反復回数をカウントするための変数Tを用意してTを0に初期化し(ステップS101)、ステップS102〜S113の反復処理を開始する。
The
次に、配置生成手段510aは、密度推定手段50から入力された密度分布において推定密度が低密度、中密度または高密度の領域内に、ステップS100にて設定した配置数と同数の候補位置をランダムに設定することによって、当該配置数におけるT通り目の配置を生成し、モデル画像生成手段512aに出力する(ステップS102)。
Next, the
モデル画像生成手段512aは、物体モデル記憶手段410aからカメラパラメータを読み出し、カメラパラメータを用いて、ステップS102で生成した配置に含まれる各候補位置を仮想空間の三次元座標に変換する(ステップS103)。
The model
次に、モデル画像生成手段512aは、撮影画像と同サイズのモデル画像を用意して初期化するとともに、各候補位置の三次元座標の撮影部2までの距離を算出し、距離が遠い候補位置から順に処理対象に設定して(ステップS104)、ステップS104〜S108のループ処理を実行する。
Next, the model
続いて、モデル画像生成手段512aは密度分布を参照して処理対象の候補位置の密度を特定する(ステップS105)。モデル画像生成手段512aは、物体モデル記憶手段410aから頭部近傍モデルを読み出して当該候補位置の三次元座標に配置し、カメラパラメータを用いて頭部近傍モデルを撮影画像の座標系に投影し、投影領域内で最多の推定密度(ただし背景クラス以外)を候補位置の密度として特定する。
Subsequently, the model
続いて、モデル画像生成手段512aは、ステップS105で特定した密度に対応する物体モデルを物体モデル記憶手段410aから読み出して(ステップS106)、処理対象の候補位置の三次元座標に配置し、カメラパラメータを用いて、配置した物体モデルをモデル画像に上書き投影する(ステップS107)。また、このとき、モデル画像生成手段512aは物体モデルの投影面積を記録しておく。
Subsequently, the model
そして、モデル画像生成手段512aは、現配置数におけるT通り目の配置に含まれる全ての候補位置を処理し終えたか否かを確認し(ステップS108)、未処理の候補位置がある場合は(ステップS108にてNO)、処理をステップS104に戻して次の候補位置を処理する。 Then, the model image generating means 512a checks whether or not all candidate positions included in the Tth arrangement in the current arrangement number have been processed (step S108), and if there is an unprocessed candidate position ( NO at step S108), the process returns to step S104 to process the next candidate position.
他方、全ての候補位置を処理し終えた場合は(ステップS108にてYES)、現配置数におけるT通り目の配置についてのモデル画像の完成となる。モデル画像を完成させたモデル画像生成手段512aは当該モデル画像における物体モデルの隠蔽度を算出する(ステップS109)。すなわち、モデル画像生成手段512aは、「モデルの投影領域の和領域の面積」であるモデル画像上の投影領域の面積を求めるとともに、ステップS107で記録していた物体モデルごとの投影面積を総和し、総和値からモデルの投影領域の和領域の面積を差し引いて「モデル間の重複領域の面積」を求め、これらを式(1)に代入して隠蔽度を算出する。
隠蔽度を算出したモデル画像生成手段512aはモデル画像と隠蔽度を評価値算出手段514aに出力する。
On the other hand, when all candidate positions have been processed (YES in step S108), the model image for the Tth arrangement in the current arrangement number is completed. The model image generating means 512a that completes the model image calculates the degree of concealment of the object model in the model image (step S109). That is, the model
The model
モデル画像と隠蔽度を入力された評価値算出手段514aは、当該モデル画像と撮影画像の形状適合度を算出し(ステップS110)、さらに、当該形状適合度と隠蔽度から、モデル画像と撮影画像の類似度を現配置数におけるT通り目の配置についての評価値として算出する(ステップS111)。すなわち、評価値算出手段514aは、モデル画像生成手段512aから入力されたモデル画像と撮影画像のそれぞれからエッジ画像を生成し、これらのエッジ画像の類似度を形状適合度として算出する。そして、形状適合度と隠蔽度を式(2)に代入して類似度を算出する。
The evaluation value calculation means 514a to which the model image and the concealment degree are input calculates the shape conformity between the model image and the captured image (step S110), and further, the model image and the photographed image are obtained from the shape conformity and the concealment degree. Is calculated as an evaluation value for the Tth arrangement in the current arrangement number (step S111). In other words, the evaluation
現配置数におけるT通り目の配置についての評価値が算出されると、評価値算出手段514aは当該配置と評価値を対応付けて記録し、配置生成手段510aは反復回数Tを1だけ増加させて(ステップS112)、規定回数TMAXと比較し(ステップS113)、TがTMAX未満の場合は(ステップS113にてNO)、処理をステップS102に戻して現配置数における反復処理を継続させる。 When the evaluation value for the Tth arrangement in the current arrangement number is calculated, the evaluation value calculation means 514a records the arrangement and the evaluation value in association with each other, and the arrangement generation means 510a increases the number of iterations T by one. (Step S112), and compared with the specified number of times T MAX (step S113). If T is less than T MAX (NO in step S113), the process returns to step S102 to continue the iterative process for the current number of arrangements. .
反復回数Tが規定回数TMAXに達した場合(ステップS113にてYES)、配置生成手段510aは、現配置数における反復処理を終了させ、全ての配置数を設定し終えたか否かを確認する(ステップS114)。未設定の配置数がある場合は(ステップS114にてNO)、処理をステップS100に戻して次の配置数についての処理を行う。
When the number of iterations T has reached the specified number of times T MAX (YES in step S113), the
他方、全ての配置数を設定し終えた場合は(ステップS114にてYES)、評価値算出手段514aはステップS112で記録した配置と評価値を最適配置決定手段516aに入力し、最適配置決定手段516aは、それらの中で評価値が最大の配置を特定し(ステップS115)、当該配置を撮影画像に撮影されている個々の人の位置を表している情報と判定する。 On the other hand, when all the arrangement numbers have been set (YES in step S114), evaluation value calculation means 514a inputs the arrangement and evaluation values recorded in step S112 to optimum arrangement determination means 516a, and optimum arrangement determination means 516a identifies the arrangement having the maximum evaluation value among them (step S115), and determines that the arrangement is information representing the position of each person photographed in the photographed image.
再び図6を参照して説明を続ける。物体位置判定手段51はステップS4にて判定した個々の人の位置(物体位置)の情報を通信部3に出力する(ステップS5)。物体位置の情報を入力された通信部3は物体位置出力手段31として動作し、物体位置の情報を表示部6に送信する。
The description will be continued with reference to FIG. The object
以上の処理を終えると、処理はステップS1に戻され、次の撮影画像に対する処理が行われる。 When the above process is completed, the process returns to step S1, and the process for the next captured image is performed.
[第二の実施形態]
以下、第一の実施形態とは異なる本発明の好適な実施形態として、人の密度によって物体モデルに対する重み付けを変更する物体検出装置の例を含んだ画像監視装置1の例を説明する。
[Second Embodiment]
Hereinafter, as a preferred embodiment of the present invention different from the first embodiment, an example of an
第二の実施形態に係る画像監視装置は、単体特徴記憶手段41が記憶している単体特徴の細部および物体位置判定手段51が行う処理の細部が第一の実施形態に係る画像監視装置と異なり、概略の構成、概略の機能および動作の一部は共通する。そのため、概略の構成、概略の機能および動作の一部については、それぞれ第一の実施形態で参照した図1のブロック図、図2の機能ブロック図および図6のフローチャートを再び参照して説明する。
The image monitoring apparatus according to the second embodiment differs from the image monitoring apparatus according to the first embodiment in the details of the single feature stored in the single
<第二の実施形態に係る画像監視装置1の構成>
図1のブロック図を参照して第二の実施形態に係る画像監視装置1の概略の構成を説明する。
画像監視装置1は、第一の実施形態と同様、監視空間を所定時間おきに撮影して撮影画像を出力する撮影部2と、物体位置の情報を入力されて当該情報を表示する表示部6と、撮影画像を取得して当該撮影画像から個々の人(物体)を検出し、検出した物体の位置(物体位置)の情報を生成して出力する画像処理部5とが、撮影画像および物体位置の情報等の入出力を介在する通信部3に接続されるとともに、プログラムおよび各種データ等を記憶してこれらを入出力する記憶部4が画像処理部5に接続されてなる。
<Configuration of
The schematic configuration of the
As in the first embodiment, the
<第二の実施形態に係る画像監視装置1の機能>
図2および図9の機能ブロック図を参照し、第二の実施形態に係る画像監視装置1の機能について説明する。
<Function of the
The function of the
通信部3は、第一の実施形態と同様、撮影部2から撮影画像を取得して密度推定手段50と物体位置判定手段51に出力する画像取得手段30、および物体位置判定手段51から入力された物体位置の情報を表示部6に出力する物体位置出力手段31等としての機能を含む。
Similar to the first embodiment, the communication unit 3 receives a captured image from the
また、記憶部4は、第一の実施形態と同様、所定の密度ごとに当該密度にて物体が存在する空間を撮影した密度画像それぞれの画像特徴を学習した密度推定器を記憶している密度推定器記憶手段40、および予め単独の物体の画像特徴(単体特徴)を記憶している単体特徴記憶手段41等としての機能を含み、単体特徴記憶手段41が記憶している単体特徴は、密度が高いほど、物体を構成する部分のうちの少ない部分の画像特徴を重視した評価ができるものとなっている。
In addition, as in the first embodiment, the storage unit 4 stores a density estimator that learns the image features of each density image obtained by photographing a space where an object exists at the predetermined density for each predetermined density. The single feature stored in the single
また、画像処理部5は、第一の実施形態と同様、撮影画像を密度推定器で走査することによって撮影画像に撮影された物体の密度の分布を推定し、推定した密度分布を物体位置判定手段51に出力する密度推定手段50、および撮影画像内に個々の物体が存在し得る候補位置を設定して当該候補位置の撮影画像に単独の物体の画像特徴が現れている度合いを表す評価値を算出し、評価値が所定値以上である候補位置を物体の位置と判定し、物体位置の情報を物体位置出力手段31に出力する物体位置判定手段51等としての機能を含み、物体位置判定手段51は、候補位置の密度に応じた単体特徴を用いることによって、候補位置における密度が高いほど、物体を構成する部分のうちの少ない部分の画像特徴を重視して評価値を算出する。
Further, as in the first embodiment, the image processing unit 5 estimates the density distribution of the object photographed in the photographed image by scanning the photographed image with the density estimator, and determines the estimated density distribution as the object position. The density estimation means 50 output to the
ただし、上述したように、第二の実施形態に係る物体位置判定手段51が行う処理の細部および単体特徴記憶手段41が記憶している単体特徴の細部が第一の実施形態に係る画像監視装置1と異なる。これらの点について、図9の機能ブロック図を参照して説明する。
However, as described above, the details of the processing performed by the object
第二の実施形態に係る単体特徴記憶手段41は、単独の人(物体)の形状を模した物体モデルの情報を予め記憶した物体モデル記憶手段410b、および評価値の算出において用いる重み係数を予め記憶した重み係数記憶手段412bとして機能し、物体モデルの情報および重み係数の情報を単体特徴として記憶している。
The unit
図10は、第二の実施形態に係る単体特徴記憶手段41が記憶している単体特徴、すなわち物体モデル記憶手段410bが記憶している物体モデルの情報および重み係数記憶手段412bが記憶している重み係数の情報を模式的に表した図である。
FIG. 10 shows the single feature stored in the single
物体モデル記憶手段410bが記憶している物体モデルは立位の人の頭部、胴部、脚部に対応する3つの回転楕円体から構成される立体モデル750である。この立体モデル750は人の全身の形状を表す物体モデルとなっており、以下、全身モデルと称する。なお頭部重心を人の代表位置とする。そしてさらに物体モデル記憶手段410bは、この全身モデルを撮影画像の座標系に投影するために撮影部2のカメラパラメータ751を全身モデルと併せて記憶している。
The object model stored in the object
重み係数は密度が高いほど単独の物体を構成する部分のうちの少ない部分に偏重させた設定となっている。重み係数記憶手段412bは、低密度クラスを表す値と対応付けて「上部1/3に適用する重み係数0.333」「中部1/3に適用する重み係数0.333」「下部1/3に適用する重み係数0.333」、中密度クラスを表す値と対応付けて「上部1/3に適用する重み係数0.500」「中部1/3に適用する重み係数0.400」「下部1/3に適用する重み係数0.100」、高密度クラスを表す値と対応付けて「上部1/3に適用する重み係数0.700」「中部1/3に適用する重み係数0.200」「下部1/3に適用する重み係数0.100」を記憶している。以下、全身に均等な低密度用の重み係数760を全身均等重み係数、上半身を重視した中密度用の重み係数761を上半身偏重重み係数、頭部近傍を重視した高密度用の重み係数762を頭部近傍偏重重み係数と称する。
The weighting factor is set such that the higher the density is, the more the weight is concentrated on the smaller part of the part constituting the single object. The weighting
このように、物体モデル記憶手段410bは全身モデルとカメラパラメータとを物体モデルの情報として記憶しており、重み係数記憶手段412bは低密度クラスと対応付けて全身均等重み係数760を、中密度クラスと対応付けて上半身偏重重み係数761を、高密度クラスと対応付けて頭部近傍偏重重み係数762を記憶している。
As described above, the object
配置生成手段510bは、第一の実施形態において説明した配置生成手段510aと同様にして、それぞれが1以上の候補位置を含む互いに異なる複数通りの配置を生成する。そして、配置生成手段510bは、生成した各配置をモデル画像生成手段512bに出力する。
The
モデル画像生成手段512bは、配置生成手段510bから入力された複数通りの配置のそれぞれについて、各候補位置に単独の物体を模した物体モデルを描画してモデル画像を生成し、生成した各モデル画像を評価値算出手段514bに出力する。
The model
そのために、モデル画像生成手段512bは、物体モデル記憶手段410bからカメラパラメータを読み出し、配置ごとに、カメラパラメータを用いて、各候補位置を立体モデルの頭部重心の高さの水平面に逆投影することで、当該候補位置に投影される立体モデルの、監視空間を模した仮想空間内における代表位置を算出する。
For this purpose, the model
また、モデル画像生成手段512bは、物体モデル記憶手段410bから全身モデルを読み出し、各候補位置と対応する仮想空間内の代表位置に全身モデルを配置し、カメラパラメータを用いて全身モデルを撮影画像の座標系に投影する。そして、モデル画像生成手段512bは、密度推定手段50から入力された密度分布を参照して各候補位置に対応する全身モデルの投影領域における上部1/3の領域内の推定密度を集計し、各候補位置における最多の推定密度(ただし背景クラス以外)を当該候補位置の密度と決定する。
The model
また、モデル画像生成手段512bは、候補位置ごとに当該候補位置の密度に応じた物体モデルを重み係数記憶手段412bから読み出す。すなわち、モデル画像生成手段512bは、候補位置の密度が低密度であれば全身均等重み係数を読み出し、中密度であれば上半身偏重重み係数を読み出し、高密度であれば頭部近傍偏重重み係数を読み出す。
Further, the model
また、モデル画像生成手段512bは、各配置について、各候補位置と対応する仮想空間内の代表位置に全身モデルを配置し、カメラパラメータを用いて各全身モデルの形状を撮影画像の座標系に投影することによって、配置ごとのモデル画像を生成する。
なお、モデル画像生成手段512bは、撮影部2からの距離が遠い代表位置に配置した物体モデルから順に投影し、投影領域を上書きすることによって、物体モデル間の隠蔽を表現したモデル画像とする。
In addition, the model
Note that the model
また、モデル画像生成手段512bは、各モデル画像と対応して、当該モデル画像における各候補位置の全身モデルの投影領域に当該候補位置の密度に応じた重み係数を設定した重み画像を生成する。すなわち、重み画像中の密度が低密度である候補位置の投影領域においては、上部1/3の領域の画素に0.333、中部1/3の領域の画素に0.333、下部1/3の領域の画素に0.333がそれぞれ設定される。重み画像中の密度が中密度である候補位置の投影領域においては、上部1/3の領域の画素に0.500、中部1/3の領域の画素に0.400、下部1/3の領域の画素に0.100がそれぞれ設定される。重み画像中の密度が高密度である候補位置の投影領域においては、上部1/3の領域の画素に0.700、中部1/3の領域の画素に0.200、下部1/3の領域の画素に0.100がそれぞれ設定される。
In addition, the model
そして、モデル画像生成手段512bは、配置ごとに、配置とモデル画像と重み画像とを対応付けて評価値算出手段514bに出力する。
Then, the model
図11は、図5で例示した密度分布および配置に対して、モデル画像生成手段512bが生成したモデル画像770と重み画像771を模式的に示した図である。なお、重み画像771においてはスペースの都合上、重み係数の値を有効数字1桁で示している。
FIG. 11 is a diagram schematically illustrating a
評価値算出手段514bは、モデル画像生成手段512bから入力された複数通りの配置のモデル画像それぞれについて、物体を構成する部分ごとに物体モデルの撮影画像に対する類似度を求め、候補位置における密度が高いほど少ない部分に偏重させた重み付けを行って類似度を総和することにより評価値を算出し、配置ごとの評価値を最適配置決定手段516bに出力する。
The evaluation
具体的には、評価値算出手段514bは、各モデル画像と撮影画像の、当該モデル画像と対応する重み画像に従って重み付けた重み付け類似度を算出する。
Specifically, the evaluation
重み付け類似度は、モデル画像と撮影画像とのエッジの重み付け類似度とすることができる。評価値算出手段514bは、各モデル画像と撮影画像のそれぞれからエッジを抽出し、各モデル画像について、モデル画像から有効なエッジが抽出された画素ごとに、対応する撮影画像の画素のエッジとの差の絶対値を算出して重み画像の当該画素に設定された重み係数にて重み付けて総和し、総和値をモデル画像からエッジが抽出された画素数で除して符号を反転した値を、当該モデル画像の重み付け類似度として算出する。 The weighted similarity can be the weighted similarity of the edge between the model image and the captured image. The evaluation value calculation means 514b extracts an edge from each model image and each captured image, and for each model image, for each pixel from which a valid edge is extracted from the model image, the edge of the corresponding captured image pixel. The absolute value of the difference is calculated and weighted with the weighting coefficient set for the pixel of the weighted image and summed, and the value obtained by dividing the sum by the number of pixels from which the edge is extracted from the model image is inverted. The weighted similarity of the model image is calculated.
或いは、評価値算出手段514bは、各モデル画像と撮影画像のそれぞれからエッジ画像を生成し、各モデル画像について、撮影画像から生成したエッジ画像と当該モデル画像から生成したエッジ画像とのチャンファーマッチングを行って、その過程で算出される画素ごとの距離に重み画像に従った重み付けを行って得られるチャンファー距離の符号を反転した値を、当該モデル画像の重み付け類似度として算出してもよい。
Alternatively, the evaluation
最適配置決定手段516bは、評価値算出手段514bから入力された配置ごとの評価値を参照し、評価値が最大の配置における候補位置を物体の位置と決定し、決定した物体位置の情報を物体位置出力手段31に出力する。すなわち、最適配置決定手段516bは、最大の類似度が算出された配置に含まれる各候補位置を撮影画像に撮影されている各人の位置と決定する。
The optimum
<第二の実施形態に係る画像監視装置1の動作>
以下、図6、図12および図13を参照し、第二の実施形態に係る画像監視装置1の動作を説明する。
<Operation of
Hereinafter, the operation of the
画像監視装置1が動作を開始すると、第一の実施形態と同様に、撮影部2は順次撮影画像を送信し、画像処理部5は撮影画像を受信するたびに図6のフローチャートに従った動作を繰り返す。
When the
通信部3は画像取得手段30として動作し、撮影画像を受信して画像処理部5に出力する(ステップS1)。撮影画像を入力された画像処理部5は密度推定手段50として動作して記憶部4の密度推定器記憶手段40から密度推定器を読み出し、撮影画像を密度推定器にて走査することによって密度分布を推定する(ステップS2)。
The communication unit 3 operates as the
次に、画像処理部5は物体位置判定手段51として動作し、物体位置判定手段51は、画像取得手段30から撮影画像および密度推定手段50から密度分布を入力されて、密度分布に背景クラス以外の推定密度が含まれているか否かを確認する(ステップS3)。
Next, the image processing unit 5 operates as the object
物体位置判定手段51は、背景クラス以外の推定密度が含まれている場合は(ステップS3にてYES)、撮影画像から個々の物体の位置を判定する処理を行い(ステップS4)、背景クラスのみの場合は(ステップS3にてNO)、ステップS4,S5の処理を省略する。
When the estimated density other than the background class is included (YES in step S3), the object
図12および図13のフローチャートを参照して、ステップS4の物体位置判定処理を説明する。単体特徴記憶手段41が物体モデル記憶手段410bおよび重み係数記憶手段412bとして動作し、物体位置判定手段51が配置生成手段510b、モデル画像生成手段512b、評価値算出手段514bおよび最適配置決定手段516bとして動作して、物体位置判定処理が実行される。
The object position determination process in step S4 will be described with reference to the flowcharts of FIGS. The single
配置生成手段510bは、1から上限個数以下の範囲で配置数を順次設定して(ステップS200)、ステップS200〜S214のループ処理を制御する。
The
また、配置生成手段510bは、反復回数をカウントするための変数Tを用意してTを0に初期化し(ステップS201)、ステップS202〜S213の反復処理を開始する。
The
次に、配置生成手段510bは、密度推定手段50から入力された密度分布において推定密度が低密度、中密度または高密度の領域内に、ステップS200にて設定した配置数と同数の候補位置をランダムに設定することによって、当該配置数におけるT通り目の配置を生成し、モデル画像生成手段512bに出力する(ステップS202)。
Next, the
モデル画像生成手段512bは、物体モデル記憶手段410bからカメラパラメータを読み出し、カメラパラメータを用いて、ステップS202で生成した配置に含まれる各候補位置を仮想空間の三次元座標に変換する(ステップS203)。
The model
次に、モデル画像生成手段512bは、撮影画像と同サイズのモデル画像および重み画像を用意して初期化するとともに、各候補位置の三次元座標の撮影部2までの距離を算出し、距離が遠い候補位置から順に処理対象に設定して(ステップS204)、ステップS204〜S208のループ処理を実行する。
Next, the model
続いて、モデル画像生成手段512bは密度分布を参照して処理対象の候補位置の密度を特定する(ステップS205)。モデル画像生成手段512bは、物体モデル記憶手段410bから全身モデルを読み出して当該候補位置の三次元座標に配置し、カメラパラメータを用いて、配置した全身モデルを撮影画像の座標系に投影する。そして、モデル画像生成手段512bは、投影領域の上部1/3の領域内で最多の推定密度を当該候補位置の密度として特定する。
Subsequently, the model
続いて、モデル画像生成手段512bは、ステップS205で特定した密度に対応する重み係数を重み係数記憶手段412bから読み出し(ステップS206)、全身モデルと重み係数を投影する(ステップS207)。すなわち、モデル画像生成手段512bは、まず、カメラパラメータを用いて、ステップS205で配置した全身モデルをモデル画像に上書き投影する。また、このとき、モデル画像生成手段512bは物体モデルの投影面積を記録しておく。さらに、モデル画像生成手段512bは、読み出した重み係数を全身モデルの各部分に設定し、カメラパラメータを用いて、重み係数を設定した全身モデルを重み画像に上書き投影する。
Subsequently, the model
そして、モデル画像生成手段512bは、現配置数におけるT通り目の配置に含まれる全ての候補位置を処理し終えたか否かを確認し(ステップS208)、未処理の候補位置がある場合は(ステップS208にてNO)、処理をステップS204に戻して次の候補位置を処理する。
Then, the model
他方、全ての候補位置を処理し終えた場合は(ステップS208にてYES)、現配置数におけるT通り目の配置についてのモデル画像および重み画像の完成となる。モデル画像を完成させたモデル画像生成手段512bはモデル画像と重み画像を評価値算出手段514bに出力する。
On the other hand, when all candidate positions have been processed (YES in step S208), the model image and the weight image for the Tth arrangement in the current arrangement number are completed. The model
モデル画像と重み画像を入力された評価値算出手段514bは、当該重み画像に従って重み付けた当該モデル画像と撮影画像の重み付け類似度を現配置数におけるT通り目の配置についての評価値として算出する(ステップS210)。すなわち、評価値算出手段514bは、モデル画像生成手段512bから入力されたモデル画像と撮影画像のそれぞれからエッジ画像を生成し、これらのエッジ画像の画素ごとの類似度を当該画素の重み係数で重み付けて総和した重み付け類似度として算出する。
The evaluation value calculation means 514b to which the model image and the weight image are input calculates the weighted similarity between the model image and the photographed image weighted according to the weight image as the evaluation value for the Tth arrangement in the current arrangement number ( Step S210). In other words, the evaluation
現配置数におけるT通り目の配置についての評価値が算出されると、評価値算出手段514bは当該配置と評価値を対応付けて記録し、配置生成手段510bは反復回数Tを1だけ増加させて(ステップS212)、規定回数TMAXと比較し(ステップS213)、TがTMAX未満の場合は(ステップS213にてNO)、処理をステップS202に戻して現配置数における反復処理を継続させる。
When the evaluation value for the Tth arrangement in the current arrangement number is calculated, the evaluation
反復回数Tが規定回数TMAXに達した場合(ステップS213にてYES)、配置生成手段510bは、現配置数における反復処理を終了させ、全ての配置数を設定し終えたか否かを確認する(ステップS214)。未設定の配置数がある場合は(ステップS214にてNO)、処理をステップS200に戻して次の配置数についての処理を行う。
When the number of iterations T has reached the specified number of times T MAX (YES in step S213), the
他方、全ての配置数を設定し終えた場合は(ステップS214にてYES)、評価値算出手段514bはステップS212で記録した配置と評価値を最適配置決定手段516bに入力し、最適配置決定手段516bは、それらの中で評価値が最大の配置を特定し(ステップS215)、当該配置を撮影画像に撮影されている個々の人の位置を表している情報と判定する。 On the other hand, when all the arrangement numbers have been set (YES in step S214), evaluation value calculation means 514b inputs the arrangement and evaluation values recorded in step S212 to optimum arrangement determination means 516b, and optimum arrangement determination means 516b specifies an arrangement having the maximum evaluation value among them (step S215), and determines that the arrangement is information indicating the position of each person photographed in the photographed image.
再び図6を参照して説明を続ける。物体位置判定手段51はステップS4にて判定した物体位置の情報を通信部3に出力し(ステップS5)、通信部3は物体位置出力手段31として動作して物体位置の情報を表示部6に送信する。
The description will be continued with reference to FIG. The object
以上の処理を終えると、処理はステップS1に戻され、次の撮影画像に対する処理が行われる。 When the above process is completed, the process returns to step S1, and the process for the next captured image is performed.
[第三の実施形態]
以下、第一および第二の実施形態とは異なる本発明の好適な実施形態として、単独の人の画像特徴を学習した識別器を用いて個々の人を検出する物体検出装置の例を含んだ画像監視装置1の例を説明する。この実施形態に係る画像監視装置1は、特に、物体検出装置が人の密度によって識別器を切り替える例を含む。
[Third embodiment]
Hereinafter, as a preferred embodiment of the present invention different from the first and second embodiments, an example of an object detection device that detects an individual person using a discriminator that has learned an image feature of a single person is included. An example of the
第三の実施形態に係る画像監視装置は、単体特徴記憶手段41が記憶している単体特徴の細部および物体位置判定手段51が行う処理の細部が第一および第二の実施形態に係る画像監視装置と異なり、概略の構成、概略の機能および動作の一部は共通する。そのため、概略の構成、概略の機能および動作の一部については、それぞれ第一および第二の実施形態で参照した図1のブロック図、図2の機能ブロック図および図6のフローチャートを再び参照して説明する。
In the image monitoring apparatus according to the third embodiment, the details of the single feature stored in the single
<第三の実施形態に係る画像監視装置1の構成>
図1のブロック図を参照して第三の実施形態に係る画像監視装置1の概略の構成を説明する。
画像監視装置1は、第一および第二の実施形態と同様、監視空間を所定時間おきに撮影して撮影画像を出力する撮影部2と、物体位置の情報を入力されて当該情報を表示する表示部6と、撮影画像を取得して当該撮影画像から個々の人(物体)を検出し、検出した物体の位置(物体位置)の情報を生成して出力する画像処理部5とが、撮影画像および物体位置の情報等の入出力を介在する通信回路である通信部3に接続されるとともに、プログラムおよび各種データ等を記憶してこれらを入出力する記憶部4が画像処理部5に接続されてなる。
<Configuration of
The schematic configuration of the
As in the first and second embodiments, the
<第三の実施形態に係る画像監視装置1の機能>
図2および図14の機能ブロック図を参照し、第三の実施形態に係る画像監視装置1の機能について説明する。
<Functions of
The function of the
通信部3は、第一および第二の実施形態と同様、撮影部2から撮影画像を取得して密度推定手段50と物体位置判定手段51に出力する画像取得手段30、および物体位置判定手段51から入力された物体位置の情報を表示部6に出力する物体位置出力手段31等としての機能を含む。
As in the first and second embodiments, the communication unit 3 acquires a captured image from the
記憶部4は、第一および第二の実施形態と同様、所定の密度ごとに当該密度にて物体が存在する空間を撮影した密度画像それぞれの画像特徴を学習した密度推定器を記憶している密度推定器記憶手段40、および予めの学習により生成された単独の物体の画像特徴(単体特徴)を記憶している単体特徴記憶手段41等としての機能を含み、単体特徴記憶手段41が記憶している単体特徴は、密度が高いほど、物体を構成する部分のうちの少ない部分の画像特徴を重視した評価ができるものとなっている。
As in the first and second embodiments, the storage unit 4 stores a density estimator that learns the image features of each density image obtained by photographing a space where an object exists at the density for each predetermined density. The unit includes a function as a density
また、画像処理部5は、第一および第二の実施形態と同様、撮影画像を密度推定器で走査することによって撮影画像に撮影された物体の密度の分布を推定し、推定した密度分布を物体位置判定手段51に出力する密度推定手段50、および撮影画像内に個々の物体が存在し得る候補位置を設定して当該候補位置の撮影画像に単独の物体の画像特徴が現れている度合いを表す評価値を算出し、評価値が所定値以上である候補位置を物体の位置と判定し、物体位置の情報を物体位置出力手段31に出力する物体位置判定手段51等としての機能を含み、物体位置判定手段51は、候補位置の密度に応じた単体特徴を用いることによって、候補位置における密度が高いほど、物体を構成する部分のうちの少ない部分の画像特徴を重視して評価値を算出する。
Further, as in the first and second embodiments, the image processing unit 5 estimates the density distribution of the object photographed in the photographed image by scanning the photographed image with the density estimator, and calculates the estimated density distribution. The density estimation means 50 output to the object position determination means 51, and candidate positions where individual objects can exist in the captured image are set, and the degree to which the image feature of a single object appears in the captured image at the candidate position. Including a function as an object
ただし、上述したように、第三の実施形態に係る物体位置判定手段51が行う処理の細部および単体特徴記憶手段41が記憶している単体特徴の細部が第一および第二の実施形態に係る画像監視装置1と異なる。これらの点について、図14の機能ブロック図を参照して説明する。
However, as described above, the details of the processing performed by the object
第三の実施形態に係る単体特徴記憶手段41は、単独の人(物体)の画像特徴を学習した識別器(単体識別器)を予め記憶した単体識別器記憶手段411cとして機能し、単体識別器の情報を単体特徴として記憶している。
The single
図15は、第三の実施形態に係る単体特徴記憶手段41が記憶している単体特徴、すなわち単体識別器記憶手段411cが記憶している単体識別器の情報を模式的に表した図である。
FIG. 15 is a diagram schematically showing the single feature stored in the single
単体識別器は、画像の特徴量を入力されると当該画像が単独の人が撮影されている画像(単体画像)であることの尤もらしさを表す評価値(識別スコア)を算出して出力する評価値算出関数の係数、および識別スコアに対して適用する閾値等のパラメータで表される。
単体識別器は多数の単体画像とそれぞれが人以外しか写っていない多数の無人画像からなる学習用画像の特徴量に線形SVM法を適用して学習した識別器とすることができる。
学習アルゴリズムとして線形SVMを用いた場合、評価値算出関数の係数は重みベクトルである。この重みベクトルは、特徴量の各要素に対する重みであり、入力された画像の特徴量と重みベクトルとの内積の値が識別スコアを表す。学習において、当該重みベクトルと特徴量との内積が0より大きい場合は人、0以下の場合は人以外と識別されるように調整される。よって、入力された画像が単体画像であるか否かを識別する閾値は原理上は0であり、通常、閾値は0に設定することができる。ただし、単体画像を単体画像でないと識別する誤りを減じるために、閾値を0よりも小さな値に設定してもよい。
なお、学習用画像の特徴量はHOG(Histograms of Oriented Gradients)特徴量である。
When a feature amount of an image is input, the single classifier calculates and outputs an evaluation value (discrimination score) indicating the likelihood that the image is an image of a single person (single image). It is represented by parameters such as a coefficient applied to the evaluation value calculation function and a threshold value applied to the identification score.
The single discriminator can be a discriminator that is learned by applying the linear SVM method to the feature amount of a learning image including a large number of single images and a large number of unmanned images in which only a person is captured.
When linear SVM is used as the learning algorithm, the coefficient of the evaluation value calculation function is a weight vector. This weight vector is a weight for each element of the feature quantity, and the value of the inner product of the feature quantity of the input image and the weight vector represents the identification score. In learning, when the inner product of the weight vector and the feature quantity is greater than 0, the person is identified. Therefore, the threshold for identifying whether or not the input image is a single image is 0 in principle, and the threshold can usually be set to 0. However, the threshold value may be set to a value smaller than 0 in order to reduce errors in identifying a single image as not being a single image.
Note that the feature amount of the learning image is a HOG (Histograms of Oriented Gradients) feature amount.
単体識別器記憶手段411cが記憶している単体識別器は、密度が高いほど単独の物体を構成する部分のうちの少ない部分の画像特徴を学習した識別器となっている。単体識別器記憶手段411cは、低密度クラスを表す値と対応付けて単独の人の全身の画像特徴を学習した単体識別器800、中密度クラスを表す値と対応付けて単独の人の上部2/3の画像特徴を学習した単体識別器801、高密度クラスを表す値と対応付けて単独の人の上部1/3の画像特徴を学習した単体識別器802を記憶している。以下、単体識別器800,801,802をそれぞれ全身識別器、上半身識別器、頭部近傍識別器と称する。
The single discriminator stored in the single
全身識別器800は単独の人の全身が撮影された単体画像を用いて学習した単体識別器であり、上半身識別器801は単独の人の上部2/3が撮影された単体画像(人の全身が撮影された単体画像の上部2/3を切り出した画像など)を用いて学習した単体識別器であり、頭部近傍識別器802は単独の人の上部1/3が撮影された単体画像(人の全身が撮影された単体画像の上部1/3を切り出した画像など)を用いて学習した単体識別器である。
The
このように、単体識別器記憶手段411cは、低密度クラスと対応付けて全身識別器800を、中密度クラスと対応付けて上半身識別器801を、高密度クラスと対応付けて頭部近傍識別器802を記憶している。
As described above, the single
候補位置設定手段511cは、撮影画像内に所定間隔にて複数の候補位置を設定し、設定した候補位置を評価値算出手段514cに出力する。具体的には、所定間隔は1画素であり、候補位置設定手段511cは撮影画像の各画素の位置を順次候補位置に設定する。なお候補位置は人の頭部重心を表すものとする。
The candidate
評価値算出手段514cは、候補位置設定手段511cから入力された候補位置のそれぞれについて、当該候補位置の密度が高いほど単独の物体を構成する部分のうちの少ない部分の画像特徴を学習した単体識別器に、当該候補位置の撮影画像の画像特徴を入力して評価値を算出し、算出した評価値とそれに付随する情報を位置決定手段517cに出力する。 For each candidate position input from the candidate position setting means 511c, the evaluation value calculating means 514c learns the image features of a smaller part of the parts constituting a single object as the density of the candidate positions is higher. The image feature of the photographed image at the candidate position is input to the device, the evaluation value is calculated, and the calculated evaluation value and accompanying information are output to the position determining means 517c.
そのために、評価値算出手段514cは、各候補位置に単独の人の上部1/3の形状に定められた窓を設定するとともに密度推定手段50から入力された密度分布を参照し、当該窓内の推定密度を集計する。当該窓は後述する識別用抽出窓である。そして、評価値算出手段514cは、各候補位置における最多の推定密度を当該候補位置の密度と決定する。
For this purpose, the evaluation value calculation means 514c sets a window defined in the shape of the upper third of a single person at each candidate position and refers to the density distribution input from the density estimation means 50, Aggregate the estimated density. The window is an identification extraction window described later. Then, the evaluation
また、評価値算出手段514cは、各候補位置に当該候補位置の密度に応じた識別用抽出窓を設定し、識別用抽出窓内の撮影画像から単体識別用の特徴量(識別用特徴量)を抽出する。識別用抽出窓は、各密度に応じた単体識別器の学習に用いた単体画像の形状(図15に示した実線の矩形)を有し、予め定めた複数の倍率で拡大・縮小した大きさの窓である。すなわち、識別用抽出窓は、候補位置の密度が低密度であれば単独の人の全身の形状に定められた窓であり、中密度であれば単独の人の上部2/3の形状に定められた窓であり、高密度であれば単独の人の上部1/3の形状に定められた窓である。
In addition, the evaluation
図16は、図5で例示した密度分布が得られている場合に、図5で例示した各候補位置に評価値算出手段514cが設定する識別用抽出窓を模式的に示した図である。
FIG. 16 is a diagram schematically illustrating an extraction window for identification set by the evaluation
また、評価値算出手段514cは、候補位置ごとに当該候補位置の密度に応じた単体識別器を単体識別器記憶手段411cから読み出す。すなわち、評価値算出手段514cは、候補位置の密度が低密度であれば全身識別器を読み出し、中密度であれば上半身識別器を読み出し、高密度であれば頭部近傍識別器を読み出す。そして、評価値算出手段514cは、各候補位置について、読み出した単体識別器に当該候補位置から抽出した識別用特徴量を入力し、その出力値である識別スコアを当該候補位置の評価値として取得する。
In addition, the evaluation
そして、評価値算出手段514cは、候補位置ごとに、候補位置、密度、識別スコア、使用した単体識別器の閾値および使用した識別用抽出窓を対応付けた情報を位置決定手段517cに出力する。
Then, the evaluation
位置決定手段517cは、評価値算出手段514cから入力された情報を参照し、予め定めた基準を満たす評価値が算出された候補位置を物体の位置と決定する。
The
具体的には、位置決定手段517cは、識別スコアがそれに対応する閾値以上である候補位置を抽出し、抽出した候補位置のうち対応する密度が同一であり且つ互いに近接する複数の候補位置を一つにまとめ、まとめた候補位置を人が撮影されている位置と決定する。
Specifically, the
この候補位置をまとめる処理は、実際に人が撮影されている位置に加えてその近傍においても同一人物に対して高い識別スコアが算出されることに対処するために行う。具体的には、例えば、位置決定手段517cは、密度ごとに、閾値以上の識別スコアが算出された候補位置を識別スコアが高い順に順次注目位置に設定するとともに注目位置より識別スコアが低い候補位置を比較位置に設定する。そして、位置決定手段517cは、比較位置のうち当該比較位置に設定された識別用抽出窓と注目位置に設定された識別用抽出窓との重なりが予め定めた割合より大きい比較位置の情報を削除することで複数の候補位置を一つにまとめる。
The process of grouping the candidate positions is performed in order to cope with the fact that a high identification score is calculated for the same person in the vicinity in addition to the position where the person is actually photographed. Specifically, for example, for each density, the
そして、位置決定手段517cは、人が撮影されている位置と決定した候補位置を物体位置の情報として物体位置出力手段31に出力する。
Then, the
<第三の実施形態に係る画像監視装置1の動作>
以下、図6および図17を参照し、第三の実施形態に係る画像監視装置1の動作を説明する。
<Operation of
Hereinafter, the operation of the
画像監視装置1が動作を開始すると、第一および第二の実施形態と同様に、撮影部2は順次撮影画像を送信し、画像処理部5は撮影画像を受信するたびに図6のフローチャートに従った動作を繰り返す。
When the
通信部3は画像取得手段30として動作し、撮影画像を受信して画像処理部5に出力する(ステップS1)。撮影画像を入力された画像処理部5は密度推定手段50として動作して記憶部4の密度推定器記憶手段40から密度推定器を読み出し、撮影画像を密度推定器にて走査することによって密度分布を推定する(ステップS2)。
The communication unit 3 operates as the
次に、画像処理部5は物体位置判定手段51として動作し、物体位置判定手段51は、画像取得手段30から撮影画像および密度推定手段50から密度分布を入力されて、密度分布に背景クラス以外の推定密度が含まれているか否かを確認する(ステップS3)。
Next, the image processing unit 5 operates as the object
物体位置判定手段51は、背景クラス以外の推定密度が含まれている場合は(ステップS3にてYES)、撮影画像から個々の物体の位置を判定する処理を行い(ステップS4)、背景クラスのみの場合は(ステップS3にてNO)、ステップS4の処理を省略する。
When the estimated density other than the background class is included (YES in step S3), the object
図17のフローチャートを参照して、ステップS4の物体位置判定処理を説明する。単体特徴記憶手段41が単体識別器記憶手段411cとして動作し、物体位置判定手段51が候補位置設定手段511c、評価値算出手段514cおよび位置決定手段517cとして動作して、物体位置判定処理が実行される。
The object position determination process in step S4 will be described with reference to the flowchart in FIG. The single
候補位置設定手段511cは、撮影画像中の各画素の位置を順次候補位置に設定して評価値算出手段514cに入力し(ステップS300)、ステップS300〜S304のループ処理を制御する。
The candidate
候補位置を入力された評価値算出手段514cは密度分布を参照して候補位置の密度を特定する(ステップS301)。評価値算出手段514cは候補位置に単独の人の上部1/3の形状に定められた窓を設定して当該窓内で最多の推定密度を候補位置の密度として特定する。 The evaluation value calculation means 514c that has received the candidate position specifies the density of the candidate position with reference to the density distribution (step S301). The evaluation value calculation means 514c sets a window defined in the shape of the upper third of a single person at the candidate position, and specifies the most estimated density as the candidate position density in the window.
密度を特定した評価値算出手段514cは、単体識別器記憶手段411cから当該密度に応じた単体識別器を読み出し、当該密度に応じた識別用抽出窓を設定して識別用抽出窓内の撮影画像から識別用特徴量を抽出し(ステップS302)、抽出した識別用特徴量を当該密度に応じた単体識別器に入力して識別スコア(評価値)を算出する(ステップS303)。 The evaluation value calculation means 514c that specifies the density reads the single classifier corresponding to the density from the single classifier storage means 411c, sets an extraction window for identification corresponding to the density, and takes a captured image in the extraction window for identification. The feature quantity for identification is extracted from (step S302), and the extracted feature quantity for identification is input to a single classifier corresponding to the density to calculate the identification score (evaluation value) (step S303).
そして、評価値算出手段514cは、候補位置と識別用抽出窓と密度と評価値とを対応付けて記録するとともに、撮影画像の全ての画素の位置を候補位置に設定し終えたか否かを確認し(ステップS304)、未設定の画素がある場合は(ステップS304にてNO)、処理をステップS300に戻して次の画素の位置を処理する。
Then, the evaluation
他方、全ての画素の位置を候補位置に設定し終えた場合(ステップS304にてYES)、位置決定手段517cは、ステップS304で記録された候補位置と識別用抽出窓と密度と評価値の組の中から評価値が閾値未満の組を削除し(ステップS305)、さらに、削除されずに残った組について、密度ごとに、互いの識別用抽出窓が予め定めた割合よりも大きく重複している組を同一人物のものとして一つの組にまとめる(ステップS306)。そして位置決定手段517cはまとめた後の各組の候補位置を撮影画像に撮影されている個々の人の位置(物体位置)と判定する。
On the other hand, when the positions of all the pixels have been set as the candidate positions (YES in step S304), the
再び図6を参照して説明を続ける。物体位置判定手段51はステップS4にて判定した物体位置の情報を通信部3に出力し(ステップS5)、通信部3は物体位置出力手段31として動作して物体位置の情報を表示部6に送信する。
The description will be continued with reference to FIG. The object
以上の処理を終えると、処理はステップS1に戻され、次の撮影画像に対する処理が行われる。 When the above process is completed, the process returns to step S1, and the process for the next captured image is performed.
[第四の実施形態]
以下、第一、第二および第三の実施形態とは異なる本発明の好適な実施形態として、識別器が出力する部分評価値に対する重み付けを人の密度によって変更する物体検出装置の例を含んだ画像監視装置1の例を説明する。
[Fourth embodiment]
Hereinafter, as a preferred embodiment of the present invention that is different from the first, second, and third embodiments, an example of an object detection device that changes a weight for a partial evaluation value output by a discriminator depending on a human density is included. An example of the
第四の実施形態に係る画像監視装置は、単体特徴記憶手段41が記憶している単体特徴の細部および物体位置判定手段51が行う処理の細部が第一、第二および第三の実施形態に係る画像監視装置と異なり、概略の構成、概略の機能および動作の一部は共通する。そのため、概略の構成、概略の機能および動作の一部については、それぞれ第一、第二および第三の実施形態で参照した図1のブロック図、図2の機能ブロック図および図6のフローチャートを再び参照して説明する。 In the image monitoring apparatus according to the fourth embodiment, the details of the single features stored in the single feature storage means 41 and the details of the processing performed by the object position determination means 51 are the same as those in the first, second and third embodiments. Unlike the image monitoring apparatus, the general configuration, the general function, and a part of the operation are common. Therefore, for the schematic configuration, a part of the schematic function and the operation, the block diagram of FIG. 1, the functional block diagram of FIG. 2, and the flowchart of FIG. 6 referred to in the first, second and third embodiments, respectively. The description will be given with reference again.
<第四の実施形態に係る画像監視装置1の構成>
図1のブロック図を参照して第四の実施形態に係る画像監視装置1の概略の構成を説明する。
画像監視装置1は、第一、第二および第三の実施形態と同様、監視空間を所定時間おきに撮影して撮影画像を出力する撮影部2と、物体位置の情報を入力されて当該情報を表示する表示部6と、撮影画像を取得して当該撮影画像から個々の人(物体)を検出し、検出した物体の位置(物体位置)の情報を生成して出力する画像処理部5とが、撮影画像および物体位置の情報等の入出力を介在する通信部3に接続されるとともに、プログラムおよび各種データ等を記憶してこれらを入出力する記憶部4が画像処理部5に接続されてなる。
<Configuration of
A schematic configuration of the
As in the first, second, and third embodiments, the
<第四の実施形態に係る画像監視装置1の機能>
図2および図18の機能ブロック図を参照し、第四の実施形態に係る画像監視装置1の機能について説明する。
<Functions of the
The function of the
通信部3は、第一、第二および第三の実施形態と同様、撮影部2から撮影画像を取得して密度推定手段50と物体位置判定手段51に出力する画像取得手段30、および物体位置判定手段51から入力された物体位置の情報を表示部6に出力する物体位置出力手段31等としての機能を含む。
As in the first, second, and third embodiments, the communication unit 3 acquires a captured image from the
また、記憶部4は、第一、第二および第三の実施形態と同様、所定の密度ごとに当該密度にて物体が存在する空間を撮影した密度画像それぞれの画像特徴を学習した密度推定器を記憶している密度推定器記憶手段40、および予めの学習により生成された単独の物体の画像特徴(単体特徴)を記憶している単体特徴記憶手段41等としての機能を含み、単体特徴記憶手段41が記憶している単体特徴は、密度が高いほど、物体を構成する部分のうちの少ない部分の画像特徴を重視した評価ができるものとなっている。
Further, as in the first, second, and third embodiments, the storage unit 4 is a density estimator that learns image features of each density image obtained by photographing a space where an object exists at the predetermined density for each predetermined density. Including a function as a density estimator storage means 40 that stores information, a single feature storage means 41 that stores image features (single features) of a single object generated by pre-learning, and the like. The unit features stored in the
また、画像処理部5は、第一、第二および第三の実施形態と同様、撮影画像を密度推定器で走査することによって撮影画像に撮影された物体の密度の分布を推定し、推定した密度分布を物体位置判定手段51に出力する密度推定手段50、および撮影画像内に個々の物体が存在し得る候補位置を設定して当該候補位置の撮影画像に単独の物体の画像特徴が現れている度合いを表す評価値を算出し、評価値が所定値以上である候補位置を物体の位置と判定し、物体位置の情報を物体位置出力手段31に出力する物体位置判定手段51等としての機能を含み、物体位置判定手段51は、候補位置の密度に応じた単体特徴を用いることによって、候補位置における密度が高いほど、物体を構成する部分のうちの少ない部分の画像特徴を重視して評価値を算出する。
Further, the image processing unit 5 estimates and estimates the density distribution of the object photographed in the photographed image by scanning the photographed image with the density estimator as in the first, second, and third embodiments. A
ただし、上述したように、第四の実施形態に係る物体位置判定手段51が行う処理の細部および単体特徴記憶手段41が記憶している単体特徴の細部が第一、第二および第三の実施形態に係る画像監視装置1と異なる。これらの点について、図18の機能ブロック図を参照して説明する。
However, as described above, the details of the processing performed by the object
第四の実施形態に係る単体特徴記憶手段41は、単独の人(物体)の画像特徴を学習した識別器(単体識別器)を予め記憶した単体識別器記憶手段411d、および評価値の算出において用いる重み係数を予め記憶した重み係数記憶手段412dとして機能し、単体識別器の情報および重み係数の情報を単体特徴として記憶している。
The unit
図19は、第四の実施形態に係る単体特徴記憶手段41が記憶している単体特徴、すなわち単体識別器記憶手段411dが記憶している単体識別器の情報および重み係数記憶手段412dが記憶している重み係数の情報を模式的に表した図である。
FIG. 19 shows the unit features stored in the unit
単体識別器は、第三の実施形態にて説明したように、画像の特徴量を入力されると当該画像が単体画像であることの尤もらしさを表す評価値(識別スコア)を算出して出力する評価値算出関数の係数、および識別スコアに対して適用する閾値等のパラメータで表され、多数の単体画像と多数の無人画像からなる学習用画像の特徴量に線形SVM法を適用して学習した識別器とすることができる。学習用画像の特徴量はHOG特徴量とすることができる。 As described in the third embodiment, the single discriminator calculates and outputs an evaluation value (discrimination score) indicating the likelihood that the image is a single image when the image feature amount is input. Learning by applying the linear SVM method to the feature quantity of the learning image consisting of a large number of single images and a large number of unmanned images. Discriminator. The feature amount of the learning image can be a HOG feature amount.
単体識別器記憶手段411dが記憶している単体識別器は、単独の物体を構成する複数の部分の画像特徴を学習した識別器となっている。具体的には、単体識別器記憶手段411dはそれぞれが互いに異なる部分の画像特徴を学習した3つの単体識別器を記憶している。すなわち、単体識別器記憶手段411dは、人の上部1/3の画像特徴を学習した単体識別器850と、人の中部1/3の画像特徴を学習した単体識別器851と、人の下部1/3の画像特徴を学習した単体識別器852とを記憶している。以下、上部1/3を識別する単体識別器850を上部識別器、中部1/3を識別する単体識別器851を中部識別器、下部1/3を識別する単体識別器852を下部識別器と称する。
The single discriminator stored in the single
重み係数は密度が高いほど単独の物体を構成する部分のうちの少ない部分に偏重させた設定となっている。重み係数記憶手段412dは、低密度クラスを表す値と対応付けて「上部1/3に適用する重み係数0.333」「中部1/3に適用する重み係数0.333」「下部1/3に適用する重み係数0.333」、中密度クラスを表す値と対応付けて「上部1/3に適用する重み係数0.500」「中部1/3に適用する重み係数0.400」「下部1/3に適用する重み係数0.100」、高密度クラスを表す値と対応付けて「上部1/3に適用する重み係数0.700」「中部1/3に適用する重み係数0.200」「下部1/3に適用する重み係数0.100」を記憶している。以下、全身に均等な低密度用の重み係数860を全身均等重み係数、上半身を重視した中密度用の重み係数861を上半身偏重重み係数、頭部近傍を重視した高密度用の重み係数862を頭部近傍偏重重み係数と称する。
The weighting factor is set such that the higher the density is, the more the weight is concentrated on the smaller part of the part constituting the single object. The weighting
このように、単体識別器記憶手段411dは上部識別器850、中部識別器851および下部識別器852を単体識別器の情報として記憶しており、重み係数記憶手段412dは低密度クラスと対応付けられた全身均等重み係数860、中密度クラスと対応付けられた上半身偏重重み係数861および高密度クラスと対応付けられた頭部近傍偏重重み係数862を記憶している。
As described above, the single
候補位置設定手段511dは、撮影画像内に所定間隔にて複数の候補位置を設定し、設定した候補位置を評価値算出手段514dに出力する。具体的には、所定間隔は1画素であり、候補位置設定手段511dは撮影画像の各画素の位置を順次候補位置に設定する。なお候補位置は人の頭部重心を表すものとする。
The candidate
評価値算出手段514dは、候補位置設定手段511dから入力された候補位置のそれぞれについて、単独の物体を構成する複数の部分の画像特徴を学習した単体識別器に当該候補位置の撮影画像の画像特徴を入力して複数の部分の部分評価値を求め、候補位置における密度が高いほど少ない部分に偏重させた重み付けを行って部分評価値を総和することにより評価値を算出し、算出した評価値とそれに付随する情報を位置決定手段517dに出力する。
The evaluation
そのために、評価値算出手段514dは、各候補位置に人の各部分の識別用抽出窓を設定し、識別用抽出窓内の撮影画像から単体識別用の特徴量(識別用特徴量)を抽出する。識別用抽出窓は、各部分の単体識別器の学習に用いた単体画像の形状(図19に示した実線の矩形)を有し、予め定めた複数の倍率で拡大・縮小した大きさの窓である。すなわち、識別用抽出窓は、単独の人の上部1/3、中部1/3および下部1/3の形状に定められた3つの窓である。
For this purpose, the evaluation value calculation means 514d sets an extraction window for identifying each part of the person at each candidate position, and extracts a feature quantity for identification (identification feature quantity) from the captured image in the identification extraction window. To do. The identification extraction window has a shape of a single image (solid-line rectangle shown in FIG. 19) used for learning of the single classifier of each part, and is a window whose size is enlarged or reduced at a plurality of predetermined magnifications. It is. That is, the identification extraction windows are three windows defined in the shape of the
また、評価値算出手段514dは、各部分の単体識別器を単体識別器記憶手段411dから読み出す。すなわち、評価値算出手段514dは、上部識別器、中部識別器および下部識別器を読み出す。そして、評価値算出手段514dは、各候補位置について、部分ごとに、読み出した単体識別器に当該候補位置から抽出した識別用特徴量を入力してその出力値である部分識別スコアを当該候補位置における当該部分の部分評価値として取得する。つまり、評価値算出手段514dは、候補位置ごとに上部識別器による部分識別スコア、中部識別器による部分識別スコアおよび下部識別器による部分識別スコアを算出する。
Further, the evaluation
また、評価値算出手段514dは、密度推定手段50から入力された密度分布を参照し、各候補位置に設定した上部1/3の窓内の推定密度を集計する。そして、評価値算出手段514dは、各候補位置における最多の推定密度を当該候補位置の密度と決定する。
Further, the evaluation
また、評価値算出手段514dは、候補位置ごとに当該候補位置の密度に応じた重み係数を重み係数記憶手段412dから読み出す。すなわち、評価値算出手段514dは、候補位置の密度が低密度であれば全身均等重み係数を読み出し、中密度であれば上半身偏重重み係数を読み出し、高密度であれば頭部近傍偏重重み係数を読み出す。そして、評価値算出手段514dは、各候補位置について、読み出した重み係数で対応する部分の部分評価値を重み付けて加算することによって当該候補位置の評価値を算出する。
In addition, the evaluation
すなわち、上部識別器による部分識別スコアをSU、中部識別器による部分識別スコアをSM、下部識別器による部分識別スコアをSLとすると、評価値算出手段514dは、注目している候補位置の密度が低密度であれば次式によって当該候補位置の識別スコアを算出する。
識別スコア=0.333SU+0.333SM+0.333SL (3)
また、評価値算出手段514dは、注目している候補位置の密度が中密度であれば次式によって当該候補位置の識別スコアを算出する。
識別スコア=0.500SU+0.400SM+0.100SL (4)
また、評価値算出手段514dは、注目している候補位置の密度が高密度であれば次式によって当該候補位置の識別スコアを算出する。
識別スコア=0.700SU+0.200SM+0.100SL (5)
That is, assuming that the partial discrimination score by the upper discriminator is S U , the partial discrimination score by the middle discriminator is S M , and the partial discrimination score by the lower discriminator is S L , the evaluation value calculation means 514d has the candidate position of interest If the density is low, the identification score of the candidate position is calculated by the following equation.
Identification score = 0.333S U + 0.333S M + 0.333S L (3)
Further, the evaluation
Identification score = 0.500S U + 0.400S M + 0.100S L (4)
In addition, the evaluation
Identification score = 0.700S U + 0.200S M + 0.100S L (5)
図20は、図5で例示した密度分布が得られている場合に、図5で例示した各候補位置について評価値算出手段514dが識別スコアを算出する様子を模式的に示した図である。画像870は、これらの候補位置のうち密度が低密度である3つの候補位置について、各部分と重み係数の関係を示している。画像871は、密度が中密度である3つの候補位置について、各部分と重み係数の関係を示している。画像872は、密度が高密度である2つの候補位置について、各部分と重み係数の関係を示している。なお、スペースの都合上、重み係数の値を有効数字1桁で示している。
FIG. 20 is a diagram schematically illustrating how the evaluation
そして、評価値算出手段514dは、候補位置ごとに、候補位置、密度、識別スコアおよび使用した識別用抽出窓を対応付けた情報を位置決定手段517dに出力する。
Then, the evaluation
位置決定手段517dは、評価値算出手段514dから入力された情報を参照し、予め定めた基準を満たす評価値が算出された候補位置を物体の位置と決定する。
The
具体的には、位置決定手段517dは、識別スコアが0以上である候補位置を抽出し、抽出した候補位置のうち対応する密度が同一であり且つ互いに近接する複数の候補位置(識別用抽出窓同士の重複が予め定めた割合より大きな候補位置)を一つにまとめ、まとめた候補位置を人が撮影されている位置と決定する。この候補位置をまとめる処理とその意義は、第三の実施形態に係る位置決定手段517cが行う処理およびその意義と同様である。
Specifically, the
そして、位置決定手段517dは、人が撮影されている位置と決定した候補位置を物体位置の情報として物体位置出力手段31に出力する。
Then, the
<第四の実施形態に係る画像監視装置1の動作>
以下、図6および図21を参照し、第四の実施形態に係る画像監視装置1の動作を説明する。
<Operation of
Hereinafter, the operation of the
画像監視装置1が動作を開始すると、第一、第二および第三の実施形態と同様に、撮影部2は順次撮影画像を送信し、画像処理部5は撮影画像を受信するたびに図6のフローチャートに従った動作を繰り返す。
When the
通信部3は画像取得手段30として動作し、撮影画像を受信して画像処理部5に出力する(ステップS1)。撮影画像を入力された画像処理部5は密度推定手段50として動作して記憶部4の密度推定器記憶手段40から密度推定器を読み出し、撮影画像を密度推定器にて走査することによって密度分布を推定する(ステップS2)。
The communication unit 3 operates as the
次に、画像処理部5は物体位置判定手段51として動作し、物体位置判定手段51は、画像取得手段30から撮影画像および密度推定手段50から密度分布を入力されて、密度分布に背景クラス以外の推定密度が含まれているか否かを確認する(ステップS3)。
Next, the image processing unit 5 operates as the object
物体位置判定手段51は、背景クラス以外の推定密度が含まれている場合は(ステップS3にてYES)、撮影画像から個々の物体の位置を判定する処理を行い(ステップS4)、背景クラスのみの場合は(ステップS3にてNO)、ステップS4,S5の処理を省略する。
When the estimated density other than the background class is included (YES in step S3), the object
図21のフローチャートを参照して、ステップS4の物体位置判定処理を説明する。単体特徴記憶手段41が単体識別器記憶手段411dおよび重み係数記憶手段412dとして動作し、物体位置判定手段51が候補位置設定手段511d、評価値算出手段514dおよび位置決定手段517dとして動作して、物体位置判定処理が実行される。
The object position determination process in step S4 will be described with reference to the flowchart in FIG. The single
候補位置設定手段511dは、撮影画像中の各画素の位置を順次候補位置に設定して評価値算出手段514dに入力し(ステップS400)、ステップS400〜S405のループ処理を制御する。
The candidate
候補位置を入力された評価値算出手段514dは、単体識別器記憶手段411dから各部分(上部・中部・下部)の単体識別器を読み出し、各部分に対応する識別用抽出窓を設定して各識別用抽出窓内の撮影画像から識別用特徴量を抽出し(ステップS401)、抽出した各識別用特徴量を対応する部分の単体識別器に入力して部分識別スコア(部分評価値)を算出する(ステップS402)。 The evaluation value calculation means 514d to which the candidate position is inputted reads out the individual classifiers of each part (upper / middle / lower) from the single classifier storage means 411d, sets the extraction window for identification corresponding to each part, and sets each A feature value for identification is extracted from the captured image in the extraction window for identification (step S401), and each extracted feature value for identification is input to a corresponding unit single classifier to calculate a partial identification score (partial evaluation value). (Step S402).
部分評価値を算出した評価値算出手段514dは、密度分布を参照して候補位置の密度を特定する(ステップS403)。評価値算出手段514dは候補位置に設定した上部1/3の窓内で最多の推定密度を候補位置の密度として特定する。 The evaluation value calculation means 514d that has calculated the partial evaluation value specifies the density at the candidate position with reference to the density distribution (step S403). The evaluation value calculation means 514d specifies the highest estimated density as the candidate position density in the upper third window set at the candidate position.
密度を特定した評価値算出手段514dは、重み係数記憶手段412dから当該密度に応じた重み係数を読み出し、式(3)、式(4)または式(5)のうちの密度に応じた式に従って、読み出した重み係数と部分評価値を積和することにより当該候補位置の評価値を算出する(ステップS404)。 The evaluation value calculation means 514d that has specified the density reads the weighting coefficient corresponding to the density from the weighting coefficient storage means 412d, and follows the expression according to the density among the expressions (3), (4), or (5). Then, the evaluation value of the candidate position is calculated by multiplying the read weight coefficient and the partial evaluation value (step S404).
そして、評価値算出手段514dは、候補位置と識別用抽出窓と密度と評価値とを対応付けて記録するとともに、撮影画像の全ての画素の位置を候補位置に設定し終えたか否かを確認し(ステップS405)、未設定の画素がある場合は(ステップS405にてNO)、処理をステップS400に戻して次の画素の位置を処理する。
Then, the evaluation
他方、全ての画素の位置を候補位置に設定し終えた場合(ステップS405にてYES)、位置決定手段517dは、ステップS405で記録された候補位置と識別用抽出窓と密度と評価値の組の中から評価値が閾値未満の組を削除し(ステップS406)、さらに、削除されずに残った組について、密度ごとに、互いの識別用抽出窓が予め定めた割合よりも大きく重複している組を同一人物のものとして一つの組にまとめる(ステップS407)。そして位置決定手段517dはまとめた後の各組の候補位置を撮影画像に撮影されている個々の人の位置(物体位置)と判定する。
On the other hand, when the positions of all the pixels have been set as the candidate positions (YES in step S405), the
再び図6を参照して説明を続ける。物体位置判定手段51はステップS4にて判定した物体位置の情報を通信部3に出力し(ステップS5)、通信部3は物体位置出力手段31として動作して物体位置の情報を表示部6に送信する。
The description will be continued with reference to FIG. The object
以上の処理を終えると、処理はステップS1に戻され、次の撮影画像に対する処理が行われる。 When the above process is completed, the process returns to step S1, and the process for the next captured image is performed.
<変形例>
(1)上記各実施形態およびその変形例においては、検出対象の物体を人とする例を示したが、これに限らず、検出対象の物体を車両、牛や羊等の動物等とすることもできる。
<Modification>
(1) In each of the above-described embodiments and modifications thereof, an example in which the object to be detected is a person has been shown. However, the present invention is not limited thereto, and the object to be detected is a vehicle, an animal such as a cow or a sheep, or the like. You can also.
(2)上記各実施形態およびその各変形例においては物体を1/3ずつに分けた部分を単位として単体特徴を設定する例を示したが、分け方はこれに限らない。検出対象や撮影する監視空間の特性、採用する特徴量や評価値の種類などの違いに応じ、それぞれに適した別の比率で分けた単体特徴とすることができる。また密度間でオーバーラップさせて単体特徴を設定してもよい。 (2) In each of the above-described embodiments and modifications thereof, an example in which a single feature is set with a unit obtained by dividing an object by 1/3 has been shown, but the way of dividing is not limited to this. Depending on the difference in the characteristics of the detection target, the monitoring space to be photographed, the feature amount to be used, the type of evaluation value, etc., the single feature can be divided by a different ratio suitable for each. In addition, single features may be set by overlapping between densities.
(3)上記第二および第四の実施形態およびその各変形例において示した重み係数の値は一例であり、検出対象や撮影する監視空間の特性、採用する特徴量や評価値の種類などの違いに応じ、それぞれに適した別の値とすることができる。 (3) The values of the weighting coefficients shown in the second and fourth embodiments and the modifications thereof are merely examples, such as the characteristics of the detection target, the monitoring space to be photographed, the feature quantity to be adopted, the type of evaluation value, etc. Depending on the difference, it can be set to a different value suitable for each.
(4)上記各実施形態およびその各変形例においては、多クラスSVM法にて学習した密度推定器を例示したが、多クラスSVM法に代えて、決定木型のランダムフォレスト法、多クラスのアダブースト(AdaBoost)法または多クラスロジスティック回帰法などにて学習した密度推定器など種々の密度推定器とすることができる。
或いは識別型のCNN(Convolutional Neural Network)を用いた密度推定器とすることもできる。
(4) In each of the above-described embodiments and modifications thereof, the density estimator learned by the multi-class SVM method has been exemplified, but instead of the multi-class SVM method, a decision tree type random forest method, a multi-class Various density estimators such as a density estimator learned by the AdaBoost method or the multi-class logistic regression method can be used.
Alternatively, a density estimator using a discriminating CNN (Convolutional Neural Network) may be used.
(5)上記各実施形態およびその各変形例においては、密度推定器が推定する背景以外の密度のクラスを3クラスとしたが、より細かくクラスを分けてもよい。
その場合、3段階(全身、上半身および頭部近傍)の単体特徴に代えて、クラス分けに対応したより細かい段階の単体特徴とし、クラスと単体特徴を対応付けて単体特徴記憶手段41に記憶させておくことができる。或いは、クラスと3段階の単体特徴を多対一で対応付けて単体特徴記憶手段41に記憶させておくこともできる。
(5) In each of the above-described embodiments and modifications thereof, the class of density other than the background estimated by the density estimator is set to three classes, but the class may be divided more finely.
In that case, instead of single-stage features in three levels (whole body, upper body, and the vicinity of the head), single-stage features of finer levels corresponding to classification are used, and classes and single-unit features are associated and stored in the single-unit
(6)上記各実施形態およびその各変形例においては、多クラスに分類する密度推定器を例示したがこれに代えて、特徴量から密度の値(推定密度)を回帰する回帰型の密度推定器とすることもできる。すなわち、リッジ回帰法、サポートベクターリグレッション法、回帰木型のランダムフォレスト法またはガウス過程回帰(Gaussian Process Regression)などによって、特徴量から推定密度を求めるための回帰関数のパラメータを学習した密度推定器とすることができる。
或いは回帰型のCNNを用いた密度推定器とすることもできる。
これらの場合、密度クラスの値の代わりに連続値で出力される推定密度の値域を、単体特徴と対応付けて単体特徴記憶手段41に記憶させておく。
(6) In each of the above-described embodiments and modifications thereof, a density estimator that classifies into multiple classes is illustrated, but instead of this, a regression type density estimation that regresses a density value (estimated density) from a feature quantity It can also be a container. That is, a density estimator that has learned the parameters of the regression function for obtaining the estimated density from the features by ridge regression method, support vector regression method, regression tree-type random forest method or Gaussian Process Regression, etc. can do.
Alternatively, a density estimator using a regression type CNN may be used.
In these cases, the estimated density value range output as a continuous value instead of the density class value is stored in the single
(7)第二および第四の実施形態およびその各変形例においては、各部分の重み係数を一定値とする例を示したが、各部分の重み係数を関数としてもよい。その場合、例えば重み係数記憶手段412b、412dは、各部分内の画素の位置を入力とし当該部分内の高さが高い位置ほど大きな重み係数を出力する関数を記憶し、評価値算出手段514b、514dは各部分内の画素の位置を当該関数に入力して画素ごとに重み付けを行う。 (7) In the second and fourth embodiments and the modifications thereof, the example in which the weighting coefficient of each part is set to a constant value has been shown, but the weighting coefficient of each part may be a function. In that case, for example, the weight coefficient storage means 412b and 412d store a function that inputs the position of the pixel in each part and outputs a larger weight coefficient as the height in the part is higher, and the evaluation value calculation means 514b, 514d inputs the position of the pixel in each part to the said function, and performs weighting for every pixel.
(8)上記各実施形態およびその各変形例においては、密度推定器が学習する特徴量および推定用特徴量としてGLCM特徴を例示したが、これらはGLCM特徴に代えて、局所二値パターン(Local Binary Pattern:LBP)特徴量、ハールライク(Haar-like)特徴量、HOG特徴量、輝度パターンなどの種々の特徴量とすることができ、またはGLCM特徴とこれらのうちの複数を組み合わせた特徴量とすることもできる。 (8) In each of the above embodiments and the modifications thereof, the GLCM feature is exemplified as the feature amount learned by the density estimator and the estimation feature amount. However, instead of the GLCM feature, the local binary pattern (Local Binary Pattern (LBP) feature value, Haar-like feature value, HOG feature value, luminance pattern, and other various feature values, or a combination of GLCM features and a plurality of them You can also
(9)上記各実施形態およびその各変形例においては、密度推定手段50および物体位置判定手段51が1画素間隔で走査して処理を行う例を示したが、これらの走査を2画素以上の間隔を空けて行うことも可能である。
(9) In each of the above-described embodiments and modifications thereof, an example is shown in which the
(10)上記各実施形態およびその各変形例においては、候補位置を推定密度が低密度、中密度または高密度の領域内から選んで設定する例を示したが、配置生成手段510a、配置生成手段510b、候補位置設定手段511cおよび候補位置設定手段511dのそれぞれは、変化領域内に限定して候補位置を設定することもできる。その場合、記憶部4は監視空間の背景画像を記憶する背景画像記憶手段(不図示)を備え、画像処理部5は、撮影画像と背景画像との差分処理を行って差分値が所定の差分閾値以上である画素の集まりを変化領域として抽出する、または撮影画像と背景画像との相関処理を行って相関値が所定の相関閾値以下である画素の集まりを変化領域として抽出する変化領域抽出手段(不図示)を備え、配置生成手段510a、配置生成手段510b、候補位置設定手段511cおよび候補位置設定手段511dのそれぞれは、変化領域抽出手段が抽出した変化領域を参照して候補位置を設定する。
なお、候補位置を設定する領域を限定する場合、配置生成手段510aおよび配置生成手段510bのそれぞれは、限定した領域の大きさに応じて配置数の上限個数を変更することができる。
このような候補位置を設定する領域の限定によって、撮影画像とモデル画像の偶発的な類似または背景に対する高い識別スコアの偶発的な算出を防止でき、物体位置の誤検出を低減できる。
(10) In each of the above-described embodiments and modifications thereof, an example has been shown in which candidate positions are selected and set from regions with low, medium, or high estimated density. Each of the
In the case where the area where the candidate position is set is limited, each of the
By limiting the region where the candidate positions are set, accidental similarity between the captured image and the model image or accidental calculation of a high identification score for the background can be prevented, and erroneous detection of the object position can be reduced.
(11)上記第一および第二の実施形態とその各変形例においては、配置生成手段510aおよび配置生成手段510bが反復の都度ランダムに配置を生成する例を示したが、反復の2回目以降に一回前の候補位置から微小にずらした候補位置に更新することで配置を生成してもよいし、反復の2回目以降に一回前の配置に対する類似度を参照してMCMC(Markov chain Monte Carlo)法により確率的に候補位置を探索する方法や山登り法により候補位置を逐次改善することで配置を生成してもよい。
(11) In the first and second embodiments and the variations thereof, an example in which the
(12)上記各実施形態およびその各変形例においては、注目している候補位置に人の上部1/3の形状に定められたモデルの投影領域または該形状に定められた窓を設定して当該領域内の推定密度を集計することによって、当該候補位置における推定密度を決定する例を示したが、処理量を削減するために当該領域に代えて候補位置の画素、候補位置の8近傍領域または16近傍領域などの小さな領域とすることもできる。或いは、確度を上げるために当該領域に代えて候補位置を代表位置とする単独の人の上部2/3の形状に定められたモデルの投影領域または該形状に定められた窓、または候補位置を代表位置とする単独の人の全身の形状に定められたモデルの投影領域または該形状に定められた窓などの大きな領域とすることもできる。 (12) In each of the above-described embodiments and modifications thereof, a projection area of a model defined in the shape of the upper third of the person or a window defined in the shape is set at the candidate position of interest. The example in which the estimated density at the candidate position is determined by aggregating the estimated density in the area has been shown. However, in order to reduce the processing amount, the pixel at the candidate position and the 8 neighboring areas at the candidate position are replaced with the area. Alternatively, it may be a small area such as the 16 neighborhood area. Alternatively, in order to improve the accuracy, a projection area of a model defined in the shape of the upper 2/3 of a single person with the candidate position as a representative position instead of the area, a window defined in the shape, or a candidate position It can also be a projection area of a model defined in the shape of the whole body of a single person as a representative position or a large area such as a window defined in the shape.
(13)第三の実施形態およびその各変形例において示した、識別スコアと対比する閾値は単体識別器ごとに異なる値とすることもできる。 (13) The threshold value to be compared with the identification score shown in the third embodiment and the modifications thereof may be different for each single classifier.
(14)第三および第四の実施形態およびその変形例においては、線形SVM法により学習された単体識別器を例示したが、線形SVM法に代えてアダブースト(AdaBoost)法など、従来知られた各種の学習法を用いて学習した単体識別器とすることもできる。また、識別器の代わりにパターンマッチング器を用いることもでき、その場合の識別スコアは人の学習用画像から抽出した特徴量の平均パターンと入力画像の特徴量との内積などとなり、識別スコア算出関数は当該スコアを出力値とし入力画像の特徴量を入力値とする関数とすることができる。また単体識別器として識別型のCNNを用いても良い。 (14) In the third and fourth embodiments and the modifications thereof, the single classifier learned by the linear SVM method is exemplified, but conventionally known such as the AdaBoost method instead of the linear SVM method. It is also possible to use a single classifier that has been learned using various learning methods. In addition, a pattern matching device can be used in place of the discriminator. In this case, the discriminant score is an inner product of the average pattern of the feature amount extracted from the human learning image and the feature amount of the input image. The function can be a function having the score as an output value and the feature quantity of the input image as an input value. Further, an identification type CNN may be used as a single classifier.
(15)第三および第四の実施形態およびその各変形例においては、単体識別器が学習する特徴量としてHOG特徴量を例示したが、これらはHOG特徴量に代えて、局所二値パターン特徴量、ハールライク特徴量、輝度パターンなどの種々の特徴量とすることができ、またはHOG特徴量とこれらのうちの複数を組み合わせた特徴量とすることもできる。 (15) In the third and fourth embodiments and their modifications, the HOG feature value is exemplified as the feature value learned by the single discriminator. However, these are local binary pattern features instead of the HOG feature value. Various feature amounts such as an amount, a Haar-like feature amount, and a luminance pattern can be used, or a HOG feature amount and a feature amount obtained by combining a plurality of these can be used.
以上の各実施形態およびその変形例によれば、物体検出装置は、候補位置ごとの密度に応じ、当該密度により物体に生じ得る隠蔽状態に適した単体特徴(単独の物体の画像特徴)を用いて個々の物体の位置を判定するので、混雑状態の変化に伴う物体の隠蔽状態の変化と個々の物体の検出のために用いる部分の多寡に伴う検出精度の変動とのトレードオフを解消して精度の高い物体検出が可能となる。 According to each of the above embodiments and the modifications thereof, the object detection device uses a single feature (image feature of a single object) suitable for the concealment state that can occur in the object due to the density according to the density for each candidate position. Since the position of each object is determined, the trade-off between the change in the concealment state of the object due to the change in the congestion state and the fluctuation in detection accuracy due to the number of parts used for the detection of each object is eliminated. It is possible to detect an object with high accuracy.
そのうちの第一の実施形態およびその変形例に係る物体検出装置は、単体特徴を表す物体モデルを用い、候補位置ごとの密度に応じて物体モデルを切り替えることによって上記トレードオフを解消し、精度の高い物体検出を可能とする。 The object detection apparatus according to the first embodiment and the modification thereof uses an object model representing a single feature, eliminates the trade-off by switching the object model according to the density for each candidate position, Enables high object detection.
またそのうちの第二の実施形態およびその変形例に係る物体検出装置は、単体特徴を表す物体モデルおよび物体モデルの撮影画像に対する類似度を評価する際の重み係数を用い、候補位置ごとの密度に応じて重み係数を切り替えることによって上記トレードオフを解消し、精度の高い物体検出を可能とする。 In addition, the object detection apparatus according to the second embodiment and the modification thereof uses an object model representing a single feature and a weighting factor when evaluating the similarity of the object model to a captured image, and uses the weight coefficient when evaluating the density for each candidate position. By switching the weighting factor accordingly, the trade-off is eliminated, and highly accurate object detection is possible.
またそのうちの第三の実施形態およびその変形例に係る物体検出装置は、単体特徴を学習した識別器を用い、候補位置ごとの密度に応じて識別器を切り替えることによって上記トレードオフを解消し、精度の高い物体検出を可能とする。 In addition, the object detection apparatus according to the third embodiment and the modification thereof uses a discriminator that has learned a single feature, and eliminates the trade-off by switching the discriminator according to the density for each candidate position, Enables highly accurate object detection.
またそのうちの第四の実施形態およびその変形例に係る物体検出装置は、単体特徴を部分ごとに学習した識別器および識別器による部分ごとの部分評価値を総和する際の重み係数を用い、候補位置ごとの密度に応じて重み係数を切り替えることによって上記トレードオフを解消し、精度の高い物体検出を可能とする。 In addition, the object detection device according to the fourth embodiment and the modification thereof includes a classifier that learns a single feature for each part, and uses a weighting factor for summing the partial evaluation values for each part by the classifier. By switching the weighting coefficient according to the density for each position, the trade-off is eliminated, and highly accurate object detection is possible.
1 画像監視装置、2 撮影部、3 通信部、4 記憶部、5 画像処理部、6 表示部、30 画像取得手段、31 物体位置出力手段、40 密度推定器記憶手段、41 単体特徴記憶手段、410a,410b 物体モデル記憶手段、411c,411d 単体識別器記憶手段、412a,412b,412d 重み係数記憶手段、50 密度推定手段、51 物体位置判定手段、510a,510b 配置生成手段、511c,511d 候補位置設定手段、512a,512b モデル画像生成手段、514a,514b,514c,514d 評価値算出手段、516a,516b 最適配置決定手段、517c,517d 位置決定手段
DESCRIPTION OF
Claims (8)
所定の密度ごとに当該密度にて前記物体が存在する空間を撮影した密度画像それぞれの画像特徴を学習した密度推定器を用いて、前記撮影画像に撮影された前記物体の前記密度の分布を推定する密度推定手段と、
前記撮影画像内に個々の前記物体が存在し得る候補位置を設定して当該候補位置の前記撮影画像に単独の前記物体の画像特徴が現れている度合いを表す評価値を算出し、前記評価値が所定値以上である候補位置を前記物体の位置と判定する物体位置判定手段と、
を備え、
前記物体位置判定手段は、前記候補位置における前記密度に応じ、単独の前記物体を構成する部分のうちの重視する部分を変更して前記評価値を算出することを特徴とした物体検出装置。 An object detection device for detecting individual objects from a captured image in which a space in which congestion due to a predetermined object may occur is captured,
Estimate the distribution of the density of the object imaged in the captured image using a density estimator that learns the image characteristics of each density image captured in the space where the object exists at the density for each predetermined density Density estimation means to perform,
A candidate position where each of the objects can exist in the photographed image is set, and an evaluation value representing a degree of appearance of an image feature of the single object in the photographed image at the candidate position is calculated, and the evaluation value Object position determination means for determining a candidate position whose value is equal to or greater than a predetermined value as the position of the object;
With
The object position determination means calculates the evaluation value by changing a portion to be emphasized among portions constituting a single object according to the density at the candidate position.
それぞれが1以上の前記候補位置を含む互いに異なる複数通りの配置を生成する配置生成手段と、
前記複数通りの配置それぞれについて、前記各候補位置に、当該候補位置における前記密度が高いほど、単独の前記物体を構成する部分のうちの少ない部分を模した物体モデルを描画してモデル画像を生成するモデル画像生成手段と、
前記複数通りの配置それぞれについて、前記モデル画像の前記撮影画像に対する類似の度合いを表す前記評価値を算出する評価値算出手段と、
前記評価値が最大の配置における前記候補位置を前記物体の位置と決定する最適配置決定手段と、
を含む請求項3に記載の物体位置検出装置。 The object position determination means includes
Arrangement generation means for generating a plurality of different arrangements each including one or more candidate positions;
For each of the plurality of arrangements, a model image is generated by drawing an object model simulating a smaller part of the parts constituting the single object as the density at the candidate position is higher at each candidate position. Model image generation means for
Evaluation value calculating means for calculating the evaluation value representing the degree of similarity of the model image to the captured image for each of the plurality of arrangements;
An optimum arrangement determining means for determining the candidate position in the arrangement having the maximum evaluation value as the position of the object;
The object position detection apparatus according to claim 3, comprising:
それぞれが1以上の前記候補位置を含む互いに異なる複数通りの配置を生成する配置生成手段と、
前記複数通りの配置それぞれについて、前記各候補位置に単独の前記物体を模した物体モデルを描画してモデル画像を生成するモデル画像生成手段と、
前記複数通りの配置の前記モデル画像それぞれについて、前記物体を構成する部分ごとに前記物体モデルの前記撮影画像に対する類似の度合いを表す前記部分評価値を求め、前記候補位置における前記密度が高いほど少ない部分に偏重させた重み付けを行って前記部分評価値を総和することにより前記評価値を算出する評価値算出手段と、
前記評価値が最大の配置における前記候補位置を前記物体の位置と決定する最適配置決定手段と、
を含む請求項4に記載の物体位置検出装置。 The object position determination means includes
Arrangement generation means for generating a plurality of different arrangements each including one or more candidate positions;
For each of the plurality of arrangements, model image generating means for generating a model image by drawing an object model imitating the single object at each candidate position;
For each of the model images in the plurality of arrangements, the partial evaluation value representing the degree of similarity of the object model with respect to the photographed image is obtained for each portion constituting the object, and the smaller the density at the candidate positions, the smaller An evaluation value calculating means for calculating the evaluation value by performing weighting with partial weighting and summing the partial evaluation values;
An optimum arrangement determining means for determining the candidate position in the arrangement having the maximum evaluation value as the position of the object;
The object position detecting device according to claim 4 including:
前記撮影画像内に複数の前記候補位置を設定する候補位置設定手段と、
前記候補位置それぞれについて、当該候補位置の前記密度が高いほど単独の前記物体を構成する部分のうちの少ない部分の画像特徴を学習した識別器に、当該候補位置の前記撮影画像の画像特徴を入力して前記評価値を算出する評価値算出手段と、
予め定めた基準を満たす前記評価値が算出された前記候補位置を前記物体の位置と決定する位置決定手段と、
を含む請求項3に記載の物体位置検出装置。 The object position determination means includes
Candidate position setting means for setting a plurality of candidate positions in the captured image;
For each of the candidate positions, the image feature of the photographed image at the candidate position is input to the discriminator that has learned the image feature of the smaller part of the parts constituting the single object as the density of the candidate position is higher. Evaluation value calculating means for calculating the evaluation value,
Position determining means for determining, as the position of the object, the candidate position from which the evaluation value that satisfies a predetermined criterion is calculated;
The object position detection apparatus according to claim 3, comprising:
前記撮影画像内に複数の前記候補位置を設定する候補位置設定手段と、
前記候補位置それぞれについて、単独の前記物体を構成する複数の部分の画像特徴を学習した識別器に当該候補位置の前記撮影画像の画像特徴を入力して前記複数の部分の部分評価値を求め、前記候補位置における前記密度が高いほど少ない部分に偏重させた重み付けを行って前記部分評価値を総和することにより前記評価値を算出する評価値算出手段と、
予め定めた基準を満たす前記評価値が算出された前記候補位置を前記物体の位置と決定する位置決定手段と、
を含む請求項4に記載の物体位置検出装置。
The object position determination means includes
Candidate position setting means for setting a plurality of candidate positions in the captured image;
For each of the candidate positions, an image feature of the captured image at the candidate position is input to a discriminator that has learned the image features of a plurality of parts constituting the single object, and partial evaluation values of the plurality of parts are obtained. An evaluation value calculating means for calculating the evaluation value by performing weighting that is biased toward a smaller portion as the density at the candidate position is higher, and summing the partial evaluation values;
Position determining means for determining, as the position of the object, the candidate position from which the evaluation value that satisfies a predetermined criterion is calculated;
The object position detecting device according to claim 4 including:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017063887A JP6893812B2 (en) | 2017-03-28 | 2017-03-28 | Object detector |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017063887A JP6893812B2 (en) | 2017-03-28 | 2017-03-28 | Object detector |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018165966A true JP2018165966A (en) | 2018-10-25 |
JP6893812B2 JP6893812B2 (en) | 2021-06-23 |
Family
ID=63922950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017063887A Active JP6893812B2 (en) | 2017-03-28 | 2017-03-28 | Object detector |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6893812B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022013853A (en) * | 2020-06-30 | 2022-01-18 | シック アイヴィピー エービー | Generation of second object model based on first object model for use in object matching |
WO2022091588A1 (en) * | 2020-10-29 | 2022-05-05 | オムロン株式会社 | Learning method, learned model, detection system, detection method, and program |
JP7512844B2 (en) | 2020-10-29 | 2024-07-09 | オムロン株式会社 | Learning method, trained model, detection system, detection method, and program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011053959A (en) * | 2009-09-02 | 2011-03-17 | Canon Inc | Image processing apparatus, subject discrimination method, program, and storage medium |
JP2014021602A (en) * | 2012-07-13 | 2014-02-03 | Canon Inc | Image processor and image processing method |
-
2017
- 2017-03-28 JP JP2017063887A patent/JP6893812B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011053959A (en) * | 2009-09-02 | 2011-03-17 | Canon Inc | Image processing apparatus, subject discrimination method, program, and storage medium |
JP2014021602A (en) * | 2012-07-13 | 2014-02-03 | Canon Inc | Image processor and image processing method |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022013853A (en) * | 2020-06-30 | 2022-01-18 | シック アイヴィピー エービー | Generation of second object model based on first object model for use in object matching |
JP7201751B2 (en) | 2020-06-30 | 2023-01-10 | シック アイヴィピー エービー | Generating a second object model based on the first object model for use in object matching |
US11928184B2 (en) | 2020-06-30 | 2024-03-12 | Sick Ivp Ab | Generation of a second object model based on a first object model for use in object matching |
WO2022091588A1 (en) * | 2020-10-29 | 2022-05-05 | オムロン株式会社 | Learning method, learned model, detection system, detection method, and program |
JP7512844B2 (en) | 2020-10-29 | 2024-07-09 | オムロン株式会社 | Learning method, trained model, detection system, detection method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP6893812B2 (en) | 2021-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101964397B1 (en) | Information processing apparatus and information processing method | |
CN105740780B (en) | Method and device for detecting living human face | |
CN104573614B (en) | Apparatus and method for tracking human face | |
US20220383653A1 (en) | Image processing apparatus, image processing method, and non-transitory computer readable medium storing image processing program | |
JP2017016593A (en) | Image processing apparatus, image processing method, and program | |
JP7292492B2 (en) | Object tracking method and device, storage medium and computer program | |
JP6624877B2 (en) | Information processing apparatus, information processing method and program | |
CN110674680B (en) | Living body identification method, living body identification device and storage medium | |
US20220366570A1 (en) | Object tracking device and object tracking method | |
WO2009039350A1 (en) | System and method for estimating characteristics of persons or things | |
JP2018120283A (en) | Information processing device, information processing method and program | |
US20170053172A1 (en) | Image processing apparatus, and image processing method | |
JP7005213B2 (en) | Image analyzer | |
Loutas et al. | Probabilistic multiple face detection and tracking using entropy measures | |
US20220366716A1 (en) | Person state detection apparatus, person state detection method, and non-transitory computer readable medium storing program | |
JP6893812B2 (en) | Object detector | |
JP6851246B2 (en) | Object detector | |
JP2021149687A (en) | Device, method and program for object recognition | |
KR100543706B1 (en) | Vision-based humanbeing detection method and apparatus | |
US20220395193A1 (en) | Height estimation apparatus, height estimation method, and non-transitory computer readable medium storing program | |
CN111695404A (en) | Pedestrian falling detection method and device, electronic equipment and storage medium | |
JP6920949B2 (en) | Object distribution estimator | |
JP7099809B2 (en) | Image monitoring system | |
WO2021084687A1 (en) | Image processing device, image processing method, and non-transitory computer readable medium whereon image processing program is stored | |
JP6920944B2 (en) | Object detector |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210414 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210525 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210602 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6893812 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |