JP6266461B2 - Object detection device - Google Patents
Object detection device Download PDFInfo
- Publication number
- JP6266461B2 JP6266461B2 JP2014155853A JP2014155853A JP6266461B2 JP 6266461 B2 JP6266461 B2 JP 6266461B2 JP 2014155853 A JP2014155853 A JP 2014155853A JP 2014155853 A JP2014155853 A JP 2014155853A JP 6266461 B2 JP6266461 B2 JP 6266461B2
- Authority
- JP
- Japan
- Prior art keywords
- candidate
- area
- threshold
- value
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 26
- 238000000605 extraction Methods 0.000 claims description 48
- 238000004364 calculation method Methods 0.000 claims description 45
- 239000000284 extract Substances 0.000 claims description 3
- 238000012217 deletion Methods 0.000 description 17
- 230000037430 deletion Effects 0.000 description 17
- 238000000034 method Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 14
- 241000282414 Homo sapiens Species 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Studio Devices (AREA)
- Image Analysis (AREA)
Description
本発明は入力画像から所定の対象を検出する対象検出装置に関する。 The present invention relates to an object detection device that detects a predetermined object from an input image.
監視カメラなどで撮影した入力画像から人などの対象物の像を検出するために識別器等による探索処理が行われる。この探索処理では、入力画像内の各位置に窓領域を設定し、窓領域における画像を識別器等に入力する。そして、識別器等から出力されるスコアが閾値を超える窓領域を対象物の候補領域として抽出する。ここで真の対象物の周辺にも候補領域が抽出される傾向があるため、重複を有する候補領域をグループ化し、グループごとにスコアが最大の候補領域を対象物の領域として選別する。 Search processing by a classifier or the like is performed in order to detect an image of an object such as a person from an input image taken by a surveillance camera or the like. In this search process, a window area is set at each position in the input image, and an image in the window area is input to a discriminator or the like. Then, a window region whose score output from the discriminator or the like exceeds a threshold is extracted as a candidate region for the target object. Here, since there is a tendency that candidate areas are also extracted around the true object, the candidate areas having overlap are grouped, and the candidate area having the maximum score for each group is selected as the object area.
従来、この候補領域の抽出に用いるスコアの閾値として、どの入力画像に対しても予め定めた共通の値が用いられていた。 Conventionally, a predetermined common value has been used for any input image as a threshold value of a score used for extraction of candidate areas.
しかしながら、スコアは入力画像の撮影環境(背景の複雑さ、照明状態、解像度など)によって変動する傾向があるにもかかわらず、どの入力画像に対しても共通の閾値を用いていたため、入力画像の撮影環境によっては背景の一部を誤抽出した候補領域が頻出する場合があり、対象物の検出精度を低下させる原因となっていた。 However, although the score tends to vary depending on the shooting environment of the input image (background complexity, lighting conditions, resolution, etc.), a common threshold is used for all input images. Depending on the shooting environment, a candidate area in which a part of the background is erroneously extracted frequently appears, which causes a decrease in detection accuracy of the target object.
具体的には、入力画像の撮影環境によっては背景しか写っていない候補領域だけからなるグループが生じ最終的に背景を対象物の領域としてしまうことや、複数の対象物の間に背景を誤抽出した候補領域がまたがってしまい、複数の対象物が一つの対象物として検出されてしまったりすることが多くなり、検出精度が低下する。 Specifically, depending on the shooting environment of the input image, a group consisting of only candidate areas with only the background appearing, and eventually the background becomes the object area, or the background is erroneously extracted between multiple objects. As a result, the number of target objects is often detected as a single target object, and the detection accuracy is reduced.
しかし、候補領域の誤抽出が生じやすい撮影環境に合わせて予め閾値を厳しくすると別の撮影環境で対象物の検出し損ねが増加する。 However, if the threshold value is tightened in advance in accordance with a shooting environment in which a candidate region is likely to be erroneously extracted, the failure to detect an object in another shooting environment increases.
この問題を図8、図9に示す例を用いて説明する。図8は比較的単純な環境で撮影された画像900の模式図であり、図9は複雑な環境で撮影された画像910の模式図である。それぞれの画像内の矩形は候補領域を示している。図8(a)、図9(a)は比較的低い閾値で候補領域を抽出した場合である。図8(a)の画像900には左側の小さな(遠くの)人物像の辺り、中央の机・椅子の辺り、及び右側の大きな(近くの)人物像の辺りにそれぞれ候補領域901a,901b,901cが抽出されている。図9(a)の画像910には画像900と同様、左側の小さな人物像の辺り、中央の机・椅子の辺り、及び右側の大きな人物像の辺りにそれぞれ候補領域911a,911b,911cが抽出されている。ここで、候補領域901b,911bはそれぞれ背景である椅子の辺りを人として誤抽出したものである。また、複雑な環境の画像910の左右の人物像は背景を構成する机等により一部の隠蔽を生じており、その分、スコアは低くなる。
This problem will be described with reference to examples shown in FIGS. FIG. 8 is a schematic diagram of an
この例において、誤抽出された候補領域901b,911bを削除するために候補領域の抽出閾値を高くすることが考えられる。図8(b)、図9(b)は、図8(a)、図9(a)よりも高い共通の閾値を設定して候補領域を抽出した様子を示している。誤抽出の候補領域は基本的にスコアが低いので、閾値を上げることで誤抽出の候補領域901b,911bを削除することが可能である。これにより図8(b)に示す画像900では人物像を含む候補領域901a,901cが残る。一方、図9(b)に示す画像910では、人物に対応した候補領域のうち隠蔽の度合いが大きい候補領域911aも削除され、人物の検出漏れが起こることになる。
In this example, it is conceivable to increase the extraction threshold value of the candidate region in order to delete the erroneously extracted
このように、共通の閾値を用い、様々な環境で撮影した入力画像から精度よく対象物を検出することは困難であった。 As described above, it has been difficult to accurately detect an object from input images taken in various environments using a common threshold.
本発明は上記問題を鑑みてなされたものであり、候補領域に誤抽出が混在していると、抽出された候補領域のスコアがばらつくことを見出し、この知見に基づいて様々な環境で撮影した入力画像から精度よく対象を検出可能な対象検出装置を提供することを目的とする。 The present invention has been made in view of the above-mentioned problems, and found that if there are misextractions in candidate areas, the score of the extracted candidate areas varies, and images were taken in various environments based on this knowledge. An object of the present invention is to provide an object detection device capable of detecting an object from an input image with high accuracy.
本発明に係る対象検出装置は、入力画像において所定の対象が現れている対象領域を検出するものであって、前記入力画像内に設定される注目領域に前記対象が存在する尤もらしさを表す指標値を前記入力画像内の各所にて抽出される特徴量を用いて算出するための指標値算出関数を予め記憶している記憶部と、前記入力画像内の複数の位置に前記注目領域を設定し、当該注目領域における前記指標値を前記指標値算出関数により算出する指標値算出部と、前記注目領域のうち前記指標値が予め定められた第一閾値を超えるものを対象候補領域として抽出する候補領域抽出部と、前記候補領域抽出部により抽出された前記対象候補領域を用いて前記対象領域を決定する対象領域決定部と、を備え、前記候補領域抽出部は、前記注目領域ごとの前記指標値のうち前記第一閾値を超えるもののばらつき度合いが予め定められた誤抽出推定閾値以上である場合に、前記第一閾値より大きな第二閾値を設定し、前記対象候補領域から前記指標値が前記第二閾値以下であるものを削除する。 An object detection apparatus according to the present invention detects an object region in which a predetermined object appears in an input image, and is an index representing the likelihood that the object exists in an attention region set in the input image A storage unit that stores in advance an index value calculation function for calculating a value using a feature amount extracted at various points in the input image, and sets the attention area at a plurality of positions in the input image Then, an index value calculation unit that calculates the index value in the attention area by the index value calculation function, and a target area that extracts the attention value that exceeds the predetermined first threshold among the attention areas A candidate region extraction unit; and a target region determination unit that determines the target region using the target candidate region extracted by the candidate region extraction unit, the candidate region extraction unit for each region of interest When the degree of variation of the index value exceeding the first threshold is equal to or greater than a predetermined erroneous extraction estimation threshold, a second threshold larger than the first threshold is set, and the index value is determined from the target candidate area. That are less than or equal to the second threshold are deleted.
他の本発明に係る対象検出装置においては、前記候補領域抽出部は、前記第二閾値として、前記指標値のうち前記第一閾値を超えるものの代表値より小さい値であって、前記第一閾値との差が前記代表値に応じて大きくなる値を設定する。 In another object detection apparatus according to the present invention, the candidate region extraction unit is a value smaller than a representative value of the index value that exceeds the first threshold value as the second threshold value, and the first threshold value Is set to a value that increases the difference with the representative value.
さらに他の本発明に係る対象検出装置においては、前記候補領域抽出部は、前記第一閾値に前記ばらつき度合いに応じた値を加算して前記第二閾値を設定する。 In still another object detection apparatus according to the present invention, the candidate area extraction unit sets the second threshold value by adding a value corresponding to the variation degree to the first threshold value.
別の本発明に係る対象検出装置においては、前記候補領域抽出部は、前記指標値の前記ばらつき度合いが前記誤抽出推定閾値より低く予め設定される抽出漏れ推定閾値以下である場合に、前記第一閾値を予め定められた量だけ低下させ、前記対象候補領域を再抽出する。 In the target detection device according to another aspect of the present invention, the candidate area extraction unit may perform the first step when the variation degree of the index value is lower than the erroneous extraction estimation threshold and is equal to or less than a preset extraction omission estimation threshold. One threshold is decreased by a predetermined amount, and the target candidate region is re-extracted.
本発明によれば、候補領域の抽出閾値を入力画像ごとに適応的に設定することが可能となるため、様々な環境で撮影した入力画像から精度よく対象を検出できる。 According to the present invention, it is possible to adaptively set the extraction threshold value of the candidate area for each input image, so that the target can be detected with high accuracy from the input images taken in various environments.
以下、本発明の実施の形態(以下実施形態という)について、図面に基づいて説明する。本実施形態に係る対象検出装置は、画像中に映った人物を検出の対象とする人物検出装置1である。 Hereinafter, embodiments of the present invention (hereinafter referred to as embodiments) will be described with reference to the drawings. The target detection apparatus according to the present embodiment is a person detection apparatus 1 that targets a person shown in an image as a detection target.
[構成例]
図1は、実施形態に係る人物検出装置1の概略のブロック構成図である。人物検出装置1は、画像入力部2、制御部3、記憶部4及び出力部5を含んで構成される。画像入力部2、記憶部4及び出力部5は制御部3と接続される。
[Configuration example]
FIG. 1 is a schematic block diagram of a person detection device 1 according to the embodiment. The person detection device 1 includes an image input unit 2, a control unit 3, a storage unit 4, and an output unit 5. The image input unit 2, the storage unit 4, and the output unit 5 are connected to the control unit 3.
画像入力部2は例えば、監視カメラなどの撮像装置、又は映像を記録したデジタルビデオレコーダーなどの記録装置であり、画像を制御部3へ出力する。以下、画像入力部2から制御部3に入力される画像を入力画像と称する。後述するように制御部3は各入力画像にて対象を検出する処理を行う。よって、画像入力部2から制御部3へ複数フレームの画像を順次入力する必要はない。また、画像を順次入力する場合でも、入力画像は固定した場所に設置したカメラで撮影された画像である必要はなく、移動体に取り付けられたカメラなどで撮影した画像でも良い。さらに、入力画像はPTZカメラのようにパン、チルト、ズームが可能なカメラによって撮影された画像でも良い。 The image input unit 2 is, for example, an imaging device such as a surveillance camera or a recording device such as a digital video recorder that records video, and outputs an image to the control unit 3. Hereinafter, an image input from the image input unit 2 to the control unit 3 is referred to as an input image. As will be described later, the control unit 3 performs processing for detecting a target in each input image. Therefore, it is not necessary to sequentially input images of a plurality of frames from the image input unit 2 to the control unit 3. Even when images are sequentially input, the input image does not need to be an image captured by a camera installed in a fixed place, and may be an image captured by a camera attached to a moving body. Further, the input image may be an image taken by a camera capable of panning, tilting, and zooming, such as a PTZ camera.
制御部3はCPU(Central Processing Unit)、DSP(Digital Signal Processor)等の演算装置を用いて構成される。制御部3は、画像入力部2からの入力画像を処理して人の存在有無を判定し、その判定結果等を出力部5へ出力する処理を行う。そのために、制御部3は、記憶部4からプログラムを読み出して実行し、画像縮小部30、特徴量算出部31、スコア算出部32、候補領域削除部33、領域グループ生成部34及び対象物領域算出部35として機能する。
The control unit 3 is configured using an arithmetic device such as a CPU (Central Processing Unit) or a DSP (Digital Signal Processor). The control unit 3 processes the input image from the image input unit 2 to determine the presence / absence of a person and outputs the determination result to the output unit 5. For this purpose, the control unit 3 reads out and executes a program from the storage unit 4, and executes an
画像縮小部30は、入力画像に撮像されている人物のサイズが様々であることに対応して、予め設定された複数段階の倍率で入力画像を縮小する。これにより画像内にて人物を検出するために設定する窓領域の大きさは変えずに、様々なサイズの人物の像を検出することが可能となる。例えば、画像縮小部30は入力画像を予め定めた最小幅または高さになるまで決まった間隔で順次縮小し、縮小画像を生成する。縮小倍率は、例えば縦横のサイズが半分になるまでの間に10段階に設定される。例えば、図2(a)に示す画像100が原サイズの入力画像であり、図2(b),(c)に示す画像110,120は画像100を縮小した入力画像の例である。
The
特徴量算出部31は、原サイズの入力画像及び縮小した入力画像のそれぞれを予め定めたブロックサイズに区切り、各ブロックの画像について特徴量を計算する。特徴量として、ヒストグラム・オブ・オリエンティッド・グラディエント(Histograms of Oriented Gradients:HOG)特徴量、局所二値パターン(Local Binary Pattern:LBP)特徴量、Haar-like特徴量などの従来知られた特徴量を単独で、又は複数を組み合わせて用いることができる。
The feature
スコア算出部32は、原サイズの入力画像及び縮小した入力画像内の各位置に人物を検出するための枠として、予め定めた人の大きさの窓領域(注目領域)を設定し、当該窓領域に対象が存在する尤もらしさを表す多値の指標値であるスコアを、入力画像から得られたを予め学習した指標値算出関数により算出する指標値算出部である。例えば、スコア算出部32は、各窓領域内の特徴量を指標値算出関数に入力して当該窓領域に対するスコアを算出する、または、人物の腕部等が窓領域からはみ出す姿勢変動を考慮して窓領域周辺の所定範囲を含む窓領域の内外の特徴量を指標値算出関数に入力して当該窓領域に対するスコアを算出する。
The
なお、図2では画像100,110,120に設定される矩形の窓領域101の例を点線で示している。スコア算出部32は窓領域101を少しずつずらしながら繰り返し設定し、画像全体を走査する。例えば、窓領域101の走査は画像の左上から水平方向の走査が開始される。水平方向の走査は垂直方向の位置を少しずつずらしつつ繰り返される。
In FIG. 2, an example of the
指標値算出関数は本実施形態では、検出対象である「人」と「人」以外とを識別する識別器である。識別器は「人」が映っている多数の画像と、「人」が映っていない多数の画像とを用いて予め学習され、後述する識別器格納部40に格納されている。スコア算出部32は識別器に窓領域の位置に応じて特徴量を与えることでスコアを算出する。
In this embodiment, the index value calculation function is a discriminator that discriminates between “persons” to be detected and those other than “persons”. The discriminator is learned in advance using a large number of images in which “people” are reflected and a large number of images in which “people” are not reflected, and is stored in a
スコア算出部32は後述する候補領域削除部33と共に、入力画像内にて人物が存在する候補領域(対象候補領域)を求める候補領域抽出部としての機能も有する。具体的には、スコア算出部32は、スコアが予め定めた第一閾値T1を超える窓領域の矩形情報(入力画像における位置、幅、高さ及びスコア)を候補領域として、後述する候補領域格納部41に格納する。
The
候補領域削除部33は、候補領域格納部41に格納されている候補領域の情報に基づいて、スコアに関する閾値として第一閾値T1より大きな第二閾値T2を設定し、当該第二閾値T2によって候補領域を削除し絞り込む。
The candidate
候補領域のスコアは背景の複雑さ、照明状態、解像度など撮影環境によって変動する傾向があり、この変動により誤抽出が増大する場合がある。そして、誤抽出が多い場合とそうでない場合とでスコアのばらつきに有意な差が生じる傾向がある。そこで、候補領域削除部33は、入力画像ごとに得られる候補領域のスコアの分布に応じて動的にスコアの第二閾値T2を設定する。
The score of the candidate area tends to vary depending on the shooting environment such as background complexity, illumination state, and resolution, and this variation may increase false extraction. Then, there is a tendency that a significant difference occurs in the variation in scores between the case where there are many erroneous extractions and the case where there are not many erroneous extractions. Therefore, the candidate
ここで環境の違いによって候補領域のスコアの分布がどのように異なるかを図3を用いて説明する。図3は候補領域のスコアを横軸、その頻度を縦軸にしてプロットした模式的なグラフである。図3(a)は単純な背景に人物がいる入力画像における候補領域のスコアの分布であり、一方、図3(b),(c)は複雑な背景に人物がいる入力画像における候補領域のスコアの分布である。例えば、図3(b)は人物に一部隠蔽が起こっているような場合であり、図3(c)は複雑な背景内に人物に似た特徴を有する領域が存在するような場合である。 Here, how the score distribution of the candidate area differs depending on the environment will be described with reference to FIG. FIG. 3 is a schematic graph plotted with the score of the candidate region on the horizontal axis and the frequency on the vertical axis. FIG. 3 (a) shows the distribution of the scores of candidate areas in an input image with a person on a simple background, while FIGS. 3 (b) and 3 (c) show the candidate areas in an input image with a person on a complex background. The distribution of scores. For example, FIG. 3B shows a case where a part of the person is concealed, and FIG. 3C shows a case where an area having characteristics similar to the person exists in a complicated background. .
単純な背景ではスコアの頻度分布が高いところに集中する(図3(a)の山300a)。一方、複雑な背景で背景を人物として誤抽出しているような状態(図3(c))では、図3(a)の山300aよりスコアが低い側に分布がばらつき、例えば、図3(a)の山300aに対応する山300cよりスコアが低い位置に頻度が低い山301cが現れたりすることが実験的に確かめられた。
In a simple background, the score is concentrated at a high frequency distribution (
つまり、撮影環境によって誤抽出が多くなるとスコアの分布に大きなばらつきが生じる。そこで、候補領域削除部33は、候補領域のスコアの分布から誤抽出が多く含まれているかどうかを判定し、その上で第一閾値T1よりも高い第二閾値T2を用いて誤抽出した候補領域の削除を図る。
That is, if the number of erroneous extractions increases depending on the shooting environment, the score distribution varies greatly. Therefore, the candidate
そのために候補領域削除部33は、スコア算出部32により候補領域格納部41に格納された候補領域、つまりスコアが第一閾値T1を超える窓領域についてのスコアの分布のばらつき度合いを算出し、算出したばらつき度合いを誤抽出推定閾値と比較する。候補領域削除部33は、ばらつき度合いが誤抽出推定閾値以上である場合は誤抽出が多く含まれているとして、スコアについての第二閾値T2を設定し、スコアが第二閾値T2以下である候補領域を候補領域格納部41から削除する。一方、ばらつき度合いが誤抽出推定閾値未満である場合は当該削除を行わない。
The candidate
候補領域削除部33はばらつき度合いとして例えば、分散値σ2を算出する。例えば、分散値に対する誤抽出推定閾値VHは0.04とすることができる。
The candidate
ここで、複雑な背景で人物の一部に隠蔽が起こっているような状態では当該人物についてスコアが低下し図3(b)の301bのように低い山が生じ得る。そのため誤抽出が多くなくともばらつき度合いが誤抽出推定閾値以上となることがあり、低い山301bを誤って削除しないよう第二閾値T2を制御するのが望ましい。ここで、スコアが低下した人物の山301bはスコアの分布のピークの近傍に現れ、スコアの分布のピークはスコアの分布の平均値で近似できる。すなわち、分散σ2が大きいとき、候補領域に含まれる誤抽出のものの数が比較的多くなるとは言え、候補領域は少なくとも第一閾値T1を超えるスコアを有するものであり、正しく抽出された候補領域が支配的である。よって、全候補領域のスコア平均値m1は正しく抽出された候補領域のスコアが形成している頻度分布の山(図3の山300)のピーク付近を示す。そこで、候補領域削除部33はスコアの分布の平均値m1に応じた第二閾値T2を設定する。例えば、予め設定した係数κ0を用いてT2=κ0m1と設定できる。κ0は0より大きく1未満の値であり、例えば0.4とすることができる。
Here, in a state where a part of the person is concealed in a complicated background, the score of the person is lowered, and a low mountain can be generated as indicated by 301b in FIG. 3B. Therefore even no more erroneous extraction may equal to or greater than the extraction estimated threshold erroneous degree of variation, to control the second threshold value T 2 so that accidental deletion
さらに、平均値m1に応じた第二閾値T2を第一閾値T1の値を基準とした設定とすることもできる。具体的には候補領域削除部33は、窓領域ごとに算出されるスコアのうち第一閾値T1を超えるものの平均値m1より小さい値であって、第一閾値T1との差が平均値m1に応じて大きくなる値を第二閾値T2に設定する。例えば、候補領域のうちスコアが下位ξ%であるもののスコア平均値をm2とする。誤抽出が多い撮影環境である場合は、候補領域のスコアのばらつきが大きくなり、m2が低くなる。そこで、撮影環境によって変動するm1とm2の差を用いた次式でT2を定めることができる。
T2=T1+κ1(m1−m2) ……(1)
Furthermore, the second threshold value T 2 corresponding to the average value m 1 can be set based on the value of the first threshold value T 1 . Candidate
T 2 = T 1 + κ 1 (m 1 −m 2 ) (1)
κ1は正の係数であり、例えば2/3とすることができる。なお、係数κは、事前の実験を通じて、少なくともT2が真の人物領域を含んだ領域グループの最高スコアを削除してしまわない程度の低さに設定すればよい。また例えばξ=10(%)とすることができる。(1)式によれば、誤抽出が多い撮影環境である場合は、第二閾値T2が高めに設定され、背景を誤検出した候補領域が削除されやすくなる。一方、誤抽出が少ない撮影環境である場合は、第二閾値T2が低めに設定され、人物領域の検出し損ねを抑えつつ背景を誤抽出した候補領域の削除を図ることができる。 κ 1 is a positive coefficient and can be set to 2/3, for example. Incidentally, the coefficient kappa, through preliminary experiments, at least T 2 may be set to a low enough to not to delete the highest score of the region group including the true person area. For example, ξ = 10 (%) can be set. (1) According to the equation, when it is erroneously extracted is large shooting environment, the second threshold value T 2 is set high, the detected candidate region erroneous background is easily removed. On the other hand, if extraction errors is less shooting environment, it is possible to the second threshold value T 2 is set low, promote the removal of erroneously extracted candidate region background while suppressing the detected impair the person area.
または、候補領域削除部33は第一閾値T1にばらつき度合いに応じた値を加算して第二閾値T2を設定することもできる。この場合、例えば、候補領域削除部33は分散値σ2を用いた次式でT2を定める。
T2=T1+κ1・SQRT(σ2) ……(2)
Or, the candidate
T 2 = T 1 + κ 1 · SQRT (σ 2 ) (2)
ただし、SQRT()は平方根を表す。また、κ2は正の係数であり、実験を通じて少なくともT2が真の人物領域を含んだ領域グループの最高スコアを削除してしまわない程度の低さに設定すればよい。 However, SQRT () represents a square root. Further, κ 2 is a positive coefficient, and it may be set to a low value that does not delete the highest score of the region group including at least T 2 that is a true human region through experiments.
スコアのばらつき度合いとしては上述した候補領域のスコアの分散に代えて、当該スコアの標準偏差や、当該スコアの最大値と最小値との差などを用いることもできる。また上述した平均値m1,m2の代わりに他の代表値である中央値または最頻値を用いることもできる。 As the degree of score variation, the standard deviation of the score, the difference between the maximum value and the minimum value of the score, or the like can be used instead of the distribution of the score of the candidate area described above. Further, instead of the average values m 1 and m 2 described above, a median value or a mode value which is another representative value can be used.
領域グループ生成部34及び対象物領域算出部35は、候補領域削除部33により残された候補領域の中から人物領域(対象領域)を決定する対象領域決定部を構成する。
The region
領域グループ生成部34は、候補領域格納部41に格納されている候補領域について、同一人物に起因するものをグループ化する処理を行う。具体的には、領域グループ生成部34は、所定以上の重複を有する候補領域同士に同じラベルを割り当てることによって領域グループの情報を生成する。領域グループ生成部34で定義された各候補領域のラベル情報は、矩形情報及びスコアと共に候補領域格納部41に格納される。
The area
対象物領域算出部35は候補領域格納部41に格納されている候補領域から最終的な人物領域を求める。対象物領域算出部35は、領域グループ生成部34で算出されたグループごとに一つの人物領域を定め、当該人物領域の領域情報をスコアと共に対象物領域格納部42に格納する。例えば、対象物領域算出部35は、最終的な人物領域として、各領域グループの中でスコアが最大になる候補領域を一つ選択する。或いは、対象物領域算出部35は、領域グループごとに当該領域グループを構成する候補領域を平均して最終的な人物領域を算出する。
The object
制御部3は,入力画像から最終的な人物領域が一つでも検出された場合は、その情報を出力部5に出力する。 When at least one final person area is detected from the input image, the control unit 3 outputs the information to the output unit 5.
記憶部4はROM(Read Only Memory)、RAM(Random Access Memory)、ハードディスク等の記憶装置であり、制御部3で使用されるプログラムやデータを記憶する。記憶部4はこれらプログラム、データを制御部3との間で入出力する。記憶部4は識別器格納部40、候補領域格納部41及び対象物領域格納部42としての機能を有する。
The storage unit 4 is a storage device such as a ROM (Read Only Memory), a RAM (Random Access Memory), and a hard disk, and stores programs and data used by the control unit 3. The storage unit 4 inputs and outputs these programs and data to and from the control unit 3. The storage unit 4 has functions as a
識別器格納部40は、入力画像内に設定される窓領域に対象が存在する尤もらしさを表すスコアを、入力画像内の各ブロックにて抽出される特徴量を用いて算出するための指標値算出関数、及び第一閾値T1を予め記憶している。指標値算出関数は既に述べたように識別器であり、具体的には予め収集した人の学習用画像と人以外の学習用画像にサポートベクターマシーン(Support Vector Machine:SVM)を適用して求めた識別器のパラメータが識別器格納部40に格納される。学習アルゴリズムとして線形SVMを用いた場合、識別器のパラメータは学習用画像から生成した重みベクトルである。この重みベクトルは、特徴量の各要素に対する重みである。重みベクトルは、当該重みベクトルと学習用画像から抽出された特徴量との内積が0より大きい場合は人、0以下の場合は人以外と識別されるように学習において調整され、入力画像の特徴量と重みベクトルとの内積の値がスコアを表す。よって、人と人以外のスコアを識別する閾値は原理上は0であり、通常、第一閾値T1は0に設定することができる。ただし、人を人以外であると識別する誤りを減じるために、第一閾値T1を0よりも小さな値に設定してもよい。
The
識別器の学習アルゴリズムにはSVMの他、アダブースト(AdaBoost)法など、従来知られた各種のものを用いることができる。 As the learning algorithm of the discriminator, various conventionally known ones such as the AdaBoost method can be used in addition to the SVM.
また、識別器の代わりにパターンマッチング器を用いることもでき、その場合、スコアは人の学習用画像から抽出した特徴量の平均パターンと入力画像の特徴量との距離の逆数などとなり、指標値算出関数は当該スコアを出力値とし入力画像の特徴量を入力値とする関数とすることができる。 In addition, a pattern matching device can be used instead of the discriminator. In this case, the score is the reciprocal of the distance between the average pattern of feature values extracted from the human learning image and the feature value of the input image, and the index value. The calculation function can be a function having the score as an output value and the feature quantity of the input image as an input value.
候補領域格納部41は、スコア算出部32により得られた人物の候補領域の情報、及び領域グループ生成部34により得られた領域グループを示すラベル情報を格納する。なお、候補領域の情報は上述したように窓領域の位置・寸法、及びスコアである。例えば、入力画像における窓領域の位置として窓領域をなす矩形の左上の座標が格納される。
The candidate
対象物領域格納部42は、対象物領域算出部35により最終的に人物がいると判定された人物領域の情報を格納する。人物領域の情報は、候補領域の情報と同様、入力画像における人物領域の矩形情報(矩形の左上の座標、及び寸法)とスコアである。
The object
出力部5は対象物領域算出部35の結果を受けて、ディスプレイなどの外部表示装置に入力画像を表示したり、異常信号をセンタ装置へ送出したりする。
The output unit 5 receives the result of the object
[動作例]
次に人物検出装置1の動作を説明する。図4は人物検出装置1の概略の動作を示すフロー図である。制御部3は画像入力部2から画像を入力されると(ステップS10)、画像縮小部30により、入力画像を複数の倍率それぞれで縮小して縮小画像を作成する(ステップS20)。例えば、図2に示したように、入力画像100から縮小画像110,120が生成される。
[Example of operation]
Next, the operation of the person detection device 1 will be described. FIG. 4 is a flowchart showing a schematic operation of the person detection apparatus 1. When an image is input from the image input unit 2 (step S10), the control unit 3 creates a reduced image by reducing the input image at a plurality of magnifications by the image reduction unit 30 (step S20). For example, as illustrated in FIG. 2, reduced
特徴量算出部31は入力画像及び複数の縮小画像それぞれについて、画像内の各所における特徴量を計算する(ステップS30)。
The feature
スコア算出部32は、特徴量算出部31で計算された特徴量と識別器格納部40に格納されている識別器とにより画像内の各所に設定する窓領域に対応したスコアを算出し、設定した窓領域の中からスコアが第一閾値T1を超えるものを人物の候補領域として候補領域格納部41に格納する(ステップS40)。
The
図2では、窓領域101を点線の矩形で示し、候補領域の例を窓領域に応じた大きさの実線の矩形で示している。画像100では左側の小さな(遠くの)人物像の辺りに候補領域102a,102bが抽出されている。また、画像110では中央の机・椅子の辺りに候補領域112が検出され、画像120では右側の大きな(近くの)人物像の辺りに候補領域122a,122bが抽出されている。なお、図2に示すように、人物などの1つの像に対し、重複した複数の候補領域が抽出され得る。
In FIG. 2, the
図5はスコア算出部32により抽出された候補領域に対する後続処理を説明する模式的な画像である。なお、図5の画像は図2に示したものと同じ内容が映っており、図5(a)の画像130は、画像100,110,120の候補領域を1つの画像上にまとめて表示したものである。画像130は入力画像100と等倍のサイズであり、画像100の候補領域102a,102bはそのままの倍率で画像130上の候補領域131a,131bとなる。一方、縮小画像における候補領域112,122a,122bそれぞれは入力画像100の倍率に正規化された候補領域132,133a,133bとなる。
FIG. 5 is a schematic image for explaining the subsequent processing for the candidate area extracted by the
候補領域削除部33は、候補領域格納部41に格納されているスコアから、候補領域を削除する処理を行うか否かの判定を行い、削除処理を行う場合は第二閾値T2を設定し、T2以下の候補領域を候補領域格納部41から削除する(ステップS50)。
Candidate
図6は候補領域削除部33の概略の処理フロー図である。図6を用いて候補領域削除部33の動作について説明する。候補領域削除部33は、候補領域格納部41に格納されている候補領域のスコアについてそのばらつき度合いとして分散値σ2を算出する(ステップS501)。分散値σ2が予め定めた抽出漏れ推定閾値vLより大きければ(ステップS502にて「NO」の場合)、候補領域削除部33はさらに分散値σ2を予め定めた誤抽出推定閾値vHと比較する(ステップS503)。
FIG. 6 is a schematic process flow diagram of the candidate
分散値σ2が誤抽出推定閾値vH 以上である場合は(ステップS503にて「YES」の場合)、第一閾値T1より大きな第二閾値T2を設定する(ステップS504)。 If the variance value σ 2 is greater than or equal to the erroneous extraction estimation threshold v H (“YES” in step S503), a second threshold T 2 greater than the first threshold T 1 is set (step S504).
一方、分散値σ2が誤抽出推定閾値VH未満の場合(ステップS503にて「NO」の場合)は、第二閾値T2を設定することなく候補領域削除部33による処理を終了し、図4のステップS60に進む。すなわち、この場合は、制御部3は候補領域の削除を行わない。
On the other hand, when the variance value σ 2 is less than the erroneous extraction estimation threshold value V H (in the case of “NO” in step S503), the process by the candidate
分散値σ2がVH以上である場合には上述のように第二閾値T2が設定され、候補領域削除部33はこのT2を用いて候補領域を削除する処理S505〜S508を行う。この処理は候補領域格納部41に格納されている全候補領域を一つずつ処理対象として繰り返されるループ処理として行われる。具体的には、ループ処理が未処理である候補領域を選択し(ステップS505)、処理対象として選択された候補領域のスコアが第二閾値T2以下か否かを判定し(ステップS506)、第二閾値T2以下の場合は(ステップS506にて「YES」の場合)、当該候補領域を候補領域格納部41から削除する(ステップS507)。スコアが第二閾値T2より大きい場合は(ステップS506にて「NO」の場合)、当該候補領域は削除せず、次の候補領域の判定を行う(ステップS507からS505に戻る)。全ての候補領域について処理が完了した場合、つまりステップS505で未処理の候補領域が存在せず選択できなかった場合(ステップS508にて「NO」の場合)、図4のステップS60に進む。
If the variance value σ 2 is equal to or higher than V H , the second threshold value T 2 is set as described above, and the candidate
さて、分散値σ2が抽出漏れ推定閾値vL以下の場合は(ステップS502にて「YES」の場合)、候補領域削除部33は第一閾値T1を下方修正する。具体的には、候補領域削除部33は第一閾値T1を予め定められた量だけ低下させる。そして、制御部3はステップS40から処理をやり直す。つまり、スコア算出部32が下方修正された第一閾値T1を用いてステップS40の処理を行い、候補領域を抽出し直し候補領域格納部41に格納し、候補領域削除部33は再抽出された候補領域について上述したステップS50の処理を行う。
Now, ( "YES" in step S502) if the variance value sigma 2 is the following extraction failure estimated threshold v L, the candidate
抽出漏れ推定閾値vLは、人物像に想定されるスコアのばらつき、つまり本実施形態では分散値に基づいて設定される。つまり、図3(a)に示す分布のように、隠蔽などを生じていない人物像を窓領域で走査して得られるスコアは、誤抽出などがなくても本来的に或る程度のばらつきを有する。抽出漏れ推定閾値vLには、候補領域のスコアの分布がそのような本来的な最低限のばらつき度合い未満の値が実験に基づき予め設定される。具体的には、第一閾値T1が図7のように人物像に起因するスコアの分布の山300の位置に設定された場合に、当該山300の第一閾値T1以下の部分は候補領域として抽出されなり、当該山の第一閾値T1を超える部分のばらつき度合いは山全体のばらつき度合いよりも小さくなる。第一閾値T1の下方修正はこのように不適切な位置に設定されたT1を修正し、山300の全体を抽出できるようにする。
The extraction omission estimation threshold v L is set based on the variation of the score assumed for the human image, that is, the variance value in the present embodiment. That is, as shown in the distribution shown in FIG. 3A, the score obtained by scanning a human image in which no concealment or the like is generated in the window region inherently varies to some extent without erroneous extraction. Have. As the extraction omission estimation threshold v L , a value that is less than the original minimum variation degree of the score distribution of the candidate region is set in advance based on experiments. Specifically, if the first threshold value T 1 is set to the position of the
なお、第一閾値T1を超えるスコアが、人物像に起因する山300の存在を推定可能な数以上ない場合は、ステップS502の判定及びステップS510の第一閾値T1の下方修正は省略するのが好適である。例えば、第一閾値T1を超えるスコアが数個であるような場合には省略される。図3には示していないが、スコアが低い領域には背景に起因する分布の山が存在する。この背景の山を超えたスコア範囲の分布が少ない場合には、第一閾値T1の設定が適切であってもそれを超えるスコアが少なく分散が小さくなり得る。このような場合に、T1を下方修正していくと背景の山を含む位置にまでT1が低下することが起こり得る。よって、その恐れがある場合にはT1を下方修正は省略される。なお、その場合には基本的にステップS503〜S508の処理も省略され、処理はステップS60に進む。
Incidentally, if the score exceeds a first threshold value T 1 is not more than a few possible estimate the presence of a
図5(b)の画像140は画像130に対する候補領域削除部33の処理結果を示しており、背景に起因する候補領域132が削除されている。
An
上述した候補領域削除部33の処理が終わると、領域グループ生成部34は、候補領域格納部41に格納されている候補領域同士の重複度を算出し、候補領域相互の重複度が予め定められたグループ判定閾値以上である候補領域からなるグループ(領域グループ)を生成し、当該グループを示すラベル番号を候補領域の情報に追加し候補領域格納部41に格納する(図4のステップS60)。
When the processing of the candidate
重複度は、例えば、(入力画像中での候補領域Aと候補領域Bとの共通領域の面積) / (入力画像中での候補領域A及び候補領域Bの面積のうち小さい方)で計算される。また、
(入力画像中での候補領域Aと候補領域Bとの共通領域の面積) / (入力画像中での候補領域Aと候補領域Bとの和領域の面積)で重複度を計算することもできる。グループ判定閾値は例えば、0.5に設定することができる。
The degree of overlap is calculated by, for example, (the area of the common area between candidate area A and candidate area B in the input image) / (the smaller of the areas of candidate area A and candidate area B in the input image). The Also,
The degree of overlap can also be calculated by (area of common area between candidate area A and candidate area B in input image) / (area of sum area of candidate area A and candidate area B in input image). . The group determination threshold can be set to 0.5, for example.
なお、近接する複数の人物に係る候補領域が一つのグループとなることを回避するために、スコアが高い候補領域を優先してグループの核に設定し、当該候補領域及び当該候補領域との重複度がグループ判定閾値以上である他の候補領域をグループ化することが望ましい。 In addition, in order to avoid that candidate areas relating to a plurality of people in the vicinity are combined into one group, a candidate area having a high score is set as the core of the group with priority, and the candidate area and the candidate area overlap. It is desirable to group other candidate areas whose degrees are greater than or equal to the group determination threshold.
そのために例えば、領域グループ生成部34は、まず候補領域格納部41に格納されている候補領域をスコアの降順に並べて未割当リストを初期化し、未割当リスト先頭の候補領域をグループの核に設定する。次に領域グループ生成部34は、未割当リスト先頭の候補領域に対する未割当リストの2番目以降の候補領域それぞれの重複度を算出して、重複度がグループ判定閾値以上である候補領域と未割当リスト先頭の候補領域に同一のラベル番号を割り当てて候補領域格納部41に格納すると共に、これらの候補領域を未割当リストから削除する。以降、更新された未割当リスト先頭の候補領域を順次核に設定して、未割当リストから候補領域が無くなるまでラベル番号の割り当てを繰り返す。
For this purpose, for example, the area
上述した領域グループ生成部34の処理が終わると、対象物領域算出部35は最終的な人物領域を求めて対象物領域格納部42に格納する(図4のステップS70)。
When the processing of the area
図5(c)の画像150は画像140に対する対象物領域算出部35の処理結果を示しており、ラベル番号“0”のグループを構成する候補領域133a,133bのうちスコアが最大となる候補領域133aが人物領域として選択され、ラベル番号“1”のグループを構成する候補領域131a,131bのうちスコアが最大となる候補領域131aが人物領域として選択されている。
An
ステップS70にて人物領域の算出後、画像中に人物が一人でもいた場合(ステップS80にて「YES」の場合)、例えば、出力部5は検出された人物領域の情報と当該人物領域が検出された入力画像とを含めた異常信号をセンタ装置に送出する(ステップS90)。 If there is even one person in the image after calculating the person area in step S70 (in the case of “YES” in step S80), for example, the output unit 5 detects the information of the detected person area and the person area is detected. An abnormal signal including the input image thus transmitted is sent to the center device (step S90).
以上、実施形態を用いて説明した本発明では、入力画像ごとに候補領域のスコアから推定される環境に応じて候補領域を削除するスコアの第二閾値を設定することで、最終的な検出結果の精度を向上させることができる。 As described above, in the present invention described using the embodiment, the final detection result is obtained by setting the second threshold value of the score for deleting the candidate area according to the environment estimated from the score of the candidate area for each input image. Accuracy can be improved.
1 人物検出装置、2 画像入力部、3 制御部、4 記憶部、5 出力部、30 画像縮小部、31 特徴量算出部、32 スコア算出部、33 候補領域削除部、34 領域グループ生成部、35 対象物領域算出部、40 識別器格納部、41 候補領域格納部、42 対象物領域格納部。 DESCRIPTION OF SYMBOLS 1 Person detection apparatus, 2 Image input part, 3 Control part, 4 Storage part, 5 Output part, 30 Image reduction part, 31 Feature-value calculation part, 32 Score calculation part, 33 Candidate area deletion part, 34 Area group generation part, 35 object region calculation unit, 40 classifier storage unit, 41 candidate region storage unit, 42 object region storage unit.
Claims (4)
前記入力画像内に設定される注目領域に前記対象が存在する尤もらしさを表す指標値を前記入力画像内の各所にて抽出される特徴量を用いて算出するための指標値算出関数を予め記憶している記憶部と、
前記入力画像内の複数の位置に前記注目領域を設定し、当該注目領域における前記指標値を前記指標値算出関数により算出する指標値算出部と、
前記注目領域のうち前記指標値が予め定められた第一閾値を超えるものを対象候補領域として抽出する候補領域抽出部と、
前記候補領域抽出部により抽出された前記対象候補領域を用いて前記対象領域を決定する対象領域決定部と、
を備え、
前記候補領域抽出部は、前記注目領域ごとの前記指標値のうち前記第一閾値を超えるもののばらつき度合いが予め定められた誤抽出推定閾値以上である場合に、前記第一閾値より大きな第二閾値を設定し、前記対象候補領域から前記指標値が前記第二閾値以下であるものを削除すること、
を特徴とする対象検出装置。 A target detection device for detecting a target region where a predetermined target appears in an input image,
An index value calculation function for calculating an index value representing the likelihood that the target exists in a region of interest set in the input image using feature amounts extracted at various points in the input image is stored in advance. Storage unit
An index value calculation unit that sets the attention area at a plurality of positions in the input image and calculates the index value in the attention area by the index value calculation function;
A candidate area extraction unit that extracts, as a target candidate area, an area in which the index value exceeds a predetermined first threshold among the attention areas;
A target region determination unit that determines the target region using the target candidate region extracted by the candidate region extraction unit;
With
The candidate region extraction unit, when the degree of variation of the index value for each region of interest exceeding the first threshold is equal to or greater than a predetermined erroneous extraction estimation threshold, a second threshold greater than the first threshold And deleting the index value equal to or less than the second threshold value from the target candidate area,
An object detection device characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014155853A JP6266461B2 (en) | 2014-07-31 | 2014-07-31 | Object detection device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014155853A JP6266461B2 (en) | 2014-07-31 | 2014-07-31 | Object detection device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016033717A JP2016033717A (en) | 2016-03-10 |
JP6266461B2 true JP6266461B2 (en) | 2018-01-24 |
Family
ID=55452591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014155853A Active JP6266461B2 (en) | 2014-07-31 | 2014-07-31 | Object detection device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6266461B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102016207712A1 (en) | 2016-05-04 | 2017-11-09 | Robert Bosch Gmbh | Detection device, method for detecting an event and computer program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012084012A (en) * | 2010-10-13 | 2012-04-26 | Canon Inc | Image processing device, processing method therefor, and program |
-
2014
- 2014-07-31 JP JP2014155853A patent/JP6266461B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016033717A (en) | 2016-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9363499B2 (en) | Method, electronic device and medium for adjusting depth values | |
JP4855556B1 (en) | Moving object detection apparatus, moving object detection method, moving object detection program, moving object tracking apparatus, moving object tracking method, and moving object tracking program | |
RU2607774C2 (en) | Control method in image capture system, control apparatus and computer-readable storage medium | |
JP6024658B2 (en) | Object detection apparatus, object detection method, and program | |
JP2021182448A (en) | Information processing system, method for control, and program | |
US20160140399A1 (en) | Object detection apparatus and method therefor, and image recognition apparatus and method therefor | |
TWI701609B (en) | Method, system, and computer-readable recording medium for image object tracking | |
US10146992B2 (en) | Image processing apparatus, image processing method, and storage medium that recognize an image based on a designated object type | |
WO2020184207A1 (en) | Object tracking device and object tracking method | |
JP2011134114A (en) | Pattern recognition method and pattern recognition apparatus | |
US11049256B2 (en) | Image processing apparatus, image processing method, and storage medium | |
US10762372B2 (en) | Image processing apparatus and control method therefor | |
US11019251B2 (en) | Information processing apparatus, image capturing apparatus, information processing method, and recording medium storing program | |
JP6266468B2 (en) | Object detection device | |
US20190266392A1 (en) | Image processing apparatus, image processing method, and storage medium | |
KR101982258B1 (en) | Method for detecting object and object detecting apparatus | |
JP6266461B2 (en) | Object detection device | |
JP6348368B2 (en) | Object detection device | |
US11716448B2 (en) | Information processing apparatus, information processing method, and storage medium | |
JP6603123B2 (en) | Animal body detection apparatus, detection method, and program | |
US10372750B2 (en) | Information processing apparatus, method, program and storage medium | |
JP5470529B2 (en) | Motion detection device, motion detection method, and motion detection program | |
JP2017151536A (en) | Image processing apparatus, control program, and area specification method | |
JP2005071125A (en) | Object detector, object detection method, object data selection program and object position detection program | |
JP5873415B2 (en) | Foreground detection device, foreground detection method, and computer program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6266461 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |