JP2020149641A - Object tracking device and object tracking method - Google Patents
Object tracking device and object tracking method Download PDFInfo
- Publication number
- JP2020149641A JP2020149641A JP2019049168A JP2019049168A JP2020149641A JP 2020149641 A JP2020149641 A JP 2020149641A JP 2019049168 A JP2019049168 A JP 2019049168A JP 2019049168 A JP2019049168 A JP 2019049168A JP 2020149641 A JP2020149641 A JP 2020149641A
- Authority
- JP
- Japan
- Prior art keywords
- image
- feature amount
- frame image
- peak
- likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 76
- 239000000284 extract Substances 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 239000002131 composite material Substances 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 abstract description 10
- 230000008569 process Effects 0.000 description 46
- 238000001514 detection method Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 8
- 238000012937 correction Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 3
- 238000004378 air conditioning Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Images
Landscapes
- Closed-Circuit Television Systems (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、動画像中の物体を追跡する技術に関する。 The present invention relates to a technique for tracking an object in a moving image.
動画像(時系列画像)のあるフレームにおいて検出された物体を追跡する物体追跡は、コンピュータビジョン分野において重要な技術である。 Object tracking, which tracks an object detected in a frame with a moving image (time series image), is an important technique in the field of computer vision.
一般的なトラッキング手法である背景差分による手法は、追跡対象の動きが止まってしまった場合にはロストしてしまう。例えば追跡対象が人物である場合、この人物が椅子に座るとロストしてしまうため、オフィス内の監視に向かない。さらに、テンプレートマッチングでは、物体が変形しテンプレートとの差異が所定の閾値以上になると、ロストしてしまう。人物の場合、人物の動作によってテンプレートと比べて大きな変形が発生するため追跡に失敗する。 The background subtraction method, which is a general tracking method, is lost when the movement of the tracking target stops. For example, if the tracking target is a person, it will be lost if this person sits in a chair, so it is not suitable for monitoring in the office. Further, in template matching, when an object is deformed and the difference from the template exceeds a predetermined threshold value, the object is lost. In the case of a person, tracking fails because the movement of the person causes a large deformation compared to the template.
これに対して、非特許文献1は、輝度勾配(HOG特徴量)に基づく尤度と色特徴(色ヒストグラム)に基づく尤度とを合成した合成尤度に基づいて追跡対象の位置を判断する。このように形状と色に関わる特徴量を相補的に用いて追跡を行うことで、ロバストな追跡が可能である旨が報告されている。 On the other hand, in Non-Patent Document 1, the position of the tracking target is determined based on the composite likelihood obtained by combining the likelihood based on the luminance gradient (HOG feature amount) and the likelihood based on the color feature (color histogram). .. It has been reported that robust tracking is possible by performing tracking using features related to shape and color in a complementary manner.
また、特許文献1は、シーン変化を検出し、変化したシーンに対して最適な追跡性能を有する特徴量を選択して追跡を行うことを開示する。 Further, Patent Document 1 discloses that a scene change is detected, and a feature amount having an optimum tracking performance for the changed scene is selected and tracked.
ところで、ビルディングオートメーション(BA)やファクトリーオートメーション(FA)の分野において、画像センサにより人の「数」・「位置」・「動線」などを自動で計測し、照明や空調などの機器を最適制御するアプリケーションが必要とされている。このような用途では、できるだけ広い範囲の画像情報を取得するために、魚眼レンズ(フィッシュアイレンズ)を搭載した超広角のカメラ(魚眼カメラ、全方位カメラ、全天球カメラなどと呼ばれるが、いずれも意味は同じである。本明細書では「魚眼カメラ」の語を用いる)を利用することが多い。さらに、上記の用途では、できるだけ広い範囲の画像情報を取得するために、天井などの高所に取り付けたカメラをカメラの視点がトップ・ビューになるようにして配置する。この配置のカメラでは、人物を撮影する視点は、人物が画像の周辺にいるときには正面像になり、画像の中央にいるときには上面図となる。 By the way, in the fields of building automation (BA) and factory automation (FA), image sensors automatically measure the "number", "position", "flow line", etc. of people, and optimally control equipment such as lighting and air conditioning. Application is needed. In such applications, in order to acquire image information in the widest possible range, it is called an ultra-wide-angle camera (fisheye camera, omnidirectional camera, omnidirectional camera, etc.) equipped with a fisheye lens (fisheye lens). The meaning is the same. In this specification, the term "fisheye camera" is used). Further, in the above application, in order to acquire image information in as wide a range as possible, a camera mounted on a high place such as a ceiling is arranged so that the viewpoint of the camera is the top view. In the camera of this arrangement, the viewpoint for photographing the person is the front view when the person is around the image and the top view when the person is in the center of the image.
魚眼カメラで撮影された画像は、撮影面内の位置により撮影対象の見た目が歪みのため変形する。さらに、カメラの視点をトップ・ビューにすると、追跡対象の位置により見た目が変化する。また、組み込み機器など、処理能力の限られた環境ではフレームレートが低いことが考えられ、フレーム間での物体の移動量や特徴量の変化が大きいという特殊性がある。したがって、従来技術の追跡手法では、精度良く追跡できない場合がある。 The image taken by the fisheye camera is deformed due to the distortion of the appearance of the object to be photographed depending on the position in the photographing surface. Furthermore, when the viewpoint of the camera is set to the top view, the appearance changes depending on the position of the tracking target. Further, in an environment with limited processing capacity such as an embedded device, the frame rate is considered to be low, and there is a peculiarity that the amount of movement of an object and the amount of features change greatly between frames. Therefore, the conventional tracking method may not be able to track accurately.
本発明は上記実情に鑑みなされたものであって、従来よりも精度の良い物体追跡技術を提供することを目的とする。 The present invention has been made in view of the above circumstances, and an object of the present invention is to provide an object tracking technique with higher accuracy than before.
上記目的を達成するために本発明は、以下の構成を採用する。 In order to achieve the above object, the present invention adopts the following configuration.
本発明の第一側面は、第1フレーム画像における対象物の位置を取得する取得手段と、前記第1フレーム画像の後のフレーム画像である第2フレーム画像から、前記対象物の位置を求める追跡手段と、を備える、物体追跡装置であって、前記追跡手段は、前記第2フレーム画像の対象領域から特徴量を抽出する特徴量抽出手段と、前記第2フレーム画像の前記対象領域について、前記対象物が存在する確からしさを表す尤度のマップを前記特徴量に基づいて求める尤度算出手段と、前記尤度のマップにおいてピークが1つの場合には、当該ピークの位置を前記対象物の位置として特定し、前記尤度のマップにおいてピークが複数ある場合には、前記第1フレーム画像の前記対象物の位置の近傍の画像領域と前記第2フレーム画像の各ピークの近傍の画像領域との類似度を表す画像類似度を考慮して選択されるピークの位置を前記対象物の位置として特定する、位置決定手段と、を備える、ことを特徴とする物体追跡装置を提供する。 The first aspect of the present invention is a tracking for obtaining the position of an object from an acquisition means for acquiring the position of the object in the first frame image and a second frame image which is a frame image after the first frame image. An object tracking device including means, wherein the tracking means relates to a feature amount extracting means for extracting a feature amount from a target area of the second frame image and the target area of the second frame image. A likelihood calculation means for obtaining a likelihood map representing the certainty that an object exists based on the feature amount, and when there is one peak in the likelihood map, the position of the peak is determined by the object. When it is specified as a position and there are a plurality of peaks in the likelihood map, an image area near the position of the object in the first frame image and an image area near each peak in the second frame image. Provided is an object tracking device including a position determining means for specifying the position of a peak selected in consideration of the image similarity representing the similarity as the position of the object.
追跡の対象とする物体、すなわち「対象物」は、任意の物体であってよく、人体、顔、動物、車両などがその一例である。「対象領域」は第2フレーム画像における対象物の探索を行う領域であり、典型的には、第1フレーム画像における対象物の位置に基づいて決定される部分領域である。「画像類似度」は画像同士の類似度を表す指標であり、例えば、領域内の平均色や平均明度の差によって評価される。第1フレーム画像中の対象物の位置の近傍の画像領域と第2フレーム画像中のピークの位置の近傍の画像領域とは、同じ特徴量であることが好ましく、また、対象物(前景)の一部の領域であることが好ましく、特に、対象物(前景)の中心の一部の領域であることが好ましい。 The object to be tracked, that is, the "object" may be any object, and examples thereof include a human body, a face, an animal, and a vehicle. The "target area" is an area for searching for an object in the second frame image, and is typically a partial area determined based on the position of the object in the first frame image. The "image similarity" is an index showing the similarity between images, and is evaluated by, for example, the difference in average color and average brightness in a region. It is preferable that the image area near the position of the object in the first frame image and the image area near the position of the peak in the second frame image have the same feature amount, and the object (foreground) It is preferably a part of the area, and particularly preferably a part of the center of the object (foreground).
尤度算出部によって求められる尤度のマップは、対象物が存在する位置で最大値を取ることが期待されるが、対象物とは異なる物体の位置で最大値を取ることがある。したがって、単に尤度のマップにおける最大値の位置を追跡対象物の位置として決定すると、乗り移り(ドリフト)と呼ばれる追跡エラーが発生する。そこで、本発明では、尤度のマップにおいて複数のピーク(局所的ピーク)が存在する場合に、対象物の位置近傍の画像類似度を考慮してピークを選択し、選択されたピーク位置を対象物の位置として特定する。このように画像類似度を考慮してピークを選択することにより追跡精度が向上する。 The likelihood map obtained by the likelihood calculation unit is expected to take the maximum value at the position where the object exists, but may take the maximum value at the position of the object different from the object. Therefore, simply determining the position of the maximum value on the likelihood map as the position of the tracking object causes a tracking error called transfer (drift). Therefore, in the present invention, when a plurality of peaks (local peaks) exist in the likelihood map, the peaks are selected in consideration of the image similarity near the position of the object, and the selected peak positions are targeted. Identify as the location of an object. By selecting the peak in consideration of the image similarity in this way, the tracking accuracy is improved.
本発明の位置決定手段は、例えば、前記尤度のマップにおいてピークが複数ある場合には、尤度の値が閾値以上のピークのうち、前記画像類似度が最大であるピークの位置を前記対象物の位置として特定してもよい。この際、上記の閾値を画像類似度に応じてピークごとに決定してもよい。 For example, when there are a plurality of peaks in the likelihood map, the positioning means of the present invention targets the position of the peak having the maximum image similarity among the peaks having the likelihood value equal to or higher than the threshold value. It may be specified as the position of an object. At this time, the above threshold value may be determined for each peak according to the image similarity.
本発明の尤度算出手段による尤度のマップの求め方は特に限定されないが、例えば、形状に関する特徴量である第1特徴量と、色または輝度に関する特徴量である第2特徴量に着目して尤度のマップを求めてよい。形状に関する特徴量の例として、HOG特徴量、LBP特徴量、SHIFT特徴量、SURF特徴量の少なくともいずれかが挙げられる。色に関する特徴として、色ヒストグラム、輝度ヒストグラム、Color Names特徴量の少なく
とも何れかが挙げられる。本発明の尤度算出手段は、第1特徴量に基づく第1尤度と第2特徴量に基づく第2尤度とを求め、これらを合成した合成尤度のマップを生成してもよい
。
The method of obtaining the likelihood map by the likelihood calculation means of the present invention is not particularly limited, but for example, pay attention to the first feature amount which is a feature amount related to shape and the second feature amount which is a feature amount related to color or brightness. You may find a map of likelihood. Examples of the feature amount related to the shape include at least one of the HOG feature amount, the LBP feature amount, the SHIFT feature amount, and the SURF feature amount. Color features include at least one of color histograms, luminance histograms, and Color Names features. The likelihood calculation means of the present invention may obtain a first likelihood based on the first feature amount and a second likelihood based on the second feature amount, and generate a composite likelihood map by synthesizing these.
本発明においてピーク選択の際に考慮される画像類似度は、例えば、平均色、平均輝度、代表色の少なくともいずれかを含む画像情報の差、差の絶対値、差の二乗の少なくともいずれかに基づいて決定することができる。さらに、画像類似度は、HOGなどの形状に関する特徴量または色ヒストグラムなどの色に関する特徴量の少なくともいずれかの、ヒストグラムインタセクション、バタチャリヤ係数、Earth Mover’s Distanceの少なくともいずれかに基づいて決定することができる。加えて、テンプレートマッチングにより画像類似度を決定することができる。また、類似度ではなく、差の二乗和、差の絶対値和の少なくともいずれかに基づいて相違度を測定する方法を採用することができる。画像類似度は、2つの画像がどの程度類似しているかを把握可能な尺度であり、ヒストグラムインタセクションなどのように類似しているほど値が大きい指標でもよいし、差の絶対値などのように類似しているほど値が小さい指標でもよい。 In the present invention, the image similarity considered at the time of peak selection is, for example, at least one of the difference in image information including at least one of the average color, the average brightness, and the representative color, the absolute value of the difference, and the square of the difference. It can be decided based on. Further, the image similarity is determined based on at least one of the feature amount related to the shape such as HOG or the feature amount related to the color such as the color histogram, at least one of the histogram intersection, the butterfly coefficient, and the Earth Mover's Distance. be able to. In addition, image similarity can be determined by template matching. Further, a method of measuring the degree of difference based on at least one of the sum of squares of the differences and the sum of the absolute values of the differences can be adopted instead of the degree of similarity. Image similarity is a measure that allows you to grasp how similar two images are, and may be an index with a larger value as they are similar, such as a histogram intersection, or an absolute value of difference. The index may have a smaller value as it is similar to.
また、本発明において処理対象とされる画像は、魚眼カメラにより得られた魚眼画像であってよい。「魚眼カメラ」は、魚眼レンズを搭載したカメラであり、通常のカメラに比べて超広角での撮影が可能なカメラである。全方位カメラ、全天球カメラおよび魚眼カメラはいずれも超広角カメラの一種であり、いずれも意味は同じである。魚眼カメラは、検出対象エリアの上方から検出対象エリアを見下ろすように設置されていればよい。典型的には魚眼カメラの光軸が鉛直下向きとなるように設置されるが、魚眼カメラの光軸が鉛直方向に対して傾いていても構わない。魚眼画像はひずみが大きいため、特に低フレームレートの画像ではフレーム間での物体の特徴変化が大きく、背景へのドリフトが多発する。さらに、カメラの光軸を鉛直下向きとなるように設置すると、画像における対象物の位置により対象物を撮影する視点が変化するため、特に低フレームレートの画像では、物体が大きく変形し追跡の失敗が多発する。しかし、本発明によればそのような魚眼画像においても、カメラの光軸を鉛直下向きとなるように設置しても精度の良い追跡が可能である。もっとも、本発明が処理対象とする画像は、魚眼画像に限られず、通常の画像(歪みの少ない画像や高フレームレートの画像)であっても構わない。 Further, the image to be processed in the present invention may be a fisheye image obtained by a fisheye camera. A "fisheye camera" is a camera equipped with a fisheye lens, which is capable of shooting at an ultra-wide angle compared to a normal camera. Omnidirectional cameras, spherical cameras, and fisheye cameras are all types of ultra-wide-angle cameras, and they all have the same meaning. The fisheye camera may be installed so as to look down on the detection target area from above the detection target area. Typically, the optical axis of the fisheye camera is installed so as to face vertically downward, but the optical axis of the fisheye camera may be tilted with respect to the vertical direction. Since the fisheye image has a large distortion, the characteristic change of the object between frames is large especially in the image with a low frame rate, and the drift to the background occurs frequently. Furthermore, if the optical axis of the camera is installed so that it faces vertically downward, the viewpoint at which the object is photographed changes depending on the position of the object in the image. Therefore, especially in a low frame rate image, the object is greatly deformed and tracking fails. Occurs frequently. However, according to the present invention, even in such a fisheye image, accurate tracking is possible even if the optical axis of the camera is installed so as to face vertically downward. However, the image to be processed by the present invention is not limited to the fisheye image, and may be a normal image (an image with less distortion or an image with a high frame rate).
本発明の第二側面は、第1フレーム画像における対象物の位置を取得する取得ステップと、前記第1フレーム画像の後のフレーム画像である第2フレーム画像から、前記対象物の位置を求める追跡ステップと、を含む、物体追跡方法であって、前記追跡ステップは、前記第2フレーム画像の対象領域から特徴量を抽出する特徴量抽出ステップと、前記第2フレーム画像の前記対象領域について、前記対象物が存在する確からしさを表す尤度のマップを前記特徴量に基づいて求める尤度算出ステップと、前記尤度のマップにおいてピークが1つの場合には、当該ピークの位置を前記対象物の位置として特定し、前記尤度のマップにおいてピークが複数ある場合には、前記第1フレーム画像の前記対象物の位置の近傍の画像領域と前記第2フレーム画像の各ピークの近傍の画像領域との類似度を表す画像類似度を考慮して選択されるピークの位置を前記対象物の位置として特定する、位置決定ステップと、を含む、ことを特徴とする物体追跡方法を提供する。 The second aspect of the present invention is a tracking for obtaining the position of the object from the acquisition step of acquiring the position of the object in the first frame image and the second frame image which is a frame image after the first frame image. An object tracking method including a step, wherein the tracking step relates to a feature amount extraction step for extracting a feature amount from a target area of the second frame image and the target area of the second frame image. A likelihood calculation step for obtaining a likelihood map representing the certainty that an object exists based on the feature amount, and when there is one peak in the likelihood map, the position of the peak is determined by the object. When it is specified as a position and there are a plurality of peaks in the likelihood map, an image area near the position of the object in the first frame image and an image area near each peak in the second frame image. Provided is an object tracking method comprising a positioning step of identifying the position of a peak selected in consideration of the image similarity representing the similarity of the object as the position of the object.
本発明は、上記手段の少なくとも一部を有する物体追跡装置として捉えてもよいし、画像処理装置や監視システムとして捉えてもよい。また、本発明は、上記処理の少なくとも一部を含む物体追跡方法、画像処理方法、監視方法として捉えてもよい。また、本発明は、かかる方法を実現するためのプログラムやそのプログラムを非一時的に記録した記録媒体として捉えることもできる。なお、上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。 The present invention may be regarded as an object tracking device having at least a part of the above means, or may be regarded as an image processing device or a monitoring system. Further, the present invention may be regarded as an object tracking method, an image processing method, and a monitoring method including at least a part of the above processing. Further, the present invention can also be regarded as a program for realizing such a method and a recording medium in which the program is recorded non-temporarily. The present invention can be constructed by combining each of the above means and treatments with each other as much as possible.
本発明によれば、従来よりも精度の良い物体追跡が行える。 According to the present invention, object tracking can be performed with higher accuracy than before.
<適用例>
図1を参照して、本発明に係る物体追跡装置の適用例を説明する。人追跡装置1は、追跡対象エリア11の上方(例えば天井12など)に設置された魚眼カメラ10により得られた魚眼画像を解析して、追跡対象エリア11内に存在する人13を検出・追跡する装置である。この人追跡装置1は、例えば、オフィスや工場などにおいて、追跡対象エリア11を通行する人13の検出、認識、追跡などを行う。図1の例では、魚眼画像から検出された4つの人体それぞれの領域がバウンディングボックスで示されている。人追跡装置1の検出結果は、外部装置に出力され、例えば、人数のカウント、照明や空調など各種機器の制御、不審者の監視および動線分析などに利用される。
<Application example>
An application example of the object tracking device according to the present invention will be described with reference to FIG. The person tracking device 1 analyzes the fisheye image obtained by the
物体追跡は、前フレーム画像において特定された対象物の位置近傍の現フレームのターゲット領域(対象領域)を対象として、対象物と同様の特徴を有する領域の位置を特定することにより行われる。ここで、ターゲット領域内に対象物らしさを表す尤度のピークが複数現れる場合がある。人追跡装置1は、このような場合に、単に尤度が最も高いピークを対象物の位置として特定するのではなく、前フレーム画像の対象物の中心位置近傍での平均色と、現フレームのピーク位置近傍での平均色との差が最小となるピークを、対象物の位置として決定する。このように平均色を考慮してピークすなわち対象物位置を特定することで、背景へのドリフトを抑制でき、精度の良い追跡が可能となる。また、平均色の算出は演算負荷が比較的軽い処理であるため、高速な追跡が実現できる。 Object tracking is performed by specifying the position of an area having the same characteristics as the object, targeting the target area (target area) of the current frame near the position of the object specified in the previous frame image. Here, a plurality of likelihood peaks representing the object-likeness may appear in the target region. In such a case, the human tracking device 1 does not simply specify the peak with the highest likelihood as the position of the object, but the average color near the center position of the object in the previous frame image and the current frame. The peak that minimizes the difference from the average color in the vicinity of the peak position is determined as the position of the object. By specifying the peak, that is, the position of the object in consideration of the average color in this way, drift to the background can be suppressed, and accurate tracking becomes possible. Further, since the calculation of the average color is a process with a relatively light calculation load, high-speed tracking can be realized.
<監視システム>
図2を参照して、本発明の実施形態を説明する。図2は、本発明の実施形態に係る人追跡装置を適用した監視システムの構成を示すブロック図である。監視システム2は、魚眼カメラ10と人追跡装置1とを備えている。
<Monitoring system>
An embodiment of the present invention will be described with reference to FIG. FIG. 2 is a block diagram showing a configuration of a monitoring system to which the person tracking device according to the embodiment of the present invention is applied. The
魚眼カメラ10は、魚眼レンズを含む光学系と撮像素子(CCDやCMOSなどのイメージセンサ)を有する撮像装置である。魚眼カメラ10は、例えば図1に示すように、追跡対象エリア11の天井12などに、光軸を鉛直下向きにした状態で設置され、追跡対象エリア11の全方位(360度)の画像を撮影するとよい。魚眼カメラ10は人追跡装置1に対し有線(USBケーブル、LANケーブルなど)または無線(WiFiなど)で接続され、魚眼カメラ10で撮影された画像データは人追跡装置1に取り込まれる。画像データはモノクロ画像、カラー画像のいずれでもよく、また画像データの解像度やフレームレートやフォーマットは任意である。本実施形態では、10fps(1秒あたり10枚)で取り込まれるカラー(RGB)画像を用いることを想定している。
The
本実施形態の人追跡装置1は、画像入力部20、人体検出部21、学習部22、記憶部
23、追跡部24、出力部28を有している。
The person tracking device 1 of the present embodiment includes an
画像入力部20は、魚眼カメラ10から画像データを取り込む機能を有する。取り込まれた画像データは人体検出部21および追跡部24に引き渡される。この画像データは記憶部23に格納されてもよい。
The
人体検出部21は、人体を検出するアルゴリズムを用いて、魚眼画像から人体を検出する機能を有する。人体検出部21によって検出された人体が、追跡部24による追跡処理の対象となる。なお、人体検出部21は、画像内に新たに現れた人物のみを検出してもよく、追跡対象の人物が存在している位置の近くは検出処理の対象から除外してもよい。さらに、一定の時間間隔またはフレーム間隔により、画像全体に人体検出部21による人物の検出を行い、その後、追跡部24による追跡処理をするTracking−by−detection方式にしてもよい。
The human
学習部22は、人体検出部21が検出した、あるいは追跡部24が特定した人体の画像から、追跡対象の人体の特徴を学習して学習結果を記憶部23に記憶する。ここでは、学習部22は、形状特徴に基づく評価を行うための相関フィルタと、色特徴に基づく評価を行うための色ヒストグラムと、中心位置での平均色とを求める。学習部22は、毎フレーム学習を行い、現フレームから得られる学習結果を所定の係数で過去の学習結果に反映させて更新する。
The
記憶部23は、学習部22によって学習された学習結果を記憶する。記憶部23は、また、利用する特徴量、各特徴量のパラメータ、学習係数、合成の際の重み係数、ピーク選択における閾値の初期値など、学習処理および追跡処理のハイパーパラメータも記憶する。
The
追跡部24は、追跡対象の人物の現フレーム画像中での位置を特定する。追跡部24は、最初は人体検出部21による検出位置を含む領域をターゲット領域として、そのターゲット領域内から検出された人物と同様の特徴を有する物体位置を特定する。それ以降は、前フレーム画像について追跡部24が特定した位置の付近をターゲット領域として、現フレーム画像中から追跡対象の人物の位置を特定する。
The
特徴量抽出部25は、ターゲット領域から物体の形状に関する特徴量と色に関する特徴量を抽出する。特徴量抽出部25は、形状に関する特徴としてHOG特徴量を抽出し、色に関する特徴量として色ヒストグラムを抽出する。
The feature
尤度のマップ生成部26は、抽出された特徴量と、記憶部23に記憶されている相関フィルタおよび色ヒストグラムを用いて、ターゲット領域の各位置について追跡対象物が存在する確からしさを表す尤度のマップを生成する。尤度のマップ生成部26は、形状特徴と相関フィルタに基づく尤度と、色特徴と色ヒストグラムに基づく尤度とを合成した合成尤度のマップを生成する。なお、尤度のマップは応答マップとも称される。
The
位置特定部27は、合成尤度のマップに基づいて、現フレーム画像における追跡対象物の位置を特定する。具体的には、位置特定部27は、合成尤度のマップにおけるピークが一つの場合にはその位置を追跡対象物の位置として特定する。一方、位置特定部27は、ピークが複数ある場合には、前フレーム画像における対象物の中心位置近傍の平均色と、現フレーム画像におけるピーク位置中心近傍の平均色との差が最小のピークの位置を、追跡対象物の位置として特定する。平均色の差が最小であるというのは、言い換えると、平均色に基づく画像類似度が最大ということである。
The
出力部28は、魚眼画像や検出結果・追跡結果などの情報を外部装置に出力する機能を有する。例えば、出力部28は、外部装置としてのディスプレイに情報を表示してもよいし、外部装置としてのコンピュータに情報を転送してもよいし、外部装置としての照明装置や空調やFA装置に対し情報や制御信号を送信してもよい。
The
人追跡装置1は、例えば、CPU(プロセッサ)、メモリ、ストレージなどを備えるコンピュータにより構成することができる。その場合、図2に示す構成は、ストレージに格納されたプログラムをメモリにロードし、CPUが当該プログラムを実行することによって実現されるものである。かかるコンピュータは、パーソナルコンピュータ、サーバコンピュータ、タブレット端末、スマートフォンのような汎用的なコンピュータでもよいし、オンボードコンピュータのように組み込み型のコンピュータでもよい。あるいは、図2に示す構成の全部または一部を、ASICやFPGAなどで構成してもよい。あるいは、図2に示す構成の全部または一部を、クラウドコンピューティングや分散コンピューティングにより実現してもよい。 The person tracking device 1 can be configured by, for example, a computer including a CPU (processor), a memory, a storage, and the like. In that case, the configuration shown in FIG. 2 is realized by loading the program stored in the storage into the memory and executing the program by the CPU. Such a computer may be a general-purpose computer such as a personal computer, a server computer, a tablet terminal, or a smartphone, or an embedded computer such as an onboard computer. Alternatively, all or part of the configuration shown in FIG. 2 may be configured by ASIC, FPGA, or the like. Alternatively, all or part of the configuration shown in FIG. 2 may be realized by cloud computing or distributed computing.
<全体処理>
図3は、監視システム2による人追跡処理の全体フローチャートである。図3に沿って人追跡処理の全体的な流れを説明する。
<Overall processing>
FIG. 3 is an overall flowchart of the person tracking process by the
まず、ステップS101において、ユーザが人追跡装置1に対して学習および追跡のハイパーパラメータの設定を行う。ハイパーパラメータの例として、利用する特徴量、各特徴量のパラメータ、学習係数、合成の際の重み係数、ピーク選択における閾値の初期値などが挙げられる。入力されたハイパーパラメータは記憶部23に記憶される。
First, in step S101, the user sets the learning and tracking hyperparameters for the person tracking device 1. Examples of hyperparameters include features to be used, parameters of each feature, learning coefficient, weighting coefficient at the time of synthesis, initial value of threshold value in peak selection, and the like. The input hyperparameters are stored in the
次に、ステップS102において、人追跡装置1は、ターゲット領域を取得する。ターゲット領域は、追跡対象の人物が存在する領域とその周辺をあわせた領域であり、追跡対象の人物が存在する可能性が高い領域である。ターゲット領域は、追跡部24によって処理対象とされる領域ともいえる。本実施形態では、追跡対象人物の初期位置は人体検出部21によって検出される。ただし、追跡対象人物の初期位置は、例えば、ユーザによって入力されるなどしてもよい。
Next, in step S102, the person tracking device 1 acquires the target area. The target area is an area that includes the area in which the person to be tracked exists and its surroundings, and is an area in which the person to be tracked is likely to exist. It can be said that the target area is an area to be processed by the
以下、ステップS104からS107の処理が繰り返し実施される。ステップS103の終了判定において終了条件を満たしたら処理を終了する。終了条件は、例えば、追跡対象人物の喪失(フレームアウト)や動画の終了とすることができる。 Hereinafter, the processes of steps S104 to S107 are repeatedly performed. When the end condition is satisfied in the end determination in step S103, the process ends. The end condition can be, for example, the loss of the tracked person (frame out) or the end of the moving image.
ステップS104において、画像入力部20が魚眼カメラ10から1フレームの魚眼画像を入力する。この際、魚眼画像の歪みを補正した平面展開画像を作成して以降の処理を行ってもよいが、本実施形態の監視システム2では、魚眼画像をそのまま(歪んだまま)検出や追跡の処理に用いる。
In step S104, the
ステップS105では、現在のフレームが最初の画像であるか否かが判定される。ここで、最初の画像とは、追跡対象人物の初期位置が与えられたフレーム画像のことであり、典型的には人体検出部21によって追跡対象人物が検出されたフレーム画像のことである。
In step S105, it is determined whether or not the current frame is the first image. Here, the first image is a frame image in which the initial position of the tracking target person is given, and is typically a frame image in which the tracking target person is detected by the human
現在のフレームが最初の画像よりも後のフレームの画像である場合には、ステップS106に進み、追跡部24が追跡処理を実行する。追跡処理の詳細は後述する。
If the current frame is an image of a frame after the first image, the process proceeds to step S106, and the
ステップS107では、現在のフレーム画像において対象人物が存在する領域に基づいて、学習部22が学習処理を実行する。学習処理の詳細は後述する。
In step S107, the
このように、追跡処理S106による追跡対象人物の位置特定が毎フレーム行われて、追跡が実現される。また、本実施形態の追跡手法は、追跡対象人物の特徴を毎フレーム学習する逐次学習型の追跡アルゴリズムを採用している。 In this way, the position of the person to be tracked by the tracking process S106 is specified every frame, and the tracking is realized. Further, the tracking method of the present embodiment employs a sequential learning type tracking algorithm that learns the characteristics of the person to be tracked every frame.
<学習処理>
図4は、ステップS107の学習処理の詳細を示すフローチャートである。また、図7は学習処理および学習結果を用いた追跡処理を説明する図である。以下、図4および図7を参照して学習処理について説明する。
<Learning process>
FIG. 4 is a flowchart showing the details of the learning process in step S107. Further, FIG. 7 is a diagram illustrating a learning process and a tracking process using the learning result. Hereinafter, the learning process will be described with reference to FIGS. 4 and 7.
学習部22は、まず、現フレーム画像からターゲット領域74を切り出す(S201)。図7に示すように、ターゲット領域74は、人物の前景領域72および背景領域73を含む領域である。前景領域72は追跡対象人物が存在する領域であり、背景領域は追跡対象人物が存在しない領域である。背景領域73の大きさは、前景領域72の大きさに応じて決定されている。例えば、前景領域72のサイズがターゲット領域74の全体サイズの所定の比率(例えば1/3)となるように、背景領域73のサイズが決定されている。なお、ターゲット領域は中心が追跡対象人物の位置となるように追跡処理の最後に更新されている(図5のステップS308)ので、ターゲット領域74の中心は追跡対象人物の中心位置と等しい。
First, the
学習部22は、ターゲット領域74の中心位置71近傍の平均色を抽出して、記憶部23に記憶する(S202)。ここで、中心位置71近傍とは、中心位置71を含む前景領域72よりも小さい領域であり、典型的には中心位置71を中心とする矩形領域である。この近傍領域のサイズは、固定サイズ(例えば3×3)としてもよいし、前景領域72のサイズに応じたサイズ(例えば半分のサイズ)としてもよい。
The
学習部22はまた、ターゲット領域74内のHOG特徴量を取得する(S203)。HOG特徴量は、局所領域の輝度勾配方向をヒストグラム化した特徴量であり、物体の形状・輪郭を表す特徴量と捉えられる。ここでは、HOG特徴量を採用しているが、物体の形状・輪郭を表す他の特徴量、例えば、LBP特徴量、SHIFT特徴量、SURF特徴量を採用してもよい。
The
学習部22は、応答がターゲット中心にピークを持つような相関フィルタ76を求める(S204)。具体的には、HOG特徴量を抽出した後に、その特徴量自身の相関に対して、中心のみにピークを持つ理想の応答に最も近づくようなフィルタを求めることで、相関フィルタ76が得られる。相関フィルタの計算をフーリエ空間で行う場合には、特徴量に窓関数を乗じてもよい。HOG特徴量は次フレームの追跡処理で相関フィルタをかける際に使用するため、記憶部23に記憶する。
The
学習部22はまた、ターゲット領域74内の色ヒストグラム77を取得する(S205)。具体的には、前景領域72と背景領域73のそれぞれの色ヒストグラムを取得する。色ヒストグラムは色を表す特徴量であり、色を表すその他の特徴量としてColor Names (CN)特徴量を採用できる。また、色の特徴量ではなく、輝度の特徴を表す特徴量として輝度ヒストグラムを採用してもよい。
The
今回の学習が最初の学習であれば(S206−YES)、ステップS203,S205で生成した相関フィルタおよび色ヒストグラムをそのまま記憶部23に記憶する。一方、今回の学習が2回目以降の学習であれば(S206−NO)、処理はステップS207に進む。
If this learning is the first learning (S206-YES), the correlation filter and the color histogram generated in steps S203 and S205 are stored in the
学習部22は、ステップS207において、前回求めた相関フィルタ(記憶部23に記憶されている相関フィルタ)と今回ステップS204で求めた相関フィルタを合成することで新たな相関フィルタを求め、記憶部23に記憶する。また、学習部22は、ステップS208において、前回求めた色ヒストグラム(記憶部23に記憶されている色ヒストグラム)と、今回ステップS205で求めた色ヒストグラムを合成することで新たな色ヒストグラムを求め、記憶部23に記憶する。合成の際の重み(学習係数)は適宜決定すればよい。
In step S207, the
<追跡処理>
図5は、ステップS106の追跡処理の詳細を示すフローチャートである。また、図7は学習処理および学習結果を用いた追跡処理を説明する図である。以下、図5および図7を参照して追跡処理について説明する。
<Tracking process>
FIG. 5 is a flowchart showing the details of the tracking process in step S106. Further, FIG. 7 is a diagram illustrating a learning process and a tracking process using the learning result. Hereinafter, the tracking process will be described with reference to FIGS. 5 and 7.
追跡部24は、現フレーム画像からターゲット領域75を切り出す(S301)。なお、ターゲット領域は中心が追跡対象人物の位置となるように前回の追跡処理の最後に更新されている(図5のステップS308)ので、ターゲット領域74の中心は追跡対象人物の中心位置と等しい。図7において、追跡部24の処理対象がT+1フレーム目の画像である場合、Tフレーム目において特定された追跡対象人物の位置を中心とするターゲット領域74に対応するターゲット領域75が切り出される。
The
特徴量抽出部25は、ターゲット領域75内の各セルからHOG特徴量を抽出する(S302)。尤度のマップ生成部26は、ターゲット領域75内のHOG特徴量と記憶部23に記憶されているHOG特徴量の相関に対して相関フィルタ76をかけて尤度のマップ78(応答マップ)を求める(S303)。図8Aのグラフ81および図8Bのグラフ84がHOG特徴量に基づく尤度のマップ78の例である。なお、尤度のマップ81は、ターゲット領域75内のそれぞれの位置についての追跡対象人物である確からしさ(尤度)を表すマップである。
The feature
尤度のマップ生成部26は、ターゲット領域75内の各画素の色と記憶部23に記憶されている色ヒストグラム77とから、ターゲット領域75内の各セルが追跡対象人物(前景)である確からしさ(尤度)を表す尤度のマップ79(応答マップ)を生成する。より具体的には、尤度のマップ生成部26は、記憶部23に記憶されている色ヒストグラム77と、着目画素の色に基づいて、着目画素の前景尤度を求める。そして、各セル内に含まれる画素の前景尤度の平均を取ることで、当該セルが追跡対象の人物である尤度が求められる。図8Aのグラフ82および図8Bのグラフ85が色ヒストグラムに基づく尤度のマップ78の例である。
From the color of each pixel in the target area 75 and the
尤度のマップ生成部26は、上記のようにして求めた相関フィルタ76に基づく尤度のマップ78と色ヒストグラム77に基づく尤度のマップ79を合成して合成尤度のマップ80を生成する(合成の方法は特に限定されず、2つの尤度を単純に平均してもよいし、重みを付けて平均してもよい。図8Aのグラフ83および図8Bのグラフ86が合成尤度のマップ80(合成応答マップ)の例である。
The likelihood
位置特定部27は、合成尤度のマップから1つのピークを選択して、当該ピーク位置を現フレーム画像における追跡対象人物の中心位置であると決定する(S307)。ここで、図8Aに示すように、合成尤度のマップが1つのピークしか有しない場合には、当該ピークの位置が追跡対象人物の位置であるといえる。しかしながら、図8Bに示すように、合成応答マップが複数のピークを有する場合には、値(合成尤度)の最も高いピークを単純に選択すると、ドリフトが生じ追跡を誤る可能性がある。そこで、位置特定部27は、図6のフローチャートに示す処理によってピークを選択することで、精度の高い追跡を実
現する。
The
図6のフローチャートによって行われる処理の概要を、図9を参照して簡単に説明する。図9において、Tフレーム目が前フレームであり、T+1フレーム目が現フレームである。画像91は前フレーム画像におけるターゲット領域を表し、その中心92は対象人物が存在する位置の中心である。画像94は現フレーム画像におけるターゲット領域を表し、その中で複数のピーク95が抽出されている。
An outline of the processing performed by the flowchart of FIG. 6 will be briefly described with reference to FIG. In FIG. 9, the T frame is the front frame, and the T + 1 frame is the current frame. The
位置特定部27は、現フレーム画像において抽出された複数のピーク95のうち、前フレーム画像の追跡対象人物の中心位置92近傍の領域93での平均色と、現フレーム画像のピーク95近傍の領域96での平均色との差が、最も小さいピークを選択する。
Of the plurality of
なお、以下では説明の簡略化のために、「前フレーム画像の追跡対象人物の中心位置近傍の領域での平均色」のことを「前フレーム画像の中心平均色」と称し、「現フレーム画像のピーク位置近傍の領域における平均色」のことを「現フレーム画像のピーク位置平均色」と称する。 In the following, for the sake of simplification of the explanation, the "average color in the area near the center position of the person to be tracked in the previous frame image" is referred to as the "center average color of the previous frame image", and the "current frame image". The "average color in the region near the peak position of the current frame image" is referred to as the "peak position average color of the current frame image".
以下、図6を参照してより詳細に説明する。位置特定部27は、合成尤度のマップから、局所的ピークを抽出する(S401)。局所的ピークは、合成尤度のマップにおいて極大値を取る位置といえる。局所的ピークは、例えば、対象画素の値が近傍画素の値以上であるか否かを判断することにより抽出すればよい。ここで検出された局所的ピークのそれぞれに対して、ステップS402以降の処理が行われる。
Hereinafter, a more detailed description will be given with reference to FIG. The
位置特定部27は、現フレーム画像94のピーク95近傍の領域96における平均色を抽出して、一時的に記憶する(S402)。平均色の求め方は特に限定されない。
The
位置特定部27は、現在処理しているピークが最初のピークであるか否かを判断し(S403)、最初のピークであればステップS408に進み、このピークを選択する。なお、ここでの選択は暫定的な選択であり、ループ処理を抜けた後に選択されているピークが最終的な選択結果となる。位置特定部27は、選択したピークの位置を記憶部23に格納する。また、位置特定部27は、現フレーム画像のピーク位置平均色と前フレーム画像の中心平均色との差を記憶部23に格納する。
The
現在処理しているピークが最初のピークではない場合は、処理はステップS404に進む。位置特定部27は、ピーク値が閾値A以上であるか否かを判断する(S404)。この閾値Aは、予め設定により与えられる固定値であってもよいし、各フレームの追跡処理が行われるたびに更新される値であってもよい。
If the peak currently being processed is not the first peak, processing proceeds to step S404. The
ピーク値が閾値A以上であれば(S404−YES)、位置特定部27は、前フレーム画像の中心平均色と現フレーム画像のピーク位置平均色との差に応じて、閾値を補正する(ステップS405)。補正された閾値を閾値Bと称する。具体的には、平均色の差が大きいほど閾値を小さく、平均色の差が小さいほど閾値を大きく補正するとよい。閾値補正を行うのは、フレーム間での照明変化への頑健性を高めるためである。
If the peak value is equal to or higher than the threshold value A (S404-YES), the
位置特定部27は、処理対象のピークにおける値が、補正閾値B以上であるか否かを判断する(S406)。ピーク値が補正閾値B以上であれば、位置特定部27は、さらに、前フレーム画像の中心平均色と現フレーム画像のピーク位置平均色との差が、ピーク値が補正閾値B以上のピークの中で最小であるか判断する(S409)。この判断は、現在のピークにおける平均色の差が、暫定的に選択されているピークにおける平均色の差よりも小さいかという判断で置き換えてもよい。平均色の差が最小であれば(S409−YES
)、位置特定部27は、処理対象のピークを選択し、そのピーク位置および平均色差を記憶部23に格納する。
The
), The
一方、ステップS404の判断において処理対象のピークにおける値が閾値A未満である場合、または、ステップS406の判断において処理対象のピークにおける値が補正閾値B未満である場合は、処理はステップS407に進む。位置特定部27は、ステップS407において、当該ピークの値がこれまでの最大であるか判断し、最大であれば、ステップS408において、このピークを選択する。
On the other hand, if the value at the peak to be processed is less than the threshold value A in the determination in step S404, or if the value at the peak to be processed is less than the correction threshold B in the determination in step S406, the process proceeds to step S407. .. The
以上の、ステップS402からS410の処理を、ステップS401で抽出された全てのピークに対して実施することで、ピークの値が閾値以上であり、かつ、前フレーム画像の中心平均色と現フレーム画像のピーク位置平均色との差が最小のピークが選択される。 By performing the above processes of steps S402 to S410 for all the peaks extracted in step S401, the peak value is equal to or more than the threshold value, and the center average color of the previous frame image and the current frame image Peak position The peak with the smallest difference from the average color is selected.
なお、上記のフローチャートにおいて、ステップS404においてピーク値が閾値A以上であるか否かの判断を行っているが、この処理は省略して、補正閾値Bに基づく判断(S406)のみを行うようにしてもよい。また、ピーク値が閾値以下の場合(S404−NO、S406−NO)に、ピーク値がこれまでの最大であれば選択するようにしているが(S407−S408)、ピーク値に関わらず選択しないようにしてもよい。ピーク値が閾値以下のピークについては平均色差が大きく、その後に別のピークが選択(S410)されると想定されるためである。また、平均色差に基づく閾値の補正処理(S404)により照明変化に対する頑健性が向上するが、この処理を省略して固定の閾値を用いても構わない。 In the above flowchart, whether or not the peak value is equal to or higher than the threshold value A is determined in step S404, but this process is omitted and only the determination (S406) based on the correction threshold value B is performed. You may. Further, when the peak value is below the threshold value (S404-NO, S406-NO), if the peak value is the maximum so far, it is selected (S407-S408), but it is not selected regardless of the peak value. You may do so. This is because it is assumed that the average color difference is large for the peak whose peak value is less than the threshold value, and then another peak is selected (S410). Further, although the robustness against lighting change is improved by the threshold correction process (S404) based on the average color difference, this process may be omitted and a fixed threshold value may be used.
図5のフローチャートの説明に戻る。上記のようにしてステップS307のピーク選択処理が完了すると、位置特定部27は、ターゲット領域の中心を選択されたピークの位置に更新し(S308)、ターゲット領域のサイズを更新する(S309)。このように、追跡処理が完了した後に、ターゲット領域の中心は追跡対象人物の中心位置に更新され、また、ターゲット領域のサイズも追跡結果に応じて更新される。ターゲット領域の更新サイズは、DSST(Discriminative Scale Space Tracking)のように画像のピラミッド
を用いる方法で推定してもよいし、前フレームにおけるターゲット領域のサイズ、レンズ歪みの特性、カメラの視点、カメラの配置およびターゲット領域の画像における位置の少なくともいずれかに基づいて決定されてもよい。追跡処理完了後のターゲット領域の中心が追跡対象人物の中心位置であり、ターゲット領域中の前景領域が追跡対象人物の存在領域(バウンディングボックス)である。
Returning to the description of the flowchart of FIG. When the peak selection process in step S307 is completed as described above, the
<本実施形態の有利な効果>
本実施形態では、魚眼画像を平面展開せずに用いる人追跡装置において、背景へのドリフトを抑制し、精度の高い人追跡が実現できる。ドリフトは、逐次学習を行う際に追跡対象以外の特徴を誤って学習することに起因して発生する追跡の失敗である。画像中に追跡対象人物と類似する物体(背景)が存在する場合、複雑背景下の場合および遮蔽が存在する場合などに生じる。一般に、追跡対象人物に類似する物体(背景)があるとき、複雑背景下および遮蔽が存在するときには、尤度のマップにおいて複数のピークが現れる。そして、このような場合に、追跡対象以外の物体に対応するピークを誤って選択するとドリフトが生じる。本実施形態では、合成尤度のマップに複数のピークが現れる場合に、単に尤度が最大のピークを選択するのではなく、中心位置の平均色を考慮してピーク選択を行っている。これにより、追跡対象以外の物体に対応するピークを誤って選択すること、すなわちドリフトの発生を低減できる。ドリフトの発生を低減できると、追跡結果のエラーが少なくなり、精度の高い追跡が実現できる。
<Advantageous effect of this embodiment>
In the present embodiment, in a person tracking device that uses a fisheye image without developing a plane, it is possible to suppress drift to the background and realize highly accurate person tracking. Drift is a tracking failure that occurs due to erroneous learning of features other than the tracked object during sequential learning. It occurs when there is an object (background) similar to the person to be tracked in the image, under a complicated background, or when there is an occlusion. In general, when there is an object (background) similar to the tracked person, multiple peaks appear in the likelihood map in the presence of complex backgrounds and occlusions. Then, in such a case, if a peak corresponding to an object other than the tracking target is erroneously selected, drift occurs. In the present embodiment, when a plurality of peaks appear in the composite likelihood map, the peaks are selected in consideration of the average color at the center position, instead of simply selecting the peak with the maximum likelihood. This makes it possible to erroneously select a peak corresponding to an object other than the tracked object, that is, to reduce the occurrence of drift. If the occurrence of drift can be reduced, errors in the tracking result are reduced, and highly accurate tracking can be realized.
また、平均色の算出は演算負荷やメモリ使用量が比較的少ない処理であるため、本実施
形態の手法は、計算資源が少ない組込機器でも実現できる。
Further, since the calculation of the average color is a process in which the calculation load and the amount of memory used are relatively small, the method of the present embodiment can be realized even with an embedded device having few computational resources.
<その他>
上記実施形態は、本発明の構成例を例示的に説明するものに過ぎない。本発明は上記の具体的な形態には限定されることはなく、その技術的思想の範囲内で種々の変形が可能である。
<Others>
The above-described embodiment is merely an example of a configuration example of the present invention. The present invention is not limited to the above-mentioned specific form, and various modifications can be made within the scope of its technical idea.
例えば、上記実施形態では、合成尤度のマップにおいて複数のピークが現れたときに、平均色を考慮して選択するピークを決定している。しかしながら、前フレーム画像の追跡対象物の中心位置近傍の領域と、現フレーム画像のピーク位置近傍の領域との間の、画像類似度が最も高いピークを選択すればよい。平均色以外の画像類似度を評価する手法として、例えば、平均輝度、代表色のようにスカラーであらわされる画像情報の少なくともいずれかを特徴量として差、差の絶対値、差の二乗の少なくともいずれかを類似度の尺度とする方法を採用することができる。さらに、HOGなどの形状に関する特徴ベクトル、色ヒストグラムなどの色に関する特徴ベクトルの少なくともいずれかを抽出し、ヒストグラムインタセクション、バタチャリヤ係数、Earth Mover’s Distanceの少なくともいずれかに基づいて類似度を測定する方法を採用することができる。加えて、テンプレートマッチングにより類似度を測定する方法を採用することができる。また、類似度ではなく、差の二乗和、差の絶対値和の少なくともいずれかに基づいて相違度を測定する方法を採用することができる。 For example, in the above embodiment, when a plurality of peaks appear in the composite likelihood map, the peak to be selected is determined in consideration of the average color. However, the peak having the highest image similarity between the region near the center position of the tracking object of the previous frame image and the region near the peak position of the current frame image may be selected. As a method for evaluating image similarity other than the average color, for example, at least one of the difference, the absolute value of the difference, and the square of the difference, using at least one of the image information represented by the scalar such as the average brightness and the representative color as a feature amount. A method can be adopted in which the degree of similarity is used as a measure of similarity. Furthermore, at least one of the feature vector related to the shape such as HOG and the feature vector related to the color such as the color histogram is extracted, and the similarity is measured based on at least one of the histogram intersection, the Batacharya coefficient, and the Earth Mover's Distance. The method can be adopted. In addition, a method of measuring similarity by template matching can be adopted. Further, a method of measuring the degree of difference based on at least one of the sum of squares of the differences and the sum of the absolute values of the differences can be adopted instead of the degree of similarity.
また、上記の実施形態は非特許文献1に記載の手法(Stapleと呼ばれる)をベースにした追跡処理を行っているが、現フレーム画像において追跡対象物が存在する確からしさを表す尤度のマップを算出するアルゴリズムは上記実施形態の手法に限定されない。例えば、形状特徴のみに基づく尤度のマップ算出や、色特徴のみに基づく尤度のマップ算出などを行ってもよい。尤度のマップの算出も、相関フィルタをかけることよって行う以外に、CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)、LSTM(Long Short-Term Memory)のような深層学習モデルを利用して行ってもよい。本発明は、尤度のマップにおいて複数のピークが現れたときに、中心平均色などの画像類似度を考慮していずれかのピークを選択するものであり、尤度のマップ算出アルゴリズムに関係なく適用が可能である。 Further, in the above embodiment, the tracking process is performed based on the method (called Staple) described in Non-Patent Document 1, but the likelihood map showing the certainty that the tracking object exists in the current frame image. The algorithm for calculating is not limited to the method of the above embodiment. For example, the likelihood map calculation based only on the shape feature, the likelihood map calculation based only on the color feature, and the like may be performed. In addition to calculating the likelihood map by applying a correlation filter, deep learning models such as CNN (Convolutional Neural Network), RNN (Recurrent Neural Network), and RSTM (Long Short-Term Memory) are used. You may go. The present invention selects one of the peaks in consideration of the image similarity such as the center average color when a plurality of peaks appear in the likelihood map, regardless of the likelihood map calculation algorithm. Applicable.
また、上記の実施形態では魚眼画像を平面展開せずに処理しているが、魚眼画像を平面展開した画像を処理対象としてもよいし、通常のカメラにより撮影された画像を処理対象としてもよい。 Further, in the above embodiment, the fisheye image is processed without being developed in a plane, but an image in which the fisheye image is developed in a plane may be processed, or an image taken by a normal camera is used as a processing target. May be good.
<付記>
(1)第1フレーム画像における対象物の位置を取得する取得手段(21)と、
前記第1フレーム画像の後のフレーム画像である第2フレーム画像から、前記対象物の位置を求める追跡手段(24)と、
を備える、物体追跡装置(1)であって、
前記追跡手段は、
前記第2フレーム画像の対象領域から特徴量を抽出する特徴量抽出手段(25)と、
前記第2フレーム画像の前記対象領域について、前記対象物が存在する確からしさを表す尤度のマップを前記特徴量に基づいて求める尤度算出手段(26)と、
前記尤度のマップにおいてピークが1つの場合には、当該ピークの位置を前記対象物の位置として特定し、前記尤度のマップにおいてピークが複数ある場合には、前記第1フレームの前記対象物の位置の近傍の画像領域と前記第2フレームの各ピークの近傍の画像領域との類似度を表す画像類似度を考慮して選択されるピークの位置を前記対象物の位置として特定する、位置決定手段(27)と、
を備える、ことを特徴とする物体追跡装置(1)。
<Additional notes>
(1) Acquisition means (21) for acquiring the position of the object in the first frame image, and
A tracking means (24) for obtaining the position of the object from the second frame image, which is a frame image after the first frame image, and
An object tracking device (1) comprising the
The tracking means
The feature amount extraction means (25) for extracting the feature amount from the target area of the second frame image, and
With the likelihood calculation means (26), which obtains a likelihood map representing the certainty that the object exists in the target region of the second frame image based on the feature amount.
When there is one peak in the likelihood map, the position of the peak is specified as the position of the object, and when there are a plurality of peaks in the likelihood map, the object in the first frame. The position of the peak selected in consideration of the image similarity representing the similarity between the image region near the position of and the image region near each peak of the second frame is specified as the position of the object. Determining means (27) and
An object tracking device (1), characterized in that.
(2)第1フレーム画像における対象物の位置を取得する取得ステップ(S102)と、
前記第1フレーム画像の後のフレーム画像である第2フレーム画像から、前記対象物の位置を求める追跡ステップと(S106)、
を含む、物体追跡方法であって、
前記追跡ステップは、
前記第2フレーム画像の対象領域から特徴量を抽出する特徴量抽出ステップ(S302,S304)と、
前記第2フレーム画像の前記対象領域について、前記対象物が存在する確からしさを表す尤度のマップを前記特徴量に基づいて求める尤度算出ステップ(S303,S305,S306)と、
前記尤度のマップにおいてピークが1つの場合には、当該ピークの位置を前記対象物の位置として特定し、前記尤度のマップにおいてピークが複数ある場合には、前記第1フレームの前記対象物の位置の近傍の画像領域と前記第2フレームの各ピークの近傍の画像領域との類似度を表す画像類似度を考慮して選択されるピークの位置を前記対象物の位置として特定する、位置決定ステップ(S307)と、
を含む、ことを特徴とする物体追跡方法。
(2) In the acquisition step (S102) of acquiring the position of the object in the first frame image,
A tracking step of finding the position of the object from the second frame image, which is a frame image after the first frame image, and (S106).
Is an object tracking method that includes
The tracking step
The feature amount extraction step (S302, S304) for extracting the feature amount from the target area of the second frame image, and
With respect to the target region of the second frame image, a likelihood calculation step (S303, S305, S306) for obtaining a likelihood map representing the certainty that the object exists based on the feature amount.
When there is one peak in the likelihood map, the position of the peak is specified as the position of the object, and when there are a plurality of peaks in the likelihood map, the object in the first frame. The position of the peak selected in consideration of the image similarity representing the similarity between the image region near the position of and the image region near each peak of the second frame is specified as the position of the object. The decision step (S307) and
A method for tracking an object, including.
1:人追跡装置
2:監視システム
10:魚眼カメラ
11:追跡対象エリア
12:天井
13:人
1: Person tracking device 2: Surveillance system 10: Fisheye camera 11: Tracking area 12: Ceiling 13: Person
Claims (9)
前記第1フレーム画像の後のフレーム画像である第2フレーム画像から、前記対象物の位置を求める追跡手段と、
を備える、物体追跡装置であって、
前記追跡手段は、
前記第2フレーム画像の対象領域から特徴量を抽出する特徴量抽出手段と、
前記第2フレーム画像の前記対象領域について、前記対象物が存在する確からしさを表す尤度のマップを前記特徴量に基づいて求める尤度算出手段と、
前記尤度のマップにおいてピークが1つの場合には、当該ピークの位置を前記対象物の位置として特定し、前記尤度のマップにおいてピークが複数ある場合には、前記第1フレーム画像の前記対象物の位置の近傍の画像領域と前記第2フレーム画像の各ピークの近傍の画像領域との類似度を表す画像類似度を考慮して選択されるピークの位置を前記対象物の位置として特定する、位置決定手段と、
を備える、ことを特徴とする物体追跡装置。 An acquisition means for acquiring the position of the object in the first frame image, and
A tracking means for obtaining the position of the object from the second frame image, which is a frame image after the first frame image, and
An object tracking device equipped with
The tracking means
A feature amount extraction means for extracting a feature amount from the target area of the second frame image, and
A likelihood calculating means for obtaining a likelihood map representing the certainty that the object exists in the target region of the second frame image based on the feature amount.
When there is one peak in the likelihood map, the position of the peak is specified as the position of the object, and when there are a plurality of peaks in the likelihood map, the target in the first frame image. The position of the peak selected in consideration of the image similarity representing the similarity between the image area near the position of the object and the image area near each peak of the second frame image is specified as the position of the object. , Positioning means,
An object tracking device comprising.
ことを特徴とする、請求項1に記載の物体追跡装置。 When there are a plurality of peaks in the likelihood map, the position determining means uses the position of the peak having the maximum image similarity among the peaks having a likelihood value equal to or higher than the threshold value as the position of the object. Identify,
The object tracking device according to claim 1, wherein the object tracking device is characterized in that.
ことを特徴とする、請求項2に記載の物体追跡装置。 The threshold is determined for each peak according to the image similarity.
The object tracking device according to claim 2, wherein the object tracking device is characterized by this.
前記尤度算出手段は、前記第1特徴量に基づく第1尤度と前記第2特徴量に基づく第2尤度とを合成した合成尤度のマップを前記尤度のマップとして求める、
ことを特徴とする、請求項1から3のいずれか1項に記載の物体追跡装置。 The feature amount extracting means extracts a first feature amount, which is a feature amount related to shape, and a second feature amount, which is a feature amount related to color or brightness.
The likelihood calculating means obtains a composite likelihood map obtained by synthesizing a first likelihood based on the first feature amount and a second likelihood based on the second feature amount as the likelihood map.
The object tracking device according to any one of claims 1 to 3, wherein the object tracking device is characterized.
前記第2特徴量は、輝度ヒストグラム、色ヒストグラム、Color Names特徴量の少なく
ともいずれかである
ことを特徴とする、請求項4に記載の物体追跡装置。 The first feature amount is at least one of a HOG feature amount, an LBP feature amount, a SHIFT feature amount, and a SURF feature amount.
The object tracking device according to claim 4, wherein the second feature amount is at least one of a luminance histogram, a color histogram, and a Color Names feature amount.
前記画像領域における、平均色、平均輝度、代表色の少なくともいずれかを含む画像情報の差、差の絶対値、差の二乗の少なくともいずれかに基づいて決定される、あるいは、
前記画像領域における、形状に関する特徴量である第1特徴量または色または輝度に関する特徴量である第2特徴量の少なくともいずれかの、ヒストグラムインタセクション、バタチャリヤ係数、Earth Mover’s Distanceの少なくともいずれかに基づいて決定される、あるいは、
前記画像領域におけるテンプレートマッチングにより決定される、
ことを特徴とする、請求項1から5のいずれか1項に記載の物体追跡装置。 The image similarity is
Determined or determined based on at least one of the difference in image information, including at least one of the average color, average brightness, and representative color, the absolute value of the difference, and the square of the difference in the image region.
At least one of the histogram intersection, the butterfly coefficient, and the Earth Mover's Distance, which is at least one of the first feature amount which is a feature amount related to the shape or the second feature amount which is a feature amount related to color or brightness in the image region. Determined based on, or
Determined by template matching in the image area
The object tracking device according to any one of claims 1 to 5, wherein the object tracking device is characterized.
ことを特徴とする、請求項1から6のいずれか1項に記載の物体追跡装置。 The first frame image and the second frame image are fisheye images obtained by a fisheye camera.
The object tracking device according to any one of claims 1 to 6, wherein the object tracking device is characterized.
前記第1フレーム画像の後のフレーム画像である第2フレーム画像から、前記対象物の位置を求める追跡ステップと、
を含む、物体追跡方法であって、
前記追跡ステップは、
前記第2フレーム画像の対象領域から特徴量を抽出する特徴量抽出ステップと、
前記第2フレーム画像の前記対象領域について、前記対象物が存在する確からしさを表す尤度のマップを前記特徴量に基づいて求める尤度算出ステップと、
前記尤度のマップにおいてピークが1つの場合には、当該ピークの位置を前記対象物の位置として特定し、前記尤度のマップにおいてピークが複数ある場合には、前記第1フレーム画像の前記対象物の位置の近傍の画像領域と前記第2フレーム画像の各ピークの近傍の画像領域との類似度を表す画像類似度を考慮して選択されるピークの位置を前記対象物の位置として特定する、位置決定ステップと、
を含む、ことを特徴とする物体追跡方法。 The acquisition step of acquiring the position of the object in the first frame image, and
A tracking step of finding the position of the object from the second frame image, which is a frame image after the first frame image, and
Is an object tracking method that includes
The tracking step
A feature amount extraction step for extracting a feature amount from the target area of the second frame image, and
With respect to the target area of the second frame image, a likelihood calculation step of obtaining a likelihood map representing the certainty that the object exists based on the feature amount, and
When there is one peak in the likelihood map, the position of the peak is specified as the position of the object, and when there are a plurality of peaks in the likelihood map, the target in the first frame image. The position of the peak selected in consideration of the image similarity representing the similarity between the image area near the position of the object and the image area near each peak of the second frame image is specified as the position of the object. , Positioning steps and
A method for tracking an object, including.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019049168A JP7334432B2 (en) | 2019-03-15 | 2019-03-15 | Object tracking device, monitoring system and object tracking method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019049168A JP7334432B2 (en) | 2019-03-15 | 2019-03-15 | Object tracking device, monitoring system and object tracking method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020149641A true JP2020149641A (en) | 2020-09-17 |
JP7334432B2 JP7334432B2 (en) | 2023-08-29 |
Family
ID=72430665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019049168A Active JP7334432B2 (en) | 2019-03-15 | 2019-03-15 | Object tracking device, monitoring system and object tracking method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7334432B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112215205A (en) * | 2020-11-06 | 2021-01-12 | 腾讯科技(深圳)有限公司 | Target identification method and device, computer equipment and storage medium |
CN113949881A (en) * | 2021-11-15 | 2022-01-18 | 赵茜茜 | Service processing method and system based on smart city data |
WO2022190529A1 (en) * | 2021-03-12 | 2022-09-15 | オムロン株式会社 | Image processing device and image processing method |
JPWO2023053364A1 (en) * | 2021-09-30 | 2023-04-06 | ||
WO2023078445A1 (en) * | 2021-11-05 | 2023-05-11 | 中移(成都)信息通信科技有限公司 | Target tracking method and apparatus for unmanned aerial vehicle, electronic device, and storage medium |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010039788A (en) * | 2008-08-05 | 2010-02-18 | Toshiba Corp | Image processing apparatus and method thereof, and image processing program |
JP2011100175A (en) * | 2009-11-04 | 2011-05-19 | Nippon Hoso Kyokai <Nhk> | Device and program for deciding personal action |
JP2016162096A (en) * | 2015-02-27 | 2016-09-05 | セコム株式会社 | Mobile object tracking device |
JP2017085564A (en) * | 2015-10-23 | 2017-05-18 | 株式会社モルフォ | Image processing apparatus, electronic apparatus, image processing method, and program |
JP2017182437A (en) * | 2016-03-30 | 2017-10-05 | 株式会社エクォス・リサーチ | Image recognition device, mobile device, and image recognition program |
JP2018147329A (en) * | 2017-03-07 | 2018-09-20 | 株式会社デンソーテン | Image processing device, image processing system, and image processing method |
WO2018221629A1 (en) * | 2017-06-01 | 2018-12-06 | 日本電気株式会社 | Information processing device, tracking method, and program recording medium |
JP2019016098A (en) * | 2017-07-05 | 2019-01-31 | キヤノン株式会社 | Information processing apparatus, information processing method, and program |
-
2019
- 2019-03-15 JP JP2019049168A patent/JP7334432B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010039788A (en) * | 2008-08-05 | 2010-02-18 | Toshiba Corp | Image processing apparatus and method thereof, and image processing program |
JP2011100175A (en) * | 2009-11-04 | 2011-05-19 | Nippon Hoso Kyokai <Nhk> | Device and program for deciding personal action |
JP2016162096A (en) * | 2015-02-27 | 2016-09-05 | セコム株式会社 | Mobile object tracking device |
JP2017085564A (en) * | 2015-10-23 | 2017-05-18 | 株式会社モルフォ | Image processing apparatus, electronic apparatus, image processing method, and program |
JP2017182437A (en) * | 2016-03-30 | 2017-10-05 | 株式会社エクォス・リサーチ | Image recognition device, mobile device, and image recognition program |
JP2018147329A (en) * | 2017-03-07 | 2018-09-20 | 株式会社デンソーテン | Image processing device, image processing system, and image processing method |
WO2018221629A1 (en) * | 2017-06-01 | 2018-12-06 | 日本電気株式会社 | Information processing device, tracking method, and program recording medium |
JP2019016098A (en) * | 2017-07-05 | 2019-01-31 | キヤノン株式会社 | Information processing apparatus, information processing method, and program |
Non-Patent Citations (1)
Title |
---|
片岡 裕雄: "単眼カメラを用いたサッカー映像解析のための複数選手とボールの追跡", SSII2010 第16回 画像センシングシンポジウム講演論文集 [CD−ROM], JPN6023001893, 9 June 2010 (2010-06-09), JP, pages 2 - 28, ISSN: 0004970265 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112215205A (en) * | 2020-11-06 | 2021-01-12 | 腾讯科技(深圳)有限公司 | Target identification method and device, computer equipment and storage medium |
CN112215205B (en) * | 2020-11-06 | 2022-10-18 | 腾讯科技(深圳)有限公司 | Target identification method and device, computer equipment and storage medium |
WO2022190529A1 (en) * | 2021-03-12 | 2022-09-15 | オムロン株式会社 | Image processing device and image processing method |
JP2022140069A (en) * | 2021-03-12 | 2022-09-26 | オムロン株式会社 | Image processing apparatus and image processing method |
JP7439784B2 (en) | 2021-03-12 | 2024-02-28 | オムロン株式会社 | Image processing device and image processing method |
JPWO2023053364A1 (en) * | 2021-09-30 | 2023-04-06 | ||
JP7395767B2 (en) | 2021-09-30 | 2023-12-11 | 楽天グループ株式会社 | Information processing device, information processing method, and information processing program |
WO2023078445A1 (en) * | 2021-11-05 | 2023-05-11 | 中移(成都)信息通信科技有限公司 | Target tracking method and apparatus for unmanned aerial vehicle, electronic device, and storage medium |
CN113949881A (en) * | 2021-11-15 | 2022-01-18 | 赵茜茜 | Service processing method and system based on smart city data |
CN113949881B (en) * | 2021-11-15 | 2023-10-03 | 山东瑞瀚网络科技有限公司 | Business processing method and system based on smart city data |
Also Published As
Publication number | Publication date |
---|---|
JP7334432B2 (en) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7334432B2 (en) | Object tracking device, monitoring system and object tracking method | |
JP7272024B2 (en) | Object tracking device, monitoring system and object tracking method | |
US9646212B2 (en) | Methods, devices and systems for detecting objects in a video | |
US11509824B2 (en) | Method for tracking target in panoramic video, and panoramic camera | |
CN109035304B (en) | Target tracking method, medium, computing device and apparatus | |
JP5074322B2 (en) | Image processing apparatus, image processing method, image processing program, and imaging apparatus | |
JP6036824B2 (en) | Angle of view variation detection device, angle of view variation detection method, and field angle variation detection program | |
CN111144213B (en) | Object detection method and related equipment | |
WO2020184207A1 (en) | Object tracking device and object tracking method | |
JP5833507B2 (en) | Image processing device | |
EP3761629B1 (en) | Information processing device, autonomous mobile body, information processing method, and program | |
JP2018120283A (en) | Information processing device, information processing method and program | |
WO2020137193A1 (en) | Human detection device and human detection method | |
JP7188067B2 (en) | Human detection device and human detection method | |
CN110991306A (en) | Adaptive wide-field high-resolution intelligent sensing method and system | |
WO2021084972A1 (en) | Object tracking device and object tracking method | |
JP7243372B2 (en) | Object tracking device and object tracking method | |
JP2021149687A (en) | Device, method and program for object recognition | |
US20180150966A1 (en) | System and method for estimating object size | |
JP7338174B2 (en) | Object detection device and object detection method | |
KR102146839B1 (en) | System and method for building real-time virtual reality | |
CN117523428B (en) | Ground target detection method and device based on aircraft platform | |
WO2024009744A1 (en) | Information processing device, information processing method, and program | |
Zhang et al. | Research on binocular real-time ranging method in window area | |
JP6525693B2 (en) | Image processing apparatus and image processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230309 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230627 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20230704 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230718 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230731 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7334432 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |