JP2012073971A - Moving image object detection device, method and program - Google Patents
Moving image object detection device, method and program Download PDFInfo
- Publication number
- JP2012073971A JP2012073971A JP2010220190A JP2010220190A JP2012073971A JP 2012073971 A JP2012073971 A JP 2012073971A JP 2010220190 A JP2010220190 A JP 2010220190A JP 2010220190 A JP2010220190 A JP 2010220190A JP 2012073971 A JP2012073971 A JP 2012073971A
- Authority
- JP
- Japan
- Prior art keywords
- motion vector
- image
- detected
- unit
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、動画オブジェクト検出装置、方法、及びプログラムに関し、更に詳しくは、複数フレームの動画像からオブジェクトを検出する動画オブジェクト検出装置、方法、及びプログラムに関する。 The present invention relates to a moving image object detection apparatus, method, and program, and more particularly, to a moving image object detection apparatus, method, and program for detecting an object from a moving image of a plurality of frames.
複数フレームの動画像からオブジェクトを検出する技術が知られている。また、あるフレームで検出されたオブジェクトを追跡対象として設定し、後続するフレームにおいてオブジェクトを追跡する技術も知られている。例えば特許文献1には、顔を検出し、検出した顔の領域を追跡することが記載されている。特許文献1では、顔領域検出部は、顔検出アルゴリズムを用いてフレーム単位で顔領域を検出する。トラッキング部は、顔領域履歴記憶部に記録されたフレーム単位の顔領域の検出履歴を参照して、検出された顔領域を連続する複数のフレームにわたって追跡する。トラッキング部は、あるフレームにて顔領域が検出されたときでも、そのフレーム以降の所定数以上の連続するフレームにて当該顔領域が検出されないときは、検出された顔領域を無効と判断する。
A technique for detecting an object from a plurality of frames of moving images is known. In addition, a technique for setting an object detected in a certain frame as a tracking target and tracking the object in a subsequent frame is also known. For example,
また、特許文献2には、時系列の動画像を処理し、画像上で重なった移動物体同士を分割して認識する方法が記載されている。特許文献2では、画像処理部は、複数の時系列画像の各画像について、背景画像と比較することで移動物体を認識し、認識された移動物体に識別符号を付与する。画像処理部は、時刻tの画像に含まれる各移動物体の動きベクトルを求める。画像処理部は、時刻t−1の画像に含まれる移動物体上の領域が同じ識別符号を持っていると仮定して、その領域に対応した時刻tでの画像上の領域を動きベクトルに基づいて推定し、両領域間の相関度を求める。画像処理部は、複数の識別符号の各々について求めた相関度の大小関係に基づいて各領域に付与すべき識別符号を決定することで、時刻t−1の画像に含まれている非分離移動物体を分割する。
特許文献1では、顔領域の検出後、その顔領域を未来方向に追跡している。しかし、特許文献1では、画像中に顔が現れたとしても、その顔の領域の追跡が直ちに開始されるとは限らない。例えば顔が隠れたり、正面を向いていなかったり、顔が小さかったりすると、顔を検出することができず、新たな追跡対象が動画像に現れたことを装置が認識することができないことがある。そのような場合、その人物の顔がはっきりと認識されるようになってはじめて追跡処理がスタートすることになり、その人物の登場から顔検出に成功するまでの間の動き情報を捉えることができない。特に、多数の人物が写る画像では、顔の隠れが起こる可能性が高く、検出したい顔領域の検出漏れ顕著になる。
In
特許文献1において、顔検出の判定を甘くすれば、ある程度早い段階から顔を検出することが可能になる。しかしながら、その場合には検出漏れは抑制できるものの誤検出が増加し、装置自体の信頼性が低下するという弊害が生じる。つまり、特許文献1では、誤検出と検出漏れの双方を抑制することはできない。また、特許文献2は、ある時刻までは複数の移動物体同士が画像上で重なっていることで複数の移動物体を分離して検出することができず、ある時刻で画像上の重なりがなくなって複数の移動物体を分離して検出できたときに、過去フレームにおいて重なって検出された移動物体を分離するというものに過ぎない。従って、特許文献2においても、誤検出と検出漏れとの双方を抑制することはできない。
In Japanese Patent Application Laid-Open No. 2004-228867, if the detection of face detection is made mild, it is possible to detect a face from a certain early stage. However, in this case, detection omission can be suppressed, but erroneous detection increases, resulting in a problem that the reliability of the apparatus itself is lowered. That is, in
上記課題の解決を図る技術として、特許文献3が知られている。特許文献3では、検出手段は、順次に入力される各フレームの画像から、人物と、人物か否か確定できない対象である候補とを検出する。人物追跡手段は、人物を追跡対象とする追跡処理を実行し、追跡対象とされた人物の位置情報を追跡情報として記録する。候補追跡手段は、候補を対象とする追跡処理を実行し、追跡対象とされた候補の位置情報を追跡情報として記録する。変更手段は、検出手段が検出した人物のなかに、候補追跡手段により追跡対象とされている候補と同一の対象と評価される人物が存在すると、候補の位置情報として記録されていた追跡情報を、人物の追跡情報へと変更する。
特許文献3では、人物か否かが確定できない対象を“候補”として追跡し、“人物”として検出された対象が、“候補”として追跡されていた対象と同じ対象のとき、候補の追跡情報を人物の追跡情報へと変更する。このようにすることで、誤検出と検出漏れとの双方を抑制できる。しかし、特許文献3では、人物のみならず、人物か否かが確定できない対象も、人物と同様に追跡する必要があり、処理負荷が高いという問題が生じる。特に、人物検出において、人物か否かが確定できない対象の判定基準を甘めに設定すると、本当は人物でない多数の対象を“候補”として追跡する必要が生じ、無駄に追跡処理を行う必要がある分だけ追跡処理の処理負荷が無駄に高くなる。
In
本発明は、上記に鑑み、処理負荷を無駄に上げることなく、オブジェクトの誤検出と検出漏れとの双方を抑制できる動画像オブジェクト検出装置、方法、及びプログラムを提供することを目的とする。 In view of the above, an object of the present invention is to provide a moving image object detection apparatus, method, and program capable of suppressing both erroneous detection of an object and omission of detection without wastefully increasing the processing load.
上記目的を達成するために、本発明は、複数フレームから成る動画像のフレーム画像からオブジェクトを検出し、該検出したオブジェクトの位置をオブジェクトリスト記憶部に記憶するオブジェクト検出手段と、前記オブジェクトリスト記憶部に記憶されたオブジェクトの位置を、当該オブジェクトが検出された時刻以後、複数フレーム間で追跡し、該追跡したオブジェクトの位置をオブジェクトリスト記憶部に記憶する第1の追跡手段と、前記オブジェクト検出手段でオブジェクトが新たに検出されたとき、該新たに検出されたオブジェクトの位置を、当該オブジェクトが検出されたフレーム画像の時刻よりも前の時刻に遡って複数フレーム間で追跡し、該追跡したオブジェクトの位置を前記オブジェクトリスト記憶部に記憶する第2の追跡手段とを含む手段オブジェクト追跡処理手段とを備えたことを特徴とする動画オブジェクト検出装置を提供する。 In order to achieve the above object, the present invention provides an object detection means for detecting an object from a frame image of a moving image composed of a plurality of frames and storing the position of the detected object in an object list storage unit, and the object list storage A first tracking means for tracking the position of the object stored in the section from a plurality of frames after the time when the object is detected, and storing the position of the tracked object in the object list storage section; When an object is newly detected by the means, the position of the newly detected object is tracked between a plurality of frames retroactive to the time before the time of the frame image where the object is detected, and the tracked A second add-on that stores the position of the object in the object list storage unit. To provide a moving object detection apparatus characterized by comprising a means object tracking processing means and means.
前記オブジェクト検出手段が、1つのフレーム画像に含まれると想定されるオブジェクト数を示す想定登場数をn、1つのオブジェクトが何フレーム分撮影されるかを示す想定有効ショット数をS、オブジェクトの検出確率をP(%)として、1つのフレーム画像から、下記式、
N=(n/S)×(100/P)
で求まるNを整数化した個数だけオブジェクトを検出する構成を採用することができる。
The object detection means sets the assumed number of appearances indicating the number of objects assumed to be included in one frame image, n, the estimated number of effective shots indicating how many frames of one object are shot, and the detection of the object The probability is P (%), and from one frame image, the following formula:
N = (n / S) × (100 / P)
It is possible to adopt a configuration in which objects are detected by the number obtained by converting N obtained by (1) into an integer.
上記に代えて、前記オブジェクト検出手段が、1つのフレーム画像から1つのオブジェクトを検出する構成でもよい。 Instead of the above, the object detecting means may detect one object from one frame image.
前記オブジェクト追跡処理手段が、前記フレーム画像を順次に入力し、現在処理対象とするフレーム画像と、該フレーム画像よりも前の時刻のフレーム画像とに基づいて動きベクトル場を求める動きベクトル場計測手段を更に含み、前記第1の追跡手段が、前記動きベクトル場計測手段で求められた動きベクトル場と、前記オブジェクトリスト記憶部に記憶されたオブジェクトの位置とに基づいて、複数のフレーム間でオブジェクトの位置を追跡し、前記第2の追跡手段が、前記動きベクトル場計測手段で求められた動きベクトル場と、前記オブジェクト検出手段で新たに検出されたオブジェクトの位置とに基づいて、前の時刻に遡ってオブジェクトの位置を追跡する構成を採用することができる。 The object tracking processing unit sequentially inputs the frame images, and obtains a motion vector field based on a frame image to be processed at present and a frame image at a time before the frame image. The first tracking means includes an object between a plurality of frames based on the motion vector field obtained by the motion vector field measuring means and the position of the object stored in the object list storage unit. And the second tracking means determines the previous time based on the motion vector field obtained by the motion vector field measuring means and the position of the object newly detected by the object detecting means. It is possible to adopt a configuration that traces the position of an object retroactively.
前記動きベクトル場計測手段が、対象フレーム上の動きベクトル計測の対象となる対象画素について、参照フレームを対象フレームに対して動きベクトル検出空間に対応する所定範囲内でずらしつつ、各ずらし量に対して、前記対象画素と該対象画素に対応する参照フレームの画素との相関を表わすスコアの分布である動きベクトル分布を算出する動きベクトル分布算出手段と、前記動きベクトル分布に基づいて、前記対象画素における動きベクトルを検出する動きベクトル検出手段と、前記動きベクトル分布に基づいて、前記検出された動きベクトルが誤計測であるか否かを判定する誤計測判定手段とを含む構成を採用してもよい。 The motion vector field measurement means shifts the reference frame within the predetermined range corresponding to the motion vector detection space with respect to the target frame, with respect to the target pixel that is the target of the motion vector measurement on the target frame. A motion vector distribution calculating means for calculating a motion vector distribution which is a score distribution representing a correlation between the target pixel and a pixel of a reference frame corresponding to the target pixel; and the target pixel based on the motion vector distribution A configuration that includes a motion vector detection unit that detects a motion vector in FIG. 5 and an erroneous measurement determination unit that determines whether the detected motion vector is an erroneous measurement based on the motion vector distribution. Good.
前記誤計測判定手段は、前記動きベクトル検出空間の中心位置に対応するずらし量に対して算出された動きベクトル分布におけるスコアと、前記検出された動きベクトルの位置に対応するずらし量に対して算出された動きベクトル分布におけるスコアとが所定の関係を満たすか否かに基づいて、前記検出された動きベクトルが誤計測であるか否かを判定してもよい。誤計測判定手段は、例えばスコア間の差分が所定のしきい値以上であるか否かに基づいて、スコアが所定の関係を満たすか否かを判定することができる。あるいは誤計測判定手段は、スコア間の比率が所定のしきい値以上であるか否かに基づいて、スコアが所定の関係を満たすか否かを判定してもよい。 The erroneous measurement determination unit calculates the score in the motion vector distribution calculated for the shift amount corresponding to the center position of the motion vector detection space and the shift amount corresponding to the position of the detected motion vector. Whether or not the detected motion vector is an erroneous measurement may be determined based on whether or not the score in the determined motion vector distribution satisfies a predetermined relationship. The erroneous measurement determination unit can determine whether the score satisfies a predetermined relationship based on, for example, whether the difference between the scores is equal to or greater than a predetermined threshold. Alternatively, the erroneous measurement determination unit may determine whether or not the score satisfies a predetermined relationship based on whether or not the ratio between the scores is equal to or greater than a predetermined threshold value.
前記誤計測判定手段が、検出された動きベクトルが真の動きベクトルであるときの、前記各ずらし量に対して算出された動きベクトル分布における前記対象画素のスコアを並べたデータを正の教師データとし、検出された動きベクトルが真の動きベクトルではないときの、前記各ずらし量に対して算出された動きベクトル分布における対象画素のスコアを並べたデータを負の教師データとして機械学習を用いて生成された判別器を用い、各ずらし量に対して算出された動きベクトル分布における前記対象画素のスコアを並べたデータを前記判別器に入力したときの該判別器の出力に基づいて誤計測か否かを判定する構成でもよい。 When the detected error vector is a true motion vector, the erroneous measurement determination means uses data obtained by arranging the scores of the target pixels in the motion vector distribution calculated for each shift amount as positive teacher data. When the detected motion vector is not a true motion vector, machine learning is used as negative teacher data for data in which the scores of target pixels in the motion vector distribution calculated for each shift amount are arranged. Using the generated discriminator, whether or not erroneous measurement is performed based on the output of the discriminator when the data of the target pixel scores in the motion vector distribution calculated for each shift amount are arranged in the discriminator The structure which determines whether or not may be sufficient.
前記動きベクトル分布算出手段が、更に、参照フレーム上の前記対象画素に対応する画素について、対象フレームを参照フレームに対して動きベクトル検出空間に対応する所定範囲内でずらしつつ、各ずらし量に対して、前記参照フレーム上の前記対象画素に対応する画素と前記対応画素との相関を表わすスコアの分布である別の動きベクトル分布を算出し、前記動きベクトル検出手段が、更に、前記別の動きベクトル分布に基づいて、前記参照フレーム上の前記対象画素に対応する画素における別の動きベクトルを検出し、前記誤計測判定手段が、前記動きベクトル分布に基づいて前記検出された動きベクトルが誤計測であるか否かを判定するのに代えて、又はこれに加えて、前記動きベクトルと前記別の動きベクトルとの関係に基づいて誤計測であるか否を判定する構成を採用できる。 The motion vector distribution calculating unit further shifts the target frame on the reference frame with respect to each shift amount while shifting the target frame with respect to the reference frame within a predetermined range corresponding to the motion vector detection space. And calculating another motion vector distribution which is a score distribution indicating a correlation between a pixel corresponding to the target pixel on the reference frame and the corresponding pixel, and the motion vector detecting means further includes the another motion. Based on the vector distribution, another motion vector in a pixel corresponding to the target pixel on the reference frame is detected, and the erroneous measurement determination unit determines that the detected motion vector is erroneously measured based on the motion vector distribution. Instead of or in addition to determining whether the motion vector is based on the relationship between the motion vector and the other motion vector It can be employed for determining configure whether it is measured.
上記の場合、前記誤計測判定手段は、前記動きベクトルと前記別の動きベクトルとが逆ベクトルの関係にないとき、前記検出された動きベクトルが誤計測であると判定してもよい。 In the above case, the erroneous measurement determination unit may determine that the detected motion vector is an erroneous measurement when the motion vector and the another motion vector are not in an inverse vector relationship.
前記動きベクトル分布算出手段が、更に、前記対象画素について、前記対象フレームを前記対象フレーム自身に対して動きベクトル検出空間に対応する所定範囲内でずらしつつ、各ずらし量に対して、前記対象画素自身の相関を表すスコアの分布である自己動きベクトル分布を更に算出し、前記誤計測判定手段が、前記動きベクトル分布に基づいて前記検出された動きベクトルが誤計測であるか否かを判定するのに代えて、又はこれに加えて、前記検出された動きベクトルの位置に対応するずらし量に対して算出された自己動きベクトル分布におけるスコアに基づいて誤計測であるか否かを判定する構成を採用できる。 The motion vector distribution calculating unit further shifts the target pixel for each shift amount while shifting the target frame with respect to the target pixel within a predetermined range corresponding to the motion vector detection space. A self-motion vector distribution, which is a score distribution representing its own correlation, is further calculated, and the erroneous measurement determination means determines whether or not the detected motion vector is an erroneous measurement based on the motion vector distribution. Instead of or in addition to this, a configuration for determining whether or not the measurement is erroneous based on a score in the self-motion vector distribution calculated for the shift amount corresponding to the position of the detected motion vector Can be adopted.
上記の場合、前記誤計測判定手段は、前記自己動きベクトル分布におけるスコアを所定のしきい値でしきい値処理し、誤計測であるか否かを判定してもよい。 In the above case, the erroneous measurement determination means may perform threshold processing on the score in the self-motion vector distribution with a predetermined threshold value to determine whether or not it is an erroneous measurement.
前記オブジェクト検出手段が、検出すべきオブジェクトの輪郭形状に対応したフィルタ特性を有する平滑化フィルタを画像に畳み込む処理を繰り返し行うことにより、前記フレーム画像からスケールが異なる複数枚の平滑化画像を生成する平滑化処理手段と、前記複数枚の平滑化画像のうち、スケールが互いに異なる2枚の平滑化画像間の差分画像を、スケールを変えつつ複数枚生成する差分画像生成手段と、前記複数枚の差分画像を合算し合算画像を生成する合算手段と、前記合算画像における画素値に基づいて検出すべきオブジェクトの位置を推定する位置推定手段と、前記フレーム画像から、前記推定された位置の周辺でオブジェクトを検出する照合手段とを含む構成を採用してもよい。 The object detecting means repeatedly generates a plurality of smoothed images having different scales from the frame image by repeatedly performing a process of convolving a smoothing filter having a filter characteristic corresponding to the contour shape of the object to be detected on the image. A smoothing processing unit; a difference image generating unit configured to generate a plurality of difference images between two smoothed images having different scales among the plurality of smoothed images while changing the scale; and Summing means for summing up difference images to generate a summed image, position estimating means for estimating the position of an object to be detected based on a pixel value in the summed image, and surrounding the estimated position from the frame image You may employ | adopt the structure containing the collation means which detects an object.
前記オブジェクト検出手段が検出すべきオブジェクトの数をMとしたとき、前記位置推定手段が、前記合算画像の画素値を大きい順に並べたときの上位M個又は下位M個の画素の画素位置を、前記オブジェクトの位置として推定してもよい。 When the number of objects to be detected by the object detection means is M, the position estimation means indicates the pixel positions of the upper M or lower M pixels when the pixel values of the combined image are arranged in descending order. The position of the object may be estimated.
前記オブジェクト検出手段が、前記複数枚の差分画像の画素値を比較し、最大又は最小の画素値を有する差分画像のスケールに基づいて、検出すべきオブジェクトのサイズを推定するサイズ推定手段を更に備える構成を採用することもできる。 The object detection means further comprises size estimation means for comparing pixel values of the plurality of difference images and estimating a size of the object to be detected based on a scale of the difference image having the maximum or minimum pixel value. A configuration can also be adopted.
前記サイズ推定手段は、前記位置推定手段が推定したオブジェクトの位置の周辺で前記差分画像の画素値を比較してもよい。 The size estimation unit may compare pixel values of the difference image around the position of the object estimated by the position estimation unit.
前記サイズ推定手段が、前記最大又は最小の画素値を有する差分画像の生成元となった2枚の平滑化画像のうちのスケールが小さい方の平滑化画像内のスケールに基づいて前記オブジェクトのサイズを推定する構成でもよい。 The size estimation unit determines the size of the object based on a scale in a smoothed image having a smaller scale of the two smoothed images from which the difference image having the maximum or minimum pixel value is generated. The structure which estimates this may be sufficient.
前記平滑化処理手段がスケールσ1からσa×k(a及びkは2以上の整数)までのa×k枚の平滑化画像L(x,y,σi)(i=1〜a×k)を生成し、前記差分画像生成手段が、スケールσ1からσkまでのk枚の差分画像G(x,y,σj)(j=1〜k)を、それぞれスケールσjの平滑化画像L(x,y,σj)とスケールσj×aの平滑化画像L(x,y,σj×a)との差分に基づいて生成してもよい。この場合、前記差分画像生成手段は、下記式、
G(x,y,σj)=L(x,y,σj)−L(x,y,σj×a)
を用いて差分画像G(x,y,σj)を生成してもよい。
The smoothing processing means performs a × k smoothed images L (x, y, σ i ) (i = 1 to a ×) from the scale σ 1 to σ a × k (a and k are integers of 2 or more). k), and the difference image generation means smoothes k difference images G (x, y, σ j ) (j = 1 to k) from the scales σ 1 to σ k , respectively, on the scale σ j . The generated image L (x, y, σ j ) may be generated based on the difference between the smoothed image L (x, y, σ j × a ) of the scale σ j × a . In this case, the difference image generation means has the following formula:
G (x, y, σ j ) = L (x, y, σ j ) −L (x, y, σ j × a )
May be used to generate the difference image G (x, y, σ j ).
上記に代えて、前記平滑化処理手段がスケールσ1からσr(rは3以上の整数)までのr枚の平滑化画像L(x,y,σi)(i=1〜r)を生成し、前記差分画像生成手段が、スケールσ1からσk−p(pは1以上の整数)までのk−p枚の差分画像G(x,y,σj)(j=1〜k−p)を、それぞれスケールσjの平滑化画像L(x,y,σj)とスケールσj+pの平滑化画像L(x,y,σj+p)との差分に基づいて生成してもよい。この場合、前記差分画像生成手段が、下記式、
G(x,y,σj)=L(x,y,σj)−L(x,y,σj+p)
を用いて差分画像G(x,y,σj)を生成してもよい。
Instead of the above, the smoothing processing means outputs r smoothed images L (x, y, σ i ) (i = 1 to r ) from the scale σ 1 to σ r (r is an integer of 3 or more). The difference image generation means generates kp difference images G (x, y, σ j ) (j = 1 to k) from the scale σ 1 to σ k−p (p is an integer of 1 or more). the -p), the smoothed image L (x, respectively scale σ j, y, σ j) the scale sigma j + p of the smoothed image L (x, y, may be generated based on the difference between the σ j + p) . In this case, the difference image generation means has the following formula:
G (x, y, σ j ) = L (x, y, σ j ) −L (x, y, σ j + p )
May be used to generate the difference image G (x, y, σ j ).
前記オブジェクト検出手段が、前記フレーム画像から動き領域を抽出し動き領域抽出画像を生成する動き領域抽出手段を更に備え、前記平滑化画像生成手段が、前記動き領域抽出画像に対して前記平滑化フィルタを畳み込む構成を採用することもできる。この場合、前記動き領域抽出手段は、各画素が、前記フレーム画像から抽出した動きの量に応じた階調値を有するグレースケール画像を前記動き領域抽出画像として生成してもよい。更に、前記動き領域抽出手段は、前記グレースケール画像に対して所定のコントラスト低減処理を施してもよい。 The object detection unit further includes a motion region extraction unit that extracts a motion region from the frame image and generates a motion region extraction image, and the smoothed image generation unit performs the smoothing filter on the motion region extraction image. It is also possible to adopt a configuration in which the is folded. In this case, the motion region extraction unit may generate a grayscale image in which each pixel has a gradation value corresponding to the amount of motion extracted from the frame image as the motion region extraction image. Furthermore, the motion region extraction unit may perform a predetermined contrast reduction process on the grayscale image.
本発明は、また、複数フレームから成る動画像のフレーム画像からオブジェクトを検出し、該検出したオブジェクトの位置をオブジェクトリスト記憶部に記憶するステップと、前記オブジェクトリスト記憶部に記憶されたオブジェクトの位置を、当該オブジェクトが検出された時刻以後、複数フレーム間で追跡し、該追跡したオブジェクトの位置をオブジェクトリスト記憶部に記憶するステップと、前記オブジェクト検出手段でオブジェクトが新たに検出されたとき、該新たに検出されたオブジェクトの位置を、当該オブジェクトが検出されたフレーム画像の時刻よりも前の時刻に遡って複数フレーム間で追跡し、該追跡したオブジェクトの位置を前記オブジェクトリスト記憶部に記憶するステップとを有することを特徴とする動画オブジェクト検出方法を提供する。 The present invention also includes a step of detecting an object from a frame image of a moving image composed of a plurality of frames, storing the position of the detected object in an object list storage unit, and a position of the object stored in the object list storage unit Are tracked between a plurality of frames after the time when the object is detected, the position of the tracked object is stored in an object list storage unit, and when an object is newly detected by the object detection means, The position of the newly detected object is tracked between a plurality of frames, going back to the time before the time of the frame image where the object is detected, and the position of the tracked object is stored in the object list storage unit. And a video object characterized by comprising steps To provide a door detection method.
更に本発明は、コンピュータに、複数フレームから成る動画像のフレーム画像からオブジェクトを検出し、該検出したオブジェクトの位置をオブジェクトリスト記憶部に記憶するステップと、前記オブジェクトリスト記憶部に記憶されたオブジェクトの位置を、当該オブジェクトが検出された時刻以後、複数フレーム間で追跡し、該追跡したオブジェクトの位置をオブジェクトリスト記憶部に記憶するステップと、前記オブジェクト検出手段でオブジェクトが新たに検出されたとき、該新たに検出されたオブジェクトの位置を、当該オブジェクトが検出されたフレーム画像の時刻よりも前の時刻に遡って複数フレーム間で追跡し、該追跡したオブジェクトの位置を前記オブジェクトリスト記憶部に記憶するステップとを実行させるためのプログラムを提供する。 The present invention further includes a step of detecting an object from a frame image of a moving image composed of a plurality of frames in a computer and storing the position of the detected object in an object list storage unit; and an object stored in the object list storage unit The position of the object is tracked between a plurality of frames after the time when the object is detected, and the position of the tracked object is stored in the object list storage unit, and when the object is newly detected by the object detection means The position of the newly detected object is traced between a plurality of frames going back to the time before the time of the frame image where the object is detected, and the position of the tracked object is stored in the object list storage unit. And a professional for executing the memorizing step To provide the ram.
本発明の動画オブジェクト検出装置、方法、及びプログラムでは、ある時刻のフレーム画像においてオブジェクトが検出されると、検出された時刻よりも後の時刻においてオブジェクトの位置を複数フレーム間で追跡すると共に、オブジェクトが検出された時刻よりも前の時刻に遡って複数フレーム間でオブジェクトの位置を追跡する。オブジェクト検出においてオブジェクトの検出条件を厳しく設定し、オブジェクトらしさが低いオブジェクトはオブジェクトとして検出しないことで、オブジェクトの誤検出を抑制できる。一方で、オブジェクトが検出されたときに、過去フレーム方向にオブジェクトを追跡するため、過去フレームにおいて検出できなかったオブジェクトの位置を推定でき、過去フレーム画像におけるオブジェクトの検出漏れを抑制できる。つまり、本発明においては、オブジェクトの誤検出の抑制と、検出漏れの抑制との双方を実現できる。また、本発明では、特許文献3とは異なり、オブジェクトとは別にオブジェクトの候補を検出し、そのオブジェクトの候補を追跡する必要がないため、処理負荷が無駄に高くなることはない。
In the moving image object detection device, method, and program of the present invention, when an object is detected in a frame image at a certain time, the position of the object is tracked between a plurality of frames at a time later than the detected time. The position of the object is traced between a plurality of frames by going back to the time before the time at which is detected. In object detection, object detection conditions are set strictly, and an object with low object likelihood is not detected as an object, so that erroneous detection of the object can be suppressed. On the other hand, when an object is detected, the object is tracked in the past frame direction. Therefore, the position of the object that could not be detected in the past frame can be estimated, and the detection omission of the object in the past frame image can be suppressed. That is, in the present invention, both suppression of erroneous detection of an object and suppression of detection omission can be realized. Also, in the present invention, unlike
以下、図面を参照し、本発明の実施の形態を詳細に説明する。図1は、本発明の一実施形態の動画オブジェクト検出装置を示す。動画オブジェクト検出装置10は、フレームメモリ11、オブジェクト検出手段12、オブジェクト追跡処理手段13、及びオブジェクトリスト記憶部14を有する。動画オブジェクト検出装置10は、動画像を構成するフレーム画像を順次に処理し、動画像に含まれるオブジェクトを検出する。動画オブジェクト検出装置10内の各部の機能は、コンピュータシステムが所定のプログラムに従って動作することで実現することができる。あるいは各部の機能は、IC(Integrated Circuit)などで実現することもできる。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 shows a moving image object detection apparatus according to an embodiment of the present invention. The moving image
フレームメモリ11は、動画オブジェクト検出装置10に入力された複数フレームから成る動画像のうちの少なくとも数フレーム分のフレーム画像(フレームデータ)を記憶する。オブジェクト検出手段12は、フレームメモリ11を参照し、フレーム画像からオブジェクトを検出する。オブジェクト検出手段12は、オブジェクトが存在する領域をROI領域(Region of Interest:関心領域)として検出する。
The frame memory 11 stores frame images (frame data) for at least several frames of a moving image composed of a plurality of frames input to the moving image
オブジェクト検出手段12は、例えばフレーム画像から所定個数のオブジェクトを検出する。オブジェクト検出手段12は、例えば1つのフレーム画像に含まれると想定されるオブジェクト数を示す想定登場数をn、オブジェクトが隠れによる撮影不良フレームを除いて1つのオブジェクトが何フレーム分撮影されるかを示す想定有効ショット数をS、オブジェクトの検出確率をP(%)として、1つのフレーム画像から、下記式、
N=(n/S)×(100/P)
で求まるNを整数化した個数だけオブジェクトを検出する。オブジェクト検出手段12は、例えば上記で計算されたNの小数点以下を切り上げることで整数化を行う。例えば想定登場数nが4、想定有効ショット数Sが数十回、検出確率Pが50%であるとすると、オブジェクト検出手段12は、1つのフレーム画像から1つのオブジェクトを検出すればよい。上記式を用いてNを計算せずに、オブジェクト検出手段12におけるオブジェクトの検出個数を1つと決めてもよい。
The
N = (n / S) × (100 / P)
As many objects as the number obtained by converting N obtained by (1) into an integer are detected. For example, the object detection means 12 performs integerization by rounding up the fractions of N calculated above. For example, if the assumed appearance number n is 4, the assumed effective shot number S is several tens of times, and the detection probability P is 50%, the
オブジェクト検出手段12におけるオブジェクトの検出手法は特に問わない。オブジェクト検出手段12は、例えば各フレーム画像に対してテンプレートマッチングを行い、人物や顔(人物の頭部)などの検出対象のオブジェクトを検出する。また、オブジェクト検出手段12は、例えば機械学習により生成された識別器を用いて各フレーム画像から検出対象のオブジェクトを検出してもよい。あるいはオブジェクト検出手段12は、背景画像とフレーム画像との差分からオブジェクトを検出してもよい。オブジェクト検出手段12は、例えば入口ゲートなど、オブジェクトが画像中に登場する際の位置が決まっている場合は、その部分の近傍でのみでオブジェクト検出を行ってもよい。
The object detection method in the object detection means 12 is not particularly limited. The
オブジェクトリスト記憶部14は、検出されたオブジェクトについて、どのフレームのどの位置で検出されたかを示す情報を記憶する。オブジェクトリスト記憶部14は、例えばオブジェクトの識別情報(オブジェクトID)と、オブジェクトが検出されたフレーム画像を識別する情報(フレームID)と、画像中のオブジェクトの位置とを対応付けて記憶する。フレームIDには、例えば動画像の開始時刻からの経過時間やフレーム番号などを用いることができる。オブジェクトの位置は、例えばオブジェクトの検出領域を矩形で表わしたときの矩形の始点(左上の頂点)と終点(右下の頂点)との組で表わすことができる。
The object
オブジェクト検出手段12は、現在フレームにおいてオブジェクトを検出すると、検出したオブジェクトの位置をオブジェクトリスト記憶部14に記憶する。オブジェクト検出手段12は、例えば検出したオブジェクトに対して識別情報(オブジェクトID)を付与し、付与したオブジェクトIDとフレームIDと画像中のオブジェクトの位置とをオブジェクトリスト記憶部14に追加記憶する。また、新たなオブジェクトが検出された旨を、オブジェクト追跡処理手段13に通知する。
When the
オブジェクト追跡処理手段13は、検出済みのオブジェクト、すなわち過去フレームにおいて検出され、オブジェクトリスト記憶部14に記憶されたオブジェクトを、オブジェクトが検出された時刻以後、複数フレーム間で追跡し、現在フレームにおけるオブジェクトの位置を推定する。オブジェクト追跡処理手段13は、推定したオブジェクトの位置をオブジェクトリスト記憶部14に記憶する。また、オブジェクト追跡処理手段13は、新たなオブジェクトが検出された旨の通知を受けると、その新たに検出されたオブジェクトを過去フレーム方向に追跡し、現在フレームよりも前の時刻のフレーム画像におけるオブジェクトの位置を推定する。オブジェクト追跡処理手段13は、推定した過去のフレーム画像におけるオブジェクトの位置をオブジェクトリスト記憶部14に記憶する。
The object tracking processing means 13 tracks the detected object, that is, the object detected in the past frame and stored in the object
図2は、オブジェクト追跡処理手段13を示す。オブジェクト追跡処理手段13は、動きベクトル場計測手段31、第1の追跡手段32、及び第2の追跡手段33を有する。動きベクトル場計測手段31は、フレーム画像を順次に入力し、現在フレーム画像と、現在フレームよりも1つ以上前の過去フレーム画像とに基づいて、動きベクトル場を計測する。動きベクトル場計測手段31は、複数の画素位置で動きベクトルを求める。動きベクトル場計測手段31は、例えばフレーム画像を構成する全ての画素に対して動きベクトルを求める。動きベクトル場計測手段31は、画像を構成する各画素を隣接する複数の画素ずつ複数のブロックに分割し、ブロック単位で動きベクトルを求めてもよい。
FIG. 2 shows the object tracking processing means 13. The object
第1の追跡手段32は、オブジェクトリスト記憶部14に記憶された、過去フレーム画像において検出済みのオブジェクトのそれぞれに対し、現在フレームでのオブジェクトの位置を推定する。第1の追跡手段32は、過去フレーム画像、例えば現在フレームよりも1フレーム前のフレーム画像におけるオブジェクトの位置と、動きベクトル場計測手段31が計測した動きベクトル場とに基づいて、現在フレーム画像におけるオブジェクトの位置を推定する。第1の追跡手段32は、例えば1つ前のフレーム画像におけるオブジェクトの位置に対応する領域内の動きベクトルを平均化し、1つ前のフレーム画像におけるオブジェクトの領域を動きベクトルの平均値だけずらした領域を、現在フレーム画像におけるオブジェクトの位置として推定する。第1の追跡手段32は、推定したオブジェクトの位置をオブジェクトID及びフレームIDと共にオブジェクトリスト記憶部14に記憶する。
The
第2の追跡手段32は、オブジェクト検出手段12が新たに検出したオブジェクトに対し、現在フレームよりも過去のフレーム画像におけるオブジェクトの位置を推定する。第2の追跡手段32は、現在フレームにおいて検出されたオブジェクトの位置と、動きベクトル場計測手段31が計測した動きベクトル場とに基づいて、例えば現在フレームよりも1つ前の過去フレームにおけるオブジェクトの位置を推定する。第2の追跡手段32は、例えば動きベクトルに基づいて、過去フレームにおける各画素のうちで移動先が現在フレーム画像におけるオブジェクトの位置に対応する領域に入る画素位置を特定する。第2の追跡手段32は、特定した過去フレームにおける画素位置の動きベクトルの平均を求め、その平均ベクトルの逆ベクトルを用いて、過去フレームにおけるオブジェクトの位置を推定する。第2の追跡手段32は、推定したオブジェクトの位置をオブジェクトID及びフレームIDと共にオブジェクトリスト記憶部14に記憶する。
The
動きベクトル場計測手段31の具体的な構成例を説明する。図3は、動きベクトル場計測手段31の構成例を示す。動きベクトル場計測手段31は、解像度変換手段40、動きベクトル分布算出手段41、平均化処理手段42、動きベクトル検出手段43、及び誤計測判定手段44を有する。解像度変換手段40は、フレームメモリ11(図1)に記憶されたフレーム画像を、フレーム画像の解像度よりも低い低解像度の画像に変換する。解像度変換手段40は、ある時刻のフレーム画像に対しては1度だけ解像度変換を行えばよい。言い換えれば、解像度変換手段40は、同一フレーム画像に対して解像度変換を複数回行う必要はない。
A specific configuration example of the motion vector
解像度変換には、種々の手法を用いることができる。解像度変換手段40は、例えば解像度変換前のフレーム画像の画素を所定の割合いで間引くことで、画像の解像度を低下させる。あるいは解像度変換手段40は、変換前のフレーム画像の所定画素数分の画素値の平均を求め、求めた平均値を解像度変換後の画像における各画素の画素値とすることで、解像度を低解像度化してもよい。解像度変換手段40は、低解像度化の処理を複数回繰り返して、画像を所望の解像度まで低下させてもよい。例えば解像度を1/2にする処理を3回行って、解像度を1/8まで低下させてもよい。
Various methods can be used for resolution conversion. For example, the
動きベクトル場計測手段31は、解像度変換手段40が変換した画像を用いて動きベクトル場の計測を行う。より詳細には、動きベクトル場計測手段31は、現在時刻のフレーム画像を低解像度化した画像を対象フレームとし、過去フレームの画像を低解像度化した画像を参照フレームとして動きベクトル場の計測を行う。低解像度化した画像を用いて動きベクトル場を計測することで、処理を高速化できる。ただし、低解像度化したことで、処理の高速化と引き換えに動きベクトル場の計測精度は低下する。解像度変換手段40がフレーム画像をどの程度低解像度化するかは、必要とされる演算時間と計測精度とに応じて適宜設定すればよい。画像の低解像度化は必須ではなく、動きベクトル場の計測を、フレーム画像を低解像度化せずに行うことも可能である。つまりフレーム画像の本来の解像度のまま動きベクトル場の計測を行うことも可能である。
The motion vector field measurement means 31 measures the motion vector field using the image converted by the resolution conversion means 40. More specifically, the motion vector
動きベクトル分布算出手段41は、対象フレームと参照フレームとに基づいて、両者の画素間の相関(類似度)を示す値(スコア)を算出する。動きベクトル分布算出手段41は、対象フレーム上の動きベクトル計測の対象となる対象画素について、参照フレームを対象フレームに対して動きベクトル検出空間に対応する所定範囲内でずらしつつ、各ずらし量に対してスコアを算出する。動きベクトル分布算出手段41は、例えば対象フレームの着目画素(x,y)の周囲に所定ブロックサイズのブロックを設定すると共に、所定範囲でずらした各ずれ量の参照フレームの対応画素(x,y)の周囲に所定ブロックサイズのブロックを設定し、ブロック内の各画素がどの程度一致するかを示すスコアC0を算出する。
The motion vector
上記ブロックサイズは、例えば3×3のサイズとすることができる。その場合、動きベクトル分布算出手段41は、着目画素の位置を(x,y)として、対象フレームの(x−1,y−1)から(x+1,y+1)までの各位置の画素と、対象フレームに対してずらした参照画像の(x−1,y−1)から(x+1,y+1)までの各位置の画素とに基づいてスコアC0を算出する。スコアC0は、ブロック内の画素同士の差分絶対値の和(平均絶対値誤差)とすることができる。具体的には、対象フレームの各位置での画素値(階調値)をf(x,y)とし、参照フレームをずらした画像の各位置での画素値をg(x,y)として、下記式1で定義される値をスコアC0とすることができる。
C0=ΣpΣq|f(x+p,y+q)−g(x+p,y+q)| …(1)
差分絶対値の和に代えて、平均二乗誤差を用いてもよい。
The block size can be 3 × 3, for example. In this case, the motion vector
C0 = Σ p Σ q | f (x + p, y + q) -g (x + p, y + q) | ... (1)
Instead of the sum of absolute differences, a mean square error may be used.
ここで、対象フレームと参照フレームとでは、動画像の撮影時における露出値の変動や、予期しない明るさの変更が生じることも考えられる。そのような場合に、上記式1を用いて画素値の差分の絶対値を求めると、本来差分絶対値が0になるような場合でも、明るさの変動に伴って差分絶対値が0にならないことが考えられる。そのような場合に備えて、対象フレームと参照フレームとにおける明るさの差を補正した上で、スコアC0を計算するようにしてもよい。具体的には、対象フレームにおけるブロック内の画素値の平均fmと、参照フレームをずらした画像におけるブロック内の画素値の平均値gmとを算出し、それらを用いて下記式2でスコアC0を算出してもよい。
C0=ΣpΣq|f(x+p,y+q)−fm−g(x+p,y+q)−gm| …(2)
Here, in the target frame and the reference frame, it is also conceivable that the exposure value fluctuates and the brightness is unexpectedly changed when the moving image is captured. In such a case, when the absolute value of the difference between the pixel values is obtained using the
C0 = Σ p Σ q | f (x + p, y + q) -fm-g (x + p, y + q) -gm | ... (2)
上記の式1又は式2で算出されるスコアC0は、画素同士の相関が高いほど値が小さくなる。これに代えて、画素同士の相関が高いほど値が大きくなるようなスコアを用いてもよい。例えば動きベクトル分布算出手段41は、画素値の最大値(最大階調値)からスコアC0を減算した値をスコアC1として算出してもよい。具体的には、画素値が8ビットの階調値で表わされる場合、スコア分布算出部41は、下記式でスコアC1を算出してもよい。
C1=255−C0
以降の説明では、主にベクトル分布算出部41がスコアC1を算出する例を用いて説明するものとする。スコアC0を用いる場合は、以下の説明において、スコアの大小関係を適宜読み替えればよい。
The score C0 calculated by the
C1 = 255-C0
In the following description, the vector
動きベクトル分布算出手段41は、動きベクトル検出範囲(探索範囲)に相当する範囲で、水平方向及び垂直方向に参照フレームを対象フレームに対して1画素ずつずらしつつ、ずらし量ごとに、対象フレームの各画素位置に対してスコアC1を算出する。例えば(−2,−2)から(+2,+2)の範囲で動きベクトルを検出するとした場合、動きベクトル分布算出手段41は、参照フレームを水平方向及び垂直方向にそれぞれ±2画素の範囲で1画素ずつずらして、対象フレームの各画素位置に対してスコアC1を算出する。
The motion vector distribution calculating means 41 shifts the reference frame by one pixel from the target frame in the horizontal direction and the vertical direction in a range corresponding to the motion vector detection range (search range), and for each shift amount, A score C1 is calculated for each pixel position. For example, when a motion vector is detected in the range of (−2, −2) to (+2, +2), the motion vector
参照フレームを対象フレームに対してずらすための水平方向の座標をhとし、垂直方向の座標をvをとすると、対象フレームに対する参照フレームの画素のずらし量は(h,v)=(k,l)(k,l=−2〜+2の整数)と表わすことができる。ずらし量(h,v)は、25通りの値を持つ。ずらし量(0,0)は、対象フレームと参照フレームとを一致させた場合に対応し、ずらし量(1,0)は、参照フレームを対象フレームに対して水平方向にのみ1画素正の方向にずらした場合に対応する。 When the horizontal coordinate for shifting the reference frame with respect to the target frame is h and the vertical coordinate is v, the shift amount of the pixel of the reference frame with respect to the target frame is (h, v) = (k, l ) (K, l = integer of −2 to +2). The shift amount (h, v) has 25 values. The shift amount (0, 0) corresponds to the case where the target frame is matched with the reference frame, and the shift amount (1, 0) is a direction in which one pixel is positive only in the horizontal direction with respect to the target frame. This corresponds to the case of shifting to
ここで、各ずらし量(h,v)は、動きベクトル検出空間における動きベクトルとみなすことができる。以下では、ずらし量ごとに求まるスコアC1の分布を、動きベクトル分布Dと呼ぶ。水平方向及び垂直方向にそれぞれ−2から+2の範囲を動きベクトル検出範囲とする場合、25通りの動きベクトル分布D(k,l)が算出されることになる。25通りの動きベクトル分布Dが得られているということは、対象フレームの各画素位置に対して、各ずらし量に対応した25個のスコアC1が算出されているのと等価である。 Here, each shift amount (h, v) can be regarded as a motion vector in the motion vector detection space. Hereinafter, the distribution of the score C1 obtained for each shift amount is referred to as a motion vector distribution D. When the range of −2 to +2 in the horizontal direction and the vertical direction is set as the motion vector detection range, 25 types of motion vector distributions D (k, l) are calculated. Obtaining 25 different motion vector distributions D is equivalent to calculating 25 scores C1 corresponding to each shift amount for each pixel position of the target frame.
平均化処理手段42は、動きベクトル分布D(k,l)からノイズ成分を除去する。平均化処理手段42は、例えば動きベクトル分布D(k,l)に対して空間的な平均化フィルタ処理を行い、平均化された動きベクトル分布Dm(k,l)を算出する。平均化フィルタのサイズは、例えば3×3のサイズとすることができる。平均化フィルタのサイズは、得たいノイズ除去の程度に応じて適宜設定すればよい。平均化処理手段42が使用するフィルタは平均化フィルタには限定されない。平均化フィルタに代えて、空間的なメディアンフィルタを用いてもよい。 The averaging processing means 42 removes noise components from the motion vector distribution D (k, l). The averaging processing means 42 performs, for example, a spatial averaging filter process on the motion vector distribution D (k, l), and calculates an averaged motion vector distribution Dm (k, l). The size of the averaging filter can be 3 × 3, for example. The size of the averaging filter may be appropriately set according to the degree of noise removal to be obtained. The filter used by the averaging processing means 42 is not limited to the averaging filter. A spatial median filter may be used in place of the averaging filter.
動きベクトル検出手段43は、ずらし量の数に対応する数の動きベクトル分布、例えば25通りの動きベクトル分布(平均化された動きベクトル分布Dm(k,l))に基づいて、対象フレームの各画素位置における動きベクトルを検出する。動きベクトル検出手段43は、例えば対象フレームにおける着目画素の位置を(x,y)としたとき、25通りの平均化された動きベクトル分布Dm(k,l)のそれぞれにおける画素位置(x,y)のスコアC1を相互に比較する。動きベクトル検出手段43は、スコアC1が最大となるずらし量(h,v)を求め、そのずらし量を動きベクトルとして検出する。
The motion vector detection means 43 is based on the number of motion vector distributions corresponding to the number of shift amounts, for example, 25 motion vector distributions (averaged motion vector distribution Dm (k, l)). A motion vector at a pixel position is detected. For example, when the position of the pixel of interest in the target frame is (x, y), the motion
動くベクトル検出手段43は、例えばある画素位置に対して、25通りの平均化された動きベクトル分布Dmの中から、スコアC1が最大となる動きベクトル分布Dmを探す。平均化された動きベクトル分布Dm(−2,2)〜(2,2)のうち、平均化された動きベクトル分布Dm(2,2)におけるスコアC1が最大であったとする。この場合、動きベクトル検出手段43は、そのずらし量に対応する動きベクトル(2,2)を検出する。動きベクトルの検出を、平均化された動きベクトル分布Dm(k,l)を用いて行うことで、ノイズの影響を低減した動きベクトルの検出が可能になる。 The moving vector detection means 43 searches for a motion vector distribution Dm having the maximum score C1 from 25 averaged motion vector distributions Dm, for example, for a certain pixel position. Of the averaged motion vector distributions Dm (−2, 2) to (2, 2), it is assumed that the score C1 in the averaged motion vector distribution Dm (2, 2) is the maximum. In this case, the motion vector detection means 43 detects a motion vector (2, 2) corresponding to the shift amount. By detecting the motion vector using the averaged motion vector distribution Dm (k, l), it is possible to detect a motion vector with reduced influence of noise.
なお、動きベクトル検出手段43は、解像度変換手段40で変換された画像の解像度に応じて、検出した動きベクトルの大きさを修正する。例えば解像度変換手段40で解像度が1/8に変換されていたときは、検出した動きベクトルの大きさを8倍する。また、動きベクトル検出手段43は、対象フレームと参照フレームとの間の時間差(フレーム間隔)が1でないときは、そのフレーム間隔に応じて検出した動きベクトルの大きさを補正する。例えばフレーム間隔が3のときは、検出した動きベクトルの大きさを1/3倍に修正する。
The motion
誤計測判定手段44は、動きベクトル分布に基づいて、動きベクトル検出手段43が対象フレームの各画素位置に対して検出した動きベクトルが誤計測であるか否かを判定する。誤計測判定手段44は、例えば動きベクトル検出空間の中央(ずらし量(0,0))に対応する平均化された動きベクトル分布Dm(0,0)におけるスコアC1(以下、スコアC1sとも呼ぶ)と、検出された動きベクトル(そのずらし量)に対応する平均化された動きベクトル分布DmにおけるスコアC1(以下、スコアC1eとも呼ぶ)とが所定の関係を満たすか否かに基づいて、検出された動きベクトルが誤計測であるか否かを判定する。
Based on the motion vector distribution, the erroneous
誤計測判定手段44は、例えばスコアC1sとスコアC1eとの差分をしきい値判定し、差分がしきい値よりも小さいとき、動きベクトル検出手段43において動きベクトルが誤計測されたと判定する。あるいは誤計測判定手段44は、スコアC1sとスコアC1eとの比が所定の関係にあるときに、動きベクトル検出手段43において動きベクトルが誤計測されたと判定してもよい。より詳細には、誤計測判定手段44は、αを1より小さい所定の係数として、スコアC1sとスコアC1eとが下記式を満たすとき、誤計測であると判定してもよい。
C1s>C1e×α
上記式における係数αは、要求される計測精度に応じて適宜設定すればよい。
For example, the erroneous
C1s> C1e × α
The coefficient α in the above equation may be set as appropriate according to the required measurement accuracy.
誤計測判定手段44が、上記の差分又は比率の関係に基づいて検出された動きベクトルが誤計測であるか否かを判定するのは、次のような理論に基づく。すなわち、スコアC1の算出に際して3×3のような小さなブロックサイズを用いると、フレーム中のノイズにより偶然に現れた動きベクトル検出する可能性が生じる。また、対象フレームにおける着目画素が移動する物体を構成する画素ではなく、その物体の背景に対応する画素である場合、動きベクトルがランダムな方向に発生することがある。そのような場合、検出された動きベクトルの始点位置に相当するずらし量(0,0)のスコアC1と、最大スコアを与えるずらし量のスコアC1との差分はそれほど大きくならない。従って、差分をしきい値処理すること、或いは比率が所定の関係を満たすか否かを判断することで、誤計測か否かの判定を行うことができる。 The erroneous measurement determination means 44 determines whether or not the detected motion vector is an erroneous measurement based on the above difference or ratio relationship based on the following theory. That is, if a small block size such as 3 × 3 is used in calculating the score C1, there is a possibility of detecting a motion vector that appears by chance due to noise in the frame. In addition, when the target pixel in the target frame is not a pixel constituting the moving object but a pixel corresponding to the background of the object, a motion vector may be generated in a random direction. In such a case, the difference between the score C1 of the shift amount (0, 0) corresponding to the start position of the detected motion vector and the score C1 of the shift amount that gives the maximum score is not so large. Accordingly, it is possible to determine whether or not the measurement is erroneous by performing threshold processing on the difference or determining whether or not the ratio satisfies a predetermined relationship.
誤計測判定手段44は、誤計測でないと判定したときは、動きベクトル検出手段43が検出した動きベクトルを出力する。誤計測判定手段44は、誤計測と判定すると、その旨を出力する。あるいは誤計測判定手段44は、誤計測と判定したときに、動きベクトル検出手段43で検出された動きベクトルに代えて、動きベクトル(0,0)を出力してもよい。
When it is determined that there is no erroneous measurement, the erroneous
図4は、動きベクトル場計測手段31の動作手順を示している。解像度変換手段40は、フレーム画像を低解像度の画像に変換する(ステップS11)。解像度変換手段40は、例えば対象フレームとして用いる現在フレームの画像が入力されるたびに、そのフレーム画像を低解像度の画像に変換する。参照フレームとして用いる過去フレームの画像については、その過去フレームの画像を対象フレームとして動きベクトルを検出する際に低解像度化した画像を利用すればよい。
FIG. 4 shows an operation procedure of the motion vector field measuring means 31. The resolution conversion means 40 converts the frame image into a low resolution image (step S11). For example, every time a current frame image used as a target frame is input, the
動きベクトル分布算出手段41は、現在フレームの画像を対象フレーム、過去フレームの画像を参照フレームとして、対象フレームと参照フレームとのずらし量を初期値に設定する(ステップS12)。動きベクトル分布算出手段41は、例えばずらし量(h,v)=(0,0)を初期ずらし量として設定する。動きベクトル分布算出手段41は、対象フレームと参照フレームとを設定したずらし量だけずらし、対象フレームにおける各画素に対してスコアC1を算出する(ステップS13)。言い換えれば、設定したずらし量に対する動きベクトル分布Dを算出する。
The motion vector distribution calculating means 41 sets the shift amount between the target frame and the reference frame to an initial value using the current frame image as the target frame and the past frame image as the reference frame (step S12). The motion vector
動きベクトル分布算出手段41は、全てのずらし量に対して動きベクトル分布Dを算出したか否かを判断する(ステップS14)。動きベクトル分布算出手段41は、全てのずらし量に対して動きベクトル分布Dを算出していないと判断すると、ずらし量を変更する(ステップS15)。動きベクトル分布算出手段41は、ずらし量を変更した後にステップS13に戻り、変更したずらし量に対して動きベクトル分布Dを算出する。動きベクトル分布算出手段41は、ステップS14で全てのずらし量に対して動きベクトル分布Dを算出したと判断するまでステップS13〜S15を繰り返し実行し、動きベクトル検出範囲内の各ずらし量に対して動きベクトル分布Dを算出する。
The motion vector
平均化処理手段42は、動きベクトル算出部41が算出した各ずらし量に対する動きベクトル分布Dに対して平均化処理を施し、平均化された動きベクトル分布Dmを生成する(ステップS16)。この平均化の処理は省略してもよい。動きベクトル検出手段43は、平均化された動きベクトル分布Dmを用い、対象フレームにおける各画素に対して動きベクトルを検出する(ステップS17)。誤計測判定手段44は、検出された動きベクトルが誤計測であるか否かを判定する(ステップS18)。動きベクトル場計測手段31は、動きベクトル計測結果を出力する(ステップS19)。動きベクトル場計測手段31は、誤計測でないと判定された画素については検出された動きベクトルを出力し、誤計測であると判定された画素については動きベクトルが計測されなかった旨、又は大きさが0の動きベクトルを出力する。
The averaging processing means 42 performs an averaging process on the motion vector distribution D for each shift amount calculated by the motion
ここで、ブロックマッチング法により動きベクトルを検出する際に、ブロックサイズを3×3のように小さくすると、ノイズの影響などにより動きベクトルの誤計測が発生しやすくなる。図3に示す構成の動きベクトル場計測手段31では、誤計測判定手段44が、検出された動きベクトルが誤計測であるか否かを判定する。この誤計測判定手段44を用いることで、動きベクトル検出の際のブロックサイズを例えば3×3のように小さくしても、誤計測の影響を低減することができ、動きベクトルを精度よく検出できる。また、ブロックサイズを小さくした分だけ演算量を低減することができ、その結果、動きベクトルを高速に検出することができる。つまり、動きベクトル検出の精度を落とさずに、処理を高速化することができる。
Here, when the motion vector is detected by the block matching method, if the block size is reduced to 3 × 3, an erroneous measurement of the motion vector is likely to occur due to the influence of noise or the like. In the motion vector field measuring means 31 having the configuration shown in FIG. 3, the erroneous
なお、動きベクトル場計測手段31は、各画素位置の周辺の画素位置での動きベクトルの平均を求め、その平均ベクトルを各画素位置の動きベクトルとして出力してもよい。例えば動きベクトル場計測手段31は、ある画素位置について、その画素位置で検出された動きベクトルと、その周辺の画素位置で検出された動きベクトルとの平均を求める。ベクトル場計測手段31は求めた平均ベクトルを、当該画素位置で検出された動きベクトルとして出力することができる。このように複数の画素位置で検出された動きベクトルを平均化する場合、動きベクトルのばらつきを抑えて、より精度よく動きベクトルを計測することができる。
Note that the motion vector
また誤計測判定手段44は、スコアC1の差分に基づいて誤計測であるか否かを判定するのに代えて、別の判断基準で誤計測であるか否かを判定してもよい。例えば、動きベクトル分布算出手段41が、上記した動きベクトル分布(第1の動きベクトル分布)に加えて、対象フレームと参照フレームとを入れ替え、過去フレームを対象フレームとし、現在フレームを参照フレームとして別の動きベクトル分布(第2の動きベクトル分布)を算出する。動くベクトル検出手段43は、第1の動きベクトル分布に基づく動きベクトル(第1の動きベクトル)の検出に加えて、第2の動きベクトル分布に基づいて別の動きベクトル(第2の動きベクトル)を検出する。誤計測判定手段44は、第1の動きベクトルと第2の動きベクトルとの関係に基づいて、検出された動きベクトルが誤計測であるか否かを判定してもよい。
Further, the erroneous
仮に、第1の動きベクトルが誤計測されたものでないと仮定すると、第1の動きベクトルと第2の動きベクトルとの大きさは同じで、方向は反対方向となると考えられる。つまり、第2の動きベクトルは、第1の動きベクトルの逆ベクトルになると考えられる。誤計測判定手段44は、第1の動きベクトルと第2の動きベクトルとが逆ベクトルの関係にあるか否かを判断し、逆ベクトルの関係にあるときに誤計測ではないと判定する。逆ベクトルの関係にないときは、誤計測と判定する。誤計測判定手段44は、第1の動きベクトルの大きさと第2の動きベクトルの大きさとの差が所定のしきい値以内で、かつ、第1の動きベクトルの方向と、第2の動きベクトルの方向を反転させた方向との差が所定のしきい値以内のときに、両者は逆ベクトルの関係にあると判断することができる。
If it is assumed that the first motion vector has not been erroneously measured, the first motion vector and the second motion vector have the same magnitude and the opposite directions. That is, the second motion vector is considered to be an inverse vector of the first motion vector. The erroneous
誤計測判定手段44は、上記に代えて、対象フレームの自己相関を求め、求めた自己相関を用いて誤計測か否かを判定してもよい。例えば動きベクトル分布算出手段41は、対象フレームに対して参照フレームをずらしつつ動きベクトル分布を算出するのに加えて、対象フレームに対して対象フレーム自身をずらしつつ動きベクトル分布を算出する。この動きベクトル分布を自己動きベクトル分布と呼ぶこととする。誤計測判定手段44は、動きベクトル検出手段43が動きベクトルを検出すると、検出された動きベクトル(ずらし量)に対応する自己動きベクトル分布のスコアを参照し、そのスコアに基づいて誤計測か否かを判定してもよい。例えばある画素位置に対して検出された動きベクトルが(2,2)のとき、誤計測判定手段44は、ずらし量(2,2)に対応する自己動きベクトル分布における当該座標位置のスコアを参照する。誤計測判定手段44は、例えば自己動きベクトル分布におけるスコアをしきい値処理し、スコアがしきい値以下であれば誤計測ではないと判定し、スコアがしきい値より大きいとき誤計測であると判定する。
Instead of the above, the erroneous measurement determination means 44 may determine the autocorrelation of the target frame and determine whether or not the erroneous measurement is performed using the calculated autocorrelation. For example, in addition to calculating the motion vector distribution while shifting the reference frame with respect to the target frame, the motion vector
自己動きベクトル分布を用いた誤計測の判定は、以下の理論に基づく。すなわち、対象フレームのある画素に着目すると、ずらし量0では同一画素間の相関を求めることになるため、自己動きベクトル分布におけるスコアC1の値は大きくなる。一方、着目画素が移動物体などに該当する画素である場合に、対象フレームに対して対象フレーム自身をずらしてスコアを算出すると、両者の間で物体の位置がずれることからスコアC1の値は小さくなると考えられる。つまり、移動物体などに該当する着目画素に対して算出されるスコアC1は、ずらし量0が最大で、ずらし量が大きくなるほどスコアC1の値は小さくなると考えられる。 Determination of erroneous measurement using the self-motion vector distribution is based on the following theory. That is, when attention is paid to a certain pixel of the target frame, since the correlation between the same pixels is obtained when the shift amount is 0, the value of the score C1 in the self-motion vector distribution becomes large. On the other hand, when the target pixel is a pixel corresponding to a moving object or the like, if the score is calculated by shifting the target frame itself with respect to the target frame, the position of the object is shifted between the two, so the value of the score C1 is small. It is considered to be. That is, it is considered that the score C1 calculated for the target pixel corresponding to a moving object or the like has the maximum shift amount 0, and the value of the score C1 decreases as the shift amount increases.
一方、着目画素が背景部分などの単調な部分に対応する場合は、上記とは異なり、ずらし量0で算出されたスコアC1と、対象フレーム自身をずらして算出されたスコアC1とは、それほど差がつかないと考えられる。つまり、単調背景などに該当する着目画素に対して算出されるスコアC1は、ずらし量に依存せず、比較的大きな値を取ると考えられる。自己動きベクトル分布において、ずらし量0以外のずらし量においてスコアC1の値が大きくなるということは、その大きなスコアとなったずらし量において誤計測が起こっている可能性が高いことを意味すると考えられる。そこで、誤計測判定手段44は、検出された動きベクトルに対応するずらし量の自己動きベクトル分布のスコアC1をしきい値処理し、スコアC1の値がしきい値よりも大きいときに、誤計測であると判定できる。
On the other hand, when the target pixel corresponds to a monotonous portion such as a background portion, unlike the above, the score C1 calculated with the shift amount 0 and the score C1 calculated by shifting the target frame itself are not so different. It is thought that it does not stick. That is, it is considered that the score C1 calculated for the target pixel corresponding to the monotonous background or the like takes a relatively large value without depending on the shift amount. In the self-motion vector distribution, an increase in the value of the score C1 at a shift amount other than the shift amount 0 means that there is a high possibility that an erroneous measurement has occurred at the shift amount having a large score. . Therefore, the erroneous
別例として、誤計測判定手段44は、機械学習を用いて生成された判別器を用いて誤計測か否かを判定してもよい。誤計測判定手段44は、例えば25通りの動きベクトル分布における各画素位置のスコアを並べたデータ(動きベクトル検出空間のスコア分布)をベクトルデータとして判別器に入力する。判別器は、入力されたデータに対して、誤計測であるか否かを示す信号を出力する。判別器は、動きベクトルが真の動きベクトルであるときの動きベクトル検出空間のスコア分布を正の教師データとし、動きベクトルが誤検出であるときの動きベクトル検出空間のスコア分布を負の教師データとして、正負の教師データを学習することで生成することができる。誤計測判定手段44は、判別器の出力に基づいて、誤計測か否かを判定することができる。
As another example, the erroneous
上記した誤計測判定の手法は組み合わせて用いてもよい。例えば、スコアの差分に基づいて誤計測か否かを判定する手法と、第1の動きベクトルと第2の動きベクトルとの関係に基づいて誤計測か否かを判定する手法とを組み合わせてもよい。その場合、誤計測判定手段44は、双方の条件がそろったとき、すなわちスコアの差分がしきい値よりも小さく、かつ、第1の動きベクトルと第2の動きベクトルとが逆ベクトルの関係にないときに誤計測と判定してもよい。あるいは、これに代えて、何れか一方の条件が成立したとき、すなわちスコアの差分がしきい値よりも小さいか、又は第1の動きベクトルと第2の動きベクトルとが逆ベクトルの関係にないときに誤計測と判定してもよい。 The above-described erroneous measurement determination methods may be used in combination. For example, a method of determining whether or not an erroneous measurement is based on the difference in scores may be combined with a method of determining whether or not an erroneous measurement is based on the relationship between the first motion vector and the second motion vector. Good. In that case, the erroneous measurement determination means 44 has a relationship in which both conditions are met, that is, the difference between the scores is smaller than the threshold value, and the first motion vector and the second motion vector have an inverse vector relationship. It may be determined that there is no measurement error. Alternatively, when any one of the conditions is satisfied, that is, the difference between the scores is smaller than the threshold value, or the first motion vector and the second motion vector are not in an inverse vector relationship. Sometimes it may be determined as an erroneous measurement.
続いて、オブジェクト検出手段12の具体的な構成例を説明する。図5は、オブジェクト検出手段12の構成例を示す。オブジェクト検出手段12は、前処理手段21、平滑化処理手段22、差分画像生成手段23、合算手段24、位置推定手段25、サイズ推定手段26、及び、照合手段27を有する。オブジェクト検出手段12は、動画像内の特定パターン、例えば人物の頭部をオブジェクトとして検出する。以下では、オブジェクト検出手段12が、動画像からオブジェクトを1つ検出するものとして説明を行う。
Next, a specific configuration example of the
前処理手段21は、解像度変換手段51と動き領域抽出手段52とを有する。解像度変換手段51は、動画像を構成するフレーム画像を所定の解像度に低解像度化する。解像度変換手段51は、例えば画像の解像度を縦横それぞれ1/8倍に変換する。解像度変換手段51が変換する画像の解像度は、動きベクトル場計測手段31(図3)における解像度変換手段40が変換する画像の解像度と同一でもよい。なお、オブジェクト検出手段12と動きベクトル場計測手段31とが別個に解像度変換手段を有している必要はない。両者に共通の解像度変換手段から低解像度化した画像を提供するようにしてもよい。
The preprocessing
動き領域抽出手段52は、動画像を構成するフレーム画像から動き領域を抽出し動き領域抽出画像を生成する。動き領域の抽出には、例えば背景画像やフレーム間画像の差分を算出するなど任意の手法を用いることができる。動き領域抽出手段52は、抽出された動きの量に応じて、動きがある領域ほど白く(階調値が高く)、動きが少ない領域ほど黒く(階調値が低く)なるようなグレースケール画像を動き領域抽出画像として生成する。動き領域抽出手段52は、例えば階調数256のグレースケール画像に対して所定の関数に従って階調を変換し、白から黒までの階調数を減少させるコントラスト低減処理を実施してもよい。動き領域抽出手段12は、グレースケール画像に代えて、動き領域を白、背景領域を黒にするような2値化画像を動き領域抽出画像として生成してもよい。
The motion
平滑化処理手段22には、前処理手段21で前処理された画像P(x,y)、すなわち解像度が低解像度化され、動き領域が抽出された画像が入力される。平滑化処理手段22は、平滑化フィルタを画像に畳み込む処理を繰り返し行うことにより、スケールが異なる複数枚の平滑化画像L(x,y,σi)を生成する。
The smoothing processing unit 22 is input with the image P (x, y) pre-processed by the
平滑化処理手段22は、まず画像P(x,y)に平滑化フィルタを畳み込むことで平滑化画像L(x,y,σ1)を生成し、その平滑化画像L(x,y,σ1)に更に平滑化フィルタを畳み込むことでスケールσ2の平滑化画像+(x,y,σ2)を生成する。平滑化処理手段22は、以降同様に平滑化フィルタの畳み込みを繰り返し行い、任意のスケールσqの平滑化画像L(x,y,σq)から次のスケールσq+1の平滑化画像L(x,y,σq+1)を生成する。 The smoothing processing means 22 first generates a smoothed image L (x, y, σ 1 ) by convolving a smoothing filter with the image P (x, y), and the smoothed image L (x, y, σ). 1 ) is further convolved with a smoothing filter to generate a smoothed image + (x, y, σ 2 ) of scale σ 2 . The smoothing processing means 22 repeats the convolution of the smoothing filter in the same manner thereafter, and from the smoothed image L (x, y, σ q ) of an arbitrary scale σ q to the smoothed image L (x of the next scale σ q + 1 , Y, σ q + 1 ).
平滑化画像L(x,y,σi)におけるスケール番号iは、平滑化フィルタを畳み込んだ回数に相当する。平滑化処理手段22は、例えばスケールが異なるa×k枚(a及びkはそれぞれ2以上の整数)の平滑化画像L(x,y,σ1)〜L(x,y,σa×k)を生成する。平滑化処理手段22は、例えばa=2、k=30とすれば2×30=60枚の平滑化画像L(x,y,σ1)〜(x,y,σ60)を生成する。 The scale number i in the smoothed image L (x, y, σ i ) corresponds to the number of times the smoothing filter is convoluted. The smoothing processing means 22 is, for example, a × k images (a and k are integers of 2 or more) of different scales L (x, y, σ 1 ) to L (x, y, σ a × k). ) Is generated. For example, if a = 2 and k = 30, the smoothing processing unit 22 generates 2 × 30 = 60 smoothed images L (x, y, σ 1 ) to (x, y, σ 60 ).
平滑化フィルタには、例えばガウシアンフィルタを用いることができる。平滑化フィルタは、例えば検出対象であるオブジェクトの輪郭形状に合わせたフィルタ特性となる3×3オペレータから成る。例えばオブジェクト検出手段12で検出対象とするオブジェクトが人物の頭部であれば、平滑化フィルタとして、人物の頭部の輪郭形状に沿って下側のフィルタ係数が小さくなる特性(オメガ形状)を有するフィルタを用いる。このような平滑化フィルタを用いることで、人物の頭部の輪郭形状を有する領域を強調し、それ以外の領域は抑制された平滑化処理を実現できる。 As the smoothing filter, for example, a Gaussian filter can be used. The smoothing filter is composed of, for example, a 3 × 3 operator having a filter characteristic that matches the contour shape of the object to be detected. For example, if the object to be detected by the object detection means 12 is a person's head, the smoothing filter has a characteristic (omega shape) in which the lower filter coefficient decreases along the contour shape of the person's head. Use a filter. By using such a smoothing filter, it is possible to realize a smoothing process in which a region having a contour shape of a person's head is emphasized and other regions are suppressed.
なお、フィルタの形状はオメガ形状には限定されず、例えば特開2003−248824号公報等に記載されたものなど、他の公知技術を適用することも可能である。例えば検出対象のオブジェクトの形状が円形、三角形、四角形などの場合には、それぞれのオブジェクト形状に合わせたフィルタ特性を有する平滑化フィルタを用いて平滑化処理を施せばよい。 The shape of the filter is not limited to the omega shape, and other known techniques such as those described in Japanese Patent Application Laid-Open No. 2003-248824 can be applied. For example, when the object to be detected has a circular shape, a triangular shape, a quadrangular shape, or the like, the smoothing process may be performed using a smoothing filter having a filter characteristic matched to each object shape.
差分画像生成手段23は、平滑化処理手段22が生成した複数枚の平滑化画像L(x,y,σi)を入力し、スケールが互いに異なる2つの平滑化画像間の差分画像G(x,y,σj)を、スケールを変えつつ複数枚生成する。ここで、差分画像G(x,y,σj)におけるスケール番号jの最大値は、平滑化画像Lにおけるスケールσiの最大値(例えばa×k)よりは小さい。差分画像生成手段23は、例えばスケール番号jに応じたスケールだけ離れた平滑化画像間の差分画像を生成する。具体的には、差分画像生成手段23は、例えば下記式3を用いて差分画像G(x,y,σj)を生成することができる。
G(x,y,σj)=L(x,y,σj)−L(x,y,σj×a)・・・(3)
差分画像は、差分値の絶対値であってもよい。
The difference image generation means 23 receives a plurality of smoothed images L (x, y, σ i ) generated by the smoothing processing means 22 and a difference image G (x between two smoothed images having different scales. , Y, σ j ) are generated while changing the scale. Here, the maximum value of the scale number j in the difference image G (x, y, σ j ) is smaller than the maximum value (for example, a × k) of the scale σ i in the smoothed image L. The difference
G (x, y, σ j ) = L (x, y, σ j ) −L (x, y, σ j × a ) (3)
The difference image may be an absolute value of the difference value.
上記の式3の定義からわかるように、差分画像G(x,y,σj)は、スケールσjの平滑化画像と、スケールσj×aの平滑化画像との差分として定義される。例えばa=2、k=30とすると、差分画像生成手段23は、スケールσ1とσ2、スケールσ2とσ4、スケールσ3とσ6、・・・、スケールσ30とσ60の組み合わせからなる30枚の差分画像G(x,y,σ1)〜(x,y,σ30)を生成する。式3に従って差分画像G(x,y,σj)を生成する場合、jは1〜kの値を取る。すなわち、差分画像生成手段23は、k枚の差分画像G(x,y,σ1)〜(x,y,σk)を生成する。
As can be seen from the definition of
差分画像生成手段23は、上記に代えて、一定のスケールだけ離れた平滑化画像間の差分を差分画像として生成してもよい。差分画像生成手段23は、例えばスケールσjの平滑化画像と、スケールσj+pの平滑化画像(pは1以上の整数)との差分を差分画像(x,y,σj)として生成してもよい。具体的には、差分画像生成手段23は、下記式4を用いて差分画像G(x,y,σj)を生成してもよい。
G(x,y,σj)=L(x,y,σj)−L(x,y,σj+p)・・・(4)
この場合、平滑化画像の枚数をr(r:3以上の整数)枚とすると、jは1〜r−pの値を取る。すなわち差分画像生成手段23は、r−p枚の差分画像G(x,y,σ1)〜(x,y,σr−p)を生成する。具体的には、r=60で、p=30の場合、差分画像生成手段23は、スケールσ1とσ31、スケールσ2とσ32、スケールσ3とσ33、・・・、スケールσ30とσ60の組み合わせからなる30枚の差分画像G(x,y,σ1)〜(x,y,σ30)を生成する。
Instead of the above, the difference image generation means 23 may generate a difference between smoothed images separated by a certain scale as a difference image. The difference image generating means 23 generates, for example, a difference between a smoothed image of scale σ j and a smoothed image of scale σ j + p (p is an integer of 1 or more) as a difference image (x, y, σ j ). Also good. Specifically, the difference image generation means 23 may generate the difference image G (x, y, σ j ) using the following formula 4.
G (x, y, σ j ) = L (x, y, σ j ) −L (x, y, σ j + p ) (4)
In this case, if the number of smoothed images is r (r: an integer of 3 or more), j takes a value of 1 to rp. That is, the difference
合算手段24は、差分画像生成手段23が生成した複数枚の差分画像G(x,y,σj)を合算し、合算画像AP(x,y)を生成する。位置推定手段50は、合算画像AP(x,y)における画素値に基づいてオブジェクトの位置を推定する。位置推定手段25は、例えば合算画像AP(x,y)において画素値(差分値を合計した値)が最も大きくなる位置を調べ、その位置をオブジェクトの位置として推定する。
The summing
サイズ推定手段26は、複数枚の差分画像G(x,y,σj)の画素値を比較し、最大の画素値を有する差分画像のスケールに基づいて、検出すべきオブジェクトのサイズを推定する。サイズ推定手段26は、例えば最大の画素値(差分値)を有する差分画像の生成元となった2枚の平滑化画像のうちのスケールが小さい方の平滑化画像内のスケールに基づいてオブジェクトのサイズを推定する。すなわちサイズ推定手段26は、式3又は式4に従って生成される複数枚の差分画像G(x,y,σj)のうちで、最大の差分値を有するスケールσjを求め、求めたスケールσjに基づいてオブジェクトの位置を推定する。
The size estimation means 26 compares the pixel values of a plurality of difference images G (x, y, σ j ), and estimates the size of the object to be detected based on the scale of the difference image having the maximum pixel value. . For example, the
上記のオブジェクトの位置及びサイズの推定について説明する。平滑化処理手段22は、オブジェクト形状に合わせたフィルタ特性を有する平滑化フィルタを用いて平滑化画像L(x,y,σi)を生成しており、この平滑化画像L(x,y,σi)は、特定の形状を持つ領域が強調され、他の領域が抑制された画像となる。例えば平滑化処理を数十回行ったときでも平滑化画像内にオブジェクトの輪郭成分が残るが、スケールσiが大きくなるほど、オブジェクトの領域はボケていくと共に広がっていく。 The estimation of the position and size of the object will be described. The smoothing processing means 22 generates a smoothed image L (x, y, σ i ) using a smoothing filter having a filter characteristic matched to the object shape, and this smoothed image L (x, y, σ i ) is an image in which a region having a specific shape is emphasized and other regions are suppressed. For example, even when the smoothing process is performed several tens of times, the contour component of the object remains in the smoothed image, but as the scale σ i increases, the area of the object blurs and expands.
平滑化画像L(x,y,σi)におけるオブジェクトの形状及びサイズは、入力画像内のオブジェクトの形状及びサイズとそれぞれ一致していると仮定する。この平滑化画像L(x,y,σi)でのオブジェクト形状及びサイズの顕著性を算出するために、あるスケールの平滑化画像に対して、そのスケールよりもスケールが大きい平滑化画像を背景として設定する。すなわちスケールσjの平滑化画像L(x,y,σj)対して、式3ではスケールσj×aの平滑化画像L(x,y,σj×a)を背景画像として設定し、式4ではスケールσj+pの平滑化画像L(x,y,σj+p)を背景として設定する。そして、式3又は式4に従って、スケールσjの平滑化画像と背景画像として設定する平滑化画像との差分画像G(x,y,σj)が、スケールσjの平滑化画像L(x,y,σj)におけるオブジェクトの顕著性として算出される。このように差分画像生成手段23においてオブジェクトの顕著性を数値化し、位置推定手段25及びサイズ推定手段26において、差分画像生成手段23において数値化されたオブジェクトの顕著性に基づいて、オブジェクトの位置及びサイズをそれぞれ推定する。
It is assumed that the shape and size of the object in the smoothed image L (x, y, σ i ) match the shape and size of the object in the input image, respectively. In order to calculate the saliency of the object shape and size in the smoothed image L (x, y, σ i ), a smoothed image having a scale larger than that scale is used as a background for the smoothed image of a certain scale. Set as. That scale sigma j of the smoothed image L (x, y, σ j ) for sets smoothed image L of
ここで、画像内においてオブジェクトが理想形状、すなわちフィルタ特性に最も合致した形状であって、かつ背景にノイズがない差分画像が、他の差分画像に比べて最大の信号を有する。言い換えれば、前処理済みの画像P(x,y)内のオブジェクトを構成する各画素の成分がオブジェクトの領域にほぼ等しくなるまで広がったとき、差分画像G(x,y,σj)内の差分値は最大となる。例えば画像P(x,y)内のオブジェクトが直径10画素の円形画素から構成される場合、複数の差分画像のうちで、j=10の差分画像G(x,y,σ10)(式3ではL(x,y,σ10)−L(x,y,σa×10)、式4ではL(x,y,σ10)−L(x,y,σ10+p))における差分値が、他の差分画像における差分値に比べて大きな値を有することになる。 Here, the difference image in which the object has an ideal shape in the image, that is, the shape that most closely matches the filter characteristics and has no noise in the background, has the maximum signal compared to the other difference images. In other words, when the component of each pixel constituting the object in the preprocessed image P (x, y) spreads to be approximately equal to the object region, the difference image G (x, y, σ j ) The difference value is the maximum. For example, when an object in the image P (x, y) is composed of circular pixels having a diameter of 10 pixels, among the plurality of difference images, the difference image G (x, y, σ 10 ) (equation 3) where j = 10. In L (x, y, σ 10 ) −L (x, y, σ a × 10 ), and in Equation 4, the difference value in L (x, y, σ 10 ) −L (x, y, σ 10 + p )) is Therefore, it has a larger value than the difference value in other difference images.
一方で、実際に画像内に映し出されるオブジェクトは、カメラとオブジェクトの位置関係や個体差などに応じて映り方が異なり、オブジェクトの輪郭形状及びサイズは理想形状になるとは限らない。つまり、オブジェクトの輪郭形状及びサイズは変動する。そこで、位置推定手段50は、複数の差分画像G(x,y,σj)を合算した合算画像AP(x,y)を用いてオブジェクトの位置を推定する。このようにすることで、オブジェクトの変動を吸収しながらオブジェクトの位置を推定できる。つまり、サイズが小さいオブジェクトからサイズが大きいオブジェクトに含まれる様々な輪郭形状の変動を持つオブジェクトに対して、平滑化画像を加算した合算画像AP(x,y)から最大値を検出することにより、変動を吸収しながら位置推定を行うことができる。 On the other hand, the object actually reflected in the image differs in the way it is reflected according to the positional relationship between the camera and the object, individual differences, and the like, and the contour shape and size of the object are not necessarily ideal. That is, the contour shape and size of the object vary. Therefore, the position estimating means 50 estimates the position of the object using the combined image AP (x, y) obtained by adding a plurality of difference images G (x, y, σ j ). By doing so, it is possible to estimate the position of the object while absorbing the variation of the object. That is, by detecting the maximum value from the summed image AP (x, y) obtained by adding the smoothed image to the object having various outline shape fluctuations included in the large object from the small object, Position estimation can be performed while absorbing fluctuations.
また、上述したように、式3、4におけるスケール番号jは、画像P(x,y)内における検出対象のオブジェクトのサイズに対応するパラメータである。オブジェクトのサイズが小さい場合にはスケール番号jが小さい差分画像G(x,y,σj)から最大値が検出され、オブジェクトのサイズが大きい場合にはスケール番号jが大きい差分画像G(x,y,σj)から最大値が検出される。サイズ推定手段60は、この性質を利用し、複数の差分画像の間で差分値同士を比較し、最大の差分値となる差分画像のスケール番号、すなわち平滑化処理の繰り返し回数からオブジェクトのサイズを推定する。
As described above, the scale number j in the
照合手段27は、位置推定手段25から推定されたオブジェクトの位置を入力し、サイズ推定手段26から推定されたオブジェクトのサイズを入力する。照合手段27は、入力されたオブジェクトの位置及びサイズの情報を用いて、入力画像(フレーム画像)からオブジェクトを検出する。より詳細には、照合手段27は、推定された位置の周辺領域をオブジェクトが存在する確率が高い領域として、その周辺領域からオブジェクトを検出する。このとき照合手段27は、サイズ推定手段26で推定されたサイズのオブジェクトを検出する。照合手段27が行うオブジェクト検出には、パターンマッチングやニューラルネットワークを用いたオブジェクト検出など、任意のオブジェクト検出手法を用いることができる。
The collating
図6は、オブジェクト検出手段12の動作手順を示す。前処理手段21は、フレームメモリ11(図1)からフレーム画像を読み出し、フレーム画像に対して前処理を行う(ステップS21)。すなわち、解像度変換手段51がフレーム画像を所定の解像度にまで低解像度化し、動き領域抽出手段52が低解像度化されたフレーム画像から動き領域を抽出する。前処理手段21は、前処理後の画像、すなわち解像度が低解像度化され、動き領域が白で背景領域が黒となるようにグレースケール化された画像P(x,y)を平滑化処理手段22に入力する。なお、前処理手段21における解像度変換及び動き領域抽出の何れか一方、又は双方を省略しても構わない。双方を省略する場合、フレーム画像を平滑化処理手段22に入力すればよい。
FIG. 6 shows an operation procedure of the object detection means 12. The preprocessing means 21 reads out a frame image from the frame memory 11 (FIG. 1) and performs preprocessing on the frame image (step S21). That is, the resolution conversion means 51 lowers the frame image to a predetermined resolution, and the motion area extraction means 52 extracts a motion area from the reduced resolution frame image. The pre-processing means 21 smoothes the pre-processed image, that is, the image P (x, y) gray-scaled so that the resolution is reduced and the motion area is white and the background area is black. 22 is input. Note that either one or both of resolution conversion and motion region extraction in the
平滑化処理手段23は、画像P(x,y)を入力し、画像P(x,y)に平滑化フィルタを畳み込む処理を繰り返すことで、スケールが異なる複数の平滑化画像L(x,y,σi)を生成する(ステップS22)。平滑化処理手段23は、フレーム画像そのものに対して平滑化フィルタを畳み込んでもよい。差分画像生成手段23は、スケールが異なる2つの平滑化画像間の差分を計算し、差分画像G(x,y,σj)を生成する(ステップS23)。差分画像生成手段23は、例えば式3を用いて、a×k枚の平滑化画像L(x,y,σi)からスケール番号1〜kのk枚の差分画像G(x,y,σ1)〜(x,y,σk)を生成する。あるいは差分画像生成手段23は、式4を用いて、r枚の平滑化画像L(x,y,σi)からスケール番号1〜r−pのr−p枚の差分画像G(x,y,σ1)〜(x,y,σr−p)を生成する。
The smoothing processing means 23 receives the image P (x, y), and repeats the process of convolving the smoothing filter with the image P (x, y), so that a plurality of smoothed images L (x, y with different scales) are obtained. , Σ i ) is generated (step S22). The smoothing
合算手段24は、差分画像生成手段23が生成した複数の差分画像を合算し、合算画像AP(x,y)を生成する(ステップS24)。合算手段24は、例えば差分画像生成手段23で生成されたk枚の差分画像G(x,y,σ1)〜(x,y,σk)の各画素値を全て加算する。位置推定手段25は、合算画像AP(x,y)に基づいて、オブジェクトが存在する位置を推定する(ステップS25)。位置推定手段25は、例えば合算画像AP(x,y)を構成する各画素位置の画素値(差分の合算値)を比較し、合算画像において最大の画素値を有する画素位置をオブジェクトの位置として推定する。
The summing
なお、合算手段24は、全ての差分画像を合算する必要はない。合算手段24は、例えば全k枚の差分画像のうちの任意数、及び任意のスケール番号の差分画像を合算してもよい。合算手段24は、例えば吸収したいサイズ変動幅に応じて、加算処理に用いる差分画像の数(合算する差分画像のスケール)を変更してもよい。例えば、検出対象のオブジェクトの種類に応じて吸収したいサイズ変動幅を設定しておき、あるオブジェクトについては、スケール番号が小さい、具体的にはスケール番号1、2の差分画像G(x,y,σ1)、(x,y,σ2)を合算から除外して、スケール番号3〜kの差分画像G(x,y,σ3)〜(x,y,σk)を合算してもよい。また、合算手段24が、スケール番号1から、kよりも小さい任意のスケール番号までの差分画像(x,y,σj)を合算してもよい。
Note that the summing
サイズ推定手段26は、複数の差分画像G(x,y,σj)に基づいて、オブジェクトのサイズを推定する(ステップS26)。サイズ推定手段26は、例えばk枚の差分画像間で、位置推定手段25で推定されたオブジェクトの位置の周辺の画素の画素値(差分値)を比較する。サイズ推定手段26は、最大の画素値を与える差分画像のスケールを特定する。あるいはサイズ推定手段26は、推定されたオブジェクトの位置の周辺だけではなく、差分画像の全画素の画素値を比較し、最大の画素値を与える差分画像のスケールを特定してもよい。平滑化処理を行うことで画像内の像はどの程度広がるか(ボケるか)は既知であるため、差分最大を与えるスケールが判明すれば、そのスケール番号に基づいてオブジェクトのサイズが推定できる。また、上述のように検出対象であるオブジェクトは変動するため、サイズ推定手段26は、最も大きい差分値を有する差分画像から推定したサイズ±α(αは所定の値)をオブジェクトのサイズとして推定するようにしてもよい。
The size estimation means 26 estimates the size of the object based on the plurality of difference images G (x, y, σ j ) (step S26). The
照合手段27は、推定されたオブジェクトの位置及びサイズを利用して、フレーム画像からオブジェクトを検出する(ステップS27)。例えば照合手段27がパターンマッチングを用いてオブジェクトの検出を行う場合、照合手段27は、推定されたオブジェクトの位置の周辺領域でパターンマッチングを行う。その際、照合手段27は、推定されたオブジェクトのサイズに適合するサイズのパターンを用いてパターンマッチングを行う。照合手段27が、推定されたオブジェクトの位置の周辺で、推定されたサイズのオブジェクトを検出することで、効率のよいオブジェクト検出が可能となる。
The matching
比較例としてDOG画像を用いたオブジェクト検出を考えると、DOG画像を用いたオブジェクト検出では隣接するスケールの平滑化画像間の差分を全て求める必要があり、生成する必要がある差分画像の枚数が多くなる。図5に示すオブジェクト検出手段12を用いる場合、あるスケールの平滑化画像と、そのスケールから所定スケールだけ離れたスケールの平滑化画像との差分を差分画像として生成すればよく、DOG画像を用いたオブジェクト検出に比して、差分画像の生成枚数を少なくすることができる。このため、効率的に精度良くオブジェクトの位置を推定することができる。また、図5に示す構成のオブジェクト検出手段12では、多重解像度画像を生成しなくてもオブジェクトのサイズの推定することができ、効率的にオブジェクトのサイズを推定することができる。
Considering object detection using a DOG image as a comparative example, object detection using a DOG image requires finding all differences between smoothed images of adjacent scales, and the number of difference images that need to be generated is large. Become. When the
特に、平滑化処理手段22においてa×k枚の平滑化画像L(x,y,σ1)〜(x,y,σa×k)を生成し、差分画像生成手段23において、式3を用いて、スケールσjの平滑化画像L(x,y,σj)とスケールσa×jの平滑化画像L(x,y,σa×j)との差分を差分画像G(x,y,σj)として求める場合、オブジェクトのサイズの様々な変動に合わせて、オブジェクトの位置を精度よく推定することができる。また、オブジェクトのサイズの推定を精度よく行うことができる。 In particular, the smoothing processing unit 22 generates a × k smoothed images L (x, y, σ 1 ) to (x, y, σ a × k ). used, scale sigma j of the smoothed image L (x, y, σ j ) the scale sigma smoothed image L of a × j (x, y, σ a × j) and subtracting a difference image G (x in, When obtaining as y, σ j ), the position of the object can be accurately estimated in accordance with various variations in the size of the object. Also, the object size can be estimated with high accuracy.
なお、上記の説明では、動き領域抽出手段52が動き領域(オブジェクト)を白、背景領域を黒とするようなグレースケール化処理又は2値化処理を行うものとして説明したが、動き領域抽出手段52の動作はこれには限定されない。例えば動き領域抽出手段52は、動き領域を黒、背景領域を白とするようなグレースケール化処理又は2値化処理を行ってもよい。その場合には、位置推定手段25は、合算画像AP(x,y)において、画素値が最小となる画素位置を、オブジェクトの位置として推定すればよい。また、サイズ推定手段26は、複数の差分画像のうちで最小の画素値(差分値)を与える差分画像のスケールに基づいて、オブジェクトのサイズを推定すればよい。
In the above description, the motion
また、上記の説明では、オブジェクト検出手段12が動画像からオブジェクトを1つ検出する例を説明したが、オブジェクト検出手段12において複数のオブジェクトを検出してもよい。例えばオブジェクト検出手段12が検出すべきオブジェクトの数をMとする。その場合、位置推定手段25は、合算画像AP(x,y)の画素値を大きい順に並べ、上位M個の画素位置を、各オブジェクトの位置として推定すればよい。つまり、合算画像AP(x,y)において画素値が大きい順にM個の画素位置をオブジェクトの位置として推定すればよい。サイズ推定手段26は、推定されたM個のオブジェクトの位置の周辺において、最大の画素値を与える差分画像のスケールに基づいて、各オブジェクトのサイズを推定すればよい。
In the above description, the example in which the
オブジェクト検出手段12は、オブジェクト追跡処理手段13の第1の追跡手段32が追跡しているオブジェクトは検出対象から除外する。例えばオブジェクト検出手段12は、第1の追跡処理部32から追跡中のオブジェクトの現在フレームにおける位置を受け取り、追跡中のオブジェクトの位置の画素値を“0”とし、それ以外の位置の画素値を“1”とするマスク画像を生成する。位置推定手手段25は、合算画像AP(x,y)とマスク画像との積を取り、その積を取った画像において画素値が最大となる位置をオブジェクトの位置として推定すればよい。また、サイズ推定手段26は、各差分画像G(x,y,σj)とマスク画像との積を取り、その積を取った各画像において最大の画素値を与えるスケールに基づいてオブジェクトのサイズを推定すればよい。追跡中のオブジェクトの位置をオブジェクト検出の対象から除外する手法は、マスク画像を用いる手法には限定されず、任意の手法でよい。
The
引き続き、動画オブジェクト検出装置10(図1)の全体的な動作手順いついて説明する。図7は、動画オブジェクト検出装置10の動作手順を示す。フレームメモリ11は、順次に入力されるフレーム画像を記憶する(ステップS31)。動きベクトル場計測手段31(図3)は、現在フレーム画像と過去のフレーム画像とに基づいて動きベクトル場を計測する(ステップS32)。動きベクトル場計測手段31は、例えば図4に示す手順に従って動きベクトル場を計測する。
Subsequently, the overall operation procedure of the moving image object detection device 10 (FIG. 1) will be described. FIG. 7 shows an operation procedure of the moving image
第1の追跡手段32は、オブジェクトリスト記憶部14から処理対象のオブジェクトの過去フレーム画像における位置を取得する(ステップS33)。第1の追跡手段32は、過去フレーム画像から現在フレーム画像方向にオブジェクトを追跡し、処理対象のオブジェクトの現在フレーム画像における位置を推定する(ステップS34)。第1の追跡手段32は、ステップS32で求められた動きベクトル場と過去フレーム画像におけるオブジェクトの位置とに基づいて、現在フレームにおけるオブジェクトの位置を推定する。
The
第1の追跡手段32は、推定した現在フレーム画像におけるオブジェクトの位置を、オブジェクトリスト記憶部14に記憶する。第1の追跡手段32は、例えば処理対象のオブジェクトのIDと、現在フレーム画像のフレームIDと、推定したオブジェクトの位置とを関連付けてオブジェクトリスト記憶部14に記憶する。
The
第1の追跡手段32は、オブジェクトリスト記憶部14に未処理のオブジェクトが存在するか否かを判断する(ステップS35)。第1の追跡手段32は、未処理のオブジェクトが存在するときはステップS33に戻り、未処理のオブジェクトの中から1つを選択し、選択したオブジェクトの位置を取得する。
The
第1の追跡手段32は、未処理のオブジェクトがなくなるまでステップS33からステップS35を繰り返し実行し、オブジェクトリスト記憶部14に記憶された各オブジェクトについて、現在フレームにおけるオブジェクトの位置を推定し、推定したオブジェクトリスト記憶部14に記憶する。未処理のオブジェクトがなくなると、過去フレーム画像から現在フレーム画像方向へのオブジェクトの追跡処理が終了する。なお、オブジェクトリスト記憶部14に記憶されたオブジェクトが1つも存在しないときは、ステップS33からステップS35をスキップすればよい。
The
オブジェクト検出手段12は、現在フレーム画像からオブジェクトを所定個数、例えば1つ検出する(ステップS36)。オブジェクト検出手段12は、例えば図6に示す手順に従ってオブジェクトを検出する。オブジェクト検出部12は、オブジェクトを検出したか否かを判断する(ステップS37)。オブジェクト検出部12において、現在フレーム画像からオブジェクトができなかったときは、現在フレーム画像に対する処理を終了する。
The object detection means 12 detects a predetermined number, for example, one object from the current frame image (step S36). The object detection means 12 detects an object according to the procedure shown in FIG. 6, for example. The
オブジェクト検出手段12は、オブジェクトを検出すると、その検出したオブジェクトの位置をオブジェクトリスト記憶部14に記憶する(ステップS38)。オブジェクト検出手段12は、例えば現在フレーム画像から検出したオブジェクトに新規オブジェクトIDを割り当て、割り当てたオブジェクトIDと、現在フレーム画像のフレームIDと、検出したオブジェクトの位置とを対応付けてオブジェクトリスト記憶部14に記憶する。
When detecting the object, the object detection means 12 stores the position of the detected object in the object list storage unit 14 (step S38). For example, the
オブジェクト検出手段12は、現在フレーム画像において新たなオブジェクトが検出された旨を第2の追跡手段33に通知する。第2の追跡手段33は、現在フレーム画像の時刻よりも以前の時刻に遡ってオブジェクトを追跡し、過去フレームにおけるオブジェクトの位置を推定する(ステップS39)。第2の追跡手段33は、ステップS32で求められた動きベクトル場と現在フレームにおいて検出されたオブジェクトの位置とに基づいて、過去フレームにおけるオブジェクトの位置を推定する。第2の追跡手段33は、例えば所定フレーム数だけ過去方向に遡ってオブジェクトを追跡する。あるいはオブジェクトが追跡できなくなるまで、過去方向に遡ってオブジェクトを追跡してもよい。 The object detection means 12 notifies the second tracking means 33 that a new object has been detected in the current frame image. The second tracking unit 33 tracks the object by tracing back the time before the time of the current frame image, and estimates the position of the object in the past frame (step S39). The second tracking unit 33 estimates the position of the object in the past frame based on the motion vector field obtained in step S32 and the position of the object detected in the current frame. The second tracking unit 33 tracks the object by going back in the past direction by a predetermined number of frames, for example. Alternatively, the object may be traced back in the past direction until the object cannot be traced.
ところで、仮にステップS32における動きベクトル場の計測を、追跡すべきオブジェクト(追跡中のオブジェクト)の周辺のみで行うものとした場合、過去方向にオブジェクトを追跡するためには、動きベクトル場の再計測が必要になる。この場合、1つのフレーム画像に対する処理を一定の時間以内で終わらせることが困難になると考えられる。動きベクトル場の計測を、追跡中のオブジェクトの周辺のみで行うのではなく、フレーム画像の全体に対して動きベクトル場を計測しけば、動きベクトル場の再計測は不要であり、第2の追跡手段33の追跡処理を余計な時間をかけずに行うことができる。 By the way, if the measurement of the motion vector field in step S32 is performed only around the object to be tracked (the object being tracked), the motion vector field is re-measured to track the object in the past direction. Is required. In this case, it is considered difficult to finish the processing for one frame image within a certain time. If the motion vector field is not measured only around the object being tracked, but the motion vector field is measured for the entire frame image, it is not necessary to re-measure the motion vector field. The tracking process of the tracking means 33 can be performed without taking extra time.
第2の追跡手段33は、推定した過去フレーム画像におけるオブジェクトの位置を、オブジェクトリスト記憶部14に記憶する。第2の追跡手段33は、例えば検出されたオブジェクトのIDと、位置が推定された過去フレーム画像のフレームIDと、推定したオブジェクトの位置とを関連付けてオブジェクトリスト記憶部14に記憶する。第2の追跡手段33は、ステップS36で検出されたオブジェクトが複数あるときは、そのそれぞれに対して過去フレーム画像におけるオブジェクトの位置を推定する。過去方向へのオブジェクトの追跡が終了すると、現在フレーム画像に対する処理が終了する。
The second tracking unit 33 stores the estimated position of the object in the past frame image in the object
本実施形態では、ある時刻のフレーム画像においてオブジェクトが検出されると、第1の追跡手段32(図2)がオブジェクトの検出時刻よりも後の時刻のフレーム画像におけるオブジェクトの位置を複数フレーム間で追跡すると共に、第2の追跡手段33が、オブジェクトが検出された時刻よりも前の時刻に遡って複数フレーム間でオブジェクトの位置を追跡する。本実施形態では、ある時刻のフレーム画像において、オブジェクトが例えば画像上で他のオブジェクトや何らかの物体と重なることにより、そのオブジェクトが検出できなかったとしても、その後のフレーム画像においてオブジェクトが検出されたときに、第2の追跡手段33が時間を遡ってオブジェクトを追跡する。このため、ある時刻においてオブジェクトの検出漏れがあったとしても、そのある時刻におけるオブジェクトの位置を後の時刻において推定することができる。 In the present embodiment, when an object is detected in a frame image at a certain time, the first tracking unit 32 (FIG. 2) sets the position of the object in the frame image at a time later than the object detection time between a plurality of frames. In addition to tracking, the second tracking means 33 tracks the position of the object between a plurality of frames, going back to the time before the time when the object was detected. In the present embodiment, when an object is detected in a subsequent frame image even if the object cannot be detected because the object overlaps another object or some object on the image, for example, in a frame image at a certain time In addition, the second tracking means 33 tracks the object by going back in time. For this reason, even if there is an object detection failure at a certain time, the position of the object at that certain time can be estimated at a later time.
本実施形態では、オブジェクトが検出されたときに、そのオブジェクトの過去フレーム画像における位置を時間を遡って追跡するため、各時刻において無理にオブジェクトを検出する必要がない。言い換えれば、各時刻においてオブジェクトの検出漏れが許容される。本実施形態では、各時刻においてオブジェクトの検出漏れを許容することができるため、オブジェクト検出においてオブジェクトの検出条件を厳しく設定することができる。例えば、現在フレーム画像に複数のオブジェクトが存在する場合でも、オブジェクト検出手段12において検出するオブジェクトの数を1つに制限することができる。オブジェクトの検出条件を厳しく設定し、オブジェクトらしさが低いオブジェクトはオブジェクトとして検出しないようにすることで、誤検出を抑制できる。 In the present embodiment, when an object is detected, the position of the object in the past frame image is traced back in time, so that it is not necessary to detect the object at each time. In other words, omission of object detection is allowed at each time. In the present embodiment, since object detection omissions can be allowed at each time, object detection conditions can be set strictly in object detection. For example, even when there are a plurality of objects in the current frame image, the number of objects detected by the object detection means 12 can be limited to one. By setting strict object detection conditions so that objects with low object-likeness are not detected as objects, false detection can be suppressed.
単にオブジェクトの検出条件を厳しく設定するだけであれば、誤検出は抑制できるものの、検出漏れが発生することになる。この検出漏れの発生に対し、本実施形態では、オブジェクト検出時に過去方向にオブジェクトを追跡する第2の追跡手段33を用いる。第2の追跡手段33が、オブジェクトが検出されたときに、過去フレーム方向にオブジェクトを追跡することで、過去フレームにおいて検出できなかったオブジェクトの位置を推定することができる。これにより、過去フレーム画像におけるオブジェクトの検出漏れを補償できる。従って、本実施形態では、オブジェクトの誤検出の抑制と、検出漏れの抑制との双方を実現できる。また、本実施形態では、特許文献3とは異なり、オブジェクトとは別にオブジェクトの候補を検出し、そのオブジェクトの候補を追跡する必要がないため、処理負荷が無駄に高くなることはない。
If the object detection conditions are simply set strictly, erroneous detection can be suppressed, but detection failure will occur. In the present embodiment, the second tracking unit 33 that tracks the object in the past direction when the object is detected is used for the occurrence of this detection omission. When the second tracking unit 33 detects an object, it tracks the object in the past frame direction, so that the position of the object that could not be detected in the past frame can be estimated. Thereby, it is possible to compensate for an object detection omission in the past frame image. Therefore, in the present embodiment, it is possible to realize both suppression of erroneous detection of an object and suppression of detection omission. Also, in this embodiment, unlike
図8は、具体的な処理例を示す。時刻t以前に検出され、オブジェクトリスト記憶部14に記憶されたオブジェクトは存在しないものとする。時刻tのフレーム画像が入力されると、オブジェクト検出手段12は、図7のステップS36でオブジェクトを1つ検出する。時刻tのフレーム画像には2つのオブジェクトが登場している。しかし、紙面向かって左側のオブジェクトは柱に隠れており、オブジェクトらしさを示すオブジェクトの信頼度が低い。オブジェクト検出手段12は、ステップS36において紙面向かった右側のオブジェクトを検出する。このオブジェクトをオブジェクトAとする。
FIG. 8 shows a specific processing example. It is assumed that there is no object detected before time t and stored in the object
オブジェクト検出手段12は、ステップS38でオブジェクトAのオブジェクトIDと、時刻tのフレーム画像のフレームIDと、オブジェクトAの位置とをオブジェクトリスト記憶部14に記憶する。オブジェクト検出手段12はオブジェクトAが検出された旨を第2の追跡手段33に通知する。オブジェクトAは、時刻tのフレーム画像において初めて登場したオブジェクトであり、第2の追跡手段33がステップS39において過去フレーム画像方向へオブジェクトを追跡しても、時刻t以前のフレーム画像にオブジェクトAに対応するオブジェクトは存在しないものとする。
In step S38, the
時刻t+1のオブジェクト画像が入力されると、動きベクトル場計測手段31は、ステップS32で時刻tのフレーム画像と時刻t+1のフレーム画像とから動きベクトル場を計測する。第1の追跡手段32は、ステップS33で、オブジェクトリスト記憶部14からオブジェクトAの時刻tのフレーム画像における位置を取得する。第1の追跡手段32は、ステップS34で、動きベクトル場におけるオブジェクトAの位置の動きベクトルに基づいて時刻tにおけるオブジェクトAの位置を移動し、時刻t+1におけるオブジェクトAの位置を推定する。オブジェクトリスト記憶部14にはオブジェクトAしか記憶されていないため、オブジェクトAの現在フレームにおける位置の推定が終わると、ステップS36のオブジェクトの検出へと進む。
When the object image at time t + 1 is input, the motion vector
オブジェクト検出手段12は、ステップS36において、時刻t+1のフレーム画像のオブジェクトAの位置として推定された位置を除く部分からオブジェクトの検出を試みる。時刻t+1のフレーム画像には、時刻tのフレーム画像にも含まれていた柱に隠れていたオブジェクトに加えて、柱の前を横切るオブジェクトが登場している。しかし、これらオブジェクトは画像上で柱と重なっていることからオブジェクトの信頼度が低く、オブジェクト検出手段12は、時刻t+1のフレーム画像からはオブジェクトを検出しない。
In step S36, the object detection means 12 tries to detect the object from the portion excluding the position estimated as the position of the object A in the frame image at
時刻t+2のフレーム画像が入力されると、動きベクトル場計測手段31は、ステップS32で時刻t+1のフレーム画像と時刻t+2のフレーム画像とから動きベクトル場を計測する。第1の追跡手段32は、ステップS33で、オブジェクトリスト記憶部14からオブジェクトAの時刻t+1のフレーム画像における位置を取得する。第1の追跡手段32は、ステップS34で、動きベクトル場におけるオブジェクトAの位置の動きベクトルに基づいて時刻t+1におけるオブジェクトAの位置を移動し、時刻t+2におけるオブジェクトAの位置を推定する。オブジェクトリスト記憶部14にはオブジェクトAしか記憶されていないため、オブジェクトAの現在フレームにおける位置の推定が終わると、ステップS36のオブジェクトの検出へと進む。
When the frame image at time t + 2 is input, the motion vector field measuring means 31 measures the motion vector field from the frame image at time t + 1 and the frame image at time t + 2 in step S32. In step S33, the
オブジェクト検出手段12は、ステップS36において、時刻t+2のフレーム画像のオブジェクトAの位置として推定された位置を除く部分からオブジェクトの検出を試みる。時刻t+2のフレーム画像には、時刻t+1のフレーム画像において画像上で柱と重なっていた2つのオブジェクトが柱から離れた位置に存在する。オブジェクト検出手段12は、これら2つのオブジェクトのうちでオブジェクトの信頼度が高い方を検出する。オブジェクト検出手段12は、例えば紙面向かって下側のオブジェクトを検出する。このオブジェクトをオブジェクトBとする。
In step S36, the object detection means 12 tries to detect the object from the portion excluding the position estimated as the position of the object A in the frame image at
オブジェクト検出手段12は、ステップS38でオブジェクトBのオブジェクトIDと、時刻t+2のフレーム画像のフレームIDと、オブジェクトBの位置とをオブジェクトリスト記憶部14に記憶する。オブジェクト検出手段12はオブジェクトBが検出された旨を第2の追跡手段33に通知する。第2の追跡手段33は、時刻t+2におけるオブジェクトBの位置をステップS32で求められた動きベクトル場に基づいて移動させ、時刻t+1におけるオブジェクトBの位置を推定する。このようにすることで、時刻t+1においてオブジェクト検出手段12で検出できなかった、画像上で柱と重なるオブジェクトBの位置を、オブジェクトリスト記憶部14に記憶することができる。
In step S38, the
時刻t+3のフレーム画像が入力されると、動きベクトル場計測手段31は、ステップS32で時刻t+2のフレーム画像と時刻t+3のフレーム画像とから動きベクトル場を計測する。第1の追跡手段32は、ステップS33で、オブジェクトリスト記憶部14からオブジェクトAの時刻t+2のフレーム画像における位置を取得する。第1の追跡手段32は、ステップS34で、動きベクトル場におけるオブジェクトAの位置の動きベクトルに基づいて時刻t+2におけるオブジェクトAの位置を移動し、時刻t+3におけるオブジェクトAの位置を推定する。
When the frame image at time t + 3 is input, the motion vector field measuring means 31 measures the motion vector field from the frame image at time t + 2 and the frame image at time t + 3 in step S32. In step S33, the
第1の追跡手段32は、オブジェクトリスト記憶部14にはオブジェクトBが未処理のオブジェクトとして残っているため、ステップS35からステップS33に戻り、時刻t+2のフレーム画像におけるオブジェクトBの位置を取得する。第1の追跡手段32は、ステップS34で、動きベクトル場におけるオブジェクBの位置の動きベクトルに基づいて時刻t+2におけるオブジェクトBの位置を移動し、時刻t+3におけるオブジェクトBの位置を推定する。オブジェクトBに対する処理が終わると、オブジェクトリスト記憶部14には未処理のオブジェクトが存在しないため、ステップS36のオブジェクトの検出へと進む。
Since the object B remains as an unprocessed object in the object
オブジェクト検出手段12は、ステップS36において、時刻t+3のフレーム画像のオブジェクトA及びBの位置として推定された位置を除く部分からオブジェクトの検出を試みる。オブジェクト検出手段12は、時刻t+3のフレーム画像のオブジェクトの信頼度が最も高い位置からオブジェクトを検出する。このオブジェクトをオブジェクトCとする。
In step S36, the object detection means 12 tries to detect an object from a portion excluding the positions estimated as the positions of the objects A and B in the frame image at
オブジェクト検出手段12は、ステップS38でオブジェクトCのオブジェクトIDと、時刻t+3のフレーム画像のフレームIDと、オブジェクトCの位置とをオブジェクトリスト記憶部14に記憶する。オブジェクト検出手段12はオブジェクトCが検出された旨を第2の追跡手段33に通知する。第2の追跡手段33は、時刻t+3におけるオブジェクトCの位置をステップS32で求められた動きベクトル場に基づいて移動させ、時刻t+2におけるオブジェクトCの位置を推定する。第2の追跡手段33は、更に時刻t−1、時刻tへと遡って、遡った時刻のフレーム画像におけるオブジェクトCの位置を推定してもよい。
In step S38, the
オブジェクトリスト記憶部14には、オブジェクトAに対して、時刻t、時刻t+1、時刻t+2、及び時刻t+3の各フレーム画像における位置が記憶される。オブジェクトBに対しては、時刻t+1、時刻t+2、及び時刻t+3の各フレーム画像における位置が記憶される。また、オブジェクトCに対しては、時刻t+2及び時刻t+3の各フレーム画像における位置が記憶される。オブジェクトBについては、その検出時刻は時刻t+2であるものの、未来方向だけでなく過去方向への追跡も行うことで、検出時刻よりも前の時刻t−1におけるオブジェクトBの位置をオブジェクトリスト記憶部14に記憶することができる。また、オブジェクトCについては、その検出時刻t+3よりも前の時刻t+2におけるオブジェクトCの位置をオブジェクトリスト記憶部14に記憶することができる。このように、誤検出の抑制を目的にオブジェクト検出条件を厳しく設定しても、オブジェクトの検出漏れを抑制できる効果がある。
The object
なお、上記実施形態では、動きベクトル場計測手段31が対象フレーム画像の全体に対して動きベクトル場を計測するものとして説明したが、これには限定されない。例えばフレーム画像においてオブジェクトが検出されないことが明らかな領域があるような場合には、その領域を動きベクトル場の計測から除外してもよい。また、図7に示す動作手順は例示であり、必ずしもその手順に限定されるわけではない。例えばオブジェクトの追跡に関する処理(ステップS32〜S35)と、オブジェクトの検出(ステップS36)の一部とを並列に行うことも可能である。具体的には、図4における各ステップと、図6におけるステップS24までの処理とを並列に行うことができる。図6のオブジェクトの位置推定(ステップS25)以降の処理については、現在時刻のフレーム画像における追跡中のオブジェクトの位置が求まった後に行えばよい。
In the above embodiment, the motion vector
本実施形態の動画オブジェクト検出装置10は、例えば商店やイベント会場などに設置されたカメラから動画像を入力し、客やイベント参加者などがどのように売り場やイベント会場内を動いたかを記録する用途に適用できる。また、動画像の圧縮において、特定のオブジェクト部分とそれ以外の部分とで圧縮のパラメータを変更して圧縮を行うといった用途に適用することができる。例えばオブジェクトリスト記憶部14に記憶されたオブジェクトの位置に相当する領域の圧縮率を、その他の領域よりも低く設定して圧縮を行うことで、画像全体の圧縮率を上げてファイルサイズを小さく抑えつつも、オブジェクトの領域の情報の欠落を抑えることが可能になる。
The moving image
以上、本発明をその好適な実施形態に基づいて説明したが、本発明の動画オブジェクト検出装置、方法、及びプログラムは、上記実施形態にのみ限定されるものではなく、上記実施形態の構成から種々の修正及び変更を施したものも、本発明の範囲に含まれる。 As mentioned above, although this invention was demonstrated based on the suitable embodiment, the moving image object detection apparatus of this invention, a method, and a program are not limited only to the said embodiment, Various from the structure of the said embodiment. Those modified and changed as described above are also included in the scope of the present invention.
10:動画オブジェクト検出装置
11:フレームメモリ
12:オブジェクト検出手段
13:オブジェクト追跡処理手段
21:前処理手段
22:平滑化処理手段
23:差分画像生成手段
24:合算手段
25:位置推定手段
26:サイズ推定手段
27:照合手段
31:動きベクトル場計測手段
32:第1の追跡手段
33:第2の追跡手段
40:解像度変換手段
41:動きベクトル分布算出手段
42:平均化処理手段
43:動きベクトル検出手段
44:誤計測判定手段44
51:解像度変換手段
52:動き領域抽出手段
10: Movie object detection device 11: Frame memory 12: Object detection means 13: Object tracking processing means 21: Preprocessing means 22: Smoothing processing means 23: Difference image generation means 24: Summation means 25: Position estimation means 26: Size Estimating means 27: collating means 31: motion vector field measuring means 32: first tracking means 33: second tracking means 40: resolution converting means 41: motion vector distribution calculating means 42: averaging processing means 43: motion vector detection Means 44: erroneous measurement determination means 44
51: Resolution conversion means 52: Motion region extraction means
Claims (25)
前記オブジェクトリスト記憶部に記憶されたオブジェクトの位置を、当該オブジェクトが検出された時刻以後、複数フレーム間で追跡し、該追跡したオブジェクトの位置をオブジェクトリスト記憶部に記憶する第1の追跡手段と、前記オブジェクト検出手段でオブジェクトが新たに検出されたとき、該新たに検出されたオブジェクトの位置を、当該オブジェクトが検出されたフレーム画像の時刻よりも前の時刻に遡って複数フレーム間で追跡し、該追跡したオブジェクトの位置を前記オブジェクトリスト記憶部に記憶する第2の追跡手段とを含む手段オブジェクト追跡処理手段とを備えたことを特徴とする動画オブジェクト検出装置。 Object detection means for detecting an object from a frame image of a moving image composed of a plurality of frames, and storing the position of the detected object in an object list storage unit;
First tracking means for tracking the position of the object stored in the object list storage unit between a plurality of frames after the time when the object is detected, and storing the position of the tracked object in the object list storage unit; When the object is newly detected by the object detection means, the position of the newly detected object is traced between a plurality of frames, going back to the time before the time of the frame image where the object is detected. A moving image object detection apparatus comprising: means tracking processing means including second tracking means for storing the position of the tracked object in the object list storage unit.
N=(n/S)×(100/P)
で求まるNを整数化した個数だけオブジェクトを検出するものであることを特徴とする請求項1に記載の動画オブジェクト検出装置。 The object detection means sets the assumed number of appearances indicating the number of objects assumed to be included in one frame image, n, the estimated number of effective shots indicating how many frames of one object are shot, and the detection of the object The probability is P (%), and from one frame image, the following formula:
N = (n / S) × (100 / P)
2. The moving image object detection apparatus according to claim 1, wherein the object is detected by the number obtained by converting N obtained by (1) into an integer.
前記第1の追跡手段が、前記動きベクトル場計測手段で求められた動きベクトル場と、前記オブジェクトリスト記憶部に記憶されたオブジェクトの位置とに基づいて、複数のフレーム間でオブジェクトの位置を追跡し、前記第2の追跡手段が、前記動きベクトル場計測手段で求められた動きベクトル場と、前記オブジェクト検出手段で新たに検出されたオブジェクトの位置とに基づいて、前の時刻に遡ってオブジェクトの位置を追跡するものであることを特徴とする請求項1から3何れかに記載の動画オブジェクト検出装置。 The object tracking processing unit sequentially inputs the frame images, and obtains a motion vector field based on a frame image to be processed at present and a frame image at a time before the frame image. Further including
The first tracking unit tracks the position of the object between a plurality of frames based on the motion vector field obtained by the motion vector field measuring unit and the position of the object stored in the object list storage unit. Then, the second tracking unit is configured to return the object to the previous time based on the motion vector field obtained by the motion vector field measuring unit and the position of the object newly detected by the object detection unit. 4. The moving image object detection apparatus according to claim 1, wherein the position of the moving image object is tracked. 5.
対象フレーム上の動きベクトル計測の対象となる対象画素について、参照フレームを対象フレームに対して動きベクトル検出空間に対応する所定範囲内でずらしつつ、各ずらし量に対して、前記対象画素と該対象画素に対応する参照フレームの画素との相関を表わすスコアの分布である動きベクトル分布を算出する動きベクトル分布算出手段と、
前記動きベクトル分布に基づいて、前記対象画素における動きベクトルを検出する動きベクトル検出手段と、
前記動きベクトル分布に基づいて、前記検出された動きベクトルが誤計測であるか否かを判定する誤計測判定手段とを含むことを特徴とする請求項4に記載のオブジェクト検出装置。 The motion vector field measuring means is
For the target pixel that is the target of motion vector measurement on the target frame, the target pixel and the target are shifted with respect to each shift amount while shifting the reference frame within a predetermined range corresponding to the motion vector detection space with respect to the target frame. Motion vector distribution calculating means for calculating a motion vector distribution which is a score distribution representing a correlation with a pixel of a reference frame corresponding to the pixel;
Motion vector detection means for detecting a motion vector in the target pixel based on the motion vector distribution;
The object detection apparatus according to claim 4, further comprising: an erroneous measurement determination unit that determines whether the detected motion vector is an erroneous measurement based on the motion vector distribution.
前記動きベクトル検出手段が、更に、前記別の動きベクトル分布に基づいて、前記参照フレーム上の前記対象画素に対応する画素における別の動きベクトルを検出し、
前記誤計測判定手段が、前記動きベクトル分布に基づいて前記検出された動きベクトルが誤計測であるか否かを判定するのに代えて、又はこれに加えて、前記動きベクトルと前記別の動きベクトルとの関係に基づいて誤計測であるか否を判定するものであることを特徴とする請求項5から7何れかに記載のオブジェクト検出装置。 The motion vector distribution calculating unit further shifts the target frame on the reference frame with respect to each shift amount while shifting the target frame with respect to the reference frame within a predetermined range corresponding to the motion vector detection space. Calculating another motion vector distribution, which is a score distribution representing a correlation between a pixel corresponding to the target pixel on the reference frame and the corresponding pixel,
The motion vector detection means further detects another motion vector in a pixel corresponding to the target pixel on the reference frame based on the another motion vector distribution;
Instead of, or in addition to, determining whether the detected motion vector is an erroneous measurement based on the motion vector distribution, the erroneous measurement determination unit and the another motion 8. The object detection apparatus according to claim 5, wherein it is determined whether or not an erroneous measurement is made based on a relationship with a vector.
前記誤計測判定手段が、前記動きベクトル分布に基づいて前記検出された動きベクトルが誤計測であるか否かを判定するのに代えて、又はこれに加えて、前記検出された動きベクトルの位置に対応するずらし量に対して算出された自己動きベクトル分布におけるスコアに基づいて誤計測であるか否かを判定するものであることを特徴とする請求項5から9何れかに記載のオブジェクト検出装置。 The motion vector distribution calculating unit further shifts the target pixel for each shift amount while shifting the target frame with respect to the target pixel within a predetermined range corresponding to the motion vector detection space. Further calculate a self-motion vector distribution which is a distribution of scores representing the correlation of the self,
Instead of or in addition to determining whether or not the detected motion vector is an erroneous measurement based on the motion vector distribution, the erroneous measurement determination unit determines the position of the detected motion vector. 10. The object detection according to claim 5, wherein it is determined whether or not an erroneous measurement is made based on a score in the self-motion vector distribution calculated with respect to the shift amount corresponding to. apparatus.
検出すべきオブジェクトの輪郭形状に対応したフィルタ特性を有する平滑化フィルタを画像に畳み込む処理を繰り返し行うことにより、前記フレーム画像からスケールが異なる複数枚の平滑化画像を生成する平滑化処理手段と、
前記複数枚の平滑化画像のうち、スケールが互いに異なる2枚の平滑化画像間の差分画像を、スケールを変えつつ複数枚生成する差分画像生成手段と、
前記複数枚の差分画像を合算し合算画像を生成する合算手段と、
前記合算画像における画素値に基づいて検出すべきオブジェクトの位置を推定する位置推定手段と、
前記フレーム画像から、前記推定された位置の周辺でオブジェクトを検出する照合手段とを含むものであること特徴とする請求項1から11何れかに記載の動画オブジェクト検出装置。 The object detection means is
Smoothing processing means for generating a plurality of smoothed images having different scales from the frame image by repeatedly performing a process of convolving a smoothing filter having filter characteristics corresponding to the contour shape of the object to be detected, on the image;
A difference image generating means for generating a plurality of difference images between two smoothed images having different scales among the plurality of smoothed images, while changing the scale;
A summing means for summing the plurality of difference images to generate a summed image;
Position estimating means for estimating a position of an object to be detected based on a pixel value in the combined image;
The moving image object detection device according to claim 1, further comprising: a matching unit that detects an object around the estimated position from the frame image.
G(x,y,σj)=L(x,y,σj)−L(x,y,σj×a)
を用いて差分画像G(x,y,σj)を生成するものであることを特徴とする請求項17に記載の動画オブジェクト検出装置。 The difference image generating means has the following formula:
G (x, y, σ j ) = L (x, y, σ j ) −L (x, y, σ j × a )
The moving image object detection apparatus according to claim 17, wherein the difference image G (x, y, σ j ) is generated by using.
G(x,y,σj)=L(x,y,σj)−L(x,y,σj+p)
を用いて差分画像G(x,y,σj)を生成するものであることを特徴とする請求項19に記載の動画オブジェクト検出装置。 The difference image generating means has the following formula:
G (x, y, σ j ) = L (x, y, σ j ) −L (x, y, σ j + p )
The moving image object detection apparatus according to claim 19, wherein a difference image G (x, y, σ j ) is generated by using.
前記平滑化画像生成手段が、前記動き領域抽出画像に対して前記平滑化フィルタを畳み込むものであることを特徴とする請求項12から20何れかに記載の動画オブジェクト検出装置。 The object detection means further comprises a motion area extraction means for extracting a motion area from the frame image and generating a motion area extraction image;
21. The moving image object detection apparatus according to claim 12, wherein the smoothed image generating unit convolves the smoothing filter with the motion region extraction image.
前記オブジェクトリスト記憶部に記憶されたオブジェクトの位置を、当該オブジェクトが検出された時刻以後、複数フレーム間で追跡し、該追跡したオブジェクトの位置をオブジェクトリスト記憶部に記憶するステップと、
前記オブジェクト検出手段でオブジェクトが新たに検出されたとき、該新たに検出されたオブジェクトの位置を、当該オブジェクトが検出されたフレーム画像の時刻よりも前の時刻に遡って複数フレーム間で追跡し、該追跡したオブジェクトの位置を前記オブジェクトリスト記憶部に記憶するステップとを有することを特徴とする動画オブジェクト検出方法。 Detecting an object from a frame image of a moving image composed of a plurality of frames, and storing the position of the detected object in an object list storage unit;
Tracking the position of the object stored in the object list storage unit between a plurality of frames after the time when the object is detected, and storing the position of the tracked object in the object list storage unit;
When an object is newly detected by the object detection means, the position of the newly detected object is traced between a plurality of frames retroactive to the time before the time of the frame image where the object is detected, And storing the tracked object position in the object list storage unit.
複数フレームから成る動画像のフレーム画像からオブジェクトを検出し、該検出したオブジェクトの位置をオブジェクトリスト記憶部に記憶するステップと、
前記オブジェクトリスト記憶部に記憶されたオブジェクトの位置を、当該オブジェクトが検出された時刻以後、複数フレーム間で追跡し、該追跡したオブジェクトの位置をオブジェクトリスト記憶部に記憶するステップと、
前記オブジェクト検出手段でオブジェクトが新たに検出されたとき、該新たに検出されたオブジェクトの位置を、当該オブジェクトが検出されたフレーム画像の時刻よりも前の時刻に遡って複数フレーム間で追跡し、該追跡したオブジェクトの位置を前記オブジェクトリスト記憶部に記憶するステップとを実行させるためのプログラム。 On the computer,
Detecting an object from a frame image of a moving image composed of a plurality of frames, and storing the position of the detected object in an object list storage unit;
Tracking the position of the object stored in the object list storage unit between a plurality of frames after the time when the object is detected, and storing the position of the tracked object in the object list storage unit;
When an object is newly detected by the object detection means, the position of the newly detected object is traced between a plurality of frames retroactive to the time before the time of the frame image where the object is detected, Storing the tracked object position in the object list storage unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010220190A JP2012073971A (en) | 2010-09-30 | 2010-09-30 | Moving image object detection device, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010220190A JP2012073971A (en) | 2010-09-30 | 2010-09-30 | Moving image object detection device, method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012073971A true JP2012073971A (en) | 2012-04-12 |
Family
ID=46170047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010220190A Withdrawn JP2012073971A (en) | 2010-09-30 | 2010-09-30 | Moving image object detection device, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012073971A (en) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016143912A (en) * | 2015-01-29 | 2016-08-08 | 日本放送協会 | Frame interpolation device and program |
WO2018058530A1 (en) * | 2016-09-30 | 2018-04-05 | 富士通株式会社 | Target detection method and device, and image processing apparatus |
WO2019188392A1 (en) * | 2018-03-29 | 2019-10-03 | ソニー株式会社 | Information processing device, information processing method, program, and moving body |
CN111292354A (en) * | 2020-01-22 | 2020-06-16 | 维沃移动通信有限公司 | False detection suppression method and electronic device |
WO2021006063A1 (en) * | 2019-07-05 | 2021-01-14 | Nec Corporation | Method, apparatus and non-transitory computer readable medium |
CN112330720A (en) * | 2020-11-12 | 2021-02-05 | 北京环境特性研究所 | Tracking method and device for moving weak and small target |
CN114235340A (en) * | 2020-06-09 | 2022-03-25 | 重庆交通大学 | River course bubble-vortex structure tracking method and navigation early warning method |
WO2024057469A1 (en) * | 2022-09-15 | 2024-03-21 | 日本電気株式会社 | Video processing system, video processing device, and video processing method |
JP7513312B1 (en) | 2023-03-08 | 2024-07-09 | Necプラットフォームズ株式会社 | Display device, method, program, and storage medium |
JP7538631B2 (en) | 2020-06-15 | 2024-08-22 | キヤノン株式会社 | Image processing device, image processing method, and program |
-
2010
- 2010-09-30 JP JP2010220190A patent/JP2012073971A/en not_active Withdrawn
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016143912A (en) * | 2015-01-29 | 2016-08-08 | 日本放送協会 | Frame interpolation device and program |
WO2018058530A1 (en) * | 2016-09-30 | 2018-04-05 | 富士通株式会社 | Target detection method and device, and image processing apparatus |
WO2019188392A1 (en) * | 2018-03-29 | 2019-10-03 | ソニー株式会社 | Information processing device, information processing method, program, and moving body |
JP2022535541A (en) * | 2019-07-05 | 2022-08-09 | 日本電気株式会社 | Method, device and program |
WO2021006063A1 (en) * | 2019-07-05 | 2021-01-14 | Nec Corporation | Method, apparatus and non-transitory computer readable medium |
JP7276516B2 (en) | 2019-07-05 | 2023-05-18 | 日本電気株式会社 | Method, device and program |
CN111292354A (en) * | 2020-01-22 | 2020-06-16 | 维沃移动通信有限公司 | False detection suppression method and electronic device |
CN114235340A (en) * | 2020-06-09 | 2022-03-25 | 重庆交通大学 | River course bubble-vortex structure tracking method and navigation early warning method |
CN114235340B (en) * | 2020-06-09 | 2023-11-10 | 重庆交通大学 | River course bubble swirling structure tracking method and navigation early warning method |
JP7538631B2 (en) | 2020-06-15 | 2024-08-22 | キヤノン株式会社 | Image processing device, image processing method, and program |
CN112330720A (en) * | 2020-11-12 | 2021-02-05 | 北京环境特性研究所 | Tracking method and device for moving weak and small target |
WO2024057469A1 (en) * | 2022-09-15 | 2024-03-21 | 日本電気株式会社 | Video processing system, video processing device, and video processing method |
JP7513312B1 (en) | 2023-03-08 | 2024-07-09 | Necプラットフォームズ株式会社 | Display device, method, program, and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2012073971A (en) | Moving image object detection device, method and program | |
CN109426782B (en) | Object detection method and neural network system for object detection | |
JP4766495B2 (en) | Object tracking device and object tracking method | |
US8948448B2 (en) | Method and apparatus for trajectory estimation, and method for segmentation | |
JP5001260B2 (en) | Object tracking method and object tracking apparatus | |
US9727974B2 (en) | System for video super resolution using semantic components | |
US8233676B2 (en) | Real-time body segmentation system | |
JP4855556B1 (en) | Moving object detection apparatus, moving object detection method, moving object detection program, moving object tracking apparatus, moving object tracking method, and moving object tracking program | |
US9305359B2 (en) | Image processing method, image processing apparatus, and computer program product | |
JP2005128619A (en) | Object measurement apparatus, object measurement method, and program | |
Sun et al. | Moving foreground object detection via robust SIFT trajectories | |
JP5166102B2 (en) | Image processing apparatus and method | |
JP7438684B2 (en) | Image processing device, image processing method, and program | |
KR101130963B1 (en) | Apparatus and method for tracking non-rigid object based on shape and feature information | |
JP2001307105A (en) | Image processor and its method | |
WO2020217368A1 (en) | Information processing device, information processing method, and information processing program | |
Aqmar et al. | Gait recognition by fluctuations | |
JP2017033372A (en) | Person recognition device and program therefor | |
JP2008288684A (en) | Person detection device and program | |
CN111914627A (en) | Vehicle identification and tracking method and device | |
JP5578965B2 (en) | Object estimation apparatus and method, and program | |
JP2021179721A (en) | Conversation information estimation apparatus, method, and program | |
JP7215569B2 (en) | Object feature quantity extraction device, object feature quantity extraction method and program | |
CN117291951A (en) | Multi-human-body posture tracking method based on human body key points | |
CN110111368B (en) | Human body posture recognition-based similar moving target detection and tracking method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20131203 |