JP2005092346A - Characteristic extraction method from three-dimensional data and device - Google Patents
Characteristic extraction method from three-dimensional data and device Download PDFInfo
- Publication number
- JP2005092346A JP2005092346A JP2003321962A JP2003321962A JP2005092346A JP 2005092346 A JP2005092346 A JP 2005092346A JP 2003321962 A JP2003321962 A JP 2003321962A JP 2003321962 A JP2003321962 A JP 2003321962A JP 2005092346 A JP2005092346 A JP 2005092346A
- Authority
- JP
- Japan
- Prior art keywords
- data
- dimensional
- feature
- feature data
- moving image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 57
- 238000000491 multivariate analysis Methods 0.000 claims abstract description 10
- 230000009471 action Effects 0.000 claims description 19
- 230000000875 corresponding effect Effects 0.000 claims description 10
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000013075 data extraction Methods 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 18
- 239000007787 solid Substances 0.000 abstract description 10
- 238000004364 calculation method Methods 0.000 abstract description 7
- 239000013598 vector Substances 0.000 description 34
- 238000002474 experimental method Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 18
- 239000011159 matrix material Substances 0.000 description 13
- 230000006399 behavior Effects 0.000 description 8
- 238000006073 displacement reaction Methods 0.000 description 6
- 230000010354 integration Effects 0.000 description 6
- 230000007704 transition Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000005311 autocorrelation function Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000005021 gait Effects 0.000 description 5
- 230000000996 additive effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、動画像における動作の認識、および3次元形状認識に関わる技術に関するものである。 The present invention relates to a technique related to recognition of motion in a moving image and three-dimensional shape recognition.
画像データから特定の図形等を検出し認識したり、登録されている画像との照合のための各種の技術が提案されている。発明者らは下記に公報番号を示すように、2次元画像に対して、幾つかの望ましい条件から非常に汎用的な高次自己相関特徴に基づく学習適応型画像認識・計測方式の発明を行った。
動画像は2次元(静止)画像が時間に沿って並んだ3次元(立体)の数値データである。これらの動画像における動作の認識の分野では、新たなニーズが高まりつつあるが、文字など2次元の静止画像の認識に比べると、幾つかのヒューリスティックな(思いつき)手法の提案を除き、殆ど基本的かつ汎用的な体系立った特徴抽出方式が存在しない。従来の動画像からの最も基本的な特徴抽出手法とされているものにオプティカルフローがあるが、それが寄って立つ前提条件が実際には厳しく、しかも微分に基づくために実際のノイズに弱いなど、実応用につながっていない。 A moving image is three-dimensional (three-dimensional) numerical data in which two-dimensional (still) images are arranged in time. In the field of motion recognition in these moving images, new needs are increasing. However, compared to recognition of two-dimensional still images such as characters, the basics are almost the same except for some heuristic methods. There is no systematic and generalized feature extraction method. Optical flow is one of the most basic feature extraction methods from conventional moving images, but the preconditions on which it approaches are actually severe, and because it is based on differentiation, it is vulnerable to actual noise, etc. , Has not led to real application.
本発明は、動画像認識において今後ますますニーズの高くなるコンピュータ・ビジョン(人工視覚)に広く使える基本的かつ汎用的な特徴抽出方式であり、高次局所自己相関特徴抽出方式を3次元に拡張した立体高次局所自己相関特徴抽出方式であることを最も主要な特徴とする。そして、この立体高次局所自己相関特徴抽出方式と多変量解析などの統計的な情報統合手法を組み合わせることにより、適応学習型の汎用動画像認識方式が得られる。また同手法は、3次元形状認識にもそのまま用いることができる。 The present invention is a basic and general-purpose feature extraction method that can be widely used in computer vision (artificial vision), which will become increasingly necessary in moving image recognition in the future, and extends the higher-order local autocorrelation feature extraction method to three dimensions. 3D higher order local autocorrelation feature extraction method is the main feature. Then, by combining this three-dimensional higher-order local autocorrelation feature extraction method and a statistical information integration method such as multivariate analysis, an adaptive learning type general-purpose moving image recognition method can be obtained. The method can also be used as it is for 3D shape recognition.
立体高次局所自己相関特徴抽出方式によって抽出される特徴値は、対象の立体における場所や時間に依らない位置不変な値である(位置不変性)ので、対象を画像から切り出す必要がない。また、立体内に複数個の対象がある場合、全体の特徴値はそれぞれの個別の特徴値の和になる性質を持つ(加法性)。これらの性質は、以後の認識にとって扱い易く好ましい性質である。さらに、微分でなく積分(累積)に基づくためにノイズに頑健である。また、特徴抽出のための計算量が少なく、実時間処理が可能である。 Since the feature value extracted by the three-dimensional higher-order local autocorrelation feature extraction method is a position-invariant value that does not depend on the location or time in the target solid (position invariance), it is not necessary to cut out the object from the image. In addition, when there are a plurality of objects in a solid, the entire feature value has the property of being the sum of the individual feature values (additive property). These properties are easy to handle and preferable for subsequent recognition. Furthermore, it is robust to noise because it is based on integration (accumulation) rather than differentiation. In addition, the amount of calculation for feature extraction is small, and real-time processing is possible.
発明者がこの方式を実際の動画像認識に対して実験した結果、本発明の動画像からの動作の認識結果は非常に良好であり、画像認識、計測、人工視覚、ロボット視覚、コンピュータ・ヒューマン・インタフェース分野全般、さらにはビデオサーベイランス、監視システム、警備システムなどセキュリティに関わる応用分野など、広く様々な課題に応用できるという利点がある。 As a result of the inventor's experiment on this method for actual moving image recognition, the recognition result of the motion from the moving image of the present invention is very good, and image recognition, measurement, artificial vision, robot vision, computer human -It has the advantage that it can be applied to a wide variety of issues such as the interface field in general, as well as application fields related to security such as video surveillance, surveillance systems, and security systems.
動画像データの認識や計測は、対象の3次元データ内における場所に寄らないことが望ましく、従って抽出される特徴データは位置不変であることが望ましい。また、3次元データ内に複数個の対象がある場合、全体の特徴値はそれぞれの個別の特徴値の和になると以後の認識にとって扱い易い。さらに、特徴抽出としては計算量が少なく実時間処理が可能であることが望ましい。 It is desirable that the recognition and measurement of moving image data does not depend on the location in the target three-dimensional data, and therefore, the extracted feature data is desirably position-invariant. Further, when there are a plurality of objects in the three-dimensional data, the entire feature value is easy to handle for subsequent recognition if it becomes the sum of the individual feature values. Furthermore, it is desirable that feature extraction requires a small amount of calculation and can be performed in real time.
これらの要請条件を満たす基本的で汎用的な特徴抽出方式として、2次元の場合の高次局所自己相関特徴抽出方式を3次元に拡張した立体高次局所自己相関特徴抽出方式を用いる。そして、この特徴抽出方式と多変量解析などの統計的な情報統合手法を組み合わせることにより、適応学習型の汎用動画像(動作)認識方式が得られる。 As a basic and general-purpose feature extraction method that satisfies these requirements, a three-dimensional higher-order local autocorrelation feature extraction method that is a three-dimensional extension of the higher-order local autocorrelation feature extraction method in the two-dimensional case is used. An adaptive learning type general-purpose moving image (motion) recognition method can be obtained by combining this feature extraction method and a statistical information integration method such as multivariate analysis.
図1は、本発明による動作認識処理の内容を示すフローチャートである。なお、この処理は、デジタルビデオカメラやその他の動画像を取り込むためのインターフェイス回路を備えたパソコンなどの周知の任意のコンピュータシステムにおいてプログラムを作成し、インストールして起動することにより実行される。動画像データは例えばビデオカメラから実時間で入力されてもよいし、一旦ファイルに保存されてから3次元データとして読み込んでもよい。従って、システムのハードウェア構成については説明を省略する。 FIG. 1 is a flowchart showing the contents of motion recognition processing according to the present invention. This process is executed by creating, installing, and starting up a program in any known computer system such as a digital video camera or other personal computer equipped with an interface circuit for capturing moving images. The moving image data may be input in real time from a video camera, for example, or may be read as three-dimensional data after being saved in a file. Therefore, description of the hardware configuration of the system is omitted.
S10においては、動画像(あるいは3次元画像)データ等の3次元データを読み込む。S11においては、入力動画データに対して「動き」の情報を検出し、背景など静止しているものを除去する目的で差分データを生成する。差分の取り方としては、隣接するフレーム間の同じ位置の画素の輝度(カラー画像の場合は色)の変化を抽出するフレーム間差分またはフレーム内における輝度の変化部分を抽出して得られるエッジのフレーム間差分、あるいは両方を採用可能である。 In S10, three-dimensional data such as moving image (or three-dimensional image) data is read. In S11, "motion" information is detected for the input moving image data, and difference data is generated for the purpose of removing stationary objects such as the background. The difference can be obtained by extracting the change in the luminance (color in the case of a color image) of the pixel at the same position between adjacent frames, or by extracting the change in luminance in the frame. Difference between frames or both can be adopted.
S12においては、差分値から「動き」に無関係な輝度値や色情報、ノイズを除去し、動きあり(値1)動きなし(値0)の2値情報にするために、自動閾値選定による2値化を行う。輝度あるいはエッジの差分で動きのある画素が得られるが、差分の値は輝度の差であり、照明条件や色などで値が異なってくるため、動きの情報だけではない。2値化の目的は、ある閾値を設けて、これより差分値が小さいとノイズとみなし、値を0とし、動きなしと判断する。また、閾値より差分値が大きいと値を1とし、動きありと見なす(判断する)ことにある。これによって、ノイズや色や明るさの違いに頑健にいわゆる「動き」情報を得ることができる。カラー画像の場合も、差分値として色ベクトル(R,G,B)差分値(距離)をとれば、濃淡画像と同様に扱うことができる。 2値化の方法としては、一定閾値、判別最小二乗自動閾値法(大津方式:画像内のピクセル値のヒストグラムを作成し、2群が統計的にもっとも分離される閾値を自動的に選定する)、閾値0及びノイズ処理方式(濃淡画像において差が0以外を全て動き有り=1としてまず2値化を行い、その2値画像のノイズを除去するために2値画像に対して収縮処理を行う方法)を採用可能である。図4は、2値化差分処理結果の画像を示す説明図である。図4左は入力された濃淡画像であり、右がフレーム間差分を取り、2値化した画像である。以上の前処理により入力動画データは画素値に「動いた(1)」「動かない(0)」の論理値をもつフレームの列となる。 In S12, in order to remove the luminance value, color information and noise irrelevant to “movement” from the difference value, and to obtain binary information with movement (value 1) and no movement (value 0), 2 by automatic threshold selection. Perform valuation. Pixels with motion can be obtained by luminance or edge difference, but the difference value is a luminance difference, and the value varies depending on illumination conditions, colors, and the like, and thus is not limited to motion information. The purpose of binarization is to set a certain threshold value, and if the difference value is smaller than this, it is regarded as noise, the value is set to 0, and it is determined that there is no movement. Further, when the difference value is larger than the threshold value, the value is set to 1 and it is considered (determined) that there is motion. This makes it possible to obtain so-called “motion” information that is robust against differences in noise, color, and brightness. In the case of a color image, if a color vector (R, G, B) difference value (distance) is taken as a difference value, it can be handled in the same manner as a grayscale image. As a binarization method, a constant threshold value, a discriminative least squares automatic threshold method (Otsu method: create a histogram of pixel values in an image, and automatically select a threshold value that most statistically separates the two groups) , Threshold 0 and noise processing method (all differences except for 0 in grayscale image have motion = 1), binarization is first performed, and the binary image is subjected to contraction processing to remove noise of the binary image Method). FIG. 4 is an explanatory diagram showing an image of the binarization difference processing result. The left side of FIG. 4 is the input grayscale image, and the right side is an image obtained by binarizing the difference between frames. By the above preprocessing, the input moving image data becomes a sequence of frames having logical values of “moved (1)” and “not moved (0)” as pixel values.
図1に戻って、S13においては、詳細は後述するが、立体高次局所自己相関特徴抽出処理(251次元特徴データ生成)を行う。自己相関関数の高次への拡張が高次自己相関関数である。N次自己相関関数は、3次元データをf(r)(但しr=(x,y,z))とすると、次の式1となる。 Returning to FIG. 1, in S13, although the details will be described later, a solid higher-order local autocorrelation feature extraction process (251-dimensional feature data generation) is performed. An extension of the autocorrelation function to higher orders is a higher order autocorrelation function. The Nth-order autocorrelation function is expressed by the following formula 1 when the three-dimensional data is f (r) (where r = (x, y, z)).
xN(a1,a2,…,aN)=∫f(r)f(r+a1)…f(r+aN)dr ……(式1) ただし、0次は3次元データの総和、x0(0)=∫f(r)dr である x N (a 1 , a 2 , ..., a N ) = ∫f (r) f (r + a 1 ) ... f (r + a N ) dr ...... (Equation 1) However, the 0th order is three-dimensional data X 0 (0) = ∫f (r) dr
ここで(a1,a2,…,aN)は参照点(注目画素)からみた変位方向である。変位方向、次数のとり方により高次自己相関関数は無数に考えられるが、これを局所領域に限定したものが高次局所自己相関関数である。立体高次局所自己相関特徴では相関を取る範囲を注目画素から所定の距離にある画素の範囲とし、例えば変位方向を参照点を中心とする3×3×3画素の局所領域内、即ち参照点の26近傍に限定している。特徴量の計算は1組の変位方向に対して式1の積分値が1つの特徴量になる。従って変位方向の組み合わせ(=マスクパターン)の数だけ特徴量が生成される。 Here, (a 1 , a 2 ,..., A N ) is a displacement direction viewed from the reference point (target pixel). There are an infinite number of higher-order autocorrelation functions depending on the direction of displacement and the order, but the higher-order local autocorrelation function is limited to local regions. In the three-dimensional high-order local autocorrelation feature, the range to be correlated is set as a pixel range at a predetermined distance from the target pixel, for example, within a 3 × 3 × 3 pixel local region centered on the reference point in the displacement direction, that is, the reference point It is limited to 26 vicinity. In the calculation of the feature amount, the integral value of Expression 1 becomes one feature amount for one set of displacement directions. Therefore, feature amounts are generated as many as the number of combinations of displacement directions (= mask patterns).
特徴量の数、つまり特徴ベクトルの次元はマスクパターンの種類に相当する。2値画像の場合、画素値1を何回乗算しても1であるので、二乗以上の項は乗数のみが異なる1乗の項と重複するものとして削除する。また式1の積分操作(スキャン)において、平行移動すると一致するパターンは重複するので、1つの代表パターンを残して他を削除する。式1右辺の式で参照点f(r)は局所領域の中心を必ず含むので、代表パターンとしては中心点を参照点とし、パターン全体が3×3×3画素の局所領域内に収まるものを選択する。 この結果、中心点を含むマスクパターンの種類は、選択画素数が1個のもの:1個、2個のもの:26個、3個のもの:26×25/2=325個の計352個あるが、式1の積分操作(平行移動:スキャン)で重複するパターンを除くと、マスクパターンの種類は251種類となる。即ち、1つの3次元データに対する立体高次局所自己相関特徴ベクトルは251次元となる。 なお、画素の値が多値の濃淡画像の場合には、例えば画素値をaとすると、相関値はa(0次)≠a×a(1次)≠a×a×a(2次)となり、選択画素が同じでも乗数の異なるものを重複削除できない。従って、多値の場合には、2値の場合より選択画素数が1の場合に2個、選択画素数が2の場合に26個増加し、マスクパターンの種類は計279種類となる。 The number of feature amounts, that is, the dimension of the feature vector corresponds to the type of mask pattern. In the case of a binary image, since the pixel value 1 is multiplied by 1 regardless of how many times it is, a term of square or higher is deleted as an overlapping term of a square with a different multiplier only. Further, in the integration operation (scan) of Equation 1, matching patterns overlap when they are moved in parallel, so that one representative pattern is left and the other is deleted. Since the reference point f (r) in the expression on the right side of Equation 1 always includes the center of the local area, the representative pattern is the center point as the reference point, and the whole pattern fits within the local area of 3 × 3 × 3 pixels. select. As a result, the number of types of mask patterns including the center point is 352 with a total number of selected pixels of one: one, two: 26, three: 26 × 25/2 = 325. However, there are 251 types of mask patterns except for overlapping patterns in the integration operation (parallel movement: scan) of Equation 1. That is, the three-dimensional higher-order local autocorrelation feature vector for one three-dimensional data is 251 dimensions. When the pixel value is a multi-value gray image, for example, when the pixel value is a, the correlation value is a (0th order) ≠ a × a (primary) ≠ a × a × a (secondary). Thus, even if the selected pixels are the same, those having different multipliers cannot be redundantly deleted. Therefore, in the case of multi-value, the number is 2 when the number of selected pixels is 1 and 26 when the number of selected pixels is 2, and the number of mask patterns is 279 in total.
このように計算される立体高次局所自己相関特徴の性質としては、自己相関で積分の特徴量であるために、しかも変位方向を局所領域に限定しているために、データ内の対象の位置に依らない位置不変性と、対象に対する加法性といった好ましい性質がある。またノイズ対しても頑強である性質を持つ。 S
14においては、多変量解析手法により予め求めた課題に適した係数行列Aを用いて、下記の計算により、課題に有効な新特徴データを生成する。
As the properties of the three-dimensional higher-order local autocorrelation feature calculated in this way, since the feature is an integral feature by autocorrelation and the displacement direction is limited to the local region, the position of the target in the data There are favorable properties such as position invariance not depending on and additivity to the object. It is also robust against noise. S
14, new feature data effective for the task is generated by the following calculation using the coefficient matrix A suitable for the task determined in advance by the multivariate analysis method.
y=A’x y = A’x
ここで、xは251次元特徴ベクトルデータ(縦ベクトル)、yはn次元(一般にn<<251)の新特徴ベクトルデータ(縦ベクトル)、A’は係数行列Aの転置行列である。新特徴ベクトルyの次数nは、例えば判別分析の場合、「識別したいクラスの数−1」および「元の特徴ベクトルの次元」の小さい方となるので、例えばクラスが4であればyは3次元となり、特徴データが大幅に圧縮される。また、主成分分析の場合は元の次元251以下の任意の次元を有効な順番に取れる。 Here, x is 251-dimensional feature vector data (vertical vector), y is n-dimensional (generally n << 251) new feature vector data (vertical vector), and A 'is a transposed matrix of the coefficient matrix A. For example, in the case of discriminant analysis, the order n of the new feature vector y is the smaller of “the number of classes to be identified−1” and “the dimension of the original feature vector”. Dimensional and feature data is greatly compressed. In the case of principal component analysis, any dimension below the original dimension 251 can be taken in an effective order.
ここで、係数行列Aの決定方法について説明する。係数行列Aは、例えば「右歩き」など「動作」が判明している学習用データ(251次元特徴ベクトルデータ)を使用して、回帰分析、主成分分析、判別分析等の周知の多変量解析手法を使用して求める。なお、多変量解析手法については前記した特許文献あるいは、柳井他編「多変量解析実例ハンドブック」(2002年6月25日朝倉書店発行)などに記載されているので詳細な説明は省略すが、一例として判別分析について説明する。 判別分析においては、ベクトルyが空間としてKクラスを最適に分離するように係数Aは次の固有値問題の解(固有値ベクトル)として求まる。 Here, a method for determining the coefficient matrix A will be described. The coefficient matrix A is a well-known multivariate analysis such as regression analysis, principal component analysis, discriminant analysis, etc. using learning data (251 dimensional feature vector data) such as “right walk”, for example. Find using a technique. The multivariate analysis method is described in the above-mentioned patent document or Yanai et al.'S “Multivariate Analysis Handbook” (published on June 25, 2002 by Asakura Shoten). As an example, discriminant analysis will be described. In discriminant analysis, the coefficient A is obtained as a solution of the next eigenvalue problem (eigenvalue vector) so that the vector y is optimally separated as a space.
XBA=XwAΛ (A’XwA=I) X B A = X w AΛ (A′X w A = I)
ここに、Λは固有値対角行列、Iは単位行列である。また、Xw、XBはそれぞれ特徴ベクトルxのクラス内、クラス間共分散行列であり、次式で定義される。 Here, Λ is an eigenvalue diagonal matrix, and I is a unit matrix. X w and X B are the intra-class and inter-class covariance matrices of the feature vector x, respectively, and are defined by the following equations.
ここで、ωjはクラスjの生起確率、xj(アッパーライン)はクラスjの平均ベクトル、Xjはクラスjの共分散行列、xT(アッパーライン)は全平均ベクトルである。 Here, ω j is the occurrence probability of class j, x j (upper line) is the average vector of class j, X j is the covariance matrix of class j, and x T (upper line) is the total average vector.
S15においては、新特徴空間Yにおいて登録データと比較する。比較方法としては、例えば新特徴空間における各クラスの平均ベクトル(yj(アッパーライン)=A’xj(アッパーライン))と入力新特徴ベクトル間の距離を計算する。 S16においては、比較結果に基づき判定を行い、認識結果を出力する。最も単純な判定方法としては、登録されている各クラス平均ベクトル(各クラスの重心)の内で最も距離の近いものに対応する動作と判定する。あるいは新特徴ベクトルの内で最も入力に距離が近いk個の登録データの内、最大多数のクラスに対応する動作と判定するk-NN(Nearest neighbor rule)法などの方法が考えられる。更に高度な非線形識別方法としては、カーネルベース識別手法を採用してもよい。 In S15, the new feature space Y is compared with the registered data. As a comparison method, for example, the distance between the average vector (y j (upper line) = A′x j (upper line)) of each class in the new feature space and the input new feature vector is calculated. In S16, a determination is made based on the comparison result, and the recognition result is output. As the simplest determination method, it is determined that the motion corresponds to the closest one of the registered class average vectors (the center of gravity of each class). Alternatively, a method such as a k-NN (Nearest neighbor rule) method for determining an operation corresponding to a maximum number of classes among k pieces of registered data closest to the input among new feature vectors can be considered. As a more advanced nonlinear identification method, a kernel-based identification method may be adopted.
図2は、S13の立体高次局所自己相関特徴抽出処理の内容を示すフローチャートである。S20においては、251個の相関パターンカウンタをクリアする。S21においては、未処理の画素を1つ選択する(注目画素を順にスキャンする)。S22においては、未処理のマスクパターンを1つ選択する。 FIG. 2 is a flowchart showing the contents of the three-dimensional higher-order local autocorrelation feature extraction process in S13. In S20, 251 correlation pattern counters are cleared. In S21, one unprocessed pixel is selected (the pixel of interest is scanned sequentially). In S22, one unprocessed mask pattern is selected.
図5は、3次元画素空間における自己相関処理範囲を示す斜視図である。また、図6は、3次元画素空間における自己相関処理座標を示す説明図である。図6においては、t−1フレーム、tフレーム、t+1フレームの3つのフレームのxy平面を並べて図示してある。 本発明においては、注目画素を中心とする3×3×3(=27)画素の立方体の内部の画素について相関を取る。マスクパターンは、相関を取る画素の組合せを示す情報であり、マスクパターンによって選択された画素のデータは相関値の計算に使用されるが、マスクパターンによって選択されなかった画素は無視される。 FIG. 5 is a perspective view showing an autocorrelation processing range in the three-dimensional pixel space. FIG. 6 is an explanatory diagram showing autocorrelation processing coordinates in a three-dimensional pixel space. In FIG. 6, the xy planes of three frames of t−1 frame, t frame, and t + 1 frame are shown side by side. In the present invention, a correlation is obtained for pixels inside a cube of 3 × 3 × 3 (= 27) pixels centered on the pixel of interest. The mask pattern is information indicating a combination of pixels to be correlated, and data of pixels selected by the mask pattern is used for calculation of correlation values, but pixels not selected by the mask pattern are ignored.
前記したように、マスクパターンでは注目画素(中心の画素)は必ず選択される。また、2値画像で0次〜2次までの相関値を考えた場合、3×3×3画素の立方体において重複を排除した後のパターン数は251個となる。 図7は、自己相関マスクパターンの例を示す説明図である。図7(1)はハッチングを施した注目画素のみの最も簡単な0次のマスクであり、(2)は2つの画素が選択されている例(1次)、(3)、(4)は3つの画素が選択されている例(2次)である。 As described above, the target pixel (center pixel) is always selected in the mask pattern. Further, when considering correlation values from the 0th order to the 2nd order in the binary image, the number of patterns after eliminating the overlap in a 3 × 3 × 3 pixel cube is 251. FIG. 7 is an explanatory diagram showing an example of an autocorrelation mask pattern. FIG. 7 (1) is the simplest 0th-order mask of only the target pixel to which hatching is applied. (2) is an example in which two pixels are selected (first order), (3), (4) are This is an example (secondary) in which three pixels are selected.
図2に戻って、S23においては、前記した式1を用いて相関値を計算する。式1のf(r)f(r+a1)…f(r+aN)の式はマスクパターンと対応する座標の差分2値化3次元データの値を掛け合わせる(=相関値、0または1)ことに相当する。また、式1の積分操作は注目画素を3次元データ内で移動(スキャン)させて相関値をカウンタによって足し合わせる(1をカウントする)ことに相当する。 Returning to FIG. 2, in S <b> 23, the correlation value is calculated using Equation 1 described above. The expression f (r) f (r + a 1 )... F (r + a N ) in Expression 1 is multiplied by the difference binary three-dimensional data values of the coordinates corresponding to the mask pattern (= correlation value, 0). Or 1). Further, the integration operation of Expression 1 corresponds to moving (scanning) the target pixel in the three-dimensional data and adding the correlation values by the counter (counting 1).
S24においては、相関値は1か否かが判定され、判定結果が肯定の場合にはS25に移行するが、否定の場合にはS26に移行する。S25においては、マスクパターンと対応する相関パターンカウンタを+1する。S26においては、全てのパターンについて処理が完了したか否かが判定され、判定結果が肯定の場合にはS27に移行するが、否定の場合にはS22に移行する。 In S24, it is determined whether or not the correlation value is 1. If the determination result is affirmative, the process proceeds to S25, but if not, the process proceeds to S26. In S25, the correlation pattern counter corresponding to the mask pattern is incremented by one. In S26, it is determined whether or not the processing has been completed for all patterns. If the determination result is affirmative, the process proceeds to S27, but if not, the process proceeds to S22.
S27においては、全ての画素について処理が完了したか否かが判定され、判定結果が肯定の場合にはS28に移行するが、否定の場合にはS21に移行する。S28においては、パターンカウンタ値の集合を251次元特徴データとして出力する。 なお、画素値が多値のグレースケールの場合には相関値も多値となるので、カウンタの代わりにレジスタを使用し、相関値をレジスタに加算していくことによって特徴量を生成する。 In S27, it is determined whether or not the processing has been completed for all pixels. If the determination result is affirmative, the process proceeds to S28, but if not, the process proceeds to S21. In S28, a set of pattern counter values is output as 251D feature data. Note that when the pixel value is a multi-valued gray scale, the correlation value is also a multi-value. Therefore, a feature is generated by using a register instead of a counter and adding the correlation value to the register.
図3は、本発明による動画像実時間処理の内容を示すフローチャートである。図1、2に示した処理は動画像データを予め取り込んでから処理を行う場合の例であるが、図3の例は、例えばビデオカメラから実時間で画像データを取り込んで処理を行う場合の例である。 FIG. 3 is a flowchart showing the contents of moving image real-time processing according to the present invention. The processing shown in FIGS. 1 and 2 is an example in which processing is performed after moving image data is captured in advance. However, the example in FIG. 3 is performed when processing is performed by capturing image data in real time from, for example, a video camera. It is an example.
S30においては、フレームデータの入力があるまで待つ。S31においては、フレーム画像データを入力する。S32においては、図1のS11、S12と同様に差分データを生成し、2値化する。S33においては、新たな1フレーム分の画素データに関する相関パターンカウント処理を行う。 In S30, the process waits until frame data is input. In S31, frame image data is input. In S32, difference data is generated and binarized as in S11 and S12 of FIG. In S33, correlation pattern count processing relating to pixel data for one new frame is performed.
図8は、本発明による動画像実時間処理の内容を示す説明図である。動画像データはフレームのシーケンスとなっている。そこで時間方向に一定幅の時間窓を設定し、窓内のフレーム集合を1つの3次元データとする。そして、新たなフレームが入力される度に時間窓を移動させ、古いフレームを削除することで有限な3次元データが得られる。この時間窓の長さは、認識しようとする動作の1周期より長く設定することが望ましい。 FIG. 8 is an explanatory diagram showing the contents of the moving image real-time processing according to the present invention. The moving image data is a sequence of frames. Therefore, a time window having a certain width is set in the time direction, and a frame set in the window is set as one three-dimensional data. Each time a new frame is input, the time window is moved, and the old frame is deleted to obtain finite three-dimensional data. The length of this time window is desirably set longer than one cycle of the operation to be recognized.
図8において時刻tに新たなフレームが入力された時点では、直前の時間窓(t-1,t-n-1)に対応する特徴データはすでに算出されている。但し、(t-1)フレームは端なので相関値は(t-2)フレームに対応するものまで算出されている。 In FIG. 8, at the time when a new frame is input at time t, the feature data corresponding to the immediately preceding time window (t−1, t−n−1) has already been calculated. However, since the (t-1) frame is the end, the correlation value is calculated up to the one corresponding to the (t-2) frame.
そこで、新たに入力されたtフレームを用いて(t-1)フレームに対応する特徴データを生成し、現在の特徴データに加算する。また、最も古い(t-n-1)フレームと対応する特徴データを現在の特徴データから減算する。このような処理により、より少ない計算量で特徴データの更新が可能となる。なお、上記処理を行うために、各フレームに対応して生成された特徴データを保存しておく。 Therefore, feature data corresponding to the (t−1) frame is generated using the newly input t frame and added to the current feature data. Also, the feature data corresponding to the oldest (t-n-1) frame is subtracted from the current feature data. By such processing, the feature data can be updated with a smaller calculation amount. In order to perform the above processing, feature data generated for each frame is stored.
図3に戻って、S34においては、特徴データであるカウント値集合をフレームに対応して保存する。S35においては、カウント値集合を現在の特徴データに加算する。S36においては、最も古いフレームに対応するカウント値集合を特徴データから減算する。 Returning to FIG. 3, in S <b> 34, the count value set as the feature data is stored corresponding to the frame. In S35, the count value set is added to the current feature data. In S36, the count value set corresponding to the oldest frame is subtracted from the feature data.
S37においては、S14と同様に多変量解析手法により得られた係数を使用して特徴データから新特徴データを生成する。S38においては、S15、S16と同様に登録されている新特徴データとの一致を判定する。S39においては、判定結果を出力する。S40においては、処理を終了するか否かが判定され、判定結果が肯定の場合には処理を終了するが、否定の場合にはS30に移行する。以上のような方法によって、実時間処理が可能となる。 In S37, new feature data is generated from the feature data using the coefficient obtained by the multivariate analysis method as in S14. In S38, a match with the registered new feature data is determined in the same manner as in S15 and S16. In S39, the determination result is output. In S40, it is determined whether or not to end the process. If the determination result is affirmative, the process ends. If not, the process proceeds to S30. Real-time processing is possible by the method described above.
次に、発明者らが行った実験の結果について説明する。基礎実験においては、対象者は5人、識別クラス(動作の種類)は「右歩き」「左歩き」「右走り」「左走り」の4クラス。動画像は352×240画素、グレースケール。人の大きさは30×80画素。全データ数は立体データが約2000個とした。 Next, the results of experiments conducted by the inventors will be described. In the basic experiment, there were 5 subjects, and the identification class (type of motion) was 4 classes of “right walk”, “left walk”, “right run”, and “left run”. The moving image is 352 x 240 pixels, grayscale. The size of a person is 30 x 80 pixels. The total number of data is about 2000 solid data.
ランダムに全体の3分の2をテストデータ、残りを学習データとして識別を行った。立体データの時間幅は30フレームとした。但し歩行1周期は時間幅25フレームに相当する。変更パラメータはマスクパターンの局所立体における縦、横、奥行の長さである。縦横はフレーム内での相関をとる空間的距離に相当し、奥行は時間軸上での相関をとる時間間隔に相当する。この結果、マスクの大きさにほとんど依存せずに高い識別率を得られることがわかった。 Randomly, two-thirds of the total was identified as test data and the rest as learning data. The time width of the three-dimensional data was 30 frames. However, one cycle of walking corresponds to a time width of 25 frames. The change parameter is the length of the vertical, horizontal, and depth in the local solid of the mask pattern. The vertical and horizontal directions correspond to the spatial distance for correlation within the frame, and the depth corresponds to the time interval for correlation on the time axis. As a result, it was found that a high identification rate can be obtained with little dependence on the size of the mask.
次に立体データの時間幅を変えて実験を行った。この結果、行動1周期が収まらない時間幅では若干識別率が落ちるが、それでもどの時間幅でも高い識別率が得られた。以上の実験から立体高次局所自己相関特徴がパラメータに依存しない特徴抽出手法であることが実証された。 図9は、行動認識実験における新特徴空間での実験データの分布を示すグラフである。この実験では、クラス数が4であるので、判別分析によって得られる新特徴空間は3次元となり、グラフの各軸がそれぞれの次元(判別軸)を表している。さらに、発明者らは画面内に複数人の行動が映っている場合の認識実験を行なった。従来は個々の人物の検出とトラッキングを行なった上で別々に認識する方法しかなかったが、立体高次局所自己相関特徴の加法性を利用することでこれを同時に認識することが可能である。一般の複数人対象の場合は、加法性より次のように定式化される。 Next, the experiment was performed by changing the time width of the three-dimensional data. As a result, although the identification rate is slightly lowered in the time width in which one action period does not fit, a high identification rate is obtained in any time width. From the above experiments, it was proved that 3D higher-order local autocorrelation features are parameter-independent feature extraction methods. FIG. 9 is a graph showing the distribution of experimental data in the new feature space in the action recognition experiment. In this experiment, since the number of classes is 4, the new feature space obtained by discriminant analysis is three-dimensional, and each axis of the graph represents each dimension (discriminant axis). Furthermore, the inventors conducted a recognition experiment when the actions of multiple people are shown in the screen. Conventionally, there has been only a method of recognizing individual persons after performing detection and tracking of individual persons. However, this can be simultaneously recognized by using the additive property of a solid higher-order local autocorrelation feature. In the case of a general target of multiple persons, it is formulated as follows from the additivity.
x=α1f1+α2f2+α3f3+α4f4+ε……(式2)。 x = α 1 f 1 + α 2 f 2 + α 3 f 3 + α 4 f 4 + ε (Equation 2).
ここでxは複数人が映っている動画像に対する立体高次局所自己相関特徴ベクトル、f1,…,f4は「右歩き」「左歩き」「右走り」「左走り」の各クラスにおける立体高次局所自己相関特徴ベクトルの平均ベクトル、α1,…,α4は「右歩き」「左歩き」「右走り」「左走り」のそれぞれの行動が画面内に含まれている数(整数値)、εは誤差ベクトルである。 図9の判別空間プロット図を見ると、確かに行動ベクトルの線形和付近にデータが密集しているため、加法性(式2)の正当性が確かめられる。式2は立体高次局所自己相関特徴ベクトルの次元(251次元)と判別クラス数(4つ)の関係から疑似逆行列を用いて解析的に一意に解ける。また、線形判別空間(3次元)は元の特徴空間を線形写像したものであるため、式2は成立する。そこで、線形判別空間において式2の解を探索することも可能である。解の探索は、0≦α1,…,α4≦10の範囲での全探索と、遺伝的アルゴリズムを用いた探索を行った。 結果は、疑似逆行列では識別率が悪いが、これは251次元の特徴ベクトル空間においては各クラスがそれほどカテゴリを形成していないことによると考えられる。それぞれのクラスがほぼ左右対称な位置にあり、その平均ベクトルが独立でないと推測され、このことが原因と思われる。しかし線形判別空間では完全に識別できているため、複数対象の場合でも十分に識別が可能であることがわかった。 Here, x is a three-dimensional high-order local autocorrelation feature vector for a moving image in which a plurality of people are shown, and f 1 ,..., F 4 are “right walk”, “left walk”, “right run”, and “left run” classes. The average vector of three-dimensional higher-order local autocorrelation feature vectors, α 1 ,…, α 4 is the number of actions on the screen that include “right walk”, “left walk”, “right run”, and “left run”. (Integer value), ε is an error vector. When the discriminant space plot diagram of FIG. 9 is seen, since the data is certainly concentrated near the linear sum of the action vectors, the validity of the additivity (formula 2) can be confirmed. Equation 2 can be solved analytically and uniquely using a pseudo inverse matrix from the relationship between the dimension (251 dimensions) of the three-dimensional higher-order local autocorrelation feature vector and the number of discriminating classes (four). Further, since the linear discriminant space (three-dimensional) is a linear mapping of the original feature space, Equation 2 is established. Therefore, it is possible to search for the solution of Equation 2 in the linear discriminant space. The search of the solution performed the full search in the range of 0 <= (alpha) 1 , ..., (alpha) 4 <= 10, and the search using the genetic algorithm. As a result, although the discrimination rate is poor in the pseudo inverse matrix, it is considered that this is because each class does not form a category so much in the 251 dimensional feature vector space. Each class is almost symmetrical and its mean vector is assumed not to be independent. However, since the linear discriminant space can be completely discriminated, it was found that it can be discriminated sufficiently even in the case of multiple objects.
図10は、行動認識実験における新特徴空間での行動の遷移状態を示すグラフである。実環境において人間の行動は一定ではなく、様々に変化する。そこで、そのような行動の
遷移が含まれる動画像に対する動作の認識を行なう。基本実験で用いた行動データを人間の行動が連続するようにつなぎ合わせることにより行動の遷移が含まれるデータを作成した。図10を見ると、判別空間内での行動クラス間の遷移がほぼ直線状にきれいに現れている。
FIG. 10 is a graph showing the transition state of the action in the new feature space in the action recognition experiment. In the real environment, human behavior is not constant and varies in various ways. Therefore, an operation for a moving image including such a behavior transition is recognized. Data including behavior transitions was created by connecting the behavior data used in the basic experiment so that human behaviors are continuous. When FIG. 10 is seen, the transition between the action classes in the discrimination space appears neatly in a substantially straight line shape.
次に行動からの個人の同定、つまりGait Recognitionについて説明する。Gait Recognitionはバイオメトリクス認証の一つとして、近年注目をあつめている。その利点としては歩様などの行動は特徴を隠しづらく、また離れた位置からも個人認証が可能となる点である。 図11は、行動による複数人同時同定実験における新特徴空間での実験データの分布を示すグラフである。実験の対象者は5人、識別クラスは「人1」「人2」「人3」「人4」「人5」の5クラス。動画像は352×240画素、グレースケール。人の大きさは30×80画素とした。 左右走歩行のデータ全体に対してランダムに3分の2をテストデータ、残りを学習データとして識別を行った。また、左右走歩行のデータそれぞれに対して、それぞれのデータ内においてランダムに3分の2をテストデータ、残りを学習データとして識別を行った。識別率はこれらを100回繰り返し平均をとる。時間幅は30とした。その結果、どの行動に対しても高い識別率が得られた。つまり、立体高次局所自己相関特徴は個人の行動の差異を反映していると言える。そのためGait Recognitionも可能であることがわかる。 Next, personal identification from behavior, that is, Gait Recognition will be described. Gait Recognition has attracted attention in recent years as one of the biometrics certifications. The advantage is that it is difficult to hide the features of gait and other actions, and personal authentication is possible from a remote location. FIG. 11 is a graph showing the distribution of experimental data in the new feature space in the simultaneous identification experiment with multiple persons by behavior. The subjects of the experiment are 5 people, and the identification class is 5 classes of “person 1” “person 2” “person 3” “person 4” “person 5”. The moving image is 352 x 240 pixels, grayscale. The size of a person is 30 × 80 pixels. Randomly, two-thirds of the left-right running walk data was identified as test data and the rest as learning data. In addition, for each of the left and right running walking data, two-thirds of the data were randomly identified as test data and the rest as learning data. The discrimination rate is averaged by repeating these 100 times. The time width was 30. As a result, a high recognition rate was obtained for any action. That is, it can be said that the three-dimensional higher-order local autocorrelation feature reflects the difference in individual behavior. Therefore, it can be seen that Gait Recognition is also possible.
次に、より実環境に促した拡張実験を行なった。但し時間幅は30とした。画面内に複数「人」が映っている場合の同定を行なう。これは人の往来の多い場所での認証に必要となる。従来は個々の人のトラッキングを行なった上で別々に同定する方法しかなかったが、立体高次局所自己相関特徴の加法性を利用することで、画面に写っている人全員を同時に同定することが可能となる。一般の複数人の場合は、加法性より次のように定式化される。 Next, we conducted an extended experiment that encouraged the real environment. However, the time width was 30. Identification is made when there are multiple "people" on the screen. This is necessary for authentication in places where there is a lot of traffic. Previously, there was only a method of identifying each person after tracking them individually, but by using the additive nature of the cubic higher-order local autocorrelation features, all the people on the screen can be identified simultaneously. Is possible. In the case of a general plural person, it is formulated as follows from the additivity.
x=α1f1+α2f2+α3f3+α4f4+α5f5+ε……(式3)。 x = α 1 f 1 + α 2 f 2 + α 3 f 3 + α 4 f 4 + α 5 f 5 + ε (Equation 3).
ここでxは複数人が映っている動画像に対する立体高次局所自己相関特徴ベクトル、f1,…,f5は「人1」「人2」「人3」「人4」「人5」の各クラスにおける立体高次局所自己相関特徴ベクトルの平均ベクトル、α1,…,α5は「人1」「人2」「人3」「人4」「人5」のそれぞれの行動が画面内に含まれている数(0 or 1)、εは誤差ベクトルである。 図11の判別空間プロット図を見ると、確かに人ベクトルの線形和付近にデータが密集しているため、加法性の正当性が確かめられた。式3は立体高次局所自己相関特徴ベクトルの次元(251次元)と判別クラス数(5つ)の関係から疑似逆行列を用いて解析的に一意に解ける。また、線形判別空間(3次元)は元の特徴空間を線形変換したものであるため、式3は成立する。そこで、線形判別空間において式3の解を探索することも可能である。解の探索は、0≦α1,…,α5≦1の範囲での全探索と、遺伝的アルゴリズムを用いた探索を行った。 この結果、疑似逆行列では識別率が悪いが、これは251次元の特徴ベクトル空間においては各クラスがそれほどカテゴリを形成していないことによると考えられる。しかし線形判別空間では完全に識別できているため、複数対象の場合でも十分に識別が可能であることがわかる。 Here, x is a three-dimensional high-order local autocorrelation feature vector for a moving image in which a plurality of people are shown, and f 1 ,..., F 5 are “person 1” “person 2” “person 3” “person 4” “person 5”. The average vector of the three-dimensional higher-order local autocorrelation feature vectors in each class, α 1 ,..., Α 5 are screens showing the actions of “person 1” “person 2” “person 3” “person 4” “person 5” The number contained in (0 or 1), ε is an error vector. Looking at the discriminant space plot of FIG. 11, the data is certainly concentrated near the linear sum of the human vectors, so the validity of the additivity was confirmed. Equation 3 can be uniquely solved analytically using a pseudo inverse matrix from the relationship between the dimension (251 dimensions) of the three-dimensional higher-order local autocorrelation feature vector and the number of discriminating classes (five). Further, since the linear discriminant space (three-dimensional) is a linear transformation of the original feature space, Equation 3 is established. Therefore, it is possible to search for the solution of Equation 3 in the linear discriminant space. The search of the solution performed the full search in the range of 0 <= (alpha) 1 , ..., (alpha) 5 <= 1, and the search using the genetic algorithm. As a result, the discrimination rate is poor in the pseudo inverse matrix, but this is considered to be because each class does not form a category so much in the 251 dimensional feature vector space. However, since it can be completely discriminated in the linear discriminant space, it can be seen that discrimination is possible even in the case of a plurality of objects.
以上、実施例および実験結果を示したが、本発明の手法は3次元データから認識に実質的に有効な特徴を抽出することで、これまでの手法よりデータの本質を捉えた認識が可能になると考えられる。また、この手法の基本概念である相関はノイズにも強いことが知られており、この手法がノイズにロバストな特徴量を算出することが期待できる。 As described above, the examples and the experimental results have been shown, but the method of the present invention enables recognition that captures the essence of data than the conventional methods by extracting features that are substantially effective for recognition from three-dimensional data. It is considered to be. In addition, it is known that the correlation, which is the basic concept of this method, is also strong against noise, and it can be expected that this method will calculate a feature quantity that is robust to noise.
本発明の有効性を確かめるために動画像認識における行動認識とGait(歩様) Recognitionに適用し、実験により高い識別率が得られた。さらにこれまでの手法では不可能であった複数対象の同時認識も立体高次局所自己相関特徴の加法性から可能であることを示し、実験によりそれを実証した。 In order to confirm the effectiveness of the present invention, it was applied to action recognition and Gait recognition in moving image recognition, and a high recognition rate was obtained by experiments. In addition, we demonstrated that simultaneous recognition of multiple objects, which was not possible with previous methods, is possible due to the additive nature of the three-dimensional local autocorrelation feature, and proved it by experiments.
動画像に対して、時間幅を設定することで時系列データの対処を行ったが、これは人間での短期記憶に相当すると考えられる。しかし、時間幅が短すぎると識別率が悪くなり、長すぎても行動の遷移に鈍くなるため、時間幅の適切な設定も重要である。 Time series data was dealt with by setting a time width for moving images, which is considered to correspond to human short-term memory. However, if the time width is too short, the identification rate is deteriorated, and if it is too long, the transition of the action becomes dull. Therefore, it is important to set the time width appropriately.
立体高次局所自己相関特徴はスケールの変化に敏感であるため、スケールの設定が重要である。立体高次局所自己相関特徴をスケール不変とするためには、1つの3次元データからスケールの異なる複数の3次元データを生成し、それぞれのデータにおいて行動等の認識処理を行い、その結果を用いて総合的に判定することが考えられる。 実施例においては、2次までの自己相関を用いたが、3次以上のより高次の自己相関を用いてもよい。相関を取る範囲も3×3×3より狭い範囲あるいは広い範囲を用いてもよく、範囲が立方体でなくてもよい。また、1画素飛びや2画素飛びに3×3×3画素を取るようにしてもよい。 実施例においては、251種のマスクパターン全てを使用する例を開示したが、特徴の表現に寄与しているパターンのみを選択して使用してもよい。そうすれば、処理速度がより向上する。 以上、動作の認識を行う実施例について説明したが、ステレオビジョンやレンジファインダーなどの方法で得られる3次元(静止)物体のデータ、あるいはMRIやCTスキャナにより得られるデータも3次元(立体)の数値データであるので、本発明をそのまま適用して、3次元物体の認識を行うことが可能であり、物体の識別や病巣の検出などの応用に利用可能である。 Since the cubic higher-order local autocorrelation features are sensitive to scale changes, setting the scale is important. In order to make the 3D higher-order local autocorrelation feature invariant to scale, a plurality of 3D data with different scales are generated from one 3D data. It is possible to make a comprehensive judgment. In the embodiment, the autocorrelation up to the second order is used, but a higher order autocorrelation of the third order or higher may be used. The range for obtaining the correlation may be a range narrower than 3 × 3 × 3 or a wide range, and the range may not be a cube. Alternatively, 3 × 3 × 3 pixels may be taken every 1 pixel or 2 pixels. In the embodiment, an example in which all 251 types of mask patterns are used has been disclosed. However, only patterns that contribute to feature expression may be selected and used. By doing so, the processing speed is further improved. As described above, the embodiment for recognizing the operation has been described. However, data of a three-dimensional (stationary) object obtained by a method such as stereo vision or a range finder, or data obtained by an MRI or CT scanner is also three-dimensional (solid). Since it is numerical data, the present invention can be applied as it is to recognize a three-dimensional object, and can be used for applications such as object identification and lesion detection.
x 251次元特徴データ A 係数行列 y 新特徴データ x 251D feature data A Coefficient matrix y New feature data
Claims (4)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003321962A JP4061377B2 (en) | 2003-09-12 | 2003-09-12 | Feature extraction device from 3D data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003321962A JP4061377B2 (en) | 2003-09-12 | 2003-09-12 | Feature extraction device from 3D data |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007287045A Division JP4682365B2 (en) | 2007-11-05 | 2007-11-05 | Method and apparatus for extracting features from three-dimensional data |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005092346A true JP2005092346A (en) | 2005-04-07 |
JP4061377B2 JP4061377B2 (en) | 2008-03-19 |
Family
ID=34453480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003321962A Expired - Lifetime JP4061377B2 (en) | 2003-09-12 | 2003-09-12 | Feature extraction device from 3D data |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4061377B2 (en) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007145235A1 (en) * | 2006-06-16 | 2007-12-21 | National Institute Of Advanced Industrial Science And Technology | Abnormal region detecting device and abnormal region detecting method |
JP2008015814A (en) * | 2006-07-06 | 2008-01-24 | Megachips System Solutions Inc | Image analysis device and object recognition method |
WO2008020598A1 (en) * | 2006-08-17 | 2008-02-21 | National Institute Of Advanced Industrial Science And Technology | Subject number detecting device and subject number detecting method |
JP2008140267A (en) * | 2006-12-04 | 2008-06-19 | National Institute Of Advanced Industrial & Technology | Motion recognition apparatus and method for processing motion recognition |
JP2008165581A (en) * | 2006-12-28 | 2008-07-17 | Kyushu Institute Of Technology | Motion discrimination method for moving object |
JP2008191754A (en) * | 2007-02-01 | 2008-08-21 | National Institute Of Advanced Industrial & Technology | Abnormality detection apparatus and abnormality detection method |
JP2008287594A (en) * | 2007-05-18 | 2008-11-27 | Nippon Hoso Kyokai <Nhk> | Specific movement determination device, reference data generation device, specific movement determination program and reference data generation program |
JP2009014415A (en) * | 2007-07-02 | 2009-01-22 | National Institute Of Advanced Industrial & Technology | Object recognition device and method |
JP2009146089A (en) * | 2007-12-13 | 2009-07-02 | National Institute Of Advanced Industrial & Technology | Characteristics extraction device and characteristics extraction method |
JP2009205695A (en) * | 2009-06-15 | 2009-09-10 | National Institute Of Advanced Industrial & Technology | Apparatus and method for detecting the number of objects |
WO2010027049A1 (en) * | 2008-09-05 | 2010-03-11 | 国立大学法人東京大学 | Feature vector computing device, feature vector computing method, program, and information storage medium |
JP2011014152A (en) * | 2010-08-23 | 2011-01-20 | National Institute Of Advanced Industrial Science & Technology | Abnormal region detecting device and abnormal region detection method |
JP2011090708A (en) * | 2010-12-29 | 2011-05-06 | National Institute Of Advanced Industrial Science & Technology | Apparatus and method for detecting the number of objects |
US7957560B2 (en) | 2006-06-16 | 2011-06-07 | National Institute Of Advanced Industrial Science And Technology | Unusual action detector and abnormal action detecting method |
CN102236893A (en) * | 2010-04-30 | 2011-11-09 | 中国人民解放军装备指挥技术学院 | Space-position-forecast-based corresponding image point matching method for lunar surface image |
US8588466B2 (en) | 2007-07-05 | 2013-11-19 | Nec Corporation | Object area detection system, device, method, and program for detecting an object |
CN104463835A (en) * | 2014-09-03 | 2015-03-25 | 中国科学院遥感与数字地球研究所 | Earthquake infrared radiation anomaly characteristic multi-angle remote sensing extraction method based on robustness satellite data analysis technology |
JP2016191589A (en) * | 2015-03-31 | 2016-11-10 | 株式会社Screenホールディングス | Defect classification device defect classification method |
JP2020042468A (en) * | 2018-09-10 | 2020-03-19 | 三菱重工業株式会社 | Image feature extraction method and image feature extraction device |
CN112241762A (en) * | 2020-10-19 | 2021-01-19 | 吉林大学 | Fine-grained identification method for pest and disease damage image classification |
WO2022196635A1 (en) * | 2021-03-15 | 2022-09-22 | 学校法人慶應義塾 | State identification system, state identification method, and program |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4654347B2 (en) * | 2007-12-06 | 2011-03-16 | 株式会社融合技術研究所 | Abnormal operation monitoring device |
CN106127732B (en) * | 2016-06-13 | 2019-01-01 | 深圳市太赫兹科技创新研究院 | Human body sex-screening method and apparatus in microwave imagery |
-
2003
- 2003-09-12 JP JP2003321962A patent/JP4061377B2/en not_active Expired - Lifetime
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4603512B2 (en) * | 2006-06-16 | 2010-12-22 | 独立行政法人産業技術総合研究所 | Abnormal region detection apparatus and abnormal region detection method |
JP2007334766A (en) * | 2006-06-16 | 2007-12-27 | National Institute Of Advanced Industrial & Technology | Abnormal area detection device and abnormal area detection method |
WO2007145235A1 (en) * | 2006-06-16 | 2007-12-21 | National Institute Of Advanced Industrial Science And Technology | Abnormal region detecting device and abnormal region detecting method |
US7957560B2 (en) | 2006-06-16 | 2011-06-07 | National Institute Of Advanced Industrial Science And Technology | Unusual action detector and abnormal action detecting method |
JP2008015814A (en) * | 2006-07-06 | 2008-01-24 | Megachips System Solutions Inc | Image analysis device and object recognition method |
WO2008020598A1 (en) * | 2006-08-17 | 2008-02-21 | National Institute Of Advanced Industrial Science And Technology | Subject number detecting device and subject number detecting method |
JP2008140267A (en) * | 2006-12-04 | 2008-06-19 | National Institute Of Advanced Industrial & Technology | Motion recognition apparatus and method for processing motion recognition |
JP2008165581A (en) * | 2006-12-28 | 2008-07-17 | Kyushu Institute Of Technology | Motion discrimination method for moving object |
JP2008191754A (en) * | 2007-02-01 | 2008-08-21 | National Institute Of Advanced Industrial & Technology | Abnormality detection apparatus and abnormality detection method |
JP2008287594A (en) * | 2007-05-18 | 2008-11-27 | Nippon Hoso Kyokai <Nhk> | Specific movement determination device, reference data generation device, specific movement determination program and reference data generation program |
JP2009014415A (en) * | 2007-07-02 | 2009-01-22 | National Institute Of Advanced Industrial & Technology | Object recognition device and method |
US8588466B2 (en) | 2007-07-05 | 2013-11-19 | Nec Corporation | Object area detection system, device, method, and program for detecting an object |
JP2009146089A (en) * | 2007-12-13 | 2009-07-02 | National Institute Of Advanced Industrial & Technology | Characteristics extraction device and characteristics extraction method |
WO2010027049A1 (en) * | 2008-09-05 | 2010-03-11 | 国立大学法人東京大学 | Feature vector computing device, feature vector computing method, program, and information storage medium |
JP2009205695A (en) * | 2009-06-15 | 2009-09-10 | National Institute Of Advanced Industrial & Technology | Apparatus and method for detecting the number of objects |
JP4674920B2 (en) * | 2009-06-15 | 2011-04-20 | 独立行政法人産業技術総合研究所 | Object number detection device and object number detection method |
CN102236893A (en) * | 2010-04-30 | 2011-11-09 | 中国人民解放军装备指挥技术学院 | Space-position-forecast-based corresponding image point matching method for lunar surface image |
JP4728444B2 (en) * | 2010-08-23 | 2011-07-20 | 独立行政法人産業技術総合研究所 | Abnormal region detection apparatus and abnormal region detection method |
JP2011014152A (en) * | 2010-08-23 | 2011-01-20 | National Institute Of Advanced Industrial Science & Technology | Abnormal region detecting device and abnormal region detection method |
JP2011090708A (en) * | 2010-12-29 | 2011-05-06 | National Institute Of Advanced Industrial Science & Technology | Apparatus and method for detecting the number of objects |
CN104463835A (en) * | 2014-09-03 | 2015-03-25 | 中国科学院遥感与数字地球研究所 | Earthquake infrared radiation anomaly characteristic multi-angle remote sensing extraction method based on robustness satellite data analysis technology |
JP2016191589A (en) * | 2015-03-31 | 2016-11-10 | 株式会社Screenホールディングス | Defect classification device defect classification method |
JP2020042468A (en) * | 2018-09-10 | 2020-03-19 | 三菱重工業株式会社 | Image feature extraction method and image feature extraction device |
JP7154537B2 (en) | 2018-09-10 | 2022-10-18 | 三菱重工業株式会社 | Image feature extraction method and image feature extraction device |
CN112241762A (en) * | 2020-10-19 | 2021-01-19 | 吉林大学 | Fine-grained identification method for pest and disease damage image classification |
WO2022196635A1 (en) * | 2021-03-15 | 2022-09-22 | 学校法人慶應義塾 | State identification system, state identification method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP4061377B2 (en) | 2008-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4061377B2 (en) | Feature extraction device from 3D data | |
US20240168563A1 (en) | Information processing device and method, program and recording medium for identifying a gesture of a person from captured image data | |
JP4368767B2 (en) | Abnormal operation detection device and abnormal operation detection method | |
JP4215781B2 (en) | Abnormal operation detection device and abnormal operation detection method | |
Wang et al. | iVAT and aVAT: enhanced visual analysis for cluster tendency assessment | |
US7957557B2 (en) | Tracking apparatus and tracking method | |
JP4429298B2 (en) | Object number detection device and object number detection method | |
US10679358B2 (en) | Learning image automatic sorting device, learning image automatic sorting method, and learning image automatic sorting program | |
CN103870824B (en) | A kind of face method for catching and device during Face datection tracking | |
Oliveira et al. | Automatic crack detection on road imagery using anisotropic diffusion and region linkage | |
CN113297963A (en) | Multi-person posture estimation method and device, electronic equipment and readable storage medium | |
Manap et al. | PATCH-IQ: a patch based learning framework for blind image quality assessment | |
JP4721829B2 (en) | Image retrieval method and apparatus | |
CN116229189A (en) | Image processing method, device, equipment and storage medium based on fluorescence endoscope | |
JP4682365B2 (en) | Method and apparatus for extracting features from three-dimensional data | |
Shaikh et al. | Image binarization using iterative partitioning: A global thresholding approach | |
Musa et al. | Crowd reckoning towards preventing the repeat of ‘2015 Hajj pilgrims stampede’ | |
JP4918615B2 (en) | Object number detection device and object number detection method | |
JP2009295112A (en) | Object recognition device | |
KR101473991B1 (en) | Method and apparatus for detecting face | |
JP4674920B2 (en) | Object number detection device and object number detection method | |
JP2019106089A (en) | Information processing device, information processing method, and computer program | |
JP2004295416A (en) | Image processing apparatus | |
Harding et al. | A comparison of feature detectors with passive and task-based visual saliency | |
Shete et al. | An automated tassel detection and trait extraction pipeline to support high-throughput field imaging of maize |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050315 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070904 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4061377 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |