JPH0546583A - Confirmation device for moving body action - Google Patents

Confirmation device for moving body action

Info

Publication number
JPH0546583A
JPH0546583A JP3205033A JP20503391A JPH0546583A JP H0546583 A JPH0546583 A JP H0546583A JP 3205033 A JP3205033 A JP 3205033A JP 20503391 A JP20503391 A JP 20503391A JP H0546583 A JPH0546583 A JP H0546583A
Authority
JP
Japan
Prior art keywords
recognition
learning
model
state transition
models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3205033A
Other languages
Japanese (ja)
Inventor
Junji Yamato
淳司 大和
Atsushi Otani
淳 大谷
Kenichiro Ishii
健一郎 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP3205033A priority Critical patent/JPH0546583A/en
Publication of JPH0546583A publication Critical patent/JPH0546583A/en
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

PURPOSE:To select an action with a high likelihood by acquiring timeseries models in action as determinative state transition models corresponding to respective recognition categories by training based upon learning data and calculating the probability that those models generate actions to be recognized. CONSTITUTION:In learning mode, parameters of state transition models for recognition are estimated from data for learning and stored by recognition categories in a state transition model storage memory 30 for recognition. In recognition mode, the likelihoods of the models which are stored in the state transition model storage memory 30 for recognition by the learning and corresponds to the respective categories are calculated to perform maximum likelihood estimation which employs the category corresponding to the model having the maximum likelihood as a recognition result. Processing up to quantization are the same between the learning and recognition. Consequently, the action of a moving body such as a person in a moving picture can be recognized. Namely, stable processing becomes possible since model fitting is not required.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】この発明は、動画像からの人間等
の動物体の動作、行動のパタンの認識を行う動物体行動
認識装置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a moving object recognition device for recognizing a motion pattern of a human or other moving body from a moving image.

【0002】[0002]

【従来の技術】動画像を対象としたパタン認識技術は、
近年多くの研究が行われているが、動作、行動の認識を
目指すものとしては、大きく分けて次の2つのアプロー
チがある。
2. Description of the Related Art Pattern recognition technology for moving images is
Although many studies have been conducted in recent years, the following two approaches can be broadly divided into those aiming to recognize motions and behaviors.

【0003】(1)モデルをベースとしたモデルベース
・アプローチと呼ぶべきものがある。これは人体の胴
体、腕などの各パーツを、楕円体、一般化円筒などの幾
何学的モデルとして表現し、それらの関節角などのパラ
メータで人間の姿勢を記述するものである。
(1) There is a model-based approach based on a model. This expresses each part of the human body such as the body and arm as a geometric model such as an ellipsoid and a generalized cylinder, and describes the human posture by parameters such as their joint angles.

【0004】(2)特徴をベースとしたヒューリスティ
ック・アプローチと呼ぶべきものがある。これは、実際
の情景画像を対象にして人物流の計数などが行われてい
る。この場合、例えば閾値処理された画像中の一定以上
の面積領域の数を数えるなどの方法がとられる。
(2) There is something called a feature-based heuristic approach. For this purpose, human physical distribution is counted for an actual scene image. In this case, for example, a method of counting the number of area regions having a certain size or more in the threshold-processed image is used.

【0005】[0005]

【発明が解決しようとする課題】前記(1)の従来のモ
デルベース・アプローチ技術では、モデルの画像へのフ
ィッティングが必要となるため、ノイズの多い実画像を
対象とした場合、そのパタン認識が不安定となるという
問題があった。
In the conventional model-based approach technique of the above (1), it is necessary to fit the model to the image. Therefore, when a noisy real image is targeted, its pattern recognition is not performed. There was a problem of instability.

【0006】前記(2)の従来のヒューリスティック・
アプローチ技術では、対象毎、シーン毎に人間が処理の
内容、パラメータについてアドホックにヒューリスティ
クスな手法を構築する必要があり、また、処理内容が、
計数といった低レベルの認識にとどまり、行動の認識と
いった高度な処理が困難であった。
The conventional heuristic of the above (2)
In the approach technology, it is necessary for a human to construct an ad-hoc heuristic method for processing contents and parameters for each target and each scene.
Only low-level recognition such as counting was difficult, and advanced processing such as behavior recognition was difficult.

【0007】本発明は、前記問題点を解決するためにな
されたものであり、本発明の目的は、高度な行動認識
を、不安定なモデルフィッティングによらずに、実現す
るための認識技術及び認識系の構築技術を提供すること
にある。
The present invention has been made to solve the above-mentioned problems, and an object of the present invention is to provide a recognition technique for realizing advanced behavior recognition without relying on unstable model fitting. It is to provide the recognition system construction technology.

【0008】本発明の前記ならびにその他の目的及び新
規な特徴は、本明細書の記述及び添付図面によって明ら
かにする。
The above and other objects and novel features of the present invention will become apparent from the description of this specification and the accompanying drawings.

【0009】[0009]

【課題を解決するための手段】前記目的を達成するため
に、本発明においては、シーン中の人間等の動物体の行
動を認識する動物体行動認識装置において、動物体の行
動の各動作を、画像から抽出したメッシュ特徴、オプテ
ィカルフローの方向分布などの特徴量のベクトルで表現
する手段と、各認識カテゴリに対応する確率的状態遷移
モデルとして行動の時系列モデルを学習データによるト
レーニングによって獲得する手段と、それらのモデルが
認識対象行動を生成する確率を各々計算する手段とを具
備し、もっとも尤度の高い行動を選び出すことを最も主
要な特徴とする。
In order to achieve the above-mentioned object, in the present invention, in an animal body action recognition device for recognizing the action of an animal body such as a human being in a scene, each action of the animal body action is , A method of expressing with a vector of feature quantities such as mesh features extracted from images and direction distribution of optical flow, and a time series model of behavior as a probabilistic state transition model corresponding to each recognition category is acquired by training with learning data. Means and means for calculating the probabilities that these models generate recognition-targeted behaviors, respectively, are characterized by selecting the behavior with the highest likelihood.

【0010】[0010]

【作用】前述の手段によれば、シーン中の人間等の動物
体の行動の各動作を、画像から抽出したメッシュ特徴、
オプティカルフローの方向分布などの特徴量のベクトル
で表現し、各認識カテゴリに対応する確率的状態遷移モ
デルとして行動の時系列モデルを学習データによるトレ
ーニングによって獲得し、それらのモデルが認識対象行
動を生成する確率を各々計算することにより、もっとも
尤度の高い行動を選び出すことができるので、事例から
の学習によって、動画像中の人物などの動物体の行動を
認識することができる。
According to the above-mentioned means, each motion of the behavior of the moving body such as a human being in the scene is extracted by the mesh feature extracted from the image,
Expressed by a vector of feature quantities such as the direction distribution of the optical flow, a time series model of behavior is acquired by training with learning data as a probabilistic state transition model corresponding to each recognition category, and those models generate recognition target behavior. By calculating the respective probabilities, the action with the highest likelihood can be selected, and the action of the moving object such as a person in the moving image can be recognized by learning from the case.

【0011】つまり、本発明は、特に、従来の技術と
は、モデルフィッティングを要しないため安定した処理
が可能な点、事例からの学習によるため人間が個々の状
況に応じて認識系のパラメータを決定する必要がない点
において異なる。
That is, the present invention, in particular, differs from the prior art in that model fitting is not required and stable processing is possible, and since learning is performed from cases, a human can set parameters of the recognition system according to individual situations. The difference is that there is no need to decide.

【0012】[0012]

【実施例】以下、本発明の実施例を図面を参照して詳細
に説明する。なお、実施例を説明するための全図におい
て、同一機能を有するものは同一符号を付け、その繰り
返しの説明は省略する。
Embodiments of the present invention will now be described in detail with reference to the drawings. In all the drawings for explaining the embodiments, parts having the same function are designated by the same reference numerals, and repeated description thereof will be omitted.

【0013】〔実施例1〕図1は、本発明の動物体行動
認識装置の実施例1の概略構成を示すブロック図、図2
は、本実施例1の動物体行動認識装置の機能構成を示す
ブロック図である。図1及び図2において、11は画像
入力装置、12はコンピュータ、13は外部メモリ装
置、21は画像入力部、22は画像用メモリ、23は特
徴抽出部、24は特徴格納メモリ、25は量子化部、2
6はシンボル格納メモリ、27は尤度算出部、28は認
識結果用メモリ、29はモデルパラメータ推定部、30
は認識用状態遷移モデル格納メモリである。前記認識用
状態遷移モデル格納メモリ30としては、例えば外部メ
モリ装置13を用いる。
[First Embodiment] FIG. 1 is a block diagram showing a schematic configuration of a first embodiment of a moving object behavior recognition apparatus of the present invention, FIG.
FIG. 3 is a block diagram showing a functional configuration of the moving object behavior recognition device according to the first embodiment. In FIGS. 1 and 2, 11 is an image input device, 12 is a computer, 13 is an external memory device, 21 is an image input unit, 22 is an image memory, 23 is a feature extraction unit, 24 is a feature storage memory, and 25 is a quantum. Avatar, 2
6 is a symbol storage memory, 27 is a likelihood calculation unit, 28 is a recognition result memory, 29 is a model parameter estimation unit, 30
Is a recognition state transition model storage memory. As the recognition state transition model storage memory 30, for example, an external memory device 13 is used.

【0014】本実施例1の基本的動作には、学習と認識
の2つの段階がある。学習時には、学習用のデータから
認識用状態遷移モデルのパラメータ推定を行い認識カテ
ゴリ毎に認識用状態遷移モデル格納メモリ30に格納す
る。認識時には学習によって認識用状態遷移モデル格納
メモリ30に格納された、各カテゴリに対応するモデル
の尤度を算出し、最大の尤度を持つモデルに対応するカ
テゴリを認識結果とする最尤推定を行う。量子化までの
処理は学習時、認識時とも同一である。共通の部分から
図2に示す流れに沿って説明する。
The basic operation of the first embodiment has two stages of learning and recognition. At the time of learning, the parameters of the recognition state transition model are estimated from the learning data and stored in the recognition state transition model storage memory 30 for each recognition category. At the time of recognition, the likelihood of the model corresponding to each category stored in the recognition state transition model storage memory 30 is calculated by learning, and the maximum likelihood estimation in which the category corresponding to the model having the maximum likelihood is set as the recognition result is performed. To do. The processing up to quantization is the same during learning and recognition. The common part will be described along the flow shown in FIG.

【0015】まず、TVカメラ等の画像入力装置11の
画像入力部21から行動中の人間を含む動画像をとら
え、画像用メモリ22に格納する。
First, a moving image including a person in action is captured from the image input unit 21 of the image input device 11 such as a TV camera and stored in the image memory 22.

【0016】次に、特徴抽出部23により、動画像か
ら、複数の特徴量を得る。
Next, the feature extraction unit 23 obtains a plurality of feature quantities from the moving image.

【0017】ここで使用する特徴量の例を以下に示す。
まず、図3に示すメッシュ特徴が考えられる。すなわ
ち、まず、画像用メモリ22をn×mの画素数を持つN
×Mのサブブロックに分割し、各々このサブブロックで
画像の2値化を行う。次に、このサブブロック内の黒画
素の占有率を求め、これをN×M次元の特徴ベクトルと
する方法である。すなわち、aijをメッシュ(i,j)の黒
画素の占有率とし、これを並べたベクトル、
An example of the feature quantity used here is shown below.
First, consider the mesh features shown in FIG. That is, first, the image memory 22 is set to have N × m pixels.
It is divided into xM sub-blocks, and an image is binarized in each of these sub-blocks. Next, it is a method of obtaining the occupancy rate of black pixels in this sub-block and using this as an N × M dimensional feature vector. That is, let a ij be the occupation rate of black pixels of the mesh (i, j), and arrange this vector,

【0018】[0018]

【数1】:fm=(a00,a01,...,aij,...aMN) を特徴ベクトルとする方法である。## EQU1 ## This is a method in which fm = (a 00 , a 01 , ..., A ij , ... a MN ) is used as the feature vector.

【0019】あるいは図4に示すようなオプティカルフ
ローを用いた特徴として、以下に挙げる3つの例があ
る。第1に、複数の時間フレームの画像から得られたオ
プティカルフローを用いて、画像をn×mの画素数を持
つN×Mのサブブロックに分割し、各々のサブブロック
内でのフローの方向を特徴ベクトルとする。すなわち、
θijをメッシュ(i,j)のフローベクトルの平均の方向
(x軸とのなす角)とし、これを並べたベクトル、
Alternatively, there are the following three examples as characteristics using the optical flow as shown in FIG. First, an image is divided into N × M sub-blocks having n × m pixels by using optical flows obtained from images of a plurality of time frames, and a flow direction in each sub-block is divided. Is a feature vector. That is,
Let θ ij be the average direction of the flow vector of the mesh (i, j) (angle formed with the x axis), and arrange this vector,

【0020】[0020]

【数2】 [Equation 2]

【0021】を特徴ベクトルとする方法である。第2
に、同じくフローの大きさを特徴ベクトルとする。すな
わち、rijをメッシュ(i,j)のフローベクトルの平均
の大きさとし、これを並べたベクトル、
Is a feature vector. Second
Similarly, the size of the flow is used as the feature vector. That is, let r ij be the average size of the flow vector of the mesh (i, j), and arrange this,

【0022】[0022]

【数3】:fr=(r00,r01,...,rij,...rMN) を特徴ベクトルとする方法である。## EQU3 ## This is a method in which f r = (r 00 , r 01 , ..., r ij , ... r MN ) is used as the feature vector.

【0023】また、第3に、2次元フーリエ変換のパワ
ースペクトルを適当なメッシュに分割し、同様に各メッ
シュの平均のパワー、位相を成分とする特徴ベクトルを
使用する方法もある。
Thirdly, there is also a method in which the power spectrum of the two-dimensional Fourier transform is divided into appropriate meshes, and the feature vectors having the average power and phase of each mesh as components are similarly used.

【0024】特徴ベクトルが得られた後、量子化部25
によってベクトル列のシンボル列への変換が行われ、シ
ンボル格納メモリ26に記録される。これはベクトル量
子化による。すなわち、各特徴ベクトルはあらかじめ用
意された量子化のための代表点の一覧に基づき、それら
の内で最も距離の近い代表点ベクトルに対応するシンボ
ルに変換される。この代表点群をコードブックと呼ぶ。
コードブックの作成法には、k-mean(k-平均)法
([1]Hidden Markov Model for Speech Recognitio
n X.D.Huang,Y.Ariki,M.A.Jack Edinburg Univ.Press p
117参照)、LBG法([2]An Algorithm for Vector
Quantizer design , Y.Linde,A.Buzo, R.M.Gray IEEE
Trans.Commin. vol.COM-28,pp,84-95,1980 参照)など
がある。本実施例の場合、認識用モデルの学習時にコー
ドブックの作成も行う必要があるが、いずれの方法も適
用可能である。また、使用する距離尺度には、ユークリ
ッド距離、各次元の分散を考慮したマハラノビス距離な
どがある。後述するように、量子化の必要のない連続モ
デルに基づく認識も可能である。
After the feature vector is obtained, the quantizer 25
The vector sequence is converted into a symbol sequence by and is recorded in the symbol storage memory 26. This is due to vector quantization. That is, each feature vector is converted into a symbol corresponding to a representative point vector having the shortest distance among them, based on a list of representative points for quantization prepared in advance. This representative point group is called a codebook.
The k-mean method ([1] Hidden Markov Model for Speech Recognitio is used to create the codebook.
n XD Huang, Y.Ariki, MAJack Edinburg Univ.Press p
117), LBG method ([2] An Algorithm for Vector
Quantizer design, Y.Linde, A.Buzo, RMGray IEEE
Trans.Commin. Vol.COM-28, pp, 84-95,1980). In the case of the present embodiment, it is necessary to create a codebook when learning the recognition model, but any method is applicable. Further, the distance measure to be used includes Euclidean distance, Mahalanobis distance in consideration of variance of each dimension, and the like. As will be described later, recognition based on a continuous model that does not require quantization is also possible.

【0025】ここまでの処理によって、画像系列がシン
ボル列に変換された。また、ここまでの動作について
は、認識時、学習時ともに同一である。これ以降の処理
の流れについて、まず、認識時について説明する。
By the processing up to this point, the image series is converted into a symbol string. The operations up to this point are the same both during recognition and during learning. With respect to the flow of the processing thereafter, first, at the time of recognition will be described.

【0026】認識時には、これらの特徴ベクトル列は、
特徴格納メモリ24に記録される。そして、認識するカ
テゴリ数だけ用意された認識用状態遷移モデル格納メモ
リ30に格納されたモデルの各々から、この特徴ベクト
ル列が生成される確率を尤度算出部27によって算出す
る。以下の説明のために、モデルのパラメータを次のよ
うに定める。
At the time of recognition, these feature vector sequences are
It is recorded in the feature storage memory 24. Then, the likelihood calculating unit 27 calculates the probability of generating this feature vector sequence from each of the models stored in the recognition state transition model storage memory 30 prepared for the number of categories to be recognized. For the following description, the model parameters are defined as follows.

【0027】[0027]

【数4】T:観測されたシンボル系列O=O1
2,...,OTの長さ N:モデル中の状態数 L:モデル中のシンボル数 S={s}:状態の集合。stはt番目の状態(観測で
きない)
[Number 4] T: the observed symbol sequence O = O 1,
Length of O 2 , ..., O T N: Number of states in model L: Number of symbols in model S = {s}: Set of states. s t is the t-th state (not observable)

【0028】[0028]

【数5】υ={υ12,...,υL}:観測可能なシン
ボルの集合 A={aij|aij=Pr(st+1=j|st=i)}:状態遷移確率。a
ijは状態iから状態jへ遷移する確率 B={bj(Ot)|bj(Ot)=Pr(Ot|st=j)}:シンボ
ル出力確率 bj(k)は状態jにおいてシンボルυkを出力する確率 π={πii=Pr(s1=i)}:初期状態確率 観測したあるシンボル列を、あるモデルが発生する確率
はforwardアルゴリズム([1]Hidden Markov Model
for Speech Recognition X.D.Huang,Y.Ariki,M.A.Jack
Edinburg Univ.Press p148参照)によって以下のように
して求めることができる。
[Equation 5] υ = {υ 1 , υ 2 , ..., υ L }: A set of observable symbols A = {a ij | a ij = Pr (s t + 1 = j | s t = i) }: State transition probability. a
ij is the probability of transition from state i to state j B = {b j (O t ) | b j (O t ) = Pr (O t | s t = j)}: symbol output probability b j (k) is the state Probability of outputting the symbol υ k at j π = {π i | π i = Pr (s 1 = i)}: initial state probability The probability that a certain model will generate an observed symbol sequence is the forward algorithm ([1] Hidden Markov Model
for Speech Recognition XDHuang, Y.Ariki, MAJack
Edinburg Univ. Press p148) can be obtained as follows.

【0029】あるモデルλ={A,B,π}がシンボル
系列O=O1,O2,...,OTを出力する確率Pr(O|
λ)は、
Probability Pr (O |) that a model λ = {A, B, π} outputs a symbol sequence O = O 1 , O 2 , ..., O T.
λ) is

【0030】[0030]

【数6】 [Equation 6]

【0031】ただし、ここでαT(i)は αT(i)≡Pr(O1,O2,...,Ot,st=i|λ). (2) で定義され、具体的には、Here, α T (i) is defined by α T (i) ≡Pr (O 1 , O 2 , ..., O t , s t = i | λ). (2), and Specifically,

【0032】[0032]

【数7】 [Equation 7]

【0033】の漸化式で求められる。It is obtained by the recurrence formula of

【0034】こうして求められた尤度が最大となるモデ
ルが、認識結果として選択され認識結果用メモリ28に
蓄えられる。以上が認識時の処理フローである。
The model having the maximum likelihood thus obtained is selected as a recognition result and stored in the recognition result memory 28. The above is the processing flow at the time of recognition.

【0035】次に、学習の際の処理フローについて述べ
る。モデルパラメータ推定部29は、各カテゴリ毎に複
数与えられた学習用データから得られたシンボル列に対
して、そのシンボル列を発生するような状態遷移モデル
のパラメータを推定し、認識用状態遷移モデル格納メモ
リ30に蓄える。これは、あるシンボル列、
Next, a processing flow for learning will be described. The model parameter estimation unit 29 estimates, for a symbol sequence obtained from a plurality of learning data given for each category, parameters of a state transition model that generate the symbol sequence, and recognizes the state transition model for recognition. It is stored in the storage memory 30. This is a sequence of symbols,

【0036】[0036]

【数8】:O=O1,O2,...,OT が与えられたときにBaum-Welchアルゴリズム([1]Hi
dden Markov Model forSpeech Recognition X.D.Huan
g,Y.Ariki,M.A.Jack Edinburg Univ.Press p152,[3]
確率モデルによる音声認識 中川聖一 電子情報通信学
会 p55参照)を用いて求められる。ここで、Baum-Welc
hアルゴリズムを説明する。これは、あるモデルパラメ
ータをもとに、それよりもより尤度の高いモデルパラメ
ータを求めることを繰り返していく手続きである。繰り
返し毎に先に説明したforwardアルゴリズムによって尤
度の値を確認することで収束の確認が可能である。
[Equation 8]: When O = O 1 , O 2 , ..., O T is given, the Baum-Welch algorithm ([1] Hi
dden Markov Model for Speech Recognition XDHuan
g, Y.Ariki, MAJack Edinburg Univ.Press p152, [3]
Speech recognition by probabilistic model Seiichi Nakagawa (See p. 55 of The Institute of Electronics, Information and Communication Engineers). Where Baum-Welc
The h algorithm will be described. This is a procedure in which a model parameter having a higher likelihood than that is repeatedly obtained based on a certain model parameter. It is possible to confirm the convergence by confirming the value of the likelihood by the forward algorithm described above every iteration.

【0037】[0037]

【数9】 [Equation 9]

【0038】[0038]

【数10】 [Equation 10]

【0039】[0039]

【数11】 [Equation 11]

【0040】[0040]

【数12】 [Equation 12]

【0041】ただしここで、However, here,

【0042】[0042]

【数13】 [Equation 13]

【0043】[0043]

【数14】 [Equation 14]

【0044】上記の手続きによって、学習データに対応
する認識用状態遷移モデルのパラメータを求めることが
できる。こうして求めた各カテゴリ毎のモデルを認識の
際に使用する。
The parameters of the recognition state transition model corresponding to the learning data can be obtained by the above procedure. The model thus obtained for each category is used for recognition.

【0045】この実施例1で述べた処理フローの実験結
果例として、図5に示したものを説明する。本例では認
識対象の行動として、4つの動作(右手を上げてから下
げる、左手を上げてから下げる、右足、左足も同様)の
場合を示す。図5において、5枚ずつ横に並んだ一連の
図が各々の動作例を示す。上から各々、右手、左手、右
足、左足を上げる動作である。これら各カテゴリ毎に3
回の試行を行い、内1回を学習用データ、2回を認識実
験用データとして使用した。特徴ベクトルとしてはメッ
シュ特徴を使用した。また、量子化においては、図5に
示した20枚の画像のベクトルを代表点として使用し
た。すなわち、これらの画像から得られた20の特徴ベ
クトルfq(i),(i=1,...,20)のうちで最もユ
ークリッド距離の近いものによって、特徴ベクトルfm
(j)を、Oj=argmini{fm(j),fq(i)}で示
される、シンボルOjに量子化した。これら20の代表
点がコードブックを構成することになる。本実験例で
は、コードブックの作成簡略化のために、先に挙げたk-
mean法などコードブック作成アルゴリズムに依らず、動
作途中の適当な画像を選定した。
As an example of the experimental result of the processing flow described in the first embodiment, the one shown in FIG. 5 will be described. In this example, four behaviors (the right hand is raised and then lowered, the left hand is raised and lowered, and the right and left feet are the same) are shown as the behaviors to be recognized. In FIG. 5, a series of five pieces arranged side by side shows an example of each operation. The operation is to raise the right hand, the left hand, the right foot, and the left foot from the above. 3 for each of these categories
Two trials were performed, one of which was used as learning data and the other of which was used as recognition experiment data. A mesh feature was used as the feature vector. In the quantization, the vectors of the 20 images shown in FIG. 5 were used as the representative points. That is, among the 20 feature vectors f q (i), (i = 1, ..., 20) obtained from these images, the feature vector f m is determined by the one having the closest Euclidean distance.
(J) is quantized into a symbol Oj, which is represented by O j = argmin i {f m (j), f q (i)}. These 20 representative points will form a codebook. In this experimental example, in order to simplify the creation of the codebook, k-
An appropriate image during the operation was selected regardless of the codebook creation algorithm such as the mean method.

【0046】学習によって生成された4つの状態遷移モ
デルに、認識実験用のデータを適用して各々、4つのな
かで最大の尤度をもつものを認識結果として選択した。
各々の画像に対応するシンボル(ここでは数字)を図6
に示す。次に、実験の結果を示す。図7にある動作(左
足を上げる)に対応するシンボル列の一例を示す。この
シンボル列を認識用データとしたときの結果を図8に示
す。これは認識用データ(動作=左足を上げる)に対す
る4つのモデルの尤度である。同じカテゴリに属するモ
デルの尤度が高く正しい認識が行われていることがわか
る。同様の試験を3回の試行の各々を学習用データとし
て順に用いて各組合せでの認識率を調べたところ平均の
認識率は88%であった。実験に用いた3人では88
%、88%、96%で、平均90%という結果が得られ
た。
Data for recognition experiments were applied to the four state transition models generated by learning, and the one having the maximum likelihood among the four models was selected as the recognition result.
The symbols (here, numbers) corresponding to each image are shown in FIG.
Shown in. Next, the results of the experiment are shown. An example of a symbol string corresponding to the operation (raising the left foot) shown in FIG. 7 is shown. FIG. 8 shows the result when this symbol string is used as the recognition data. This is the likelihood of the four models with respect to the recognition data (motion = raise left foot). It can be seen that models belonging to the same category have a high likelihood and are correctly recognized. When the recognition rate of each combination was examined by sequentially using each of the three trials as the learning data in the same test, the average recognition rate was 88%. 88 for 3 people used in the experiment
%, 88%, 96%, and an average result of 90% was obtained.

【0047】〔実施例2〕図9は、本発明の実施例2の
機能構成を示すブロック図である。本実施例2は、量子
化によるシンボルへの変換を要しない例であり、図9に
示すように、特徴用メモリから量子化部を経ることなく
連続モデル尤度算出部61、連続モデルパラメータ推定
部63において、それぞれ認識、学習の処理が行われ
る。この場合は、状態遷移モデルの各状態は、確率的に
特徴ベクトルを出力するものとして定式化される。すな
わち、各状態から特徴ベクトルが出力される確率密度関
数が正規分布の混合の形で表現されるものとする。従っ
て、モデルのパラメータは、先に示した例におけるシン
ボル出力確率にかえて混合される正規分布の平均と分
散、及びそれらの混合の重み計数を用いるが、基本的な
動作は量子化を伴う前記実施例1と同様である。62は
認識用連続状態遷移モデル格納メモリである。
[Second Embodiment] FIG. 9 is a block diagram showing the functional arrangement of a second embodiment of the present invention. The second embodiment is an example in which conversion into symbols by quantization is not required, and as shown in FIG. 9, the continuous model likelihood calculating unit 61, the continuous model parameter estimation without passing through the quantization unit from the feature memory. In the unit 63, recognition and learning processes are performed, respectively. In this case, each state of the state transition model is formulated as a probability vector for outputting a feature vector. That is, it is assumed that the probability density function in which the feature vector is output from each state is expressed in the form of a mixture of normal distributions. Therefore, the parameters of the model use the mean and variance of the normal distribution mixed in place of the symbol output probabilities in the above-mentioned example, and the weighting coefficient of those mixtures, but the basic operation is the This is the same as the first embodiment. Reference numeral 62 is a recognition continuous state transition model storage memory.

【0048】以上、本発明を実施例に基づいて具体的に
説明したが、本発明は、前記実施例に限定されるもので
はなく、その要旨を逸脱しない範囲において種々変更し
得ることはいうまでもない。
Although the present invention has been specifically described based on the embodiments, the present invention is not limited to the above embodiments, and various modifications can be made without departing from the scope of the invention. Nor.

【0049】[0049]

【発明の効果】以上、説明したように、本発明によれ
ば、事例からの学習によって動画像による行動認識系を
構成することができるので、従来の手法に比べ、自律的
に対象や環境に適応でき、高度な認識が可能となる。ま
た、画像上でのモデルフィッティングを含まないため、
実画像に対してもロバストな処理が実現できる。従っ
て、この発明は、銀行や商店における不審行動監視、ス
ポーツなどの動画から所望の動作部分の切り出しなどに
広く適用できる。
As described above, according to the present invention, a behavior recognition system based on moving images can be constructed by learning from a case. Adaptable and highly recognizable. Also, since it does not include model fitting on the image,
Robust processing can be realized even for real images. Therefore, the present invention can be widely applied to suspicious behavior monitoring in banks and shops, cutting out desired motion parts from moving images such as sports, and the like.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明の動物体行動認識装置の実施例1の概
略構成を示すブロック図、
FIG. 1 is a block diagram showing a schematic configuration of a first embodiment of a moving object behavior recognition device of the present invention,

【図2】 本実施例1の動物体行動認識装置の機能構成
を示すブロック図、
FIG. 2 is a block diagram showing a functional configuration of a moving object behavior recognition device according to the first embodiment,

【図3】 本実施例1のメッシュ特徴を説明するための
図、
FIG. 3 is a diagram for explaining mesh features of the first embodiment,

【図4】 本実施例1のオプティカルフローを用いた特
徴量を説明するための図、
FIG. 4 is a diagram for explaining a feature amount using the optical flow according to the first embodiment,

【図5】 本実施例1の実験対象動作の代表画像を示す
図、
FIG. 5 is a diagram showing a representative image of an experiment target operation of the first embodiment,

【図6】 本実施例1の代表画像に対応するシンボルを
示す図、
FIG. 6 is a diagram showing symbols corresponding to a representative image of the first embodiment,

【図7】 本実施例1のある動作に対応するシンボル列
の例を示す図、
FIG. 7 is a diagram showing an example of a symbol string corresponding to a certain operation of the first embodiment,

【図8】 本実施例1の実験結果を示す図、FIG. 8 is a diagram showing an experimental result of the first embodiment,

【図9】 本発明の実施例2の機能構成を示すブロック
図。
FIG. 9 is a block diagram showing a functional configuration of a second embodiment of the present invention.

【符号の説明】[Explanation of symbols]

11…画像入力装置、12…コンピュータ、13…外部
メモリ装置、21…画像入力装置、22…画像用メモ
リ、23…特徴抽出部、24…特徴格納メモリ、25…
量子化部、26…シンボル列格納用メモリ、27…尤度
算出部、28…認識結果用メモリ、29…モデルパラメ
ータ推定部、30…認識用状態遷移モデル格納メモリ、
41…メッシュ特徴抽出画像の例、51…オプティカル
フローの例、61…連続モデル尤度算出部、62…認識
用連続状態遷移モデル格納メモリ、63…連続モデルパ
ラメータ推定部。
11 ... Image input device, 12 ... Computer, 13 ... External memory device, 21 ... Image input device, 22 ... Image memory, 23 ... Feature extraction unit, 24 ... Feature storage memory, 25 ...
Quantization unit, 26 ... Symbol string storage memory, 27 ... Likelihood calculation unit, 28 ... Recognition result memory, 29 ... Model parameter estimation unit, 30 ... Recognition state transition model storage memory,
41 ... Example of mesh feature extraction image, 51 ... Example of optical flow, 61 ... Continuous model likelihood calculation unit, 62 ... Recognition continuous state transition model storage memory, 63 ... Continuous model parameter estimation unit.

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 シーン中の人間等の動物体の行動を認識
する動物体行動認識装置において、動物体の行動の各動
作を、画像から抽出したメッシュ特徴、オプティカルフ
ローの方向分布などの特徴量のベクトルで表現する手段
と、各認識カテゴリに対応する確率的状態遷移モデルと
して行動の時系列モデルを学習データによるトレーニン
グによって獲得する手段と、それらのモデルが認識対象
行動を生成する確率を各々計算する手段とを具備するこ
とを特徴とする動物体行動認識装置。
1. A moving object recognition apparatus for recognizing a moving object such as a human being in a scene, wherein each motion of the moving object is characterized by a mesh feature extracted from an image, a directional distribution of optical flow, and the like. , A method of acquiring a time-series model of behavior as a probabilistic state transition model corresponding to each recognition category by training with learning data, and the probabilities that those models generate recognition target behaviors. An apparatus for recognizing a behavior of a moving object, comprising:
JP3205033A 1991-08-15 1991-08-15 Confirmation device for moving body action Pending JPH0546583A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3205033A JPH0546583A (en) 1991-08-15 1991-08-15 Confirmation device for moving body action

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3205033A JPH0546583A (en) 1991-08-15 1991-08-15 Confirmation device for moving body action

Publications (1)

Publication Number Publication Date
JPH0546583A true JPH0546583A (en) 1993-02-26

Family

ID=16500333

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3205033A Pending JPH0546583A (en) 1991-08-15 1991-08-15 Confirmation device for moving body action

Country Status (1)

Country Link
JP (1) JPH0546583A (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06337629A (en) * 1993-05-31 1994-12-06 Hitachi Ltd Sign language recognizing device
JP2001126056A (en) * 1999-10-26 2001-05-11 Mitsubishi Electric Inf Technol Center America Inc Method for modeling system operating in plural forms and device for modeling dynamic system operating in various forms
WO2008111459A1 (en) * 2007-03-06 2008-09-18 Kabushiki Kaisha Toshiba Suspicious behavior detection system and method
JP2010244194A (en) * 2009-04-02 2010-10-28 Toyota Motor Corp Object identification device
US7986346B2 (en) 2006-11-17 2011-07-26 Canon Kabushiki Kaisha Image capturing apparatus, control method therefor, program, and storage medium
JP2012088881A (en) * 2010-10-19 2012-05-10 Nippon Hoso Kyokai <Nhk> Person motion detection device and program thereof
JP2014067269A (en) * 2012-09-26 2014-04-17 Denso Corp Detector
JP2015064828A (en) * 2013-09-26 2015-04-09 日本電信電話株式会社 Dialog tendency scoring device, method and program

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06337629A (en) * 1993-05-31 1994-12-06 Hitachi Ltd Sign language recognizing device
JP2001126056A (en) * 1999-10-26 2001-05-11 Mitsubishi Electric Inf Technol Center America Inc Method for modeling system operating in plural forms and device for modeling dynamic system operating in various forms
US7986346B2 (en) 2006-11-17 2011-07-26 Canon Kabushiki Kaisha Image capturing apparatus, control method therefor, program, and storage medium
WO2008111459A1 (en) * 2007-03-06 2008-09-18 Kabushiki Kaisha Toshiba Suspicious behavior detection system and method
JP2010244194A (en) * 2009-04-02 2010-10-28 Toyota Motor Corp Object identification device
JP2012088881A (en) * 2010-10-19 2012-05-10 Nippon Hoso Kyokai <Nhk> Person motion detection device and program thereof
JP2014067269A (en) * 2012-09-26 2014-04-17 Denso Corp Detector
JP2015064828A (en) * 2013-09-26 2015-04-09 日本電信電話株式会社 Dialog tendency scoring device, method and program

Similar Documents

Publication Publication Date Title
Othman et al. A separable low complexity 2D HMM with application to face recognition
CN110532897B (en) Method and device for recognizing image of part
US6466692B1 (en) Method and apparatus for processing visual information
CN110659565B (en) 3D multi-person human body posture estimation method based on porous convolution
JPH1055444A (en) Recognition of face using feature vector with dct as base
CN112257572B (en) Behavior identification method based on self-attention mechanism
JP2012507793A (en) Complexity normalization pattern representation, search, and compression
CN111401196A (en) Method, computer device and computer readable storage medium for self-adaptive face clustering in limited space
CN113344003B (en) Target detection method and device, electronic equipment and storage medium
CN114677412A (en) Method, device and equipment for estimating optical flow
JPH0546583A (en) Confirmation device for moving body action
CN112819011A (en) Method and device for identifying relationships between objects and electronic system
CN114140831B (en) Human body posture estimation method and device, electronic equipment and storage medium
Loutas et al. Probabilistic multiple face detection and tracking using entropy measures
JP2962549B2 (en) Facial Expression Recognition Method from Facial Video
CN113569758A (en) Time sequence action positioning method, system, equipment and medium based on action triple guidance
JP2005141437A (en) Pattern recognition device and method
JPH06251159A (en) Operation recognizing device
CN111738092A (en) Method for recovering shielded human body posture sequence based on deep learning
Baumgartner et al. A new approach to image segmentation with two-dimensional hidden Markov models
CN114943746A (en) Motion migration method utilizing depth information assistance and contour enhancement loss
Sadoghi Yazdi et al. Gait recognition based on invariant leg classification using a neuro-fuzzy algorithm as the fusion method
JP2001126056A (en) Method for modeling system operating in plural forms and device for modeling dynamic system operating in various forms
JP2839855B2 (en) Facial expression recognition device
Zheng et al. Joint denoising/compression of image contours via shape prior and context tree