JP2012088881A - Person motion detection device and program thereof - Google Patents
Person motion detection device and program thereof Download PDFInfo
- Publication number
- JP2012088881A JP2012088881A JP2010234240A JP2010234240A JP2012088881A JP 2012088881 A JP2012088881 A JP 2012088881A JP 2010234240 A JP2010234240 A JP 2010234240A JP 2010234240 A JP2010234240 A JP 2010234240A JP 2012088881 A JP2012088881 A JP 2012088881A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- trajectory
- feature point
- person
- motion detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、カメラで撮影された映像から人物の動作を検出する人物動作検出装置およびそのプログラムに関する。 The present invention relates to a human motion detection device that detects a human motion from video captured by a camera and a program thereof.
近年、人物の動作を自動認識する研究が盛んに進められている。例えば、身体に接触型の測定器(センサ)を取り付け、測定器で測定した速度や加速度情報から人物の動作を認識する手法が提案されている(特許文献1参照)。
しかし、このように身体に測定器を取り付けて動作を認識する手法は、設営コストや人体に与える影響(負荷)を考慮すると好ましいものとは言えない。そこで、さらに、近年では、人物を撮影した映像を解析することで人物の動作を認識する研究が多く行われている。例えば、映像中の人物の軌跡から人物の動作を認識する手法が提案されている(特許文献2,3参照)。
In recent years, researches for automatically recognizing human movements have been actively conducted. For example, a method has been proposed in which a contact-type measuring instrument (sensor) is attached to the body, and a person's movement is recognized from speed and acceleration information measured by the measuring instrument (see Patent Document 1).
However, such a method of attaching a measuring instrument to the body and recognizing the movement is not preferable in consideration of the installation cost and the influence (load) on the human body. In recent years, therefore, many studies have been conducted on recognizing a person's movement by analyzing a video image of the person. For example, a method for recognizing a person's movement from the locus of the person in the video has been proposed (see
また、映像から人物の軌跡を求める際に、映像中のフレームごとの特徴点について、フレームごとに特徴点の水平座標および垂直座標を、時間方向に追跡することで得られる3次元(水平、垂直、時間)特徴を用いて人物の動作を認識する手法も提案されている(非特許文献1参照)。
この非特許文献1に記載された手法は、追跡する時間を所定時間に限定し、3次元特徴を固定次元(固定長)の軌跡の特徴量(軌跡特徴量)とすることで、当該軌跡特徴量を1つの単語とみなして分類を行う「Bag−of−words(BOW)」の手法を用いて、人物の動作を予め学習によって求めた動作に分類するものである。
In addition, when obtaining the trajectory of a person from an image, three-dimensional (horizontal and vertical) obtained by tracking the horizontal and vertical coordinates of the feature point for each frame in the time direction for the feature points for each frame in the image. A method for recognizing a person's movement using a time) feature has also been proposed (see Non-Patent Document 1).
The method described in
また、このような軌跡特徴量から「Bag−of−words」手法を用いて動作を検出する他の手法として、特徴点がフレームごとに移動する際の移動ベクトルの角度を用いて動作検出を行う手法も提案されている(非特許文献2参照)。
この非特許文献2に記載された手法は、移動ベクトルの角度を予め定めたビン幅θ(ビン数2π/θ)で、[0,θ),[θ,2θ),…,[2π−θ,2π)ごと(なお、[a,b)は、a以上b未満の範囲を示す)に累計することで、固定次元の軌跡特徴量としてヒストグラム化し、「Bag−of−words」手法を用いた人物の動作検出を可能にしている。
In addition, as another method for detecting the motion from the trajectory feature amount using the “Bag-of-words” method, motion detection is performed using the angle of the movement vector when the feature point moves for each frame. A technique has also been proposed (see Non-Patent Document 2).
The method described in Non-Patent
しかし、特許文献2,3に記載の手法では、映像内の人物の領域をフレームごとに正確に切り出すことが必要である。そのため、特許文献2,3に記載の手法では、人物領域を切り出しやすくするため、背景を平坦(予め定めた色等)に限定したり、動作の抽出対象の人物を一人に限定したり等の条件が必要になってしまう。すなわち、特許文献2,3に記載の手法では、不特定多数の人物が登場する複雑な映像では、精度よく人物の動作を検出できないという問題がある。
However, in the methods described in
また、非特許文献1,2に記載の手法では、映像内の特徴点を時間方向に追跡し、「Bag−of−words」手法を用いることで、複数の動作をクラスタリングすることができるため、映像内に複数の人物が存在する場合であっても、ある程度頑健に動作を検出することができる。
しかし、非特許文献1,2に記載の手法は、以下に示すような問題点を含んでいる。
非特許文献2に記載の手法は、動作の判定要素としては、移動ベクトルの角度以外に、特徴点が移動する速度(移動ベクトルの長さ)も重要な要素であるにもかかわらず、その速度が考慮されていない。そのため、非特許文献2に記載の手法は、動き速度が不自然であるにも関わらず、移動ベクトルの角度が予め学習した結果と近似した場合、動作を誤って検出してしまうという問題を含んでいる。
In the methods described in
However, the methods described in
In the method described in Non-Patent
一方、非特許文献1に記載の手法は、軌跡特徴量として、時間方向に特徴点を追跡した特徴量を使用しているため、時間方向の速度に基づく特徴量を考慮しているように考えられる。しかし、非特許文献1に記載の手法は、固定次元(固定長)の軌跡特徴量で「Bag−of−words」手法を用いるために、追跡する時間を所定時間に限定しなければならず、動作途中で軌跡特徴量が遮断されてしまう。そのため、非特許文献1に記載の手法は、動作の時間長によって、正確に動作を検出することができないという問題がある。
On the other hand, the method described in Non-Patent
本発明は、以上のような問題に鑑みてなされたものであり、角度および速度の情報を含んだ場合であっても、動作時間に関係なく固定次元(固定長)の軌跡特徴量を用いて、正確に人物の動作を検出することが可能な人物動作検出装置およびそのプログラムを提供することを課題とする。 The present invention has been made in view of the above problems. Even when angle and speed information is included, a fixed dimension (fixed length) trajectory feature amount is used regardless of the operation time. It is an object of the present invention to provide a human motion detection device and a program thereof capable of accurately detecting a human motion.
本発明は、前記課題を解決するために創案されたものであり、まず、請求項1に記載の人物動作検出装置は、人物を撮影した映像から、前記人物の動作を検出する人物動作検出装置であって、特徴点軌跡情報生成手段と、時間特徴量生成手段と、学習データ記憶手段と、動作識別手段と、を備える構成とした。
The present invention has been made to solve the above-described problems. First, the human motion detection device according to
かかる構成において、人物動作検出装置は、特徴点軌跡情報生成手段によって、映像のフレーム画像ごとに、画像内の特徴となる特徴点を検出し、フレーム画像ごとに特徴点の特徴量のマッチングを行うことで、特徴点の位置を時間方向に追跡した軌跡を特徴点軌跡情報として生成する。この特徴点は、Harrisオペレータ、SIFT、SURF等の一般的な特徴点検出手法を用いることができる。このように、特徴点を追跡することで、映像内の動作が特徴点の軌跡の集合として抽出されることになる。 In this configuration, the human motion detection device detects feature points that are features in the image for each frame image by the feature point locus information generation unit, and performs feature value matching for each frame image. Thus, a trajectory obtained by tracking the position of the feature point in the time direction is generated as the feature point trajectory information. For this feature point, a general feature point detection method such as Harris operator, SIFT, SURF, or the like can be used. In this way, by tracking the feature points, the motion in the video is extracted as a set of trajectories of the feature points.
また、人物動作検出装置は、時間特徴量生成手段によって、特徴点軌跡情報生成手段で生成された特徴点軌跡情報に含まれる前記特徴点の位置に基づいて、特徴点のフレーム画像ごとの移動ベクトルの向きおよび大きさを、当該向きおよび当該大きさの取り得る範囲を予め定めた数に分割した範囲幅ごとに累計することで時間特徴量を生成し、特徴点の軌跡の特徴量である軌跡特徴量とする。
この移動ベクトルの向きは、特徴点が移動する方向を表し、移動ベクトルの大きさは、特徴点が移動する速度を表すことになり、人物の動作を特徴付ける特徴量となる。また、時間特徴量生成手段は、移動ベクトルの向きおよび大きさの取り得る範囲を予め定めた数に分割した範囲幅ごとに累計することで、軌跡の長さ、すなわち、動作の時間長に依存せず、固定長の特徴量が抽出されることになる。
In addition, the human motion detection device may include a movement vector for each feature point frame image based on the position of the feature point included in the feature point trajectory information generated by the feature point trajectory information generation unit by the temporal feature amount generation unit. A trajectory that is a feature amount of a trajectory of a feature point is generated by accumulating the direction and size of each of the range and the range that can be taken by the size for each range width divided into a predetermined number. The feature value.
The direction of the movement vector represents the direction in which the feature point moves, and the magnitude of the movement vector represents the speed at which the feature point moves, and is a feature amount that characterizes the movement of the person. In addition, the time feature value generation unit accumulates the possible range of the direction and size of the movement vector for each range width divided into a predetermined number, thereby depending on the length of the trajectory, that is, the operation time length. Instead, a fixed-length feature value is extracted.
また、人物動作検出装置は、複数の軌跡特徴量を予め定めた数のクラスタにクラスタリングしておき、既知の動作を構成する複数の軌跡特徴量をクラスタごとに累計した分布を、既知の動作ごとに対応付けて、予め学習データとして学習データ記憶手段に記憶しておく。この学習データによって、人物の動作を構成する複数の軌跡特徴量が、予め定めた数のクラスタでモデル化されることになる。 In addition, the human motion detection device clusters a plurality of trajectory feature quantities into a predetermined number of clusters, and calculates a distribution obtained by accumulating a plurality of trajectory feature quantities constituting a known motion for each known motion. Are stored in advance as learning data in the learning data storage means. With this learning data, a plurality of trajectory feature amounts that constitute a person's motion is modeled by a predetermined number of clusters.
そして、人物動作検出装置は、動作識別手段によって、所定時間区間ごとに、当該時間区間内に軌跡の終点が存在する複数の軌跡特徴量から、当該軌跡特徴量が属するクラスタを累計した分布を生成し、学習データ記憶手段に記憶されている動作ごとのクラスタの分布と類似するか否かにより、人物の動作を識別する。なお、所定時間区間内に軌跡が終了した段階を基準とするのは、その段階で1つの動作が完了したとみなすことができるからである。
このように、人物の動作を構成する複数の軌跡特徴量が、クラスタの分布によって特定され、動作識別手段は、当該分布と学習データの分布とを比較することで、人物の動作を検出することができる。
Then, the human motion detection device generates a distribution by accumulating the clusters to which the trajectory feature amount belongs from a plurality of trajectory feature amounts in which the end point of the trajectory exists in the time interval for each predetermined time interval by the motion identification unit. Then, the person's action is identified based on whether or not it is similar to the cluster distribution for each action stored in the learning data storage means. The reason why the trajectory ends within the predetermined time interval is used as a reference because it can be considered that one operation is completed at that stage.
In this way, a plurality of trajectory feature quantities that constitute a person's motion is specified by the distribution of the cluster, and the motion identifying means detects the motion of the person by comparing the distribution with the distribution of the learning data. Can do.
また、請求項2に記載の人物動作検出装置は、請求項1に記載の人物動作検出装置において、空間特徴量生成手段をさらに備える構成とした。 According to a second aspect of the present invention, there is provided the human motion detection device according to the first aspect, further comprising a spatial feature generating unit.
かかる構成において、人物動作検出装置は、空間特徴量生成手段によって、特徴点軌跡情報生成手段で生成された特徴点軌跡情報に含まれる特徴点の位置におけるフレーム画像の輝度勾配を空間特徴量として生成し、軌跡特徴量に付加する。なお、この空間特徴量は、軌跡の始点、終点または中間点におけるフレーム画像の特徴点の輝度勾配、あるいは、フレーム画像の輝度勾配を特徴点の軌跡ごとに平均化した輝度勾配であってもよい。
このように、人物動作検出装置は、時間方向の特徴量に、さらに空間方向の特徴量を付加して軌跡特徴量を生成する。これによって、動作識別手段は、人物の動きの特徴のみならず、外観の特徴を加味して、動作を識別することになる。
In such a configuration, the human motion detection device generates, as a spatial feature amount, a brightness gradient of the frame image at the position of the feature point included in the feature point locus information generated by the feature point locus information generation unit by the spatial feature amount generation unit. And added to the trajectory feature value. The spatial feature amount may be a luminance gradient of the feature point of the frame image at the start point, end point, or intermediate point of the trajectory, or a luminance gradient obtained by averaging the luminance gradient of the frame image for each trajectory of the feature point. .
As described above, the human motion detection device generates a trajectory feature amount by adding a feature amount in the spatial direction to the feature amount in the time direction. As a result, the motion identifying means identifies the motion by taking into account not only the feature of the person's movement but also the feature of the appearance.
さらに、請求項3に記載の人物動作検出装置は、請求項1または請求項2に記載の人物動作検出装置において、時間特徴量生成手段が、方向特徴量生成手段と、速度特徴量生成手段と、を備える構成とした。
Further, the human motion detection device according to claim 3 is the human motion detection device according to
かかる構成において、人物動作検出装置は、方向特徴量生成手段によって、移動ベクトルの向きの取り得る範囲を予め定めた複数の数で分割したそれぞれ異なる範囲幅ごとに、移動ベクトルの向きを累計することで、時間特徴量を構成する特徴量である方向特徴量を生成する。 In such a configuration, the human motion detection device accumulates the direction of the movement vector for each different range width obtained by dividing the range that the direction of the movement vector can take by a plurality of predetermined numbers by the direction feature amount generation unit. Thus, a directional feature amount that is a feature amount constituting the temporal feature amount is generated.
また、人物動作検出装置は、速度特徴量生成手段によって、移動ベクトルの大きさの取り得る範囲を予め定めた複数の数で分割したそれぞれ異なる範囲幅ごとに、移動ベクトルの大きさを累計することで、時間特徴量を構成する特徴量である速度特徴量を生成する。
これによって、方向特徴量には、人物の動きの方向を粗く分類した分布から細かく分類した分布まで、複数の特徴が含まれることになる。また、速度特徴量には、人物の動きの速さを粗く分類した分布から細かく分類した分布まで、複数の特徴が含まれることになる。
In addition, the human motion detection device accumulates the size of the movement vector for each different range width obtained by dividing the range of the size of the movement vector by a plurality of predetermined numbers by the speed feature amount generation unit. Thus, a speed feature quantity that is a feature quantity constituting the temporal feature quantity is generated.
As a result, the direction feature quantity includes a plurality of features from a distribution in which the direction of movement of the person is roughly classified to a distribution in which the direction is finely classified. Also, the speed feature amount includes a plurality of features from a distribution in which the speed of movement of a person is roughly classified to a distribution in which the person is finely classified.
また、請求項4に記載の人物動作検出装置は、請求項3に記載の人物動作検出装置において、時間特徴量生成手段が、平滑化手段をさらに備える構成とした。 According to a fourth aspect of the present invention, there is provided the human motion detection apparatus according to the third aspect, wherein the time feature quantity generating means further comprises a smoothing means.
かかる構成において、人物動作検出装置は、平滑化手段によって、特徴点軌跡情報における特徴点の軌跡を平滑化した複数の軌跡を生成する。また、方向特徴量生成手段および速度特徴量生成手段は、平滑化手段で平滑化された複数の軌跡に対して、方向特徴量および速度特徴量をそれぞれ生成する。
これによって、方向特徴量および速度特徴量には、厳密に再現された軌跡からおおまかに再現された軌跡まで、複数の特徴が含まれることになる。
In this configuration, the human motion detection device generates a plurality of trajectories obtained by smoothing the trajectories of the feature points in the feature point trajectory information by the smoothing unit. In addition, the direction feature quantity generation unit and the speed feature quantity generation unit generate a direction feature quantity and a speed feature quantity for each of the trajectories smoothed by the smoothing unit.
As a result, the direction feature quantity and the speed feature quantity include a plurality of features from a strictly reproduced trajectory to a roughly reproduced trajectory.
また、請求項5に記載の人物動作検出装置は、請求項1から請求項4のいずれか一項に記載の人物動作検出装置において、動作識別手段が、重み付き分布生成手段と、分類手段と、を備える構成とした。
The human motion detection device according to claim 5 is the human motion detection device according to any one of
かかる構成において、人物動作検出装置は、重み付き分布生成手段によって、所定時間区間内に軌跡の終点が存在する個々の軌跡特徴量を単語とみなし、前記時間長内に存在する複数の単語を文書とみなすことで、tf−idf法により、特徴量抽出手段で生成された軌跡特徴量の重要度を算出し、当該軌跡特徴量が属するクラスタの頻度に重み付けを行うことでクラスタの分布を生成する。
また、人物動作検出装置は、分類手段によって、重み付き分布生成手段で生成されたクラスタの分布と、学習データ記憶手段に学習データとして記憶されている動作ごとのクラスタの分布との距離に基づいて類似を判定し、人物の動作を分類する。この距離は、例えば、ユークリッド距離を用いる。
In such a configuration, the human motion detection device regards each trajectory feature amount having a trajectory end point within a predetermined time interval as a word by the weighted distribution generation unit, and documents a plurality of words existing within the time length. Therefore, the importance of the trajectory feature amount generated by the feature amount extraction unit is calculated by the tf-idf method, and the cluster distribution is generated by weighting the frequency of the cluster to which the trajectory feature amount belongs. .
Further, the human motion detection device is based on the distance between the cluster distribution generated by the weighted distribution generation unit by the classification unit and the cluster distribution for each operation stored as learning data in the learning data storage unit. Similarity is determined, and a person's action is classified. For this distance, for example, the Euclidean distance is used.
このように、軌跡特徴量は固定長の特徴量であるため、人物動作検出装置は、「Bag−of−words」手法で用いられるtf−idf法を用いて、軌跡特徴量の重要度を算出することができる。これによって、映像内で頻繁に発生する背景領域上の軌跡特徴量の重要度を下げ、特定の時間に発生する人物の軌跡特徴量の重要度を上げることができる。 Thus, since the trajectory feature amount is a fixed-length feature amount, the human motion detection device calculates the importance of the trajectory feature amount using the tf-idf method used in the “Bag-of-words” method. can do. As a result, the importance of the trajectory feature amount on the background area that frequently occurs in the video can be reduced, and the importance of the trajectory feature amount of the person occurring at a specific time can be increased.
さらに、請求項6に記載の人物動作検出プログラムは、人物を撮影した映像から、前記人物の動作を検出するために、コンピュータを、特徴点軌跡情報生成手段、時間特徴量生成手段、動作識別手段として機能させる構成とした。 Furthermore, the person motion detection program according to claim 6 is a computer program comprising: a feature point trajectory information generating means, a time feature amount generating means, and an action identifying means for detecting a motion of the person from an image of a person photographed. It was set as the structure made to function as.
かかる構成において、人物動作検出プログラムは、特徴点軌跡情報生成手段によって、映像のフレーム画像ごとに特徴点を検出し、フレーム画像ごとに特徴点の特徴量のマッチングを行うことで、特徴点の位置を時間方向に追跡した軌跡を特徴点軌跡情報として生成する。また、人物動作検出プログラムは、時間特徴量生成手段によって、特徴点軌跡情報生成手段で生成された特徴点軌跡情報に含まれる前記特徴点の位置に基づいて、特徴点のフレーム画像ごとの移動ベクトルの向きおよび大きさを、当該向きおよび当該大きさの取り得る範囲を予め定めた数に分割した範囲幅ごとに累計することで時間特徴量を生成し、特徴点の軌跡の特徴量である軌跡特徴量とする。 In such a configuration, the human motion detection program detects the feature points for each frame image of the video by the feature point trajectory information generation unit, and performs the feature point matching for each frame image to thereby determine the position of the feature point. Is generated as feature point trajectory information. In addition, the human motion detection program includes a movement vector for each feature point frame image based on the position of the feature point included in the feature point trajectory information generated by the feature point trajectory information generation unit by the temporal feature amount generation unit. A trajectory that is a feature amount of a trajectory of a feature point is generated by accumulating the direction and size of each of the range and the range that can be taken by the size for each range width divided into a predetermined number. The feature value.
そして、人物動作検出プログラムは、動作識別手段によって、所定時間区間内に軌跡の終点が存在する複数の軌跡特徴量から、当該軌跡特徴量が属するクラスタを累計した分布を生成し、学習データ記憶手段に記憶されている動作ごとのクラスタの分布と類似する否かにより、人物の動作を識別する。なお、学習データ記憶手段には、複数の軌跡特徴量を予め定めた数のクラスタにクラスタリングしておき、既知の動作を構成する複数の軌跡特徴量をクラスタごとに累計した分布を、既知の動作ごとに対応付けて、予め学習データとして記憶しておく。 Then, the human motion detection program generates a distribution by accumulating the clusters to which the trajectory feature amount belongs from a plurality of trajectory feature amounts in which the end point of the trajectory exists within a predetermined time interval by the motion identifying unit, and learning data storage unit A person's action is identified based on whether or not it is similar to the cluster distribution for each action stored in. In the learning data storage means, a plurality of trajectory feature quantities are clustered into a predetermined number of clusters, and a distribution obtained by accumulating a plurality of trajectory feature quantities constituting a known action for each cluster is used as a known action. The data is stored in advance as learning data in association with each other.
本発明は、以下に示す優れた効果を奏するものである。
請求項1,6に記載の発明によれば、映像から、人物の動作に関する特徴量を、動作時間に関係なく固定長の軌跡特徴量で表すことができるため、動作途中で特徴量が遮断されることなく、正確に動作の特徴量を抽出することができる。これによって、本発明は、精度の高い特徴量を用いることで、映像から、高精度に人物の動作を検出することができる。
The present invention has the following excellent effects.
According to the first and sixth aspects of the present invention, since the feature amount related to the motion of the person can be expressed from the video by the fixed-length trajectory feature amount regardless of the motion time, the feature amount is cut off during the motion. Therefore, it is possible to accurately extract the feature amount of the operation without any problem. Thus, according to the present invention, it is possible to detect a person's movement with high accuracy from an image by using a highly accurate feature amount.
また、請求項1,6に記載の発明によれば、軌跡特徴量を固定長で表すことができるため、軌跡特徴量を単語とみなした「Bag−of−words」手法による人物の動作検出が可能になる。これによって、本発明は、所定時間区間内に軌跡の終点が存在する動作ごとにクラスタリングを行うことで、映像内に複数の人物が存在している場合であっても、動作が完了したタイミングで人物の動作を個別に検出することができる。 Further, according to the first and sixth aspects of the present invention, since the trajectory feature amount can be expressed by a fixed length, the motion detection of the person by the “Bag-of-words” method in which the trajectory feature amount is regarded as a word is performed. It becomes possible. As a result, the present invention performs clustering for each motion in which a trajectory end point exists within a predetermined time interval, so that even when there are a plurality of persons in the video, the motion is completed at the timing. The movement of a person can be detected individually.
請求項2に記載の発明によれば、人物の動作を検出する際に、時間特徴量に加え、空間特徴量を加味することができる。これによって、本発明は、人物の動作検出に、動きのみならず、外観的特徴も判定要素として加味できるため、例えば、ある動作がノイズによって発生した動作なのか、人物の手の動きによって発生したものかを区別して判定することが可能になる。 According to the second aspect of the present invention, it is possible to consider the spatial feature amount in addition to the time feature amount when detecting the motion of the person. As a result, the present invention can add not only movement but also appearance characteristics as determination factors to human motion detection. For example, whether a motion is caused by noise or caused by motion of a person's hand. It is possible to distinguish and determine whether it is a thing.
請求項3に記載の発明によれば、方向特徴量および速度特徴量を粗く分類した分布から細かく分類した分布まで複数分類しておくことで、正確に学習データの動作を再現した場合でなくても、おおまかな動きであっても、動きを判別することができる。 According to the third aspect of the present invention, it is not the case where the operation of the learning data is accurately reproduced by classifying a plurality of directional feature quantities and velocity feature quantities from coarsely classified distributions to finely classified distributions. Even if it is a rough movement, the movement can be discriminated.
請求項4に記載の発明によれば、軌跡を平滑化することで、人物の同じ動作に対して、人物ごとの個人差に伴う異なる動きであっても、その違いを吸収して、同一の動きと判定することができ、頑健に人物の動きを検出することができる。 According to the fourth aspect of the present invention, by smoothing the trajectory, even if the movement of the person is different due to individual differences for each person, the difference is absorbed and the same movement is obtained. It can be determined as a movement, and the movement of a person can be detected robustly.
請求項5に記載の発明によれば、軌跡特徴量を固定長とすることで、tf−idf法を用いることが可能になり、映像内における人物の動作の軌跡の重要度を高め、背景領域の軌跡の重要度を下げることができる。これによって、本発明は、頑健に人物の動作を検出することができる。 According to the fifth aspect of the present invention, it is possible to use the tf-idf method by setting the trajectory feature amount to a fixed length, increasing the importance of the trajectory of the person's motion in the video, and the background region. The importance of the trajectory can be reduced. As a result, the present invention can robustly detect the movement of a person.
以下、本発明の実施形態について図面を参照して説明する。
[人物動作検出装置の構成]
最初に、図1を参照して、本発明の実施形態に係る人物動作検出装置の構成について説明する。人物動作検出装置1は、カメラ(不図示)で撮影された映像から、当該映像に映された人物の動作を検出するものである。ここでは、人物動作検出装置1は、特徴点軌跡情報生成手段10と、特徴量抽出手段20と、動作識別手段30と、学習データ記憶手段40と、を備えている。
Embodiments of the present invention will be described below with reference to the drawings.
[Configuration of human motion detection device]
Initially, with reference to FIG. 1, the structure of the human motion detection apparatus which concerns on embodiment of this invention is demonstrated. The person
特徴点軌跡情報生成手段10は、入力される映像のフレーム(フレーム画像)ごとに、フレーム画像の特徴となる点(特徴点)を検出し、時間方向に特徴点を追跡することで、特徴点の位置情報(座標)を時間方向に連結した特徴点軌跡情報を生成するものである。
ここでは、特徴点軌跡情報生成手段10は、前景領域抽出手段11と、特徴点検出手段12と、特徴点追跡手段13と、を備えている。
The feature point trajectory
Here, the feature point trajectory
前景領域抽出手段11は、入力される映像のフレームごとに、動きのある領域を前景領域として抽出するものである。この前景領域抽出手段11は、抽出した前景領域とそれ以外の領域である背景領域とを区分した情報(例えば、2値画像)を、特徴点検出手段12に出力する。
The foreground
なお、この前景領域抽出手段11は、一般的な背景差分処理により前景領域を抽出することができる。例えば、映像が固定カメラで撮影された映像であれば、人物が映っていない画像を予め背景画像として撮影しておき、入力されるフレーム(フレーム画像)との差分をとることで、差のある領域を前景領域として抽出する。
Note that the foreground
また、前景領域抽出手段11は、例えば、フレーム画像の画素ごとに予め定めたフレーム数で画素値(あるいは輝度値)の平均や分散を算出し、画素値の変動が予め定めた閾値よりも大きい画素を前景領域の画素とすることとしてもよい。
このように、前景領域抽出手段11は、動きのある領域を前景領域として抽出することで、主に人物の動いた領域を抽出することができる。
In addition, the foreground
As described above, the foreground
特徴点検出手段12は、入力される映像のフレームごとに、フレーム画像の特徴となる点(特徴点)を検出するものである。例えば、特徴点検出手段12は、隣接画素に対する画素値あるいは輝度値の変化によって特徴点を検出する。この特徴点検出手段12は、フレーム画像ごとに検出した特徴点の位置(座標)を特徴点追跡手段13に出力する。なお、ここでは、特徴点検出手段12は、検出した特徴点が、前景領域抽出手段11で抽出された前景領域に含まれない場合、特徴点追跡手段13に出力しないこととする。これによって、特徴点追跡手段13における特徴点追跡の演算処理において、人物の動きとは関係のない背景の特徴点に対する特徴点追跡を防止することができる。
The feature point detection means 12 detects a point (feature point) that is a feature of the frame image for each frame of the input video. For example, the feature
この特徴点検出手段12における特徴点検出手法は、一般的な手法を用いることができる。例えば、特徴点検出手段12は、入力されるフレーム画像に対して、Harrisオペレータに代表されるようなコーナー検出処理を施すことで特徴点を検出する。
このHarrisオペレータは、画像信号の相関性に基づいて特徴点を検出する手法で、画像内のエッジやコーナー等の特徴点において相関出力値が大きくなるという特徴を有するオペレータである。
A general method can be used as the feature point detection method in the feature point detection means 12. For example, the feature point detection means 12 detects a feature point by performing a corner detection process represented by a Harris operator on the input frame image.
The Harris operator is a method for detecting feature points based on the correlation of image signals, and is an operator having a feature that a correlation output value becomes large at feature points such as edges and corners in an image.
このHarrisオペレータは、まず、入力画像(フレーム画像)に対してガウシアンオペレータにより平滑化処理を行う。そして、Harrisオペレータは、画像上の予め定めた大きさの正方形窓Wにおいて、座標(x,y)ごとに、輝度値I(x,y)の勾配Iu(x,y),Iv(x,y)を用いて以下の(1)式に示す行列Aを算出する。ここで、勾配Iu(x,y),Iv(x,y)は、それぞれ、輝度値I(x,y)のxに関する偏微分値、yに関する偏微分値である。 The Harris operator first smoothes the input image (frame image) by the Gaussian operator. Then, the Harris operator in the square window W of a predetermined size on the image, for each coordinate (x, y), the gradient I u (x, y), I v ( The matrix A shown in the following equation (1) is calculated using x, y). Here, the gradients I u (x, y) and I v (x, y) are a partial differential value related to x and a partial differential value related to y of the luminance value I (x, y), respectively.
そして、Harrisオペレータは、以下の(2)式に示すように、(1)式で算出した行列Aの固有値λ1,λ2の極小値を特徴量Hxyとして求める。 Then, as shown in the following equation (2), the Harris operator obtains the minimum values of the eigenvalues λ 1 and λ 2 of the matrix A calculated by the equation (1) as the feature amount H xy .
なお、固有値の正確な計算は演算量が大きいため、(2)式に代えて、以下の(3)式に示すように、行列Aの行列式(detA)とトレース(trA)を用いて演算することとしてもよい。なお、κは、予め定めた定数であって、例えば、Harrisらが参照論文で推奨する“0.04”〜“0.15”の範囲の定数である(参照論文:Harris, C., Stephens, M.: A Combined Corner and Edge Detector. Proceedings of the 4th Alvey Vision Conference. Manchester, U.K. (1988) 147-151.)。 In addition, since accurate calculation of the eigenvalue requires a large amount of calculation, the calculation is performed using the determinant (detA) and trace (trA) of the matrix A as shown in the following expression (3) instead of the expression (2). It is good to do. Note that κ is a predetermined constant, for example, a constant in a range of “0.04” to “0.15” recommended by Harris et al. In a reference paper (reference paper: Harris, C., Stephens). , M .: A Combined Corner and Edge Detector. Proceedings of the 4th Alvey Vision Conference. Manchester, UK (1988) 147-151.
このように算出された特徴量Hxyは、その値が大きいほど、エッジ、コーナー等の特徴を示している。そこで、特徴点検出手段12は、この特徴量Hxyが予め定めた閾値よりも大きい場合に、座標(x,y)の画素を特徴点と判定する。
このように、特徴点検出手段12は、フレーム画像ごとに特徴点を検出し、前景領域抽出手段11で抽出された前景領域内の特徴点のみを、特徴点追跡手段13に出力する。
なお、特徴点検出手段12は、Harrisオペレータのほか、SIFT(Scale Invariant Feature Transform)、SURF(Speeded Up Robust Features)等の一般的な特徴量検出手法を用いてもよい。
The feature amount H xy calculated in this way indicates features such as edges and corners as the value increases. Therefore, the feature
As described above, the feature
The feature point detection means 12 may use a general feature amount detection method such as SIFT (Scale Invariant Feature Transform), SURF (Speeded Up Robust Features), etc., in addition to the Harris operator.
特徴点追跡手段13は、特徴点検出手段12で検出された特徴点を、フレームごとに追跡するものである。この特徴点追跡手段13は、特徴量が類似する特徴点をフレームごとにマッチングすることで、特徴点を時間方向に追跡する。
The feature
すなわち、特徴点追跡手段13は、フレーム画像ごとに、あるフレーム画像における特徴点の特徴量と、前フレーム画像における特徴点の特徴量とがマッチング(合致または類似)した場合に同一の特徴点として追跡し、特徴量がマッチングしなかった場合に、当該特徴点の追跡を終了する。これによって、時間方向に特徴点がマッチングする間、特徴点の追跡が行われることになる。
That is, for each frame image, the feature
なお、この特徴点追跡手段13における特徴点追跡手法は、一般的な手法を用いることができる。例えば、Lucas−Kanade法を用いることができる。
このLucas−Kanade法は、同一物体の局所領域内では、オプティカルフローが同一になると仮定した空間的局所最適化法の一つである。オプティカルフローとは、連続した画像間で特徴点がどの方向にどの程度移動するかを表す速度ベクトルである。
A general method can be used as the feature point tracking method in the feature point tracking means 13. For example, the Lucas-Kanade method can be used.
The Lucas-Kanade method is one of spatial local optimization methods that assume that the optical flows are the same in the local region of the same object. An optical flow is a velocity vector that represents how much a feature point moves in which direction between successive images.
ここで、フレーム画像の時刻tにおけるある正方形窓W内の座標(x,y)の輝度値をI(x,y,t)、時刻(t+δt)における正方形窓W内の座標(x,y)の輝度値をI(x,y,t+δt)としたとき、オプティカルフロー(u,v)は、以下の(4)式で表される。 Here, the luminance value of coordinates (x, y) in a certain square window W at time t of the frame image is I (x, y, t), and coordinates (x, y) in the square window W at time (t + δt). The optical flow (u, v) is expressed by the following equation (4) where I (x, y, t + δt) is the luminance value of.
このように、特徴点追跡手段13は、フレーム画像間で、特徴点のマッチングを行い、オプティカルフロー(u,v)が類似する特徴点を同一特徴点の軌跡として追跡する。なお、オプティカルフローが類似するか否かは、オプティカルフロー同士の距離(例えば、ユークリッド距離)により判定することができる。
ここでは、特徴点追跡手段13は、特徴点の軌跡ごとに、時間情報(例えば、フレーム番号)に対応付けて、フレーム画像内の特徴点の座標位置を連結することで特徴点軌跡情報を生成する。この特徴点追跡手段13で生成された特徴点軌跡情報は、特徴量抽出手段20に出力される。
As described above, the feature
Here, the feature
この特徴点軌跡情報生成手段10は、例えば、図2に示すように、時刻ti,…,tj,…,tkにおいて入力された映像の各フレーム画像(a),(b),(c)において、人物がある動作(ここでは、携帯電話を耳に近づける動作)を行った場合、時刻ti,…,tj,…,tkにおいて、フレーム画像内の特徴点を順次複数検出する。そして、特徴点の軌跡が終了した時刻tkの時点で、(d)に示すように、各フレーム画像(a),(b),(c)で検出した特徴点を連結することで、特徴点の軌跡を生成する。
The feature point trajectory
この図2中、piは時刻tiの時点における特徴点の位置、pjは時刻tjの時点における特徴点の位置、pkは時刻tkの時点における特徴点の位置をそれぞれ示している。なお、この図2では、特徴点の軌跡を分かり易く説明するため、特徴点の数を減らして図示している。
このように、特徴点軌跡情報生成手段10は、追跡した軌跡pi,…,pj,…,pkの座標位置を連結することで特徴点軌跡情報を生成する。
図1に戻って、人物動作検出装置1の構成について説明を続ける。
In FIG. 2, p i represents the position of the feature point at the time t i , p j represents the position of the feature point at the time t j , and p k represents the position of the feature point at the time t k. Yes. In FIG. 2, the number of feature points is reduced in order to easily explain the trajectory of feature points.
Thus, the feature point trajectory
Returning to FIG. 1, the description of the configuration of the human
特徴量抽出手段20は、特徴点軌跡情報生成手段10で生成された特徴点軌跡情報に基づいて、特徴点の軌跡ごとの特徴量(軌跡特徴量)を生成するものである。なお、この特徴量抽出手段20は、特徴点の軌跡ごとに、時間方向の多次元の特徴量(時間特徴量)と、フレーム画像内の空間方向の多次元の特徴量(空間特徴量)とを、固定長(固定次元)の軌跡特徴量として生成する。ここでは、特徴量抽出手段20は、時間特徴量生成手段21と、空間特徴量生成手段22と、を備えている。
The feature
時間特徴量生成手段21は、特徴点軌跡情報生成手段10で生成された特徴点軌跡情報に含まれる前記特徴点の位置に基づいて、特徴点の軌跡(フレーム画像ごとの特徴点の移動ベクトル)から、時間方向の多次元の特徴量(時間特徴量)を生成するものである。すなわち、時間特徴量生成手段21は、人物の動作のうち時間方向の特徴となる特徴点の移動方向(移動ベクトルの向き〔角度〕)や移動速度(移動ベクトルの大きさ〔長さ〕)に基づいて、時間方向の特徴量を生成する。この時間特徴量は、特徴点の軌跡の時間方向の特徴を示す軌跡特徴量となる。
ここでは、時間特徴量生成手段21は、平滑化手段211と、方向特徴量生成手段212と、速度特徴量生成手段213と、を備えている。
Based on the position of the feature point included in the feature point trajectory information generated by the feature point trajectory
Here, the time feature quantity generation means 21 includes a smoothing means 211, a direction feature quantity generation means 212, and a speed feature quantity generation means 213.
平滑化手段211は、特徴点の軌跡に対して、複数のレベル(平滑化レベル)の平滑化処理を行うものである。この平滑化手段211は、特徴点の複雑な軌跡を複数のレベル平滑化レベルで平滑化することで、複数の軌跡を生成する。この平滑化処理は、Haarフィルタに代表される一般的なローパスフィルで実現することができる。
The smoothing
このように、特徴点の軌跡を複数の平滑化レベルで表すことで、人物の動作の軌跡が人物の個性によらない人物の一般的な動作に近似した軌跡として表現されることになる。ただし、平滑化されていない軌跡は、人物の動作の軌跡を正確に表している。そこで、この平滑化手段211は、平滑化を行っていない軌跡を含んだ複数のレベルで平滑化した軌跡を生成し、方向特徴量生成手段212および速度特徴量生成手段213に出力することとする。
In this way, by representing the trajectory of the feature point with a plurality of smoothing levels, the trajectory of the person's motion is expressed as a trajectory that approximates the general motion of the person regardless of the personality of the person. However, the unsmoothed trajectory accurately represents the trajectory of the person's movement. Therefore, the smoothing
ここで、数式および図3を参照して、平滑化手段211が、Haarフィルタによって複数の平滑化レベルで軌跡を平滑化する処理について具体的に説明する。
Haarフィルタは、離散時間(z空間)で、以下の(5)式の伝達関数で表されるフィルタである。
Here, the process in which the
The Haar filter is a filter represented by a transfer function of the following equation (5) in discrete time (z space).
ここで、特徴点kの軌跡を、(5)式に示したHaarフィルタでq段階(q:0以上の整数)に平滑化したときの特徴点kのx座標およびy座標を、以下の(6)式とする。 Here, the x-coordinate and y-coordinate of the feature point k when the trajectory of the feature point k is smoothed to q steps (q: an integer of 0 or more) with the Haar filter shown in the equation (5) are as follows: 6) Formula.
また、特徴点kの軌跡がフレーム番号t1からt2に存在したとすると、特徴点kのx座標px k,qは、以下の(7)式で表すことができ、(5)式に示したHaarフィルタは、以下の(8)式で表すことができる。なお、y座標py k,qについては、x座標と同様であるため、数式を省略する。 Further, assuming that the trajectory of the feature point k exists in the frame numbers t 1 to t 2 , the x coordinate p x k, q of the feature point k can be expressed by the following equation (7), and the equation (5) The Haar filter shown in (5) can be expressed by the following equation (8). Since the y coordinate p y k, q is the same as the x coordinate, the mathematical formula is omitted.
ここで、図3を参照して、Haarフィルタによって特徴点の軌跡が平滑化される様子を模式的に説明する。ここでは、図3(a)に示すように、前記(5)式のHaarフィルタを2段階適用した例を示している。すなわち、平滑化手段211は、平滑化レベル0(Level0:q=0)の特徴点kの軌跡に対して、Haarフィルタを適用し、平滑化レベル1(Level1:q=1)の軌跡を生成し、さらに、平滑化レベル1の軌跡に対して、Haarフィルタを適用することで、平滑化レベル2(Level2:q=2)の軌跡を生成する。
Here, with reference to FIG. 3, how the trajectory of the feature point is smoothed by the Haar filter will be schematically described. Here, as shown in FIG. 3A, an example is shown in which the Haar filter of the equation (5) is applied in two stages. That is, the smoothing
これによって、平滑化手段211は、図3(b)に示すように、特徴点kのLevel0のPk,0の特徴点の軌跡(図中、実線)と、Level1のPk,1の特徴点の軌跡(図中、破線)と、Level2のPk,2の特徴点の軌跡(図中、一点鎖線)とをそれぞれ生成し、その軌跡の座標位置を、平滑化レベルの異なる特徴点軌跡情報として、方向特徴量生成手段212および速度特徴量生成手段213に出力する。
図1に戻って、人物動作検出装置1の構成について説明を続ける。
Thereby, as shown in FIG. 3 (b), the smoothing means 211 has the trajectory of the level 0 Pk, 0 feature point of the feature point k (solid line in the figure) and the
Returning to FIG. 1, the description of the configuration of the human
方向特徴量生成手段212は、平滑化手段211で多段階に平滑化された特徴点軌跡情報に含まれる特徴点の位置に基づいて、特徴点が移動する方向について固定次元(固定長)の特徴量(方向特徴量)を生成するものである。なお、この方向特徴量は、時間特徴量を構成する特徴量である。
この方向特徴量生成手段212は、平滑化手段211で生成された各平滑化レベルの軌跡について、フレーム画像上における特徴点が移動する角度(移動ベクトルの向き)を一定の角度幅ごとに累計(ヒストグラム化)することで、方向特徴量を生成する。
すなわち、方向特徴量生成手段212は、ヒストグラムのビン幅(角度幅)をθとしたとき、[0,θ),[θ,2θ),…,[2π−θ,2π)ごとに、特徴点が移動する角度を累計する。ここで、[a,b)は、a以上b未満を示す。
なお、このとき、方向特徴量生成手段212は、ヒストグラムのビン幅(角度幅)が異なる複数のヒストグラムを生成することとする。
The direction feature
This directional feature quantity generation means 212 accumulates the angles (directions of the movement vectors) at which the feature points move on the frame image with respect to each smoothing level trajectory generated by the smoothing means 211 for each fixed angular width ( By generating a histogram, a direction feature amount is generated.
That is, the direction feature
At this time, the direction feature
具体的には、方向特徴量生成手段212は、“0”〜“2π”の角度を、4分割、8分割および16分割したビン幅に設定し、各平滑化レベルの軌跡のヒストグラムを生成する。例えば、“0”〜“2π”の角度を4分割したビン幅“π/2”のヒストグラムを生成する場合、[0,π/2),[π/2,π),[π,3π/2),[3π/2,2π)ごとに角度を累計する。
Specifically, the direction feature
例えば、図3で説明した3段階の平滑化レベルで平滑化した特徴点の軌跡に対して、それぞれ、3つの異なるビン幅で特徴点が移動する角度をヒストグラム化した例を図4に示す。図4に示すように、方向特徴量生成手段212は、ビン幅“π/2”(ビン数“4”),“π/4”(ビン数“8”),“π/8”(ビン数“16”)のヒストグラムを、それぞれ、平滑化レベル数(ここでは、“3”)分生成することで、84(ビン数(4+8+16)×平滑化レベル数(3))次元の固定の特徴量(方向特徴量:方向特徴量ヒストグラム)を生成する。
For example, FIG. 4 shows an example in which the angle at which the feature point moves with three different bin widths is histogrammed with respect to the trajectory of the feature point smoothed at the three smoothing levels described in FIG. As shown in FIG. 4, the direction feature
速度特徴量生成手段213は、平滑化手段211で多段階に平滑化された特徴点軌跡情報に含まれる特徴点の位置に基づいて、特徴点が移動する速度について固定次元(固定長)の特徴量(速度特徴量)を生成するものである。この特徴点の軌跡はフレーム画像ごとに追跡されているため、特徴点の速度は、フレーム画像上における特徴点の移動ベクトルの長さを用いればよい。ここでは、移動ベクトルの水平方向の長さと、垂直方向の長さとから、それぞれ速度特徴量を生成することとする。なお、この速度特徴量は、時間特徴量を構成する特徴量である。 The speed feature quantity generation means 213 has a fixed dimension (fixed length) feature for the speed at which the feature point moves based on the position of the feature point included in the feature point trajectory information smoothed in multiple stages by the smoothing means 211. A quantity (speed feature quantity) is generated. Since the trajectory of this feature point is tracked for each frame image, the speed of the feature point may be the length of the movement vector of the feature point on the frame image. Here, velocity feature quantities are generated from the horizontal length and the vertical length of the movement vector, respectively. Note that this speed feature amount is a feature amount constituting a time feature amount.
この速度特徴量生成手段213は、平滑化手段211で生成された各平滑化レベルの軌跡について、フレーム画像上における特徴点が移動する速度(移動ベクトルの大きさ〔水平方向の長さ,垂直方向の長さ〕)を一定の速度幅ごとに累計(ヒストグラム化)することで、速度特徴量を生成する。 The speed feature quantity generation means 213 uses the speed at which the feature point moves on the frame image (the size of the movement vector [the length in the horizontal direction, the length in the vertical direction) for each smoothing level trajectory generated by the smoothing means 211. The speed feature amount is generated by accumulating (histogram-izing) the length of each]] for each constant speed width.
なお、速度特徴量生成手段213は、方向特徴量生成手段212と同様に、ビン幅の異なる複数のヒストグラムを生成することとする。
具体的には、速度特徴量生成手段213は、例えば、水平方向の速度について特徴量を生成する場合、特徴点軌跡情報に基づいて、水平速度が最も遅い、すなわち、移動ベクトルの水平方向の長さが最も短い速度(長さ)をヒストグラムの最小値vsとする。また、水平速度が最も早い、すなわち、移動ベクトルの水平方向の長さが最も長い速度(長さ)をヒストグラムの最大値vfとする。
Note that the speed feature
Specifically, for example, when generating the feature value for the horizontal speed, the speed feature
そして、速度特徴量生成手段213は、vs〜vfの速度を、4分割、8分割および16分割したビン幅に設定し、各平滑化レベルの軌跡のヒストグラムを生成する。例えば、vs〜vfの速度を4分割したビン幅“{vf−vs}/4”のヒストグラムを生成する場合、[vs,vs+{vf−vs}/4),[vs+{vf−vs}/4,vs+{vf−vs}/2),[vs+{vf−vs}/2,vs+3×{vf−vs}/4),[vs+3×{vf−vs}/4,vf]ごとに速度を累計する。ここで、[a,b)は、a以上b未満の範囲を示し、[a,b]は、a以上b以下の範囲を示す。
また、速度特徴量生成手段213は、垂直方向の速度についても水平方向と同様に、ヒストグラムを生成する。
Then, the speed feature
Also, the speed feature
例えば、図3で説明した3段階の平滑化レベルで平滑化した特徴点の軌跡に対して、それぞれ、3つの異なるビン幅で特徴点が移動する速度をヒストグラム化した例を図5に示す。
図5に示すように、速度特徴量生成手段213は、水平方向および垂直方向の速度特徴量として、方向特徴量生成手段212と同様に、それぞれ84次元の固定の特徴量を生成する。すなわち、速度特徴量生成手段213は、水平方向および垂直方向の速度特徴量として、168次元(84×2)の固定次元の特徴量(速度特徴量:速度特徴量ヒストグラム)を生成する。
このように、速度特徴量生成手段213は、特徴点の軌跡の時間長に依存せずに、固定次元(固定長)の速度特徴量を生成することができる。
For example, FIG. 5 shows an example in which the speed at which the feature point moves with three different bin widths is histogrammed with respect to the trajectory of the feature point smoothed at the three smoothing levels described in FIG.
As shown in FIG. 5, the speed feature
As described above, the speed feature
空間特徴量生成手段22は、特徴点軌跡情報生成手段10で生成された特徴点軌跡情報に含まれる特徴点の位置に基づいて、特徴点の軌跡から、空間方向の多次元の特徴量(空間特徴量)を生成するものである。すなわち、空間特徴量生成手段22は、フレーム画像上の特徴点の特徴量をアピアランス(外観)特徴として生成するものである。この空間特徴量は、特徴点の軌跡の空間方向の特徴を示す軌跡特徴量となる。
The spatial feature
この空間特徴量生成手段22は、フレーム画像上における特徴点の特徴量を生成するものであって、一般的な特徴量表現によって固定長の特徴量を生成することができる。例えば、この特徴量として、SURF(Speeded Up Robust Features)特徴量、SIFT(Scale-Invariant Feature Transform)特徴量等を用いることができる。 The spatial feature value generation means 22 generates feature values of feature points on the frame image, and can generate fixed-length feature values by general feature value expression. For example, a SURF (Speeded Up Robust Features) feature amount, a SIFT (Scale-Invariant Feature Transform) feature amount, or the like can be used as the feature amount.
この特徴量としてSURF特徴量を用いる場合、空間特徴量生成手段22は、特徴点で、Haarウェブレットによって、最も支配的な輝度の傾き方向(輝度勾配:dominant rotation)を求める。そして、空間特徴量生成手段22は、最も支配的な方向を基準に、特徴点近傍の予め定めた16個のブロック内で、それぞれ輝度勾配の方向の総和(水平Σdx、垂直Σdy)と大きさの総和(水平Σ|dx|、垂直Σ|dy|)の4つの値を特徴量として算出する。
すなわち、空間特徴量生成手段22は、特徴点ごとに、SURF特徴量として、64次元(16×4)の特徴量を算出する。
また、特徴量としてSIFT特徴量を用いる場合であれば、空間特徴量生成手段22は、特徴点ごとに、128次元の特徴量を算出することとする。
When the SURF feature value is used as this feature value, the spatial feature
That is, the spatial feature
If a SIFT feature value is used as the feature value, the spatial feature
ここでは、空間特徴量生成手段22は、軌跡上のすべての特徴点において、対応するフレーム画像からSURF特徴量(あるいはSIFT特徴量)を抽出し、軌跡ごとに平均化することで、当該特徴点における空間特徴量を生成する。なお、このSURF特徴量(SIFT特徴量)は、アピアランス特徴であるため、必ずしも特徴点の時間方向に対応した軌跡すべてについて特徴量に対して演算を行う必要はない。例えば、空間特徴量生成手段22は、特徴点の軌跡の中で、軌跡の始点、終点または中間点について代表して特徴量を生成することとしてもよい。
Here, the spatial feature value generating means 22 extracts the SURF feature value (or SIFT feature value) from the corresponding frame image at all feature points on the trajectory, and averages each trajectory, thereby obtaining the feature point. Generate spatial features in. Since the SURF feature value (SIFT feature value) is an appearance feature, it is not always necessary to calculate the feature value for all the trajectories corresponding to the time direction of the feature points. For example, the spatial feature
この空間特徴量生成手段22は、時間特徴量生成手段21で生成された時間特徴量(方向特徴量および速度特徴量)に空間特徴量を付加することで、軌跡特徴量を生成し、動作識別手段30に出力することとする。
The spatial
このように、特徴量抽出手段20は、時間特徴量生成手段21で生成された固定次元の時間特徴量(方向特徴量〔本実施形態では84次元〕、速度特徴量〔本実施形態では168次元〕)と、空間特徴量生成手段22で生成された固定次元の空間特徴量(本実施形態では64次元〔SURF特徴量の場合〕)とで、人物の動作時間が可変であっても、固定次元(固定長)の軌跡特徴量を特徴点の軌跡ごとに生成(抽出)する。
ここでは、特徴量抽出手段20は、特徴点の軌跡ごとに、固定次元の軌跡特徴量(時間特徴量および空間特徴量)を、当該軌跡の終了時間、すなわち、人物の動作が完了した時間(例えば、軌跡の最終フレーム番号)とともに、動作識別手段30に出力する。
As described above, the feature
Here, the feature quantity extraction means 20 calculates the fixed dimension of the trajectory feature quantity (time feature quantity and spatial feature quantity) for each trajectory of the feature point, that is, the end time of the trajectory, that is, the time when the action of the person is completed ( For example, the final frame number of the trajectory) is output to the
動作識別手段30は、後記する学習データ記憶手段40に記憶されている学習データを参照して、特徴量抽出手段20で抽出された所定時間区間内に軌跡の終点が存在する多次元(固定次元)の軌跡特徴量から、人物の動作を識別するものである。この動作識別手段30は、動作ごとに予め求めた軌跡特徴量に近似するか否かを順次判定するIf−Thenルールに基づく手法や、機械学習のサポートベクターマシン(SVM)に基づく手法など、一般的な手法を用いることができる。ここでは、動作識別手段30は、多次元の軌跡特徴量を1つの単語(以下、軌跡単語ともいう)とみなし、「Bag−of−words」手法を用いて動作を識別する。
The
この動作識別手段30は、学習手段31と、動作判定手段32と、を備えている。なお、動作識別手段30は、図示を省略した入力手段を介して動作モードが設定されることで、学習データを学習する「学習フェーズ」と、映像から人物の動作を検出する「動作検出フェーズ」との2つのフェーズで動作し、「学習フェーズ」においては、学習手段31が動作し、「動作検出フェーズ」においては、動作判定手段32が動作するものとする。
The
学習手段31は、特徴量抽出手段20で抽出された予め人物が動作した際の映像における軌跡特徴量から、動作ごとの軌跡特徴量の分布を学習するものである。ここでは、学習手段31は、コードブック生成手段311と、ヒストグラム生成手段312と、を備えている。
The
コードブック生成手段311は、種々の動作を撮影した映像から、特徴量抽出手段20で抽出された軌跡特徴量(軌跡単語)を入力し、複数の軌跡単語を、予め定めた数(k個)のクラスタにクラスタリングすることで、コードブックを生成するものである。
このコードブックは、複数の軌跡単語を、その特徴(多次元の特徴量)に基づいて、予め定めたk個(例えば、1000個)に分類した単語辞書である。
このコードブック生成手段311におけるクラスタリングは、例えば、K平均法(K−means法)を用いて行うことができる。
このコードブック生成手段311は、k個のクラスタに分類された複数の軌跡単語からなるコードブックを、学習データ記憶手段40に書き込み記憶する。
The code
This code book is a word dictionary in which a plurality of trajectory words are classified into k pieces (for example, 1000 pieces) determined in advance based on their features (multidimensional feature amounts).
The clustering in the code
The code
なお、このコードブック生成手段311がコードブックを生成するために用いる映像は、特に限定するものではないが、例えば、人物動作検出装置1が、固定カメラで人物の動作を検出する場合、予め定めた位置に設置したカメラで数日間撮影した映像である。
また、ここでは、コードブック生成手段311は、予め定めた時間長(所定時間区間)のシーケンス(例えば、1秒〔25フレーム相当〕)に軌跡が終了した複数の軌跡単語について、当該シーケンスを1ドキュメント(文書)として、当該ドキュメントに含まれる軌跡単語およびそのクラスタをドキュメントごとに学習データ記憶手段40に書き込み記憶しておくこととする。このドキュメントは、後記する動作判定手段32の重み付きヒストグラム生成手段321において、軌跡単語の重要度を算出する際に使用される。
The video used by the code
Further, here, the code book generating means 311 applies the
ヒストグラム生成手段312は、予め定めた動作を撮影した映像から、特徴量抽出手段20で抽出された複数の軌跡特徴量(軌跡単語)を入力し、当該動作における軌跡単語の出現頻度の分布(ヒストグラム)を生成するものである。
このヒストグラム生成手段312は、予め既知の動作において、複数の軌跡単語のそれぞれを、コードブック生成手段311で生成されたコードブックのk個のクラスタの中で、距離(ユークリッド距離)が最も近いクラスタに分類し、k個のビン数からなるヒストグラムを生成する。
The histogram generation means 312 receives a plurality of trajectory feature quantities (trajectory words) extracted by the feature quantity extraction means 20 from a video obtained by photographing a predetermined action, and a distribution of appearance frequencies of trajectory words in the action (histogram). ).
This histogram generation means 312 is a cluster in which the distance (Euclidean distance) is the closest among the k clusters of the codebook generated by the codebook generation means 311 in a known operation in advance. And a histogram composed of k bins is generated.
なお、ヒストグラム生成手段312は、ヒストグラムを正規化することとする。すなわち、ヒストグラム生成手段312は、クラスタごとに累計した度数の合計値が、“1.0”となるように、それぞれのクラスタの度数を正規化する。これによって、軌跡の数によらずに、1つの動作を同一の基準で表現することができ、動作検出を容易かつ頑健に行うことが可能になる。
このように、ヒストグラム生成手段312は、既知の動作において作成したヒストグラムを、動作に対応付けて、学習データ記憶手段40に書き込み記憶する。
Note that the
As described above, the
ここで、図6および図7を参照(適宜図1参照)して、学習手段31が、「学習フェーズ」において行う学習の手法について模式的に説明する。なお、軌跡単語は、実際は多次元の特徴量であるが、図6および図7では、模式的に軌跡形状で示す。
まず、学習手段31は、図6(a)に示すように、特徴量抽出手段20で抽出された複数の多次元の軌跡特徴量(軌跡単語W1,W2,…,Wn)を入力し、学習データ記憶手段40に書き込む。その後、学習手段31は、コードブック生成手段311によって、図6(b)に示すように、複数の軌跡単語W1,W2,…,Wnを、例えば、K平均法により特徴量に基づいてk個のクラスタ(C1,C2,…,Ck)に分類する。このように、コードブック生成手段311は、k個のクラスタに分類された軌跡単語の辞書であるコードブックCBを生成する。
Here, with reference to FIG. 6 and FIG. 7 (refer to FIG. 1 as appropriate), a learning method performed by the
First, as shown in FIG. 6A, the
そして、学習手段31は、図7(a)に示すように、既知の動作によって特徴量抽出手段20で抽出された複数の多次元の軌跡特徴量(軌跡単語w1,w2,…,wn)を入力する。そして、学習手段31は、ヒストグラム生成手段312によって、軌跡単語w1,w2,…,wnのそれぞれが、図6(b)に示したコードブックCBのどのクラスタ(C1,C2,…,Ck)に属するかを分類し、クラスタごとにその属する数(度数)を求め、図7(b)に示すように、ヒストグラムHを生成する。なお、このヒストグラムHは、度数の合計値が“1.0”となるように、それぞれのクラスタの度数を正規化しておくこととする。
このように、学習手段31は、ヒストグラム生成手段312によって、既知の動作ごとに、ヒストグラムHを生成することで、学習データを生成する。
図1に戻って、人物動作検出装置1の構成について説明を続ける。
Then, as shown in FIG. 7A, the
As described above, the
Returning to FIG. 1, the description of the configuration of the human
動作判定手段32は、学習データ記憶手段40に記憶されている学習データを参照して、特徴量抽出手段20で抽出された多次元(固定次元)の軌跡特徴量(軌跡単語)から、人物の動作を判定するものである。
この動作判定手段32は、予め定めた時間長(所定時間区間)のシーケンス(例えば、1秒〔25フレーム相当〕)に軌跡の終点が存在する複数の軌跡単語について、学習データ記憶手段40に記憶されている学習データを参照して動作を判定する。このように、所定時間区間内に軌跡が終了した複数の軌跡単語は、動作が完了した一連の動作の特徴を示すことになる。なお、このシーケンスの時間長は、任意に定めることができる。
ここでは、動作判定手段32は、重み付きヒストグラム生成手段321と、分類手段322と、を備えている。
The
The
Here, the
重み付きヒストグラム生成手段(重み付き分布生成手段)321は、特徴量抽出手段20で抽出された1シーケンス内の軌跡特徴量(軌跡単語)を入力し、当該シーケンスにおける軌跡単語の出現頻度の分布(ヒストグラム)を生成するものである。なお、重み付きヒストグラム生成手段321は、軌跡単語の重要度に基づいて、ヒストグラムの出現頻度に対して重み付けを行う。
A weighted histogram generation unit (weighted distribution generation unit) 321 inputs a trajectory feature amount (trajectory word) in one sequence extracted by the feature
すなわち、重み付きヒストグラム生成手段321は、1シーケンス内の複数の軌跡単語のそれぞれを、学習データ記憶手段40に記憶されているコードブックのk個のクラスタの中で、距離(ユークリッド距離)が最も近いクラスタに分類し、k個のビン数からなるヒストグラムを生成する。
また、重み付きヒストグラム生成手段321は、1シーケンス内の軌跡単語を、1つのドキュメント(文書)とみなし、全ドキュメントにおける軌跡単語の重要度を、tf−idf法を用いて算出し、当該軌跡単語が属するクラスタの出現頻度に重要度を乗算することで、ヒストグラム(クラスタの分布)に重みを付加する。ここで、全ドキュメントとは、学習手段31によって、予め学習フェーズにおいて、種々の動作を撮影した複数の映像から収集したドキュメントを指す。
That is, the weighted
Further, the weighted histogram generation means 321 regards the trajectory word in one sequence as one document (document), calculates the importance of the trajectory word in all documents using the tf-idf method, and calculates the trajectory word. By multiplying the frequency of appearance of the cluster to which the number belongs by the importance, a weight is added to the histogram (cluster distribution). Here, the whole document refers to a document collected from a plurality of videos obtained by photographing various operations by the
なお、重み付きヒストグラム生成手段321は、クラスタごとに累計した度数の合計値が、“1.0”となるように、それぞれのクラスタの度数を正規化する。これによって、学習データ記憶手段40に記憶されている学習データとの対比を同一の基準で行うことができる。
このように生成された軌跡単語の出現頻度の分布(ヒストグラム)は、分類手段322に出力される。
The weighted
The distribution (histogram) of the appearance frequency of the trajectory word generated in this way is output to the classification means 322.
ここで、重み付きヒストグラム生成手段321が、tf−idf法により重要度を算出する手法について、数式を用いて具体的に説明する。
ここでは、重み付きヒストグラム生成手段321は、予め定めた時間長(例えば、1秒)のシーケンス内に軌跡の終点が存在する複数の軌跡単語について、その軌跡単語が属するクラスタごとの重要度を算出する。
すなわち、重み付きヒストグラム生成手段321は、軌跡単語が属するクラスタxのドキュメントd内における重要度wxdを、以下の(9)式に示すtfxd値とidfx値の積により算出する。
Here, a method in which the weighted
Here, the weighted histogram generation means 321 calculates importance for each cluster to which the trajectory word belongs for a plurality of trajectory words in which the end point of the trajectory exists in a sequence having a predetermined time length (for example, 1 second). To do.
That is, the weighted
この(9)式のidfx値は、全ドキュメントにおけるクラスタxを含むドキュメントの頻度の逆数の対数で、以下の(10)式で表される。 The idf x value of the equation (9) is a logarithm of the reciprocal of the frequency of documents including the cluster x in all documents, and is expressed by the following equation (10).
ここで、Nは、全ドキュメント数、nxは、全ドキュメントにおいて、クラスタxを含むドキュメント数である。このように、idfx値は、クラスタxを含むドキュメント頻度に反比例する。
また、(9)式のtfxd値は、あるドキュメントdにおけるクラスタxの頻度で、以下の(11)式で表される。
Here, N, the total number of documents, n x, in all documents, a number of documents including cluster x. Thus, the idf x value is inversely proportional to the frequency of documents containing cluster x.
Further, the tf xd value in the equation (9) is the frequency of the cluster x in a certain document d and is expressed by the following equation (11).
ここで、OCxdは、あるドキュメントdにおけるクラスタxの数、Wは、ドキュメントd内の軌跡単語の集合である。また、OCidは、その軌跡単語の集合における軌跡単語i(クラスタ)の数である。
このように、重み付きヒストグラム生成手段321は、tf−idf法により軌跡単語が属するクラスタの重要度を算出して、ヒストグラムを生成するため、頻繁に発生する背景領域上の軌跡単語の重要度を下げ、特定のシーケンスで頻繁に発生する軌跡単語の重要度を高めることができる。なお、特徴点軌跡情報生成手段10において、前景の特徴点から軌跡を抽出することとしているが、照明やノイズ等の原因で、背景において特徴点を追跡する場合もある。この場合、重み付きヒストグラム生成手段321によって、背景領域上の軌跡単語の重要度を下げることで、人物の動作をより適切に表したヒストグラムを生成することができる。
図1に戻って、人物動作検出装置1の構成について説明を続ける。
Here, OC xd is the number of clusters x in a document d, and W is a set of trajectory words in the document d. OC id is the number of trajectory words i (clusters) in the set of trajectory words.
In this way, the weighted histogram generation means 321 calculates the importance of the cluster to which the locus word belongs by the tf-idf method and generates a histogram. Therefore, the importance of the locus word on the background region that frequently occurs is calculated. The importance of trajectory words that frequently occur in a specific sequence can be increased. The feature point trajectory
Returning to FIG. 1, the description of the configuration of the human
分類手段322は、重み付きヒストグラム生成手段321で生成されたあるシーケンスにおける軌跡単語の出現頻度の分布(ヒストグラム)と、学習データ記憶手段40に記憶されている学習データの動作ごとの分布(ヒストグラム)との距離に基づいて類似を判定し、当該シーケンスにおける人物の動作を予め定めた動作に分類するものである。
The classifying
すなわち、この分類手段322は、入力されたあるシーケンスにおけるヒストグラム(クラスタの分布)と、学習データのヒストグラム(クラスタの分布)との距離、例えば、ユークリッド距離が最も近いものを類似した動作として判定し、その類似した学習データのヒストグラムに対応する動作を、シーケンスにおける人物の動作として分類する。
この分類結果は、人物動作検出装置1における人物の動作検出結果として出力される。
In other words, the
This classification result is output as a human motion detection result in the human
学習データ記憶手段40は、事前の学習によって、予め定めた数のクラスタにクラスタリングされた軌跡特徴量の出現頻度の分布(ヒストグラム)と、人物の動作とを対応付けた学習データを記憶するものである。この学習データ記憶手段40は、ハードディスク、半導体メモリ等の一般的な記憶媒体で構成することができる。 The learning data storage means 40 stores learning data that associates the distribution of appearance frequencies (histograms) of trajectory feature quantities clustered into a predetermined number of clusters and a person's action by prior learning. is there. The learning data storage means 40 can be composed of a general storage medium such as a hard disk or a semiconductor memory.
この学習データ記憶手段40には、多次元の軌跡特徴量を1つの単語(軌跡単語)とみなした複数の軌跡単語を予め定めた数のクラスタにクラスタリングしたコードブックと、ある動作において発生する軌跡単語のクラスタごとの分布を、その動作と対応付けたヒストグラムとを、学習データとして記憶しておく。
さらに、学習データ記憶手段40には、予め定めた時間長(所定時間区間)のシーケンスに軌跡の終点が存在する複数の軌跡単語について、当該シーケンスを1ドキュメント(文書)として、当該ドキュメントに含まれる軌跡単語およびそのクラスタをドキュメントごとに記憶しておく。
The learning data storage means 40 includes a codebook obtained by clustering a plurality of trajectory words in which a multidimensional trajectory feature amount is regarded as one word (trajectory word) into a predetermined number of clusters, and a trajectory generated in a certain operation. A histogram in which the distribution of each word cluster is associated with the operation is stored as learning data.
Further, the learning data storage means 40 includes, for a plurality of trajectory words having a trajectory end point in a sequence having a predetermined time length (predetermined time interval), the sequence as one document (document). The trajectory word and its cluster are stored for each document.
このように人物動作検出装置1を構成することで、人物動作検出装置1は、時間方向に可変長の特徴量を、固定長(固定次元)の軌跡特徴量として扱うことで、「Bag−of−words」手法を用いて人物の動作検出を行うことができる。
なお、人物動作検出装置1は、一般的なコンピュータを前記した各手段として機能させるプログラム(人物動作検出プログラム)により動作させることができる。
By configuring the human
The person
[人物動作検出装置の動作]
次に、図8〜図10を参照して、本発明の実施形態に係る人物動作検出装置の動作について説明する。ここでは、人物動作検出装置1の動作を、「学習フェーズ」と、「動作検出フェーズ」とに分けて説明する。
[Operation of human motion detection device]
Next, the operation of the human motion detection device according to the embodiment of the present invention will be described with reference to FIGS. Here, the operation of the human
〔学習フェーズ(第1段階)〕
最初に、図8を参照(構成については適宜図1参照)して、人物動作検出装置1の学習フェーズ(第1段階)における動作について説明する。なお、図8の学習フェーズ(第1段階)は、種々の動作を撮影した複数の映像から、軌跡特徴量(軌跡単語)を抽出し、複数の軌跡単語を、予め定めた数(k個)のクラスタにクラスタリングすることで、軌跡を分類する際に用いるコードブックを生成する動作である。
[Learning phase (first stage)]
First, the operation in the learning phase (first stage) of the human
まず、人物動作検出装置1は、特徴点軌跡情報生成手段10によって、入力された映像から、特徴点の軌跡を示す特徴点軌跡情報を生成する。
すなわち、人物動作検出装置1は、前景領域抽出手段11によって、入力された映像のフレーム画像ごとに、背景差分処理により、動きのある領域を前景領域として抽出する(ステップS1)。
First, in the human
That is, the human
また、人物動作検出装置1は、特徴点検出手段12によって、入力された映像のフレームごとに、Harrisオペレータ等の特徴点検出手法により、フレーム画像の特徴となる点(特徴点)を検出する(ステップS2)。このとき、特徴点検出手段12は、ステップS1で前景領域と判定された領域以外の特徴点については破棄する。
そして、人物動作検出装置1は、特徴点追跡手段13によって、ステップS2で検出された特徴点において、特徴量(例えば、輝度勾配)が類似する特徴点をフレームごと(時間方向)に追跡し、特徴点軌跡情報を生成する(ステップS3)。
In the human
Then, the human
そして、人物動作検出装置1は、特徴量抽出手段20の時間特徴量生成手段21によって、ステップS3で生成された特徴点軌跡情報に基づいて、時間方向の多次元の特徴量(時間特徴量)を生成する。
すなわち、人物動作検出装置1は、平滑化手段211によって、ステップS3で生成された特徴点軌跡情報に記述されている特徴点の軌跡(座標)に対して、多段階の平滑化処理を行う(ステップS4)。このとき、例えば、平滑化手段211は、Haarフィルタを2段階適用し、平滑化レベルが3段階の特徴点軌跡情報を生成する。
Then, the human
That is, the human
その後、人物動作検出装置1は、方向特徴量生成手段212によって、ステップS4で多段階に平滑化された特徴点軌跡情報に基づいて、フレーム画像上における特徴点が移動する角度(移動ベクトルの角度;0〜2π)を一定の角度幅ごとに累計(ヒストグラム化)することで、方向特徴量を生成する(ステップS5)。
このとき、方向特徴量生成手段212は、異なる角度幅(例えば、π/2,π/4,π/8)をビン幅として各角度の移動ベクトルを累計することでヒストグラムを生成する。
Thereafter, the human
At this time, the direction feature
さらに、人物動作検出装置1は、速度特徴量生成手段213によって、ステップS4で多段階に平滑化された特徴点軌跡情報に基づいて、フレーム画像上における特徴点の移動速度を一定の速度幅ごとに累計(ヒストグラム化)することで、速度特徴量を生成する(ステップS6)。
このとき、速度特徴量生成手段213は、特徴点の速度として、フレーム画像上におけるフレームごとの特徴点の移動ベクトルの水平方向の長さおよび垂直方向の長さを用いることとする。また、速度特徴量生成手段213は、異なる速度幅をビン幅として各速度の移動ベクトルを累計することでヒストグラムを生成する。
Furthermore, the human
At this time, the speed feature
さらに、人物動作検出装置1は、空間特徴量生成手段22によって、ステップS3で生成された特徴点軌跡情報に記述されている特徴点の軌跡(座標)に対して、空間方向の多次元の特徴量(空間特徴量;例えば、SURF特徴量、SIFT特徴量等)を生成する(ステップS7)。
このとき、空間特徴量生成手段22は、軌跡上のすべての特徴点において、対応するフレーム画像から特徴量(SURF特徴量あるいはSIFT特徴量)を抽出し、軌跡ごとに平均化する。
なお、このステップS5〜S7における各特徴量の生成は、必ずしもこの順番で行う必要はなく、並列処理で各特徴量を生成することとしてもよい。
Furthermore, the human
At this time, the spatial feature quantity generation means 22 extracts the feature quantity (SURF feature quantity or SIFT feature quantity) from the corresponding frame image at all feature points on the trace, and averages it for each trace.
Note that the generation of the feature amounts in steps S5 to S7 is not necessarily performed in this order, and the feature amounts may be generated by parallel processing.
このように、特徴量抽出手段20は、特徴点ごとに、時間方向に固定長の時間特徴量(方向特徴量,速度特徴量)と、空間方向に固定長の空間特徴量とからなる軌跡特徴量を生成する。これによって、人物動作検出装置1は、軌跡の長さが時間方向に可変であっても、固定長の多次元の軌跡特徴量で軌跡を表現することができる。これによって、人物動作検出装置1は、多次元の軌跡特徴量1つの単語(軌跡単語)として扱うことができる。
In this way, the feature quantity extraction means 20 is a trajectory feature comprising a temporal feature quantity (direction feature quantity, velocity feature quantity) having a fixed length in the time direction and a spatial feature quantity having a fixed length in the spatial direction for each feature point. Generate quantity. Accordingly, the human
そして、人物動作検出装置1は、学習手段31によって、予め人物が動作した際の映像における軌跡特徴量から、動作ごとの軌跡特徴量の分布を学習する。
すなわち、人物動作検出装置1は、コードブック生成手段311によって、特徴量抽出手段20において種々の動作を撮影した複数の映像から抽出された軌跡特徴量(軌跡単語)を用いて、複数の軌跡単語を、予め定めた数(k個)のクラスタにクラスタリングすることで、単語辞書となるコードブックを生成する(ステップS8)。そして、コードブック生成手段311は、生成したコードブックを、学習データ記憶手段40に書き込み記憶する(ステップS9)。なお、コードブック生成手段311は、後記する動作検出フェーズにおいて、tf−idf法を用いる場合、入力映像の予め定めた時間長のシーケンスを1ドキュメントとしたときのドキュメントごとの軌跡単語およびそのクラスタを、学習データ記憶手段40に書き込み記憶しておくこととする。
Then, the person
That is, the human
以上の動作によって、人物動作検出装置1は、種々の軌跡を固定長の多次元の特徴量を有する軌跡単語として収集し、k個にクラスタリングした単語辞書(コードブック)を生成することができる。
Through the above operations, the human
〔学習フェーズ(第2段階)〕
次に、図9を参照(構成については適宜図1参照)して、人物動作検出装置1の学習フェーズ(第2段階)における動作について説明する。なお、図9の学習フェーズ(第2段階)は、予め定めた動作を撮影した映像から、軌跡特徴量(軌跡単語)を抽出し、学習フェーズ(第1段階)で生成したコードブックを参照し、クラスタ単位でヒストグラム化することで、当該動作の特徴量をヒストグラムとして生成する動作である。
なお、ステップS11〜S17までの動作は、図8で説明したステップS1〜S7までの動作と同じであるため、ここでは説明を省略する。
[Learning phase (second stage)]
Next, the operation in the learning phase (second stage) of the human
The operations from step S11 to S17 are the same as the operations from step S1 to S7 described with reference to FIG.
ステップS17の後、人物動作検出装置1は、学習手段31のヒストグラム生成手段312によって、特徴量抽出手段20において予め定めた動作を撮影した映像から抽出された複数の軌跡特徴量(軌跡単語)を用いて、当該動作における軌跡単語の出現頻度の分布(ヒストグラム)を生成する(ステップS18)。そして、ヒストグラム生成手段312は、生成したヒストグラムを個々の動作に対応付けて学習データ記憶手段40に書き込み記憶する(ステップS19)。なお、ヒストグラム生成手段312は、ヒストグラムを、個々の動作ごとに生成し、予め度数の合計値が“1.0”となるように、正規化することとする。
以上の動作によって、人物動作検出装置1は、ある動作における軌跡単語の出現頻度の分布(ヒストグラム)を動作ごとの特徴量として生成することができる。
After step S <b> 17, the human
With the above operation, the human
〔動作検出フェーズ〕
次に、図10を参照(構成については適宜図1参照)して、人物動作検出装置1の動作検出フェーズにおける動作について説明する。
なお、ステップS21〜S27までの動作は、図8で説明したステップS1〜S7までの動作と同じであるため、ここでは説明を省略する。
[Motion detection phase]
Next, referring to FIG. 10 (refer to FIG. 1 as appropriate for the configuration), the operation in the motion detection phase of the human
The operations from step S21 to S27 are the same as the operations from step S1 to S7 described with reference to FIG.
ステップS27の後、人物動作検出装置1は、動作判定手段32の重み付きヒストグラム生成手段321によって、予め定めた時間長のシーケンスに軌跡の終点が存在する複数の軌跡単語を、学習データ記憶手段40に記憶されているコードブックのk個のクラスタの中で、距離(ユークリッド距離)が最も近いクラスタに分類し、k個のビン数からなるヒストグラムを生成する(ステップS28)。
After step S27, the human
このとき、重み付きヒストグラム生成手段321は、1シーケンス内の軌跡単語を、1つのドキュメント(文書)とみなし、全ドキュメント(ここでは、学習データ記憶手段40に記憶されている全ドキュメント)における軌跡単語の重要度を、tf−idf法を用いて算出し、当該軌跡単語が属するクラスタの出現頻度に重要度を乗算することで、ヒストグラムに重みを付加する。これによって、重み付きヒストグラム生成手段321は、背景領域上の軌跡単語の重要度を下げることで、人物の動作をより適切に表したヒストグラムを生成することができる。なお、重み付きヒストグラム生成手段321は、このヒストグラムを、予め度数の合計値が“1.0”となるように、正規化することとする。 At this time, the weighted histogram generation means 321 regards the trajectory word in one sequence as one document (document), and the trajectory words in all documents (here, all the documents stored in the learning data storage means 40). Is calculated using the tf-idf method, and a weight is added to the histogram by multiplying the appearance frequency of the cluster to which the locus word belongs by the importance. As a result, the weighted histogram generation means 321 can generate a histogram that more appropriately represents the motion of the person by reducing the importance of the trajectory word on the background region. Note that the weighted histogram generation means 321 normalizes the histogram so that the total value of the frequencies is “1.0” in advance.
そして、人物動作検出装置1は、分類手段322によって、ステップS28で生成されたヒストグラム(重み付きヒストグラム)を、学習データ記憶手段40に記憶されている学習データの動作ごとのヒストグラムと比較し、当該シーケンスにおける人物の動作を予め定めた動作に分類する(ステップS29)。
このように分類された動作は、人物動作検出装置1の人物の動作検出結果として外部に出力される。
Then, the human
The movement classified in this way is output to the outside as a human movement detection result of the human
以上説明したように、人物動作検出装置1は、時間方向に可変長の人物の軌跡を固定長(固定次元)の軌跡特徴量で表すことができ、一連の動作軌跡を忠実に特徴量として表現することができるため、映像内から人物の動作を精度よく検出することができる。
さらに、人物動作検出装置1は、特徴点の軌跡の特徴量として、固定長(固定次元)の軌跡特徴量を用いるため、その軌跡特徴量を単語(軌跡単語)とみなして、「Bag−of−words」手法を用いて人物の動作検出を行うことができる。これによって、人物動作検出装置1は、頻繁に発生する背景上の特徴量の重要度を下げ、人物動作をより頑健に行うことができる。
As described above, the human
Furthermore, since the human
このように、本発明に係る人物動作検出装置1は、人物動作を頑健に検出することができるため、映像監視による人物の異常行動検出、特定動作検出、あるいは、ジェスチャをトリガとしたマンマシンインタフェースなど、広く応用することができる。
As described above, since the human
以上、本発明の実施形態に係る人物動作検出装置1の構成および動作について説明したが、本発明は、この実施形態に限定されるものではない。
例えば、ここでは、特徴量抽出手段20が、時間特徴量と空間特徴量との両方を軌跡特徴量として生成することとしたが、時間特徴量のみを用いることとしてもよい。この場合、図1の構成から空間特徴量生成手段22を省略して構成すればよい。このとき、軌跡特徴量は、時間特徴量である方向特徴量および速度特徴量で構成されることになる。
The configuration and operation of the human
For example, here, the feature
また、ここでは、学習手段31を備えることとしたが、すべての人物動作検出装置1に学習手段31を備える必要はない。すなわち、ある人物動作検出装置1において、学習を行い学習データ記憶手段40に学習データを記憶した後、少なくとも学習データ記憶手段40さえ備えれば、動作検出フェーズを実行することができる。この場合、学習を行わない人物動作検出装置1からは、学習手段31を省略して構成すればよい。
In addition, although the learning means 31 is provided here, it is not necessary to provide the learning means 31 in every person
[人物動作検出装置の評価結果]
最後に、本発明の実施形態に係る人物動作検出装置1において、従来では、加味することができなかった時間方向の特徴量を用いた場合の人物の動作検出結果について説明する。ここでは、人物の動作として、「指を指す動作(Pointing)」、「物を置く動作(ObjectPut)」について、映像から各動作を検出することができた再現率〔Recall〕(%)を測定した。
[Evaluation result of human motion detection device]
Finally, in the human
〔表1〕に、従来のSURF特徴量のみで動作を検出した場合(SURF)、SURF特徴量に角度の特徴量(方向特徴量)を付加して動作を検出した場合(SURF+angle)、さらに、本発明における時間方向の特徴量である速度を付加して動作を検出した場合(SURF+angle+speed)について、それぞれ再現率の測定結果を示した。〔表1〕に示すように、本発明における時間方向の特徴量である速度を付加して動作を検出することで、再現率を高めることができた。
このように、本発明は、可変長の特徴量である時間方向の特徴量を固定長の特徴量として扱うことで、従来の動作検出手法に比べて、頑健に人物の動作を検出することができる。
In [Table 1], when the motion is detected only with the conventional SURF feature value (SURF), when the motion is detected by adding the angle feature value (direction feature value) to the SURF feature value (SURF + angle), In the present invention, the measurement results of the recall are shown for the case where the motion is detected by adding the speed, which is the characteristic amount in the time direction (SURF + angle + speed). As shown in [Table 1], the reproducibility could be improved by detecting the motion by adding the speed, which is the time-direction feature amount in the present invention.
As described above, the present invention can detect the motion of a person more robustly than the conventional motion detection method by treating the time-direction feature value, which is a variable-length feature value, as a fixed-length feature value. it can.
1 人物動作検出装置
10 特徴点軌跡情報生成手段
11 前景領域抽出手段
12 特徴点検出手段
13 特徴点追跡手段
20 特徴量抽出手段
21 時間特徴量生成手段
211 平滑化手段
212 方向特徴量生成手段
213 速度特徴量生成手段
22 空間特徴量生成手段
30 動作識別手段
31 学習手段
311 コードブック生成手段
312 ヒストグラム生成手段
32 動作判定手段
321 重み付きヒストグラム生成手段(重み付き分布生成手段)
322 分類手段
40 学習データ記憶手段
DESCRIPTION OF
322 Classification means 40 Learning data storage means
Claims (6)
前記映像のフレーム画像ごとに特徴点を検出し、前記フレーム画像ごとに前記特徴点の特徴量のマッチングを行うことで、前記特徴点の位置を時間方向に追跡した軌跡を特徴点軌跡情報として生成する特徴点軌跡情報生成手段と、
この特徴点軌跡情報生成手段で生成された特徴点軌跡情報に含まれる前記特徴点の位置に基づいて、前記特徴点の前記フレーム画像ごとの移動ベクトルの向きおよび大きさを、当該向きおよび当該大きさの取り得る範囲を予め定めた数に分割した範囲幅ごとに累計することで時間特徴量を生成し、前記特徴点の軌跡の特徴量である軌跡特徴量とする時間特徴量生成手段と、
複数の軌跡特徴量を予め定めた数のクラスタにクラスタリングしておき、既知の動作を構成する複数の軌跡特徴量を前記クラスタごとに累計した分布を、前記既知の動作ごとに対応付けて予め学習データとして記憶する学習データ記憶手段と、
所定時間区間ごとに、当該時間区間内に軌跡の終点が存在する複数の軌跡特徴量から、当該軌跡特徴量が属する前記クラスタを累計した分布を生成し、前記学習データ記憶手段に記憶されている動作ごとのクラスタの分布と類似するか否かにより、前記人物の動作を識別する動作識別手段と、
を備えることを特徴とする人物動作検出装置。 A human motion detection device that detects a motion of the person from a video of the person,
Feature points are detected for each frame image of the video, and feature points are matched for each frame image, thereby generating a trajectory tracking the position of the feature points in the time direction as feature point trajectory information. Feature point trajectory information generating means,
Based on the position of the feature point included in the feature point trajectory information generated by the feature point trajectory information generation unit, the direction and the size of the movement vector for each frame image of the feature point are determined as the direction and the size. A time feature amount generating means for generating a time feature amount by accumulating the range that can be taken for each range width divided into a predetermined number, and making a trajectory feature amount that is a feature amount of the trajectory of the feature point;
A plurality of trajectory feature quantities are clustered into a predetermined number of clusters, and a distribution obtained by accumulating a plurality of trajectory feature quantities constituting a known motion for each cluster is previously learned in association with each known motion. Learning data storage means for storing as data,
For each predetermined time interval, a distribution obtained by accumulating the clusters to which the trajectory feature amount belongs is generated from a plurality of trajectory feature amounts whose trajectory end points exist in the time interval, and stored in the learning data storage unit. Action identification means for identifying the action of the person depending on whether the distribution is similar to the cluster distribution for each action;
A human motion detection device comprising:
前記移動ベクトルの向きの取り得る範囲を予め定めた複数の数で分割したそれぞれ異なる範囲幅ごとに、前記移動ベクトルの向きを累計することで、前記時間特徴量を構成する特徴量である方向特徴量を生成する方向特徴量生成手段と、
前記移動ベクトルの大きさの取り得る範囲を予め定めた複数の数で分割したそれぞれ異なる範囲幅ごとに、前記移動ベクトルの大きさを累計することで、前記時間特徴量を構成する特徴量である速度特徴量を生成する速度特徴量生成手段と、
を備えることを特徴とする請求項1または請求項2に記載の人物動作検出装置。 The time feature amount generation means includes:
Direction features that are feature amounts constituting the temporal feature amount by accumulating the directions of the movement vectors for each different range width obtained by dividing the possible range of the direction of the movement vector by a plurality of predetermined numbers. Direction feature amount generating means for generating a quantity;
A feature amount constituting the temporal feature amount by accumulating the size of the movement vector for each different range width obtained by dividing the range that the movement vector can take by a plurality of predetermined numbers. A speed feature quantity generating means for generating a speed feature quantity;
The human motion detection device according to claim 1, further comprising:
前記方向特徴量生成手段および前記速度特徴量生成手段は、前記平滑化手段で平滑化された複数の軌跡に対して、前記方向特徴量および前記速度特徴量をそれぞれ生成することを特徴とする請求項3に記載の人物動作検出装置。 The time feature amount generating means further comprises a smoothing means for generating a plurality of trajectories obtained by smoothing the trajectories of the feature points in the feature point trajectory information,
The direction feature quantity generation unit and the speed feature quantity generation unit generate the direction feature quantity and the speed feature quantity for a plurality of trajectories smoothed by the smoothing unit, respectively. Item 4. The human motion detection device according to Item 3.
前記時間区間内に軌跡の終点が存在する個々の軌跡特徴量を単語とみなし、前記時間区間内に存在する複数の単語を文書とみなすことで、tf−idf法により、前記特徴量抽出手段で生成された前記軌跡特徴量の重要度を算出し、当該軌跡特徴量が属するクラスタの頻度に重み付けを行うことでクラスタの分布を生成する重み付き分布生成手段と、
この重み付き分布生成手段で生成されたクラスタの分布と、前記学習データ記憶手段に学習データとして記憶されている動作ごとのクラスタの分布との距離に基づいて類似を判定し、前記人物の動作を分類する分類手段と、
を備えることを特徴とする請求項1から請求項4のいずれか一項に記載の人物動作検出装置。 The operation identification means includes
By treating each trajectory feature amount having a trajectory end point in the time interval as a word and considering a plurality of words existing in the time interval as a document, the feature amount extraction unit performs the tf-idf method. A weighted distribution generating means for calculating the importance of the generated trajectory feature quantity and generating a cluster distribution by weighting the frequency of the cluster to which the trajectory feature quantity belongs;
Similarity is determined based on the distance between the distribution of clusters generated by the weighted distribution generation unit and the distribution of clusters for each operation stored as learning data in the learning data storage unit, and the motion of the person is determined. A classification means for classifying;
The human motion detection device according to any one of claims 1 to 4, further comprising:
前記映像のフレーム画像ごとに特徴点を検出し、前記フレーム画像ごとに前記特徴点の特徴量のマッチングを行うことで、前記特徴点の位置を時間方向に追跡した軌跡を特徴点軌跡情報として生成する特徴点軌跡情報生成手段、
この特徴点軌跡情報生成手段で生成された特徴点軌跡情報に含まれる前記特徴点の位置に基づいて、前記特徴点の前記フレーム画像ごとの移動ベクトルの向きおよび大きさを、当該向きおよび当該大きさの取り得る範囲を予め定めた数に分割した範囲幅ごとに累計することで時間特徴量を生成し、前記特徴点の軌跡の特徴量である軌跡特徴量とする時間特徴量生成手段、
複数の軌跡特徴量を予め定めた数のクラスタにクラスタリングしておき、既知の動作を構成する複数の軌跡特徴量を前記クラスタごとに累計した分布を、前記既知の動作ごとに対応付けて予め学習データとして記憶した学習データ記憶手段を参照して、所定時間区間ごとに、当該所定時間区間内に軌跡の終点が存在する複数の軌跡特徴量から、当該軌跡特徴量が属する前記クラスタを累計した分布を生成し、前記学習データ記憶手段に記憶されている動作ごとのクラスタの分布と類似するか否かにより、前記人物の動作を識別する動作識別手段、
として機能させることを特徴とする人物動作検出プログラム。 In order to detect the movement of the person from the video of the person,
Feature points are detected for each frame image of the video, and feature points are matched for each frame image, thereby generating a trajectory tracking the position of the feature points in the time direction as feature point trajectory information. Feature point trajectory information generating means,
Based on the position of the feature point included in the feature point trajectory information generated by the feature point trajectory information generation unit, the direction and the size of the movement vector for each frame image of the feature point are determined as the direction and the size. A time feature amount generating means for generating a time feature amount by accumulating the range that can be taken for each range width divided into a predetermined number, and making a trajectory feature amount that is a feature amount of the trajectory of the feature point;
A plurality of trajectory feature quantities are clustered into a predetermined number of clusters, and a distribution obtained by accumulating a plurality of trajectory feature quantities constituting a known motion for each cluster is previously learned in association with each known motion. A distribution obtained by accumulating the clusters to which the trajectory feature amount belongs from a plurality of trajectory feature amounts having an end point of the trajectory within the predetermined time interval for each predetermined time interval with reference to the learning data storage means stored as data. Action identifying means for identifying the action of the person according to whether or not it is similar to the cluster distribution for each action stored in the learning data storage means,
It is made to function as a person motion detection program characterized by things.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010234240A JP5604256B2 (en) | 2010-10-19 | 2010-10-19 | Human motion detection device and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010234240A JP5604256B2 (en) | 2010-10-19 | 2010-10-19 | Human motion detection device and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012088881A true JP2012088881A (en) | 2012-05-10 |
JP5604256B2 JP5604256B2 (en) | 2014-10-08 |
Family
ID=46260447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010234240A Expired - Fee Related JP5604256B2 (en) | 2010-10-19 | 2010-10-19 | Human motion detection device and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5604256B2 (en) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014127187A (en) * | 2012-12-27 | 2014-07-07 | Toshiba Corp | Feature calculation device, method, and program |
KR101472674B1 (en) * | 2013-05-07 | 2014-12-15 | 성균관대학교산학협력단 | Method and apparatus for video surveillance based on detecting abnormal behavior using extraction of trajectories from crowd in images |
JP2015082295A (en) * | 2013-10-24 | 2015-04-27 | 日本放送協会 | Person detection device and program |
JP2015228131A (en) * | 2014-05-30 | 2015-12-17 | 東芝テック株式会社 | Information processing device and notification system |
WO2017010514A1 (en) * | 2015-07-15 | 2017-01-19 | 日本電信電話株式会社 | Image retrieval device and method, photograph time estimation device and method, iterative structure extraction device and method, and program |
WO2017022852A1 (en) * | 2015-08-06 | 2017-02-09 | 株式会社ニコン | Electronic control device and electronic control program |
JP2018032118A (en) * | 2016-08-23 | 2018-03-01 | 沖電気工業株式会社 | Image processing device, image processing method and program |
WO2018154709A1 (en) * | 2017-02-24 | 2018-08-30 | 三菱電機株式会社 | Movement learning device, skill discrimination device, and skill discrimination system |
WO2018179419A1 (en) * | 2017-03-31 | 2018-10-04 | 株式会社オプティム | Computer system, animal diagnosis method, and program |
WO2018179420A1 (en) * | 2017-03-31 | 2018-10-04 | 株式会社オプティム | Computer system, plant diagnosis method, and program |
JP2019003558A (en) * | 2017-06-19 | 2019-01-10 | アイシン精機株式会社 | Object detection device |
JP2019175268A (en) * | 2018-03-29 | 2019-10-10 | 株式会社リコー | Behavior recognition device, behavior recognition method, program therefor, and computer-readable medium with the program recorded therein |
JP2019192288A (en) * | 2013-01-03 | 2019-10-31 | クアルコム,インコーポレイテッド | Rendering of augmented reality based on foreground object |
KR20200036002A (en) * | 2017-08-01 | 2020-04-06 | 후아웨이 테크놀러지 컴퍼니 리미티드 | Gesture recognition method, apparatus and device |
JPWO2021166154A1 (en) * | 2020-02-20 | 2021-08-26 | ||
JP7248755B1 (en) | 2021-09-10 | 2023-03-29 | みずほリサーチ&テクノロジーズ株式会社 | LEARNING DATA GENERATION SYSTEM, LEARNING DATA GENERATION METHOD AND LEARNING DATA GENERATION PROGRAM |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0546583A (en) * | 1991-08-15 | 1993-02-26 | Nippon Telegr & Teleph Corp <Ntt> | Confirmation device for moving body action |
JP2009205282A (en) * | 2008-02-26 | 2009-09-10 | Gifu Auto Body Industry Co Ltd | Motion analysis method, motion analysis device, and motion evaluation device using the analysis device |
JP2010152487A (en) * | 2008-12-24 | 2010-07-08 | Denso Corp | Action estimating apparatus and program |
-
2010
- 2010-10-19 JP JP2010234240A patent/JP5604256B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0546583A (en) * | 1991-08-15 | 1993-02-26 | Nippon Telegr & Teleph Corp <Ntt> | Confirmation device for moving body action |
JP2009205282A (en) * | 2008-02-26 | 2009-09-10 | Gifu Auto Body Industry Co Ltd | Motion analysis method, motion analysis device, and motion evaluation device using the analysis device |
JP2010152487A (en) * | 2008-12-24 | 2010-07-08 | Denso Corp | Action estimating apparatus and program |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014127187A (en) * | 2012-12-27 | 2014-07-07 | Toshiba Corp | Feature calculation device, method, and program |
JP2019192288A (en) * | 2013-01-03 | 2019-10-31 | クアルコム,インコーポレイテッド | Rendering of augmented reality based on foreground object |
KR101472674B1 (en) * | 2013-05-07 | 2014-12-15 | 성균관대학교산학협력단 | Method and apparatus for video surveillance based on detecting abnormal behavior using extraction of trajectories from crowd in images |
JP2015082295A (en) * | 2013-10-24 | 2015-04-27 | 日本放送協会 | Person detection device and program |
JP2015228131A (en) * | 2014-05-30 | 2015-12-17 | 東芝テック株式会社 | Information processing device and notification system |
JPWO2017010514A1 (en) * | 2015-07-15 | 2017-12-14 | 日本電信電話株式会社 | Image retrieval apparatus and method, photographing time estimation apparatus and method, repetitive structure extraction apparatus and method, and program |
US11004239B2 (en) | 2015-07-15 | 2021-05-11 | Nippon Telegraph And Telephone Corporation | Image retrieval device and method, photograph time estimation device and method, repetitive structure extraction device and method, and program |
US10839561B2 (en) | 2015-07-15 | 2020-11-17 | Nippon Telegraph And Telephone Corporation | Image retrieval device and method, photograph time estimation device and method, repetitive structure extraction device and method, and program |
US10580166B2 (en) | 2015-07-15 | 2020-03-03 | Nippon Telegraph And Telephone Corporation | Image retrieval device and method, photograph time estimation device and method, repetitive structure extraction device and method, and program |
WO2017010514A1 (en) * | 2015-07-15 | 2017-01-19 | 日本電信電話株式会社 | Image retrieval device and method, photograph time estimation device and method, iterative structure extraction device and method, and program |
WO2017022852A1 (en) * | 2015-08-06 | 2017-02-09 | 株式会社ニコン | Electronic control device and electronic control program |
JPWO2017022852A1 (en) * | 2015-08-06 | 2018-04-26 | 株式会社ニコン | Electronic control device and electronic control program |
JP2018032118A (en) * | 2016-08-23 | 2018-03-01 | 沖電気工業株式会社 | Image processing device, image processing method and program |
WO2018154709A1 (en) * | 2017-02-24 | 2018-08-30 | 三菱電機株式会社 | Movement learning device, skill discrimination device, and skill discrimination system |
JPWO2018154709A1 (en) * | 2017-02-24 | 2019-06-27 | 三菱電機株式会社 | Motion learning device, skill discrimination device and skill discrimination system |
WO2018179419A1 (en) * | 2017-03-31 | 2018-10-04 | 株式会社オプティム | Computer system, animal diagnosis method, and program |
WO2018179420A1 (en) * | 2017-03-31 | 2018-10-04 | 株式会社オプティム | Computer system, plant diagnosis method, and program |
JP2019003558A (en) * | 2017-06-19 | 2019-01-10 | アイシン精機株式会社 | Object detection device |
US11450146B2 (en) | 2017-08-01 | 2022-09-20 | Huawei Technologies Co., Ltd. | Gesture recognition method, apparatus, and device |
KR20200036002A (en) * | 2017-08-01 | 2020-04-06 | 후아웨이 테크놀러지 컴퍼니 리미티드 | Gesture recognition method, apparatus and device |
KR102364993B1 (en) * | 2017-08-01 | 2022-02-17 | 후아웨이 테크놀러지 컴퍼니 리미티드 | Gesture recognition method, apparatus and device |
JP2019175268A (en) * | 2018-03-29 | 2019-10-10 | 株式会社リコー | Behavior recognition device, behavior recognition method, program therefor, and computer-readable medium with the program recorded therein |
CN110322470A (en) * | 2018-03-29 | 2019-10-11 | 株式会社理光 | Action recognition device, action recognition method and recording medium |
JP7210890B2 (en) | 2018-03-29 | 2023-01-24 | 株式会社リコー | Behavior recognition device, behavior recognition method, its program, and computer-readable recording medium recording the program |
WO2021166154A1 (en) * | 2020-02-20 | 2021-08-26 | 日本電信電話株式会社 | Movement classification device, movement classification method, and program |
JPWO2021166154A1 (en) * | 2020-02-20 | 2021-08-26 | ||
JP7323845B2 (en) | 2020-02-20 | 2023-08-09 | 日本電信電話株式会社 | Behavior classification device, behavior classification method and program |
JP7248755B1 (en) | 2021-09-10 | 2023-03-29 | みずほリサーチ&テクノロジーズ株式会社 | LEARNING DATA GENERATION SYSTEM, LEARNING DATA GENERATION METHOD AND LEARNING DATA GENERATION PROGRAM |
JP2023047354A (en) * | 2021-09-10 | 2023-04-06 | みずほリサーチ&テクノロジーズ株式会社 | System, method, and program for generating learning data |
Also Published As
Publication number | Publication date |
---|---|
JP5604256B2 (en) | 2014-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5604256B2 (en) | Human motion detection device and program thereof | |
Zhou et al. | Violence detection in surveillance video using low-level features | |
Chou et al. | Robust feature-based automated multi-view human action recognition system | |
Cheema et al. | Action recognition by learning discriminative key poses | |
Shen et al. | Dynamic hand gesture recognition: An exemplar-based approach from motion divergence fields | |
Bregonzio et al. | Fusing appearance and distribution information of interest points for action recognition | |
Abdul-Azim et al. | Human action recognition using trajectory-based representation | |
Tsai et al. | Optical flow-motion history image (OF-MHI) for action recognition | |
Murthy et al. | Ordered trajectories for large scale human action recognition | |
Ming et al. | Activity recognition from RGB-D camera with 3D local spatio-temporal features | |
CN103988232A (en) | IMAGE MATCHING by USING MOTION MANIFOLDS | |
Yi et al. | Motion keypoint trajectory and covariance descriptor for human action recognition | |
Xu et al. | Action recognition by saliency-based dense sampling | |
Sadek et al. | Affine-invariant feature extraction for activity recognition | |
Yadav et al. | Action recognition using interest points capturing differential motion information | |
Zhang et al. | Moving people tracking with detection by latent semantic analysis for visual surveillance applications | |
Sun et al. | Efficient compressive sensing tracking via mixed classifier decision | |
Wang et al. | Detecting action-relevant regions for action recognition using a three-stage saliency detection technique | |
Sun et al. | Automatic annotation of web videos | |
Bai et al. | Dynamic hand gesture recognition based on depth information | |
CN108257148B (en) | Target suggestion window generation method of specific object and application of target suggestion window generation method in target tracking | |
Wali et al. | Incremental learning approach for events detection from large video dataset | |
Mishra et al. | Automated detection of fighting styles using localized action features | |
Aye et al. | Salient object based action recognition using histogram of changing edge orientation (HCEO) | |
CN109858342B (en) | Human face posture estimation method integrating manual design descriptor and depth feature |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130624 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140218 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20140326 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140402 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140729 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140825 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5604256 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |