JP6052533B2 - 特徴量抽出装置および特徴量抽出方法 - Google Patents
特徴量抽出装置および特徴量抽出方法 Download PDFInfo
- Publication number
- JP6052533B2 JP6052533B2 JP2012149702A JP2012149702A JP6052533B2 JP 6052533 B2 JP6052533 B2 JP 6052533B2 JP 2012149702 A JP2012149702 A JP 2012149702A JP 2012149702 A JP2012149702 A JP 2012149702A JP 6052533 B2 JP6052533 B2 JP 6052533B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- dimensional
- mask
- voxel
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Description
モーション識別の手法として、カメラにより撮像された動画像を用いて、対象の動きを識別する手法が多く存在する。しかし、これらの手法は、対象の奥行き方向の動きに鈍感であり、対象の奥行き方向の移動と対象の大きさの変化とを区別することが困難である。このため、これらの手法により識別可能な動きは限定的である。3次元情報を用いたモーション識別の手法として、モーションキャプチャを用いた手法がある。しかし、この手法では、識別対象に予めマーカーを付けなければならない。このため、識別対象が限定されるため、使用できる状況が限られる。また、大量の学習データに対して機械学習を適用することにより、対象の動きを示す骨格モデルを推定する骨格推定の手法も存在する。しかし、この方法は今のところ人物以外に適用することができず、新たな対象に適用するためには骨格モデルを再定義する必要がある。このため、対象の変更に容易に対応することができない。また、道具を用いた人物の動作のモーション識別を行う場合には新たな識別器を生成する必要があり、この場合も容易に対応することができない。
図1は、本発明の実施の形態に係る動画像識別装置の機能的な構成を示すブロック図である。
高次局所自己相関(HLAC)は2次元配列状のデータであれば汎用的に適用できる特徴量である。関数I(r)のN次のHLAC特徴量RNの一つは以下の式1で表される。
本実施の形態では上述したHLACの位置ベクトルと変位ベクトルをそれぞれr=(x,y,z,t)T、an=(ax,ay,az,at)Tの4次元ベクトルに拡張する。これにより、HLACを4次元配列状の関数(4次元ボクセルデータ)I(x,y,z,t)に適用する。それに伴い、特徴ベクトルの次元は、N=0,1,2、ai=−1,0,1(i=x,y,z,t)の条件で、2563となる。なお、4次元配列状の関数I(x,y,z,t)は、図1に示す動画像識別装置100の構成においては、フレーム間差分部12が出力する4次元差分画像データである。しかし、4次元配列状の関数I(x,y,z,t)は、これに限定されるものではなく、3次元点群データの時系列データであればどのようなデータであっても良い。ここでは、4次元配列状の関数I(x,y,z,t)が、4次元点群データであるとして説明する。ただし、4次元配列状の関数I(x,y,z,t)が4次元ボクセルデータであっても良い。
フィッシャーの線形判別はデータのクラス構造を保ったまま次元削減を行う手法である。K個のクラスCk(k=1,2,・・・,K)にラベリングされた入力ベクトルxを、行列Wを用いた写像(式2)を用いて次元削減することを考える。
SBψ=λSWψ (式13)
を解き、得られた上位K−1個の固有ベクトル
ψ1、ψ2、・・・、ψK−1 (式14)
を用いて、
W=[ψ1ψ2・・・ψK−1] (式15)
と並べることにより行列Wが得られる。
ここでは、それぞれのクラスの重心ベクトルmkが既知である特徴ベクトルxが与えられた時に、特徴ベクトルxをそれぞれのクラスに分解し、各クラスに属する動作の数を数える問題を考える。
図5に示すように、腕を「前方向に回す(Forward)」、「後ろ方向に回す(Backward)」、「上下させる(UpDown)」という3つの動作を正面から採取したデータを使って判別する性能評価実験を行った。この3つの動作は奥行き情報が重要であるにも関わらず情報が得られないため、2次元の動画像のみでは判別が困難であることから本手法が有用である。比較のために、3次元画像の時系列データを取得すると共に、輝度画像(各画素値が対象の輝度値を示す画像)の時系列データ(輝度動画)および深度画像(各画素値が対象までの距離を示す画像)の時系列データ(深度動画)を同時に取得する。輝度動画および深度動画からはCHLACを用いて特徴量を抽出し、抽出した特徴量を用いてパターン識別を行う。3次元画像の時系列データからは4D−HLACを用いて特徴量を抽出し、抽出した特徴量を用いてパターン識別を行う。図6Aは、輝度画像の一例を示す図である。図6Bは、深度画像の一例を示す図である。図6Cは、ボクセル変換部11から出力された3次元ボクセルデータの画像の一例を示す図である。
4次元点群データ(3次元点群データの時系列データ)採取には、Microsoft社のKinectを用いる。データ採取は250フレーム(8.3秒)のブロックを「1試行」とし、1人につき1動作あたり、10試行のデータを採取した。その他、実験条件を表1に示す。また、特徴ベクトルは20フレーム毎に区切って計算し、1試行あたり231のベクトルを算出し、学習および判別に用いた。
本手法と他の手法を比較した結果を図7に示す。4D−HLACを用いて4次元差分画像データより抽出された特徴量を用いた動きの識別率は98.2%である。これに対し、輝度動画からCHLACを用いて抽出した特徴量を用いた動きの識別率は63.5%であり、深度動画からCHLACを用いて抽出した特徴量を用いた動きの識別率は75.8%であり、いずれも本手法よりも劣る。
動画像に対するCHLACでは画面に平行な平面上の位置不変性のみが成立するのに対し、3次元ボクセルデータに対する4D−HLACでは奥行きも含めた3次元的な位置不変性が成り立つはずである。また、HLACは積分演算により算出される特徴であるため加法性も成り立つ。これらの特徴より複数の動作を同時に認識し、それぞれの動作を行っている人数の推定が、対象領域を区切ることなく、対象領域全体に渡って4D−HLAC特徴量を抽出することにより可能であると考えられる。そこで図8のように、3人が同時に動作を行っている場合にそれぞれの動作の数を推定することを試みた。動作の数の判別には上述した手法を用いる。
動画像識別装置100の計算コストの少なさを実証するために、動画像識別装置100を実現するためのプログラムを作成し、パーソナルコンピュータ(以下、「PC」という)上で実行させた。使用したPCのスペックは、以下の表2の通りである。
本章では4D−HLACの性能を検証するために基礎実験を行った。以下のことが、結論として分かった。
11 ボクセル変換部
12 フレーム間差分部
13 特徴量抽出部
20 パターン識別部
31〜33 画像
100 動画像識別装置
201〜205、310 マスク
300 4次元点群データ
301〜303 3次元点群データ
311〜313 サブマスク
311a、312a、313a ボクセル
Claims (8)
- 3次元点群データの時系列データである4次元点群データの特徴量を抽出する特徴量抽出装置であって、
着目データを含む少なくも1つのデータのデータ位置を指定するマスクごとに、当該マスクを前記4次元点群データ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記4次元点群データの画素値の積の前記4次元点群データにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記4次元点群データの特徴量として抽出する特徴量抽出部を備え、
各前記マスクに対し、4次元のいずれかの方向に平行移動させた場合に一致する他の前記マスクは存在しない
特徴量抽出装置。 - さらに、
前記4次元点群データを構成する各前記3次元点群データを所定サイズの格子状に区切ることにより得られる各ボクセル内に点が存在するか否かを当該ボクセルのボクセル値として示すことにより、各前記3次元点群データを3次元ボクセルデータに変換することで、前記3次元点群データの時系列データである前記4次元点群データを、前記3次元ボクセルデータの時系列データである4次元ボクセルデータに変換するボクセル変換部を備え、
前記特徴量抽出部は、前記マスクごとに、当該マスクを前記4次元点群データに代えて前記4次元ボクセルデータ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記4次元ボクセルデータのボクセル値の積の前記4次元ボクセルデータにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記4次元ボクセルデータの特徴量として抽出する
請求項1記載の特徴量抽出装置。 - さらに、
時間的に隣接するフレーム間での前記3次元ボクセルデータの各ボクセル値の差分値を算出することにより、差分値をボクセル値とする差分画像の時系列データである4次元差分画像データを算出するフレーム間差分部を備え、
前記特徴量抽出部は、前記マスクごとに、当該マスクを前記4次元点群データおよび前記4次元ボクセルデータに代えて前記4次元差分画像データ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記4次元差分画像データのボクセル値の積の前記4次元差分画像データにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記4次元差分画像データの特徴量として抽出する
請求項2記載の特徴量抽出装置。 - さらに、
時間的に隣接するフレーム間での前記3次元点群データの各画素値の差分値を算出することにより、差分値を画素値とする差分画像の時系列データである4次元差分画像データを算出するフレーム間差分部を備え、
前記特徴量抽出部は、前記マスクごとに、当該マスクを前記4次元点群データに代えて前記4次元差分画像データ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記4次元差分画像データの画素値の積の前記4次元差分画像データにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記4次元差分画像データの特徴量として抽出する
請求項1記載の特徴量抽出装置。 - 前記特徴量抽出部での走査対象のデータが1または0の2値データである場合には、マスク中に、同一のデータ位置を複数回指定する第1マスクと、前記第1マスクが指定するデータ位置と同じデータ位置を指定し、かつ前記第1マスクが複数回指定するデータ位置を1回のみ指定する第2マスクとが存在する場合には、前記第1マスクを削除する
請求項1〜4のいずれか1項に記載の特徴量抽出装置。 - 前記マスクは、前記着目データのデータ位置と、前記着目データから所定距離範囲内に位置するN個(Nは0以上の整数)のデータのデータ位置とを指定する
請求項1〜5のいずれか1項に記載の特徴量抽出装置。 - 3次元点群データの時系列データである4次元点群データの特徴量を抽出する特徴量抽出方法であって、
着目データを含む少なくも1つのデータのデータ位置を指定するマスクごとに、当該マスクを前記4次元点群データ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記4次元点群データの画素値の積の前記4次元点群データにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記4次元点群データの特徴量として抽出する特徴量抽出ステップを含み、
各前記マスクに対し、4次元のいずれかの方向に平行移動させた場合に一致する他の前記マスクは存在しない
特徴量抽出方法。 - 請求項7に記載の特徴量抽出方法をコンピュータに実行させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012149702A JP6052533B2 (ja) | 2012-07-03 | 2012-07-03 | 特徴量抽出装置および特徴量抽出方法 |
PCT/JP2013/000635 WO2014006786A1 (ja) | 2012-07-03 | 2013-02-06 | 特徴量抽出装置および特徴量抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012149702A JP6052533B2 (ja) | 2012-07-03 | 2012-07-03 | 特徴量抽出装置および特徴量抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014013432A JP2014013432A (ja) | 2014-01-23 |
JP6052533B2 true JP6052533B2 (ja) | 2016-12-27 |
Family
ID=49881564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012149702A Expired - Fee Related JP6052533B2 (ja) | 2012-07-03 | 2012-07-03 | 特徴量抽出装置および特徴量抽出方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6052533B2 (ja) |
WO (1) | WO2014006786A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6888386B2 (ja) * | 2017-04-17 | 2021-06-16 | 富士通株式会社 | 差分検知プログラム、差分検知装置、差分検知方法 |
CN108320322B (zh) * | 2018-02-11 | 2021-06-08 | 腾讯科技(成都)有限公司 | 动画数据处理方法、装置、计算机设备和存储介质 |
CN110392193B (zh) * | 2019-06-14 | 2020-09-15 | 浙江大学 | 一种掩膜板相机的掩膜板 |
WO2021019906A1 (ja) * | 2019-07-26 | 2021-02-04 | パナソニックIpマネジメント株式会社 | 測距装置、情報処理方法、および情報処理装置 |
WO2021193353A1 (ja) * | 2020-03-25 | 2021-09-30 | Necソリューションイノベータ株式会社 | 画像追跡装置、画像追跡方法、及びコンピュータ読み取り可能な記録媒体 |
CN112418105B (zh) * | 2020-11-25 | 2022-09-27 | 湖北工业大学 | 基于差分方法的高机动卫星时间序列遥感影像运动舰船目标检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5455787B2 (ja) * | 2010-05-27 | 2014-03-26 | パナソニック株式会社 | 動作解析装置および動作解析方法 |
-
2012
- 2012-07-03 JP JP2012149702A patent/JP6052533B2/ja not_active Expired - Fee Related
-
2013
- 2013-02-06 WO PCT/JP2013/000635 patent/WO2014006786A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP2014013432A (ja) | 2014-01-23 |
WO2014006786A1 (ja) | 2014-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359538B (zh) | 卷积神经网络的训练方法、手势识别方法、装置及设备 | |
CN107466411B (zh) | 二维红外深度感测 | |
JP5726125B2 (ja) | 奥行き画像内の物体を検出する方法およびシステム | |
US9633483B1 (en) | System for filtering, segmenting and recognizing objects in unconstrained environments | |
US9098740B2 (en) | Apparatus, method, and medium detecting object pose | |
Sandbach et al. | Static and dynamic 3D facial expression recognition: A comprehensive survey | |
CN107507126B (zh) | 一种利用rgb图像还原3d场景的方法 | |
Park et al. | Articulated pose estimation with tiny synthetic videos | |
JP6052533B2 (ja) | 特徴量抽出装置および特徴量抽出方法 | |
JP6125188B2 (ja) | 映像処理方法及び装置 | |
US20140133740A1 (en) | Intelligent part identification for use with scene characterization or motion capture | |
JP2016099982A (ja) | 行動認識装置、行動学習装置、方法、及びプログラム | |
Atrevi et al. | A very simple framework for 3D human poses estimation using a single 2D image: Comparison of geometric moments descriptors | |
US11823394B2 (en) | Information processing apparatus and method for aligning captured image and object | |
KR20120082126A (ko) | 깊이 영상의 특징 추출 방법 및 장치 | |
CN110751097B (zh) | 一种半监督的三维点云手势关键点检测方法 | |
KR101478709B1 (ko) | Rgb-d 영상 특징점 추출 및 특징 기술자 생성 방법 및 장치 | |
CN110858277A (zh) | 一种获得姿态分类模型的方法以及装置 | |
KR102041191B1 (ko) | 손 동작 인식 방법 및 장치 | |
US20160110909A1 (en) | Method and apparatus for creating texture map and method of creating database | |
CN111353069A (zh) | 一种人物场景视频生成方法、系统、装置及存储介质 | |
JP6393495B2 (ja) | 画像処理装置および物体認識方法 | |
Li et al. | Real-time action recognition by feature-level fusion of depth and inertial sensor | |
JP2017033556A (ja) | 画像処理方法及び電子機器 | |
Achmed et al. | Upper body pose estimation towards the translation of South African Sign Language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150521 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160712 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161018 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161116 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6052533 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |