JP6052533B2

JP6052533B2 - 特徴量抽出装置および特徴量抽出方法

Info

Publication number: JP6052533B2
Application number: JP2012149702A
Authority: JP
Inventors: 裕紀森; 大広瀬; 稔浅田
Original assignee: Osaka University NUC
Current assignee: Osaka University NUC
Priority date: 2012-07-03
Filing date: 2012-07-03
Publication date: 2016-12-27
Anticipated expiration: 2032-07-03
Also published as: JP2014013432A; WO2014006786A1

Description

本発明は、特徴量抽出装置および特徴量抽出方法に関し、特に、３次元点群データの時系列データである４次元点群データの特徴量を抽出する特徴量抽出装置および特徴量抽出方法に関する。

動画像データから対象の動きを識別するモーション識別技術は、ジェスチャ認識、不審者の検出、または動物の監視などのあらゆるアプリケーションに応用されることが考えられる。このため、その社会的貢献度合いは大きい。特に、ステレオビジョンまたはレーザレンジファインダなどにより獲得された３次元空間の情報（３次元情報）を用いたモーション識別では、立体情報を用いない通常のカメラ等により撮像された画像を用いたモーション識別に比べ、より現実に忠実な情報が得られる。このため、高い識別能力とあらゆる対象に適用できる汎用性とが期待される。

２次元画像のパターン認識に用いられる特徴量として、ＳＩＦＴ（Ｓｃａｌｅ−ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）、ＳＵＲＦ（ＳｐｅｅｄｅｄＵｐＲｏｂｕｓｔＦｅａｔｕｒｅ）、ＨＯＧ（ＨｉｓｔｏｇｒａｍｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）、ＨＬＡＣ（Ｈｉｇｈｅｒ−ｏｒｄｅｒＬｏｃａｌＡｕｔｏ−Ｃｏｒｒｅｌａｔｉｏｎ：高次局所自己相関）（例えば、特許文献１参照）、ＣＨＬＡＣ（ＣｕｂｉｃＨＬＡＣ）（例えば、特許文献２参照）などが存在する。

特許第２９８２８１４号公報特開２００８−９７６２４号公報

実世界における対象の動きは、３次元空間における対象の位置の時間変化として記述できる。つまり、対象の動きは４次元情報として記述できる。一方、上述の特徴量は、特徴量を取得するために用いられる情報が３次元情報または２次元情報に限定されている。このため、これらの特徴量を用いて対象の動きを識別したとしても、次元数の不足により対象の動きを高精度に識別することが困難である。

本発明は、上述の課題を解決するためになされたものであり、識別対象を限定せずに、高精度で対象の動きを識別することができる特徴量を抽出する特徴量抽出装置を提供することを目的とする。

上記目的を達成するために、本発明のある局面に係る特徴量抽出装置は、３次元点群データの時系列データである４次元点群データの特徴量を抽出する特徴量抽出装置であって、着目データを含む少なくも１つのデータのデータ位置を指定するマスクごとに、当該マスクを前記４次元点群データ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記４次元点群データの画素値の積の前記４次元点群データにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記４次元点群データの特徴量として抽出する特徴量抽出部を備え、各前記マスクに対し、４次元のいずれかの方向に平行移動させた場合に一致する他の前記マスクは存在しない。

なお、本発明は、このような特徴的な処理部を備える特徴量抽出装置として実現することができるだけでなく、特徴量抽出装置に含まれる特徴的な処理部が実行する処理をステップとする特徴量抽出方法として実現することができる。また、特徴量抽出装置に含まれる特徴的な処理部としてコンピュータを機能させるためのプログラムまたは特徴量抽出方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現することもできる。そして、そのようなプログラムを、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等のコンピュータ読取可能な非一時的な記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。

本発明によると、識別対象を限定せずに、高精度で対象の動きを識別することができる特徴量を抽出する特徴量抽出装置を提供することができる。

本発明の実施の形態に係る動画像識別装置の機能的な構成を示すブロック図である。ＨＬＡＣにおける変位ベクトルの組み合わせ（マスク）を示す図である。４次元に拡張したＨＬＡＣ（４Ｄ−ＨＬＡＣ）による特徴量の算出処理を模式的に示す図である。パターン識別部による動作の数の推定処理の原理を説明するための図である。３つの動作を説明するための図である。輝度画像の一例を示す図である。深度画像の一例を示す図である。ボクセル変換部から出力された３次元ボクセルデータの画像の一例を示す図である。本手法と他の手法を比較した結果を示す図である。３人が同時に動作を行っている状況を示す図である。動きの判別結果の一例を示す図である。

（本発明の基礎となった知見）
モーション識別の手法として、カメラにより撮像された動画像を用いて、対象の動きを識別する手法が多く存在する。しかし、これらの手法は、対象の奥行き方向の動きに鈍感であり、対象の奥行き方向の移動と対象の大きさの変化とを区別することが困難である。このため、これらの手法により識別可能な動きは限定的である。３次元情報を用いたモーション識別の手法として、モーションキャプチャを用いた手法がある。しかし、この手法では、識別対象に予めマーカーを付けなければならない。このため、識別対象が限定されるため、使用できる状況が限られる。また、大量の学習データに対して機械学習を適用することにより、対象の動きを示す骨格モデルを推定する骨格推定の手法も存在する。しかし、この方法は今のところ人物以外に適用することができず、新たな対象に適用するためには骨格モデルを再定義する必要がある。このため、対象の変更に容易に対応することができない。また、道具を用いた人物の動作のモーション識別を行う場合には新たな識別器を生成する必要があり、この場合も容易に対応することができない。

画像データに適用でき、識別対象を限定しない特徴量として、上述のＳＩＦＴ、ＳＵＲＦ、ＨＯＧ、ＨＬＡＣなどが存在する。その中でも本開示では汎用性に特徴のあるＨＬＡＣに注目する。ＨＬＡＣは計算コストの小さい簡素な手法で、画像に限らず触覚センサデータまたは音声データ等にも適用可能な、位置不変性および加法性等の優れた性質を有する特徴量である。また、点群データ（ｘ，ｙ，ｚ）または動画像（ｘ，ｙ，ｔ）などの３次元配列データの特徴量を計算するために上述のＣＨＬＡＣが提案されおり、人物の歩容認識で優れた性質を有することが実証されている。

しかしながら、このような識別対象を限定しない特徴量を利用したとしても、対象の奥行き方向の動きに鈍感であり、対象の奥行き方向の移動と対象の大きさの変化とを区別することが困難である。例えば、ＣＨＬＡＣは、点群データ（ｘ，ｙ，ｚ）または動画像（ｘ，ｙ，ｔ）などから算出される特徴量である。しかし、点群データには時間情報が含まれていないため、１つの点群データから対象の動きを識別することは困難である。また、動画像には奥行き方向の情報が含まれていないため、対象の奥行き方向の移動と対象の大きさの変化とを区別することが困難である。

そこで、本開示では、識別対象を限定せずに、高精度で対象の動きを識別することができる特徴量を抽出する特徴量抽出装置について説明する。

このような問題を解決するために、本発明の一態様に係る特徴量抽出装置は、３次元点群データの時系列データである４次元点群データの特徴量を抽出する特徴量抽出装置であって、着目データを含む少なくも１つのデータのデータ位置を指定するマスクごとに、当該マスクを前記４次元点群データ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記４次元点群データの画素値の積の前記４次元点群データにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記４次元点群データの特徴量として抽出する特徴量抽出部を備え、各前記マスクに対し、４次元のいずれかの方向に平行移動させた場合に一致する他の前記マスクは存在しない。

この構成によると、４次元点群データから、特徴量を抽出することができる。４次元点群データには、対象の奥行き方向の情報と、対象の時間的な動きの情報とが含まれている。また、特徴量抽出部の処理は、特定の対象に限定されるものでもない。このため、識別対象を限定せずに、高精度で対象の動きを識別することができる特徴量を抽出することができる。

また、上述の特徴量抽出装置は、さらに、前記４次元点群データを構成する各前記３次元点群データを所定サイズの格子状に区切ることにより得られる各ボクセル内に点が存在するか否かを当該ボクセルのボクセル値として示すことにより、各前記３次元点群データを３次元ボクセルデータに変換することで、前記３次元点群データの時系列データである前記４次元点群データを、前記３次元ボクセルデータの時系列データである４次元ボクセルデータに変換するボクセル変換部を備え、前記特徴量抽出部は、前記マスクごとに、当該マスクを前記４次元点群データに代えて前記４次元ボクセルデータ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記４次元ボクセルデータのボクセル値の積の前記４次元ボクセルデータにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記４次元ボクセルデータの特徴量として抽出しても良い。

この構成によると、４次元ボクセルデータが含むボクセル数は、４次元点群データが含む点群数よりも少ない。また、４次元ボクセルデータが含む各ボクセルの値は２値である。このため、４次元ボクセルデータのデータサイズは、４次元点群データのデータサイズよりも小さい。よって、この特徴量抽出装置で抽出された特徴量を用いると、対象の動きを高速に識別することができる。

また、上述の特徴量抽出装置は、さらに、時間的に隣接するフレーム間での前記３次元ボクセルデータの各ボクセル値の差分値を算出することにより、差分値をボクセル値とする差分画像の時系列データである４次元差分画像データを算出するフレーム間差分部を備え、前記特徴量抽出部は、前記マスクごとに、当該マスクを前記４次元点群データおよび前記４次元ボクセルデータに代えて前記４次元差分画像データ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記４次元差分画像データのボクセル値の積の前記４次元差分画像データにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記４次元差分画像データの特徴量として抽出しても良い。

フレーム間での３次元ボクセルデータの各ボクセル値の差分は、各ボクセルで変化があったか否かを示している。これにより、対象の動きがあった箇所を際立たせた４次元差分画像データを生成することができる。この４次元差分画像データから抽出した特徴量を用いることで、対象の動きを高精度で識別することができる。

また、上述の特徴量抽出装置は、さらに、時間的に隣接するフレーム間での前記３次元点群データの各画素値の差分値を算出することにより、差分値を画素値とする差分画像の時系列データである４次元差分画像データを算出するフレーム間差分部を備え、前記特徴量抽出部は、前記マスクごとに、当該マスクを前記４次元点群データに代えて前記４次元差分画像データ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記４次元差分画像データの画素値の積の前記４次元差分画像データにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記４次元差分画像データの特徴量として抽出しても良い。

フレーム間での３次元点群データの各画素値の差分は、各画素で変化があったか否かを示している。これにより、対象の動きがあった箇所を際立たせた４次元差分画像データを生成することができる。この４次元差分画像データから抽出した特徴量を用いることで、対象の動きを高精度で識別することができる。

また、前記特徴量抽出部での走査対象のデータが１または０の２値データである場合には、マスク中に、同一のデータ位置を複数回指定する第１マスクと、前記第１マスクが指定するデータ位置と同じデータ位置を指定し、かつ前記第１マスクが複数回指定するデータ位置を１回のみ指定する第２マスクとが存在する場合には、前記第１マスクを削除しても良い。

１のｎ乗（ｎは自然数）の値は、全て１である。このため、第１マスクを用いて算出された４次元点群データの画素値の積と、第２マスクを用いて算出された４次元点群データの画素値の積とは同じ値になる。よって、第１マスクを削除することで、特徴量抽出のための演算量を削減することができる。

例えば、前記マスクは、前記着目データのデータ位置と、前記着目データから所定距離範囲内に位置するＮ個（Ｎは０以上の整数）のデータのデータ位置とを指定する。

なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。

以下、本発明の一態様に係る動画像識別装置および特徴量抽出装置について、図面を参照しながら具体的に説明する。

なお、以下で説明する実施の形態は、いずれも本発明の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

（実施の形態）
図１は、本発明の実施の形態に係る動画像識別装置の機能的な構成を示すブロック図である。

動画像識別装置１００は、３次元点群データの時系列データである４次元点群データから、対象の動きを識別する装置であり、特徴量抽出装置１０と、パターン識別部２０とを備える。

４次元点群データを構成する各画素の位置は、ｘ座標、ｙ座標、ｚ座標およびｔ座標で表すことができる。ここで、ｘ座標、ｙ座標およびｚ座標は、３次元空間中におけるｘ軸、ｙ軸およびｚ軸のそれぞれの座標値を示す。また、ｔ座標は、ｔ軸（時間軸）の座標値を示す。また、４次元点群データを構成する各画素の画素値は、Ｉ（ｘ、ｙ、ｚ、ｔ）と表すことができる。

４次元点群データを構成する１枚の３次元点群データの各画素の位置は、ｘ座標、ｙ座標およびｚ座標で表すことができる。３次元点群データを構成する各画素の画素値は、Ｉ（ｘ、ｙ、ｚ）と表すことができる。

特徴量抽出装置１０は、４次元点群データの特徴量を抽出する装置であり、ボクセル変換部１１と、フレーム間差分部１２と、特徴量抽出部１３とを含む。

ボクセル変換部１１は、４次元点群データを構成する各３次元点群データを所定サイズの格子状に区切ることにより得られる各ボクセル内に点が存在するか否かを当該ボクセルのボクセル値として示すことにより、各３次元点群データを３次元ボクセルデータに変換することで、３次元点群データの時系列データである４次元点群データを、３次元ボクセルデータの時系列データである４次元ボクセルデータに変換する。

図１に示す画像３１は、４次元点群データを構成する１枚の３次元点群データを所定方向から見た画像である。画像３１の各画素値は、４次元点群データのいずれかの画素の画素値に対応する。

また、図１に示す画像３２は、４次元ボクセルデータを構成する１枚の３次元ボクセルデータを所定方向から見た画像である。画像３２に示されている各立方体は、３次元ボクセルデータを構成するボクセルのうち、当該ボクセル内に点が存在するボクセルを示している。つまり、当該立方体で表現されたボクセルの３次元空間中での位置に、対象物が存在することを示している。

フレーム間差分部１２は、時間的に隣接するフレーム間での３次元ボクセルデータの各ボクセル値の差分値を算出することにより、差分値をボクセル値とする差分画像の時系列データである４次元差分画像データを算出する。

図１に示す画像３３は、４次元差分画像データを構成する１枚の差分画像を所定方向から見た画像である。画像３３に示されている各立方体は、フレーム間での３次元ボクセルデータのボクセル値の差分値が０以外のボクセルを示している。つまり、各立方体（差分値が０以外のボクセル）は、ボクセル内で対象物が存在しない状態から存在する状態への変化があったボクセル、または、ボクセル内で対象物が存在する状態から存在しない状態への変化があったボクセルを示す。さらに言えば、各立方体は、対象の動きがあったボクセルの位置を示している。一方、差分値が０のボクセルは、画像３３には示されておらず、当該ボクセルは、対象の動きがなかったボクセルの位置を示す。

特徴量抽出部１３は、着目データを含む少なくも１つのデータのデータ位置を指定するマスクごとに、当該マスクを４次元差分画像データ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の４次元差分画像データのボクセル値の積の４次元差分画像データにおける和を算出し、各マスクについて算出した和を要素とする特徴量ベクトルを４次元差分画像データの特徴量として抽出する。

以下、特徴量抽出部１３による特徴量の抽出処理について詳細に説明する。まず、従来の特徴量であるＨＬＡＣ（高次局所自己相関）について説明し、次に、特徴量抽出部１３によって抽出される特徴量について説明する。

（ＨＬＡＣについて）
高次局所自己相関（ＨＬＡＣ）は２次元配列状のデータであれば汎用的に適用できる特徴量である。関数Ｉ（ｒ）のＮ次のＨＬＡＣ特徴量Ｒ_Ｎの一つは以下の式１で表される。

ここで、ｒは位置ベクトル、ａ_ｎ（ｎ＝１，・・・，Ｎ）は変位ベクトルであり、それぞれＨＬＡＣの場合は２次元ベクトル、ＣＨＬＡＣの場合は３次元ベクトルとなる。Ｒ_Ｎはａ_１，・・・，ａ_Ｎの組み合わせを変えることにより異なる複数の値が得られる。このため、それら複数の値を要素とするベクトルにより特徴ベクトルを構成することができる。一般的に、Ｎ＝０，１，２、ａ_ｉ＝−１，０，１（ｉ＝ｘ，ｙ）とすることが多く、その条件下では平行移動で等価な要素を除くと２次元のＨＬＡＣで特徴ベクトルの次元は３５、３次元のＣＨＬＡＣでは２７９になる。ＨＬＡＣにおける３５の変位ベクトルの組み合わせを図２に示す。図２では、３×３のサイズのマスクを想定し、マスクの中心が位置ベクトルｒの位置を示し、マスクの中心以外でハッチングを施している部分が、変位ベクトルａ_ｎ（ｎ＝１，・・・，Ｎ）が示す位置を表している。なお、マスク２０５のように、数字が記してある部分については、ＨＬＡＣ特徴量算出の際に、同一の位置の値を数字の回数だけ掛け合わせることを示す。

（４次元配列データのためのＨＬＡＣ）
本実施の形態では上述したＨＬＡＣの位置ベクトルと変位ベクトルをそれぞれｒ＝（ｘ，ｙ，ｚ，ｔ）^Ｔ、ａ_ｎ＝（ａ_ｘ，ａ_ｙ，ａ_ｚ，ａ_ｔ）^Ｔの４次元ベクトルに拡張する。これにより、ＨＬＡＣを４次元配列状の関数（４次元ボクセルデータ）Ｉ（ｘ，ｙ，ｚ，ｔ）に適用する。それに伴い、特徴ベクトルの次元は、Ｎ＝０，１，２、ａ_ｉ＝−１，０，１（ｉ＝ｘ，ｙ，ｚ，ｔ）の条件で、２５６３となる。なお、４次元配列状の関数Ｉ（ｘ，ｙ，ｚ，ｔ）は、図１に示す動画像識別装置１００の構成においては、フレーム間差分部１２が出力する４次元差分画像データである。しかし、４次元配列状の関数Ｉ（ｘ，ｙ，ｚ，ｔ）は、これに限定されるものではなく、３次元点群データの時系列データであればどのようなデータであっても良い。ここでは、４次元配列状の関数Ｉ（ｘ，ｙ，ｚ，ｔ）が、４次元点群データであるとして説明する。ただし、４次元配列状の関数Ｉ（ｘ，ｙ，ｚ，ｔ）が４次元ボクセルデータであっても良い。

図３は、４次元に拡張したＨＬＡＣ（以下、「４Ｄ−ＨＬＡＣ」という）による特徴量の算出処理を模式的に示す図である。図３（ａ）は、４次元点群データ３００の一例を示す。４次元点群データ３００は、複数の３次元点群データ３０１〜３０３を含む。各３次元点群データの各画素は画素値を有する。図３（ｂ）は、４Ｄ−ＨＬＡＣの位置ベクトルおよび変位ベクトルの一例を示す。図３（ｂ）では、３×３×３×３のサイズのマスク３１０を想定し、マスク３１０の中心の画素３１２ａが位置ベクトルｒの位置を示し、マスクの中心以外でハッチングを施している画素３１１ａおよび画素３１３ａが、画素３１２ａを原点としたときの変位ベクトルａ_ｎ（ｎ＝１，・・・，Ｎ）が示す位置を表している。マスク３１０を４次元点群データ３００上で走査しながら、各走査位置における当該マスク３１０が指定する画素位置の４次元点群データ３００の画素値の積が算出される。例えば、マスク３１０を構成するサブマスク３１１、３１２および３１３を、それぞれ、３次元点群データ３０１、３０２および３０３の同一の位置に重ね合わせ、画素３１１ａ、３１２ａおよび３１３ａの位置における画素値の積が算出される。算出された積の４次元点群データ３００における和が算出される。このような積がマスクごとに算出されるため、各マスクについて算出した前記和を要素とする特徴量ベクトルを算出することにより、４次元点群データ３００の特徴量を算出することができる。なお、マスク３１０の走査は、マスク３１０をｘ軸方向、ｙ軸方向、ｚ軸方向またはｔ軸方向に１画素（１ボクセル）ずつずらせながら、４次元点群データ３００の各位置にマスク３１０を当てはめることにより行われる。

ＨＬＡＣを４次元に拡張することで４次元ボクセルデータに対する特徴量を抽出することが可能になる。４次元ボクセルデータを用いたパターン認識をすることで、動画像によるパターン認識にはない次の性質が現れる。

（性質１）空間的に位置不変性が成り立つ。

動画像上の場合は、画面に平行な移動に対する位置不変性はあるが、奥行き方向に対しては画像上の大きさが変化してしまい位置不変性が成り立たない。３次元情報を用いると奥行きに対しても等価に位置不変性が成り立つ。

（性質２）直接的に幾何情報を用いることができる。

カメラ等で取得できる動画像は対象物体から反射して到達する光を検出しているため、直接的に得られる情報は色情報または輝度情報である。その動画像にエッジ検出等の処理を施すことによってある程度の幾何的な情報を間接的に得ることができるが、その物体の色の影響を少なからず受けてしまう。一方、レーザレンジファインダ等による３次元情報測定機器から得られる情報は直接的な幾何情報である。色が多彩な対象物も、幾何情報を用いればその影響を受けることがない。

（性質３）認識対象の奥行き方向の領域を制限することができる。

２次元画像の動画像は奥行き情報を持っていないので、同時に遠方にある背景も映り込むことになる。一方、奥行き情報をもった３次元画像の動画像は、奥行き方向の認識領域を制限することによって背景を排除することができる。

（性質４）対象物を任意の軸で回転させることができる。

対象物の遮蔽の問題は存在するが、対象物を任意に回転させることができる。これによって、ある向きから取得したデータであっても回転させて複製することにより、仮想的にあらゆる向きから取得したデータを生成することが可能である。

また、計算コストや性能向上のため、ＨＬＡＣはエッジ画像のように値が０か１しかとらない２値関数Ｉ（ｒ）に適用することが多い。その場合、複数の同じ変位ベクトルを有する組み合わせ（図２において数字が記してある部分）は、変位ベクトルの数を減らして一つにまとめた組み合わせと同じ値を出力するようになる。例えば、マスク２０１とマスク２０２とマスク２０３とでは、同じ値を出力する。また、マスク２０４とマスク２０５とでは、同じ値を出力する。そのため、ＨＬＡＣを多値関数Ｉ（ｒ）に適用した場合に比べ、独立した特徴ベクトルの要素数は少なくなり、ＨＬＡＣで２５、ＣＨＬＡＣで２５１となる。また、４Ｄ−ＨＬＡＣでは、独立した特徴ベクトルの要素数は２４８１となる。

４Ｄ−ＨＬＡＣ特徴量は、局所パターンの総和を算出することにより得られる。このため、４Ｄ−ＨＬＡＣ特徴量は、対象物の出現位置が変化しても同じ値が出力される性質（位置不変性）や、データ中に複数の対象物が存在する場合、全体の特徴量はそれぞれの対象物の特徴量の和と等しくなる性質（加法性）を有する。また、４Ｄ−ＨＬＡＣ特徴量は積と和のみで演算を行えるために計算コストが小さく、リアルタイム処理に向いている。また、４Ｄ−ＨＬＡＣ特徴量は様々な対象に適用することが可能なモデルフリーな特徴量であり、特徴量ベクトルはデータの対象かかわらず常に一定の長さであるため、この特徴量をそのまま識別手法に適用することが可能である。

以上のように、特徴量抽出部１３は、フレーム間差分部１２より出力される４次元差分画像データ上で、図３（ｂ）に示したようなマスク３１０を走査しながら、２値のボクセル値の積和演算を行うことにより、特徴量ベクトルを４次元差分画像データの特徴量として抽出する。

パターン識別部２０は、特徴量抽出部１３で抽出された４次元差分画像データの特徴量に基づいて、対象の動きを識別し、識別結果を出力する。パターン識別方法は限定されるものではないが、本実施の形態では、一例としてフィッシャーの線形判別を用いたパターン識別を用いる。

まず、パターン識別部２０が行う動作の数の推定処理の原理について説明し、その後、推定処理の詳細を説明する。

図４は、パターン識別部２０による動作の数の推定処理の原理を説明するための図である。図４（ａ）に示すように、例えば、「前方向に回す（Ｆｏｒｗａｒｄ）」、「後ろ方向に回す（Ｂａｃｋｗａｒｄ）」、「上下させる（ＵｐＤｏｗｎ）」という３つの動作を学習させ、それぞれの動作に対応する４Ｄ−ＨＬＡＣ特徴量をｍ_１、ｍ_２、ｍ_３とする。一方、入力された４次元差分画像データから得られた４Ｄ−ＨＬＡＣ特徴量をｘとする（図４（ｂ））。このとき、ｘは、図４（ｃ）に記載のようにｍ_１、ｍ_２、ｍ_３の重み付き線形和で表現することができる。ここで、ａ_１、ａ_２、ａ_３はそれぞれの動作の動作数を表す。動作の学習時には、ｍ_１、ｍ_２、ｍ_３をそれぞれ複数取得する。これら取得した特徴量の次元を３次元に削減し、図４（ｄ）に示すように各動作を代表する特徴量をｍ´_１、ｍ´_２、ｍ´_３とし、ｘの次元数を同様に３次元に削減した特徴ベクトルをｘ´とすると、各動作の動作数は、図４（ｅ）に示す式により算出することができる。次に、このような処理を詳細に説明する。

（フィッシャーの線形判別を用いたパターン識別）
フィッシャーの線形判別はデータのクラス構造を保ったまま次元削減を行う手法である。Ｋ個のクラスＣｋ（ｋ＝１，２，・・・，Ｋ）にラベリングされた入力ベクトルｘを、行列Ｗを用いた写像（式２）を用いて次元削減することを考える。

ｙ＝Ｗ^Ｔｘ（式２）

ここで、
は出力ベクトルであり、この空間上で、クラスタリングが容易になるように、写像後のクラス内分散ｓ_Ｗを小さく、クラス間分散ｓ_Ｂを大きくする写像行列Ｗ^Ｔを学習フェーズで求める。

それぞれのクラスの写像後の重心ｖ_ｋおよび、全データの重心ｖは、式４および式５で表すことができる。

ただし、Ｎ_ｋはそれぞれのクラスのデータ数、Ｎは全データ数である。写像後のクラス内分散ｓ_Ｗ、クラス間分散ｓ_Ｂを次の式６および式７でそれぞれ求める。

ただし、このとき、Ｗのスカラ関数Ｊ（Ｗ）を最大化するＷを求める。

これは、写像前のクラス内分散Ｓ_Ｗ、クラス間分散Ｓ_Ｂをそれぞれのクラスの写像後の重心ｖ_ｋおよび、全データの重心ｖは
としたとき、一般化固有値問題
Ｓ_Ｂψ＝λＳ_Ｗψ （式１３）
を解き、得られた上位Ｋ−１個の固有ベクトル
ψ_１、ψ_２、・・・、ψ_Ｋ−１（式１４）
を用いて、
Ｗ＝［ψ_１ψ_２・・・ψ_Ｋ−１］（式１５）
と並べることにより行列Ｗが得られる。

判別フェーズでは、このＷを用いて式２に従い写像を行って次元削減を行った後に、それぞれのクラス重心ｖ_ｋとの差のノルムを求め、最も短い距離のクラスにデータが属するとする。

（動作の数推定のための方法）
ここでは、それぞれのクラスの重心ベクトルｍ_ｋが既知である特徴ベクトルｘが与えられた時に、特徴ベクトルｘをそれぞれのクラスに分解し、各クラスに属する動作の数を数える問題を考える。

前節で説明したフィッシャーの線形判別による写像（式２）はクラスをよりよく分類するための部分空間を与えてくれるが、その次元はクラス数より１つ少ないため、その部分空間に写像されたクラス重心のベクトルｖ_ｋは線形従属になってしまう。このため、式１６のような線形結合の形で表したときのそれぞれのクラスに属する動作の数ａを一意に求めることができない。

ｙ＝［ｖ_１ｖ_２・・・ｖ_Ｋ−１］ａ（式１６）

このａを一意に求めるためには少なくともクラス数と写像後の空間の次元を一致させる必要がある。そのために、判別する動作のＫクラスに加えてもう一つ零ベクトルを（Ｋ＋１）番目のクラスとして追加し、フィッシャーの線形判別を行う。そうすることで次の効果がある。

（効果１）各動作のクラスが原点から離れるような部分空間が求まる。

（効果２）部分空間の次元が一つ増える。

ここで加えた零ベクトルは何も動作を行っていない状態を意味し、各動作の数を推定する上ですべての動作数が０を意味する本質的に重要な点である。さらにこの（Ｋ＋１）番目のクラスに環境から得られたノイズの特徴ベクトルを追加することにより、環境ノイズ成分が原点に重なり除去される部分空間が得られることが期待される。これらの処理によって、動作の数は増やさずに部分空間の次元が増えるので式１６を変形した式１７によって、各動作の数ａを求めることができる。

ａ＝［ｖ_１ｖ_２・・・ｖ_Ｋ−１］^−１ｙ（式１７）

次に、動画像識別装置１００を用いた実験の結果について説明する。

（基礎実験）
図５に示すように、腕を「前方向に回す（Ｆｏｒｗａｒｄ）」、「後ろ方向に回す（Ｂａｃｋｗａｒｄ）」、「上下させる（ＵｐＤｏｗｎ）」という３つの動作を正面から採取したデータを使って判別する性能評価実験を行った。この３つの動作は奥行き情報が重要であるにも関わらず情報が得られないため、２次元の動画像のみでは判別が困難であることから本手法が有用である。比較のために、３次元画像の時系列データを取得すると共に、輝度画像（各画素値が対象の輝度値を示す画像）の時系列データ（輝度動画）および深度画像（各画素値が対象までの距離を示す画像）の時系列データ（深度動画）を同時に取得する。輝度動画および深度動画からはＣＨＬＡＣを用いて特徴量を抽出し、抽出した特徴量を用いてパターン識別を行う。３次元画像の時系列データからは４Ｄ−ＨＬＡＣを用いて特徴量を抽出し、抽出した特徴量を用いてパターン識別を行う。図６Ａは、輝度画像の一例を示す図である。図６Ｂは、深度画像の一例を示す図である。図６Ｃは、ボクセル変換部１１から出力された３次元ボクセルデータの画像の一例を示す図である。

（実験条件・手法）
４次元点群データ（３次元点群データの時系列データ）採取には、Ｍｉｃｒｏｓｏｆｔ社のＫｉｎｅｃｔを用いる。データ採取は２５０フレーム（８．３秒）のブロックを「１試行」とし、１人につき１動作あたり、１０試行のデータを採取した。その他、実験条件を表１に示す。また、特徴ベクトルは２０フレーム毎に区切って計算し、１試行あたり２３１のベクトルを算出し、学習および判別に用いた。

ここで、採取したデータ人数Ｍにおいて、Ｍ−１人のデータを学習データとして用い、残りの１人のデータを検証データとして使用した場合の、判別結果とラベリングの一致率を識別率とする。

比較対象として輝度動画および深度動画を用いて識別する。これらは、両者とも３次元の配列データとして取り扱うことが可能であるため、従来手法であるＣＨＬＡＣによる特徴抽出が可能である。特徴抽出プロセスのみを取り替え、他のプロセスおよび条件は等しくする。特徴量抽出プロセスでは、Ｋｉｎｅｃｔセンサから得られる二種の元動画（輝度動画、深度動画）に対し、時間差分を行うことにより得られる画像から抽出された特徴ベクトルを用いて検証を行う。正面からの輝度動画では判別し難い３つの運動を取り上げたため、輝度動画による識別の識別率は落ち込むと考えられるが、深度動画は３次元情報を含むため、深度動画による識別率は高くなると考えられる。

（実験結果および考察）
本手法と他の手法を比較した結果を図７に示す。４Ｄ−ＨＬＡＣを用いて４次元差分画像データより抽出された特徴量を用いた動きの識別率は９８．２％である。これに対し、輝度動画からＣＨＬＡＣを用いて抽出した特徴量を用いた動きの識別率は６３．５％であり、深度動画からＣＨＬＡＣを用いて抽出した特徴量を用いた動きの識別率は７５．８％であり、いずれも本手法よりも劣る。

３クラス識別の問題であるので、無作為に回答した場合の識別率は３３．３％となる。正面から判断し難い３動作を実験に用いたにも関わらず、輝度動画による識別率が３３．３％より高くなった理由は、人が腕を回す運動に回転方向によって癖がありそれが正面からの動画で確認できるためであると考えられる。

深度動画による識別率は、３次元情報を用いているが本手法に比べ劣っている。この深度動画を用いた方法と、本手法の違いは、動画データ（３次元配列データ）として特徴抽出するかボクセル動画データ（４次元配列データ）として特徴抽出するかであり、元データとしては両者とも深度情報のみである。それにも関わらず本手法の識別率が高い理由として以下が考えられる。

（理由１）３次元的な位置不変性がこの手法では成り立たないこと。

３次元ボクセルデータ上では物体の奥行き方向の位置は、左右上下と同様にボクセルの位置として現れるが、深度画像上では、ピクセル値および対象物体の大小の２つの変化として現れる。そのため、奥行き方向の位置が変わることにより、深度動画から抽出した特徴は変化するため、識別に悪影響を与えている可能性がある。

（理由２）３次元的には離れた物体が深度画像上では隣り合わせになっているため、深度画像は情報表現として好ましくない。

ＨＬＡＣ等は局所パターンをベースとした特徴抽出手法である。深度画像では、ピクセル値により深度を表現することで３次元情報を格納しているが、そのピクセルの配置は２次元配列状であるため、３次元的に離れた場所にある物体が隣り合うことは、通常の画像と同様にあり得る。そのため、物体の形状の特徴に加え物体間の情報が加わってしまい、識別に悪影響を与える可能性がある。一方、本手法のように深度情報を３次元ボクセルデータとして取り扱う場合、離れた場所にある物体は、３次元ボクセルデータ上でも離れた場所にある。そのため、４Ｄ−ＨＬＡＣにより特徴抽出をしたとき、隣接していない物体同士はお互いに特徴値が独立する。特徴抽出を行う前に深度情報を３次元ボクセルデータに変換することは、３次元情報の本質的な特徴を抽出するためであるといえる。

（複数動作の同時認識）
動画像に対するＣＨＬＡＣでは画面に平行な平面上の位置不変性のみが成立するのに対し、３次元ボクセルデータに対する４Ｄ−ＨＬＡＣでは奥行きも含めた３次元的な位置不変性が成り立つはずである。また、ＨＬＡＣは積分演算により算出される特徴であるため加法性も成り立つ。これらの特徴より複数の動作を同時に認識し、それぞれの動作を行っている人数の推定が、対象領域を区切ることなく、対象領域全体に渡って４Ｄ−ＨＬＡＣ特徴量を抽出することにより可能であると考えられる。そこで図８のように、３人が同時に動作を行っている場合にそれぞれの動作の数を推定することを試みた。動作の数の判別には上述した手法を用いる。

動きの判別結果の一例を図９に示す。これは、以下のような３つの動きを３人で行った場合の２５０フレーム（約８。３秒）分の推定結果である。

（動き１）３人全員「腕を前方向に回す」動き（１フレーム〜７０フレーム）。

（動き２）２人「腕を前方向に回す」動き、１人「腕を後ろ方向に回す」動き（７１フレーム〜１５１フレーム）。

（動き３）１人「腕を前方向に回す」動き、１人「腕を後ろ方向に回す」動き、１人「腕を上下させる」動き（１５２フレーム〜２５０フレーム）。

図９（ａ）は、３つの動きのそれぞれの実際の数を示すグラフである。図９（ｂ）は、３つの動きのそれぞれの数の推定結果を示すグラフである。図９（ｃ）は、図９（ｂ）に示す３つの動きのそれぞれの数の単純移動平均を算出し、算出した単純移動平均を四捨五入した結果を示すグラフである。いずれのグラフも横軸がフレーム数を示し、縦軸が動きの数を示す。

図９（ｂ）に示す推定結果が２０フレーム目から始まっているのは、２０フレーム分のデータが集まるまで、４Ｄ−ＨＬＡＣの特徴量を求めることができないためである。

図９（ｂ）によると、推定結果には多くのノイズ成分が含まれているが、およその数は推定できることを示している。多くのノイズ成分は対象動作が周期運動であることが理由であると考えられる。このため、図９（ｃ）に示すように、２０フレームの単純移動平均を算出し、単純移動平均を四捨五入することにより改善することができる。

（リアルタイム識別）
動画像識別装置１００の計算コストの少なさを実証するために、動画像識別装置１００を実現するためのプログラムを作成し、パーソナルコンピュータ（以下、「ＰＣ」という）上で実行させた。使用したＰＣのスペックは、以下の表２の通りである。

プログラムは、Ｐｒｏｃｅｓｓ１とＰｒｏｃｅｓｓ２の２つのプロセスに大きく分かれる。Ｐｒｏｃｅｓｓ１は、ボクセル変換部１１が時系列の３次元ボクセルデータ（４次元ボクセルデータ）を生成するプロセスであり、Ｐｒｏｃｅｓｓ２は、フレーム間差分部１２、特徴量抽出部１３およびパターン識別部２０が、４次元ボクセルデータから動きを識別するプロセスである。他の処理と比べて時間のかかる４Ｄ−ＨＬＡＣによる特徴量抽出のプロセスが、高速な４次元点群データのキャプチャ速度を落とすことのないように、このようなプロセスの構成になっている。

ボクセル変換部１１は、次の手順で上記キャプチャ速度に合わせて繰り返し処理し時系列の３次元ボクセルデータ（４次元ボクセルデータ）を生成する。

１．ボクセル変換部１１は、Ｋｉｎｅｃｔセンサから３次元情報（３次元点群データ）を取得する。

２．ボクセル変換部１１は、取得した３次元情報を、３次元ボクセルデータに変換する。

３．ボクセル変換部１１は、ボクセル変換部１１が備える時系列ボクセルデータバッファに１フレームの３次元ボクセルデータを書き込み、更新する。

フレーム間差分部１２、特徴量抽出部１３およびパターン識別部２０は、次の手順に従い、ボクセル変換部１１で生成された時系列の３次元ボクセルデータから動きの識別を繰り返し行う。

１．フレーム間差分部１２は、時系列ボクセルデータバッファから３次元ボクセルデータを取得する。

２．フレーム間差分部１２は、隣接するフレーム間で３次元ボクセルデータの各ボクセル値の差分値を算出することにより、差分画像の時系列データである４次元差分画像データを算出する。

３．特徴量抽出部１３は、４次元差分画像データから、４Ｄ−ＨＬＡＣ特徴量を抽出する。

４．パターン識別部２０は、特徴量抽出部１３が抽出した４Ｄ−ＨＬＡＣ特徴量を用いて、対象の動きを識別する。

表３にリアルタイム識別についてのパラメータを示す。４Ｄ−ＨＬＡＣは対象物の種類や量によって処理内容が変化しない特徴であるが、本手法のようにバイナリデータに対する４Ｄ−ＨＬＡＣを実装する際、マスク内にボクセル値が０の部分が存在する場合には、マスクが指定する位置ベクトルおよび変位ベクトルのボクセル値の積は０になる。このため、そのマスクについての演算をスキップすることができる。このため、ボクセル値に０が多いほど処理コストが小さくなる。本実施の形態では、隣り合うフレーム間でボクセル値の差分を算出している。このため、大きく動く動作は静止に近い動作に比べて、ボクセル値が０以外のボクセル数が多くなる。そのためＰｒｏｃｅｓｓ２の処理速度にはばらつきが生じている。なお、Ｐｒｏｃｅｓｓ２に含まれているフレーム間差分部１２による差分処理は、Ｐｒｏｃｅｓｓ１に含めた方が処理が重複する可能性がないので好ましい。しかし、差分処理をＰｒｏｃｅｓｓ１に含めると毎秒３０回の速度を落としてしまうため、Ｐｒｏｃｅｓｓ２に入れている。

（結論）
本章では４Ｄ−ＨＬＡＣの性能を検証するために基礎実験を行った。以下のことが、結論として分かった。

（１）輝度動画を用いた従来手法に比べ、奥行き方向の動きが重要な動きに対する認識に４Ｄ−ＨＬＡＣは有効である。

（２）同じ情報量を持つ深度動画を用いたＣＨＬＡＣの特徴抽出によるパターン識別に比べても、一度４次元ボクセルデータに変換する本手法は識別率が高い。

（３）現実的な学習データ量で十分な学習ができる。

（４）３次元空間上の位置不変性、加法性が本手法では成り立ち、それを利用した複数の動作の同時認識が可能である。

（５）ＨＬＡＣの低計算コストの性質は本手法も引き継いでおり、一般的なデスクトップＰＣにてリアルタイム識別が可能である。

以上説明したように、本実施の形態によると、４次元点群データから、特徴量を抽出することができる。４次元点群データには、対象の奥行き方向の情報と、対象の時間的な動きの情報とが含まれている。また、特徴量抽出部の処理は、特定の対象に限定されるものでもない。このため、識別対象を限定せずに、高精度で対象の動きを識別することができる特徴量を抽出することができる。

また、４次元ボクセルデータが含むボクセル数は、４次元点群データが含む画素数よりも少ない。また、４次元ボクセルデータが含む各ボクセルの値は２値である。このため、４次元ボクセルデータのデータサイズは、４次元点群データのデータサイズよりも小さい。よって、この特徴量抽出装置で抽出された特徴量を用いると、対象の動きを高速に識別することができる。

さらに、フレーム間での３次元ボクセルデータの各ボクセル値の差分は、各ボクセルで変化があったか否かを示している。これにより、対象の動きがあった箇所を際立たせた４次元差分画像データを生成することができる。この４次元差分画像データから抽出した特徴量を用いることで、対象の動きを高精度で識別することができる場合がある。なお、４次元点群データや識別対象とされる動きによっては、フレーム間差分を行わないほうが高精度で対象の動きを識別することができる場合がある。

以上、本発明の実施の形態に係る動画像識別装置１００および特徴量抽出装置１０について説明したが、本発明は、この実施の形態に限定されるものではない。

例えば、３次元点群データは、Ｋｉｎｅｃｔから採取するものとしたが、３次元点群データはこれ以外の装置により採取されても良い。また、３次元点群データの各画素値は、輝度を表すものであっても良いし、その画素に対応する３次元位置における対象の存在確率を表すものであっても良い。

例えば、フレーム間差分部１２は、隣接するフレーム間で３次元ボクセルデータの差分を行ったが、パターン識別対象が映っていない背景画像から生成された３次元ボクセルデータを背景画像として、背景差分を行うものであっても良い。

また、特徴量抽出装置１０の構成要素であるボクセル変換部１１、フレーム間差分部１２および特徴量抽出部１３のうち、ボクセル変換部１１およびフレーム間差分部１２は任意の構成要素であり、特徴量抽出装置１０に備えられていても良いし備えられていなくても良い。

例えば、特徴量抽出装置１０が特徴量抽出部１３のみを備えていても良い。この場合には、特徴量抽出部１３は、動画像識別装置１００に入力された４次元点群データ上から４Ｄ−ＨＬＡＣ特徴量を抽出する。

また、特徴量抽出装置１０は、ボクセル変換部１１および特徴量抽出部１３を備えており、フレーム間差分部１２を備えていなくても良い。この場合には、特徴量抽出部１３は、ボクセル変換部１１で生成された４次元ボクセルデータから４Ｄ−ＨＬＡＣ特徴量を抽出する。

また、特徴量抽出装置１０は、フレーム間差分部１２および特徴量抽出部１３を備えており、ボクセル変換部１１を備えていなくても良い。この場合には、フレーム間差分部１２は、動画像識別装置１００に入力された４次元点群データを構成する３次元点群データのフレーム間での差分値を算出することにより、差分値を画素値とする差分画像の時系列データである４次元差分画像データを算出する。特徴量抽出部１３は、フレーム間差分部１２が算出した４次元差分画像データから４Ｄ−ＨＬＡＣ特徴量を抽出する。

また、上記の各装置は、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクドライブ、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムとして構成されても良い。ＲＡＭまたはハードディスクドライブには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

さらに、上記の各装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしても良い。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。ＲＡＭには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムＬＳＩは、その機能を達成する。

さらにまた、上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なＩＣカードまたは単体のモジュールから構成されているとしても良い。ＩＣカードまたはモジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。ＩＣカードまたはモジュールは、上記の超多機能ＬＳＩを含むとしても良い。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、ＩＣカードまたはモジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有するとしても良い。

また、本発明は、上記に示す方法であるとしても良い。また、本発明は、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしても良いし、前記コンピュータプログラムからなるデジタル信号であるとしても良い。

さらに、本発明は、上記コンピュータプログラムまたは上記デジタル信号をコンピュータ読み取り可能な非一時的な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＢＤ（Ｂｌｕ−ｒａｙＤｉｓｃ（登録商標））、半導体メモリなどに記録したものとしても良い。また、これらの非一時的な記録媒体に記録されている上記デジタル信号であるとしても良い。

また、本発明は、上記コンピュータプログラムまたは上記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしても良い。

また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、上記メモリは、上記コンピュータプログラムを記憶しており、上記マイクロプロセッサは、上記コンピュータプログラムに従って動作するとしても良い。

また、上記プログラムまたは上記デジタル信号を上記非一時的な記録媒体に記録して移送することにより、または上記プログラムまたは上記デジタル信号を上記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしても良い。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

本発明は、３次元画像の時系列画像から特徴量を抽出する特徴量抽出装置に適用でき、特に、抽出された特徴量を利用したパターン識別を行う動画像識別装置等に適用できる。

１０特徴量抽出装置
１１ボクセル変換部
１２フレーム間差分部
１３特徴量抽出部
２０パターン識別部
３１〜３３画像
１００動画像識別装置
２０１〜２０５、３１０マスク
３００４次元点群データ
３０１〜３０３３次元点群データ
３１１〜３１３サブマスク
３１１ａ、３１２ａ、３１３ａボクセル

Claims

３次元点群データの時系列データである４次元点群データの特徴量を抽出する特徴量抽出装置であって、
着目データを含む少なくも１つのデータのデータ位置を指定するマスクごとに、当該マスクを前記４次元点群データ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記４次元点群データの画素値の積の前記４次元点群データにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記４次元点群データの特徴量として抽出する特徴量抽出部を備え、
各前記マスクに対し、４次元のいずれかの方向に平行移動させた場合に一致する他の前記マスクは存在しない
特徴量抽出装置。
さらに、
前記４次元点群データを構成する各前記３次元点群データを所定サイズの格子状に区切ることにより得られる各ボクセル内に点が存在するか否かを当該ボクセルのボクセル値として示すことにより、各前記３次元点群データを３次元ボクセルデータに変換することで、前記３次元点群データの時系列データである前記４次元点群データを、前記３次元ボクセルデータの時系列データである４次元ボクセルデータに変換するボクセル変換部を備え、
前記特徴量抽出部は、前記マスクごとに、当該マスクを前記４次元点群データに代えて前記４次元ボクセルデータ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記４次元ボクセルデータのボクセル値の積の前記４次元ボクセルデータにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記４次元ボクセルデータの特徴量として抽出する
請求項１記載の特徴量抽出装置。
さらに、
時間的に隣接するフレーム間での前記３次元ボクセルデータの各ボクセル値の差分値を算出することにより、差分値をボクセル値とする差分画像の時系列データである４次元差分画像データを算出するフレーム間差分部を備え、
前記特徴量抽出部は、前記マスクごとに、当該マスクを前記４次元点群データおよび前記４次元ボクセルデータに代えて前記４次元差分画像データ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記４次元差分画像データのボクセル値の積の前記４次元差分画像データにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記４次元差分画像データの特徴量として抽出する
請求項２記載の特徴量抽出装置。
さらに、
時間的に隣接するフレーム間での前記３次元点群データの各画素値の差分値を算出することにより、差分値を画素値とする差分画像の時系列データである４次元差分画像データを算出するフレーム間差分部を備え、
前記特徴量抽出部は、前記マスクごとに、当該マスクを前記４次元点群データに代えて前記４次元差分画像データ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記４次元差分画像データの画素値の積の前記４次元差分画像データにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記４次元差分画像データの特徴量として抽出する
請求項１記載の特徴量抽出装置。
前記特徴量抽出部での走査対象のデータが１または０の２値データである場合には、マスク中に、同一のデータ位置を複数回指定する第１マスクと、前記第１マスクが指定するデータ位置と同じデータ位置を指定し、かつ前記第１マスクが複数回指定するデータ位置を１回のみ指定する第２マスクとが存在する場合には、前記第１マスクを削除する
請求項１〜４のいずれか１項に記載の特徴量抽出装置。
前記マスクは、前記着目データのデータ位置と、前記着目データから所定距離範囲内に位置するＮ個（Ｎは０以上の整数）のデータのデータ位置とを指定する
請求項１〜５のいずれか１項に記載の特徴量抽出装置。
３次元点群データの時系列データである４次元点群データの特徴量を抽出する特徴量抽出方法であって、
着目データを含む少なくも１つのデータのデータ位置を指定するマスクごとに、当該マスクを前記４次元点群データ上で走査しながら、各走査位置における当該マスクが指定するデータ位置の前記４次元点群データの画素値の積の前記４次元点群データにおける和を算出し、各マスクについて算出した前記和を要素とする特徴量ベクトルを前記４次元点群データの特徴量として抽出する特徴量抽出ステップを含み、
各前記マスクに対し、４次元のいずれかの方向に平行移動させた場合に一致する他の前記マスクは存在しない
特徴量抽出方法。
請求項７に記載の特徴量抽出方法をコンピュータに実行させるためのプログラム。