JP4792471B2

JP4792471B2 - イメージシーケンスデータ検索のための情報要素抽出方法及びその方法を記録した記録媒体

Info

Publication number: JP4792471B2
Application number: JP2007553023A
Authority: JP
Inventors: ホイ−ユルキム; ミン−ソクチョイ; ヒュン−チュルキム
Original assignee: インダストリー−ユニバーシティーコオペレーションファウンデーションハンヤンユニバーシティー
Priority date: 2005-01-27
Filing date: 2005-09-27
Publication date: 2011-10-12
Anticipated expiration: 2025-09-27
Also published as: US20080031523A1; JP2008536345A; WO2006080654A1; KR100679124B1; CN101116108B; US7995870B2; CN101116108A; KR20060086700A

Description

本発明は、情報要素抽出方法に関し、特にイメージシーケンスデータ検索のための情報要素抽出方法及びその方法を記録した記録媒体に関する。

デジタルカメラやカムコーダなどの撮影機器の普及に伴い、デジタルイメージ、動画データなどのようなマルチメディアデータの生成が急激に増加している。これにより、生成されたマルチメディアデータを効果的に管理、検索することがますます難しくなっている。

このような問題を解決するために、マルチメディアデータを、データ生成者が記録した注釈ではなく、マルチメディアデータの内容自体を用いて検索できるようにする研究が活発に行われている。

このような方法の一つとして、マルチメディアデータの内容型検索方法が挙げられる。この方法は、マルチメディアデータから形状、色、質感、動作などの特徴を抽出して、その特徴を記録し、記録した特徴を基準として複数のマルチメディアデータ間の類似度を判別することにより、類似の特徴をもつマルチメディアデータを検索する方法である。

上述したマルチメディアデータ検索の必要性が増大していることにより、国際標準化機構／国際電気標準会議合同技術委員会１（ＩＳＯ／ＩＥＣＪＴＣ１）では、ＭＰＥＧ−７に関して、マルチメディアデータの内容型検索技術に対する標準を制定している。

現在、マルチメディアデータの特徴を記述するための情報要素として、形状、色相、質感、動作などの情報が用いられている。

中でも、動画データなどのようなビデオデータの検索においては、動作情報が重要な情報要素となる。ビデオデータの検索方法は、ビデオデータを構成するシーケンスが表現する客体の動作の特徴を記述する動作記述子を抽出した後、使用者が入力した問合せビデオデータと、データベースに保存されているビデオデータの動作記述子との間の類似度を測定することにより、類似のビデオデータを検索する方法である。ここで、動作記述子は、カメラの動作を記述するカメラ動作、客体が動いた経路を記述する動作経路、イメージ全体の動作を記述するパラメータ動作、イメージ動作の活動性を定量的に表現する動作活動などがある。この中で、動作記述子を用いたビデオ検索方法の効率は、動作記述子がビデオデータの特徴をどれほど忠実に記述するかにより左右される。

すなわち、ビデオデータでは客体の動作及び動作情報がその動画の内容を決める重要な要素として作用する。例えば、水泳種目における飛び込みの場面、フィギュアスケートにおける選手の回転する場面、体操競技における宙返りをする場面などの内容を決める最も重要な要素は、選手の動作及び動作情報である。

しかし、従来のＭＰＥＧ−７動作記述子を用いると、客体の広域的な動作情報は表現できるが、細部的な動作の内容的分析及び表現は不可能である。例えば、人が歩いて行くことと動物が歩いて行くことは、内容的に異なるが、動作記述子だけを用いる場合、両者は区別できないという問題点があった。また、動作経路の場合、動く客体の軌跡だけを表現するので、客体の種類や動作の種類を判別できないという問題があった。また、パラメータ動作の場合、人間の動作のような非定型形状変化は表現できないという問題点があった。

上述した問題点を解決するために、従来の形状変化記述子を用いて客体の一部分だけが動くイメージシーケンスデータ、または少ない数のフレームで客体の部分的な形状変化が多い場合にも識別が可能であって利用者が所望するイメージシーケンスを正確に検索できるようにするビデオデータの検索方法を提案する。

一般的に、手を上げる、手を下げる、座る、立ち上がるなどの客体の動作を正確に区別するためには、動作の連続的な情報が必要である。しかし、従来のビデオデータの検索方法における形状変化記述子は、動作の連続的な情報を利用しないためそれぞれの動作を正確に区別することができないという問題があった。

本発明の目的は、上述した問題点を解決するために、客体の動作を表現するビデオデータを、連続した複数のイメージフレーム、すなわち、イメージシーケンスとして捕捉し、各イメージシーケンスから情報要素を抽出することにより、各ビデオデータ間の類似度の判別ができるイメージシーケンスデータ検索のための情報要素抽出方法及びその方法を記録した記録媒体を提供することにある。ここで、イメージシーケンスデータ検索のための情報要素としては、客体の経時的な形状変化情報、すなわち、客体の動作を識別するための形状シーケンス、形状シーケンス記述子などがある。

また、本発明の別の目的によれば、客体の形状変化だけではなく、客体の動作シーケンスを用いて互いに異なるそれぞれの動作を区別することができるので、ビデオデータの検索性能を向上させることができるイメージシーケンスデータ検索のための情報要素抽出方法及びその方法を記録した記録媒体を提供することができる。

複数のフレームにより客体の動作を表現するイメージシーケンスを対象とした内容型検索のために形状シーケンス記述子を抽出する方法において、
イメージシーケンスに含まれた複数の各イメージフレームを、背景から分離した客体のみを含むｎ（自然数）個のフレームに変換するステップと、
前記客体を用いて前記ｎ個のフレームに対応するｎ個の形状記述子を抽出するステップと、
前記ｎ個の形状記述子を時系列に並べて形状シーケンスを生成するステップと、
前記形状シーケンスを時間軸に沿って周波数変換し、周波数情報を有する複数の変換係数を取得するステップと、
前記複数の変換係数のうち、複数の低周波数領域の係数のみを用いて形状シーケンス記述子を抽出するステップと、
を含むことを特徴とする形状シーケンス記述子の抽出方法を提供し、当該形状シーケンス記述子の抽出方法を行うことができるようにするシステム、装置及び記録媒体を提供する。

上記形状シーケンス記述子の抽出方法において、上記形状シーケンスを生成するステップに先行して、上記ｎ個の形状記述子を時間軸に沿って正規化するステップを含むことを特徴とする。

上記の形状シーケンス記述子の抽出方法は、Ｆ_ｎｍは上記ＡＲＴのｎ、ｍ次係数であって複素数であり、上記ｆ（ｐ，θ）は極座標上のイメージ関数であり、上記Ｖ_ｎｍ（ｐ，θ）は円周方向の関数と半径方向の関数との積で表現できる基底関数であり、
下記の数式で定義されるＡＲＴ（角半径変換）により上記客体から上記形状記述子を抽出することを特徴とする。

また、上記形状シーケンスは、上記複素数の実数部及び虚数部にそれぞれ対応するように複数生成してもよい。

上記の複数の変換係数を取得するために、上記形状シーケンスは、離散フーリエ変換（ＤＦＴ）、離散コサイン変換（ＤＣＴ）、離散ウェーブレット変換（ＤＷＴ）のうち少なくとも一つの方法により時間軸に沿って周波数変換されることを特徴とする。

複数のイメージシーケンス間の類似性を、上記形状シーケンス記述子の類似度計算によって判断し、上記形状シーケンス記述子の類似度計算を、Ｑ及びＳは比較しようとするそれぞれの形状シーケンス記述子を表し、Ｑ（ｉ，ｊ）とＳ（ｉ，ｊ）は比較しようとする二つの連続した形状シーケンス記述子のｉ行目及びｊ列目の値である下記の数式により行うことを特徴とする。

本発明によれば、客体の動作を表現するビデオデータを、連続した複数のイメージフレーム、すなわち、イメージシーケンスとして捕捉し、各イメージシーケンスから情報要素を抽出することにより、各ビデオデータ間の類似度の判別ができる。

また、本発明によれば、客体の形状変化だけではなく、客体の動作シーケンスを用いて互いに異なるそれぞれの動作を区別することができるので、ビデオデータの検索性能を向上させることができる。

本発明は、イメージシーケンスデータ検索のための情報要素抽出方法及びその方法を記録した記録媒体に関するもので、特に客体の動作を表現するビデオデータを、連続したイメージフレーム、すなわち、イメージシーケンスに捕捉し、各イメージシーケンスから情報要素を抽出することにより、各ビデオデータ間の類似度判別が可能なイメージシーケンスデータを検索するための情報要素抽出方法及びその方法を記録した記録媒体に関する。本発明において、イメージシーケンスデータを検索するための情報要素としては、客体の経時的な形状変化情報、すなわち、客体の動作を識別するための形状シーケンス、形状シーケンス記述子などがある。

本発明と、本発明の動作上の利点及び本発明の実施により達成される目的を充分に理解するためには、本発明の好ましい実施形態を例示する添付図及び添付図に記載した内容を参照するべきである。

以下、本発明の好ましい実施形態を、添付した図を参照して詳しく説明する。本発明を説明する上で、総合的理解を容易にするために、図番号にかかわらず同一である手段に対しては、同一の参照番号を付与する。また、以下の説明において用いる数字（例えば、第１、第２など）は、同一または類似の個体を区別するための識別手段に過ぎない。

図１は、本発明の好ましい一実施形態による、イメージシーケンスデータ検索のための情報要素の抽出方法を示すフローチャートである。図２は、本発明の好ましい一実施形態による、複数の停止イメージへの分割を例示した図である。図３は、本発明の好ましい一実施形態による、形状シーケンスの生成過程を示す図である。図４は、本発明の好ましい一実施形態による、複数の停止イメージで構成されたマルチメディアデータに対応する実数部及び虚数部の形状シーケンスを例示した図である。図５は、本発明の好ましい一実施形態による、形状シーケンス記述子の生成過程を示す図である。

図１に示した下記の過程は、情報要素抽出方法を実行するソフトウェアプログラムの形で具現してもよいし、上記方法を実行することができる情報要素抽出装置の形で具現してもよい。下記の説明を通じて、当業者は、別途の説明がなくても情報要素抽出装置の構成を容易に理解できるため、情報要素抽出装置に対する別途の説明は省略する。

図１に示したように、ステップ１１０で、情報要素抽出過程は、先ず入力されたマルチメディアデータ（すなわち、動画やアニメーションのような連続した停止映像の集合）を個別の停止イメージに分割することから始まる。

個別の停止イメージへの分割ステップにおいて、マルチメディアデータを複数の停止イメージに分割した状態を図２に例示する。図２に示すように、マルチメディアデータ（２１０ａ、２２０ａ、２３０ａ、２４０ａ）は、一連の連続的な動作を表示する複数の停止映像の集合（２１０ｂ、２２０ｂ、２３０ｂ、２４０ｂ）として分離する。すなわち、マルチメディアデータの各フレームを、背景から分離された客体情報のみを含むフレームに変換する。

次に、図１のステップ１２０で、各イメージシーケンスから形状記述子を用いた客体形状情報を抽出する。これは、停止映像であるそれぞれのフレームから客体の停止した形状を記述する特徴値を抽出して並べることにより、イメージシーケンスに含まれている客体に対する形状特徴値のシーケンスを取得する。

形状記述子は、客体動作に対する特徴量を示す記述子であって、イメージ領域のピクセルデータに基づいてイメージの形状情報を用いる。

本発明で用いる形状記述子は、マルチメディアデータに含まれている複数の個別フレームを背景から分離して客体情報のみを含むフレームに変換するステップ、及び、客体の形状情報を抽出するために客体情報から形状記述子を抽出するステップを通して抽出する。

以下では、形状記述子の一実施形態であるＡＲＴを用いて、形状記述子（すなわち、複数の形状特徴値）を抽出する方法を説明する。

ＡＲＴとは、極座標上で、単位円上に正弦関数が基底として構成された直交ユニタリー変換であり、回転不変の形状を記述することができ、直交性があるため情報の重複がない。ＡＲＴは下記の数式３のように定義する。

ここでＦ_ｎｍは、ＡＲＴのｎ、ｍ次係数であって複素数であり、この値の大きさだけを取ってイメージの特徴量を示すことができる。ただし、ｎ＝０、ｍ＝０である場合の値は、記述子としては使用せず、複数の各係数値を正規化するのに使用する。ｆ（ｐ，θ）は、極座標上のイメージ関数であり、Ｖ_ｎｍ（ｐ，θ）は、円周方向の関数と半径方向の関数との積で表現できる基底関数であって、下記の数式４のように表現する。

ここで、Ａ_ｍ（θ）は、ＡＲＴ基底関数を構成する偏角関数であり、Ｒ_ｎ（ｐ）は、ＡＲＴ基底関数を構成する動径関数である。回転に不変な特性を示すためには、Ａ_ｍ（θ）が下記の数式５のように表現しなくてはならない。

ここで、Ａ_ｍ（θ）は動径基底関数であり、余弦関数と正弦関数とを用いる場合、それぞれＡＲＴ−ＣとＡＲＴ−Ｓとして表示する。

上述した数式４のＲ_ｎ（ｐ）は、さまざまなタイプを有し、そのタイプに応じて、下記の数式６のようにＡＲＴ−Ｃによって表現する。

複数の個別フレームから抽出したＡＲＴ係数は、元のイメージにＡＲＴ基底関数の成分がどれほど含まれているかを表すものであり、ＡＲＴ係数とＡＲＴ基底関数との積を組み合わせれば、元のイメージを復元することができる。理論上は無限に多いＡＲＴ係数と基底関数との積を組み合わせることで元のイメージと完全に同一のイメージを得ることができるが、実際には２０個乃至３０個の情報だけを組み合せても元のイメージと誤差のほとんどないイメージを取得することができる。

そして、上記の数式３により計算されるＡＲＴ係数の絶対値は、次の数式７が意味する回転不変性を持つ。すなわち、元のイメージから角度ａ°回転させたイメージより抽出した複数のＡＲＴ係数間の関係は数式８の通りである。しかし、回転させたイメージ値の絶対値を取ると、下記の数式９の通り、元のイメージ値と同一になるので、結局、ＡＲＴの大きさは回転不変の特性を有することが理解できる。

図３に本発明の好ましい一実施形態による形状シーケンスの生成過程を示す。図３に示すように、マルチメディアデータを構成する各停止イメージにおいて、背景から分離された複数の客体情報３１０に対応して、それぞれＡＲＴ変換され生成された１次元データである形状記述子３２０が生成される。形状記述子は、ＡＲＴ係数の大きさに対応する色相で表示（すなわち、ＡＲＴ係数の視覚化情報）するように構成する。

形状シーケンスは、図３に示すようにＡＲＴ変換された係数としての複素数の大きさだけで表示されてもよいが、図４に示すように当該個別フレームに含まれている客体情報４１０に対応する複素数の実数部４２０と虚数部４３０とを別個の形状シーケンスに分離して構成してもよい。

続いて図１のステップ１３０で、ステップ１２０を通じて生成した形状記述子３２０を用いて形状シーケンスを生成する。すなわち、上述した過程を通じて生成した複数の形状記述子３２０を時系列に配列することにより２次元情報の形状シーケンス３３０を生成する。形状シーケンス３３０は、複数の形状記述子３２０のそれぞれに決められた時間的間隔が空くようにするために時間軸に沿って正規化することにより、動作の速度とは無関係に生成される。形状シーケンス３３０を生成するための正規化の方法として、例えば、時間軸に沿って直線補間を行う。

次に、図１のステップ１４０で、形状シーケンス記述子の生成が必要かどうかを判断する。

形状シーケンス記述子の生成が必要である場合、図１のステップ１５０で、形状シーケンスを時系列に周波数変換して変換係数を取得する。実時間に応じて物体の動く形状を表現し、上述した過程により生成（抽出）した形状シーケンスを直接用いてマルチメディアデータの検索を行ってもよい。しかし、形状シーケンスは相対的に大きいため、検索に多少時間がかかることも考えられるので、信号の特徴をうまく表現できる変換を通じて算出した係数を用いてもよい。すなわち、抽出した形状シーケンスの各列を時間軸に沿って周波数変換した後、低周波数部分の係数のみを取って生成した形状シーケンス記述子を、物体の動く形状を表現したり、マルチメディアデータを検索するために用いてもよい。ここで、形状シーケンス記述子を生成するための周波数変換方法としては、例えば、離散フーリエ変換（ＤＦＴ）、離散コサイン変換（ＤＣＴ）、離散ウェーブレット変換（ＤＷＴ）などが挙げられるが、その他にも多様な周波数変換方法を用いることができる。

次に、図１のステップ１６０で、周波数変換された変換係数のうち、低周波数領域の一部係数のみを抽出して形状シーケンス記述子を生成する。

図５に本発明の好ましい一実施形態による形状シーケンス記述子の生成過程を示す。

すなわち、ＡＲＴ変換された係数としての複素数に含まれる実数部に対応した形状シーケンス４２０と、虚数部に対応する形状シーケンス４３０を、それぞれ時間軸に沿って周波数変換し、周波数変換された形状シーケンスの５１０及び５２０を生成する。

その後、周波数変換された形状シーケンスの５１０及び５２０のうち、低周波数領域のみを抽出してＡＲＴ変換された係数としての複素数に含まれた実数部に対応する形状シーケンス記述子５３０と、虚数部に対応する形状シーケンス記述子５４０とを生成する。

動作の認識及びマルチメディアデータの検索のために必要となる形状シーケンス記述子間の類似度の計算は、下記の数式１０に示すように、二つの記述子要素の差の絶対値の和として定義できる。

ここで、ＱとＳとは比較しようとする形状シーケンス記述子を表し、Ｑ（ｉ，ｊ）とＳ（ｉ，ｊ）は、比較しようとする二つの連続した形状シーケンス記述子のｉ行目（すなわち、時間軸）及びｊ列目（ＡＲＴ係数が客体に対応するように羅列された軸）の値である。

図６は、本発明の好ましい一実施形態によるマルチメディアデータから形状シーケンス記述子を生成する過程を示す図である。

以上の図１乃至図５を参照して説明した過程を、図６に一連の過程として示す。

図６に示すように、一つのマルチメディアデータを一連の個別フレーム３１０に分割し、個別フレーム３１０はそれぞれＡＲＴ変換により形状記述子３２０として生成する。

生成した形状記述子３２０を、時間軸に沿って正規化することにより一つの形状シーケンス３３０を構成し、形状シーケンス３３０を時間軸に沿って周波数変換を行い、周波数変換された形状シーケンス６１０に変換する。

その後、周波数変換された形状シーケンス６１０の低周波数部分のみを抽出して形状シーケンス記述子６２０を生成する。

動作の認識及びマルチメディアデータの検索のために必要となる形状シーケンス記述子間の類似度は、上述した数式１０により算出することができ、算出値が小さいほど二つのマルチメディアデータが類似した特徴をもつと言える。

図７及び図８は、本発明と従来技術とによる客体の動作検索効率を実験するためのビデオクリップの例を示す図であり、図９は、本発明と従来技術とによる客体の動作検索効率を示す表であり、図１０は、本発明と従来技術とによる客体の動作検索効率の平均性能のグラフである。図１１は、本発明と従来技術とによる客体の動作検索効率の平均性能のグラフであり、図１２乃至図１４は、本発明と従来技術とによる客体の動作認識性能のグラフである。図１５は、本発明と従来技術とによる客体の動作認識性能を示す表であり、図１６は、本発明と従来技術とによる客体の動作認識の平均性能のグラフである。

図７及び図８に示した、すなわち、実験に用いたデータセットは、ＭＰＥＧ−７ｃｏｒｅｅｘｐｅｒｉｍｅｎｔｄａｔａｓｅｔＰａｒｔ−Ｂであって、当該データセットは５人の人間による２２種類の動作を描写した１１０個のビデオクリップで構成される。

図７及び図８に示したデータセットを用いてテンポラルテンプレートから抽出したＨｕモーメント、テンポラルテンプレートから抽出したＡＲＴ記述子、形状変化記述子及び形状シーケンス記述子を用いた客体の動作の検索効率と認識性能の比較結果を図９乃至図１５に示す。ＡＲＴ記述子及び形状変化記述子を抽出する方法は、本出願人の先出願である大韓民国特許出願第１０−２００２−００３４２５８号に詳細に記述されているので、これに対する説明は省略する。また、本出願人の先出願に記載されている技術的思想の中で、必要とする事項は本明細書に同一または類似に適用することができるため、これと重複する説明は省略する。

本発明と従来技術とによる検索効率を比較するための尺度の一つとして、ＮＭＲＲ（ＮｏｒｍａｌｉｚｅｄＭｏｄｉｆｉｅｄＲｅｔｒｉｅｖａｌＲａｎｋ）が挙げられる。認識率は次のように定義する。

認識率は、特定動作を問合せたとき、該当する動作を正確に判断できるかどうかを測定することで求める。先ず、標準動作の登録が必要である。しかし、実験データが少ないため、次の方式により認識実験をする。

先ず、一つの動作ごとに５人分のデータがあるので、１人目の動作を標準動作として登録し、残りの４人の動作を問合せ、該当する動作として正確に認識されるかどうかを求める。すなわち、１人目の２２種の動作を登録した後、残り４人の動作を順に問合せて認識の可否を計算すれば、下記の数式１１のように認識率を求めることができる。

また、２２種の動作すべてに関して認識率を求め、平均値を算出してもよい。

しかし、上述した実験方法だけではモデル選定に付随した誤差が発生し得るので、モデルを変更（例えば、２人目のデータを標準モデルとして登録）し、ほかの４人分を指定して問合せ、認識実験を行う。また、上述の方法でモデルをすべて変更して得られた認識率のすべてを平均した値を最終認識率として定義する。

上述の実験の結果である図９乃至図１１を参照すると、本発明による形状シーケンス記述子を用いる方法が最もよい検索効率を示すことが理解できる。

また、同一方法により客体の動作認識性能を実験した結果である図１２乃至図１６を参照すると、本発明による形状シーケンス記述子を用いる方法が最もよい動作認識性能を示すことが理解できる。

図と発明の詳細な説明は、単に本発明の例示的なものであって、これは本発明を好適に説明するための例示に過ぎず、手段限定や特許請求の範囲に記載した本発明の範囲を制限するものではない。よって、本技術分野における通常の知識を有する者であれば、今後多様な変形及び均等な実施形態が可能であることが理解できる。また、本発明の本当の技術的保護の範囲は、添付された特許請求の範囲の技術的思想により定められるべきである。

上述したように、本発明によるイメージシーケンスデータ検索のための情報要素抽出方法及びその方法を記録した記録媒体は、客体の動作を表現するビデオデータを、連続したイメージフレーム、すなわち、イメージシーケンスとして捕捉し、各イメージシーケンスから情報要素を抽出して各ビデオデータ間の類似度を判別する。ここで、イメージシーケンスデータ検索のための情報要素としては、客体の時間に応じた形状変化情報、すなわち、客体の動作を識別するための形状シーケンス、形状シーケンス記述子などがある。

また、本発明は客体の形状変化だけでなく、客体の動作シーケンスを用いて互いに異なるそれぞれの動作を区別することができるので、ビデオデータの検索性能を向上させることができる。

本発明の好ましい一実施形態によるイメージシーケンスデータの検索のための情報要素の抽出方法を示すフローチャートである。本発明の好ましい一実施形態による複数の停止イメージの分割状態を例示する図である。本発明の好ましい一実施形態による形状シーケンスの生成過程を示す図である。本発明の好ましい一実施形態による複数の停止イメージで構成したマルチメディアデータに対応する実数部及び虚数部の形状シーケンスを例示する図である。本発明の好ましい一実施形態による形状シーケンス記述子の生成過程を示す図である。本発明の好ましい一実施形態によるマルチメディアデータから形状シーケンス記述子を生成する過程を示す図である。本発明と従来技術とによる客体の動作検索効率を実験するためのビデオクリップの例を示す図である。本発明と従来技術とによる客体の動作検索効率を実験するためのビデオクリップの例を示す図である。本発明と従来技術とによる客体の動作検索効率を示す表である。本発明と従来技術とによる客体の動作検索効率の平均性能グラフである。本発明と従来技術とによる客体の動作検索効率の平均性能グラフである。本発明と従来技術とによる客体の動作認識性能グラフである。本発明と従来技術とによる客体の動作認識性能グラフである。本発明と従来技術とによる客体の動作認識性能グラフである。本発明と従来技術とによる客体の動作認識性能を示す表である。本発明と従来技術とによる客体の動作認識平均性能グラフである。

Claims

複数のフレームにより客体の動作を表現するイメージシーケンスを対象とした内容型検索のために形状シーケンス記述子を抽出する方法において、
イメージシーケンスに含まれた複数の各イメージフレームを、背景から分離した客体のみを含むｎ（自然数）個のフレームに変換するステップと、
前記客体を用いて前記ｎ個のフレームに対応するｎ個の形状記述子を抽出するステップと、
前記ｎ個の形状記述子を時系列に並べて形状シーケンスを生成するステップと、
前記形状シーケンスを時間軸に沿って周波数変換し、周波数情報を有する複数の変換係数を取得するステップと、
前記複数の変換係数のうち、複数の低周波数領域の係数のみを用いて形状シーケンス記述子を抽出するステップと、
を含むことを特徴とする形状シーケンス記述子の抽出方法。
前記形状シーケンスを生成するステップに先行して、前記ｎ個の形状記述子を時間軸に沿って正規化するステップを含むことを特徴とする、請求項１に記載の形状シーケンス記述子の抽出方法。
Ｆ_ｎｍはｎ、ｍ次係数であって複素数であり、ｆ（ｐ，θ）は極座標上のイメージ関数であり、Ｖ_ｎｍ（ｐ，θ）は円周方向の関数と半径方向の関数との積で表現できる基底関数であり、
下記の数式に定義されるＡＲＴ（角半径変換）により前記客体から前記形状記述子を抽出することを特徴とする、請求項１または請求項２に記載の形状シーケンス記述子の抽出方法。
前記形状シーケンスは、前記複素数の実数部及び虚数部にそれぞれ対応するように複数生成することを特徴とする、請求項３に記載の形状シーケンス記述子の抽出方法。
前記形状シーケンスは、離散フーリエ変換（ＤＦＴ）、離散コサイン変換（ＤＣＴ）、離散ウェーブレット変換（ＤＷＴ）のうち少なくとも一つの方法により時間軸に沿って周波数変換し、前記複数の変換係数を取得することを特徴とする請求項１から請求項４までのいずれか１項に記載の形状シーケンス記述子の抽出方法。
複数のイメージシーケンス間の類似性を、前記形状シーケンス記述子の類似度計算によって判断し、
前記形状シーケンス記述子の類似度計算を、ＱとＳとは比較しようとするそれぞれの形状シーケンス記述子を表し、Ｑ（ｉ，ｊ）とＳ（ｉ，ｊ）とは比較しようとする二つの連続した形状シーケンス記述子のｉ行目及びｊ列目の値である下記の数式により行うことを特徴とする、請求項１から請求項５までのいずれか１項に記載の形状シーケンス記述子の抽出方法。
イメージシーケンスを対象とした内容型検索のための形状シーケンス記述子の抽出を行うために自動化装置が実行する複数の命令からなるプログラムが明確に具現されており、前記自動化装置により読取可能なプログラムを記録した記録媒体において、
複数のフレームにより客体の動作を表現するイメージシーケンスに含まれた複数の各イメージフレームを背景から分離した客体のみを含むｎ（自然数）個のフレームに変換するステップと、
前記客体を用いて前記ｎ個のフレームに対応するｎ個の形状記述子を抽出するステップと、
前記ｎ個の形状記述子を時系列に並べて形状シーケンスを生成するステップと、
前記形状シーケンスを時間軸に沿って周波数変換して周波数情報を有する複数の変換係数を取得するステップと、
前記変換係数のうち、複数の低周波数領域の係数のみを用いて形状シーケンス記述子を抽出するステップと、
を行うことを特徴とする、プログラムを記録した記録媒体。
前記形状シーケンスを生成するステップに先行して、前記ｎ個の形状記述子を時間軸に沿って正規化するステップを含むことを特徴とする、請求項７に記載のプログラムを記録した記録媒体。
Ｆ_ｎｍはｎ、ｍ次係数であって複素数であり、ｆ（ｐ，θ）は極座標上のイメージ関数であり、Ｖ_ｎｍ（ｐ，θ）は円周方向の関数と半径方向との関数との積で表現できる基底関数であり、
下記の数式で定義するＡＲＴにより前記客体から前記形状記述子を抽出することを特徴とする、請求項７または請求項８に記載のプログラムを記録した記録媒体。
前記形状シーケンスを、前記複素数の実数部及び虚数部にそれぞれ対応するように複数生成することを特徴とする、請求項９に記載のプログラムを記録した記録媒体。
前記形状シーケンスを、離散フーリエ変換（ＤＦＴ）、離散コサイン変換（ＤＣＴ）、離散ウェーブレット変換（ＤＷＴ）のうち少なくとも一つの方法により時間軸に沿って周波数変換し、前記複数の変換係数を取得することを特徴とする、請求項７から請求項１０までのいずれか１項に記載のプログラムを記録した記録媒体。
複数のイメージシーケンス間の類似性を、前記形状シーケンス記述子の類似度計算によって判断し、前記形状シーケンス記述子の類似度計算を、ＱとＳとは比較しようとするそれぞれの形状シーケンス記述子を表し、Ｑ（ｉ，ｊ）とＳ（ｉ，ｊ）とは比較しようとする二つの連続した形状シーケンス記述子のｉ行目及びｊ列目の値である下記の数式によって行うことを特徴とする、請求項７から請求項１１までのいずれか１項に記載のプログラムを記録した記録媒体。