JP4219805B2

JP4219805B2 - 画像シーケンス検索のための形状変化記述子の抽出方法

Info

Publication number: JP4219805B2
Application number: JP2003505809A
Authority: JP
Inventors: フェユルキム; ミンソクチェ; ヨンミンコン
Original assignee: KT Corp
Current assignee: KT Corp
Priority date: 2001-06-19
Filing date: 2002-06-19
Publication date: 2009-02-04
Anticipated expiration: 2022-06-19
Also published as: US7212671B2; JP2004535005A; KR100508569B1; WO2002103562A1; US20040170327A1; KR20020096998A

Description

本発明は画像シーケンス(image sequence)、すなわちビデオデータ検索に関し、さらに詳細には内容基盤画像シーケンスデータ検索のために画像シーケンスデータから形状変化記述子(shape variation descriptor)を抽出する方法及び前記方法を実現させるためのプログラムを記録したコンピュータで読み取り可能な記録媒体に関する。

最近、インターネットとマルチメディアの発展によってマルチメディアデータの量が幾何級数的に増加しており、これによってマルチメディアデータの効率的な管理/検索の必要性が台頭している。

しかし、マルチメディアデータはデータ容量が非常に大きく、画像、ビデオ、オーディオ、テキストなどの多様なタイプの情報が混合されているという特徴のため、ユーザがマルチメディアデータベースから直接マルチメディアデータを検索するということは事実上不可能である。

したがって、マルチメディアデータを效率的に検索し管理する技術が要求されるが、このような技術の核心のひとつはマルチメディア索引技術としてマルチメディア情報を代表する索引情報を抽出して検索及び探索に利用することである。

すなわち、マルチメディアデータベースを構築する時、各マルチメディアデータが有する固有の特徴を表現する記述子(descriptor)を抽出する前処理過程及びユーザが質疑するマルチメディアデータの記述子とマルチメディアデータベースに構築されているデータの記述子との間の類似度測定過程を通してユーザが望む特定のマルチメディアデータを検索できるようになる。

このようにマルチメディアデータ検索の必要性によって国際標準化機構(International Organization for Standardization、ISO)/国際電気標準会議(International Electrotechnical Commission、IEC)合同技術委員会(Joint Technical Committee 1)(ISO/IEC JTC1)ではMPEG-7と関連して内容基盤マルチメディアデータ検索(Content Based Multimedia Retrieval)技術に対する標準を制定している。

現在、マルチメディアデータを記述するための特徴量として、形状(shape)、色相(color)、質感(texture)、動き(motion)情報などを使用している。

一方、ビデオデータ検索においては動き情報が重要な特徴量であって、ビデオデータ検索とはビデオデータを構成するシーケンスが表現する客体の動き特徴を記述する動き記述子(motion descriptor)を抽出した後、ユーザが入力した質疑ビデオデータとデータベースに格納されているビデオデータの動き記述子間の類似度を測定することによって、類似のビデオデータを検索する方法である。

ここで、動き記述子はカメラの動きを記述するカメラ動き(camera motion)、客体が動いた経路を記述する動き経路(motion trajectory)、画像全体の動きを記述するパラメータ動き(parametric motion)、画像動きの活動性を定量的に表現する動き活動(motion activity)など色々あるが、動き記述子を利用したビデオ検索方法の効率は記述子がビデオの特徴をどれくらいよく記述できるかが左右する。

従来の動き記述子としては動き経路記述子(motion trajectory descriptor)が主に用いられており、動き経路記述子は動く客体の時空間的な経路(trajectory)を記述する。動き経路記述子は大きくグローバル動き(global motion）と客体動き(object motion)に分けられる。グローバル動きはカメラの動き、すなわちカメラがどのように移動したかを示し、客体動き(object motion)はユーザの関心対象である物体、すなわち客体の動きを示す。

グローバル動きは該当客体を取り囲む最小限の四角形の中心点を持って動きを記述する。ここで、客体の位置、速度(velocity)、加速度(acceleration)などの情報を利用して、動いている物体で中心のx方向の経路は次の数式1のような値で表現される。

ｘ０：ｔ＝ｔ０である時の位置
ｘ（ｔ−ｔ０）：ｘ座標
Ｖｘ：速度
αｘ：加速度
同様にy方向とz方向は次の数式2のようである。

y(t-t0)：y座標
z(t-t0)：カメラのズームイン/ズームアウト
すなわち、グローバル動きは客体がどの2地点をどのくらいの速度で移動するかに対する程度を特徴量で示している。

一般的な2つの動き経路客体の距離は次の数式3のように表現される。

Δｔｉ：ｉ番目の特徴量での時間
α，β，χ：加重値

しかし、前記の従来の動き経路記述子(motion trajectory descriptor)を利用した内容基盤ビデオ検索方法は、グローバル動きのみを特徴量として客体動きに対する情報なしに客体の移動経路(trajectory)のみを記述しているため、相違した形状を有するか、相違した客体動きを有する客体の同じ移動経路に対して同じ特徴量を表し、次のような限界を有する。

その一つは、ユーザの認知的特性を正確に反映できず、客体動き、すなわち時間による客体形状の変化を記述できないため、客体が異なるからユーザが異なると感じるビデオデータに対しても、グローバル動きに対する特徴量が類似すると、類似のビデオデータと誤検索するという問題がある。すなわち、動き経路記述子(motion trajectory descriptor）は客体の形状情報なしに客体の動き経路のみ記述しているため、異なる形状を有する客体の同じ動き経路に対して同じ特徴量を表す。例えば、動物が歩いていくことと人が歩いていくことは人間の認知的観点では互いに異なる動きであるが、動き経路記述子(motion trajectory descriptor）は同じ特徴量として表現するようになるという問題がある。

また一つは、同じ客体であっても、客体の動きが異なるため相違した画像シーケンスデータにも関わらず、グローバル動きに対する特徴量が類似した場合、動き経路記述子(motion trajectory descriptor）は相違した客体の動きを区別できないという問題がある。

したがって、本発明は前記のような問題に鑑みてなされたものであって、その目的とするところは、客体の動きを表現するビデオデータを連続した画像フレーム、すなわち画像シーケンスとして捕捉し、各画像シーケンスに含まれた客体を重畳して形状記述子(shape descriptor)係数を利用することによって、客体の一部分のみが動く画像シーケンスデータ、または少ない数のフレームで客体が動く経路が小さく客体の部分的な形状変化が多い画像シーケンスデータの場合にも識別可能な形状変化記述子(shape variation descriptor)の抽出方法及び、前記方法を実現させるためのプログラムを記録したコンピュータで読み取り可能な記録媒体を提供することである。

前記目的を達成するため、本発明は、複数のフレームにより客体の動きを表現する画像シーケンスデータに対する内容基盤検索のために形状変化記述子(Shape Variation Descriptor)を抽出する方法において、画像シーケンスデータから所定個数のフレームを選ぶ第1ステップと、前記フレームを背景から分離された客体情報のみを含むフレームに変換する第2ステップと、前記客体を前記フレームの所定位置に整列させる第3ステップと、前記第3ステップにより整列された複数のフレームを重畳して、前記客体の動き情報及び形状情報を含む一つのフレーム(SVM）を生成する第4ステップと、前記生成された一つのフレーム(SVM)に対して形状記述子(Shape Descriptor)を抽出する第5ステップとを含むことを特徴とする形状変化記述子の抽出方法を提供する。

また、前記目的を達成するため、本発明は、複数のフレームにより客体の動きを表現する画像シーケンスデータに対する内容基盤検索のための形状変化記述子(Shape Variation Descriptor)を抽出するために、プロセッサを備えた内容基盤検索システムにおいて、画像シーケンスデータから所定個数のフレームを選ぶ第1の機能と、前記フレームを背景から分離された客体情報のみを含むフレームに変換する第2の機能と、前記客体を前記フレームの所定位置に整列させる第3の機能と、前記第3の機能により整列された複数のフレームを重畳させて、前記客体の動き情報及び形状情報を含む一つのフレーム(SVM）を生成する第4の機能と、前記生成された一つのフレーム(SVM)に対して形状記述子(Shape Descriptor)を抽出する第5の機能と、を実現させることを特徴とするプログラムを記録したコンピュータで読み取り可能な記録媒体を提供する。

本発明に係る形状変化記述子(Shape Variation Descriptor）は客体の2値化画像集合(collection of binary image of objects)で形状の変化を記述する。2値化画像集合はビデオから分割された順次的な画像セットを含む。前記記述子の主要機能は類似した形状画像集合を検索することであり、各集合のフレーム数、または順序を問わない。フレームが連続的な場合、記述子は客体動きによる類似した形状変化の観点でビデオセグメントのフレームセットにより表現される形状シーケンスの検索に利用される。

本発明によれば形状変化記述子(Shape Variation Descriptor)としてStaticShape Variation及びDynamic Shape Variationが開示される。

本発明の一実施の形態によれば、ユーザが選定したビデオクリップを連続した画像フレーム、すなわち画像シーケンスとして捕捉して当該ビデオクリップからフレームセットが生成される。好ましくは選定した画像フレームから所定の基準によって何フレームずつ飛ばしながらフレームセットの元素が再選定されて、一連の画像シーケンスから再構成されるサブサンプリング(subsampling）過程がさらに含まれることができる。

生成されたフレームセットを構成する各フレームごとに2値化が行われて、各フレームに含まれている客体情報が背景情報から分離される。2値化画像から分離された客体の中心が所定のポイントで整列された後、全フレームが重畳されながら各フレームの全ピクセルに割り当てられている値が累積される。累積されたピクセル値が所定の範囲、例えば[0、255]または[0、1]のグレイスケールに正規化されることによって、形状変化マップ(Shape Variation Map、SVM）が生成される。

本発明の一実施の形態に係るSVMには個々のフレームシーケンスに含まれた画像が重畳された情報が含まれているため、客体の動き情報及び形状情報が全部含まれている。

領域基盤形状記述子(region based shape descriptor)を含む形状記述子の抽出方法によりSVMから画像シーケンスの形状変化(shape variation)に対する特徴量であるStatic Shape Variationが抽出されると、抽出された特徴量でビデオデータベース内で類似度を計算してユーザが望む画像シーケンスデータを検索できるようになる。

本発明の一実施の形態に係るSVMは客体の中心部分に重畳度が最も高く表われ、これはSVMから特徴量を抽出するにおいて、客体の動きがある部分より動きのない部分に加重値がより高いということを意味する。本発明の他の実施の形態では客体の動きがある部分がより高い加重値を持たせて客体の動きを正確に捕捉する。

本発明の他の実施の形態によると、上述した本発明の一実施の形態によって生成されたSVMに対して背景を除外した客体が反転されることによって、逆形状変化マップ(Negative Shape Variation Map、NSVM）が生成される。

本発明の他の実施の形態に係るNSVMには個々のフレームシーケンスに含まれた画像が重畳された情報が含まれているため、客体の動き情報及び形状情報が全て含まれている。

領域基盤形状記述子(region based shape descriptor)を含む形状記述子の抽出方法によりNSVMから画像シーケンスの形状変化(shape variation)に対する特徴量であるDynamic Shape Variationが抽出されると、抽出された特徴量でビデオデータベース内で類似度を計算してユーザが望む画像シーケンスデータを検索できるようになる。

本発明のさらに他の実施の形態によれば、前記Static Shape Variation及びDynamic Shape Variationに所定の加重値を附与した後演算される算術平均値を当該画像シーケンスの新しい特徴量とし、抽出された特徴量でビデオデータベース内で類似度を計算してユーザが望む画像シーケンスデータを検索できるようになる。

上述したような本発明は、ビデオデータに含まれている客体が動く形状の類似度を形状記述子の係数を用いて判断することによって、大きさ、色相及びテクスチャ(texture)に関係なく、客体の一部分のみが動く画像シーケンスデータ、または少ない数のフレームで客体の部分的な形状変化が多い場合にも識別可能であるため、ユーザが望む画像シーケンスを正確に検索できるという効果がある。

また、客体の形状情報と動き情報を共に記述するため、互いに異なる形状を有した客体が同じ経路で動いた場合、識別が可能な効果がある。

また、本発明に係る形状変化記述子が人間の認知的観点で客体の中心よりは客体が取った形状の変化、すなわち客体の形状と動きに対する情報が表現された部分に加重値を付与するため検索性能が向上するという効果がある。

以下、添付する図面を参照しながら、本発明に係る好ましい実施の形態を詳細に説明する。

図1は、本発明の一実施の形態に係る形状変化記述子(Static Shape Variation)の抽出過程を示すフローチャートである。図1に示すStatic Shape Variation抽出過程は画像シーケンスデータベースを構築する過程及び質疑画像シーケンスデータと類似した画像シーケンスデータを検索する過程において前処理過程として必要である。

図面に示すように、本発明の一実施の形態に係るStatic Shape Variation抽出過程は画像シーケンスデータから記述子抽出のためのフレーム選定過程(S101)から始まる。

図2は、図1のフレーム選定過程(S101）を示す細部フローチャートであって、図面に示すように区間が指定された画像シーケンス、すなわちビデオクリップS201に対してサブサンプリング(S203）を行う。サブサンプリングステップ(S203)ではビデオクリップから特定客体の動きが存在する連続されたN個のフレームF_iを抽出してフレームセットSを次のように生成する。

Ｓ＝｛Ｆ１，Ｆ２，Ｆ３，………．，ＦＮ｝
次いで、前記フレームセットSに対して所定の周期T、すなわちT個のフレームほど飛ばしながら画像フレームを選定して、再度M個の画像フレームから構成されたフレームセットS'を構成する。
Ｓ’＝｛Ｆ’１，Ｆ’２，Ｆ’３，………，Ｆ’Ｍ｝ｗｈｅｒｅ，Ｍ〜Ｎ／Ｔ
一方、前記フレームセットS'を構成するための周期TはフレームセットSを構成するフレームの個数Nによって任意に調節できることは、本発明が属する技術分野における通常の知識を有した者にとって明白なものである。すなわち、後述する客体重畳ステップ(S107)において、グレイ画像インターポレーション(interpolation)ステップ(S403)を考慮したフレーム個数MになるようにTが選ばれる。したがって、Ｎが大きくない場合にはＴ＝１（Ｎ＝Ｍ、Ｓ＝Ｓ´）になることができる。

また、前記フレームセットSを構成する過程で抽出されたフレーム個数Nは、特定客体の動きが存在する連続したフレームを抽出する過程において生成されたが、これはビデオクリップのフレーム個数によって任意に調節できることは本発明が属する技術分野における通常の知識を有したものにとって自明なものである。すなわち、通常、ビデオデータは秒当たり30フレームから構成されることに対し、アニメーションGIFのような画像シーケンスデータの場合は、より少ないフレーム数から構成でき、この場合ビデオクリップの全体フレームから構成されたフレームセットSになることができる。したがって、フレームセットSの構成フレームは、特定客体の動きが存在する連続したフレームに限定されないことと理解すべきである。前記したような本発明によると、画像シーケンスのフレーム数を正規化するため、後述する画像シーケンス検索過程でフレーム数が異なる画像シーケンス、例えばスローモーション画像シーケンスと正常速度のモーション画像シーケンスに対する比較が可能である。

フレーム選定ステップ(S101)以後には選ばれた各々のフレームから背景を除去し、動きの主体である客体のみを抽出する客体抽出ステップ(S103)が行われる。

図3は、図1の客体抽出ステップ(S103)を示すフローチャートである。各フレームF'_iに含まれている背景情報及び客体情報を分離して、客体を背景から抽出するステップ(S301）は既に公知された技術として詳細な説明は省略する。

次いで、背景から抽出された客体に対して画像２値化（ｂｉｎａｒｉｚａｔｉｏｎ）ステップ（Ｓ３０３）を行う。２値化（ｂｉｎａｒｉｚａｔｉｏｎ）ステップ（Ｓ３０３）の遂行結果、フレームセットＳ´に対応する２値化画像フレームセットが生成される。

本発明の一実施の形態に係る2値化(binarization)ステップ(S303）は、後述するように画像全体ピクセルの情報を使用する形状記述子(Shape Descriptor)の抽出のための前処理ステップである。

客体がどのように構成されているかによって、客体の形状は一つ、または複数の領域から構成され、本発明では客体動き(Object Motion)に対する特徴量を示す記述子として、画像領域のピクセル(pixel)データに基づいて、画像の形状情報を用いる形状記述子(Shape Descriptor)を利用することができる。

すなわち、本発明の一実施の形態に係るStatic Shape Variation抽出方法では、2値化画像フレームセットに含まれた全ての2値化画像の各ピクセルに割り当てられた値V_i(x, y)を重畳させることによってSVMを生成させ、前記SVMに対して形状記述子の抽出方法を適用する。

ここで、V_i(x, y)はフレームF'_iに対応する客体の2値化画像のピクセル座標に割り当てられた値を示すものであって、x、y座標は2値化画像のピクセル座標を示している。客体はカラーであるか白黒画像であるかに関係なく2値化ステップ(S303)を経て、客体の輪郭内部に対応するピクセル座標V_i(x, y)は1、輪郭外部に対応するピクセル座標V_i(x, y)は0である2値化画像フレームセットを生成する。

客体抽出ステップ(S103)の以後には、客体の中心をフレームの中心へ移動させる客体中心移動ステップ(S105)が行われる。2値化画像フレームセットを構成する各フレームに対して2値化画像で表現されている客体の中心を所定のポイントで整列させる理由は、画像シーケンスデータ検索過程でフレームに含まれた客体の位置情報に関係なく客体の特徴量を抽出するためである。

客体中心移動ステップ(S105)以後には、2値化画像フレームセットの全フレームを一つのフレームに重畳させる客体重畳ステップ(S107)が行われてSVMを生成させる。すなわち、SVMは2値化画像フレームセットの各フレームを構成するピクセルに割り当てられた値が重畳されたピクセルから構成される一つのフレームであって、2次元ヒストグラム(histogram）を意味する。

客体抽出ステップ(S103)で生成された2値化画像フレームセットは、各フレーム別に全てのピクセルに1、または0の値が割り当てられている状態であるため、図4の客体重畳過程を示すフローチャートに示すように、客体を重畳させながら重畳されるピクセルに割り当てられた値を累積させる(S401)。

各ピクセル座標に対する累積値SVM(x、y）は数式4のようである。

すなわち、SVM(x、y）はSVMが有する情報であって、客体の累積値、すなわち客体の動き情報及び形状情報を示す値である。

例えば、同じピクセルポイント(x1, y1)に1の値が割り当てられている3個のフレーム、例えばV₁(x1,y1)(=1),V₄(x1,y1)(=1)及びV₇(x1,y1)(=1)が重畳されると、当該ピクセルポイントには3の値が割り当てられる。したがって、Mが7である場合、最大累積値は7であって、任意のピクセルポイントには0から7までの正数のいずれかがの値が割り当てられることができる。

次いで、累積値の割り当てステップ(S401)で生成されたピクセルポイント累積値の範囲(0〜M)を所定の範囲、例えば[0、255]のグレイスケール(grayscale）に変換させるインターポレーション(interpolation)ステップ(S403)が行われる。インターポレーションを介した正規化は、画像シーケンスデータ検索過程においてフレームの数に関係なく同じ範囲のグレイレベル値を有するようにするためである。

しかし、前記インターポレーション過程(S403)におけるグレイスケールは任意に調節できることは本発明が属する技術分野における通常の知識を有する者にとって明白なものである。したがって、インターポレーションステップ(S403）は256ステップのグレイスケールに限定されないことと理解すべきである。

例えば、Mが任意の数であっても前記数式4を下記のように変更させると、グレイスケールの範囲は[0、1]となる。

図7Aないし図7Cは、本発明によって背景から分離された客体を重畳させる過程を示す一実施の形態の例示図である。

まず、図7Aにおいて、参照番号701は客体を背景から分離するステップ(S301)を通じて生成された4個のフレームF'_i(M=4)を示しており、背景から客体が分離/抽出されている状態であることが分かる。参照番号703は客体2値化ステップ(S303)を通じて生成された2値化画像フレームを示すものであって、1で表現される客体輪郭内部をblackで、0で表現される客体輪郭外部をwhiteで表現した時現れる2値化画像フレームを示している。しかし、本明細書に添付された図面の表現は単に説明の便宜のためのものであることは本発明が属する技術分野における通常の知識を有した者にとって明白なものである。したがって、2値化画像フレームにおいて1で表現される客体輪郭内部が必ずblackで表現されると限定されず、0で表現される客体輪郭の外部が必ずwhiteで表現されると限定されないと理解すべきである。例えば、2値化画像フレームにおいて1で表現される客体輪郭内部はwhiteで、0で表現される客体輪郭の外部はblackで表現されることができる。

一方、参照番号705は、客体中心移動ステップ(S105)を通じて各フレームの2値化画像の客体中心が移動したフレームであって、客体の中心がフレームの中心ポイントに整列されていることが分かる。参照番号707は、客体重畳ステップ(S107)により705の各フレームが重畳されたSVMを示している。SVM707はインターポレーションステップ(S403)により各ピクセルポイントに割り当てられた累積値(0〜M(=4)）がグレイスケールに変換されている。

図7B及び図7Cの参照番号713及び723は、客体2値化ステップ(S303)を通じて生成された2値化画像フレーム(M=6）を示しており、参照番号717及び727は各々参照番号713及び723の2値化画像フレームを重畳させた後のSVMを示している。SVM717、727はインターポレーションステップ(S403)により各ピクセルポイントに割り当てられた累積値(0〜M(=6)）がグレイスケールに変換されている。

客体重畳ステップ(S107)の以後には、Static Shape Variation抽出ステップ(S109)が行われる。図5は、図1の記述子抽出過程を示すフローチャートである。まず、客体の大きさ変化に関係ない検索が可能になるように、客体重畳ステップ(S107)を経て生成されたSVMのサイズを所定のサイズ、例えば８０Ｘ８０の大きさに正規化させるステップ(S501)が行われる。

次いで、正規化されたSVMに対して形状記述子(Shape Descriptor)を適用して形状変化(shape variation)に対する記述子であるStatic Shape Variationを抽出する(S503)。

以下では、形状記述子の一実施の形態であるZernikeモーメント(Zernike Moment)及びART(Angular Radial Transform)を適用して、画像の形状変化(shape variation)に対する特徴量を抽出する方法を説明する。

I)Zernikeモーメント抽出過程
関数f(x、y)に対したZernikeモーメントはZernike多項式(Zernike Polynomial)に対する関数f(x、y）の投影(projection)である。すなわち、Zernikeモーメントは数式6で定義される。

数式6で得られたZernikeモーメントは複素数であり、この値の大きさのみを取ることによって、Zernikeモーメント係数を求めることができる。これを離散関数に対して適用させると、数式7のZernikeモーメントが得られる。

ここで、Zernike複素多項式V_nmは極座標系で単位円(unit circle)内部U:x²+y²≦1で完全に直交する複素多項式の形式を取り、数式7のようになる。

図10Aないし図10DはZernikeモーメント基底関数を示す図面であって、図10A及び図10Bはm=2k(kは整数)である時の実数部及び虚数部を各々表しており、図10C及び図10Dはｍ≠２ｋである時の実数部及び虚数部を各々示している。

角度αほど回転された客体の場合、数式8のZernikeモーメント式は数式9のように表現できる。

数式9に示すように回転された客体のZernikeモーメントは、Zernikeモーメントで位相のみが変化するため、モーメントの絶対値は同じである。このような特性を利用して客体の回転に変化しない形状を記述できる。

II)ART(Angular Radial Transform)記述子の抽出過程
ARTは極座標上で単位円上に正弦関数(sinusoidal function）がベースで構成された直交単一変換(orthogonal unitary transform)であって、回転不変の形状を記述でき、直交性があるために情報の重複性がない。ARTは数式10のように定義される。

ここでF_nmはARTのn、m次係数で複素数であり、この値の大きさのみを取ることによって、画像の特徴量を取ることができる。但し、n=0、m=0である時の値は記述子としては用いられず、各係数値を正規化するのに用いる。ｆ（ρ，θ）は極座標上の画像関数であり、V_mn（ρ，θ）は円周方向の関数と半径方向の関数の積で表現され得る基底関数であって、数式11で定義される。

ここで、Ａ_ｍ（θ）はART基底関数を構成する偏角関数(Angular function)であり、Ｒ_ｎ（ρ）はART基底関数を構成する放射関数(Radial Function)である。回転に変化しない特性を示すためには、Ａ_ｍ（θ）が数式12のように表現されるべきである。

すなわち、Ａ_ｍ（θ）は円周基底関数(radial basis function)として余弦関数(cosine function)と正弦関数(sine function)を用いる時、各々ART-CとART-Sとで示す。

前記数式11のＲ_ｎ（ρ）は様々なタイプを有することができ、そのタイプによって次の数式13のようなART-Cで示すことができる。図9A及び図9Bは、ART基底関数を示す図面であって、図9AはART-CタイプのART基底関数の実数部及び虚数部を各々示しており、図9BはART-SタイプのART基底関数の実数部及び虚数部を各々示している。

画像から抽出されたART係数は円画像にART基底関数の成分がどれくらい含まれているかを示すものであって、ART係数とART基底関数の積を組み合わせると、円画像を復元することができる。理論的には無限に多いART係数と基底関数との積を組み合わせないと、円画像と完全に同じ画像を獲得できないが、実際には20個ないし30個情報のみ組み合わせても円画像と誤差がほとんどない画像を獲得できる(図9A及び図9B参照)。

そして、前記数式10から計算されるART係数の絶対値は、次の数式14が意味するような回転不変性(Rotation Invariance）を有する。すなわち、原本画像ｆ（ρ，θ）と角度αほど回転された画像ｆ^α（ρ，θ）から抽出されたＡＲＴ係数間の関係は、下記数式15のようである。ところが、回転された画像のＦ^α _ｍｎ値に絶対値を取ると、下記数式１６のように、原本画像のＦ_ｍｎ値と同一になるので、結局、ＡＲＴの大きさは回転不変の特性を有することが分かる。

一実施の形態として、SVMから偏角次数(angular order)が9であり、放射次数(radial order)が4であるART係数を演算する過程を説明すると、以下のようである。本発明の一実施の形態に係るStatic Shape VariationはSVMから抽出されたART係数の正規化及び量子化された大きさを値として有する、大きさが35である配列(Static Shape Variation=Static Shape Variation[k]、k=0、1、....34）とする。ヒストグラムの各ビン(bin）の値は、シーケンス全体のピクセル位置において客体がどれくらいよく現れるかを意味する頻度(frequency)に対応する。ビンの最大値は当該位置で客体の一部分が常に現れるということ、または全体シーケンスを通じて静的(static)であることを意味する。SVMでピクセルの値が高いほど当該ピクセル位置において、客体の静的の程度(degree of being static)が高い。次数kと放射次数及び偏角次数(n、m）の関係は、次の表1のようである。

i)基底関数の生成(Basis Function Generation):
2個の4次元配列形態にATR複素基底関数（実数部関数BasisR[9][4][LUT_SIZE][LUT_SIZE]及び虚数部関数BasisI[9][4][LUT_SIZE][LUT_SIZE]）を以下のようなコードを通して生成する。ここで、LUT_SIZEはルックアップ表の大きさを意味する(通常LUT_SIZE=101)。
cx=cy=LUT_SIZE/2; //基底関数の中心
for(y=0 ; y< LUT_SIZE ; y++)
for(x=0 ; x< LUT_SIZE ; x++) {
radius = sqrt((x-cx)^* (x-cx) + (y-cy)^*(y-cy));
angle = atan2(y-cy、 x-cx);
for(m=0 ; m<9 ; m++)
for(n=0 ; n< 4 ; n++) {
temp=cos(radius^＊π^＊n/(LUT_SIZE/2));
BasisR[m][n][x][y] = temp^*cos(angle^*m);
BasisI[m][n][x][y] = temp^*sin(angle^*m);
}
}

ii)大きさの正規化(Size Normalization):
SVMで整列された中心がルックアップ表の中心と一致するように整列させる。画像の大きさとルックアップ表の大きさが異なる場合、当該画像を対応するルックアップ表にマッピングされるように線型インターポレーションを行う。ここでは客体の大きさが客体中心からの最大距離の2倍となるように定義される。

iii)ART変換(ATR Transformation):
ラスタースキャン順序(raster scan order）でSVMのピクセル値の積をルックアップ表の対応するピクセル各々に対して合算することによって、ART係数の実数部と虚数部とを計算する。

iv)領域の正規化(Area Normalization):
ART係数の各々の大きさを計算し、この値を客体領域のピクセルの数で分ける。

v)量子化(Quantization):
本一実施の形態に係るStatic Shape Variation[k](k=0、1、....34）は、下記の表2の量子化テーブルにしたがって、ART係数を16ステップに非線型量子化して4ビットで表現することによって獲得される。

前記のように量子化されたART係数は、後の類似度の判断のための距離計算過程において、下記の表3によって逆量子化される。

以上説明したように、本発明の一実施の形態に係るStatic Shape Variationを抽出する方法により客体自体の動きに対する特徴量を抽出することによって、画像シーケンスデータベースを構築する過程でStatic Shape Variationを計算して画像シーケンスデータに対する検索性能を向上させるようになる。すなわち、膨大な量の画像シーケンスデータが構築されているデータベースからユーザが望む特定の画像シーケンスデータを検索できるようになる。

図6は、本発明の一実施の形態に係る画像シーケンスの検索過程を示すフローチャートである。本発明の一実施の形態に係るStatic Shape Variationの抽出方法を利用する画像シーケンス検索システムがユーザから質疑画像シーケンスデータを受信すると(S601)、前記図1ないし図5の本発明の一実施の形態に係るStatic Shape Variationの抽出方法によってStatic Shape Variationを抽出して(S603)、画像シーケンスデータベースに構築されている画像シーケンスデータのStatic Shape Variationとの類似度を測定する(S605)。

以下ではZernikeモーメントを適用した場合及びARTを適用した場合に用いられる類似度の検索方法の一実施の形態を説明する。但し、本発明の一実施の形態に係る類似度の検索方法は、以下で説明する類似度の検索方法以外にも多様な検索方法が用いられることは本発明が属する技術分野における通常の知識を有する者にとって明白なものであって、本発明の一実施の形態に係る類似度の検索方法は以下で説明する方法に限定されないと理解すべきである。例えば、類似度の検索の一般式は次の数式17ように表現できる。

ここで、添字Qは質疑画像シーケンスを代表し、添字Dはデータベースに既格納されている画像シーケンスを代表する。

質疑画像シーケンス及びデータベースに既格納されている画像シーケンスに対する2個のStatic Shape Variationに対する類似度は、次の数式18に示すようである。

ここで、M_SSV,Q[i]は質疑画像のi番目の特徴量(Static Shape Variation[i])であり、M_SSV,D[i]はデータベースに存在する比較対象画像のi番目の特徴量(Static Shape Variation[i])である。

下記の数式19は、質疑画像とデータベース画像との間の非類似度(Dissimilarity)を示す数式である。すなわち、類似した形状の画像から抽出された記述子は類似した値を有し、異なる形状の画像から抽出された記述子は完全に異なる値を有するため、数式19のように二つの画像から抽出された記述子の差を比較すると、二つの画像がある程度類似した形状を有しているかが判断できる。

ここで、Ｄは質疑画像とデータベース画像との間の非類似度、Ｗ_ｉは定数係数、Ｓ^Ｑ _ｉは質疑画像のｉ番目の画像記述子であり、Ｓ^Ｄ _ｉはデータベース画像のｉ番目の画像記述子を意味する。類似度の測定（Ｓ６０５）結果、最も類似度が高い画像シーケンスデータが選択される（Ｓ６０７）。

図8A及び図8Bは、本発明の一実施の形態に係る検索例を説明するための画像シーケンス図である。図8Aの参照番号801ないし815は、各々3個のフレーム(M=3)から構成された画像シーケンスデータを示すものであって、アニメーションGIF画像フレームセットを示している。フレームセットSで隣接フレームF_i間に画像の変化がほとんどない場合には、Nが大きい場合にも図9Aに示すように周期Tを調節してM=3であるフレームセットＳ´から構成できることは既に説明した。

また、客体重畳ステップ(S107)において、あまり多い2値化画像客体フレームを重畳させると、SVMで重畳された客体画像の形状が曖昧となるので、所定の個数、例えば10個(M=10)のフレームのみが選ばれるように、周期Tを調節できることが既に説明した。

図8Bは、本発明の一実施の形態に係る画像シーケンスデータの検索結果の例示図であって、図面に示すように図8Aの画像シーケンスデータ801、811を各々質疑画像シーケンスデータ827、837にした場合の検索結果を示している。

結果、画像シーケンスデータとして示す参照番号821、823及び825は、各々図8Aの画像シーケンスデータ801、803及び805に対応するSVMであり、参照番号831、833及び835は、各々図8Aの画像シーケンスデータ811、813及び815のSVMである。質疑画像シーケンスデータ827、837の次に示されるSVM821、831が質疑画像シーケンスデータ827、837とのStatic Shape Variationによる類似度の測定値が最も高いということを意味し、右側に整列されたSVM823、825、833、835は、質疑画像シーケンスデータ827、837との類似度の測定値が相対的に低いことを意味する。図9Bの検索結果に示すように、信頼性のある検索結果を示している。

図11は、本発明の他の実施の形態に係る形状変化記述子(Dynamic Shape Variation)抽出過程を示すフローチャートである。図面に示すように、本発明の他の実施の形態に係るDynamic Shape Variation抽出過程は図1に示されたStatic Shape Variation抽出過程と類似しており、単に客体重畳過程(S1101)において差がある。

これによって、図1に示されたStatic Shape Variation抽出過程ではステップS109で、形状変化記述子(Shape Variation Descriptor)としてStatic Shape Variationが抽出されたが、図11では前記ステップS1101によりステップS109でDynamic Shape Variationが抽出されるという点に差がある。

図12は、図11の客体重畳過程を示すフローチャートである。図面に示すように図12も図4の場合と類似している。すなわち、ステップS101ないしS403までの過程によりSVMが生成される。しかし、本発明の他の実施の形態に係る図12のDynamic Shape Variation抽出過程ではSVMで客体部分(背景部分は除外)の各ピクセルに累積割り当てられている値を反転させる過程(S1201）が追加されている。

前記ステップS1201の反転は次の数式18により行われる。ここでSVMはグレイスケールが[0、GS]で正規化されていることを前提とする(GSは任意の数)。例えば、SVM生成過程のうち、前記ステップS403でインターポレーションが[0、1]のグレイスケールで行われた場合GS=1である。

図13は、SVM生成過程を説明するための図面である。図13に示されたSVM生成過程は、図7Aないし図7Cに示されたSVM生成過程と完全に同じ意味を有する。すなわち、参照番号1301は客体を背景から分離するステップ(S301)を通して生成された5個のフレームF_i'(M=5）を示しており、背景から客体が分離/抽出されている状態であることが分かる。参照番号1305は、客体2値化ステップ(S303)及び客体中心移動ステップ(S105)を通して生成された2値化画像フレームを示すものであって、1で表現される客体輪郭内部をblackで、0で表現される客体輪郭外部をwhiteで表現した時現れる2値化画像フレームを示している。

参照番号1307は、客体重複ステップ(S107)により1305の各フレームが重畳されたSVMを示している。SVM(1307）はインターポレーションステップ(S403)により各ピクセルポイントに割り当てられた累積値(0〜M(=5)）がグレイスケールに変換されている。ここで、図13のSVM1307と図7Aないし図7CのSVM707、717、727は完全に同じ意味を有するものであって、単に図13のSVM1307は後述するNSVMとの相違点を強調するため、図面上でのみ反転して表現されているだけである。図14及び図15は、SVMとNSVMの差を説明するための図面である。図面の参照番号1307及び1309は、各々異なる客体の動きを表現する画像シーケンスから生成されたSVMであり、参照番号1407及び1409は前記SVM1307、1309の各々に対して前記図11及び図12で説明した本発明の他の実施の形態によって生成されたNSVMである。SVM1307、1309及びNSVM1407、1409を比較すると、客体部分を構成する各ピクセルに割り当てられた値が前記数式18により反転されていることが分かる。しかし、背景部分を構成する各ピクセルに割り当てられた値は反転されていないことに注意すべきである。参照番号1507は、SVM1307のフレーム全体を反転させた時現れるフレームであって、NSVM1407と差があることが分かる。すなわち、参照番号1311及び1411で表現するグラフは、基準線1501でSVM1307及びNSVM1407の各ピクセルに累積割り当てられている値を示すものであって、客体部分を形成するピクセル値のみが反転されており、背景部分を形成するピクセル値は反転されていないことを示している。これに対し、参照番号1511が表現するグラフは参照番号1507のフレームに対するピクセル値を示すものであって、NSVM1407の累積値1411と差がある。

上述したように、図11ないし図15で説明した、SVMとは異なるNSVM生成過程によって、前記ステップS1101によりステップS109でDynamic Shape Variationが抽出されるという点に差があるという点を除いては、図1ないし図10Dで説明したStatic Shape Variation抽出過程及びStatic Shape Variationによる画像シーケンス検索過程は、Dynamic Shape Variation抽出過程及びDynamic Shape Variationによる画像シーケンス検索過程にも同一に適用される。単に、Dynamic Shape Variationによる類似度検索の一般式は次の数式21のように変更される。

ここで添字Qは質疑画像シーケンスを代表し、添字Dはデータベースに既格納されている画像シーケンスを代表する。

本発明の他の実施の形態によると、上述した形状変化記述子(Shape Variation Descriptor)を利用して画像シーケンス検索過程で検索効率をさらに向上させるようになる。すなわち、画像シーケンスに対する特徴量としてStatic Shape VariationまたはDynamic Shape Variationを利用する代わり、Static Shape Variation及びDynamic Shape Variationに所定の加重値(weight)を付与した後演算される算術平均値を当該画像シーケンスの新しい特徴量とし、抽出された特徴量でビデオデータベース内で類似度を計算してユーザが望む画像シーケンスデータを検索できるようになる。

この場合、類似度検索の一般式は次の数式22のようである。

本発明のさらに他の実施の形態に係る検索効率に対する実験は次のように行われた。

実験のために用いられたデータセットは、MPEG-7標準化過程で提示された80個グループと800個のデータから構成されている。総80個グループのデータセットは以下の表4に示しているように、10名を対象として20個の動作を再現した20個グループ200個のデータ、3Dアニメーションで50個の動作を具現した50個グループ500個のデータ、動く文字を表現した10個グループ100個のデータから構成されている。

前記表4のデータセットを利用して、SVM(Static Shape Variation）を用いた場合とNSVM(Dynamic Shape Variation）を用いた場合、また両方に加重値を付与して足した場合に対する検索効率を比較した。以上の条件を基準として次の四つの場合に対して実験を行った。

ケース 1:SVM(Static Shape Variation)のみを適用
ケース 2:NSVM(Dynamic Shape Variation)のみを適用
ケース 3:SVM(Static Shape Variation）とNSVM(Dynamic Shape Variation）を5対5に適用
ケース 4:SVM(Static Shape Variation）とNSVM(Dynamic Shape Variation）を3対7に適用
検索性能の定量的分析のための評価尺度にはANMRR[Chang-Duck Suh and Whoi-Yul Kim、「A New Metric to Measure the Retrieval Effectiveness for Evaluating Rank-based Retrieval Systems、」韓国放送工学会論文誌、第5巻、第1号、pp.68-81、June 2000.]が用いされた。ANMRRは0から1の間の値を有し、その値が小さいほど検索効率が良い。表5では各グループに対して求められたANMRRの平均を示す。

前記の実験によると、特徴量抽出のために物体の中心に加重値を付与した場合(ケース1)より物体の動いた部分に加重値を付与した場合(ケース2)に検索性能の向上をもたらしたことが確認でき、この２種類の方法を並行して適用した場合(ケース3、ケース4)に最適の検索性能が確認できた。

上述したような本発明の方法はプログラムで具現されてコンピュータで読み取り可能な記録媒体(CD-ROM、RAM、ROM、フロッピー（登録商標）ディスク、ハードディスク、光磁気ディスク等)に格納されることができる
なお、本発明は、上記の実施の形態として開示した範囲に限定されるものではない。本発明に係る技術的思想から逸脱しない範囲内で多くの改良、変更が可能であり、それらも本発明の技術的範囲に属する。

本発明の一実施の形態に係る形状変化記述子(Static Shape Variation)抽出過程を示すフローチャート。図1のフレーム選定過程を示すフローチャート。図1の客体抽出過程を示すフローチャート。図1の客体重畳過程を示すフローチャート。図1の記述子抽出過程を示すフローチャート。本発明の一実施の形態に係る画像シーケンス検索過程を示すフローチャート。本発明の一実施の形態によって背景から分離された客体を重畳させる過程を示す一実施の形態の例示図。本発明の一実施の形態によって背景から分離された客体を重畳させる過程を示す一実施の形態の例示図。本発明の一実施の形態によって背景から分離された客体を重畳させる過程を示す一実施の形態の例示図。本発明の一実施の形態に係る検索例を説明するための画像シーケンス図。本発明の一実施の形態に係る検索例を説明するための画像シーケンス図。本発明の一実施の形態としてART基底関数を示す図面。本発明の一実施の形態としてART基底関数を示す図面。本発明の一実施の形態としてZernikeモメント基底関数を示す図面。本発明の一実施の形態としてZernikeモメント基底関数を示す図面。本発明の一実施の形態としてZernikeモメント基底関数を示す図面。本発明の一実施の形態としてZernikeモメント基底関数を示す図面。本発明の他の実施の形態に係る形状変化記述子(Dynamic Shape Variation)抽出過程を示すフローチャート。図11の客体重畳過程を示すフローチャート。 SVM生成過程を説明するための図面。 SVMとNSVMの差を説明するための図面。 SVMとNSVMの差を説明するための図面。

Claims

複数のフレームにより客体の動きを表現する画像シーケンスデータに対する内容基盤検索のために形状変化記述子(Shape Variation Descriptor)を抽出する方法において、
画像シーケンスデータから所定個数のフレームを選ぶ第1ステップと、
前記フレームを背景から分離された客体情報のみを含むフレームに変換する第2ステップと、
前記客体を前記フレームの所定位置に整列させる第3ステップであって、前記第 2 ステップで分離された客体の中心を計算する第 11 ステップと、前記中心座標と前記フレームの中心座標とが一致するように前記客体を移動させる第 12 ステップとを含む第 3 ステップと、
前記フレームのピクセルに値を割り当て、前記各ピクセルに割り当てられた値を累積することにより、前記第3ステップにより整列された複数のフレームを重畳して、前記客体の動き情報及び形状情報を含む一つのフレーム(SVM）を生成する第4ステップと、
前記生成された一つのフレーム(SVM)を正規化するステップと、
前記正規化されたフレームに対して画像の形状変化に対する特徴量である形状記述子(Shape Descriptor)を抽出する第5ステップと
を含むことを特徴とする形状変化記述子の抽出方法。
前記第1ステップは、
前記画像シーケンスデータからN個の連続したフレームを選ぶ第6ステップを含むことを特徴とする請求項1に記載の形状変化記述子の抽出方法。
前記第1ステップは、
前記N個のフレームを所定周期Tで分けたM個のフレームを選ぶ第7ステップをさらに含むことを特徴とする請求項2に記載の形状変化記述子の抽出方法。
前記第1ステップは、
前記N個のフレームのうち、客体の動きの変化が大きいM個のフレームを選ぶ第8ステップをさらに含むことを特徴とする請求項2に記載の形状変化記述子の抽出方法。
前記第2ステップは、
前記第1ステップで選ばれたフレームに含まれた背景情報を除去する第9ステップと、
前記背景情報が除去されたフレームに含まれた画像を2値化する第10ステップと
を含むことを特徴とする請求項1に記載の形状変化記述子の抽出方法。
前記第10ステップは、
下記の数式により前記フレームのピクセルに値を割り当てることを特徴とする請求項5に記載の形状変化記述子の抽出方法。

ただし、V_i(x，y)は、前記第1ステップで選ばれたフレームのうち、i番目のフレームのピクセルに割り当てられる値である。
前記第4ステップは、
下記数式により前記各ピクセルに割り当てられた値を累積させる第13ステップを含むことを特徴とする請求項6に記載の形状変化記述子の抽出方法。

ただし、SVM(x,y)は前記第4ステップで生成されるフレーム(SVM）のピクセルに割り当てられる値である。
前記第4ステップは、
前記第13ステップで割り当てられた累積値を正規化する第14ステップをさらに含むことを特徴とする請求項4に記載の形状変化記述子の抽出方法。
前記第14ステップは、
0から1までのグレイスケールで正規化することを特徴とする請求項8に記載の形状変化記述子の抽出方法。
前記第4ステップは、
前記生成された一つのフレーム(SVM)に対して画像の大きさを正規化する第15ステップを含むことを特徴とする請求項1に記載の形状変化記述子の抽出方法。
前記第5ステップは、
下記の数式で定義されるART(Angular Radial Transform)によって前記第4ステップで生成されたフレーム(SVM)に対し形状記述子(Shape Descriptor)を抽出することを特徴とする請求項1に記載の形状変化記述子の抽出方法。

ただし、F_nmはARTのn、m次係数であり、ｆ（ρ，θ）は極座標上の画像関数であり、Vnm（ρ，θ）は円周方向の関数と半径方向の関数との積で表現されることのできる基底関数である。
前記第4ステップで生成された一つのフレーム(SVM)に対して、下記の数式によって背景部分を除外した客体部分に対してピクセル値を反転させることによってフレーム(NSVM）を生成する第16ステップと、
前記生成された一つのフレーム(NSVM)に対して形状記述子(Shape Descriptor)を抽出する第17ステップと
をさらに含むことを特徴とする請求項1に記載の形状変化記述子の抽出方法。

ただし、前記NSVM(x, y)は第4ステップで生成されるフレーム(NSVM）のピクセルに割り当てられる値であり、前記SVMは[0、GS]のグレイスケールで正規化されている。
前記第17ステップは、
下記の数式で定義されるART(Angular Radial Transform)によって前記第16ステップで生成されたフレーム(NSVM)に対し形状記述子(Shape Descriptor)を抽出することを特徴とする請求項12に記載の形状変化記述子の抽出方法。

ただし、F_nmはARTのn、m次係数であり、ｆ（ρ，θ）は極座標上の画像関数であり、V_nm（ρ，θ）は円周方向の関数と半径方向の関数との積で表現されることのできる基底関数である。
請求項1または12に記載の形状変化記述子の抽出方法によって抽出された Static Shape Variation及びDynamic Shape Variationに基づく画像シーケンスデータの検索方法において、
下記数式で定義される質疑画像とデータベースに存在する比較対象画像との類似度に基づいて画像を検索することを特徴とする画像シーケンスデータの検索方法。

ただし、Distance(Q, D)は類似度、M_ssv,Q[i]は質疑画像のi番目の特徴量(Static Shape Variation[i])、M_ssv,D[i]はデータベースに存在する比較対象画像のi番目の特徴量(Static Shape Variation[i])、M_Dsv,Q[i]は質疑画像のi番目の特徴量(Dynamic Shape Variation[i])、M_Dsv,Q[i]はデータベースに存在する比較対象画像のi番目の特徴量(Dynamic Shape Variation[i])である。
複数のフレームにより客体の動きを表現する画像シーケンスデータに対する内容基盤検索のための形状変化記述子(Shape Variation Descriptor)を抽出するために、プロセッサを備えた内容基盤検索システムにおいて、
画像シーケンスデータから所定個数のフレームを選ぶ第1の機能と、
前記フレームを背景から分離された客体情報のみを含むフレームに変換する第2の機能と、
前記客体を前記フレームの所定位置に整列させる第3の機能であって、前記第 2 の機能で分離された客体の中心を計算する第 11 の機能と、前記中心座標と前記フレームの中心座標が一致するように前記客体を移動させる第 12 の機能とを含む第 3 の機能と、
前記フレームのピクセルに値を割り当て、前記各ピクセルに割り当てられた値を累積することにより、前記第3の機能により整列された複数のフレームを重畳させて、前記客体の動き情報及び形状情報を含む一つのフレーム(SVM）を生成する第4の機能と、
前記生成された一つのフレーム(SVM) を正規化する機能と、
前記正規化されたフレームに対して画像の形状変化に対する特徴量である形状記述子(Shape Descriptor)を抽出する第5の機能と、
を実現させることを特徴とするプログラムを記録したコンピュータで読み取り可能な記録媒体。
前記第1の機能は、
前記画像シーケンスデータからN個の連続したフレームを選ぶ第6の機能を実現させることを特徴とする請求項15に記載のプログラムを記録したコンピュータで読み取り可能な記録媒体。
前記第1の機能は、
前記N個のフレームを所定周期Tで分けたM個のフレームを選ぶ第7の機能をさらに実現させることを特徴とする請求項16に記載のプログラムを記録したコンピュータで読み取り可能な記録媒体。
前記第1の機能は、
前記N個のフレームのうち、客体の動きの変化が大きいM個のフレームを選ぶ第8の機能をさらに実現させることを特徴とする請求項16に記載のプログラムを記録したコンピュータで読み取り可能な記録媒体。
前記第2機能は、
前記第1機能で選ばれたフレームに含まれた背景情報を除去する第9の機能と、
前記背景情報が除去されたフレームに含まれた画像を2値化する第10の機能と
を実現させることを特徴とする請求項15に記載のプログラムを記録したコンピュータで読み取り可能な記録媒体。
前記第10の機能は、
下記の数式により前記フレームのピクセルに値を割り当てることを特徴とする請求項19に記載のプログラムを記録したコンピュータで読み取り可能な記録媒体。

ただし、V_i(x, y)は前記第1の機能で選ばれたフレームのうち、i番目のフレームのピクセルに割り当てられる値である。
前記第4の機能は、
下記数式により前記各ピクセルに割り当てられた値を累積させる第13の機能を実現させることを特徴とする請求項20に記載のプログラムを記録したコンピュータで読み取り可能な記録媒体。

ただし、SVM(x, y)は前記第4の機能で生成されるフレーム(SVM）のピクセルに割り当てられる値である。
前記第4の機能は、
前記第13の機能で割り当てられた累積値を正規化する第14の機能をさらに実現させることを特徴とする請求項21に記載のプログラムを記録したコンピュータで読み取り可能な記録媒体。
前記第14の機能は、
0から1までのグレイスケールで正規化することを特徴とする請求項22に記載のプログラムを記録したコンピュータで読み取り可能な記録媒体。
前記第4の機能は、
前記生成された一つのフレーム(SVM)に対して画像の大きさを正規化する第15の機能を実現させることを特徴とする請求項15に記載のプログラムを記録したコンピュータで読み取り可能な記録媒体。
前記第5の機能は、
下記の数式で定義されるART(Angular Radial Transform)によって、前記第4の機能で生成されたフレーム(SVM)に対して形状記述子(Shape Descriptor)を抽出することを特徴とする請求項15に記載のプログラムを記録したコンピュータで読み取り可能な記録媒体。

ただし、F_nmはARTのn、m次係数であり、f（ρ，θ）は極座標上の画像関数であり、V_nm（ρ，θ）は円周方向の関数と半径方向の関数の積で表現されることのできる基底関数である。
前記第4の機能で生成された一つのフレーム(SVM)に対して下記の数式によって背景部分を除外した客体部分に対してピクセル値を反転させることによってフレーム(NSVM）を生成する第16の機能と、
前記生成された一つのフレーム(NSVM)に対して形状記述子(Shape Descriptor)を抽出する第17の機能と
をさらに実現させることを特徴とする請求項15に記載のプログラムを記録したコンピュータで読み取り可能な記録媒体。

ただし、NSVM(x, y)は前記第4の機能で生成されるフレーム(NSVM）のピクセルに割り当てられる値であり、前記SVMは[0、GS]のグレイスケールで正規化されている。
前記第17の機能は、
下記の数式で定義されるART(Angular Radial Transform)によって前記第16の機能で生成されたフレーム(NSVM)に対して形状記述子(Shape Descriptor)を抽出することを特徴とする請求項26に記載のプログラムを記録したコンピュータで読み取り可能な記録媒体。

ただし、F_nmはARTのn、m次係数であり、f（ρ，θ）は極座標上の画像関数であり、V_nm（ρ，θ）は円周方向の関数と半径方向の関数の積で表現されることのできる基底関数である。
請求項15または26の形状変化記述子の抽出方法によって抽出された形状変化記述子(Static Shape Variation)及び形状変化記述子(Dynamic Shape Variation)に基づく画像シーケンスデータ検索のために、プロセッサを備えた内容基盤検索システムにおいて、
下記数式で定義される質疑画像とデータベースに存在する比較対象画像の類似度に基づいて画像を検索することを特徴とするプログラムを記録したコンピュータで読み取り可能な記録媒体。

ただし、Distance(Q,D)は類似度、M_ssV,Q[i]は質疑画像のi番目の特徴量(Static Shape Variation[i])、M_ssV,D[i]はデータベースに存在する比較対象画像のi番目の特徴量(Static Shape Variation[i])、M_DsV,Q[i]は質疑画像のi番目の特徴量(Dynamic Shape Variation[i])、M_DsV,Q[i]はデータベースに存在する比較対象画像のi番目の特徴量(Dynamic Shape Variation[i])である。