JP4792471B2 - イメージシーケンスデータ検索のための情報要素抽出方法及びその方法を記録した記録媒体 - Google Patents

イメージシーケンスデータ検索のための情報要素抽出方法及びその方法を記録した記録媒体 Download PDF

Info

Publication number
JP4792471B2
JP4792471B2 JP2007553023A JP2007553023A JP4792471B2 JP 4792471 B2 JP4792471 B2 JP 4792471B2 JP 2007553023 A JP2007553023 A JP 2007553023A JP 2007553023 A JP2007553023 A JP 2007553023A JP 4792471 B2 JP4792471 B2 JP 4792471B2
Authority
JP
Japan
Prior art keywords
shape
sequence
descriptor
shape sequence
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007553023A
Other languages
English (en)
Other versions
JP2008536345A (ja
Inventor
ホイ−ユル キム
ミン−ソク チョイ
ヒュン−チュル キム
Original Assignee
インダストリー−ユニバーシティー コオペレーション ファウンデーション ハンヤン ユニバーシティー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インダストリー−ユニバーシティー コオペレーション ファウンデーション ハンヤン ユニバーシティー filed Critical インダストリー−ユニバーシティー コオペレーション ファウンデーション ハンヤン ユニバーシティー
Publication of JP2008536345A publication Critical patent/JP2008536345A/ja
Application granted granted Critical
Publication of JP4792471B2 publication Critical patent/JP4792471B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • EFIXED CONSTRUCTIONS
    • E05LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
    • E05DHINGES OR SUSPENSION DEVICES FOR DOORS, WINDOWS OR WINGS
    • E05D15/00Suspension arrangements for wings
    • E05D15/06Suspension arrangements for wings for wings sliding horizontally more or less in their own plane
    • E05D15/0621Details, e.g. suspension or supporting guides
    • E05D15/0626Details, e.g. suspension or supporting guides for wings suspended at the top
    • E05D15/063Details, e.g. suspension or supporting guides for wings suspended at the top on wheels with fixed axis
    • EFIXED CONSTRUCTIONS
    • E06DOORS, WINDOWS, SHUTTERS, OR ROLLER BLINDS IN GENERAL; LADDERS
    • E06BFIXED OR MOVABLE CLOSURES FOR OPENINGS IN BUILDINGS, VEHICLES, FENCES OR LIKE ENCLOSURES IN GENERAL, e.g. DOORS, WINDOWS, BLINDS, GATES
    • E06B3/00Window sashes, door leaves, or like elements for closing wall or like openings; Layout of fixed or moving closures, e.g. windows in wall or like openings; Features of rigidly-mounted outer frames relating to the mounting of wing frames
    • E06B3/32Arrangements of wings characterised by the manner of movement; Arrangements of movable wings in openings; Features of wings or frames relating solely to the manner of movement of the wing
    • E06B3/34Arrangements of wings characterised by the manner of movement; Arrangements of movable wings in openings; Features of wings or frames relating solely to the manner of movement of the wing with only one kind of movement
    • E06B3/42Sliding wings; Details of frames with respect to guiding
    • E06B3/46Horizontally-sliding wings
    • E06B3/4636Horizontally-sliding wings for doors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • EFIXED CONSTRUCTIONS
    • E05LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
    • E05YINDEXING SCHEME RELATING TO HINGES OR OTHER SUSPENSION DEVICES FOR DOORS, WINDOWS OR WINGS AND DEVICES FOR MOVING WINGS INTO OPEN OR CLOSED POSITION, CHECKS FOR WINGS AND WING FITTINGS NOT OTHERWISE PROVIDED FOR, CONCERNED WITH THE FUNCTIONING OF THE WING
    • E05Y2201/00Constructional elements; Accessories therefore
    • E05Y2201/60Suspension or transmission members; Accessories therefore
    • E05Y2201/622Suspension or transmission members elements
    • E05Y2201/684Rails
    • EFIXED CONSTRUCTIONS
    • E05LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
    • E05YINDEXING SCHEME RELATING TO HINGES OR OTHER SUSPENSION DEVICES FOR DOORS, WINDOWS OR WINGS AND DEVICES FOR MOVING WINGS INTO OPEN OR CLOSED POSITION, CHECKS FOR WINGS AND WING FITTINGS NOT OTHERWISE PROVIDED FOR, CONCERNED WITH THE FUNCTIONING OF THE WING
    • E05Y2201/00Constructional elements; Accessories therefore
    • E05Y2201/60Suspension or transmission members; Accessories therefore
    • E05Y2201/622Suspension or transmission members elements
    • E05Y2201/688Rollers
    • EFIXED CONSTRUCTIONS
    • E05LOCKS; KEYS; WINDOW OR DOOR FITTINGS; SAFES
    • E05YINDEXING SCHEME RELATING TO HINGES OR OTHER SUSPENSION DEVICES FOR DOORS, WINDOWS OR WINGS AND DEVICES FOR MOVING WINGS INTO OPEN OR CLOSED POSITION, CHECKS FOR WINGS AND WING FITTINGS NOT OTHERWISE PROVIDED FOR, CONCERNED WITH THE FUNCTIONING OF THE WING
    • E05Y2900/00Application of doors, windows, wings or fittings thereof
    • E05Y2900/10Application of doors, windows, wings or fittings thereof for buildings or parts thereof
    • E05Y2900/13Application of doors, windows, wings or fittings thereof for buildings or parts thereof characterised by the type of wing
    • E05Y2900/132Doors

Description

本発明は、情報要素抽出方法に関し、特にイメージシーケンスデータ検索のための情報要素抽出方法及びその方法を記録した記録媒体に関する。
デジタルカメラやカムコーダなどの撮影機器の普及に伴い、デジタルイメージ、動画データなどのようなマルチメディアデータの生成が急激に増加している。これにより、生成されたマルチメディアデータを効果的に管理、検索することがますます難しくなっている。
このような問題を解決するために、マルチメディアデータを、データ生成者が記録した注釈ではなく、マルチメディアデータの内容自体を用いて検索できるようにする研究が活発に行われている。
このような方法の一つとして、マルチメディアデータの内容型検索方法が挙げられる。この方法は、マルチメディアデータから形状、色、質感、動作などの特徴を抽出して、その特徴を記録し、記録した特徴を基準として複数のマルチメディアデータ間の類似度を判別することにより、類似の特徴をもつマルチメディアデータを検索する方法である。
上述したマルチメディアデータ検索の必要性が増大していることにより、国際標準化機構/国際電気標準会議合同技術委員会1(ISO/IEC JTC1)では、MPEG−7に関して、マルチメディアデータの内容型検索技術に対する標準を制定している。
現在、マルチメディアデータの特徴を記述するための情報要素として、形状、色相、質感、動作などの情報が用いられている。
中でも、動画データなどのようなビデオデータの検索においては、動作情報が重要な情報要素となる。ビデオデータの検索方法は、ビデオデータを構成するシーケンスが表現する客体の動作の特徴を記述する動作記述子を抽出した後、使用者が入力した問合せビデオデータと、データベースに保存されているビデオデータの動作記述子との間の類似度を測定することにより、類似のビデオデータを検索する方法である。ここで、動作記述子は、カメラの動作を記述するカメラ動作、客体が動いた経路を記述する動作経路、イメージ全体の動作を記述するパラメータ動作、イメージ動作の活動性を定量的に表現する動作活動などがある。この中で、動作記述子を用いたビデオ検索方法の効率は、動作記述子がビデオデータの特徴をどれほど忠実に記述するかにより左右される。
すなわち、ビデオデータでは客体の動作及び動作情報がその動画の内容を決める重要な要素として作用する。例えば、水泳種目における飛び込みの場面、フィギュアスケートにおける選手の回転する場面、体操競技における宙返りをする場面などの内容を決める最も重要な要素は、選手の動作及び動作情報である。
しかし、従来のMPEG−7動作記述子を用いると、客体の広域的な動作情報は表現できるが、細部的な動作の内容的分析及び表現は不可能である。例えば、人が歩いて行くことと動物が歩いて行くことは、内容的に異なるが、動作記述子だけを用いる場合、両者は区別できないという問題点があった。また、動作経路の場合、動く客体の軌跡だけを表現するので、客体の種類や動作の種類を判別できないという問題があった。また、パラメータ動作の場合、人間の動作のような非定型形状変化は表現できないという問題点があった。
上述した問題点を解決するために、従来の形状変化記述子を用いて客体の一部分だけが動くイメージシーケンスデータ、または少ない数のフレームで客体の部分的な形状変化が多い場合にも識別が可能であって利用者が所望するイメージシーケンスを正確に検索できるようにするビデオデータの検索方法を提案する。
一般的に、手を上げる、手を下げる、座る、立ち上がるなどの客体の動作を正確に区別するためには、動作の連続的な情報が必要である。しかし、従来のビデオデータの検索方法における形状変化記述子は、動作の連続的な情報を利用しないためそれぞれの動作を正確に区別することができないという問題があった。
本発明の目的は、上述した問題点を解決するために、客体の動作を表現するビデオデータを、連続した複数のイメージフレーム、すなわち、イメージシーケンスとして捕捉し、各イメージシーケンスから情報要素を抽出することにより、各ビデオデータ間の類似度の判別ができるイメージシーケンスデータ検索のための情報要素抽出方法及びその方法を記録した記録媒体を提供することにある。ここで、イメージシーケンスデータ検索のための情報要素としては、客体の経時的な形状変化情報、すなわち、客体の動作を識別するための形状シーケンス、形状シーケンス記述子などがある。
また、本発明の別の目的によれば、客体の形状変化だけではなく、客体の動作シーケンスを用いて互いに異なるそれぞれの動作を区別することができるので、ビデオデータの検索性能を向上させることができるイメージシーケンスデータ検索のための情報要素抽出方法及びその方法を記録した記録媒体を提供することができる。
複数のフレームにより客体の動作を表現するイメージシーケンスを対象とした内容型検索のために形状シーケンス記述子を抽出する方法において、
イメージシーケンスに含まれた複数の各イメージフレームを、背景から分離した客体のみを含むn(自然数)個のフレームに変換するステップと、
前記客体を用いて前記n個のフレームに対応するn個の形状記述子を抽出するステップと、
前記n個の形状記述子を時系列に並べて形状シーケンスを生成するステップと、
前記形状シーケンスを時間軸に沿って周波数変換し、周波数情報を有する複数の変換係数を取得するステップと、
前記複数の変換係数のうち、複数の低周波数領域の係数のみを用いて形状シーケンス記述子を抽出するステップと、
を含むことを特徴とする形状シーケンス記述子の抽出方法を提供し、当該形状シーケンス記述子の抽出方法を行うことができるようにするシステム、装置及び記録媒体を提供する。
上記形状シーケンス記述子の抽出方法において、上記形状シーケンスを生成するステップに先行して、上記n個の形状記述子を時間軸に沿って正規化するステップを含むことを特徴とする。
上記の形状シーケンス記述子の抽出方法は、Fnmは上記ARTのn、m次係数であって複素数であり、上記f(p,θ)は極座標上のイメージ関数であり、上記Vnm(p,θ)は円周方向の関数と半径方向の関数との積で表現できる基底関数であり、
下記の数式で定義されるART(角半径変換)により上記客体から上記形状記述子を抽出することを特徴とする。
Figure 0004792471
また、上記形状シーケンスは、上記複素数の実数部及び虚数部にそれぞれ対応するように複数生成してもよい。
上記の複数の変換係数を取得するために、上記形状シーケンスは、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、離散ウェーブレット変換(DWT)のうち少なくとも一つの方法により時間軸に沿って周波数変換されることを特徴とする。
複数のイメージシーケンス間の類似性を、上記形状シーケンス記述子の類似度計算によって判断し、上記形状シーケンス記述子の類似度計算を、Q及びSは比較しようとするそれぞれの形状シーケンス記述子を表し、Q(i,j)とS(i,j)は比較しようとする二つの連続した形状シーケンス記述子のi行目及びj列目の値である下記の数式により行うことを特徴とする。
Figure 0004792471
本発明によれば、客体の動作を表現するビデオデータを、連続した複数のイメージフレーム、すなわち、イメージシーケンスとして捕捉し、各イメージシーケンスから情報要素を抽出することにより、各ビデオデータ間の類似度の判別ができる。
また、本発明によれば、客体の形状変化だけではなく、客体の動作シーケンスを用いて互いに異なるそれぞれの動作を区別することができるので、ビデオデータの検索性能を向上させることができる。
本発明は、イメージシーケンスデータ検索のための情報要素抽出方法及びその方法を記録した記録媒体に関するもので、特に客体の動作を表現するビデオデータを、連続したイメージフレーム、すなわち、イメージシーケンスに捕捉し、各イメージシーケンスから情報要素を抽出することにより、各ビデオデータ間の類似度判別が可能なイメージシーケンスデータを検索するための情報要素抽出方法及びその方法を記録した記録媒体に関する。本発明において、イメージシーケンスデータを検索するための情報要素としては、客体の経時的な形状変化情報、すなわち、客体の動作を識別するための形状シーケンス、形状シーケンス記述子などがある。
本発明と、本発明の動作上の利点及び本発明の実施により達成される目的を充分に理解するためには、本発明の好ましい実施形態を例示する添付図及び添付図に記載した内容を参照するべきである。
以下、本発明の好ましい実施形態を、添付した図を参照して詳しく説明する。本発明を説明する上で、総合的理解を容易にするために、図番号にかかわらず同一である手段に対しては、同一の参照番号を付与する。また、以下の説明において用いる数字(例えば、第1、第2など)は、同一または類似の個体を区別するための識別手段に過ぎない。
図1は、本発明の好ましい一実施形態による、イメージシーケンスデータ検索のための情報要素の抽出方法を示すフローチャートである。図2は、本発明の好ましい一実施形態による、複数の停止イメージへの分割を例示した図である。図3は、本発明の好ましい一実施形態による、形状シーケンスの生成過程を示す図である。図4は、本発明の好ましい一実施形態による、複数の停止イメージで構成されたマルチメディアデータに対応する実数部及び虚数部の形状シーケンスを例示した図である。図5は、本発明の好ましい一実施形態による、形状シーケンス記述子の生成過程を示す図である。
図1に示した下記の過程は、情報要素抽出方法を実行するソフトウェアプログラムの形で具現してもよいし、上記方法を実行することができる情報要素抽出装置の形で具現してもよい。下記の説明を通じて、当業者は、別途の説明がなくても情報要素抽出装置の構成を容易に理解できるため、情報要素抽出装置に対する別途の説明は省略する。
図1に示したように、ステップ110で、情報要素抽出過程は、先ず入力されたマルチメディアデータ(すなわち、動画やアニメーションのような連続した停止映像の集合)を個別の停止イメージに分割することから始まる。
個別の停止イメージへの分割ステップにおいて、マルチメディアデータを複数の停止イメージに分割した状態を図2に例示する。図2に示すように、マルチメディアデータ(210a、220a、230a、240a)は、一連の連続的な動作を表示する複数の停止映像の集合(210b、220b、230b、240b)として分離する。すなわち、マルチメディアデータの各フレームを、背景から分離された客体情報のみを含むフレームに変換する。
次に、図1のステップ120で、各イメージシーケンスから形状記述子を用いた客体形状情報を抽出する。これは、停止映像であるそれぞれのフレームから客体の停止した形状を記述する特徴値を抽出して並べることにより、イメージシーケンスに含まれている客体に対する形状特徴値のシーケンスを取得する。
形状記述子は、客体動作に対する特徴量を示す記述子であって、イメージ領域のピクセルデータに基づいてイメージの形状情報を用いる。
本発明で用いる形状記述子は、マルチメディアデータに含まれている複数の個別フレームを背景から分離して客体情報のみを含むフレームに変換するステップ、及び、客体の形状情報を抽出するために客体情報から形状記述子を抽出するステップを通して抽出する。
以下では、形状記述子の一実施形態であるARTを用いて、形状記述子(すなわち、複数の形状特徴値)を抽出する方法を説明する。
ARTとは、極座標上で、単位円上に正弦関数が基底として構成された直交ユニタリー変換であり、回転不変の形状を記述することができ、直交性があるため情報の重複がない。ARTは下記の数式3のように定義する。
Figure 0004792471
ここでFnmは、ARTのn、m次係数であって複素数であり、この値の大きさだけを取ってイメージの特徴量を示すことができる。ただし、n=0、m=0である場合の値は、記述子としては使用せず、複数の各係数値を正規化するのに使用する。f(p,θ)は、極座標上のイメージ関数であり、Vnm(p,θ)は、円周方向の関数と半径方向の関数との積で表現できる基底関数であって、下記の数式4のように表現する。
Figure 0004792471
ここで、A(θ)は、ART基底関数を構成する偏角関数であり、R(p)は、ART基底関数を構成する動径関数である。回転に不変な特性を示すためには、A(θ)が下記の数式5のように表現しなくてはならない。
Figure 0004792471
ここで、A(θ)は動径基底関数であり、余弦関数と正弦関数とを用いる場合、それぞれART−CとART−Sとして表示する。
上述した数式4のR(p)は、さまざまなタイプを有し、そのタイプに応じて、下記の数式6のようにART−Cによって表現する。
Figure 0004792471
複数の個別フレームから抽出したART係数は、元のイメージにART基底関数の成分がどれほど含まれているかを表すものであり、ART係数とART基底関数との積を組み合わせれば、元のイメージを復元することができる。理論上は無限に多いART係数と基底関数との積を組み合わせることで元のイメージと完全に同一のイメージを得ることができるが、実際には20個乃至30個の情報だけを組み合せても元のイメージと誤差のほとんどないイメージを取得することができる。
そして、上記の数式3により計算されるART係数の絶対値は、次の数式7が意味する回転不変性を持つ。すなわち、元のイメージから角度a°回転させたイメージより抽出した複数のART係数間の関係は数式8の通りである。しかし、回転させたイメージ値の絶対値を取ると、下記の数式9の通り、元のイメージ値と同一になるので、結局、ARTの大きさは回転不変の特性を有することが理解できる。
Figure 0004792471
Figure 0004792471
Figure 0004792471
図3に本発明の好ましい一実施形態による形状シーケンスの生成過程を示す。図3に示すように、マルチメディアデータを構成する各停止イメージにおいて、背景から分離された複数の客体情報310に対応して、それぞれART変換され生成された1次元データである形状記述子320が生成される。形状記述子は、ART係数の大きさに対応する色相で表示(すなわち、ART係数の視覚化情報)するように構成する。
形状シーケンスは、図3に示すようにART変換された係数としての複素数の大きさだけで表示されてもよいが、図4に示すように当該個別フレームに含まれている客体情報410に対応する複素数の実数部420と虚数部430とを別個の形状シーケンスに分離して構成してもよい。
続いて図1のステップ130で、ステップ120を通じて生成した形状記述子320を用いて形状シーケンスを生成する。すなわち、上述した過程を通じて生成した複数の形状記述子320を時系列に配列することにより2次元情報の形状シーケンス330を生成する。形状シーケンス330は、複数の形状記述子320のそれぞれに決められた時間的間隔が空くようにするために時間軸に沿って正規化することにより、動作の速度とは無関係に生成される。形状シーケンス330を生成するための正規化の方法として、例えば、時間軸に沿って直線補間を行う。
次に、図1のステップ140で、形状シーケンス記述子の生成が必要かどうかを判断する。
形状シーケンス記述子の生成が必要である場合、図1のステップ150で、形状シーケンスを時系列に周波数変換して変換係数を取得する。実時間に応じて物体の動く形状を表現し、上述した過程により生成(抽出)した形状シーケンスを直接用いてマルチメディアデータの検索を行ってもよい。しかし、形状シーケンスは相対的に大きいため、検索に多少時間がかかることも考えられるので、信号の特徴をうまく表現できる変換を通じて算出した係数を用いてもよい。すなわち、抽出した形状シーケンスの各列を時間軸に沿って周波数変換した後、低周波数部分の係数のみを取って生成した形状シーケンス記述子を、物体の動く形状を表現したり、マルチメディアデータを検索するために用いてもよい。ここで、形状シーケンス記述子を生成するための周波数変換方法としては、例えば、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、離散ウェーブレット変換(DWT)などが挙げられるが、その他にも多様な周波数変換方法を用いることができる。
次に、図1のステップ160で、周波数変換された変換係数のうち、低周波数領域の一部係数のみを抽出して形状シーケンス記述子を生成する。
図5に本発明の好ましい一実施形態による形状シーケンス記述子の生成過程を示す。
すなわち、ART変換された係数としての複素数に含まれる実数部に対応した形状シーケンス420と、虚数部に対応する形状シーケンス430を、それぞれ時間軸に沿って周波数変換し、周波数変換された形状シーケンスの510及び520を生成する。
その後、周波数変換された形状シーケンスの510及び520のうち、低周波数領域のみを抽出してART変換された係数としての複素数に含まれた実数部に対応する形状シーケンス記述子530と、虚数部に対応する形状シーケンス記述子540とを生成する。
動作の認識及びマルチメディアデータの検索のために必要となる形状シーケンス記述子間の類似度の計算は、下記の数式10に示すように、二つの記述子要素の差の絶対値の和として定義できる。
Figure 0004792471
ここで、QとSとは比較しようとする形状シーケンス記述子を表し、Q(i,j)とS(i,j)は、比較しようとする二つの連続した形状シーケンス記述子のi行目(すなわち、時間軸)及びj列目(ART係数が客体に対応するように羅列された軸)の値である。
図6は、本発明の好ましい一実施形態によるマルチメディアデータから形状シーケンス記述子を生成する過程を示す図である。
以上の図1乃至図5を参照して説明した過程を、図6に一連の過程として示す。
図6に示すように、一つのマルチメディアデータを一連の個別フレーム310に分割し、個別フレーム310はそれぞれART変換により形状記述子320として生成する。
生成した形状記述子320を、時間軸に沿って正規化することにより一つの形状シーケンス330を構成し、形状シーケンス330を時間軸に沿って周波数変換を行い、周波数変換された形状シーケンス610に変換する。
その後、周波数変換された形状シーケンス610の低周波数部分のみを抽出して形状シーケンス記述子620を生成する。
動作の認識及びマルチメディアデータの検索のために必要となる形状シーケンス記述子間の類似度は、上述した数式10により算出することができ、算出値が小さいほど二つのマルチメディアデータが類似した特徴をもつと言える。
図7及び図8は、本発明と従来技術とによる客体の動作検索効率を実験するためのビデオクリップの例を示す図であり、図9は、本発明と従来技術とによる客体の動作検索効率を示す表であり、図10は、本発明と従来技術とによる客体の動作検索効率の平均性能のグラフである。図11は、本発明と従来技術とによる客体の動作検索効率の平均性能のグラフであり、図12乃至図14は、本発明と従来技術とによる客体の動作認識性能のグラフである。図15は、本発明と従来技術とによる客体の動作認識性能を示す表であり、図16は、本発明と従来技術とによる客体の動作認識の平均性能のグラフである。
図7及び図8に示した、すなわち、実験に用いたデータセットは、MPEG−7 core experiment dataset Part−Bであって、当該データセットは5人の人間による22種類の動作を描写した110個のビデオクリップで構成される。
図7及び図8に示したデータセットを用いてテンポラルテンプレートから抽出したHuモーメント、テンポラルテンプレートから抽出したART記述子、形状変化記述子及び形状シーケンス記述子を用いた客体の動作の検索効率と認識性能の比較結果を図9乃至図15に示す。ART記述子及び形状変化記述子を抽出する方法は、本出願人の先出願である大韓民国特許出願第10−2002−0034258号に詳細に記述されているので、これに対する説明は省略する。また、本出願人の先出願に記載されている技術的思想の中で、必要とする事項は本明細書に同一または類似に適用することができるため、これと重複する説明は省略する。
本発明と従来技術とによる検索効率を比較するための尺度の一つとして、NMRR(Normalized Modified Retrieval Rank)が挙げられる。認識率は次のように定義する。
認識率は、特定動作を問合せたとき、該当する動作を正確に判断できるかどうかを測定することで求める。先ず、標準動作の登録が必要である。しかし、実験データが少ないため、次の方式により認識実験をする。
先ず、一つの動作ごとに5人分のデータがあるので、1人目の動作を標準動作として登録し、残りの4人の動作を問合せ、該当する動作として正確に認識されるかどうかを求める。すなわち、1人目の22種の動作を登録した後、残り4人の動作を順に問合せて認識の可否を計算すれば、下記の数式11のように認識率を求めることができる。
Figure 0004792471
また、22種の動作すべてに関して認識率を求め、平均値を算出してもよい。
しかし、上述した実験方法だけではモデル選定に付随した誤差が発生し得るので、モデルを変更(例えば、2人目のデータを標準モデルとして登録)し、ほかの4人分を指定して問合せ、認識実験を行う。また、上述の方法でモデルをすべて変更して得られた認識率のすべてを平均した値を最終認識率として定義する。
上述の実験の結果である図9乃至図11を参照すると、本発明による形状シーケンス記述子を用いる方法が最もよい検索効率を示すことが理解できる。
また、同一方法により客体の動作認識性能を実験した結果である図12乃至図16を参照すると、本発明による形状シーケンス記述子を用いる方法が最もよい動作認識性能を示すことが理解できる。
図と発明の詳細な説明は、単に本発明の例示的なものであって、これは本発明を好適に説明するための例示に過ぎず、手段限定や特許請求の範囲に記載した本発明の範囲を制限するものではない。よって、本技術分野における通常の知識を有する者であれば、今後多様な変形及び均等な実施形態が可能であることが理解できる。また、本発明の本当の技術的保護の範囲は、添付された特許請求の範囲の技術的思想により定められるべきである。
上述したように、本発明によるイメージシーケンスデータ検索のための情報要素抽出方法及びその方法を記録した記録媒体は、客体の動作を表現するビデオデータを、連続したイメージフレーム、すなわち、イメージシーケンスとして捕捉し、各イメージシーケンスから情報要素を抽出して各ビデオデータ間の類似度を判別する。ここで、イメージシーケンスデータ検索のための情報要素としては、客体の時間に応じた形状変化情報、すなわち、客体の動作を識別するための形状シーケンス、形状シーケンス記述子などがある。
また、本発明は客体の形状変化だけでなく、客体の動作シーケンスを用いて互いに異なるそれぞれの動作を区別することができるので、ビデオデータの検索性能を向上させることができる。
本発明の好ましい一実施形態によるイメージシーケンスデータの検索のための情報要素の抽出方法を示すフローチャートである。 本発明の好ましい一実施形態による複数の停止イメージの分割状態を例示する図である。 本発明の好ましい一実施形態による形状シーケンスの生成過程を示す図である。 本発明の好ましい一実施形態による複数の停止イメージで構成したマルチメディアデータに対応する実数部及び虚数部の形状シーケンスを例示する図である。 本発明の好ましい一実施形態による形状シーケンス記述子の生成過程を示す図である。 本発明の好ましい一実施形態によるマルチメディアデータから形状シーケンス記述子を生成する過程を示す図である。 本発明と従来技術とによる客体の動作検索効率を実験するためのビデオクリップの例を示す図である。 本発明と従来技術とによる客体の動作検索効率を実験するためのビデオクリップの例を示す図である。 本発明と従来技術とによる客体の動作検索効率を示す表である。 本発明と従来技術とによる客体の動作検索効率の平均性能グラフである。 本発明と従来技術とによる客体の動作検索効率の平均性能グラフである。 本発明と従来技術とによる客体の動作認識性能グラフである。 本発明と従来技術とによる客体の動作認識性能グラフである。 本発明と従来技術とによる客体の動作認識性能グラフである。 本発明と従来技術とによる客体の動作認識性能を示す表である。 本発明と従来技術とによる客体の動作認識平均性能グラフである。

Claims (12)

  1. 複数のフレームにより客体の動作を表現するイメージシーケンスを対象とした内容型検索のために形状シーケンス記述子を抽出する方法において、
    イメージシーケンスに含まれた複数の各イメージフレームを、背景から分離した客体のみを含むn(自然数)個のフレームに変換するステップと、
    前記客体を用いて前記n個のフレームに対応するn個の形状記述子を抽出するステップと、
    前記n個の形状記述子を時系列に並べて形状シーケンスを生成するステップと、
    前記形状シーケンスを時間軸に沿って周波数変換し、周波数情報を有する複数の変換係数を取得するステップと、
    前記複数の変換係数のうち、複数の低周波数領域の係数のみを用いて形状シーケンス記述子を抽出するステップと、
    を含むことを特徴とする形状シーケンス記述子の抽出方法。
  2. 前記形状シーケンスを生成するステップに先行して、前記n個の形状記述子を時間軸に沿って正規化するステップを含むことを特徴とする、請求項1に記載の形状シーケンス記述子の抽出方法。
  3. nmはn、m次係数であって複素数であり、f(p,θ)は極座標上のイメージ関数であり、Vnm(p,θ)は円周方向の関数と半径方向の関数との積で表現できる基底関数であり、
    下記の数式に定義されるART(角半径変換)により前記客体から前記形状記述子を抽出することを特徴とする、請求項1または請求項2に記載の形状シーケンス記述子の抽出方法。
    Figure 0004792471
  4. 前記形状シーケンスは、前記複素数の実数部及び虚数部にそれぞれ対応するように複数生成することを特徴とする、請求項3に記載の形状シーケンス記述子の抽出方法。
  5. 前記形状シーケンスは、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、離散ウェーブレット変換(DWT)のうち少なくとも一つの方法により時間軸に沿って周波数変換し、前記複数の変換係数を取得することを特徴とする請求項1から請求項4までのいずれか1項に記載の形状シーケンス記述子の抽出方法。
  6. 複数のイメージシーケンス間の類似性を、前記形状シーケンス記述子の類似度計算によって判断し、
    前記形状シーケンス記述子の類似度計算を、QとSとは比較しようとするそれぞれの形状シーケンス記述子を表し、Q(i,j)とS(i,j)とは比較しようとする二つの連続した形状シーケンス記述子のi行目及びj列目の値である下記の数式により行うことを特徴とする、請求項1から請求項5までのいずれか1項に記載の形状シーケンス記述子の抽出方法。
    Figure 0004792471
  7. イメージシーケンスを対象とした内容型検索のための形状シーケンス記述子の抽出を行うために自動化装置が実行する複数の命令からなるプログラムが明確に具現されており、前記自動化装置により読取可能なプログラムを記録した記録媒体において、
    複数のフレームにより客体の動作を表現するイメージシーケンスに含まれた複数の各イメージフレームを背景から分離した客体のみを含むn(自然数)個のフレームに変換するステップと、
    前記客体を用いて前記n個のフレームに対応するn個の形状記述子を抽出するステップと、
    前記n個の形状記述子を時系列に並べて形状シーケンスを生成するステップと、
    前記形状シーケンスを時間軸に沿って周波数変換して周波数情報を有する複数の変換係数を取得するステップと、
    前記変換係数のうち、複数の低周波数領域の係数のみを用いて形状シーケンス記述子を抽出するステップと、
    を行うことを特徴とする、プログラムを記録した記録媒体。
  8. 前記形状シーケンスを生成するステップに先行して、前記n個の形状記述子を時間軸に沿って正規化するステップを含むことを特徴とする、請求項7に記載のプログラムを記録した記録媒体。
  9. nmはn、m次係数であって複素数であり、f(p,θ)は極座標上のイメージ関数であり、Vnm(p,θ)は円周方向の関数と半径方向との関数との積で表現できる基底関数であり、
    下記の数式で定義するARTにより前記客体から前記形状記述子を抽出することを特徴とする、請求項7または請求項8に記載のプログラムを記録した記録媒体。
    Figure 0004792471
  10. 前記形状シーケンスを、前記複素数の実数部及び虚数部にそれぞれ対応するように複数生成することを特徴とする、請求項9に記載のプログラムを記録した記録媒体。
  11. 前記形状シーケンスを、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、離散ウェーブレット変換(DWT)のうち少なくとも一つの方法により時間軸に沿って周波数変換し、前記複数の変換係数を取得することを特徴とする、請求項7から請求項10までのいずれか1項に記載のプログラムを記録した記録媒体。
  12. 複数のイメージシーケンス間の類似性を、前記形状シーケンス記述子の類似度計算によって判断し、前記形状シーケンス記述子の類似度計算を、QとSとは比較しようとするそれぞれの形状シーケンス記述子を表し、Q(i,j)とS(i,j)とは比較しようとする二つの連続した形状シーケンス記述子のi行目及びj列目の値である下記の数式によって行うことを特徴とする、請求項7から請求項11までのいずれか1項に記載のプログラムを記録した記録媒体。
    Figure 0004792471
JP2007553023A 2005-01-27 2005-09-27 イメージシーケンスデータ検索のための情報要素抽出方法及びその方法を記録した記録媒体 Expired - Fee Related JP4792471B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2005-0007594 2005-01-27
KR1020050007594A KR100679124B1 (ko) 2005-01-27 2005-01-27 이미지 시퀀스 데이터 검색을 위한 정보 요소 추출 방법및 그 방법을 기록한 기록매체
PCT/KR2005/003205 WO2006080654A1 (en) 2005-01-27 2005-09-27 Information parts extraction for retrieving image sequence data

Publications (2)

Publication Number Publication Date
JP2008536345A JP2008536345A (ja) 2008-09-04
JP4792471B2 true JP4792471B2 (ja) 2011-10-12

Family

ID=36740643

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007553023A Expired - Fee Related JP4792471B2 (ja) 2005-01-27 2005-09-27 イメージシーケンスデータ検索のための情報要素抽出方法及びその方法を記録した記録媒体

Country Status (5)

Country Link
US (1) US7995870B2 (ja)
JP (1) JP4792471B2 (ja)
KR (1) KR100679124B1 (ja)
CN (1) CN101116108B (ja)
WO (1) WO2006080654A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8031947B2 (en) * 2007-04-03 2011-10-04 Jacobsen Kenneth P Method and system for rapid matching of video streams
CN101420595B (zh) 2007-10-23 2012-11-21 华为技术有限公司 一种描述和捕获视频对象的方法及设备
JP4894956B2 (ja) * 2009-01-29 2012-03-14 日本電気株式会社 時間区間代表特徴ベクトル生成装置
TWI588778B (zh) * 2012-01-17 2017-06-21 國立臺灣科技大學 動作辨識方法
US9639761B2 (en) * 2014-03-10 2017-05-02 Mitsubishi Electric Research Laboratories, Inc. Method for extracting low-rank descriptors from images and videos for querying, classification, and object detection
EP3408836A1 (en) * 2016-01-29 2018-12-05 Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. Crowdshaping realistic 3d avatars with words

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001167095A (ja) * 1999-09-27 2001-06-22 Mitsubishi Electric Corp 画像検索システムおよび画像検索方法
JP2001268479A (ja) * 2000-03-16 2001-09-28 Nippon Hoso Kyokai <Nhk> 動画像検索装置
JP2002373340A (ja) * 2001-06-14 2002-12-26 Nippon Hoso Kyokai <Nhk> 動作特徴抽出法および動作認識装置ならびに動作認識プログラム
WO2003056463A1 (en) * 2001-12-31 2003-07-10 Kt Corporation Apparatus and method for abstracting motion picture shape descriptor including statistical characteristics of still picture shape descriptor, and video indexing system and method using the same

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3224514B2 (ja) * 1996-08-21 2001-10-29 シャープ株式会社 動画像符号化装置および動画像復号装置
JP4574771B2 (ja) * 1999-01-28 2010-11-04 株式会社東芝 画像情報記述方法
JP4151158B2 (ja) * 1999-06-14 2008-09-17 ソニー株式会社 シーン記述生成装置及び方法
US6654483B1 (en) * 1999-12-22 2003-11-25 Intel Corporation Motion detection using normal optical flow
JP4219805B2 (ja) * 2001-06-19 2009-02-04 フェユル キム 画像シーケンス検索のための形状変化記述子の抽出方法
JP2005517319A (ja) * 2001-06-30 2005-06-09 ケーティー・コーポレーション 客体形状情報を利用した要約画像の抽出装置及びその方法、並びにそれを利用した動画像の要約及び索引システム
AU2003256009A1 (en) * 2002-09-11 2004-04-30 Koninklijke Philips Electronics N.V. Video coding method and device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001167095A (ja) * 1999-09-27 2001-06-22 Mitsubishi Electric Corp 画像検索システムおよび画像検索方法
JP2001268479A (ja) * 2000-03-16 2001-09-28 Nippon Hoso Kyokai <Nhk> 動画像検索装置
JP2002373340A (ja) * 2001-06-14 2002-12-26 Nippon Hoso Kyokai <Nhk> 動作特徴抽出法および動作認識装置ならびに動作認識プログラム
WO2003056463A1 (en) * 2001-12-31 2003-07-10 Kt Corporation Apparatus and method for abstracting motion picture shape descriptor including statistical characteristics of still picture shape descriptor, and video indexing system and method using the same

Also Published As

Publication number Publication date
US20080031523A1 (en) 2008-02-07
JP2008536345A (ja) 2008-09-04
WO2006080654A1 (en) 2006-08-03
KR100679124B1 (ko) 2007-02-05
CN101116108B (zh) 2010-05-12
US7995870B2 (en) 2011-08-09
CN101116108A (zh) 2008-01-30
KR20060086700A (ko) 2006-08-01

Similar Documents

Publication Publication Date Title
Jegham et al. Vision-based human action recognition: An overview and real world challenges
TWI742300B (zh) 針對一感興趣的人與一使用者介接以促進影像搜尋之方法及系統
CN105100894B (zh) 面部自动标注方法及系统
Cheema et al. Action recognition by learning discriminative key poses
Ramezani et al. A review on human action analysis in videos for retrieval applications
EP2774119B1 (en) Improving image matching using motion manifolds
JP4697106B2 (ja) 画像処理装置および方法、並びにプログラム
Halit et al. Multiscale motion saliency for keyframe extraction from motion capture sequences
EP2639745A1 (en) Object identification in images or image sequences
Rallis et al. Extraction of key postures from 3D human motion data for choreography summarization
JP4792471B2 (ja) イメージシーケンスデータ検索のための情報要素抽出方法及びその方法を記録した記録媒体
Zhang et al. A large scale rgb-d dataset for action recognition
Kovač et al. Frame–based classification for cross-speed gait recognition
Hirano et al. Industry and object recognition: Applications, applied research and challenges
Gao et al. Occluded person re-identification based on feature fusion and sparse reconstruction
Al-Obaidi et al. Modeling temporal visual salience for human action recognition enabled visual anonymity preservation
Mukherjee et al. Human action and event recognition using a novel descriptor based on improved dense trajectories
Liu et al. Semantic motion concept retrieval in non-static background utilizing spatial-temporal visual information
Voronin et al. Action recognition using the 3D dense microblock difference
Protopapadakis et al. Multidimensional trajectory similarity estimation via spatial-temporal keyframe selection and signal correlation analysis
Chen et al. Action recognition using motion history image and static history image-based local binary patterns
Afifi Image retrieval based on content using color feature
EP2665018A1 (en) Object identification in images or image sequences
Blanc-Beyne et al. Unsupervised Human Pose Estimation on Depth Images
Ouanan et al. Myface: unconstrained face recognition

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110712

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110725

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140729

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees