JP2002513487A - オブジェクト指向コンテンツに基づくビデオ・サーチ用のアルゴリズム及びシステム - Google Patents

オブジェクト指向コンテンツに基づくビデオ・サーチ用のアルゴリズム及びシステム

Info

Publication number
JP2002513487A
JP2002513487A JP54837698A JP54837698A JP2002513487A JP 2002513487 A JP2002513487 A JP 2002513487A JP 54837698 A JP54837698 A JP 54837698A JP 54837698 A JP54837698 A JP 54837698A JP 2002513487 A JP2002513487 A JP 2002513487A
Authority
JP
Japan
Prior art keywords
video
information
frame
database
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP54837698A
Other languages
English (en)
Inventor
シー−フー チャン
ウィリアム チェン
ホラス ジェイ メン
ハリ サンダラム
ディ ツォン
Original Assignee
ザ トラスティーズ オブ コロンビア ユニヴァーシティ イン ザ シティ オブ ニューヨーク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ザ トラスティーズ オブ コロンビア ユニヴァーシティ イン ザ シティ オブ ニューヨーク filed Critical ザ トラスティーズ オブ コロンビア ユニヴァーシティ イン ザ シティ オブ ニューヨーク
Publication of JP2002513487A publication Critical patent/JP2002513487A/ja
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7857Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7335Graphical querying, e.g. query-by-region, query-by-sketch, query-by-trajectory, GUIs for designating a person/face/object as a query predicate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using shape
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Abstract

(57)【要約】 相互作用的なネットワークを介して1つ或はそれ以上ビデオ・クリップから1つ或はそれ以上のビデオ・オブジェクトを探し出させることをユーザに許容するオブジェクト指向方法及びシステムが開示されている。本システムは、ビデオ・クリップ用の記憶装置(111)とビデオ・オブジェクト属性のデータベースとを含む1つ或はそれ以上のサーバ・コンピュータ(110)、通信ネットワーク(120)、並びに、クライアント・コンピュータ(130)を備えている。クライアント・コンピュータは、運動軌跡情報を含んでいるビデオ・オブジェクト属性情報を指定する照会インタフェースと、前記サーバ・コンピュータ内に保存されたビデオ・オブジェクト属性をブラウズするブラウザと、相互作用的なビデオ・プレイヤーとを備えている。

Description

【発明の詳細な説明】 オブジェクト指向コンテンツに基づく ビデオ・サーチ用のアルゴリズム及びシステム 関連出願の相互参照 この出願は、1997年5月5日出願の合衆国予備出願第60/045,63 7号に関連されて、そこから優先権が主張されている。発明の背景 1.発明の分野 本発明はビジュアル(可視)情報をサーチ(調査)して検索する技術に関し、 より詳細には移動しているビジュアル情報を探し求めて検索すべくコンテンツに 基づく調査照会の使用に関する。 2.関連技術の説明 過去数年間で、インターネットは円熟期に達して、マルチメディア応用は広範 な用途にわたってきており、容易に利用可能なディジタル・ビデオ情報のストッ クは絶えず増え続けてきている。帯域幅要件を管理可能なレベルまで低減するた めに、そうしたビデオ情報は、例えばJPEG、MotionJPEG,MPEG-1 、MPEG-2、MPEG-4、H.261、或は、H.263等の標準フォーマ ットである圧縮ビットストリームの形態であるディジタル環境内に一般的には保 存又は記憶されている。現在、海及び山からスキー及び野球まであらゆるものを 表す数百万もの異なる静止画像及び動画画像がインターネットを通じて利用可能 となっている。 ディジタル・フォーマットで利用可能な増大する豊富なビデオ情報に伴って、 そうした情報を有意義に構成しサーチし尽くす必要性が差し迫ってきている。詳 細にはユーザが定義した照会に応じて、保存されたビデオ情報内に埋め込まれた ビデオ・オブジェクトの形状或は運動の特性等、自由裁量の所定規準に合致する ビデオ情報の内の特定の片々をサーチして検索できるビデオ・サーチエンジンに 基づくコンテンツをユーザは益々要望している。 この必要性に応じて、ビデオのサーチ及び検索のアプリケーションを開発する 幾つかの試みが為されてきた。現存する技術は2つの異なるカテゴリー:例示に よる照会(又は問い合わせ)(“QBE”)及びビジュアル・スケッチング(visua l sketching)に入る。 画像検索に関連して、QBEシステムの例は、QBIC、PhotoBook 、VisualSEEk、Virage、並びに、FourEyesを含み、こ の内の幾つかは、T.Minkaの"An Image Database Browserthat Learns from Use r Interaction,"MIT Media Laboratory Perceptual Computing Section,TR#365 (1996)で議論されている。これらのシステムは幾つかの非常によく似通ったもの がデータベース内になければならないという名目の下で作業する。この名目の下 で、サーチがそのデータベース自体内の要素で開始し、ユーザは所望の画像へ向 かって一連の照会例を介してガイドされていく。残念ながら、そうした「ガイド 」はユーザが連続してそのサーチをリファイン又は純化しなければならないので 、実質的な時間の浪費となる。 階層的グループ分けを先行計算(precompute)するスペース仕切り方式はデータ ベースのサーチを高速化できるが、そうしたグループ分けは静的であり、新規の ビデオがデータベース内に挿入された際に再計算(recomputation)が必要となる 。同様に、QBEは原則として伸長性であるが、ビデオ・ショット又はビデオ・ ナップショットは一般に多数のオブジェクトを含み、その各々が複雑な多次元特 徴べクトルで記載されている。その複雑性は、形状及び運動の特性を記載する問 題によって部分的に生ずる。 サーチ及び検索システムの第2カテゴリー、即ちスケッチに基づく照会システ ムは、ユーザが描いたスケッチとデータベース内の各画像のエッジ・マップとの 相関を計算してビデオ情報を探し求めるものである。Hirata et al.の"Query b y Visual Example,Content Based Image Retrieval,Advances in Database Te chnology-EDBT,"580 Lecture Noteson Computer Science(1992,A Pirotte et a l.eds.)に記載されたようなスケッチに基づく照会システムでは、スケッチとデ ータベース内の各画像のエッジ・マップとの相関を計算している。A Del Bimbo et al.の"Visual Image Retrieval by Elastic Matching of User Sketches," 19 IEEE Trans.on PAMI,121-132(1997)では、符合を達成すべくエネルギー汎 関数を最小化する技術が記載されている。C.E.Jacobs et al.の"Fast Miltir esolution Image Querying,"Proc.of SIGGRAPH,277-286,Los Angeles(Aug.1 995)では、スケッチの小波シグネチャーとデータベース内の各画像の間の距離を 計算している。 幾つかの試みがビデオ・ショットを割り出すべく為されてきたが、何れの試み もビデオ・オブジェクトのダイナミック収集としてビデオ・ショットを表してい ない。その代わりに、先行技術は、ビデオ・クリップが画像フレームの収集であ ると仮定することによって、ビデオを単純に割り出すための画像検索アルゴリズ ムを利用してきた。 特にZhan及びSmoliarによって開発された技術は、QBICで開発された技術 と共に、(カラーヒストグラムを用いることによって等の)ビデオ用の画像検索 方法を用いる。例えばQBIC方法におけるr-フレーム等の「キー・フレーム 」が各ショットが選択される。Zhang及びSmoliarの場合、キー・フレームはクリ ップから単一フレームを選択することによってビデオ・クリップから抽出される 。クリップは、ショットにおける全フレームを平均化して、その平均に最も近い クリップ内のフレームを選択することによって選ばれる。カラーヒストグラム・ サーチ等の従来の画像サーチを用いることによって、キー・フレームがビデオを 割り出すべく用いられる。 同様に、QBIC投影において、r-フレームは、代表的なフレームとして第 1フレーム等の任意フレームを取り込むことによって選択される。ビデオ・クリ ップが運動を有する場合、モザイクがかけられた表示がそのショットに対する代 表的なフレームとして用いられる。QBICはこれらr-フレームに対してそれ らの画像検索技術を再度用いてそれらのために、ビデオ・クリップを割り出して いる。 ビデオ・クリップを割り出すために、インフォメディア投影法はオーディオ・ ストリームにスピーチ認識アルゴリズムを用いてビデオのトランスクリプトを作 り出している。認識された言葉は、その言葉がはなされたビデオ・フレームに整 合させられる。ユーザはキーワード・サーチを行うことによってビデオ・クリッ プをサーチできる。しかしながら、重大な失策障壁であると証明されたスピーチ - テキスト変換は、変換アルゴリズムの精度として低く(約20%から30%)、 検索品質に対して著しい衝撃である。 上述の先行技術は、自由裁量の所定規準に合致するビデオ情報の特定の片々を サーチして検索できるビデオ・サーチエンジンに基づく効果的なコンテンツに対 する増大している必要性を満たし損なっている。この技術は運動ビデオ情報をサ ーチできないか、或は、そうした情報をパン撮りまたはズーミング等の汎用パラ メータに関してのみでサーチできるかの何れかである。同様に先行技術は、空間 及び時間の特性(時空間特性)に基づくビデオ情報を検索する技術を説明し損な っている。こうして、上述の現行の技術は、ユーザが定義した照会に応じて、保 存されたビデオ情報内に埋め込まれたビデオ・オブジェクトの形状或は運動の特 性等、自由裁量の所定規準に合致するビデオ情報の内の特定の片々をサーチして 検索できない。発明の概要 本発明の目的は、ビデオ・サーチエンジンに基づいて真のコンテンツを提供す ることである。 本発明の更なる目的は、ビデオ情報内に埋め込まれたビデオ・オブジェクトを サーチして検索できるサーチエンジンを提供することである。 本発明の別の目的は、ユーザの調査照会に最もよく符合するオブジェクトのみ が検索されることになるように、同定されたビデオ・オブジェクトを濾過するメ カニズムを提供することである。 本発明の更に別の目的は、ユーザが定義した照会に応じて、自由裁量の所定規 準に合致するビデオ情報の内の特定の片々をサーチして検索できるビデオ・サー チエンジンを提供することである。 また本発明の更なる目的は、運動、色彩(カラー)、並びに、エッジ情報を含 むビデオ・オブジェクトの統合された特徴特性に基づくビデオ情報から、ビデオ ・オブジェクトを抽出できるサーチエンジンを提供することである。 これらの目的や、以下の詳述される更なる開示を参照して明らかとなる他の目 的を満たすために、本発明は、ユーザに、相互作用的なネットワークにわたって 、ビデオ・データから成る1つ或はそれ以上の一連のフレームからビデオ・オブジ ェ クトをサーチさせ検索させることを許容するシステムを提供する。このシステム は、有益には、ビデオ・オブジェクト属性の1つ或はそれ以上のデータベースの ための記憶装置と、該ビデオ・オブジェクト属性が対応するビデオ・データから 成る1つ或はそれ以上連続するフレームのための記憶装置とを含む1つ或はそれ 以上のサーバ・コンピュータ、サーバ・コンピュータからビデオ・データから成 る1つ或はそれ以上連続するフレームの伝送を許容する通信ネットワーク、並び に、クライアント・コンピュータを含む。クライアント・コンピュータは、運動 軌跡情報を含む選択されたビデオ・オブジェクト属性情報を受け取る照会インタ フェースと、前記選択されたビデオ・オブジェクト属性情報を受け取り、前記サ ーバ・コンピュータ内の保存されたビデオ・オブジェクト属性を通信ネットワー クによって閲覧又はブラウズして、前記選択されたビデオ・オブジェクト属性に 所定閾値内で符合する属性を有する1つ或はそれ以上のビデオ・オブジェクトを 決定するブラウザ・インタフェースと、前記サーバ・コンピュータから伝送され た、前記決定された1つ或はそれ以上のビデオ・オブジェクトに対応する1つ或 はそれ以上のビデオ・データから成る連続フレームを受け取る相互作用ビデオ・ プレイヤーとを収容している。 好適な構成において、サーバ・コンピュータに保存されたデータベースは、運 動軌跡データベース、時空間データベース、形状データベース、色彩データベー ス、並びに、質感(テクスチュア)データベースを含む。前記ビデオ・データか ら成る1つ或はそれ以上の連続フレームは、MPEG-1或はMPEG-2等の圧 縮フォーマットでサーバ・コンピュータに保存され得る。 また本システムは、各選択ビデオ・オブジェクト属性をサーバ・コンピュータ 内に保存された対応するビデオ・オブジェクト属性と比較して、各ビデオ・オブ ジェクト属性に対して1つというように、候補ビデオの連続(候補ビデオ・シー ケンス)から成るリストを作成するようなメカニズムを含むこともできる。同様 に、前記候補リストに基づいて、前記選択されたビデオ・オブジェクト属性に所 定閾値内で符合する集合的な属性を有する1つ或はそれ以上のビデオ・オブジェ クトを決定するメカニズムが、有益的に提供される。またこのシステムは、ビデ オ・クリップ内のビデオ・オブジェクト投影のグループに対して、問い合わせ又 は照会における多数のオブジェクト間の空間及び時間の関係(時空間関係)を符 合させるメカニズムをも含む。 本発明の第2局面に従えば、少なくとも1つの認識可能な属性を含むビデオ・ データから成る連続フレームからビデオ・オブジェクトを抽出する方法が提供さ れる。この方法は、値を決定して、ビデオ・データによって表される少なくとも 1つの属性の異なる変形各々にそれら値を割り当てることによって、ビデオ・デ ータから成る現行フレームを量子化して、量子化フレーム情報を生成し、前記属 性に基づいて、前記ビデオ・データから成るフレーム上のエッジ検出を実行して 、該フレーム内のエッジ点を決定することによって、エッジ情報を生成し、先行 するフレームからビデオ情報の1つ或はそれ以上の区分された領域を受け取り、 前記受け取られた区分領域を、前記量子化されたフレーム情報及び前記生成され たエッジ情報と比較することによって、前記属性を共有しているビデオ情報の領 域を抽出することを要求するものである。 好ましくは、前記抽出するステップは、前記受け取られた領域の内の1つを現 行の量子化され、エッジ検出されたフレーム上に投影して、前記領域の任意の移 動を時間的に追跡することによって、ビデオ・データから成る現行フレーム内の 前記領域を抽出すべくインターフレーム(フレーム相互間の)投影を実行するこ とと、特定の条件下で隣接する抽出領域を現行フレーム内にマージ(merge)又は 併合すべくイントラフレーム(フレーム内の)区分を実行することとから成る。 この抽出ステップは、隣接領域にイントラフレーム区分した後に残留する現行フ レーム内の全てのエッジにラベル表示することをも含むことができて、各ラベル 表示されたエッジが現行フレーム内のビデオ・オブジェクトの境界を画成するよ うにしている。 特別好適な技術において、ビデオ情報の将来フレームをも受け取られて、ビデ オ情報から成る現行フレームの光学的フローが、現行フレーム内のビデオ情報か ら成るブロックと、将来フレーム内のビデオ情報から成るブロックとの間の階層 的ブロック突き合わせを実行することによって決定され、そして、ビデオ情報の 抽出領域上での運動推定又は運動見積が、光学的フローに基づいて、擬似(アフ ィン)マトリックスを決定することによって実行される。ビデオ情報の抽出領域 は サイズ及び時間的継続時間に基づくと共に、各領域の擬似モデルに基づいてグル ープ分けされ得る。 本発明の更に別の局面では、1つ或はそれ以上のビデオ・クリップを含むビデ オ・データから成るフレームの連続から、ユーザ入力調査照会に最も符合するビ デオ・クリップを探し出す方法であり、所定軌跡内で時間的に移動しているビデ オ・オブジェクトを含んでいるようなビデオ・クリップを探し出す方法が提供さ れる。この方法は、少なくとも1つのビデオ・オブジェクト軌跡を規定する調査 照会を受け取り、その受け取られた照会と、1つ或はそれ以上の予め規定された ビデオ・オブジェクト軌跡の内の少なくとも一部との間の合計距離を決定し、前 記受け取られた照会から最小の合計距離を有する前記規定されたビデオ・オブジ ェクト軌跡の内の1つ或はそれ以上を選択して、最もよく符合するビデオ・クリ ップ或は複数のビデオ・クリップを探し出すことを含む。 調査照会及び予め規定されたビデオ・オブジェクト軌跡の双方は正規化され得 る。照会正規化ステップは前記受け取られた照会を各正規化ビデオ・クリップへ マッピングすることと、前記受け取られマッピングされた照会を前記正規化ビデ オ・クリップで規定された各ビデオ・オブジェクト軌跡にまで増倍することとを 好ましくは伴う。決定ステップは空間的距離比較か、或は、時空間的距離比較か の何れかによって実現される。 本発明の更なる他の局面において、所定特性をそれぞれが有する1つ或はそれ 以上のビデオ・オブジェクトをそれぞれが含む1つ或はそれ以上のビデオ・クリッ プから、ユーザ入力調査照会に最もよく符合するビデオ・クリップを探し出す方 法が提供される。この方法は、ビデオ・クリップ内の1つ或はそれ以上の異なる ビデオ・オブジェクトに対して1つ或はそれ以上の特性を規定する調査照会を受 け取り、前記規定された特性の内の少なくとも1つを、所定閾値に符合させるビ デオ・オブジェクトを探し出すために、ビデオ・クリップをサーチ又は調査し、 前記探し出されたビデオ・オブジェクトから、前記1つ或はそれ以上の異なるビ デオ・オブジェクトを含むビデオ・クリップを決定し、前記調査照会で規定され た前記1つ或はそれ以上のビデオ・オブジェクトと、前記探し出されたビデオ・ オブジェクトとの間の距離を計算することによって、前記決定されたビデオ・ク リップから最も符合するビデオ・クリップを決定することを含む。これらの特性 としては、色彩、質感、運動、サイズ、或は、形状を含み得る。 非常に好適な構成において、ビデオ・クリップは関連されたテキスト情報を含 み、調査照会は前記1つ或はそれ以上の異なるビデオ・オブジェクトに対応して いるテキスト特性の定義を更に含み、本方法は、そのテキスト特性に符合するテ キストを探し出すために前記関連されたテキスト情報を調査するステップを更に 含む。次いで、最も符合されたビデオ・クリップは前記決定されたビデオ・クリ ップ及び前記探し出されたテキストから決定される。 この開示に合体させられると共にその一部を構成する添付図面は、本発明の好 適実施例を図示し、本発明の原理を説明する役割を果たす。図面の簡単な説明 本発明の例示的実施例が、以下、添付図面を参照して詳細に説明される。 図1は、本発明の一局面に従ったビデオ情報をサーチして検索するシステムの 概略図であり、 図2は、図1のシステムにおいて有用な照会インタフェースの例示図であり、 図3は、図1のシステムにおいて実行されるビデオ・オブジェクトのサーチ方 法の例示図であり、 図4は、本発明の一局面に従ったビデオ情報の連続フレームからビデオ・オブ ジェクトを抽出するための方法のフローチャートであり、 図5は、図4に示された方法に有用な、領域投影及びインターフレーム・ラベ ル表示の好適方法のフローチャートであり、 図6は、図4に示された方法に有用なイントラフレーム領域併合の好適方法の フローチャートであり、 図7は、図1のシステムにおいて実行される代替的なビデオ・オブジェクト・ サーチ方法の例示図である。詳細な説明 図1で参照されるように、ユーザが定義した照会に応じて、保存されたビデオ 情報内に埋め込まれたビデオ・オブジェクトの形状或は運動の特性等、自由裁量 の所定規準に合致するビデオ情報の内の特定の片々をサーチして検索するシステ ムの例示的実施例が提供されている。このシステム100のアーキテクチャは、 サーバ・コンピュータ110、通信ネットワーク120、並びに、クライアント ・コンピュータ130の3つの構成要素で広範に構成されている。 サーバ・コンピュータ110は、ビデオ・オブジェクト及びビジュアル特徴に 対するメタデータを保存するデータベース111を、オリジナルのオーディオビ ジュアル情報と抽出されたビデオ・オブジェクト及びビジュアル特徴に関連され た任意の関連質感情報とを保存する記憶サブシステム112と共に含む。通信ネ ットワーク120はインターネット或は広帯域ネットワークに基づかせることが できる。よって、図1では1つのコンピュータとして示されているが、サーバ・ コンピュータ110はワールドワイドウェブ中に分散された複数のコンピュータ であることが可能であり、それら全てが通信ネットワーク120を介してクライ アント・コンピュータ130と通信出来る。 クライアント・コンピュータ130は、キーボード131、マウス132、並 びに、モニタ133を含み、それらが集まって照会インタフェース及びブラウザ ・インタフェースの双方を形成して、ユーザが該コンピュータ130内へ調査照 会を入力して、オーディオビジュアル情報を求めてネットワーク100をブラウ ズ(閲覧)することを許容している。図1に示されていないが、ライトペン及びタ ッチスクリーン等の他の照会入力装置もこのクライアント・コンピュータ130 内へ容易に組み入れることが可能である。モニタ133はネットワーク120を 介してサーバ・コンピュータ110から検索されたビジュアル情報を表示すべく 使用されると共に、コンピュータ110のユーザによって入力された調査照会を 示すべく使用される。そうした情報は好ましくは圧縮フォーマット、例えばMP EG-2ビットストリームとして検索されるので、コンピュータ130は適切な 市販ハードウェア或はソフトウェア、例えばMPEG-2デコーダを含み、検索 された情報を表示可能なフォーマットに圧縮解除又は解凍する。 キーボード131、マウス132等々を用いて、ユーザはコンピュータ130 に調査照会を入力して、ビデオ情報のクリップ内に埋め込まれた1つ或はそれ以 上のビデオ・オブジェクトの1つ或はそれ以上の調査可能(又は検索可能)な属 性を指定する。よって、例えば、もしユーザが特定の軌跡で移動した野球ボール を含むビデオ・クリップを探し出すことを欲したならば、ユーザはその照会内に 含まれるべきオブジェクトの運動134をスケッチして、サイズ、形状、色彩( カラー)、並びに、質感等の追加的で調査可能な属性を選択できる。例示的な照 会インタフェースが図2に示されている。 ここで使用されているように、「ビデオ・クリップ」は、限定するものではな いが例えば、バットをスイングする野球選手、海を渡って移動するサーフボード 、或は、草原地帯を越えて走行する馬等々の、同定可能な属性を有する1つ或は それ以上のビデオ・オブジェクトを含むビデオ情報から成る連続フレーム(フレ ーム・シーケンス)を言及するものである。「ビデオ・オブジェクト」は、例え ば、質感、色彩、運動、並びに、形状等の対象の1つ或はそれ以上の特徴におい て均質である複数ピクセルから成る切れ目のない連続した集合である。こうして ビデオ・オブジェクトは、少なくとも1つの特徴に関して一貫性を示す1つ或は それ以上のビデオ領域によって形成される。例えば歩行する人の(スナップ)シ ョット(人とはここでの「オブジェクト」)は区分されて、形状、色彩、並びに 、質感等の規準に関して異なる隣接領域であるが、それらの運動属性に関しては 全てが一貫性を示し得る隣接領域の集まりとなる。 図3を参照すると、調査照会300は、色彩301、質感302、運動303 、形状304、形状304、サイズ305、並びに、所望のビデオ・オブジェク トのパン撮り及びズーム等の汎用パラメータ等の他の属性を含み得る。各属性の 相対的な重要性を示す様々な重みも調査照会306に組み入れることができる。 調査照会を受けるに及んで、コンピュータ130内のブラウザは、ネットワーク 120を介して、サーバ・コンピュータ110のデータベース111内に保存さ れた同様属性を探し求めることになる。サーバ110は幾つかの特徴データベー スを含んでおり、即ち、システムが索引を付ける個々別々の特徴各々に対して1 つずつのデータベースであり、例えば、色彩データベース311、質感データベ ース312、運動データベース313、形状データベース314、並びに、サイ ズ・データベース315である。各データベースは、記憶装置112内に圧縮M PEGビットストリームとして保存されたオリジナルのビデオ情報に関連されて いる。勿論、他の圧縮フォーマット或は圧縮データが使用可能である。 サーバにおいて、照会された属性の各々は保存された属性と比較されることに なり、その詳細な説明は以下に続く。こうして、照会された色彩301は色彩デ ータベース311と突き合わせられ(321)、質感との突き合わせ(322) 、運動との突き合わせ(323)、形状との突き合わせ(324)、サイズとの 突き合わせ(325)、そして他の任意の属性も同様に行われる。候補ビデオ・シ ョットのリストがその照会で指定された各オブジェクトに対して生成され、例え ば、色彩オブジェクト・リスト331、質感オブジェクト・リスト332、運動 オブジェクト・リスト333、形状オブジェクト・リスト334、並びに、サイ ズ・オブジェクト・リスト335が生成される。サーバ・コンピュータ110に おいて、各リストは予備選択されたランク閾値或は特徴距離閾値と併合され得て 、最も可能性のある候補ショットのみが残存するようになる。 次に所定の最小閾値で、各オブジェクトの候補リストが併合されて(350) 、単一のビデオ・ショット・リストを形成する。併合プロセスは生成された候補 リスト331,332,333,334,335の各々の比較を伴って、全ての 候補リストに現れないビデオ・オブジェクトが排除される。このスクリーニング 後に残る候補ビデオ・オブジェクトが、次いで、照会された属性からのそれらの 相対的な汎用重み距離に基づいてソート又は分類される。最後に、所定の個々別 々の閾値に基づくと共に、好ましくは照会306で入力されたユーザ定義重みに よって変更された汎用閾値が用いられて、オブジェクト・リストが剪定されて、 最も符合する候補又は複数候補となる。当方の好適な汎用閾値は0.4である。 併合リスト内のこれらビデオ・ショットの各々に対して、キー・フレームがビ デオ・ショット・データベースから動的に抽出されて、ネットワーク120を介 してクライアント130側へ戻される。もしユーザがその結果に満足すれば、そ のキー・フレームに対応するビデオ・ショットがビデオ・データベースからその ビデオ・ショットを「切り取り」出すことによって該ビデオ・データベースから リアルタイムで抽出され得る。ビデオ・ショットはビデオ・データベースから、 その開示がそれを引用することでここに合体されるChang et al.のPCT特許 出願第PCT/US97/08266号(1997年5月16日出願)に記載された技術等の圧 縮領域におけるビデオ編集方式を用いて抽出される。 当業者であればご理解いただけるように、図3の突き合わせ技術はオブジェク ト・レベル或は領域レベルで実行可能である。 図1に関連してここで説明されるシステムに用いられる様々な技術を次に説明 する。有意義な調査照会を為すために、クライアント・コンピュータ130は探 し出されるべき属性を制限するか或は量子化することができる。こうして、色彩 に関して、許容可能な各種色彩の集合がHSV色彩スペースを均一に量子化する が、勿論、特定の色彩が現在のコンピュータでは許容されているように既に量子 化されている真の色彩の使用が好ましい。 質感に関しては、周知のMIT質感データベースが各種オブジェクトに対して 質感属性を割り当てるべく使用可能である。よってユーザは、そのデータベース 内の56の利用可能な質感から調査照会を形成すべく選択しなければならない。 勿論、他の質感集合が容易に使用可能である。 ビデオ・オブジェクトの形状は、任意の形状及びサイズの各種卵形を伴う任意 の多角形(ポリゴン)であり得る。よってユーザはカーソルの補助で任意の多角 形をスケッチでき、円形、楕円、並びに、矩形等の他の周知の形状は予め定義さ れて、容易に挿入及び操作される。照会インタフェースはこの形状を、その形状 を正確に表している数の集合に翻訳することになる。例えば、円形は中心点及び 半径によって表され、楕円形は2つの焦点と距離で表される。 運動に関しては、2つの代替モードが利用可能である。第1として、サーチは ビデオ・オブジェクト内のピクセルから成る光学的フローから引き出されるよう なビデオ・オブジェクトの感知される運動に基づかせることができる。光学的フ ローは、汎用運動(即ち、カメラ運動)及びロ一カル運動(即ち、オブジェクト 運動)双方の組み合わせ効果である。例えば、もしカメラが車の運動を追跡して いれば、その車はビデオ・シーケンスでは静止しているように見える。 第2として、サーチはビデオ・オブジェクトの「真」の運動に基づかせること ができる。この真の運動は、汎用運動が圧縮された後のオブジェクトのローカル 運動を言及するものである。移動している車の場合、その車の真の運動はカード ライビングの実際の物理的運動である。 支配的な背景シーンの汎用運動は周知の6パラメータの擬似モデルを用いて推 定することができる一方で、階層的なピクセル領域運動推定方法は光学的フロー を抽出するために使用される。汎用運動の擬似モデルが用いられて、同一シーン における全てのオブジェクトの汎用運動成分を補償する。以下はその6パラメー タ・モデルである。 dx=a0 (1) dy=a3 (2) ここで、aiは擬似パラメータであり、x,yは座標であり、dx,dyは各ピ クセルでの変位又は光学的フローである。 例えば、ズーム、パン、或は、チルト(傾斜)等の汎用カメラ運動の分類は汎 用擬似推定に基づいている。パン撮りの検出のため、汎用運動速度場のヒストグ ラムは、当業者であればご理解いただけるように、8方向で計算される。もし支 配的な数の移動ピクセルを伴う一方向が存在すれば、その方向へのカメラのパン が宣言される。カメラのズーミングは汎用運動速度場の平均的な大きさと上記擬 似モデルにおける2つのスケーリング(増倍)・パラメータ(a1及びa5)とを 試験することによって検出される。充分な運動があり(即ち、平均的な大きさが 所与の閾値以上であり)、a1及びa5が双方ともに正であり且つ特定の閾値を上 回れば、カメラのズームインが宣言される。さもなければ、もしa1及びa5が双 方ともに負であり且つ特定値を下回れば、カメラのズームアウトが宣言される。 そうした情報は調査照会に含ませることができて、カメラのパン或はズームの有 無を示すことになる。 調査は1つ或はそれ以上のビデオ・オブジェクトに関する時間的な情報をも含 むことができる。そうした情報はオブジェクトの全体的な継続時間を、相対期間 の長い或は短いか、或は、絶対期間の秒単位かの何れかで定義し得る。多数のオ ブジェクト照会の場合、ユーザは、そのシーンにおける様々なオブジェクトの「 到着」順序、及び/或は、デッド順序、即ちビデオ・オブジェクトがそのビデオ ・クリップから消失する順序を指定することによって全体的なシーンの時間的順 序を指定する柔軟性が付与され得る。時間に関する他の有用な属性は倍率又はオ ブジェクトのサイズが該オブジェクト存続の継続期間にわたって変化する率であ る。同様に加速度が調査用に適合する属性であり得る。 調査すべくブラウザに対しての実際の照会を形成する前に、様々な属性に重み を付けることができて、その照会においてそれらの相対的重要性を反映させる。 特徴の重み付けは全体に動画化されたスケッチに汎用的であり得て、例えば、属 性の色彩は全オブジェクトにわたって同一重みを有することができる。システム によって戻されたビデオ・ショットの最終ランクは、ユーザが様々な属性に割り 当てた重みによって影響される。 図4を参照しながら、ビデオ・クリップからビデオ・オブジェクトを抽出する 技術を以下に説明する。現行フレームn401を含んで、圧縮ビデオ情報400 から成る連続するフレームで形成されるビデオ・クリップは、図4で例証的に分 析されている。 任意のビデオ・オブジェクト抽出に先行して、生ビデオはビデオ・クリップ4 00等の複数ビデオ・クリップに分けられる。ビデオ・クリップ分割は、上述の Chang et al.のPCT特許出願第PCT/US97/08266号に記載されたようなシーン 変化検出アルゴリズムによって達成され得る。Chang et al.は、MPEGビッ トストリームからのDiscrete Cosine Transform係数を用いて統計的測定を計算 すべく、突然及び変遷(例えば、ディゾルブ、フェード・イン/アウト、ワイプ )シーン変化の双方を圧縮MPEG-1或はMPEG-2ビットストリームで検出 する技術を説明している。次いでこれら測定値は、突然或は変遷シーン変化の試 行錯誤的なモデルを認証すべく使用される。 ビデオ・オブジェクトを区分して跡をたどるために、「画像領域」の概念が利 用される。画像領域は一貫した特徴、例えば色彩、質感、或は、運動等を伴うピ クセルから成る隣接領域であり、車、人、或は、家等の物理的オブジェクトの一 部に一般的に対応することになる。ビデオ・オブジェクトは、連続的フレームに おける追跡された画像領域の連続物から構成される。 図4に示される技術は、ビデオ・ショットにおける、エッジ及び運動情報等の 静的属性を考慮することによってビデオ・オブジェクトを区分して追跡している 。現行フレームn401は、好ましくは、これから説明される投影及び区分技術 430及び運動推定技術440の双方で用いられる。 投影及び区分に先行して、情報は一貫性ある結果を達成するために2つの異な る方法で予め処理される。平行して、現行フレームnはその情報に対して1つ或 はそれ以上の認識可能な属性に基づいて量子化(410)されると共に、エッジ・ マップ420を生成すべく使用される。以下に説明されるように当方の好適な具 現化では、色彩がその属性として選択され、それは変化する条件下でのその一貫 性が故である。しかしながら、情報の他の属性、例えば質感等も同様に、当業者 にはご理解いただけるように、投影及び区分プロセスに対する基礎を形成し得る ことにある。 図4に示されるように、現行フレーム(即ちフレームn)は知覚的で均一な色 彩スペース、例えばCIE L*u*v*スペース内に変換される(411)。RGB等の 非均一色彩スペースは、それらスペースにおける距離測定は知覚的な相違と比例 しないので、色彩区分に対して適合しない。CIE L*u*v*色彩スペースは色彩を1 つの輝度チャネルと2つのクロミナンス・チャネルとに分割して、それら輝度及 びクロミナンスに付与される重みの変化を許容している。これは非常に重要な選 択肢であって、ユーザに所与のビデオ・ショットの特性に従って異なる重みを割 り当てる能力を許容している。事実、クロミナンス・チャネルにより大きい重み 、例えば2倍以上の重みを割り当てることは一般的により良好である。 L*u*v*色彩スペースに変換された情報は、次いで、適応性をもって量子化され る(412)。好ましくは、周知のK-Means或はSelf Organization Map clusterin g algorithms等の量子化技術に基づくクラスタリングが用いられて、L*u*v*スペ ース内の実際のビデオ・データから量子化パレットを作り出す。より共通化され た固定レベル量子化技術も使用可能である。 適応性ある量子化412の後、非線形メジアン・フィルタリング413が好ま しくは使用されて、重要ではない細目や画像内の離れ値力梢リ除される一方で、 エッジ情報が保存されている。量子化及びメジアン・フィルタリング(又は中央 値濾過処理)は、こうして、可能性あるノイズを小さな細目と共に排除すること によって画像を簡略化する。 量子化410と同時に、エッジ検出アルゴリズムを用いてフレームnのエッジ ・マップが生成される(420)。エッジ・マップは二進法マスクであり、そこ でエッジ・ピクセルが1にセットされ且つ非エッジ・ピクセルが0にセットさ れる。それは周知のCannyエッジ検出アルゴリズムを介して生成され、そのアル ゴリズムは画像上で2D(二次元)ガウス予備平滑化を実行して、水平方向及び 垂直方向の方向導関数をとる。次いでこれら導関数が用いられて勾配が計算され 、ローカル勾配最大値が候補エッジ・ピクセルとして取られる。この出力は2レ ベル閾値合成プロセスを通じて走らされて、最終エッジ・マップを作り出す。単 純なアルゴリズムが利用可能であって、合成プロセスにおけるそれら2つの閾値 レベルをその勾配のヒストグラムに基づいて自動的に選択する。 量子化属性情報及びエッジ・マップの双方が投影及び区分ステップ430で利 用されて、そこで色彩等の一貫した属性を有する領域が融合される。投影及び区 分は、好ましくは、インターフレーム投影431、イントラフレーム投影432 、エッジ点ラベル表示432、並びに、簡略化433の4つのサブステップから 構成されている。 インターフレーム投影ステップ431は、図4でのフレームn−1である先行 フレームから決定された先行して区分された領域を投影して追跡する。図5で参 照される擬似投影ステップ510において、以下に説明されるように、フレーム n−1から存続している領域がそれらの擬似パラメータに従って先ずフレームn に投影される。もし現行フレームがその連続における第1フレームであれば、こ のステップは単にスキップされる。次に、変更されたピクセル・ラベル表示プロ セス520が適用される。フレームnにおける非エッジ・ピクセル毎に、もしそ れが投影領域で覆われて、ピクセルの色彩と領域の平均色彩との間の重みが付け られたユークリッド距離、ここでは、WL=1,Wu=2,Wv=2がデフォル ト重みであるユークリッド距離が所与の閾値、例えば256以下であれば、ピク セルが旧領域と一貫したラベル表示が為される。もしピクセルがその所与の閾値 以下の2つ以上の投影領域で覆われていれば、最も近い距離の領域としてラベル 表示される。しかしながら、もし領域その条件を何等満足しなければ、新規のラ ベルがそのピクセルに割り当てられる。留意することは、エッジ・ピクセルが処 理されず、それ故にこの時点でラベル表示されないことである。最後に、接続グ ラフ530が全てのラベル間、即ち領域間で構築され、即ち、一方の領域におけ るピクセルが他方の領域内に隣接するピクセルを有すれば(4接続モード)、そ れら2つの領域が隣接するものとしてリンクされる。 イントラフレーム投影ステップ432において、先の追跡された新規のラベル 表示(領域)がより大きな領域に併合される。図6で参照されるように、反復的 な空間的閉じ込めクラスタリング・アルゴリズム610が利用され、そこで所与 の閾値よりも小さな色彩距離、好ましくは225を有する2つの隣接する領域が 、それら2つの隣接領域間の色彩距離がその閾値よりも大きくなるまで1つの新 規領域620に併合される。もし新規領域が2つの隣接領域から生成されると、 その平均色彩がそれら2つの旧領域の平均色彩の重みが付けられた平均を取るこ とによって計算され(630)、それら2つの旧領域のサイズが重量として使用 される。次いで領域接続が2つの旧領域の隣接物全てに対して更新される(64 0)。次いで新規領域は2つの旧領域のラベルから1つのラベルが割り当てられ (650)、もし双方旧ラベルが先行するフレームからの跡を追っているのであ れば、より大きな領域のラベルが選択され、もし一方のラベルが跡を追っていて 、他方がそうでなければ跡を追ったラベルが選ばれ、さもなければより大きな領 域のラベルが選択される。2つの旧領域が捨てられ(660)、新規領域が何等 決定されなくなるまで(670)、このプロセスは繰り返される。 図4に戻ると、エッジ点が領域境界の正確性を確保すべく色彩測定に従ったそ れらの隣接領域に割り当てられる(433)。先に議論されたインターフレーム 及びイントラフレーム区分プロセスの双方において、非ピクセル・エッジのみが 処理されラベル表示される。エッジ・ピクセルは任意の領域に併合されない。こ れが保証することは、長いエッジによって明らかに分離された領域が空間的に接 続されず、それ故に相互に併合され得ないことである。非エッジ・ピクセルの全 てのラベル表示の後、同一色彩距離測定に従ってエッジ・ピクセルにそれらの隣 接領域に割り当てられる。上述の接続グラフはラベル表示プロセス中に更新され 得る。 最後に、簡略化プロセス434が小さな領域、即ち所与数のピクセル以下を伴 う領域を削除すべく適用される。その閾値パラメータは画像のフレーム・サイズ に準拠している。QCIFサイズ(176×120)画像の場合、好ましいデフォル ト値は50である。もし小領域がその隣接領域の内の1つに接近すれば、即ち色 彩距離が色彩閾値以下であれば、その小領域が隣接領域と併合される。さもなけ ればその小領域は排除される。 投影及び区分プロセス430と同時に、現行フレームnの光学的フローが、引 用することでその開示をここの合体させる、M.Bierlingの"Displacement Estim ation by Hierarchical BlockMatching,"1001 SPIE Visual Comm.& Immage Pro cessing(1988)に記載された技術等の階層ブロック突き合わせ方法を用いて、運 動推定ステップ440におけるフレームn及びn+1から誘導される。最小平均 絶対輝度装置が固定測定ウィンドウ・サイズを用いることによってサーチされる だけである通常のブロック突合せ技術とは異なり、この方法は、稠密な変異ベク トル場(光学的フロー)を推定すべく、階層の異なるレベルで異なるサイズの測 定ウィンドウを用いている。それは相対的に信頼性があって均質な結果を生ずる 。3レベル階層を利用することは好ましい。 色彩或は他の属性領域が抽出され、生成されたフレームにおける光学的フロー の測定の後、標準線形帰還アルゴリズムが用いられて、各領域に対する擬似運動 を推定する(450)。各領域に対して線形帰還が用いられて、擬似運動式を、 即ち、その領域内部の稠密運動場に最も近似してフィットする該式中の6つのパ ラメータを決定する。 擬似運動パラメータは、好ましくは、推定/MPEG圧縮で用いられる共通3 ステップ・ブロック突き合わせ技術の拡張である、6次元擬似スペース内の3ス テップ領域突き合わせ方法を用いて更にリファイン又は純化される(460)。 この周知技術の説明は、Arun N.Netravali et al.の"Digital Pictures:Repre sentation,Compression and Standards,Second Edition"pp.340-344(Plenum P ress,New York and London,1995)に見い出すことができる。各領域に対して、 初期擬似モデルが用いられて、最小平均絶対値輝度誤差を伴う領域を投影する新 規モデルを探し求める。各次元に沿ったこのサーチはその次元上の初期パラメー タの10%として定義される。 擬似運動推定450及び純化460を介して、擬似運動パラメータを伴う均質 色彩領域はフレームnに対して生成される。同様に、これら領域はフレームn+ 1の区分プロセスにおいて追跡される。 最後に領域グループ分け470が、過剰区分を回避してより高いレベルのビデ オ・オブジェクトを獲得するプロセス中の最終ステップで適用され得る。幾つか の規準が主要な対象領域をグループ分けすべく或は同定すべく採用可能である。 第1として、決定された領域の、ピクセルの平均数であるサイズ、及び、領域 が追跡される連続的なフレームの数である継続時間が利用され得て、ノイズ的で 重要でない領域を削除する。小さなサイズ及び/或は小さな継続時間の双方を伴 う領域が排除され得ることになる。 第2として、同様の運動を具備する隣接領域は1つの移動するオブジェクトに グループ分けされ得る。これが移動するオブジェクトを伴うビデオ・シーケンス に適用されて、それらオブジェクトを検出する。そうしたグループ分けを実現す るために、空間的閉じ込めクラスタリング・プロセスが用いられて、隣接する領 域を個々別々のフレームでのそれら擬似運動パラメータに基づいてグループ分け することができる。次に時間的なサーチ・プロセスが用いられて、異なるフレー ムでの領域グループを、もしそれら領域グループが少なくとも1つの共通領域を 含むのであれば1つのビデオ・オブジェクトとして一体的にリンクすることがで きる。開始フレームでの各領域グループに対して、そうしたサーチはそのグルー プ内部の最長の継続時間を伴う領域で始まる。もし領域グループが特定の時間、 即ち1秒の1/3以上で首尾よく追跡されると、新規オブジェクト・ラベル表示 がこの領域グループに割り当てられる。最後に、時間的な整合プロセスが適用さ れ得て、ビデオ・オブジェクト内に含まれる領域の一貫性が確保される。もし一 領域が僅かな間、例えばそのビデオ・オブジェクト自体の継続時間の10%未満 だけ存続すれば、それが領域グループ分けプロセスの過誤として考慮されるべき であり、そのビデオ・オブジェクトから排除される。 図3に関連して先に議論されたように、サーバ・コンピュータ110は、例え ば、色彩データベース311、質感データベース312、運動データベース31 3、形状データベース314、並びに、サイズ・データベース315等の複数の 特徴データベースを含み、各データベースはオリジナルのビデオ情報に関連され ている。例えば図4を参照して説明した方法によって抽出されたビデオ・オブジ ェクト等のパース(構文解析)されたビデオ・クリップから抽出された各ビデオ ・ オブジェクトに対して、付随特徴が有益にはサーバ・コンピュータ110のデー タベース内に保存されている。 色彩データベース311に関して、ビデオ・オブジェクト用の代表的な色彩が CIE-LUVスペースで量子化される。量子化は静的プロ七スではなく、量子化パレ ットが各ビデオ・ショットで変化して、色彩変化に依存する。当方の好適構成は 代表的な色彩を利用しているが、色彩データベースは単一色彩、平均色彩、色彩 ヒストグラム、及び/或は、色彩対をビデオ・オブジェクトに対して含むことも できる。 質感データベース312に関して、3つの所謂Tamura質感測定値、即ち、粗大 、コントラスト、並びに、配向がオブジェクトの質感コンテンツの測定値として 計算される。代替的には小波領域質感、質感ヒストグラム、及び/或は、法規フ ィルタに基づく質感が利用可能であって、データベース312を開発する。 運動データベース313に関して、各ビデオ・オブジェクトの運動はN−1個 のベクトルのリストとして保存され、ビデオ・クリップにおけるフレームの数を N個とする。各ベクトルは汎用運動補償後の連続フレーム間におけるオブジェク トの質量中心の平均移動である。この情報と共に、当方はオブジェクトの「速度 」及びその持続時間の双方を設定することになるビデオ・ショットのフレーム率 をも保存する。 形状データベース314に関して、各ビデオ・オブジェクトの形状における主 要成分が、E.Saber et al.の"Region-Based affine shape matching for auto matic image annotation and query-by-example,"8 Visual Comm.and Image Re presentative 3-20(1997)で説明されたような充分に理解された固有値分析によ って決定される。同時に、領域の第1次及び第2次のモーメントが生成される。 2つの他の新規特徴、即ち、正規化面積及びパーセント・面積も計算される。正 規化面積は外接円の面積によって分割されたオブジェクトの面積である。もし領 域が円によって公正に近似され得れば、そうした近似が為される。例えば、もし オブジェクトの軸線比が0.9以上であり且つ正規化面積も0.9以上であれば 、形状は円として分類される。代替的には、幾何学的不変量、各次元の異なる次 数のモーメント、多項式近似、スプライン近似、及び/或は、代数学的不変量が 利 用可能となる。 最後に、サイズ・データベース315に関して、ピクセルについてのサイズが 保存される。 時間に対する空間的関係の評価が編集項目の連続或はオリジナルの間隔グラフ として割り出される。時空データベース等の他のデータベースが使用され得て、 フレーム内のオブジェクト間の間隔関係が間隔グラフ或は2-Dストリップによ って割り出される。 次に、調査照会をサーバ・コンピュータ110の特徴データベース111に保 存された情報と比較する技術が以下説明される。図3を参照して議論されたよう に、サーバ110は照会された色彩301、質感322、運動323、形状32 4、サイズ325、並びに、他の属性をデータベース311,312,313, 314,315等々に保存された情報と突き合わせるタスクを実行して、候補ビ デオ・ショット331,332,333,334,335のリストを生成する。 突き合わせ運動軌跡323に関して、ビデオ・オブジェクトの三次元軌跡が最 適に利用される。それはシーケンス{x[i],y[i]、ここでi=1,N} によって表現され、この三次元が2つの空間的次元x,yと時間的次元tを含ん で、フレーム数に正規化される。フレーム率は真の時間情報を提供する。 クライアント・コンピュータ130では、ユーザがオブジェクト軌跡を、x− y平面における頂点の連続としてスケッチすることができ、また該オブジェクト のビデオ・クリップ内での継続時間を指定することができる。継続時間又は持続 時間はフレーム率と言うことで、長い、中間、並びに、短いの3つのレベルに量 子化される。全体的な軌跡は、例えば単位秒当たり30フレーム等のフレーム率 に基づいて運動軌跡を均一にサンプリングすることで容易に計算され得る。 本発明の好適な局面に従えば、突き合わせ形跡、空間的モード、並びに、時空 モードの内の2つの主要なモードがこれから説明される。空間モードにおいて、 運動形跡がx−y平面上に投影され、その結果として規制された輪郭となる。照 会輪郭とデータベース内の各オブジェクトに対する対応する輪郭との間の距離を 測定することによって、候補軌跡が決定される。この種の突き合わせは「時間尺 度の不変量」を提供し、ユーザがその軌跡を実行すべくオブジェクトによって費 やされる時間が不確かな場合に有用である。 空間-時間モードにおいて、全体的な運動形跡は用いられて、以下の関数に従 って距離が計算される。 Σi((xq[i]−xl[i])2+(yq[i]−yt[i])2) (3) ここで、添字q及びtは照会及び目標軌跡をそれぞれ言及しており、指数iはフ レーム数にわたって走る。代替的には指数はサブサンプルの集合にわたって走る ことになる。 一般に照会オブジェクトの持続時間はデータベース内のそのオブジェクトの持 続時間とは異なるので、幾分かの更なる純化が有益であり得る。第1として、そ れら持続時間が異なる場合、2つの軌跡は2つの持続時間のより短い間だけ符合 し得るものであり、即ち、指数iは照会持続時間及びデータベース持続時間の内 の最小値を通じて走ることになる。 代替的には、照会軌跡持続時間及び保存軌跡持続時間は、各々、突き合わせを 実行する前に正規持続時間に正規化され得る。例えば、もし各ビデオ・クリップ が正規化されて、再生フレーム率が時間に関して所定時間スケール(時間尺度) に増倍されると、調査照会が、その照会をビデオ・クリップにマッピングしてそ のマッピングされた照会を照会されたビデオ・クリップで規定されたビデオ・オ ブジェクト軌跡まで増倍することによって、同一の所定時間スケールに正規化さ れる。 運動の場合のように、照会された色彩201、質感222、形状224、サイ ズ225、並びに、他の属性をデータベースに保存された情報と突き合わせるタ スクは最適化された比較プロセスを含む。色彩の場合、照会オブジェクトの色彩 が、次式(4)に従って、データベース内の候補としての追跡されたオブジェク トの平均色彩と符合させられる。 ここで、CdはCIE-LUVスペースにおける重み付けされたユークリッド色彩距離 であり、添字q及びtは照会及び目標をそれぞれ言及している。 質感の場合、追跡された各オブジェクトに対する3つのTamura質感パラメータ がデータベース322に保存されたパラメータと比較される。距離の関数は、各 チャネルに沿っての変動が伴われた、各質感特徴に沿って重みが付けられたユー クリッド距離であり、次式(5)の如くに示される。ここで、α、β、並びに、φは粗さ、コントラスト、並びに、配向をそれぞれ言 及しており、様々なσ(α,β,φ)は対応する特徴における変動を言及してい る。 形状の関して、数式は、次式(6)に示される形状の主要成分のみを単純に含 み得る。 ここで、及びはオブジェクトの主要軸線に沿っての固有値であり、即ちそれらの 比はアスペクト比である。幾何学的な不変量等の他のより複雑なアルゴリズムが 使用され得る。 サイズは、次式(7)に示される如くに、距離対面積の比として具現化される 。 ここで、Aq、tは照会及び目標のパーセント面積をそれぞれ言及している。 合計距離は、次式(8)に従って、各関数のダイナミックレンジが[0,1] 内に横たわるに正規化された後、これら距離の重み付けされた合算である。 図7を参照すると、埋め込まれたオブジェクト情報及び関連されたオーディオ 或はテキスト情報の双方に基づくビデオ・クリップの位置を探し出すべく、サー チ技術に基づき組み合わせられたビデオ及びテキストを以下説明する。この技術 は、オブジェクトの運動等のビジュアル・コンテンツや、色彩及び質感等の属性 を自然言語の説明能力と共に同時に利用するものである。 色彩701、質感702、運動703、並びに、形状704等のビジュアル属 性の1つ或はそれ以上の入力に加えて、調査照会700に入ると、ユーザはテキ スト情報のストリング710を入力することが許容される。こうした情報はキー ボード131を通じて、市販の音声認識ソフトウェアに関連するマイクロホンを 通じて、或は、コンピュータ・インタフェース技術に対する任意の他の人を通じ て、直接的に入力され得る。 ビジュアル情報は、所定閾値に最も符合(マッチ)したビデオ・クリップを生 成すべく、図3に関連して議論されたようなビジュアル属性情報の保存されたラ イブラリ720と突き合わせられる(730)。しかしながら、図7のアーキテ クチャは、ビジュアル・ライブラリ720を生成すべく使用された同一のビデオ ・クリップに関連された抽出キーワード740でテキスト突き合わせ750を実 行することによって、図3に拡張する。テキスト突き合わせ750の結果は、テ キストだけに基づいた、1つ或はそれ以上の最もよく符合されたビデオ・クリッ プである。最後に、ビジュアル突き合わせ730及びテキスト突き合わせ750 は組み合わされて(760)、高度の正確性で、オリジナルの調査照会700によ って求められたビデオ・クリップを決定する。 MPEG圧縮オーディオビジュアル情報の場合、抽出されたキーワード740 のライブラリは手動で注釈が施され得るか、オーディオを転記すべく圧縮ビット ストリームから先ずオーディオ情報を抽出してから、キーワード・スポッティン グ技術でその転記テキストの量を減らすことによって形成され得る。 以上の説明は、本発明に含まれる原理原則の単なる例示である。本発明の他の 変更等は当業者であれば明らかあり、本発明の範囲は請求の範囲で詳述されたよ うにだけ制限されることが意図されている。
【手続補正書】 【提出日】平成11年11月26日(1999.11.26) 【補正内容】 請求の範囲 1.相互作用的なネットワークを介して1つ或はそれ以上のビデオ・クリップか ら1つ或はそれ以上のビデオ・オブジェクトを視覚的に照会させるとともに探 し出させることをユーザに許容するシステムであって、 a. 前記1つ或はそれ以上のビデオ・クリップのための記憶装置と、前記ビ デオ・クリップに対応するビデオ・オブジェクト属性の1つ或はそれ以上のデ ータベースのための記憶装置とを備える1つ或はそれ以上のサーバ・コンピュ ータと、 b. 前記1つ或はそれ以上のサーバ・コンピュータに結合された通信ネット ワークであり、前記サーバ・コンピュータから前記1つ或はそれ以上のビデオ ・クリップの伝送を許容する通信ネットワークと、 c. 前記通信ネットワークに結合されたクライアント・コンピュータであり 、 i. 運動軌跡情報を含むビデオ・オブジェクト属性情報を指定するビジュ アル照会インタフェースと、 ii. 前記照会インタフェースに結合されて、前記選択されたビデオ・オ ブジェクト属性情報を受け取るブラウザ・インタフェースであり、前記通信ネ ットワークによって前記サーバ・コンピュータ内の前記記憶されたビデオ・オ ブジェクト属性をブラウズして、前記指定されたビデオ・オブジェクト属性に 最も符合する属性を有する1つ或はそれ以上のビデオ・オブジェクトを決定す るブラウザ・インタフェースと、 iii. 前記サーバ・コンピュータから、前記決定された1つ或はそれ以 上のビデオ・オブジェクトに対応するビデオ・データから成る1つ或はそれ以 上の伝送された連続フレームを受け取る相互作用的なビデオ・プレイヤーと を有するクライアント・コンピュータと を具備するシステム。 2.前記サーバ・コンピュータに保存された前記1つ或はそれ以上のデータベー スの内の1つが、運動軌跡データベースを含む、請求項1に記載のシステム。 3.前記サーバ・コンピュータに保存された前記1つ或はそれ以上のデータベー スの内の1つが、時空間データベースを含む、請求項1に記載のシステム。 4.前記サーバ・コンピュータに保存された前記1つ或はそれ以上のデータベー スの内の1つが、形状データベースを含む、請求項1に記載のシステム。 5.前記サーバ・コンピュータに保存された前記1つ或はそれ以上のデータベー スの内の1つが、色彩データベースを含む、請求項1に記載のシステム。 6.前記サーバ・コンピュータに保存された前記1つ或はそれ以上のデータベー スの内の1つが、質感データベースを含む、請求項1に記載のシステム。 7.前記サーバ・コンピュータに保存された前記1つ或はそれ以上のデータベー スの内の1つが、パン撮りデータベースを含む、請求項1に記載のシステム。 8.前記サーバ・コンピュータに保存された前記1つ或はそれ以上のデータベー スの内の1つが、ズーム撮りデータベースを含む、請求項1に記載のシステム 。 9.ビデオ・データから成る前記1つ或はそれ以上の連続フレームが圧縮フォー マットで前記サーバ・コンピュータに保存されている、請求項1に記載のシス テム。 10.前記1つ或はそれ以上の指定されたビデオ・オブジェクト属性の各々を前 記サーバ・コンピュータ内に対応して保存されたビデオ・オブジェクト属性と 比較して、各ビデオ・オブジェクト属性に1つずつの候補ビデオ・シーケンス のリストを生成する手段を前記サーバ・コンピュータの内の少なくとも1つ或 はそれ以上の内部に更に含む、請求項1に記載のシステム。 11.前記比較手段に結合されて前記候補リストを受け取る手段であり、前記候 補リストに基づいて、前記選択されたビデオ・オブジェクト属性に最も符合す る集合的な属性を有する1つ或はそれ以上のビデオ・オブジェクトを決定する 手段を前記サーバ・コンピュータ内に更に含む、請求項10に記載のシステム 。 12.前記照会されたビデオ・オブジェクト属性情報が、2つ以上のビデオ・オ ブジェクトに対する属性を含み、前記比較手段が、各ビデオ・オブジェクトに 対する前記1つ或はそれ以上の指定されたビデオ・オブジェクト属性の各々を 前記サーバ・コンピュータ内の対応する保存されたビデオ・オブジェクト属性 と比較して、各ビデオ・オブジェクトに対する各ビデオ・オブジェクト属性に 1つずつの、候補ビデオ・シーケンスのリストを生成し、前記決定手段が、各 照会されたビデオ・オブジェクトに対する前記候補リストに基づいて、前記選 択されたビデオ・オブジェクト属性に最も符合する集合的属性を有する1つ或 はそれ以上のビデオ・オブジェクトを決定している、請求項11に記載のシス テム。 13.少なくとも1つの認識可能な属性を含むビデオ・クリップからビデオ・オ ブジェクトを抽出する方法であって、 a. ビデオ・データで表示される前記少なくとも1つの属性の異なる変体に 値を決定すると共に該値を割り当てることによって、前記ビデオ・データから 成る現行フレームを量子化することによって、量子化フレーム情報を生成する 工程と、 b. 前記少なくとも1つの属性に基づいて、前記ビデオ・データから成るフ レーム上のエッジ検出を実行して、該フレーム内のエッジ点を決定することに よって、エッジ情報を生成する工程と、 c. 先行するフレームから1つ或はそれ以上に区分された領域を規定する情 報を受け取る工程と、 d. 前記現行フレームから、前記受け取られた区分領域を前記量子化フレー ム情報及び前記生成エッジ情報と比較することによって、前記少なくとも1つ の属性を共有するビデオ情報から成る領域を抽出する工程と の諸工程を含む方法。 14.前記属性が色彩であり、量子化工程が、前記現行フレームを均一色彩スペ ース情報に変換し、該色彩スペース情報を適応的に量子化し、前記パレットを 濾過してそこからノイズを排除することを含む、請求項13に記載の方法。 15.前記適応的な量子化工程が、クラスタリング・アルゴリズムでの量子化を 含む、請求項14の方法。 16.前記エッジ検出工程が、前記現行フレームにCannyエッジ検出を適用して 、前記エッジ情報をエッジ・マップとして生成することを含む、請求項13に 記載の方法。 17.前記抽出工程が、 a. 前記受取領域の内の1つを現行の量子化され且つエッジ検出されたフレ ームに投影することによって、ビデオ・データから成る前記現行フレーム内の 領域を抽出すべくインターフレーム投影を実行して、前記領域の任意の移動を 時間的に追跡することと、 b. 前記現行フレーム内の隣接する抽出領域を併合すべくイントラフレーム を実行することと、 を含む、請求項13に記載の方法。 18.前記属性が色彩であり、前記インターフレーム投影工程が、 a.前記先行フレームからの前記受取領域を前記現行フレーム内へ投影して、 領域を時間的に追跡する工程と、 b. 前記受取領域と一貫性を有するか或は新規領域として、前記現行フレー ム内における各非エッジ・ピクセルをラベル表示する工程と、 c. 隣接する領域をリンクすべく、前記ラベルから接続グラフを生成する工 程と、 の諸工程を含むことから成る、請求項17に記載の方法。 19.前記イントラフレーム区分工程が、 a. 所定閾値よりも小さい色彩距離を有する全ての隣接領域を新規領域とし て併合する工程と、 b. 前記新規領域に対する平均色彩を決定する工程と、 c. 前記接続グラフを更新する工程と、 d. 前記新規領域に、前記併合領域に先行して割り当てられたラベルから新 規ラベルを割り当てる工程と、 e. 前記併合領域を排除する工程と、 の諸工程を含むことから成る、請求項18に記載の方法。 20.前記抽出工程が、隣接領域に為す前記イントラフレーム区分の後に残存す る前記現行フレーム内の全てのエッジをラベル表示して、それらの各ラベル表 示されたエッジが前記現行フレーム内のビデオ・オブジェクトの境界を画成す るように為す工程を更に含むことから成る、請求項17に記載の方法。 21.前記抽出工程が、所定閾値以下のサイズを有する領域を削除することによ って、前記抽出領域を簡略化する工程を更に含むことから成る、請求項20に 記載の方法。 22. e. ビデオ情報から成る将来フレームを受け取る工程と、 f. 前記現行フレーム内のビデオ情報から成るブロックと、前記将来フレー ム内のビデオ情報から成るブロックとの間の階層的なブロック突き合わせを実 行することによってビデオ情報から成る前記現行フレームの光学的フローを決 定する工程と、 g. 前記光学的フローに基づいて、ビデオ情報から成る前記抽出領域上の運 動推定を実行する工程と、 の諸工程を更に含む、請求項13に記載の方法。 23.前記現行フレーム内の決定領域をサイズ及び持続時間でグループ分けする 工程を更に含む、請求項22に記載の方法。 24.前記現行フレーム内の決定領域をその内部の移動オブジェクトを決定する ことでグループ分けする工程を更に含む、請求項22に記載の方法。 25.それぞれが所定軌跡で時間的に移動する1つ或はそれ以上のビデオ・オブ ジェクトを含んでいる1つ或はそれ以上のビデオ・クリップから、ユーザ入力 ビジュアル調査照会に最も符合するビデオ・クリップを探し出す方法であって 、 a. 少なくとも1つのビデオ・オブジェクト軌跡を画成するビジュアル調査 照会を受け取る工程と、 b. 前記受取照会と、1つ或はそれ以上の予め画成されたビデオ・オブジェ クト軌跡の内の少なくとも一部との間の合計距離を決定する工程と、 c. 前記受取照会から最小距離を有する前記画成されたビデオ・オブジェク ト軌跡の内の1つ或はそれ以上を選択することによって、前記最も符合したビ デオ・クリップ或は複数のビデオ・クリップを探し出す工程と、 の諸工程を含む方法。 26.前記保存されたビデオ・クリップが正規化されて、再生フレーム率が所定 時間スケールまで増倍されるように為され、前記受取照会を各正規化ビデオ・ クリップへマッピングして、そのマッピングされた受取照会を前記正規化ビデ オ・クリップによって規定された各ビデオ・オブジェクトまで増倍することに ことによって前記受取調査照会を正規化する工程を更に含み、前記決定工程が 前記正規化された受取照会と前記正規化されたビデオ・オブジェクト軌跡との 間の合計距離を決定してることから成る、請求項25に記載の方法。 27.前記決定工程が、前記受取ビデオ・オブジェクト軌跡と前記1つ或はそれ 以上の予め規定されたビデオ・オブジェクト軌跡の内の少なくも一部との間の 空間的距離の比較を為すことを含むことから成る、請求項25に記載の方法。 28.前記決定工程が、前記受取ビデオ・オブジェクト軌跡と前記1つ或はそれ 以上の予め規定されたビデオ・オブジェクト軌跡の内の少なくも一部との間の 時空間的距離の比較を為すことを含むことから成る、請求項25に記載の方法 。 29.それぞれが所定属性を有する1つ或はそれ以上のビデオ・オブジェクトを 含んでいる1つ或はそれ以上のビデオ・クリップから、ユーザ入力ビジュアル 調査照会に最も符合するビデオ・クリップを探し出す方法であって、 a. 前記ビデオ・クリップ内の1つ或はそれ以上の異なるビデオ・オブジェ クトに対する1つ或はそれ以上の属性を規定するビジュアル調査照会を受け取 る工程と、 b. 前記ビデオ・クリップを調査して、前記規定された属性の内の少なくと も1つを所定閾値に符合させる1つ或はそれ以上のビデオ・オブジェクトを探 し出す工程と、 c. 前記探し出されたビデオ・オブジェクトから、前記1つ或はそれ以上の 異なるビデオ・オブジェクトを含む1つ或はそれ以上のビデオ・クリップを決 定する工程と、 d. 前記調査照会によって規定された前記1つ或はそれ以上のビデオ・オブ ジェクトと前記探し出されたビデオ・オブジェクトとの間の距離を計算するこ とによって、前記決定されたビデオ・クリップから最も符合するビデオ・クリ ップを決定する工程と、 の諸工程を含む方法。 30.前記1つ或はそれ以上の属性が色彩を含み、前記符合工程が、前記照会さ れたビデオ・オブジェクトの各々に対する平均色彩を決定して、該平均色彩を データベースに保存された色彩情報と比較することを含むことから成る、請求 項29に記載の方法。 31.前記1つ或はそれ以上の属性が質感を含み、前記符合工程が、前記照会さ れたビデオ・オブジェクト各々に対する粗さ、コントラスト、並びに、配向を 決定して、該粗さ、コントラスト、並びに、配向をデータベース内に保存され た粗さ、コントラスト、並びに、配向の情報と比較することを含むことから成 る、請求項29に記載の方法。 32.前記1つ或はそれ以上の属性が形状を含み、前記符合工程が、前記照会さ れたビデオ・オブジェクト各々に対する主要軸線に沿っての固有値を決定して 、該固有値をデータベース内に保存された形状情報と比較することを含むこと から成る、請求項29に記載の方法。 33.前記1つ或はそれ以上の属性がサイズを含み、前記符合工程が、前記照会 されたビデオ・オブジェクト各々に対するパーセンテージ面積を決定して、該 面積をデータベース内に保存された面積情報と比較することを含むことから成 る、請求項29に記載の方法。 34.前記ビデオ・クリップが関連されたテキスト情報を含み、前記参照照会が 前記1つ或はそれ以上の異なるビデオ・オブジェクトに対応しているテキスト 特性の定義を更に含み、前記関連されたテキスト情報を調査して前記テキスト 特性に最も符合するテキストを探し出す工程を更に含む、請求項29に記載の 方法。 35.前記最も符合するビデオ・クリップが前記決定ビデオ・クリップ及び前記 探し出されたテキストから決定されることから成る、請求項30に記載の方法 。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 チェン ウィリアム アメリカ合衆国 ニューヨーク州 10027 ニューヨーク ウェスト ワンハンドレ ッドトゥエルフス ストリート 423 ア パートメント 34エイ (72)発明者 メン ホラス ジェイ アメリカ合衆国 ニューヨーク州 10027 ニューヨーク ウェスト ワンハンドレ ッドナインティーンス ストリート 435 アパートメント 9エル (72)発明者 サンダラム ハリ アメリカ合衆国 ニューヨーク州 10027 ニューヨーク ウェスト ワンハンドレ ッドトゥエンティース ストリート 434 アパートメント 9ディー (72)発明者 ツォン ディ アメリカ合衆国 ニューヨーク州 10027 ニューヨーク ウェスト ワンハンドレ ッドナインティーンス ストリート 400 アパートメント 15ディー

Claims (1)

  1. 【特許請求の範囲】 1.相互作用的なネットワークを介して1つ或はそれ以上ビデオ・クリップから 1つ或はそれ以上のビデオ・オブジェクトを探し出させることをユーザに許容 するオブジェクト指向システムであって、 a. 前記1つ或はそれ以上のビデオ・クリップのための記憶装置と、前記ビ デオ・クリップに対応するビデオ・オブジェクト属性の1つ或はそれ以上のデ ータベースのための記憶装置とを備える1つ或はそれ以上のサーバ・コンピュ ータと、 b. 前記1つ或はそれ以上のサーバ・コンピュータに結合された通信ネット ワークであり、前記サーバ・コンピュータから前記1つ或はそれ以上のビデオ ・クリップの伝送を許容する通信ネットワークと、 c. 前記通信ネットワークに結合されたクライアント・コンピュータであり 、 i. 運動軌跡情報を含むビデオ・オブジェクト属性情報を指定する照会 インタフェースと、 ii. 前記照会インタフェースに結合されて、前記選択されたビデオ・オ ブジェクト属性情報を受け取るブラウザ・インタフェースであり、前記通信 ネットワークによって前記サーバ・コンピュータ内の前記記憶されたビデオ ・オブジェクト属性をブラウズして、前記指定されたビデオ・オブジェクト 属性に最も符合する属性を有する1つ或はそれ以上のビデオ・オブジェクト を決定するブラウザ・インタフェースと、 iii.前記サーバ・コンピュータから、前記決定された1つ或はそれ以上 のビデオ・オブジェクトに対応するビデオ・データから成る1つ或はそれ以 上の伝送された連続フレームを受け取る相互作用的なビデオ・プレイヤーと を有するクライアント・コンピュータと を具備するシステム。 2.前記サーバ・コンピュータに保存された前記1つ或はそれ以上のデータべー スの内の1つが、運動軌跡データベースを含む、請求項1に記載のシステム。 3.前記サーバ・コンピュータに保存された前記1つ或はそれ以上のデータべー スの内の1つが、時空間データベースを含む、請求項1に記載のシステム。 4.前記サーバ・コンピュータに保存された前記1つ或はそれ以上のデータべー スの内の1つが、形状データベースを含む、請求項1に記載のシステム。 5.前記サーバ・コンピュータに保存された前記1つ或はそれ以上のデータべー スの内の1つが、色彩データベースを含む、請求項1に記載のシステム。 6.前記サーバ・コンピュータに保存された前記1つ或はそれ以上のデータベー スの内の1つが、質感データベースを含む、請求項1に記載のシステム。 7.前記サーバ・コンピュータに保存された前記1つ或はそれ以上のデータベー スの内の1つが、パン撮りデータベースを含む、請求項1に記載のシステム。 8.前記サーバ・コンピュータに保存された前記1つ或はそれ以上のデータベー スの内の1つが、ズーム撮りデータベースを含む、請求項1に記載のシステム 。 9.ビデオ・データから成る前記1つ或はそれ以上の連続フレームが圧縮フォー マットで前記サーバ・コンピュータに保存されている、請求項1に記載のシス テム。 10.前記1つ或はそれ以上の指定されたビデオ・オブジェクト属性の各々を前 記サーバ・コンピュータ内に対応して保存されたビデオ・オブジェクト属性と 比較して、各ビデオ・オブジェクト属性に1つずつの候補ビデオ・シーケンス のリストを生成する手段を前記サーバ・コンピュータの内の少なくとも1つ或 はそれ以上の内部に更に含む、請求項1に記載のシステム。 11.前記比較手段に結合されて前記候補リストを受け取る手段であり、前記候 補リストに基づいて、前記選択されたビデオ・オブジェクト属性に最も符合す る集合的な属性を有する1つ或はそれ以上のビデオ・オブジェクトを決定する 手段を前記サーバ・コンピュータ内に更に含む、請求項10に記載のシステム 。 12.前記照会されたビデオ・オブジェクト属性情報が、2つ以上のビデオ・オ ブジェクトに対する属性を含み、前記比較手段が、各ビデオ・オブジェクトに 対する前記1つ或はそれ以上の指定されたビデオ・オブジェクト属性の各々を 前記サーバ・コンピュータ内の対応する保存されたビデオ・オブジェクト属性 と比較して、各ビデオ・オブジェクトに対する各ビデオ・オブジェクト属性に 1つずつの、候補ビデオ・シーケンスのリストを生成し、前記決定手段が、各 照会されたビデオ・オブジェクトに対する前記候補リストに基づいて、前記選 択されたビデオ・オブジェクト属性に最も符合する集合的属性を有する1つ或 はそれ以上のビデオ・オブジェクトを決定している、請求項11に記載のシス テム。 13.少なくとも1つの認識可能な属性を含むビデオ・クリップからビデオ・オ ブジェクトを抽出する方法であって、 a. ビデオ・データで表示される前記少なくとも1つの属性の異なる変体に 値を決定すると共に該値を割り当てることによって、前記ビデオ・データから 成る現行フレームを量子化することによって、量子化フレーム情報を生成する 工程と、 b. 前記少なくとも1つの属性に基づいて、前記ビデオ・データから成るフ レーム上のエッジ検出を実行して、該フレーム内のエッジ点を決定することに よって、エッジ情報を生成する工程と、 c. 先行するフレームから1つ或はそれ以上に区分された領域を規定する情 報を受け取る工程と、 d. 前記現行フレームから、前記受け取られた区分領域を前記量子化フレー ム情報及び前記生成エッジ情報と比較することによって、前記少なくとも1つ の属性を共有するビデオ情報から成る領域を抽出する工程と の諸工程を含む方法。 14.前記属性が色彩であり、量子化工程が、前記現行フレームを均一色彩スペ ース情報に変換し、該色彩スペース情報を適応的に量子化し、前記パレットを 濾過してそこからノイズを排除することを含む、請求項13に記載の方法。 15.前記適応的な量子化工程が、クラスタリング・アルゴリズムでの量子化を 含む、請求項14の方法。 16.前記エッジ検出工程が、前記現行フレームにCannyエッジ検出を適用して 、前記エッジ情報をエッジ・マップとして生成することを含む、請求項13に 記載の方法。 17.前記抽出工程が、 a. 前記受取領域の内の1つを現行の量子化され且つエッジ検出されたフレ ームに投影することによって、ビデオ・データから成る前記現行フレーム内 の領域を抽出すべくインターフレーム投影を実行して、前記領域の任意の移動 を時間的に追跡することと、 b. 前記現行フレーム内の隣接する抽出領域を併合すべくイントラフレーム を実行することと、 を含む、請求項13に記載の方法。 18.前記属性が色彩であり、前記インターフレーム投影工程が、 a.前記先行フレームからの前記受取領域を前記現行フレーム内へ投影して、 領域を時間的に追跡する工程と、 b. 前記受取領域と一貫性を有するか或は新規領域として、前記現行フレー ム内における各非エッジ・ピクセルをラベル表示する工程と、 c. 隣接する領域をリンクすべく、前記ラベルから接続グラフを生成する工 程と、 の諸工程を含むことから成る、請求項17に記載の方法。 19.前記イントラフレーム区分工程が、 a. 所定閾値よりも小さい色彩距離を有する全ての隣接領域を新規領域とし て併合する工程と、 b. 前記新規領域に対する平均色彩を決定する工程と、 c. 前記接続グラフを更新する工程と、 d. 前記新規領域に、前記併合領域に先行して割り当てられたラベルから新 規ラベルを割り当てる工程と、 e. 前記併合領域を排除する工程と、 の諸工程を含むことから成る、請求項18に記載の方法。 20.前記抽出工程が、隣接領域に為す前記イントラフレーム区分の後に残存す る前記現行フレーム内の全てのエッジをラベル表示して、それらの各ラベル表 示されたエッジが前記現行フレーム内のビデオ・オブジェクトの境界を画成す るように為す工程を更に含むことから成る、請求項17に記載の方法。 21.前記抽出工程が、所定閾値以下のサイズを有する領域を削除することによ って、前記抽出領域を簡略化する工程を更に含むことから成る、請求項20に 記載の方法。 22. e. ビデオ情報から成る将来フレームを受け取る工程と、 f. 前記現行フレーム内のビデオ情報から成るブロックと、前記将来フレー ム内のビデオ情報から成るブロックとの間の階層的なブロック突き合わせを実 行することによってビデオ情報から成る前記現行フレームの光学的フローを決 定する工程と、 g. 前記光学的フローに基づいて、ビデオ情報から成る前記抽出領域上の運 動推定を実行する工程と、 の諸工程を更に含む、請求項13に記載の方法。 23.前記現行フレーム内の決定領域をサイズ及び持続時間でグループ分けする 工程を更に含む、請求項22に記載の方法。 24.前記現行フレーム内の決定領域をその内部の移動オブジェクトを決定する ことでグループ分けする工程を更に含む、請求項22に記載の方法。 25.それぞれが所定軌跡で時間的に移動する1つ或はそれ以上のビデオ・オブ ジェクトを含んでいる1つ或はそれ以上のビデオ・クリップから、ユーザ入力 調査照会に最も符合するビデオ・クリップを探し出す方法であって、 a. 少なくとも1つのビデオ・オブジェクト軌跡を画成する調査照会を受け 取る工程と、 b. 前記受取照会と、1つ或はそれ以上の予め画成されたビデオ・オブジェ クト軌跡の内の少なくとも一部との間の合計距離を決定する工程と、 c. 前記受取照会から最小距離を有する前記画成されたビデオ・オブジェク ト軌跡の内の1つ或はそれ以上を選択することによって、前記最も符合したビ デオ・クリップ或は複数のビデオ・クリップを探し出す工程と、 の諸工程を含む方法。 26.前記保存されたビデオ・クリップが正規化されて、再生フレーム率が所定 時間スケールまで増倍されるように為され、前記受取照会を各正規化ビデオ・ クリップへマッピングして、そのマッピングされた受取照会を前記正規化ビデ オ・クリップによって規定された各ビデオ・オブジェクトまで増倍することに ことによって前記受取調査照会を正規化する工程を更に含み、前記決定工程が 前記正規化された受取照会と前記正規化されたビデオ・オブジェクト軌跡との 間の合計距離を決定してることから成る、請求項25に記載の方法。 27.前記決定工程が、前記受取ビデオ・オブジェクト軌跡と前記1つ或はそれ 以上の予め規定されたビデオ・オブジェクト軌跡の内の少なくも一部との間の 空間的距離の比較を為すことを含むことから成る、請求項25に記載の方法。 28.前記決定工程が、前記受取ビデオ・オブジェクト軌跡と前記1つ或はそれ 以上の予め規定されたビデオ・オブジェクト軌跡の内の少なくも一部との間の 時空間的距離の比較を為すことを含むことから成る、請求項25に記載の方法 。 29.それぞれが所定属性を有する1つ或はそれ以上のビデオ・オブジェクトを 含んでいる1つ或はそれ以上のビデオ・クリップから、ユーザ入力調査照会に 最も符合するビデオ・クリップを探し出す方法であって、 a. 前記ビデオ・クリップ内の1つ或はそれ以上の異なるビデオ・オブジェ クトに対する1つ或はそれ以上の属性を規定する調査照会を受け取る工程と、 b. 前記ビデオ・クリップを調査して、前記規定された属性の内の少なくと も1つを所定閾値に符合させる1つ或はそれ以上のビデオ・オブジェクトを探 し出す工程と、 c. 前記探し出されたビデオ・オブジェクトから、前記1つ或はそれ以上の 異なるビデオ・オブジェクトを含む1つ或はそれ以上のビデオ・クリップを決 定する工程と、 d. 前記調査照会によって規定された前記1つ或はそれ以上のビデオ・オブ ジェクトと前記探し出されたビデオ・オブジェクトとの間の距離を計算するこ とによって、前記決定されたビデオ・クリップから最も符合するビデオ・クリッ プを決定する工程と、 の諸工程を含む方法。 30.前記1つ或はそれ以上の属性が色彩を含み、前記符合工程が、前記照会さ れたビデオ・オブジェクトの各々に対する平均色彩を決定して、該平均色彩を データベースに保存された色彩情報と比較することを含むことから成る、請求 項29に記載の方法。 31.前記1つ或はそれ以上の属性が質感を含み、前記符合工程が、前記照会さ れたビデオ・オブジェクト各々に対する粗さ、コントラスト、並びに、配向を 決定して、該粗さ、コントラスト、並びに、配向をデータベース内に保存され た粗さ、コントラスト、並びに、配向の情報と比較することを含むことから成 る、請求項29に記載の方法。 32.前記1つ或はそれ以上の属性が形状を含み、前記符合工程が、前記照会さ れたビデオ・オブジェクト各々に対する主要軸線に沿っての固有値を決定して 、該固有値をデータベース内に保存された形状情報と比較することを含むこと から成る、請求項29に記載の方法。 33.前記1つ或はそれ以上の属性がサイズを含み、前記符合工程が、前記照会 されたビデオ・オブジェクト各々に対するパーセンテージ面積を決定して、該 面積をデータベース内に保存された面積情報と比較することを含むことから成 る、請求項29に記載の方法。 34.前記ビデオ・クリップが関連されたテキスト情報を含み、前記参照照会が 前記1つ或はそれ以上の異なるビデオ・オブジェクトに対応しているテキスト 特性の定義を更に含み、前記関連されたテキスト情報を調査して前記テキスト 特性に最も符合するテキストを探し出す工程を更に含む、請求項29に記載の 方法。 35.前記最も符合するビデオ・クリップが前記決定ビデオ・クリップ及び前記 探し出されたテキストから決定されることから成る、請求項30に記載の方法 。
JP54837698A 1997-05-05 1998-05-05 オブジェクト指向コンテンツに基づくビデオ・サーチ用のアルゴリズム及びシステム Ceased JP2002513487A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US4563797P 1997-05-05 1997-05-05
US60/045,637 1997-05-05
PCT/US1998/009124 WO1998050869A1 (en) 1997-05-05 1998-05-05 Algorithms and system for object-oriented content-based video search

Publications (1)

Publication Number Publication Date
JP2002513487A true JP2002513487A (ja) 2002-05-08

Family

ID=21939063

Family Applications (1)

Application Number Title Priority Date Filing Date
JP54837698A Ceased JP2002513487A (ja) 1997-05-05 1998-05-05 オブジェクト指向コンテンツに基づくビデオ・サーチ用のアルゴリズム及びシステム

Country Status (5)

Country Link
EP (1) EP1008064A4 (ja)
JP (1) JP2002513487A (ja)
KR (1) KR20010012261A (ja)
CA (1) CA2288811A1 (ja)
WO (1) WO1998050869A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7024020B2 (en) 2001-01-20 2006-04-04 Samsung Electronics Co., Ltd. Apparatus and method for generating object-labeled image in video sequence

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW452748B (en) * 1999-01-26 2001-09-01 Ibm Description of video contents based on objects by using spatio-temporal features and sequential of outlines
EP1516264B1 (en) 1999-07-30 2017-05-24 Intellectual Ventures Holding 81 LLC Image retrieval by generating a descriptor for each spot of an image the cells of which having visual characteristics within a selected tolerance
US6563959B1 (en) 1999-07-30 2003-05-13 Pixlogic Llc Perceptual similarity image retrieval method
US6754389B1 (en) * 1999-12-01 2004-06-22 Koninklijke Philips Electronics N.V. Program classification using object tracking
JP4527322B2 (ja) * 2001-07-25 2010-08-18 日本電気株式会社 画像検索装置、画像検索方法、及び画像検索用プログラム
JP2010531010A (ja) 2008-05-09 2010-09-16 韓国外国語大学校 研究産学協力団 画像と形状記述子とのマッチング
US8347408B2 (en) 2008-06-30 2013-01-01 Cisco Technology, Inc. Matching of unknown video content to protected video content
US8259177B2 (en) * 2008-06-30 2012-09-04 Cisco Technology, Inc. Video fingerprint systems and methods
US9600494B2 (en) * 2014-01-24 2017-03-21 Cisco Technology, Inc. Line rate visual analytics on edge devices
US11182408B2 (en) 2019-05-21 2021-11-23 Microsoft Technology Licensing, Llc Generating and applying an object-level relational index for images
KR102492277B1 (ko) * 2022-06-28 2023-01-26 (주)액션파워 멀티모달 정보를 이용한 질의응답 수행 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06208780A (ja) * 1993-01-11 1994-07-26 Toshiba Corp 映像素材管理装置
JPH07200632A (ja) * 1993-12-28 1995-08-04 Toshiba Corp 情報処理装置
JPH0887525A (ja) * 1994-09-20 1996-04-02 Nippon Telegr & Teleph Corp <Ntt> 映像管理マップ表現方法および装置
JPH08194714A (ja) * 1995-01-13 1996-07-30 Matsushita Electric Ind Co Ltd 圧縮動画像の検索方法および装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5606655A (en) * 1994-03-31 1997-02-25 Siemens Corporate Research, Inc. Method for representing contents of a single video shot using frames
WO1996017313A1 (en) * 1994-11-18 1996-06-06 Oracle Corporation Method and apparatus for indexing multimedia information streams
US5734893A (en) * 1995-09-28 1998-03-31 Ibm Corporation Progressive content-based retrieval of image and video with adaptive and iterative refinement

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06208780A (ja) * 1993-01-11 1994-07-26 Toshiba Corp 映像素材管理装置
JPH07200632A (ja) * 1993-12-28 1995-08-04 Toshiba Corp 情報処理装置
JPH0887525A (ja) * 1994-09-20 1996-04-02 Nippon Telegr & Teleph Corp <Ntt> 映像管理マップ表現方法および装置
JPH08194714A (ja) * 1995-01-13 1996-07-30 Matsushita Electric Ind Co Ltd 圧縮動画像の検索方法および装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吉光 正典: "オブジェクトの動きを用いた動画像検索", 情報処理学会研究報告, vol. 第95巻 第31号, CSNG200000604003, 14 March 1995 (1995-03-14), JP, pages 25 - 32, ISSN: 0000726036 *
小野 敦史: "状態遷移モデルとシーン記述言語による自動キーワード付与機能をもつ画像データベースとその評価", 電子情報通信学会論文誌, vol. 第J79−D−II巻 第4号, CSNG199800756005, 25 April 1996 (1996-04-25), JP, pages 476 - 483, ISSN: 0000726031 *
美濃 導彦: "知的メディア検索技術の動向", 人工知能学会誌, vol. 第11巻 第1号, CSNG199800402001, 1 January 1996 (1996-01-01), JP, pages 3 - 9, ISSN: 0000726035 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7024020B2 (en) 2001-01-20 2006-04-04 Samsung Electronics Co., Ltd. Apparatus and method for generating object-labeled image in video sequence

Also Published As

Publication number Publication date
EP1008064A4 (en) 2002-04-17
CA2288811A1 (en) 1998-11-12
EP1008064A1 (en) 2000-06-14
KR20010012261A (ko) 2001-02-15
WO1998050869A1 (en) 1998-11-12

Similar Documents

Publication Publication Date Title
US6741655B1 (en) Algorithms and system for object-oriented content-based video search
JP3568117B2 (ja) ビデオ画像の分割、分類、および要約のための方法およびシステム
Zhang et al. Content-based video retrieval and compression: A unified solution
Rui et al. Constructing table-of-content for videos
US8442384B2 (en) Method and apparatus for video digest generation
US8515933B2 (en) Video search method, video search system, and method thereof for establishing video database
JP4536261B2 (ja) 画像特徴符号化方法及び画像検索方法
KR100737176B1 (ko) 신호 처리 방법 및 영상 음성 처리 장치
JP4907938B2 (ja) 少なくとも1つの画像及び画像群を表現する方法、画像又は画像群の表現、画像及び/又は画像群を比較する方法、画像又は画像群を符号化する方法、画像又は画像シーケンスを復号する方法、符号化されたデータの使用、画像又は画像群を表現する装置、画像及び/又は画像群を比較する装置、コンピュータプログラム、システム、及びコンピュータ読み取り可能な記憶媒体
JP5097280B2 (ja) 画像及び画像群を表現、比較及び検索する方法及び装置、プログラム、コンピュータ読み取り可能な記憶媒体
JP2000311180A (ja) 特徴セット選択方法、ビデオ画像クラス統計モデルの生成方法、ビデオフレームの分類及びセグメント化方法、ビデオフレームの類似性決定方法、およびコンピュータ可読媒体、並びにコンピュータシステム
WO1999034319A1 (en) Image subregion querying using color correlograms
JP2000322450A (ja) ビデオの類似性探索方法、ビデオブラウザ内にビデオを提示する方法、ウェブベースのインタフェース内にビデオを提示する方法、及びコンピュータ読取り可能記録媒体、並びにコンピュータシステム
JP2002513487A (ja) オブジェクト指向コンテンツに基づくビデオ・サーチ用のアルゴリズム及びシステム
JP5116017B2 (ja) 動画検索方法およびシステム
Joshi et al. On fuzzy clustering and content based access to networked video databases
Janvier et al. Information-theoretic temporal segmentation of video and applications: multiscale keyframes selection and shot boundaries detection
Hampapur et al. Feature based digital video indexing
Latecki et al. Extraction of key frames from videos by optimal color composition matching and polygon simplification
Rui et al. Efficient access to video content in a unified framework
EP1237374A1 (en) A method for extracting video objects from a video clip
Auephanwiriyakul et al. Fuzzy shot clustering to support networked video databases
Shirahama et al. A time-constrained sequential pattern mining for extracting semantic events in videos
Diklic et al. Automatic extraction of representative keyframes based on scene content
Abdelali et al. A study of the color-structure descriptor for shot boundary detection

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040224

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20040521

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20040705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040819

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051011

A313 Final decision of rejection without a dissenting response from the applicant

Free format text: JAPANESE INTERMEDIATE CODE: A313

Effective date: 20060227

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060404