JP2008042895A - 複数のビデオをクラスタ化するための方法、装置、システム、及びプログラム - Google Patents

複数のビデオをクラスタ化するための方法、装置、システム、及びプログラム Download PDF

Info

Publication number
JP2008042895A
JP2008042895A JP2007170049A JP2007170049A JP2008042895A JP 2008042895 A JP2008042895 A JP 2008042895A JP 2007170049 A JP2007170049 A JP 2007170049A JP 2007170049 A JP2007170049 A JP 2007170049A JP 2008042895 A JP2008042895 A JP 2008042895A
Authority
JP
Japan
Prior art keywords
video
cluster
videos
representative
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007170049A
Other languages
English (en)
Inventor
Frank M Shipman Iii
エム.シップマン ザ サード フランク
Andreas Girgensohn
ガーゲンソン アンドレアス
Lynn D Wilcox
ディー.ウィルコックス リン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2008042895A publication Critical patent/JP2008042895A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/743Browsing; Visualisation therefor a collection of video files or sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Abstract

【課題】ビデオクリップの大きなセットを通して迅速に閲覧し、関連対象のビデオクリップを特定する方法、装置、システム、プログラムを提供する。
【解決手段】本発明はビデオクリップの階層的クラスタ化により、ユーザが関心対象のビデオクリップのサブグループを順次識別できるようにする。本発明の方法では、個々のビデオ及びクラスタ内の低レベルのクラスタから代表ビデオクリップを選択することにより、各クラスタの内容に関するビデオ要約を生成する。リンクが、より一般的な高レベルのクラスタとこれらが含む要素との間に設けられ、この結果ユーザには、閲覧又は検索エンジンにより返されるビデオのセットの上位レベルから後続の各クラスタのレベルに続いて、ビデオの関連部分及び次のより低レベルのクラスタの関連部分に関するビデオ要約が提示される。ユーザは所望のビデオ又はより低レベルのクラスタへとナビゲーションリンクを辿ることができる。
【選択図】図2

Description

本発明はメディア分析および提示(プレゼンテーション)の分野であり、検索結果を提示する方法、装置、システム、及びプログラムに関し、詳細には、ビデオ検索結果を提示する方法、装置、システム、及びプログラムに関する。
大規模なディジタルビデオライブラリ内のビデオの関連部分の検索は困難であることが多い。ユーザはコレクション全体を通して閲覧するか、あるいは特定のメタデータおよび画像特徴、又は検索項目との関連性により、ビデオまたはビデオの一部または諸項目を検索することで、閲覧の範囲を制限するかのいずれかである。ビデオライブラリの検索後、ユーザには問合せ内容に一致するビデオの、長くなる可能性のあるリストが残される。したがって、無関係の内容(例えばニュースビデオ)を含む可能性のあるこれらのビデオ内の関連部分を見出す作業もまた困難である。多くの場合、ビデオに関連する表題および他のメタデータはこれらのビデオの相対的な評価を決定するのに十分な情報を提供しないため、ユーザは必要とするものを見出すまで順番にそれらをプレビューする必要がある。関連する可能性のあるビデオの数が多い場合、これは膨大な時間を必要とする。ビデオの一部のみがユーザの関心対象である場合、関連ビデオを見出すだけでなくビデオ内の関連部分も確認する必要があるため、この作業はさらに膨大になる。
低レベル特性(例えば、カラーヒストグラム)または意味的特性(例えば、ジャンル)のいずれかに基づくビデオのクラスタ化は、クラスタが手動分類または自動検出される場合に実行される(非特許文献1および非特許文献2参照)。
データクラスタ化のアルゴリズムは階層的または分割的であってよい。階層アルゴリズムは以前に形成されたクラスタを使用して順次後続のクラスタを見出すのに対して、分割アルゴリズムはすべてのクラスタを一度に決定する。階層アルゴリズムは集積的(ボトムアップ)または分割的(トップダウン)であってよい。集積的アルゴリズムは個別のクラスタとして各要素から開始し、それらクラスタを順次大きいクラスタに結合する。分割的アルゴリズムはセット全体から開始し、順次より小さいクラスタに分割するように進行する。
E. Bertino, J. Fan, E. Ferrari, M. -S. Hacid, A. K. Elmagarmid, X. Zhu 著、「ビデオデータベースシステムにおける階層的アクセス制御モデル(A hierarchical access control model for video database system)」ACM Transactions on Information Systems, 21(2), pp.155-191, 2003 C. -W. Ngo,T. -C. Pong, H. -J. Zhang 著「ビデオショットのクラスタ化および検索(On clustering and retrieval of video shots)」ACM Multimedia '01, pp.51-60
本発明は、複数のビデオからなるビデオコレクションをクラスタ化することにより、ビデオコレクション全体を迅速に閲覧し、所望のビデオ又はビデオの特定部分を迅速に検索することができる方法及びシステムを提供することを目的とする。
本発明の一実施形態では、ビデオコレクションを通して迅速に閲覧する方法が開示される。本発明の一実施形態では、ビデオコレクションはライブラリ全体、ライブラリの一部分、または問合せに応じて生成されるビデオリストのいずれかであってよい。本発明の方法は、人が作成したビデオ属性、自動計算されたビデオの属性の少なくとも1つによるビデオの階層クラスタ化に基づく。これらのクラスタへのアクセスは対話式ハイパービデオを介して提供される。本発明の一実施形態では、ユーザは、ビデオのより一般的なブループ分け/クラスタからビデオのより特定されたグループ分け/クラスタまで閲覧できる。この方法により、ユーザは段階的に所望のビデオ又はビデオ部分について焦点を絞ることができる。
本発明の一実施形態では、クラスタは、ユーザが関心対象のビデオクリップのサブグループおよび最終的には所望のビデオを順次識別できるハイパービデオとして提示される。この方法は、個別のビデオおよびクラスタ内の低レベルのクラスタから代表的なビデオクリップを選択することにより、各クラスタの内容についてのビデオ要約を生成する。クラスタリンクが、より一般的である、高レベルのクラスタとこれらが含む要素との間に加えられる。このように、ユーザは閲覧対象の、または検索エンジンにより返されるビデオのセットの最上部から、後続のそれぞれのクラスタのレベルに続いて、ビデオの関連部分および次のより低レベルのクラスタの関連部分についてのビデオ要約を提示される。クラスタツリーのあらゆるレベルで、ユーザはクラスタ内のビデオのビデオ要約を見ることができる。要約はサブクラスタのそれぞれからの代表的なクリップから成る。本発明の一実施形態では、ユーザは要約を見る際に3つのオプションを有する。第1に、ユーザは「これと類似するさらなるビデオ」に対するリンクを追跡することができる。このリンクは現在再生しているクリップにより提示されるサブクラスタまで達する。第2に、ユーザは「このビデオ」に対するリンクを選択して、現在再生しているクリップが抽出されたビデオ全体を見ることができる。最後に、ユーザは何もすることなく、ビデオを要約内の次の代表的クリップに進むことができる。
ビデオのクラスタ化は、ユーザがクラスタのビデオ要約だけを閲覧して、クラスタ内のビデオが関心対象である可能性があるかどうかを決定できるように、実行される。クラスタ化は、クラスタ内のビデオが少数のみとなるまで、ユーザがクラスタツリーを通して下方にナビゲートできるように階層的に実行される。ユーザは特定のビデオ要約を再生している間に、リンクを選択することにより特定のビデオにナビゲートできる。
即ち、本願請求項1に係る発明は、複数のビデオをクラスタ化する方法であって、
(a)複数のビデオから、各ビデオセグメントが前記ビデオの連続するサブシーケンスである1つ以上のビデオセグメントを選択し、
(b)1つ以上の属性を選択し、
(c)前記1つ以上の属性に基づいて前記1つ以上のビデオセグメントについて1つ以上の距離基準を生成し、
(d)前記1つ以上の距離基準に基づいて1つ以上の階層的クラスタ(hierarchical cluster)を生成し、
(e)各クラスタから前記1つ以上のビデオセグメントの1つ以上のビデオサブセットを選択することであって、第1ビデオサブセットが第1クラスタから選択され、第2ビデオサブセットが第2クラスタから選択され、
(f)前記選択された1つ以上のサブセットを結合することによりハイパービデオを生成することであって、ナビゲーションリンクが、前記第1クラスタと前記第2クラスタとの間の階層的リンクに基づいて前記第2ビデオサブセットと前記第1ビデオサブセットとを結合すること、を含むことを特徴とする。
請求項2に係る発明は、請求項1に係る発明において、
ステップ(e)および(f)がさらに、
ビデオセグメントの一部である、1つ以上の代表ビデオクリップを選択することであって、各代表ビデオクリップが前記クラスタ内に存在し、第1の代表ビデオクリップは前記第1クラスタから選択され、第2の代表ビデオクリップは前記第2クラスタから選択され、
前記選択された1つ以上の代表ビデオクリップを結合することによりハイパービデオを生成することであって、ナビゲーションリンクが、前記第1のクラスタと前記第2のクラスタと間の階層的リンクに基づいて、前記第1の代表ビデオクリップを第2の代表ビデオクリップに結合すること、を含むことを特徴とする。
請求項3に係る発明は、請求項1に係る発明において、
(g)1つ以上の検索基準を選択し、
(h)前記1つ以上の検索基準に基づいて前記複数のビデオの1回以上の検索を実行し、
(i)検索結果に基づいてステップ(a)に定義されている包含すべきビデオセグメントを選択すること、をさらに含むことを特徴とする。
請求項4に係る発明は、請求項3に係る発明において、1つ以上の前記検索基準が関連性スコアであり、包含のために選択される前記ビデオセグメントが、前記関連性スコアに基づいて1つ以上の検索において探索されることを特徴とする。
請求項5に係る発明は、請求項1に係る発明において、
(g)1つ以上の検索基準を選択し、
(h)前記1つ以上の検索基準に基づいて前記複数のビデオの1回以上の検索を実行し、
(i)前記検索結果に基づいてステップ(d)における階層的クラスタを取り除く(Pruning)こと、をさらに含むことを特徴とする。
請求項6に係る発明は、請求項5に係る発明において、1つ以上の前記検索基準は関連性スコアであり、前記クラスタの前記取り除くことは、前記関連性のスコアに基づいて検索されなかったビデオセグメントの削除に相当することを特徴とする。
請求項7に係る発明は、請求項1のステップ(a)において、1つ以上の前記属性が、前記ビデオの日付、前記ビデオセグメントの長さ、前記代表クリップの長さ、平均のショット長さ、色組成の平均、技術的な品質、問合せの関連性、字幕、字幕に関連するテキスト、字幕からの関連テキストの転写、代表クリップ内での検索項目の出現、代表クリップ近辺での検索項目の出現、著者、プロデューサ、検出される顔、物体の運動、俳優、キャラクター、場所、ジャンル、キーワード、注記または人工のメタデータから成るグループから選択されることを特徴とする。
請求項8に係る発明は、請求項1に係る発明において、前記階層的クラスタが、それぞれが最大N個のサブクラスタを有する複数のクラスタで形成されることを特徴とする。
請求項9に係る発明は、請求項1のステップ(c)において、前記距離基準が、項目ベクトルによりビデオセグメントを表現することにより生成されることを特徴とする。
請求項10に係る発明は、請求項1のステップ(d)において、前記1つ以上の階層的クラスタがK平均法クラスタ化アルゴリズムを用いて生成されることを特徴とする。
請求項11に係る発明は、請求項10のステップ(d)において、各ビデオ距離基準がユークリッド空間において特徴ベクトルによりビデオセグメントを表現することにより生成されることを特徴とする。
請求項12に係る発明は、請求項10のステップ(d)において、サブクラスタの数Nが前記クラスタ化アルゴリズムの再帰的な適用により生成されることを特徴とする。
請求項13に係る発明は、請求項1のステップ(d)において、前記階層的クラスタが集積的クラスタ化アルゴリズムを用いる二進数クラスタツリーであることを特徴とする。
請求項14に係る発明は、請求項13のステップ(d)において、Nが二進数クラスタツリー内のクラスタのサブツリーの数であり、Nはツリーを切断することにより決定されることを特徴とする。
請求項15に係る発明は、請求項1の発明において、ビデオセグメント間の前記1つ以上の距離基準が空間における特徴ベクトル間の1つ以上の距離であることを特徴とする。
請求項16に係る発明は、請求項1の発明において、ビデオセグメント間の前記1つ以上の距離基準が空間における項目ベクトル間の1つ以上のコサイン距離であることを特徴とする。
請求項17に係る発明は、請求項13の発明において、前記クラスタの距離基準が最小距離、最大距離および平均距離から成る前記グループから選択されることを特徴とする。
請求項18に係る発明は、複数のビデオをクラスタ化する装置であって、
(a)複数のビデオから、各ビデオセグメントが前記ビデオの連続するサブシーケンスである1つ以上のビデオセグメントを選択する手段と、
(b)1つ以上の属性を選択する手段と、
(c)前記1つ以上の属性に基づいて前記1つ以上のビデオセグメントについて1つ以上の距離基準を生成する手段と、
(d)前記1つ以上の距離基準に基づいて1つ以上の階層的クラスタを生成する手段と、
(e)各クラスタから前記1つ以上のビデオセグメントの1つ以上のビデオサブセットを選択する手段であって、第1ビデオサブセットが第1クラスタから選択され、第2ビデオサブセットが第2クラスタから選択される手段と、
(f)前記選択された1つ以上のサブセットの結合によりハイパービデオを作成する手段であって、ナビゲーションリンクが、前記第1クラスタと前記第2クラスタと間の階層的リンクに基づいて前記第1ビデオサブセットを前記第2ビデオサブセットに結合する手段と、を備えることを特徴とする。
請求項19に係る発明は、請求項18に記載の装置により複数のビデオをクラスタ化するシステムであって、
a)1つ以上のパラメータのセットを指定し、前記1つ以上のパラメータのセットをソースコードに転送し、前記ソースコードを一連のタスクにコンパイルすることにより、ユーザが複数のビデオをクラスタ化することができる、1つ以上のプロセッサと
b)媒体上に格納された命令を含む機械可読媒体であって、前記命令は1つ以上のプロセスにより処理されると、システムに、1つ以上のパラメータのセットを指定し、1つ以上のパラメータのセットをソースコードに転送し、前記ソースコードを一連のタスクにコンパイルすることにより、ユーザが複数のビデオをクラスタ化することを実行させる、機械可読媒体と、を備えることを特徴とする。
請求項20に係る発明は、システムにより複数のビデオをクラスタ化するための命令を有するプログラムであって、前記命令は前記システムのプロセッサで実行されることにより、前記システムに、
(a)前記複数のビデオの少なくとも一部を選択して、前記ビデオセグメントが前記ビデオの連続するサブシーケンスである1つ以上のビデオセグメントを生成し、
(b)1つ以上の属性を選択し、
(c)前記1つ以上の属性に基づいて前記1つ以上のビデオセグメントについて1つ以上の距離基準を生成し、
(d)前記1つ以上の距離基準に基づいて1つ以上の階層的クラスタを生成し、
(e)各クラスタから前記1つ以上のビデオセグメントの1つ以上のビデオサブセットを選択することであって、第1ビデオサブセットが第1クラスタから選択され、第2ビデオサブセットが第2クラスタから選択され、
(f)前記選択された1つ以上のビデオサブセットを結合することによりハイパービデオを作成することであって、ナビゲーションリンクが、前記第1クラスタと前記第2クラスタと間の階層的なリンクに基づいて前記第1ビデオサブセットを前記第2ビデオサブセットに結合すること、を実行させることを特徴とする。
ここに述べた概要は、本発明の完全な説明を意図するもの、または本発明の範囲を制限することを意図するものでもない。本発明の代替的および追加的な特徴、態様および目的は、明細書、図面および特許請求の範囲を検討することにより得られる。
本発明により、多数のビデオからなるビデオコレクションをツリー状にクラスタ化し、各クラスタの内容を要約するとともにクラスタへの索引として機能するリンクを有する代表ビデオセグメントを表示することができ、これによりユーザはビデオコレクションから所望のビデオ又はビデオの一部分を迅速に検索してアクセスすることができる。
本発明は特定の実施形態に関して説明される。追加的態様は図から認識できる。
本発明の実施形態においては、ハイパービデオは以下のようにして作成できる。クラスタツリーの任意のレベルで、ユーザはクラスタの内容を要約するビデオセグメントを表示できる。このビデオは、直接リンクされたサブクラスタのそれぞれから代表的クリップを連結することにより作成できる。サブクラスタが単一のビデオである場合、クラスタの代表的クリップを要約で使用するか、またはこのビデオの関連クリップのみを考慮するかのいずれかである。サブクラスタが複数のビデオを含む場合、クラスタの代表ビデオからのクリップを使用できる。クラスタの代表ビデオは、ビデオ全体またはこれらビデオ内のクリップのいずれか適用される、クラスタ化アルゴリズムにより決定できる。ビデオについての代表クリップは、米国特許第7,068,723号に開示されているアルゴリズム(ビデオ全体にもっとも類似するクリップを特定するアルゴリズム)により決定できる。技術的品質およびビデオセグメントの長さなどの基準に基づく重要基準といった他の要因を用いることもできる。
ビデオのクラスタ化
本発明が提案するこの態様は、ビデオクリップまたはビデオ全体をクラスタ化して有効なグループ分けを作成する方法を説明する。本発明のさまざまな実施形態においては、各種のクラスタ化アルゴリズムを利用できる。本発明の一実施形態においては、トップダウン式の階層的K平均法クラスタ化が使用できる。本発明の別の実施形態では、ボトムアップ式の集積的クラスタ化を使用して、ビデオを有効なグループ分けに分類(ソート)できる。クラスタ化アルゴリズムにおける距離基準は、ビデオの日付および長さ、ビデオの平均ショット長さ、平均色成分、クローズドキャプション(字幕)またはトランスクリプション(音声転写)からの関連するテキスト、著者、プロデューサ、俳優、キャラクターといった人物に付帯するメタデータ、場所、ジャンル、キーワードおよび注記を含む、ビデオ属性の組み合わせに基づくことができる。ビデオが問合せの結果である場合、その結果もまた関連性に基づいてクラスタ化されることができる。テキストベース(転写またはメタデータのいずれかに基づく)のクラスタ化が最良の結果を生成すると予測されるが、検出された顔のような他の属性も有効な結果を生成しうる。
K平均法アルゴリズム
K平均法アルゴリズムは、その中心が最も近いクラスタに各点を割当てる。中心はクラスタ内のすべての点の平均である(すなわち、中心の座標はクラスタ内のすべての点にわたる別個の各次元の算術平均である)。K平均法アルゴリズムはトップダウン式である。本発明の一実施形態では、標準的階層K平均法クラスタ化を用いてビデオのクラスタツリーを生成できる。本発明の一実施形態では、各ビデオクリップまたはビデオは、ユークリッド空間における特徴ベクトル(feature vector)によって表すことができ、ビデオクリップまたはビデオの間の距離は単に、空間における特徴ベクトル間の距離であると想定される。例えば、本発明の一実施形態においては、ビデオがジャンルによりグループ分けされる場合、特徴ベクトルはビデオの平均カラーヒストグラム、ビデオの長さおよび平均ショット長さから構成されることができ、距離は特徴ベクトル間の分散重み付きユークリッド距離である。別の例としては、関連するテキストに基づいたビデオクリップのクラスタ化がある。この場合には、ビデオクリップの特徴は項目ベクトル(term vector)であり、距離はコサイン距離であってよい。
ビデオクリップが関連するテキストに基づいてクラスタ化されると、項目ベクトルは関連テキスト内に存在する可能性のある各項目の頻度tを表す。項目頻度は、ビデオコレクション全体にわたる各項目の全体的な頻度を考慮に入れた項目重み付けにより修正される。項目ベクトルは極めて疎であるため、距離基準は、潜在的意味解析などの技術を使用して、各項目ベクトルを低次元の空間に変換することにより改善できる。2つの項目ベクトルの距離は、2つのベクトルの内積である、コサイン距離により測定できる。
K平均法クラスタ化アルゴリズムは、単一のルートクラスタ内のすべてのビデオから開始される。本発明の一実施形態では、クラスタは以下のようにN個のサブクラスタに分割できる。
1)各サブクラスタの平均を、ルートクラスタの平均のランダムオフセットとなるよう設定する。
2)各ビデオを、サブクラスタ平均までのビデオの距離に基づいて最近傍のサブクラスタに割当てることにより、標準K平均法クラスタ化を実行する。
3)新しい要素(ビデオ)を包含することでサブクラスタの平均を更新する。
アルゴリズムが収束すると、すべてのサブクラスタがN個未満のビデオを有するまで、同様の手順が各サブクラスタに対して実行される。本発明の一実施形態では、N=5が使用されうるが、本発明のさまざまな実施形態においては、他の値のNが可能である。
集積的クラスタ化アルゴリズム
集積的クラスタ化アルゴリズムは、クラスタを漸進的に結合することにより個々の要素から階層を構築する。集積的クラスタ化アルゴリズムはボトムアップ式である。本発明の一実施形態では、各ビデオクリップまたはビデオそれ自体がクラスタとされる。次に、2つの最近傍のクラスタを単一のクラスタに順次に結合する。本発明のさまざまな実施形態においては、クラスタ間の距離は、クラスタ内のビデオ間の最小、最大または平均距離として定義できる。本発明の一実施形態では、より緊密にグループ分けされたクラスタを得るために、最大距離が用いられうる。階層的クラスタ化は、最小の結合クラスタを生成する2つのクラスタを結合することにより実行できる。最初は、各画像が自身のクラスタを表す。ツリー内のノードの高さは結合クラスタの直径(要素の最大ペアワイズ距離)を表す。クラスタはクラスタの中心に最も近い要素により表される。ツリー内のビデオセグメントは時間順ではないことに注意されたい。アルゴリズムは、クラスタが1つになると、終了する。本発明の一実施形態では、集積的クラスタ化は特徴ベクトルを必要とせず、距離基準のみを必要とする。このような距離基準は、付帯されるテキスト(例えば、ビデオクラスタの項目ベクトル間のコサイン差)に基づくか、または、視覚的属性およびメタデータ属性(例えば、共通の俳優の数と結合されたビデオクリップの平均ヒストグラム間のカラーヒストグラム差)に基づいている。
集積的クラスタ化に基づくクラスタツリーは二進数である。本発明の一実施形態では、通過する必要があるレベル数を低減するために、ツリーを取り除き、該当するノードに対してN個のサブツリーを生成する。ツリーの最上位レベルから開始する、N個のサブツリーを得る切断が行われる。
代表ビデオおよび代表クリップ
本発明のさまざまな実施形態においては、1つ以上の代表的なビデオクリップまたはビデオを選択して、ハイパービデオ内のクラスタの内容を示すことができる。本発明の一実施形態では単一の代表ビデオクリップまたはビデオが選択されるが、容易にアルゴリズムを更新して対象クラスタ内のサブクラスタの複数の代表ビデオを選択することにより任意の数の代表ビデオを選択することもできる。本発明の一実施形態において、K平均法アルゴリズムでは、クラスタの代表ビデオは、クラスタの平均に最も近いビデオとして定義される。本発明の一実施形態において、集積的クラスタ化アルゴリズムでは、クラスタの代表ビデオは、クラスタ内の他のビデオまでの距離の和が最小であるビデオである。
ビデオ全体を扱う場合、代表ビデオからの代表的クリップは、ビデオの残余分に対する各クリップの類似性に基づく、米国特許第7,068,723号で提供される方法を用いて決定できる。クラスタについて複数の代表ビデオクリップが選択された場合、これらのクリップのサブセットが同じ方法で選択できる。技術的品質、あるいはビデオセグメントの長さまたはビデオクリップ内および/またはビデオクリップ近傍での検索項目の出現といった検索基準に基づく重要性基準といった、他の要因も使用できる。

例えば、ユーザが「ジャガー(Jaguar)」を検索した場合、多数のビデオまたはビデオクリップを見出されうる。ビデオまたはビデオクリップは、猫、車、および家庭用電子製品にクラスタ化されうる。車に関するクラスタはさらに、車の販売店、メンテナンスおよびおもちゃの自動車に細分されうる。家庭用電子製品に関するクラスタはさらに、Mac OS 10.2(Jaguar)、IBM家庭用電気製品およびAtari Jaguar、Motorola社の家庭用電化製品に細分されている可能性がある。
クラスタツリーからのハイパービデオの生成
クラスタツリーを閲覧するために使用されるハイパービデオを作成するためには、すべての非終端クラスタ(非終端クラスタは、単一のビデオクリップまたはビデオではない少なくとも1つのサブクラスタを有する)はN個のサブクラスタを有する必要がある。K平均法クラスタ化アルゴリズムを用いると、Nは、クラスタ化アルゴリズムを再帰的に適用する場合にクラスタの数として指定される。集積的階層クラスタ化アルゴリズムでは、二進数のクラスタツリーを再帰的に枝刈りして、各クラスタに対してN個のサブクラスタを見出す。結果として得られるクラスタはサイズでは均衡していないが、各クラスタは少なくとも1つのビデオクリップまたはビデオを含むことになる。
ツリーの各ノードでは、ビデオシーケンスが各サブクラスタからの代表クリップの連結により生成できる(図1参照)。ハイパービデオリンクは、各代表クリップから、対応するサブクラスタの代表ビデオまたは代表ビデオのセット、および親ビデオクリップにまで、生成される。アルゴリズムは、各サブクラスタが単一のビデオクリップまたはビデオを含む場合に終了する。
リンクラベルがナビゲーションを支援するために使用されることができる。クラスタ化がテキストまたはメタデータの属性に基づいている場合、ラベルは、クラスタにおける最も頻度の高い項目または属性として選択されうる。F.Chen, U. Gargi, L. Niles, H. Schutzeの「ウェブ文書における画像の多重モード閲覧(Multi-Modal Browsing of Images in Web Document)」(SPIE '99)、J. Adcock他の「潜在的意味解析を用いる問合せ関連キーワードの識別方法(Method for Identifying Query-relevant Keywords in Documents with Latent Semantic Analysis)」、米国特許出願第10/987,377号を参照されたい。ビデオの固定されたライブラリに索引付けする場合(例えば、Yahoo!(登録商標)のビデオの分類のような)といった、クラスタ化結果が何度も使用される場合は、ハイパービデオの作成者は、Hyper−Hitchcock(米国特許第6,807,361号参照)において自動的に生成されるハイパービデオを修正し、手動でラベルを追加できる。
このアルゴリズムは、大きなクラスタから小さなクラスタおよび個々のビデオの代表ビデオに、小さなクラスタから個々のビデオの代表ビデオに、および個々のビデオの代表ビデオからそのビデオ自体に、ナビゲーションリンクを備えるハイパービデオを生成する(図1参照)。個々のビデオの代表ビデオは、個々のビデオが短いかまたはビデオの内容の第1セグメントに基づいて容易に認識可能である場合、この階層的構成のナビゲーション構造から外して残すことができる。これらのクラスタを閲覧するためのビデオプレイヤーは、サブクラスタにナビゲートするためのリンク(例えば「このような海を見つける」)と、クリップが抽出されたビデオにナビゲートするためのリンク(例えば「このビデオを表示」)とのための2つのボタンを含まなければならない。
図2は、視覚的特徴を有する、階層的構成のビデオコレクションを扱うように設計されたハイパービデオプレイヤーを示す。プレイヤーはリンクラベルに加えて、各リンクに対してキーフレームを提供し、閲覧者が代表ビデオの再生を見ることなくリンクを辿るか、または代替的にユーザは代表ビデオがすでに再生を終了しているクラスタへのリンクを辿ることができる。キーフレームのこのコレクションは、すべてのキーフレームが最初にビデオの該当部分にナビゲートする必要なくクリック可能であるため、リンクされたビデオとは別個の索引を提供する。
ハイパービデオを使用する検索結果の閲覧
これらの技術はさらに、ビデオコレクションへの問合せの結果から生じるクラスタ化ビデオを閲覧するために用いることができる。問合せに基づいてハイパービデオを生成するのに2つの方法がある。第1の方法は、最初に問合せが実行され、その後に関連ビデオがクラスタ化され、ハイパービデオが生成されることを想定している。第2の方法は、最初にビデオコレクション全体を使用してクラスタツリーを生成する。このとき、問合せを用いてクラスタツリーの枝刈りをして、問合せに関連しないすべてのサブツリーを削除する。この後に、ハイパービデオが枝刈りされたツリーから生成される。この場合、クラスタの代表ビデオは、すべてのサブクラスタが含まれているとは限らないため、短くなる。
ビデオの関連部分だけが所望される場合、ビデオクリップに関してクラスタ化を実行するか、またはビデオ全体をクラスタ化し、ビデオの無関係の部分をハイパービデオ要約から除去するかのいずれであってもよい。後者の場合、ビデオのハイパービデオ要約をビデオの関連部分だけを考慮して即時(on the fly)に生成するか、または無関係の部分を指すクラスタリンクを枝刈りまたは方向転換(リダイレクト)するかのいずれであってもよい。
図2は、人に割当てられたメタデータに基づいてビデオがクラスタ化された例を示している。クラスタが自動的に生成されるとき(テキスト、メタデータまたは視覚的特性に基づいて)、所定のクラスタ内でどのビデオが見つかるかは明らかでない。
図3は、視覚的違いが少ないビデオコレクションに対するクラスタツリーを見出すために、検索結果を閲覧する第2のハイパービデオプレイヤーを示す。この場合、ビデオコレクションはニュースビデオであり、転写に基づいてクラスタ化されている。ビデオには視覚的違いはない(多くのショットはニュースキャスターまたはレポーターである)ため、キーフレームはクラスタを識別する項目のセットに置き換えられている。クラスタまたはビデオを区別する項目はクラスタの内容に対して意味を与えるため、リンクのラベルとして選択される。また、ハイパービデオ構造は、各クラスタおよびビデオに関する項目を表示するツリーとして左側に提示される。
図3の例では、問合せ「strike(ストライク)」に対する結果はベースボールストライク、パイロットのストライキおよび関連する経済事象、およびセルビア、イラクおよびイスラエルでの軍事攻撃を示すクラスタにグループ分けされる。クラスタの結果は、自動的に認識されるスピーチおよびビデオストリームのストーリーへの発見的分割に基づいているため、不完全である。しかし依然として、結果として得られるハイパービデオは、ユーザにトピックによって検索結果を探索させることになり、クラスタおよびストーリーに関連するキーワードの提示は、所望の内容を見出す可能性がある位置の勘をユーザに提供する。
一般的な映像長さのビデオライブラリは、3分から2時間の長さの範囲の数千のビデオを含む。ビデオはキーワード、場所または日付により索引付けされる。しかし、1つ以上のこれらの索引によりデータベースを検索した後でさえ、依然として、分類すべき数百のビデオが残される。クラスタツリーを作成し、ハイパービデオを使用することにより、ビデオの検索が容易になる。クラスタツリーは、ビデオに関連するテキスト、メタデータ索引、または内容の特徴を使用してジャンルにより生成できる。
同様に、TRECVIDなどの、ビデオデータベースに対する検索オプションおよびアルゴリズムに依存して、多数の関連する可能性のあるビデオまたはビデオセグメントを返すことができる。図3は、検索インタフェースおよびハイパービデオプレイヤーをどのように使用して、TRECVIDへの問合せ結果を評価できるか、を示している。検索結果を選択するためのビデオ検索方法およびシステムは、A. Girgensohn他の米国特許第10/986,735号「ビデオコレクションから検索結果を提示するシステム(System for Presenting Search Result from a Collection of Video)」に開示されている。
本発明の一実施形態では、ビデオ検索方法は、ディジタル映画データベースを検索するために使用できる。通常、ユーザは、コメディまたはアクションといった分類により映画を閲覧する。本発明の一実施形態では、クラスタツリーは、俳優、場所またはディレクターといったメタデータに基づいて、またはクローズドキャプション(字幕)テキストにより、類似のビデオをグループ分けする。これにより、ユーザは、サブツリー構造を利用して、より迅速にコレクションを閲覧できる。図2はこのように視覚的に区別可能な内容に対する検索インタフェースを示している。
本発明のさまざまな実施形態では、階層的な閲覧およびビデオ要約は対話式のハイパービデオを使用して実行できる。本発明の一実施形態では、ビデオのクラスタ化、要約のための代表ビデオおよびクリップの検出、およびコレクションと対話するためのハイパービデオの作成、に対するアルゴリズムが開示されている。本発明の代替的の実施形態では、アルゴリズムはビデオセグメントを扱う。
本発明のさまざまな実施形態では、複数のビデオは複数のビデオセグメントに分割され、各ビデオセグメントはビデオの連続したサブシーケンス(すなわち、ビデオの各フレームはビデオセグメントの開始からビデオセグメントの終了まで、ビデオ内と同一の順序でビデオセグメント内に含まれる)である。距離基準は各ビデオセグメントを表すために使用でき、この場合、距離基準はビデオの属性に基づいて計算される。これにより、複数ビデオの階層的クラスタは、距離基準に基づいて生成できる。本発明の一実施形態では、各クラスタでビデオサブセットを選択してハイパービデオを生成するために使用でき、この場合、ナビゲーションリンクはクラスタ間の階層的リンクに基づいてビデオサブセットを結合する。ビデオサブセットは各クラスタに対して選択される1つ以上のビデオセグメントであってよい。属性はビデオの日付、ビデオの長さ、代表クリップの長さ、平均のショット長さ、平均の色組成、技術的品質、問合せへの関連性、クローズドキャプション(字幕)、クローズドキャプションに関連するテキスト、クローズドキャプションからの関連テキストの転写、代表クリップ内の検索項目の出現、代表クリップの近傍での検索項目の出現、著者、プロデューサ、検出される顔、物体の運動、俳優、キャラクター、場所、ジャンル、キーワード、注記または人工のメタデータである。
本発明の代替的実施形態では、各ビデオセグメントについて代表ビデオクリップを選択してハイパービデオを生成でき、この場合、ナビゲートのリンクはクラスタ間の階層的リンクに基づいて代表ビデオクリップを結合する。代表ビデオクリップは各クラスタの代表であるとして選択される1つ以上のビデオセグメントであってよい。
本発明の一実施形態では、複数ビデオの検索は、セグメント化されるビデオを選択し、および階層的クラスタ化およびハイパービデオを最終的に達成するのに使用できる。本発明の代替的実施形態では、検索は階層的クラスタを取り除くために使用できる。
本発明の代替的実施形態では、検索基準は関連性スコアであり、包含および/または取り除くために選択されるビデオは関連性スコアに基づいて検索されてもよい。
本発明の一実施形態では、ビデオセグメント間の距離基準は空間内の特徴ベクトル間の距離であり、特徴ベクトルはユークリッド空間における属性を表す。本発明の代替的実施形態では、ビデオセグメント間の距離基準は空間内の項目ベクトル間の1つ以上のコサイン距離である。
本発明は複数のビデオをクラスタ化する装置として実現することもでき、該装置は本発明による複数のビデオをクラスタ化する方法により動作することができる。装置はプロセッサ及び記憶装置(揮発性メモリや不揮発性メモリ、フレキシブルディスクやCD-R等のあらゆる機械可読媒体を含む)を備えたコンピュータであってよい。本発明はまた、前記記憶装置に記憶され、プロセッサにより実行されることにより、コンピュータを複数のビデオをクラスタ化するシステムとして動作させるプログラムとして実現することもできる。
本明細書では、本発明の方法およびシステムの例示的実施形態が開示されている。別に注記したとおり、これらの例の実施形態は単に説明の目的として開示されたものであって、本発明を制限するものではない。他の実施形態も可能であるが、本発明の範囲に含まれる。このような実施形態は当業者には本明細書に含まれる教示に基づいて明らかであろう。
従って、本発明の領域および範囲は上述の例示的な実施形態のいずれによっても制限されず、特許請求の範囲およびその均等物によってのみ定義されるものとする。
一連のフレームとして右上に示されるビデオと、クラスタ(左下)の代表であるビデオ(右中央)を含むビデオの一部で形成されている、ハイパービデオ(左上)との間の関係を概略的に示す図であり、ハイパービデオはクラスタ化の結果へのアクセスを提供する。 ハイパービデオを形成するビデオの一部のそれぞれに対するキーフレームリンクを備えるハイパービデオプレイヤーの画面インタフェースを示す図である。 検索結果を閲覧するための、ハイパービデオプレイヤーの画面インタフェースを示す図である。

Claims (20)

  1. 複数のビデオをクラスタ化する方法であって、
    (a)複数のビデオから、各ビデオセグメントが前記ビデオの連続するサブシーケンスである1つ以上のビデオセグメントを選択し、
    (b)1つ以上の属性を選択し、
    (c)前記1つ以上の属性に基づいて前記1つ以上のビデオセグメントについて1つ以上の距離基準を生成し、
    (d)前記1つ以上の距離基準に基づいて1つ以上の階層的クラスタを生成し、
    (e)各クラスタから前記1つ以上のビデオセグメントの1つ以上のビデオサブセットを選択することであって、第1ビデオサブセットが第1クラスタから選択され、第2ビデオサブセットが第2クラスタから選択され、
    (f)前記選択された1つ以上のサブセットを結合することによりハイパービデオを生成することであって、ナビゲーションリンクが、前記第1クラスタと前記第2クラスタとの間の階層的リンクに基づいて前記第2ビデオサブセットと前記第1ビデオサブセットとを結合すること、
    を含む方法。
  2. ステップ(e)および(f)がさらに、
    ビデオセグメントの一部である、1つ以上の代表ビデオクリップを選択することであって、各代表ビデオクリップが前記クラスタ内に存在し、第1の代表ビデオクリップは前記第1クラスタから選択され、第2の代表ビデオクリップは前記第2クラスタから選択され、
    前記選択された1つ以上の代表ビデオクリップを結合することによりハイパービデオを生成することであって、ナビゲーションリンクが、前記第1のクラスタと前記第2のクラスタと間の階層的リンクに基づいて、前記第1の代表ビデオクリップを第2の代表ビデオクリップに結合すること、
    を含む請求項1に記載の方法。
  3. (g)1つ以上の検索基準を選択し、
    (h)前記1つ以上の検索基準に基づいて前記複数のビデオの1回以上の検索を実行し、
    (i)検索結果に基づいてステップ(a)に定義されている包含すべきビデオセグメントを選択すること、
    をさらに含む、請求項1に記載の方法。
  4. 1つ以上の前記検索基準が関連性スコアであり、包含のために選択される前記ビデオセグメントが、前記関連性スコアに基づいて1つ以上の検索において探索される、請求項3に記載の方法。
  5. (g)1つ以上の検索基準を選択し、
    (h)前記1つ以上の検索基準に基づいて前記複数のビデオの1回以上の検索を実行し、
    (i)前記検索結果に基づいてステップ(d)における階層的クラスタを取り除くこと、
    をさらに含む、請求項1に記載の方法。
  6. 1つ以上の前記検索基準は関連性スコアであり、前記クラスタの前記取り除くことは、前記関連性のスコアに基づいて検索されなかったビデオセグメントの削除に相当する、請求項5に記載の方法。
  7. ステップ(a)において、1つ以上の前記属性が、前記ビデオの日付、前記ビデオセグメントの長さ、前記代表クリップの長さ、平均のショット長さ、色組成の平均、技術的な品質、問合せの関連性、字幕、字幕に関連するテキスト、字幕からの関連テキストの転写、代表クリップ内での検索項目の出現、代表クリップ近辺での検索項目の出現、著者、プロデューサ、検出される顔、物体の運動、俳優、キャラクター、場所、ジャンル、キーワード、注記または人工のメタデータから成るグループから選択される、請求項1に記載の方法。
  8. 前記階層的クラスタが、それぞれが最大N個のサブクラスタを有する複数のクラスタで形成される、請求項1に記載の方法。
  9. ステップ(c)において、前記距離基準が、項目ベクトルによりビデオセグメントを表現することにより生成される、請求項1に記載の方法。
  10. ステップ(d)において、前記1つ以上の階層的クラスタがK平均法クラスタ化アルゴリズムを用いて生成される、請求項1に記載の方法。
  11. ステップ(d)において、各ビデオ距離基準がユークリッド空間において特徴ベクトルによりビデオセグメントを表現することにより生成される、請求項10に記載の方法。
  12. ステップ(d)において、サブクラスタの数Nが前記クラスタ化アルゴリズムの再帰的な適用により生成される、請求項10に記載の方法。
  13. ステップ(d)において、前記階層的クラスタが集積的クラスタ化アルゴリズムを用いる二進数クラスタツリーである、請求項1に記載の方法。
  14. ステップ(d)において、Nが二進数クラスタツリー内のクラスタのサブツリーの数であり、Nはツリーを切断することにより決定される、請求項13に記載の方法。
  15. ビデオセグメント間の前記1つ以上の距離基準が空間における特徴ベクトル間の1つ以上の距離である、請求項1に記載の方法。
  16. ビデオセグメント間の前記1つ以上の距離基準が空間における項目ベクトル間の1つ以上のコサイン距離である、請求項1に記載の方法。
  17. 前記クラスタの距離基準が最小距離、最大距離および平均距離から成る前記グループから選択される、請求項13に記載の方法。
  18. 複数のビデオをクラスタ化する装置であって、
    (a)複数のビデオから、各ビデオセグメントが前記ビデオの連続するサブシーケンスである1つ以上のビデオセグメントを選択する手段と、
    (b)1つ以上の属性を選択する手段と、
    (c)前記1つ以上の属性に基づいて前記1つ以上のビデオセグメントについて1つ以上の距離基準を生成する手段と、
    (d)前記1つ以上の距離基準に基づいて1つ以上の階層的クラスタを生成する手段と、
    (e)各クラスタから前記1つ以上のビデオセグメントの1つ以上のビデオサブセットを選択する手段であって、第1ビデオサブセットが第1クラスタから選択され、第2ビデオサブセットが第2クラスタから選択される手段と、
    (f)前記選択された1つ以上のサブセットの結合によりハイパービデオを作成する手段であって、ナビゲーションリンクが、前記第1クラスタと前記第2クラスタと間の階層的リンクに基づいて前記第1ビデオサブセットを前記第2ビデオサブセットに結合する手段と、
    を備えた装置。
  19. 請求項18に記載の装置により複数のビデオをクラスタ化するシステムであって、
    a)1つ以上のパラメータのセットを指定し、前記1つ以上のパラメータのセットをソースコードに転送し、前記ソースコードを一連のタスクにコンパイルすることにより、ユーザが複数のビデオをクラスタ化することができる、1つ以上のプロセッサと
    b)媒体上に格納された命令を含む機械可読媒体であって、前記命令は1つ以上のプロセスにより処理されると、システムに、1つ以上のパラメータのセットを指定し、1つ以上のパラメータのセットをソースコードに転送し、前記ソースコードを一連のタスクにコンパイルすることにより、ユーザが複数のビデオをクラスタ化することを実行させる、機械可読媒体と、
    を備えた、システム。
  20. システムにより複数のビデオをクラスタ化するための命令を有するプログラムであって、前記命令は前記システムのプロセッサで実行されることにより、前記システムに、
    (a)前記複数のビデオの少なくとも一部を選択して、前記ビデオセグメントが前記ビデオの連続するサブシーケンスである1つ以上のビデオセグメントを生成し、
    (b)1つ以上の属性を選択し、
    (c)前記1つ以上の属性に基づいて前記1つ以上のビデオセグメントについて1つ以上の距離基準を生成し、
    (d)前記1つ以上の距離基準に基づいて1つ以上の階層的クラスタを生成し、
    (e)各クラスタから前記1つ以上のビデオセグメントの1つ以上のビデオサブセットを選択することであって、第1ビデオサブセットが第1クラスタから選択され、第2ビデオサブセットが第2クラスタから選択され、
    (f)前記選択された1つ以上のビデオサブセットを結合することによりハイパービデオを作成することであって、ナビゲーションリンクが、前記第1クラスタと前記第2クラスタと間の階層的なリンクに基づいて前記第1ビデオサブセットを前記第2ビデオサブセットに結合すること、を実行させる、
    プログラム。
JP2007170049A 2006-08-02 2007-06-28 複数のビデオをクラスタ化するための方法、装置、システム、及びプログラム Pending JP2008042895A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/498,686 US20080127270A1 (en) 2006-08-02 2006-08-02 Browsing video collections using hypervideo summaries derived from hierarchical clustering

Publications (1)

Publication Number Publication Date
JP2008042895A true JP2008042895A (ja) 2008-02-21

Family

ID=39177354

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007170049A Pending JP2008042895A (ja) 2006-08-02 2007-06-28 複数のビデオをクラスタ化するための方法、装置、システム、及びプログラム

Country Status (2)

Country Link
US (1) US20080127270A1 (ja)
JP (1) JP2008042895A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010028184A (ja) * 2008-02-04 2010-02-04 Fuji Xerox Co Ltd 映像ナビゲーション方法、映像ナビゲーションシステム、及び映像ナビゲーションプログラム
US8352985B2 (en) 2008-04-23 2013-01-08 Samsung Electronics Co., Ltd. Method of storing and displaying broadcast contents and apparatus therefor
KR20140041557A (ko) * 2011-06-17 2014-04-04 마이크로소프트 코포레이션 미디어 세트의 계층적인, 줌 가능한 프레젠테이션
JP2017062761A (ja) * 2015-09-22 2017-03-30 富士ゼロックス株式会社 ハイパービデオの再生プランを可視化する方法、システム及びプログラム
CN111741331A (zh) * 2020-08-07 2020-10-02 北京美摄网络科技有限公司 一种视频片段处理方法、装置、存储介质及设备

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100771244B1 (ko) * 2006-06-12 2007-10-29 삼성전자주식회사 동영상 데이터 처리 방법 및 장치
US8276098B2 (en) 2006-12-22 2012-09-25 Apple Inc. Interactive image thumbnails
US7954065B2 (en) * 2006-12-22 2011-05-31 Apple Inc. Two-dimensional timeline display of media items
US9142253B2 (en) * 2006-12-22 2015-09-22 Apple Inc. Associating keywords to media
US20080288869A1 (en) * 2006-12-22 2008-11-20 Apple Inc. Boolean Search User Interface
US8280877B2 (en) * 2007-02-22 2012-10-02 Microsoft Corporation Diverse topic phrase extraction
DE102007063635A1 (de) * 2007-03-22 2009-04-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zur zeitlichen Segmentierung eines Videos in Videobildfolgen und zur Auswahl von Keyframes für das Auffinden von Bildinhalten unter Einbeziehung einer Subshot-Detektion
US20090007178A1 (en) * 2007-06-12 2009-01-01 Your Truman Show, Inc. Video-Based Networking System with a Video-Link Navigator
US20090070321A1 (en) * 2007-09-11 2009-03-12 Alexander Apartsin User search interface
US20090100093A1 (en) * 2007-10-16 2009-04-16 Nokia Corporation Apparatus, system, method and computer program product for previewing media files
US20090249427A1 (en) * 2008-03-25 2009-10-01 Fuji Xerox Co., Ltd. System, method and computer program product for interacting with unaltered media
US8239359B2 (en) * 2008-09-23 2012-08-07 Disney Enterprises, Inc. System and method for visual search in a video media player
KR20100095777A (ko) * 2009-02-23 2010-09-01 삼성전자주식회사 전자기기에서 컨텐츠의 썸네일 추출 방법 및 장치
US8566315B1 (en) * 2009-03-09 2013-10-22 Google Inc. Sequenced video segment mix
US20110214147A1 (en) * 2010-02-22 2011-09-01 Kashyap Ashwin S Method for determining content for a personal channel
US9185326B2 (en) 2010-06-11 2015-11-10 Disney Enterprises, Inc. System and method enabling visual filtering of content
US9171578B2 (en) 2010-08-06 2015-10-27 Futurewei Technologies, Inc. Video skimming methods and systems
US8712930B1 (en) 2010-08-09 2014-04-29 Google Inc. Encoding digital content based on models for predicting similarity between exemplars
US8726161B2 (en) * 2010-10-19 2014-05-13 Apple Inc. Visual presentation composition
US8689269B2 (en) * 2011-01-27 2014-04-01 Netflix, Inc. Insertion points for streaming video autoplay
US8515193B1 (en) 2011-04-08 2013-08-20 Google Inc. Image compression using exemplar dictionary based on hierarchical clustering
US9262518B2 (en) * 2011-05-04 2016-02-16 Yahoo! Inc. Dynamically determining the relatedness of web objects
US9179201B2 (en) 2011-08-26 2015-11-03 Cyberlink Corp. Systems and methods of detecting significant faces in video streams
US9552124B2 (en) 2012-04-27 2017-01-24 Mobitv, Inc. Character based search and discovery of media content
EP2690879B1 (en) * 2012-07-23 2016-09-07 LG Electronics, Inc. Mobile terminal and method for controlling of the same
US20140181668A1 (en) * 2012-12-20 2014-06-26 International Business Machines Corporation Visual summarization of video for quick understanding
US9110988B1 (en) * 2013-03-14 2015-08-18 Google Inc. Methods, systems, and media for aggregating and presenting multiple videos of an event
US9021526B1 (en) * 2013-05-03 2015-04-28 Amazon Technologies, Inc. Video navigation preview
US10187674B2 (en) * 2013-06-12 2019-01-22 Netflix, Inc. Targeted promotion of original titles
US10623821B2 (en) * 2013-09-10 2020-04-14 Tivo Solutions Inc. Method and apparatus for creating and sharing customized multimedia segments
US10248864B2 (en) * 2015-09-14 2019-04-02 Disney Enterprises, Inc. Systems and methods for contextual video shot aggregation
US10223447B2 (en) * 2017-08-02 2019-03-05 Spotify Ab Playlist trailer
EP3786945B1 (en) 2018-04-12 2023-07-19 Spotify AB Voice-based authentication
US10289915B1 (en) * 2018-06-05 2019-05-14 Eight Plus Ventures, LLC Manufacture of image inventories
US10938568B2 (en) 2018-06-05 2021-03-02 Eight Plus Ventures, LLC Image inventory production
US10296729B1 (en) 2018-08-23 2019-05-21 Eight Plus Ventures, LLC Manufacture of inventories of image products
US10606888B2 (en) 2018-06-05 2020-03-31 Eight Plus Ventures, LLC Image inventory production
US10467391B1 (en) 2018-08-23 2019-11-05 Eight Plus Ventures, LLC Manufacture of secure printed image inventories
US10565358B1 (en) 2019-09-16 2020-02-18 Eight Plus Ventures, LLC Image chain of title management
CN111178415A (zh) * 2019-12-21 2020-05-19 厦门快商通科技股份有限公司 一种基于bert的意图数据层次聚类方法及系统
US11210596B1 (en) 2020-11-06 2021-12-28 issuerPixel Inc. a Nevada C. Corp Self-building hierarchically indexed multimedia database
US20220321972A1 (en) * 2021-03-31 2022-10-06 Rovi Guides, Inc. Transmitting content based on genre information

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003069924A (ja) * 2001-08-09 2003-03-07 Eastman Kodak Co ビデオセグメントの確率的マージングによるビデオ構造化方法
JP2004194095A (ja) * 2002-12-12 2004-07-08 Sony Corp 画像処理装置および方法、記録媒体、並びにプログラム
JP2005025744A (ja) * 2003-07-02 2005-01-27 Fuji Xerox Co Ltd マルチレベルビデオサマリを自動的に生成する方法、システム、及び、コンピュータ・プログラム製品

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5894320A (en) * 1996-05-29 1999-04-13 General Instrument Corporation Multi-channel television system with viewer-selectable video and audio
US6195458B1 (en) * 1997-07-29 2001-02-27 Eastman Kodak Company Method for content-based temporal segmentation of video
US6807361B1 (en) * 2000-07-18 2004-10-19 Fuji Xerox Co., Ltd. Interactive custom video creation system
US7546143B2 (en) * 2001-12-18 2009-06-09 Fuji Xerox Co., Ltd. Multi-channel quiet calls
AU2003201799A1 (en) * 2002-01-16 2003-07-30 Elucidon Ab Information data retrieval, where the data is organized in terms, documents and document corpora
US7068723B2 (en) * 2002-02-28 2006-06-27 Fuji Xerox Co., Ltd. Method for automatically producing optimal summaries of linear media
US7149974B2 (en) * 2002-04-03 2006-12-12 Fuji Xerox Co., Ltd. Reduced representations of video sequences
US7555718B2 (en) * 2004-11-12 2009-06-30 Fuji Xerox Co., Ltd. System and method for presenting video search results
US7440947B2 (en) * 2004-11-12 2008-10-21 Fuji Xerox Co., Ltd. System and method for identifying query-relevant keywords in documents with latent semantic analysis
US8201073B2 (en) * 2005-08-15 2012-06-12 Disney Enterprises, Inc. System and method for automating the creation of customized multimedia content
US20070212023A1 (en) * 2005-12-13 2007-09-13 Honeywell International Inc. Video filtering system
US20070133385A1 (en) * 2005-12-14 2007-06-14 Microsoft Corporation Reverse ID class inference via auto-grouping

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003069924A (ja) * 2001-08-09 2003-03-07 Eastman Kodak Co ビデオセグメントの確率的マージングによるビデオ構造化方法
JP2004194095A (ja) * 2002-12-12 2004-07-08 Sony Corp 画像処理装置および方法、記録媒体、並びにプログラム
JP2005025744A (ja) * 2003-07-02 2005-01-27 Fuji Xerox Co Ltd マルチレベルビデオサマリを自動的に生成する方法、システム、及び、コンピュータ・プログラム製品

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6011059986; Yihong Gong, Xin Liu: 'Summeriging Video by Minimizing Visual Content Redundancies' 2001 IEEE International Conference on Multimedia and Exposition , 2001 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010028184A (ja) * 2008-02-04 2010-02-04 Fuji Xerox Co Ltd 映像ナビゲーション方法、映像ナビゲーションシステム、及び映像ナビゲーションプログラム
US8352985B2 (en) 2008-04-23 2013-01-08 Samsung Electronics Co., Ltd. Method of storing and displaying broadcast contents and apparatus therefor
KR20140041557A (ko) * 2011-06-17 2014-04-04 마이크로소프트 코포레이션 미디어 세트의 계층적인, 줌 가능한 프레젠테이션
KR101939425B1 (ko) * 2011-06-17 2019-01-16 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 미디어 세트의 계층적인, 줌 가능한 프레젠테이션 기법
US10928972B2 (en) 2011-06-17 2021-02-23 Microsoft Technology Licensing, Llc Hierarchical, zoomable presentations of media sets
JP2017062761A (ja) * 2015-09-22 2017-03-30 富士ゼロックス株式会社 ハイパービデオの再生プランを可視化する方法、システム及びプログラム
CN111741331A (zh) * 2020-08-07 2020-10-02 北京美摄网络科技有限公司 一种视频片段处理方法、装置、存储介质及设备
CN111741331B (zh) * 2020-08-07 2020-12-22 北京美摄网络科技有限公司 一种视频片段处理方法、装置、存储介质及设备

Also Published As

Publication number Publication date
US20080127270A1 (en) 2008-05-29

Similar Documents

Publication Publication Date Title
JP2008042895A (ja) 複数のビデオをクラスタ化するための方法、装置、システム、及びプログラム
Zhu et al. Video data mining: Semantic indexing and event detection from the association perspective
JP4569955B2 (ja) 情報格納及び検索方法
US7502780B2 (en) Information storage and retrieval
US10445359B2 (en) Method and system for classifying media content
US7707162B2 (en) Method and apparatus for classifying multimedia artifacts using ontology selection and semantic classification
Asghar et al. Video indexing: a survey
WO2012020667A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
US20040107221A1 (en) Information storage and retrieval
Zhang Semantic-based visual information retrieval
JP2005122690A (ja) 情報処理
JP2008276768A (ja) 情報検索装置及び方法
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
US20040107195A1 (en) Information storage and retrieval
Priya et al. A comprehensive review of significant researches on content based indexing and retrieval of visual information
Tommasi et al. Beyond metadata: searching your archive based on its audio-visual content
Feng et al. Multiple style exploration for story unit segmentation of broadcast news video
Rautiainen et al. Analysing the performance of visual, concept and text features in content-based video retrieval
Rathod et al. Review on event retrieval in soccer video
Luo et al. Integrating multi-modal content analysis and hyperbolic visualization for large-scale news video retrieval and exploration
Hentschel et al. Open up cultural heritage in video archives with mediaglobe
KR20040054308A (ko) 뉴스 비디오의 개별기사 군집화 방법 및 뉴스 브라우징방법
Marques et al. Issues in Designing Contemporary Video Database Systems.
Lili Hidden markov model for content-based video retrieval
JP2009217436A (ja) 協調的分類装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100520

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111115

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120110

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121002