JP2008042895A

JP2008042895A - 複数のビデオをクラスタ化するための方法、装置、システム、及びプログラム

Info

Publication number: JP2008042895A
Application number: JP2007170049A
Authority: JP
Inventors: Frank M Shipman Iii; エム．シップマンザサードフランク; Andreas Girgensohn; ガーゲンソンアンドレアス; Lynn D Wilcox; ディー．ウィルコックスリン
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2006-08-02
Filing date: 2007-06-28
Publication date: 2008-02-21
Also published as: US20080127270A1

Abstract

【課題】ビデオクリップの大きなセットを通して迅速に閲覧し、関連対象のビデオクリップを特定する方法、装置、システム、プログラムを提供する。
【解決手段】本発明はビデオクリップの階層的クラスタ化により、ユーザが関心対象のビデオクリップのサブグループを順次識別できるようにする。本発明の方法では、個々のビデオ及びクラスタ内の低レベルのクラスタから代表ビデオクリップを選択することにより、各クラスタの内容に関するビデオ要約を生成する。リンクが、より一般的な高レベルのクラスタとこれらが含む要素との間に設けられ、この結果ユーザには、閲覧又は検索エンジンにより返されるビデオのセットの上位レベルから後続の各クラスタのレベルに続いて、ビデオの関連部分及び次のより低レベルのクラスタの関連部分に関するビデオ要約が提示される。ユーザは所望のビデオ又はより低レベルのクラスタへとナビゲーションリンクを辿ることができる。
【選択図】図２

Description

本発明はメディア分析および提示（プレゼンテーション）の分野であり、検索結果を提示する方法、装置、システム、及びプログラムに関し、詳細には、ビデオ検索結果を提示する方法、装置、システム、及びプログラムに関する。

大規模なディジタルビデオライブラリ内のビデオの関連部分の検索は困難であることが多い。ユーザはコレクション全体を通して閲覧するか、あるいは特定のメタデータおよび画像特徴、又は検索項目との関連性により、ビデオまたはビデオの一部または諸項目を検索することで、閲覧の範囲を制限するかのいずれかである。ビデオライブラリの検索後、ユーザには問合せ内容に一致するビデオの、長くなる可能性のあるリストが残される。したがって、無関係の内容（例えばニュースビデオ）を含む可能性のあるこれらのビデオ内の関連部分を見出す作業もまた困難である。多くの場合、ビデオに関連する表題および他のメタデータはこれらのビデオの相対的な評価を決定するのに十分な情報を提供しないため、ユーザは必要とするものを見出すまで順番にそれらをプレビューする必要がある。関連する可能性のあるビデオの数が多い場合、これは膨大な時間を必要とする。ビデオの一部のみがユーザの関心対象である場合、関連ビデオを見出すだけでなくビデオ内の関連部分も確認する必要があるため、この作業はさらに膨大になる。

低レベル特性（例えば、カラーヒストグラム）または意味的特性（例えば、ジャンル）のいずれかに基づくビデオのクラスタ化は、クラスタが手動分類または自動検出される場合に実行される（非特許文献１および非特許文献２参照）。

データクラスタ化のアルゴリズムは階層的または分割的であってよい。階層アルゴリズムは以前に形成されたクラスタを使用して順次後続のクラスタを見出すのに対して、分割アルゴリズムはすべてのクラスタを一度に決定する。階層アルゴリズムは集積的(ボトムアップ）または分割的（トップダウン）であってよい。集積的アルゴリズムは個別のクラスタとして各要素から開始し、それらクラスタを順次大きいクラスタに結合する。分割的アルゴリズムはセット全体から開始し、順次より小さいクラスタに分割するように進行する。
E. Bertino, J. Fan, E. Ferrari, M. -S. Hacid, A. K. Elmagarmid, X. Zhu 著、「ビデオデータベースシステムにおける階層的アクセス制御モデル(A hierarchical access control model for video database system)」ACM Transactions on Information Systems, 21(2), pp.155-191, 2003 C. -W. Ngo，T. -C. Pong, H. -J. Zhang 著「ビデオショットのクラスタ化および検索(On clustering and retrieval of video shots)」ACM Multimedia '01, pp.51-60

本発明は、複数のビデオからなるビデオコレクションをクラスタ化することにより、ビデオコレクション全体を迅速に閲覧し、所望のビデオ又はビデオの特定部分を迅速に検索することができる方法及びシステムを提供することを目的とする。

本発明の一実施形態では、ビデオコレクションを通して迅速に閲覧する方法が開示される。本発明の一実施形態では、ビデオコレクションはライブラリ全体、ライブラリの一部分、または問合せに応じて生成されるビデオリストのいずれかであってよい。本発明の方法は、人が作成したビデオ属性、自動計算されたビデオの属性の少なくとも１つによるビデオの階層クラスタ化に基づく。これらのクラスタへのアクセスは対話式ハイパービデオを介して提供される。本発明の一実施形態では、ユーザは、ビデオのより一般的なブループ分け／クラスタからビデオのより特定されたグループ分け／クラスタまで閲覧できる。この方法により、ユーザは段階的に所望のビデオ又はビデオ部分について焦点を絞ることができる。

本発明の一実施形態では、クラスタは、ユーザが関心対象のビデオクリップのサブグループおよび最終的には所望のビデオを順次識別できるハイパービデオとして提示される。この方法は、個別のビデオおよびクラスタ内の低レベルのクラスタから代表的なビデオクリップを選択することにより、各クラスタの内容についてのビデオ要約を生成する。クラスタリンクが、より一般的である、高レベルのクラスタとこれらが含む要素との間に加えられる。このように、ユーザは閲覧対象の、または検索エンジンにより返されるビデオのセットの最上部から、後続のそれぞれのクラスタのレベルに続いて、ビデオの関連部分および次のより低レベルのクラスタの関連部分についてのビデオ要約を提示される。クラスタツリーのあらゆるレベルで、ユーザはクラスタ内のビデオのビデオ要約を見ることができる。要約はサブクラスタのそれぞれからの代表的なクリップから成る。本発明の一実施形態では、ユーザは要約を見る際に３つのオプションを有する。第１に、ユーザは「これと類似するさらなるビデオ」に対するリンクを追跡することができる。このリンクは現在再生しているクリップにより提示されるサブクラスタまで達する。第２に、ユーザは「このビデオ」に対するリンクを選択して、現在再生しているクリップが抽出されたビデオ全体を見ることができる。最後に、ユーザは何もすることなく、ビデオを要約内の次の代表的クリップに進むことができる。

ビデオのクラスタ化は、ユーザがクラスタのビデオ要約だけを閲覧して、クラスタ内のビデオが関心対象である可能性があるかどうかを決定できるように、実行される。クラスタ化は、クラスタ内のビデオが少数のみとなるまで、ユーザがクラスタツリーを通して下方にナビゲートできるように階層的に実行される。ユーザは特定のビデオ要約を再生している間に、リンクを選択することにより特定のビデオにナビゲートできる。

即ち、本願請求項１に係る発明は、複数のビデオをクラスタ化する方法であって、
（ａ）複数のビデオから、各ビデオセグメントが前記ビデオの連続するサブシーケンスである１つ以上のビデオセグメントを選択し、
（ｂ）１つ以上の属性を選択し、
（ｃ）前記１つ以上の属性に基づいて前記１つ以上のビデオセグメントについて１つ以上の距離基準を生成し、
（ｄ）前記１つ以上の距離基準に基づいて１つ以上の階層的クラスタ(hierarchical cluster)を生成し、
（ｅ）各クラスタから前記１つ以上のビデオセグメントの１つ以上のビデオサブセットを選択することであって、第１ビデオサブセットが第１クラスタから選択され、第２ビデオサブセットが第２クラスタから選択され、
（ｆ）前記選択された１つ以上のサブセットを結合することによりハイパービデオを生成することであって、ナビゲーションリンクが、前記第１クラスタと前記第２クラスタとの間の階層的リンクに基づいて前記第２ビデオサブセットと前記第１ビデオサブセットとを結合すること、を含むことを特徴とする。

請求項２に係る発明は、請求項１に係る発明において、
ステップ（ｅ）および（ｆ）がさらに、
ビデオセグメントの一部である、１つ以上の代表ビデオクリップを選択することであって、各代表ビデオクリップが前記クラスタ内に存在し、第１の代表ビデオクリップは前記第１クラスタから選択され、第２の代表ビデオクリップは前記第２クラスタから選択され、
前記選択された１つ以上の代表ビデオクリップを結合することによりハイパービデオを生成することであって、ナビゲーションリンクが、前記第１のクラスタと前記第２のクラスタと間の階層的リンクに基づいて、前記第１の代表ビデオクリップを第２の代表ビデオクリップに結合すること、を含むことを特徴とする。

請求項３に係る発明は、請求項１に係る発明において、
（ｇ）１つ以上の検索基準を選択し、
（ｈ）前記１つ以上の検索基準に基づいて前記複数のビデオの１回以上の検索を実行し、
（ｉ）検索結果に基づいてステップ（ａ）に定義されている包含すべきビデオセグメントを選択すること、をさらに含むことを特徴とする。

請求項４に係る発明は、請求項３に係る発明において、１つ以上の前記検索基準が関連性スコアであり、包含のために選択される前記ビデオセグメントが、前記関連性スコアに基づいて１つ以上の検索において探索されることを特徴とする。

請求項５に係る発明は、請求項１に係る発明において、
（ｇ）１つ以上の検索基準を選択し、
（ｈ）前記１つ以上の検索基準に基づいて前記複数のビデオの１回以上の検索を実行し、
（ｉ）前記検索結果に基づいてステップ（ｄ）における階層的クラスタを取り除く（Ｐｒｕｎｉｎｇ）こと、をさらに含むことを特徴とする。

請求項６に係る発明は、請求項５に係る発明において、１つ以上の前記検索基準は関連性スコアであり、前記クラスタの前記取り除くことは、前記関連性のスコアに基づいて検索されなかったビデオセグメントの削除に相当することを特徴とする。

請求項７に係る発明は、請求項１のステップ（ａ）において、１つ以上の前記属性が、前記ビデオの日付、前記ビデオセグメントの長さ、前記代表クリップの長さ、平均のショット長さ、色組成の平均、技術的な品質、問合せの関連性、字幕、字幕に関連するテキスト、字幕からの関連テキストの転写、代表クリップ内での検索項目の出現、代表クリップ近辺での検索項目の出現、著者、プロデューサ、検出される顔、物体の運動、俳優、キャラクター、場所、ジャンル、キーワード、注記または人工のメタデータから成るグループから選択されることを特徴とする。

請求項８に係る発明は、請求項１に係る発明において、前記階層的クラスタが、それぞれが最大Ｎ個のサブクラスタを有する複数のクラスタで形成されることを特徴とする。

請求項９に係る発明は、請求項１のステップ（ｃ）において、前記距離基準が、項目ベクトルによりビデオセグメントを表現することにより生成されることを特徴とする。

請求項１０に係る発明は、請求項１のステップ（ｄ）において、前記１つ以上の階層的クラスタがＫ平均法クラスタ化アルゴリズムを用いて生成されることを特徴とする。

請求項１１に係る発明は、請求項１０のステップ（ｄ）において、各ビデオ距離基準がユークリッド空間において特徴ベクトルによりビデオセグメントを表現することにより生成されることを特徴とする。

請求項１２に係る発明は、請求項１０のステップ（ｄ）において、サブクラスタの数Ｎが前記クラスタ化アルゴリズムの再帰的な適用により生成されることを特徴とする。

請求項１３に係る発明は、請求項１のステップ（ｄ）において、前記階層的クラスタが集積的クラスタ化アルゴリズムを用いる二進数クラスタツリーであることを特徴とする。

請求項１４に係る発明は、請求項１３のステップ（ｄ）において、Ｎが二進数クラスタツリー内のクラスタのサブツリーの数であり、Ｎはツリーを切断することにより決定されることを特徴とする。

請求項１５に係る発明は、請求項１の発明において、ビデオセグメント間の前記１つ以上の距離基準が空間における特徴ベクトル間の１つ以上の距離であることを特徴とする。

請求項１６に係る発明は、請求項１の発明において、ビデオセグメント間の前記１つ以上の距離基準が空間における項目ベクトル間の１つ以上のコサイン距離であることを特徴とする。

請求項１７に係る発明は、請求項１３の発明において、前記クラスタの距離基準が最小距離、最大距離および平均距離から成る前記グループから選択されることを特徴とする。

請求項１８に係る発明は、複数のビデオをクラスタ化する装置であって、
（ａ）複数のビデオから、各ビデオセグメントが前記ビデオの連続するサブシーケンスである１つ以上のビデオセグメントを選択する手段と、
（ｂ）１つ以上の属性を選択する手段と、
（ｃ）前記１つ以上の属性に基づいて前記１つ以上のビデオセグメントについて１つ以上の距離基準を生成する手段と、
（ｄ）前記１つ以上の距離基準に基づいて１つ以上の階層的クラスタを生成する手段と、
（ｅ）各クラスタから前記１つ以上のビデオセグメントの１つ以上のビデオサブセットを選択する手段であって、第１ビデオサブセットが第１クラスタから選択され、第２ビデオサブセットが第２クラスタから選択される手段と、
（ｆ）前記選択された１つ以上のサブセットの結合によりハイパービデオを作成する手段であって、ナビゲーションリンクが、前記第１クラスタと前記第２クラスタと間の階層的リンクに基づいて前記第１ビデオサブセットを前記第２ビデオサブセットに結合する手段と、を備えることを特徴とする。

請求項１９に係る発明は、請求項１８に記載の装置により複数のビデオをクラスタ化するシステムであって、
ａ）１つ以上のパラメータのセットを指定し、前記１つ以上のパラメータのセットをソースコードに転送し、前記ソースコードを一連のタスクにコンパイルすることにより、ユーザが複数のビデオをクラスタ化することができる、１つ以上のプロセッサと
ｂ）媒体上に格納された命令を含む機械可読媒体であって、前記命令は１つ以上のプロセスにより処理されると、システムに、１つ以上のパラメータのセットを指定し、１つ以上のパラメータのセットをソースコードに転送し、前記ソースコードを一連のタスクにコンパイルすることにより、ユーザが複数のビデオをクラスタ化することを実行させる、機械可読媒体と、を備えることを特徴とする。

請求項２０に係る発明は、システムにより複数のビデオをクラスタ化するための命令を有するプログラムであって、前記命令は前記システムのプロセッサで実行されることにより、前記システムに、
（ａ）前記複数のビデオの少なくとも一部を選択して、前記ビデオセグメントが前記ビデオの連続するサブシーケンスである１つ以上のビデオセグメントを生成し、
（ｂ）１つ以上の属性を選択し、
（ｃ）前記１つ以上の属性に基づいて前記１つ以上のビデオセグメントについて１つ以上の距離基準を生成し、
（ｄ）前記１つ以上の距離基準に基づいて１つ以上の階層的クラスタを生成し、
（ｅ）各クラスタから前記１つ以上のビデオセグメントの１つ以上のビデオサブセットを選択することであって、第１ビデオサブセットが第１クラスタから選択され、第２ビデオサブセットが第２クラスタから選択され、
（ｆ）前記選択された１つ以上のビデオサブセットを結合することによりハイパービデオを作成することであって、ナビゲーションリンクが、前記第１クラスタと前記第２クラスタと間の階層的なリンクに基づいて前記第１ビデオサブセットを前記第２ビデオサブセットに結合すること、を実行させることを特徴とする。

ここに述べた概要は、本発明の完全な説明を意図するもの、または本発明の範囲を制限することを意図するものでもない。本発明の代替的および追加的な特徴、態様および目的は、明細書、図面および特許請求の範囲を検討することにより得られる。

本発明により、多数のビデオからなるビデオコレクションをツリー状にクラスタ化し、各クラスタの内容を要約するとともにクラスタへの索引として機能するリンクを有する代表ビデオセグメントを表示することができ、これによりユーザはビデオコレクションから所望のビデオ又はビデオの一部分を迅速に検索してアクセスすることができる。

本発明は特定の実施形態に関して説明される。追加的態様は図から認識できる。

本発明の実施形態においては、ハイパービデオは以下のようにして作成できる。クラスタツリーの任意のレベルで、ユーザはクラスタの内容を要約するビデオセグメントを表示できる。このビデオは、直接リンクされたサブクラスタのそれぞれから代表的クリップを連結することにより作成できる。サブクラスタが単一のビデオである場合、クラスタの代表的クリップを要約で使用するか、またはこのビデオの関連クリップのみを考慮するかのいずれかである。サブクラスタが複数のビデオを含む場合、クラスタの代表ビデオからのクリップを使用できる。クラスタの代表ビデオは、ビデオ全体またはこれらビデオ内のクリップのいずれか適用される、クラスタ化アルゴリズムにより決定できる。ビデオについての代表クリップは、米国特許第７，０６８，７２３号に開示されているアルゴリズム（ビデオ全体にもっとも類似するクリップを特定するアルゴリズム）により決定できる。技術的品質およびビデオセグメントの長さなどの基準に基づく重要基準といった他の要因を用いることもできる。

ビデオのクラスタ化
本発明が提案するこの態様は、ビデオクリップまたはビデオ全体をクラスタ化して有効なグループ分けを作成する方法を説明する。本発明のさまざまな実施形態においては、各種のクラスタ化アルゴリズムを利用できる。本発明の一実施形態においては、トップダウン式の階層的Ｋ平均法クラスタ化が使用できる。本発明の別の実施形態では、ボトムアップ式の集積的クラスタ化を使用して、ビデオを有効なグループ分けに分類（ソート）できる。クラスタ化アルゴリズムにおける距離基準は、ビデオの日付および長さ、ビデオの平均ショット長さ、平均色成分、クローズドキャプション（字幕）またはトランスクリプション（音声転写）からの関連するテキスト、著者、プロデューサ、俳優、キャラクターといった人物に付帯するメタデータ、場所、ジャンル、キーワードおよび注記を含む、ビデオ属性の組み合わせに基づくことができる。ビデオが問合せの結果である場合、その結果もまた関連性に基づいてクラスタ化されることができる。テキストベース（転写またはメタデータのいずれかに基づく）のクラスタ化が最良の結果を生成すると予測されるが、検出された顔のような他の属性も有効な結果を生成しうる。

Ｋ平均法アルゴリズム
Ｋ平均法アルゴリズムは、その中心が最も近いクラスタに各点を割当てる。中心はクラスタ内のすべての点の平均である（すなわち、中心の座標はクラスタ内のすべての点にわたる別個の各次元の算術平均である）。Ｋ平均法アルゴリズムはトップダウン式である。本発明の一実施形態では、標準的階層Ｋ平均法クラスタ化を用いてビデオのクラスタツリーを生成できる。本発明の一実施形態では、各ビデオクリップまたはビデオは、ユークリッド空間における特徴ベクトル（feature vector）によって表すことができ、ビデオクリップまたはビデオの間の距離は単に、空間における特徴ベクトル間の距離であると想定される。例えば、本発明の一実施形態においては、ビデオがジャンルによりグループ分けされる場合、特徴ベクトルはビデオの平均カラーヒストグラム、ビデオの長さおよび平均ショット長さから構成されることができ、距離は特徴ベクトル間の分散重み付きユークリッド距離である。別の例としては、関連するテキストに基づいたビデオクリップのクラスタ化がある。この場合には、ビデオクリップの特徴は項目ベクトル（term vector）であり、距離はコサイン距離であってよい。

ビデオクリップが関連するテキストに基づいてクラスタ化されると、項目ベクトルは関連テキスト内に存在する可能性のある各項目の頻度ｔを表す。項目頻度は、ビデオコレクション全体にわたる各項目の全体的な頻度を考慮に入れた項目重み付けにより修正される。項目ベクトルは極めて疎であるため、距離基準は、潜在的意味解析などの技術を使用して、各項目ベクトルを低次元の空間に変換することにより改善できる。２つの項目ベクトルの距離は、２つのベクトルの内積である、コサイン距離により測定できる。

Ｋ平均法クラスタ化アルゴリズムは、単一のルートクラスタ内のすべてのビデオから開始される。本発明の一実施形態では、クラスタは以下のようにＮ個のサブクラスタに分割できる。
１）各サブクラスタの平均を、ルートクラスタの平均のランダムオフセットとなるよう設定する。
２）各ビデオを、サブクラスタ平均までのビデオの距離に基づいて最近傍のサブクラスタに割当てることにより、標準Ｋ平均法クラスタ化を実行する。
３）新しい要素（ビデオ）を包含することでサブクラスタの平均を更新する。

アルゴリズムが収束すると、すべてのサブクラスタがＮ個未満のビデオを有するまで、同様の手順が各サブクラスタに対して実行される。本発明の一実施形態では、Ｎ＝５が使用されうるが、本発明のさまざまな実施形態においては、他の値のＮが可能である。

集積的クラスタ化アルゴリズム
集積的クラスタ化アルゴリズムは、クラスタを漸進的に結合することにより個々の要素から階層を構築する。集積的クラスタ化アルゴリズムはボトムアップ式である。本発明の一実施形態では、各ビデオクリップまたはビデオそれ自体がクラスタとされる。次に、２つの最近傍のクラスタを単一のクラスタに順次に結合する。本発明のさまざまな実施形態においては、クラスタ間の距離は、クラスタ内のビデオ間の最小、最大または平均距離として定義できる。本発明の一実施形態では、より緊密にグループ分けされたクラスタを得るために、最大距離が用いられうる。階層的クラスタ化は、最小の結合クラスタを生成する２つのクラスタを結合することにより実行できる。最初は、各画像が自身のクラスタを表す。ツリー内のノードの高さは結合クラスタの直径（要素の最大ペアワイズ距離）を表す。クラスタはクラスタの中心に最も近い要素により表される。ツリー内のビデオセグメントは時間順ではないことに注意されたい。アルゴリズムは、クラスタが１つになると、終了する。本発明の一実施形態では、集積的クラスタ化は特徴ベクトルを必要とせず、距離基準のみを必要とする。このような距離基準は、付帯されるテキスト（例えば、ビデオクラスタの項目ベクトル間のコサイン差）に基づくか、または、視覚的属性およびメタデータ属性（例えば、共通の俳優の数と結合されたビデオクリップの平均ヒストグラム間のカラーヒストグラム差）に基づいている。

集積的クラスタ化に基づくクラスタツリーは二進数である。本発明の一実施形態では、通過する必要があるレベル数を低減するために、ツリーを取り除き、該当するノードに対してＮ個のサブツリーを生成する。ツリーの最上位レベルから開始する、Ｎ個のサブツリーを得る切断が行われる。

代表ビデオおよび代表クリップ
本発明のさまざまな実施形態においては、１つ以上の代表的なビデオクリップまたはビデオを選択して、ハイパービデオ内のクラスタの内容を示すことができる。本発明の一実施形態では単一の代表ビデオクリップまたはビデオが選択されるが、容易にアルゴリズムを更新して対象クラスタ内のサブクラスタの複数の代表ビデオを選択することにより任意の数の代表ビデオを選択することもできる。本発明の一実施形態において、Ｋ平均法アルゴリズムでは、クラスタの代表ビデオは、クラスタの平均に最も近いビデオとして定義される。本発明の一実施形態において、集積的クラスタ化アルゴリズムでは、クラスタの代表ビデオは、クラスタ内の他のビデオまでの距離の和が最小であるビデオである。

ビデオ全体を扱う場合、代表ビデオからの代表的クリップは、ビデオの残余分に対する各クリップの類似性に基づく、米国特許第７，０６８，７２３号で提供される方法を用いて決定できる。クラスタについて複数の代表ビデオクリップが選択された場合、これらのクリップのサブセットが同じ方法で選択できる。技術的品質、あるいはビデオセグメントの長さまたはビデオクリップ内および／またはビデオクリップ近傍での検索項目の出現といった検索基準に基づく重要性基準といった、他の要因も使用できる。

例
例えば、ユーザが「ジャガー（Ｊａｇｕａｒ）」を検索した場合、多数のビデオまたはビデオクリップを見出されうる。ビデオまたはビデオクリップは、猫、車、および家庭用電子製品にクラスタ化されうる。車に関するクラスタはさらに、車の販売店、メンテナンスおよびおもちゃの自動車に細分されうる。家庭用電子製品に関するクラスタはさらに、ＭａｃＯＳ１０．２（Ｊａｇｕａｒ）、ＩＢＭ家庭用電気製品およびＡｔａｒｉＪａｇｕａｒ、Ｍｏｔｏｒｏｌａ社の家庭用電化製品に細分されている可能性がある。

クラスタツリーからのハイパービデオの生成
クラスタツリーを閲覧するために使用されるハイパービデオを作成するためには、すべての非終端クラスタ（非終端クラスタは、単一のビデオクリップまたはビデオではない少なくとも１つのサブクラスタを有する）はＮ個のサブクラスタを有する必要がある。Ｋ平均法クラスタ化アルゴリズムを用いると、Ｎは、クラスタ化アルゴリズムを再帰的に適用する場合にクラスタの数として指定される。集積的階層クラスタ化アルゴリズムでは、二進数のクラスタツリーを再帰的に枝刈りして、各クラスタに対してＮ個のサブクラスタを見出す。結果として得られるクラスタはサイズでは均衡していないが、各クラスタは少なくとも１つのビデオクリップまたはビデオを含むことになる。

ツリーの各ノードでは、ビデオシーケンスが各サブクラスタからの代表クリップの連結により生成できる（図１参照）。ハイパービデオリンクは、各代表クリップから、対応するサブクラスタの代表ビデオまたは代表ビデオのセット、および親ビデオクリップにまで、生成される。アルゴリズムは、各サブクラスタが単一のビデオクリップまたはビデオを含む場合に終了する。

リンクラベルがナビゲーションを支援するために使用されることができる。クラスタ化がテキストまたはメタデータの属性に基づいている場合、ラベルは、クラスタにおける最も頻度の高い項目または属性として選択されうる。F.Chen, U. Gargi, L. Niles, H. Schutzeの「ウェブ文書における画像の多重モード閲覧(Multi-Modal Browsing of Images in Web Document)」（SPIE '99）、J. Adcock他の「潜在的意味解析を用いる問合せ関連キーワードの識別方法(Method for Identifying Query-relevant Keywords in Documents with Latent Semantic Analysis)」、米国特許出願第１０／９８７，３７７号を参照されたい。ビデオの固定されたライブラリに索引付けする場合（例えば、Ｙａｈｏｏ！（登録商標）のビデオの分類のような）といった、クラスタ化結果が何度も使用される場合は、ハイパービデオの作成者は、Ｈｙｐｅｒ−Ｈｉｔｃｈｃｏｃｋ（米国特許第６，８０７，３６１号参照）において自動的に生成されるハイパービデオを修正し、手動でラベルを追加できる。

このアルゴリズムは、大きなクラスタから小さなクラスタおよび個々のビデオの代表ビデオに、小さなクラスタから個々のビデオの代表ビデオに、および個々のビデオの代表ビデオからそのビデオ自体に、ナビゲーションリンクを備えるハイパービデオを生成する（図１参照）。個々のビデオの代表ビデオは、個々のビデオが短いかまたはビデオの内容の第１セグメントに基づいて容易に認識可能である場合、この階層的構成のナビゲーション構造から外して残すことができる。これらのクラスタを閲覧するためのビデオプレイヤーは、サブクラスタにナビゲートするためのリンク（例えば「このような海を見つける」）と、クリップが抽出されたビデオにナビゲートするためのリンク（例えば「このビデオを表示」）とのための２つのボタンを含まなければならない。

図２は、視覚的特徴を有する、階層的構成のビデオコレクションを扱うように設計されたハイパービデオプレイヤーを示す。プレイヤーはリンクラベルに加えて、各リンクに対してキーフレームを提供し、閲覧者が代表ビデオの再生を見ることなくリンクを辿るか、または代替的にユーザは代表ビデオがすでに再生を終了しているクラスタへのリンクを辿ることができる。キーフレームのこのコレクションは、すべてのキーフレームが最初にビデオの該当部分にナビゲートする必要なくクリック可能であるため、リンクされたビデオとは別個の索引を提供する。

ハイパービデオを使用する検索結果の閲覧
これらの技術はさらに、ビデオコレクションへの問合せの結果から生じるクラスタ化ビデオを閲覧するために用いることができる。問合せに基づいてハイパービデオを生成するのに２つの方法がある。第１の方法は、最初に問合せが実行され、その後に関連ビデオがクラスタ化され、ハイパービデオが生成されることを想定している。第２の方法は、最初にビデオコレクション全体を使用してクラスタツリーを生成する。このとき、問合せを用いてクラスタツリーの枝刈りをして、問合せに関連しないすべてのサブツリーを削除する。この後に、ハイパービデオが枝刈りされたツリーから生成される。この場合、クラスタの代表ビデオは、すべてのサブクラスタが含まれているとは限らないため、短くなる。

ビデオの関連部分だけが所望される場合、ビデオクリップに関してクラスタ化を実行するか、またはビデオ全体をクラスタ化し、ビデオの無関係の部分をハイパービデオ要約から除去するかのいずれであってもよい。後者の場合、ビデオのハイパービデオ要約をビデオの関連部分だけを考慮して即時（on the fly）に生成するか、または無関係の部分を指すクラスタリンクを枝刈りまたは方向転換（リダイレクト）するかのいずれであってもよい。

図２は、人に割当てられたメタデータに基づいてビデオがクラスタ化された例を示している。クラスタが自動的に生成されるとき（テキスト、メタデータまたは視覚的特性に基づいて）、所定のクラスタ内でどのビデオが見つかるかは明らかでない。

図３は、視覚的違いが少ないビデオコレクションに対するクラスタツリーを見出すために、検索結果を閲覧する第２のハイパービデオプレイヤーを示す。この場合、ビデオコレクションはニュースビデオであり、転写に基づいてクラスタ化されている。ビデオには視覚的違いはない（多くのショットはニュースキャスターまたはレポーターである）ため、キーフレームはクラスタを識別する項目のセットに置き換えられている。クラスタまたはビデオを区別する項目はクラスタの内容に対して意味を与えるため、リンクのラベルとして選択される。また、ハイパービデオ構造は、各クラスタおよびビデオに関する項目を表示するツリーとして左側に提示される。

図３の例では、問合せ「ｓｔｒｉｋｅ（ストライク）」に対する結果はベースボールストライク、パイロットのストライキおよび関連する経済事象、およびセルビア、イラクおよびイスラエルでの軍事攻撃を示すクラスタにグループ分けされる。クラスタの結果は、自動的に認識されるスピーチおよびビデオストリームのストーリーへの発見的分割に基づいているため、不完全である。しかし依然として、結果として得られるハイパービデオは、ユーザにトピックによって検索結果を探索させることになり、クラスタおよびストーリーに関連するキーワードの提示は、所望の内容を見出す可能性がある位置の勘をユーザに提供する。

一般的な映像長さのビデオライブラリは、３分から２時間の長さの範囲の数千のビデオを含む。ビデオはキーワード、場所または日付により索引付けされる。しかし、１つ以上のこれらの索引によりデータベースを検索した後でさえ、依然として、分類すべき数百のビデオが残される。クラスタツリーを作成し、ハイパービデオを使用することにより、ビデオの検索が容易になる。クラスタツリーは、ビデオに関連するテキスト、メタデータ索引、または内容の特徴を使用してジャンルにより生成できる。

同様に、ＴＲＥＣＶＩＤなどの、ビデオデータベースに対する検索オプションおよびアルゴリズムに依存して、多数の関連する可能性のあるビデオまたはビデオセグメントを返すことができる。図３は、検索インタフェースおよびハイパービデオプレイヤーをどのように使用して、ＴＲＥＣＶＩＤへの問合せ結果を評価できるか、を示している。検索結果を選択するためのビデオ検索方法およびシステムは、Ａ．Ｇｉｒｇｅｎｓｏｈｎ他の米国特許第１０／９８６，７３５号「ビデオコレクションから検索結果を提示するシステム(System for Presenting Search Result from a Collection of Video)」に開示されている。

本発明の一実施形態では、ビデオ検索方法は、ディジタル映画データベースを検索するために使用できる。通常、ユーザは、コメディまたはアクションといった分類により映画を閲覧する。本発明の一実施形態では、クラスタツリーは、俳優、場所またはディレクターといったメタデータに基づいて、またはクローズドキャプション（字幕）テキストにより、類似のビデオをグループ分けする。これにより、ユーザは、サブツリー構造を利用して、より迅速にコレクションを閲覧できる。図２はこのように視覚的に区別可能な内容に対する検索インタフェースを示している。

本発明のさまざまな実施形態では、階層的な閲覧およびビデオ要約は対話式のハイパービデオを使用して実行できる。本発明の一実施形態では、ビデオのクラスタ化、要約のための代表ビデオおよびクリップの検出、およびコレクションと対話するためのハイパービデオの作成、に対するアルゴリズムが開示されている。本発明の代替的の実施形態では、アルゴリズムはビデオセグメントを扱う。

本発明のさまざまな実施形態では、複数のビデオは複数のビデオセグメントに分割され、各ビデオセグメントはビデオの連続したサブシーケンス（すなわち、ビデオの各フレームはビデオセグメントの開始からビデオセグメントの終了まで、ビデオ内と同一の順序でビデオセグメント内に含まれる）である。距離基準は各ビデオセグメントを表すために使用でき、この場合、距離基準はビデオの属性に基づいて計算される。これにより、複数ビデオの階層的クラスタは、距離基準に基づいて生成できる。本発明の一実施形態では、各クラスタでビデオサブセットを選択してハイパービデオを生成するために使用でき、この場合、ナビゲーションリンクはクラスタ間の階層的リンクに基づいてビデオサブセットを結合する。ビデオサブセットは各クラスタに対して選択される１つ以上のビデオセグメントであってよい。属性はビデオの日付、ビデオの長さ、代表クリップの長さ、平均のショット長さ、平均の色組成、技術的品質、問合せへの関連性、クローズドキャプション（字幕）、クローズドキャプションに関連するテキスト、クローズドキャプションからの関連テキストの転写、代表クリップ内の検索項目の出現、代表クリップの近傍での検索項目の出現、著者、プロデューサ、検出される顔、物体の運動、俳優、キャラクター、場所、ジャンル、キーワード、注記または人工のメタデータである。

本発明の代替的実施形態では、各ビデオセグメントについて代表ビデオクリップを選択してハイパービデオを生成でき、この場合、ナビゲートのリンクはクラスタ間の階層的リンクに基づいて代表ビデオクリップを結合する。代表ビデオクリップは各クラスタの代表であるとして選択される１つ以上のビデオセグメントであってよい。

本発明の一実施形態では、複数ビデオの検索は、セグメント化されるビデオを選択し、および階層的クラスタ化およびハイパービデオを最終的に達成するのに使用できる。本発明の代替的実施形態では、検索は階層的クラスタを取り除くために使用できる。

本発明の代替的実施形態では、検索基準は関連性スコアであり、包含および／または取り除くために選択されるビデオは関連性スコアに基づいて検索されてもよい。

本発明の一実施形態では、ビデオセグメント間の距離基準は空間内の特徴ベクトル間の距離であり、特徴ベクトルはユークリッド空間における属性を表す。本発明の代替的実施形態では、ビデオセグメント間の距離基準は空間内の項目ベクトル間の１つ以上のコサイン距離である。

本発明は複数のビデオをクラスタ化する装置として実現することもでき、該装置は本発明による複数のビデオをクラスタ化する方法により動作することができる。装置はプロセッサ及び記憶装置（揮発性メモリや不揮発性メモリ、フレキシブルディスクやCD-R等のあらゆる機械可読媒体を含む）を備えたコンピュータであってよい。本発明はまた、前記記憶装置に記憶され、プロセッサにより実行されることにより、コンピュータを複数のビデオをクラスタ化するシステムとして動作させるプログラムとして実現することもできる。

本明細書では、本発明の方法およびシステムの例示的実施形態が開示されている。別に注記したとおり、これらの例の実施形態は単に説明の目的として開示されたものであって、本発明を制限するものではない。他の実施形態も可能であるが、本発明の範囲に含まれる。このような実施形態は当業者には本明細書に含まれる教示に基づいて明らかであろう。

従って、本発明の領域および範囲は上述の例示的な実施形態のいずれによっても制限されず、特許請求の範囲およびその均等物によってのみ定義されるものとする。

一連のフレームとして右上に示されるビデオと、クラスタ（左下）の代表であるビデオ（右中央）を含むビデオの一部で形成されている、ハイパービデオ（左上）との間の関係を概略的に示す図であり、ハイパービデオはクラスタ化の結果へのアクセスを提供する。ハイパービデオを形成するビデオの一部のそれぞれに対するキーフレームリンクを備えるハイパービデオプレイヤーの画面インタフェースを示す図である。検索結果を閲覧するための、ハイパービデオプレイヤーの画面インタフェースを示す図である。

Claims

複数のビデオをクラスタ化する方法であって、
（ａ）複数のビデオから、各ビデオセグメントが前記ビデオの連続するサブシーケンスである１つ以上のビデオセグメントを選択し、
（ｂ）１つ以上の属性を選択し、
（ｃ）前記１つ以上の属性に基づいて前記１つ以上のビデオセグメントについて１つ以上の距離基準を生成し、
（ｄ）前記１つ以上の距離基準に基づいて１つ以上の階層的クラスタを生成し、
（ｅ）各クラスタから前記１つ以上のビデオセグメントの１つ以上のビデオサブセットを選択することであって、第１ビデオサブセットが第１クラスタから選択され、第２ビデオサブセットが第２クラスタから選択され、
（ｆ）前記選択された１つ以上のサブセットを結合することによりハイパービデオを生成することであって、ナビゲーションリンクが、前記第１クラスタと前記第２クラスタとの間の階層的リンクに基づいて前記第２ビデオサブセットと前記第１ビデオサブセットとを結合すること、
を含む方法。
ステップ（ｅ）および（ｆ）がさらに、
ビデオセグメントの一部である、１つ以上の代表ビデオクリップを選択することであって、各代表ビデオクリップが前記クラスタ内に存在し、第１の代表ビデオクリップは前記第１クラスタから選択され、第２の代表ビデオクリップは前記第２クラスタから選択され、
前記選択された１つ以上の代表ビデオクリップを結合することによりハイパービデオを生成することであって、ナビゲーションリンクが、前記第１のクラスタと前記第２のクラスタと間の階層的リンクに基づいて、前記第１の代表ビデオクリップを第２の代表ビデオクリップに結合すること、
を含む請求項１に記載の方法。
（ｇ）１つ以上の検索基準を選択し、
（ｈ）前記１つ以上の検索基準に基づいて前記複数のビデオの１回以上の検索を実行し、
（ｉ）検索結果に基づいてステップ（ａ）に定義されている包含すべきビデオセグメントを選択すること、
をさらに含む、請求項１に記載の方法。
１つ以上の前記検索基準が関連性スコアであり、包含のために選択される前記ビデオセグメントが、前記関連性スコアに基づいて１つ以上の検索において探索される、請求項３に記載の方法。
（ｇ）１つ以上の検索基準を選択し、
（ｈ）前記１つ以上の検索基準に基づいて前記複数のビデオの１回以上の検索を実行し、
（ｉ）前記検索結果に基づいてステップ（ｄ）における階層的クラスタを取り除くこと、
をさらに含む、請求項１に記載の方法。
１つ以上の前記検索基準は関連性スコアであり、前記クラスタの前記取り除くことは、前記関連性のスコアに基づいて検索されなかったビデオセグメントの削除に相当する、請求項５に記載の方法。
ステップ（ａ）において、１つ以上の前記属性が、前記ビデオの日付、前記ビデオセグメントの長さ、前記代表クリップの長さ、平均のショット長さ、色組成の平均、技術的な品質、問合せの関連性、字幕、字幕に関連するテキスト、字幕からの関連テキストの転写、代表クリップ内での検索項目の出現、代表クリップ近辺での検索項目の出現、著者、プロデューサ、検出される顔、物体の運動、俳優、キャラクター、場所、ジャンル、キーワード、注記または人工のメタデータから成るグループから選択される、請求項１に記載の方法。
前記階層的クラスタが、それぞれが最大Ｎ個のサブクラスタを有する複数のクラスタで形成される、請求項１に記載の方法。
ステップ（ｃ）において、前記距離基準が、項目ベクトルによりビデオセグメントを表現することにより生成される、請求項１に記載の方法。
ステップ（ｄ）において、前記１つ以上の階層的クラスタがＫ平均法クラスタ化アルゴリズムを用いて生成される、請求項１に記載の方法。
ステップ（ｄ）において、各ビデオ距離基準がユークリッド空間において特徴ベクトルによりビデオセグメントを表現することにより生成される、請求項１０に記載の方法。
ステップ（ｄ）において、サブクラスタの数Ｎが前記クラスタ化アルゴリズムの再帰的な適用により生成される、請求項１０に記載の方法。
ステップ（ｄ）において、前記階層的クラスタが集積的クラスタ化アルゴリズムを用いる二進数クラスタツリーである、請求項１に記載の方法。
ステップ（ｄ）において、Ｎが二進数クラスタツリー内のクラスタのサブツリーの数であり、Ｎはツリーを切断することにより決定される、請求項１３に記載の方法。
ビデオセグメント間の前記１つ以上の距離基準が空間における特徴ベクトル間の１つ以上の距離である、請求項１に記載の方法。
ビデオセグメント間の前記１つ以上の距離基準が空間における項目ベクトル間の１つ以上のコサイン距離である、請求項１に記載の方法。
前記クラスタの距離基準が最小距離、最大距離および平均距離から成る前記グループから選択される、請求項１３に記載の方法。
複数のビデオをクラスタ化する装置であって、
（ａ）複数のビデオから、各ビデオセグメントが前記ビデオの連続するサブシーケンスである１つ以上のビデオセグメントを選択する手段と、
（ｂ）１つ以上の属性を選択する手段と、
（ｃ）前記１つ以上の属性に基づいて前記１つ以上のビデオセグメントについて１つ以上の距離基準を生成する手段と、
（ｄ）前記１つ以上の距離基準に基づいて１つ以上の階層的クラスタを生成する手段と、
（ｅ）各クラスタから前記１つ以上のビデオセグメントの１つ以上のビデオサブセットを選択する手段であって、第１ビデオサブセットが第１クラスタから選択され、第２ビデオサブセットが第２クラスタから選択される手段と、
（ｆ）前記選択された１つ以上のサブセットの結合によりハイパービデオを作成する手段であって、ナビゲーションリンクが、前記第１クラスタと前記第２クラスタと間の階層的リンクに基づいて前記第１ビデオサブセットを前記第２ビデオサブセットに結合する手段と、
を備えた装置。
請求項１８に記載の装置により複数のビデオをクラスタ化するシステムであって、
ａ）１つ以上のパラメータのセットを指定し、前記１つ以上のパラメータのセットをソースコードに転送し、前記ソースコードを一連のタスクにコンパイルすることにより、ユーザが複数のビデオをクラスタ化することができる、１つ以上のプロセッサと
ｂ）媒体上に格納された命令を含む機械可読媒体であって、前記命令は１つ以上のプロセスにより処理されると、システムに、１つ以上のパラメータのセットを指定し、１つ以上のパラメータのセットをソースコードに転送し、前記ソースコードを一連のタスクにコンパイルすることにより、ユーザが複数のビデオをクラスタ化することを実行させる、機械可読媒体と、
を備えた、システム。
システムにより複数のビデオをクラスタ化するための命令を有するプログラムであって、前記命令は前記システムのプロセッサで実行されることにより、前記システムに、
（ａ）前記複数のビデオの少なくとも一部を選択して、前記ビデオセグメントが前記ビデオの連続するサブシーケンスである１つ以上のビデオセグメントを生成し、
（ｂ）１つ以上の属性を選択し、
（ｃ）前記１つ以上の属性に基づいて前記１つ以上のビデオセグメントについて１つ以上の距離基準を生成し、
（ｄ）前記１つ以上の距離基準に基づいて１つ以上の階層的クラスタを生成し、
（ｅ）各クラスタから前記１つ以上のビデオセグメントの１つ以上のビデオサブセットを選択することであって、第１ビデオサブセットが第１クラスタから選択され、第２ビデオサブセットが第２クラスタから選択され、
（ｆ）前記選択された１つ以上のビデオサブセットを結合することによりハイパービデオを作成することであって、ナビゲーションリンクが、前記第１クラスタと前記第２クラスタと間の階層的なリンクに基づいて前記第１ビデオサブセットを前記第２ビデオサブセットに結合すること、を実行させる、
プログラム。