JP2011082958A

JP2011082958A - ビデオ検索システムおよびそのためのコンピュータプログラム

Info

Publication number: JP2011082958A
Application number: JP2010176991A
Authority: JP
Inventors: John Adcock; アドコックジョン; Matthew Cooper; クーパーマシュー; Laurent Denoue; ドゥヌローラン; Hamed Pirsiavash; ピルシャバッシュハメド
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2009-10-05
Filing date: 2010-08-06
Publication date: 2011-04-21
Anticipated expiration: 2030-08-06
Also published as: US20110081075A1; US8280158B2; JP5510167B2

Abstract

【課題】プレゼンテーション等の静的なコンテントをフレーム中に含むビデオをより適切にインデックス化するためのシステムおよびコンピュータプログラムを提供する。
【解決手段】本発明のビデオ検索システムは、静的な情報コンテントを含んだビデオのフレームシーケンスを取得する取得手段と、連続する前後のフレーム間毎にピクセル値の差を計算する計算手段と、ピクセル値の差と所定の閾値との比較結果に基づいて、フレームシーケンスの中で静止状態と判断される一連の複数のフレームのセットを識別する識別手段と、一連の複数のフレームのセットの中からキーフレームを抽出する抽出手段と、キーフレームの中から静的な情報コンテントを含んだ静的キーフレームを選択し、選択された静的キーフレームを関連する情報と関連付けて保存する保存手段と、検索要求に基づいて保存手段に保存された静的キーフレームを提供する提供手段とを備える。
【選択図】図１

Description

本発明は、プレゼンテーション等の静的なコンテントを含むビデオをインデックス化し、検索するためのシステムおよびそのためのコンピュータプログラムに関する。

ストレージコストが低下しデジタルフォーマットでビデオを撮影し頒布する利便性が増加してきたため、現在ビデオはインターネット上で広く利用されるようになっている。しかし、インターネット上で関心のあるビデオを見つけ出すことは難しい場合が多い。一つの解決策はビデオに関するテキストの記述によりユーザがビデオにタグを付けるものである。一旦ビデオにテキストのタグが付けられると、ユーザの検索条件に関連するビデオを特定するときに、ユーザはこのテキスト記述に対して検索を行うことができる。しかし、ユーザがビデオのコンテンツに対して誤った、あるいは、不正確なテキストの記述を行う場合もある。さらに、マニュアルでビデオにタグ付けすることは面倒である。

特開２００６−３０９７７０号公報特開２０００−３１１１８０号公報米国特許第７１６７１９１号明細書

プレゼンテーション等の静的なコンテントをフレーム中に含むビデオをより適切にインデックス化するためのシステムおよびコンピュータプログラムを提供する。

本発明のビデオ検索システムの第１の態様は、静的な情報コンテントを含んだビデオのフレームシーケンスを取得する取得手段と、前記フレームシーケンスに含まれる連続する前後のフレーム間毎にピクセル値の差を計算する計算手段と、前記計算手段により計算された前記連続する前後のフレーム間毎のピクセル値の差と所定の閾値との比較結果に基づいて、前記フレームシーケンスの中で静止状態と判断される一連の複数のフレームのセットを識別する識別手段と、前記一連の複数のフレームのセットの中からキーフレームを抽出する抽出手段と、抽出された前記キーフレームの中から前記静的な情報コンテントを含んだ静的キーフレームを選択し、選択された前記静的キーフレームを前記静的キーフレームに関連する情報と関連付けて保存する保存手段と、検索要求に基づいて前記保存手段に保存された前記静的キーフレームを提供する提供手段と、を備えることを特徴とする。

本発明のビデオ検索システムの別の態様ではさらに、前記ビデオが講演者によるプレゼンテーションを撮影したビデオであって、前記静的な情報コンテントが、前記プレゼンテーションで用いられたスライド画像を含むことを特徴とする。

本発明のビデオ検索システムの別の態様ではさらに、前記識別手段は、前記連続する前後のフレーム間の前記ピクセル値の差が所定の閾値以上である前後のフレームを識別する前後フレーム識別工程と、識別された前記前後のフレーム中に含まれる文字領域に対応する境界ボックスを識別する境界ボックス識別工程と、エッジ検出技術に基づいて、前記前後のフレームの前のフレームでは空欄であった前記境界ボックス中の領域があるかを判別する判別工程と、前記判別工程により前記前後のフレームの前のフレームで空欄であった前記境界ボックス中の領域があると判別される場合には、前記前後のフレーム間の前記ピクセル値の差が前記所定の閾値を超える前記前後のフレームの前のフレーム中での領域が空欄でなくなるまで、前記前後フレーム識別工程、前記境界ボックス識別工程及び前記判別工程を繰り返す繰り返し工程と、を行い、前記静止状態と判断される一連の複数のフレームのセットに含まれるフレームとして、前記繰り返し工程の間に用いられた連続するフレームシーケンスの少なくとも一部を含むように識別することを特徴とする。

本発明のビデオ検索システムの別の態様ではさらに、前記抽出手段が、前記繰り返し工程の間に用いられた前記連続するフレームシーケンスのうち最後のフレームを、前記キーフレームとして選択することを特徴とする。

本発明のビデオ検索システムの別の態様ではさらに、前記静的な情報コンテントには積み上げスライドを含むビデオのフレームシーケンスが含まれており、前記識別手段は、前記繰り返し工程によって、時間経過とともに情報が積み上げられる前記積み上げスライドのセットを前記静止状態と判断される一連の複数のフレームのセットとして識別することを特徴とする。

本発明のビデオ検索システムの別の態様ではさらに、前記保存手段は、前記キーフレームのセット中から、静的な情報コンテントを含むフレームの視覚的特徴をモデル化した視覚モデルを用いて静的な情報コンテントを含む前記静的キーフレームを識別し、静的情報コンテントを含まないキーフレームを除外することで、前記静的キーフレームを選択することを特徴とする。

本発明のビデオ検索システムの別の態様ではさらに、前記ビデオが講演者によるプレゼンテーションを撮影したビデオであって、前記静的な情報コンテントが該プレゼンテーションで用いられたスライド画像を含み、前記視覚モデルが、前記静的な情報コンテントを含むフレームとして、前記プレゼンテーションが行われた場所で撮影されたビデオのフレーム内に前記スライド画像が含まれるフレームに基づいてモデル化されてなることを特徴とする。

本発明のビデオ検索システムの別の態様ではさらに、前記視覚モデルは、前記フレームシーケンスを、静的な情報コンテントを含む第１のフレームのセットと、静的な情報コンテントを含まない第２のフレームのセットとに分別し、前記第１および第２のフレームのセットを用いて、静的な情報コンテントが含まれるフレームであるか否かを判断する教師付き分類器を訓練することにより生成されることを特徴とする。

本発明のビデオ検索システムの別の態様ではさらに前記第１及び第２のフレームのセットのカラーヒストグラムが計算され、前記カラーヒストグラムを用いて前記分類器を訓練することを特徴とする。

本発明のビデオ検索システムの別の態様ではさらに、前記保存手段は、前記キーフレームの中から人間の顔を検出する顔検出手段を備え、前記キーフレームのセットから、前記静的な情報コンテントを含まず人間の顔を含むフレームを判別し、判別結果に応じて前記キーフレームのセットのサブセットを生成することを特徴とする。

本発明のビデオ検索システムの別の態様ではさらに、前記キーフレームのセット中に少なくとも一つのフレーム内の所定の第１の領域に人間の顔と所定の第２の領域に静的な情報コンテントとを含むフレームがあり、前記視覚モデルは、前記フレーム内の前記所定の第１および第２の領域各々に人間の顔と前記静的な情報コンテントとを各々含むフレームを判別するためのモデルであることを特徴とする。

本発明のビデオ検索システムの別の態様ではさらに、前記保存手段に保存される、前記静的キーフレームに関連する情報には、前記静的キーフレームの前記ビデオにおける出現時点を表す時間情報が含まれ、前記提供手段で提供されたキーフレームの選択に応じて前記ビデオを前記時間情報に基づいて再生するビデオ再生手段を更に備えることを特徴とする。

本発明のビデオ検索システムの別の態様ではさらに、前記保存手段に保存される、前記静的キーフレームに関連する情報には、前記静的キーフレームに含まれる前記静的情報コンテントが前記ビデオにおいて前記静的キーフレーム内に出現するより早い時点の時間に関する情報が含まれ、前記提供手段で提供されたキーフレームの選択に応じて前記ビデオを前記時間情報に基づいて再生するビデオ再生手段を更に備えることを特徴とする。

本発明のビデオ検索システムの別の態様であるコンピュータプログラムは、コンピュータを、静的な情報コンテントを含んだビデオのフレームシーケンスを取得する取得手段と、前記フレームシーケンスに含まれる連続する前後のフレーム間毎にピクセル値の差を計算する計算手段と、前記計算手段により計算された前記連続する前後のフレーム間毎のピクセル値の差と所定の閾値との比較結果に基づいて、前記フレームシーケンスの中で静止状態と判断される一連の複数のフレームのセットを識別する識別手段と、前記一連の複数のフレームのセットの中から静的キーフレームを抽出する抽出手段と、抽出された前記静的キーフレームの中から前記静的な情報コンテントを含んだ静的キーフレームを選択し、選択された前記静的キーフレームを前記静的キーフレームに関連する情報と関連付けて保存する保存手段と、検索要求に基づいて前記保存手段に保存された前記キーフレームを提供する提供手段と、として動作させるためのビデオ検索用コンピュータプログラムである。

本発明のビデオ検索用コンピュータプログラムの別の態様ではさらに、前記識別手段は、
前記連続する前後のフレーム間の前記ピクセル値の差が所定の閾値以上である前後のフレームを識別する前後フレーム識別工程と、識別された前記前後のフレーム中に含まれる文字領域に対応する境界ボックスを識別する境界ボックス識別工程と、エッジ検出技術に基づいて、前記前後のフレームの前のフレームでは空欄であった前記境界ボックス中の領域があるかを判別する判別工程と、前記判別工程により前記前後のフレームの前のフレームで空欄であった前記境界ボックス中の領域があると判別される場合には、前記前後のフレーム間の前記ピクセル値の差が前記所定の閾値を超える前記前後のフレームの前のフレーム中での領域が空欄でなくなるまで、前記前後フレーム識別工程、前記境界ボックス識別工程及び前記判別工程を繰り返す繰り返し工程と、を行い、前記静止状態と判断される一連の複数のフレームのセットに含まれるフレームとして、前記繰り返し工程の間に用いられた連続するフレームシーケンスの少なくとも一部を含むように識別することを特徴とする。

本発明のビデオ検索用コンピュータプログラムの別の態様ではさらに、前記保存手段は、前記キーフレームのセット中から、静的な情報コンテントを含むフレームの視覚的特徴をモデル化した視覚モデルを用いて静的な情報コンテントを含む前記静的キーフレームを識別し、静的情報コンテントを含まないキーフレームを除外することで、前記静的キーフレームを選択することを特徴とする。

本発明によれば、静的なコンテントをフレーム中に含むビデオのインデックスが従来と比べてより適切にユーザに対して提供できる。

本発明の実施形態に関わる、プレゼンテーションビデオをインデックス化するシステムを示すブロック図である。本発明の実施形態に関わる、プレゼンテーションビデオをインデックス化するサーバーを示すブロック図である。本発明の実施形態に関わる、コンテントサーバーを示すブロック図である。本発明の実施形態に関わる、クライアントコンピュータシステムを示すブロック図である。本発明の実施形態に関わる、プレゼンテーションビデオのフレームを示すブロック図である。本発明の実施形態に関わる、プレゼンテーションスライドとピクチャーインピクチャー領域を含むプレゼンテーションビデオのフレームを示すブロック図である。本発明の実施形態に関わる、プレゼンテーションスライドと講演者を含むプレゼンテーションビデオのフレームを示すブロック図である。本発明の実施形態に関わる、プレゼンテーションスライドとステージ上の講演者を含むプレゼンテーションビデオのフレームを示すブロック図である。本発明の実施形態に関わる、静的な情報コンテントを含んだプレゼンテーションビデオのキーフレームを識別する方法のフローチャートである。本発明の実施形態に関わる、静的な情報コンテントを含んだキーフレームを保存する方法のフローチャートである。本発明の実施形態に関わる、外観モデルを生成する方法のフローチャートである。本発明の実施形態に関わる、静的な情報コンテントを含まない連続フレーム中のフレームを識別する方法のフローチャートである。本発明の実施形態に関わる、静的な情報コンテントを含むフレームを識別する方法のフローチャートである。本発明の実施形態に関わる、静的な情報コンテントを含んだフレームを識別するためにサポートベクトルマシンを訓練する方法のフローチャートである。本発明の実施形態に関わる、外観モデルを生成する他の方法のフローチャートである。本発明の実施形態に関わる、フレームにピクチャーインピクチャー領域を含む時に、静的な情報コンテントを含むキーフレームの識別ため外観モデルを用いる方法のフローチャートである。本発明の実施形態に関わる、フレーム中に講演者が講演を行った部屋の少なくとも一部が含まれているときに、静的な情報コンテントを含むキーフレームを保存する方法のフローチャートである。本発明の実施形態に関わる、部屋モデルを生成する方法のフローチャートである。本発明の実施形態に関わる、静的な連続フレームのセットを識別する方法のフローチャートである。本発明の実施形態に関わる、キーフレームからのテキストの抽出とインデックス化の方法のフローチャートである。本発明の実施形態に関わる、プレゼンテーションビデオからフレームシーケンスを得る方法のフローチャートである。本発明の実施形態に関わる、静的な情報コンテントを含むフレームを識別する、サポートベクトルマシンを訓練するための方法のブロック図である。本発明の実施形態に関わる、静的な情報コンテントを含むフレームを識別するためにサポートベクトルマシンを使用する工程のブロック図である。本発明の実施形態に関わる、部屋の中で投影スクリーン上に表示されたプレゼンテーションビデオのフレームを示すブロック図である。本発明の実施形態に関わる、図２１Ａで示すプレゼンテーションビデオのフレーム内でユーザ指定の境界領域を示すブロック図である。本発明の実施形態に関わる、透視補正されたプレゼンテーションスライドを示すブロック図である。本発明の実施形態に関わる、時間とともに積み上げられるプレゼンテーションスライドを示すブロック図である。本発明の実施形態に関わる、プレゼンテーションスライド中の新しい要素を示すブロック図である。本発明の実施形態に関わる、プレゼンテーションスライド中の他の新しい要素を示すブロック図である。本発明の実施形態に関わる、プレゼンテーションスライド中の他の新しい要素を示すブロック図である。本発明の実施形態に関わる、部屋後方フレーム中の静的な情報コンテントを識別するための自動化方法示すブロック図である。本発明の実施形態に関わる、部屋後方フレームとフルフレーム間で特徴点のマッチングを示すブロック図である。本発明の実施形態に関わる、部屋後方フレーム中の静的な情報コンテントを含む領域の角の識別を示すブロック図である。

ビデオの中には静的な情報コンテント（例えば、テキスト、図等の、フレーム内で静止した状態で提供される情報）を含んでいるものがあり、これをビデオのコンテントを識別するために利用することができる。例えば、インターネット上で広く普及している種類のビデオとしてプレゼンテーションのビデオがある。プレゼンテーションのビデオとしては、講義のビデオ（例えば、教育機関により行われるもの）や、カンファレンス（会議）で行われるプレゼンテーション等がある。プレゼンテーションビデオの共通の要素は、講演を整理するためにスライド（例えば、パワーポイント（登録商標）のスライド、OHP、黒板、白板等）を用いる点であり、これらをインデックス化することで検索に用いることができる。このため、本発明のいくつかの実施形態では、静的な情報コンテントを含むビデオのフレームを識別して、識別されたフレーム内の静的な情報コンテントをインデックス化することで、このインデックス化された静的な情報コンテントに対して検索を行えるようにする。なお、ここで記述する実施形態ではプレゼンテーションに用いたビデオを扱っているが、他のビデオコンテントに対しても適用可能である。

システムアーキテクチャ
図1は、いくつかの実施形態に関わるプレゼンテーションビデオをインデックス化するためのシステム１００を説明するためのブロック図である。システム１００にはプレゼンテーションビデオを保持する一以上のコンテントサーバーが備えられている。なお、コンテントサーバー１０２にはプレゼンテーションビデオ以外のビデオが保存されていてもよい。システム１００にはさらに一以上のサーバー１１０上に、プレゼンテーションビデオ１０４を処理してキーフレームを抽出する抽出手段と、インデックス化するインデックス化手段（１１２）が備えられている。いくつかの実施形態では、プレゼンテーションビデオ１１４のキーフレームとして、静的な情報コンテントのキーフレームだけを含んでいる（例えば、テキスト、図、写真、線画等）。システム１００は、一以上のクライアントコンピュータシステム１２０を含んでいる。一以上のクライアントコンピュータシステム１２０は、一以上のコンテントサーバー１０２、１１０に保持されているコンテントにアクセスするためのブラウザ１２２（例えば、ウェブブラウザ）とアプリケーション１２４を含んでいる。いくつかの実施形態では、アプリケーション１２４は、クライアントコンピュータシステム用のビデオプレーヤーである。いくつかの実施形態では、アプリケーション１２４は、ブラウザ１２２用のビデオプラグインである。一以上のコンテントサーバー１０２、一以上のサーバー１１０と一以上のクライアントコンピュータシステム１２０はネットワーク１５０を介して互いに接続されている。ネットワーク１５０としては、一般的な、コンピュータノード間を接続する有線あるいは無線の通信チャネルのあらゆるタイプのものが利用できる。これには、LAN、ＷＡＮやこれらの組み合わせも含まれるが、これに限定されるものでもない。いくつかの実施形態ではネットワーク１５０としてインターネットを含む。

いくつかの実施形態では、サーバー１１０は定期的にコンテントサーバー１０２上に保持されるプレゼンテーションビデオ１０４を確認する。いくつかの実施形態では、新しいプレゼンテーションビデオ１０４がビデオチャンネルに登録されたことを確認するために、ウェブフィード（例えばＲＳＳフィード、Ａｔｏｍフィード等）を定期的に確認する。プレゼンテーションビデオ１０４が識別された後に、サーバー１１０はプレゼンテーションビデオ１０４を登録し、コンテントサーバ１０２から検索できるようにする。プレゼンテーションビデオがコンテントサーバーから検索されたときには、キーフレーム抽出手段とインデックス化手段１１２が、タイムスタンプが付加されたキーフレームのセットと抽出されたキーフレーム（例えば、プレゼンテーションビデオ１１４のインデックスとキーフレーム）に関連づけられたテキストを、後で示すような手法で、抽出する。こうして、プレゼンテーションビデオは検索可能となる（例えば、サーバー１１０上の検索エンジンを用いて）。例えば、ユーザがサーバー１１０に検索語を送信する。検索語に対する応答として、サーバー１１０は、検索語に関連するプレゼンテーションビデオへのリンクを返す。いくつかの実施形態では、ユーザがプレゼンテーションビデオへのリンクをクリックすると、サーバー１１０は静的情報コンテントを含んだプレゼンテーションビデオのキーフレームの画像をクライアントコンピュータ上に表示させる。これらの実施形態では、キーフレームの画像にはリンクが付加され、アプリケーション１２４が、プレゼンテーションビデオが保存されているコンテントサーバからプレゼンテーションビデオを検索し、ユーザによって選択されたキーフレームに対応する時間インデックスの時点からプレゼンテーションビデオを再生するように構成されている。この結果、ユーザはアプリケーション１２４を通じて、ユーザによって選択されたキーフレームに対応した時間インデックスの時点からプレゼンテーションビデオを再生させることができる。

図２は、いくつかの実施形態に関するサーバー１１０を説明するためのブロック図である。サーバー１１０は、通常一以上の処理ユニット（ＣＰＵ）２０２、一以上のネットワークあるいは他の通信インターフェイス２０４、メモリ２１０と、コンポーネント間を接続する一以上の通信バス２０９を有する。通信バス２０９はシステムコンポーネント間の接続し通信を制御する回路（チップセット）を含んでいてもよい。サーバー２００は、ディスプレイ装置２０６と入力装置２０８（例えば、キーボード、マウス、タッチパネル、キーパッド等）を備えることができる。メモリ２１０は、DRAM,SRAM,DDR,RAMといった高速ランダムアクセスメモリや他の高速固体ランダムアクセスメモリを備えたり、一以上の磁気ディスクデバイス、光学ディスク記憶デバイス、フラッシュメモリデバイス、あるいは他の不揮発性固体メモリを、不揮発性メモリとして備えてもよい。メモリ２１０はCPU２０２とは分離した一以上の記憶デバイスとすることもできる。メモリ２１０あるいはメモリ２１０内の不揮発性記憶デバイスには、コンピュータ可読記憶媒体を含む。いくつかの実施形態では、メモリ２１０は次のプログラム、モジュール、データ構造あるいはその一部を記憶する。
・オペレーティングシステム２１２様々な基本システムサービスの処理、ハードウェア依存処理を行う。
・通信モジュール２１４サーバー１１０を他のコンピュータに一以上の通信インターフェース２０４（有線あるいは無線、インターネット、WAN,LAN、都市間通信ネットワークなど）を介して接続する。
・ユーザインターフェースモジュール２１６入力デバイス２０８を通じてユーザからのコマンドを受信し、表示デバイス２０６にユーザインタフェースオブジェクトを生成する。
・キーフレーム抽出およびインデックス化モジュール１１２プレゼンテーションビデオ１１４についてインデックスとキーフレームを生成するためにプレゼンテーションビデオを処理する。
・タイムインデックス２２８キーフレーム２２８のタイムインデックスを保持する。
・ウェブサーバーモジュール２２０クライアントコンピュータシステム１２０からのコンテント要求（例えば、ビデオ、プレゼンテーションビデオのインデックスやキーフレーム、ウェブページなど）する。プレゼンテーションビデオ１１４のインデックスとキーフレームについてキーワード検索を行うための検索モジュール２２２を含む。
・一以上の外観モデル２２４（後述）
・一以上の部屋モデル２２６（後述）

上述の各要素はそれぞれ一以上の前述のメモリ装置に記憶され、上述の機能を実行するためのプログラムと対応付けられる。このプログラムは一以上のプロセッサ（CPU２０２）によって実行することもできる。上述の各モジュールやプログラムは別個のソフトウェアプログラム、手順あるいはモジュールとして実現する必要はなく、これらのモジュールの様々な一部を結合したり、再編成するなどして、多様な実施形態を構成することもできる。いくつかの実施形態では、メモリ２１０は上述のモジュールとデータ構造の一部を記憶してもよい。さらに、メモリ２１０は記述していない追加のモジュールやデータ構造を記憶させることもできる。

図２はサーバーとして説明しているが、サーバーに存在する多様な特徴を機能的に記述することを意図するもので、構造的な概要の形態を示すものではない。当業者には自明であるように、実用上、分離して示された要素を結合したり、ある要素を分離することも可能である。例えば、図２で別々に示されているアイテムを一台のサーバーで実現できるし、一つのアイテムを複数のサーバーで実現することもできる。サーバーを構成する上で実際に何台のサーバーをどのように使うかは、システムがピーク時に取り扱うデータ量と平均的な使用量とを考慮して決定される。

図３は、いくつかの実施形態に関するコンテントサーバー１０２を説明するためのブロック図である。コンテントサーバー１０２は、通常一以上の処理ユニット（ＣＰＵ）３０２、一以上のネットワークあるいは他の通信インターフェイス３０４、メモリ３１０と、コンポーネント間を接続する一以上の通信バス３０９を有する。通信バス３０９はシステムコンポーネント間の接続し通信を制御する回路（チップセット）を含んでいてもよい。コンテントサーバー１０２は、ディスプレイ装置３０６と入力装置３０８（例えば、キーボード、マウス、タッチパネル、キーパッド等）を備えることができる。メモリ３１０は、ＤＲＡＭ，ＳＲＡＭ，ＤＤＲ，ＲＡＭといった高速ランダムアクセスメモリや他の高速固体ランダムアクセスメモリを備えたり、一以上の磁気ディスクデバイス、光学ディスク記憶デバイス、フラッシュメモリデバイス、あるいは他の不揮発性固体メモリを、不揮発性メモリとして備えてもよい。メモリ３１０はCPU３０２とは分離した一以上の記憶デバイスとすることもできる。メモリ３１０あるいはメモリ３１０内の不揮発性記憶デバイスには、コンピュータ可読記憶媒体を含む。いくつかの実施形態では、メモリ３１０は次のプログラム、モジュール、データ構造あるいはその一部を記憶する。
・オペレーティングシステム３１２様々な基本システムサービスの処理、ハードウェア依存処理を行う。
・通信モジュール３１４コンテントサーバー１０２を他のコンピュータに一以上の通信インターフェース３０４（有線あるいは無線、インターネット、WAN,LAN、都市間通信ネットワークなど）を介して接続する
・ユーザインターフェースモジュール３１６入力デバイス３０８を通じてユーザからのコマンドを受信し、表示デバイス３０６にユーザインタフェースオブジェクトを生成する。
・ウェブサーバーモジュール３１８クライアントコンピュータシステム１２０からのコンテント（例えば、ビデオ、ウェブページなど）に関する要求の受信と処理を行う。
・プレゼンテーションビデオ１０４

上述の各要素はそれぞれ一以上の前述のメモリ装置に記憶され、上述の機能を実行するためのプログラムと対応付けられる。このプログラムは一以上のプロセッサ（ＣＰＵ３０２）によって実行することもできる。上述の各モジュールやプログラムは別個のソフトウェアプログラム、手順あるいはモジュールとして実現する必要はなく、これらのモジュールの様々な一部を結合したり、再編成するなどして、多様な実施形態を構成することもできる。いくつかの実施形態では、メモリ３１０は上述のモジュールとデータ構造の一部を記憶してもよい。さらに、メモリ３１０は記述していない追加のモジュールやデータ構造を記憶させることもできる。

図３はコンテントサーバーとして説明しているが、コンテントサーバーに存在する多様な特徴を機能的に記述することを意図するもので、構造的な概要の形態を示すものではない。当業者には自明であるように、実用上、分離して示された要素を結合したり、ある要素を分離することも可能である。例えば、図３で別々に示されているアイテムを一台のサーバーで実現できるし、一つのアイテムを複数のサーバーで実現することもできる。サーバーを構成する上で実際に何台のサーバーをどのように使うかは、システムがピーク時に取り扱うデータ量と平均的な使用量とを考慮して決定される。

図４は、いくつかの実施形態に関するクライアントコンピュータシステム１２０を説明するためのブロック図である。クライアントコンピュータシステム１２０は、通常一以上の処理ユニット（ＣＰＵ）４０２、一以上のネットワークあるいは他の通信インターフェイス４０４、メモリ４１０と、コンポーネント間を接続する一以上の通信バス４０９を有する。通信バス４０９はシステムコンポーネント間の接続し通信を制御する回路（チップセット）を含んでいてもよい。サーバー４００は、ディスプレイ装置４０６と入力装置４０８（例えば、キーボード、マウス、タッチパネル、キーパッド等）を備えることができる。メモリ４１０は、ＤＲＡＭ，ＳＲＡＭ，ＤＤＲ，ＲＡＭといった高速ランダムアクセスメモリや他の高速固体ランダムアクセスメモリを備えたり、一以上の磁気ディスクデバイス、光学ディスク記憶デバイス、フラッシュメモリデバイス、あるいは他の不揮発性固体メモリを、不揮発性メモリとして備えてもよい。メモリ４１０はＣＰＵ４０２とは分離した一以上の記憶デバイスとすることもできる。メモリ４１０あるいはメモリ４１０内の不揮発性記憶デバイスには、コンピュータ可読記憶媒体を含む。いくつかの実施形態では、メモリ４１０は次のプログラム、モジュール、データ構造あるいはその一部を記憶する。
・オペレーティングシステム４１２様々な基本システムサービスの処理、ハードウェア依存処理を行う。
・コミュニケーションモジュール４１４クライアントコンピュータシステム１２０を他のコンピュータに一以上の通信インターフェース４０４（有線あるいは無線、インターネット、ＷＡＮ，ＬＡＮ、都市間通信ネットワークなど）を介して接続する
・ユーザインターフェースモジュール４１６入力デバイス４０８を通じてユーザからのコマンドを受信し、表示デバイス４０６にユーザインタフェースオブジェクトを生成する。
・ブラウザ１２２（例えばウェブブラウザ）ネットワークを介してコンテントにアクセスするためのユーザインタフェースを提供する。
・アプリケーション１２４ビデオを再生するための独立したあるいはブラウザ１２２用のプラグイン

上述の各要素はそれぞれ一以上の前述のメモリ装置に記憶され、上述の機能を実行するためのプログラムと対応付けられる。このプログラムは一以上のプロセッサ（ＣＰＵ４０２）によって実行することもできる。上述の各モジュールやプログラムは別個のソフトウェアプログラム、手順あるいはモジュールとして実現する必要はなく、これらのモジュールの様々な一部を結合したり、再編成するなどして、多様な実施形態を構成することもできる。いくつかの実施形態では、メモリ４１０は上述のモジュールとデータ構造の一部を記憶してもよい。さらに、メモリ４１０は記述していない追加のモジュールやデータ構造を記憶させることもできる。

図４はクライアントコンピュータシステムとして説明しているが、クライアントコンピュータシステムに存在する多様な特徴を機能的に記述することを意図するもので、構造的な概要の形態を示すものではない。当業者には自明であるように、実用上、分離して示されている要素を結合したり、ある要素を分離することも可能である。

フレームの種類
ここで、典型的にプレゼンテーションビデオ内で発生するフレームのタイプについて説明する。

図５Ａは、いくつかの実施形態に関わる、テキスト５０３とグラフィックス５０４（例えば、記号、線画、図、写真など）を含むプレゼンテーションスライドを含んだプレゼンテーションビデオのフレーム５０１を説明するブロック図５００である。フレーム５０１の中で、プレゼンテーションスライド５０２が全体に表示され、他のコンテント（例えば、講演者、顔、出席者、講演が行われている部屋等）は含まれていない。フレーム５０１には、テキスト５０３とグラフィックス５０４が静的な情報コンテントとして示されている。

いくつかの実施形態では、静的な情報コンテントは一以上のテキスト、シンボル、線画、図、写真などを含んでいる。静的な情報コンテントからは、講演者、講演者や出席者の顔、講演がされた部屋、あるいは他のプレゼンテーションビデオでプレゼンテーションの内容を示す情報を含まない物体が除外される。

いくつかの実施形態では、プレゼンテーションスライド５０２が、黒板（例えばチョークでの黒板への書き込み）、ホワイトボード（例えば、カラーインクでのホワイトボードへの書き込み）、投影スクリーン（ＯＨＰやカメラを使ってスクリーンに投影された透明なスライド、デジタルプロジェクターからスクリーン上に投影されたデジタルスライド等）をキャプチャーしたビデオフレームで構成される。

図５Ｂは、いくつかの実施形態に関わる、テキスト５１３、グラフィックス５１４とピクチャーインピクチャー（あるいはビデオインビデオ）の領域５１５を含むプレゼンテーションスライド５１２を含んだプレゼンテーションビデオのフレーム５１１を示している。プレゼンテーションスライド５１２（すなわち、静的な情報コンテント）はフレーム５１１内全体に表示されている。しかし、ピクチャーインピクチャー領域５１５がプレゼンテーションスライド５１２上に重なっている。通常、ピクチャーインピクチャー領域５１５は講演者が説明をしているときの講演者の顔のライブビデオフィードを含んでいる。

図５Ｃは、いくつかの実施形態に関わる、プレゼンテーションスライド５３２の一部と講演台５２３の後ろにいる講演者５２２を含んだプレゼンテーションビデオのフレーム５２１を説明するためのブロック図５２０である。図５Ｃに示すように、フレーム５２１で注目されているのは、フレーム５２１内の全体に表示されている講演者５２２である。フレーム５２１には、ほとんど静的な情報コンテントが含まれていない。

図５Ｄは、いくつかの実施形態に関わる、テキスト５３３、グラフィックス５３４、ステージ５３７上の講演者５３５を含むプレゼンテーションスライド５３２を含んだプレゼンテーションビデオのフレーム５３１を説明するためのブロック図５３０である。図５Ｄで示すように、プレゼンテーションスライド５３２（すなわち静的な情報コンテント）と講演者５３５がフレーム５３１の全体に映っている。更に、プレゼンテーションが行われた部屋の一部もフレーム５３１内にある（つまり、ステージ５３７）。フレーム５３１は、プレゼンテーションスライド５３２、講演者５３５、プレゼンテーションが行われた部屋の一部がすべて一つのフレーム内に含まれる、「部屋後方（back-of-the-room）」フレームの典型的な例である。

キーフレーム抽出
静的な情報コンテントを含んだキーフレーム（例えば、テキスト、図、シンボルなどを含んだプレゼンテーションスライド）は、インデックス化して、ユーザに提示するのに、いくつかの理由で好ましい対象である。第１に、静的な情報コンテントは、ユーザにプレゼンテーションビデオの音声またはビデオストリームを提供することなしに、プレゼンテーションビデオの内容についての情報を与えるから、プレゼンテーションビデオコンテントに関するコンテキスト（概要）を提供することができる。第２に、静的な情報コンテントは、光学的文字読取技術（ＯＣＲ）等の情報コンテント検出技術で抽出することができるテキストを含んでおり、プレゼンテーションビデオ内をテキストベースで検索するためのインデックスを生成するのに使用することができる。最後に、静的な情報コンテントは、講演者によりプレゼンテーションを整理するために使われる場合が多く、このため、プレゼンテーションで一貫するトピックスの範囲を定めている。このため、いくつかの実施形態では、プレゼンテーションビデオのフレーム内の静的な情報コンテントの識別と、インデックス用とユーザ案内用としてキーフレーム抽出を行う。

図６は、いくつかの実施形態に関する、静的な情報コンテントを含んだプレゼンテーションビデオのキーフレームを特定する方法６００のフローチャートである。いくつかの実施形態では、静的な情報コンテントが一以上のプレゼンテーションスライドに含まれている。いくつかの実施形態ではプレゼンテーションビデオは、アーカイブされている。いくつかの実施形態ではアーカイブされたビデオは、サーバー１１０とは別の第２のコンピュータシステム上に存在する（例えば、コンテントサーバー１０２）。いくつかの実施形態では、アーカイブされたプレゼンテーションビデオは、サーバー１１０上に存在する。いくつかの実施形態では、アーカイブされたビデオは、ユーザによってサーバー１１０にもともとアップロードされたものであってもよい。あるいは、プレゼンテーションビデオはコンテントサーバー１０２からサーバー１１０にダウンロードされてもよい。いくつかの実施形態では、プレゼンテーションビデオは、同時刻に講演がされているプレゼンテーションのビデオであってもよい。この場合、プレゼンテーションビデオはサーバー１１０にストリーミングされてもよい。

サーバー１１０はプレゼンテーションビデオからフレームシーケンスを取得する（６０２）。図１８に、いくつかの実施形態に関わる、プレゼンテーションビデオからフレームシーケンスを取得する方法のフローチャートを示す。サーバー１１０はプレゼンテーションビデオを検索し（１８０２）、フレームシーケンスを生成するために所定の時間間隔でプレゼンテーションビデオのフレームを取得する（１８０４）。例えば、サーバー１１０はフレームシーケンスを生成するために1秒あたり１フレームでプレゼンテーションビデオからフレームを取得する。

図６に戻って、サーバー１１０はフレームシーケンスの連続するフレーム間のピクセル値の差を計算し（６０４）、連続するフレームの組が静的かどうかを判定する（６０６）。このとき、静的な連続するフレーム間では変化したピクセル値の割合が第１の所定の閾値よりも低く、連続するフレーム中で対応する画素のピクセル値の差が第２の閾値を超える場合には、ピクセル値が変化したと推定する。いくつかの実施形態では、変化した画素の割合を計算するときに、変化した画素を連結した領域が所定のサイズよりも大きいもののみを用いる。なお、連結した領域は、画素が画素のセット中の他の画素に、画素のセットに含まれる連続して隣接した画素を介して、連続した通路を持つような画素のセットを見出すことで識別される。いくつかの実施形態では、連続したフレームの各セットは、第１の閾値よりも低いピクセル値の変化割合を有する連続フレームを所定数含み、連続フレーム中の対応画素のピクセル値間の差が第２の閾値を超える時はピクセル値は変化したとみなす。いいかえると、連続したフレームの各セットは、所定の時間の間、静的であったものとする。例えば、もし連続フレームの所定の数が３で、フレームシーケンスが１秒に１フレーム抽出されるとすれば、連続フレームの各セットは、３秒間安定しているということになる。静的な連続フレームを識別することは、静的な情報コンテントを含むフレームである可能性を高める。特に、スライドのような静的な情報コンテントは連続したフレーム間で安定している傾向がある。言い換えれば、静的な情報コンテントはフレーム間で変化しない。なお、所定の閾値は、プレゼンテーションビデオ中のノイズによって静的な情報コンテントを含むフレームが非安定フレームとして誤分類されないように設定される。また、講演者、出席者、あるいはプレゼンテーションが行われている部屋の画像を全フレームの画像としてフレーム中に含む場合には、連続フレーム間のプレゼンテーションビデオの解像度や、講演者や出席者の動きによって、誤認識される可能性がある。この問題の解決方法については、以下図８〜２３に基づいて説明する。

サーバー１１０は、連続フレームのセットからキーフレームを抽出する（６０８）。いくつかの実施形態では、サーバー１１０は連続フレームの各セットの中から所定のフレームを選択することで、連続フレームの各セットからそれぞれのキーフレームを抽出する。連続フレームの各セット中の各フレームは同じ情報コンテント（例えば、テキスト、図など）を含むので、各セットからは一つのフレームだけが必要となる。例えば、もし連続フレームの各セットが３つのフレームを含む場合には、サーバー１１０は連続フレームの各セットの最後のフレームを選択することができる。いくつかの実施形態では、サーバー１１０は、抽出されたキーフレームに対応するタイムスタンプ（あるいはタイムインデックス、例えばキーフレームのタイムインデックス２２８）を抽出する。

次に、サーバー１１０は、静的な情報コンテントを含んだキーフレームのセットを保存する（６１０）。この処理は以下で図７〜２３を用いてより詳細に説明する。サーバー１１０はユーザがインタラクションをするための静的な情報コンテントを含んだキーフレームのセットを表示させる（６１２）。いくつかの実施形態では、サーバー１１０は表示される各キーフレームを、プレゼンテーションビデオの対応するタイムスタンプ（あるいはタイムインデックス）にリンクさせ、ユーザが表示されたキーフレームをクリックしたときに、アプリケーション１２４がプレゼンテーションビデオを検索し、クリックされたキーフレームに対応するタイムスタンプ（あるいはタイムインデックス）の時点からプレゼンテーションビデオを再生する。

いくつかの実施形態では、サーバー１１０はキーフレームをインデックス化し、ユーザがインタラクションする検索インターフェイスを提供する。図１７は、いくつかの実施形態に関わる、キーフレームからテキストを抽出してインデックス化する方法１７００のフローチャートです。サーバー１１０はキーフレームのセットからテキストを抽出するために光学文字認識技術（ＯＣＲ)を用いる（１７０２）。次いで、サーバー１１０は抽出されたテキストをインデックス化する（１７０４）。サーバー１１０はユーザがインタラクションする検索インターフェイスを提供し（１７０６）、検索インターフェイスを通じてユーザはキーワードを含むプレゼンテーションビデオを識別するためのキーワード検索を行うことができる。いくつかの実施形態では、検索結果に、ユーザが入力したキーワードが抽出された静的な情報コンテントに含まれるフレームのサムネイル画像を含めて、ユーザに返す。いくつかの実施形態では、抽出されたコンテントがサムネイル画像中で現れる箇所で、その検索キーワードをハイライト（例えば、異なる色で表示、異なるフォント）してもよい。

図６は、プレゼンテーションビデオ中の静的な情報コンテントの主要部分を識別するプロセスに関するものである。しかし、もちろん例外的なケースは存在する。講演者を含み、ほとんど静的な情報コンテントを含まないフレーム（例えば図５Ｃ）が静的な情報コンテントとして誤分類される場合もある。ピクチャーインピクチャー（あるいはビデオインビデオ）領域を含むフレームと、静的な情報コンテント、講演者および/あるいは受講者を含むフレームは、講演者および/または受講者が所定の閾値を超えるようなピクセル値の差を生じた場合に誤りを生じる可能性がある。

外観モデル
いくつかの実施形態では、フレームシーケンス中の少なくとも一つのフレームに静的な情報コンテントではない人間の顔を含んでいる。いくつかの実施形態として、全てあるいは一部のプレゼンテーションビデオのフレームに講演者が現れている場合を考慮し、サーバー１１０では講演者と背景の視覚的な特徴を表す、プレゼンテーションビデオ用の外観モデル（Visual Appearance Model）２２４が生成される。外観モデルはプレゼンテーションビデオから得られたフレームシーケンスから生成される（例えば、図６の工程６０２）。いくつかの実施形態では、外観モデルは弁別（discriminative）外観モデルである。いくつかの実施形態では、外観モデルは、生成(generative)外観モデルである。生成外観モデルはそのモデルが、どの程度検証されているフレームで発生しているかを見積もるモデルである（例えば、どの程度、所定のカラーヒストグラムを備えているフレームが生成されているか）。弁別外観モデルは、各フレームを２つのクラスのうちの一つに分類する分類器を教育するために、正と負の例を用いて生成されるモデルである（例えば、２つのクラスの弁別）。

いくつかの実施形態では、弁別外観モデルで、顔検出技術と情報コンテント検出技術の両方が、取得されたフレームをグループ分けするのに用いられる。いくつかの実施形態に関わる、静的な情報コンテントを含んだフレーム識別用のサポートベクトルマシーンを訓練するための工程のブロック図１９００を示す（図１９）。図１９に示すように、複数のフレーム１９０２は最初に静的フレーム１９０６と非静的フレーム１９０４にグループ分けされる。顔識別技術１９０８と情報コンテント識別技術１９１０（例えばＯＣＲ)が非静的フレーム１９０４に適用され、非静的フレーム１９０４は、顔と非情報コンテント１９１２を含んだフレームと、顔を含まない情報コンテント１９１４を含むフレームにグループ分けする。静的フレーム１９０６、顔と非情報コンテント１９１２を含むフレーム、顔を含まない情報コンテント１９１４は、次にサポートベクトルマシーン（ＳＶＭ）１９１６を訓練するのに用いられる。ここで、ＳＶＭの代わりに他の教師付き多クラス分類器（例えば、ニューラルネットワーク、ガウシアン混合モデル、ブースティング分類器、最近傍分類器、決定木分類器等）を使用することもできる。

図８は、いくつかの実施形態に関わる、プレゼンテーションビデオの弁別外観モデルの生成方法８００に関するフローチャートである。サーバー１１０は、フレームシーケンスの中から静的な情報コンテントを含まない第１のフレームセットを識別する（８０２）。図９は、いくつかの実施形態に関わる、フレームシーケンスの静的なコンテントを含まない、第１のフレームセットを識別する方法８０２のフローチャートである。サーバー１１０は、静的ではない連続フレームを含むフレームシーケンス中の第３のフレームセットを選択する（９０２）。ここで静的ではない連続フレームは所定の閾値以上のピクセル値の差を連続フレーム間で有する。いくつかの実施形態では、第３のフレームセットは静的ではないフレームシーケンスからランダムにフレームを選択して構成してもよい。次に、サーバー１１０は第３のフレームセットから顔認識技術を用いて顔を含む第４のフレームセットを決定する（９０４）。サーバー１１０は、続いて情報コンテント識別技術を用いて、静的情報コンテントを含まない第５のフレームセットを決定する（９０６）。いくつかの実施形態では、情報コンテント検出技術は、テキストを検出する光学文字認識技術である。次いで、サーバー１１０は、第４及び第５のフレームセットの双方に含まれるフレームを、第１のフレームセットとする（９０８）。

図８に戻って、サーバー１１０は、静的な情報コンテントを含んでいるフレームシーケンス中から第２のフレームセットを決定する（８０４）。図１０は、いくつかの実施形態に関わる、静的な情報コンテントを含むフレームシーケンス中で第２のフレームセットを判別する方法（８０４）のフローチャートである。サーバー１１０は、静的な連続フレームを含むフレームシーケンス中の第６のフレームセットを選択する（１００２）。次に、サーバー１１０は情報コンテント検出技術を用いて静的な情報コンテントを含む第７のフレームセットをフレームシーケンス内から決定する（１００４）。いくつかの実施形態では、情報コンテント決定技術はテキストを検出する光学的文字認識技術である。サーバー１１０は、次いで、第６および第７フレームセットの両方に含まれるフレームを第２のフレームセットとする（１００６）。

いくつかの実施形態では、サーバー１１０は、連続静的フレームを定める所定の数以上の連続静的キーフレームのセットから代表フレームを含む第８のフレームセットを決定する。これらの実施形態では、サーバー１１０は第６及び第７のフレームセットに含まれる、あるいは、第８のフレームセットに含まれるフレームを、第２のフレームセットと判断する。

図８に戻って、サーバー１１０は静的な情報コンテントを含むフレームを識別するために、第１及び第２のフレームセットを用いてサポートベクトルマシーンを訓練する（８０６）。図１１は、いくつかの実施形態に関わる、第１及び第２のフレームセットを用いて静的な情報コンテント含むフレームを識別するためのサポートベクトルマシーンを訓練する方法（８０６）に関するフローチャートである。サーバー１１０は、第１のフレームセットと第２のフレームセットのカラーヒストグラムを計算する（１１０２）。サーバー１１０は、第１及び第２のフレームセットのカラーヒストグラムを用いて静的な情報コンテントを含むフレームを識別するためのサポートベクトルマシーンを訓練する（１１０４）。ここで、ＳＶＭは、各フレームが、顔を含んでいる非情報コンテントフレーム（図１９１９１２）（すなわち、第１のフレームセット）であるかどうか、あるいは、情報コンテントを含んでいて顔は含まないフレーム（図１９１９１４）であるかどうかの知識をトレーニングプロセス中で用いる。

図１２は、いくつかの実施形態に関わる、生成外観モデルの生成方法１２００に関するフローチャートである。サーバー１１０は、顔検出技術を用いて顔を含む第１のフレームセット中のフレームを識別する（１２０２）。サーバー１１０は顔を含んだ第１のフレームセット中のフレームのカラーヒストグラムを決定し（１２０４）、顔を含む第１のフレームセット中のフレームのカラーヒストグラムに基づいてテンプレートヒストグラムを生成する（１２０６）。

外観モデルが生成された後、外観モデルはどのキーフレームを保持するかを決定するのに利用される。図７は、いくつかの実施形態に関わる、静的な情報コンテントを含んだキーフレームのセットを保持する方法（６１０）を説明するためのフローチャートである。サーバー１１０は静的な情報コンテントを含んだキーフレームのセット中からキーフレームを決定するための外観モデルを用いる（７０２）。

弁別外観モデルが生成された実施形態では、サーバー１１０は、各キーフレームが静的な情報コンテントを含むか、静的な情報コンテント無しで顔を含むかの分類を行うためのサポートベクトルマシーンを用いる。図２０は、いくつかの実施形態に関わる、静的な情報コンテントを含むフレームを認識するためにサポートベクトルマシーンを用いるプロセスのブロック図である。サーバー１１０は、新たなフレーム２００２を受信し、その新しいフレーム２００２のカラーヒストグラム２００４を抽出する。サーバー１１０は、そして、新しいフレーム２００２を、静的な情報コンテントを含むフレーム２００８あるいは静的な情報コンテントを含まないフレーム２０１０のいずれであるかを決定するために、ＳＶＭ２００６を適用する。

生成外観モデルが生成される場合には、サーバー１１０はキーフレームのセット中のキーフレームのカラーヒストグラムとテンプレートヒストグラムを比較して、静的な情報コンテントを含むキーフレームあるいは静的な情報コンテントを含まないで人の顔を含むキーフレームのセット中からキーフレームを決定する。

サーバー１１０は続いて静的な情報コンテントを含まないフレームを除去し（７０４）、静的な情報コンテントを含むキーフレームを保存する（７０６）。

ピクチャーインピクセル（ビデオインビデオ）の検出
先に図５Ｂについて説明したように、ビデオのフレームの中にはピクチャーインピクチャー（ビデオインビデオ）の領域を含む場合がある。これらのフレームは、静的な連続フレームを識別するときに誤認を生じる可能性がある。いくつかの実施形態では、静的な情報コンテント上に重なったピクチャーインピクチャー（ビデオインビデオ）領域を含むフレームを外観モデルを用いて識別する。これらの実施形態では、この候補となる領域は、動きが局所化されているフレーム中の領域および／またはピクチャーインピクチャー（ビデオインビデオ）領域として共通に使用されることが知られているフレーム中の領域を見つけることで識別される。いくつかの実施形態では、所定の大きさを有する候補領域の探索がフレームに対して行われる。例えば、所定の大きさの範囲（例えば、１０ピクセル×２０ピクセル、１０ピクセル×２５ピクセル等）を有するフレーム中に矩形領域を繰り返し探索することで実行することができる。いくつかの実施形態では、ヒストグラムバックプロジェクション法（例えば、ＣＡＭＳｈｉｆｔ法）を用いて、外観モデルを候補領域に整合させる。

図１３は、いくつかの実施形態に関する、フレームがピクチャーインピクチャー（ビデオインビデオ）領域を含む時に、人の顔を含むキーフレームを識別する外観モデルを用いる方法（７０２）のフローチャートである。サーバー１１０は、人間の顔を含むキーフレームを識別するための外観モデルを使用する（１３０２）。次いで、サーバー１１０は静的な情報コンテントをさらに含む顔を含んだキーフレームのサブセットを識別するために、情報検出技術を用いる（１３０４）。サーバー１１０はキーフレームのサブセットから、人間の顔と静的な情報コンテントの両方を含んだキーフレームを識別する（１３０６）。

部屋後方（back-of-the-room）フレーム
図５Ｄで説明したように、プレゼンテーションビデオのフレームの中には、講演が行われている部屋の画像が含まれている場合がある（例えば、部屋の後方から撮影したときの会場全体の様子を伝える画像）。これら部屋後方フレームの中には、静的な情報コンテントと少なくとも部屋の一部をフレーム中に見ることができる。こうした部屋後方フレームに共通なのは、同じビデオ中には静的な情報コンテントのフルスクリーンのショットが、スライドの中身はよく見えない他のカメラショットとともに混ざっている点である。上述のように、こうしたフレームは、もし連続フレーム間のピクセル値の差が所定の閾値を超えてしまうと、非連続フレームとして誤認してしまう可能性がある。このとき、いくつかの実施形態では、サーバ１１０は、静的な情報コンテントが含まれるフレーム中のユーザによって識別された領域に基づいて部屋モデルを生成する。ユーザによって識別された領域は、部屋の後方から撮影された他のフレームにも適用される。

図１５は、いくつかの実施形態における、部屋モデルを生成する方法（１５００）のフローチャートである。サーバ１１０は、プレゼンテーションビデオが撮影された部屋と静的な情報コンテントの両方を含む、ユーザによって選択されたキーフレームを受信する（１５０２）。例えば、図２１Ａは、いくつかの実施形態に関わる、部屋２１０８中のスクリーン上に表示されたプレゼンテーションスライド２１０２を含むプレゼンテーションビデオのフレームを示すブロック図２１００である。図２１Ａに示すように、フレーム２１０１は講演者２１０５と出席者２１０７も含んでいる。さらに、図２１Ａに示すように、プレゼンテーションスライドは斜めから見た図(perspective View）であるかもしれない。

次に、サーバー１１０は、ユーザが選択したキーフレーム中のユーザ識別境界領域を受信する（１５０４）。ここでユーザ識別境界領域は、静的な情報コンテントを含むユーザが選択したキーフレーム内の領域を意味する。例えば、ユーザは静的な情報コンテントが表示されている投影スクリーンやホワイトボードの輪郭をクリックしても良い。図２１Ｂは、いくつかの実施形態に関わる、図２１Ａ中に示されたプレゼンテーションビデオのフレーム中のユーザ識別境界領域２１１１を示す。

サーバー１１０は、ユーザ識別境界領域外のユーザ選択キーフレームの領域のカラーヒストグラムを生成し（１５０６）、透視歪み（perspective distortion）補正値を計算する（１５０８）。

いくつかの実施形態では、部屋モデルはユーザのインタラクション無しに生成される。いくつかの実施形態では、特徴ベースのマッチング手法が、部屋の後方から撮影されたフレーム中の静的な情報コンテントの内容とフルスクリーンで撮影された同じ静的な情報コンテントを含むフレームとの一致性を調べるために用いられる。同じ静的な情報コンテントの内容を含んだ２つのフレームの対応する点を識別し、部屋後方フレーム中の静的な情報コンテントを、フルフレームでの静的な情報コンテントに対応させる透視変換を施すことで、部屋後方フレーム中の静的な情報コンテントの境界をユーザによる入力無しに識別することができる。いくつかの実施形態では、画像間の対応を調べるために、画像スケール不変特徴変換（ＳＩＦＴ）特徴が用いられる。いくつかの実施形態では、連続キーフレームの各セットはこのようにして一致が調べられ、両方のキーフレームで共通の静的な情報コンテントの情報が現れるかどうかを決定するのに、一致距離品質（quality of match metric）が用いられる。

図２３は、いくつかの実施形態に関わる、後方部屋フレーム中の静的な情報コンテントを識別する自動化方法２３００を説明するブロック図である。この工程は、図１５の工程１５０４でユーザからユーザ識別境界領域を受信する代わりに利用することができる。工程２３００は、サーバー１１０がキーフレーム２３０１と２３０２の両方で特徴点（例えばＳＩＦＴ特徴点）２３０３と２３０４を検出したときに開始される。いくつかの実施形態では、キーフレーム２３０１と２３０２は連続キーフレームである。

次に、サーバー１１０はキーフレーム２３０１と２３０２の間で一致する特徴点を検出する（２３０５）。例えば、サーバー１１０は特徴点間のユークリッド距離を計算したときに、特徴点間を所定の閾値以下の距離に保たれる場合に、特徴点同士が一致していると識別することができる。図２４Ａは、いくつかの実施形態に関わる、部屋後方フレーム２４０２とフルフレーム２４０４間の特徴点のマッチングを示すブロック図２４００である。

サーバー１１０は、次いで一致する特徴点の関係を最良にするために透視変換の計算を行う（２３０６）。例えば、サーバー１１０はランダムサンプルコンセンサス（ＲＡＮＳＡＣ）法などの評価法を使うことができる。いくつかの実施形態では、透視変換の結果には、キーフレーム２３０１と２３０２間の一致する特徴点を関連づける、移動因子（translation factor）、倍率因子（scaling factor）と透視変換因子（perspective transformation factor）を含む。

次いで、サーバー１１０は透視変換がうまく適合するかを計算する（２３０７）。例えば、サーバー１１０は、キーフレーム２３０１中の特徴点の座標がキーフレーム２３０２中の対応する特徴点の座標に透視変換によって正確に位置づけられるか、あるいはその逆はどうか、を決定する。サーバー１１０は倍率因子が所定の範囲内にあるかどうかも決定する。すなわち、２つの実質的に一致するキーフレームは倍率因子１．０でマッチするはずである。なお倍率因子が極端に大きいあるいは小さい場合には、部屋後方フレーム中の静的な情報コンテントが非常に小さいということになるため、あまり良い検証対象とはいえない。小さい画像（例えば部屋後方フレーム）の静的な情報コンテントを、より大きい画像（例えばフルフレーム）中の静的な情報コンテントに倍率変換したときの妥当な倍率因子の範囲の例としては、０．５〜０．９である。言い換えると、部屋後方フレーム中の静的な情報コンテントは、フルフレーム中の対応する静的な情報コンテントの少なくとも半分の大きさであって、フルフレーム中の静的な情報コンテントの９０％以下の大きさである。

うまく一致しない、あるいは、倍率が所定範囲にない場合（２３０７、いいえ）、サーバー１１０はキーフレーム２３０１と２３０２はフルフレームと部屋後方フレームのペアではないと決定する。言い換えると、キーフレーム２３０１と２３０２は同じ静的な情報コンテントを含まないか、キーフレーム２３０１と２３０２は所定範囲内の倍率因子を有していない。

もし、一致が良く、倍率も所定範囲内であれば（２３０７、はい）、サーバー１１０はキーフレーム２３０１と２３０２がフルフレームと部屋後方フレームだと決定する。大きい方のキーフレーム（例えば、倍率因子から決定される）がフルフレームの例であるとみなし、小さい方のキーフレーム（例えば、倍率因子から決定される）は、部屋後方フレームの例であるとみなされる。

サーバー１１０は、次いで、部屋後方フレーム中の静的な情報コンテントを含む境界領域を定義する多角形の角の座標を識別するために、フルフレーム例中の静的な情報コンテントを含むフルフレーム例中の境界領域を定義する多角形の角の座標を透視変換する（２３１０）。図２４Ｂは、いくつかの実施形態に関わる、部屋後方フレーム２４０２中の静的な情報コンテントを含む境界領域２４１２の角を識別することを説明するブロック図である。なお、フルフレームの場合には、境界領域の角は通常キーフレームの角となる。部屋後方フレーム中の境界領域を定義する多角形は図１５におけるユーザ定義の境界領域の代わりに用いられる。

いくつかの実施形態では、図１４に示すように、部屋モデルが生成された後、サーバー１１０は、フレーム中に講演者がプレゼンテーションを行った部屋の少なくとも一部が含まれる場合、静的な情報コンテントを含むキーフレームのセットを保持する（６１０）ために、部屋モデルを使う。サーバー１１０は、プレゼンテーションビデオが撮影された部屋と静的な情報コンテントの両方を含むキーフレームのセット中のキーフレームを識別するために部屋モデルを用いる（１４０２）。例えば、サーバー１１０は、フレームのカラーヒストグラムを部屋モデルのカラーヒストグラムと比較し、部屋の後方から撮影されたショットであるとともに静的な情報コンテントを含むフレーム識別する。いくつかの実施形態では、サーバー１１０は、プレゼンテーションビデオが撮影された部屋と静的な情報コンテントの両方が含まれたキーフレームのセット中のキーフレームを識別するために部屋モデルを使うときに、プレゼンテーションビデオが撮影された部屋と静的な情報コンテントの両方を含むキーフレームのセット中のキーフレームを識別するためにカラーヒストグラムを用いる。

次いで、サーバー１１０は、プレゼンテーションビデオが撮影された部屋と静的な情報コンテントの両方を含むキーフレームに、透視歪み補正因子を適用する（１４０４）。サーバー１１０は、歪み補正がされたキーフレームから、静的な情報コンテントだけが含まれるように画像切り出しを行う（１４０６）。サーバー１１０は、この切り出された歪み補正キーフレームを保存する（１４０８）。例えば、図２１Ｃは、いくつかの実施形態に関わる、図２１Ａに示されたビデオのフレーム２１０１から切り出された、透視補正がされたプレゼンテーションスライド２１２２を説明するブロック図２１２０である。

積み上げスライド
プレゼンテーションの間、講演者はその直前に表示されていた静的な情報コンテントに、静的な情報コンテントを徐々に追加する場合がある。例えば、全体のスライドうち、一部が時間経過とともに連続して徐々に表示されていくタイプの積み上げスライド（Built‐up Slide）を使用する場合がある。あるいは、前のスライドに新しい要素が加えられた一連の複数枚のスライドを使ってこれを行う場合もある。同様に、講演者は話している時に、例えば手書き等によって、黒板やホワイトボードにコンテントを追加する場合もある。以下では積み上げスライドを例に説明をするが、それ以外の前に表示した情報コンテントに追加、あるいは積み上げるコンテントにも適用できる。積み上げスライドの例を、図２２Ａ〜２２Ｄに示す。図２２Ａは、いくつかの実施形態に関わる、時間経過とともに積み上げられるプレゼンテーションスライド２２０２を説明するブロック図２２００である。プレゼンテーションスライド２２０２は時間ｔ１でのテキスト２２０４を含む。図２２Ｂは、いくつかの実施形態に関わる、プレゼンテーションスライド中に新しい要素を示すブロック図２２１０である。プレゼンテーションスライド２２０２は、時間ｔ１より後の時間ｔ２での、テキスト２２０６を含んでいる。図２２Ｃは、いくつかの実施形態に関わる、プレゼンテーションスライド中の新しい要素を説明するブロック図２２２０である。プレゼンテーションスライド２２０２は、時間ｔ２より後の時間ｔ３において、テキスト２２０８を含んでいる。図２２Ｄは、いくつかの実施形態に関わる、プレゼンテーションスライド中の新しい要素を説明するブロック図２２３０である。プレゼンテーションスライド２２０２には時間ｔ３より後のｔ４でテキスト２２１０を含んでいる。図２２Ａ〜２２Ｄに示すように、完全なコンテントを含むキーフレームを、キーフレームとして抽出することが望ましい（例えば、図２２Ｄのコンテント）。言い換えると、望まれるキーフレームはユーザにとって最も多く視覚的な情報を提供するキーフレームである。

図１６は、いくつかの実施形態に関わる、静的な連続フレームの各セット（例えば、静的な情報コンテントが時間とともに積み上げられるもの）を識別する方法６０６のフローチャートである。サーバー１１０は、現在のフレームと前のフレームのピクセル値の差が所定閾値以上の、現在のフレームと前のフレームを識別する（１６０２）。次いで、サーバー１１０は、現在のフレームと前のフレームとで所定閾値以上となる現在のフレーム内の領域の境界ボックスを決定する（１６０４）。いくつかの実施形態では、サーバー１１０は、その領域が局在化していることを確認するために、ピクセル値の差が検出された現在と前のフレーム中の領域の空間的な広がりを検証する。いくつかの実施形態では、もしその領域がフレーム内で局在化している場合には、テキストや他の静的な情報コンテントを含む場合が多い。

サーバー１１０は、次いでエッジ検出技術を用いて前のフレームの空白領域中に境界ボックスが存在するかどうかを判断する（１６０６）。もし境界ボックスが前のフレームの空白領域内にある場合（１６０８、はい）には、サーバー１１０は識別、検出、そして判断の一連の処理を、前のフレーム内では空白でなかった領域において、現在のフレームと前のフレームとの間のピクセル値の差が所定の閾値を超えるまで行う（すなわち、サーバー１１０は工程１６０２に戻る）。言い換えると、現在のフレームの新しい要素は、前に表示されたスライドの、前は空白だった領域に追加される（即ち、スライドがまだ積み上げられている）。もし境界ボックスが前のフレームの空白領域内になければ（１６０８、Ｎｏ）、サーバー１１０は静的な連続フレームの各セットから、これまでの連続フレームのシーケンスと前のフレームを含んでいるものを判断する（１６１０）。言い換えると、現在のフレームは新しいスライド（あるいは新しい静的な情報コンテント）を含んでおり、連続フレームのセット中の最後のフレームは新しいスライド（あるいは新しい静的な情報コンテント）を含むフレームの直前の最後のフレームとして選択される。いくつかの実施形態では、前のフレーム（すなわち、各連続フレームのセットの最後のフレーム）は、積み上げスライドに関して完全な静的な情報コンテントを含むキーフレームとして用いられる。

いくつかの実施形態では、サーバー１１０は、フレームの領域中の境界ボックスが、連続フレーム間のピクセル値の差が所定の閾値よりも大きく、前のフレームの空白部分に追加されている、連続フレームの各セットのフレームに対応する時点でのプレゼンテーションビデオに、リンクを提供する。言い換えると、識別された各境界ボックスについて（つまり、積み上げスライド中のそれぞれの新しい静的な情報コンテントに対応して）、サーバー１１０は、連続フレーム（すなわち抽出フレーム）の各セットの最後のフレームに対してプレゼンテーションビデオへのリンクを張り、ユーザが各境界ボックスの各リンクをクリックした時にブラウザ１２２（あるいはアプリケーション１２４）が、プレゼンテーションビデオでそれらの境界ボックスに対応するコンテントが最初に現れた時点でのプレゼンテーションビデオを要求し、再生する。例えば、ユーザには最終的に完全となった積み上げスライドを提供し、プレゼンテーションビデオへのリンクとしては、各部分に各部分がスライドで最初に現れた時点へのリンクを設けてもよい。即ち、経時的に現れた各時点のスライドが、キーフレームには全て表示される。キーフレーム内の第１のリンク箇所をクリックすると、プレゼンテーションビデオ中で第１のリンク箇所が最初に現れた時点からプレゼンテーションビデオが再生され、第２のリンク箇所をクリックすると、プレゼンテーションビデオ中で第２のリンク箇所が最初に現れた時点からプレゼンテーションビデオが再生される。

外観モデルの統合
いくつかの実施形態では、外観モデル、空間キュー（spatial cue）、情報コンテント検出技術、および顔検出技術が、静的な情報コンテントを含むキーフレームを識別するために、組み合わせて利用される。これらの実施形態では、サーバー１１０がフレームに空間ブラー（spatial blur）を施す以外は既述の工程とその工程は類似している。フレーム間のピクセル値の差の計算後、サーバー１１０は、所定の閾値を超えたピクセル値の差を有する領域を含む境界ボックスを計算する。もし、これらの境界ボックスが所定の閾値よりも面積が大きくなり、元々はフレームの中心付近に存在していた場合には、サーバー１１０は、そのフレームをキーフレーム抽出対象として考慮すべき候補セグメントとみなす。サーバー１１０は、次いで、情報コンテント検出技術（例えばＯＣＲ）を、静的な情報コンテント（例えば、所定時間静止している情報コンテント）を含んだセグメントの最終フレームに適用する。もし、静的な情報コンテントがフレーム中で検出されない場合には、フレームは外観モデル（例えばＳＶＭ）に渡され、フレームが講演者が含まれているかを決定する外観モデルにマッチするかどうかを決定する。もしフレームが外観モデルにマッチする場合には、サーバー１１０はフレームをキーフレームのリストから除外する。

ここで開示した技術は、テキストを含んだフレームの抽出に限定されるものではない。テキスト、記号、線画、写真等、いかなる静的な情報コンテントを検出する場合にも、本技術を利用することができる、例えば、上述の技術は数学記号や線画を含んだフレームの識別に用いることができる。さらに、ここで開示した技術は、いかなる媒体上での静的な情報コンテントを含んだフレームの識別に使うこともできる。例えば、媒体としては、スライドが投影されるスクリーン、ＯＨＰフィルムが投影されるスクリーン、ホワイトボード等を含む。さらに、静的なコンテントとしては、コンピュータにより生成された、あるいは、手書きテキスト（いかなる言語であってもよい）、線画、写真等が含まれる。

いくつかの実施形態では、検索エンジンによってここに開示した技術が実行される。これらの形態では、検索エンジンはプレゼンテーションビデオをインデックス化し、インデックスに対して検索を行うための検索インターフェースを提供する。検索インターフェースは、ウェブドキュメントを検索するのに用いる一般的なウェブ検索インターフェースを用いてもよい。検索インターフェースを一般的なウェブ検索インターフェースとは分離、別個としてもよい（例えば、ビデオ検索インターフェース）。ユーザが検索インターフェースを通じて検索用語を送信したとき、検索エンジンは検索用語に関連する静的な情報コンテントを含んだキーフレームのインデックスを検索する。検索エンジンは次いでユーザに検索結果を提示する。検索結果は、検索用語と関連するビデオに対応するリンクを含んだキーフレームを表示して、提供してもよい。ユーザがキーフレームをクリックしたとき、対応するビデオがユーザのコンピュータシステムを通じて検索され、キーフレームに対応する時点から再生される。

図６〜１８に関する方法は、コンピュータ可読記憶媒体中に保存され、一以上のサーバーの一以上のプロセッサによって実行される命令によって、制御することができる。図６〜１８に示す各処理はコンピュータのメモリあるいはコンピュータ可読記憶媒体中に保存された命令に対応させることができる。コンピュータ可読記憶媒体には、磁気あるいは光学ディスク装置、フラッシュメモリのような固体メモリ、あるいは他の不揮発性メモリ装置を含むことができる。コンピュータ可読記憶媒体上に保存されたコンピュータ可読命令はとしては、ソースコード、アセンブル言語、オブジェクトコード、あるいは一以上のプロセッサにより解釈あるいは実行される命令形式のものであってよい。

これまでの記述は説明を目的として特定の実施形態を参照しながら記述してきた。しかし、これまでに示した説明は特定の開示した態様によって発明の全ての態様を説明したり、発明を限定したりする意図ではない。これまでの開示から明らかなように、多様な変更や変形が可能である。即ち、実施形態は本発明の原理とその応用例を説明できるように選択して開示し、当業者が本発明と多様な実施形態に多様な変更を加えながら、その用途を満たすのに適した形で利用できるようにすることを目的とするものであることを付け加えておく。

１０２コンテントサーバー
１０４プレゼンテーションビデオ
１１０サーバー
１２０クライアントコンピュータ
５０１、５１１、５２１、５３１、２１０１フレーム
５０２、５１２、５２４、５３２、２１０２プレゼンテーションスライド
５２２、２１０５講演者
２１０７出席者
２１０８部屋

Claims

静的な情報コンテントを含んだビデオのフレームシーケンスを取得する取得手段と、
前記フレームシーケンスに含まれる連続する前後のフレーム間毎にピクセル値の差を計算する計算手段と、
前記計算手段により計算された前記連続する前後のフレーム間毎のピクセル値の差と所定の閾値との比較結果に基づいて、前記フレームシーケンスの中で静止状態と判断される一連の複数のフレームのセットを識別する識別手段と、
前記一連の複数のフレームのセットの中からキーフレームを抽出する抽出手段と、
抽出された前記キーフレームの中から前記静的な情報コンテントを含んだ静的キーフレームを選択し、選択された前記静的キーフレームを前記静的キーフレームに関連する情報と関連付けて保存する保存手段と、
検索要求に基づいて前記保存手段に保存された前記静的キーフレームを提供する提供手段と、
を備えるビデオ検索システム。
前記ビデオが講演者によるプレゼンテーションを撮影したビデオであって、前記静的な情報コンテントが、前記プレゼンテーションで用いられたスライド画像を含むことを特徴とする請求項１記載のビデオ検索システム。
前記識別手段は、
前記連続する前後のフレーム間の前記ピクセル値の差が所定の閾値以上である前後のフレームを識別する前後フレーム識別工程と、
識別された前記前後のフレーム中に含まれる文字領域に対応する境界ボックスを識別する境界ボックス識別工程と、
エッジ検出技術に基づいて、前記前後のフレームの前のフレームでは空欄であった前記境界ボックス中の領域があるかを判別する判別工程と、
前記判別工程により前記前後のフレームの前のフレームで空欄であった前記境界ボックス中の領域があると判別される場合には、前記前後のフレーム間の前記ピクセル値の差が前記所定の閾値を超える前記前後のフレームの前のフレーム中での領域が空欄でなくなるまで、前記前後フレーム識別工程、前記境界ボックス識別工程及び前記判別工程を繰り返す繰り返し工程と、を行い、
前記静止状態と判断される一連の複数のフレームのセットに含まれるフレームとして、前記繰り返し工程の間に用いられた連続するフレームシーケンスの少なくとも一部を含むように識別することを特徴とする請求項1記載のビデオ検索システム。
前記抽出手段が、前記繰り返し工程の間に用いられた前記連続するフレームシーケンスのうち最後のフレームを、前記キーフレームとして選択することを特徴とする請求項３記載のビデオ検索システム。
前記静的な情報コンテントには積み上げスライドを含むビデオのフレームシーケンスが含まれており、前記識別手段は、前記繰り返し工程によって、時間経過とともに情報が積み上げられる前記積み上げスライドのセットを前記静止状態と判断される一連の複数のフレームのセットとして識別することを特徴とする請求項３又は４記載のビデオ検索システム。
前記保存手段は、前記キーフレームのセット中から、静的な情報コンテントを含むフレームの視覚的特徴をモデル化した視覚モデルを用いて静的な情報コンテントを含む前記静的キーフレームを識別し、静的情報コンテントを含まないキーフレームを除外することで、前記静的キーフレームを選択することを特徴とする請求項１記載のビデオ検索システム。
前記ビデオが講演者によるプレゼンテーションを撮影したビデオであって、前記静的な情報コンテントが該プレゼンテーションで用いられたスライド画像を含み、
前記視覚モデルが、前記静的な情報コンテントを含むフレームとして、前記プレゼンテーションが行われた場所で撮影されたビデオのフレーム内に前記スライド画像が含まれるフレームに基づいてモデル化されてなることを特徴とする請求項６記載のビデオ検索システム。
前記視覚モデルは、前記フレームシーケンスを、静的な情報コンテントを含む第１のフレームのセットと、静的な情報コンテントを含まない第２のフレームのセットとに分別し、前記第１および第２のフレームのセットを用いて、静的な情報コンテントが含まれるフレームであるか否かを判断する教師付き分類器を訓練することにより生成されることを特徴とする請求項６記載のビデオ検索システム。
前記第１及び第２のフレームのセットのカラーヒストグラムが計算され、前記カラーヒストグラムを用いて前記分類器を訓練することを特徴とする請求項８記載のビデオ検索システム。
前記保存手段は、前記キーフレームの中から人間の顔を検出する顔検出手段を備え、前記キーフレームのセットから、前記静的な情報コンテントを含まず人間の顔を含むフレームを判別し、判別結果に応じて前記キーフレームのセットのサブセットを生成することを特徴とする請求項６記載のビデオ検索システム。
前記キーフレームのセット中に少なくとも一つのフレーム内の所定の第１の領域に人間の顔と所定の第２の領域に静的な情報コンテントとを含むフレームがあり、前記視覚モデルは、前記フレーム内の前記所定の第１および第２の領域各々に人間の顔と前記静的な情報コンテントとを各々含むフレームを判別するためのモデルであることを特徴とする請求項１０記載のビデオ検出システム。
前記保存手段に保存される、前記静的キーフレームに関連する情報には、前記静的キーフレームの前記ビデオにおける出現時点を表す時間情報が含まれ、
前記提供手段で提供されたキーフレームの選択に応じて前記ビデオを前記時間情報に基づいて再生するビデオ再生手段を更に備えることを特徴とする請求項１〜１１のいずれかに記載のビデオ検索システム。
前記保存手段に保存される、前記静的キーフレームに関連する情報には、前記静的キーフレームに含まれる前記静的情報コンテントが前記ビデオにおいて前記静的キーフレーム内に出現するより早い時点の時間に関する時間情報が含まれ、
前記提供手段で提供されたキーフレームの選択に応じて前記ビデオを前記時間情報に基づいて再生するビデオ再生手段を更に備えることを特徴とする請求項１〜１１のいずれかに記載のビデオ検索システム。
コンピュータを、
静的な情報コンテントを含んだビデオのフレームシーケンスを取得する取得手段と、
前記フレームシーケンスに含まれる連続する前後のフレーム間毎にピクセル値の差を計算する計算手段と、
前記計算手段により計算された前記連続する前後のフレーム間毎のピクセル値の差と所定の閾値との比較結果に基づいて、前記フレームシーケンスの中で静止状態と判断される一連の複数のフレームのセットを識別する識別手段と、
前記一連の複数のフレームのセットの中から静的キーフレームを抽出する抽出手段と、
抽出された前記静的キーフレームの中から前記静的な情報コンテントを含んだ静的キーフレームを選択し、選択された前記静的キーフレームを前記静的キーフレームに関連する情報と関連付けて保存する保存手段と、
検索要求に基づいて前記保存手段に保存された前記キーフレームを提供する提供手段と、
として動作させるためのビデオ検索用コンピュータプログラム。
前記識別手段は、
前記連続する前後のフレーム間の前記ピクセル値の差が所定の閾値以上である前後のフレームを識別する前後フレーム識別工程と、
識別された前記前後のフレーム中に含まれる文字領域に対応する境界ボックスを識別する境界ボックス識別工程と、
エッジ検出技術に基づいて、前記前後のフレームの前のフレームでは空欄であった前記境界ボックス中の領域があるかを判別する判別工程と、
前記判別工程により前記前後のフレームの前のフレームで空欄であった前記境界ボックス中の領域があると判別される場合には、前記前後のフレーム間の前記ピクセル値の差が前記所定の閾値を超える前記前後のフレームの前のフレーム中での領域が空欄でなくなるまで、前記前後フレーム識別工程、前記境界ボックス識別工程及び前記判別工程を繰り返す繰り返し工程と、を行い、
前記静止状態と判断される一連の複数のフレームのセットに含まれるフレームとして、前記繰り返し工程の間に用いられた連続するフレームシーケンスの少なくとも一部を含むように識別することを特徴とする請求項1４記載のビデオ検索用コンピュータプログラム。
前記保存手段は、前記キーフレームのセット中から、静的な情報コンテントを含むフレームの視覚的特徴をモデル化した視覚モデルを用いて静的な情報コンテントを含む前記静的キーフレームを識別し、静的情報コンテントを含まないキーフレームを除外することで、前記静的キーフレームを選択することを特徴とする請求項１４記載のビデオ検索用コンピュータプログラム。