JP5510167B2 - ビデオ検索システムおよびそのためのコンピュータプログラム - Google Patents

ビデオ検索システムおよびそのためのコンピュータプログラム Download PDF

Info

Publication number
JP5510167B2
JP5510167B2 JP2010176991A JP2010176991A JP5510167B2 JP 5510167 B2 JP5510167 B2 JP 5510167B2 JP 2010176991 A JP2010176991 A JP 2010176991A JP 2010176991 A JP2010176991 A JP 2010176991A JP 5510167 B2 JP5510167 B2 JP 5510167B2
Authority
JP
Japan
Prior art keywords
frame
frames
video
information content
static
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010176991A
Other languages
English (en)
Other versions
JP2011082958A (ja
Inventor
アドコック ジョン
クーパー マシュー
ドゥヌ ローラン
ピルシャバッシュ ハメド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Publication of JP2011082958A publication Critical patent/JP2011082958A/ja
Application granted granted Critical
Publication of JP5510167B2 publication Critical patent/JP5510167B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、プレゼンテーション等の静的なコンテントを含むビデオをインデックス化し、検索するためのシステムおよびそのためのコンピュータプログラムに関する。
ストレージコストが低下しデジタルフォーマットでビデオを撮影し頒布する利便性が増加してきたため、現在ビデオはインターネット上で広く利用されるようになっている。しかし、インターネット上で関心のあるビデオを見つけ出すことは難しい場合が多い。一つの解決策はビデオに関するテキストの記述によりユーザがビデオにタグを付けるものである。一旦ビデオにテキストのタグが付けられると、ユーザの検索条件に関連するビデオを特定するときに、ユーザはこのテキスト記述に対して検索を行うことができる。しかし、ユーザがビデオのコンテンツに対して誤った、あるいは、不正確なテキストの記述を行う場合もある。さらに、マニュアルでビデオにタグ付けすることは面倒である。
特開2006−309770号公報 特開2000−311180号公報 米国特許第7167191号明細書
プレゼンテーション等の静的なコンテントをフレーム中に含むビデオをより適切にインデックス化するためのシステムおよびコンピュータプログラムを提供する。
本発明のビデオ検索システムの第1の態様は、静的な情報コンテントを含んだビデオのフレームシーケンスを取得する取得手段と、前記フレームシーケンスに含まれる連続する前後のフレーム間毎にピクセル値の差を計算する計算手段と、前記計算手段により計算された前記連続する前後のフレーム間毎のピクセル値の差と所定の閾値との比較結果に基づいて、前記フレームシーケンスの中で静止状態と判断される一連の複数のフレームのセットを識別する識別手段と、前記一連の複数のフレームのセットの中からキーフレームを抽出する抽出手段と、抽出された前記キーフレームの中から前記静的な情報コンテントを含んだ静的キーフレームを選択し、選択された前記静的キーフレームを前記静的キーフレームに関連する情報と関連付けて保存する保存手段と、検索要求に基づいて前記保存手段に保存された前記静的キーフレームを提供する提供手段と、を備えることを特徴とする。
本発明のビデオ検索システムの別の態様ではさらに、前記ビデオが講演者によるプレゼンテーションを撮影したビデオであって、前記静的な情報コンテントが、前記プレゼンテーションで用いられたスライド画像を含むことを特徴とする。
本発明のビデオ検索システムの別の態様ではさらに、前記識別手段は、前記連続する前後のフレーム間の前記ピクセル値の差が所定の閾値以上である前後のフレームを識別する前後フレーム識別工程と、識別された前記前後のフレーム中に含まれる文字領域に対応する境界ボックスを識別する境界ボックス識別工程と、エッジ検出技術に基づいて、前記前後のフレームの前のフレームでは空欄であった前記境界ボックス中の領域があるかを判別する判別工程と、前記判別工程により前記前後のフレームの前のフレームで空欄であった前記境界ボックス中の領域があると判別される場合には、前記前後のフレーム間の前記ピクセル値の差が前記所定の閾値を超える前記前後のフレームの前のフレーム中での領域が空欄でなくなるまで、前記前後フレーム識別工程、前記境界ボックス識別工程及び前記判別工程を繰り返す繰り返し工程と、を行い、前記静止状態と判断される一連の複数のフレームのセットに含まれるフレームとして、前記繰り返し工程の間に用いられた連続するフレームシーケンスの少なくとも一部を含むように識別することを特徴とする。
本発明のビデオ検索システムの別の態様ではさらに、前記抽出手段が、前記繰り返し工程の間に用いられた前記連続するフレームシーケンスのうち最後のフレームを、前記キーフレームとして選択することを特徴とする。
本発明のビデオ検索システムの別の態様ではさらに、前記静的な情報コンテントには積み上げスライドを含むビデオのフレームシーケンスが含まれており、前記識別手段は、前記繰り返し工程によって、時間経過とともに情報が積み上げられる前記積み上げスライドのセットを前記静止状態と判断される一連の複数のフレームのセットとして識別することを特徴とする。
本発明のビデオ検索システムの別の態様ではさらに、前記保存手段は、前記キーフレームのセット中から、静的な情報コンテントを含むフレームの視覚的特徴をモデル化した視覚モデルを用いて静的な情報コンテントを含む前記静的キーフレームを識別し、静的情報コンテントを含まないキーフレームを除外することで、前記静的キーフレームを選択することを特徴とする。
本発明のビデオ検索システムの別の態様ではさらに、前記ビデオが講演者によるプレゼンテーションを撮影したビデオであって、前記静的な情報コンテントが該プレゼンテーションで用いられたスライド画像を含み、前記視覚モデルが、前記静的な情報コンテントを含むフレームとして、前記プレゼンテーションが行われた場所で撮影されたビデオのフレーム内に前記スライド画像が含まれるフレームに基づいてモデル化されてなることを特徴とする。
本発明のビデオ検索システムの別の態様ではさらに、前記視覚モデルは、前記フレームシーケンスを、静的な情報コンテントを含む第1のフレームのセットと、静的な情報コンテントを含まない第2のフレームのセットとに分別し、前記第1および第2のフレームのセットを用いて、静的な情報コンテントが含まれるフレームであるか否かを判断する教師付き分類器を訓練することにより生成されることを特徴とする。
本発明のビデオ検索システムの別の態様ではさらに前記第1及び第2のフレームのセットのカラーヒストグラムが計算され、前記カラーヒストグラムを用いて前記分類器を訓練することを特徴とする。
本発明のビデオ検索システムの別の態様ではさらに、前記保存手段は、前記キーフレームの中から人間の顔を検出する顔検出手段を備え、前記キーフレームのセットから、前記静的な情報コンテントを含まず人間の顔を含むフレームを判別し、判別結果に応じて前記キーフレームのセットのサブセットを生成することを特徴とする。
本発明のビデオ検索システムの別の態様ではさらに、前記キーフレームのセット中に少なくとも一つのフレーム内の所定の第1の領域に人間の顔と所定の第2の領域に静的な情報コンテントとを含むフレームがあり、前記視覚モデルは、前記フレーム内の前記所定の第1および第2の領域各々に人間の顔と前記静的な情報コンテントとを各々含むフレームを判別するためのモデルであることを特徴とする。
本発明のビデオ検索システムの別の態様ではさらに、前記保存手段に保存される、前記静的キーフレームに関連する情報には、前記静的キーフレームの前記ビデオにおける出現時点を表す時間情報が含まれ、前記提供手段で提供されたキーフレームの選択に応じて前記ビデオを前記時間情報に基づいて再生するビデオ再生手段を更に備えることを特徴とする。
本発明のビデオ検索システムの別の態様ではさらに、前記保存手段に保存される、前記静的キーフレームに関連する情報には、前記静的キーフレームに含まれる前記静的情報コンテントが前記ビデオにおいて前記静的キーフレーム内に出現するより早い時点の時間に関する情報が含まれ、前記提供手段で提供されたキーフレームの選択に応じて前記ビデオを前記時間情報に基づいて再生するビデオ再生手段を更に備えることを特徴とする。
本発明のビデオ検索システムの別の態様であるコンピュータプログラムは、コンピュータを、静的な情報コンテントを含んだビデオのフレームシーケンスを取得する取得手段と、前記フレームシーケンスに含まれる連続する前後のフレーム間毎にピクセル値の差を計算する計算手段と、前記計算手段により計算された前記連続する前後のフレーム間毎のピクセル値の差と所定の閾値との比較結果に基づいて、前記フレームシーケンスの中で静止状態と判断される一連の複数のフレームのセットを識別する識別手段と、前記一連の複数のフレームのセットの中からキーフレームを抽出する抽出手段と、抽出された前記キーフレームの中から前記静的な情報コンテントを含んだ静的キーフレームを選択し、選択された前記静的キーフレームを前記静的キーフレームに関連する情報と関連付けて保存する保存手段と、検索要求に基づいて前記保存手段に保存された前記静的キーフレームを提供する提供手段と、として動作させるためのビデオ検索用コンピュータプログラムである。
本発明のビデオ検索用コンピュータプログラムの別の態様ではさらに、前記識別手段は、
前記連続する前後のフレーム間の前記ピクセル値の差が所定の閾値以上である前後のフレームを識別する前後フレーム識別工程と、識別された前記前後のフレーム中に含まれる文字領域に対応する境界ボックスを識別する境界ボックス識別工程と、エッジ検出技術に基づいて、前記前後のフレームの前のフレームでは空欄であった前記境界ボックス中の領域があるかを判別する判別工程と、前記判別工程により前記前後のフレームの前のフレームで空欄であった前記境界ボックス中の領域があると判別される場合には、前記前後のフレーム間の前記ピクセル値の差が前記所定の閾値を超える前記前後のフレームの前のフレーム中での領域が空欄でなくなるまで、前記前後フレーム識別工程、前記境界ボックス識別工程及び前記判別工程を繰り返す繰り返し工程と、を行い、前記静止状態と判断される一連の複数のフレームのセットに含まれるフレームとして、前記繰り返し工程の間に用いられた連続するフレームシーケンスの少なくとも一部を含むように識別することを特徴とする。
本発明のビデオ検索用コンピュータプログラムの別の態様ではさらに、前記保存手段は、前記キーフレームのセット中から、静的な情報コンテントを含むフレームの視覚的特徴をモデル化した視覚モデルを用いて静的な情報コンテントを含む前記静的キーフレームを識別し、静的情報コンテントを含まないキーフレームを除外することで、前記静的キーフレームを選択することを特徴とする。
本発明によれば、静的なコンテントをフレーム中に含むビデオのインデックスが従来と比べてより適切にユーザに対して提供できる。
本発明の実施形態に関わる、プレゼンテーションビデオをインデックス化するシステムを示すブロック図である。 本発明の実施形態に関わる、プレゼンテーションビデオをインデックス化するサーバーを示すブロック図である。 本発明の実施形態に関わる、コンテントサーバーを示すブロック図である。 本発明の実施形態に関わる、クライアントコンピュータシステムを示すブロック図である。 本発明の実施形態に関わる、プレゼンテーションビデオのフレームを示すブロック図である。 本発明の実施形態に関わる、プレゼンテーションスライドとピクチャーインピクチャー領域を含むプレゼンテーションビデオのフレームを示すブロック図である。 本発明の実施形態に関わる、プレゼンテーションスライドと講演者を含むプレゼンテーションビデオのフレームを示すブロック図である。 本発明の実施形態に関わる、プレゼンテーションスライドとステージ上の講演者を含むプレゼンテーションビデオのフレームを示すブロック図である。 本発明の実施形態に関わる、静的な情報コンテントを含んだプレゼンテーションビデオのキーフレームを識別する方法のフローチャートである。 本発明の実施形態に関わる、静的な情報コンテントを含んだキーフレームを保存する方法のフローチャートである。 本発明の実施形態に関わる、外観モデルを生成する方法のフローチャートである。 本発明の実施形態に関わる、静的な情報コンテントを含まない連続フレーム中のフレームを識別する方法のフローチャートである。 本発明の実施形態に関わる、静的な情報コンテントを含むフレームを識別する方法のフローチャートである。 本発明の実施形態に関わる、静的な情報コンテントを含んだフレームを識別するためにサポートベクトルマシンを訓練する方法のフローチャートである。 本発明の実施形態に関わる、外観モデルを生成する他の方法のフローチャートである。 本発明の実施形態に関わる、フレームにピクチャーインピクチャー領域を含む時に、静的な情報コンテントを含むキーフレームの識別ため外観モデルを用いる方法のフローチャートである。 本発明の実施形態に関わる、フレーム中に講演者が講演を行った部屋の少なくとも一部が含まれているときに、静的な情報コンテントを含むキーフレームを保存する方法のフローチャートである。 本発明の実施形態に関わる、部屋モデルを生成する方法のフローチャートである。 本発明の実施形態に関わる、静的な連続フレームのセットを識別する方法のフローチャートである。 本発明の実施形態に関わる、キーフレームからのテキストの抽出とインデックス化の方法のフローチャートである。 本発明の実施形態に関わる、プレゼンテーションビデオからフレームシーケンスを得る方法のフローチャートである。 本発明の実施形態に関わる、静的な情報コンテントを含むフレームを識別する、サポートベクトルマシンを訓練するための方法のブロック図である。 本発明の実施形態に関わる、静的な情報コンテントを含むフレームを識別するためにサポートベクトルマシンを使用する工程のブロック図である。 本発明の実施形態に関わる、部屋の中で投影スクリーン上に表示されたプレゼンテーションビデオのフレームを示すブロック図である。 本発明の実施形態に関わる、図21Aで示すプレゼンテーションビデオのフレーム内でユーザ指定の境界領域を示すブロック図である。 本発明の実施形態に関わる、透視補正されたプレゼンテーションスライドを示すブロック図である。 本発明の実施形態に関わる、時間とともに積み上げられるプレゼンテーションスライドを示すブロック図である。 本発明の実施形態に関わる、プレゼンテーションスライド中の新しい要素を示すブロック図である。 本発明の実施形態に関わる、プレゼンテーションスライド中の他の新しい要素を示すブロック図である。 本発明の実施形態に関わる、プレゼンテーションスライド中の他の新しい要素を示すブロック図である。 本発明の実施形態に関わる、部屋後方フレーム中の静的な情報コンテントを識別するための自動化方法示すブロック図である。 本発明の実施形態に関わる、部屋後方フレームとフルフレーム間で特徴点のマッチングを示すブロック図である。 本発明の実施形態に関わる、部屋後方フレーム中の静的な情報コンテントを含む領域の角の識別を示すブロック図である。
ビデオの中には静的な情報コンテント(例えば、テキスト、図等の、フレーム内で静止した状態で提供される情報)を含んでいるものがあり、これをビデオのコンテントを識別するために利用することができる。例えば、インターネット上で広く普及している種類のビデオとしてプレゼンテーションのビデオがある。プレゼンテーションのビデオとしては、講義のビデオ(例えば、教育機関により行われるもの)や、カンファレンス(会議)で行われるプレゼンテーション等がある。プレゼンテーションビデオの共通の要素は、講演を整理するためにスライド(例えば、パワーポイント(登録商標)のスライド、OHP、黒板、白板等)を用いる点であり、これらをインデックス化することで検索に用いることができる。このため、本発明のいくつかの実施形態では、静的な情報コンテントを含むビデオのフレームを識別して、識別されたフレーム内の静的な情報コンテントをインデックス化することで、このインデックス化された静的な情報コンテントに対して検索を行えるようにする。なお、ここで記述する実施形態ではプレゼンテーションに用いたビデオを扱っているが、他のビデオコンテントに対しても適用可能である。
システムアーキテクチャ
図1は、いくつかの実施形態に関わるプレゼンテーションビデオをインデックス化するためのシステム100を説明するためのブロック図である。システム100にはプレゼンテーションビデオを保持する一以上のコンテントサーバーが備えられている。なお、コンテントサーバー102にはプレゼンテーションビデオ以外のビデオが保存されていてもよい。システム100にはさらに一以上のサーバー110上に、プレゼンテーションビデオ104を処理してキーフレームを抽出する抽出手段と、インデックス化するインデックス化手段(112)が備えられている。いくつかの実施形態では、プレゼンテーションビデオ114のキーフレームとして、静的な情報コンテントのキーフレームだけを含んでいる(例えば、テキスト、図、写真、線画等)。システム100は、一以上のクライアントコンピュータシステム120を含んでいる。一以上のクライアントコンピュータシステム120は、一以上のコンテントサーバー102、110に保持されているコンテントにアクセスするためのブラウザ122(例えば、ウェブブラウザ)とアプリケーション124を含んでいる。いくつかの実施形態では、アプリケーション124は、クライアントコンピュータシステム用のビデオプレーヤーである。いくつかの実施形態では、アプリケーション124は、ブラウザ122用のビデオプラグインである。一以上のコンテントサーバー102、一以上のサーバー110と一以上のクライアントコンピュータシステム120はネットワーク150を介して互いに接続されている。ネットワーク150としては、一般的な、コンピュータノード間を接続する有線あるいは無線の通信チャネルのあらゆるタイプのものが利用できる。これには、LAN、WANやこれらの組み合わせも含まれるが、これに限定されるものでもない。いくつかの実施形態ではネットワーク150としてインターネットを含む。
いくつかの実施形態では、サーバー110は定期的にコンテントサーバー102上に保持されるプレゼンテーションビデオ104を確認する。いくつかの実施形態では、新しいプレゼンテーションビデオ104がビデオチャンネルに登録されたことを確認するために、ウェブフィード(例えばRSSフィード、Atomフィード等)を定期的に確認する。プレゼンテーションビデオ104が識別された後に、サーバー110はプレゼンテーションビデオ104を登録し、コンテントサーバ102から検索できるようにする。プレゼンテーションビデオがコンテントサーバーから検索されたときには、キーフレーム抽出手段とインデックス化手段112が、タイムスタンプが付加されたキーフレームのセットと抽出されたキーフレーム(例えば、プレゼンテーションビデオ114のインデックスとキーフレーム)に関連づけられたテキストを、後で示すような手法で、抽出する。こうして、プレゼンテーションビデオは検索可能となる(例えば、サーバー110上の検索エンジンを用いて)。例えば、ユーザがサーバー110に検索語を送信する。検索語に対する応答として、サーバー110は、検索語に関連するプレゼンテーションビデオへのリンクを返す。いくつかの実施形態では、ユーザがプレゼンテーションビデオへのリンクをクリックすると、サーバー110は静的情報コンテントを含んだプレゼンテーションビデオのキーフレームの画像をクライアントコンピュータ上に表示させる。これらの実施形態では、キーフレームの画像にはリンクが付加され、アプリケーション124が、プレゼンテーションビデオが保存されているコンテントサーバからプレゼンテーションビデオを検索し、ユーザによって選択されたキーフレームに対応する時間インデックスの時点からプレゼンテーションビデオを再生するように構成されている。この結果、ユーザはアプリケーション124を通じて、ユーザによって選択されたキーフレームに対応した時間インデックスの時点からプレゼンテーションビデオを再生させることができる。
図2は、いくつかの実施形態に関するサーバー110を説明するためのブロック図である。サーバー110は、通常一以上の処理ユニット(CPU)202、一以上のネットワークあるいは他の通信インターフェイス204、メモリ210と、コンポーネント間を接続する一以上の通信バス209を有する。通信バス209はシステムコンポーネント間の接続し通信を制御する回路(チップセット)を含んでいてもよい。サーバー200は、ディスプレイ装置206と入力装置208(例えば、キーボード、マウス、タッチパネル、キーパッド等)を備えることができる。メモリ210は、DRAM,SRAM,DDR,RAMといった高速ランダムアクセスメモリや他の高速固体ランダムアクセスメモリを備えたり、一以上の磁気ディスクデバイス、光学ディスク記憶デバイス、フラッシュメモリデバイス、あるいは他の不揮発性固体メモリを、不揮発性メモリとして備えてもよい。メモリ210はCPU202とは分離した一以上の記憶デバイスとすることもできる。メモリ210あるいはメモリ210内の不揮発性記憶デバイスには、コンピュータ可読記憶媒体を含む。いくつかの実施形態では、メモリ210は次のプログラム、モジュール、データ構造あるいはその一部を記憶する。
・ オペレーティングシステム212 様々な基本システムサービスの処理、ハードウェア依存処理を行う。
・ 通信モジュール214 サーバー110を他のコンピュータに一以上の通信インターフェース204(有線あるいは無線、インターネット、WAN,LAN、都市間通信ネットワークなど)を介して接続する。
・ ユーザインターフェースモジュール216 入力デバイス208を通じてユーザからのコマンドを受信し、表示デバイス206にユーザインタフェースオブジェクトを生成する。
・ キーフレーム抽出およびインデックス化モジュール112 プレゼンテーションビデオ114についてインデックスとキーフレームを生成するためにプレゼンテーションビデオを処理する。
・ タイムインデックス228 キーフレーム228のタイムインデックスを保持する。
・ ウェブサーバーモジュール220 クライアントコンピュータシステム120からのコンテント要求(例えば、ビデオ、プレゼンテーションビデオのインデックスやキーフレーム、ウェブページなど)する。プレゼンテーションビデオ114のインデックスとキーフレームについてキーワード検索を行うための検索モジュール222を含む。
・ 一以上の外観モデル224 (後述)
・ 一以上の部屋モデル226 (後述)
上述の各要素はそれぞれ一以上の前述のメモリ装置に記憶され、上述の機能を実行するためのプログラムと対応付けられる。このプログラムは一以上のプロセッサ(CPU202)によって実行することもできる。上述の各モジュールやプログラムは別個のソフトウェアプログラム、手順あるいはモジュールとして実現する必要はなく、これらのモジュールの様々な一部を結合したり、再編成するなどして、多様な実施形態を構成することもできる。いくつかの実施形態では、メモリ210は上述のモジュールとデータ構造の一部を記憶してもよい。さらに、メモリ210は記述していない追加のモジュールやデータ構造を記憶させることもできる。
図2はサーバーとして説明しているが、サーバーに存在する多様な特徴を機能的に記述することを意図するもので、構造的な概要の形態を示すものではない。当業者には自明であるように、実用上、分離して示された要素を結合したり、ある要素を分離することも可能である。例えば、図2で別々に示されているアイテムを一台のサーバーで実現できるし、一つのアイテムを複数のサーバーで実現することもできる。サーバーを構成する上で実際に何台のサーバーをどのように使うかは、システムがピーク時に取り扱うデータ量と平均的な使用量とを考慮して決定される。
図3は、いくつかの実施形態に関するコンテントサーバー102を説明するためのブロック図である。コンテントサーバー102は、通常一以上の処理ユニット(CPU)302、一以上のネットワークあるいは他の通信インターフェイス304、メモリ310と、コンポーネント間を接続する一以上の通信バス309を有する。通信バス309はシステムコンポーネント間の接続し通信を制御する回路(チップセット)を含んでいてもよい。コンテントサーバー102は、ディスプレイ装置306と入力装置308(例えば、キーボード、マウス、タッチパネル、キーパッド等)を備えることができる。メモリ310は、DRAM,SRAM,DDR,RAMといった高速ランダムアクセスメモリや他の高速固体ランダムアクセスメモリを備えたり、一以上の磁気ディスクデバイス、光学ディスク記憶デバイス、フラッシュメモリデバイス、あるいは他の不揮発性固体メモリを、不揮発性メモリとして備えてもよい。メモリ310はCPU302とは分離した一以上の記憶デバイスとすることもできる。メモリ310あるいはメモリ310内の不揮発性記憶デバイスには、コンピュータ可読記憶媒体を含む。いくつかの実施形態では、メモリ310は次のプログラム、モジュール、データ構造あるいはその一部を記憶する。
・ オペレーティングシステム312 様々な基本システムサービスの処理、ハードウェア依存処理を行う。
・ 通信モジュール314 コンテントサーバー102を他のコンピュータに一以上の通信インターフェース304(有線あるいは無線、インターネット、WAN,LAN、都市間通信ネットワークなど)を介して接続する
・ ユーザインターフェースモジュール316 入力デバイス308を通じてユーザからのコマンドを受信し、表示デバイス306にユーザインタフェースオブジェクトを生成する。
・ ウェブサーバーモジュール318 クライアントコンピュータシステム120からのコンテント(例えば、ビデオ、ウェブページなど)に関する要求の受信と処理を行う。
・ プレゼンテーションビデオ104
上述の各要素はそれぞれ一以上の前述のメモリ装置に記憶され、上述の機能を実行するためのプログラムと対応付けられる。このプログラムは一以上のプロセッサ(CPU302)によって実行することもできる。上述の各モジュールやプログラムは別個のソフトウェアプログラム、手順あるいはモジュールとして実現する必要はなく、これらのモジュールの様々な一部を結合したり、再編成するなどして、多様な実施形態を構成することもできる。いくつかの実施形態では、メモリ310は上述のモジュールとデータ構造の一部を記憶してもよい。さらに、メモリ310は記述していない追加のモジュールやデータ構造を記憶させることもできる。
図3はコンテントサーバーとして説明しているが、コンテントサーバーに存在する多様な特徴を機能的に記述することを意図するもので、構造的な概要の形態を示すものではない。当業者には自明であるように、実用上、分離して示された要素を結合したり、ある要素を分離することも可能である。例えば、図3で別々に示されているアイテムを一台のサーバーで実現できるし、一つのアイテムを複数のサーバーで実現することもできる。サーバーを構成する上で実際に何台のサーバーをどのように使うかは、システムがピーク時に取り扱うデータ量と平均的な使用量とを考慮して決定される。
図4は、いくつかの実施形態に関するクライアントコンピュータシステム120を説明するためのブロック図である。クライアントコンピュータシステム120は、通常一以上の処理ユニット(CPU)402、一以上のネットワークあるいは他の通信インターフェイス404、メモリ410と、コンポーネント間を接続する一以上の通信バス409を有する。通信バス409はシステムコンポーネント間の接続し通信を制御する回路(チップセット)を含んでいてもよい。サーバー400は、ディスプレイ装置406と入力装置408(例えば、キーボード、マウス、タッチパネル、キーパッド等)を備えることができる。メモリ410は、DRAM,SRAM,DDR,RAMといった高速ランダムアクセスメモリや他の高速固体ランダムアクセスメモリを備えたり、一以上の磁気ディスクデバイス、光学ディスク記憶デバイス、フラッシュメモリデバイス、あるいは他の不揮発性固体メモリを、不揮発性メモリとして備えてもよい。メモリ410はCPU402とは分離した一以上の記憶デバイスとすることもできる。メモリ410あるいはメモリ410内の不揮発性記憶デバイスには、コンピュータ可読記憶媒体を含む。いくつかの実施形態では、メモリ410は次のプログラム、モジュール、データ構造あるいはその一部を記憶する。
・ オペレーティングシステム412 様々な基本システムサービスの処理、ハードウェア依存処理を行う。
・ コミュニケーションモジュール414 クライアントコンピュータシステム120を他のコンピュータに一以上の通信インターフェース404(有線あるいは無線、インターネット、WAN,LAN、都市間通信ネットワークなど)を介して接続する
・ ユーザインターフェースモジュール416 入力デバイス408を通じてユーザからのコマンドを受信し、表示デバイス406にユーザインタフェースオブジェクトを生成する。
・ ブラウザ122(例えばウェブブラウザ) ネットワークを介してコンテントにアクセスするためのユーザインタフェースを提供する。
・ アプリケーション124 ビデオを再生するための独立したあるいはブラウザ122用のプラグイン
上述の各要素はそれぞれ一以上の前述のメモリ装置に記憶され、上述の機能を実行するためのプログラムと対応付けられる。このプログラムは一以上のプロセッサ(CPU402)によって実行することもできる。上述の各モジュールやプログラムは別個のソフトウェアプログラム、手順あるいはモジュールとして実現する必要はなく、これらのモジュールの様々な一部を結合したり、再編成するなどして、多様な実施形態を構成することもできる。いくつかの実施形態では、メモリ410は上述のモジュールとデータ構造の一部を記憶してもよい。さらに、メモリ410は記述していない追加のモジュールやデータ構造を記憶させることもできる。
図4はクライアントコンピュータシステムとして説明しているが、クライアントコンピュータシステムに存在する多様な特徴を機能的に記述することを意図するもので、構造的な概要の形態を示すものではない。当業者には自明であるように、実用上、分離して示されている要素を結合したり、ある要素を分離することも可能である。
フレームの種類
ここで、典型的にプレゼンテーションビデオ内で発生するフレームのタイプについて説明する。
図5Aは、いくつかの実施形態に関わる、テキスト503とグラフィックス504(例えば、記号、線画、図、写真など)を含むプレゼンテーションスライドを含んだプレゼンテーションビデオのフレーム501を説明するブロック図500である。フレーム501の中で、プレゼンテーションスライド502が全体に表示され、他のコンテント(例えば、講演者、顔、出席者、講演が行われている部屋等)は含まれていない。フレーム501には、テキスト503とグラフィックス504が静的な情報コンテントとして示されている。
いくつかの実施形態では、静的な情報コンテントは一以上のテキスト、シンボル、線画、図、写真などを含んでいる。静的な情報コンテントからは、講演者、講演者や出席者の顔、講演がされた部屋、あるいは他のプレゼンテーションビデオでプレゼンテーションの内容を示す情報を含まない物体が除外される。
いくつかの実施形態では、プレゼンテーションスライド502が、黒板(例えばチョークでの黒板への書き込み)、ホワイトボード(例えば、カラーインクでのホワイトボードへの書き込み)、投影スクリーン(OHPやカメラを使ってスクリーンに投影された透明なスライド、デジタルプロジェクターからスクリーン上に投影されたデジタルスライド等)をキャプチャーしたビデオフレームで構成される。
図5Bは、いくつかの実施形態に関わる、テキスト513、グラフィックス514とピクチャーインピクチャー(あるいはビデオインビデオ)の領域515を含むプレゼンテーションスライド512を含んだプレゼンテーションビデオのフレーム511を示している。プレゼンテーションスライド512(すなわち、静的な情報コンテント)はフレーム511内全体に表示されている。しかし、ピクチャーインピクチャー領域515がプレゼンテーションスライド512上に重なっている。通常、ピクチャーインピクチャー領域515は講演者が説明をしているときの講演者の顔のライブビデオフィードを含んでいる。
図5Cは、いくつかの実施形態に関わる、プレゼンテーションスライド532の一部と講演台523の後ろにいる講演者522を含んだプレゼンテーションビデオのフレーム521を説明するためのブロック図520である。図5Cに示すように、フレーム521で注目されているのは、フレーム521内の全体に表示されている講演者522である。フレーム521には、ほとんど静的な情報コンテントが含まれていない。
図5Dは、いくつかの実施形態に関わる、テキスト533、グラフィックス534、ステージ537上の講演者535を含むプレゼンテーションスライド532を含んだプレゼンテーションビデオのフレーム531を説明するためのブロック図530である。図5Dで示すように、プレゼンテーションスライド532(すなわち静的な情報コンテント)と講演者535がフレーム531の全体に映っている。更に、プレゼンテーションが行われた部屋の一部もフレーム531内にある(つまり、ステージ537)。フレーム531は、プレゼンテーションスライド532、講演者535、プレゼンテーションが行われた部屋の一部がすべて一つのフレーム内に含まれる、「部屋後方(back-of-the-room)」フレームの典型的な例である。
キーフレーム抽出
静的な情報コンテントを含んだキーフレーム(例えば、テキスト、図、シンボルなどを含んだプレゼンテーションスライド)は、インデックス化して、ユーザに提示するのに、いくつかの理由で好ましい対象である。第1に、静的な情報コンテントは、ユーザにプレゼンテーションビデオの音声またはビデオストリームを提供することなしに、プレゼンテーションビデオの内容についての情報を与えるから、プレゼンテーションビデオコンテントに関するコンテキスト(概要)を提供することができる。第2に、静的な情報コンテントは、光学的文字読取技術(OCR)等の情報コンテント検出技術で抽出することができるテキストを含んでおり、プレゼンテーションビデオ内をテキストベースで検索するためのインデックスを生成するのに使用することができる。最後に、静的な情報コンテントは、講演者によりプレゼンテーションを整理するために使われる場合が多く、このため、プレゼンテーションで一貫するトピックスの範囲を定めている。このため、いくつかの実施形態では、プレゼンテーションビデオのフレーム内の静的な情報コンテントの識別と、インデックス用とユーザ案内用としてキーフレーム抽出を行う。
図6は、いくつかの実施形態に関する、静的な情報コンテントを含んだプレゼンテーションビデオのキーフレームを特定する方法600のフローチャートである。いくつかの実施形態では、静的な情報コンテントが一以上のプレゼンテーションスライドに含まれている。いくつかの実施形態ではプレゼンテーションビデオは、アーカイブされている。いくつかの実施形態ではアーカイブされたビデオは、サーバー110とは別の第2のコンピュータシステム上に存在する(例えば、コンテントサーバー102)。いくつかの実施形態では、アーカイブされたプレゼンテーションビデオは、サーバー110上に存在する。いくつかの実施形態では、アーカイブされたビデオは、ユーザによってサーバー110にもともとアップロードされたものであってもよい。あるいは、プレゼンテーションビデオはコンテントサーバー102からサーバー110にダウンロードされてもよい。いくつかの実施形態では、プレゼンテーションビデオは、同時刻に講演がされているプレゼンテーションのビデオであってもよい。この場合、プレゼンテーションビデオはサーバー110にストリーミングされてもよい。
サーバー110はプレゼンテーションビデオからフレームシーケンスを取得する(602)。図18に、いくつかの実施形態に関わる、プレゼンテーションビデオからフレームシーケンスを取得する方法のフローチャートを示す。サーバー110はプレゼンテーションビデオを検索し(1802)、フレームシーケンスを生成するために所定の時間間隔でプレゼンテーションビデオのフレームを取得する(1804)。例えば、サーバー110はフレームシーケンスを生成するために1秒あたり1フレームでプレゼンテーションビデオからフレームを取得する。
図6に戻って、サーバー110はフレームシーケンスの連続するフレーム間のピクセル値の差を計算し(604)、連続するフレームの組が静的かどうかを判定する(606)。このとき、静的な連続するフレーム間では変化したピクセル値の割合が第1の所定の閾値よりも低く、連続するフレーム中で対応する画素のピクセル値の差が第2の閾値を超える場合には、ピクセル値が変化したと推定する。いくつかの実施形態では、変化した画素の割合を計算するときに、変化した画素を連結した領域が所定のサイズよりも大きいもののみを用いる。なお、連結した領域は、画素が画素のセット中の他の画素に、画素のセットに含まれる連続して隣接した画素を介して、連続した通路を持つような画素のセットを見出すことで識別される。いくつかの実施形態では、連続したフレームの各セットは、第1の閾値よりも低いピクセル値の変化割合を有する連続フレームを所定数含み、連続フレーム中の対応画素のピクセル値間の差が第2の閾値を超える時はピクセル値は変化したとみなす。いいかえると、連続したフレームの各セットは、所定の時間の間、静的であったものとする。例えば、もし連続フレームの所定の数が3で、フレームシーケンスが1秒に1フレーム抽出されるとすれば、連続フレームの各セットは、3秒間安定しているということになる。静的な連続フレームを識別することは、静的な情報コンテントを含むフレームである可能性を高める。特に、スライドのような静的な情報コンテントは連続したフレーム間で安定している傾向がある。言い換えれば、静的な情報コンテントはフレーム間で変化しない。なお、所定の閾値は、プレゼンテーションビデオ中のノイズによって静的な情報コンテントを含むフレームが非安定フレームとして誤分類されないように設定される。また、講演者、出席者、あるいはプレゼンテーションが行われている部屋の画像を全フレームの画像としてフレーム中に含む場合には、連続フレーム間のプレゼンテーションビデオの解像度や、講演者や出席者の動きによって、誤認識される可能性がある。この問題の解決方法については、以下図8〜23に基づいて説明する。
サーバー110は、連続フレームのセットからキーフレームを抽出する(608)。いくつかの実施形態では、サーバー110は連続フレームの各セットの中から所定のフレームを選択することで、連続フレームの各セットからそれぞれのキーフレームを抽出する。連続フレームの各セット中の各フレームは同じ情報コンテント(例えば、テキスト、図など)を含むので、各セットからは一つのフレームだけが必要となる。例えば、もし連続フレームの各セットが3つのフレームを含む場合には、サーバー110は連続フレームの各セットの最後のフレームを選択することができる。いくつかの実施形態では、サーバー110は、抽出されたキーフレームに対応するタイムスタンプ(あるいはタイムインデックス、例えばキーフレームのタイムインデックス228)を抽出する。
次に、サーバー110は、静的な情報コンテントを含んだキーフレームのセットを保存する(610)。この処理は以下で図7〜23を用いてより詳細に説明する。サーバー110はユーザがインタラクションをするための静的な情報コンテントを含んだキーフレームのセットを表示させる(612)。いくつかの実施形態では、サーバー110は表示される各キーフレームを、プレゼンテーションビデオの対応するタイムスタンプ(あるいはタイムインデックス)にリンクさせ、ユーザが表示されたキーフレームをクリックしたときに、アプリケーション124がプレゼンテーションビデオを検索し、クリックされたキーフレームに対応するタイムスタンプ(あるいはタイムインデックス)の時点からプレゼンテーションビデオを再生する。
いくつかの実施形態では、サーバー110はキーフレームをインデックス化し、ユーザがインタラクションする検索インターフェイスを提供する。図17は、いくつかの実施形態に関わる、キーフレームからテキストを抽出してインデックス化する方法1700のフローチャートです。サーバー110はキーフレームのセットからテキストを抽出するために光学文字認識技術(OCR)を用いる(1702)。次いで、サーバー110は抽出されたテキストをインデックス化する(1704)。サーバー110はユーザがインタラクションする検索インターフェイスを提供し(1706)、検索インターフェイスを通じてユーザはキーワードを含むプレゼンテーションビデオを識別するためのキーワード検索を行うことができる。いくつかの実施形態では、検索結果に、ユーザが入力したキーワードが抽出された静的な情報コンテントに含まれるフレームのサムネイル画像を含めて、ユーザに返す。いくつかの実施形態では、抽出されたコンテントがサムネイル画像中で現れる箇所で、その検索キーワードをハイライト(例えば、異なる色で表示、異なるフォント)してもよい。
図6は、プレゼンテーションビデオ中の静的な情報コンテントの主要部分を識別するプロセスに関するものである。しかし、もちろん例外的なケースは存在する。講演者を含み、ほとんど静的な情報コンテントを含まないフレーム(例えば図5C)が静的な情報コンテントとして誤分類される場合もある。ピクチャーインピクチャー(あるいはビデオインビデオ)領域を含むフレームと、静的な情報コンテント、講演者および/あるいは受講者を含むフレームは、講演者および/または受講者が所定の閾値を超えるようなピクセル値の差を生じた場合に誤りを生じる可能性がある。
外観モデル
いくつかの実施形態では、フレームシーケンス中の少なくとも一つのフレームに静的な情報コンテントではない人間の顔を含んでいる。いくつかの実施形態として、全てあるいは一部のプレゼンテーションビデオのフレームに講演者が現れている場合を考慮し、サーバー110では講演者と背景の視覚的な特徴を表す、プレゼンテーションビデオ用の外観モデル(Visual Appearance Model)224が生成される。外観モデルはプレゼンテーションビデオから得られたフレームシーケンスから生成される(例えば、図6の工程602)。いくつかの実施形態では、外観モデルは弁別(discriminative)外観モデルである。いくつかの実施形態では、外観モデルは、生成(generative)外観モデルである。生成外観モデルはそのモデルが、どの程度検証されているフレームで発生しているかを見積もるモデルである(例えば、どの程度、所定のカラーヒストグラムを備えているフレームが生成されているか)。弁別外観モデルは、各フレームを2つのクラスのうちの一つに分類する分類器を教育するために、正と負の例を用いて生成されるモデルである(例えば、2つのクラスの弁別)。
いくつかの実施形態では、弁別外観モデルで、顔検出技術と情報コンテント検出技術の両方が、取得されたフレームをグループ分けするのに用いられる。いくつかの実施形態に関わる、静的な情報コンテントを含んだフレーム識別用のサポートベクトルマシーンを訓練するための工程のブロック図1900を示す(図19)。図19に示すように、複数のフレーム1902は最初に静的フレーム1906と非静的フレーム1904にグループ分けされる。顔識別技術1908と情報コンテント識別技術1910(例えばOCR)が非静的フレーム1904に適用され、非静的フレーム1904は、顔と非情報コンテント1912を含んだフレームと、顔を含まない情報コンテント1914を含むフレームにグループ分けする。静的フレーム1906、顔と非情報コンテント1912を含むフレーム、顔を含まない情報コンテント1914は、次にサポートベクトルマシーン(SVM)1916を訓練するのに用いられる。ここで、SVMの代わりに他の教師付き多クラス分類器(例えば、ニューラルネットワーク、ガウシアン混合モデル、ブースティング分類器、最近傍分類器、決定木分類器等)を使用することもできる。
図8は、いくつかの実施形態に関わる、プレゼンテーションビデオの弁別外観モデルの生成方法800に関するフローチャートである。サーバー110は、フレームシーケンスの中から静的な情報コンテントを含まない第1のフレームセットを識別する(802)。図9は、いくつかの実施形態に関わる、フレームシーケンスの静的なコンテントを含まない、第1のフレームセットを識別する方法802のフローチャートである。サーバー110は、静的ではない連続フレームを含むフレームシーケンス中の第3のフレームセットを選択する(902)。ここで静的ではない連続フレームは所定の閾値以上のピクセル値の差を連続フレーム間で有する。いくつかの実施形態では、第3のフレームセットは静的ではないフレームシーケンスからランダムにフレームを選択して構成してもよい。次に、サーバー110は第3のフレームセットから顔認識技術を用いて顔を含む第4のフレームセットを決定する(904)。サーバー110は、続いて情報コンテント識別技術を用いて、静的情報コンテントを含まない第5のフレームセットを決定する(906)。いくつかの実施形態では、情報コンテント検出技術は、テキストを検出する光学文字認識技術である。次いで、サーバー110は、第4及び第5のフレームセットの双方に含まれるフレームを、第1のフレームセットとする(908)。
図8に戻って、サーバー110は、静的な情報コンテントを含んでいるフレームシーケンス中から第2のフレームセットを決定する(804)。図10は、いくつかの実施形態に関わる、静的な情報コンテントを含むフレームシーケンス中で第2のフレームセットを判別する方法(804)のフローチャートである。サーバー110は、静的な連続フレームを含むフレームシーケンス中の第6のフレームセットを選択する(1002)。次に、サーバー110は情報コンテント検出技術を用いて静的な情報コンテントを含む第7のフレームセットをフレームシーケンス内から決定する(1004)。いくつかの実施形態では、情報コンテント決定技術はテキストを検出する光学的文字認識技術である。サーバー110は、次いで、第6および第7フレームセットの両方に含まれるフレームを第2のフレームセットとする(1006)。
いくつかの実施形態では、サーバー110は、連続静的フレームを定める所定の数以上の連続静的キーフレームのセットから代表フレームを含む第8のフレームセットを決定する。これらの実施形態では、サーバー110は第6及び第7のフレームセットに含まれる、あるいは、第8のフレームセットに含まれるフレームを、第2のフレームセットと判断する。
図8に戻って、サーバー110は静的な情報コンテントを含むフレームを識別するために、第1及び第2のフレームセットを用いてサポートベクトルマシーンを訓練する(806)。図11は、いくつかの実施形態に関わる、第1及び第2のフレームセットを用いて静的な情報コンテント含むフレームを識別するためのサポートベクトルマシーンを訓練する方法(806)に関するフローチャートである。サーバー110は、第1のフレームセットと第2のフレームセットのカラーヒストグラムを計算する(1102)。サーバー110は、第1及び第2のフレームセットのカラーヒストグラムを用いて静的な情報コンテントを含むフレームを識別するためのサポートベクトルマシーンを訓練する(1104)。ここで、SVMは、各フレームが、顔を含んでいる非情報コンテントフレーム(図19 1912)(すなわち、第1のフレームセット)であるかどうか、あるいは、情報コンテントを含んでいて顔は含まないフレーム(図19 1914)であるかどうかの知識をトレーニングプロセス中で用いる。
図12は、いくつかの実施形態に関わる、生成外観モデルの生成方法1200に関するフローチャートである。サーバー110は、顔検出技術を用いて顔を含む第1のフレームセット中のフレームを識別する(1202)。サーバー110は顔を含んだ第1のフレームセット中のフレームのカラーヒストグラムを決定し(1204)、顔を含む第1のフレームセット中のフレームのカラーヒストグラムに基づいてテンプレートヒストグラムを生成する(1206)。
外観モデルが生成された後、外観モデルはどのキーフレームを保持するかを決定するのに利用される。図7は、いくつかの実施形態に関わる、静的な情報コンテントを含んだキーフレームのセットを保持する方法(610)を説明するためのフローチャートである。サーバー110は静的な情報コンテントを含んだキーフレームのセット中からキーフレームを決定するための外観モデルを用いる(702)。
弁別外観モデルが生成された実施形態では、サーバー110は、各キーフレームが静的な情報コンテントを含むか、静的な情報コンテント無しで顔を含むかの分類を行うためのサポートベクトルマシーンを用いる。図20は、いくつかの実施形態に関わる、静的な情報コンテントを含むフレームを認識するためにサポートベクトルマシーンを用いるプロセスのブロック図である。サーバー110は、新たなフレーム2002を受信し、その新しいフレーム2002のカラーヒストグラム2004を抽出する。サーバー110は、そして、新しいフレーム2002を、静的な情報コンテントを含むフレーム2008あるいは静的な情報コンテントを含まないフレーム2010のいずれであるかを決定するために、SVM2006を適用する。
生成外観モデルが生成される場合には、サーバー110はキーフレームのセット中のキーフレームのカラーヒストグラムとテンプレートヒストグラムを比較して、静的な情報コンテントを含むキーフレームあるいは静的な情報コンテントを含まないで人の顔を含むキーフレームのセット中からキーフレームを決定する。
サーバー110は続いて静的な情報コンテントを含まないフレームを除去し(704)、静的な情報コンテントを含むキーフレームを保存する(706)。
ピクチャーインピクセル(ビデオインビデオ)の検出
先に図5Bについて説明したように、ビデオのフレームの中にはピクチャーインピクチャー(ビデオインビデオ)の領域を含む場合がある。これらのフレームは、静的な連続フレームを識別するときに誤認を生じる可能性がある。いくつかの実施形態では、静的な情報コンテント上に重なったピクチャーインピクチャー(ビデオインビデオ)領域を含むフレームを外観モデルを用いて識別する。これらの実施形態では、この候補となる領域は、動きが局所化されているフレーム中の領域および/またはピクチャーインピクチャー(ビデオインビデオ)領域として共通に使用されることが知られているフレーム中の領域を見つけることで識別される。いくつかの実施形態では、所定の大きさを有する候補領域の探索がフレームに対して行われる。例えば、所定の大きさの範囲(例えば、10ピクセル×20ピクセル、10ピクセル×25ピクセル等)を有するフレーム中に矩形領域を繰り返し探索することで実行することができる。いくつかの実施形態では、ヒストグラムバックプロジェクション法(例えば、CAMShift法)を用いて、外観モデルを候補領域に整合させる。
図13は、いくつかの実施形態に関する、フレームがピクチャーインピクチャー(ビデオインビデオ)領域を含む時に、人の顔を含むキーフレームを識別する外観モデルを用いる方法(702)のフローチャートである。サーバー110は、人間の顔を含むキーフレームを識別するための外観モデルを使用する(1302)。次いで、サーバー110は静的な情報コンテントをさらに含む顔を含んだキーフレームのサブセットを識別するために、情報検出技術を用いる(1304)。サーバー110はキーフレームのサブセットから、人間の顔と静的な情報コンテントの両方を含んだキーフレームを識別する(1306)。
部屋後方(back-of-the-room)フレーム
図5Dで説明したように、プレゼンテーションビデオのフレームの中には、講演が行われている部屋の画像が含まれている場合がある(例えば、部屋の後方から撮影したときの会場全体の様子を伝える画像)。これら部屋後方フレームの中には、静的な情報コンテントと少なくとも部屋の一部をフレーム中に見ることができる。こうした部屋後方フレームに共通なのは、同じビデオ中には静的な情報コンテントのフルスクリーンのショットが、スライドの中身はよく見えない他のカメラショットとともに混ざっている点である。上述のように、こうしたフレームは、もし連続フレーム間のピクセル値の差が所定の閾値を超えてしまうと、非連続フレームとして誤認してしまう可能性がある。このとき、いくつかの実施形態では、サーバ110は、静的な情報コンテントが含まれるフレーム中のユーザによって識別された領域に基づいて部屋モデルを生成する。ユーザによって識別された領域は、部屋の後方から撮影された他のフレームにも適用される。
図15は、いくつかの実施形態における、部屋モデルを生成する方法(1500)のフローチャートである。サーバ110は、プレゼンテーションビデオが撮影された部屋と静的な情報コンテントの両方を含む、ユーザによって選択されたキーフレームを受信する(1502)。例えば、図21Aは、いくつかの実施形態に関わる、部屋2108中のスクリーン上に表示されたプレゼンテーションスライド2102を含むプレゼンテーションビデオのフレームを示すブロック図2100である。図21Aに示すように、フレーム2101は講演者2105と出席者2107も含んでいる。さらに、図21Aに示すように、プレゼンテーションスライドは斜めから見た図(perspective View)であるかもしれない。
次に、サーバー110は、ユーザが選択したキーフレーム中のユーザ識別境界領域を受信する(1504)。ここでユーザ識別境界領域は、静的な情報コンテントを含むユーザが選択したキーフレーム内の領域を意味する。例えば、ユーザは静的な情報コンテントが表示されている投影スクリーンやホワイトボードの輪郭をクリックしても良い。図21Bは、いくつかの実施形態に関わる、図21A中に示されたプレゼンテーションビデオのフレーム中のユーザ識別境界領域2111を示す。
サーバー110は、ユーザ識別境界領域外のユーザ選択キーフレームの領域のカラーヒストグラムを生成し(1506)、透視歪み(perspective distortion)補正値を計算する(1508)。
いくつかの実施形態では、部屋モデルはユーザのインタラクション無しに生成される。いくつかの実施形態では、特徴ベースのマッチング手法が、部屋の後方から撮影されたフレーム中の静的な情報コンテントの内容とフルスクリーンで撮影された同じ静的な情報コンテントを含むフレームとの一致性を調べるために用いられる。同じ静的な情報コンテントの内容を含んだ2つのフレームの対応する点を識別し、部屋後方フレーム中の静的な情報コンテントを、フルフレームでの静的な情報コンテントに対応させる透視変換を施すことで、部屋後方フレーム中の静的な情報コンテントの境界をユーザによる入力無しに識別することができる。いくつかの実施形態では、画像間の対応を調べるために、画像スケール不変特徴変換(SIFT)特徴が用いられる。いくつかの実施形態では、連続キーフレームの各セットはこのようにして一致が調べられ、両方のキーフレームで共通の静的な情報コンテントの情報が現れるかどうかを決定するのに、一致距離品質(quality of match metric)が用いられる。
図23は、いくつかの実施形態に関わる、後方部屋フレーム中の静的な情報コンテントを識別する自動化方法2300を説明するブロック図である。この工程は、図15の工程1504でユーザからユーザ識別境界領域を受信する代わりに利用することができる。工程2300は、サーバー110がキーフレーム2301と2302の両方で特徴点(例えばSIFT特徴点)2303と2304を検出したときに開始される。いくつかの実施形態では、キーフレーム2301と2302は連続キーフレームである。
次に、サーバー110はキーフレーム2301と2302の間で一致する特徴点を検出する(2305)。例えば、サーバー110は特徴点間のユークリッド距離を計算したときに、特徴点間を所定の閾値以下の距離に保たれる場合に、特徴点同士が一致していると識別することができる。図24Aは、いくつかの実施形態に関わる、部屋後方フレーム2402とフルフレーム2404間の特徴点のマッチングを示すブロック図2400である。
サーバー110は、次いで一致する特徴点の関係を最良にするために透視変換の計算を行う(2306)。例えば、サーバー110はランダムサンプルコンセンサス(RANSAC)法などの評価法を使うことができる。いくつかの実施形態では、透視変換の結果には、キーフレーム2301と2302間の一致する特徴点を関連づける、移動因子(translation factor)、倍率因子(scaling factor)と透視変換因子(perspective transformation factor)を含む。
次いで、サーバー110は透視変換がうまく適合するかを計算する(2307)。例えば、サーバー110は、キーフレーム2301中の特徴点の座標がキーフレーム2302中の対応する特徴点の座標に透視変換によって正確に位置づけられるか、あるいはその逆はどうか、を決定する。サーバー110は倍率因子が所定の範囲内にあるかどうかも決定する。すなわち、2つの実質的に一致するキーフレームは倍率因子1.0でマッチするはずである。なお倍率因子が極端に大きいあるいは小さい場合には、部屋後方フレーム中の静的な情報コンテントが非常に小さいということになるため、あまり良い検証対象とはいえない。小さい画像(例えば部屋後方フレーム)の静的な情報コンテントを、より大きい画像(例えばフルフレーム)中の静的な情報コンテントに倍率変換したときの妥当な倍率因子の範囲の例としては、0.5〜0.9である。言い換えると、部屋後方フレーム中の静的な情報コンテントは、フルフレーム中の対応する静的な情報コンテントの少なくとも半分の大きさであって、フルフレーム中の静的な情報コンテントの90%以下の大きさである。
うまく一致しない、あるいは、倍率が所定範囲にない場合(2307、いいえ)、サーバー110はキーフレーム2301と2302はフルフレームと部屋後方フレームのペアではないと決定する。言い換えると、キーフレーム2301と2302は同じ静的な情報コンテントを含まないか、キーフレーム2301と2302は所定範囲内の倍率因子を有していない。
もし、一致が良く、倍率も所定範囲内であれば(2307、はい)、サーバー110はキーフレーム2301と2302がフルフレームと部屋後方フレームだと決定する。大きい方のキーフレーム(例えば、倍率因子から決定される)がフルフレームの例であるとみなし、小さい方のキーフレーム(例えば、倍率因子から決定される)は、部屋後方フレームの例であるとみなされる。
サーバー110は、次いで、部屋後方フレーム中の静的な情報コンテントを含む境界領域を定義する多角形の角の座標を識別するために、フルフレーム例中の静的な情報コンテントを含むフルフレーム例中の境界領域を定義する多角形の角の座標を透視変換する(2310)。図24Bは、いくつかの実施形態に関わる、部屋後方フレーム2402中の静的な情報コンテントを含む境界領域2412の角を識別することを説明するブロック図である。なお、フルフレームの場合には、境界領域の角は通常キーフレームの角となる。部屋後方フレーム中の境界領域を定義する多角形は図15におけるユーザ定義の境界領域の代わりに用いられる。
いくつかの実施形態では、図14に示すように、部屋モデルが生成された後、サーバー110は、フレーム中に講演者がプレゼンテーションを行った部屋の少なくとも一部が含まれる場合、静的な情報コンテントを含むキーフレームのセットを保持する(610)ために、部屋モデルを使う。サーバー110は、プレゼンテーションビデオが撮影された部屋と静的な情報コンテントの両方を含むキーフレームのセット中のキーフレームを識別するために部屋モデルを用いる(1402)。例えば、サーバー110は、フレームのカラーヒストグラムを部屋モデルのカラーヒストグラムと比較し、部屋の後方から撮影されたショットであるとともに静的な情報コンテントを含むフレーム識別する。いくつかの実施形態では、サーバー110は、プレゼンテーションビデオが撮影された部屋と静的な情報コンテントの両方が含まれたキーフレームのセット中のキーフレームを識別するために部屋モデルを使うときに、プレゼンテーションビデオが撮影された部屋と静的な情報コンテントの両方を含むキーフレームのセット中のキーフレームを識別するためにカラーヒストグラムを用いる。
次いで、サーバー110は、プレゼンテーションビデオが撮影された部屋と静的な情報コンテントの両方を含むキーフレームに、透視歪み補正因子を適用する(1404)。サーバー110は、歪み補正がされたキーフレームから、静的な情報コンテントだけが含まれるように画像切り出しを行う(1406)。サーバー110は、この切り出された歪み補正キーフレームを保存する(1408)。例えば、図21Cは、いくつかの実施形態に関わる、図21Aに示されたビデオのフレーム2101から切り出された、透視補正がされたプレゼンテーションスライド2122を説明するブロック図2120である。
積み上げスライド
プレゼンテーションの間、講演者はその直前に表示されていた静的な情報コンテントに、静的な情報コンテントを徐々に追加する場合がある。例えば、全体のスライドうち、一部が時間経過とともに連続して徐々に表示されていくタイプの積み上げスライド(Built‐up Slide)を使用する場合がある。あるいは、前のスライドに新しい要素が加えられた一連の複数枚のスライドを使ってこれを行う場合もある。同様に、講演者は話している時に、例えば手書き等によって、黒板やホワイトボードにコンテントを追加する場合もある。以下では積み上げスライドを例に説明をするが、それ以外の前に表示した情報コンテントに追加、あるいは積み上げるコンテントにも適用できる。積み上げスライドの例を、図22A〜22Dに示す。図22Aは、いくつかの実施形態に関わる、時間経過とともに積み上げられるプレゼンテーションスライド2202を説明するブロック図2200である。プレゼンテーションスライド2202は時間t1でのテキスト2204を含む。図22Bは、いくつかの実施形態に関わる、プレゼンテーションスライド中に新しい要素を示すブロック図2210である。プレゼンテーションスライド2202は、時間t1より後の時間t2での、テキスト2206を含んでいる。図22Cは、いくつかの実施形態に関わる、プレゼンテーションスライド中の新しい要素を説明するブロック図2220である。プレゼンテーションスライド2202は、時間t2より後の時間t3において、テキスト2208を含んでいる。図22Dは、いくつかの実施形態に関わる、プレゼンテーションスライド中の新しい要素を説明するブロック図2230である。プレゼンテーションスライド2202には時間t3より後のt4でテキスト2210を含んでいる。図22A〜22Dに示すように、完全なコンテントを含むキーフレームを、キーフレームとして抽出することが望ましい(例えば、図22Dのコンテント)。言い換えると、望まれるキーフレームはユーザにとって最も多く視覚的な情報を提供するキーフレームである。
図16は、いくつかの実施形態に関わる、静的な連続フレームの各セット(例えば、静的な情報コンテントが時間とともに積み上げられるもの)を識別する方法606のフローチャートである。サーバー110は、現在のフレームと前のフレームのピクセル値の差が所定閾値以上の、現在のフレームと前のフレームを識別する(1602)。次いで、サーバー110は、現在のフレームと前のフレームとで所定閾値以上となる現在のフレーム内の領域の境界ボックスを決定する(1604)。いくつかの実施形態では、サーバー110は、その領域が局在化していることを確認するために、ピクセル値の差が検出された現在と前のフレーム中の領域の空間的な広がりを検証する。いくつかの実施形態では、もしその領域がフレーム内で局在化している場合には、テキストや他の静的な情報コンテントを含む場合が多い。
サーバー110は、次いでエッジ検出技術を用いて前のフレームの空白領域中に境界ボックスが存在するかどうかを判断する(1606)。もし境界ボックスが前のフレームの空白領域内にある場合(1608、はい)には、サーバー110は識別、検出、そして判断の一連の処理を、前のフレーム内では空白でなかった領域において、現在のフレームと前のフレームとの間のピクセル値の差が所定の閾値を超えるまで行う(すなわち、サーバー110は工程1602に戻る)。言い換えると、現在のフレームの新しい要素は、前に表示されたスライドの、前は空白だった領域に追加される(即ち、スライドがまだ積み上げられている)。もし境界ボックスが前のフレームの空白領域内になければ(1608、No)、サーバー110は静的な連続フレームの各セットから、これまでの連続フレームのシーケンスと前のフレームを含んでいるものを判断する(1610)。言い換えると、現在のフレームは新しいスライド(あるいは新しい静的な情報コンテント)を含んでおり、連続フレームのセット中の最後のフレームは新しいスライド(あるいは新しい静的な情報コンテント)を含むフレームの直前の最後のフレームとして選択される。いくつかの実施形態では、前のフレーム(すなわち、各連続フレームのセットの最後のフレーム)は、積み上げスライドに関して完全な静的な情報コンテントを含むキーフレームとして用いられる。
いくつかの実施形態では、サーバー110は、フレームの領域中の境界ボックスが、連続フレーム間のピクセル値の差が所定の閾値よりも大きく、前のフレームの空白部分に追加されている、連続フレームの各セットのフレームに対応する時点でのプレゼンテーションビデオに、リンクを提供する。言い換えると、識別された各境界ボックスについて(つまり、積み上げスライド中のそれぞれの新しい静的な情報コンテントに対応して)、サーバー110は、連続フレーム(すなわち抽出フレーム)の各セットの最後のフレームに対してプレゼンテーションビデオへのリンクを張り、ユーザが各境界ボックスの各リンクをクリックした時にブラウザ122(あるいはアプリケーション124)が、プレゼンテーションビデオでそれらの境界ボックスに対応するコンテントが最初に現れた時点でのプレゼンテーションビデオを要求し、再生する。例えば、ユーザには最終的に完全となった積み上げスライドを提供し、プレゼンテーションビデオへのリンクとしては、各部分に各部分がスライドで最初に現れた時点へのリンクを設けてもよい。即ち、経時的に現れた各時点のスライドが、キーフレームには全て表示される。キーフレーム内の第1のリンク箇所をクリックすると、プレゼンテーションビデオ中で第1のリンク箇所が最初に現れた時点からプレゼンテーションビデオが再生され、第2のリンク箇所をクリックすると、プレゼンテーションビデオ中で第2のリンク箇所が最初に現れた時点からプレゼンテーションビデオが再生される。
外観モデルの統合
いくつかの実施形態では、外観モデル、空間キュー(spatial cue)、情報コンテント検出技術、および顔検出技術が、静的な情報コンテントを含むキーフレームを識別するために、組み合わせて利用される。これらの実施形態では、サーバー110がフレームに空間ブラー(spatial blur)を施す以外は既述の工程とその工程は類似している。フレーム間のピクセル値の差の計算後、サーバー110は、所定の閾値を超えたピクセル値の差を有する領域を含む境界ボックスを計算する。もし、これらの境界ボックスが所定の閾値よりも面積が大きくなり、元々はフレームの中心付近に存在していた場合には、サーバー110は、そのフレームをキーフレーム抽出対象として考慮すべき候補セグメントとみなす。サーバー110は、次いで、情報コンテント検出技術(例えばOCR)を、静的な情報コンテント(例えば、所定時間静止している情報コンテント)を含んだセグメントの最終フレームに適用する。もし、静的な情報コンテントがフレーム中で検出されない場合には、フレームは外観モデル(例えばSVM)に渡され、フレームが講演者が含まれているかを決定する外観モデルにマッチするかどうかを決定する。もしフレームが外観モデルにマッチする場合には、サーバー110はフレームをキーフレームのリストから除外する。
ここで開示した技術は、テキストを含んだフレームの抽出に限定されるものではない。テキスト、記号、線画、写真等、いかなる静的な情報コンテントを検出する場合にも、本技術を利用することができる、例えば、上述の技術は数学記号や線画を含んだフレームの識別に用いることができる。さらに、ここで開示した技術は、いかなる媒体上での静的な情報コンテントを含んだフレームの識別に使うこともできる。例えば、媒体としては、スライドが投影されるスクリーン、OHPフィルムが投影されるスクリーン、ホワイトボード等を含む。さらに、静的なコンテントとしては、コンピュータにより生成された、あるいは、手書きテキスト(いかなる言語であってもよい)、線画、写真等が含まれる。
いくつかの実施形態では、検索エンジンによってここに開示した技術が実行される。これらの形態では、検索エンジンはプレゼンテーションビデオをインデックス化し、インデックスに対して検索を行うための検索インターフェースを提供する。検索インターフェースは、ウェブドキュメントを検索するのに用いる一般的なウェブ検索インターフェースを用いてもよい。検索インターフェースを一般的なウェブ検索インターフェースとは分離、別個としてもよい(例えば、ビデオ検索インターフェース)。ユーザが検索インターフェースを通じて検索用語を送信したとき、検索エンジンは検索用語に関連する静的な情報コンテントを含んだキーフレームのインデックスを検索する。検索エンジンは次いでユーザに検索結果を提示する。検索結果は、検索用語と関連するビデオに対応するリンクを含んだキーフレームを表示して、提供してもよい。ユーザがキーフレームをクリックしたとき、対応するビデオがユーザのコンピュータシステムを通じて検索され、キーフレームに対応する時点から再生される。
図6〜18に関する方法は、コンピュータ可読記憶媒体中に保存され、一以上のサーバーの一以上のプロセッサによって実行される命令によって、制御することができる。図6〜18に示す各処理はコンピュータのメモリあるいはコンピュータ可読記憶媒体中に保存された命令に対応させることができる。コンピュータ可読記憶媒体には、磁気あるいは光学ディスク装置、フラッシュメモリのような固体メモリ、あるいは他の不揮発性メモリ装置を含むことができる。コンピュータ可読記憶媒体上に保存されたコンピュータ可読命令はとしては、ソースコード、アセンブル言語、オブジェクトコード、あるいは一以上のプロセッサにより解釈あるいは実行される命令形式のものであってよい。
これまでの記述は説明を目的として特定の実施形態を参照しながら記述してきた。しかし、これまでに示した説明は特定の開示した態様によって発明の全ての態様を説明したり、発明を限定したりする意図ではない。これまでの開示から明らかなように、多様な変更や変形が可能である。即ち、実施形態は本発明の原理とその応用例を説明できるように選択して開示し、当業者が本発明と多様な実施形態に多様な変更を加えながら、その用途を満たすのに適した形で利用できるようにすることを目的とするものであることを付け加えておく。
102 コンテントサーバー
104 プレゼンテーションビデオ
110 サーバー
120 クライアントコンピュータ
501、511、521、531、2101 フレーム
502、512、524、532、2102 プレゼンテーションスライド
522、2105 講演者
2107 出席者
2108 部屋

Claims (16)

  1. 静的な情報コンテントを含んだビデオのフレームシーケンスを取得する取得手段と、
    前記フレームシーケンスに含まれる連続する前後のフレーム間毎にピクセル値の差を計算する計算手段と、
    前記計算手段により計算された前記連続する前後のフレーム間毎のピクセル値の差と所定の閾値との比較結果に基づいて、前記フレームシーケンスの中で静止状態と判断される一連の複数のフレームのセットを識別する識別手段と、
    前記一連の複数のフレームのセットの中からキーフレームを抽出する抽出手段と、
    抽出された前記キーフレームの中から前記静的な情報コンテントを含んだ静的キーフレームを選択し、選択された前記静的キーフレームを前記静的キーフレームに関連する情報と関連付けて保存する保存手段と、
    検索要求に基づいて前記保存手段に保存された前記静的キーフレームを提供する提供手段と、
    を備えるビデオ検索システム。
  2. 前記ビデオが講演者によるプレゼンテーションを撮影したビデオであって、前記静的な情報コンテントが、前記プレゼンテーションで用いられたスライド画像を含むことを特徴とする請求項1記載のビデオ検索システム。
  3. 前記識別手段は、
    前記連続する前後のフレーム間の前記ピクセル値の差が所定の閾値以上である前後のフレームを識別する前後フレーム識別工程と、
    識別された前記前後のフレーム中に含まれる文字領域に対応する境界ボックスを識別する境界ボックス識別工程と、
    エッジ検出技術に基づいて、前記前後のフレームの前のフレームでは空欄であった前記境界ボックス中の領域があるかを判別する判別工程と、
    前記判別工程により前記前後のフレームの前のフレームで空欄であった前記境界ボックス中の領域があると判別される場合には、前記前後のフレーム間の前記ピクセル値の差が前記所定の閾値を超える前記前後のフレームの前のフレーム中での領域が空欄でなくなるまで、前記前後フレーム識別工程、前記境界ボックス識別工程及び前記判別工程を繰り返す繰り返し工程と、を行い、
    前記静止状態と判断される一連の複数のフレームのセットに含まれるフレームとして、前記繰り返し工程の間に用いられた連続するフレームシーケンスの少なくとも一部を含むように識別することを特徴とする請求項1記載のビデオ検索システム。
  4. 前記抽出手段が、前記繰り返し工程の間に用いられた前記連続するフレームシーケンスのうち最後のフレームを、前記キーフレームとして選択することを特徴とする請求項3記載のビデオ検索システム。
  5. 前記静的な情報コンテントには積み上げスライドを含むビデオのフレームシーケンスが含まれており、前記識別手段は、前記繰り返し工程によって、時間経過とともに情報が積み上げられる前記積み上げスライドのセットを前記静止状態と判断される一連の複数のフレームのセットとして識別することを特徴とする請求項3又は4記載のビデオ検索システム。
  6. 前記保存手段は、前記キーフレームのセット中から、静的な情報コンテントを含むフレームの視覚的特徴をモデル化した視覚モデルを用いて静的な情報コンテントを含む前記静的キーフレームを識別し、静的情報コンテントを含まないキーフレームを除外することで、前記静的キーフレームを選択することを特徴とする請求項1記載のビデオ検索システム。
  7. 前記ビデオが講演者によるプレゼンテーションを撮影したビデオであって、前記静的な情報コンテントが該プレゼンテーションで用いられたスライド画像を含み、
    前記視覚モデルが、前記静的な情報コンテントを含むフレームとして、前記プレゼンテーションが行われた場所で撮影されたビデオのフレーム内に前記スライド画像が含まれるフレームに基づいてモデル化されてなることを特徴とする請求項6記載のビデオ検索システム。
  8. 前記視覚モデルは、前記フレームシーケンスを、静的な情報コンテントを含む第1のフレームのセットと、静的な情報コンテントを含まない第2のフレームのセットとに分別し、前記第1および第2のフレームのセットを用いて、静的な情報コンテントが含まれるフレームであるか否かを判断する教師付き分類器を訓練することにより生成されることを特徴とする請求項6記載のビデオ検索システム。
  9. 前記第1及び第2のフレームのセットのカラーヒストグラムが計算され、前記カラーヒストグラムを用いて前記分類器を訓練することを特徴とする請求項8記載のビデオ検索システム。
  10. 前記保存手段は、前記キーフレームの中から人間の顔を検出する顔検出手段を備え、前記キーフレームのセットから、前記静的な情報コンテントを含まず人間の顔を含むフレームを判別し、判別結果に応じて前記キーフレームのセットのサブセットを生成することを特徴とする請求項6記載のビデオ検索システム。
  11. 前記キーフレームのセット中に少なくとも一つのフレーム内の所定の第1の領域に人間の顔と所定の第2の領域に静的な情報コンテントとを含むフレームがあり、前記視覚モデルは、前記フレーム内の前記所定の第1および第2の領域各々に人間の顔と前記静的な情報コンテントとを各々含むフレームを判別するためのモデルであることを特徴とする請求項10記載のビデオ検システム。
  12. 前記保存手段に保存される、前記静的キーフレームに関連する情報には、前記静的キーフレームの前記ビデオにおける出現時点を表す時間情報が含まれ、
    前記提供手段で提供されたキーフレームの選択に応じて前記ビデオを前記時間情報に基づいて再生するビデオ再生手段を更に備えることを特徴とする請求項1〜11のいずれかに記載のビデオ検索システム。
  13. 前記保存手段に保存される、前記静的キーフレームに関連する情報には、前記静的キーフレームに含まれる前記静的情報コンテントが前記ビデオにおいて前記静的キーフレーム内に出現するより早い時点の時間に関する時間情報が含まれ、
    前記提供手段で提供されたキーフレームの選択に応じて前記ビデオを前記時間情報に基づいて再生するビデオ再生手段を更に備えることを特徴とする請求項1〜11のいずれかに記載のビデオ検索システム。
  14. コンピュータを、
    静的な情報コンテントを含んだビデオのフレームシーケンスを取得する取得手段と、
    前記フレームシーケンスに含まれる連続する前後のフレーム間毎にピクセル値の差を計算する計算手段と、
    前記計算手段により計算された前記連続する前後のフレーム間毎のピクセル値の差と所定の閾値との比較結果に基づいて、前記フレームシーケンスの中で静止状態と判断される一連の複数のフレームのセットを識別する識別手段と、
    前記一連の複数のフレームのセットの中からキーフレームを抽出する抽出手段と、
    抽出された前記キーフレームの中から前記静的な情報コンテントを含んだ静的キーフレームを選択し、選択された前記静的キーフレームを前記静的キーフレームに関連する情報と関連付けて保存する保存手段と、
    検索要求に基づいて前記保存手段に保存された前記静的キーフレームを提供する提供手段と、
    として動作させるためのビデオ検索用コンピュータプログラム。
  15. 前記識別手段は、
    前記連続する前後のフレーム間の前記ピクセル値の差が所定の閾値以上である前後のフレームを識別する前後フレーム識別工程と、
    識別された前記前後のフレーム中に含まれる文字領域に対応する境界ボックスを識別する境界ボックス識別工程と、
    エッジ検出技術に基づいて、前記前後のフレームの前のフレームでは空欄であった前記境界ボックス中の領域があるかを判別する判別工程と、
    前記判別工程により前記前後のフレームの前のフレームで空欄であった前記境界ボックス中の領域があると判別される場合には、前記前後のフレーム間の前記ピクセル値の差が前記所定の閾値を超える前記前後のフレームの前のフレーム中での領域が空欄でなくなるまで、前記前後フレーム識別工程、前記境界ボックス識別工程及び前記判別工程を繰り返す繰り返し工程と、を行い、
    前記静止状態と判断される一連の複数のフレームのセットに含まれるフレームとして、前記繰り返し工程の間に用いられた連続するフレームシーケンスの少なくとも一部を含むように識別することを特徴とする請求項14記載のビデオ検索用コンピュータプログラム。
  16. 前記保存手段は、前記キーフレームのセット中から、静的な情報コンテントを含むフレームの視覚的特徴をモデル化した視覚モデルを用いて静的な情報コンテントを含む前記静的キーフレームを識別し、静的情報コンテントを含まないキーフレームを除外することで、前記静的キーフレームを選択することを特徴とする請求項14記載のビデオ検索用コンピュータプログラム。
JP2010176991A 2009-10-05 2010-08-06 ビデオ検索システムおよびそのためのコンピュータプログラム Active JP5510167B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US24880709P 2009-10-05 2009-10-05
US61/248,807 2009-10-05
US12/687,790 2010-01-14
US12/687,790 US8280158B2 (en) 2009-10-05 2010-01-14 Systems and methods for indexing presentation videos

Publications (2)

Publication Number Publication Date
JP2011082958A JP2011082958A (ja) 2011-04-21
JP5510167B2 true JP5510167B2 (ja) 2014-06-04

Family

ID=43823211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010176991A Active JP5510167B2 (ja) 2009-10-05 2010-08-06 ビデオ検索システムおよびそのためのコンピュータプログラム

Country Status (2)

Country Link
US (1) US8280158B2 (ja)
JP (1) JP5510167B2 (ja)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103004228A (zh) * 2010-07-26 2013-03-27 皇家飞利浦电子股份有限公司 获取关键词用于搜索
US9171578B2 (en) * 2010-08-06 2015-10-27 Futurewei Technologies, Inc. Video skimming methods and systems
US9582239B2 (en) 2011-01-21 2017-02-28 Qualcomm Incorporated User input back channel for wireless displays
US9787725B2 (en) * 2011-01-21 2017-10-10 Qualcomm Incorporated User input back channel for wireless displays
US9413803B2 (en) 2011-01-21 2016-08-09 Qualcomm Incorporated User input back channel for wireless displays
US10135900B2 (en) 2011-01-21 2018-11-20 Qualcomm Incorporated User input back channel for wireless displays
US8554832B1 (en) * 2011-03-01 2013-10-08 Asana, Inc. Server side user interface simulation
US9020244B2 (en) * 2011-12-06 2015-04-28 Yahoo! Inc. Ranking and selecting representative video images
JP5306500B2 (ja) * 2012-02-29 2013-10-02 株式会社東芝 画像処理装置、画像処理方法及びプログラム
US20130265423A1 (en) * 2012-04-06 2013-10-10 Xerox Corporation Video-based detector and notifier for short-term parking violation enforcement
ITMI20121210A1 (it) 2012-07-11 2014-01-12 Rai Radiotelevisione Italiana A method and an apparatus for the extraction of descriptors from video content, preferably for search and retrieval purpose
US9244923B2 (en) 2012-08-03 2016-01-26 Fuji Xerox Co., Ltd. Hypervideo browsing using links generated based on user-specified content features
TWI520609B (zh) * 2012-10-05 2016-02-01 緯創資通股份有限公司 顯示系統以及通訊方法
US9471676B1 (en) * 2012-10-11 2016-10-18 Google Inc. System and method for suggesting keywords based on image contents
US9892761B2 (en) * 2013-02-22 2018-02-13 Fuji Xerox Co., Ltd. Systems and methods for creating and using navigable spatial overviews for video
US10482777B2 (en) 2013-02-22 2019-11-19 Fuji Xerox Co., Ltd. Systems and methods for content analysis to support navigation and annotation in expository videos
US9626567B2 (en) * 2013-03-13 2017-04-18 Visible Measures Corp. Automated video campaign building
US9773341B2 (en) * 2013-03-14 2017-09-26 Nvidia Corporation Rendering cover geometry without internal edges
US9179096B2 (en) * 2013-10-11 2015-11-03 Fuji Xerox Co., Ltd. Systems and methods for real-time efficient navigation of video streams
US10108617B2 (en) * 2013-10-30 2018-10-23 Texas Instruments Incorporated Using audio cues to improve object retrieval in video
US9495609B2 (en) 2014-04-30 2016-11-15 Bendix Commercial Vehicle Systems Llc System and method for evaluating data
US9564172B2 (en) * 2014-07-14 2017-02-07 NFL Enterprises LLC Video replay systems and methods
US9652675B2 (en) * 2014-07-23 2017-05-16 Microsoft Technology Licensing, Llc Identifying presentation styles of educational videos
US9349054B1 (en) 2014-10-29 2016-05-24 Behavioral Recognition Systems, Inc. Foreground detector for video analytics system
US10318575B2 (en) * 2014-11-14 2019-06-11 Zorroa Corporation Systems and methods of building and using an image catalog
CN105589974B (zh) * 2016-02-04 2019-05-17 通号通信信息集团有限公司 基于Hadoop平台的监控视频检索方法和系统
US10127824B2 (en) * 2016-04-01 2018-11-13 Yen4Ken, Inc. System and methods to create multi-faceted index instructional videos
CN107920280A (zh) * 2017-03-23 2018-04-17 广州思涵信息科技有限公司 视频、讲义ppt和语音内容精准匹配的方法和系统
US10346715B2 (en) * 2017-04-07 2019-07-09 GM Global Technology Operations LLC Camera misalignment determination methods and systems
CN107527370B (zh) * 2017-07-26 2021-02-23 南京理工大学 一种基于camshift的目标跟踪方法
KR102595790B1 (ko) * 2018-01-26 2023-10-30 삼성전자주식회사 전자 장치 및 그의 제어방법
US10956746B1 (en) 2018-12-27 2021-03-23 Facebook, Inc. Systems and methods for automated video classification
US11138440B1 (en) 2018-12-27 2021-10-05 Facebook, Inc. Systems and methods for automated video classification
US10922548B1 (en) 2018-12-27 2021-02-16 Facebook, Inc. Systems and methods for automated video classification
US11017237B1 (en) 2018-12-27 2021-05-25 Facebook, Inc. Systems and methods for automated video classification
US11836181B2 (en) 2019-05-22 2023-12-05 SalesTing, Inc. Content summarization leveraging systems and processes for key moment identification and extraction
WO2021060966A1 (en) * 2019-09-27 2021-04-01 Mimos Berhad A system and method for retrieving a presentation content
US10990828B2 (en) * 2019-09-30 2021-04-27 LogMeln, Inc. Key frame extraction, recording, and navigation in collaborative video presentations
CN111753762B (zh) * 2020-06-28 2024-03-15 北京百度网讯科技有限公司 视频中关键标识的识别方法、装置、设备以及存储介质
CN111914760B (zh) * 2020-08-04 2021-03-30 华中师范大学 一种在线课程视频资源构成的解析方法及系统
CN115967823A (zh) * 2021-10-09 2023-04-14 北京字节跳动网络技术有限公司 视频封面生成方法、装置、电子设备及可读介质
US20230394851A1 (en) * 2022-06-04 2023-12-07 Zoom Video Communications, Inc. Video frame type classification for a communication session
US20230394860A1 (en) * 2022-06-04 2023-12-07 Zoom Video Communications, Inc. Video-based search results within a communication session

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4864629A (en) * 1985-12-31 1989-09-05 Schlumberger Technologies, Inc. Image correlation system
JP2914170B2 (ja) * 1994-04-18 1999-06-28 松下電器産業株式会社 映像変化点検出方法
US6137544A (en) * 1997-06-02 2000-10-24 Philips Electronics North America Corporation Significant scene detection and frame filtering for a visual indexing system
US6751354B2 (en) * 1999-03-11 2004-06-15 Fuji Xerox Co., Ltd Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models
US6807306B1 (en) * 1999-05-28 2004-10-19 Xerox Corporation Time-constrained keyframe selection method
US6677961B1 (en) * 1999-09-24 2004-01-13 Lg Electronics, Inc. Method and apparatus for identifying a predetermined number of representative data pieces from within a selected data segment
KR100579890B1 (ko) * 2004-12-30 2006-05-15 삼성전자주식회사 움직임 적응적 영상처리 장치 및 그 방법
US7466858B2 (en) * 2005-04-28 2008-12-16 Fuji Xerox Co., Ltd. Methods for slide image classification
US7986842B2 (en) * 2006-11-10 2011-07-26 Fuji Xerox Co., Ltd. Collective media annotation using undirected random field models
US8261200B2 (en) * 2007-04-26 2012-09-04 Fuji Xerox Co., Ltd. Increasing retrieval performance of images by providing relevance feedback on word images contained in the images
US8041077B2 (en) * 2007-12-18 2011-10-18 Robert Bosch Gmbh Method of motion detection and autonomous motion tracking using dynamic sensitivity masks in a pan-tilt camera

Also Published As

Publication number Publication date
JP2011082958A (ja) 2011-04-21
US8280158B2 (en) 2012-10-02
US20110081075A1 (en) 2011-04-07

Similar Documents

Publication Publication Date Title
JP5510167B2 (ja) ビデオ検索システムおよびそのためのコンピュータプログラム
US11849196B2 (en) Automatic data extraction and conversion of video/images/sound information from a slide presentation into an editable notetaking resource with optional overlay of the presenter
US20210056251A1 (en) Automatic Data Extraction and Conversion of Video/Images/Sound Information from a Board-Presented Lecture into an Editable Notetaking Resource
CN107633241B (zh) 一种全景视频自动标注和追踪物体的方法和装置
JP4833573B2 (ja) 複合的な電子表現物を作成する方法、装置及びデータ処理システム
KR102148392B1 (ko) 동영상 메타데이터 태깅 시스템 및 그 방법
US20140164927A1 (en) Talk Tags
US20160004911A1 (en) Recognizing salient video events through learning-based multimodal analysis of visual features and audio-based analytics
WO2017124116A1 (en) Searching, supplementing and navigating media
Rusiñol et al. Augmented songbook: an augmented reality educational application for raising music awareness
CN111160134A (zh) 一种以人为主体的视频景别分析方法和装置
CN111209897A (zh) 视频处理的方法、装置和存储介质
Zhao et al. A new visual interface for searching and navigating slide-based lecture videos
US10007848B2 (en) Keyframe annotation
Fan et al. Robust spatiotemporal matching of electronic slides to presentation videos
Ma et al. Lecture video segmentation and indexing
Eberts et al. Amigo-automatic indexing of lecture footage
US20180189602A1 (en) Method of and system for determining and selecting media representing event diversity
US20140297678A1 (en) Method for searching and sorting digital data
Christel Automated metadata in multimedia information systems
TWI684964B (zh) 知識點標記生成系統及其方法
Gandhi et al. Topic Transition in Educational Videos Using Visually Salient Words.
CN111144256B (zh) 基于视频动态分析的电子表格公式合成与错误检测方法
Xu et al. Skeleton-based methods for speaker action classification on lecture videos
Angrave et al. Creating TikToks, Memes, Accessible Content, and Books from Engineering Videos? First Solve the Scene Detection Problem.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121023

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140310

R150 Certificate of patent or registration of utility model

Ref document number: 5510167

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350