JP4778231B2 - ビデオシーケンスに対してインデックス付けするシステムおよび方法 - Google Patents

ビデオシーケンスに対してインデックス付けするシステムおよび方法 Download PDF

Info

Publication number
JP4778231B2
JP4778231B2 JP2004531568A JP2004531568A JP4778231B2 JP 4778231 B2 JP4778231 B2 JP 4778231B2 JP 2004531568 A JP2004531568 A JP 2004531568A JP 2004531568 A JP2004531568 A JP 2004531568A JP 4778231 B2 JP4778231 B2 JP 4778231B2
Authority
JP
Japan
Prior art keywords
video
video sequence
camera
motion
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004531568A
Other languages
English (en)
Other versions
JP2005538584A (ja
Inventor
チャン,トン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of JP2005538584A publication Critical patent/JP2005538584A/ja
Application granted granted Critical
Publication of JP4778231B2 publication Critical patent/JP4778231B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Description

[発明の背景]
[発明の分野]
本発明は、ビデオシーケンスに対するインデックス付けに関し、詳細には、音声/ビデオシーケンスをエピソードおよびハイライトへとインデックス付けするシステムおよび方法に関する。
[背景情報]
映画およびホームムービーでは、ビデオの長いシーケンスをセグメントに分割することにより、たとえばそれらの内容をカタログ化しビデオシーケンスにおけるそれらの位置にインデックス付けすることが望まれる。このカタログ化およびインデックス付けにより、ビデオシーケンス内の特定のシーンおよびイベントの位置を迅速に特定することができる。ビデオの長いシーケンスにおける問題は、専門家によって制作されるビデオよりホームビデオにおいて発生する場合が多い。これは、後者が、より小さい、編集されたシーケンスによって作成されることが多いためである。
ビデオシーケンスは、「ショット」として知られるより短いビデオセグメントに区分化することができる。ビデオショットの開始および終了は、カメラのスイッチのオンおよびオフであるカメラブレイクによって線が引かれる。すなわち、カメラのスイッチオンは、ショットの開始を示し、カメラのスイッチオフは、ショットの終了を示す。これらの問題については、開示内容のすべてを引用することにより本願明細書の一部をなす、Gulrukh Ahanger他著、「A Survey of Technologies for Parsing and Indexing Digital Video」、Journal of Visual Communication and Image Representation, March 1996, 28-43においてより深く論考されている。ビデオシーケンスの音声に基づく分類のさまざまな方法については、開示内容のすべてを引用することにより本願明細書の一部をなす、Kenichi Minami他著、「Video Handling with Music and Speech Detection」、IEEE Multimedia, July-Sept 1998, 17-25と、Tong ZhangおよびC.-C. Jay Kuo著、「Content-Based Audio Classification and Retrieval for Audiovisual Data Parsing」、69-81(Kluwer Academic Publishers 2001)とに開示されている。
ビデオシーケンスをショットに分割するために、ビデオシーケンス内のカメラブレイクを検出することができる1つの技法においては、ビデオフレームヒストグラムが用いられる。ビデオシーケンスを構成する各フレームから、ピクセルレベルのヒストグラムが得られる。すなわち、各色が0から255までの範囲の数値と関連付けされるカラーパレットに対応させて、フレームの各ピクセルを、そのピクセルの色に基づいてヒストグラムの特定の列に追加する。シーケンスにおいて連続したフレーム対に対応するそれぞれのヒストグラムを比較し、2つの連続したヒストグラムの間の差が特定の最大値を超える場合、シーンまたはイベントの変化が発生したと仮定し、新たなショットとされる。この技法は、開示内容のすべてを引用することにより本願明細書の一部をなす、HongJiang Zhang他著、「Developing Power Tools for Video Indexing and Retrieval」、2185 SPIE 140-149(8/94)と、HongJiang Zhang他著、「Automatic Partitioning of Full-Motion Video」、Institute of Systems Science, National University of Singapore, 10-28(1993)と、においてより詳細に論考されている。
既存の技法を使用して規定されるショットは、特にこれらの技法がホームビデオに採用される場合、非常に長くなる傾向がある。ホームビデオは、子供が裏庭で遊んでいる様子かまたは結婚式等、1つのイベントについて撮影されることが多い。かかるビデオでは、カメラは長期間(たとえば、子供が遊んでいる様子またはスポーツ大会を記録するために)動作させたままにする場合がある。さらに、背景が同じであることが多く、そのため連続したフレームのヒストグラムが類似することが多い。したがって、所望のシーンまたはイベントの位置を特定するために、ビデオの長いシーケンスが全体として保持されかつ閲覧される。
[発明の概要]
例示的な実施形態は、ビデオ情報と音声情報とから構成され、少なくとも1つのカメラにより作成されているビデオシーケンスに対していくつかインデックス付けする方法およびシステムであって、ビデオシーケンスを、カメラが動いている間に作成された動きセグメントとカメラが固定位置にある間に作成された静止セグメントとに分離するステップと、各静止セグメントを、該静止セグメントの各々における音声情報の変化に基づいてエピソードに分割するステップと、ビデオシーケンスに対して、該ビデオシーケンスに含まれるエピソードの開始または終了のうちの少なくとも一方を記す識別子にインデックス付けするステップとを含む、ビデオシーケンスに対してインデックス付けする方法およびシステムに関する。
代替的な実施形態は、ビデオ情報と音声情報とから構成されるビデオシーケンスに対していくつかインデックス付けするコンピュータベースシステムであって、ビデオシーケンスを記録するように構成されたビデオカメラと、ビデオシーケンスに関連するカメラの動きの変化を検出し、ビデオシーケンスを動きセグメントと静止セグメントとに分離し、各分離された静止セグメント内で、音声情報の変化を検出し、該音声情報の検出された変化に基づき分離された静止セグメントをエピソードに分割し、ビデオシーケンスにおける分割されたエピソードの少なくとも開始または終了にマーキングするようになっているプロセッサとを具備するコンピュータベースシステムを提供する。
また、追加の実施形態は、ビデオ情報と音声情報とから構成され、少なくとも1つのカメラにより作成されているビデオシーケンスに対していくつかインデックス付けするソフトウェアが符号化されたコンピュータ読取可能媒体であって、ビデオシーケンスを、カメラが動いている間に作成された動きセグメントとカメラが固定位置にある間に作成された静止セグメントとに分離するステップと、各静止セグメントを、その静止セグメントの各々における音声情報の変化に基づいてエピソードに分割するステップと、ビデオシーケンスに含まれるエピソードの開始または終了のうちの少なくとも1つを示す識別子によってインデックス付けするステップとを含むインデックス付けソフトウェアが符号化された、コンピュータ読取可能媒体に関する。
本発明のこれらおよび他の目的および利点は、添付図面を考慮して以下の好ましい実施形態の説明を読むことにより、当業者にはより明らかとなりかつより容易に理解されよう。
[好ましい実施形態の詳細な説明]
図1は、本発明の例示的な実施形態によるビデオシーケンスに対してインデックス付けするコンピュータベースシステムを示す。特に、図1は、ビデオシーケンスを記録するように構成されたビデオカメラ104を示す。ビデオカメラ104は、画像と関連する音声情報とを取り込んで記録し得る任意のアナログおよび/またはデジタルデバイスとすることができる。記録されたビデオシーケンスを、任意に、テープ106等の別個の記憶媒体上に記録してもよく、かつ/またはビデオ記憶デバイス108に格納してもよい。
例示的な実施形態によれば、ビデオシーケンスは、コンピュータ100のプロセッサに入力される。コンピュータ100のプロセッサは、単一プロセッサであってもよく、または第1、第2および第3のプロセッサ等の複数のプロセッサであってもよく、その場合、各プロセッサは、例示的な実施形態のソフトウェアまたは命令により、ビデオシーケンスに関連するカメラの動きの変化を検出しそのビデオシーケンスを動きセグメントと静止セグメントとに分離し、各分離された静止セグメント内の音声情報の変化を検出して、その分離された静止セグメントを音声情報の検出された変化に基づいてエピソードに分割し、かつ/またはビデオシーケンスの分割されたエピソードの少なくとも開始または終了をマーキングするようになっている。複数のプロセッサを、コンピュータ100内で統合してもよく、または図1に示さない別個のコンピュータで構成してもよい。コンピュータ100は、ビデオシーケンスに対してエピソードにインデックス付けするためにコンピュータ100における処理を制御し指示するソフトウェアまたは命令が符号化されたコンピュータ読取可能媒体を含んでもよい。
コンピュータ100は、ビデオシーケンスのインデックス付けの処理を制御しかつ/またはその結果を表示するディスプレイ、グラフィカルユーザインタフェース、パーソナルコンピュータ102等を有してもよい。ビデオシーケンスは、1つ以上のカメラ104によって取り込まれるイベントのライブ表現から、かつ/またはテープ106等の媒体に格納されたイベントの先の記録からコンピュータ100に入力される。図1においては、カメラ104およびテープ106からのビデオシーケンスが、処理のためにコンピュータ100に入力される前にビデオ記憶媒体108に格納されるように示すが、ビデオ情報は、例示的な実施形態の特徴を損なうことなくカメラ104および/またはビデオテープ106から直接コンピュータ100に入力してもよい。実施形態は、ビデオシーケンスに対して、カメラ104によってイベントが記録されるのと同時にまたはその直後にインデックス付けすることができるように、カメラ104自体の中で実施してもよい。
コンピュータ100は、ビデオ記憶媒体108から入力されるビデオシーケンスに対してインデックス付けする際に使用する1つ以上のカメラ動きモードと音声情報タイプとを、パラメータとして受け入れる。カメラ動きモードと音声情報タイプとを、それぞれ記憶デバイス110および112に存在するように示すが、この制御情報はまた、例示的な実施形態の特徴を損なうことなく、コンピュータ100のメモリまたは代替記憶媒体に存在してもよい。図2に示す処理ステップに関してより詳細に説明するように、例示的な実施形態は、カメラ動きモードと音声情報タイプとを利用して、入来するビデオシーケンスを、動きセグメント114と、静止セグメント116と、エピソード118と、ハイライト119と、抽出されたビデオフレーム120とに解析する。これらをすべて、1つ以上の記憶デバイス122に格納してもよい。例示的な実施形態の制御下で動作するプロセッサは、さらに、抽出されたビデオフレーム124と、インデックス付けされたビデオシーケンス126と、抽出されたビデオフレーム128の1つ以上のストーリーボードとを出力する。これらをすべて、図1に示すような1つ以上の記憶デバイスに格納してもよい。さらに、インデックス付けプロセスの結果と処理されたビデオシーケンスのすべてまたは一部のプリントされた画像を、プリンタ130に出力してもよい。
ここで図1および図2を参照して、ビデオシーケンスにインデックス付けするシステムの例示的な実施形態について説明する。図2は、ビデオ情報と音声情報とから構成されるビデオシーケンスに対してインデックス付けを行う方法を示し、コンピュータ100が処理するために、ステップ200において、ビデオ記憶媒体108、ビデオテープ106および/またはカメラ104からビデオシーケンスを受け取ることから開始する。カメラ104によって記録されテープ106およびビデオ記憶媒体108に格納されたビデオシーケンス情報は、ビデオ情報と音声情報との両方から構成されてもよい。ステップ202において、受け取られたビデオシーケンスが、カメラブレイクまたはカメラのオン/オフイベントに従ってビデオシーケンスを区分化する1つ以上の既知の技法に従ってショットに分割される。明確なカメラのスイッチのオン・オフに加えて、フェードイン、フェードアウトおよびディゾルブ等のカメラ遷移の検出もまたカメラブレイクを示すものとみなすことができる。
例示的な実施形態は、ビデオシーケンス全体に対してインデックス付けする目的でビデオシーケンスを構成するショットのすべてを処理してもよいが、短いショットに比べて長いショットのほうが複数のイベントの画像および音声を含む可能性が高いため、ユーザは、通常、短いショットより長いショットにインデックス付けすることに関心がある。例示的な実施形態によってインデックス付けされるショットの長さは、ユーザによりインタフェース102を介して選択可能であり、たとえば、最低2分間、または他の任意の指定された時間フレーム等、時間の関数として設定してもよい。このように、ユーザは、インデックス付けシステムの処理を、ビデオシーケンスの内容に合わせるようにカスタマイズしてもよい。たとえば、ビデオの内容が、バスケットボールの試合等、比較的高アクションのイベントである場合、ショットの長さを30秒間等のより短い間隔で設定してもよい。記録されたイベントが、バンドのコンサート等、低アクションのイベントである場合、3分間といったより長い時間の長いショットを設定してもよい。その後、このシステムは、最低3分間または任意の他の指定された時間フレームを超えるショット等、ビデオシーケンスにおける次に利用可能な適格な長いショットを選択する。
そして、ステップ206において、ビデオシーケンスの選択された長いショットを、動きセグメントと静止セグメントとに分離する。動きセグメントは、パニング(左方または右方)、チルティング(上方または下方)またはズーミング(インまたはアウト)の動作等、1つの動きのモードにあるカメラ104によって作成されまたは記録されたビデオシーケンスを表す。静止セグメントは、カメラ104が特定のシーンで固定され、または旋回することなく三脚上に固定された場合等、カメラ104が静止していた間に作成されたビデオシーケンスセグメントである。別法として、システムは、カメラ104におけるごく少ない移動も静止状態としてみなすことにより、カメラ104の振動、振れおよび揺れに対応する。システムは、記憶デバイス110に格納されたカメラ動きモード情報に基づき、ショットのビデオ情報内におけるカメラの動きの変化を検出することにより、選択されたビデオショットをセグメントに分離する。フレームヒストグラムまたは動きベクトルを比較すること等により、カメラの動きを検出する既知の技法を使用して、システムは、ビデオショット内のカメラ動きモードが1つの動きモードから別の動きモードに変化することを判断することができ、それにより、動きセグメントおよび/または静止セグメントの終了および/または開始を示すことができる。
代替実施形態では、選択された「ゆっくりした」動きを検出しそれを利用して、インデックス付けのためにビデオショットをセグメントに分割してもよい。左方から右方へのゆっくりしたパニング等、ゆっくりしたカメラの動きは、カメラの操作者が、興味あるシーンまたは対象を記録しており、したがってインデックス付けされる将来関心が持たれるビデオショットセグメントを作成していることを示す可能性がある。この実施形態では、さまざまなカメラの動きの相対的なまたは実際の速度を、インタフェース102を介してパラメータとして選択してもよい。システムは、カメラの動きに対して選択された「ゆっくりした」速度にまでカメラの動きの速度が減速したことをビデオショット内において検出すると、その位置のビデオショットを静止セグメントの開始と同様に処理し、システムが動きセグメントから静止セグメントへの変化を検出した場合に上述した方法と同様にセグメントにフラグを立てる。このように、高速な動きセグメントから低速な動きセグメントを分離してもよい。
セグメント分離を制御するために、インタフェース102を介して記憶デバイス110からさまざまなカメラ動きモードをパラメータとして選択してもよい。例示的なカメラ動きモードには、限定されないが、左方にパンすること、右方にパンすること、上方にチルトすること、下方にチルトすること、ズームインすることおよびズームアウトすることが含まれる。本システムはまた、動きモードから静止(すなわち固定位置)に、かつ静止位置から動きモードにカメラの動きが変化する時を検出してもよい。ビデオシーケンスセグメントに関する例示的な実施形態の処理を、たとえば左右にパンすることのみをカメラの動きの変化を示すものとして検出する等、カメラの動きモードの特定のサブセットを検出するように制御してもよい。かかるシステムの応用においては、カメラの動きの変化が左方にパンすることから右方にパンすることへの変化を示すものとして検出されるたびに、システムは、1つの動きのセグメントの終了と別の動きのセグメントの開始とをマーキングする。カメラの動きの変化が、左方にパンする状態から静止の状態であるとして検出されると、システムは、動きセグメントの終了と静止セグメントの開始とにフラグを立てる。分離された動きセグメントと静止セグメントとを、任意にそれぞれ記憶デバイス114および116に格納する。
ステップ206で生成された各静止セグメントから、ステップ208においてビデオフレームを抽出することによりセグメントの内容を識別し、それを記憶デバイス120に保持する。分離された静止セグメントを表すものとして抽出されるべき特定のビデオフレームは、静止セグメントの第1のフレームであること、静止セグメントの中間フレームであること、または静止セグメントのシーンを代表するフレームであることに基づいて、インタフェース102を介してパラメータの選択によりユーザによって選択されることができる。例示的な実施形態によって抽出された各ビデオフレームはタイムスタンプ等の参照情報を保持する。抽出されたフレームは、この参照情報が発生したビデオストリームの位置に再びリンクされまたはインデックス付けされることができる。このリンクは、時間的すなわち年代的な参照により達成してもよく、ビデオシーケンスに対するフレーム番号マッピング等を含んでもよい。このように、ユーザが後に再生するために、ビデオシーケンスにおいて分離された静止セグメントの開始の位置をマーキングする。参照情報を、抽出されたビデオフレームとともに記憶デバイス120に保持してもよく、またはシステムの発明的な特徴を損なうことなく別個の記憶ファイルまたはデータベースに格納してもよい。
ステップ210において、各静止セグメント内の音声情報の変化を検出することにより、各静止セグメントをエピソードと呼ばれるより小さいセグメントに分割する。たとえば、演奏または同窓会のビデオにおける音楽および発話の開始および停止と同様に、拍手および喝采の音声を使用して、ビデオセグメントを個々のエピソードに分割してもよい。音声信号においていかに内容の変化を検出することができるかに関する論考については、HongJiang Zhang他著の「Developing Power Tools for Video Indexing and Parsing」と題する論文に記載されている。ステップ210において、システムは、記憶デバイス112に保持されているさまざまな音声情報タイプを呼び出し、インタフェース102を介してパラメータとして選択される場合も含めて、静止セグメント内に音声情報の変化が検出されるといつでも新たなエピソードにマーキングする。音声情報タイプの例には、音楽、発話および環境的音声(口笛、合図の音、拍手および喝采等)がある。各静止セグメントの開始において、そのセグメントの開始において見つけられた音声情報のタイプおよび音量を確定し記録する。たとえば、静止セグメントは、音楽が相対的音声レベル5で演奏される時に開始してもよい。システムは、静止セグメント内で相対的なレベルだけまたは選択された割合だけ音声レベルの上昇または下降を検出すると、ビデオセグメントにおいてエピソードの変化が発生したことを示し、先のエピソードの終了と新たなエピソードの開始とにマーキングすることにより静止セグメントを分割する。それに相応して、セグメントの音声情報が、音楽から発話へ、発話から拍手へ、または音楽から静寂へ等、音声情報タイプを変化させる場合、システムは、それに応じてエピソードの終了および開始を示す。たとえば、エピソードの変化を示すために音声情報タイプとして「静寂」が選択されなかった場合、システムは、静止ビデオセグメントにおける静寂の発生をエピソードの変化を示すものとして認識しない。
音声情報が複数の音声情報タイプから同時に構成することができるため、本システムは、分割プロセスにおける音声タイプの混合を可能にする。たとえば、ビデオセグメント上の音声情報が器楽と歌と拍手との組合せである場合、音声情報のこれら3つのタイプのうちのいずれかのものが終了すると、本システムに対し、音声情報のこの変化が、エピソードの終了および新たなエピソードの開始を示すものであるというように命令してもよい。それに相応して、既存の音声ストリームに対する追加の音声タイプを検出することを利用して、エピソードの終了および開始を示してもよい。新たなエピソードを検出すると、本システムは、ステップ212において、新たなエピソードの開始におけるビデオフレームを抽出し、それを記憶デバイス120に格納する。任意には、エピソードシーケンス全体、すなわち開始から終了までを記憶デバイス118に格納する。
代替実施形態では、ステップ214においてビデオシーケンスにおけるハイライトを検出し、後続する位置特定および再生のためにそれにインデックス付けする。このように、たとえば、バスケットボールの試合における重要なゴールを、ビデオシーケンスからの位置特定および再生を容易にするためにインデックス付けしてもよい。この実施形態では、本システムに対し、ビデオストリームの静止セグメント、動きセグメントおよび/またはエピソードセグメントを処理するように命令してもよい。ステップ210に関して上述したようなセグメントの音声情報を処理する間、本システムに対し、ビデオシーケンス内のハイライトを表すことができるいくつかの音声情報タイプを検出するように命令してもよい。この命令または制御を、ユーザが、インタフェース102を利用して、プロセッサ100がビデオシーケンスにおけるハイライトの発生を検出するために使用する記憶デバイス112からの特定の音声情報タイプを選択することにより、行ってもよい。ハイライト音声情報タイプの例には、拍手、喝采、合図および口笛、叫びおよび音声レベルの上昇がある。
ビデオセグメントにおける選択されたハイライト音声情報タイプを検出すると、システムは、ビデオセグメントにおけるハイライトイベントの開始であるとする。検出されたハイライト音声情報が、終了し、または所定音量レベルまたは割合レベルだけ減少すると、本システムは、ビデオセグメントにおけるハイライトイベントの終了であるとする。イベントまたはハイライトは、任意の対応するハイライト音声情報が検出される前にビデオシーケンスで開始する可能性があるため、本システムは、ハイライトの開始をビデオシーケンス上でのハイライト音声情報の検出の数秒または数分前であるように早めるオプションを有する。このように、ハイライトシーケンス全体にマーキングし、その後その位置を特定し閲覧することができる。ステップ216において、システムは、ハイライトセグメントの開始におけるビデオフレームを抽出し、そのビデオフレームを記憶デバイス120に格納する。任意に、ハイライトセグメントを開始から終了まで記憶デバイス119に格納する。
ステップ218において、ビデオシーケンスを識別子によってインデックス付けすることにより、システムによりビデオシーケンス上で検出された各エピソードおよびハイライトの開始および終了をマーキングする。別法として、エピソードに対するビデオシーケンスのインデックス付けは、ステップ210の一部として発生してもよく、ハイライトに対するビデオシーケンスのインデックス付けは、ステップ214の一部として発生してもよい。インデックス付けされたビデオシーケンスは、デバイス126に格納することも任意である。例示的な実施形態では、ビデオシーケンスに対して、各抽出されたビデオフレームにリンクされたポインタのマッピングによってインデックス付けを行う。この実施形態では、エピソードの開始またはハイライトの開始を表す各抽出されたビデオフレームは、ビデオシーケンスにおけるビデオフレームの時間的な位置に再びリンクするそのフレームに関連するポインタを有する。ポインタは、ビデオシーケンスにおける抽出されたビデオフレームの時間的な位置を示すタイムスタンプを含んでもよい。ストーリーボードの一部として表示されるビデオフレームをクリックすることにより、本システムは、ビデオシーケンス内の対応するセグメントにリンクし、ユーザが閲覧するために選択されたエピソードまたはハイライトを再生する。
ステップ220において、ステップ208、212および216において抽出されたビデオフレームを、ビデオシーケンスショットの縮約された要約ビデオスナップショットを提供するためだけでなく、ビデオシーケンスの所望の部分にアクセスしそれらを表示するために用いるインデックス付けツールとして、ストーリーボード内に配置してもよい。1つのかかるストーリーボードは、ビデオシーケンスを表すために個々のタイムスタンプに基づいて、ステップ208、212および216において本システムによって抽出された各ビデオフレームから構成された、年代的、すなわち時間的ビデオシーケンスとすることができる。異なる抽出されたビデオフレームのストーリーボードを、ビデオシーケンスのより高いレベルの表現を形成するために構築してもよい。このより高いレベルのストーリーボードを利用して、ビデオシーケンスの内容の要約を表示してもよい。エピソードのみおよび/またはハイライトのみから構成されるストーリーボードを構築してもよい。例示的な実施形態によって作成されるストーリーボードの各々を、後に処理しかつ/またはアクセスするために記憶デバイスまたは媒体128に格納してもよい。ユーザは、低速にストリーミングするビデオシーケンスの形式でまたは個々のフレームの表示として各ストーリーボードを閲覧することができる。ユーザは、ストーリーボードの任意の表示されたフレームを選択しまたはクリックしてもよく、システムは、選択されたビデオフレームで開始する対応するビデオストリームの位置を特定しそのストリームをユーザに対して再生する。ビデオストリームの再生は、オリジナル入力ビデオシーケンスから行うことも、記憶デバイス126に格納された、インデックス付けされたビデオシーケンスから行うことも、デバイス118に格納されたエピソードシーケンスから行うことも、かつ/またはデバイス119に格納されたハイライトシーケンスから行うこともできる。
選択されたエピソードまたはハイライトの再生は、いくつかの技法のうちの1つによるものとすることもできる。たとえば、エピソードまたはハイライトの再生を、選択されたエピソードまたはハイライトに限定することができ、その場合、選択されたエピソードまたはハイライトの最後のフレームにおいて再生を停止することができる。別法として、再生は繰返しとすることもでき、選択されたエピソードまたはハイライトを繰返し再生することができる。さらに、再生を連続的であるように選択することができ、その場合、再生は、閲覧者が停止させるまでまたはシーケンスの終了に達するまで、選択されたエピソードまたはハイライトの終了を越えてビデオシーケンスの残りの部分まで続けることができる。
ステップ222において、システムは、ビデオシーケンスの最後の長いショットがセグメントにおよびさらにエピソードにまでなるように処理されたか否かを判断するために確認する。オリジナルのビデオシーケンスのさらなる長いショットがまだ処理されていない場合、システムは、ステップ204において、ビデオシーケンスにおける次に長いビデオショットを選択し、ステップ206で開始して上述したようにショットの解析を開始する。
本発明の好ましい実施形態について示し説明したが、当業者には、添付の特許請求の範囲およびそれらの等価物において範囲が規定される本発明の原理および精神から逸脱することなく、これらの実施形態に対し変更を行ってもよい、ということが理解されよう。
本発明の例示的な実施形態によるビデオシーケンスにインデックス付けするシステムのコンポーネント図である。 ビデオシーケンスにインデックス付けする例示的な方法のブロックフローチャートである。

Claims (7)

  1. ビデオ情報と音声情報とから構成され、少なくとも1つのカメラ(104)によって作成されるビデオシーケンス(108)に対していくつかインデックス付けする方法であって、
    前記ビデオシーケンス(108)を、前記カメラ(104)が動いている間に作成された動きセグメント(114)と該カメラ(104)が固定位置にある間に作成された静止セグメント(116)とに分離するステップと、
    各静止セグメント(116)を、該静止セグメント(116)の各々における前記音声情報の変化に基づいてエピソード(118)に分割するステップと、
    前記動きセグメントにおける前記音声情報と前記分割されたエピソード(118)の前記音声情報とにおいて1つ以上のイベントを検出するステップであって、各検出されたイベントは、前記ビデオシーケンス(108)におけるハイライト(119)を示す、検出するステップと、
    前記ビデオシーケンス(108)に対して、該ビデオシーケンス(108)に含まれるエピソード(118)の開始または終了のうちの少なくとも一方を記す識別子によりインデックス付けするステップと
    を含み、
    前記インデックス付けするステップは、
    前記ビデオシーケンス(108)内において、前記分離された動きセグメント(114)と、前記分割されたエピソード(118)と、前記検出されたハイライト(119)との各々の始めのビデオフレーム(124)を選択するステップと、
    各選択されたビデオフレーム(124)に対応する前記ビデオシーケンス(108)における位置に対しポインタをマッピングするステップと、
    前記選択されたビデオフレーム(124)のストーリーボード(128)を構築するステップと
    を含む、ビデオシーケンスに対するインデックス付け方法。
  2. 前記ビデオシーケンス(108)を分離するステップは、
    前記ビデオ情報におけるカメラの動きの変化を検出するステップと、
    前記ビデオストリーム(108)の前記カメラの動きの変化が検出された位置にマーキングするステップと
    をさらに含む、請求項1に記載のビデオシーケンスに対するインデックス付け方法。
  3. 前記カメラの動きの変化は、カメラの複数の動きモードのうちのあるものからカメラの複数の動きモードのうちの別のものへの変化を含む、請求項2に記載のビデオシーケンスに対するインデックス付け方法。
  4. 前記カメラの動きの速度に基づき、前記動きセグメント(114)を高速動きセグメントと低速動きセグメントとに分離するステップと、
    各低速動きセグメントを、該低速動きセグメントの各々における前記音声情報の変化に基づいてエピソード(118)に分割するステップと、
    を含む請求項2に記載のビデオシーケンスに対するインデックス付け方法。
  5. 分割されたエピソード(118)各々の始めと、検出されたハイライト(119)各々の始めとにおいて、前記ビデオシーケンス(108)からビデオフレーム(124)を抽出するステップを含む請求項に記載のビデオシーケンスに対するインデックス付け方法。
  6. 該選択されたビデオフレーム(124)に関連するタイムスタンプに従って、前記選択されたビデオフレーム(124)に各ポインタをマッピングする請求項に記載のビデオシーケンスに対するインデックス付け方法。
  7. ビデオ情報と音声情報とから構成されるビデオシーケンス(108)に対して請求項1に記載の方法によりインデックス付けするコンピュータベースシステムであって、
    ビデオシーケンス(108)を記録するように構成されたビデオカメラ(104)と、
    前記ビデオシーケンス(108)に関連するカメラの動きの変化を検出し、該ビデオシーケンス(108)を動きセグメント(114)と静止セグメント(116)とに分離し、
    各分離された静止セグメント(116)内で、音声情報の変化を検出し、該音声情報の検出された変化に基づき前記分離された静止セグメント(116)をエピソード(118)に分割し、
    前記ビデオシーケンス(108)における分割されたエピソード(118)の少なくとも開始または終了にマーキングする
    ようになっているプロセッサ(100)と、
    を具備するコンピュータベースシステム。
JP2004531568A 2002-08-30 2003-08-29 ビデオシーケンスに対してインデックス付けするシステムおよび方法 Expired - Fee Related JP4778231B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/231,036 US7483624B2 (en) 2002-08-30 2002-08-30 System and method for indexing a video sequence
US10/231,036 2002-08-30
PCT/US2003/026852 WO2004021221A2 (en) 2002-08-30 2003-08-29 System and method for indexing a video sequence

Publications (2)

Publication Number Publication Date
JP2005538584A JP2005538584A (ja) 2005-12-15
JP4778231B2 true JP4778231B2 (ja) 2011-09-21

Family

ID=31976656

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004531568A Expired - Fee Related JP4778231B2 (ja) 2002-08-30 2003-08-29 ビデオシーケンスに対してインデックス付けするシステムおよび方法

Country Status (5)

Country Link
US (1) US7483624B2 (ja)
EP (1) EP1532553A2 (ja)
JP (1) JP4778231B2 (ja)
AU (1) AU2003260112A1 (ja)
WO (1) WO2004021221A2 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7375731B2 (en) * 2002-11-01 2008-05-20 Mitsubishi Electric Research Laboratories, Inc. Video mining using unsupervised clustering of video content
KR100609154B1 (ko) * 2003-05-23 2006-08-02 엘지전자 주식회사 비디오 콘텐츠 재생 방법 및 장치
US7904815B2 (en) * 2003-06-30 2011-03-08 Microsoft Corporation Content-based dynamic photo-to-video methods and apparatuses
CA2587271A1 (en) * 2004-11-16 2006-07-13 Sean Darwish System for rapid delivery of digital content via the internet
JP2006217060A (ja) * 2005-02-01 2006-08-17 Sony Corp 記録装置、記録再生装置および記録方法並びに記録再生方法
US20090228572A1 (en) * 2005-06-15 2009-09-10 Wayne Wall System and method for creating and tracking rich media communications
US20070250313A1 (en) * 2006-04-25 2007-10-25 Jiun-Fu Chen Systems and methods for analyzing video content
US8463924B2 (en) * 2007-02-02 2013-06-11 Apple Inc. Remote access of media items
US8238719B2 (en) * 2007-05-08 2012-08-07 Cyberlink Corp. Method for processing a sports video and apparatus thereof
KR20090015323A (ko) * 2007-08-08 2009-02-12 (주)씨앤에스 테크놀로지 스틸 컷 프레임을 생성하는 장치 및 방법
KR100999655B1 (ko) * 2009-05-18 2010-12-13 윤재민 디지털 비디오 레코더 시스템 및 그것의 운용방법
US8571330B2 (en) * 2009-09-17 2013-10-29 Hewlett-Packard Development Company, L.P. Video thumbnail selection
TW201122863A (en) * 2009-12-31 2011-07-01 Hon Hai Prec Ind Co Ltd Video search device, search system, and search method
JP5746766B2 (ja) * 2010-08-02 2015-07-08 ペキン ユニバーシティ 効果的なビデオの分類および検索のための典型的モーションフローの抽出
US10134440B2 (en) * 2011-05-03 2018-11-20 Kodak Alaris Inc. Video summarization using audio and visual cues
CA2911834A1 (en) 2013-05-10 2014-11-13 Uberfan, Llc Event-related media management system
US9100701B2 (en) * 2013-07-31 2015-08-04 TCL Research America Inc. Enhanced video systems and methods
US11863848B1 (en) 2014-10-09 2024-01-02 Stats Llc User interface for interaction with customized highlight shows
US10536758B2 (en) 2014-10-09 2020-01-14 Thuuz, Inc. Customized generation of highlight show with narrative component
US10433030B2 (en) 2014-10-09 2019-10-01 Thuuz, Inc. Generating a customized highlight sequence depicting multiple events
WO2017030212A1 (ko) * 2015-08-18 2017-02-23 엘지전자(주) 이동 단말기 및 그 제어 방법
US20170065888A1 (en) * 2015-09-04 2017-03-09 Sri International Identifying And Extracting Video Game Highlights
US10390082B2 (en) 2016-04-01 2019-08-20 Oath Inc. Computerized system and method for automatically detecting and rendering highlights from streaming videos
CN115103166A (zh) * 2018-01-19 2022-09-23 深圳市大疆创新科技有限公司 视频处理方法及终端设备
US11594028B2 (en) 2018-05-18 2023-02-28 Stats Llc Video processing for enabling sports highlights generation
US11025985B2 (en) * 2018-06-05 2021-06-01 Stats Llc Audio processing for detecting occurrences of crowd noise in sporting event television programming
US11264048B1 (en) 2018-06-05 2022-03-01 Stats Llc Audio processing for detecting occurrences of loud sound characterized by brief audio bursts
CN111400511B (zh) * 2020-03-12 2024-06-14 北京奇艺世纪科技有限公司 一种多媒体资源的截取方法和装置
CN112101196B (zh) * 2020-09-14 2023-08-11 北京百度网讯科技有限公司 数据的处理方法、装置、设备以及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5635982A (en) * 1994-06-27 1997-06-03 Zhang; Hong J. System for automatic video segmentation and key frame extraction for video sequences having both sharp and gradual transitions
US5835667A (en) * 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
US5485611A (en) * 1994-12-30 1996-01-16 Intel Corporation Video database indexing and method of presenting video database index to a user
JP4010598B2 (ja) 1996-06-04 2007-11-21 株式会社日立国際電気 映像情報編集方法
US6389168B2 (en) * 1998-10-13 2002-05-14 Hewlett Packard Co Object-based parsing and indexing of compressed video streams
JP2000175149A (ja) 1998-12-09 2000-06-23 Matsushita Electric Ind Co Ltd 映像検出装置、及び要約映像生成装置
US6748158B1 (en) * 1999-02-01 2004-06-08 Grass Valley (U.S.) Inc. Method for classifying and searching video databases based on 3-D camera motion
US20040125877A1 (en) 2000-07-17 2004-07-01 Shin-Fu Chang Method and system for indexing and content-based adaptive streaming of digital video content
KR20020060964A (ko) 2000-09-11 2002-07-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오/비디오 내용을 인덱스/요약하기 위한 시스템
US6973256B1 (en) * 2000-10-30 2005-12-06 Koninklijke Philips Electronics N.V. System and method for detecting highlights in a video program using audio properties

Also Published As

Publication number Publication date
US7483624B2 (en) 2009-01-27
US20040041831A1 (en) 2004-03-04
WO2004021221A3 (en) 2004-07-15
EP1532553A2 (en) 2005-05-25
WO2004021221A2 (en) 2004-03-11
AU2003260112A1 (en) 2004-03-19
JP2005538584A (ja) 2005-12-15

Similar Documents

Publication Publication Date Title
JP4778231B2 (ja) ビデオシーケンスに対してインデックス付けするシステムおよび方法
EP1816649B1 (en) Imaging device, information processing method, and computer program
KR101109023B1 (ko) 콘텐트 분석을 사용하여 뮤직 비디오를 요약하는 방법 및 장치
KR100915847B1 (ko) 스트리밍 비디오 북마크들
JP5091086B2 (ja) ビデオの短いセグメントを表示するための方法及びグラフィカルユーザインタフェース
JP4000171B2 (ja) 再生装置
JP4905103B2 (ja) 動画再生装置
US7362950B2 (en) Method and apparatus for controlling reproduction of video contents
US20050264703A1 (en) Moving image processing apparatus and method
US8634708B2 (en) Method for creating a new summary of an audiovisual document that already includes a summary and reports and a receiver that can implement said method
WO1998043408A2 (en) Video signal analysis and storage
JP2000350156A (ja) 動画像情報の記憶方法及びこれを記録した記録媒体
JP5096259B2 (ja) 要約コンテンツ生成装置および要約コンテンツ生成プログラム
KR20020074328A (ko) 키프레임을 이용한 동영상 재생방법 및 그 장치
JP4032122B2 (ja) 映像編集装置、映像編集プログラム、記録媒体、および映像編集方法
JP2008153920A (ja) 動画像一覧表示装置
JP2006270233A (ja) 信号処理方法及び信号記録再生装置
JP2005167456A (ja) Avコンテンツ興趣特徴抽出方法及びavコンテンツ興趣特徴抽出装置
KR20020023063A (ko) 비디오 콘텐트의 구조적 정보를 이용한 비디오 스키밍방법과 장치
JP2004336808A (ja) 映像の検索方法および装置
JP2000069420A (ja) 映像処理装置
KR100516814B1 (ko) 비디오신호분석및저장장치와방법
KR20040102962A (ko) Pvr에서의 하이라이트 스트림 생성 장치 및 그 방법
JP2007201815A (ja) 表示装置、再生装置、方法、及びプログラム
KR20050033100A (ko) 검색정보를 기록한 정보저장매체, 검색항목간의 이동재생방법 및 재생장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080711

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081010

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20081020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090109

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090608

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110701

R150 Certificate of patent or registration of utility model

Ref document number: 4778231

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140708

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees