JP4778231B2

JP4778231B2 - ビデオシーケンスに対してインデックス付けするシステムおよび方法

Info

Publication number: JP4778231B2
Application number: JP2004531568A
Authority: JP
Inventors: チャン，トン
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2002-08-30
Filing date: 2003-08-29
Publication date: 2011-09-21
Anticipated expiration: 2023-08-29
Also published as: WO2004021221A2; AU2003260112A1; US20040041831A1; EP1532553A2; JP2005538584A; WO2004021221A3; US7483624B2

Description

[発明の背景]
［発明の分野］
本発明は、ビデオシーケンスに対するインデックス付けに関し、詳細には、音声／ビデオシーケンスをエピソードおよびハイライトへとインデックス付けするシステムおよび方法に関する。

［背景情報］
映画およびホームムービーでは、ビデオの長いシーケンスをセグメントに分割することにより、たとえばそれらの内容をカタログ化しビデオシーケンスにおけるそれらの位置にインデックス付けすることが望まれる。このカタログ化およびインデックス付けにより、ビデオシーケンス内の特定のシーンおよびイベントの位置を迅速に特定することができる。ビデオの長いシーケンスにおける問題は、専門家によって制作されるビデオよりホームビデオにおいて発生する場合が多い。これは、後者が、より小さい、編集されたシーケンスによって作成されることが多いためである。

ビデオシーケンスは、「ショット」として知られるより短いビデオセグメントに区分化することができる。ビデオショットの開始および終了は、カメラのスイッチのオンおよびオフであるカメラブレイクによって線が引かれる。すなわち、カメラのスイッチオンは、ショットの開始を示し、カメラのスイッチオフは、ショットの終了を示す。これらの問題については、開示内容のすべてを引用することにより本願明細書の一部をなす、Gulrukh Ahanger他著、「A Survey of Technologies for Parsing and Indexing Digital Video」、Journal of Visual Communication and Image Representation, March 1996, 28-43においてより深く論考されている。ビデオシーケンスの音声に基づく分類のさまざまな方法については、開示内容のすべてを引用することにより本願明細書の一部をなす、Kenichi Minami他著、「Video Handling with Music and Speech Detection」、IEEE Multimedia, July-Sept 1998, 17-25と、Tong ZhangおよびC.-C. Jay Kuo著、「Content-Based Audio Classification and Retrieval for Audiovisual Data Parsing」、69-81（Kluwer Academic Publishers 2001）とに開示されている。

ビデオシーケンスをショットに分割するために、ビデオシーケンス内のカメラブレイクを検出することができる１つの技法においては、ビデオフレームヒストグラムが用いられる。ビデオシーケンスを構成する各フレームから、ピクセルレベルのヒストグラムが得られる。すなわち、各色が０から２５５までの範囲の数値と関連付けされるカラーパレットに対応させて、フレームの各ピクセルを、そのピクセルの色に基づいてヒストグラムの特定の列に追加する。シーケンスにおいて連続したフレーム対に対応するそれぞれのヒストグラムを比較し、２つの連続したヒストグラムの間の差が特定の最大値を超える場合、シーンまたはイベントの変化が発生したと仮定し、新たなショットとされる。この技法は、開示内容のすべてを引用することにより本願明細書の一部をなす、HongJiang Zhang他著、「Developing Power Tools for Video Indexing and Retrieval」、2185 SPIE 140-149(8/94)と、HongJiang Zhang他著、「Automatic Partitioning of Full-Motion Video」、Institute of Systems Science, National University of Singapore, 10-28(1993)と、においてより詳細に論考されている。

既存の技法を使用して規定されるショットは、特にこれらの技法がホームビデオに採用される場合、非常に長くなる傾向がある。ホームビデオは、子供が裏庭で遊んでいる様子かまたは結婚式等、１つのイベントについて撮影されることが多い。かかるビデオでは、カメラは長期間（たとえば、子供が遊んでいる様子またはスポーツ大会を記録するために）動作させたままにする場合がある。さらに、背景が同じであることが多く、そのため連続したフレームのヒストグラムが類似することが多い。したがって、所望のシーンまたはイベントの位置を特定するために、ビデオの長いシーケンスが全体として保持されかつ閲覧される。

［発明の概要］
例示的な実施形態は、ビデオ情報と音声情報とから構成され、少なくとも１つのカメラにより作成されているビデオシーケンスに対していくつかインデックス付けする方法およびシステムであって、ビデオシーケンスを、カメラが動いている間に作成された動きセグメントとカメラが固定位置にある間に作成された静止セグメントとに分離するステップと、各静止セグメントを、該静止セグメントの各々における音声情報の変化に基づいてエピソードに分割するステップと、ビデオシーケンスに対して、該ビデオシーケンスに含まれるエピソードの開始または終了のうちの少なくとも一方を記す識別子にインデックス付けするステップとを含む、ビデオシーケンスに対してインデックス付けする方法およびシステムに関する。

代替的な実施形態は、ビデオ情報と音声情報とから構成されるビデオシーケンスに対していくつかインデックス付けするコンピュータベースシステムであって、ビデオシーケンスを記録するように構成されたビデオカメラと、ビデオシーケンスに関連するカメラの動きの変化を検出し、ビデオシーケンスを動きセグメントと静止セグメントとに分離し、各分離された静止セグメント内で、音声情報の変化を検出し、該音声情報の検出された変化に基づき分離された静止セグメントをエピソードに分割し、ビデオシーケンスにおける分割されたエピソードの少なくとも開始または終了にマーキングするようになっているプロセッサとを具備するコンピュータベースシステムを提供する。

また、追加の実施形態は、ビデオ情報と音声情報とから構成され、少なくとも１つのカメラにより作成されているビデオシーケンスに対していくつかインデックス付けするソフトウェアが符号化されたコンピュータ読取可能媒体であって、ビデオシーケンスを、カメラが動いている間に作成された動きセグメントとカメラが固定位置にある間に作成された静止セグメントとに分離するステップと、各静止セグメントを、その静止セグメントの各々における音声情報の変化に基づいてエピソードに分割するステップと、ビデオシーケンスに含まれるエピソードの開始または終了のうちの少なくとも１つを示す識別子によってインデックス付けするステップとを含むインデックス付けソフトウェアが符号化された、コンピュータ読取可能媒体に関する。

本発明のこれらおよび他の目的および利点は、添付図面を考慮して以下の好ましい実施形態の説明を読むことにより、当業者にはより明らかとなりかつより容易に理解されよう。

［好ましい実施形態の詳細な説明］
図１は、本発明の例示的な実施形態によるビデオシーケンスに対してインデックス付けするコンピュータベースシステムを示す。特に、図１は、ビデオシーケンスを記録するように構成されたビデオカメラ１０４を示す。ビデオカメラ１０４は、画像と関連する音声情報とを取り込んで記録し得る任意のアナログおよび／またはデジタルデバイスとすることができる。記録されたビデオシーケンスを、任意に、テープ１０６等の別個の記憶媒体上に記録してもよく、かつ／またはビデオ記憶デバイス１０８に格納してもよい。

例示的な実施形態によれば、ビデオシーケンスは、コンピュータ１００のプロセッサに入力される。コンピュータ１００のプロセッサは、単一プロセッサであってもよく、または第１、第２および第３のプロセッサ等の複数のプロセッサであってもよく、その場合、各プロセッサは、例示的な実施形態のソフトウェアまたは命令により、ビデオシーケンスに関連するカメラの動きの変化を検出しそのビデオシーケンスを動きセグメントと静止セグメントとに分離し、各分離された静止セグメント内の音声情報の変化を検出して、その分離された静止セグメントを音声情報の検出された変化に基づいてエピソードに分割し、かつ／またはビデオシーケンスの分割されたエピソードの少なくとも開始または終了をマーキングするようになっている。複数のプロセッサを、コンピュータ１００内で統合してもよく、または図１に示さない別個のコンピュータで構成してもよい。コンピュータ１００は、ビデオシーケンスに対してエピソードにインデックス付けするためにコンピュータ１００における処理を制御し指示するソフトウェアまたは命令が符号化されたコンピュータ読取可能媒体を含んでもよい。

コンピュータ１００は、ビデオシーケンスのインデックス付けの処理を制御しかつ／またはその結果を表示するディスプレイ、グラフィカルユーザインタフェース、パーソナルコンピュータ１０２等を有してもよい。ビデオシーケンスは、１つ以上のカメラ１０４によって取り込まれるイベントのライブ表現から、かつ／またはテープ１０６等の媒体に格納されたイベントの先の記録からコンピュータ１００に入力される。図１においては、カメラ１０４およびテープ１０６からのビデオシーケンスが、処理のためにコンピュータ１００に入力される前にビデオ記憶媒体１０８に格納されるように示すが、ビデオ情報は、例示的な実施形態の特徴を損なうことなくカメラ１０４および／またはビデオテープ１０６から直接コンピュータ１００に入力してもよい。実施形態は、ビデオシーケンスに対して、カメラ１０４によってイベントが記録されるのと同時にまたはその直後にインデックス付けすることができるように、カメラ１０４自体の中で実施してもよい。

コンピュータ１００は、ビデオ記憶媒体１０８から入力されるビデオシーケンスに対してインデックス付けする際に使用する１つ以上のカメラ動きモードと音声情報タイプとを、パラメータとして受け入れる。カメラ動きモードと音声情報タイプとを、それぞれ記憶デバイス１１０および１１２に存在するように示すが、この制御情報はまた、例示的な実施形態の特徴を損なうことなく、コンピュータ１００のメモリまたは代替記憶媒体に存在してもよい。図２に示す処理ステップに関してより詳細に説明するように、例示的な実施形態は、カメラ動きモードと音声情報タイプとを利用して、入来するビデオシーケンスを、動きセグメント１１４と、静止セグメント１１６と、エピソード１１８と、ハイライト１１９と、抽出されたビデオフレーム１２０とに解析する。これらをすべて、１つ以上の記憶デバイス１２２に格納してもよい。例示的な実施形態の制御下で動作するプロセッサは、さらに、抽出されたビデオフレーム１２４と、インデックス付けされたビデオシーケンス１２６と、抽出されたビデオフレーム１２８の１つ以上のストーリーボードとを出力する。これらをすべて、図１に示すような１つ以上の記憶デバイスに格納してもよい。さらに、インデックス付けプロセスの結果と処理されたビデオシーケンスのすべてまたは一部のプリントされた画像を、プリンタ１３０に出力してもよい。

ここで図１および図２を参照して、ビデオシーケンスにインデックス付けするシステムの例示的な実施形態について説明する。図２は、ビデオ情報と音声情報とから構成されるビデオシーケンスに対してインデックス付けを行う方法を示し、コンピュータ１００が処理するために、ステップ２００において、ビデオ記憶媒体１０８、ビデオテープ１０６および／またはカメラ１０４からビデオシーケンスを受け取ることから開始する。カメラ１０４によって記録されテープ１０６およびビデオ記憶媒体１０８に格納されたビデオシーケンス情報は、ビデオ情報と音声情報との両方から構成されてもよい。ステップ２０２において、受け取られたビデオシーケンスが、カメラブレイクまたはカメラのオン／オフイベントに従ってビデオシーケンスを区分化する１つ以上の既知の技法に従ってショットに分割される。明確なカメラのスイッチのオン・オフに加えて、フェードイン、フェードアウトおよびディゾルブ等のカメラ遷移の検出もまたカメラブレイクを示すものとみなすことができる。

例示的な実施形態は、ビデオシーケンス全体に対してインデックス付けする目的でビデオシーケンスを構成するショットのすべてを処理してもよいが、短いショットに比べて長いショットのほうが複数のイベントの画像および音声を含む可能性が高いため、ユーザは、通常、短いショットより長いショットにインデックス付けすることに関心がある。例示的な実施形態によってインデックス付けされるショットの長さは、ユーザによりインタフェース１０２を介して選択可能であり、たとえば、最低２分間、または他の任意の指定された時間フレーム等、時間の関数として設定してもよい。このように、ユーザは、インデックス付けシステムの処理を、ビデオシーケンスの内容に合わせるようにカスタマイズしてもよい。たとえば、ビデオの内容が、バスケットボールの試合等、比較的高アクションのイベントである場合、ショットの長さを３０秒間等のより短い間隔で設定してもよい。記録されたイベントが、バンドのコンサート等、低アクションのイベントである場合、３分間といったより長い時間の長いショットを設定してもよい。その後、このシステムは、最低３分間または任意の他の指定された時間フレームを超えるショット等、ビデオシーケンスにおける次に利用可能な適格な長いショットを選択する。

そして、ステップ２０６において、ビデオシーケンスの選択された長いショットを、動きセグメントと静止セグメントとに分離する。動きセグメントは、パニング（左方または右方）、チルティング（上方または下方）またはズーミング（インまたはアウト）の動作等、１つの動きのモードにあるカメラ１０４によって作成されまたは記録されたビデオシーケンスを表す。静止セグメントは、カメラ１０４が特定のシーンで固定され、または旋回することなく三脚上に固定された場合等、カメラ１０４が静止していた間に作成されたビデオシーケンスセグメントである。別法として、システムは、カメラ１０４におけるごく少ない移動も静止状態としてみなすことにより、カメラ１０４の振動、振れおよび揺れに対応する。システムは、記憶デバイス１１０に格納されたカメラ動きモード情報に基づき、ショットのビデオ情報内におけるカメラの動きの変化を検出することにより、選択されたビデオショットをセグメントに分離する。フレームヒストグラムまたは動きベクトルを比較すること等により、カメラの動きを検出する既知の技法を使用して、システムは、ビデオショット内のカメラ動きモードが１つの動きモードから別の動きモードに変化することを判断することができ、それにより、動きセグメントおよび／または静止セグメントの終了および／または開始を示すことができる。

代替実施形態では、選択された「ゆっくりした」動きを検出しそれを利用して、インデックス付けのためにビデオショットをセグメントに分割してもよい。左方から右方へのゆっくりしたパニング等、ゆっくりしたカメラの動きは、カメラの操作者が、興味あるシーンまたは対象を記録しており、したがってインデックス付けされる将来関心が持たれるビデオショットセグメントを作成していることを示す可能性がある。この実施形態では、さまざまなカメラの動きの相対的なまたは実際の速度を、インタフェース１０２を介してパラメータとして選択してもよい。システムは、カメラの動きに対して選択された「ゆっくりした」速度にまでカメラの動きの速度が減速したことをビデオショット内において検出すると、その位置のビデオショットを静止セグメントの開始と同様に処理し、システムが動きセグメントから静止セグメントへの変化を検出した場合に上述した方法と同様にセグメントにフラグを立てる。このように、高速な動きセグメントから低速な動きセグメントを分離してもよい。

セグメント分離を制御するために、インタフェース１０２を介して記憶デバイス１１０からさまざまなカメラ動きモードをパラメータとして選択してもよい。例示的なカメラ動きモードには、限定されないが、左方にパンすること、右方にパンすること、上方にチルトすること、下方にチルトすること、ズームインすることおよびズームアウトすることが含まれる。本システムはまた、動きモードから静止（すなわち固定位置）に、かつ静止位置から動きモードにカメラの動きが変化する時を検出してもよい。ビデオシーケンスセグメントに関する例示的な実施形態の処理を、たとえば左右にパンすることのみをカメラの動きの変化を示すものとして検出する等、カメラの動きモードの特定のサブセットを検出するように制御してもよい。かかるシステムの応用においては、カメラの動きの変化が左方にパンすることから右方にパンすることへの変化を示すものとして検出されるたびに、システムは、１つの動きのセグメントの終了と別の動きのセグメントの開始とをマーキングする。カメラの動きの変化が、左方にパンする状態から静止の状態であるとして検出されると、システムは、動きセグメントの終了と静止セグメントの開始とにフラグを立てる。分離された動きセグメントと静止セグメントとを、任意にそれぞれ記憶デバイス１１４および１１６に格納する。

ステップ２０６で生成された各静止セグメントから、ステップ２０８においてビデオフレームを抽出することによりセグメントの内容を識別し、それを記憶デバイス１２０に保持する。分離された静止セグメントを表すものとして抽出されるべき特定のビデオフレームは、静止セグメントの第１のフレームであること、静止セグメントの中間フレームであること、または静止セグメントのシーンを代表するフレームであることに基づいて、インタフェース１０２を介してパラメータの選択によりユーザによって選択されることができる。例示的な実施形態によって抽出された各ビデオフレームはタイムスタンプ等の参照情報を保持する。抽出されたフレームは、この参照情報が発生したビデオストリームの位置に再びリンクされまたはインデックス付けされることができる。このリンクは、時間的すなわち年代的な参照により達成してもよく、ビデオシーケンスに対するフレーム番号マッピング等を含んでもよい。このように、ユーザが後に再生するために、ビデオシーケンスにおいて分離された静止セグメントの開始の位置をマーキングする。参照情報を、抽出されたビデオフレームとともに記憶デバイス１２０に保持してもよく、またはシステムの発明的な特徴を損なうことなく別個の記憶ファイルまたはデータベースに格納してもよい。

ステップ２１０において、各静止セグメント内の音声情報の変化を検出することにより、各静止セグメントをエピソードと呼ばれるより小さいセグメントに分割する。たとえば、演奏または同窓会のビデオにおける音楽および発話の開始および停止と同様に、拍手および喝采の音声を使用して、ビデオセグメントを個々のエピソードに分割してもよい。音声信号においていかに内容の変化を検出することができるかに関する論考については、HongJiang Zhang他著の「Developing Power Tools for Video Indexing and Parsing」と題する論文に記載されている。ステップ２１０において、システムは、記憶デバイス１１２に保持されているさまざまな音声情報タイプを呼び出し、インタフェース１０２を介してパラメータとして選択される場合も含めて、静止セグメント内に音声情報の変化が検出されるといつでも新たなエピソードにマーキングする。音声情報タイプの例には、音楽、発話および環境的音声（口笛、合図の音、拍手および喝采等）がある。各静止セグメントの開始において、そのセグメントの開始において見つけられた音声情報のタイプおよび音量を確定し記録する。たとえば、静止セグメントは、音楽が相対的音声レベル５で演奏される時に開始してもよい。システムは、静止セグメント内で相対的なレベルだけまたは選択された割合だけ音声レベルの上昇または下降を検出すると、ビデオセグメントにおいてエピソードの変化が発生したことを示し、先のエピソードの終了と新たなエピソードの開始とにマーキングすることにより静止セグメントを分割する。それに相応して、セグメントの音声情報が、音楽から発話へ、発話から拍手へ、または音楽から静寂へ等、音声情報タイプを変化させる場合、システムは、それに応じてエピソードの終了および開始を示す。たとえば、エピソードの変化を示すために音声情報タイプとして「静寂」が選択されなかった場合、システムは、静止ビデオセグメントにおける静寂の発生をエピソードの変化を示すものとして認識しない。

音声情報が複数の音声情報タイプから同時に構成することができるため、本システムは、分割プロセスにおける音声タイプの混合を可能にする。たとえば、ビデオセグメント上の音声情報が器楽と歌と拍手との組合せである場合、音声情報のこれら３つのタイプのうちのいずれかのものが終了すると、本システムに対し、音声情報のこの変化が、エピソードの終了および新たなエピソードの開始を示すものであるというように命令してもよい。それに相応して、既存の音声ストリームに対する追加の音声タイプを検出することを利用して、エピソードの終了および開始を示してもよい。新たなエピソードを検出すると、本システムは、ステップ２１２において、新たなエピソードの開始におけるビデオフレームを抽出し、それを記憶デバイス１２０に格納する。任意には、エピソードシーケンス全体、すなわち開始から終了までを記憶デバイス１１８に格納する。

代替実施形態では、ステップ２１４においてビデオシーケンスにおけるハイライトを検出し、後続する位置特定および再生のためにそれにインデックス付けする。このように、たとえば、バスケットボールの試合における重要なゴールを、ビデオシーケンスからの位置特定および再生を容易にするためにインデックス付けしてもよい。この実施形態では、本システムに対し、ビデオストリームの静止セグメント、動きセグメントおよび／またはエピソードセグメントを処理するように命令してもよい。ステップ２１０に関して上述したようなセグメントの音声情報を処理する間、本システムに対し、ビデオシーケンス内のハイライトを表すことができるいくつかの音声情報タイプを検出するように命令してもよい。この命令または制御を、ユーザが、インタフェース１０２を利用して、プロセッサ１００がビデオシーケンスにおけるハイライトの発生を検出するために使用する記憶デバイス１１２からの特定の音声情報タイプを選択することにより、行ってもよい。ハイライト音声情報タイプの例には、拍手、喝采、合図および口笛、叫びおよび音声レベルの上昇がある。

ビデオセグメントにおける選択されたハイライト音声情報タイプを検出すると、システムは、ビデオセグメントにおけるハイライトイベントの開始であるとする。検出されたハイライト音声情報が、終了し、または所定音量レベルまたは割合レベルだけ減少すると、本システムは、ビデオセグメントにおけるハイライトイベントの終了であるとする。イベントまたはハイライトは、任意の対応するハイライト音声情報が検出される前にビデオシーケンスで開始する可能性があるため、本システムは、ハイライトの開始をビデオシーケンス上でのハイライト音声情報の検出の数秒または数分前であるように早めるオプションを有する。このように、ハイライトシーケンス全体にマーキングし、その後その位置を特定し閲覧することができる。ステップ２１６において、システムは、ハイライトセグメントの開始におけるビデオフレームを抽出し、そのビデオフレームを記憶デバイス１２０に格納する。任意に、ハイライトセグメントを開始から終了まで記憶デバイス１１９に格納する。

ステップ２１８において、ビデオシーケンスを識別子によってインデックス付けすることにより、システムによりビデオシーケンス上で検出された各エピソードおよびハイライトの開始および終了をマーキングする。別法として、エピソードに対するビデオシーケンスのインデックス付けは、ステップ２１０の一部として発生してもよく、ハイライトに対するビデオシーケンスのインデックス付けは、ステップ２１４の一部として発生してもよい。インデックス付けされたビデオシーケンスは、デバイス１２６に格納することも任意である。例示的な実施形態では、ビデオシーケンスに対して、各抽出されたビデオフレームにリンクされたポインタのマッピングによってインデックス付けを行う。この実施形態では、エピソードの開始またはハイライトの開始を表す各抽出されたビデオフレームは、ビデオシーケンスにおけるビデオフレームの時間的な位置に再びリンクするそのフレームに関連するポインタを有する。ポインタは、ビデオシーケンスにおける抽出されたビデオフレームの時間的な位置を示すタイムスタンプを含んでもよい。ストーリーボードの一部として表示されるビデオフレームをクリックすることにより、本システムは、ビデオシーケンス内の対応するセグメントにリンクし、ユーザが閲覧するために選択されたエピソードまたはハイライトを再生する。

ステップ２２０において、ステップ２０８、２１２および２１６において抽出されたビデオフレームを、ビデオシーケンスショットの縮約された要約ビデオスナップショットを提供するためだけでなく、ビデオシーケンスの所望の部分にアクセスしそれらを表示するために用いるインデックス付けツールとして、ストーリーボード内に配置してもよい。１つのかかるストーリーボードは、ビデオシーケンスを表すために個々のタイムスタンプに基づいて、ステップ２０８、２１２および２１６において本システムによって抽出された各ビデオフレームから構成された、年代的、すなわち時間的ビデオシーケンスとすることができる。異なる抽出されたビデオフレームのストーリーボードを、ビデオシーケンスのより高いレベルの表現を形成するために構築してもよい。このより高いレベルのストーリーボードを利用して、ビデオシーケンスの内容の要約を表示してもよい。エピソードのみおよび／またはハイライトのみから構成されるストーリーボードを構築してもよい。例示的な実施形態によって作成されるストーリーボードの各々を、後に処理しかつ／またはアクセスするために記憶デバイスまたは媒体１２８に格納してもよい。ユーザは、低速にストリーミングするビデオシーケンスの形式でまたは個々のフレームの表示として各ストーリーボードを閲覧することができる。ユーザは、ストーリーボードの任意の表示されたフレームを選択しまたはクリックしてもよく、システムは、選択されたビデオフレームで開始する対応するビデオストリームの位置を特定しそのストリームをユーザに対して再生する。ビデオストリームの再生は、オリジナル入力ビデオシーケンスから行うことも、記憶デバイス１２６に格納された、インデックス付けされたビデオシーケンスから行うことも、デバイス１１８に格納されたエピソードシーケンスから行うことも、かつ／またはデバイス１１９に格納されたハイライトシーケンスから行うこともできる。

選択されたエピソードまたはハイライトの再生は、いくつかの技法のうちの１つによるものとすることもできる。たとえば、エピソードまたはハイライトの再生を、選択されたエピソードまたはハイライトに限定することができ、その場合、選択されたエピソードまたはハイライトの最後のフレームにおいて再生を停止することができる。別法として、再生は繰返しとすることもでき、選択されたエピソードまたはハイライトを繰返し再生することができる。さらに、再生を連続的であるように選択することができ、その場合、再生は、閲覧者が停止させるまでまたはシーケンスの終了に達するまで、選択されたエピソードまたはハイライトの終了を越えてビデオシーケンスの残りの部分まで続けることができる。

ステップ２２２において、システムは、ビデオシーケンスの最後の長いショットがセグメントにおよびさらにエピソードにまでなるように処理されたか否かを判断するために確認する。オリジナルのビデオシーケンスのさらなる長いショットがまだ処理されていない場合、システムは、ステップ２０４において、ビデオシーケンスにおける次に長いビデオショットを選択し、ステップ２０６で開始して上述したようにショットの解析を開始する。

本発明の好ましい実施形態について示し説明したが、当業者には、添付の特許請求の範囲およびそれらの等価物において範囲が規定される本発明の原理および精神から逸脱することなく、これらの実施形態に対し変更を行ってもよい、ということが理解されよう。

本発明の例示的な実施形態によるビデオシーケンスにインデックス付けするシステムのコンポーネント図である。ビデオシーケンスにインデックス付けする例示的な方法のブロックフローチャートである。

Claims

ビデオ情報と音声情報とから構成され、少なくとも１つのカメラ（１０４）によって作成されるビデオシーケンス（１０８）に対していくつかインデックス付けする方法であって、
前記ビデオシーケンス（１０８）を、前記カメラ（１０４）が動いている間に作成された動きセグメント（１１４）と該カメラ（１０４）が固定位置にある間に作成された静止セグメント（１１６）とに分離するステップと、
各静止セグメント（１１６）を、該静止セグメント（１１６）の各々における前記音声情報の変化に基づいてエピソード（１１８）に分割するステップと、
前記動きセグメントにおける前記音声情報と前記分割されたエピソード（１１８）の前記音声情報とにおいて１つ以上のイベントを検出するステップであって、各検出されたイベントは、前記ビデオシーケンス（１０８）におけるハイライト（１１９）を示す、検出するステップと、
前記ビデオシーケンス（１０８）に対して、該ビデオシーケンス（１０８）に含まれるエピソード（１１８）の開始または終了のうちの少なくとも一方を記す識別子によりインデックス付けするステップと
を含み、
前記インデックス付けするステップは、
前記ビデオシーケンス（１０８）内において、前記分離された動きセグメント（１１４）と、前記分割されたエピソード（１１８）と、前記検出されたハイライト（１１９）との各々の始めのビデオフレーム（１２４）を選択するステップと、
各選択されたビデオフレーム（１２４）に対応する前記ビデオシーケンス（１０８）における位置に対しポインタをマッピングするステップと、
前記選択されたビデオフレーム（１２４）のストーリーボード（１２８）を構築するステップと
を含む、ビデオシーケンスに対するインデックス付け方法。
前記ビデオシーケンス（１０８）を分離するステップは、
前記ビデオ情報におけるカメラの動きの変化を検出するステップと、
前記ビデオストリーム（１０８）の前記カメラの動きの変化が検出された位置にマーキングするステップと
をさらに含む、請求項１に記載のビデオシーケンスに対するインデックス付け方法。
前記カメラの動きの変化は、カメラの複数の動きモードのうちのあるものからカメラの複数の動きモードのうちの別のものへの変化を含む、請求項２に記載のビデオシーケンスに対するインデックス付け方法。
前記カメラの動きの速度に基づき、前記動きセグメント（１１４）を高速動きセグメントと低速動きセグメントとに分離するステップと、
各低速動きセグメントを、該低速動きセグメントの各々における前記音声情報の変化に基づいてエピソード（１１８）に分割するステップと、
を含む請求項２に記載のビデオシーケンスに対するインデックス付け方法。
分割されたエピソード（１１８）各々の始めと、検出されたハイライト（１１９）各々の始めとにおいて、前記ビデオシーケンス（１０８）からビデオフレーム（１２４）を抽出するステップを含む請求項１に記載のビデオシーケンスに対するインデックス付け方法。
該選択されたビデオフレーム（１２４）に関連するタイムスタンプに従って、前記選択されたビデオフレーム（１２４）に各ポインタをマッピングする請求項１に記載のビデオシーケンスに対するインデックス付け方法。
ビデオ情報と音声情報とから構成されるビデオシーケンス（１０８）に対して請求項１に記載の方法によりインデックス付けするコンピュータベースシステムであって、
ビデオシーケンス（１０８）を記録するように構成されたビデオカメラ（１０４）と、
前記ビデオシーケンス（１０８）に関連するカメラの動きの変化を検出し、該ビデオシーケンス（１０８）を動きセグメント（１１４）と静止セグメント（１１６）とに分離し、
各分離された静止セグメント（１１６）内で、音声情報の変化を検出し、該音声情報の検出された変化に基づき前記分離された静止セグメント（１１６）をエピソード（１１８）に分割し、
前記ビデオシーケンス（１０８）における分割されたエピソード（１１８）の少なくとも開始または終了にマーキングする
ようになっているプロセッサ（１００）と、
を具備するコンピュータベースシステム。