JP2009246829A

JP2009246829A - 動画像シーン分割装置および動画像シーン分割方法

Info

Publication number: JP2009246829A
Application number: JP2008093239A
Authority: JP
Inventors: Toshiaki Kamiko; 俊晃上向; Keiichiro Hoashi; 啓一郎帆足; Yasuhiro Takishima; 康弘滝嶋
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2008-03-31
Filing date: 2008-03-31
Publication date: 2009-10-22
Anticipated expiration: 2028-03-31
Also published as: JP4949307B2

Abstract

【課題】静止画像から抽出した色配置特徴量等の映像特徴量に基づいたクラスタリングと静止画像の時系列に基づいたクラスタリングを併用することにより、明確なシーン切り替えなどの編集が施されていないコンシューマ生成動画像であっても、元の動画像データの内容に合った静止画像クラスタリングを行うことを図る。
【解決手段】動画像分割部５は、映像データから抽出された静止画像の映像特徴量に基づいて該静止画像を複数の上位クラスタのいずれかに分類し、該静止画像の時系列に従って上位クラスタを下位クラスタに分割し、該静止画像の時系列に従って下位クラスタを統合し、シーン分割数分のクラスタを生成する。
【選択図】図１

Description

本発明は、動画像シーン分割装置および動画像シーン分割方法に関する。

近年、動画像共有サービスが注目されている。この動画像共有サービスでは、一般のユーザがデジタルカメラやビデオカメラ、あるいは、携帯電話機に内蔵されたカメラを利用して撮影した動画像データを、インターネット経由で動画像共有サーバに投稿（アップロード）することにより、他のユーザに対して該動画像データを公開することができる。動画像データの投稿者は、該動画像データに関するジャンルを表すカテゴリ情報や内容を表すタイトルやコメント文、「タグ」と呼ばれる投稿者が自由に付与できるキーワードも動画像データと併せて動画像共有サーバに登録する。一方、視聴者は、そのように登録されたさまざまな動画像データをいつでも自由に視聴することができる。このとき、視聴者は、投稿者が登録したカテゴリ情報、タイトル、コメント、タグに対してテキスト検索したり、視聴回数や人気度などのランキング一覧を利用したり、動画像データから切り出された１枚の静止画像を見るなどして、視聴したい動画像データを検索する。

ところが、動画像共有サーバに登録された動画像データは大量に存在するため、その中から所望の動画像データを効率的に検索することは容易ではない。視聴者は、各動画像データに付与されたわずかなテキスト情報と１枚の静止画像を元に、その内容を推測しなくてはならず、一般には実際に動画像データを再生してみないと、それが所望の内容の動画像データであるかどうかを確認することができない。一般的に、動画像共有サーバに投稿される動画像データの再生時間は、数秒から１０分以上までさまざまであるが、例えば再生時間が１分の動画像データに対して、数秒でその内容を理解できるようになると、検索効率は格段に向上すると考えられる。

そのため、動画像データの内容を理解できるように、動画像データを要約する技術に対するニーズが高い。既存の動画像共有サービスで提示される１枚の静止画として、元の動画像データの内容を最も象徴的に表している１枚を選択することは、動画像要約技術の１つである。しかし、１秒間に１５枚や３０枚の静止画像が存在する動画像データにおいて、最適な１枚を選択することは非常に難しく、一般的な動画像共有サービスでは、動画像データに対してフレーム番号が先頭から一定数番目（例えば、３０番目など）といった、すべての動画像データに対して一定の位置の静止画像を選択することが殆どである。このため、動画像データの内容理解のためには、動画像データの要約コンテンツに対して複数枚の静止画像を含めることが望ましい。ただし、要約コンテンツに利用する複数枚の静止画像を動画像データから抽出するにあたって、その抽出する範囲をどのようにして決定するかが課題となる。

ここで、一般のユーザが動画像共有サーバに投稿する動画像データは、カメラで撮影したままの特に何も加工されていない場合が殆どである。このような撮影時から特に何も加工されていない動画像データのことを以下、「コンシューマ生成動画像」と称する。コンシューマ生成動画像には、明確なシーン切り替えなどの編集が施されていないという特徴がある。一方、プロフェッショナルが放送用機材を利用して撮影・制作したＴＶ番組などの映像を「プロフェッショナル生成動画像」と称する。これらは、きれいな画質で、手ブレがなく、字幕付加やカット割りなど丁寧に編集されている。

特許文献１に記載の従来技術１では、動画像データとしてプロフェッショナル生成動画像の一つである字幕付き映像を対象とし、字幕が表示される箇所を意味的に重要なシーンとしてその箇所に該当する静止画像を切り出し、その切り出した静止画像を一覧表示可能な要約コンテンツを生成している。

非特許文献１に記載の従来技術２では、コンシューマ生成動画像を対象とし、動画像データを構成する静止画像群の時間的な順序は考慮せず、静止画像の色配置特徴量のみを利用して静止画像のクラスタリングを行い、その分類した各クラスタ内の静止画群を１つのショットとして抽出し、その抽出したショット群を元の動画像データの類似度判定用画像データとして動画像データ間の類似度を判定している。
特開平７−１９２００３号公報帆足啓一郎、上向俊晃、松本一則、菅谷史昭，"フレームクラスタリングを利用したCGM動画像コンテンツ検索手法の提案"，社団法人電子情報通信学会，電子情報通信学会技術研究報告，Vol.107，No.281，pp．87-92，２００７年１０月１８日

しかし、上述した従来技術１では、字幕付き映像であるプロフェッショナル生成動画像を対象としており、字幕が挿入されていないコンシューマ生成動画像に対して適用することができない。
従来技術２では、コンシューマ生成動画像を対象として動画像データ間の類似度を判定することはできるが、要約コンテンツに適用する点が考慮されていない。また、従来技術２によって分類した各クラスタは、時間情報を考慮せず、色配置特徴量のみに基づいてクラスタリングされたものであるため、各クラスタ内には、元の動画像データでは時間的に離散している静止画像が混在する。このため、それぞれのクラスタを元の動画像データの内容に合致した１つのシーンとみなすには不十分である。さらに、要約用コンテンツ生成用として各クラスタから一体どの静止画像を抽出すればよいのかの判断も難しい。

本発明は、このような事情を考慮してなされたもので、その目的は、静止画像から抽出した色配置特徴量等の映像特徴量に基づいたクラスタリングと静止画像の時系列に基づいたクラスタリングを併用することにより、明確なシーン切り替えなどの編集が施されていないコンシューマ生成動画像であっても、元の動画像データの内容に合った静止画像クラスタリングを行うことのできる動画像シーン分割装置および動画像シーン分割方法を提供することにある。

上記の課題を解決するために、本発明に係る動画像シーン分割装置は、映像データから静止画像を抽出する静止画抽出手段と、静止画像から映像特徴量を抽出する静止画特徴量抽出手段と、前記映像データのシーン分割数を決定するシーン分割数決定手段と、前記映像データから抽出された静止画像の映像特徴量に基づいて、該静止画像を複数の上位クラスタのいずれかに分類する特徴量クラスタリング手段と、前記映像データから抽出された静止画像の時系列に従って、前記上位クラスタを下位クラスタに分割する時系列情報クラスタリング手段と、前記映像データから抽出された静止画像の時系列に従って前記下位クラスタを統合し、前記シーン分割数分のクラスタを生成するクラスタ統合手段と、を備えたことを特徴とする。

本発明に係る動画像シーン分割装置においては、前記特徴量クラスタリング手段は、前記映像データから抽出された静止画像の映像特徴量に基づいて、該静止画像をクラスタに分類する手段と、該クラスタの特徴を表す代表ベクトルを生成する手段と、前記代表ベクトルに基づいてクラスタ間の類似度を算出する手段と、該類似度の高いクラスタ同士を統合する手段と、を有することを特徴とする。

本発明に係る動画像シーン分割装置においては、前記時系列情報クラスタリング手段は、上位クラスタ内の静止画像群に対して、時系列順で隣接している静止画像同士を同じ下位クラスタに含めることを特徴とする。

本発明に係る動画像シーン分割装置においては、前記クラスタ統合手段は、下位クラスタの特徴を表す代表ベクトルを生成する手段と、該代表ベクトルに基づいて下位クラスタ間の類似度を算出する手段と、類似度の高い下位クラスタ同士を統合する手段とを有することを特徴とする。

本発明に係る動画像シーン分割装置においては、前記クラスタ統合手段は、元々同じ上位クラスタに属していた２つの下位クラスタに挟まれている下位クラスタが存在する場合、それら３つの下位クラスタを同じクラスタに統合することを特徴とする。

本発明に係る動画像シーン分割装置においては、前記クラスタ統合手段は、前記隣接する３つの下位クラスタ内の全ての静止画像の総数に対して、それら隣接する３つの下位クラスタの中で異なる上位クラスタに属していた下位クラスタ内の静止画像数の割合が一定値以下である場合にのみ、前記３つの下位クラスタの統合を行なうことを特徴とする。

本発明に係る動画像シーン分割装置においては、前記類似度は前記代表ベクトル間の距離に基づいて求められ、該距離が近いものほど類似度が高いと判定することを特徴とする。

本発明に係る動画像シーン分割装置においては、前記シーン分割数は、前記映像データ内の静止画像の総数に対する割合で規定されることを特徴とする。

本発明に係る動画像シーン分割装置においては、前記下位クラスタ同士を統合する際、静止画像の映像特徴量に応じてシーン分割数を変更する手段を設けたことを特徴とする。

本発明に係る動画像シーン分割装置においては、時系列的に連続する静止画間の映像特徴量の変化量を求め、その変化量が一定量より大きい場合にシーン分割数を増加させることを特徴とする。

本発明に係る動画像シーン分割装置においては、時系列的に連続する静止画間の映像特徴量の変化量を求め、その変化量が一定量より小さい場合にシーン分割数を減少させることを特徴とする。

本発明に係る動画像シーン分割装置においては、前記映像特徴量は色配置特徴量であることを特徴とする。

本発明に係る動画像シーン分割方法は、映像データを複数のシーンに分割する動画像シーン分割方法であって、映像データから静止画像を抽出する静止画抽出ステップと、静止画像から映像特徴量を抽出する静止画特徴量抽出ステップと、前記映像データのシーン分割数を決定するシーン分割数決定ステップと、前記映像データから抽出された静止画像の映像特徴量に基づいて、該静止画像を複数の上位クラスタのいずれかに分類する特徴量クラスタリングステップと、前記映像データから抽出された静止画像の時系列に従って、前記上位クラスタを下位クラスタに分割する時系列情報クラスタリングステップと、前記映像データから抽出された静止画像の時系列に従って前記下位クラスタを統合し、前記シーン分割数分のクラスタを生成するクラスタ統合ステップとを含むことを特徴とする。

本発明によれば、静止画像から抽出した色配置特徴量等の映像特徴量に基づいたクラスタリングと静止画像の時系列に基づいたクラスタリングを併用することにより、明確なシーン切り替えなどの編集が施されていないコンシューマ生成動画像であっても、元の動画像データの内容に合った静止画像クラスタリングを行うことができるという効果が得られる。

以下、図面を参照し、本発明の実施形態について説明する。
図１は、本発明の一実施形態に係る動画像シーン分割装置１の概略構成を示すブロック図である。図１において、映像入力部３は、動画像データベース（動画像ＤＢ）２から、動画像シーン分割処理の対象となる映像データ（以下、元動画像データと称する）を読み出す。映像解析部４は、元動画像データから、映像の特徴を表す映像特徴量を抽出し、解析する。動画像分割部５は、映像解析部４による解析結果に基づいて元動画像データをシーンに分割する。

なお、動画像ＤＢ２は、動画像シーン分割装置１に具備されていてもよく、或いは、外部の記憶装置に設けられていてもよい。例えば、動画像シーン分割装置１が、外部の動画像データベースサーバから通信回線を介して動画像シーン分割処理の対象となる映像データをダウンロードするように構成してもよい。

次に、本実施形態に係る動画像シーン分割装置１の動作を説明する。

本実施形態では特にコンシューマ生成動画像を動画像シーン分割処理の対象とした場合に、より顕著な効果が得られるようにしている。コンシューマ生成動画像は、撮影時から特に何も加工されていない映像データであり、テレビ番組などのプロフェッショナル生成動画像のように、複数の動画像を結合するなどのシーン切り替えや、キャプション（文字列）やロゴ等の挿入などの編集がまったく行われていない。つまり、コンシューマ生成動画像は、プロフェッショナル生成動画像の生成時の映像解析処理などで利用されているシーン１つ分に相当する。又、コンシューマ生成動画像は、高機能なビデオカメラではなく、携帯電話機のカメラやデジタルカメラなどの撮影機器で撮影されたものが多いため、解像度が低い、画質が悪い、手ブレが多いという問題がある。また、テレビ番組などのプロフェッショナル生成動画像のように、シーン切り替えがあったり、キャプションが挿入されていたりすれば、そのシーンごと、あるいは、キャプションが表示されている箇所を判別する方法が利用できるが、コンシューマ生成動画像ではそのような基点となる付加情報が少ない。

本実施形態では、コンシューマ生成動画像の要約コンテンツを以下の基準で生成することを前提にしている。
・元動画像データから抽出した静止画像（以下、要約用静止画と称する）を利用する。
・要約コンテンツの視聴時間は短く、データサイズは小さい。つまり、要約用静止画の枚数は少ない方がよい。
・要約用静止画は、時間的に離散している箇所から抽出する。つまり、要約コンテンツは、元動画像データのある区間から抜き出した連続した静止画像ではなく、元動画像データを分割したシーンから抽出した静止画像のみを利用する。
・元動画像データの内容に応じて、要約用静止画数、又は、シーン分割数を変動させる。
・要約コンテンツを視聴するだけで元動画像データの内容をある程度理解できるようにするため、元動画像データの内容をよく表している箇所、注目すべき箇所が要約用静止画に含まれるようにする。

本実施形態では、コンシューマ生成動画像に対して動画像シーン分割処理を行う際に、上記の基準を考慮する。その分割された各シーンは要約用静止画を抽出する範囲となり、各シーンから要約用静止画が抽出される。

本実施形態では、非特許文献１に開示されるフレームクラスタリング処理に基づいて、静止画像群を分類する。該フレームクラスタリング処理は、候補静止画像群の時間的な順序を排除して、色配置特徴量のみを利用して静止画像群を分類する。要約用静止画を抽出する場合においても、離散的に静止画像を抽出する際、その抽出範囲をある程度決めた上で、その範囲内でより適した静止画像を抽出することが有効である。そこで、本実施形態においても、色配置特徴量を利用することで、元々編集されておらず、範囲分割されていないコンシューマ生成動画像に対して、大まかな範囲分割を行うことができる。

以下、本実施形態に係る動画像シーン分割装置１が行う動画像シーン分割処理について詳細に説明する。図２は、本実施形態に係る動画像シーン分割処理の手順を示すフローチャートである。

図２において、ステップＳ１では、映像入力部３が動画像ＤＢ２から動画像シーン分割処理の対象となる映像データ（元動画像データ）を読み出す。

ステップＳ２では、映像解析部４がシーン分割数を決定する。本実施形態では、「シーン分割数＝要約用静止画数」とし、元動画像データの全フレーム数αに対してフレーム数β（但し、β≧１）だけ要約用静止画を選択するものとする。

ここで、元動画像データのフレームレート（フレーム／秒：ｆｐｓ）がθ（例えば、３０ｆｐｓ）である場合、元動画像データの再生時間はα／θ［秒］となる。さらに、要約コンテンツ再生時に、要約用静止画の１枚１枚をω［秒］（例えば、２秒）ずつ表示する場合、β枚の要約用静止画の再生時間はβ×ω［秒］となる。このとき、「α×θ」と「β×ω」の間で次式の関係が成り立つように、βの値を決定する。
（β×ω）／（α／θ）＝１／Ｒ
但し、Ｒは定数である。
例えば、Ｒ＝６、θ＝３０、ω＝２とすると、αとβの関係は次式で表される。
β／α＝１／３６０
この関係式から、元動画像データの全フレーム数αに対して要約用静止画数β（シーン分割数）が算出される。

ステップＳ３では、映像解析部４が元動画像データから候補静止画像を抽出する。候補静止画像は、後述する特徴量抽出処理の対象となる。元動画像データの特徴量抽出にあたって、元動画像データに含まれる全静止画像を使用すると、計算量が非常に多くなる。そこで、本実施形態では、元動画像データから一定間隔で候補静止画像を抽出する。例えば、フレーム数が１０の間隔で候補静止画像を抽出する。

ステップＳ４では、映像解析部４が候補静止画像を対象にして色配置特徴量を抽出する。色配置特徴量抽出処理では、候補静止画像毎に、静止画像の色配置特徴量を算出する。色配置特徴量は、静止画像内の色の空間的な分布を表す。

ステップＳ５，Ｓ６では、動画像分割部５がステップＳ４で求めた候補静止画像の色配置特徴量と候補静止画像の時系列に基づいて候補静止画像のクラスタリング（分類）を行う。このクラスタリングによって、最終的に、クラスタ数をステップＳ２で求めたシーン分割数βにする。該クラスタリング処理については後述する。

ステップＳ７では、動画像分割部５がステップＳ５，Ｓ６による候補静止画像の分類結果を出力する。

次に、上記ステップＳ５，Ｓ６に係るクラスタリング処理を説明する。

まず、ステップＳ４で求めた候補静止画像の色配置特徴量に基づいて候補静止画像を分類する。ここでのクラスタ数は、ステップＳ２で求めたシーン分割数βである。この色配置特徴量に基づいた特徴量クラスタリング処理の手順が図３に示されている。この特徴量クラスタリング処理は、非特許文献１に開示されるフレームクラスタリング処理に相当する。

図３において、ステップＳ１１からＳ１４では、全ての候補静止画像の色配置特徴量を対象にして、各色配置特徴量のクラスタと該クラスタの特徴を表すクラスタ代表ベクトルを生成する。各クラスタには該当する１つの色配置特徴量のみが所属データとなる。従って、この時点のクラスタ代表ベクトルは、該当する１つの色配置特徴量を表している。

次いで、ステップＳ１５では、クラスタの全組合せについて、クラスタ間距離を算出する。クラスタＣ_ｉ，Ｃ_ｊ間の距離ｄ（Ｃ_ｉ，Ｃ_ｊ）は次式で表される。
ｄ（Ｃ_ｉ，Ｃ_ｊ）＝Ｅ（Ｃ_ｉ∪Ｃ_ｊ）−Ｅ（Ｃ_ｉ）−Ｅ（Ｃ_ｊ）
但し、Ｅ（Ｃ_ｉ）はクラスタＣ_ｉの全ての所属データとクラスタＣ_ｉのクラスタ代表ベクトルとの距離の二乗の総和である。

次いで、ステップＳ１６では、クラスタ間の距離ｄ（Ｃ_ｉ，Ｃ_ｊ）が最小である２つのクラスタを１つのクラスタに統合する。ステップＳ１７では、該統合されたクラスタのクラスタ代表ベクトルを生成する。ステップＳ１８では、クラスタが１つに集約されたか否かを判定する。ステップＳ１５からＳ１８の処理はクラスタが１つに集約されるまで繰り返し行われる。

クラスタが１つに集約された場合、ステップＳ１９でクラスタを抽出する。ここでは、ステップＳ２で求めたシーン分割数βだけ（つまり、クラスタ数＝β）クラスタを抽出する。抽出するクラスタは、クラスタ統合時の距離の閾値を設定しておき、該閾値以下の距離で統合されたクラスタの内からβ個を選択する。この結果、β個のクラスタが得られる。

図４に、特徴量クラスタリング処理の結果として得られたβ個（ここではβ＝３）の要約用クラスタの例（＃１，＃２，＃３）が示されている。図４中の各要約用クラスタの所属データに付された番号は、候補静止画像の識別番号である。該識別番号は候補静止画像の時系列の順番で付されている。図４の例では、特徴量クラスタリング処理によって、３０枚の候補静止画像（識別番号が１番から３０番）が、３つの要約用クラスタ＃１，＃２，＃３に分類されている。この特徴量クラスタリング処理結果のクラスタを以下、「上位クラスタ」と称する。

次に、候補静止画像の時系列に基づいて上位クラスタを分類しなおす（時系列情報クラスタリング処理）。上位クラスタ内には、元動画像データにおいて時間的に離散している静止画像が混在する。そこで、上位クラスタに対して、全ての候補静止画像を時系列順に並べ直す。このとき、同じ上位クラスタに所属していた静止画像群が離散する場合は、別々のクラスタとして割り当て直す。具体的には、各上位クラスタ内の静止画像群に対して、時系列順で隣接している静止画像同士を同じクラスタ（以下、「下位クラスタ」と称する）に分類し、下位クラスタを生成する。そして、全ての下位クラスタに対して時系列順に並べ直す。

図４の例に対して時系列情報クラスタリング処理を行った結果が図５に示されている。図５において、図４の要約用クラスタ＃１内の静止画像群が６個の下位クラスタ１０１，１０３，１０５，１０９，１１１及び１１３に分類し直されている。又、要約用クラスタ＃２内の静止画像群が５個の下位クラスタ１０２，１０６，１０８，１１０及び１１５に分類し直されている。又、要約用クラスタ＃３内の静止画像群が４個の下位クラスタ１０４，１０７，１１２及び１１４に分類し直されている。この結果、合計１５個の下位クラスタ１０１〜１１５が生成されている。そして、その下位クラスタ１０１〜１１５は候補静止画像の時系列順に並べられている。

次に、下位クラスタを統合する（下位クラスタ統合処理）。時系列情報クラスタリング処理の結果、下位クラスタの個数はシーン分割数βよりも多くなる。このため、クラスタ数がシーン分割数βになるまで、下位クラスタを統合する。この下位クラスタ統合処理では、隣接する下位クラスタ間で類似度を算出し、その類似関係に基づいて下位クラスタを統合していく。具体的には、全ての下位クラスタに対して、類似度の高い下位クラスタ同士から順番に統合していき、最終的にβ個のクラスタが形成されるまで統合を繰り返す。

例えば、ある下位クラスタに属する候補静止画像の特徴量と、該下位クラスタの特徴量を求める。候補静止画像の特徴量は、当該候補静止画像の色配置特徴量をベクトル化した特徴量ベクトルとする。下位クラスタの特徴量は、当該下位クラスタに属する静止画像の特徴量ベクトルの代表ベクトルとする。代表ベクトルとしては、例えば、下位クラスタに属する全ての静止画像の特徴量ベクトルを平均したベクトルが利用できる。次いで、全ての隣接する下位クラスタの組を対象にして、隣接する下位クラスタの各代表ベクトル間の類似度を算出する。類似度は、例えば、２つの代表ベクトルに対するｃｏｓ関数などにより算出する。次いで、その類似度が最小である２つの代表ベクトルに対応する下位クラスタ同士を統合する。これをクラスタ数がβとなるまで繰り返す。

なお、下位クラスタ統合処理の具体例として、上記した下位クラスタの代表ベクトルを利用する方法の他には、例えば、３つ以上隣接する下位クラスタが元々属していた上位クラスタに関する情報、および、下位クラスタに属する静止画像に関する情報に基づいて統合する方法が挙げられる。この方法では、元々同じ上位クラスタに属していた２つの下位クラスタに挟まれている下位クラスタが存在する場合、それら３つの下位クラスタは同じクラスタに統合する。例えば、図５において、元々同じ上位クラスタ（要約用クラスタ＃１）に属していた２つの下位クラスタ１０１及び１０３に挟まれている下位クラスタ１０２が存在するので、それら３つの下位クラスタ１０１，１０２及び１０３を統合して１つのクラスタとする。但し、隣接する３つの下位クラスタ内の全ての候補静止画像の総数に対して、それら隣接する３つの下位クラスタの中で異なる上位クラスタに属していた下位クラスタ内の静止画像数の割合が一定値以下である場合にのみ適用することとする。

また、下位クラスタ統合処理において、シーン分割数βを変更するようにしてもよい。シーン分割数βは、図２のステップＳ２において要約コンテンツのフレーム数（再生時間）に応じて決定されるが、下位クラスタ同士を統合する際、候補静止画像の特徴量に応じてβの値を変更する処理を設ける。このシーン分割数変更処理では、時系列的に連続する候補静止画間の色配置特徴量の変化量を求め、その変化量が一定量より大きい場合にβの値を増加させる。一方、その変化量が一定量より小さい場合にはβの値を減少させる。これにより、例えば、カメラや被写体が大きく動く場面など、変化の激しい箇所における要約用静止画数を比較的多くし、一方、風景の場面など、殆ど変化のない箇所における要約用静止画数を比較的少なくすることができ、要約コンテンツに対して効果的に元動画像データの内容を盛り込むことができる。この結果、ユーザが要約コンテンツを視聴した際に、元動画像データの内容の理解を深めることに寄与することができる。なお、シーン分割数変更処理は、候補静止画の全てに対して適用してもよいし、或いは、一部の下位クラスタに含まれる候補静止画像のみに適用してもよい。

以上が図２のステップＳ５，Ｓ６に係るクラスタリング処理の詳細な説明である。上述の下位クラスタ統合処理の結果として得られたβ個のクラスタが、元動画像データを分割した各シーン（β個）にそれぞれ対応する。

次に、本実施形態に係る動画像シーン分割処理によって分割された各シーンから、要約コンテンツに利用する静止画像を抽出する方法についていくつかの実施例を挙げる。
［静止画像選択方法の実施例１］
シーン内の中央位置にある静止画像を要約用静止画として抽出する。
［静止画像選択方法の実施例２］
シーン内で、人物の顔が映っている静止画像を要約用静止画として抽出する。このとき、複数の静止画像が候補となる場合には最も顔らしい静止画像を抽出する。
［静止画像選択方法の実施例３］
シーン内の静止画像群に対して代表となる静止画像を要約用静止画として抽出する。例えば、シーン内の全ての静止画像の特徴量ベクトルについての平均ベクトルを求め、該平均ベクトルに最も近い特徴量ベクトルを有する静止画像を抽出する。

上述したように本実施形態によれば、静止画像から抽出した色配置特徴量に基づいたクラスタリングと静止画像の時系列に基づいたクラスタリングを併用することにより、明確なシーン切り替えなどの編集が施されていないコンシューマ生成動画像であっても、元動画像データの内容に合った静止画像クラスタリングを行うことができるという効果が得られる。

又、本実施形態によれば以下に示すような効果が得られる。
（１）コンシューマ生成動画像から意味的に価値のあるシーンに分割できる。
（２）分割されたシーンに含まれる静止画像を抽出するなどにより、コンシューマ生成動画像に対する要約コンテンツを生成することができる。この結果、コンシューマ生成動画像を大量に蓄積した動画像共有システムにおいて、コンシューマ生成動画像そのものを再生することなく、要約コンテンツを再生するだけで、該コンシューマ生成動画像の内容を理解できることができ、コンシューマ生成動画像の効率的な検索の実現に寄与することができる。
（３）元動画像データに対して、少数の静止画像を利用したデータサイズの小さい要約コンテンツを生成することができるので、携帯電話機など、通信速度の遅い通信機器であっても、要約コンテンツを高速にダウンロードして視聴することができる。

なお、上述した実施形態では、映像特徴量として色配置特徴量を利用したが、動き情報、音声情報などの他の映像特徴量を利用することも可能である。

また、本実施形態に係る動画像シーン分割装置１は、専用のハードウェアにより実現されるものであってもよく、あるいはパーソナルコンピュータ等のコンピュータシステムにより構成され、図１に示される動画像シーン分割装置１の各部の機能を実現するためのプログラムを実行することによりその機能を実現させるものであってもよい。

また、その動画像シーン分割装置１には、周辺機器として入力装置、表示装置等（いずれも図示せず）が接続されるものとする。ここで、入力装置とはキーボード、マウス等の入力デバイスのことをいう。表示装置とはＣＲＴ（Cathode Ray Tube）や液晶表示装置等のことをいう。
また、上記周辺機器については、動画像シーン分割装置１に直接接続するものであってもよく、あるいは通信回線を介して接続するようにしてもよい。

以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。

本発明の一実施形態に係る動画像シーン分割装置１の概略構成を示すブロック図である。同実施形態に係る動画像シーン分割処理の手順を示すフローチャートである。同実施形態に係る特徴量クラスタリング処理の手順を示すフローチャートである。同実施形態に係る特徴量クラスタリング処理の結果の例である。同実施形態に係る時系列情報クラスタリング処理の結果の例である。

符号の説明

１…動画像シーン分割装置、２…動画像データベース、３…映像入力部、４…映像解析部、５…動画像分割部

Claims

映像データから静止画像を抽出する静止画抽出手段と、
静止画像から映像特徴量を抽出する静止画特徴量抽出手段と、
前記映像データのシーン分割数を決定するシーン分割数決定手段と、
前記映像データから抽出された静止画像の映像特徴量に基づいて、該静止画像を複数の上位クラスタのいずれかに分類する特徴量クラスタリング手段と、
前記映像データから抽出された静止画像の時系列に従って、前記上位クラスタを下位クラスタに分割する時系列情報クラスタリング手段と、
前記映像データから抽出された静止画像の時系列に従って前記下位クラスタを統合し、前記シーン分割数分のクラスタを生成するクラスタ統合手段と、
を備えたことを特徴とする動画像シーン分割装置。
前記特徴量クラスタリング手段は、
前記映像データから抽出された静止画像の映像特徴量に基づいて、該静止画像をクラスタに分類する手段と、
該クラスタの特徴を表す代表ベクトルを生成する手段と、
前記代表ベクトルに基づいてクラスタ間の類似度を算出する手段と、
該類似度の高いクラスタ同士を統合する手段と、
を有することを特徴とする請求項１に記載の動画像シーン分割装置。
前記時系列情報クラスタリング手段は、上位クラスタ内の静止画像群に対して、時系列順で隣接している静止画像同士を同じ下位クラスタに含めることを特徴とする請求項１又は請求項２に記載の動画像シーン分割装置。
前記クラスタ統合手段は、
下位クラスタの特徴を表す代表ベクトルを生成する手段と、
該代表ベクトルに基づいて下位クラスタ間の類似度を算出する手段と、
類似度の高い下位クラスタ同士を統合する手段と、
を有することを特徴とする請求項１から請求項３のいずれか１項に記載の動画像シーン分割装置。
前記クラスタ統合手段は、元々同じ上位クラスタに属していた２つの下位クラスタに挟まれている下位クラスタが存在する場合、それら３つの下位クラスタを同じクラスタに統合することを特徴とする請求項１から請求項４のいずれか１項に記載の動画像シーン分割装置。
前記クラスタ統合手段は、前記隣接する３つの下位クラスタ内の全ての静止画像の総数に対して、それら隣接する３つの下位クラスタの中で異なる上位クラスタに属していた下位クラスタ内の静止画像数の割合が一定値以下である場合にのみ、前記３つの下位クラスタの統合を行なうことを特徴とする請求項５に記載の動画像シーン分割装置。
前記類似度は前記代表ベクトル間の距離に基づいて求められ、該距離が近いものほど類似度が高いと判定することを特徴とする請求項２又は請求項４に記載の動画像シーン分割装置。
前記シーン分割数は、前記映像データ内の静止画像の総数に対する割合で規定されることを特徴とする請求項１から請求項７のいずれか１項に記載の動画像シーン分割装置。
前記下位クラスタ同士を統合する際、静止画像の映像特徴量に応じてシーン分割数を変更する手段を設けたことを特徴とする請求項１から請求項７のいずれか１項に記載の動画像シーン分割装置。
時系列的に連続する静止画間の映像特徴量の変化量を求め、その変化量が一定量より大きい場合にシーン分割数を増加させることを特徴とする請求項９に記載の動画像シーン分割装置。
時系列的に連続する静止画間の映像特徴量の変化量を求め、その変化量が一定量より小さい場合にシーン分割数を減少させることを特徴とする請求項９又は請求項１０に記載の動画像シーン分割装置。
前記映像特徴量は色配置特徴量であることを特徴とする請求項１から請求項１１のいずれか１項に記載の動画像シーン分割装置。
映像データを複数のシーンに分割する動画像シーン分割方法であって、
映像データから静止画像を抽出する静止画抽出ステップと、
静止画像から映像特徴量を抽出する静止画特徴量抽出ステップと、
前記映像データのシーン分割数を決定するシーン分割数決定ステップと、
前記映像データから抽出された静止画像の映像特徴量に基づいて、該静止画像を複数の上位クラスタのいずれかに分類する特徴量クラスタリングステップと、
前記映像データから抽出された静止画像の時系列に従って、前記上位クラスタを下位クラスタに分割する時系列情報クラスタリングステップと、
前記映像データから抽出された静止画像の時系列に従って前記下位クラスタを統合し、前記シーン分割数分のクラスタを生成するクラスタ統合ステップと、
を含むことを特徴とする動画像シーン分割方法。