JP2009246829A - 動画像シーン分割装置および動画像シーン分割方法 - Google Patents

動画像シーン分割装置および動画像シーン分割方法 Download PDF

Info

Publication number
JP2009246829A
JP2009246829A JP2008093239A JP2008093239A JP2009246829A JP 2009246829 A JP2009246829 A JP 2009246829A JP 2008093239 A JP2008093239 A JP 2008093239A JP 2008093239 A JP2008093239 A JP 2008093239A JP 2009246829 A JP2009246829 A JP 2009246829A
Authority
JP
Japan
Prior art keywords
moving image
scene
clusters
cluster
still images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008093239A
Other languages
English (en)
Other versions
JP4949307B2 (ja
Inventor
Toshiaki Kamiko
俊晃 上向
Keiichiro Hoashi
啓一郎 帆足
Yasuhiro Takishima
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2008093239A priority Critical patent/JP4949307B2/ja
Publication of JP2009246829A publication Critical patent/JP2009246829A/ja
Application granted granted Critical
Publication of JP4949307B2 publication Critical patent/JP4949307B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Abstract

【課題】静止画像から抽出した色配置特徴量等の映像特徴量に基づいたクラスタリングと静止画像の時系列に基づいたクラスタリングを併用することにより、明確なシーン切り替えなどの編集が施されていないコンシューマ生成動画像であっても、元の動画像データの内容に合った静止画像クラスタリングを行うことを図る。
【解決手段】動画像分割部5は、映像データから抽出された静止画像の映像特徴量に基づいて該静止画像を複数の上位クラスタのいずれかに分類し、該静止画像の時系列に従って上位クラスタを下位クラスタに分割し、該静止画像の時系列に従って下位クラスタを統合し、シーン分割数分のクラスタを生成する。
【選択図】図1

Description

本発明は、動画像シーン分割装置および動画像シーン分割方法に関する。
近年、動画像共有サービスが注目されている。この動画像共有サービスでは、一般のユーザがデジタルカメラやビデオカメラ、あるいは、携帯電話機に内蔵されたカメラを利用して撮影した動画像データを、インターネット経由で動画像共有サーバに投稿(アップロード)することにより、他のユーザに対して該動画像データを公開することができる。動画像データの投稿者は、該動画像データに関するジャンルを表すカテゴリ情報や内容を表すタイトルやコメント文、「タグ」と呼ばれる投稿者が自由に付与できるキーワードも動画像データと併せて動画像共有サーバに登録する。一方、視聴者は、そのように登録されたさまざまな動画像データをいつでも自由に視聴することができる。このとき、視聴者は、投稿者が登録したカテゴリ情報、タイトル、コメント、タグに対してテキスト検索したり、視聴回数や人気度などのランキング一覧を利用したり、動画像データから切り出された1枚の静止画像を見るなどして、視聴したい動画像データを検索する。
ところが、動画像共有サーバに登録された動画像データは大量に存在するため、その中から所望の動画像データを効率的に検索することは容易ではない。視聴者は、各動画像データに付与されたわずかなテキスト情報と1枚の静止画像を元に、その内容を推測しなくてはならず、一般には実際に動画像データを再生してみないと、それが所望の内容の動画像データであるかどうかを確認することができない。一般的に、動画像共有サーバに投稿される動画像データの再生時間は、数秒から10分以上までさまざまであるが、例えば再生時間が1分の動画像データに対して、数秒でその内容を理解できるようになると、検索効率は格段に向上すると考えられる。
そのため、動画像データの内容を理解できるように、動画像データを要約する技術に対するニーズが高い。既存の動画像共有サービスで提示される1枚の静止画として、元の動画像データの内容を最も象徴的に表している1枚を選択することは、動画像要約技術の1つである。しかし、1秒間に15枚や30枚の静止画像が存在する動画像データにおいて、最適な1枚を選択することは非常に難しく、一般的な動画像共有サービスでは、動画像データに対してフレーム番号が先頭から一定数番目(例えば、30番目など)といった、すべての動画像データに対して一定の位置の静止画像を選択することが殆どである。このため、動画像データの内容理解のためには、動画像データの要約コンテンツに対して複数枚の静止画像を含めることが望ましい。ただし、要約コンテンツに利用する複数枚の静止画像を動画像データから抽出するにあたって、その抽出する範囲をどのようにして決定するかが課題となる。
ここで、一般のユーザが動画像共有サーバに投稿する動画像データは、カメラで撮影したままの特に何も加工されていない場合が殆どである。このような撮影時から特に何も加工されていない動画像データのことを以下、「コンシューマ生成動画像」と称する。コンシューマ生成動画像には、明確なシーン切り替えなどの編集が施されていないという特徴がある。一方、プロフェッショナルが放送用機材を利用して撮影・制作したTV番組などの映像を「プロフェッショナル生成動画像」と称する。これらは、きれいな画質で、手ブレがなく、字幕付加やカット割りなど丁寧に編集されている。
特許文献1に記載の従来技術1では、動画像データとしてプロフェッショナル生成動画像の一つである字幕付き映像を対象とし、字幕が表示される箇所を意味的に重要なシーンとしてその箇所に該当する静止画像を切り出し、その切り出した静止画像を一覧表示可能な要約コンテンツを生成している。
非特許文献1に記載の従来技術2では、コンシューマ生成動画像を対象とし、動画像データを構成する静止画像群の時間的な順序は考慮せず、静止画像の色配置特徴量のみを利用して静止画像のクラスタリングを行い、その分類した各クラスタ内の静止画群を1つのショットとして抽出し、その抽出したショット群を元の動画像データの類似度判定用画像データとして動画像データ間の類似度を判定している。
特開平7−192003号公報 帆足啓一郎、上向俊晃、松本一則、菅谷 史昭,"フレームクラスタリングを利用したCGM動画像コンテンツ検索手法の提案",社団法人電子情報通信学会,電子情報通信学会技術研究報告,Vol.107,No.281,pp.87-92,2007年10月18日
しかし、上述した従来技術1では、字幕付き映像であるプロフェッショナル生成動画像を対象としており、字幕が挿入されていないコンシューマ生成動画像に対して適用することができない。
従来技術2では、コンシューマ生成動画像を対象として動画像データ間の類似度を判定することはできるが、要約コンテンツに適用する点が考慮されていない。また、従来技術2によって分類した各クラスタは、時間情報を考慮せず、色配置特徴量のみに基づいてクラスタリングされたものであるため、各クラスタ内には、元の動画像データでは時間的に離散している静止画像が混在する。このため、それぞれのクラスタを元の動画像データの内容に合致した1つのシーンとみなすには不十分である。さらに、要約用コンテンツ生成用として各クラスタから一体どの静止画像を抽出すればよいのかの判断も難しい。
本発明は、このような事情を考慮してなされたもので、その目的は、静止画像から抽出した色配置特徴量等の映像特徴量に基づいたクラスタリングと静止画像の時系列に基づいたクラスタリングを併用することにより、明確なシーン切り替えなどの編集が施されていないコンシューマ生成動画像であっても、元の動画像データの内容に合った静止画像クラスタリングを行うことのできる動画像シーン分割装置および動画像シーン分割方法を提供することにある。
上記の課題を解決するために、本発明に係る動画像シーン分割装置は、映像データから静止画像を抽出する静止画抽出手段と、静止画像から映像特徴量を抽出する静止画特徴量抽出手段と、前記映像データのシーン分割数を決定するシーン分割数決定手段と、前記映像データから抽出された静止画像の映像特徴量に基づいて、該静止画像を複数の上位クラスタのいずれかに分類する特徴量クラスタリング手段と、前記映像データから抽出された静止画像の時系列に従って、前記上位クラスタを下位クラスタに分割する時系列情報クラスタリング手段と、前記映像データから抽出された静止画像の時系列に従って前記下位クラスタを統合し、前記シーン分割数分のクラスタを生成するクラスタ統合手段と、を備えたことを特徴とする。
本発明に係る動画像シーン分割装置においては、前記特徴量クラスタリング手段は、前記映像データから抽出された静止画像の映像特徴量に基づいて、該静止画像をクラスタに分類する手段と、該クラスタの特徴を表す代表ベクトルを生成する手段と、前記代表ベクトルに基づいてクラスタ間の類似度を算出する手段と、該類似度の高いクラスタ同士を統合する手段と、を有することを特徴とする。
本発明に係る動画像シーン分割装置においては、前記時系列情報クラスタリング手段は、上位クラスタ内の静止画像群に対して、時系列順で隣接している静止画像同士を同じ下位クラスタに含めることを特徴とする。
本発明に係る動画像シーン分割装置においては、前記クラスタ統合手段は、下位クラスタの特徴を表す代表ベクトルを生成する手段と、該代表ベクトルに基づいて下位クラスタ間の類似度を算出する手段と、類似度の高い下位クラスタ同士を統合する手段とを有することを特徴とする。
本発明に係る動画像シーン分割装置においては、前記クラスタ統合手段は、元々同じ上位クラスタに属していた2つの下位クラスタに挟まれている下位クラスタが存在する場合、それら3つの下位クラスタを同じクラスタに統合することを特徴とする。
本発明に係る動画像シーン分割装置においては、前記クラスタ統合手段は、前記隣接する3つの下位クラスタ内の全ての静止画像の総数に対して、それら隣接する3つの下位クラスタの中で異なる上位クラスタに属していた下位クラスタ内の静止画像数の割合が一定値以下である場合にのみ、前記3つの下位クラスタの統合を行なうことを特徴とする。
本発明に係る動画像シーン分割装置においては、前記類似度は前記代表ベクトル間の距離に基づいて求められ、該距離が近いものほど類似度が高いと判定することを特徴とする。
本発明に係る動画像シーン分割装置においては、前記シーン分割数は、前記映像データ内の静止画像の総数に対する割合で規定されることを特徴とする。
本発明に係る動画像シーン分割装置においては、前記下位クラスタ同士を統合する際、静止画像の映像特徴量に応じてシーン分割数を変更する手段を設けたことを特徴とする。
本発明に係る動画像シーン分割装置においては、時系列的に連続する静止画間の映像特徴量の変化量を求め、その変化量が一定量より大きい場合にシーン分割数を増加させることを特徴とする。
本発明に係る動画像シーン分割装置においては、時系列的に連続する静止画間の映像特徴量の変化量を求め、その変化量が一定量より小さい場合にシーン分割数を減少させることを特徴とする。
本発明に係る動画像シーン分割装置においては、前記映像特徴量は色配置特徴量であることを特徴とする。
本発明に係る動画像シーン分割方法は、映像データを複数のシーンに分割する動画像シーン分割方法であって、映像データから静止画像を抽出する静止画抽出ステップと、静止画像から映像特徴量を抽出する静止画特徴量抽出ステップと、前記映像データのシーン分割数を決定するシーン分割数決定ステップと、前記映像データから抽出された静止画像の映像特徴量に基づいて、該静止画像を複数の上位クラスタのいずれかに分類する特徴量クラスタリングステップと、前記映像データから抽出された静止画像の時系列に従って、前記上位クラスタを下位クラスタに分割する時系列情報クラスタリングステップと、前記映像データから抽出された静止画像の時系列に従って前記下位クラスタを統合し、前記シーン分割数分のクラスタを生成するクラスタ統合ステップとを含むことを特徴とする。
本発明によれば、静止画像から抽出した色配置特徴量等の映像特徴量に基づいたクラスタリングと静止画像の時系列に基づいたクラスタリングを併用することにより、明確なシーン切り替えなどの編集が施されていないコンシューマ生成動画像であっても、元の動画像データの内容に合った静止画像クラスタリングを行うことができるという効果が得られる。
以下、図面を参照し、本発明の実施形態について説明する。
図1は、本発明の一実施形態に係る動画像シーン分割装置1の概略構成を示すブロック図である。図1において、映像入力部3は、動画像データベース(動画像DB)2から、動画像シーン分割処理の対象となる映像データ(以下、元動画像データと称する)を読み出す。映像解析部4は、元動画像データから、映像の特徴を表す映像特徴量を抽出し、解析する。動画像分割部5は、映像解析部4による解析結果に基づいて元動画像データをシーンに分割する。
なお、動画像DB2は、動画像シーン分割装置1に具備されていてもよく、或いは、外部の記憶装置に設けられていてもよい。例えば、動画像シーン分割装置1が、外部の動画像データベースサーバから通信回線を介して動画像シーン分割処理の対象となる映像データをダウンロードするように構成してもよい。
次に、本実施形態に係る動画像シーン分割装置1の動作を説明する。
本実施形態では特にコンシューマ生成動画像を動画像シーン分割処理の対象とした場合に、より顕著な効果が得られるようにしている。コンシューマ生成動画像は、撮影時から特に何も加工されていない映像データであり、テレビ番組などのプロフェッショナル生成動画像のように、複数の動画像を結合するなどのシーン切り替えや、キャプション(文字列)やロゴ等の挿入などの編集がまったく行われていない。つまり、コンシューマ生成動画像は、プロフェッショナル生成動画像の生成時の映像解析処理などで利用されているシーン1つ分に相当する。又、コンシューマ生成動画像は、高機能なビデオカメラではなく、携帯電話機のカメラやデジタルカメラなどの撮影機器で撮影されたものが多いため、解像度が低い、画質が悪い、手ブレが多いという問題がある。また、テレビ番組などのプロフェッショナル生成動画像のように、シーン切り替えがあったり、キャプションが挿入されていたりすれば、そのシーンごと、あるいは、キャプションが表示されている箇所を判別する方法が利用できるが、コンシューマ生成動画像ではそのような基点となる付加情報が少ない。
本実施形態では、コンシューマ生成動画像の要約コンテンツを以下の基準で生成することを前提にしている。
・元動画像データから抽出した静止画像(以下、要約用静止画と称する)を利用する。
・要約コンテンツの視聴時間は短く、データサイズは小さい。つまり、要約用静止画の枚数は少ない方がよい。
・要約用静止画は、時間的に離散している箇所から抽出する。つまり、要約コンテンツは、元動画像データのある区間から抜き出した連続した静止画像ではなく、元動画像データを分割したシーンから抽出した静止画像のみを利用する。
・元動画像データの内容に応じて、要約用静止画数、又は、シーン分割数を変動させる。
・要約コンテンツを視聴するだけで元動画像データの内容をある程度理解できるようにするため、元動画像データの内容をよく表している箇所、注目すべき箇所が要約用静止画に含まれるようにする。
本実施形態では、コンシューマ生成動画像に対して動画像シーン分割処理を行う際に、上記の基準を考慮する。その分割された各シーンは要約用静止画を抽出する範囲となり、各シーンから要約用静止画が抽出される。
本実施形態では、非特許文献1に開示されるフレームクラスタリング処理に基づいて、静止画像群を分類する。該フレームクラスタリング処理は、候補静止画像群の時間的な順序を排除して、色配置特徴量のみを利用して静止画像群を分類する。要約用静止画を抽出する場合においても、離散的に静止画像を抽出する際、その抽出範囲をある程度決めた上で、その範囲内でより適した静止画像を抽出することが有効である。そこで、本実施形態においても、色配置特徴量を利用することで、元々編集されておらず、範囲分割されていないコンシューマ生成動画像に対して、大まかな範囲分割を行うことができる。
以下、本実施形態に係る動画像シーン分割装置1が行う動画像シーン分割処理について詳細に説明する。図2は、本実施形態に係る動画像シーン分割処理の手順を示すフローチャートである。
図2において、ステップS1では、映像入力部3が動画像DB2から動画像シーン分割処理の対象となる映像データ(元動画像データ)を読み出す。
ステップS2では、映像解析部4がシーン分割数を決定する。本実施形態では、「シーン分割数=要約用静止画数」とし、元動画像データの全フレーム数αに対してフレーム数β(但し、β≧1)だけ要約用静止画を選択するものとする。
ここで、元動画像データのフレームレート(フレーム/秒:fps)がθ(例えば、30fps)である場合、元動画像データの再生時間はα/θ[秒]となる。さらに、要約コンテンツ再生時に、要約用静止画の1枚1枚をω[秒](例えば、2秒)ずつ表示する場合、β枚の要約用静止画の再生時間はβ×ω[秒]となる。このとき、「α×θ」と「β×ω」の間で次式の関係が成り立つように、βの値を決定する。
(β×ω)/(α/θ)=1/R
但し、Rは定数である。
例えば、R=6、θ=30、ω=2とすると、αとβの関係は次式で表される。
β/α=1/360
この関係式から、元動画像データの全フレーム数αに対して要約用静止画数β(シーン分割数)が算出される。
ステップS3では、映像解析部4が元動画像データから候補静止画像を抽出する。候補静止画像は、後述する特徴量抽出処理の対象となる。元動画像データの特徴量抽出にあたって、元動画像データに含まれる全静止画像を使用すると、計算量が非常に多くなる。そこで、本実施形態では、元動画像データから一定間隔で候補静止画像を抽出する。例えば、フレーム数が10の間隔で候補静止画像を抽出する。
ステップS4では、映像解析部4が候補静止画像を対象にして色配置特徴量を抽出する。色配置特徴量抽出処理では、候補静止画像毎に、静止画像の色配置特徴量を算出する。色配置特徴量は、静止画像内の色の空間的な分布を表す。
ステップS5,S6では、動画像分割部5がステップS4で求めた候補静止画像の色配置特徴量と候補静止画像の時系列に基づいて候補静止画像のクラスタリング(分類)を行う。このクラスタリングによって、最終的に、クラスタ数をステップS2で求めたシーン分割数βにする。該クラスタリング処理については後述する。
ステップS7では、動画像分割部5がステップS5,S6による候補静止画像の分類結果を出力する。
次に、上記ステップS5,S6に係るクラスタリング処理を説明する。
まず、ステップS4で求めた候補静止画像の色配置特徴量に基づいて候補静止画像を分類する。ここでのクラスタ数は、ステップS2で求めたシーン分割数βである。この色配置特徴量に基づいた特徴量クラスタリング処理の手順が図3に示されている。この特徴量クラスタリング処理は、非特許文献1に開示されるフレームクラスタリング処理に相当する。
図3において、ステップS11からS14では、全ての候補静止画像の色配置特徴量を対象にして、各色配置特徴量のクラスタと該クラスタの特徴を表すクラスタ代表ベクトルを生成する。各クラスタには該当する1つの色配置特徴量のみが所属データとなる。従って、この時点のクラスタ代表ベクトルは、該当する1つの色配置特徴量を表している。
次いで、ステップS15では、クラスタの全組合せについて、クラスタ間距離を算出する。クラスタC,C間の距離d(C,C)は次式で表される。
d(C,C)=E(C∪C)−E(C)−E(C
但し、E(C)はクラスタCの全ての所属データとクラスタCのクラスタ代表ベクトルとの距離の二乗の総和である。
次いで、ステップS16では、クラスタ間の距離d(C,C)が最小である2つのクラスタを1つのクラスタに統合する。ステップS17では、該統合されたクラスタのクラスタ代表ベクトルを生成する。ステップS18では、クラスタが1つに集約されたか否かを判定する。ステップS15からS18の処理はクラスタが1つに集約されるまで繰り返し行われる。
クラスタが1つに集約された場合、ステップS19でクラスタを抽出する。ここでは、ステップS2で求めたシーン分割数βだけ(つまり、クラスタ数=β)クラスタを抽出する。抽出するクラスタは、クラスタ統合時の距離の閾値を設定しておき、該閾値以下の距離で統合されたクラスタの内からβ個を選択する。この結果、β個のクラスタが得られる。
図4に、特徴量クラスタリング処理の結果として得られたβ個(ここではβ=3)の要約用クラスタの例(#1,#2,#3)が示されている。図4中の各要約用クラスタの所属データに付された番号は、候補静止画像の識別番号である。該識別番号は候補静止画像の時系列の順番で付されている。図4の例では、特徴量クラスタリング処理によって、30枚の候補静止画像(識別番号が1番から30番)が、3つの要約用クラスタ#1,#2,#3に分類されている。この特徴量クラスタリング処理結果のクラスタを以下、「上位クラスタ」と称する。
次に、候補静止画像の時系列に基づいて上位クラスタを分類しなおす(時系列情報クラスタリング処理)。上位クラスタ内には、元動画像データにおいて時間的に離散している静止画像が混在する。そこで、上位クラスタに対して、全ての候補静止画像を時系列順に並べ直す。このとき、同じ上位クラスタに所属していた静止画像群が離散する場合は、別々のクラスタとして割り当て直す。具体的には、各上位クラスタ内の静止画像群に対して、時系列順で隣接している静止画像同士を同じクラスタ(以下、「下位クラスタ」と称する)に分類し、下位クラスタを生成する。そして、全ての下位クラスタに対して時系列順に並べ直す。
図4の例に対して時系列情報クラスタリング処理を行った結果が図5に示されている。図5において、図4の要約用クラスタ#1内の静止画像群が6個の下位クラスタ101,103,105,109,111及び113に分類し直されている。又、要約用クラスタ#2内の静止画像群が5個の下位クラスタ102,106,108,110及び115に分類し直されている。又、要約用クラスタ#3内の静止画像群が4個の下位クラスタ104,107,112及び114に分類し直されている。この結果、合計15個の下位クラスタ101〜115が生成されている。そして、その下位クラスタ101〜115は候補静止画像の時系列順に並べられている。
次に、下位クラスタを統合する(下位クラスタ統合処理)。時系列情報クラスタリング処理の結果、下位クラスタの個数はシーン分割数βよりも多くなる。このため、クラスタ数がシーン分割数βになるまで、下位クラスタを統合する。この下位クラスタ統合処理では、隣接する下位クラスタ間で類似度を算出し、その類似関係に基づいて下位クラスタを統合していく。具体的には、全ての下位クラスタに対して、類似度の高い下位クラスタ同士から順番に統合していき、最終的にβ個のクラスタが形成されるまで統合を繰り返す。
例えば、ある下位クラスタに属する候補静止画像の特徴量と、該下位クラスタの特徴量を求める。候補静止画像の特徴量は、当該候補静止画像の色配置特徴量をベクトル化した特徴量ベクトルとする。下位クラスタの特徴量は、当該下位クラスタに属する静止画像の特徴量ベクトルの代表ベクトルとする。代表ベクトルとしては、例えば、下位クラスタに属する全ての静止画像の特徴量ベクトルを平均したベクトルが利用できる。次いで、全ての隣接する下位クラスタの組を対象にして、隣接する下位クラスタの各代表ベクトル間の類似度を算出する。類似度は、例えば、2つの代表ベクトルに対するcos関数などにより算出する。次いで、その類似度が最小である2つの代表ベクトルに対応する下位クラスタ同士を統合する。これをクラスタ数がβとなるまで繰り返す。
なお、下位クラスタ統合処理の具体例として、上記した下位クラスタの代表ベクトルを利用する方法の他には、例えば、3つ以上隣接する下位クラスタが元々属していた上位クラスタに関する情報、および、下位クラスタに属する静止画像に関する情報に基づいて統合する方法が挙げられる。この方法では、元々同じ上位クラスタに属していた2つの下位クラスタに挟まれている下位クラスタが存在する場合、それら3つの下位クラスタは同じクラスタに統合する。例えば、図5において、元々同じ上位クラスタ(要約用クラスタ#1)に属していた2つの下位クラスタ101及び103に挟まれている下位クラスタ102が存在するので、それら3つの下位クラスタ101,102及び103を統合して1つのクラスタとする。但し、隣接する3つの下位クラスタ内の全ての候補静止画像の総数に対して、それら隣接する3つの下位クラスタの中で異なる上位クラスタに属していた下位クラスタ内の静止画像数の割合が一定値以下である場合にのみ適用することとする。
また、下位クラスタ統合処理において、シーン分割数βを変更するようにしてもよい。シーン分割数βは、図2のステップS2において要約コンテンツのフレーム数(再生時間)に応じて決定されるが、下位クラスタ同士を統合する際、候補静止画像の特徴量に応じてβの値を変更する処理を設ける。このシーン分割数変更処理では、時系列的に連続する候補静止画間の色配置特徴量の変化量を求め、その変化量が一定量より大きい場合にβの値を増加させる。一方、その変化量が一定量より小さい場合にはβの値を減少させる。これにより、例えば、カメラや被写体が大きく動く場面など、変化の激しい箇所における要約用静止画数を比較的多くし、一方、風景の場面など、殆ど変化のない箇所における要約用静止画数を比較的少なくすることができ、要約コンテンツに対して効果的に元動画像データの内容を盛り込むことができる。この結果、ユーザが要約コンテンツを視聴した際に、元動画像データの内容の理解を深めることに寄与することができる。なお、シーン分割数変更処理は、候補静止画の全てに対して適用してもよいし、或いは、一部の下位クラスタに含まれる候補静止画像のみに適用してもよい。
以上が図2のステップS5,S6に係るクラスタリング処理の詳細な説明である。上述の下位クラスタ統合処理の結果として得られたβ個のクラスタが、元動画像データを分割した各シーン(β個)にそれぞれ対応する。
次に、本実施形態に係る動画像シーン分割処理によって分割された各シーンから、要約コンテンツに利用する静止画像を抽出する方法についていくつかの実施例を挙げる。
[静止画像選択方法の実施例1]
シーン内の中央位置にある静止画像を要約用静止画として抽出する。
[静止画像選択方法の実施例2]
シーン内で、人物の顔が映っている静止画像を要約用静止画として抽出する。このとき、複数の静止画像が候補となる場合には最も顔らしい静止画像を抽出する。
[静止画像選択方法の実施例3]
シーン内の静止画像群に対して代表となる静止画像を要約用静止画として抽出する。例えば、シーン内の全ての静止画像の特徴量ベクトルについての平均ベクトルを求め、該平均ベクトルに最も近い特徴量ベクトルを有する静止画像を抽出する。
上述したように本実施形態によれば、静止画像から抽出した色配置特徴量に基づいたクラスタリングと静止画像の時系列に基づいたクラスタリングを併用することにより、明確なシーン切り替えなどの編集が施されていないコンシューマ生成動画像であっても、元動画像データの内容に合った静止画像クラスタリングを行うことができるという効果が得られる。
又、本実施形態によれば以下に示すような効果が得られる。
(1)コンシューマ生成動画像から意味的に価値のあるシーンに分割できる。
(2)分割されたシーンに含まれる静止画像を抽出するなどにより、コンシューマ生成動画像に対する要約コンテンツを生成することができる。この結果、コンシューマ生成動画像を大量に蓄積した動画像共有システムにおいて、コンシューマ生成動画像そのものを再生することなく、要約コンテンツを再生するだけで、該コンシューマ生成動画像の内容を理解できることができ、コンシューマ生成動画像の効率的な検索の実現に寄与することができる。
(3)元動画像データに対して、少数の静止画像を利用したデータサイズの小さい要約コンテンツを生成することができるので、携帯電話機など、通信速度の遅い通信機器であっても、要約コンテンツを高速にダウンロードして視聴することができる。
なお、上述した実施形態では、映像特徴量として色配置特徴量を利用したが、動き情報、音声情報などの他の映像特徴量を利用することも可能である。
また、本実施形態に係る動画像シーン分割装置1は、専用のハードウェアにより実現されるものであってもよく、あるいはパーソナルコンピュータ等のコンピュータシステムにより構成され、図1に示される動画像シーン分割装置1の各部の機能を実現するためのプログラムを実行することによりその機能を実現させるものであってもよい。
また、その動画像シーン分割装置1には、周辺機器として入力装置、表示装置等(いずれも図示せず)が接続されるものとする。ここで、入力装置とはキーボード、マウス等の入力デバイスのことをいう。表示装置とはCRT(Cathode Ray Tube)や液晶表示装置等のことをいう。
また、上記周辺機器については、動画像シーン分割装置1に直接接続するものであってもよく、あるいは通信回線を介して接続するようにしてもよい。
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
本発明の一実施形態に係る動画像シーン分割装置1の概略構成を示すブロック図である。 同実施形態に係る動画像シーン分割処理の手順を示すフローチャートである。 同実施形態に係る特徴量クラスタリング処理の手順を示すフローチャートである。 同実施形態に係る特徴量クラスタリング処理の結果の例である。 同実施形態に係る時系列情報クラスタリング処理の結果の例である。
符号の説明
1…動画像シーン分割装置、2…動画像データベース、3…映像入力部、4…映像解析部、5…動画像分割部

Claims (13)

  1. 映像データから静止画像を抽出する静止画抽出手段と、
    静止画像から映像特徴量を抽出する静止画特徴量抽出手段と、
    前記映像データのシーン分割数を決定するシーン分割数決定手段と、
    前記映像データから抽出された静止画像の映像特徴量に基づいて、該静止画像を複数の上位クラスタのいずれかに分類する特徴量クラスタリング手段と、
    前記映像データから抽出された静止画像の時系列に従って、前記上位クラスタを下位クラスタに分割する時系列情報クラスタリング手段と、
    前記映像データから抽出された静止画像の時系列に従って前記下位クラスタを統合し、前記シーン分割数分のクラスタを生成するクラスタ統合手段と、
    を備えたことを特徴とする動画像シーン分割装置。
  2. 前記特徴量クラスタリング手段は、
    前記映像データから抽出された静止画像の映像特徴量に基づいて、該静止画像をクラスタに分類する手段と、
    該クラスタの特徴を表す代表ベクトルを生成する手段と、
    前記代表ベクトルに基づいてクラスタ間の類似度を算出する手段と、
    該類似度の高いクラスタ同士を統合する手段と、
    を有することを特徴とする請求項1に記載の動画像シーン分割装置。
  3. 前記時系列情報クラスタリング手段は、上位クラスタ内の静止画像群に対して、時系列順で隣接している静止画像同士を同じ下位クラスタに含めることを特徴とする請求項1又は請求項2に記載の動画像シーン分割装置。
  4. 前記クラスタ統合手段は、
    下位クラスタの特徴を表す代表ベクトルを生成する手段と、
    該代表ベクトルに基づいて下位クラスタ間の類似度を算出する手段と、
    類似度の高い下位クラスタ同士を統合する手段と、
    を有することを特徴とする請求項1から請求項3のいずれか1項に記載の動画像シーン分割装置。
  5. 前記クラスタ統合手段は、元々同じ上位クラスタに属していた2つの下位クラスタに挟まれている下位クラスタが存在する場合、それら3つの下位クラスタを同じクラスタに統合することを特徴とする請求項1から請求項4のいずれか1項に記載の動画像シーン分割装置。
  6. 前記クラスタ統合手段は、前記隣接する3つの下位クラスタ内の全ての静止画像の総数に対して、それら隣接する3つの下位クラスタの中で異なる上位クラスタに属していた下位クラスタ内の静止画像数の割合が一定値以下である場合にのみ、前記3つの下位クラスタの統合を行なうことを特徴とする請求項5に記載の動画像シーン分割装置。
  7. 前記類似度は前記代表ベクトル間の距離に基づいて求められ、該距離が近いものほど類似度が高いと判定することを特徴とする請求項2又は請求項4に記載の動画像シーン分割装置。
  8. 前記シーン分割数は、前記映像データ内の静止画像の総数に対する割合で規定されることを特徴とする請求項1から請求項7のいずれか1項に記載の動画像シーン分割装置。
  9. 前記下位クラスタ同士を統合する際、静止画像の映像特徴量に応じてシーン分割数を変更する手段を設けたことを特徴とする請求項1から請求項7のいずれか1項に記載の動画像シーン分割装置。
  10. 時系列的に連続する静止画間の映像特徴量の変化量を求め、その変化量が一定量より大きい場合にシーン分割数を増加させることを特徴とする請求項9に記載の動画像シーン分割装置。
  11. 時系列的に連続する静止画間の映像特徴量の変化量を求め、その変化量が一定量より小さい場合にシーン分割数を減少させることを特徴とする請求項9又は請求項10に記載の動画像シーン分割装置。
  12. 前記映像特徴量は色配置特徴量であることを特徴とする請求項1から請求項11のいずれか1項に記載の動画像シーン分割装置。
  13. 映像データを複数のシーンに分割する動画像シーン分割方法であって、
    映像データから静止画像を抽出する静止画抽出ステップと、
    静止画像から映像特徴量を抽出する静止画特徴量抽出ステップと、
    前記映像データのシーン分割数を決定するシーン分割数決定ステップと、
    前記映像データから抽出された静止画像の映像特徴量に基づいて、該静止画像を複数の上位クラスタのいずれかに分類する特徴量クラスタリングステップと、
    前記映像データから抽出された静止画像の時系列に従って、前記上位クラスタを下位クラスタに分割する時系列情報クラスタリングステップと、
    前記映像データから抽出された静止画像の時系列に従って前記下位クラスタを統合し、前記シーン分割数分のクラスタを生成するクラスタ統合ステップと、
    を含むことを特徴とする動画像シーン分割方法。
JP2008093239A 2008-03-31 2008-03-31 動画像シーン分割装置および動画像シーン分割方法 Expired - Fee Related JP4949307B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008093239A JP4949307B2 (ja) 2008-03-31 2008-03-31 動画像シーン分割装置および動画像シーン分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008093239A JP4949307B2 (ja) 2008-03-31 2008-03-31 動画像シーン分割装置および動画像シーン分割方法

Publications (2)

Publication Number Publication Date
JP2009246829A true JP2009246829A (ja) 2009-10-22
JP4949307B2 JP4949307B2 (ja) 2012-06-06

Family

ID=41308237

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008093239A Expired - Fee Related JP4949307B2 (ja) 2008-03-31 2008-03-31 動画像シーン分割装置および動画像シーン分割方法

Country Status (1)

Country Link
JP (1) JP4949307B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114187556A (zh) * 2021-12-14 2022-03-15 养哇(南京)科技有限公司 一种基于画面特征的高清视频智能分割方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251147A (ja) * 1993-02-23 1994-09-09 Nippon Telegr & Teleph Corp <Ntt> 映像特徴処理方法
JP2004254065A (ja) * 2003-02-20 2004-09-09 Nippon Telegr & Teleph Corp <Ntt> 動画像中の代表画像抽出装置,動画像中の代表画像抽出方法,動画像中の代表画像抽出プログラムおよび動画像中の代表画像抽出プログラムの記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251147A (ja) * 1993-02-23 1994-09-09 Nippon Telegr & Teleph Corp <Ntt> 映像特徴処理方法
JP2004254065A (ja) * 2003-02-20 2004-09-09 Nippon Telegr & Teleph Corp <Ntt> 動画像中の代表画像抽出装置,動画像中の代表画像抽出方法,動画像中の代表画像抽出プログラムおよび動画像中の代表画像抽出プログラムの記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114187556A (zh) * 2021-12-14 2022-03-15 养哇(南京)科技有限公司 一种基于画面特征的高清视频智能分割方法
CN114187556B (zh) * 2021-12-14 2023-12-15 华策影视(北京)有限公司 一种基于画面特征的高清视频智能分割方法

Also Published As

Publication number Publication date
JP4949307B2 (ja) 2012-06-06

Similar Documents

Publication Publication Date Title
US6964021B2 (en) Method and apparatus for skimming video data
US8750681B2 (en) Electronic apparatus, content recommendation method, and program therefor
US7826709B2 (en) Metadata editing apparatus, metadata reproduction apparatus, metadata delivery apparatus, metadata search apparatus, metadata re-generation condition setting apparatus, metadata delivery method and hint information description method
US9271035B2 (en) Detecting key roles and their relationships from video
US8316301B2 (en) Apparatus, medium, and method segmenting video sequences based on topic
US8068678B2 (en) Electronic apparatus and image processing method
WO2007020897A1 (ja) 映像シーン分類装置および映像シーン分類方法
Takahashi et al. Video summarization for large sports video archives
CN103200463A (zh) 一种视频摘要生成方法和装置
JP2008148077A (ja) 動画再生装置
Furini et al. VISTO: visual storyboard for web video browsing
JP5116017B2 (ja) 動画検索方法およびシステム
KR101536930B1 (ko) 동영상을 요약하는 방법 및 동영상 요약기, 그리고 이를 이용한 동영상 만화 정보 서비스 방법
KR100436828B1 (ko) 주문형 동영상 요약 서비스 시스템
JP2008086030A (ja) ヒント情報記述方法
Tsao et al. Thumbnail image selection for VOD services
KR20050033075A (ko) 비디오 이미지들의 시퀀스에서 콘텐트 속성을 검출하는 유닛 및 방법
JP4949307B2 (ja) 動画像シーン分割装置および動画像シーン分割方法
Lie et al. News video summarization based on spatial and motion feature analysis
JP4652389B2 (ja) メタデータ処理方法
Dimitrova et al. Selective video content analysis and filtering
JP2009251838A (ja) 画像検索装置
Yang et al. Improved quality keyframe selection method for hd video
Barbieri Automatic summarization of narrative video
Lu Content analysis and summarization for video documents

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100716

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100720

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110830

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20111026

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120307

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150316

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4949307

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees