JP5066172B2 - 動画表示装置、動画表示方法、プログラム及び端末装置 - Google Patents

動画表示装置、動画表示方法、プログラム及び端末装置 Download PDF

Info

Publication number
JP5066172B2
JP5066172B2 JP2009289971A JP2009289971A JP5066172B2 JP 5066172 B2 JP5066172 B2 JP 5066172B2 JP 2009289971 A JP2009289971 A JP 2009289971A JP 2009289971 A JP2009289971 A JP 2009289971A JP 5066172 B2 JP5066172 B2 JP 5066172B2
Authority
JP
Japan
Prior art keywords
frame
clusters
cluster
moving image
granularity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009289971A
Other languages
English (en)
Other versions
JP2011135126A (ja
Inventor
ゾラン ステイチ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2009289971A priority Critical patent/JP5066172B2/ja
Publication of JP2011135126A publication Critical patent/JP2011135126A/ja
Application granted granted Critical
Publication of JP5066172B2 publication Critical patent/JP5066172B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、動画データの中から複数のフレーム画像を選出し、そのフレーム画像を表示する技術に関する。
時間軸を有する動画の内容把握には再生時間に応じた時間が必要になるため、動画から抽出したフレーム画像によって表された要約の作成が行われている。要約の作成は、一般的には、動画内の物体の動きやフェードインやフェードアウト等の特殊効果等からショットを検出し、そのショット内から代表的なフレーム画像を抽出する。その抽出したフレーム画像を時系列に沿って配列することで要約データとなる。
このように、動画要約はフレーム画像によって表されるが、約1分の動画からは平均10ショットが検出されるため、動画の再生時間が長くなるとショットの数が数百と多くなり、要約として選出するフレーム数も増える。このため、単にショットからフレーム画像を抽出するだけではなく、そのフレーム画像の中から代表的なものを選出した要約の作成が必要となる。特許文献1に、粗いレベルと、詳細なレベルとを設定し、そのレベルに応じたクラスタリングをフレーム画像に対して行うことで、レベルに応じた段階的な要約が作成される技術が開示されている。
特許3719933号公報
このように、フレーム画像に対してレベルに応じたクラスタ数を形成するクラスタリングを行って要約とするフレーム画像を選出することにより、動画の要約を閲覧する際には、ユーザのレベル指定によって、詳しい要約と、大雑把な要約とで切り替えることができる。
しかし、特許文献1のように、要約のレベルが予め設定されている場合、そのレベルに対応した数のクラスタを形成するクラスタリングを、必要なレベルの段階の回数行わなければならない。このため、要約の詳しさである粒度を高める程、粒度毎のクラスタリング処理を行い、要約の作成には時間がかってしまう。また、データ量の大きい動画を扱う要約作成においては、膨大な時間を要してしまった。
本発明は、上述の課題に鑑みて為されたものであり、その目的とするところは、動画要約の粒度を自由に設定可能にすると共に、要約作成の処理時間を短縮することである。
上述の課題を解決するために、第1の発明は、複数のフレーム画像により構成される動画データの要約をユーザ端末に表示させる動画表示装置において、前記動画データから複数の代表的なフレーム画像を抽出する代表フレーム抽出手段と、前記抽出された複数のフレーム画像の各々が属するクラスタを形成し、その形成された複数のクラスタが一のクラスタとなるまで、前記クラスタに属するフレーム画像の特徴量に基づいて類似する2つのクラスタを1つのクラスタに統合する処理を繰り返すことで、前記複数のクラスタを纏め上げるクラスタリング処理を行うクラスタ統合手段と、前記クラスタリング処理において前記2つのクラスタを1つのクラスタに統合する処理を行う都度、各クラスタに属するフレーム画像から要約フレームを選出し、その要約フレームとクラスタの数とを対応付けて記憶する要約記憶手段と、前記ユーザ端末に表示されるスクロールバーに沿って移動するカーソルの位置をユーザにより指定される前記要約の粒度として受け付ける受付手段と、前記スクロールバーの先頭から前記カーソルの位置までの長さを前記スクロールバーの全長で除した値にクラスタの最大値を乗じてクラスタ数を算出し、算出した前記クラスタ数に対応付けられた要約フレームを前記要約記憶手段から読み出して、該要約フレームを前記ユーザ端末に表示させる要約表示手段と、を備えることを特徴としている。
第1の発明によれば、動画データから抽出した複数のフレーム画像が各々に属するクラスタを形成し、その形成された複数のクラスタが一のクラスタとなるまで、前記クラスタに属するフレーム画像の特徴量に基づいて類似するクラスタ同士を統合することで、前記複数のクラスタを纏め上げ、その統合の都度、各クラスタから選出した要約フレームと、クラスタの数とを対応付けて記憶する。そして、ユーザにより指定された粒度に基づいたクラスタ数に対応付けられたフレーム画像をユーザ端末に表示させる。
これにより、自由な粒度の設定が可能な要約を、一度のクラスタリング処理で作成することができる。従って、動画要約の粒度を自由に設定可能にすると共に、要約作成の処理時間を短縮することができる。
また、第2の発明は、前記フレーム画像の中からノイズを除去するノイズ除去手段を更に備え、前記クラスタ統合手段は、前記ノイズが除去された前記代表的なフレーム画像に対して前記クラスタリング処理を行うことを特徴としている。
第2の発明によれば、要約の作成対象から予めノイズを除去することで、要約作成の処理時間を短縮することができると共に、精度の高い要約を作成することができる。
また、第3の発明における前記要約表示手段は、前記粒度が受け付けられる都度、前記スクロールバーの先頭から前記カーソルの位置までの長さを前記スクロールバーの全長で除した値にクラスタの最大値を乗じてクラスタ数を算出し、算出した前記クラスタ数に対応付けられた要約フレームを読み出して、該要約フレームを表示させるための表示データを前記ユーザ端末に送信して表示更新させることを特徴としている。
第3の発明によれば、ユーザによって粒度の指定に応じて表示させる要約フレームを逐次更新することができる。
また、第4の発明における前記要約記憶手段は、前記クラスタに属するフレーム画像のうち、該クラスタに属するフレーム画像の特徴量の平均値に最も近い特徴量を有するフレーム画像を前記要約フレームとして選出することを特徴としている。
第4の発明によれば、クラスタに属するフレーム画像の特徴量に基づいて要約フレームを選出するため、クラスタの統合の都度、要約フレームの選出の基準となる指標が変動する。これにより、選出される要約フレームにも変動が生じ、単調は要約作成を防止できる。
また、第5の発明おける前記要約記憶手段は、前記クラスタに属するフレーム画像を時系列に配列した際の、その配列順序に基づいて前記要約フレームを選出することを特徴としている。
第5の発明によれば、クラスタに属するフレーム画像の時系列での配列順序に基づいて要約フレームを選出するため、クラスタの統合の都度、要約フレームの選出の基準となる指標が変動する。これにより、選出される要約フレームにも変動が生じ、単調は要約作成を防止できる。また、クラスタに属するフレーム画像の特徴量の平均値と、フレーム画像の特徴量との距離を算出する必要がないため、要約の選出のための処理時間を短縮できる。
また、第6の発明は、コンピュータが、複数のフレーム画像により構成される動画データの要約をユーザ端末に表示させる動画表示方法において、
前記動画データから複数の代表的なフレーム画像を抽出する代表フレーム抽出工程と、
前記抽出された複数のフレーム画像の各々が属するクラスタを形成し、その形成された複数のクラスタが一のクラスタとなるまで、前記クラスタに属するフレーム画像の特徴量に基づいて類似する2つのクラスタを1つのクラスタに統合する処理を繰り返すことで、前記複数のクラスタを纏め上げるクラスタリング処理を行うクラスタ統合工程と、
前記クラスタリング処理において前記2つのクラスタを1つのクラスタに統合する処理を行う都度、各クラスタに属するフレーム画像から要約フレームを選出し、その要約フレームとクラスタの数とを対応付けて要約記憶手段に記憶する要約記憶工程と、
前記ユーザ端末に表示されるスクロールバーに沿って移動するカーソルの位置をユーザにより指定される前記要約の粒度として受け付ける受付工程と、
前記スクロールバーの先頭から前記カーソルの位置までの長さを前記スクロールバーの全長で除した値にクラスタの最大値を乗じてクラスタ数を算出し、算出した前記クラスタ数に対応付けられた要約フレームを前記要約記憶手段から読み出して、該要約フレームを前記ユーザ端末に表示させる要約表示工程と、
を行うことを特徴としている。
また、第7の発明は、第6に発明に記載の動画表示方法を前記コンピュータに実行させるためのプログラムである。第6及び第7の発明によれば、第1の発明と同様の作用効果が得られる。
また、第8の発明は、第1〜第5の発明の何れかの動画表示装置にネットワークを介して接続された端末装置であって、前記端末装置に表示されるスクロールバーに沿って移動するカーソルの位置をユーザにより指定される要約の粒度として入力する入力手段と、前記入力により粒度が更新される都度、前記動画表示装置に該粒度を送信する送信手段と、前記送信に応答して前記動画表示装置から返送される要約フレームを受信し、その受信に応じて該要約フレームの表示を更新する表示制御手段と、を備えることを特徴としている。
第8の発明によれば、ユーザの粒度の指定に応じて、要約フレームが表示更新されるため、ユーザは表示させた要約の粒度を自由に設定することができる。
本発明によれば、動画要約の粒度を自由に設定可能にすると共に、要約作成の処理時間を短縮することができる。
動画表示装置の機能構成の一例を示すブロック図。 (a)動画DB、(b)要約生成メモリ、(c)要約インデックスのデータ構成の一例を示す図。 階層的クラスタリング処理のデータ処理の一例を説明するためのフローチャート。 動画データから代表フレームを抽出するまでの様子を説明するための図。 階層的クラスタリング処理、要約生成メモリの遷移の様子を説明するための図。 動画検索表示画面の表示例を示す図。 要約ウィンドウの表示例を示す図。
[動画表示装置の構成]
以下、本発明の実施の形態を図面に基づいて説明する。
図1は、本発明を適用した動画表示装置1の機能ブロック図である。動画表示装置1には、図示しないクライアント端末が通信ネットワーク(インターネットや電話回線網等)を介して接続され、互いにデータ通信可能となっている。
動画表示装置1は、動画の要約をユーザ端末T(端末装置)に表示させるためのサーバとして機能し、通信ネットワークを介して接続されたパーソナルコンピュータや携帯端末等のユーザ端末Tから送信されるキーワードや画像等を検索要求(クエリ)として受信する。そして、そのクエリに応じた動画データの検索を行って、クエリに対する類似度順にランキングした検索結果をユーザ端末Tに返送する。
キーワードがクエリである場合は、そのキーワード、又は該キーワードに類似するタグ(テキスト)が関連付けられた動画データをDB(データベース)から検索する。また、画像がクエリである場合には、該画像から算出した特徴量と類似する特徴量を有する動画データを検索する。このようなクエリに応じた検索結果は、例えば、図6に示すような検索結果画面によってユーザ端末Tに一覧表示される。
本実施形態における動画表示装置1は、動画データに対応した要約データも表示させることが可能である。図6においては、検索結果である各動画データに対応して、要約ウィンドウWが対になって表示されている。要約ウィンドウWには、図7に示すような要約データが表示されると共に、要約の詳しさ、粗さを示す指標となる粒度を指定可能なスクロールバーSBが表示される。ユーザは、このスクロールバーSBを操作することで粒度を指定して、要約として表示されるフレーム画像の枚数を自由に変更することができる。
尚、本実施形態における要約とは、動画データに含まれるフレーム画像を特徴量等に基づいて集約したものである。
図1に示すように、動画表示装置1は、動画DB10と、要約生成部20と、要約インデックス50と、ズーミングUI部60と、を備えて構成される。これらの機能部は、所謂コンピュータにより構成され、演算/制御装置としてのCPU(Central Processing Unit)、記憶媒体としてのRAM(Random Access Memory)及びROM(Read Only Memory)、通信インターフェイス等が連関することで実現される。
動画DB10は、動画データを蓄積記憶するデータベースであり、図2(a)にそのデータ構成の例が示されている。同図に示すように、動画DB10は、各動画を一意に識別可能な識別情報である動画IDと、動画データとを対応付けて記憶する。
動画データは、図2(a)に示すように複数の連続したフレーム画像(静止画像)により構成され、MPEGやAVI形式等のファイル形式で格納される。例えば、1秒間に30フレームといったレートでフレーム画像は格納される。フレーム画像は、再生の時間軸に対応した時系列に配列され、各フレームを識別可能なフレーム番号(例えば、図2(a)に示す#1〜#N)が付されている。
要約生成部20は、動画DB10に記憶された動画データから要約データを生成する機能部であり、図1に示すように、動画入力部22、ショット分割部24、ノイズ除去部26、代表フレーム抽出部28、クラスタリング部30及び要約生成メモリ40を備えて構成される。
動画入力部22は、要約の作成対象となる動画データを動画DB10から読み取りショット分割部24に入力する。尚、動画データを入力する際には、必要に応じてサンプリング(間引き)を行う。
サンプリングの一例としては、動画の所定秒数(例えば1秒間)内に含まれているフレームの中から1枚のフレーム画像を選択することにより行われる。また、所定秒数ではなく、所定枚数毎のフレーム画像の中から1枚のフレーム画像を選択することとしてもよい。このようなサンプリングによって、動画要約作成の処理対象とするフレーム数を動画全体の1/30(1秒に1フレーム)や1/100(3秒に1フレーム)に削減できる。また、一般的に1秒間では動画の内容が変わらない場合が多いので、このサンプリングが動画要約の精度には影響を与えることは少ない。
ショット分割部24は、入力された動画データを複数のショットに分割する。ショットとは、撮影された一連の連続したフレーム画像であり、カメラの切り替えや動画編集によるつなぎ合わせ等により形成される。ショット分割部24は、各フレーム画像に基づいて視覚的な特徴量(色、形状、テクスチャ)を算出する。そして、その特徴量の連続するフレーム間での変化量を算出して、その変化量が所定の閾値以上であるフレーム間、その変化量の推移に大きな変化が生じたフレーム間をショットの境界として検出して、フレーム画像をショットに分割する。
また、フレーム画像の特徴量に基づいて、白黒動画であるかカラー動画であるかに基づいてショット分割を行う。この白黒/カラーの判定は、各フレームから色ヒストグラムを抽出し、フレーム毎の主な色(画像全体の大きな割合を占める色)の数を計算し、動画の全フレーム(或いは、サンプリングしたフレーム)に対して、主な色の数の平均を計算して、その平均に基づいて判定を行う。その後、白黒/カラーの判定の結果によって、ショット分割のための閾値を決定する。
図4に示すような動画データ200がショット分割部24に入力されると、各フレーム画像間の特徴量の変化量を算出することで、図4(a)に示すようなフレーム間の境界位置(破線)が検出されて、ショットSH1〜SH7に分割される。
ノイズ除去部26は、ショット分割部24により分割されたショットからノイズを除去する。具体的には、各ショットに含まれるフレーム画像の特徴量に基づいて、色の数の少ない単色フレーム(例えば、単色の背景に文字が描かれているフレーム)のみで構成されるショットを検出し、そのショットをノイズとして除去する。この単色フレームの判定も、上述した色ヒストグラムにより判定が可能である。
また、各ショットに含まれるフレーム画像の枚数と、動画全体の再生時間とからショットの再生時間を求め、その再生時間が所定値以下(例えば、1s以下)となるショットをノイズとして除去する。尚、動画全体の再生時間は、動画のメタデータとして設定されていることが多い。また、各フレームに時刻データがメタデータとして設定されていることもあるため、このデータを用いて再生時間を求めても勿論よい。
図4(a)のようにショット分割された動画データ200がノイズ除去部26に入力された際には、図4(b)のように、ショットSH5が単色フレームであるために除去される。このノイズ除去部26によって、予め要約作成の対象となるフレーム画像を削減することで、処理時間を短縮すると共に、要約の精度を高めることができる。
代表フレーム抽出部28は、ノイズ除去部26によってノイズ除去された各ショットから代表フレームとなるフレーム画像を抽出する。代表フレームとして抽出する基準は、任意に設定可能であり、例えば、各ショット内に含まれるフレーム画像の特徴量の平均値に最も近いフレーム画像を代表フレームとする。また、各ショットの先頭のフレーム画像を代表フレームとしてもよいし、ショット内のフレーム画像を時系列に配列して再生時刻が再生開始から再生終了までの間で中間位置となるフレーム画像を代表フレームとしてもよい。尚、上述の説明では、ノイズ除去後のショットから代表フレームを抽出するという処理順序であるが、各ショットから抽出した代表フレームを抽出後に、この代表フレームからノイズを除去することとしてもよく、その処理順序は適宜設計に応じて変更可能である。
図4(c)においては、各ショット内のフレーム画像の特徴量に基づいて、平均値に最も近いフレーム画像を代表フレームとした例を示している。即ち、各ショットからはフレーム画像#2,#5,#8,#9,#12,#15が代表フレームとして抽出される。
代表フレーム抽出部28は、抽出した代表フレームのフレーム番号を要約生成メモリ40に記憶する。要約生成メモリ40は、各動画データについての要約データを生成する際に一時的に用いられるメモリ領域であり、図2(b)に示すように、代表フレーム番号と、特徴量と、クラスタIDとを対応付けて記憶する。
特徴量は、代表フレームから算出される画像の配色やテクスチャ、形状等の各画像の特徴を数値化して表現したものであり、上述のようにショット分割部24が算出する。尚、代表フレーム抽出部28が、代表フレームから特徴量を算出することとしてもよい。
色、形状、テクスチャなどの特徴量についての参考文献としては、
“Content-based image retrieval at the end of the early years”,IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.22,No.12,pp.1349-1380.Dec 2000.
が知られている。
クラスタIDは、複数の代表フレームを特徴量に基づいてクラスタリングした際に形成されるクラスタを識別する識別情報である。このクラスタIDは、クラスタリング部30により設定される。
クラスタリング部30は、代表フレームに後述する階層的クラスタリング処理(図3参照)を施すことで、代表フレーム抽出部28が抽出した代表フレームの枚数を最大値としたクラスタ数から、最小のクラスタ数である1クラスタまでの全クラスタ数について要約フレームとなる代表フレームを選出して、要約データを生成する。
階層的クラスタリングとは、対象となるデータをばらばらの一つのクラスタとみなして、類似するもの同士を統合していくつかのグループ(クラスタ)に纏め上げて行くクラスタリング手法である。
要約インデックス50は、クラスタリング部30により生成された要約データに動画IDをインデックスとして記憶するデータベースであり、図2(c)に示すように動画IDと、クラスタ数及び要約フレーム群を含む要約データとを対応付けて記憶する。
クラスタ数は、クラスタリング部30により形成されたクラスタの数であり、階層的クラスタリング処理により最初に設定された最大のクラスタ数から、最小のクラスタ数の1までが動画ID毎に設定される。
要約フレーム群は、動画データの要約として選出されたフレーム画像(要約フレーム)であり、各クラスタ数についてそのクラスタ数分の枚数のフレーム画像のフレーム番号が設定される。
クラスタ数には、各クラスタ数の枚数でフレーム画像が対応付けられた記憶される。例えば、図2(c)においては、動画ID‘XXXX’の動画データについ、クラスタ数‘1’には一枚のフレーム画像#8が対応付けられている。また、クラスタ数‘2’には、二枚のフレーム画像#9、#12が対応付けられている。また、クラスタ数‘6’には、六枚のフレーム画像#2、#5、#8、#9、#12、#15が対応付けられている。
このように、全クラスタ数について、そのクラスタ数分のフレーム画像が要約として選出されることで、ユーザが指定したクラスタに応じた枚数で要約となるフレーム画像を表示することが可能になる。
ズーミングUI部60は、要約データの表示UIを生成して、ユーザに提供する機能部であり、図1に示すように、粒度取得部62と、要約取得部64と、要約表示部66とを備えて構成される。
粒度取得部62は、ユーザ端末Tでのユーザ操作に基づいて、要約の詳細度合いを示す粒度情報をユーザ端末Tから取得する。具体的には、図6に示すような要約ウィンドウW上に表示されたスクロールバーSBにより粒度情報の指定が可能である。
例えば、スクロールバーSBの全長に対するカーソルCSの位置を粒度情報として取得する。このとき、粒度取得部62は、スクロールバーSBの先頭からカーソルCSまでの長さをスクロールバーSBの全長で除算した値、即ち、カーソルCSのスクロールバーSBに対する位置の比率を求める。この粒度情報の取得は、ユーザ端末Tで表示させた要約ウィンドウWに対するユーザ操作をリアルタイムに受信することで、逐次取得可能である。
この粒度情報としては、カーソルCSのスクロールバーSBに対する位置の比率とは限らず、例えば、クラスタ数そのままを示す数値であってもよく、この場合は、ユーザに表示させた要約フレームの枚数を指定させることとなる。
要約取得部64は、粒度取得部62が取得した粒度情報に基づいて、要約フレームとなるフレーム画像を取得する。具体的には、該粒度情報に対応したクラスタ数を特定し、そのクラスタ数に対応付けられた要約フレーム群のフレーム番号を要約インデックス50から読み出す。そして、そのフレーム番号に対応付けられたフレーム画像を動画DB10から読み出して、要約フレームを取得する。
クラスタ数の特定は、上述のようにカーソルCSのスクロールバーSBに対する位置を粒度情報として取得した場合は、その粒度情報から算出した上述の比率を動画IDに対応付けられたクラスタ数のうちの最大値のクラスタ数に乗算することで求められる。
例えば、図2(c)のように、動画ID‘XXXX’についての最大のクラスタ数が‘6’であり、カーソルCSのスクロールバーSBに対する位置の比率が‘0.5’である場合には、クラスタ数は‘3(=6×0.5)’と特定される。
要約表示部66は、要約取得部64によって取得された要約フレームのフレーム画像をユーザ端末Tに表示させるための表示データを作成して、該ユーザ端末Tに送信することで、該フレーム画像を表示させる。このとき、要約フレームをフレーム番号の昇順に配列することで、該要約フレームを時系列で配列した表示データが作成される。
ユーザ端末Tは、ユーザ操作に基づいて粒度情報を入力する粒度入力部T1と、この入力により粒度情報が更新される都度、動画表示装置1に該粒度の情報を送信する粒度送信部T3と、送信部による粒度情報の送信に応答して返送される要約フレームを受信し、該要約フレームの表示を更新する表示制御部T5と、を備えて構成される。
粒度入力部T1は、ユーザ端末Tが有するキーボードやマウス等により実現され、例えば、図6に示す要約ウィンドウWのスクロールバーSB上のカーソルCSをユーザがマウスで移動操作すると、その移動に応じて粒度情報を取得する。尚、粒度情報の入力としては、スクロールバーSB上のカーソルCSの位置の移動操作に限らず、例えば、図6に示すような「+」ボタンや「−」ボタンの押下回数や押下時間により取得してもよいし、数値入力であってもよい。
粒度送信部T3は、例えば、マウスでのカーソルCSの移動操作により更新される粒度情報を逐次動画表示装置1に対して送信する。送信部が粒度情報を送信すると、上述のように動画表示装置1の粒度取得部62により該粒度情報が取得され、要約表示部66により生成された要約フレームを含む表示データが返送されてくる。
表示制御部T5は、その返送されてきた表示データを受信すると、該表示データにより要約ウィンドウWの表示内容を更新する。
〔階層的クラスタリング処理〕
次ぎに、図3に示すフローチャートと、図5のクラスタリングと要約生成メモリ40の遷移の様子を示す図に基づいて、クラスタリング部30による階層的クラスタリング処理の詳細を説明する。尚、この説明では、図4で抽出された代表フレーム#2,#5,#8,#9,#12,#15に対して処理を行う例を取り上げて説明する。また、要約生成メモリ40の図示において、特徴量のメモリ内容の図示は省略している。
先ず、クラスタリング部30は、代表フレーム抽出部28により抽出された複数の各代表フレームをそれぞれのクラスタとして見なして、各フレーム画像に個々のクラスタIDを設定し、要約生成メモリ40に記憶し(ステップS11)、クラスタ数Kとして代表フレームの枚数を設定する(ステップS12)。
図5においては、6枚の代表フレームそれぞれをクラスタと見なして、破線で示すクラスタA〜Fを形成する。即ち、6つのクラスタに各代表フレームがそれぞれ分類される(図5(a)参照)。
そして、クラスタリング部30は、各クラスタに属する代表フレームのフレーム番号を要約生成の対象とする動画IDのクラスタ数Kに対応付けて要約インデックス50に記憶する(ステップS13)。このとき、図2(c)のように、クラスタ数‘6’に対応する要約フレーム群として#2,#5,#8,#9,#12,#15の6枚の要約フレームが記憶される。
次ぎに、クラスタリング部30は、各クラスタ間の類似度を算出し(ステップS14)、算出した類似度が最も高いクラスタの組み合わせを特定する(ステップS15)。
具体的には、要約生成メモリ40に記憶されている特徴量をクラスタIDに基づいて検索し、そのクラスタIDに関連付けられている特徴量の平均値を算出することで、クラスタの特徴量を算出する。そして、異なるクラスタを対にして各クラスタの組み合わせについて、特徴量の類似度を算出する。類似度の算出には、City-block距離やEuclidean距離等の距離関数による公知技術が用いられる。
また、二つのクラスタ間の類似度としては、上記のクラスタに属する代表フレームの特徴量の平均値を用いた計算方法の他に、あるクラスタに属する代表フレームの各特徴量と、他のクラスタに属する代表フレームの各特徴量とのそれぞれの距離を個別に計算し、その平均値(または、最短の距離、または、最長の距離)をクラスタ間の類似度としてもよい。また、各クラスタに属する代表フレーム間の距離のうち、最短の距離又は最長の距離をクラスタ間の類似度としてもよい。
図5(a)においては、各クラスタには代表フレームが個々に分類されているため、類似度の算出は、各代表フレームの特徴量を用いて行う。そして、各クラスタ間の類似度を算出した結果、クラスタAとクラスタBの類似度が最も高いとして特定される。
クラスタリング部30は、特定したクラスタ(類似クラスタ)を統合する(ステップS16)。この統合は、例えば、類似クラスタとして特定した2つのクラスタのうちの、何れかのクラスタに属する代表フレームのクラスタIDを、他方のクラスタに属する代表フレームのクラスタIDで書き換えることで行われる。図5(b)においては、代表フレーム#5のクラスタIDが‘A’に書き換えられることで、クラスタAとBがクラスタAに統合される。
そして、クラスタリング部30は、クラスタ数Kの値を1減算し(ステップS17)、統合後の各クラスタに属する代表フレームのうち、要約フレームとして記憶するものを選出する(ステップS18)。要約フレームの選出は、クラスタに属する代表フレームの特徴量の平均値と、該クラスタに属する代表フレームの特徴量との距離を算出し、この距離が短い代表フレームを選出することで行われる。
そして、クラスタCと、各クラスタから選出した代表フレーム(要約フレーム)とを要約インデックス50に記憶する(ステップS19)。図5(b)においては、クラスタ数Kが‘5’となり、#2,#8,#9,#12,#15の5枚の代表フレームが要約フレームとして選出され、図2(c)に示すように要約インデックス50に記憶される。
クラスタリング部30は、ステップS17で減算したクラスタ数Kが‘1’であるか否かを判定し(ステップS20)、1となった判定した場合には(ステップS20;Yes)、階層的クラスタリング処理を終了する。また、クラスタ数Kが‘1’ではないと判定した場合には(ステップS20;No)、ステップS14に処理を移行して、ステップS14〜S19の処理を繰り返す。
例えば、図5(b)のように統合されたクラスタ(クラスタ数K=5)において、更に、各クラスタ間の類似度が算出される。このとき、図5(b)におけるクラスタAの特徴量は、代表フレーム#2と#5の平均値が算出される。そして、クラスタCとFが最も類似すると判断されると、このクラスタCとFが統合され、これにより、代表フレーム#8のクラスタIDが‘F’に書き換えられる。そして、クラスタ数Kが‘4’に減算され、このクラスタ数Kと、代表フレーム#2,#9,#12,#15が要約フレームとして記憶される(図2(c)参照)。
また、図5(c)のように統合されたクラスタ(クラスタ数K=4)においては、クラスタAとEの特徴量が最も類似すると判断されて統合され、代表フレーム#12のクラスタIDが‘A’に書き換えられる。そして、クラスタ数Kが‘3’に減算され、このクラスタ数Kと、代表フレーム#5,#9,#15が要約フレームとして記憶される。このとき、クラスタAに代表フレーム#12が統合されることで、クラスタAの特徴量の平均値が更新されて、代表フレーム#5が要約フレームとして選出されている。
次ぎに、図5(d)のように統合されたクラスタ(クラスタ数K=3)においては、クラスタAとFの特徴量が最も類似すると判断されて統合され、代表フレーム#8及び#15のクラスタIDが‘A’に書き換えられる。そして、クラスタ数Kが‘2’に減算され、このクラスタ数Kと、2枚の代表フレーム#9,#12が要約フレームとして記憶される。
更に、図5(e)のように統合されたクラスタ(クラスタ数K=2)においては、クラスタAとDの特徴量が最も類似すると判断されて統合され、代表フレーム#9のクラスタIDが‘A’に書き換えられる。そして、クラスタ数Kが‘1’に減算され、このクラスタ数Kと、1枚の代表フレーム#8が要約フレームとして記憶される。
以上のような階層的クラスタリング処理により、要約インデックス50には、抽出した代表フレームの枚数であり最大クラスタ数である‘6’から、最小クラスタ数の‘1’までの全クラスタ数それぞれについて、各クラスタ数の枚数分の要約フレームが記憶される。
図7は、要約ウィンドウWの表示画面の一例である。例えば、図6に示す検索結果画面の検索結果となる各動画に要約ウィンドウWが対になって表示される。
初期状態では、検索結果である動画IDと、クラスタ数‘1’とに対応付けられた要約フレーム#8が読み出されて、図7(a)のように要約が一枚の画像によって表示される。図7(a)において、カーソルCSの位置は、スクロールバーSBの先頭に配置されているので、粒度が最も低く(粗く)設定されている。
そして、ユーザがスクロールバーSB上のカーソルCSに粒度を高める操作(例えば、カーソルCSの右方向への移動)を行うと、そのカーソルCSの位置が粒度情報としてユーザ端末Tから動画表示装置1に送信されて、該粒度情報に対応するクラスタ数が算出される。
このようにユーザ操作に応じてユーザ端末Tから粒度情報がリアルタイムで送信されることで、粒度情報に対応したクラスタ数に応じた要約フレームがユーザ端末Tに返送されて、図7(b)の2枚の要約フレームから、図7(c)の3枚、図7(d)の4枚、図7(e)の5枚、図7(f)の6枚までの要約フレームといったように細かく表示が更新される。
また、同様にユーザが図7(f)のカーソルCSの位置から粒度を低める操作(例えば、カーソルCSの左方向への移動)を行うと、図7(f)の6枚から図7(a)の1枚までの要約フレームが動的に更新されるようになる。
以上、本実施形態によれば、動画データから抽出した複数の代表フレームに対して、代表フレームを個々のクラスタと見なして、そのクラスタ間の類似度に応じて纏め上げていく。このような、低階層のクラスタを高階層のクラスタに纏め上げていく所謂ボトムアップのクラスタリングを行うことで、全クラスタ数について、そのクラスタ数分の要約フレームを選出して、要約インデックス50を作成する。このため、ユーザが自由に表示させる要約の粒度を設定し、その粒度に応じた枚数の要約フレームを表示することができる。
これにより、図7に示す要約ウィンドウの表示例のように、カーソルCSの操作で粒度を低めると(粗くすると)動画を時間的に縮小し、粒度を高める(詳細化すると)動画を時間的に拡大するように、動画要約のズームイン又はズームアウトを実現することができる。
初期段階で設定した複数のクラスタを纏め上げるという階層的クラスタリングを行うことによって、一度のクラスタリング処理で各クラスタ数に対応した要約を作成することができる。このため、要約作成の処理時間を短縮することができる。
また、クラスタに属する代表フレームから算出した特徴量の平均値に基づいて、各クラスタから要約フレームを選出するため、クラスタの統合によって平均値が変化し、その選出される要約フレームもクラスタ毎に変化する。このため、単に要約フレームの枚数が増減するのではなく、各クラスタを代表するフレーム画像が動的に表示されるようになり、動画要約が単調になることを防止できる。
尚、上述した実施形態により本発明が限定されるものではなく、その要旨を逸脱しない範囲で変更可能である。
例えば、各クラスタに属する代表フレームを時系列に配列し、該クラスタに属する代表フレームの枚数の半分の位置(先頭から(フレーム数/2)枚目)に配列される代表フレームを要約フレームとして選出することとしてもよい。これにより、クラスタの統合によってクラスタに属するフレームの枚数が変化し、選出される要約フレームもクラスタの統合の都度、変化する。このため、単に要約フレームの枚数が増減するのではなく、各クラスタを代表するフレーム画像が動的に表示されるようになり、動画要約が単調になることを防止できる。また、各クラスタに属する代表フレームの特徴量と平均値との距離を算出する処理時間が削減され、更に要約作成の処理時間を短縮することができる。
また、図7に示すように、要約ウィンドウWに要約フレームを表示する際に、その要約ウィンドウWの表示枠内に収まるように、該要約フレームの大きさを拡大又は縮小することとしてもよい。具体的には、要約ウィンドウWの表示サイズを予め取得しておき、表示対象となる要約フレームの横幅の合計値が、要約ウィンドウWの横幅よりも大きくなる場合には、その要約フレームの横幅の合計値を要約ウィンドウWの横幅よりも小さくさせる倍率を算出して、その倍率で拡大又は縮小させた要約フレームを要約ウィンドウW内に表示させる。
また、要約ウィンドウWの横幅よりも小さくなる場合には、その要約フレームの高さを要約ウィンドウのWの高さよりも小さくさせる倍率を算出して、その倍率で拡大又は縮小させた要約フレームを要約ウィンドウW内に表示させる。このようにすることで、粒度を低くめる操作を行った場合に、要約ウィンドウW内に要約フレームが大きく表示されるようになる。また、粒度を高める操作を行った場合には、要約ウィンドウW内に多くの画像が表示されるように要約フレームが縮小されて表示される。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1 動画表示装置
10 動画DB
20 要約生成部
22 動画入力部
24 ショット分割部
26 ノイズ除去部
28 代表フレーム抽出部
30 クラスタリング部
40 要約生成メモリ
50 要約インデックス
60 ズーミングUI部
62 粒度取得部
64 要約取得部
66 要約表示部
T ユーザ端末

Claims (8)

  1. 複数のフレーム画像により構成される動画データの要約をユーザ端末に表示させる動画表示装置において、
    前記動画データから複数の代表的なフレーム画像を抽出する代表フレーム抽出手段と、
    前記抽出された複数のフレーム画像の各々が属するクラスタを形成し、その形成された複数のクラスタが一のクラスタとなるまで、前記クラスタに属するフレーム画像の特徴量に基づいて類似する2つのクラスタを1つのクラスタに統合する処理を繰り返すことで、前記複数のクラスタを纏め上げるクラスタリング処理を行うクラスタ統合手段と、
    前記クラスタリング処理において前記2つのクラスタを1つのクラスタに統合する処理を行う都度、各クラスタに属するフレーム画像から要約フレームを選出し、その要約フレームとクラスタの数とを対応付けて記憶する要約記憶手段と、
    前記ユーザ端末に表示されるスクロールバーに沿って移動するカーソルの位置をユーザにより指定される前記要約の粒度として受け付ける受付手段と、
    前記スクロールバーの先頭から前記カーソルの位置までの長さを前記スクロールバーの全長で除した値にクラスタの最大値を乗じてクラスタ数を算出し、算出した前記クラスタ数に対応付けられた要約フレームを前記要約記憶手段から読み出して、該要約フレームを前記ユーザ端末に表示させる要約表示手段と、
    を備えることを特徴とする動画表示装置。
  2. 前記フレーム画像の中からノイズを除去するノイズ除去手段を更に備え、
    前記クラスタ統合手段は、
    前記ノイズが除去された前記代表的なフレーム画像に対して前記クラスタリング処理を行うことを特徴とする請求項1に記載の動画表示装置。
  3. 前記要約表示手段は、
    前記粒度が受け付けられる都度、前記スクロールバーの先頭から前記カーソルの位置までの長さを前記スクロールバーの全長で除した値にクラスタの最大値を乗じてクラスタ数を算出し、算出した前記クラスタ数に対応付けられた要約フレームを読み出して、該要約フレームを表示させるための表示データを前記ユーザ端末に送信して表示更新させることを特徴とする請求項1又は2に記載の動画表示装置。
  4. 前記要約記憶手段は、
    前記クラスタに属するフレーム画像のうち、該クラスタに属するフレーム画像の特徴量の平均値に最も近い特徴量を有するフレーム画像を前記要約フレームとして選出することを特徴とする請求項1〜3の何れかに記載の動画表示装置。
  5. 前記要約記憶手段は、
    前記クラスタに属するフレーム画像を時系列に配列した際の、その配列順序に基づいて前記要約フレームを選出することを特徴とする請求項1〜3の何れかに記載の動画表示装置。
  6. コンピュータが、複数のフレーム画像により構成される動画データの要約をユーザ端末に表示させる動画表示方法において、
    前記動画データから複数の代表的なフレーム画像を抽出する代表フレーム抽出工程と、
    前記抽出された複数のフレーム画像の各々が属するクラスタを形成し、その形成された複数のクラスタが一のクラスタとなるまで、前記クラスタに属するフレーム画像の特徴量に基づいて類似する2つのクラスタを1つのクラスタに統合する処理を繰り返すことで、前記複数のクラスタを纏め上げるクラスタリング処理を行うクラスタ統合工程と、
    前記クラスタリング処理において前記2つのクラスタを1つのクラスタに統合する処理を行う都度、各クラスタに属するフレーム画像から要約フレームを選出し、その要約フレームとクラスタの数とを対応付けて要約記憶手段に記憶する要約記憶工程と、
    前記ユーザ端末に表示されるスクロールバーに沿って移動するカーソルの位置をユーザにより指定される前記要約の粒度として受け付ける受付工程と、
    前記スクロールバーの先頭から前記カーソルの位置までの長さを前記スクロールバーの全長で除した値にクラスタの最大値を乗じてクラスタ数を算出し、算出した前記クラスタ数に対応付けられた要約フレームを前記要約記憶手段から読み出して、該要約フレームを前記ユーザ端末に表示させる要約表示工程と、
    を行うことを特徴とする動画表示方法。
  7. 請求項6に記載の動画表示方法を前記コンピュータに実行させるためのプログラム。
  8. 請求項1〜5の何れかに記載の動画表示装置にネットワークを介して接続された端末装置であって、
    前記端末装置に表示されるスクロールバーに沿って移動するカーソルの位置をユーザにより指定される要約の粒度として入力する入力手段と、
    前記入力により粒度が更新される都度、前記動画表示装置に該粒度を送信する送信手段と、
    前記送信に応答して前記動画表示装置から返送される要約フレームを受信し、その受信に応じて該要約フレームの表示を更新する表示制御手段と、
    を備えることを特徴とする端末装置。
JP2009289971A 2009-12-22 2009-12-22 動画表示装置、動画表示方法、プログラム及び端末装置 Expired - Fee Related JP5066172B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009289971A JP5066172B2 (ja) 2009-12-22 2009-12-22 動画表示装置、動画表示方法、プログラム及び端末装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009289971A JP5066172B2 (ja) 2009-12-22 2009-12-22 動画表示装置、動画表示方法、プログラム及び端末装置

Publications (2)

Publication Number Publication Date
JP2011135126A JP2011135126A (ja) 2011-07-07
JP5066172B2 true JP5066172B2 (ja) 2012-11-07

Family

ID=44347438

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009289971A Expired - Fee Related JP5066172B2 (ja) 2009-12-22 2009-12-22 動画表示装置、動画表示方法、プログラム及び端末装置

Country Status (1)

Country Link
JP (1) JP5066172B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10055097B2 (en) 2014-03-10 2018-08-21 International Business Machines Corporation Grasping contents of electronic documents

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10008243B1 (en) * 2016-12-13 2018-06-26 Fuji Xerox Co., Ltd. System and methods for authoring and rendering thermal output during video playback on computer displays with thermal output capability
JP2019133605A (ja) * 2018-02-02 2019-08-08 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2024024798A (ja) * 2022-08-10 2024-02-26 株式会社ユニゾンシステムズ 映像編集装置、映像編集プログラム、及び映像編集方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4200038B2 (ja) * 2003-04-07 2008-12-24 富士フイルム株式会社 ファイル選択支援プログラムおよびファイル選択支援方法
JP2005236646A (ja) * 2004-02-19 2005-09-02 Fuji Xerox Co Ltd 画像表示装置および方法およびプログラム
JP2007034762A (ja) * 2005-07-28 2007-02-08 Chugoku Electric Power Co Inc:The 代金支払代行方法
JP2007080109A (ja) * 2005-09-16 2007-03-29 Ricoh Co Ltd データ表示装置、データ表示方法、およびその方法をコンピュータに実行させるプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10055097B2 (en) 2014-03-10 2018-08-21 International Business Machines Corporation Grasping contents of electronic documents

Also Published As

Publication number Publication date
JP2011135126A (ja) 2011-07-07

Similar Documents

Publication Publication Date Title
US10529381B2 (en) Method, system and computer program product for interactively identifying same individuals or objects present in video recordings
JP5358083B2 (ja) 人物画像検索装置及び画像検索装置
US9269016B2 (en) Content extracting device, content extracting method and program
CN101138233B (zh) 用于选择视听节目部分的方法和设备
JP4201454B2 (ja) 動画要約生成方法及び動画要約生成装置
CN102483767B (zh) 对象关联装置、对象关联方法、程序及记录介质
US8718386B2 (en) Adaptive event timeline in consumer image collections
US7487524B2 (en) Method and apparatus for presenting content of images
JP4643735B1 (ja) 電子機器及び映像処理方法
JP2006216026A (ja) ディジタル写真の時間的イベント・クラスタリングのための有効な方法
WO2019011936A1 (en) IMAGE EVALUATION METHOD
JP5066172B2 (ja) 動画表示装置、動画表示方法、プログラム及び端末装置
JP2014067333A (ja) 画像処理装置、画像処理方法、およびプログラム
JP2006217046A (ja) 映像インデックス画像生成装置及び映像のインデックス画像を生成するプログラム
Liu et al. Computational approaches to temporal sampling of video sequences
JP2009060413A (ja) 動画特徴抽出方法およびシステムならびに動画検索方法およびシステム
JP5627002B2 (ja) 類似映像出力方法、類似映像出力装置および類似映像出力プログラム
JP2003330941A (ja) 類似画像分類装置
JP2006039753A (ja) 画像処理装置、画像処理方法
JP2009282660A (ja) 画像辞書生成装置,画像辞書生成方法,および画像辞書生成プログラム
JPH0944639A (ja) 映像ブロック分類方法及び装置
Ai et al. Unsupervised video summarization based on consistent clip generation
JP4692784B2 (ja) 画像記述システムにおける特徴量選択プログラム、特徴量選択方法および装置
CN105677696A (zh) 检索设备和检索方法
JP4336813B2 (ja) 画像記述システムおよび方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111213

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120210

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120612

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120717

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120810

R150 Certificate of patent or registration of utility model

Ref document number: 5066172

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150817

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371