JP5066172B2

JP5066172B2 - 動画表示装置、動画表示方法、プログラム及び端末装置

Info

Publication number: JP5066172B2
Application number: JP2009289971A
Authority: JP
Inventors: ゾランステイチ
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2009-12-22
Filing date: 2009-12-22
Publication date: 2012-11-07
Anticipated expiration: 2029-12-22
Also published as: JP2011135126A

Description

本発明は、動画データの中から複数のフレーム画像を選出し、そのフレーム画像を表示する技術に関する。

時間軸を有する動画の内容把握には再生時間に応じた時間が必要になるため、動画から抽出したフレーム画像によって表された要約の作成が行われている。要約の作成は、一般的には、動画内の物体の動きやフェードインやフェードアウト等の特殊効果等からショットを検出し、そのショット内から代表的なフレーム画像を抽出する。その抽出したフレーム画像を時系列に沿って配列することで要約データとなる。

このように、動画要約はフレーム画像によって表されるが、約１分の動画からは平均１０ショットが検出されるため、動画の再生時間が長くなるとショットの数が数百と多くなり、要約として選出するフレーム数も増える。このため、単にショットからフレーム画像を抽出するだけではなく、そのフレーム画像の中から代表的なものを選出した要約の作成が必要となる。特許文献１に、粗いレベルと、詳細なレベルとを設定し、そのレベルに応じたクラスタリングをフレーム画像に対して行うことで、レベルに応じた段階的な要約が作成される技術が開示されている。

特許３７１９９３３号公報

このように、フレーム画像に対してレベルに応じたクラスタ数を形成するクラスタリングを行って要約とするフレーム画像を選出することにより、動画の要約を閲覧する際には、ユーザのレベル指定によって、詳しい要約と、大雑把な要約とで切り替えることができる。

しかし、特許文献１のように、要約のレベルが予め設定されている場合、そのレベルに対応した数のクラスタを形成するクラスタリングを、必要なレベルの段階の回数行わなければならない。このため、要約の詳しさである粒度を高める程、粒度毎のクラスタリング処理を行い、要約の作成には時間がかってしまう。また、データ量の大きい動画を扱う要約作成においては、膨大な時間を要してしまった。

本発明は、上述の課題に鑑みて為されたものであり、その目的とするところは、動画要約の粒度を自由に設定可能にすると共に、要約作成の処理時間を短縮することである。

上述の課題を解決するために、第１の発明は、複数のフレーム画像により構成される動画データの要約をユーザ端末に表示させる動画表示装置において、前記動画データから複数の代表的なフレーム画像を抽出する代表フレーム抽出手段と、前記抽出された複数のフレーム画像の各々が属するクラスタを形成し、その形成された複数のクラスタが一のクラスタとなるまで、前記クラスタに属するフレーム画像の特徴量に基づいて類似する２つのクラスタを１つのクラスタに統合する処理を繰り返すことで、前記複数のクラスタを纏め上げるクラスタリング処理を行うクラスタ統合手段と、前記クラスタリング処理において前記２つのクラスタを１つのクラスタに統合する処理を行う都度、各クラスタに属するフレーム画像から要約フレームを選出し、その要約フレームとクラスタの数とを対応付けて記憶する要約記憶手段と、前記ユーザ端末に表示されるスクロールバーに沿って移動するカーソルの位置をユーザにより指定される前記要約の粒度として受け付ける受付手段と、前記スクロールバーの先頭から前記カーソルの位置までの長さを前記スクロールバーの全長で除した値にクラスタの最大値を乗じてクラスタ数を算出し、算出した前記クラスタ数に対応付けられた要約フレームを前記要約記憶手段から読み出して、該要約フレームを前記ユーザ端末に表示させる要約表示手段と、を備えることを特徴としている。

第１の発明によれば、動画データから抽出した複数のフレーム画像が各々に属するクラスタを形成し、その形成された複数のクラスタが一のクラスタとなるまで、前記クラスタに属するフレーム画像の特徴量に基づいて類似するクラスタ同士を統合することで、前記複数のクラスタを纏め上げ、その統合の都度、各クラスタから選出した要約フレームと、クラスタの数とを対応付けて記憶する。そして、ユーザにより指定された粒度に基づいたクラスタ数に対応付けられたフレーム画像をユーザ端末に表示させる。

これにより、自由な粒度の設定が可能な要約を、一度のクラスタリング処理で作成することができる。従って、動画要約の粒度を自由に設定可能にすると共に、要約作成の処理時間を短縮することができる。

また、第２の発明は、前記フレーム画像の中からノイズを除去するノイズ除去手段を更に備え、前記クラスタ統合手段は、前記ノイズが除去された前記代表的なフレーム画像に対して前記クラスタリング処理を行うことを特徴としている。

第２の発明によれば、要約の作成対象から予めノイズを除去することで、要約作成の処理時間を短縮することができると共に、精度の高い要約を作成することができる。

また、第３の発明における前記要約表示手段は、前記粒度が受け付けられる都度、前記スクロールバーの先頭から前記カーソルの位置までの長さを前記スクロールバーの全長で除した値にクラスタの最大値を乗じてクラスタ数を算出し、算出した前記クラスタ数に対応付けられた要約フレームを読み出して、該要約フレームを表示させるための表示データを前記ユーザ端末に送信して表示更新させることを特徴としている。

第３の発明によれば、ユーザによって粒度の指定に応じて表示させる要約フレームを逐次更新することができる。

また、第４の発明における前記要約記憶手段は、前記クラスタに属するフレーム画像のうち、該クラスタに属するフレーム画像の特徴量の平均値に最も近い特徴量を有するフレーム画像を前記要約フレームとして選出することを特徴としている。

第４の発明によれば、クラスタに属するフレーム画像の特徴量に基づいて要約フレームを選出するため、クラスタの統合の都度、要約フレームの選出の基準となる指標が変動する。これにより、選出される要約フレームにも変動が生じ、単調は要約作成を防止できる。

また、第５の発明おける前記要約記憶手段は、前記クラスタに属するフレーム画像を時系列に配列した際の、その配列順序に基づいて前記要約フレームを選出することを特徴としている。

第５の発明によれば、クラスタに属するフレーム画像の時系列での配列順序に基づいて要約フレームを選出するため、クラスタの統合の都度、要約フレームの選出の基準となる指標が変動する。これにより、選出される要約フレームにも変動が生じ、単調は要約作成を防止できる。また、クラスタに属するフレーム画像の特徴量の平均値と、フレーム画像の特徴量との距離を算出する必要がないため、要約の選出のための処理時間を短縮できる。

また、第６の発明は、コンピュータが、複数のフレーム画像により構成される動画データの要約をユーザ端末に表示させる動画表示方法において、
前記動画データから複数の代表的なフレーム画像を抽出する代表フレーム抽出工程と、
前記抽出された複数のフレーム画像の各々が属するクラスタを形成し、その形成された複数のクラスタが一のクラスタとなるまで、前記クラスタに属するフレーム画像の特徴量に基づいて類似する２つのクラスタを１つのクラスタに統合する処理を繰り返すことで、前記複数のクラスタを纏め上げるクラスタリング処理を行うクラスタ統合工程と、
前記クラスタリング処理において前記２つのクラスタを１つのクラスタに統合する処理を行う都度、各クラスタに属するフレーム画像から要約フレームを選出し、その要約フレームとクラスタの数とを対応付けて要約記憶手段に記憶する要約記憶工程と、
前記ユーザ端末に表示されるスクロールバーに沿って移動するカーソルの位置をユーザにより指定される前記要約の粒度として受け付ける受付工程と、
前記スクロールバーの先頭から前記カーソルの位置までの長さを前記スクロールバーの全長で除した値にクラスタの最大値を乗じてクラスタ数を算出し、算出した前記クラスタ数に対応付けられた要約フレームを前記要約記憶手段から読み出して、該要約フレームを前記ユーザ端末に表示させる要約表示工程と、
を行うことを特徴としている。

また、第７の発明は、第６に発明に記載の動画表示方法を前記コンピュータに実行させるためのプログラムである。第６及び第７の発明によれば、第１の発明と同様の作用効果が得られる。

また、第８の発明は、第１〜第５の発明の何れかの動画表示装置にネットワークを介して接続された端末装置であって、前記端末装置に表示されるスクロールバーに沿って移動するカーソルの位置をユーザにより指定される要約の粒度として入力する入力手段と、前記入力により粒度が更新される都度、前記動画表示装置に該粒度を送信する送信手段と、前記送信に応答して前記動画表示装置から返送される要約フレームを受信し、その受信に応じて該要約フレームの表示を更新する表示制御手段と、を備えることを特徴としている。

第８の発明によれば、ユーザの粒度の指定に応じて、要約フレームが表示更新されるため、ユーザは表示させた要約の粒度を自由に設定することができる。

本発明によれば、動画要約の粒度を自由に設定可能にすると共に、要約作成の処理時間を短縮することができる。

動画表示装置の機能構成の一例を示すブロック図。（ａ）動画ＤＢ、（ｂ）要約生成メモリ、（ｃ）要約インデックスのデータ構成の一例を示す図。階層的クラスタリング処理のデータ処理の一例を説明するためのフローチャート。動画データから代表フレームを抽出するまでの様子を説明するための図。階層的クラスタリング処理、要約生成メモリの遷移の様子を説明するための図。動画検索表示画面の表示例を示す図。要約ウィンドウの表示例を示す図。

［動画表示装置の構成］
以下、本発明の実施の形態を図面に基づいて説明する。
図１は、本発明を適用した動画表示装置１の機能ブロック図である。動画表示装置１には、図示しないクライアント端末が通信ネットワーク（インターネットや電話回線網等）を介して接続され、互いにデータ通信可能となっている。

動画表示装置１は、動画の要約をユーザ端末Ｔ（端末装置）に表示させるためのサーバとして機能し、通信ネットワークを介して接続されたパーソナルコンピュータや携帯端末等のユーザ端末Ｔから送信されるキーワードや画像等を検索要求（クエリ）として受信する。そして、そのクエリに応じた動画データの検索を行って、クエリに対する類似度順にランキングした検索結果をユーザ端末Ｔに返送する。

キーワードがクエリである場合は、そのキーワード、又は該キーワードに類似するタグ（テキスト）が関連付けられた動画データをＤＢ（データベース）から検索する。また、画像がクエリである場合には、該画像から算出した特徴量と類似する特徴量を有する動画データを検索する。このようなクエリに応じた検索結果は、例えば、図６に示すような検索結果画面によってユーザ端末Ｔに一覧表示される。

本実施形態における動画表示装置１は、動画データに対応した要約データも表示させることが可能である。図６においては、検索結果である各動画データに対応して、要約ウィンドウＷが対になって表示されている。要約ウィンドウＷには、図７に示すような要約データが表示されると共に、要約の詳しさ、粗さを示す指標となる粒度を指定可能なスクロールバーＳＢが表示される。ユーザは、このスクロールバーＳＢを操作することで粒度を指定して、要約として表示されるフレーム画像の枚数を自由に変更することができる。

尚、本実施形態における要約とは、動画データに含まれるフレーム画像を特徴量等に基づいて集約したものである。

図１に示すように、動画表示装置１は、動画ＤＢ１０と、要約生成部２０と、要約インデックス５０と、ズーミングＵＩ部６０と、を備えて構成される。これらの機能部は、所謂コンピュータにより構成され、演算／制御装置としてのＣＰＵ（Central Processing Unit）、記憶媒体としてのＲＡＭ（Random Access Memory）及びＲＯＭ（Read Only Memory）、通信インターフェイス等が連関することで実現される。

動画ＤＢ１０は、動画データを蓄積記憶するデータベースであり、図２（ａ）にそのデータ構成の例が示されている。同図に示すように、動画ＤＢ１０は、各動画を一意に識別可能な識別情報である動画ＩＤと、動画データとを対応付けて記憶する。

動画データは、図２（ａ）に示すように複数の連続したフレーム画像（静止画像）により構成され、ＭＰＥＧやＡＶＩ形式等のファイル形式で格納される。例えば、１秒間に３０フレームといったレートでフレーム画像は格納される。フレーム画像は、再生の時間軸に対応した時系列に配列され、各フレームを識別可能なフレーム番号（例えば、図２（ａ）に示す＃１〜＃Ｎ）が付されている。

要約生成部２０は、動画ＤＢ１０に記憶された動画データから要約データを生成する機能部であり、図１に示すように、動画入力部２２、ショット分割部２４、ノイズ除去部２６、代表フレーム抽出部２８、クラスタリング部３０及び要約生成メモリ４０を備えて構成される。

動画入力部２２は、要約の作成対象となる動画データを動画ＤＢ１０から読み取りショット分割部２４に入力する。尚、動画データを入力する際には、必要に応じてサンプリング（間引き）を行う。

サンプリングの一例としては、動画の所定秒数（例えば１秒間）内に含まれているフレームの中から１枚のフレーム画像を選択することにより行われる。また、所定秒数ではなく、所定枚数毎のフレーム画像の中から１枚のフレーム画像を選択することとしてもよい。このようなサンプリングによって、動画要約作成の処理対象とするフレーム数を動画全体の１／３０（１秒に１フレーム）や１／１００（３秒に１フレーム）に削減できる。また、一般的に１秒間では動画の内容が変わらない場合が多いので、このサンプリングが動画要約の精度には影響を与えることは少ない。

ショット分割部２４は、入力された動画データを複数のショットに分割する。ショットとは、撮影された一連の連続したフレーム画像であり、カメラの切り替えや動画編集によるつなぎ合わせ等により形成される。ショット分割部２４は、各フレーム画像に基づいて視覚的な特徴量（色、形状、テクスチャ）を算出する。そして、その特徴量の連続するフレーム間での変化量を算出して、その変化量が所定の閾値以上であるフレーム間、その変化量の推移に大きな変化が生じたフレーム間をショットの境界として検出して、フレーム画像をショットに分割する。

また、フレーム画像の特徴量に基づいて、白黒動画であるかカラー動画であるかに基づいてショット分割を行う。この白黒／カラーの判定は、各フレームから色ヒストグラムを抽出し、フレーム毎の主な色（画像全体の大きな割合を占める色）の数を計算し、動画の全フレーム（或いは、サンプリングしたフレーム）に対して、主な色の数の平均を計算して、その平均に基づいて判定を行う。その後、白黒／カラーの判定の結果によって、ショット分割のための閾値を決定する。

図４に示すような動画データ２００がショット分割部２４に入力されると、各フレーム画像間の特徴量の変化量を算出することで、図４（ａ）に示すようなフレーム間の境界位置（破線）が検出されて、ショットＳＨ１〜ＳＨ７に分割される。

ノイズ除去部２６は、ショット分割部２４により分割されたショットからノイズを除去する。具体的には、各ショットに含まれるフレーム画像の特徴量に基づいて、色の数の少ない単色フレーム（例えば、単色の背景に文字が描かれているフレーム）のみで構成されるショットを検出し、そのショットをノイズとして除去する。この単色フレームの判定も、上述した色ヒストグラムにより判定が可能である。

また、各ショットに含まれるフレーム画像の枚数と、動画全体の再生時間とからショットの再生時間を求め、その再生時間が所定値以下（例えば、１ｓ以下）となるショットをノイズとして除去する。尚、動画全体の再生時間は、動画のメタデータとして設定されていることが多い。また、各フレームに時刻データがメタデータとして設定されていることもあるため、このデータを用いて再生時間を求めても勿論よい。

図４（ａ）のようにショット分割された動画データ２００がノイズ除去部２６に入力された際には、図４（ｂ）のように、ショットＳＨ５が単色フレームであるために除去される。このノイズ除去部２６によって、予め要約作成の対象となるフレーム画像を削減することで、処理時間を短縮すると共に、要約の精度を高めることができる。

代表フレーム抽出部２８は、ノイズ除去部２６によってノイズ除去された各ショットから代表フレームとなるフレーム画像を抽出する。代表フレームとして抽出する基準は、任意に設定可能であり、例えば、各ショット内に含まれるフレーム画像の特徴量の平均値に最も近いフレーム画像を代表フレームとする。また、各ショットの先頭のフレーム画像を代表フレームとしてもよいし、ショット内のフレーム画像を時系列に配列して再生時刻が再生開始から再生終了までの間で中間位置となるフレーム画像を代表フレームとしてもよい。尚、上述の説明では、ノイズ除去後のショットから代表フレームを抽出するという処理順序であるが、各ショットから抽出した代表フレームを抽出後に、この代表フレームからノイズを除去することとしてもよく、その処理順序は適宜設計に応じて変更可能である。

図４（ｃ）においては、各ショット内のフレーム画像の特徴量に基づいて、平均値に最も近いフレーム画像を代表フレームとした例を示している。即ち、各ショットからはフレーム画像＃２，＃５，＃８，＃９，＃１２，＃１５が代表フレームとして抽出される。

代表フレーム抽出部２８は、抽出した代表フレームのフレーム番号を要約生成メモリ４０に記憶する。要約生成メモリ４０は、各動画データについての要約データを生成する際に一時的に用いられるメモリ領域であり、図２（ｂ）に示すように、代表フレーム番号と、特徴量と、クラスタＩＤとを対応付けて記憶する。

特徴量は、代表フレームから算出される画像の配色やテクスチャ、形状等の各画像の特徴を数値化して表現したものであり、上述のようにショット分割部２４が算出する。尚、代表フレーム抽出部２８が、代表フレームから特徴量を算出することとしてもよい。

色、形状、テクスチャなどの特徴量についての参考文献としては、
“Content-based image retrieval at the end of the early years”,IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.22,No.12,pp.1349-1380.Dec 2000.
が知られている。

クラスタＩＤは、複数の代表フレームを特徴量に基づいてクラスタリングした際に形成されるクラスタを識別する識別情報である。このクラスタＩＤは、クラスタリング部３０により設定される。

クラスタリング部３０は、代表フレームに後述する階層的クラスタリング処理（図３参照）を施すことで、代表フレーム抽出部２８が抽出した代表フレームの枚数を最大値としたクラスタ数から、最小のクラスタ数である１クラスタまでの全クラスタ数について要約フレームとなる代表フレームを選出して、要約データを生成する。

階層的クラスタリングとは、対象となるデータをばらばらの一つのクラスタとみなして、類似するもの同士を統合していくつかのグループ（クラスタ）に纏め上げて行くクラスタリング手法である。

要約インデックス５０は、クラスタリング部３０により生成された要約データに動画ＩＤをインデックスとして記憶するデータベースであり、図２（ｃ）に示すように動画ＩＤと、クラスタ数及び要約フレーム群を含む要約データとを対応付けて記憶する。

クラスタ数は、クラスタリング部３０により形成されたクラスタの数であり、階層的クラスタリング処理により最初に設定された最大のクラスタ数から、最小のクラスタ数の１までが動画ＩＤ毎に設定される。

要約フレーム群は、動画データの要約として選出されたフレーム画像（要約フレーム）であり、各クラスタ数についてそのクラスタ数分の枚数のフレーム画像のフレーム番号が設定される。

クラスタ数には、各クラスタ数の枚数でフレーム画像が対応付けられた記憶される。例えば、図２（ｃ）においては、動画ＩＤ‘ＸＸＸＸ’の動画データについ、クラスタ数‘１’には一枚のフレーム画像＃８が対応付けられている。また、クラスタ数‘２’には、二枚のフレーム画像＃９、＃１２が対応付けられている。また、クラスタ数‘６’には、六枚のフレーム画像＃２、＃５、＃８、＃９、＃１２、＃１５が対応付けられている。

このように、全クラスタ数について、そのクラスタ数分のフレーム画像が要約として選出されることで、ユーザが指定したクラスタに応じた枚数で要約となるフレーム画像を表示することが可能になる。

ズーミングＵＩ部６０は、要約データの表示ＵＩを生成して、ユーザに提供する機能部であり、図１に示すように、粒度取得部６２と、要約取得部６４と、要約表示部６６とを備えて構成される。

粒度取得部６２は、ユーザ端末Ｔでのユーザ操作に基づいて、要約の詳細度合いを示す粒度情報をユーザ端末Ｔから取得する。具体的には、図６に示すような要約ウィンドウＷ上に表示されたスクロールバーＳＢにより粒度情報の指定が可能である。

例えば、スクロールバーＳＢの全長に対するカーソルＣＳの位置を粒度情報として取得する。このとき、粒度取得部６２は、スクロールバーＳＢの先頭からカーソルＣＳまでの長さをスクロールバーＳＢの全長で除算した値、即ち、カーソルＣＳのスクロールバーＳＢに対する位置の比率を求める。この粒度情報の取得は、ユーザ端末Ｔで表示させた要約ウィンドウＷに対するユーザ操作をリアルタイムに受信することで、逐次取得可能である。

この粒度情報としては、カーソルＣＳのスクロールバーＳＢに対する位置の比率とは限らず、例えば、クラスタ数そのままを示す数値であってもよく、この場合は、ユーザに表示させた要約フレームの枚数を指定させることとなる。

要約取得部６４は、粒度取得部６２が取得した粒度情報に基づいて、要約フレームとなるフレーム画像を取得する。具体的には、該粒度情報に対応したクラスタ数を特定し、そのクラスタ数に対応付けられた要約フレーム群のフレーム番号を要約インデックス５０から読み出す。そして、そのフレーム番号に対応付けられたフレーム画像を動画ＤＢ１０から読み出して、要約フレームを取得する。

クラスタ数の特定は、上述のようにカーソルＣＳのスクロールバーＳＢに対する位置を粒度情報として取得した場合は、その粒度情報から算出した上述の比率を動画ＩＤに対応付けられたクラスタ数のうちの最大値のクラスタ数に乗算することで求められる。

例えば、図２（ｃ）のように、動画ＩＤ‘ＸＸＸＸ’についての最大のクラスタ数が‘６’であり、カーソルＣＳのスクロールバーＳＢに対する位置の比率が‘０．５’である場合には、クラスタ数は‘３（＝６×０．５）’と特定される。

要約表示部６６は、要約取得部６４によって取得された要約フレームのフレーム画像をユーザ端末Ｔに表示させるための表示データを作成して、該ユーザ端末Ｔに送信することで、該フレーム画像を表示させる。このとき、要約フレームをフレーム番号の昇順に配列することで、該要約フレームを時系列で配列した表示データが作成される。

ユーザ端末Ｔは、ユーザ操作に基づいて粒度情報を入力する粒度入力部Ｔ１と、この入力により粒度情報が更新される都度、動画表示装置１に該粒度の情報を送信する粒度送信部Ｔ３と、送信部による粒度情報の送信に応答して返送される要約フレームを受信し、該要約フレームの表示を更新する表示制御部Ｔ５と、を備えて構成される。

粒度入力部Ｔ１は、ユーザ端末Ｔが有するキーボードやマウス等により実現され、例えば、図６に示す要約ウィンドウＷのスクロールバーＳＢ上のカーソルＣＳをユーザがマウスで移動操作すると、その移動に応じて粒度情報を取得する。尚、粒度情報の入力としては、スクロールバーＳＢ上のカーソルＣＳの位置の移動操作に限らず、例えば、図６に示すような「＋」ボタンや「−」ボタンの押下回数や押下時間により取得してもよいし、数値入力であってもよい。

粒度送信部Ｔ３は、例えば、マウスでのカーソルＣＳの移動操作により更新される粒度情報を逐次動画表示装置１に対して送信する。送信部が粒度情報を送信すると、上述のように動画表示装置１の粒度取得部６２により該粒度情報が取得され、要約表示部６６により生成された要約フレームを含む表示データが返送されてくる。

表示制御部Ｔ５は、その返送されてきた表示データを受信すると、該表示データにより要約ウィンドウＷの表示内容を更新する。

〔階層的クラスタリング処理〕
次ぎに、図３に示すフローチャートと、図５のクラスタリングと要約生成メモリ４０の遷移の様子を示す図に基づいて、クラスタリング部３０による階層的クラスタリング処理の詳細を説明する。尚、この説明では、図４で抽出された代表フレーム＃２，＃５，＃８，＃９，＃１２，＃１５に対して処理を行う例を取り上げて説明する。また、要約生成メモリ４０の図示において、特徴量のメモリ内容の図示は省略している。

先ず、クラスタリング部３０は、代表フレーム抽出部２８により抽出された複数の各代表フレームをそれぞれのクラスタとして見なして、各フレーム画像に個々のクラスタＩＤを設定し、要約生成メモリ４０に記憶し（ステップＳ１１）、クラスタ数Ｋとして代表フレームの枚数を設定する（ステップＳ１２）。

図５においては、６枚の代表フレームそれぞれをクラスタと見なして、破線で示すクラスタＡ〜Ｆを形成する。即ち、６つのクラスタに各代表フレームがそれぞれ分類される（図５（ａ）参照）。

そして、クラスタリング部３０は、各クラスタに属する代表フレームのフレーム番号を要約生成の対象とする動画ＩＤのクラスタ数Ｋに対応付けて要約インデックス５０に記憶する（ステップＳ１３）。このとき、図２（ｃ）のように、クラスタ数‘６’に対応する要約フレーム群として＃２，＃５，＃８，＃９，＃１２，＃１５の６枚の要約フレームが記憶される。

次ぎに、クラスタリング部３０は、各クラスタ間の類似度を算出し（ステップＳ１４）、算出した類似度が最も高いクラスタの組み合わせを特定する（ステップＳ１５）。

具体的には、要約生成メモリ４０に記憶されている特徴量をクラスタＩＤに基づいて検索し、そのクラスタＩＤに関連付けられている特徴量の平均値を算出することで、クラスタの特徴量を算出する。そして、異なるクラスタを対にして各クラスタの組み合わせについて、特徴量の類似度を算出する。類似度の算出には、City-block距離やEuclidean距離等の距離関数による公知技術が用いられる。

また、二つのクラスタ間の類似度としては、上記のクラスタに属する代表フレームの特徴量の平均値を用いた計算方法の他に、あるクラスタに属する代表フレームの各特徴量と、他のクラスタに属する代表フレームの各特徴量とのそれぞれの距離を個別に計算し、その平均値（または、最短の距離、または、最長の距離）をクラスタ間の類似度としてもよい。また、各クラスタに属する代表フレーム間の距離のうち、最短の距離又は最長の距離をクラスタ間の類似度としてもよい。

図５（ａ）においては、各クラスタには代表フレームが個々に分類されているため、類似度の算出は、各代表フレームの特徴量を用いて行う。そして、各クラスタ間の類似度を算出した結果、クラスタＡとクラスタＢの類似度が最も高いとして特定される。

クラスタリング部３０は、特定したクラスタ（類似クラスタ）を統合する（ステップＳ１６）。この統合は、例えば、類似クラスタとして特定した２つのクラスタのうちの、何れかのクラスタに属する代表フレームのクラスタＩＤを、他方のクラスタに属する代表フレームのクラスタＩＤで書き換えることで行われる。図５（ｂ）においては、代表フレーム＃５のクラスタＩＤが‘Ａ’に書き換えられることで、クラスタＡとＢがクラスタＡに統合される。

そして、クラスタリング部３０は、クラスタ数Ｋの値を１減算し（ステップＳ１７）、統合後の各クラスタに属する代表フレームのうち、要約フレームとして記憶するものを選出する（ステップＳ１８）。要約フレームの選出は、クラスタに属する代表フレームの特徴量の平均値と、該クラスタに属する代表フレームの特徴量との距離を算出し、この距離が短い代表フレームを選出することで行われる。

そして、クラスタＣと、各クラスタから選出した代表フレーム（要約フレーム）とを要約インデックス５０に記憶する（ステップＳ１９）。図５（ｂ）においては、クラスタ数Ｋが‘５’となり、＃２，＃８，＃９，＃１２，＃１５の５枚の代表フレームが要約フレームとして選出され、図２（ｃ）に示すように要約インデックス５０に記憶される。

クラスタリング部３０は、ステップＳ１７で減算したクラスタ数Ｋが‘１’であるか否かを判定し（ステップＳ２０）、１となった判定した場合には（ステップＳ２０；Ｙｅｓ）、階層的クラスタリング処理を終了する。また、クラスタ数Ｋが‘１’ではないと判定した場合には（ステップＳ２０；Ｎｏ）、ステップＳ１４に処理を移行して、ステップＳ１４〜Ｓ１９の処理を繰り返す。

例えば、図５（ｂ）のように統合されたクラスタ（クラスタ数Ｋ＝５）において、更に、各クラスタ間の類似度が算出される。このとき、図５（ｂ）におけるクラスタＡの特徴量は、代表フレーム＃２と＃５の平均値が算出される。そして、クラスタＣとＦが最も類似すると判断されると、このクラスタＣとＦが統合され、これにより、代表フレーム＃８のクラスタＩＤが‘Ｆ’に書き換えられる。そして、クラスタ数Ｋが‘４’に減算され、このクラスタ数Ｋと、代表フレーム＃２，＃９，＃１２，＃１５が要約フレームとして記憶される（図２（ｃ）参照）。

また、図５（ｃ）のように統合されたクラスタ（クラスタ数Ｋ＝４）においては、クラスタＡとＥの特徴量が最も類似すると判断されて統合され、代表フレーム＃１２のクラスタＩＤが‘Ａ’に書き換えられる。そして、クラスタ数Ｋが‘３’に減算され、このクラスタ数Ｋと、代表フレーム＃５，＃９，＃１５が要約フレームとして記憶される。このとき、クラスタＡに代表フレーム＃１２が統合されることで、クラスタＡの特徴量の平均値が更新されて、代表フレーム＃５が要約フレームとして選出されている。

次ぎに、図５（ｄ）のように統合されたクラスタ（クラスタ数Ｋ＝３）においては、クラスタＡとＦの特徴量が最も類似すると判断されて統合され、代表フレーム＃８及び＃１５のクラスタＩＤが‘Ａ’に書き換えられる。そして、クラスタ数Ｋが‘２’に減算され、このクラスタ数Ｋと、２枚の代表フレーム＃９，＃１２が要約フレームとして記憶される。

更に、図５（ｅ）のように統合されたクラスタ（クラスタ数Ｋ＝２）においては、クラスタＡとＤの特徴量が最も類似すると判断されて統合され、代表フレーム＃９のクラスタＩＤが‘Ａ’に書き換えられる。そして、クラスタ数Ｋが‘１’に減算され、このクラスタ数Ｋと、１枚の代表フレーム＃８が要約フレームとして記憶される。

以上のような階層的クラスタリング処理により、要約インデックス５０には、抽出した代表フレームの枚数であり最大クラスタ数である‘６’から、最小クラスタ数の‘１’までの全クラスタ数それぞれについて、各クラスタ数の枚数分の要約フレームが記憶される。

図７は、要約ウィンドウＷの表示画面の一例である。例えば、図６に示す検索結果画面の検索結果となる各動画に要約ウィンドウＷが対になって表示される。

初期状態では、検索結果である動画ＩＤと、クラスタ数‘１’とに対応付けられた要約フレーム＃８が読み出されて、図７（ａ）のように要約が一枚の画像によって表示される。図７（ａ）において、カーソルＣＳの位置は、スクロールバーＳＢの先頭に配置されているので、粒度が最も低く（粗く）設定されている。

そして、ユーザがスクロールバーＳＢ上のカーソルＣＳに粒度を高める操作（例えば、カーソルＣＳの右方向への移動）を行うと、そのカーソルＣＳの位置が粒度情報としてユーザ端末Ｔから動画表示装置１に送信されて、該粒度情報に対応するクラスタ数が算出される。

このようにユーザ操作に応じてユーザ端末Ｔから粒度情報がリアルタイムで送信されることで、粒度情報に対応したクラスタ数に応じた要約フレームがユーザ端末Ｔに返送されて、図７（ｂ）の２枚の要約フレームから、図７（ｃ）の３枚、図７（ｄ）の４枚、図７（ｅ）の５枚、図７（ｆ）の６枚までの要約フレームといったように細かく表示が更新される。

また、同様にユーザが図７（ｆ）のカーソルＣＳの位置から粒度を低める操作（例えば、カーソルＣＳの左方向への移動）を行うと、図７（ｆ）の６枚から図７（ａ）の１枚までの要約フレームが動的に更新されるようになる。

以上、本実施形態によれば、動画データから抽出した複数の代表フレームに対して、代表フレームを個々のクラスタと見なして、そのクラスタ間の類似度に応じて纏め上げていく。このような、低階層のクラスタを高階層のクラスタに纏め上げていく所謂ボトムアップのクラスタリングを行うことで、全クラスタ数について、そのクラスタ数分の要約フレームを選出して、要約インデックス５０を作成する。このため、ユーザが自由に表示させる要約の粒度を設定し、その粒度に応じた枚数の要約フレームを表示することができる。

これにより、図７に示す要約ウィンドウの表示例のように、カーソルＣＳの操作で粒度を低めると（粗くすると）動画を時間的に縮小し、粒度を高める（詳細化すると）動画を時間的に拡大するように、動画要約のズームイン又はズームアウトを実現することができる。

初期段階で設定した複数のクラスタを纏め上げるという階層的クラスタリングを行うことによって、一度のクラスタリング処理で各クラスタ数に対応した要約を作成することができる。このため、要約作成の処理時間を短縮することができる。

また、クラスタに属する代表フレームから算出した特徴量の平均値に基づいて、各クラスタから要約フレームを選出するため、クラスタの統合によって平均値が変化し、その選出される要約フレームもクラスタ毎に変化する。このため、単に要約フレームの枚数が増減するのではなく、各クラスタを代表するフレーム画像が動的に表示されるようになり、動画要約が単調になることを防止できる。

尚、上述した実施形態により本発明が限定されるものではなく、その要旨を逸脱しない範囲で変更可能である。

例えば、各クラスタに属する代表フレームを時系列に配列し、該クラスタに属する代表フレームの枚数の半分の位置（先頭から（フレーム数／２）枚目）に配列される代表フレームを要約フレームとして選出することとしてもよい。これにより、クラスタの統合によってクラスタに属するフレームの枚数が変化し、選出される要約フレームもクラスタの統合の都度、変化する。このため、単に要約フレームの枚数が増減するのではなく、各クラスタを代表するフレーム画像が動的に表示されるようになり、動画要約が単調になることを防止できる。また、各クラスタに属する代表フレームの特徴量と平均値との距離を算出する処理時間が削減され、更に要約作成の処理時間を短縮することができる。

また、図７に示すように、要約ウィンドウＷに要約フレームを表示する際に、その要約ウィンドウＷの表示枠内に収まるように、該要約フレームの大きさを拡大又は縮小することとしてもよい。具体的には、要約ウィンドウＷの表示サイズを予め取得しておき、表示対象となる要約フレームの横幅の合計値が、要約ウィンドウＷの横幅よりも大きくなる場合には、その要約フレームの横幅の合計値を要約ウィンドウＷの横幅よりも小さくさせる倍率を算出して、その倍率で拡大又は縮小させた要約フレームを要約ウィンドウＷ内に表示させる。

また、要約ウィンドウＷの横幅よりも小さくなる場合には、その要約フレームの高さを要約ウィンドウのＷの高さよりも小さくさせる倍率を算出して、その倍率で拡大又は縮小させた要約フレームを要約ウィンドウＷ内に表示させる。このようにすることで、粒度を低くめる操作を行った場合に、要約ウィンドウＷ内に要約フレームが大きく表示されるようになる。また、粒度を高める操作を行った場合には、要約ウィンドウＷ内に多くの画像が表示されるように要約フレームが縮小されて表示される。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１動画表示装置
１０動画ＤＢ
２０要約生成部
２２動画入力部
２４ショット分割部
２６ノイズ除去部
２８代表フレーム抽出部
３０クラスタリング部
４０要約生成メモリ
５０要約インデックス
６０ズーミングＵＩ部
６２粒度取得部
６４要約取得部
６６要約表示部
Ｔユーザ端末

Claims

複数のフレーム画像により構成される動画データの要約をユーザ端末に表示させる動画表示装置において、
前記動画データから複数の代表的なフレーム画像を抽出する代表フレーム抽出手段と、
前記抽出された複数のフレーム画像の各々が属するクラスタを形成し、その形成された複数のクラスタが一のクラスタとなるまで、前記クラスタに属するフレーム画像の特徴量に基づいて類似する２つのクラスタを１つのクラスタに統合する処理を繰り返すことで、前記複数のクラスタを纏め上げるクラスタリング処理を行うクラスタ統合手段と、
前記クラスタリング処理において前記２つのクラスタを１つのクラスタに統合する処理を行う都度、各クラスタに属するフレーム画像から要約フレームを選出し、その要約フレームとクラスタの数とを対応付けて記憶する要約記憶手段と、
前記ユーザ端末に表示されるスクロールバーに沿って移動するカーソルの位置をユーザにより指定される前記要約の粒度として受け付ける受付手段と、
前記スクロールバーの先頭から前記カーソルの位置までの長さを前記スクロールバーの全長で除した値にクラスタの最大値を乗じてクラスタ数を算出し、算出した前記クラスタ数に対応付けられた要約フレームを前記要約記憶手段から読み出して、該要約フレームを前記ユーザ端末に表示させる要約表示手段と、
を備えることを特徴とする動画表示装置。
前記フレーム画像の中からノイズを除去するノイズ除去手段を更に備え、
前記クラスタ統合手段は、
前記ノイズが除去された前記代表的なフレーム画像に対して前記クラスタリング処理を行うことを特徴とする請求項１に記載の動画表示装置。
前記要約表示手段は、
前記粒度が受け付けられる都度、前記スクロールバーの先頭から前記カーソルの位置までの長さを前記スクロールバーの全長で除した値にクラスタの最大値を乗じてクラスタ数を算出し、算出した前記クラスタ数に対応付けられた要約フレームを読み出して、該要約フレームを表示させるための表示データを前記ユーザ端末に送信して表示更新させることを特徴とする請求項１又は２に記載の動画表示装置。
前記要約記憶手段は、
前記クラスタに属するフレーム画像のうち、該クラスタに属するフレーム画像の特徴量の平均値に最も近い特徴量を有するフレーム画像を前記要約フレームとして選出することを特徴とする請求項１〜３の何れかに記載の動画表示装置。
前記要約記憶手段は、
前記クラスタに属するフレーム画像を時系列に配列した際の、その配列順序に基づいて前記要約フレームを選出することを特徴とする請求項１〜３の何れかに記載の動画表示装置。
コンピュータが、複数のフレーム画像により構成される動画データの要約をユーザ端末に表示させる動画表示方法において、
前記動画データから複数の代表的なフレーム画像を抽出する代表フレーム抽出工程と、
前記抽出された複数のフレーム画像の各々が属するクラスタを形成し、その形成された複数のクラスタが一のクラスタとなるまで、前記クラスタに属するフレーム画像の特徴量に基づいて類似する２つのクラスタを１つのクラスタに統合する処理を繰り返すことで、前記複数のクラスタを纏め上げるクラスタリング処理を行うクラスタ統合工程と、
前記クラスタリング処理において前記２つのクラスタを１つのクラスタに統合する処理を行う都度、各クラスタに属するフレーム画像から要約フレームを選出し、その要約フレームとクラスタの数とを対応付けて要約記憶手段に記憶する要約記憶工程と、
前記ユーザ端末に表示されるスクロールバーに沿って移動するカーソルの位置をユーザにより指定される前記要約の粒度として受け付ける受付工程と、
前記スクロールバーの先頭から前記カーソルの位置までの長さを前記スクロールバーの全長で除した値にクラスタの最大値を乗じてクラスタ数を算出し、算出した前記クラスタ数に対応付けられた要約フレームを前記要約記憶手段から読み出して、該要約フレームを前記ユーザ端末に表示させる要約表示工程と、
を行うことを特徴とする動画表示方法。
請求項６に記載の動画表示方法を前記コンピュータに実行させるためのプログラム。
請求項１〜５の何れかに記載の動画表示装置にネットワークを介して接続された端末装置であって、
前記端末装置に表示されるスクロールバーに沿って移動するカーソルの位置をユーザにより指定される要約の粒度として入力する入力手段と、
前記入力により粒度が更新される都度、前記動画表示装置に該粒度を送信する送信手段と、
前記送信に応答して前記動画表示装置から返送される要約フレームを受信し、その受信に応じて該要約フレームの表示を更新する表示制御手段と、
を備えることを特徴とする端末装置。