JP2006319980A

JP2006319980A - イベントを利用した動画像要約装置、方法及びプログラム

Info

Publication number: JP2006319980A
Application number: JP2006130588A
Authority: JP
Inventors: 斗善 ▲黄▼; Doosun Hwang; Kiwan Eom; 基完嚴; Young-Su Moon; 永秀文; Chien Kin; 智淵金
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2005-05-09
Filing date: 2006-05-09
Publication date: 2006-11-24
Also published as: KR20060116335A; EP1722371A1; US20060251385A1

Abstract

【課題】動画像を正確かつ迅速に要約することが可能なイベントを利用した動画像要約装置を提供する。
【解決手段】イベントを利用した動画像要約装置は、動画像の映像成分から検出された映像イベント成分に基づいて、ショットを結合または分割し、結合または分割された結果をセグメントとして出力する映像要約部１０と、動画像の音声成分から検出された音声イベント成分に基づいて、セグメントを結合または分割し、結合または分割された結果を動画像の要約結果として出力する音声要約部１２と、を備えている。映像イベントは、動画像の内容が転換される部分に挿入されるグラフィック効果であり、音声イベントは、音声成分を区分する音の種類である。
【選択図】図１

Description

本発明は、音声及び／または映像記録媒体、マルチメディアパーソナルコンピュータ、メディアサーバ、デジタル多用途ディスク（ＤＶＤ：Digital Versatile Disc）レコーダ、デジタルテレビなど、動画像を処理または利用する機器に係り、特に、イベントを利用して動画像を要約する動画像要約装置、方法及びプログラムに関する。

近年、データ記録媒体のテラバイト（tera-bytes）レベルへの大容量化、データ圧縮技術の向上、デジタル機器の種類の多様化、放送の多チャンネル化、個人的なコンテンツの生成の急増など、マルチメディアコンテンツの生成が広まっている。しかし、ユーザは、かかる多様で膨大なマルチメディアコンテンツから所望のコンテンツを検索することの難しさを経験しており、加えて、所望のコンテンツを検索するのに十分な時間をとることができない。したがって、多くのユーザは、コンピュータなどが所望のコンテンツを要約して示してくれることを望んでいる。例えば、多くのユーザは、所望のコンテンツをどこででも見ることができること、所望のコンテンツの要約またはハイライト部分を見ること、所望のコンテンツまたはシーンをインデックス化し、自身の好みまたは気分に応じてコンテンツまたはシーンが提供されることを望んでいる。

かかるユーザの要望を満たすために、従来、様々な動画像要約方法が開発されてきた。特許文献１，２，３には、ショット単位で動画像を分割して要約する従来の動画像要約方法が開示されている。かかる従来の動画像要約方法は、動画像を非常に大きいセグメントに分割するので、要約された動画像情報をユーザに提供することができないという問題点を有している。

特許文献４，５，６には、単一情報の類似度に基づいて動画像を要約する従来の動画像要約方法が開示されている。かかる従来の動画像要約方法は、内容に基づいて動画像を分割する代わりに、カラーの類似度に基づいて動画像を要約する。したがって、かかる従来の動画像要約方法は、内容に応じて動画像を正しく要約することができないという問題点を有している。

特許文献７には、マルチモーダル（multimodal）に基づいて動画像を圧縮する従来の動画像圧縮方法が開示されている。かかる従来の動画像圧縮方法は、動画像の圧縮（要約）が非常に遅いという問題点を有している。

米国特許第６，０７２，５４２号明細書米国特許第６，２７２，２５０号明細書米国特許第６，４９３，０４２号明細書米国特許第５，８０５，７３３号明細書米国特許第６，６９７，５２３号明細書米国特許第６，７２４，９３３号明細書米国特許出願公開第２００３／０１３１３６２号明細書

本発明が解決しようとする課題は、動画像を正確かつ迅速に要約することが可能なイベントを利用した動画像要約装置を提供するところにある。

本発明が解決しようとする他の課題は、映像イベント及び音声イベントを利用して、動画像の内容に基づいて、動画像を正確かつ迅速に要約することが可能なイベントを利用した動画像要約方法を提供するところにある。

本発明が解決しようとするさらに他の課題は、映像イベント及び音声イベントを利用して、動画像の内容に基づいて、コンピュータに動画像を正確かつ迅速に要約させることが可能なイベントを利用した動画像要約プログラムを提供するところにある。

前記課題を解決するため、本発明に係るイベントを利用した動画像要約装置は、動画像の映像成分から検出された映像イベント成分に基づいて、ショットを結合または分割し、結合または分割された結果をセグメントとして出力する映像要約部と、前記動画像の音声成分から検出された音声イベント成分に基づいて、前記セグメントを結合または分割し、結合または分割された結果を前記動画像の要約結果として出力する音声要約部と、を備え、前記映像イベントは、前記動画像の内容が転換される部分に挿入されるグラフィック効果であり、前記音声イベントは、前記音声成分を区分する音の種類であることを特徴とする。

前記映像要約部は、前記映像成分から前記映像イベント成分を検出する映像イベント検出部と、前記映像成分からシーンが転換される部分を検出し、検出結果を利用して、同一シーン区間であるショットの時間情報とカラー情報とを生成するシーン転換検出部と、前記シーン転換検出部から入力された前記ショットのカラー情報を利用して、前記ショットの類似度を算出し、算出された前記類似度と前記映像イベント成分とに基づいて、前記ショットを結合または分割する映像ショット結合／分割部と、を備えることが望ましい。

前記映像イベント検出部は、前記映像成分からフェード効果の中間に位置した単一色のフレームを検出し、検出された前記単一色のフレームを前記映像イベント成分として出力し、前記映像イベントは、前記フェード効果に該当することが望ましい。

前記映像イベントは、フェード効果、ディゾルブ効果またはワイプ効果であることが望ましい。

前記映像ショット結合／分割部は、前記シーン転換検出部から入力されたショットの前記カラー情報を記憶するバッファと、記憶された前記カラー情報から、検索ウインドウに属する第１所定数のカラー情報を読み出し、読み出された前記カラー情報を利用して、前記ショットのカラー類似度を算出する類似度算出部と、前記カラー類似度と閾値とを比較し、比較結果に応じて、比較された２つのショットを結合する結合部と、を備えることが望ましい。

前記映像ショット結合／分割部は、結合結果が前記映像イベント成分を有する場合に、前記映像イベント成分に基づいて前記結合結果を分割する分割部をさらに備えることが望ましい。

前記類似度算出部は、下記式（１）により、前記カラー類似度を算出することが望ましい。
（ここで、Ｓｉｍ（Ｈ_１，Ｈ_２）は、２つのショットのカラー類似度を表し、Ｈ_１（ｎ）及びＨ_２（ｎ）は、２つのショットのカラーヒストグラムをそれぞれ表し、Ｎは、ヒストグラムのレベルを表し、ｍｉｎ（ｘ，ｙ）は、ｘ及びｙのうち最小値を表す。）

前記検索ウインドウのサイズである前記第１所定数は、ＥＰＧ情報に応じて異なる値に設定されていることが望ましい。

前記音声要約部は、前記音声成分から音声特徴をフレーム単位で抽出し、第２所定数のフレームに関する前記音声特徴の平均及び標準偏差を音声特徴値として出力する音声特徴値生成部と、前記音声特徴値を利用して、前記音声イベント成分を検出する音声イベント検出部と、前記音声イベント成分に基づいて、前記セグメントを結合または分割し、結合または分割された結果を前記動画像の要約結果として出力する再結合／再分割部と、を備えることが望ましい。

前記音声特徴値生成部は、前記動画像の音声成分を所定時間のフレーム単位で分割するフレーム単位分割部と、分割された前記フレーム単位ごとに音声特徴を抽出する特徴抽出部と、前記特徴抽出部により第２所定数のフレームに対して抽出された第２所定数の音声特徴の平均と標準偏差とを算出し、算出された前記平均と前記標準偏差とを前記音声特徴値として出力する平均／標準偏差算出部と、を備えることが望ましい。

前記音声特徴は、メル周波数ケプストラム係数、スペクトルフラックス、セントロイド、ロールオフ、ＺＣＲ、エネルギーまたはピッチ情報であることが望ましい。

前記音声イベント成分は、音楽、発話、周囲音、拍手、歓声、叫び声及び沈黙の少なくとも一つであることが望ましい。

前記音声イベント成分は、音楽を含み、前記再結合／再分割部は、前記音楽が存在する隣接する複数個のセグメントを結合することが望ましい。

前記音楽イベント成分は、拍手、叫び声または沈黙を含み、前記再結合／再分割部は、前記拍手、前記叫び声または前記沈黙が存在する単一セグメントを分割イベントフレームにより二つに分割し、前記分割イベントフレームは、前記シーン転換検出部により検出された前記シーンが転換される部分に存在するフレームであることが望ましい。

イベントを利用した動画像要約装置は、前記動画像の要約結果のメタデータを生成するメタデータ生成部と、生成された前記メタデータと前記要約結果とを記憶する記憶部と、をさらに備えることが望ましい。

イベントを利用した動画像要約装置は、前記映像要約部から入力された前記セグメントをバッファリングする要約バッファと、前記要約バッファから入力されたバッファリング結果及び前記動画像の音声成分を出力する出力部と、をさらに備え、前記映像要約部は、新しいセグメントが生成されるたびに、前記新しいセグメントより以前に生成されたセグメントを前記要約バッファに出力することが望ましい。

前記動画像の映像成分は、ＥＰＧ情報とテレビ放送信号に含まれた映像成分とを含むことが望ましい。

前記動画像の音声成分は、ＥＰＧ情報とテレビ放送信号に含まれた音声成分とを含むことが望ましい。

前記他の課題を解決するため、本発明に係るイベントを利用した動画像要約方法は、動画像の映像成分から検出された映像イベント成分に基づいて、ショットを結合または分割し、結合または分割された結果をセグメントとして決定するセグメント決定ステップと、前記動画像の音声成分から検出された音声イベント成分に基づいて、前記セグメントを結合または分割し、結合または分割された結果を前記動画像の要約結果として得る要約結果取得ステップと、を含み、前記映像イベントは、前記動画像の内容が転換される部分に挿入されるグラフィック効果であり、前記音声イベントは、前記音声成分を区分する音の種類であることを特徴とする。

前記セグメント決定ステップは、前記映像成分から前記映像イベント成分を検出するステップと、前記映像成分からシーンが転換される部分を検出し、検出結果を利用して、同一シーン区間であるショットの時間情報とカラー情報とを生成するステップと、前記ショットのカラー情報を利用して、前記ショットの類似度を算出し、算出された前記類似度と前記映像イベント成分とに基づいて、前記ショットを結合または分割するステップと、を含むことが望ましい。

前記要約結果取得ステップは、前記音声成分から音声特徴をフレーム単位で抽出し、第２所定数のフレームに関する前記音声特徴の平均及び標準偏差を音声特徴値として決定するステップと、前記音声特徴値を利用して、前記音声イベント成分を検出するステップと、前記音声イベント成分に基づいて、前記セグメントを結合または分割し、結合または分割された結果を前記動画像の要約結果として決定するステップと、を含むことが望ましい。

前記さらに他の課題を解決するため、本発明に係るイベントを利用した動画像要約プログラムは、コンピュータに、動画像の映像成分から検出された映像イベント成分に基づいて、ショットを結合または分割し、結合または分割された結果をセグメントとして決定するセグメント決定ステップと、前記動画像の音声成分から検出された音声イベント成分に基づいて、前記セグメントを結合または分割し、結合または分割された結果を前記動画像の要約結果として得る要約結果取得ステップと、を実行させ、前記映像イベントは、前記動画像の内容が転換される部分に挿入されるグラフィック効果であり、前記音声イベントは、前記音声成分を区分する音の種類であることを特徴とする。

本発明のイベントを利用した動画像要約装置、方法及びプログラムは、映像イベント及び音声イベントを利用し、内容に基づいてショットを正確に結合または分割することができる。また、映像イベントを利用して動画像を事前に要約するので、動画像を迅速に要約することができる。

以下、本発明の実施形態に係るイベントを利用した動画像要約装置及び動画像要約方法について、添付図面を参照して説明する。

図１は、本発明の実施形態に係るイベントを利用した動画像要約装置を示すブロック図である。図１に示すように、イベントを利用した動画像要約装置（以下、単に「動画像要約装置」と記載する。）は、映像要約部（video summarizing unit）１０と、音声要約部（audio summarizing unit）１２と、メタデータ生成部（metadata generator）１４と、記憶部（storage unit）１６と、要約バッファ１８（summarizing buffer）と、出力部２０と、を備えている。

なお、図１の動画像要約装置は、映像要約部１０及び音声要約部１２のみから構成されていてもよい。

図２は、本発明の実施形態に係るイベントを利用した動画像要約方法を説明するためのフローチャートである。図２に示すように、イベントを利用した動画像要約方法（以下、単に「動画像要約方法」と記載する。）は、ショットを結合または分割してセグメントを得るステップ（ステップ４０：セグメント決定ステップ）と、セグメントを結合または分割して動画像の要約結果を得るステップ（ステップ４２：要約結果取得ステップ）と、を含む。

図２のステップ４０及びステップ４２は、それぞれ図１の映像要約部１０及び音声要約部１２により実行可能である。

図１の映像要約部１０は、入力端子ＩＮ１を介して動画像の映像成分（video component）が入力され、入力された動画像の映像成分から映像イベント成分（video event component）を検出し、検出された映像イベント成分に基づいてショットを結合（combine）または分割（segment）し、結合または分割された結果をセグメントとして出力する（ステップ４０）。ここで、動画像の映像成分は、動画像に含まれるショットの時間情報（time information）、ショットのカラー情報（color information）、フェードフレームの時間情報などを意味する。映像イベントは、動画像において内容が転換される部分に意図的に挿入されるグラフィック効果を意味する。したがって、映像イベントが発生すれば、動画像の内容に転換が発生したとみなすことができる。例えば、映像イベントとして、フェード効果、ディゾルブ効果、ワイプ効果などが挙げられる。

図３は、図１の映像要約部１０の一実施形態である映像要約部１０Ａを示すブロック図である。図３に示すように、映像要約部１０Ａは、映像イベント検出部（video event detector）６０と、シーン転換検出部（scene transition detector）６２と、映像ショット結合／分割部（video shot combining/segmenting unit）６４と、を備えている。

図４は、図２のステップ４０の一実施形態であるステップ４０Ａを説明するためのフローチャートである。図４に示すように、ステップ４０Ａは、映像イベント成分を検出するステップ（ステップ８０）と、ショットの時間情報とショットのカラー情報とを生成するステップ（ステップ８２）と、ショットを結合または分割するステップ（ステップ８４）と、を含む。

図３の映像イベント検出部６０は、入力端子ＩＮ３を介して動画像の映像成分が入力され、入力された動画像の映像成分から映像イベント成分を検出し、検出された映像イベント成分を映像ショット結合／分割部６４に出力する（ステップ８０）。

図５は、図３の視覚的イベント検出部６０を説明するためのグラフである。各グラフにおいて、横軸は明度（brightness）を表し、縦軸は頻度（frequency）を表し、Ｎ’は明度の最大値を表す。

本発明の理解を助けるために、映像イベントがフェード効果であると仮定する。フェード効果において、フェードインされるフレームとフェードアウトされるフレームとの間に存在するフレーム群の中間には、単一色のフレームが存在する。したがって、映像イベント検出部６０は、動画像の映像成分のカラーヒストグラム特性を利用し、フェード効果の中間に位置した単一色のフレームを検出し、検出された単一色のフレームを映像イベント成分として出力することができる。例えば、単一色のフレームは、図５（ａ）に示すようにブラックフレームであってもよく、図５（ｂ）に示すようにホワイトフレームであってもよい。

ステップ８０の後、シーン転換検出部６２は、入力端子ＩＮ３を介して動画像の映像成分が入力され、入力された映像成分からシーンの転換部分を検出し、検出されたシーンの転換部分を出力端子ＯＵＴ４を介して音声要約部１２に出力する。また、シーン転換検出部６２は、検出されたシーンの転換部分を利用し、同一シーン区間の時間情報とカラー情報とを生成し、生成された同一シーン区間の時間情報とカラー情報とを映像ショット結合／分割部６４に出力する（ステップ８２）。ここで、同一シーン区間は、シーンの転換部分の間のフレーム、すなわち、シーンの転換が発生するフレームと、次にシーンの転換が発生するフレームとの間の複数のフレームからなる。同一シーン区間は、「ショット」とも呼ばれる。シーン転換検出部６２は、各ショットから単数または複数の代表映像フレームを選択し、選択された代表映像フレームから時間情報とカラー情報とを出力することもできる。シーン転換検出部６２により実行される動作、すなわち、動画像の映像成分からシーンの転換部分を検出する方法は、例えば、米国特許第５，７６７，９２２号明細書、米国特許第６，１３７，５４４号明細書及び米国特許第６，３９３，０５４号明細書に開示されている。

本発明では、図４のフローと異なり、ステップ８２をステップ８０より先に実行してもよく、ステップ８０及びステップ８２を同時に実行してもよい。

ステップ８２の後、映像ショット結合／分割部６４は、シーン転換検出部６２から入力されたショットのカラー情報を利用してショットの類似度（similarity）を測定し、測定された類似度と映像イベント検出部６０から入力された映像イベント成分とに基づいて、ショットを結合または分割し、結合または分割された結果をセグメントとして出力端子ＯＵＴ３を介して出力する（ステップ８４）。

図６は、図３の映像ショット結合／分割部６４の一実施形態である映像ショット結合／分割部６４Ａを示すブロック図である。図６に示すように、映像ショット結合／分割部６４Ａは、バッファ（buffer）１００と、類似度算出部（similarity calculating unit）１０２と、結合部（combining unit）１０４と、分割部（segmenting unit）１０６と、を備えている。

バッファ１００は、シーン転換検出部６２から入力端子ＩＮ４を介して入力されたショットのカラー情報を記憶、すなわち、バッファリングする。

類似度算出部１０２は、バッファ１００に記憶されたカラー情報のうち、検索ウインドウ（search window）に属する第１所定数のカラー情報を読み出し、読み出されたカラー情報を利用してショットのカラー類似度（color similarity）を算出し、算出されたカラー類似度を結合部１０４に出力する。
ここで、検索ウインドウのサイズは、第１所定数に対応しており、ＥＰＧ情報（Electric Program information）に応じて異なる値に設定可能である。
本発明において、類似度算出部１０２は、下記式（１）を利用してカラー類似度を算出することができる。

ここで、Ｓｉｍ（Ｈ_１，Ｈ_２）は、シーン転換検出部６２から入力された類似度を比較する２つのショット（Ｈ_１及びＨ_２）のカラー類似度を表し、Ｈ_１（ｎ）及びＨ_２（ｎ）は、それぞれ２つのショットＨ_１，Ｈ_２のカラーヒストグラムを表し、Ｎは、ヒストグラムのレベルを表し、ｍｉｎ（ｘ，ｙ）は、既存のヒストグラムインターセクション法（histogram intersection method）に基づいてｘ及びｙのうちの最小値を表す。

結合部１０４は、類似度算出部１０２により算出されたカラー類似度と閾値とを比較し、比較された結果に応じて比較された２つのショットを結合する。

映像ショット結合／分割部６４Ａは、分割部１０６をさらに備えている。分割部１０６は、入力端子ＩＮ５を介して映像イベント成分が入力される場合、すなわち、結合部１０４により結合された結果が映像イベント成分を有する場合に、映像イベント検出部６０から入力された映像イベント成分に基づいて、結合部１０４により結合された結果を分割し、分割された結果をセグメントとして出力端子ＯＵＴ５を介して出力する。

本発明の一実施形態によれば、図６に示すように、結合部１０４と分割部１０６とが別途に設けられる。この場合には、結合動作が先に実行され、その後分割動作が実行される。

本発明の他の実施形態によれば、映像ショット結合／分割部６４Ａは、図６に示すように結合部１０４と分割部１０６とが別途に設けられる代わりに、結合部１０４と分割部１０６とが統合された１つの結合／分割部１０８を備えていてもよい。
このとき、結合／分割部１０８は、結合すべきショットと分割すべきショットとを最終的に決定した後に、結合すべきショットを結合する。

図７は、図３の映像ショット結合／分割部６４を説明するための図であり、（ａ）及び（ｄ）は、それぞれ一連のショットを矢印方向に経時的な順序で表した図であり、（ｂ）、（ｃ）、（ｅ）及び（ｆ）は、図６のバッファ１００とセグメントの識別番号とをマッチングさせたテーブルである。各テーブルにおいて、「Ｂ＃」は、バッファの番号、すなわち、ショットの番号を表し、ＳＩＤは、セグメントの識別番号（ＩＤ：IDentity）を表し、「？」は、ＳＩＤがまだ決まっていないということを表す。

本発明の理解を助けるために、検索ウインドウのサイズ、すなわち、第１所定数を「８」と仮定するが、本発明は、これに限定されるものではない。

まず、図７（ａ）の検索ウインドウ１１０に属するショット１〜８を結合または分割しようとする場合、図７（ｂ）に示すように、１番目のバッファ（Ｂ＃＝１）のＳＩＤを任意の数字、例えば、「１」と設定する。このとき、類似度算出部１０２は、１番目のバッファ（Ｂ＃＝１）に記憶されたショットのカラー情報と、２番目のバッファ（Ｂ＃＝２）から８番目のバッファ（Ｂ＃＝８）に記憶されたショットのカラー情報とを利用して、２つのショットの類似度を算出する。

例えば、類似度算出部１０２は、２枚のショットの類似度を最後のバッファから順にチェックすることができる。すなわち、類似度算出部１０２は、１番目のバッファ（Ｂ＃＝１）に記憶されたカラー情報に対応するショットと８番目のバッファ（Ｂ＃＝８）に記憶されたカラー情報に対応するショットとを比較し、続いて１番目のバッファ（Ｂ＃＝１）に記憶されたカラー情報に対応するショットと７番目のバッファ（Ｂ＃＝７）に記憶されたカラー情報に対応するショットとを比較し、続いて１番目のバッファ（Ｂ＃＝１）に記憶されたカラー情報に対応するショットと６番目のバッファ（Ｂ＃＝６）に記憶されたカラー情報に対応するショットとを比較し、というように、最後のバッファから順に２つのショットの類似度をチェックすると仮定する。

かかる仮定下において、結合／分割部１０８は、類似度算出部１０２により算出された１番目のバッファ（Ｂ＃＝１）と８番目のバッファ（Ｂ＃＝８）との類似度［Ｓｉｍ（Ｈ_１，Ｈ_８）］と閾値とを比較する。１番目のバッファ（Ｂ＃＝１）と８番目のバッファ（Ｂ＃＝８）との類似度［Ｓｉｍ（Ｈ_１，Ｈ_８）］が閾値より小さいと判定されれば、結合／分割部１０８は、類似度算出部１０２により算出された１番目のバッファ（Ｂ＃＝１）と７番目のバッファ（Ｂ＃＝７）との類似度［Ｓｉｍ（Ｈ_１，Ｈ_７）］が閾値以上であるか否かを判定する。１番目のバッファ（Ｂ＃＝１）と７番目のバッファ（Ｂ＃＝７）との類似度［Ｓｉｍ（Ｈ_１，Ｈ_７）」が閾値以上であると判定されれば、結合／分割部１０８は、１番目のバッファ（Ｂ＃＝１）ないし７番目のバッファ（Ｂ＃＝７）に対応するすべてのＳＩＤを「１」と設定する。この場合には、１番目のバッファ（Ｂ＃＝１）と６番目のバッファ（Ｂ＃＝６）ないし２番目のバッファ（Ｂ＃＝２）との類似度の比較は実行されない。したがって、結合／分割部１０８は、同一のＳＩＤを有する１番目のショットから７番目のショットを結合する。

しかし、映像イベント、例えばフェード効果を提供するために、４番目のショットにブラックフレームが含まれていると仮定する。この場合には、入力端子ＩＮ５を介して映像イベント検出部６０から映像イベント成分が入力された場合に、結合／分割部１０８は、図７（ｃ）に示すように、１番目のバッファ（Ｂ＃＝１）から４番目のバッファ（Ｂ＃＝４）のＳＩＤを「１」と設定し、５番目のバッファ（Ｂ＃＝５）のＳＩＤを「２」と設定する。したがって、結合／分割部１０８は、同一のＳＩＤを有する１番目のショットから４番目のショットを結合する。

結合／分割部１０８は、５番目のショットに基づく新しい検索ウインドウ、すなわち、図７（ｄ）に示す検索ウインドウ１１２に属するショット５〜１２を結合または分割するか否かをチェックする。このとき、初期状態で、検索ウインドウ１１２に対応する５番目のショットから１２番目のショットのＳＩＤは、図７（ｅ）に示すように設定されている。

結合／分割部１０８は、類似度算出部１０２により算出された５番目のバッファ（Ｂ＃＝５）と１２番目のバッファ（Ｂ＃＝１２）との類似度［Ｓｉｍ（Ｈ_５，Ｈ_１２）］と閾値とを比較する。５番目のバッファ（Ｂ＃＝５）と１２番目のバッファ（Ｂ＃＝１２）との類似度［Ｓｉｍ（Ｈ_５，Ｈ_１２）」が閾値より小さいと判定されれば、結合／分割部１０８は、類似度算出部１０２により算出された５番目のバッファ（Ｂ＃＝５）と１１番目のバッファ（Ｂ＃＝１１）との類似度［Ｓｉｍ（Ｈ_５，Ｈ_１１）」が閾値以上であるか否かを判定する。５番目のバッファ（Ｂ＃＝５）と１１番目のバッファ（Ｂ＃＝１１）との類似度［Ｓｉｍ（Ｈ_５，Ｈ_１１）」が閾値以上であると判定されれば、結合／分割部１０８は、５番目のバッファ（Ｂ＃＝５）ないし１１番目のバッファ（Ｂ＃＝１１）に対応するすべてのＳＩＤを、図７（ｆ）に示すように、「２」と設定する。映像イベントが提供されない場合には、結合／分割部１０８は、同一のＳＩＤ「２」を有する５番目のショットから１１番目のショットを結合する。

結合／分割部１０８は、バッファ１００に記憶されたショットのカラー情報を利用して、すべてのショットに対して、すなわち、バッファ１００に記憶されたすべてのＢ＃に対してＳＩＤが得られるまで前記した動作を実行する。

図８は、図６の映像ショット結合／分割部６４Ａの動作を説明するための他の図である。図８（ａ）ないし図８（ｃ）において、横軸は、時間を表す。

例えば、結合部１０４が、図８（ａ）のショットを図８（ｂ）に示すように結合したと仮定する。この場合には、結合されたショットからなるセグメント１１４の中間に位置するショット１１９が映像イベント、例えばフェード効果を提供するためのブラックフレーム（すなわち、映像イベント成分）を含む場合に、分割部１０６は、入力端子ＩＮ５を介して入力された映像イベント成分を有するショット１１９において、セグメント１１４を２つのセグメント１１６，１１８に分割する（図８（ｃ）参照）。

一方、ステップ４０の後、音声要約部１２は、入力端子ＩＮ２を介して動画像の音声成分が入力され、入力された音声成分から音声イベント成分を検出し、検出された音声イベント成分に基づいて映像要約部１０から入力されたセグメントを結合または分割し、結合または分割された結果を動画像の要約結果として出力する（ステップ４２）。ここで、音声イベントは、音声成分を区分する音の種類を意味し、音声イベント成分は、例えば、音楽（music）、発話（speech）、周囲音（environment sound）、拍手、歓声、叫び声（clamor）及び沈黙（silence）の少なくとも一つであればよい。

図９は、図１の音声要約部１２の一実施形態である音声要約部１２Ａを示すブロック図である。図９に示すように、音声要約部１２Ａは、音声特徴値生成部（audio characteristic value generator）１２０と、音声イベント検出部（audio event detector）１２２と、再結合／再分割部（recombining/resegmenting unit）１２４と、を備えている。

図１０は、図２のステップ４２の一実施形態であるステップ４２Ａを説明するためのフローチャートである。図１０に示すように、ステップ４２Ａは、音声特徴値を決定するステップ（ステップ１４０）と、音声イベント成分を検出するステップ（ステップ１４２）と、セグメントを結合または分割するステップ（ステップ１４４）と、を含む。

図９の音声特徴値生成部１２０は、入力端子ＩＮ６を介して動画像の音声成分が入力され、入力された音声成分から音声特徴をフレーム単位で抽出し、第２所定数のフレームに対する音声特徴の平均及び標準偏差を音声特徴値として得て音声イベント検出部１２２に出力する（ステップ１４０）。ここで、音声特徴は、メル周波数ケプストラム係数（ＭＦＣＣ：Mel-Frequency Cepstrum Coefficient）、スペクトルフラックス（spectral flux）、セントロイド（centroid）、ロールオフ（rolloff）、ＺＣＲ（Zero Channel RAID）、エネルギー（energy）またはピッチ（pitch）情報であってもよく、第２所定数は、２以上の整数であり、例えば、「４０」であってもよい。

図１１は、図９の音声特徴値生成部１２０の一実施形態である音声特徴値生成部１２０Ａを示すブロック図である。図１１に示すように、音声特徴値生成部１２０Ａは、フレーム単位分割部（frame divider）１５０と、特徴抽出部（feature extractor）１５２と、平均／標準偏差算出部（average/standard deviation calculator）１５４と、を備えている。

フレーム単位分割部１５０は、入力端子ＩＮ９を介して入力された動画像の音声成分を、所定時間、例えば、２４ｍｓのフレーム単位で分割する。特徴抽出部１５２は、分割されたフレームごとに音声特徴を抽出する。平均／標準偏差算出部１５４は、特徴抽出部１５２により抽出された第２所定数のフレームの第２所定数に対する音声特徴の平均及び標準偏差を算出し、算出された平均及び標準偏差を音声特徴値として出力端子ＯＵＴ７を介して出力する。

動画像の音声成分から音声特徴値を生成する従来の方法が、“Method and article of manufacture for content-based analysis, storage, retrieval and segmentation of audio information”というタイトルを有する米国特許第５,９１８,２２３号明細書、“Extracting classifying data in music from an audio bitstream”というタイトルを有する米国特許出願公開第２００３／００４０９０４号明細書、“Audio Feature Extraction and Analysis for Scene Segmentation and Classification”というタイトルで１９９８年にJournal of VLSI Signal Processing Systems Archive, Volumn 20 pp.61-79にYao Wang及びTsuhan Chenにより発表された論文、及び“SVM-based audio classification for instructional video analysis”というタイトルで２００４年にICASSP2004にYing Li及びChitra Doraiにより発表された論文に開示されている。

ステップ１４０の後、音声イベント検出部１２２は、音声特徴値生成部１２０から入力された音声特徴値を利用して音声イベント成分を検出し、検出された音声イベント成分を再結合／再分割部１２４に出力する（ステップ１４２）。

音声特徴値から音声イベント成分を検出する従来の方法として、ＧＭＭ（Gaussian Mixture Model）、ＨＭＭ（Hidden Markov Model）、ＮＮ（Neural Network）、ＳＶＭ（Support Vector Machine）などの様々な統計的学習モデルが利用可能である。ここで、ＳＶＭを利用して音声イベントを検出する従来の方法が、“SVM-based Audio Classification for Instructional Video Analysis”というタイトルで２００４年にICASSP2004にYing Li及びChitra Doraiにより発表された論文に開示されている。

ステップ１４２の後、再結合／再分割部１２４は、音声イベント検出部１２２から入力された音声イベント成分に基づいて、入力端子ＩＮ７を介してシーン転換検出部６２から入力されたシーンの転換部分を利用して、入力端子ＩＮ８を介して映像要約部１０から入力されたセグメントを併合または分割し、結合または分割された結果を動画像の要約結果として、出力端子ＯＵＴ６を介して出力する（ステップ１４４）。

図１２は、図９の再結合／再分割部１２４により実行されるセグメントの再結合を説明するための図であり、（ａ）は、映像要約部１０から入力されたセグメントを示す図であり、（ｂ）は、音声成分を示す図であり、（ｃ）は、結合結果を示す図である。

再結合／再分割部１２４は、入力端子ＩＮ８を介して図１２（ａ）に示すセグメント１６０，１６２，１６４，１６６，１６８が映像要約部１０から入力される。このとき、音声イベント検出部１２２から入力された音声イベント成分、例えば、音楽成分１７０がセグメント１６４，１６６の中間に位置しているので（図１２（ｂ）参照）、再結合／再分割部１２４は、セグメント１６４，１６６が同一の内容を有しているとみなし、図１２（ｃ）に示すようにセグメント１６４，１６６を結合する。

図１３は、図９の再結合／再分割部１２４により実行されるセグメントの再分割を説明するための図であり、（ａ）は、映像要約部１０から入力されたセグメントを示す図であり、（ｂ）は、音声成分を示す図であり、（ｃ）は、分割結果を示す図である。

再結合／再分割部１２４は、入力端子ＩＮ８を介して図１３（ａ）に示すセグメント１８０，１８２，１８４，１８６，１８８が映像要約部１０から入力される。
このとき、音声イベント検出部１２２から入力された音声イベント成分、例えば、拍手、叫び声または沈黙が図１３（ｂ）に示すように一定時間ｌ以上続く場合には、再結合／再分割部１２４は、入力端子ＩＮ７を介して入力されたシーンの転換部分に存在するフレームである分割イベントフレームを利用して、シーンの転換が発生する時刻ｔ_ｌで、図１３（ｃ）に示すようにセグメント１８２を２つのセグメント１９０，１９２に分割する。

図１の動画像要約装置は、メタデータ生成部１４及び記憶部１６をさらに備えている。なお、メタデータ生成部１４及び記憶部１６は省略可能である。

メタデータ生成部１４は、音声要約部１２から動画像の要約結果が入力され、入力された動画像の要約結果のメタデータ、すなわち、特性データを生成し、生成されたメタデータと動画像の要約結果とを記憶部１６に出力する。
記憶部１６は、メタデータ生成部１４により生成されたメタデータと動画像の要約結果とを記憶し、記憶された結果を出力端子ＯＵＴ２を介して出力する。

図１の動画像要約装置は、要約バッファ１８及び出力部２０をさらに備えている。なお、要約バッファ１８及び出力部２０は省略可能である。

要約バッファ１８は、映像要約部１０から入力されたセグメントをバッファリングし、バッファリングされた結果を出力部２０に出力する。この動作を実行するために、映像要約部１０は、新しいセグメントが生成されるたびに、新しいセグメントより以前に生成されたセグメントを要約バッファ１８に出力する。出力部２０は、要約バッファ１８から入力されたバッファリングされた結果、及び入力端子ＩＮ２を介して入力された動画像の音声成分を出力する。すなわち、出力部２０は、要約バッファ１８から入力されたバッファリングされた結果をディスプレイするディスプレイ部（図示せず）と、入力端子ＩＮ２を介して入力された動画像の音声成分をサウンドとして提供するスピーカ（図示せず）と、を備えている。

本発明によれば、動画像の映像成分は、ＥＰＧ情報（Electronic Program Guide information）とテレビ放送信号に含まれた映像成分とをいずれも含むことができ、動画像の音声成分は、ＥＰＧ情報とテレビ放送信号に含まれた音声成分とをいずれも含むことができる。

図１４は、本発明の他の実施形態に係る動画像要約装置を示すブロック図である。図１４に示すように、他の実施形態に係る動画像要約装置は、ＥＰＧ解釈部２００と、チューナ２０２と、マルチプレクサ（ＭＵＸ）２０４と、映像デコーダ２０６と、音声デコーダ２０８と、映像要約部２１０と、要約バッファ２１２と、ディスプレイ部２１４と、スピーカ２１５と、音声要約部２１６と、メタデータ生成部２１８と、記憶部２２０と、を備えている。

図１４の映像要約部２１０、音声要約部２１６、メタデータ生成部２１８、記憶部２２０、要約バッファ２１２、ディスプレイ部２１４及びスピーカ２１５は、それぞれ図１の映像要約部１０、音声要約部１２、メタデータ生成部１４、記憶部１６、要約バッファ１８、出力部２０のディスプレイ部及び出力部２０のスピーカに該当するので、これらについての詳細な説明を省略する。

図１４に示すように、ＥＰＧ解釈部２００は、入力端子ＩＮ１０を介して入力されたＥＰＧ信号からＥＰＧ情報を抽出して分析し、分析結果を映像要約部２１０及び音声要約部２１６にそれぞれ出力する。ここで、ＥＰＧ信号は、ウェブを介して別途に提供されることもあり、テレビ放送信号に含まれることもある。この場合には、映像要約部２１０に入力される動画像の映像成分は、ＥＰＧ情報を含み、音声要約部２１６に入力される動画像の音声成分も、ＥＰＧ情報を含む。チューナ２０２は、入力端子ＩＮ１１を介してテレビ放送信号が入力され、入力されたテレビ放送信号をチューニングし、チューニング結果をＭＵＸ２０４に出力する。ＭＵＸ２０４は、チューニング結果の映像成分を映像デコーダ２０６に出力し、チューニング結果の音声成分を音声デコーダ２０８にそれぞれ出力する。

映像デコーダ２０６は、ＭＵＸ２０４から入力された映像成分をデコードし、デコード結果を動画像の映像成分として映像要約部２１０に出力する。これと同様に、音声デコーダ２０８は、ＭＵＸ２０４から入力された音声成分をデコードし、デコード結果を動画像の音声成分として音声要約部２１６及びスピーカ２１５に出力する。

図１５は、本発明のさらに他の実施形態に係る動画像要約装置を示すブロック図である。図１５に示すように、さらに他の実施形態に係る動画像要約装置は、ＥＰＧ解釈部３００と、第１チューナ３０２と、第２チューナ３０４と、第１ＭＵＸ３０６と、第２ＭＵＸ３０８と、第１映像デコーダ３１０と、第２映像デコーダ３１２と、第１音声デコーダ３１４と、第２音声デコーダ３１６と、映像要約部３１８と、要約バッファ３２０と、ディスプレイ部３２２と、スピーカ３２３と、音声要約部３２４と、メタデータ生成部３２６と、記憶部３２８と、を備えている。

図１５の映像要約部３１８、音声要約部３２４、メタデータ生成部３２６、記憶部３２８、要約バッファ３２０、ディスプレイ部３２２及びスピーカ３２３は、図１の映像要約部１０、音声要約部１２、メタデータ生成部１４、記憶部１６、要約バッファ１８、出力部２０のディスプレイ部及び出力部２０のスピーカにそれぞれ該当するので、これらについての詳細な説明を省略する。また、図１５のＥＰＧ解釈部３００は、図１４のＥＰＧ解釈部２００と同じ機能を実行し、図１５の第１チューナ３０２及び第２チューナ３０４は、図１４のチューナ２０２と同じ機能を実行し、図１５の第１ＭＵＸ３０６及び第２ＭＵＸ３０８は、ＭＵＸ２０４と同じ機能を実行し、第１映像デコーダ３１０及び第２映像デコーダ３１２は、図１４の映像デコーダ２０６と同じ機能を実行し、図１５の第１音声デコーダ３１４及び第２音声デコーダ３１６は、音声デコーダ２０８と同じ機能を実行するので、これらについての詳細な説明を省略する。

図１４の動画像要約装置とは異なり、図１５の動画像要約装置は、２つのテレビ放送受信経路を備えている。そのうちの１つのテレビ放送受信経路は、第２チューナ３０４、第２ＭＵＸ３０８、第２映像デコーダ３１２及び第２音声デコーダ３１６を備えており、ディスプレイ部３２２を介してユーザにテレビ放送を視聴させる。他の１つのテレビ放送受信経路は、第１チューナ３０２、第１ＭＵＸ３０６、第１映像デコーダ３１０及び第１音声デコーダ３１４を備えており、動画像を要約して記憶する。

図１６ないし図１８は、本発明に係る動画像要約装置及び方法の性能を説明するための図である。ＳｅｇｍｅｎｔＩＤ＝ｘ（ａ：ｂ）において、ＳｅｇｍｅｎｔＩＤは、前記したＳＩＤを意味し、ａ，ｂは、代表フレームが放映される分及び秒をそれぞれ意味する。

図１６においては、ＳｅｇｍｅｎｔＩＤが３と設定されたショットの代表フレームが１つのセグメント４００に要約され、ＳｅｇｍｅｎｔＩＤが４と設定されたショットの代表フレームが他の１つのセグメント４０２に要約されている。これと同様に、図１７においては、ＳｅｇｍｅｎｔＩＤが３と設定されたショットの代表フレームが１つのセグメント５００に要約され、ＳｅｇｍｅｎｔＩＤが４と設定されたショットの代表フレームが他の１つのセグメント５０２に要約されている。これと同様に、図１８においては、ＳｅｇｍｅｎｔＩＤが５と設定されたショットの代表フレームが１つのセグメント６００に要約され、ＳｅｇｍｅｎｔＩＤが６と設定されたショットの代表フレームが他の１つのセグメント６０２に要約されている。

一方、前記した本発明の実施形態は、コンピュータで読み取り可能な記録媒体に記録されたコード／命令（instructions）／プログラムとして実現可能である。コンピュータで読み取り可能な記録媒体としては、磁気記録媒体（例えば、ＲＯＭ、フロッピー（登録商標）ディスク、ハードディスク、磁気テープなど）、光記録媒体（例えば、ＣＤ−ＲＯＭ、ＤＶＤなど）などが挙げられる。また、搬送波（例えば、インターネットを介した伝送）によって前記コード／命令／プログラムを提供することもできる。また、コンピュータで読み取り可能な記録媒体がネットワークを介して連結された複数のコンピュータシステムに分配されており、前記コード／命令／プログラムが分散された状態で記憶されて実行されてもよい。

本発明を実現する機能的なコード／命令／プログラムは、本発明が属する技術分野のプログラマらにより容易に推論可能である。

前記したように、本発明の実施形態に係るイベントを利用した動画像要約装置、方法及びプログラムは、映像イベント及び音声イベントを利用し、内容に基づいてショットを正確に結合または分割することができる。また、電子番組案内（ＥＰＧ）情報により、ジャンル別に第１所定数を異なる値に設定することにより、ジャンル別に特化して動画像を要約することができる。また、映像イベントを利用して動画像を事前に要約するので、動画像を迅速に要約することができる。

以上、本発明の実施形態について説明したが、本発明は前記実施形態に限定されず、本発明の要旨を逸脱しない範囲で適宜設計変更可能である。

本発明のイベントを利用した動画像要約装置、方法及びプログラムは、例えば、動画像関連の技術分野に好適に適用可能である。

本発明の実施形態に係るイベントを利用した動画像要約装置を示すブロック図である。本発明の実施形態に係るイベントを利用した動画像要約方法を説明するためのフローチャートである。図１の映像要約部の一実施形態を示すブロック図である。図２のステップ４０の一実施形態を説明するためのフローチャートである。図３の視覚的イベント検出部を説明するためのグラフである。図３の映像ショット結合／分割部の一実施形態を示すブロック図である。図３の映像ショット結合／分割部を説明するための図である。図６の映像ショット結合／分割部の動作を説明するための他の図である。図１の音声要約部１２の一実施形態を示すブロック図である。図２のステップ４２の一実施形態を説明するためのフローチャートである。図９の音声特徴値生成部の一実施形態を示すブロック図である。図９の再結合／再分割部により実行されるセグメントの再結合を説明するための図である。図９の再結合／再分割部により実行されるセグメントの再分割を説明するための図である。本発明の他の実施形態に係る動画像要約装置を示すブロック図である。本発明のさらに他の実施形態に係る動画像要約装置を示すブロック図である。本発明に係る動画像要約装置及び方法の性能を説明するための図（ショット写真）である。本発明に係る動画像要約装置及び方法の性能を説明するための図（ショット写真）である。本発明に係る動画像要約装置及び方法の性能を説明するための図（ショット写真）である。

符号の説明

１０，２１０，３１８映像要約部
１２，２１６，３２４音声要約部
１４，２１８，３２６メタデータ生成部
１６，２２０，３２８記憶部
１８，２１２，３２０要約バッファ
２０，２１４，３２２ディスプレイ部
６０映像イベント検出部
６２シーン転換検出部
６４映像ショット結合／分割部
１００バッファ
１０２類似度算出部
１０４結合部
１０６分割部
１０８結合／分割部
１１０，１１２検索ウインドウ
１１９ショット
１２０音声特徴値生成部
１２２音声イベント検出部
１２４再結合／再分割部
１５０フレーム単位分割部
１５２特徴抽出部
１５４平均／標準偏差算出部

Claims

動画像の映像成分から検出された映像イベント成分に基づいて、ショットを結合または分割し、結合または分割された結果をセグメントとして出力する映像要約部と、
前記動画像の音声成分から検出された音声イベント成分に基づいて、前記セグメントを結合または分割し、結合または分割された結果を前記動画像の要約結果として出力する音声要約部と、
を備え、
前記映像イベントは、前記動画像の内容が転換される部分に挿入されるグラフィック効果であり、
前記音声イベントは、前記音声成分を区分する音の種類であることを特徴とするイベントを利用した動画像要約装置。
前記映像要約部は、
前記映像成分から前記映像イベント成分を検出する映像イベント検出部と、
前記映像成分からシーンが転換される部分を検出し、検出結果を利用して、同一シーン区間であるショットの時間情報とカラー情報とを生成するシーン転換検出部と、
前記シーン転換検出部から入力された前記ショットのカラー情報を利用して、前記ショットの類似度を算出し、算出された前記類似度と前記映像イベント成分とに基づいて、前記ショットを結合または分割する映像ショット結合／分割部と、
を備えることを特徴とする請求項１に記載のイベントを利用した動画像要約装置。
前記映像イベント検出部は、
前記映像成分からフェード効果の中間に位置した単一色のフレームを検出し、検出された前記単一色のフレームを前記映像イベント成分として出力し、
前記映像イベントは、前記フェード効果に該当することを特徴とする請求項２に記載のイベントを利用した動画像要約装置。
前記映像イベントは、フェード効果、ディゾルブ効果またはワイプ効果であることを特徴とする請求項２に記載のイベントを利用した動画像要約装置。
前記映像ショット結合／分割部は、
前記シーン転換検出部から入力されたショットの前記カラー情報を記憶するバッファと、
記憶された前記カラー情報から、検索ウインドウに属する第１所定数のカラー情報を読み出し、読み出された前記カラー情報を利用して、前記ショットのカラー類似度を算出する類似度算出部と、
前記カラー類似度と閾値とを比較し、比較結果に応じて、比較された２つのショットを結合する結合部と、
を備えることを特徴とする請求項２から請求項４のいずれか一項に記載のイベントを利用した動画像要約装置。
前記映像ショット結合／分割部は、
結合結果が前記映像イベント成分を有する場合に、前記映像イベント成分に基づいて前記結合結果を分割する分割部をさらに備えることを特徴とする請求項５に記載のイベントを利用した動画像要約装置。
前記類似度算出部は、下記式（１）により、前記カラー類似度を算出することを特徴とする請求項５または請求項６に記載のイベントを利用した動画像要約装置。
（ここで、Ｓｉｍ（Ｈ_１，Ｈ_２）は、２つのショットのカラー類似度を表し、Ｈ_１（ｎ）及びＨ_２（ｎ）は、２つのショットのカラーヒストグラムをそれぞれ表し、Ｎは、ヒストグラムのレベルを表し、ｍｉｎ（ｘ，ｙ）は、ｘ及びｙのうち最小値を表す。）
前記検索ウインドウのサイズである前記第１所定数は、ＥＰＧ情報に応じて異なる値に設定されていることを特徴とする請求項５から請求項７のいずれか一項に記載のイベントを利用した動画像要約装置。
前記音声要約部は、
前記音声成分から音声特徴をフレーム単位で抽出し、第２所定数のフレームに関する前記音声特徴の平均及び標準偏差を音声特徴値として出力する音声特徴値生成部と、
前記音声特徴値を利用して、前記音声イベント成分を検出する音声イベント検出部と、
前記音声イベント成分に基づいて、前記セグメントを結合または分割し、結合または分割された結果を前記動画像の要約結果として出力する再結合／再分割部と、
を備えることを特徴とする請求項２から請求項８のいずれか一項に記載のイベントを利用した動画像要約装置。
前記音声特徴値生成部は、
前記動画像の音声成分を所定時間のフレーム単位で分割するフレーム単位分割部と、
分割された前記フレーム単位ごとに音声特徴を抽出する特徴抽出部と、
前記特徴抽出部により第２所定数のフレームに対して抽出された第２所定数の音声特徴の平均と標準偏差とを算出し、算出された前記平均と前記標準偏差とを前記音声特徴値として出力する平均／標準偏差算出部と、
を備えることを特徴とする請求項９に記載のイベントを利用した動画像要約装置。
前記音声特徴は、メル周波数ケプストラム係数、スペクトルフラックス、セントロイド、ロールオフ、ＺＣＲ、エネルギーまたはピッチ情報であることを特徴とする請求項９または請求項１０に記載のイベントを利用した動画像要約装置。
前記音声イベント成分は、音楽、発話、周囲音、拍手、歓声、叫び声及び沈黙の少なくとも一つであることを特徴とするイベントを利用した請求項９から請求項１１のいずれか一項に記載の動画像要約装置。
前記音声イベント成分は、音楽を含み、
前記再結合／再分割部は、
前記音楽が存在する隣接する複数個のセグメントを結合することを特徴とする請求項９から請求項１１のいずれか一項に記載のイベントを利用した動画像要約装置。
前記音楽イベント成分は、拍手、叫び声または沈黙を含み、
前記再結合／再分割部は、前記拍手、前記叫び声または前記沈黙が存在する単一セグメントを分割イベントフレームにより二つに分割し、
前記分割イベントフレームは、前記シーン転換検出部により検出された前記シーンが転換される部分に存在するフレームであることを特徴とする請求項９から請求項１１のいずれか一項に記載のイベントを利用した動画像要約装置。
前記動画像の要約結果のメタデータを生成するメタデータ生成部と、
生成された前記メタデータと前記要約結果とを記憶する記憶部と、
をさらに備えることを特徴とする請求項１から請求項１４のいずれか一項に記載のイベントを利用した動画像要約装置。
前記映像要約部から入力された前記セグメントをバッファリングする要約バッファと、
前記要約バッファから入力されたバッファリング結果及び前記動画像の音声成分を出力する出力部と、
をさらに備え、
前記映像要約部は、新しいセグメントが生成されるたびに、前記新しいセグメントより以前に生成されたセグメントを前記要約バッファに出力することを特徴とする請求項１から請求項１５のいずれか一項に記載のイベントを利用した動画像要約装置。
前記動画像の映像成分は、ＥＰＧ情報とテレビ放送信号に含まれた映像成分とを含むことを特徴とする請求項１から請求項１６のいずれか一項に記載のイベントを利用した動画像要約装置。
前記動画像の音声成分は、ＥＰＧ情報とテレビ放送信号に含まれた音声成分とを含むことを特徴とする請求項１から請求項１７のいずれか一項に記載のイベントを利用した動画像要約装置。
動画像の映像成分から検出された映像イベント成分に基づいて、ショットを結合または分割し、結合または分割された結果をセグメントとして決定するセグメント決定ステップと、
前記動画像の音声成分から検出された音声イベント成分に基づいて、前記セグメントを結合または分割し、結合または分割された結果を前記動画像の要約結果として得る要約結果取得ステップと、
を含み、
前記映像イベントは、前記動画像の内容が転換される部分に挿入されるグラフィック効果であり、
前記音声イベントは、前記音声成分を区分する音の種類であることを特徴とするイベントを利用した動画像要約方法。
前記セグメント決定ステップは、
前記映像成分から前記映像イベント成分を検出するステップと、
前記映像成分からシーンが転換される部分を検出し、検出結果を利用して、同一シーン区間であるショットの時間情報とカラー情報とを生成するステップと、
前記ショットのカラー情報を利用して、前記ショットの類似度を算出し、算出された前記類似度と前記映像イベント成分とに基づいて、前記ショットを結合または分割するステップと、
を含むことを特徴とする請求項１９に記載のイベントを利用した動画像要約方法。
前記要約結果取得ステップは、
前記音声成分から音声特徴をフレーム単位で抽出し、第２所定数のフレームに関する前記音声特徴の平均及び標準偏差を音声特徴値として決定するステップと、
前記音声特徴値を利用して、前記音声イベント成分を検出するステップと、
前記音声イベント成分に基づいて、前記セグメントを結合または分割し、結合または分割された結果を前記動画像の要約結果として決定するステップと、
を含むことを特徴とする請求項２０に記載のイベントを利用した動画像要約方法。
コンピュータに、
動画像の映像成分から検出された映像イベント成分に基づいて、ショットを結合または分割し、結合または分割された結果をセグメントとして決定するセグメント決定ステップと、
前記動画像の音声成分から検出された音声イベント成分に基づいて、前記セグメントを結合または分割し、結合または分割された結果を前記動画像の要約結果として得る要約結果取得ステップと、
を実行させ、
前記映像イベントは、前記動画像の内容が転換される部分に挿入されるグラフィック効果であり、
前記音声イベントは、前記音声成分を区分する音の種類であることを特徴とするイベントを利用した動画像要約プログラム。
前記セグメント決定ステップは、
前記映像成分から前記映像イベント成分を検出するステップと、
前記映像成分からシーンが転換される部分を検出し、検出結果を利用して、同一シーン区間であるショットの時間情報とカラー情報とを生成するステップと、
前記ショットのカラー情報を利用して、前記ショットの類似度を算出し、算出された前記類似度と前記映像イベント成分とに基づいて、前記ショットを結合または分割するステップと、
を含むことを特徴とする請求項２２に記載のイベントを利用した動画像要約プログラム。
前記要約結果取得ステップは、
前記音声成分から音声特徴をフレーム単位で抽出し、第２所定数のフレームに関する前記音声特徴の平均及び標準偏差を音声特徴値として決定するステップと、
前記音声特徴値を利用して、前記音声イベント成分を検出するステップと、
前記音声イベント成分に基づいて、前記セグメントを結合または分割し、結合または分割された結果を前記動画像の要約結果として決定するステップと、
を含むことを特徴とする請求項２３に記載のイベントを利用した動画像要約プログラム。