JP2006319980A - イベントを利用した動画像要約装置、方法及びプログラム - Google Patents
イベントを利用した動画像要約装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2006319980A JP2006319980A JP2006130588A JP2006130588A JP2006319980A JP 2006319980 A JP2006319980 A JP 2006319980A JP 2006130588 A JP2006130588 A JP 2006130588A JP 2006130588 A JP2006130588 A JP 2006130588A JP 2006319980 A JP2006319980 A JP 2006319980A
- Authority
- JP
- Japan
- Prior art keywords
- video
- event
- component
- unit
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/785—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/102—Programmed access in sequence to addressed parts of tracks of operating record carriers
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/22—Means responsive to presence or absence of recorded information signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
Abstract
【課題】動画像を正確かつ迅速に要約することが可能なイベントを利用した動画像要約装置を提供する。
【解決手段】イベントを利用した動画像要約装置は、動画像の映像成分から検出された映像イベント成分に基づいて、ショットを結合または分割し、結合または分割された結果をセグメントとして出力する映像要約部10と、動画像の音声成分から検出された音声イベント成分に基づいて、セグメントを結合または分割し、結合または分割された結果を動画像の要約結果として出力する音声要約部12と、を備えている。映像イベントは、動画像の内容が転換される部分に挿入されるグラフィック効果であり、音声イベントは、音声成分を区分する音の種類である。
【選択図】図1
【解決手段】イベントを利用した動画像要約装置は、動画像の映像成分から検出された映像イベント成分に基づいて、ショットを結合または分割し、結合または分割された結果をセグメントとして出力する映像要約部10と、動画像の音声成分から検出された音声イベント成分に基づいて、セグメントを結合または分割し、結合または分割された結果を動画像の要約結果として出力する音声要約部12と、を備えている。映像イベントは、動画像の内容が転換される部分に挿入されるグラフィック効果であり、音声イベントは、音声成分を区分する音の種類である。
【選択図】図1
Description
本発明は、音声及び/または映像記録媒体、マルチメディアパーソナルコンピュータ、メディアサーバ、デジタル多用途ディスク(DVD:Digital Versatile Disc)レコーダ、デジタルテレビなど、動画像を処理または利用する機器に係り、特に、イベントを利用して動画像を要約する動画像要約装置、方法及びプログラムに関する。
近年、データ記録媒体のテラバイト(tera-bytes)レベルへの大容量化、データ圧縮技術の向上、デジタル機器の種類の多様化、放送の多チャンネル化、個人的なコンテンツの生成の急増など、マルチメディアコンテンツの生成が広まっている。しかし、ユーザは、かかる多様で膨大なマルチメディアコンテンツから所望のコンテンツを検索することの難しさを経験しており、加えて、所望のコンテンツを検索するのに十分な時間をとることができない。したがって、多くのユーザは、コンピュータなどが所望のコンテンツを要約して示してくれることを望んでいる。例えば、多くのユーザは、所望のコンテンツをどこででも見ることができること、所望のコンテンツの要約またはハイライト部分を見ること、所望のコンテンツまたはシーンをインデックス化し、自身の好みまたは気分に応じてコンテンツまたはシーンが提供されることを望んでいる。
かかるユーザの要望を満たすために、従来、様々な動画像要約方法が開発されてきた。特許文献1,2,3には、ショット単位で動画像を分割して要約する従来の動画像要約方法が開示されている。かかる従来の動画像要約方法は、動画像を非常に大きいセグメントに分割するので、要約された動画像情報をユーザに提供することができないという問題点を有している。
特許文献4,5,6には、単一情報の類似度に基づいて動画像を要約する従来の動画像要約方法が開示されている。かかる従来の動画像要約方法は、内容に基づいて動画像を分割する代わりに、カラーの類似度に基づいて動画像を要約する。したがって、かかる従来の動画像要約方法は、内容に応じて動画像を正しく要約することができないという問題点を有している。
特許文献7には、マルチモーダル(multimodal)に基づいて動画像を圧縮する従来の動画像圧縮方法が開示されている。かかる従来の動画像圧縮方法は、動画像の圧縮(要約)が非常に遅いという問題点を有している。
本発明が解決しようとする課題は、動画像を正確かつ迅速に要約することが可能なイベントを利用した動画像要約装置を提供するところにある。
本発明が解決しようとする他の課題は、映像イベント及び音声イベントを利用して、動画像の内容に基づいて、動画像を正確かつ迅速に要約することが可能なイベントを利用した動画像要約方法を提供するところにある。
本発明が解決しようとするさらに他の課題は、映像イベント及び音声イベントを利用して、動画像の内容に基づいて、コンピュータに動画像を正確かつ迅速に要約させることが可能なイベントを利用した動画像要約プログラムを提供するところにある。
前記課題を解決するため、本発明に係るイベントを利用した動画像要約装置は、動画像の映像成分から検出された映像イベント成分に基づいて、ショットを結合または分割し、結合または分割された結果をセグメントとして出力する映像要約部と、前記動画像の音声成分から検出された音声イベント成分に基づいて、前記セグメントを結合または分割し、結合または分割された結果を前記動画像の要約結果として出力する音声要約部と、を備え、前記映像イベントは、前記動画像の内容が転換される部分に挿入されるグラフィック効果であり、前記音声イベントは、前記音声成分を区分する音の種類であることを特徴とする。
前記映像要約部は、前記映像成分から前記映像イベント成分を検出する映像イベント検出部と、前記映像成分からシーンが転換される部分を検出し、検出結果を利用して、同一シーン区間であるショットの時間情報とカラー情報とを生成するシーン転換検出部と、前記シーン転換検出部から入力された前記ショットのカラー情報を利用して、前記ショットの類似度を算出し、算出された前記類似度と前記映像イベント成分とに基づいて、前記ショットを結合または分割する映像ショット結合/分割部と、を備えることが望ましい。
前記映像イベント検出部は、前記映像成分からフェード効果の中間に位置した単一色のフレームを検出し、検出された前記単一色のフレームを前記映像イベント成分として出力し、前記映像イベントは、前記フェード効果に該当することが望ましい。
前記映像イベントは、フェード効果、ディゾルブ効果またはワイプ効果であることが望ましい。
前記映像ショット結合/分割部は、前記シーン転換検出部から入力されたショットの前記カラー情報を記憶するバッファと、記憶された前記カラー情報から、検索ウインドウに属する第1所定数のカラー情報を読み出し、読み出された前記カラー情報を利用して、前記ショットのカラー類似度を算出する類似度算出部と、前記カラー類似度と閾値とを比較し、比較結果に応じて、比較された2つのショットを結合する結合部と、を備えることが望ましい。
前記映像ショット結合/分割部は、結合結果が前記映像イベント成分を有する場合に、前記映像イベント成分に基づいて前記結合結果を分割する分割部をさらに備えることが望ましい。
前記類似度算出部は、下記式(1)により、前記カラー類似度を算出することが望ましい。
(ここで、Sim(H1,H2)は、2つのショットのカラー類似度を表し、H1(n)及びH2(n)は、2つのショットのカラーヒストグラムをそれぞれ表し、Nは、ヒストグラムのレベルを表し、min(x,y)は、x及びyのうち最小値を表す。)
前記検索ウインドウのサイズである前記第1所定数は、EPG情報に応じて異なる値に設定されていることが望ましい。
前記音声要約部は、前記音声成分から音声特徴をフレーム単位で抽出し、第2所定数のフレームに関する前記音声特徴の平均及び標準偏差を音声特徴値として出力する音声特徴値生成部と、前記音声特徴値を利用して、前記音声イベント成分を検出する音声イベント検出部と、前記音声イベント成分に基づいて、前記セグメントを結合または分割し、結合または分割された結果を前記動画像の要約結果として出力する再結合/再分割部と、を備えることが望ましい。
前記音声特徴値生成部は、前記動画像の音声成分を所定時間のフレーム単位で分割するフレーム単位分割部と、分割された前記フレーム単位ごとに音声特徴を抽出する特徴抽出部と、前記特徴抽出部により第2所定数のフレームに対して抽出された第2所定数の音声特徴の平均と標準偏差とを算出し、算出された前記平均と前記標準偏差とを前記音声特徴値として出力する平均/標準偏差算出部と、を備えることが望ましい。
前記音声特徴は、メル周波数ケプストラム係数、スペクトルフラックス、セントロイド、ロールオフ、ZCR、エネルギーまたはピッチ情報であることが望ましい。
前記音声イベント成分は、音楽、発話、周囲音、拍手、歓声、叫び声及び沈黙の少なくとも一つであることが望ましい。
前記音声イベント成分は、音楽を含み、前記再結合/再分割部は、前記音楽が存在する隣接する複数個のセグメントを結合することが望ましい。
前記音楽イベント成分は、拍手、叫び声または沈黙を含み、前記再結合/再分割部は、前記拍手、前記叫び声または前記沈黙が存在する単一セグメントを分割イベントフレームにより二つに分割し、前記分割イベントフレームは、前記シーン転換検出部により検出された前記シーンが転換される部分に存在するフレームであることが望ましい。
イベントを利用した動画像要約装置は、前記動画像の要約結果のメタデータを生成するメタデータ生成部と、生成された前記メタデータと前記要約結果とを記憶する記憶部と、をさらに備えることが望ましい。
イベントを利用した動画像要約装置は、前記映像要約部から入力された前記セグメントをバッファリングする要約バッファと、前記要約バッファから入力されたバッファリング結果及び前記動画像の音声成分を出力する出力部と、をさらに備え、前記映像要約部は、新しいセグメントが生成されるたびに、前記新しいセグメントより以前に生成されたセグメントを前記要約バッファに出力することが望ましい。
前記動画像の映像成分は、EPG情報とテレビ放送信号に含まれた映像成分とを含むことが望ましい。
前記動画像の音声成分は、EPG情報とテレビ放送信号に含まれた音声成分とを含むことが望ましい。
前記他の課題を解決するため、本発明に係るイベントを利用した動画像要約方法は、動画像の映像成分から検出された映像イベント成分に基づいて、ショットを結合または分割し、結合または分割された結果をセグメントとして決定するセグメント決定ステップと、前記動画像の音声成分から検出された音声イベント成分に基づいて、前記セグメントを結合または分割し、結合または分割された結果を前記動画像の要約結果として得る要約結果取得ステップと、を含み、前記映像イベントは、前記動画像の内容が転換される部分に挿入されるグラフィック効果であり、前記音声イベントは、前記音声成分を区分する音の種類であることを特徴とする。
前記セグメント決定ステップは、前記映像成分から前記映像イベント成分を検出するステップと、前記映像成分からシーンが転換される部分を検出し、検出結果を利用して、同一シーン区間であるショットの時間情報とカラー情報とを生成するステップと、前記ショットのカラー情報を利用して、前記ショットの類似度を算出し、算出された前記類似度と前記映像イベント成分とに基づいて、前記ショットを結合または分割するステップと、を含むことが望ましい。
前記要約結果取得ステップは、前記音声成分から音声特徴をフレーム単位で抽出し、第2所定数のフレームに関する前記音声特徴の平均及び標準偏差を音声特徴値として決定するステップと、前記音声特徴値を利用して、前記音声イベント成分を検出するステップと、前記音声イベント成分に基づいて、前記セグメントを結合または分割し、結合または分割された結果を前記動画像の要約結果として決定するステップと、を含むことが望ましい。
前記さらに他の課題を解決するため、本発明に係るイベントを利用した動画像要約プログラムは、コンピュータに、動画像の映像成分から検出された映像イベント成分に基づいて、ショットを結合または分割し、結合または分割された結果をセグメントとして決定するセグメント決定ステップと、前記動画像の音声成分から検出された音声イベント成分に基づいて、前記セグメントを結合または分割し、結合または分割された結果を前記動画像の要約結果として得る要約結果取得ステップと、を実行させ、前記映像イベントは、前記動画像の内容が転換される部分に挿入されるグラフィック効果であり、前記音声イベントは、前記音声成分を区分する音の種類であることを特徴とする。
前記セグメント決定ステップは、前記映像成分から前記映像イベント成分を検出するステップと、前記映像成分からシーンが転換される部分を検出し、検出結果を利用して、同一シーン区間であるショットの時間情報とカラー情報とを生成するステップと、前記ショットのカラー情報を利用して、前記ショットの類似度を算出し、算出された前記類似度と前記映像イベント成分とに基づいて、前記ショットを結合または分割するステップと、を含むことが望ましい。
前記要約結果取得ステップは、前記音声成分から音声特徴をフレーム単位で抽出し、第2所定数のフレームに関する前記音声特徴の平均及び標準偏差を音声特徴値として決定するステップと、前記音声特徴値を利用して、前記音声イベント成分を検出するステップと、前記音声イベント成分に基づいて、前記セグメントを結合または分割し、結合または分割された結果を前記動画像の要約結果として決定するステップと、を含むことが望ましい。
本発明のイベントを利用した動画像要約装置、方法及びプログラムは、映像イベント及び音声イベントを利用し、内容に基づいてショットを正確に結合または分割することができる。また、映像イベントを利用して動画像を事前に要約するので、動画像を迅速に要約することができる。
以下、本発明の実施形態に係るイベントを利用した動画像要約装置及び動画像要約方法について、添付図面を参照して説明する。
図1は、本発明の実施形態に係るイベントを利用した動画像要約装置を示すブロック図である。図1に示すように、イベントを利用した動画像要約装置(以下、単に「動画像要約装置」と記載する。)は、映像要約部(video summarizing unit)10と、音声要約部(audio summarizing unit)12と、メタデータ生成部(metadata generator)14と、記憶部(storage unit)16と、要約バッファ18(summarizing buffer)と、出力部20と、を備えている。
なお、図1の動画像要約装置は、映像要約部10及び音声要約部12のみから構成されていてもよい。
図2は、本発明の実施形態に係るイベントを利用した動画像要約方法を説明するためのフローチャートである。図2に示すように、イベントを利用した動画像要約方法(以下、単に「動画像要約方法」と記載する。)は、ショットを結合または分割してセグメントを得るステップ(ステップ40:セグメント決定ステップ)と、セグメントを結合または分割して動画像の要約結果を得るステップ(ステップ42:要約結果取得ステップ)と、を含む。
図2のステップ40及びステップ42は、それぞれ図1の映像要約部10及び音声要約部12により実行可能である。
図1の映像要約部10は、入力端子IN1を介して動画像の映像成分(video component)が入力され、入力された動画像の映像成分から映像イベント成分(video event component)を検出し、検出された映像イベント成分に基づいてショットを結合(combine)または分割(segment)し、結合または分割された結果をセグメントとして出力する(ステップ40)。ここで、動画像の映像成分は、動画像に含まれるショットの時間情報(time information)、ショットのカラー情報(color information)、フェードフレームの時間情報などを意味する。映像イベントは、動画像において内容が転換される部分に意図的に挿入されるグラフィック効果を意味する。したがって、映像イベントが発生すれば、動画像の内容に転換が発生したとみなすことができる。例えば、映像イベントとして、フェード効果、ディゾルブ効果、ワイプ効果などが挙げられる。
図3は、図1の映像要約部10の一実施形態である映像要約部10Aを示すブロック図である。図3に示すように、映像要約部10Aは、映像イベント検出部(video event detector)60と、シーン転換検出部(scene transition detector)62と、映像ショット結合/分割部(video shot combining/segmenting unit)64と、を備えている。
図4は、図2のステップ40の一実施形態であるステップ40Aを説明するためのフローチャートである。図4に示すように、ステップ40Aは、映像イベント成分を検出するステップ(ステップ80)と、ショットの時間情報とショットのカラー情報とを生成するステップ(ステップ82)と、ショットを結合または分割するステップ(ステップ84)と、を含む。
図3の映像イベント検出部60は、入力端子IN3を介して動画像の映像成分が入力され、入力された動画像の映像成分から映像イベント成分を検出し、検出された映像イベント成分を映像ショット結合/分割部64に出力する(ステップ80)。
図5は、図3の視覚的イベント検出部60を説明するためのグラフである。各グラフにおいて、横軸は明度(brightness)を表し、縦軸は頻度(frequency)を表し、N’は明度の最大値を表す。
本発明の理解を助けるために、映像イベントがフェード効果であると仮定する。フェード効果において、フェードインされるフレームとフェードアウトされるフレームとの間に存在するフレーム群の中間には、単一色のフレームが存在する。したがって、映像イベント検出部60は、動画像の映像成分のカラーヒストグラム特性を利用し、フェード効果の中間に位置した単一色のフレームを検出し、検出された単一色のフレームを映像イベント成分として出力することができる。例えば、単一色のフレームは、図5(a)に示すようにブラックフレームであってもよく、図5(b)に示すようにホワイトフレームであってもよい。
ステップ80の後、シーン転換検出部62は、入力端子IN3を介して動画像の映像成分が入力され、入力された映像成分からシーンの転換部分を検出し、検出されたシーンの転換部分を出力端子OUT4を介して音声要約部12に出力する。また、シーン転換検出部62は、検出されたシーンの転換部分を利用し、同一シーン区間の時間情報とカラー情報とを生成し、生成された同一シーン区間の時間情報とカラー情報とを映像ショット結合/分割部64に出力する(ステップ82)。ここで、同一シーン区間は、シーンの転換部分の間のフレーム、すなわち、シーンの転換が発生するフレームと、次にシーンの転換が発生するフレームとの間の複数のフレームからなる。同一シーン区間は、「ショット」とも呼ばれる。シーン転換検出部62は、各ショットから単数または複数の代表映像フレームを選択し、選択された代表映像フレームから時間情報とカラー情報とを出力することもできる。シーン転換検出部62により実行される動作、すなわち、動画像の映像成分からシーンの転換部分を検出する方法は、例えば、米国特許第5,767,922号明細書、米国特許第6,137,544号明細書及び米国特許第6,393,054号明細書に開示されている。
本発明では、図4のフローと異なり、ステップ82をステップ80より先に実行してもよく、ステップ80及びステップ82を同時に実行してもよい。
ステップ82の後、映像ショット結合/分割部64は、シーン転換検出部62から入力されたショットのカラー情報を利用してショットの類似度(similarity)を測定し、測定された類似度と映像イベント検出部60から入力された映像イベント成分とに基づいて、ショットを結合または分割し、結合または分割された結果をセグメントとして出力端子OUT3を介して出力する(ステップ84)。
図6は、図3の映像ショット結合/分割部64の一実施形態である映像ショット結合/分割部64Aを示すブロック図である。図6に示すように、映像ショット結合/分割部64Aは、バッファ(buffer)100と、類似度算出部(similarity calculating unit)102と、結合部(combining unit)104と、分割部(segmenting unit)106と、を備えている。
バッファ100は、シーン転換検出部62から入力端子IN4を介して入力されたショットのカラー情報を記憶、すなわち、バッファリングする。
類似度算出部102は、バッファ100に記憶されたカラー情報のうち、検索ウインドウ(search window)に属する第1所定数のカラー情報を読み出し、読み出されたカラー情報を利用してショットのカラー類似度(color similarity)を算出し、算出されたカラー類似度を結合部104に出力する。
ここで、検索ウインドウのサイズは、第1所定数に対応しており、EPG情報(Electric Program information)に応じて異なる値に設定可能である。
本発明において、類似度算出部102は、下記式(1)を利用してカラー類似度を算出することができる。
ここで、検索ウインドウのサイズは、第1所定数に対応しており、EPG情報(Electric Program information)に応じて異なる値に設定可能である。
本発明において、類似度算出部102は、下記式(1)を利用してカラー類似度を算出することができる。
ここで、Sim(H1,H2)は、シーン転換検出部62から入力された類似度を比較する2つのショット(H1及びH2)のカラー類似度を表し、H1(n)及びH2(n)は、それぞれ2つのショットH1,H2のカラーヒストグラムを表し、Nは、ヒストグラムのレベルを表し、min(x,y)は、既存のヒストグラムインターセクション法(histogram intersection method)に基づいてx及びyのうちの最小値を表す。
結合部104は、類似度算出部102により算出されたカラー類似度と閾値とを比較し、比較された結果に応じて比較された2つのショットを結合する。
映像ショット結合/分割部64Aは、分割部106をさらに備えている。分割部106は、入力端子IN5を介して映像イベント成分が入力される場合、すなわち、結合部104により結合された結果が映像イベント成分を有する場合に、映像イベント検出部60から入力された映像イベント成分に基づいて、結合部104により結合された結果を分割し、分割された結果をセグメントとして出力端子OUT5を介して出力する。
本発明の一実施形態によれば、図6に示すように、結合部104と分割部106とが別途に設けられる。この場合には、結合動作が先に実行され、その後分割動作が実行される。
本発明の他の実施形態によれば、映像ショット結合/分割部64Aは、図6に示すように結合部104と分割部106とが別途に設けられる代わりに、結合部104と分割部106とが統合された1つの結合/分割部108を備えていてもよい。
このとき、結合/分割部108は、結合すべきショットと分割すべきショットとを最終的に決定した後に、結合すべきショットを結合する。
このとき、結合/分割部108は、結合すべきショットと分割すべきショットとを最終的に決定した後に、結合すべきショットを結合する。
図7は、図3の映像ショット結合/分割部64を説明するための図であり、(a)及び(d)は、それぞれ一連のショットを矢印方向に経時的な順序で表した図であり、(b)、(c)、(e)及び(f)は、図6のバッファ100とセグメントの識別番号とをマッチングさせたテーブルである。各テーブルにおいて、「B#」は、バッファの番号、すなわち、ショットの番号を表し、SIDは、セグメントの識別番号(ID:IDentity)を表し、「?」は、SIDがまだ決まっていないということを表す。
本発明の理解を助けるために、検索ウインドウのサイズ、すなわち、第1所定数を「8」と仮定するが、本発明は、これに限定されるものではない。
まず、図7(a)の検索ウインドウ110に属するショット1〜8を結合または分割しようとする場合、図7(b)に示すように、1番目のバッファ(B#=1)のSIDを任意の数字、例えば、「1」と設定する。このとき、類似度算出部102は、1番目のバッファ(B#=1)に記憶されたショットのカラー情報と、2番目のバッファ(B#=2)から8番目のバッファ(B#=8)に記憶されたショットのカラー情報とを利用して、2つのショットの類似度を算出する。
例えば、類似度算出部102は、2枚のショットの類似度を最後のバッファから順にチェックすることができる。すなわち、類似度算出部102は、1番目のバッファ(B#=1)に記憶されたカラー情報に対応するショットと8番目のバッファ(B#=8)に記憶されたカラー情報に対応するショットとを比較し、続いて1番目のバッファ(B#=1)に記憶されたカラー情報に対応するショットと7番目のバッファ(B#=7)に記憶されたカラー情報に対応するショットとを比較し、続いて1番目のバッファ(B#=1)に記憶されたカラー情報に対応するショットと6番目のバッファ(B#=6)に記憶されたカラー情報に対応するショットとを比較し、というように、最後のバッファから順に2つのショットの類似度をチェックすると仮定する。
かかる仮定下において、結合/分割部108は、類似度算出部102により算出された1番目のバッファ(B#=1)と8番目のバッファ(B#=8)との類似度[Sim(H1,H8)]と閾値とを比較する。1番目のバッファ(B#=1)と8番目のバッファ(B#=8)との類似度[Sim(H1,H8)]が閾値より小さいと判定されれば、結合/分割部108は、類似度算出部102により算出された1番目のバッファ(B#=1)と7番目のバッファ(B#=7)との類似度[Sim(H1,H7)]が閾値以上であるか否かを判定する。1番目のバッファ(B#=1)と7番目のバッファ(B#=7)との類似度[Sim(H1,H7)」が閾値以上であると判定されれば、結合/分割部108は、1番目のバッファ(B#=1)ないし7番目のバッファ(B#=7)に対応するすべてのSIDを「1」と設定する。この場合には、1番目のバッファ(B#=1)と6番目のバッファ(B#=6)ないし2番目のバッファ(B#=2)との類似度の比較は実行されない。したがって、結合/分割部108は、同一のSIDを有する1番目のショットから7番目のショットを結合する。
しかし、映像イベント、例えばフェード効果を提供するために、4番目のショットにブラックフレームが含まれていると仮定する。この場合には、入力端子IN5を介して映像イベント検出部60から映像イベント成分が入力された場合に、結合/分割部108は、図7(c)に示すように、1番目のバッファ(B#=1)から4番目のバッファ(B#=4)のSIDを「1」と設定し、5番目のバッファ(B#=5)のSIDを「2」と設定する。したがって、結合/分割部108は、同一のSIDを有する1番目のショットから4番目のショットを結合する。
結合/分割部108は、5番目のショットに基づく新しい検索ウインドウ、すなわち、図7(d)に示す検索ウインドウ112に属するショット5〜12を結合または分割するか否かをチェックする。このとき、初期状態で、検索ウインドウ112に対応する5番目のショットから12番目のショットのSIDは、図7(e)に示すように設定されている。
結合/分割部108は、類似度算出部102により算出された5番目のバッファ(B#=5)と12番目のバッファ(B#=12)との類似度[Sim(H5,H12)]と閾値とを比較する。5番目のバッファ(B#=5)と12番目のバッファ(B#=12)との類似度[Sim(H5,H12)」が閾値より小さいと判定されれば、結合/分割部108は、類似度算出部102により算出された5番目のバッファ(B#=5)と11番目のバッファ(B#=11)との類似度[Sim(H5,H11)」が閾値以上であるか否かを判定する。5番目のバッファ(B#=5)と11番目のバッファ(B#=11)との類似度[Sim(H5,H11)」が閾値以上であると判定されれば、結合/分割部108は、5番目のバッファ(B#=5)ないし11番目のバッファ(B#=11)に対応するすべてのSIDを、図7(f)に示すように、「2」と設定する。映像イベントが提供されない場合には、結合/分割部108は、同一のSID「2」を有する5番目のショットから11番目のショットを結合する。
結合/分割部108は、バッファ100に記憶されたショットのカラー情報を利用して、すべてのショットに対して、すなわち、バッファ100に記憶されたすべてのB#に対してSIDが得られるまで前記した動作を実行する。
図8は、図6の映像ショット結合/分割部64Aの動作を説明するための他の図である。図8(a)ないし図8(c)において、横軸は、時間を表す。
例えば、結合部104が、図8(a)のショットを図8(b)に示すように結合したと仮定する。この場合には、結合されたショットからなるセグメント114の中間に位置するショット119が映像イベント、例えばフェード効果を提供するためのブラックフレーム(すなわち、映像イベント成分)を含む場合に、分割部106は、入力端子IN5を介して入力された映像イベント成分を有するショット119において、セグメント114を2つのセグメント116,118に分割する(図8(c)参照)。
一方、ステップ40の後、音声要約部12は、入力端子IN2を介して動画像の音声成分が入力され、入力された音声成分から音声イベント成分を検出し、検出された音声イベント成分に基づいて映像要約部10から入力されたセグメントを結合または分割し、結合または分割された結果を動画像の要約結果として出力する(ステップ42)。ここで、音声イベントは、音声成分を区分する音の種類を意味し、音声イベント成分は、例えば、音楽(music)、発話(speech)、周囲音(environment sound)、拍手、歓声、叫び声(clamor)及び沈黙(silence)の少なくとも一つであればよい。
図9は、図1の音声要約部12の一実施形態である音声要約部12Aを示すブロック図である。図9に示すように、音声要約部12Aは、音声特徴値生成部(audio characteristic value generator)120と、音声イベント検出部(audio event detector)122と、再結合/再分割部(recombining/resegmenting unit)124と、を備えている。
図10は、図2のステップ42の一実施形態であるステップ42Aを説明するためのフローチャートである。図10に示すように、ステップ42Aは、音声特徴値を決定するステップ(ステップ140)と、音声イベント成分を検出するステップ(ステップ142)と、セグメントを結合または分割するステップ(ステップ144)と、を含む。
図9の音声特徴値生成部120は、入力端子IN6を介して動画像の音声成分が入力され、入力された音声成分から音声特徴をフレーム単位で抽出し、第2所定数のフレームに対する音声特徴の平均及び標準偏差を音声特徴値として得て音声イベント検出部122に出力する(ステップ140)。ここで、音声特徴は、メル周波数ケプストラム係数(MFCC:Mel-Frequency Cepstrum Coefficient)、スペクトルフラックス(spectral flux)、セントロイド(centroid)、ロールオフ(rolloff)、ZCR(Zero Channel RAID)、エネルギー(energy)またはピッチ(pitch)情報であってもよく、第2所定数は、2以上の整数であり、例えば、「40」であってもよい。
図11は、図9の音声特徴値生成部120の一実施形態である音声特徴値生成部120Aを示すブロック図である。図11に示すように、音声特徴値生成部120Aは、フレーム単位分割部(frame divider)150と、特徴抽出部(feature extractor)152と、平均/標準偏差算出部(average/standard deviation calculator)154と、を備えている。
フレーム単位分割部150は、入力端子IN9を介して入力された動画像の音声成分を、所定時間、例えば、24msのフレーム単位で分割する。特徴抽出部152は、分割されたフレームごとに音声特徴を抽出する。平均/標準偏差算出部154は、特徴抽出部152により抽出された第2所定数のフレームの第2所定数に対する音声特徴の平均及び標準偏差を算出し、算出された平均及び標準偏差を音声特徴値として出力端子OUT7を介して出力する。
動画像の音声成分から音声特徴値を生成する従来の方法が、“Method and article of manufacture for content-based analysis, storage, retrieval and segmentation of audio information”というタイトルを有する米国特許第5,918,223号明細書、“Extracting classifying data in music from an audio bitstream”というタイトルを有する米国特許出願公開第2003/0040904号明細書、“Audio Feature Extraction and Analysis for Scene Segmentation and Classification”というタイトルで1998年にJournal of VLSI Signal Processing Systems Archive, Volumn 20 pp.61-79にYao Wang及びTsuhan Chenにより発表された論文、及び“SVM-based audio classification for instructional video analysis”というタイトルで2004年にICASSP2004にYing Li及びChitra Doraiにより発表された論文に開示されている。
ステップ140の後、音声イベント検出部122は、音声特徴値生成部120から入力された音声特徴値を利用して音声イベント成分を検出し、検出された音声イベント成分を再結合/再分割部124に出力する(ステップ142)。
音声特徴値から音声イベント成分を検出する従来の方法として、GMM(Gaussian Mixture Model)、HMM(Hidden Markov Model)、NN(Neural Network)、SVM(Support Vector Machine)などの様々な統計的学習モデルが利用可能である。ここで、SVMを利用して音声イベントを検出する従来の方法が、“SVM-based Audio Classification for Instructional Video Analysis”というタイトルで2004年にICASSP2004にYing Li及びChitra Doraiにより発表された論文に開示されている。
ステップ142の後、再結合/再分割部124は、音声イベント検出部122から入力された音声イベント成分に基づいて、入力端子IN7を介してシーン転換検出部62から入力されたシーンの転換部分を利用して、入力端子IN8を介して映像要約部10から入力されたセグメントを併合または分割し、結合または分割された結果を動画像の要約結果として、出力端子OUT6を介して出力する(ステップ144)。
図12は、図9の再結合/再分割部124により実行されるセグメントの再結合を説明するための図であり、(a)は、映像要約部10から入力されたセグメントを示す図であり、(b)は、音声成分を示す図であり、(c)は、結合結果を示す図である。
再結合/再分割部124は、入力端子IN8を介して図12(a)に示すセグメント160,162,164,166,168が映像要約部10から入力される。このとき、音声イベント検出部122から入力された音声イベント成分、例えば、音楽成分170がセグメント164,166の中間に位置しているので(図12(b)参照)、再結合/再分割部124は、セグメント164,166が同一の内容を有しているとみなし、図12(c)に示すようにセグメント164,166を結合する。
図13は、図9の再結合/再分割部124により実行されるセグメントの再分割を説明するための図であり、(a)は、映像要約部10から入力されたセグメントを示す図であり、(b)は、音声成分を示す図であり、(c)は、分割結果を示す図である。
再結合/再分割部124は、入力端子IN8を介して図13(a)に示すセグメント180,182,184,186,188が映像要約部10から入力される。
このとき、音声イベント検出部122から入力された音声イベント成分、例えば、拍手、叫び声または沈黙が図13(b)に示すように一定時間l以上続く場合には、再結合/再分割部124は、入力端子IN7を介して入力されたシーンの転換部分に存在するフレームである分割イベントフレームを利用して、シーンの転換が発生する時刻tlで、図13(c)に示すようにセグメント182を2つのセグメント190,192に分割する。
このとき、音声イベント検出部122から入力された音声イベント成分、例えば、拍手、叫び声または沈黙が図13(b)に示すように一定時間l以上続く場合には、再結合/再分割部124は、入力端子IN7を介して入力されたシーンの転換部分に存在するフレームである分割イベントフレームを利用して、シーンの転換が発生する時刻tlで、図13(c)に示すようにセグメント182を2つのセグメント190,192に分割する。
図1の動画像要約装置は、メタデータ生成部14及び記憶部16をさらに備えている。なお、メタデータ生成部14及び記憶部16は省略可能である。
メタデータ生成部14は、音声要約部12から動画像の要約結果が入力され、入力された動画像の要約結果のメタデータ、すなわち、特性データを生成し、生成されたメタデータと動画像の要約結果とを記憶部16に出力する。
記憶部16は、メタデータ生成部14により生成されたメタデータと動画像の要約結果とを記憶し、記憶された結果を出力端子OUT2を介して出力する。
記憶部16は、メタデータ生成部14により生成されたメタデータと動画像の要約結果とを記憶し、記憶された結果を出力端子OUT2を介して出力する。
図1の動画像要約装置は、要約バッファ18及び出力部20をさらに備えている。なお、要約バッファ18及び出力部20は省略可能である。
要約バッファ18は、映像要約部10から入力されたセグメントをバッファリングし、バッファリングされた結果を出力部20に出力する。この動作を実行するために、映像要約部10は、新しいセグメントが生成されるたびに、新しいセグメントより以前に生成されたセグメントを要約バッファ18に出力する。出力部20は、要約バッファ18から入力されたバッファリングされた結果、及び入力端子IN2を介して入力された動画像の音声成分を出力する。すなわち、出力部20は、要約バッファ18から入力されたバッファリングされた結果をディスプレイするディスプレイ部(図示せず)と、入力端子IN2を介して入力された動画像の音声成分をサウンドとして提供するスピーカ(図示せず)と、を備えている。
本発明によれば、動画像の映像成分は、EPG情報(Electronic Program Guide information)とテレビ放送信号に含まれた映像成分とをいずれも含むことができ、動画像の音声成分は、EPG情報とテレビ放送信号に含まれた音声成分とをいずれも含むことができる。
図14は、本発明の他の実施形態に係る動画像要約装置を示すブロック図である。図14に示すように、他の実施形態に係る動画像要約装置は、EPG解釈部200と、チューナ202と、マルチプレクサ(MUX)204と、映像デコーダ206と、音声デコーダ208と、映像要約部210と、要約バッファ212と、ディスプレイ部214と、スピーカ215と、音声要約部216と、メタデータ生成部218と、記憶部220と、を備えている。
図14の映像要約部210、音声要約部216、メタデータ生成部218、記憶部220、要約バッファ212、ディスプレイ部214及びスピーカ215は、それぞれ図1の映像要約部10、音声要約部12、メタデータ生成部14、記憶部16、要約バッファ18、出力部20のディスプレイ部及び出力部20のスピーカに該当するので、これらについての詳細な説明を省略する。
図14に示すように、EPG解釈部200は、入力端子IN10を介して入力されたEPG信号からEPG情報を抽出して分析し、分析結果を映像要約部210及び音声要約部216にそれぞれ出力する。ここで、EPG信号は、ウェブを介して別途に提供されることもあり、テレビ放送信号に含まれることもある。この場合には、映像要約部210に入力される動画像の映像成分は、EPG情報を含み、音声要約部216に入力される動画像の音声成分も、EPG情報を含む。チューナ202は、入力端子IN11を介してテレビ放送信号が入力され、入力されたテレビ放送信号をチューニングし、チューニング結果をMUX204に出力する。MUX204は、チューニング結果の映像成分を映像デコーダ206に出力し、チューニング結果の音声成分を音声デコーダ208にそれぞれ出力する。
映像デコーダ206は、MUX204から入力された映像成分をデコードし、デコード結果を動画像の映像成分として映像要約部210に出力する。これと同様に、音声デコーダ208は、MUX204から入力された音声成分をデコードし、デコード結果を動画像の音声成分として音声要約部216及びスピーカ215に出力する。
図15は、本発明のさらに他の実施形態に係る動画像要約装置を示すブロック図である。図15に示すように、さらに他の実施形態に係る動画像要約装置は、EPG解釈部300と、第1チューナ302と、第2チューナ304と、第1MUX306と、第2MUX308と、第1映像デコーダ310と、第2映像デコーダ312と、第1音声デコーダ314と、第2音声デコーダ316と、映像要約部318と、要約バッファ320と、ディスプレイ部322と、スピーカ323と、音声要約部324と、メタデータ生成部326と、記憶部328と、を備えている。
図15の映像要約部318、音声要約部324、メタデータ生成部326、記憶部328、要約バッファ320、ディスプレイ部322及びスピーカ323は、図1の映像要約部10、音声要約部12、メタデータ生成部14、記憶部16、要約バッファ18、出力部20のディスプレイ部及び出力部20のスピーカにそれぞれ該当するので、これらについての詳細な説明を省略する。また、図15のEPG解釈部300は、図14のEPG解釈部200と同じ機能を実行し、図15の第1チューナ302及び第2チューナ304は、図14のチューナ202と同じ機能を実行し、図15の第1MUX306及び第2MUX308は、MUX204と同じ機能を実行し、第1映像デコーダ310及び第2映像デコーダ312は、図14の映像デコーダ206と同じ機能を実行し、図15の第1音声デコーダ314及び第2音声デコーダ316は、音声デコーダ208と同じ機能を実行するので、これらについての詳細な説明を省略する。
図14の動画像要約装置とは異なり、図15の動画像要約装置は、2つのテレビ放送受信経路を備えている。そのうちの1つのテレビ放送受信経路は、第2チューナ304、第2MUX308、第2映像デコーダ312及び第2音声デコーダ316を備えており、ディスプレイ部322を介してユーザにテレビ放送を視聴させる。他の1つのテレビ放送受信経路は、第1チューナ302、第1MUX306、第1映像デコーダ310及び第1音声デコーダ314を備えており、動画像を要約して記憶する。
図16ないし図18は、本発明に係る動画像要約装置及び方法の性能を説明するための図である。SegmentID=x(a:b)において、SegmentIDは、前記したSIDを意味し、a,bは、代表フレームが放映される分及び秒をそれぞれ意味する。
図16においては、SegmentIDが3と設定されたショットの代表フレームが1つのセグメント400に要約され、SegmentIDが4と設定されたショットの代表フレームが他の1つのセグメント402に要約されている。これと同様に、図17においては、SegmentIDが3と設定されたショットの代表フレームが1つのセグメント500に要約され、SegmentIDが4と設定されたショットの代表フレームが他の1つのセグメント502に要約されている。これと同様に、図18においては、SegmentIDが5と設定されたショットの代表フレームが1つのセグメント600に要約され、SegmentIDが6と設定されたショットの代表フレームが他の1つのセグメント602に要約されている。
一方、前記した本発明の実施形態は、コンピュータで読み取り可能な記録媒体に記録されたコード/命令(instructions)/プログラムとして実現可能である。コンピュータで読み取り可能な記録媒体としては、磁気記録媒体(例えば、ROM、フロッピー(登録商標)ディスク、ハードディスク、磁気テープなど)、光記録媒体(例えば、CD−ROM、DVDなど)などが挙げられる。また、搬送波(例えば、インターネットを介した伝送)によって前記コード/命令/プログラムを提供することもできる。また、コンピュータで読み取り可能な記録媒体がネットワークを介して連結された複数のコンピュータシステムに分配されており、前記コード/命令/プログラムが分散された状態で記憶されて実行されてもよい。
本発明を実現する機能的なコード/命令/プログラムは、本発明が属する技術分野のプログラマらにより容易に推論可能である。
前記したように、本発明の実施形態に係るイベントを利用した動画像要約装置、方法及びプログラムは、映像イベント及び音声イベントを利用し、内容に基づいてショットを正確に結合または分割することができる。また、電子番組案内(EPG)情報により、ジャンル別に第1所定数を異なる値に設定することにより、ジャンル別に特化して動画像を要約することができる。また、映像イベントを利用して動画像を事前に要約するので、動画像を迅速に要約することができる。
以上、本発明の実施形態について説明したが、本発明は前記実施形態に限定されず、本発明の要旨を逸脱しない範囲で適宜設計変更可能である。
本発明のイベントを利用した動画像要約装置、方法及びプログラムは、例えば、動画像関連の技術分野に好適に適用可能である。
10,210,318 映像要約部
12,216,324 音声要約部
14,218,326 メタデータ生成部
16,220,328 記憶部
18,212,320 要約バッファ
20,214,322 ディスプレイ部
60 映像イベント検出部
62 シーン転換検出部
64 映像ショット結合/分割部
100 バッファ
102 類似度算出部
104 結合部
106 分割部
108 結合/分割部
110,112 検索ウインドウ
119 ショット
120 音声特徴値生成部
122 音声イベント検出部
124 再結合/再分割部
150 フレーム単位分割部
152 特徴抽出部
154 平均/標準偏差算出部
12,216,324 音声要約部
14,218,326 メタデータ生成部
16,220,328 記憶部
18,212,320 要約バッファ
20,214,322 ディスプレイ部
60 映像イベント検出部
62 シーン転換検出部
64 映像ショット結合/分割部
100 バッファ
102 類似度算出部
104 結合部
106 分割部
108 結合/分割部
110,112 検索ウインドウ
119 ショット
120 音声特徴値生成部
122 音声イベント検出部
124 再結合/再分割部
150 フレーム単位分割部
152 特徴抽出部
154 平均/標準偏差算出部
Claims (24)
- 動画像の映像成分から検出された映像イベント成分に基づいて、ショットを結合または分割し、結合または分割された結果をセグメントとして出力する映像要約部と、
前記動画像の音声成分から検出された音声イベント成分に基づいて、前記セグメントを結合または分割し、結合または分割された結果を前記動画像の要約結果として出力する音声要約部と、
を備え、
前記映像イベントは、前記動画像の内容が転換される部分に挿入されるグラフィック効果であり、
前記音声イベントは、前記音声成分を区分する音の種類であることを特徴とするイベントを利用した動画像要約装置。 - 前記映像要約部は、
前記映像成分から前記映像イベント成分を検出する映像イベント検出部と、
前記映像成分からシーンが転換される部分を検出し、検出結果を利用して、同一シーン区間であるショットの時間情報とカラー情報とを生成するシーン転換検出部と、
前記シーン転換検出部から入力された前記ショットのカラー情報を利用して、前記ショットの類似度を算出し、算出された前記類似度と前記映像イベント成分とに基づいて、前記ショットを結合または分割する映像ショット結合/分割部と、
を備えることを特徴とする請求項1に記載のイベントを利用した動画像要約装置。 - 前記映像イベント検出部は、
前記映像成分からフェード効果の中間に位置した単一色のフレームを検出し、検出された前記単一色のフレームを前記映像イベント成分として出力し、
前記映像イベントは、前記フェード効果に該当することを特徴とする請求項2に記載のイベントを利用した動画像要約装置。 - 前記映像イベントは、フェード効果、ディゾルブ効果またはワイプ効果であることを特徴とする請求項2に記載のイベントを利用した動画像要約装置。
- 前記映像ショット結合/分割部は、
前記シーン転換検出部から入力されたショットの前記カラー情報を記憶するバッファと、
記憶された前記カラー情報から、検索ウインドウに属する第1所定数のカラー情報を読み出し、読み出された前記カラー情報を利用して、前記ショットのカラー類似度を算出する類似度算出部と、
前記カラー類似度と閾値とを比較し、比較結果に応じて、比較された2つのショットを結合する結合部と、
を備えることを特徴とする請求項2から請求項4のいずれか一項に記載のイベントを利用した動画像要約装置。 - 前記映像ショット結合/分割部は、
結合結果が前記映像イベント成分を有する場合に、前記映像イベント成分に基づいて前記結合結果を分割する分割部をさらに備えることを特徴とする請求項5に記載のイベントを利用した動画像要約装置。 - 前記類似度算出部は、下記式(1)により、前記カラー類似度を算出することを特徴とする請求項5または請求項6に記載のイベントを利用した動画像要約装置。
- 前記検索ウインドウのサイズである前記第1所定数は、EPG情報に応じて異なる値に設定されていることを特徴とする請求項5から請求項7のいずれか一項に記載のイベントを利用した動画像要約装置。
- 前記音声要約部は、
前記音声成分から音声特徴をフレーム単位で抽出し、第2所定数のフレームに関する前記音声特徴の平均及び標準偏差を音声特徴値として出力する音声特徴値生成部と、
前記音声特徴値を利用して、前記音声イベント成分を検出する音声イベント検出部と、
前記音声イベント成分に基づいて、前記セグメントを結合または分割し、結合または分割された結果を前記動画像の要約結果として出力する再結合/再分割部と、
を備えることを特徴とする請求項2から請求項8のいずれか一項に記載のイベントを利用した動画像要約装置。 - 前記音声特徴値生成部は、
前記動画像の音声成分を所定時間のフレーム単位で分割するフレーム単位分割部と、
分割された前記フレーム単位ごとに音声特徴を抽出する特徴抽出部と、
前記特徴抽出部により第2所定数のフレームに対して抽出された第2所定数の音声特徴の平均と標準偏差とを算出し、算出された前記平均と前記標準偏差とを前記音声特徴値として出力する平均/標準偏差算出部と、
を備えることを特徴とする請求項9に記載のイベントを利用した動画像要約装置。 - 前記音声特徴は、メル周波数ケプストラム係数、スペクトルフラックス、セントロイド、ロールオフ、ZCR、エネルギーまたはピッチ情報であることを特徴とする請求項9または請求項10に記載のイベントを利用した動画像要約装置。
- 前記音声イベント成分は、音楽、発話、周囲音、拍手、歓声、叫び声及び沈黙の少なくとも一つであることを特徴とするイベントを利用した請求項9から請求項11のいずれか一項に記載の動画像要約装置。
- 前記音声イベント成分は、音楽を含み、
前記再結合/再分割部は、
前記音楽が存在する隣接する複数個のセグメントを結合することを特徴とする請求項9から請求項11のいずれか一項に記載のイベントを利用した動画像要約装置。 - 前記音楽イベント成分は、拍手、叫び声または沈黙を含み、
前記再結合/再分割部は、前記拍手、前記叫び声または前記沈黙が存在する単一セグメントを分割イベントフレームにより二つに分割し、
前記分割イベントフレームは、前記シーン転換検出部により検出された前記シーンが転換される部分に存在するフレームであることを特徴とする請求項9から請求項11のいずれか一項に記載のイベントを利用した動画像要約装置。 - 前記動画像の要約結果のメタデータを生成するメタデータ生成部と、
生成された前記メタデータと前記要約結果とを記憶する記憶部と、
をさらに備えることを特徴とする請求項1から請求項14のいずれか一項に記載のイベントを利用した動画像要約装置。 - 前記映像要約部から入力された前記セグメントをバッファリングする要約バッファと、
前記要約バッファから入力されたバッファリング結果及び前記動画像の音声成分を出力する出力部と、
をさらに備え、
前記映像要約部は、新しいセグメントが生成されるたびに、前記新しいセグメントより以前に生成されたセグメントを前記要約バッファに出力することを特徴とする請求項1から請求項15のいずれか一項に記載のイベントを利用した動画像要約装置。 - 前記動画像の映像成分は、EPG情報とテレビ放送信号に含まれた映像成分とを含むことを特徴とする請求項1から請求項16のいずれか一項に記載のイベントを利用した動画像要約装置。
- 前記動画像の音声成分は、EPG情報とテレビ放送信号に含まれた音声成分とを含むことを特徴とする請求項1から請求項17のいずれか一項に記載のイベントを利用した動画像要約装置。
- 動画像の映像成分から検出された映像イベント成分に基づいて、ショットを結合または分割し、結合または分割された結果をセグメントとして決定するセグメント決定ステップと、
前記動画像の音声成分から検出された音声イベント成分に基づいて、前記セグメントを結合または分割し、結合または分割された結果を前記動画像の要約結果として得る要約結果取得ステップと、
を含み、
前記映像イベントは、前記動画像の内容が転換される部分に挿入されるグラフィック効果であり、
前記音声イベントは、前記音声成分を区分する音の種類であることを特徴とするイベントを利用した動画像要約方法。 - 前記セグメント決定ステップは、
前記映像成分から前記映像イベント成分を検出するステップと、
前記映像成分からシーンが転換される部分を検出し、検出結果を利用して、同一シーン区間であるショットの時間情報とカラー情報とを生成するステップと、
前記ショットのカラー情報を利用して、前記ショットの類似度を算出し、算出された前記類似度と前記映像イベント成分とに基づいて、前記ショットを結合または分割するステップと、
を含むことを特徴とする請求項19に記載のイベントを利用した動画像要約方法。 - 前記要約結果取得ステップは、
前記音声成分から音声特徴をフレーム単位で抽出し、第2所定数のフレームに関する前記音声特徴の平均及び標準偏差を音声特徴値として決定するステップと、
前記音声特徴値を利用して、前記音声イベント成分を検出するステップと、
前記音声イベント成分に基づいて、前記セグメントを結合または分割し、結合または分割された結果を前記動画像の要約結果として決定するステップと、
を含むことを特徴とする請求項20に記載のイベントを利用した動画像要約方法。 - コンピュータに、
動画像の映像成分から検出された映像イベント成分に基づいて、ショットを結合または分割し、結合または分割された結果をセグメントとして決定するセグメント決定ステップと、
前記動画像の音声成分から検出された音声イベント成分に基づいて、前記セグメントを結合または分割し、結合または分割された結果を前記動画像の要約結果として得る要約結果取得ステップと、
を実行させ、
前記映像イベントは、前記動画像の内容が転換される部分に挿入されるグラフィック効果であり、
前記音声イベントは、前記音声成分を区分する音の種類であることを特徴とするイベントを利用した動画像要約プログラム。 - 前記セグメント決定ステップは、
前記映像成分から前記映像イベント成分を検出するステップと、
前記映像成分からシーンが転換される部分を検出し、検出結果を利用して、同一シーン区間であるショットの時間情報とカラー情報とを生成するステップと、
前記ショットのカラー情報を利用して、前記ショットの類似度を算出し、算出された前記類似度と前記映像イベント成分とに基づいて、前記ショットを結合または分割するステップと、
を含むことを特徴とする請求項22に記載のイベントを利用した動画像要約プログラム。 - 前記要約結果取得ステップは、
前記音声成分から音声特徴をフレーム単位で抽出し、第2所定数のフレームに関する前記音声特徴の平均及び標準偏差を音声特徴値として決定するステップと、
前記音声特徴値を利用して、前記音声イベント成分を検出するステップと、
前記音声イベント成分に基づいて、前記セグメントを結合または分割し、結合または分割された結果を前記動画像の要約結果として決定するステップと、
を含むことを特徴とする請求項23に記載のイベントを利用した動画像要約プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050038491A KR20060116335A (ko) | 2005-05-09 | 2005-05-09 | 이벤트를 이용한 동영상 요약 장치 및 방법과 그 장치를제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수있는 기록 매체 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006319980A true JP2006319980A (ja) | 2006-11-24 |
Family
ID=36808850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006130588A Pending JP2006319980A (ja) | 2005-05-09 | 2006-05-09 | イベントを利用した動画像要約装置、方法及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20060251385A1 (ja) |
EP (1) | EP1722371A1 (ja) |
JP (1) | JP2006319980A (ja) |
KR (1) | KR20060116335A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017538328A (ja) * | 2014-12-12 | 2017-12-21 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | プロモーション情報の処理方法、装置、デバイス及びコンピュータ記憶媒体 |
KR102221792B1 (ko) * | 2019-08-23 | 2021-03-02 | 한국항공대학교산학협력단 | 동영상 컨텐츠의 스토리 기반의 장면 추출 장치 및 방법 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE60320414T2 (de) * | 2003-11-12 | 2009-05-20 | Sony Deutschland Gmbh | Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen |
KR100597398B1 (ko) * | 2004-01-15 | 2006-07-06 | 삼성전자주식회사 | 비디오 클립을 검색하는 장치 및 방법 |
US8682654B2 (en) * | 2006-04-25 | 2014-03-25 | Cyberlink Corp. | Systems and methods for classifying sports video |
US20070255755A1 (en) * | 2006-05-01 | 2007-11-01 | Yahoo! Inc. | Video search engine using joint categorization of video clips and queries based on multiple modalities |
KR100771244B1 (ko) * | 2006-06-12 | 2007-10-29 | 삼성전자주식회사 | 동영상 데이터 처리 방법 및 장치 |
DE102007028175A1 (de) | 2007-06-20 | 2009-01-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Automatisiertes Verfahren zur zeitlichen Segmentierung eines Videos in Szenen unter Berücksichtigung verschiedener Typen von Übergängen zwischen Bildfolgen |
KR20110023878A (ko) * | 2008-06-09 | 2011-03-08 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오/비주얼 데이터 스트림의 요약을 생성하기 위한 방법 및 장치 |
KR100995839B1 (ko) * | 2008-08-08 | 2010-11-22 | 주식회사 아이토비 | 멀티미디어 디지털 콘텐츠의 축약정보 추출시스템과 축약 정보를 활용한 다중 멀티미디어 콘텐츠 디스플레이 시스템 및 그 방법 |
EP2408190A1 (en) * | 2010-07-12 | 2012-01-18 | Mitsubishi Electric R&D Centre Europe B.V. | Detection of semantic video boundaries |
US10134440B2 (en) * | 2011-05-03 | 2018-11-20 | Kodak Alaris Inc. | Video summarization using audio and visual cues |
KR101369270B1 (ko) * | 2012-03-29 | 2014-03-10 | 서울대학교산학협력단 | 멀티 채널 분석을 이용한 비디오 스트림 분석 방법 |
WO2015017706A2 (en) * | 2013-07-31 | 2015-02-05 | Kadenze, Inc. | Feature extraction and machine learning for evaluation of audio-type, media-rich coursework |
US9792553B2 (en) * | 2013-07-31 | 2017-10-17 | Kadenze, Inc. | Feature extraction and machine learning for evaluation of image- or video-type, media-rich coursework |
CN108307250B (zh) | 2018-01-23 | 2020-10-30 | 浙江大华技术股份有限公司 | 一种生成视频摘要的方法及装置 |
KR102160095B1 (ko) * | 2018-11-15 | 2020-09-28 | 에스케이텔레콤 주식회사 | 미디어 컨텐츠 구간 분석 방법 및 이를 지원하는 서비스 장치 |
KR102369620B1 (ko) * | 2020-09-11 | 2022-03-07 | 서울과학기술대학교 산학협력단 | 다중 시구간 정보를 이용한 하이라이트 영상 생성 장치 및 방법 |
CN112637573A (zh) * | 2020-12-23 | 2021-04-09 | 深圳市尊正数字视频有限公司 | 一种多镜头切换的显示方法、系统、智能终端及存储介质 |
US20220292285A1 (en) * | 2021-03-11 | 2022-09-15 | International Business Machines Corporation | Adaptive selection of data modalities for efficient video recognition |
US20230179839A1 (en) * | 2021-12-03 | 2023-06-08 | International Business Machines Corporation | Generating video summary |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5805733A (en) * | 1994-12-12 | 1998-09-08 | Apple Computer, Inc. | Method and system for detecting scenes and summarizing video sequences |
US5821945A (en) * | 1995-02-03 | 1998-10-13 | The Trustees Of Princeton University | Method and apparatus for video browsing based on content and structure |
US5767922A (en) * | 1996-04-05 | 1998-06-16 | Cornell Research Foundation, Inc. | Apparatus and process for detecting scene breaks in a sequence of video frames |
US5918223A (en) * | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
US6137544A (en) * | 1997-06-02 | 2000-10-24 | Philips Electronics North America Corporation | Significant scene detection and frame filtering for a visual indexing system |
US6072542A (en) * | 1997-11-25 | 2000-06-06 | Fuji Xerox Co., Ltd. | Automatic video segmentation using hidden markov model |
US6393054B1 (en) * | 1998-04-20 | 2002-05-21 | Hewlett-Packard Company | System and method for automatically detecting shot boundary and key frame from a compressed video data |
US6272250B1 (en) * | 1999-01-20 | 2001-08-07 | University Of Washington | Color clustering for scene change detection and object tracking in video sequences |
US6744922B1 (en) * | 1999-01-29 | 2004-06-01 | Sony Corporation | Signal processing method and video/voice processing device |
US6493042B1 (en) * | 1999-03-18 | 2002-12-10 | Xerox Corporation | Feature based hierarchical video segmentation |
JP2002044572A (ja) * | 2000-07-21 | 2002-02-08 | Sony Corp | 情報信号処理装置及び情報信号処理方法および情報信号記録装置 |
US6724933B1 (en) * | 2000-07-28 | 2004-04-20 | Microsoft Corporation | Media segmentation system and related methods |
US6697523B1 (en) * | 2000-08-09 | 2004-02-24 | Mitsubishi Electric Research Laboratories, Inc. | Method for summarizing a video using motion and color descriptors |
US6907570B2 (en) * | 2001-03-29 | 2005-06-14 | International Business Machines Corporation | Video and multimedia browsing while switching between views |
US7295977B2 (en) * | 2001-08-27 | 2007-11-13 | Nec Laboratories America, Inc. | Extracting classifying data in music from an audio bitstream |
US20030131362A1 (en) * | 2002-01-09 | 2003-07-10 | Koninklijke Philips Electronics N.V. | Method and apparatus for multimodal story segmentation for linking multimedia content |
US7027124B2 (en) * | 2002-02-28 | 2006-04-11 | Fuji Xerox Co., Ltd. | Method for automatically producing music videos |
-
2005
- 2005-05-09 KR KR1020050038491A patent/KR20060116335A/ko active Search and Examination
-
2006
- 2006-05-03 US US11/416,082 patent/US20060251385A1/en not_active Abandoned
- 2006-05-05 EP EP06252391A patent/EP1722371A1/en not_active Withdrawn
- 2006-05-09 JP JP2006130588A patent/JP2006319980A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017538328A (ja) * | 2014-12-12 | 2017-12-21 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | プロモーション情報の処理方法、装置、デバイス及びコンピュータ記憶媒体 |
KR102221792B1 (ko) * | 2019-08-23 | 2021-03-02 | 한국항공대학교산학협력단 | 동영상 컨텐츠의 스토리 기반의 장면 추출 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20060116335A (ko) | 2006-11-15 |
EP1722371A1 (en) | 2006-11-15 |
US20060251385A1 (en) | 2006-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006319980A (ja) | イベントを利用した動画像要約装置、方法及びプログラム | |
KR100707189B1 (ko) | 동영상의 광고 검출 장치 및 방법과 그 장치를 제어하는컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록매체 | |
KR100828166B1 (ko) | 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체 | |
US8204317B2 (en) | Method and device for automatic generation of summary of a plurality of images | |
Huang et al. | Automated generation of news content hierarchy by integrating audio, video, and text information | |
US5664227A (en) | System and method for skimming digital audio/video data | |
Sundaram et al. | A utility framework for the automatic generation of audio-visual skims | |
US10134440B2 (en) | Video summarization using audio and visual cues | |
EP1692629B1 (en) | System & method for integrative analysis of intrinsic and extrinsic audio-visual data | |
JP2004533756A (ja) | 自動コンテンツ分析及びマルチメデイア・プレゼンテーションの表示 | |
US20080193101A1 (en) | Synthesis of Composite News Stories | |
JP4873018B2 (ja) | データ処理装置、データ処理方法、及び、プログラム | |
WO2012020667A1 (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
WO2012020668A1 (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
JP5460709B2 (ja) | 音響信号処理装置および方法 | |
JP2008533580A (ja) | オーディオ及び/又はビジュアルデータの要約 | |
WO2007004110A2 (en) | System and method for the alignment of intrinsic and extrinsic audio-visual information | |
Iwan et al. | Temporal video segmentation: detecting the end-of-act in circus performance videos | |
JP5257356B2 (ja) | コンテンツ分割位置判定装置、コンテンツ視聴制御装置及びプログラム | |
Valdés et al. | On-line video abstract generation of multimedia news | |
JP2005167456A (ja) | Avコンテンツ興趣特徴抽出方法及びavコンテンツ興趣特徴抽出装置 | |
Foote et al. | Enhanced video browsing using automatically extracted audio excerpts | |
Aoyagi et al. | Implementation of flexible-playtime video skimming | |
JP2011519183A (ja) | 映像処理装置および方法 | |
Liu et al. | Automated Generation of News Content Hierarchy by Intetrating Audio, Video, and Text Information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20061101 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20061114 |