JP5537285B2 - 要約映像生成装置及び要約映像生成プログラム - Google Patents

要約映像生成装置及び要約映像生成プログラム Download PDF

Info

Publication number
JP5537285B2
JP5537285B2 JP2010146443A JP2010146443A JP5537285B2 JP 5537285 B2 JP5537285 B2 JP 5537285B2 JP 2010146443 A JP2010146443 A JP 2010146443A JP 2010146443 A JP2010146443 A JP 2010146443A JP 5537285 B2 JP5537285 B2 JP 5537285B2
Authority
JP
Japan
Prior art keywords
video
divided
score
unit
stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010146443A
Other languages
English (en)
Other versions
JP2012010265A (ja
Inventor
吉彦 河合
真人 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2010146443A priority Critical patent/JP5537285B2/ja
Publication of JP2012010265A publication Critical patent/JP2012010265A/ja
Application granted granted Critical
Publication of JP5537285B2 publication Critical patent/JP5537285B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、テレビジョンにおける要約映像制作の技術に係り、映像あるいは映像と映像音声を基に、自動的に要約映像を生成する要約映像生成装置及び要約映像生成プログラムに関する。
従来、番組映像からその番組内容を要約した要約映像を生成する映像要約の技術が提案されている。ここで、映像要約とは、元の番組映像から、その意味内容を保持したまま、より時間長の短い映像を生成する操作をいう。テレビジョン放送における要約映像の例としては、番組映像が放送される前に放送される数十秒程度の番組紹介映像や、ニュースにおけるプロ野球やサッカーのダイジェスト映像などがある。
この従来の要約映像を生成する技術は、要約の対象とする映像のジャンルや種類を非常に狭い範囲に特化したものがほとんどであり、要約映像のための重要なシーンの抽出において、そのジャンルに関するドメイン知識(ジャンル等に固有の知識)に強く依存しているため、他の分野の映像にそのまま適用することができない場合が多い。
例えば、要約映像を生成する技術として、ジャンルを野球に限定した場合、スロー映像の前には得点シーンであるといった重要なプレーがある可能性が高い、あるいは、画面上の所定の位置に文字スーパーが表示されたときは得点が入ったときである可能性が高いといった知識を利用するものや、スポーツにおいて、歓声が大きい映像区間は、重要なシーンであるといった音声情報を利用するものがある。この野球等のスポーツに適用される技術は、得点シーンの特有のパターンのないドラマやドキュメンタリ番組に適用することはできない。
なお、より汎用的な技術として、電子番組表における紹介テキストを利用する技術もある(特許文献1参照)。
さらに、ユーザの嗜好に合致したキーワードに基づいてシーンを選択する技術が提案されている(特許文献2参照)。
特許第4456573号公報 特開2004−289513号公報
しかし、従来の前記した要約映像を制作する装置では、以下に示すような問題点が存在した。
特許文献1に記載の要約映像を生成する装置では、外部情報である電子番組表が入手できない場合(例えば過去の番組等)、あるいは、電子番組表の情報が制作されていない番組の場合に対して、当該電子番組表を全く利用できないため、要約映像を生成することができないという問題がある。
また、特許文献2に記載の要約映像を生成する装置では、やはり全く異なるジャンルの番組に対応できないという問題がある。
本発明は、前記した問題点に鑑み創案されたものであり、特別な条件や番組ジャンルの制限なしで幅広く要約映像を生成することができる要約映像生成装置及び要約映像生成プログラムを提供することを課題とする。
前記した課題を解決するため、本発明の請求項1に係る要約映像生成装置は、元映像から当該元映像よりも映像時間が短い時間長となる要約映像を生成する要約映像生成装置であって、映像分割手段と、映像解析手段と、映像評価手段と、映像区間選択手段と、備え、映像区間選択手段が、分割映像選択手段と、調整手段と、分割映像連結手段と、を備える構成とした。
かかる構成により、要約映像生成装置は、映像分割手段により、番組映像、DVD等の映像である元映像を入力して、入力した映像の場面の区切りとなるショットの位置を検出して、そのショットの単位を映像単位として分割映像を生成する。そして、要約映像生成装置は、映像解析手段により、元映像を分割した分割映像ごとにキーフレームを予め設定した条件で抽出し、抽出したキーフレームについて特徴を示すブロック領域を検出し、検出したブロック領域をここでは視覚単語とみなしている。
さらに、要約映像生成装置は、映像解析手段により、検出した特徴であるブロック領域(局所領域)を特徴量ごとに区分するようにして当該特徴量の種類を解析する。例えば、特徴量としては、勾配ヒストグラム(例えば輝度勾配ヒストグラム)を視覚単語(ブロック領域)の種類として解析する。また、映像解析手段では、キーフレームの小領域におけるテクスチャや色等を、ブロック領域における種類を区分するための特徴量として利用することができる。
そして、要約映像生成装置は、映像評価手段により、視覚単語(ブロック領域の特徴量)の種類のそれぞれに対して、当該特徴量が前記元映像において特徴的であることを識別する予め定めた指標、例えば、TF−IDF、TF−S等の手法により、評価基準となるスコアを演算する。すなわち、映像評価手段は、分割映像内で抽出したキーフレーム全部についてのスコアの総和を算出することで、分割映像の単位で当該分割映像が元映像において特徴的であるか否かを評価するための基準とする。さらに、要約映像生成装置は、映像区間選択手段により、評価された分割映像のスコアに基づいて、当該スコアの高い順で映像時間が早い方から要約映像の時間長となるように、元映像から分割映像の映像区間の映像を選択することで要約映像を生成する。
このとき、要約映像生成装置は、分割映像選択手段により、算出されたスコアに基づいて要約映像の時間長となるまで、元映像から分割映像の映像区間を選択する。そして、要約映像生成装置は、調整手段により、選択された分割映像について予め設定された当該分割映像の時間的に前後となる所定分割映像範囲にある分割映像のスコアを引き下げる調整を行う。そして、要約映像生成装置は、分割映像連結手段により、調整されたスコアに基づいて、分割映像選択手段で選択された分割映像を映像時間が早い方から連結して要約映像を生成する。
本発明の請求項2に係る要約映像生成装置は、元映像から当該元映像よりも映像時間が短い時間長となる要約映像を生成する要約映像生成装置であって、ストリーム分離手段と、映像分割手段と、映像解析手段と、映像評価手段と、文字情報抽出手段と、形態素解析手段と、音声評価手段と、映像区間選択手段と、を備え、映像区間選択手段が、スコア統合手段と、分割映像選択手段と、調整手段と、分割映像連結手段と、を備える構成とした。
かかる構成において、要約映像生成装置は、ストリーム分離手段により、元映像から映像ストリームと、音声ストリームとをそれぞれ分離する。そして、要約映像生成装置は、映像分割手段により、映像ストリームからショットの単位となる映像単位ごとに分割した分割映像を生成する。そして、要約映像生成装置は、映像解析手段により、分割映像ごとにキーフレームを予め設定した条件で抽出し、抽出したキーフレームについて特徴を示すブロック領域を検出し、検出したブロック領域を視覚単語とみなす。そして、要約映像生成装置は、映像評価手段により、ブロック領域(視覚単語)の特徴量の種類を区分して解析し、その視覚単語のそれぞれを分割映像ごとに評価基準のスコアで評価する。
さらに、要約映像生成装置は、文字情報抽出手段により、音声ストリームから音声を認識して文字データを抽出し、抽出した文字データを形態素解析手段により形態素解析する。そして、要約映像生成装置は、音声評価手段により、形態素解析した文字データについて、当該文字データが前記元映像において特徴的であることを識別する予め定めた指標、例えば、TF−IDF、TF−S等の手法により、評価基準となるスコアを演算する。さらに、要約映像生成装置は、映像区間選択手段により、映像評価手段で求めたスコアと音声評価手段で求めたスコアを合算し、合算して求めたスコアに基づいて、当該スコアの高い順で映像時間が早い方から要約映像の時間長となるように、元映像から分割映像の映像区間の映像を選択することで要約映像を生成する。
このとき、要約映像生成装置は、要約映像生成装置は、スコア統合手段により、映像評価手段で算出したスコア及び音声評価手段で算出したスコアを合算する。そして、要約映像生成装置は、分割映像選択手段により、算出されたスコアに基づいて要約映像の時間長となるまで、元映像から分割映像の映像区間を選択する。そして、要約映像生成装置は、調整手段により、選択された分割映像について予め設定された当該分割映像の時間的に前後となる所定分割映像範囲にある分割映像のスコアを引き下げる調整を行う。そして、要約映像生成装置は、分割映像連結手段により、調整されたスコアに基づいて、分割映像選択手段で選択された分割映像を映像時間が早い方から連結して要約映像を生成する。
本発明の請求項3に係る要約映像生成装置は、請求項1又は請求項2に記載の要約映像生成装置において、映像解析手段が、前記ブロック領域を特徴量ごとの種類によりクラスタリングするクラスタリング手段をさらに備え、前記映像評価手段は、前記クラスタリング手段でクラスタリングした種類の前記特徴量について前記スコアを算出する構成とした。
かかる構成により要約映像生成装置は、映像解析手段で映像を解析するときにブロック領域(視覚単語)の特徴量をそれぞれの種類とし、そのブロック領域(視覚単語)の特徴量の区分けしたときの数を、クラスタリング手段により、ブロック領域(視覚単語)の特徴量についてクラスタリングして、映像評価手段で評価する対象となるブロック領域(視覚単語)の特徴量の種類の数を減らしてスコアを算出する。
本発明の請求項4に係る要約映像生成装置は、請求項1から請求項3のいずれか一項に記載の要約映像生成装置において、前記映像解析手段が、前記分割映像のフレーム画像ごとに動きベクトル量を算出し、前記動きベクトル量の累計が前記分割映像の総動きベクトル量を予め定めた数で等分した累計に達したときのフレーム画像を順次、前記キーフレームとして抽出する構成とした。
かかる構成により、要約映像生成装置は、映像解析手段により、分割映像のフレーム画像において、動きベクトル量の累計から等分するようにキーフレームを選ぶことで、動きベクトル量の差が大きい部分を、動きベクトル量の差が小さいフレーム画像よりも多くキーフレームとして抽出することができる。
本発明の請求項に係る要約映像生成装置は、請求項2に記載の要約映像生成装置において、文字情報抽出手段が文字データ検出手段をさらに備える構成とした。
かかる構成により、要約映像生成装置は、データストリームに、例えばクローズドキャプション等の文字データが存在する場合には、文字データ検索手段により、映像ストリームに対して付されているクローズドキャプションを文字データとして検出して形態素解析手段に出力する。また、要約映像生成装置は、データストリームに文字データが存在しない場合には、音声認識手段により、音声ストリームから音声認識を行い、文字データを生成して形態素解析手段に文字データを出力する。
本発明の請求項に係る要約映像生成プログラムは、元映像から当該元映像よりも映像
時間が短い時間長となる要約映像を生成するためにコンピュータを、映像分割手段、映像
解析手段、映像評価手段、映像区間選択手段、として機能させる構成とした。
かかる構成により、要約映像生成プログラムは、映像分割手段により、元映像を入力して、入力した映像のショットの単位を映像単位として分割映像を生成する。そして、要約映像生成プログラムは、映像解析手段により、分割映像ごとにキーフレームを抽出し、抽出したキーフレームについて特徴を示すブロック領域を検出し、検出したブロック領域(視覚単語)について、当該ブロック領域の種類を特徴量ごとに、例えば、予め設定された勾配ヒストグラムにより区分して解析する。そして、要約映像生成プログラムは、映像評価手段により、ブロック領域(視覚単語)の特徴量の種類のそれぞれについて、当該特徴量が前記元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして分割映像の単位で評価する。そして、要約映像生成プログラムは、映像区間選択手段により、評価された分割映像のスコアに基づいて、当該スコアの高い順で映像時間が早い方から要約映像の時間長となるように、元映像から分割映像の映像区間の映像を選択することで要約映像を生成する。
このとき、映像区間選択手段は、元映像から、分割映像の映像区間の映像を選択するたびに、選択した分割映像の時間的に前後となる予め設定された設定分割映像範囲について、当該設定分割映像範囲にある分割映像のスコアを引き下げることとする。
本発明の請求項に係る要約映像生成プログラムは、元映像から当該元映像よりも映像時間が短い時間長となる要約映像を生成するためにコンピュータを、ストリーム分離手段、映像分割手段、映像解析手段、映像評価手段、文字情報抽出手段、形態素解析手段、音声評価手段、映像区間選択手段、として機能させる構成とした。
かかる構成により要約映像生成プログラムは、ストリーム分離手段により元映像から映像ストリームと、音声ストリームとを分離する。そして、要約映像生成プログラムは、映像分割手段により、映像ストリームからショットの単位となる分割映像を生成する。そして、要約映像生成プログラムは、映像解析手段により、生成した分割映像からキーフレームを抽出してその特徴となるブロック領域(視覚単語)を検出し、当該ブロック領域(視覚単語)を予め設定された、例えば、勾配ヒストグラムで種類を表わすように特徴量ごとに区分して解析する。さらに、要約映像生成プログラムは、映像評価手段により、ブロック領域(視覚単語)の特徴量のそれぞれに対して、当該ブロック領域が前記元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして算出している。なお、要約映像生成プログラムは、例えば、TF−IDF、TF−S等の手法により演算して求めることで当該スコアを算出している。
そして、要約映像生成プログラムは、文字情報抽出手段により、ストリーム分離手段により分離された音声ストリームから音声認識して文字データを抽出し、形態素解析手段により、抽出した文字データを形態素解析する。さらに、要約映像生成プログラムは、音声評価手段により、映像単位ごとに特徴のある前記単語が前記元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして算出する。なお、スコアを算出する場合には、例えば、TF−IDF、TF−S等の手法を用いることができる。そして、要約映像生成プログラムは、映像区間選択手段により、映像評価手段で求めたスコアと音声評価手段で求めたスコアを合算したスコアに基づいて、当該スコアの高い順で映像時間が早い方から要約映像の時間長となるように、元映像から分割映像の映像区間の映像を選択することで要約映像を生成する。
このとき、映像区間選択手段は、元映像から、分割映像の映像区間の映像を選択するたびに、選択した分割映像の時間的に前後となる予め設定された設定分割映像範囲について、当該設定分割映像範囲にある分割映像のスコアを引き下げることとする。
本発明は、以下に示すような優れた効果を奏するものである。
請求項1、に記載の発明によれば、映像の特徴を示すブロック領域について、あたかも単語(視覚単語)の種類のように扱うことで、元映像からハードディスクレコーダなどの録画機器において自動的に要約映像を生成することが可能となり、ユーザはその要約映像から判断して素早く目的の映像を選択することが可能となる。
また、映像制作者においては、映像販売のための見本映像を自動生成することが可能となり、製作者の負担を軽減することができる。特に、大量の映像を処理する場合には、大きな効果を期待できる。
また、本発明によれば、分割映像を元映像の全体からバランスよく選択することが可能となる。
請求項2、に記載の発明によれば、分割映像における映像と音声の両方の情報から、要約映像を生成することができ、より適切な分割映像を選択して要約映像を生成することが可能となる。また、本発明によれば、分割映像を元映像の全体からバランスよく選択することが可能となる。
請求項3に記載の発明によれば、ブロック領域(視覚単語)の特徴量について区分けされる種類の数がクラスタリング手段により適切に抑制されるので、視覚単語の分布が疎となる状態を抑制し、適切に特徴となる分割映像を選択することができる。
請求項4に記載の発明によれば、分割映像の動きの大きなフレーム画像をキーフレームとして抽出でき、分割映像ごとの評価をより適切に行なうことが可能となる。
求項に記載の発明によれば、データストリームにクローズドキャプションのような文字データが存在した場合、当該文字データを利用することで、音声認識を行う負荷を軽減させることができる。
本発明に係る要約映像生成装置の構成を示すブロック図である。 本発明に係る要約映像生成装置の構成の詳細を示すブロック図である。 (a)、(b)は、本発明に係る要約映像生成装置におけるキーフレーム抽出手段の抽出手法を示す説明図である。 本発明に係る要約映像生成装置の全体の動作を示すフローチャートである。 本発明に係る要約映像生成装置の映像基本単位となる分割映像を生成する動作を示すフローチャートである。 本発明に係る要約映像生成装置の分割映像を解析する動作を示すフローチャートである。 本発明に係る要約映像生成装置の分割映像を選択してスコアを調整しながら連結する動作を示すフローチャートである。 本発明に係る他の要約映像生成装置の構成を示すブロック図である。 本発明に係る他の要約映像生成装置の構成の詳細を示すブロック図である。 本発明に係る他の要約映像生成装置の全体の動作を示すフローチャートである。 本発明に係る他の要約映像生成装置の文字情報抽出手段の動作を示すフローチャートである。 本発明に係る他の要約映像生成装置の分割映像を選択する動作を示すフローチャートである。
以下、本発明に係る要約映像生成装置について、図面を参照して説明する。なお、はじめに映像データのみから要約映像を生成する構成及び動作について図1〜図7を参照して説明し、次に、映像データ(映像ストリーム)、音声ストリーム及びデータストリームを備える映像から要約映像を生成する構成及び動作について、図8〜図12を参照して説明する。
[要約映像生成装置の構成]
まず、図1(図2)を参照して、本発明の実施形態に係る要約映像生成装置1の構成について説明する。要約映像生成装置1は、MEPG2ストリームのようなデジタル放送番組映像の映像を入力して、その入力した映像より映像時間が短い時間長となる要約映像を生成して出力するものである。この要約映像生成装置1は、入力手段2と、映像分割手段4と、映像解析手段5と、映像評価手段6と、映像区間選択手段8と、出力手段9とを備え、さらに、分割映像を記憶する記憶手段7と、外部入力手段10により要約映像の時間長を設定する目標長さ設定手段11とを備えている。
入力手段2は、元映像となる映像データ(映像ストリーム)を外部から入力するものである。ここでは、入力手段2は、外部から放送波あるいは通信により放送番組の映像を入力するものであることとした。この入力手段2は、入力される映像として、例えば、インターネット等のネットワークから入力される映像であってもよいし、放送波等を介して入力される映像であることや、あるいは、DVD、CD等の映像であってもよい。この入力手段2で入力された映像は、映像分割手段4に出力される。
映像分割手段4は、入力された映像データをショット(カット)ごとに分割するものである。ここで、ショットとは、一台のカメラで連続して撮影されたフレーム列(映像区間)をいう。この映像区間の切れ目では映像が大きく切り替わるため、映像分割手段4は、例えば、図示しない区間映像抽出部によって抽出された映像を構成する前後のフレーム画像間の色の差分をとり、差分の値が大きいときに映像を分割することで、抽出された映像をショットに分割することができる。この映像分割手段4で分割された分割映像は、要約映像を生成するための映像の基本単位(映像基本単位)となる。
なお、映像分割手段4は、例えば、フレーム画像間の周波数特徴の差分をとり、差分が大きい場合に映像を分割することとしてもよいし、また、フレーム画像を複数の小領域に分割し、各小領域が次のフレーム画像においてどの位置に移動したのかを調べるブロックマッチングを行い、移動先が特定できなかった小領域数が所定値より多い場合に映像を分割することとしてもよい。映像分割手段4で分割されたショットを映像単位とする分割映像には、ショットの始まりと終わりの時間情報が分割映像ごとに付される。
また、分割映像は、必要に応じて映像時間長及び元映像の先頭から何番目であるかの映像開始時間の早い順序を示す情報を併せて付しても構わない。映像分割手段4で分割された分割映像は、映像解析手段5及び記憶手段7に出力される。
映像解析手段5は、映像分割手段4で分割された分割映像からキーフレームを抽出してそのキーフレーム画像の特徴となるブロック領域を視覚単語(visual word)としてみなすようにして解析するものである。つまり、この映像解析手段5では、特徴となるキーフレームのブロック領域を視覚単語とみなし単語のような扱いをすることで、単語で使用されている手法を用いて、映像評価手段6と併せて単語(視覚単語)の重要度を算出して映像を評価するようにしている。
なお、ここで、キーフレームとは、分割映像を解析するために、分割映像内から部分的に抽出するフレーム画像である。
ここでは、映像解析手段5は、映像分割手段4で分割された各分割映像から予め設定された条件によりキーフレームを抽出する。そして、映像解析手段5は、その抽出したキーフレームのフレーム画像内の特徴となるブロック領域を視覚単語とみなし、その視覚単語(ブロック領域)の種類を特徴量ごとに区分するため、予め設定された勾配ヒストグラムを用い映像を解析し、映像評価手段6に解析した分割映像ごとのキーフレームを評価したスコアを出力する。映像解析手段5は、ここでは、図2に示すように、キーフレーム抽出手段5a、特徴ブロック領域抽出手段5b及びクラスタリング手段5cを備えている。
キーフレーム抽出手段5aは、入力された分割映像から予め設定された条件でキーフレームを抽出するものである。このキーフレーム抽出手段5aは、例えば、分割映像の中で動きが激しい部分をより多く抽出するために、動きベクトルに基づいて分割映像からキーフレームを抽出する。このキーフレーム抽出手段5aにより抽出されたキーフレームは、特徴ブロック領域抽出手段5bに出力される。
ここで、図3を参照して、キーフレーム抽出手段5aが、動きベクトルに基づいてキーフレームを抽出する手法について説明する。
図3(a)は、横軸に分割映像(映像基本単位)の時間(フレーム画像単位)を示し、縦軸にフレーム画像ごとの動きベクトル量を示している。また、図3(b)は、横軸に分割映像(映像基本単位)の時間(フレーム画像単位)を示し、縦軸にフレーム画像ごとの動きベクトル量の累計を示している。なお、この図3(b)では、映像基本単位の動きベクトル累計を、予め定めたキーフレームの数で等分し、その等分した累計に対応したフレーム画像をキーフレームとして選択した例を示している。
図3(a)に示すように、キーフレーム抽出手段5aは、分割映像のフレーム画像ごとに、動きベクトル量を算出する。すなわち、キーフレーム抽出手段5aは、フレーム画像の予め定めたブロック(例えば、マクロブロック)ごとに、前フレーム画像との動きの差(動きベクトル)を、フレーム画像内で累計し、当該フレーム画像の動きベクトル量とする。
そして、図3(b)に示すように、キーフレーム抽出手段5aは、動きベクトル量を累計して、分割映像(映像基本単位)内の総動きベクトル量を、予め定めたキーフレームの数で等分する。そして、キーフレーム抽出手段5aは、動きベクトル量累計が、等分した累計に達したときのフレーム画像を順次キーフレームとして抽出する。、
これによって、図3(b)に示すように、動きベクトル量が大きく変化する(動きが激しい)時間区間で、より多くのキーフレームを抽出することができ、映像基本単位内で特徴となるフレーム画像をより多く選択することができる。
なお、キーフレームの抽出数は、任意に設定することができる。例えば、分割映像(映像基本単位)の時間長に対応してキーフレームの数を予め定めておく。キーフレームの数が多ければ、評価するときに緻密に評価できるが、処理速度が遅くなるので、処理速度と正確な評価を行えるフレーム数を予め統計により定めておくことが望ましい。
図1(図2)に戻って、要約映像生成装置1の構成について説明を続ける。
特徴ブロック領域抽出手段5bは、抽出されたキーフレームのフレーム画像の特徴を示すブロック領域を検出し、検出したブロック領域を視覚単語とみなし、その視覚単語の種類を利用して視覚単語の分類を行い、分割映像ごとにどのような種類の視覚単語がいくつ含まれているかを解析するものである。解析した分割映像ごとのキーフレームにおける視覚単語は、映像評価手段6に出力される。この特徴ブロック領域抽出手段5bは、ここでは、キーフレーム画像特徴検出手段5bと、勾配ヒストグラム生成手段5bとを備えている。
キーフレーム画像特徴検出手段5bは、入力されるキーフレームのフレーム画像における特徴を検出して、検出した特徴の部分(ブロック領域)を視覚単語とみなし(扱うようにし)ている。このキーフレーム画像特徴検出手段5bは、例えば、フレーム画像の特徴となる局所特徴(例えば、コーナー等)を検出し、特徴点の周辺の局所領域をブロック領域(視覚単語)として特定する。このキーフレーム画像特徴検出手段5bは、ブロック領域(視覚単語)を特定する情報(例えば、画像座標)を勾配ヒストグラム生成手段5bに出力する。
勾配ヒストグラム生成手段5bは、予め設定された輝度、色等の特徴に対して勾配ヒストグラムにより視覚単語の種類を生成するものである。この勾配ヒストグラム生成手段5bは、ここでは例えば、キーフレーム画像特徴検出手段5bで検出されたブロック領域(視覚単語)における輝度についての勾配ヒストグラムを視覚単語の種類として生成する。
なお、特徴点の検出や勾配ヒストグラムの算出には、既存のSIFT(David G Lowe,” Object recognition from local scale-invariant features, ” In Proc.IEEE International Conference on Computer Vision, vol.2, pp.1150-1157,1999.)や、あるいは、既存のSURF(Herbert. Bay, Tinne Tuytelaars, and L Van Gool,” SURF : Speeded Up Robust Features, ” In Proc. European Conference on Computer Vision, vol. 3951, pp 404-417,2006)等の技術を利用することができる。
このキーフレーム画像特徴検出手段5b及び勾配ヒストグラム生成手段5bを備える特徴ブロック領域抽出手段5bは、検出した特徴となる部分(ブロック領域:局所領域)を視覚単語としてみなし、当該視覚単語の特徴量ごとに区分して視覚単語の種類とみなすことで、視覚単語で用いることができる手法を使用できるようにしている。
なお、勾配ヒストグラムを画像の特徴とした場合、次元数が高く、ブロック領域(視覚単語)の分布が疎になる場合がある。そこで、特徴ブロック領域抽出手段5bが抽出するブロック領域(視覚単語)の特徴について、ここでは、常に、後記するクラスタリング手段5cによりクラスタリングするように構成している。
クラスタリング手段5cは、視覚単語とみなしたフレーム画像のブロック領域における特徴の種類を予め設定されているクラスタリングの条件で分類(クラスタリング)するものである。これによって、ブロック領域(視覚単語)の分布が疎になることを回避することができる。このクラスタリング手段5cは、ブロック領域の特徴を、予め設定されているクラスタ数にクラスタリングして、そのクラスタリングされた分割映像ごとの視覚単語を映像評価手段6に出力する。なお、クラスタリング手段5cでは、例えば、すでに知られているk平均法等が利用できる。
映像評価手段6は、分割映像ごとに視覚単語の種類(特徴量)について、元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして算出するものである。この映像評価手段6は、映像解析手段5で解析された視覚単語ごとの出現傾向に基づいて、分割映像(映像基本単位)ごとにスコアを与えている。映像評価手段6では、視覚単語の集合として分割映像ごとに表現されているため、従来の言語処理における手法を利用することが可能となる。そして、この映像評価手段6は、例えば、言語処理で代表的なTF−IDF(term frequency-inverse document frequency)によって評価することができる。ここで、TF−IDFは、情報探索やテキストマイニングなどの分野で利用され、文書中に出現した特定の単語がどのくらい特徴的であるかを識別するための指標である。
Figure 0005537285
なお、式(1)において、tf(t,d)は映像基本単位(分割映像)dに含まれる視覚単語tの出現頻度を表わし、Nは番組(元映像)における映像基本単位の総数を表わし、df(t)は視覚単語tが含まれる映像基本単位の総数を表わす。また、式(1)において算出されるスコアは、視覚単語tの出現頻度(出現回数)である指標(TF)と、一種の一般語フィルタ(IDF)とにより算出するスコアであり、IDFにより、多くの映像基本単位に出現する語(一般的な語)は重要度が下がり、特定の映像基本単位にしか出現しない単語(視覚単語)の重要度を上げる役割が果たされたスコア(tfidf(t,d))となる。
ここでは、映像評価手段6は、映像基本単位内に含まれる視覚単語の種類ごとのTF−IDFの総和を求め、映像基本単位の長さあるいは映像基本単位内に出現した視覚単語の総数によって正規化することにより、映像基本単位(分割映像ごと)のスコアを算出する。これによって、映像評価手段6は、視覚的に特徴のある映像基本単位に対して高いスコアを与えることができる。この映像評価手段6において分割映像ごとに算出されたスコアは、映像区間選択手段8に出力される。
記憶手段7は、分割映像を記憶するもので、ハードディスク、光磁気ディスク等の一般的な映像等のデータを記憶する手段である。なお、ここでは、記憶手段7には、分割映像が、分割映像ごとの時間長、分割された始点時間及び終点時間の時間情報と共に記憶される。
映像区間選択手段8は、映像評価手段6により評価された分割映像のスコアの高い順で映像時間が早い方から要約映像の時間長となるまで、元映像から分割映像の映像区間の映像を順次選択するものである。この映像区間選択手段8は、外部入力手段10により予め目標長さ設定手段11を介して設定された要約映像の目標長さとなるように、記憶手段7に記憶されている分割映像から、映像評価手段6からのスコアに基づいて、スコアの高い分割映像を選択し、その選択した分割映像を並び替えて連結して要約映像を生成する。ここでは、図2に示すように、映像区間選択手段8は、分割映像選択手段8bと、分割映像連結手段8cと、調整手段8dと、メモリ8eとを備えている。
分割映像選択手段8bは、映像評価手段6により分割映像ごとに算出されたスコアを参照して、そのスコアの高い順に記憶手段7から、予め設定された要約映像の時間長となるまで分割映像を選択するものである。この分割映像選択手段8bは、ここでは、スコアの高い分割映像を選択すると、元映像のうちの何番目の分割映像であるかを示す情報(例えば、分割時間情報、分割映像番号情報等)を調整手段8dに出力する。そして、分割映像選択手段8bは、メモリ8eに記憶されている元映像の分割映像ごとのスコアから次に高い値が付された分割映像を選択し、その結果(分割時間情報、分割映像番号情報等)を調整手段8dに出力する。
また、分割映像選択手段8bは、分割映像の時間長を合計した値が予め設定された要約映像の時間長となるまで分割映像のスコアに基づいて分割映像を選択する。分割映像選択手段8bにより選択された分割映像を示す情報(分割時間情報、分割映像番号情報等)は、分割映像連結手段8cに出力され、予め設定された要約映像の時間長となるまで、分割映像連結手段8cに出力される。
調整手段8dは、分割映像選択手段8bで選択された分割映像の元映像における何番目かの情報(例えば、分割時間情報、分割映像番号情報等)を基準として、その選択された分割映像の基準に対して時間方向における前後所定範囲の分割映像に付されたスコアを引き下げるものである。この調整手段8dは、選択された分割映像に対してスコアを引き下げる対象となる所定範囲が予め設定されると共に、スコアの値をどれだけ引き下げるかが予め設定されている。
例えば、調整手段8dは、選択された分割映像に対してその前後時間方向に10ずつの分割映像について、それらの分割映像のスコアを1/2にする等の調整を行う。この調整手段8dでスコアが引き下げられて調整がなされた分割映像のスコアは、メモリ8eに送られて更新されて記憶される。そして、調整手段8dによって調整した分割映像のスコアによりメモリ8eが記憶している分割映像のスコアが書き換えられ、その書き換えられた分割映像のスコアに基づいて、全体の中で次に高いスコアとなる分割映像を、分割映像選択手段8bが選択するようになる。
メモリ8eは、記憶手段7に記憶されている分割映像(分割映像番号)ごとのスコアの値を記憶するものであり、半導体メモリ等の一般的な記憶媒体である。このメモリ8eは、調整手段8dによって調整されたスコアの値によって書き換えられて更新される。
分割映像連結手段8cは、分割映像選択手段8bにより選択された分割映像を、映像時間が早い方から並べて連結する。この分割映像連結手段8cは、分割映像の開始時間T〜T(あるいは分割映像番号情報)を基準にして早い方から並べて連結し、連結して生成した要約映像を、出力手段9を介して出力する。なお、出力された要約映像は、図示しないハードディスク等に、元映像と紐付けされて記憶される。
以上のように要約映像生成装置1を構成することで、映像のジャンル等にかかわらず、映像に含まれる視覚的特徴によって、要約映像を生成することができる。
[要約映像生成装置の動作]
次に、本発明に係る要約映像生成装置1の動作について説明する。ここでは、要約映像生成装置1の全体動作の概略について先に説明し、個別の手段における詳細動作についてはその後に説明することとする。
(全体動作)
まず、図4を参照(構成については、適宜図2参照)して、要約映像生成装置1の全体動作について説明する。
まず、要約映像生成装置1は、元映像を、入力手段2を介して入力し映像分割手段4により映像基本単位となる分割映像に分割する(ステップS1)。このとき、映像分割手段4は、シーンの区切りで映像を分割して映像基本単位としている。
そして、要約映像生成装置1は、映像解析手段5により、ステップS1で分割された分割映像ごとにキーフレームを抽出し、抽出したキーフレームのフレーム画像の特徴(特徴点)となるブロック領域を検出し、検出したブロック領域を視覚単語とみなし、勾配ヒストグラムで視覚単語の種類を区分けするように解析する(ステップS2)。このような解析を行う動作を映像解析手段5が全ての分割映像(映像基本単位)におけるキーフレームについて行う(ステップS3)。
そして、要約映像生成装置1は、映像評価手段6により、ステップS2で解析された視覚単語について分割映像ごとにスコアを算出し付与する(ステップS4)。全ての分割映像(映像基本単位)についてスコアが算出されるまで繰り返し映像評価手段6の処理が行われる(ステップS5)。
さらに、要約映像生成装置1は、映像区間選択手段8により、ステップS4で算出されたスコアの値に基づいて、元映像の分割映像が記憶されている記憶手段7から、当該スコアが高い映像区間(分割映像)を選択し、さらに、ここではスコアの調整を行い、選択された分割映像を映像時間が早い方から並べて、予め設定された時間長となるまで連結することで要約映像を生成する(ステップS6)。
以上の動作によって、要約映像生成装置1は、映像に含まれる視覚的特徴によって、要約映像を生成する。
(映像基本単位分割動作)
次に、図5を参照(構成については、適宜図2参照)して、要約映像生成装置1の映像分割手段4において分割映像(映像基本単位)を生成する動作について詳細に説明する。なお、この動作は、図4で説明した要約映像生成装置1の全体動作のうちのステップS1の動作に相当する。
まず、要約映像生成装置1は、映像がフレーム画像単位で映像分割手段4に入力されると(ステップS11)、映像分割手段4によって、元映像からショットを検出する(ステップS12)。例えば、映像分割手段4は、フレーム画像間の色の差分をとり、差分が予め設定された閾値より大きいときには、ショットの区間として検出する。
さらに、要約映像生成装置1は、映像分割手段4によって、ステップS12で検出したショットごとに、映像基本単位である分割映像として映像を分割する(ステップS13)。なお、映像分割手段4は、分割映像ごとにショットの初めと終わりの時間情報を付すこととする。そして、全フレームの処理が終了していない場合(ステップS14でNo)、ステップS12に戻って前記した同じ処理を繰り返し行い、元映像の全てのフレームについて処理する(ステップS14でYes)。
この動作によって、要約映像生成装置1は、元映像からショット単位で、映像基本単位となる分割映像を生成することができる。
(分割映像解析動作)
次に、図6を参照(構成については、適宜図2参照)して、要約映像生成装置1の映像解析手段5において、分割映像(映像基本単位)における視覚単語の種類を解析する動作について詳細に説明する。なお、この動作は、図5で説明した要約映像生成装置1の全体動作のうちのステップS2の動作に相当する。
まず、分割映像が映像解析手段5に入力されると、要約映像生成装置1は、キーフレーム抽出手段5aにより、予め設定された条件でキーフレームを抽出する(ステップS21)。例えば、キーフレーム抽出手段5aは、動きの激しい部分のフレーム画像をより多くキーフレームとして抽出する。
そして、要約映像生成装置1は、特徴ブロック領域抽出手段5bのキーフレーム画像特徴検出手段5bにより、ステップS21で抽出されたキーフレームのフレーム画像の特徴となるブロック領域を検出する(ステップS22)。このステップS22で検出されたブロック領域を視覚単語としてみなして扱うようにする。
このステップS22においてブロック領域が検出されて視覚単語とみなされた後、要約映像生成装置1は、勾配ヒストグラム生成手段5bにより、視覚単語の勾配ヒストグラムを生成する(ステップS23)。ここでは、勾配ヒストグラム生成手段5bは、輝度勾配ヒストグラムを生成する。この輝度勾配ヒストグラムが視覚単語の種類として扱われることになる。
このステップS23においてブロック領域の特徴量に対して輝度勾配ヒストグラムが生成されると、要約映像生成装置1は、クラスタリング手段5cにより輝度勾配ヒストグラムの分類を予め設定した種類の範囲(クラスタ数)に絞りこんで、視覚単語の種類を生成する処理を行う(ステップS24)。そして、要約映像生成装置1では、全キーフレームに対して視覚単語の種類を割り当てるまで処理を繰り返し行い(ステップS25でNo)、全キーフレームに対してステップS22〜S24の処理が終了したら(ステップ25でYes)、分割映像の解析処理を終了する。
(映像区間選択・連結動作)
次に、図7を参照(構成については、適宜図2参照)して、要約映像生成装置1の映像区間選択手段8において、映像区間を選択し、連結する動作について詳細に説明する。なお、この動作は、図5で説明した要約映像生成装置1の全体動作のうちのステップS6の動作に相当する。
まず、映像評価手段6から分割映像ごとのスコアが映像区間選択手段8に入力されると、要約映像生成装置1は、映像区間選択手段8の分割映像選択手段8bにより、記憶手段7に記憶されている分割映像のうちで、スコアの最も高い分割映像を選択する(ステップS61)。なお、分割映像ごとの全てのスコアは、メモリ8eにも送られて記憶されるものとする。分割映像が選択されると、分割映像選択手段8bは、調整手段8dにどの分割映像を選択したかを示す情報(映像開始時間、分割映像の番号等の選択した分割映像が特定できる情報でも可)を出力する。
その後、要約映像生成装置1は、調整手段8dにより、メモリ8eに記憶されている各分割映像のスコアに対して、選択された分割映像から時間方向に前後となる所定範囲、例えば、10ずつの分割映像のスコアを1/2となるように調整する(ステップS62)。この調整手段8dは、どの範囲の分割映像をどれだけスコアを引き下げるかが外部から予め設定されているものとする。これによって、次に、分割映像を選択する際に、すでに選択された分割画像と時間的に近い分割画像が選択されにくくなる。
そして、要約映像生成装置1は、分割映像選択手段8bにより、ステップS61で順次選択された分割映像の時間長の合計が、予め設定されている目標長さであるか否かが判定され(ステップS63)、まだ目標長さに達していない場合(ステップS63でNo)、ステップS61に戻ってステップS61,S62の動作を繰り返す。
一方、選択された分割映像の時間長の合計が、目標長さを越えた場合(ステップS63でYes)、要約映像生成装置1は、分割映像連結手段8cにより、ステップS61で選択された分割映像を映像時間の早い方から並べて連結する(ステップS64)。なお、このとき、目標長さを超過した映像については、カットすることとしてもよい。
以上説明したように、要約映像生成装置1では、映像を映像基本単位にしてキーフレームから特徴を分析して視覚単語とし、その視覚単語の種類に対して、元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアを算出して特徴のある分割映像を選択している。つまり、要約映像生成装置1では、映像の特徴のあるブロック領域を含む分割映像を選択して要約映像を生成するので、映像のジャンル等によることなく汎用的に要約映像を生成することができる。
[要約映像生成装置の他の構成]
次に、本発明の他の実施形態に係る要約映像生成装置の構成について説明する。図1(図2)で説明した要約映像生成装置1は、映像のデータ(映像ストリーム等)から要約映像を生成するものであったが、映像及び音声のデータから要約映像を生成するように構成してもよい。
ここで、図8(図9)を参照して、本発明の他の実施形態に係る要約映像生成装置1Aの構成について説明する。なお、図1(図2)で説明した要約映像生成装置1と同一の構成については、同じ符号を付して説明を省略する。
要約映像生成装置1Aは、MEPG2ストリームのようなデジタル放送番組映像の映像、映像の音声及び映像の文字データを入力してその入力した情報から、映像及び音声の特徴ある部分を選択して、当該映像より映像時間が短い時間長となる要約映像を生成して出力するものである。この要約映像生成装置1Aは、入力手段2と、ストリーム分離手段3と、映像分割手段4と、映像解析手段5と、映像評価手段6と、映像区間選択手段8Aと、出力手段9と、文字情報抽出手段15と、形態素解析手段16と、音声評価手段17と、目標長さ設定手段11と、を備えている。
入力される映像となる元映像には、少なくとも映像データである映像ストリームと、音声データである音声ストリームがあればよく、さらに、データストリームが文字情報を含んでいれば、要約映像生成装置1Aでは、その文字情報が使用される。
入力手段2を介して入力された映像は、ストリーム分離手段3により、映像ストリームと、音声ストリームと、データストリームとに分離され、映像ストリームが映像分割手段4に出力され、音声ストリーム及びデータストリームが文字情報抽出手段15に出力される。ストリーム分離手段3は、例えば、映像がMPEG2TSの場合であれば、コンポーネントタグの値により各ストリームを分離する。
ストリーム分離手段3により分離された映像ストリームは、映像分割手段4に入力される。そして、すでに説明したように、要約映像生成装置1Aは、フレームからショット等を検出して映像基本単位となる分割映像を生成し、映像解析手段5及び映像評価手段6により処理されて分割映像ごとのスコアを算出する。そして、算出された分割映像ごとのスコアは、映像区間選択手段8Aに出力される。
一方、ストリーム分離手段3により分離された音声ストリームとデータストリームは、文字情報抽出手段15に入力される。
文字情報抽出手段15は、入力された音声ストリーム又はデータストリームから文字データを抽出するものである。この文字情報抽出手段15で抽出された文字データは、形態素解析手段16に出力される。ここでは、文字情報抽出手段15は、データストリームから文字データ検索し、あるいは、音声データから文字データを生成する。この文字情報抽出手段15は、文字データ検出手段15aと、音声認識手段15bとを備えている。
文字データ検出手段15aは、ストリーム分離手段3で分離されたデータストリームから、クローズドキャプションの文字データを検出するものである。なお、文字データ検出手段15aは、データストリーム中にクローズドキャプションがない場合に、音声認識手段15bに信号出力して音声認識を行わせ、また、データストリーム中にクローズドキャプションがある場合に、当該クローズドキャプションから文字データを検出する。この文字データ検出手段15aは、クローズドキャプションが検出できたか否かについて、音声認識手段15bに信号を出力して、検出したときには、音声認識処理を行わず、検出できなかったときには、音声認識処理を行わせるようにしている。文字データ検出手段15aで検出された文字データは、形態素解析手段16に出力される。
音声認識手段15bは、ストリーム分離手段3で分離された音声ストリームを音声認識してテキストデータ等の文字データを生成するものである。なお、音声認識手段15bは、文字データ検出手段15aからの音声認識を行う旨の信号により、音声ストリームを音声認識する。この音声認識手段15bは、一般的な音声認識装置を用いればよい。音声認識手段15bにより認識された文字データは、形態素解析手段16に出力される。
文字情報抽出手段15は、文字データ検出手段15aで検出した文字データ(テキストデータ)か、あるいは、音声認識手段15bで音声認識して生成した文字データ(テキストデータ)かのいずれかを形態素解析手段16に出力する。
形態素解析手段16は、入力した文字データを形態素解析し、テキストデータを単語(形態素)へ分割するものである。この形態素解析手段16は、テキストデータを単語(言語で意味を持つ最小単位)に分割する。この形態素解析手段16で解析された文字データは、音声評価手段17に出力される。なお、形態素解析手段16で形態素に分割された文字データは、映像ストリームにおけるどのタイミングで表示あるいは発音されるかの時間情報を付された状態で音声評価手段17に出力される。また、形態素解析手段16は、予め設定されている記号や不用語について、除去した後に音声評価手段17に文字データを出力する。
音声評価手段17は、入力した文字データの形態素に対して、映像分割手段4から入力される分割映像ごとの単位となる情報により分割映像ごとのスコアを算出するものである。この音声評価手段17は、映像分割手段4から分割された分割映像の時間情報を入力すると、その分割映像の時間情報ごとに形態素の範囲を区分けして、その区分けした分割映像の単位ごとに特定の文字(形態素)が、元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして算出される。音声評価手段17は、例えば、すでに説明した式(1)で示すTF−IDFにより各形態素のスコアを分割映像ごとの単位で算出して評価基準を付す。この音声評価手段17により算出される分割映像ごとのスコアにより文字データで示されるナレーションや台詞に特徴的な単語が出現する映像基本単位(分割映像)に高いスコアを与えることが可能となる。この音声評価手段17で算出された分割映像ごとのスコアは、映像区間選択手段8Aに出力される。
映像区間選択手段8Aは、映像評価手段6で算出した分割映像ごとのスコアと、音声評価手段17で算出した分割映像ごとのスコアとを統合して、元映像から分割映像の映像区間を選択する。この映像区間選択手段8は、統合手段8aと、分割映像選択手段8bと、分割映像連結手段8cと、調整手段8dと、メモリ8eとを備えている。なお、分割映像選択手段8b、分割映像連結手段8c、調整手段8d及びメモリ8eは、すでに図2で説明したものと同じである。
統合手段8aは、音声評価手段17で算出した音声のスコアと、映像評価手段6で算出した映像のスコアとを統合(合計)して、映像基本単位である分割映像ごとのスコアを算出するものである。この統合手段8aは、スコアの統合の方法として、例えば、重み付き和により統合する方法や、あるいは、重み付き積により統合する方法により統合スコアを算出することができる。
例えば、音声のスコアをfa(s)、映像のスコアをfv(s)、重みをα(予め設定された値)としたとき、式(2)により、重み付き和による統合スコアf(s)を算出することができ、式(3)により、重み付き積による統合スコアf(s)を算出することができる。
Figure 0005537285
Figure 0005537285
この統合手段8aにより式(2)あるいは式(3)で統合したスコアf(s)に基づいて、分割映像選択手段8bと、分割映像連結手段8cと、調整手段8dと、メモリ8eとによりスコアf(s)を調整しながら分割映像を選択し、選択した分割映像を結合して予め設定した時間長となるように要約映像を生成する。
なお、図2(図9)では、記憶手段7に分割映像を記憶することとし、分割映像選択手段8bが記憶手段7から分割映像を選択し、分割映像連結手段8cがそれらを連結することとしたが、要約映像生成装置1Aでは、映像区間選択手段8Aは、分割映像を示す情報(分割時間情報、分割映像番号情報等)から、入力手段2を介して外部から、対応する分割映像を入力することとすることで、記憶手段7を省略する構成とした。
以上のように要約映像生成装置1Aを構成することで、映像及び音声によって、特徴のある映像区間を抽出することができ、映像のジャンル等にかかわらず、要約映像を生成することができる。
[要約映像生成装置の動作]
次に、本発明に係る要約映像生成装置1Aの動作について説明する。ここでは、要約映像生成装置1Aの全体動作の概略について先に説明し、個別の手段における詳細動作についてはその後に説明することとする。なお、すでに説明したステップは、同じ符号を付してその説明を省略する。
(全体動作)
まず、図10を参照(構成については、適宜図8,図9参照)して、要約映像生成装置1Aの全体動作について説明する。
まず、要約映像生成装置1Aは、MEPG2ストリームのようなデジタル放送番組映像が入力手段2を介して入力されると、ストリーム分離手段3により、映像ストリームと、音声ストリームと、データストリームとに分離する(ステップS1A)。そして、ストリーム分離手段3は、分離した映像ストリームを映像分割手段4に出力し、分離した音声ストリーム及びデータストリームを文字情報抽出手段15に出力する。また、要約映像生成装置1Aは、すでに説明したように、映像分割手段4により、映像ストリームから、映像基本単位である、例えばショットの単位となる分割映像を生成する(ステップS1)。
さらに、要約映像生成装置1Aは、文字情報抽出手段15により、データストリームに映像の文字データであるクローズドキャプションがなければ音声ストリームを音声認識手段15bにより音声認識して文字データを生成し、クローズドキャプションがあれば、文字データとして抽出する(ステップS2A)。そして、要約映像生成装置1Aは、ステップS2Aで抽出された文字データが形態素解析手段16に送られ、形態素解析手段16により、文字データ(テキストデータ)の形態素解析が行われて文字データが形態素になるように解析する(ステップS2B)。一方、ステップS1で分割された分割映像は、映像解析手段5により、すでに説明したようにステップS2、S3の処理が行われ、特徴があるブロック領域を視覚単語とみなすような解析がなされる。
また、要約映像生成装置1Aは、音声評価手段17により、ステップS2Bで解析された文字データの形態素について分割映像ごとにTF−IDF等の評価手法を用いて音声の音声スコアを算出し、さらに、映像評価手段6により、ステップS2で解析された視覚単語について分割映像ごとにTF−IDF等の評価手法を用いて映像の映像スコアを算出する(ステップS4α)。そして、映像評価手段6は、映像基本単位となる分割映像におけるスコアの全てが終了するまで(ステップS5αでYes)、音声スコア及び映像スコアを算出する。
そして、要約映像生成装置1Aは、音声スコア及び映像スコアが算出されると、映像区間選択手段8Aにより、音声スコア及び映像スコアを統合手段8aにより統合したスコアが算出される。そして、要約映像生成装置1Aは、分割映像選択手段8bにより統合したスコアに基づいて、元映像からスコアの高い映像区分となる分割映像が選択される。このとき、要約映像生成装置1Aは、調整手段8dによって、すでに説明したようにスコアの調整が行われ、分割映像連結手段8cによって、選択された分割映像が映像時間の早い順に並びかえられて連結され、予め設定された時間長となる要約映像が生成される(ステップS6α)。
以上の動作によって、要約映像生成装置1Aは、映像や音声に含まれる特徴によって、要約映像を生成する。
(文字抽出動作)
次に、図11を参照(構成については、適宜図9参照)して、要約映像生成装置1Aの文字情報抽出手段15において、文字データを抽出する動作について詳細に説明する。なお、この動作は、図10で説明した要約映像生成装置1Aの全体動作のうちのステップS2Aの動作に相当する。
まず、要約映像生成装置1Aは、音声ストリーム及びデータストリームが文字情報抽出手段15に入力されると、文字データ検出手段15aにより、データストリーム中に文字データであるクローズドキャプションが存在するか否かを判定する(ステップS2Aa)。ここで、データストリーム中にクローズキャプションがある場合(ステップS2AaでYes)、クローズドキャプションを文字データとして検出する(ステップS2Ab)。このとき、文字データ検出手段15aは、音声認識手段15bに対して、音声認識を行わない旨の指示(信号)を通知する。
一方、データストリーム中にクローズドキャプションがない場合(ステップS2AaでNo)、音声認識手段15bに音声認識を行う旨の指示(信号)を通知し、音声認識手段15bは、その信号により音声ストリームを音声認識して文字データを生成する(ステップS2Ac)。
このように、要約映像生成装置1Aは、データストリーム中に映像で使用されるクローズドキャプションのような文字データがあった場合、音声認識を行わないため、動作の負荷を軽減することができる。
(映像区間選択・連結動作)
次に、図12を参照(構成については、適宜図9参照)して、要約映像生成装置1Aの映像区間選択手段8Aにおいて、映像区間を選択し、連結する動作について詳細に説明する。なお、この動作は、図10で説明した要約映像生成装置1Aの全体動作のうちのステップS6αの動作に相当する。
まず、映像評価手段6から出力される分割映像の映像に対する映像のスコアと、音声評価手段17から出力される音声に対応する文字データである音声のスコアとが映像区間選択手段8Aに入力されると、要約映像生成装置1Aは、統合手段8aにより、両スコアを統合したスコアを算出する(ステップS16a)。そして、要約映像生成装置1Aは、映像基本単位である分割映像について統合したスコアを算出し、全ての分割映像の処理が行われていない場合には(ステップS16bでNo)、繰り返しステップS16aの動作を行う。
そして、要約映像生成装置1Aは、全映像基本単位となる全ての分割映像についての統合したスコアの算出が終了したら(ステップ16bでYes)、分割映像選択手段8bにより、元映像からスコアの高い順に映像区間に対応する分割映像を選択する。要約映像生成装置1Aでは、分割映像を選択するステップS16cから、調整手段8dによりメモリ8eに記憶されている分割映像のスコアの調整を行うステップS16d、要約映像の時間長となるまで繰り返し処理するステップ16e(Yes、No)、ならびに、分割映像連結手段8cにより分割映像を連結するステップS16fについては、すでに図7で説明したステップS61〜S64と同等の動作を行って要約映像を生成する。
要約映像生成装置1Aは、以上説明した各ステップにより、映像の特徴と音声の特徴の両方から分割映像となる映像区間を、元映像から選択して生成するので、より特徴を正確に表わす要約映像を生成することが可能となる。
[要約映像生成装置の変形例]
すでに説明した図1,図2で示す要約映像生成装置1と、図9,図10で示す要約映像生成装置1Aについて、以下のような構成としてもよい例を説明する。
すなわち、要約映像生成装置1,1Aは、映像分割手段4において、ショットの単位を映像分割手段4で元映像あるいは映像ストリームから映像基本単位である分割映像として説明したが、映像基本単位は、元映像から均等な時間ごとに分割した映像区分を映像基本単位とする分割映像としても構わない。このような元映像から時間的に均等な時間位置で均等な時間長さの分割映像とする場合には、生成される要約映像の状態がショットを映像基本単位にしたものと比較した場合、結合部分に違和感があるようになる可能性があるが、元映像を選択するための内容を示すレベルにおいては使用できるものとなる。また、映像分割手段4は、カメラの動き(パン、チルト等)が変化する時間長さ方向の点を検出し、そのカメラの動きのある時間長さ方向の点を区切りとした映像区間を分割映像としても構わない。つまり、映像分割手段4は、予め設定された映像区間を映像基本単位として分割映像を生成する構成としても構わない。
なお、映像分割手段4では、ショット長の単位となる映像基本単位の分割映像に分割する例を説明したが、ショット長に対して閾値を設定し、その設定した閾値より長いショット長となる分割映像について、映像の動きに基づいてさらに分割するようにしても構わない。そして、閾値は、予め設定された値(例えば、これまでに生成されたスポット映像において使用されているカットの平均長)であってもよいし、外部入力手段10から入力されたスポット映像の長さの情報等に基づいて算出された値としてもよい。
また、要約映像生成装置1,1Aは、映像解析手段5において、キーフレームのフレーム画像について特徴となるブロック領域を抽出し、そのブロック領域(視覚単語)の特徴量の種類を区分するため、輝度勾配ヒストグラムを一例として説明した。ただし、映像解析手段5は、ブロック領域(視覚単語)の特徴量の種類を区分することができるように、特徴量の分布、度数、レンジ等を予め設定した範囲ごとに区画することで、当該特徴量の種類を区分することができれば、特徴量の種類について特に限定されるものではない。
そして、要約映像生成装置1,1Aは、映像解析手段5において、キーフレーム抽出手段5aが、動きの激しいフレームを多く含むように抽出する構成の例として説明したが、キーフレーム抽出手段5aにより、先頭から最後まで予め設定された均等な時間区間からキーフレームを抽出する構成としても構わない。あるいは、要約映像生成装置1,1Aは、キーフレーム抽出手段5aが乱数により映像区間から無作為にキーフレームを選択するようにしても構わない。つまり、要約映像生成装置1,1Aは、映像解析手段5において、キーフレーム抽出手段5aが、予め設定された条件により分割映像の区間からキーフレームを抽出するように構成しても構わない。
また、要約映像生成装置1,1Aは、特徴ブロック領域抽出手段5bが、フレーム画像の特徴点(オブジェクトのコーナー部分等)となる局所特徴量を検出する例として説明したが、フレーム画像の特徴となる大域特徴、あるいは、局所特徴及び大域特徴の両方を組み合わせた特徴部分を検出するようにしても構わない。なお、大域特徴を検出する手法としては、フレーム画像の小領域におけるテクスチャの色等の情報を利用することができる。例えば、特徴ブロック領域抽出手段5bが、キーフレーム画像における予め設定したブロック領域を視覚単語とみなして、その視覚単語としたブロック領域を特徴量ごとの種類に区分するようにしても構わない。
さらに、要約映像生成装置1,1Aは、映像解析手段5において、クラスタリング手段5cを備える構成として説明したが、映像解析手段5において、勾配ヒストグラム生成手段5bによる勾配ヒストグラムの次元数が低く、分布が密となるような勾配の区分に予め設定することで、クラスタリング手段5cを必要としない構成としてもよい。
そして、要約映像生成装置1,1Aは、映像評価手段6において、具体的には、TF−IDFの値(視覚単語の種類(特徴量)に対して、元映像において特徴的であることを識別する予め定めた指標を評価基準として算出したスコア)を算出する例として示したが、IDFのかわりにエントロピー(S)に基づいて算出されるTF−Sの値(信号)を利用することもできる。なお、TF−Sの算出式は、以下の通りである。
Figure 0005537285
さらに、要約映像生成装置1,1Aは、映像評価手段6において、画像特徴ベクトルの共起に基づく特徴量を利用することもできる。画像特徴ベクトルの共起(t)に基づく重要度は、次式のように算出できる。
Figure 0005537285
なお、式(5)において括弧内のtはt={t,…,t,…,t}であり、tは、画像特徴ベクトルの1つを表わす。また、tf(t,d)は映像基本単位dにおける画像特徴ベクトルの共起tの出現頻度を表わし、Nは番組(元映像)における映像基本単位の総数を表わし、df(t)は番組(元映像)における映像基本単位のうち、画像特徴ベクトルの共起tが含まれる映像基本単位の総数を表わす。tf(t,d)は、映像基本単位dに含まれる全ての共起の総数で割ることによって正規化されている。
このように、共起を利用することにより映像基本単位の特徴をより正確に捉えることが可能となる。
なお、式(5)において、全ての共起を利用するようにしているが、画像特徴ベクトルにおいて、ある位置関係(近くに出現する関係、ある位置関係に出現する関係等)を満たすものだけを利用して、重要度を算出するようにしてもよい。
さらに、要約映像生成装置1,1Aは、映像評価手段6において、番組内のみではなく、過去の様々な放送番組から画像特徴ベクトルの重要度を算出する方法も考えられる。例えば、次の式(6)により重要度が算出できる。
Figure 0005537285
ここで、pf(t)は、過去の様々な番組のうち画像特徴ベクトルtが出現する番組の総数を表わし、Mは過去の様々な番組の総数を表わす。tfidf(t,d)は、すでに説明した式(1)の重要度と同じものである。pf(t)により、番組内における画像特徴ベクトルの出現特徴だけでなく、他の番組における出現傾向も考慮した重要度を算出することができるようになる。式(6)では、特定の番組にのみ出現するような画像特徴ベクトルに対して、大きな重みを与えることができる。
要約映像生成装置1,1Aは、視覚単語として画像の特徴的な領域を示して、その特徴的な領域に対して、映像評価手段6において重要度を評価することで、元映像からどの映像区間が要約映像に相応しい分割映像であるかを選択できるようにしており、分割映像の重要度を選択できる評価基準として算出できる指標となる値であれば、以上説明したような式(1)、(4)〜(6)等を使用することが可能となる。
また、要約映像生成装置1,1Aは、映像区間選択手段8,8Aにおいて、調整手段8dにより算出したスコアの値を調整して元映像から特徴のある映像区間の分割映像を選択するようにしたが、調整手段8dを使用することなく、分割映像選択手段8bが選択した分割映像を分割映像連結手段8cにより連結して要約映像を生成するようにしてもよい。
さらに、要約映像生成装置1,1Aは、調整手段8dにおいて、予め設定された映像区間において、予め設定された値だけスコアを引き下げるようにして調整する構成について説明したが、以下のようなエントロピーを用いて調整する構成としても構わない。
すなわち、すでに選択した映像基本単位である分割映像をV={v,…,v,…,v}とした場合、番組内における選択済みの分割映像のばらつきは、エントロピーを利用して式(7)により算出することができる。
Figure 0005537285
式(7)において、p(v)は、映像基本単位(分割映像)vの番組冒頭からの位置を表わし、秒やフレームなどの単位で表わされるものとする。H(V)が大きいほど、番組内の様々な位置からの映像区間の分割映像が選択されていることを表わしている。
Vに対して新たな映像区間となる分割映像vn+1を追加する場合は、H(V)の増加量と分割映像vn+1の重要度(スコア)を統合したスコアに基づいて、分割映像を選択することになる。すなわち、メモリ8eに記憶させたスコアを更新させながら、分割映像選択手段8bが、統合したスコアにより分割映像を選択するようになる。なお、統合した重要度δは、以下の式(8)により算出することができる。
Figure 0005537285
式(8)において、imp(v)は、映像区間(分割映像)vの重要度であり、前記したTFIDF(TFS、TFIDFP)等に基づいて算出される。エントロピーにより分割映像のスコアを調整することで、番組内の様々な位置から分割映像が選択されるようになる。
要約映像生成装置1では、スコアに基づいて、元映像から映像区間となる分割映像を選択するために、記憶手段に記憶させるようにしたが、分割映像の記憶手段を使用することなく要約映像生成装置1Aのように、入力手段により入力された元映像からスコアの高い分割映像を選択するように構成しても構わない。
また、要約映像生成装置1Aでは、音声評価手段17において、形態素について、スコアを算出する場合、前記した式(4)〜(6)の値を使用してスコアを算出することも可能となる。
要約映像生成装置1,1Aは、以上説明したように、各手段において、キーフレームから特徴となるブロック領域を抽出し、その抽出したブロック領域を視覚単語とみなし、視覚単語の勾配ヒストグラムを生成することで、視覚単語の種類とし、分割映像における視覚単語の種類に対して、元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして算出している。そのため、要約映像生成装置1,1Aは、ジャンルに囚われることなく元映像に対する要約映像を的確に生成することが可能となる。
なお、要約映像生成装置1,1Aは、一般的なCPU、RAM、ROMなどで構成することができ、要約映像を出力するために、コンピュータを、前記した各手段として機能させるプログラム(要約映像生成プログラム)で実現することが可能となる。
1 要約映像生成装置
1A 要約映像生成装置
2 入力手段
3 ストリーム分離手段
4 映像分割手段
5 映像解析手段
5a キーフレーム抽出手段
5b 特徴ブロック領域抽出手段
5b キーフレーム画像特徴検出手段
5b 勾配ヒストグラム生成手段
5c クラスタリング手段
6 映像評価手段
7 記憶手段
8 映像区間選択手段
8a 統合手段
8b 分割映像選択手段
8c 分割映像連結手段
8d 調整手段
8e メモリ
9 出力手段
10 外部入力手段
11 目標長さ設定手段
15 文字情報抽出手段
15a 文字データ検出手段
15b 音声認識手段
16 形態素解析手段
17 音声評価手段

Claims (7)

  1. 元映像から当該元映像よりも映像時間が短い時間長となる要約映像を生成する要約映像生成装置であって、
    入力した前記元映像からショットの単位となる映像単位ごとに分割した分割映像を生成する映像分割手段と、
    この映像分割手段で分割した分割映像ごとにキーフレームを抽出して、抽出した前記キーフレームの特徴を示すブロック領域を検出し、当該ブロック領域の種類を特徴量ごとに区分して解析する映像解析手段と、
    この映像解析手段で解析したブロック領域の特徴量における種類のそれぞれについて、当該特徴量が前記元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして算出し、その総和を求めることで分割映像ごとのスコアを算出する映像評価手段と、
    この映像評価手段で算出された分割映像のスコアの高い順で映像時間が早い方から前記要約映像の時間長となるまで、前記元映像から前記分割映像の映像区間の映像を順次選択する映像区間選択手段と、を備え
    前記映像区間選択手段は、
    算出された前記分割映像のスコアに基づいて前記要約映像の時間長となるまで、前記元映像から前記分割映像の映像区間の映像を順次選択する分割映像選択手段と、
    この分割映像選択手段により選択した分割映像の時間的に前後となる予め設定された設定分割映像範囲について、当該設定分割映像範囲にある分割映像のスコアを引き下げる調整を行なう調整手段と、
    この調整手段により調整を行なって、前記分割映像選択手段が選択した前記分割映像を連結して前記要約映像を生成する分割映像連結手段と、
    を備えることを特徴とする要約映像生成装置。
  2. 元映像から当該元映像よりも映像時間が短い時間長となる要約映像を生成する要約映像生成装置であって、
    前記元映像が、映像ストリームと、音声ストリームとを有する映像であって、入力した前記元映像から前記映像ストリームと、前記音声ストリームとを分離するストリーム分離手段と、
    このストリーム分離手段で分離した前記映像ストリームからショットの単位となる映像単位ごとに分割した分割映像を生成する映像分割手段と、
    この映像分割手段で分割した分割映像ごとにキーフレームを抽出して、抽出した前記キーフレームの特徴を示すブロック領域を検出し、当該ブロック領域の種類を特徴量ごとに区分して解析する映像解析手段と、
    この映像解析手段で解析したブロック領域の特徴量における種類のそれぞれについて、当該特徴量が前記元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして算出する映像評価手段と、
    前記音声ストリームから音声を認識して文字データを抽出する文字情報抽出手段と、
    この文字情報抽出手段により抽出した文字データを単語ごとに形態素解析する形態素解析手段と、
    この形態素解析手段により解析した文字データについて、前記映像分割手段により分割した分割映像の映像単位ごとに特徴のある前記単語が前記元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして算出する音声評価手段と、
    前記映像評価手段で算出したスコアと、前記音声評価手段で算出したスコアを合算して求めたスコアの高い順で映像時間が早い方から前記要約映像の時間長となるまで、前記元映像から前記分割映像の映像区間を順次選択すると共に、前記元映像から当該映像区間の音声ストリームを選択する映像区間選択手段と、を備え
    前記映像区間選択手段は、
    前記映像評価手段で算出したスコアと、前記音声評価手段で算出したスコアを合算するスコア統合手段と、
    このスコア統合手段で合算して算出した前記スコアに基づいて、当該スコアの高い順で映像時間が早い方から前記要約映像の時間長となるように、前記元映像から前記分割映像の映像区間を選択する分割映像選択手段と、
    この分割映像選択手段により選択した分割映像の時間的に前後となる予め設定された設定分割映像範囲について、当該設定分割映像範囲にある分割映像のスコアを引き下げる調整を行なう調整手段と、
    この調整手段により調整を行なって、前記分割映像選択手段が選択した前記分割映像を連結して前記要約映像を生成する分割映像連結手段と、
    を備えることを特徴とする要約映像生成装置。
  3. 前記映像解析手段は、前記ブロック領域を特徴量ごとの種類によりクラスタリングするクラスタリング手段をさらに備え、
    前記映像評価手段は、前記クラスタリング手段でクラスタリングした種類の前記特徴量について前記スコアを算出することを特徴とする請求項1又は請求項2に記載の要約映像生成装置。
  4. 前記映像解析手段は、前記分割映像のフレーム画像ごとに動きベクトル量を算出し、前記動きベクトル量の累計が前記分割映像の総動きベクトル量を予め定めた数で等分した累計に達したときのフレーム画像を順次、前記キーフレームとして抽出することを特徴とする請求項1から請求項3のいずれか一項に記載の要約映像生成装置。
  5. 前記元映像は前記映像ストリームと、前記音声ストリームと、データストリームとを有し、前記ストリーム分離手段は、前記元映像を前記映像ストリームと、前記音声ストリーム及び前記データストリームとに分離し、
    前記文字情報抽出手段は、前記データストリームに前記映像ストリームに対する文字データが含まれているか否かを検出する文字データ検出手段をさらに備え、
    前記データストリームに文字データが存在しない場合に、音声認識手段により前記文字データを抽出して前記形態素解析手段に出力し、前記データストリームに文字データが含まれている場合に、前記文字データ検出手段により文字データを検出して前記形態素解析手段に出力することを特徴とする請求項2に記載の要約映像生成装置。
  6. 元映像から当該元映像よりも映像時間が短い時間長となる要約映像を生成するためにコンピュータを、
    入力した前記元映像からショットの単位となる映像単位ごとに分割した分割映像を生成する映像分割手段、
    この映像分割手段で分割した分割映像ごとにキーフレームを抽出して、抽出した前記キーフレームの特徴を示すブロック領域を検出し、当該ブロック領域の種類を特徴量ごとに区分して解析する映像解析手段、
    この映像解析手段で解析したブロック領域の特徴量における種類のそれぞれについて、当該特徴量が前記元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして算出し、その総和を求めることで分割映像ごとのスコアを算出する映像評価手段、
    この映像評価手段で算出された分割映像のスコアの高い順で映像時間が早い方から前記要約映像の時間長となるまで、前記元映像から前記分割映像の映像区間の映像を順次選択する映像区間選択手段、として機能させ
    前記映像区間選択手段は、前記元映像から、分割映像の映像区間の映像を選択するたびに、選択した分割映像の時間的に前後となる予め設定された設定分割映像範囲について、当該設定分割映像範囲にある分割映像のスコアを引き下げることを特徴とする要約映像生成プログラム。
  7. 元映像から当該元映像よりも映像時間が短い時間長となる要約映像を生成するためにコンピュータを、
    前記元映像が、映像ストリームと、音声ストリームとを有する映像であって、入力した前記元映像から前記映像ストリームと、前記音声ストリームとを分離するストリーム分離手段、
    このストリーム分離手段で分離した前記映像ストリームからショットの単位となる映像単位ごとに分割した分割映像を生成する映像分割手段、
    この映像分割手段で分割した分割映像ごとにキーフレームを抽出して、抽出した前記キーフレームの特徴を示すブロック領域を検出し、当該ブロック領域の種類を特徴量ごとに区分して解析する映像解析手段、
    この映像解析手段で解析したブロック領域の特徴量における種類のそれぞれについて、当該特徴量が前記元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして算出する映像評価手段、
    前記音声ストリームから音声を認識して文字データを抽出する文字情報抽出手段、
    この文字情報抽出手段により抽出した文字データを単語ごとに形態素解析する形態素解析手段、
    この形態素解析手段により解析した文字データについて、前記映像分割手段により分割した分割映像の映像単位ごとに特徴のある前記単語が前記元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして算出する音声評価手段、
    前記映像評価手段で算出したスコアと、前記音声評価手段で算出したスコアを合算して求めたスコアの高い順で映像時間が早い方から前記要約映像の時間長となるまで、前記元映像から前記分割映像の映像区間を順次選択すると共に、前記元映像から当該映像区間の音声ストリームを選択する映像区間選択手段、として機能させ
    前記映像区間選択手段は、前記元映像から、分割映像の映像区間の映像を選択するたびに、選択した分割映像の時間的に前後となる予め設定された設定分割映像範囲について、当該設定分割映像範囲にある分割映像のスコアを引き下げることを特徴とする要約映像生成プログラム。
JP2010146443A 2010-06-28 2010-06-28 要約映像生成装置及び要約映像生成プログラム Active JP5537285B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010146443A JP5537285B2 (ja) 2010-06-28 2010-06-28 要約映像生成装置及び要約映像生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010146443A JP5537285B2 (ja) 2010-06-28 2010-06-28 要約映像生成装置及び要約映像生成プログラム

Publications (2)

Publication Number Publication Date
JP2012010265A JP2012010265A (ja) 2012-01-12
JP5537285B2 true JP5537285B2 (ja) 2014-07-02

Family

ID=45540264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010146443A Active JP5537285B2 (ja) 2010-06-28 2010-06-28 要約映像生成装置及び要約映像生成プログラム

Country Status (1)

Country Link
JP (1) JP5537285B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015195418A (ja) * 2012-08-14 2015-11-05 三菱電機株式会社 記録再生装置、記録再生方法、記録装置及び再生装置
JP6257337B2 (ja) * 2014-01-14 2018-01-10 日本放送協会 画像選択装置
KR101804383B1 (ko) * 2014-01-14 2017-12-04 한화테크윈 주식회사 요약 영상 브라우징 시스템 및 방법
US9799376B2 (en) 2014-09-17 2017-10-24 Xiaomi Inc. Method and device for video browsing based on keyframe
CN104284240B (zh) * 2014-09-17 2018-02-02 小米科技有限责任公司 视频浏览方法及装置
KR101994291B1 (ko) * 2014-10-14 2019-06-28 한화테크윈 주식회사 통합써머리를 제공하는 영상재생장치 및 방법
KR102071388B1 (ko) * 2016-07-01 2020-01-30 주식회사 케이티 영상 요약 장치 및 영상 처리 장치
JP6917788B2 (ja) * 2017-06-09 2021-08-11 日本放送協会 要約映像生成装置及びプログラム
JP7121378B2 (ja) * 2017-09-26 2022-08-18 Jcc株式会社 映像管理方法、映像管理装置、及び映像管理システム
CN109819338B (zh) 2019-02-22 2021-09-14 影石创新科技股份有限公司 一种视频自动剪辑方法、装置及便携式终端

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE9902328A0 (sv) * 1999-06-18 2000-12-19 Ericsson Telefon Ab L M Förfarande och system för att alstra sammanfattad video
JP2002142189A (ja) * 2000-11-06 2002-05-17 Canon Inc 画像処理装置、画像処理方法及び記憶媒体
JP4211338B2 (ja) * 2002-09-24 2009-01-21 セイコーエプソン株式会社 画像レイアウト装置及び画像レイアウトプログラム、並びに画像レイアウト方法
EP1793581A1 (en) * 2005-12-05 2007-06-06 Microsoft Corporation Automatic selection of images for transfer depending on connection characteristics
JP4247638B2 (ja) * 2006-04-06 2009-04-02 ソニー株式会社 記録再生装置および記録再生方法
JP4755575B2 (ja) * 2006-12-12 2011-08-24 ヤフー株式会社 動画代表画像抽出方法、装置、及びコンピュータ・プログラム
JP4920395B2 (ja) * 2006-12-12 2012-04-18 ヤフー株式会社 動画要約自動作成装置、方法、及びコンピュータ・プログラム
JP5243888B2 (ja) * 2008-08-18 2013-07-24 日本放送協会 データ分類装置及びデータ分類プログラム

Also Published As

Publication number Publication date
JP2012010265A (ja) 2012-01-12

Similar Documents

Publication Publication Date Title
JP5537285B2 (ja) 要約映像生成装置及び要約映像生成プログラム
US8938393B2 (en) Extended videolens media engine for audio recognition
US9734407B2 (en) Videolens media engine
US6892193B2 (en) Method and apparatus for inducing classifiers for multimedia based on unified representation of features reflecting disparate modalities
US6993535B2 (en) Business method and apparatus for employing induced multimedia classifiers based on unified representation of features reflecting disparate modalities
US20110243529A1 (en) Electronic apparatus, content recommendation method, and program therefor
CN106649713B (zh) 一种基于内容的电影可视化处理方法及其系统
KR100687732B1 (ko) 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단방법 및 그 장치
US20030068087A1 (en) System and method for generating a character thumbnail sequence
JP2005514841A (ja) マルチメディア・コンテンツをリンクするよう複数モードのストーリーをセグメントする方法及び装置
WO2000045604A1 (en) Signal processing method and video/voice processing device
Yang et al. Key frame extraction using unsupervised clustering based on a statistical model
Kolekar et al. Semantic event detection and classification in cricket video sequence
KR100436828B1 (ko) 주문형 동영상 요약 서비스 시스템
JP2000285242A (ja) 信号処理方法及び映像音声処理装置
JP2008153920A (ja) 動画像一覧表示装置
Premaratne et al. Improving event resolution in cricket videos
JP2010015588A (ja) 動画像データの分類装置
Detyniecki et al. Video rushes summarization by adaptive acceleration and stacking of shots
JP2005167456A (ja) Avコンテンツ興趣特徴抽出方法及びavコンテンツ興趣特徴抽出装置
Lu et al. An integrated correlation measure for semantic video segmentation
Huayong Content-based tv sports video retrieval based on audio-visual features and text information
Ding et al. A keyframe extraction method based on transition detection and image entropy
Dimitrova et al. Selective video content analysis and filtering
JP2004260734A (ja) 動画像データの分類装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130104

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140313

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20140326

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140401

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140425

R150 Certificate of patent or registration of utility model

Ref document number: 5537285

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250