JP5537285B2

JP5537285B2 - 要約映像生成装置及び要約映像生成プログラム

Info

Publication number: JP5537285B2
Application number: JP2010146443A
Authority: JP
Inventors: 吉彦河合; 真人藤井
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2010-06-28
Filing date: 2010-06-28
Publication date: 2014-07-02
Anticipated expiration: 2030-06-28
Also published as: JP2012010265A

Description

本発明は、テレビジョンにおける要約映像制作の技術に係り、映像あるいは映像と映像音声を基に、自動的に要約映像を生成する要約映像生成装置及び要約映像生成プログラムに関する。

従来、番組映像からその番組内容を要約した要約映像を生成する映像要約の技術が提案されている。ここで、映像要約とは、元の番組映像から、その意味内容を保持したまま、より時間長の短い映像を生成する操作をいう。テレビジョン放送における要約映像の例としては、番組映像が放送される前に放送される数十秒程度の番組紹介映像や、ニュースにおけるプロ野球やサッカーのダイジェスト映像などがある。

この従来の要約映像を生成する技術は、要約の対象とする映像のジャンルや種類を非常に狭い範囲に特化したものがほとんどであり、要約映像のための重要なシーンの抽出において、そのジャンルに関するドメイン知識（ジャンル等に固有の知識）に強く依存しているため、他の分野の映像にそのまま適用することができない場合が多い。

例えば、要約映像を生成する技術として、ジャンルを野球に限定した場合、スロー映像の前には得点シーンであるといった重要なプレーがある可能性が高い、あるいは、画面上の所定の位置に文字スーパーが表示されたときは得点が入ったときである可能性が高いといった知識を利用するものや、スポーツにおいて、歓声が大きい映像区間は、重要なシーンであるといった音声情報を利用するものがある。この野球等のスポーツに適用される技術は、得点シーンの特有のパターンのないドラマやドキュメンタリ番組に適用することはできない。
なお、より汎用的な技術として、電子番組表における紹介テキストを利用する技術もある（特許文献１参照）。
さらに、ユーザの嗜好に合致したキーワードに基づいてシーンを選択する技術が提案されている（特許文献２参照）。

特許第４４５６５７３号公報特開２００４−２８９５１３号公報

しかし、従来の前記した要約映像を制作する装置では、以下に示すような問題点が存在した。
特許文献１に記載の要約映像を生成する装置では、外部情報である電子番組表が入手できない場合（例えば過去の番組等）、あるいは、電子番組表の情報が制作されていない番組の場合に対して、当該電子番組表を全く利用できないため、要約映像を生成することができないという問題がある。
また、特許文献２に記載の要約映像を生成する装置では、やはり全く異なるジャンルの番組に対応できないという問題がある。

本発明は、前記した問題点に鑑み創案されたものであり、特別な条件や番組ジャンルの制限なしで幅広く要約映像を生成することができる要約映像生成装置及び要約映像生成プログラムを提供することを課題とする。

前記した課題を解決するため、本発明の請求項１に係る要約映像生成装置は、元映像から当該元映像よりも映像時間が短い時間長となる要約映像を生成する要約映像生成装置であって、映像分割手段と、映像解析手段と、映像評価手段と、映像区間選択手段と、備え、映像区間選択手段が、分割映像選択手段と、調整手段と、分割映像連結手段と、を備える構成とした。

かかる構成により、要約映像生成装置は、映像分割手段により、番組映像、ＤＶＤ等の映像である元映像を入力して、入力した映像の場面の区切りとなるショットの位置を検出して、そのショットの単位を映像単位として分割映像を生成する。そして、要約映像生成装置は、映像解析手段により、元映像を分割した分割映像ごとにキーフレームを予め設定した条件で抽出し、抽出したキーフレームについて特徴を示すブロック領域を検出し、検出したブロック領域をここでは視覚単語とみなしている。

さらに、要約映像生成装置は、映像解析手段により、検出した特徴であるブロック領域（局所領域）を特徴量ごとに区分するようにして当該特徴量の種類を解析する。例えば、特徴量としては、勾配ヒストグラム（例えば輝度勾配ヒストグラム）を視覚単語（ブロック領域）の種類として解析する。また、映像解析手段では、キーフレームの小領域におけるテクスチャや色等を、ブロック領域における種類を区分するための特徴量として利用することができる。

そして、要約映像生成装置は、映像評価手段により、視覚単語（ブロック領域の特徴量）の種類のそれぞれに対して、当該特徴量が前記元映像において特徴的であることを識別する予め定めた指標、例えば、ＴＦ−ＩＤＦ、ＴＦ−Ｓ等の手法により、評価基準となるスコアを演算する。すなわち、映像評価手段は、分割映像内で抽出したキーフレーム全部についてのスコアの総和を算出することで、分割映像の単位で当該分割映像が元映像において特徴的であるか否かを評価するための基準とする。さらに、要約映像生成装置は、映像区間選択手段により、評価された分割映像のスコアに基づいて、当該スコアの高い順で映像時間が早い方から要約映像の時間長となるように、元映像から分割映像の映像区間の映像を選択することで要約映像を生成する。
このとき、要約映像生成装置は、分割映像選択手段により、算出されたスコアに基づいて要約映像の時間長となるまで、元映像から分割映像の映像区間を選択する。そして、要約映像生成装置は、調整手段により、選択された分割映像について予め設定された当該分割映像の時間的に前後となる所定分割映像範囲にある分割映像のスコアを引き下げる調整を行う。そして、要約映像生成装置は、分割映像連結手段により、調整されたスコアに基づいて、分割映像選択手段で選択された分割映像を映像時間が早い方から連結して要約映像を生成する。

本発明の請求項２に係る要約映像生成装置は、元映像から当該元映像よりも映像時間が短い時間長となる要約映像を生成する要約映像生成装置であって、ストリーム分離手段と、映像分割手段と、映像解析手段と、映像評価手段と、文字情報抽出手段と、形態素解析手段と、音声評価手段と、映像区間選択手段と、を備え、映像区間選択手段が、スコア統合手段と、分割映像選択手段と、調整手段と、分割映像連結手段と、を備える構成とした。

かかる構成において、要約映像生成装置は、ストリーム分離手段により、元映像から映像ストリームと、音声ストリームとをそれぞれ分離する。そして、要約映像生成装置は、映像分割手段により、映像ストリームからショットの単位となる映像単位ごとに分割した分割映像を生成する。そして、要約映像生成装置は、映像解析手段により、分割映像ごとにキーフレームを予め設定した条件で抽出し、抽出したキーフレームについて特徴を示すブロック領域を検出し、検出したブロック領域を視覚単語とみなす。そして、要約映像生成装置は、映像評価手段により、ブロック領域（視覚単語）の特徴量の種類を区分して解析し、その視覚単語のそれぞれを分割映像ごとに評価基準のスコアで評価する。

さらに、要約映像生成装置は、文字情報抽出手段により、音声ストリームから音声を認識して文字データを抽出し、抽出した文字データを形態素解析手段により形態素解析する。そして、要約映像生成装置は、音声評価手段により、形態素解析した文字データについて、当該文字データが前記元映像において特徴的であることを識別する予め定めた指標、例えば、ＴＦ−ＩＤＦ、ＴＦ−Ｓ等の手法により、評価基準となるスコアを演算する。さらに、要約映像生成装置は、映像区間選択手段により、映像評価手段で求めたスコアと音声評価手段で求めたスコアを合算し、合算して求めたスコアに基づいて、当該スコアの高い順で映像時間が早い方から要約映像の時間長となるように、元映像から分割映像の映像区間の映像を選択することで要約映像を生成する。
このとき、要約映像生成装置は、要約映像生成装置は、スコア統合手段により、映像評価手段で算出したスコア及び音声評価手段で算出したスコアを合算する。そして、要約映像生成装置は、分割映像選択手段により、算出されたスコアに基づいて要約映像の時間長となるまで、元映像から分割映像の映像区間を選択する。そして、要約映像生成装置は、調整手段により、選択された分割映像について予め設定された当該分割映像の時間的に前後となる所定分割映像範囲にある分割映像のスコアを引き下げる調整を行う。そして、要約映像生成装置は、分割映像連結手段により、調整されたスコアに基づいて、分割映像選択手段で選択された分割映像を映像時間が早い方から連結して要約映像を生成する。

本発明の請求項３に係る要約映像生成装置は、請求項１又は請求項２に記載の要約映像生成装置において、映像解析手段が、前記ブロック領域を特徴量ごとの種類によりクラスタリングするクラスタリング手段をさらに備え、前記映像評価手段は、前記クラスタリング手段でクラスタリングした種類の前記特徴量について前記スコアを算出する構成とした。

かかる構成により要約映像生成装置は、映像解析手段で映像を解析するときにブロック領域（視覚単語）の特徴量をそれぞれの種類とし、そのブロック領域（視覚単語）の特徴量の区分けしたときの数を、クラスタリング手段により、ブロック領域（視覚単語）の特徴量についてクラスタリングして、映像評価手段で評価する対象となるブロック領域（視覚単語）の特徴量の種類の数を減らしてスコアを算出する。

本発明の請求項４に係る要約映像生成装置は、請求項１から請求項３のいずれか一項に記載の要約映像生成装置において、前記映像解析手段が、前記分割映像のフレーム画像ごとに動きベクトル量を算出し、前記動きベクトル量の累計が前記分割映像の総動きベクトル量を予め定めた数で等分した累計に達したときのフレーム画像を順次、前記キーフレームとして抽出する構成とした。

かかる構成により、要約映像生成装置は、映像解析手段により、分割映像のフレーム画像において、動きベクトル量の累計から等分するようにキーフレームを選ぶことで、動きベクトル量の差が大きい部分を、動きベクトル量の差が小さいフレーム画像よりも多くキーフレームとして抽出することができる。

本発明の請求項５に係る要約映像生成装置は、請求項２に記載の要約映像生成装置において、文字情報抽出手段が文字データ検出手段をさらに備える構成とした。

かかる構成により、要約映像生成装置は、データストリームに、例えばクローズドキャプション等の文字データが存在する場合には、文字データ検索手段により、映像ストリームに対して付されているクローズドキャプションを文字データとして検出して形態素解析手段に出力する。また、要約映像生成装置は、データストリームに文字データが存在しない場合には、音声認識手段により、音声ストリームから音声認識を行い、文字データを生成して形態素解析手段に文字データを出力する。

本発明の請求項６に係る要約映像生成プログラムは、元映像から当該元映像よりも映像
時間が短い時間長となる要約映像を生成するためにコンピュータを、映像分割手段、映像
解析手段、映像評価手段、映像区間選択手段、として機能させる構成とした。

かかる構成により、要約映像生成プログラムは、映像分割手段により、元映像を入力して、入力した映像のショットの単位を映像単位として分割映像を生成する。そして、要約映像生成プログラムは、映像解析手段により、分割映像ごとにキーフレームを抽出し、抽出したキーフレームについて特徴を示すブロック領域を検出し、検出したブロック領域（視覚単語）について、当該ブロック領域の種類を特徴量ごとに、例えば、予め設定された勾配ヒストグラムにより区分して解析する。そして、要約映像生成プログラムは、映像評価手段により、ブロック領域（視覚単語）の特徴量の種類のそれぞれについて、当該特徴量が前記元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして分割映像の単位で評価する。そして、要約映像生成プログラムは、映像区間選択手段により、評価された分割映像のスコアに基づいて、当該スコアの高い順で映像時間が早い方から要約映像の時間長となるように、元映像から分割映像の映像区間の映像を選択することで要約映像を生成する。
このとき、映像区間選択手段は、元映像から、分割映像の映像区間の映像を選択するたびに、選択した分割映像の時間的に前後となる予め設定された設定分割映像範囲について、当該設定分割映像範囲にある分割映像のスコアを引き下げることとする。

本発明の請求項７に係る要約映像生成プログラムは、元映像から当該元映像よりも映像時間が短い時間長となる要約映像を生成するためにコンピュータを、ストリーム分離手段、映像分割手段、映像解析手段、映像評価手段、文字情報抽出手段、形態素解析手段、音声評価手段、映像区間選択手段、として機能させる構成とした。

かかる構成により要約映像生成プログラムは、ストリーム分離手段により元映像から映像ストリームと、音声ストリームとを分離する。そして、要約映像生成プログラムは、映像分割手段により、映像ストリームからショットの単位となる分割映像を生成する。そして、要約映像生成プログラムは、映像解析手段により、生成した分割映像からキーフレームを抽出してその特徴となるブロック領域（視覚単語）を検出し、当該ブロック領域（視覚単語）を予め設定された、例えば、勾配ヒストグラムで種類を表わすように特徴量ごとに区分して解析する。さらに、要約映像生成プログラムは、映像評価手段により、ブロック領域（視覚単語）の特徴量のそれぞれに対して、当該ブロック領域が前記元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして算出している。なお、要約映像生成プログラムは、例えば、ＴＦ−ＩＤＦ、ＴＦ−Ｓ等の手法により演算して求めることで当該スコアを算出している。

そして、要約映像生成プログラムは、文字情報抽出手段により、ストリーム分離手段により分離された音声ストリームから音声認識して文字データを抽出し、形態素解析手段により、抽出した文字データを形態素解析する。さらに、要約映像生成プログラムは、音声評価手段により、映像単位ごとに特徴のある前記単語が前記元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして算出する。なお、スコアを算出する場合には、例えば、ＴＦ−ＩＤＦ、ＴＦ−Ｓ等の手法を用いることができる。そして、要約映像生成プログラムは、映像区間選択手段により、映像評価手段で求めたスコアと音声評価手段で求めたスコアを合算したスコアに基づいて、当該スコアの高い順で映像時間が早い方から要約映像の時間長となるように、元映像から分割映像の映像区間の映像を選択することで要約映像を生成する。
このとき、映像区間選択手段は、元映像から、分割映像の映像区間の映像を選択するたびに、選択した分割映像の時間的に前後となる予め設定された設定分割映像範囲について、当該設定分割映像範囲にある分割映像のスコアを引き下げることとする。

本発明は、以下に示すような優れた効果を奏するものである。
請求項１、６に記載の発明によれば、映像の特徴を示すブロック領域について、あたかも単語（視覚単語）の種類のように扱うことで、元映像からハードディスクレコーダなどの録画機器において自動的に要約映像を生成することが可能となり、ユーザはその要約映像から判断して素早く目的の映像を選択することが可能となる。
また、映像制作者においては、映像販売のための見本映像を自動生成することが可能となり、製作者の負担を軽減することができる。特に、大量の映像を処理する場合には、大きな効果を期待できる。
また、本発明によれば、分割映像を元映像の全体からバランスよく選択することが可能となる。

請求項２、７に記載の発明によれば、分割映像における映像と音声の両方の情報から、要約映像を生成することができ、より適切な分割映像を選択して要約映像を生成することが可能となる。また、本発明によれば、分割映像を元映像の全体からバランスよく選択することが可能となる。
請求項３に記載の発明によれば、ブロック領域（視覚単語）の特徴量について区分けされる種類の数がクラスタリング手段により適切に抑制されるので、視覚単語の分布が疎となる状態を抑制し、適切に特徴となる分割映像を選択することができる。

請求項４に記載の発明によれば、分割映像の動きの大きなフレーム画像をキーフレームとして抽出でき、分割映像ごとの評価をより適切に行なうことが可能となる。

請求項５に記載の発明によれば、データストリームにクローズドキャプションのような文字データが存在した場合、当該文字データを利用することで、音声認識を行う負荷を軽減させることができる。

本発明に係る要約映像生成装置の構成を示すブロック図である。本発明に係る要約映像生成装置の構成の詳細を示すブロック図である。（ａ）、（ｂ）は、本発明に係る要約映像生成装置におけるキーフレーム抽出手段の抽出手法を示す説明図である。本発明に係る要約映像生成装置の全体の動作を示すフローチャートである。本発明に係る要約映像生成装置の映像基本単位となる分割映像を生成する動作を示すフローチャートである。本発明に係る要約映像生成装置の分割映像を解析する動作を示すフローチャートである。本発明に係る要約映像生成装置の分割映像を選択してスコアを調整しながら連結する動作を示すフローチャートである。本発明に係る他の要約映像生成装置の構成を示すブロック図である。本発明に係る他の要約映像生成装置の構成の詳細を示すブロック図である。本発明に係る他の要約映像生成装置の全体の動作を示すフローチャートである。本発明に係る他の要約映像生成装置の文字情報抽出手段の動作を示すフローチャートである。本発明に係る他の要約映像生成装置の分割映像を選択する動作を示すフローチャートである。

以下、本発明に係る要約映像生成装置について、図面を参照して説明する。なお、はじめに映像データのみから要約映像を生成する構成及び動作について図１〜図７を参照して説明し、次に、映像データ（映像ストリーム）、音声ストリーム及びデータストリームを備える映像から要約映像を生成する構成及び動作について、図８〜図１２を参照して説明する。

［要約映像生成装置の構成］
まず、図１（図２）を参照して、本発明の実施形態に係る要約映像生成装置１の構成について説明する。要約映像生成装置１は、ＭＥＰＧ２ストリームのようなデジタル放送番組映像の映像を入力して、その入力した映像より映像時間が短い時間長となる要約映像を生成して出力するものである。この要約映像生成装置１は、入力手段２と、映像分割手段４と、映像解析手段５と、映像評価手段６と、映像区間選択手段８と、出力手段９とを備え、さらに、分割映像を記憶する記憶手段７と、外部入力手段１０により要約映像の時間長を設定する目標長さ設定手段１１とを備えている。

入力手段２は、元映像となる映像データ（映像ストリーム）を外部から入力するものである。ここでは、入力手段２は、外部から放送波あるいは通信により放送番組の映像を入力するものであることとした。この入力手段２は、入力される映像として、例えば、インターネット等のネットワークから入力される映像であってもよいし、放送波等を介して入力される映像であることや、あるいは、ＤＶＤ、ＣＤ等の映像であってもよい。この入力手段２で入力された映像は、映像分割手段４に出力される。

映像分割手段４は、入力された映像データをショット（カット）ごとに分割するものである。ここで、ショットとは、一台のカメラで連続して撮影されたフレーム列（映像区間）をいう。この映像区間の切れ目では映像が大きく切り替わるため、映像分割手段４は、例えば、図示しない区間映像抽出部によって抽出された映像を構成する前後のフレーム画像間の色の差分をとり、差分の値が大きいときに映像を分割することで、抽出された映像をショットに分割することができる。この映像分割手段４で分割された分割映像は、要約映像を生成するための映像の基本単位（映像基本単位）となる。

なお、映像分割手段４は、例えば、フレーム画像間の周波数特徴の差分をとり、差分が大きい場合に映像を分割することとしてもよいし、また、フレーム画像を複数の小領域に分割し、各小領域が次のフレーム画像においてどの位置に移動したのかを調べるブロックマッチングを行い、移動先が特定できなかった小領域数が所定値より多い場合に映像を分割することとしてもよい。映像分割手段４で分割されたショットを映像単位とする分割映像には、ショットの始まりと終わりの時間情報が分割映像ごとに付される。

また、分割映像は、必要に応じて映像時間長及び元映像の先頭から何番目であるかの映像開始時間の早い順序を示す情報を併せて付しても構わない。映像分割手段４で分割された分割映像は、映像解析手段５及び記憶手段７に出力される。

映像解析手段５は、映像分割手段４で分割された分割映像からキーフレームを抽出してそのキーフレーム画像の特徴となるブロック領域を視覚単語（ｖｉｓｕａｌｗｏｒｄ）としてみなすようにして解析するものである。つまり、この映像解析手段５では、特徴となるキーフレームのブロック領域を視覚単語とみなし単語のような扱いをすることで、単語で使用されている手法を用いて、映像評価手段６と併せて単語（視覚単語）の重要度を算出して映像を評価するようにしている。

なお、ここで、キーフレームとは、分割映像を解析するために、分割映像内から部分的に抽出するフレーム画像である。
ここでは、映像解析手段５は、映像分割手段４で分割された各分割映像から予め設定された条件によりキーフレームを抽出する。そして、映像解析手段５は、その抽出したキーフレームのフレーム画像内の特徴となるブロック領域を視覚単語とみなし、その視覚単語（ブロック領域）の種類を特徴量ごとに区分するため、予め設定された勾配ヒストグラムを用い映像を解析し、映像評価手段６に解析した分割映像ごとのキーフレームを評価したスコアを出力する。映像解析手段５は、ここでは、図２に示すように、キーフレーム抽出手段５ａ、特徴ブロック領域抽出手段５ｂ及びクラスタリング手段５ｃを備えている。

キーフレーム抽出手段５ａは、入力された分割映像から予め設定された条件でキーフレームを抽出するものである。このキーフレーム抽出手段５ａは、例えば、分割映像の中で動きが激しい部分をより多く抽出するために、動きベクトルに基づいて分割映像からキーフレームを抽出する。このキーフレーム抽出手段５ａにより抽出されたキーフレームは、特徴ブロック領域抽出手段５ｂに出力される。

ここで、図３を参照して、キーフレーム抽出手段５ａが、動きベクトルに基づいてキーフレームを抽出する手法について説明する。
図３（ａ）は、横軸に分割映像（映像基本単位）の時間（フレーム画像単位）を示し、縦軸にフレーム画像ごとの動きベクトル量を示している。また、図３（ｂ）は、横軸に分割映像（映像基本単位）の時間（フレーム画像単位）を示し、縦軸にフレーム画像ごとの動きベクトル量の累計を示している。なお、この図３（ｂ）では、映像基本単位の動きベクトル累計を、予め定めたキーフレームの数で等分し、その等分した累計に対応したフレーム画像をキーフレームとして選択した例を示している。

図３（ａ）に示すように、キーフレーム抽出手段５ａは、分割映像のフレーム画像ごとに、動きベクトル量を算出する。すなわち、キーフレーム抽出手段５ａは、フレーム画像の予め定めたブロック（例えば、マクロブロック）ごとに、前フレーム画像との動きの差（動きベクトル）を、フレーム画像内で累計し、当該フレーム画像の動きベクトル量とする。

そして、図３（ｂ）に示すように、キーフレーム抽出手段５ａは、動きベクトル量を累計して、分割映像（映像基本単位）内の総動きベクトル量を、予め定めたキーフレームの数で等分する。そして、キーフレーム抽出手段５ａは、動きベクトル量累計が、等分した累計に達したときのフレーム画像を順次キーフレームとして抽出する。、
これによって、図３（ｂ）に示すように、動きベクトル量が大きく変化する（動きが激しい）時間区間で、より多くのキーフレームを抽出することができ、映像基本単位内で特徴となるフレーム画像をより多く選択することができる。
なお、キーフレームの抽出数は、任意に設定することができる。例えば、分割映像（映像基本単位）の時間長に対応してキーフレームの数を予め定めておく。キーフレームの数が多ければ、評価するときに緻密に評価できるが、処理速度が遅くなるので、処理速度と正確な評価を行えるフレーム数を予め統計により定めておくことが望ましい。

図１（図２）に戻って、要約映像生成装置１の構成について説明を続ける。
特徴ブロック領域抽出手段５ｂは、抽出されたキーフレームのフレーム画像の特徴を示すブロック領域を検出し、検出したブロック領域を視覚単語とみなし、その視覚単語の種類を利用して視覚単語の分類を行い、分割映像ごとにどのような種類の視覚単語がいくつ含まれているかを解析するものである。解析した分割映像ごとのキーフレームにおける視覚単語は、映像評価手段６に出力される。この特徴ブロック領域抽出手段５ｂは、ここでは、キーフレーム画像特徴検出手段５ｂ_１と、勾配ヒストグラム生成手段５ｂ_２とを備えている。

キーフレーム画像特徴検出手段５ｂ_１は、入力されるキーフレームのフレーム画像における特徴を検出して、検出した特徴の部分（ブロック領域）を視覚単語とみなし（扱うようにし）ている。このキーフレーム画像特徴検出手段５ｂ_１は、例えば、フレーム画像の特徴となる局所特徴（例えば、コーナー等）を検出し、特徴点の周辺の局所領域をブロック領域（視覚単語）として特定する。このキーフレーム画像特徴検出手段５ｂ_１は、ブロック領域（視覚単語）を特定する情報（例えば、画像座標）を勾配ヒストグラム生成手段５ｂ_２に出力する。

勾配ヒストグラム生成手段５ｂ_２は、予め設定された輝度、色等の特徴に対して勾配ヒストグラムにより視覚単語の種類を生成するものである。この勾配ヒストグラム生成手段５ｂ_２は、ここでは例えば、キーフレーム画像特徴検出手段５ｂ_１で検出されたブロック領域（視覚単語）における輝度についての勾配ヒストグラムを視覚単語の種類として生成する。

なお、特徴点の検出や勾配ヒストグラムの算出には、既存のSIFT（David G Lowe,” Object recognition from local scale-invariant features, ” In Proc.IEEE International Conference on Computer Vision, vol.2, pp.1150-1157,1999.）や、あるいは、既存のSURF(Herbert. Bay, Tinne Tuytelaars, and L Van Gool,” SURF : Speeded Up Robust Features, ” In Proc. European Conference on Computer Vision, vol. 3951, pp 404-417,2006)等の技術を利用することができる。

このキーフレーム画像特徴検出手段５ｂ_１及び勾配ヒストグラム生成手段５ｂ_２を備える特徴ブロック領域抽出手段５ｂは、検出した特徴となる部分（ブロック領域：局所領域）を視覚単語としてみなし、当該視覚単語の特徴量ごとに区分して視覚単語の種類とみなすことで、視覚単語で用いることができる手法を使用できるようにしている。

なお、勾配ヒストグラムを画像の特徴とした場合、次元数が高く、ブロック領域（視覚単語）の分布が疎になる場合がある。そこで、特徴ブロック領域抽出手段５ｂが抽出するブロック領域（視覚単語）の特徴について、ここでは、常に、後記するクラスタリング手段５ｃによりクラスタリングするように構成している。

クラスタリング手段５ｃは、視覚単語とみなしたフレーム画像のブロック領域における特徴の種類を予め設定されているクラスタリングの条件で分類（クラスタリング）するものである。これによって、ブロック領域（視覚単語）の分布が疎になることを回避することができる。このクラスタリング手段５ｃは、ブロック領域の特徴を、予め設定されているクラスタ数にクラスタリングして、そのクラスタリングされた分割映像ごとの視覚単語を映像評価手段６に出力する。なお、クラスタリング手段５ｃでは、例えば、すでに知られているｋ平均法等が利用できる。

映像評価手段６は、分割映像ごとに視覚単語の種類（特徴量）について、元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして算出するものである。この映像評価手段６は、映像解析手段５で解析された視覚単語ごとの出現傾向に基づいて、分割映像（映像基本単位）ごとにスコアを与えている。映像評価手段６では、視覚単語の集合として分割映像ごとに表現されているため、従来の言語処理における手法を利用することが可能となる。そして、この映像評価手段６は、例えば、言語処理で代表的なＴＦ−ＩＤＦ（term frequency-inverse document frequency）によって評価することができる。ここで、ＴＦ−ＩＤＦは、情報探索やテキストマイニングなどの分野で利用され、文書中に出現した特定の単語がどのくらい特徴的であるかを識別するための指標である。

なお、式（１）において、ｔｆ（ｔ，ｄ）は映像基本単位（分割映像）ｄに含まれる視覚単語ｔの出現頻度を表わし、Ｎは番組（元映像）における映像基本単位の総数を表わし、ｄｆ（ｔ）は視覚単語ｔが含まれる映像基本単位の総数を表わす。また、式（１）において算出されるスコアは、視覚単語ｔの出現頻度（出現回数）である指標（ＴＦ）と、一種の一般語フィルタ（ＩＤＦ）とにより算出するスコアであり、ＩＤＦにより、多くの映像基本単位に出現する語（一般的な語）は重要度が下がり、特定の映像基本単位にしか出現しない単語（視覚単語）の重要度を上げる役割が果たされたスコア（ｔｆｉｄｆ（ｔ，ｄ））となる。

ここでは、映像評価手段６は、映像基本単位内に含まれる視覚単語の種類ごとのＴＦ−ＩＤＦの総和を求め、映像基本単位の長さあるいは映像基本単位内に出現した視覚単語の総数によって正規化することにより、映像基本単位（分割映像ごと）のスコアを算出する。これによって、映像評価手段６は、視覚的に特徴のある映像基本単位に対して高いスコアを与えることができる。この映像評価手段６において分割映像ごとに算出されたスコアは、映像区間選択手段８に出力される。

記憶手段７は、分割映像を記憶するもので、ハードディスク、光磁気ディスク等の一般的な映像等のデータを記憶する手段である。なお、ここでは、記憶手段７には、分割映像が、分割映像ごとの時間長、分割された始点時間及び終点時間の時間情報と共に記憶される。

映像区間選択手段８は、映像評価手段６により評価された分割映像のスコアの高い順で映像時間が早い方から要約映像の時間長となるまで、元映像から分割映像の映像区間の映像を順次選択するものである。この映像区間選択手段８は、外部入力手段１０により予め目標長さ設定手段１１を介して設定された要約映像の目標長さとなるように、記憶手段７に記憶されている分割映像から、映像評価手段６からのスコアに基づいて、スコアの高い分割映像を選択し、その選択した分割映像を並び替えて連結して要約映像を生成する。ここでは、図２に示すように、映像区間選択手段８は、分割映像選択手段８ｂと、分割映像連結手段８ｃと、調整手段８ｄと、メモリ８ｅとを備えている。

分割映像選択手段８ｂは、映像評価手段６により分割映像ごとに算出されたスコアを参照して、そのスコアの高い順に記憶手段７から、予め設定された要約映像の時間長となるまで分割映像を選択するものである。この分割映像選択手段８ｂは、ここでは、スコアの高い分割映像を選択すると、元映像のうちの何番目の分割映像であるかを示す情報（例えば、分割時間情報、分割映像番号情報等）を調整手段８ｄに出力する。そして、分割映像選択手段８ｂは、メモリ８ｅに記憶されている元映像の分割映像ごとのスコアから次に高い値が付された分割映像を選択し、その結果（分割時間情報、分割映像番号情報等）を調整手段８ｄに出力する。

また、分割映像選択手段８ｂは、分割映像の時間長を合計した値が予め設定された要約映像の時間長となるまで分割映像のスコアに基づいて分割映像を選択する。分割映像選択手段８ｂにより選択された分割映像を示す情報（分割時間情報、分割映像番号情報等）は、分割映像連結手段８ｃに出力され、予め設定された要約映像の時間長となるまで、分割映像連結手段８ｃに出力される。

調整手段８ｄは、分割映像選択手段８ｂで選択された分割映像の元映像における何番目かの情報（例えば、分割時間情報、分割映像番号情報等）を基準として、その選択された分割映像の基準に対して時間方向における前後所定範囲の分割映像に付されたスコアを引き下げるものである。この調整手段８ｄは、選択された分割映像に対してスコアを引き下げる対象となる所定範囲が予め設定されると共に、スコアの値をどれだけ引き下げるかが予め設定されている。

例えば、調整手段８ｄは、選択された分割映像に対してその前後時間方向に１０ずつの分割映像について、それらの分割映像のスコアを１／２にする等の調整を行う。この調整手段８ｄでスコアが引き下げられて調整がなされた分割映像のスコアは、メモリ８ｅに送られて更新されて記憶される。そして、調整手段８ｄによって調整した分割映像のスコアによりメモリ８ｅが記憶している分割映像のスコアが書き換えられ、その書き換えられた分割映像のスコアに基づいて、全体の中で次に高いスコアとなる分割映像を、分割映像選択手段８ｂが選択するようになる。

メモリ８ｅは、記憶手段７に記憶されている分割映像（分割映像番号）ごとのスコアの値を記憶するものであり、半導体メモリ等の一般的な記憶媒体である。このメモリ８ｅは、調整手段８ｄによって調整されたスコアの値によって書き換えられて更新される。

分割映像連結手段８ｃは、分割映像選択手段８ｂにより選択された分割映像を、映像時間が早い方から並べて連結する。この分割映像連結手段８ｃは、分割映像の開始時間Ｔ_１〜Ｔ_ｎ（あるいは分割映像番号情報）を基準にして早い方から並べて連結し、連結して生成した要約映像を、出力手段９を介して出力する。なお、出力された要約映像は、図示しないハードディスク等に、元映像と紐付けされて記憶される。
以上のように要約映像生成装置１を構成することで、映像のジャンル等にかかわらず、映像に含まれる視覚的特徴によって、要約映像を生成することができる。

［要約映像生成装置の動作］
次に、本発明に係る要約映像生成装置１の動作について説明する。ここでは、要約映像生成装置１の全体動作の概略について先に説明し、個別の手段における詳細動作についてはその後に説明することとする。

（全体動作）
まず、図４を参照（構成については、適宜図２参照）して、要約映像生成装置１の全体動作について説明する。
まず、要約映像生成装置１は、元映像を、入力手段２を介して入力し映像分割手段４により映像基本単位となる分割映像に分割する（ステップＳ１）。このとき、映像分割手段４は、シーンの区切りで映像を分割して映像基本単位としている。

そして、要約映像生成装置１は、映像解析手段５により、ステップＳ１で分割された分割映像ごとにキーフレームを抽出し、抽出したキーフレームのフレーム画像の特徴（特徴点）となるブロック領域を検出し、検出したブロック領域を視覚単語とみなし、勾配ヒストグラムで視覚単語の種類を区分けするように解析する（ステップＳ２）。このような解析を行う動作を映像解析手段５が全ての分割映像（映像基本単位）におけるキーフレームについて行う（ステップＳ３）。

そして、要約映像生成装置１は、映像評価手段６により、ステップＳ２で解析された視覚単語について分割映像ごとにスコアを算出し付与する（ステップＳ４）。全ての分割映像（映像基本単位）についてスコアが算出されるまで繰り返し映像評価手段６の処理が行われる（ステップＳ５）。
さらに、要約映像生成装置１は、映像区間選択手段８により、ステップＳ４で算出されたスコアの値に基づいて、元映像の分割映像が記憶されている記憶手段７から、当該スコアが高い映像区間（分割映像）を選択し、さらに、ここではスコアの調整を行い、選択された分割映像を映像時間が早い方から並べて、予め設定された時間長となるまで連結することで要約映像を生成する（ステップＳ６）。
以上の動作によって、要約映像生成装置１は、映像に含まれる視覚的特徴によって、要約映像を生成する。

（映像基本単位分割動作）
次に、図５を参照（構成については、適宜図２参照）して、要約映像生成装置１の映像分割手段４において分割映像（映像基本単位）を生成する動作について詳細に説明する。なお、この動作は、図４で説明した要約映像生成装置１の全体動作のうちのステップＳ１の動作に相当する。

まず、要約映像生成装置１は、映像がフレーム画像単位で映像分割手段４に入力されると（ステップＳ１１）、映像分割手段４によって、元映像からショットを検出する（ステップＳ１２）。例えば、映像分割手段４は、フレーム画像間の色の差分をとり、差分が予め設定された閾値より大きいときには、ショットの区間として検出する。
さらに、要約映像生成装置１は、映像分割手段４によって、ステップＳ１２で検出したショットごとに、映像基本単位である分割映像として映像を分割する（ステップＳ１３）。なお、映像分割手段４は、分割映像ごとにショットの初めと終わりの時間情報を付すこととする。そして、全フレームの処理が終了していない場合（ステップＳ１４でＮｏ）、ステップＳ１２に戻って前記した同じ処理を繰り返し行い、元映像の全てのフレームについて処理する（ステップＳ１４でＹｅｓ）。
この動作によって、要約映像生成装置１は、元映像からショット単位で、映像基本単位となる分割映像を生成することができる。

（分割映像解析動作）
次に、図６を参照（構成については、適宜図２参照）して、要約映像生成装置１の映像解析手段５において、分割映像（映像基本単位）における視覚単語の種類を解析する動作について詳細に説明する。なお、この動作は、図５で説明した要約映像生成装置１の全体動作のうちのステップＳ２の動作に相当する。

まず、分割映像が映像解析手段５に入力されると、要約映像生成装置１は、キーフレーム抽出手段５ａにより、予め設定された条件でキーフレームを抽出する（ステップＳ２１）。例えば、キーフレーム抽出手段５ａは、動きの激しい部分のフレーム画像をより多くキーフレームとして抽出する。
そして、要約映像生成装置１は、特徴ブロック領域抽出手段５ｂのキーフレーム画像特徴検出手段５ｂ_１により、ステップＳ２１で抽出されたキーフレームのフレーム画像の特徴となるブロック領域を検出する（ステップＳ２２）。このステップＳ２２で検出されたブロック領域を視覚単語としてみなして扱うようにする。

このステップＳ２２においてブロック領域が検出されて視覚単語とみなされた後、要約映像生成装置１は、勾配ヒストグラム生成手段５ｂ_２により、視覚単語の勾配ヒストグラムを生成する（ステップＳ２３）。ここでは、勾配ヒストグラム生成手段５ｂ_２は、輝度勾配ヒストグラムを生成する。この輝度勾配ヒストグラムが視覚単語の種類として扱われることになる。

このステップＳ２３においてブロック領域の特徴量に対して輝度勾配ヒストグラムが生成されると、要約映像生成装置１は、クラスタリング手段５ｃにより輝度勾配ヒストグラムの分類を予め設定した種類の範囲（クラスタ数）に絞りこんで、視覚単語の種類を生成する処理を行う（ステップＳ２４）。そして、要約映像生成装置１では、全キーフレームに対して視覚単語の種類を割り当てるまで処理を繰り返し行い（ステップＳ２５でＮｏ）、全キーフレームに対してステップＳ２２〜Ｓ２４の処理が終了したら（ステップ２５でＹｅｓ）、分割映像の解析処理を終了する。

（映像区間選択・連結動作）
次に、図７を参照（構成については、適宜図２参照）して、要約映像生成装置１の映像区間選択手段８において、映像区間を選択し、連結する動作について詳細に説明する。なお、この動作は、図５で説明した要約映像生成装置１の全体動作のうちのステップＳ６の動作に相当する。

まず、映像評価手段６から分割映像ごとのスコアが映像区間選択手段８に入力されると、要約映像生成装置１は、映像区間選択手段８の分割映像選択手段８ｂにより、記憶手段７に記憶されている分割映像のうちで、スコアの最も高い分割映像を選択する（ステップＳ６１）。なお、分割映像ごとの全てのスコアは、メモリ８ｅにも送られて記憶されるものとする。分割映像が選択されると、分割映像選択手段８ｂは、調整手段８ｄにどの分割映像を選択したかを示す情報（映像開始時間、分割映像の番号等の選択した分割映像が特定できる情報でも可）を出力する。

その後、要約映像生成装置１は、調整手段８ｄにより、メモリ８ｅに記憶されている各分割映像のスコアに対して、選択された分割映像から時間方向に前後となる所定範囲、例えば、１０ずつの分割映像のスコアを１／２となるように調整する（ステップＳ６２）。この調整手段８ｄは、どの範囲の分割映像をどれだけスコアを引き下げるかが外部から予め設定されているものとする。これによって、次に、分割映像を選択する際に、すでに選択された分割画像と時間的に近い分割画像が選択されにくくなる。

そして、要約映像生成装置１は、分割映像選択手段８ｂにより、ステップＳ６１で順次選択された分割映像の時間長の合計が、予め設定されている目標長さであるか否かが判定され（ステップＳ６３）、まだ目標長さに達していない場合（ステップＳ６３でＮｏ）、ステップＳ６１に戻ってステップＳ６１，Ｓ６２の動作を繰り返す。
一方、選択された分割映像の時間長の合計が、目標長さを越えた場合（ステップＳ６３でＹｅｓ）、要約映像生成装置１は、分割映像連結手段８ｃにより、ステップＳ６１で選択された分割映像を映像時間の早い方から並べて連結する（ステップＳ６４）。なお、このとき、目標長さを超過した映像については、カットすることとしてもよい。

以上説明したように、要約映像生成装置１では、映像を映像基本単位にしてキーフレームから特徴を分析して視覚単語とし、その視覚単語の種類に対して、元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアを算出して特徴のある分割映像を選択している。つまり、要約映像生成装置１では、映像の特徴のあるブロック領域を含む分割映像を選択して要約映像を生成するので、映像のジャンル等によることなく汎用的に要約映像を生成することができる。

［要約映像生成装置の他の構成］
次に、本発明の他の実施形態に係る要約映像生成装置の構成について説明する。図１（図２）で説明した要約映像生成装置１は、映像のデータ（映像ストリーム等）から要約映像を生成するものであったが、映像及び音声のデータから要約映像を生成するように構成してもよい。

ここで、図８（図９）を参照して、本発明の他の実施形態に係る要約映像生成装置１Ａの構成について説明する。なお、図１（図２）で説明した要約映像生成装置１と同一の構成については、同じ符号を付して説明を省略する。

要約映像生成装置１Ａは、ＭＥＰＧ２ストリームのようなデジタル放送番組映像の映像、映像の音声及び映像の文字データを入力してその入力した情報から、映像及び音声の特徴ある部分を選択して、当該映像より映像時間が短い時間長となる要約映像を生成して出力するものである。この要約映像生成装置１Ａは、入力手段２と、ストリーム分離手段３と、映像分割手段４と、映像解析手段５と、映像評価手段６と、映像区間選択手段８Ａと、出力手段９と、文字情報抽出手段１５と、形態素解析手段１６と、音声評価手段１７と、目標長さ設定手段１１と、を備えている。
入力される映像となる元映像には、少なくとも映像データである映像ストリームと、音声データである音声ストリームがあればよく、さらに、データストリームが文字情報を含んでいれば、要約映像生成装置１Ａでは、その文字情報が使用される。

入力手段２を介して入力された映像は、ストリーム分離手段３により、映像ストリームと、音声ストリームと、データストリームとに分離され、映像ストリームが映像分割手段４に出力され、音声ストリーム及びデータストリームが文字情報抽出手段１５に出力される。ストリーム分離手段３は、例えば、映像がＭＰＥＧ２ＴＳの場合であれば、コンポーネントタグの値により各ストリームを分離する。

ストリーム分離手段３により分離された映像ストリームは、映像分割手段４に入力される。そして、すでに説明したように、要約映像生成装置１Ａは、フレームからショット等を検出して映像基本単位となる分割映像を生成し、映像解析手段５及び映像評価手段６により処理されて分割映像ごとのスコアを算出する。そして、算出された分割映像ごとのスコアは、映像区間選択手段８Ａに出力される。
一方、ストリーム分離手段３により分離された音声ストリームとデータストリームは、文字情報抽出手段１５に入力される。

文字情報抽出手段１５は、入力された音声ストリーム又はデータストリームから文字データを抽出するものである。この文字情報抽出手段１５で抽出された文字データは、形態素解析手段１６に出力される。ここでは、文字情報抽出手段１５は、データストリームから文字データ検索し、あるいは、音声データから文字データを生成する。この文字情報抽出手段１５は、文字データ検出手段１５ａと、音声認識手段１５ｂとを備えている。

文字データ検出手段１５ａは、ストリーム分離手段３で分離されたデータストリームから、クローズドキャプションの文字データを検出するものである。なお、文字データ検出手段１５ａは、データストリーム中にクローズドキャプションがない場合に、音声認識手段１５ｂに信号出力して音声認識を行わせ、また、データストリーム中にクローズドキャプションがある場合に、当該クローズドキャプションから文字データを検出する。この文字データ検出手段１５ａは、クローズドキャプションが検出できたか否かについて、音声認識手段１５ｂに信号を出力して、検出したときには、音声認識処理を行わず、検出できなかったときには、音声認識処理を行わせるようにしている。文字データ検出手段１５ａで検出された文字データは、形態素解析手段１６に出力される。

音声認識手段１５ｂは、ストリーム分離手段３で分離された音声ストリームを音声認識してテキストデータ等の文字データを生成するものである。なお、音声認識手段１５ｂは、文字データ検出手段１５ａからの音声認識を行う旨の信号により、音声ストリームを音声認識する。この音声認識手段１５ｂは、一般的な音声認識装置を用いればよい。音声認識手段１５ｂにより認識された文字データは、形態素解析手段１６に出力される。
文字情報抽出手段１５は、文字データ検出手段１５ａで検出した文字データ（テキストデータ）か、あるいは、音声認識手段１５ｂで音声認識して生成した文字データ（テキストデータ）かのいずれかを形態素解析手段１６に出力する。

形態素解析手段１６は、入力した文字データを形態素解析し、テキストデータを単語（形態素）へ分割するものである。この形態素解析手段１６は、テキストデータを単語（言語で意味を持つ最小単位）に分割する。この形態素解析手段１６で解析された文字データは、音声評価手段１７に出力される。なお、形態素解析手段１６で形態素に分割された文字データは、映像ストリームにおけるどのタイミングで表示あるいは発音されるかの時間情報を付された状態で音声評価手段１７に出力される。また、形態素解析手段１６は、予め設定されている記号や不用語について、除去した後に音声評価手段１７に文字データを出力する。

音声評価手段１７は、入力した文字データの形態素に対して、映像分割手段４から入力される分割映像ごとの単位となる情報により分割映像ごとのスコアを算出するものである。この音声評価手段１７は、映像分割手段４から分割された分割映像の時間情報を入力すると、その分割映像の時間情報ごとに形態素の範囲を区分けして、その区分けした分割映像の単位ごとに特定の文字（形態素）が、元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして算出される。音声評価手段１７は、例えば、すでに説明した式（１）で示すＴＦ−ＩＤＦにより各形態素のスコアを分割映像ごとの単位で算出して評価基準を付す。この音声評価手段１７により算出される分割映像ごとのスコアにより文字データで示されるナレーションや台詞に特徴的な単語が出現する映像基本単位（分割映像）に高いスコアを与えることが可能となる。この音声評価手段１７で算出された分割映像ごとのスコアは、映像区間選択手段８Ａに出力される。

映像区間選択手段８Ａは、映像評価手段６で算出した分割映像ごとのスコアと、音声評価手段１７で算出した分割映像ごとのスコアとを統合して、元映像から分割映像の映像区間を選択する。この映像区間選択手段８は、統合手段８ａと、分割映像選択手段８ｂと、分割映像連結手段８ｃと、調整手段８ｄと、メモリ８ｅとを備えている。なお、分割映像選択手段８ｂ、分割映像連結手段８ｃ、調整手段８ｄ及びメモリ８ｅは、すでに図２で説明したものと同じである。

統合手段８ａは、音声評価手段１７で算出した音声のスコアと、映像評価手段６で算出した映像のスコアとを統合（合計）して、映像基本単位である分割映像ごとのスコアを算出するものである。この統合手段８ａは、スコアの統合の方法として、例えば、重み付き和により統合する方法や、あるいは、重み付き積により統合する方法により統合スコアを算出することができる。
例えば、音声のスコアをｆａ（ｓ）、映像のスコアをｆｖ（ｓ）、重みをα（予め設定された値）としたとき、式（２）により、重み付き和による統合スコアｆ（ｓ）を算出することができ、式（３）により、重み付き積による統合スコアｆ（ｓ）を算出することができる。

この統合手段８ａにより式（２）あるいは式（３）で統合したスコアｆ（ｓ）に基づいて、分割映像選択手段８ｂと、分割映像連結手段８ｃと、調整手段８ｄと、メモリ８ｅとによりスコアｆ（ｓ）を調整しながら分割映像を選択し、選択した分割映像を結合して予め設定した時間長となるように要約映像を生成する。

なお、図２（図９）では、記憶手段７に分割映像を記憶することとし、分割映像選択手段８ｂが記憶手段７から分割映像を選択し、分割映像連結手段８ｃがそれらを連結することとしたが、要約映像生成装置１Ａでは、映像区間選択手段８Ａは、分割映像を示す情報（分割時間情報、分割映像番号情報等）から、入力手段２を介して外部から、対応する分割映像を入力することとすることで、記憶手段７を省略する構成とした。
以上のように要約映像生成装置１Ａを構成することで、映像及び音声によって、特徴のある映像区間を抽出することができ、映像のジャンル等にかかわらず、要約映像を生成することができる。

［要約映像生成装置の動作］
次に、本発明に係る要約映像生成装置１Ａの動作について説明する。ここでは、要約映像生成装置１Ａの全体動作の概略について先に説明し、個別の手段における詳細動作についてはその後に説明することとする。なお、すでに説明したステップは、同じ符号を付してその説明を省略する。

（全体動作）
まず、図１０を参照（構成については、適宜図８，図９参照）して、要約映像生成装置１Ａの全体動作について説明する。
まず、要約映像生成装置１Ａは、ＭＥＰＧ２ストリームのようなデジタル放送番組映像が入力手段２を介して入力されると、ストリーム分離手段３により、映像ストリームと、音声ストリームと、データストリームとに分離する（ステップＳ１Ａ）。そして、ストリーム分離手段３は、分離した映像ストリームを映像分割手段４に出力し、分離した音声ストリーム及びデータストリームを文字情報抽出手段１５に出力する。また、要約映像生成装置１Ａは、すでに説明したように、映像分割手段４により、映像ストリームから、映像基本単位である、例えばショットの単位となる分割映像を生成する（ステップＳ１）。

さらに、要約映像生成装置１Ａは、文字情報抽出手段１５により、データストリームに映像の文字データであるクローズドキャプションがなければ音声ストリームを音声認識手段１５ｂにより音声認識して文字データを生成し、クローズドキャプションがあれば、文字データとして抽出する（ステップＳ２Ａ）。そして、要約映像生成装置１Ａは、ステップＳ２Ａで抽出された文字データが形態素解析手段１６に送られ、形態素解析手段１６により、文字データ（テキストデータ）の形態素解析が行われて文字データが形態素になるように解析する（ステップＳ２Ｂ）。一方、ステップＳ１で分割された分割映像は、映像解析手段５により、すでに説明したようにステップＳ２、Ｓ３の処理が行われ、特徴があるブロック領域を視覚単語とみなすような解析がなされる。

また、要約映像生成装置１Ａは、音声評価手段１７により、ステップＳ２Ｂで解析された文字データの形態素について分割映像ごとにＴＦ−ＩＤＦ等の評価手法を用いて音声の音声スコアを算出し、さらに、映像評価手段６により、ステップＳ２で解析された視覚単語について分割映像ごとにＴＦ−ＩＤＦ等の評価手法を用いて映像の映像スコアを算出する（ステップＳ４α）。そして、映像評価手段６は、映像基本単位となる分割映像におけるスコアの全てが終了するまで（ステップＳ５αでＹｅｓ）、音声スコア及び映像スコアを算出する。

そして、要約映像生成装置１Ａは、音声スコア及び映像スコアが算出されると、映像区間選択手段８Ａにより、音声スコア及び映像スコアを統合手段８ａにより統合したスコアが算出される。そして、要約映像生成装置１Ａは、分割映像選択手段８ｂにより統合したスコアに基づいて、元映像からスコアの高い映像区分となる分割映像が選択される。このとき、要約映像生成装置１Ａは、調整手段８ｄによって、すでに説明したようにスコアの調整が行われ、分割映像連結手段８ｃによって、選択された分割映像が映像時間の早い順に並びかえられて連結され、予め設定された時間長となる要約映像が生成される（ステップＳ６α）。
以上の動作によって、要約映像生成装置１Ａは、映像や音声に含まれる特徴によって、要約映像を生成する。

（文字抽出動作）
次に、図１１を参照（構成については、適宜図９参照）して、要約映像生成装置１Ａの文字情報抽出手段１５において、文字データを抽出する動作について詳細に説明する。なお、この動作は、図１０で説明した要約映像生成装置１Ａの全体動作のうちのステップＳ２Ａの動作に相当する。

まず、要約映像生成装置１Ａは、音声ストリーム及びデータストリームが文字情報抽出手段１５に入力されると、文字データ検出手段１５ａにより、データストリーム中に文字データであるクローズドキャプションが存在するか否かを判定する（ステップＳ２Ａａ）。ここで、データストリーム中にクローズキャプションがある場合（ステップＳ２ＡａでＹｅｓ）、クローズドキャプションを文字データとして検出する（ステップＳ２Ａｂ）。このとき、文字データ検出手段１５ａは、音声認識手段１５ｂに対して、音声認識を行わない旨の指示（信号）を通知する。

一方、データストリーム中にクローズドキャプションがない場合（ステップＳ２ＡａでＮｏ）、音声認識手段１５ｂに音声認識を行う旨の指示（信号）を通知し、音声認識手段１５ｂは、その信号により音声ストリームを音声認識して文字データを生成する（ステップＳ２Ａｃ）。
このように、要約映像生成装置１Ａは、データストリーム中に映像で使用されるクローズドキャプションのような文字データがあった場合、音声認識を行わないため、動作の負荷を軽減することができる。

（映像区間選択・連結動作）
次に、図１２を参照（構成については、適宜図９参照）して、要約映像生成装置１Ａの映像区間選択手段８Ａにおいて、映像区間を選択し、連結する動作について詳細に説明する。なお、この動作は、図１０で説明した要約映像生成装置１Ａの全体動作のうちのステップＳ６αの動作に相当する。

まず、映像評価手段６から出力される分割映像の映像に対する映像のスコアと、音声評価手段１７から出力される音声に対応する文字データである音声のスコアとが映像区間選択手段８Ａに入力されると、要約映像生成装置１Ａは、統合手段８ａにより、両スコアを統合したスコアを算出する（ステップＳ１６ａ）。そして、要約映像生成装置１Ａは、映像基本単位である分割映像について統合したスコアを算出し、全ての分割映像の処理が行われていない場合には（ステップＳ１６ｂでＮｏ）、繰り返しステップＳ１６ａの動作を行う。

そして、要約映像生成装置１Ａは、全映像基本単位となる全ての分割映像についての統合したスコアの算出が終了したら（ステップ１６ｂでＹｅｓ）、分割映像選択手段８ｂにより、元映像からスコアの高い順に映像区間に対応する分割映像を選択する。要約映像生成装置１Ａでは、分割映像を選択するステップＳ１６ｃから、調整手段８ｄによりメモリ８ｅに記憶されている分割映像のスコアの調整を行うステップＳ１６ｄ、要約映像の時間長となるまで繰り返し処理するステップ１６ｅ（Ｙｅｓ、Ｎｏ）、ならびに、分割映像連結手段８ｃにより分割映像を連結するステップＳ１６ｆについては、すでに図７で説明したステップＳ６１〜Ｓ６４と同等の動作を行って要約映像を生成する。

要約映像生成装置１Ａは、以上説明した各ステップにより、映像の特徴と音声の特徴の両方から分割映像となる映像区間を、元映像から選択して生成するので、より特徴を正確に表わす要約映像を生成することが可能となる。

［要約映像生成装置の変形例］
すでに説明した図１，図２で示す要約映像生成装置１と、図９，図１０で示す要約映像生成装置１Ａについて、以下のような構成としてもよい例を説明する。

すなわち、要約映像生成装置１，１Ａは、映像分割手段４において、ショットの単位を映像分割手段４で元映像あるいは映像ストリームから映像基本単位である分割映像として説明したが、映像基本単位は、元映像から均等な時間ごとに分割した映像区分を映像基本単位とする分割映像としても構わない。このような元映像から時間的に均等な時間位置で均等な時間長さの分割映像とする場合には、生成される要約映像の状態がショットを映像基本単位にしたものと比較した場合、結合部分に違和感があるようになる可能性があるが、元映像を選択するための内容を示すレベルにおいては使用できるものとなる。また、映像分割手段４は、カメラの動き（パン、チルト等）が変化する時間長さ方向の点を検出し、そのカメラの動きのある時間長さ方向の点を区切りとした映像区間を分割映像としても構わない。つまり、映像分割手段４は、予め設定された映像区間を映像基本単位として分割映像を生成する構成としても構わない。

なお、映像分割手段４では、ショット長の単位となる映像基本単位の分割映像に分割する例を説明したが、ショット長に対して閾値を設定し、その設定した閾値より長いショット長となる分割映像について、映像の動きに基づいてさらに分割するようにしても構わない。そして、閾値は、予め設定された値（例えば、これまでに生成されたスポット映像において使用されているカットの平均長）であってもよいし、外部入力手段１０から入力されたスポット映像の長さの情報等に基づいて算出された値としてもよい。

また、要約映像生成装置１，１Ａは、映像解析手段５において、キーフレームのフレーム画像について特徴となるブロック領域を抽出し、そのブロック領域（視覚単語）の特徴量の種類を区分するため、輝度勾配ヒストグラムを一例として説明した。ただし、映像解析手段５は、ブロック領域（視覚単語）の特徴量の種類を区分することができるように、特徴量の分布、度数、レンジ等を予め設定した範囲ごとに区画することで、当該特徴量の種類を区分することができれば、特徴量の種類について特に限定されるものではない。

そして、要約映像生成装置１，１Ａは、映像解析手段５において、キーフレーム抽出手段５ａが、動きの激しいフレームを多く含むように抽出する構成の例として説明したが、キーフレーム抽出手段５ａにより、先頭から最後まで予め設定された均等な時間区間からキーフレームを抽出する構成としても構わない。あるいは、要約映像生成装置１，１Ａは、キーフレーム抽出手段５ａが乱数により映像区間から無作為にキーフレームを選択するようにしても構わない。つまり、要約映像生成装置１，１Ａは、映像解析手段５において、キーフレーム抽出手段５ａが、予め設定された条件により分割映像の区間からキーフレームを抽出するように構成しても構わない。

また、要約映像生成装置１，１Ａは、特徴ブロック領域抽出手段５ｂが、フレーム画像の特徴点（オブジェクトのコーナー部分等）となる局所特徴量を検出する例として説明したが、フレーム画像の特徴となる大域特徴、あるいは、局所特徴及び大域特徴の両方を組み合わせた特徴部分を検出するようにしても構わない。なお、大域特徴を検出する手法としては、フレーム画像の小領域におけるテクスチャの色等の情報を利用することができる。例えば、特徴ブロック領域抽出手段５ｂが、キーフレーム画像における予め設定したブロック領域を視覚単語とみなして、その視覚単語としたブロック領域を特徴量ごとの種類に区分するようにしても構わない。

さらに、要約映像生成装置１，１Ａは、映像解析手段５において、クラスタリング手段５ｃを備える構成として説明したが、映像解析手段５において、勾配ヒストグラム生成手段５ｂ_２による勾配ヒストグラムの次元数が低く、分布が密となるような勾配の区分に予め設定することで、クラスタリング手段５ｃを必要としない構成としてもよい。

そして、要約映像生成装置１，１Ａは、映像評価手段６において、具体的には、ＴＦ−ＩＤＦの値（視覚単語の種類（特徴量）に対して、元映像において特徴的であることを識別する予め定めた指標を評価基準として算出したスコア）を算出する例として示したが、ＩＤＦのかわりにエントロピー（Ｓ）に基づいて算出されるＴＦ−Ｓの値（信号）を利用することもできる。なお、ＴＦ−Ｓの算出式は、以下の通りである。

さらに、要約映像生成装置１，１Ａは、映像評価手段６において、画像特徴ベクトルの共起に基づく特徴量を利用することもできる。画像特徴ベクトルの共起（ｔ）に基づく重要度は、次式のように算出できる。

なお、式（５）において括弧内のｔはｔ＝｛ｔ_１，…，ｔ_ｉ，…，ｔ_ｎ｝であり、ｔ_ｉは、画像特徴ベクトルの１つを表わす。また、ｔｆ（ｔ，ｄ）は映像基本単位ｄにおける画像特徴ベクトルの共起ｔの出現頻度を表わし、Ｎは番組（元映像）における映像基本単位の総数を表わし、ｄｆ（ｔ）は番組（元映像）における映像基本単位のうち、画像特徴ベクトルの共起ｔが含まれる映像基本単位の総数を表わす。ｔｆ（ｔ，ｄ）は、映像基本単位ｄに含まれる全ての共起の総数で割ることによって正規化されている。
このように、共起を利用することにより映像基本単位の特徴をより正確に捉えることが可能となる。
なお、式（５）において、全ての共起を利用するようにしているが、画像特徴ベクトルにおいて、ある位置関係（近くに出現する関係、ある位置関係に出現する関係等）を満たすものだけを利用して、重要度を算出するようにしてもよい。

さらに、要約映像生成装置１，１Ａは、映像評価手段６において、番組内のみではなく、過去の様々な放送番組から画像特徴ベクトルの重要度を算出する方法も考えられる。例えば、次の式（６）により重要度が算出できる。

ここで、ｐｆ（ｔ）は、過去の様々な番組のうち画像特徴ベクトルｔが出現する番組の総数を表わし、Ｍは過去の様々な番組の総数を表わす。ｔｆｉｄｆ（ｔ，ｄ）は、すでに説明した式（１）の重要度と同じものである。ｐｆ（ｔ）により、番組内における画像特徴ベクトルの出現特徴だけでなく、他の番組における出現傾向も考慮した重要度を算出することができるようになる。式（６）では、特定の番組にのみ出現するような画像特徴ベクトルに対して、大きな重みを与えることができる。

要約映像生成装置１，１Ａは、視覚単語として画像の特徴的な領域を示して、その特徴的な領域に対して、映像評価手段６において重要度を評価することで、元映像からどの映像区間が要約映像に相応しい分割映像であるかを選択できるようにしており、分割映像の重要度を選択できる評価基準として算出できる指標となる値であれば、以上説明したような式（１）、（４）〜（６）等を使用することが可能となる。

また、要約映像生成装置１，１Ａは、映像区間選択手段８，８Ａにおいて、調整手段８ｄにより算出したスコアの値を調整して元映像から特徴のある映像区間の分割映像を選択するようにしたが、調整手段８ｄを使用することなく、分割映像選択手段８ｂが選択した分割映像を分割映像連結手段８ｃにより連結して要約映像を生成するようにしてもよい。

さらに、要約映像生成装置１，１Ａは、調整手段８ｄにおいて、予め設定された映像区間において、予め設定された値だけスコアを引き下げるようにして調整する構成について説明したが、以下のようなエントロピーを用いて調整する構成としても構わない。

すなわち、すでに選択した映像基本単位である分割映像をＶ＝｛ｖ_１，…，ｖ_ｉ，…，ｖ_ｎ｝とした場合、番組内における選択済みの分割映像のばらつきは、エントロピーを利用して式（７）により算出することができる。

式（７）において、ｐ（ｖ）は、映像基本単位（分割映像）ｖの番組冒頭からの位置を表わし、秒やフレームなどの単位で表わされるものとする。Ｈ（Ｖ）が大きいほど、番組内の様々な位置からの映像区間の分割映像が選択されていることを表わしている。
Ｖに対して新たな映像区間となる分割映像ｖ_ｎ＋１を追加する場合は、Ｈ（Ｖ）の増加量と分割映像ｖ_ｎ＋１の重要度（スコア）を統合したスコアに基づいて、分割映像を選択することになる。すなわち、メモリ８ｅに記憶させたスコアを更新させながら、分割映像選択手段８ｂが、統合したスコアにより分割映像を選択するようになる。なお、統合した重要度δは、以下の式（８）により算出することができる。

式（８）において、ｉｍｐ（ｖ）は、映像区間（分割映像）ｖの重要度であり、前記したＴＦＩＤＦ（ＴＦＳ、ＴＦＩＤＦＰ）等に基づいて算出される。エントロピーにより分割映像のスコアを調整することで、番組内の様々な位置から分割映像が選択されるようになる。

要約映像生成装置１では、スコアに基づいて、元映像から映像区間となる分割映像を選択するために、記憶手段に記憶させるようにしたが、分割映像の記憶手段を使用することなく要約映像生成装置１Ａのように、入力手段により入力された元映像からスコアの高い分割映像を選択するように構成しても構わない。
また、要約映像生成装置１Ａでは、音声評価手段１７において、形態素について、スコアを算出する場合、前記した式（４）〜（６）の値を使用してスコアを算出することも可能となる。

要約映像生成装置１，１Ａは、以上説明したように、各手段において、キーフレームから特徴となるブロック領域を抽出し、その抽出したブロック領域を視覚単語とみなし、視覚単語の勾配ヒストグラムを生成することで、視覚単語の種類とし、分割映像における視覚単語の種類に対して、元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして算出している。そのため、要約映像生成装置１，１Ａは、ジャンルに囚われることなく元映像に対する要約映像を的確に生成することが可能となる。

なお、要約映像生成装置１，１Ａは、一般的なＣＰＵ、ＲＡＭ、ＲＯＭなどで構成することができ、要約映像を出力するために、コンピュータを、前記した各手段として機能させるプログラム（要約映像生成プログラム）で実現することが可能となる。

１要約映像生成装置
１Ａ要約映像生成装置
２入力手段
３ストリーム分離手段
４映像分割手段
５映像解析手段
５ａキーフレーム抽出手段
５ｂ特徴ブロック領域抽出手段
５ｂ_１キーフレーム画像特徴検出手段
５ｂ_２勾配ヒストグラム生成手段
５ｃクラスタリング手段
６映像評価手段
７記憶手段
８映像区間選択手段
８ａ統合手段
８ｂ分割映像選択手段
８ｃ分割映像連結手段
８ｄ調整手段
８ｅメモリ
９出力手段
１０外部入力手段
１１目標長さ設定手段
１５文字情報抽出手段
１５ａ文字データ検出手段
１５ｂ音声認識手段
１６形態素解析手段
１７音声評価手段

Claims

元映像から当該元映像よりも映像時間が短い時間長となる要約映像を生成する要約映像生成装置であって、
入力した前記元映像からショットの単位となる映像単位ごとに分割した分割映像を生成する映像分割手段と、
この映像分割手段で分割した分割映像ごとにキーフレームを抽出して、抽出した前記キーフレームの特徴を示すブロック領域を検出し、当該ブロック領域の種類を特徴量ごとに区分して解析する映像解析手段と、
この映像解析手段で解析したブロック領域の特徴量における種類のそれぞれについて、当該特徴量が前記元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして算出し、その総和を求めることで分割映像ごとのスコアを算出する映像評価手段と、
この映像評価手段で算出された分割映像のスコアの高い順で映像時間が早い方から前記要約映像の時間長となるまで、前記元映像から前記分割映像の映像区間の映像を順次選択する映像区間選択手段と、を備え、
前記映像区間選択手段は、
算出された前記分割映像のスコアに基づいて前記要約映像の時間長となるまで、前記元映像から前記分割映像の映像区間の映像を順次選択する分割映像選択手段と、
この分割映像選択手段により選択した分割映像の時間的に前後となる予め設定された設定分割映像範囲について、当該設定分割映像範囲にある分割映像のスコアを引き下げる調整を行なう調整手段と、
この調整手段により調整を行なって、前記分割映像選択手段が選択した前記分割映像を連結して前記要約映像を生成する分割映像連結手段と、
を備えることを特徴とする要約映像生成装置。
元映像から当該元映像よりも映像時間が短い時間長となる要約映像を生成する要約映像生成装置であって、
前記元映像が、映像ストリームと、音声ストリームとを有する映像であって、入力した前記元映像から前記映像ストリームと、前記音声ストリームとを分離するストリーム分離手段と、
このストリーム分離手段で分離した前記映像ストリームからショットの単位となる映像単位ごとに分割した分割映像を生成する映像分割手段と、
この映像分割手段で分割した分割映像ごとにキーフレームを抽出して、抽出した前記キーフレームの特徴を示すブロック領域を検出し、当該ブロック領域の種類を特徴量ごとに区分して解析する映像解析手段と、
この映像解析手段で解析したブロック領域の特徴量における種類のそれぞれについて、当該特徴量が前記元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして算出する映像評価手段と、
前記音声ストリームから音声を認識して文字データを抽出する文字情報抽出手段と、
この文字情報抽出手段により抽出した文字データを単語ごとに形態素解析する形態素解析手段と、
この形態素解析手段により解析した文字データについて、前記映像分割手段により分割した分割映像の映像単位ごとに特徴のある前記単語が前記元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして算出する音声評価手段と、
前記映像評価手段で算出したスコアと、前記音声評価手段で算出したスコアを合算して求めたスコアの高い順で映像時間が早い方から前記要約映像の時間長となるまで、前記元映像から前記分割映像の映像区間を順次選択すると共に、前記元映像から当該映像区間の音声ストリームを選択する映像区間選択手段と、を備え、
前記映像区間選択手段は、
前記映像評価手段で算出したスコアと、前記音声評価手段で算出したスコアを合算するスコア統合手段と、
このスコア統合手段で合算して算出した前記スコアに基づいて、当該スコアの高い順で映像時間が早い方から前記要約映像の時間長となるように、前記元映像から前記分割映像の映像区間を選択する分割映像選択手段と、
この分割映像選択手段により選択した分割映像の時間的に前後となる予め設定された設定分割映像範囲について、当該設定分割映像範囲にある分割映像のスコアを引き下げる調整を行なう調整手段と、
この調整手段により調整を行なって、前記分割映像選択手段が選択した前記分割映像を連結して前記要約映像を生成する分割映像連結手段と、
を備えることを特徴とする要約映像生成装置。
前記映像解析手段は、前記ブロック領域を特徴量ごとの種類によりクラスタリングするクラスタリング手段をさらに備え、
前記映像評価手段は、前記クラスタリング手段でクラスタリングした種類の前記特徴量について前記スコアを算出することを特徴とする請求項１又は請求項２に記載の要約映像生成装置。
前記映像解析手段は、前記分割映像のフレーム画像ごとに動きベクトル量を算出し、前記動きベクトル量の累計が前記分割映像の総動きベクトル量を予め定めた数で等分した累計に達したときのフレーム画像を順次、前記キーフレームとして抽出することを特徴とする請求項１から請求項３のいずれか一項に記載の要約映像生成装置。
前記元映像は前記映像ストリームと、前記音声ストリームと、データストリームとを有し、前記ストリーム分離手段は、前記元映像を前記映像ストリームと、前記音声ストリーム及び前記データストリームとに分離し、
前記文字情報抽出手段は、前記データストリームに前記映像ストリームに対する文字データが含まれているか否かを検出する文字データ検出手段をさらに備え、
前記データストリームに文字データが存在しない場合に、音声認識手段により前記文字データを抽出して前記形態素解析手段に出力し、前記データストリームに文字データが含まれている場合に、前記文字データ検出手段により文字データを検出して前記形態素解析手段に出力することを特徴とする請求項２に記載の要約映像生成装置。
元映像から当該元映像よりも映像時間が短い時間長となる要約映像を生成するためにコンピュータを、
入力した前記元映像からショットの単位となる映像単位ごとに分割した分割映像を生成する映像分割手段、
この映像分割手段で分割した分割映像ごとにキーフレームを抽出して、抽出した前記キーフレームの特徴を示すブロック領域を検出し、当該ブロック領域の種類を特徴量ごとに区分して解析する映像解析手段、
この映像解析手段で解析したブロック領域の特徴量における種類のそれぞれについて、当該特徴量が前記元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして算出し、その総和を求めることで分割映像ごとのスコアを算出する映像評価手段、
この映像評価手段で算出された分割映像のスコアの高い順で映像時間が早い方から前記要約映像の時間長となるまで、前記元映像から前記分割映像の映像区間の映像を順次選択する映像区間選択手段、として機能させ、
前記映像区間選択手段は、前記元映像から、分割映像の映像区間の映像を選択するたびに、選択した分割映像の時間的に前後となる予め設定された設定分割映像範囲について、当該設定分割映像範囲にある分割映像のスコアを引き下げることを特徴とする要約映像生成プログラム。
元映像から当該元映像よりも映像時間が短い時間長となる要約映像を生成するためにコンピュータを、
前記元映像が、映像ストリームと、音声ストリームとを有する映像であって、入力した前記元映像から前記映像ストリームと、前記音声ストリームとを分離するストリーム分離手段、
このストリーム分離手段で分離した前記映像ストリームからショットの単位となる映像単位ごとに分割した分割映像を生成する映像分割手段、
この映像分割手段で分割した分割映像ごとにキーフレームを抽出して、抽出した前記キーフレームの特徴を示すブロック領域を検出し、当該ブロック領域の種類を特徴量ごとに区分して解析する映像解析手段、
この映像解析手段で解析したブロック領域の特徴量における種類のそれぞれについて、当該特徴量が前記元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして算出する映像評価手段、
前記音声ストリームから音声を認識して文字データを抽出する文字情報抽出手段、
この文字情報抽出手段により抽出した文字データを単語ごとに形態素解析する形態素解析手段、
この形態素解析手段により解析した文字データについて、前記映像分割手段により分割した分割映像の映像単位ごとに特徴のある前記単語が前記元映像において特徴的であることを識別する予め定めた指標を評価基準となるスコアとして算出する音声評価手段、
前記映像評価手段で算出したスコアと、前記音声評価手段で算出したスコアを合算して求めたスコアの高い順で映像時間が早い方から前記要約映像の時間長となるまで、前記元映像から前記分割映像の映像区間を順次選択すると共に、前記元映像から当該映像区間の音声ストリームを選択する映像区間選択手段、として機能させ、
前記映像区間選択手段は、前記元映像から、分割映像の映像区間の映像を選択するたびに、選択した分割映像の時間的に前後となる予め設定された設定分割映像範囲について、当該設定分割映像範囲にある分割映像のスコアを引き下げることを特徴とする要約映像生成プログラム。