JP4731522B2

JP4731522B2 - 特徴量生成装置、要約映像検出装置、及びプログラム

Info

Publication number: JP4731522B2
Application number: JP2007148389A
Authority: JP
Inventors: 吉彦河合; 伸行八木
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2007-06-04
Filing date: 2007-06-04
Publication date: 2011-07-27
Anticipated expiration: 2027-06-04
Also published as: JP2008301426A

Description

本発明は、特徴量生成装置、要約映像検出装置、及びプログラムに関する。

近年、テレビ放映された映像を、番組ごとの番組映像として蓄積し、いつでも誰でも見られるようにするサービスが人気を集めている。このようなサービスでは、蓄積される番組映像の量が膨大なものになってしまうため、ユーザが効率的に見たい番組映像を選択できるよう、番組映像ごとに、その要約映像を用意しておくことが望まれている。

番組映像の蓄積時に新たに要約映像を作成することも考えられるが、多くの番組では、実は放送前にスポット映像や告知映像を作成していることが多く、これらを用いれば、効率的に要約映像を取得できる。

ところが、蓄積段階で上記要約映像が番組ごとに用意されていることは少なく、通常は、テレビ放映された映像の中から要約映像を見つけ出さなければならない。そこで、テレビ放映された映像（以下、蓄積映像という。）から、要約映像として相応しい部分（以下、要約部分という。）を検出する技術が望まれている。

この点、非特許文献１及び２には、このような技術として用いることのできる技術が開示されている。
非特許文献１に開示される技術によれば、蓄積映像の区間ごとに色ヒストグラムに基づく特徴ベクトルを求めておくとともに、番組映像についても同様の特徴ベクトルを求め、特徴ベクトルの類似性によって、要約部分を検出することができる。

また、非特許文献２に開示される技術によれば、蓄積映像の区間ごとにカメラのフラッシュの発光パターンを求めておくとともに、番組映像についても同様の発光パターンを求め、発光パターンの類似性によって、要約部分を検出することができる。
柏野邦夫他著、「ヒストグラム枝刈りアルゴリズムに基づくオーディオ及びビデオ信号の高速検索方法(Quick Search Method for Audio and Video Signals Based on Histogram Pruning)」、IEEE TRANSACTIONS ON MULTIMEDIA、Vol.5 No.3、２００３年９月、p.348-357 瀧本政雄他著、「大容量放送映像アーカイブからの同一フラッシュシーン映像の発見」、電子情報通信学会論文誌（Ｄ）、Vol.J89-D,No.12、２００６年１２月、p.2699-2709

しかしながら、上記非特許文献１に開示される技術には、色の類似性のみに基づいて要約部分を見つけることになることから、検出精度があまり上がらないという問題がある。また、上記非特許文献２に開示される技術は、カメラのフラッシュがたかれている映像（ニュースに差し込まれる現場映像など）にしか適用し得ないという問題がある。

従って、本発明の課題の一つは、幅広い映像に適用可能な、検出精度の高い要約映像検出を実現するための特徴量生成装置、要約映像検出装置、及びプログラムを提供することにある。

上記課題を解決するための一態様にかかる特徴量生成装置は、映像に対応する文字データ又は音声信号のうちの少なくとも一方から、１又は複数の索引語を抽出する抽出手段と、前記索引語ごとの前記映像内での出現数に基づいて前記映像に関する特徴量を生成する特徴量生成手段と、を含むことを特徴とする。
上記特徴量は映像の意味内容を反映しているので、上記特徴量を用いて行われる要約画像検出は、幅広い映像に適用可能な、検出精度の高いものとなる。なお、前記文字データは、前記映像に含まれるクローズドキャプションや、電子番組ガイド内の前記映像にかかる部分の文字データを含む、こととしてもよい。こうすれば、クローズドキャプションや電子番組ガイドから文字データを取得することができる。

また、上記各特徴量生成装置において、前記特徴量生成手段は、蓄積映像内での出現数に基づいて決定される前記索引語ごとの希少性にさらに基づいて、前記映像に関する特徴量を生成する、こととしてもよい。
これによれば、特徴量による要約映像検出の精度を、さらに高めることができる。

また、本発明の一側面にかかる特徴量生成装置は、映像の区間ごとに、区間映像に対応する文字データ又は音声信号のうちの少なくとも一方から、１又は複数の索引語を抽出する抽出手段と、前記索引語ごとの前記区間映像内での出現数に基づいて該区間映像に関する特徴量を生成する区間映像特徴量生成手段と、前記区間映像特徴量生成手段によって生成される各区間映像に関する特徴量に基づき、隣り合った複数の区間映像からなる連続区間映像に関する特徴量を生成する連続区間映像特徴量生成手段と、を含むことを特徴とする。
これによれば、映像の区間ごとに、特徴量を作成することができるとともに、特徴量算出の処理負荷を軽減することが可能になる。

また、本発明にかかる要約映像検出装置は、映像に対応する文字データ又は音声信号のうちの少なくとも一方から、１又は複数の索引語を抽出する抽出手段と、前記索引語ごとの前記映像内での出現数に基づいて前記映像に関する特徴量を生成する特徴量生成手段と、を含む特徴量生成装置により生成された特徴量を取得して番組映像の要約映像を検出する要約映像検出装置であって、蓄積映像の各区間それぞれについて、前記特徴量生成装置により生成された特徴量を取得する蓄積映像特徴量取得手段と、番組映像について、前記特徴量生成装置により生成された特徴量を取得する番組映像特徴量取得手段と、前記蓄積映像の前記区間ごとに、該区間に関する特徴量と、前記番組映像に関する特徴量と、の類似度を算出する類似度算出手段と、前記類似度算出手段の算出結果に基づいて、前記蓄積映像の前記各区間の中から前記番組映像の要約映像を検出する要約映像検出手段と、を含むことを特徴とする。
これによれば、幅広い映像に適用可能な、検出精度の高い要約映像検出が実現される。

また、本発明の一側面にかかる要約映像検出装置は、映像の区間ごとに、区間映像に対応する文字データ又は音声信号のうちの少なくとも一方から、１又は複数の索引語を抽出する抽出手段と、前記索引語ごとの前記区間映像内での出現数に基づいて該区間映像に関する特徴量を生成する区間映像特徴量生成手段と、前記区間映像特徴量生成手段によって生成される各区間映像に関する特徴量に基づき、隣り合った複数の区間映像からなる連続区間映像に関する特徴量を生成する連続区間映像特徴量生成手段と、を含む第１の特徴量生成装置により生成された特徴量を取得するとともに、映像に対応する文字データ又は音声信号のうちの少なくとも一方から、１又は複数の索引語を抽出する抽出手段と、前記索引語ごとの前記映像内での出現数に基づいて前記映像に関する特徴量を生成する特徴量生成手段と、を含む第２の特徴量生成装置により生成された特徴量を取得して、番組映像の要約映像を検出する要約映像検出装置であって、蓄積映像の各区間及び隣り合った複数の区間からなる連続区間それぞれについて、前記第１の特徴量生成装置により生成された特徴量を取得する蓄積映像特徴量取得手段と、番組映像について、前記第２の特徴量生成装置により生成された特徴量を取得する番組映像特徴量取得手段と、前記蓄積映像の前記区間及び前記連続区間ごとに、該区間又は該連続区間に関する特徴量と、前記番組映像に関する特徴量と、の類似度を算出する類似度算出手段と、前記類似度算出手段の算出結果に基づいて、前記蓄積映像の前記各区間及び前記各連続区間の中から前記番組映像の要約映像を検出する要約映像検出手段と、を含むことを特徴とする。
このようにしても、幅広い映像に適用可能な、検出精度の高い要約映像検出が実現される。また、様々な長さの映像区間を要約映像候補として取り扱うことが可能になる。

また、本発明にかかるプログラムは、映像の区間ごとに、区間映像に対応する文字データ又は音声信号のうちの少なくとも一方から、１又は複数の索引語を抽出する抽出手段と、前記索引語ごとの前記区間映像内での出現数に基づいて該区間映像に関する特徴量を生成する区間映像特徴量生成手段と、前記区間映像特徴量生成手段によって生成される各区間映像に関する特徴量に基づき、隣り合った複数の区間映像からなる連続区間映像に関する特徴量を生成する連続区間映像特徴量生成手段と、を含む特徴量生成装置としてコンピュータを機能させるプログラムである。
また、前記の課題を解決するプログラムは、映像に対応する文字データ又は音声信号のうちの少なくとも一方から、１又は複数の索引語を抽出する抽出手段、及び前記索引語ごとの前記映像内での出現数に基づいて前記映像に関する特徴量を生成する特徴量生成手段、としてコンピュータを機能させるためのプログラムである。

以下、本発明の実施の形態について、図面を参照しながら説明する。

図１は、本実施の形態にかかる要約映像検出システム１のシステム構成を示す図である。同図に示すように、要約映像検出システム１は、映像データベース２、特徴ベクトル生成装置３、特徴ベクトルデータベース４、要約映像検出装置５を含んで構成される。

図１は、各装置の機能ブロックも示している。同図に示すように、映像データベース２は機能的に蓄積映像記憶部２０を含んで構成されており、蓄積映像記憶部２０は番組映像記憶部２１を含んで構成される。また、特徴ベクトル生成装置３は機能的に、番組映像特徴ベクトル生成部３０、希少性情報算出部３１、蓄積映像特徴ベクトル生成部３２を含んで構成される。また、特徴ベクトルデータベース４は機能的に、番組映像特徴ベクトル記憶部４０及び蓄積映像特徴ベクトル記憶部４１を含んで構成される。また、要約映像検出装置５は機能的に、番組指定受付部５０、番組映像特徴ベクトル取得部５１、類似度算出部５２、蓄積映像特徴ベクトル取得部５３、類似度記憶部５４、要約映像検出部５５を含んで構成される。以下、これら各部について詳細に説明する。

まず、映像データベース２について説明する。蓄積映像記憶部２０は、過去にテレビ放送された映像（番組として編集・放送された映像である番組映像の他、スポット映像や告知映像等も含む。以下、蓄積映像という。）を、所定の映像形式（例えばＭＰＥＧ等。）により記憶している。なお、蓄積映像記憶部２０は、映像に対応する文字データ（クローズドキャプション（ＣＣ）や、番組ごとの電子番組ガイド（ＥＰＧ）など）や音声信号も、映像に同期させて記憶する。

次に、特徴ベクトル生成装置３及び特徴ベクトルデータベース４について説明する。以下、まず番組映像に関する特徴ベクトルの生成について説明する。番組映像特徴ベクトル生成部３０は、蓄積映像記憶部２０に記憶される各番組映像について、それぞれに関する特徴ベクトルを生成する。以下、具体的に説明する。

図２は、番組映像特徴ベクトル生成部３０の内部構成を示す図である。同図に示すように、番組映像特徴ベクトル生成部３０は抽出部３００及び特徴ベクトル生成部３０１を含んで構成される。

抽出部３００は、番組映像に付加された文字データ又は音声信号のうちの少なくとも一方から、１又は複数の索引語を抽出する（抽出手段）。
抽出部３００の処理について、その内部構成を示す図面を参照しながら説明する。図３は、抽出部３００の内部構成を示す図である。同図に示すように、抽出部３００は、ストリーム分離部３０００、索引語抽出部３００２、音声認識部３００３、索引語抽出部３００４、統合部３００５を含んで構成される。

ストリーム分離部３０００は、蓄積映像記憶部２０に記憶される映像から、付加されている文字データ（クローズドキャプションや電子番組ガイド情報）及び音声信号を分離する。そして、文字データを索引語抽出部３００２に、音声信号を音声認識部３００３に、それぞれ出力する。

音声認識部３００３は、ストリーム分離部３０００から入力された音声信号に所定の音声認識処理を施すことにより、該音声信号を文字データに変換する。音声認識部３００３は、取得した文字データを索引語抽出部３００４に出力する

索引語抽出部３００２及び索引語抽出部３００４は、それぞれストリーム分離部３０００及び音声認識部３００３から入力される各文字データを解析することにより、各文字データから索引語を抽出する。なお、文字データの解析には形態素解析を用いることが好適であり、その場合、索引語には形態素と品詞の組み合わせを用いる。すなわち、形態素が同じでも、品詞が異なれば異なる索引語となる。また、索引語抽出部３００２及び索引語抽出部３００４は、文字データを構成する索引語の全てを抽出することとしてもよいし、例えば名詞のみを抽出することとしてもよい。

統合部３００５は、索引語抽出部３００２及び索引語抽出部３００４の各抽出結果を統合し、１つの抽出結果を出力する。具体的には、索引語抽出部３００２及び索引語抽出部３００４の一方が抽出結果を得られなかった場合（番組映像に対応する文字データ又は音声信号がない場合等）には、他方により得られた抽出結果を出力する。また、索引語抽出部３００２及び索引語抽出部３００４の両方が抽出結果を得た場合、信頼性の高い（音声認識処理を経ていない）索引語抽出部３００２の抽出結果を出力する。ただし、クローズドキャプションにおいては、画面上に文字スーパーとして表示された情報は省略されることがある。クローズドキャプションにおいて上記省略がある場合、クローズドキャプション内にはその省略箇所を表す記号が含まれている。統合部３００５は、この記号を検出することにより、省略部分を検出する。そして、検出した省略部分を索引語抽出部３００４の抽出結果により置換する。

図２に戻り、特徴ベクトル生成部３０１は、統合部３００５が出力する抽出結果を用い、索引語ごとの番組映像内での出現数を取得する。そして、取得した索引語ごとの出現数に基づいて該番組映像に関する特徴ベクトルを生成する（特徴量生成手段）。このとき、特徴ベクトル生成部３０１は、蓄積映像内での出現数に基づいて決定される索引語ごとの希少性にも基づいて、特徴ベクトルの生成を行う。

具体的には、特徴ベクトル生成部３０１は、以下の式（１）により、特徴ベクトルの索引語ごとの要素である特徴量を生成する。ここで、ｔｆ（ｔ_ｋ，Ｐｉ）は番組Ｐｉにおける索引語ｔ_ｋの出現数であり、Ｓ（ｔ_ｋ）は、索引語ｔ_ｋの希少性を表す希少性情報である（後述）。また、ｖ_ｋ ^Ｐｉは番組Ｐｉの索引語ｔ_ｋについての特徴量である。

特徴ベクトル生成部３０１は、統合部３００５が出力する抽出結果に含まれる全ての索引語について、式（１）の計算を行う。そして、その結果を用い、式（２）により、各索引語ｔ_ｋについての特徴量により構成されるベクトルである特徴ベクトルＶ_Ｐｉを生成する。ここで、値Ｄは、後述する番組映像特徴ベクトル記憶部４０に記憶される索引語の数である。統合部３００５が出力する抽出結果に含まれていなかった索引語については、特徴ベクトル生成部３０１は、特徴ベクトルＶ_Ｐｉを生成するにあたり、ｖ_ｋ ^Ｐｉにゼロを代入しておく。

特徴ベクトル生成部３０１は、上記特徴ベクトルＶ_Ｐｉを、番組映像特徴ベクトル記憶部４０に記憶させる。
図４は、番組映像特徴ベクトル記憶部４０の記憶内容の具体例を示す図である。同図に示すように、番組映像特徴ベクトル記憶部４０は、索引語ごとに、テレビ番組ごとの出現数及び上記特徴量を記憶している。なお、番組映像特徴ベクトル記憶部４０に記憶される索引語は、過去に蓄積映像（番組映像を含む。）から抽出された索引語全てである。

特徴ベクトル生成部３０１は、上記特徴ベクトルＶ_Ｐｉを番組映像特徴ベクトル記憶部４０に記憶させる際、既に記憶されている索引語については、その索引語の行に、取得した出現数ｔｆ（ｔ_ｋ，Ｐｉ）及び算出した特徴量ｖ_ｋ ^Ｐｉを記憶させる。一方、まだ記憶されていない索引語については、その索引語の行を追加し、追加した行に、取得した出現数ｔｆ（ｔ_ｋ，Ｐｉ）及び算出した特徴量ｖ_ｋ ^Ｐｉを記憶させる。その他の行については、出現数及び特徴量ともにゼロを記憶させる。

ここで、上記希少性情報Ｓ（ｔ_ｋ）について説明する。希少性情報算出部３１は、番組映像特徴ベクトル記憶部４０の記憶内容に基づいて、索引語ｔ_ｋごとの希少性情報Ｓ（ｔ_ｋ）を算出する。具体的には、式（３）又は式（４）を用いて、希少性情報Ｓ（ｔ_ｋ）を算出する。なお、ｐｆ（ｔ_ｋ）は索引語ｔ_ｋの出現数が１以上である番組映像の数であり、希少性情報算出部３１は、番組映像特徴ベクトル記憶部４０の記憶内容に基づいてｐｆ（ｔ_ｋ）を算出する。また、Ｎは過去の番組映像の総数である。

式（３）はＩＤＦ(Inverse Document Frequency)値であり、式（４）はエントロピーに基づく値である。これらの各式を用いることにより、ある特定の番組映像のみに出現するような索引語の希少性情報Ｓ（ｔ_ｋ）の値は、そうでない索引語（様々な番組映像に出現する索引語）の希少性情報Ｓ（ｔ_ｋ）の値に比べて高くなる。

さて、次に、蓄積映像（番組映像を含む。）に関する特徴ベクトルの生成について説明する。蓄積映像特徴ベクトル生成部３２は、蓄積映像記憶部２０に記憶される蓄積映像について、特徴ベクトルを生成する。以下、具体的に説明する。

図５は、蓄積映像特徴ベクトル生成部３２の内部構成を示す図である。同図に示すように、蓄積映像特徴ベクトル生成部３２は抽出部３０２及び特徴ベクトル生成部３０３を含んで構成される。

抽出部３０２の処理は、番組映像特徴ベクトル生成部３０に含まれる抽出部３００の処理とほぼ同様であるが、蓄積映像の区間ごとに、区間映像に付加された文字データ又は音声信号のうちの少なくとも一方から、１又は複数の索引語を抽出するという点で、抽出部３００と異なっている。この区間は、予め定められた時間長の区間であることが好適であるが、特に、コマーシャル映像やスポット映像の時間長の最大公約数の区間とすることが好適である。

特徴ベクトル生成部３０３は、区間映像特徴ベクトル生成部３０３０及び連続区間映像特徴ベクトル生成部３０３１を含んで構成される。
区間映像特徴ベクトル生成部３０３０は、抽出部３０２が出力する抽出結果を用い、索引語ごとの区間映像内での出現数を取得する。そして、取得した索引語ごとの出現数に基づいて区間映像に関する特徴ベクトルを生成する（区間映像特徴量生成手段）。具体的な特徴ベクトルの生成方法は、特徴ベクトル生成部３０１とほぼ同様である。

ただし、特徴ベクトル生成部３０１は番組映像ごとに特徴ベクトルを生成するが、区間映像特徴ベクトル生成部３０３０は区間映像ごとに特徴ベクトルを生成するという違いがある。このため、特徴ベクトルを表す記号としては異なるものを使用するのが好適であり、以下に定義しておく。まず、時刻Ｔｘに始まり時刻Ｔｙで終わる区間映像を、Ｔｘ〜Ｔｙと表す。その結果、式（１）は、次の式（５）のように書き直される。ここで、ｖ_ｋ ^{Ｔｘ〜Ｔｙ}は区間番組Ｔｘ〜Ｔｙの索引語ｔ_ｋについての特徴量である。

また、区間映像Ｔｘ〜Ｔｙに関する特徴ベクトルは、式（６）のＶ_{Ｔｘ〜Ｔｙ}で表される。

連続区間映像特徴ベクトル生成部３０３１は、区間映像特徴ベクトル生成部３０３０によって生成される各区間映像に関する特徴ベクトルに基づき、隣り合った複数の区間映像からなる連続区間映像に関する特徴ベクトルを生成する（連続区間映像特徴ベクトル生成手段）。具体的には、連続区間映像特徴ベクトル生成部３０３１は、隣り合った複数の区間映像からなる連続区間映像に関する特徴ベクトルを、要素ごとに足し算することにより、連続区間映像に関する特徴ベクトルを生成する。

図６は、連続区間映像に関する特徴ベクトルの例を示す図である。同図の例では、まず、区間映像ごとの特徴ベクトルＶ_{Ｔ１〜Ｔ２}、Ｖ_{Ｔ２〜Ｔ３}、Ｖ_{Ｔ３〜Ｔ４}、Ｖ_{Ｔ４〜Ｔ５}がそれぞれ生成される。次に、隣接する２区間ずつの特徴ベクトルＶ_{Ｔ１〜Ｔ３}＝Ｖ_{Ｔ１〜Ｔ２}＋Ｖ_{Ｔ２〜Ｔ３}、Ｖ_{Ｔ３〜Ｔ５}＝Ｖ_{Ｔ３〜Ｔ４}＋Ｖ_{Ｔ４〜Ｔ５}が生成される。さらに、隣接する４区間ずつの特徴ベクトルＶ_{Ｔ１〜Ｔ５}＝Ｖ_{Ｔ１〜Ｔ３}＋Ｖ_{Ｔ３〜Ｔ５}も生成される。このような生成が、以降も繰り返される。この例では、結果として、特徴ベクトルが階層的に生成されており、同一階層内での重複はない。

図７は、連続区間映像に関する特徴ベクトルの他の例を示す図である。同図の例は、図６の例において、同一階層内での重複を認める場合の例である。すなわち、この例では、隣接する２区間ずつの特徴ベクトルを生成する際、特徴ベクトルＶ_{Ｔ１〜Ｔ３}＝Ｖ_{Ｔ１〜Ｔ２}＋Ｖ_{Ｔ２〜Ｔ３}、Ｖ_{Ｔ３〜Ｔ５}＝Ｖ_{Ｔ３〜Ｔ４}＋Ｖ_{Ｔ４〜Ｔ５}の他、Ｖ_{Ｔ２〜Ｔ４}＝Ｖ_{Ｔ２〜Ｔ３}＋Ｖ_{Ｔ３〜Ｔ４}も生成される。Ｖ_{Ｔ２〜Ｔ４}とＶ_{Ｔ１〜Ｔ３}、Ｖ_{Ｔ２〜Ｔ４}とＶ_{Ｔ３〜Ｔ５}は、それぞれ重複区間を有している。さらに上位の階層についても、同様に重複を認めて特徴ベクトルが生成される。

なお、このように階層的に特徴ベクトルを算出する場合の階層の深さは、最下位階層の区間長に基づいて決まる最上位階層の区間長が、要約映像として検出したい映像の時間長になるように決定される。図６に示した例を取り上げて具体的な例を挙げると、最下位階層の区間長が１０秒程度であり、要約映像として検出したい映像の時間長が数分程度であれば、５〜６階層となる。

区間映像特徴ベクトル生成部３０３０及び連続区間映像特徴ベクトル生成部３０３１は、以上のようにして生成した特徴ベクトルを、蓄積映像特徴ベクトル記憶部４１に記憶させる。

図８は、蓄積映像特徴ベクトル記憶部４１の記憶内容の具体例を示す図である。同図に示すように、蓄積映像特徴ベクトル記憶部４１は、索引語ごとに、区間ごとの上記特徴量を記憶している。なお、蓄積映像特徴ベクトル記憶部４１に記憶される索引語は、過去に蓄積映像（番組映像を含む。）から抽出された索引語全てである。

区間映像特徴ベクトル生成部３０３０及び連続区間映像特徴ベクトル生成部３０３１は、生成した特徴ベクトルを蓄積映像特徴ベクトル記憶部４１に記憶させる際、既に記憶されている索引語については、その索引語の行に、算出した特徴量ｖ_ｋ ^{Ｔｘ〜Ｔｙ}を記憶させる。一方、まだ記憶されていない索引語については、その索引語の行を追加し、追加した行に、特徴量ｖ_ｋ ^{Ｔｘ〜Ｔｙ}を記憶させる。その他の行の特徴量についてはゼロを記憶させる。

次に、図１に戻って要約映像検出装置５について説明する。まず、要約映像検出装置５はディスプレイなどの表示手段及びキーボード・マウスなどの入力手段を備えており、番組指定受付部５０は、これらを用いて、番組映像特徴ベクトル記憶部４０に記憶される各番組映像のうちの１つのユーザによる指定を受け付ける。

番組映像特徴ベクトル取得部５１は、ユーザにより指定された番組映像について、特徴ベクトル生成装置３により生成され、番組映像特徴ベクトル記憶部４０に記憶された特徴ベクトルを取得する（番組映像特徴ベクトル取得手段）。そして、取得した特徴ベクトルを類似度算出部５２に出力する。

番組映像特徴ベクトル取得部５１から特徴ベクトルの入力を受けた類似度算出部５２は、蓄積映像特徴ベクトル取得部５３（蓄積映像特徴ベクトル取得手段）を用い、蓄積映像の各区間それぞれについて、特徴ベクトル生成装置３により生成され、蓄積映像特徴ベクトル記憶部４１に記憶された特徴ベクトルを取得する。このとき取得対象とする区間は、番組映像のスポット映像や告知映像が番組放送の数週間前から放送され始めることに鑑み、指定された番組映像が放送された日前数週間程度の区間とすることが好ましい。

類似度算出部５２は、蓄積映像特徴ベクトル取得部５３により取得される各特徴ベクトルを用い、蓄積映像の区間（連続区間を含む。）ごとに、該区間に関する特徴ベクトルと、番組映像に関する特徴ベクトルと、の類似度を算出する（類似度算出手段）。

類似度算出部５２は、類似度の算出を式（７）に基づいて行うことが好適である。ここで、ｓｉｍ（Ｖ_Ｐｉ，Ｖ_{Ｔｘ〜Ｔｙ}）は、番組映像Ｐｉに関する特徴ベクトルＶ_ｐｉと区間映像Ｔｘ〜Ｔｙに関する特徴ベクトルＶ_{Ｔｘ〜Ｔｙ}の類似度である。また、Ｉ（ｔ_ｋ）は、番組映像Ｐｉ内における索引語ｔ_ｋの重要度を表す重み係数である。例えば、電子番組ガイド内に、番組映像Ｐｉのタイトル、副題、出演者として現れている索引語ほど、Ｉ（ｔ_ｋ）を大きな値とする。また、番組映像Ｐｉ内での出現数が高く、かつ上記希少性が高い索引語ほど、Ｉ（ｔ_ｋ）を大きな値とする。なお、Ｉ（ｔ_ｋ）の値を決定するためのこれらの条件は適宜決定されるものであるが、過去のデータからの機械学習により適切な条件を決定することとしてもよい。

式（７）によれば、重み係数Ｉ（ｔ_ｋ）によって重み付けられた特徴ベクトル同士がなす角の余弦値によって類似度を表していることになるので、特徴ベクトルの絶対値は類似度に影響しない。映像が長いほど特徴ベクトルの絶対値は大きくなるが、式（７）を用いることにより、映像の長さに影響されない類似度を算出することが可能となっている。
類似度算出部５２は、算出した区間映像ごとの類似度を類似度記憶部５４に記憶させる。

ここで、蓄積映像特徴ベクトル取得部５３による特徴ベクトル取得の順序について説明する。第１の方法では、蓄積映像特徴ベクトル取得部５３は、まず始点を決め、その始点から順次区間長を長くして、区間映像に関する特徴ベクトルを取得していく。そして、区間長が所定の最大長に達した場合、始点に該最大長を加算して新たな始点を取得する。以降の処理は同様である。

また、第２の方法では、蓄積映像特徴ベクトル取得部５３は、まず始点を決め、その始点から所定区間長の区間映像に関する特徴ベクトルを取得する。次に、始点に所定時間長（所定時間長＞所定区間長）を加算して新たな始点を取得する。以降の処理は同様である。

なお、この第２の方法を採用する場合、蓄積映像特徴ベクトル取得部５３が特徴ベクトルを取得する都度、類似度算出部５２による類似度算出を行うことが好ましい。そして、ある始点から所定区間長の類似度が所定値以下である場合（ほとんど場合或いは全く類似していない場合）、又は、該類似度が所定値以上である場合（極めてよく類似している場合）、始点に加算する値を、上記所定時間長ではなく上記所定区間長とすることが好ましい。

図９は、上記第２の方法を採用する場合において、蓄積映像特徴ベクトル取得部５３により取得される特徴ベクトルの例を示す図である。同図の例では、所定時間長が１区間分で、所定区間長が４区間分となっている。同図においては、特徴ベクトルＶ_{Ｔ３〜Ｔ７}の類似度が所定値以下であった場合であり、この場合、蓄積映像特徴ベクトル取得部５３は、Ｖ_{Ｔ４〜Ｔ８}、Ｖ_{Ｔ５〜Ｔ９}、Ｖ_{Ｔ６〜Ｔ１０}、及びＶ_{Ｔ７〜Ｔ１１}の取得をスキップし、Ｖ_{Ｔ３〜Ｔ７}の次にＶ_{Ｔ８〜Ｔ１２}を取得している。こうすることで、類似度算出にかかる時間を削減し、処理を高速化することができる。

さて、要約映像検出部５５は、類似度記憶部５４に記憶される類似度算出部５２の算出結果に基づいて、蓄積映像の各区間及び各連続区間の中から、番組映像の要約映像を検出する（要約映像検出手段）。具体的には、類似度の最も高い区間映像を要約映像として検出してもよいし、類似度の高い順にいくつかの区間映像を要約映像として検出してもよい。

要約映像検出部５５は、要約映像検出装置５の表示手段を用い、ユーザに対し、検出した要約映像を提示する。複数の区間映像を提示する場合には、類似度の順に表示することが好ましい。

最後に、以上説明した要約映像検出装置５の各処理について、処理フローを参照しながら、再度より詳細に説明する。
図１０は、要約映像検出装置５の処理フローを示すフロー図である。同図に示すように、要約映像検出装置５は、まず、番組映像Ｐｉに関する特徴ベクトルＶ_ｐｉを取得する（ステップＳ１）。次に、蓄積映像の検索範囲を設定し（ステップＳ２）、区間長最大値Ｔ_ＬＭＡＸ、区間長増分Ｔ_Ｉ、蓄積映像内の始点Ｔ_Ｓ、映像区間長Ｔ_Ｌをそれぞれ初期設定する（ステップＳ３〜ステップＳ６）。

次に、要約映像検出装置５は、映像区間長Ｔ_Ｌが区間長最大値Ｔ_ＬＭＡＸ以下であるか否かを判定し（ステップＳ７）、以下でなければ、Ｔ_Ｓに映像区間長Ｔ_ＬＭＡＸを加算し、ステップＳ６に処理を戻す（ステップＳ８）。

一方、ステップＳ７の判定において、映像区間長Ｔ_Ｌが区間長最大値Ｔ_ＬＭＡＸ以下であると判定されると、要約映像検出装置５は、次に、始点Ｔ_Ｓから映像区間長Ｔ_Ｌ分の区間が、ステップＳ２で初期設定した検索範囲内に含まれるか否かを判定する（ステップＳ８）。その結果、検索範囲外であれば、ステップＳ１４に処理を移す。検索範囲内であれば、始点Ｔ_Ｓから映像区間長Ｔ_Ｌ分の区間（Ｔｘ〜Ｔｙとする。）に関する特徴ベクトルＶ_{Ｔｘ〜Ｔｙ}を取得する。そして、特徴ベクトルＶ_ｐｉと特徴ベクトルＶ_{Ｔｘ〜Ｔｙ}の類似度を算出し（ステップＳ１２）、類似度記憶部５４に記憶させる（ステップＳ１３）。次に、要約映像検出装置５は、Ｔ_ＬにＴ_Ｉを加算し、処理をＳ７に戻す。

ステップＳ１４では、要約映像検出装置５は、類似度記憶部５４に記憶された類似度に基づいて要約映像を検出する。そして、類似度の高い順にソートしてユーザに対して提示する。

以上説明したように、要約映像検出システム１によれば、上記特徴ベクトルが映像の意味内容を反映しているので、要約映像検出装置５によって行われる要約画像の検出が、幅広い映像に適用可能な、検出精度の高いものとなる。
また、特徴ベクトル生成装置３は、特徴ベクトル生成の基になる文字データを、クローズドキャプションや電子番組ガイドから文字データを取得することができる。

また、特徴ベクトル生成装置３は、映像の区間ごとに、特徴ベクトルを作成することができる。また、映像の区間ごとに特徴ベクトルを生成したことから、階層的に特徴ベクトルを算出することができるので、特徴ベクトル算出の処理負荷を軽減することが可能になる。
さらに、要約映像検出システム１では、様々な長さの映像区間を要約映像候補として取り扱うことが可能になっている。

以上本発明の実施の形態について説明したが、本発明はこうした実施の形態に何等限定されるものではなく、本発明は、その要旨を逸脱しない範囲において、種々なる態様で実施され得ることは勿論である。

例えば、上記実施の形態では、蓄積映像に関する特徴ベクトルを予め算出して記憶しておいたが、番組指定受付部５０によって番組映像が指定されたときに蓄積映像に関する特徴ベクトルを算出するようにしてもよい。

また、各連続区間に関する特徴ベクトルの算出において、上記実施の形態では、より下位層の区間に関する特徴ベクトルの足し算により求めていたが、より上位の特徴ベクトルから、より下位の特徴ベクトルを引くことにより求めることとしてもよい。例えば、Ｔ１〜Ｔ９の特徴ベクトルＶ_{Ｔ１〜Ｔ９}は、Ｖ_{Ｔ１〜Ｔ１０}−Ｖ_{Ｔ９〜Ｔ１０}として求めることが可能である。

また、特徴ベクトル生成装置３及び要約映像検出装置５の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、上記各処理を行ってもよい。
ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものであってもよい。また、この「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに、「コンピュータ読み取り可能な記録媒体」には、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Dynamic Random Access Memory））のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。
さらに、上記プログラムは、上述した各機能の一部を実現するためのものであってもよい。さらに、上述した各機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

本発明の実施の形態にかかる要約映像検出システムのシステム構成を示す図である。本発明の実施の形態にかかる番組映像特徴ベクトル生成部の内部構成を示す図である。本発明の実施の形態にかかる抽出部の内部構成を示す図である。本発明の実施の形態にかかる番組映像特徴ベクトル記憶部の記憶内容の具体例を示す図である。本発明の実施の形態にかかる蓄積映像特徴ベクトル生成部の内部構成を示す図である。本発明の実施の形態にかかる連続区間映像に関する特徴ベクトルの例を示す図である。本発明の実施の形態にかかる連続区間映像に関する特徴ベクトルの例を示す図である。本発明の実施の形態にかかる蓄積映像特徴ベクトル記憶部の記憶内容の具体例を示す図である。本発明の実施の形態にかかる蓄積映像特徴ベクトル取得部により取得される特徴ベクトルの例を示す図である。本発明の実施の形態にかかる要約映像検出装置の処理フローを示すフロー図である。

符号の説明

１要約映像検出システム、
２映像データベース、
３特徴ベクトル生成装置、
４特徴ベクトルデータベース、
５要約映像検出装置、
２０蓄積映像記憶部、
３０番組映像特徴ベクトル生成部、
３１希少性情報算出部、
３２蓄積映像特徴ベクトル生成部、
４０番組映像特徴ベクトル、
４１蓄積映像特徴ベクトル記憶部、
５０番組指定受付部、
５１番組映像特徴ベクトル取得部、
５２類似度算出部、
５３蓄積映像特徴ベクトル取得部、
５４類似度記憶部、
５５要約映像検出部、
５５類似度記憶部、
３００，３０２抽出部、
３０１，３０３特徴ベクトル生成部、
３０００ストリーム分離部、
３００２索引語抽出部、
３００３音声認識部、
３００４索引語抽出部、
３００５統合部、
３０３０区間映像特徴ベクトル生成部、
３０３１連続区間映像特徴ベクトル生成部。

Claims

映像の区間ごとに、区間映像に対応する文字データ又は音声信号のうちの少なくとも一方から、１又は複数の索引語を抽出する抽出手段と、
前記索引語ごとの前記区間映像内での出現数に基づいて該区間映像に関する特徴量を生成する区間映像特徴量生成手段と、
前記区間映像特徴量生成手段によって生成される各区間映像に関する特徴量に基づき、隣り合った複数の区間映像からなる連続区間映像に関する特徴量を生成する連続区間映像特徴量生成手段と、
を含むことを特徴とする特徴量生成装置。
映像に対応する文字データ又は音声信号のうちの少なくとも一方から、１又は複数の索引語を抽出する抽出手段と、
前記索引語ごとの前記映像内での出現数に基づいて前記映像に関する特徴量を生成する特徴量生成手段と、
を含む特徴量生成装置により生成された特徴量を取得して番組映像の要約映像を検出する要約映像検出装置であって、
蓄積映像の各区間それぞれについて、前記特徴量生成装置により生成された特徴量を取得する蓄積映像特徴量取得手段と、
番組映像について、前記特徴量生成装置により生成された特徴量を取得する番組映像特徴量取得手段と、
前記蓄積映像の前記区間ごとに、該区間に関する特徴量と、前記番組映像に関する特徴量と、の類似度を算出する類似度算出手段と、
前記類似度算出手段の算出結果に基づいて、前記蓄積映像の前記各区間の中から前記番組映像の要約映像を検出する要約映像検出手段と、
を含むことを特徴とする要約映像検出装置。
映像の区間ごとに、区間映像に対応する文字データ又は音声信号のうちの少なくとも一方から、１又は複数の索引語を抽出する抽出手段と、
前記索引語ごとの前記区間映像内での出現数に基づいて該区間映像に関する特徴量を生成する区間映像特徴量生成手段と、
前記区間映像特徴量生成手段によって生成される各区間映像に関する特徴量に基づき、隣り合った複数の区間映像からなる連続区間映像に関する特徴量を生成する連続区間映像特徴量生成手段と、
を含む第１の特徴量生成装置により生成された特徴量を取得するとともに、
映像に対応する文字データ又は音声信号のうちの少なくとも一方から、１又は複数の索引語を抽出する抽出手段と、
前記索引語ごとの前記映像内での出現数に基づいて前記映像に関する特徴量を生成する特徴量生成手段と、
を含む第２の特徴量生成装置により生成された特徴量を取得して、
番組映像の要約映像を検出する要約映像検出装置であって、
蓄積映像の各区間及び隣り合った複数の区間からなる連続区間それぞれについて、前記第１の特徴量生成装置により生成された特徴量を取得する蓄積映像特徴量取得手段と、
番組映像について、前記第２の特徴量生成装置により生成された特徴量を取得する番組映像特徴量取得手段と、
前記蓄積映像の前記区間及び前記連続区間ごとに、該区間又は該連続区間に関する特徴量と、前記番組映像に関する特徴量と、の類似度を算出する類似度算出手段と、
前記類似度算出手段の算出結果に基づいて、前記蓄積映像の前記各区間及び前記各連続区間の中から前記番組映像の要約映像を検出する要約映像検出手段と、
を含むことを特徴とする要約映像検出装置。
映像の区間ごとに、区間映像に対応する文字データ又は音声信号のうちの少なくとも一方から、１又は複数の索引語を抽出する抽出手段と、
前記索引語ごとの前記区間映像内での出現数に基づいて該区間映像に関する特徴量を生成する区間映像特徴量生成手段と、
前記区間映像特徴量生成手段によって生成される各区間映像に関する特徴量に基づき、隣り合った複数の区間映像からなる連続区間映像に関する特徴量を生成する連続区間映像特徴量生成手段と、
を含む特徴量生成装置としてコンピュータを機能させるプログラム。