JP4731522B2 - 特徴量生成装置、要約映像検出装置、及びプログラム - Google Patents

特徴量生成装置、要約映像検出装置、及びプログラム Download PDF

Info

Publication number
JP4731522B2
JP4731522B2 JP2007148389A JP2007148389A JP4731522B2 JP 4731522 B2 JP4731522 B2 JP 4731522B2 JP 2007148389 A JP2007148389 A JP 2007148389A JP 2007148389 A JP2007148389 A JP 2007148389A JP 4731522 B2 JP4731522 B2 JP 4731522B2
Authority
JP
Japan
Prior art keywords
video
section
feature
feature quantity
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007148389A
Other languages
English (en)
Other versions
JP2008301426A (ja
Inventor
吉彦 河合
伸行 八木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2007148389A priority Critical patent/JP4731522B2/ja
Publication of JP2008301426A publication Critical patent/JP2008301426A/ja
Application granted granted Critical
Publication of JP4731522B2 publication Critical patent/JP4731522B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、特徴量生成装置、要約映像検出装置、及びプログラムに関する。
近年、テレビ放映された映像を、番組ごとの番組映像として蓄積し、いつでも誰でも見られるようにするサービスが人気を集めている。このようなサービスでは、蓄積される番組映像の量が膨大なものになってしまうため、ユーザが効率的に見たい番組映像を選択できるよう、番組映像ごとに、その要約映像を用意しておくことが望まれている。
番組映像の蓄積時に新たに要約映像を作成することも考えられるが、多くの番組では、実は放送前にスポット映像や告知映像を作成していることが多く、これらを用いれば、効率的に要約映像を取得できる。
ところが、蓄積段階で上記要約映像が番組ごとに用意されていることは少なく、通常は、テレビ放映された映像の中から要約映像を見つけ出さなければならない。そこで、テレビ放映された映像(以下、蓄積映像という。)から、要約映像として相応しい部分(以下、要約部分という。)を検出する技術が望まれている。
この点、非特許文献1及び2には、このような技術として用いることのできる技術が開示されている。
非特許文献1に開示される技術によれば、蓄積映像の区間ごとに色ヒストグラムに基づく特徴ベクトルを求めておくとともに、番組映像についても同様の特徴ベクトルを求め、特徴ベクトルの類似性によって、要約部分を検出することができる。
また、非特許文献2に開示される技術によれば、蓄積映像の区間ごとにカメラのフラッシュの発光パターンを求めておくとともに、番組映像についても同様の発光パターンを求め、発光パターンの類似性によって、要約部分を検出することができる。
柏野邦夫他著、「ヒストグラム枝刈りアルゴリズムに基づくオーディオ及びビデオ信号の高速検索方法(Quick Search Method for Audio and Video Signals Based on Histogram Pruning)」、IEEE TRANSACTIONS ON MULTIMEDIA、Vol.5 No.3、2003年9月、p.348-357 瀧本政雄他著、「大容量放送映像アーカイブからの同一フラッシュシーン映像の発見」、電子情報通信学会論文誌(D)、Vol.J89-D,No.12、2006年12月、p.2699-2709
しかしながら、上記非特許文献1に開示される技術には、色の類似性のみに基づいて要約部分を見つけることになることから、検出精度があまり上がらないという問題がある。また、上記非特許文献2に開示される技術は、カメラのフラッシュがたかれている映像(ニュースに差し込まれる現場映像など)にしか適用し得ないという問題がある。
従って、本発明の課題の一つは、幅広い映像に適用可能な、検出精度の高い要約映像検出を実現するための特徴量生成装置、要約映像検出装置、及びプログラムを提供することにある。
上記課題を解決するための一態様にかかる特徴量生成装置は、映像に対応する文字データ又は音声信号のうちの少なくとも一方から、1又は複数の索引語を抽出する抽出手段と、前記索引語ごとの前記映像内での出現数に基づいて前記映像に関する特徴量を生成する特徴量生成手段と、を含むことを特徴とする。
上記特徴量は映像の意味内容を反映しているので、上記特徴量を用いて行われる要約画像検出は、幅広い映像に適用可能な、検出精度の高いものとなる。なお、前記文字データは、前記映像に含まれるクローズドキャプションや、電子番組ガイド内の前記映像にかかる部分の文字データを含む、こととしてもよい。こうすれば、クローズドキャプションや電子番組ガイドから文字データを取得することができる。
また、上記各特徴量生成装置において、前記特徴量生成手段は、蓄積映像内での出現数に基づいて決定される前記索引語ごとの希少性にさらに基づいて、前記映像に関する特徴量を生成する、こととしてもよい。
これによれば、特徴量による要約映像検出の精度を、さらに高めることができる。
また、本発明の一側面にかかる特徴量生成装置は、映像の区間ごとに、区間映像に対応する文字データ又は音声信号のうちの少なくとも一方から、1又は複数の索引語を抽出する抽出手段と、前記索引語ごとの前記区間映像内での出現数に基づいて該区間映像に関する特徴量を生成する区間映像特徴量生成手段と、前記区間映像特徴量生成手段によって生成される各区間映像に関する特徴量に基づき、隣り合った複数の区間映像からなる連続区間映像に関する特徴量を生成する連続区間映像特徴量生成手段と、を含むことを特徴とする。
これによれば、映像の区間ごとに、特徴量を作成することができるとともに、特徴量算出の処理負荷を軽減することが可能になる。
また、本発明にかかる要約映像検出装置は、映像に対応する文字データ又は音声信号のうちの少なくとも一方から、1又は複数の索引語を抽出する抽出手段と、前記索引語ごとの前記映像内での出現数に基づいて前記映像に関する特徴量を生成する特徴量生成手段と、を含む特徴量生成装置により生成された特徴量を取得して番組映像の要約映像を検出する要約映像検出装置であって、蓄積映像の各区間それぞれについて、前記特徴量生成装置により生成された特徴量を取得する蓄積映像特徴量取得手段と、番組映像について、前記特徴量生成装置により生成された特徴量を取得する番組映像特徴量取得手段と、前記蓄積映像の前記区間ごとに、該区間に関する特徴量と、前記番組映像に関する特徴量と、の類似度を算出する類似度算出手段と、前記類似度算出手段の算出結果に基づいて、前記蓄積映像の前記各区間の中から前記番組映像の要約映像を検出する要約映像検出手段と、を含むことを特徴とする。
これによれば、幅広い映像に適用可能な、検出精度の高い要約映像検出が実現される。
また、本発明の一側面にかかる要約映像検出装置は、映像の区間ごとに、区間映像に対応する文字データ又は音声信号のうちの少なくとも一方から、1又は複数の索引語を抽出する抽出手段と、前記索引語ごとの前記区間映像内での出現数に基づいて該区間映像に関する特徴量を生成する区間映像特徴量生成手段と、前記区間映像特徴量生成手段によって生成される各区間映像に関する特徴量に基づき、隣り合った複数の区間映像からなる連続区間映像に関する特徴量を生成する連続区間映像特徴量生成手段と、を含む第1の特徴量生成装置により生成された特徴量を取得するとともに、映像に対応する文字データ又は音声信号のうちの少なくとも一方から、1又は複数の索引語を抽出する抽出手段と、前記索引語ごとの前記映像内での出現数に基づいて前記映像に関する特徴量を生成する特徴量生成手段と、を含む第2の特徴量生成装置により生成された特徴量を取得して、番組映像の要約映像を検出する要約映像検出装置であって、蓄積映像の各区間及び隣り合った複数の区間からなる連続区間それぞれについて、前記第1の特徴量生成装置により生成された特徴量を取得する蓄積映像特徴量取得手段と、番組映像について、前記第2の特徴量生成装置により生成された特徴量を取得する番組映像特徴量取得手段と、前記蓄積映像の前記区間及び前記連続区間ごとに、該区間又は該連続区間に関する特徴量と、前記番組映像に関する特徴量と、の類似度を算出する類似度算出手段と、前記類似度算出手段の算出結果に基づいて、前記蓄積映像の前記各区間及び前記各連続区間の中から前記番組映像の要約映像を検出する要約映像検出手段と、を含むことを特徴とする。
このようにしても、幅広い映像に適用可能な、検出精度の高い要約映像検出が実現される。また、様々な長さの映像区間を要約映像候補として取り扱うことが可能になる。
また、本発明にかかるプログラムは、映像の区間ごとに、区間映像に対応する文字データ又は音声信号のうちの少なくとも一方から、1又は複数の索引語を抽出する抽出手段と、前記索引語ごとの前記区間映像内での出現数に基づいて該区間映像に関する特徴量を生成する区間映像特徴量生成手段と、前記区間映像特徴量生成手段によって生成される各区間映像に関する特徴量に基づき、隣り合った複数の区間映像からなる連続区間映像に関する特徴量を生成する連続区間映像特徴量生成手段と、を含む特徴量生成装置としてコンピュータを機能させるプログラムである。
また、前記の課題を解決するプログラムは、映像に対応する文字データ又は音声信号のうちの少なくとも一方から、1又は複数の索引語を抽出する抽出手段、及び前記索引語ごとの前記映像内での出現数に基づいて前記映像に関する特徴量を生成する特徴量生成手段、としてコンピュータを機能させるためのプログラムである。
以下、本発明の実施の形態について、図面を参照しながら説明する。
図1は、本実施の形態にかかる要約映像検出システム1のシステム構成を示す図である。同図に示すように、要約映像検出システム1は、映像データベース2、特徴ベクトル生成装置3、特徴ベクトルデータベース4、要約映像検出装置5を含んで構成される。
図1は、各装置の機能ブロックも示している。同図に示すように、映像データベース2は機能的に蓄積映像記憶部20を含んで構成されており、蓄積映像記憶部20は番組映像記憶部21を含んで構成される。また、特徴ベクトル生成装置3は機能的に、番組映像特徴ベクトル生成部30、希少性情報算出部31、蓄積映像特徴ベクトル生成部32を含んで構成される。また、特徴ベクトルデータベース4は機能的に、番組映像特徴ベクトル記憶部40及び蓄積映像特徴ベクトル記憶部41を含んで構成される。また、要約映像検出装置5は機能的に、番組指定受付部50、番組映像特徴ベクトル取得部51、類似度算出部52、蓄積映像特徴ベクトル取得部53、類似度記憶部54、要約映像検出部55を含んで構成される。以下、これら各部について詳細に説明する。
まず、映像データベース2について説明する。蓄積映像記憶部20は、過去にテレビ放送された映像(番組として編集・放送された映像である番組映像の他、スポット映像や告知映像等も含む。以下、蓄積映像という。)を、所定の映像形式(例えばMPEG等。)により記憶している。なお、蓄積映像記憶部20は、映像に対応する文字データ(クローズドキャプション(CC)や、番組ごとの電子番組ガイド(EPG)など)や音声信号も、映像に同期させて記憶する。
次に、特徴ベクトル生成装置3及び特徴ベクトルデータベース4について説明する。以下、まず番組映像に関する特徴ベクトルの生成について説明する。番組映像特徴ベクトル生成部30は、蓄積映像記憶部20に記憶される各番組映像について、それぞれに関する特徴ベクトルを生成する。以下、具体的に説明する。
図2は、番組映像特徴ベクトル生成部30の内部構成を示す図である。同図に示すように、番組映像特徴ベクトル生成部30は抽出部300及び特徴ベクトル生成部301を含んで構成される。
抽出部300は、番組映像に付加された文字データ又は音声信号のうちの少なくとも一方から、1又は複数の索引語を抽出する(抽出手段)。
抽出部300の処理について、その内部構成を示す図面を参照しながら説明する。図3は、抽出部300の内部構成を示す図である。同図に示すように、抽出部300は、ストリーム分離部3000、索引語抽出部3002、音声認識部3003、索引語抽出部3004、統合部3005を含んで構成される。
ストリーム分離部3000は、蓄積映像記憶部20に記憶される映像から、付加されている文字データ(クローズドキャプションや電子番組ガイド情報)及び音声信号を分離する。そして、文字データを索引語抽出部3002に、音声信号を音声認識部3003に、それぞれ出力する。
音声認識部3003は、ストリーム分離部3000から入力された音声信号に所定の音声認識処理を施すことにより、該音声信号を文字データに変換する。音声認識部3003は、取得した文字データを索引語抽出部3004に出力する
索引語抽出部3002及び索引語抽出部3004は、それぞれストリーム分離部3000及び音声認識部3003から入力される各文字データを解析することにより、各文字データから索引語を抽出する。なお、文字データの解析には形態素解析を用いることが好適であり、その場合、索引語には形態素と品詞の組み合わせを用いる。すなわち、形態素が同じでも、品詞が異なれば異なる索引語となる。また、索引語抽出部3002及び索引語抽出部3004は、文字データを構成する索引語の全てを抽出することとしてもよいし、例えば名詞のみを抽出することとしてもよい。
統合部3005は、索引語抽出部3002及び索引語抽出部3004の各抽出結果を統合し、1つの抽出結果を出力する。具体的には、索引語抽出部3002及び索引語抽出部3004の一方が抽出結果を得られなかった場合(番組映像に対応する文字データ又は音声信号がない場合等)には、他方により得られた抽出結果を出力する。また、索引語抽出部3002及び索引語抽出部3004の両方が抽出結果を得た場合、信頼性の高い(音声認識処理を経ていない)索引語抽出部3002の抽出結果を出力する。ただし、クローズドキャプションにおいては、画面上に文字スーパーとして表示された情報は省略されることがある。クローズドキャプションにおいて上記省略がある場合、クローズドキャプション内にはその省略箇所を表す記号が含まれている。統合部3005は、この記号を検出することにより、省略部分を検出する。そして、検出した省略部分を索引語抽出部3004の抽出結果により置換する。
図2に戻り、特徴ベクトル生成部301は、統合部3005が出力する抽出結果を用い、索引語ごとの番組映像内での出現数を取得する。そして、取得した索引語ごとの出現数に基づいて該番組映像に関する特徴ベクトルを生成する(特徴量生成手段)。このとき、特徴ベクトル生成部301は、蓄積映像内での出現数に基づいて決定される索引語ごとの希少性にも基づいて、特徴ベクトルの生成を行う。
具体的には、特徴ベクトル生成部301は、以下の式(1)により、特徴ベクトルの索引語ごとの要素である特徴量を生成する。ここで、tf(t,Pi)は番組Piにおける索引語tの出現数であり、S(t)は、索引語tの希少性を表す希少性情報である(後述)。また、v Piは番組Piの索引語tについての特徴量である。
Figure 0004731522
特徴ベクトル生成部301は、統合部3005が出力する抽出結果に含まれる全ての索引語について、式(1)の計算を行う。そして、その結果を用い、式(2)により、各索引語tについての特徴量により構成されるベクトルである特徴ベクトルVPiを生成する。ここで、値Dは、後述する番組映像特徴ベクトル記憶部40に記憶される索引語の数である。統合部3005が出力する抽出結果に含まれていなかった索引語については、特徴ベクトル生成部301は、特徴ベクトルVPiを生成するにあたり、v Piにゼロを代入しておく。
Figure 0004731522
特徴ベクトル生成部301は、上記特徴ベクトルVPiを、番組映像特徴ベクトル記憶部40に記憶させる。
図4は、番組映像特徴ベクトル記憶部40の記憶内容の具体例を示す図である。同図に示すように、番組映像特徴ベクトル記憶部40は、索引語ごとに、テレビ番組ごとの出現数及び上記特徴量を記憶している。なお、番組映像特徴ベクトル記憶部40に記憶される索引語は、過去に蓄積映像(番組映像を含む。)から抽出された索引語全てである。
特徴ベクトル生成部301は、上記特徴ベクトルVPiを番組映像特徴ベクトル記憶部40に記憶させる際、既に記憶されている索引語については、その索引語の行に、取得した出現数tf(t,Pi)及び算出した特徴量v Piを記憶させる。一方、まだ記憶されていない索引語については、その索引語の行を追加し、追加した行に、取得した出現数tf(t,Pi)及び算出した特徴量v Piを記憶させる。その他の行については、出現数及び特徴量ともにゼロを記憶させる。
ここで、上記希少性情報S(t)について説明する。希少性情報算出部31は、番組映像特徴ベクトル記憶部40の記憶内容に基づいて、索引語tごとの希少性情報S(t)を算出する。具体的には、式(3)又は式(4)を用いて、希少性情報S(t)を算出する。なお、pf(t)は索引語tの出現数が1以上である番組映像の数であり、希少性情報算出部31は、番組映像特徴ベクトル記憶部40の記憶内容に基づいてpf(t)を算出する。また、Nは過去の番組映像の総数である。
Figure 0004731522
Figure 0004731522
式(3)はIDF(Inverse Document Frequency)値であり、式(4)はエントロピーに基づく値である。これらの各式を用いることにより、ある特定の番組映像のみに出現するような索引語の希少性情報S(t)の値は、そうでない索引語(様々な番組映像に出現する索引語)の希少性情報S(t)の値に比べて高くなる。
さて、次に、蓄積映像(番組映像を含む。)に関する特徴ベクトルの生成について説明する。蓄積映像特徴ベクトル生成部32は、蓄積映像記憶部20に記憶される蓄積映像について、特徴ベクトルを生成する。以下、具体的に説明する。
図5は、蓄積映像特徴ベクトル生成部32の内部構成を示す図である。同図に示すように、蓄積映像特徴ベクトル生成部32は抽出部302及び特徴ベクトル生成部303を含んで構成される。
抽出部302の処理は、番組映像特徴ベクトル生成部30に含まれる抽出部300の処理とほぼ同様であるが、蓄積映像の区間ごとに、区間映像に付加された文字データ又は音声信号のうちの少なくとも一方から、1又は複数の索引語を抽出するという点で、抽出部300と異なっている。この区間は、予め定められた時間長の区間であることが好適であるが、特に、コマーシャル映像やスポット映像の時間長の最大公約数の区間とすることが好適である。
特徴ベクトル生成部303は、区間映像特徴ベクトル生成部3030及び連続区間映像特徴ベクトル生成部3031を含んで構成される。
区間映像特徴ベクトル生成部3030は、抽出部302が出力する抽出結果を用い、索引語ごとの区間映像内での出現数を取得する。そして、取得した索引語ごとの出現数に基づいて区間映像に関する特徴ベクトルを生成する(区間映像特徴量生成手段)。具体的な特徴ベクトルの生成方法は、特徴ベクトル生成部301とほぼ同様である。
ただし、特徴ベクトル生成部301は番組映像ごとに特徴ベクトルを生成するが、区間映像特徴ベクトル生成部3030は区間映像ごとに特徴ベクトルを生成するという違いがある。このため、特徴ベクトルを表す記号としては異なるものを使用するのが好適であり、以下に定義しておく。まず、時刻Txに始まり時刻Tyで終わる区間映像を、Tx〜Tyと表す。その結果、式(1)は、次の式(5)のように書き直される。ここで、v Tx〜Tyは区間番組Tx〜Tyの索引語tについての特徴量である。
Figure 0004731522
また、区間映像Tx〜Tyに関する特徴ベクトルは、式(6)のVTx〜Tyで表される。
Figure 0004731522
連続区間映像特徴ベクトル生成部3031は、区間映像特徴ベクトル生成部3030によって生成される各区間映像に関する特徴ベクトルに基づき、隣り合った複数の区間映像からなる連続区間映像に関する特徴ベクトルを生成する(連続区間映像特徴ベクトル生成手段)。具体的には、連続区間映像特徴ベクトル生成部3031は、隣り合った複数の区間映像からなる連続区間映像に関する特徴ベクトルを、要素ごとに足し算することにより、連続区間映像に関する特徴ベクトルを生成する。
図6は、連続区間映像に関する特徴ベクトルの例を示す図である。同図の例では、まず、区間映像ごとの特徴ベクトルVT1〜T2、VT2〜T3、VT3〜T4、VT4〜T5がそれぞれ生成される。次に、隣接する2区間ずつの特徴ベクトルVT1〜T3=VT1〜T2+VT2〜T3、VT3〜T5=VT3〜T4+VT4〜T5が生成される。さらに、隣接する4区間ずつの特徴ベクトルVT1〜T5=VT1〜T3+VT3〜T5も生成される。このような生成が、以降も繰り返される。この例では、結果として、特徴ベクトルが階層的に生成されており、同一階層内での重複はない。
図7は、連続区間映像に関する特徴ベクトルの他の例を示す図である。同図の例は、図6の例において、同一階層内での重複を認める場合の例である。すなわち、この例では、隣接する2区間ずつの特徴ベクトルを生成する際、特徴ベクトルVT1〜T3=VT1〜T2+VT2〜T3、VT3〜T5=VT3〜T4+VT4〜T5の他、VT2〜T4=VT2〜T3+VT3〜T4も生成される。VT2〜T4とVT1〜T3、VT2〜T4とVT3〜T5は、それぞれ重複区間を有している。さらに上位の階層についても、同様に重複を認めて特徴ベクトルが生成される。
なお、このように階層的に特徴ベクトルを算出する場合の階層の深さは、最下位階層の区間長に基づいて決まる最上位階層の区間長が、要約映像として検出したい映像の時間長になるように決定される。図6に示した例を取り上げて具体的な例を挙げると、最下位階層の区間長が10秒程度であり、要約映像として検出したい映像の時間長が数分程度であれば、5〜6階層となる。
区間映像特徴ベクトル生成部3030及び連続区間映像特徴ベクトル生成部3031は、以上のようにして生成した特徴ベクトルを、蓄積映像特徴ベクトル記憶部41に記憶させる。
図8は、蓄積映像特徴ベクトル記憶部41の記憶内容の具体例を示す図である。同図に示すように、蓄積映像特徴ベクトル記憶部41は、索引語ごとに、区間ごとの上記特徴量を記憶している。なお、蓄積映像特徴ベクトル記憶部41に記憶される索引語は、過去に蓄積映像(番組映像を含む。)から抽出された索引語全てである。
区間映像特徴ベクトル生成部3030及び連続区間映像特徴ベクトル生成部3031は、生成した特徴ベクトルを蓄積映像特徴ベクトル記憶部41に記憶させる際、既に記憶されている索引語については、その索引語の行に、算出した特徴量v Tx〜Tyを記憶させる。一方、まだ記憶されていない索引語については、その索引語の行を追加し、追加した行に、特徴量v Tx〜Tyを記憶させる。その他の行の特徴量についてはゼロを記憶させる。
次に、図1に戻って要約映像検出装置5について説明する。まず、要約映像検出装置5はディスプレイなどの表示手段及びキーボード・マウスなどの入力手段を備えており、番組指定受付部50は、これらを用いて、番組映像特徴ベクトル記憶部40に記憶される各番組映像のうちの1つのユーザによる指定を受け付ける。
番組映像特徴ベクトル取得部51は、ユーザにより指定された番組映像について、特徴ベクトル生成装置3により生成され、番組映像特徴ベクトル記憶部40に記憶された特徴ベクトルを取得する(番組映像特徴ベクトル取得手段)。そして、取得した特徴ベクトルを類似度算出部52に出力する。
番組映像特徴ベクトル取得部51から特徴ベクトルの入力を受けた類似度算出部52は、蓄積映像特徴ベクトル取得部53(蓄積映像特徴ベクトル取得手段)を用い、蓄積映像の各区間それぞれについて、特徴ベクトル生成装置3により生成され、蓄積映像特徴ベクトル記憶部41に記憶された特徴ベクトルを取得する。このとき取得対象とする区間は、番組映像のスポット映像や告知映像が番組放送の数週間前から放送され始めることに鑑み、指定された番組映像が放送された日前数週間程度の区間とすることが好ましい。
類似度算出部52は、蓄積映像特徴ベクトル取得部53により取得される各特徴ベクトルを用い、蓄積映像の区間(連続区間を含む。)ごとに、該区間に関する特徴ベクトルと、番組映像に関する特徴ベクトルと、の類似度を算出する(類似度算出手段)。
類似度算出部52は、類似度の算出を式(7)に基づいて行うことが好適である。ここで、sim(VPi,VTx〜Ty)は、番組映像Piに関する特徴ベクトルVpiと区間映像Tx〜Tyに関する特徴ベクトルVTx〜Tyの類似度である。また、I(t)は、番組映像Pi内における索引語tの重要度を表す重み係数である。例えば、電子番組ガイド内に、番組映像Piのタイトル、副題、出演者として現れている索引語ほど、I(t)を大きな値とする。また、番組映像Pi内での出現数が高く、かつ上記希少性が高い索引語ほど、I(t)を大きな値とする。なお、I(t)の値を決定するためのこれらの条件は適宜決定されるものであるが、過去のデータからの機械学習により適切な条件を決定することとしてもよい。
Figure 0004731522
式(7)によれば、重み係数I(t)によって重み付けられた特徴ベクトル同士がなす角の余弦値によって類似度を表していることになるので、特徴ベクトルの絶対値は類似度に影響しない。映像が長いほど特徴ベクトルの絶対値は大きくなるが、式(7)を用いることにより、映像の長さに影響されない類似度を算出することが可能となっている。
類似度算出部52は、算出した区間映像ごとの類似度を類似度記憶部54に記憶させる。
ここで、蓄積映像特徴ベクトル取得部53による特徴ベクトル取得の順序について説明する。第1の方法では、蓄積映像特徴ベクトル取得部53は、まず始点を決め、その始点から順次区間長を長くして、区間映像に関する特徴ベクトルを取得していく。そして、区間長が所定の最大長に達した場合、始点に該最大長を加算して新たな始点を取得する。以降の処理は同様である。
また、第2の方法では、蓄積映像特徴ベクトル取得部53は、まず始点を決め、その始点から所定区間長の区間映像に関する特徴ベクトルを取得する。次に、始点に所定時間長(所定時間長>所定区間長)を加算して新たな始点を取得する。以降の処理は同様である。
なお、この第2の方法を採用する場合、蓄積映像特徴ベクトル取得部53が特徴ベクトルを取得する都度、類似度算出部52による類似度算出を行うことが好ましい。そして、ある始点から所定区間長の類似度が所定値以下である場合(ほとんど場合或いは全く類似していない場合)、又は、該類似度が所定値以上である場合(極めてよく類似している場合)、始点に加算する値を、上記所定時間長ではなく上記所定区間長とすることが好ましい。
図9は、上記第2の方法を採用する場合において、蓄積映像特徴ベクトル取得部53により取得される特徴ベクトルの例を示す図である。同図の例では、所定時間長が1区間分で、所定区間長が4区間分となっている。同図においては、特徴ベクトルVT3〜T7の類似度が所定値以下であった場合であり、この場合、蓄積映像特徴ベクトル取得部53は、VT4〜T8、VT5〜T9、VT6〜T10、及びVT7〜T11の取得をスキップし、VT3〜T7の次にVT8〜T12を取得している。こうすることで、類似度算出にかかる時間を削減し、処理を高速化することができる。
さて、要約映像検出部55は、類似度記憶部54に記憶される類似度算出部52の算出結果に基づいて、蓄積映像の各区間及び各連続区間の中から、番組映像の要約映像を検出する(要約映像検出手段)。具体的には、類似度の最も高い区間映像を要約映像として検出してもよいし、類似度の高い順にいくつかの区間映像を要約映像として検出してもよい。
要約映像検出部55は、要約映像検出装置5の表示手段を用い、ユーザに対し、検出した要約映像を提示する。複数の区間映像を提示する場合には、類似度の順に表示することが好ましい。
最後に、以上説明した要約映像検出装置5の各処理について、処理フローを参照しながら、再度より詳細に説明する。
図10は、要約映像検出装置5の処理フローを示すフロー図である。同図に示すように、要約映像検出装置5は、まず、番組映像Piに関する特徴ベクトルVpiを取得する(ステップS1)。次に、蓄積映像の検索範囲を設定し(ステップS2)、区間長最大値TLMAX、区間長増分T、蓄積映像内の始点T、映像区間長Tをそれぞれ初期設定する(ステップS3〜ステップS6)。
次に、要約映像検出装置5は、映像区間長Tが区間長最大値TLMAX以下であるか否かを判定し(ステップS7)、以下でなければ、Tに映像区間長TLMAXを加算し、ステップS6に処理を戻す(ステップS8)。
一方、ステップS7の判定において、映像区間長Tが区間長最大値TLMAX以下であると判定されると、要約映像検出装置5は、次に、始点Tから映像区間長T分の区間が、ステップS2で初期設定した検索範囲内に含まれるか否かを判定する(ステップS8)。その結果、検索範囲外であれば、ステップS14に処理を移す。検索範囲内であれば、始点Tから映像区間長T分の区間(Tx〜Tyとする。)に関する特徴ベクトルVTx〜Tyを取得する。そして、特徴ベクトルVpiと特徴ベクトルVTx〜Tyの類似度を算出し(ステップS12)、類似度記憶部54に記憶させる(ステップS13)。次に、要約映像検出装置5は、TにTを加算し、処理をS7に戻す。
ステップS14では、要約映像検出装置5は、類似度記憶部54に記憶された類似度に基づいて要約映像を検出する。そして、類似度の高い順にソートしてユーザに対して提示する。
以上説明したように、要約映像検出システム1によれば、上記特徴ベクトルが映像の意味内容を反映しているので、要約映像検出装置5によって行われる要約画像の検出が、幅広い映像に適用可能な、検出精度の高いものとなる。
また、特徴ベクトル生成装置3は、特徴ベクトル生成の基になる文字データを、クローズドキャプションや電子番組ガイドから文字データを取得することができる。
また、特徴ベクトル生成装置3は、映像の区間ごとに、特徴ベクトルを作成することができる。また、映像の区間ごとに特徴ベクトルを生成したことから、階層的に特徴ベクトルを算出することができるので、特徴ベクトル算出の処理負荷を軽減することが可能になる。
さらに、要約映像検出システム1では、様々な長さの映像区間を要約映像候補として取り扱うことが可能になっている。
以上本発明の実施の形態について説明したが、本発明はこうした実施の形態に何等限定されるものではなく、本発明は、その要旨を逸脱しない範囲において、種々なる態様で実施され得ることは勿論である。
例えば、上記実施の形態では、蓄積映像に関する特徴ベクトルを予め算出して記憶しておいたが、番組指定受付部50によって番組映像が指定されたときに蓄積映像に関する特徴ベクトルを算出するようにしてもよい。
また、各連続区間に関する特徴ベクトルの算出において、上記実施の形態では、より下位層の区間に関する特徴ベクトルの足し算により求めていたが、より上位の特徴ベクトルから、より下位の特徴ベクトルを引くことにより求めることとしてもよい。例えば、T1〜T9の特徴ベクトルVT1〜T9は、VT1〜T10−VT9〜T10として求めることが可能である。
また、特徴ベクトル生成装置3及び要約映像検出装置5の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、上記各処理を行ってもよい。
ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、この「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに、「コンピュータ読み取り可能な記録媒体」には、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
さらに、上記プログラムは、上述した各機能の一部を実現するためのものであってもよい。さらに、上述した各機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
本発明の実施の形態にかかる要約映像検出システムのシステム構成を示す図である。 本発明の実施の形態にかかる番組映像特徴ベクトル生成部の内部構成を示す図である。 本発明の実施の形態にかかる抽出部の内部構成を示す図である。 本発明の実施の形態にかかる番組映像特徴ベクトル記憶部の記憶内容の具体例を示す図である。 本発明の実施の形態にかかる蓄積映像特徴ベクトル生成部の内部構成を示す図である。 本発明の実施の形態にかかる連続区間映像に関する特徴ベクトルの例を示す図である。 本発明の実施の形態にかかる連続区間映像に関する特徴ベクトルの例を示す図である。 本発明の実施の形態にかかる蓄積映像特徴ベクトル記憶部の記憶内容の具体例を示す図である。 本発明の実施の形態にかかる蓄積映像特徴ベクトル取得部により取得される特徴ベクトルの例を示す図である。 本発明の実施の形態にかかる要約映像検出装置の処理フローを示すフロー図である。
符号の説明
1 要約映像検出システム、
2 映像データベース、
3 特徴ベクトル生成装置、
4 特徴ベクトルデータベース、
5 要約映像検出装置、
20 蓄積映像記憶部、
30 番組映像特徴ベクトル生成部、
31 希少性情報算出部、
32 蓄積映像特徴ベクトル生成部、
40 番組映像特徴ベクトル、
41 蓄積映像特徴ベクトル記憶部、
50 番組指定受付部、
51 番組映像特徴ベクトル取得部、
52 類似度算出部、
53 蓄積映像特徴ベクトル取得部、
54 類似度記憶部、
55 要約映像検出部、
55 類似度記憶部、
300,302 抽出部、
301,303 特徴ベクトル生成部、
3000 ストリーム分離部、
3002 索引語抽出部、
3003 音声認識部、
3004 索引語抽出部、
3005 統合部、
3030 区間映像特徴ベクトル生成部、
3031 連続区間映像特徴ベクトル生成部。

Claims (4)

  1. 映像の区間ごとに、区間映像に対応する文字データ又は音声信号のうちの少なくとも一方から、1又は複数の索引語を抽出する抽出手段と、
    前記索引語ごとの前記区間映像内での出現数に基づいて該区間映像に関する特徴量を生成する区間映像特徴量生成手段と、
    前記区間映像特徴量生成手段によって生成される各区間映像に関する特徴量に基づき、隣り合った複数の区間映像からなる連続区間映像に関する特徴量を生成する連続区間映像特徴量生成手段と、
    を含むことを特徴とする特徴量生成装置。
  2. 映像に対応する文字データ又は音声信号のうちの少なくとも一方から、1又は複数の索引語を抽出する抽出手段と、
    前記索引語ごとの前記映像内での出現数に基づいて前記映像に関する特徴量を生成する特徴量生成手段と、
    を含む特徴量生成装置により生成された特徴量を取得して番組映像の要約映像を検出する要約映像検出装置であって、
    蓄積映像の各区間それぞれについて、前記特徴量生成装置により生成された特徴量を取得する蓄積映像特徴量取得手段と、
    番組映像について、前記特徴量生成装置により生成された特徴量を取得する番組映像特徴量取得手段と、
    前記蓄積映像の前記区間ごとに、該区間に関する特徴量と、前記番組映像に関する特徴量と、の類似度を算出する類似度算出手段と、
    前記類似度算出手段の算出結果に基づいて、前記蓄積映像の前記各区間の中から前記番組映像の要約映像を検出する要約映像検出手段と、
    を含むことを特徴とする要約映像検出装置。
  3. 映像の区間ごとに、区間映像に対応する文字データ又は音声信号のうちの少なくとも一方から、1又は複数の索引語を抽出する抽出手段と、
    前記索引語ごとの前記区間映像内での出現数に基づいて該区間映像に関する特徴量を生成する区間映像特徴量生成手段と、
    前記区間映像特徴量生成手段によって生成される各区間映像に関する特徴量に基づき、隣り合った複数の区間映像からなる連続区間映像に関する特徴量を生成する連続区間映像特徴量生成手段と、
    を含む第1の特徴量生成装置により生成された特徴量を取得するとともに、
    映像に対応する文字データ又は音声信号のうちの少なくとも一方から、1又は複数の索引語を抽出する抽出手段と、
    前記索引語ごとの前記映像内での出現数に基づいて前記映像に関する特徴量を生成する特徴量生成手段と、
    を含む第2の特徴量生成装置により生成された特徴量を取得して、
    番組映像の要約映像を検出する要約映像検出装置であって、
    蓄積映像の各区間及び隣り合った複数の区間からなる連続区間それぞれについて、前記第1の特徴量生成装置により生成された特徴量を取得する蓄積映像特徴量取得手段と、
    番組映像について、前記第2の特徴量生成装置により生成された特徴量を取得する番組映像特徴量取得手段と、
    前記蓄積映像の前記区間及び前記連続区間ごとに、該区間又は該連続区間に関する特徴量と、前記番組映像に関する特徴量と、の類似度を算出する類似度算出手段と、
    前記類似度算出手段の算出結果に基づいて、前記蓄積映像の前記各区間及び前記各連続区間の中から前記番組映像の要約映像を検出する要約映像検出手段と、
    を含むことを特徴とする要約映像検出装置。
  4. 映像の区間ごとに、区間映像に対応する文字データ又は音声信号のうちの少なくとも一方から、1又は複数の索引語を抽出する抽出手段と、
    前記索引語ごとの前記区間映像内での出現数に基づいて該区間映像に関する特徴量を生成する区間映像特徴量生成手段と、
    前記区間映像特徴量生成手段によって生成される各区間映像に関する特徴量に基づき、隣り合った複数の区間映像からなる連続区間映像に関する特徴量を生成する連続区間映像特徴量生成手段と、
    を含む特徴量生成装置としてコンピュータを機能させるプログラム。
JP2007148389A 2007-06-04 2007-06-04 特徴量生成装置、要約映像検出装置、及びプログラム Active JP4731522B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007148389A JP4731522B2 (ja) 2007-06-04 2007-06-04 特徴量生成装置、要約映像検出装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007148389A JP4731522B2 (ja) 2007-06-04 2007-06-04 特徴量生成装置、要約映像検出装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2008301426A JP2008301426A (ja) 2008-12-11
JP4731522B2 true JP4731522B2 (ja) 2011-07-27

Family

ID=40174465

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007148389A Active JP4731522B2 (ja) 2007-06-04 2007-06-04 特徴量生成装置、要約映像検出装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP4731522B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467289B2 (en) * 2011-08-02 2019-11-05 Comcast Cable Communications, Llc Segmentation of video according to narrative theme

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000023112A (ja) * 1998-06-30 2000-01-21 Toshiba Corp 情報フィルタリングシステム、情報フィルタリング装置、映像機器および情報フィルタリング方法
JP2004333737A (ja) * 2003-05-06 2004-11-25 Nec Corp メディア検索装置およびメディア検索プログラム
JP2005340880A (ja) * 2004-05-24 2005-12-08 Casio Comput Co Ltd 端末装置および端末処理プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006050483A (ja) * 2004-08-09 2006-02-16 Ricoh Co Ltd 映像解析装置、映像解析方法およびコンテンツ作成装置、並びに、プログラムおよび記録媒体
JP2007110188A (ja) * 2005-10-11 2007-04-26 Sony Corp 記録装置、記録方法、再生装置および再生方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000023112A (ja) * 1998-06-30 2000-01-21 Toshiba Corp 情報フィルタリングシステム、情報フィルタリング装置、映像機器および情報フィルタリング方法
JP2004333737A (ja) * 2003-05-06 2004-11-25 Nec Corp メディア検索装置およびメディア検索プログラム
JP2005340880A (ja) * 2004-05-24 2005-12-08 Casio Comput Co Ltd 端末装置および端末処理プログラム

Also Published As

Publication number Publication date
JP2008301426A (ja) 2008-12-11

Similar Documents

Publication Publication Date Title
US11468109B2 (en) Searching for segments based on an ontology
US11197036B2 (en) Multimedia stream analysis and retrieval
US9888279B2 (en) Content based video content segmentation
KR102068790B1 (ko) 컴퓨터 실행 방법, 시스템 및 컴퓨터 판독 가능 매체
KR100915847B1 (ko) 스트리밍 비디오 북마크들
US8750681B2 (en) Electronic apparatus, content recommendation method, and program therefor
US7209942B1 (en) Information providing method and apparatus, and information reception apparatus
US10652592B2 (en) Named entity disambiguation for providing TV content enrichment
US9837125B2 (en) Generation of correlated keyword and image data
US20070101266A1 (en) Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing
KR20010086393A (ko) 비디오 세그먼트를 다른 비디오 세그먼트 또는 정보원에링크시키는 방법 및 장치
JP2006287319A (ja) 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム
US20020144293A1 (en) Automatic video retriever genie
EP2336900A2 (en) Search device and search method
JP5335500B2 (ja) コンテンツ検索装置及びコンピュータプログラム
US20080016068A1 (en) Media-personality information search system, media-personality information acquiring apparatus, media-personality information search apparatus, and method and program therefor
KR20080112975A (ko) 스크립트 정보 기반 동영상 검색을 위한 데이터베이스 구축방법, 데이터베이스 구축 시스템, 데이터베이스 구축용컴퓨터 프로그램이 기록된 기록매체 및 이를 이용한 동영상검색 방법
JP4731522B2 (ja) 特徴量生成装置、要約映像検出装置、及びプログラム
KR20080107143A (ko) 오디오 신호처리 기반의 음악 및 동영상 추천 시스템 및방법
JP2007060606A (ja) ビデオの自動構造抽出・提供方式からなるコンピュータプログラム
KR20110008711A (ko) 자막정보 검색 기능을 제공하는 방법, 단말기, 서버 및 시스템
US20190182517A1 (en) Providing Enrichment Data That is a Video Segment
JP2007006116A (ja) 映像インデキシング装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091016

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110419

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4731522

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250