JP4456573B2 - 映像抽出装置及び映像抽出プログラム - Google Patents

映像抽出装置及び映像抽出プログラム Download PDF

Info

Publication number
JP4456573B2
JP4456573B2 JP2006060339A JP2006060339A JP4456573B2 JP 4456573 B2 JP4456573 B2 JP 4456573B2 JP 2006060339 A JP2006060339 A JP 2006060339A JP 2006060339 A JP2006060339 A JP 2006060339A JP 4456573 B2 JP4456573 B2 JP 4456573B2
Authority
JP
Japan
Prior art keywords
video
morpheme
sentence
similarity
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006060339A
Other languages
English (en)
Other versions
JP2007243359A (ja
Inventor
吉彦 河合
英樹 住吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2006060339A priority Critical patent/JP4456573B2/ja
Publication of JP2007243359A publication Critical patent/JP2007243359A/ja
Application granted granted Critical
Publication of JP4456573B2 publication Critical patent/JP4456573B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Description

本発明は、映像の内容の一部を示す情報に基づいて、映像からこの情報に対応する部分を抽出する映像抽出装置及び映像抽出プログラムに関する。
従来、ある分野の映像に対して、その映像の一部分を抽出して要約映像や、番組紹介のためのスポット映像を生成することが行われている。これらの技術において、映像の一部分を抽出する際には、その分野の映像から人手によって抽出する場合の知識を利用している。例えば、野球の映像において、スロー映像の前は得点シーンなどの重要なプレーの映像である可能性が高く、また、この位置に文字スーパーが表示されたときは得点が入ったときである、というような映像上の知識を利用している。更に、スポーツの映像においては、歓声の大きい区間は重要なシーンである、という音声情報を利用している。
また、映像から要約映像を生成する技術が開示されている(特許文献1参照)。ここでは、ユーザの嗜好に関するキーワードが、映像のメタデータ内の、映像内で発生した事象をイベントとして列挙したイベント列にどれだけ含まれているかに基づいてイベントの重要度を算出し、重要度の高いイベントに対応する区間の映像を抽出して要約映像とする。
特開2004−289513号公報(段落番号0022〜0074)
しかしながら、人手によって抽出する場合の知識を利用して要約映像を生成する場合に、様々な分野の映像に対応するためには、様々な分野の映像について要約映像を生成するための知識を有している必要がある。また、それらは、人手によって感覚的に抽出する場合がほとんどであり、抽出のための規則が明確ではない。更に、どの知識がどの程度の重要性を持つのかを決定する方法も明確でなく、ある分野の映像に複数の抽出方法があった場合に、どの抽出方法を優先するかを決定することができない。また、特許文献1に記載の技術では、映像に対応するメタデータがない場合には適用できないという問題があった。
本発明は、前記従来技術の問題を解決するために成されたもので、様々な分野の映像に対応し、人手によって抽出する場合の知識やメタデータを利用せず、映像の内容の一部を示す情報から、この情報に対応する映像を抽出することができる映像抽出装置及び映像抽出プログラムを提供することを目的とする。
前記課題を解決するため、請求項1に記載の映像抽出装置は、映像と、前記映像に対応する音声のテキストデータである音声テキストデータと、前記映像の一部分の内容を示す抽出映像内容情報とを入力し、前記抽出映像内容情報に対応する前記映像の一部分を抽出する映像抽出装置であって、形態素確率情報記憶手段と、類似度算出手段と、区間検出手段と、区間映像抽出手段とを備える構成とした。
かかる構成によれば、映像抽出装置は、形態素確率情報記憶手段に、複数の他の映像に対応する音声のテキストデータである他音声テキストデータに含まれる各々の形態素の、複数の他音声テキストデータにおける出現確率を示す出現確率情報と、当該形態素とを対応させた形態素確率情報を記憶する。
更に、映像抽出装置は、類似度算出手段によって、形態素確率情報において、抽出映像内容情報に含まれる各々の形態素に対応する出現確率情報と、音声テキストデータを複数の区分に分割した音声区分データの各々に当該形態素が出現する頻度とに基づいて、抽出映像内容情報と、音声区分データとが類似する度合いを示す類似度を算出する。ここで、出現確率の高い形態素は、様々な映像に対応する音声に出現するものであるため、映像の特徴を示すものではなく、一方、出現確率の低い形態素は特定の映像や特定の区間の映像に対応する音声のみに出現するものであるため、その映像の特徴を示している可能性が高い。そのため、出現確率の低い形態素を、抽出映像内容情報と音声区分データとが共通して多く含むほど、この抽出映像内容情報と音声区分データとの各々によって示される映像の内容の特徴が類似する。これによって、映像抽出装置は、抽出映像内容情報に含まれる各々の形態素の出現確率情報と、当該形態素が各々の音声区分データに出現する頻度とに基づいて、各々の音声区分データと抽出映像内容情報の類似度を算出することができる。
また、映像抽出装置は、区間検出手段によって、類似度に基づいて、抽出映像内容情報に対応する音声区分データを選定し、当該音声区分データに対応する映像の区間を検出し、区間映像抽出手段によって、この検出された区間の映像を抽出する。これによって、映像抽出装置は、抽出映像内容情報によって示される内容の映像を、入力された映像から抽出することができる。
また、請求項2に記載の映像抽出装置は、請求項1に記載の映像抽出装置において、前記区間映像抽出手段によって抽出された映像をカットに分割するカット分割手段を備える構成とした。
これによって、映像抽出装置は、区間映像抽出手段によって抽出された、音声区分データに対応する区間の映像の途中で映像が大きく切り替わる場合に、連続して撮影された映像区間であるカットの映像に分割することができる。
また、請求項3に記載の映像抽出プログラムは、映像と、前記映像に対応する音声のテキストデータである音声テキストデータと、複数の形態素から構成され、前記映像の一部分の内容を示す抽出映像内容情報とを入力し、形態素確率情報記憶装置に記憶された、複数の他の映像に対応する音声のテキストデータである他音声テキストデータに含まれる各々の形態素の、複数の前記他音声テキストデータにおける出現確率を示す出現確率情報と、当該形態素とを対応させた形態素確率情報に基づいて、前記抽出映像内容情報に対応する前記映像の一部分を抽出するためにコンピュータを、類似度算出手段、区間検出手段、区間映像抽出手段として機能させることとした。
かかる構成によれば、映像抽出プログラムは、類似度算出手段によって、形態素確率情報において、抽出映像内容情報に含まれる各々の形態素に対応する出現確率情報と、音声テキストデータを複数の区分に分割した音声区分データの各々に当該形態素が出現する頻度とに基づいて、抽出映像内容情報と、音声区分データとが類似する度合いを示す類似度を算出する。また、映像抽出プログラムは、区間検出手段によって、類似度に基づいて、抽出映像内容情報に対応する音声区分データを選定し、当該音声区分データに対応する映像の区間を検出し、区間映像抽出手段によって、この検出された区間の映像を抽出する。これによって、抽出映像内容情報によって示される内容の映像を、入力された映像から抽出することができる。
本発明に係る映像抽出装置及び映像抽出プログラムでは、以下のような優れた効果を奏する。請求項1及び請求項3に記載の発明によれば、映像の分野を問わず、かつ、人手によって抽出する場合の知識やメタデータを利用せずに、入力された映像から、抽出映像内容情報によって示される内容の映像を抽出することができる。これによって、抽出したい映像の内容を示す自然文や形態素の羅列を入力するだけで、様々な分野の映像から要約映像や紹介映像等を容易に生成したり、映像の候補を出力することができ、要約映像や紹介映像等を制作する制作者の作業量を軽減することができる。
請求項2に記載の発明によれば、区間映像抽出手段によって抽出された映像は、音声区分データに対応する区間の映像であるため、音声の切れ目と映像の切れ目が一致せずに途中で映像が切り替わり別のシーンの映像が混ざって抽出される場合もあるが、この映像をカットに分割することで、連続して撮影された部分だけを取り出すことができる。
以下、本発明の実施の形態について図面を参照して説明する。
[映像抽出装置の構成]
まず、図1を参照して、本発明における映像抽出装置5を備えるスポット映像生成装置1の構成について説明する。図1は、本発明における映像抽出装置を備えるスポット映像生成装置の構成を模式的に示した模式図である。
スポット映像生成装置1は、外部から入力された紹介文に対応し、入力された映像の一部分から構成されるスポット映像を生成するものである。ここで、スポット映像生成装置1は、形態素希少度算出装置3と、映像抽出装置5とを備える。
形態素希少度算出装置3は、複数の映像に対応する音声のテキストデータ(クローズドキャプション;CC)である放送映像CC(他音声テキストデータ)に含まれる各形態素の希少度(出現確率情報)を算出するものである。なお、希少度とは、複数の放送映像CCにおいて、ある形態素がどれだけ偏って特定の番組の放送映像CCに含まれているかを示すもので、特定の番組の放送映像CCに、ある形態素が偏って多く含まれるほど高い値となる。ここでは、対象となる映像を過去の放送番組の映像としたが、例えば、インターネット等のネットワークから入力される映像であってもよいし、放送波等を介して入力される映像であってもよい。また、ここでは、音声のテキストデータを、当該映像に付加されるCCとしたが、当該映像に対応する音声を音声認識した結果であってもよい。ここで、形態素希少度算出装置3は、放送映像CC記憶手段30と、形態素解析手段31と、希少度算出手段32と、形態素頻度記憶手段33とを備える。
放送映像CC記憶手段30は、複数の放送映像CCを記憶するもので、ハードディスク等の一般的な記憶手段である。ここで記憶された放送映像CCは、放送映像CCを形態素解析手段31によって参照されて用いられる。
ここで、図2を参照して、CCの構成について説明する。図2は、CCの例を示した説明図である。なお、図2では、説明の都合上、CCの各行の左側に行番号を付している。図2に示すように、CCの各行は、タイムコード情報D1と、発話内容情報(以下、CC文D2という)とから構成される。CC文D2は、映像に対応する音声のテキストデータである。ここで、CC内の1つの文が所定の字数以内である場合にはその文が1つのCC文D2となり、1つの文が所定の字数を超える場合には、所定の字数以内に分割されて、それぞれがCC文D2、D2、…となる[例えば、(4)〜(5)行目]。また、タイムコード情報D1は、CC文D2に対応する映像の始点を示す情報である。
図1に戻って説明を続ける。形態素解析手段31は、放送映像CC記憶手段30に記憶された放送映像CCの各々のCC文を形態素解析するものである。ここで、形態素解析手段31は、放送映像CC記憶手段30に記憶された複数の放送映像CCから1つの放送映像CCを選択する。そして、形態素解析手段31は、選択した放送映像CC内のCC文を順次形態素解析する。そして、1つの放送映像CCのすべてのCC文について形態素解析が終了したら、形態素解析手段31は、順次放送映像CCを選択して各CC文について形態素解析を行う。ここで解析された形態素の情報(形態素、品詞、当該形態素が含まれる放送映像CCの番組名等)は、希少度算出手段32に出力される。なお、形態素解析手段31は、一般的な形態素解析システムによって実現することができる。
希少度算出手段32は、形態素解析手段31によって解析された各々の形態素の希少度を算出するものである。ここで算出された希少度は、映像抽出装置5の希少度データ記憶手段56に記憶される。
以下、希少度算出手段32による、ある形態素の希少度の算出方法について説明する。ここで、放送映像CCは複数のCC文から構成され、各々のCC文は形態素の集合から構成される。そして、希少度算出手段32には、それぞれの放送映像CCの各CC文の形態素が入力される。そうすると、希少度算出手段32は、各々の形態素がCC文中に出現する頻度を求め、各々の形態素と、品詞、頻度及び番組名とを対応させて形態素頻度記憶手段33に記憶する。そして、すべての放送映像CCの各CC文についての各々の形態素の頻度の解析が終了したら、各々の形態素についてエントロピを算出する。このエントロピは、形態素が、放送映像CC記憶手段30に記憶されるすべての放送映像CCにおいて、どの程度偏って出現しているかを示す。
希少度算出手段32は、ある形態素tがある放送映像CCgに含まれる確率P(t,g)を、以下の式(1)によって算出する。ここで、放送映像CCgは、複数のCC文の集合で表され、Gは、放送映像CC記憶手段30に記憶される放送映像CCの集合を表し、tf(t、l)は、CC文l中に出現する形態素tの頻度を表す。
Figure 0004456573
そして、希少度算出手段32は、形態素tのエントロピH(t)を、以下の式(2)によって算出する。このエントロピH(t)の値が小さいほど、特定の番組に偏って出現している形態素ということができる。
Figure 0004456573
そして、ここで、希少度算出手段32は、偏って出現している形態素に対して大きな値を与えるようにするため、エントロピH(t)の増減を逆にした希少度S(t)を、以下の式(3)によって算出する。なお、ここで、|G|は、放送映像CC記憶手段30に記憶される放送映像CCの総数を示す。
Figure 0004456573
希少度算出手段32は、各々の形態素の希少度S(t)を求め、各々の形態素と、品詞及び希少度S(t)とを対応させて映像抽出装置5の希少度データ記憶手段56に記憶する。なお、この希少度S(t)は、過去の放送番組において、あらゆる番組で幅広く使用されている形態素では低い値に、特定の番組においてのみ使用される、あるいは、過去の放送番組でほとんど使用されていない形態素では高い値になる。そして、この形態素希少度算出装置3による形態素の希少度の算出は、事前に一度だけ行い、映像抽出装置5の希少度データ記憶手段56に記憶しておけばよい。
形態素頻度記憶手段33は、複数の放送映像CCに含まれる形態素と、品詞と、当該形態素のCC文における頻度と、番組名とを対応させて記憶するもので、ハードディスク等の一般的な記憶手段である。ここで記憶された頻度のデータは、希少度算出手段32によって希少度を算出する際に参照されて用いられる。
映像抽出装置5は、映像と、当該映像に対応する音声のテキストデータであるCC(音声テキストデータ)と、当該映像の紹介文とを入力し、当該紹介文に対応する映像であるスポット映像を生成するものである。ここでは、音声のテキストデータを当該映像に付加されるCCとしたが、単に当該映像に対応する音声を音声認識した結果であってもよい。ここで、映像抽出装置5は、紹介文入力手段50と、CC入力手段51と、映像入力手段52と、形態素解析手段53と、形態素解析手段54と、類似度算出手段55と、希少度データ記憶手段56と、候補区間検出手段57と、区間映像分割手段58と、スポット映像出力手段59とを備える。
紹介文入力手段50は、映像入力手段52から入力される映像の内容の一部を示す紹介文を外部から入力するものである。ここで入力された紹介文は、形態素解析手段53に出力される。ここでは、紹介文入力手段50は、電子番組表等に記載される番組紹介文を入力することとした。なお、この番組紹介文は通常複数の文から構成されているため、ここでは紹介文が複数の文(抽出映像内容情報)から構成されている場合について説明する。
CC入力手段51は、映像入力手段52から入力される映像に対応する音声のテキストデータであるCCを外部から入力するものである。ここでは、音声のテキストデータを、当該映像に付加されるCCとしたが、当該映像に対応する音声を音声認識した結果であってもよい。ここで入力されたCCは、形態素解析手段54に出力される。
映像入力手段52は、映像を外部から入力するものである。ここでは、映像入力手段52は、外部から放送番組の映像を入力することとした。しかし、入力される映像は、例えば、インターネット等のネットワークから入力される映像であってもよいし、放送波等を介して入力される映像であってもよい。ここで入力された映像は、区間映像分割手段58に出力される。
形態素解析手段53は、紹介文入力手段50から入力された紹介文の各文を形態素解析するものである。ここで、形態素解析手段53は、紹介文に含まれる文を順次形態素解析する。ここで解析された形態素の情報(形態素、品詞等)は、類似度算出手段55に出力される。なお、形態素解析手段53は、一般的な形態素解析システムによって実現することができる。
形態素解析手段54は、CC入力手段51から入力されたCCの各CC文(音声区分データ)を形態素解析するものである。ここで、形態素解析手段54は、CCに含まれるCC文を順次形態素解析する。ここで解析された形態素の情報(形態素、品詞等)は、類似度算出手段55に出力される。なお、形態素解析手段54は、一般的な形態素解析システムによって実現することができる。
類似度算出手段55は、紹介文入力手段50から入力された紹介文の各文と、CC入力手段51から入力されたCCの各CC文との類似度を算出するものである。ここで算出された類似度は、候補区間検出手段57に出力される。
以下、類似度算出手段55による類似度の算出方法について説明する。類似度算出手段55は、紹介文中のある文qと、CC中のCC文dとの類似度Sim(q,d)を、以下の式(4)によって算出することができる。
Figure 0004456573
ここで、Qは、紹介文中の文qに含まれる形態素の集合、Dは、CCに含まれるCC文dの集合、|D|は、CCに含まれるCC文dの総数を示す。ここで、類似度算出手段55は、形態素解析手段53から入力された紹介文中の文qに含まれる各々の形態素tに対応する希少度S(t)を、希少度データ記憶手段56から読み出すとともに、形態素解析手段54から入力された各々の形態素tがCC文d中に出現する頻度tf(t,d)を求め、前記の式(4)によって類似度Sim(q,d)を算出する。
ここで、図3を参照して、各形態素と希少度との関係を、具体例を用いて説明する。図3は、特定の番組の紹介文に含まれる形態素の希少度の具体例を示す説明図である。ここでは、希少度の高い順に、形態素と、当該形態素の品詞と、希少度とが同じ列に示されている。図3に示すように、複数の放送映像CCにわずかしか含まれない形態素(例えば、「鉱害」、「鉱毒」)の希少度は高く設定され、複数の放送映像CCの多くに含まれる形態素(例えば、「て」、「。」)の希少度は低く設定されている。そして、複数の放送映像CCの一部に含まれる形態素(例えば、「探る」、「回復」)の希少度はその中間の値に設定されている。
このように、紹介文やCCには、映像の特徴を示す形態素のみでなく、助詞、助動詞や句読点のような映像の特徴を示さない形態素も多く含まれているため、単に形態素が一致する確率のみで紹介文の各文とCC文の示す内容が類似しているかを評価することはできない。しかし、希少度に基づいてそれぞれの形態素の重要性を考慮することで、紹介文の各文とCC文の示す内容が類似しているかを評価することが可能になる。
つまり、希少度の高い形態素は、特定の番組のCCに偏って含まれる形態素であり、その映像の特徴を示すものである可能性が高い。一方、希少性の低い形態素は、例えば、助詞や助動詞や句読点のように、その映像の内容とは関連性が低く一般的な文章に多く含まれる形態素である可能性が高い。そのため、紹介文中の文に含まれている、希少度が高い形態素が、CC中のあるCC文に多く含まれている場合には、映像の特徴を示す形態素が、共通してこの文とこのCC文とに多く含まれ、内容が類似していることになる。そこで、類似度算出手段55が、希少度を用いて、紹介文中の文に含まれる形態素のうち希少度の高い形態素が多く含まれるCC文に対して、この紹介文中の文との類似度を高く算出することで、映像の特徴を示す形態素を共通して含むCC文と紹介文中の文との類似度を高く算出することができる。
なお、式(4)では、紹介文中の形態素の希少度の和によって類似度を正規化しているが、これを行わずに、例えば、以下の式(5)のように、長い文ほど類似度が高くなるような方法で類似度を算出することとしてもよい。これは、紹介文中の文において、短い文に重要度の高い形態素が1つある場合よりも、長い文にある程度重要な形態素が多く含まれているほうが重要と考えられる場合に有効である。
Figure 0004456573
また、類似度算出手段55は、紹介文の各文qとCC文dとのそれぞれを、紹介文及びCC文に含まれる形態素tのベクトルと考え、その距離を利用して、以下の式(6)によって、類似度Sim(q,d)を算出することとしてもよい。なお、Rは、紹介文及びCC文に含まれる形態素の集合を示す。
Figure 0004456573
更に、類似度算出手段55は、距離の代わりに余弦を利用して、以下の式(7)によって、類似度Sim(q,d)を算出することとしてもよい。
Figure 0004456573
希少度データ記憶手段(形態素確率情報記憶手段、形態素確率情報記憶装置)56は、複数の放送映像CCに含まれる形態素と、形態素希少度算出装置3の希少度算出手段32によって算出された当該形態素の希少度と、品詞とを対応させたデータ(形態素確率情報)を記憶するもので、ハードディスク等の一般的な記憶手段である。ここで記憶された希少度のデータは、類似度算出手段55によって参照されて用いられる。
候補区間検出手段(区間検出手段)57は、類似度算出手段55によって算出された類似度に基づいてCC文を選定し、当該CC文に対応する映像の区間を検出するものである。ここで、候補区間検出手段57は、類似度算出手段55によって算出された類似度の高いCC文に対応する映像の区間を、スポット映像を構成する映像の区間として検出する。ここで検出された区間の情報は、区間映像分割手段58に出力される。ここでは、候補区間検出手段57は、紹介文に含まれる各々の文ついて、類似度の高い複数のCC文を選定し、当該CC文に対応する複数の映像を、スポット映像を構成する映像の候補として、当該複数の映像の区間を検出することとした。しかし、候補区間検出手段57は、紹介文に含まれる各々の文ついて、最も類似度の高いCC文を1つ選定し、当該CC文に対応する映像の区間を検出することとしてもよい。
ここで、候補区間検出手段57は、抽出する映像の区間の開始時間を、選定されたCC文に付加されたタイムコード情報に基づいて決定することができる。また、候補区間検出手段57は、当該区間の終了時間を、例えば、話速に基づいて、CC文の字数から当該区間の時間を算出して求めることが可能である。このとき、候補区間検出手段57は、例えば、図2の(4)行目のCC文D2のように、CCにおいて1つの文が所定の字数を超え、所定の字数以内に分割されたCC文D2のタイムコード情報D1と、当該CC文D2の字数と、次の行のタイムコード情報D1とに基づいて、この2つのタイムコード情報D1によって示される時刻の間にこの字数分の音声が出力されることとして、話速を算出することができる。
区間映像分割手段58は、映像入力手段52から入力された映像から、候補区間検出手段57によって検出された区間の映像を抽出し、当該映像からスポット映像を生成するものである。ここでは、区間映像分割手段58は、区間映像抽出部58aと、カット分割部58bと、分割部58cと、映像選定部58dとから構成される。
区間映像抽出部(区間映像抽出手段)58aは、映像入力手段52から入力された映像から、候補区間検出手段57によって検出された区間の映像を抽出するものである。ここで抽出された映像は、カット分割部58bに出力される。
カット分割部(カット分割手段)58bは、区間映像抽出部58aによって抽出された映像をカットに分割するものである。ここで、カットとは、一台のカメラで連続して撮影された映像区間をいう。この映像区間の切れ目では映像が大きく切り替わるため、カット分割部58bは、例えば、区間映像抽出部58aによって抽出された映像を構成する前後のフレーム画像間の色の差分をとり、差分の値が大きいときに映像を分割することで、抽出された映像をカットに分割することができる。ここで分割されたカットの映像は、分割部58cに出力される。なお、カット分割部58bは、例えば、フレーム画像間の周波数特徴の差分をとり、差分が大きい場合に映像を分割することとしてもよいし、また、フレーム画像を複数の小領域に分割し、各小領域が次のフレーム画像においてどの位置に移動したのかを調べるブロックマッチングを行い、移動先が特定できなかった小領域数が所定値より多い場合に映像を分割することとしてもよい。
分割部58cは、カット分割部58bから入力されたカットの映像のうち、カット長が閾値以上の映像を、映像の動きに基づいて更に分割するものである。ここで分割された映像は、映像選定部58dに出力される。なお、閾値は、あらかじめ設定された値(例えば、これまでに作成されたスポット映像において使用されているカットの平均長)であってもよいし、図示しない入力手段から入力されたスポット映像の長さの情報と、紹介文に含まれる文の数とに基づいて算出された値としてもよい。
ここで、図4を参照して、分割部58cが、カットを更に分割する方法の例について説明する。図4は、分割部が、カットを更に分割する方法の例を説明するための説明図である。まず、分割部58cは、カット分割部58bから入力されたカットの映像のカット長が閾値以上であるかを判定する。そして、閾値以上である場合には、この映像に基づいて、当該映像を撮影したカメラ(図示せず)の動きを判定する。なお、ここでは、分割部58cは、カメラの動きの判定を、ブロックマッチングによる動きベクトルの解析によって行うこととした。
図4(a)に示すように、カットの映像が、カメラが静止した状態で撮影された区間Z1と、カメラが動いている状態で撮影された区間Z2とから構成される場合、分割部58cは、カメラが動き出す少し前で分割、つまり、区間Z1と区間Z2との境界の少し前(所定時間前)で分割する。このように、区間Z1の一部を削除することで、カメラが静止し、同じ映像が長時間続いている部分を一部残して除去することができる。
また、図4(b)に示すように、カットの映像が、カメラが動いている状態で撮影された区間Z2と、カメラが静止した状態で撮影された区間Z1とから構成される場合、分割部58cは、カメラが静止する少し前で分割、つまり、区間Z2と区間Z1との境界の少し前(所定時間前)で分割する。
ここで、カメラが静止している状態から、カメラが動き出してすぐ別のカットに変わる映像や、カメラが動いている状態からカメラが静止してすぐ別のカットに変わる映像は、視聴者から見て不自然な映像となるが、このように、静止した状態からカメラが動き出す少し前、あるいは、動いている状態から静止する少し前で分割することで、視聴者から見て自然な映像となるように分割することができる。
更に、図4(c)、(d)、(e)に示すように、カットの映像が、カメラが少し動いてから静止した状態で撮影された場合や、カメラが少し静止してから動いた状態で撮影された場合や、カメラが静止し続ける状態で撮影された場合、動き続けた状態で撮影された場合には、分割部58cは、所定の長さで分割する。更に、分割部58cは、所定の長さで分割して最後に残った区間が所定の長さより短い場合には、この区間を除去することとした。そして、これらの方法で分割して得られた映像の長さが閾値以上である場合には、分割部58cは、更に前記の方法で分割することとした。
映像選定部58dは、分割部58cから入力された映像から、スポット映像を構成する映像を選定するものである。ここで選定された映像はつなぎ合わされて、スポット映像としてスポット映像出力手段59に出力される。
ここで、映像選定部58dは、映像の動きベクトルの方向が同じものが連続しないように、また、同じ色調の映像が連続しないように、類似度の高いものから優先して映像を選定する。そして、選定した映像をつなぎ合わせてスポット映像を生成する。
スポット映像出力手段59は、区間映像分割手段58の映像選定部58dから入力されたスポット映像を外部に出力するものである。
なお、本発明の映像抽出装置5の紹介文入力手段50から入力される紹介文は1つの文から構成されることとしてもよいし、複数の形態素の羅列(抽出映像内容情報)であってもよい。また、特許請求の範囲に記載の抽出映像内容情報は、当該映像の内容の一部を示すものであればよく、紹介文ではなく、例えば、要約文であってもよい。更に、ここでは、映像抽出装置5が、紹介文の各々の文について、対応する映像を抽出することとしたが、紹介文全体に対して、対応する映像を抽出することとしてもよい。このとき、特許請求の範囲に記載の抽出映像内容情報は、紹介文に相当する。また、映像抽出装置5が、紹介文を、例えば、字数や時間長などに基づいて分割した文字列の各々に対して、対応する映像を抽出することとしてもよい。このとき、特許請求の範囲に記載の抽出映像内容情報は、この文字列に相当する。
また、ここでは形態素希少度算出装置3によって希少度を算出し、映像抽出装置5の希少度データ記憶手段56に記憶することとしたが、例えば、形態素希少度算出装置3が形態素のエントロピを算出して、希少度データ記憶手段56に記憶することとしてもよい。このとき、特許請求の範囲に記載の出現確率情報はエントロピに相当し、映像抽出装置5は、類似度算出手段55によって、偏って出現する形態素に対して大きな値を与えるようにエントロピの増減を逆にして類似度を算出すればよい。
更に、形態素希少度算出装置3及び映像抽出装置5は、コンピュータにおいて各手段を各機能プログラムとして実現することも可能であり、各機能プログラムを結合して、形態素希少度算出プログラム及び映像抽出プログラムとして動作させることも可能である。
[スポット映像生成装置の動作]
次に、図5及び図6を参照して、スポット映像生成装置1の動作について説明する。図5は、形態素希少度算出装置が、本発明の映像抽出装置の希少度データ記憶手段に記憶される形態素の希少度を算出する動作を示したフローチャートである。図6は、本発明の映像抽出装置が紹介文の各文とCC文の類似度を算出して、紹介文に対応するスポット映像を生成する動作を示したフローチャートである。
(形態素希少度算出装置の動作)
まず、図5を参照(適宜図1参照)して、形態素希少度算出装置3の動作(希少度算出動作)について説明する。
形態素希少度算出装置3は、形態素解析手段31によって、放送映像CC記憶手段30に記憶された複数の放送映像CCのうちの1つの放送映像CCを読み出す(ステップS31)。続いて、形態素希少度算出装置3は、形態素解析手段31によって、ステップS31において読み出した放送映像CCの1つのCC文の形態素解析を行う(ステップS32)。
更に、形態素希少度算出装置3は、希少度算出手段32によって、ステップS32における形態素解析結果に基づいてCC文に含まれる各々の形態素の出現する頻度を求め、形態素と、品詞と、頻度と、番組名とを対応させて形態素頻度記憶手段33に記憶する(ステップS33)。そして、形態素希少度算出装置3は、形態素解析手段31によって、ステップS31において読み出されたすべてのCC文について終了したかを判断する(ステップS34)。そして、終了していない場合(ステップS34でNo)には、ステップS32に戻って、形態素希少度算出装置3が、形態素解析手段31によって、次のCC文の形態素解析を行う動作以降の動作を行う。
また、終了した場合(ステップS34でYes)には、形態素希少度算出装置3は、形態素解析手段31によって、ステップS31においてすべての放送映像CCを読み出したかを判断する(ステップS35)。そして、すべての放送映像CCを読み出していない場合(ステップS35でNo)には、ステップS31に戻って、形態素希少度算出装置3が、形態素解析手段31によって、次の放送映像CCを読み出す動作以降の動作を行う。
また、すべての放送映像CCを読み出した場合(ステップS35でYes)には、形態素希少度算出装置3は、希少度算出手段32によって、ステップS33において形態素頻度記憶手段33に記憶された頻度に基づいて各々の形態素の希少度を算出し、形態素と、品詞と、希少度とを対応させて映像抽出装置5の希少度データ記憶手段56に記憶して(ステップS36)、動作を終了する。
以上の動作によって、形態素希少度算出装置3は、放送映像CC記憶手段30に記憶された複数の放送映像CCに含まれる形態素の希少度を算出し、映像抽出装置5の希少度データ記憶手段56に記憶する。
(映像抽出装置の動作)
続いて、図6を参照(適宜図1参照)して、映像抽出装置5の動作(映像抽出動作)について説明する。
映像抽出装置5は、紹介文入力手段50によって紹介文を、CC入力手段51によってCCを、映像入力手段52によって映像を外部から入力する(ステップS51)。続いて、映像抽出装置5は、形態素解析手段53によって、ステップS51において入力された紹介文の1つ文の形態素解析を行う(ステップS52)。
更に、映像抽出装置5は、形態素解析手段54によって、ステップS51において入力されたCCの1つのCC文の形態素解析を行う(ステップS53)。そして、映像抽出装置5は、類似度算出手段55によって、ステップS52において形態素解析した紹介文の文と、ステップS53において形態素解析したCC文との類似度を算出する(ステップS54)。
そして、映像抽出装置5は、形態素解析手段54によって、ステップS51において入力されたすべてのCC文について終了したかを判断する(ステップS55)。そして、終了していない場合(ステップS55でNo)には、ステップS53に戻って、映像抽出装置5が、形態素解析手段54によって、次のCC文の形態素解析を行う動作以降の動作を行う。
また、終了した場合(ステップS55でYes)には、映像抽出装置5は、候補区間検出手段57によって、ステップS54において算出された類似度の高いCC文を選定し(ステップS56)、当該CC文に対応する映像の区間を検出する(ステップS57)。そして、映像抽出装置5は、形態素解析手段53によって、ステップS51において入力された紹介文のすべての文について終了したかを判断する(ステップS58)。そして、終了していない場合(ステップS58でNo)には、ステップS52に戻って、映像抽出装置5が、形態素解析手段53によって、紹介文の次の文の形態素解析を行う動作以降の動作を行う。
また、終了した場合(ステップS58でYes)には、映像抽出装置5は、区間映像分割手段58の区間映像抽出部58aによって、ステップS57において検出された区間の映像を、ステップS51において入力された映像から抽出する(ステップS59)。そして、映像抽出装置5は、区間映像分割手段58のカット分割部58bによって、ステップS59において抽出された映像をカットに分割し、分割部58cによって、カット長が閾値以上の映像を、映像の動きに基づいて更に分割して、映像の区間の調整をする(ステップS60)。
続いて、映像抽出装置5は、区間映像分割手段58の映像選定部58dによって、ステップS60において区間が調整された映像から、映像の動きや色調、類似度に基づいて映像を選定してつなぎ合わせ、スポット映像を生成する(ステップS61)。更に、映像抽出装置5は、スポット映像出力手段59によって、ステップS61において生成されたスポット映像を出力する(ステップS62)。
以上の動作によって、映像抽出装置5は、形態素希少度算出装置3によって算出された各々の形態素の希少度に基づいて、外部から入力された紹介文の各々の文と、CC文との類似度を算出することができる。そして、類似度の高いCC文に対応する区間の映像を抽出してスポット映像を生成することができる。
[映像抽出装置の応用例]
映像抽出装置5は、図示しない映像表示手段を有し、この映像表示手段によって、スポット映像とともに、区間の情報や、紹介文や、類似度等の情報を図示しない表示手段に出力して表示画面に表示することとしてもよい。更に、映像抽出装置5は、図示しないスポット映像編集手段を有し、このスポット映像編集手段によって、図示しない指令入力手段から入力された操作者の指令に基づいて、スポット映像を編集することとしてもよい。
ここで、図7を参照して、映像抽出装置5の応用例について説明する。図7は、映像抽出装置によって生成されたスポット映像の編集画面の例を模式的に示した模式図である。操作者が、映像と、当該映像のCCと、紹介文とを映像抽出装置5に入力すると、映像抽出装置5は、当該紹介文の各々の文に対応する映像を抽出する。そして、映像抽出装置5は、図7に示すように、図示しない映像表示手段によって、表示画面に、操作者によって編集されたスポット映像Vaと、操作者によって候補の映像から選択され、編集される素材となる映像Vbと、当該スポット映像を構成する映像の区間の情報Vcと、紹介文を構成する文Vd1、Vd2、Vd3、…と、文Vd1、Vd2、Vd3、…に対応し、類似度の高い順に並べられた映像Ve、Ve、…とを表示する。そして、図示しないスポット映像編集手段によって、スポット映像にタイムライン上でカットの長さを調整したり、その他の候補の画像Veと入れ替えたりするなどの手直しを加えることで、操作者は紹介文に対応するスポット映像を容易に制作することができる。
更に、映像抽出装置5は、インターネットなどの映像の検索に適用することとしてもよい。例えば、インターネットの映像の検索に適用する場合には、映像抽出装置5は、インターネットに接続され、紹介文入力手段50から入力されたテキストデータ及びCC入力手段51から入力されたインターネットの映像のCCに基づいて、映像入力手段52から入力されたインターネットの映像から、当該テキストデータの内容を示す映像を選定する。ここでは、図8(a)に示すように、紹介文入力手段50から、テキストデータとして、紹介文の代わりに操作者によって複数の形態素t1、t2が入力され、映像抽出装置5は、希少度に基づいて、紹介文入力手段50から入力された当該形態素t1、t2と、CC入力手段51から入力されたCCのCC文との類似度を算出して、類似度の高い区間の映像を選定する。
そして、図8(b)に示すように、映像表示手段によって、表示画面に、類似度の高い区間の映像Ve、Ve、…と、当該映像Ve、Ve、…の類似度の情報Vf、Vf、…とを、検索結果として表示する。なお、図8は、発明の映像抽出装置を、インターネットの映像の検索に適用した場合の表示画面の例を模式的に示した模式図、(a)は、検索する映像の内容を示す形態素を入力する入力画面の例を示した模式図、(b)は、検索された映像を表示する画面の例を示した模式図である。
本発明における映像抽出装置を備えるスポット映像生成装置の構成を模式的に示した模式図である。 本発明における映像抽出装置を備えるスポット映像生成装置に用いられるCCの例を示した説明図である。 本発明における映像抽出装置を備えるスポット映像生成装置によって算出された、特定の番組の紹介文に含まれる形態素の希少度の具体例を示す説明図である。 本発明における映像抽出装置の分割部が、カットを更に分割する方法の例を説明するための説明図である。 本発明における映像抽出装置を備えるスポット映像生成装置の形態素希少度算出装置が、本発明の映像抽出装置の希少度データ記憶手段に記憶される形態素の希少度を算出する動作を示したフローチャートである。 本発明の映像抽出装置が紹介文の各文とCC文の類似度を算出して、紹介文に対応するスポット映像を生成する動作を示したフローチャートである。 本発明の映像抽出装置によって生成されたスポット映像の編集画面の例を模式的に示した模式図である。 本発明の映像抽出装置を、インターネットの映像の検索に適用した場合の表示画面の例を模式的に示した模式図、(a)は、検索する映像の内容を示す形態素を入力する入力画面の例を示した模式図、(b)は、検索された映像を表示する画面の例を示した模式図である。
符号の説明
5 映像抽出装置
55 類似度算出手段
56 希少度データ記憶手段(形態素確率情報記憶手段)
57 候補区間検出手段(区間検出手段)
58a 区間映像抽出部(区間映像抽出手段)
58b カット分割部(カット分割手段)

Claims (3)

  1. 映像と、前記映像に対応する音声のテキストデータである音声テキストデータと、複数の形態素から構成され、前記映像の一部分の内容を示す抽出映像内容情報とを入力し、前記抽出映像内容情報に対応する前記映像の一部分を抽出する映像抽出装置であって、
    複数の他の映像に対応する音声のテキストデータである他音声テキストデータに含まれる各々の形態素の、複数の前記他音声テキストデータにおける出現確率を示す出現確率情報と、当該形態素とを対応させた形態素確率情報を記憶する形態素確率情報記憶手段と、
    前記形態素確率情報記憶手段に記憶された形態素確率情報において、前記抽出映像内容情報に含まれる各々の形態素に対応する前記出現確率情報と、前記音声テキストデータを複数の区分に分割した音声区分データの各々に当該形態素が出現する頻度とに基づいて、前記抽出映像内容情報と、前記音声区分データとが類似する度合いを示す類似度を算出する類似度算出手段と、
    この類似度算出手段によって算出された類似度に基づいて、前記抽出映像内容情報に対応する前記音声区分データを選定し、当該音声区分データに対応する前記映像の区間を検出する区間検出手段と、
    この区間検出手段によって検出された区間の映像を抽出する区間映像抽出手段と、
    を備えることを特徴とする映像抽出装置。
  2. 前記区間映像抽出手段によって抽出された映像をカットに分割するカット分割手段を備えることを特徴とする請求項1に記載の映像抽出装置。
  3. 映像と、前記映像に対応する音声のテキストデータである音声テキストデータと、複数の形態素から構成され、前記映像の一部分の内容を示す抽出映像内容情報とを入力し、形態素確率情報記憶装置に記憶された、複数の他の映像に対応する音声のテキストデータである他音声テキストデータに含まれる各々の形態素の、複数の前記他音声テキストデータにおける出現確率を示す出現確率情報と、当該形態素とを対応させた形態素確率情報に基づいて、前記抽出映像内容情報に対応する前記映像の一部分を抽出するためにコンピュータを、
    前記形態素確率情報記憶装置に記憶された形態素確率情報において、前記抽出映像内容情報に含まれる各々の形態素に対応する前記出現確率情報と、前記音声テキストデータを複数の区分に分割した音声区分データの各々に当該形態素が出現する頻度とに基づいて、前記抽出映像内容情報と、前記音声区分データとが類似する度合いを示す類似度を算出する類似度算出手段、
    この類似度算出手段によって算出された類似度に基づいて、前記抽出映像内容情報に対応する前記音声区分データを選定し、当該音声区分データに対応する前記映像の区間を検出する区間検出手段、
    この区間検出手段によって検出された区間の映像を抽出する区間映像抽出手段として機能させることを特徴とする映像抽出プログラム。
JP2006060339A 2006-03-06 2006-03-06 映像抽出装置及び映像抽出プログラム Active JP4456573B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006060339A JP4456573B2 (ja) 2006-03-06 2006-03-06 映像抽出装置及び映像抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006060339A JP4456573B2 (ja) 2006-03-06 2006-03-06 映像抽出装置及び映像抽出プログラム

Publications (2)

Publication Number Publication Date
JP2007243359A JP2007243359A (ja) 2007-09-20
JP4456573B2 true JP4456573B2 (ja) 2010-04-28

Family

ID=38588478

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006060339A Active JP4456573B2 (ja) 2006-03-06 2006-03-06 映像抽出装置及び映像抽出プログラム

Country Status (1)

Country Link
JP (1) JP4456573B2 (ja)

Also Published As

Publication number Publication date
JP2007243359A (ja) 2007-09-20

Similar Documents

Publication Publication Date Title
KR102028198B1 (ko) 동영상 장면과 메타데이터 저작 방법
CN113709561B (zh) 视频剪辑方法、装置、设备及存储介质
JP5010292B2 (ja) 映像属性情報出力装置、映像要約装置、プログラムおよび映像属性情報出力方法
KR102148392B1 (ko) 동영상 메타데이터 태깅 시스템 및 그 방법
KR100828166B1 (ko) 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체
WO2012020667A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP2012038240A (ja) 情報処理装置、情報処理方法、及び、プログラム
CN110781328A (zh) 基于语音识别的视频生成方法、系统、装置和存储介质
CN113841418A (zh) 动态视频精彩场面
JP2006287319A (ja) 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム
JP2010161722A (ja) データ処理装置、データ処理方法、及び、プログラム
JP2007336106A (ja) 映像編集支援装置
JP6917210B2 (ja) 要約映像生成装置およびそのプログラム
JP2005115607A (ja) 映像検索装置
JP6389296B1 (ja) 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム
CN116361510A (zh) 一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置
KR20060089922A (ko) 음성 인식을 이용한 데이터 추출 장치 및 방법
JP4496358B2 (ja) オープンキャプションに対する字幕表示制御方法
CN114363714B (zh) 标题生成方法、设备及存储介质
JP4456573B2 (ja) 映像抽出装置及び映像抽出プログラム
CN115665508A (zh) 视频摘要生成的方法、装置、电子设备及存储介质
JP4695582B2 (ja) 映像抽出装置及び映像抽出プログラム
JP2004343352A (ja) 電子機器装置及びテロップ情報処理方法
JP4323937B2 (ja) 映像コメント生成装置及びそのプログラム
JP4492299B2 (ja) 映像装置、映像表示方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100112

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100205

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4456573

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140212

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250