JP3985656B2 - 映像索引付加方法及びプログラム及びコンピュータ読み取り可能な記録媒体 - Google Patents

映像索引付加方法及びプログラム及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP3985656B2
JP3985656B2 JP2002323093A JP2002323093A JP3985656B2 JP 3985656 B2 JP3985656 B2 JP 3985656B2 JP 2002323093 A JP2002323093 A JP 2002323093A JP 2002323093 A JP2002323093 A JP 2002323093A JP 3985656 B2 JP3985656 B2 JP 3985656B2
Authority
JP
Japan
Prior art keywords
scene
video
index
width
start time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002323093A
Other languages
English (en)
Other versions
JP2004159108A (ja
Inventor
幸紀 南田
西尾  卓
行信 谷口
正 仲西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002323093A priority Critical patent/JP3985656B2/ja
Publication of JP2004159108A publication Critical patent/JP2004159108A/ja
Application granted granted Critical
Publication of JP3985656B2 publication Critical patent/JP3985656B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、映像索引付加方法及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、映像データベースシステム、映像索引付けシステム、ディジタル映像編集システム等において、映像のメタデータを作成するために、映像制作時のシナリオに記載されている情報を利用するための映像索引付加方法及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。
【0002】
メタデータがあれば、映像の取り扱いが便利になるという利点がある。メタデータの有効な応用の一つは、映像の索引を作り、映像をランダムアクセス可能な媒体で提供することである。映像の索引とは、映像の中の区間の内容を表すメタデータと、当該映像区間の区間情報の組である。
【0003】
映像区間の区間情報は、映像区間の開始位置と終了位置によって表されたり、開始位置と区間の長さによって表されたりする。または、開始位置だけで表される場合もある。図13は、映像の索引の例を表している。映像の索引は、映像の区間情報803、映像区間の内容を表すメタデータ801、802、804がある。映像の索引があれば、利用者は、映像そのものを見ることなく、索引のメタデータから所望の区間を探し出し、あるいはメタデータを検索し、当該映像区間に即座にアクセスし、鑑賞することができるようになる。また、利用者は、索引から所望の複数の区間を選択し、それらを連続して再生することで、効率よく映像を鑑賞することができるようになる。
【0004】
映像制作業者や放送事業者等様々な業者は、自社の所有する映像にメタデータを付与することにより、膨大な映像を管理したり、顧客への映像提供サービスに利用する試みを検討しているところである。
【0005】
映像の索引をより有用にするためには、映像の区間が、ある意味的なシーン単位に区切られていることが望ましい。意味単位に区切られている方が目的の映像区間を探し出すことが容易になるためである。意味を考慮せずに区切るには、様々な単純イベント点(例えば、カメラの切り替わるカット点や、テロップの出現する点、音楽やジングルの鳴っている点、ナレーションや台詞の入る点など)を画像処理や音声処理によって自動的に検出し、区切ることが可能である。しかしながら、映像の画像処理や音声処理は、アルゴリズムによって程度の差はあるが、計算コストの高い処理であり、映像全体を処理していると、処理に長時間を要する。また、映像の内容を理解するという目的のためには、単純イベント点に索引付けしても、数が多過ぎてわかりにくい場合があり、意味的にまとまりのある範囲をまとめて意味的なシーンとし、意味的なシーン毎に索引付けした方が分かりやすい。しかし、意味的なシーンの分割は、人が単純イベント点を見て、意味を吟味しながらまとめるしかなく、人的コストがかかる作業である。
【0006】
以上に述べたように、映像の索引付けの作成には、計算時間や人的コストがかかることが問題となっている。
【0007】
通常、映画やテレビ放送番組、コマーシャルフィルムなどの映像作品を制作する場合、企画段階で映像の内容の概要を決め、構成表として表しておく。構成表の記述形式は統一さていないが、概ね、1本の映像作品の中でどのような映像をどのような順番でどれだけの長さで並べるかといった映像の構成や、それらの映像の意味内容(ナレーション、テロップ等)が記述されている。構成表の記述に基づいて、取材計画、撮影計画が立てられ、素材となる映像の撮影が行われ、編集され、作品が制作される。従って、構成表の記述と、完成した映像作品の構成は概ね一致していると考えられる(但し、制作の途中で映像の構成が変更される可能性があるから、完全に一致しない場合もあり得る)。
【0008】
構成表には、シーン毎におおよその時間が記述されているので、各々のシーンの大凡のその開始点と終了点は予め得られる。
【0009】
このように、構成表には、映像作品の構成や、意味内容を表す情報が記載されているにも関わらず、構成表は映像制作が終わると捨てられてしまうというのが現状である。
【0010】
構成表の記述を映像の索引付け役立てるという構想があり、この方法は、予め番組の構成表の内容を装置に入力しておき、番組の放送時に、シーン区切りに合わせてメタデータを作成するものである(例えば、特許文献1参照)。
【0011】
【特許文献1】
特開平10−308909「番組付帯情報作成装置」
【0012】
【発明が解決しようとする課題】
しかしながら、上記従来の構成表の記述を映像の索引付けに用いるという方法は、操作者が実時間で放送される(あるいは再生される)番組をみながらメタデータを付与するため、作業時間は番組の実時間より短くすることはできないし、また、処理の中断ややり直しが困難で、運用には柔軟性がないという問題がある。
【0013】
本発明は、上記の点に鑑みなされたもので、構成表を利用しながらも、運用に柔軟性を持たせ、映像の索引付けの作業において、映像の画像処理や音声処理に要する時間を短縮し、意味的なシーンに纏めることが可能な映像索引付加方法及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【0014】
【課題を解決するための手段】
図1は、本発明の原理を説明するための図である。
【0015】
本発明(請求項1)は、中間索引生成手段、イベント点検出手段、開始時間抽出手段を有し、入力された映像データに対し、該映像の制作に使用された構成表の記述に基づいて、該構成表に記述されているシーン毎に索引を付加する映像索引付加装置が行う映像索引付加方法において、
中間索引生成手段が、構成表のシーンの継続時間に所定の変動幅を与え、各シーンに幅付きの継続時間を設定し、幅が付いたシーンの継続時間の積算により各シーンに幅が付いた開始時間を設定した中間索引を生成し(ステップ1)、
イベント点検出手段が、映像データのイベント点を検出し(ステップ2)、
開始時間抽出手段が、検出されたイベント点の中から、イベント点の開始時間が中間索引のシーンの幅付きの開始時間の範囲に含まれるイベント点を抽出し、記憶装置に出力する(ステップ3)。
【0016】
また、本発明(請求項2)は、中間索引は、シーンに対してイベントの種類とキーを含み、
イベント点検出手段がイベント点を検出する際に、中間索引で示されたイベントの種類とキーとによってイベントを検出する。
【0017】
また、本発明(請求項3)は、中間索引生成手段が、中間索引のシーン毎の幅付きの開始時間を求める際に、連続する複数のシーン(シーケンス)の最初のシーン開始時間と、最後のシーンの終了点が予め固定されている場合には、
シーケンスの先頭かシーンの継続時間の幅を積算して求めたシーンの開始時間の幅と、シーケンスの末尾からシーンの継続時間の幅を積算して求めた開始時間の幅とから、小さい方の幅を選択して用いる。
【0019】
本発明(請求項4)は、請求項1乃至3のいずれか1項に記載の映像索引付加方法をコンピュータに実行させるための映像索引付加プログラムである。
【0020】
本発明(請求項5)は、請求項4に記載の映像索引付加プログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0021】
上記のように、本発明は、映像制作の現場で使用される構成表と呼ばれる情報と、映像データとを入力として、映像から採取されるサムネイル・映像の索引像と映像データの対応付けを行うものである。
【0022】
通常、単純に映像のカット点やテロップ、セリフの出現位置(イベント点)を検出すると、多く検出され、重要なイベント点を見つけにくくなるが、本発明の処理によれば、構成表を用いることにより、もともと制作者の考えていたシーン区切りによって検出数が制限されるので、シーンの区切りを見つけやすくなる。本発明によって作成した映像索引のシーン区切りは、映像の制作者の考えていた構造を反映しており、シーン説明は、映像の制作者の考えていた意図等を反映しており、単純イベント点によって構成した索引よりも分かりやすくなる。
【0023】
また、本処理を用いれば、シーンの区切りを検出する処理を映像全体に適用せずとも、開始時間が存在するはずの区間にだけ適用すればよいので、処理時間が短縮される。
【0024】
【発明の実施の形態】
以下、図面と共に本発明の実施の形態を説明する。
【0025】
図2は、本発明の一実施の形態におけるシステム構成を示す。
【0026】
同図に示すシステムは、情報処理装置101、表示装置102、入力装置103、記憶装置104、LAN(ローカルエリアネットワーク)105、及びファイルサーバ装置106から構成される。
【0027】
図3は、本発明の一実施の形態におけるデータの流れを示す。
【0028】
構成表201から中間索引202が作成される。中間索引202については、後述する。映像データ203は、完成した映像作品をディジタルデータ化し、MPEG2などの機械可読形式に変換したものである。映像索引付け処理204は、映像の索引を作成する。当該処理については、後述する。索引205は、映像データ203の索引であり、映像索引付け処理204の処理結果である。
【0029】
上記の図2及び図3を用いて処理の概要を説明する。
【0030】
操作者は、入力装置103を用いて、構成表201を元に中間索引202を情報処理装置101に入力し、記憶装置103に格納する。完成した映像作品の映像データ203はファイルサーバ装置106に格納されているものとする。情報処理装置101は、LAN105を介してファイルサーバ装置106から、当該映像データ203を読み出し、中間索引202を利用して映像索引付け処理204を実行し、索引205を作成し、記憶装置103に出力する。
【0031】
まず、構成表201から中間索引202を作成する方法を説明する。
【0032】
当該処理は、本発明の映像索引付け処理の前処理である。
【0033】
構成表は、通常、ノートに書かれたり、ワードプロセッサで電子的に書かれたりするものであるが、もともと制作者がその内容を理解できれば役割を果たせるのであるからフォーマットが規定されているわけではない。従って、機械で読み込むには適していない。そこで、機械で読み込むのに適した形である中間索引202に変換する作業が必要となる。なお、構成表を最初から機械で読みむのに適した形で書いておけば、この作業は省略できる。
【0034】
図4は、本発明の一実施の形態における構成表の例を示す。横線301〜305は、意味的なシーンの区切りを表している。文章306〜310及び316〜320は、シーンの内容を表している。特に、文章319は、次のシーンが始まる前に合図の台詞を発声することを表している。時間311〜315は、各々のシーンの時間長を表している。また、文章320は、このシーンの最初にテロップが入ることを表している。文章319、320のような内容は、シーンの区切りを検出する際の手掛かりとなる。
【0035】
図4に示されている内容を、中間索引に変換した例を図5に示す。中間索引は、例えば、テキストファイルの形式やCSV形式(カンマ区切りの表)や、関係データベースの形などで表される。本実施の形態では、関係データベースの形で中間索引を表すものとする。図5では、意味的なシーンのひとつが、データベースのデータの1行(1組)として表されている。1行のデータは、属性“シーン番号”(シーンNo)、“シーン説明”、“開始時間”、“継続時間”、“ヒント種別”、“ヒントのキー”、を持っている。
【0036】
属性“シーン番号”は、映像作品のシーンに順に付けられた番号である。属性“シーン説明”は、当該シーンの説明である。
【0037】
属性“シーン説明”は、本発明の映像の索引付け方法には使用しないが、作成した索引を使用する際に必要となる情報である。
【0038】
属性“開始時間”は、当該シーンが始まる時間を映像の先頭から経過時間を秒を単位として表したものである。通常、構成表201に書かれた時間は、概数であるから、正確には決定できなので、開始時間には幅がある。例えば、開始時間が10±1であったら、開始時間は9秒から11秒の間にあることを表している。
【0039】
属性“継続時間”は、当該シーンが継続する時間長である。通常、構成表201に書かれた時間は概数であるから、正確には決定できないので、継続時間には幅がある。例えば、継続時間が10±1であったら、当該シーンの継続時間は9秒から11秒の間のいずれかであると見做す。
【0040】
属性“ヒント種別”は、シーンの開始点を示す映像的な特徴、音声的な特徴がある場合に値が設定される。
【0041】
属性“ヒントのキー”は、属性“ヒント種別”で示される特徴を更に特定する情報を設定する。
【0042】
なお、経過時間や継続時間や、本実施の形態では秒で表すが、これに限らず、フレーム数で表してもよいし、時、分、秒を複合して表してもよい。
【0043】
具体的には、図4に示す構成表201の一部を中間索引202に変換する場合を例として、中間索引の作成方法を説明する。
【0044】
中間索引の作成方法としては、図6〜図8のいずれかの方法で作成することが可能である。図6は、中間索引の基本動作(ステップ101〜ステップ107)を示し、図7は、図6の動作にヒント種別とヒントのキーを設定した動作(ステップ201)を加えており、図8は、中間索引のシーンの開始時間の幅を求める動作(ステップ301〜ステップ303)を加えている。
【0045】
最初に変数S(シーン番号)に1を代入し初期化する(ステップ101)。
【0046】
属性“シーン番号”は、そのシーンの通し番号(S)を設定する(ステップ102)。
【0047】
属性“シーン説明”には、構成表201の説明文を、そのまま、または、シーンの内容の説明文として適切になるよう取捨選択、改変して設定する(ステップ103)。
【0048】
属性“継続時間”には、構成表201に記述されているシーンの継続時間の概数と、変動の幅を設定する(ステップ104)。シーンnの継続時間をDn±αnと表す。Dnが、構成表201に記載されている概数を、αnが幅を表す。幅をどの程度とするかは、制作の過程において、シーンの継続時間がどの程度変動するかによるので一概には決められない。制作者が構成表記載の時間をどの程度忠実に守るか、制作者の個性にもよるであろう。出演者の対話などの場合は、予め設定した時間からずれる場合もあるであろう。そのずれの程度も、台本がある場合はずれが少ないであろうが、アドリブの場合、ずれも大きくなるであろう。別途作成したVTRを挿入するような場合は、そのVTRの長さによって略正確に継続時間は決まると考えられる。このような様々な要因を勘案して、幅を定める。または、機械的に、αn=γDnのように継続時間Dnに比例するように定めたり、αn=δのように一定値とすることもできる。ここで、γ、δは、予め定めた定数とする。
【0049】
属性“開始時間”は、それより前のシーンの継続時間を積算して算出する(ステップ105)。“開始時間”も“継続時間”と同様に幅を持つ。シーンnの“開始時間”を、Tn ±βn と表すと、n>1のとき、
【0050】
【数1】
Figure 0003985656
と表される。なお、T0 =0,β0 =0とする。
【0051】
ところで、数式2のように開始時間の幅を求めると、後のシーンほど幅が大きくなる。しかしながら、映像の長さは定まっているのであるから、最後のシーンの終了時間は定まっているはずである。このことを利用して、幅の増大を抑えることも可能である。そのためには、映像の先頭からシーンの継続時間を積算して求めたシーンの開始時間の幅と、映像の末尾からシーンの継続時間を積算して求めたシーンの開始時間の幅を比較し、小さい方を採用する。具体的には、
【0052】
【数2】
Figure 0003985656
によって幅βn を求める(ステップ301〜ステップ303)。ここで、MIN(X,Y)は、X,Yのうち小さいほうの値を採る関数とする.
また、映像によっては、映像中の特定のシーンの開始位置が予め決まっており、固定されている場合がある。例えば、テレビ番組の中の天気予報のコーナや、CMの挿入位置等が固定されている場合などがあり得る。このような場合には、固定開始位置を利用して、さらに開始時間の幅を抑えることができる。そのためには、固定開始位置の間のシーンに対して、数式3〜数式5と同様の計算を行えばよい。具体的には、シーン1、F1 ,F2 ,…,Ff の開始位置が固定されているとすると(但し、1<F1 <F2 <…<Ff <Nとする)、シーンFi からシーン(Fi+1 −1)までの開始位置の幅は、i<fの場合には、
【0053】
【数3】
Figure 0003985656
によって、幅βn を求める。なお、i=fの場合は、数式7の代わりに数式4を用いて、数式6、数式4、数式8を引いて幅βn を求める。
【0054】
属性“ヒント種別”は、カット区切りに特に映像的、あるいは、音声的な特徴がある場合に、その特徴の種類を設定する。映像的あるいは音声的な特徴としては、テロップ、ロゴマーク、人物の存在、構図(ロング、バストショットなど)、撮影場所(屋外か屋内かなど)、カメラワーク、台詞、音楽、シングルなど、種々のものがある。例えば、文章319によれば、次のシーンの前に「VTRスタート」という台詞が発声されることがわかる。従って、シーン3の開始位置の手掛かりとして、シーン3のヒント種別に種別“セリフ”、シーン3のヒントキーに、台詞の内容“VTRスタート”を設定する(ステップ201)。ここで、当該台詞のような、シーンの切り替わりを示す特徴が継続している間は、次の開始されるシーンの一部と見做すものとする。また、文章320によれば、シーン5の先頭に「本日のニュース」というテロップが挿入されることがわかる。従って、シーン5のヒント種別に、種別“テロップ”、シーン5のヒントのキーにテロップの内容“本日のニュース”を設定する。その他のシーンについては、構成表に特に手掛かりが記載されていないので、ヒント種別及びヒントのキーには何も設定しない。
【0055】
次に、映像索引付け処理204について、基本的な動作を図9に基づいて説明する。以下の説明では、シーンの数をNで表す。
【0056】
ステップ401) 変数Sに1を代入し、初期化する。変数Sは、シーン番号を表す。
【0057】
ステップ402) 中間索引202からシーンSの開始時間を取得し、開始時間の概数を変数Tに、幅を変数βに格納する。なお、開始時間は、本実施の形態では、映像の先頭から経過時間を秒単位で表し、幅は秒で表す。
【0058】
ステップ403) Tからβだけ前の時間T−βを計算し、変数Tmin に代入する。Tからβだけ後の時間T+βを計算し、変数Tmax に格納する。
【0059】
ステップ404) リストCS ,LS ,MS を初期化する。各々のリストには、数値の任意個のリストを格納することができるものとする。また、Sは、シーン番号を表す添字である。
【0060】
ステップ405) 映像データ203に対して、入力画像の先頭から計ってTmin 秒の位置からTmax 秒の位置までの部分映像に対して、カット点検出処理を行い、検出されたカット点のリストをCS に格納する。1カット点は、映像の先頭から、そのカット点の存在する位置までの時間(秒)によって表すことができる。例えば、当該区間内のK1 (秒),K2 (秒),…,KM (秒)の位置にカット点が検出されたら、リスト(K1 ,K2 ,…,KM )をCS に格納する。ここで、Mは、シーンSの当該区間中に検出されたカット点の個数とする。カット点検出処理は、例えば、「カット検出装置及びカット検出方法のプログラムを記録した記録媒体」(特開2002−218376)に開示されている方法によって行うことができる。
【0061】
上記の説明では、映像中の位置を映像の先頭から秒数にて表したが、映像中の位置を映像の先頭からのフレーム数で表したり、タイムコードで表したりしてもよい。
ステップ406) 変数Sに値S+1を代入する。
【0062】
ステップ407) 変数Sの値とシーン数Nを比較し、S≦Nであれば、ステップ402に戻り、次のシーンについての処理を行う。そうでなければ、ステップ408に移行する。
【0063】
ステップ408) 変数Sに1を代入する。
【0064】
ステップ409) 中間索引202からシーンSのシーン説明を取得する。
【0065】
ステップ410) 変数Sの値と1を比較し、同じであれば、ステップ418に移行する。そうでなければステップ411に移行する。
【0066】
ステップ411) シーン番号Sを表示装置102に出力する。
【0067】
ステップ412) シーンSのシーン説明を表示装置102に出力する。
【0068】
ステップ413) シーンSのカット点のリストCS の各々の位置を瞬間の縮小画像を映像データ203から作成し、表示装置102に位置(映像の先頭からの秒数)と縮小画像を共に出力する。リストCS が初期状態、すなわち、要素数が0の場合は、出力しなくてもよい。
【0069】
ステップ414) 入力装置103からの入力を受け付ける。この入力は、操作者が表示装置102に出力されたシーン説明702と、縮小画像703とを閲覧し、当該シーンに最も相応しいシーン開始点を選択して、最も相応しいシーン開始位置を入力装置103から入力したものとする。当該ステップによって、当該シーンの開始位置が一つ選択される。入力の方法は、位置(秒数)を入力する方法でもよいし、表示装置102に表示された縮小画像703をマウス等の入力装置によって選択し、その代表画像に対応する位置を取得する方法でもよい。
【0070】
ステップ415) シーンSのシーン番号と、シーン説明と、ステップ414で入力された位置と、その位置の縮小画像を、シーンSの索引として、記憶装置104に出力する。
【0071】
ステップ416) 変数Sに値S+1を代入する。
【0072】
ステップ417) 変数Sの値と、シーン数Nを比較し、S≦Nであれば、ステップ409に戻り、次のシーンについての処理を行う。そうでなければ、処理を終了する。
【0073】
ステップ418) 映像の先頭(位置0秒)の画像の縮小画像を作成し、シーン番号1と、シーン1のシーン説明と、位置0(秒)と、位置0秒の縮小画像をシーン1の索引としてとして、記憶装置104に出力し、ステップ416に移行する。
【0074】
次に、図10、図11に基づいて詳細に説明する。
【0075】
ステップ501) 変数Sに1を代入し、初期化する。変数Sは、シーン番号を表す。
【0076】
ステップ502) 中間索引202からシーンSの開始時間を取得し、開始時間の概数を変数Tに、幅を変数βに格納する。なお、開始時間は、本実施の形態では、映像の先頭から経過時間を秒単位で表し、幅は秒で表す。
【0077】
ステップ503) Tからβだけ前の時間T−βを計算し、変数Tmin に代入する。Tからβだけ後の時間T+βを計算し、変数Tmax に格納する。
【0078】
ステップ504) リストCS ,LS ,MS を初期化する。各々のリストには、数値の任意個のリストを格納することができるものとする。また、Sは、シーン番号を表す添字である。
【0079】
ステップ505) 映像データ203に対して、入力画像の先頭から計ってTmin 秒の位置からTmax 秒の位置までの部分映像に対して、カット点検出処理を行い、検出されたカット点のリストをCS に格納する。1カット点は、映像の先頭から、そのカット点の存在する位置までの時間(秒)によって表すことができる。例えば、当該区間内のK1 (秒),K2 (秒),…,KM (秒)の位置にカット点が検出されたら、リスト(K1 ,K2 ,…,KM )をCS に格納する。ここで、Mは、シーンSの当該区間中に検出されたカット点の個数とする。カット点検出処理は、例えば、「カット検出装置及びカット検出方法のプログラムを記録した記録媒体」(特開2002−218376)に開示されている方法によって行うことができる。
【0080】
上記の説明では、映像中の位置を映像の先頭から秒数にて表したが、映像中の位置を映像の先頭からのフレーム数で表したり、タイムコードで表したりしてもよい。
【0081】
ステップ506) 中間索引202から、シーンSのヒント種別を取得し、変数Hに格納する。
【0082】
ステップ507) ヒントHが種別“テロップ”と等しいかを検査し、等しければステップ508へ、そうでなければステップ510へ移行する。
【0083】
ステップ508) シーンSのヒントのキーKを取得する。この場合、ヒント種別が“テロップ”であるので、キーKは文字列である。
【0084】
ステップ509) 映像データ203に対して、入力映像の先頭から計ってTmin 秒の位置からTmax までの位置までの部分映像に対してテロップ認識処理を行い、キーKの文字列と一致するテロップが出現する位置のリストをLS に格納する。テロップ認識処理は、例えば、「映像中の文字検索方法及び装置」(特開2002−279433)に開示されている方法によって行うことができる。その後、ステップ513に移行する。
【0085】
ステップ510) ヒントHが種別“セリフ”と等しいかを検査し、等しければステップ511へ移行し、そうでなければステップ513に移行する。
【0086】
ステップ511) シーンSのヒントのキーKを取得する。この場合、ヒント種別が“セリフ”であるので、キーKは文字列である。
【0087】
ステップ512) 映像データ203に対して、入力映像の先頭から計ってTmin 秒の位置からTmax 秒の位置までの部分映像に対して音声認識処理を行い、キーKの文字列と一致するセリフが出現する位置のリストをMS に格納する。音声認識処理は、例えば、「映像検索装置及びその方法」(特開2002−175304)に開示されている方法によって行うことができる。その後、ステップ513に移行する。
【0088】
ステップ513) 変数Sに値S+1を代入する。
【0089】
ステップ514) 変数Sの値とシーン数Nを比較し、S≦Nであれば、ステップ502に戻り、次のシーンについての処理を行う。そうでなければ、図11のステップ601に移行する。
【0090】
ステップ601) 変数Sに1を代入する。
【0091】
ステップ602) 中間索引202からシーンSのシーン説明を取得する。
【0092】
ステップ603) 変数Sの値と1を比較し、同じであれば、ステップ613に移行する。そうでなければステップ604に移行する。
【0093】
ステップ604) シーン番号Sを表示装置102に出力する。
【0094】
ステップ605) シーンSのシーン説明を表示装置102に出力する。
【0095】
ステップ606) シーンSのカット点のリストCS の各々の位置を瞬間の縮小画像を映像データ203から作成し、表示装置102に位置(映像の先頭からの秒数)と縮小画像を共に出力する。リストCS が初期状態、すなわち、要素数が0の場合は、出力しなくてもよい。
【0096】
ステップ607) シーンSのリストLS の各々の位置の縮小画像を映像データ203から作成し、表示装置102に位置と代表画像を共に出力する。リストLS が初期状態、すなわち、要素数が0の場合は出力しなくてもよい。
【0097】
ステップ608) シーンSのリストMS の各々の位置の縮小画像を映像データ203から作成し、表示装置102に位置と代表画像を共に出力する。リストMS が初期状態、すなわち、要素数が0の場合は出力しなくてもよい。
【0098】
ステップ604から608の処理によって表示装置102に出力された例を図12に示す。
【0099】
表示装置102には、ステップ604で出力されたシーン番号701、ステップ605で出力されたシーン説明702、ステップ606からステップ608で出力された縮小画像703が1つの画面に表示される。
【0100】
ステップ609) 入力装置103からの入力を受け付ける。この入力は、操作者が表示装置102に出力されたシーン説明702と、縮小画像703とを閲覧し、当該シーンに最も相応しいシーン開始点を選択して、最も相応しいシーン開始位置を入力装置103から入力したものとする。当該ステップによって、当該シーンの開始位置が一つ選択される。入力の方法は、位置(秒数)を入力する方法でもよいし、表示装置102に表示された縮小画像703をマウス等の入力装置によって選択し、その代表画像に対応する位置を取得する方法でもよい。
【0101】
ステップ610) シーンSのシーン番号と、シーン説明と、ステップ609で入力された位置と、その位置の縮小画像を、シーンSの索引として、記憶装置104に出力する。
【0102】
ステップ611) 変数Sに値S+1を代入する。
【0103】
ステップ612) 変数Sの値と、シーン数Nを比較し、S≦Nであれば、ステップ602に戻り、次のシーンについての処理を行う。そうでなければ、処理を終了する。
【0104】
ステップ613) 映像の先頭(位置0秒)の画像の縮小画像を作成し、シーン番号1と、シーン1のシーン説明と、位置0(秒)と、位置0秒の縮小画像をシーン1の索引として、記憶装置104に出力し、ステップ611に移行する。処理を終了すると、記憶装置104に、映像データ203の索引305が出力される。
【0105】
図13は、本発明の一実施の形態における作成された索引の例を示す。作成された索引305は、シーン番号801、シーン説明802、開始時間803、縮小画像804からなる。開始時間803は、前述の処理によって確定され、幅は表示していない。
【0106】
通常、単純に映像のカット点やテロップ、セリフの出現位置(イベント点)を検出すると、多く検出され、重要なイベント点を見つけにくくなるが、本発明の処理によれば、もともと制作者の考えていたシーン区切りによって検出数が制限されるので、シーンの区切りを見つけやすくなる。本発明によって作成した映像索引のシーン区切りは、映像の制作者の考えていた構造を反映しており、シーン説明は、映像の制作者の考えていた意図等を反映しており、単純イベント点によって構成した索引よりも分かりやすくなる。
本処理を用いれば、シーンの区切りを検出する処理を映像全体に適用せずとも、開始時間が存在するはずの区間にだけ適用すればよいので、処理時間が短縮される。
【0107】
なお、本実施の形態では、シーンの区切りとして検出するイベント点の種類をカット点、特定のセリフの出現位置、特定のテロップの出現位置のいずれかとする例を示したが、これに限らず、他のイベント点を利用してもよい。例えば、音楽あるいはジングルの出現位置、人物の有無、人物の人数、ロゴマークの有無などを利用してもよい。
【0108】
また、特定の台詞や特定のテロップとせず、任意の台詞、任意のテロップの出現位置をイベント点としてもよい。
【0109】
また、本実施の形態では、操作者がシーン区切りを選択する前にすべてのシーンの区切り位置の候補を求めておく例を示したが、他の可能な実施の形態としては、1シーン毎に区切り位置の候補を求め、シーン区切り位置を確定していく形態がある。この形態では、直前のシーンの開始時間が確定されているので、シーン開始時間の幅を短くすることができ、さらに、処理時間を短縮することが可能となる。
【0110】
本実施の形態では、ステップ505のカット点検出処理をすべてのシーンについて作成しているが、シーンにヒント種別が設定されている場合は、ステップ505を省略するような方法としてもよい。
【0111】
なお、上記の実施の形態における図6〜図11のフローチャートに示す動作をプログラムとして構築し、索引付け装置として利用されるコンピュータにインストールし、CPU等の制御装置において実行することも可能である。
【0112】
また、構築されたプログラムを索引付け装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納しておき、本発明を実施する際にインストールすることも可能である。
【0113】
また、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【0114】
【発明の効果】
上述のように本発明によれば、構成表に基づいて映像の索引を作成することにより、制作者の意図を反映した意味のあるシーンによって索引を作成することができ、わかりやすい索引を作成することができる。
【0115】
また、本発明によれば、シーンの区切りを検出処理を映像全体に適用せずとも、開始時間が存在するはずの区間にだけ適用すればよいので、処理時間が短縮される。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の一実施の形態におけるシステム構成図である。
【図3】本発明の一実施の形態におけるデータの流れを示す図である。
【図4】本発明の一実施の形態における構成表の例である。
【図5】本発明の一実施の形態における構成表から中間索引への変換の例である。
【図6】本発明の一実施の形態における中間索引作成処理のフローチャート(その1)である。
【図7】本発明の一実施の形態における中間索引作成処理のフローチャート(その2)である。
【図8】本発明の一実施の形態における中間索引作成処理のフローチャート(その3)である。
【図9】本発明の一実施の形態における映像索引付け処理の基本動作のフローチャートである。
【図10】本発明の一実施の形態における映像索引付け処理のフローチャート(その1)である。
【図11】本発明の一実施の形態における映像索引付け処理のフローチャート(その2)である。
【図12】本発明の一実施の形態における表示装置に表示されたシーン開始点、選択画面の例である。
【図13】映像索引の例である。
【符号の説明】
101 情報処理装置
102 表示装置
103 入力装置
104 記憶装置
105 LAN
106 ファイルサーバ装置
201 構成表
202 中間索引
203 映像データ
204 映像索引付け処理
205 索引
301〜305 意味的なシーンンの区切り
306〜310,316〜320 シーンの内容
311〜315 シーンの時間長
319〜320 文章
701 シーン番号
702 シーン説明
703 縮小画像
801 シーン番号
802 シーン説明
803 開始時間
804 縮小画像

Claims (5)

  1. 中間索引生成手段、イベント点検出手段、開始時間抽出手段を有し、入力された映像データに対し、該映像の制作に使用された構成表の記述に基づいて、該構成表に記述されているシーン毎に索引を付加する映像索引付加装置が行う映像索引付加方法において、
    前記中間索引生成手段が、前記構成表のシーンの継続時間に所定の変動幅を与え、各シーンに幅付きの継続時間を設定し、幅が付いたシーンの継続時間の積算により各シーンに幅が付いた開始時間を設定した中間索引を生成し、記憶装置に格納し、
    前記イベント点検出手段が、前記映像データのイベント点を検出し、
    前記開始時間抽出手段が、前記検出されたイベント点の中から、イベント点の開始時間が前記中間索引のシーンの幅付きの開始時間の範囲に含まれるイベント点を抽出し、記憶装置に出力する
    ことを特徴とする映像索引付加方法。
  2. 前記中間索引は、シーンに対してイベントの種類とキーを含み、
    前記イベント点検出手段がイベント点を検出する際に、前記中間索引で示されたイベントの種類とキーとによってイベントを検出する
    請求項1記載の映像索引付加方法。
  3. 前記中間索引生成手段が、前記中間索引のシーン毎の幅付きの開始時間を求める際に、連続する複数のシーン(シーケンス)の最初のシーン開始時間と、最後のシーンの終了点が予め固定されている場合には、
    シーケンスの先頭かシーンの継続時間の幅を積算して求めたシーンの開始時間の幅と、シーケンスの末尾からシーンの継続時間の幅を積算して求めた開始時間の幅とから、小さい方の幅を選択して用いる
    請求項1または2記載の映像索引付加方法。
  4. 請求項1乃至3のいずれか1項に記載の映像索引付加方法をコンピュータに実行させるための映像索引付加プログラム。
  5. 請求項4に記載の映像索引付加プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2002323093A 2002-11-06 2002-11-06 映像索引付加方法及びプログラム及びコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP3985656B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002323093A JP3985656B2 (ja) 2002-11-06 2002-11-06 映像索引付加方法及びプログラム及びコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002323093A JP3985656B2 (ja) 2002-11-06 2002-11-06 映像索引付加方法及びプログラム及びコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2004159108A JP2004159108A (ja) 2004-06-03
JP3985656B2 true JP3985656B2 (ja) 2007-10-03

Family

ID=32803085

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002323093A Expired - Fee Related JP3985656B2 (ja) 2002-11-06 2002-11-06 映像索引付加方法及びプログラム及びコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP3985656B2 (ja)

Also Published As

Publication number Publication date
JP2004159108A (ja) 2004-06-03

Similar Documents

Publication Publication Date Title
US8812311B2 (en) Character-based automated shot summarization
Bolle et al. Video query: Research directions
JP4873018B2 (ja) データ処理装置、データ処理方法、及び、プログラム
JP5691289B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP4250301B2 (ja) 映像シーケンスを編集する方法及びシステム
US8392183B2 (en) Character-based automated media summarization
US8374845B2 (en) Retrieving apparatus, retrieving method, and computer program product
US20020108112A1 (en) System and method for thematically analyzing and annotating an audio-visual sequence
WO2012020667A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
US7212972B2 (en) Audio features description method and audio video features description collection construction method
JP2002125174A (ja) ビデオスキミング方法及び装置
JP2001028722A (ja) 動画像管理装置及び動画像管理システム
WO2000036833A1 (fr) Procede et appareil permettant de retrouver vocalement des scenes video ou audio
JP2002335473A (ja) 動画コンテンツの検索情報抽出システム、検索情報抽出方法、検索情報保存システム、動画コンテンツのストリーミング配信方法
KR20050086942A (ko) 오디오 신호의 증대 방법 및 시스템
JP2012065119A (ja) コンテンツ処理装置
JP4192703B2 (ja) コンテンツ処理装置、コンテンツ処理方法及びプログラム
JP4064902B2 (ja) メタ情報生成方法、メタ情報生成装置、検索方法および検索装置
JP2001143451A (ja) 自動インデックス発生装置ならびにインデックス付与装置
KR20020074328A (ko) 키프레임을 이용한 동영상 재생방법 및 그 장치
JP2004289530A (ja) 記録再生装置
JP3985656B2 (ja) 映像索引付加方法及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2007519321A (ja) 視聴覚データストリームのマルチメディア要約を作成する方法及び回路
JP5088119B2 (ja) データ生成装置、データ生成プログラムおよび情報処理装置
Smith et al. Multimodal video characterization and summarization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070410

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070619

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070702

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100720

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100720

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110720

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120720

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees