JP2004159107A - Method for index generation, program, and storage medium with program stored therein - Google Patents
Method for index generation, program, and storage medium with program stored therein Download PDFInfo
- Publication number
- JP2004159107A JP2004159107A JP2002323091A JP2002323091A JP2004159107A JP 2004159107 A JP2004159107 A JP 2004159107A JP 2002323091 A JP2002323091 A JP 2002323091A JP 2002323091 A JP2002323091 A JP 2002323091A JP 2004159107 A JP2004159107 A JP 2004159107A
- Authority
- JP
- Japan
- Prior art keywords
- scene
- scenario
- predicted
- time length
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
- Studio Devices (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、インデックス生成方法及びプログラム及びインデックス生成プログラムを格納した記憶媒体に係り、特に、編集済みの映像とシナリオを対応付けることによって映像のインデックスを生成するためのインデックス生成方法及びプログラム及びインデックス生成プログラムを格納した記憶媒体に関する。
【0002】
【従来の技術】
映像を制作するワークフローを考えると、通常まずどのようなシーンを組み合わせて映像を構成するかというシナリオを作り、そのシナリオに基づいて撮影、編集等を行うことによって最終的な映像(編集済み映像)を作るというフローになる。
【0003】
ここで、シナリオとは、映像の企画構成をシーン毎に記述した文書で、例えば、シーンの時間長、タイトル、スケッチ、ナレーション、テロップ、BGM、構図、カメラワーク、出演者、撮影場所等の情報が記述されているものである。これらすべての情報が記述されている必要はなく、また、記述するフォーマットも特に決まっているわけではない。手書きのものもあれば、ワードプロセッサや専用ソフトウェアで作成された電子ファイルや、それらを印刷したものもある。
【0004】
一般に編集済み映像は、元のシナリオとの時間的な対応付けが曖昧である。シナリオに時間に関する記載がない場合もあれば、シーン毎の時間長が記載されている場合もあるが、編集過程で変更されることもあるため、シナリオの時間長と編集済み映像の時間長が必ずしも一致するとは限らない。このような現状では、シナリオの情報と編集済み映像の時間的な対応が曖昧なため、シナリオ記載のメタデータが映像のどの部分に対応するかわからず、シナリオに含まれている情報をシーン毎にメタデータとして付与することが難しい。
【0005】
これを解決する手段の一つとして、映像制作時に構造中の位置を示す識別子を与えることによってシナリオと編集済み映像を時間的に対応付ける方法がある(例えば、特許文献1参照)。この方法によればシナリオと編集済み映像を時間的に対応付けることが可能となり、シナリオ情報をメタデータとして利用することが可能となる。
【0006】
別のアプローチとして、編集済み映像からテロップ認識(例えば、特許文献2参照)や音声認識(例えば、特許文献3参照)等によって情報を抽出し、メタデータとして付与するという方法もある。
【0007】
【特許文献1】
特開2000−92419「番組情報管理編集システムとそれに使用される階層化番組情報蓄積管理装置」
【特許文献2】
特開2002−279433「映像中の文字検索方法及び装置」
【特許文献3】
特開2002−175304「映像検索装置及びその方法」
【0008】
【発明が解決しようとする課題】
しかしながら、上記の「番組情報管理編集システムとそれに使用される階層化番組情報蓄積管理装置」を用いて編集済み映像とシナリオを対応付けるには、映像制作時にカメラで一つのショットを撮影する度に識別子を与える必要があるので、映像完成後に対応付けを行う必要が生じたとしても、撮影段階で識別子を付与していなければシナリオ情報を関連付けることができないという問題がある。また、企画、撮影、編集のすべての段階において、識別子を与えたり記録したりするための機材が必要となり導入コストが高いという問題がある。
【0009】
勿論、編集済み映像とシナリオを人手で対応付けることも考えられるが、映像に含まれる膨大なシーンすべてに手作業で対応付けを行うことは時間的コストが高いという問題がある。
【0010】
さらに、編集済み映像からテロップ認識や音声認識により情報を抽出してメタデータとして付与する方法では、抽出可能な情報はシナリオに含まれる情報の一部でしかなく、認識精度も100%とはいえない。
【0011】
本発明は、上記の点に鑑みなされたもので、企画時のシナリオ文書を編集済み映像と対応付けて有効活用するため、映像が完成した後に少ない作業量でシナリオと編集済み映像を時間的に対応付けるためのインデックス生成方法及びプログラム及びインデックス生成プログラムを格納した記憶媒体を提供することを目的とする。
【0012】
ここで、インデックスとは、シナリオ記述のシーン毎に、予測開始時間、予測終了時間、予測時間長、シーンのタイトル等のメタデータを記述したものである。
【0013】
【課題を解決するための手段】
図1は、本発明の原理を説明するための図である。
【0014】
本発明は、編集済み映像とシナリオ文書を元に映像とシナリオを対応付ける映像に対するインデックスを生成するためのインデックス生成方法において、
編集済み映像から映像全体の実時間長を求める実時間長計測過程(ステップ1)と、
シナリオからシーン毎の予測時間長と映像全体の予測時間長を算出する予測時間算出過程(ステップ2)と、
編集済み映像全体の実時間長とシナリオから算出した映像全体の予測時間長の比を求める時間長比較過程(ステップ3)と、
比を用いてシナリオから算出したシーン毎の予測時間長を修正する予測時間長修正過程(ステップ4)と、
シーン毎に予測開始時間と予測終了時間と予測時間長を記述したインデックスを生成するインデックス生成過程(ステップ5)とを行う。
【0015】
また、本発明の予測時間算出過程において、
シナリオに記載されているシーン毎のナレーションやコメント、台詞の全部または、一部の文字数を数え、
シーン毎の文字数の比を求め、
比を用いてシーン毎の予測時間長を算出する過程を更に行う。
【0016】
また、本発明は、インデックス生成過程終了後に、
編集済み映像からカット点と該カット点の時間を検出し、
修正候補となる検出されたカット点の時間と予測時間算出過程において算出されたシーン毎の予測開始時間を比較して該カット点のいずれかの時間を修正後の予測開始時間とし、
シナリオから算出されたシーン毎の予測開始時間と予測時間長を修正した時間情報を記述したインデックスを生成する過程を更に行う。
【0017】
また、本発明は、インデックス生成過程終了後に、
シナリオからシーン毎にメタデータを抽出し、
抽出したメタデータをシーン毎に記述したインデックスを生成する過程を更に行う。
【0018】
本発明は、編集済み映像とシナリオ文書を元に映像とシナリオを対応付ける映像に対するインデックスを生成するためのインデックス生成プログラムであって、
編集済み映像から映像全体の実時間長を求める実時間長計測ステップと、
シナリオからシーン毎の予測時間長と映像全体の予測時間長を算出し、該シナリオに時間に関する記述がない場合には、該シナリオに記載されているシーン毎のナレーションやコメント、台詞の全部または、一部の文字数を数え、該シーン毎の文字数の比を求める予測時間算出ステップと、
比を用いてシーン毎の予測時間長を算出するする予測時間算出ステップと、
編集済み映像全体の実時間長とシナリオから算出した映像全体の予測時間長の比を求める時間長比較ステップと、
比を用いてシナリオから算出したシーン毎の予測時間長を修正する予測時間長修正ステップと、
シーン毎に予測開始時間と予測終了時間と予測時間長を記述したインデックスを生成するインデックス生成ステップと、
編集済み映像からカット点と該カット点の時間を検出するカット点検出ステップと、
修正候補となる検出されたカット点の時間と予測時間算出ステップにおいて算出されたシーン毎の予測開始時間を比較して該カット点のいずれかの時間を修正後の予測開始時間とする修正予測開始時間設定ステップと、
シナリオから算出されたシーン毎の予測開始時間と予測時間長を修正した時間情報を記述したインデックスを生成する修正インデックス生成ステップと、
シナリオからシーン毎にメタデータを抽出するメタデータ抽出ステップと、
抽出したメタデータをシーン毎に記述したインデックスを生成するメタデータ付与インデックス生成ステップと、を実行する。
【0019】
本発明は、編集済み映像とシナリオ文書を元に映像とシナリオを対応付ける映像に対するインデックスを生成するためのインデックス生成プログラムを格納した記憶媒体であって、
編集済み映像から映像全体の実時間長を求める実時間長計測ステップと、
シナリオからシーン毎の予測時間長と映像全体の予測時間長を算出し、該シナリオに時間に関する記述がない場合には、該シナリオに記載されているシーン毎のナレーションやコメント、台詞の全部または、一部の文字数を数え、該シーン毎の文字数の比を求める予測時間算出ステップと、
比を用いてシーン毎の予測時間長を算出するする予測時間算出ステップと、
編集済み映像全体の実時間長とシナリオから算出した映像全体の予測時間長の比を求める時間長比較ステップと、
比を用いてシナリオから算出したシーン毎の予測時間長を修正する予測時間長修正ステップと、
シーン毎に予測開始時間と予測終了時間と予測時間長を記述したインデックスを生成するインデックス生成ステップと、
編集済み映像からカット点と該カット点の時間を検出するカット点検出ステップと、
修正候補となる検出されたカット点の時間と予測時間算出ステップにおいて算出されたシーン毎の予測開始時間を比較して該カット点のいずれかの時間を修正後の予測開始時間とする修正予測開始時間設定ステップと、
シナリオから算出されたシーン毎の予測開始時間と予測時間長を修正した時間情報を記述したインデックスを生成する修正インデックス生成ステップと、
シナリオからシーン毎にメタデータを抽出するメタデータ抽出ステップと、
抽出したメタデータをシーン毎に記述したインデックスを生成するメタデータ付与インデックス生成ステップと、からなるプログラムを格納する。
【0020】
上記のように、本発明では、オペレータが編集済み映像を再生し、映像の全てに目を通してシーン毎の開始点にラベル付けを行う際に、本発明で生成されるインデックスにより開始点が存在する区間を絞り込むことが可能となるため、映像すべてに目を通す必要がなくなり、作業を省力化することができる。
【0021】
また、本発明では、シナリオシーンの予定開始時間が記載されていない場合にもインデックスを生成することが可能となる。
【0022】
さらに、インデックス生成の際に編集済みのカット点を用いることで、インデックス中のシーンの予定開始時間をより正確な情報に修正することが可能となる。
【0023】
また、インデックスにシーンの開始時間の情報だけでなく、シナリオの情報をメタデータとして記述することで、キーワードによるシーン探索が可能となる。
【発明の実施の形態】
以下、図面と共に本発明の実施の形態を説明する。
【0024】
[第1の実施の形態]
図2は、本発明の第1の実施の形態におけるインデックス生成のフローチャートである。
【0025】
同図に示すフローチャートは、実時間長計測ステップ(ステップ101)、予測時間長算出ステップ(ステップ102)、時間長比較ステップ(ステップ103)、予測時間長修正ステップ(ステップ104)、インデックス生成ステップ(ステップ105)より構成される。
【0026】
以下、図2に基づいてインデックス作成の動作を詳細に説明する。
【0027】
本発明では、シナリオに記述されている完成予定の映像の時間長と、実際の編集済み映像の時間長にずれがあることから、そのずれをおおまかに修正したインデックスを生成することを目的とする。
【0028】
まず、実時間長計測ステップ(ステップ101)の入力は、既に編集済みの映像となる。映像のジャンルや、内容、編集方法や記録媒体については、特に制限しない。
【0029】
ステップ101では、この入力された編集済み映像から映像全体の実時間長L1を求める。例えば、編集済みの映像がVHS等のテープに録画されている場合には、再生デッキ等を用いてカウンタの開始値と終了値の差分により時間長を求める。また、MPEG等の電子フォーマットで録画されている場合には、ファイルのプロパティから映像の時間長を得ることができる。ここで、例えばステップ101の出力として編集済みの映像の実時間長L1=200(s)が得られたとする。
【0030】
次に、ステップ102の入力は、上記編集済み映像を制作するときに使用したシナリオとなる。コンピュータプログラムとして実施する場合には、シナリオが機械可読である形式になっているものとする。例えば、図3のように、シーン時間長201、タイトル202、スケッチ203、ナレーション204、テロップ205、BGM206が記述されているシナリオが入力されたとする。
【0031】
このシナリオから各シーン(1〜n)の予測時間長S1 〜Sn を算出する。図3のシナリオのように、予め各シーンに時間長201が記載されている場合には、その値をそのまま編集済み映像の予測時間長S1 〜Sn とする。例えば、シナリオにシーンiの時間長が“0:20”と記載されていたら、シーンiの予測時間長Si を“Si =20(s)”とする。ところでシナリオには、シーン毎の時間長を記載する代わりに、シーン毎の開始時間が記載されている場合がある。この場合には、シーンiの予測時間長S1 〜Sn を、
Si =Ti+1 −Ti
により求める。但し、Ti はシーンiの開始時間とする。
【0032】
さらに、全体の予測時間長L2を
L2=S1 +S2 +…+Sn
により算出する。
【0033】
図3のシナリオの場合、各シーンの予測時間長は、
S1 =90(s),
S2 =50(s),
S3 =40(s)
であり、全体の予測時間長は、
L2=S1 +S2 +S3 =180(s)
となる。
【0034】
ステップ103の入力は、ステップ101で得られた編集済み映像の実時間長L1とステップ102で得られた予測時間長L2となる。
【0035】
ステップ103では、編集済み映像から算出された全体の実時間長L1とシナリオから算出された全体の予測時間長L2の比R=L1/L2を求める。
【0036】
図3のシナリオの場合
R=L1/L2=200/180=10/9
となる。
【0037】
ステップ104では、ステップ103で求めた比Rを用いて、ステップ102で得られた各シーンの予測時間長S1 〜Sn を修正する。修正後の予測時間長S’1 〜S’n を、
S’1 =S’1 *R,S’2 =S’2 *R,…, S’n =S’n *R
の計算式により得る。
【0038】
図3のシナリオの場合、修正済みの各シーンの予測時間長は、
S’1 =S1 *R=100(s),
S’2 =S2 *R≒56(s),
S’3 =S3 *R≒44(s)
となる。
【0039】
ステップ105では、ステップ104で得られた修正済みのシーン毎の予測時間長S’1 〜S’n 及び映像の実時間長L1を用いて、図4のように各シーン番号301、予測開始時間302、予測終了時間303、予測時間長304、映像全体の開始時間305、終了時間306、時間長307を記述したインデックスを生成する。
【0040】
ここでシーン1の予測開始時間302及び映像全体の開始時間305は必ず“0:00”とし、修正後の予測時間長304を加算していくことで、そのシーンの予測終了時間303及び次のシーンの予測開始時間302を順次算出する。
【0041】
図4のインデックスはシーン1が0:00〜1:40、シーン2が1:40〜2:36、シーン3が2:36〜3:20に存在することを示している。
【0042】
ステップ105で生成されたインデックスのシーンの予測開始時間と予測時間長は必ずしも正確ではないが、シナリオに記述されているシーンの開始時間や時間長に比べ、実際の編集済み映像のシーン開始時間、時間長に近くなっている可能性が高い。
【0043】
ここで生成されたインデックスの予測開始時間は、通常、編集済み映像の開始時間と比べ誤差が生じている。そこで、この誤差を考慮に入れて、シーンの実際の開始時間が存在する目安となる範囲を記述したインデックスを生成してもよい。例えば、予測時間長の修正前後の差程度の誤差があると考えると、図5のインデックスが生成される。例えば、シーンiの修正前と修正後の予測時間長の差をdi 、予測終了時間をTi とすると、範囲表現した場合のシーンiの予測終了時間は、(Ti −di )〜(Ti +di )と表すことができる。そして予測終了時間の範囲に合わせて、予測時間長、次シーンの予測開始時間の修正も行う。このとき予測終了時間の範囲を次シーンでの予測開始時間の範囲とし、予測時間長の範囲には、予測開始時間と予測終了時間の範囲で最小の値と最大の値を用いる。但し、最初のシーンの予測開始時間と最後のシーンの予測終了時間については、編集済み映像より算出した正確な値であるため範囲表示を行う必要がない。
【0044】
例えば、シーン1の修正前の予測時間長は90(s)であり、修正後の予測時間長は100(s)であるから差分は10(s)となる。そしてシーン1の予測終了時間は、1:40であるから、この値から±10(s)を計算して、1:30〜1:50が予測終了時間の目安の範囲となる。このとき、シーン1の開始時間は、0:00であるから、この区間の最小値と最大値を求めるとシーン1の予測時間長は、90〜110sとなる。この手順を繰り返せば、図5のインデックスが作成される。
【0045】
本実施の形態によって生成されたインデックスに記載されているシーンの開始時間情報は、編集済み映像のシーン毎の開始時間に近い値となっていることが期待できる。よって、編集済み映像から正確なシーン開始時間を得るためにオペレータが映像を全てを見なくても、本実施の形態により生成されたインデックスに記述されたシーン開始時間の前後、または記述されている範囲を中心に探せばよく、作業を省力化することができる。
【0046】
また、インデックス生成のために映像撮影時の特殊な装置、手順が不要である。
【0047】
[第2の実施の形態]
本実施の形態では、シナリオに時間に関する記述がない場合のインデックス生成方法について説明する。
【0048】
図6は、本発明の第2の実施の形態におけるシナリオの例であり、シナリオに時間に関する記述がない例を示す。図7は、本発明の第2の実施の形態におけるインデックス生成のフローチャートである。
【0049】
図7におけるステップ201及びステップ205は、前述の第1の実施の形態のステップ101及びステップ105と同様であるのでその説明を省略する。
【0050】
例えば、図6のような時間に関する記述がないシナリオをステップ202に入力する。ステップ202では、このシナリオ中のシーン毎に記述されている文字数をカウントする。ここで、シーンiの文字数をri とする。
【0051】
図6のシナリオでは、シーン1に記述されているナレーションが856文字、シーン2に記述されているナレーションが632文字であるとする。本実施の形態では、シナリオに記載されているナレーション、コメント、台詞等のうち、ナレーションの文字数をカウントしri とするが、コメントや、台詞等の文字数をri としてもよいし、それらすべての合計の文字数をri としてもよい。シナリオにナレーションや、コメント、台詞等の文字が記載されていないシーンがある場合には、そのシーンが規定の文字数または、時間長を持つと仮定して、予め定めた適当な値aをri とする。例えば、aにはシーン毎の平均文字数を利用する。
【0052】
ステップ203では、ステップ202で求められた文字数を元に、シーン毎の比r1 :r2 :…:rn を算出する。図6のシナリオの例では、r1 :r2 =856:632となる。
【0053】
ステップ204では、ステップ201で得られた編集済み映像の実時間長L1とステップ203で得られた比r1 :r2 :…:rn から各シーンの予測時間長S1 〜Sn を算出する。各シーンの予測時間長は次のようになる。
【0054】
S1 =L1*r1 /(r1 +r2 +…+rn )
S2 =L1*r2 /(r1 +r2 +…+rn )
…
Sn =L1*rn /(r1 +r2 +…+rn )
ステップ201で得られた編集済み映像の実時間長が300(s)であるとき、図6の例では、シーン1、シーン2の予測時間長S1 ,S2 が、
S1 =300*856/(856+632)≒173(s),
S2 =300*632/(856+632)≒127(s),
と算出される。
【0055】
本実施の形態では、シナリオに時間情報の記述がない場合についても、おおまかな時間を記述したインデックスの生成が可能になり、前述の第1の実施の形態と同様の効果が得られる。
【0056】
また、本実施の形態では、文字数をカウントしたが、シーン毎に含まれるカット数を利用することもできる。
【0057】
[第3の実施の形態]
本実施の形態では、編集済みの映像のカット点の時間情報を利用してシーンの予測開始時間の修正を行う方法について説明する。
【0058】
図8は、本発明の第3の実施の形態におけるシーンの予測時間の修正方法のフローチャートである。
【0059】
ここで、カット点とはショット(カメラで連続的に撮影された映像区間)のつなぎ目のことである。このカット点がシーンとシーンの切れ目の候補となる。但し、すべてのカット点がシーンとシーンの切れ目となるわけではない。図8において、ステップ301〜305は、前述の第1の実施の形態のステップ101〜ステップ105と同様であるので、その説明は省略する。ステップ301〜ステップ305の代わりに、第2の実施の形態のステップ201〜ステップ205の手順でも本実施の形態は実現できる。
【0060】
ステップ306での入力は編集済みの映像となる。ステップ306では、この編集済み映像から、映像の特徴量によりカット点を求める。そのための方法としては、“特開2002−218376「カット検出装置及びカット検出方法のプログラムを記録した記録媒体」”等の既存の技術を用いてカット点をその時間と共に検出する。
【0061】
図9は、本発明の第3の実施の形態における映像からカット点を検出した状態を示している。同図は、映像フレームの時間的な並びを模式的に表したもの801があり、それから、それぞれ検出されたカット点におけるフレーム802、803、804が示されている。同図の例では、検出された3つのカット点の時間が、1:33(フレーム802)、2:05(フレーム803)、2:40(フレーム804)となっている。
【0062】
ステップ307では、ステップ306で検出したカット点と、ステップ305で生成されたインデックスのシーン毎の予測開始時間を比較する。
【0063】
例えば、ステップ305で生成される図4のインデックスの例の場合、シーンの予測開始時間は“00:00,01:40,02:36”となっている。
【0064】
シーンの正確な開始時間はステップ306で検出されたカット点のいずれかである可能性が高いため、このインデックスの予測開始時間とカット点の検出時間を比較し、予測開始時間の修正を行う。修正方法として、シーンの予測開始時間に最も近いカット点の検出時間を修正後のシーン予測開始時間とする。
【0065】
図10は、本発明の第3の実施の形態における予測開始時間の修正例を示す。同図では、シーンの予測開始時間と編集済み映像のカット点の時間との対応を示しており、編集済み映像をタイムラインで表したもの901、905、検出されたカット点902、903、904、シナリオから得られた予測開始時間906、907が示されている。それぞれ図10のようにシーン予測開始時間を最も近いカット点を用いて、1:44(906)が、1:33(902)に、2:36(907)が2:40(904)のように修正される。
【0066】
但し、カット点を検出する際に、検出漏れが発生している可能性もある。そこで、シーンの予測開始時間と最も近いカット点の時間との間隔が予め定められた時間長以上である場合には、修正を行わないようにしてもよい。
【0067】
また、最も近いカット点が正しいシーンの開始点とは限らないため、予測開始時間の前後Dの範囲内に存在するカット点から、オペレータが目視により判断し、対応するカット点を選び出してもよい(Dは予め定められた時間長とする)。あるいは、予測開始時間の前後に存在するM個のカット点から同様に選び出してもよい(Mは予め定められた個数)。
【0068】
ステップ308では、ステップ307で修正されたシーン毎の予測開始時間を用いてインデックスを生成する。生成されたインデックスは図11のようになる。
【0069】
本実施の形態によれば、編集済みの映像からカット点を検出し、前述の第1の実施の形態または、第2の実施の形態で生成されたインデックスのシーン毎の予測開始時間と比較し、修正することで、インデックス中の予測時間情報をより正確なものとすることが可能である。
【0070】
[第4の実施の形態]
本実施の形態では、インデックス生成において、時間だけでなく、シナリオからシーン毎に出現頻度の高いキーワードや、タイトルに含まれるキーワード、人物の位置や、構図、BGMなどを抽出し、当該シーンに対するメタデータ(付属情報)を付与する例を説明する。
【0071】
図12は、本発明の第4の実施の形態におけるインデックス生成のフロチャートである。ステップ401〜405は、第1の実施の形態のステップ101〜ス105と同様であるため、その説明は省略する。また、本実施の形態では、ステップ401〜405の代わりに、第2の実施の形態におけるステップ201〜205、または、第3の実施の形態のステップ301〜305の手順を用いてもよい。
【0072】
ステップ406では、シナリオよりメタデータを抽出する。メタデータとしては、例えば、タイトル、出演者名、出演者の数、ナレーションやコメントに含まれるキーワード、使用されているBGM、テロップ、構図等があげられる。
【0073】
タイトル、出演者名、出演者数、使用されているBGM、テロップ、構造等の情報については、オペレータがシナリオに記述されている情報を項目毎にインデックスに転記する。シナリオに記載されていない項目は、インデックスでは空欄とする。インデックスの項目は、必要に応じて追加してもよいし、あるいは、一部だけを用いてもよい。
【0074】
キーワードの抽出方法についえは、例えば、“特開1996−95982「キーワード抽出装置」”等の既存技術により、ナレーションの文章を単語単位に切り分けて、すべての単語をそのままキーワードとして用いる。あるいは、各単語の出現頻度をカウントし、出現頻度の高いものから上位10個を選択してもよい。または、オペレータが手作業でシナリオからキーワードを抽出してもよい。
【0075】
ここで、インデックスに記述するキーワードはできるだけ他のシーンに含まれないことが望ましい。そのためには、シーン毎にシナリオに含まれる各単語の出現頻度をカウントし、異なるシーンの出現頻度上位10個に同じ単語が含まれている場合には、その共通する単語をキーワードから除外する。あるいは、予め定められた数以上のシーンに同じ単語が含まれていれば、その単語をキーワードから除外する。このようにして、共通するキーワードを削除したり、キーワードとなりにくくしたりすることで、各シーンの特徴を表現したメタデータとなる。
【0076】
例えば、ステップ406で、オペレータが図3のシナリオのシーン1から「姓名」、「46億年」、シーン2から「進化」、シーン3から「人類」のキーワードを抽出し、タイトル、テロップ、BGMのシナリオ記載の情報を転記したとすると、ステップ407により生成されるインデックスは図13のようになる。
【0077】
このようなメタデータを付与したインデックスを生成すると、前述の第1、第2、第3の実施の形態における効果に加え、オペレータがキーワードを用いてシーン検索を行い、そのシーンの予測開始時間をもとに、対応する映像区間を見つけることが可能となる。
【0078】
なお、上記の実施の形態における図2、図7、図8、図12に示すフローチャートをプログラムとして構築し、インデックス生成装置として利用されるコンピュータにインストールし、CPU等の制御手段により実行することが可能である。
【0079】
また、構築されたプログラムを、インデックス生成装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納しておき、本発明を実施する際にコンピュータにインストールすることも可能である。
【0080】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【0081】
【発明の効果】
上述のように本発明によれば、生成されたインデックスに記載されているシーンの開始時間情報は、編集済み映像のシーン毎の開始時間に近い値となっていることが期待できる。よって編集済み映像から正確なシーン開始時間を得るためにオペレータが映像のすべてをみなくても、生成されたインデックスに記述されたシーン開始時間の前後だけを探せばよく、オペレータの作業を省力化することができる。
【0082】
そして、本発明では、シナリオにシーン毎の時間に関する情報の記載がない場合においてもインデックスを生成することが可能となり、また、編集済みの映像のカット点の時間情報を利用することで、インデックスのシーン開始時間情報を正確な値に近づけることが可能となる。
【0083】
さらに、オペレータがあるキーワードに関連するシーンを探したい場合には、検索キーワードが含まれるシーンの開始時間情報を生成されたインデックスより参照することで目的のシーンを容易に見つけることが可能となる。
【0084】
本発明では、上記の手段を実現するために映像撮影時の特殊な装置や、手順が不要である。
【0085】
また、画像や音声の信号特徴といった構成単位ではなく、シナリオに基づいて内容に意味のある構成単位(シーン)の開始点を記述したインデックスを生成しているため、シーンの開始点の映像を並べることで映像全体の構造や映像の概要を把握することが可能である。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の第1の実施の形態におけるインデックス生成のフローチャートである。
【図3】本発明の第1の実施の形態における入力されるシナリオの例である。
【図4】本発明の第1の実施の形態における生成されるインデックスの例である。
【図5】本発明の第1の実施の形態における誤差を考慮したインデックスの生成例である。
【図6】本発明の第2の実施の形態におけるシナリオの例である。
【図7】本発明の第2の実施の形態におけるインデックス生成のフローチャートである。
【図8】本発明の第2の実施の形態におけるシーン予測時間の修正方法のフローチャートである。
【図9】本発明の第3の実施の形態における映像からカット点を検出した状態を示す図である。
【図10】本発明の第3の実施の形態における予想開始時間の修正例である。
【図11】本発明の第3の実施の形態における生成されたインデックスの例である。
【図12】本発明の第4の実施の形態におけるインデックス生成のフローチャートである。
【図13】本発明の第4の実施の形態における生成されたインデックスの例である。
【符号の説明】
201 シーンの時間長
202 タイトル
203 スケッチ
204 ナレーション
205 テロップ
206 BGM
301 各シーン番号
302 予測開始時間
303 予測終了時間
304 予測時間長
305 映像全体の開始時間
306 終了時間
307 時間長
801 映像フレームの時間的な並び
802,803,804 検出されたカット点におけるフレーム[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an index generation method, a program, and a storage medium storing an index generation program, and more particularly, to an index generation method, a program, and an index generation program for generating an index of a video by associating an edited video with a scenario. And a storage medium storing the information.
[0002]
[Prior art]
Considering the workflow of video production, usually a scenario is first created in which the scenes are combined to create a video, and the final video (edited video) is created by performing shooting, editing, etc. based on the scenario. It becomes the flow of making.
[0003]
Here, a scenario is a document that describes the planning composition of a video for each scene. For example, information such as the length of a scene, title, sketch, narration, telop, BGM, composition, camera work, performers, and shooting location Is described. It is not necessary that all of this information be described, and the format to be described is not particularly specified. Some are handwritten, others are electronic files created with a word processor or special software, and some are printed.
[0004]
In general, the edited video has a vague temporal correspondence with the original scenario. In some cases, there is no description about the time in the scenario, and in other cases, the time length of each scene is described.However, the time length of the scenario and the time length of the edited video may be changed during the editing process. They do not always match. In this situation, the temporal correspondence between the scenario information and the edited video is ambiguous, and it is not clear which part of the video the metadata described in the scenario corresponds to. It is difficult to add as metadata.
[0005]
As one means for solving this, there is a method of temporally associating a scenario with an edited video by giving an identifier indicating a position in a structure at the time of video production (for example, see Patent Document 1). According to this method, the scenario and the edited video can be temporally associated, and the scenario information can be used as metadata.
[0006]
As another approach, there is a method in which information is extracted from edited video by telop recognition (for example, see Patent Literature 2) or voice recognition (for example, see Patent Literature 3), and is added as metadata.
[0007]
[Patent Document 1]
Japanese Patent Application Laid-Open No. 2000-92419 "Program information management / editing system and hierarchical program information storage / management device used therein"
[Patent Document 2]
Japanese Patent Application Laid-Open No. 2002-279433 "Method and apparatus for searching characters in video"
[Patent Document 3]
JP 2002-175304 A "Video Search Apparatus and Method"
[0008]
[Problems to be solved by the invention]
However, in order to associate the edited video with the scenario using the above “program information management and editing system and the hierarchical program information storage and management device used for the same”, an identifier must be used each time a shot is taken by a camera during video production. Therefore, even if it is necessary to perform the association after the video is completed, there is a problem that the scenario information cannot be associated unless the identifier is assigned at the shooting stage. In addition, at all stages of planning, photographing, and editing, there is a problem that equipment for giving and recording an identifier is required, and the introduction cost is high.
[0009]
Of course, it is conceivable to manually associate the edited video with the scenario, but manually associating all enormous scenes included in the video has a problem that the time cost is high.
[0010]
Furthermore, in the method of extracting information from the edited video by telop recognition or voice recognition and adding it as metadata, the information that can be extracted is only a part of the information included in the scenario, and the recognition accuracy is 100%. Absent.
[0011]
The present invention has been made in view of the above points, and in order to effectively utilize a scenario document at the time of planning in association with an edited video, the scenario and the edited video can be temporally reduced with a small amount of work after the video is completed. An object of the present invention is to provide an index generation method and a program for associating, and a storage medium storing the index generation program.
[0012]
Here, the index describes metadata such as a predicted start time, a predicted end time, a predicted time length, and a scene title for each scene in the scenario description.
[0013]
[Means for Solving the Problems]
FIG. 1 is a diagram for explaining the principle of the present invention.
[0014]
The present invention provides an index generation method for generating an index for a video that associates a video and a scenario based on an edited video and a scenario document,
A real-time length measuring process for obtaining the real-time length of the entire video from the edited video (step 1)
A prediction time calculation process (step 2) for calculating a prediction time length for each scene and a prediction time length of the entire video from the scenario;
A time length comparing step (step 3) for obtaining a ratio between the actual time length of the entire edited video and the predicted time length of the entire video calculated from the scenario;
A predicted time length correcting step (step 4) for correcting the predicted time length for each scene calculated from the scenario using the ratio;
An index generation step (step 5) for generating an index describing the predicted start time, predicted end time, and predicted time length for each scene is performed.
[0015]
Further, in the process of calculating the predicted time of the present invention,
Count all or part of the narration, comment, and dialogue for each scene described in the scenario,
Find the ratio of the number of characters for each scene,
The process of calculating the predicted time length for each scene using the ratio is further performed.
[0016]
In addition, the present invention, after the end of the index generation process,
Detect the cut point and the time of the cut point from the edited video,
By comparing the time of the detected cut point to be a correction candidate and the predicted start time of each scene calculated in the predicted time calculation process, any time of the cut point is set as the corrected predicted start time,
A process of generating an index describing time information obtained by correcting the predicted start time and the predicted time length for each scene calculated from the scenario is further performed.
[0017]
In addition, the present invention, after the end of the index generation process,
Extract metadata for each scene from the scenario,
A process of generating an index describing the extracted metadata for each scene is further performed.
[0018]
The present invention is an index generation program for generating an index for a video that associates a video with a scenario based on an edited video and a scenario document,
A real time length measuring step for obtaining the real time length of the entire video from the edited video,
Calculate the predicted time length of each scene and the predicted time length of the entire video from the scenario, and if there is no description about time in the scenario, narration or comment for each scene described in the scenario, all or dialogue, A predicted time calculation step of counting a number of characters and calculating a ratio of the number of characters for each scene;
A predicted time calculation step of calculating a predicted time length for each scene using the ratio,
A time length comparing step of calculating a ratio of a real time length of the entire edited video to a predicted time length of the entire video calculated from the scenario;
A predicted time length correction step of correcting the predicted time length for each scene calculated from the scenario using the ratio,
An index generation step of generating an index describing a prediction start time, a prediction end time, and a prediction time length for each scene;
A cut point detection step of detecting a cut point and the time of the cut point from the edited video;
A correction prediction start that compares the time of the detected cut point that is a correction candidate with the prediction start time of each scene calculated in the prediction time calculation step and sets any of the cut points as the corrected prediction start time. A time setting step;
A modified index generation step of generating an index describing time information in which the predicted start time and the predicted time length of each scene calculated from the scenario are corrected,
A metadata extraction step of extracting metadata for each scene from the scenario,
Generating an index in which the extracted metadata is described for each scene to generate an index.
[0019]
The present invention is a storage medium storing an index generation program for generating an index for a video that associates a video with a scenario based on a edited video and a scenario document,
A real time length measuring step for obtaining the real time length of the entire video from the edited video,
Calculate the predicted time length of each scene and the predicted time length of the entire video from the scenario, and if there is no description about time in the scenario, narration or comment for each scene described in the scenario, all or dialogue, A predicted time calculation step of counting a number of characters and calculating a ratio of the number of characters for each scene;
A predicted time calculation step of calculating a predicted time length for each scene using the ratio,
A time length comparing step of calculating a ratio of a real time length of the entire edited video to a predicted time length of the entire video calculated from the scenario;
A predicted time length correction step of correcting the predicted time length for each scene calculated from the scenario using the ratio,
An index generation step of generating an index describing a prediction start time, a prediction end time, and a prediction time length for each scene;
A cut point detection step of detecting a cut point and the time of the cut point from the edited video;
A correction prediction start that compares the time of the detected cut point that is a correction candidate with the prediction start time of each scene calculated in the prediction time calculation step and sets any of the cut points as the corrected prediction start time. A time setting step;
A modified index generation step of generating an index describing time information in which the predicted start time and the predicted time length of each scene calculated from the scenario are corrected,
A metadata extraction step of extracting metadata for each scene from the scenario,
And a metadata generation index generation step of generating an index in which the extracted metadata is described for each scene.
[0020]
As described above, in the present invention, when the operator plays the edited video and labels the start point of each scene through the entire video, the start point exists by the index generated by the present invention. Since it is possible to narrow down the sections, it is not necessary to look through all of the images, and labor can be saved.
[0021]
Further, according to the present invention, an index can be generated even when the scheduled start time of a scenario scene is not described.
[0022]
Furthermore, by using the edited cut point at the time of index generation, it becomes possible to correct the scheduled start time of the scene in the index to more accurate information.
[0023]
Also, by describing not only the information on the start time of the scene but also the information on the scenario as metadata in the index, it is possible to perform a scene search using a keyword.
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0024]
[First Embodiment]
FIG. 2 is a flowchart of index generation according to the first embodiment of the present invention.
[0025]
The flowchart shown in the figure includes a real time length measuring step (step 101), a predicted time length calculating step (step 102), a time length comparing step (step 103), a predicted time length correcting step (step 104), an index generation step ( Step 105).
[0026]
Hereinafter, the index creation operation will be described in detail with reference to FIG.
[0027]
In the present invention, since there is a difference between the time length of the video to be completed described in the scenario and the time length of the actual edited video, an object is to generate an index roughly correcting the difference. .
[0028]
First, the input of the real time length measurement step (step 101) is an already edited video. The genre, content, editing method, and recording medium of the video are not particularly limited.
[0029]
In step 101, a real time length L1 of the entire video is obtained from the input edited video. For example, if the edited video is recorded on a tape such as a VHS, the time length is obtained from the difference between the start value and the end value of the counter using a playback deck or the like. If the video is recorded in an electronic format such as MPEG, the time length of the video can be obtained from the properties of the file. Here, it is assumed that the real time length L1 = 200 (s) of the edited video is obtained as the output of step 101, for example.
[0030]
Next, the input of step 102 is the scenario used when producing the edited video. When implemented as a computer program, it is assumed that the scenarios are in a machine-readable format. For example, assume that a scenario in which a
[0031]
From this scenario, the predicted time lengths S1 to Sn of the scenes (1 to n) are calculated. When the
Si = Ti + 1-Ti
Ask by Here, Ti is the start time of scene i.
[0032]
Further, the entire predicted time length L2 is
L2 = S1 + S2 +... + Sn
Is calculated by
[0033]
In the case of the scenario of FIG. 3, the predicted time length of each scene is
S1 = 90 (s),
S2 = 50 (s),
S3 = 40 (s)
And the overall prediction time length is
L2 = S1 + S2 + S3 = 180 (s)
It becomes.
[0034]
The input in step 103 is the real time length L1 of the edited video obtained in step 101 and the predicted time length L2 obtained in step 102.
[0035]
In step 103, a ratio R = L1 / L2 of the entire actual time length L1 calculated from the edited video and the entire predicted time length L2 calculated from the scenario is obtained.
[0036]
In case of the scenario in Fig. 3
R = L1 / L2 = 200/180 = 10/9
It becomes.
[0037]
In step 104, the predicted time lengths S1 to Sn of each scene obtained in step 102 are corrected using the ratio R obtained in step 103. The corrected predicted time lengths S′1 to S′n are
S′1 = S′1 * R, S′2 = S′2 * R,..., S′n = S′n * R
It is obtained by the calculation formula.
[0038]
In the case of the scenario shown in FIG. 3, the estimated time length of each corrected scene is
S′1 = S1 * R = 100 (s),
S′2 = S2 * R ≒ 56 (s),
S′3 = S3 * R ≒ 44 (s)
It becomes.
[0039]
In step 105, each
[0040]
Here, the
[0041]
The index in FIG. 4 indicates that
[0042]
Although the predicted start time and predicted time length of the scene of the index generated in step 105 are not always accurate, the scene start time and actual scene start time of the edited video are compared with the start time and time length of the scene described in the scenario. It is likely that the time length is approaching.
[0043]
The predicted start time of the index generated here usually has an error compared to the start time of the edited video. Therefore, taking this error into account, an index may be generated that describes a range that is a measure of the actual start time of the scene. For example, assuming that there is an error of about the difference between before and after the correction of the prediction time length, the index of FIG. For example, assuming that the difference between the predicted time length of the scene i before and after the correction and the predicted time length after the correction is di, and the prediction end time is Ti, the predicted end time of the scene i in the range expression is (Ti-di) to (Ti + di) It can be expressed as. Then, the prediction time length and the prediction start time of the next scene are also corrected according to the range of the prediction end time. At this time, the range of the prediction end time is set as the range of the prediction start time in the next scene, and the minimum and maximum values in the range of the prediction start time and the prediction end time are used as the range of the prediction time length. However, since the predicted start time of the first scene and the predicted end time of the last scene are accurate values calculated from the edited video, there is no need to perform range display.
[0044]
For example, the predicted time length of
[0045]
It can be expected that the start time information of the scene described in the index generated according to the present embodiment has a value close to the start time of each scene of the edited video. Therefore, even if the operator does not look at the entire video in order to obtain the correct scene start time from the edited video, the scene start time is described before or after or described in the index generated according to the present embodiment. It is sufficient to search around the range, and labor can be saved.
[0046]
Also, no special device or procedure is required for video shooting for index generation.
[0047]
[Second embodiment]
In the present embodiment, an index generation method in a case where there is no description about time in a scenario will be described.
[0048]
FIG. 6 is an example of a scenario according to the second embodiment of the present invention, and shows an example in which there is no description about time in the scenario. FIG. 7 is a flowchart of index generation according to the second embodiment of the present invention.
[0049]
[0050]
For example, a scenario having no description about time as shown in FIG. In
[0051]
In the scenario of FIG. 6, it is assumed that the narration described in
[0052]
In
[0053]
In
[0054]
S1 = L1 * r1 / (r1 + r2 +... + Rn)
S2 = L1 * r2 / (r1 + r2 + ... + rn)
…
Sn = L1 * rn / (r1 + r2 + ... + rn)
When the real time length of the edited video obtained in
S1 = 300 * 856 / (856 + 632) ≒ 173 (s),
S2 = 300 * 632 / (856 + 632) ≒ 127 (s),
Is calculated.
[0055]
In the present embodiment, even when there is no description of time information in the scenario, it is possible to generate an index describing a rough time, and the same effect as in the first embodiment can be obtained.
[0056]
Further, in the present embodiment, the number of characters is counted, but the number of cuts included in each scene can be used.
[0057]
[Third Embodiment]
In the present embodiment, a method for correcting the predicted start time of a scene using the time information of the cut point of the edited video will be described.
[0058]
FIG. 8 is a flowchart of a method for correcting the predicted time of a scene according to the third embodiment of the present invention.
[0059]
Here, the cut point is a joint between shots (video sections continuously captured by a camera). These cut points are candidates for scene and scene breaks. However, not all cut points are scene breaks. In FIG. 8,
[0060]
The input in
[0061]
FIG. 9 shows a state in which a cut point is detected from an image according to the third embodiment of the present invention. The figure shows a diagram 801 schematically showing the temporal arrangement of video frames, and then shows
[0062]
In
[0063]
For example, in the case of the example of the index in FIG. 4 generated in
[0064]
Since the exact start time of the scene is likely to be one of the cut points detected in
[0065]
FIG. 10 shows a modification of the predicted start time according to the third embodiment of the present invention. In the figure, the correspondence between the predicted start time of the scene and the time of the cut point of the edited video is shown, and the edited video is represented by a
[0066]
However, when detecting a cut point, there is a possibility that a detection omission has occurred. Therefore, if the interval between the predicted start time of the scene and the time of the closest cut point is equal to or longer than a predetermined time length, the correction may not be performed.
[0067]
Further, since the closest cut point is not always the start point of the correct scene, the operator may visually determine and select a corresponding cut point from cut points existing in the range D before and after the predicted start time. (D is a predetermined time length). Alternatively, it may be similarly selected from M cut points existing before and after the predicted start time (M is a predetermined number).
[0068]
In step 308, an index is generated using the predicted start time for each scene corrected in
[0069]
According to the present embodiment, a cut point is detected from an edited video, and compared with the predicted start time for each scene of the index generated in the above-described first or second embodiment. , The prediction time information in the index can be made more accurate.
[0070]
[Fourth Embodiment]
In the present embodiment, in the index generation, not only the time but also a keyword having a high frequency of appearance for each scene, a keyword included in a title, a position of a person, a composition, BGM, and the like are extracted from a scenario, and a meta-data for the scene is extracted. An example of adding data (attached information) will be described.
[0071]
FIG. 12 is a flowchart of index generation according to the fourth embodiment of the present invention. Steps 401 to 405 are the same as steps 101 to 105 of the first embodiment, and thus description thereof is omitted. Further, in the present embodiment, instead of steps 401 to 405, the procedure of
[0072]
In step 406, metadata is extracted from the scenario. Examples of the metadata include a title, a performer name, the number of performers, a keyword included in a narration or comment, a used BGM, a telop, a composition, and the like.
[0073]
For information such as title, performer name, number of performers, BGM used, telop, structure, etc., the operator transfers information described in the scenario to the index for each item. Items not described in the scenario are left blank in the index. Index items may be added as necessary, or only a part thereof may be used.
[0074]
With regard to the keyword extraction method, for example, the narration text is cut into word units using existing technology such as “Japanese Patent Application Laid-Open No. 1996-95982”, and all words are used as keywords as they are. The frequency of appearance of words may be counted, and the top 10 words may be selected from those having a high frequency of appearance, or the operator may manually extract keywords from the scenario.
[0075]
Here, it is desirable that the keywords described in the index are not included in other scenes as much as possible. For this purpose, the appearance frequency of each word included in the scenario is counted for each scene, and if the same word is included in the top 10 appearance frequencies of different scenes, the common word is excluded from the keywords. Alternatively, if the same word is included in more than a predetermined number of scenes, the word is excluded from the keywords. In this manner, metadata that expresses the features of each scene is obtained by deleting common keywords or making them less likely to become keywords.
[0076]
For example, in step 406, the operator extracts the keywords “first and last name” and “4.6 billion years” from
[0077]
When an index to which such metadata is added is generated, in addition to the effects of the first, second, and third embodiments described above, the operator performs a scene search using a keyword and sets the predicted start time of the scene. Based on this, it is possible to find the corresponding video section.
[0078]
It should be noted that the flowcharts shown in FIGS. 2, 7, 8, and 12 in the above embodiment can be constructed as a program, installed on a computer used as an index generation device, and executed by a control unit such as a CPU. It is possible.
[0079]
Further, the constructed program is stored in a hard disk device connected to a computer used as an index generation device, or in a portable storage medium such as a flexible disk or a CD-ROM. It is also possible to install it.
[0080]
It should be noted that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible within the scope of the claims.
[0081]
【The invention's effect】
As described above, according to the present invention, the start time information of the scene described in the generated index can be expected to be a value close to the start time of each scene of the edited video. Therefore, in order to obtain the correct scene start time from the edited video, the operator only has to search for the scene start time described before and after the scene described in the generated index, without having to look at the entire video, thereby saving the operator's work. can do.
[0082]
In the present invention, it is possible to generate an index even when the scenario does not include information on the time for each scene. In addition, by using the time information of the cut point of the edited video, the index can be generated. It is possible to make the scene start time information close to an accurate value.
[0083]
Further, when the operator wants to search for a scene related to a certain keyword, the target scene can be easily found by referring to the start time information of the scene including the search keyword from the generated index.
[0084]
According to the present invention, no special device or procedure is required at the time of capturing an image to implement the above means.
[0085]
In addition, since an index that describes the start point of a structural unit (scene) whose content is meaningful based on a scenario, rather than a structural unit such as a signal feature of an image or an audio, is generated, images of the start point of the scene are arranged. This makes it possible to grasp the structure of the entire image and the outline of the image.
[Brief description of the drawings]
FIG. 1 is a diagram for explaining the principle of the present invention.
FIG. 2 is a flowchart of index generation according to the first embodiment of the present invention.
FIG. 3 is an example of an input scenario according to the first embodiment of the present invention.
FIG. 4 is an example of an index generated in the first embodiment of the present invention.
FIG. 5 is an example of generating an index in consideration of an error according to the first embodiment of the present invention.
FIG. 6 is an example of a scenario according to the second embodiment of the present invention.
FIG. 7 is a flowchart of index generation according to the second embodiment of the present invention.
FIG. 8 is a flowchart of a method for correcting a predicted scene time according to the second embodiment of the present invention.
FIG. 9 is a diagram illustrating a state where a cut point is detected from an image according to the third embodiment of the present invention.
FIG. 10 is a modified example of the estimated start time according to the third embodiment of the present invention.
FIG. 11 is an example of a generated index according to the third embodiment of the present invention.
FIG. 12 is a flowchart of index generation according to the fourth embodiment of the present invention.
FIG. 13 is an example of a generated index according to the fourth embodiment of the present invention.
[Explanation of symbols]
201 Scene Length
202 title
203 Sketch
204 Narration
205 ticker
206 BGM
301 each scene number
302 Predicted start time
303 Predicted end time
304 Prediction time length
305 Start time of entire video
306 end time
307 hours long
801 Temporal arrangement of video frames
802, 803, 804 Frame at detected cut point
Claims (6)
前記編集済み映像から映像全体の実時間長を求める実時間長計測過程と、
前記シナリオからシーン毎の予測時間長と映像全体の予測時間長を算出する予測時間算出過程と、
前記編集済み映像全体の実時間長と前記シナリオから算出した映像全体の予測時間長の比を求める時間長比較過程と、
前記比を用いて前記シナリオから算出したシーン毎の予測時間長を修正する予測時間長修正過程と、
シーン毎に予測開始時間と予測終了時間と予測時間長を記述したインデックスを生成するインデックス生成過程と、からなることを特徴とするインデックス生成方法。An index generation method for generating an index for a video that associates a video with a scenario based on an edited video and a scenario document,
A real-time length measuring step of obtaining a real-time length of the entire video from the edited video,
A predicted time calculation step of calculating a predicted time length for each scene and a predicted time length of the entire video from the scenario,
A time length comparing step of calculating a ratio of a real time length of the entire edited video and a predicted time length of the entire video calculated from the scenario,
A predicted time length correction step of correcting the predicted time length for each scene calculated from the scenario using the ratio,
An index generating step of generating an index describing a predicted start time, a predicted end time, and a predicted time length for each scene.
前記シナリオに記載されているシーン毎のナレーションやコメント、台詞の全部または、一部の文字数を数え、
前記シーン毎の文字数の比を求め、
前記比を用いて前記シーン毎の予測時間長を算出する過程を更に行う請求項1記載のインデックス生成方法。In the predicted time calculation process,
Narration and comment for each scene described in the scenario, count all or part of the characters of the dialogue,
Find the ratio of the number of characters for each scene,
2. The index generation method according to claim 1, further comprising calculating a predicted time length for each scene using the ratio.
前記編集済み映像からカット点と該カット点の時間を検出し、
修正候補となる検出されたカット点の時間と前記予測時間算出過程において算出されたシーン毎の予測開始時間を比較して該カット点のいずれかの時間を修正後の予測開始時間とし、
前記シナリオから算出されたシーン毎の前記予測開始時間と前記予測時間長を修正した時間情報を記述したインデックスを生成する過程を更に行う請求項1乃至2記載のインデックス生成方法。After completion of the index generation process,
Detecting a cut point and the time of the cut point from the edited video,
Comparing the time of the detected cut point to be a correction candidate and the predicted start time of each scene calculated in the predicted time calculation process, any of the cut points is used as the corrected predicted start time,
3. The index generation method according to claim 1, further comprising the step of generating an index describing time information obtained by correcting the prediction start time and the prediction time length for each scene calculated from the scenario.
前記シナリオからシーン毎にメタデータを抽出し、
抽出したメタデータをシーン毎に記述したインデックスを生成する過程を更に行う請求項1乃至3記載のインデックス生成方法。After completion of the index generation process,
Extracting metadata for each scene from the scenario,
4. The index generation method according to claim 1, further comprising a step of generating an index in which the extracted metadata is described for each scene.
前記編集済み映像から映像全体の実時間長を求める実時間長計測ステップと、
前記シナリオからシーン毎の予測時間長と映像全体の予測時間長を算出し、該シナリオに時間に関する記述がない場合には、該シナリオに記載されているシーン毎のナレーションやコメント、台詞の全部または、一部の文字数を数え、該シーン毎の文字数の比を求める予測時間算出ステップと、
前記比を用いて前記シーン毎の予測時間長を算出するする予測時間算出ステップと、
前記編集済み映像全体の実時間長と前記シナリオから算出した映像全体の予測時間長の比を求める時間長比較ステップと、
前記比を用いて前記シナリオから算出したシーン毎の予測時間長を修正する予測時間長修正ステップと、
シーン毎に予測開始時間と予測終了時間と予測時間長を記述したインデックスを生成するインデックス生成ステップと、
前記編集済み映像からカット点と該カット点の時間を検出するカット点検出ステップと、
修正候補となる検出されたカット点の時間と前記予測時間算出ステップにおいて算出されたシーン毎の予測開始時間を比較して該カット点のいずれかの時間を修正後の予測開始時間とする修正予測開始時間設定ステップと、
前記シナリオから算出されたシーン毎の前記予測開始時間と前記予測時間長を修正した時間情報を記述したインデックスを生成する修正インデックス生成ステップと、
前記シナリオからシーン毎にメタデータを抽出するメタデータ抽出ステップと、
抽出したメタデータをシーン毎に記述したインデックスを生成するメタデータ付与インデックス生成ステップと、を実行することを特徴とするインデックス生成プログラム。An index generation program for generating an index for a video that associates a video with a scenario based on a edited video and a scenario document,
A real time length measuring step of obtaining a real time length of the entire video from the edited video,
The predicted time length of each scene and the predicted time length of the entire video are calculated from the scenario, and if there is no description about time in the scenario, all of the narration, comment, and dialog for each scene described in the scenario or A predicted time calculation step of counting the number of partial characters and calculating a ratio of the number of characters for each scene;
A predicted time calculation step of calculating a predicted time length for each scene using the ratio,
A time length comparing step of determining a ratio of a real time length of the entire edited video and a predicted time length of the entire video calculated from the scenario,
A predicted time length correction step of correcting the predicted time length for each scene calculated from the scenario using the ratio,
An index generation step of generating an index describing a prediction start time, a prediction end time, and a prediction time length for each scene;
A cut point detection step of detecting a cut point and the time of the cut point from the edited video,
The time of the detected cut point that is a correction candidate is compared with the predicted start time of each scene calculated in the predicted time calculation step, and any one of the cut points is set as the corrected predicted start time. A start time setting step;
A corrected index generation step of generating an index describing time information obtained by correcting the predicted start time and the predicted time length for each scene calculated from the scenario,
A metadata extraction step of extracting metadata for each scene from the scenario,
An index generation step of generating an index describing the extracted metadata for each scene.
前記編集済み映像から映像全体の実時間長を求める実時間長計測ステップと、
前記シナリオからシーン毎の予測時間長と映像全体の予測時間長を算出し、該シナリオに時間に関する記述がない場合には、該シナリオに記載されているシーン毎のナレーションやコメント、台詞の全部または、一部の文字数を数え、該シーン毎の文字数の比を求める予測時間算出ステップと、
前記比を用いて前記シーン毎の予測時間長を算出するする予測時間算出ステップと、
前記編集済み映像全体の実時間長と前記シナリオから算出した映像全体の予測時間長の比を求める時間長比較ステップと、
前記比を用いて前記シナリオから算出したシーン毎の予測時間長を修正する予測時間長修正ステップと、
シーン毎に予測開始時間と予測終了時間と予測時間長を記述したインデックスを生成するインデックス生成ステップと、
前記編集済み映像からカット点と該カット点の時間を検出するカット点検出ステップと、
修正候補となる検出されたカット点の時間と前記予測時間算出ステップにおいて算出されたシーン毎の予測開始時間を比較して該カット点のいずれかの時間を修正後の予測開始時間とする修正予測開始時間設定ステップと、
前記シナリオから算出されたシーン毎の前記予測開始時間と前記予測時間長を修正した時間情報を記述したインデックスを生成する修正インデックス生成ステップと、
前記シナリオからシーン毎にメタデータを抽出するメタデータ抽出ステップと、
抽出したメタデータをシーン毎に記述したインデックスを生成するメタデータ付与インデックス生成ステップと、からなるプログラムを格納したことを特徴とするインデックス生成プログラムを格納した記憶媒体。A storage medium storing an index generation program for generating an index for a video that associates a video with a scenario based on a edited video and a scenario document,
A real time length measuring step of obtaining a real time length of the entire video from the edited video,
The predicted time length of each scene and the predicted time length of the entire video are calculated from the scenario, and if there is no description about time in the scenario, all of the narration, comment, and dialog for each scene described in the scenario or A predicted time calculation step of counting the number of partial characters and calculating a ratio of the number of characters for each scene;
A predicted time calculation step of calculating a predicted time length for each scene using the ratio,
A time length comparing step of determining a ratio of a real time length of the entire edited video and a predicted time length of the entire video calculated from the scenario,
A predicted time length correction step of correcting the predicted time length for each scene calculated from the scenario using the ratio,
An index generation step of generating an index describing a prediction start time, a prediction end time, and a prediction time length for each scene;
A cut point detection step of detecting a cut point and the time of the cut point from the edited video,
The time of the detected cut point that is a correction candidate is compared with the predicted start time of each scene calculated in the predicted time calculation step, and any one of the cut points is set as the corrected predicted start time. A start time setting step;
A corrected index generation step of generating an index describing time information obtained by correcting the predicted start time and the predicted time length for each scene calculated from the scenario,
A metadata extraction step of extracting metadata for each scene from the scenario,
A storage medium storing an index generation program characterized by storing a program including: a metadata-added index generation step of generating an index in which extracted metadata is described for each scene.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002323091A JP3891097B2 (en) | 2002-11-06 | 2002-11-06 | Index generation method and apparatus, program, and computer-readable recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002323091A JP3891097B2 (en) | 2002-11-06 | 2002-11-06 | Index generation method and apparatus, program, and computer-readable recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004159107A true JP2004159107A (en) | 2004-06-03 |
JP3891097B2 JP3891097B2 (en) | 2007-03-07 |
Family
ID=32803083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002323091A Expired - Fee Related JP3891097B2 (en) | 2002-11-06 | 2002-11-06 | Index generation method and apparatus, program, and computer-readable recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3891097B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007007556A1 (en) * | 2005-07-07 | 2007-01-18 | Sharp Kabushiki Kaisha | Broadcast recording device |
-
2002
- 2002-11-06 JP JP2002323091A patent/JP3891097B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007007556A1 (en) * | 2005-07-07 | 2007-01-18 | Sharp Kabushiki Kaisha | Broadcast recording device |
Also Published As
Publication number | Publication date |
---|---|
JP3891097B2 (en) | 2007-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7921116B2 (en) | Highly meaningful multimedia metadata creation and associations | |
JP4873018B2 (en) | Data processing apparatus, data processing method, and program | |
US7796860B2 (en) | Method and system for playing back videos at speeds adapted to content | |
US20050228665A1 (en) | Metadata preparing device, preparing method therefor and retrieving device | |
Petkovic et al. | Multi-modal extraction of highlights from TV formula 1 programs | |
JP2006155384A (en) | Video comment input/display method and device, program, and storage medium with program stored | |
JP2010072708A (en) | Apparatus for registering face identification features, method for registering the same, program for registering the same, and recording medium | |
JP2004533756A (en) | Automatic content analysis and display of multimedia presentations | |
Chiu et al. | A framework for handling spatiotemporal variations in video copy detection | |
JP5218766B2 (en) | Rights information extraction device, rights information extraction method and program | |
US8564721B1 (en) | Timeline alignment and coordination for closed-caption text using speech recognition transcripts | |
US8676024B2 (en) | Method and apparatus for generating data representing digests of pictures | |
US20190362405A1 (en) | Comparing audiovisual products | |
JP4405418B2 (en) | Information processing apparatus and method | |
JP2004274768A (en) | Method for preparing annotated video file | |
Guha et al. | Computationally deconstructing movie narratives: an informatics approach | |
JP2005025413A (en) | Content processing device, content processing method, and program | |
JP3781715B2 (en) | Metadata production device and search device | |
Huang et al. | A film classifier based on low-level visual features | |
JP2007072023A (en) | Information processing apparatus and method | |
CN109101964B (en) | Method, device and storage medium for determining head and tail areas in multimedia file | |
JP3891097B2 (en) | Index generation method and apparatus, program, and computer-readable recording medium | |
JP2006014084A (en) | Video editing apparatus, video editing program, recording medium, and video editing method | |
EP3252770A1 (en) | Automated identification and processing of audiovisual data | |
JP2007060606A (en) | Computer program comprised of automatic video structure extraction/provision scheme |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060620 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060720 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060822 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060915 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061127 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101215 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101215 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111215 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111215 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121215 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121215 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131215 Year of fee payment: 7 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |