JP2008124551A - ダイジェスト作成装置 - Google Patents
ダイジェスト作成装置 Download PDFInfo
- Publication number
- JP2008124551A JP2008124551A JP2006302903A JP2006302903A JP2008124551A JP 2008124551 A JP2008124551 A JP 2008124551A JP 2006302903 A JP2006302903 A JP 2006302903A JP 2006302903 A JP2006302903 A JP 2006302903A JP 2008124551 A JP2008124551 A JP 2008124551A
- Authority
- JP
- Japan
- Prior art keywords
- digest
- caption
- data
- content
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
Abstract
【課題】比較的低い処理負荷でコンテンツに含まれるセリフ部分を効率的に抽出して、高速かつ高精度にコンテンツのダイジェストを作成する。
【解決手段】ダイジェスト作成装置(10)は、コンテンツに含まれる字幕データのうち特殊文字以外で始まる文字データを含むものについて、その表示期間を算出する字幕解析部(103)と、コンテンツに含まれる音声データのうち字幕解析部(103)によって算出された表示期間に該当するものについてその種類を判定するとともにその再生期間を算出し、当該種類と当該再生期間とを対応付けたテーブルを生成する音声解析部(104)と、当該生成されたテーブルの中から所定の種類の音声データの再生期間を抽出するシーン抽出部(105)と、当該抽出された再生期間を参照して、コンテンツのダイジェストを生成するダイジェスト生成部(106)とを備えている。
【選択図】図1
【解決手段】ダイジェスト作成装置(10)は、コンテンツに含まれる字幕データのうち特殊文字以外で始まる文字データを含むものについて、その表示期間を算出する字幕解析部(103)と、コンテンツに含まれる音声データのうち字幕解析部(103)によって算出された表示期間に該当するものについてその種類を判定するとともにその再生期間を算出し、当該種類と当該再生期間とを対応付けたテーブルを生成する音声解析部(104)と、当該生成されたテーブルの中から所定の種類の音声データの再生期間を抽出するシーン抽出部(105)と、当該抽出された再生期間を参照して、コンテンツのダイジェストを生成するダイジェスト生成部(106)とを備えている。
【選択図】図1
Description
本発明は、ダイジェスト作成装置に関し、特に、テレビ番組などのコンテンツを効率的に視聴するための要約やダイジェストを生成する装置に関する。
DVD(Digital Versatile Disc)レコーダなどの普及によって、長時間録画及びタイムシフト再生が一般的になっている。しかし、ユーザのテレビ視聴時間は限られているため、録画したコンテンツをいかに短時間で効率的に視聴するかが重要な問題となっている。
コンテンツを単に早送り再生をしたのでは重要なシーンもそうでないシーンも一律に高速再生されるため、内容を十分に理解できないおそれがある。このため、コンテンツに含まれる映像、音声、字幕などを解析して重要と思われるシーンのみを抽出し、これら重要なシーンを繋いで再生することでコンテンツ全編を短時間で視聴可能にするダイジェスト作成技術が次々と開発されている(例えば、特許文献1−4参照)。特に、音声解析について、音声を拍手喝采、応援歓声、絶叫解説、解説、音楽などの各種類に分類することでスポーツ番組の盛り上がりを示すシーンのみを抽出しているものもある(例えば、非特許文献1参照)。また、重要なシーンは通常再生し、そうでないシーンは高速再生することで、コンテンツ全編を短時間で視聴可能にするものもある(例えば、特許文献2参照)。
特開2000―23062号公報
特開2005―252372号公報
特開2002―344871号公報
特開2005―115607号公報
"A Highlight Scene Detection and Video Summarization System using Audio Feature for a Personal Video Recorder", PP112-116, IEEE Transactions on Consumer Electronics, Vol.51, No.1, FEBRUARY 2005
ドラマなどのコンテンツではセリフのあるシーンが重要な意味を持つことが多い。このため、この種のコンテンツ全編を効率よく視聴するには、セリフの部分はなるべく通常に近い速度で再生してセリフを聞き取りやすくし、それ以外の部分はなるべく高速で再生して時間短縮することが好ましい。したがって、いかにセリフの部分を正確に抽出するのかが重要な課題となる。
この点に関して、非特許文献1に開示された音声解析技術では、セリフと背景音楽などの複数の音源が重なった場合にセリフの部分を正確に抽出することが困難である。また、特許文献1に開示された技術では、セリフの字幕と、コンテンツ内容や状況の説明、音楽・楽曲が流れていることを示す音符マークなどの説明字幕との区別が困難であり、セリフの部分を正確に抽出することが困難である。さらに、シーン抽出に字幕解析及び音声解析の双方が利用されるが、特に音声解析の処理負荷は高いため、解析に要する時間が長くなったり、あるいは処理能力の高いハードウェアが必要となったりする。特許文献2に開示された技術についても、主として映像解析によって再生速度を切り替えるためのシーンの重要度の判定を行っているため、必然的に処理負荷が非常に高くなってしまう。これは、家庭向けAV機器やモバイル機器にダイジェスト作成機能を搭載することの障壁となる。
上記問題に鑑み、本発明は、比較的低い処理負荷でコンテンツに含まれるセリフ部分を効率的に抽出して、高速かつ高精度にコンテンツのダイジェストを作成することを課題とする。
上記課題を解決するために本発明が講じた手段は、コンテンツのダイジェストを作成するダイジェスト作成装置として、コンテンツに含まれる字幕データのうち特殊文字以外で始まる文字データを含むものについて、その表示期間を算出する字幕解析部と、コンテンツに含まれる音声データのうち字幕解析部によって算出された表示期間に該当するものについてその種類を判定するとともにその再生期間を算出し、当該種類と当該再生期間とを対応付けたテーブルを生成する音声解析部と、音声解析部によって生成されたテーブルの中から所定の種類の音声データの再生期間を抽出するシーン抽出部と、シーン抽出部によって抽出された再生期間を参照して、コンテンツのダイジェストを生成するダイジェスト生成部とを備えたものとする。
これによると、字幕解析部によってコンテンツに含まれる字幕データのうち特殊文字以外で始まるものの表示期間が算出され、音声解析部は、コンテンツに含まれる音声データのうち当該算出された表示期間に該当する部分のみを解析すればよい。したがって、音声解析に伴う処理負荷が軽減され、より高速にダイジェストを作成することができる。また、シーン抽出部によって音声解析部の解析結果がさらに精査され、ダイジェスト作成にふさわしい部分が抽出されるため、より高精度なダイジェストを作成することができる。
好ましくは、上記のダイジェスト作成装置は、コンテンツに含まれる画像データに重畳された字幕データを抽出する入力処理部を備えているものとする。また、具体的には、特殊文字は音符記号である。
以上説明したように本発明によると、比較的低い処理負荷でコンテンツに含まれるセリフ部分を効率的に抽出して、高速かつ高精度にコンテンツのダイジェストを作成することができる。
以下、本発明を実施するための最良の形態について、図面を参照しながら説明する。
図1は、本発明に係るダイジェスト作成装置の一実施形態の構成を示す。ダイジェスト作成装置10は、蓄積部101、入力処理部102、字幕解析部103、音声解析部104、シーン抽出部105、ダイジェスト生成部106、制御部107及び出力インタフェース108を備えている。
蓄積部101は、後述する各種データを格納する。具体的には、蓄積部101は、半導体メモリ、ハードディスクドライブ、光ディスクドライブその他の記憶装置で実現可能である。
入力処理部102は、放送波やインターネットに代表されるネットワークなどから有線又は無線により外部からコンテンツデータを受信し、それを蓄積部101に記録する。具体的には、入力処理部102は、チューナーやネットワークアダプタなどを含んでいる。
なお、コンテンツデータの受信はUSBやIEEE1394などのバスを経由して、あるいはハードディスクやメモリカードなどのリムーバブルメディアを経由して行ってもよい。また、コンテンツデータとしてMPEG2トランスポートストリーム(TS)を想定しているが、MPEG2プログラムストリームやアナログAV信号などであってもよい。
図2は、MPEG2トランスポートストリームのデータ構造を示す。コンテンツデータを構成する映像、音声、字幕のそれぞれの実データ及びそれらを表示又は出力するタイムスタンプはPES(Packetized Elementary Stream)に記載されている。そして、複数のPESが多重化されてTSを構成している。また、TSにはタイムスタンプの基準となる時刻情報としてのPCR(Program Clock Reference)が多重化されている。TS及びPESの詳細はISO/IEC13818-1 MPEG2SYSTEMSに規定されている。TSから映像、音声及び字幕を再生する場合、コンテンツ再生装置は内部時計をPCRで記述された時刻に設定する。そして、TSから、映像、音声、字幕の各PESを分離し、内部時計の時刻がPESに記載されたタイムスタンプの時刻になった時点で当該PESに記載されたデータをデコードして表示又は出力する。
図1に戻り、字幕解析部103は、蓄積部101に格納されたコンテンツデータを解析し、字幕データの表示期間として表示開始と表示終了を示す時間的位置(表示開始時刻及び表示終了時刻)を算出する。そして、当該算出した表示開始時刻及び表示終了時刻からなる候補字幕テーブルを蓄積部101に記録する。
図3は、コンテンツデータに含まれる字幕ストリームのデータ構造を示す。上述したように、字幕PESはタイムスタンプ及び字幕データからなる。そして、字幕データは、文字データとその文字データの装飾や提示方法を示す制御データとを含んでいる。例えば、制御データ“TIME”は、その後に指定した時間だけ文字データの表示又は消去のタイミングを遅延させることを意味する。また、制御データ“CS”は、現在表示中の文字データの表示を消すことを意味する。
字幕解析部103は、以下の手順で字幕の表示開始時刻及び表示終了時刻を算出する。まず、コンテンツデータにおけるPCRと字幕PES中のタイムスタンプを参照して、字幕データが有効になる時刻を算出する。そして、当該算出した時刻に制御データ“TIME”で指定された時間を追加し、それを表示開始時刻とする。字幕データに制御データ“TIME”及び“CS”があれば、当該表示開始時刻に制御データ“TIME”で指定された時間を追加したものを表示終了時刻とする。制御データ“TIME”又は“CS”が存在しなければ、次の字幕PES中の字幕データの表示開始時刻を、その一つ前の文字データの表示終了時刻とする。また、一つの字幕データ内に複数の文字データ及び制御データが存在する場合には、上記と同様に各文字データの表示開始時刻及び表示終了時刻を算出する。
なお、字幕解析部103は、文字データが音符記号などの特殊文字で始まる場合には、当該文字データは通常のセリフではないとみなして当該文字データの処理をスキップする。この点については後述する。
図3に示した字幕ストリームの場合、最初の文字データ“AAA”の表示終了時刻は、制御データ“TIME”“10”及び“CS”があることから、表示開始時刻から10秒後であると算出される。そして、次の文字データ“BBB”の表示開始時刻は文字データ“AAA”の表示終了時刻と同一となる。また、その表示終了時刻は、次の字幕PES中の文字データ“CCC”の表示開始時刻、すなわち、当該字幕PES中のタイムスタンプに記載された時刻となる。
上述のように、字幕解析部103は、コンテンツデータ中の字幕ストリームから字幕の表示開始時刻及び表示終了時刻を算出し、候補字幕テーブルを生成する(図4参照)。候補字幕テーブル中の表示開始時刻及び表示終了時刻で特定される表示期間は実際にセリフが発声されている期間の候補となる。
図1に戻り、音声解析部104は、蓄積部101に格納された候補字幕テーブルを参照して、当該テーブルで指定された表示期間に該当する音声データを解析し、当該音声データの種類(音声ジャンル)を判定するとともにその発声期間として発声開始と発声終了を示す時間的位置(発声開始時刻及び発声終了時刻)を算出する。そして、当該判定した種類と当該算出した発声開始時刻及び発声終了時刻とを対応付けた候補音声テーブルを蓄積部101に記録する(図5参照)。図5に示した例では、音声ジャンル“SPC”は解説・発声、“EFF”は効果音、“SCR”は絶叫、“MSC”は音楽、“APP”は応援・喝采を、それぞれ示す。候補音声テーブル中の発声開始時刻及び発声終了時刻で特定される発声期間は実際にセリフが発声されている期間である。
シーン抽出部105は、蓄積部101に格納された候補音声テーブルの中から実際のセリフであると思われる種類の音声データの発声開始時刻及び発声終了時刻を抽出する。そして、当該抽出した発声開始時刻及び発声終了時刻からなるダイジェストテーブルを蓄積部101に記録する(図6参照)。図6に示した例では、図5の音声セリフテーブル中の音声ジャンル“SPC”及び“APP”に該当する時刻が抽出されている。
ダイジェスト生成部106は、蓄積部101に格納されたダイジェストテーブルを参照して、コンテンツのダイジェストを生成する。そして、当該生成したダイジェストを蓄積部101に記録する。
制御部107は、字幕解析部104、音声解析部105、シーン抽出部106及びダイジェスト生成部107の各動作を制御する。また、制御部107は、蓄積部101からダイジェストを適宜読み出して、出力インタフェース108を通じて当該ダイジェストを外部に出力する。
次に、ダイジェスト作成装置10の動作について図7に示したフローチャートを参照しながら説明する。まず、入力処理部102によってコンテンツデータが受信され蓄積部101に記録される(S11)。そして、字幕解析部103によって、コンテンツデータが読み出されて出して解析され、蓄積部101に候補字幕テーブルが記録される(S12)。次に、音声解析部104によって、候補字幕テーブルに記載された期間についてのみ、コンテンツデータ中の音声データが解析され、蓄積部101に候補音声テーブルが記録される(S13)。そして、シーン抽出部105によって、候補音声テーブル中の所定種類の情報(発声開始時刻及び発声終了時刻)が抽出され、蓄積部101にダイジェストテーブルが記録される(S14)。その後、ダイジェスト生成部106によって、ダイジェストテーブルが参照されてコンテンツのダイジェストが生成され、当該生成されたダイジェストが出力インタフェース108を介して外部に出力される(S15)。
以下、字幕解析部103、音声解析部104及びシーン抽出部105のそれぞれの詳細な動作について説明する。
<字幕解析部103の動作>
図8は、字幕解析部103の動作を示すフローチャートである。当該動作は、図7中のステップS12の詳細を示したものでもある。まず、コンテンツデータ(番組映像ストリーム)を解析して1番目と2番目のPCRを取得し、これら二つのPCR時刻の差分及びストリーム内での位置の差分並びに1番目のPCRのストリーム内での位置から、ストリームの先頭基準時刻を近似算出する(S1201)。1番目と2番目のPCR時刻をそれぞれTp1及びTp2、またストリーム内での位置をそれぞれPp1及びPp2とすると、先頭基準時刻Tsは以下のように求められる。
Ts=(Tp1*Pp2−Tp2*Pp1)/(Pp2−Pp1)
ここで、カウント値nを用いて各字幕を区別する。すなわち、検出された各字幕の表示開始時刻及び表示終了時刻はそれぞれTsc[n]及びTce[n]で表される。n=1は1番目の字幕を表す。n=0のときは字幕データがまだ検出されていない。
図8は、字幕解析部103の動作を示すフローチャートである。当該動作は、図7中のステップS12の詳細を示したものでもある。まず、コンテンツデータ(番組映像ストリーム)を解析して1番目と2番目のPCRを取得し、これら二つのPCR時刻の差分及びストリーム内での位置の差分並びに1番目のPCRのストリーム内での位置から、ストリームの先頭基準時刻を近似算出する(S1201)。1番目と2番目のPCR時刻をそれぞれTp1及びTp2、またストリーム内での位置をそれぞれPp1及びPp2とすると、先頭基準時刻Tsは以下のように求められる。
Ts=(Tp1*Pp2−Tp2*Pp1)/(Pp2−Pp1)
ここで、カウント値nを用いて各字幕を区別する。すなわち、検出された各字幕の表示開始時刻及び表示終了時刻はそれぞれTsc[n]及びTce[n]で表される。n=1は1番目の字幕を表す。n=0のときは字幕データがまだ検出されていない。
先頭基準時刻Tsを決定すると、字幕解析部103は、コンテンツデータ中の字幕PESを検索する(S1202)。字幕PESを検出したならば(S1203のYES肢)、当該字幕PES中のタイムスタンプTptsを抽出する。そして、表示開始時刻及び表示終了時刻の候補となる解析中時刻Tccの初期値を算出する(S1204)。解析中時刻Tccの初期値は字幕PES中のタイムスタンプTptsと先頭基準時刻TSとの差分で求められる(Tcc=Tpts−Ts)。
なお、字幕を有効化するタイムスタンプが指定されていない場合には、コンテンツデータにおける当該字幕データの位置に基づいて、最初の字幕を有効化する時刻として解析中時刻Tccを算出するようにしてもよい。
次に、コンテンツデータから字幕データを順次読み出す(S1205)。そして、読み出した字幕データを解析し、その中身が空又は文字データがNULLである場合(S1206のYES肢)、ステップS1202に戻って、次の字幕PESを検索する。
字幕データの中身がNULL以外の文字データである場合(S1207のYES肢)、当該文字データの先頭文字が音符記号などの特殊文字か否かを判定し、特殊文字であった場合(S1208のYES肢)、ステップS1205に戻る。これは、先頭文字が特殊文字、例えば、音符記号の場合、当該文字データは音楽や楽曲が流れていることを示しているに過ぎず、セリフとはなり得ないと考えられるからである。一方、先頭文字が特殊文字でなかった場合(S1208のNO肢)、セリフの候補となる字幕がすでに一つ以上検出済み(すなわち、n>0)、かつ、現在解析中の字幕の表示終了時刻Tce[n]が未決定であれば(S1209のYES肢)、Tce[n]=Tccとする(S1210)。そして、nをインクリメントして次の字幕の表示開始時刻Tcs[n]を解析中時刻Tccに設定し(S1211)、ステップS1205に戻る。ステップS1209でNOの場合、ステップS1211に進む。
字幕データの中身が制御データ“TIME”の場合(S1212のYES肢)、指定された遅延時間Tdを解析中時刻Tccに加算して(S1213)、ステップS1205に戻る。また、字幕データの中身が制御データ“CS”の場合(S1214のYES肢)、セリフの候補となる字幕がすでに一つ以上検出済み(すなわち、n>0)、かつ、現在解析中の字幕の表示終了時刻Tce[n]が未決定であれば(S1215のYES肢)、Tce[n]=Tccとし(S1216)、ステップS1205に戻る。ステップS1215でNO肢の場合、ステップS1205に戻る。
コンテンツデータに解析すべき字幕PESがそれ以上検出されない場合(S1203のNO肢)、セリフの候補となる字幕がすでに一つ以上検出済み(すなわち、n>0)、かつ、現在解析中の字幕の表示終了時刻Tce[n]が未決定であれば(S1217のYES肢)、Tce[n]としてコンテンツの最終位置の時刻を設定し(S1218)、字幕の表示開始時刻Tcs[k](kは1からnまでの各整数)及び表示終了時刻Tce[k]を蓄積部101に記録して処理を終了する。ステップS1217でNO肢の場合にはステップS1219に進む。
<音声解析部104の動作>
図9は、音声解析部104の動作を示すフローチャートである。当該動作は、図7中のステップS13の詳細を示したものでもある。まず、音声解析部104は、候補字幕テーブルから字幕の表示開始時刻Tcs及び表示終了時刻Tceを読み出す(S1301)。すでにすべての情報を読み出していれば(S1302のYES肢)、処理を終了する。一方、ステップS1302でNO肢の場合、読み出した表示開始時刻Tcsを解析中時刻Tccに代入する(S1303)。そして、コンテンツデータ中の音声データを解析中時刻Tccの位置から解析し、その種類(音声ジャンル)の判定及びその発声終了時刻の検出を行う(S1304)。
図9は、音声解析部104の動作を示すフローチャートである。当該動作は、図7中のステップS13の詳細を示したものでもある。まず、音声解析部104は、候補字幕テーブルから字幕の表示開始時刻Tcs及び表示終了時刻Tceを読み出す(S1301)。すでにすべての情報を読み出していれば(S1302のYES肢)、処理を終了する。一方、ステップS1302でNO肢の場合、読み出した表示開始時刻Tcsを解析中時刻Tccに代入する(S1303)。そして、コンテンツデータ中の音声データを解析中時刻Tccの位置から解析し、その種類(音声ジャンル)の判定及びその発声終了時刻の検出を行う(S1304)。
音声解析は、音声データを各ジャンルの音声データサンプル(応援・喝采、効果音、絶叫、解説・発声、音楽など)の音声波形と比較することによって類似したジャンルに分類する方式が一般的である。また、非特許文献1に開示されたアルゴリズムに従って音声ジャンルを分類してもよい。
音声データの種類判定及び発声開始及び終了の時刻検出が終了したならば、それら情報を候補音声テーブルとして蓄積部101に記録する(S1305)。ここで、音声ジャンルは、応援・喝采であれば“APP”、効果音であれば“EFF”、絶叫であれば“SCR”、解説・発声であれば“SPC”、音楽であれば“MSC”と表記するものとする。なお、音声ジャンルの分類は必ずしもこのとおりでなくてもよく、セリフが含まれる可能性があるかどうかが明確に分類できればよい。
発声終了時刻が字幕の表示終了時刻Tceを越えた場合(S1306のYES肢)、ステップS1301に戻って次の字幕の表示開始時刻Tcs及び表示終了時刻Tceを読み出す。一方、ステップS1306でNO肢の場合、解析中時刻Tccを上記の発声終了時刻に進めて(S1307)、ステップS1304に戻る。
<シーン抽出部105の動作>
図10は、シーン抽出部105の動作を示すフローチャートである。当該動作は、図7中のステップS14の詳細を示したものでもある。まず、シーン抽出部105は、候補音声テーブルから音声の種類(音声ジャンル)、発話開始時刻及び発話終了時刻を読み出す(S1401)。すでにすべての情報を読み出していれば(S1302のYES肢)、処理を終了する。ステップS1402でNO肢の場合、読み出した音声ジャンルが効果音“EFF”又は絶叫“SCR”であれば(S1304のNO肢)、ステップS1401に戻る。一方、読み出した音声ジャンルが効果音“EFF”又は絶叫“SCR”以外であれば(S1304のYES肢)、読み出した発話開始時刻及び発話終了時刻をダイジェストテーブルとして蓄積部101に記録する(S1404)。すなわち、音声ジャンルが効果音又は絶叫である場合には、その音声は雑音でありセリフとはみなさない。
図10は、シーン抽出部105の動作を示すフローチャートである。当該動作は、図7中のステップS14の詳細を示したものでもある。まず、シーン抽出部105は、候補音声テーブルから音声の種類(音声ジャンル)、発話開始時刻及び発話終了時刻を読み出す(S1401)。すでにすべての情報を読み出していれば(S1302のYES肢)、処理を終了する。ステップS1402でNO肢の場合、読み出した音声ジャンルが効果音“EFF”又は絶叫“SCR”であれば(S1304のNO肢)、ステップS1401に戻る。一方、読み出した音声ジャンルが効果音“EFF”又は絶叫“SCR”以外であれば(S1304のYES肢)、読み出した発話開始時刻及び発話終了時刻をダイジェストテーブルとして蓄積部101に記録する(S1404)。すなわち、音声ジャンルが効果音又は絶叫である場合には、その音声は雑音でありセリフとはみなさない。
以上、本実施形態によると、字幕のみ又は音声のみではセリフであるか否かを判定しにくいコンテンツ部分が、字幕解析及び音声解析を組み合わせて判定されるため、より高精度にセリフ部分を抽出することができる。また、処理負荷の軽い字幕解析によってセリフの候補となる部分が絞られ、音声解析は当該絞られた部分についてのみ行えばよくなるため、セリフ抽出に係る全体的な処理負荷を軽減することができる。これにより、処理能力が低いハードウェアであっても高速かつ高精度にダイジェストを作成することができる。
なお、字幕が映像信号に重畳されている場合には、入力処理部102は、画像認識によって映像フレームから字幕データを抽出するようにしてもよい。これにより、字幕ストリームが存在しない場合であっても字幕の表示開始時刻及び表示終了時刻を算出することができる。すなわち、本発明はアナログ映像信号のコンテンツについても上記と同様の効果を奏する。
本発明に係るダイジェスト作成装置は、比較的低い処理能力のハードウェアで高速かつ高精度にコンテンツのダイジェストを作成することができるため、DVD記録再生装置、デジタルテレビジョン装置、携帯電話機、ポータブルコンテンツプレーヤ、カーナビゲーション装置などに有用である。
10 ダイジェスト作成装置
102 入力処理部
103 字幕解析部
104 音声解析部
105 シーン抽出部
106 ダイジェスト生成部
102 入力処理部
103 字幕解析部
104 音声解析部
105 シーン抽出部
106 ダイジェスト生成部
Claims (3)
- コンテンツのダイジェストを作成するダイジェスト作成装置であって、
前記コンテンツに含まれる字幕データのうち特殊文字以外で始まる文字データを含むものについて、その表示期間を算出する字幕解析部と、
前記コンテンツに含まれる音声データのうち前記字幕解析部によって算出された表示期間に該当するものについてその種類を判定するとともにその再生期間を算出し、当該種類と当該再生期間とを対応付けたテーブルを生成する音声解析部と、
前記音声解析部によって生成されたテーブルの中から所定の種類の音声データの再生期間を抽出するシーン抽出部と、
前記シーン抽出部によって抽出された再生期間を参照して、前記コンテンツのダイジェストを生成するダイジェスト生成部とを備えた
ことを特徴とするダイジェスト作成装置。 - 請求項1に記載のダイジェスト作成装置において、
前記コンテンツに含まれる映像信号に重畳された字幕を抽出する入力処理部を備えた
ことを特徴とするダイジェスト作成装置。 - 請求項1に記載のダイジェスト作成装置において、
前記特殊文字は、音符記号である
ことを特徴とするダイジェスト作成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006302903A JP2008124551A (ja) | 2006-11-08 | 2006-11-08 | ダイジェスト作成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006302903A JP2008124551A (ja) | 2006-11-08 | 2006-11-08 | ダイジェスト作成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008124551A true JP2008124551A (ja) | 2008-05-29 |
Family
ID=39508889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006302903A Pending JP2008124551A (ja) | 2006-11-08 | 2006-11-08 | ダイジェスト作成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008124551A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010130394A (ja) * | 2008-11-28 | 2010-06-10 | Hitachi Ltd | 記録装置及び記録方法 |
WO2012164818A1 (ja) * | 2011-06-02 | 2012-12-06 | パナソニック株式会社 | 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路 |
US9049418B2 (en) | 2009-01-09 | 2015-06-02 | Sony Corporation | Data processing apparatus, data processing method, and program |
-
2006
- 2006-11-08 JP JP2006302903A patent/JP2008124551A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010130394A (ja) * | 2008-11-28 | 2010-06-10 | Hitachi Ltd | 記録装置及び記録方法 |
US9049418B2 (en) | 2009-01-09 | 2015-06-02 | Sony Corporation | Data processing apparatus, data processing method, and program |
US9837125B2 (en) | 2009-01-09 | 2017-12-05 | Sony Corporation | Generation of correlated keyword and image data |
WO2012164818A1 (ja) * | 2011-06-02 | 2012-12-06 | パナソニック株式会社 | 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路 |
JPWO2012164818A1 (ja) * | 2011-06-02 | 2015-02-23 | パナソニック株式会社 | 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路 |
US9031384B2 (en) | 2011-06-02 | 2015-05-12 | Panasonic Intellectual Property Corporation Of America | Region of interest identification device, region of interest identification method, region of interest identification program, and region of interest identification integrated circuit |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4321518B2 (ja) | 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置 | |
US11514885B2 (en) | Automatic dubbing method and apparatus | |
JP4081120B2 (ja) | 記録装置、記録再生装置 | |
EP2107477B1 (en) | Summarizing reproduction device and summarizing reproduction method | |
JP4113059B2 (ja) | 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム | |
JP4835321B2 (ja) | 番組提供方法、番組提供方法のプログラム、番組提供方法のプログラムを記録した記録媒体及び番組提供装置 | |
US20050180462A1 (en) | Apparatus and method for reproducing ancillary data in synchronization with an audio signal | |
JP4442585B2 (ja) | 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置 | |
JP4331217B2 (ja) | 映像再生装置および方法 | |
US20130151251A1 (en) | Automatic dialog replacement by real-time analytic processing | |
JP2007094234A (ja) | データ記録再生装置、データ記録再生方法及びそのプログラム | |
KR20060089922A (ko) | 음성 인식을 이용한 데이터 추출 장치 및 방법 | |
JP2008124551A (ja) | ダイジェスト作成装置 | |
JP2006340066A (ja) | 動画像符号化装置、動画像符号化方法及び記録再生方法 | |
JP2008301340A (ja) | ダイジェスト作成装置 | |
JP2006270233A (ja) | 信号処理方法及び信号記録再生装置 | |
JP2009260762A (ja) | ダイジェスト作成装置 | |
JP2006332765A (ja) | コンテンツ検索・再生方法、コンテンツ検索・再生装置、並びにプログラムおよび記録媒体 | |
JP2014207619A (ja) | 録画再生装置、及び録画再生装置の制御方法 | |
JP2006510304A (ja) | 音声ひずみのない選択可能レート再生用の方法及び装置 | |
JP2003230094A (ja) | チャプター作成装置及びデータ再生装置及びその方法並びにプログラム | |
JP2005303791A (ja) | 字幕付き映像再生装置 | |
JP4312167B2 (ja) | コンテンツ再生装置 | |
KR101299501B1 (ko) | 미디어 파일 포맷, 미디어 파일 재생 방법, 및 미디어 파일재생 장치 | |
KR20090091034A (ko) | 정보 처리 장치 및 방법과 프로그램 |