JP2008124551A

JP2008124551A - ダイジェスト作成装置

Info

Publication number: JP2008124551A
Application number: JP2006302903A
Authority: JP
Inventors: Shinji Nabeshima; 伸司鍋島
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2006-11-08
Filing date: 2006-11-08
Publication date: 2008-05-29

Abstract

【課題】比較的低い処理負荷でコンテンツに含まれるセリフ部分を効率的に抽出して、高速かつ高精度にコンテンツのダイジェストを作成する。
【解決手段】ダイジェスト作成装置（１０）は、コンテンツに含まれる字幕データのうち特殊文字以外で始まる文字データを含むものについて、その表示期間を算出する字幕解析部（１０３）と、コンテンツに含まれる音声データのうち字幕解析部（１０３）によって算出された表示期間に該当するものについてその種類を判定するとともにその再生期間を算出し、当該種類と当該再生期間とを対応付けたテーブルを生成する音声解析部（１０４）と、当該生成されたテーブルの中から所定の種類の音声データの再生期間を抽出するシーン抽出部（１０５）と、当該抽出された再生期間を参照して、コンテンツのダイジェストを生成するダイジェスト生成部（１０６）とを備えている。
【選択図】図１

Description

本発明は、ダイジェスト作成装置に関し、特に、テレビ番組などのコンテンツを効率的に視聴するための要約やダイジェストを生成する装置に関する。

ＤＶＤ（Digital Versatile Disc）レコーダなどの普及によって、長時間録画及びタイムシフト再生が一般的になっている。しかし、ユーザのテレビ視聴時間は限られているため、録画したコンテンツをいかに短時間で効率的に視聴するかが重要な問題となっている。

コンテンツを単に早送り再生をしたのでは重要なシーンもそうでないシーンも一律に高速再生されるため、内容を十分に理解できないおそれがある。このため、コンテンツに含まれる映像、音声、字幕などを解析して重要と思われるシーンのみを抽出し、これら重要なシーンを繋いで再生することでコンテンツ全編を短時間で視聴可能にするダイジェスト作成技術が次々と開発されている（例えば、特許文献１−４参照）。特に、音声解析について、音声を拍手喝采、応援歓声、絶叫解説、解説、音楽などの各種類に分類することでスポーツ番組の盛り上がりを示すシーンのみを抽出しているものもある（例えば、非特許文献１参照）。また、重要なシーンは通常再生し、そうでないシーンは高速再生することで、コンテンツ全編を短時間で視聴可能にするものもある（例えば、特許文献２参照）。
特開２０００―２３０６２号公報特開２００５―２５２３７２号公報特開２００２―３４４８７１号公報特開２００５―１１５６０７号公報 "A Highlight Scene Detection and Video Summarization System using Audio Feature for a Personal Video Recorder", PP112-116, IEEE Transactions on Consumer Electronics, Vol.51, No.1, FEBRUARY 2005

ドラマなどのコンテンツではセリフのあるシーンが重要な意味を持つことが多い。このため、この種のコンテンツ全編を効率よく視聴するには、セリフの部分はなるべく通常に近い速度で再生してセリフを聞き取りやすくし、それ以外の部分はなるべく高速で再生して時間短縮することが好ましい。したがって、いかにセリフの部分を正確に抽出するのかが重要な課題となる。

この点に関して、非特許文献１に開示された音声解析技術では、セリフと背景音楽などの複数の音源が重なった場合にセリフの部分を正確に抽出することが困難である。また、特許文献１に開示された技術では、セリフの字幕と、コンテンツ内容や状況の説明、音楽・楽曲が流れていることを示す音符マークなどの説明字幕との区別が困難であり、セリフの部分を正確に抽出することが困難である。さらに、シーン抽出に字幕解析及び音声解析の双方が利用されるが、特に音声解析の処理負荷は高いため、解析に要する時間が長くなったり、あるいは処理能力の高いハードウェアが必要となったりする。特許文献２に開示された技術についても、主として映像解析によって再生速度を切り替えるためのシーンの重要度の判定を行っているため、必然的に処理負荷が非常に高くなってしまう。これは、家庭向けＡＶ機器やモバイル機器にダイジェスト作成機能を搭載することの障壁となる。

上記問題に鑑み、本発明は、比較的低い処理負荷でコンテンツに含まれるセリフ部分を効率的に抽出して、高速かつ高精度にコンテンツのダイジェストを作成することを課題とする。

上記課題を解決するために本発明が講じた手段は、コンテンツのダイジェストを作成するダイジェスト作成装置として、コンテンツに含まれる字幕データのうち特殊文字以外で始まる文字データを含むものについて、その表示期間を算出する字幕解析部と、コンテンツに含まれる音声データのうち字幕解析部によって算出された表示期間に該当するものについてその種類を判定するとともにその再生期間を算出し、当該種類と当該再生期間とを対応付けたテーブルを生成する音声解析部と、音声解析部によって生成されたテーブルの中から所定の種類の音声データの再生期間を抽出するシーン抽出部と、シーン抽出部によって抽出された再生期間を参照して、コンテンツのダイジェストを生成するダイジェスト生成部とを備えたものとする。

これによると、字幕解析部によってコンテンツに含まれる字幕データのうち特殊文字以外で始まるものの表示期間が算出され、音声解析部は、コンテンツに含まれる音声データのうち当該算出された表示期間に該当する部分のみを解析すればよい。したがって、音声解析に伴う処理負荷が軽減され、より高速にダイジェストを作成することができる。また、シーン抽出部によって音声解析部の解析結果がさらに精査され、ダイジェスト作成にふさわしい部分が抽出されるため、より高精度なダイジェストを作成することができる。

好ましくは、上記のダイジェスト作成装置は、コンテンツに含まれる画像データに重畳された字幕データを抽出する入力処理部を備えているものとする。また、具体的には、特殊文字は音符記号である。

以上説明したように本発明によると、比較的低い処理負荷でコンテンツに含まれるセリフ部分を効率的に抽出して、高速かつ高精度にコンテンツのダイジェストを作成することができる。

以下、本発明を実施するための最良の形態について、図面を参照しながら説明する。

図１は、本発明に係るダイジェスト作成装置の一実施形態の構成を示す。ダイジェスト作成装置１０は、蓄積部１０１、入力処理部１０２、字幕解析部１０３、音声解析部１０４、シーン抽出部１０５、ダイジェスト生成部１０６、制御部１０７及び出力インタフェース１０８を備えている。

蓄積部１０１は、後述する各種データを格納する。具体的には、蓄積部１０１は、半導体メモリ、ハードディスクドライブ、光ディスクドライブその他の記憶装置で実現可能である。

入力処理部１０２は、放送波やインターネットに代表されるネットワークなどから有線又は無線により外部からコンテンツデータを受信し、それを蓄積部１０１に記録する。具体的には、入力処理部１０２は、チューナーやネットワークアダプタなどを含んでいる。

なお、コンテンツデータの受信はＵＳＢやＩＥＥＥ１３９４などのバスを経由して、あるいはハードディスクやメモリカードなどのリムーバブルメディアを経由して行ってもよい。また、コンテンツデータとしてＭＰＥＧ２トランスポートストリーム（ＴＳ）を想定しているが、ＭＰＥＧ２プログラムストリームやアナログＡＶ信号などであってもよい。

図２は、ＭＰＥＧ２トランスポートストリームのデータ構造を示す。コンテンツデータを構成する映像、音声、字幕のそれぞれの実データ及びそれらを表示又は出力するタイムスタンプはＰＥＳ（Packetized Elementary Stream）に記載されている。そして、複数のＰＥＳが多重化されてＴＳを構成している。また、ＴＳにはタイムスタンプの基準となる時刻情報としてのＰＣＲ（Program Clock Reference）が多重化されている。ＴＳ及びＰＥＳの詳細はISO/IEC13818-1 MPEG2SYSTEMSに規定されている。ＴＳから映像、音声及び字幕を再生する場合、コンテンツ再生装置は内部時計をＰＣＲで記述された時刻に設定する。そして、ＴＳから、映像、音声、字幕の各ＰＥＳを分離し、内部時計の時刻がＰＥＳに記載されたタイムスタンプの時刻になった時点で当該ＰＥＳに記載されたデータをデコードして表示又は出力する。

図１に戻り、字幕解析部１０３は、蓄積部１０１に格納されたコンテンツデータを解析し、字幕データの表示期間として表示開始と表示終了を示す時間的位置（表示開始時刻及び表示終了時刻）を算出する。そして、当該算出した表示開始時刻及び表示終了時刻からなる候補字幕テーブルを蓄積部１０１に記録する。

図３は、コンテンツデータに含まれる字幕ストリームのデータ構造を示す。上述したように、字幕ＰＥＳはタイムスタンプ及び字幕データからなる。そして、字幕データは、文字データとその文字データの装飾や提示方法を示す制御データとを含んでいる。例えば、制御データ“ＴＩＭＥ”は、その後に指定した時間だけ文字データの表示又は消去のタイミングを遅延させることを意味する。また、制御データ“ＣＳ”は、現在表示中の文字データの表示を消すことを意味する。

字幕解析部１０３は、以下の手順で字幕の表示開始時刻及び表示終了時刻を算出する。まず、コンテンツデータにおけるＰＣＲと字幕ＰＥＳ中のタイムスタンプを参照して、字幕データが有効になる時刻を算出する。そして、当該算出した時刻に制御データ“ＴＩＭＥ”で指定された時間を追加し、それを表示開始時刻とする。字幕データに制御データ“ＴＩＭＥ”及び“ＣＳ”があれば、当該表示開始時刻に制御データ“ＴＩＭＥ”で指定された時間を追加したものを表示終了時刻とする。制御データ“ＴＩＭＥ”又は“ＣＳ”が存在しなければ、次の字幕ＰＥＳ中の字幕データの表示開始時刻を、その一つ前の文字データの表示終了時刻とする。また、一つの字幕データ内に複数の文字データ及び制御データが存在する場合には、上記と同様に各文字データの表示開始時刻及び表示終了時刻を算出する。

なお、字幕解析部１０３は、文字データが音符記号などの特殊文字で始まる場合には、当該文字データは通常のセリフではないとみなして当該文字データの処理をスキップする。この点については後述する。

図３に示した字幕ストリームの場合、最初の文字データ“ＡＡＡ”の表示終了時刻は、制御データ“ＴＩＭＥ”“１０”及び“ＣＳ”があることから、表示開始時刻から１０秒後であると算出される。そして、次の文字データ“ＢＢＢ”の表示開始時刻は文字データ“ＡＡＡ”の表示終了時刻と同一となる。また、その表示終了時刻は、次の字幕ＰＥＳ中の文字データ“ＣＣＣ”の表示開始時刻、すなわち、当該字幕ＰＥＳ中のタイムスタンプに記載された時刻となる。

上述のように、字幕解析部１０３は、コンテンツデータ中の字幕ストリームから字幕の表示開始時刻及び表示終了時刻を算出し、候補字幕テーブルを生成する（図４参照）。候補字幕テーブル中の表示開始時刻及び表示終了時刻で特定される表示期間は実際にセリフが発声されている期間の候補となる。

図１に戻り、音声解析部１０４は、蓄積部１０１に格納された候補字幕テーブルを参照して、当該テーブルで指定された表示期間に該当する音声データを解析し、当該音声データの種類（音声ジャンル）を判定するとともにその発声期間として発声開始と発声終了を示す時間的位置（発声開始時刻及び発声終了時刻）を算出する。そして、当該判定した種類と当該算出した発声開始時刻及び発声終了時刻とを対応付けた候補音声テーブルを蓄積部１０１に記録する（図５参照）。図５に示した例では、音声ジャンル“ＳＰＣ”は解説・発声、“ＥＦＦ”は効果音、“ＳＣＲ”は絶叫、“ＭＳＣ”は音楽、“ＡＰＰ”は応援・喝采を、それぞれ示す。候補音声テーブル中の発声開始時刻及び発声終了時刻で特定される発声期間は実際にセリフが発声されている期間である。

シーン抽出部１０５は、蓄積部１０１に格納された候補音声テーブルの中から実際のセリフであると思われる種類の音声データの発声開始時刻及び発声終了時刻を抽出する。そして、当該抽出した発声開始時刻及び発声終了時刻からなるダイジェストテーブルを蓄積部１０１に記録する（図６参照）。図６に示した例では、図５の音声セリフテーブル中の音声ジャンル“ＳＰＣ”及び“ＡＰＰ”に該当する時刻が抽出されている。

ダイジェスト生成部１０６は、蓄積部１０１に格納されたダイジェストテーブルを参照して、コンテンツのダイジェストを生成する。そして、当該生成したダイジェストを蓄積部１０１に記録する。

制御部１０７は、字幕解析部１０４、音声解析部１０５、シーン抽出部１０６及びダイジェスト生成部１０７の各動作を制御する。また、制御部１０７は、蓄積部１０１からダイジェストを適宜読み出して、出力インタフェース１０８を通じて当該ダイジェストを外部に出力する。

次に、ダイジェスト作成装置１０の動作について図７に示したフローチャートを参照しながら説明する。まず、入力処理部１０２によってコンテンツデータが受信され蓄積部１０１に記録される（Ｓ１１）。そして、字幕解析部１０３によって、コンテンツデータが読み出されて出して解析され、蓄積部１０１に候補字幕テーブルが記録される（Ｓ１２）。次に、音声解析部１０４によって、候補字幕テーブルに記載された期間についてのみ、コンテンツデータ中の音声データが解析され、蓄積部１０１に候補音声テーブルが記録される（Ｓ１３）。そして、シーン抽出部１０５によって、候補音声テーブル中の所定種類の情報（発声開始時刻及び発声終了時刻）が抽出され、蓄積部１０１にダイジェストテーブルが記録される（Ｓ１４）。その後、ダイジェスト生成部１０６によって、ダイジェストテーブルが参照されてコンテンツのダイジェストが生成され、当該生成されたダイジェストが出力インタフェース１０８を介して外部に出力される（Ｓ１５）。

以下、字幕解析部１０３、音声解析部１０４及びシーン抽出部１０５のそれぞれの詳細な動作について説明する。

＜字幕解析部１０３の動作＞
図８は、字幕解析部１０３の動作を示すフローチャートである。当該動作は、図７中のステップＳ１２の詳細を示したものでもある。まず、コンテンツデータ（番組映像ストリーム）を解析して１番目と２番目のＰＣＲを取得し、これら二つのＰＣＲ時刻の差分及びストリーム内での位置の差分並びに１番目のＰＣＲのストリーム内での位置から、ストリームの先頭基準時刻を近似算出する（Ｓ１２０１）。１番目と２番目のＰＣＲ時刻をそれぞれＴｐ１及びＴｐ２、またストリーム内での位置をそれぞれＰｐ１及びＰｐ２とすると、先頭基準時刻Ｔｓは以下のように求められる。
Ｔｓ＝（Ｔｐ１＊Ｐｐ２−Ｔｐ２＊Ｐｐ１）／（Ｐｐ２−Ｐｐ１）
ここで、カウント値ｎを用いて各字幕を区別する。すなわち、検出された各字幕の表示開始時刻及び表示終了時刻はそれぞれＴｓｃ［ｎ］及びＴｃｅ［ｎ］で表される。ｎ＝１は１番目の字幕を表す。ｎ＝０のときは字幕データがまだ検出されていない。

先頭基準時刻Ｔｓを決定すると、字幕解析部１０３は、コンテンツデータ中の字幕ＰＥＳを検索する（Ｓ１２０２）。字幕ＰＥＳを検出したならば（Ｓ１２０３のＹＥＳ肢）、当該字幕ＰＥＳ中のタイムスタンプＴｐｔｓを抽出する。そして、表示開始時刻及び表示終了時刻の候補となる解析中時刻Ｔｃｃの初期値を算出する（Ｓ１２０４）。解析中時刻Ｔｃｃの初期値は字幕ＰＥＳ中のタイムスタンプＴｐｔｓと先頭基準時刻ＴＳとの差分で求められる（Ｔｃｃ＝Ｔｐｔｓ−Ｔｓ）。

なお、字幕を有効化するタイムスタンプが指定されていない場合には、コンテンツデータにおける当該字幕データの位置に基づいて、最初の字幕を有効化する時刻として解析中時刻Ｔｃｃを算出するようにしてもよい。

次に、コンテンツデータから字幕データを順次読み出す（Ｓ１２０５）。そして、読み出した字幕データを解析し、その中身が空又は文字データがＮＵＬＬである場合（Ｓ１２０６のＹＥＳ肢）、ステップＳ１２０２に戻って、次の字幕ＰＥＳを検索する。

字幕データの中身がＮＵＬＬ以外の文字データである場合（Ｓ１２０７のＹＥＳ肢）、当該文字データの先頭文字が音符記号などの特殊文字か否かを判定し、特殊文字であった場合（Ｓ１２０８のＹＥＳ肢）、ステップＳ１２０５に戻る。これは、先頭文字が特殊文字、例えば、音符記号の場合、当該文字データは音楽や楽曲が流れていることを示しているに過ぎず、セリフとはなり得ないと考えられるからである。一方、先頭文字が特殊文字でなかった場合（Ｓ１２０８のＮＯ肢）、セリフの候補となる字幕がすでに一つ以上検出済み（すなわち、ｎ＞０）、かつ、現在解析中の字幕の表示終了時刻Ｔｃｅ［ｎ］が未決定であれば（Ｓ１２０９のＹＥＳ肢）、Ｔｃｅ［ｎ］＝Ｔｃｃとする（Ｓ１２１０）。そして、ｎをインクリメントして次の字幕の表示開始時刻Ｔｃｓ［ｎ］を解析中時刻Ｔｃｃに設定し（Ｓ１２１１）、ステップＳ１２０５に戻る。ステップＳ１２０９でＮＯの場合、ステップＳ１２１１に進む。

字幕データの中身が制御データ“ＴＩＭＥ”の場合（Ｓ１２１２のＹＥＳ肢）、指定された遅延時間Ｔｄを解析中時刻Ｔｃｃに加算して（Ｓ１２１３）、ステップＳ１２０５に戻る。また、字幕データの中身が制御データ“ＣＳ”の場合（Ｓ１２１４のＹＥＳ肢）、セリフの候補となる字幕がすでに一つ以上検出済み（すなわち、ｎ＞０）、かつ、現在解析中の字幕の表示終了時刻Ｔｃｅ［ｎ］が未決定であれば（Ｓ１２１５のＹＥＳ肢）、Ｔｃｅ［ｎ］＝Ｔｃｃとし（Ｓ１２１６）、ステップＳ１２０５に戻る。ステップＳ１２１５でＮＯ肢の場合、ステップＳ１２０５に戻る。

コンテンツデータに解析すべき字幕ＰＥＳがそれ以上検出されない場合（Ｓ１２０３のＮＯ肢）、セリフの候補となる字幕がすでに一つ以上検出済み（すなわち、ｎ＞０）、かつ、現在解析中の字幕の表示終了時刻Ｔｃｅ［ｎ］が未決定であれば（Ｓ１２１７のＹＥＳ肢）、Ｔｃｅ［ｎ］としてコンテンツの最終位置の時刻を設定し（Ｓ１２１８）、字幕の表示開始時刻Ｔｃｓ［ｋ］（ｋは１からｎまでの各整数）及び表示終了時刻Ｔｃｅ［ｋ］を蓄積部１０１に記録して処理を終了する。ステップＳ１２１７でＮＯ肢の場合にはステップＳ１２１９に進む。

＜音声解析部１０４の動作＞
図９は、音声解析部１０４の動作を示すフローチャートである。当該動作は、図７中のステップＳ１３の詳細を示したものでもある。まず、音声解析部１０４は、候補字幕テーブルから字幕の表示開始時刻Ｔｃｓ及び表示終了時刻Ｔｃｅを読み出す（Ｓ１３０１）。すでにすべての情報を読み出していれば（Ｓ１３０２のＹＥＳ肢）、処理を終了する。一方、ステップＳ１３０２でＮＯ肢の場合、読み出した表示開始時刻Ｔｃｓを解析中時刻Ｔｃｃに代入する（Ｓ１３０３）。そして、コンテンツデータ中の音声データを解析中時刻Ｔｃｃの位置から解析し、その種類（音声ジャンル）の判定及びその発声終了時刻の検出を行う（Ｓ１３０４）。

音声解析は、音声データを各ジャンルの音声データサンプル（応援・喝采、効果音、絶叫、解説・発声、音楽など）の音声波形と比較することによって類似したジャンルに分類する方式が一般的である。また、非特許文献１に開示されたアルゴリズムに従って音声ジャンルを分類してもよい。

音声データの種類判定及び発声開始及び終了の時刻検出が終了したならば、それら情報を候補音声テーブルとして蓄積部１０１に記録する（Ｓ１３０５）。ここで、音声ジャンルは、応援・喝采であれば“ＡＰＰ”、効果音であれば“ＥＦＦ”、絶叫であれば“ＳＣＲ”、解説・発声であれば“ＳＰＣ”、音楽であれば“ＭＳＣ”と表記するものとする。なお、音声ジャンルの分類は必ずしもこのとおりでなくてもよく、セリフが含まれる可能性があるかどうかが明確に分類できればよい。

発声終了時刻が字幕の表示終了時刻Ｔｃｅを越えた場合（Ｓ１３０６のＹＥＳ肢）、ステップＳ１３０１に戻って次の字幕の表示開始時刻Ｔｃｓ及び表示終了時刻Ｔｃｅを読み出す。一方、ステップＳ１３０６でＮＯ肢の場合、解析中時刻Ｔｃｃを上記の発声終了時刻に進めて（Ｓ１３０７）、ステップＳ１３０４に戻る。

＜シーン抽出部１０５の動作＞
図１０は、シーン抽出部１０５の動作を示すフローチャートである。当該動作は、図７中のステップＳ１４の詳細を示したものでもある。まず、シーン抽出部１０５は、候補音声テーブルから音声の種類（音声ジャンル）、発話開始時刻及び発話終了時刻を読み出す（Ｓ１４０１）。すでにすべての情報を読み出していれば（Ｓ１３０２のＹＥＳ肢）、処理を終了する。ステップＳ１４０２でＮＯ肢の場合、読み出した音声ジャンルが効果音“ＥＦＦ”又は絶叫“ＳＣＲ”であれば（Ｓ１３０４のＮＯ肢）、ステップＳ１４０１に戻る。一方、読み出した音声ジャンルが効果音“ＥＦＦ”又は絶叫“ＳＣＲ”以外であれば（Ｓ１３０４のＹＥＳ肢）、読み出した発話開始時刻及び発話終了時刻をダイジェストテーブルとして蓄積部１０１に記録する（Ｓ１４０４）。すなわち、音声ジャンルが効果音又は絶叫である場合には、その音声は雑音でありセリフとはみなさない。

以上、本実施形態によると、字幕のみ又は音声のみではセリフであるか否かを判定しにくいコンテンツ部分が、字幕解析及び音声解析を組み合わせて判定されるため、より高精度にセリフ部分を抽出することができる。また、処理負荷の軽い字幕解析によってセリフの候補となる部分が絞られ、音声解析は当該絞られた部分についてのみ行えばよくなるため、セリフ抽出に係る全体的な処理負荷を軽減することができる。これにより、処理能力が低いハードウェアであっても高速かつ高精度にダイジェストを作成することができる。

なお、字幕が映像信号に重畳されている場合には、入力処理部１０２は、画像認識によって映像フレームから字幕データを抽出するようにしてもよい。これにより、字幕ストリームが存在しない場合であっても字幕の表示開始時刻及び表示終了時刻を算出することができる。すなわち、本発明はアナログ映像信号のコンテンツについても上記と同様の効果を奏する。

本発明に係るダイジェスト作成装置は、比較的低い処理能力のハードウェアで高速かつ高精度にコンテンツのダイジェストを作成することができるため、ＤＶＤ記録再生装置、デジタルテレビジョン装置、携帯電話機、ポータブルコンテンツプレーヤ、カーナビゲーション装置などに有用である。

本発明に係るダイジェスト作成装置の構成図である。ＭＰＥＧ２トランスポートストリームのデータ構造を示す図である。字幕ストリームのデータ構造を示す図である。字幕セリフテーブルの一例を表す図である。音声セリフテーブルの一例を表す図である。ダイジェストテーブルの一例を表す図である。本発明に係るダイジェスト作成装置の動作を示すフローチャートである。字幕解析部の動作を示すフローチャートである。音声解析部の動作を示すフローチャートである。シーン抽出部の動作を示すフローチャートである。

符号の説明

１０ダイジェスト作成装置
１０２入力処理部
１０３字幕解析部
１０４音声解析部
１０５シーン抽出部
１０６ダイジェスト生成部

Claims

コンテンツのダイジェストを作成するダイジェスト作成装置であって、
前記コンテンツに含まれる字幕データのうち特殊文字以外で始まる文字データを含むものについて、その表示期間を算出する字幕解析部と、
前記コンテンツに含まれる音声データのうち前記字幕解析部によって算出された表示期間に該当するものについてその種類を判定するとともにその再生期間を算出し、当該種類と当該再生期間とを対応付けたテーブルを生成する音声解析部と、
前記音声解析部によって生成されたテーブルの中から所定の種類の音声データの再生期間を抽出するシーン抽出部と、
前記シーン抽出部によって抽出された再生期間を参照して、前記コンテンツのダイジェストを生成するダイジェスト生成部とを備えた
ことを特徴とするダイジェスト作成装置。
請求項１に記載のダイジェスト作成装置において、
前記コンテンツに含まれる映像信号に重畳された字幕を抽出する入力処理部を備えた
ことを特徴とするダイジェスト作成装置。
請求項１に記載のダイジェスト作成装置において、
前記特殊文字は、音符記号である
ことを特徴とするダイジェスト作成装置。