JP2004328478A

JP2004328478A - 要約生成装置及びそのプログラム

Info

Publication number: JP2004328478A
Application number: JP2003121991A
Authority: JP
Inventors: Ichiro Yamada; 一郎山田; Masaki Sano; 雅規佐野; Masahiro Shibata; 正啓柴田
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2003-04-25
Filing date: 2003-04-25
Publication date: 2004-11-18
Anticipated expiration: 2023-04-25
Also published as: JP4359069B2

Abstract

【課題】本発明は、重要度の高いイベントを高精度に抽出して要約を生成することができる要約生成装置及びそのプログラムを提供することを目的とする。
【解決手段】音声を含む映像と音声のテキストそれぞれを蓄積し、蓄積されたテキストの各文が直接関連文か、非直接関連文かを予め登録された学習データに基づいて判定し、直接関連文グループか非直接関連文グループかを判定してセグメントを付加し、直接関連文グループを構成するテキストの各文から予め登録されているイベントキーワードと一致するイベントを抽出して直接関連文グループのインデックスとして蓄積し、予め登録されているイベントの重要度に応じてインデックスの蓄積から重要度の高いイベントをインデックスとする直接関連文グループを抽出し、抽出した直接関連文グループに対応する映像を映像の蓄積から抽出し要約映像として表示する。
【選択図】図２

Description

【０００１】
【発明の属する技術分野】
本発明は、要約生成装置及びそのプログラムに関し、特に、デジタル放送の番組の要約を作成する要約生成装置及びそのプログラムに関する。
【０００２】
【従来の技術】
従来から映像コンテンツの検索を目的としたサッカー映像における特定映像イベント抽出システムが提案されている（例えば、非特許文献１参照。）。このシステムは、放送されるサッカー番組の映像を解析して特徴点を抽出し、この抽出した特徴点を用いてカメラの状態推定を行うことでカメラの状態空間を作成し、抽出する画像を限定した上で特定映像イベントの抽出を行う。
【０００３】
【非特許文献１】
丸尾二郎，岩井儀雄，谷内田正彦，越後富夫，飯作俊一「サッカー映像からの特定映像イベントの抽出」電子情報通信学会ＰＲＭＵ研究会ＰＲＭＵ９９−４１，ｐｐ．３１−３８（１９９９）
【０００４】
【発明が解決しようとする課題】
従来の特定映像イベント抽出システムでは、映像におけるゴールポストやコーナー等の映像上の特徴点を抽出し、その特徴点に基づいてイベントを抽出しているため、映像からゴールポストやコーナー等の特徴点を抽出できない場合がある。また、ゴールポストやコーナー等の特徴点が必ずしもコーナーキックというイベントに結びつかないため、高精度にイベントを抽出することが難しいという問題があった。
【０００５】
本発明は、上記の点に鑑みなされたもので、重要度の高いイベントを高精度に抽出して要約を生成することができる要約生成装置及びそのプログラムを提供することを目的とする。
【０００６】
【課題を解決するための手段】
請求項１，５に記載の発明は、音声を含む映像と前記音声のテキストそれぞれを蓄積し、蓄積されたテキストの各文が前記映像の内容と直接的に関連する直接関連文であるか、もしくは、映像内容と直接的に関連しない非直接関連文であるかを予め登録された学習データに基づいて判定し、蓄積されたテキストの各文が直接関連文グループを構成するか、非直接関連文グループを構成するかを判定してセグメントを付加し、直接関連文グループを構成するテキストの各文から予め登録されているイベントキーワードと一致するイベントを抽出して前記直接関連文グループのインデックスとして蓄積し、予め登録されているイベントの重要度に応じて前記インデックスの蓄積から重要度の高いイベントをインデックスとする直接関連文グループを抽出し、抽出した直接関連文グループに対応する映像を前記映像の蓄積から抽出し要約映像として表示することにより、
重要度の高いイベントを高精度に抽出して要約を生成することができる。
【０００７】
請求項２，６に記載の発明は、デジタル放送のトランスポートストリームを受信し、前記トランスポートストリームから音声を含む映像を再生して前記映像及びテキスト蓄積手段に蓄積し、トランスポートストリームから字幕テキストストリームを抽出して字幕テキストを再生し前記映像及びテキスト蓄積手段に蓄積することにより、
デジタル放送により放送される番組の要約を生成することができる。
【０００８】
【発明の実施の形態】
まず、本発明の原理について説明する。
【０００９】
映像中で発生しているイベントを高精度に抽出するために、デジタル放送で送られてくるトランスポートストリーム（ＴＳ）に多重された字幕テキストを利用する。また、字幕テキストデータから高精度なイベント抽出を行うために、字幕テキストデータの各文が、映像内容を説明する実況文であるか、もしくは、映像内容以外を話題とする解説文であるかを判定する。
【００１０】
この判定のために、予め別の字幕テキストデータが実況分であるか解説文であるか正解を手作業により与えた学習データを作成し、文の特徴点を既存技術であるサポートベクターマシン（Ｃ．ＣｏｒｔｅｓａｎｄＶ．ｖａｐｎｉｋ“ＳｕｐｐｏｒｔＶｅｃｔｏｒＮｅｔｗｏｒｋｓ”，ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，Ｗｏｌ．２０，ｐｐ．２７３−２９７）により学習する。
【００１１】
そして、映像内容を説明すると判定された実況文の固まりを対象としてセグメント化し、実況文のセグメントからイベントの抽出し、重要性の大きなイベントを持つセグメントに対応する映像をイベント映像として抽出する。
【００１２】
以下、図面を参照して本発明の実施例について説明する。
【００１３】
図１は、本発明の要約生成装置のハードウェア構成を示す一実施例のブロック図を示す。要約生成装置は、専用の装置構成とすることもできるが、例えば、汎用のパーソナルコンピュータ、ワークステーション等を適用することができる。
【００１４】
図１において、要約生成装置は、入力装置１１と、出力装置１２と、ドライブ装置１３と、補助記憶装置１４と、メモリ装置１５と、演算処理装置１６と、データベース１７と、デジタルチューナ１８から構成されており、これらはシステムバス１９で相互に接続されている。
【００１５】
入力装置１１は、使用者が操作するキーボード及びマウス、音声入力用のマイクロホンを有しており、各種信号を入力する。出力装置１２は、質問応答装置のプログラムを操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイを有し、実行プログラムに基づいて表示される。ここで、本発明において、要約生成装置にインストールされる実行プログラムは、例えば、ＣＤ−ＲＯＭ等の記録媒体１９等により提供される。プログラムを記録した記録媒体１９はドライブ装置１３に装着され、記憶媒体１９に格納された実行プログラムが、記録媒体１９からドライブ装置１３を介して補助記憶装置１４にインストールされる。
【００１６】
演算処理装置１６は、メモリ装置１５により読み出され格納されている実行プログラムに基づいて、各種演算や後述する各処理を含む要約生成装置全体の処理を制御する。また、プログラムの実行中に必要な各種情報は、データベース１７から取得することができ、また格納することもできる。デジタルチューナ１８は、例えばＢＳデジタル放送や地上波デジタル放送を受信する。
【００１７】
図２は、本発明の要約生成装置の一実施例の機能構成図を示す。同図中、デジタルチューナ１８では例えばＢＳデジタル放送のトランスポートストリーム（ＴＳ：ＴｒａｎｓｐｏｒｔＳｔｒｅａｍ）を受信し、受信したトランスポートストリームから再生した音声を含む映像を映像蓄積部２０に蓄積する。これと共に、受信したトランスポートストリームを字幕テキストデータ抽出部２２に供給する。
【００１８】
ここで、図３及び図４を参照して、トランスポートストリームの構成とデータ構造について説明する。図３は、トランスポートストリームの構成の例を示す概念図である。図４は、トランスポートストリームのデータ構造を示す図である。
【００１９】
図３に示すように、デジタル放送で放送されるトランスポートストリームは、映像ストリーム、音声ストリーム、データストリーム、字幕テキストストリーム、文字スーバストリーム等の個別のストリーム（エレメンタリストリーム（ＥＳ））が多重化されて構成されている。ここでは、映像ストリーム（ＥＳ１）と、音声ストリーム１（ＥＳ２）及び音声ストリーム２（ＥＳ３）と、データストリーム１（ＥＳ４）、データストリーム２（ＥＳ５）及びデータストリーム３（ＥＳ６）と、字幕テキストストリーム（ＥＳ７）と、文字スーバストリーム（ＥＳ８）とで、１つのトランスポートストリームを構成した例を示している。
【００２０】
なお、映像、音声、字幕及び文字スーバの各ストリームは、ＰＥＳ（ＰａｃｋｅｔｉｚｅｄＥｌｅｍｅｎｔａｒｙＳｔｒｅａｍ）と呼ばれるデータ形式となっている。また、データ放送として放送されるデータ放送用データであるデータストリームは、セクション（Ｓｅｃｔｉｏｎ）と呼ばれるデータ形式となっている。このＰＥＳ及びセクションの形式は、ＭＰＥＧ２のシステム規格であるＩＳＯ／ＩＥＣ１３８１８−１で規定されている。
【００２１】
このトランスポートストリームは、図４に示すように、ＰＥＳ及びセクションの各データが、１８４バイト単位に分割され、その分割されたデータ（分割データｄｄ）に４バイトのＴＳヘッダｔｓｈが付加されたＴＳパケット構造となっている。このＴＳヘッダｔｓｈは、ＴＳパケットの開始を示す同期バイトｓｙｎ、ＴＳパケットを識別するパケット識別子ｐｉｄ等を含んでいる。なお、分割される前のＰＥＳやセクションは、同じパケット識別子ｐｉｄの値が付与されている。
【００２２】
図２に示すデジタルチューナ１８は、ＴＳヘッダｔｓｈの同期バイトｓｙｎを検出することで、ＴＳパケット単位（１８８バイト）で、トランスポートストリームを受信する。
【００２３】
字幕テキストデータ抽出部２２は、デジタルチューナ１８から供給されるＴＳパケットから、字幕テキストストリームのみを分離抽出して字幕テキストを再生し、この字幕テキストを字幕テキスト蓄積部２４に蓄積する。図５に字幕テキスト蓄積部２４に蓄積された字幕テキストの一実施例を示す。各行の先頭はタイムコード（フレーム番号）、次の０または１の数字は話者を表し、０がアナウンサー、１が解説者を表す。その後が字幕テキスト文である。
【００２４】
字幕テキスト解析部２６は、字幕テキスト蓄積部２４に蓄積されている各文に対して、映像内容を説明する実況文であるか、もしくは、映像内容以外を話題とする解説文であるかを判定する。これは、字幕テキストに「シュート」というイベントキーワードが存在しても、映像中に「シュート」イベントが発生したのか、それとも、映像とは無関係に「シュート」について説明しているのか判断ができないからである。
【００２５】
図６は、字幕テキスト解析部２６が実行する字幕テキスト解析処理のフローチャートを示す。同図中、ステップＳ１０で、字幕テキストデータ蓄積部２４に蓄積された字幕テキストデータを対象に、未処理の文の有無を判定する。未処理の文がない場合は処理を終了する。
【００２６】
未処理の文がある場合は、ステップＳ１２で１つの文を対象として特徴点を抽出する。特徴点は、例えば以下の項目とする。
【００２７】
１．最終形態素の動詞（または名詞）の表記
２．最終形態素の格
３．最終形態素に係る人名の表記
４．最終形態素に係る人名の格
５．最終形態素に係る人名以外の表記
６．最終形態素に係る人名以外の格
７．最終形態素に係る動詞句の表記
８．接続詞の有無（有り：１、無し：０）
９．助詞丁寧の有無（有り：１、無し：０）
１０．間投助詞の有無（有り：１、無し：０）
１１．助詞完了の有無（有り：１、無し：０）
１２．助詞過去の有無（有り：１、無し：０）
１３．接続助詞の有無（有り：１、無し：０）
１４．終助詞の有無（有り：１、無し：０）
１５．助詞断定の有無（有り：１、無し：０）
１６．助詞打消の有無（有り：１、無し：０）
１７．解説者やアナウンサーの名前の出現の有無（有り：１、無し：０）
１８．発話者の有無（有り：１、無し：０）
例えば、以下の２文から抽出される特徴データを以下に示す。この例では抽出された特徴は、セパレータ”｜”により分割され、上記特徴点１〜１８の順に並んでいる。
［特徴点抽出例１］
「さあまた岡野がまたスピードを生かす、抜ける、抜けた、チャンス、シュート。」
（シュート｜｜｜｜チャンス｜｜｜１｜０｜０｜０｜０｜０｜０｜０｜０｜０｜０）
［特徴点抽出例２］
「今野とも奪い合いましたが、最後のシュートは浮いてしまいました。」
（浮く｜｜｜｜シュート｜は｜奪い合う｜０｜１｜０｜０｜１｜１｜０｜０｜０｜０｜０）
次に、ステップＳ１４で、抽出された特徴をもととして、その文が映像内容を説明する実況文であるか、もしくは、映像内容以外を話題とする解説文であるかを判定する。判定には、一般的な学習機であるサポートベクターマシンを利用する。サポートベクターマシンは既存の技術で有り、学習データ格納部２８に格納されている予め学習された特徴データを基に、入力された特徴が２つのクラスタ（実況文／解説文）のどちらに属するかを判定する。
【００２８】
本手法でも、予め、サッカー放送におけるアナウンス書き起こし原稿に対して、実況文であるか解説文であるかを手作業により与え、学習データを作成している。この判定結果では、先の例で示した「さあまた岡野がまたスピードを生かす、抜ける、抜けた、チャンス、シュート。」という文は「実況文」に判定され、「今野とも奪い合いましたが、最後のシュートは浮いてしまいました。」は「解説文」に判定される。この判定結果を付加した字幕テキストがセグメント付加部３０の入力として与えられる。図７に判定結果を付加した字幕テキストの一実施例を示す。
【００２９】
ところで、サッカー番組は切れ目がないため、内容の変化点を見つけることが難しい。これを解決するために、本発明ではセグメント付加部３０を設けている。
【００３０】
図２に示すセグメント付加部３０は、タイムコード順にならべられた字幕テキストデータに対して、内容の変化点により分割するセグメントを付加し、実況文集合、解説文集合を作る。
【００３１】
図８は、セグメント付加部３０が実行するセグメント付加処理のフローチャートを示す。同図中、ステップＳ２０で、判定結果（実況文／解説文）を付加した字幕テキストをタイムコード順に入力する。この処理ではその時点の状態を変数ｓｔａｔｕｓに記憶する。このｓｔａｔｕｓの初期設定を行うために、ステップＳ２２においてタイムコード順で最初の字幕テキストに付加された判定結果をそのままｓｔａｔｕｓに設定する。
【００３２】
次に、ステップＳ２４で処理済みの字幕テキストより新しいタイムコードを持つ字幕テキストが存在するか否かを判別し、存在しない場合は処理を終了する。存在する場合にはステップＳ３６に進み、処理対象を１つ進める。つまり、処理済みの字幕テキストの次に新しいタイムコードを持つ字幕テキストを処理対象とする。そして、ステップＳ２６でｓｔａｔｕｓが実況文か否かを判別する。
【００３３】
ｓｔａｔｕｓが実況文の場合には、ステップＳ２８で処理対象の字幕テキストは解説文か否かを判別し、ここで解説文の場合にはステップＳ３０で処理対象の１つ前の字幕テキストは解説文か否かを判別し、ここで解説文の場合にはステップＳ３２に進み、処理対象の２つ前の字幕テキストと１つ前の字幕テキストとの間にセグメントを設ける。そして、このセグメントの前を実況文グループと判断し、セグメントの後を解説文グループと判断する。更に、ステップＳ３４で解説文をｓｔａｔｕｓに設定してステップＳ２２に進む。なお、ステップＳ２８で処理対象の字幕テキストが実況文の場合、または、ステップＳ３０で処理対象の１つ前の字幕テキストが実況文の場合は、そのままステップＳ２２に進む。
【００３４】
一方、ステップＳ２６でｓｔａｔｕｓが解説文の場合には、ステップＳ３６で処理対象の字幕テキストは実況文か否かを判別し、ここで実況文の場合にはステップＳ３８で処理対象の１つ前の字幕テキストは実況文か否かを判別し、ここで実況文の場合にはステップＳ４０に進み、処理対象の２つ前の字幕テキストと１つ前の字幕テキストとの間にセグメントを設ける。そして、このセグメントの前を解説文グループと判断し、セグメントの後を実況文グループと判断する。更に、ステップＳ４２で実況文をｓｔａｔｕｓに設定してステップＳ２２に進む。なお、ステップＳ３６で処理対象の字幕テキストが解説文の場合、または、ステップＳ３８で処理対象の１つ前の字幕テキストが解説文の場合は、そのままステップＳ２２に進む。
【００３５】
このようにして、図７に示すように、実況文または解説文が２つ以上連続してｓｔａｔｕｓと異なるときにするときにセグメントが設けられ、実況文グループと解説文グループが形成される。
【００３６】
図２に示すイベント抽出部３２では、実況文グループの字幕テキストから、予め登録されているイベントキーワードを抽出する。ここで、イベントキーワード格納部３４にはイベントキーワードとして、例えば、以下に示す単語が予め格納されている。
「ファール、フリーキック、スローイン、シュート、ゴール、コーナーキック、ゴールキック、イエローカード、クロス、ハンド、チャンス、オーバーラップ、オフサイド、タックル、ミス、ドリブル、ワンツー、プレッシャー、トラップ、退場、キープ、ボレー、ダイレクトボレー、ヘディング、ＰＫ、スルーパス、パス、ロングスロー、スルー、カウンター、オーバーヘッド、オーバーヘッドキック、カバー、キックオフ、いいプレー、ループシュート、ショートコーナー、キャッチ」
上記のイベントキーワードのいずれかが実況文グループの字幕テキストに存在する場合は、イベント抽出部３２は、その実況文グループに対応するイベントと判断し、そのイベントをインデックスとして開始タイムコード及び終了タイムコードと共にインデックス蓄積部３６に蓄積する。開始タイムコードは当該実況文グループの最初の字幕テキストのタイムコードであり、終了タイムコードは当該実況文グループの最後のタイムコード（次の解説文グループの最初の字幕テキストのタイムコードを１だけ減じた値）である。図９に、サッカー１試合分のイベント抽出結果を示す。ここで、先頭は開始タイムコード、２番目は終了タイムコードと、３番目の「パス」、「フリーキック」等がインデックス（つまりイベント）である。
【００３７】
図２に示す要約生成部３８は、予め登録されているイベント重要度を基に、インデックス蓄積部３６を参照して最も重要なイベントのインデックスを抽出し、抽出したインデックスの対応する映像情報を映像蓄積部２０から取り出して要約として出力装置１２のディスプレイに表示する。
【００３８】
図１０は、要約生成部３８が実行する要約生成処理のフローチャートを示す。同図中、ステップＳ５０で要約映像及びトータル時間をリセットする。また、インデックス蓄積部３６に蓄積されている全てインデックス情報を抽出対象とする。
【００３９】
次に、ステップＳ５２で、トータル時間が指定時間を超えたか否かを判断する。ここで、指定時間とは、予めユーザにより入力された時間であり、デフォルト値は例えば３分である。トータル時間が指定時間を超えていない場合は、ステップＳ５４で、イベント重要度格納部４０に予め登録されているイベント重要度を利用して、重要度が最も大きいイベントのインデックスをインデックス蓄積部３６内の抽出対象から抽出する。イベント重要度は、ユーザによって自由に操作でき、例えば以下に示すものを利用する。
【００４０】
イベント重要度１．ゴール
イベント重要度２．ＰＫ
イベント重要度３．シュート
イベント重要度４．退場
イベント重要度５．イエローカード
イベント重要度６．フリーキック
イベント重要度７．コーナーキック
ステップＳ５６ではステップＳ５４においてインデックス蓄積部３６から抽出されたインデックスが複数ある場合、該当する複数のインデックスのうち開始タイムコードと終了タイムコードの差が最も小さいインデックスを抽出し、その開始タイムコードと終了タイムコードの差をトータル時間に加算し、そのインデックスを処理対象から外したのちステップＳ５２に進む。
【００４１】
これによって、トータル時間が指定時間を超えると、ステップＳ５２からステップＳ５８に進む。ステップＳ５８では抽出した１または複数のインデックスそれぞれに対応する映像情報を映像蓄積部２０からインデックスを抽出した順に取り出し要約として表示する。なお、インデックスと映像情報との対応は開始タイムコード及び終了タイムコードでとっている。
【００４２】
以上から明らかなように、本実施例によれば、映像の意味的なグループ化を自動で行い、イベントを正確に抽出することにより、番組を放送中にリアルタイムで要約を作成することができ、番組を途中から見始めた視聴者用に、それまでの試合のダイジェストを受信機側で作成することができ、デジタル放送のサービスとして利用できる。
【００４３】
なお、上記実施例では、サッカー番組の映像から重要なイベントを抽出して要約を作成することを例に説明しているが、サッカー番組に限定されるものではない。例えば、図１１に示すような自然紀行番組での番組ナレーションの字幕テキストについて、映像に映っている事項を説明する映像記述文と補足的な説明を行う補足説明文を判定し、映像記述文のグループからイベントキーワードを抽出し、予め登録されているイベント重要度を基に要約を生成するものであっても良い。図１１では、先頭に判定結果（映像記述文／補足説明文）、次に字幕テキスト文、最後にタイムコード（時刻とフレーム数）を示している。なお、この場合には、学習データ及びイベントキーワード及びイベント重要度それぞれを自然紀行番組用のものに設定する必要がある。
【００４４】
なお、映像蓄積部２０，字幕テキスト蓄積部２４が請求項記載の映像及びテキスト蓄積手段に対応し、実況文または映像記述文が直接関連文に対応し、解説文または補足説明文が非直接関連文に対応し、字幕テキスト解析部２６が直接関連文判定手段に対応し、セグメント付加部３０がセグメント付加手段に対応し、イベント抽出部３２，インデックス蓄積部３６がインデックス蓄積手段に対応し、要約生成部３８が要約抽出手段に対応し、デジタルチューナ１８が受信手段に対応し、字幕テキストデータ抽出部２２が字幕テキスト抽出手段に対応する。
【００４５】
【発明の効果】
上述の如く、請求項１，５に記載の発明によれば、重要度の高いイベントを高精度に抽出して要約を生成することができる。
【００４６】
請求項２，６に記載の発明によれば、デジタル放送により放送される番組の要約を生成することができる。
【図面の簡単な説明】
【図１】本発明の要約生成装置のハードウェア構成を示す一実施例のブロック図である。
【図２】本発明の要約生成装置の一実施例の機能構成図である。
【図３】トランスポートストリームの構成の例を示す概念図である。
【図４】トランスポートストリームのデータ構造を示す図である。
【図５】字幕テキストの一実施例を示す図である。
【図６】字幕テキスト解析処理のフローチャートである。
【図７】判定結果を付加した字幕テキストの一実施例を示す図である。
【図８】セグメント付加処理のフローチャートである。
【図９】サッカー１試合分のイベント抽出結果を示す図である。
【図１０】要約生成処理のフローチャートである。
【図１１】判定結果を付加した字幕テキストの他の実施例を示す図である。
【符号の説明】
１１入力装置
１２出力装置
１３ドライブ装置
１４補助記憶装置
１５メモリ装置
１６演算処理装置
１７データベース
１８デジタルチューナ
１９記録媒体
１９システムバス
２０映像蓄積部
２２字幕テキストデータ抽出部
２４字幕テキスト蓄積部
２６字幕テキスト解析部
２８学習データ格納部
３０セグメント付加部
３２イベント抽出部
３４イベントキーワード格納部
３６インデックス蓄積部
３８要約生成部
４０イベント重要度格納部

Claims

音声を含む映像と前記音声のテキストそれぞれを蓄積する映像及びテキスト蓄積手段と、
蓄積されたテキストの各文が前記映像の内容と直接的に関連する直接関連文であるか、もしくは、映像内容と直接的に関連しない非直接関連文であるかを予め登録された学習データに基づいて判定する直接関連文判定手段と、
前記蓄積されたテキストの各文が直接関連文グループを構成するか、非直接関連文グループを構成するかを判定してセグメントを付加するセグメント付加手段と、
前記直接関連文グループを構成するテキストの各文から予め登録されているイベントキーワードと一致するイベントを抽出して前記直接関連文グループのインデックスとして蓄積するインデックス蓄積手段と、
予め登録されているイベントの重要度に応じて前記インデックスの蓄積から重要度の高いイベントをインデックスとする直接関連文グループを抽出し、抽出した直接関連文グループに対応する映像を前記映像の蓄積から抽出し要約映像として表示する要約抽出手段を
有することを特徴とする要約生成装置。
請求項１記載の要約生成装置において、
デジタル放送のトランスポートストリームを受信し、前記トランスポートストリームから音声を含む映像を再生して前記映像及びテキスト蓄積手段に蓄積する受信手段と、
前記トランスポートストリームから字幕テキストストリームを抽出して字幕テキストを再生し前記映像及びテキスト蓄積手段に蓄積する字幕テキスト抽出手段を
有することを特徴とする要約生成装置。
請求項１記載の要約生成装置において、
前記直接関連文は実況文であり、前記非直接関連文は解説文であることを特徴とする要約生成装置。
請求項１記載の要約生成装置において、
前記直接関連文は映像記述文であり、前記非直接関連文は補足説明文であることを特徴とする要約生成装置。
コンピュータを、
音声を含む映像と前記音声のテキストそれぞれを蓄積する映像及びテキスト蓄積手段、
蓄積されたテキストの各文が前記映像の内容と直接的に関連する直接関連文であるか、もしくは、映像内容と直接的に関連しない非直接関連文であるかを予め登録された学習データに基づいて判定する直接関連文判定手段、
前記蓄積されたテキストの各文が直接関連文グループを構成するか、非直接関連文グループを構成するかを判定してセグメントを付加するセグメント付加手段、
前記直接関連文グループを構成するテキストの各文から予め登録されているイベントキーワードと一致するイベントを抽出して前記直接関連文グループのインデックスとして蓄積するインデックス蓄積手段、
予め登録されているイベントの重要度に応じて前記インデックスの蓄積から重要度の高いイベントをインデックスとする直接関連文グループを抽出し、抽出した直接関連文グループに対応する映像を前記映像の蓄積から抽出し要約映像として表示する要約抽出手段、
として機能させるための要約生成プログラム。
請求項５記載の要約生成プログラムにおいて、
コンピュータを、
デジタル放送のトランスポートストリームを受信し、前記トランスポートストリームから音声を含む映像を再生して前記映像及びテキスト蓄積手段に蓄積する受信手段、
前記トランスポートストリームから字幕テキストストリームを抽出して字幕テキストを再生し前記映像及びテキスト蓄積手段に蓄積する字幕テキスト抽出手段、
として機能させるための要約生成プログラム。