JP5173337B2

JP5173337B2 - 要約コンテンツ生成装置およびコンピュータプログラム

Info

Publication number: JP5173337B2
Application number: JP2007241371A
Authority: JP
Inventors: 俊晃上向; 一則松本; 史昭菅谷
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2007-09-18
Filing date: 2007-09-18
Publication date: 2013-04-03
Anticipated expiration: 2027-09-18
Also published as: JP2009076970A; US20090073314A1; US8279343B2

Description

本発明は、地上デジタル放送等のデジタル放送における放送番組の要約コンテンツを生成する要約コンテンツ生成装置およびコンピュータプログラムに関する。

地上デジタル放送サービスでは、映像に加えて、字幕情報（クローズドキャプション）も同時に配信される。字幕情報は、例えば耳の不自由な人でも放送を楽しむことができるように、テレビ映像の上に、番組内の会話やセリフを重畳するための情報である。地上デジタル放送受信端末は、受信する地上デジタル放送データ内の映像データおよび音声データを再生しつつ、放送データ内の字幕情報データを受信したとき、再生中の映像データに字幕情報データを重畳して表示する。地上デジタル放送受信端末としては、家庭用のテレビ受像機だけでなく、パーソナルコンピュータや携帯電話端末を利用したものも存在する。特に、携帯電話向け地上デジタル放送サービスは「ワンセグ」と呼ばれている。そのワンセグにおいては、字幕情報は常に表示され、電車などの公共の場でも音声を聞かずに視聴できる。これらの仕様は、ARIB（社団法人電波産業会）の標準規格で定められている。

また、地上デジタル放送受信端末の中には、受信した放送データをハードディスク装置などの記憶領域に保存する機能を備えるものがあり、これにより視聴者は、その保存された放送データを再生することで、いつでも放送番組を視聴することができる。今後、記憶領域の大容量化と低価格化に伴い、複数の放送チャンネルに関して、１週間あるいはそれ以上の期間に放送された番組をすべて保存することができるようになると予想される。

しかし、視聴者の多くは、生活時間の制限により、記憶領域に蓄積された放送番組の中から、一部の放送番組しか視聴しないことが考えられる。さらに、１つの放送番組に対して、最初から最後まで再生してじっくり視聴する場合もあれば、放送番組の概要だけを確認する場合もある。概要だけを確認する際には、例えば、早送り再生しながら、見たいシーンのところだけを通常再生する方法があるが、眼を凝らしながら、早送り再生されるテレビ画面を見て操作する必要があり、時間がかかり、煩雑である。

そこで、１つの放送番組に対して、短時間で該番組の内容を簡単に理解させるための技術に対する期待が高まっている。番組内容を理解させる方法として、元々の映像データから、部分的に映像データを抽出して連結した要約映像コンテンツを生成する方法、あるいは、元々の映像データから、静止画を抽出して一覧表示した要約サムネイルコンテンツを生成する方法などがある。その一方で、記憶領域の大容量化が進んでいるとはいえ、蓄積できるデータ容量には制限があるため、要約映像コンテンツのデータサイズはできるだけ小さいことが望まれ、又、要約サムネイルコンテンツの画像数はできるだけ少ないことが望まれる。

特許文献１には、番組内容を把握できるようにすると同時に、所望のシーンを簡単に検索でき、該シーンから映像を再生できるようにする方法が提案されている。この特許文献１記載の従来技術では、映像データの中から、字幕情報が表示される画像を切り出し、それらをサムネイル化する。そして、視聴者が、一覧表示された画像を選択すると、当該位置から映像が再生される。
特許文献２には、番組内容を要約したアニメーション画像を生成する方法が提案されている。この特許文献２記載の従来技術では、映像の中から画像と字幕情報を抽出し、それらを合成した画像群を連続的に切り替えたアニメーション画像として、要約コンテンツを生成する。そのアニメーション画像に利用する画像は、字幕情報を受信した時点、受信した字幕情報が一定のデータ量を超過した時点、映像シーンが切り替わった時点、あるいは、一定の時間が経過した時点のフレーム画像が利用される。また、要約コンテンツのデータサイズを小さくするために、切り出した画像に対して、輪郭だけを抽出する画像処理を施している。
特開平７−１９２００３号公報特開２００７−００６３０８号公報

しかし、上述した特許文献１記載の従来技術では、映像から抽出した画像をサムネイルとして一覧表示するだけであり、画像数が多くなるにつれ、その一覧性は非常に悪くなる。さらに、サムネイルの一覧表示では、画面サイズがある程度大きい表示装置による閲覧を想定する必要があり、汎用性がなくなる。特に、現在広く普及している携帯電話機では、携帯性向上のために画面サイズが小さく、サムネイルの一覧表示を視認性よく閲覧することが難しい。

特許文献２記載の従来技術では、番組内容を要約したアニメーション画像を生成するが、画像数が多くなるにつれて、アニメーションの再生時間が長くなり、さらに要約コンテンツのデータサイズも大きくなる。そのため、要約コンテンツのデータサイズを小さくするために、画像を２値化して線描画に変換することにより画像のデータサイズ自体を小さくしているが、特許文献２の図５に示される画面ｂのように、線描画では、映像の内容をしっかりと把握することは困難である。また、映像から切り出した画像に、字幕文字列を重畳させたアニメーション画像の表示を切り替える方法については、開示されていない。このため、アニメーション画像を再生する際に、視聴者が１枚１枚順番に画像を切り替えて表示させるためのマニュアル操作を行うことが考えられるが、その操作が大変である。或いは、アニメーション画像を一定間隔で自動的に切り替えて表示させることが考えられるが、１つのアニメーション画像に含まれる字幕文字列の長さによっては、視聴者が字幕文字列を読み終える前に、次のアニメーション画像に切り替わってしまう可能性がある。

このように、地上デジタル放送の番組の要約コンテンツの生成方法として、字幕情報データ内の字幕文字列を順番に切り替えて表示するのに合わせて、映像データから切り出した静止画も表示するアニメーションコンテンツとして生成する際、視聴者が字幕文字列および画像を理解できるように、表示対象のアニメーション画像を切り替えるタイミングを制御することが課題である。さらには、要約コンテンツのデータサイズは小さく、又、再生時間は短いことが好ましいが、視聴者が要約コンテンツを視聴するだけで元の放送番組の内容を理解することができる情報量を提供することも重要である。このため、アニメーションコンテンツに利用する画像数またはアニメーション画像の切り替え回数を削減しつつ、可読性の高い字幕文字列の表示方法が望ましい。

本発明は、このような事情を考慮してなされたもので、その目的は、デジタル放送番組の要約コンテンツとしてアニメーションコンテンツを生成する際に、表示対象のアニメーション画像を切り替えるタイミングを適切に制御することのできる要約コンテンツ生成装置およびコンピュータプログラムを提供することにある。

上記の課題を解決するために、本発明に係る要約コンテンツ生成装置は、映像データと字幕情報データを有するデジタル放送信号を用いて放送番組の要約コンテンツを生成する要約コンテンツ生成装置において、前記デジタル放送信号に含まれる字幕情報データから、字幕文字列を抽出する字幕文字列抽出手段と、前記デジタル放送信号に含まれる映像データから、前記字幕文字列に対応する静止画を一つ抽出する静止画抽出手段と、前記抽出された字幕文字列を前記抽出された対応する静止画とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成手段と、を備え、前記要約コンテンツ生成手段は、前記要約コンテンツを構成する複数の字幕文字列及び静止画についての表示切替タイミングを、該字幕文字列に基づいて決定することを特徴とする。

本発明に係る要約コンテンツ生成装置においては、前記要約コンテンツ生成手段は、字幕文字列の文字数に応じて、該字幕文字列が画面上に表示されている時間（表示時間）を決定することを特徴とする。

本発明に係る要約コンテンツ生成装置においては、字幕文字列の文字数に対し閾値を設け、閾値を境にして段階的に表示時間を長くすることを特徴とする。

本発明に係る要約コンテンツ生成装置においては、前記要約コンテンツ生成手段は、字幕文字列中の単語の難易度に応じて、該字幕文字列が画面上に表示されている時間を決定することを特徴とする。

本発明に係る要約コンテンツ生成装置においては、前記要約コンテンツ生成手段は、視聴者のプロフィールに応じて、字幕文字列が画面上に表示されている時間を決定することを特徴とする。

本発明に係る要約コンテンツ生成装置においては、前記要約コンテンツ生成手段は、前記要約コンテンツを構成する複数の字幕文字列及び静止画についての再生時刻を示す字幕・静止画表示スケジュール情報を作成することを特徴とする。

本発明に係る要約コンテンツ生成装置においては、前記要約コンテンツ生成手段は、連続する複数の字幕文字列が結合可能か判定し、結合可能と判定された複数の字幕文字列を結合し、結合した字幕文字列を一つの静止画に対応付けることを特徴とする。

本発明に係る要約コンテンツ生成装置においては、連続する複数の字幕文字列が結合可能かの判定基準は、字幕文字列A次いで字幕文字列Bの順序で連続する２つの字幕文字列A，Bに対し、判定基準１：字幕文字列Aが句点で終わっていない、を含むことを特徴とする。

本発明に係る要約コンテンツ生成装置においては、連続する複数の字幕文字列が結合可能かの判定基準は、字幕文字列A次いで字幕文字列Bの順序で連続する２つの字幕文字列A，Bに対し、判定基準２：字幕文字列A，Bの合計文字数が第１の規定文字数よりも少ない、を含むことを特徴とする。

本発明に係る要約コンテンツ生成装置においては、連続する複数の字幕文字列が結合可能かの判定基準は、字幕文字列A次いで字幕文字列Bの順序で連続する２つの字幕文字列A，Bに対し、判定基準３：字幕文字列Aの表示後、字幕文字列Bを表示するまでの時間が規定時間よりも短い、を含むことを特徴とする。

本発明に係る要約コンテンツ生成装置においては、連続する３つ以上の字幕文字列が結合可能かの判定基準は、字幕文字列A次いで字幕文字列B次いで字幕文字列Cの順序で連続する３つの字幕文字列A，B，Cに対し、判定基準４：字幕文字列A,B,Cの合計文字数が第２の規定文字数よりも多く、且つ、字幕文字列A,B,Cの結合「A+B+C」を２つの文字列に分割することにより、分割後の２つの文字列が両方とも第１の規定文字数よりも少なくなる、を含むことを特徴とする。

本発明に係る要約コンテンツ生成装置においては、前記判定基準４を満たす３つの字幕文字列の結合を分割するときの分割位置は、読点で終わる、単語の中間ではない、又は、全文字列長の中間位置に近い、のいずれかの条件をみたすところに決定する、ことを特徴とする。

本発明に係る要約コンテンツ生成装置においては、前記要約コンテンツ生成手段は、連続する複数の静止画が類似しているか判定し、連続する複数の類似した静止画の中から代表の静止画を採用することを特徴とする。

本発明に係る要約コンテンツ生成装置においては、前記静止画抽出手段は、前記字幕文字列抽出手段によって抽出された字幕文字列に対応する候補画像群の中から、一番目の画像、真ん中の画像、又は、ランダムに選択した一つの画像を該字幕文字列に対応する静止画として抽出することを特徴とする。

本発明に係る要約コンテンツ生成装置においては、前記デジタル放送信号に含まれる映像データを解析し、画像内に映っている人物を検出する人物検出手段を備え、前記静止画抽出手段は、人物が映っている画像を前記静止画として抽出することを特徴とする。

本発明に係る要約コンテンツ生成装置においては、前記デジタル放送信号に含まれる映像データを解析し、画像内に映っている人物を検出し、該人物が正面を向いているか判断する人物検出手段を備え、前記静止画抽出手段は、人物が正面を向いて映っている画像を前記静止画として抽出することを特徴とする。

本発明に係る要約コンテンツ生成装置においては、前記デジタル放送信号に含まれる映像データを解析し、画像内に映っている人物を検出し、該人物が正面を向いているか判断する人物検出手段と、該映像データを解析し、前記人物検出手段によって検出された人物の表情を判定する表情検出手段と、を備え、前記静止画抽出手段は、人物が特定の表情をして映っている画像を前記静止画として抽出することを特徴とする。

本発明に係る要約コンテンツ生成装置においては、前記特定の表情は、眼が開いている、笑っている、又は、泣いている、であることを特徴とする。

本発明に係る要約コンテンツ生成装置においては、前記デジタル放送信号に含まれる映像データには、映像データが表示される画面上に挿入される文字列のデータであるテロップデータが含まれており、前記デジタル放送信号に含まれる映像データを解析し、画像中にテロップデータが挿入されているかを検出するテロップ検出手段を備え、前記静止画抽出手段は、テロップデータが挿入されている画像を前記静止画として抽出することを特徴とする。

本発明に係る要約コンテンツ生成装置においては、前記デジタル放送信号に含まれる映像データには、ニュース番組においてメインのニュースキャスタが現れる映像区間であるアンカーショットが映っている画像が含まれており、前記デジタル放送信号に含まれる映像データを解析し、画像にアンカーショットが映っているかを判定するアンカーショット検出手段を備え、前記静止画抽出手段は、アンカーショットが映っている画像を前記静止画として抽出することを特徴とする。

本発明に係るコンピュータプログラムは、映像データと字幕情報データを有するデジタル放送信号を用いて放送番組の要約コンテンツを生成するためのコンピュータプログラムであって、前記デジタル放送信号に含まれる字幕情報データから、字幕文字列を抽出する字幕文字列抽出機能と、前記デジタル放送信号に含まれる映像データから、前記字幕文字列に対応する静止画を一つ抽出する静止画抽出機能と、前記抽出された字幕文字列を前記抽出された対応する静止画とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成機能と、をコンピュータに実現させるものであり、前記要約コンテンツ生成機能は、前記要約コンテンツを構成する複数の字幕文字列及び静止画についての表示切替タイミングを、該字幕文字列に基づいて決定することを特徴とする。
これにより、前述の要約コンテンツ生成装置がコンピュータを利用して実現できるようになる。

本発明によれば、要約コンテンツを構成する複数の字幕文字列及び静止画についての表示切替タイミングが、該字幕文字列に基づいて決定される。例えば、字幕文字列の文字数、字幕文字列中の単語の難易度などに応じて、該表示切替タイミングが決定される。これにより、デジタル放送番組の要約コンテンツとしてアニメーションコンテンツを生成する際に、表示対象のアニメーション画像を切り替えるタイミングを適切に制御することができるという効果が得られる。

以下、図面を参照し、本発明の一実施形態について説明する。
図１は、本発明の一実施形態に係るデジタル放送受信システムの全体構成を示すブロック図である。図１において、デジタル放送受信システムには、アンテナ等を介して受信したデジタル放送信号が入力される。デジタル放送としては、例えば、地上デジタル放送および衛星デジタル放送などの放送波を利用したもの、ＩＰ（Internet Protocol）放送と呼ばれるインターネット（ＩＰ通信網）を利用したもの、などが挙げられる。本実施形態では、以下、地上デジタル放送を例に挙げて説明する。

地上デジタル放送信号は、映像データ、音声データ及び字幕情報データを有する。字幕情報データは、テレビ画面上に表示する字幕文字列を有する。地上デジタル放送信号中において、字幕情報データは、自己が有する字幕文字列を一緒に表示する映像データの再生タイミングに合わせた位置に配置されている。従って、地上デジタル放送受信端末は、受信した地上デジタル放送信号によって、映像データ及び音声データを再生しながら、字幕情報データを受信した時点で、該字幕情報データ中の字幕文字列を映像に重畳させて表示する。

図２に、地上デジタル放送信号について、テレビ画面上に表示する映像データと字幕情報データの関係を表す概念図を示す。図２において、映像再生中に、例えば字幕番号C₁の字幕文字列を含む字幕情報データを受信した時点のフレーム画像がフレーム画像番号F₁であった後、字幕番号C₂の字幕文字列を含む字幕情報データを受信した時点のフレーム画像がフレーム画像番号F₆であったことを示している。このように、１つの字幕文字列（字幕番号C_i）に対して、複数のフレーム画像（フレーム画像番号F_j）が対応している。地上デジタル放送受信端末は、新たな字幕情報データを受信した時点で、それまで表示していた字幕文字列を消去し、現在受信した字幕文字列を表示する。このことから、字幕情報データと映像データとの関係は、字幕文字列、字幕文字列の表示時刻及び字幕文字列を重畳表示するフレーム画像列を関連付ける、図３に示すようなタイムスケジュール表として表すことができる。なお、地上デジタル放送において、字幕情報データは、最短で2秒間隔で地上デジタル放送信号に挿入される。従って、例えば放送時間が30分の番組の場合、計算上約900回分の字幕情報データを挿入することができる。但し、実際の地上デジタル放送では、30分の番組で、字幕情報データ挿入回数は300から400回程度、字幕文字列の総文字数は4000から6000文字程度である。

まず図１に示すデジタル放送受信システムの構成を説明する。

チューナ部１１は、地上デジタル放送信号の中から１つのチャンネルの放送信号を受信し、復調部１２に出力する。受信チャンネルは、視聴者が選択したチャンネルが番組録画管理部２１経由でチューナ部１１に通知される。復調部１２は、チューナ部１１から受け取った放送信号を復調し、復調信号を分離部１３に出力する。分離部１３は、該復調信号から、映像データ、字幕情報データ及び音声データをそれぞれに分離する。映像データは映像デコード部１４に送られる。字幕情報データは字幕情報デコード部１５に送られる。音声データは音声デコード部１６に送られる。映像デコード部１４は映像データを復号する。字幕情報デコード部１５は字幕情報データを復号する。音声デコード部１６は音声データを復号する。復号後の映像データ、字幕情報データ及び音声データは、番組録画管理部２１に送られる。

なお、これら地上デジタル放送受信機能に係る各部１１〜１６は、従来の地上デジタル放送受信端末と同様である。また、地上デジタル放送受信端末は、映像デコード部１４によって復号された映像データを表示する映像表示部と、字幕情報デコード部１５によって復号された字幕情報データ中の字幕文字列を表示する文字情報表示部と、音声デコード部１６によって復号された音声データを再生する音声再生部と、を備えている。

番組録画管理部２１は、視聴者が選択したチャンネルをチューナ部１１に通知する。番組録画管理部２１は、デコード部１４，１５，１６から受け取った映像データ、字幕情報データ及び音声データを一つの番組コンテンツとしてハードディスク装置（ＨＤＤ）２２に記録する。従って、番組コンテンツは、映像データ、字幕情報データ及び音声データから構成される。

なお、番組コンテンツは、視聴者によって任意に生成することができるようにする。例えば、視聴者がチャンネルを切り替える度に、異なる番組コンテンツとしてハードディスク装置２２に記録してもよい。或いは、視聴者からの指示によって、該指示時点から異なる番組コンテンツとしてハードディスク装置２２に記録してもよい。

コンテンツ読込部２３は、ハードディスク装置２２から番組コンテンツを読み出し、コンテンツ処理部３０に出力する。読み出す番組コンテンツは、視聴者が任意に選択することができるようにする。なお、コンテンツ読込部２３は、読み出した番組コンテンツを図示しないコンテンツ再生部に送って、該番組コンテンツを表示装置上で再生させることができる。

コンテンツ処理部３０は、映像解析部３１と映像処理部３２、字幕情報解析部３３と字幕情報処理部３４、音声解析部３５と音声処理部３６から構成される。
映像解析部３１は番組コンテンツ中の映像データを解析する。映像処理部３２はその映像データ解析結果に基づいて映像データを処理する。映像処理部は、例えば、コンテンツ読込部２３から受け取った映像データ中の全フレーム画像の中から、要約コンテンツ生成に利用する静止画を取捨選択する処理を行う。

字幕情報解析部３３は番組コンテンツ中の字幕情報データを解析する。字幕情報処理部３４はその字幕情報データ解析結果に基づいて字幕情報データを処理する。字幕情報処理部は、例えば、コンテンツ読込部２３から受け取った字幕情報データ中の各字幕文字列に対して、要約コンテンツの各アニメーション切り替え時に表示する文字列を決定する。

音声解析部３５は番組コンテンツ中の音声データを解析する。音声処理部３６はその音声データ解析結果に基づいて音声データを処理する。音声処理部は、例えば、要約コンテンツに音声データを挿入する場合、必要な音声データのみを抽出、編集する処理を行う。一方、要約コンテンツ生成に音声データを挿入しない場合であっても、映像データ中の全フレーム画像に対して要約用静止画を取捨選択する際の判定基準として利用する。例えば、音声認識結果と字幕情報とを照合することによる、映像のシーン切り替えの判定、或いは、音声認識結果から話者を区別することによる、話者ごとの字幕情報の分類、映像データのシーン切り替えの判定などの処理を行う。

要約コンテンツ生成部４０は、コンテンツ処理部３０と連携して要約コンテンツを生成する。要約コンテンツは、一つの番組コンテンツを対象にして生成される。要約コンテンツは、対象番組コンテンツについて、映像データ中の静止画（以下、「要約用静止画」と称する）と、字幕情報データ中の字幕文字列（以下、「要約用文字列」と称する）と、該要約用静止画及び要約用文字列を再生するためのスケジュール情報（以下、「字幕・静止画表示スケジュール情報」と称する）とから構成される。なお、要約コンテンツに音声データを含めるようにしてもよい。音声データを要約コンテンツに含めるか否かは、視聴者によって選択できるようにする。

データベース５０は、要約コンテンツ生成部４０によって作成された要約コンテンツを格納する。

次に、本実施形態に係る要約コンテンツの生成動作を詳細に説明する。
図４は、本実施形態に係る要約コンテンツの生成手順を示すフローチャートである。以下、図４に示される手順（ステップＳ１〜Ｓ８）に従ってステップ毎に動作を説明する。なお、要約コンテンツ生成部４０は、コンテンツ処理部３０と連携して、図４の各ステップの処理を行う。要約コンテンツ生成部４０は、番組コンテンツ中の映像データに係る処理について映像解析部３１及び映像処理部３２と連携する。要約コンテンツ生成部４０は、番組コンテンツ中の字幕情報データに係る処理について字幕情報解析部３３及び字幕情報処理部３４と連携する。また、音声データを要約コンテンツに含める場合には、要約コンテンツ生成部４０は、番組コンテンツ中の音声データに係る処理について音声解析部３５及び音声処理部３６と連携する。

［ステップＳ１：スケジュール情報の初期設定］
要約コンテンツ生成部４０は、字幕・静止画表示スケジュール情報を初期設定する。この初期設定では、まず対象番組コンテンツ中の全ての字幕情報データを対象にして、字幕情報データに含まれる字幕文字列T_n（但し、ｎは字幕文字列の識別番号（１、２、３、・・・）である）を検出する。一つの字幕文字列T_nは、全ての文字が同時に映像に重畳されて表示されるものである。次いで、各字幕文字列T_nに対して、その表示順序に従って字幕番号C_m（但し、ｍ＝１、２、３、・・・）を付与する。次いで、各字幕文字列T_nの表示時刻を、番組コンテンツ再生開始時点からの経過時間によって表す。次いで、それら字幕番号C_m、表示時刻及び字幕文字列T_nの組を字幕・静止画表示スケジュール情報に含める。図５に字幕・静止画表示スケジュール情報１００の構成例を示す。このステップＳ１の段階では、対象番組コンテンツ中の全ての字幕文字列T_nが抽出され、各字幕文字列T_nに対応する字幕番号C_m、表示時刻及び字幕文字列T_nの組のみが字幕・静止画表示スケジュール情報１００に格納される。

［ステップＳ２：字幕文字列の結合判定］
字幕情報データ中の各字幕文字列は、必ずしもそれだけで１つの文章を構成するとは限らない。ここで、文章とは、文末が句点で終わる文字列を指す。放送番組では、場合によっては、登場人物の会話などの映像進行に合わせて、文章が分割され、連続する複数の字幕文字列から１つの文章が構成される。また、映像の進行に対して、字幕情報データの受信間隔は不定である。例えば２秒程度の非常に短い間隔で次の字幕情報データを受信する場合もあれば、１０秒以上経過しても次の字幕情報データを受信しない場合もある。このような知見に基づき、本実施形態では、連続する複数の字幕文字列が結合可能かどうか判定し、結合可能と判定された字幕文字列を結合する。

まず、要約コンテンツ生成部４０は、字幕・静止画表示スケジュール情報１００中の字幕文字列を対象にして、連続する複数の字幕文字列が結合可能かどうか判定する。以下に、連続する２つの字幕文字列（説明の便宜上、字幕文字列A，Bとし、A,Bの順序で連続しているとする）が結合可能かどうか判定するための判定基準を示す。
判定基準１：字幕文字列Aが、句点で終わっていない。
判定基準２：字幕文字列A，Bの合計文字数が、第１の規定文字数N1（例えば30文字）よりも少ない。
判定基準３：字幕文字列Aの表示後、字幕文字列Bを表示するまでの時間が、規定時間TIM1（例えば4.0秒）よりも短い。

要約コンテンツ生成部４０は、図６に示される手順（ステップＳ２１〜Ｓ２４）に従って、字幕文字列の結合判定処理を行う。図６は、本実施形態に係る字幕文字列の結合判定処理の流れを示すフローチャートである。図６において、まず、ステップＳ２１では、字幕・静止画表示スケジュール情報１００の中から、連続する２つの字幕文字列A，Bを抜き出す。ステップＳ２２では、判定基準１により、字幕文字列Aの末尾が句点ではないことを検証する。ステップＳ２３では、判定基準２により、字幕文字列A，Bの合計文字数が第１の規定文字数N1よりも少ないことを検証する。ステップＳ２４では、判定基準３により、字幕文字列A，Bの表示開始時間の差が規定時間TIM1よりも短いことを検証する。これらステップＳ２２，２３，２４の検証が全て合格であり、字幕文字列A，Bが判定基準１，２，３を全て満たす場合に、その連続する２つの字幕文字列A，Bを結合し、１つの字幕文字列として字幕・静止画表示スケジュール情報１００を更新する。

図７に、図５の字幕・静止画表示スケジュール情報１００に対する字幕文字列の結合処理結果の例を示す。図７の例では、図５中の字幕文字列T₁，T₂が結合可能であると判定されたので、字幕番号C₁の組の字幕文字列を字幕文字列T₁，T₂の結合「T₁+T₂」に変更するとともに、字幕番号C₂の組の情報（表示時刻および字幕文字列）を削除する。同様に、図５中の字幕文字列T₆，T₇が結合可能であると判定されたので、字幕番号C₆の組の字幕文字列を字幕文字列T₆，T₇の結合「T₆+T₇」に変更するとともに、字幕番号C₇の組の情報（表示時刻および字幕文字列）を削除する。

なお、上述の例では連続する２つの字幕文字列を結合する場合を挙げたが、連続する３つ以上の字幕文字列を結合対象にして、上記判定基準により結合可能か判定し、結合を行ってもよい。

また、上述の図６の処理フローでは、字幕文字列A，Bが判定基準１，２，３を全て満たす場合にのみ字幕文字列A，Bを結合したが、判定基準１，２，３のいずれか一つ又は複数を満たした場合に字幕文字列A，Bを結合するようにしてもよい。

また、上述の判定基準１，２，３による第１の結合規則の他に、第２の結合規則として、以下の判定基準４を満たす場合に、結合可能と判定するようにしてもよい。
判定基準４：連続する３つの字幕文字列A,B,Cに対して、それら合計文字数が第２の規定文字数N2よりも多く、且つ、字幕文字列A,B,Cの結合「A+B+C」を２つの文字列に分割することにより、分割後の２つの文字列が両方とも第１の規定文字数N1よりも少なくなる。
この第２の結合規則によれば、要約コンテンツ生成部は、連続する３つの字幕文字列を結合してから２つの文字列に分割し、字幕・静止画表示スケジュール情報１００を更新する。図８に、図７の字幕・静止画表示スケジュール情報１００に対する、第２の結合規則による処理結果の例を示す。図８の例では、図７中の字幕文字列T₈、T₉、T₁₀の合計文字数が第２の規定文字数N2よりも多く、該字幕文字列T₈、T₉、T₁₀を結合してから２つの文字列T₈'，T₈”に分割することで、文字列T₈'，T₈”が両方とも第１の規定文字数N1よりも少なくなる。このため、字幕番号C₈の組の字幕文字列を該分割後の文字列T₈'に変更するとともに、字幕番号C₉の組の字幕文字列を該分割後の文字列T₈”に変更し、字幕番号C₁₀の組の情報（表示時刻および字幕文字列）を削除する。
なお、第２の結合規則において、字幕文字列の結合を分割するときの分割位置は、例えば、（１）読点で終わる、（２）単語の中間ではない、（３）全文字列長の中間位置に近い、のいずれかの条件をみたすところに決定する。

要約コンテンツ生成部４０は、字幕・静止画表示スケジュール情報１００中の全ての字幕文字列を対象にして、表示順序に従って先頭の字幕文字列から順次結合判定を行い、結合可能な字幕文字列を結合し、字幕・静止画表示スケジュール情報１００を更新する。

［ステップＳ３：字幕文字列に対する候補画像群の抽出］
要約コンテンツ生成部４０は、字幕・静止画表示スケジュール情報１００中の各字幕文字列に対する要約用静止画の候補となるフレーム画像群（以下、「候補画像群」と称する）を、字幕・静止画表示スケジュール情報１００中の表示時刻に基づいて、対象番組コンテンツ中の映像データから抽出する。

ここで、一般的に、字幕文字列は、映像の進行よりも少し早いタイミングで表示される。但し、生放送番組などでは、字幕文字列の方が映像よりも遅く表示される場合がある。そのため、映像と字幕文字列が内容的に一致していない可能性がある。つまり、映像シーンが切り替わる前であるにも関わらず、字幕文字列は、次の映像シーンの内容を示している場合がある。あるいは、映像シーンが切り替わった後にも関わらず、字幕文字列は、前の映像シーンの内容を示している場合がある。

このような知見に基づき、本実施形態では、各字幕文字列に対する候補画像群として、字幕文字列の表示期間の範囲よりも多く抽出する。つまり、字幕番号C_kの組の表示時刻がt_kであり、次の字幕番号C_k+1の組の表示時刻がt_k+1である場合に、映像データから、表示時刻t_kと表示時刻t_k+1の間に存在するフレーム画像を抽出するとともに、時刻t_k以前のN_ex個のフレーム画像、および、時刻t_k+1以降のN_ex個のフレーム画像も抽出する。但し、N_exは0以上の整数である。図９に、字幕番号C_kについての候補画像群を抽出する概念図を示す。図９において、字幕番号C_k，C_k+1の各表示時刻に対応するのがフレーム画像番号F^k，F^k+1であるとき、字幕番号C_kについての候補画像群は、フレーム画像番号F^k-N_exからF^k+1+N_ex-1である。

要約コンテンツ生成部４０は、上述のようにして、字幕・静止画表示スケジュール情報１００中の各字幕文字列に対する候補画像群を対象番組コンテンツ中の映像データから抽出する。そして、要約コンテンツ生成部４０は、各字幕文字列に対する候補画像群を示すフレーム画像番号列を、それぞれの字幕文字列の組の情報として字幕・静止画表示スケジュール情報１００に格納する。図１０に、各字幕文字列に係る候補画像群を示すフレーム画像番号列を格納した字幕・静止画表示スケジュール情報１００の例を示す。なお、図１０の例は、上記ステップＳ２において、図７の字幕・静止画表示スケジュール情報１００に対し、さらに字幕番号C₈の組の字幕文字列が、字幕文字列T₈，T₉，T₁₀を結合した文字列「T₈+T₉+T₁₀」に変更された場合である。

［ステップＳ４：候補画像群の範囲調整］
要約コンテンツ生成部４０は、字幕・静止画表示スケジュール情報１００中のフレーム画像番号列で示される候補画像群（フレーム画像群）から、字幕文字列に対する要約用静止画として不適当なフレーム画像を削除する。これは、地上デジタル放送において、映像の進行と字幕文字列の表示には、若干のずれがあるため、映像の内容と字幕文字列の内容が一致していない場合があるためである。そのため、候補画像群の中に映像シーンの切り替えが存在する場合には、該候補画像群において映像シーン切り替えの前半部あるいは後半部を削除する。図１１に、候補画像群の範囲調整の概念図を示す。図１１において、字幕番号C_kについての候補画像群に対して、前半部のN_SCフレーム時にシーン切り替えが発生していると判定された場合、候補画像群からその前半部のフレーム画像を削除する。図１２に、図１０の字幕・静止画表示スケジュール情報１００に対する処理結果の例を示す。図１２の例では、図１０中の字幕番号C₈についての候補画像群（フレーム画像番号列「1565-1959」）に対して前半部の２０個のフレーム画像を削除し、図１２に示されるように、字幕番号C₈についての候補画像群をフレーム画像番号列「1585-1959」に変更している。

［ステップＳ５：要約用静止画の選択］
要約コンテンツ生成部４０は、字幕・静止画表示スケジュール情報１００中のフレーム画像番号列で示される候補画像群の中から、要約用静止画を１つ選択する。要約用静止画の選択方法としては、例えば、（１）一番目の画像を選択、（２）真ん中の画像を選択、（３）ランダムに選択、などが挙げられる。

要約コンテンツ生成部４０は、字幕・静止画表示スケジュール情報１００中の各字幕文字列について要約用静止画を選択する。そして、要約コンテンツ生成部４０は、各字幕文字列についての要約用静止画のフレーム画像番号をそれぞれの字幕文字列の組の情報として字幕・静止画表示スケジュール情報１００に格納する。図１３に、図１２の字幕・静止画表示スケジュール情報１００に対する処理結果の例を示す。

［ステップＳ６：要約用静止画の類似度判定］
上記ステップＳ５で選択された要約用静止画に関して、連続する要約用静止画が類似している場合がある。例えば、連続する２つの要約用静止画が、ともに、ニュースキャスターが原稿を読んでいる場面、或いは、同じ場所を撮影している場面など、同じ映像シーンに存在している場合や、同じ被写体を撮影している場合などである。このような知見に基づき、本実施形態では、連続する複数の要約用静止画が類似している場合には、どれか一つの要約用静止画を代表の要約用静止画として採用することで、それら連続する複数の要約用静止画については表示の切替を行わないように、字幕・静止画表示スケジュール情報１００を変更する。

まず要約コンテンツ生成部４０は、字幕・静止画表示スケジュール情報１００中の連続する２つの要約用静止画P，Qが類似しているかどうか判定する。この結果、類似していると判定された場合には、要約コンテンツ生成部４０は、要約用静止画Pから要約用静止画Qへの表示の切替を行わないよう、字幕・静止画表示スケジュール情報１００を変更する。図１４に、図１３の字幕・静止画表示スケジュール情報１００に対する処理結果の例を示す。図１４の例では、図１３中の字幕番号C₃の組の要約用静止画（フレーム画像番号列「1189」）と字幕番号C₄の組の要約用静止画（フレーム画像番号列「1278」）とが類似していたために、図１４に示されるように、字幕番号C₄の組の要約用静止画のフレーム画像番号が削除されている。これにより、字幕番号C₃の組の字幕文字列T₆から字幕番号C₄の組の字幕文字列T₄へと字幕表示が切り替わっても、その字幕文字列と一緒に表示される要約用静止画は字幕番号C₃の組の要約用静止画（フレーム画像番号列「1189」）のまま変更されず、同じ要約用静止画が表示され続けることになる。

なお、上述の例では連続する２つの要約用静止画が類似する場合を挙げたが、連続する３つ以上の要約用静止画が類似している場合についても、同様に、要約用静止画の表示の切替を行わないよう、字幕・静止画表示スケジュール情報１００を変更するようにしてもよい。

［ステップＳ７：表示時間の設定］
上記ステップＳ６までの段階で作成された字幕・静止画表示スケジュール情報１００中の「表示時刻」は、元々の放送番組の時間をもとに付与されている。つまり、元々の放送番組の放送時間が30分であった場合には、その「表示時刻」通りに要約用コンテンツ（字幕文字列及び要約用静止画）を再生すると、要約用コンテンツの再生にかかる時間も30分となってしまう。一方で、視聴者ごとに字幕文字列を読む早さや読解力が異なり、特に、字幕文字列中に難易度の高い単語が含まれている場合には、それが顕著となる。

このような知見に基づき、本実施形態では、要約コンテンツを短時間で再生できるように、さらには視聴者が放送内容を理解しやすくなるように、字幕・静止画表示スケジュール情報１００に対して、字幕文字列及び要約用静止画の再生を開始する「再生時刻」を設定する。「再生時刻」の設定方法のいくつかの例を以下に示す。

＜再生時刻設定方法１＞
要約コンテンツの再生にかけられる時間（再生時間）が指定されている場合に、その再生時間を字幕・静止画表示スケジュール情報１００中の字幕文字列の個数で等分割する。そして、等分割された再生時間に従って、各字幕文字列の再生時刻を字幕・静止画表示スケジュール情報１００に設定する。この方法の場合、各字幕文字列が、テレビ画面上に表示されている時間（表示時間）は同じになる。そして、例えば視聴者が指定した再生時間で、要約コンテンツを再生し終えることができる。

或いは、全ての字幕文字列に対して表示時間が規定値TIM2で一定となるように、各字幕文字列の再生時刻を字幕・静止画表示スケジュール情報１００に設定する。この方法の場合も、各字幕文字列がテレビ画面上に表示されている時間は同じになる。

＜再生時刻設定方法２＞
字幕・静止画表示スケジュール情報１００中の字幕文字列の文字数に応じて、当該字幕文字列がテレビ画面上に表示されている時間（表示時間）を決定する。

（再生時刻設定方法２−１）
再生時刻設定方法２−１では、字幕文字列の文字数が多いほど表示時間を長くするように、各字幕文字列の再生時刻を設定する。図１５に、この場合の処理フローを示す。図１５の処理では、字幕・静止画表示スケジュール情報１００中の全ての字幕文字列に対して、表示時間を算出している。図１５において、ステップＳ４１では、変数iに初期値「１」をセットする。ステップＳ４２では、字幕番号C_iの組の字幕文字列が存在するか調べる。字幕番号C_iの組の字幕文字列が存在する場合にはステップＳ４３に進み、字幕番号C_iの組の字幕文字列が存在しない場合にはステップＳ４５に進む。ステップＳ４３では、字幕番号C_iの組の字幕文字列の文字数CN_iを数える。ステップＳ４４では、字幕番号C_iの組の字幕文字列の表示時間TN_i（単位は秒）を計算する。この計算式は、「TN_i＝2＋(CN_i÷20)」である。ステップＳ４５では、変数iに１を加える。ステップＳ４６では、字幕番号C_iが字幕・静止画表示スケジュール情報１００中に存在するか調べる。字幕番号C_iが字幕・静止画表示スケジュール情報１００中に存在する場合はステップＳ４２に戻る。一方、字幕番号C_iが字幕・静止画表示スケジュール情報１００中に存在せず、全ての字幕番号C_iについての処理が終了した場合には処理を終了する。この図１５の処理によって算出された各字幕文字列の表示時間TN_iに従って、各字幕文字列の再生時刻を字幕・静止画表示スケジュール情報１００に設定する。

（再生時刻設定方法２−２）
再生時刻設定方法２−２では、字幕文字列の文字数に対し閾値を設け、閾値を境にして段階的に表示時間を長くする。
字幕文字列の文字数が規定値N3以下であれば、該字幕文字列の表示時間を規定値TIM3とする。一方、字幕文字列の文字数が規定値N3超過であれば、該字幕文字列の表示時間を規定値TIM4にする。但し、規定値TIM4は規定値TIM3より長い時間である。各規定値は、例えば、N3＝12、TIM3＝2秒、TIM4＝4秒と設定する。そして、各字幕文字列の表示時間に従って、各字幕文字列の再生時刻を字幕・静止画表示スケジュール情報１００に設定する。

上述の再生時刻設定方法２−１，２の場合、全体の再生時間は、全字幕文字列の文字数の総合計によって変動する。そして、文字数に応じて字幕文字列の表示時間が増減されるので、効果的な再生時間の設定が可能であるとともに、視聴者が最後まで字幕を読み終える確度が高くなる。

＜再生時刻設定方法３＞
字幕・静止画表示スケジュール情報１００中の字幕文字列内に、難易度の高い単語が含まれている場合、その難易度に応じて、該字幕文字列がテレビ画面上に表示されている時間（表示時間）を決定する。例えば、難易度の高い単語が含まれていない字幕文字列に対する表示時間は、所定値（例えば、上記再生時刻設定方法１又は再生時刻設定方法２で定めた値）とする。そして、難易度の高い単語が含まれる字幕文字列に対する表示時間は、該所定値を増加させた値（例えば、所定倍率だけ割り増した値、一定値を加算した値など）とする。そして、各字幕文字列の表示時間に従って、各字幕文字列の再生時刻を字幕・静止画表示スケジュール情報１００に設定する。

難易度の高い単語とは、政治、経済、法律、医学など、専門性の高い単語などを指す。その難易度の高い単語をデータベース化しておき、該データベースを参照することで、字幕文字列内に難易度の高い単語が含まれているか否かを判定する。

この再生時刻設定方法３の場合、全体の再生時間は、難易度の高い単語が含まれる字幕文字列の個数によって変動する。そして、難易度の高い単語の有無に応じて字幕文字列の表示時間が増減されるので、効果的な再生時間の設定が可能であるとともに、視聴者が字幕を理解する確度が高くなる。

図１６に、上述の再生時刻設定方法２−２と本再生時刻設定方法３を組み合わせた処理フローを示す。図１６の処理では、字幕・静止画表示スケジュール情報１００中の全ての字幕文字列に対して、まず、字幕文字列の文字数の閾値によって段階的に表示時間を決定する。そして、難易度の高い単語が含まれている字幕文字列に対しては、該決定した表示時間を増加させる。図１６の例では、再生時刻設定方法２−２に関する規定値が、N3＝12、TIM3＝2秒、TIM4＝4秒である。そして、難易度の高い単語として政治用語を用い、政治用語のデータベースを準備する。

図１６において、ステップＳ５１では、変数iに初期値「１」をセットする。ステップＳ５２では、字幕番号C_iの組の字幕文字列が存在するか調べる。字幕番号C_iの組の字幕文字列が存在する場合にはステップＳ５３に進み、字幕番号C_iの組の字幕文字列が存在しない場合にはステップＳ５９に進む。ステップＳ５３では、字幕番号C_iの組の字幕文字列の文字数CN_iを数える。ステップＳ５４では、文字数CN_iが、規定値N3の「12」以下か判定する。文字数CN_iが、規定値N3の「12」以下である場合は、ステップＳ５５に進み、字幕番号C_iの組の字幕文字列の表示時間TN_iを規定値TIM3の「2秒」に決定する。一方、文字数CN_iが、規定値N3の「12」超過である場合は、ステップＳ５６に進み、字幕番号C_iの組の字幕文字列の表示時間TN_iを規定値TIM4の「4秒」に決定する。

次いでステップＳ５７では、字幕番号C_iの組の字幕文字列に政治用語が含まれているか調べる。この調査では、字幕文字列中の文字の全ての組み合わせを対象にして、文字の組合せが政治用語のデータベース内に存在するかを調べる。そして、いずれかの文字の組合せが政治用語のデータベース内に存在した場合に、当該字幕文字列に政治用語が含まれていると判断する。その結果、字幕文字列に政治用語が含まれている場合には、ステップＳ５８に進み、上記ステップＳ５５又はＳ５６で決定した字幕番号C_iの組の字幕文字列の表示時間TN_iに対して1秒を加える。一方、字幕文字列に政治用語が含まれていない場合には、そのままステップＳ５９に進む。

ステップＳ５９では、変数iに１を加える。ステップＳ６０では、字幕番号C_iが字幕・静止画表示スケジュール情報１００中に存在するか調べる。字幕番号C_iが字幕・静止画表示スケジュール情報１００中に存在する場合はステップＳ５２に戻る。一方、字幕番号C_iが字幕・静止画表示スケジュール情報１００中に存在せず、全ての字幕番号C_iについての処理が終了した場合には処理を終了する。この図１６の処理によって算出された各字幕文字列の表示時間TN_iに従って、各字幕文字列の再生時刻を字幕・静止画表示スケジュール情報１００に設定する。

＜再生時刻設定方法４＞
視聴者のプロフィール情報（年齢、性別、職業など）に応じて、字幕文字列がテレビ画面上に表示されている時間（表示時間）を決定する。プロフィール情報の項目、例えば年齢、職業などを検索キーにした、再生時間のデータベースを作成しておき、視聴者のプロフィール情報に対応した表示時間を該データベースから取得する。表示時間のデータベースとしては、例えば、高齢者や子供には表示時間を長くする、などが挙げられる。視聴者のプロフィール情報は、予め記録しておくか、或いは、視聴者から適宜、手入力してもらう。そして、その決定した表示時間に従って、各字幕文字列の再生時刻を字幕・静止画表示スケジュール情報１００に設定する。この方法の場合、全体の再生時間は、視聴者のプロフィールによって変動する。そして、視聴者のプロフィールに応じて字幕文字列の再生時間が増減されるので、効果的な再生時間の設定が可能であるとともに、視聴者が字幕を理解する確度が高くなる。

なお、上述した以外の他の再生時刻設定方法としては、例えば、視聴者の読解能力を推測し、推測結果に応じて表示時間を設定することが考えられる。視聴者の読解能力を推測する方法としては、例えば、要約コンテンツ再生装置が要約コンテンツを自動再生（アニメーション）する際に、ユーザが再生速度を調節する操作（例えば、早送り、巻き戻し、一時停止など）を記録し、その記録内容から所定の基準に従って視聴者の読解能力を判断することが挙げられる。さらに、表示された字幕文字列内の単語の難易度や文字数を考慮して、総合的に視聴者の読解能力を判断するようにしてもよい。

要約コンテンツ生成部４０は、上記再生時刻設定方法１，２，３，４のいずれか、若しくは組合せによって、各字幕文字列の再生時刻を字幕・静止画表示スケジュール情報１００に設定する。図１７に、図１４の字幕・静止画表示スケジュール情報１００に対する処理結果の例を示す。図１７の例は、再生時刻設定方法２−２を用いた場合である。図１７の例では、先頭の字幕番号C₁の組の字幕文字列の再生時刻を初期値「00:00:00」にし、以降の各字幕文字列の再生時刻をそれ以前の各字幕文字列の表示時間の累計によって設定している。そして、字幕番号C₈の組の字幕文字列「T₈+T₉+T₁₀」のみが、規定値N3の12文字を超過しているために、表示時間「4秒（規定値TIM4）」となっている。それ以外の他の字幕番号の組の字幕文字列については文字数が、規定値N3の12文字以下のために表示時間「2秒（規定値TIM3）」となっている。

本ステップＳ７までの段階により、字幕・静止画表示スケジュール情報１００には、要約コンテンツに含める対象として、要約用文字列となる字幕文字列と、要約用静止画と、要約用文字列及び要約用静止画の再生時刻とが設定される。該再生時刻は、要約用文字列の表示を切り替えるタイミング（要約用文字列の表示切替タイミング）、又は、要約用静止画の表示を切り替えるタイミング（要約用静止画の表示切替タイミング）、である。

［ステップＳ８：要約コンテンツのフォーマット変換］
要約コンテンツ生成部４０は、要約コンテンツを再生する再生装置（要約コンテンツ再生装置）のスペックに合わせて、字幕・静止画表示スケジュール情報１００で示される各要約用静止画を対象に画像フォーマットを変換する。例えば、携帯電話機が要約コンテンツ再生装置であり、要約コンテンツを表示する際の解像度が、横240ピクセル、縦80ピクセルである場合には、その解像度に合わせるように要約用静止画を画像処理する。そして、要約コンテンツ生成部４０は、字幕・静止画表示スケジュール情報１００で示される、画像フォーマット変換後の要約用静止画及び要約用文字列と、字幕・静止画表示スケジュール情報１００とを一つの要約コンテンツとして、データベース５０に記録する。

上記ステップＳ１〜Ｓ８によって、一つの番組コンテンツについての要約コンテンツが作成される。要約コンテンツ再生装置は、データベース５０から要約コンテンツを読み出し、要約コンテンツ中の要約用文字列を該当する要約用静止画に重畳させて表示し再生する。この再生の際には、字幕・静止画表示スケジュール情報１００中の再生時刻に従って、要約用文字列及び要約用静止画の表示を切り替える。

なお、上述の実施形態では、要約用静止画、要約用文字列及び字幕・静止画表示スケジュール情報の３つのデータから構成される要約コンテンツを生成したが、それら３つのデータをアニメーション画像フォーマットに変換した１つのコンテンツとして生成してもよい。これにより、要約コンテンツ再生装置のスペックに合わせて、要約コンテンツを生成してもよい。

また、要約用静止画及び要約用文字列を切り替える際のアニメーション方法を要約コンテンツ生成開始時に指定し、字幕・静止画表示スケジュール情報内に記載しておいてもよい。例えば、要約用静止画が切り替わるときには、ズーム、スライドイン、ディゾルブなどの効果的なエフェクトを付けるように、アニメーション方法を指定するようにしてもよい。

また、上述の実施形態では、要約コンテンツを一旦、データベース５０に格納したが、要約コンテンツ生成部４０から要約コンテンツ再生装置へ直接に要約コンテンツを出力し、要約コンテンツ再生装置で要約コンテンツを再生するようにしてもよい。

上述の実施形態によれば、以下に示すような効果が得られる。
（１）地上デジタル放送番組に対して、字幕情報データ内の字幕文字列を順番に切り替えて表示するのに合わせて、映像データから切り出した静止画も表示するアニメーションコンテンツとして、要約コンテンツを生成することにより、視聴者は、該要約コンテンツを再生して、字幕文字列を読みつつ、静止画を確認するだけで、番組の内容を簡単に理解することができるようになる。
（２）地上デジタル放送データに対して、字幕情報データと、映像データから切り出した静止画群を利用して要約コンテンツを生成することにより、該放送データと比較して要約コンテンツのデータサイズを小さくできる。
（３）アニメーション切り替えタイミングを、字幕文字列および静止画の解析結果に基づいて決定することにより、視聴者の可読性が高くなる。
（４）複数の字幕文字列を結合したり、視聴者個人のプロフィールに応じて表示タイミングを変更したりすることにより、視聴者の可読性、理解度が高くなる。
（５）類似する静止画が連続する場合、一方を省略することにより、画像数やアニメーション切り替え回数を削減することができ、要約コンテンツのデータサイズ、再生時間を小さくできる。

なお、本実施形態に係るコンテンツ処理部３０及び要約コンテンツ生成部４０は、専用のハードウェアにより実現されるものであってもよく、あるいはパーソナルコンピュータ等のコンピュータシステムにより構成され、図１に示される各部３０、４０の各機能を実現するためのプログラムを実行することによりその機能を実現させるものであってもよい。

また、図４に示す各ステップを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、要約コンテンツを生成する処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＤＶＤ（Digital Versatile Disk）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Dynamic Random Access Memory））のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
例えば、上述の実施形態では、地上デジタル放送を例に挙げて説明したが、衛星デジタル放送やＩＰ放送などにも適用可能である。

また、図１に係る各部については、例えば、デジタル放送用のセットトップボックス、ＩＰ放送を受信するパーソナルコンピュータなどに実装することができる。

また、上記図４のステップＳ５における要約用静止画の選択方法は、上述の方法以外にも挙げられる。ここで、上記図４のステップＳ５における要約用静止画の他の選択方法として、いくつかの例を挙げて説明する。
ここでは、字幕・静止画表示スケジュール情報１００中のフレーム画像番号列で示される候補画像群の中から、画像の内容に基づいて要約用静止画を１つ選択する方法をいくつかの例（方法Ａ，Ｂ）を挙げて説明する。

[方法Ａ］
要約用静止画として採用する画像の内容は、以下の（ａ）〜（ｅ）いずれかである。
（ａ）人物が映っている画像
（ｂ）人物が正面を向いて映っている画像
（ｃ）人物が正面を向き且つ眼を開けて映っている画像
（ｄ）人物が正面を向き且つ笑って映っている画像
（ｅ）人物が正面を向き且つ泣いて映っている画像
本方法Ａを用いる場合には、図１中の映像解析部３１は、人物検出機能および表情検出機能を備える。人物検出機能は、映像データを解析し、画像内に映っている人物を検出する。さらに、人物検出機能は、検出した人物が正面を向いているか判断する。表情検出機能は、映像データを解析し、人物検出機能によって検出された人物の表情を判定する。なお、要約用静止画として、（ａ）人物が映っている画像、又は、（ｂ）人物が正面を向いて映っている画像を採用する場合には、人物の表情を判定する必要がないので、映像解析部３１は表情検出機能を具備しなくてもよい。

図１８に、人物が正面を向き且つ眼を開けて映っている画像を要約用静止画として採用する場合の処理フローを示す。図１８には、字幕・静止画表示スケジュール情報１００中のある一つの字幕文字列に対応する要約用静止画を選択する処理を示している。図１８の処理では、ある一つの字幕文字列に対応する候補画像群中の全ての候補画像について、人物が正面を向き且つ眼を開けて映っているかを判定している。図１８において、ステップＳ７１では、変数Pに初期値「０」をセットする。ステップＳ７２では、要約用静止画選定対象の字幕文字列に対応する候補画像群の中で、人物が正面を向き且つ眼を開けて映っているかをまだ判定していないものがあるか判断する。この結果、まだ判定していない候補画像がある場合にはステップＳ７３に進み、全ての候補画像を判定済みの場合にはステップＳ７９に進む。ステップＳ７３では、変数Pに１を加える。ステップＳ７４では、候補画像群中のP番目の候補画像をＨＤＤ２２から映像解析部３１に読み込む。

ステップＳ７５では、P番目の候補画像に人物が映っているか判定する。ここでは、映像解析部３１は、読み込んだ候補画像を解析し、該画像から人物を検出する。この結果、人物が検出された場合にはステップＳ７６に進み、人物が検出されなかった場合にはステップＳ７２に戻る。
ステップＳ７６では、P番目の候補画像から検出された人物が正面を向いているか判定する。ここでは、映像解析部３１は、当該候補画像を解析し、検出済みの人物が正面を向いているかを判断する。この結果、人物が正面を向いている場合にはステップＳ７７に進み、人物が正面を向いていない場合にはステップＳ７２に戻る。
ステップＳ７７では、P番目の候補画像から検出された人物が眼を開けているか判定する。ここでは、映像解析部３１は、当該候補画像を解析し、検出済みの正面を向いている人物が眼を開けているかを判断する。この結果、人物が眼を開けている場合にはステップＳ７８に進み、人物が眼を開けていない場合にはステップＳ７２に戻る。
ステップＳ７８では、P番目の候補画像には人物が正面を向き且つ眼を開けて映っているので、当該P番目の候補画像を要約用静止画の候補として記録する。

ステップＳ７９では、要約用静止画の候補が存在するか判断する。この結果、要約用静止画の候補がある場合には、ステップＳ８０に進み、要約用静止画の候補の中から、要約用静止画を一つ選択する。このときは任意の候補を選択すればよい。一方、要約用静止画の候補がない場合には、ステップＳ８１に進み、候補画像群中の先頭の候補画像を要約用静止画とする。

[方法Ｂ］
要約用静止画として採用する画像の内容は、以下の（ｆ），（ｇ）いずれかである。
（ｆ）テロップデータが挿入されている画像。テロップデータは、地上デジタル放送信号中の映像データに含まれている。テロップデータは、所定のデータ形式を有しており、映像データから検出できるようになっている。テロップデータは、映像データが表示されるテレビ画面上に挿入される文字列のデータである。なお、テロップデータは、テレビ画面上に表示される文字列を含むが、本発明に係る字幕情報データとは別のものであり、本発明に係る字幕文字列とは異なる。
（ｇ）アンカーショットが映っている画像。アンカーショットとは、ニュース番組においてメインのニュースキャスタが現れる映像区間である。

要約用静止画として、（ｆ）テロップデータが挿入されている画像を採用する場合には、図１中の映像解析部３１はテロップ検出機能を備える。テロップ検出機能は、映像データを解析し、画像中にテロップデータが挿入されているかを検出する。
要約用静止画として、（ｇ）アンカーショットが映っている画像を採用する場合には、図１中の映像解析部３１は、アンカーショット検出機能を備える。アンカーショット検出機能は、映像データを解析し、画像にアンカーショットが映っているかを判定する。

図１９に、テロップデータが挿入されている画像又はアンカーショットが映っている画像を要約用静止画として採用する場合の処理フローを示す。この場合には、映像解析部３１は、テロップ検出機能とアンカーショット検出機能の両方を備える。図１９には、字幕・静止画表示スケジュール情報１００中のある一つの字幕文字列に対応する要約用静止画を選択する処理を示している。図１９の処理では、ある一つの字幕文字列に対応する候補画像群中の全ての候補画像について、テロップデータが挿入されているか、又は、アンカーショットが映っているかを判定している。図１９において、ステップＳ９１では、変数Pに初期値「０」をセットする。ステップＳ９２では、要約用静止画選定対象の字幕文字列に対応する候補画像群の中で、テロップデータが挿入されているか、又は、アンカーショットが映っているかをまだ判定していないものがあるか判断する。この結果、まだ判定していない候補画像がある場合にはステップＳ９３に進み、全ての候補画像を判定済みの場合にはステップＳ９８に進む。ステップＳ９３では、変数Pに１を加える。ステップＳ９４では、候補画像群中のP番目の候補画像をＨＤＤ２２から映像解析部３１に読み込む。

ステップＳ９５では、P番目の候補画像にテロップデータが挿入されているか判定する。ここでは、映像解析部３１は、読み込んだ候補画像を解析し、該画像中にテロップデータが挿入されているかを検出する。この結果、テロップデータが検出された場合にはステップＳ９６に進み、当該P番目の候補画像を要約用静止画の候補として記録する。その後、ステップＳ９２に戻る。一方、テロップデータが検出されなかった場合にはステップＳ９７に進む。
ステップＳ９７では、P番目の候補画像にアンカーショットが映っているか判定する。ここでは、映像解析部３１は、読み込んだ候補画像を解析し、該画像にアンカーショットが映っているかを判定する。この結果、アンカーショットが映っている場合にはステップＳ９６に進み、当該P番目の候補画像を要約用静止画の候補として記録する。その後、ステップＳ９２に戻る。一方、アンカーショットが検出されなかった場合にはそのままステップＳ９２に戻る。

ステップＳ９８では、要約用静止画の候補が存在するか判断する。この結果、要約用静止画の候補がある場合には、ステップＳ９９に進み、要約用静止画の候補の中から、要約用静止画を一つ選択する。このときは任意の候補を選択すればよい。一方、要約用静止画の候補がない場合には、ステップＳ１００に進み、候補画像群中の先頭の候補画像を要約用静止画とする。

本発明の一実施形態に係るデジタル放送受信システムの全体構成を示すブロック図である。地上デジタル放送信号について、テレビ画面上に表示する映像データと字幕情報データの関係を表す概念図である。地上デジタル放送信号に係るタイムスケジュール表の例である。本発明の一実施形態に係る要約コンテンツの生成手順を示すフローチャートである。本発明の一実施形態に係る字幕・静止画表示スケジュール情報１００の構成例である。本発明の一実施形態に係る字幕文字列の結合判定処理の流れを示すフローチャートである。本発明の一実施形態に係る字幕・静止画表示スケジュール情報１００の構成例である。本発明の一実施形態に係る字幕・静止画表示スケジュール情報１００の構成例である。本発明の一実施形態に係る候補画像群を抽出する概念図である。本発明の一実施形態に係る字幕・静止画表示スケジュール情報１００の構成例である。本発明の一実施形態に係る候補画像群の範囲調整の概念図である。本発明の一実施形態に係る字幕・静止画表示スケジュール情報１００の構成例である。本発明の一実施形態に係る字幕・静止画表示スケジュール情報１００の構成例である。本発明の一実施形態に係る字幕・静止画表示スケジュール情報１００の構成例である。本発明の一実施形態に係る再生時刻設定方法の一例の処理フロー図である。本発明の一実施形態に係る再生時刻設定方法の他の例の処理フロー図である。本発明の一実施形態に係る字幕・静止画表示スケジュール情報１００の構成例である。本発明の一実施形態に係る要約用静止画選択方法の一例の処理フロー図である。本発明の一実施形態に係る要約用静止画選択方法の他の例の処理フロー図である。

符号の説明

１１…チューナ部、１２…復調部、１３…分離部、１４…映像デコード部、１５…字幕情報デコード部、１６…音声デコード部、２１…番組録画管理部、２２…ハードディスク装置（ＨＤＤ）、２３…コンテンツ読込部、３０…コンテンツ処理部、３１…映像解析部、３２…映像処理部、３３…字幕情報解析部、３４…字幕情報処理部、３５…音声解析部、３６…音声処理部、４０…要約コンテンツ生成部、５０…データベース、１００…字幕・静止画表示スケジュール情報

Claims

映像データと字幕情報データを有するデジタル放送信号を用いて放送番組の要約コンテンツを生成する要約コンテンツ生成装置において、
前記デジタル放送信号に含まれる字幕情報データから、字幕文字列を抽出する字幕文字列抽出手段と、
前記デジタル放送信号に含まれる映像データから、前記字幕文字列に対応する静止画を一つ抽出する静止画抽出手段と、
前記抽出された字幕文字列を前記抽出された対応する静止画とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成手段と、を備え、
前記要約コンテンツ生成手段は、前記要約コンテンツを構成する複数の字幕文字列及び静止画についての表示切替タイミングを、該字幕文字列に基づいて決定し、
前記要約コンテンツ生成手段は、連続する複数の字幕文字列が結合可能か判定し、結合可能と判定された複数の字幕文字列を結合し、結合した字幕文字列を一つの静止画に対応付けるものであり、
連続する３つ以上の字幕文字列が結合可能かの判定基準は、字幕文字列A次いで字幕文字列B次いで字幕文字列Cの順序で連続する３つの字幕文字列A，B，Cに対し、
判定基準４：字幕文字列A,B,Cの合計文字数が第２の規定文字数よりも多く、且つ、字幕文字列A,B,Cの結合「A+B+C」を２つの文字列に分割することにより、分割後の２つの文字列が両方とも第１の規定文字数よりも少なくなる、
を含む、
ことを特徴とする要約コンテンツ生成装置。
前記判定基準４を満たす３つの字幕文字列の結合を分割するときの分割位置は、読点で終わる、単語の中間ではない、又は、全文字列長の中間位置に近い、のいずれかの条件をみたすところに決定する、
ことを特徴とする請求項１に記載の要約コンテンツ生成装置。
映像データと字幕情報データを有するデジタル放送信号を用いて放送番組の要約コンテンツを生成するためのコンピュータプログラムであって、
前記デジタル放送信号に含まれる字幕情報データから、字幕文字列を抽出する字幕文字列抽出機能と、
前記デジタル放送信号に含まれる映像データから、前記字幕文字列に対応する静止画を一つ抽出する静止画抽出機能と、
前記抽出された字幕文字列を前記抽出された対応する静止画とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成機能と、をコンピュータに実現させるものであり、
前記要約コンテンツ生成機能は、前記要約コンテンツを構成する複数の字幕文字列及び静止画についての表示切替タイミングを、該字幕文字列に基づいて決定し、
前記要約コンテンツ生成機能は、連続する複数の字幕文字列が結合可能か判定し、結合可能と判定された複数の字幕文字列を結合し、結合した字幕文字列を一つの静止画に対応付けるものであり、
連続する３つ以上の字幕文字列が結合可能かの判定基準は、字幕文字列A次いで字幕文字列B次いで字幕文字列Cの順序で連続する３つの字幕文字列A，B，Cに対し、
判定基準４：字幕文字列A,B,Cの合計文字数が第２の規定文字数よりも多く、且つ、字幕文字列A,B,Cの結合「A+B+C」を２つの文字列に分割することにより、分割後の２つの文字列が両方とも第１の規定文字数よりも少なくなる、
を含む、
ことを特徴とするコンピュータプログラム。
前記判定基準４を満たす３つの字幕文字列の結合を分割するときの分割位置は、読点で終わる、単語の中間ではない、又は、全文字列長の中間位置に近い、のいずれかの条件をみたすところに決定する、
ことを特徴とする請求項３に記載のコンピュータプログラム。