JP2010081323A

JP2010081323A - 要約コンテンツ生成装置およびコンピュータプログラム

Info

Publication number: JP2010081323A
Application number: JP2008247749A
Authority: JP
Inventors: Kazunori Matsumoto; 一則松本; Yasuhiro Takishima; 康弘滝嶋; Yasuyuki Nakajima; 康之中島
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2008-09-26
Filing date: 2008-09-26
Publication date: 2010-04-08
Anticipated expiration: 2028-09-26
Also published as: JP5042182B2

Abstract

【課題】デジタル放送番組の要約コンテンツとしてアニメーション画像を生成する際の画像処理にかかる演算量の削減を図る。
【解決手段】ＭＰＥＧ規格の画像符号化データを含む映像データと字幕情報データを有するデジタルコンテンツを用いて該コンテンツの要約コンテンツを生成する要約コンテンツ生成装置において、画像符号化データの内からＩピクチャのみ画像符号化データを復号する映像デコード部１４と、字幕情報データから字幕文字列を取得するコンテンツ処理部３０と、取得された字幕文字列を該字幕文字列に対応する復号画像とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成部４０と、を備える。
【選択図】図１

Description

本発明は、地上デジタル放送等のデジタル放送における放送番組の要約コンテンツを生成する要約コンテンツ生成装置およびコンピュータプログラムに関する。

地上デジタル放送サービスでは、映像に加えて、字幕情報（クローズドキャプション）も同時に配信される。字幕情報は、例えば耳の不自由な人でも放送を楽しむことができるように、テレビ映像の上に、番組内の会話やセリフを重畳するための情報である。地上デジタル放送受信端末は、受信する地上デジタル放送データ内の映像データおよび音声データを再生しつつ、放送データ内の字幕情報データを受信したとき、再生中の映像データに字幕情報データを重畳して表示する。地上デジタル放送受信端末としては、家庭用のテレビ受像機だけでなく、パーソナルコンピュータや携帯電話端末を利用したものも存在する。特に、携帯電話向け地上デジタル放送サービスは「ワンセグ」と呼ばれている。そのワンセグにおいては、字幕情報は常に表示され、電車などの公共の場でも音声を聞かずに視聴できる。これらの仕様は、ARIB（社団法人電波産業会）の標準規格で定められている。

また、地上デジタル放送受信端末の中には、受信した放送データをハードディスク装置などの記憶領域に保存する機能を備えるものがあり、これにより視聴者は、その保存された放送データを再生することで、いつでも放送番組を視聴することができる。今後、記憶領域の大容量化と低価格化に伴い、複数の放送チャンネルに関して、１週間あるいはそれ以上の期間に放送された番組をすべて保存することができるようになると予想される。

しかし、視聴者の多くは、生活時間の制限により、記憶領域に蓄積された放送番組の中から、一部の放送番組しか視聴しないことが考えられる。さらに、１つの放送番組に対して、最初から最後まで再生してじっくり視聴する場合もあれば、放送番組の概要だけを確認する場合もある。概要だけを確認する際には、例えば、早送り再生しながら、見たいシーンのところだけを通常再生する方法があるが、眼を凝らしながら、早送り再生されるテレビ画面を見て操作する必要があり、時間がかかり、煩雑である。

そこで、１つの放送番組に対して、短時間で番組内容を簡単に理解させるための技術に対する期待が高まっている。番組内容を理解させる方法として、元々の映像データから、部分的に映像データを抽出して連結した要約映像コンテンツを生成する方法、あるいは、元々の映像データから、静止画を抽出してアニメーション画像を生成する方法などがある。

特許文献１には、番組内容を要約したアニメーション画像を生成する方法が提案されている。この特許文献１記載の従来技術では、映像の中から画像と字幕情報を抽出し、切り出した画像に対して輪郭だけを抽出する画像処理を施し、それらを合成した画像群を連続的に切り替えるアニメーション画像として、要約コンテンツを生成している。
特開２００７−００６３０８号公報

しかし、上述した特許文献１記載の従来技術では、特許文献１の図５に示される画面ｂのような線描画のアニメーション画像であるために、元の放送番組の画像とは程遠く、元の放送番組の内容を実感することは期待できない。このため、アニメーション画像を構成する静止画像は、視聴者が元の放送番組の内容を実感し易いように、できる限り元の画像のままであることが好ましい。

一方、地上デジタル放送データ中の画像は符号化されているので、アニメーション画像を作成する際には符号化画像を復号しなければならず、高い画像処理能力が要求される。このため、ケーブルテレビネットワークシステム等のセットトップボックス（Set Top Box）や携帯電話端末など、低コストが要求されるために高性能の画像処理装置を具備し難い受信端末では、アニメーション画像作成処理の負担が大きい。

本発明は、このような事情を考慮してなされたもので、その目的は、デジタル放送番組の要約コンテンツとしてアニメーション画像を生成する際の画像処理にかかる演算量を削減することのできる要約コンテンツ生成装置およびコンピュータプログラムを提供することにある。

上記の課題を解決するために、本発明に係る要約コンテンツ生成装置は、ＭＰＥＧ規格の画像符号化データを含む映像データと字幕情報データを有するデジタルコンテンツを用いて該コンテンツの要約コンテンツを生成する要約コンテンツ生成装置において、前記画像符号化データの内からＩピクチャのみ画像符号化データを復号する映像デコード手段と、前記字幕情報データから字幕文字列を取得する字幕文字列取得手段と、前記取得された字幕文字列を該字幕文字列に対応する前記復号画像とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成手段と、を備えたことを特徴とする。

本発明に係る要約コンテンツ生成装置は、ＭＰＥＧ規格の画像符号化データを含む映像データと字幕情報データを有するデジタルコンテンツを用いて該コンテンツの要約コンテンツを生成する要約コンテンツ生成装置において、前記画像符号化データの内からＩピクチャとＰピクチャのみ画像符号化データを復号する映像デコード手段と、前記字幕情報データから字幕文字列を取得する字幕文字列取得手段と、前記取得された字幕文字列を該字幕文字列に対応する前記復号画像とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成手段と、を備えたことを特徴とする。

本発明に係る要約コンテンツ生成装置においては、前記映像デコード手段は、字幕文字列に対応する前記ピクチャのみを復号することを特徴とする。

本発明に係る要約コンテンツ生成装置においては、前記映像デコード手段は、類似する前記ピクチャの内から代表の前記ピクチャのみを復号することを特徴とする。

本発明に係る要約コンテンツ生成装置においては、Ｉピクチャの画像符号化データから縮小画像を生成する縮小画像生成手段と、前記縮小画像間の類似度を判定する類似度判定手段と、を備えたことを特徴とする。

本発明に係る要約コンテンツ生成装置においては、前記取得された字幕文字列の内から連結可能な複数の字幕文字列を判定し連結する字幕文字列連結手段を備えたことを特徴とする。

本発明に係る要約コンテンツ生成装置においては、複数の前記復号画像間でオーバレイ領域を検出するオーバレイ領域検出手段を備え、前記要約コンテンツ生成手段は、前記オーバレイ領域が不一致の前記復号画像を使用することを特徴とする。

本発明に係る要約コンテンツ生成装置によれば、ＭＰＥＧ規格の画像符号化データの内からＩピクチャのみ若しくはＩピクチャとＰピクチャのみ復号され、要約コンテンツに使用される。これにより、ＭＰＥＧ規格の画像符号化データの復号にかかる演算量が削減される。
又、字幕文字列に対応する前記ピクチャのみが復号されることにより、余計な復号が行われないので、更なる演算量の削減が可能となる。
又、類似する前記ピクチャの内から代表の前記ピクチャのみが復号されることにより、冗長な前記ピクチャの復号が行われないので、更なる演算量の削減が可能となる。
又、類似度判定用の縮小画像を生成することにより、実際に要約コンテンツに使用される前記ピクチャのみをフルデコードすればよいので、更なる演算量の削減が可能となる。
又、連結可能な複数の字幕文字列を判定し連結することにより、まとめた字幕文字列に対応する代表の前記ピクチャのみ復号すればよいので、更なる演算量の削減が可能となる。
又、オーバレイ領域が不一致の復号画像を要約コンテンツに使用することにより、同じ映像シーンに属する復号画像が排除され、効率的な要約コンテンツが生成可能となる。

本発明に係るコンピュータプログラムは、ＭＰＥＧ規格の画像符号化データを含む映像データと字幕情報データを有するデジタルコンテンツを用いて該コンテンツの要約コンテンツを生成するためのコンピュータプログラムであって、前記画像符号化データの内からＩピクチャのみ画像符号化データを復号する映像デコード機能と、前記字幕情報データから字幕文字列を取得する字幕文字列取得機能と、前記取得された字幕文字列を該字幕文字列に対応する前記復号画像とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成機能と、をコンピュータに実現させることを特徴とする。
これにより、前述の要約コンテンツ生成装置がコンピュータを利用して実現できるようになる。

本発明に係るコンピュータプログラムは、ＭＰＥＧ規格の画像符号化データを含む映像データと字幕情報データを有するデジタルコンテンツを用いて該コンテンツの要約コンテンツを生成するためのコンピュータプログラムであって、前記画像符号化データの内からＩピクチャとＰピクチャのみ画像符号化データを復号する映像デコード機能と、前記字幕情報データから字幕文字列を取得する字幕文字列取得機能と、前記取得された字幕文字列を該字幕文字列に対応する前記復号画像とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成機能と、をコンピュータに実現させることを特徴とする。
これにより、前述の要約コンテンツ生成装置がコンピュータを利用して実現できるようになる。

本発明によれば、デジタル放送番組の要約コンテンツとしてアニメーション画像を生成する際の画像処理にかかる演算量を削減することができるという効果が得られる。

以下、図面を参照し、本発明の一実施形態について説明する。

本発明は、一般的な動画像符号化規格として知られている「ＭＰＥＧ規格」などで共通的に利用されている両方向のフレーム間予測方式を前提としている。このフレーム間予測方式では、Ｉピクチャ、Ｂピクチャ及びＰピクチャが用いられる。Ｉピクチャはフレーム内の情報のみによって符号化されるものであり、Ｉピクチャの符号化にはフレーム間の差分情報は使用されない。従って、Ｉピクチャのデコード（復号）は、自己の符号化データのみを使用して行うことができる。一方、Ｂピクチャ及びＰピクチャの符号化にはフレーム間の差分情報が使用される。
又、そのフレーム間予測方式を利用した最新の規格としてＨ．２６４規格が知られている。従って、本発明はＨ．２６４規格についても適用可能である。
本発明においては、Ｈ．２６４規格を含め、同様にＩピクチャ、Ｂピクチャ及びＰピクチャを用いる動画像符号化規格を総称して「ＭＰＥＧ規格」と称する。

図１は、本発明の一実施形態に係る要約コンテンツ生成装置の全体構成を示すブロック図である。図１において、要約コンテンツ生成装置には、アンテナ等を介して受信したデジタル放送信号が入力される。デジタル放送としては、例えば、地上デジタル放送、衛星デジタル放送及びワンセグ放送などの放送波を利用したもの、ＩＰ（Internet Protocol）放送と呼ばれるインターネット（ＩＰ通信網）を利用したもの、ケーブルテレビネットワークシステム、などが挙げられる。

図１の要約コンテンツ生成装置は、単独の装置であってもよく、或いは、地上デジタル放送や衛星デジタル放送の受信装置、携帯電話端末等のワンセグ放送の受信装置、ケーブルテレビネットワークシステムやＩＰ放送のセットトップボックスなどの他の装置に具備されてもよい。

本実施形態では、以下、地上デジタル放送を例に挙げて説明する。

地上デジタル放送信号は、映像データ、音声データ及び字幕情報データを有する。映像データは、ＭＰＥＧ規格の画像符号化データ（以下、ＭＰＥＧ画像と称する）を有する。字幕情報データは、テレビ画面上に表示する字幕文字列を有する。地上デジタル放送信号中において、字幕情報データは、自己が有する字幕文字列を一緒に表示する映像データの再生タイミングに合わせた位置に配置されている。従って、地上デジタル放送受信端末は、受信した地上デジタル放送信号によって、映像データ及び音声データを再生しながら、字幕情報データを受信した時点で、該字幕情報データ中の字幕文字列を映像に重畳させて表示する。

図２に、地上デジタル放送信号について、テレビ画面上に表示する映像データと字幕情報データの関係を表す概念図を示す。図２において、映像再生中に、例えば字幕番号C₁の字幕文字列を含む字幕情報データを受信した時点のフレーム画像がフレーム画像番号F₁であった後、字幕番号C₂の字幕文字列を含む字幕情報データを受信した時点のフレーム画像がフレーム画像番号F₆であったことを示している。このように、１つの字幕文字列（字幕番号C_i）に対して、複数のフレーム画像（フレーム画像番号F_j）が対応している。地上デジタル放送受信端末は、新たな字幕情報データを受信した時点で、それまで表示していた字幕文字列を消去し、現在受信した字幕文字列を表示する。このことから、字幕情報データと映像データとの関係は、字幕文字列、字幕文字列の表示時刻及び字幕文字列を重畳表示するフレーム画像列を関連付ける、図３に示すようなタイムスケジュール表として表すことができる。なお、地上デジタル放送において、字幕情報データは、最短で2秒間隔で地上デジタル放送信号に挿入される。従って、例えば放送時間が30分の番組の場合、計算上約900回分の字幕情報データを挿入することができる。但し、実際の地上デジタル放送では、30分の番組で、字幕情報データ挿入回数は300から400回程度、字幕文字列の総文字数は4000から6000文字程度である。

まず図１に示す要約コンテンツ生成装置の構成を説明する。

チューナ部１１は、地上デジタル放送信号の中から１つのチャンネルの放送信号を受信し、復調部１２に出力する。受信チャンネルは、視聴者が選択したチャンネルである。復調部１２は、チューナ部１１から受け取った放送信号を復調し、復調信号を分離部１３に出力する。分離部１３は、該復調信号から、映像データ、字幕情報データ及び音声データをそれぞれに分離する。映像データは映像デコード部１４に送られる。字幕情報データは字幕情報デコード部１５に送られる。音声データは音声デコード部１６に送られる。映像デコード部１４は映像データ（ＭＰＥＧ画像）を復号する。映像デコード部１４はコンテンツ処理部３０と連携して動作する。字幕情報デコード部１５は字幕情報データを復号する。音声デコード部１６は音声データを復号する。復号後の映像データ、字幕情報データ及び音声データは、コンテンツ処理部３０に送られる。

コンテンツ処理部３０は、映像解析部３１と映像処理部３２、字幕情報解析部３３と字幕情報処理部３４、音声解析部３５と音声処理部３６から構成される。これら各部３１〜３６はバスで接続されており、相互にデータを送受することができる。
映像解析部３１は映像データを解析する。映像処理部３２は映像データ解析結果に基づいて映像データを処理する。映像処理部３２は、例えば、要約コンテンツ生成に利用する静止画像を取捨選択する処理などを行う。

字幕情報解析部３３は字幕情報データを解析する。字幕情報処理部３４は字幕情報データ解析結果に基づいて字幕情報データを処理する。字幕情報処理部は、例えば、字幕情報データ中の各字幕文字列に対して要約コンテンツの各アニメーション切り替え時に表示する文字列を決定する処理などを行う。

音声解析部３５は音声データを解析する。音声処理部３６は音声データ解析結果に基づいて音声データを処理する。音声処理部は、例えば、要約コンテンツに音声データを挿入する場合、必要な音声データのみを抽出、編集する処理などを行う。一方、要約コンテンツ生成に音声データを挿入しない場合であっても、要約用静止画を取捨選択する際の判定基準として利用する。例えば、音声認識結果と字幕情報とを照合することによる、映像のシーン切り替えの判定、或いは、音声認識結果から話者を区別することによる、話者ごとの字幕情報の分類、映像データのシーン切り替えの判定などの処理を行う。

要約コンテンツ生成部４０は、コンテンツ処理部３０と連携して要約コンテンツを生成する。要約コンテンツは、一つの番組コンテンツを対象にして、その番組の要約として生成されるものである。要約コンテンツは、複数の静止画が連続的に再生されるアニメーション画像として構成される。要約コンテンツは、対象番組コンテンツについて、映像データ中の静止画（以下、「要約用静止画」と称する）と、字幕情報データ中の字幕文字列（以下、「要約用文字列」と称する）と、該要約用静止画及び要約用文字列を連続的に再生するためのスケジュール情報（以下、「字幕・静止画表示スケジュール情報」と称する）とから構成される。なお、要約コンテンツに音声データを含めるようにしてもよい。音声データを要約コンテンツに含めるか否かは、視聴者によって選択できるようにする。

データベース５０は、要約コンテンツ生成部４０によって作成された要約コンテンツを格納する。

次に、本実施形態に係る要約コンテンツの生成動作を詳細に説明する。
図４，図５，図６は、本実施形態に係る要約コンテンツの生成手順を示すフローチャートである。以下、図４，図５，図６を参照して、図１の要約コンテンツ生成装置の動作を説明する。

まず、ステップＳ１では、映像デコード部１４が、ＭＰＥＧ画像のデコードに必要な量の映像データを分離部１３から受け取ってバッファに格納する。ステップＳ２では、映像デコード部１４が、該映像データ内のヘッダ情報を解析し、該映像データ内のＭＰＥＧ画像の種類を判別する。この結果、Ｉピクチャである場合はステップＳ４に進む（ステップＳ３、ＹＥＳ）。一方、Ｉピクチャではない場合（つまり、Ｂピクチャ又はＰピクチャである場合）はステップＳ１に戻り（ステップＳ３、ＮＯ）、映像デコード部１４は次の映像データを分離部１３から受け取る。

ステップＳ４では、コンテンツ処理部３０が、字幕情報デコード部１５から受け取った字幕情報データ内に字幕文字列があるか否かを判断する。ステップＳ４の処理は字幕情報解析部３３と字幕情報処理部３４が連携して行う。この結果、字幕文字列がある場合はステップＳ５に進み、字幕文字列がない場合はステップＳ１に戻る。このステップＳ４の処理は上記ステップＳ１，Ｓ２，Ｓ３の処理と同期している。つまり、ステップＳ４で発見された字幕文字列は、ステップＳ１，Ｓ２，Ｓ３で発見されたＩピクチャに対応したものである。

ステップＳ５では、コンテンツ処理部３０が字幕文字列の連結処理を行う。この字幕文字列連結処理は、連続する複数の字幕文字列が連結可能かどうか判定し、連結可能な場合は該連続する複数の字幕文字列を連結する。ステップＳ５の処理は字幕情報解析部３３と字幕情報処理部３４が連携して行う。字幕文字列連結処理の詳細は後述する。

ステップＳ６では、コンテンツ処理部３０が、連結処理後の字幕文字列（連結字幕文字列）をメモリに保存する。ステップＳ７では、コンテンツ処理部３０が、連結字幕文字列の長さを基準値と比較し、基準値以上であるか判定する。ステップＳ７の処理は字幕情報解析部３３と字幕情報処理部３４が連携して行う。この結果、連結字幕文字列の長さが基準値以上である場合は図５のステップＳ８に進み、基準値に満たない場合はステップＳ１に戻る。

ステップＳ７の結果、連結字幕文字列の長さが基準値以上である場合には、図５のステップＳ８において、コンテンツ処理部３０が映像デコード部１４に縮小画像生成を指示し、映像デコード部１４がＩピクチャのＭＰＥＧ画像からＤＣ成分を利用して縮小画像を生成する。この縮小画像の生成方法については、「“部分復号を用いたＭＰＥＧデータからのカット点検出”，電子情報通信学会論文誌，D-II，情報・システム，II-情報処理 Vol．J81-D-2，No．7(19980725)，pp．1564-1575」に開示されている。この非特許文献に開示されている縮小画像（ＤＣ画像）生成方法によれば、縮小画像を画像符号化データから効率よく計算することができる。縮小画像は、Ｉピクチャのサイズを縮小した画像であるが、ＩピクチャのＭＰＥＧ画像をフルデコードする場合よりも少ない演算量で生成することができる。映像デコード部１４は、作成した縮小画像をコンテンツ処理部３０へ送る。

ステップＳ９では、コンテンツ処理部３０が、映像デコード部１４から受け取った縮小画像と前回保存した縮小画像との類似度を算出する。ステップＳ９の処理は映像解析部３１と映像処理部３２が連携して行う。この結果、類似度が基準値以下である場合（両者が似ていない場合）はステップＳ１１に進み（ステップＳ１０、ＹＥＳ）、基準値超過である場合（両者が似ている場合）は図４のステップＳ１に戻る（ステップＳ１０、ＮＯ）。ステップＳ１１では、コンテンツ処理部３０が、今回生成した縮小画像を次回の類似度算出用にメモリに保存する。

なお、上記類似度判定は、連続するＩピクチャが類似している場合に冗長なＩピクチャを排除し、要約用静止画として効果的なＩピクチャを採用するための処理である。例えば、連続するＩピクチャが、ともに、ニュースキャスターが原稿を読んでいる場面、或いは、同じ場所を撮影している場面など、同じ映像シーンに存在している場合や、同じ被写体を撮影している場合などである。このように、連続する複数のＩピクチャが類似している場合には、どれか一つのＩピクチャを代表の要約用静止画として採用する。これにより、要約コンテンツに含める要約用静止画から冗長なものをなくし、無駄のない要約コンテンツを構成することができる。

ステップＳ１２では、コンテンツ処理部３０が映像デコード部１４にＩピクチャのフルデコードを指示し、映像デコード部１４がＩピクチャのＭＰＥＧ画像をフルデコードする。映像デコード部１４は、フルデコードしたＩピクチャ画像をコンテンツ処理部３０へ送る。

ステップＳ１３では、映像デコード部１４から受け取ったＩピクチャのフルデコード画像を整形する。ここでは、クリッピング処理、リサイズ処理などを行い、所定の画像形式に整える。ステップＳ１３の処理は映像解析部３１と映像処理部３２が連携して行う。ステップＳ１４では、コンテンツ処理部３０が、整形後の画像（整形画像）をメモリに保存する。

次いで、図６のステップＳ１５では、コンテンツ処理部３０が、複数（ｎ個）の整形画像間でオーバレイ領域を検出する処理を行う。オーバレイ領域とは、画像中に組み込まれたテキスト（例えば、画像に映っている人、場所の名前、地名など）が表示される領域である。ステップＳ１５の処理は映像解析部３１と映像処理部３２が連携して行う。

ステップＳ１６では、コンテンツ処理部３０が、今回検出されたオーバレイ領域と前回検出されたオーバレイ領域とを比較する。ステップＳ１６の処理は映像解析部３１と映像処理部３２が連携して行う。この結果、両者が全て一致する場合は図４のステップＳ１に戻る。これは、前回の整形画像群と今回の整形画像群とでオーバレイ領域が全て一致する場合、両方の整形画像群が同じシーンに属すると見られるからである。一方、前回の整形画像群と今回の整形画像群とでオーバレイ領域が全ては一致しない場合はステップＳ１８に進む。なお、今回検出されたオーバレイ領域は、次回のオーバレイ領域比較用にメモリに保存しておく。

ステップＳ１８では、コンテンツ処理部３０が、メモリ内の整形画像を要約コンテンツ生成部４０に出力する。要約コンテンツ生成部４０は、その整形画像を要約用静止画として利用する。この整形画像は、要約コンテンツ用に整形されているが、Ｉピクチャのフルデコード画像であるので、元の放送番組の画像と同様の情報量を有する。従って、本実施形態によれば、アニメーション画像を構成する静止画像（要約用静止画）は、元の放送番組の画像と同等の品質であり、元の放送番組の内容を実感することが期待できるものとなる。

ステップＳ１９では、要約コンテンツ生成処理の終了を判断し、終了であれば要約コンテンツ生成処理を終了する。例えば、番組終了の場合に要約コンテンツ生成処理の終了と判断する。一方、要約コンテンツ生成処理の継続であれば図４のステップＳ１に戻り、要約用静止画の生成を繰り返す。

要約コンテンツ生成部４０は、要約コンテンツ生成処理の終了の場合、要約用静止画、要約用文字列及び字幕・静止画表示スケジュール情報を一つの要約コンテンツとして、データベース５０に記録する。要約コンテンツ生成部４０は、要約用静止画に対応する連結字幕文字列を、該要約用静止画とともに表示させる要約用文字列にする。要約コンテンツ生成部４０は、要約用静止画及び要約用文字列の各々を表示する再生時刻を所定の規則に従って設定し、字幕・静止画表示スケジュール情報を作成する。なお、要約コンテンツの再生時には、要約コンテンツ再生装置がデータベース５０から要約コンテンツを読み出し、要約コンテンツ中の要約用文字列を該当する要約用静止画に重畳させて表示し再生する。この再生の際には、字幕・静止画表示スケジュール情報中の再生時刻に従って、要約用文字列及び要約用静止画の表示が切り替えられ、アニメーション画像として再生される。

上述したように本実施形態によれば、アニメーション画像を構成する静止画像（要約用静止画）としてＩピクチャのフルデコード画像を利用するので、元の放送番組の画像と同等の品質を維持することができ、視聴者が元の放送番組の内容を実感し易いという効果が得られる。

さらに、ＭＰＥＧ画像の内からＩピクチャのみをデコードし、他のＢピクチャ及びＰピクチャについてはデコードしない。これにより、デコード量が削減されるので、要約コンテンツ生成において画像処理にかかる演算量を削減することができる。

又、Ｉピクチャの類似度判定には縮小画像を用いることで、全てのＩピクチャをフルデコードすることは避けるようにし、フルデコード処理を最小限に抑えている。これにより、さらに画像処理演算量を削減することが可能となる。

本実施形態によれば、要約コンテンツ生成において画像処理にかかる演算量を削減することができるので、画像処理装置に要求される性能が緩和される。この結果、ケーブルテレビネットワークシステム等のセットトップボックスや携帯電話端末など、低コストが要求されるために高性能の画像処理装置を具備し難い受信端末であっても、本要約コンテンツ生成装置を実装し易くなるという効果が得られる。

なお、他の実施形態として、Ｉピクチャ、Ｂピクチャ及びＰピクチャの内から、ＩピクチャとＰピクチャのみを復号する（つまり、Ｂピクチャのみ復号しない）ように、変形することは容易に実現できる。この場合にも、全てのフレーム（つまり、Ｉピクチャ、Ｂピクチャ及びＰピクチャの全種類）を復号するよりは演算量を削減することができる。

次に、本実施形態に係る字幕文字列連結処理を説明する。

字幕情報データ中の各字幕文字列は、必ずしもそれだけで１つの文章を構成するとは限らない。ここで、文章とは、文末が句点で終わる文字列を指す。放送番組では、場合によっては、登場人物の会話などの映像進行に合わせて文章が分割され、連続する複数の字幕文字列から１つの文章が構成される。また、映像の進行に対して、字幕情報データの受信間隔は不定である。例えば２秒程度の非常に短い間隔で次の字幕情報データを受信する場合もあれば、１０秒以上経過しても次の字幕情報データを受信しない場合もある。このような知見に基づき、本実施形態では、連続する複数の字幕文字列が連結可能かどうか判定し、連結可能と判定された字幕文字列を連結する。

以下に、連続する２つの字幕文字列（説明の便宜上、字幕文字列A，Bとし、A，Bの順序で連続しているとする）が連結可能かどうか判定するための判定基準の例を示す。
判定基準１：字幕文字列Aが、句点で終わっていない。
判定基準２：字幕文字列A，Bの合計文字数が、第１の規定文字数N1（例えば30文字）よりも少ない。
判定基準３：字幕文字列Aの表示後、字幕文字列Bを表示するまでの時間が、規定時間TIM1（例えば4.0秒）よりも短い。

コンテンツ処理部３０は、図７に示される手順（ステップＳ２１〜Ｓ２４）に従って、字幕文字列の連結判定処理を行う。図７は、本実施形態に係る字幕文字列の連結判定処理の流れを示すフローチャートである。
図７において、まず、ステップＳ２１では、字幕情報デコード部１５から受け取った連続する字幕情報データから連続する２つの字幕文字列A，Bを取得し、字幕文字列A，Bを解析する。例えば、形態素解析、文節検出などを行う。ステップＳ２２では、判定基準１により、字幕文字列Aの末尾が句点ではないことを検証する。ステップＳ２３では、判定基準２により、字幕文字列A，Bの合計文字数が第１の規定文字数N1よりも少ないことを検証する。ステップＳ２４では、判定基準３により、字幕文字列A，Bの表示開始時間の差が規定時間TIM1よりも短いことを検証する。これらステップＳ２２，２３，２４の検証が全て合格であり、字幕文字列A，Bが判定基準１，２，３を全て満たす場合に、その連続する２つの字幕文字列A，Bが連結可能であると判定する。コンテンツ処理部３０は、その連結可能な連続する２つの字幕文字列A，Bを連結した連結字幕文字列を生成する。

なお、上記ステップＳ２１の形態素解析の結果、難易度の高い単語が字幕文字列A，Bのいずれかに含まれている場合には、字幕文字列A，Bを連結できないと判定するようにしてもよい。これは、字幕文字列A，Bのいずれかに難易度の高い単語が含まれる場合には、字幕文字列A，Bを連結した結果、一度に表示される文字数が増えると、視聴者が理解できないこともあり得る。このため、字幕文字列A，Bのいずれかに難易度の高い単語が含まれる場合には、字幕文字列A，Bを連結しないようにする。難易度の高い単語とは、例えば、政治、経済、法律、医学など、専門性の高い単語などである。その難易度の高い単語をデータベース化しておき、該データベースを参照することで、字幕文字列内に難易度の高い単語が含まれているか否かを判定する。

また、上述の例では連続する２つの字幕文字列を連結する場合を挙げたが、連続する３つ以上の字幕文字列を連結対象にして、上記判定基準により連結可能か判定し、連結を行ってもよい。

また、上述の図７の処理フローでは、字幕文字列A，Bが判定基準１，２，３を全て満たす場合にのみ字幕文字列A，Bを連結したが、判定基準１，２，３のいずれか一つ又は複数を満たした場合に字幕文字列A，Bを連結するようにしてもよい。

また、上述の判定基準１，２，３による第１の連結規則の他に、第２の連結規則として、以下の判定基準４を満たす場合に、連結可能と判定するようにしてもよい。
判定基準４：連続する３つの字幕文字列A，B，Cに対して、それら合計文字数が第２の規定文字数N2よりも多く、且つ、字幕文字列A，B，Cの連結「A+B+C」を２つの文字列に分割することにより、分割後の２つの文字列が両方とも第１の規定文字数N1よりも少なくなる。
この第２の連結規則によれば、コンテンツ処理部３０は、連続する３つの字幕文字列を連結してから２つの文字列に分割する。
なお、第２の連結規則において、字幕文字列の連結を分割するときの分割位置は、例えば、（１）読点で終わる、（２）単語の中間ではない、（３）全文字列長の中間位置に近い、のいずれかの条件をみたすところに決定する。

以上が本実施形態に係る字幕文字列連結処理の説明である。

本実施形態に係る要約コンテンツ生成装置は、専用のハードウェアにより実現されるものであってもよく、あるいはパーソナルコンピュータ等のコンピュータシステムにより構成され、図１に示される各部の各機能を実現するためのプログラムを実行することによりその機能を実現させるものであってもよい。

また、図４〜図６に示す各ステップを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、要約コンテンツ生成処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＤＶＤ（Digital Versatile Disk）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Dynamic Random Access Memory））のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
例えば、上述の実施形態では、地上デジタル放送を例に挙げて説明したが、衛星デジタル放送やＩＰ放送、ケーブルテレビシステムなどにも適用可能である。又、本発明は、デジタル形式の記録媒体や記憶装置等に蓄積されている放送番組等のデジタルコンテンツに対しても適用することができる。つまり、本発明は、ＭＰＥＧ規格の画像符号化データを含む映像データと字幕情報データを有するデジタルコンテンツに対して適用可能である。

本発明の一実施形態に係る要約コンテンツ生成装置の全体構成を示すブロック図である。地上デジタル放送信号について、テレビ画面上に表示する映像データと字幕情報データの関係を表す概念図である。地上デジタル放送信号に係るタイムスケジュール表の例である。本発明の一実施形態に係る要約コンテンツの生成手順を示すフローチャートである。本発明の一実施形態に係る要約コンテンツの生成手順を示すフローチャートである。本発明の一実施形態に係る要約コンテンツの生成手順を示すフローチャートである。本発明の一実施形態に係る字幕文字列の連結判定処理の流れを示すフローチャートである。

符号の説明

１１…チューナ部、１２…復調部、１３…分離部、１４…映像デコード部、１５…字幕情報デコード部、１６…音声デコード部、３０…コンテンツ処理部、３１…映像解析部、３２…映像処理部、３３…字幕情報解析部、３４…字幕情報処理部、３５…音声解析部、３６…音声処理部、４０…要約コンテンツ生成部、５０…データベース

Claims

ＭＰＥＧ規格の画像符号化データを含む映像データと字幕情報データを有するデジタルコンテンツを用いて該コンテンツの要約コンテンツを生成する要約コンテンツ生成装置において、
前記画像符号化データの内からＩピクチャのみ画像符号化データを復号する映像デコード手段と、
前記字幕情報データから字幕文字列を取得する字幕文字列取得手段と、
前記取得された字幕文字列を該字幕文字列に対応する前記復号画像とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成手段と、
を備えたことを特徴とする要約コンテンツ生成装置。
ＭＰＥＧ規格の画像符号化データを含む映像データと字幕情報データを有するデジタルコンテンツを用いて該コンテンツの要約コンテンツを生成する要約コンテンツ生成装置において、
前記画像符号化データの内からＩピクチャとＰピクチャのみ画像符号化データを復号する映像デコード手段と、
前記字幕情報データから字幕文字列を取得する字幕文字列取得手段と、
前記取得された字幕文字列を該字幕文字列に対応する前記復号画像とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成手段と、
を備えたことを特徴とする要約コンテンツ生成装置。
前記映像デコード手段は、字幕文字列に対応する前記ピクチャのみを復号することを特徴とする請求項１又は請求項２に記載の要約コンテンツ生成装置。
前記映像デコード手段は、類似する前記ピクチャの内から代表の前記ピクチャのみを復号することを特徴とする請求項３に記載の要約コンテンツ生成装置。
Ｉピクチャの画像符号化データから縮小画像を生成する縮小画像生成手段と、
前記縮小画像間の類似度を判定する類似度判定手段と、
を備えたことを特徴とする請求項４に記載の要約コンテンツ生成装置。
前記取得された字幕文字列の内から連結可能な複数の字幕文字列を判定し連結する字幕文字列連結手段を備えたことを特徴とする請求項３から請求項５のいずれか１項に記載の要約コンテンツ生成装置。
複数の前記復号画像間でオーバレイ領域を検出するオーバレイ領域検出手段を備え、
前記要約コンテンツ生成手段は、前記オーバレイ領域が不一致の前記復号画像を使用することを特徴とする請求項１から請求項６のいずれか１項に記載の要約コンテンツ生成装置。
ＭＰＥＧ規格の画像符号化データを含む映像データと字幕情報データを有するデジタルコンテンツを用いて該コンテンツの要約コンテンツを生成するためのコンピュータプログラムであって、
前記画像符号化データの内からＩピクチャのみ画像符号化データを復号する映像デコード機能と、
前記字幕情報データから字幕文字列を取得する字幕文字列取得機能と、
前記取得された字幕文字列を該字幕文字列に対応する前記復号画像とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成機能と、
をコンピュータに実現させることを特徴とするコンピュータプログラム。
ＭＰＥＧ規格の画像符号化データを含む映像データと字幕情報データを有するデジタルコンテンツを用いて該コンテンツの要約コンテンツを生成するためのコンピュータプログラムであって、
前記画像符号化データの内からＩピクチャとＰピクチャのみ画像符号化データを復号する映像デコード機能と、
前記字幕情報データから字幕文字列を取得する字幕文字列取得機能と、
前記取得された字幕文字列を該字幕文字列に対応する前記復号画像とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成機能と、
をコンピュータに実現させることを特徴とするコンピュータプログラム。