JP5042182B2 - 要約コンテンツ生成装置およびコンピュータプログラム - Google Patents

要約コンテンツ生成装置およびコンピュータプログラム Download PDF

Info

Publication number
JP5042182B2
JP5042182B2 JP2008247749A JP2008247749A JP5042182B2 JP 5042182 B2 JP5042182 B2 JP 5042182B2 JP 2008247749 A JP2008247749 A JP 2008247749A JP 2008247749 A JP2008247749 A JP 2008247749A JP 5042182 B2 JP5042182 B2 JP 5042182B2
Authority
JP
Japan
Prior art keywords
character string
subtitle character
subtitle
image
summary content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008247749A
Other languages
English (en)
Other versions
JP2010081323A (ja
Inventor
一則 松本
康弘 滝嶋
康之 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2008247749A priority Critical patent/JP5042182B2/ja
Publication of JP2010081323A publication Critical patent/JP2010081323A/ja
Application granted granted Critical
Publication of JP5042182B2 publication Critical patent/JP5042182B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、地上デジタル放送等のデジタル放送における放送番組の要約コンテンツを生成する要約コンテンツ生成装置およびコンピュータプログラムに関する。
地上デジタル放送サービスでは、映像に加えて、字幕情報(クローズドキャプション)も同時に配信される。字幕情報は、例えば耳の不自由な人でも放送を楽しむことができるように、テレビ映像の上に、番組内の会話やセリフを重畳するための情報である。地上デジタル放送受信端末は、受信する地上デジタル放送データ内の映像データおよび音声データを再生しつつ、放送データ内の字幕情報データを受信したとき、再生中の映像データに字幕情報データを重畳して表示する。地上デジタル放送受信端末としては、家庭用のテレビ受像機だけでなく、パーソナルコンピュータや携帯電話端末を利用したものも存在する。特に、携帯電話向け地上デジタル放送サービスは「ワンセグ」と呼ばれている。そのワンセグにおいては、字幕情報は常に表示され、電車などの公共の場でも音声を聞かずに視聴できる。これらの仕様は、ARIB(社団法人電波産業会)の標準規格で定められている。
また、地上デジタル放送受信端末の中には、受信した放送データをハードディスク装置などの記憶領域に保存する機能を備えるものがあり、これにより視聴者は、その保存された放送データを再生することで、いつでも放送番組を視聴することができる。今後、記憶領域の大容量化と低価格化に伴い、複数の放送チャンネルに関して、1週間あるいはそれ以上の期間に放送された番組をすべて保存することができるようになると予想される。
しかし、視聴者の多くは、生活時間の制限により、記憶領域に蓄積された放送番組の中から、一部の放送番組しか視聴しないことが考えられる。さらに、1つの放送番組に対して、最初から最後まで再生してじっくり視聴する場合もあれば、放送番組の概要だけを確認する場合もある。概要だけを確認する際には、例えば、早送り再生しながら、見たいシーンのところだけを通常再生する方法があるが、眼を凝らしながら、早送り再生されるテレビ画面を見て操作する必要があり、時間がかかり、煩雑である。
そこで、1つの放送番組に対して、短時間で番組内容を簡単に理解させるための技術に対する期待が高まっている。番組内容を理解させる方法として、元々の映像データから、部分的に映像データを抽出して連結した要約映像コンテンツを生成する方法、あるいは、元々の映像データから、静止画を抽出してアニメーション画像を生成する方法などがある。
特許文献1には、番組内容を要約したアニメーション画像を生成する方法が提案されている。この特許文献1記載の従来技術では、映像の中から画像と字幕情報を抽出し、切り出した画像に対して輪郭だけを抽出する画像処理を施し、それらを合成した画像群を連続的に切り替えるアニメーション画像として、要約コンテンツを生成している。
特開2007−006308号公報
しかし、上述した特許文献1記載の従来技術では、特許文献1の図5に示される画面bのような線描画のアニメーション画像であるために、元の放送番組の画像とは程遠く、元の放送番組の内容を実感することは期待できない。このため、アニメーション画像を構成する静止画像は、視聴者が元の放送番組の内容を実感し易いように、できる限り元の画像のままであることが好ましい。
一方、地上デジタル放送データ中の画像は符号化されているので、アニメーション画像を作成する際には符号化画像を復号しなければならず、高い画像処理能力が要求される。このため、ケーブルテレビネットワークシステム等のセットトップボックス(Set Top Box)や携帯電話端末など、低コストが要求されるために高性能の画像処理装置を具備し難い受信端末では、アニメーション画像作成処理の負担が大きい。
本発明は、このような事情を考慮してなされたもので、その目的は、デジタル放送番組の要約コンテンツとしてアニメーション画像を生成する際の画像処理にかかる演算量を削減することのできる要約コンテンツ生成装置およびコンピュータプログラムを提供することにある。
上記の課題を解決するために、本発明に係る要約コンテンツ生成装置は、MPEG規格の画像符号化データを含む映像データと字幕情報データを有するデジタルコンテンツを用いて該コンテンツの要約コンテンツを生成する要約コンテンツ生成装置において、前記画像符号化データの内からIピクチャのみ画像符号化データを復号する映像デコード手段と、前記字幕情報データから字幕文字列を取得する字幕文字列取得手段と、前記取得された字幕文字列を該字幕文字列に対応する前記復号画像とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成手段と、を備えたことを特徴とする。
本発明に係る要約コンテンツ生成装置は、MPEG規格の画像符号化データを含む映像データと字幕情報データを有するデジタルコンテンツを用いて該コンテンツの要約コンテンツを生成する要約コンテンツ生成装置において、前記画像符号化データの内からIピクチャとPピクチャのみ画像符号化データを復号する映像デコード手段と、前記字幕情報データから字幕文字列を取得する字幕文字列取得手段と、前記取得された字幕文字列を該字幕文字列に対応する前記復号画像とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成手段と、を備えたことを特徴とする。
本発明に係る要約コンテンツ生成装置においては、前記映像デコード手段は、字幕文字列に対応する前記ピクチャのみを復号することを特徴とする。
本発明に係る要約コンテンツ生成装置においては、前記映像デコード手段は、類似する前記ピクチャの内から代表の前記ピクチャのみを復号することを特徴とする。
本発明に係る要約コンテンツ生成装置においては、Iピクチャの画像符号化データから縮小画像を生成する縮小画像生成手段と、前記縮小画像間の類似度を判定する類似度判定手段と、を備えたことを特徴とする。
本発明に係る要約コンテンツ生成装置においては、前記取得された字幕文字列の内から連結可能な複数の字幕文字列を判定し連結する字幕文字列連結手段を備えたことを特徴とする。
本発明に係る要約コンテンツ生成装置においては、複数の前記復号画像間でオーバレイ領域を検出するオーバレイ領域検出手段を備え、前記要約コンテンツ生成手段は、前記オーバレイ領域が不一致の前記復号画像を使用することを特徴とする。
本発明に係る要約コンテンツ生成装置によれば、MPEG規格の画像符号化データの内からIピクチャのみ若しくはIピクチャとPピクチャのみ復号され、要約コンテンツに使用される。これにより、MPEG規格の画像符号化データの復号にかかる演算量が削減される。
又、字幕文字列に対応する前記ピクチャのみが復号されることにより、余計な復号が行われないので、更なる演算量の削減が可能となる。
又、類似する前記ピクチャの内から代表の前記ピクチャのみが復号されることにより、冗長な前記ピクチャの復号が行われないので、更なる演算量の削減が可能となる。
又、類似度判定用の縮小画像を生成することにより、実際に要約コンテンツに使用される前記ピクチャのみをフルデコードすればよいので、更なる演算量の削減が可能となる。
又、連結可能な複数の字幕文字列を判定し連結することにより、まとめた字幕文字列に対応する代表の前記ピクチャのみ復号すればよいので、更なる演算量の削減が可能となる。
又、オーバレイ領域が不一致の復号画像を要約コンテンツに使用することにより、同じ映像シーンに属する復号画像が排除され、効率的な要約コンテンツが生成可能となる。
本発明に係るコンピュータプログラムは、MPEG規格の画像符号化データを含む映像データと字幕情報データを有するデジタルコンテンツを用いて該コンテンツの要約コンテンツを生成するためのコンピュータプログラムであって、前記画像符号化データの内からIピクチャのみ画像符号化データを復号する映像デコード機能と、前記字幕情報データから字幕文字列を取得する字幕文字列取得機能と、前記取得された字幕文字列を該字幕文字列に対応する前記復号画像とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成機能と、をコンピュータに実現させることを特徴とする。
これにより、前述の要約コンテンツ生成装置がコンピュータを利用して実現できるようになる。
本発明に係るコンピュータプログラムは、MPEG規格の画像符号化データを含む映像データと字幕情報データを有するデジタルコンテンツを用いて該コンテンツの要約コンテンツを生成するためのコンピュータプログラムであって、前記画像符号化データの内からIピクチャとPピクチャのみ画像符号化データを復号する映像デコード機能と、前記字幕情報データから字幕文字列を取得する字幕文字列取得機能と、前記取得された字幕文字列を該字幕文字列に対応する前記復号画像とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成機能と、をコンピュータに実現させることを特徴とする。
これにより、前述の要約コンテンツ生成装置がコンピュータを利用して実現できるようになる。
本発明によれば、デジタル放送番組の要約コンテンツとしてアニメーション画像を生成する際の画像処理にかかる演算量を削減することができるという効果が得られる。
以下、図面を参照し、本発明の一実施形態について説明する。
本発明は、一般的な動画像符号化規格として知られている「MPEG規格」などで共通的に利用されている両方向のフレーム間予測方式を前提としている。このフレーム間予測方式では、Iピクチャ、Bピクチャ及びPピクチャが用いられる。Iピクチャはフレーム内の情報のみによって符号化されるものであり、Iピクチャの符号化にはフレーム間の差分情報は使用されない。従って、Iピクチャのデコード(復号)は、自己の符号化データのみを使用して行うことができる。一方、Bピクチャ及びPピクチャの符号化にはフレーム間の差分情報が使用される。
又、そのフレーム間予測方式を利用した最新の規格としてH.264規格が知られている。従って、本発明はH.264規格についても適用可能である。
本発明においては、H.264規格を含め、同様にIピクチャ、Bピクチャ及びPピクチャを用いる動画像符号化規格を総称して「MPEG規格」と称する。
図1は、本発明の一実施形態に係る要約コンテンツ生成装置の全体構成を示すブロック図である。図1において、要約コンテンツ生成装置には、アンテナ等を介して受信したデジタル放送信号が入力される。デジタル放送としては、例えば、地上デジタル放送、衛星デジタル放送及びワンセグ放送などの放送波を利用したもの、IP(Internet Protocol)放送と呼ばれるインターネット(IP通信網)を利用したもの、ケーブルテレビネットワークシステム、などが挙げられる。
図1の要約コンテンツ生成装置は、単独の装置であってもよく、或いは、地上デジタル放送や衛星デジタル放送の受信装置、携帯電話端末等のワンセグ放送の受信装置、ケーブルテレビネットワークシステムやIP放送のセットトップボックスなどの他の装置に具備されてもよい。
本実施形態では、以下、地上デジタル放送を例に挙げて説明する。
地上デジタル放送信号は、映像データ、音声データ及び字幕情報データを有する。映像データは、MPEG規格の画像符号化データ(以下、MPEG画像と称する)を有する。字幕情報データは、テレビ画面上に表示する字幕文字列を有する。地上デジタル放送信号中において、字幕情報データは、自己が有する字幕文字列を一緒に表示する映像データの再生タイミングに合わせた位置に配置されている。従って、地上デジタル放送受信端末は、受信した地上デジタル放送信号によって、映像データ及び音声データを再生しながら、字幕情報データを受信した時点で、該字幕情報データ中の字幕文字列を映像に重畳させて表示する。
図2に、地上デジタル放送信号について、テレビ画面上に表示する映像データと字幕情報データの関係を表す概念図を示す。図2において、映像再生中に、例えば字幕番号C1の字幕文字列を含む字幕情報データを受信した時点のフレーム画像がフレーム画像番号F1であった後、字幕番号C2の字幕文字列を含む字幕情報データを受信した時点のフレーム画像がフレーム画像番号F6であったことを示している。このように、1つの字幕文字列(字幕番号Ci)に対して、複数のフレーム画像(フレーム画像番号Fj)が対応している。地上デジタル放送受信端末は、新たな字幕情報データを受信した時点で、それまで表示していた字幕文字列を消去し、現在受信した字幕文字列を表示する。このことから、字幕情報データと映像データとの関係は、字幕文字列、字幕文字列の表示時刻及び字幕文字列を重畳表示するフレーム画像列を関連付ける、図3に示すようなタイムスケジュール表として表すことができる。なお、地上デジタル放送において、字幕情報データは、最短で2秒間隔で地上デジタル放送信号に挿入される。従って、例えば放送時間が30分の番組の場合、計算上約900回分の字幕情報データを挿入することができる。但し、実際の地上デジタル放送では、30分の番組で、字幕情報データ挿入回数は300から400回程度、字幕文字列の総文字数は4000から6000文字程度である。
まず図1に示す要約コンテンツ生成装置の構成を説明する。
チューナ部11は、地上デジタル放送信号の中から1つのチャンネルの放送信号を受信し、復調部12に出力する。受信チャンネルは、視聴者が選択したチャンネルである。復調部12は、チューナ部11から受け取った放送信号を復調し、復調信号を分離部13に出力する。分離部13は、該復調信号から、映像データ、字幕情報データ及び音声データをそれぞれに分離する。映像データは映像デコード部14に送られる。字幕情報データは字幕情報デコード部15に送られる。音声データは音声デコード部16に送られる。映像デコード部14は映像データ(MPEG画像)を復号する。映像デコード部14はコンテンツ処理部30と連携して動作する。字幕情報デコード部15は字幕情報データを復号する。音声デコード部16は音声データを復号する。復号後の映像データ、字幕情報データ及び音声データは、コンテンツ処理部30に送られる。
コンテンツ処理部30は、映像解析部31と映像処理部32、字幕情報解析部33と字幕情報処理部34、音声解析部35と音声処理部36から構成される。これら各部31〜36はバスで接続されており、相互にデータを送受することができる。
映像解析部31は映像データを解析する。映像処理部32は映像データ解析結果に基づいて映像データを処理する。映像処理部32は、例えば、要約コンテンツ生成に利用する静止画像を取捨選択する処理などを行う。
字幕情報解析部33は字幕情報データを解析する。字幕情報処理部34は字幕情報データ解析結果に基づいて字幕情報データを処理する。字幕情報処理部は、例えば、字幕情報データ中の各字幕文字列に対して要約コンテンツの各アニメーション切り替え時に表示する文字列を決定する処理などを行う。
音声解析部35は音声データを解析する。音声処理部36は音声データ解析結果に基づいて音声データを処理する。音声処理部は、例えば、要約コンテンツに音声データを挿入する場合、必要な音声データのみを抽出、編集する処理などを行う。一方、要約コンテンツ生成に音声データを挿入しない場合であっても、要約用静止画を取捨選択する際の判定基準として利用する。例えば、音声認識結果と字幕情報とを照合することによる、映像のシーン切り替えの判定、或いは、音声認識結果から話者を区別することによる、話者ごとの字幕情報の分類、映像データのシーン切り替えの判定などの処理を行う。
要約コンテンツ生成部40は、コンテンツ処理部30と連携して要約コンテンツを生成する。要約コンテンツは、一つの番組コンテンツを対象にして、その番組の要約として生成されるものである。要約コンテンツは、複数の静止画が連続的に再生されるアニメーション画像として構成される。要約コンテンツは、対象番組コンテンツについて、映像データ中の静止画(以下、「要約用静止画」と称する)と、字幕情報データ中の字幕文字列(以下、「要約用文字列」と称する)と、該要約用静止画及び要約用文字列を連続的に再生するためのスケジュール情報(以下、「字幕・静止画表示スケジュール情報」と称する)とから構成される。なお、要約コンテンツに音声データを含めるようにしてもよい。音声データを要約コンテンツに含めるか否かは、視聴者によって選択できるようにする。
データベース50は、要約コンテンツ生成部40によって作成された要約コンテンツを格納する。
次に、本実施形態に係る要約コンテンツの生成動作を詳細に説明する。
図4,図5,図6は、本実施形態に係る要約コンテンツの生成手順を示すフローチャートである。以下、図4,図5,図6を参照して、図1の要約コンテンツ生成装置の動作を説明する。
まず、ステップS1では、映像デコード部14が、MPEG画像のデコードに必要な量の映像データを分離部13から受け取ってバッファに格納する。ステップS2では、映像デコード部14が、該映像データ内のヘッダ情報を解析し、該映像データ内のMPEG画像の種類を判別する。この結果、Iピクチャである場合はステップS4に進む(ステップS3、YES)。一方、Iピクチャではない場合(つまり、Bピクチャ又はPピクチャである場合)はステップS1に戻り(ステップS3、NO)、映像デコード部14は次の映像データを分離部13から受け取る。
ステップS4では、コンテンツ処理部30が、字幕情報デコード部15から受け取った字幕情報データ内に字幕文字列があるか否かを判断する。ステップS4の処理は字幕情報解析部33と字幕情報処理部34が連携して行う。この結果、字幕文字列がある場合はステップS5に進み、字幕文字列がない場合はステップS1に戻る。このステップS4の処理は上記ステップS1,S2,S3の処理と同期している。つまり、ステップS4で発見された字幕文字列は、ステップS1,S2,S3で発見されたIピクチャに対応したものである。
ステップS5では、コンテンツ処理部30が字幕文字列の連結処理を行う。この字幕文字列連結処理は、連続する複数の字幕文字列が連結可能かどうか判定し、連結可能な場合は該連続する複数の字幕文字列を連結する。ステップS5の処理は字幕情報解析部33と字幕情報処理部34が連携して行う。字幕文字列連結処理の詳細は後述する。
ステップS6では、コンテンツ処理部30が、連結処理後の字幕文字列(連結字幕文字列)をメモリに保存する。ステップS7では、コンテンツ処理部30が、連結字幕文字列の長さを基準値と比較し、基準値以上であるか判定する。ステップS7の処理は字幕情報解析部33と字幕情報処理部34が連携して行う。この結果、連結字幕文字列の長さが基準値以上である場合は図5のステップS8に進み、基準値に満たない場合はステップS1に戻る。
ステップS7の結果、連結字幕文字列の長さが基準値以上である場合には、図5のステップS8において、コンテンツ処理部30が映像デコード部14に縮小画像生成を指示し、映像デコード部14がIピクチャのMPEG画像からDC成分を利用して縮小画像を生成する。この縮小画像の生成方法については、「“部分復号を用いたMPEGデータからのカット点検出”,電子情報通信学会論文誌,D-II,情報・システム,II-情報処理 Vol.J81-D-2,No.7(19980725),pp.1564-1575」に開示されている。この非特許文献に開示されている縮小画像(DC画像)生成方法によれば、縮小画像を画像符号化データから効率よく計算することができる。縮小画像は、Iピクチャのサイズを縮小した画像であるが、IピクチャのMPEG画像をフルデコードする場合よりも少ない演算量で生成することができる。映像デコード部14は、作成した縮小画像をコンテンツ処理部30へ送る。
ステップS9では、コンテンツ処理部30が、映像デコード部14から受け取った縮小画像と前回保存した縮小画像との類似度を算出する。ステップS9の処理は映像解析部31と映像処理部32が連携して行う。この結果、類似度が基準値以下である場合(両者が似ていない場合)はステップS11に進み(ステップS10、YES)、基準値超過である場合(両者が似ている場合)は図4のステップS1に戻る(ステップS10、NO)。ステップS11では、コンテンツ処理部30が、今回生成した縮小画像を次回の類似度算出用にメモリに保存する。
なお、上記類似度判定は、連続するIピクチャが類似している場合に冗長なIピクチャを排除し、要約用静止画として効果的なIピクチャを採用するための処理である。例えば、連続するIピクチャが、ともに、ニュースキャスターが原稿を読んでいる場面、或いは、同じ場所を撮影している場面など、同じ映像シーンに存在している場合や、同じ被写体を撮影している場合などである。このように、連続する複数のIピクチャが類似している場合には、どれか一つのIピクチャを代表の要約用静止画として採用する。これにより、要約コンテンツに含める要約用静止画から冗長なものをなくし、無駄のない要約コンテンツを構成することができる。
ステップS12では、コンテンツ処理部30が映像デコード部14にIピクチャのフルデコードを指示し、映像デコード部14がIピクチャのMPEG画像をフルデコードする。映像デコード部14は、フルデコードしたIピクチャ画像をコンテンツ処理部30へ送る。
ステップS13では、映像デコード部14から受け取ったIピクチャのフルデコード画像を整形する。ここでは、クリッピング処理、リサイズ処理などを行い、所定の画像形式に整える。ステップS13の処理は映像解析部31と映像処理部32が連携して行う。ステップS14では、コンテンツ処理部30が、整形後の画像(整形画像)をメモリに保存する。
次いで、図6のステップS15では、コンテンツ処理部30が、複数(n個)の整形画像間でオーバレイ領域を検出する処理を行う。オーバレイ領域とは、画像中に組み込まれたテキスト(例えば、画像に映っている人、場所の名前、地名など)が表示される領域である。ステップS15の処理は映像解析部31と映像処理部32が連携して行う。
ステップS16では、コンテンツ処理部30が、今回検出されたオーバレイ領域と前回検出されたオーバレイ領域とを比較する。ステップS16の処理は映像解析部31と映像処理部32が連携して行う。この結果、両者が全て一致する場合は図4のステップS1に戻る。これは、前回の整形画像群と今回の整形画像群とでオーバレイ領域が全て一致する場合、両方の整形画像群が同じシーンに属すると見られるからである。一方、前回の整形画像群と今回の整形画像群とでオーバレイ領域が全ては一致しない場合はステップS18に進む。なお、今回検出されたオーバレイ領域は、次回のオーバレイ領域比較用にメモリに保存しておく。
ステップS18では、コンテンツ処理部30が、メモリ内の整形画像を要約コンテンツ生成部40に出力する。要約コンテンツ生成部40は、その整形画像を要約用静止画として利用する。この整形画像は、要約コンテンツ用に整形されているが、Iピクチャのフルデコード画像であるので、元の放送番組の画像と同様の情報量を有する。従って、本実施形態によれば、アニメーション画像を構成する静止画像(要約用静止画)は、元の放送番組の画像と同等の品質であり、元の放送番組の内容を実感することが期待できるものとなる。
ステップS19では、要約コンテンツ生成処理の終了を判断し、終了であれば要約コンテンツ生成処理を終了する。例えば、番組終了の場合に要約コンテンツ生成処理の終了と判断する。一方、要約コンテンツ生成処理の継続であれば図4のステップS1に戻り、要約用静止画の生成を繰り返す。
要約コンテンツ生成部40は、要約コンテンツ生成処理の終了の場合、要約用静止画、要約用文字列及び字幕・静止画表示スケジュール情報を一つの要約コンテンツとして、データベース50に記録する。要約コンテンツ生成部40は、要約用静止画に対応する連結字幕文字列を、該要約用静止画とともに表示させる要約用文字列にする。要約コンテンツ生成部40は、要約用静止画及び要約用文字列の各々を表示する再生時刻を所定の規則に従って設定し、字幕・静止画表示スケジュール情報を作成する。なお、要約コンテンツの再生時には、要約コンテンツ再生装置がデータベース50から要約コンテンツを読み出し、要約コンテンツ中の要約用文字列を該当する要約用静止画に重畳させて表示し再生する。この再生の際には、字幕・静止画表示スケジュール情報中の再生時刻に従って、要約用文字列及び要約用静止画の表示が切り替えられ、アニメーション画像として再生される。
上述したように本実施形態によれば、アニメーション画像を構成する静止画像(要約用静止画)としてIピクチャのフルデコード画像を利用するので、元の放送番組の画像と同等の品質を維持することができ、視聴者が元の放送番組の内容を実感し易いという効果が得られる。
さらに、MPEG画像の内からIピクチャのみをデコードし、他のBピクチャ及びPピクチャについてはデコードしない。これにより、デコード量が削減されるので、要約コンテンツ生成において画像処理にかかる演算量を削減することができる。
又、Iピクチャの類似度判定には縮小画像を用いることで、全てのIピクチャをフルデコードすることは避けるようにし、フルデコード処理を最小限に抑えている。これにより、さらに画像処理演算量を削減することが可能となる。
本実施形態によれば、要約コンテンツ生成において画像処理にかかる演算量を削減することができるので、画像処理装置に要求される性能が緩和される。この結果、ケーブルテレビネットワークシステム等のセットトップボックスや携帯電話端末など、低コストが要求されるために高性能の画像処理装置を具備し難い受信端末であっても、本要約コンテンツ生成装置を実装し易くなるという効果が得られる。
なお、他の実施形態として、Iピクチャ、Bピクチャ及びPピクチャの内から、IピクチャとPピクチャのみを復号する(つまり、Bピクチャのみ復号しない)ように、変形することは容易に実現できる。この場合にも、全てのフレーム(つまり、Iピクチャ、Bピクチャ及びPピクチャの全種類)を復号するよりは演算量を削減することができる。
次に、本実施形態に係る字幕文字列連結処理を説明する。
字幕情報データ中の各字幕文字列は、必ずしもそれだけで1つの文章を構成するとは限らない。ここで、文章とは、文末が句点で終わる文字列を指す。放送番組では、場合によっては、登場人物の会話などの映像進行に合わせて文章が分割され、連続する複数の字幕文字列から1つの文章が構成される。また、映像の進行に対して、字幕情報データの受信間隔は不定である。例えば2秒程度の非常に短い間隔で次の字幕情報データを受信する場合もあれば、10秒以上経過しても次の字幕情報データを受信しない場合もある。このような知見に基づき、本実施形態では、連続する複数の字幕文字列が連結可能かどうか判定し、連結可能と判定された字幕文字列を連結する。
以下に、連続する2つの字幕文字列(説明の便宜上、字幕文字列A,Bとし、A,Bの順序で連続しているとする)が連結可能かどうか判定するための判定基準の例を示す。
判定基準1:字幕文字列Aが、句点で終わっていない。
判定基準2:字幕文字列A,Bの合計文字数が、第1の規定文字数N1(例えば30文字)よりも少ない。
判定基準3:字幕文字列Aの表示後、字幕文字列Bを表示するまでの時間が、規定時間TIM1(例えば4.0秒)よりも短い。
コンテンツ処理部30は、図7に示される手順(ステップS21〜S24)に従って、字幕文字列の連結判定処理を行う。図7は、本実施形態に係る字幕文字列の連結判定処理の流れを示すフローチャートである。
図7において、まず、ステップS21では、字幕情報デコード部15から受け取った連続する字幕情報データから連続する2つの字幕文字列A,Bを取得し、字幕文字列A,Bを解析する。例えば、形態素解析、文節検出などを行う。ステップS22では、判定基準1により、字幕文字列Aの末尾が句点ではないことを検証する。ステップS23では、判定基準2により、字幕文字列A,Bの合計文字数が第1の規定文字数N1よりも少ないことを検証する。ステップS24では、判定基準3により、字幕文字列A,Bの表示開始時間の差が規定時間TIM1よりも短いことを検証する。これらステップS22,23,24の検証が全て合格であり、字幕文字列A,Bが判定基準1,2,3を全て満たす場合に、その連続する2つの字幕文字列A,Bが連結可能であると判定する。コンテンツ処理部30は、その連結可能な連続する2つの字幕文字列A,Bを連結した連結字幕文字列を生成する。
なお、上記ステップS21の形態素解析の結果、難易度の高い単語が字幕文字列A,Bのいずれかに含まれている場合には、字幕文字列A,Bを連結できないと判定するようにしてもよい。これは、字幕文字列A,Bのいずれかに難易度の高い単語が含まれる場合には、字幕文字列A,Bを連結した結果、一度に表示される文字数が増えると、視聴者が理解できないこともあり得る。このため、字幕文字列A,Bのいずれかに難易度の高い単語が含まれる場合には、字幕文字列A,Bを連結しないようにする。難易度の高い単語とは、例えば、政治、経済、法律、医学など、専門性の高い単語などである。その難易度の高い単語をデータベース化しておき、該データベースを参照することで、字幕文字列内に難易度の高い単語が含まれているか否かを判定する。
また、上述の例では連続する2つの字幕文字列を連結する場合を挙げたが、連続する3つ以上の字幕文字列を連結対象にして、上記判定基準により連結可能か判定し、連結を行ってもよい。
また、上述の図7の処理フローでは、字幕文字列A,Bが判定基準1,2,3を全て満たす場合にのみ字幕文字列A,Bを連結したが、判定基準1,2,3のいずれか一つ又は複数を満たした場合に字幕文字列A,Bを連結するようにしてもよい。
また、上述の判定基準1,2,3による第1の連結規則の他に、第2の連結規則として、以下の判定基準4を満たす場合に、連結可能と判定するようにしてもよい。
判定基準4:連続する3つの字幕文字列A,B,Cに対して、それら合計文字数が第2の規定文字数N2よりも多く、且つ、字幕文字列A,B,Cの連結「A+B+C」を2つの文字列に分割することにより、分割後の2つの文字列が両方とも第1の規定文字数N1よりも少なくなる。
この第2の連結規則によれば、コンテンツ処理部30は、連続する3つの字幕文字列を連結してから2つの文字列に分割する。
なお、第2の連結規則において、字幕文字列の連結を分割するときの分割位置は、例えば、(1)読点で終わる、(2)単語の中間ではない、(3)全文字列長の中間位置に近い、のいずれかの条件をみたすところに決定する。
以上が本実施形態に係る字幕文字列連結処理の説明である。
本実施形態に係る要約コンテンツ生成装置は、専用のハードウェアにより実現されるものであってもよく、あるいはパーソナルコンピュータ等のコンピュータシステムにより構成され、図1に示される各部の各機能を実現するためのプログラムを実行することによりその機能を実現させるものであってもよい。
また、図4〜図6に示す各ステップを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、要約コンテンツ生成処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、DVD(Digital Versatile Disk)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
例えば、上述の実施形態では、地上デジタル放送を例に挙げて説明したが、衛星デジタル放送やIP放送、ケーブルテレビシステムなどにも適用可能である。又、本発明は、デジタル形式の記録媒体や記憶装置等に蓄積されている放送番組等のデジタルコンテンツに対しても適用することができる。つまり、本発明は、MPEG規格の画像符号化データを含む映像データと字幕情報データを有するデジタルコンテンツに対して適用可能である。
本発明の一実施形態に係る要約コンテンツ生成装置の全体構成を示すブロック図である。 地上デジタル放送信号について、テレビ画面上に表示する映像データと字幕情報データの関係を表す概念図である。 地上デジタル放送信号に係るタイムスケジュール表の例である。 本発明の一実施形態に係る要約コンテンツの生成手順を示すフローチャートである。 本発明の一実施形態に係る要約コンテンツの生成手順を示すフローチャートである。 本発明の一実施形態に係る要約コンテンツの生成手順を示すフローチャートである。 本発明の一実施形態に係る字幕文字列の連結判定処理の流れを示すフローチャートである。
符号の説明
11…チューナ部、12…復調部、13…分離部、14…映像デコード部、15…字幕情報デコード部、16…音声デコード部、30…コンテンツ処理部、31…映像解析部、32…映像処理部、33…字幕情報解析部、34…字幕情報処理部、35…音声解析部、36…音声処理部、40…要約コンテンツ生成部、50…データベース

Claims (7)

  1. MPEG規格の画像符号化データを含む映像データと字幕情報データを有するデジタルコンテンツを用いて該コンテンツの要約コンテンツを生成する要約コンテンツ生成装置において、
    前記画像符号化データの内からIピクチャのみ画像符号化データを復号する映像デコード手段と、
    前記字幕情報データから字幕文字列を取得する字幕文字列取得手段と、
    前記取得された字幕文字列を該字幕文字列に対応する前記復号画像とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成手段と、
    Iピクチャの画像符号化データから縮小画像を生成する縮小画像生成手段と、
    前記縮小画像間の類似度を判定する類似度判定手段と、を備え、
    前記映像デコード手段は、字幕文字列に対応するIピクチャのみ、且つ、類似するIピクチャの内から代表のIピクチャのみ、を復号する、
    ことを特徴とする要約コンテンツ生成装置。
  2. MPEG規格の画像符号化データを含む映像データと字幕情報データを有するデジタルコンテンツを用いて該コンテンツの要約コンテンツを生成する要約コンテンツ生成装置において、
    前記画像符号化データの内からIピクチャとPピクチャのみ画像符号化データを復号する映像デコード手段と、
    前記字幕情報データから字幕文字列を取得する字幕文字列取得手段と、
    前記取得された字幕文字列を該字幕文字列に対応する前記復号画像とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成手段と、
    Iピクチャの画像符号化データから縮小画像を生成する縮小画像生成手段と、
    前記縮小画像間の類似度を判定する類似度判定手段と、を備え、
    前記映像デコード手段は、字幕文字列に対応する前記ピクチャのみ、且つ、類似する前記ピクチャの内から代表の前記ピクチャのみ、を復号する、
    ことを特徴とする要約コンテンツ生成装置。
  3. MPEG規格の画像符号化データを含む映像データと字幕情報データを有するデジタルコンテンツを用いて該コンテンツの要約コンテンツを生成する要約コンテンツ生成装置において、
    前記画像符号化データの内からIピクチャのみ画像符号化データを復号する映像デコード手段と、
    前記字幕情報データから字幕文字列を取得する字幕文字列取得手段と、
    前記取得された字幕文字列を該字幕文字列に対応する前記復号画像とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成手段と、
    前記取得された字幕文字列の内から連結可能な複数の字幕文字列を判定し連結する字幕文字列連結手段と、を備え、
    前記映像デコード手段は、字幕文字列に対応するIピクチャのみを復号し、
    前記字幕文字列連結手段は、判断基準1、2及び3を用いて、字幕文字列A、Bの順序で連続する字幕文字列A、Bが連結可能かを判定する、
    判定基準1:字幕文字列Aが句点で終わっていない、
    判定基準2:字幕文字列A、Bの合計文字数が第1の規定文字数よりも少ない、
    判定基準3:字幕文字列Aの表示後、字幕文字列Bを表示するまでの時間が規定時間よりも短い、
    ことを特徴とする要約コンテンツ生成装置。
  4. MPEG規格の画像符号化データを含む映像データと字幕情報データを有するデジタルコンテンツを用いて該コンテンツの要約コンテンツを生成する要約コンテンツ生成装置において、
    前記画像符号化データの内からIピクチャとPピクチャのみ画像符号化データを復号する映像デコード手段と、
    前記字幕情報データから字幕文字列を取得する字幕文字列取得手段と、
    前記取得された字幕文字列を該字幕文字列に対応する前記復号画像とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成手段と、
    前記取得された字幕文字列の内から連結可能な複数の字幕文字列を判定し連結する字幕文字列連結手段と、を備え、
    前記映像デコード手段は、字幕文字列に対応する前記ピクチャのみを復号し、
    前記字幕文字列連結手段は、判断基準1、2及び3を用いて、字幕文字列A、Bの順序で連続する字幕文字列A、Bが連結可能かを判定する、
    判定基準1:字幕文字列Aが句点で終わっていない、
    判定基準2:字幕文字列A、Bの合計文字数が第1の規定文字数よりも少ない、
    判定基準3:字幕文字列Aの表示後、字幕文字列Bを表示するまでの時間が規定時間よりも短い、
    ことを特徴とする要約コンテンツ生成装置。
  5. 複数の前記復号画像間でオーバレイ領域を検出するオーバレイ領域検出手段を備え、
    前記要約コンテンツ生成手段は、前記オーバレイ領域が不一致の前記復号画像を使用することを特徴とする請求項1から請求項のいずれか1項に記載の要約コンテンツ生成装置。
  6. MPEG規格の画像符号化データを含む映像データと字幕情報データを有するデジタルコンテンツを用いて該コンテンツの要約コンテンツを生成するためのコンピュータプログラムであって、
    前記画像符号化データの内からIピクチャのみ画像符号化データを復号する映像デコード機能と、
    前記字幕情報データから字幕文字列を取得する字幕文字列取得機能と、
    前記取得された字幕文字列を該字幕文字列に対応する前記復号画像とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成機能と、
    Iピクチャの画像符号化データから縮小画像を生成する縮小画像生成機能と、
    前記縮小画像間の類似度を判定する類似度判定機能と、をコンピュータに実現させるコンピュータプログラムであり、
    前記映像デコード機能は、字幕文字列に対応するIピクチャのみ、且つ、類似するIピクチャの内から代表のIピクチャのみ、を復号する、
    ことを特徴とするコンピュータプログラム。
  7. MPEG規格の画像符号化データを含む映像データと字幕情報データを有するデジタルコンテンツを用いて該コンテンツの要約コンテンツを生成するためのコンピュータプログラムであって、
    前記画像符号化データの内からIピクチャとPピクチャのみ画像符号化データを復号する映像デコード機能と、
    前記字幕情報データから字幕文字列を取得する字幕文字列取得機能と、
    前記取得された字幕文字列を該字幕文字列に対応する前記復号画像とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成機能と、
    Iピクチャの画像符号化データから縮小画像を生成する縮小画像生成機能と、
    前記縮小画像間の類似度を判定する類似度判定機能と、をコンピュータに実現させるコンピュータプログラムであり、
    前記映像デコード機能は、字幕文字列に対応する前記ピクチャのみ、且つ、類似する前記ピクチャの内から代表の前記ピクチャのみ、を復号する、
    ことを特徴とするコンピュータプログラム。
JP2008247749A 2008-09-26 2008-09-26 要約コンテンツ生成装置およびコンピュータプログラム Expired - Fee Related JP5042182B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008247749A JP5042182B2 (ja) 2008-09-26 2008-09-26 要約コンテンツ生成装置およびコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008247749A JP5042182B2 (ja) 2008-09-26 2008-09-26 要約コンテンツ生成装置およびコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2010081323A JP2010081323A (ja) 2010-04-08
JP5042182B2 true JP5042182B2 (ja) 2012-10-03

Family

ID=42211252

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008247749A Expired - Fee Related JP5042182B2 (ja) 2008-09-26 2008-09-26 要約コンテンツ生成装置およびコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP5042182B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6410329B2 (ja) * 2014-12-26 2018-10-24 Necディスプレイソリューションズ株式会社 映像記録作成装置、映像記録作成方法およびプログラム
JP6730760B2 (ja) * 2020-03-05 2020-07-29 株式会社オープンエイト サーバおよびプログラム、動画配信システム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4137007B2 (ja) * 2000-01-21 2008-08-20 株式会社リコー 映像内容説明文生成装置およびコンピュータ読み取り可能な記録媒体
JP2004350167A (ja) * 2003-05-26 2004-12-09 Matsushita Electric Ind Co Ltd 映像処理装置
JP2008072586A (ja) * 2006-09-15 2008-03-27 Matsushita Electric Ind Co Ltd デジタルavストリーム再生装置

Also Published As

Publication number Publication date
JP2010081323A (ja) 2010-04-08

Similar Documents

Publication Publication Date Title
JP5173337B2 (ja) 要約コンテンツ生成装置およびコンピュータプログラム
US10244291B2 (en) Authoring system for IPTV network
JP3737754B2 (ja) 半導体集積回路、番組記録再生装置、番組記録再生システム及び番組記録再生方法
KR101194902B1 (ko) 데이터 재생장치
JP2008011404A (ja) コンテンツ処理装置及びコンテンツ処理方法
WO2018012491A1 (ja) 受信装置、受信方法及びプログラム
JP3842281B1 (ja) デジタル放送システム、照合装置、デジタル放送受信機、及び方法
JP5042182B2 (ja) 要約コンテンツ生成装置およびコンピュータプログラム
US20100086284A1 (en) Personal recording apparatus and control method thereof
KR100652676B1 (ko) 이동단말기의 위성방송 편집 장치 및 방법
JP6137755B2 (ja) 受信装置、受信方法及びプログラム
JP2008053991A (ja) デジタル放送受信装置
JP6309061B2 (ja) 放送システム
JP6137754B2 (ja) 受信装置、受信方法及びプログラム
JP2009044282A (ja) デジタル映像データ再生装置及び表示装置
JP6279140B1 (ja) 受信装置
JP6279063B2 (ja) 受信装置、受信方法及びプログラム
JP2009089131A (ja) オンデマンド放送装置、受信装置およびシステム
JP2006050387A (ja) データ再生方法、およびデータ再生装置
JP6327711B2 (ja) 受信装置、放送システム、受信方法及びプログラム
JP2013247663A (ja) 映像再生装置、映像再生方法及び映像符号化方法
JP2013174798A (ja) 映像再生装置、映像再生方法及び映像符号化方法
JP5228623B2 (ja) 放送映像再生方法、システム及び装置
JP2018142971A (ja) 受信装置、受信方法およびプログラム
JP2017017740A (ja) 放送システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120321

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120521

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120612

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120710

R150 Certificate of patent or registration of utility model

Ref document number: 5042182

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150720

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees