JP5173337B2 - 要約コンテンツ生成装置およびコンピュータプログラム - Google Patents

要約コンテンツ生成装置およびコンピュータプログラム Download PDF

Info

Publication number
JP5173337B2
JP5173337B2 JP2007241371A JP2007241371A JP5173337B2 JP 5173337 B2 JP5173337 B2 JP 5173337B2 JP 2007241371 A JP2007241371 A JP 2007241371A JP 2007241371 A JP2007241371 A JP 2007241371A JP 5173337 B2 JP5173337 B2 JP 5173337B2
Authority
JP
Japan
Prior art keywords
subtitle
character string
subtitle character
character strings
still image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007241371A
Other languages
English (en)
Other versions
JP2009076970A (ja
Inventor
俊晃 上向
一則 松本
史昭 菅谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2007241371A priority Critical patent/JP5173337B2/ja
Priority to US12/211,488 priority patent/US8279343B2/en
Publication of JP2009076970A publication Critical patent/JP2009076970A/ja
Application granted granted Critical
Publication of JP5173337B2 publication Critical patent/JP5173337B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/08Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division
    • H04N7/087Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only
    • H04N7/088Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital
    • H04N7/0884Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital for the transmission of additional display-information, e.g. menu for programme or channel selection
    • H04N7/0885Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital for the transmission of additional display-information, e.g. menu for programme or channel selection for the transmission of subtitles
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/426Internal components of the client ; Characteristics thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4348Demultiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/61Network physical structure; Signal processing
    • H04N21/6106Network physical structure; Signal processing specially adapted to the downstream path of the transmission network
    • H04N21/6112Network physical structure; Signal processing specially adapted to the downstream path of the transmission network involving terrestrial transmission, e.g. DVB-T

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Studio Circuits (AREA)

Description

本発明は、地上デジタル放送等のデジタル放送における放送番組の要約コンテンツを生成する要約コンテンツ生成装置およびコンピュータプログラムに関する。
地上デジタル放送サービスでは、映像に加えて、字幕情報(クローズドキャプション)も同時に配信される。字幕情報は、例えば耳の不自由な人でも放送を楽しむことができるように、テレビ映像の上に、番組内の会話やセリフを重畳するための情報である。地上デジタル放送受信端末は、受信する地上デジタル放送データ内の映像データおよび音声データを再生しつつ、放送データ内の字幕情報データを受信したとき、再生中の映像データに字幕情報データを重畳して表示する。地上デジタル放送受信端末としては、家庭用のテレビ受像機だけでなく、パーソナルコンピュータや携帯電話端末を利用したものも存在する。特に、携帯電話向け地上デジタル放送サービスは「ワンセグ」と呼ばれている。そのワンセグにおいては、字幕情報は常に表示され、電車などの公共の場でも音声を聞かずに視聴できる。これらの仕様は、ARIB(社団法人電波産業会)の標準規格で定められている。
また、地上デジタル放送受信端末の中には、受信した放送データをハードディスク装置などの記憶領域に保存する機能を備えるものがあり、これにより視聴者は、その保存された放送データを再生することで、いつでも放送番組を視聴することができる。今後、記憶領域の大容量化と低価格化に伴い、複数の放送チャンネルに関して、1週間あるいはそれ以上の期間に放送された番組をすべて保存することができるようになると予想される。
しかし、視聴者の多くは、生活時間の制限により、記憶領域に蓄積された放送番組の中から、一部の放送番組しか視聴しないことが考えられる。さらに、1つの放送番組に対して、最初から最後まで再生してじっくり視聴する場合もあれば、放送番組の概要だけを確認する場合もある。概要だけを確認する際には、例えば、早送り再生しながら、見たいシーンのところだけを通常再生する方法があるが、眼を凝らしながら、早送り再生されるテレビ画面を見て操作する必要があり、時間がかかり、煩雑である。
そこで、1つの放送番組に対して、短時間で該番組の内容を簡単に理解させるための技術に対する期待が高まっている。番組内容を理解させる方法として、元々の映像データから、部分的に映像データを抽出して連結した要約映像コンテンツを生成する方法、あるいは、元々の映像データから、静止画を抽出して一覧表示した要約サムネイルコンテンツを生成する方法などがある。その一方で、記憶領域の大容量化が進んでいるとはいえ、蓄積できるデータ容量には制限があるため、要約映像コンテンツのデータサイズはできるだけ小さいことが望まれ、又、要約サムネイルコンテンツの画像数はできるだけ少ないことが望まれる。
特許文献1には、番組内容を把握できるようにすると同時に、所望のシーンを簡単に検索でき、該シーンから映像を再生できるようにする方法が提案されている。この特許文献1記載の従来技術では、映像データの中から、字幕情報が表示される画像を切り出し、それらをサムネイル化する。そして、視聴者が、一覧表示された画像を選択すると、当該位置から映像が再生される。
特許文献2には、番組内容を要約したアニメーション画像を生成する方法が提案されている。この特許文献2記載の従来技術では、映像の中から画像と字幕情報を抽出し、それらを合成した画像群を連続的に切り替えたアニメーション画像として、要約コンテンツを生成する。そのアニメーション画像に利用する画像は、字幕情報を受信した時点、受信した字幕情報が一定のデータ量を超過した時点、映像シーンが切り替わった時点、あるいは、一定の時間が経過した時点のフレーム画像が利用される。また、要約コンテンツのデータサイズを小さくするために、切り出した画像に対して、輪郭だけを抽出する画像処理を施している。
特開平7−192003号公報 特開2007−006308号公報
しかし、上述した特許文献1記載の従来技術では、映像から抽出した画像をサムネイルとして一覧表示するだけであり、画像数が多くなるにつれ、その一覧性は非常に悪くなる。さらに、サムネイルの一覧表示では、画面サイズがある程度大きい表示装置による閲覧を想定する必要があり、汎用性がなくなる。特に、現在広く普及している携帯電話機では、携帯性向上のために画面サイズが小さく、サムネイルの一覧表示を視認性よく閲覧することが難しい。
特許文献2記載の従来技術では、番組内容を要約したアニメーション画像を生成するが、画像数が多くなるにつれて、アニメーションの再生時間が長くなり、さらに要約コンテンツのデータサイズも大きくなる。そのため、要約コンテンツのデータサイズを小さくするために、画像を2値化して線描画に変換することにより画像のデータサイズ自体を小さくしているが、特許文献2の図5に示される画面bのように、線描画では、映像の内容をしっかりと把握することは困難である。また、映像から切り出した画像に、字幕文字列を重畳させたアニメーション画像の表示を切り替える方法については、開示されていない。このため、アニメーション画像を再生する際に、視聴者が1枚1枚順番に画像を切り替えて表示させるためのマニュアル操作を行うことが考えられるが、その操作が大変である。或いは、アニメーション画像を一定間隔で自動的に切り替えて表示させることが考えられるが、1つのアニメーション画像に含まれる字幕文字列の長さによっては、視聴者が字幕文字列を読み終える前に、次のアニメーション画像に切り替わってしまう可能性がある。
このように、地上デジタル放送の番組の要約コンテンツの生成方法として、字幕情報データ内の字幕文字列を順番に切り替えて表示するのに合わせて、映像データから切り出した静止画も表示するアニメーションコンテンツとして生成する際、視聴者が字幕文字列および画像を理解できるように、表示対象のアニメーション画像を切り替えるタイミングを制御することが課題である。さらには、要約コンテンツのデータサイズは小さく、又、再生時間は短いことが好ましいが、視聴者が要約コンテンツを視聴するだけで元の放送番組の内容を理解することができる情報量を提供することも重要である。このため、アニメーションコンテンツに利用する画像数またはアニメーション画像の切り替え回数を削減しつつ、可読性の高い字幕文字列の表示方法が望ましい。
本発明は、このような事情を考慮してなされたもので、その目的は、デジタル放送番組の要約コンテンツとしてアニメーションコンテンツを生成する際に、表示対象のアニメーション画像を切り替えるタイミングを適切に制御することのできる要約コンテンツ生成装置およびコンピュータプログラムを提供することにある。
上記の課題を解決するために、本発明に係る要約コンテンツ生成装置は、映像データと字幕情報データを有するデジタル放送信号を用いて放送番組の要約コンテンツを生成する要約コンテンツ生成装置において、前記デジタル放送信号に含まれる字幕情報データから、字幕文字列を抽出する字幕文字列抽出手段と、前記デジタル放送信号に含まれる映像データから、前記字幕文字列に対応する静止画を一つ抽出する静止画抽出手段と、前記抽出された字幕文字列を前記抽出された対応する静止画とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成手段と、を備え、前記要約コンテンツ生成手段は、前記要約コンテンツを構成する複数の字幕文字列及び静止画についての表示切替タイミングを、該字幕文字列に基づいて決定することを特徴とする。
本発明に係る要約コンテンツ生成装置においては、前記要約コンテンツ生成手段は、字幕文字列の文字数に応じて、該字幕文字列が画面上に表示されている時間(表示時間)を決定することを特徴とする。
本発明に係る要約コンテンツ生成装置においては、字幕文字列の文字数に対し閾値を設け、閾値を境にして段階的に表示時間を長くすることを特徴とする。
本発明に係る要約コンテンツ生成装置においては、前記要約コンテンツ生成手段は、字幕文字列中の単語の難易度に応じて、該字幕文字列が画面上に表示されている時間を決定することを特徴とする。
本発明に係る要約コンテンツ生成装置においては、前記要約コンテンツ生成手段は、視聴者のプロフィールに応じて、字幕文字列が画面上に表示されている時間を決定することを特徴とする。
本発明に係る要約コンテンツ生成装置においては、前記要約コンテンツ生成手段は、前記要約コンテンツを構成する複数の字幕文字列及び静止画についての再生時刻を示す字幕・静止画表示スケジュール情報を作成することを特徴とする。
本発明に係る要約コンテンツ生成装置においては、前記要約コンテンツ生成手段は、連続する複数の字幕文字列が結合可能か判定し、結合可能と判定された複数の字幕文字列を結合し、結合した字幕文字列を一つの静止画に対応付けることを特徴とする。
本発明に係る要約コンテンツ生成装置においては、連続する複数の字幕文字列が結合可能かの判定基準は、字幕文字列A次いで字幕文字列Bの順序で連続する2つの字幕文字列A,Bに対し、判定基準1:字幕文字列Aが句点で終わっていない、を含むことを特徴とする。
本発明に係る要約コンテンツ生成装置においては、連続する複数の字幕文字列が結合可能かの判定基準は、字幕文字列A次いで字幕文字列Bの順序で連続する2つの字幕文字列A,Bに対し、判定基準2:字幕文字列A,Bの合計文字数が第1の規定文字数よりも少ない、を含むことを特徴とする。
本発明に係る要約コンテンツ生成装置においては、連続する複数の字幕文字列が結合可能かの判定基準は、字幕文字列A次いで字幕文字列Bの順序で連続する2つの字幕文字列A,Bに対し、判定基準3:字幕文字列Aの表示後、字幕文字列Bを表示するまでの時間が規定時間よりも短い、を含むことを特徴とする。
本発明に係る要約コンテンツ生成装置においては、連続する3つ以上の字幕文字列が結合可能かの判定基準は、字幕文字列A次いで字幕文字列B次いで字幕文字列Cの順序で連続する3つの字幕文字列A,B,Cに対し、判定基準4:字幕文字列A,B,Cの合計文字数が第2の規定文字数よりも多く、且つ、字幕文字列A,B,Cの結合「A+B+C」を2つの文字列に分割することにより、分割後の2つの文字列が両方とも第1の規定文字数よりも少なくなる、を含むことを特徴とする。
本発明に係る要約コンテンツ生成装置においては、前記判定基準4を満たす3つの字幕文字列の結合を分割するときの分割位置は、読点で終わる、単語の中間ではない、又は、全文字列長の中間位置に近い、のいずれかの条件をみたすところに決定する、ことを特徴とする。
本発明に係る要約コンテンツ生成装置においては、前記要約コンテンツ生成手段は、連続する複数の静止画が類似しているか判定し、連続する複数の類似した静止画の中から代表の静止画を採用することを特徴とする。
本発明に係る要約コンテンツ生成装置においては、前記静止画抽出手段は、前記字幕文字列抽出手段によって抽出された字幕文字列に対応する候補画像群の中から、一番目の画像、真ん中の画像、又は、ランダムに選択した一つの画像を該字幕文字列に対応する静止画として抽出することを特徴とする。
本発明に係る要約コンテンツ生成装置においては、前記デジタル放送信号に含まれる映像データを解析し、画像内に映っている人物を検出する人物検出手段を備え、前記静止画抽出手段は、人物が映っている画像を前記静止画として抽出することを特徴とする。
本発明に係る要約コンテンツ生成装置においては、前記デジタル放送信号に含まれる映像データを解析し、画像内に映っている人物を検出し、該人物が正面を向いているか判断する人物検出手段を備え、前記静止画抽出手段は、人物が正面を向いて映っている画像を前記静止画として抽出することを特徴とする。
本発明に係る要約コンテンツ生成装置においては、前記デジタル放送信号に含まれる映像データを解析し、画像内に映っている人物を検出し、該人物が正面を向いているか判断する人物検出手段と、該映像データを解析し、前記人物検出手段によって検出された人物の表情を判定する表情検出手段と、を備え、前記静止画抽出手段は、人物が特定の表情をして映っている画像を前記静止画として抽出することを特徴とする。
本発明に係る要約コンテンツ生成装置においては、前記特定の表情は、眼が開いている、笑っている、又は、泣いている、であることを特徴とする。
本発明に係る要約コンテンツ生成装置においては、前記デジタル放送信号に含まれる映像データには、映像データが表示される画面上に挿入される文字列のデータであるテロップデータが含まれており、前記デジタル放送信号に含まれる映像データを解析し、画像中にテロップデータが挿入されているかを検出するテロップ検出手段を備え、前記静止画抽出手段は、テロップデータが挿入されている画像を前記静止画として抽出することを特徴とする。
本発明に係る要約コンテンツ生成装置においては、前記デジタル放送信号に含まれる映像データには、ニュース番組においてメインのニュースキャスタが現れる映像区間であるアンカーショットが映っている画像が含まれており、前記デジタル放送信号に含まれる映像データを解析し、画像にアンカーショットが映っているかを判定するアンカーショット検出手段を備え、前記静止画抽出手段は、アンカーショットが映っている画像を前記静止画として抽出することを特徴とする。
本発明に係るコンピュータプログラムは、映像データと字幕情報データを有するデジタル放送信号を用いて放送番組の要約コンテンツを生成するためのコンピュータプログラムであって、前記デジタル放送信号に含まれる字幕情報データから、字幕文字列を抽出する字幕文字列抽出機能と、前記デジタル放送信号に含まれる映像データから、前記字幕文字列に対応する静止画を一つ抽出する静止画抽出機能と、前記抽出された字幕文字列を前記抽出された対応する静止画とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成機能と、をコンピュータに実現させるものであり、前記要約コンテンツ生成機能は、前記要約コンテンツを構成する複数の字幕文字列及び静止画についての表示切替タイミングを、該字幕文字列に基づいて決定することを特徴とする。
これにより、前述の要約コンテンツ生成装置がコンピュータを利用して実現できるようになる。
本発明によれば、要約コンテンツを構成する複数の字幕文字列及び静止画についての表示切替タイミングが、該字幕文字列に基づいて決定される。例えば、字幕文字列の文字数、字幕文字列中の単語の難易度などに応じて、該表示切替タイミングが決定される。これにより、デジタル放送番組の要約コンテンツとしてアニメーションコンテンツを生成する際に、表示対象のアニメーション画像を切り替えるタイミングを適切に制御することができるという効果が得られる。
以下、図面を参照し、本発明の一実施形態について説明する。
図1は、本発明の一実施形態に係るデジタル放送受信システムの全体構成を示すブロック図である。図1において、デジタル放送受信システムには、アンテナ等を介して受信したデジタル放送信号が入力される。デジタル放送としては、例えば、地上デジタル放送および衛星デジタル放送などの放送波を利用したもの、IP(Internet Protocol)放送と呼ばれるインターネット(IP通信網)を利用したもの、などが挙げられる。本実施形態では、以下、地上デジタル放送を例に挙げて説明する。
地上デジタル放送信号は、映像データ、音声データ及び字幕情報データを有する。字幕情報データは、テレビ画面上に表示する字幕文字列を有する。地上デジタル放送信号中において、字幕情報データは、自己が有する字幕文字列を一緒に表示する映像データの再生タイミングに合わせた位置に配置されている。従って、地上デジタル放送受信端末は、受信した地上デジタル放送信号によって、映像データ及び音声データを再生しながら、字幕情報データを受信した時点で、該字幕情報データ中の字幕文字列を映像に重畳させて表示する。
図2に、地上デジタル放送信号について、テレビ画面上に表示する映像データと字幕情報データの関係を表す概念図を示す。図2において、映像再生中に、例えば字幕番号C1の字幕文字列を含む字幕情報データを受信した時点のフレーム画像がフレーム画像番号F1であった後、字幕番号C2の字幕文字列を含む字幕情報データを受信した時点のフレーム画像がフレーム画像番号F6であったことを示している。このように、1つの字幕文字列(字幕番号Ci)に対して、複数のフレーム画像(フレーム画像番号Fj)が対応している。地上デジタル放送受信端末は、新たな字幕情報データを受信した時点で、それまで表示していた字幕文字列を消去し、現在受信した字幕文字列を表示する。このことから、字幕情報データと映像データとの関係は、字幕文字列、字幕文字列の表示時刻及び字幕文字列を重畳表示するフレーム画像列を関連付ける、図3に示すようなタイムスケジュール表として表すことができる。なお、地上デジタル放送において、字幕情報データは、最短で2秒間隔で地上デジタル放送信号に挿入される。従って、例えば放送時間が30分の番組の場合、計算上約900回分の字幕情報データを挿入することができる。但し、実際の地上デジタル放送では、30分の番組で、字幕情報データ挿入回数は300から400回程度、字幕文字列の総文字数は4000から6000文字程度である。
まず図1に示すデジタル放送受信システムの構成を説明する。
チューナ部11は、地上デジタル放送信号の中から1つのチャンネルの放送信号を受信し、復調部12に出力する。受信チャンネルは、視聴者が選択したチャンネルが番組録画管理部21経由でチューナ部11に通知される。復調部12は、チューナ部11から受け取った放送信号を復調し、復調信号を分離部13に出力する。分離部13は、該復調信号から、映像データ、字幕情報データ及び音声データをそれぞれに分離する。映像データは映像デコード部14に送られる。字幕情報データは字幕情報デコード部15に送られる。音声データは音声デコード部16に送られる。映像デコード部14は映像データを復号する。字幕情報デコード部15は字幕情報データを復号する。音声デコード部16は音声データを復号する。復号後の映像データ、字幕情報データ及び音声データは、番組録画管理部21に送られる。
なお、これら地上デジタル放送受信機能に係る各部11〜16は、従来の地上デジタル放送受信端末と同様である。また、地上デジタル放送受信端末は、映像デコード部14によって復号された映像データを表示する映像表示部と、字幕情報デコード部15によって復号された字幕情報データ中の字幕文字列を表示する文字情報表示部と、音声デコード部16によって復号された音声データを再生する音声再生部と、を備えている。
番組録画管理部21は、視聴者が選択したチャンネルをチューナ部11に通知する。番組録画管理部21は、デコード部14,15,16から受け取った映像データ、字幕情報データ及び音声データを一つの番組コンテンツとしてハードディスク装置(HDD)22に記録する。従って、番組コンテンツは、映像データ、字幕情報データ及び音声データから構成される。
なお、番組コンテンツは、視聴者によって任意に生成することができるようにする。例えば、視聴者がチャンネルを切り替える度に、異なる番組コンテンツとしてハードディスク装置22に記録してもよい。或いは、視聴者からの指示によって、該指示時点から異なる番組コンテンツとしてハードディスク装置22に記録してもよい。
コンテンツ読込部23は、ハードディスク装置22から番組コンテンツを読み出し、コンテンツ処理部30に出力する。読み出す番組コンテンツは、視聴者が任意に選択することができるようにする。なお、コンテンツ読込部23は、読み出した番組コンテンツを図示しないコンテンツ再生部に送って、該番組コンテンツを表示装置上で再生させることができる。
コンテンツ処理部30は、映像解析部31と映像処理部32、字幕情報解析部33と字幕情報処理部34、音声解析部35と音声処理部36から構成される。
映像解析部31は番組コンテンツ中の映像データを解析する。映像処理部32はその映像データ解析結果に基づいて映像データを処理する。映像処理部は、例えば、コンテンツ読込部23から受け取った映像データ中の全フレーム画像の中から、要約コンテンツ生成に利用する静止画を取捨選択する処理を行う。
字幕情報解析部33は番組コンテンツ中の字幕情報データを解析する。字幕情報処理部34はその字幕情報データ解析結果に基づいて字幕情報データを処理する。字幕情報処理部は、例えば、コンテンツ読込部23から受け取った字幕情報データ中の各字幕文字列に対して、要約コンテンツの各アニメーション切り替え時に表示する文字列を決定する。
音声解析部35は番組コンテンツ中の音声データを解析する。音声処理部36はその音声データ解析結果に基づいて音声データを処理する。音声処理部は、例えば、要約コンテンツに音声データを挿入する場合、必要な音声データのみを抽出、編集する処理を行う。一方、要約コンテンツ生成に音声データを挿入しない場合であっても、映像データ中の全フレーム画像に対して要約用静止画を取捨選択する際の判定基準として利用する。例えば、音声認識結果と字幕情報とを照合することによる、映像のシーン切り替えの判定、或いは、音声認識結果から話者を区別することによる、話者ごとの字幕情報の分類、映像データのシーン切り替えの判定などの処理を行う。
要約コンテンツ生成部40は、コンテンツ処理部30と連携して要約コンテンツを生成する。要約コンテンツは、一つの番組コンテンツを対象にして生成される。要約コンテンツは、対象番組コンテンツについて、映像データ中の静止画(以下、「要約用静止画」と称する)と、字幕情報データ中の字幕文字列(以下、「要約用文字列」と称する)と、該要約用静止画及び要約用文字列を再生するためのスケジュール情報(以下、「字幕・静止画表示スケジュール情報」と称する)とから構成される。なお、要約コンテンツに音声データを含めるようにしてもよい。音声データを要約コンテンツに含めるか否かは、視聴者によって選択できるようにする。
データベース50は、要約コンテンツ生成部40によって作成された要約コンテンツを格納する。
次に、本実施形態に係る要約コンテンツの生成動作を詳細に説明する。
図4は、本実施形態に係る要約コンテンツの生成手順を示すフローチャートである。以下、図4に示される手順(ステップS1〜S8)に従ってステップ毎に動作を説明する。なお、要約コンテンツ生成部40は、コンテンツ処理部30と連携して、図4の各ステップの処理を行う。要約コンテンツ生成部40は、番組コンテンツ中の映像データに係る処理について映像解析部31及び映像処理部32と連携する。要約コンテンツ生成部40は、番組コンテンツ中の字幕情報データに係る処理について字幕情報解析部33及び字幕情報処理部34と連携する。また、音声データを要約コンテンツに含める場合には、要約コンテンツ生成部40は、番組コンテンツ中の音声データに係る処理について音声解析部35及び音声処理部36と連携する。
[ステップS1:スケジュール情報の初期設定]
要約コンテンツ生成部40は、字幕・静止画表示スケジュール情報を初期設定する。この初期設定では、まず対象番組コンテンツ中の全ての字幕情報データを対象にして、字幕情報データに含まれる字幕文字列Tn(但し、nは字幕文字列の識別番号(1、2、3、・・・)である)を検出する。一つの字幕文字列Tnは、全ての文字が同時に映像に重畳されて表示されるものである。次いで、各字幕文字列Tnに対して、その表示順序に従って字幕番号Cm(但し、m=1、2、3、・・・)を付与する。次いで、各字幕文字列Tnの表示時刻を、番組コンテンツ再生開始時点からの経過時間によって表す。次いで、それら字幕番号Cm、表示時刻及び字幕文字列Tnの組を字幕・静止画表示スケジュール情報に含める。図5に字幕・静止画表示スケジュール情報100の構成例を示す。このステップS1の段階では、対象番組コンテンツ中の全ての字幕文字列Tnが抽出され、各字幕文字列Tnに対応する字幕番号Cm、表示時刻及び字幕文字列Tnの組のみが字幕・静止画表示スケジュール情報100に格納される。
[ステップS2:字幕文字列の結合判定]
字幕情報データ中の各字幕文字列は、必ずしもそれだけで1つの文章を構成するとは限らない。ここで、文章とは、文末が句点で終わる文字列を指す。放送番組では、場合によっては、登場人物の会話などの映像進行に合わせて、文章が分割され、連続する複数の字幕文字列から1つの文章が構成される。また、映像の進行に対して、字幕情報データの受信間隔は不定である。例えば2秒程度の非常に短い間隔で次の字幕情報データを受信する場合もあれば、10秒以上経過しても次の字幕情報データを受信しない場合もある。このような知見に基づき、本実施形態では、連続する複数の字幕文字列が結合可能かどうか判定し、結合可能と判定された字幕文字列を結合する。
まず、要約コンテンツ生成部40は、字幕・静止画表示スケジュール情報100中の字幕文字列を対象にして、連続する複数の字幕文字列が結合可能かどうか判定する。以下に、連続する2つの字幕文字列(説明の便宜上、字幕文字列A,Bとし、A,Bの順序で連続しているとする)が結合可能かどうか判定するための判定基準を示す。
判定基準1:字幕文字列Aが、句点で終わっていない。
判定基準2:字幕文字列A,Bの合計文字数が、第1の規定文字数N1(例えば30文字)よりも少ない。
判定基準3:字幕文字列Aの表示後、字幕文字列Bを表示するまでの時間が、規定時間TIM1(例えば4.0秒)よりも短い。
要約コンテンツ生成部40は、図6に示される手順(ステップS21〜S24)に従って、字幕文字列の結合判定処理を行う。図6は、本実施形態に係る字幕文字列の結合判定処理の流れを示すフローチャートである。図6において、まず、ステップS21では、字幕・静止画表示スケジュール情報100の中から、連続する2つの字幕文字列A,Bを抜き出す。ステップS22では、判定基準1により、字幕文字列Aの末尾が句点ではないことを検証する。ステップS23では、判定基準2により、字幕文字列A,Bの合計文字数が第1の規定文字数N1よりも少ないことを検証する。ステップS24では、判定基準3により、字幕文字列A,Bの表示開始時間の差が規定時間TIM1よりも短いことを検証する。これらステップS22,23,24の検証が全て合格であり、字幕文字列A,Bが判定基準1,2,3を全て満たす場合に、その連続する2つの字幕文字列A,Bを結合し、1つの字幕文字列として字幕・静止画表示スケジュール情報100を更新する。
図7に、図5の字幕・静止画表示スケジュール情報100に対する字幕文字列の結合処理結果の例を示す。図7の例では、図5中の字幕文字列T1,T2が結合可能であると判定されたので、字幕番号C1の組の字幕文字列を字幕文字列T1,T2の結合「T1+T2」に変更するとともに、字幕番号C2の組の情報(表示時刻および字幕文字列)を削除する。同様に、図5中の字幕文字列T6,T7が結合可能であると判定されたので、字幕番号C6の組の字幕文字列を字幕文字列T6,T7の結合「T6+T7」に変更するとともに、字幕番号C7の組の情報(表示時刻および字幕文字列)を削除する。
なお、上述の例では連続する2つの字幕文字列を結合する場合を挙げたが、連続する3つ以上の字幕文字列を結合対象にして、上記判定基準により結合可能か判定し、結合を行ってもよい。
また、上述の図6の処理フローでは、字幕文字列A,Bが判定基準1,2,3を全て満たす場合にのみ字幕文字列A,Bを結合したが、判定基準1,2,3のいずれか一つ又は複数を満たした場合に字幕文字列A,Bを結合するようにしてもよい。
また、上述の判定基準1,2,3による第1の結合規則の他に、第2の結合規則として、以下の判定基準4を満たす場合に、結合可能と判定するようにしてもよい。
判定基準4:連続する3つの字幕文字列A,B,Cに対して、それら合計文字数が第2の規定文字数N2よりも多く、且つ、字幕文字列A,B,Cの結合「A+B+C」を2つの文字列に分割することにより、分割後の2つの文字列が両方とも第1の規定文字数N1よりも少なくなる。
この第2の結合規則によれば、要約コンテンツ生成部は、連続する3つの字幕文字列を結合してから2つの文字列に分割し、字幕・静止画表示スケジュール情報100を更新する。図8に、図7の字幕・静止画表示スケジュール情報100に対する、第2の結合規則による処理結果の例を示す。図8の例では、図7中の字幕文字列T8、T9、T10の合計文字数が第2の規定文字数N2よりも多く、該字幕文字列T8、T9、T10を結合してから2つの文字列T8',T8”に分割することで、文字列T8',T8”が両方とも第1の規定文字数N1よりも少なくなる。このため、字幕番号C8の組の字幕文字列を該分割後の文字列T8'に変更するとともに、字幕番号C9の組の字幕文字列を該分割後の文字列T8”に変更し、字幕番号C10の組の情報(表示時刻および字幕文字列)を削除する。
なお、第2の結合規則において、字幕文字列の結合を分割するときの分割位置は、例えば、(1)読点で終わる、(2)単語の中間ではない、(3)全文字列長の中間位置に近い、のいずれかの条件をみたすところに決定する。
要約コンテンツ生成部40は、字幕・静止画表示スケジュール情報100中の全ての字幕文字列を対象にして、表示順序に従って先頭の字幕文字列から順次結合判定を行い、結合可能な字幕文字列を結合し、字幕・静止画表示スケジュール情報100を更新する。
[ステップS3:字幕文字列に対する候補画像群の抽出]
要約コンテンツ生成部40は、字幕・静止画表示スケジュール情報100中の各字幕文字列に対する要約用静止画の候補となるフレーム画像群(以下、「候補画像群」と称する)を、字幕・静止画表示スケジュール情報100中の表示時刻に基づいて、対象番組コンテンツ中の映像データから抽出する。
ここで、一般的に、字幕文字列は、映像の進行よりも少し早いタイミングで表示される。但し、生放送番組などでは、字幕文字列の方が映像よりも遅く表示される場合がある。そのため、映像と字幕文字列が内容的に一致していない可能性がある。つまり、映像シーンが切り替わる前であるにも関わらず、字幕文字列は、次の映像シーンの内容を示している場合がある。あるいは、映像シーンが切り替わった後にも関わらず、字幕文字列は、前の映像シーンの内容を示している場合がある。
このような知見に基づき、本実施形態では、各字幕文字列に対する候補画像群として、字幕文字列の表示期間の範囲よりも多く抽出する。つまり、字幕番号Ckの組の表示時刻がtkであり、次の字幕番号Ck+1の組の表示時刻がtk+1である場合に、映像データから、表示時刻tkと表示時刻tk+1の間に存在するフレーム画像を抽出するとともに、時刻tk以前のNex個のフレーム画像、および、時刻tk+1以降のNex個のフレーム画像も抽出する。但し、Nexは0以上の整数である。図9に、字幕番号Ckについての候補画像群を抽出する概念図を示す。図9において、字幕番号Ck,Ck+1の各表示時刻に対応するのがフレーム画像番号Fk,Fk+1であるとき、字幕番号Ckについての候補画像群は、フレーム画像番号Fk-NexからFk+1+Nex-1である。
要約コンテンツ生成部40は、上述のようにして、字幕・静止画表示スケジュール情報100中の各字幕文字列に対する候補画像群を対象番組コンテンツ中の映像データから抽出する。そして、要約コンテンツ生成部40は、各字幕文字列に対する候補画像群を示すフレーム画像番号列を、それぞれの字幕文字列の組の情報として字幕・静止画表示スケジュール情報100に格納する。図10に、各字幕文字列に係る候補画像群を示すフレーム画像番号列を格納した字幕・静止画表示スケジュール情報100の例を示す。なお、図10の例は、上記ステップS2において、図7の字幕・静止画表示スケジュール情報100に対し、さらに字幕番号C8の組の字幕文字列が、字幕文字列T8,T9,T10を結合した文字列「T8+T9+T10」に変更された場合である。
[ステップS4:候補画像群の範囲調整]
要約コンテンツ生成部40は、字幕・静止画表示スケジュール情報100中のフレーム画像番号列で示される候補画像群(フレーム画像群)から、字幕文字列に対する要約用静止画として不適当なフレーム画像を削除する。これは、地上デジタル放送において、映像の進行と字幕文字列の表示には、若干のずれがあるため、映像の内容と字幕文字列の内容が一致していない場合があるためである。そのため、候補画像群の中に映像シーンの切り替えが存在する場合には、該候補画像群において映像シーン切り替えの前半部あるいは後半部を削除する。図11に、候補画像群の範囲調整の概念図を示す。図11において、字幕番号Ckについての候補画像群に対して、前半部のNSCフレーム時にシーン切り替えが発生していると判定された場合、候補画像群からその前半部のフレーム画像を削除する。図12に、図10の字幕・静止画表示スケジュール情報100に対する処理結果の例を示す。図12の例では、図10中の字幕番号C8についての候補画像群(フレーム画像番号列「1565-1959」)に対して前半部の20個のフレーム画像を削除し、図12に示されるように、字幕番号C8についての候補画像群をフレーム画像番号列「1585-1959」に変更している。
[ステップS5:要約用静止画の選択]
要約コンテンツ生成部40は、字幕・静止画表示スケジュール情報100中のフレーム画像番号列で示される候補画像群の中から、要約用静止画を1つ選択する。要約用静止画の選択方法としては、例えば、(1)一番目の画像を選択、(2)真ん中の画像を選択、(3)ランダムに選択、などが挙げられる。
要約コンテンツ生成部40は、字幕・静止画表示スケジュール情報100中の各字幕文字列について要約用静止画を選択する。そして、要約コンテンツ生成部40は、各字幕文字列についての要約用静止画のフレーム画像番号をそれぞれの字幕文字列の組の情報として字幕・静止画表示スケジュール情報100に格納する。図13に、図12の字幕・静止画表示スケジュール情報100に対する処理結果の例を示す。
[ステップS6:要約用静止画の類似度判定]
上記ステップS5で選択された要約用静止画に関して、連続する要約用静止画が類似している場合がある。例えば、連続する2つの要約用静止画が、ともに、ニュースキャスターが原稿を読んでいる場面、或いは、同じ場所を撮影している場面など、同じ映像シーンに存在している場合や、同じ被写体を撮影している場合などである。このような知見に基づき、本実施形態では、連続する複数の要約用静止画が類似している場合には、どれか一つの要約用静止画を代表の要約用静止画として採用することで、それら連続する複数の要約用静止画については表示の切替を行わないように、字幕・静止画表示スケジュール情報100を変更する。
まず要約コンテンツ生成部40は、字幕・静止画表示スケジュール情報100中の連続する2つの要約用静止画P,Qが類似しているかどうか判定する。この結果、類似していると判定された場合には、要約コンテンツ生成部40は、要約用静止画Pから要約用静止画Qへの表示の切替を行わないよう、字幕・静止画表示スケジュール情報100を変更する。図14に、図13の字幕・静止画表示スケジュール情報100に対する処理結果の例を示す。図14の例では、図13中の字幕番号C3の組の要約用静止画(フレーム画像番号列「1189」)と字幕番号C4の組の要約用静止画(フレーム画像番号列「1278」)とが類似していたために、図14に示されるように、字幕番号C4の組の要約用静止画のフレーム画像番号が削除されている。これにより、字幕番号C3の組の字幕文字列T6から字幕番号C4の組の字幕文字列T4へと字幕表示が切り替わっても、その字幕文字列と一緒に表示される要約用静止画は字幕番号C3の組の要約用静止画(フレーム画像番号列「1189」)のまま変更されず、同じ要約用静止画が表示され続けることになる。
なお、上述の例では連続する2つの要約用静止画が類似する場合を挙げたが、連続する3つ以上の要約用静止画が類似している場合についても、同様に、要約用静止画の表示の切替を行わないよう、字幕・静止画表示スケジュール情報100を変更するようにしてもよい。
[ステップS7:表示時間の設定]
上記ステップS6までの段階で作成された字幕・静止画表示スケジュール情報100中の「表示時刻」は、元々の放送番組の時間をもとに付与されている。つまり、元々の放送番組の放送時間が30分であった場合には、その「表示時刻」通りに要約用コンテンツ(字幕文字列及び要約用静止画)を再生すると、要約用コンテンツの再生にかかる時間も30分となってしまう。一方で、視聴者ごとに字幕文字列を読む早さや読解力が異なり、特に、字幕文字列中に難易度の高い単語が含まれている場合には、それが顕著となる。
このような知見に基づき、本実施形態では、要約コンテンツを短時間で再生できるように、さらには視聴者が放送内容を理解しやすくなるように、字幕・静止画表示スケジュール情報100に対して、字幕文字列及び要約用静止画の再生を開始する「再生時刻」を設定する。「再生時刻」の設定方法のいくつかの例を以下に示す。
<再生時刻設定方法1>
要約コンテンツの再生にかけられる時間(再生時間)が指定されている場合に、その再生時間を字幕・静止画表示スケジュール情報100中の字幕文字列の個数で等分割する。そして、等分割された再生時間に従って、各字幕文字列の再生時刻を字幕・静止画表示スケジュール情報100に設定する。この方法の場合、各字幕文字列が、テレビ画面上に表示されている時間(表示時間)は同じになる。そして、例えば視聴者が指定した再生時間で、要約コンテンツを再生し終えることができる。
或いは、全ての字幕文字列に対して表示時間が規定値TIM2で一定となるように、各字幕文字列の再生時刻を字幕・静止画表示スケジュール情報100に設定する。この方法の場合も、各字幕文字列がテレビ画面上に表示されている時間は同じになる。
<再生時刻設定方法2>
字幕・静止画表示スケジュール情報100中の字幕文字列の文字数に応じて、当該字幕文字列がテレビ画面上に表示されている時間(表示時間)を決定する。
(再生時刻設定方法2−1)
再生時刻設定方法2−1では、字幕文字列の文字数が多いほど表示時間を長くするように、各字幕文字列の再生時刻を設定する。図15に、この場合の処理フローを示す。図15の処理では、字幕・静止画表示スケジュール情報100中の全ての字幕文字列に対して、表示時間を算出している。図15において、ステップS41では、変数iに初期値「1」をセットする。ステップS42では、字幕番号Ciの組の字幕文字列が存在するか調べる。字幕番号Ciの組の字幕文字列が存在する場合にはステップS43に進み、字幕番号Ciの組の字幕文字列が存在しない場合にはステップS45に進む。ステップS43では、字幕番号Ciの組の字幕文字列の文字数CNiを数える。ステップS44では、字幕番号Ciの組の字幕文字列の表示時間TNi(単位は秒)を計算する。この計算式は、「TNi=2+(CNi÷20)」である。ステップS45では、変数iに1を加える。ステップS46では、字幕番号Ciが字幕・静止画表示スケジュール情報100中に存在するか調べる。字幕番号Ciが字幕・静止画表示スケジュール情報100中に存在する場合はステップS42に戻る。一方、字幕番号Ciが字幕・静止画表示スケジュール情報100中に存在せず、全ての字幕番号Ciについての処理が終了した場合には処理を終了する。この図15の処理によって算出された各字幕文字列の表示時間TNiに従って、各字幕文字列の再生時刻を字幕・静止画表示スケジュール情報100に設定する。
(再生時刻設定方法2−2)
再生時刻設定方法2−2では、字幕文字列の文字数に対し閾値を設け、閾値を境にして段階的に表示時間を長くする。
字幕文字列の文字数が規定値N3以下であれば、該字幕文字列の表示時間を規定値TIM3とする。一方、字幕文字列の文字数が規定値N3超過であれば、該字幕文字列の表示時間を規定値TIM4にする。但し、規定値TIM4は規定値TIM3より長い時間である。各規定値は、例えば、N3=12、TIM3=2秒、TIM4=4秒と設定する。そして、各字幕文字列の表示時間に従って、各字幕文字列の再生時刻を字幕・静止画表示スケジュール情報100に設定する。
上述の再生時刻設定方法2−1,2の場合、全体の再生時間は、全字幕文字列の文字数の総合計によって変動する。そして、文字数に応じて字幕文字列の表示時間が増減されるので、効果的な再生時間の設定が可能であるとともに、視聴者が最後まで字幕を読み終える確度が高くなる。
<再生時刻設定方法3>
字幕・静止画表示スケジュール情報100中の字幕文字列内に、難易度の高い単語が含まれている場合、その難易度に応じて、該字幕文字列がテレビ画面上に表示されている時間(表示時間)を決定する。例えば、難易度の高い単語が含まれていない字幕文字列に対する表示時間は、所定値(例えば、上記再生時刻設定方法1又は再生時刻設定方法2で定めた値)とする。そして、難易度の高い単語が含まれる字幕文字列に対する表示時間は、該所定値を増加させた値(例えば、所定倍率だけ割り増した値、一定値を加算した値など)とする。そして、各字幕文字列の表示時間に従って、各字幕文字列の再生時刻を字幕・静止画表示スケジュール情報100に設定する。
難易度の高い単語とは、政治、経済、法律、医学など、専門性の高い単語などを指す。その難易度の高い単語をデータベース化しておき、該データベースを参照することで、字幕文字列内に難易度の高い単語が含まれているか否かを判定する。
この再生時刻設定方法3の場合、全体の再生時間は、難易度の高い単語が含まれる字幕文字列の個数によって変動する。そして、難易度の高い単語の有無に応じて字幕文字列の表示時間が増減されるので、効果的な再生時間の設定が可能であるとともに、視聴者が字幕を理解する確度が高くなる。
図16に、上述の再生時刻設定方法2−2と本再生時刻設定方法3を組み合わせた処理フローを示す。図16の処理では、字幕・静止画表示スケジュール情報100中の全ての字幕文字列に対して、まず、字幕文字列の文字数の閾値によって段階的に表示時間を決定する。そして、難易度の高い単語が含まれている字幕文字列に対しては、該決定した表示時間を増加させる。図16の例では、再生時刻設定方法2−2に関する規定値が、N3=12、TIM3=2秒、TIM4=4秒である。そして、難易度の高い単語として政治用語を用い、政治用語のデータベースを準備する。
図16において、ステップS51では、変数iに初期値「1」をセットする。ステップS52では、字幕番号Ciの組の字幕文字列が存在するか調べる。字幕番号Ciの組の字幕文字列が存在する場合にはステップS53に進み、字幕番号Ciの組の字幕文字列が存在しない場合にはステップS59に進む。ステップS53では、字幕番号Ciの組の字幕文字列の文字数CNiを数える。ステップS54では、文字数CNiが、規定値N3の「12」以下か判定する。文字数CNiが、規定値N3の「12」以下である場合は、ステップS55に進み、字幕番号Ciの組の字幕文字列の表示時間TNiを規定値TIM3の「2秒」に決定する。一方、文字数CNiが、規定値N3の「12」超過である場合は、ステップS56に進み、字幕番号Ciの組の字幕文字列の表示時間TNiを規定値TIM4の「4秒」に決定する。
次いでステップS57では、字幕番号Ciの組の字幕文字列に政治用語が含まれているか調べる。この調査では、字幕文字列中の文字の全ての組み合わせを対象にして、文字の組合せが政治用語のデータベース内に存在するかを調べる。そして、いずれかの文字の組合せが政治用語のデータベース内に存在した場合に、当該字幕文字列に政治用語が含まれていると判断する。その結果、字幕文字列に政治用語が含まれている場合には、ステップS58に進み、上記ステップS55又はS56で決定した字幕番号Ciの組の字幕文字列の表示時間TNiに対して1秒を加える。一方、字幕文字列に政治用語が含まれていない場合には、そのままステップS59に進む。
ステップS59では、変数iに1を加える。ステップS60では、字幕番号Ciが字幕・静止画表示スケジュール情報100中に存在するか調べる。字幕番号Ciが字幕・静止画表示スケジュール情報100中に存在する場合はステップS52に戻る。一方、字幕番号Ciが字幕・静止画表示スケジュール情報100中に存在せず、全ての字幕番号Ciについての処理が終了した場合には処理を終了する。この図16の処理によって算出された各字幕文字列の表示時間TNiに従って、各字幕文字列の再生時刻を字幕・静止画表示スケジュール情報100に設定する。
<再生時刻設定方法4>
視聴者のプロフィール情報(年齢、性別、職業など)に応じて、字幕文字列がテレビ画面上に表示されている時間(表示時間)を決定する。プロフィール情報の項目、例えば年齢、職業などを検索キーにした、再生時間のデータベースを作成しておき、視聴者のプロフィール情報に対応した表示時間を該データベースから取得する。表示時間のデータベースとしては、例えば、高齢者や子供には表示時間を長くする、などが挙げられる。視聴者のプロフィール情報は、予め記録しておくか、或いは、視聴者から適宜、手入力してもらう。そして、その決定した表示時間に従って、各字幕文字列の再生時刻を字幕・静止画表示スケジュール情報100に設定する。この方法の場合、全体の再生時間は、視聴者のプロフィールによって変動する。そして、視聴者のプロフィールに応じて字幕文字列の再生時間が増減されるので、効果的な再生時間の設定が可能であるとともに、視聴者が字幕を理解する確度が高くなる。
なお、上述した以外の他の再生時刻設定方法としては、例えば、視聴者の読解能力を推測し、推測結果に応じて表示時間を設定することが考えられる。視聴者の読解能力を推測する方法としては、例えば、要約コンテンツ再生装置が要約コンテンツを自動再生(アニメーション)する際に、ユーザが再生速度を調節する操作(例えば、早送り、巻き戻し、一時停止など)を記録し、その記録内容から所定の基準に従って視聴者の読解能力を判断することが挙げられる。さらに、表示された字幕文字列内の単語の難易度や文字数を考慮して、総合的に視聴者の読解能力を判断するようにしてもよい。
要約コンテンツ生成部40は、上記再生時刻設定方法1,2,3,4のいずれか、若しくは組合せによって、各字幕文字列の再生時刻を字幕・静止画表示スケジュール情報100に設定する。図17に、図14の字幕・静止画表示スケジュール情報100に対する処理結果の例を示す。図17の例は、再生時刻設定方法2−2を用いた場合である。図17の例では、先頭の字幕番号C1の組の字幕文字列の再生時刻を初期値「00:00:00」にし、以降の各字幕文字列の再生時刻をそれ以前の各字幕文字列の表示時間の累計によって設定している。そして、字幕番号C8の組の字幕文字列「T8+T9+T10」のみが、規定値N3の12文字を超過しているために、表示時間「4秒(規定値TIM4)」となっている。それ以外の他の字幕番号の組の字幕文字列については文字数が、規定値N3の12文字以下のために表示時間「2秒(規定値TIM3)」となっている。
本ステップS7までの段階により、字幕・静止画表示スケジュール情報100には、要約コンテンツに含める対象として、要約用文字列となる字幕文字列と、要約用静止画と、要約用文字列及び要約用静止画の再生時刻とが設定される。該再生時刻は、要約用文字列の表示を切り替えるタイミング(要約用文字列の表示切替タイミング)、又は、要約用静止画の表示を切り替えるタイミング(要約用静止画の表示切替タイミング)、である。
[ステップS8:要約コンテンツのフォーマット変換]
要約コンテンツ生成部40は、要約コンテンツを再生する再生装置(要約コンテンツ再生装置)のスペックに合わせて、字幕・静止画表示スケジュール情報100で示される各要約用静止画を対象に画像フォーマットを変換する。例えば、携帯電話機が要約コンテンツ再生装置であり、要約コンテンツを表示する際の解像度が、横240ピクセル、縦80ピクセルである場合には、その解像度に合わせるように要約用静止画を画像処理する。そして、要約コンテンツ生成部40は、字幕・静止画表示スケジュール情報100で示される、画像フォーマット変換後の要約用静止画及び要約用文字列と、字幕・静止画表示スケジュール情報100とを一つの要約コンテンツとして、データベース50に記録する。
上記ステップS1〜S8によって、一つの番組コンテンツについての要約コンテンツが作成される。要約コンテンツ再生装置は、データベース50から要約コンテンツを読み出し、要約コンテンツ中の要約用文字列を該当する要約用静止画に重畳させて表示し再生する。この再生の際には、字幕・静止画表示スケジュール情報100中の再生時刻に従って、要約用文字列及び要約用静止画の表示を切り替える。
なお、上述の実施形態では、要約用静止画、要約用文字列及び字幕・静止画表示スケジュール情報の3つのデータから構成される要約コンテンツを生成したが、それら3つのデータをアニメーション画像フォーマットに変換した1つのコンテンツとして生成してもよい。これにより、要約コンテンツ再生装置のスペックに合わせて、要約コンテンツを生成してもよい。
また、要約用静止画及び要約用文字列を切り替える際のアニメーション方法を要約コンテンツ生成開始時に指定し、字幕・静止画表示スケジュール情報内に記載しておいてもよい。例えば、要約用静止画が切り替わるときには、ズーム、スライドイン、ディゾルブなどの効果的なエフェクトを付けるように、アニメーション方法を指定するようにしてもよい。
また、上述の実施形態では、要約コンテンツを一旦、データベース50に格納したが、要約コンテンツ生成部40から要約コンテンツ再生装置へ直接に要約コンテンツを出力し、要約コンテンツ再生装置で要約コンテンツを再生するようにしてもよい。
上述の実施形態によれば、以下に示すような効果が得られる。
(1)地上デジタル放送番組に対して、字幕情報データ内の字幕文字列を順番に切り替えて表示するのに合わせて、映像データから切り出した静止画も表示するアニメーションコンテンツとして、要約コンテンツを生成することにより、視聴者は、該要約コンテンツを再生して、字幕文字列を読みつつ、静止画を確認するだけで、番組の内容を簡単に理解することができるようになる。
(2)地上デジタル放送データに対して、字幕情報データと、映像データから切り出した静止画群を利用して要約コンテンツを生成することにより、該放送データと比較して要約コンテンツのデータサイズを小さくできる。
(3)アニメーション切り替えタイミングを、字幕文字列および静止画の解析結果に基づいて決定することにより、視聴者の可読性が高くなる。
(4)複数の字幕文字列を結合したり、視聴者個人のプロフィールに応じて表示タイミングを変更したりすることにより、視聴者の可読性、理解度が高くなる。
(5)類似する静止画が連続する場合、一方を省略することにより、画像数やアニメーション切り替え回数を削減することができ、要約コンテンツのデータサイズ、再生時間を小さくできる。
なお、本実施形態に係るコンテンツ処理部30及び要約コンテンツ生成部40は、専用のハードウェアにより実現されるものであってもよく、あるいはパーソナルコンピュータ等のコンピュータシステムにより構成され、図1に示される各部30、40の各機能を実現するためのプログラムを実行することによりその機能を実現させるものであってもよい。
また、図4に示す各ステップを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、要約コンテンツを生成する処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、DVD(Digital Versatile Disk)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
例えば、上述の実施形態では、地上デジタル放送を例に挙げて説明したが、衛星デジタル放送やIP放送などにも適用可能である。
また、図1に係る各部については、例えば、デジタル放送用のセットトップボックス、IP放送を受信するパーソナルコンピュータなどに実装することができる。
また、上記図4のステップS5における要約用静止画の選択方法は、上述の方法以外にも挙げられる。ここで、上記図4のステップS5における要約用静止画の他の選択方法として、いくつかの例を挙げて説明する。
ここでは、字幕・静止画表示スケジュール情報100中のフレーム画像番号列で示される候補画像群の中から、画像の内容に基づいて要約用静止画を1つ選択する方法をいくつかの例(方法A,B)を挙げて説明する。
[方法A]
要約用静止画として採用する画像の内容は、以下の(a)〜(e)いずれかである。
(a)人物が映っている画像
(b)人物が正面を向いて映っている画像
(c)人物が正面を向き且つ眼を開けて映っている画像
(d)人物が正面を向き且つ笑って映っている画像
(e)人物が正面を向き且つ泣いて映っている画像
本方法Aを用いる場合には、図1中の映像解析部31は、人物検出機能および表情検出機能を備える。人物検出機能は、映像データを解析し、画像内に映っている人物を検出する。さらに、人物検出機能は、検出した人物が正面を向いているか判断する。表情検出機能は、映像データを解析し、人物検出機能によって検出された人物の表情を判定する。なお、要約用静止画として、(a)人物が映っている画像、又は、(b)人物が正面を向いて映っている画像を採用する場合には、人物の表情を判定する必要がないので、映像解析部31は表情検出機能を具備しなくてもよい。
図18に、人物が正面を向き且つ眼を開けて映っている画像を要約用静止画として採用する場合の処理フローを示す。図18には、字幕・静止画表示スケジュール情報100中のある一つの字幕文字列に対応する要約用静止画を選択する処理を示している。図18の処理では、ある一つの字幕文字列に対応する候補画像群中の全ての候補画像について、人物が正面を向き且つ眼を開けて映っているかを判定している。図18において、ステップS71では、変数Pに初期値「0」をセットする。ステップS72では、要約用静止画選定対象の字幕文字列に対応する候補画像群の中で、人物が正面を向き且つ眼を開けて映っているかをまだ判定していないものがあるか判断する。この結果、まだ判定していない候補画像がある場合にはステップS73に進み、全ての候補画像を判定済みの場合にはステップS79に進む。ステップS73では、変数Pに1を加える。ステップS74では、候補画像群中のP番目の候補画像をHDD22から映像解析部31に読み込む。
ステップS75では、P番目の候補画像に人物が映っているか判定する。ここでは、映像解析部31は、読み込んだ候補画像を解析し、該画像から人物を検出する。この結果、人物が検出された場合にはステップS76に進み、人物が検出されなかった場合にはステップS72に戻る。
ステップS76では、P番目の候補画像から検出された人物が正面を向いているか判定する。ここでは、映像解析部31は、当該候補画像を解析し、検出済みの人物が正面を向いているかを判断する。この結果、人物が正面を向いている場合にはステップS77に進み、人物が正面を向いていない場合にはステップS72に戻る。
ステップS77では、P番目の候補画像から検出された人物が眼を開けているか判定する。ここでは、映像解析部31は、当該候補画像を解析し、検出済みの正面を向いている人物が眼を開けているかを判断する。この結果、人物が眼を開けている場合にはステップS78に進み、人物が眼を開けていない場合にはステップS72に戻る。
ステップS78では、P番目の候補画像には人物が正面を向き且つ眼を開けて映っているので、当該P番目の候補画像を要約用静止画の候補として記録する。
ステップS79では、要約用静止画の候補が存在するか判断する。この結果、要約用静止画の候補がある場合には、ステップS80に進み、要約用静止画の候補の中から、要約用静止画を一つ選択する。このときは任意の候補を選択すればよい。一方、要約用静止画の候補がない場合には、ステップS81に進み、候補画像群中の先頭の候補画像を要約用静止画とする。
[方法B]
要約用静止画として採用する画像の内容は、以下の(f),(g)いずれかである。
(f)テロップデータが挿入されている画像。テロップデータは、地上デジタル放送信号中の映像データに含まれている。テロップデータは、所定のデータ形式を有しており、映像データから検出できるようになっている。テロップデータは、映像データが表示されるテレビ画面上に挿入される文字列のデータである。なお、テロップデータは、テレビ画面上に表示される文字列を含むが、本発明に係る字幕情報データとは別のものであり、本発明に係る字幕文字列とは異なる。
(g)アンカーショットが映っている画像。アンカーショットとは、ニュース番組においてメインのニュースキャスタが現れる映像区間である。
要約用静止画として、(f)テロップデータが挿入されている画像を採用する場合には、図1中の映像解析部31はテロップ検出機能を備える。テロップ検出機能は、映像データを解析し、画像中にテロップデータが挿入されているかを検出する。
要約用静止画として、(g)アンカーショットが映っている画像を採用する場合には、図1中の映像解析部31は、アンカーショット検出機能を備える。アンカーショット検出機能は、映像データを解析し、画像にアンカーショットが映っているかを判定する。
図19に、テロップデータが挿入されている画像又はアンカーショットが映っている画像を要約用静止画として採用する場合の処理フローを示す。この場合には、映像解析部31は、テロップ検出機能とアンカーショット検出機能の両方を備える。図19には、字幕・静止画表示スケジュール情報100中のある一つの字幕文字列に対応する要約用静止画を選択する処理を示している。図19の処理では、ある一つの字幕文字列に対応する候補画像群中の全ての候補画像について、テロップデータが挿入されているか、又は、アンカーショットが映っているかを判定している。図19において、ステップS91では、変数Pに初期値「0」をセットする。ステップS92では、要約用静止画選定対象の字幕文字列に対応する候補画像群の中で、テロップデータが挿入されているか、又は、アンカーショットが映っているかをまだ判定していないものがあるか判断する。この結果、まだ判定していない候補画像がある場合にはステップS93に進み、全ての候補画像を判定済みの場合にはステップS98に進む。ステップS93では、変数Pに1を加える。ステップS94では、候補画像群中のP番目の候補画像をHDD22から映像解析部31に読み込む。
ステップS95では、P番目の候補画像にテロップデータが挿入されているか判定する。ここでは、映像解析部31は、読み込んだ候補画像を解析し、該画像中にテロップデータが挿入されているかを検出する。この結果、テロップデータが検出された場合にはステップS96に進み、当該P番目の候補画像を要約用静止画の候補として記録する。その後、ステップS92に戻る。一方、テロップデータが検出されなかった場合にはステップS97に進む。
ステップS97では、P番目の候補画像にアンカーショットが映っているか判定する。ここでは、映像解析部31は、読み込んだ候補画像を解析し、該画像にアンカーショットが映っているかを判定する。この結果、アンカーショットが映っている場合にはステップS96に進み、当該P番目の候補画像を要約用静止画の候補として記録する。その後、ステップS92に戻る。一方、アンカーショットが検出されなかった場合にはそのままステップS92に戻る。
ステップS98では、要約用静止画の候補が存在するか判断する。この結果、要約用静止画の候補がある場合には、ステップS99に進み、要約用静止画の候補の中から、要約用静止画を一つ選択する。このときは任意の候補を選択すればよい。一方、要約用静止画の候補がない場合には、ステップS100に進み、候補画像群中の先頭の候補画像を要約用静止画とする。
本発明の一実施形態に係るデジタル放送受信システムの全体構成を示すブロック図である。 地上デジタル放送信号について、テレビ画面上に表示する映像データと字幕情報データの関係を表す概念図である。 地上デジタル放送信号に係るタイムスケジュール表の例である。 本発明の一実施形態に係る要約コンテンツの生成手順を示すフローチャートである。 本発明の一実施形態に係る字幕・静止画表示スケジュール情報100の構成例である。 本発明の一実施形態に係る字幕文字列の結合判定処理の流れを示すフローチャートである。 本発明の一実施形態に係る字幕・静止画表示スケジュール情報100の構成例である。 本発明の一実施形態に係る字幕・静止画表示スケジュール情報100の構成例である。 本発明の一実施形態に係る候補画像群を抽出する概念図である。 本発明の一実施形態に係る字幕・静止画表示スケジュール情報100の構成例である。 本発明の一実施形態に係る候補画像群の範囲調整の概念図である。 本発明の一実施形態に係る字幕・静止画表示スケジュール情報100の構成例である。 本発明の一実施形態に係る字幕・静止画表示スケジュール情報100の構成例である。 本発明の一実施形態に係る字幕・静止画表示スケジュール情報100の構成例である。 本発明の一実施形態に係る再生時刻設定方法の一例の処理フロー図である。 本発明の一実施形態に係る再生時刻設定方法の他の例の処理フロー図である。 本発明の一実施形態に係る字幕・静止画表示スケジュール情報100の構成例である。 本発明の一実施形態に係る要約用静止画選択方法の一例の処理フロー図である。 本発明の一実施形態に係る要約用静止画選択方法の他の例の処理フロー図である。
符号の説明
11…チューナ部、12…復調部、13…分離部、14…映像デコード部、15…字幕情報デコード部、16…音声デコード部、21…番組録画管理部、22…ハードディスク装置(HDD)、23…コンテンツ読込部、30…コンテンツ処理部、31…映像解析部、32…映像処理部、33…字幕情報解析部、34…字幕情報処理部、35…音声解析部、36…音声処理部、40…要約コンテンツ生成部、50…データベース、100…字幕・静止画表示スケジュール情報

Claims (4)

  1. 映像データと字幕情報データを有するデジタル放送信号を用いて放送番組の要約コンテンツを生成する要約コンテンツ生成装置において、
    前記デジタル放送信号に含まれる字幕情報データから、字幕文字列を抽出する字幕文字列抽出手段と、
    前記デジタル放送信号に含まれる映像データから、前記字幕文字列に対応する静止画を一つ抽出する静止画抽出手段と、
    前記抽出された字幕文字列を前記抽出された対応する静止画とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成手段と、を備え、
    前記要約コンテンツ生成手段は、前記要約コンテンツを構成する複数の字幕文字列及び静止画についての表示切替タイミングを、該字幕文字列に基づいて決定し、
    前記要約コンテンツ生成手段は、連続する複数の字幕文字列が結合可能か判定し、結合可能と判定された複数の字幕文字列を結合し、結合した字幕文字列を一つの静止画に対応付けるものであり、
    連続する3つ以上の字幕文字列が結合可能かの判定基準は、字幕文字列A次いで字幕文字列B次いで字幕文字列Cの順序で連続する3つの字幕文字列A,B,Cに対し、
    判定基準4:字幕文字列A,B,Cの合計文字数が第2の規定文字数よりも多く、且つ、字幕文字列A,B,Cの結合「A+B+C」を2つの文字列に分割することにより、分割後の2つの文字列が両方とも第1の規定文字数よりも少なくなる、
    を含む、
    ことを特徴とする要約コンテンツ生成装置。
  2. 前記判定基準4を満たす3つの字幕文字列の結合を分割するときの分割位置は、読点で終わる、単語の中間ではない、又は、全文字列長の中間位置に近い、のいずれかの条件をみたすところに決定する、
    ことを特徴とする請求項に記載の要約コンテンツ生成装置。
  3. 映像データと字幕情報データを有するデジタル放送信号を用いて放送番組の要約コンテンツを生成するためのコンピュータプログラムであって、
    前記デジタル放送信号に含まれる字幕情報データから、字幕文字列を抽出する字幕文字列抽出機能と、
    前記デジタル放送信号に含まれる映像データから、前記字幕文字列に対応する静止画を一つ抽出する静止画抽出機能と、
    前記抽出された字幕文字列を前記抽出された対応する静止画とともに画面上に表示する要約コンテンツを生成する要約コンテンツ生成機能と、をコンピュータに実現させるものであり、
    前記要約コンテンツ生成機能は、前記要約コンテンツを構成する複数の字幕文字列及び静止画についての表示切替タイミングを、該字幕文字列に基づいて決定し、
    前記要約コンテンツ生成機能は、連続する複数の字幕文字列が結合可能か判定し、結合可能と判定された複数の字幕文字列を結合し、結合した字幕文字列を一つの静止画に対応付けるものであり、
    連続する3つ以上の字幕文字列が結合可能かの判定基準は、字幕文字列A次いで字幕文字列B次いで字幕文字列Cの順序で連続する3つの字幕文字列A,B,Cに対し、
    判定基準4:字幕文字列A,B,Cの合計文字数が第2の規定文字数よりも多く、且つ、字幕文字列A,B,Cの結合「A+B+C」を2つの文字列に分割することにより、分割後の2つの文字列が両方とも第1の規定文字数よりも少なくなる、
    を含む、
    ことを特徴とするコンピュータプログラム。
  4. 前記判定基準4を満たす3つの字幕文字列の結合を分割するときの分割位置は、読点で終わる、単語の中間ではない、又は、全文字列長の中間位置に近い、のいずれかの条件をみたすところに決定する、
    ことを特徴とする請求項に記載のコンピュータプログラム。
JP2007241371A 2007-09-18 2007-09-18 要約コンテンツ生成装置およびコンピュータプログラム Expired - Fee Related JP5173337B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007241371A JP5173337B2 (ja) 2007-09-18 2007-09-18 要約コンテンツ生成装置およびコンピュータプログラム
US12/211,488 US8279343B2 (en) 2007-09-18 2008-09-16 Summary content generation device and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007241371A JP5173337B2 (ja) 2007-09-18 2007-09-18 要約コンテンツ生成装置およびコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2009076970A JP2009076970A (ja) 2009-04-09
JP5173337B2 true JP5173337B2 (ja) 2013-04-03

Family

ID=40454025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007241371A Expired - Fee Related JP5173337B2 (ja) 2007-09-18 2007-09-18 要約コンテンツ生成装置およびコンピュータプログラム

Country Status (2)

Country Link
US (1) US8279343B2 (ja)
JP (1) JP5173337B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101822443B1 (ko) * 2016-09-19 2018-01-30 서강대학교산학협력단 샷 경계 및 자막을 이용한 동영상 축약 방법 및 처리 장치

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010136067A (ja) * 2008-12-04 2010-06-17 Sony Corp データ処理装置、データ処理方法、及び、プログラム
JP4711152B2 (ja) * 2008-12-26 2011-06-29 ソニー株式会社 コンテンツ表示制御装置および方法、プログラム、並びに記録媒体
JP5573682B2 (ja) * 2009-01-22 2014-08-20 日本電気株式会社 立体映像鑑賞システム、表示システム、光シャッタおよび立体映像鑑賞方法
JP5193127B2 (ja) * 2009-05-12 2013-05-08 シャープ株式会社 映像処理方法、映像処理装置及び映像表示装置
JP2011061497A (ja) * 2009-09-10 2011-03-24 Kddi Corp 字幕表示装置、字幕表示方法およびプログラム
JP5232744B2 (ja) * 2009-09-14 2013-07-10 Kddi株式会社 要約コンテンツを表示する表示装置、方法及びプログラム
KR20110062982A (ko) * 2009-12-04 2011-06-10 삼성전자주식회사 실시간 방송 컨텐츠의 방송 요약 정보 생성 방법 및 장치와, 그 제공방법 및 방송 수신 장치
JP2011164779A (ja) * 2010-02-05 2011-08-25 Sony Corp 情報処理装置、情報処理方法、及びプログラム
CN102834843B (zh) * 2010-04-02 2016-11-16 诺基亚技术有限公司 用于面部检测的方法和装置
JP2012142881A (ja) * 2011-01-06 2012-07-26 Kddi Corp 字幕編集装置、字幕編集方法、及びコンピュータプログラム
KR101839406B1 (ko) * 2011-09-27 2018-03-19 삼성전자 주식회사 디스플레이장치 및 그 제어방법
CN106127796B (zh) 2012-03-07 2019-03-26 奥林巴斯株式会社 图像处理装置和图像处理方法
CN104203065B (zh) * 2012-03-08 2017-04-12 奥林巴斯株式会社 图像处理装置和图像处理方法
WO2013157354A1 (ja) 2012-04-18 2013-10-24 オリンパス株式会社 画像処理装置、プログラム及び画像処理方法
US9202522B2 (en) * 2013-05-08 2015-12-01 Adobe Systems Incorporated Method and apparatus for subtitle display
KR20150043111A (ko) * 2013-10-14 2015-04-22 삼성전자주식회사 컨텐츠 요약 서버, 컨텐츠 제공 시스템 및 이의 컨텐츠 요약 방법
CN103634605B (zh) 2013-12-04 2017-02-15 百度在线网络技术(北京)有限公司 视频画面的处理方法及装置
US20160127807A1 (en) * 2014-10-29 2016-05-05 EchoStar Technologies, L.L.C. Dynamically determined audiovisual content guidebook
US10795932B2 (en) * 2017-09-28 2020-10-06 Electronics And Telecommunications Research Institute Method and apparatus for generating title and keyframe of video
CN108984094B (zh) * 2018-06-29 2019-08-27 北京微播视界科技有限公司 切换全局特效的方法、装置、终端设备及存储介质
CN108924599A (zh) 2018-06-29 2018-11-30 北京优酷科技有限公司 视频字幕显示方法及装置
US10743079B2 (en) 2018-12-17 2020-08-11 Rovi Guides, Inc. Systems and methods for providing subtitles based on language proficiency

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2786361B2 (ja) * 1991-12-12 1998-08-13 沖電気工業株式会社 文書画像の領域抽出方法
JPH0630385A (ja) * 1992-07-07 1994-02-04 Fujitsu General Ltd 文字放送表示システム
JP3361587B2 (ja) 1993-12-27 2003-01-07 株式会社日立製作所 動画像検索装置及び方法
JP3826415B2 (ja) * 1995-09-05 2006-09-27 カシオ計算機株式会社 受信装置
TR200102701T2 (tr) * 1998-07-20 2002-06-21 Canal + Societe Anonyme Çok-kanallı bir dijital televizyon sistemi için kanallar arasında gezme sistemi.
US7149957B2 (en) * 2001-11-19 2006-12-12 Ricoh Company, Ltd. Techniques for retrieving multimedia information using a paper-based interface
JP2004088384A (ja) * 2002-08-27 2004-03-18 Sony Corp 情報処理装置および方法、プログラム格納媒体、並びにプログラム
JP2004240859A (ja) * 2003-02-07 2004-08-26 Oki Electric Ind Co Ltd 言い換えシステム
JP4500957B2 (ja) * 2003-05-12 2010-07-14 独立行政法人情報通信研究機構 字幕制作システム
KR100590537B1 (ko) * 2004-02-18 2006-06-15 삼성전자주식회사 복수 영상의 요약 방법 및 장치
JP4815854B2 (ja) * 2004-05-18 2011-11-16 トヨタ自動車株式会社 画面表示制御装置および画面表示制御方法
US20090009661A1 (en) * 2004-11-02 2009-01-08 Shizuo Murakami Captioned Still Picture Contents Producing Apparatus, Captioned Still Picture Contents Producing Program and Captioned Still Picture Contents Producing System
JP4305921B2 (ja) * 2004-11-02 2009-07-29 Kddi株式会社 動画像話題分割方法
JP2007006308A (ja) 2005-06-27 2007-01-11 Casio Comput Co Ltd テレビ受信装置およびテレビ受信処理のプログラム
JP2007067560A (ja) * 2005-08-29 2007-03-15 Canon Inc 撮像装置及びその制御方法、コンピュータプログラム及び記録媒体
JP4851909B2 (ja) * 2006-10-12 2012-01-11 Necカシオモバイルコミュニケーションズ株式会社 映像記録装置及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101822443B1 (ko) * 2016-09-19 2018-01-30 서강대학교산학협력단 샷 경계 및 자막을 이용한 동영상 축약 방법 및 처리 장치

Also Published As

Publication number Publication date
JP2009076970A (ja) 2009-04-09
US20090073314A1 (en) 2009-03-19
US8279343B2 (en) 2012-10-02

Similar Documents

Publication Publication Date Title
JP5173337B2 (ja) 要約コンテンツ生成装置およびコンピュータプログラム
JP4616274B2 (ja) 字幕付き静止画コンテンツ作成装置、字幕付き静止画コンテンツ作成プログラム及び字幕付き静止画コンテンツ作成システム
CA2924065C (en) Content based video content segmentation
JP3953886B2 (ja) 字幕抽出装置
US8914820B2 (en) Systems and methods for memorializing a viewers viewing experience with captured viewer images
JP2008148077A (ja) 動画再生装置
JP3737754B2 (ja) 半導体集積回路、番組記録再生装置、番組記録再生システム及び番組記録再生方法
US11812100B2 (en) Apparatus, systems and methods for accessing information based on an image presented on a display
JP5067370B2 (ja) 受信装置、表示制御方法、及びプログラム
JP2009159483A (ja) 放送受信装置
JP4851909B2 (ja) 映像記録装置及びプログラム
JP4937211B2 (ja) 静止画抽出装置及び静止画抽出プログラム
JP4846674B2 (ja) 静止画抽出装置及び静止画抽出プログラム
JP5042182B2 (ja) 要約コンテンツ生成装置およびコンピュータプログラム
JP2006180306A (ja) 動画記録再生装置
JP2006054517A (ja) 情報提示装置、方法及びプログラム
JP2005260322A (ja) コンテンツ補足情報提供システム、携帯情報端末、サーバ
US20080104656A1 (en) Method of storing and reproducing interactive digital broadcast signals and apparatus therefor
KR20050054937A (ko) 시청각 데이터 스트림을 메모리에 저장하는 방법
JP5228623B2 (ja) 放送映像再生方法、システム及び装置
JP4760893B2 (ja) 動画記録再生装置
JP2011182274A (ja) 映像記録再生装置
JP2011151605A (ja) 画像作成装置、画像作成方法、及びプログラム
WO2002062062A1 (en) Method and arrangement for creation of a still shot video sequence, via an apparatus, and transmission of the sequence to a mobile communication device for utilization
JP2009065596A (ja) 要約映像生成装置及び要約映像生成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20121113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121227

R150 Certificate of patent or registration of utility model

Ref document number: 5173337

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees