JP7063261B2 - 送信装置、送信方法、受信装置および受信方法 - Google Patents

送信装置、送信方法、受信装置および受信方法 Download PDF

Info

Publication number
JP7063261B2
JP7063261B2 JP2018505848A JP2018505848A JP7063261B2 JP 7063261 B2 JP7063261 B2 JP 7063261B2 JP 2018505848 A JP2018505848 A JP 2018505848A JP 2018505848 A JP2018505848 A JP 2018505848A JP 7063261 B2 JP7063261 B2 JP 7063261B2
Authority
JP
Japan
Prior art keywords
information
subtitle
font
display position
subtitle display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018505848A
Other languages
English (en)
Other versions
JPWO2017159482A1 (ja
Inventor
郁夫 塚越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2017159482A1 publication Critical patent/JPWO2017159482A1/ja
Application granted granted Critical
Publication of JP7063261B2 publication Critical patent/JP7063261B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/08Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division
    • H04N7/087Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only
    • H04N7/088Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital
    • H04N7/0884Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital for the transmission of additional display-information, e.g. menu for programme or channel selection
    • H04N7/0885Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital for the transmission of additional display-information, e.g. menu for programme or channel selection for the transmission of subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23614Multiplexing of additional data and video streams
    • H04N21/23617Multiplexing of additional data and video streams by inserting additional data into a data carousel, e.g. inserting software modules into a DVB carousel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440263Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA
    • H04N21/440272Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA for performing aspect ratio conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2628Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • H04N5/44504Circuit details of the additional information generator, e.g. details of the character or graphics signal generator, overlay mixing circuits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/025Systems for the transmission of digital non-picture data, e.g. of text during the active part of a television frame

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Circuits (AREA)

Description

本技術は、送信装置、送信方法、受信装置および受信方法に関し、特に、ビデオデータと共に字幕のテキスト情報を送信する送信装置等に関する。
従来、例えば、DVB(Digital Video Broadcasting)の放送などでは、字幕情報をビットマップデータで送信する運用が行われている。近時、字幕情報をテキストの文字コードで、つまりテキストベースで送信することが提案されている。このテキスト情報として、例えば、W3C(World Wide Web Consortium)でTTML(Timed Text Markup Language)が提唱されている(特許文献1参照)。
従来、字幕のテキスト情報に含まれる字幕表示位置情報において字幕表示位置を、例えばビデオ領域に対する相対位置で指定することが知られている。この場合、ビデオ領域のアスペクト比とディスプレイ領域のアスペクト比とが一致しない場合には、表示方法によって字幕の一部がディスプレイ領域からはみ出して表示されなくなることがあった。また、従来、字幕のテキスト情報にフォント指定情報を含めて送信することが知られている。
特開2012-169885号公報
上述したように字幕の一部がディスプレイ領域からはみ出して表示されなくなることを回避するため、例えば、受信側において、ビデオ領域に対する相対位置ではなく、モニタ(ディスプレイ)に表示されるビデオ領域(表示ビデオ領域)に対する相対位置として処理を行うことが考えられる。その場合、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比とが異なる場合、例えば字幕表示位置が水平方向にだけ圧縮されたものとなり、視聴者に違和感を与える字幕表示になる可能性がある。また、上述したように字幕のテキスト情報にフォント指定情報を含めて送信する場合、受信側において、指定されたフォントのファイルを搭載していない場合には、指定されたフォントでの字幕表示ができず、制作者が意図したような字幕表示にならない可能性がある。
本技術の目的は、受信側における字幕表示を良好に行い得るようにすることにある。
本技術の概念は、
ビデオデータを持つビデオストリームと字幕表示位置を字幕表示範囲に対する相対位置で指定する字幕表示位置情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを送信する送信部と、
上記サブタイトルストリームのコンテナに上記字幕位置情報を用いて字幕を表示するときに使用される補助情報を挿入する情報挿入部を備える
送信装置にある。
本技術において、送信部により、ビデオデータを持つビデオストリームと字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナが送信される。字幕のテキスト情報は、字幕表示位置を字幕表示範囲に対する相対位置で指定する字幕表示位置情報を有するものである。
情報挿入部により、サブタイトルストリームのコンテナに、字幕位置情報を用いて字幕を表示するときに使用される補助情報が挿入される。例えば、補助情報は、PESパケットおよび/またはプログラムマップテーブルに挿入される、ようにされてもよい。
例えば、補助情報は、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合に受信側で行われる、字幕表示位置情報に基づいて決定される字幕表示位置のリサイズ処理に関する情報を含む、ようにされてもよい。この場合、例えば、リサイズ処理に関する情報は、字幕表示位置のリサイズ処理で垂直方向のサイズを圧縮する場合に固定位置とすべきライン位置を示す情報である、ようにされてもよい。
また、例えば、補助情報は、字幕表示範囲を決定するための情報を含む、ようにされてもよい。この場合、例えば、字幕表示範囲を決定するための情報は、字幕表示範囲の基準点情報およびアスペクト比情報である、ようにされてもよい。
このように本技術においては、サブタイトルストリームのコンテナに字幕位置情報を用いて字幕を表示するときに使用される補助情報が挿入される。そのため、受信側では、字幕位置情報と共にこの補助情報を用いることで字幕表示位置を適切に取得して字幕表示を良好に行うことが可能となる。
また、本技術の他の概念は、
ビデオデータを持つビデオストリームと字幕表示位置を字幕表示範囲に対する相対位置で指定する字幕表示位置情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを受信する受信部と、
上記ビデオストリームをデコードしてビデオデータを得る処理と、上記サブタイトルストリームをデコード処理して字幕のビットマップデータを得る処理と、上記字幕表示位置情報および上記サブタイトルストリームのコンテナに挿入されている上記字幕位置情報を用いて字幕を表示するときに使用される補助情報を用いて取得される字幕表示位置に基づいて上記字幕のビットマップデータに対して表示位置制御を行う処理と、上記表示位置制御が行われた字幕のビットマップデータを上記ビデオデータに重畳する処理を制御する制御部を備える
受信装置にある。
本技術において、受信部により、ビデオデータを持つビデオストリームと字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナが受信される。字幕のテキスト情報は、字幕表示位置を字幕表示範囲に対する相対位置で指定する字幕表示位置情報を有するものである。サブタイトルストリームのコンテナに字幕位置情報を用いて字幕を表示するときに使用される補助情報が挿入されている。
制御部により、ビデオストリームをデコードしてビデオデータを得る処理と、サブタイトルストリームをデコード処理して字幕のビットマップデータを得る処理と、字幕表示位置情報および補助情報を用いて取得される字幕表示位置に基づいて字幕のビットマップデータに対して表示位置制御を行う処理と、表示位置制御が行われた字幕のビットマップデータをビデオデータに重畳する処理が制御される。
例えば、補助情報は、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合に受信側で行われる、字幕表示位置情報に基づいて決定される字幕表示位置のリサイズ処理に関する情報を含み、表示位置制御を行う処理では、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合、表示ビデオ領域を字幕表示範囲として字幕表示位置情報に基づいて字幕表示位置を決定し、該決定された字幕表示位置にリサイズ処理に関する情報を用いてリサイズ処理を施し、該リサイズ処理が施された字幕表示位置に基づいて字幕のビットマップデータに対して表示位置制御をする、ようにされてもよい。
また、例えば、補助情報は、字幕表示範囲を決定するための情報を含み、表示位置制御を行う処理では、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合、字幕表示範囲を決定するための情報に基づいて表示ビデオ領域に字幕表示範囲を設定し、字幕表示位置情報に基づいて字幕表示位置を決定し、該決定された字幕表示位置に基づいて字幕のビットマップデータに対して表示位置制御をする、ようにされてもよい。
このように本技術においては、サブタイトルストリームのコンテナに字幕位置情報を用いて字幕を表示するときに使用される補助情報が挿入されており、字幕表示位置情報および補助情報を用いて取得される字幕表示位置に基づいて字幕のビットマップデータに対して表示位置制御が行われる。そのため、字幕表示を良好に行うことが可能となる。
また、本技術の他の概念は、
ビデオデータを持つビデオストリームとフォント指定情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを送信する送信部と、
上記サブタイトルストリームのコンテナに少なくとも上記フォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を挿入する情報挿入部を備える
送信装置にある。
本技術において、送信部により、ビデオデータを持つビデオストリームと字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナが送信される。字幕のテキスト情報は、フォント指定情報を有するものである。
情報挿入部により、サブタイトルストリームのコンテナに少なくともフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報が挿入される。例えば、補助情報は、PESパケットおよび/またはプログラムマップテーブルに挿入される、ようにされてもよい。例えば、ダウンロード情報は、フォントファイルを放送信号から取得するための情報であるか、あるいはフォントファイルをネットワーク上のサーバから取得するための情報である、ようにされてもよい。
このように本技術においては、サブタイトルストリームのコンテナに少なくともフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報が挿入される。そのため、受信側では、フォント指定情報で指定されているフォントのファイルを持っていない場合に、当該ダウンロード情報に基づいてフォント指定情報で指定されているフォントのファイルを取得することができ、字幕表示を良好に行うことが可能となる。
また、本技術の他の概念は、
ビデオデータを持つビデオストリームとフォント指定情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを受信する受信部と、
上記ビデオストリームをデコードしてビデオデータを得る処理と、上記サブタイトルストリームのコンテナに挿入されている少なくとも上記フォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報に基づいて上記フォント指定情報で指定されたフォントのフォントファイルを取得する処理と、上記サブタイトルストリームをデコードし上記取得されたフォントファイルに基づいて字幕のビットマップデータを得る処理と、上記字幕のビットマップデータを上記ビデオデータに重畳する処理を制御する制御部を備える
受信装置にある。
本技術において、受信部により、ビデオデータを持つビデオストリームと字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナが受信される。字幕のテキスト情報は、フォント指定情報を有するものである。サブタイトルストリームのコンテナに少なくともフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報が挿入されている。
制御部により、ビデオストリームをデコードしてビデオデータを得る処理と、ダウンロード情報に基づいてフォント指定情報で指定されたフォントのフォントファイルを取得する処理と、サブタイトルストリームをデコードし取得されたフォントファイルに基づいて字幕のビットマップデータを得る処理と、字幕のビットマップデータをビデオデータに重畳する処理が制御される。
このように本技術においては、サブタイトルストリームのコンテナに少なくともフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報が挿入されており、このダウンロード情報に基づいてフォント指定情報で指定されたフォントのフォントファイルが取得されて、字幕のビットマップデータを得る際に用いられる。そのため、フォント指定情報で指定されているフォントのファイルを持っていない場合にあっても、字幕表示を良好に行うことが可能となる。
また、本技術の他の概念は、
トランスポートストリームにそれぞれ異なるフォントファイルを持つ定数のセクションテーブルを順次繰り返し挿入するセクションテーブル挿入部と、
上記セクションテーブルが挿入されたトランスポートストリームを送信する送信部を備える
送信装置にある。
本技術において、セクションテーブル挿入部により、トランスポートストリームにそれぞれ異なるフォントファイルを持つ所定数のセクションテーブルが順次繰り返し挿入される。送信部により、セクションテーブルが挿入されたトランスポートストリームが送信される。この場合、所定数のセクションテーブルは、データカルーセルで繰り返し送信されることとなる。
このように本技術においては、トランスポートストリームにそれぞれ異なるフォントファイルを持つ所定数のセクションテーブルが順次繰り返し挿入される。そのため、受信側では、トランスポートストリームから、例えば字幕のテキスト情報が有するフォント指定情報で指定されるフォントのフォントファイルを容易に取得可能となる。
本技術によれば、受信側における字幕表示を良好に行い得る。なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
実施の形態としての送受信システムの構成例を示すブロック図である。 字幕表示位置情報で決定される字幕表示位置(リージョン)の一例を示す図である。 TTMLの構造例(字幕表示位置が1個)を示す図である。 TTML構造における主要な情報の内容を示す図である。 TTMLの構造例(字幕表示位置が2個)を示す図である。 ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が同じである場合における字幕の表示例(字幕表示位置が1個)を示す図である。 ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が同じである場合における字幕の表示例(字幕表示位置が2個)を示す図である。 ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合であって、表示ビデオ領域が字幕表示範囲とされ、字幕表示位置情報に基づいて字幕表示位置が決定される場合(第1の方法)における字幕の表示例(字幕表示位置が1個)を示す図である。 リサイズ処理が施された場合の表示例を示す図である。 ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合であって、表示ビデオ領域が字幕表示範囲とされ、字幕表示位置情報に基づいて字幕表示位置が決定され、さらにリサイズ処理が施された場合(第1の方法)における字幕の表示例(字幕表示位置が2個)を示す図である。 ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合であって、表示ビデオ領域に字幕表示範囲が設定され、字幕表示位置情報に基づいて字幕表示位置が決定される場合(第2の方法)における字幕の表示例(字幕表示位置が1個)を示す図である。 ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合であって、表示ビデオ領域に字幕表示範囲が設定され、字幕表示位置情報に基づいて字幕表示位置が決定される場合(第2の方法)における字幕の表示例(字幕表示位置が2個)を示す図である。 放送送出システムのストリーム生成部の構成例を示すブロック図である。 サブタイトルPESパケットの構造例と、「PES_data_byte_field()」の構造例を示す図である。 セグメントタイプの定義の一例を示す図である。 TTML・ディスプレイ・セグメントの構造例を示す図である。 TTML・ディスプレイ・セグメントの構造例における主要な情報の内容を示す図である。 フォント・ダウンロード・セグメントの構造例を示す図である。 フォント・ダウンロード・セグメントの構造例における主要な情報の内容を示す図である。 URL・シグナリング・セグメントの構造例を示す図である。 URL・シグナリング・セグメントの構造例における主要な情報の内容を示す図である。 TTML・ディスプレイ・デスクリプタの構造例)を示す図である。 フォント・ダウンロード・デスクリプタの構造例を示す図である。 フォント・ダウンロード・デスクリプタの構造例を示す図である。 TTMLのフォント指定情報で指定されているフォントのファイルをトランスポートストリームTS(放送信号)から取得するケース(Case1)とそのファイルをネットワーク上のサーバから取得するケース(Case2)の概要を示す図である。 フォントファイル(Font file)を持つN個のセクションテーブルの他に、フォントテーブル(Font table)を持つ1個のセクションテーブルがデータカルーセルで繰り返し送信されることを模式的に示す図である。 フォント・ダウンローディング・セクションテーブルの構造例を示す図である。 フォント・ダウンローディング・セクションテーブルの構造例における主要な情報の内容を示す図である。 「data_downloading_id」が“0x00”であるときにフォント・ダウンローディング・セクションテーブルに記述されるフォントテーブル情報を概略的に示す図である。 「font_group_id」の値とフォントグループとの対応関係を示す図である。 フォント・テーブル・デスクリプタの構造例を示す図である。 「data_downloading_id」が“0x00”以外であるときにフォント・ダウンローディング・セクションテーブルに記述されるフォントテーブル情報を概略的に示す図である。 フォント・ファイル・デスクリプタの構造例を示す図である。 トランスポートストリームTSの構成例を示す図である。 テレビ受信機の構成例を示すブロック図である。 テレビ受信機のCPUにおける字幕表示位置の決定およびリサイズ処理の手順の一例を示すフローチャートである。 ビデオ領域のアスペクト比とモニタ(ディスプレイ)のアスペクト比の一例と、ビデオ全領域を表示するモードか否かの判断例の説明に供する図である。 ビデオ全領域を表示するモードで、かつ字幕表示範囲の指定がない場合における字幕表示位置の決定の説明に供する図である。 ビデオ全領域を表示するモードで、かつ字幕表示範囲の指定がある場合における字幕表示位置の決定の説明に供する図である。 ビデオ全領域を表示しないモードで、かつ字幕表示範囲の指定がない場合およびある場合における字幕表示位置の決定の説明に供する図である。 テレビ受信機のCPUにおける使用フォントファイルの決定処理の手順の一例を示すフローチャートである。 TTMLの構造例(字幕表示位置が2個)を示す図である。
以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明を以下の順序で行う。
1.実施の形態
2.変形例
<1.実施の形態>
[送受信システムの構成例]
図1は、実施の形態としての送受信システム10の構成例を示している。この送受信システム10は、放送送出システム100とテレビ受信機200により構成されている。放送送出システム100は、コンテナ(多重化ストリーム)としてのMPEG-2 TSのトランスポートストリーム(以下、単に、「トランスポートストリームTS」という)を、放送波に載せて送信する。
トランスポートストリームTSには、ビデオデータを持つビデオストリームと、字幕(サブタイトル)のテキスト情報を持つサブタイトルストリームが含まれる。ここで、字幕のテキスト情報として、例えば、TTMLあるいはTTMLの派生フォーマットなどが考えられるが、この実施の形態においては、TTMLであるとする。このTTMLは字幕表示位置情報を有し、この字幕表示位置情報は、字幕表示位置(リージョン)を字幕表示範囲に対する相対位置(プロポーショナルな値)で指定する。また、このTTMLは、フォント指定情報を有する。
放送送出システム100は、このTTMLおよび/またはサブタイトルストリームのコンテナに、字幕表示位置情報を用いて字幕を表示するときに使用される補助情報を挿入する。この実施の形態において、放送送出システム100は、この補助情報を、TTMLに含める他、PES(Packetized Elementary Stream)パケットとPMT(Program Map Table)に挿入する。
この補助情報に、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合に受信側で行われる、字幕表示位置情報に基づいて決定された字幕表示位置のリサイズ処理に関する情報が含まれる。このリサイズ処理に関する情報は、例えば、字幕表示位置のリサイズ処理で垂直方向のサイズを圧縮する場合に固定位置とすべきライン位置を示す情報である。また、この補助情報に、字幕表示範囲を決定するための情報が含まれる。例えば、この字幕表示範囲を決定するための情報は、字幕表示範囲の基準点情報およびアスペクト比情報である。
また、放送送出システム100は、サブタイトルストリームのコンテナに、少なくともフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を挿入する。このダウンロード情報は、フォントファイルを放送信号(トランスポートストリームTS)から取得するための情報やフォントファイルをネットワーク上のサーバから取得するための情報などである。この実施の形態において、放送送出システム100は、このダウンロード情報を、PES(Packetized Elementary Stream)パケットとPMT(Program Map Table)に挿入する。
また、放送送出システム100は、放送信号としてのトランスポートストリームTSに、互いに異なるフォントファイルを含む所定数のセクションテーブルを順次繰り返し挿入する。つまり、放送送出システム100は、所定数のセクションテーブルを、データカルーセルで繰り返し送信する。なお、フォントファイルを含むセクションテーブルを挿入するトランスポートストリームTSは、上述のサブタイトルストリームを含むトランスポートストリームTSと同一である必要はなく、他のサービスのトランスポートストリームTSであってもよい。
テレビ受信機200は、放送送出システム100から送られてくるトランスポートストリームTSを受信する。テレビ受信機200は、ビデオデータを持つビデオストリームにデコード処理を施してビデオデータを得ると共に、字幕のテキスト情報としてのTTMLを持つサブタイトルストリームにデコード処理を施して字幕のビットマップデータを得る。
テレビ受信機200は、字幕のビットマップデータを得る際、TTMLが有するフォント指定情報で指定されるフォントのファイルを用いる。上述したように、少なくともフォント指定情報で指定されるフォントのファイルをダウンロードするためのダウンロード情報が、PESパケットとPMT(Program Map Table)に挿入されている。テレビ受信機200は、フォント指定情報で指定されるフォントのファイルを搭載していないとき、ダウンロード情報に基づいて当該フォントのファイルをダウンロードして用いる。
上述したようにTTMLが有する字幕表示位置情報において、字幕表示位置は字幕表示範囲に対する相対位置で指定されている。また、上述したように、字幕表示位置情報を用いて字幕を表示するときに使用される補助情報が、TTMLに含められている他、PESパケットとPMTに挿入されている。
テレビ受信機200は、字幕表示位置情報および補助情報を用いて字幕表示位置を取得し、この取得された字幕表示位置に基づいて、字幕のビットマップデータに対して表示位置制御をする。テレビ受信機200は、表示位置制御が行われた字幕のビットマップデータをビデオデータに重畳して、表示用のビデオデータを得る。
テレビ受信機200は、字幕のビットマップデータに対する表示位置制御として、ビデオ領域のアスペクト比と表示ビデオ領域(モニタに表示されるビデオ領域)のアスペクト比が異なる場合、以下の第1の方法あるいは第2の方法を選択的に実行する。
第1の方法では、テレビ受信機200は、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合、表示ビデオ領域を字幕表示範囲として字幕表示位置情報に基づいて字幕表示位置を決定した後、この決定された字幕表示位置にリサイズ処理を施し、最終的な字幕表示位置を取得する。テレビ受信機200は、このように取得された字幕表示位置に基づいて字幕のビットマップデータに対して表示位置制御をする。
リサイズ処理では、字幕表示位置として本来の形状を回復する処理であり、例えば、決定された字幕表示位置が水平方向にだけ圧縮されたものである場合、垂直方向にも同じ割合で圧縮する。例えば、リサイズ処理で垂直方向のサイズを圧縮する場合、トップライン(上のライン)、ボトムライン(下のライン)、あるいはミドルライン(中間のライン)などの所定のライン位置を固定した状態で圧縮する。
この所定のライン位置を適切に選択することで、例えば、2つの字幕表示位置があった場合、その2つの字幕表示位置の垂直方向の間隔を、リサイズ処理を行っても維持することが可能となる。テレビ受信機200は、TTML、PESパケット、PMT等に、リサイズ処理に関する情報として、固定位置とすべきライン位置を示す情報が挿入されているとき、その情報を利用できる。
第2の方法では、テレビ受信機200は、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合、表示ビデオ領域に字幕表示範囲を設定し、字幕表示位置情報に基づいて字幕表示位置を決定し、最終的な字幕表示位置を取得する。テレビ受信機200は、このように取得された字幕表示位置に基づいて字幕のビットマップデータに対して表示位置制御をする。
テレビ受信機200は、TTML、PESパケット、PMT等に挿入されている字幕表示範囲を決定するための情報が挿入されているとき、その情報を利用して字幕表示範囲を適切に設定できる。例えば、テレビ受信機200は、TTML、PESパケット、PMT等に字幕表示範囲を決定するための情報が含まれているときは第2の方法を選択し、それが含まれていないとき第1の方法を選択する。
図2は、字幕表示位置情報で決定される字幕表示位置(リージョン)の一例を示している。この例は、TTMLで、字幕表示位置情報が、字幕表示位置の基点(origin)を示す情報「origin=“OH%OV%”」と、字幕表示位置の領域(extent)を示す情報「extent=“EH%EV%”」で与えられている場合を示している。“RP”は、字幕表示範囲のトップ―レフト(top-left)である基準点(Reference Pont)を示している。
図2(a)は、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が同じ場合の例を示している。この例では、ビデオ領域のアスペクト比が16:9に対して、モニタのアスペクト比は16:9であって、表示ビデオ領域のアスペクト比が16:9となっている。この場合、表示ビデオ領域が字幕表示範囲とされ、それに対する相対位置で指定される字幕表示位置情報に基づき字幕表示位置が決定される。
図2(b)は、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合であって、表示ビデオ領域が字幕表示範囲とされ、字幕表示位置情報に基づいて字幕表示位置が決定される場合(第1の方法)の例である。この例では、ビデオ領域のアスペクト比が16:9に対して、モニタのアスペクト比は4:3であり、表示方法がセンターカット(Center-cut)である場合であって、表示ビデオ領域のアスペクト比が4:3となっている。この場合、字幕表示位置は、図2(a)の場合と比較して、垂直方向には同じ幅となるが、水平方向には、その幅が圧縮されたものとなる。この場合、字幕表示位置の形状は、図2(a)の場合とは異なったものとなる。
図2(c)は、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合であって、表示ビデオ領域に字幕表示範囲が設定され、字幕表示位置情報に基づいて字幕表示位置が決定される場合(第2の方法)の例である。この例では、ビデオ領域のアスペクト比が16:9に対して、モニタのアスペクト比は4:3であり、表示方法がセンターカット(Center-cut)である場合であって、表示ビデオ領域のアスペクト比が4:3となっている。この場合、字幕表示位置は、図2(a)の場合と比較して、垂直方向および水平方向の双方に、その幅が圧縮されたものとなる。設定される字幕表示範囲のアスペクト比が16:9である場合には、字幕表示位置の形状は、図2(a)の場合と同じくなる。
図3は、TTML構造の一例を示している。この例は、字幕表示位置(リージョン)が1個の場合の例である。TTMLは、XMLを基本に記載される。ttルートコンテナには、ランゲージ(言語)やネームスペース(名前空間)が定義されている。ネームスペースは、システムあるいは規格体系において全要素中で一意に識別できるための固有の要素名として定義されるものである。また、<tt>において、「tts:extent」は、字幕の位置情報の対象の元となるビデオ100%の対象領域を最初に宣言するもので、“Fullvideo”は、4Kビデオが対象である場合は3840(H)×2160(V)の解像度のビデオ全体を示し、2K(フルHD)ビデオが対象である場合は1920(H)×1080(V)の解像度のビデオ全体を示す。
「xmlns=http://www.w3.org/ns/ttml」、「xmlns:ttp=http://www.w3.org/ns/ttml#parameter」、「xmlns:tts=http://www.w3.org/ns/ttml#styling」のネームスペースは、詳細説明は省略するが、予めW3CでTTMLの属性分類として確保されているパラメータ、スタイリングなどのネームスペースである。
「xmlns:dto=http://www.example.org/ns/displaytextoverlay」は、新規に定義するネームスペースである。このネームスペースは、字幕表示範囲の情報を挿入するためのものである。そして、「dto:dispasp=“16:9”」および「dto:RPoffset=“Ax%, By%”」が、字幕表示範囲の情報を示す。
「dto:dispasp=“16:9”」は、字幕表示範囲のアスペクト比情報を示し、字幕表示範囲は16:9のアスペクト比の領域であることを示している。図示の例では、字幕表示範囲のアスペクト比が16:9であることを示しているが、字幕表示範囲のアスペクト比としては、図4に示すように、4:3、21:9などを指定することも可能である。「dto:RPoffset=“Ax%, By%”」は字幕表示範囲の基準点情報を示し、図4に示すように、表示ビデオ領域の水平垂直のそれぞれを100%としたときの字幕表示範囲の基準点(RP:Reference Point)の位置を、表示ビデオ領域のトップ-レフト(top-left)からのオフセットの比率で示している。
ヘッド(head)には、レイアウト(layout)の要素が存在している。リージョンIDが“r1”で示され、字幕表示位置情報として字幕表示位置の起点(origin)と、その領域(extent)が相対位置で示されている。すなわち、「origin=“OH%OV%”」は字幕表示位置の基点を示し、起点が左(left)からOHで、上(top)からOV%であることが示されている。また、「extent=“EH%EV%”」は字幕表示位置の領域を示し、横幅がEH%で、縦幅がEV%であることが示されている。
また、ヘッド(head)には、スタイル(style)の要素が存在している。「fontFamily=" proportionalSansSerif"」は、フォント指定情報である。ここで、「proportionalSansSerif」は、フォントのジェネリックファミリー(総称名)を示している。
ボディ(body)には、XML IDが“p1”で示され、リージョンIDが“r1”で示され、フォント指定がされると共に、字幕(サブタイトル)のテキストデータが記載されている。ここでは、テキストデータが「ABCDE」とされている。「font-family:’Arial’, ‘Tahoma’, sans-serif」は、p要素のフォントを指定しているフォント指定情報である。ここで、「Arial」、「Tahoma」は個別フォント名を示し、「sans-serif」はフォントのジェネリックファミリー(総称名)を示している。
「dto:scalingjustify=top」は、リサイズ処理に関する情報を構成しており、字幕表示位置のリサイズ処理で垂直方向のサイズを圧縮する場合に固定位置とすべきライン位置を示している。図示の例では、固定位置とすべきライン位置がトップライン(上のライン)であることを示しているが、図4に示すように、ボトムライン(下のライン)、ミドルライン(中間のライン)などを指定することも可能である。
図5も、TTML構造の一例を示している。この例は、字幕表示位置(リージョン)が2個の場合の例である。ttルートコンテナは、図3と同様であるので、その説明は省略する。
ヘッド(head)には、レイアウト(layout)の要素が存在している。第1の字幕表示位置のリージョンIDが“r1”で示され、字幕表示位置情報として字幕表示位置の起点(origin)と、その領域(extent)が相対位置で示されている。すなわち、「origin=“OH1%OV1%”」により、起点が左(left)からOH1%で、上(top)からOV1%であることが示されている。また、「extent=“EH1%EV1%”」により、領域の横幅がEH1%で、その縦幅がEV1%であることが示されている。
また、第2の字幕表示位置のリージョンIDが“r2”で示され、字幕表示位置情報として字幕表示位置の起点(origin)と、その領域(extent)が相対位置で示されている。すなわち、「origin=“OH2%OV2%”」により、起点が左(left)からOH2%で、上(top)からOV2%であることが示されている。また、「extent=“EH2%EV2%”」により、領域の横幅がEH2%で、その縦幅がEV2%であることが示されている。
また、ヘッド(head)には、スタイル(style)の要素が存在している。「fontFamily=" proportionalSansSerif"」は、フォント指定情報である。ここで、「proportionalSansSerif」は、フォントのジェネリックファミリー(総称名)を示している。
ボディ(body)には、第1の字幕位置に関連して、XML IDが“p1”で示され、リージョンIDが“r1”で示され、フォント指定がされると共に、字幕(サブタイトル)のテキストデータが記載されている。ここでは、テキストデータが「ABCDE」とされている。「font-family:’Arial’, ‘Tahoma’, sans-serif」は、p要素のフォントを指定しているフォント指定情報である。ここで、「Arial」、「Tahoma」は個別フォント名を示し、「sans-serif」はフォントのジェネリックファミリー(総称名)を示している。
「dto:scalingjustify=bottom」は、リサイズ処理に関する情報を構成しており、字幕表示位置のリサイズ処理で垂直方向のサイズを圧縮する場合に固定位置とすべきライン位置を示している。図示の例では、固定位置とすべきライン位置がボトムライン(下のライン)であることを示している。
また、ボディ(body)には、第2の字幕位置に関連して、XML IDが“p2”で示され、リージョンIDが“r2”で示されると共に、字幕(サブタイトル)のテキストデータが記載されている。ここでは、テキストデータが「FGH」とされている。「font-family=“monospaceSerif“」は、p要素のフォントを指定しているフォント指定情報である。ここで、「monospaceSerif」はフォントのジェネリックファミリー(総称名)を示している。
(0055)
「dto:scalingjustify=top」は、リサイズ処理に関する情報を構成しており、字幕表示位置のリサイズ処理で垂直方向のサイズを圧縮する場合に固定位置とすべきライン位置を示している。図示の例では、固定位置とすべきライン位置がトップライン(上のライン)であることを示している。
図6は、ビデオ領域のアスペクト比と表示ビデオ領域(モニタに表示されるビデオ領域)のアスペクト比が同じである場合における字幕(サブタイトル)の表示例を示している。図示の例は、ビデオ領域のアスペクト比が16:9で、モニタのアスペクト比も16:9である場合であって、図3に示すようなTTML構造(字幕表示位置が1個)を持つ場合の例である。
図示の例では、ビデオ領域を破線枠で示し、モニタ領域を実線枠で示している。この場合、一点鎖線枠で示すように、表示ビデオ領域が字幕表示範囲とされ、それに対する相対位置で指定される字幕表示位置情報(「origin=“OH%OV%”」、「extent=“EH%EV%”」)に基づき字幕表示位置(リージョン)が決定されている。“RP”は、字幕表示範囲のトップ―レフト(top-left)である基準点(Reference Pont)を示している。
このように決定された字幕表示位置に、テキストデータによる字幕「ABCDE」が表示されている。なお、図示の例では、ビデオ領域、モニタ領域および字幕表示範囲を示す各枠がずれて表示されているが、各枠を明確に表示するための処置であり、実際には、各枠は重なっている。説明は省略するが、以下の各図においても、同様の表示がなされている。
図7も、ビデオ領域のアスペクト比と表示ビデオ領域(モニタに表示されるビデオ領域)のアスペクト比が同じである場合における字幕(サブタイトル)の表示例を示している。図示の例は、ビデオ領域のアスペクト比が16:9で、モニタのアスペクト比も16:9である場合であって、図5に示すようなTTML構造(字幕表示位置が2個)を持つ場合の例である。
図示の例では、ビデオ領域を破線枠で示し、モニタ領域を実線枠で示している。この場合、一点鎖線枠で示すように、表示ビデオ領域が字幕表示範囲とされ、それに対する相対位置で指定される字幕表示位置情報(「origin=“OH1%OV1%”」、「extent=“EH1%EV1%”」、「origin=“OH2%OV2%”」、「extent=“EH2%EV2%”」)に基づき、第1、第2の字幕表示位置(リージョン)が決定されている。
そして、第1の字幕表示位置(第1のリージョン)にテキストデータによる字幕「ABCDE」が表示され、第2の字幕表示位置(第2のリージョン)にテキストデータによる字幕「FGH」が表示されている。この場合、2つの字幕表示位置(リージョン)の間隔は、例えば10ラインとされている。
図8は、ビデオ領域のアスペクト比と表示ビデオ領域(モニタに表示されるビデオ領域)のアスペクト比が異なる場合であって、表示ビデオ領域が字幕表示範囲とされ、字幕表示位置情報に基づいて字幕表示位置が決定される場合(第1の方法)における字幕(サブタイトル)の表示例を示している。図示の例は、ビデオ領域のアスペクト比が16:9で、モニタのアスペクト比は4:3である場合であって、図3に示すようなTTML構造(字幕表示位置が1個)を持つ場合の例である。
図示の例では、ビデオ領域を破線枠で示し、モニタ領域を実線枠で示している。この場合、一点鎖線枠で示すように、表示ビデオ領域が字幕表示範囲とされ、それに対する相対位置で指定される字幕表示位置情報(「origin=“OH%OV%”」、「extent=“EH%EV%”」)に基づき字幕表示位置(リージョン)が決定されている。そして、字幕表示位置に、テキストデータによる字幕「ABCDE」が表示されている。
この場合、字幕表示位置は、図6の場合と比較して、垂直方向には同じ幅となるが、水平方向にはその幅が圧縮されたものとなる。この場合、字幕表示位置の幅が圧縮されることに伴って字幕のフォントサイズも小さいサイズに調整される。このように字幕のフォントサイズが調整されることで、図示のように、水平方向に関しては字幕表示位置とそれに表示される字幕との関係は整合した状態となるが、字幕表示位置の幅が圧縮されていない垂直方向に関しては字幕表示位置とそれに表示される字幕との関係は不整合な状態となる。この場合、視聴者は、字幕表示位置の黒領域が浮いたような感じを受けるようになる。
そこで、上述したように第1の方法においては、決定された字幕表示位置にリサイズ処理が施され、字幕表示位置とそれに表示される字幕との関係が水平方向だけでなく垂直方向にも整合した状態とされる。図9は、リサイズ処理が施された場合の表示例を示している。この場合、リサイズ処理により、字幕表示位置情報(「origin=“OH%OV%”」、「extent=“EH%EV%”」)に基づいて決定されることで水平方向にだけ圧縮された字幕表示位置が、垂直方向にも同じ割合で圧縮されたものとされる。この場合、結果的に、字幕表示位置は、字幕表示位置情報(「origin=“OH%OV%”」、「extent=“EH%EVu%”」)で決定されたものとなる。この場合、EVu=3/4*EVの関係となる。
このようにリサイズ処理が行われる場合、所定のライン位置が固定された状態で垂直方向の幅の圧縮が行われる。図示の例は、TTMLに含まれる「dto:scalingjustify=top」の情報に基づいて、所定のライン位置がトップライン(上のライン)とされた例である。なお、図示の例において、破線枠は、垂直方向の幅の圧縮が行われる前における字幕表示位置を示している。
図10も、ビデオ領域のアスペクト比と表示ビデオ領域(モニタに表示されるビデオ領域)のアスペクト比が異なる場合であって、表示ビデオ領域が字幕表示範囲とされ、字幕表示位置情報に基づいて字幕表示位置が決定される場合(第1の方法)における字幕(サブタイトル)の表示例を示している。図示の例は、ビデオ領域のアスペクト比が16:9で、モニタのアスペクト比は4:3である場合であって、図5に示すようなTTML構造(字幕表示位置が2個)を持つ場合の例であり、リサイズ処理が施された場合の表示例を示している。
図示の例では、ビデオ領域を破線枠で示し、モニタ領域を実線枠で示している。この場合、一点鎖線枠で示すように、表示ビデオ領域が字幕表示範囲とされ、それに対する相対位置で指定される字幕表示位置情報(「origin=“OH1%OV1%”」、「extent=“EH1%EV1%”」、「origin=“OH2%OV2%”」、「extent=“EH2%EV2%”」)に基づき、第1、第2の字幕表示位置(リージョン)が決定され、その後にさらにリサイズ処理が施されている。
この場合、第1の字幕表示位置(第1のリージョン)は、結果的に、字幕表示位置情報(「origin=“OH1%OV1%”」、「extent=“EH1%EV1u%”」)で決定されたものとなる。この場合、EV1u=3/4*EV1の関係となる。同様に、この場合、第2の字幕表示位置(第2のリージョン)は、結果的に、字幕表示位置情報(「origin=“OH2%OV2%”」、「extent=“EH2%EV2u%”」)で決定されたものとなる。この場合、EV2u=3/4*EV2の関係となる。
そして、第1の字幕表示位置(第1のリージョン)にテキストデータによる字幕「ABCDE」が表示され、第2の字幕表示位置(第2のリージョン)にテキストデータによる字幕「FGH」が表示されている。この場合、字幕表示位置(リージョン)の圧縮に応じて、それに整合するように字幕のフォントサイズが調整される。
リサイズ処理が行われる場合、所定のライン位置が固定された状態で垂直方向の幅の圧縮が行われる。図示の例は、TTMLに含まれる「dto:scalingjustify=bottom」の情報に基づいて、第1の字幕表示位置(第1のリージョン)に関しては、所定のライン位置がボトムライン(下のライン)とされた例である。また、TTMLに含まれる「dto:scalingjustify=top」の情報に基づいて、第2の字幕表示位置(第2のリージョン)に関しては、所定のライン位置がトップライン(上のライン)とされた例である。
このように第1、第2の字幕表示位置における所定のライン位置が選択されることで、第1、第2の字幕表示位置の間隔として、図7の表示例における場合と同様に例えば10ラインが維持される。そのため、視聴者における、表示画像上における字幕(サブタイトル)の知覚性をほぼ維持することが可能となる
図11は、ビデオ領域のアスペクト比と表示ビデオ領域(モニタに表示されるビデオ領域)のアスペクト比が異なる場合であって、表示ビデオ領域に字幕表示範囲が設定され、字幕表示位置情報に基づいて字幕表示位置が決定される場合(第2の方法)における字幕(サブタイトル)の表示例を示している。図示の例は、ビデオ領域のアスペクト比が16:9で、モニタのアスペクト比は4:3である場合であって、図3に示すようなTTML構造(字幕表示位置が1個)を持つ場合の表示例を示している。
図示の例では、ビデオ領域を破線枠で示し、モニタ領域を実線枠で示している。この場合、一点鎖線枠で示すように、表示ビデオ領域に字幕表示範囲が設定され、それに対する相対位置で指定される字幕表示位置情報(「origin=“OH%OV%”」、「extent=“EH%EV%”」)に基づき字幕表示位置(リージョン)が決定されている。そして、字幕表示位置に、テキストデータによる字幕「ABCDE」が表示されている。この場合、字幕表示位置(リージョン)の圧縮に応じて、それに整合するように字幕のフォントサイズが調整される。
この場合、例えば、表示ビデオ領域に、ビデオ領域のアスペクト比と同じアスペクト比の字幕表示範囲が設定される。図示の例は、TTMLに含まれる字幕表示範囲の情報、すなわち字幕表示範囲の基準点情報(「dto:RPoffset=“Ax%, By%”」)と、字幕表示範囲のアスペクト比情報(「dto:dispasp=“16:9”」)に基づいて、表示ビデオ領域にアスペクト比が16:9である字幕表示範囲が設定された例である。
この場合、字幕表示位置は、垂直方向および水平方向の双方にその幅が圧縮されたものとなり、字幕表示位置の形状は図6の場合と同じくなり、字幕のフォントサイズの調整に伴う字幕表示位置の調整(リサイズ処理)は不要となる。
図12も、ビデオ領域のアスペクト比と表示ビデオ領域(モニタに表示されるビデオ領域)のアスペクト比が異なる場合であって、表示ビデオ領域に字幕表示範囲が設定され、字幕表示位置情報に基づいて字幕表示位置が決定される場合(第2の方法)における字幕(サブタイトル)の表示例を示している。図示の例は、ビデオ領域のアスペクト比が16:9で、モニタのアスペクト比は4:3である場合であって、図5に示すようなTTML構造(字幕表示位置が2個)を持つ場合の表示例を示している。
図示の例では、ビデオ領域を破線枠で示し、モニタ領域を実線枠で示している。この場合、一点鎖線枠で示すように、表示ビデオ領域が字幕表示範囲とされ、それに対する相対位置で指定される字幕表示位置情報(「origin=“OH1%OV1%”」、「extent=“EH1%EV1%”」、「origin=“OH2%OV2%”」、「extent=“EH2%EV2%”」)に基づき、第1、第2の字幕表示位置(リージョン)が決定されている。そして、第1の字幕表示位置(第1のリージョン)にテキストデータによる字幕「ABCDE」が表示され、第2の字幕表示位置(第2のリージョン)にテキストデータによる字幕「FGH」が表示されている。
[放送送出システムのストリーム生成部の構成例]
図13は、放送送出システム100のストリーム生成部110の構成例を示している。このストリーム生成部110は、制御部111と、ビデオエンコーダ112と、オーディオエンコーダ113と、テキストフォーマット変換部114と、サブタイトルエンコーダ115と、TSフォーマッタ(マルチプレクサ)116を有している。
制御部111は、例えば、CPU(Central Processing Unit)を備えた構成とされており、ストリーム生成部110の各部の動作を制御する。ビデオエンコーダ112は、ビデオデータDVを入力し、このビデオデータDVに対して符号化を施し、ペイロードに符号化ビデオデータを持つビデオPESパケットにより構成されるビデオストリーム(PESストリーム)を生成する。オーディオエンコーダ113は、オーディオデータDAを入力し、このオーディオデータDAに対して符号化を施し、符号化オーディオデータを持つオーディオPESパケットにより構成されるオーディオストリーム(PESストリーム)を生成する。
テキストフォーマット変換部114は、テキストデータ(文字コード)DTを入力し、字幕情報としてのTTML(Timed Text Markup Language)を得る(図3、図5参照)。このTTMLに、字幕表示位置情報が含まれる。この字幕表示位置情報では、字幕表示位置(リージョン)が字幕表示範囲に対する相対位置(プロポーショナルな値)で指定される。また、このTTMLに、フォント指定情報が含まれる。
また、このTTMLに、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合に受信側で行われる字幕表示位置のリサイズ処理に関する情報、例えば、字幕表示位置のリサイズ処理で垂直方向のサイズを圧縮する場合に固定位置とすべきライン位置を示す情報が含まれる。また、このTTMLに、字幕表示範囲を決定するための情報(字幕表示範囲の基準点情報およびアスペクト比情報)が含まれる。
サブタイトルエンコーダ115は、テキストフォーマット変換部114で得られるTTMLを種々のセグメントに変換し、ペイロードにそれらのセグメントを配置したサブタイトルPESパケットにより構成されるサブタイトルストリーム(PESストリーム)を生成する。
この場合、サブタイトルエンコーダ115は、PESパケットに、TTMLに含まれていると同様のリサイズ処理に関する情報、字幕表示範囲を決定するための情報を挿入する。具体的には、それらの情報を持つ新規定義するTTML・ディスプレイ・セグメント(TTML_display_segment)を生成し、このセグメントをPESパケットに挿入する。
また、サブタイトルエンコーダ115は、PESパケットに、少なくともTTMLのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を挿入する。具体的には、放送信号(トランスポートストリームTS)からダウンロードするための情報を持つ新規定義するフォント・ダウンロード・セグメント(Font_download_segment)と、ネットワーク上のサーバからダウンロードするための情報を持つ新規定義するURL・シグナリング・セグメント(URL_signaling_segment)を生成し、それらのセグメントをPESパケットに挿入する。
図14(a)は、サブタイトルPESパケット(PES_packet)の構造例(Syntax)を示している。「PES_startcode_prefix」の24ビットフィールドには、“0x000001”の固定パターンが配置される。「stream_id」の8ビットフィールドは、ストリーム識別子を示す。サブタイトルPESパケットの場合、「private stream1を示す値である“10111101”とされる。「PES_packet_length」の16ビットフィールドは、PESパケットの長さ(サイズ)として以降のバイト数を示す。
「PES_packet_length」の後に、「Optional_PES_header()」のフィールドが存在する。このフィールドには、PTS,DTSのタイムスタンプなどが配置される。このフィールドの後に、「PES_packet_data_byte」のフィールドが存在する。このフィールドが、PESペイロードに相当する。このフィールドに、データをコンテナするための「PES_data_byte_field()」が配置される。
図14(b)は、「PES_data_byte_field()」の構造例(Syntax)を示している。「data_identifier」の8ビットフィールドは、コンテナ部分でデータの種類を識別する識別子を示す。従来のサブタイトル(ビットマップの場合)は、“0x20”で示すこととされているので、テキストの場合は新たな値、例えば“0x21”で識別することも可能である。
「subtitle_stream_id」の8ビットフィールドは、サブタイトルストリームの種類を識別する識別子を示す。テキスト情報を伝送するサブタイトルストリームの場合は新たな値、例えば“0x01”とし、従来のビットマップを伝送するサブタイトルストリーム“0x00”と区別することが可能である。
この「subtitle_stream_id」のフィールドの後に、“00001111”のパターンに続いて、「TimedTextSubtitling_segments()」のフィールドが存在する。このフィールドに、セグメントパケットが配置される。このフィールドの後に、「end_of_PES_data_field_marker」の8ビットフィールドが存在する。このフィールドは、PESパケットの最後を示すマーカである。
図15は、セグメントタイプ(segment_type)の定義の一例を示している。“0xA0”は、TTMLのドキュメントの全体を伝送するセグメントであることを示す。“0xA1”は、<tt>の部分を伝送するセグメントであることを示す。“0xA2”は、<head>の部分を伝送するセグメントであることを示す。“0xA3”は、<body>の部分を伝送するセグメントパケットであることを示す。“0xA4”は、TTML・ディスプレイ・セグメントであることを示す。“0xA5”は、フォント・ダウンロード・セグメントであることを示す。“0xA6”は、URL・シグナリング・セグメントであることを示す。
図16は、TTML・ディスプレイ・セグメント(TTML_display_segment)の構造例(Syntax)を示している。図17は、その構造例における主要な情報の内容(Semantics)を示している。「sync_byte」の8ビットフィールドは、セグメント開始を示すユニークワードである。「segment_type」の8ビットフィールドは、セグメントの種類を示す。このTTML・ディスプレイ・セグメントの場合、「segment_type」は“0xA4”とされ(図15参照)、TTML・ディスプレイ・セグメントであることを示す。「segment_length」の16ビットフィールドは、TTML・ディスプレイ・セグメントの長さ(サイズ)として以降のバイト数を示す。
「tds_version_number」の4ビットフィールドは、TTML・ディスプレイ・セグメントの更新を示す。要素に変化がある場合、値を一つ増加する。「display_aspect_type」の8ビットフィールドは、字幕表示範囲のアスペクト比を示す。例えば、“0x01”は16:9を示し、“0x02”は4:3を示し、“0x03”は21:9を示す。このフィールドの情報は、TTMLにおける「dto:dispasp」の情報に対応する(図3、図5参照)。
「reference_point_offset_v」の8ビットフィールドは、表示ビデオ領域の垂直水平を100%としたときの字幕表示範囲の基準点の垂直位置を、表示ビデオ領域の左上(top-left)からのオフセットの比率で示す。「reference_point_offset_h」の8ビットフィールドは、表示ビデオ領域の垂直水平を100%としたときの字幕表示範囲の基準点の水平位置を、表示ビデオ領域の左上(top-left)からのオフセットの比率で示す。これらのフィールドの情報は、TTMLにおける「dto:RPoffset」の情報に対応する(図3、図5参照)。
「scaling_justify_flag」の1ビットフィールドは、リージョン(region)のスケーリングを行う場合に、スケーリングの基準点を指定するか否かを示す。“1”は基準点を指定することを示し、“0”は基準点を指定しないことを示す。基準点を指定する場合、リージョンが複数ある際には、最上位置のリージョンはリージョンの下部を基準(bottom_line_justified)とし、最下位置のリージョンはリージョンの上部を基準(top_line_justified)とする。このフィールドの情報は、TTMLにおける「dto:scalingjustify」の情報に対応する(図3、図5参照)。
図18は、フォント・ダウンロード・セグメント(Font_download_segment)の構造例(Syntax)を示している。図19は、その構造例における主要な情報の内容(Semantics)を示している。「sync_byte」の8ビットフィールドは、セグメント開始を示すユニークワードである。「segment_type」の8ビットフィールドは、セグメントの種類を示す。このフォント・ダウンロード・セグメントの場合、「segment_type」は“0xA5”とされ(図15参照)、フォント・ダウンロード・セグメントであることを示す。「segment_length」の16ビットフィールドは、フォント・ダウンロード・セグメントの長さ(サイズ)として以降のバイト数を示す。「fds_version_number」の4ビットフィールドは、フォント・ダウンロード・セグメントの更新を示す。要素に変化がある場合、値を一つ増加する。
「original_network_id」の16ビットフィールドは、ダウンロードデータが伝送されるネットワークの識別情報を示す。「transport_stream_id」の16ビットフィールドは、個別のトランスポートストリームの識別情報を示す。「service_id」の16ビットフィールドは、ダウンロードが行われるサービスの識別情報を示す。配信メディア間共通のダウンロード対象の場合、自身のトランスポートストリームではなく、他のトランスポートストリームでフォントファイルが送られていることもあり、その場合の参照先のプライベートセクションを特定する情報として、これらの「original_network_id」、「transport_stream_id」、「service_id」の情報が指定できるようになっている。
「font_file_id」の8ビットフィールドは、フォントファイルに割り当てられた識別番号を示す。「ISO_639_language_code」の24ビットフィールドは、言語を識別させる3文字からなるコードを示す。例えば、“jpn”は日本語を示し、“eng”は英語を示す。「font_group_id」の8ビットフィールドは、フォントグループの識別情報を示し、TTMLのジェネリックファミリーに相当する。「font_name_id」の8ビットフィールドは、個別フォント名を示す。
「text_length」の8ビットフィールドは、以降の文字コード部分の長さ(サイズ)をバイト数で示す。文字コードは、「char」のフィールドに配置される。例えば、文字コードとして、個別フォント名などを示す文字コードを配置することが可能である。
なお、図18の例では、一つのフォントファイルのダウンロード情報を含むものであるが、複数のフォントファイルのダウンロード情報を含めることも可能である。その場合には、forループにより、「original_network_id」からのフィールドが繰り返される構造となる。あるいは、フォント・ダウンロード・セグメント(Font_download_segment)を複数伝送することで複数のフォントファイルのダウンロード情報供給とすることも可能である。
図20は、URL・シグナリング・セグメント(URL_signaling_segment)の構造例(Syntax)を示している。図21は、その構造例における主要な情報の内容(Semantics)を示している。「sync_byte」の8ビットフィールドは、セグメント開始を示すユニークワードである。「segment_type」の8ビットフィールドは、セグメントの種類を示す。このURL・シグナリング・セグメントの場合、「segment_type」は“0xA6”とされ(図15参照)、URL・シグナリング・セグメントであることを示す。「segment_length」の16ビットフィールドは、フォント・ダウンロード・セグメントの長さ(サイズ)として以降のバイト数を示す。「uss_version_number」の4ビットフィールドは、URL・シグナリング・セグメントの更新を示す。要素に変化がある場合、値を一つ増加する。
「ISO_639_language_code」の24ビットフィールドは、言語を識別させる3文字からなるコードを示す。例えば、“jpn”は日本語を示し、“eng”は英語を示す。「font_group_id」の8ビットフィールドは、フォントグループの識別情報を示し、TTMLのジェネリックファミリーに相当する。「font_name_id」の8ビットフィールドは、個別フォント名を示す。
「url_type」の8ビットフィールドは、サーバのタイプを示す。例えば、“0x01”はフォントサーバ(非圧縮URL)を示し、“0x02”は一般のサーバ(非圧縮URL)を示し、“0x11”はフォントサーバ(圧縮URL)を示し、“0x12”は一般のサーバ(圧縮URL)を示す。「url_string_length」の8ビットフィールドは、以降のURLの文字列を示す文字コード部分の長さ(サイズ)をバイト数で示す。文字コードは、「char」のフィールドに配置される。
なお、図20の例では、一つのフォントファイルのダウンロード情報を含むものであるが、複数のフォントファイルのダウンロード情報を含めることも可能である。その場合には、forループにより、「ISO_639_language_code」からのフィールドが繰り返される構造となる。あるいは、URL・シグナリング・セグメント(URL_signaling_segment)を複数伝送することで複数のフォントファイルのダウンロード情報供給とすることも可能である。
図13に戻って、TSフォーマッタ116は、ビデオエンコーダ112で生成されたビデオストリーム、オーディオエンコーダ113で生成されたオーディオストリームおよびサブタイトルエンコーダ115で生成されたサブタイトルストリームを、トランスポートパケット化して多重し、コンテナ(多重化ストリーム)としてのトランスポートストリームTSを得る。
この場合、TSフォーマッタ116は、PMT(Program Map Table)に、TTMLに含まれていると同様のリサイズ処理に関する情報、字幕表示範囲を決定するための情報を挿入する。具体的には、それらの情報を持つ新規定義するTTML・ディスプレイ・デスクリプタ(TTML_display_descriptor)を生成し、このデスクリプタをPMTに挿入する。
また、TSフォーマッタ116は、PMTに、少なくともTTMLのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を挿入する。具体的には、放送信号(トランスポートストリームTS)からダウンロードするための情報を持つ新規定義するフォント・ダウンロード・デスクリプタ(Font_download_descriptor)と、ネットワーク上のサーバからダウンロードするための情報を持つ新規定義するURL・シグナリング・デスクリプタ(URL_signaling_descriptor)を生成し、それらのデスクリプタをPMTに挿入する。
図22は、TTML・ディスプレイ・デスクリプタ(TTML_display_descriptor)の構造例(Syntax)を示している。「descriptor_tag」の8ビットフィールドは、デスクリプタタイプを示し、ここでは、TTML・ディスプレイ・デスクリプタであることを示す。「descriptor_length」の8ビットフィールドは、デスクリプタの長さ(サイズ)を示し、デスクリプタの長さとして以降のバイト数を示す。
「display_aspect_type」の8ビットフィールドは、字幕表示範囲のアスペクト比を示す。このフィールドの情報は、TTMLにおける「dto:dispasp」の情報に対応する(図3、図5参照)。
「reference_point_offset_v」の8ビットフィールドは、表示ビデオ領域の垂直水平を100%としたときの字幕表示範囲の基準点の垂直位置を、表示ビデオ領域の左上(top-left)からのオフセットの比率で示す。「reference_point_offset_h」の8ビットフィールドは、表示ビデオ領域の垂直水平を100%としたときの字幕表示範囲の基準点の水平位置を、表示ビデオ領域の左上(top-left)からのオフセットの比率で示す。これらのフィールドの情報は、TTMLにおける「dto:RPoffset」の情報に対応する(図3、図5参照)。
「scaling_justify_flag」の1ビットフィールドは、リージョン(region)のスケーリングを行う場合に、スケーリングの基準点を指定するか否かを示す。“1”は基準点を指定することを示し、“0”は基準点を指定しないことを示す。このフィールドの情報は、TTMLにおける「dto:scalingjustify」の情報に対応する(図3、図5参照)。
「text_length」の8ビットフィールドは、以降の文字コード部分の長さ(サイズ)をバイト数で示す。文字コードは、「char」のフィールドに配置される。例えば、文字コードとして、アスペクト比など示す文字コードを配置することが可能である。
図23は、フォント・ダウンロード・デスクリプタ(Font_download_descriptor)の構造例(Syntax)を示している。「descriptor_tag」の8ビットフィールドは、デスクリプタタイプを示し、ここでは、フォント・ダウンロード・デスクリプタであることを示す。「descriptor_length」の8ビットフィールドは、デスクリプタの長さ(サイズ)を示し、デスクリプタの長さとして以降のバイト数を示す。
「original_network_id」の16ビットフィールドは、ダウンロードデータが伝送されるネットワークの識別情報を示す。「transport_stream_id」の16ビットフィールドは、個別のトランスポートストリームの識別情報を示す。「service_id」の16ビットフィールドは、ダウンロードが行われるサービスの識別情報を示す。配信メディア間共通のダウンロード対象の場合、自身のトランスポートストリームではなく、他のトランスポートストリームでフォントファイルが送られていることもあり、その場合の参照先のプライベートセクションを特定する情報として、これらの「original_network_id」、「transport_stream_id」、「service_id」の情報が指定できるようになっている。
「font_file_id」の8ビットフィールドは、フォントファイルに割り当てられた識別番号を示す。「ISO_639_language_code」の24ビットフィールドは、言語を識別させる3文字からなるコードを示す。「font_group_id」の8ビットフィールドは、フォントグループの識別情報を示し、TTMLのジェネリックファミリーに相当する。「font_name_id」の8ビットフィールドは、個別フォント名を示す。
「text_length」の8ビットフィールドは、以降の文字コード部分の長さ(サイズ)をバイト数で示す。文字コードは、「char」のフィールドに配置される。例えば、文字コードとして、個別フォント名などを示す文字コードを配置することが可能である。
なお、図23の例では、一つのフォントファイルのダウンロード情報を含むものであるが、複数のフォントファイルのダウンロード情報を含めることも可能である。その場合には、forループにより、「original_network_id」からのフィールドが繰り返される構造となる。
図24は、フォント・ダウンロード・デスクリプタ(Font_download_descriptor)の構造例(Syntax)を示している。「descriptor_tag」の8ビットフィールドは、デスクリプタタイプを示し、ここでは、フォント・ダウンロード・デスクリプタであることを示す。「descriptor_length」の8ビットフィールドは、デスクリプタの長さ(サイズ)を示し、デスクリプタの長さとして以降のバイト数を示す。
「ISO_639_language_code」の24ビットフィールドは、言語を識別させる3文字からなるコードを示す。「font_group_id」の8ビットフィールドは、フォントグループの識別情報を示し、TTMLのジェネリックファミリーに相当する。「font_name_id」の8ビットフィールドは、個別フォント名を示す。「url_type」の8ビットフィールドは、サーバのタイプを示す。「url_string_length」の8ビットフィールドは、以降のURLの文字列を示す文字コード部分の長さ(サイズ)をバイト数で示す。文字コードは、「char」のフィールドに配置される。
なお、図24の例では、一つのフォントファイルのダウンロード情報を含むものであるが、複数のフォントファイルのダウンロード情報を含めることも可能である。その場合には、forループにより、「ISO_639_language_code」からのフィールドが繰り返される構造となる。
上述したように、PESパケットに挿入されるフォント・ダウンロード・セグメント(図18参照)、あるいはPMTに挿入されるフォント・ダウンロード・デスクリプタ(図23参照)に含まれる情報に基づいて、テレビ受信機200は、図25(a)に「Font download case(Case1)」として示すように、トランスポートストリームTS(放送信号)から、TTMLのフォント指定情報で指定されているフォントのファイルを取得できる。
また、上述したように、PESパケットに挿入されるURL・シグナリング・セグメント(図20参照)、あるいはPMTに挿入されるフォント・ダウンロード・デスクリプタ(図24参照)に含まれる情報に基づいて、テレビ受信機200は、図25(b)に「Font download case(Case2)」として示すように、ネットワーク上のサーバから、TTMLのフォント指定情報で指定されているフォントのファイルを取得できる。
図13に戻って、TSフォーマッタ116は、トランスポートストリームTSに、それぞれ異なるフォントファイル(Font file)を持つ所定数のセクションテーブルを順次繰り返し挿入する。つまり、放送送出システム100は、この所定数のセクションテーブルをデータカルーセルで繰り返し送信する。
図26は、フォントファイル(Font file)を持つN個のセクションテーブルの他に、フォントテーブル(Font table)を持つ1個のセクションテーブルがデータカルーセルで繰り返し送信され、受信機200はそれらのセクションテーブルをそのタイミングが限定されることなく受信可能であることを模式的に示している。
ここで、フォントファイルやフォントテーブルを持つセクションテーブルとして、プライベートセクションテーブルとしてのフォント・ダウンローディング・セクションテーブル(FDT:Font_downloading_section table)を新規定義する。フォント・ダウンローディング・セクションテーブルには、テーブル構造は後述するが、「data_downloading_id」、「section_number」、「last_section_number」などのフィールドが存在する。
図26に示すように、巡回するフォント・ダウンローディング・セクションテーブルの「data_downloading_id」のフィールドには例えば0からNまでの値が挿入されてそれぞれのセクションテーブルの識別が可能とされる。巡回するフォント・ダウンローディング・セクションテーブルの「section_number」のフィールドにも「data_downloading_id」のフィールドと同様の値が挿入され、各セクションテーブルの「last_section_number」のフィールドにはNの値が挿入される。
受信機200は、巡回供給中の位置関係を、受信したフォント・ダウンローディング・セクションテーブルの「section_number」、「last_section_number」のフィールドの値で認識できる。つまり、受信機200は、「section_number」のフィールドの値で現在のセクションテーブルの位置を認識し、「section_number」のフィールドの値が「last_section_number」のフィールドの値と一致するとき巡回する最後のセクションテーブルであることを認識し、一巡で全てのセクションテーブルを取得することに利用できる。
図27は、フォント・ダウンローディング・セクションテーブル(Font_downloading_section table)の構造例(Syntax)を示している。図28は、その構造例における主要な情報の内容(Semantics)を示している。
「table_id」の8ビットフィールドは、テーブル識別情報を示す。このテーブル識別情報としてフォント・ダウンローディング・セクションテーブルを示す値が指定される。「data_downloading_id」の16ビットフィールドは、ダウンロードデータの識別情報で「original_network_id」ごとに定義されるユニーク値を示す。例えば、“0x00”でフォントテーブル情報であることを示し、“0x00”以外でフォントファイル情報であることを示す。「version_number」の5ビットフィールドは、フォント・ダウンローディング・セクションテーブルの更新を示す。要素に変化がある場合、値を一つ増加する。
「original_network_id」の16ビットフィールドは、ダウンロードデータが伝送されるネットワークの識別情報を示す。「transport_stream_id」の16ビットフィールドは、個別のトランスポートストリームの識別情報を示す。「service_id」の16ビットフィールドは、ダウンロードが行われるサービスの識別情報を示す。これら3つの識別情報を共に用いることで、配信メディア間共通のダウンロード対象とすることが可能になる。
「descriptor()」のフィールドには、「data_downloading_id」が“0x00”であるときはフォント・テーブル・デスクリプタ(Font_table_descriptor)が配置され、「data_downloading_id」が“0x00”以外であるときはフォント・ファイル・デスクリプタ(Font_file_descriptor)が配置される。また、「data_downloading_id」が“0x00”以外であるとき、「data_byte」のフィールドにフォントファイル(Font file)が配置される。
図29は、「data_downloading_id」が“0x00”であるときにフォント・ダウンローディング・セクションテーブルに記述されるフォントテーブル情報を概略的に示している。この場合、上述したように、フォント・ダウンローディング・セクションテーブルには、「descriptor()」のフィールドにフォント・テーブル・デスクリプタ(Font_table_descriptor)が配置される。
フォント・テーブル・デスクリプタには、巡回送信される所定数のフォントファイルの情報が記述される。フォントファイルの情報として、「Font_file_id」、「ISO_639_language_code」、「font_group_id」、「font_name_id」などの情報が含まれる。「font_file_id」は、フォントファイルに割り当てられた識別番号を示す。「ISO_639_language_code」は、言語の識別コードを示す。「font_group_id」は、フォントグループの識別情報を示す。「font_name_id」は、個別フォント名を示す。図30は、「font_group_id」の値とフォントグループとの対応関係を示している。
図31は、フォント・テーブル・デスクリプタ(Font_table_descriptor)の構造例(Syntax)を示している。「descriptor_tag」の8ビットフィールドは、デスクリプタタイプを示し、ここでは、フォント・テーブル・デスクリプタであることを示す。「descriptor_length」の8ビットフィールドは、デスクリプタの長さ(サイズ)を示し、デスクリプタの長さとして以降のバイト数を示す。
「number_of_font_files」の8ビットフィールドは、フォントファイルの数を示す。このフォントファイルの数だけ、「Font_file_id」の8ビットフィールド、「ISO_639_language_code」の24ビットフィールド、「font_group_id」の8ビットフィールド、「font_name_id」の8ビットフィールドが存在する。
「text_length」の8ビットフィールドは、以降の文字コード部分の長さ(サイズ)をバイト数で示す。文字コードは、「char」のフィールドに配置される。例えば、文字コードとして、個別フォント名などを示す文字コードを配置することが可能である。
図32は、「data_downloading_id」が“0x00”以外であるときにフォント・ダウンローディング・セクションテーブルに記述されるフォントテーブル情報を概略的に示している。この場合、上述したように、フォント・ダウンローディング・セクションテーブルには、「descriptor()」のフィールドにフォント・ファイル・デスクリプタ(Font_file_ descriptor)が配置され、さらに「data_byte」のフィールドにフォントファイル(Font file)が配置される。
フォント・ファイル・デスクリプタには、送信されるフォントファイルの情報が記述される。フォントファイルの情報として、「Font_file_id」、「ISO_639_language_code」、「font_group_id」、「font_name_id」などの情報が含まれる。「font_file_id」は、フォントファイルに割り当てられた識別番号を示す。「ISO_639_language_code」は、言語の識別コードを示す。「font_group_id」は、フォントグループの識別情報を示す。「font_name_id」は、個別フォント名を示す。
図33は、フォント・ファイル・デスクリプタ(Font_file_descriptor)の構造例(Syntax)を示している。「descriptor_tag」の8ビットフィールドは、デスクリプタタイプを示し、ここでは、フォント・ファイル・デスクリプタであることを示す。「descriptor_length」の8ビットフィールドは、デスクリプタの長さ(サイズ)を示し、デスクリプタの長さとして以降のバイト数を示す。
送信するフォントファイルの情報を示す、「Font_file_id」の8ビットフィールド、「ISO_639_language_code」の24ビットフィールド、「font_group_id」の8ビットフィールド、「font_name_id」の8ビットフィールドが存在する。「text_length」の8ビットフィールドは、以降の文字コード部分の長さ(サイズ)をバイト数で示す。文字コードは、「char」のフィールドに配置される。例えば、文字コードとして、個別フォント名などを示す文字コードを配置することが可能である。
図13に示すストリーム生成部110の動作を簡単に説明する。ビデオデータDVは、ビデオエンコーダ112に供給される。ビデオエンコーダ112では、このビデオデータDVに対して符号化が施され、ペイロードに符号化画像データを持つビデオPESパケットからなるビデオストリーム(PESストリーム)が生成される。このビデオストリームは、TSフォーマッタ116に供給される。
また、オーディオデータDAは、オーディオエンコーダ113に供給される。オーディオエンコーダ113では、オーディオデータDAに対して符号化が施され、符号化音声データを持つオーディオPESパケットからなるオーディオストリーム(PESストリーム)が生成される。このオーディオストリームは、TSフォーマッタ116に供給される。
また、テキストデータ(文字コード)DTは、テキストフォーマット変換部114に供給される。このキストフォーマット変換部114では、字幕情報としてのTTMLが得られる(図3、図5参照)。このTTMLには、字幕表示位置(リージョン)を字幕表示範囲に対する相対位置(プロポーショナルな値)で指定する字幕表示位置情報が含まれている。また、TTMLには、フォント指定情報が含まれている。また、TTMLには、字幕表示位置情報を用いて字幕を表示するときに使用される補助情報(リサイズ処理に関する情報、字幕表示範囲を決定するための情報)が含まれている。
このTTMLは、サブタイトルエンコーダ115に供給される。このサブタイトルエンコーダ115では、TTMLが種々のセグメントに変換され、ペイロードにそれらのセグメントを配置したサブタイトルPESパケットからなるサブタイトルストリームが生成される。このサブタイトルストリームは、TSフォーマッタ116に供給される。
この場合、サブタイトルエンコーダ115では、PESパケットに、TTMLに含まれていると同様の、字幕表示位置情報を用いて字幕を表示するときに使用される補助情報(リサイズ処理に関する情報、字幕表示範囲を決定するための情報)が挿入される。具体的には、それらの情報を持つTTML・ディスプレイ・セグメント(図16参照))が生成され、このセグメントがPESパケットに挿入される。
また、サブタイトルエンコーダ115では、PESパケットに、少なくともTTMLのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報が挿入される。具体的には、放送信号(トランスポートストリームTS)からダウンロードするための情報を持つフォント・ダウンロード・セグメント(図18参照))と、ネットワーク上のサーバからダウンロードするための情報を持つURL・シグナリング・セグメント(図20参照)が生成され、それらのセグメントがPESパケットに挿入される。
TSフォーマッタ116では、ビデオエンコーダ112で生成されたビデオストリーム、オーディオエンコーダ113で生成されたオーディオストリームおよびサブタイトルエンコーダ115で生成されたサブタイトルストリームが、トランスポートパケット化されて多重化され、コンテナ(多重化ストリーム)としてのトランスポートストリームTSが生成される。
この場合、TSフォーマッタ116では、PMTに、TTMLに含まれていると同様の、字幕表示位置情報を用いて字幕を表示するときに使用される補助情報(リサイズ処理に関する情報、字幕表示範囲を決定するための情報)が挿入される。具体的には、それらの情報を持つTTML・ディスプレイ・デスクリプタ(図22参照)が生成され、このデスクリプタがPMTに挿入される。
また、TSフォーマッタ116では、PMTに、少なくともTTMLのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報が挿入される。具体的には、放送信号(トランスポートストリームTS)からダウンロードするための情報を持つフォント・ダウンロード・デスクリプタ(図23参照)と、ネットワーク上のサーバからダウンロードするための情報を持つ新規定義するURL・シグナリング・デスクリプタ(図24参照)が生成され、それらのデスクリプタがPMTに挿入される。
「トランスポートストリームTSの構成例」
図34は、トランスポートストリームTSの構成例を示している。この構成例では、ビデオ、オーディオの部分についての構成は省略されている。この構成例では、サブタイトルストリームのPESパケットであるサブタイトルPESパケット「Subtitle PES」が存在する。
サブタイトルPESパケットにおいて、PESヘッダにはPTSのタイムスタンプが挿入されており、PESペイロードには、TTMLのドキュメントの全体、あるいはTTMLのドキュメントの分割部分を持つセグメント(タイムド・テキスト・サブタイトリング・セグメント:TimedText subtitle segments)が挿入されている。このセグメントには、リサイズ処理に関する情報(「dto:scalingjustify」)、字幕表示範囲を決定するための情報(「dto:dispasp」、「dto:RPoffset」)が含まれている。
また、このセグメントには、フォント指定情報(「fontFamily」)が含まれている。なお、このセグメントに、後述するように、ダウンロード情報(「fontdlurl=http://www.w3.org/ns/fontdlservice」、「fontdlurl:iso639languagecode="value"」、「fontdlurl:fontgroupid="value"」、「fontdlurl:fontnameid="value"、「fontdlurl:fontname="value“」を含めることも考えられる。
また、サブタイトルPESパケットのPESペイロードには、TTML・ディスプレイ・セグメント(TTML_display_segment)(図16参照)が挿入されている。このセグメントには、上述のタイムド・テキスト・サブタイトリング・セグメント(TimedText subtitle segments)に含まれているリサイズ処理に関する情報(「dto:scalingjustify」)、字幕表示範囲を決定するための情報(「dto:dispasp」、「dto:RPoffset」)にそれぞれ対応した、リサイズ処理に関する情報(「scaling_justify_flag」)、字幕表示範囲を決定するための情報(「display_aspect_type」、「reference_point_offset_v, reference_point_offset_h」)が挿入されている。
また、サブタイトルPESパケットのPESペイロードには、フォント・ダウンロード・セグメント(Font_download_segment) (図18参照)が挿入されている。このセグメントには、上述のタイムド・テキスト・サブタイトリング・セグメント(TimedText subtitle segments)に含まれているフォント指定情報(「fontFamily」)で指定されているフォントのファイルを放送信号(トランスポートストリームTS)からダウンロードするための情報(「font_file_id」、「ISO_639_language_code」、「font_group_id」、「font_name_id」など)が挿入されている。
また、サブタイトルPESパケットのPESペイロードには、URL・シグナリング・セグメント(URL_signalin_segment)(図20参照)が挿入されている。このセグメントには、上述のタイムド・テキスト・サブタイトリング・セグメント(TimedText subtitle segments)に含まれているフォント指定情報(「fontFamily」)で指定されているフォントのファイルをネットワーク上のサーバからダウンロードするための情報(「ISO_639_language_code」、「font_group_id」、「font_name_id」、「url_type」、「URL」など)が挿入されている。
また、トランスポートストリームTSには、PSI(Program Specific Information)として、PMT(Program Map Table)が含まれている。このPSIは、トランスポートストリームTSに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。PMTには、サブタイトルストリームに関連した情報を持つサブタイトルエレメンタリストリーム・ループ(Subtitle ES loop)が存在する。
このサブタイトルエレメンタリストリーム・ループには、サブタイトルストリームに対応して、PID(パケット識別子)等の情報が配置されると共に、そのサブタイトルストリームに関連する情報を記述するデスクリプタも配置される。デスクリプタとして、TTML・ディスプレイ・デスクリプタ(TTML_display_descriptor)(図22参照)、フォント・ダウンロード・デスクリプタ(Font_download_descriptor)(図23参照)、URL・シグナリング・デスクリプタ(URL_signaling_descriptor)(図24参照)が配置される。
TTML・ディスプレイ・デスクリプタには、リサイズ処理に関する情報(「scaling_justify_flag」)、字幕表示範囲を決定するための情報(「display_aspect_type」、「reference_point_offset_v, reference_point_offset_h」)が挿入されている。フォント・ダウンロード・デスクリプタには、フォント・ダウンロード・セグメントと同様のダウンロード情報(「font_file_id」、「ISO_639_language_code」、「font_group_id」、「font_name_id」など)が挿入されている。URL・シグナリング・デスクリプタには、URL・シグナリング・セグメントと同様のダウンロード情報(「ISO_639_language_code」、「font_group_id」、「font_name_id」、「url_type」、「URL」など)が挿入されている。
なお、トランスポートストリームTSのEIT(Event Information Table)の配下に、フォント・ダウンロード・デスクリプタおよびURL・シグナリング・デスクリプタが配置されてもよい。これにより、番組毎に、ダウンロード情報を記述することが可能となる。
また、トランスポートストリームTSには、FDT(Font_downloading_section table)(図27参照))が含まれている。これにより、データカルーセルでフォントテーブル・ファイルを巡回供給する。このFDTには、フォント・テーブル・デスクリプタ(Font_table_descriptor)(図31参照)、あるいはフォント・ファイル・デスクリプタ(Font_file_ descriptor)(図33参照)とフォントファイル(Font_file)が挿入されている。なお、このFDTは、当該トランスポートストリームTSに存在しない場合もある。その場合、受信機200は、PESパケットのフォント・ダウンロード・セグメントあるいはPMTのフォント・ダウンロード・デスクリプタに含まれるダウンロード情報に基づいてフォントファイルをダウンロードする場合には、他のトランスポートストリームTSからフォントファイルをダウンロードすることとなる。
[テレビ受信機の構成例]
図35は、テレビ受信機200の構成例を示している。このテレビ受信機200は、受信部201と、TS解析部(デマルチプレクサ)202と、ビデオデコーダ203と、ビデオ重畳部204と、パネル駆動回路205と、モニタ(ディスプレイ)としての表示パネル206を有している。また、このテレビ受信機200は、オーディオデコーダ207と、オーディオ出力回路208と、スピーカ209と、サブタイトルデコーダ210を有している。また、このテレビ受信機200は、CPU221と、フラッシュROM222と、DRAM223と、内部バス224と、リモコン受信部225と、リモコン送信機226と、通信インタフェース227を有している。
CPU221は、テレビ受信機200の各部の動作を制御する。フラッシュROM222は、制御ソフトウェアの格納およびデータの保管を行う。DRAM223は、CPU221のワークエリアを構成する。CPU221は、フラッシュROM222から読み出したソフトウェアやデータをDRAM223上に展開してソフトウェアを起動させ、テレビ受信機200の各部を制御する。
リモコン受信部225は、リモコン送信機226から送信されたリモートコントロール信号(リモコンコード)を受信し、CPU221に供給する。CPU221は、このリモコンコードに基づいて、テレビ受信機200の各部を制御する。CPU221、フラッシュROM222およびDRAM223は、内部バス224に接続されている。
通信インタフェース227は、CPU221の制御のもと、インターネット等のネットワーク上に存在するサーバとの間で通信を行う。この通信インタフェース227は、内部バス224に接続されている。
受信部201は、放送送出システム100から放送波に載せて送られてくるトランスポートストリームTSを受信する。このトランスポートストリームTSには、上述したように、ビデオストリーム、オーディオストリームおよびサブタイトルストリームが含まれている。TS解析部202は、トランスポートストリームTSからビデオ、オーディオ、サブタイトルの各ストリームのPESパケットを抽出する。この場合、TS解析部202は、各TSパケットのヘッダに挿入されている種々の情報を解析し、“PID”に基づいてビデオ、オーディオ、サブタイトルの各PESパケットのデータを含むTSパケットを選択的に抽出して、ビデオ、オーディオ、サブタイトルの各PESパケットを得る。
また、TS解析部202は、各TSパケットのヘッダに挿入されている種々の情報を解析し、“PID”に基づいてトランスポートストリームTSに挿入されている種々の情報を抽出し、CPU221に送る。この情報には、TTML・ディスプレイ・デスクリプタ(TTML_display_descriptor)(図22参照)、フォント・ダウンロード・デスクリプタ(Font_download_descriptor)(図23参照)およびURL・シグナリング・デスクリプタ(URL_signaling_descriptor)(図24参照)も含まれる。
CPU221は、TTML・ディスプレイ・デスクリプタから、サブタイトルストリームが持つTTMLの字幕表示位置情報を用いて字幕を表示するときに使用される補助情報としてのリサイズ処理に関する情報(「scaling_justify_flag」)、字幕表示範囲を決定するための情報(「display_aspect_type」、「reference_point_offset_v, reference_point_offset_h」)を取得する。
また、CPU221は、フォント・ダウンロード・デスクリプタから、サブタイトルストリームが持つTTMLに含まれているフォント指定情報で指定されているフォントのファイルを放送信号(トランスポートストリームTS)からダウンロードするための情報(「font_file_id」、「ISO_639_language_code」、「font_group_id」、「font_name_id」など)を取得する。
また、CPU221は、URL・シグナリング・デスクリプタから、サブタイトルストリームが持つTTMLに含まれているフォント指定情報で指定されているフォントのファイルをネットワーク上のサーバからダウンロードするための情報(「ISO_639_language_code」、「font_group_id」、「font_name_id」、「url_type」、「URL」など)を取得する。
また、TS解析部202で抽出される情報には、サブタイトルストリームが持つTTMLに含まれているフォント指定情報で指定されているフォントのファイルを放送信号(トランスポートストリームTS)からダウンロードする場合におけるFDT(Font_downloading_section table)(図27参照))も含まれる。CPU221は、このFDTからサブタイトルストリームが持つTTMLに含まれているフォント指定情報で指定されているフォントのファイルを取得する。
オーディオデコーダ207は、TS解析部202で得られたオーディオPESパケットにデコード処理を施し、オーディオデータを得る。オーディオ出力回路208は、オーディオデータに対して、D/A変換や増幅等の必要な処理を施し、スピーカ209に供給する。ビデオデコーダ203は、TS解析部202で得られたビデオPESパケットにデコード処理を施し、ビデオデータを得る。なお、ビデオデコーダ203は、表示モードなどに応じて、適宜、ビデオデータの解像度変換も行う。例えば、ビデオ領域のアスペクト比が16:9でモニタ(ディスプレイ)のアスペクト比が4:3であって、表示モードがレターボックスである場合には、ビデオデータの解像度変換が行われる。
サブタイトルデコーダ210は、TS解析部202で得られたサブタイトルPESパケットにデコード処理を施し、タイムド・テキスト・サブタイトリング・セグメント(TimedText subtitle segments)からTTMLを得て、CPU221に送る。CPU221は、このTTMLから、字幕表示位置(リージョン)を字幕表示範囲に対する相対位置(プロポーショナルな値)で指定する字幕表示位置情報、さらにはこの字幕表示位置情報を用いて字幕を表示するときに使用される補助情報としてのリサイズ処理に関する情報(「dto:scalingjustify」)、字幕表示範囲を決定するための情報(「dto:dispasp」、「dto:RPoffset」)などを取得する。
また、サブタイトルデコーダ210は、TS解析部202で得られたサブタイトルPESパケットに含まれるTTML・ディスプレイ・セグメント(TTML_display_segment)(図16参照)、フォント・ダウンロード・セグメント(Font_download_segment) (図18参照)、URL・シグナリング・セグメント(URL_signalin_segment)(図20参照)を抽出し、CPU221に送る。
CPU221は、TTML・ディスプレイ・セグメントから、サブタイトルストリームが持つTTMLの字幕表示位置情報を用いて字幕を表示するときに使用される補助情報としてのリサイズ処理に関する情報(「scaling_justify_flag」)、字幕表示範囲を決定するための情報(「display_aspect_type」、「reference_point_offset_v, reference_point_offset_h」)を取得する。
また、CPU221は、フォント・ダウンロード・セグメントから、サブタイトルストリームが持つTTMLに含まれているフォント指定情報で指定されているフォントのファイルを放送信号(トランスポートストリームTS)からダウンロードするための情報(「font_file_id」、「ISO_639_language_code」、「font_group_id」、「font_name_id」など)を取得する。
また、CPU221は、URL・シグナリング・セグメントから、サブタイトルストリームが持つTTMLに含まれているフォント指定情報で指定されているフォントのファイルをネットワーク上のサーバからダウンロードするための情報(「ISO_639_language_code」、「font_group_id」、「font_name_id」、「url_type」、「URL」など)を取得する。
また、サブタイトルデコーダ210は、CPU221の制御のもと、TTMLに含まれる各字幕表示位置(リージョン)の字幕(サブタイトル)のテキストデータ(フォントデータ)を、ビットマップデータ(バイナリイメージ情報)に変換する。この場合、字幕のフォントサイズは、CPU221の制御のもと、字幕表示位置情報により決定された、あるいはさらにリサイズ処理されて得られた字幕表示位置の大きさに応じて、TTMLで指定されたフォントサイズから適宜調整されたものとされる。
CPU221は、字幕表示位置情報に基づいて字幕表示位置を決定し、さらに、必要に応じて、決定された字幕表示位置にリサイズ処理を施す。この際、CPU221は、適宜、上述したようにTTML、PESパケット、PMT等に挿入されている補助情報(リサイズ処理に関する情報、字幕表示範囲を決定するための情報)を使用する。CPU221における字幕表示位置の決定およびリサイズ処理の手順の詳細については、さらに後述する。
また、サブタイトルデコーダ210は、CPU221の制御のもと、字幕のビットマップデータを得る際、TTMLが有するフォント指定情報で指定されるフォントのファイルを用いる。テレビ受信機200がフォント指定情報で指定されるフォントのファイルを搭載していないとき、CPU221は、適宜、上述したようにPESパケット、PMT等に挿入されているダウンロード情報に基づいて当該フォントファイルを放送信号(トランスポートストリームTS)あるいはネットワーク上のサーバからダウンロードして使用する。なお、当該ファイルのダウンロードができなかったときは、代用のフォントファイル(例えば、デフォルトのフォントファイル)を使用する。CPU221における使用フォントファイルの決定処理の手順の詳細については、さらに後述する。
ビデオ重畳部204は、CPU221の制御のもと、ビデオデコーダ203で得られたビデオデータに、サブタイトルデコーダ210で得られた各字幕表示位置の字幕のビットマップデータを重畳し、表示用ビデオデータを得る。この場合、CPU221は、上述したように字幕表示位置情報により決定された、あるいはさらにリサイズ処理されて得られた字幕表示位置に基づいて、字幕のビットマップデータの重畳位置が字幕表示位置となるように制御する。
パネル駆動回路205は、ビデオ重畳部204で得られる表示用のビデオデータに基づいて、表示パネル206を駆動する。表示パネル206は、例えば、LCD(Liquid Crystal Display)、有機ELディスプレイ(organic electroluminescence display)などで構成されている。
図35に示すテレビ受信機200の動作を簡単に説明する。受信部201では、放送送出システム100から放送波に載せて送られてくるトランスポートストリームTSが受信される。このトランスポートストリームTSには、ビデオストリーム、オーディオストリームおよびサブタイトルストリームが含まれている。このトランスポートストリームTSは、TS解析部202に供給される。TS解析部202では、トランスポートストリームTSからビデオ、オーディオ、サブタイトルの各ストリームのPESパケットが抽出される。
また、TS解析部202では、トランスポートストリームTSに挿入されている種々の情報が抽出され、CPU221に送られる。この情報には、TTML・ディスプレイ・デスクリプタ)、フォント・ダウンロード・デスクリプタおよびURL・シグナリング・デスクリプタも含まれる。
これにより、CPU221では、サブタイトルストリームが持つTTMLの字幕表示位置情報を用いて字幕を表示するときに使用される補助情報(サイズ処理に関する情報、字幕表示範囲を決定するための情報が取得される。また、CPU221では、サブタイトルストリームが持つTTMLに含まれているフォント指定情報で指定されているフォントのファイルを放送信号(トランスポートストリームTS)やネットワーク上のサーバからダウンロードするためのダウンロード情報が取得される。
また、TS解析部202では、サブタイトルストリームが持つTTMLに含まれているフォント指定情報で指定されているフォントのファイルを放送信号(トランスポートストリームTS)からダウンロードする際には、トランスポートストリームTSからFDTが抽出され、CPU221に送られる。これにより、CPU221では、サブタイトルストリームが持つTTMLに含まれているフォント指定情報で指定されているフォントのファイルが取得される。
TS解析部202で抽出されたビデオPESパケットは、ビデオデコーダ203に供給される。ビデオデコーダ203では、このビデオPESパケットにデコード処理が施されて、ビデオデータが得られる。この場合、ビデオデコーダ203では、表示モードなどに応じて、適宜、ビデオデータの解像度変換も行われる。
また、TS解析部202で抽出されるサブタイトルPESパケットは、サブタイトルデコーダ210に供給される。このサブタイトルデコーダ210では、TS解析部202で得られたサブタイトルPESパケットにデコード処理が施され、TTMLが得られる。このTTMLはCPU221に送られる。CPU221では、このTTMLから、字幕表示位置(リージョン)を字幕表示範囲に対する相対位置(プロポーショナルな値)で指定する字幕表示位置情報、さらにはこの字幕表示位置情報を用いて字幕を表示するときに使用される補助情報(リサイズ処理に関する情報、字幕表示範囲を決定するための情報)などが取得される。
また、サブタイトルデコーダ210では、TS解析部202で得られたサブタイトルPESパケットからTTML・ディスプレイ・セグメント、フォント・ダウンロード・セグメントおよびURL・シグナリング・セグメントが抽出され、CPU221に送られる。
これにより、CPU221では、サブタイトルストリームが持つTTMLの字幕表示位置情報を用いて字幕を表示するときに使用される補助情報(サイズ処理に関する情報、字幕表示範囲を決定するための情報が取得される。また、CPU221では、サブタイトルストリームが持つTTMLに含まれているフォント指定情報で指定されているフォントのファイルを放送信号(トランスポートストリームTS)やネットワーク上のサーバからダウンロードするためのダウンロード情報が取得される。
サブタイトルデコーダ210では、CPU221の制御のもと、TTMLに含まれる各字幕表示位置(リージョン)の字幕(サブタイトル)のテキストデータ(フォントデータ)が、ビットマップデータ(バイナリイメージ情報)に変換される。この場合、字幕のフォントサイズは、CPU221の制御のもと、字幕表示位置情報により決定された、あるいはさらにリサイズ処理されて得られた字幕表示位置の大きさに応じて、TTMLで指定されたフォントサイズから適宜調整されたものとされる。
また、この場合、字幕のビットマップデータを得る際、基本的には、TTMLが有するフォント指定情報で指定されるフォントのファイルが用いられる。テレビ受信機200がフォント指定情報で指定されるフォントのファイルを搭載していないとき、PESパケット、PMT等に挿入されているダウンロード情報に基づいて、当該フォントファイルが放送信号(トランスポートストリームTS)あるいはネットワーク上のサーバからダウンロードされて使用される。このとき、当該フォントファイルのダウンロードができないときは、代用のフォントファイルが使用される。
CPU221では、字幕表示位置情報に基づいて字幕表示位置が決定され、さらに、必要に応じて、決定された字幕表示位置にリサイズ処理が施される。この際、CPU221では、適宜、上述したようにTTML、PESパケット、PMT等に挿入されている補助情報(リサイズ処理に関する情報、字幕表示範囲を決定するための情報)が使用される。
サブタイトルデコーダ210から出力される各字幕表示位置の字幕のビットマップデータは、ビデオ重畳部204に供給される。ビデオ重畳部204では、ビデオデコーダ203で得られたビデオデータに、サブタイトルデコーダ210で得られた各字幕表示位置の字幕のビットマップデータが重畳され、表示用のビデオデータが得られる。この場合、CPU221により、字幕表示位置情報により決定された、あるいはさらにリサイズ処理されて得られた字幕表示位置に基づいて、字幕のビットマップデータの重畳位置が字幕表示位置となるように制御される。
ビデオ重畳部204で得られた表示用のビデオデータは、パネル駆動回路205に供給される。パネル駆動回路205では、表示用のビデオデータに基づいて、表示パネル206を駆動することが行われる。これにより、表示パネル206には、各字幕表示位置(リージョン)に字幕(サブタイトル)が重畳された画像が表示される。
また、TS解析部202で抽出されたオーディオPESパケットは、オーディオデコーダ207に供給される。オーディオデコーダ207では、このオーディオPESパケットにデコード処理が施され、オーディオデータが得られる。このオーディオデータは、オーディオ出力回路208に供給される。オーディオ出力回路208では、オーディオデータに対して、D/A変換や増幅等の必要な処理が行われる。そして、処理後のオーディオデータはスピーカ209に供給される。これにより、スピーカ209からは表示パネル206の表示画像に対応した音声出力が得られる。
「字幕表示位置の決定およびリサイズ処理の手順」
CPU221における字幕表示位置の決定およびリサイズ処理の手順の詳細について説明する。図36のフローチャートは、CPU221における字幕表示位置の決定およびリサイズ処理の手順の一例を示している。
この例では、ビデオ領域のアスペクト比が16:9であることを想定している。そして、図37(a)に示すようにTTMLで字幕表示範囲の指定がない場合と、図37(b),(c)に示すようにTTMLで字幕表示範囲の指定がある場合の双方があることを想定している。なお、ここでは、指定される字幕表示範囲のアスペクト比が16:9と4:3である例を示しているが、指定される字幕表示範囲のアスペクト比がこれに限定されるものではない。また、ここでは、モニタ(ディスプレイ)のアスペクト比が16:9の場合と4:3の場合の双方があることを想定している。
CPU221は、ステップST1で処理を開始し、その後に、ステップST2の処理に移る。このステップST2において、CPU221は、受信機表示はビデオ全領域を表示するモードか否かを判断する。例えば、モニタのアスペクト比が16:9である場合(図37(f)参照)、あるいはモニタのアスペクト比が4:3であってレターボックス(Letter box)の表示方法を採る場合(図37(g)参照)には、ビデオ全領域を表示するモードであると判断する。また、例えば、モニタのアスペクト比が4:3であってセンターカット(Center-cut)の表示方法を採る場合(図37(h)参照)には、ビデオ全領域を表示しないモードであると判断する。
CPU221は、ビデオ全領域を表示するモードであると判断するとき、ステップST3の処理に移る。このステップST3において、CPU221は、字幕表示範囲の指定があるか否かを判断する。例えば、TTMLのttルートコンテナに字幕表示範囲の基準点情報(RPoffset)およびアスペクト比情報(dispasp)が存在する場合には、字幕表示範囲の指定があると判断する。
字幕表示範囲の指定がないとき、CPU221は、ステップST4の処理に移る。このステップST4において、CPU221は、表示ビデオ領域を字幕表示範囲として、字幕表示位置(リージョン)を決定する。このとき、CPU221は、表示ビデオ領域のトップ―レフト(top-left)を基準点RPとし、字幕表示範囲に対する相対位置で指定されている字幕表示位置情報(「origin=“OH%OV%”」、「extent=“EH%EV%”」)の指示通りに字幕表示位置(リージョン)を決定する。
図38(a)は、モニタのアスペクト比が16:9である場合の例を示している。図38(b)は、モニタのアスペクト比が4:3であってレターボックス(Letter box)の表示方法を採る場合の例を示している。なお、“RP”は、字幕表示範囲のトップ―レフト(top-left)である基準点(Reference Pont)を示している。
このステップST4の処理の後、CPU221は、ステップST5において、処理を終了する。
上述のステップST3で字幕表示範囲の指定があるとき、CPU221は、ステップST6の処理に移る。このステップST6において、CPU221は、指定された字幕表示範囲において、字幕表示位置(リージョン)を決定する。このとき、CPU221は、字幕表示範囲の情報としてアスペクト比情報(dispasp)のみを用い、表示ビデオ領域上に字幕表示範囲を設定する。そして、CPU221は、字幕表示範囲のトップ―レフト(top-left)を基準点RPとし、字幕表示範囲に対する相対位置で指定されている字幕表示位置情報(「origin=“OH%OV%”」、「extent=“EH%EV%”」)の指示通りに字幕表示位置(リージョン)を決定する。
図39(a)は、モニタのアスペクト比が16:9であり、かつアスペクト比情報(dispasp)が示すアスペクト比が16:9である場合の例を示している。図39(b)は、モニタのアスペクト比が16:9であり、かつアスペクト比情報(dispasp)が示すアスペクト比が4:3である場合の例を示している。
なお、このようにアスペクト比情報(dispasp)が示すアスペクト比がモニタのアスペクト比と異なる場合、CPU221は、表示ビデオ領域の中央に、垂直方向幅あるいは水平方向幅が一致し、かつアスペクト比情報(dispasp)が示すアスペクト比の字幕表示範囲を設定する。図示の例においては、モニタのアスペクト比が16:9であり、かつアスペクト比情報(dispasp)が4:3であるので、垂直方向幅が一致している。
図39(c)は、モニタのアスペクト比が4:3であってレターボックスの表示方法を採り、かつアスペクト比情報(dispasp)が示すアスペクト比が16:9である場合の例を示している。図39(d)は、モニタのアスペクト比が4:3であってレターボックスの表示方法を採り、かつアスペクト比情報(dispasp)が示すアスペクト比が4;3である場合の例を示している。
このステップST6の処理の後、CPU221は、ステップST5において、処理を終了する。
上述のステップST2でビデオ全領域を表示しないモードであると判断するとき、ステップST7の処理に移る。このステップST7において、CPU221は、字幕表示範囲の指定があるか否かを判断する。例えば、TTMLのttルートコンテナに字幕表示範囲の基準点情報(RPoffset)およびアスペクト比情報(dispasp)が存在する場合には、字幕表示範囲の指定があると判断する。
字幕表示範囲の指定がないとき、CPU221は、ステップST8の処理に移る。このステップST8において、CPU221は、表示ビデオ領域を字幕表示範囲として、字幕表示位置(リージョン)を決定する。このとき、CPU221は、表示ビデオ領域のトップ―レフト(top-left)を基準点RPとし、字幕表示範囲に対する相対位置で指定されている字幕表示位置情報(「origin=“OH%OV%”」、「extent=“EH%EV%”」)の指示通りに字幕表示位置(リージョン)を決定する。
このように決定された字幕表示位置は、水平方向のみその幅が圧縮されたものとなる。そのため、CPU221は、さらに、決定された字幕表示位置にリサイズ処理を施し、垂直方向の幅も圧縮し、最終的な字幕表示位置を得る。この場合、CPU221は、例えば、TTMLに含まれる「dto:scalingjustify=top」の情報に基づいて、所定のライン位置を固定した状態で垂直方向の幅の圧縮をする。
図40(a)は、モニタのアスペクト比が4:3であってセンターカット(Center-cut)の表示方法を採る場合の例を示している。字幕表示位置の垂直方向の幅は、リサイズ処理によって、EV%からEVu%に圧縮されている。
このステップST8の処理の後、CPU221は、ステップST5において、処理を終了する。
上述のステップST7で字幕表示範囲の指定があるとき、CPU221は、ステップST9の処理に移る。このステップST9において、CPU221は、指定された字幕表示範囲において、字幕表示位置(リージョン)を決定する。このとき、CPU221は、字幕表示範囲の情報(基準点情報(RPoffset)、アスペクト比情報(dispasp))を用い、表示ビデオ領域上に字幕表示範囲を設定する。
この場合、CPU221は、表示ビデオ領域のトップ―レフト(top-left)から基準点情報(RPoffset)だけずらした位置を字幕表示範囲のトップ―レフト(top-left)とし、アスペクト比情報(dispasp)が示すアスペクト比に対応した範囲を字幕表示範囲に設定する。この場合、字幕表示範囲の水平方向幅は、表示ビデオ領域の水平方向幅と一致したものとされる。
そして、CPU221は、上述したように設定された字幕表示範囲のトップ―レフト(top-left)を基準点RPとし、字幕表示範囲に対する相対位置で指定されている字幕表示位置情報(「origin=“OH%OV%”」、「extent=“EH%EV%”」)の指示通りに字幕表示位置(リージョン)を決定する。
図40(b)は、モニタのアスペクト比が4:3であってセンターカットの表示方法を採り、かつアスペクト比情報(dispasp)が示すアスペクト比が16:9である場合の例を示している。図40(c)は、モニタのアスペクト比が4:3であってセンターカットの表示方法を採り、かつアスペクト比情報(dispasp)が示すアスペクト比が4:3である場合の例を示している。
このステップST9の処理の後、CPU221は、ステップST5において、処理を終了する。
「使用フォントファイルの決定処理の手順」
CPU221における使用フォントファイルの決定処理の手順の詳細について説明する。図41のフローチャートは、CPU221における使用フォントファイルの決定処理の手順の一例を示している。
CPU221は、ステップST11で処理を開始し、その後に、ステップST12の処理に移る。このステップST12において、CPU221は、TTMLでフォント指定を受信する。つまり、CPU221は、フォント指定情報を含むTTMLを、サブタイトルデコーダ210から受け取る。
次に、CPU221は、ステップST13において、テレビ受信機200がTTMLのフォント指定情報で指定されたフォントファイル、指定フォントファイルを搭載しているか否かを判断する。指定フォントファイルを搭載していると判断するとき、CPU221は、ステップST14において、搭載している指定フォントファイルを使用することに決定し、その後にステップST15において、処理を終了する。
ステップST13で指定フォントファイルを搭載していないと判断するとき、CPU221は、ステップST16において、プライベートセクションテーブル、つまりFDT(Font_downloading_section table)で指定フォントフィルが供給されるか否かを判断する。この場合、CPU221は、フォント・ダウンロード・セグメント(Font_download_segment) (図18参照)、あるいはフォント・ダウンロード・デスクリプタ(Font_download_descriptor)(図23参照)が、指定フォントファイルのダウンロード情報を含んでいる場合には、FDTで指定フォントファイルが供給されると判断する。
FDTで指定フォントファイルが供給されると判断するとき、CPU221は、ステップST17において、カルーセル伝送から指定フォントファイルをダウンロードできたか否かを判断する。指定フォントファイルをダウンロードできたとき、CPU221は、ステップST14において、ダウンロードされた指定フォントファイルを使用することに決定し、その後にステップST15において、処理を終了する。
ステップST17で指定フォントファイルのダウンロードができなかったとき、CPU221は、ステップST18の処理に移る。ステップST16においてFDTで指定フォントファイルが供給されないと判断するときも、CPU221は、このステップST18の処理に移る。
このステップST18において、CPU221は、指定フォントファイルのダウンロード用のURL情報があるか否かを判断する。この場合、CPU221は、URL・シグナリング・セグメント(URL_signalin_segment)(図20参照)、あるいはURL・シグナリング・デスクリプタ(URL_signaling_descriptor)(図24参照)が、指定フォントファイルのダウンロード用のURL情報を含んでいる場合には、指定フォントファイルのダウンロード用のURL情報があると判断する。
指定フォントファイルのダウンロード用のURL情報があると判断するとき、CPU221は、ステップST19において、ネットワーク上のサーバから指定フォントファイルをダウンロードできたか否かを判断する。指定フォントファイルをダウンロードできたとき、CPU221は、ステップST14において、ダウンロードされた指定フォントファイルを使用することに決定し、その後にステップST15において、処理を終了する。
ステップST19で指定フォントファイルのダウンロードができなかったとき、CPU221は、ステップST20の処理に移る。ステップST18において指定フォントファイルのダウンロード用のURL情報がないと判断するときも、CPU221は、このステップST20の処理に移る。
このステップST20において、CPU221は、指定フォントファイルではなく、代用のフォントファイル、例えばデフォルトとされるフォントのファイルを使用することを決定し、その後にステップST15において、処理を終了する。
以上説明したように、図1に示す送受信システム10において、放送送出システム100は、サブタイトルストリームのコンテナ(例えば、PESパケット、PMT)に、字幕位置情報を用いて字幕を表示するときに使用される補助情報(リサイズ処理に関する情報、字幕表示範囲を決定するための情報)を挿入する。そのため、受信側では、字幕位置情報と共にこの補助情報を用いることで字幕表示位置を適切に取得して字幕表示を良好に行うことが可能となる。
また、図1に示す送受信システム10において、テレビ受信機200は、字幕表示位置情報および補助情報を用いて取得される字幕表示位置に基づいて字幕のビットマップデータに対して表示位置制御をする。そのため、字幕表示を良好に行うことが可能となる。
また、図1に示す送受信システム10において、放送送出システム100は、サブタイトルストリームのコンテナ(例えば、PESパケット、PMT)に、少なくともTTMLのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を挿入する。そのため、受信側では、フォント指定情報で指定されているフォントのファイルを持っていない場合に、当該ダウンロード情報に基づいてフォント指定情報で指定されているフォントのファイルを取得することができ、字幕表示を良好に行うことが可能となる。
また、図1に示す送受信システム10において、テレビ受信機200は、ダウンロード情報に基づいてフォント指定情報で指定されたフォントのフォントファイルを取得して、字幕のビットマップデータを得る際に用いる。そのため、フォント指定情報で指定されているフォントのファイルを持っていない場合にあっても、字幕表示を良好に行うことが可能となる。
<2.変形例>
なお、上述実施の形態においては、TTMLにフォントダウンロード情報が挿入されていない例を示した(図3、図5参照)。しかし、このTTMLに、フォントダウンロード情報を挿入することも考えられる。図42は、その場合におけるTTML構造の一例を示している。この例は、図5と同様に、字幕表示位置(リージョン)が2個の場合の例である。
「fontdlurl=http://www.w3.org/ns/fontdlservice」、「fontdlurl:iso639languagecode="value"」、「fontdlurl:fontgroupid="value"」、「fontdlurl:fontnameid="value"」、「fontdlurl:fontname="value“」の各情報はダウンロード情報を構成している。なお、「fontdlurl:fontname」の"value“には、 ‘Arial’, ‘Tahoma’の指定がそのまま反映される。
また、上述実施の形態においては、所定フォーマットの字幕のテキスト情報としてTTMLを用いる例を示した。しかし、本技術は、これに限定されず、TTMLと同等の情報を持つその他のテキスト情報を用いることも考えらえる。例えば、TTMLの派生フォーマットを用いてもよい。
また、上述実施の形態においては、放送送出システム100とテレビ受信機200とからなる送受信システム10を示したが、本技術を適用し得る送受信システムの構成は、これに限定されるものではない。例えば、テレビ受信機200の部分が、HDMI(High-Definition Multimedia Interface)などのデジタルインタフェースで接続されたセットトップボックスおよびモニタの構成などであってもよい。なお、「HDMI」は登録商標である。
また、上述実施の形態においては、コンテナがMPEG-2 TSのトランスポートストリームである例を示した。本技術は、コンテナがMMTのトランスポートストリームあるいはDASH/ISOBMFFストリームなどである場合にも、同様に適用できることは勿論である。
また、本技術は、以下のような構成を取ることもできる。
(1)ビデオデータを持つビデオストリームと字幕表示位置を字幕表示範囲に対する相対位置で指定する字幕表示位置情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを送信する送信部と、
上記サブタイトルストリームのコンテナに上記字幕位置情報を用いて字幕を表示するときに使用される補助情報を挿入する情報挿入部を備える
送信装置。
(2)上記補助情報は、
ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合に受信側で行われる、上記字幕表示位置情報に基づいて決定される字幕表示位置のリサイズ処理に関する情報を含む
前記(1)に記載の送信装置。
(3)上記リサイズ処理に関する情報は、上記字幕表示位置のリサイズ処理で垂直方向のサイズを圧縮する場合に固定位置とすべきライン位置を示す情報である
前記(2)に記載の送信装置。
(4)上記補助情報は、
上記字幕表示範囲を決定するための情報を含む
前記(1)から(3)のいずれかに記載の送信装置。
(5)上記字幕表示範囲を決定するための情報は、上記字幕表示範囲の基準点情報およびアスペクト比情報である
前記(4)に記載の送信装置。
(6)上記情報挿入部は、
上記補助情報を、PESパケットおよび/またはプログラムマップテーブルに挿入する
前記(1)から(5)のいずれかに記載の送信装置。
(7)送信部により、ビデオデータを持つビデオストリームと字幕表示位置を字幕表示範囲に対する相対位置で指定する字幕表示位置情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを送信する送信ステップと、
上記サブタイトルストリームのコンテナに上記字幕位置情報を用いて字幕を表示するときに使用される補助情報を挿入する情報挿入ステップを有する
送信方法。
(8)ビデオデータを持つビデオストリームと字幕表示位置を字幕表示範囲に対する相対位置で指定する字幕表示位置情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを受信する受信部と、
上記ビデオストリームにデコード処理を施してビデオデータを得るビデオデコード部と、
上記サブタイトルストリームにデコード処理を施して字幕のビットマップデータを得るサブタイトルデコード部を備え、
上記サブタイトルストリームのコンテナに上記字幕位置情報を用いて字幕を表示するときに使用される補助情報が挿入されており、
上記字幕表示位置情報および上記補助情報を用いて取得される字幕表示位置に基づいて上記字幕のビットマップデータに対して表示位置制御を行う表示制御部と、
上記表示位置制御が行われた字幕のビットマップデータを上記ビデオデータに重畳するビデオ重畳部をさらに備える
受信装置。
(9)上記補助情報は、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合に受信側で行われる、上記字幕表示位置情報に基づいて決定される字幕表示位置のリサイズ処理に関する情報を含み、
上記表示制御部は、
ビデオ領域のアスペクト比と上記表示ビデオ領域のアスペクト比が異なる場合、表示ビデオ領域を字幕表示範囲として上記字幕表示位置情報に基づいて字幕表示位置を決定し、該決定された字幕表示位置に上記リサイズ処理に関する情報を用いてリサイズ処理を施し、該リサイズ処理が施された字幕表示位置に基づいて上記字幕のビットマップデータに対して表示位置制御をする
前記(8)に記載の受信装置。
(10)上記補助情報は、上記字幕表示範囲を決定するための情報を含み、
上記表示制御部は、
ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合、上記字幕表示範囲を決定するための情報に基づいて表示ビデオ領域に字幕表示範囲を設定し、上記字幕表示位置情報に基づいて字幕表示位置を決定し、該決定された字幕表示位置に基づいて上記字幕のビットマップデータに対して表示位置制御をする
前記(8)に記載の受信装置。
(11)受信部により、ビデオデータを持つビデオストリームと字幕表示位置を字幕表示範囲に対する相対位置で指定する字幕表示位置情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを受信する受信ステップと、
上記ビデオストリームにデコード処理を施してビデオデータを得るビデオデコードステップと、
上記サブタイトルストリームにデコード処理を施して字幕のビットマップデータを得るサブタイトルデコードステップを有し、
上記サブタイトルストリームのコンテナに上記字幕位置情報を用いて字幕を表示するときに使用される補助情報が挿入されており、
上記字幕表示位置情報および上記補助情報を用いて取得される字幕表示位置に基づいて上記字幕のビットマップデータに対して表示位置制御を行う表示制御ステップと、
上記表示位置制御が行われた字幕のビットマップデータを上記ビデオデータに重畳するビデオ重畳ステップをさらに有する
受信方法。
(12)ビデオデータを持つビデオストリームとフォント指定情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを送信する送信部と、
上記サブタイトルストリームのコンテナに少なくとも上記フォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を挿入する情報挿入部を備える
送信装置。
(13)上記ダウンロード情報は、上記フォントファイルを放送信号から取得するための情報である
前記(12)に記載の送信装置。
(14)上記ダウンロード情報は、上記フォントファイルをネットワーク上のサーバから取得するための情報である
前記(12)または(13)に記載の送信装置。
(15)上記情報挿入部は、
上記ダウンロード情報を、PESパケットおよび/またはプログラムマップテーブルに挿入する
前記(12)から(14)のいずれかに記載の送信装置。
(16)送信部により、ビデオデータを持つビデオストリームとフォント指定情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを送信する送信ステップと、
上記サブタイトルストリームのコンテナに少なくとも上記フォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を挿入する情報挿入ステップを有する
送信方法。
(17)ビデオデータを持つビデオストリームとフォント指定情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを受信する受信部と、
上記ビデオストリームにデコード処理を施してビデオデータを得るビデオデコード部を備え、
上記サブタイトルストリームのコンテナに少なくとも上記フォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報が挿入されており、
上記ダウンロード情報に基づいて上記フォント指定情報で指定されたフォントのフォントファイルを取得するフォントファイルダウンロード部と、
上記サブタイトルストリームにデコード処理を施して上記取得されたフォントファイルに基づいて字幕のビットマップデータを得るサブタイトルデコード部と、
上記字幕表示位置情報を用いて取得される字幕表示位置に基づいて上記字幕のビットマップデータに対して表示位置制御を行う表示制御部と、
上記表示位置制御が行われた字幕のビットマップデータを上記ビデオデータに重畳するビデオ重畳部をさらに備える
受信装置。
(18)受信部により、ビデオデータを持つビデオストリームとフォント指定情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを受信する受信ステップと、
上記ビデオストリームにデコード処理を施してビデオデータを得るビデオデコードステップを有し、
上記サブタイトルストリームのコンテナに少なくとも上記フォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報が挿入されており、
上記ダウンロード情報に基づいて上記フォント指定情報で指定されたフォントのフォントファイルを取得するフォントファイルダウンロードステップと、
上記サブタイトルストリームにデコード処理を施して上記取得されたフォントファイルに基づいて字幕のビットマップデータを得るサブタイトルデコードステップと、
上記字幕表示位置情報を用いて取得される字幕表示位置に基づいて上記字幕のビットマップデータに対して表示位置制御を行う表示制御ステップと、
上記表示位置制御が行われた字幕のビットマップデータを上記ビデオデータに重畳するビデオ重畳ステップをさらに有する
受信方法。
(19)トランスポートストリームにそれぞれ異なるフォントファイルを持つ所定数のセクションテーブルを順次繰り返し挿入するセクションテーブル挿入部と、
上記セクションテーブルが挿入されたトランスポートストリームを送信する送信部を備える
送信装置。
(20)トランスポートストリームにそれぞれ異なるフォントファイルを持つ所定数のセクションテーブルを順次繰り返し挿入するセクションテーブル挿入ステップと、
送信部により、上記セクションテーブルが挿入されたトランスポートストリームを送信する送信ステップを有する
送信方法。
本技術の主な特徴は、サブタイトルストリームのコンテナ(例えば、PESパケット、PMT)に、字幕位置情報を用いて字幕を表示するときに使用される補助情報(リサイズ処理に関する情報、字幕表示範囲を決定するための情報)を挿入することで、受信側では、字幕位置情報と共にこの補助情報を用いて字幕表示位置を適切に取得して字幕表示を良好に行うことを可能としたことである(図34参照)。
また、本技術の主な特徴は、サブタイトルストリームのコンテナ(例えば、PESパケット、PMT)に、少なくともTTMLのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を挿入することで、フォント指定情報で指定されているフォントのファイルを持っていない場合に、当該ダウンロード情報に基づいてフォント指定情報で指定されているフォントのファイルを取得し、字幕表示を良好に行うことを可能としたことである(図34参照)。
10・・・送受信システム
100・・・放送送出システム
110・・・ストリーム生成部
111・・・制御部
112・・・ビデオエンコーダ
113・・・オーディオエンコーダ
114・・・テキストフォーマット変換部
115・・・サブタイトルエンコーダ
116・・・TSフォーマッタ
200・・・テレビ受信機
201・・・受信部
202・・・TS解析部
203・・・ビデオデコーダ
204・・・ビデオ重畳部
205・・・パネル駆動回路
206・・・表示パネル
207・・・オーディオデコーダ
208・・・オーディオ出力回路
209・・・スピーカ
210・・・サブタイトルデコーダ
221・・・CPU
227・・・通信インタフェース

Claims (16)

  1. ビデオデータを持つビデオストリームとフォント指定情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを送信する送信部と、
    上記サブタイトルストリームのコンテナ少なくとも上記フォント指定情報で指定されているフォントのフォントファイルをダウンロードするためのダウンロード情報を挿入する情報挿入部を備え、
    上記ダウンロード情報 は、上記フォントファイルの識別情報、上記フォントのフォントグループ識別情報、および上記フォントファイルのロケーション情報を含む、
    送信装置。
  2. 上記ダウンロード情報は、上記フォントファイルを放送信号から取得するための情報である
    請求項1に記載の送信装置。
  3. 上記ダウンロード情報は、上記フォントファイルをネットワーク上のサーバから取得するための情報である
    請求項1に記載の送信装置。
  4. 上記情報挿入部は、
    上記ダウンロード情報を、PESパケットおよび/またはプログラムマップテーブルに挿入する
    請求項1から3のいずれかに記載の送信装置。
  5. 上記字幕のテキスト情報は、字幕表示位置を字幕表示範囲に対する相対位置で指定する字幕表示位置情報をさらに有し、
    上記情報挿入部は、上記サブタイトルストリームのコンテナに上記字幕表示位置情報を用いて字幕を表示するときに使用される補助情報をさらに挿入する
    請求項1に記載の送信装置。
  6. 上記補助情報は、
    ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合に受信側で行われる、上記字幕表示位置情報に基づいて決定される字幕表示位置のリサイズ処理に関する情報を含む
    請求項5に記載の送信装置。
  7. 上記リサイズ処理に関する情報は、上記字幕表示位置のリサイズ処理で垂直方向のサイズを圧縮する場合に固定位置とすべきライン位置を示す情報である
    請求項6に記載の送信装置。
  8. 上記補助情報は、
    上記字幕表示範囲を決定するための情報を含む
    請求項5から7のいずれかに記載の送信装置。
  9. 上記字幕表示範囲を決定するための情報は、上記字幕表示範囲の基準点情報およびアスペクト比情報である
    請求項8に記載の送信装置。
  10. 上記情報挿入部は、
    上記補助情報を、PESパケットおよび/またはプログラムマップテーブルに挿入する
    請求項5から9のいずれかに記載の送信装置。
  11. 送信部により、ビデオデータを持つビデオストリームとフォント指定情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを送信する送信ステップと、
    上記サブタイトルストリームのコンテナに少なくとも上記フォント指定情報で指定されているフォントのフォントファイルをダウンロードするためのダウンロード情報を挿入する情報挿入ステップを有し、
    上記ダウンロード情報は、上記フォントファイルの識別情報、上記フォントのフォントグループ識別情報、および上記フォントファイルのロケーション情報を含む、
    送信方法。
  12. ビデオデータを持つビデオストリームとフォント指定情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを受信する受信部と、
    上記ビデオストリームをデコードしてビデオデータを得る処理と、上記サブタイトルストリームのコンテナに挿入されている少なくとも上記フォント指定情報で指定されているフォントのフォントファイルをダウンロードするためのダウンロード情報に基づいて上記フォント指定情報で指定されたフォントのフォントファイルを取得する処理と、上記サブタイトルストリームをデコードし上記取得されたフォントファイルに基づいて字幕のビットマップデータを得る処理と、上記字幕のビットマップデータを上記ビデオデータに重畳する処理を制御する制御部を備え、
    上記ダウンロード情報は、上記フォントファイルの識別情報、上記フォントのフォントグループ識別情報、および上記フォントファイルのロケーション情報を含む、
    受信装置。
  13. 上記字幕のテキスト情報は、字幕表示位置を字幕表示範囲に対する相対位置で指定する字幕表示位置情報をさらに有し、
    上記制御部は、上記字幕表示位置情報および上記サブタイトルストリームのコンテナに挿入されている上記字幕表示位置情報を用いて字幕を表示するときに使用される補助情報を用いて取得される字幕表示位置に基づいて上記字幕のビットマップデータに対して表示位置制御を行う処理をさらに制御し、
    上記重畳する処理では、上記表示位置制御が行われた字幕のビットマップデータが上記ビデオデータに重畳される
    請求項12に記載の受信装置。
  14. 上記補助情報は、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合に受信側で行われる、上記字幕表示位置情報に基づいて決定される字幕表示位置のリサイズ処理に関する情報を含み、
    上記表示位置制御を行う処理では、
    ビデオ領域のアスペクト比と上記表示ビデオ領域のアスペクト比が異なる場合、表示ビデオ領域を字幕表示範囲として上記字幕表示位置情報に基づいて字幕表示位置を決定し、該決定された字幕表示位置に上記リサイズ処理に関する情報を用いてリサイズ処理を施し、該リサイズ処理が施された字幕表示位置に基づいて上記字幕のビットマップデータに対して表示位置制御をする
    請求項13に記載の受信装置。
  15. 上記補助情報は、上記字幕表示範囲を決定するための情報を含み、
    上記表示位置制御を行う処理では、
    ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合、上記字幕表示範囲を決定するための情報に基づいて表示ビデオ領域に字幕表示範囲を設定し、上記字幕表示位置情報に基づいて字幕表示位置を決定し、該決定された字幕表示位置に基づいて上記字幕のビットマップデータに対して表示位置制御をする
    請求項13に記載の受信装置。
  16. 受信部により、ビデオデータを持つビデオストリームとフォント指定情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを受信する受信ステップと、
    上記ビデオストリームにデコード処理を施してビデオデータを得るビデオデコードステップを有し、
    上記サブタイトルストリームのコンテナに少なくとも上記フォント指定情報で指定されているフォントのフォントファイルをダウンロードするためのダウンロード情報が挿入されており、
    上記ダウンロード情報は、上記フォントファイルの識別情報、上記フォントのフォントグループ識別情報、および上記フォントファイルのロケーション情報を含んでおり、
    上記ダウンロード情報に基づいて上記フォント指定情報で指定されたフォントのフォントファイルを取得するフォントファイルダウンロードステップと、
    上記サブタイトルストリームにデコード処理を施して上記取得されたフォントファイルに基づいて字幕のビットマップデータを得るサブタイトルデコードステップと、
    上記字幕のビットマップデータを上記ビデオデータに重畳するビデオ重畳ステップをさらに有する
    受信方法。
JP2018505848A 2016-03-15 2017-03-08 送信装置、送信方法、受信装置および受信方法 Active JP7063261B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016051657 2016-03-15
JP2016051657 2016-03-15
PCT/JP2017/009182 WO2017159482A1 (ja) 2016-03-15 2017-03-08 送信装置、送信方法、受信装置および受信方法

Publications (2)

Publication Number Publication Date
JPWO2017159482A1 JPWO2017159482A1 (ja) 2019-01-24
JP7063261B2 true JP7063261B2 (ja) 2022-05-09

Family

ID=59852292

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018505848A Active JP7063261B2 (ja) 2016-03-15 2017-03-08 送信装置、送信方法、受信装置および受信方法

Country Status (7)

Country Link
US (1) US10979664B2 (ja)
EP (2) EP3734978A1 (ja)
JP (1) JP7063261B2 (ja)
CN (1) CN108886627B (ja)
ES (1) ES2859660T3 (ja)
TW (1) TWI728061B (ja)
WO (1) WO2017159482A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010021522A2 (ko) * 2008-08-21 2010-02-25 Kim Gwang Han 잔디 식재기

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6329687B1 (ja) * 2017-12-08 2018-05-23 株式会社フォトロン テロップ編集装置及びテロップ編集プログラム
KR102067446B1 (ko) 2018-06-04 2020-01-17 주식회사 엔씨소프트 자막 생성 방법 및 시스템
US11070891B1 (en) * 2019-12-10 2021-07-20 Amazon Technologies, Inc. Optimization of subtitles for video content
CN112738629B (zh) * 2020-12-29 2023-03-10 北京达佳互联信息技术有限公司 视频展示方法、装置、电子设备和存储介质
CN113438514B (zh) * 2021-04-26 2022-07-08 深圳Tcl新技术有限公司 字幕处理方法、装置、设备及存储介质
CN113452935B (zh) * 2021-08-31 2021-11-09 成都索贝数码科技股份有限公司 横屏和竖屏直播视频生成系统及方法
CN114222193B (zh) * 2021-12-03 2024-01-05 北京影谱科技股份有限公司 一种视频字幕时间对齐模型训练方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3090704U (ja) 2002-06-13 2002-12-26 船井電機株式会社 画像復調装置
WO2007052736A1 (ja) 2005-11-02 2007-05-10 Matsushita Electric Industrial Co., Ltd. デジタル放送システム、受信装置、及び送出装置
US20100321393A1 (en) 2009-06-22 2010-12-23 Monotype Imaging Inc. Font data streaming
JP2013511199A (ja) 2009-11-13 2013-03-28 サムスン エレクトロニクス カンパニー リミテッド ビデオ付加再生情報の三次元再生のためのマルチメディア・ストリーム生成方法及びその装置、並びに受信方法及びその装置
JP2014506430A (ja) 2011-01-05 2014-03-13 ソニック アイピー, インコーポレイテッド ハイパーテキスト転送プロトコルを使用してMatroskaコンテナファイル中に記憶されるメディアの適応型ビットレートストリーミング
JP2014064308A (ja) 2011-05-19 2014-04-10 Nippon Hoso Kyokai <Nhk> 受信機
JP2015526038A (ja) 2012-11-07 2015-09-07 エルジー エレクトロニクス インコーポレイティド 信号送受信装置及び信号送受信方法
JP2016028472A (ja) 2014-07-10 2016-02-25 日本放送協会 テキストコンテンツ生成装置、送信装置、受信装置、およびプログラム。

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3670934B2 (ja) * 2000-06-01 2005-07-13 三洋電機株式会社 デジタルテレビ放送受信機における文字データの表示方法
US6741323B2 (en) * 2002-08-12 2004-05-25 Digital Theater Systems, Inc. Motion picture subtitle system and method
CN100358348C (zh) * 2002-11-29 2007-12-26 松下电器产业株式会社 图像重放装置及图像重放方法
US20060168639A1 (en) * 2002-12-09 2006-07-27 Koninklijke Philips Electronics N.V. Interactive television system with partial character set generator
KR20050084307A (ko) * 2002-12-16 2005-08-26 코닌클리케 필립스 일렉트로닉스 엔.브이. 저장매체에 대한 대화형 텔레비전 기록 및 재생을 위한폰트 라이브러리
KR20040099058A (ko) * 2003-05-17 2004-11-26 삼성전자주식회사 서브타이틀 처리 방법, 그 재생 장치 및 그 정보저장매체
KR20050018314A (ko) * 2003-08-05 2005-02-23 삼성전자주식회사 자막 데이터와 비디오 맵핑 데이터 정보를 저장하는정보저장매체, 그 재생 장치 및 방법
KR100828354B1 (ko) * 2003-08-20 2008-05-08 삼성전자주식회사 자막 위치 제어 장치 및 방법
US7519274B2 (en) * 2003-12-08 2009-04-14 Divx, Inc. File format for multiple track digital data
JP4871635B2 (ja) * 2006-04-28 2012-02-08 キヤノン株式会社 デジタル放送受信装置及びその制御方法
JP2008104038A (ja) * 2006-10-20 2008-05-01 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US8817188B2 (en) * 2007-07-24 2014-08-26 Cyberlink Corp Systems and methods for automatic adjustment of text
CN101360193A (zh) * 2008-09-04 2009-02-04 北京中星微电子有限公司 一种视频字幕处理装置及方法
CN102232294B (zh) * 2008-12-01 2014-12-10 图象公司 用于呈现具有内容自适应信息的三维动态影像的方法和系统
WO2010096030A1 (en) * 2009-02-18 2010-08-26 Thomson Licensing Method and apparatus for preparing subtitles for display
JP4985807B2 (ja) * 2009-04-15 2012-07-25 ソニー株式会社 再生装置および再生方法
CN101902582B (zh) * 2010-07-09 2012-12-19 清华大学 一种立体视频字幕添加方法及装置
JP5685969B2 (ja) 2011-02-15 2015-03-18 ソニー株式会社 表示制御方法、表示制御装置
US20140078248A1 (en) * 2012-01-13 2014-03-20 Sony Corporation Transmitting apparatus, transmitting method, receiving apparatus, and receiving method
JPWO2013108531A1 (ja) * 2012-01-19 2015-05-11 ソニー株式会社 受信装置、受信方法および電子機器
KR102181994B1 (ko) * 2012-11-26 2020-11-24 소니 주식회사 송신 장치, 송신 방법, 수신 장치, 수신 방법 및 수신 표시 방법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3090704U (ja) 2002-06-13 2002-12-26 船井電機株式会社 画像復調装置
WO2007052736A1 (ja) 2005-11-02 2007-05-10 Matsushita Electric Industrial Co., Ltd. デジタル放送システム、受信装置、及び送出装置
US20100321393A1 (en) 2009-06-22 2010-12-23 Monotype Imaging Inc. Font data streaming
JP2013511199A (ja) 2009-11-13 2013-03-28 サムスン エレクトロニクス カンパニー リミテッド ビデオ付加再生情報の三次元再生のためのマルチメディア・ストリーム生成方法及びその装置、並びに受信方法及びその装置
JP2014506430A (ja) 2011-01-05 2014-03-13 ソニック アイピー, インコーポレイテッド ハイパーテキスト転送プロトコルを使用してMatroskaコンテナファイル中に記憶されるメディアの適応型ビットレートストリーミング
JP2014064308A (ja) 2011-05-19 2014-04-10 Nippon Hoso Kyokai <Nhk> 受信機
JP2015526038A (ja) 2012-11-07 2015-09-07 エルジー エレクトロニクス インコーポレイティド 信号送受信装置及び信号送受信方法
JP2016028472A (ja) 2014-07-10 2016-02-25 日本放送協会 テキストコンテンツ生成装置、送信装置、受信装置、およびプログラム。

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一般社団法人電波産業会,デジタル放送におけるマルチメディア符号化方式(第2世代) MULTIMEDIA CODING SPECIFICATION FOR DIGITAL BROADCASTING (SECOND GENERATION),標準規格(通信分野、放送分野)及び技術資料(通信分野、放送分野、共通分野) ,第1.2版,日本,一般社団法人電波産業会,2015年07月03日,pp,65,66,75-79

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010021522A2 (ko) * 2008-08-21 2010-02-25 Kim Gwang Han 잔디 식재기
WO2010021522A3 (ko) * 2008-08-21 2010-06-17 Kim Gwang Han 잔디 식재기

Also Published As

Publication number Publication date
ES2859660T3 (es) 2021-10-04
TWI728061B (zh) 2021-05-21
JPWO2017159482A1 (ja) 2019-01-24
CN108886627B (zh) 2022-06-03
EP3432585B1 (en) 2021-02-17
EP3734978A1 (en) 2020-11-04
US10979664B2 (en) 2021-04-13
CN108886627A (zh) 2018-11-23
EP3432585A4 (en) 2019-07-17
WO2017159482A1 (ja) 2017-09-21
TW201739241A (zh) 2017-11-01
EP3432585A1 (en) 2019-01-23
US20190037168A1 (en) 2019-01-31

Similar Documents

Publication Publication Date Title
JP7063261B2 (ja) 送信装置、送信方法、受信装置および受信方法
JP7020406B2 (ja) 送信装置、送信方法、受信装置および受信方法
JP6927374B2 (ja) 受信装置および受信方法
RU2701172C2 (ru) Передающее устройство, способ передачи, приемное устройство и способ приема
KR102547789B1 (ko) 수신 장치, 수신 방법, 송신 장치, 및 송신 방법
EP3324637B1 (en) Transmission device, transmission method, receiving device and receiving method
US20200068247A1 (en) Reception apparatus, reception method, and transmission apparatus
US11470296B2 (en) Transmitter, transmission method, receiver, and reception method
JP2023052611A (ja) 送信装置、送信方法、メディア処理装置、メディア処理方法および受信装置
US11290785B2 (en) Transmission apparatus, transmission method, reception apparatus, and reception method for transmitting subtitle text information
EP3407614A1 (en) Method and apparatus for transmitting and receiving broadcast signal
JP6868776B2 (ja) 送信装置、送信方法、受信装置および受信方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200214

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220404

R151 Written notification of patent or utility model registration

Ref document number: 7063261

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151