JP6610019B2

JP6610019B2 - 受信装置、送信装置、及び、データ処理方法

Info

Publication number: JP6610019B2
Application number: JP2015121335A
Authority: JP
Inventors: 直久北里; 靖明山岸; 武敏山根
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-06-16
Filing date: 2015-06-16
Publication date: 2019-11-27
Anticipated expiration: 2035-06-16
Also published as: WO2016203726A1; US20180091769A1; EP3311583A1; KR20180018490A; JP2017011325A; EP3311583B1; MX2017016011A; CA2980851A1; US11622088B2

Description

本技術は、受信装置、送信装置、及び、データ処理方法に関し、特に、所望のタイミングで字幕を表示させることができるようにした受信装置、送信装置、及び、データ処理方法に関する。

映像に対して字幕を重畳して表示するための方式として、表示タイミングや表示位置等を指定可能なマークアップ言語であるTTML(Timed Text Markup Language)が知られている(例えば、特許文献１参照)。TTMLは、W3C(World Wide Web Consortium)により標準化されている。

特開２０１２−１６９８８５号公報

ところで、TTML等を用いた字幕を表示するための技術方式は確立されておらず、所望のタイミングで字幕を表示させるための提案が要請されていた。

本技術はこのような状況に鑑みてなされたものであり、所望のタイミングで字幕を表示させることができるようにするものである。

本技術の第１の側面の受信装置は、デジタル放送の放送波を受信する受信部と、前記放送波で伝送される、字幕に関する字幕情報と、前記字幕の表示のタイミングを指定するための複数のモードのうちの特定のモードを選択するための選択情報を含む制御情報を取得する取得部と、前記制御情報に含まれる前記選択情報に基づいて、前記特定のモードに応じた表示のタイミングで、前記字幕情報に応じた前記字幕の表示を制御する制御部とを備え、前記制御情報は、XML(Extensible Markup Language)形式のMPD(Media Presentation Description)ファイルであり、前記字幕情報は、TTML(Timed Text Markup Language)形式のTTMLファイルであって、前記TTMLファイルに対応するAdaptationSet要素が前記MPDファイルに配置され、前記TTMLファイルのデータは、MP4のファイルフォーマットに準拠し、前記複数のモードは、前記MP4のファイルフォーマットで規定される時間情報に応じたタイミングで前記字幕の表示を行う第２のモードを含み、前記制御部は、前記特定のモードが前記第２のモードである場合、前記MP4のファイルフォーマットで規定される時間情報に応じたタイミングで、前記TTMLファイルで指定される前記字幕を表示させるに際して、前記MP4のファイルフォーマットで規定されるmoofボックスに格納されるBMDT(BaseMediaDecodeTime)に応じた時間に前記字幕の表示を開始して、前記moofボックスに格納されるSampleDurationに応じた時間の間だけ表示を継続させる受信装置である。

本技術の第１の側面の受信装置は、独立した装置であってもよいし、１つの装置を構成している内部ブロックであってもよい。また、本技術の第１の側面のデータ処理方法は、上述した本技術の第１の側面の受信装置に対応するデータ処理方法である。

本技術の第１の側面の受信装置及びデータ処理方法においては、デジタル放送の放送波で伝送される、字幕に関する字幕情報と、前記字幕の表示のタイミングを指定するための複数のモードのうちの特定のモードを選択するための選択情報を含む制御情報が取得され、前記制御情報に含まれる前記選択情報に基づいて、前記特定のモードに応じた表示のタイミングで、前記字幕情報に応じた前記字幕の表示が制御される。また、前記制御情報は、XML形式のMPDファイルであり、前記字幕情報は、TTML形式のTTMLファイルであって、前記TTMLファイルに対応するAdaptationSet要素が前記MPDファイルに配置される。さらに、前記TTMLファイルのデータは、MP4のファイルフォーマットに準拠し、前記複数のモードは、前記MP4のファイルフォーマットで規定される時間情報に応じたタイミングで前記字幕の表示を行う第２のモードを含み、前記特定のモードが前記第２のモードである場合、前記MP4のファイルフォーマットで規定される時間情報に応じたタイミングで、前記TTMLファイルで指定される前記字幕を表示させるに際して、前記MP4のファイルフォーマットで規定されるmoofボックスに格納されるBMDT(BaseMediaDecodeTime)に応じた時間に前記字幕の表示が開始され、前記moofボックスに格納されるSampleDurationに応じた時間の間だけ表示が継続される。

本技術の第２の側面の送信装置は、字幕の表示のタイミングを指定するための複数のモードのうちの特定のモードを選択するための選択情報を含む制御情報を生成する生成部と、前記字幕に関する字幕情報とともに、前記制御情報を、デジタル放送の放送波で送信する送信部とを備え、前記制御情報は、XML形式のMPDファイルであり、前記字幕情報は、TTML形式のTTMLファイルであって、前記TTMLファイルに対応するAdaptationSet要素が前記MPDファイルに配置され、前記TTMLファイルのデータは、MP4のファイルフォーマットに準拠し、前記複数のモードは、前記MP4のファイルフォーマットで規定される時間情報に応じたタイミングで前記字幕の表示を行う第２のモードを含み、前記第２のモードは、前記MP4のファイルフォーマットで規定されるmoofボックスに格納されるBMDTに応じた時間に前記字幕の表示を開始して、前記moofボックスに格納されるSampleDurationに応じた時間の間だけ表示を継続させるモードである送信装置である。

本技術の第２の側面の送信装置は、独立した装置であってもよいし、１つの装置を構成している内部ブロックであってもよい。また、本技術の第２の側面のデータ処理方法は、上述した本技術の第２の側面の送信装置に対応するデータ処理方法である。

本技術の第２の側面の送信装置及びデータ処理方法においては、デジタル放送の放送波で字幕に関する字幕情報とともに伝送される、前記字幕の表示のタイミングを指定するための複数のモードのうちの特定のモードを選択するための選択情報を含む制御情報が生成される。また、前記制御情報は、XML形式のMPDファイルであり、前記字幕情報は、TTML形式のTTMLファイルであって、前記TTMLファイルに対応するAdaptationSet要素が前記MPDファイルに配置される。また、前記TTMLファイルのデータは、MP4のファイルフォーマットに準拠し、前記複数のモードは、前記MP4のファイルフォーマットで規定される時間情報に応じたタイミングで前記字幕の表示を行う第２のモードを含み、前記第２のモードは、前記MP4のファイルフォーマットで規定されるmoofボックスに格納されるBMDTに応じた時間に前記字幕の表示を開始して、前記moofボックスに格納されるSampleDurationに応じた時間の間だけ表示を継続させるモードである。

本技術の第１の側面及び第２の側面によれば、所望のタイミングで字幕を表示させることができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術を適用した伝送システムの一実施の形態の構成を示す図である。本実施例のプロトコルスタックを示す図である。 MPDファイルの構造を示す図である。 MPDファイルの記述例を示す図である。多重化ストリームを表現する場合におけるAdaptationSet要素とRepresentation要素の関係を示す図である。多重化ストリームを表現する場合におけるAdaptationSet要素と、Representation要素と、SubRepresentation要素の関係を示す図である。 AdaptationSet要素に含めることが可能な属性や要素の例を示す図である。 Representation要素に含めることが可能な属性や要素の例を示す図である。 MP4のファイルフォーマットを示す図である。 TTML処理モードの例を示す図である。モード１での運用が行われる場合のMPDファイルの記述例を示す図である。モード１での運用が行われる場合の字幕の表示タイミングの例を示す図である。モード２−１での運用が行われる場合のMPDファイルの記述例を示す図である。モード２−１での運用が行われる場合の字幕の表示タイミングの例を示す図である。モード２−２での運用が行われる場合のMPDファイルの記述例を示す図である。モード２−２での運用が行われる場合の字幕の表示タイミングの例を示す図である。モード３での運用が行われる場合のMPDファイルの記述例を示す図である。モード３での運用が行われる場合の字幕の表示タイミングの例を示す図である。 ATSCサーバの構成例を示す図である。 ATSCサーバの詳細な構成例を示す図である。 ATSCクライアントの詳細な構成例を示す図である。 ATSCクライアントのソフトウェア構成例を示す図である。送信処理を説明するフローチャートである。コンポーネント・シグナリング処理を説明するフローチャートである。受信処理を説明するフローチャートである。コンポーネント・シグナリング処理を説明するフローチャートである。コンピュータの構成例を示す図である。

以下、図面を参照しながら本技術の実施の形態について説明する。なお、説明は以下の順序で行うものとする。

１．システムの構成
２．本技術の概要
３．具体的な運用例
（１）モード１：TTML Time Only
（２）モード２：Sample Time Only
（２−１）モード２−１：Sample Time Only
（２−２）モード２−２：Sample Time Only But Till Next
（３）モード３：Asap
４．各装置の構成
５．各装置で実行される処理の流れ
６．変形例
７．コンピュータの構成

＜１．システムの構成＞

図１は、本技術を適用した伝送システムの一実施の形態の構成を示す図である。なお、システムとは、複数の装置が論理的に集合した物をいう。

図１において、伝送システム１は、ATSCサーバ１０とATSCクライアント２０から構成される。この伝送システム１では、ATSC3.0等のデジタル放送の規格に準拠したデータ伝送が行われる。ATSC3.0は、現在策定中の次世代のATSC(Advanced Television Systems Committee)規格である。

ATSCサーバ１０は、ATSC3.0等のデジタル放送の規格に対応した送信機であって、例えば、複数のサーバから構成される。ATSCサーバ１０は、テレビ番組等のコンテンツを構成するビデオやオーディオ、字幕等(のコンポーネント)のストリームを、デジタル放送信号として、伝送路３０を介して送信(伝送)する。

ATSCクライアント２０は、ATSC3.0等のデジタル放送の規格に対応した受信機であって、例えば、テレビ受像機やセットトップボックスなどの固定受信機、あるいは、スマートフォンや携帯電話機、タブレット型コンピュータなどのモバイル受信機である。また、ATSCクライアント２０は、例えば車載テレビなどの自動車に搭載される機器であってもよい。

ATSCクライアント２０は、ATSCサーバ１０から伝送路３０を介して送信(伝送)されてくる、デジタル放送信号を受信して、ビデオやオーディオ、字幕等(のコンポーネント)のストリームを取得して処理し、テレビ番組等のコンテンツの映像や音声を出力する。

なお、図１において、伝送路３０としては、例えば地上波のほか、衛星回線やケーブルテレビジョン網(有線回線)等を利用することができる。

＜２．本技術の概要＞

（プロトコルスタック）
ところで、ATSC3.0では、データ伝送に、TS(Transport Stream)パケットではなく、IP/UDPパケット、すなわち、UDP(User Datagram Protocol)パケットを含むIP(Internet Protocol)パケットを用いることが決定されている。

また、ATSC3.0においては、トランスポート・プロトコルとして、ROUTE(Real-Time Object Delivery over Unidirectional Transport)と、MMT(MPEG Media Transport)が併存し、いずれか一方のトランスポート・プロトコルを用いてビデオやオーディオ、字幕等(のコンポーネント)のストリームが伝送される。

ここで、ROUTEは、バイナリファイルを一方向でマルチキャスト転送するのに適したプロトコルであるFLUTE(File Delivery over Unidirectional Transport)を拡張したプロトコルである。また、MMTは、IP(Internet Protocol)上で用いられるトランスポート方式であり、制御情報によりIPアドレスやURL(Uniform Resource Locator)を設定することで、ビデオやオーディオ等のデータを参照することができる。

さらに、ATSC3.0においては、シグナリングとして、LLS(Link Layer Signaling)シグナリング情報と、SLS(Service Layer Signaling)シグナリング情報を規定することが想定されており、先行して取得されるLLSシグナリング情報に記述される情報に従い、サービスごとのSLSシグナリング情報が取得されることになる。

ここで、LLSシグナリング情報としては、例えば、SLT(Service List Table)等のメタデータが含まれる。SLTメタデータは、サービスの選局に必要な情報(選局情報)など、放送ネットワークにおけるストリームやサービスの構成を示す情報を含む。

また、SLSシグナリング情報としては、例えば、USD(User Service Description)，LSID(LCT Session Instance Description)，MPD(Media Presentation Description)等のメタデータが含まれる。USDメタデータは、他のメタデータの取得先などの情報を含む。LSIDメタデータは、ROUTEプロトコルの制御情報である。MPDメタデータは、コンポーネントのストリームの再生を管理するための制御情報である。なお、USD，LSID，MPD等のメタデータは、XML(Extensible Markup Language)等のマークアップ言語により記述される。また、MPDメタデータは、MPEG-DASH(Dynamic Adaptive Streaming over HTTP)の規格に準じている。MPDメタデータは、XML形式のファイルとして提供されるので、以下の説明では、MPDファイルと称して説明する。

図２は、本実施例のプロトコルスタックを示す図である。

図２において、最も下位の階層は、物理層(Physical Layer)とされる。この物理層に隣接する上位の階層は、レイヤ２の階層(Layer2)とされ、さらに、レイヤ２の階層に隣接する上位の階層は、IP層とされる。また、IP層に隣接する上位の階層はUDP層とされる。すなわち、UDPパケットを含むIPパケット(IP/UDPパケット)が、レイヤ２のGenericパケットのペイロードに配置され、カプセル化(encapsulation)される。また、物理層のフレーム(ATSC Physical Frame)は、プリアンブルとデータ部から構成されるが、データ部には、複数のGenericパケットをカプセル化して得られるBBフレームに対してエラー訂正用のパリティを付加した後に、インターリーブやマッピング等の物理層に関する処理が行われることで得られるデータがマッピングされる。

UDP層に隣接する上位の階層は、ROUTE，MMT，SLTとされる。すなわち、ROUTEセッションで伝送される、ビデオ、オーディオ、及び、字幕のストリームと、SLSシグナリング情報のストリームと、NRTコンテンツのストリームは、IP/UDPパケットに格納されて伝送される。なお、NRTコンテンツは、NRT(Non Real Time)放送で配信されるコンテンツであって、ATSCクライアント２０のストレージに一旦蓄積された後で再生が行われる。また、NRTコンテンツ以外のファイル(例えばアプリケーションのファイル)がROUTEセッションで伝送されるようにしてもよい。

一方で、MMTセッションで伝送される、ビデオ、オーディオ、及び、字幕のストリームと、SLSシグナリング情報のストリームは、IP/UDPパケットに格納されて伝送される。また、SLTメタデータは、IP/UDPパケットに格納されて伝送される。

以上のようなプロトコルスタックが採用されているため、ATSCクライアント２０は、ROUTEセッションで伝送されるコンポーネントのストリームにより提供されるサービス(チャンネル)の選局時には、SLTメタデータに含まれる選局情報に従い、ROUTEセッションで伝送されるSLSシグナリング情報を取得する(Ｓ１−１，Ｓ１−２)。そして、ATSCクライアント２０は、USD，LSID，MPD等のメタデータに従い、選局されたサービスを提供するコンポーネントのストリームに接続する(Ｓ１−３)。これにより、ATSCクライアント２０では、選局されたサービスに応じたコンテンツ(例えばテレビ番組)の映像や音声が出力される。

また、ATSCクライアント２０は、MMTセッションで伝送されるコンポーネントのストリームにより提供されるサービスの選局時には、SLTメタデータに含まれる選局情報に従い、MMTセッションで伝送されるSLSシグナリング情報を取得する(Ｓ２−１，Ｓ２−２)。そして、ATSCクライアント２０は、USD，LSID，MPD等のメタデータに従い、選局されたサービスを提供するコンポーネントのストリームに接続する(Ｓ２−３)。これにより、ATSCクライアント２０では、選局されたサービスに応じたコンテンツ(例えばテレビ番組)の映像や音声が出力される。

（MPDファイルの構造）
次に、図３乃至図８を参照して、SLSシグナリング情報として伝送されるMPDファイルについて説明する。図３は、MPDファイルの構造を示す図である。また、MPDファイルは、図４の記述例で示すように、XML形式の階層構造で記述される。

ここで、図３に示すように、MPDファイルは、Period要素、AdaptationSet要素、Representation要素、及び、SubRepresentation要素が階層構造で記述されている。Period要素は、テレビ番組等のコンテンツの構成を記述する単位となる。また、AdaptationSet要素、Representation要素、又は、SubRepresentation要素は、ビデオやオーディオ、字幕等(のコンポーネント)のそれぞれのストリームごとに利用され、ぞれぞれのストリームの属性を記述できるようになっている。

具体的には、AdaptationSet要素は、各種のソースからエンコードされたストリームを表している。そして、当該ストリームを、例えばビットレート等のパラメトリックに応じて、ATSCクライアント２０側で選択させるために、AdaptationSet要素内に、Representation要素を配置して、例えばビットレート等のパラメータが異なる複数の選択肢となるストリームを列挙している。通常、AdaptationSet要素やRepresentation要素は、ビデオやオーディオ、字幕のストリームなど、単一のストリームに対応させている。

また、AdaptationSet要素が、ビデオストリームやオーディオストリーム、字幕ストリームなどの複数のストリームが多重化されたストリームを表現する場合、AdaptationSet要素内に、Representation要素を配置して、例えばビットレート等のパラメータが異なる複数の選択肢となる多重化されたストリームを列挙する。すなわち、図５に示すように、時間間隔を表すPeriod要素ごとに、多重化されたストリームを表す複数のAdaptationSet要素が配置され、それらのAdaptationSet要素内に配置された複数のRepresentation要素により、例えばビットレートが異なる多重化されたストリームを複数列挙することができる。

また、この場合においては、Representation要素の配下にさらにSubRepresentation要素を配置することで、多重化されたストリームを構成する各コンポーネントのストリームの属性を記述することもできる。すなわち、図６に示すように、時間間隔を表すPeriod要素ごとに、多重化されたストリームを表す複数のAdaptationSet要素が配置され、それらのAdaptationSet要素内に、例えばビットレートが異なる多重化されたストリームを表す複数のRepresentation要素が配置され、さらに、それらのRepresentation要素内に配置されたSubRepresentation要素により、例えば、ビデオストリームやオーディオストリーム、字幕ストリームの属性を記述することができる。

なお、AdaptationSet要素は、ビデオストリームやオーディオストリーム等の単一のストリームの他、複数のストリームが多重化されたストリームに対応している。MPEG-DASHの規格においては、このようなAdaptationSet要素に含めることが可能な属性や要素として、図７の属性や要素が規定されている。また、Representation要素は、その上位要素（親要素）となるAdaptationSet要素の範囲内で、例えばビットレート等のパラメータが異なる複数の選択肢となるストリームを列挙している。MPEG-DASHの規格においては、このようなRepresentation要素に含めることが可能な属性や要素として、図８の属性や要素が規定されている。なお、図８の属性や要素は、SubRepresentation要素に含めるようにすることができる。

（MP4のファイルフォーマット）
ところで、トランスポート・プロトコルとして、ROUTEを用いる場合に、ストリーミングのファイルフォーマットに、MP4ファイルフォーマットを採用することが想定される。MP4ファイルフォーマットは、ISO/IEC 14496-12で規定されているISOベースメディアファイルフォーマット(ISO Base Media File Format)の派生フォーマットである。ISOベースメディアファイルフォーマットは、ボックス(Box)と称される木構造から構成される。

ここで、ROUTEセッションで伝送されるセグメントは、イニシャライゼイションセグメント(Initialization Segment)とメディアセグメント(Media Segment)から構成される。イニシャライゼイションセグメントは、データ圧縮方式等の初期化情報を含んでいる。また、メディアセグメントは、ビデオやオーディオ、字幕等(のコンポーネント)のストリームのデータを格納している。

図９は、MP4のファイルフォーマット形式からなるメディアセグメントの構造を示す図である。

メディアセグメントは、styp(segment type)，sidx(segment index)，ssix(subsegment index)，moof(movie fragment)，mdat(madia data)の各ボックス(Box)から構成される。stypボックスには、セグメント単位のファイルのファイルフォーマット仕様のバージョン情報が含まれる。sidxボックスには、セグメント内のインデックス情報が含まれる。ssixボックスには、セグメント内の各サブセグメント(レベル)ごとのインデックス情報が含まれる。ただし、図９においては、styp，sidx，ssixの各ボックスの図示を省略している。

moofボックスには、フラグメント化された(コンポーネントの)ストリームのデータの制御情報が含まれる。moofボックスには、mfhd(movie fragment header)ボックスが含まれる。また、mfhdボックスには、tfdt(track fragment decode time)ボックスと、trun(track fragment run)ボックスが含まれる。

tfdtボックスには、サンプルのデコード開始時間を表すBMDT(Base Media Decode Time)が含まれる。trunボックスには、サンプルの数を表すSampleCount、サンプルの継続時間を表すSampleDuration、及び、オフセット値を表すCompositionOffsetを示す情報が含まれる。

mdatボックスには、サンプル(Sample)として、フラグメント化された(コンポーネントの)ストリームのデータ(データ本体)が格納される。このサンプルは、(コンポーネントの)ストリームのデータが、処理される基本単位で格納される。

なお、以下の説明では、サンプルのうち、字幕を表示させるためのTTML形式のファイル(TTMLファイル)のサンプルを、TTMLサンプルとも称する。また、メディアセグメントのうち、mdatボックスにTTMLサンプルを含むメディアセグメントを、TTMLセグメントとも称する。さらに、以下の説明で、単にセグメント(Segment)と記述した場合には、メディアセグメントを意味するものとする。

（TTML処理モード）
また、トランスポート・プロトコルとして、ROUTEを用いる場合に、字幕(CC：Closed Caption)の表示に、TTML形式のTTMLファイルを利用することが想定される。しかしながら、TTMLファイルで指定される字幕を表示するための技術方式が確立されておらず、所望のタイミングで字幕を表示させるための提案が要請されていた。

そこで、本技術では、字幕の表示のタイミングを指定するためのTTML処理モードとして、複数のモードを規定して、ATSCサーバ１０が、MPDファイルに、複数のモードのうちの特定のモードを選択するための選択情報を含めることで、ATSCクライアント２０が、MPDファイルに含まれる選択情報に基づいて、特定のモードに応じた表示タイミングで、TTMLファイルで指定される字幕を表示することができるようにする。

図１０は、TTML処理モードの例を示す図である。

TTML処理モードとしては、モード１、モード２、及び、モード３が規定されている。また、モード２には、モード２−１と、モード２−２の２種類が規定されている。

モード１は、TTMLファイルで指定される時間情報に応じたタイミングで字幕の表示を行うモードである。モード１が設定される場合、MPDファイルには、選択情報として、AdaptationSet要素のEssentialProperty要素又はSupplementalProperty要素のschemeIdUri属性の値に、"atsc:ttmlMode:ttmlTimeOnly"が指定される。

なお、TTMLファイルでは、body要素内のp要素により、字幕の文字列と、その字幕の表示開始時刻や表示終了時刻等の時間情報が指定される。

モード２は、TTMLファイルで指定される時間情報は無視して、MP4のファイルフォーマットで規定される時間情報に応じたタイミングで字幕の表示を行うモードである。

ここで、モード２のうち、モード２−１では、moofボックスに格納されるBMDTに応じた時間に字幕の表示を開始して、そのmoofボックスに格納されるSampleDurationに応じた時間の間だけ表示を継続させる。モード２−１が設定される場合、MPDファイルには、選択情報として、AdaptationSet要素のEssentialProperty要素又はSupplementalProperty要素のschemeIdUri属性の値に、"atsc:ttmlMode:sampleTimeOnly"が指定される。

また、モード２−２では、対象のTTMLサンプルを格納するmdatボックスに対応するmoofボックスに格納されるBMDTに応じた時間に字幕の表示を開始して、次のTTMLサンプルを格納するmdatボックスに対応するmoofボックスに格納されるBMDTに応じた時間まで表示を継続させる。モード２−２が設定される場合、MPDファイルには、選択情報として、AdaptationSet要素のEssentialProperty要素又はSupplementalProperty要素のschemeIdUri属性の値に、"atsc:ttmlMode:sampleTimeOnlyButTillNext"が指定される。

モード３は、TTMLファイルで指定される時間情報と、MP4のファイルフォーマットで規定される時間情報を無視して、字幕の表示を行うモードである。この場合、ATSCクライアント２０では、ATSCサーバ１０から伝送路３０を介して伝送される、TTMLファイルが取得されたとき、即時に、そのTTMLファイルで指定される字幕が表示される。モード３が設定される場合、MPDファイルには、選択情報として、AdaptationSet要素のEssentialProperty要素又はSupplementalProperty要素のschemeIdUri属性の値に、"atsc:ttmlMode:asap"が指定される。

＜３．具体的な運用例＞

次に、TTML処理モードとして、モード１、モード２−１、モード２−２、及び、モード３が設定された場合の運用例について順に説明する。

（１）モード１：TTML Time Only

まず、TTML処理モードとして、モード１が設定された場合の運用例を、図１１及び図１２を参照して説明する。このモード１では、TTMLファイルに指定された時間情報のみを使用する。

（MPDファイルの記述例）
図１１は、モード１での運用が行われる場合のMPDファイルの記述例を示す図である。

図１１のMPDファイルにおいて、ルート要素であるMPD要素のPeriod要素の配下のAdaptationSet要素には、Role要素が配置され、schemeIdUri属性として、"urn:mpeg:dash:role:2011"が指定され、value属性として、字幕を表す"caption"が指定されている。

また、AdaptationSet要素には、EssentialProperty要素のschemeIdUri属性として、"atsc:ttmlMode:ttmlTimeOnly"が指定されている。すなわち、このEssentialProperty要素のschemeIdUri属性の属性値により、TTML処理モードとして、モード１が設定されていることになる。

（字幕表示タイミング例）
図１２は、モード１での運用が行われる場合の字幕の表示タイミングの例を示す図である。

図１２において、図１２Ａは、MPDファイルで指定される時間に関する情報を模式的に表し、図１２Ｂは、セグメント(TTMLセグメント)の構造を模式的に表している。また、図１２Ｃは、図１２Ｂのセグメント(TTMLセグメント)のサンプル(TTMLサンプル)から得られるTTMLファイルの記述例を示している。なお、図１２において、時間の方向は、図中の左側から右側の方向とされる。また、これらの関係は、後述する他のモードを説明する図でも同様とされる。

図１２Ａに示すように、MPDファイルには、ルート要素であるMPD要素のavailabilityStartTime属性に、UTC(Coordinated Universal Time)時刻に従ったストリーミング配信の開始時刻が指定される。また、MPDファイルには、Period要素として、Period(1)，Period(2)，・・・が指定され、それらのPeriod要素には、start属性として、各Period(期間)の開始時刻が指定される。

すなわち、MPDファイルでは、availabilityStartTime属性で指定される開始時刻(WallClock時間軸上の時刻)と、Period要素で指定される時刻(MPD時間軸上の時刻)との和により、各Periodの先頭の時刻が表される。例えば、availabilityStartTime属性で指定される開始時刻(MPD/@availabilityStartTime)と、Period(2)の開始時刻(MPD/Period(2)/@start)との和(MPD/@availabilityStartTime + MPD/Period(2)/@start)により、Period(2)の先頭の時刻が求められる。

図１２Ｂには、Period(2)におけるセグメント(Segment)が模式的に示されている。このセグメントは、mdatボックスが、サンプル(sample)としてTTMLサンプルを格納したTTMLセグメントである。このTTMLセグメントのmdatボックスに格納されたTTMLサンプルから、TTMLファイルが得られることになる。なお、モード１においては、moofボックスに格納される時間情報(BMDTやSampleDuration等)は無視される。

図１２Ｃには、TTMLファイルの記述例が示されている。TTMLファイルでは、head要素内のstyling要素やlayout要素などの要素により、字幕として表示される文字の色やフォント、表示位置などが指定される。また、TTMLファイルでは、body要素内のp要素により、字幕の文字列と、その字幕の表示開始時刻や表示終了時刻等の時間情報が指定される。

具体的には、図１２ＣのTTMLファイルに記述された２つのp要素のうち、上段のp要素の開始タグと終了タグの間には、"text1"である文字列が記述されている。また、この上段のp要素には、表示開始時刻を設定するためのbegin属性として"t1"が指定され、表示終了時刻を設定するためのend属性として"t2"が指定されている。

また、図１２ＣのTTMLファイルにおいて、下段のp要素の開始タグと終了タグの間には、"text2"である文字列が記述されている。また、この下段のp要素には、begin属性として"t2"が指定され、end属性として"t3"が指定されている。

ここで、この運用時に取得されるMPDファイル(図１１)には、AdaptationSet要素のEssentialProperty要素のschemeIdUri属性として、"atsc:ttmlMode:ttmlTimeOnly"が指定されているので、TTML処理モードとして、モード１が設定されていることになる。モード１が設定された場合には、TTMLファイルに記述される時間情報に応じたタイミングで字幕の表示を行うことになるので、p要素のbegin属性とend属性の値に応じたタイミングで、字幕が表示されることになる。

具体的には、図１２に示すように、availabilityStartTime属性で指定される開始時刻と、Period(2)の開始時刻との和(MPD/@availabilityStartTime + MPD/Period(2)/@start)に応じたPeriod(2)の先頭の時刻を基準として、時間t1を経過したとき、上段のp要素に指定された"text1"である字幕の表示が開始され、時間t2を経過するまで、"text1"である字幕の表示が継続され、時間t2を経過したとき、"text1"である字幕の表示が終了される。また、Period(2)の先頭の時刻を基準として、時間t2を経過したとき、下段のp要素に指定された"text2"である字幕の表示が開始され、時間t3を経過するまで、"text2"である字幕の表示が継続され、時間t3を経過したとき、"text2"である字幕の表示が終了される。

これにより、ATSCクライアント２０においては、テレビ番組などのコンテンツが再生されている場合に、Period(2)の先頭の時刻を基準として、時間t1の経過後であって、時間t2の経過前となる場合には、"text1"である字幕が映像に重畳表示され、時間t2の経過後であって、時間t3の経過前となる場合には、"text2"である字幕が映像に重畳表示されることになる。

以上、TTML処理モードとして、モード１が設定された場合の運用例について説明した。このモード１は、TTMLファイルに指定された時間情報(p要素のbegin属性とend属性の値)を利用して、begin属性に設定される時間に応じて字幕の表示を開始して、end属性に設定される時間に応じて字幕の表示を終了させることで、所望のタイミングで字幕を表示させることができる。

例えば、ATSCサーバ１０において、スタジオ収録等による、映像と音声と字幕のパッケージをコンテンツとして制作して、当該コンテンツを、伝送路３０を介して、複数のATSCクライアント２０に配信する場合に、TTMLファイルのp要素で指定される字幕を、当該コンテンツの先頭からの相対時間で、そのp要素のbegin属性とend属性が示す時間に応じたタイミングで表示させる運用が適当であると考えられる。このような運用を実現するためには、MPDファイルにおいて、TTML処理モードとして、モード１を設定することで、ATSCクライアント２０では、TTMLファイルのp要素のbegin属性とend属性が示す時間に応じたタイミングで、字幕が表示されることになる。

（２）モード２：Sample Time Only

次に、TTML処理モードとして、モード２が設定された場合の運用例を、図１３乃至図１６を参照して説明する。このモード２では、TTMLファイルに指定された時間情報を無視して、MP4のファイルフォーマットで規定される時間情報(TTMLサンプルごとの時間情報)を使用する。ここでは、モード２として、モード２−１とモード２−２を順に説明する。

（２−１）モード２−１：Sample Time Only

（MPDファイルの記述例）
図１３は、モード２−１での運用が行われる場合のMPDファイルの記述例を示す図である。

図１３のMPDファイルにおいて、ルート要素であるMPD要素のPeriod要素の配下のAdaptationSet要素には、EssentialProperty要素のschemeIdUri属性として、"atsc:ttmlMode:sampleTimeOnly"が指定されている。すなわち、このEssentialProperty要素のschemeIdUri属性の属性値により、TTML処理モードとして、モード２−１が設定されていることになる。

（字幕表示タイミング例）
図１４は、モード２−１での運用が行われる場合の字幕の表示タイミングの例を示す図である。

図１４Ａに示すように、MPDファイルには、MPD要素のavailabilityStartTime属性に、ストリーミング配信の開始時刻が指定される。また、MPDファイルには、Period要素として、Period(1)，Period(2)，・・・が指定され、それらのPeriod要素には、start属性として、各Period(期間)の開始時刻が指定される。ここでは、availabilityStartTime属性で指定される開始時刻と、Period(2)の開始時刻との和(MPD/@availabilityStartTime + MPD/Period(2)/@start)により、Period(2)の先頭の時刻が求められる。

図１４Ｂには、Period(2)におけるTTMLセグメント(Segment)が模式的に示されている。このTTMLセグメントのmdatボックスに格納されたTTMLサンプル(sample)から、TTMLファイル(図１４Ｃ)が得られるが、この運用時に取得されるMPDファイル(図１３)には、EssentialProperty要素のschemeIdUri属性に、"atsc:ttmlMode:sampleTimeOnly"が指定され、TTML処理モードとして、モード２−１が設定されているので、TTMLファイルのp要素に指定された時間情報(begin属性の"t1"と、end属性の"t3")は無視される。

すなわち、モード２−１では、TTMLファイルに指定された時間情報を無視して、TTMLセグメントのmoofボックスに格納された時間情報(TTMLサンプルごとの時間情報)を用いることになる。ただし、ここでは、TTMLセグメントにおいて、１つのmoofボックス(に格納された時間情報)に対して、１つのTTMLサンプル(mdatボックスに格納されたTTMLサンプル)であることを前提としている。

具体的には、図１４に示すように、MPDファイルのavailabilityStartTime属性で指定される開始時刻と、Period(2)の開始時刻との和(MPD/@availabilityStartTime + MPD/Period(2)/@start)に応じたPeriod(2)の先頭の時刻を基準として、moofボックス(moof/mfhd/tfdt)に格納されたBMDTに応じた時間(BMDT×ts)を経過したとき、TTMLファイルのp要素に指定された"text1"である字幕の表示が開始される。

ただし、BMDT(Base Media Decode Time)は、Period(2)の先頭の時刻から、TTMLサンプルのデコードを開始するまでの時間、すなわち、オフセットを表している。また、BMDTに乗算されるtsは、タイムスケール(timescale)を表しており、BMDTの値を、MPD時間軸上の値に変換するために用いられる。

そして、moofボックス(moof/mfhd/trun)に格納されたSampleDurationに応じた時間(SampleDuration×ts)の間は、"text1"である字幕の表示が継続され、SampleDurationに応じた時間を経過したとき、"text1"である字幕の表示が終了される。

ただし、SampleDurationは、TTMLサンプルの継続時間を表している。また、SampleDurationに乗算されるtsは、SampleDurationの値を、MPD時間軸上の値に変換するために用いられる。

これにより、ATSCクライアント２０においては、テレビ番組などのコンテンツが再生されている場合に、Period(2)の先頭の時刻を基準として、moofボックスに格納されるBMDTに応じた時間の経過後であって、SampleDurationに応じた時間を経過するまでの間は、"text1"である字幕が映像に重畳表示されることになる。

以上、TTML処理モードとして、モード２−１が設定された場合の運用例について説明した。このモード２−１は、MP4のファイルフォーマットで規定される時間情報(TTMLサンプルごとのBMDTとSampleDuration)を利用して、TTMLサンプルのBMDTに応じた時間に字幕の表示を開始して、SampleDurationに応じた時間の間だけその字幕の表示を継続させることで、所望のタイミングで字幕を表示させることができる。

（２−２）モード２−２：Sample Time Only But Till Next

（MPDファイルの記述例）
図１５は、モード２−２での運用が行われる場合のMPDファイルの記述例を示す図である。

図１５のMPDファイルにおいて、ルート要素であるMPD要素のPeriod要素の配下のAdaptationSet要素には、EssentialProperty要素のschemeIdUri属性として、"atsc:ttmlMode:sampleTimeOnlyButTillNext"が指定されている。すなわち、このEssentialProperty要素のschemeIdUri属性の属性値により、TTML処理モードとして、モード２−２が設定されていることになる。

（字幕表示タイミング例）
図１６は、モード２−２での運用が行われる場合の字幕の表示タイミングの例を示す図である。

図１６Ａに示すように、MPDファイルには、MPD要素のavailabilityStartTime属性に、ストリーミング配信の開始時刻が指定される。また、MPDファイルには、Period要素として、Period(1)，Period(2)，・・・が指定され、それらのPeriod要素には、start属性として、各Period(期間)の開始時刻が指定される。ここでは、availabilityStartTime属性で指定される開始時刻と、Period(2)の開始時刻との和(MPD/@availabilityStartTime + MPD/Period(2)/@start)により、Period(2)の先頭の時刻が求められる。

図１６Ｂには、Period(2)におけるTTMLセグメント(Segment)が模式的に示されている。このTTMLセグメントのmdatボックスに格納されたTTMLサンプル(sample)から、TTMLファイル(図１６Ｃ)が得られるが、この運用時に取得されるMPDファイル(図１５)には、EssentialProperty要素のschemeIdUri属性に、"atsc:ttmlMode:sampleTimeOnlyButTillNext"が指定され、TTML処理モードとして、モード２−２が設定されているので、TTMLファイルのp要素に指定された時間情報(begin属性の"t1"と、end属性の"t3")は無視される。

すなわち、モード２−２では、TTMLファイルに指定された時間情報を無視して、TTMLセグメントのmoofボックスに格納された時間情報(TTMLサンプルごとの時間情報)を用いることになる。ただし、ここでは、TTMLセグメントにおいて、１つのmoofボックス(に格納された時間情報)に対して、１つのTTMLサンプル(mdatボックスに格納されたTTMLサンプル)であることを前提としている。

具体的には、図１６に示すように、MPDファイルのavailabilityStartTime属性で指定される開始時刻と、Period(2)の開始時刻との和(MPD/@availabilityStartTime + MPD/Period(2)/@start)に応じたPeriod(2)の先頭の時刻を基準として、対象のTTMLサンプル(対象の字幕を指定するTTMLファイルのTTMLサンプル)を格納するmdatボックスに対応するmoofボックスに格納されるBMDTに応じた時間(BMDT×ts)を経過したとき、TTMLファイルのp要素に指定された"text1"である字幕の表示が開始される。

そして、次のTTMLサンプル(次の字幕を指定するTTMLファイルのTTMLサンプル)を格納するmdatボックスに対応するmoofボックスに格納されるBMDTに応じた時間(BMDT×ts)を経過するまでの間は、"text1"である字幕の表示が継続され、そのBMDTに応じた時間(BMDT×ts)が経過したとき、"text1"である字幕の表示が終了される。

これにより、ATSCクライアント２０においては、テレビ番組などのコンテンツが再生されている場合に、Period(2)の先頭の時刻を基準として、対象のTTMLサンプルを含むTTMLセグメント(のmoofボックス)のBMDTに応じた時間の経過後であって、次のTTMLサンプルを含むTTMLセグメント(のmoofボックス)のBMDTに応じた時間を経過するまでの間は、"text1"である字幕が映像に重畳表示されることになる。

なお、図１６には図示していないが、次のTTMLサンプル(次の字幕を指定するTTMLファイルのTTMLサンプル)が取得されたとき、"text1"である字幕の表示が終了されるとともに、次のTTMLサンプル(TTMLファイル)により指定される字幕(例えば、"text2")の表示が開始される。

以上、TTML処理モードとして、モード２−２が設定された場合の運用例について説明した。このモード２−２は、MP4のファイルフォーマットで規定される時間情報(TTMLサンプルごとのBMDT)を利用して、対象のTTMLサンプルのBMDTに応じた時間に字幕の表示を開始して、次のTTMLサンプルのBMDTに応じた時間までその字幕の表示を継続させることで、所望のタイミングで字幕を表示させることができる。なお、モード２−１とモード２−２は、字幕の表示を開始するタイミングを、BMDTに応じた時間で指定する点では共通しているが、表示している字幕を終了させるタイミングを、SampleDurationに応じた時間で指定するのか、あるいはBMDTに応じた時間で指定するのかという点では異なっている。

例えば、コンテンツ事業者等が、映像と音声のパッケージをコンテンツとして制作して、放送事業者等が、当該コンテンツに対して、字幕を後から追加する場合や、字幕の表示タイミングを設定する場合などには、TTMLファイルで字幕の表示タイミングを指定するよりも、MP4のファイルフォーマットで規定される時間情報(TTMLサンプルごとの時間情報)で字幕の表示タイミングを指定したほうが、運用上適当である場合が想定される。このような運用を実現するためには、MPDファイルにおいて、TTML処理モードとして、モード２−１又はモード２−２を設定することで、ATSCクライアント２０では、MP4のファイルフォーマットで規定される時間情報(TTMLサンプルごとの時間情報)に応じたタイミングで、字幕が表示されることになる。

（３）モード３：Asap

次に、TTML処理モードとして、モード３が設定された場合の運用例を、図１７及び図１８を参照して説明する。このモード３では、TTMLファイルに指定された時間情報と、mp4のファイルフォーマットで規定される時間情報(TTMLサンプルごとの時間情報)を無視して、TTMLファイル(TTMLサンプル)を取得後、即時に、字幕を表示するための処理が行われる。

（MPDファイルの記述例）
図１７は、モード３での運用が行われる場合のMPDファイルの記述例を示す図である。

図１７のMPDファイルにおいて、ルート要素であるMPD要素のPeriod要素の配下のAdaptationSet要素には、EssentialProperty要素のschemeIdUri属性として、"atsc:ttmlMode:asap"が指定されている。すなわち、このEssentialProperty要素のschemeIdUri属性の属性値により、TTML処理モードとして、モード３が設定されていることになる。

（字幕表示タイミング例）
図１８は、モード３での運用が行われる場合の字幕の表示タイミングの例を示す図である。

図１８Ａに示すように、MPDファイルには、MPD要素のavailabilityStartTime属性に、ストリーミング配信の開始時刻が指定される。また、MPDファイルには、Period要素として、Period(1)，Period(2)，・・・が指定され、それらのPeriod要素には、start属性として、各Period(期間)の開始時刻が指定される。

図１８Ｂには、Period(2)のTTMLセグメント(Segment)が模式的に示されている。このTTMLセグメントのmdatボックスに格納されたTTMLサンプル(sample)から、TTMLファイル(図１８Ｃ)が得られるが、この運用時に取得されるMPDファイル(図１７)には、EssentialProperty要素のschemeIdUri属性に、"atsc:ttmlMode:asap"が指定され、TTML処理モードとして、モード３が設定されているので、TTMLファイルのp要素に指定された時間情報(begin属性の"t1"と、end属性の"t3")は無視される。また、TTML処理モードとして、モード３が設定されている場合には、当該TTMLセグメントのmoofボックスに格納される時間情報(BMDTやSampleDuration)も無視される。

すなわち、モード３では、TTMLファイルに指定された時間情報と、TTMLサンプルごとの時間情報を共に無視して、TTMLファイル(TTMLサンプル)を取得した後、即時に処理を行い、TTMLファイルで指定される字幕が表示されるようにする。

具体的には、図１８に示すように、ATSCクライアント２０では、TTMLセグメントが取得された場合に、そのTTMLセグメントのTTMLサンプルからTTMLファイルが得られた時点で、即時にそのTTMLファイルが処理され、p要素のbegin属性やend属性の値を無視して、そのp要素に指定された"text1"である字幕の表示が開始される。

そして、次のTTMLファイル(TTMLサンプル)を含むTTMLセグメントが取得されるまでの間は、"text1"である字幕の表示が継続され、次のTTMLファイル(TTMLサンプル)を含むTTMLセグメントが取得されたとき、"text1"である字幕の表示が終了される。

これにより、ATSCクライアント２０においては、テレビ番組などのコンテンツが再生されている場合に、対象のTTMLファイルのTTMLサンプルを含むTTMLセグメントが取得されてから、次のTTMLファイルのTTMLサンプルを含むTTMLセグメントが取得されるまでの間は、対象のTTMLファイルのp属性に指定される"text1"である字幕が映像に重畳表示されることになる。

なお、図１８には図示していないが、次のTTMLファイルが取得されたとき、"text1"である字幕の表示が終了されるとともに、次のTTMLファイルにより指定される字幕(例えば、"text2")の表示が開始される。

以上、TTML処理モードとして、モード３が設定された場合の運用例について説明した。このモード３は、TTMLファイルに指定された時間情報と、mp4のファイルフォーマットで規定される時間情報(TTMLサンプルごとの時間情報)を無視して、TTMLファイル(TTMLサンプル)を取得したとき、即時に、当該TTMLファイルに指定される字幕を表示させることで、所望のタイミングで字幕を表示させることができる。

例えば、ATSCサーバ１０において、スポーツ中継などのライブ放送のコンテンツを、伝送路３０を介して、複数のATSCクライアント２０に配信する場合には、ライブ映像よりも字幕が遅れることが前提ではあるが、少しでもそのずれを少なくすることが要求されるため、字幕の表示時間を指定するのではなく、ベストエフォートで、ATSCクライアント２０が、TTMLファイルを受信したら、即時に字幕を表示させる運用が適当であると考えられる。このような運用を実現するためには、MPDファイルにおいて、TTML処理モードとして、モード３を設定することで、ATSCクライアント２０では、TTMLファイルが受信された後、即時に、字幕が表示されることになる。

＜４．各装置の構成＞

次に、図１９乃至図２２を参照して、図１の伝送システム１を構成する各装置の詳細な構成について説明する。

（ATSCサーバの構成）
図１９は、図１のATSCサーバ１０の構成例を示す図である。

図１９において、ATSCサーバ１０は、AVサーバ１０１、TTMLサーバ１０２、DASHサーバ１０３、及び、放送サーバ１０４から構成される。例えば、AVサーバ１０１、TTMLサーバ１０２、及び、DASHサーバ１０３は、コンテンツ事業者や放送事業者等の事業者により提供される。また、例えば、放送サーバ１０４は、放送事業者等の事業者により提供される。

AVサーバ１０１は、コンテンツを構成するビデオとオーディオ(のストリーム)のデータを取得して処理し、DASHサーバ１０３に提供する。

TTMLサーバ１０２は、コンテンツの映像に重畳される字幕情報としてのTTMLファイルを生成して処理し、DASHサーバ１０３に提供する。

DASHサーバ１０３は、MPDファイルを生成する。また、DASHサーバ１０３は、AVサーバ１０１から提供されるビデオとオーディオのデータと、TTMLサーバ１０２から供給されるTTMLファイルを処理して、セグメント(セグメントデータ)を生成する。DASHサーバ１０３は、MPDファイルとセグメントデータを、放送サーバ１０４に提供する。

放送サーバ１０４は、LLSシグナリング情報やSLSシグナリング情報等のシグナリング情報を生成する。また、放送サーバ１０４は、セグメントデータ(TTMLファイルを含む)やシグナリング情報(MPDファイルを含む)を、デジタル放送信号として、アンテナ１０５を介して送信する。

（ATSCサーバの詳細な構成）
図２０は、図１９のATSCサーバ１０の詳細な構成例を示す図である。

図２０において、ATSCサーバ１０は、ビデオデータ取得部１１１、ビデオエンコーダ１１２、オーディオデータ取得部１１３、オーディオエンコーダ１１４、字幕生成部１１５、字幕エンコーダ１１６、シグナリング生成部１１７、シグナリング処理部１１８、セグメント処理部１１９、マルチプレクサ１２０、及び、送信部１２１から構成される。

ここで、ATSCサーバ１０が有する機能を実現するための各ブロックは、図１９のAVサーバ１０１乃至放送サーバ１０４のいずれかのサーバの構成に含まれるが、例えば、次のような構成を採用することができる。すなわち、図２０において、ビデオデータ取得部１１１、ビデオエンコーダ１１２、オーディオデータ取得部１１３、及び、オーディオエンコーダ１１４は、AVサーバ１０１の構成に含まれる。

また、図２０において、字幕生成部１１５、及び、字幕エンコーダ１１６は、TTMLサーバ１０２の構成に含まれる。図２０において、シグナリング生成部１１７、シグナリング処理部１１８、及び、セグメント処理部１１９は、DASHサーバ１０３の構成に含まれる。さらに、図２０において、シグナリング生成部１１７、シグナリング処理部１１８、マルチプレクサ１２０、及び、送信部１２１は、放送サーバ１０４の構成に含まれる。

ただし、図２０に示した構成は一例であって、例えば、AVサーバ１０１とTTMLサーバ１０２の両方の機能を有する１台のサーバを構成したり、あるいは、DASHサーバ１０３と放送サーバ１０４の両方の機能を有する１台のサーバを構成したりするなど、各サーバを構成するブロックの組み合わせは任意であって、図２０の構成以外の他の構成を採用することができる。

ビデオデータ取得部１１１は、外部のサーバ、カメラ、又は記録媒体等から、コンテンツのビデオデータを取得し、ビデオエンコーダ１１２に供給する。ビデオエンコーダ１１２は、ビデオデータ取得部１１１から供給されるビデオデータを、所定の符号化方式に準拠して符号化し、セグメント処理部１１９に供給する。

オーディオデータ取得部１１３は、外部のサーバ、マイクロフォン、又は記録媒体等から、コンテンツのオーディオデータを取得し、オーディオエンコーダ１１４に供給する。オーディオエンコーダ１１４は、オーディオデータ取得部１１３から供給されるオーディオデータを、所定の符号化方式に準拠して符号化し、セグメント処理部１１９に供給する。

字幕生成部１１５は、字幕データとして、TTML形式のTTMLファイルを生成し、字幕エンコーダ１１６に供給する。字幕エンコーダ１１６は、字幕生成部１１５から供給される字幕データを、所定の符号化方式に準拠して符号化し、セグメント処理部１１９に供給する。

シグナリング生成部１１７は、シグナリング情報を生成し、シグナリング処理部１１８に供給する。シグナリング処理部１１８は、シグナリング生成部１１７から供給されるシグナリング情報を処理し、マルチプレクサ１２０に供給する。ここでは、例えば、SLTメタデータ等のLLSシグナリング情報や、USDメタデータやLSIDメタデータ、MPDメタデータ(MPDファイル)等のSLSシグナリング情報が生成され、処理される。ただし、MPDファイルには、TTML処理モードを選択するための選択情報が含まれる。

セグメント処理部１１９は、ビデオエンコーダ１１２から供給されるビデオデータ、オーディオエンコーダ１１４から供給されるオーディオデータ、及び、字幕エンコーダ１１６から供給される字幕データに基づいて、MP4のファイルフォーマットに準拠したセグメント(セグメントデータ)を生成し、マルチプレクサ１２０に供給する。

マルチプレクサ１２０は、セグメント処理部１１９から供給されるセグメントデータと、シグナリング処理部１１８から供給されるシグナリング情報を多重化して、その結果得られる多重化ストリームを、送信部１２１に供給する。

送信部１２１は、マルチプレクサ１２０から供給される多重化ストリームを、アンテナ１０５を介して、デジタル放送の放送波(デジタル放送信号)として送信する。

ATSCサーバ１０は、以上のように構成される。

（ATSCクライアントの詳細な構成）
図２１は、図１のATSCクライアント２０の詳細な構成例を示す図である。

図２１において、ATSCクライアント２０は、受信部２１２、デマルチプレクサ２１３、制御部２１４、メモリ２１５、入力部２１６、ビデオデコーダ２１７、ビデオ出力部２１８、オーディオデコーダ２１９、オーディオ出力部２２０、字幕デコーダ２２１、表示部２２２、及び、スピーカ２２３から構成される。なお、図２１の構成では、表示部２２２とスピーカ２２３を含む構成を示しているが、表示部２２２とスピーカ２２３を含めない構成としてもよい。

受信部２１２は、アンテナ２１１を介して受信されたデジタル放送の放送波(デジタル放送信号)から、ユーザの選局操作に応じた信号を抽出して復調し、その結果得られる多重化ストリームを、デマルチプレクサ２１３に供給する。

デマルチプレクサ２１３は、受信部２１２から供給される多重化ストリームを、オーディオやビデオ、字幕のストリームと、シグナリング情報に分離する。デマルチプレクサ２１３は、ビデオデータをビデオデコーダ２１７に、オーディオデータをオーディオデコーダ２１９に、字幕データを字幕デコーダ２２１に、シグナリング情報を制御部２１４にそれぞれ供給する。なお、ビデオやオーディオ、字幕のデータは、MP4のファイルフォーマットに準拠したセグメント(セグメントデータ)とされる。

制御部２１４は、ATSCクライアント２０の各部の動作を制御する。また、制御部２１４は、デマルチプレクサ２１３から供給されるシグナリング情報に基づいて、コンテンツを再生するために、各部の動作を制御する。

メモリ２１５は、NVRAM(Non Volatile RAM)等の不揮発性メモリであって、制御部２１４からの制御に従い、各種のデータを記録する。入力部２１６は、ユーザの操作に応じて、操作信号を制御部２１４に供給する。

ビデオデコーダ２１７は、デマルチプレクサ２１３から供給されるビデオデータを、所定の復号方式に準拠して復号し、ビデオ出力部２１８に供給する。ビデオ出力部２１８は、ビデオデコーダ２１７から供給されるビデオデータを、表示部２２２に出力する。これにより、表示部２２２には、ユーザの選局操作に応じたコンテンツの映像が表示される。

オーディオデコーダ２１９は、デマルチプレクサ２１３から供給されるオーディオデータを所定の復号方式に準拠して復号し、オーディオ出力部２２０に供給する。オーディオ出力部２２０は、オーディオデコーダ２１９から供給されるオーディオデータを、スピーカ２２３に出力する。これにより、スピーカ２２３からは、ユーザの選局操作に応じたコンテンツの音声が出力される。

字幕デコーダ２２１は、デマルチプレクサ２１３から供給される字幕データを所定の復号方式に準拠して復号し、ビデオ出力部２１８に供給する。ビデオ出力部２１８は、字幕デコーダ２２１から供給される字幕データに対応する字幕が、ビデオデコーダ２１７から供給されるビデオデータに対応する映像に重畳して表示されるようにする。これにより、表示部２２２には、ユーザの選局操作に応じたコンテンツの映像に重畳された字幕が表示される。

字幕デコーダ２２１は、MP4パーサ２４１及びTTMLパーサ２４２から構成される。MP4パーサ２４１は、デマルチプレクサ２１３からのセグメントデータ(TTMLセグメント)をパースし、その結果得られるTTMLファイルをTTMLパーサ２４２に供給する。TTMLパーサ２４２は、MP4パーサ２４１から供給されるTTMLファイルをパースし、その結果得られる字幕を表示するための情報を、ビデオ出力部２１８に供給する。

（ATSCクライアントのソフトウェア構成）
図２２は、図２１のATSCクライアント２０のソフトウェア構成例を示す図である。

図２２は、図２１に示したATSCクライアント２０の構成を、ソフトウェアの構成として表している。図２２において、ATSCクライアント２０は、放送クライアントミドルウェア２５１及びDASHクライアント２５２から構成される。

放送クライアントミドルウェア２５１は、ATSCサーバ１０から送信されてくる、セグメントデータ(TTMLファイルを含む)やシグナリング情報(MPDファイルを含む)等の各種のデータを取得し、DASHクライアント２５２に提供するための処理を行う。

DASHクライアント２５２は、放送クライアントミドルウェア２５１から提供されるセグメントデータ(TTMLファイルを含む)やシグナリング情報(MPDファイルを含む)等の各種のデータを処理して、コンテンツを再生するための処理を行う。例えば、DASHクライアント２５２は、MPDファイルに基づいて、TTML処理モードに応じた表示のタイミングで、TTMLファイルに指定される字幕の表示を制御する。

ATSCクライアント２０は、以上のように構成される。

＜５．各装置で実行される処理の流れ＞

次に、図２３乃至図２６のフローチャートを参照して、図１の伝送システム１を構成する各装置で実行される処理の流れを説明する。

（送信処理）
まず、図２３のフローチャートを参照して、図１のATSCサーバ１０により実行される送信処理について説明する。

ステップＳ１０１においては、コンポーネント・シグナリング処理が行われる。このコンポーネント・シグナリング処理では、AVサーバ１０１で処理されるビデオとオーディオ(のストリーム)のデータや、TTMLサーバ１０２で処理される字幕データ(TTMLファイル)、DASHサーバ１０３で処理されるシグナリング情報(MPDファイル)、放送サーバ１０４で処理されるシグナリング情報(SLTメタデータ、USDメタデータやLSIDメタデータ等)に対する各種の処理が行われ、コンポーネントのデータやシグナリング情報が送信可能とされる。

なお、ステップＳ１０１のコンポーネント・シグナリング処理の詳細な内容は、図２４のフローチャートを参照して後述する。

ステップＳ１０２においては、放送サーバ１０４(の送信部１２１等)により送信処理が行われ、ステップＳ１０１の処理で処理されたビデオやオーディオ、字幕のコンポーネントのデータと、シグナリング情報が、デジタル放送信号として、アンテナ１０５を介して送信される。ステップＳ１０２の処理が終了すると、図２３の送信処理は終了される。

以上、ATSCサーバ１０により実行される送信処理について説明した。

（コンポーネント・シグナリング処理）
ここで、図２４のフローチャートを参照して、図２３のステップＳ１０１の処理に対応するコンポーネント・シグナリング処理の詳細な内容について説明する。なお、図２４においては、説明の簡略化のため、AVサーバ１０１で行われる処理を省略して、TTMLサーバ１０２、DASHサーバ１０３、及び、放送サーバ１０４で行われる処理を中心に説明する。

ステップＳ１１１において、TTMLサーバ１０２(の字幕生成部１１５)は、TTMLファイルを生成する。

ステップＳ１１２において、TTMLサーバ１０２(の字幕エンコーダ１１６)は、ステップＳ１１１の処理で生成されたTTMLファイルを、MP4のファイルフォーマットに格納する。

ステップＳ１１３において、TTMLサーバ１０２は、MP4のファイルフォーマットに格納されたTTMLファイルのセグメント(TTMLセグメント)の生成を、DASHサーバ１０３に要求する。

なお、ここでは、AVサーバ１０１で行われる処理を省略しているが、AVサーバ１０１においても、ビデオとオーディオのデータが、MP4ファイルフォーマットに格納され、そのセグメントの生成要求が、DASHサーバ１０３になされることになる。

ステップＳ１２１において、DASHサーバ１０３は、TTMLサーバ１０２(とAVサーバ１０１)からのセグメントの生成要求を取得する。

ステップＳ１２２において、DASHサーバ１０３(のシグナリング生成部１１７)は、MPDファイルを生成する。ここで、MPDファイルには、TTML処理モードを選択するための選択情報として、AdaptationSet要素のEssentialProperty要素又はSupplementalProperty要素のschemeIdUri属性の値に、モード１、モード２−１、モード２−２、又はモード３を識別するための文字列が指定されることになる。

ステップＳ１２３において、DASHサーバ１０３(のセグメント処理部１１９)は、AVサーバ１０１からのビデオとオーディオ(のストリーム)のデータと、TTMLサーバ１０２からのTTMLファイルを用い、MP4のファイルフォーマットに準拠したセグメント(セグメントデータ)を生成する。

ステップＳ１２４において、DASHサーバ１０３は、ステップＳ１２２の処理で生成されたMPDファイルと、ステップＳ１２３の処理で生成されたセグメントデータを、放送サーバ１０４に転送する。

ステップＳ１３１において、放送サーバ１０４は、DASHサーバ１０３からのMPDファイルとセグメントデータを取得する。

ステップＳ１３２において、放送サーバ１０４(のシグナリング生成部１１７)は、LLSシグナリング情報やSLSシグナリング情報などのシグナリング情報を生成する。

そして、ステップＳ１３２の処理が終了すると、処理は、図２３のステップＳ１０１の処理に戻り、それ以降の処理が実行される。すなわち、放送サーバ１０４(の送信部１２１等)では、上述したステップＳ１０２(図２３)の処理が行われ、セグメントデータ(TTMLファイルを含む)やシグナリング情報(MPDファイルを含む)が、デジタル放送信号として送信される。

以上、ATSCサーバ１０により実行されるコンポーネント・シグナリング処理について説明した。このコンポーネント・シグナリング処理では、ATSCクライアント２０が、コンポーネントのデータやシグナリング情報を用いてコンテンツの再生を行うことができるように、各種の処理が行われる。また、ここでは、コンテンツの映像に、字幕を重畳表示させる場合には、TTML処理モードを選択するための選択情報を含むMPDファイルが生成され、TTMLファイルとともに送信されることになる。

（受信処理）
次に、図２５のフローチャートを参照して、図１のATSCクライアント２０により実行される受信処理について説明する。なお、図２５の受信処理は、例えば、ユーザにより所望のサービスの選局操作が行われた場合に実行される。

ステップＳ２０１においては、受信部２１２等により受信処理が行われ、アンテナ２１１を介して、ATSCサーバ１０から伝送路３０を介して送信されてくるデジタル放送信号が受信される。

ステップＳ２０２においては、コンポーネント・シグナリング処理が行われる。このコンポーネント・シグナリング処理では、ステップＳ２０１の処理で受信されたデジタル放送信号から得られる、ビデオやオーディオ、字幕のコンポーネントのデータと、シグナリング情報に対する処理が行われ、ユーザの選局操作に応じたコンテンツが再生される。

なお、ステップＳ２０２のコンポーネント・シグナリング処理の詳細な内容は、図２６のフローチャートを参照して後述する。ステップＳ２０２の処理が終了すると、図２５の受信処理は終了される。

以上、ATSCクライアント２０により実行される受信処理について説明した。

（コンポーネント・シグナリング処理）
ここで、図２６のフローチャートを参照して、図２５のステップＳ２０２の処理に対応するコンポーネント・シグナリング処理の詳細な内容について説明する。なお、図２６においては、図２２の放送クライアントミドルウェア２５１とDASHクライアント２５２で行われる処理を示している。

ステップＳ２１１において、放送クライアントミドルウェア２５１は、MPDファイルを取得する。また、ステップＳ２１２において、放送クライアントミドルウェア２５１は、セグメントデータを取得する。

ステップＳ２１３において、放送クライアントミドルウェア２５１は、ステップＳ２１１の処理で取得されたMPDファイルと、ステップＳ２１２の処理で取得されたセグメントデータを、DASHクライアント２５２に転送する。

ステップＳ２２１において、DASHクライアント２５２は、放送クライアントミドルウェア２５１から転送されてくるMPDファイルとセグメントデータを取得する。

ステップＳ２２２において、DASHクライアント２５２は、ステップＳ２２１の処理で取得されたMPDファイルをパースする。

ステップＳ２２３において、DASHクライアント２５２は、ステップＳ２２２の処理でのMPDファイルのパース結果に基づいて、ステップＳ２２１の処理で取得されるビデオとオーディオのセグメントデータのレンダリングを行う。これにより、コンテンツの映像が表示部２２２に表示され、その音声がスピーカ２２３から出力される。

ステップＳ２２４において、DASHクライアント２５２は、ステップＳ２２２の処理でのMPDファイルのパース結果に基づいて、字幕に対応するAdaptationSet要素のEssentialProperty要素のschemeIdUri属性の値(属性値)をチェックする。

ステップＳ２２４において、EssentialProperty要素のschemeIdUri属性の値として、"ttmlTimeOnly"が指定されていると判定された場合、TTML処理モードとして、モード１が設定されているので、処理は、ステップＳ２２５に進められ、ステップＳ２２５乃至Ｓ２２７の処理が実行される。

ステップＳ２２５において、DASHクライアント２５２は、ステップＳ２２１の処理で取得されるセグメントデータ(TTMLセグメント)をパースする。ただし、モード１では、MP4のファイルフォーマットで規定される時間情報、すなわち、moofボックスに格納されるBMDTやSampleDuration等の時間情報は無視される。

ステップＳ２２６において、DASHクライアント２５２は、ステップＳ２２５の処理でTTMLセグメントをパースすることで、mdatボックスに格納されるTTMLサンプルから得られるTTMLファイルをパースする。ここで、モード１では、TTMLファイルで指定される時間情報、すなわち、body要素内のp要素のbegin属性やend属性により指定される時間情報を尊重して、begin属性により指定される時間に字幕の表示を開始して、end属性により指定される時間にその字幕の表示を終了することになる。

ステップＳ２２７において、DASHクライアント２５２は、ステップＳ２２６の処理のTTMLファイルのパース結果に基づいて、レンダリング処理を行い、begin属性の表示開始時刻から、end属性の表示終了時刻までの間に、body要素内のp要素により指定される文字列としての字幕が表示されるようにする。

このように、TTML処理モードとして、モード１が設定されている場合、MP4のファイルフォーマットで規定される時間情報を無視して、TTMLファイルで指定される時間情報を尊重することで、所望のタイミングで字幕を表示させることができる。

また、ステップＳ２２４において、EssentialProperty要素のschemeIdUri属性の値として、"sampleTimeOnly"が指定されていると判定された場合、TTML処理モードとして、モード２−１が設定されているので、処理は、ステップＳ２２８に進められ、ステップＳ２２８乃至Ｓ２３０の処理が実行される。

ステップＳ２２８において、DASHクライアント２５２は、ステップＳ２２１の処理で取得されるセグメントデータ(TTMLセグメント)をパースする。ここで、モード２−１では、MP4のファイルフォーマットで規定される時間情報、すなわち、moofボックスに格納されるBMDTやSampleDuration等の時間情報を尊重して、BMDTに応じた時間に字幕の表示を開始して、そのmoofボックスに格納されるSampleDurationに応じた時間の間だけ表示を継続することになる。

ステップＳ２２９において、DASHクライアント２５２は、ステップＳ２２８の処理でTTMLセグメントをパースすることで、mdatボックスに格納されるTTMLサンプルから得られるTTMLファイルをパースする。ただし、モード２−１では、TTMLファイルで指定される時間情報、すなわち、p要素のbegin属性やend属性により指定される時間情報は無視される。

ステップＳ２３０において、DASHクライアント２５２は、ステップＳ２２８の処理とステップＳ２２９の処理のパース結果に基づいて、レンダリング処理を行い、BMDTに応じた時間から、SampleDurationに応じた時間まで間に、TTMLファイルのp要素により指定される文字列としての字幕が表示されるようにする。

さらに、ステップＳ２２４において、EssentialProperty要素のschemeIdUri属性の値として、"sampleTimeOnlyButTillNext"が指定されていると判定された場合、TTML処理モードとして、モード２−２が設定されているので、処理は、ステップＳ２３１に進められ、ステップＳ２３１乃至Ｓ２３３の処理が実行される。

ステップＳ２３１において、DASHクライアント２５２は、ステップＳ２２１の処理で取得されるセグメントデータ(TTMLセグメント)をパースする。ここで、モード２−２では、MP4のファイルフォーマットで規定される時間情報、すなわち、moofボックスに格納されるBMDTの時間情報を尊重して、対象のTTMLサンプルに対応するBMDTに応じた時間に字幕の表示を開始して、次のTTMLサンプルに対応するBMDTに応じた時間まで表示を継続することになる。

ステップＳ２３２において、DASHクライアント２５２は、ステップＳ２３１の処理でTTMLセグメントをパースすることで、mdatボックスに格納されるTTMLサンプルから得られるTTMLファイルをパースする。ただし、モード２−２では、TTMLファイルで指定される時間情報、すなわち、p要素のbegin属性やend属性により指定される時間情報は無視される。

ステップＳ２３３において、DASHクライアント２５２は、ステップＳ２３１の処理とステップＳ２３２の処理のパース結果に基づいて、レンダリング処理を行い、対象のTTMLサンプルに対応するBMDTに応じた時間から、次のTTMLサンプルに対応するBMDTに応じた時間までの間に、対象のTTMLサンプルから得られるTTMLファイルのp要素により指定される文字列としての字幕が表示されるようにする。

なお、次のTTMLサンプルに対応するBMDTに応じた時間を認識するためには、上述したステップＳ２３１の処理に戻り、TTMLセグメントをパースする必要がある。すなわち、ステップＳ２３１乃至Ｓ２３３の処理が繰り返し行われることで、次のTTMLサンプルに対応するBMDTに応じた時間が認識されるとともに、次のTTMLサンプルから得られるTTMLファイルに指定される字幕が表示されることになる。

このように、TTML処理モードとして、モード２(モード２−１，モード２−２)が設定されている場合、MP4のファイルフォーマットで規定される時間情報(TTMLサンプルごとの時間情報)を尊重して、TTMLファイルで指定される時間情報を無視することで、所望のタイミングで字幕を表示させることができる。

また、ステップＳ２２４において、EssentialProperty要素のschemeIdUri属性の値として、"asap"が指定されていると判定された場合、TTML処理モードとして、モード３が設定されているので、処理は、ステップＳ２３４に進められ、ステップＳ２３４乃至Ｓ２３６の処理が実行される。

ステップＳ２３４において、DASHクライアント２５２は、ステップＳ２２１の処理で取得されるセグメントデータ(TTMLセグメント)をパースする。ただし、モード３では、MP4のファイルフォーマットで規定される時間情報、すなわち、moofボックスに格納されるBMDTやSampleDuration等の時間情報は無視される。

ステップＳ２３５において、DASHクライアント２５２は、ステップＳ２３４の処理でTTMLセグメントをパースすることで、mdatボックスに格納されるTTMLサンプルから得られるTTMLファイルをパースする。ただし、モード３では、TTMLファイルで指定される時間情報、すなわち、p要素のbegin属性やend属性により指定される時間情報は無視される。

ステップＳ２３６において、DASHクライアント２５２は、ステップＳ２３５の処理のTTMLファイルのパース結果に基づいて、TTMLファイルのレンダリングを即時に行い、TTMLファイルのp要素により指定される文字列としての字幕が表示されるようにする。なお、このようにして表示された字幕は、次のTTMLファイル(TTMLサンプル)が取得されたときに、その表示が終了されることになる。

このように、TTML処理モードとして、モード３が設定されている場合、MP4のファイルフォーマットで規定される時間情報(TTMLサンプルごとの時間情報)と、TTMLファイルで指定される時間情報を無視して、即時に字幕が表示されるようにすることで、所望のタイミングで字幕を表示させることができる。

以上、ATSCクライアント２０により実行されるコンポーネント・シグナリング処理について説明した。このコンポーネント・シグナリング処理では、ATSCサーバ１０から送信されてくる、コンポーネントのデータやシグナリング情報を用い、コンテンツを再生するための処理が行われる。また、ここでは、コンテンツの映像に、字幕を重畳表示させる場合に、TTML処理モードを選択するための選択情報を含むMPDファイルが取得されるので、TTML処理モードに応じた表示タイミングで、TTMLファイルに指定される字幕が表示されることになる。

＜６．変形例＞

上述した説明としては、デジタル放送の規格として、米国等で採用されている方式であるATSC(例えばATSC3.0)を説明したが、本技術は、日本等が採用する方式であるISDB(Integrated Services Digital Broadcasting)や、欧州の各国等が採用する方式であるDVB(Digital Video Broadcasting)などに適用するようにしてもよい。

また、上述したSLTなどのシグナリング情報の名称は、一例であって、他の名称が用いられるようにしてもよい。仮に、シグナリング情報の名称として、他の名称が用いられた場合であっても、単に形式的に名称が変更になっただけであり、そのシグナリング情報の実質的な内容が異なるものではない。例えば、SLTは、FIT(Fast Information Table)などと称される場合がある。

また、上述した説明では、TTMLファイルやMPDファイルは、ATSCサーバ１０によりデジタル放送信号で伝送されるものとして説明したが、それらのファイルが、インターネット上のサーバから配信されるようにしてもよい。例えば、放送経由で配信されるコンテンツの映像に対して、通信経由で配信されるTTMLファイルの字幕が重畳表示されるようにしてもよい。また、ビデオやオーディオ(のストリーム)のデータについても、インターネット上のサーバから、適応的にストリーミング配信されるようにしてもよい。ただし、このストリーミング配信は、MPEG-DASHの規格に準拠したものとなる。

さらに、上述した説明では、TTML処理モードを指定するために、MPDファイルにおいて、AdaptationSet要素のEssentialProperty要素又はSupplementalProperty要素のschemeIdUri属性の属性値を用いる場合を説明したが、それ以外の要素や属性を用いて、TTML処理モードが指定されるようにしてもよい。また、Representation要素又はSubRepresentation要素において、EssentialProperty要素又はSupplementalProperty要素のschemeIdUri属性の属性値により、TTML処理モードを指定するようにしてもよい。さらに、TTMLファイルの処理時にTTML処理モードが認識されていれば、MPDファイル以外のシグナリング情報などにより、TTML処理モードが指定されるようにしてもよい。

＜７．コンピュータの構成＞

上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。図２７は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示す図である。

コンピュータ９００において、CPU(Central Processing Unit)９０１，ROM(Read Only Memory)９０２，RAM(Random Access Memory)９０３は、バス９０４により相互に接続されている。バス９０４には、さらに、入出力インターフェース９０５が接続されている。入出力インターフェース９０５には、入力部９０６、出力部９０７、記録部９０８、通信部９０９、及び、ドライブ９１０が接続されている。

入力部９０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部９０７は、ディスプレイ、スピーカなどよりなる。記録部９０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部９０９は、ネットワークインターフェースなどよりなる。ドライブ９１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア９１１を駆動する。

以上のように構成されるコンピュータ９００では、CPU９０１が、ROM９０２や記録部９０８に記録されているプログラムを、入出力インターフェース９０５及びバス９０４を介して、RAM９０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ９００(CPU９０１)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア９１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。

コンピュータ９００では、プログラムは、リムーバブルメディア９１１をドライブ９１０に装着することにより、入出力インターフェース９０５を介して、記録部９０８にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部９０９で受信し、記録部９０８にインストールすることができる。その他、プログラムは、ROM９０２や記録部９０８に、あらかじめインストールしておくことができる。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。また、プログラムは、１のコンピュータ(プロセッサ)により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

また、本技術は、以下のような構成をとることができる。

（１）
デジタル放送の放送波を受信する受信部と、
前記放送波で伝送される、字幕に関する字幕情報と、前記字幕の表示のタイミングを指定するための複数のモードのうちの特定のモードを選択するための選択情報を含む制御情報を取得する取得部と、
前記制御情報に含まれる前記選択情報に基づいて、前記特定のモードに応じた表示のタイミングで、前記字幕情報に応じた前記字幕の表示を制御する制御部と
を備える受信装置。
（２）
前記字幕情報は、TTML(Timed Text Markup Language)形式のTTMLファイルであって、そのデータは、MP4のファイルフォーマットに準拠しており、
前記制御情報は、XML(Extensible Markup Language)形式のMPD(Media Presentation Description)ファイルであり、
前記TTMLファイルと前記MPDファイルは、ROUTE(Real-Time Object Delivery over Unidirectional Transport)セッションで伝送される
（１）に記載の受信装置。
（３）
前記複数のモードは、前記TTMLファイルで指定される時間情報に応じたタイミングで前記字幕の表示を行う第１のモードを含み、
前記制御部は、前記特定のモードが前記第１のモードである場合、前記TTMLファイルで指定される時間情報に応じたタイミングで、前記TTMLファイルで指定される前記字幕を表示させる
（２）に記載の受信装置。
（４）
前記複数のモードは、前記MP4のファイルフォーマットで規定される時間情報に応じたタイミングで前記字幕の表示を行う第２のモードを含み、
前記制御部は、前記特定のモードが前記第２のモードである場合、前記MP4のファイルフォーマットで規定される時間情報に応じたタイミングで、前記TTMLファイルで指定される前記字幕を表示させる
（２）又は（３）に記載の受信装置。
（５）
前記制御部は、前記MP4のファイルフォーマットで規定されるmoofボックスに格納されるBMDT(BaseMediaDecodeTime)に応じた時間に前記字幕の表示を開始して、前記moofボックスに格納されるSampleDurationに応じた時間の間だけ表示を継続させる
（４）に記載の受信装置。
（６）
前記制御部は、前記MP4のファイルフォーマットで規定される、対象の字幕のデータを格納するmdatボックスに対応するmoofボックスに格納されるBMDTに応じた時間に前記字幕の表示を開始して、次の字幕のデータを格納するmdatボックスに対応するmoofボックスに格納されるBMDTに応じた時間まで表示を継続させる
（４）に記載の受信装置。
（７）
前記複数のモードは、前記TTMLファイルで指定される時間情報と、前記MP4のファイルフォーマットで規定される時間情報を無視して前記字幕の表示を行う第３のモードを含み、
前記制御部は、前記特定のモードが前記第３のモードである場合に、前記TTMLファイルを取得したとき、即時に、前記TTMLファイルで指定される前記字幕を表示させる
（２）乃至（４）のいずれかに記載の受信装置。
（８）
前記選択情報は、前記MPDファイルの拡張情報として指定される
（２）乃至（７）のいずれかに記載の受信装置。
（９）
前記選択情報は、MPD要素のPeriod要素に配置されるAdaptationSet要素において、EssentialProperty要素又はSupplementalProperty要素のschemeIdUri属性により指定される
（８）に記載の受信装置。
（１０）
デジタル放送の放送波で伝送される、字幕に関する字幕情報と、前記字幕の表示のタイミングを指定するための複数のモードのうちの特定のモードを選択するための選択情報を含む制御情報を取得し、
前記制御情報に含まれる前記選択情報に基づいて、前記特定のモードに応じた表示のタイミングで、前記字幕情報に応じた前記字幕の表示を制御する
ステップを含むデータ処理方法。
（１１）
字幕の表示のタイミングを指定するための複数のモードのうちの特定のモードを選択するための選択情報を含む制御情報を生成する生成部と、
前記字幕に関する字幕情報とともに、前記制御情報を、デジタル放送の放送波で送信する送信部と
を備える送信装置。
（１２）
前記字幕情報は、TTML形式のTTMLファイルであって、そのデータは、MP4のファイルフォーマットに準拠しており、
前記制御情報は、XML形式のMPDファイルであり、
前記TTMLファイルと前記MPDファイルは、ROUTEセッションで伝送される
（１１）に記載の送信装置。
（１３）
前記複数のモードは、前記TTMLファイルで指定される時間情報に応じたタイミングで前記字幕の表示を行う第１のモードを含む
（１２）に記載の送信装置。
（１４）
前記複数のモードは、前記MP4のファイルフォーマットで規定される時間情報に応じたタイミングで前記字幕の表示を行う第２のモードを含む
（１２）又は（１３）に記載の送信装置。
（１５）
前記第２のモードは、前記MP4のファイルフォーマットで規定されるmoofボックスに格納されるBMDTに応じた時間に前記字幕の表示を開始して、前記moofボックスに格納されるSampleDurationに応じた時間の間だけ表示を継続させるモードである
（１４）に記載の送信装置。
（１６）
前記第２のモードは、前記MP4のファイルフォーマットで規定される、対象の字幕のデータを格納するmdatボックスに対応するmoofボックスに格納されるBMDTに応じた時間に前記字幕の表示を開始して、次の字幕のデータを格納するmdatボックスに対応するmoofボックスに格納されるBMDTに応じた時間まで表示を継続させるモードである
（１４）に記載の送信装置。
（１７）
前記複数のモードは、前記TTMLファイルで指定される時間情報と、前記MP4のファイルフォーマットで規定される時間情報を無視して前記字幕の表示を行う第３のモードを含む
（１２）乃至（１４）のいずれかに記載の送信装置。
（１８）
前記選択情報は、前記MPDファイルの拡張情報として指定される
（１２）乃至（１７）のいずれかに記載の送信装置。
（１９）
前記選択情報は、MPD要素のPeriod要素に配置されるAdaptationSet要素において、EssentialProperty要素又はSupplementalProperty要素のschemeIdUri属性により指定される
（１８）に記載の送信装置。
（２０）
デジタル放送の放送波で字幕に関する字幕情報とともに伝送される、前記字幕の表示のタイミングを指定するための複数のモードのうちの特定のモードを選択するための選択情報を含む制御情報を生成する
ステップを含むデータ処理方法。

１伝送システム，１０ ATSCサーバ，２０ ATSCクライアント，３０伝送路，１０１ AVサーバ，１０２ TTMLサーバ，１０３ DASHサーバ，１０４放送サーバ，１１１ビデオデータ取得部，１１２ビデオエンコーダ，１１３オーディオデータ取得部，１１４オーディオエンコーダ，１１５字幕生成部，１１６字幕エンコーダ，１１７シグナリング生成部，１１８シグナリング処理部，１１９セグメント処理部，１２０マルチプレクサ，１２１送信部，２１２受信部，２１３デマルチプレクサ，２１４制御部，２１７ビデオデコーダ，２１８ビデオ出力部，２１９オーディオデコーダ，２２０オーディオ出力部，２２１字幕デコーダ，２４１ MP4パーサ，２４２ TTMLパーサ，２５１放送クライアントミドルウェア，２５２ DASHクライアント，９００コンピュータ，９０１ CPU

Claims

デジタル放送の放送波を受信する受信部と、
前記放送波で伝送される、字幕に関する字幕情報と、前記字幕の表示のタイミングを指定するための複数のモードのうちの特定のモードを選択するための選択情報を含む制御情報を取得する取得部と、
前記制御情報に含まれる前記選択情報に基づいて、前記特定のモードに応じた表示のタイミングで、前記字幕情報に応じた前記字幕の表示を制御する制御部と
を備え、
前記制御情報は、XML(Extensible Markup Language)形式のMPD(Media Presentation Description)ファイルであり、
前記字幕情報は、TTML(Timed Text Markup Language)形式のTTMLファイルであって、前記TTMLファイルに対応するAdaptationSet要素が前記MPDファイルに配置され、
前記TTMLファイルのデータは、MP4のファイルフォーマットに準拠し、
前記複数のモードは、前記MP4のファイルフォーマットで規定される時間情報に応じたタイミングで前記字幕の表示を行う第２のモードを含み、
前記制御部は、前記特定のモードが前記第２のモードである場合、前記MP4のファイルフォーマットで規定される時間情報に応じたタイミングで、前記TTMLファイルで指定される前記字幕を表示させるに際して、前記MP4のファイルフォーマットで規定されるmoofボックスに格納されるBMDT(BaseMediaDecodeTime)に応じた時間に前記字幕の表示を開始して、前記moofボックスに格納されるSampleDurationに応じた時間の間だけ表示を継続させる
受信装置。
前記TTMLファイルと前記MPDファイルは、ROUTE(Real-Time Object Delivery over Unidirectional Transport)セッションで伝送される
請求項１に記載の受信装置。
前記複数のモードは、前記TTMLファイルで指定される時間情報に応じたタイミングで前記字幕の表示を行う第１のモードを含み、
前記制御部は、前記特定のモードが前記第１のモードである場合、前記TTMLファイルで指定される時間情報に応じたタイミングで、前記TTMLファイルで指定される前記字幕を表示させる
請求項１に記載の受信装置。
前記複数のモードは、前記TTMLファイルで指定される時間情報と、前記MP4のファイルフォーマットで規定される時間情報を無視して前記字幕の表示を行う第３のモードを含み、
前記制御部は、前記特定のモードが前記第３のモードである場合に、前記TTMLファイルを取得したとき、即時に、前記TTMLファイルで指定される前記字幕を表示させる
請求項１に記載の受信装置。
前記選択情報は、前記MPDファイルの拡張情報として指定される
請求項１に記載の受信装置。
前記選択情報は、MPD要素のPeriod要素に配置されるAdaptationSet要素において、EssentialProperty要素又はSupplementalProperty要素のschemeIdUri属性により指定される
請求項５に記載の受信装置。
デジタル放送の放送波で伝送される、字幕に関する字幕情報と、前記字幕の表示のタイミングを指定するための複数のモードのうちの特定のモードを選択するための選択情報を含む制御情報を取得し、
前記制御情報に含まれる前記選択情報に基づいて、前記特定のモードに応じた表示のタイミングで、前記字幕情報に応じた前記字幕の表示を制御する
ステップを含み、
前記制御情報は、XML形式のMPDファイルであり、
前記字幕情報は、TTML形式のTTMLファイルであって、前記TTMLファイルに対応するAdaptationSet要素が前記MPDファイルに配置され、
前記TTMLファイルのデータは、MP4のファイルフォーマットに準拠し、
前記複数のモードは、前記MP4のファイルフォーマットで規定される時間情報に応じたタイミングで前記字幕の表示を行う第２のモードを含み、
前記特定のモードが前記第２のモードである場合、前記MP4のファイルフォーマットで規定される時間情報に応じたタイミングで、前記TTMLファイルで指定される前記字幕を表示させるに際して、前記MP4のファイルフォーマットで規定されるmoofボックスに格納されるBMDTに応じた時間に前記字幕の表示を開始して、前記moofボックスに格納されるSampleDurationに応じた時間の間だけ表示を継続させるステップをさらに含む
データ処理方法。
字幕の表示のタイミングを指定するための複数のモードのうちの特定のモードを選択するための選択情報を含む制御情報を生成する生成部と、
前記字幕に関する字幕情報とともに、前記制御情報を、デジタル放送の放送波で送信する送信部と
を備え、
前記制御情報は、XML形式のMPDファイルであり、
前記字幕情報は、TTML形式のTTMLファイルであって、前記TTMLファイルに対応するAdaptationSet要素が前記MPDファイルに配置され、
前記TTMLファイルのデータは、MP4のファイルフォーマットに準拠し、
前記複数のモードは、前記MP4のファイルフォーマットで規定される時間情報に応じたタイミングで前記字幕の表示を行う第２のモードを含み、
前記第２のモードは、前記MP4のファイルフォーマットで規定されるmoofボックスに格納されるBMDTに応じた時間に前記字幕の表示を開始して、前記moofボックスに格納されるSampleDurationに応じた時間の間だけ表示を継続させるモードである
送信装置。
前記TTMLファイルと前記MPDファイルは、ROUTEセッションで伝送される
請求項８に記載の送信装置。
前記複数のモードは、前記TTMLファイルで指定される時間情報に応じたタイミングで前記字幕の表示を行う第１のモードを含む
請求項８に記載の送信装置。
前記複数のモードは、前記TTMLファイルで指定される時間情報と、前記MP4のファイルフォーマットで規定される時間情報を無視して前記字幕の表示を行う第３のモードを含む
請求項８に記載の送信装置。
前記選択情報は、前記MPDファイルの拡張情報として指定される
請求項８に記載の送信装置。
前記選択情報は、MPD要素のPeriod要素に配置されるAdaptationSet要素において、EssentialProperty要素又はSupplementalProperty要素のschemeIdUri属性により指定される
請求項１２に記載の送信装置。
デジタル放送の放送波で字幕に関する字幕情報とともに伝送される、前記字幕の表示のタイミングを指定するための複数のモードのうちの特定のモードを選択するための選択情報を含む制御情報を生成するステップ
を含み、
前記制御情報は、XML形式のMPDファイルであり、
前記字幕情報は、TTML形式のTTMLファイルであって、前記TTMLファイルに対応するAdaptationSet要素が前記MPDファイルに配置され、
前記TTMLファイルのデータは、MP4のファイルフォーマットに準拠し、
前記複数のモードは、前記MP4のファイルフォーマットで規定される時間情報に応じたタイミングで前記字幕の表示を行う第２のモードを含み、
前記第２のモードは、前記MP4のファイルフォーマットで規定されるmoofボックスに格納されるBMDTに応じた時間に前記字幕の表示を開始して、前記moofボックスに格納されるSampleDurationに応じた時間の間だけ表示を継続させるモードである
データ処理方法。