CN107852517A

CN107852517A - 传输装置、传输方法、接收装置和接收方法

Info

Publication number: CN107852517A
Application number: CN201680040344.2A
Authority: CN
Inventors: 塚越郁夫
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-07-16
Filing date: 2016-07-05
Publication date: 2018-03-27
Also published as: JPWO2017010359A1; EP3324637A4; AU2016294096B2; JP7548359B2; US20180376173A1; EP3324637B1; JP6943179B2; JP2023076613A; AU2016294096A1; EP3324637A1; WO2017010359A1; JP2021185714A; JP7259901B2

Abstract

本发明的目的在于，减轻在接收侧的字幕显示的处理负荷。生成包括编码的视频数据的视频流。生成字幕流，包括具有显示时机信息的字幕文本信息和具有与由文本信息指示的多个信息项的一部分相对应的信息的摘要信息。传输具有包括视频流和字幕流的预定格式的容器。

Description

传输装置、传输方法、接收装置和接收方法

技术领域

本技术涉及一种传输装置、一种传输方法、一种接收装置和一种接收方法，更具体地，涉及一种传输文本信息以及视频信息的传输装置等。

背景技术

在现有技术中，例如，在广播例如数字视频广播(DVB)时，传输字幕(字幕)信息，作为位图数据。最近，提出了一种将字幕信息作为文本的字符码传输(即，以文本库传输)的技术。在这种情况下，在接收侧，根据分辨率显影字体。

此外，关于执行字幕信息的基于文本的传输的情况，建议将时间信息包括在文本信息中。作为文本信息，例如，万维网联盟(W3C)提出了时间文本标记语言(TTML)(参见专利文献1)。

引用列表

专利文件

专利文献1：日本专利申请公开No.2012-169885

发明内容

本发明要解决的问题

作为标记语言格式的文件，处理在TTML中描述的字幕文本信息。在这种情况下，由于相应参数的传输顺序不受限制，所以接收侧需要扫描整个文件，以获得重要的参数。

本技术的目的是减少用于显示字幕的接收侧的处理负荷。

解决问题的办法

本技术的概念在于

一种传输装置，包括：

视频编码器，被配置为生成包括编码的视频数据的视频流；

字幕编码器，被配置为生成字幕流，所述字幕流包括具有显示时机信息的字幕文本信息以及具有与由所述文本信息指示的多个信息中的一部分相对应的信息的摘要信息；以及

传输单元，被配置为传输包括视频流和字幕流的预定格式的容器。

根据本技术，视频编码器生成包括编码的视频数据的视频流。字幕编码器生成字幕流，所述字幕流包括具有显示时机信息的字幕文本信息以及具有与由所述文本信息指示的多个信息中的一部分相对应的信息的摘要信息。例如，所述字幕文本信息可以具有TTML格式或者与TTML相关的格式。然后，传输单元传输包括视频流和字幕流的预定格式的容器。

例如，所述摘要信息可以包括字幕显示时机信息。接收侧可以基于包含在摘要信息中的字幕显示时机信息来控制字幕显示时间，而不扫描字幕文本信息。

在这种情况下，例如，字幕显示时机信息可以包括显示开始时间和显示时段的信息。然后，在这种情况下，字幕流可以由具有PES报头和PES有效载荷的PES报文构成，可以在PES有效载荷中提供字幕文本信息和摘要信息，并且显示开始时间由从插入在PES报头中的呈现时间戳(PTS)的显示偏移表示。

此外，例如，摘要信息可以包括用于控制字幕显示状态的显示控制信息。接收侧可以基于包含在摘要信息中的显示控制信息来控制字幕显示状态，而不扫描字幕文本信息。

在这种情况下，例如，显示控制信息可以包括字幕的显示位置、色域和动态范围中的至少一个的信息。然后，在这种情况下，例如，显示控制信息可以进一步包括对象视频信息。

此外，例如，摘要信息可以包括提供所述字幕文本信息的元素具有变化的通知的通知信息。基于该通知信息，接收侧可以容易地识别字幕文本信息的元素具有变化，并有效地扫描字幕文本信息的元素。

此外，例如，字幕编码器可以将字幕文本信息和摘要信息划分成分段并且生成具有预定数量的分段的字幕流。在这种情况下，接收侧可以从字幕流中提取包括摘要信息的分段，并且容易地获得摘要信息。

在这种情况下，例如，在字幕流中，可以首先提供所述摘要信息的分段，随后提供所述字幕文本信息的分段。由于首先提供所述摘要信息的分段，所以接收侧可以容易和有效地从字幕流中提取摘要信息的分段。

以这种方式，根据本技术，字幕流可以包括对应于文本信息的字幕文本信息和摘要信息。因此，接收侧可以执行通过使用摘要信息来显示字幕的处理，并且这减轻了处理负荷。

此外，本技术的另一个概念在于

一种接收装置，包括：

接收单元，被配置为接收包括视频流和字幕流的预定格式的容器，

所述视频流包括编码的视频数据，并且

所述字幕流包括具有显示时机信息的字幕文本信息以及具有与由所述文本信息指示的多个信息中的一部分相对应的信息的摘要信息；以及

控制单元，被配置为控制用于通过解码视频流来获得视频数据的视频解码处理、用于解码字幕流以获得字幕位图数据并提取摘要信息的字幕解码处理、用于在视频数据上叠加字幕位图数据以获得显示视频数据的视频叠加处理、以及用于基于摘要信息来处理要叠加在视频数据上的字幕位图数据的位图数据处理。

根据本技术，接收包括视频流和字幕流的预定格式的容器。所述视频流包括编码的视频数据。所述字幕流包括具有显示时机信息的字幕文本信息以及具有与由所述文本信息指示的多个信息中的一部分相对应的信息的摘要信息。

控制单元控制视频解码处理、字幕解码处理、视频叠加处理、以及位图数据处理。在视频解码过程中，在视频流被解码之后，获得视频数据。此外，在字幕解码处理中，字幕流解码，以获得字幕位图数据，并且提取摘要信息。

在视频叠加处理中，通过在视频数据上叠加字幕位图数据来获得显示视频数据。在位图数据处理中，基于摘要信息来处理叠加在视频数据上的字幕位图数据。

例如，摘要信息可以包括字幕显示时机信息，并且在位图数据处理中，可以基于字幕显示时机信息来控制将字幕位图数据叠加在视频数据上的时间。

此外，例如，摘要信息可以包括用于控制字幕的显示状态的显示控制信息，并且在位图数据处理中，可以基于显示控制信息来控制字幕位图要叠加在视频数据上的条件。

以这种方式，根据本技术，基于从字幕流提取的摘要信息来处理要叠加在视频数据上的字幕位图数据。利用这种配置，可以减少用于显示字幕的处理负荷。

此外，本技术的另一个概念在于

一种传输装置，包括：

视频编码器，被配置为生成包括编码的视频数据的视频流；

字幕编码器，被配置为生成一个或多个分段，分段中提供了包括显示时机信息的字幕文本信息的元素，并生成包括一个或多个所述分段的字幕流；以及

根据本技术，视频编码器生成包括编码的视频数据的视频流。字幕编码器生成一个或多个分段，分段中提供了包括显示时机信息的字幕文本信息的元素，并生成包括一个或多个所述分段的字幕流。例如，字幕文本信息可以具有TTML格式或与TTML相关的格式。传输单元传输包括视频流和字幕流的预定格式的容器。

根据本技术，具有显示时机信息的字幕文本信息分成分段并包括在字幕流中，以传输。因此，接收侧可以优选地接收字幕文本信息的每个元素。

此处，根据本技术，例如，在字幕编码器生成提供了字幕文本信息的所有元素的分段的情况下，与传输顺序和/或是否存在字幕文本信息的更新有关的信息插入到分段层或在分段层中提供的元件层中。在插入与字幕文本信息传输顺序有关的信息的情况下，接收侧可以识别字幕测试信息的传输顺序并且高效地执行解码处理。此外，在插入与是否存在字幕文本信息的更新有关的信息的情况下，接收侧可以容易地识别是否存在字幕文本信息的更新。

本发明的效果

根据本技术，可以减小用于显示字幕的接收侧的处理负荷。此处，在本说明书中描述的效果仅仅是示例，并没有设置任何限制，并且可能具有额外效果。

附图说明

图1是示出作为实施例的传输/接收系统的示例性配置的方框图；

图2是示出传输装置的示例性配置的方框图；

图3是示出光电转换特性的示例的示图；

图4是示出示例性结构中的主要信息的动态范围/SEI消息和内容的示例性结构的示图；

图5是示出TTML结构的示图；

图6是示出TTML结构的示图；

图7示出了在TTML结构的报头(头部)中提供的元数据(TTM：TTML元数据)的示例性结构；

图8是示出在TTML结构的报头(头部)中提供的样式(TTS：TTML样式)的示例性结构的示图；

图9是示出在TTML结构的报头(头部)中提供的样式扩展(TTSE：TTML样式扩展)的示例性结构的示图；

图10是示出在TTML结构的报头(报头)中提供的布局(TTL：TTML布局)的示例性结构的示图；

图11是示出TTML结构的主体(主体)的示例性结构的示图；

图12是示出PES报文的示例性配置的示图；

图13是示出PES中的分段接口的示图；

图14是示出在PES数据有效载荷中提供的“TimedTextSubtitling_segments()”的示例性结构的示图；

图15是示出在PES数据有效载荷中提供的“TimedTextSubtitling_segments()”的其他示例性结构的示图；

图16是示出提供了元数据(TTM)的THMS(text_header_metadata_segment)的示例性结构的示图；

图17是示出提供了样式(TTS)的THSS(text_header_styling_segment)的示例性结构的示图；

图18是示出提供了样式扩展(TTML)的THSES(text_header_styling_extension_segment)的示例性结构的示图；

图19是示出提供了布局(TTL)的THLS(text_header_layout_segment)的示例性结构的示图；

图20是示出提供了TTML结构的主体(主体)的TBS(text_body_segment)的示例性结构的示图；

图21是示出提供了TTML结构的报头(头部)的THAS(text_header_all_segment)的示例性结构的示图；

图22是示出提供了整个TTML结构的TWS(文本整体分段)的示例性结构的示图；

图23是示出提供了整个TTML结构的TWS(文本整体分段)的另一示例性结构的示图；

图24是示出提供了摘要信息的APTS(abstract_parameter_TimedText_segment)的示例性结构的示图(1/2)；

图25是示出提供了摘要信息的APTS(abstract_parameter_TimedText_segment)的示例性结构的示图(2/2)；

图26是示出APTS示例性结构中的主要信息的内容的示图(1/2)；

图27是示出APTS示例性结构中的主要信息的内容的示图(2/2)；

图28是用于说明在将TTML转换为分段(分段)的情况下如何设置“PTS”、“start_time_offset”和“end_time_offset”的示图；

图29是示出接收装置的示例性配置的方框图；

图30是示出字幕解码器的示例性配置的方框图；

图31是示出色域/亮度级别转换单元的示例性配置的示图；

图32是示出与包含在亮度级别转换单元中的亮度级别信号Y有关的构件的示例性配置的示图；

图33是示意性地示出亮度级别转换单元的操作的示图；

图34是用于说明位置/大小转换单元中的位置转换的示图；

图35是用于说明位置/大小转换单元中的大小转换的示图；

图36是用于解释时间序列字幕显示控制的示例的示图；

图37是用于说明时间序列字幕显示控制的示例的示图。

具体实施方式

在下文中，说明用于实施本发明的方式(以下称为“实施例”)。另外，以下列顺序进行说明。

1、实施例

2、修改

<1、实施例>

(传输/接收系统的示例性配置)

图1示出作为实施例的传输/接收系统10的示例性配置。传输/接收系统10包括传输装置100和接收装置200。

传输装置100生成MPEG2传输流TS，作为容器，并通过无线电波或网络上的报文传输传输流TS。传输流TS包括包含编码的视频数据的视频流。

此外，传输流TS包括字幕流。字幕流包括包含显示时机信息的字幕(字幕)的文本信息和包括与由文本信息指示的部分信息相对应的信息的摘要信息。根据本实施例，文本信息例如是由万维网联盟(W3C)提出的时间文本标记语言(TTML)。

根据本实施例，摘要信息包括字幕的显示时机信息。显示时机信息包括显示开始时间和显示时段的信息。此处，字幕流由包括PES报头和PES有效载荷的PES报文构成，在PES有效载荷中提供字幕的文本信息和显示时机信息，并且例如显示开始时间由从插入到PES报头中的PTS的显示偏移表示。

此外，根据本实施例，摘要信息包括用于控制字幕的显示状态的显示控制信息。根据本实施例，显示控制信息包括与显示位置、色域和字幕的动态范围有关的信息。此外，根据本实施例，摘要信息包括主题视频的信息。

接收装置200通过无线电波接收从传输装置100传输的传输流TS。如上所述，传输流TS包括包含编码的视频数据的视频流和包括字幕文本信息和摘要信息的字幕流。

接收装置200从视频流获得视频数据，并获得字幕位图数据，并从字幕流中提取摘要信息。接收装置200将字幕位图数据叠加在视频数据上，并获得用于显示的视频数据。基于摘要信息，电视接收机200处理要叠加在视频数据上的字幕位图数据。

根据本实施例，摘要信息包括字幕的显示时机信息，并且接收装置200基于显示时机信息来控制将字幕位图数据叠加在视频数据上的时间。此外，根据本实施例，摘要信息包括用于控制字幕的显示状态(显示位置、色域、动态范围等)的显示控制信息，并且接收装置200基于显示控制信息控制字幕的位图条件。

(传输装置的示例性配置)

图2示出了传输装置100的示例性配置。传输装置100包括控制单元101、相机102、视频光电转换单元103、RGB/YCbCr转换单元104、视频编码器105、字幕生成单元106、文本格式转换单元107、字幕编码器108、系统编码器109和传输单元110。

控制单元101包括中央处理单元(CPU)并且基于控制程序来控制传输装置100中的每个单元的操作。相机102拍摄被摄体的图像并输出高动态范围(HDR)或标准动态范围(SDR)中的视频数据(图像数据)。HDR图像具有0至100％*N(N大于1)的对比度，例如，超过SDR图像的白色峰值处的亮度的0至1000％。此处，100％级别对应于例如白色亮度值100cd/m²。

视频光电转换单元103对在相机102中获得的视频数据执行光电转换，并获得传输视频数据V1。在这种情况下，在视频数据是SDR视频数据的情况下，应用SDR光电转换特性来执行光电转换，并且获得SDR传输视频数据(具有SDR光电转换特性的传输视频数据)。另一方面，在视频数据是HDR视频数据的情况下，应用HDR光电转换特性进行光电转换，并获得HDR传输视频数据(具有HDR光电转换特性的传输视频数据)。

RGB/YCbCr转换单元104将RGB域中的传输视频数据转换为YCbCr(亮度/色度)域。视频编码器105例如对在YCbCr域中转换的传输视频数据V1利用MPEG4-AVC、HEVC等执行编码，并且生成包括编码的视频数据的视频流(PES流)VS。

在这种情况下，视频编码器105将指示与传输视频数据V1(传递函数)的光电转换特性相对应的电光转换特性的信息、指示传输视频数据V1的色域的信息和指示参考级别的信息等元信息插入到访问单元(AU)的SPS NAL单元中的视频可用性信息(VUI)区域内。

此外，视频编码器105将新定义的动态范围/SEI消息(动态范围SEI消息)插入访问单元(AU)的“SEI”的一部分内，该动态范围/SEI消息具有元信息，例如，指示与传输视频数据V1(传递函数)的光电转换特性相对应的电光转换特性的信息和参考级别的信息。

此处，在动态范围/SEI消息中提供指示电光转换特性的信息的原因是因为在VUI以外的地方需要指示与HDR光电转换特性对应的电光转换特性的信息，因为在HDR光电转换特性与SDR光电转换特性兼容的情况下，甚至在传输视频数据V1是HDR传输视频数据的情况下，指示与SDR光电转换特性对应的电光转换特性(伽马特性)的信息插入SPS NAL单元的VUI内。

图3示出了光电转换特性的示例。在该图中，横轴表示输入亮度级别，纵轴表示传输码值。曲线a表示SDR光电转换特性的示例。此外，曲线b1表示HDR光电转换特性(与SDR光电转换特性不兼容)的示例。此外，曲线b2表示HDR光电转换特性(与SDR光电转换特性兼容)的示例。在这个示例的情况下，HDR光电转换特性对应于SDR光电转换特性，直到输入亮度水平变成兼容性极限值。在输入亮度级别是兼容性极限值的情况下，传输码值处于兼容级别。

此外，参考级别的信息提供给动态范围/SEI消息的原因是因为参考级别的插入没有被清楚地定义，尽管在传输视频数据V1是SDR传输视频数据的情况下，表示与SDR光电转换特性相对应的电光转换特性(伽玛特性)的信息插入到SPS NAL单元的VUI中。

图4(a)示出了动态范围/SEI消息的示例性结构(语法)。图4(b)示出了示例性结构中的主要信息的内容(语义)。一位标志信息“Dynamic_range_cancel_flag”指示是否刷新“Dynamic_range”消息。“0”表示刷新消息，“1”表示消息未刷新，这意味着先前的消息保持原样。

在“Dynamic_range_cancel_flag”是“0”的情况下，存在以下字段。“coded_data_bit_depth”中的8位字段表示编码像素位深度。“reference_level”中的8位字段表示作为参考级别的参考亮度级别值。“modify_tf_flag”中的一位字段表示是否校正由视频可用性信息(VUI)指示的传递函数(TF)。“0”表示由VUI表示的TF是目标，“1”表示通过使用由SEI的“transfer_function”指定的TF来校正VUI的TF。“transfer_function”中的8位字段表示对应于传输视频数据V1的光电转换特性的电光转换特性。

返回参照图2，字幕生成单元106生成作为字幕信息的文本数据(字符码)DT。文本格式转换单元107输入文本数据DT并获得作为根据本实施例的时间文本标记语言(TTML)的预定格式的字幕文本信息。

图5示出了时间文本标记语言(TTML)结构的示例。TTML是基于XML编写的。此处，图6(a)也示出了TTML结构的示例。如本示例中所示，可以通过“tts：extent”在根容器的位置中指定字幕区域。图6(b)示出由“tts：extent＝“1920px 1080px””指定的具有水平1920个像素和垂直1080个像素的字幕区域。

TTML由报头(报头)和主体(主体)组成。在报头(head)中，存在元数据(元数据)、样式(样式)、样式扩展(样式扩展)、布局(布局)等的元素。图7示出了元数据(TTM：TTML元数据)的示例性结构。元数据包括元数据标题信息和版权信息。

图8(a)示出了样式(TTS：TTML样式)的结构。另外，除了标识符(id)之外，样式还包括区域(Region)的信息，例如，位置、大小、颜色(颜色)、字体(fontFamily)、字体大小(fontSize)、文本对齐(textAlign)等。

“tts：origin”指定作为用像素数表示的字幕显示区域的区域(Region)的起始位置。在这个示例中，“tts：“origin480px 600px””表示起始位置是(480,600)(见箭头P)，如图8(b)所示。此外，“tts：extent”指定从起始位置开始具有水平和垂直偏移像素数的区域的结束位置。在这个示例中，“tts：extent“560px 350px””表示结束位置是(480+560,600+350)(见箭头Q)，如图8(b)所示。此处，偏移像素编号对应于该区域的水平和垂直尺寸。

“tts：opacity＝“1.0””表示字幕(字幕)和背景视频的混合比例。例如，“1.0”表示字幕为100％，背景视频为0％，“0.1”表示字幕(字幕)为0％，背景视频为100％。在所示的示例中，设置“1.0”。

图9示出样式扩展(TTML样式扩展)的示例性结构。除了标识符(id)之外，样式扩展还包括色域(颜色空间)的信息、动态范围(动态范围)。色域信息指定要用于字幕的色域。所示的示例表示设置了“ITUR2020”。动态范围信息指定要用于字幕的动态范围是SDR还是HDR。所示的示例表示设置了SDR。

图10示出了布局的示例性结构(区域：TTML布局)。除了要放置字幕的区域的标识符(id)之外，布局还包括例如，偏移(填充)、背景颜色(backgroundColor)、对齐(displayAlign)等信息。

图11示出了主体(主体)的示例性结构。在所示的示例中，包括字幕1(字幕1)、字幕2(字幕2)和字幕3(字幕3)这三个字幕的信息。在每个字幕中，除了显示开始时间和显示结束时间之外，还写入文本数据。例如，关于字幕1(字幕1)，显示开始时间设置为“T1”，显示结束时间设置为“T3”，并且文本数据设置为“ABC”。

返回参考图2，字幕编码器108将在文本格式转换单元107中获得的TTML转换成各种类型的分段，并且生成由在其有效载荷中提供分段的PES报文构成的字幕流SS。

图12示出了PES报文的示例性配置。PES报头(PES报头)包括显示时间戳(PTS)。PES数据有效载荷(PES数据有效载荷)包括APTS(abstract_parameter_TimedText_segment)、THMS(text_header_metadata_segment)，THSS(文本标题样式段)，THSES(text_header_styling_extension_segment)、THLS(text_header_layout_segment)和TBS(text_body_segment)的分段。

此处，PES有效载荷数据(PES数据有效载荷)可以包括APTS(abstract_parameter_TimedText_segment)、THAS(text_header_all_segment)和TBS(text_body_segment)的分段。此外，PES数据有效载荷(PES数据有效载荷)可以包括APTS(abstract_parameter_TimedText_segment)和TWS(text_whole_segment)的分段。

图13示出了PES内部的分段接口。“PES_data_field”表示PES报文中的PES数据有效载荷的容器部分。“data_identifier”中的8位字段表示识别要在上述容器部分中传输的数据的类型的ID。假定传统的字幕(在位图的情况下)由“0x20”表示，并且在文本的情况下，可以使用例如新的值“0x21”来标识。

“subtitle_stream_id”中的8位字段指示识别字幕流的类型的ID。在用于传输文本信息的字幕流的情况下，可以设置例如新值“0x01”，以与用于传输传统位图的字幕流“0x00”区分。

在“TimedTextSubtitling_segments()”字段中，提供了一组分段。图14示出了在PES数据有效载荷中提供APTS(abstract_parameter_TimedText_segment)、THMS(text_header_metadata_segment)，THSS(文本标头样式段)、THSES(text_header_styling_extension_segment)、THLS(text_header_layout_segment)和TBS(text_header_layout_segment_segment)的分段的情况下的“TimedTextSubtitling_segments text_body_segment)的示例性结构。

图15(a)示出了在PES数据有效载荷中提供APTS(abstract_parameter_TimedText_segment)、THAS(text_header_all_segment)和TBS(text_body_segment)的分段的情况下的“TimedTextSubtitling_segments()”的示例性结构。图15(b)示出了在PES数据有效载荷中提供APTS(abstract_parameter_TimedText_segment)和TWS(text_whole_segment)的分段的情况下的“TimedTextSubtitling_segments()”的示例性结构。

此处，是否将每个分段插入字幕流是灵活的，并且例如在除了显示字幕之外没有变化的情况下，仅包括APTS(abstract_parameter_TimedText_segment)和TBS(text_body_segment)的两个分段。在这两种情况下，在PES数据有效载荷中，首先提供具有摘要信息的APTS分段，随后是其他分段。采用这种安排，在接收侧，可以容易和有效地从字幕流中提取摘要信息的分段。

图16(a)示出了THMS(文本标题_元数据_段)的示例性结构(语法)。该结构包括“sync_byte”、“segment_type”、“page_id”、“segment_length”、“thm_version_number”和“segment_payload()”的信息。“segment_type”是指示分段类型的8位数据，并且在这种情况下，例如设置为指示THMS的“0x20”。“segment_length”是指示分段的长度(大小)的8位数据。在“segment_payload()”中，提供如图16(b)所示的元数据，作为XML信息。该元数据与TTML报头(头部)中的元数据(元数据)的元素相同(见图7)。

图17(a)示出THSS(text_header_styling_segment)的示例性结构(语法)。该结构包括“sync_byte”、“segment_type”、“page_id”、“segment_length”、“ths_version_number”和“segment_payload()”的信息。例如，“segment_type”是指示分段类型的8位数据，并且在这种情况下，设置为指示THSS的“0x21”。“segment_length”是指分段的长度(大小)的8位数据。在“segment_payload()”中，提供如图17(b)所示的元数据，作为XML信息。该元数据与TTML报头(头部)中的样式(样式)的元素相同(见图8(a))。

图18(a)示出了THSES(text_header_styling_extension_segment)的示例性结构(语法)。该结构包括“sync_byte”、“segment_type”、“page_id”、“segment_length”、“thse_version_number”和“segment_payload()”的信息。例如，“segment_type”是指示分段类型的8位数据，并且在这种情况下，设置为指示THSES的“0x22”。“segment_length”是指示分段的长度(大小)的8位数据。在“segment_payload()”中，提供如图18(b)所示的元数据，作为XML信息。该元数据与TTML报头(头部)中的样式扩展(styling_extension)的元素相同(见图9(a))。

图19(a)示出了THLS(text_header_layout_segment)的示例性结构(语法)。该结构包括“sync_byte”、“segment_type”、“page_id”、“segment_length”、“thl_version_number”和“segment_payload()”的信息。在这种情况下，“segment_type”是指示分段类型的8位数据，并设置为指示THLS的“0x23”。“segment_length”是指示分段的长度(大小)的8位数据。在“segment_payload()”中，提供如图19(b)所示的元数据，作为XML信息。该元数据与TTML报头(头部)中的布局(布局)的元素相同(见图10)。

图20(a)示出了TBS(文本人体分段)的示例性结构(语法)。该结构包括“sync_byte”、“segment_type”、“page_id”、“segment_length”、“tb_version_number”和“segment_payload()”的信息。例如，“segment_type”是指示分段类型的8位数据，并且在这种情况下，设置为指示TBS的“0x24”。在“segment_payload()”中，提供如图20(b)所示的元数据，作为XML信息。该元数据与TTML主体(主体)相同(见图11)。

图21(a)示出了THAS(text_header_all_segment)的示例性结构(语法)。该结构包括“sync_byte”、“segment_type”、“page_id”、“segment_length”、“tha_version_number”和“segment_payload()”的信息。“segment_type”是指示分段类型的8位数据，并且例如在这种情况下，设置为指示THAS的“0x25”。“segment_length”是指示分段的长度(大小)的8位数据。在“segment_payload()”中，提供如图21(b)所示的元数据，作为XML信息。该元数据是整个报头(头部)。

图22(a)示出了TWS(文本整体分段)的示例性结构(语法)。该结构包括“sync_byte”、“segment_type”、“page_id”、“segment_length”、“tw_version_number”和“segment_payload()”的信息。例如，“segment_type”是指示分段类型的8位数据，并且在这种情况下，设置为指示TWS的“0x26”。“segment_length”是指示分段的长度(大小)的8位数据。在“segment_payload()”中，提供如图22(b)所示的元数据，作为XML信息。该元数据是整个TTML(见图5)。这个结构是维护整个TTML的兼容性的结构，并且在一个分段中提供整个TTML。

以这种方式，如图22(b)所示，在TTML的所有元素都在单个分段中传输的情况下，在元素的层中插入“ttnew：sequentialinorder”和“ttnew：partialupdate”两个新元素。注意，这些新元素不一定要同时插入。

“ttnew：sequentialinorder”组成与TTML传输顺序有关的信息。这个“ttnew：sequentialinorder”位于<head>的前面。“ttnew：sequentialinorder＝true(＝1)”表示存在与传输顺序有关的限制。在这种情况下，在<head>中表示依次提供了<metadata>、<styling>、<styling extension>和<layout>，然后是“<div>和<p>text</p></div>”，这些包含在<body>中。此处，在<styling extension>不存在的情况下，顺序是<metadata>、<styling>和<layout>。另一方面，“ttnew：sequentialinorder＝false(＝0)”表示不存在上述限制。

由于以这种方式插入“ttnew：sequenceinorder”的元素，所以可以在接收侧识别TTML传输的顺序，并且这有助于确认按照预定顺序执行TTML传输，简化了直到解码的过程，并且甚至在一次传输TTML的所有元素的情况下，也有效地执行解码处理。

此外，“ttnew：partialupdate”组成与是否存在TTML的更新有关的信息。这个“ttnew：partialupdate”位于<head>的前面。“ttnew：partialupdate＝true(＝1)”用于表示在<body>之前的<head>中有一个元素更新。另一方面，“ttnew：partialupdate＝false(＝0)”用于表示没有上述更新。由于以这种方式插入“ttnew：sequentialinorder”的元素，接收侧可以容易地识别是否存在TTML的更新。

此处，已经描述了在元素层中插入“ttnew：sequentialinorder”和“ttnew：partialupdate”两个新元素的示例。然而，可以考虑一个示例，如图23(a)所示，那些新的元素被插入到分段的层中。图23(b)示出在这种情况下在“segment_payload()”中提供的元数据(XML信息)。

(APTS(abstract_parameter_TimedText_segment)的分段)

此处将描述APTS(abstract_parameter_TimedText_segment)的分段。APTS部分包含摘要信息。摘要信息包括与由TTML指示的多个信息中的一部分有关的信息。

图24和25示出了APTS(abstract_parameter_TimedText_segment)的示例性结构(语法)。图26和图27示出了示例性结构中的主要信息的内容(语义)。与其他分段类似，该结构包括“sync_byte”、“segment_type”、“page_id”和“segment_length”的信息。“segment_type”是指示分段类型的8位数据，并且例如在这种情况下，设置为指示APTS的“0x19”。“segment_length”是指示分段的长度(大小)的8位数据。

“APT_version_number”中的4位字段指示APTS(abstract_parameter_TimedText_segment)中的元素是否存在与先前传输的内容相比的变化，并且在存在变化的情况下，其值增加1。“TTM_version_number”中的4位字段指示THMS(text_header_metadata_segment)中的元素是否存在与先前传输的内容相比的变化，并且在存在变化的情况下，其值增加1。“TTS_version_number”中的4位字段指示THSS(text_header_styling_segment)中的元素是否存在与先前传输的内容相比的变化，并且在存在变化的情况下，其值增加1。

“TTSE_version_number”中的4位字段指示THSES(text_header_styling_extension_segment)中的元素是否存在与先前传输的内容相比的变化，并且在存在变化的情况下，其值增加1。“TTL_version_number”中的4位字段指示THLS(text_header_layout_segment)中的元素是否存在与先前传输的内容相比的变化，并且在存在变化的情况下，其值增加1。

“TTHA_version_number”中的4位字段指示THAS(text_header_all_segment)中的元素是否存在与先前传输的内容相比的变化，并且在存在变化的情况下，其值增加1。“TW_version_number”中的4位字段指示TWS(文本整体分段)中的元素是否存在与先前传输的内容相比的变化，并且在存在变化的情况下，其值增加1。

“subtitle_display_area”中的4位字段指定字幕显示区域(字幕区域)。例如，“0x1”指定640h*480v，“0x2”指定720h*480v，“0x3”指定720h*576v，“0x4”指定1280h*720v，“0x5”指定1920h*1080v，“0x6”指定3840h*2160v，“0x7”指定7680h*4320v。

“subtitle_color_gamut_info”中的4位字段指定要用于字幕的色域。“subtitle_dynamic_range_info”中的4位字段指定要用于字幕的动态范围。例如，“0x1”表示SDR，“0x2”表示HDR。在为字幕指定HDR的情况下，假设指示字幕的亮度级别抑制为等于或低于视频的参考白色级别。

“target_video_resolution”中的4位字段指定视频的假定分辨率。例如，“0x1”指定640h*480v，“0x2”指定720h*480v，“0x3”指定720h*576v，“0x4”指定1280h*720v，“0x5”指定1920h*1080v，“0x6”指定3840h*2160v，“0x7”指定7680h*4320v。

“target_video_color_gamut_info”中的4位字段指定视频的假定色域。例如，“0x1”指定“BT.709”，“0x2”指定“BT.2020”。“target_video_dynamic_range_info”中的4位字段指定视频的假定动态范围。例如，“0x1”指定“BT.709”，“0x2”指定“BT.202x”，“0x3”指定“Smpte 2084”。

“number_of_regions”中的4位字段指定了多个区域。根据区域的数量，重复提供以下字段。“region_id”中的16位字段表示区域的ID。

“start_time_offset”中的8位字段指示字幕显示开始时间作为与PTS的偏移值。“start_time_offset”的偏移值是带符号的值，并且负值表示在比PTS早的时间开始显示。在该“start_time_offset”的偏移值为0的情况下，表示在PTS的时间开始显示。8位表达式中的值精确到第一个小数位，这是通过将代码值除以10来计算的。

“end_time_offset”中的8位字段指示字幕显示结束时间作为从“start_time_offset”的偏移值。这个偏移值表示一个显示周期。当上述“start_time_offset”的偏移值为零时，显示在“end_time_offset”的偏移值添加到PTS的值的时间处结束。8位表达式的值精确到第一个小数位，这是通过将代码值除以10来计算的。

此处，“start_time_offset”和“end_time_offset”可以以与PTS相同的90kHz的精度传输。在这种情况下，对于“start_time_offset”和“end_time_offset”的各个字段，保持32位的空间。

如图28所示，在TTML转换为分段(Segment)的情况下，字幕编码器108基于包括在TTML的主体(主体)中的每个字幕的显示开始时间以及显示结束时间(结束)的描述来参考系统时间信息(PCR，视频/音频同步时间)(开始)，并且设置每个字幕的“PTS”、“start_time_offset”和“end_time_offset”。在这种情况下，在验证正确执行接收侧中的操作时，字幕编码器108可以通过使用解码器缓冲器模型来设置“PTS”、“start_time_offset”和“end_time_offset”。

“region_start_horizontal”中的16位字段表示由上述“subtitle_display_area”指定的字幕显示区域中的区域的左上角(见图8(b)中的点P)的水平像素位置。“region_start_vertical”中的16位字段指示字幕显示区域中的区域的左上角的垂直像素位置。“region_end_horizontal”中的16位字段表示字幕显示区域中的区域的右下角(见图8(b)中的点Q)的水平像素位置。“region_end_vertical”中的16位字段指示字幕显示区域中的区域的右下角的垂直像素位置。

返回参照图2，系统编码器109生成包括在视频编码器105中生成的视频流VS和在字幕编码器108中生成的字幕流SS的传输流TS。传输单元110通过电波或网络上的报文将传输流TS传输到接收装置200。

将简要描述图2的传输装置100的操作。在相机102中捕捉并获得的视频数据(图像数据)提供给视频光电转换单元103。视频光电转换单元103对在相机102中获得的视频数据执行光电转换，并获得传输视频数据V1。

在这种情况下，在视频数据是SDR视频数据的情况下，应用SDR光电转换特性来执行光电转换，并且获得SDR传输视频数据(具有SDR光电转换特性的传输视频数据)。另一方面，在视频数据是HDR视频数据的情况下，应用HDR光电转换特性来执行光电转换，并且获得HDR传输视频数据(具有HDR光电转换特性的传输视频数据)。

在视频光电转换单元103中获得的传输视频数据V1从RGB域转换成RGB/YCbCr转换单元104中的YCbCr(亮度/色度)域，然后提供给视频编码器105。视频编码器105例如用MPEG4-AVC、HEVC等编码传输视频数据V1，并生成包括编码视频数据的视频流(PES流)VS。

此外，视频编码器105在访问单元(AU)中的SPS NAL单元的VUI区域中插入指示与传输视频数据V1的光电转换特性对应的电光转换特性的信息(传递函数)、指示传输视频数据V1的色域的信息以及表示参考级别的信息等元信息。

此外，视频编码器105在访问单元(AU)的部分“SEI”中插入新定义的动态范围/SEI消息(见图4)，该动态范围/SEI消息具有元信息，例如，指示与传输视频数据V1的光电转换特性相对应的电光转换特性的信息(传递函数)和参考级别的信息。

字幕生成单元106生成作为字幕信息的文本数据(字符代码)DT。文本数据DT提供给文本格式转换单元107。文本格式转换单元107将文本数据DT转换为具有TTML(见图3和4)的显示时机信息的字幕文本信息。TTML提供给字幕编码器108。

字幕编码器108将在文本格式转换单元107中获得的TTML转换成各种类型的分段，并且生成由包括提供这些分段的有效载荷的PES报文构成的字幕流SS。在这种情况下，在PES报文的有效载荷中，首先提供具有摘要信息的APTS分段(见图24至27)，随后是具有字幕文本信息的分段(见图12)。

将在视频编码器105中生成的视频流VS提供给系统编码器109。在字幕编码器108中生成的字幕流SS提供给系统编码器109。系统编码器109生成包括视频流VS和字幕流SS的传输流TS。传输流TS由传输单元110通过电波或网络上的报文传输到接收装置200。

(接收装置的示例性配置)

图29示出了接收装置200的示例性配置。接收装置200包括控制单元201、用户操作单元202、接收单元203、系统解码器204、视频解码器205、字幕解码器206、色域/亮度级别转换单元207和位置/大小转换单元208。此外，接收装置200包括视频叠加单元209、YCbCr/RGB转换单元210、电光转换单元211、显示映射单元212和CE显示器213。

控制单元201具有中央处理单元(CPU)并且基于控制程序来控制接收装置200中的每个单元的操作。用户操作单元202是诸如观看者等用户执行各种操作而使用的开关、触摸面板、遥控传输单元等。接收单元203通过电波或网络上的报文接收从传输装置100传输的传输流TS。

系统解码器204从传输流TS中提取视频流VS和字幕流SS。此外，系统解码器204提取插入在传输流TS(容器)中的各种类型的信息，并将该信息传输到控制单元201。

视频解码器205对在系统解码器204中提取的视频流VS执行解码处理，并输出传输视频数据V1。此外，视频解码器205提取插入在组成视频流VS的每个访问单元中的参数集合和SEI消息，并将参数集合和SEI消息传输到控制单元201。

在SPS NAL单元的VUI区域中，插入指示与传输视频数据V1的光电转换特性相对应的电光转换特性的信息(传递函数)、指示传输视频数据V1的色域的信息、以及指示参考级别的信息等。此外，SEI消息还包括的动态范围/SEI消息(见图4)，该消息包括指示与传输视频数据V1的光电转换特性对应的电光转换特性的信息(传递函数)、参考级别的信息等。

字幕解码器206处理包括在字幕流SS中的每个区域中的分段数据，并输出要叠加在视频数据上的每个区域中的位图数据。此外，字幕解码器206提取包括在APTS分段中的摘要信息，并将该摘要信息传输到控制单元201。

摘要信息包括字幕显示时机信息、字幕显示控制信息(显示位置的信息、色域和字幕的动态范围)以及对象视频信息(分辨率、色域和动态范围的信息)等。

此处，由于字幕的显示时机信息和显示控制信息包括在APTS之外的分段“segment_payload()”中提供的XML信息中，所以可以通过扫描XML信息来获得字幕的显示时机信息和显示控制信息；然而，字幕的显示时机信息和显示控制信息可以通过仅从APTS分段提取摘要信息而容易地获得。此处，可以从视频流VS的系统获得主题视频的信息(分辨率、色域和动态范围的信息)；然而，只有通过从APTS分段中提取摘要信息才能容易地获得主题视频的信息。

图30示出了字幕解码器206的示例性配置。字幕解码器206包括编码缓冲器261、字幕段解码器262、字体展开单元263和位图缓冲器264。

编码缓冲器261临时存储字幕流SS。字幕段解码器262在预定时间对存储在编码缓冲器261中的每个区域中的分段数据执行解码处理，并获得每个区域的文本数据和控制码。

字体展开单元263基于由字幕段解码器262获得的每个区域的文本数据和控制码来展开字体，并且获得每个区域的字幕位图数据。在这种情况下，字体展开单元263使用例如包含在摘要信息中的位置信息(“region_start_horizontal”、“region_start_vertical”、“region_end_horizontal”和“region_end_vertical”)作为每个区域的位置信息。

在RGB域中获得字幕位图数据。此外，假定字幕位图数据的色域对应于包含在摘要信息中的字幕色域信息所指示的色域。此外，假定字幕位图数据的动态范围对应于包含在摘要信息中的字幕动态范围信息所指示的动态范围。

例如，在动态范围信息是“SDR”的情况下，假定字幕位图数据具有SDR的动态范围，并且在应用SDR光电转换特性时已经执行了光电转换。此外，例如，在动态范围信息是“HDR”的情况下，假定字幕位图数据具有HDR的动态范围，并且在应用HDR光电转换特性时已经执行了光电转换。在这种情况下，假定叠加在HDR视频上，亮度级别限制到HDR参考级别。

位图缓冲器264临时存储由字体显现单元263获得的每个区域的位图数据。从显示开始时间读取存储在位图缓冲器264中的每个区域的位图数据并叠加在图像数据上，并且该过程仅在显示期间继续。

此处，字幕段解码器262从PES报文的PES报头中提取PTS。此外，字幕段解码器262从APTS分段提取摘要信息。这些信息传输到控制单元201。控制单元201基于PTS和包括在摘要信息中的“start_time_offset”和“end_time_offset”的信息，控制从位图缓冲器264中读取每个区域的位图数据的时间。

返回参考图29，在控制单元201的控制下，色域/亮度级别转换单元207基于字幕位图数据的色域信息(“subtitle_color_gamut_info”)和视频数据的色域信息(“target_video_color_gamut_info”)，来修改字幕位图数据的色域，以适应视频数据的色域。此外，在控制单元201的控制下，色域/亮度级别转换单元207基于字幕位图数据的动态范围信息(“subtitle_dynamic_range_info”)和视频数据的动态范围信息(“target_video_dynamic_range_info”)，将字幕位图数据的亮度级别的最大级别调整为低于视频数据的亮度级别的参考级别。

图31示出了色域/亮度级别转换单元207的示例性配置。色域亮度级别转换单元210包括电光转换单元221、色域转换单元222、光电转换单元223、RGB/YCbCr转换单元224和亮度级别转换单元225。

电光转换单元221对输入的字幕位图数据执行光电转换。此处，在字幕位图数据的动态范围是SDR的情况下，电光转换单元221在应用SDR电光转换特性时执行电光转换，以生成线性状态。此外，在字幕位图数据的动态范围是HDR的情况下，电光转换单元221在应用HDR电光转换特性时执行电光转换，以生成线性状态。此处，输入字幕位图数据可以在没有光电转换的情况下处于线性状态。在这种情况下，不需要电光转换单元221。

色域转换单元222修改从电光转换单元221输出的字幕位图数据的色域，以适应视频数据的色域。例如，在字幕位图数据的色域是“BT.709”并且视频数据的色域是“BT.2020”的情况下，字幕位图数据的色域从“BT.709”转换为“BT.2020”。此处，在字幕位图数据的色域与视频数据的色域相同的情况下，色域转换单元222实际上不执行任何处理并按原样输出输入的字幕位图数据。

当应用与应用于视频数据的光电转换特性相同的光电转换特性时，光电转换单元223对从色域转换单元222输出的字幕位图数据执行光电转换。RGB/YCbCr转换单元224将从光电转换单元223输出的字幕位图数据从RGB域转换为YCbCr(亮度/色度)域。

亮度级别转换单元225通过调整从RGB/YCbCr转换单元224输出的字幕位图数据来获得输出位图数据，使得字幕位图数据的亮度级别的最大级别等于或低于视频数据的亮度参考级别或参考白色级别。在这种情况下，在考虑到对HDR视频的渲染而已经调整了字幕位图数据的亮度级别的情况下，如果视频数据是HDR，则实际上照原样输出输入字幕位图数据，而不执行任何处理。

图32示出了包括在亮度级别转换单元225中的亮度级别信号Y的构件225Y的示例性配置。构件225Y包括编码像素位深度调整单元231和级别调整单元232。

编码像素位深度调整单元231修改字幕位图数据的亮度级别信号Ys的编码像素位深度，以适应视频数据的编码像素位深度。例如，在亮度级别信号Ys的编码像素位深度为“8位”且视频数据的编码像素位深度为“10位”的情况下，亮度级别信号Ys的编码像素位深度从“8位”转换到“10位”。级别调整单元232通过调整亮度级别信号Ys来生成输出亮度级别信号Ys'，其中，使编码像素位深度拟合，使得亮度级别信号Ys的最大级别变成等于或低于亮度视频数据的参考级别或参考白色级别。

图33示意性地示出了图32所示的构件225Y的操作。所示的示例是视频数据是HDR的情况。参考级别(参考级别)对应于非明亮部分和明亮部分之间的边界。

在使编码像素位深度拟合之后，参考级别存在于亮度级别信号Ys的最大级别(sc_high)与最小级别(sc_low)之间。在这种情况下，最大级别(sc_high)被调整为等于或低于参考级别。此处，在这种情况下，例如采用缩小到线性状态的方法，因为剪切的方法导致纯白色图案。

在通过以这种方式调整亮度级别信号Ys的级别来将字幕位图数据叠加在视频数据上的情况下，由于避免了在背景视频上明亮地显示字幕，所以可以保持高的图像质量。

此处，上面的描述已经描述了包括在亮度级别转换单元225中的亮度级别信号Ys的构件225Y(见图32)。在亮度级别转换单元225中，仅对色度信号Cb和Cr执行用于调整编码像素位深度以适应视频数据的编码像素位深度的过程。例如，假定由位宽度表示的整个范围为100％，其中值设置为参考，并且执行从8位空间到10位空间的转换，使得幅度具有相对于参考值在正方向具有50％，并且在负方向具有50％。

返回参考图29，在控制单元201的控制下，位置/大小转换单元208对在色域/亮度级别转换单元207中获得的字幕位图数据执行位置转换处理。在字幕的对应分辨率(由subtitle_display_area的信息表示)与视频的分辨率(“target_video_resolution”)不同的情况下，位置/大小转换单元208执行字幕位置转换，以在背景视频中的适当位置中显示字幕。

例如，将说明字幕与HD分辨率兼容并且视频具有UHD分辨率的情况。在这种情况下，UHD分辨率超过了HD分辨率，包括4K分辨率或8K分辨率。

图34(a)示出了视频具有UHD分辨率并且字幕与HD分辨率兼容的情况的示例。字幕显示区域由图中的“字幕区域”表示。假定“字幕区域”和视频之间的位置关系由其参考位置表示，该参考位置是共享其左上角(左上角)的表达式。该区域的起点的像素位置是(a，b)，终点的像素位置是(c，d)。在这种情况下，由于背景视频的分辨率大于字幕的相应分辨率，所以背景视频上的字幕显示位置从制作者期望的位置向右移动。

图34(b)示出了执行位置转换处理的情况的示例。假定作为字幕显示区域的区域的起点的像素位置是(a'，b')并且其终点的像素位置是(c'，d')。在这种情况下，由于位置转换之前的区域的位置坐标是HD显示区域中的坐标，所以根据与视频屏幕帧的关系，基于UHD分辨率与HD分辨率的比率，位置坐标转换为UHD显示区域中的坐标。此处，在这个示例中，字幕大小转换处理也与位置转换同时进行。

进一步，在控制单元201的控制下，位置/大小转换单元208响应于诸如观看者等用户的操作或者自动基于例如视频分辨率和对应的字幕分辨率之间的关系，来对在色域/亮度级别转换单元207中获得的字幕位图数据执行字幕大小转换处理。

如图35(a)所示，与视频分辨率成比例确定从显示区域的中心位置(dc：显示中心)到该区域(区域)的中心位置(即，将该区域在水平和垂直方向上分成两个的点(区域中心位置：rc))的距离。例如，在HD被视为视频分辨率并且基于字幕显示区域的中心位置dc来定义区域的中心位置rc并且视频分辨率是4K(＝3840×2160)的情况下，控制位置，使得从dc到rc的距离变成像素数的两倍。

如图35(b)所示，在区域(Region)的大小从r_org(区域00)变为r_mod(区域01)的情况下，起始位置(rsx1，rsy1)和结束位置(rex1，rey1)分别被修改为起始位置(rsx2，rsy2)和结束位置(rex2，rey2)，使得满足Ratio＝(r_mod/r_org)。

换言之，从rc到(rsx2，rsy2)的距离与从rc到(rsx1，rsy1)的距离之间的比例以及从rc到(rex2，rey2)的距离与从rc到(rex1，rey1)之间的比例被调整为对应于比率。由于甚至在执行尺寸转换之后，该区域的中心位置rc也保持在相同的位置，所以这允许在维持整个显示区域的相对位置关系时执行字幕(区域)的尺寸转换。

再参照图29，视频叠加单元209将从位置/大小转换单元208输出的字幕位图数据叠加在从视频解码器205输出的传输视频数据V1上。在这种情况下，视频叠加单元209基于由字幕解码器206获得的混合比率信息(混合数据)所指示的混合比率，将字幕位图数据和传输视频数据V1组合。

YCbCr/RGB转换单元210将其上叠加了字幕位图数据的传输视频数据V1'从YCbCr(亮度/色度)域转换为RGB域。在这种情况下，YCbCr/RGB转换单元210基于色域信息通过使用与色域相对应的转换等式来执行转换。

在应用与对其对其应用的光电转换特性对应的电光转换特性时，电光转换单元211通过对转换为RGB域的传输视频数据V1'执行电光转换，获得用于显示图像的显示视频数据。显示映射单元212根据CE显示器213的最大亮度级别显示性能来调整显示视频数据上的显示亮度级别。CE显示器213基于显示视频数据来显示图像，在该显示视频数据上显示亮度进行水平调整。CE显示器213例如由液晶显示器(LCD)、有机电致发光显示器(有机EL显示器)等组成。

将简要描述图29中所示的接收装置200的操作。接收单元203接收通过无线电波或网络上的报文从传输装置100传输的传输流TS。传输流TS提供给系统解码器204。系统解码器204从传输流TS中提取视频流VS和字幕流SS。此外，系统解码器204提取插入在传输流TS(容器)中的各种类型的信息并将该信息传输到控制单元201。

从系统解码器204提取的视频流VS提供给视频解码器205。视频解码器205对视频流VS执行解码处理，并获得传输视频数据V1。此外，视频解码器205提取插入到组成视频流VS的每个访问单元的参数集合和SEI消息，并将参数集合和SEI消息传输到控制单元201。

在SPS NAL单元的VUI区域中，插入指示与传输视频数据V1的光电转换特性相对应的电光转换特性的信息(传递函数)、指示传输视频数据V1的色域的信息以及指示参考级别的信息。此外，SEI消息还包括具有指示与传输视频数据V1的光电转换特性相对应的电光转换特性的信息(传递函数)、参考级别的信息等动态范围/SEI消息(见图4)。

在系统解码器204中提取的字幕流SS提供给字幕解码器206。字幕解码器206对包括在字幕流SS中的每个区域的分段数据执行解码处理，并且获得叠加在视频数据上的每个区域的字幕位图数据。

此外，字幕解码器206提取包括在APTS分段中的摘要信息(见图24和25)，并将该摘要信息传输到控制单元201。摘要信息包括字幕显示时机信息、字幕显示控制信息(字幕显示位置、色域和动态范围)以及主题视频信息(分辨率、色域和动态范围的信息)等。

在控制单元201的控制下，在字幕解码器206中，由控制单元201基于包括在例如摘要信息中的字幕显示时机信息(“start_time_offset”和“end_time_offset”)，来控制每个区域的字幕位图数据的输出时间。

由字幕解码器206获得的每个区域的字幕位图数据提供给色域/亮度级别转换单元207。在控制单元201的控制下，色域/亮度级别转换单元207基于例如包含在摘要信息中的色域信息(“subtitle_color_gamut_info”和“target_video_color_gamut_info”)来修改字幕位图数据的色域，以适合视频数据的色域。

此外，在控制单元201的控制下，色域/亮度级别转换单元207基于例如包含在摘要信息中的动态范围信息(“subtitle_dynamic_range_info”和“target_video_dynamic_range_info”)来将字幕位图数据的最大亮度级别调整为等于或低于视频数据的参考亮度级别。

由色域/亮度级转换单元207获得的每个区域的字幕位图数据提供给位置/大小转换单元208。在控制单元201的控制下，位置/大小转换单元208例如基于包含在摘要信息中的分辨率信息(“subtitle_display_area”和“target_video_resolution”)在每个区域的字幕位图数据上执行位置转换处理。

此外，在控制单元201的控制下，位置/大小转换单元208响应于诸如观看者等用户的操作或者自动基于例如视频分辨率和对应的字幕分辨率之间的关系，来对色域/亮度级别转换单元207获得的字幕位图数据执行字幕大小转换处理。

将由视频解码器204获得的传输视频数据V1提供给视频叠加单元209。此外，由位置/大小转换单元208获得的每个区域的字幕位图数据提供给视频叠加单元209。视频叠加单元209将每个区域的字幕位图数据叠加在传输视频数据V1上。在这种情况下，基于由混合比率信息(混合数据)指示的混合比率来混合字幕位图数据。

在视频叠加单元209中获得并且在其上叠加了每个区域的字幕位图数据的传输视频数据V1'在YCbCr/RGB转换单元210中从YCbCr(亮度/色度)域转换为RGB域并提供给电光转换单元211。在应用与对其应用的光电转换特性对应的电光转换特性时，电光转换单元211通过对传输视频数据V1'执行电光转换来获得用于显示图像的显示视频数据。

显示视频数据提供给显示映射单元212。显示映射单元212根据CE显示器213的最大亮度级别显示性能来调整显示视频数据的显示器亮度级别。调整显示器亮度级别的显示视频数据提供给CE显示器213。在CE显示器213上，基于显示视频数据显示图像。

如上所述，在图1所示的传输/接收系统10中，在字幕流中包括对应于文本信息的字幕文本信息和摘要信息。因此，接收侧可以基于摘要信息执行显示字幕的处理，并且这减轻了处理负荷。

在这种情况下，在接收侧，由于处理负荷减小，所以可以容易地处理字幕显示相对较快地改变的时间序列显示控制。例如，考虑如图36(a)至(f)所示字幕显示改变的情况。

在这种情况下，首先，例如，如图37(a)所示，传输字幕流SS，包括PES报文，该PES报文具有提供APTS(abstract_parameter_TimedText_segment)和TBS(文本主体部分)的分段的PES数据有效载荷。接收侧基于包括在APTS分段中的TBS分段数据和区域位置信息(Region_position)，生成用于在区域“区域r1”的位置上显示“ABC”的字母的字幕位图数据。

然后，接收侧基于包含在APTS分段中的PTS1和显示时机信息(STS1、ETS1)，从显示开始时间T1到显示结束时间T3输出位图数据。利用该配置，在接收侧，如图36所示，在从T1到T3的屏幕上连续显示“ABC”的字母。

接下来，例如，如图37(b)所示，传输字幕流SS，包括PES报文，该PES报文具有提供APTS(abstract_parameter_TimedText_segment)和TBS(文本主体部分)的分段的PES数据有效载荷。接收侧基于包括在APTS分段中的TBS分段数据和区域位置信息(Region_position)，生成用于在区域“区域r2”的位置上显示“DEF”的字母的字幕位图数据。

然后，接收侧基于APTS分段的PTS2和显示时机信息(STS2、ETS2)，从显示开始时间T2到显示结束时间T5输出位图数据。利用该配置，在接收侧，如图36所示，在从T2到T5的屏幕上连续显示“DEF”的字母。

接下来，例如，如图37(c)所示，传输字幕流SS，包括PES报文，该PES报文具有提供APTS(abstract_parameter_TimedText_segment)和TBS(文本主体部分)的分段的PES数据有效载荷。接收侧基于包括在APTS分段中的TBS分段数据和区域位置信息(Region_position)，生成用于在区域“区域r3”的位置上显示“GHI”的字母的字幕位图数据。

然后，接收侧基于包括在APTS分段中的PTS3和显示时机信息(STS3、ETS3)，从显示开始时间T4到显示结束时间T6输出位图数据。利用该配置，在接收侧，如图36所示，在从T4到T6的屏幕上连续显示“GHI”的字母。

<2、修改示例>

注意，上述实施例已经描述了TTML用作具有显示时机信息的预定格式的字幕文本信息的示例。然而，本技术不限于该示例，并且可以使用具有与TTML相关的信息的其他时间文本信息。例如，可以使用与TTML相关的格式。

此外，上述实施例已经描述了容器是传输流(MPEG-2TS)的示例。然而，不限于MPEG-2TS容器，并且本技术可以类似地用例如MMT或ISOBMFF等其他格式的容器来实现。

此外，上述实施例已经描述了在分段中包括并在PES报文的PES数据有效载荷中提供TTML和摘要信息的示例。然而，根据本技术，可以认为TTML和摘要信息直接提供给PES数据有效载荷。

此外，上述实施例已经描述了包括传输装置100和接收装置200的传输/接收系统10；然而，应用本技术的传输/接收系统的配置不限于该示例。例如，接收装置200的一部分可以具有经由诸如高清晰度多媒体接口(HDMI)等数字接口连接的机顶盒和显示器的配置。注意，“HDMI”是注册商标。

此外，本技术可以具有以下配置。

(1)一种传输装置，包括：

视频编码器，被配置为生成包括编码的视频数据的视频流；

(2)根据(1)所述的传输装置，其中，所述摘要信息包括字幕显示时机信息。

(3)根据(2)所述的传输装置，其中，所述字幕显示时机信息具有显示开始时间和显示时段的信息。

(4)根据(3)所述的传输装置，其中，

所述字幕流由包括PES报头和PES有效载荷的PES报文组成，

所述字幕文本信息和所述摘要信息设置在PES有效载荷中，并且

所述显示开始时间表示为与插入在PES报头中的PTS的显示偏移。

(5)根据(1)到(4)中任一项所述的传输装置，其中，所述摘要信息包括用于控制字幕显示状态的显示控制信息。

(6)根据(5)所述的传输装置，其中，所述显示控制信息包括所述字幕的显示位置、色域和动态范围中的至少一个的信息。

(7)根据(6)所述的传输装置，其中，所述显示控制信息还包括对象视频信息。

(8)根据(1)到(7)中任一项所述的传输装置，其中，所述摘要信息包括用于提供所述字幕文本信息的元素具有变化的通知的通知信息。

(9)根据(1)到(8)中任一项所述的传输装置，其中，所述字幕编码器将所述字幕文本信息和所述摘要信息划分为分段，并且生成包括预定数量的分段的字幕流。

(10)根据(9)所述的传输装置，其中，在所述字幕流中，首先提供所述摘要信息的分段，随后提供所述字幕文本信息的分段。

(11)根据(1)到(10)中任一项所述的传输装置，其中，所述字幕文本信息具有TTML格式或者与TTML相关的格式。

(12)一种传输方法，包括：

视频编码步骤，生成包括编码的视频数据的视频流；

字幕编码步骤，生成字幕流，所述字幕流包括具有显示时机信息的字幕文本信息以及具有与由所述文本信息指示的多个信息中的一部分相对应的信息的摘要信息；以及

传输步骤，由传输单元传输包括视频流和字幕流的预定格式的容器。

(13)一种接收装置，包括：

所述视频流包括编码的视频数据，并且

(14)根据(13)所述的接收装置，其中，

所述摘要信息包括字幕显示时机信息，并且

在位图数据处理中，

将字幕位图数据叠加在视频数据上的时间是基于字幕显示时机信息控制的。

(15)根据(13)或(14)所述的接收装置，其中：

所述摘要信息包括用于控制字幕显示状态的显示控制信息，并且

在位图数据处理中，

字幕位图要叠加在视频数据上的条件是基于显示控制信息控制的。

(16)一种接收方法，包括：

接收步骤，由接收单元接收包括视频流和字幕流的预定格式的容器，

所述视频流包括编码的视频数据，并且

视频解码步骤，解码视频流，以获得视频数据；

字幕解码步骤，解码字幕流，以获得字幕位图数据并提取摘要信息；

视频叠加步骤，在视频数据上叠加字幕位图数据，以获得显示视频数据；以及

控制步骤，基于摘要信息来控制要叠加在视频数据上的字幕位图数据。

(17)一种传输装置，包括：

视频编码器，被配置为生成包括编码的视频数据的视频流；

(18)根据(17)所述的传输装置，其中：

在生成了其中提供字幕文本信息的所有元素的分段的情况下，

所述字幕编码器将与字幕文本信息的传输顺序有关的信息和/或与字幕文本信息有关的更新存在或不存在相关的信息插入到所述分段的层或元素的层内。

(19)根据(17)或(18)所述的传输装置，其中，

所述字幕文本信息具有TTML格式或与TTML相关的格式。

(20)一种传输方法，包括：

视频编码步骤，生成包括编码的视频数据的视频流；

字幕编码步骤，生成一个或多个分段，分段中提供了包括显示时机信息的字幕文本信息的元素，并生成包括一个或多个所述分段的字幕流；以及

本技术的主要特征在于，通过在字幕流中包括对应于文本信息的字幕文本信息和摘要信息，来减少在接收侧显示字幕的处理负荷(见图12)。

附图标记列表

10传输/接收系统

100传输装置

101控制单元

102相机

103视频光电转换单元

104RGB/YCbCr转换单元

105视频编码器

106字幕生成单元

107文本格式转换单元

108字幕编码器

109系统编码器

110传输单元

200接收装置

201控制单元

202用户操作单元

203接收单元

204系统解码器

205视频解码器

206字幕解码器

207色域/亮度级别转换单元

208位置/大小转换单元

209视频叠加单元

210YCbCr/RGB转换单元

211电光转换单元

212显示映射单元

213CE显示器

221电光转换单元

222色域转换单元

223光电转换单元

224RGB/YCbCr转换单元

225亮度级别转换单元

225Y构件

231编码像素位深度调整单元

232级别调整单元

261编码缓冲器

262字幕段解码器

263字体展开单元

264位图缓冲器

Claims

1.一种传输装置，包括：

视频编码器，被配置为生成包括编码的视频数据的视频流；

传输单元，被配置为传输包括所述视频流和所述字幕流的预定格式的容器。

2.根据权利要求1所述的传输装置，其中，所述摘要信息包括字幕显示时机信息。

3.根据权利要求2所述的传输装置，其中，所述字幕显示时机信息具有显示开始时间和显示时段的信息。

4.根据权利要求3所述的传输装置，其中，

所述字幕流由包括PES报头和PES有效载荷的PES报文组成，

所述字幕文本信息和所述摘要信息设置在所述PES有效载荷中，并且

所述显示开始时间表示为与插入在所述PES报头中的PTS的显示偏移。

5.根据权利要求1所述的传输装置，其中，所述摘要信息包括用于控制字幕显示状态的显示控制信息。

6.根据权利要求5所述的传输装置，其中，所述显示控制信息包括字幕的显示位置、色域和动态范围中的至少一个的信息。

7.根据权利要求6所述的传输装置，其中，所述显示控制信息还包括对象视频信息。

8.根据权利要求1所述的传输装置，其中，所述摘要信息包括用于提供所述字幕文本信息的元素具有变化的通知的通知信息。

9.根据权利要求1所述的传输装置，其中，所述字幕编码器将所述字幕文本信息和所述摘要信息划分为分段，并且生成包括预定数量的分段的字幕流。

10.根据权利要求9所述的传输装置，其中，在所述字幕流中，首先提供所述摘要信息的分段，随后提供所述字幕文本信息的分段。

11.根据权利要求1所述的传输装置，其中，所述字幕文本信息具有TTML格式或者与TTML相关的格式。

12.一种传输方法，包括：

视频编码步骤，生成包括编码的视频数据的视频流；

传输步骤，由传输单元传输包括所述视频流和所述字幕流的预定格式的容器。

13.一种接收装置，包括：

所述视频流包括编码的视频数据，并且

控制单元，被配置为控制用于通过解码所述视频流来获得视频数据的视频解码处理、用于解码所述字幕流以获得字幕位图数据并提取所述摘要信息的字幕解码处理、用于在所述视频数据上叠加所述字幕位图数据以获得显示视频数据的视频叠加处理、以及用于基于所述摘要信息来处理要叠加在所述视频数据上的所述字幕位图数据的位图数据处理。

14.根据权利要求13所述的接收装置，其中，

所述摘要信息包括字幕显示时机信息，并且

在所述位图数据处理中，

将所述字幕位图数据叠加在所述视频数据上的时间是基于所述字幕显示时机信息控制的。

15.根据权利要求13所述的接收装置，其中：

在所述位图数据处理中，

字幕位图要叠加在所述视频数据上的状态是基于所述显示控制信息控制的。

16.一种接收方法，包括：

所述视频流包括编码的视频数据，并且

视频解码步骤，解码所述视频流，以获得视频数据；

字幕解码步骤，解码所述字幕流，以获得字幕位图数据并提取所述摘要信息；

视频叠加步骤，在所述视频数据上叠加字幕位图数据，以获得显示视频数据；以及

控制步骤，基于所述摘要信息来控制要叠加在所述视频数据上的所述字幕位图数据。

17.一种传输装置，包括：

视频编码器，被配置为生成包括编码的视频数据的视频流；

字幕编码器，被配置为生成一个或多个分段，所述分段中提供了包括显示时机信息的字幕文本信息的元素，并生成包括一个或多个所述分段的字幕流；以及

18.根据权利要求17所述的传输装置，其中：

在生成了其中提供所述字幕文本信息的所有元素的分段的情况下，

所述字幕编码器将与所述字幕文本信息的传输顺序有关的信息和/或与所述字幕文本信息有关的更新存在或不存在相关的信息插入到所述分段的层或元素的层内。

19.根据权利要求17所述的传输装置，其中，

所述字幕文本信息具有TTML格式或与TTML相关的格式。

20.一种传输方法，包括：

视频编码步骤，生成包括编码的视频数据的视频流；

字幕编码步骤，生成一个或多个分段，所述分段中提供了包括显示时机信息的字幕文本信息的元素，并生成包括一个或多个所述分段的字幕流；以及