CN106664503B

CN106664503B - 发送装置、发送方法、接收装置及接收方法

Info

Publication number: CN106664503B
Application number: CN201680002216.9A
Authority: CN
Inventors: 塚越郁夫; 知念徹
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-06-17
Filing date: 2016-06-13
Publication date: 2018-10-12
Anticipated expiration: 2036-06-13
Also published as: JP6904463B2; US10522158B2; JP7205571B2; KR102387298B1; MX2017001877A; KR101804738B1; CA2956136A1; US20200118575A1; WO2016204125A1; US10553221B2; JPWO2016204125A1; JP2020145760A; BR112017002758B1; KR20180009338A; US11170792B2; CA2956136C; KR20220051029A; US20170162206A1; BR112017002758A2; US20190130922A1

Abstract

本发明的目的在于在接收侧实现对象内容的良好声压调节。产生包括预定条数的对象内容的编码数据的音频流以及发送包括音频流的预定格式的容器。指示允许每条对象内容的声压增加/减少的范围的信息被插入到音频流的层和/或容器的层中。在接收侧上，每条对象内容的声压基于该信息在可允许范围内进行增加/减少。

Description

发送装置、发送方法、接收装置及接收方法

技术领域

本技术涉及发送装置、发送方法、接收装置以及接收方法，具体地，涉及一种被配置为发送包括预定条数的对象内容的编码数据的音频流的发送装置。

背景技术

近年来，作为三维(3D)声音技术，已经提出了基于元数据将已编码的采样数据映射和渲染到位于任何位置的扬声器的技术(例如，参考专利文献1)。

引用列表

专利文献

专利文献1 JP 2014-520491T

发明内容

技术问题

考虑发送各种类型的对象内容的编码数据，该编码数据包括已编码的采样数据和元数据以及诸如5.1声道和7.1声道的声道编码数据，从而能够在接收侧上高真度地再现声音。例如，在一些情况下，根据背景声音和视听环境，难以听到诸如对话语言等对象内容。

本技术的目标是在接收侧上适当地调节对象内容的声压。

问题的解决方法

本技术的构思是一种发送装置，包括：音频编码单元，音频编码单元被配置为产生包括预定条数的对象内容的编码数据的音频流；发送单元，发送单元被配置为发送包括音频流的预定格式的容器；以及信息插入单元，信息插入单元被配置为将指示允许每条对象内容的声压增减的范围的信息插入到音频流的层和/或容器的层中。

在本技术中，音频编码单元产生包括预定条数的对象内容的编码数据的音频流。信息插入单元将指示允许每条对象内容的声压增减的范围的信息插入到音频流的层和/或容器的层中。

例如，指示允许每条对象内容的声压增减的范围的信息是关于声压的上限值和下限值的信息。此外，例如，音频流的编码方案是MPEG-H 3D音频。信息插入单元可包括扩展元素，扩展元素包括指示允许音频帧中的每条对象内容的声压增减的范围的信息。

以此方式，在本技术中，将指示允许每条对象内容的声压增减的范围的信息插入到音频流的层和/或容器的层中。因此，当在接收侧上使用插入信息时，容易在可允许范围内调节每条对象内容的声压的增减。

在本技术中，例如，预定条数的对象内容中的每条对象内容均可属于预定数目的内容组中的任一内容组，并且信息插入单元可将指示允许每个内容组的声压增减的范围的信息插入到音频流的层和/或容器的层中。在这种情况下，发送指示允许声压增减的范围的信息，以与内容组的数目对应，并且能够有效地发送指示允许每条对象内容的声压增减的范围的信息。

在本技术中，例如，可将指示多种要素类型之中要应用的类型的要素类型信息添加到指示允许每条对象内容的声压增减的范围的信息中。在这种情况下，可以应用适用于每条对象内容的要素类型。

本技术的另一构思是一种接收装置，包括：接收单元，接收单元被配置为接收预定格式的容器，该容器包括含预定条数的对象内容的编码数据的音频流；和控制单元，控制单元被配置为控制增减声压的过程，其中，对象内容的声压根据用户选择增减。

在本技术中，接收单元接收预定格式的容器，该容器包括含预定条数的对象内容的编码数据的音频流。控制单元控制增减声压的过程，其中，对象内容的声压根据用户选择增减。

以此方式，在本技术中，根据用户选择执行增减对象内容的声压的过程。因此，能够有效地调节预定条数的对象内容的声压，例如，预定对象内容的声压可增加并且另一条对象内容的声压可减少。

在本技术中，例如，可以将指示允许每条对象内容的声压增减的范围的信息插入到音频流的层和/或容器的层中，控制单元可进一步控制信息提取过程，其中，从音频流的层和/或容器的层中提取指示允许每条对象内容的声压增减的范围的信息，并且在增减声压的过程中，对象内容的声压可基于已提取的信息根据用户选择而增减。在这种情况下，容易在可允许范围内调节每条对象内容的声压。

在本技术中，例如，在增减声压的过程中，当对象内容的声压根据用户选择增加时，另一条对象内容的声压可减少，并且当对象内容的声压根据用户选择减少时，另一条对象内容的声压可增加。在这种情况下，无需用户的操作时间和精力，就可以维持全部对象内容的恒定声压。

在本技术中，例如，控制单元可进一步控制显示用户界面画面的显示过程，用户界面画面指示在增减声压的过程中声压增减的对象内容的声压状态。在这种情况下，用户能够容易识别每条对象内容的声压状态并且容易设置声压。

发明的有益效果

根据本技术，可在接收侧上适当地调节对象内容的声压。此处描述的效果仅是实施例并且本技术并不局限于此。可以提供额外的效果。

附图说明

[图1]图1是示出了作为实施方式的发送和接收系统的配置实施例的框图。

[图2]图2是示出了MPEG-H 3D音频的传送数据的配置实施例的图示。

[图3]图3是示出了MPEG-H 3D音频的传送数据中的音频帧的结构实施例的图示。

[图4]图4是示出了扩展元素的类型(ExElementType)与其值(值)之间的对应关系的图示。

[图5]图5是示出了内容增强帧的结构实施例的图示，内容增强帧包括指示允许每个内容组的声压增减的范围的信息作为扩展元素。

[图6]图6是示出了内容增强帧的结构实施例中的主要信息的内容的图示。

[图7]图7是示出了由指示允许声压增减的范围的信息所表示的声压的值(要素值)的实施例的图示。

[图8]图8是示出了音频内容增强描述符的结构实施例的图示。

[图9]图9是示出了服务发送器的流生成单元的配置实施例的框图。

[图10]图10是示出了传送流TS的结构实施例的图示。

[图11]图11是示出了服务接收器的配置实施例的框图。

[图12]图12是示出了音频解码单元的配置实施例的框图。

[图13]图13是示出了显示每条对象内容的当前声压状态的用户界面画面的实施例的图示。

[图14]图14是示出了根据用户的单位操作在对象增强器中增减声压的过程的实施例的流程图。

[图15]图15是用于描述对象内容的声压调节实施例的效果的图示。

[图16]图16是示出了由指示允许声压增减的范围的信息所表示的声压的值(要素值)的另一实施例的图示。

[图17]图17是示出了内容增强帧的另一结构实施例的图示，内容增强帧包括指示允许每个内容组的声压增减的范围信息作为扩展元素。

[图18]图18是示出了内容增强帧的结构实施例中的主要信息的内容的图示。

[图19]图19是示出了音频内容增强描述符的另一结构实施例的图示。

[图20]图20是示出了根据用户的单位操作在对象增强器中增减声压的过程的另一实施例的流程图。

[图21]图21是示出了MMT流的结构实施例的图示。

具体实施方式

在下文中，将描述用于实现本技术的形式(以下称之为“实施方式”)。将按照下列顺序进行描述。

1.实施方式

2.变形例

<1.实施方式>

[发送和接收系统的配置实施例]

图1示出了作为实施方式的发送和接收系统10的配置实施例。发送和接收系统10包括服务发送器100和服务接收器200。服务发送器100经由网络通过广播波或包发送传送流TS。

传送流TS包括音频流或视频流和音频流。音频流包括声道编码数据和预定条数的对象内容的编码数据(对象编码数据)。在该实施方式中，音频流的编码方案是MPEG-H 3D音频。

服务发送器100将指示允许每条对象内容的声压增减的范围的信息(上限值和下限值信息)插入到音频流的层和/或作为容器的传送流TS的层中。例如，预定条数的对象内容中的每条对象内容均属于预定数目的内容组中的任一内容组。服务发送器200将指示允许每个内容组的声压增减的范围的信息插入到音频流的层和/或容器的层中。

图2示出了MPEG-H 3D音频的传送数据的配置实施例。该配置实施例包括一条声道编码数据和六条对象编码数据。一条声道编码数据是指5.1声道的声道编码数据(CD)并且包括SCE1、CPE1.1、CPE1.2、以及LFE1中的每条编码采样数据。

在六条对象编码数据之中，前三条对象编码数据属于对话语言对象的内容组的编码数据(DOD)。这三条对象编码数据是与第一语言、第二语言、以及第三语言对应的对话语言对象(用于对话语言的对象)的编码数据。

与第一语言、第二语言以及第三语言对应的对话语言对象的编码数据包括编码的采样数据SCE2、SCE3、及SCE4、以及用于将编码的采样数据映射并且渲染到任意位置的扬声器的元数据(对象元数据)。

此外，在这六条对象编码数据之中，剩余三条对象编码数据属于声音效果对象的内容组中的编码数据(SEO)。这三条对象编码数据是与第一声音效果、第二声音效果、以及第三声音效果对应的声音效果对象(用于声音效果的对象)的编码数据。

与第一声音效果、第二声音效果、以及第三声音效果对应的声音效果对象的编码数据包括已编码采样数据SCE5、SCE6、及SCE7、以及用于将已编码的采样数据映射并且渲染到任意位置的扬声器的元数据(对象元数据)。

通过每个类别(category)的组(Group)的概念对编码数据进行分类。在该配置实施例中，5.1声道的声道编码数据被分类为组1(Group 1)。此外，与第一语言、第二语言、以及第三语言对应的对话语言对象的编码数据分别被分类为组2(Group 2)、组3(Group 3)、以及组4(Group 4)。此外，与第一声音效果、第二声音效果、以及第三声音效果对应的声音效果对象的编码数据分别被分类为组5(Group 5)、组6(Group 6)、以及组7(Group 7)。

此外，在接收侧上，从各组之中选择的数据在切换组(SW组)中进行登记并且编码。在该配置实施例中，属于对话语言对象的内容组的组2、组3、以及组4被分类为切换组1(SW组1)。此外，属于声音效果对象的内容组的组5、组6、以及组7被分类为切换组2(SW组2)。

图3示出了MPEG-H 3D音频的传送数据中的音频帧的结构实施例。音频帧包括多个MPEG音频流包(mpeg Audio Stream Packet)。每个MPEG音频流包均包括报头(Header)和有效载荷(Payload)。

报头包括诸如包类型(Packet Type)、包标签(Packet Label)、以及包长度(Packet Length)等信息。报头的包类型中定义的信息被分配在有效载荷中。有效载荷信息包括与同步起始码对应的“SYNC”、用作3D音频传送数据的真实数据的“帧(Frame)”、以及指示“帧”的配置的“Config”。

“帧”包括构成3D音频传送数据的声道编码数据和对象编码数据。此处，声道编码数据包括诸如单声道元素(SCE)、声道对元素(CPE)、以及低频元素(LFE)等已编码的采样数据。此外，对象编码数据包括单声道元素(SCE)的已编码采样数据和用于将已编码的采样数据映射并且渲染到任意位置的扬声器的元数据。元数据被包括作为扩展元素(Ext_element)。

在实施方式中，作为扩展元素(Ext_element)，重新定义了包括指示允许每个内容组的声压增减的范围的信息的元素(Ext_content_enhancement)。相应地，在“Config”中重新定义了该元素的配置信息(content_enhancement config)。

图4示出了扩展元素(Ext_element)的类型(ExElementType)与其值(Value)之间的对应关系。例如，128被重新定义为“ID_EXT_ELE_content_enhancement”的类型的值。

图5示出了包括指示允许每个内容组的声压增减的范围的信息作为扩展元素的内容增强帧(Content_Enhancement_frame())的结构实施例(语法)。图6示出了该配置实施例中的主要信息的内容(语义)。

“num_of_content_groups”的8位字段指示内容组的数目。重复提供“content_group_id”的8位字段、“content_type”的8位字段、“content_enhancement_plus_factor”的8位字段、以及“content_enhancement_minus_factor”的8位字段，以与内容组的数目对应。

“content_group_id”的字段指示内容组的标识符(ID)。“content_type”的字段指示内容组的类型。例如，“0”指示“对话语言”，“1”指示“声音效果”，“2”指示“BGM”，并且“3”指示“口头子标题”。

“content_enhancement_plus_factor”的字段指示声压增减的上限值。例如，如图7中的图表所示，“0x00”指示1(0dB)，“0x01”指示1.4(+3dB)，并且“0xFF”指示无穷大(+无穷大dB)。“content_enhancement_minus_factor”的字段指示声压增减的下限值。例如，如图7中的图表所示，“0x00”指示1(0dB)，“0x01”指示0.7(-3dB)，并且“0xFF”指示0.00(-无穷大dB)。图7中的图表在服务接收器200中共享。

此外，在实施方式中，重新定义了包括指示允许每个内容组的声压增减的范围的信息的音频内容增强描述符(Audio_Content_Enhancement descriptor)。因此，将该描述符插入到设置在节目映射表(PMT)下方的音频基本流循环中。

图8示出了音频内容增强描述符的结构实施例(语法)。此处，“descriptor_tag”的8位字段指示描述符类型并且此处指示音频内容增强描述符。“descriptor_length”的8位字段指示描述符的长度(大小)并且描述符的长度指示下列字节数。

“num_of_content_groups”的8位字段指示内容组的数目。重复提供“content_group_id”的8位字段、“content_type”的8位字段、“content_enhancement_plus_factor”的8位字段、以及“content_enhancement_minus_factor”的8位字段，以与内容组的数目对应。字段的信息内容与在上述内容增强帧中描述的信息内容相似(参考图5)。

再次参考图1，服务接收器200从服务发送器100接收经由网络通过包发送的广播波或传送流TS。除视频流之外，传送流TS还包括音频流。音频流包括3D音频传送数据的声道编码数据和预定条数的对象内容的编码数据(对象编码数据)。

指示允许每条对象内容的声压增减的范围的信息插入到音频流的层和/或作为容器的传送流TS的层中。例如，插入指示允许预定数目的内容组的声压增减的范围的信息。此处，一条或多条对象内容属于一个内容组。

服务接收器200对视频流执行解码处理并且获得视频数据。此外，服务接收器200对音频流执行解码处理并且获得3D音频的音频数据。

服务接收器200根据用户选择对对象内容执行增减声压的处理。在这种情况下，服务接收器200基于允许每条对象内容的声压增减的范围限制声压增减的范围，允许每条对象内容的声压增减的范围插入到音频流的层和/或作为容器的传送流TS的层中。

[服务发送器的流生成单元]

图9示出了服务发送器100的流生成单元110的配置实施例。流生成单元110包括控制单元111、视频编码器112、音频编码器113、以及多路复用器114。

视频编码器112输入视频数据SV、对视频数据SV进行编码、并且产生视频流(视频基本流)。除了作为音频数据SA的声道数据之外，音频编码器113还输入预定数目的内容组的对象数据。一条或多条对象内容属于每个内容组。

音频编码器113对音频数据SA进行编码、获得3D音频传送数据、并且产生包括3D音频传送数据的音频流(音频基本流)。除了声道编码数据之外，3D音频传送数据包括预定数目的内容组的对象编码数据。

例如，如图2中的配置实施例所示，包括声道编码数据(CD)、对话语言对象的内容组的编码数据(DOD)、以及声音效果对象的内容组的编码数据(SEO)。

音频编码器113在控制单元111的控制下将指示允许每个内容组的声压增减的范围的信息插入到音频流中。在该实施方式中，包括指示允许每个内容组的声压增减的范围的信息的重新定义元素(Ext_content_enhancement)作为扩展元素(Ext_element)插入到音频帧中(参考图3和图5)。

多路复用器114将从视频编码器112输出的视频流和从音频编码器113输出的预定数目的音频流分成PES包，此外，将流分成传送包且进行多路复用，并且获得传送流TS作为多路复用流。

多路复用器114根据控制单元111的控制，将指示允许每个内容组的声压增减的范围的信息插入到作为容器的传送流TS中。在该实施方式中，包括指示允许每个内容组的声压增减的范围的信息的重新定义的音频内容增强描述符(Audio_Content_Enhancementdescriptor)插入到设置在PMT下方的音频基本流循环中(参考图8)。

将简要描述图9中示出的流生成单元110的操作。视频数据被供应至视频编码器112。在视频编码器112中，对视频数据SV进行编码并且产生包括已编码的视频数据的视频流。视频流被供应至多路复用器114。

音频数据SA被供应至音频编码器113。除声道数据之外，音频数据SA还包括预定数目的内容组的对象数据。此处，一条或多条对象内容属于每个内容组。

在音频编码器113中，对音频数据SA进行编码并且由此获得3D音频传送数据。除声道编码数据之外，3D音频传送数据还包括预定数目的内容组的对象编码数据。因此，在音频编码器113中，产生包括3D音频传送数据的音频流。

在这种情况下，在音频编码器113中，根据控制单元111的控制将指示允许每个内容组的声压增减的范围的信息插入到音频流中。即，将包括指示允许每个内容组的声压增减的范围的信息的重新定义元素(Ext_content_enhancement)作为扩展元素(Ext_element)插入到音频帧中(参考图3和图5)。

视频编码器112中产生的视频流被供应至多路复用器114。此外，音频编码器113中产生的音频流被供应至多路复用器114。在多路复用器114中，将从每个编码器供应的流分成PES包并且又分成传送包且进行多路复用，并且获得传送流TS作为多路复用流。

在这种情况下，在多路复用器114中，根据控制单元111的控制将指示允许每个内容组的声压增减的范围的信息插入到作为容器的传送流TS中。即，将包括指示允许每个内容组的声压增减的范围的信息的重新定义的音频内容增强描述符(Audio_Content_Enhancement descriptor)插入到设置在PMT下方的音频基本流循环中(参考图8)。

[传送流TS的配置]

图10示出了传送流TS的结构实施例。结构实施例包括被标识为PID1的视频流的PES包“视频PES”和被标识为PID2的音频流的PES包“音频PES”。PES包包括PES报头(PES_header)和PES有效载荷(PES_payload)。DTS和PTS的时间戳被插入到PES报头中。

音频流(音频编码流)被插入到音频流的PES包的PES有效载荷中。包括指示允许每个内容组的声压增减的范围的信息的内容增强帧(Content_Enhancement_frame())被插入到音频流的音频帧中。

此外，在传送流TS中，包括作为节目专用信息(PSI)的节目映射表(PMT)。PSI是描述传送流中包括的每个基本流所属的节目的信息。PMT包括描述与整个节目相关联的信息的节目循环(Program loop)。

此外，PMT包括含有与每个基本流相关联的信息的基本流循环。配置实施例包括与视频流对应的视频基本流循环(视频ES循环)和与音频流对应的音频基本流循环(音频ES循环)。

在视频基本流循环(视频ES循环)中，分配了诸如与视频流对应的流类型和包标识符(PID)等信息，并且还分配了描述与视频流相关联的信息的描述符。视频流的“Stream_type”的值被设置为“0x24”，并且PID信息指示被分配给上述视频流的PES包“视频PES”的PID1。作为一个描述符，分配HEVC描述符。

此外，在音频基本流循环(音频ES循环)中，分配了诸如与音频流对应的流类型和包标识符(PID)等信息，并且还分配了描述与音频流相关联的信息的描述符。音频流的“Stream_type”的值被设置为“0x2C”，并且PID信息指示被分配给上述音频流的PES包“音频PES”的PID2。作为一个描述符，分配了音频内容增强描述符(Audio_Content_Enhancementdescriptor)，其包括指示允许每个内容组的声压增减的范围的信息。

[服务接收器的配置实施例]

图11示出了服务接收器200的配置实施例。服务接收器200包括接收单元201、解多路复用器202、视频解码单元203、视频处理电路204、面板驱动电路205、以及显示面板206。此外，服务接收器200包括音频解码单元214、音频输出电路215、以及扬声器系统216。此外，服务接收器200包括CPU 221、闪存ROM 222、DRAM 223、内部总线224、远程控制接收单元225、以及远程控制发送器226。

CPU 221控制服务接收器200的各部件的操作。闪存ROM 222储存控制软件并且保存数据。DRAM 223构成CPU 221的工作区。CPU 221将从闪存ROM 222读取的软件和数据部署在DRAM 223中，以执行软件，并且控制服务接收器200的各部件。

远程控制接收单元225接收从远程控制发送器226发送的远程控制信号(远程控制代码)并且将信号供应至CPU 221。CPU 221基于远程控制代码控制服务接收器200的各部件。CPU 221、闪存ROM 222、以及DRAM 223连接至内部总线224。

接收单元201从服务发送器100接收经由网络通过包发送的广播波或传送流TS。除视频流之外，传送流TS还包括音频流。音频流包括3D音频传送数据的声道编码数据和预定条数的对象内容的编码数据(对象编码数据)。

指示允许预定数目的内容组的声压增减的范围的信息被插入到音频流的层和/或作为容器的传送流TS的层中。一条或多条对象内容属于一个内容组。

此处，包括指示允许每个内容组的声压增减的范围的信息的重新定义元素(Ext_content_enhancement)作为扩展元素(Ext_element)插入到音频帧中(参考图3和图5)。此外，包括指示允许每个内容组的声压增减的范围的信息的重新定义音频内容增强描述符(Audio_Content_Enhancement descriptor)被插入到设置在PMT下方的音频基本流循环中(参考图8)。

解多路复用器202从传送流TS提取视频流并且将视频流发送至视频解码单元203。视频解码单元203对视频流执行解码处理并且获得未压缩的视频数据。

视频处理电路204对在视频解码单元203中获得的视频数据执行缩放处理(scaling processing)和图像质量调节处理并且获得显示视频数据。面板驱动电路205基于在视频处理电路204中获得的显示图像数据驱动显示面板206。例如，显示面板206包括液晶显示器(LCD)和有机场致发光(EL)显示器。

此外，解多路复用器202从传送流TS提取诸如描述符信息等各种类型的信息并且将信息发送至CPU 221。各种类型的信息还包括音频内容增强描述符，音频内容增强描述符包括指示允许每个内容组的声压增减的范围的上述信息。CPU 221可根据描述符识别允许每个内容组的声压增减的范围(上限值和下限值)。

此外，解多路复用器202从传送流TS提取音频流并且将音频流发送至音频解码单元214。音频解码单元214对音频流执行解码处理并且获得用于驱动扬声器系统216中的各个扬声器的音频数据。

在这种情况下，在音频解码单元214中，在音频流中包括的预定条数的对象内容的编码数据中，在CPU 221的控制下仅将切换组中的多条对象内容的编码数据之中根据用户选择的任意一条对象内容的编码数据设置为解码目标。

此外，音频解码单元214提取插入到音频流中的各种类型的信息并且将信息发送到CPU 221。各种类型的信息还包括有指示允许每个内容组的声压增减的范围的上述信息的元素。CPU 221可根据该元素识别允许每个内容组的声压增减的范围(上限值和下限值)。

此外，音频解码单元214在CPU 221的控制下根据用户选择对对象内容执行增减声压的过程。在这种情况下，基于允许每条对象内容的声压增减的范围(上限值和下限值)，其插入到音频流的层和/或作为容器的传送流TS的层中，限制声压增减的范围。下面将详细描述音频解码单元214。

音频输出处理电路215对在音频解码单元214中获得的用于驱动各个扬声器的音频数据执行诸如D/A转换和放大等必要的处理并且将结果供应至扬声器系统216。扬声器系统216包括具有多个声道的多个扬声器，例如，2声道、5.1声道、7.1声道、以及22.2声道。

[音频解码单元的配置实施例]

图12示出了音频解码单元214的配置实施例。音频解码单元214包括解码器231、对象增强器232、对象渲染器233、以及混频器234。

解码器231对在解多路复用器202中提取的音频流执行解码处理并且获得除声道数据之外的预定条数的对象内容的对象数据。解编码器213大约按照逆序执行图9中的流生成单元110的音频编码器113的过程。在切换组的多条对象内容中，在CPU 221的控制下，仅获得根据用户选择的任意一条对象内容的对象数据。

此外，解编码器231提取插入到音频流中的各种类型的信息并且将信息发送至CPU221。各种类型的信息还包括含有指示允许每个内容组的声压增减的范围的信息的元素。CPU 221可根据该元素识别允许每个内容组的声压增减的范围(上限值和下限值)。

对象增强器232对在解码器213中获得的预定条数的对象数据内根据用户选择的对象内容执行增减声压的处理。当执行增减声压的处理时，分配指示将要经历增减声压的处理的目标的对象内容的目标内容(target_content)以及指示是增加还是减少声压的命令(command)，并且根据用户操纵将允许目标内容的声压增减的范围(上限值和下限值)从CPU 221分配至对象增强器232。

对于用户的每个单位操作，对象增强器232仅在命令(command)指示的方向上将目标内容(target_content)中的对象内容的声压改变预定的宽度。在这种情况下，当声压已经是由可允许范围指示的极限值(上限值和下限值)时，不改变声压并且直接使用声压。

此外，例如，对象增强器232参考图7中的图表设置声压的变化宽度(预定宽度)。例如，在当前状态是1(0dB)并且用户的单位操作为增加时，该状态改变成1.4(+3dB)的状态。此外，例如，在当前状态是1.4(+3dB)并且用户的单位操作为增加时，该状态改变成1.9(+6dB)的状态。

此外，例如，在当前状态是1(0dB)并且用户的单位操作为减少时，该状态改变成0.7(-3dB)的状态。此外，例如，在当前状态是0.7(-3dB)并且用户的单位操作为减少时，该状态改变成0.5(-6dB)的状态。

此外，当执行增减声压的过程时，对象增强器232将指示每条对象数据的声压状态的信息发送至CPU 221。CPU 221基于该信息在显示单元(例如，显示面板206)上显示指示每条对象内容的当前声压状态的用户界面画面，并且当用户设置声压时，CPU 221提供该信息。

图13示出了显示声压状态的用户界面画面的实施例。在该实施例中，示出了提供包括对话语言对象(DOD)和声音效果对象(SEO)的两条对象内容的情况(参考图2)。阴影线标记部分处示出了当前声压状态。“plus_i”指示上限值并且“minus_i”指示下限值。

图14中的流程图示出了根据用户的单位操作在对象增强器232中增减声压的实施例。对象增强器232开始于步骤ST1的处理。然后，对象增强器232前进至步骤ST2的处理。

在步骤ST2中，对象增强器232确定命令(command)是否是增加指令。当确定是增加指令时，对象增强器232前进至步骤ST3的处理。在步骤ST3中，如果声压不是上限值，对象增强器232仅将目标内容(target_content)中的对象内容的声压增加预定的宽度。在步骤ST3的处理之后，对象增强器232在步骤ST4中结束该处理。

此外，当在步骤ST2中确定不是增加指令时，即，当确定是减少指令时，对象增强器232前进至步骤ST5的处理。在步骤ST5中，如果声压不是下限值，对象增强器232仅将目标内容(target_content)中的对象内容的声压减少预定的宽度。在步骤ST5的处理之后，对象增强器232在步骤ST4中结束该处理。

再次参考图12，对象渲染器233对通过对象增强器232获得的预定条数的对象内容的对象数据执行渲染处理，并且获得预定条数的对象内容的声道数据。此处，对象数据包括对象声源的音频数据和对象声源的位置信息。对象渲染器233通过基于对象声源的位置信息将对象声源的音频数据与扬声器位置进行映射而获得声道数据。

混频器234将在解码器231中获得的声道数据与在对象渲染器233中获得的每条对象内容的声道数据进行组合，并且获得用于驱动扬声器系统216的每个扬声器的音频数据(声道数据)。

将简要描述图11中所示的服务接收器200的操作。接收单元201接收经由网络通过广播波或包从服务发送器100发送的传送流TS。除视频流之外，传送流TS还包括音频流。

音频流包括3D音频传送数据的声道编码数据和预定条数的对象内容的编码数据(对象编码数据)。预定条数的对象内容中的每条对象内容均属于预定数目的内容组中的任一内容组。即，一条或多条对象内容属于一个内容组。

传送流TS被供应至解多路复用器202。在解多路复用器202中，从传送流TS提取视频流并且将视频流供应至视频解码单元203。在视频解码单元203中，对视频流执行解码处理并且获得未压缩的视频数据。视频数据被供应至视频处理电路204。

视频处理电路204对视频数据执行缩放处理和图像质量调节处理并且获得显示视频数据。显示视频数据被供应至面板驱动电路205。面板驱动电路205基于显示视频数据驱动显示面板206。相应地，在显示面板206上显示与显示视频数据对应的图像。

此外，解多路复用器202从传送流TS提取诸如描述符信息等各种类型的信息并且将信息发送至CPU 221。各种类型的信息还包括含指示允许每个内容组的声压增减的范围的信息的音频内容增强描述符。CPU 221根据该描述符识别允许每个内容组的声压增减的范围(上限值和下限值)。

此外，解多路复用器202从传送流TS提取音频流并且将音频流发送至音频解码单元214。音频解码单元214对音频流执行解码处理并且获得用于驱动扬声器系统216中的每个扬声器的音频数据。

在这种情况下，在音频解码单元214中，在音频流包括的预定条数的对象内容的编码数据内，根据CPU 221的控制，仅将切换组的多条对象内容的编码数据之中根据用户选择的任意一条对象内容的编码数据设置为解码目标。

此外，音频解码单元214提取插入到音频流中的各种类型的信息并且将信息发送至CPU 221。各种类型的信息还包括含有指示允许每个内容组的声压增减的范围的上述信息的元素。在CPU 221中，根据该元素识别允许每个内容组的声压增减的范围(上限值和下限值)。

此外，在音频解码单元214中，在CPU 221的控制下，根据用户选择执行增减对象内容的声压的处理。在这种情况下，在音频解码单元214中，基于允许每条对象内容的声压增减的范围(上限值和下限值)限制声压增减的范围。

即，在这种情况下，分配指示将经历增减声压的处理的目标的对象内容的目标内容(target_content)和指示是增加还是减少声压的命令(command)，并且根据用户操作将允许目标内容的声压增减的范围(上限值和下限值)从CPU 221分配至音频解码单元214。

因此，在音频解码单元214中，对于用户的每个单位操作，仅在命令(command)指示的方向上将属于目标内容(target_content)的内容组的对象数据的声压改变(增加或减少)预定的宽度。在这种情况下，当声压已经是可允许范围指示的极限值(上限值和下限值)时，不改变声压并且直接使用该声压。

在音频解码单元214中获得的用于驱动每个扬声器的音频数据被供应至音频输出处理电路215。音频输出处理电路215对音频数据执行诸如D/A转换和放大等必要的处理。因此，经过处理的音频数据被供应至扬声器系统216。相应地，从扬声器系统216输出与显示面板206的显示图像对应的声音。

如上所述，在图1所示的发送和接收系统10中，服务接收器200根据用户选择对对象内容执行增减声压的处理。相应地，能够有效地调节预定条数的对象内容的声压，例如，预定对象内容的声压会得到增加并且另一条对象内容的声压会得到减少。

图15(a)示意性地示出了对话语言的对象内容的音频数据的波形。图15(b)示意性地示出了其他对象内容的音频数据的波形。图15(c)示意性地示出了一起呈现这些音频数据时的波形。在这种情况下，因为多条其他对象内容的音频数据的波形的振幅大于对话语言的音频数据的波形的振幅，所以对话语言的声音被其他对象内容的声音所掩盖并且由此非常难以听到该声音。

图15(d)示意性地示出了声压增加的对话语言的对象内容的音频数据的波形。图15(e)示意性地示出了声压减少的其他对象内容的音频数据的波形。图15(f)示意性地示出了一起呈现这些音频数据时的波形。

在这种情况下，因为对话语言的音频数据的波形的振幅大于多条其他对象内容的音频数据的波形的振幅，所以该对话语言的声音不被其他对象内容的声音掩盖并且由此容易听到该声音。此外，在这种情况下，尽管对话语言的对象内容的声压增加，然而，因为其他对象内容的声压减少，所以保持了全部对象内容的恒定声压。

此外，在图1所示的发送和接收系统10中，服务发送器100将指示允许每条对象内容的声压增减的范围的信息插入到音频流的层和/或作为容器的传送流TS的层中。因此，当在接收侧上使用插入信息时，容易可允许范围内调节每条对象内容的声压的增减。

此外，在图1所示的发送和接收系统10中，服务发送器100将指示允许预定条数的对象内容所属的每个内容组的声压增减的范围的信息插入到音频流的层和/或作为容器的传送流TS的层中。因此，可以发送指示允许声压增减的范围信息，以与内容组的数目对应，并且可以有效地发送指示允许每条对象内容的声压增减的范围的信息。

<2.变形例>

在上述所述实施方式中，示出了下列信息所使用的一种要素类型的实施例，即，指示允许每条对象内容和每个内容组的声压增减的范围(参考图7)。然而，可以设想，能够从多种类型之中选择指示允许每条对象内容的声压增减的范围的信息的要素类型。

图16示出了能够从多种类型之中选择指示允许每个内容组的声压增减的范围的信息的要素类型的图表的实施例。该实施例是使用“factor_1”和“factor_2”两种要素类型的实施例。

在这种情况下，在接收侧，在指定“factor_1”的内容组中，参考图表中的“factor_1”的部分识别声压的上限值和下限值并且还识别调节声压增减的变化宽度。此外，同样，在接收侧，在指定“factor_2”的内容组中，参考图表中的“factor_2”的部分识别声压的上限值和下限值并且还识别调节声压增减的变化宽度。

例如，即使“content_enhancement_plus_factor”与“0x02”相同，然而，当指定“factor_1”时，将上限值识别为1.9(+6dB)，并且当指定“factor_2”时，将上限值识别为3.9(+12dB)。此外，当从1(0dB)的状态提供增加指令时，如果指定“factor_1”，状态则改变成1.4(+3dB)的状态，并且如果指定“factor_2”，状态则改变成1.9(+6dB)的状态。此外，在任意要素中，当指定值是“0x00”时，上限值和下限值皆是0dB。这表明不能够改变目标内容组的声压。

图17示出了当从多种类型之中选择指示允许每个内容组的声压增减的范围的信息的要素类型时，内容增强帧(Content_Enhancement_frame())的结构实施例(语法)。图18示出了配置实施例中的主要信息的内容(语义)。

“num_of_content_groups”的8位字段指示内容组的数目。重复提供“content_group_id”的8位字段、“content_type”的8位字段、“factor_type”的8位字段、“content_enhancement_plus_factor”的8位字段、以及“content_enhancement_minus_factor”的8位字段，以与内容组的数目对应。

“content_group_id”的字段指示内容组的标识符(ID)。“content_type”的字段指示内容组的类型。例如，“0”指示“对话语言”，“1”指示“声音效果”，“2”指示“BGM”，并且“3”指示“口头子标题”。“factor_type”的字段指示应用要素类型。例如，“0”指示“factor_1”并且“1”指示“factor_2”。

“content_enhancement_plus_factor”的字段指示声压增减的上限值。例如，如图16中的图表所示，当应用要素类型是“factor_1”时，“0x00”指示1(0dB)，“0x01”指示1.4(+3dB)，并且“0xFF”指示无穷大(+无穷大dB)。当应用要素类型是“factor_2”时，“0x00”指示1(0dB)，“0x01”指示1.9(+6dB)，并且“0x7F”指示无穷大(+无穷大dB)。

“content_enhancement_minus_factor”的字段指示声压增减的下限值。例如，如图16中的图表所示，当应用要素类型是“factor_1”时，“0x00”指示1(0dB)，“0x01”指示0.7(-3dB)，并且“0xFF”指示0.00(-无穷大dB)。当应用要素类型是“factor_2”时，“0x00”指示1(0dB)，“0x01”指示0.5(-6dB)，并且“0x7F”指示0.00(-无穷大dB)。

图19示出了当从多种类型之中选择指示允许每个内容组的声压增减的范围的信息的要素类型时，音频内容增强描述符(Audio_Content_Enhancement descriptor)的结构实施例(语法)。

此处，“descriptor_tag”的8位字段指示描述符类型并且这里指示音频内容增强描述符。“descriptor_length”的8位字段指示描述符的长度(大小)并且描述符的长度指示下列字节数。

“num_of_content_groups”的8位字段指示内容组的数目。重复提供“content_group_id”的8位字段、“content_type”的8位字段、“factor_type”的8位字段、“content_enhancement_plus_factor”的8位字段、以及“content_enhancement_minus_factor”的8位字段，以与内容组的数目对应。字段的信息内容与上述所述内容增强帧中描述的字段信息内容相似(参考图17)。

此外，在上述实施方式中，描述了服务接收器200根据用户选择仅在命令(command)指示(增加或减小)的方向上将目标内容(target_content)中的对象内容的声压改变预定的宽度的实施例。然而，当执行增减目标内容(target_content)中的对象内容的声压的处理时，可以想到在反方向上自动执行增减其他对象内容的声压的处理。

以此方式，例如，用户能够仅通过执行对对话语言的对象内容的增加操作而在服务接收器200中执行图15(d)和图15(e)的处理。

在这种情况下，图20中的流程图示出了根据用户的单位操作在对象增强器232中增减声压的处理的实施例(参考图12)。对象增强器232在步骤ST11中开始该处理。然后，对象增强器232前进至步骤ST12中的处理。

在步骤ST12中，对象增强器232确定命令(command)是否是增加指令。当确定是增加指令时，对象增强器232前进至步骤ST13中的处理。在步骤ST13中，如果声压不是上限值，则对象增强器232仅将目标内容(target_content)中的对象内容的声压增加预定的宽度。

接着，在步骤ST14中，为了维持全部对象内容的恒定声压，对象增强器232减少不是目标内容(target_content)的另一条对象内容的声压。在这种情况下，根据目标内容(target_content)中的对象内容的上述声压的增加减少声压。在这种情况下，一条或多条其他对象内容与声压减少有关。在步骤ST14的处理之后，对象增强器232在步骤ST15结束该处理。

此外，在步骤ST12中，当确定是不增加指令时，即，确定是减少指令时，对象增强器232前进至步骤ST16的处理。在步骤ST16中，如果声压不是下限值，对象增强器232则仅将目标内容(target_content)中的对象内容的声压减少预定的宽度。

接着，在步骤ST17中，为了维持全部对象内容的恒定声压，对象增强器232增加不是目标内容(target_content)的另一条内容的声压。在这种情况下，根据上述目标内容(target_content)中的对象内容的声压的增加减少声压。在这种情况下，一条或多条其他对象内容与声压减少有关。在步骤ST17的处理之后，对象增强器232在步骤ST15结束该处理。

在上述所述实施方式中，示出了将指示允许每个内容组的声压增减的范围的信息插入到音频流的层和作为容器的传送流TS的层中的实施例。然而，可以设想，将该信息仅插入到音频流的层或作为容器的传送流TS的层中。

此外，在上述所述实施方式中，示出了容器是传送流(MPEG-2TS)的实施例。然而，本技术同样可应用于通过MP4或其他格式的容器进行传送的系统。例如，可以使用基于MPEG-DASH的流传送系统或处理MPEG媒体传送(MMT)结构的传送流的发送和接收系统。

图21示出了MMT流的结构实施例。MMT流包括诸如视频和音频等资源(asset)的MMT包。结构实施例包括被标识为ID1的视频的资源的MMT包和被标识为ID2的音频的资源的MMT包。

包括指示允许每个内容组的声压增减的范围的信息的内容增强帧(Content_Enhancement_frame())被插入到音频的资源(音频流)的音频帧中。

此外，MMT流包括诸如包存取(PA)消息包等消息包。PA消息包包括诸如MMT包图表(MMT Package Table)等图表。MP图表包括有关各个资源的信息。根据音频资源(音频流)分配包括有指示允许每个内容组的声压增减的范围的信息的音频内容增强描述符(Audio_Content_Enhancement descriptor)。

此外，本技术还可被配置如下。

(1)一种发送装置，包括：

音频编码单元，音频编码单元被配置为产生包括预定条数的对象内容的编码数据的音频流；

发送单元，发送单元被配置为发送包括音频流的预定格式的容器；以及

信息插入单元，信息插入单元被配置为将指示允许每条对象内容的声压增减的范围的信息插入到音频流的层和/或容器的层中。

(2)根据(1)所述的发送装置，

其中，预定条数的对象内容中的每条对象内容均属于预定数目的内容组中的任一内容组；并且

信息插入单元将指示允许每个内容组的声压增减的范围的信息插入到音频流的层和/或容器的层中。

(3)根据(1)或(2)所述的发送装置，

其中，音频流具有作为MPEG-H 3D音频的编码方案；并且

信息插入单元包括扩展元素，扩展元素包括指示允许音频帧中的每条对象内容的声压增减的范围的信息。

(4)根据(1)至(3)中任一项所述的发送装置，

其中，将指示多个要素之中被应用的类型的要素选择信息添加到指示允许每条对象内容的声压增减的范围的信息中。

(5)一种发送方法，包括：

音频编码步骤，产生包括预定条数的对象内容的编码数据的音频流；

发送步骤，通过发送单元发送包括音频流的预定格式的容器；以及

信息插入步骤，将指示允许每条对象内容的声压增减的范围的信息插入到音频流的层和/或容器的层中。

(6)一种接收装置，包括：

接收单元，接收单元被配置为接收预定格式的容器，容器包括含有预定条数的对象内容的编码数据的音频流；和

处理单元，处理单元被配置为执行增减声压的处理，其中，对象内容的声压根据用户选择增减。

(7)根据(6)所述的接收装置，

其中，将指示允许每条对象内容的声压增减的范围的信息插入到音频流的层和/或容器的层中；

接收装置进一步包括信息提取单元，信息提取单元被配置为从音频流的层和/或容器的层中提取指示允许每条对象内容的声压增减的范围的信息；并且

处理单元基于提取的信息根据用户选择增减对象内容的声压。

(8)根据(6)或(7)所述的接收装置，

其中，当对象内容的声压根据用户选择增加时，处理单元减少另一条对象内容的声压，并且当对象内容的声压根据用户选择减少时，处理单元增加另一条对象内容的声压。

(9)根据(6)至(8)中任一项所述的接收装置，进一步包括：

显示控制单元，显示控制单元被配置为显示UI画面，UI画面指示通过处理单元增减声压的对象内容的声压状态。

(10)一种接收方法，包括：

接收步骤，通过接收单元接收预定格式的容器，容器包括含有预定条数的对象内容的编码数据的音频流；和

处理步骤，增减声压，其中，对象内容的声压根据用户选择增减。

本技术的主要特征在于，将指示允许每条对象内容的声压增减的范围的信息插入到音频流的层和/或容器的层中，并且在接收侧上，在可允许范围内适当地调节每条对象内容的声压的增减(参考图9和图10)。

参考符号列表

10 发送和接收系统

100 服务发送器

110 流生成单元

111 控制单元

112 视频编码器

113 音频编码器

114 多路复用器

200 服务接收器

201 接收单元

202 解多路复用器

203 视频解码单元

204 视频处理电路

205 面板驱动电路

206 显示面板

214 音频解码单元

215 音频输出处理电路

216 扬声器系统

221 CPU

222 闪存ROM

223 DRAM

224 内部总线

225 远程控制接收单元

226 远程控制发送器

231 解码器

232 对象增强器

233 对象渲染器

234 混频器

Claims

1.一种发送装置，包括：

音频编码单元，被配置为产生包括预定条数的对象内容的编码数据的音频流；

发送单元，被配置为发送包括所述音频流的预定格式的容器；

以及

信息插入单元，被配置为将指示允许每条对象内容的声压增减的范围的信息插入到所述音频流的层和/或所述容器的层中。

2.根据权利要求1所述的发送装置，

其中，所述预定条数的对象内容中的每条对象内容属于预定数目的内容组中的任一内容组；并且

所述信息插入单元将指示允许每个内容组的声压增减的范围的信息插入到所述音频流的层和/或所述容器的层中。

3.根据权利要求1所述的发送装置，

其中，所述音频流具有MPEG-H 3D音频编码方案；并且

所述信息插入单元包括扩展元素，所述扩展元素包括指示允许音频帧中的每条对象内容的声压增减的范围的信息。

4.根据权利要求1所述的发送装置，

其中，将指示多个要素类型之中要被应用的类型的要素类型信息添加到指示允许每条对象内容的声压增减的范围的信息中。

5.根据权利要求1所述的发送装置，

其中，所述信息插入单元从多种类型之中选择指示允许每条对象内容的声压增减的范围的信息的要素类型。

6.一种发送方法，包括：

发送步骤，通过发送单元发送包括所述音频流的预定格式的容器；以及

信息插入步骤，将指示允许每条对象内容的声压增减的范围的信息插入到所述音频流的层和/或所述容器的层中。

7.一种接收装置，包括：

接收单元，被配置为接收预定格式的容器，所述容器包括含有预定条数的对象内容的编码数据的音频流；和

控制单元，被配置为控制增减声压的过程，在增减声压的过程中，对象内容的声压根据用户选择而增减，

其中，将指示允许每条对象内容的声压增减的范围的信息插入到所述音频流的层和/或所述容器的层中；

所述控制单元进一步控制信息提取过程，在所述信息提取过程中，从所述音频流的层和/或所述容器的层中提取指示允许每条对象内容的声压增减的范围的信息；并且

在增减声压的过程中，对象内容的声压基于提取的信息根据用户选择而增减。

8.根据权利要求7所述的接收装置，

其中，在增减声压的过程中，当所述对象内容的声压根据所述用户选择而增加时，另一条对象内容的声压减少，并且当所述对象内容的声压根据所述用户选择而减少时，另一条对象内容的声压增加。

9.根据权利要求7所述的接收装置，

其中，所述控制单元进一步控制显示用户界面画面的显示过程，所述用户界面画面指示在增减声压的过程中声压增减的对象内容的声压状态。

10.一种接收方法，包括：

接收步骤，通过接收单元接收预定格式的容器，所述容器包括含有预定条数的对象内容的编码数据的音频流；和

处理步骤，用于增减声压，在增减声压中，基于指示允许每条对象内容的声压增减的范围的信息根据用户选择对所述对象内容的声压进行增减，

其中，将指示允许每条对象内容的声压增减的范围的信息插入到所述音频流的层和/或所述容器的层中。