CN110447071B

CN110447071B - 信息处理装置、信息处理方法和记录程序的可拆卸介质

Info

Publication number: CN110447071B
Application number: CN201880019499.7A
Authority: CN
Inventors: 知念彻; 辻实; 山本优树
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-03-28
Filing date: 2018-03-15
Publication date: 2024-04-26
Anticipated expiration: 2038-03-15
Also published as: JP7230799B2; EP3605531A4; US20200043505A1; US11074921B2; WO2018180531A1; JP2023040294A; JPWO2018180531A1; EP3605531A1; CN110447071A

Abstract

本技术涉及一种能够减少在发送多个音频对象的数据时要发送的数据量的信息处理装置、信息处理方法以及程序。根据本发明的一个方面的信息处理装置，针对多个假定收听位置中的预定的假定收听位置，将多个音频对象中具有在预定的假定收听位置处无法区分的声音的音频对象进行整合；并且，将由该合成的整合音频对象的数据，以及具有在预定的假定收听位置能够区分的声音的其它音频对象的数据一起发送。本技术可以应用于可以处理基于对象的音频数据的装置。

Description

信息处理装置、信息处理方法和记录程序的可拆卸介质

技术领域

本技术涉及一种信息处理装置、一种信息处理方法以及一种程序，特别是涉及能够减少在传输多个音频对象的数据时要发送的数据量的一种信息处理装置、一种信息处理方法以及一种程序。

背景技术

随着视频技术的成就，自由视点视频技术引起关注。存在着一种技术：将来自多个方向的多个摄像机捕获的图像进行组合，从而将目标对象保持为点云的运动图像，并根据观看目标对象的方向或距离观看目标对象的距离生成视频(NPL 1)。

一旦实现从自由视点观看视频，人们就开始还具有对声音的需求，要求听取声音，使他们感觉好像他们在视点的位置处。鉴于此，近年来，基于对象的音频技术正在引起关注。基于对象的音频数据通过基于每个音频对象的波形数据的元数据呈现为根据再现侧的系统的期望数量的通道的信号来被再现。

[引文列表]

[非专利文献]

[NPL 1]

筑波大学的网站，“HOMETSUKUBA FUTURE-#042:Customizing Sports Eventswith Free-Viewpoint Video”，[检索日期：2017年3月22日]，<URL：http：//www.tsukuba.ac.jp/notes/042/index.html>

发明内容

[技术问题]

在基于对象的音频数据的传输中，要发送的音频对象的数量越大，数据发送量越大。

本技术就是鉴于这种情况而制定的，其目标是使在发送多个音频对象的数据时能够减少要发送的数据量。

[解决问题的方法]

根据本技术的一个方面的信息处理装置包括：组合单元，其针对多个假定收听位置中的预定的假定收听位置，将多个音频对象中具有在预定的假定收听位置处无法区分的声音的音频对象进行组合；发送单元，发送单元，其将通过组合获得的组合音频对象的数据以及具有能够在预定的假定收听位置区分的声音的其它音频对象的数据一起发送。

基于作为组合目标的多个音频对象的音频波形数据和渲染参数，可以使组合单元生成组合音频对象的音频波形数据和渲染参数。

可以使发送单元将由组合单元生成的音频波形数据和渲染参数作为组合音频对象的数据发送，并将其它音频对象中的每个的音频波形数据和用于预定的假定收听位置的渲染参数作为其它音频对象的数据发送。

可以使组合单元将各位置处的多个音频对象组合，各位置与预定的假定收听位置相距等于或长于预定距离的距离。

可以使组合单元将以预定的假定收听位置为基准时窄于预定角度的水平角度的范围内的多个音频对象进行组合。

可以使组合单元将具有在预定的假定收听位置处无法区分并且属于同一预设组的声音的音频对象进行组合。

可以使组合单元执行音频对象组合，使得要发送的音频对象的数量成为与传输比特率对应的数量。

可以使发送单元发送包括标志信息的音频比特流，该标志信息表示音频比特流中包括的音频对象是未组合音频对象还是组合音频对象。

可以使发送单元与包括标志信息的再现管理文件一起发送音频比特流文件，该标志信息表示音频比特流中包括的音频对象是未组合音频对象还是组合音频对象。

在本技术的一个方面中，针对多个假定收听位置中的预定的假定收听位置，将多个音频对象中具有在预定的假定收听位置处无法区分的声音的音频对象进行组合；以及，将通过所述组合获得的组合音频对象的数据以及具有在所述预定的假定收听位置能够区分的声音的其它音频对象的数据一起发送。

[发明的有益效果]

本技术使得能够减少在传输多个音频对象的数据时要发送的数据量。

注意，本技术的优点不一定限于这里描述的优点，而是可以是本公开中描述的任何一个优点。

附图说明

[图1]

图1是示出根据本技术的一个实施方式的传输系统的示例性配置的图。

[图2]

图2是示出要发送的示例性对象类型的图。

[图3]

图3是示出每个物体的示例性布置的平面图。

[图4]

图4是大厅的斜视图。

[图5]

图5是示出每个对象的示例性布置的前视图。

[图6]

图6是示出每个对象的示例性布置的平面图。

[图7]

图7是示出包括组合对象的每个对象的示例性布置的平面图。

[图8]

图8是示出包括组合对象的每个对象的示例性布置的正视图。

[图9]

图9是示出内容生成装置的示例性配置的框图。

[图10]

图10是示出内容生成装置的示例性功能配置的框图。

[图11]

图11是示出再现装置的示例性功能配置的框图。

[图12]

图12是用于说明由内容生成装置执行的内容生成处理的流程图。

[图13]

图13是用于说明由内容生成装置执行的组合处理的流程图。

[图14]

图14是用于说明由内容生成装置执行的传输处理的流程图。

[图15]

图15是用于说明由再现装置执行的再现处理的流程图。

[图16]

图16是示出对象的另一示例性布置的图。

[图17]

图17是示出合并对象的另一示例性方式的图。

[图18]

图18是示出合并对象的又一示例性方式的图。

[图19]

图19是示出标志信息的示例性传输的图。

[图20]

图20是示出标志信息的其它示例性传输的图。

具体实施方式

在下文中，对用于执行本技术的实施方式进行说明。说明按以下顺序给出：

1.传输系统的配置

2.合并对象的方式

3.每个装置的示例性配置

4.每个装置的操作

5.合并对象方式的修改示例

6.修改示例

<<传输系统的配置>>

图1中所示的传输系统由内容生成装置1和经由因特网3连接的再现装置2构成。

内容生成装置1是由内容创建者管理的装置，并且被安装在正在进行现场音乐表演的大厅#1处。由内容生成装置1生成的内容经由因特网3被发送到再现装置2。可以经由未示出的服务器执行内容分发。

另一方面，再现装置2是安装在用户家中的装置，该用户查看和收听由内容生成装置1生成的现场音乐表演的内容。虽然在图1所示的示例中，仅将再现装置2示出为内容分发到其中的再现装置，但是实际上有许多连接到因特网3的再现装置。

由内容生成装置1生成的视频内容是可以切换视点的视频。另外，声音内容也是例如可以切换视点(假定的收听位置)使得收听位置与视频视点的位置匹配的声音。如果切换视点，则切换声音的定位。

声音内容被准备为基于对象的音频数据。内容中包括的音频数据包括每个音频对象的音频波形数据，以及作为用于定位每个音频对象的声源的元数据的渲染参数。在下文中，视情况将音频对象简称为对象。

再现装置2的用户可以从准备好的多个视点中选择任何视点，并且根据视点通过视频和声音来观看和收听内容。

内容生成装置1向再现装置2提供包括从用户选择的视点看到的视频的视频数据的内容，以及由用户选择的视点的基于对象的音频数据。例如，这种基于对象的音频数据以以预定方式压缩的数据的形式被发送，例如MPEG-H 3D Audio。

注意，MPEG-H 3DAudio在“ISO/IEC 23008-3：2015“Information technology--High efficiency coding and media delivery in heterogeneous environments--Part3:3D audio”中被公开，<https://www.iso.org/standard/63878.html>.”

在下文中，主要对与音频数据有关的处理进行说明。如图1中所示，在大厅#1中正在进行的现场音乐表演是现场表演，其中五人演奏贝司、鼓、吉他1(主吉他)、吉他2(侧吉他)以及舞台上的人声。在内容生成装置1处生成处理作为对象的贝司、鼓、吉他1、吉他2和人声中的每一个、每个对象的音频波形数据以及每个视点的渲染参数。

图2是示出要从内容生成装置1发送的示例性对象类型的图。

例如，如图2A中所示，如果用户从多个视点中选择了视点1，则发送五种类型的对象(贝司、鼓、吉他1、吉他2和人声)的数据。发送的数据包括对象中的每个(贝司、鼓、吉他1、吉他2和人声)的音频波形数据，以及用于视点1的每个对象的渲染参数。

另外，如果用户选择了视点2，则将吉他1和吉他2合并为一个吉他对象，并且如图2B中所示发送四种类型的对象(贝司、鼓、吉他和人声)的数据。发送的数据包括对象中的每个(贝司、鼓、吉他和人声)的音频波形数据，以及用于视点2的每个对象的渲染参数。

例如，视点2被设置到吉他1的声音和吉他2的声音无法通过人类听觉区分的位置，因为例如它们来自相同的方向。以这种方式，合并具有在用户选择的视点处不能够区分的声音的对象，并将其作为单个合并对象的数据发送。

通过合并对象并根据所选择的视点适当地将它们作为合并对象的数据发送，可以减少数据传输量。

<<合并对象的方式>>

这里，对合并对象的方式进行了说明。

(1)假设存在多个对象。对象的音频波形数据定义为：

x(n,i)i＝0,1,2,...,L-1

n是时间索引。另外，i表示对象的类型。这里，对象的数量是L。

(2)假设存在多个视点。

有关每个视点对应的对象的渲染信息定义为：

r(i,j)j＝0,1,2,...,M-1

j表示视点的类型。视点的数量是M.

(3)对应于每个视点的音频数据y(n,j)由数学式(1)表示：

[数学式.1]

这里，假设渲染信息r是增益(增益信息)。在这种情况下，渲染信息r的值范围是0到1。每个视点的音频数据由所有对象的音频波形数据的总和表示，每个对象的一段音频波形数据乘以增益。在再现装置2处执行类似于由数学式(1)示出的计算的计算。

(4)将具有在视点处不能够区分的声音的多个对象作为合并数据发送。例如，选择远离视点并且在距视点的预定水平角度范围内的对象作为具有不能够区分的声音的对象。另一方面，不合并在视点处具有能够区分声音的附近对象，而是作为独立对象发送。

(5)关于与每个视点对应的对象的渲染信息由对象的类型、对象的位置以及视点的位置定义为：

r(obj_type，obj_loc_x，obj_loc_y，obj_loc_z，lis_loc_x，lis_loc_y，lis_loc_z)

obj_type是指示对象的类型的信息，并且例如表示乐器的类型。

obj_loc_x，obj_loc_y和obj_loc_z是指示对象在三维空间中的位置的信息。

lis_loc_x，lis_loc_y和lis_loc_z是指示视点在三维空间中的位置的信息。

对于独立发送的对象，由obj_type，obj_loc_x，obj_loc_y，obj_loc_z，lis_loc_x，lis_loc_y和lis_loc_z构成的这种参数信息与渲染信息r一起发送。渲染参数由参数信息和渲染信息构成。

以下，给出具体说明。

(6)例如，如图3中所示，布置对象中的每个(贝司、鼓、吉他1、吉他2和人声)。图3是大厅#1中的舞台#11的顶视图。

(7)如图4中所示，为大厅#1设置轴X，Y和Z。图4是包括舞台#11和座椅的整个大厅#1的斜视图。原点O是舞台#11上的中心位置。视点1和视点2设置在座位中。

每个对象的坐标以米为单位表示如下：

贝司的坐标：x＝-20，y＝0，z＝0

鼓的坐标：x＝0，y＝-10，z＝0

吉他1的坐标：x＝20，y＝0，z＝0

吉他2的坐标：x＝30，y＝0，z＝0

人声的坐标：x＝0，y＝10，z＝0

(8)每个视点的坐标表示如下：

视点1：x＝25，y＝30，z＝-1

视点2：x＝-35，y＝30，z＝-1

注意，图中每个对象和每个视点的位置仅表示位置关系的图像，而不是准确地反映上述数值中的每个的位置。

(9)此时，关于视点1的每个对象的渲染信息表示如下：

有关贝司的渲染信息：

r(0,-20,0,0,25,30,-1)

有关鼓的渲染信息：

r(1,0,-10,0,25,30,-1)

有关吉他1的渲染信息：

r(2,20,0,0,25,30,-1)

有关吉他2的渲染信息：

r(3,30,0,0,25,30,-1)

有关人声的渲染信息：

r(4,0,10,0,25,30,-1)

每个对象的obj_type假定为以下值。

贝司：obj_type＝0

鼓：obj_type＝1

吉他1：obj_type＝2

吉他2：obj_type＝3

声乐：obj_type＝4

对于视点2，还在内容生成装置1处生成包括以上述方式表示的参数信息和渲染信息的渲染参数。

(10)基于上述数学式(1)，在选择视点1(j＝0)的情况下的音频数据由数学式(2)表示：

[数学式.2]

y(n，0)＝x(n，0)*r(0，-20，0，0，25，30，-1)+x(n，1)*r(1，0，-10，0，25，30，-1)+x(n，2)*r(2，20，0，0，25，30，-1)+x(n，3)*r(3，30，0，0，25，30，-1)+x(n，4)*r(4，0，10，0，25，30，-1)···(2)

但应注意，i表示x(n，i)中的以下对象：

i＝0：贝司的对象

i＝1：鼓的对象

i＝2：吉他1的对象

i＝3：吉他2的对象

i＝4：人声的对象

从视点1看到的各个对象的示例性布置在图5A中示出。在图5A中，由浅色表示的下部示出了舞台#11的侧表面。这与其它图类似。

(11)类似地，在选择视点2(j＝1)的情况下的音频数据由数学式(3)表示：

[数学式.3]

y(n，1)＝x(n，0)*r(0，-20，0，0，-35，30，-1)+x(n，1)*r(1，0，-10，0，-35，30，-1)+x(n，2)*r(2，20，0，0，-35，30，-1)+x(n，3)*r(3，30，0，0，-35，30，-1)+x(n，4)*r(4，0，10，0，-35，30，-1)···(3)

从视点2看到的各个对象的示例性布置在图5B中示出。

(12)这里，如图6中所示，从作为基准位置的视点1看，由吉他1的方向和吉他2的方向形成的水平角度θ1不同于角度θ2，从作为基准位置的视点2看，角度θ2是由吉他1的方向和吉他2的方向形成的水平角度。角度θ2比角度θ1窄。

图6是示出每个对象和视点之间的位置关系的平面图。角度θ1是连接视点1和吉他1的虚线A1-1与连接视点1和吉他2的虚线A1-2之间的角度。另外，角度θ2是连接视点2和吉他1的虚线A2-1和连接视点2和吉他2的虚线A2-2之间的角度。

(13)角度θ1被认为是允许人类听觉区分声音的角度，即，允许人类听觉将吉他1的声音和吉他2的声音识别为来自不同方向的声音的角度。另一方面，角度θ2被认为是不允许人类听觉区分声音的角度。此时，可以使用数学式(4)替换视点2的音频数据：

[数学式.4]

y(n，1)＝x(n，0)*r(0，-20，0，0，-35，30，-1)+x(n，1)*r(1，0，-10，0，-35，30，-1)+x(n，5)*r(5，25，0，0，-35，30，-1)+x(n，4)*r(3，0，10，0，-35，30，-1)···(4)

在数学式(4)中，x(n，5)由数学式(5)表示：

[数学式.5]

x(n，5)＝x(n，2)+x(n，3) ···(5)

也就是说，数学式(5)表示通过将吉他1和吉他2合并为吉他1的音频波形数据和吉他2的音频波形数据之和而获得的一个对象的音频波形数据。通过合并吉他1和吉他2获得的一个组合对象的obj_type是obj_type＝5。

另外，例如，关于组合对象的渲染信息由数学式(6)表示为关于吉他1的渲染信息和关于吉他2的渲染信息的平均值：

[数学式.6]

r(5，25，0，0，-35，30，-1)＝(r(2，20，0，0，-35，30，-1)+r(3，30，0，0，-35，30，-1))/2···(6)

以这种方式，表示为obj_type＝5的组合对象对应于音频波形数据x(n，5)，并且使用渲染信息r(5,25,0,0,-35,30,-1)进行处理。在吉他1和吉他2合并成一个对象的情况下各个对象的示例性布置在图7中示出。

从视点2看到的包括组合对象的各个对象的示例性布置在图8中示出。尽管从视点2看到的视频分别呈现吉他1和吉他2的图像，但是只有一个吉他被布置为音频对象。

(14)以这种方式，合并在所选视点处在听觉上不能够区分的对象，并作为单个对象数据被发送。

由此，内容生成装置1可以减少发送数据的对象的数量，并且可以减少数据传输量。另外，由于要渲染的对象的数量很少，所以再现装置2可以减少渲染所需的计算量。

注意，尽管存在作为对象的人声，其在角度θ2的水平角度范围内，如从图6的示例中的吉他1和吉他2之外的视点2所看到的，人声是靠近视点2的物体，并且可以与吉他1和吉他2区分开。

<<每个装置的示例性配置>>

<内容生成装置1的配置>

图9是示出内容生成装置1的示例性配置的框图。

CPU(中央处理单元)21、ROM(只读存储器)22和RAM(随机存取存储器)23通过总线24互连。总线24进一步连接有输入/输出接口25。输入/输出接口25与输入单元26、输出单元27、存储单元28、通信单元29和驱动器30连接。

输入单元26由键盘、鼠标等构成。输入单元26输出表示由用户操纵的内容的信号。

输出单元27由诸如LCD(液晶显示器)或有机EL显示器的显示器和扬声器构成。

存储单元28由硬盘、非易失性存储器等构成。存储单元28存储各种类型的数据，例如CPU 21要执行的程序和内容。

通信单元29由网络接口等构成，并且经由因特网3执行与外部装置的通信。

驱动器30将数据写入附加的可拆卸介质31中，并读出记录在可拆卸介质31中的数据。

再现装置2也具有与图9中所示的配置相同的配置。在下文中，通过适当地参考图9中所示的配置作为再现装置2的配置来给出说明。

图10是示出内容生成装置1的示例性功能配置的框图。

图10中所示的配置的至少一部分由图9中执行预定程序的CPU 21实现。在内容生成装置1中，实现了音频编码器51、元数据编码器52、音频生成单元53、视频生成单元54、内容存储单元55和传输控制单元56。

音频编码器51获取由麦克风(未示出)收集的现场音乐表演中的声音信号，并生成每个对象的音频波形数据。

元数据编码器52根据内容创建者的操作，为每个视点生成每个对象的渲染参数。由元数据编码器52生成在大厅#1中设置的多个视点中的每一个的渲染参数。

音频生成单元53将由音频编码器51生成的音频波形数据与由元数据编码器52生成的渲染参数相关联，从而为每个视点生成基于对象的音频数据。音频生成单元53将针对每个视点生成的音频数据输出至内容存储单元55。

在音频生成单元53中，实现组合单元61。组合单元61适当地执行对象的组合。例如，组合单元61读出存储在内容存储单元55中的每个视点的音频数据，对可以组合的对象进行组合，并将通过该组合获得的音频数据存储在内容存储单元55中。

视频生成单元54获取由安装在每个视点的位置处的摄像机捕获的视频的数据，并以预定的编码方式对数据进行编码，从而生成针对每个视点的视频数据。视频生成单元54将针对每个视点生成的视频数据输出至内容存储单元55。

内容存储单元55将由音频生成单元53生成的针对每个视点的音频数据和由视频生成单元54生成的针对每个视点的视频数据相互关联地存储。

传输控制单元56控制通信单元29，并执行与再现装置2的通信。传输控制单元56接收选择视点信息，该选择视点信息是表示由再现装置2的用户选择的视点的信息，并将由对应于所选视点的视频数据和音频数据组成的内容发送至再现装置2。

<再现装置2的配置>

图11是示出再现装置2的示例性功能配置的框图。

图11中所示的配置的至少一部分由图9中执行预定程序的CPU 21实现。在再现装置2中，实现了内容获取单元71、分离单元72、音频再现单元73和视频再现单元74。

如果用户选择了视点，则内容获取单元71控制通信单元29，并将选择视点信息发送至内容生成装置1。内容获取单元71响应于发送选择视点信息而接收并获取从内容生成装置1发送的内容作。内容生成装置1发送包括与用户选择的视点相对应的视频数据和音频数据的内容。内容获取单元71将获取的内容输出至分离单元72。

分离单元72分离从内容获取单元71提供的内容中包括的视频数据和音频数据。分离单元72将内容的视频数据输出至视频再现单元74，并将内容的音频数据输出至音频再现单元73。

基于渲染参数，音频再现单元73执行构成由分离单元72提供的音频数据的音频波形数据的渲染，并且使得从构成输出单元27的扬声器输出的声音内容。

视频再现单元74对从分离单元72提供的视频数据进行解码，并且从在构成输出单元27的显示器上显示的预定视点看到内容的视频。

用于复制内容的扬声器和显示器可以作为连接到复制装置2的外部装置来制备。

<<每个装置的操作>>

接下来，解释具有类似于上述配置的内容生成装置1和再现装置2的操作。

<内容生成装置1的操作>

-内容生成过程

首先，参考图12所示的流程图对由内容生成装置1执行的用于生成内容的处理进行说明。

图12中所示的过程包括：例如，当现场音乐表演开始时，将针对每个视点的音频数据和每个对象的声音信号输入至内容生成装置1。

多个摄像机安装在大厅#1中，并且由这些摄像机捕获的视频被输入至内容生成装置1。此外，麦克风安装在大厅#1中的每个对象附近，并且将由这些麦克风获取的声音信号输入至内容生成装置1。

在步骤S1，视频生成单元54针对每个视点获取由摄像机捕获的视频的数据，并生成每个视点的视频数据。

在步骤S2，音频编码器51获取每个对象的声音信号，并生成每个对象的音频波形数据。在上述示例中，生成对象中的每个，贝司、鼓、吉他1、吉他2和人声的音频波形数据。

在步骤S3，元数据编码器52根据内容创建者的操作，为每个视点生成每个对象的渲染参数。

例如，如果如上所述在大厅#1中设置了视点1和视点2，则针对视点1的对象中的每个(贝司、鼓、吉他1、吉他2和人声)生成一组渲染参数，并且针对视点2的对象中的每个(贝司、鼓、吉他1、吉他2和人声)生成一组渲染参数。

在步骤S4，内容存储单元55将音频数据与针对每个视点的视频数据相关联，从而针对每个视点生成和存储内容。

上述过程在现场音乐演奏过程中反复进行。例如，当现场音乐表演结束时，图12的过程结束。

-对象组合过程

接下来，参考图13所示的流程图对由内容生成装置1执行的组合对象的过程进行说明。

例如，在生成每个对象(低音、鼓、吉他1、吉他2和人声)的一组音频波形数据之后，按照预定的时间执行图13中所示的过程，并针对每个视点生成每个对象的渲染参数。

在步骤S11，组合单元61关注生成渲染参数的多个视点中的预定的一个视点。

在步骤S12，基于渲染参数中包括的参数信息，组合单元61识别每个对象的位置，并且确定从作为参考位置而关注的视点测量到的每个对象的距离。

在步骤S13，组合单元61确定是否存在远离正在关注的视点的多个对象。例如，距离等于或长于预设为阈值的距离的位置处的对象被视为远处对象。如果在步骤S13确定不存在多个远处对象，则流程返回到步骤S11，并且在切换关注的视点的同时重复上述过程。

另一方面，如果在步骤S13确定存在多个远处对象，则处理进入步骤S14。如果选择视点2作为要关注的视点，则例如，鼓、吉他1和吉他2被确定为远处对象。

在步骤S14，组合单元61确定多个远处对象是否在预定水平角度范围内。也就是说，在该示例中，远离视点并且在距视点的预定水平角度范围内的对象被处理为具有不能够区分的声音的对象。

如果在步骤S14确定多个远处对象不在预定水平角度范围内，则在步骤S15，组合单元61将所有对象设置为针对关注的视点的传输目标。在这种情况下，如果在传输时选择了关注的视点，则类似于如上所述选择视点1的情况，发送所有对象的音频波形数据和视点的每个对象的渲染参数。

另一方面，如果在步骤S14确定多个远处对象在预定水平角度范围内，则在步骤S16，组合单元61合并预定水平角度范围内的多个远处对象，并将组合对象设定为传输目标。在这种情况下，如果在内容传输时选择了关注的视点，则组合对象的音频波形数据和渲染参数与未组合的独立对象的音频波形数据和渲染参数一起发送。

在步骤S17，组合单元61确定预定水平角度范围内的远处对象的音频波形数据的总和，从而生成组合对象的音频波形数据。该过程等同于上面说明的数学式(5)的计算过程。

在步骤S18，组合单元61确定预定水平角度范围内的远处对象的渲染参数的平均值，从而生成组合对象的渲染参数。该过程等同于上面说明的数学式(6)的计算过程。

组合对象的音频波形数据和渲染参数被存储在内容存储单元55中，并且被管理为当选择正在关注的视点时要发送的数据。

在步骤S15设置传输目标之后，或者在步骤S18生成组合对象的渲染参数之后，在步骤S19，组合单元61确定是否已经关注了所有视点。如果在步骤S19确定存在未被关注的视点，则流程返回至步骤S11，并且在切换关注的视点时重复上述处理。

另一方面，如果在步骤S19确定所有视点都已经得到了关注，则结束图13中所示的过程。

利用上述过程，具有不能够从视点中区分的声音的对象被合并到组合对象中。

图13中所示的过程可以响应于从再现装置2发送选择视点信息而执行。使用由用户选择的视点作为正在关注的视点来执行图13的处理，并且适当地执行对象的组合。

不是远离视点并且在从视点看到的预定水平角度范围内的对象，而是远离视点的对象可以被处理为具有不能够区分的声音的对象。另外，从视点看到的在预定水平角度范围内的对象可以被处理为具有不能够区分的声音的对象。

可以计算对象之间的距离，并且其间具有比阈值距离短的距离的对象可以合并为组合对象。

如果掩蔽另一个对象的音频波形数据的一个对象的音频波形数据的分量的量大于阈值，则这些对象可以被处理为具有不能够区分的声音的对象。以这种方式，关于具有不能够区分的声音的对象的确定方式可以是任意的。

-内容传输过程

接下来，参考图14所示的流程图说明由内容生成装置1执行的用于发送内容的过程。

例如，当再现装置2请求开始内容传输时，图4中所示的过程开始，并且从再现装置2发送选择视点信息。

在步骤S31，传输控制单元56接收从再现装置2发送的选择视点信息。

在步骤S32，传输控制单元56从内容存储单元55读出由再现装置2的用户选择的视点的视频数据，以及用于所选视点的每个对象的音频波形数据和渲染参数，并发送它们。对于组合对象，发送针对组合对象的音频数据生成的音频波形数据和渲染参数。

重复执行上述处理直到内容传输结束。当内容传输结束时，结束图14中所示的过程。

<再现装置2的操作>

接下来，参考图15所示的流程图对由再现装置2执行的用于再现内容的过程进行说明。

在步骤S101，内容获取单元71将表示用户选择的视点的信息作为选择视点信息发送至内容生成装置1。

例如，在开始观看和收听内容之前，基于从内容生成装置1发送的信息显示要用于选择从多个准备好的视点内容中的哪个视点被观看和收听的屏幕。响应于发送选择视点信息，内容生成装置1发送包括用户选择的视点的视频数据和音频数据的内容。

在步骤S102，内容获取单元71接收并获取从内容生成装置1发送的内容。

在步骤S103，分离单元72分离包括在内容中的视频数据和音频数据。

在步骤S104，视频再现单元74对从分离单元72提供的视频数据进行解码，并且从显示在显示器上的预定视点看到内容的视频。

在步骤S105，基于每个对象的渲染参数，音频再现单元73执行从分离单元72提供的音频数据中包括的每个对象的音频波形数据的渲染，并且使声音从扬声器输出。

重复执行上述处理，直到内容再现结束。当内容再现结束时，结束图15中所示的处理。

上述一系列处理可以减少要发送的对象的数量，并且可以减少数据传输量。

<<合并对象的方式的修改示例>>

(1)根据传输比特率合并的方式

可以根据传输比特率来确定最大对象数量，并且可以合并对象，使得对象的数量不超过最大数量。

图16是示出对象的另一示例性布置的图。图16示出了贝司、鼓、吉他1、吉他2、人声1至6、钢琴、小号和萨克斯管的演奏的示例。在图16所示的示例中，设置用于从正面观看舞台#11的视点3。

例如，如果根据传输比特率的最大对象数是3，并且选择了视点3，则基于根据类似于上面提到的角度的确定将钢琴、贝司、人声1和人声2合并为第一对象。钢琴、贝司、人声1和人声2是从视点3看到的作为基准位置的为舞台#11的左侧设置的虚线A11和虚线A12之间的角度范围内的对象。

类似地，鼓、人声3和人声4被合并为第二对象。鼓、人声3和人声4是在为舞台#11的中间设置的虚线A12和虚线A13之间的角度范围内的对象。

此外，小号、萨克斯、吉他1、吉他2，人声5和人声6被合并为第三对象。小号、萨克斯、吉他1、吉他2、人声5和人声6是在为舞台#11的右侧设置的虚线A13和虚线A14之间的角度范围内的对象。

以上述方式，生成每个对象(组合对象)的音频波形数据和渲染参数，并发送三个对象的音频数据。以这种方式合并对象的组合对象的数量可以设置为三个或更多。

图17是示出合并对象的另一示例性方式的图。例如，如果根据传输比特率的最大对象数是6，并且选择了视点3，则如图17中使用虚线分段示出的，基于根据如上所述的角度和距离的确定，合并各个对象。

在图17所示的示例中，钢琴和贝司被合并为第一对象，以及人声1和人声2被合并为第二对象。另外，鼓被视为独立的第三对象，并且人声3和人声4被合并为第四对象。小号、萨克斯、吉他1和吉他2被合并为第五对象，人声5和人声6被合并为第六对象。

与当采用图17中示出的合并的方式相比，图16中示出的合并的方式是在传输比特率低的情况下选择的合并的方式。

通过根据传输比特率确定要发送的对象的数量，在传输比特率高的情况下，允许观看和收听高质量的声音，而在传输比特率较低的情况下，允许观看和收听低质量的声音，从而使得实现有对应于传输比特率的声音质量的内容传输。

例如，作为在选择视点3的情况下要发送的音频数据，内容生成装置1的内容存储单元55存储如图16所示的三个对象的音频数据、如图17中所示的六个对象的音频数据。

传输控制单元56在开始内容传输之前对再现装置2的通信环境进行分类，并且通过根据传输比特率选择三个对象的音频数据或六个对象的音频数据来执行传输。

(2)对象分组

尽管在上述示例中，渲染信息是增益，但它可以是混响信息。在构成混响信息的参数中，重要的参数是混响量。混响量是在墙壁、地板等处的空间反射分量的量。混响量根据对象(乐器)和观看者/收听者之间的距离而变化。通常，距离越短，混响量越小，而距离越长，混响量越大。

除了基于合并对象的距离或角度判断声音是否能够区分之外，对象之间的距离可以用作合并对象的另一索引。图18中示出了合并对象的示例，其中也考虑了对象之间的距离。

在图18中所示的示例中，如通过使用虚线分段所示对对象进行分组，并且合并属于每个组的对象。属于每个组的对象如下：

第1组：人声1和人声2

第2组：人声3和人声4

第3组：人声5和人声6

第4组：贝司

第5组：钢琴

第6组：鼓

第7组：吉他1和2

第8组：小号和萨克斯

在这种情况下，作为在选择视点3的情况下要发送的音频数据，内容生成装置1的内容存储单元55存储八个对象的音频数据。

以这种方式，即使在声音不能够区分的角度范围内的对象也可以被处理为应用了不同混响的对象。

以这种方式，可以预先设置由可以合并的对象组成的组。只有满足上述基于距离和角度的条件且属于同一组的对象才能被合并到组合对象中。

不仅可以根据对象之间的距离来设置组，还可以根据对象的类型、对象的位置等来设置组。

注意，渲染信息不仅可以是增益或混响信息，还可以是均衡器信息、压缩器信息或混响信息。也就是说，渲染信息r可以是表示增益、均衡器信息、压缩器信息和混响信息中的至少任何一种。

(3)对象音频编码的效率的提高

在下面解释的示例中，两个弦乐器的对象被合并成一个弦乐器对象。将一个弦乐器对象作为组合对象分配新的对象类型(obj_type)。

如果假设作为要合并的对象的小提琴1的音频波形数据和小提琴2的音频波形数据分别是x(n，10)和x(n，11)，则作为组合对象的弦乐器对象的音频波形数据x(n，14)由下面所示的数学式(7)表示：

[数学式.7]

x(n，14)＝x(n，10)+x(n，11)···(7)

这里，由于小提琴1和小提琴2是相同的弦乐器，因此两段音频波形数据高度相关。

由下面示出的数学式(8)表示的小提琴1和小提琴2的音频波形数据的差分量x(n，15)具有低信息熵，并且在编码的情况下仅需要低比特率。

[数学式.8]

x(n，15)＝x(n，10)-x(n，11)···(8)

如下所述，将由数学式(8)表示的差分量x(n，15)与表示为和分量的音频波形数据x(n，14)一起发送，可以以低比特率实现高质量声音。

假设通常内容生成装置1将音频波形数据x(n，14)发送到再现装置2。这里，如果在再现装置2侧上执行转换成高质量声音，则差分量x(n，15)也被发送。

通过执行由下面示出的数学式(9)和数学式(10)所示的计算，已经接收到差量x(n，15)以及音频波形数据x(n，14)的再现可以再现装置2小提琴1音频波形数据x(n，10)和小提琴2的音频波形数据x(n，11)。

[数学式.9]

(x(n，14)+x(n，15))/2＝(x(n，10)+x(n，11)+x(n，10)-x(n，11))/2＝x(n，10)···(9)

[数学式.10]

(x(n，14)-x(n，15))/2＝(x(n，10)+x(n，11)-x(n，10)+x(n，11))/2＝x(n，11)···(10)

在这种情况下，如果选择预定的视点，则内容生成装置1的内容存储单元55存储差分量x(n，15)以及音频波形数据x(n，14)作为要发送的弦乐器对象音频数据。

在内容生成装置1处管理指示保留差分量数据的标志。例如，将标志与其它信息一起从内容生成装置1发送到再现装置2，并且再现装置2识别所保留的差分量数据。

以这种方式，通过在内容生成装置1侧甚至保留高度相关的对象的音频波形数据的差分量，就可以根据两个级别的传输比特率来调整声音质量。也就是说，如果再现装置2的通信环境良好(如果传输比特率高)，则发送音频波形数据x(n，14)和差分量x(n，15)，而如果通信环境不好，则只发送音频波形数据x(n，14)。

注意，音频波形数据x(n，14)和差分量x(n，15)之和的数据量小于音频波形数据x(n，10)和x(n，11)之和的数据量。

此外，如果对象的数量是四，则可以类似地合并对象。如果合并了四种乐器，则合并对象的音频波形数据x(n，14)由下面所示的数学式(11)表示：

[数学式.11]

x(n，14)＝x(n，10)+x(n，11)+x(n，12)+x(n，13)···(11)

这里，x(n，10)，x(n，11)，x(n，12)和x(n，13)分别是小提琴1的音频波形数据、小提琴2的音频波形数据、小提琴3的音频波形数据和小提琴4的音频波形数据。

在这种情况下，由下面示出的数学(12)至(14)表示的差分量数据由内容生成装置1保留。

[数学式.12]

x(n，15)＝x(n，10)+x(n，11)-x(n，12)-x(n，13)···(12)

[数学式.13]

x(n，16)＝x(n，10)-x(n，11)+x(n，12)-x(n，13)···(13)

[数学式.14]

x(n，17)＝x(n，10)-x(n，11)-x(n，12)+x(n，13)···(14)

假设通常内容生成装置1将音频波形数据x(n，14)发送至再现装置2。这里，如果在再现装置2侧执行转换成高质量声音，则差分量x(n，15)，x(n，16)和x(n，17)也被发送。

通过执行下面的数学式(15)至(18)所示的计算，已经接收到差分量x(n，15)，x(n，16)和x(n，17)以及音频波形数据x(n，14)再现装置2可以再现小提琴1的音频波形数据x(n，10)、小提琴2的音频波形数据x(n，11)、小提琴3的音频波形数据x(n，12)和小提琴4的音频波形数据x(n，13)。

[数学式.15]

(x(n，14)+x(n，15)+x(n，16)+x(n，17))/4＝x(n，10)···(15)

[数学式.16]

(x(n，14)+x(n，15)-x(n，16)-x(n，17))/4＝x(n，11)···(16)

[数学式.17]

(x(n，14)-x(n，15)+x(n，16)-x(n，17))/4＝x(n，12)···(17)

[数学式.18]

(x(n，14)-x(n，15)-x(n，16)+x(n，17))/4＝x(n，13)···(18)

此外，从下面示出的数学式(19)可知，如果存在音频波形数据x(n，14)和差分量x(n，15)，则可以获取小提琴1的音频波形数据和小提琴2的音频波形数据的总和(x(n，10)+x(n，11))。另外，从下面示出的数学式(20)可知，如果存在音频波形数据x(n，14)和差分量x(n，15)，则可以获取小提琴3的音频波形数据和小提琴4的音频波形数的总和(x(n，12)+x(n，13))据。

[数学式.19]

(x(n，14)+x(n，15))/2＝x(n，10)+x(n，11)···(19)

[数学式.20]

(x(n，14)-x(n，15))/2＝x(n，12)+x(n，13)···(20)

例如，如果再现装置2可以支持的传输比特率高于第一阈值，并且通信环境在三个等级中是最好的，则从内容生成装置1发送差分量x(n,15)，x(n,16)和x(n,17)以及通过合并四个对象而获得的音频波形数据x(n,14)。

在再现装置2处执行数学式(15)至(18)所示的计算，获取各个对象的音频波形数据，小提琴1、小提琴2、小提琴3和小提琴4，并且以高质量执行再现。

另外，如果再现装置2可以支持的传输比特率低于上述第一阈值，但是高于第二阈值，并且通信环境相对较好，则差分量x(n,15)与通过合并四个对象获得的音频波形数据x(n，14)从内容生成装置1一起发送。

在再现装置2处执行由数学式(19)和数学式(20)所示的计算，获取通过合并小提琴1和小提琴2获得的音频波形数据，以及通过合并小提琴3和小提琴4获得的音频波形数据，并且以比仅使用音频波形数据x(n，14)的情况下执行的质量更高的质量执行再现。

如果再现装置2可以支持的传输比特率低于上述第二阈值，则从内容生成装置1发送通过合并四个对象而获得的音频波形数据x(n,14)。

以这种方式，可以由内容生成装置1执行根据传输比特率的分级传输(编码)。

可以根据再现装置2的用户支付的费用来执行这种分级传输。例如，如果用户支付了正常费用，则仅执行音频波形数据x(n,14)的传输，而如果用户支付高于正常费用的费用，则执行音频波形数据x(n,14)的传输和差分量。

(4)与点云运动图像数据的配合

假设由内容生成装置1发送的内容的视频数据是点云运动图像数据。点云运动图像数据和对象音频数据都具有关于三维空间中的坐标的数据，并且用作那些坐标处的颜色数据和音频数据。

注意，点云运动图像数据例如在“Microsoft“A Voxelized Point CloudDataset，”<https://jpeg.org/plenodb/pc/microsoft/>.”中公开。

内容生成装置1保持三维坐标作为关于人声的位置的信息，例如，并且与坐标相关联地保持点云运动图像数据和音频对象数据。从而，再现装置2可以容易地获取期望对象的点云运动图像数据和音频对象数据。

《修改示例》

由内容生成装置1发送的音频比特流可以包括标志信息，该标志信息指示由流发送的对象是未合并的独立对象还是组合对象。包括标志信息的音频比特流在图19中被示出。

图19中所示的音频比特流也包括例如对象的音频波形数据和渲染参数。

图19中示出的标志信息可以是指示通过流发送的对象是否是独立对象的信息，或者指示正在发送的对象是否是组合对象的信息。

因此，通过分析流，再现装置2可以识别包括在流中的数据是组合对象的数据还是独立对象的数据。

这种标志信息可以在与比特流一起发送的再现管理文件中描述，如图20中所示。再现管理文件也描述诸如作为再现管理文件的再现目标的流的流ID的信息(通过使用再现管理文件再现的流)。该再现管理文件可以被配置为MPEG-DASH中的MPD(媒体呈现描述)文件。

因此，通过参考再现管理文件，再现装置2可以识别由流发送的对象是组合对象还是独立对象。

尽管说明了要由再现装置2再现的内容包括视频数据和基于对象的音频数据，但是内容可以不包括视频数据，而是可以包括基于对象的音频数据。如果从准备了渲染参数的收听位置选择预定的收听位置，则使用所选收听位置的渲染参数来再现每个音频对象。

本技术的实施方式不限于上述实施方式，而是可以在不脱离本技术的主旨的范围内以各种方式改变。

例如，本技术可以具有云计算的配置，其中多个装置经由网络共享一个功能，并且彼此协作地执行过程。

另外，在上述流程图中说明的各个步骤可以由一个装置执行，或者可以由多个装置以共享方式执行。

此外，如果一个步骤包括多个过程，则一个步骤中包括的多个过程可以由一个装置执行，或者可以由多个装置以共享方式执行。

仅作为示例示出了本说明书中描述的优点，优点不限于此，并且可以存在其它优点。

-关于程序

上述一系列处理可以由硬件执行，也可以由软件执行。如果通过软件执行一系列处理，则将构成软件的程序安装在并入专用硬件的计算机、通用个人计算机等中。

要安装的程序被提供为记录在图9中所示的可拆卸介质31中的程序，该可拆卸介质31由光盘(CD-ROM)(光盘-只读存储器)、DVD(数字通用光盘)等、半导体存储器等构成。另外，它可以经由诸如局域网、因特网或数字广播之类的无线或有线发送介质提供。程序可以被预先安装在ROM 22或存储单元28中。

注意，要由计算机执行的程序可以是按照本说明书中说明的顺序按时间顺序执行过程的程序，或者可以是并行执行处理的程序，或者在调用过程时或者在不同的时点执行所需的时间。

-关于组合

本技术还可以以下述方式配置。

(1)一种信息处理装置，包括：

组合单元，其针对多个假定收听位置中的预定的假定收听位置，将多个音频对象中具有在所述预定的假定收听位置处无法区分的声音的音频对象进行组合；以及

发送单元，其将通过所述组合获得的组合音频对象的数据以及具有能够在所述预定的假定收听位置区分的声音的其它音频对象的数据一起发送。

(2)根据上述(1)所述的信息处理装置，其中，

基于作为所述组合的目标的多个音频对象的音频波形数据和渲染参数，所述组合单元生成组合音频对象的音频波形数据和渲染参数。

(3)根据上述(2)所述的信息处理装置，其中，

所述发送单元将由所述组合单元生成的所述音频波形数据和所述渲染参数作为所述组合音频对象的数据发送，并将所述其它音频对象中的每个的音频波形数据和用于所述预定的假定收听位置的渲染参数作为所述其它音频对象的数据发送。

(4)根据上述(1)至(3)中任一项所述的信息处理装置，其中，

所述组合单元将各位置处的多个音频对象组合，所述各位置与所述预定的假定收听位置相距等于或长于预定距离的距离。

(5)根据上述(1)至(4)中任一项所述的信息处理装置，其中，

所述组合单元将以所述预定的假定收听位置为基准时窄于预定角度的水平角度的范围内的多个音频对象进行组合。

(6)根据上述(1)至(5)中任一项所述的信息处理装置，其中，

所述组合单元将具有在所述预定的假定收听位置处无法区分并且属于同一预设组的声音的音频对象进行组合。

(7)根据上述(1)至(6)中任一项所述的信息处理装置，其中，

所述组合单元执行音频对象组合，使得要发送的所述音频对象的数量成为与传输比特率对应的数量。

(8)根据上述(1)至(7)中任一项所述的信息处理装置，其中，

所述发送单元发送包括标志信息的音频比特流，所述标志信息表示所述音频比特流中包括的音频对象是未组合音频对象还是所述组合音频对象。

(9)根据上述(1)至(7)中任一项所述的信息处理装置，其中，

所述发送单元发送音频比特流文件以及包括标志信息的再现管理文件，所述标志信息表示所述音频比特流中包括的音频对象是未组合音频对象还是所述组合音频对象。

(10)一种信息处理方法，包括以下步骤：

针对多个假定收听位置中的预定的假定收听位置，将多个音频对象中具有在所述预定的假定收听位置处无法区分的声音的音频对象进行组合；以及

将通过所述组合获得的组合音频对象的数据以及具有在所述预定的假定收听位置能够区分的声音的其它音频对象的数据一起发送。

(11)一种用于使计算机执行处理的程序，包括以下步骤：

针对多个假定收听位置中的所述预定的假定收听位置，将多个音频对象中具有在所述预定的假定收听位置处无法区分的声音的音频对象进行组合；以及

[附图标记列表]

1：内容生成装置，2：再现装置，51：音频编码器，52：元数据编码器，53：音频生成单元，54：视频生成单元，55：内容存储单元，56：传输控制单元，61：组合单元，71：内容获取单元，72：分离单元，73：音频再现单元，74：视频再现单元，73：音频再现单元

Claims

1.一种信息处理装置，包括：

组合单元，其针对多个假定收听位置中的预定的假定收听位置，将多个音频对象中具有在所述预定的假定收听位置处无法区分的声音的多个目标音频对象进行组合；以及

发送单元，其将通过所述组合获得的组合音频对象的数据以及具有能够在所述预定的假定收听位置区分的声音的其它音频对象的数据一起发送；

其中，所述组合单元被配置成：

如果所述多个音频对象中的多个对象位于与所述预定的假定收听位置相距等于或大于预定距离的距离的位置处，并且，从所述假定收听位置测量，所述多个对象相对彼此在一水平角度的范围内，该水平角度比允许人类听觉区分声音的角度窄，则将所述多个对象确定为所述多个目标音频对象。

2.根据权利要求1所述的信息处理装置，其中，

基于作为所述组合的目标的所述多个目标音频对象的音频波形数据和渲染参数，所述组合单元生成组合音频对象的音频波形数据和渲染参数。

3.根据权利要求2所述的信息处理装置，其中，

4.根据权利要求1所述的信息处理装置，其中，

所述组合单元执行音频对象组合，使得要发送的音频对象的数量成为与传输比特率对应的数量。

5.根据权利要求1所述的信息处理装置，其中，

6.根据权利要求1所述的信息处理装置，其中，

7.一种信息处理装置，包括：

其中，所述组合单元被配置成：

如果所述多个音频对象中的多个对象位于与所述预定的假定收听位置相距等于或大于预定距离的距离的位置处，从所述假定收听位置测量，所述多个对象相对彼此在一水平角度的范围内，该水平角度比允许人类听觉区分声音的角度窄，并且，所述多个对象具有属于同一预设组的声音，则将所述多个对象确定为所述多个目标音频对象。

8.一种信息处理方法，包括以下步骤：

针对多个假定收听位置中的预定的假定收听位置，将多个音频对象中具有在所述预定的假定收听位置处无法区分的声音的多个目标音频对象进行组合；以及

将通过所述组合获得的组合音频对象的数据以及具有在所述预定的假定收听位置能够区分的声音的其它音频对象的数据一起发送；

其中，通过以下操作确定所述多个目标音频对象：

9.一种记录程序的可拆卸介质，所述程序用于使计算机执行包括以下步骤的处理

其中，通过以下操作确定所述多个目标音频对象：

如果所述多个音频对象中的多个对象位于与所述预定的假定收听位置相距等于或大于预定距离的距离的位置处，并且，从所述假定收听位置处测量，所述多个对象相对彼此在一水平角度的范围内，该水平角度比允许人类听觉区分声音的角度窄，则将所述多个对象确定为所述多个目标音频对象。

10.一种再现装置，包括：

内容获取单元，被配置成从内容生成装置获取包括与用户选择的视点相对应的视频数据和音频数据的内容；

分离单元，被配置成分离从所述内容获取单元提供的内容中的所述视频数据和所述音频数据；

视频再现单元，被配置成对从所述分离单元提供的所述视频数据进行解码；

音频再现单元，被配置成执行对从所述分离单元提供的所述音频数据中包括的多个音频对象中的每个音频对象的音频波形数据的渲染；

其中，所述多个音频对象包括通过组合多个目标音频对象获得的组合音频对象；并且

所述多个目标音频对象满足以下条件：

所述多个目标音频对象位于与所述视点相距等于或大于预定距离的距离的位置处，并且，从所述视点测量，所述多个目标音频对象相对彼此在一水平角度的范围内，该水平角度比允许人类听觉区分声音的角度窄。

11.根据权利要求10所述的再现装置，其中，所述音频数据包括所述组合音频对象的音频波形数据和渲染参数；并且

所述音频再现单元被配置成基于所述组合音频对象的渲染参数对所述组合音频对象的音频波形数据进行渲染。

12.根据权利要求10所述的再现装置，其中，所述内容获取单元还被配置成向所述内容生成装置发送关于所述视点的视点信息。