CN115211146A

CN115211146A - 音频表示和相关联的渲染

Info

Publication number: CN115211146A
Application number: CN202180016741.7A
Authority: CN
Inventors: A·拉莫; L·拉克索南; S·S·梅特
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2020-02-28
Filing date: 2021-02-10
Publication date: 2022-10-18
Also published as: JP2023516303A; WO2021170903A1; GB202002900D0; US20250056176A1; EP4085661A1; EP4085661A4; US12167220B2; US20230085918A1

Abstract

一种用于沉浸式音频通信的装置，包括被配置为执行以下操作的部件：接收至少第一音频数据流和第二音频数据流，其中，第一音频数据流和第二音频数据流中的至少一个包括空间音频流以在通信期间启用沉浸式音频；确定第一音频数据流和第二音频数据流中的每个音频数据流的类型，以识别所接收的第一音频数据流和第二音频数据流中的哪个音频数据流包括该空间音频流；根据所确定的类型，用至少一个参数处理第二音频数据流；以及渲染第一音频数据流和经处理的第二音频数据流。

Description

音频表示和相关联的渲染

技术领域

本申请涉及用于声场相关的音频表示和相关联的渲染的装置和方法，但非排他地涉及用于音频编码器和解码器的音频表示的装置和方法。

背景技术

正在实现沉浸式音频编解码器，从而支持范围从低比特率操作到透明度的大量操作点。这种编解码器的示例是沉浸式语音和音频服务(IVAS)编解码器，其被设计为适于在诸如3GPP 4G/5G网络之类的通信网络上使用。这种沉浸式服务包括例如用于诸如虚拟现实(VR)、增强现实(AR)和混合现实(MR)之类的应用的沉浸式语音和音频的使用。预期该音频编解码器处理语音、音乐和通用音频的编码、解码和渲染。此外还预期该音频编解码器支持基于通道的音频和基于场景的音频输入，包括关于声场和声源的空间信息。还预期该编解码器以低延迟进行操作以使能会话服务以及在各种传输条件下支持高差错鲁棒性。

此外，参数化空间音频处理是使用一组参数来描述声音的空间方面的音频信号处理领域。例如，在从麦克风阵列进行参数化空间音频捕获时，从麦克风阵列信号估计一组参数是一种典型且有效的选择，该组参数诸如是频带中声音的方向、以及频带中被捕获声音的定向与非定向部分的比率。众所周知，这些参数很好地描述了在麦克风阵列的位置处的被捕获声音的感知空间特性。这些参数可以相应地在空间声音的合成中使用，以用于双耳式耳机、扬声器、或诸如全景环绕声(Ambisonics)之类的其他格式。

发明内容

根据第一方面，提供了一种用于沉浸式音频通信的装置，其包括被配置为执行以下操作的部件：接收至少第一音频数据流和第二音频数据流，其中，第一音频数据流和第二音频数据流中的至少一个包括空间音频流以在通信期间启用沉浸式音频；确定第一音频数据流和第二音频数据流中的每个音频数据流的类型，以识别所接收的第一音频数据流和第二音频数据流中的哪个音频数据流包括该空间音频流；根据所确定的类型，用至少一个参数处理第二音频数据流；以及渲染第一音频数据流和经处理的第二音频数据流。

第二音频数据流可以被配置为包括至少一个其他音频数据流，并且其中，至少一个其他音频数据流可以包括所确定的类型，并且至少一个其他音频数据流可以是相对于第二音频数据流的嵌入级音频数据流。

至少一个其他音频数据流可以包括至少一个其他嵌入级，其中，每个嵌入级可以包括具有所确定的类型的至少一个附加音频数据流。

第二音频数据流可以是主级音频数据流。

每个音频数据流可以进一步与以下中的至少一项相关联：流标识符，其被配置为唯一地标识音频数据流；以及流描述符，其被配置为描述音频数据流的类型。

类型可以是以下中的一项：单声道音频信号类型；沉浸式语音和音频服务音频信号。

至少一个参数可以被配置为定义室内特性或场景描述。

定义室内特性或场景描述的至少一个参数可以包括以下中的至少一项：方向；方向方位角；方向仰角；距离；增益；空间范围；能量比率；以及位置。

该部件可以进一步被配置为：接收附加音频数据流；将该附加音频数据流嵌入第一音频数据流和第二音频数据流中的一个或另一个内。

根据第二方面，提供了一种用于装置的方法，该方法包括：接收至少第一音频数据流和第二音频数据流，其中，第一音频数据流和第二音频数据流中的至少一个包括空间音频流以在通信期间启用沉浸式音频；确定第一音频数据流和第二音频数据流中的每个音频数据流的类型，以识别所接收的第一音频数据流和第二音频数据流中的哪个音频数据流包括该空间音频流；根据所确定的类型，用至少一个参数处理第二音频数据流；以及渲染第一音频数据流和经处理的第二音频数据流。

第二音频数据流可以是主级音频数据流。

至少一个参数可以被配置为定义室内特性或场景描述。

该方法可以进一步包括：接收附加音频数据流；将该附加音频数据流嵌入第一音频数据流和第二音频数据流中的一个或另一个中。

根据第三方面，提供了一种装置，其包括至少一个处理器和包括计算机程序代码的至少一个存储器，该至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使该装置至少：接收至少第一音频数据流和第二音频数据流，其中，第一音频数据流和第二音频数据流中的至少一个包括空间音频流以在通信期间启用沉浸式音频；确定第一音频数据流和第二音频数据流中的每个音频数据流的类型，以识别所接收的第一音频数据流和第二音频数据流中的哪个音频数据流包括该空间音频流；根据所确定的类型，用至少一个参数处理第二音频数据流；以及渲染第一音频数据流和经处理的第二音频数据流。

第二音频数据流可以是主级音频数据流。

至少一个参数可以被配置为定义室内特性或场景描述。

该装置可以进一步被使得：接收附加音频数据流；将该附加音频数据流嵌入第一音频数据流和第二音频数据流中的一个或另一个内。

根据第四方面，提供了一种装置，其包括：接收电路，其被配置为接收至少第一音频数据流和第二音频数据流，其中，第一音频数据流和第二音频数据流中的至少一个包括空间音频流以在通信期间启用沉浸式音频；确定电路，其被配置为确定第一音频数据流和第二音频数据流中的每个音频数据流的类型，以识别所接收的第一音频数据流和第二音频数据流中的哪个音频数据流包括该空间音频流；处理电路，其被配置为根据所确定的类型，用至少一个参数处理第二音频数据流；以及渲染电路，其被配置为渲染第一音频数据流和经处理的第二音频数据流。

根据第五方面，提供了一种包括指令的计算机程序[或者包括程序指令的计算机可读介质]，这些指令/程序指令用于使装置至少执行以下操作：接收至少第一音频数据流和第二音频数据流，其中，第一音频数据流和第二音频数据流中的至少一个包括空间音频流以在通信期间启用沉浸式音频；确定第一音频数据流和第二音频数据流中的每个音频数据流的类型，以识别所接收的第一音频数据流和第二音频数据流中的哪个音频数据流包括该空间音频流；根据所确定的类型，用至少一个参数处理第二音频数据流；以及渲染第一音频数据流和经处理的第二音频数据流。

根据第六方面，提供了一种包括程序指令的非暂时性计算机可读介质，这些程序指令用于使装置至少执行以下操作：接收至少第一音频数据流和第二音频数据流，其中，第一音频数据流和第二音频数据流中的至少一个包括空间音频流以在通信期间启用沉浸式音频；确定第一音频数据流和第二音频数据流中的每个音频数据流的类型，以识别所接收的第一音频数据流和第二音频数据流中的哪个音频数据流包括该空间音频流；根据所确定的类型，用至少一个参数处理第二音频数据流；以及渲染第一音频数据流和经处理的第二音频数据流。

根据第七方面，提供了一种装置，其包括：用于接收至少第一音频数据流和第二音频数据流的部件，其中，第一音频数据流和第二音频数据流中的至少一个包括空间音频流以在通信期间启用沉浸式音频；用于确定第一音频数据流和第二音频数据流中的每个音频数据流的类型，以识别所接收的第一音频数据流和第二音频数据流中的哪个音频数据流包括该空间音频流的部件；用于根据所确定的类型，用至少一个参数处理第二音频数据流的部件；以及用于渲染第一音频数据流和经处理的第二音频数据流的部件。

根据第八方面，提供了一种包括程序指令的计算机可读介质，这些程序指令用于使装置至少执行以下操作：接收至少第一音频数据流和第二音频数据流，其中，第一音频数据流和第二音频数据流中的至少一个包括空间音频流以在通信期间启用沉浸式音频；确定第一音频数据流和第二音频数据流中的每个音频数据流的类型，以识别所接收的第一音频数据流和第二音频数据流中的哪个音频数据流包括该空间音频流；根据所确定的类型，用至少一个参数处理第二音频数据流；以及渲染第一音频数据流和经处理的第二音频数据流。

一种装置，包括用于执行如上所述的方法的动作的部件。

一种装置，被配置为执行如上所述的方法的动作。

一种计算机程序，包括用于使计算机执行如上所述的方法的程序指令。

一种被存储在介质上的计算机程序产品可以使装置执行本文所述的方法。

一种电子设备可以包括如本文所述的装置。

一种芯片组可以包括如本文所述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本申请，现在将通过示例的方式参考附图，其中：

图1示意性地示出适于采用一些实施例的示例会议系统；

图2a至图2d示意性地示出适于实现一些实施例的装置的系统；

图3示意性地示出根据一些实施例的比特流-对象-比特流转换器；

图4示意性地示出根据一些实施例的如图3中所示的比特流-对象-比特流转换器的操作的流程图；

图5a至图5d示出根据一些实施例的示例对象格式；

图6示出根据一些实施例的示例对象嵌套；

图7示出根据一些实施例的示例操作场景；

图8a至图8c示出根据一些实施例的示例对象分组化；以及

图9示出适于实现所示装置的示例设备。

具体实施方式

下面更详细地描述将空间流嵌入为对象流并将空间流作为对象原样发送给接收参与者的合适装置和可能机制。基于空间场景来更新对象元数据。换句话说，对象流类型本身是具有由处理单元生成的相应的对象元数据的另一个音频流。此操作可以由接收多于一种输入格式的合适设备(例如，移动设备、用户设备UE)或者例如会议桥(例如，多点控制单元MCU)来执行。

本发明涉及能够支持多种输入音频格式、沉浸式音频场景表示、以及其中输入的编码音频例如可以被混合、被重新编码和/或被转发给收听者的服务的沉浸式音频编解码器。

上面所讨论的IVAS编解码器是3GPP EVS编解码器的扩展，并且旨在用于4G/5G上的新的实时沉浸式语音和音频服务。这种沉浸式服务包括例如用于虚拟现实(VR)和增强现实(AR)的沉浸式语音和音频。预期多功能音频编解码器处理语音、音乐和通用音频的编码、解码和渲染。预期该音频编解码器支持基于通道的音频和基于场景的音频输入，包括关于声场和声源的空间信息。还预期该音频编解码器以低延迟进行操作以使能会话服务以及在各种传输条件下支持高差错鲁棒性。

IVAS编码器被配置为能够接收采用所支持的格式(以及一些格式的某些被允许组合)的输入。类似地，预期解码器可以以多个所支持的格式输出音频。已经提出了一种直通模式(pass-through mode)，其中，音频可以在传输(编码/解码)之后以其原始格式被提供。

已经提出了描述基于对象的音频被实现为IVAS编解码器的可接受格式的方法，该IVAS编解码器被配置为处理与合适的(单声道)音频信号组合的空间元数据并且其可以被渲染给用户。元数据参数例如可以在任何视觉或听觉跟踪方法或任何其他感觉通道/形态(modality)的帮助下从真实环境中被捕获。在一些实施例中，可以使用基于无线电的技术来生成元数据，例如，蓝牙、Wifi或GPS定位器技术可以被用于获得对象坐标。在一些实施例中，可以使用诸如磁力计、加速度计和/或陀螺仪之类的传感器来接收定向数据。此外，诸如接近传感器之类的其他传感器也可以被用于从真实环境生成场景相关的元数据。

可替代地，可以根据所定义的虚拟场景例如通过电话会议桥或通过用户设备(例如，智能电话)来人为地创建元数据。例如，用户可以经由合适的UI设置或指示一些期望的声学特征。

在一些实施例中，基于对象的音频空间元数据可以被定义为一个或多个对象，其中，每个对象可以由诸如方位角、仰角、距离、增益、和空间范围之类的参数定义。

此外，元数据辅助空间音频(MASA)是一种参数化空间音频格式和表示。在高层次上，它可以被认为是由“N个通道+空间元数据”组成的表示。它是一种基于场景的音频格式，特别适合于在诸如智能电话之类的实际设备上进行空间音频捕获，其中，用于FOA/HOA捕获的球形阵列是不现实或不方便的。想法是依据时间和频率变化的声源方向来描述声音场景。如果没有检测到定向声源，则音频被描述为扩散。在MASA(如目前针对IVAS而提出的)中，针对每个时频(TF)图块(tile)可以存在一个或两个方向。空间元数据是相对于方向来描述的，并且可以包括例如针对每个方向的空间元数据和独立于方向的公共空间元数据。

例如，与方向相关的空间元数据可以包括诸如方向索引、直接对总能量比率(direct-to-total energy ratio)、扩展相干性(spread coherence)以及距离之类的参数。与方向无关的空间元数据可以包括诸如扩散对总能量比率(diffuse-to-total energyratio)、环绕相干性(surround coherence)以及剩余对总能量比率(remainder-to-totalenergy ratio)等参数。

IVAS的示例用例是AR/VR电话会议。在AR/VR电话会议中，每个参与者都可以具有他/她自己的对象，这些对象可以在3D空间中任意地平移。在电话会议场景中，会议桥例如可以从多个参与者接收若干IVAS流。进而，例如使用用于至少每个活动参与者的对象，这些流被组合成一个公共流。可替代地，可以创建预先渲染的空间场景，并且例如将其表示为MASA或FOA/HOA音频格式。如果使用了对象，则可以通过将合适的元数据表示附到波形上而将输入的对象或其他单声道流(例如，EVS流)直接复制为输出的公共会议流的对象流。这可以包括或不包括音频波形的重新编码。然而，如果参与者正在发送诸如MASA或HOA之类的空间音频流，则会议桥必须解码所有输入的IVAS流并将这些流减少为单声道，然后将其发送到下游作为(单声道)音频对象。

另一用例是其中用户正在用在固定支架上的使能空间音频捕获的移动设备捕获场景(例如，制作现场播客视频)。另外，可以使用头戴式耳机或某些其他形式的近距离麦克风来增强语音记录。近距离捕获设备还能够例如利用双耳捕获从头戴式耳机捕获空间音频，或者从支持空间音频的领夹式麦克风捕获MASA。进而，可以将近距离捕获的语音添加到设备捕获的IVAS空间音频流中作为对象流。可以例如使用被附到近距离捕获设备上的合适的位置信标来方便地捕获对象位置和距离。当IVAS中仅单声道对象被允许时，设备必须将来自近距离捕获的空间流下混合成单声道，然后将其嵌入IVAS流中。如本文所描述的实施例试图避免或最小化所增加的延迟和复杂度，此外还试图提高最大可实现的质量。

因此，如本文所描述的一些实施例增加了音频源混合和转发中的各种IVAS音频输入的灵活性。例如，在AR/VR电话会议和其他沉浸式用例中。

另外，在一些实施例中，延迟和复杂度显著减少，从而避免了在AR/VR会议桥或捕获设备处生成下缩合空间流。另外，对于经转换的音频格式不会丢失原始输入特性和/或质量损失。

在一些实施例中，解码器被配置为具有接口输出格式(所谓的直通模式，以使外部渲染器具有比普通集成渲染器更多的能力)以充当输出模式。

关于图1，示出了可以在其中实现一些实施例的示例系统。系统200示出了会议场景，其中，一些参与者正在发送单声道和一些空间流，并且一些参与者具有单声道、一些空间、以及甚至一些6DoF渲染和播放能力。例如，如图1中所示，在房间A 209中，用户202正在使用单声道捕获和固定空间播放，在房间B 213中，用户206正在使用空间捕获和6DoF(自由度)播放，在房间C 211中，用户204正在使用单声道捕获和播放，而在房间D 215中，用户208和210正在使用空间捕获以及单声道对象捕获和空间播放，但是没有头部跟踪。会议服务201连接所有用户。

如图1中所示的系统具有用户操作装置，该用户操作装置具有不同的能力，并且如本文所描述的实施例试图优化用户体验，而不需要会议服务201分别对各种输入进行解码、混合、以及编码。在如本文所描述的实施例中，任何决定都与沉浸感级别有关。例如，在一些实施例中，该装置可以在接收UE处实现。

因此，在一些实施例中，(IVAS)对象流可以被配置为包括另一个“对象化”(IVAS)数据流。此外，对象元数据被配置为包含信息，无论对象是基于(单声道)对象的音频表示(例如，具有空间元数据的EVS流)还是可以被给定类对象的元数据(object-likemetadata，例如，位置元数据)的完整IVAS空间流(例如，MASA或立体声或者甚至包含IVAS的对象)。在这种实施例中，任何“对象化”(IVAS)数据流可以包含另一个(IVAS)对象。这些(IVAS)对象可以被在周围移动以成为任何其他(IVAS)对象或“主要”(IVAS)数据流的一部分。进而，任何一个对象元数据被更新，以使得它对于整个新形成的IVAS流保持有意义。此外，在一些实施例中，根据空间场景描述来更新其余的对象元数据字段。

在这种实施例中，对于其中输入的音频流是空间捕获/创建的会议桥用例，预期更高的质量和更低的延迟。此外，一些实施例可以在其中存在由例如移动电话(UE)所捕获的主要空间音频并且附加的空间音频对象是由无线麦克风捕获以例如类似地增强语音捕获益处，并允许在一类新的设备(无线麦克风)上进行(IVAS)编码而无需在UE处解码音频以允许进一步编码的用例中被实现。相反，流可以简单地按原样被嵌入。

在进一步讨论实施例之前，我们首先讨论可以在一些实施例中使用的用于获得并渲染空间音频信号的系统。

关于图2，示出了在如图1中所示的系统内使用的并且适用于实现如本文所描述的一些实施例的示例装置。

图2A例如示出了适用于相对于房间A中的用户实现一些实施例的装置。在此示例中，该装置包括单个麦克风101，其被配置为生成被传递给编码器103的单声道音频信号。该装置还包括编码器103，其被配置为接收该单声道音频信号，并在发送到合适的会议网络之前对该单声道音频信号进行编码。

图2A还示出了解码器/渲染器105，其被配置为接收经编码的空间/单声道音频信号，该经编码的空间/单声道音频信号被解码并被渲染成合适的音频信号输出，这些音频信号输出被传递给多个扬声器107以将这些空间音频信号输出给用户。

此外，图2B示出了适用于相对于房间B中的用户实现一些实施例的示例装置。在此示例中，该装置包括被配置为生成多个音频信号的多麦克风111音频输入，该多个音频信号可以被用于生成被传递给编码器113的空间音频信号。该装置还包括编码器113，其被配置为接收该空间音频信号，并在发送到合适的会议网络之前对该空间音频信号进行编码。

图2B还示出了解码器/渲染器115，其被配置为接收经编码的空间/单声道音频信号，该经编码的空间/单声道音频信号被解码并被渲染成合适的音频信号输出，这些音频信号输出被传递给配备有头部跟踪器/定位器117的头戴式耳机，以将这些空间音频信号输出给用户并将用户位置传递给解码器/渲染器115以控制渲染。

图2C示出了适用于相对于房间C中的用户实现一些实施例的示例装置。在此示例中，该装置包括被配置为生成单声道音频信号的单声道麦克风121音频输入，该单声道音频信号可以被用于生成被传递给编码器113的单声道音频信号。该装置还包括编码器123，其被配置为接收该单声道音频信号，并在发送到合适的会议网络之前将该单声道音频信号编码为空间音频信号。

图2C还示出解码器/渲染器125，其被配置为接收经编码的空间/单声道音频信号，该经编码的空间/单声道音频信号被解码并被渲染成合适的音频信号输出，这些音频信号输出被传递给单声道扬声器127以将这些音频信号输出给用户。

此外，图2D示出了适用于相对于房间D中的用户实现一些实施例的示例装置。在此示例中，该装置包括被配置为生成多个音频信号的多麦克风131音频输入以及外部麦克风(例如，单声道麦克风或多麦克风)，该外部麦克风可以被用于生成被传递给编码器113的空间音频信号和外部单声道/空间音频信号。该装置还包括编码器133，其被配置为接收空间/单声道音频信号，并在发送到合适的会议网络之前对该空间/单声道音频信号进行编码。

图2D还示出解码器/渲染器135，其被配置为接收经编码的空间/单声道音频信号，该经编码的空间/单声道音频信号被解码并被渲染成合适的音频信号输出，这些音频信号输出被传递给头戴式耳机137以将这些空间音频信号输出给用户。

关于图3，示出了包括各种输入(作为非排他性示例，其对于编解码器是可以预期的)的示例(IVAS)编码器103/113/123/133的高级视图。

在一些实施例中，编码器103/113/123/133包括音频(IVAS)输入301。音频输入301被配置为能够从在本地或远程的多个源接收一组或多组空间数据(IVAS)流。这些源可以是本地的(例如，在编码器位置的已知空间配置的多于一个的空间捕获设备)和/或发送空间IVAS流的多个远程参与者。音频输入301被配置为将音频数据流传递给对象报头创建器303和作为IVAS数据流处理器313的一部分的(IVAS)解码器311。

在一些实施例中，编码器103/113/123/133包括场景控制器305，其被配置为控制所接收的音频输入301的处理。

例如，在一些实施例中，编码器103/113/123/133包括对象报头创建器303。由场景控制器305控制的对象报头创建器303被配置为将每个数据流作为对象插入“主”数据流中。在一些实施例中，对象报头创建器305还可以被配置为基于真实空间配置或虚拟定义场景来添加缺失的对象参数，诸如距离和方向。

在一些实施例中，对象报头创建器303被配置为确定任何所插入的数据流是否包含对象，任意地移动那些音频对象以直接成为“主”IVAS流的一部分并更新它们的元数据，或者将对象移动到任何其他IVAS对象之下。另外，对象报头创建器303被配置为更新对象元数据，以使其对于整个空间配置是正确的。

在一些实施例中，编码器103/113/123/133包括IVAS数据流处理器313。IVAS数据流处理器313可以包括(IVAS)解码器311。(IVAS)解码器311被配置为接收一组或多组空间音频数据流，解码空间音频信号，并将它们传递给音频场景渲染器231。

IVAS数据流处理器313可以包括音频场景渲染器231，其被配置为接收音频信号，并基于经解码的(IVAS)空间音频信号生成音频场景渲染。该音频场景渲染可以构成例如来自(IVAS)解码器311的各种输入的下混合。进而，经渲染的音频场景音频信号可以被传递给编码器315。

IVAS数据流处理器313可以包括编码器315，编码器315接收经渲染的空间音频信号并对其进行编码。换句话说，IVAS数据流处理器313被配置为解码所有或至少一些输入的数据流，并例如使用IVAS MASA、IVAS HOA/FOA或IVAS单声道对象来生成公共空间场景。

在其中存在多个嵌入对象的一些实施例中，这些嵌入对象随后可以被发送给那些具有可用的高性能渲染的接收方。其余的接收方仅接收经预先渲染的空间场景。可替代地，可以使用至少一个“IVAS流对象”和经预先渲染的“空间场景IVAS流对象”的组合以降低比特率。

另外，编码器包括音频对象复用器309，其被配置为组合这些对象，并输出经组合的对象数据流。

图4中的流程图进一步示出了编码器的操作。

在图4中的步骤401处，接收音频(IVAS)数据流。

此外，在图4中的步骤411处，确定空间场景配置和控制。

如图4中步骤403所示，基于所确定的空间场景配置和控制以及输入音频数据流，创建用于音频数据流的对象报头(object header)。

此外，如图4中步骤404所示，可选地，基于所确定的空间场景配置和控制以及输入音频数据流，对数据流进行解码。

进而，如图4中步骤406所示，可以对经解码的数据流进行渲染。

进而，如图4中步骤408所示，使用合适的(IVAS)编码器来对经渲染的音频场景进行编码。

进而，如图4中步骤409所示，这些数据流可以被复用并被输出。

IVAS对象流元数据可以使用任何合适的声学/空间元数据。下表提供了一个示例。

然而，在一些实施例中，可以使用诸如x-y-z或笛卡尔坐标之类的其他位置信息来代替方位角-仰角-距离。例如，下表可以提供另一配置：

字段	比特	描述
			位置	x	3D空间中的音频对象x-y-z位置

然而，还需要一些最小化流描述元数据以信令传送(IVAS)对象数据流配置信息。例如，可以使用以下格式来信令传送此信息。

在这种实施例中，“流ID”参数被用于在当前会话中唯一地标识每个IVAS对象流。因此，可以信令传送每个原始且经混合的音频分量(输入流)。例如，信令允许标识系统中或用户接口上的分量。“流类型”参数定义了每个“音频对象”的含义。在一些实施例中，音频对象因此不仅仅是基于对象的音频输入。相反，对象数据流可以是基于对象的音频(输入)，它也可以是任何IVAS场景。例如，如图5中所示，其中示出了三种类型的对象。

例如，在图5A中，示出了一个简单的传统(单声道)音频对象501。音频对象501是依据PCM音频信号部分505和声学(空间)元数据部分503来定义的。可以理解，可存在附加的元数据。

关于图5B，示出了与图5A中所示相同的音频对象的编码表示507。

图5C示出了与图5A和图5B中所示相同但根据如本文所讨论的一些实施例进行处理的音频对象。经处理的音频对象被描述为对象数据流509，其由“流类型＝0”参数513定义。换句话说，对象数据流509包括标识它是基于对象的音频IVAS对象流的数据流标识符。另外，对象数据流509包括对象音频比特流部分515(该音频对象的编码表示)以及唯一地标识该对象数据流的流标识符511。

图5D示出了另一(IVAS)对象数据流517。另一对象数据流517包括具有“流类型＝1”的标识符部分521。在一些实施例中，流类型＝0对应于“简单的”对象类型，例如，单声道信号。此外，在一些实施例中，流类型＝1对应于潜在“复杂的”流。例如，在此示例中，流类型＝1对应于完整的IVAS流，在这种情况下，它包含MASA空间流。由于IVAS可以包含一个或多个对象流，因此这允许嵌套的对象。如果流类型＝0，则已知没有其他对象并且流具有简单的类型(实际上是单声道对象)。

另一对象数据流517还可以包括明确流描述部分523，或者可以通过开始解码对象流来确定流内容。在这种情况下，它被明确地描述为基于MASA的场景(例如，“流描述＝MASA”)。

另外，另一对象数据流517包括MASA格式比特流部分525(该音频对象的编码表示)以及唯一地标识该对象数据流的流标识符519“流ID＝000002”。

本文所讨论的方法的第一个优点是IVAS输入可以时常方便地被转发而无需解码/编码操作。例如，在IVAS端到端服务中存在混合器设备、电话会议桥(例如，AR/VR会议服务器)、或其他用于组合和/或转发音频输入的实体的情况下，不需要解码/编码操作。因此，通过将所接收的(经编码的)输入重新分配为IVAS对象流，降低了操作的复杂度和延迟。例如，如果接收方的播放能力未知，那么服务器可以通过简单地按原样提供所接收的场景来优化复杂度。任何IVAS流都可以被解码并被渲染为单声道，以支持即使是最简单的IVAS设备。在中间点(例如，会议服务器)跳过任何解码/编码操作也会减少针对该音频分量的端到端延迟。因此，用户体验得以改进。

此外，实施例被配置为使得仅存在浅嵌入的“对象化”IVAS流。换句话说，如果存在还包含对象(并因此可以包括多个对象级别)的对象流，则避免了深数据结构，并因此降低了解码器的复杂度。因此，在一些实施例中，所提出的嵌入准许一个IVAS对象包括另一个IVAS对象，换句话说，虽然IVAS对象可以是两个或更多个级别深(two or more levelsdeep)，但一些实施例中，任何“深”对象可以被移动到更接近“主”IVAS流的“更高级别”对象中，并且可以更新其元数据，以使得其表示对于新形成的场景保持有意义。在一些实施例中，IVAS对象可以被移动以成为另一个IVAS对象的一部分。因此，对象被移动得“更深”。这可允许例如将音频对象(例如，单声道对象)编码或解码在一起，以便节省复杂度或比特率。如果相同类型的格式在结构中处于不同的级别，那么它们通常需要在不同的时间或者使用不同的实例进行编码/解码。这可引入额外的复杂度。

此外，如本文所讨论的实施例可以具有第二个优点，即，可以方便地嵌套IVAS对象流，例如，以用于内容分发目的。在这种实施例中，更复杂的场景可以被处理为单个(单声道)音频对象。图6提供了示例的嵌套分组化(nested packetization)。这例如可以被用于分布解码复杂度。这例如对于边缘云服务来说非常有用。

因此，例如，图6示出了整个场景对象数据流601。整个场景对象数据流601包括多个对象数据流602、604、606和608。例如，第一对象数据流602包括唯一地标识对象数据流的流ID 621(流ID＝000001)、流类型标识符623(流类型＝0)以及数据部分625。第二对象数据流604包括唯一地标识对象数据流的流ID 631(流ID＝000006)、流类型标识符633(流类型＝1)以及数据部分635。第三对象数据流606包括唯一地标识对象数据流的流ID 641(流ID＝000007)、流类型标识符643(流类型＝1)以及数据部分645。第四对象数据流608包括唯一地标识对象数据流的流ID 651(流ID＝000008)、流类型标识符653(流类型＝0)以及数据部分655。

此外，如图6中所示，第二对象数据流604还包括嵌套的对象数据流612和614。这些嵌套的对象数据流例如可以是与整个场景的子部分相关联的对象数据流。第五对象数据流612包括唯一地标识对象数据流的流ID661(流ID＝000004)、流类型标识符663(流类型＝0)以及数据部分665。第六对象数据流614包括唯一地标识对象数据流的流ID 671(流ID＝000005)、流类型标识符673(流类型＝1)以及数据部分675。

另外，嵌套的第六对象数据流614还包括进一步嵌套的对象数据流622和624。这些进一步嵌套的对象数据流例如可以是与整个场景的子部分的子部分(sub-sub-section)相关联的对象数据流。第七对象数据流622包括唯一地标识对象数据流的流ID681(流ID＝000002)、流类型标识符683(流类型＝1)以及数据部分685。第八对象数据流624包括唯一地标识对象数据流的流ID 691(流ID＝000003)、流类型标识符693(流类型＝1)以及数据部分695。

实现一些实施例的另一优点在于确实已经包括空间参数(例如，位置特性)的任何IVAS输入或IVAS场景可以确定这种特性。例如，这可以通过将声学空间元数据(例如，先前的表中的参数之一)添加到IVAS对象流(“流类型＝1”)中来实现。这使能例如在AR/VR电话会议用例中的增强体验。

例如，图7示出了捕获场景701，其中，存在在第一(UE)位置处实现空间捕获的UE或类似的捕获设备707、以及在第二(用户)位置处实现第二空间捕获(或对象捕获)的第二捕获设备705。

在图1的右上部所示的常规方法示出了音频对象渲染713位置和第一空间捕获场景711。因此，尽管用户可以使用多麦克风UE来捕获空间场景(例如，以MASA格式)，并且用户可以使用近距离麦克风或者例如能够与“主”设备相连接以便捕获音频对象的第二UE。这两个输入将会被组合并被提供给IVAS编码器。就收听体验而言，进而可以收听空间音频(例如，背景音频)和音频对象(例如，用户语音)的组合渲染。

而通过实现如本文所描述的实施例，收听者可以在第二空间捕获的音频对象渲染723和第一空间捕获场景721的第一选项或者第一空间捕获的音频对象渲染733和第二空间捕获场景731的第二选项之间进行切换730。因此，IVAS编解码器可以引入第二空间音频表示作为IVAS对象流。因此，当用户使用他们的UE来捕获空间音频场景时，无线多麦克风设备或者实际上被连接到“主”UE的第二UE可以在第二位置处捕获声音场景的完整空间表示。此声音场景现在可以由第二设备编码为IVAS比特流并被提供给可以“充当会议桥”，获取IVAS比特流，并将其嵌入为IVAS对象流的第二UE。进而，它将会被递送给收听者两个空间音频场景。例如，用户可以在它们之间进行切换，以使得每个场景的单声道下混合被提供为用于正向用户渲染的另一场景的音频对象渲染。

虽然图6示出了对象流嵌套的示例，但应理解，这并不是如本发明所使能的IVAS流传送/分组化的唯一机制。图8示出了根据一些实施例的IVAS流分组化的两个示例。

在一些实施例中，可以使用指定分组内容的查找表。该查找表可以被定义为“有效载荷报头”，并且它例如可以是RTP有效载荷报头。这例如可以包括各种块的大小等。报头后面是有效载荷。

例如，如图8中所示，数据流可以包括各种IVAS对象流和IVAS内容。因此，整个场景对象流801包括可以指定分组内容的有效载荷报头811或查找表。例如，如图8A中所示，指定了第一对象数据流813和第二对象数据流819以及诸如第一有效载荷815(MASA和对象)和第二有效载荷817(5.1通道音频数据)之类的有效载荷。

在如图8C中所示的一些实施例中，数据流可以仅包括IVAS对象流。因此，整个场景对象流831包括有效载荷报头或查找表，其可以指定包括对象数据流833的分组内容，对象数据流833又可以包括嵌套的对象数据流835，嵌套的对象数据流835又包括进一步嵌套的对象数据流。

图8B提供了具有整个场景中的有效载荷和嵌套的对象数据流813的“混合”实施例。

在生成附加的“有效载荷报头”信息及其解析中存在相关联的嵌套成本。

关于解码器/渲染器105、115、125、135。解码器/渲染器105、115、125、135被配置为接收各种(IVAS)对象数据流，以及并行地解码并渲染这些数据流。

在一些实施例中，可以针对每个子场景级别单独地执行嵌套的音频对象数据流的处理，然后在更高级别进行组合。

例如，关于图6中所示的示例。在此，解码可以从“流ID＝000002”和“流ID＝000003”开始。因此，我们已解码了“流ID＝000005”(因为它是用于子场景的容器)。进而，解码器可以被配置为解码下一个“流ID＝000004”。在此之后，其他流被解码。这种方法可以例如在存储器消耗方面具有优势，其中，某些存储器可以在子场景级别之间被释放，并因此总存储器占用量并不是由所有组合的流定义的。

在这种实施例中，可以在子场景级别上执行渲染并在渲染域中求和，或者可以在解码结束时执行组合渲染。

在一些实施例中，解码器被配置为针对每个子场景启动单独的解码器实例。因此，针对每个“流类型＝1”，一个单独的IVAS解码器实例被初始化。

关于图9，示出了可以被用作分析或合成设备的示例电子设备。该设备可以是任何合适的电子设备或装置。例如，在一些实施例中，设备1400是移动设备、用户设备、平板计算机、计算机、音频播放装置等。

在一些实施例中，设备1400包括至少一个处理器或中央处理单元1407。处理器1407可以被配置为执行各种程序代码，诸如本文所描述的方法。

在一些实施例中，设备1400包括存储器1411。在一些实施例中，至少一个处理器1407被耦接到存储器1411。存储器1411可以是任何合适的存储部件。在一些实施例中，存储器1411包括用于存储可在处理器1407上实现的程序代码的程序代码部分。此外，在一些实施例中，存储器1411还可以包括用于存储数据(例如根据本文所描述的实施例已被处理或将要被处理的数据)的存储数据部分。只要需要，被存储在程序代码部分内的所实现的程序代码和被存储在存储数据部分内的数据可以经由存储器-处理器耦接而由处理器1407取回。

在一些实施例中，设备1400包括用户接口1405。在一些实施例中，用户接口1405可以被耦接到处理器1407。在一些实施例中，处理器1707可以控制用户接口1405的操作并从用户接口1405接收输入。在一些实施例中，用户接口1705可以使得用户能够例如经由小键盘向设备1400输入命令。在一些实施例中，用户接口1405可以使得用户能够从设备1400获得信息。例如，用户接口1405可以包括被配置为向用户显示来自设备1400的信息的显示器。在一些实施例中，用户接口1405可以包括触摸屏或触摸接口，其既能够使信息被输入到设备1400中，又能够向设备1400的用户显示信息。在一些实施例中，用户接口1405可以是用于与如本文所描述的位置确定器通信的用户接口。

在一些实施例中，设备1400包括输入/输出端口1409。在一些实施例中，输入/输出端口1409包括收发机。在这种实施例中，收发机可以被耦接到处理器1407，并且被配置为例如经由无线通信网络实现与其他装置或电子设备的通信。在一些实施例中，收发机或任何合适的收发机或发射机和/或接收机部件可以被配置为经由有线或有线耦接来与其他电子设备或装置通信。

收发机可以通过任何合适的已知通信协议来与其他装置通信。例如，在一些实施例中，收发机可以使用合适的通用移动电信系统(UMTS)协议、诸如IEEE 802.X之类的无线局域网(WLAN)协议、诸如蓝牙之类的合适的短距离射频通信协议、或红外数据通信路径(IRDA)。

收发机输入/输出端口1409可以被配置为接收信号，以及在一些实施例中通过使用执行合适的代码的处理器1407来确定如本文所描述的参数。此外，该设备可以生成合适的下混合信号和参数输出以发送到合成设备。

在一些实施例中，设备1400可以被用作合成设备的至少一部分。由此，输入/输出端口1409可以被配置为接收下混合信号以及在一些实施例中接收如本文所描述的在捕获设备或处理设备处确定的参数，并通过使用执行合适的代码的处理器1407来生成合适的音频信号格式输出。输入/输出端口1409可以被耦接到任何合适的音频输出端，例如，多通道扬声器系统和/或头戴式耳机(其可以是头部跟踪或非跟踪头戴式耳机)等。

通常，本发明的各种实施例可以采用硬件或专用电路、软件、逻辑或其任何组合来实现。例如，一些方面可以采用硬件来实现，而其他方面可以采用可由控制器、微处理器或其他计算设备执行的固件或软件来实现，但本发明不限于此。尽管本发明的各个方面可以被图示和描述为框图、流程图或使用一些其他图形表示，但众所周知地，本文所描述的这些框、装置、系统、技术或方法可以作为非限制示例采用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以通过可由移动设备的数据处理器(诸如在处理器实体中)执行的计算机软件来实现，或者由硬件、或者由软件和硬件的组合来执行。此外，就此而言，应当注意，如附图中的逻辑流程的任何块可以表示程序步骤、或者互连的逻辑电路、块和功能、或者程序步骤和逻辑电路、块和功能的组合。该软件可以被存储在诸如存储器芯片或在处理器内实现的存储器块之类的物理介质上，诸如硬盘或软盘之类的磁性介质上、以及诸如DVD及其数据变体、CD之类的光学介质上。

存储器可以是适合于本地技术环境的任何类型，并且可以使用任何适当的数据存储技术来实现，诸如基于半导体的存储器设备、磁存储器设备和系统、光学存储器设备和系统、固定存储器和可移除存储器。数据处理器可以是适合于本地技术环境的任何类型，并且作为非限制性示例，可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、基于多核处理器架构的门级电路和处理器中的一个或多个。

可以在诸如集成电路模块之类的各种组件中实践本发明的实施例。集成电路的设计总体上是高度自动化的过程。复杂而功能强大的软件工具可用于将逻辑级设计转换为准备在半导体衬底上蚀刻和形成的半导体电路设计。

程序，诸如由加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence Design所提供的程序，使用完善的设计规则以及预先存储的设计模块库来自动对导体进行布线并将组件定位在半导体芯片上。一旦完成了半导体电路的设计，就可以将标准化电子格式(例如，Opus、GDSII等)的所得设计传送到半导体制造设施或“fab”进行制造。

前面的描述已经通过示例性和非限制性示例提供了本发明的示例性实施例的完整和有益的描述。然而，当结合附图和所附权利要求书阅读时，鉴于以上描述，各种修改和改编对于相关领域的技术人员而言将变得显而易见。然而，本发明的教导的所有这些和类似的修改仍将落入所附权利要求书所限定的本发明的范围内。

Claims

1.一种用于沉浸式音频通信的装置，包括被配置为执行以下操作的部件：

接收至少第一音频数据流和第二音频数据流，其中，所述第一音频数据流和所述第二音频数据流中的至少一个包括空间音频流以在通信期间启用沉浸式音频；

确定所述第一音频数据流和所述第二音频数据流中的每个音频数据流的类型，以识别所接收的第一音频数据流和第二音频数据流中的哪个音频数据流包括所述空间音频流；

根据所确定的类型，用至少一个参数处理所述第二音频数据流；以及

渲染所述第一音频数据流和经处理的第二音频数据流。

2.根据权利要求1所述的装置，其中，所述第二音频数据流被配置为包括至少一个其他音频数据流，并且其中，所述至少一个其他音频数据流包括所确定的类型，并且所述至少一个其他音频数据流是相对于所述第二音频数据流的嵌入级音频数据流。

3.根据权利要求2所述的装置，其中，所述至少一个其他音频数据流包括至少一个其他嵌入级，其中，每个嵌入级包括具有所确定的类型的至少一个附加音频数据流。

4.根据权利要求1至3中任一项所述的装置，其中，所述第二音频数据流是主级音频数据流。

5.根据权利要求1至4中任一项所述的装置，其中，每个音频数据流进一步与以下中的至少一项相关联：

流标识符，其被配置为唯一地标识所述音频数据流；以及

流描述符，其被配置为描述所述音频数据流的所述类型。

6.根据权利要求1至5中任一项所述的装置，其中，所述类型是以下中的一项：

单声道音频信号类型；

沉浸式语音和音频服务音频信号。

7.根据权利要求1至6中任一项所述的装置，其中，所述至少一个参数被配置为定义室内特性或场景描述。

8.根据从属于权利要求7的权利要求中的任一项所述的装置，其中，定义室内特性或场景描述的所述至少一个参数包括以下中的至少一项：

方向；

方向方位角；

方向仰角；

距离；

增益；

空间范围；

能量比率；以及

位置。

9.根据权利要求1至8中任一项所述的装置，其中，所述部件进一步被配置为：

接收附加音频数据流；

将所述附加音频数据流嵌入所述第一音频数据流和所述第二音频数据流中的一个或另一个内。

10.一种用于沉浸式音频通信的装置的方法，所述方法包括：

渲染所述第一音频数据流和经处理的第二音频数据流。

11.根据权利要求10所述的方法，其中，所述第二音频数据流被配置为包括至少一个其他音频数据流，并且其中，所述至少一个其他音频数据流包括所确定的类型，并且所述至少一个其他音频数据流是相对于所述第二音频数据流的嵌入级音频数据流。

12.根据权利要求11所述的方法，其中，所述至少一个其他音频数据流包括至少一个其他嵌入级，其中，每个嵌入级包括具有所确定的类型的至少一个附加音频数据流。

13.根据权利要求10至12中任一项所述的方法，其中，所述第二音频数据流是主级音频数据流。

14.根据权利要求10至13中任一项所述的方法，其中，每个音频数据流进一步与以下中的至少一项相关联：

流标识符，其被配置为唯一地标识所述音频数据流；以及

流描述符，其被配置为描述所述音频数据流的所述类型。

15.根据权利要求10至14中任一项所述的方法，其中，所述类型是以下中的一项：

单声道音频信号类型；

沉浸式语音和音频服务音频信号。

16.一种装置，包括至少一个处理器和包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少：

渲染所述第一音频数据流和经处理的第二音频数据流。

17.根据权利要求16所述的装置，其中，所述第二音频数据流被配置为包括至少一个其他音频数据流，并且其中，所述至少一个其他音频数据流包括所确定的类型，并且所述至少一个其他音频数据流是相对于所述第二音频数据流的嵌入级音频数据流。

18.根据权利要求17所述的装置，其中，所述至少一个其他音频数据流包括至少一个其他嵌入级，其中，每个嵌入级包括具有所确定的类型的至少一个附加音频数据流。

19.根据权利要求16至18中任一项所述的装置，其中，所述第二音频数据流是主级音频数据流。

20.根据权利要求16至19中任一项所述的装置，其中，每个音频数据流进一步与以下中的至少一项相关联：

流标识符，其被配置为唯一地标识所述音频数据流；以及

流描述符，其被配置为描述所述音频数据流的所述类型。

21.根据权利要求16至20中任一项所述的装置，其中，所述类型是以下中的一项：

单声道音频信号类型；

沉浸式语音和音频服务音频信号。

22.根据权利要求16至21中任一项所述的装置，其中，所述至少一个参数被配置为定义室内特性或场景描述。

23.根据权利要求22所述的装置，其中，定义所述室内特性或场景描述的所述至少一个参数包括以下中的至少一项：

方向；

方向方位角；

方向仰角；

距离；

增益；

空间范围；

能量比率；以及

位置。

24.根据权利要求16至23中任一项所述的装置，其中，所述装置进一步被使得：

接收附加音频数据流；以及