CN116830193A

CN116830193A - 音频码流信号处理方法、装置、电子设备和存储介质

Info

Publication number: CN116830193A
Application number: CN202380009061.1A
Authority: CN
Inventors: 王宾
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-09-29

Abstract

本公开实施例公开了一种音频码流信号处理方法、装置、电子设备和存储介质，该方法包括：获取码流信号；获取解码控制参数；根据解码控制参数对码流信号进行处理，生成目标音频信号和/或中间格式信号；其中，中间格式信号为基于目标音频信号得到的。由此，可以实现根据解码控制参数对码流信号处理生成目标音频信号和/或基于目标音频信号得到的中间格式信号，进一步的还可以基于目标音频信号和/或中间格式信号确定渲染信号，用户可以通过设置解码控制参数来灵活选择解码器输出信号格式，基于输出信号设计音频服务解决方案，从而获得最优的音频体验服务。

Description

音频码流信号处理方法、装置、电子设备和存储介质

技术领域

本公开涉及通信技术领域，尤其涉及一种音频码流信号处理方法、装置、电子设备和存储介质。

背景技术

语音和音频通信服务从窄带信号扩展到超宽带甚至是全带服务，但还都是单声道服务，人们对高质量音频的需求不断增加。与单声道音频相比，立体声音频对于每个声源具有取向感和分布感，并且可以提高清晰度。随着传输带宽的增加、终端设备信号采集设备的升级、信号处理器性能的提升、以及终端回放设备的升级。基于声道的多通道音频信号，基于对象的音频信号，基于场景的音频信号等三种格式音频信号可以提供三维音频服务。

发明内容

本公开实施例提供一种音频码流信号处理方法、装置、电子设备和存储介质，可以实现根据解码控制参数对码流信号处理生成目标音频信号和/或基于目标音频信号得到的中间格式信号，进一步的还可以基于目标音频信号和/或中间格式信号确定渲染信号，用户可以通过设置解码控制参数来灵活选择解码器输出信号格式，基于输出信号设计音频服务解决方案，从而获得最优的音频体验服务。

第一方面，本公开实施例提供一种音频码流信号处理方法，该方法包括：获取码流信号；获取解码控制参数；根据解码控制参数对码流信号进行处理，生成目标音频信号和/或中间格式信号；其中，中间格式信号为基于目标音频信号得到的。

在该技术方案中，获取码流信号；获取解码控制参数；根据解码控制参数对码流信号进行处理，生成目标音频信号和/或中间格式信号；其中，中间格式信号为基于目标音频信号得到的。由此，可以实现根据解码控制参数对码流信号处理生成目标音频信号和/或基于目标音频信号得到的中间格式信号，进一步的还可以基于目标音频信号和/或中间格式信号确定渲染信号，用户可以通过设置解码控制参数来灵活选择解码器输出信号格式，基于输出信号设计音频服务解决方案，从而获得最优的音频体验服务。

第二方面，本公开实施例提供一种音频码流信号处理装置，所述音频码流信号处理装置包括：信号获取单元，被配置为获取码流信号；参数获取单元，被配置为获取解码控制参数；信号处理单元，被配置为根据解码控制参数对码流信号进行处理，生成目标音频信号和/或中间格式信号；其中，中间格式信号为基于目标音频信号得到的。

第三方面，本公开实施例提供一种电子设备，该电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面所述的方法。

第四方面，本公开实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行上述第一方面所述的方法。

第五方面，本公开实施例提供一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令在被处理器执行时实现上述第一方面所述的方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本公开实施例或背景技术中的技术方案，下面将对本公开实施例或背景技术中所需要使用的附图进行说明。

图1是本公开实施例提供的一种音频码流信号处理方法的流程图；

图2是本公开实施例提供的一种音频码流信号处理方法的示意图；

图3是本公开实施例提供的另一种音频码流信号处理方法的示意图；

图4是本公开实施例提供的又一种音频码流信号处理方法的示意图；

图5是本公开实施例提供的又一种音频码流信号处理方法的示意图；

图6是本公开实施例提供的另一种音频码流信号处理方法的流程图；

图7是本公开实施例提供的又一种音频码流信号处理方法的流程图；

图8是本公开实施例提供的一种音频码流信号处理装置的结构图；

图9是本公开实施例提供的另一种音频码流信号处理装置的结构图；

图10为本公开一实施例示出的电子设备的结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

除非上下文另有要求，否则，在整个说明书和权利要求书中，术语“包括”被解释为开放、包含的意思，即为“包含，但不限于”。在说明书的描述中，术语“一些实施例”等旨在表明与该实施例或示例相关的特定特征、结构、材料或特性包括在本公开的至少一个实施例或示例中。上述术语的示意性表示不一定是指同一实施例或示例。此外，所述的特定特征、结构、材料或特点可以以任何适当方式包括在任何一个或多个实施例或示例中。

需要说明的是，本公开的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开中的至少一个还可以描述为一个或多个，多个可以是两个、三个、四个或者更多个，本公开不做限制。在本公开实施例中，对于一种技术特征，通过“第一”、“第二”、“第三”、“A”、“B”、“C”和“D”等区分该种技术特征中的技术特征，该“第一”、“第二”、“第三”、“A”、“B”、“C”和“D”描述的技术特征间无先后顺序或者大小顺序。

本公开中各表所示的对应关系可以被配置，也可以是预定义的。各表中的信息的取值仅仅是举例，可以配置为其他值，本公开并不限定。在配置信息与各参数的对应关系时，并不一定要求必须配置各表中示意出的所有对应关系。例如，本公开中的表格中，某些行示出的对应关系也可以不配置。又例如，可以基于上述表格做适当的变形调整，例如，拆分，合并等等。上述各表中标题示出参数的名称也可以采用通信装置可理解的其他名称，其参数的取值或表示方式也可以通信装置可理解的其他取值或表示方式。上述各表在实现时，也可以采用其他的数据结构，例如可以采用数组、队列、容器、栈、线性表、指针、链表、树、图、结构体、类、堆、散列表或哈希表等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

第一代移动通信技术(1G)是第一代无线蜂窝技术，属于模拟移动通信网。1G升级到2G时将手机从模拟通信转移到数字通信，采用GSM(GlobalSystem for MobileCommunication，全球移动通信系统)网络制式，语音编码器采用AMR(Adaptive MultiRate-Narrow BandSpeech Codec，窄带自适应多速率业务编码)，EFR(Enhanced FullRate，增强型全速率)，FR(FullRate，全速率)，HR(HarfRate，半速率)，通信提供单通道窄带语音服务，3G移动通信系统是ITU(International Telecommunication Union，国际电信联盟)为2000年国际移动通信而提出的，可以采用时分同步码分多址系统(Time Division-Synchronization Code Division Multiple Access，TD-SCDMA)，或采用码分多址2000系统(Code Division Multiple Access，CDMA2000)，或采用宽带码分多址系统(WidebandCode Division Multiple Access，WCDMA)，其语音编码器采用自适应多速率编码-带宽(adaptive multi-rate wide band，AMR-WB)提供单通道宽带语音服务。4G是在3G技术上的一次更好的改良，数据和话音都采用全IP的方式，提供语音音频的实时HD(HighDefinition，高分辨率)+Voice服务，采用的EVS(Enhanced Voice Services，增强语音服务)编解码器能够兼顾语音和音频的高质量压缩。

以上提供的语音和音频通信服务从窄带信号扩展到超宽带甚至是全带服务，但还都是单声道服务，人们对高质量音频的需求不断增加，与单声道音频相比，立体声音频对于每个声源具有取向感和分布感，并且可以提高清晰度。

随着传输带宽的增加、终端设备信号采集设备的升级、信号处理器性能的提升、以及终端回放设备的升级。基于声道的多通道音频信号，基于对象的音频信号，基于场景的音频信号等三种信号格式可以提供三维音频服务。第三代合作伙伴计划3GPP SA4正在标准化的沉浸式语音和音频服务IVAS(Immersive Voice and Audio Services)编解码器即能支持上述三种信号格式的编解码需求。其中三种信号格式中具体的信号格式有：其中基于声道的信号有：单声道信号，立体声信号(Stereo)，双耳信号(Binaural)，5.1，7.1环绕声信号(Surround)，5.1.4，7.1.4环绕声信号(Surround),其中.4代表高度声道信号(Height)，基于场景的信号有：一阶高保真度立体环绕声(FOA(Firs-Order Ambisonics，1阶全景环绕声)),二阶高保真度立体环绕声(HOA2(High-Order Ambisonics，高阶全景环绕声)),三阶高保真度立体环绕声(HOA3)，基于对象的信号包含音频数据和元数据,除此之外，IVAS还支持基于辅助元数据的空间音频信号(MASA(Metadata-Assisted Spatial Audio：基于辅助元数据的空间音频))。能够支持三维音频服务的终端设备有手机，电脑，平板，会议系统设备，AR(augmented reality，增强现实)/VR(virtual reality，虚拟现实)设备，汽车等。

在解码器应用中，特别是单声道解码器输出与编码器输入格式相同的音频信号，随着音频信号格式从单声道到多声道，三维音频格式的发展，解码器的输出信号格式可以根据用场景来进行选择，例如7.1.4格式的输入信号，解码器输出信号用于耳机回放的耳机信号，耳机信号可以是立体声信号，双耳信号；解码器也可以输出格式可以是：7.1.4，5.1.4，双耳信号，立体声信号，单声道信号等。

本公开实施例提供一种音频码流信号处理方法、装置、电子设备和存储介质，以实现根据解码控制参数对码流信号处理生成目标音频信号和/或基于目标音频信号得到的中间格式信号。

请参见图1，图1是本公开实施例提供的一种音频码流信号处理方法的流程图。

如图1所示，该方法可以包括但不限于如下步骤：

S1，获取码流信号。

本公开实施例中，获取码流信号，即获取初始音频信号经过编码之后得到的码流信号。

示例性地，初始音频信号可以为基于声道信号、基于对象信号、基于场景信号、MASA格式信号、双耳信号、立体声信号、单声道信号、混合格式信号、临时格式信号等中的至少一种。

其中，混合格式信号可以为包括基于声道信号、基于对象信号、基于场景信号、MASA格式信号、双耳信号、立体声信号、单声道信号、临时格式信号等中的至少两种的信号。

当然，初始音频信号可以为其他类型的信号，不限于上述示例，本公开实施例对此不作具体限制。

示例性地，获取码流信号，可以获取基于声道信号经过编码之后得到的码流信号。

示例性地，获取码流信号，可以获取基于对象信号经过编码之后得到的码流信号。

在一种可能的实现方式中，解码器获取码流信号，其中，初始音频信号在编码器处进行编码处理生成码流信号，解码器接收发送端发送的码流信号，由此，解码器获取码流信号。

在一种可能的实现方式中，编解码装置获取码流信号，其中编解码装置中的编码器对初始音频信号进行编码处理生成码流信号，由此，编解码装置获取码流信号。

S2，获取解码控制参数。

本公开实施例中，获取解码控制参数，可以获取用户输入的参数指示信息，确定解码控制参数。

在一种可能的实现方式中，对于程序运行来说，用户可以通过命令行形式在程序中输入参数指示信息，由此，可以确定解码控制参数。

示例性地，解码控制参数可以为：0,1,2等，在解码控制参数取值为不同值时，指示输出不同信号格式的音频信号，和/或输出不同类型的信号。

示例性地，解码控制参数可以包括：0,1,2等，在解码控制参数包括某一个值的情况下，指示输出该值对应信号格式的信号，当然，解码控制参数还可以包括多个值，指示输出多种不同信号格式的信号。

需要说明的是，上述示例仅作为示意，解码控制参数还可以为或包括其他类型的参数，例如还可以为或包括A,B,C等，本公开实施例对此不作具体限制。

需要说明的是，上述S1与S2的执行顺序可以互换，例如先执行S2后执行S1。

S3，根据解码控制参数对码流信号进行处理，生成目标音频信号和/或中间格式信号；其中，中间格式信号为基于目标音频信号得到的。

本公开实施例中，在获取到解码控制参数和码流信号的情况下，可以根据码流控制参数确定对码流信号进行处理的一种或多种方式，进而得到码流控制参数指示的一种或多种指定信号格式的信号。

本公开实施例中，根据解码控制参数对码流信号进行处理，生成目标音频信号。

在一些实施例中，码流信号为基于初始音频信号得到的，目标音频信号与初始音频信号的信号格式相同。

本公开实施例中，码流信号为基于初始音频信号得到的，可以对初始音频信号进行编码处理，得到码流信号。其中，目标音频信号与初始音频信号的信号格式相同。

示例性地，目标音频信号可以为基于声道信号、基于对象信号、基于场景信号、MASA格式信号、双耳信号、立体声信号、单声道信号、混合格式信号、临时格式信号等中的至少一种。

当然，目标音频信号可以为其他类型的信号，不限于上述示例，本公开实施例对此不作具体限制。

示例性地，如图2所示，初始音频信号为基于声道信号的情况下，解码器接收到编码器发送的对基于声道信号进行编码处理的码流信号，在解码控制参数指示解码为与初始音频信号的信号格式相同的指定信号的情况下，解码器可以根据解码控制参数，对码流信号进行处理，生成与初始音频信号的信号格式相同的目标音频信号，目标音频信号可以为基于声道信号。

示例性地，如图2所示，初始音频信号为基于对象信号的情况下，解码器接收到编码器发送的对基于对象信号进行编码处理的码流信号，在解码控制参数指示解码为与初始音频信号的信号格式相同的指定信号的情况下，解码器可以根据解码控制参数，对码流信号进行处理，生成与初始音频信号的信号格式相同的目标音频信号，目标音频信号可以为基于对象信号。需要说明的是，上述示例仅作为示意，初始音频信号的信号格式还可以为其他格式，例如如图2所示，初始音频信号还可以为基于场景信号等等，本公开实施例对此不作具体限制。

本公开实施例中，根据解码控制参数对码流信号进行处理，生成中间格式信号，其中，中间格式信号为基于目标音频信号得到的。

可以理解的是，根据解码控制参数对码流信号进行处理，生成目标音频信号，在解码控制参数指示需要对目标音频信号进一步处理生成中间格式信号的情况下，还可以对目标音频信号进行处理，得到中间格式信号。

本公开实施例中，根据解码控制参数对码流信号进行处理，生成目标音频信号和中间格式信号。

可以理解的是，根据解码控制参数对码流信号进行处理，生成目标音频信号，在解码控制参数指示需要对目标音频信号进一步处理生成中间格式信号的情况下，还可以对目标音频信号进行处理，得到中间格式信号，由此生成目标音频信号和中间格式信号。

在一些实施例中，目标音频信号，包括以下至少一项：

基于声道信号；

基于对象信号；

基于场景信号；

MASA格式信号；

双耳信号；

立体声信号；

单声道信号；

混合格式信号；

临时格式信号。

本公开实施例中，目标音频信号可以包括基于声道信号、基于对象信号、基于场景信号、MASA格式信号、双耳信号、立体声信号、单声道信号、混合格式信号、临时格式信号中的至少一项。

在一些实施例中，中间格式信号，包括以下至少一项：

渲染信号；

初始渲染信号；

中间元数据信号。

本公开实施例中，中间格式信号包括渲染信号、初始渲染信号、中间元数据信号中的至少一项。

在一些实施例中，本公开实施例提供的音频码流信号处理方法，还包括生成元数据信号。

本公开实施例中，根据解码控制参数对码流信号进行处理，生成目标音频信号的详细描述可以参见上述实施中的相关描述，此处不再赘述。

本公开实施例中，根据解码控制参数对码流信号进行处理，还可以生成元数据信号。

可以理解的是，在解码控制参数指示对码流信号进行处理需要生成元数据信号的情况下，还可以根据解码控制参数对码流信号进行处理，生成元数据信号。所述元数据信号包括了目标音频信号的元数据信息。

示例性地，如图3所示，在获取到解码控制参数和音频码流(码流信号)之后，对码流信号进行码流参数解析，解析后得到的音频数据送到音频数据解码核，解析后得到的元数据信号送到元数据解码核，音频数据解码核输出与所编码音频相同格式的音频信号(目标音频信号)，如果根据解码控制参数要求需要进行渲染处理，则将音频数据解码核输出与元数据解码核输出输入到渲染处理模块进行渲染处理，渲染处理模块输出初始渲染信号和所需的中间元数据信号，元数据解码核可以直接将元数据信号进行输出。

示例性地，如图4所示，在获取到解码控制参数和音频码流(码流信号)之后，解码器解码流程为：音频码流(码流信号)输入到解码器，解码器通过码流参数解析处理获得音频数据信号(目标音频信号)和元数据信号，其中音频数据信号可以是基于声道信号，基于对象信号，基于场景信号，或者混合格式信号，然后：

基于声道信号音频数据输入到声道信号解码模块；

基于对象信号音频数据输入到对象信号解码模块；

基于场景信号音频数据输入到场景信号解码模块；

基于混合格式信号音频数据输入到混合格式信号解码模块，所述混合格式信号是前述三种格式信号的混合，同时也可以包括MASA格式信号，双耳信号等；

上述处理的输出信号分别输出到解码核处理模块和空间参数解码模块，两者的输出信号输入到空间解码处理模块处理后获得输出音频信号(目标音频信号)，即是基于声道信号，基于对象信号，基于场景信号，或者混合格式信号。

基于解码控制参数，当需要输出渲染信号时，通过将空间解码的信号(目标音频信号)和元数据解码的信号(元数据信号)输入到渲染处理模块获得初始渲染信号和中间元数据信号，初始渲染信号是指对音频数据信号进行初级渲染处理，例如对于对象信号可以是基于其初始位置选择头相关传递函数

(HRTF),假设对象信号为x(n),标示的初始位置信息的方位(Azimuth)角是60度，标示位置信息的俯仰(Elevation)角是20度，则选择(Azimuth，Elevation)为(60度，20度)的头传递相关函数hrtf(60,20)与对象信号进行卷积处理，获得的初始渲染信号Y(n)如下列公式所示：

同时将对象信号初始位置信息(60度，20度)输出。

本公开实施例解码端能够输出临时格式的音频信号(初始渲染信号)和中间元数据信号，临时格式音频信号是一种进行了部分渲染的音频信号，随后的处理可以根据此部分渲染的音频信号和中间元数据信号获得最终的渲染信号，渲染信号输入到回放设备给用户提供音频体验服务。

在一些实施例中，本公开实施例提供的音频码流信号处理方法，还包括根据初始渲染信号和中间元数据信号，生成渲染信号；其中，中间格式信号包括初始渲染信号和中间元数据信号。

本公开实施例中，在中间格式信号包括初始渲染信号和中间元数据信号的情况下，还可以根据初始渲染信号和中间元数据信号，生成渲染信号。

在一些实施例中，本公开实施例提供的音频码流信号处理方法，还包括根据目标音频信号和元数据信号，生成渲染信号。

本公开实施例中，在获取到目标音频信号和元数据信号的情况下，可以根据目标音频信号和元数据信号，生成渲染信号。

在一些实施例中，元数据信号，包括以下至少一项：

方位；

距离；

基于辅助元数据的空间音频MASA格式信号的空间信息；

临时元数据信号。

本公开实施例中，元数据信号包括方位、距离、MASA格式信号的空间信息、临时元数据信号中的至少一项。

在一些实施例中，渲染信号，包括以下至少一项：

耳机信号；

扬声器信号。

本公开实施例中，渲染信号可以为耳机信号和/或扬声器信号等。

示例性地，如图5所示，解码器和渲染器获取到解码控制参数和码流信号，其中，码流信号为在编码器处对初始音频信号进行编码后得到的，初始音频信号例如基于声道信号/基于对象信号/基于场景信号。其中，解码器和渲染器可以根据解码控制参数，对码流信号进行处理，生成渲染信号，其中，渲染信号可以为耳机信号和/或扬声器信号等。

通过实施本公开实施例，获取码流信号；获取解码控制参数；根据解码控制参数对码流信号进行处理，生成目标音频信号和/或中间格式信号；其中，中间格式信号为基于目标音频信号得到的。由此，可以实现根据解码控制参数对码流信号处理生成目标音频信号和/或基于目标音频信号得到的中间格式信号，进一步的还可以基于目标音频信号和/或中间格式信号确定渲染信号，用户可以通过设置解码控制参数来灵活选择解码器输出信号格式，基于输出信号设计音频服务解决方案，从而获得最优的音频体验服务。

请参见图6，图6是本公开实施例提供的另一种音频码流信号处理方法的流程图。

如图6所示，该方法可以包括但不限于如下步骤：

S10，获取码流信号。

S20，获取解码控制参数。

其中，S10和S20的相关描述可以参见上述实施例中的相关描述，此处不再赘述。

需要说明的是，S10与S20执行的先后顺序可以互换，例如先执行S20后执行S10。

S30，根据解码控制参数对码流信号进行处理，生成目标音频信号和元数据信号。

本公开实施例中，根据解码控制参数对码流信号进行处理，还可以生成元数据信号。所述元数据信号包括了目标音频信号的元数据信息。

可以理解的是，在解码控制参数指示对码流信号进行处理需要生成元数据信号的情况下，还可以根据解码控制参数对码流信号进行处理，生成元数据信号。

示例性地，如图3所示，在获取到解码控制参数和音频码流(码流信号)之后，对码流信号进行码流参数解析，解析后得到的音频数据送到音频数据解码核，解析后得到的元数据信号送到元数据解码核，音频数据解码核输出与所编码音频相同格式的音频信号(目标音频信号)，元数据解码核可以直接将元数据信号进行输出。

基于声道信号音频数据输入到声道信号解码模块；

基于对象信号音频数据输入到对象信号解码模块；

基于场景信号音频数据输入到场景信号解码模块；

同时将对象信号初始位置信息(60度，20度)输出。

本公开实施例基于3GPP IVAS的设计需求，编码端支持IVAS的输入格式音频信号，解码端解码能够输出IVAS的输出格式音频信号，同时也能够输出临时格式的音频信号(初始渲染信号)和中间元数据信号，临时格式音频信号是一种进行了部分渲染的音频信号，随后的处理可以根据此部分渲染的音频信号(初始渲染信号)和中间元数据信号获得最终的渲染信号，渲染信号输入到回放设备给用户提供音频体验服务。

S40，根据目标音频信号和元数据信号，生成渲染信号。

在一些实施例中，元数据信号，包括以下至少一项：

方位；

距离；

基于辅助元数据的空间音频MASA格式信号的空间信息；

临时元数据信号。

在一些实施例中，渲染信号，包括以下至少一项：

耳机信号；

扬声器信号。

通过实施本公开实施例，获取码流信号；获取解码控制参数；根据解码控制参数对码流信号进行处理，生成目标音频信号和元数据信号；根据目标音频信号和元数据信号，生成渲染信号。由此，可以实现根据解码控制参数对码流信号处理生成目标音频信号和元数据信号，进一步的还可以基于目标音频信号和元数据信号确定渲染信号，用户可以通过设置解码控制参数来灵活选择解码器输出信号格式，基于输出信号设计音频服务解决方案，从而获得最优的音频体验服务。

请参见图7，图7是本公开实施例提供的又一种音频码流信号处理方法的流程图。

如图7所示，该方法可以包括但不限于如下步骤：

S100，获取码流信号。

S200，获取解码控制参数。

其中，S100和S200的相关描述可以参见上述实施例中的相关描述，此处不再赘述。

需要说明的是，S100与S200执行的先后顺序可以互换，例如先执行S200后执行S100。

S300，根据解码控制参数对码流信号进行处理，生成初始渲染信号和中间元数据信号。

S400，根据初始渲染信号和中间元数据信号，生成渲染信号。

公开实施例中，在获取到初始渲染信号和中间元数据信号的情况下，还可以根据初始渲染信号和中间元数据信号，生成渲染信号。

示例性地，如图3所示，在获取到解码控制参数和音频码流(码流信号)之后，对码流信号进行码流参数解析，解析后得到的音频数据送到音频数据解码核，解析后得到的元数据信号送到元数据解码核，音频数据解码核输出与所编码音频相同格式的音频信号(目标音频信号)，如果根据解码控制参数要求需要进行渲染处理，则将音频数据解码核输出与元数据解码核输出输入到渲染处理模块进行渲染处理，渲染处理模块输出初始渲染信号和所需的中间元数据信号。

在一些实施例中，渲染信号，包括以下至少一项：

耳机信号；

扬声器信号。

通过实施本公开实施例，获取码流信号；获取解码控制参数；根据解码控制参数对码流信号进行处理，生成初始渲染信号和中间元数据信号；根据初始渲染信号和中间元数据信号，生成渲染信号。由此，可以实现根据解码控制参数对码流信号处理生成初始渲染信号和中间元数据信号，进一步的还可以基于初始渲染信号和中间元数据信号确定渲染信号，用户可以通过设置解码控制参数来灵活选择解码器输出信号格式，基于输出信号设计音频服务解决方案，从而获得最优的音频体验服务。

为了方便理解，本公开实施例提供一示例性实施例。

示例性实施例中，解码器接收所要解码的码流信号；根据解码控制参数对所述码流信号进行码流参数解析处理；将所述码流参数解析处理输出的音频数据输入到音频数据解码核进行处理；将所述码流参数解析处理输出的元数据数据输入到元数据解码核进行处理；基于解码控制参数将音频数据解码核和元数据解码核的输出输入到渲染处理模块获得渲染信号和辅助元数据；所述元数据解码核可以将元数据直接作为解码器输出信号。

图8是本公开实施例提供的一种音频码流信号处理装置的结构图。

如图8所示，音频码流信号处理装置1，包括：信号获取单元11、参数获取单元12和信号处理单元13。

信号获取单元11，被配置为获取码流信号；

参数获取单元12，被配置为获取解码控制参数；

信号处理单元13，被配置为根据解码控制参数对码流信号进行处理，生成目标音频信号和/或中间格式信号；其中，中间格式信号为基于目标音频信号得到的。

通过实施本公开实施例，信号获取单元11，被配置为获取码流信号；参数获取单元12，被配置为获取解码控制参数；信号处理单元13，被配置为根据解码控制参数对码流信号进行处理，生成目标音频信号和/或中间格式信号；其中，中间格式信号为基于目标音频信号得到的。由此，可以实现根据解码控制参数对码流信号处理生成目标音频信号和/或基于目标音频信号得到的中间格式信号，进一步的还可以基于目标音频信号和/或中间格式信号确定渲染信号，用户可以通过设置解码控制参数来灵活选择解码器输出信号格式，基于输出信号设计音频服务解决方案，从而获得最优的音频体验服务。

在一些实施例中，中间格式信号，包括以下至少一项：

渲染信号；

初始渲染信号；

中间元数据信号。

如图9所示，音频码流信号处理装置1，还包括：第一处理单元14。

第一处理单元14，被配置为根据初始渲染信号和中间元数据信号，生成渲染信号；其中，中间格式信号包括初始渲染信号和中间元数据信号。

在一些实施例中，渲染信号，包括以下至少一项：

耳机信号；

扬声器信号。

在一些实施例中，信号处理单元13，还被配置为：生成元数据信号。

请继续参见图9，在一些实施例中，音频码流信号处理装置1，还包括：第二处理单元15。

第二处理单元15，被配置为根据目标音频信号和元数据信号，生成渲染信号。

在一些实施例中，元数据信号，包括以下至少一项：

方位；

距离；

基于辅助元数据的空间音频MASA格式信号的空间信息；

临时元数据信号。

在一些实施例中，目标音频信号，包括以下至少一项：

基于声道信号；

基于对象信号；

基于场景信号；

MASA格式信号；

双耳信号；

立体声信号；

单声道信号；

混合格式信号；

临时格式信号。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开实施例提供的音频码流信号处理装置，可以执行如上面一些实施例所述的音频码流信号处理方法，其有益效果与上述的音频码流信号处理方法的有益效果相同，此处不再赘述。

图10是根据一示例性实施例示出的一种用于执行音频码流信号处理方法的电子设备100的结构图。

示例性地，电子设备100可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

如图10所示，电子设备100可以包括以下一个或多个组件：处理组件101，存储器102，电源组件103，多媒体组件104，音频组件105，输入/输出(I/O)的接口106，传感器组件107，以及通信组件108。

处理组件101通常控制电子设备100的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件101可以包括一个或多个处理器1011来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件101可以包括一个或多个模块，便于处理组件101和其他组件之间的交互。例如，处理组件101可以包括多媒体模块，以方便多媒体组件104和处理组件101之间的交互。

存储器102被配置为存储各种类型的数据以支持在电子设备100的操作。这些数据的示例包括用于在电子设备100上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如SRAM(Static Random-Access Memory，静态随机存取存储器)，EEPROM(Electrically Erasable Programmable read only memory，带电可擦可编程只读存储器)，EPROM(Erasable Programmable Read-Only Memory，可擦除可编程只读存储器)，PROM(Programmable read-only memory，可编程只读存储器)，ROM(Read-Only Memory，只读存储器)，磁存储器，快闪存储器，磁盘或光盘。

电源组件103为电子设备100的各种组件提供电力。电源组件103可以包括电源管理系统，一个或多个电源，及其他与为电子设备100生成、管理和分配电力相关联的组件。

多媒体组件104包括在所述电子设备100和用户之间的提供一个输出接口的触控显示屏。在一些实施例中，触控显示屏可以包括LCD(Liquid Crystal Display，液晶显示器)和TP(Touch Panel，触摸面板)。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件104包括一个前置摄像头和/或后置摄像头。当电子设备100处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件105被配置为输出和/或输入音频信号。例如，音频组件105包括一个MIC(Microphone，麦克风)，当电子设备100处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或经由通信组件108发送。在一些实施例中，音频组件105还包括一个扬声器，用于输出音频信号。

I/O接口2112为处理组件101和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件107包括一个或多个传感器，用于为电子设备100提供各个方面的状态评估。例如，传感器组件107可以检测到电子设备100的打开/关闭状态，组件的相对定位，例如所述组件为电子设备100的显示器和小键盘，传感器组件107还可以检测电子设备100或电子设备100一个组件的位置改变，用户与电子设备100接触的存在或不存在，电子设备100方位或加速/减速和电子设备100的温度变化。传感器组件107可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件107还可以包括光传感器，如CMOS(Complementary Metal Oxide Semiconductor，互补金属氧化物半导体)或CCD(Charge-coupled Device，电荷耦合元件)图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件107还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件108被配置为便于电子设备100和其他设备之间有线或无线方式的通信。电子设备100可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件108经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件108还包括NFC(Near FieldCommunication，近场通信)模块，以促进短程通信。例如，在NFC模块可基于RFID(RadioFrequency Identification，射频识别)技术，IrDA(Infrared Data Association，红外数据协会)技术，UWB(Ultra Wide Band，超宽带)技术，BT(Bluetooth，蓝牙)技术和其他技术来实现。

在示例性实施例中，电子设备100可以被一个或多个ASIC(Application SpecificIntegrated Circuit，专用集成电路)、DSP(Digital Signal Processor，数字信号处理器)、数字信号处理设备(DSPD)、PLD(Programmable Logic Device，可编程逻辑器件)、FPGA(Field Programmable Gate Array，现场可编程逻辑门阵列)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述音频码流信号处理方法。需要说明的是，本实施例的电子设备的实施过程和技术原理参见前述对本公开实施例的音频码流信号处理方法的解释说明，此处不再赘述。

本公开实施例提供的电子设备100，可以执行如上面一些实施例所述的音频码流信号处理方法，其有益效果与上述的音频码流信号处理方法的有益效果相同，此处不再赘述。

为了实现上述实施例，本公开还提出一种存储介质。

其中，该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如前所述的音频码流信号处理方法。例如，所述存储介质可以是ROM(Read Only MemoryImage，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(CompactDisc Read-Only Memory，紧凑型光盘只读存储器)、磁带、软盘和光数据存储设备等。

为了实现上述实施例，本公开还提供一种计算机程序产品，该计算机程序由电子设备的处理器执行时，使得电子设备能够执行如前所述的音频码流信号处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频码流信号处理方法，其特征在于，包括：

获取码流信号；

获取解码控制参数；

根据所述解码控制参数对所述码流信号进行处理，生成目标音频信号和/或中间格式信号；其中，所述中间格式信号为基于所述目标音频信号得到的。

2.如权利要求1所述的方法，其特征在于，所述中间格式信号，包括以下至少一项：

渲染信号；

初始渲染信号；

中间元数据信号。

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

根据所述初始渲染信号和所述中间元数据信号，生成渲染信号；其中，所述中间格式信号包括所述初始渲染信号和所述中间元数据信号。

4.如权利要求2或3所述的方法，其特征在于，所述渲染信号，包括以下至少一项：

耳机信号；

扬声器信号。

5.如权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

生成元数据信号。

6.如权利要求5所述的方法，其特征在于，所述方法还包括：

根据所述目标音频信号和所述元数据信号，生成渲染信号。

7.如权利要求5或6所述的方法，其特征在于，所述元数据信号，包括以下至少一项：

方位；

距离；

基于辅助元数据的空间音频MASA格式信号的空间信息；

临时元数据信号。

8.如权利要求1至7中任一项所述的方法，其特征在于，所述码流信号为基于初始音频信号得到的，所述目标音频信号与所述初始音频信号的信号格式相同。

9.如权利要求1至8中任一项所述的方法，其特征在于，所述目标音频信号，包括以下至少一项：

基于声道信号；

基于对象信号；

基于场景信号；

MASA格式信号；

双耳信号；

立体声信号；

单声道信号；

混合格式信号；

临时格式信号。

10.一种音频码流信号处理装置，其特征在于，包括：

信号获取单元，被配置为获取码流信号；

参数获取单元，被配置为获取解码控制参数；

信号处理单元，被配置为根据所述解码控制参数对所述码流信号进行处理，生成目标音频信号和/或中间格式信号；其中，所述中间格式信号为基于所述目标音频信号得到的。

11.如权利要求10所述的装置，其特征在于，所述中间格式信号，包括以下至少一项：

渲染信号；

初始渲染信号；

中间元数据信号。

12.如权利要求11所述的装置，其特征在于，所述装置还包括：

第一处理单元，被配置为根据所述初始渲染信号和所述中间元数据信号，生成渲染信号；其中，所述中间格式信号包括所述初始渲染信号和所述中间元数据信号。

13.如权利要求11或12所述的装置，其特征在于，所述渲染信号，包括以下至少一项：

耳机信号；

扬声器信号。

14.如权利要求10至13中任一项所述的装置，其特征在于，所述信号处理单元，还被配置为：

生成元数据信号。

15.如权利要求14所述的装置，其特征在于，所述装置还包括：

第二处理单元，被配置为根据所述目标音频信号和所述元数据信号，生成渲染信号。

16.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至9中任一项所述的方法。

17.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1至9中任一项所述的方法。

18.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令在被处理器执行时实现权利要求1至9中任一项所述的方法。