CN117813652A

CN117813652A - 音频信号编码方法、装置、电子设备和存储介质

Info

Publication number: CN117813652A
Application number: CN202280001342.8A
Authority: CN
Inventors: 高硕�
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2024-04-02
Also published as: WO2023216119A1

Abstract

一种音频信号编码方法、装置、电子设备和存储介质，该方法包括：获取音频信号(S1)；确定音频信号对应的音频场景类型(S2)；根据音频场景类型和音频信号，确定目标输入格式音频信号(S3)；对目标输入格式音频信号进行编码，生成目标编码码流(S4)。由此，能够保证所选择的音频格式信号能够更好表征本端用户的音频场景，使得远端用户能够很好的获取本端用户所处音频场景的音频场景信息，提升用户体验。

Description

音频信号编码方法、装置、电子设备和存储介质

技术领域

本公开涉及通信技术领域，尤其涉及一种音频信号编码方法、装置、电子设备和存储介质。

背景技术

相关技术中，用户在建立语音通信时，会协商一种音频格式，在整个语音通信过程中，会始终采用协商的音频格式，传递本端用户该音频格式下的音频信号给远端用户。但是，用户语音通信的音频场景可能会发生变化，该音频格式下的音频信号可能无法给远端用户提供本端用户在发生变化的音频场景下真实的音频场景信息，导致用户体验差，这是亟需解决的问题。

发明内容

本公开实施例提供一种音频信号编码方法、装置、电子设备和存储介质，能够使远端用户能够很好的获取本端用户所处音频场景的音频场景信息，提升用户体验。

第一方面，本公开实施例提供一种音频信号编码方法，该方法包括：获取音频信号；确定所述音频信号对应的音频场景类型；根据所述音频场景类型和所述音频信号，确定目标输入格式音频信号；对所述目标输入格式音频信号进行编码，生成目标编码码流。

在该技术方案中，获取音频信号；确定音频信号对应的音频场景类型；根据音频场景类型和音频信号，确定目标输入格式音频信号；对目标输入格式音频信号进行编码，生成目标编码码流。由此，能够保证所选择的音频格式信号能够更好表征本端用户的音频场景，使得远端用户能够很好的获取本端用户所处音频场景的音频场景信息，提升用户体验。

在一些实施例中，所述确定所述音频信号对应的音频场景类型，包括：获取所述音频信号的音频特征参数；将所述音频特征参数输入至音频场景类型分析模型，确定所述音频信号对应的所述音频场景类型。

在一些实施例中，所述根据所述音频场景类型和所述音频信号，确定目标输入格式音频信号，包括：根据所述音频场景类型和/或所述音频信号，确定目标音频信号输入格式；根据所述目标音频信号输入格式和所述音频信号，确定所述目标输入格式音频信号。

所述根据所述音频场景类型和所述音频信号，确定目标音频信号输入格式，包括：

响应于所述音频场景类型表征音频场景中包括至少一个主要音频信号，确定所述目标音频信号输入格式为基于对象信号输入格式；

响应于所述音频场景类型表征音频场景中包括至少一个主要音频信号和背景音频信号，确定所述目标音频信号输入格式为基于对象信号输入格式和基于场景信号输入格式；

响应于所述音频场景类型表征音频场景中仅包括至少一个背景音频信号，确定所述目标音频信号输入格式为基于场景信号输入格式。

在一些实施例中，所述根据所述目标音频信号输入格式和所述音频信号，确定所述目标输入格式音频信号，包括：

响应于确定所述目标音频信号输入格式为基于对象信号输入格式，确定所述目标输入格式音频信号为所述音频信号中的基于对象音频信号；

响应于确定所述目标音频信号输入格式为基于对象信号输入格式和基于场景信号输入格式，确定所述目标输入格式音频信号为所述音频信号中的基于对象音频信号和基于场景音频信号；

响应于确定所述目标音频信号输入格式为基于场景信号输入格式，确定所述目标输入格式音频信号为所述音频信号中的基于场景音频信号。

在一些实施例中，所述对所述目标输入格式音频信号进行编码，生成目标编码码流，包括：

根据所述目标输入格式音频信号，确定目标编码核，或者，根据所述音频场景类型和所述目标输入格式音频信号，确定目标编码核；

根据所述目标编码核对所述目标输入格式音频信号进行编码，获取编码参数；

根据所述编码参数进行码流复用，生成所述目标编码码流。

在一些实施例中，所述根据所述目标输入格式音频信号，确定目标信号编码核，包括：

响应于所述目标输入格式音频信号为基于对象音频信号，确定所述基于对象音频信号中对象音频数据的所述目标编码核为对象音频数据编码核，确定所述基于对象音频信号中元数据的所述目标编码核为对象元数据参数编码核；

响应于所述目标输入格式音频信号为基于场景音频信号，确定所述目标编码核为场景音频数据编码核；

响应于所述目标输入格式音频信号为基于声道音频信号，确定所述目标编码核为声道音频数据编码核；

响应于所述目标输入格式音频信号为基于辅助元数据的空间音频MASA(Metadata-assistedspatial audio)音频信号，确定所述基于MASA音频信号中音频数据的所述目标编码核为场景音频数据编码核，确定所述基于MASA音频信号中空间辅助元数据的所述目标编码核为空间辅助元数据参数编码核；

响应于所述目标输入格式音频信号为混合格式音频信号，确定所述目标编码核为所述混合格式音频信号中的格式音频信号选用的编码核，其中，所述混合格式信号包括基于对象音频信号、基于场景音频信号、基于声道音频信号和基于MASA音频信号中的至少两个。

在一些实施例中，所述根据所述音频场景类型和所述目标输入格式音频信号，确定目标编码核，包括：

响应于所述音频场景类型表征音频场景中包括至少一个主要音频信号和/或背景音频信号，以及所述目标输入格式音频信号为基于对象音频信号和基于场景音频信号，确定所述基于对象音频信号中对象音频数据的所述目标编码核为对象音频数据编码核，确定所述基于对象音频信号中元数据的所述目标编码核为对象元数据参数编码核，确定所述基于场景音频信号的所述目标编码核为场景音频数据编码核；

响应于所述音频场景类型表征音频场景中包括至少一个主要音频信号和背景音频信号，以及所述目标输入格式音频信号为基于对象音频信号和基于场景音频信号，确定所述基于对象音频信号中对象音频数据的所述目标编码核为对象音频数据编码核，确定所述基于对象音频信号中元数据的所述目标编码核为对象元数据参数编码核，确定所述基于场景音频信号的所述目标编码核为场景音频数据编码核；

响应于所述音频场景类型表征音频场景中仅包括至少一个背景音频信号，以及所述目标输入格式音频信号为基于场景音频信号，确定所述基于场景音频信号的所述目标编码核为场景音频数据编码核。

第二方面，本公开实施例提供一种音频信号编码装置，所述音频信号编码装置包括：信号获取单元，被配置为获取音频信号；类型确定单元，被配置为确定所述音频信号对应的音频场景类型；目标信号确定单元，被配置为根据所述音频场景类型和所述音频信号，确定目标输入格式音频信号；编码处理单元，被配置为对所述目标输入格式音频信号进行编码，生成目标编码码流。

所述类型确定单元，包括：

参数获取模块，被配置为获取所述音频信号的音频特征参数；

模型处理模块，被配置为将所述音频特征参数输入至音频场景类型分析模型，确定所述音频信号对应的所述音频场景类型。

在一些实施例中，所述目标信号确定单元，包括：目标格式确定模块，被配置为根据所述音频场景类型和/或所述音频信号，确定目标音频信号输入格式；目标信号确定模块，被配置为根据所述目标音频信号输入格式和所述音频信号，确定所述目标输入格式音频信号。

在一些实施例中，所述目标格式确定模块，具体被配置为：

在一些实施例中，所述目标信号确定模块，具体被配置为：

在一些实施例中，所述编码处理单元，包括：编码核确定模块，被配置为所述目标输入格式音频信号，确定目标编码核，或者，根据根据所述音频场景类型和所述目标输入格式音频信号，确定目标编码核；参数获取模块，被配置为根据所述目标编码核对所述目标输入格式音频信号进行编码，获取编码参数；码流生成模块，被配置为根据所述编码参数进行码流复用，生成所述目标编码码流。

在一些实施例中，所述编码核确定模块，具体被配置为：

响应于所述目标输入格式音频信号为基于辅助元数据的空间音频MASA音频信号，确定所述基于 MASA音频信号中音频数据的所述目标编码核为场景音频数据编码核，确定所述基于MASA音频信号中空间辅助元数据的所述目标编码核为空间辅助元数据参数编码核；

在一些实施例中，所述编码核确定模块，具体被配置为：

响应于所述音频场景类型表征音频场景中包括至少一个主要音频信号，以及所述目标输入格式音频信号为基于对象音频信号和基于场景音频信号，确定所述基于对象音频信号中对象音频数据的所述目标编码核为对象音频数据编码核，确定所述基于对象音频信号中元数据的所述目标编码核为对象元数据参数编码核，确定所述基于场景音频信号的所述目标编码核为场景音频数据编码核；

第三方面，本公开实施例提供一种电子设备，该电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面所述的方法。

第四方面，本公开实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行上述第一方面所述的方法。

第五方面，本公开实施例提供一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令在被处理器执行时实现上述第一方面所述的方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本公开实施例或背景技术中的技术方案，下面将对本公开实施例或背景技术中所需要使用的附图进行说明。

图1是本公开实施例提供的一种音频信号编码方法的流程图；

图2是本公开实施例提供的另一种音频信号编码方法的流程图；

图3是本公开实施例提供的又一种音频信号编码方法的流程图；

图4是本公开实施例提供的又一种音频信号编码方法的流程图；

图5是本公开实施例提供的又一种音频信号编码方法的流程图；

图6是本公开实施例提供的一种音频信号编码装置的结构图；

图7是本公开实施例提供的音频信号编码装置中一种类型确定单元的结构图；

图8是本公开实施例提供的音频信号编码装置中一种目标信号确定单元的结构图；

图9是本公开实施例提供的音频信号编码装置中一种编码处理单元的结构图；

图10为本公开一实施例示出的电子设备的结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

除非上下文另有要求，否则，在整个说明书和权利要求书中，术语“包括”被解释为开放、包含的意思，即为“包含，但不限于”。在说明书的描述中，术语“一些实施例”等旨在表明与该实施例或示例相关的特定特征、结构、材料或特性包括在本公开的至少一个实施例或示例中。上述术语的示意性表示不一定是指同一实施例或示例。此外，所述的特定特征、结构、材料或特点可以以任何适当方式包括在任何一个或多个实施例或示例中。

需要说明的是，本公开的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开中的至少一个还可以描述为一个或多个，多个可以是两个、三个、四个或者更多个，本公开不做限制。在本公开实施例中，对于一种技术特征，通过“第一”、“第二”、“第三”、“A”、“B”、“C”和“D”等区分该种技术特征中的技术特征，该“第一”、“第二”、“第三”、“A”、“B”、“C”和“D”描述的技术特征间无先后顺序或者大小顺序。

本公开中各表所示的对应关系可以被配置，也可以是预定义的。各表中的信息的取值仅仅是举例，可以配置为其他值，本公开并不限定。在配置信息与各参数的对应关系时，并不一定要求必须配置各表中示意出的所有对应关系。例如，本公开中的表格中，某些行示出的对应关系也可以不配置。又例如，可以基于上述表格做适当的变形调整，例如，拆分，合并等等。上述各表中标题示出参数的名称也可以采用通信装置可理解的其他名称，其参数的取值或表示方式也可以通信装置可理解的其他取值或表示方式。上述各表在实现时，也可以采用其他的数据结构，例如可以采用数组、队列、容器、栈、线性表、指针、链表、树、图、结构体、类、堆、散列表或哈希表等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

第一代移动通信技术(1G)是第一代无线蜂窝技术，属于模拟移动通信网。1G升级到2G时将手机从模拟通信转移到数字通信，3G移动通信系统是ITU(International Telecommunication Union，国际电信联盟)为2000年国际移动通信而提出的，4G是在3G技术上的一次更好的改良，数据和话音都采用全IP的方式，提供语音音频的实时HD+Voice服务，采用的EVS编解码器能够兼顾语音和音频的高质量压缩。

以上提供的语音和音频通信服务从窄带信号扩展到超宽带甚至是全带服务，但还都是单声道服务，人们对高质量音频的需求不断增加，与单声道音频相比，立体声音频对于每个声源具有取向感和分布感，并且可以提高清晰度。

随着传输带宽的增加、终端设备信号采集设备的升级、信号处理器性能的提升、以及终端回放设备的升级。基于声道的多通道音频信号，基于对象的音频信号，基于场景的音频信号等三种信号格式可以提供三维音频服务。第三代合作伙伴计划3GPP SA4正在标准化的沉浸式语音和音频服务IVAS编解码器即能支持上述三种信号格式的编解码需求。能够支持三维音频服务的终端设备有手机，电脑，平板，会议系统设备，增强现实AR/虚拟现实VR设备，汽车等。

本公开实施例中，本端用户所处的音频场景可能在不断变化，例如：本端用户在室外寂静空旷的场所与远端用户进行实时通信，此时本端用户终端设备选择使用单声道信号格式作为输入信号格式就能够将本端用户的音频场景很好的传送给远端用户，某一时间段会有一只小鸟飞过，小鸟的叫声是当前音频场景的一个不可忽略的重要音频元素，此时如果仍然使用之前的单声道音频信号格式就无法将小鸟的叫声很好的传递给远端用户，此时，对当前音频场景使用单声道音频信号格式(本端用户声音)和对象格式信号叠加混合信号格式(小鸟的叫声，包括小鸟的叫声音频信号和小鸟的飞行轨迹)是一种最优的信号格式，之后当本端用户走到一处喧闹的露天广场处，此时应当选择一种基于场景信号格式：如FOA/HOA格式信号，或者空间音频信号格式(spatial audio):如基于MASA(Metadata-assistedspatial audio)格式信号，当本端用户走到一个交响乐播放场所时，同时此处有专业的声道录音设备，则可以选择使用声道信号格式如：(5.1/5.1.4/7.1/7.1.4)格式信号。本公开实施例中，本端用户的终端设备可以实时分析本端用户所处的音频场景，通过获取的音频场景类型来指导音频信号产生器输出最优的音频格式信号，从而保证所选择的音频格式信号能够更好表征本端用户的音频场景，从而使得远端用户能够很好的获取本端用户所处音频场景的音频场景信息，提升用户体验。

请参见图1，图1是本公开实施例提供的一种音频信号编码方法的流程图。

如图1所示，该方法可以包括但不限于如下步骤：

S1，获取音频信号。

可以理解的是，本端用户与任一远端用户建立语音通信时，本端用户可以通过终端设备与任一远端用户的终端设备建立语音通信，其中，本端用户的终端设备可以实时获取本端用户所在环境的声音信息，获取音频信号。

其中，本端用户所在环境的声音信息，包括本端用户发出的声音信息、以及周边事物的声音信息等。周围事物的声音信息，例如：车辆行驶的声音信息、小鸟的叫声信息、风声信息、本端用户身边的其他用户发出的声音信息等等。

需要说明的是，终端设备是用户侧的一种用于接收或发射信号的实体，如手机、电脑、平板、手表、对讲机、会议系统设备、增强现实AR/虚拟现实VR设备、汽车等。终端设备也可以称为用户设备(user equipment，UE)、移动台(mobile station，MS)、移动终端设备(mobile terminal，MT)等。终端设备可以是具备通信功能的汽车、智能汽车、手机(mobile phone)、穿戴式设备、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(virtual reality，VR)终端设备、增强现实(augmented reality，AR)终端设备、工业控制(industrial control)中的无线终端设备、无人驾驶(self-driving)中的无线终端设备、远程手术(remote medical surgery)中的无线终端设备、智能电网(smart grid)中的无线终端设备、运输安全(transportation safety)中的无线终端设备、智慧城市(smart city)中的无线终端设备、智慧家庭(smart home)中的无线终端设备等等。本公开的实施例对终端设备所采用的具体技术和具体设备形态不做限定。

本公开实施例中，本端用户的终端设备获取音频信号，可以通过设置于终端设备中或与终端设备配合的录音装置，例如：麦克风，获取本端用户所在环境的声音信息，进一步生成音频信号，获取音频信号。

S2，确定音频信号对应的音频场景类型。

本公开实施例中，在获取音频信号的基础上，可以对获取的音频信号进行分析，获取音频信号对应的音频场景类型。

可以理解的是，音频信号中可能包括本端用户发出的声音信息和/或周边事物的声音信息。本公开实施例中，可以根据音频信号中包括的内容，确定音频信号对应的音频场景类型。

在一种可能的实施方式中，音频场景类型，例如包括：办公场所、剧场、汽车内、火车站、大型商场等，本公开实施例中，针对每一种音频场景类型可以选择一种音频信号输入格式的输入格式音频信号，或者可以选择多种音频信号输入格式的输入格式音频信号。

示例性地，如下表1所示：

表1

可以理解的是，上述示例仅作为示意，音频场景类型还可以采用其他方式进行划分，或者与其他方式结合进行划分等，例如：音频场景类型可以采用音频信号中仅包括至少一个主要音频信号、或者音频信号中包括至少一个主要音频信号和背景音频信号、或者音频信号中仅包括至少一个背景音频信号的方式进行划分等。音频场景类型可以预先根据需要进行设置，本公开实施例对此不作具体限制。

本公开实施例中，针对每一种音频场景类型可以选择一种或多种音频信号输入格式的输入格式音频信号，选择的音频信号输入格式还可以根据获取音频信号的方式进行确定，例如：根据音频信号的声道数以及空间布局关系等进行确定。

S3，根据音频场景类型和音频信号，确定目标输入格式音频信号。

本公开实施例中，在获取音频信号，确定音频信号对应的音频场景类型的情况下，可以进一步的，根据音频场景类型和音频信号，确定目标输入格式音频信号。其中，在音频信号中包括一种或多种输入格式音频信号的情况下，根据音频场景类型和音频信号，确定目标输入格式音频信号为音频信号中的一种或多种输入格式音频信号。

可以理解的是，音频信号中可能包括一种或多种输入格式音频信号，本公开实施例中，可以通过预先设置音频场景类型与输入格式音频信号的对应关系，在确定音频场景类型的情况下，根据音频场景类型和对应关系，确定目标输入格式音频信号。

其中，本公开实施例中，还可以根据音频场景类型、对应关系以及音频信号中包括的输入格式音频信号，确定音频信号中的目标输入格式音频信号。

S4，对目标输入格式音频信号进行编码，生成目标编码码流。

本公开实施例中，在确定目标输入格式音频信号的情况下，为与远端用户进行通信，将目标输入格式音频信号发送至远端用户的终端设备。首先，需要对目标输入格式音频信号进行编码，生成目标编码码流，发送至远端用户的终端设备。远端用户的终端设备接收到目标编码码流后，对目标编码码流进行解编码，以获取本端用户的声音信息。

为了方便理解，本公开实施例提供一示例性实施例：

如图2所示，本公开实施例中，获取音频信号(音频场景信号)，对音频信号的音频场景进行分析，确定音频场景类型，根据音频场景类型和音频信号，输入至音频信号格式生成器，获取目标输入格式音频信号(音频格式信号)。

其中，根据目标输入格式音频信号和/或音频场景类型，确定使用的目标编码核，示例性地，在确定目标输入格式音频信号为基于对象音频信号的情况下，确定使用的目标编码核为对象音频数据编码核；在确定目标输入格式音频信号为基于场景音频信号的情况下，确定使用的目标编码核为场景音频数据编码核；在确定目标输入格式音频信号为基于对象音频信号和基于场景音频信号的情况下，确定使用的目标编码核为对象音频数据编码核和场景音频数据编码核，等等。

本公开实施例中，采用确定的目标编码核对目标输入格式音频信号(音频格式信号)进行编码，并经过码流复用，生成目标编码码流，并发送至远端用户的终端设备。远端用户的终端设备接收到目标编码码流后，对目标编码码流进行解编码，以获取本端用户的声音信息。

通过实施本公开实施例，获取音频信号；确定音频信号对应的音频场景类型；根据音频场景类型和音频信号，确定目标输入格式音频信号；对目标输入格式音频信号进行编码，生成目标编码码流。由此，能够保证所选择的音频格式信号能够更好表征本端用户的音频场景，使得远端用户能够很好的获取本端用户所处音频场景的音频场景信息，提升用户体验。

请参见图3，图3是本公开实施例提供的另一种音频信号编码方法的流程图。

如图3所示，该方法可以包括但不限于如下步骤：

S10，获取音频信号。

其中，S10的相关描述可以参见上述实施例中的相关描述，相同的内容此处不再赘述。

S20，确定音频信号对应的音频场景类型。

在一些实施例中，确定音频信号对应的音频场景类型，包括：获取音频信号的音频特征参数；将音频特征参数输入至音频场景类型分析模型，确定音频信号对应的音频场景类型。

其中，本公开实施例中，获取音频信号的音频特征参数，例如：线性预测倒谱系数，过零率，梅尔频率倒谱系数等。音频场景类型分析模型，例如：HMM(Hidden Markov Model，隐马尔可夫模型)模型、高斯混合模型、或者其它数学模型等。在获取音频信号的音频特征参数的情况下，将音频信号的音频特征参数输入至音频场景类型分析模型，可以确定音频信号对应的音频场景类型。

可以理解的是，本公开实施例中，音频场景类型分析模型能够根据音频信号的音频特征参数，确定音频信号的音频场景类型，其中，音频场景类型分析模型可以通过预先训练获得，或者通过预先设置获得，可以采用相关技术中的方法，本公开实施例对此不作具体限制。

其中，音频场景类型的相关描述可以参见上述实施例中的相关描述，此处不再赘述。

在一些实施例中，根据音频场景类型，确定目标音频信号输入格式，包括：

响应于音频场景类型表征音频场景中包括至少一个主要音频信号，确定目标音频信号输入格式为基于对象信号输入格式；

响应于音频场景类型表征音频场景中包括至少一个主要音频信号和背景音频信号，确定目标音频信号输入格式为基于对象信号输入格式和基于场景信号输入格式；

响应于音频场景类型表征音频场景中仅包括至少一个背景音频信号，确定目标音频信号输入格式为基于场景信号输入格式。

本公开实施例中，在确定音频场景类型表征音频场景中包括至少一个主要音频信号的情况下，可以确定目标音频信号输入格式为基于对象信号输入格式。

本公开实施例中，在确定音频场景类型表征音频场景中包括至少一个主要音频信号和背景音频信号的情况下，可以确定目标音频信号输入格式为基于对象信号输入格式和基于场景信号输入格式。

其中，本公开实施例中，确定音频场景类型表征音频场景中包括至少一个主要音频信号和背景音频信号，可以确定音频信号为混合格式音频信号，包括至少两种音频场景类型的输入格式音频信号。

本公开实施例中，在确定音频场景类型表征音频场景中包括至少一个主要音频信号和背景音频信号，确定音频信号为混合格式音频信号的情况下，还可以确定目标音频信号输入格式为基于对象信号输入格式、基于单声道格式信号、基于立体声格式信号、基于MASA格式信号、基于声道格式信号、基于FOA格式信号和基于HOA格式信号中的至少两个。

本公开实施例中，在确定音频场景类型表征音频场景中仅包括至少一个背景音频信号的情况下，可以确定目标音频信号输入格式为基于场景信号输入格式。

在一些实施例中，根据目标音频信号输入格式和音频信号，确定目标输入格式音频信号，包括：

响应于确定目标音频信号输入格式为基于对象信号输入格式，确定目标输入格式音频信号为音频信号中的基于对象音频信号；

响应于确定目标音频信号输入格式为基于对象信号输入格式和基于场景信号输入格式，确定目标输入格式音频信号为音频信号中的基于对象音频信号和基于场景音频信号；

响应于确定目标音频信号输入格式为基于场景信号输入格式，确定目标输入格式音频信号为音频信号中的基于场景音频信号。

本公开实施例中，在确定目标音频信号输入格式为基于对象信号输入格式的情况下，确定目标输入格式音频信号为音频信号中的基于对象音频信号。

本公开实施例中，在确定目标音频信号输入格式为基于对象信号输入格式和基于场景信号输入格式的情况下，可以确定目标输入格式音频信号为音频信号中的基于对象音频信号和基于场景音频信号。

本公开实施例中，在确定响应于确定目标音频信号输入格式为基于场景信号输入格式的情况下，可以确定目标输入格式音频信号为音频信号中的基于场景音频信号。

S30，根据目标输入格式音频信号，确定目标编码核，或者，根据音频场景类型和目标输入格式音频信号，确定目标编码核。

在一些实施例中，根据目标输入格式音频信号，确定目标信号编码核，包括：

响应于目标输入格式音频信号为基于对象音频信号，确定基于对象音频信号中对象音频数据的目标编码核为对象音频数据编码核，确定基于对象音频信号中元数据的目标编码核为对象元数据参数编码核；

响应于目标输入格式音频信号为基于场景音频信号，确定目标编码核为场景音频数据编码核；

响应于目标输入格式音频信号为基于声道音频信号，确定目标编码核为声道音频数据编码核；

响应于目标输入格式音频信号为基于辅助元数据的空间音频MASA音频信号，确定基于MASA音频信号中音频数据的目标编码核为场景音频数据编码核，确定基于MASA音频信号中空间辅助元数据的目标编码核为空间辅助元数据参数编码核；

响应于目标输入格式音频信号为混合格式音频信号，确定目标编码核为混合格式音频信号中的格式音频信号选用的编码核，其中，混合格式信号包括基于对象音频信号、基于场景音频信号、基于声道音频信号和基于MASA音频信号中的至少两个。

本公开实施例中，在确定目标输入格式音频信号为基于对象音频信号的情况下，其中，基于对象音频信号包括对象音频数据和元数据，可以确定基于对象音频信号中对象音频数据的目标编码核为对象音频数据编码核，确定基于对象音频信号中元数据的目标编码核为对象元数据参数编码核。

本公开实施例中，在确定目标输入格式音频信号为基于场景音频信号的情况下，可以确定目标编码核为场景音频数据编码核。

本公开实施例中，在确定目标输入格式音频信号为基于声道音频信号的情况下，可以确定目标编码核为声道音频数据编码核。

本公开实施例中，在确定目标输入格式音频信号为基于辅助元数据的空间音频MASA音频信号的情况下，其中，基于MASA音频信号包括音频数据和空间辅助元数据，可以确定基于MASA音频信号中音频数据的目标编码核为场景音频数据编码核，可以确定基于MASA音频信号中空间辅助元数据的目标编码核为空间辅助元数据参数编码核。

本公开实施例中，在确定目标输入格式音频信号为混合格式音频信号的情况下，可以确定目标编码核为混合格式音频信号中的格式音频信号选用的编码核，其中，混合格式信号包括基于对象音频信号、基于场景音频信号、基于声道音频信号和基于MASA音频信号中的至少两个。

在一些实施例中，根据音频场景类型和目标输入格式音频信号，确定目标编码核，包括：

响应于音频场景类型表征音频场景中包括至少一个主要音频信号，以及目标输入格式音频信号为基于对象音频信号和基于场景音频信号，确定基于对象音频信号中对象音频数据的目标编码核为对象音频数据编码核，确定基于对象音频信号中元数据的目标编码核为对象元数据参数编码核，确定基于场景音频信号的目标编码核为场景音频数据编码核；

响应于音频场景类型表征音频场景中包括至少一个主要音频信号和背景音频信号，以及目标输入格式音频信号为基于对象音频信号和基于场景音频信号，确定基于对象音频信号中对象音频数据的目标编码核为对象音频数据编码核，确定基于对象音频信号中元数据的目标编码核为对象元数据参数编码核，确定基于场景音频信号的目标编码核为场景音频数据编码核；

响应于音频场景类型表征音频场景中仅包括至少一个背景音频信号，以及目标输入格式音频信号为基于场景音频信号，确定基于场景音频信号的目标编码核为场景音频数据编码核。

本公开实施例中，在确定音频场景类型表征音频场景中包括至少一个主要音频信号，以及目标输入格式音频信号为基于对象音频信号和基于场景音频信号的情况下，可以确定基于对象音频信号中对象音频数据的目标编码核为对象音频数据编码核，确定基于对象音频信号中元数据的目标编码核为对象元数据参数编码核，确定基于场景音频信号的目标编码核为场景音频数据编码核。

本公开实施例中，在确定音频场景类型表征音频场景中包括至少一个主要音频信号和背景音频信号，以及目标输入格式音频信号为基于对象音频信号和基于场景音频信号的情况下，确定基于对象音频信号中对象音频数据的目标编码核为对象音频数据编码核，确定基于对象音频信号中元数据的目标编码核为对象元数据参数编码核，确定基于场景音频信号的目标编码核为场景音频数据编码核。

本公开实施例中，在确定音频场景类型表征音频场景中仅包括至少一个背景音频信号，以及目标输入格式音频信号为基于场景音频信号的情况下，可以确定基于场景音频信号的目标编码核为场景音频数据编码核。

S40，根据目标编码核对目标输入格式音频信号进行编码，获取编码参数。

S50，根据编码参数进行码流复用，生成目标编码码流。

其中，本公开实施例中，S40和S50的相关描述可以参见上述实施例中的相关描述，此处不再赘述。

在一种可能的实现方式中，如图4所示，本公开实施例中，获取音频信号，确定音频信号对应的音频场景类型，根据音频场景类型和/或音频信号，确定目标输入格式音频信号为基于对象音频信号的情况下，根据目标输入格式音频信号为基于对象音频信号，确定基于对象音频信号中对象音频数据的目标编码核为对象音频数据编码核，确定基于对象音频信号中元数据的目标编码核为对象元数据参数编码核，之后，进行码流复用，获取目标编码码流，由此，能够保证所选择的音频格式信号能够更好表征本端用户的音频场景，使得远端用户能够很好的获取本端用户所处音频场景的音频场景信息，提升用户体验。

在另一种可能的实现方式中，如图5所示，本公开实施例中，获取音频信号，确定音频信号对应的音频场景类型，根据音频场景类型和/或音频信号，确定目标输入格式音频信号为基于MASA音频信号的情况下，根据目标输入格式音频信号为基于MASA音频信号，确定基于MASA音频信号中音频数据的目标编码核为场景音频数据编码核，可以确定基于MASA音频信号中空间辅助元数据的目标编码核为空间辅助元数据参数编码核，其中，基于MASA音频信号中空间辅助元数据是可选项，之后，进行码流复用，获取目标编码码流，由此，能够保证所选择的音频格式信号能够更好表征本端用户的音频场景，使得远端用户能够很好的获取本端用户所处音频场景的音频场景信息，提升用户体验。

图6是本公开实施例提供的一种音频信号编码装置的结构图。

如图6所示，音频信号编码装置1，包括：信号获取单元11、类型确定单元12、目标信号确定单元13和编码处理单元14。

信号获取单元11，被配置为获取音频信号。

类型确定单元12，被配置为确定音频信号对应的音频场景类型。

目标信号确定单元13，被配置为根据音频场景类型和音频信号，确定目标输入格式音频信号。

编码处理单元14，被配置为对目标输入格式音频信号进行编码，生成目标编码码流。

如图7所示，在一些实施例中，类型确定单元12，包括：参数获取模块121和模型处理模块122。

参数获取模块121，被配置为获取音频信号的音频特征参数。

模型处理模块122，被配置为将音频特征参数输入至音频场景类型分析模型，确定音频信号对应的音频场景类型。

如图8所示，在一些实施例中，目标信号确定单元13，包括：目标格式确定模块131和目标信号确定模块132。

目标格式确定模块131，被配置为根据音频场景类型和/或音频信号，确定目标音频信号输入格式。

目标信号确定模块132，被配置为根据目标音频信号输入格式和音频信号，确定目标输入格式音频信号。

在一些实施例中，目标格式确定模块131，具体被配置为：

在一些实施例中，目标信号确定模块132，具体被配置为：

如图9所示，在一些实施例中，编码处理单元14，包括：编码核确定模块141、参数获取模块142和码流生成模块143。

编码核确定模块141，被配置为根据目标输入格式音频信号，确定目标编码核，或者，根据音频场景类型和目标输入格式音频信号，确定目标编码核。

参数获取模块142，被配置为根据目标编码核对目标输入格式音频信号进行编码，获取编码参数。

码流生成模块143，被配置为根据编码参数进行码流复用，生成目标编码码流。

在一些实施例中，编码核确定模块141，具体被配置为：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开实施例提供的音频信号编码装置，可以执行如上面一些实施例所述的音频信号编码方法，其有益效果与上述的音频信号编码方法的有益效果相同，此处不再赘述。

图10是根据一示例性实施例示出的一种用于执行音频信号编码方法的电子设备100的结构图。

示例性地，电子设备100可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

如图10所示，电子设备100可以包括以下一个或多个组件：处理组件101，存储器102，电源组件103，多媒体组件104，音频组件105，输入/输出(I/O)的接口106，传感器组件107，以及通信组件108。

处理组件101通常控制电子设备100的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件101可以包括一个或多个处理器1011来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件101可以包括一个或多个模块，便于处理组件101和其他组件之间的交互。例如，处理组件101可以包括多媒体模块，以方便多媒体组件104和处理组件101之间的交互。

存储器102被配置为存储各种类型的数据以支持在电子设备100的操作。这些数据的示例包括用于在电子设备100上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如SRAM(Static Random-Access Memory，静态随机存取存储器)，EEPROM(Electrically Erasable Programmable read only memory，带电可擦可编程只读存储器)，EPROM(Erasable Programmable Read-Only Memory，可擦除可编程只读存储器)，PROM(Programmable read-only memory，可编程只读存储器)，ROM(Read-Only Memory，只读存储器)，磁存储器，快闪存储器，磁盘或光盘。

电源组件103为电子设备100的各种组件提供电力。电源组件103可以包括电源管理系统，一个或多个电源，及其他与为电子设备100生成、管理和分配电力相关联的组件。

多媒体组件104包括在所述电子设备100和用户之间的提供一个输出接口的触控显示屏。在一些实施例中，触控显示屏可以包括LCD(Liquid Crystal Display，液晶显示器)和TP(Touch Panel，触摸面板)。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件104包括一个前置摄像头和/或后置摄像头。当电子设备100处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件105被配置为输出和/或输入音频信号。例如，音频组件105包括一个MIC(Microphone，麦克风)，当电子设备100处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或经由通信组件108发送。在一些实施例中，音频组件105还包括一个扬声器，用于输出音频信号。

I/O接口2112为处理组件101和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件107包括一个或多个传感器，用于为电子设备100提供各个方面的状态评估。例如，传感器组件107可以检测到电子设备100的打开/关闭状态，组件的相对定位，例如所述组件为电子设备100的显示器和小键盘，传感器组件107还可以检测电子设备100或电子设备100一个组件的位置改变，用户与电子设备100接触的存在或不存在，电子设备100方位或加速/减速和电子设备100的温度变化。传感器组件107可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件107还可以包括光传感器，如CMOS(Complementary Metal Oxide Semiconductor，互补金属氧化物半导体)或CCD(Charge-coupled Device，电荷耦合元件)图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件107还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件108被配置为便于电子设备100和其他设备之间有线或无线方式的通信。电子设备100可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件108经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件108还包括NFC(Near Field Communication，近场通信)模块，以促进短程通信。例如，在NFC模块可基于RFID(Radio Frequency Identification，射频识别)技术，IrDA(Infrared Data Association，红外数据协会)技术，UWB(Ultra Wide Band，超宽带)技术，BT(Bluetooth，蓝牙) 技术和其他技术来实现。

在示例性实施例中，电子设备100可以被一个或多个ASIC(Application Specific Integrated Circuit，专用集成电路)、DSP(Digital Signal Processor，数字信号处理器)、数字信号处理设备(DSPD)、PLD(Programmable Logic Device，可编程逻辑器件)、FPGA(Field Programmable Gate Array，现场可编程逻辑门阵列)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述音频信号编码方法。需要说明的是，本实施例的电子设备的实施过程和技术原理参见前述对本公开实施例的音频信号编码方法的解释说明，此处不再赘述。

本公开实施例提供的电子设备100，可以执行如上面一些实施例所述的音频信号编码方法，其有益效果与上述的音频信号编码方法的有益效果相同，此处不再赘述。

为了实现上述实施例，本公开还提出一种存储介质。

其中，该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如前所述的音频信号编码方法。例如，所述存储介质可以是ROM(Read Only Memory Image，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，紧凑型光盘只读存储器)、磁带、软盘和光数据存储设备等。

为了实现上述实施例，本公开还提供一种计算机程序产品，该计算机程序由电子设备的处理器执行时，使得电子设备能够执行如前所述的音频信号编码方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

一种音频信号编码方法，其特征在于，包括：

获取音频信号；

确定所述音频信号对应的音频场景类型；

根据所述音频场景类型和所述音频信号，确定目标输入格式音频信号；

对所述目标输入格式音频信号进行编码，生成目标编码码流。
如权利要求1所述的方法，其特征在于，所述确定所述音频信号对应的音频场景类型，包括：

获取所述音频信号的音频特征参数；

将所述音频特征参数输入至音频场景类型分析模型，确定所述音频信号对应的所述音频场景类型。
如权利要求1或2所述的方法，其特征在于，所述根据所述音频场景类型和所述音频信号，确定目标输入格式音频信号，包括：

根据所述音频场景类型和/或所述音频信号，确定目标音频信号输入格式；

根据所述目标音频信号输入格式和所述音频信号，确定所述目标输入格式音频信号。
如权利要求3所述的方法，其特征在于，所述根据所述音频场景类型，确定目标音频信号输入格式，包括：

响应于所述音频场景类型表征音频场景中包括至少一个主要音频信号，确定所述目标音频信号输入格式为基于对象信号输入格式；

响应于所述音频场景类型表征音频场景中包括至少一个主要音频信号和背景音频信号，确定所述目标音频信号输入格式为基于对象信号输入格式和基于场景信号输入格式；

响应于所述音频场景类型表征音频场景中仅包括至少一个背景音频信号，确定所述目标音频信号输入格式为基于场景信号输入格式。
如权利要求4所述的方法，其特征在于，所述根据所述目标音频信号输入格式和所述音频信号，确定所述目标输入格式音频信号，包括：

响应于确定所述目标音频信号输入格式为基于对象信号输入格式，确定所述目标输入格式音频信号为所述音频信号中的基于对象音频信号；

响应于确定所述目标音频信号输入格式为基于对象信号输入格式和基于场景信号输入格式，确定所述目标输入格式音频信号为所述音频信号中的基于对象音频信号和基于场景音频信号；

响应于确定所述目标音频信号输入格式为基于场景信号输入格式，确定所述目标输入格式音频信号为所述音频信号中的基于场景音频信号。
如权利要求1至5中任一项所述的方法，其特征在于，所述对所述目标输入格式音频信号进行编码，生成目标编码码流，包括：

根据所述目标输入格式音频信号，确定目标编码核，或者，根据所述音频场景类型和所述目标输入格式音频信号，确定目标编码核；

根据所述目标编码核对所述目标输入格式音频信号进行编码，获取编码参数；

根据所述编码参数进行码流复用，生成所述目标编码码流。
如权利要求6所述的方法，其特征在于，所述根据所述目标输入格式音频信号，确定目标信号编码核，包括：

响应于所述目标输入格式音频信号为基于对象音频信号，确定所述基于对象音频信号中对象音频数据的所述目标编码核为对象音频数据编码核，确定所述基于对象音频信号中元数据的所述目标编码核为对象元数据参数编码核；

响应于所述目标输入格式音频信号为基于场景音频信号，确定所述目标编码核为场景音频数据编码核；

响应于所述目标输入格式音频信号为基于声道音频信号，确定所述目标编码核为声道音频数据编码核；

响应于所述目标输入格式音频信号为基于辅助元数据的空间音频MASA音频信号，确定所述基于MASA音频信号中音频数据的所述目标编码核为场景音频数据编码核，确定所述基于MASA音频信号中空间辅助元数据的所述目标编码核为空间辅助元数据参数编码核；

响应于所述目标输入格式音频信号为混合格式音频信号，确定所述目标编码核为所述混合格式音频信号中的格式音频信号选用的编码核，其中，所述混合格式信号包括基于对象音频信号、基于场景音频信号、基于声道音频信号和基于MASA音频信号中的至少两个。
如权利要求6所述的方法，其特征在于，所述根据所述音频场景类型和所述目标输入格式音频信号，确定目标编码核，包括：

响应于所述音频场景类型表征音频场景中包括至少一个主要音频信号，以及所述目标输入格式音频信号为基于对象音频信号和基于场景音频信号，确定所述基于对象音频信号中对象音频数据的所述目标编码核为对象音频数据编码核，确定所述基于对象音频信号中元数据的所述目标编码核为对象元数据参数编码核，确定所述基于场景音频信号的所述目标编码核为场景音频数据编码核；

响应于所述音频场景类型表征音频场景中包括至少一个主要音频信号和背景音频信号，以及所述目标输入格式音频信号为基于对象音频信号和基于场景音频信号，确定所述基于对象音频信号中对象音频数据的所述目标编码核为对象音频数据编码核，确定所述基于对象音频信号中元数据的所述目标编码核为对象元数据参数编码核，确定所述基于场景音频信号的所述目标编码核为场景音频数据编码核；

响应于所述音频场景类型表征音频场景中仅包括至少一个背景音频信号，以及所述目标输入格式音频信号为基于场景音频信号，确定所述基于场景音频信号的所述目标编码核为场景音频数据编码核。
一种音频信号编码装置，其特征在于，包括：

信号获取单元，被配置为获取音频信号；

类型确定单元，被配置为确定所述音频信号对应的音频场景类型；

目标信号确定单元，被配置为根据所述音频场景类型和所述音频信号，确定目标输入格式音频信号；

编码处理单元，被配置为对所述目标输入格式音频信号进行编码，生成目标编码码流。
如权利要求9所述的装置，其特征在于，所述类型确定单元，包括：

参数获取模块，被配置为获取所述音频信号的音频特征参数；

模型处理模块，被配置为将所述音频特征参数输入至音频场景类型分析模型，确定所述音频信号对应的所述音频场景类型。
如权利要求9或10所述的装置，其特征在于，所述目标信号确定单元，包括：

目标格式确定模块，被配置为根据所述音频场景类型和/或所述音频信号，确定目标音频信号输入格式；

目标信号确定模块，被配置为根据所述目标音频信号输入格式和所述音频信号，确定所述目标输入格式音频信号。
如权利要求11所述的装置，其特征在于，所述目标格式确定模块，具体被配置为：

响应于所述音频场景类型表征音频场景中包括至少一个主要音频信号，确定所述目标音频信号输入格式为基于对象信号输入格式；

响应于所述音频场景类型表征音频场景中包括至少一个主要音频信号和背景音频信号，确定所述目标音频信号输入格式为基于对象信号输入格式和基于场景信号输入格式；

响应于所述音频场景类型表征音频场景中仅包括至少一个背景音频信号，确定所述目标音频信号输入格式为基于场景信号输入格式。
如权利要求12所述的装置，其特征在于，所述目标信号确定模块，具体被配置为：

响应于确定所述目标音频信号输入格式为基于对象信号输入格式，确定所述目标输入格式音频信号为所述音频信号中的基于对象音频信号；

响应于确定所述目标音频信号输入格式为基于对象信号输入格式和基于场景信号输入格式，确定所述目标输入格式音频信号为所述音频信号中的基于对象音频信号和基于场景音频信号；

响应于确定所述目标音频信号输入格式为基于场景信号输入格式，确定所述目标输入格式音频信号为所述音频信号中的基于场景音频信号。
如权利要求9至13中任一项所述的装置，其特征在于，所述编码处理单元，包括：

编码核确定模块，被配置为根据所述目标输入格式音频信号，确定目标编码核，或者，根据所述音频场景类型和所述目标输入格式音频信号，确定目标编码核；

参数获取模块，被配置为根据所述目标编码核对所述目标输入格式音频信号进行编码，获取编码参数；

码流生成模块，被配置为根据所述编码参数进行码流复用，生成所述目标编码码流。
如权利要求14所述的装置，其特征在于，所述编码核确定模块，具体被配置为：

响应于所述目标输入格式音频信号为基于对象音频信号，确定所述基于对象音频信号中对象音频数据的所述目标编码核为对象音频数据编码核，确定所述基于对象音频信号中元数据的所述目标编码核为对象元数据参数编码核；

响应于所述目标输入格式音频信号为基于场景音频信号，确定所述目标编码核为场景音频数据编码核；

响应于所述目标输入格式音频信号为基于声道音频信号，确定所述目标编码核为声道音频数据编码核；

响应于所述目标输入格式音频信号为基于辅助元数据的空间音频MASA音频信号，确定所述基于MASA音频信号中音频数据的所述目标编码核为场景音频数据编码核，确定所述基于MASA音频信号中空间辅助元数据的所述目标编码核为空间辅助元数据参数编码核；

响应于所述目标输入格式音频信号为混合格式音频信号，确定所述目标编码核为所述混合格式音频信号中的格式音频信号选用的编码核，其中，所述混合格式信号包括基于对象音频信号、基于场景音频信号、基于声道音频信号和基于MASA音频信号中的至少两个。
如权利要求14所述的装置，其特征在于，所述编码核确定模块，具体被配置为：

响应于所述音频场景类型表征音频场景中包括至少一个主要音频信号，以及所述目标输入格式音频信号为基于对象音频信号和基于场景音频信号，确定所述基于对象音频信号中对象音频数据的所述目标编码核为对象音频数据编码核，确定所述基于对象音频信号中元数据的所述目标编码核为对象元数据参数编码核，确定所述基于场景音频信号的所述目标编码核为场景音频数据编码核；

响应于所述音频场景类型表征音频场景中包括至少一个主要音频信号和背景音频信号，以及所述目标输入格式音频信号为基于对象音频信号和基于场景音频信号，确定所述基于对象音频信号中对象音频数据的所述目标编码核为对象音频数据编码核，确定所述基于对象音频信号中元数据的所述目标编码核为对象元数据参数编码核，确定所述基于场景音频信号的所述目标编码核为场景音频数据编码核；

响应于所述音频场景类型表征音频场景中仅包括至少一个背景音频信号，以及所述目标输入格式音频信号为基于场景音频信号，确定所述基于场景音频信号的所述目标编码核为场景音频数据编码核。
一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8中任一项所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1至8中任一项所述的方法。
一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令在被处理器执行时实现权利要求1至8中任一项所述的方法。