CN117769740A

CN117769740A - 一种音频信号编解码方法及装置、通信系统、通信设备、存储介质

Info

Publication number: CN117769740A
Application number: CN202380012178.5A
Authority: CN
Inventors: 王宾
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2023-11-07
Filing date: 2023-11-07
Publication date: 2024-03-26

Abstract

本公开涉及一种音频信号编解码方法及装置、通信系统、通信设备、存储介质，属于通信技术领域。该方法包括：音频信号发送端设备获取待编码混合格式音频信号；确定待编码混合格式音频信号的第一信息；对待编码混合格式音频信号进行预处理；基于第一信息，对预处理后的待编码混合格式音频信号进行音频格式转换获得传输声道音频信号和元数据信息；对传输声道音频信号进行编码获得第一编码参数，对元数据信息进行编码获得第二编码参数；将第一编码参数和第二编码参数写入码流中；向音频信号接收端设备发送码流；音频信号接收端设备接收码流并解码。通过编码端在有限制约束条件下的高效率编码以使解码端能够解码重建与原始输入信号更为接近的解码信号。

Description

一种音频信号编解码方法及装置、通信系统、通信设备、存储介质

技术领域

本公开涉及通信技术领域，尤其涉及一种音频信号编解码方法及装置、通信系统、通信设备、存储介质。

背景技术

沉浸式语音和音频服务(Immersive Voice and Audio Services，IVAS)是一种基于3GPP通信系统的语音和音频通信技术，IVAS编解码器能够支持基于声道的信号、基于对象的信号，基于场景的信号以及基于元数据的三维音频信号任意组合的混合格式音频信号的编解码需求。

发明内容

本公开实施例提出了一种音频信号编解码方法及装置、通信系统、通信设备、存储介质，可用于通信技术领域中，用于解决在混合格式音频信号编码过程中针对不同格式的信号采取相应的编码处理，通过在有限制条件约束条件下高效率编码以使解码端能够解码重建最优的解码信号，上述最优的解码信号是指解码信号更加接近编码端输入信号。

根据本公开实施例的第一方面，提出了一种音频信号编码方法，该方法由音频信号发送端设备执行，包括：获取待编码混合格式音频信号，待编码混合格式音频信号包括第一音频格式信号和至少一个第二音频格式信号，第一音频格式信号和至少一个第二音频格式信号的格式不同；确定待编码混合格式音频信号的第一信息，第一信息用于指示以下至少一项：混合格式音频信号的内容信息、对待编码混合格式音频信号进行编码的编码控制输入参数、音频信号接收端设备中解码器的指示信息、音频信号发送端设备的能力信息；对待编码混合格式音频信号进行预处理，以获得预处理后的待编码混合格式音频信号；基于第一信息，对预处理后的待编码混合格式音频信号进行音频格式转换获得传输声道音频信号和元数据信息；对传输声道音频信号进行编码获得第一编码参数，对元数据信息进行编码获得第二编码参数；将第一编码参数和第二编码参数写入码流中；向音频信号接收端设备发送码流。

根据本公开实施例的第二方面，提出了一种音频信号解码方法，该方法由音频信号接收端设备执行，包括：接收音频信号发送端设备发送的码流；对码流进行解码，其中，码流包括第一编码参数和第二编码参数，第一编码参数为音频信号发送端设备对传输声道音频信号进行编码获得的，第二编码参数为音频信号发送端设备对元数据信息进行编码获得的，传输声道音频信号和元数据信息为音频信号发送端设备基于第一信息对预处理后的待编码混合格式音频信号进行音频格式转换获得的，待编码混合格式音频信号包括第一音频格式信号和至少一个第二音频格式信号，第一音频格式信号和至少一个第二音频格式信号的音频格式不同，第一信息用于指示以下至少一项：混合格式音频信号的内容信息、对待编码混合格式音频信号进行编码的编码控制输入参数、音频信号接收端设备中解码器的指示信息、音频信号发送端设备的能力信息。

根据本公开实施例的第三方面，提出了一种音频信号编码装置，装置包括处理模块和收发模块，处理模块用于：确定待编码混合格式音频信号的第一信息，第一信息用于指示以下至少一项：混合格式音频信号的内容信息、对待编码混合格式音频信号进行编码的编码控制输入参数、音频信号接收端设备中解码器的指示信息、音频信号发送端设备的能力信息；对待编码混合格式音频信号进行预处理，以获得预处理后的待编码混合格式音频信号；基于第一信息，对预处理后的待编码混合格式音频信号进行音频格式转换获得传输声道音频信号和元数据信息；对传输声道音频信号进行编码获得第一编码参数，对元数据信息进行编码获得第二编码参数；将第一编码参数和第二编码参数写入码流中；收发模块用于获取待编码混合格式音频信号，待编码混合格式音频信号包括第一音频格式信号和至少一个第二音频格式信号，第一音频格式信号和至少一个第二音频格式信号的格式不同；向音频信号接收端设备发送码流。

根据本公开实施例的第四方面，提出了一种音频信号解码装置，装置包括收发模块和处理模块，收发模块用于接收音频信号发送端设备发送的码流；处理模块用于对码流进行解码，其中，码流包括第一编码参数和第二编码参数，第一编码参数为音频信号发送端设备对传输声道音频信号进行编码获得的，第二编码参数为音频信号发送端设备对元数据信息进行编码获得的，传输声道音频信号和元数据信息为音频信号发送端设备基于第一信息对预处理后的待编码混合格式音频信号进行音频格式转换获得的，待编码混合格式音频信号包括第一音频格式信号和至少一个第二音频格式信号，第一音频格式信号和至少一个第二音频格式信号的音频格式不同，第一信息用于指示以下至少一项：混合格式音频信号的内容信息、对待编码混合格式音频信号进行编码的编码控制输入参数、音频信号接收端设备中解码器的指示信息、音频信号发送端设备的能力信息。

根据本公开实施例的第五方面，提出了一种通信设备，包括收发器；存储器；处理器，分别与收发器及存储器连接，配置为通过执行存储器上的计算机可执行指令，控制收发器的无线信号收发，并能够实现第一方面或第二方面所描述的音频信号编码方法或音频信号解码方法。

根据本公开实施例的第六方面，提出了一种计算机存储介质，其中，计算机存储介质存储有计算机可执行指令；计算机可执行指令被处理器执行后，能够实现第一方面或第二方面所描述的音频信号编码方法或音频信号解码方法。

根据本公开提出的音频信号编解码方法，通过对混合格式音频信号进行预处理后，根据混合格式音频信号的内容信息、对待编码混合格式音频信号进行编码的编码控制输入参数、音频信号接收端设备中解码器的指示信息、音频信号发送端设备的能力信息对音频信号进行格式转换，对转换格式的音频信号进行编码，获得相应的编码参数，从而使IVAS编解码器在解码端能够通过解码重建解码信号实现更好解码效果。

附图说明

为了更清楚地说明本公开实施例中的技术方案，以下对实施例描述所需的附图进行介绍，以下附图仅仅是本公开的一些实施例，不对本公开的保护范围造成具体限制。

图1A是根据本公开实施例提供的编解码流程示意图；

图1B是根据本公开实施例提供的编码处理流程示意图；

图1C是根据本公开实施例示出的通信系统的架构示意图；

图2是根据本公开实施例提供的一种音频信号编解码方法的交互示意图；

图3A是根据本公开实施例提供的音频信号发送端设备的音频信号编码方法流程示意图；

图3B是根据本公开实施例提供的音频信号发送端设备的音频信号编码方法流程示意图；

图4A是根据本公开实施例提供的音频信号接收端设备的音频信号解码方法流程示意图；

图4B是根据本公开实施例提供的音频信号接收端设备的音频信号解码方法流程示意图；

图5是根据本公开实施例提供的音频信号编解码方法的交互示意图；

图6A是根据本公开实施例示出的音频信号编码方法的示意图；

图6B是根据本公开实施例示出的对信号进行音频格式转换处理的示意图；

图7A是根据本公开实施例提供的音频信号编码装置的结构示意图；

图7B是根据本公开实施例提供的音频信号解码装置的结构示意图；

图8A根据本公开实施例提供的通信设备的结构示意图；

图8B是本公开实施例提出的芯片的结构示意图。

具体实施方式

本公开实施例提出了一种音频信号编解码方法及装置、通信系统、通信设备、存储介质。

第一方面，本公开实施例提供一种音频信号编码方法，该方法由音频信号发送端设备执行，该方法包括获取待编码混合格式音频信号，待编码混合格式音频信号包括第一音频格式信号和至少一个第二音频格式信号，第一音频格式信号和至少一个第二音频格式信号的格式不同；确定待编码混合格式音频信号的第一信息，第一信息用于指示以下至少一项：混合格式音频信号的内容信息、对待编码混合格式音频信号进行编码的编码控制输入参数、音频信号接收端设备中解码器的指示信息、音频信号发送端设备的能力信息；对待编码混合格式音频信号进行预处理，以获得预处理后的待编码混合格式音频信号；基于第一信息，对预处理后的待编码混合格式音频信号进行音频格式转换获得传输声道音频信号和元数据信息；对传输声道音频信号进行编码获得第一编码参数，对元数据信息进行编码获得第二编码参数；将第一编码参数和第二编码参数写入码流中；向音频信号接收端设备发送码流。

在上述实施例中，混合格式的音频信号通过预处理和音频格式转换后，对转换后获得的音频信号和元数据进行编码处理。

结合第一方面的一些实施例，在一些实施例中，第一信息为内容信息，确定待编码混合信号的第一信息包括：分别对第一音频格式信号和至少一个第二音频格式信号进行内容分析处理，以得到第一音频格式信号和至少一个第二音频格式信号各自对应的音频信号内容参数信息；基于音频信号内容参数信息，确定内容信息。

在上述实施例中，通过对混合格式的音频信号进行内容分析得到内容信息，用于对混合信号进行格式转换，从而获得满足限制条件的音频信号，以便于解码端进行重建解码。

结合第一方面的一些实施例，在一些实施例中，信号内容包括以下至少一项：音频信号的第一特征的更新变化频率；第一特征的等级；第一特征的属性；第一特征的数量；音频信号的第二特征的数量；信号的类型。

结合第一方面的一些实施例，在一些实施例中，基于第一信息对预处理后的待编码混合格式音频信号进行音频格式转换包括：在内容信息指示第一音频格式信号的音频信号内容参数与第二音频格式信号的音频信号内容参数满足第一预设条件的情况下，将第一音频格式信号的第一音频格式转换为第二音频格式信号的第二音频格式。

在上述实施例中，通过预设条件判断格式转换的方案，使其他格式的音频信号转换为特定格式的音频信号，使编码端能够对音频信号进行统一编码。

结合第一方面的一些实施例，在一些实施例中，第一预设条件包括以下至少一项：第一音频格式信号的第一特征的数量大于或等于第二音频格式信号的第一特征的数量；第一音频格式信号的第二特征的数量大于或等于第二音频格式信号的第二特征的数量；第一音频格式信号的第一特征的属性为动态属性，第二音频格式信号的第一特征的属性为静态属性；第一音频格式信号的第一特征的等级低于或等于第二音频格式信号的第一特征的等级；第一音频格式信号的第一特征的更新变化频率高于或等于第二音频格式信号的第一特征的更新变化频率。

结合第一方面的一些实施例，在一些实施例中，内容分析处理包括以下至少一项：语音活动帧检测SAD；话音活动帧检测VAD；静态声像估计处理；动态声像估计处理；声场背景变化频率估计处理。

在上述实施例中，对混合格式的音频信号进行内容分析不限于以上五种，可以单独进行分析，也可以组合进行分析。

结合第一方面的一些实施例，在一些实施例中，第一信息为对待编码混合格式音频信号进行编码的编码控制输入参数，基于编码控制输入参数，编码端由第一音频格式信号的第一音频格式转换为第二音频格式信号的第二音频格式，基于第一信息，对预处理后的待编码混合格式音频信号进行音频格式转换包括：将第一音频格式信号的第一音频格式转换为第二音频格式信号的第二音频格式获得传输声道音频信号和元数据信息。

在上述实施例中，对混合格式的音频信号进行预处理后，基于编码控制输入参数对预处理后的音频信号进行格式转换，从而获得符合条件的音频信号，基于音频信号获得传输声道音频信号，将格式转换形成的元数据信息和传输声道音频信号进行编码。

结合第一方面的一些实施例，在一些实施例中，第一信息为音频信号接收端设备中解码器的指示信息，指示信息指示信号接收设备期望解码的格式为第二音频格式，基于第一信息，对预处理后的待编码混合格式音频信号进行音频格式转换包括：将第一音频格式信号和至少一个第二音频格式信号中音频格式为第一音频格式的音频信号转换为第二音频格式获得传输声道音频信号和元数据信息。

在上述实施例中，对混合格式的音频信号进行预处理后，基于解码器的指示信息对预处理后的音频信号进行格式转换，从而获得符合解码端条件的音频信号，并将格式转换形成的元数据信息和传输声道音频信号进行编码，以便于解码端进行重建解码。

结合第一方面的一些实施例，在一些实施例中，第一信息为音频信号发送端设备的能力信息，基于第一信息，对预处理后的待编码混合格式音频信号进行音频格式转换包括：在信号发送设备的能力信息满足第二预设条件的情况下，将多个信号第一音频格式信号和至少一个第二音频格式信号中音频格式为第一音频格式的音频信号转换为第二音频格式获得传输声道音频信号和元数据信息。

在上述实施例中，对混合格式的音频信号进行预处理后，基于发送端设备的能力信息对预处理后的音频信号进行格式转换，从而获得符合预设条件的音频信号，并将格式转换形成的元数据信息和传输声道音频信号进行编码，以便于解码端进行重建解码。

结合第一方面的一些实施例，在一些实施例中，音频信号接收端设备中解码器的指示信息、对待编码混合格式音频信号进行编码的编码控制输入参数、待编码混合格式音频信号的内容信息、音频信号发送端设备的能力信息的优先级依次递减。

在上述实施例中，对预处理后的音频信号基于不同的组合条件进行格式转换需要遵循优先级，当遇到冲突时，使用优先级较高的，能够在解码端实现更为完整的解码。

结合第一方面的一些实施例，在一些实施例中，音频信号编码方法还包括：将第一音频格式信号和至少一个第二音频格式信号分类为第一组信号和第二组信号，其中，第一组信号的类型为静音帧或非活动帧，第二组信号的类型为非静音帧或活动帧，第一组信号和第二组信号的编码方式不同。

在上述实施例中，对混合格式的音频信号进行静音检测，根据静音检测的结果分组，针对不同组的信号分别采用不同的处理，对处理后的信号进行编码，采用静音检测的方法和基于第一信息对混合音频信号进行处理可以组合进行，从而实现在解码端的重建解码。

结合第一方面的一些实施例，在一些实施例中，对传输声道音频信号进行编码获得第一编码参数，对元数据信号信息进行编码获得第二编码参数包括：通过下混处理提取第一组信号的特征参数；基于特征参数确定对应的音频编码核模块和元数据编码模块，以利用音频编码核模块对传输声道音频信号进行编码获得第一编码参数，以及利用元数据编码模块对第一组信号对应的元数据信息进行编码获得第二编码参数。

结合第一方面的一些实施例，在一些实施例中，对传输声道音频信号进行编码获得第一编码参数，对元数据信息进行编码获得第二编码参数包括：确定第二组信号中每两个信号之间的互相关系数；从第二组信号中确定第一目标信号和第二目标信号，第一目标信号和第二目标信号之间的互相关系数最高；对第一目标信号和第二目标信号进行下混处理，以输出和声道音频信号以及差声道音频信号作为传输声道音频信号；确定传输声道音频信号对应的音频编码核模块和元数据编码模块，以利用音频编码核模块对传输声道音频信号进行编码获得第一编码参数，利用元数据编码模块对元数据信息进行编码获得第二编码参数。

结合第一方面的一些实施例，在一些实施例中，在第二组信号中包括单个音频信号的情况下，利用音频编码核模块对传输声道音频信号进行编码获得第一编码参数，利用元数据编码模块对元数据信息进行编码获得第二编码参数包括：利用单声道音频编码核模块对第二组信号对应的传输声道音频信号进行编码获得第一编码参数，利用元数据编码模块对第二组信号对应的元数据信息进行编码获得第二编码参数。

结合第一方面的一些实施例，在一些实施例中，多个信号包括以下至少两种：基于声道的音频信号；基于对象的音频信号；基于场景的音频信号；基于辅助元数据的空间音频信号。

第二方面，本公开实施例提供一种音频信号解码方法，该方法由音频信号接收端设备执行，该方法包括：接收音频信号发送端设备发送的码流；对码流进行解码，其中，码流包括第一编码参数和第二编码参数，第一编码参数为音频信号发送端设备对传输声道音频信号进行编码获得的，第二编码参数为音频信号发送端设备对元数据信息进行编码获得的，传输声道音频信号和元数据信息为音频信号发送端设备基于第一信息对预处理后的待编码混合格式音频信号进行音频格式转换获得的，待编码混合格式音频信号包括第一音频格式信号和至少一个第二音频格式信号，第一音频格式信号和至少一个第二音频格式信号的音频格式不同，第一信息用于指示以下至少一项：混合格式音频信号的内容信息、对待编码混合格式音频信号进行编码的编码控制输入参数、音频信号接收端设备中解码器的指示信息、音频信号发送端设备的能力信息。

结合第二方面的一些实施例，在一些实施例中，第一信息为内容信息，内容信息为音频信号发送端设备基于音频信号内容参数信息确定的，音频信号内容参数信息为音频信号发送端设备分别对第一音频格式信号和至少一个第二音频格式信号进行内容分析处理得到的。

结合第二方面的一些实施例，在一些实施例中，音频信号内容参数信息包括以下至少一项：音频信号的第一特征的更新变化频率；第一特征的等级；第一特征的属性；第一特征的数量；音频信号的第二特征的数量；音频信号的类型。

结合第二方面的一些实施例，在一些实施例中，内容分析处理包括以下至少一项：语音活动帧检测SAD；话音活动帧检测VAD；静态声像估计处理；动态声像估计处理；声场背景变化频率估计处理。

结合第二方面的一些实施例，在一些实施例中，音频信号接收端设备中解码器的指示信息、对待编码混合格式音频信号进行编码的编码控制输入参数、待编码混合格式音频信号的内容信息、音频信号发送端设备的能力信息的优先级依次递减。

结合第二方面的一些实施例，在一些实施例中，待编码混合格式音频信号包括以下至少两种：基于声道的音频信号；基于对象的音频信号；基于场景的音频信号；基于辅助元数据的空间音频信号。

结合第二方面的一些实施例，在一些实施例中，该方法还包括：向音频信号发送端设备发送指示信息，指示信息指示信号接收设备期望解码的格式为第二音频格式。

第三方面，本公开实施例提供一种音频信号编码装置，包括：处理模块和收发模块，收发模块用于获取待编码混合格式音频信号，待编码混合格式音频信号包括第一音频格式信号和至少一个第二音频格式信号，第一音频格式信号和至少一个第二音频格式信号的格式不同；向音频信号接收端设备发送码流。处理模块用于确定待编码混合格式音频信号的第一信息，第一信息用于指示以下至少一项：混合格式音频信号的内容信息、对待编码混合格式音频信号进行编码的编码控制输入参数、音频信号接收端设备中解码器的指示信息、音频信号发送端设备的能力信息；对待编码混合格式音频信号进行预处理，以获得预处理后的待编码混合格式音频信号；基于第一信息，对预处理后的待编码混合格式音频信号进行音频格式转换获得传输声道音频信号和元数据信息；对传输声道音频信号进行编码获得第一编码参数，对元数据信息进行编码获得第二编码参数；将第一编码参数和第二编码参数写入码流中。

第四方面，本公开实施例提供一种音频信号解码装置，包括：收发模块和处理模块，收发模块用于接收音频信号发送端设备发送的码流；处理模块用于对码流进行解码，其中，码流包括第一编码参数和第二编码参数，第一编码参数为音频信号发送端设备对传输声道音频信号进行编码获得的，第二编码参数为音频信号发送端设备对元数据信息进行编码获得的，传输声道音频信号和元数据信息为音频信号发送端设备基于第一信息对预处理后的待编码混合格式音频信号进行音频格式转换获得的，待编码混合格式音频信号包括第一音频格式信号和至少一个第二音频格式信号，第一音频格式信号和至少一个第二音频格式信号的音频格式不同，第一信息用于指示以下至少一项：混合格式音频信号的内容信息、对待编码混合格式音频信号进行编码的编码控制输入参数、音频信号接收端设备中解码器的指示信息、音频信号发送端设备的能力信息。

第五方面，本公开实施例提供一种通信设备，包括：收发器；存储器；处理器，分别与收发器及存储器连接，配置为通过执行存储器上的计算机可执行指令，控制收发器的无线信号收发，并能够实现本公开第一方面或第二方面的可选实现方式所描述的方法。

第六方面，本公开实施例提供一种存储介质，计算机存储介质存储有计算机可执行指令；计算机可执行指令被处理器执行后，能够实现本公开第一方面和第二方面的可选实现方式所描述的方法。

第七方面，本公开实施例提出了程序产品，上述程序产品被通信设备执行时，使得上述通信设备执行如第一方面和第二方面的可选实现方式所描述的方法。

第八方面，本公开实施例提出了计算机程序，当其在计算机上运行时，使得计算机执行如第一方面和第二方面的可选实现方式所描述的方法。

第九方面，本公开实施例提供了一种芯片或芯片系统。该芯片或芯片系统包括处理电路，被配置为执行根据上述第一方面和第二方面的可选实现方式所描述的方法。

可以理解地，上述音频信号编解码装置、通信设备、存储介质、程序产品、计算机程序、芯片或芯片系统均用于执行本公开实施例所提出的方法。因此，其所能达到的有益效果可以参考对应方法中的有益效果，此处不再赘述。

本公开实施例提出了一种音频信号编解码方法及装置、通信系统、通信设备、存储介质。在一些实施例中，编码方法、解码方法与信息处理方法等术语可以相互替换，音频信号编码装置、音频信号解码装置与信息处理装置、通信装置等术语可以相互替换。

本公开实施例并非穷举，仅为部分实施例的示意，不作为对本公开保护范围的具体限制。在不矛盾的情况下，某一实施例中的每个步骤均可以作为独立实施例来实施，且各步骤之间可以任意组合，例如，在某一实施例中去除部分步骤后的方案也可以作为独立实施例来实施，且在某一实施例中各步骤的顺序可以任意交换，另外，某一实施例中的可选实现方式可以任意组合；此外，各实施例之间可以任意组合，例如，不同实施例的部分或全部步骤可以任意组合，某一实施例可以与其他实施例的可选实现方式任意组合。

在各本公开实施例中，如果没有特殊说明以及逻辑冲突，各实施例之间的术语和/或描述具有一致性，且可以互相引用，不同实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。

本公开实施例中所使用的术语只是为了描述特定实施例的目的，而并非作为对本公开的限制。

在本公开实施例中，除非另有说明，以单数形式表示的元素，如“一个”、“一种”、“该”、“上述”、“前述”、“这一”等，可以表示“一个且只有一个”，也可以表示“一个或多个”、“至少一个”等。例如，在翻译中使用如英语中的“a”、“an”、“the”等冠词(article)的情况下，冠词之后的名词可以理解为单数表达形式，也可以理解为复数表达形式。

在本公开实施例中，“多个”是指两个或两个以上。

在一些实施例中，“至少一者(at least one of)”、“至少一项(at least oneof)”、“至少一个(at least one of)”、“一个或多个(one or more)”、“多个(a pluralityof)”、“多个(multiple)等术语可以相互替换。

本公开实施例中的如“A、B、C……中的至少一者”、“A和/或B和/或C……”等描述方式，包括了A、B、C……中任意一个单独存在的情况，也包括了A、B、C……中任意多个的任意组合情况，每种情况可以单独存在；例如，“A、B、C中的至少一者”包括单独A、单独B、单独C、A和B组合、A和C组合、B和C组合、A和B和C组合的情况；例如，A和/或B包括单独A、单独B、A和B的组合的情况。

在一些实施例中，“在一情况下A，在另一情况下B”、“响应于一情况A，响应于另一情况B”等记载方式，根据情况可以包括以下技术方案：与B无关地执行A，即，在一些实施例中A；与A无关地执行B，即，在一些实施例中B；A和B被选择性执行，即，在一些实施例中从A与B中选择执行；A和B都被执行，即，在一些实施例中A和B。当有A、B、C等更多分支时也类似上述。

本公开实施例中的“第一”、“第二”等前缀词，仅仅为了区分不同的描述对象，不对描述对象的位置、顺序、优先级、数量或内容等构成限制，对描述对象的陈述参见权利要求或实施例中上下文的描述，不应因为使用前缀词而构成多余的限制。例如，描述对象为“字段”，则“第一字段”和“第二字段”中“字段”之前的序数词并不限制“字段”之间的位置或顺序，“第一”和“第二”并不限制其修饰的“字段”是否在同一个消息中，也不限制“第一字段”和“第二字段”的先后顺序。再如，描述对象为“等级”，则“第一等级”和“第二等级”中“等级”之前的序数词并不限制“等级”之间的优先级。再如，描述对象的数量并不受序数词的限制，可以是一个或者多个，以“第一装置”为例，其中“装置”的数量可以是一个或者多个。此外，不同前缀词修饰的对象可以相同或不同，例如，描述对象为“装置”，则“第一装置”和“第二装置”可以是相同的装置或者不同的装置，其类型可以相同或不同；再如，描述对象为“信息”，则“第一信息”和“第二信息”可以是相同的信息或者不同的信息，其内容可以相同或不同。

在一些实施例中，“包括A”、“包含A”、“用于指示A”、“携带A”，可以解释为直接携带A，也可以解释为间接指示A。

在一些实施例中，“时频(time/frequency)”、“时频域”等术语是指时域和/或频域。

在一些实施例中，“响应于……”、“响应于确定……”、“在……的情况下”、“在……时”、“当……时”、“若……”、“如果……”等术语可以相互替换。

在一些实施例中，“大于”、“大于或等于”、“不小于”、“多于”、“多于或等于”、“不少于”、“高于”、“高于或等于”、“不低于”、“以上”等术语可以相互替换，“小于”、“小于或等于”、“不大于”、“少于”、“少于或等于”、“不多于”、“低于”、“低于或等于”、“不高于”、“以下”等术语可以相互替换。

在一些实施例中，装置等可以解释为实体的、也可以解释为虚拟的，其名称不限定于实施例中所记载的名称，“装置”、“设备(equipment)”、“设备(device)”、“电路”、“网元”、“节点”、“功能”、“单元”、“部件(section)”、“系统”、“网络”、“芯片”、“芯片系统”、“实体”、“主体”等术语可以相互替换。

在一些实施例中，“网络”可以解释为网络中包含的装置(例如，接入网设备、核心网设备等)。

在一些实施例中，“接入网设备(access network device，AN device)”、“无线接入网设备(radio access network device，RAN device)”、“基站(base station，BS)”、“无线基站(radio base station)”、“固定台(fixed station)”、“节点(node)”、“接入点(access point)”、“发送点(transmission point，TP)”、“接收点(reception point，RP)”、“发送接收点(transmission/reception point，TRP)”、“面板(panel)”、“天线面板(antenna panel)”、“天线阵列(antenna array)”、“小区(cell)”、“宏小区(macro cell)”、“小型小区(small cell)”、“毫微微小区(femto cell)”、“微微小区(pico cell)”、“扇区(sector)”、“小区组(cell group)”、“载波(carrier)”、“分量载波(component carrier)”、“带宽部分(bandwidth part，BWP)”等术语可以相互替换。

在一些实施例中，“终端(terminal)”、“终端设备(terminal device)”、“用户设备(user equipment，UE)”、“用户终端(user terminal)”、“移动台(mobile station，MS)”、“移动终端(mobile terminal，MT)”、订户站(subscriber station)、移动单元(mobileunit)、订户单元(subscriber unit)、无线单元(wireless unit)、远程单元(remoteunit)、移动设备(mobiledevice)、无线设备(wireless device)、无线通信设备(wirelesscommunication device)、远程设备(remote device)、移动订户站(mobile subscriberstation)、接入终端(access terminal)、移动终端(mobile terminal)、无线终端(wireless terminal)、远程终端(remote terminal)、手持设备(handset)、用户代理(useragent)、移动客户端(mobile client)、客户端(client)等术语可以相互替换。

在一些实施例中，获取数据、信息等可以遵照所在地国家的法律法规。

在一些实施例中，可以在得到用户同意后获取数据、信息等。

沉浸式语音和音频服务(Immersive Voice and Audio Services，IVAS)能够支持基于声道的信号、基于对象的信号以及基于场景的信号三种信号格式的编解码需求。

开始于20世纪80年代的第一代移动通信技术(1G)，1G是第一代无线蜂窝技术，是属于模拟移动通信网。1G升级到2G时将手机从模拟通信转移到数字通信，我国采用GSM网络制式，语音编码器采用自适应多速率语音编解码算法(Adaptive Multi Rate，AMR)，增强型全速率编解码器(Enhanced Full Rate，EFR)，全速率编解码器(Full Rate，FR)，半速率编解码器(Half Rate，HR)，通信提供单通道窄带语音服务。3G移动通信系统是ITU为2000年国际移动通信而提出的，中国移动采用TD-SCDMA，中国电信采用CDMA2000，中国联通采用WCDMA，其语音编码器采用宽带自适应多速率编解码器(Adaptive Multi-Rate Wideband，AMR-WB)提供单通道宽带语音服务。4G是在3G技术上的一次更好的改良，数据和话音都采用全IP的方式，提供语音音频的实时HD/HD+Voice服务，采用的EVS编解码器能够兼顾语音和音频/音乐的高质量压缩重建。

目前提供的语音和音频通信服务从窄带信号扩展到超宽带甚至是全带服务，但还都是单声道服务，人们对高质量音频的需求不断增加，与单声道音频相比，立体声音频对于每个声源具有取向感和分布感，并且可以提高清晰度。随着传输带宽的增加以及终端设备信号采集设备的升级，信号处理器性能的提升，以及终端回放设备的升级。基于声道的信号，基于对象的信号，基于场景的信号等三种信号格式可以提供三维音频服务。3GPP SA4正在标准化的IVAS编解码器即能支持上述三种信号格式的编解码需求。其中三种信号格式中具体的信号格式有：其中基于声道的信号有：单声道信号，立体声信号(Stereo)，双耳信号(Binaural)，5.1，7.1环绕声信号(Surround)，5.1.4，7.1.4环绕声信号(Surround)，其中.4代表高度声道信号(Height)，基于场景的信号有：一阶高保真度立体环绕声(FOA)，二阶高保真度立体环绕声(HOA2)，三阶高保真度立体环绕声(HOA3)，基于对象的信号包含音频数据和元数据，除此之外，IVAS还支持基于辅助元数据的空间音频信号(MASA)。能够支持三维音频服务的终端设备有手机，电脑，平板，会议系统设备，AR/VR设备，汽车等。

三维音频的应用场景中，三维音频通常包含多种音频信号格式的信号，即混合格式音频信号，编码器接收混合格式音频信号，编码后生成的音频码流信号由发送端发送到接收端，接收端的解码器对接收到的音频码流解码后重建获得混合格式的音频信号。

相关技术中，编码器针对输入的基于声道音频信号，基于对象音频信号，基于场景音频信号，基于辅助元数据的三维音频信号等任意组合形成的混合格式的音频信号进行对应的统一编码处理流程是根据所输入混合格式音频信号的能量对当前所能使用的比特进行比特分配，各个声道利用所分配到的比特选择相应的编码核进行编码获得编码参数，将所获得的编码参数写入到码流中。编解码流程如图1A所示，编码处理流程如图1B所示。编码器是对输入的混合格式音频信号采用基于能量的比特分配方法，比特分配之后对不同格式音频信号采用相应的编码模式进行编码，没有根据编码控制参数、编码复杂度、所需要的存储空间等的限制条件对不同格式的音频信号进行格式转换，导致无法基于限制约束条件的前提下自适应选择合适的音频格式转换后的音频信号进行编码，从而无法在有限制条件约束的前提下对输入的混合格式音频信号进行高效率的编码，即导致不能够在解码端解码重建最优的解码信号。

因此，本公开提出了一种音频信号编解码方法及装置、通信系统、通信设备、存储介质，根据音频内容分析结果、编码控制输入参数、设备的等级、解码端的需求的其中一种或几种的组合对混合格式音频信号进行自适应的音频格式转换处理，对处理后获得的音频信号和元数据进行编码处理，编码处理获得编码参数写入到码流中，以便于解码端利用编码参数重建音频信号，通过该方法获得的编码参数能够使解码端通过解码获得与原始输入信号更加接近的音频信号。

下面结合附图对本申请所提供的音频信号编解码方法及装置进行详细地介绍。

图1C是根据本公开实施例示出的通信系统的架构示意图。如图1C所示，通信系统100可以包括音频信号发送端设备101、音频信号接收端设备102。

可以理解的是，本公开实施例描述的通信系统是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提出的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本公开实施例提出的技术方案对于类似的技术问题同样适用。

下述本公开实施例可以应用于图1C所示的通信系统100、或部分主体，但不限于此。图1C所示的各主体是例示，通信系统可以包括图1C中的全部或部分主体，也可以包括图1C以外的其他主体，各主体数量和形态为任意，各主体之间的连接关系是例示，各主体之间可以不连接也可以连接，其连接可以是任意方式，可以是直接连接也可以是间接连接，可以是有线连接也可以是无线连接。

图2为本公开实施例所提供的一种音频信号编解码方法的交互示意图。如图2所示，本公开实施例涉及一种音频信号编码方法。该方法由音频信号发送端设备和音频信号接收端设备执行。该方法可以包括以下步骤：

步骤2101，音频信号发送端设备获取待编码混合格式音频信号。

在一些实施例中，待编码混合格式音频信号包括第一音频格式信号和至少一个第二音频格式信号。

在一些实施例中，第一音频格式信号和至少一个第二音频格式信号的格式不同。示例地，第一音频格式信号可以是基于对象格式音频信号，第二音频格式信号可以是基于场景格式音频信号。

在一些实施例中，待编码混合格式音频信号包括以下至少两种：基于声道的音频信号；基于对象的音频信号；基于场景的音频信号；基于辅助元数据的空间音频信号。

在一些实施例中，待编码混合格式音频信号的名称不予限制，其可以是“待编码信号”、“待编码音频信号”、“混合音频信号”等。

步骤2102，音频信号发送端设备对待编码混合格式音频信号进行预处理。

在一些实施例中，预处理可以是进行高通滤波的预处理，也可以是对音频信号进行限幅或其他预处理，本公开不予限制。

在一些实施例中，对待编码混合格式音频信号进行高通滤波的预处理可以去除超低频信号。

在一些实施例中，预处理是为了将不需要编码的信号去除。

步骤2103，音频信号发送端设备对待编码混合格式音频信号进行分类。

在一些实施例中，音频信号发送端设备将第一音频格式信号和至少一个第二音频格式信号分类为第一组信号和第二组信号。

其中，第一组信号的类型为静音帧或非活动帧，第二组信号的类型为非静音帧或活动帧。

在一些实施例中，第一组信号和第二组信号的编码方式不同。

在一些实施例中，步骤2103为可选的，其位置不予限制。

步骤2104，音频信号发送端设备对待编码混合格式音频信号进行下混处理。

在一些实施例中，对第一组信号进行下混处理，提取第一组信号的特征参数。

在一些实施例中，通过下混处理提取第一组信号中每一个声道信号的特征参数。

在一些实施例中，特征参数可以是声像的类型，示例地，可以是人声。

在一些实施例中，特征参数用于确定对第一组信号的传输声道音频信号进行编码的编码核。

在一些实施例中，特征参数的名称不予限制。

在一些实施例中，对第二组信号中互相关系数最高的每两个信号进行下混处理，输出和声道音频信号以及差声道音频信号作为传输声道音频信号。

其中，互相关系数通过如下公式进行计算：

和声道音频信号公式为：M(n)＝(X1(n)+X2(n))/2；

差声道音频信号公式为：S(n)＝(X1(n)-X2(n))/2。

在一些实施例中，步骤2104是可选的，在不同实施例中可以对这一步骤进行省略或替代。

步骤2105，音频信号发送端设备接收音频信号接收端设备发送的指示信息。

在一些实施例中，音频信号接收端设备发送的指示信息用于音频信号发送端设备作为第一信息的指示进行音频格式转换。

在一些实施例中，步骤2105是可选的，在不同实施例中可以对这一步骤进行省略或替代。

步骤2106，音频信号发送端设备确定第一信息。

在一些实施例中，第一信息可以是混合格式音频信号的内容信息。

在一些实施例中，混合格式音频信号的内容信息是基于音频信号内容参数信息确定的。

在一些实施例中，内容参数信息可以是分别对第一音频格式信号和至少一个第二音频格式信号进行内容分析处理得到的。

在一些实施例中内容分析处理可以是以下至少一项：语音活动帧检测SAD；话音活动帧检测VAD；静态声像估计处理；动态声像估计处理；声场背景变化频率估计处理。

在一些实施例中，内容参数信息包括以下至少一项：音频信号的第一特征的更新变化频率；第一特征的等级；第一特征的属性；第一特征的数量；音频信号的第二特征的数量；音频信号的类型。

在一些实施例中，音频信号的第一特征可以是声像。示例地，在一个信号中可能有多个声像，例如是人声、乐器演奏声等。

在一些实施例中，音频信号的第一特征的更新变化频率可以是声像的更新变化频率。

在一些实施例中，第一特征的等级可以是信号中占主导地位的声像，占主导地位可以通过音量和声音的种类判断。示例地，在多声像场景中，既有人声又有乐器演奏的情景下，人声相比于其他乐器的声音，为占主导地位的声像。

在一些实施例中，第一特征的属性可以是动态声像和静态声像。示例地，一个格式的音频信号中有一个说话的人在不停的走动，此说话人即是动态声像，另一个格式的音频信号中主要有一个乐器在固定的位置演奏，此乐器即是静态声像。

在一些实施例中，第一特征的数量可以是声像的数量，示例地，在音乐会场景中，既有人声又有乐器演奏的声音，声像数即是2。

在一些实施例中，第二特征的数量可以是声道的数量。

在一些实施例中，音频信号的类型可以是静音帧/非活动帧或非静音帧/活动帧。

在上述实施例中，第一信息为内容信息指示的第一音频格式信号的音频信号内容参数信息与第二音频格式信号的音频信号内容参数信息满足第一预设条件下，将第一音频格式信号的第一音频格式转换为第二音频格式信号的第二音频格式。

在一些实施例中，第一预设条件可以包括以下至少一项：第一音频格式信号的第一特征的数量大于或等于第二音频格式信号的第一特征的数量；第一音频格式信号的第二特征的数量大于或等于第二音频格式信号的第二特征的数量；第一音频格式信号的第一特征的属性为动态属性，第二音频格式信号的第一特征的属性为静态属性；第一音频格式信号的第一特征的等级低于或等于第二音频格式信号的第一特征的等级；第一音频格式信号的第一特征的更新变化频率高于或等于第二音频格式信号的第一特征的更新变化频率。

在一些实施例中，第一预设条件可以通过音频场景丰富程度进行判断。示例地，如果两种格式的音频信号在音频场景丰富程度有差别，则将两种格式音频信号中的音频场景简单的音频信号转换为音频场景丰富的音频信号；如果两种格式的音频信号在音频场景丰富程度相当，则可以将声道数目多的音频格式信号转换为另一种声道数目少的音频格式信号，如果声道数相等，则可以任意选择将一种格式音频信号转换为另外一种音频格式音频信号。

其中，音频场景丰富程度通过内容参数信息进行判断，示例地，音频变化更新频率更大则场景更丰富，声像数更高则丰富度更大。

在一些实施例中，第一信息可以是待编码混合格式音频信号进行编码的编码控制输入参数。

在一些实施例中，编码控制输入参数可以是指示性信息。示例地，当混合格式音频信号由5个对象信号和一个FOA格式音频信号组成，编码控制输入参数指示将5个对象信号转换为FOA格式。

在一些实施例中，编码控制输入参数可以是速率信息，即编码之后码流的大小，例如是所用比特的多少。

在一些实施例中，编码控制输入参数也可以是其他形式的信息，对此本公开不予限制。

在一些实施例中，编码控制输入参数可以是预先设置的，对此本公开不予限制。

在一些实施例中，第一信息可以是音频信号接收端设备中解码器的指示信息。

在一些实施例中，指示信息指示信号接收设备期望解码的格式为第二音频格式。

在一些实施例中，解码器的指示信息可以是音频信号接收端设备基于期望解码的格式向音频信号发送端设备发送的要求。示例地，当混合格式音频信号是由5个对象信号和一个FOA格式音频信号组成，指示信息是接收端期望解码格式是FOA格式。

在一些实施例中，第一信息可以是音频信号发送端设备的能力信息。

在一些实施例中，能力信息可以是音频信号发送端设备的等级，示例地，可以是CPU处理器性能，也可以是存储空间大小。

在一些实施例中，音频信号接收端设备中解码器的指示信息、对待编码混合格式音频信号进行编码的编码控制输入参数、待编码混合格式音频信号的内容信息、音频信号发送端设备的能力信息的优先级依次递减。

在上述实施例中，通过确定不同形式的第一信息，可以采用其中一种方案或几种方案的组合对待编码混合格式音频信号进行音频格式转换。

步骤2107，音频信号发送端设备基于第一信息，进行音频格式转换。

在一些实施例中，音频信号发送端设备基于第一信息对预处理后的待编码混合格式音频信号进行音频格式转换，以获得传输声道音频信号和元数据信息。

在一些实施例中，基于第一信息进行音频格式转换可以是基于内容信息指示将第一音频格式信号的第一音频格式转换为第二音频格式信号的第二音频格式。

在一些实施例中，基于第一信息进行音频格式转换可以是基于编码控制输入参数进行音频格式转换。示例地，当混合格式音频信号由5个对象信号和一个FOA格式音频信号组成，编码控制输入参数指示将5个对象信号转换为FOA格式，基于编码控制输入参数，音频信号发送端将5个对象信号转换为FOA格式音频信号。

在一些实施例中，基于第一信息进行音频格式转换可以是基于解码器的指示信息进行音频格式转换。示例地，当混合格式音频信号是由5个对象信号和一个FOA格式音频信号组成，指示信息是接收端期望解码格式是FOA格式，发送端将5个对象信号转换为FOA格式音频信号。

在一些实施例中，基于第一信息进行音频格式转换，可以是在信号发送设备的能力信息满足第二预设条件的情况下，将多个信号第一音频格式信号和至少一个第二音频格式信号中音频格式为第一音频格式的音频信号转换为第二音频格式。

在一些实施例中，发送端设备的能力信息可以是CPU处理器性能、存储空间大小等。

在一些实施例中，第二预设条件可以是第一音频格式信号的发送端设备CPU处理器性能好、存储空间大且第二音频格式信号的发送端设备CPU处理器性能差、存储空间小。

在一些实施例中，传输声道音频信号为经过音频格式转换后的音频信号。

在一些实施例中，元数据信息为音频格式转换的标记信息。示例地，当第一音频格式信号A的第一音频格式转换到第二音频格式信号B的第二音频格式后，得到的传输声道音频信号C，标记C为由A转换为B所得到的音频信号。

步骤2108，音频信号发送端设备确定对应的音频编码核模块和元数据编码模块。

在一些实施例中，确定音频编码核模块可以是基于音频信号的格式。示例地，对于一个格式的音频信号选择同一个编码核模块，也可以选择几个不同的编码核模块，对此本公开不予限制。

在一些实施例中，音频信号发送端设备基于第一组信号的特征参数确定相应的音频编码模块和元数据编码模块。

在一些实施例中，音频信号发送端设备基于第二组信号的传输声道音频信号确定相应的音频编码模块和元数据编码模块。

在一些实施例中，当第二组信号中包括单声道音频信号的情况下，对单声道音频信号采用单声道音频编码模块进行编码。

步骤2109，音频信号发送端设备对传输声道音频信号和元数据信息进行编码，获得第一编码参数和第二编码参数。

在一些实施例中，对基于第一信息进行音频格式转换获得的传输声道音频信号选择相应的音频编码模块进行编码获得第一编码参数，以及利用元数据编码模块对元数据信息进行编码获得第二编码参数。

在一些实施例中，通过特征参数确定的音频编码模块和元数据编码模块对第一组信号的传输声道音频信号和对应的元数据信息进行编码，获得第一编码参数和第二编码参数。

在一些实施例中，对第二组信号的传输声道音频信号对应的音频编码模块和元数据编码模块对第二组信号的传输声道音频信号以及元数据信息进行编码，获得第一编码参数和第二编码参数。

步骤2110，音频信号发送端设备将第一编码参数和第二编码参数写入码流中。

步骤2111，音频信号发送端设备发送码流。

步骤2112，音频信号接收端设备解码。

在一些实施例中，音频信号接收端设备基于接收到的音频信号发送端设备发送的码流进行解码。

在一些实施例中，码流包括第一编码参数和第二编码参数，第一编码参数为音频信号发送端设备对传输声道音频信号进行编码获得的，第二编码参数为音频信号发送端设备对元数据信息进行编码获得的，传输声道音频信号和元数据信息为音频信号发送端设备基于第一信息对预处理后的待编码混合格式音频信号进行音频格式转换获得的，待编码混合格式音频信号包括第一音频格式信号和至少一个第二音频格式信号，第一音频格式信号和至少一个第二音频格式信号的音频格式不同，第一信息用于指示以下至少一项：混合格式音频信号的内容信息、对待编码混合格式音频信号进行编码的编码控制输入参数、音频信号接收端设备中解码器的指示信息、音频信号发送端设备的能力信息。

在一些实施例中，第一信息为内容信息，内容信息为音频信号发送端设备基于音频信号内容参数信息确定的，音频信号内容参数信息为音频信号发送端设备分别对第一音频格式信号和至少一个第二音频格式信号进行内容分析处理得到的。

在一些实施例中，内容分析处理包括以下至少一项：语音活动帧检测SAD；话音活动帧检测VAD；静态声像估计处理；动态声像估计处理；声场背景变化频率估计处理。

在一些实施例中，音频信号接收端设备基于第一编码参数和第二编码参数进行解码。

示例地，音频信号接收端设备接收到经过下混处理的码流后，使用上混处理重建音频信号。

本公开实施例所涉及的通信方法可以包括步骤2101～2112中的至少一者。例如，步骤2101可以作为独立实施例来实施，步骤2102可以作为独立实施例来实施，步骤2103可以作为独立实施例来实施，步骤2104可以作为独立实施例来实施，步骤2112可以作为独立实施例来实施，以此类推，但不限于此。步骤2101+2102、步骤2101+2102+2103、步骤2101+2102+2103+2104、步骤2101+2102+2106+2107、步骤2101+2102+2105+2106+2107、步骤2106+2107+2108+2109+2110、步骤2101+2102+2106+2107+2108+2109、步骤2101+2102+2106+2107+2108+2109+2110、步骤2101+2102+2105+2106+2107+2108+2109、步骤2101+2102+2105+2106+2107+2108+2109+2110、步骤2101+2102+2105+2106+2107+2108+2109+2110+2111、步骤2101+2102+2106+2107+2108+2109+2110+2111、步骤2101+2102+2106+2107+2108+2109+2110+2111+2112、步骤2101+2102+2105+2106+2107+2108+2109+2110+2111+2112、步骤2101+2102+2103+2104+2106+2107+2108+2109、步骤2101+2102+2103+2104+2106+2107+2108+2109+2110、步骤2101+2102+2103+2104+2106+2107+2108+2109+2110+2111、步骤2101+2102+2103+2104+2106+2107+2108+2109+2110+2111+2112、步骤2101+2102+2103+2104+2105+2106+2107+2108+2109、步骤2101+2102+2103+2104+2105+2106+2107+2108+2109+2110、步骤2101+2102+2103+2104+2105+2106+2107+2108+2109+2110+2111、步骤2101+2102+2103+2104+2105+2106+2107+2108+2109+2110+2111+2112可以作为独立实施例来实施，但不限于此。

在一些实施例中，步骤2103、步骤2104、步骤2105是可选的，在不同的实施例中可以对这些步骤中的一个或多个步骤进行省略或替代。

在本实施方式或实施例中，在不矛盾的情况下，各步骤可以独立、任意组合或交换顺序，可选方式或可选例可以任意组合，且可以与其他实施方式或其他实施例的任意步骤之间进行任意组合。

图3A是根据本公开实施例提供的音频信号发送端设备的音频信号编码方法流程示意图。本公开实施例涉及音频信号编码方法，上述方法包括：

步骤3101，获取待编码混合格式音频信号。

步骤3101的可选实现方式可以参见图2的步骤2101的可选实现方式、及图2所涉及的实施例中其它关联部分，此处不再赘述。

步骤3102，对待编码混合格式音频信号进行预处理。

步骤3102的可选实现方式可以参见图2的步骤2102的可选实现方式、及图2所涉及的实施例中其他关联部分，此处不再赘述。

步骤3103，对待编码混合格式音频信号进行分类。

步骤3103的可选实现方式可以参见图2的步骤2103的可选实现方式、及图2所涉及的实施例中其他关联部分，此处不再赘述。

步骤3104，对待编码混合格式音频信号进行下混处理。

步骤3104的可选实现方式可以参见图2的步骤2104的可选实现方式、及图2所涉及的实施例中其他关联部分，此处不再赘述。

步骤3105，接收音频信号接收端设备发送的指示信息。

步骤3105的可选实现方式可以参见图2的步骤2105的可选实现方式、及图2所涉及的实施例中其他关联部分，此处不再赘述。

步骤3106，确定第一信息。

步骤3106的可选实现方式可以参见图2的步骤2106的可选实现方式、及图2所涉及的实施例中其他关联部分，此处不再赘述。

步骤3107，基于第一信息，进行音频格式转换。

步骤3107的可选实现方式可以参见图2的步骤2107的可选实现方式、及图2所涉及的实施例中其他关联部分，此处不再赘述。

步骤3108，确定对应的音频编码核模块和元数据编码模块。

步骤3108的可选实现方式可以参见图2的步骤2108的可选实现方式、及图2所涉及的实施例中其他关联部分，此处不再赘述。

步骤3109，对传输声道音频信号和元数据信息进行编码，获得第一编码参数和第二编码参数。

步骤3109的可选实现方式可以参见图2的步骤2109的可选实现方式、及图2所涉及的实施例中其他关联部分，此处不再赘述。

步骤3110，将第一编码参数和第二编码参数写入码流中。

步骤3110的可选实现方式可以参见图2的步骤2110的可选实现方式、及图2所涉及的实施例中其他关联部分，此处不再赘述。

步骤3111，向音频信号接收端设备发送码流。

步骤3111的可选实现方式可以参见图2的步骤2111的可选实现方式、及图2所涉及的实施例中其他关联部分，此处不再赘述。

本公开实施例所涉及的通信方法可以包括步骤3101～步骤3111中的至少一者。例如，步骤3101可以作为独立实施例来实施，步骤3102可以作为独立实施例来实施，以此类推，但不限于此。步骤3101+3102、步骤3101+3102+3103、步骤3101+3102+3103+3104、步骤3101+3102+3106+3107、步骤3101+3102+3105+3106+3107、步骤3106+3107+3108+3109+3110、步骤3101+3102+3106+3107+3108+3109、步骤3101+3102+3106+3107+3108+3109+3110、步骤3101+3102+3105+3106+3107+3108+3109、步骤3101+3102+3105+3106+3107+3108+3109+3110、步骤3101+3102+3105+3106+3107+3108+3109+3110+3111、步骤3101+3102+3106+3107+3108+3109+3110+3111、步骤3101+3102+3103+3104+3106+3107+3108+3109、步骤3101+3102+3103+3104+3106+3107+3108+3109+3110、步骤3101+3102+3103+3104+3106+3107+3108+3109+3110+3111、步骤3101+3102+3103+3104+3105+3106+3107+3108+3109、步骤3101+3102+3103+3104+3105+3106+3107+3108+3109+3110、步骤3101+3102+3103+3104+3105+3106+3107+3108+3109+3110+3111可以作为独立实施例来实施，但不限于此。

在一些实施例中，步骤3103、步骤3104、步骤3105是可选的，在不同的实施例中可以对这些步骤中的一个或多个步骤进行省略或替代。

图3B是根据本公开实施例提供的音频信号发送端设备的音频信号编码方法流程示意图。本公开实施例涉及音频信号编码方法，上述方法包括：

步骤3201，获取待编码混合格式音频信号。

在一些实施例中，待编码混合格式音频信号包括第一音频格式信号和至少一个第二音频格式信号，第一音频格式信号和至少一个第二音频格式信号的音频格式不同。

步骤3201的可选实现方式可以参见图2的步骤2101、图3A的步骤3101的可选实现方式、及图2、图3A所涉及的实施例中其他关联部分，此处不再赘述。

步骤3202，对待编码混合格式音频信号进行预处理。

在一些实施例中，对待编码混合格式音频信号进行预处理，以获得预处理后的待编码混合格式音频信号。

步骤3202的可选实现方式可以参见图2的步骤2102、步骤2103、步骤2104、图3A的步骤3102、步骤3103、步骤3104、步骤3105的可选实现方式、及图2、图3A所涉及的实施例中其他关联部分，此处不再赘述。

步骤3203，确定待编码混合格式音频信号的第一信息。

在一些实施例中，第一信息用于指示以下至少一项：混合格式音频信号的内容信息、对待编码混合格式音频信号进行编码的编码控制参数、音频信号接收端设备中解码器的指示信息、音频信号发送端设备的能力信息。

步骤3203的可选实现方式可以参见图2的步骤2105、步骤2106、图3A的步骤3105、步骤3106的可选实现方式、及图2、图3A所涉及的实施例中其他关联部分，此处不再赘述。

步骤3204，对预处理后的待编码混合格式音频信号进行音频格式转换。

在一些实施例中，基于第一信息，对预处理后的待编码混合格式音频信号进行音频格式转换，获得传输声道音频信号和元数据信息。

步骤3204的可选实现方式可以参见图2的步骤2107、图3A的步骤3107的可选实现方式、及图2、图3A所涉及的实施例中其他关联部分，此处不再赘述。

步骤3205，编码获得编码参数。

在一些实施例中，利用音频编码核模块对传输声道音频信号进行编码获得第一编码参数，利用元数据编码模块对元数据信息进行编码获得第二编码参数。

步骤3205的可选实现方式可以参见图2的步骤2108、步骤2109、图3A的步骤3108、步骤3109的可选实现方式、及图2、图3A所涉及的实施例中其他关联部分，此处不再赘述。

步骤3206，将编码参数写入码流。

在一些实施例中，将第一编码参数和第二编码参数写入码流中。

步骤3206的可选实现方式可以参见图2的步骤2110、2111、图3A的步骤3110、3111的可选实现方式、及图2、图3A所涉及的实施例中其他关联部分，此处不再赘述。

步骤3207，向音频信号接收端设备发送码流。

步骤3207的可选实现方式可以参见图2的步骤2111、图3A的步骤3111的可选实现方式、及图2、图3A所涉及的实施例中其他关联部分，此处不再赘述。

在本公开的实施例中，步骤3202可以与图3A中的步骤3101组合，步骤3203可以与图3A中的步骤3107组合。

图4A是根据本公开实施例提供的音频信号接收端设备的音频信号解码方法流程示意图。本公开实施例涉及音频信号解码方法，上述方法包括：

步骤4101，向音频信号发送端设备发送指示信息。

步骤4101的可选实现方式可以参见图2的步骤2105的可选实现方式、及图2所涉及的实施例中其他关联部分，此处不再赘述。

在一些实施例中，步骤4101是可选的，在不同实施例中可以对这一步骤进行省略或替代。

步骤4102，接收音频信号发送端设备发送的码流。

在一些实施例中，音频信号接收端设备接收音频信号发送端设备经过编码后形成的码流。

在一些实施例中，接收到的码流中包含第一编码参数和第二编码参数。

在一些实施例中，第一编码参数为传输声道音频信号经过编码获得的，第二编码参数为元数据信息经过编码获得的。

步骤4102的可选实现方式可以参见图2的步骤2111、图3A的步骤3111、图3B的步骤3206的可选实现方式、及图2、图3A、图3B所涉及的实施例中其他关联部分，此处不再赘述。

步骤4103，进行解码。

在一些实施例中，音频信号接收端设备基于接收到的码流进行解码。

步骤4103的可选实现方式可以参见图2的步骤2112的可选实现方式、及图2所涉及的实施例中其它关联部分，此处不再赘述。

本公开实施例所涉及的通信方法可以包括步骤4101～4103中的至少一者。例如，步骤4101可以作为独立实施例来实施，步骤4102可以作为独立实施例来实施，以此类推，但不限于此。步骤4102+4103、步骤4101+4102+4103可以作为独立实施例来实施，但不限于此。

图4B是根据本公开实施例提供的音频信号接收端设备的音频信号解码方法流程示意图。本公开实施例涉及音频信号解码方法，上述方法包括：

步骤4201，接收码流。步骤4201的可选实现方式可以参见图2的步骤2111、图3A的步骤3111、图3B的步骤3206、图4A的步骤4101的可选实现方式、及图2、图3A、图3B、图4A所涉及的实施例中其他关联部分，此处不再赘述。

步骤4202，解码。

在一些实施例中，音频信号接收端设备基于接收的音频信号发送端设备发送的码流进行解码。

步骤4202的可选实现方式可以参见图2的步骤2112、图4A的步骤4103的可选实现方式、及图2、图4A所涉及的实施例中其他关联部分，此处不再赘述。

图5是根据本公开实施例提供的音频信号编解码方法的交互示意图。如图5所示，本公开实施例涉及音频信号编码方法和音频信号解码方法，上述方法包括：

步骤5101，音频信号发送端设备获取待编码混合格式音频信号。

步骤5101的可选实现方式可以参见图2的步骤2101、图3A的步骤3101、图3B的步骤3201的可选实现方式、及图2、图3A、图3B所涉及的实施例中其他关联部分，此处不再赘述。

步骤5102，音频信号发送端设备对待编码混合格式音频信号进行预处理。

步骤5102的可选实现方式可以参见图2的步骤2102、步骤2103、步骤2104、图3A的步骤3102、步骤3103、步骤3104、图3B的步骤3202的可选实现方式、及图2、图3A、图3B所涉及的实施例中其他关联部分，此处不再赘述。

步骤5103，音频信号发送端设备确定待编码混合格式音频信号的第一信息。

步骤5103的可选实现方式可以参见图2的步骤2105、步骤2106、图3A的步骤3105、步骤3106、图3B的步骤3203的可选实现方式、及图2、图3A、图3B所涉及的实施例中其他关联部分，此处不再赘述。

步骤5104，音频信号发送端设备对预处理后的待编码混合格式音频信号进行音频格式转换。

步骤5104的可选实现方式可以参见图2的步骤2107、图3A的步骤3107、图3B的步骤3204的可选实现方式、及图2、图3A、图3B所涉及的实施例中其他关联部分，此处不再赘述。

步骤5105，音频信号发送端设备对传输声道音频信号进行编码获得第一编码参数，对元数据信息进行编码获得第二编码参数。

步骤5105的可选实现方式可以参见图2的步骤2018、步骤2109、图3A的步骤3108、步骤3109、图3B的步骤3205的可选实现方式、及图2、图3A、图3B所涉及的实施例中其他关联部分，此处不再赘述。

步骤5106，音频信号发送端设备将第一编码参数和第二编码参数写入码流中。

步骤5106的可选实现方式可以参见图2的步骤2110、图3A的步骤3110、图3B的步骤3206的可选实现方式、及图2、图3A、图3B所涉及的实施例中其他关联部分，此处不再赘述。

步骤5107，音频信号发送端设备向音频信号接收端设备发送码流。

步骤5107的可选实现方式可以参见图2的步骤2111、图3A的步骤3111、图3B的步骤3207、图4A的步骤4102、图4B的步骤4201的可选实现方式、及图2、图3A、图3B、图4A、图4B所涉及的实施例中其他关联部分，此处不再赘述。

步骤5108，音频信号接收端设备进行解码。

步骤5108的可选实现方式可以参见图2的步骤2112、图4A的步骤4103、步骤4202的可选实现方式、及图2、图4A、图4B所涉及的实施例中其他关联部分，此处不再赘述。

在一些实施例中，上述方法可以包括上述音频信号发送端设备、音频信号接收端设备等的实施例所述的方法，此处不再赘述。

图6A是根据本公开实施例示出的音频信号编码方法的示意图。图6B是根据本公开实施例示出的对信号进行音频格式转换处理的示意图。如图6A所示，本公开实施例涉及信号编码方法，上述方法包括：

一、首先将输入的混合格式音频信号进行高通滤波的预处理，

混合格式音频信号包括下列格式音频信号中的任意组合，即：基于声道音频信号、基于对象音频信号、基于场景音频信号、基于元数据的三维音频信号、其他格式的音频信号。滤波器截止频率可以选择设置为20Hz，采用的滤波器公式如下所示：

其中，a₁、a₂、b₀、b₁、b₂均为预先设置的常数，示例的，b₀＝0.9981492，b₁＝-1.9963008，b₂＝0.9981498，a₁＝1.9962990，a₂＝-0.9963056。

示例地，步骤一为对音频信号进行编码前的预处理，将经过处理的信号作为编码器的输入信号。

可选地，预处理可以是进行高通滤波的预处理，也可以是对音频信号进行限幅或其他预处理，本公开不予限制。

可选地，对待编码混合格式音频信号进行高通滤波的预处理可以去除超低频信号。

可选地，预处理是为了将不需要编码的信号去除。

步骤一的可选实现方式可以参见图2的步骤2102的可选实现方式、及图2所涉及的实施例中其他关联部分，此处不再赘述。

二、对高通滤波预处理后的音频信号基于以下一种或多种决策结合的方式进行判决，如图6B所示，基于判决结果对音频信号进行相应的自适应音频格式转换处理：

1、对预处理后的音频信号进行音频内容分析，内容分析包括但不限于对音频内容进行静音检测(SAD/VAD)、静态声像(image)估计、动态声像估计、声场背景变化估计等，根据音频内容分析结果对混合格式音频信号进行音频格式转换处理。

1.1、编码器对输入的混合格式音频信号进行高通滤波的预处理后获得多声道音频信号，分析多声道音频信号的音频内容，本实施例假设有2种音频格式的音频信号，分析其音频内容，分析音频内容可能的结论如下所述：

(1)格式1音频信号的音频场景比格式2音频信号的音频场景丰富；

(2)格式2音频信号的音频场景比格式1音频信号的音频场景丰富；

(3)格式1音频信号的音频场景比格式2音频信号的音频场景丰富程度相当。

其中音频场景丰富的判决准则不进行限定，例如可能的判决准则有：(a)音频场景中声像的更新变化频率；(b)哪一个格式音频信号的声像是占主导地位；(c)哪一个格式音频信号的声像是动态的(例如一个格式的音频信号中有一个说话的人在不停的走动，此说话人即是动态声像，另一个格式的音频信号中主要是有一个乐器在固定的位置演奏，此乐器即是静态声像)；(d)声像数。

其中格式转换判决器的判决原则如下：

(1)：如果两种格式的音频信号在音频场景丰富程度有差别，则将两种格式音频信号中的音频场景简单的音频信号转换为音频场景丰富的音频信号；

(2)：如果两种格式的音频信号在音频场景丰富程度相当，则可以将声道数目多的音频格式信号转换为另一种声道数目少的音频格式信号，如果声道数相等，则可以任意选择将一种格式音频信号转换为另外一种音频格式音频信号。

具体两种格式的音频信号分别为基于对象格式音频信号和基于场景(HOA/FOA)格式的音频信号，可以根据上述准则进行下列三种情况的处理：

(1)将基于对象格式音频信号转换为基于场景格式音频信号；

(2)将基于场景格式音频信号转换为基于对象格式音频信号；

(3)在基于对象格式音频信号和基于场景格式音频信号中任选一种将其转换为另一种格式的音频信号。

对上述处理后获得的音频信号使用相应的编码核进行编码，处理后获得的元数据使用相应的元数据编码，将编码获得编码参数写入码流中。

示例地，判断主导地位可以是按照音量或声像种类进行区分。例如可以将声像种类优先级大于音量。在有人唱歌和乐器演奏的场景下，人是主导地位，即使在某一时刻乐器音量大于人的音量，其也不是主导地位。

1.1的可选实现方式可以参见图2的步骤2106、步骤2107、图3A的步骤3106、步骤3107、图3B的步骤3203、步骤3204、图5的步骤5103、步骤5104的可选实现方式、及图2、图3A、图3B、图5所涉及的实施例中其他关联部分，此处不再赘述。

1.2、对预处理后的多声道音频信号进行静音检测，对检测为静音帧/非活动帧的声道信号作为第一组，检测为非静音帧/活动帧的声道信号作为第二组，对两组音频信号分别采用不同的处理。

对第一组音频信号，假设共有N1个声道信号，每帧的长度为L，通过下混处理提取所有声道信号的特征参数，对特征参数进行编码，将编码后获得的编码参数写入码流，将码流传送到解码端，解码端根据编码参数解码计算得到所有声道的特征，然后使用上混处理重建获得N1个声道信号的重建音频信号。

上述输入信号为N1*L的矩阵，下混处理采用L*M的矩阵，举例N1＝5，即有5个声道信号，L＝1024,即每帧有1024个采样样点，M＝1，即下混矩阵是1024*1的矩阵，此处1024*1的矩阵取值如下：

[0.2

0.2

…

0.2

0.2]

通过下混处理后获得长度为1024的音频信号，对其进行编码处理。

对第二组音频信号，假设共有N2个声道信号，每帧的长度为L，假设N2＝5，L＝1024个采样样点，通过计算5个声道信号间的互相关系数,如X1(n)，X2(n)两个声道信号的互相关系数计算方式如下：

上述N是一帧信号的样点数，N的取值根据不同的采样率有不同的取值，例如，一帧的时长为20ms，采样率为48kHz时，N的取值为960。

对5个声道信号中互相关性最高的两个声道采用MS下混处理，假设输入信号为X1(n)，X2(2),则MS下混处理的公式为：

M(n)＝(X1(n)+X2(n))/2；

S(n)＝(X1(n)-X2(n))/2；

对下混处理后的输出信号为和声道M(n)和差声道S(n),对其使用相应的编码核进行编码，之后从剩余的3个声道信号中选择2个互相关性最高的2个声道信号同样采用MS下混处理，对下混处理后音频信号采用相应的编码核进行编码，剩余的1个声道信号采用单声道编码核进行编码处理，将处理过程中获得元数据进行元数据编码处理，将编码参数写入码流中。

可选地，特征参数可以是声像的类型，示例地，可以是人声。

1.2的可选实现方式可以参见图2的步骤2103、步骤2104、步骤2108、图3A的步骤3103、步骤3104、步骤3108的可选实现方式、及图2、图3A所涉及的实施例中其他关联部分，此处不再赘述。

实施例1示出的是当第一信息为混合格式音频信号的内容信息的情况下，对该混合格式音频信号进行编码的流程，包括对混合格式音频信号进行预处理后，1.1为对预处理后的音频信号基于内容信息进行音频格式转换，可选地，1.2为在音频格式转换前进行分类，分类的音频信号通过下混处理，以确定编码核。

在一些实施例中，1.2为可选的。

2、基于编码控制输入参数对预处理后的音频信号进行所要求的音频格式转换处理。

获得预处理后的多声道音频信号，解析编码控制输入参数，本实施例假设混合格式音频信号是有5个对象信号和一个FOA格式音频信号组成，基于编码控制输入参数的要求，将5个对象信号转换成FOA格式音频信号，对原始的FOA格式音频信号和转换后的FOA格式音频信号选择相应的编码核进行编码处理获得编码参数，对5个对象信号转换成FOA格式音频信号时生成的元数据进行编码，将编码参数写入码流中。

可选地，编码控制输入参数可以是字段，可以是一种指示性的信息，也可以是速率信息。

可选地，编码控制输入参数可以是预先设置的。

实施例2示出的是当第一信息为待编码混合格式音频信号进行编码的编码控制输入参数的情况下，对该混合格式音频信号进行音频格式转换的编码方式。

实施例2的可选实现方式可以参见图2的步骤2106、步骤2107、步骤2108、步骤2109、步骤2110、图3A的步骤3106、步骤3107、步骤3108、步骤3109、步骤3110的可选实现方式、及图2、图3A所涉及的实施例中其他关联部分，此处不再赘述。

3、获取执行编码处理设备的等级，基于等级对音频信号进行相应的音频格式转换处理。

获得预处理后的多声道音频信号，获取设备的等级，示例地，比如音频信号的发送端为手机，如果CPU性能比较好，存储空间比较大，则选择复杂度高的、性能好的编码核进行编码处理获得编码参数；如果CPU性能比较差，存储空间比较小，则选择复杂度低的编码核进行编码处理获得编码参数。将处理过程中获得元数据进行元数据编码处理，将编码参数写入码流中。

实施例3示出的是当第一信息为音频信号发送端设备的能力信息的情况下，对该混合格式音频信号进行音频格式转换的编码方式。

实施例3的可选实现方式可以参见图2的步骤2106、步骤2107、步骤2108、步骤2109、步骤2110、图3A的步骤3106、步骤3107、步骤3108、步骤3109、步骤3110的可选实现方式、及图2、图3A所涉及的实施例中其他关联部分，此处不再赘述。

4、通过发送端与接收端的协商，编码端基于解码端的需求对音频信号进行相应的音频格式转换处理。

获得预处理后的多声道音频信号，获取解码端的需求参数，根据此需求参数多声道音频信号进行音频格式转换处理，假设混合格式音频信号是有5个对象信号和一个FOA格式音频信号组成，基于解码端需求参数的要求，将5个对象信号转换成FOA格式音频信号，对原始的FOA格式音频信号和转换后的FOA格式音频信号选择相应的编码核进行编码处理获得编码参数，对5个对象信号转换成FOA格式音频信号时生成的元数据进行编码，将编码参数写入码流中。

实施例4示出的是当第一信息为音频信号接收端设备中解码器的指示信息的情况下，对该混合格式音频信号进行音频格式转换的编码方式。

实施例4的可选实现方式可以参见图2的步骤2105、步骤2106、步骤2107、步骤2108、步骤2109、步骤2110、图3A的步骤3105、步骤3106、步骤3107、步骤3108、步骤3109、步骤3110的可选实现方式、及图2、图3A所涉及的实施例中其他关联部分，此处不再赘述。

在本公开的实施例中，步骤二所示出的4种对混合格式音频信号进行音频格式转换处理的实施例可以单独执行，也可以任意组合。

三、编码端对输入的混合格式音频信号进行音频格式转换后的音频信号即为传输声道信号，对传输声道音频信号使用相应的编码核进行编码处理，对元数据信息进行元数据编码，将编码获得的编码参数写入码流中。

如图6A所示，其中，n大于或等于m，k可能大于m，也可能小于m，还有可能等于m。

可选地，编码核的个数与信号格式的类别数相当，示例地，可能与格式数相等，也可能比格式数多。

可选地，元数据信息为音频格式转换的标记信息。示例地，当第一音频格式信号A的第一音频格式转换到第二音频格式信号B的第二音频格式后，得到的传输声道音频信号C，标记C为由A转换为B所得到的音频信号。

步骤三的可选实现方式可以参见图2的步骤2108、步骤2109、步骤2110、图3A的步骤3108、步骤3109、步骤3110、图3B的步骤3205、步骤3206、图5的步骤5105、步骤5106的可选实现方式、及图2、图3A、图3B、图5所涉及的实施例中其他关联部分，此处不再赘述。

本公开实施例还提出用于实现以上任一方法的装置，例如，提出一装置，上述装置包括用以实现以上任一方法中音频信号发送端设备所执行的各步骤的单元或模块。再如，还提出另一装置，包括用以实现以上任一方法中音频信号接收端设备所执行的各步骤的单元或模块。

应理解以上装置中各单元或模块的划分仅是一种逻辑功能的划分，在实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。此外，装置中的单元或模块可以以处理器调用软件的形式实现：例如装置包括处理器，处理器与存储器连接，存储器中存储有指令，处理器调用存储器中存储的指令，以实现以上任一方法或实现上述装置各单元或模块的功能，其中处理器例如为通用处理器，例如中央处理单元(Central ProcessingUnit，CPU)或微处理器，存储器为装置内的存储器或装置外的存储器。或者，装置中的单元或模块可以以硬件电路的形式实现，可以通过对硬件电路的设计实现部分或全部单元或模块的功能，上述硬件电路可以理解为一个或多个处理器；例如，在一种实现中，上述硬件电路为专用集成电路(application-specific integrated circuit，ASIC)，通过对电路内元件逻辑关系的设计，实现以上部分或全部单元或模块的功能；再如，在另一种实现中，上述硬件电路为可以通过可编程逻辑器件(programmable logic device，PLD)实现，以现场可编程门阵列(Field Programmable Gate Array，FPGA)为例，其可以包括大量逻辑门电路，通过配置文件来配置逻辑门电路之间的连接关系，从而实现以上部分或全部单元或模块的功能。以上装置的所有单元或模块可以全部通过处理器调用软件的形式实现，或全部通过硬件电路的形式实现，或部分通过处理器调用软件的形式实现，剩余部分通过硬件电路的形式实现。

在本公开实施例中，处理器是具有信号处理能力的电路，在一种实现中，处理器可以是具有指令读取与运行能力的电路，例如中央处理单元(Central Processing Unit，CPU)、微处理器、图形处理器(graphics processing unit，GPU)(可以理解为微处理器)、或数字信号处理器(digital signal processor，DSP)等；在另一种实现中，处理器可以通过硬件电路的逻辑关系实现一定功能，上述硬件电路的逻辑关系是固定的或可以重构的，例如处理器为专用集成电路(application-specific integrated circuit，ASIC)或可编程逻辑器件(programmable logic device，PLD)实现的硬件电路，例如FPGA。在可重构的硬件电路中，处理器加载配置文档，实现硬件电路配置的过程，可以理解为处理器加载指令，以实现以上部分或全部单元或模块的功能的过程。此外，还可以是针对人工智能设计的硬件电路，其可以理解为ASIC，例如神经网络处理单元(Neural Network Processing Unit，NPU)、张量处理单元(Tensor Processing Unit，TPU)、深度学习处理单元(Deep learningProcessing Unit，DPU)等。

图7A是根据本公开实施例提供的音频信号编码装置的结构示意图。如图7A所示，音频信号编码装置7100包括处理模块7101和收发模块7102。在一些实施例中，上述处理模块用于确定待编码混合格式音频信号的第一信息，第一信息用于指示以下至少一项：混合格式音频信号的内容信息、对待编码混合格式音频信号进行编码的编码控制输入参数、音频信号接收端设备中解码器的指示信息、音频信号发送端设备的能力信息；对待编码混合格式音频信号进行预处理，以获得预处理后的待编码混合格式音频信号；基于第一信息，对预处理后的待编码混合格式音频信号进行音频格式转换获得传输声道音频信号和元数据信息；对传输声道音频信号进行编码获得第一编码参数，对元数据信息进行编码获得第二编码参数；将第一编码参数和第二编码参数写入码流中；收发模块用于获取待编码混合格式音频信号，待编码混合格式音频信号包括第一音频格式信号和至少一个第二音频格式信号，第一音频格式信号和至少一个第二音频格式信号的音频格式不同；向音频信号接收端设备发送码流。

可选地，上述处理模块7101用于执行以上任一方法中音频信号编码装置7100执行的编码步骤(例如步骤2102、步骤2103、步骤2104、步骤2106、步骤2107、步骤2108、步骤2109、步骤2110，但不限于此)中的至少一者，此处不再赘述。

可选地，上述收发模块7102用于执行以上任一方法中音频信号编码装置7100执行的收发步骤(例如步骤2101、步骤2105、步骤2111，但不限于此)，此处不再赘述。

图7B是根据本公开实施例提供的音频信号解码装置的结构示意图。如图7B所示，音频信号解码装置7200包括收发模块7201和处理模块7202。在一些实施例中，上述收发模块7201用于接收音频信号发送端设备发送的码流；处理模块7202用于对码流进行解码，其中，码流包括第一编码参数和第二编码参数，第一编码参数为音频信号发送端设备对传输声道音频信号进行编码获得的，第二编码参数为音频信号发送端设备对元数据信息进行编码获得的，传输声道音频信号和元数据信息为音频信号发送端设备基于第一信息对预处理后的待编码混合格式音频信号进行音频格式转换获得的，待编码混合格式音频信号包括第一音频格式信号和至少一个第二音频格式信号，第一音频格式信号和至少一个第二音频格式信号的音频格式不同，第一信息用于指示以下至少一项：混合格式音频信号的内容信息、对待编码混合格式音频信号进行编码的编码控制输入参数、音频信号接收端设备中解码器的指示信息、音频信号发送端设备的能力信息。

在一些实施例中，上述收发模块7201还用于向音频信号发送端设备发送指示信息，指示信息指示信号接收设备期望解码的格式为第二音频格式。

可选地，上述处理模块7202用于执行以上任一方法中音频信号解码装置7200执行的解码步骤(例如步骤2112，但不限于此)，此处不再赘述。

可选地，上述收发模块7201用于执行以上任一方法中音频信号解码装置7200执行的收发步骤(例如步骤2105、步骤2111，但不限于此)，此处不再赘述。

综上所述，根据本公开实施例提供的音频信号编码装置和音频信号解码装置，上述装置通过音频信号编码装置获取待编码混合格式音频信号，待编码混合格式音频信号包括第一音频格式信号和至少一个第二音频格式信号，第一音频格式信号和至少一个第二音频格式信号的音频格式不同；确定待编码混合格式音频信号的第一信息，第一信息用于指示以下至少一项：混合格式音频信号的内容信息、对待编码混合格式音频信号进行编码的编码控制输入参数、音频信号接收端设备中解码器的指示信息、音频信号发送端设备的能力信息；对待编码混合格式音频信号进行预处理，以获得预处理后的待编码混合格式音频信号；基于第一信息，对预处理后的待编码混合格式音频信号进行音频格式转换获得传输声道音频信号和元数据信息；对传输声道音频信号进行编码获得第一编码参数，对元数据信息进行编码获得第二编码参数；将第一编码参数和第二编码参数写入码流中；向音频信号解码装置发送码流。音频信号解码装置接收码流并解码。编码端根据音频信号的内容信息、编码控制输入参数、发送端设备的能力信息、解码端的指示信息等对混合格式音频信号进行自适应的音频格式转换处理，对处理后获得的传输声道音频信号和元数据信息进行编码处理，将编码处理获得的编码参数写入到码流中，实现在有限制条件约束下的高效率编码，使解码端能够基于接收的码流进行解码，实现重建的音频信号与原始信号更加接近。

图8A是根据本公开实施例提供的通信设备8100的结构示意图。通信设备8100可以是网络设备(例如接入网设备、核心网设备等)，也可以是终端(例如用户设备等)，也可以是支持网络设备实现以上任一方法的芯片、芯片系统、或处理器等，还可以是支持终端实现以上任一方法的芯片、芯片系统、或处理器等。通信设备8100可用于实现上述方法实施例中描述的方法，具体可以参见上述方法实施例中的说明。

如图8A所示，通信设备8100包括一个或多个处理器8101。处理器8101可以是通用处理器或者专用处理器等，例如可以是基带处理器或中央处理器。基带处理器可以用于对通信协议以及通信数据进行处理，中央处理器可以用于对通信装置(如，基站、基带芯片，终端设备、终端设备芯片，DU或CU等)进行控制，执行程序，处理程序的数据。可选地，通信设备8100用于执行以上任一方法。可选地，一个或多个处理器8101用于调用指令以使得通信设备8100执行以上任一方法。

在一些实施例中，通信设备8100还包括一个或多个收发器8102。在通信设备8100包括一个或多个收发器8102时，收发器8102执行上述方法中的发送和/或接收等通信步骤(例如步骤2101、步骤2105、步骤2111、步骤3101、步骤3105、步骤3111、步骤3201、步骤3207、步骤4101、步骤4102、步骤4201，但不限于此)中的至少一者，处理器8101执行其他步骤(例如步骤2102、步骤2103、步骤2104、步骤2106、步骤2107、步骤2108、步骤2109、步骤2110、步骤2112、步骤3102、步骤3103、步骤3104、步骤3106、步骤3107、步骤3108、步骤3109、步骤3110、步骤3202、步骤3203、步骤3204、步骤3205、步骤3206、步骤4103、步骤4202，但不限于此)中的至少一者。在可选的实施例中，收发器可以包括接收器和/或发送器，接收器和发送器可以是分离的，也可以集成在一起。可选地，收发器、收发单元、收发机、收发电路、接口电路、接口等术语可以相互替换，发送器、发送单元、发送机、发送电路等术语可以相互替换，接收器、接收单元、接收机、接收电路等术语可以相互替换。

在一些实施例中，通信设备8100还包括用于存储数据的一个或多个存储器8103。可选地，全部或部分存储器8103也可以处于通信设备8100之外。在可选的实施例中，通信设备8100可以包括一个或多个接口电路8104。可选地，接口电路8104与存储器8102连接，接口电路8104可用于从存储器8102或其他装置接收数据，可用于向存储器8102或其他装置发送数据。例如，接口电路8104可读取存储器8102中存储的数据，并将该数据发送给处理器8101。

在一些实施例中，处理器8101可以存有计算机程序8105，计算机程序8105在处理器8101上运行，可使得通信装置8000执行上述方法实施例中描述的方法。计算机程序8105可能固化在处理器8101中，该种情况下，处理器8101可能由硬件实现。

以上实施例描述中的通信设备8100可以是网络设备或者终端，但本公开中描述的通信设备8100的范围并不限于此，通信设备8100的结构可以不受图8A的限制。通信设备可以是独立的设备或者可以是较大设备的一部分。例如所述通信设备可以是：1)独立的集成电路IC，或芯片，或，芯片系统或子系统；(2)具有一个或多个IC的集合，可选地，上述IC集合也可以包括用于存储数据，程序的存储部件；(3)ASIC，例如调制解调器(Modem)；(4)可嵌入在其他设备内的模块；(5)接收机、终端设备、智能终端设备、蜂窝电话、无线设备、手持机、移动单元、车载设备、网络设备、云设备、人工智能设备等等；(6)其他等等。

图8B是本公开实施例提出的芯片8200的结构示意图。对于通信设备8100可以是芯片或芯片系统的情况，可以参见图8B所示的芯片8200的结构示意图，但不限于此。

芯片8200包括一个或多个处理器8201。芯片8200用于执行以上任一方法。

在一些实施例中，芯片8200还包括一个或多个接口电路8202。可选地，接口电路、接口、收发管脚等术语可以相互替换。在一些实施例中，芯片8200还包括用于存储数据的一个或多个存储器8203。可选地，全部或部分存储器8203可以处于芯片8200之外。可选地，接口电路8202与存储器8203连接，接口电路8202可以用于从存储器8203或其他装置接收数据，接口电路8202可用于向存储器8203或其他装置发送数据。例如，接口电路8202可读取存储器8203中存储的数据，并将该数据发送给处理器8201。

在一些实施例中，接口电路8202执行上述方法中的发送和/或接收等通信步骤(例如步骤2101、步骤2105、步骤2111、步骤3101、步骤3105、步骤3111、步骤3201、步骤3207、步骤4101、步骤4102、步骤4201，但不限于此)中的至少一者。接口电路8202执行上述方法中的发送和/或接收等通信步骤例如是指：接口电路8202执行处理器8201、芯片8200、存储器8203或收发器件之间的数据交互。在一些实施例中，处理器8201执行其他步骤(例如步骤2102、步骤2103、步骤2104、步骤2106、步骤2107、步骤2108、步骤2109、步骤2110、步骤2112、步骤3102、步骤3103、步骤3104、步骤3106、步骤3107、步骤3108、步骤3109、步骤3110、步骤3202、步骤3203、步骤3204、步骤3205、步骤3206、步骤4103、步骤4202，但不限于此)中的至少一者。

虚拟装置、实体装置、芯片等各实施例中所描述的各模块和/或器件可以根据情况任意组合或者分离。可选地，部分或全部步骤也可以由多个模块和/或器件协作执行，此处不做限定。

本公开还提出存储介质，上述存储介质上存储有指令，当上述指令在通信设备8100上运行时，使得通信设备8100执行以上任一方法。可选地，上述存储介质是电子存储介质。可选地，上述存储介质是计算机可读存储介质，但不限于此，其也可以是其他装置可读的存储介质。可选地，上述存储介质可以是非暂时性(non-transitory)存储介质，但不限于此，其也可以是暂时性存储介质。

本公开还提出程序产品，上述程序产品被通信设备8100执行时，使得通信设备8100执行以上任一方法。可选地，上述程序产品是计算机程序产品。

本公开还提出计算机程序，当其在计算机上运行时，使得计算机执行以上任一方法。

Claims

1.一种音频信号编码方法，其特征在于，所述方法由音频信号发送端设备执行，所述方法包括：

获取待编码混合格式音频信号，所述待编码混合格式音频信号包括第一音频格式信号和至少一个第二音频格式信号，所述第一音频格式信号和所述至少一个第二音频格式信号的音频格式不同；

确定所述待编码混合格式音频信号的第一信息，所述第一信息用于指示以下至少一项：所述混合格式音频信号的内容信息、对所述待编码混合格式音频信号进行编码的编码控制输入参数、音频信号接收端设备中解码器的指示信息、所述音频信号发送端设备的能力信息；

对所述待编码混合格式音频信号进行预处理，以获得预处理后的待编码混合格式音频信号；

基于所述第一信息，对所述预处理后的待编码混合格式音频信号进行音频格式转换获得传输声道音频信号和元数据信息；

对所述传输声道音频信号进行编码获得第一编码参数，对所述元数据信息进行编码获得第二编码参数；

将所述第一编码参数和所述第二编码参数写入码流中；

向所述音频信号接收端设备发送所述码流。

2.根据权利要求1所述的方法，其特征在于，所述第一信息为所述内容信息，所述确定所述待编码混合格式音频信号的第一信息包括：

分别对所述第一音频格式信号和所述至少一个第二音频格式信号进行内容分析处理，以得到所述第一音频格式信号和所述至少一个第二音频格式信号各自对应的音频信号内容参数信息；

基于所述音频信号内容参数信息，确定所述内容信息。

3.根据权利要求2所述的方法，其特征在于，所述音频信号内容参数信息包括以下至少一项：

音频信号的第一特征的更新变化频率；

所述第一特征的等级；

所述第一特征的属性；

所述第一特征的数量；

音频信号的第二特征的数量；

音频信号的类型。

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一信息，对所述预处理后的待编码混合格式音频信号进行音频格式转换包括：

在所述内容信息指示所述第一音频格式信号的音频信号内容参数信息与所述第二音频格式信号的音频信号内容参数信息满足第一预设条件的情况下，将所述第一音频格式信号的第一音频格式转换为所述第二音频格式信号的第二音频格式。

5.根据权利要求4所述的方法，其特征在于，所述第一预设条件包括以下至少一项：

所述第一音频格式信号的第一特征的数量大于或等于所述第二音频格式信号的第一特征的数量；

所述第一音频格式信号的第二特征的数量大于或等于所述第二音频格式信号的第二特征的数量；

所述第一音频格式信号的第一特征的属性为动态属性，所述第二音频格式信号的第一特征的属性为静态属性；

所述第一音频格式信号的第一特征的等级低于或等于所述第二音频格式信号的第一特征的等级；

所述第一音频格式信号的第一特征的更新变化频率高于或等于所述第二音频格式信号的第一特征的更新变化频率。

6.根据权利要求2所述的方法，其特征在于，所述内容分析处理包括以下至少一项：

语音活动帧检测SAD；

话音活动帧检测VAD；

静态声像估计处理；

动态声像估计处理；

声场背景变化频率估计处理。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述第一信息为对所述待编码混合格式音频信号进行编码的编码控制输入参数，基于所述编码控制输入参数，编码端由所述第一音频格式信号的第一音频格式转换为所述第二音频格式信号的第二音频格式，所述基于所述第一信息，对所述预处理后的待编码混合格式音频信号进行音频格式转换包括：

将所述第一音频格式信号的第一音频格式转换为所述第二音频格式信号的第二音频格式获得所述传输声道音频信号和所述元数据信息。

8.根据权利要求1至6中任一项所述的方法，其特征在于，所述第一信息为音频信号接收端设备中解码器的指示信息，所述指示信息指示所述信号接收设备期望解码的格式为第二音频格式，所述基于所述第一信息，对所述预处理后的待编码混合格式音频信号进行音频格式转换包括：

将所述第一音频格式信号和所述至少一个第二音频格式信号中音频格式为第一音频格式的音频信号转换为所述第二音频格式获得传输声道音频信号和元数据信息。

9.根据权利要求1至6中任一项所述的方法，其特征在于，所述第一信息为所述音频信号发送端设备的能力信息，所述基于所述第一信息，对所述预处理后的待编码混合格式音频信号进行音频格式转换包括：

在所述信号发送设备的能力信息满足第二预设条件的情况下，将所述多个信号第一音频格式信号和所述至少一个第二音频格式信号中音频格式为第一音频格式的音频信号转换为所述第二音频格式获得传输声道音频信号和元数据信息。

10.根据权利要求1至6中任一项所述的方法，其特征在于，所述音频信号接收端设备中解码器的指示信息、对所述待编码混合格式音频信号进行编码的编码控制输入参数、所述待编码混合格式音频信号的内容信息、所述音频信号发送端设备的能力信息的优先级依次递减。

11.根据权利要求1至6中任一项所述的方法，其特征在于，所述方法还包括：

将所述第一音频格式信号和所述至少一个第二音频格式信号分类为第一组信号和第二组信号，

其中，所述第一组信号的类型为静音帧或非活动帧，所述第二组信号的类型为非静音帧或活动帧，所述第一组信号和所述第二组信号的编码方式不同。

12.根据权利要求11所述的方法，其特征在于，所述对所述传输声道音频信号进行编码获得第一编码参数，对所述元数据信息进行编码获得第二编码参数包括：

通过下混处理提取所述第一组信号的特征参数；

基于所述特征参数确定对应的音频编码核模块和元数据编码模块，以利用所述音频编码核模块对所述传输声道音频信号进行编码获得所述第一编码参数，以及利用所述元数据编码模块对所述第一组信号对应的元数据信息进行编码获得所述第二编码参数。

13.根据权利要求11所述的方法，其特征在于，所述对所述传输声道音频信号进行编码获得第一编码参数，对所述元数据信息进行编码获得第二编码参数包括：

确定所述第二组信号中每两个信号之间的互相关系数；

从所述第二组信号中确定第一目标信号和第二目标信号，所述第一目标信号和所述第二目标信号之间的互相关系数最高；

对所述第一目标信号和所述第二目标信号进行下混处理，以输出和声道音频信号以及差声道音频信号作为所述传输声道音频信号；

确定所述传输声道音频信号对应的音频编码核模块和元数据编码模块，以利用所述音频编码核模块对所述传输声道音频信号进行编码获得第一编码参数，利用所述元数据编码模块对所述元数据信息进行编码获得第二编码参数。

14.根据权利要求11所述的方法，其特征在于，在所述第二组信号中包括单声道音频信号的情况下，所述对所述传输声道音频信号进行编码获得第一编码参数，对所述元数据信息进行编码获得第二编码参数包括：

利用单声道音频编码核模块对所述第二组信号对应的所述传输声道音频信号进行编码获得所述第一编码参数，利用所述元数据编码模块对所述第二组信号对应的所述元数据信息进行编码获得第二编码参数。

15.根据权利要求1至6中任一项所述的方法，其特征在于，所述待编码混合格式音频信号包括以下至少两种：

基于声道的音频信号；

基于对象的音频信号；

基于场景的音频信号；

基于辅助元数据的空间音频信号。

16.一种音频信号解码方法，其特征在于，所述方法由音频信号接收端设备执行，所述方法包括：

接收音频信号发送端设备发送的码流；

对所述码流进行解码，

其中，所述码流包括第一编码参数和第二编码参数，所述第一编码参数为所述音频信号发送端设备对传输声道音频信号进行编码获得的，所述第二编码参数为所述音频信号发送端设备对元数据信息进行编码获得的，所述传输声道音频信号和所述元数据信息为所述音频信号发送端设备基于第一信息对预处理后的待编码混合格式音频信号进行音频格式转换获得的，所述待编码混合格式音频信号包括第一音频格式信号和至少一个第二音频格式信号，所述第一音频格式信号和所述至少一个第二音频格式信号的音频格式不同，所述第一信息用于指示以下至少一项：所述混合格式音频信号的内容信息、对所述待编码混合格式音频信号进行编码的编码控制输入参数、音频信号接收端设备中解码器的指示信息、所述音频信号发送端设备的能力信息。

17.根据权利要求16所述的方法，其特征在于，所述第一信息为所述内容信息，所述内容信息为所述音频信号发送端设备基于音频信号内容参数信息确定的，所述音频信号内容参数信息为所述音频信号发送端设备分别对所述第一音频格式信号和所述至少一个第二音频格式信号进行内容分析处理得到的。

18.根据权利要求17所述的方法，其特征在于，所述音频信号内容参数信息包括以下至少一项：

音频信号的第一特征的更新变化频率；

所述第一特征的等级；

所述第一特征的属性；

所述第一特征的数量；

音频信号的第二特征的数量；

音频信号的类型。

19.根据权利要求17所述的方法，其特征在于，所述内容分析处理包括以下至少一项：

语音活动帧检测SAD；

话音活动帧检测VAD；

静态声像估计处理；

动态声像估计处理；

声场背景变化频率估计处理。

20.根据权利要求16至19中任一项所述的方法，其特征在于，所述音频信号接收端设备中解码器的指示信息、对所述待编码混合格式音频信号进行编码的编码控制输入参数、所述待编码混合格式音频信号的内容信息、所述音频信号发送端设备的能力信息的优先级依次递减。

21.根据权利要求16至19中任一项所述的方法，其特征在于，所述待编码混合格式音频信号包括以下至少两种：

基于声道的音频信号；

基于对象的音频信号；

基于场景的音频信号；

基于辅助元数据的空间音频信号。

22.根据权利要求16至19中任一项所述的方法，其特征在于，所述方法还包括：

向所述音频信号发送端设备发送所述指示信息，所述指示信息指示所述信号接收设备期望解码的格式为第二音频格式。

23.一种信号编码装置，其特征在于，所述装置包括处理模块和收发模块，

所述收发模块用于获取待编码混合格式音频信号，所述待编码混合格式音频信号包括第一音频格式信号和至少一个第二音频格式信号，所述第一音频格式信号和所述至少一个第二音频格式信号的音频格式不同；

所述处理模块用于确定所述待编码混合格式音频信号的第一信息，所述第一信息用于指示以下至少一项：所述混合格式音频信号的内容信息、对所述待编码混合格式音频信号进行编码的编码控制输入参数、音频信号接收端设备中解码器的指示信息、音频信号发送端设备的能力信息；

所述处理模块用于对所述待编码混合格式音频信号进行预处理，以获得预处理后的待编码混合格式音频信号；

所述处理模块用于基于所述第一信息，对所述预处理后的待编码混合格式音频信号进行音频格式转换获得传输声道音频信号和元数据信息；

所述处理模块用于对所述传输声道音频信号进行编码获得第一编码参数，对所述元数据信息进行编码获得第二编码参数；

所述处理模块用于将所述第一编码参数和所述第二编码参数写入码流中；

所述收发模块用于向所述音频信号接收端设备发送所述码流。

24.一种信号解码装置，其特征在于，所述装置包括处理模块和收发模块，

所述收发模块用于接收音频信号发送端设备发送的码流；

所述处理模块用于对所述码流进行解码，

25.一种通信设备，其中，包括：收发器；存储器；处理器，分别与所述收发器及所述存储器连接，配置为通过执行所述存储器上的计算机可执行指令，控制所述收发器的无线信号收发，并能够实现权利要求1-15或16-22中任一项所述的方法。

26.一种计算机存储介质，其中，所述计算机存储介质存储有计算机可执行指令；所述计算机可执行指令被处理器执行后，能够实现权利要求1-15或16-22中任一项所述的方法。