CN114360555A

CN114360555A - 音频处理方法、装置、电子设备及存储介质

Info

Publication number: CN114360555A
Application number: CN202111602396.3A
Authority: CN
Inventors: 郑羲光; 李楠; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-15

Abstract

本公开提供了一种音频处理方法、装置、电子设备及存储介质，所述音频处理方法包括：通过用于编码的自学习网络对输入音频信号进行编码；将编码后的音频信号划分为N个编码流，其中，N为大于1的整数；在所述N个编码流中以预设方式选择n个编码流置零，其中，n为0到N‑1中的任意一个整数；对所述N个编码流中置零后的剩余编码流进行量化和整合以生成整合的编码流；通过用于解码的自学习网络对整合的编码流进行解码以获得解码的音频信号；将解码的音频信号与所述输入音频信号进行对比并根据对比结果调整用于编码的自学习网络和用于解码的自学习网络。本公开的音频处理方法能够在低码率下实现高音质，并且能够应对恶劣的传输信道条件。

Description

音频处理方法、装置、电子设备及存储介质

技术领域

本公开涉及音频技术领域，尤其涉及一种音频处理方法、装置、电子设备及存储介质。

背景技术

音频处理一直是在线音频服务中备受关注的热点问题。相关技术中的基于自学习的音频编解码器在训练时采用具有自学习网络的编码器对音频信号进行信息压缩，通过传输信道传输压缩后的音频帧信号，然后在解码端通过相应的自学习网络从压缩的信息恢复原始音频信号。基于深度学习的音频编码器能够提升传统音频编码器在低码率下的性能，取得更高的音质。然而，由于实际场景下的传输信道带宽及丢包的影响，在传输信道出现抖动和大量丢包时，由于接收到的信息太少或完全缺失，基于自学习的音频解码器无法进行解码。

发明内容

本公开提供一种音频处理方法、装置、电子设备及存储介质，以至少解决相关技术中的丢包恢复的问题，也可不解决任何上述问题。

根据本公开的第一方面，提供了一种用于音频处理方法，包括：通过用于编码的自学习网络对输入音频信号进行编码；

将编码后的音频信号划分为N个编码流，其中，N为大于1的整数；

在所述N个编码流中以预设方式选择n个编码流置零，其中，n为0到N-1中的任意一个整数；对所述N个编码流中置零后的剩余编码流进行量化和整合以生成整合的编码流；通过用于解码的自学习网络对整合的编码流进行解码以获得解码的音频信号；将解码的音频信号与所述输入音频信号进行对比并根据对比结果调整用于编码的自学习网络和用于解码的自学习网络。

根据本公开的第一方面，所述通过用于编码的自学习网络对输入音频信号进行编码包括：通过用于编码的自学习网络将所述输入音频信号的音频帧的样点数量降维至预定维度，其中，降维后的音频信号的维度使得降维的音频信号在被解码之后得到的信号与所述输入音频信号之间的偏差小于或等于预设阈值。

根据本公开的第一方面，所述将编码后的音频信号划分为N个编码流包括通过以下方式之一对降维后的音频信号进行划分：将所述降维后的音频信号的音频帧的样点平均且不重叠地分配给所述N个编码流；将所述降维后的音频信号的音频帧的样点平均且有重叠地分配给所述N个编码流；将所述降维后的音频信号的音频帧的样点不平均且不重叠地分配给所述N个编码流；将所述降维后的音频信号的音频帧的样点不平均且有重叠地分配给所述N个编码流。

根据本公开的第一方面，用于解码的自学习网络包括第一解码器和第二解码器，其中，所述对整合的编码流进行解码以获得解码的音频信号包括：确定整合的编码流所包括的编码流的数量；响应于确定所包括的编码流的数量为所述N个，使用第一解码器对整合的编码流进行解码；响应于确定所包括的编码流的数量小于所述N个，使用第二解码器对整合的编码流进行解码。

根据本公开的第一方面，用于编码的自学习网络与用于解码的自学习网络具有相互对应的网络结构，所述将解码的音频信号与所述输入音频信号进行对比并根据对比结果调整音频编码器和用于解码的自学习网络包括：通过损失函数来调整音频编码器和用于解码的自学习网络，其中，所述损失函数包括在分别接收到1、2、…、N个编码流的情况下，通过解码得到的音频信号与输入音频信号之间的N个偏差值以及与每个偏差值相应的权重。

根据本公开的第一方面，所述通过解码得到的音频信号与输入音频信号的偏差值包括以下指标值中的一个：时域或频域的均方误差MSE、时域或频域的平均绝对误差MAE、时域或频域的均方对数误差MSLE、客观语音质量评估PESQ或客观感知收听质量评估POLQA。

根据本公开的第二方面，提供了一种音频处理方法，包括：使用用于编码的自学习网络对输入音频信号进行编码；将编码的音频信号划分为N个编码流，其中，N为大于1的整数；对所述N个编码流进行量化以产生N个音频编码流，其中，所述自学习网络是通过如上所述的方法得到的网络。

根据本公开的第二方面，使用用于编码的自学习网络的编码器对音频信号进行编码包括：将音频信号的音频帧的样点数量降维至预定维度，其中，降维后的音频信号的维度使得降维的音频信号在被解码之后得到的信号与所述输入音频信号之间的偏差小于或等于预设阈值。

根据本公开的第二方面，将编码的音频信号划分为N个编码流包括通过以下方式之一对降维后的音频信号进行划分：将所述降维后的音频信号的音频帧的样点平均且不重叠地分配给所述N个编码流；将所述降维后的音频信号的音频帧的样点平均且有重叠地分配给所述N个编码流；将所述降维后的音频信号的音频帧的样点不平均且不重叠地分配给所述N个编码流；将所述降维后的音频信号的音频帧的样点不平均且有重叠地分配给所述N个编码流。

根据本公开的第三方面，提供了一种音频处理方法，包括：从发送端接收音频编码流；对接收到的音频编码流进行整合；通过用于解码的自学习网络对整合的音频编码流进行解码，其中，所述接收到的音频编码流是从发送端发送的N个音频编码流中的至少一个，N为大于1的整数，所述N个音频编码流是通过由与所述用于解码的自学习网络对应的用于编码的自学习网络对音频信号进行编码并对编码后的音频信号进行分割而产生的，所述用于编码的自学习网络和所述用于解码的自学习网络是通过如上所述的方法得到的网络。

根据本公开的第三方面，用于解码的自学习网络包括第一解码器和第二解码器，所述对整合的音频编码流进行解码包括：确定整合的编码流所包括的编码流的数量；响应于确定整合的音频编码流包括N个音频编码流，使用第一解码器对整合的音频编码流进行解码；响应于确定整合的音频编码流包括少于N个音频编码流，使用第二解码器对整合的音频编码流进行解码。

根据本公开的第四方面，提供了一种音频处理装置，包括：编码单元，被配置为通过用于编码的自学习网络对输入音频信号进行编码；划分单元，被配置为将编码后的音频信号划分为N个编码流，其中，N为大于1的整数；选择单元，被配置为在所述N个编码流中以预设方式选择n个编码流置零，其中，n为0到N-1中的任意一个整数；整合单元，被配置为对所述N个编码流中置零后的剩余编码流进行量化和整合以生成整合的编码流；解码单元，被配置为通过用于解码的自学习网络对整合的编码流进行解码以获得解码的音频信号；训练单元，被配置为将解码的音频信号与输入音频信号进行对比并根据对比结果调整编码单元中的用于编码的自学习网络和解码单元中的用于解码的自学习网络。

根据本公开的第四方面，所述编码单元被配置为通过用于编码的自学习网络将输入音频信号的音频帧的样点数量降维至预定维度，其中，降维后的音频信号的维度使得降维的音频信号在被解码之后得到的信号与输入音频信号之间的偏差小于或等于预设阈值。

根据本公开的第四方面，所述划分单元被配置为通过以下方式之一对降维后的音频信号进行划分：将所述降维后的音频信号的音频帧的样点平均且不重叠地分配给所述N个编码流；将所述降维后的音频信号的音频帧的样点平均且有重叠地分配给所述N个编码流；将所述降维后的音频信号的音频帧的样点不平均且不重叠地分配给所述N个编码流；将所述降维后的音频信号的音频帧的样点不平均且有重叠地分配给所述N个编码流。

根据本公开的第四方面，所述解码单元包括第一解码器和第二解码器，解码单元被配置为：确定整合的编码流所包括的编码流的数量；响应于确定所包括的编码流的数量为所述N个，使用第一解码器对整合的编码流进行解码；响应于确定所包括的编码流的数量小于所述N个，使用第二解码器对整合的编码流进行解码。

根据本公开的第四方面，用于编码的自学习网络与用于解码的自学习网络具有相互对应的网络结构，训练单元被配置为通过损失函数来调整用于编码的自学习网络和用于解码的自学习网络，其中，所述损失函数包括在解码单元分别接收到1、2、…、N个编码流的情况下解码得到的音频信号与输入音频信号之间的N个偏差值以及与每个值偏差相应的权重。

根据本公开的第四方面所述通过解码得到的音频信号与输入音频信号的偏差值包括以下指标值中的一个：时域或频域的均方误差MSE、时域或频域的平均绝对误差MAE、时域或频域的均方对数误差MSLE、客观语音质量评估PESQ或客观感知收听质量评估POLQA。

根据本公开的第五方面，提供了一种音频处理装置，包括：编码单元，被配置为使用基于用于编码的自学习网络对音频信号进行编码；划分单元，被配置为将编码的音频信号划分为N个编码流，N为大于1的整数；量化单元，对所述N个编码流进行量化以产生N个音频编码流，其中，所述用于编码的自学习网络是通过如权利要求1-6中的任意一个权利要求所述的方法得到的网络。

根据本公开的第五方面，编码单元被配置为通过所述用于编码的自学习网络将输入音频信号的音频帧的样点数量降维至预定维度。

根据本公开的第五方面，划分单元被配置为通过以下方式之一对降维后的音频信号进行划分：将所述降维后的音频信号的音频帧的样点平均且不重叠地分配给所述N个编码流；将所述降维后的音频信号的音频帧的样点平均且有重叠地分配给所述N个编码流；将所述降维后的音频信号的音频帧的样点不平均且不重叠地分配给所述N个编码流；将所述降维后的音频信号的音频帧的样点不平均且有重叠地分配给所述N个编码流。

根据本公开的第六方面，提供了一种音频处理装置，包括：接收单元，被配置为从发送端接收音频编码流；整合单元，被配置为对接收到的音频编码流进行整合；解码单元，被配置为通过用于解码的自学习网络对整合的音频编码流进行解码，其中，所述接收到的音频编码流是从发送端发送的N个音频编码流中的至少一个，所述N个音频编码流是通过由与所述用于解码的自学习网络对应的用于编码的自学习网络对音频信号进行编码并对编码后的音频信号进行分割而产生的，所述用于编码的自学习网络和所述用于解码的自学习网络是通过如上所述的方法得到的网络。

根据本公开的第六方面，所述解码单元包括所述解码单元包括第一解码器和第二解码器，解码单元被配置为：确定整合的编码流所包括的编码流的数量；响应于确定所包括的编码流的数量为所述N个，使用第一解码器对整合的编码流进行解码；响应于确定所包括的编码流的数量小于所述N个，使用第二解码器对整合的编码流进行解码。

根据本公开的第七方面，提供了一种电子设备，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的音频处理方法。

根据本公开的第八方面，提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令由至少一个处理器执行时，使得所述至少一个处理器能够执行如上所述的音频处理方法。

根据本公开的第九方面，提供了一种计算机程序产品，所述计算机程序产品中的指令被至少一个处理器运行以执行如上所述的音频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：规避了相关技术的自学习网络编码不能很好应对网络抖动和丢包以及相关技术的多描述编码在低码率下音质低的劣势，通过将自学习网络编码生成的编码信号划分为多个编码流，能够提高编码信号的冗余度，同时通过自学习网络的训练来约束多个编码流所包含的原始音频信号信息，从而能够应对传输信道的抖动和丢包并且可以在较低码率下实现较高音质。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出实施根据本公开的示例性实施例的音频处理方法的系统环境的示图。

图2是示出根据本公开的示例性实施例的用于音频处理方法的流程图。

图3是示出根据本公开的示例性实施例的用于音频编解码器的训练过程的示意图。

图4是示出根据本公开的示例性实施例的自学习网络的结构示意图。

图5是示出根据本公开的另一示例性实施例的用于音频编解码器的训练过程的示意图。

图6是示出根据本公开的示例性实施例的音频处理方法的编码过程和音频处理方法的解码过程的示意图。

图7示出根据本公开的另一示例性实施例的音频处理方法的编码过程和音频处理方法的解码过程的示意图。

图8是示出根据本公开的示例性实施例的音频处理方法的流程图。

图9是示出根据本公开的示例性实施例的音频处理方法的流程图。

图10是示出根据本公开的示例性实施例的音频处理装置的框图。

图11是示出根据本公开的示例性实施例的音频处理装置的框图。

图12是示出根据本公开的示例性实施例的音频处理装置的框图。

图13是示出根据本公开的示例性实施例的用于音频处理的电子设备的示意图。

图14是示出根据本公开的另一示例性实施例的用于音频处理的电子设备的示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

在对本公开的实施例进行详细说明以前，先对本公开的实施例可能涉及到的一些术语或缩略语进行说明。

图1是示出实施根据本公开的示例性实施例的音频处理方法的系统环境的示图。该环境例如可以由用户使用的终端设备100和服务器200以及连接终端设备和服务器的网络构成。

如图1所示，终端设备100可以是具有音视频处理功能的终端设备，例如，本公开实施例中的终端设备100可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、上网本、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备。在终端设备100上可运行各种音视频应用，诸如直播应用、社交应用、视频会议应用等。当终端设备100在运行这些应用时，可采集由用户生成的语音，并对采集的语音进行预处理之后编码生成包括音频包的音频编码流，然后通过网络与服务器200连接并进行通信，从而使用由服务器200将音频编码流提供给其他终端设备100。根据本公开的示例性实施例的终端设备100上可包括用于音频编解码的音频编解码器，在音频编解码器中可实现根据本公开的示例性实施例的基于自学习网络的音频编解码方法。这里，可首先通过在模拟环境下对音频编码器的自学习网络进行训练，然后使用训练好的自学习网络来在音频编解码器中执行编码和解码。

下面将参照图2-图4来说明根据本公开的各种示例性实施例的音频处理方法。

图2是示出根据本公开的示例性实施例的音频处理方法的流程图。图3示出了根据本公开的示例性实施例的用于音频编解码器的训练过程的示意图。图4示出了根据本公开的示例性实施例的自学习网络的结构示意图。

如图2所示，首先，在步骤S210，通过用于编码的自学习网络对原始音频信号进行编码。如图3所示，在编码器端可具有基于人工智能的自学习网络。该自学习网络的结构可以如图4的左侧所示。根据本公开的示例性实施例的自学习网络可包括多个二维卷积层和多个池化层。例如，二维卷积层可具有如下表1所示的超参数。

表1

层	滤波器数量	核心	步长
				卷积层1	32	(6,2)	(2,1)
卷积层2	32	(6,2)	(2,1)
				卷积层3	64	(7,2)	(2,1)
卷积层4	64	(6,2)	(2,1)
				卷积层5	96	(6,2)	(2,1)
卷积层6	96	(6,2)	(2,1)
				卷积层7	128	(2,2)	(2,1)
卷积层8	256	(2,2)	(1,1)

通过如上所述的自学习网络，编码器可将音频信号的每一帧的维度减少至预定维度，从而实现对音频信号的压缩。例如，假设音频信号的一个音频帧长度为1024个样点，则在经过编码器的自学习网络进行降维之后，输出的降维后的音频信号为一个小于1024点的向量。

根据本公开的示例性实施例，降维后的音频信号的维度使得降维的音频信号在被解码之后得到的信号与原始音频信号之间的偏差小于或等于预设的阈值。例如，可设置原始信号与降维后的音频信号的样点值之间的差与原始信号的样点值之间的比值应该小于或等于超过一个预先设置的阈值。降维后的音频信号的维度可通过实验来确定。即，逐步降低编码器输出的音频信号的向量维度，直到解码器解码得到的输出音频信号与输入到编码器的音频信号之间的偏差超过预设的阈值。可通过损失函数来计算输出音频信号与输入音频信号之间的偏差，稍后将对损失函数进行更详细的说明。这里，假设经过实验确定编码器的输出为128维可以满足解码后的精度要求，则通过编码器可以将一个1024维的信号压缩到128维。

接下来，在步骤S220，将编码后的音频信号划分为N个编码流，其中，N为大于1的整数。这里，可通过分割器将压缩后的音频信号分成预定数量的N份，即，生成多描述编码(Multiple Description Code,MDC)流。

根据本公开的示例性实施例，可采用多种形式来划分音频信号。例如，通过以下四种方式之一对降维后的音频信号进行划分：1、将降维后的音频信号的音频帧的样点平均且不重叠地分配给所述N个编码流；2、将降维后的音频信号的音频帧的样点平均且有重叠地分配给所述N个编码流；3、将降维后的音频信号的音频帧的样点不平均且不重叠地分配给所述N个编码流；4、将降维后的音频信号的音频帧的样点不平均且有重叠地分配给所述N个编码流。前两种方式为平衡式划分，后两种方式为不平衡式划分。

以将降维后的128维音频信号划分为两个MDC流为例，在第一种方式中，可以将音频信号的第1维至第64维分配给MDC1，将第65维至第128维分配给MDC2。在第二种方式中，可以将第1维至第96维分配给MDC1，将第33维至128维分配给MDC2。在第三种方式中，可将第1维至第96维分配给MDC1，将第97维至第128维分配给MDC2。在第四种方式中，可将第1维至第96维分配给MDC1，将第65维至第128维分配给MDC2。这里不对划分音频信号的方式进行限定。

然后，在步骤S230，从所述N个编码流中以预设方式选择n个编码流置零，其中，n为0到N-1中的任意一个整数。

根据本公开的示例性实施例，可引入一个选择模块，通过预先设定的模式(例如随机模式)，对N个编码流中的预定数量的编码流进行置零操作。也就是说，可以针对每个音频帧的预定数量的MDC流执行不同的置零操作。

接下来，在步骤S240，对所述N个编码流中置零后的剩余编码流进行量化和整合以生成整合的编码流。

如图3所示，在分割器将编码的音频信号划分为N个编码流(例如，多描述编码流MDC 1-多描述编码流MDC N)之后，可通过随机选择器、量化器和整合器来执行上述的操作S230和S240，从而生成整合的编码流输入到解码器端。

然后，在步骤S250，通过用于解码的自学习网络对整合的编码流进行解码以获得解码的音频信号。

用于解码的自学习网络可以具有与编码器中的自学习网络相互对应的结构，从而保证解码端可以完全地恢复由编码器端的自学习网络压缩得到的编码信号。也就是说，两个网络可具有对应的分层结构，也可以采用相同的网络参数。例如，如图4所示，在解码器端的自学习网络可具有与编码器端的自学习网络相同数量的二维卷积层(Conv2DTranspose)以及与池化层对应的上采样层，并且采用Softmax函数作为输出。

最后，在步骤S260，将解码的音频信号与输入音频信号进行对比并根据对比结果调整用于编码的自学习网络和用于解码的自学习网络。根据本公开的示例性实施例，可通过预先设计的损失函数来调整音频编码器和用于解码的自学习网络的各种参数，直至损失函数收敛。根据本公开的示例性实施例，损失函数可包括在分别接收到1、2、…、N个编码流的情况下，通过解码得到的音频信号与输入音频信号之间的N个偏差值以及与每个偏差值相应的权重。例如，可通过如以下等式来计算损失函数L：

L＝w₁·Loss₁+…+w_N·Loss_N

其中，w为权重，Loss为损失函数，角标1～N为收到n个(1≤n≤N)MDC流后恢复的音频信号与原始音频信号的差距。

这里，损失函数可以采用以下方式中的任意一个来表示：

(1)均方误差(MSE)(时域或频域)

其中，S_ori(n)表示原始音频信号序列，S_decoded(n)表示解码恢复后的音频信号序列，MSE_time表示时域的损失，MSE_frequency表示频域的损失，S(i,j)＝STFT(S(n))，i为帧序列索引，j为频率序列索引。

(2)均方误差(MAE)(时域或频域)

其中，S_ori(n)表示原始音频信号序列，S_decoded(n)表示解码恢复后的音频信号序列，MAE_time表示时域的损失，MAE_frequency表示频域的损失，S(i,j)＝STFT(S(n))，i为帧序列索引，j为频率序列索引。

(3)均方对数误差(MSLE)(时域或频域)

其中，S_ori(n)表示原始音频信号序列，S_decoded(n)表示解码恢复后的音频信号序列，MSLE_time表示时域的损失，MSLE_frequency表示频域的损失，S(i,j)＝STFT(S(n))，i为帧序列索引，j为频率序列索引。

(4)PESQ(客观语音质量评估，Perceptual Evaluation of Speech Quality)

ITU-T P.862建议书提供的客观MOS值评价方法。

(5)POLQA(客观感知收听质量评估，Perceptual Objective Listening QualityAssessment)

POLQA算法是新一代语音质量评估标准，适用于固网、移动通信网络和IP网络中的语音质量评估。POLQA被ITU-T确定为推荐规范P.863，可用于高清语音、3G、4G/VoLTE、5G网络语音质量评估。

根据以上方式设计的损失函数，可以按照应用需求或者网络丢包统计灵活调整接收到不同数量的包时的音频质量。例如，针对两路MDC的情况，如果接收到两路信号则可以完美恢复原始信号，如果接收到任意一路则恢复低质量的原始信号。在这里由于实际网络输出均不可能达到完美，所以可能的选择为：需要设计优先保证两路都收到时必须完美恢复原始信号则w1＝0.2，w2＝0.8；需要设计优先保证收到任意一路时达到最优则w1＝0.8，w2＝0.2。

应理解，以上的损失函数仅是示意性的，本领域的技术人员可根据需要采用其他类型的损失函数。

通过如上的训练过程，可以实现一种多描述的深度语音编解码器，通过自学习约束多个描述包含的原始音频信号信息，充分发挥自学习网络编码和多描述编码的优点，规避了相关技术的自学习网络编码不能很好应对网络抖动和丢包以及相关技术的多描述编码在低码率下音质低的劣势，实现更高质量和效率的音频编码。

图5是示出根据本公开的另一示例性实施例的用于音频编解码器的训练过程的示意图。图5的训练过程与图3的训练过程类似，不同之处在于采用了两个解码器，一个解码器(中心解码器)在接收到全部编码流的情况下处理整合的编码流，另一个解码器(旁路解码器)在接收到部分编码流的情况下处理整合的编码流。为此，如图5所示，可以将全部的编码流直接输入量化器和整合器之后通过中心解码器对整合的编码流进行解码，将全部编码流通过随机选择模块以预定方式选择部分编码流进行量化和整合，并通过旁路解码器对整合的编码流进行解码。

也就是说，根据本公开的示例性实施例，用于解码的自学习网络包括第一解码器和第二解码器，步骤S250可包括：确定整合的编码流所包括的编码流的数量；响应于确定所包括的编码流的数量为所述N个(即，包括编码器端生成的全部编码流)，使用第一解码器对整合的编码流进行解码；响应于确定所包括的编码流的数量小于所述N个(即，仅包括生成的编码流中的部分的编码流)，使用第二解码器对整合的编码流进行解码。

采用两个解码器可以使解码器输入形式及涵盖信息量更加统一。在使用多个解码器时，由于每个解码器的输入的编码流数量一样(涵盖信息量一致)所以可以针对接收到不同数量的编码流都达到最优解码效果。

在如图3和图5所示训练好了编码器和解码器中的自学习网络之后，可使用训练好的编解码器来对音频信号进行编码和解码。

图6和图7是示出根据本公开的示例性实施例的音频处理方法的编码过程和音频处理方法的解码过程的示意图。

与图3和图5所示出的训练过程类似，在推理阶段(即，编码和解码阶段)，在发送端，首先通过编码器中的自学习网络对音频信号进行编码，并通过分割器将编码后的音频信号划分为多个多描述编码(MDC)流并进行量化。划分和量化后的MDC流通过不同的传输信道被发送给接收端。在接收端，通过整合器将接收到的MDC流整合之后提供给解码器，解码器使用训练好的自学习网络对整合的编码流进行解码，从而得到解码的音频信号。这里，由于传输信道的通信条件的变化，可能造成通过传输信道传输的多个MDC流中的至少一部分或者全部MDC流被接收端接收到，并通过整合器被整合形成整合的编码流。训练好的解码器的自学习网络对整合的编码流执行解码。参照如上图3和图4所描述的，由于编解码器在相同的约束条件下针对不同的整合的编码流的情况被训练，所以解码器可在不同的信道条件下都能较为准确地恢复出音频信号，从而实现多描述编码应对恶劣信道条件的优点。图6所示出的解码器与图3对应，即，采用一个解码器来对所有情况下的整合编码流进行解码，而图7所示出的解码器与图5对应，即，采用两个解码器(即，中心解码器和旁路解码器)，一个解码器在接收到全部编码流的情况下处理整合的编码流，另一个解码器在接收到部分编码流的情况下处理整合的编码流。

图8示出了根据本公开的示例性实施例的音频处理方法的流程图。

如图8所示，首先，在步骤S810，使用自学习网络对音频信号进行编码。这里，自学习网络可以是如上参照图2-图5说明的训练方法训练得到的自学习网络。

接下来，在步骤S820，将编码的音频信号划分为N个编码流，N为大于1的整数。也就是说，N可以是训练好的自学习网络所采用的划分编码流的个数。

然后，在步骤S830，对所述N个编码流进行量化以产生N个音频编码流，并可将产生的N个音频编码流通过传输信道分别发送到接收端以进行解码。

根据本公开的示例性实施例，使用基于自学习网络的编码器对音频信号进行编码可包括将音频信号的音频帧的样点数量降维至预定维度。

根据本公开的示例性实施例，将编码的音频信号划分为N个编码流可包括通过以下方式之一对降维后的音频信号进行划分：将所述降维后的音频信号的音频帧的样点平均且不重叠地分配给所述N个编码流；将所述降维后的音频信号的音频帧的样点平均且有重叠地分配给所述N个编码流；将所述降维后的音频信号的音频帧的样点不平均且不重叠地分配给所述N个编码流；将所述降维后的音频信号的音频帧的样点不平均且有重叠地分配给所述N个编码流。

步骤S820的降维过程与图2中S220的降维过程基本相同，因此在此不再重复说明。

图9示出了根据本公开的示例性实施例的音频处理方法的流程图。

如图9所示，首先，在步骤S910，从发送端接收音频编码流。这里，接收到的音频编码流可以是从发送端发送的N个音频编码流中的至少一个。这里，N个音频编码流可以是通过由用于编码的自学习网络对音频信号进行编码并对编码后的音频信号进行分割而产生的，N为大于1的整数。以上已经参照图2-图5对编码和分割的过程进行了描述，在此不再重复。

接下来，在步骤S920，对接收到的音频编码流进行整合。这里，已经参照图2-图5对整合的过程进行了说明，在此不再重复。

最后，在步骤S930，可通过用于解码的自学习网络对整合的音频编码流进行解码，其中，以上所述的用于编码的自学习网络和用于解码的自学习网络是对应的深度神经网络，并且是通过以上参照图2-图5所描述的训练方法训练得到的网络。

根据本公开的示例性实施例，用于解码的自学习网络包括第一解码器和第二解码器，所述对整合的音频编码流进行解码包括：响应于确定所包括的编码流的数量为所述N个，使用第一解码器对整合的音频编码流进行解码；响应于确定所包括的编码流的数量小于所述N个，使用第二解码器对整合的音频编码流进行解码。

如图10所示，音频处理装置1000包括：编码单元1010、划分单元1020、选择单元1030、整合单元1040、解码单元1050和训练单元1060。

编码单元1010被配置为通过用于编码的自学习网络对输入音频信号进行编码。

划分单元1020被配置为将编码后的音频信号划分为N个编码流，其中，N为大于1的整数。

选择单元1030被配置为在所述N个编码流中以预定方式选择n个编码流置零，其中，n为0到N-1中的任意一个整数。例如，可引入一个随机选择模块，通过预先设定的随机模式，随机地对N个编码流进行置零操作。

整合单元1040被配置为对所述N个编码流中置零后的剩余编码流进行量化和整合以生成整合的编码流。

解码单元1050被配置为通过用于解码的自学习网络对整合的编码流进行解码以获得解码的音频信号。

训练单元1060被配置为将解码的音频信号与输入音频信号进行对比并根据对比结果调整编码单元中的用于编码的自学习网络和解码单元中的用于解码的自学习网络。

根据本公开的示例性实施例，编码单元1010被配置为通过用于编码的自学习网络将输入音频信号的音频帧的样点数量降维至预定维度，其中，降维后的音频信号的维度使得降维的音频信号在被解码之后得到的信号与输入音频信号之间的偏差小于或等于预设阈值。

根据本公开的示例性实施例，划分单元1020被配置为通过以下方式之一对降维后的音频信号进行划分：将所述降维后的音频信号的音频帧的样点平均且不重叠地分配给所述N个编码流；将所述降维后的音频信号的音频帧的样点平均且有重叠地分配给所述N个编码流；将所述降维后的音频信号的音频帧的样点不平均且不重叠地分配给所述N个编码流；将所述降维后的音频信号的音频帧的样点不平均且有重叠地分配给所述N个编码流。

根据本公开的示例性实施例，解码单元1050可包括第一解码器和第二解码器，其中，解码单元1050可被配置为：确定整合的编码流所包括的编码流的数量；响应于确定整合的编码流所包括的编码流的数量为所述N个，由第一解码器对整合的编码流进行解码；响应于确定整合的编码流所包括的编码流的数量小于所述N个，由第二解码器对整合的编码流进行解码。

根据本公开的示例性实施例，用于编码的自学习网络与用于解码的自学习网络具有相互对应的网络结构，训练单元1060被配置为通过损失函数来调整用于编码的自学习网络和用于解码的自学习网络，其中，所述损失函数包括在解码单元分别接收到1、2、…、N个编码流的情况下，解码得到的音频信号与输入音频信号之间的N个偏差值以及与每个偏差值相应的权重。

根据本公开的示例性实施例，解码得到的音频信号与输入音频信号的偏差值包括以下指标值中的一个：时域或频域的均方误差MSE、时域或频域的平均绝对误差MAE、时域或频域的均方对数误差MSLE、客观语音质量评估PESQ或客观感知收听质量评估POLQA。

以上已经参照图2-图5对训练装置的各个单元的操作进行了详细说明，在此不再进行重复说明。

如图11所示，音频处理装置1100包括：编码单元1110、划分单元1120和量化单元1130。

编码单元1110被配置为基于自学习网络对音频信号进行编码。

划分单元1120被配置为将编码的音频信号划分为N个编码流，N为大于1的整数。

量化单元1130被配置为对所述N个编码流进行量化以产生N个音频编码流，其中，自学习网络是通过以上参照图2-图5所述的训练方法训练得到的网络。

根据本公开的示例性实施例，编码单元1110被配置为通过自学习网络将输入音频信号的音频帧的样点数量降维至预定维度。

根据本公开的示例性实施例，划分单元1120被配置为通过以下方式之一对降维后的音频信号进行划分：将所述降维后的音频信号的音频帧的样点平均且不重叠地分配给所述N个编码流；将所述降维后的音频信号的音频帧的样点平均且有重叠地分配给所述N个编码流；将所述降维后的音频信号的音频帧的样点不平均且不重叠地分配给所述N个编码流；将所述降维后的音频信号的音频帧的样点不平均且有重叠地分配给所述N个编码流。

编码单元1110、划分单元1120和量化单元1130所执行操作与以上参照图2-图5说明的编码、分割和量化过程基本相同，在此不再进行重复说明。

如图12所示，音频处理装置1200包括：接收单元1210、整合单元1220和解码单元1230。

接收单元1210被配置为从发送端接收音频编码流。

整合单元1220被配置为对接收到的音频编码流进行整合。

解码单元1230被配置为通过用于解码的自学习网络对整合的音频编码流进行解码。

这里，接收到的音频编码流是从发送端发送的N个音频编码流中的至少一个。发送端可采用以上参照图2-图5说明的方式来产生N个编码流，即，所述N个音频编码流可以是通过由与用于解码的自学习网络对应的用于编码的自学习网络对音频信号进行编码并对编码后的音频信号进行分割而产生的。根据本公开的示例性实施例，用于编码的自学习网络和用于解码的自学习网络是通过参照图2-图5说明的训练方法训练得到的网络。

根据本公开的示例性实施例，解码单元1230可包括第一音频解码器和第二音频解码器，并且解码单元1230可被配置为：确定整合的编码流所包括的编码流的数量；响应于确定整合的音频编码流所包括的音频编码流的数量为所述N个，使用第一音频解码器对整合的音频编码流进行解码；响应于确定整合的音频编码流所包括的音频编码流的数量小于所述N个，使用第二音频解码器对整合的音频编码流进行解码。

图13是示出根据本公开的示例性实施例的一种用于训练音频编解码器和/或用于音频处理的电子设备1300的结构框图。该电子设备1300例如可以是：智能手机、平板电脑、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备1300还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，电子设备1300包括有：处理器1301和存储器1302。

处理器1301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1301可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1301还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1302中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1301所执行以实现本公开的方法。

在一些实施例中，电子设备1300还可选包括有：外围设备接口1303和至少一个外围设备。处理器1301、存储器1302和外围设备接口1303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1303相连。具体地，外围设备包括：射频电路1304、触摸显示屏1305、摄像头1306、音频电路1307、定位组件1308和电源1309中的至少一种。

外围设备接口1303可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1301和存储器1302。在一些实施例中，处理器1301、存储器1302和外围设备接口1303被集成在同一芯片或电路板上；在一些其他实施例中，处理器1301、存储器1302和外围设备接口1303中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1304用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1304将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1304包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1304还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏1305用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1305是触摸显示屏时，显示屏1305还具有采集在显示屏1305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1301进行处理。此时，显示屏1305还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1305可以为一个，设置在电子设备1300的前面板；在另一些实施例中，显示屏1305可以为至少两个，分别设置在电子设备1300的不同表面或呈折叠设计；在再一些实施例中，显示屏1305可以是柔性显示屏，设置在电子设备1300的弯曲表面上或折叠面上。甚至，显示屏1305还可以设置成非矩形的不规则图形，也即异形屏。显示屏1305可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1306用于采集图像或视频。可选地，摄像头组件1306包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1306还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1301进行处理，或者输入至射频电路1304以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备1300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1301或射频电路1304的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1307还可以包括耳机插孔。

定位组件1308用于定位电子设备1300的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件1308可以是基于美国的GPS(Global Positioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1309用于为电子设备1300中的各个组件进行供电。电源1309可以是交流电、直流电、一次性电池或可充电电池。当电源1309包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备1300还包括有一个或多个传感器910。该一个或多个传感器1310包括但不限于：加速度传感器1311、陀螺仪传感器1312、压力传感器1313、指纹传感器1314、光学传感器1315以及接近传感器1316。

加速度传感器1311可以检测以电子设备1300建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1311可以用于检测重力加速度在三个坐标轴上的分量。处理器1301可以根据加速度传感器1311采集的重力加速度信号，控制触摸显示屏1305以横向视图或纵向视图进行用户界面的显示。加速度传感器1311还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1312可以检测电子设备1300的机体方向及转动角度，陀螺仪传感器1312可以与加速度传感器1311协同采集用户对电子设备1300的3D动作。处理器1301根据陀螺仪传感器1312采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1313可以设置在电子设备1300的侧边框和/或触摸显示屏1305的下层。当压力传感器1313设置在电子设备1300的侧边框时，可以检测用户对电子设备1300的握持信号，由处理器1301根据压力传感器1313采集的握持信号进行左右手识别或快捷操作。当压力传感器1313设置在触摸显示屏1305的下层时，由处理器1301根据用户对触摸显示屏1305的压力操作，实现对UI上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1314用于采集用户的指纹，由处理器1301根据指纹传感器1314采集到的指纹识别用户的身份，或者，由指纹传感器1314根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1301授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1314可以被设置电子设备1300的正面、背面或侧面。当电子设备1300上设置有物理按键或厂商Logo时，指纹传感器1314可以与物理按键或厂商Logo集成在一起。

光学传感器1315用于采集环境光强度。在一个实施例中，处理器1301可以根据光学传感器1315采集的环境光强度，控制触摸显示屏1305的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1305的显示亮度；当环境光强度较低时，调低触摸显示屏1305的显示亮度。在另一个实施例中，处理器1301还可以根据光学传感器1315采集的环境光强度，动态调整摄像头组件1306的拍摄参数。

接近传感器1316，也称距离传感器，通常设置在电子设备1300的前面板。接近传感器1316用于采集用户与电子设备1300的正面之间的距离。在一个实施例中，当接近传感器1316检测到用户与电子设备1300的正面之间的距离逐渐变小时，由处理器1301控制触摸显示屏1305从亮屏状态切换为息屏状态；当接近传感器1316检测到用户与电子设备1300的正面之间的距离逐渐变大时，由处理器1301控制触摸显示屏1305从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图13中示出的结构并不构成对电子设备1300的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图14所示为另一种电子设备1400的结构框图。例如，电子设备1400可以被提供为一服务器。参照图14，电子设备1400包括一个或多个处理处理器1410以及存储器1420。存储器1420可以包括用于执行以上的音频编解码器训练方法和/或音频处理方法的一个或一个以上的程序。电子设备1400还可以包括一个电源组件1430被配置为执行电子设备1400的电源管理，一个有线或无线网络接口1440被配置为将电子设备1400连接到网络和输入输出(I/O)接口1450。电子设备1400可以操作基于存储在存储器1420的操作系统，例如WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM或类似。

根据本公开的实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的音频编解码器训练方法和/或音频处理方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例中，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成上述的音频编解码器训练方法和/或音频处理方法。

根据本公开的音频处理方法、装置以及相应的电子设备和存储介质提供了一种基于多描述的自学习语音编解码器，能够通过自学习约束多个编码流所包含的原始音频信号信息，能够应对传输信道的抖动和丢包并且可以在较低码率下实现较高音质。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种用于音频处理方法，其特征在于，包括：

通过用于编码的自学习网络对输入音频信号进行编码；

在所述N个编码流中以预设方式选择n个编码流置零，其中，n为0到N-1中的任意一个整数；

对所述N个编码流中置零后的剩余编码流进行量化和整合以生成整合的编码流；

通过用于解码的自学习网络对整合的编码流进行解码以获得解码的音频信号；

将解码的音频信号与所述输入音频信号进行对比并根据对比结果调整用于编码的自学习网络和用于解码的自学习网络。

2.如权利要求1所述的方法，其特征在于，所述通过用于编码的自学习网络对输入音频信号进行编码包括：通过用于编码的自学习网络将所述输入音频信号的音频帧的样点数量降维至预定维度，

其中，降维后的音频信号的维度使得降维的音频信号在被解码之后得到的信号与所述输入音频信号之间的偏差小于或等于预设阈值。

3.如权利要求2所述的方法，其特征在于，所述将编码后的音频信号划分为N个编码流包括通过以下方式之一对降维后的音频信号进行划分：

将所述降维后的音频信号的音频帧的样点平均且不重叠地分配给所述N个编码流；

将所述降维后的音频信号的音频帧的样点平均且有重叠地分配给所述N个编码流；

将所述降维后的音频信号的音频帧的样点不平均且不重叠地分配给所述N个编码流；

将所述降维后的音频信号的音频帧的样点不平均且有重叠地分配给所述N个编码流。

4.一种音频处理方法，其特征在于，包括：

使用用于编码的自学习网络对输入音频信号进行编码；

将编码的音频信号划分为N个编码流，其中，N为大于1的整数；

对所述N个编码流进行量化以产生N个音频编码流，

其中，所述自学习网络是通过如权利要求1-3中的任意一个权利要求所述的方法得到的网络。

5.一种音频处理方法，其特征在于，包括：

从发送端接收音频编码流；

对接收到的音频编码流进行整合；

通过用于解码的自学习网络对整合的音频编码流进行解码，

其中，所述接收到的音频编码流是从发送端发送的N个音频编码流中的至少一个，N为大于1的整数，

所述N个音频编码流是通过由与所述用于解码的自学习网络对应的用于编码的自学习网络对音频信号进行编码并对编码后的音频信号进行分割而产生的，

所述用于编码的自学习网络和所述用于解码的自学习网络是通过如权利要求1-3中的任意一个权利要求所述的方法得到的网络。

6.一种音频处理装置，其特征在于，包括：

编码单元，被配置为通过用于编码的自学习网络对输入音频信号进行编码；

划分单元，被配置为将编码后的音频信号划分为N个编码流，其中，N为大于1的整数；

选择单元，被配置为在所述N个编码流中以预设方式选择n个编码流置零，其中，n为0到N-1中的任意一个整数；

整合单元，被配置为对所述N个编码流中置零后的剩余编码流进行量化和整合以生成整合的编码流；

解码单元，被配置为通过用于解码的自学习网络对整合的编码流进行解码以获得解码的音频信号；

训练单元，被配置为将解码的音频信号与输入音频信号进行对比并根据对比结果调整编码单元中的用于编码的自学习网络和解码单元中的用于解码的自学习网络。

7.一种音频处理装置，其特征在于，包括：

编码单元，被配置为使用基于用于编码的自学习网络对音频信号进行编码；

划分单元，被配置为将编码的音频信号划分为N个编码流，N为大于1的整数；

量化单元，对所述N个编码流进行量化以产生N个音频编码流，

其中，所述用于编码的自学习网络是通过如权利要求1-3中的任意一个权利要求所述的方法得到的网络。

8.一种音频处理装置，其特征在于，包括：

接收单元，被配置为从发送端接收音频编码流；

整合单元，被配置为对接收到的音频编码流进行整合；

解码单元，被配置为通过用于解码的自学习网络对整合的音频编码流进行解码，

其中，所述接收到的音频编码流是从发送端发送的N个音频编码流中的至少一个，所述N个音频编码流是通过由与所述用于解码的自学习网络对应的用于编码的自学习网络对音频信号进行编码并对编码后的音频信号进行分割而产生的，所述用于编码的自学习网络和所述用于解码的自学习网络是通过如权利要求1-3中的任意一个权利要求所述的方法得到的网络。

9.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到3中的任一权利要求所述的音频处理方法、如权利要求4所述的音频处理方法和/或如权利要求5所述的音频处理方法。

10.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由至少一个处理器执行时，使得所述至少一个处理器能够执行如权利要求1到3中的任一权利要求所述的音频处理方法、如权利要求4所述的音频处理方法和/或如权利要求5所述的音频处理方法。