CN113035211A

CN113035211A - 音频压缩方法、音频解压缩方法及装置

Info

Publication number: CN113035211A
Application number: CN202110266469.XA
Authority: CN
Inventors: 乔宏利; 王洪斌; 蒋宁; 吴海英
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd; Mashang Consumer Finance Co Ltd
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-06-25
Anticipated expiration: 2041-03-11
Also published as: CN113035211B

Abstract

本发明提供一种音频压缩方法、音频解压缩方法及装置，该方法包括：将预设编码格式的音频数据进行分片，得到N个音频片段；分别将每个所述音频片段输入预先训练的音频压缩网络，得到每个所述音频片段对应的音频压缩特征矩阵和音频时序特征向量，其中，所述音频压缩网络包括带残差的卷积神经网络和深层循环神经网络；按序将每个所述音频片段对应的所述音频压缩特征矩阵和所述音频时序特征向量拼接，得到音频压缩数据。通过本发明提供的音频压缩方法，可以提高音频压缩比的稳定性，并可以实现音频片段的流式压缩，便于压缩音频的流式传输。

Description

音频压缩方法、音频解压缩方法及装置

技术领域

本发明涉及音频处理技术领域，尤其涉及一种音频压缩方法、音频解压缩方法及装置。

背景技术

目前，音频压缩通常是基于结构化编码的方式实现，例如，mp3(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)，然而，这种音频压缩方式的压缩比与待压缩音频数据的相关性较大，不同内容特点的音频数据，其压缩比差异较大，例如，对于内容变化较小的音频数据，其压缩比较大，而对于内容变化较为丰富的音频数据，其压缩比较小。

可见，现有的基于结构化编码的音频压缩方式存在压缩比稳定性较差的问题。

发明内容

本发明实施例提供一种音频压缩方法、音频解压缩方法及装置，以解决现有的基于结构化编码的音频压缩方式的压缩比稳定性较差的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种音频压缩方法。该方法包括：

将预设编码格式的音频数据进行分片，得到N个音频片段，N为大于1的整数；

分别将每个所述音频片段输入预先训练的音频压缩网络，得到每个所述音频片段对应的音频压缩特征矩阵和音频时序特征向量，其中，所述音频压缩网络包括带残差的卷积神经网络和深层循环神经网络，所述带残差的卷积神经网络对输入的所述音频片段压缩处理后输出所述音频压缩特征矩阵，所述深层循环神经网络对输入的所述音频片段处理后得到所述音频时序特征向量；

按序将每个所述音频片段对应的所述音频压缩特征矩阵和所述音频时序特征向量拼接，得到音频压缩数据。

第二方面，本发明实施例提供了一种音频解压缩方法。该方法包括：

获取目标音频压缩数据，其中，所述音频压缩数据为根据上述的音频压缩方法压缩得到的音频压缩数据；

按照第一预设长度将所述目标音频压缩数据进行分片，得到S个音频压缩片段，其中，S为大于1的整数；

分别获取所述S个音频压缩片段中每个音频压缩片段的音频压缩特征矩阵和音频时序特征向量；

分别将所述S个音频压缩片段中每个音频压缩片段的音频压缩特征矩阵和音频时序特征向量输入预先训练的音频解压缩网络，得到预测的S个音频片段，其中，所述音频解压缩网络包括带残差的膨胀卷积网络、转置层、concat网络层和全连接网络层，所述带残差的膨胀卷积网络用于对输入的音频压缩特征矩阵进行膨胀卷积，所述转置层用于对所述带残差的膨胀卷积网络输出的特征矩阵进行转置并输出转置矩阵，所述concat网络层用于将输入的音频时序特征向量和所述转置层输出的转置矩阵进行拼接，所述全连接网络层用于基于所述concat网络层输出的特征矩阵输出预测的音频片段；

将所述S个音频片段按序拼接，得到解压后的音频数据。

第三方面，本发明实施例提供了一种模型训练方法。该方法包括：

获取P个音频样本，其中，P为大于1的整数，所述P个音频样本中的每个音频样本均为预设编码格式的音频数据；

基于所述P个音频样本对音频压缩网络和音频解压缩网络进行迭代训练，直至所述音频压缩网络输入的音频样本和所述音频解压缩网络输出的预测音频之间的均方差损失最小化；

其中，所述目标网络包括音频压缩网络和音频解压缩网络，所述音频压缩网络包括带残差的卷积神经网络和深层循环神经网络，所述带残差的卷积神经网络用于对输入的音频样本进行压缩并输出音频压缩特征矩阵，所述深层循环神经网络用于提取输入的音频样本的音频时序特征向量；

所述音频解压缩网络包括带残差的膨胀卷积网络、转置层、concat网络层和全连接网络层，所述带残差的膨胀卷积网络用于对所述带残差的卷积神经网络输出的音频压缩特征矩阵进行膨胀卷积，所述转置层用于对所述带残差的膨胀卷积网络输出的特征矩阵进行转置并输出转置矩阵，所述concat网络层用于将所述深层循环神经网络输出的音频时序特征向量和所述转置层输出的转置矩阵进行拼接，所述全连接网络层用于基于所述concat网络层输出的特征矩阵输出预测音频。

第四方面，本发明实施例还提供一种音频压缩装置。该音频压缩装置包括：

第一分片模块，用于将预设编码格式的音频数据进行分片，得到N个音频片段，N为大于1的整数；

第一输入模块，用于分别将每个所述音频片段输入预先训练的音频压缩网络，得到每个所述音频片段对应的音频压缩特征矩阵和音频时序特征向量，其中，所述音频压缩网络包括带残差的卷积神经网络和深层循环神经网络，所述带残差的卷积神经网络对输入的所述音频片段压缩处理后输出所述音频压缩特征矩阵，所述深层循环神经网络对输入的所述音频片段处理后得到所述音频时序特征向量；

第一拼接模块，用于按序将每个所述音频片段对应的所述音频压缩特征矩阵和所述音频时序特征向量拼接，得到音频压缩数据。

第五方面，本发明实施例还提供一种音频解压缩装置。该音频解压缩装置包括：

第一获取模块，用于获取目标音频压缩数据，其中，所述音频压缩数据为根据上述的音频压缩方法压缩得到的音频压缩数据；

第二分片模块，用于按照第一预设长度将所述目标音频压缩数据进行分片，得到S个音频压缩片段，其中，S为大于1的整数；

第二获取模块，用于分别获取所述S个音频压缩片段中每个音频压缩片段的音频压缩特征矩阵和音频时序特征向量；

第二输入模块，用于分别将所述S个音频压缩片段中每个音频压缩片段的音频压缩特征矩阵和音频时序特征向量输入预先训练的音频解压缩网络，得到预测的S个音频片段，其中，所述音频解压缩网络包括带残差的膨胀卷积网络、转置层、concat网络层和全连接网络层，所述带残差的膨胀卷积网络用于对输入的音频压缩特征矩阵进行膨胀卷积，所述转置层用于对所述带残差的膨胀卷积网络输出的特征矩阵进行转置并输出转置矩阵，所述concat网络层用于将输入的音频时序特征向量和所述转置层输出的转置矩阵进行拼接，所述全连接网络层用于基于所述concat网络层输出的特征矩阵输出预测的音频片段；

第二拼接模块，用于将所述S个音频片段按序拼接，得到解压后的音频数据。

第六方面，本发明实施例还提供一种模型训练装置。该模型训练装置包括：

第三获取模块，用于获取P个音频样本，其中，P为大于1的整数，所述P个音频样本中的每个音频样本均为预设编码格式的音频数据；

训练模块，用于基于所述P个音频样本对音频压缩网络和音频解压缩网络进行迭代训练，直至所述音频压缩网络输入的音频样本和所述音频解压缩网络输出的预测音频之间的均方差损失最小化；

所述音频解压缩网络包括带残差的膨胀卷积网络、concat网络层、转置层和全连接网络层，所述带残差的膨胀卷积网络用于对所述带残差的卷积神经网络输出的音频压缩特征矩阵进行膨胀卷积，所述转置层用于对所述带残差的膨胀卷积网络输出的特征矩阵进行转置并输出转置矩阵，所述concat网络层用于将所述深层循环神经网络输出的音频时序特征向量和所述转置层输出的转置矩阵进行拼接，所述全连接网络层用于基于所述concat网络层输出的特征矩阵输出预测的音频样本。

第七方面，本发明实施例还提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述的音频压缩方法的步骤，或者实现上述的音频解压缩方法的步骤，或者实现上述的模型训练方法的步骤。

第八方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的音频压缩方法的步骤，或者实现上述的音频解压缩方法的步骤，或者实现上述的模型训练方法的步骤。

本发明实施例中，通过预先训练的音频压缩网络进行音频压缩，由于压缩比仅与音频压缩网络的结构相关，这样音频压缩网络结构一旦确定则其压缩比也相应固定，因此可以提高音频压缩比的稳定性。上述音频压缩网络可以分别对音频数据的各个音频片段进行压缩，这样可以实现音频片段的流式压缩，便于压缩音频的流式传输。此外，上述音频压缩网络包括用于对输入的音频片段进行压缩的带残差的卷积神经网络和用于提取输入的音频片段的音频时序特征向量的深层循环神经网络，这样可以提高压缩音频解压后的音频效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的音频压缩方法的流程图；

图2是本发明实施例提供的多个音频片段的音频压缩特征矩阵和音频时序特征向量按序拼接的示意图；

图3是本发明实施例提供的音频压缩网络和音频解压缩网络的示意图之一；

图4是本发明实施例提供的音频压缩网络和音频解压缩网络的示意图之二；

图5是本发明实施例提供的音频解压缩方法的流程图；

图6是本发明实施例提供的模型训练方法的流程图；

图7是本发明实施例提供的音频压缩装置的结构图；

图8是本发明实施例提供的音频解压缩装置的结构图；

图9是本发明实施例提供的模型训练装置的结构图；

图10是本发明实施例提供的电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种音频压缩方法。参见图1，图1是本发明实施例提供的音频压缩方法的流程图，如图1所示，包括以下步骤：

步骤101、将预设编码格式的音频数据进行分片，得到N个音频片段，N为大于1的整数。

本实施例中，上述预设编码格式的音频数据可以包括μ律(μ-law)编码或者A律(A-law)编码的音频数据。可选地，在输入的音频数据的编码格式不为上述预设编码格式的情况下，可以将输入的音频数据转换为上述预设编码格式的音频数据。

上述音频数据的采样率可以为预设采用率，其中，上述预设采用率可以根据实际情况进行合理设置，例如，8000赫兹、16000赫兹、24000赫兹等。可选地，在输入的音频数据的采样率不为上述预设采样率的情况下，可以将输入的音频数据转换为上述预设采样率的音频数据，例如，若输入的音频数据的采样率大于8000，可以将输入的音频数据的采用率转化为8000。

该步骤中，可以按照目标预设长度将预设编码格式的音频数据进行分片，得到N个音频片段，其中，上述目标预设长度可以根据实际需求进行合理设置，例如，1秒或2秒等。

步骤102、分别将每个所述音频片段输入预先训练的音频压缩网络，得到每个所述音频片段对应的音频压缩特征矩阵和音频时序特征向量，其中，所述音频压缩网络包括带残差的卷积神经网络和深层循环神经网络，所述带残差的卷积神经网络对输入的所述音频片段压缩处理后输出所述音频压缩特征矩阵，所述深层循环神经网络对输入的所述音频片段处理后得到所述音频时序特征向量。

本实施例中，上述音频压缩网络包括带残差的卷积神经网络和深层循环神经网络，其中，上述带残差的卷积神经网络用于对输入的音频片段进行卷积，实现对音频片段的压缩，上述深层循环神经网络用于提取输入的音频片段的时序特征，便于在解压缩过程中提高音频解压缩效果。

需要说明的是，上述深层循环神经网络可以直接依据音频片段提取时序特征，例如，上述深层循环神经网络可以包括串联的多个LSTM层，且上述多个LSTM层中的第一个LSTM层的输入为所述音频片段，上述多个LSTM层中除第一个LSTM层之外的LSTM层的输入为其前一个LSTM层的输出，上述多个LSTM层中最后一个LSTM层的输出为所述音频时序特征向量；上述深层循环神经网络也可以依据对输入深层循环神经网络的音频片段的处理结果和将音频压缩特征矩阵输入深层循环神经网络处理的结果进行处理以提取时序特征，本实施例对此不做限定。

具体地，上述带残差的卷积神经网络可以对输入的每个音频片段进行卷积压缩，以输出各个音频片段对应的音频压缩特征矩阵，也可以称为第一压缩表示。上述深层循环神经网络可以分别对输入的每个音频片段进行时间序列特征提取，以输出各个音频片段对应的音频时序特征向量，也可以称为第二压缩表示。

步骤103、按序将每个所述音频片段对应的所述音频压缩特征矩阵和所述音频时序特征向量拼接，得到音频压缩数据。

本实施例中，可以将每个音频片段对应的音频压缩特征矩阵和音频时序特征向量按序拼接，再将各个音频片段对应的拼接特征按序拼接，得到音频压缩数据。例如，可以将第一个音频片段对应的音频压缩特征矩阵和音频时序特征向量按序拼接得到第一拼接特征，将第二个音频片段对应的音频压缩特征矩阵和音频时序特征向量按序拼接得到第二拼接特征，以此类推直至将第N个音频片段对应的音频压缩特征矩阵和音频时序特征向量按序拼接得到第N拼接特征，并将第一拼接特征、第二拼接特征直至第N拼接特征依序拼接，得到音频压缩数据，如图2所示。

本发明实施例的音频压缩方法，通过预先训练的音频压缩网络进行音频压缩，由于压缩比仅与音频压缩网络的结构相关，这样音频压缩网络结构一旦确定则其压缩比也相应固定，因此可以提高音频压缩比的稳定性。上述音频压缩网络可以分别对音频数据的各个音频片段进行压缩，这样可以实现音频片段的流式压缩，便于压缩音频的流式传输，还可以实现音频的并行压缩，提高音频压缩效率。此外，上述音频压缩网络包括用于对输入的音频片段进行压缩的带残差的卷积神经网络和用于提取输入的音频片段的音频时序特征向量的深层循环神经网络，这样可以提高压缩音频解压后的音频效果。

可选地，所述带残差的卷积神经网络包括依次连接的嵌入网络层、M个压缩残差网络层和K个卷积网络层，其中，所述嵌入网络层用于对输入的音频片段进行嵌入处理并输出第一特征矩阵，所述M个压缩残差网络层用于对所述第一特征矩阵进行卷积压缩并输出第二特征矩阵，所述K个卷积网络层用于对所述第二特征矩阵进行卷积压缩并输出音频压缩特征矩阵，M和K均为正整数。

本实施例中，上述M和K的取值均可以根据实际需求进行合理设置，例如，上述M可以为2或3等，上述K可以为1或2等。上述压缩残差网络层可以包括卷积子网络、降采样网络层以及求和归一化层。其中，上述卷积子网络可以包括一个或多个卷积网络层，卷积子网络的输入可以为嵌入网络层的输出或者前一个压缩残差网络层的输出，例如，对于第一个压缩残差网络的卷积子网络，其输入可以为嵌入网络层的输出，对于除第一个压缩残差网络之外的压缩残差网络的卷积子网络，其输入可以为前一个压缩残差网络层的输出。上述降采样网络层的输入可以为嵌入网络层的输出。上述卷积子网络和降采样网络层的输出均输入至求和归一化层，该求和归一化层用于对输入的两个特征矩阵进行求和之后并对求和结果进行归一化。

本发明实施例中，带残差的卷积神经网络包括依次连接的嵌入网络层、M个压缩残差网络层和K个卷积网络层，由于上述M个压缩残差网络层和K个卷积网络层均可以对输入音频片段进行压缩，这样基于该带残差的卷积神经网络可以实现对输入音频片段的高度压缩，提高音频数据的压缩比。

可选地，在M为1的情况下，所述压缩残差网络层包括子卷积网络、降采样网络层和求和归一化层，所述子卷积网络的输入为所述第一特征矩阵，所述降采样网络层的输入为所述第一特征矩阵，所述子卷积网络的输出和所述降采样网络层的输出均输入至所述求和归一化层；

在M大于1的情况下，所述M个压缩残差网络层之间串联，每个所述压缩残差网络层均包括子卷积网络、降采样网络层和求和归一化层，每个所述降采样网络层的输入均为所述第一特征矩阵，每个所述子卷积网络的输出和每个所述降采样网络层的输出均输入至对应的所述求和归一化层，第一压缩残差网络层的子卷积网络的输入为所述第一特征矩阵，第二压缩残差网络层的子卷积网络的输入为其前一个压缩残差网络层的求和归一化层的输出，所述第一压缩残差网络层为所述M个压缩残差网络层中的第一个压缩残差网络，所述第二压缩残差网络层为所述M个压缩残差网络层中除所述第一压缩残差网络层之外的压缩残差网络层。

本实施例中，上述子卷积网络可以包括多个卷积网络层，例如，可以包括两个卷积网络层。上述降采样网络层可以通过均值池化(pooling)方式，对嵌入网络层输出的Embedding矩阵降采样，来对齐矩阵形状到其对应的卷积子网络的每个通道的输出形状。上述求和归一化层用于对其对应的子卷积网络的输出和降采样网络层的输出进行求和以及归一化处理。

本发明实施例中，每个所述压缩残差网络层的降采样网络层的输入均为第一特征矩阵，相比于将每个所述压缩残差网络层的前一个压缩残差网络层的输出作为其降采样网络层的输入，可以减少音频特征信息的丢失，进而可以使得音频压缩特征矩阵具有更为丰富的音频特征，便于进行解压缩。

以下以图3所示的一种音频压缩网络结构为例进行说明。

参见图3，带残差的卷积神经网络包括嵌入网络层(即Embedding)、第一压缩残差网络层、第二压缩残差网络层和第一卷积网络层。

上述嵌入网络层可以用于将输入的音频片段的每个采样点均转化为向量表示，进而可以得到音频片段对应的特征矩阵。例如，对于每个长度为1s、采样率为8000赫兹的音频片段的8000个音频采样点，将每个音频采样点嵌入(Embedding)成一个8维的向量表示。

上述第一压缩残差网络层可以包括第一卷积子网络、第一降采样网络层(即pooldownsample)、第一求和归一化层。其中，第一卷积子网络可以包括两个连续的卷积网络层，用于对上述嵌入网络层输出的特征矩阵(即第一特征矩阵)进行卷积压缩，这两个卷积网络层均采用4个卷积核，卷积核大小为4X4，卷积步长为2X2，并利用池化层(即maxpooling)做池化计算。上述第一降采样网络层可以通过均值池化(pooling)方式，对嵌入网络层输出的Embedding矩阵降采样，来对齐矩阵形状到第一卷积子网络的每个通道的输出形状。上述第一求和归一化层用于将第一卷积子网络输出的特征矩阵和第一降采样网络层输出的特征矩阵进行求和以及归一化处理。

上述第二压缩残差网络层可以包括第二卷积子网络、第二降采样网络层(即pooldownsample)、第二求和归一化层。其中，第二卷积子网络可以包括两个连续的卷积网络层，用于对上述第一压缩残差网络层输出的特征矩阵(即第一卷积子网络输出的特征矩阵和第一降采样网络层输出的特征矩阵之和归一化处理得到的特征矩阵)进行卷积压缩，这两个卷积网络层均可以采用8个卷积核，卷积核大小可以为10X2，卷积步长可以为5，并利用池化层(即maxpooling)做池化计算。上述第二降采样网络层可以通过均值池化(pooling)方式，对嵌入网络层输出的Embedding矩阵降采样，来对齐矩阵形状到第二卷积子网络的每个通道的输出形状。上述第二求和归一化层用于将第二卷积子网络输出的特征矩阵和第二降采样网络层输出的特征矩阵进行求和以及归一化处理。

上述第一卷积网络层用于对上述第二压缩残差网络层输出的特征矩阵(即第二卷积子网络输出的特征矩阵和第二降采样网络层输出的特征矩阵之和归一化处理得到的特征矩阵)进行卷积压缩，上述第一卷积网络层可以采用16个卷积核，卷积核大小可以10X1，卷积步长可以为5，并利用池化层(即maxpooling)做池化计算，可以输出16X18的特征矩阵，也即输出音频压缩特征矩阵，也可称为第一压缩表示。

可选地，所述深层循环神经网络包括第一求均值层、目标LSTM层和串联的L个LSTM层，所述第一求均值层的输入为所述音频压缩特征矩阵，所述第一求均值层的输出为第一特征向量，所述第一特征向量为所述音频压缩特征矩阵的各个通道向量的平均值组成的特征向量，所述目标LSTM层的输入为所述第一特征向量，所述目标LSTM层的输出为第一隐态向量，所述L个LSTM层的输入为音频片段，所述L个LSTM层的输出为第二隐态向量，其中，所述第一隐态向量和第二隐态向量之和为音频时序特征向量，L为M和K之和。

本实施例中，上述L个LSTM层中各个LSTM层的隐层数均可以不同。例如，如图3所示，上述L个LSTM层包括第一LSTM层、第二LSTM层和第三LSTM层，其中，第一LSTM层的隐层数可以为256，第一LSTM层的输入可以为输入的音频片段，第一LSTM层的输出可以为隐态向量，第二LSTM层的隐层数可以为64，第二LSTM层的输入可以为第一LSTM层的输出的隐态向量，输出可以为隐态向量，第三LSTM层的隐层数可以为16，第三LSTM层的输入可以为第二LSTM层的输出的隐态向量，输出可以为第二隐态向量，目标LSTM层的隐层数可以为16，目标LSTM层的输入可以为音频压缩特征矩阵的各个通道向量的平均值组成的特征向量，输出可以为第一隐态向量。其中，第一隐态向量和第二隐态向量之和可以为16维的特征向量，也即音频时序特征向量，也可称为第二压缩表示。需要说明的是，上述第一LSTM层、第二LSTM层、第三LSTM层的隐藏数依次减少，可以使得第三LSTM层输出的隐态向量的维度可以和带残差的卷积神经网络输出的音频压缩特征矩阵对齐。

本实施例中深层循环神经网络包括第一求均值层、目标LSTM层和串联的L个LSTM层，由于上述目标LSTM层可以对带残差的卷积神经网络输出的音频压缩特征矩阵进行时序特征提取，并且上述串联的L个LSTM层均可以对输入的音频片段进行时序特征提取，这样不仅可以实现时序特征提取和卷积压缩之间的关联，还可以增强音频数据中的时序特征的提取，这样基于提取的时序特征进行解压缩，可以提高压缩音频解压后的音频效果。

可选地，所述深层循环神经网络包括与所述M个压缩残差网络层对应的M个子循环神经网络和与所述K个卷积网络层对应的K个子循环网络；

其中，所述M个子循环神经网络的输入为音频片段和所述M个压缩残差网络层输出的特征矩阵，所述M个子循环神经网络的输出为隐态向量，所述K个子循环网络的输入为所述M个子循环神经网络输出的隐态向量和所述K个卷积网络层输出的特征矩阵，所述K个子循环网络的输出为所述音频时序特征向量。

例如，如图4所示，所述M个子循环神经网络包括第一子循环网络和第二子循环网络，所述K个子循环网络包括第三子循环网络。第一子循环网络、第二子循环网络和第三子循环网络依次串联，所述第一子循环网络的输入为音频片段和对应的压缩残差网络层输出的特征矩阵，所述第二子循环网络的输入为第一子循环网络输出的隐态向量和对应的压缩残差网络层输出的特征矩阵，所述第三子循环网络的输入为所述第二子循环网络输出的隐态向量和对应的卷积网络层输出的特征矩阵，输出为所述音频时序特征向量。

可选地，在M为1的情况下，所述M个子循环神经网络中的子循环神经网络的输入为音频片段和对应的压缩残差网络层输出的特征矩阵；在M为大于1的整数的情况下，所述M个子循环神经网络之间串联，所述M个子循环神经网络中的第一个子循环神经网络的输入为音频片段和对应的压缩残差网络层输出的特征矩阵，所述M个子循环神经网络中的除第一个子循环神经网络之外的子循环神经网络的输入为其前一个子循环神经网络输出的特征矩阵和对应的压缩残差网络层输出的特征矩阵；

在K为1的情况下，所述K个子循环神经网络中的子循环神经网络的输入为所述M个子循环神经网络中的最后一个子循环神经网络输出的隐态向量和对应的卷积网络层输出的特征矩阵；在K为大于1的整数的情况下，所述K个子循环神经网络之间串联，所述K个子循环神经网络中的第一个子循环神经网络的输入为所述M个子循环神经网络中的最后一个子循环神经网络输出的隐态向量和对应的卷积网络层输出的特征矩阵，所述K个子循环神经网络中除第一个子循环神经网络之外的子循环神经网络的输入为其前一个子循环神经网络输出的隐态向量和对应的卷积网络层输出的特征矩阵。

本实施例中，将M个压缩残差网络层输出的特征矩阵作为其对应的子循环神经网络的输入，并将K个卷积网络层输出的特征矩阵作为其对应的子循环神经网络的输入，可以加强卷积压缩部分和时序特征提取部分的关联，这样基于提取的时序特征进行解压缩，可以进一步提高压缩音频解压后的音频效果。

可选地，所述M个子循环神经网络和所述K个子循环神经网络中的每个子循环神经网络均包括求均值层、两个LSTM层和求和归一化层，所述求均值层用于求输入所述求均值层的特征矩阵的各个通道向量的平均值并输出第二特征向量，所述求和归一化层用于对所述两个LSTM层输出的隐态向量进行求和以及归一化处理并输出隐态向量；

其中，所述M个子循环神经网络中的第一个子循环神经网络的两个LSTM层中的一个LSTM层用于提取所述第二特征向量的时序特征并输出隐态向量，另一个LSTM层用于提取音频片段的时序特征并输出隐态向量；

目标子循环神经网络的两个LSTM层中的一个LSTM层用于提取所述第二特征向量的时序特征并输出隐态向量，另一个LSTM层用于提取所述第二子循环神经网络的前一个子循环神经网络输出的隐态向量的时序特征并输出隐态向量，所述目标子循环神经网络为所述M个子循环神经网络和所述K个子循环神经网络中除所述第一个子循环神经网络之外的子循环神经网络。

例如，如图4所示，所述M个子循环神经网络包括第一子循环网络和第二子循环网络，所述K个子循环网络包括第三子循环网络。其中，第一子循环网络包括第二求均值层、第四LSTM层、第五LSTM层和第一求和层，第四LSTM层和第五LSTM层的隐层数可以相同，例如，第四LSTM层和第五LSTM层的隐层数均为256。所述第二求均值层的输入为第一压缩残差网络层输出的特征矩阵(即第一卷积子网络输出的特征矩阵和第一降采样网络层输出的特征矩阵之和归一化处理得到的特征矩阵)，输出为第一压缩残差网络层输出的特征矩阵的各个通道向量的平均值所组成的特征向量。第五LSTM层的输入为所述第二求均值层输出的特征向量，输出为隐态向量。第四LSTM层的输入为音频数据，输出为隐态向量。第一求和层的输入为第四LSTM层输出的隐态向量和第五LSTM层输出的隐态向量，输出为第四LSTM层输出的隐态向量和第五LSTM层输出的隐态向量之和。

第二子循环网络包括第三求均值层、第六LSTM层、第七LSTM层和第二求和层，其中，第六LSTM层和第七LSTM层的隐层数相同，例如，第六LSTM层和第七LSTM层的隐层数均为64。所述第三求均值层的输入为第二压缩残差网络层输出的特征矩阵(即第二卷积子网络输出的特征矩阵和第二降采样网络层输出的特征矩阵之和归一化处理得到的特征矩阵)，输出为第二压缩残差网络层输出的特征矩阵的各个通道向量的平均值所组成的特征向量。第七LSTM层的输入为所述第三求均值层输出的特征向量，输出为隐态向量。第六LSTM层的输入为第四LSTM层输出的隐态向量和第五LSTM层输出的隐态向量之和，输出为隐态向量。第二求和层的输入为第六LSTM层输出的隐态向量和第七LSTM层输出的隐态向量，输出为第六LSTM层输出的隐态向量和第七LSTM层输出的隐态向量之和。

第三子循环网络包括第四求均值层、第八LSTM层、第九LSTM层和第三求和层，其中，第八LSTM层和第九LSTM层的隐层数相同，例如，第八LSTM层和第九LSTM层的隐层数均为16。所述第四求均值层的输入为第一卷积网络层输出的特征矩阵，输出为第一卷积网络层输出的特征矩阵的各个通道向量的平均值所组成的特征向量。第九LSTM层的输入为所述第四求均值层输出的特征向量，输出为隐态向量。第八LSTM层的输入为第六LSTM层输出的隐态向量和第七LSTM层输出的隐态向量之和，输出为隐态向量。第三求和层的输入为第八LSTM层输出的隐态向量和第九LSTM层输出的隐态向量，输出为第八LSTM层输出的隐态向量和第九LSTM层输出的隐态向量之和，也即输入的音频片段对应的时序音频特征向量。

本实施例通过在音频压缩网络中将LSTM层嵌入于每两层卷积网络之间，这样可以进一步提高时序特征提取和卷积压缩的关联性，进而基于提取的时序特征进行解压缩，可以进一步提高压缩音频解压后的音频效果。

本发明实施例提供一种音频解压缩方法。参见图5，图5是本发明实施例提供的音频压缩方法的流程图，如图5所示，包括以下步骤：

步骤501、获取目标音频压缩数据，其中，所述音频压缩数据为根据上述的音频压缩方法压缩得到的音频压缩数据。

本实施例中，上述目标音频压缩数据可以是任意基于上述任一音频压缩方法压缩得到的音频压缩数据。

步骤502、按照第一预设长度将所述目标音频压缩数据进行分片，得到S个音频压缩片段，其中，S为大于1的整数。

本实施例中，上述第一预设长度可以根据各个音频片段压缩后得到的压缩数据(即音频压缩特征矩阵和音频时序特征向量)大小进行设置，例如，每个音频片段压缩后得到的压缩数据的大小为576字节，则上述第一预设长度可以设为576字节。

步骤503、分别获取所述S个音频压缩片段中每个音频压缩片段的音频压缩特征矩阵和音频时序特征向量。

示例地，可以根据第二预设长度分别将S个音频压缩片段进行分片，得到每个音频压缩片段的音频压缩特征矩阵和音频时序特征向量，其中，上述第二预设长度可以根据音频压缩特征矩阵和音频时序特征向量的大小进行确定，例如，每个音频片段压缩后得到的音频压缩特征矩阵的大小为512字节，则上述第一预设长度可以设为512字节。

步骤504、分别将所述S个音频压缩片段中每个音频压缩片段的音频压缩特征矩阵和音频时序特征向量输入预先训练的音频解压缩网络，得到预测的S个音频片段，其中，所述音频解压缩网络包括带残差的膨胀卷积网络、转置层、concat网络层和全连接网络层，所述带残差的膨胀卷积网络用于对输入的音频压缩特征矩阵进行膨胀卷积，所述转置层用于对所述带残差的膨胀卷积网络输出的特征矩阵进行转置并输出转置矩阵，所述concat网络层用于将输入的音频时序特征向量和所述转置层输出的转置矩阵进行拼接，所述全连接网络层用于基于所述concat网络层输出的特征矩阵输出预测的音频片段。

本实施例中，上述带残差的膨胀卷积网络用于对输入的音频压缩特征矩阵进行膨胀卷积，以将较低维度的特征矩阵膨胀为较高维度的特征矩阵。

上述转置层用于对所述带残差的膨胀卷积网络输出的特征矩阵进行转置并输出转置矩阵，例如，若带残差的膨胀卷积网络输出的特征矩阵为16X8000的矩阵，经上述转置层可以得到8000X16的矩阵。

上述concat网络层用于将输入的音频时序特征向量拼接到上述带残差的膨胀卷积网络输出的特征矩阵的转置矩阵的每个维度，也即将输入的音频时序特征向量拼接到转置层输出的转置矩阵的每个维度，例如，若转置矩阵为8000X16的矩阵，输入的音频时序特征向量为64维向量，经concat网络层连接后可以得到8000X80的矩阵。

上述全连接网络层用于得到预测的每个音频采样点的值，由于u-Law或者A-Law的音频数据用单字节数据表示一个音频采样点，其取值范围为[0,255]，因此该全连接网络层的隐层数可以设置为256。进一步地，可以将全连接网络层输出的值映射或标准化到对应音频编码格式的取值范围输出。

步骤505、将所述S个音频片段按序拼接，得到解压后的音频数据。

本实施例中，可以按序将预测得到的S个音频片段进行拼接，即可得到解压后的音频数据。

本发明实施例中音频解压缩网络基于每个音频压缩片段的音频压缩特征矩阵和音频时序特征向量进行解压缩，可以提高解压缩后得到的音频数据的音频效果，此外，上述音频解压缩网络可以分别对音频压缩数据的各个音频压缩片段进行解压缩，这样可以实现音频压缩片段的流式解压缩，还可以实现音频的并行解压缩，提高音频解压缩效率。

可选地，所述带残差的膨胀卷积网络包括串联的Q个带反卷积残差的膨胀卷积网络层，每个所述带反卷积残差的膨胀卷积网络层均包括膨胀卷积网络层、反卷积网络层和求和归一化层，其中，所述膨胀卷积网络层的输入和所述反卷积网络层的输入相同，所述膨胀卷积网络层的输出和所述反卷积网络层的输出均输入至所述第二求和层，Q为正整数。

本实施例中，Q可以根据实际需求以及音频压缩网络的结构进行合理设置，例如，Q可以为2。

以下以图3或图4所示的一种音频解压缩网络结构为例进行说明。

如图3或图4所示，带残差的膨胀卷积网络包括第一带反卷积残差的膨胀卷积网络层和第二带反卷积残差的膨胀卷积网络层。其中，第一带反卷积残差的膨胀卷积网络层包括第一膨胀卷积网络层、第一反卷积网络层和第三求和归一化层，第一膨胀卷积网络层的膨胀系数可以为5，第一膨胀卷积网络层用于对输入的音频压缩片段的音频压缩特征矩阵进行膨胀卷积，第一反卷积网络层用于对输入的音频压缩片段的音频压缩特征矩阵进行反卷积，并输出与第一膨胀卷积网络层的输出对齐的反卷积结果，第三求和归一化层用于对第一膨胀卷积网络层的输出和第一反卷积网络层的输出进行求和以及归一化处理。

第二带反卷积残差的膨胀卷积网络层包括第二膨胀卷积网络层、第二反卷积网络层和第四求和归一化层，第二膨胀卷积网络层的膨胀系数可以为50，第二膨胀卷积网络层用于对带残差的膨胀卷积网络的输出(即第一膨胀卷积网络层的输出和第一反卷积网络层的输出之和的归一化值)进行膨胀卷积，第二反卷积网络层用于对带残差的膨胀卷积网络的输出进行反卷积，并输出与第二膨胀卷积网络层的输出对齐的反卷积结果，第四求和归一化层用于对第二膨胀卷积网络层的输出和第二反卷积网络层的输出进行求和以及归一化处理。

本发明实施例中带残差的膨胀卷积网络包括串联的Q个带反卷积残差的膨胀卷积网络层，每个所述带反卷积残差的膨胀卷积网络层均包括膨胀卷积网络层、反卷积网络层和求和归一化层，本实施例通过反卷积网络层可以增强膨胀卷积网络层进行膨胀卷积后得到的音频特征，进而可以提高解压后的音频数据的音效。

本发明实施例还提供一种模型训练方法，上述任一音频压缩方法实施例提供的音频压缩网络和上述任一音频解压缩方法实施例提供的音频解压缩网络均可以是基于本发明实施例提供的模型训练方法训练得到。

参见图6，图6是本发明实施例提供的音频压缩方法的流程图，如图6所示，包括以下步骤：

步骤601、获取P个音频样本，其中，P为大于1的整数，所述P个音频样本中的每个音频样本均为预设编码格式的音频数据。

本实施例中，上述预设编码格式可以是可以包括μ律(μ-law)编码或者A律(A-law)编码。上述P个音频样本均可以是长度为目标预设长度的音频或音频片段，此外，上述P个音频样本可以包括多个说话对象的音频或音频片段。

步骤602、基于所述P个音频样本对音频压缩网络和音频解压缩网络进行迭代训练，直至所述音频压缩网络输入的音频样本和所述音频解压缩网络输出的预测音频之间的均方差损失最小化；

其中，所述音频压缩网络包括带残差的卷积神经网络和深层循环神经网络，所述带残差的卷积神经网络用于对输入的音频样本进行压缩并输出音频压缩特征矩阵，所述深层循环神经网络用于提取输入的音频样本的音频时序特征向量；

本实施例中，上述音频压缩网络和音频解压缩网络的相关描述可以参见前述论述，为避免重复，在此不做赘述。

该步骤中，可以基于上述P个音频样本对音频压缩网络和音频解压缩网络进行迭代训练，用音频压缩网络输入的音频样本和解压缩网络输出的预测音频做均方差损失，并以损失最小化为目标做梯度计算，直至收敛网络。

可选地，对于上述的收敛的音频压缩网络和音频解压缩网络，可以将音频压缩网络封装为压缩器程序，可以将音频解压缩网络封装为解压缩程序。

本发明实施例基于P个音频样本对音频压缩网络和音频解压缩网络进行联合训练，可以提高训练得到的音频压缩网络的压缩效果以及训练得到的音频解压缩网络的解压缩效果。

参见图7，图7是本发明实施例提供的音频压缩装置的结构图。如图7所示，音频压缩装置700包括：

第一分片模块701，用于将预设编码格式的音频数据进行分片，得到N个音频片段，N为大于1的整数；

第一输入模块702，用于分别将每个所述音频片段输入预先训练的音频压缩网络，得到每个所述音频片段对应的音频压缩特征矩阵和音频时序特征向量，其中，所述音频压缩网络包括带残差的卷积神经网络和深层循环神经网络，所述带残差的卷积神经网络对输入的所述音频片段压缩处理后输出所述音频压缩特征矩阵，所述深层循环神经网络对输入的所述音频片段处理后得到所述音频时序特征向量；

第一拼接模块703，用于按序将每个所述音频片段对应的所述音频压缩特征矩阵和所述音频时序特征向量拼接，得到音频压缩数据。

其中，所述M个子循环神经网络的输入为音频片段和所述M个压缩残差网络层输出的特征矩阵，所述K个子循环网络的输入为所述M个子循环神经网络输出的隐态向量和所述K个卷积网络层输出的特征矩阵，所述K个子循环网络的输出为所述音频时序特征向量。

本发明实施例提供的音频压缩装置700能够实现上述音频压缩方法实施例中的各个过程，为避免重复，这里不再赘述。

本发明实施例的音频压缩装置700，通过预先训练的音频压缩网络进行音频压缩，由于压缩比仅与音频压缩网络的结构相关，这样音频压缩网络结构一旦确定则其压缩比也相应固定，因此可以提高音频压缩比的稳定性。上述音频压缩网络可以分别对音频数据的各个音频片段进行压缩，这样可以实现音频片段的流式压缩，便于压缩音频的流式传输。此外，上述音频压缩网络包括用于对输入的音频片段进行压缩的带残差的卷积神经网络和用于提取输入的音频片段的音频时序特征向量的深层循环神经网络，这样可以提高压缩音频解压后的音频效果。

参见图8，图8是本发明实施例提供的音频解压缩装置的结构图。如图8所示，音频解压缩装置800包括：

第一获取模块801，用于获取目标音频压缩数据，其中，所述音频压缩数据为根据权利要求1至5中任一项所述的音频压缩方法压缩得到的音频压缩数据；

第二分片模块802，用于按照第一预设长度将所述目标音频压缩数据进行分片，得到S个音频压缩片段，其中，S为大于1的整数；

第二获取模块803，用于分别获取所述S个音频压缩片段中每个音频压缩片段的音频压缩特征矩阵和音频时序特征向量；

第二输入模块804，用于分别将所述S个音频压缩片段中每个音频压缩片段的音频压缩特征矩阵和音频时序特征向量输入预先训练的音频解压缩网络，得到预测的S个音频片段，其中，所述音频解压缩网络包括带残差的膨胀卷积网络、转置层、concat网络层和全连接网络层，所述带残差的膨胀卷积网络用于对输入的音频压缩特征矩阵进行膨胀卷积，所述转置层用于对所述带残差的膨胀卷积网络输出的特征矩阵进行转置并输出转置矩阵，所述concat网络层用于将输入的音频时序特征向量和所述转置层输出的转置矩阵进行拼接，所述全连接网络层用于基于所述concat网络层输出的特征矩阵输出预测的音频片段；

第二拼接模块805，用于将所述S个音频片段按序拼接，得到解压后的音频数据。

可选地，所述带残差的膨胀卷积网络包括串联的Q个带反卷积残差的膨胀卷积网络层，每个所述带反卷积残差的膨胀卷积网络层均包括膨胀卷积网络层、反卷积网络层和求和归一化层，其中，所述膨胀卷积网络层的输入和所述反卷积网络层的输入相同，所述膨胀卷积网络层的输出和所述反卷积网络层的输出均输入至所述求和归一化层，Q为正整数。

本发明实施例提供的音频解压缩装置800能够实现上述音频解压缩方法实施例中的各个过程，为避免重复，这里不再赘述。

本发明实施例的音频解压缩装置800中，音频解压缩网络基于每个音频压缩片段的音频压缩特征矩阵和音频时序特征向量进行解压缩，可以提高解压缩后得到的音频数据的音频效果，此外，上述音频解压缩网络可以分别对音频压缩数据的各个音频压缩片段进行解压缩，这样可以实现音频压缩片段的流式解压缩，还可以实现音频的并行解压缩，提高音频解压缩效率。

参见图9，图9是本发明实施例提供的模型训练装置的结构图。如图9所示，模型训练装置900包括：

第三获取模块901，用于获取P个音频样本，其中，P为大于1的整数，所述P个音频样本中的每个音频样本均为预设编码格式的音频数据；

训练模块902，用于基于所述P个音频样本对音频压缩网络和音频解压缩网络进行迭代训练，直至所述音频压缩网络输入的音频样本和所述音频解压缩网络输出的预测音频之间的均方差损失最小化；

本发明实施例提供的模型训练装置900能够实现上述模型训练方法实施例中的各个过程，为避免重复，这里不再赘述。

本发明实施例的模型训练装置900，基于P个音频样本对音频压缩网络和音频解压缩网络进行联合训练，可以提高训练得到的音频压缩网络的压缩效果以及训练得到的音频解压缩网络的解压缩效果。

参见图10，图10是本发明实施提供的电子设备的结构图，如图10所示，电子设备1000包括：处理器1001、存储器1002及存储在所述存储器1002上并可在所述处理器上运行的计算机程序，音频压缩装置1000中的各个组件通过总线接口1003耦合在一起，所述计算机程序被所述处理器1001执行时实现上述音频压缩方法实施例的各个过程，或者实现上述音频解压缩方法实施例的各个过程，或者实现上述模型训练方法实施例的各个过程，并及达到相同的有益效果，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述音频压缩方法实施例的各个过程，或者实现上述音频解压缩方法实施例的各个过程，或者实现上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种音频压缩方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述带残差的卷积神经网络包括依次连接的嵌入网络层、M个压缩残差网络层和K个卷积网络层，其中，所述嵌入网络层用于对输入的音频片段进行嵌入处理并输出第一特征矩阵，所述M个压缩残差网络层用于对所述第一特征矩阵进行卷积压缩并输出第二特征矩阵，所述K个卷积网络层用于对所述第二特征矩阵进行卷积压缩并输出所述音频压缩特征矩阵，M和K均为正整数。

3.根据权利要求2所述的方法，其特征在于，在M为1的情况下，所述压缩残差网络层包括子卷积网络、降采样网络层和求和归一化层，所述子卷积网络的输入为所述第一特征矩阵，所述降采样网络层的输入为所述第一特征矩阵，所述子卷积网络的输出和所述降采样网络层的输出均输入至所述求和归一化层；

4.根据权利要求2所述的方法，其特征在于，所述深层循环神经网络包括第一求均值层、目标LSTM层和串联的L个LSTM层，所述第一求均值层的输入为所述音频压缩特征矩阵，所述第一求均值层的输出为第一特征向量，所述第一特征向量为所述音频压缩特征矩阵的各个通道向量的平均值组成的特征向量，所述目标LSTM层的输入为所述第一特征向量，所述目标LSTM层的输出为第一隐态向量，所述L个LSTM层的输入为音频片段，所述L个LSTM层的输出为第二隐态向量，其中，所述第一隐态向量和第二隐态向量之和为所述音频时序特征向量，L为M和K之和。

5.根据权利要求2所述的方法，其特征在于，所述深层循环神经网络包括与所述M个压缩残差网络层对应的M个子循环神经网络和与所述K个卷积网络层对应的K个子循环网络；

6.根据权利要求5所述的方法，其特征在于，在M为1的情况下，所述M个子循环神经网络中的子循环神经网络的输入为音频片段和对应的压缩残差网络层输出的特征矩阵；在M为大于1的整数的情况下，所述M个子循环神经网络之间串联，所述M个子循环神经网络中的第一个子循环神经网络的输入为音频片段和对应的压缩残差网络层输出的特征矩阵，所述M个子循环神经网络中的除第一个子循环神经网络之外的子循环神经网络的输入为其前一个子循环神经网络输出的特征矩阵和对应的压缩残差网络层输出的特征矩阵；

7.根据权利要求5所述的方法，其特征在于，所述M个子循环神经网络和所述K个子循环神经网络中的每个子循环神经网络均包括求均值层、两个LSTM层和求和归一化层，所述求均值层用于求输入所述求均值层的特征矩阵的各个通道向量的平均值并输出第二特征向量，所述求和归一化层用于对所述两个LSTM层输出的隐态向量进行求和以及归一化处理并输出隐态向量；

8.一种音频解压缩方法，其特征在于，包括：

获取目标音频压缩数据，其中，所述音频压缩数据为根据权利要求1至7中任一项所述的音频压缩方法压缩得到的音频压缩数据；

将所述S个音频片段按序拼接，得到解压后的音频数据。

9.根据权利要求8所述的方法，其特征在于，所述带残差的膨胀卷积网络包括串联的Q个带反卷积残差的膨胀卷积网络层，每个所述带反卷积残差的膨胀卷积网络层均包括膨胀卷积网络层、反卷积网络层和求和归一化层，其中，所述膨胀卷积网络层的输入和所述反卷积网络层的输入相同，所述膨胀卷积网络层的输出和所述反卷积网络层的输出均输入至所述求和归一化层，Q为正整数。

10.一种模型训练方法，其特征在于，包括：

11.一种音频压缩装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的音频压缩方法的步骤，或者实现如权利要求8至9中任一项所述的音频解压缩方法的步骤，或者实现如权利要求10所述的模型训练方法的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的音频压缩方法的步骤，或者实现如权利要求8至9中任一项所述的音频解压缩方法的步骤，或者实现如权利要求10所述的模型训练方法的步骤。