CN109785847A

CN109785847A - 基于动态残差网络的音频压缩算法

Info

Publication number: CN109785847A
Application number: CN201910072231.6A
Authority: CN
Inventors: 赵岩鑫; 金文清; 张逸; 韩芳; 王直杰; 黄荣
Original assignee: Donghua University
Current assignee: Donghua University; National Dong Hwa University
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2019-05-21
Anticipated expiration: 2039-01-25
Also published as: CN109785847B

Abstract

本发明属于音频信号压缩处理领域，具体涉及一种基于残差网络的动态编码算法。该算法基于深度学习中的残差网络方法进行设计，主要包括自编码器预处理模块、多段残差网络的动态编码、动态残差网络的模型压缩三大部分。该算法首先对音频进行分割，并依据心理声学对音频信号进行特征剔除，之后使用自编码器进行预训练。利用双向循环神经网络优化在多段残差中动态编码的注意力行为，实现动态比特率分配，从而使动态残差网络的压缩效果更好。最后利用蒸馏学习的方式对网络进行模型压缩训练，降低训练难度，最终获得压缩性能良好的编码方式。

Description

基于动态残差网络的音频压缩算法

技术领域

本发明涉及一种基于残差网络的动态编码算法，属于音频信号压缩领域。

背景技术

移动互联网的快速发展带来的各种应用已经成为我们生活的一部分，智能手机或平板电脑上大量的娱乐已经应用成为移动终端产品的重要组成部分，并得到广大用户的认可和追捧，智能终端的新媒体与社交网络也正逐渐、深刻地影响全世界人们的生活与工作方式。通过电子产业领域，我们可以清晰地看到，科技变革的推力作用对电子消费品行业的影响异常迅猛。云计算和云概念产品作为非常前卫的技术，正成为市场应用的一大特点。

由于数字信号具有易于存储和远距离传输、没有累积失真、存储的信息可高品质地还原等特点，他已被应用在人们日常生活的许多方面。但是，它也有其不足：一些重要的信号，如语音、音乐、影视的数字化版本，其数据量巨大，传输和存储的成本较高。而且，随着新技术和新应用的不断出现，还有可能出现数码率更高的信源。今年我国加大对音乐版权的保护，并伴随互联网的高速发展，网络音乐平台逐渐开始取代实体音乐产业成为人们主要消费音乐的手段。中国人口基数庞大，这对网络音乐平台的服务器和网络系统具有巨大挑战，这些数据的传输和存储便是一个困难的问题，而编码技术正是针对这一问题而提出的解决办法。因此，音频压缩技术成为减少服务器负担的重要手段。

人类听觉并非能够识别所有的声音信号数据，需要通过识别人耳难以捕捉的信号从而减少知觉的冗余性。通过基于心理声学的有损压缩，隐藏不易察觉的高频细节的技术是重要的。例如通过减少分配给高频分量的比特数来完成。这样做并不是因为原始信息只包含一些高频成分，而是人耳感知低频的能力要强于高频。从而高频细节被很好地隐藏并且不被察觉。为了进一步压缩信号，甚至可能降低采样率和通道数。这些有损压缩是在一定程度上是失真的，对声音的泛音有较大的影响，使得声音不够饱满，降低了人们的听觉感受。把这些难以识别的信号删除还不足以获得可观的比特削减效果。减少信号编码时的位数能降低信噪比，同时使数据存储占用更小的空间。

发明内容

本发明的目的是：在不牺牲过多音频品质的同时尽可能地降低压缩后数据的大小。

为了达到上述目的，本发明的技术方案是提供了一种基于动态残差网络的音频压缩算法，其特征在于，实现了动态音质，包括以下步骤：

步骤1、利用自编码器预处理模块基于心理声学对音频信号进行特征剔除之后，利用改进的自编码器对音频信号进行特征压缩；

步骤2、利用多段残差网络对特征压缩后的音频信号进行动态编码，多段残差网络利用注意力机制进行动态比特率分配，并且通过多个网络针对不同的信号残差进行网络训练，实现动态音质；

步骤3、对多段动态残差网络的解码器部分进行优化的模型压缩，其中，利用蒸馏学习的方式对动态残差网络进行模型压缩训练，方便模型部署。

优选地，所述多段残差网络利用双向循环神经网络对所述自编码器预处理模块最后一层特征层进行分段后，分析并输出注意力向量，从而动态调节音频信号每个段落所需要的比特数，将输出的注意力向量和比特量化误差作为损失函数的一部分，通过训练尽可能地减少比特数。在多段残差网络的训练中，选用了三个网络，分别针对前一网络的的残差进行训练，并且每一个网络针对信号进行复杂度分析，从而选用合适的权重参数，最终实现动态音质。

优选地，所述动态残差网络利用蒸馏学习的方式对分解卷积核的网络进行再学习，然后进行卷积核核内分析，排除不重要的卷积核从而减小总体网络的参数量，并在维度失衡的情况下对网络进行一定程度的重构，在尽量较少降低网络性能的同时尽可能地减少网络的运算负担，使其在更多的硬件环境中有更好的表现。优选地，步骤1中，音频信号进行特征剔除之后，利用空洞卷积和转置卷积来压缩特征，逐层贪婪实现预训练。

优选地，步骤3中，所述蒸馏学习的方式为：将训练好的复杂模型的压缩能力迁移到一个结构更为简单的网络中或者通过简单的网络去学习复杂模型中编码方式，进而方便模型部署。

本发明首先构造了一种基于卷积宽感受野的自编码深层神经网络，对音频的脉冲调制编码进行特征提取，结合批标准化防止了数据训练过程中的漂移问题。基于此，提出了一种改进的自编码器的动态编码实现方法，解决了神经网络的难以处理离散数据的问题。之后，引入了注意力机制，根据音乐动态进行自适应地分配不同的比特数。并且，在引入残差训练后，通过多个网络对不同的信号残差去进行网络训练，使用时各取所需，从而实现了动态的音质。最后，为了解决移动平台的计算力匮乏从而导致不能实时解码的问题，通过参数分析和模型结构分解优化实现了对解码器的模型压缩，从而减小复杂度和加速计算，提高算法在计算力相对缺乏的移动平台的性能表现。

本发明采用了：一种基于卷积宽感受野的自编码深层神经网络。一种与注意力机制结合的多段动态残差网络，解决了网络层数过深产生的网络退化问题。一种为了解决移动平台的计算力匮乏从而导致不能实时解码的问题，通过参数分析和模型结构分解优化实现的音频压缩模型。

所述的基于卷积宽感受野的自编码深层神经网络，整体网络由编码器、解码器、量化三部分。经过量化后，解码器端可以使用反卷积将量化的结果还原成音频序列。编码器和解码器都由四个包含批标准化、卷积、Leaky ReLU的单元组成，编码器层的卷积使用带有步长空洞卷积，解码器使用转置卷积，量化使用双曲正切函数，以脉冲编码调制作为输入，以信号本身为训练目标进行训练。解决了在没有池化层的情况下，感受野过小无法捕捉超长序列整体特征的问题，和感受野不大导致高层单元所能感受到的样本数不足的问题，提高了捕捉低频率信号的能力。

所述的动态多段残差网络，主要使用了基于注意力机制的动态编码方法。本发明使用的是双向循环神经网络，对编码器最后一层特征层进行分段后分析并输出注意力向量，从而动态调节音乐每个段落所需要的比特数。对于每秒的音乐节奏，将信号分为5段进行动态分析，将输出的注意力向量和比特量化误差作为损失函数的一部分，通过训练尽可能的减少比特数。在多段残差网络的训练中，选用了三个网络，分别针对前一网络的的残差进行训练，并且每一个网络都会针对信号进行复杂度分析，从而选用合适的权重参数，最终实现动态音质。

所述的动态残差网络的移动平台模型优化，使用了基于结构的卷积分解方法。使用深度卷积分解相比通常的卷积神经网络更加轻量化，同时导入宽度乘子和分辨率乘子从而调节计算耗时和准确率。在此基础上使用核内分析的方法对卷积层进行了裁剪。使用深度卷积分解可以在性能和响应时间有限的移动设备上进行相对复杂的网络构造和计算。

附图说明

图1为改进的自编码器架构；

图2为基于注意力机制的动态编码网络结构；

图3为深度卷积分解示意图；

图4为多段残差网络结构。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明提供的一种基于动态残差网络的音频压缩算法主要包括自编码器预处理模块、多段残差网络的动态编码、动态残差网络的模型压缩三大部分。

自编码器预处理模块主要用于在基于心理声学对音频信号进行特征剔除之后，利用改进的自编码器对其特征压缩。其中自编码器采用了卷积神经网络进行优化，加速网络从而能够针对大规模数据进行训练。

多段残差网络的动态编码是利用双向循环神经网络对编码器最后一层特征层进行分段后，分析并输出注意力向量，从而动态调节音乐每个段落所需要的比特数。将输出的注意力向量和比特量化误差作为损失函数的一部分，通过训练尽可能的减少比特数。网络的损失函数为：

式中，x表示输入信号，E(·)表示编码器部分，D(·)表示解码器部分，L₂(D(E(x)),x)表示原本网络的损失误差，λ₁、λ₂表示损失权衡权重，A_i表示注意力机制向量，b_j(x)表示量化结果。

动态残差网络的模型压缩是根据卷积在不同维度中的运算方式，将卷积核运算进行分解。并利用蒸馏学习的方式对分解卷积核的网络进行再学习，然后进行卷积核核内分析，排除不重要的卷积核从而减小总体网络的参数量，并在维度失衡的情况下对网络进行一定程度的重构，在尽量较少降低网络性能的同时尽可能地减少网络的运算负担，使其在更多的硬件环境中有更好的表现。

具体实施方式如下，首先采用自编码器预训练的方式来解决训练过程中梯度消失的问题，同时减短了训练的收敛时间。在此基础上，引入空洞卷积可以很好地解决在没有池化层情况下感受野过小无法捕捉超长序列整体特征的问题，和感受野不大则会导致高层单元所能感受到的样本数不足，难以捕捉到低频率信号的问题。空洞卷积对卷积核输入进行下采样，在多层神经网络的情况下通过调整输入步长和输出步长，能够扩大卷积核的感受野。

式中，是第t帧对第l个卷积核的卷积输出，这里的I应为一个向量，I_α(t+d(β))表示输入信号，K为所有的卷积核，C为所有的通道，k是卷积核在时间维度上的大小，d是空洞稀疏函数，ReLU(·)表示激活函数，α表示通道变量，β表示卷积核数量，表示相应的权重，b^l表示相应的偏置值。

在基于注意力机制的动态比特率分配上，对编码器最后一层特征层进行分段后分析并输出注意力向量从而动态调节音乐每个段落所需要的比特数，使用双向循环神经网络获得信号在不同时间段的复杂程度，从而控制量化的精确程度，最后根据权重系数对数据分布进行统计，确定量化所需的比特数。

通过注意力机制，利用解码器位于某时刻的隐藏层向量以及编码器各个时刻的隐层向量来计算注视时刻输入数据的得分。之后通过对得分的加权平均，计算这个时刻的隐藏层向量。最终利用下式来计算量化结果。

b_i(x)＝tanh(α_iE(x))

式中b为量化结果，E是编码器，α为注意力系数。

注意力机制通过循环神经网络计算出注意力向量，对于某一个时间段的值越大，意味着这段时间内信号越简单。双曲余弦函数越紧凑、越接近阶跃函数，所需要的量化要求低，带来的量化误差小。相反某一时间段注意力的值越小，则双曲余弦函数越平坦，则需要进一步使用其他量化方法降低误差。

进一步采用了多个残差网络提供不同的音质服务，后一个网络针对前一个网络的残差进行训练，网络间增加卷积层融合前后网络的特征层，通过分析每个网络的提升效果进行动态的调节音质，同时不会因多种音质而导致重复

模型压缩训练中，本文使用利用卷积分解后的解码器作为学生网络，将原网络的解码器作为教师网络，使用软目标和L2损失进行训练。同时解码器针对每个卷积块进行分解，中间过渡的维度不变，因此可以使用逐层贪婪训练的方法依据卷积块逐层进行教学训练，大大减小了训练难度，提高了模型的部署能力。

Claims

1.一种基于动态残差网络的音频压缩算法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于动态残差网络的音频压缩算法，其特征在于，所述多段残差网络利用双向循环神经网络对所述自编码器预处理模块最后一层特征层进行分段后，分析并输出注意力向量，从而动态调节音频信号每个段落所需要的比特数，将输出的注意力向量和比特量化误差作为损失函数的一部分，通过训练尽可能地减少比特数。

3.如权利要求1所述的一种基于动态残差网络的音频压缩算法，其特征在于，所述动态残差网络利用蒸馏学习的方式对分解卷积核的网络进行再学习，然后进行卷积核核内分析，排除不重要的卷积核从而减小总体网络的参数量，并在维度失衡的情况下对网络进行一定程度的重构，在尽量较少降低网络性能的同时尽可能地减少网络的运算负担，使其在更多的硬件环境中有更好的表现。

4.如权利要求1所述的一种基于动态残差网络的音频压缩算法，其特征在于，步骤1中，音频信号进行特征剔除之后，利用空洞卷积和转置卷积来压缩特征，逐层贪婪实现预训练。

5.如权利要求1所述的一种基于动态残差网络的音频压缩算法，其特征在于，步骤3中，所述蒸馏学习的方式为：将训练好的复杂模型的压缩能力迁移到一个结构更为简单的网络中或者通过简单的网络去学习复杂模型中编码方式，进而方便模型部署。