CN110718211A

CN110718211A - 一种基于混合压缩卷积神经网络的关键词识别系统

Info

Publication number: CN110718211A
Application number: CN201910915999.5A
Authority: CN
Inventors: 刘波; 李焱; 朱文涛; 孙煜昊; 沈泽昱; 杨军
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2020-01-21
Anticipated expiration: 2039-09-26
Also published as: CN110718211B

Abstract

本发明提出了一种基于混合压缩卷积神经网络的关键词识别系统，属于计算、推算、计数的技术领域。该系统包括模数转换模块、特征提取模块、混合压缩卷积神经网络模块，分别对卷积神经网络的输入值进行高阶残差量化，对神经网络的权重值进行细粒度渐进量化和激活值的低比特量化，再对卷积核进行基于前后级联合评价策略的剪枝，以此降低网络的参数量和模型大小。通过量化来降低神经网络的参数大小，通过剪枝降低网络的计算量，从而达到优化网络的目的。

Description

一种基于混合压缩卷积神经网络的关键词识别系统

技术领域

本发明公开了一种基于混合压缩卷积神经网络的关键词识别系统，涉及卷积神经网络的压缩优化，属于计算、推算、计数的技术领域。

背景技术

由于深度神经网络的性能远远超越了传统机器学习算法，深度学习技术在诸多领域不断推进，在可穿戴设备、机器人和智能家居等领域有着广阔的应用前景，如今通过深度神经网络识别关键词已经取得了比过去好得多的性能，其中，卷积神经网络是非常重要的一种实现方式，但神经网络的规模巨大，与传统方法相比有更多的参数和计算量。规模巨大的深度神经网络需要用大量的存储资源来支撑它的运算。

神经网络大量参数产生的较大存储需求往往不利于移动端和便携式设备的小型化，而大量的计算产生的较高功耗使得便携式设备难于长时间运行。因此，对深度神经网络的压缩成为了迫切需求。随着便携式设备的发展，语音识别相关技术有着较为广阔的应用前景，利用现有的压缩神经网络处理语音特征参数影响关键词识别系统的准确率，难以满足语音关键词识别高准确率且低功耗的应用需求，如何在便携式设备中实现语音关键词的高精度识别并降低设备功耗是将关键词识别系统在便携式设备上广泛应用亟待解决的问题，本申请旨在通过多种方法压缩神经网络模型，使关键词识别系统具有较小的内存占用量和较低的计算量，减少硬件实施时所消耗的资源。

发明内容

本发明的发明目的是针对上述背景技术的不足，提出一种基于混合压缩卷积神经网络的关键词识别系统，以满足神经网络在移动端和便携式设备上部署的需求，并低功耗、高准确率地完成关键字识别任务，解决了现有语音关键词识别系统难以在移动终端和便携式设备中实现的技术问题。

本发明为实现上述发明目的采用如下技术方案：

一种基于混合压缩卷积神经网络的关键词识别系统，包括：模数转换器模块、特征提取模块和混合压缩卷积神经网络模块。其中，混合压缩卷积神经网络模块又包括：输入值的高阶残差量化模块、权重值的细粒度渐进量化模块、激活值的低比特量化模块以及基于前后级联合评价策略的卷积核级剪枝模块。

基于混合压缩卷积神经网络的关键词识别系统，先由模数转换器模块将真实的人声由模拟信号转变到数字语音信号，然后将所得到的数字语音信号输入到特征提取模块里，经过特征提取模块提取出的语音特征信息再输入到混合压缩卷积神经网络模块里训练。

权重值的细粒度渐进量化模块通过渐进量化的方式将权重量化为二值，该过程主要分为以下三个部分：(1)权重分组，(2)权重基于分组进行量化，(3)网络训练。首先是权重分组，将全精度浮点型网络模型中每一层的权重数据分为两组，分组的依据是权重数值绝对值的大小，由于不同的大小代表了不同的重要性，数值较大的权重有更强的重要性，选取一定比例的数值较大的权重，比例设为C，将该组权重作为量化组，其余1-C比例的权重作为固定组，然后基于第一步的分组情况，对更重要的量化组进行量化，而固定组的权重保持原值暂时不参与量化，作此处理后对建立的低比特网络模型重新训练以补偿量化给网络模型造成的精度损失。继续对未量化的权重参数重复上述三种操作，不断迭代直至模型权重全部量化为止。此过程建立了互补的两个部分：低比特的网络模型和重训练补偿精度损失。渐进量化策略有更小的信息损失，确保网络模型准确率降低得更少。

激活值的低比特量化模块对将网络每一层的输出值(也即下一层网络的输入值)进行量化，量化的位宽一般取1、2、4、8比特。对激活值的量化分为两个部分，首先通过约束函数将输出值约束到[0,1]，然后对约束值进行量化。以A表示待量化的输出值，K为量化的位宽。其中，K是可配置的，当K＝1即量化到1 比特时，即对网络进行了二值化处理。输出值在进行数值范围约束之前的数据处理将在本小节后面的网络调整部分介绍。为进行量化，需要先确保待量化数值的范围为[0,1]，为此约束函数h(A)将小于零的值归为0而将大于1的值归为1，公式如下所示：

h(A)＝clip(A,0.0,1.0)。

然后对A_bound(A的约束值，A_bound＝h(A))进行K比特量化，这通过量化函数Q(x)实现，Q(x)实施过程分为如下步骤：(1)：将A_bound缩放到K比特可以表示的范围内[0,2^K-1]，(2)：将缩放后的值四舍五入取整，(3)：仍将输出约束到[0,1]，整个量化函数如下所示：

输入值的高阶残差量化模块将输入量化为K比特的过程是：根据量化后的残差是否小于一个较小的阈值以判断是否需要对残差继续量化，通过阈值进行动态迭代直至量化后的残差符合要求。首先，将输入量化为K比特，为了尽可能多地保留特征减少信息损失，对量化后的残差继续进行K比特量化，通过不断迭代直至量化后的残差小于设定的阈值，将各次的量化值作为输入。输入第一层后，将其经过第一层卷积层处理的对应输出相加后作为第一层卷积层的最终输出。

首先，对输入X进行K比特量化，量化的结果作为一阶量化值H₁，然后，将H₁作为第一层卷积层的输入，经过第一层卷积计算后的输出值用Y₁表示，判断一阶量化后的残差R₁(X)，如果残差大于设定的阈值，则继续进行量化，此时，量化的对象是一阶量化后的残差值R₁(X)，量化结果为二阶量化值H₂，将H₂经过第一层卷积层计算的输出用Y₂表示；判断二阶量化后的残差R₂(X)，若残差值小于设定的阈值则不再继续量化，若残差值仍大于设定阈值则继续对残差进行量化，直至量化后的残差小于设定阈值；最后，将各阶量化值经过第一层卷积层的输出值Y₁、Y₂等相加作为第一层卷积层的总输出。输入X的高阶残差量化近似值以及各阶残差公式如下所示：

R₀(X)＝X，

其中，i＝1,2,…,K，R_i(X)表示输入X经i阶量化后的残差值。

在对输入数据量化前先将输入同比例缩放到[0,1]的范围，然后按照激活值的低比特量化模块对激活值的量化方法进行比特的量化，将此量化函数记为 Quantization(X)。

基于前后级联合评价策略的卷积核级剪枝模块通过剪枝去掉不含信息量的参数实施以卷积结果为导向的多级联合评价，其过程为：1)用第i层的输入特征图的一个子集作为第i层的输入，假如这个子集输入得到了剪枝前第i层的相近输出，那么这个子集以外的特征图就可以去掉了；2)因为第i层的一个输入特征图是由第i-1层的一个卷积核产生的，因此去掉第i层的特征图的同时也就可以去掉第i-1层相应的卷积核；3)对每一层进行迭代。保留下的特征图得到了与剪枝前接近的输出，这也可以理解为丢弃的特征图与卷积核的卷积输出近似为零。

卷积核在输入数据X子区域的卷积公式如下所示：

卷积核以此计算方式在X滑动得出一个特征图。记X^l为第l层的输入特征图，将第二层的第i个卷积核卷积后的特征图记为

第二层共有M个卷积核，因此第二个卷积层的输出特征图有M个，以Y²表示整个输出。注意，在涉及特征图时符号∑不表示求和，而是表示集合的意思。设剪枝率为r，则丢弃第一层的卷积核数为R＝K×r,保留K-R个卷积核。因此，在第二层输入的K个特征图中求出一个子集，这个子集含有特征图的个数K²＝K-R，用符号表示

将第二层剪枝后的卷积输出用符号

表示，其中，

为第i个卷积核在相应的K-R个通道上的卷积结果，计算公式如下所示：

用S表示保留特征图的集合序列，T表示丢弃的集合序列。以保留子集的输出与原来输出的接近程度作为挑选子集的依据，因此子集的选择问题可以转化为下式所示的求解问题：

表示第二层输入的第j个特征图与第i个卷积核的卷积结果。要使剪枝后的结果与原结果的误差愈小，则被丢弃的特征图与卷积核的卷积结果愈接近零，因此上式所示的求解问题可以转化为求解如下公式：

将误差值记为E，E的表示如下式所示：

最后，可以用贪心算法求解出最优的剪枝方案。

本发明采用上述技术方案，具有以下有益效果：

(1)本申请通过对神经网络进行包括输入量高阶量化、激活值低比特量化的、权重值细粒度渐进量化的混合压缩卷积实现网络参数的降低，通过前后级联合评价策略的剪枝降低计算量，能够保证关键词识别系统的准确率不受网络压缩的影响，满足了关键词识别系统在移动端和便携式设备上部署的需求，并且低功耗、高准确率地完成关键字识别任务。

(2)本申请涉及的混合压缩卷积神经网络通过执行二值乘法和加法的乘法单元实现，将乘法操作变为二值乘法降低计算量与芯片面积，可根据应用场景选择配置乘法单元的计算精度以降低功耗，在保证关键词识别系统准确率不受网络压缩影响的同时减少硬件资源消耗，有利于该语音关键词识别系统在小型化便携式设备上的实现。

附图说明

图1为本发明的关键词识别系统的整体架构示意图。

图2为本发明的神经网络结构示意图。

图3为本发明的混合压缩卷积神经网络的具体压缩方式。

图4为本发明的权重值的细粒度渐进量化模块。

图5为本发明的输入值的高阶残差量化模块。

图6为本发明的前后级联合评价策略的卷积核级剪枝模块。

图7为本发明的卷积运算的示意图。

图8为本发明的神经网络基于FPGA实现的系统整体架构。

图9为本发明的基本处理单元PE。

图10(a)、图10(b)分别为本发明的基本处理单元PE的二值乘法部分和累加部分。

图11为本发明的可配置PE单元结构图。

图12为本发明的基于混合压缩的卷积神经网络压缩方法流程图。

具体实施方式

下面结合具体实施例进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本申请公开的关键词识别系统，其整体架构如图1所示，语音信号在经过模数转换器模块后紧接着通过特征提取模块，提取出的特征矩阵将被送入神经网络进行训练以完成识别任务。此例中，神经网络共有五个卷积层和三个全连接层，网络结构示意图如图2所示。五个卷积层组成的层级结构能够有效地从输入信息中提取到有用的特征，经过卷积层提取到的有用特征被送入后面的三个全连接层得到语音信号的类别。

特征提取模块，由七个部分组成，(1)预加重，(2)分帧，(3)加窗，(4) 快速傅里叶变换，(5)Mel滤波器组，(6)对数运算，(7)离散余弦变换。

1)预加重。预加重是为了提高高频部分，平滑信号频谱，并使频谱从低频范围到高频范围都可以用相同的信噪比求频谱。同时，可以消除声带和嘴唇在声音产生中的影响，使发音过程中被抑制的语音信号的高频部分得到补偿，并且可以强调高频共振的峰值。

2)分帧。是将N个采样点组在称为帧的一个观测单元中。通常N的值是 256或512，并且所覆盖的持续时间是大约20到30ms。为了避免两个相邻的帧变化过大，在两个相邻帧之间存在重叠区域。重叠区域包含M个采样点。通常， M的值约为N的1/2或1/3。一般用于语音识别的语音信号采样率为8kHz或16 kHz。

3)加窗。每一帧被乘以汉明窗，这样增加了帧左右端的连续性。

4)FFT。因为不同的能量分布表示语音的不同特征，因此将语音信号变换成频域上的能量分布，为此需要经过快速傅里叶变换处理。采用傅里叶变化处理各帧信号得到各帧的频谱，并对频谱取模平方得到功率谱。

5)滤波。将能量谱通过一组有M个三角形滤波器的滤波器组，三角带通滤波器可以使频谱更平滑并可以消除谐波的影响。

本文在特征提取过程中对传统的MFCC做了一些改变。在MFCC处理过程中需要对预加重后的语音信号进行分帧处理，每帧所覆盖的持续时间一般是20 到30ms。为了避免两个相邻帧的变化太大，在两个相邻帧之间存在交叠区域，重叠区域通常为10ms。这样对一段语音信号分帧需要分成的帧数更多，因此计算量也就更大，为了使计算量得到减少，在分帧处理时每帧覆盖25ms，并且从前一次采样的末尾开始下一次采样，相邻两帧之间不存在交叠，通过多次测试，并没有发现准确率与传统分帧处理有明显性能损失。在FFT处理后的信号要经过带通滤波器，常规方法所采用的滤波器组是三角形滤波器(mel滤波)，经三角形滤波器滤波是一个乘累加的过程，而把三角滤波器换成矩形滤波器，则滤波过程就变换成了加与不加的过程，这可以简化计算过程。混合压缩卷积神经网络的功能实现如图3所示，包括：对权重值细粒度渐进量化、对激活值进行低比特量化、对输入值进行高阶残差量化、对卷积核的剪枝。

首先，需要从输入层开始，对卷积神经网络的第一层的输入数据采用输入值高阶残差量化，对输入量X进行K比特量化，量化的结果作为一阶量化值H₁，然后将H₁作为第一层的输入，经过第一层卷积计算后的输出值用Y₁表示，判断一阶量化后的残差R₁(X)，根据设定的阈值，如果残差大于阈值，则继续进行量化，此时量化的对象是一阶量化后的残差值R₁(X)，量化结果为二阶量化值H₂，将H₂通过第一层的输出用Y₂表示。现在以二阶残差量化举例，如图5所示，首先对输入张量X采用函数Quantization(X)进行量化，将一阶量化值记为H₁，然后同样对一阶量化后的残差量化，记二阶量化值为H₂，输入最终的残差为R₂，将两次的量化值作为总的输入，运算关系如下所示：

H₁＝Quantization(X)，

R₁＝X-H₁，

H₂＝Quantization(R₁)，

X＝H₁+H₂，

R₂＝X-H₁-H₂＝R₁(X)-H₂，

判断二阶量化后的残差R₂(X)，若残差值小于阈值则不再继续量化，若残差值仍大于阈值则继续对残差进行量化，直至量化后的残差小于阈值；最后将各阶量化的第一层输出值Y₁、Y₂等相加作为第一层总的输出。

接下来便是卷积神经网络内部的量化，需要对权重采用权重值细粒度渐进量化模块来进行量化，对激活值采用激活值低比特量化模块进行量化，假设渐进量化的比例因子D＝[0.5,0.75,0.875,1]，先选取权重的量化比例为0.5，如图4所示，按照细粒度渐进量化方法对所需量化的权重进行量化，其它比例的权重保持不变，并对每层的激活值进行低比特量化，假定量化位宽为K，这便是网络的前向过程，然后对网络进行训练，得到当前的最优模型，卷积运算如图7所示。按D依次增加渐进量化的比例因子0.75直到增加到1，重复以上部分，直至权重全部量化，得到最终量化网络。

然后是剪枝，由于卷积核级剪枝是根据卷积的结果来确定剪枝，而卷积结果与权重相关，因此先进行上述的量化，通过训练使权重确定后再进行卷积核级剪枝。如前所述的前后级联合评价策略的卷积核级剪枝模块对第一层的卷积核进行剪枝，依次迭代，直至完成所有层的剪枝，如图6所示。

基于混合压缩的卷积神经网络压缩方法的流程如图12所示，一开始，提取出的语音特征参数输入卷积神经网络，并对神经网络的第一层输入进行输入值的高阶量化操作，然后设定权重值的细粒度渐进量化比例因子D，然后再进行激活值的低比特量化，与此同时进行网络训练，当满足D[k]＝1后，将进行卷积核级剪枝操作，最后完成对该网络的压缩。

本申请公开的基于混合压缩卷积神经网络的关键词识别系统能在FPGA实现，该系统的整体架构如图8所示，其中数据和权重存储在外部DDR模块中，处理系统(Processingsystem,PS)通过AXI总线控制可编程逻辑(Progarmmable Logic,PL)加速器模块。系统上电复位后，通过PS端控制神经网络加速器模块的初始化，数据和权重通过DMA模块加载到PL端内部的数据缓冲模块。当数据和权重加载完成后，通过PL端内部的Control控制器模块将每一层网络中的乘加运算操作数加载到多个并行的PE阵列模块中，每一层网络计算完毕之后，将该层网络的计算结果输出到数据缓冲模块。同时，在Control模块的控制下判断该层网络是否为卷积操作，如果是卷积运算操作，则将该卷积结果输出到池化模块和BN归一化模块中，同时将计算结果返回到数据缓冲模块中；如果是全连接的操作，则将该全连接的结果输出到BN归一化模块，同时将计算结果返回到数据缓冲模块中。该层网络计算结束后，将该层网络的输出作为下一层网络的输入，重复之前的操作。

基本处理单元PE如图9所示，它可以实现乘累加的操作，分为乘和加两个部分。乘的部分如图10(a)所示，由于权重是二值化的，所以特征数据与权重的乘法不用执行乘法操作，可以通过对权重做检测，若是1，则输出原值，若是 -1，则对输入进行取补然后输出。其中，s1信号置0，它控制基本PE单元执行特征数据为4bits的运算。累加操作如图10(b)所示，s3选择输入0，把加法器的结果存入到部分和寄存器PSum。s2可以选择输入0还是输入1，如果卷积处理单元刚开始进行一个卷积计算，s2选择输入0。如果部分和寄存器中已经存在数据并且本次累加计算尚未完成，则s2选择输入1。

语音信号在存在噪声时，网络需要更多的数据位宽，噪声越大，数据位宽的需求越高。基本PE单元是针对特征数据位宽为4bits设计的，为了在噪声情况下也能保证网络的准确率，PE阵列是可配置的，通过配置PE阵列可以支持8bits 数据的运算。两个支持4bits运算的PE通过配置可以完成8bits数据的运算。可配置PE单元如图11所示。其中，s1信号是控制PE处理的数据位宽为4bits还是8bits，当需要用两个PE组成8bits的PE时，将s1信号置1。此时将8bits的数据分为低四位和高四位分别送给PE1和PE2，并将PE1的乘法进位信号c_in0 送给PE2。对于加法部分，将PE1低四位加法的加法进位信号c_in送入PE2的加法单元，PE1和PE2的输出值拼接组成8bits数据的计算结果。

Claims

1.一种基于混合压缩卷积神经网络的关键词识别系统，其特征在于，包括：

模数转换模块，将采集的音频信号从模拟信号转换为数字信号后输出至特征提取模块，

特征提取模块，从模数转换模块输出的数字信号中提取语音特征参数，及，

混合压缩卷积神经网络模块，通过对各层的输入量进行高阶量化以及对权重值细粒度量化的前向传播训练语音特征参数，前向传播的过程中对激活值进行低比特量化，输出符合精度要求的关键词识别结果。

2.根据权利要求1所述一种基于混合压缩卷积神经网络的关键词识别系统，其特征在于，在保证关键词识别结果精度要求的前提下精简语音特征参数以实现卷积核的剪枝。

3.根据权利要求1所述一种基于混合压缩卷积神经网络的关键词识别系统，其特征在于，对各层的输入量进行高阶量化通过迭代量化后的残差直至残差小于设定阈值的方式实现。

4.根据权利要求1所述一种基于混合压缩卷积神经网络的关键词识别系统，其特征在于，对权重值细粒度量化通过逐渐增加量化比例因子的方式实现每一层网络权重的渐进量化。

5.根据权利要求1所述一种基于混合压缩卷积神经网络的关键词识别系统，其特征在于，对激活值进行低比特量化的方法为：将神经网络层输出值约束到[0,1]后再缩放至K比特表示的范围内，对缩放后的值取整后再约束到[0,1]。

6.根据权利要求2所述一种基于混合压缩卷积神经网络的关键词识别系统，其特征在于，在保证关键词识别结果精度要求的前提下精简语音特征参数以实现卷积核的剪枝通过求解

实现，S为保留的语音特征参数的集合序列，M为第二层卷积网络共有的卷积核数目，Y²为第二层卷积网络的所有输出，为第二层神经网络输入的第j个语音特征参数与第i个卷积核的卷积结果。

7.根据权利要求5所述一种基于混合压缩卷积神经网络的关键词识别系统，其特征在于，对激活值进行低比特量化的表达式为：

A_q为激活值的低比特量化值，round(*)为四舍五入取整操作，A_bound为神经网络层输出值在[0,1]内的约束值。

8.根据权利要求1所述一种基于混合压缩卷积神经网络的关键词识别系统，其特征在于，所述混合压缩卷积神经网络模块中的PE阵列包含多个PE单元，每个PE单元包括：

乘法部分，其输入端接语音特征参数和二值化权重，在二值化权重为1时输出语音特征参数，在二值化权重为-1时对语音特征参数进行取补操作后输出，及，

累加部分，对乘法部分的输出量累加后输出。

9.根据权利要求8所述一种基于混合压缩卷积神经网络的关键词识别系统，其特征在于，所述混合压缩卷积神经网络模块中PE阵列的位宽可配置，根据位宽要求级联PE单元，下一PE单元的乘法部分对语音特征参数及上一PE单元乘法部分取补操作后的进位信号进行二值化乘法计算，下一PE单元的累加部分对该PE单元中乘法部分的输出量及上一PE单元加法部分的进位信号进行累加操作。