CN112786021B

CN112786021B - 一种基于分层量化的轻量级神经网络语音关键词识别方法

Info

Publication number: CN112786021B
Application number: CN202110101761.6A
Authority: CN
Inventors: 陆生礼; 胡忠元; 庞伟
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2024-05-14
Anticipated expiration: 2041-01-26
Also published as: CN112786021A

Abstract

本发明公开了一种基于分层量化的轻量级神经网络语音关键词识别方法，属于计算、推理、计数的技术领域。该系统包括：语音采集模块、特征提取模块、轻量级神网络加速器以及分层8bits量化模块等。轻量级神经网络采用深度可分离卷积神经网络和注意力机制Squeeze‑and‑Excitation，通过将传统卷积替换成深度可分离卷积，降低神经网络的参数量和计算量，通过引入注意力机制，标注卷积过程中不同通道上特征的重要程度，提高模型的识别准确率，通过对神经网络的权重值量化和激活值分层8bits量化，进一步降低模型的计算复杂度和神经网络的参数量，通过设计支持通道分离卷积和传统卷积的加速器，满足对数据带宽的不同需求，从而加速前向推理计算的过程。

Description

一种基于分层量化的轻量级神经网络语音关键词识别方法

技术领域

本发明涉及一种基于分层8bits量化轻量级神经网络的语音关键词识别方法及系统技术，属于计算、推理、技术的技术领域。

背景技术

随着越来越多的智能语音助手出现在我们的生活中，我们会愈发地感受到，人们与智能终端的交互方式，正从触控模式慢慢转入到语音交互的模式上。同时，随着设备计算能力的发展、语音关键词识别技术的积累和语音数据的丰富，智能音响、车载语音交互等行业呈现出快速发展的状态，人机交互的频率越来越高，语音关键词识别相关的应用已经开始实实在在地在我们日常生活中普及开来，语音关键词识别系统拥有很多应用场景，如智能音响、车载交互等。

目前语音关键词识别主要通过云端和终端两种方式部署。通过云端方式识别，由于云端的资源充足，可以部署大型的神经网络进行语音识别，识别率非常高，但是在云端进行语音识别就需要将语音数据上传到云端，存在着数据泄露、数据传输延迟及成本高等问题。由于离线识别能够保障数据的安全性和实时性，所以在终端部署语音识别能够避免云端部署存在的问题，但是在终端部署高准确率的识别系统也面临着资源有限的问题。另外，语音关键词识别的精度、功耗及速度之间的平衡关系因不同的场景而变化。

发明内容

技术问题：本发明的发明目的是针对上述背景技术的不足，提出了一种基于分层量化的轻量级神经网络语音关键词识别方法，充分利用深度可分离卷积所带来的参数量和计算量大量减少的优势和注意力机制标注卷积过程中不同通道上特征的重要程度，进而提高模型识别的准确度和速度。通过分层8bits量化操作，将浮点运算转变成定点运算，减低了计算的复杂度与能耗，解决了现有语音关键词识别系统在移动终端和嵌入式设备中部署的技术问题。

技术方案：本发明的一种基于分层量化的轻量级神经网络语音关键词识别方法采用主要步骤如下：

步骤1.获取关键词语音音频数据集并对关键词语音音频数据进行增强；

步骤2.对所述增强的关键词语音音频数据通过特征提取模块提取音频信号中的声学特征；

步骤3.将所述音频信号中的声学特征组成特征向量送入到轻量级神经网络模型中进行训练，根据训练结果保存神经网络各层的权重参数，通过分层8bits量化将权重参数量化成8位并保存。

步骤4.设计支持通道分离卷积和传统卷积的神经网络加速器，加载所述量化后的8位权重到神经网络加速器中，加速前向推理计算过程，根据神经网络加速器的输出得到不同关键词的概率值；

步骤5.将所述不同关键词概率值中的最大值和预设阈值进行比较，大于阈值则根据预测结果判别输入的语音关键词，小于阈值则表示输入的语音中没有关键词。

所述语音增强包括添加噪声信号、对关键词信号随机左移或右移，增强系统的鲁棒性。

所述特征提取模块包括预加重、分帧加窗、快速傅里叶变换、梅尔滤波器处理和离散余弦变换；预加重对高频信号进行补偿；语音信号具有短时不变性，分帧加窗对所述增强的关键词语音音频数据进行分帧处理并补偿帧的起始端和终止段的连续性；快速傅里叶变换对分帧加窗后的帧信号进行快速傅里叶变化得到各帧的频谱，并且继续对频谱信号取模平方得到各帧的功率谱；梅尔滤波器处理将功率谱信号通过一组梅尔滤波器组，得到梅尔频谱；离散余弦变换对梅尔频谱先做取对数操作，再经过傅里叶逆变换组成声学特征。

所述基于分层8bits量化的轻量级神经网络模型结构主要包括卷积神经网络、深度可分离卷积神经网络、注意力机制Squeeze-and-Excitation全局信息嵌入和自适应重新校正注意力机制Squeeze-and-Excitation和分层8bits量化。

所述轻量级神经网络模型的第一层为卷积层，对输入的声学特征作特征提取，主要的参数包括：卷积核尺寸、卷积步长以及输出特征通道；所述的卷积核尺寸为3*3，输出特征通道数为64，卷积核步长为2；通过设置卷积核步长为2，在不使用池化操作下实现下采样功能。

所述注意力机制Squeeze-and-Excitation，主要用在深度可分离卷积网络中的逐通道卷积中，首先是全局信息嵌入Squeeze操作，在空间维度上进行特征压缩，将每一个二维的特征通道通过全局平均池化变成一个实数，该实数某种程度上具有全局感受野；其次是自适应重新校正Excitation操作，为每个通道生成权重参数，通过逐通道乘法方式加权到输入特征上，完成在通道维度上对输入特征的重标定。

所述分层8bits量化根据每一层权重参数的分布决定对该层量化的整数位宽；对于各层网络输出的激活值，根据推理结果的准确率调整激活值的量化位宽，不同层之间的量化位宽可能不一样，第2层采用3位整数位，而第3层中采用4位整数位，以此降低量化带来的精度损失。

所述神经网络加速器主要包括顶层控制单元、可配置数据流PE阵列、功能单元及量化单元；所述顶层控制单元根据配置信息，配置数据流和控制计算过程；所述可配置数据流PE阵列采用可配置片上网络结构，以支持深度可分离卷积、传统卷积及全连接等网络结构；所述功能单元及量化单元，实现池化、激活、批量归一化及分层8bits量化操作，通过神经网络加速器加速前向推理计算过程，完成基于分层8bits量化轻量级神经网络的语音关键词识别。

有益效果：本发明采用上述技术方案，具有以下效果：

(1)本发明提出了一种基于分层量化的轻量级神经网络语音关键词识别方法，通过创新性的将深度可分离卷积神经网络与注意力机制进行结合，不仅提高了关键词识别的准确率，还有效降低了模型的计算量和参数量。

(2)本发明提出了一种基于分层量化的轻量级神经网络语音关键词识别方法，通过分层8bits量化，不同层之间采用不同数据结构的量化方式，有效地在保证了准确率的同时降低了模型的推理复杂度。

附图说明

图1是本发明的关键词识别系统框图。

图2是本发明的关键词识别流程图。

图3是本发明的关键词神经网络结构图。

图4是本发明的分层8bits量化。

图5是本发明的神经网络加速器。

具体实施方式

为更加清楚地阐述本发明的发明目的、技术方案和技术效果，以下将结合附图及具体实施例，对本发明的技术方案进行详细说明。

本发明提供一种基于分层量化的轻量级神经网络语音关键词识别方法，识别流程如图2所示，识别方法包括如下五个步骤：

步骤一、数据增强。确定关键词，如“启动”、“刹车”等。制作语音关键词数据集，每个关键词录制1000个左右，同时负样本关键词语音数量需要是关键词数量的10倍左右，负样本的词汇尽可能多样。对所录制的语音关键词随机添加背景噪声，同时对添加后的语音数据随机左移或者右移100ms。对于属于关键词的正样本标注标签为1，对非关键词负样本标注标签为0。

步骤二、语音特征提取。由于声音在传播过程中，高频部分会有损失，利用预加重对高频信号进行补偿；语音信号具有短时不变性，因此以帧长40ms，帧移20ms的语音帧为单位进行提取，在提取出的语音上进行加窗，补偿帧的起始端和终止段的连续性，以防频谱泄露。快速傅里叶变换对加窗分帧后的帧信号进行快速傅里叶变化得到各帧的频谱，从而能够更好的观察到语音的特征，并且继续对频谱信号取模平方得到各帧的功率谱；由于人耳对声音的感知服从梅尔频率的变化，即人耳对声音感知的结果是相差两倍，那么在梅尔频率上表现的也是相差两倍，因此使用梅尔频率滤波器组对每一帧语音信号进行特征提取；离散余弦变换对梅尔频谱先做取对数操作，再经过傅里叶逆变换组成声学特征，将此作为网络的输入。

步骤三、模型模型训练。如图3所示，轻量级神经网络模块结构主要包括卷积神经网络、深度可分离卷积神经网络、注意力机制Squeeze-and-Excitation(SE)。轻量级网络模型的第一层为卷积层，对输入的声学特征作特征提取，主要的参数包括：卷积核尺寸、卷积步长以及输出特征通道；所述的卷积核尺寸为3*3，输出特征通道数为64，卷积核步长为2。通过设置卷积核步长为2，在不使用池化操作下实现下采样功能。第二层起使用深度可分离卷积网络提取特征，通过将普通卷积分成逐通道卷积和点卷积两个操作，所述逐通道卷积使用卷积核尺寸为3*3，卷积步长为1，在通道上进行逐通道卷积计算，同时将注意力机制Squeeze-and-Excitation(SE)用在逐通道卷积输出特征上，首先是Squeeze操作，在空间维度上进行特征压缩，使用全局平均池化将输出特征通道上的数据取平均，再接两层全连接层，其次是Excitation操作，为每个通道生成权重参数；通过乘法，逐通道加权到先前的特征上，完成在通道维度上对原始特征的重标定，将所述逐通道卷积计算结果通过点卷积操作完成特征合并，所述点卷积使用卷积核尺寸为1*1，卷积步长为1。将所述网络输出结果与一个全连接层相连，输出最终的结果，全连接的神经元数与关键次数相关，在使用5个关键词时，对应的神经元数为7个，包含了5个关键词、1个静音和1个非关键词。通过SoftMax算法将所述7个神经元输出结果转换成和为1的概率值。

步骤四、权重量化。如图4所示，将训练好的权重参数保存，分层统计每一层的参数分布，找出每一层权重绝对值的最大值，根据最大值判断每层权重参数整数位宽，如果超出作饱和截断处理。以此位宽作为整数部分的位长N，小数位长为(7-N)，将该层参数乘以2^N并做四舍五入，之后再将四舍五入的结果除以2^N，以此结果保存为新的权重，用新的权重完成推理运算，每一层的权重都完成了量化，接着需要量化每一层的计算结果，通过对数据完成推理运算，根据推理运算结果的准确率来设置不同层的量化格式。

步骤五、加速器推理计算。如图5所示，4片PE阵列大小均为2*6簇，每个PE簇有3*4个PE单元，卷积核大小为3*3，卷积核步长为1，输入特征图大小为49*40，单批次输入通道为32的通道分离卷积为例，外部控制处理器首先将本层输入特征值大小、通道数、是否padding以及卷积计算方式(全连接、通道分离卷积以及传统卷积)等相关参数和片上网络数据流配置信息通过配置总线写入加速器相关寄存器，其次，控制DMA将输入特征值和权重值分别写入到相应的输入缓冲子区和PE单元内的权重缓冲区，其中1-8通道的输入特征值及其相应的权重写入PE阵列slice1,9-16通道写入slice2，以此类推。在计算开始前，需要将输入缓冲区存储的每行输入特征值读取一部分写入到PE单元的输入寄存器栈，每个PE的输入寄存器栈存储3*8个输入特征值，其中3表示同一行的的输入特征值，8代表8个通道，权重缓冲区同样缓存3*8个权重，其中，3表示一行权重数，8表示与输入特征值相对应的8个通道。在计算的过程中，PE先读取1通道的第一个输入特征值和第一个权重值相乘并将结果存入部分和寄存器栈，再读取2通道计算，直至8通道，然后再读取1通道的第二输入特征值和第二个权重值相乘并累加1通道之前的部分和，再读取的2通道的第二个数，直至8通道，以此类推，直至计算完所有通道的所有数，之后将PE阵列中同一列的3个PE计算的相同通道的部分和累加，得到8个通道的输出特征值，然后更新输入寄存器栈，重复上述计算，直至完成本层计算。将得到的输出特征写入功能单元，完成池化、Relu等操作，并产生中断给外部控制器，让其将计算结果写回外部存储器。

综上所述，本发明提出一种基于分层量化的轻量级神经网络语音关键词识别方法，通过将深度可分离卷积神经网络与注意力机制进行结合，不仅提高了关键词识别的准确率，还有限降低了模型的计算量和参数量。通过分层8bits量化，不同层之间采用不同数据结构的量化方式，有效在保证了准确率的同时降低了模型的推理复杂度。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想在技术方案基础上所做的任何改动均落入本发明保护范围之内。

Claims

1.一种基于分层量化的轻量级神经网络语音关键词识别方法，其特征在于，该识别方法包括以下步骤：

步骤 1.获取关键词语音音频数据集并对关键词语音音频数据进行增强；

步骤2.对增强的关键词语音音频数据通过特征提取模块提取音频信号中的声学特征；

步骤3.将所述音频信号中的声学特征组成特征向量送入到轻量级神经网络模型中进行训练，根据训练结果保存神经网络各层的权重参数，通过分层8bits量化将权重参数量化成8位并保存；

所述分层8bits量化根据每一层权重参数的分布决定对该层量化的整数位宽；对于各层网络输出的激活值，根据推理结果的准确率调整激活值的量化位宽，不同层之间的量化位宽不一样，第2层采用3位整数位，而第3层中采用4位整数位，以此降低量化带来的精度损失；

将训练好的权重参数保存，分层统计每一层的参数分布，找出每一层权重绝对值的最大值，根据最大值判断每层权重参数整数位宽，超出作饱和截断处理；以此位宽作为整数部分的位长N，小数位长为7-N，将该层参数乘以2^N并做四舍五入，之后再将四舍五入的结果除以2^N，以此结果保存为新的权重，用新的权重完成推理运算，每一层的权重都完成了量化，接着需要量化每一层的计算结果，通过对数据完成推理运算，根据推理运算结果的准确率来设置不同层的量化格式；

步骤4.设计支持通道分离卷积和传统卷积的神经网络加速器，加载量化后的8位权重到神经网络加速器中，加速前向推理计算过程，根据神经网络加速器的输出得到不同关键词的概率值；

步骤5.将所述不同关键词概率值中的最大值和预设阈值进行比较，大于阈值则根据预测结果判别输入的语音关键词，小于阈值则表示输入的语音中没有关键词；

所述基于分层量化的轻量级神经网络，其模型结构包括卷积神经网络、深度可分离卷积神经网络、注意力机制Squeeze-and-Excitation全局信息嵌入和自适应重新校正注意力机制Squeeze-and-Excitation和分层8bits量化。

2.根据权利要求1所述一种基于分层量化的轻量级神经网络语音关键词识别方法，其特征在于：语音增强包括添加噪声信号、对关键词信号随机左移或右移，增强系统的鲁棒性。

3.根据权利要求1所述一种基于分层量化的轻量级神经网络语音关键词识别方法，其特征在于：所述特征提取模块包括预加重、分帧加窗、快速傅里叶变换、梅尔滤波器处理和离散余弦变换；预加重对高频信号进行补偿；语音信号具有短时不变性，分帧加窗对所述增强的关键词语音音频数据进行分帧处理并补偿帧的起始端和终止段的连续性；快速傅里叶变换对分帧加窗后的帧信号进行快速傅里叶变化得到各帧的频谱，并且继续对频谱信号取模平方得到各帧的功率谱；梅尔滤波器处理将功率谱信号通过一组梅尔滤波器组，得到梅尔频谱；离散余弦变换对梅尔频谱先做取对数操作，再经过傅里叶逆变换组成声学特征。

4.根据权利要求1所述一种基于分层量化的轻量级神经网络语音关键词识别方法，其特征在于：所述轻量级神经网络模型的第一层为卷积层，对输入的声学特征作特征提取，参数包括：卷积核尺寸、卷积步长以及输出特征通道；所述的卷积核尺寸为3*3，输出特征通道数为64，卷积核步长为2；通过设置卷积核步长为2，在不使用池化操作下实现下采样功能。

5.根据权利要求1所述一种基于分层量化的轻量级神经网络语音关键词识别方法，其特征在于：所述注意力机制Squeeze-and-Excitation，用在深度可分离卷积网络中的逐通道卷积中，首先是全局信息嵌入Squeeze操作，在空间维度上进行特征压缩，将每一个二维的特征通道通过全局平均池化变成一个实数，该实数具有全局感受野；其次是自适应重新校正Excitation操作，为每个通道生成权重参数，通过逐通道乘法方式加权到输入特征上，完成在通道维度上对输入特征的重标定。

6.根据权利要求1所述一种基于分层量化的轻量级神经网络语音关键词识别方法，其特征在于：所述神经网络加速器包括顶层控制单元、可配置数据流PE阵列、功能单元及量化单元；所述顶层控制单元根据配置信息，配置数据流和控制计算过程；所述可配置数据流PE阵列采用可配置片上网络结构，以支持深度可分离卷积、传统卷积及全连接网络结构；所述功能单元及量化单元，实现池化、激活、批量归一化及分层8bits量化操作，通过神经网络加速器加速前向推理计算过程，完成基于分层化轻量级神经网络的语音关键词识别。