CN112786021B - 一种基于分层量化的轻量级神经网络语音关键词识别方法 - Google Patents
一种基于分层量化的轻量级神经网络语音关键词识别方法 Download PDFInfo
- Publication number
- CN112786021B CN112786021B CN202110101761.6A CN202110101761A CN112786021B CN 112786021 B CN112786021 B CN 112786021B CN 202110101761 A CN202110101761 A CN 202110101761A CN 112786021 B CN112786021 B CN 112786021B
- Authority
- CN
- China
- Prior art keywords
- neural network
- quantization
- voice
- layered
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013139 quantization Methods 0.000 title claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000004364 calculation method Methods 0.000 claims abstract description 22
- 230000007246 mechanism Effects 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 11
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 230000004913 activation Effects 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 238000000926 separation method Methods 0.000 claims abstract description 5
- 238000001228 spectrum Methods 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 239000013598 vector Substances 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于分层量化的轻量级神经网络语音关键词识别方法,属于计算、推理、计数的技术领域。该系统包括:语音采集模块、特征提取模块、轻量级神网络加速器以及分层8bits量化模块等。轻量级神经网络采用深度可分离卷积神经网络和注意力机制Squeeze‑and‑Excitation,通过将传统卷积替换成深度可分离卷积,降低神经网络的参数量和计算量,通过引入注意力机制,标注卷积过程中不同通道上特征的重要程度,提高模型的识别准确率,通过对神经网络的权重值量化和激活值分层8bits量化,进一步降低模型的计算复杂度和神经网络的参数量,通过设计支持通道分离卷积和传统卷积的加速器,满足对数据带宽的不同需求,从而加速前向推理计算的过程。
Description
技术领域
本发明涉及一种基于分层8bits量化轻量级神经网络的语音关键词识别方法及系统技术,属于计算、推理、技术的技术领域。
背景技术
随着越来越多的智能语音助手出现在我们的生活中,我们会愈发地感受到,人们与智能终端的交互方式,正从触控模式慢慢转入到语音交互的模式上。同时,随着设备计算能力的发展、语音关键词识别技术的积累和语音数据的丰富,智能音响、车载语音交互等行业呈现出快速发展的状态,人机交互的频率越来越高,语音关键词识别相关的应用已经开始实实在在地在我们日常生活中普及开来,语音关键词识别系统拥有很多应用场景,如智能音响、车载交互等。
目前语音关键词识别主要通过云端和终端两种方式部署。通过云端方式识别,由于云端的资源充足,可以部署大型的神经网络进行语音识别,识别率非常高,但是在云端进行语音识别就需要将语音数据上传到云端,存在着数据泄露、数据传输延迟及成本高等问题。由于离线识别能够保障数据的安全性和实时性,所以在终端部署语音识别能够避免云端部署存在的问题,但是在终端部署高准确率的识别系统也面临着资源有限的问题。另外,语音关键词识别的精度、功耗及速度之间的平衡关系因不同的场景而变化。
发明内容
技术问题:本发明的发明目的是针对上述背景技术的不足,提出了一种基于分层量化的轻量级神经网络语音关键词识别方法,充分利用深度可分离卷积所带来的参数量和计算量大量减少的优势和注意力机制标注卷积过程中不同通道上特征的重要程度,进而提高模型识别的准确度和速度。通过分层8bits量化操作,将浮点运算转变成定点运算,减低了计算的复杂度与能耗,解决了现有语音关键词识别系统在移动终端和嵌入式设备中部署的技术问题。
技术方案:本发明的一种基于分层量化的轻量级神经网络语音关键词识别方法采用主要步骤如下:
步骤1.获取关键词语音音频数据集并对关键词语音音频数据进行增强;
步骤2.对所述增强的关键词语音音频数据通过特征提取模块提取音频信号中的声学特征;
步骤3.将所述音频信号中的声学特征组成特征向量送入到轻量级神经网络模型中进行训练,根据训练结果保存神经网络各层的权重参数,通过分层8bits量化将权重参数量化成8位并保存。
步骤4.设计支持通道分离卷积和传统卷积的神经网络加速器,加载所述量化后的8位权重到神经网络加速器中,加速前向推理计算过程,根据神经网络加速器的输出得到不同关键词的概率值;
步骤5.将所述不同关键词概率值中的最大值和预设阈值进行比较,大于阈值则根据预测结果判别输入的语音关键词,小于阈值则表示输入的语音中没有关键词。
所述语音增强包括添加噪声信号、对关键词信号随机左移或右移,增强系统的鲁棒性。
所述特征提取模块包括预加重、分帧加窗、快速傅里叶变换、梅尔滤波器处理和离散余弦变换;预加重对高频信号进行补偿;语音信号具有短时不变性,分帧加窗对所述增强的关键词语音音频数据进行分帧处理并补偿帧的起始端和终止段的连续性;快速傅里叶变换对分帧加窗后的帧信号进行快速傅里叶变化得到各帧的频谱,并且继续对频谱信号取模平方得到各帧的功率谱;梅尔滤波器处理将功率谱信号通过一组梅尔滤波器组,得到梅尔频谱;离散余弦变换对梅尔频谱先做取对数操作,再经过傅里叶逆变换组成声学特征。
所述基于分层8bits量化的轻量级神经网络模型结构主要包括卷积神经网络、深度可分离卷积神经网络、注意力机制Squeeze-and-Excitation全局信息嵌入和自适应重新校正注意力机制Squeeze-and-Excitation和分层8bits量化。
所述轻量级神经网络模型的第一层为卷积层,对输入的声学特征作特征提取,主要的参数包括:卷积核尺寸、卷积步长以及输出特征通道;所述的卷积核尺寸为3*3,输出特征通道数为64,卷积核步长为2;通过设置卷积核步长为2,在不使用池化操作下实现下采样功能。
所述注意力机制Squeeze-and-Excitation,主要用在深度可分离卷积网络中的逐通道卷积中,首先是全局信息嵌入Squeeze操作,在空间维度上进行特征压缩,将每一个二维的特征通道通过全局平均池化变成一个实数,该实数某种程度上具有全局感受野;其次是自适应重新校正Excitation操作,为每个通道生成权重参数,通过逐通道乘法方式加权到输入特征上,完成在通道维度上对输入特征的重标定。
所述分层8bits量化根据每一层权重参数的分布决定对该层量化的整数位宽;对于各层网络输出的激活值,根据推理结果的准确率调整激活值的量化位宽,不同层之间的量化位宽可能不一样,第2层采用3位整数位,而第3层中采用4位整数位,以此降低量化带来的精度损失。
所述神经网络加速器主要包括顶层控制单元、可配置数据流PE阵列、功能单元及量化单元;所述顶层控制单元根据配置信息,配置数据流和控制计算过程;所述可配置数据流PE阵列采用可配置片上网络结构,以支持深度可分离卷积、传统卷积及全连接等网络结构;所述功能单元及量化单元,实现池化、激活、批量归一化及分层8bits量化操作,通过神经网络加速器加速前向推理计算过程,完成基于分层8bits量化轻量级神经网络的语音关键词识别。
有益效果:本发明采用上述技术方案,具有以下效果:
(1)本发明提出了一种基于分层量化的轻量级神经网络语音关键词识别方法,通过创新性的将深度可分离卷积神经网络与注意力机制进行结合,不仅提高了关键词识别的准确率,还有效降低了模型的计算量和参数量。
(2)本发明提出了一种基于分层量化的轻量级神经网络语音关键词识别方法,通过分层8bits量化,不同层之间采用不同数据结构的量化方式,有效地在保证了准确率的同时降低了模型的推理复杂度。
附图说明
图1是本发明的关键词识别系统框图。
图2是本发明的关键词识别流程图。
图3是本发明的关键词神经网络结构图。
图4是本发明的分层8bits量化。
图5是本发明的神经网络加速器。
具体实施方式
为更加清楚地阐述本发明的发明目的、技术方案和技术效果,以下将结合附图及具体实施例,对本发明的技术方案进行详细说明。
本发明提供一种基于分层量化的轻量级神经网络语音关键词识别方法,识别流程如图2所示,识别方法包括如下五个步骤:
步骤一、数据增强。确定关键词,如“启动”、“刹车”等。制作语音关键词数据集,每个关键词录制1000个左右,同时负样本关键词语音数量需要是关键词数量的10倍左右,负样本的词汇尽可能多样。对所录制的语音关键词随机添加背景噪声,同时对添加后的语音数据随机左移或者右移100ms。对于属于关键词的正样本标注标签为1,对非关键词负样本标注标签为0。
步骤二、语音特征提取。由于声音在传播过程中,高频部分会有损失,利用预加重对高频信号进行补偿;语音信号具有短时不变性,因此以帧长40ms,帧移20ms的语音帧为单位进行提取,在提取出的语音上进行加窗,补偿帧的起始端和终止段的连续性,以防频谱泄露。快速傅里叶变换对加窗分帧后的帧信号进行快速傅里叶变化得到各帧的频谱,从而能够更好的观察到语音的特征,并且继续对频谱信号取模平方得到各帧的功率谱;由于人耳对声音的感知服从梅尔频率的变化,即人耳对声音感知的结果是相差两倍,那么在梅尔频率上表现的也是相差两倍,因此使用梅尔频率滤波器组对每一帧语音信号进行特征提取;离散余弦变换对梅尔频谱先做取对数操作,再经过傅里叶逆变换组成声学特征,将此作为网络的输入。
步骤三、模型模型训练。如图3所示,轻量级神经网络模块结构主要包括卷积神经网络、深度可分离卷积神经网络、注意力机制Squeeze-and-Excitation(SE)。轻量级网络模型的第一层为卷积层,对输入的声学特征作特征提取,主要的参数包括:卷积核尺寸、卷积步长以及输出特征通道;所述的卷积核尺寸为3*3,输出特征通道数为64,卷积核步长为2。通过设置卷积核步长为2,在不使用池化操作下实现下采样功能。第二层起使用深度可分离卷积网络提取特征,通过将普通卷积分成逐通道卷积和点卷积两个操作,所述逐通道卷积使用卷积核尺寸为3*3,卷积步长为1,在通道上进行逐通道卷积计算,同时将注意力机制Squeeze-and-Excitation(SE)用在逐通道卷积输出特征上,首先是Squeeze操作,在空间维度上进行特征压缩,使用全局平均池化将输出特征通道上的数据取平均,再接两层全连接层,其次是Excitation操作,为每个通道生成权重参数;通过乘法,逐通道加权到先前的特征上,完成在通道维度上对原始特征的重标定,将所述逐通道卷积计算结果通过点卷积操作完成特征合并,所述点卷积使用卷积核尺寸为1*1,卷积步长为1。将所述网络输出结果与一个全连接层相连,输出最终的结果,全连接的神经元数与关键次数相关,在使用5个关键词时,对应的神经元数为7个,包含了5个关键词、1个静音和1个非关键词。通过SoftMax算法将所述7个神经元输出结果转换成和为1的概率值。
步骤四、权重量化。如图4所示,将训练好的权重参数保存,分层统计每一层的参数分布,找出每一层权重绝对值的最大值,根据最大值判断每层权重参数整数位宽,如果超出作饱和截断处理。以此位宽作为整数部分的位长N,小数位长为(7-N),将该层参数乘以2N并做四舍五入,之后再将四舍五入的结果除以2N,以此结果保存为新的权重,用新的权重完成推理运算,每一层的权重都完成了量化,接着需要量化每一层的计算结果,通过对数据完成推理运算,根据推理运算结果的准确率来设置不同层的量化格式。
步骤五、加速器推理计算。如图5所示,4片PE阵列大小均为2*6簇,每个PE簇有3*4个PE单元,卷积核大小为3*3,卷积核步长为1,输入特征图大小为49*40,单批次输入通道为32的通道分离卷积为例,外部控制处理器首先将本层输入特征值大小、通道数、是否padding以及卷积计算方式(全连接、通道分离卷积以及传统卷积)等相关参数和片上网络数据流配置信息通过配置总线写入加速器相关寄存器,其次,控制DMA将输入特征值和权重值分别写入到相应的输入缓冲子区和PE单元内的权重缓冲区,其中1-8通道的输入特征值及其相应的权重写入PE阵列slice1,9-16通道写入slice2,以此类推。在计算开始前,需要将输入缓冲区存储的每行输入特征值读取一部分写入到PE单元的输入寄存器栈,每个PE的输入寄存器栈存储3*8个输入特征值,其中3表示同一行的的输入特征值,8代表8个通道,权重缓冲区同样缓存3*8个权重,其中,3表示一行权重数,8表示与输入特征值相对应的8个通道。在计算的过程中,PE先读取1通道的第一个输入特征值和第一个权重值相乘并将结果存入部分和寄存器栈,再读取2通道计算,直至8通道,然后再读取1通道的第二输入特征值和第二个权重值相乘并累加1通道之前的部分和,再读取的2通道的第二个数,直至8通道,以此类推,直至计算完所有通道的所有数,之后将PE阵列中同一列的3个PE计算的相同通道的部分和累加,得到8个通道的输出特征值,然后更新输入寄存器栈,重复上述计算,直至完成本层计算。将得到的输出特征写入功能单元,完成池化、Relu等操作,并产生中断给外部控制器,让其将计算结果写回外部存储器。
综上所述,本发明提出一种基于分层量化的轻量级神经网络语音关键词识别方法,通过将深度可分离卷积神经网络与注意力机制进行结合,不仅提高了关键词识别的准确率,还有限降低了模型的计算量和参数量。通过分层8bits量化,不同层之间采用不同数据结构的量化方式,有效在保证了准确率的同时降低了模型的推理复杂度。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想在技术方案基础上所做的任何改动均落入本发明保护范围之内。
Claims (6)
1.一种基于分层量化的轻量级神经网络语音关键词识别方法,其特征在于,该识别方法包括以下步骤:
步骤 1.获取关键词语音音频数据集并对关键词语音音频数据进行增强;
步骤2.对增强的关键词语音音频数据通过特征提取模块提取音频信号中的声学特征;
步骤3.将所述音频信号中的声学特征组成特征向量送入到轻量级神经网络模型中进行训练,根据训练结果保存神经网络各层的权重参数,通过分层8bits量化将权重参数量化成8位并保存;
所述分层8bits量化根据每一层权重参数的分布决定对该层量化的整数位宽;对于各层网络输出的激活值,根据推理结果的准确率调整激活值的量化位宽,不同层之间的量化位宽不一样,第2层采用3位整数位,而第3层中采用4位整数位,以此降低量化带来的精度损失;
将训练好的权重参数保存,分层统计每一层的参数分布,找出每一层权重绝对值的最大值,根据最大值判断每层权重参数整数位宽,超出作饱和截断处理;以此位宽作为整数部分的位长N,小数位长为7-N,将该层参数乘以2N并做四舍五入,之后再将四舍五入的结果除以2N,以此结果保存为新的权重,用新的权重完成推理运算,每一层的权重都完成了量化,接着需要量化每一层的计算结果,通过对数据完成推理运算,根据推理运算结果的准确率来设置不同层的量化格式;
步骤4.设计支持通道分离卷积和传统卷积的神经网络加速器,加载量化后的8位权重到神经网络加速器中,加速前向推理计算过程,根据神经网络加速器的输出得到不同关键词的概率值;
步骤5.将所述不同关键词概率值中的最大值和预设阈值进行比较,大于阈值则根据预测结果判别输入的语音关键词,小于阈值则表示输入的语音中没有关键词;
所述基于分层量化的轻量级神经网络,其模型结构包括卷积神经网络、深度可分离卷积神经网络、注意力机制Squeeze-and-Excitation全局信息嵌入和自适应重新校正注意力机制Squeeze-and-Excitation和分层8bits量化。
2.根据权利要求1所述一种基于分层量化的轻量级神经网络语音关键词识别方法,其特征在于:语音增强包括添加噪声信号、对关键词信号随机左移或右移,增强系统的鲁棒性。
3.根据权利要求1所述一种基于分层量化的轻量级神经网络语音关键词识别方法,其特征在于:所述特征提取模块包括预加重、分帧加窗、快速傅里叶变换、梅尔滤波器处理和离散余弦变换;预加重对高频信号进行补偿;语音信号具有短时不变性,分帧加窗对所述增强的关键词语音音频数据进行分帧处理并补偿帧的起始端和终止段的连续性;快速傅里叶变换对分帧加窗后的帧信号进行快速傅里叶变化得到各帧的频谱,并且继续对频谱信号取模平方得到各帧的功率谱;梅尔滤波器处理将功率谱信号通过一组梅尔滤波器组,得到梅尔频谱;离散余弦变换对梅尔频谱先做取对数操作,再经过傅里叶逆变换组成声学特征。
4.根据权利要求1所述一种基于分层量化的轻量级神经网络语音关键词识别方法,其特征在于:所述轻量级神经网络模型的第一层为卷积层,对输入的声学特征作特征提取,参数包括:卷积核尺寸、卷积步长以及输出特征通道;所述的卷积核尺寸为3*3,输出特征通道数为64,卷积核步长为2;通过设置卷积核步长为2,在不使用池化操作下实现下采样功能。
5.根据权利要求1所述一种基于分层量化的轻量级神经网络语音关键词识别方法,其特征在于:所述注意力机制Squeeze-and-Excitation,用在深度可分离卷积网络中的逐通道卷积中,首先是全局信息嵌入Squeeze操作,在空间维度上进行特征压缩,将每一个二维的特征通道通过全局平均池化变成一个实数,该实数具有全局感受野;其次是自适应重新校正Excitation操作,为每个通道生成权重参数,通过逐通道乘法方式加权到输入特征上,完成在通道维度上对输入特征的重标定。
6.根据权利要求1所述一种基于分层量化的轻量级神经网络语音关键词识别方法,其特征在于:所述神经网络加速器包括顶层控制单元、可配置数据流PE阵列、功能单元及量化单元;所述顶层控制单元根据配置信息,配置数据流和控制计算过程;所述可配置数据流PE阵列采用可配置片上网络结构,以支持深度可分离卷积、传统卷积及全连接网络结构;所述功能单元及量化单元,实现池化、激活、批量归一化及分层8bits量化操作,通过神经网络加速器加速前向推理计算过程,完成基于分层化轻量级神经网络的语音关键词识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110101761.6A CN112786021B (zh) | 2021-01-26 | 2021-01-26 | 一种基于分层量化的轻量级神经网络语音关键词识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110101761.6A CN112786021B (zh) | 2021-01-26 | 2021-01-26 | 一种基于分层量化的轻量级神经网络语音关键词识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112786021A CN112786021A (zh) | 2021-05-11 |
CN112786021B true CN112786021B (zh) | 2024-05-14 |
Family
ID=75757678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110101761.6A Active CN112786021B (zh) | 2021-01-26 | 2021-01-26 | 一种基于分层量化的轻量级神经网络语音关键词识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112786021B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113409773B (zh) * | 2021-08-18 | 2022-01-18 | 中科南京智能技术研究院 | 一种二值化神经网络语音唤醒方法及系统 |
CN113823292B (zh) * | 2021-08-19 | 2023-07-21 | 华南理工大学 | 基于通道注意力深度可分卷积网络的小样本话者辨认方法 |
CN114495971A (zh) * | 2022-02-25 | 2022-05-13 | 四川天中星航空科技有限公司 | 一种采用嵌入式硬件运行神经网络的语音增强方法 |
CN117238298B (zh) * | 2023-11-13 | 2024-02-06 | 四川师范大学 | 一种基于声音事件的动物识别与定位方法及系统 |
CN117292694B (zh) * | 2023-11-22 | 2024-02-27 | 中国科学院自动化研究所 | 基于时不变编码的少令牌神经语音编解码方法和系统 |
CN118116372B (zh) * | 2024-04-28 | 2024-07-09 | 福州大学 | 面向语音关键词识别的二值化深度神经网络硬件加速系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390383A (zh) * | 2019-06-25 | 2019-10-29 | 东南大学 | 一种基于幂指数量化的深度神经网络硬件加速器 |
KR20190130443A (ko) * | 2018-05-14 | 2019-11-22 | 삼성전자주식회사 | 뉴럴 네트워크의 양자화 방법 및 장치 |
CN110580919A (zh) * | 2019-08-19 | 2019-12-17 | 东南大学 | 多噪声场景下语音特征提取方法及可重构语音特征提取装置 |
CN111191774A (zh) * | 2018-11-14 | 2020-05-22 | 上海富瀚微电子股份有限公司 | 面向精简卷积神经网络的低代价加速器架构及其处理方法 |
CN111276125A (zh) * | 2020-02-11 | 2020-06-12 | 华南师范大学 | 一种面向边缘计算的轻量级语音关键词识别方法 |
CN111583940A (zh) * | 2020-04-20 | 2020-08-25 | 东南大学 | 极低功耗关键词唤醒神经网络电路 |
CN112233675A (zh) * | 2020-10-22 | 2021-01-15 | 中科院微电子研究所南京智能技术研究院 | 一种基于分离卷积神经网络的语音唤醒方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10936913B2 (en) * | 2018-03-20 | 2021-03-02 | The Regents Of The University Of Michigan | Automatic filter pruning technique for convolutional neural networks |
-
2021
- 2021-01-26 CN CN202110101761.6A patent/CN112786021B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190130443A (ko) * | 2018-05-14 | 2019-11-22 | 삼성전자주식회사 | 뉴럴 네트워크의 양자화 방법 및 장치 |
CN111191774A (zh) * | 2018-11-14 | 2020-05-22 | 上海富瀚微电子股份有限公司 | 面向精简卷积神经网络的低代价加速器架构及其处理方法 |
CN110390383A (zh) * | 2019-06-25 | 2019-10-29 | 东南大学 | 一种基于幂指数量化的深度神经网络硬件加速器 |
CN110580919A (zh) * | 2019-08-19 | 2019-12-17 | 东南大学 | 多噪声场景下语音特征提取方法及可重构语音特征提取装置 |
CN111276125A (zh) * | 2020-02-11 | 2020-06-12 | 华南师范大学 | 一种面向边缘计算的轻量级语音关键词识别方法 |
CN111583940A (zh) * | 2020-04-20 | 2020-08-25 | 东南大学 | 极低功耗关键词唤醒神经网络电路 |
CN112233675A (zh) * | 2020-10-22 | 2021-01-15 | 中科院微电子研究所南京智能技术研究院 | 一种基于分离卷积神经网络的语音唤醒方法及系统 |
Non-Patent Citations (2)
Title |
---|
DOREFA-NET: TRAINING LOW BITWIDTH CONVOLUTIONAL NEURAL NETWORKS WITH LOW BITWIDTH GRADIENTS;Shuchang Zhou 等;arXiv:1606.06160v3;第1-13页 * |
Lightweight Network Research Based on Deep Learning: A Review;Yahui Li 等;37th Chinese Control Conference;第9021-9026页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112786021A (zh) | 2021-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112786021B (zh) | 一种基于分层量化的轻量级神经网络语音关键词识别方法 | |
He et al. | Asymptotic soft filter pruning for deep convolutional neural networks | |
CN107340993B (zh) | 运算装置和方法 | |
CN110718211B (zh) | 一种基于混合压缩卷积神经网络的关键词识别系统 | |
US20210287074A1 (en) | Neural network weight encoding | |
CN113326930B (zh) | 数据处理方法、神经网络的训练方法及相关装置、设备 | |
CN111798828B (zh) | 合成音频检测方法、系统、移动终端及存储介质 | |
CN110110852B (zh) | 一种深度学习网络移植到fpag平台的方法 | |
CN111814448B (zh) | 预训练语言模型量化方法和装置 | |
CN117059103A (zh) | 基于低秩矩阵近似的语音识别微调任务的加速方法 | |
CN111326168A (zh) | 语音分离方法、装置、电子设备和存储介质 | |
CN114708855A (zh) | 一种基于二值残差神经网络的语音唤醒方法及系统 | |
CN110222835A (zh) | 一种基于零值检测的卷积神经网络硬件系统及运算方法 | |
CN116013293A (zh) | 一种基于混合精度量化神经网络的语音唤醒方法及系统 | |
CN110188877A (zh) | 一种神经网络压缩方法与装置 | |
CN114943335A (zh) | 一种三值神经网络逐层优化方法 | |
Sit et al. | FPGA-based accelerator for losslessly quantized convolutional neural networks | |
CN112561050A (zh) | 一种神经网络模型训练方法及装置 | |
CN117151178A (zh) | 一种面向fpga的cnn定制网络量化加速方法 | |
CN116227563A (zh) | 一种基于数据量化的卷积神经网络压缩与加速方法 | |
CN114118415B (zh) | 一种轻量级瓶颈注意力机制的深度学习方法 | |
CN116597814A (zh) | 一种基于时域二值神经网络的语音唤醒方法及系统 | |
CN112735469B (zh) | 低内存语音关键词检测方法、系统、介质、设备及终端 | |
CN113327589B (zh) | 一种基于姿态传感器的语音活动检测方法 | |
CN113935456A (zh) | 脉冲神经网络层内数据处理方法及设备、处理芯片 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |