CN112233675A - 一种基于分离卷积神经网络的语音唤醒方法及系统 - Google Patents

一种基于分离卷积神经网络的语音唤醒方法及系统 Download PDF

Info

Publication number
CN112233675A
CN112233675A CN202011141291.8A CN202011141291A CN112233675A CN 112233675 A CN112233675 A CN 112233675A CN 202011141291 A CN202011141291 A CN 202011141291A CN 112233675 A CN112233675 A CN 112233675A
Authority
CN
China
Prior art keywords
neural network
convolutional neural
binarization
network model
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011141291.8A
Other languages
English (en)
Other versions
CN112233675B (zh
Inventor
付冠宇
詹毅
乔树山
尚德龙
周玉梅
李郡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute Of Intelligent Technology Institute Of Microelectronics Chinese Academy Of Sciences
Original Assignee
Nanjing Institute Of Intelligent Technology Institute Of Microelectronics Chinese Academy Of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute Of Intelligent Technology Institute Of Microelectronics Chinese Academy Of Sciences filed Critical Nanjing Institute Of Intelligent Technology Institute Of Microelectronics Chinese Academy Of Sciences
Priority to CN202011141291.8A priority Critical patent/CN112233675B/zh
Publication of CN112233675A publication Critical patent/CN112233675A/zh
Application granted granted Critical
Publication of CN112233675B publication Critical patent/CN112233675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明涉及一种基于分离卷积神经网络的语音唤醒方法及系统,在模型优化过程中对模型的权重以及激活值进行了二值化,把矩阵乘法代替为异或非操作,节省了大量的加法以及乘法计算,降低了运算量和运算时间减少数据存储空间;并在反向传播中对梯度进行了低位宽量化同样减少了数据的存储空间,并可以类似的在反向传播中减少由于梯度与权重的矩阵乘法引起的乘加运算,减少由于量化引起的精度损失。

Description

一种基于分离卷积神经网络的语音唤醒方法及系统
技术领域
本发明涉及语音识别领域,特别是涉及一种基于分离卷积神经网络的语音唤醒方法及系统。
背景技术
一个卷积神经网络提供在时间和空间上的平移不变性卷积,将卷积神经网络的思想应用到语音识别的声学建模中,则可以利用卷积的不变性来克服语音信号本身的多样性。从这个角度来看,则可以认为是将整个语音信号分析得到的时频谱当作一张图像一样来处理,采用图像中广泛应用的深层卷积网络对其进行唤醒。但是通过训练神经网络得到的语音唤醒模型存在着高计算量与高功耗的问题;由于数以千万计的计算量,将语音唤醒模型部署到硬件上时会造成硬件面积过大,功耗过高等问题。这使得深层的卷积神经网络严重依赖于GPU等高性能硬件,导致语音唤醒模块在设备上应用的局限性较大。
发明内容
本发明的目的是提供一种基于分离卷积神经网络的语音唤醒方法及系统,减少识别处理任务量,减小硬件面积和硬件损耗。
为实现上述目的,本发明提供了如下方案:
一种基于分离卷积神经网络的语音唤醒方法,所述语音唤醒方法包括:
获取待识别音频文件并提取所述待识别音频文件的语音特征;
将所述待识别音频文件的语音特征输入到音频唤醒模型中,得到音频识别结果;其中,所述音频唤醒模型是依据二值化、批量正则化以及深度可分离卷积神经网络模型建立而成;所述音频唤醒模型的建立方法具体包括:
获取训练样本;所述训练样本包括多个样本对;每个样本对均包括一个输入、一个输出;所述输入为已知识别结果的音频文件的语音特征,所述输出为所述已知识别结果的音频文件对应的识别结果;
利用
Figure BDA0002738356110000011
对所述深度可分离卷积神经网络模型的所有参数权重和所有参数激活值进行二值化处理,得到二值化分离卷积神经网络模型;其中xb为二值化后的参数,x表示参数权重或参数激活值;
将所述已知识别结果的音频文件的语音特征输入到所述二值化分离卷积神经网络模型,利用批量正则化、二值化对所述二值化分离卷积神经网络模型进行处理,得到二值化分离卷积神经网络模型的输出;
根据所述二值化分离卷积神经网络模型的输出和所述已知识别结果的音频文件对应的识别结果,利用损失函数对所述二值化分离卷积神经网络模型进行优化,得到损失函数对于全精度权重的导数;
根据所述损失函数对于全精度权重的导数对所述二值化分离卷积神经网络模型的权值进行更新,进而更新所述二值化分离卷积神经网络模型;更新后的二值化分离卷积神经网络模型为所述音频唤醒模型。
可选的,所述将所述已知识别结果的音频文件的语音特征输入到所述二值化分离卷积神经网络模型,利用批量正则化、二值化对所述二值化分离卷积神经网络模型进行处理,得到二值化分离卷积神经网络模型的输出具体包括:
S1:获取所述已知识别结果的音频文件的语音特征;
S2:将所述已知识别结果的音频文件的语音特征作为所述二值化分离卷积神经网络模型第一层的输入,将所述已知识别结果的音频文件的语音特征与第一权值相乘,得到第一层未处理的输出;
S3:将所述第一层未处理的输出依次进行批量正则化处理和二值化处理,得到所述二值化分离卷积神经网络模型第一层输出;
S4:将所述二值化分离卷积神经网络模型第一层输出作为第二层的输入,与第二权值相乘,得到第二层未处理的输出;
S5:将所述第二层未处理的输出依次进行批量正则化处理和二值化处理,得到所述二值化分离卷积神经网络模型第二层输出;
S6:重复步骤S4-S5至所有层的处理均完成,得到所述二值化分离卷积神经网络模型的输出。
可选的,所述批量正则化的公式为:
Figure BDA0002738356110000031
μB为数据的均值,m为数据量,
Figure BDA0002738356110000032
为数据的方差,
Figure BDA0002738356110000033
为批量正则化后的参数,ε为常数。
可选的,所述根据所述二值化分离卷积神经网络模型的输出和所述已知识别结果的音频文件对应的识别结果,利用损失函数对所述二值化分离卷积神经网络模型进行优化,得到损失函数对于全精度权重的导数具体包括:
获取所述已知识别结果的音频文件对应的识别结果和所述二值化分离卷积神经网络模型的输出;
将所述已知识别结果的音频文件对应的识别结果与所述二值化分离卷积神经网络模型的输出做差,得到损失函数;所述损失函数为:
Figure BDA0002738356110000034
其中dr为损失函数对参数的梯度,max为对梯度张量所有维度的统计,quantize为对所述二值化分离卷积神经网络模型进行二值化处理的过程;
Figure BDA0002738356110000035
表示对dr的k位量化,k表示量化后的梯度的位宽;
利用
Figure BDA0002738356110000036
对所述损失函数进行处理,得到所述损失函数对于全精度权重的导数
Figure BDA0002738356110000037
其中r0为二值化后的权重。
可选的,所述根据所述损失函数对于全精度权重的导数对所述二值化分离卷积神经网络模型的权值进行更新,进而更新所述二值化分离卷积神经网络模型具体包括:
获取所述损失函数对于全精度权重的导数
Figure BDA0002738356110000038
和所述二值化分离卷积神经网络模型全精度未更新的权值ri;
利用
Figure BDA0002738356110000039
对所述二值化分离卷积神经网络模型的权值进行更新,得到所述二值化分离卷积神经网络模型更新后的权值ri’。
一种基于分离卷积神经网络的语音唤醒系统,所述语音唤醒系统包括:
语音特征获取模块,用于获取待识别音频文件并提取所述待识别音频文件的语音特征;
识别模块,用于将所述待识别音频文件的语音特征输入到音频唤醒模型中,得到音频识别结果;其中,所述音频唤醒模型是依据二值化、批量正则化以及深度可分离卷积神经网络模型建立而成;所述音频唤醒模型的建立模块具体包括:
训练样本获取单元,用于获取训练样本;所述训练样本包括多个样本对;每个样本对均包括一个输入、一个输出;所述输入为已知识别结果的音频文件的语音特征,所述输出为所述已知识别结果的音频文件对应的识别结果;
二值化处理单元,用于利用
Figure BDA0002738356110000041
对所述深度可分离卷积神经网络模型的所有参数权重和所有参数激活值进行二值化处理,得到二值化分离卷积神经网络模型;其中xb为二值化后的参数,x表示参数权重或参数激活值;
输出单元,用于将所述已知识别结果的音频文件的语音特征输入到所述二值化分离卷积神经网络模型,利用批量正则化、二值化对所述二值化分离卷积神经网络模型进行处理,得到二值化分离卷积神经网络模型的输出;
优化单元,用于根据所述二值化分离卷积神经网络模型的输出和所述已知识别结果的音频文件对应的识别结果,利用损失函数对所述二值化分离卷积神经网络模型进行优化,得到损失函数对于全精度权重的导数;
更新单元,用于根据所述损失函数对于全精度权重的导数对所述二值化分离卷积神经网络模型的权值进行更新,进而更新所述二值化分离卷积神经网络模型;更新后的二值化分离卷积神经网络模型为所述音频唤醒模型。
可选的,所述输出单元具体包括:
第一获取子单元,用于获取所述已知识别结果的音频文件的语音特征;
第一处理子单元,用于将所述已知识别结果的音频文件的语音特征作为所述二值化分离卷积神经网络模型第一层的输入,将所述已知识别结果的音频文件的语音特征与第一权值相乘,得到第一层未处理的输出;
第一输出子单元,用于将所述第一层未处理的输出依次进行批量正则化处理和二值化处理,得到所述二值化分离卷积神经网络模型第一层输出;
第二处理子单元,用于将所述二值化分离卷积神经网络模型第一层输出作为第二层的输入,与第二权值相乘,得到第二层未处理的输出;
第二输出子单元,用于将所述第二层未处理的输出依次进行批量正则化处理和二值化处理,得到所述二值化分离卷积神经网络模型第二层输出;
迭代子单元,用于重复步骤S4-S5至所有层的处理均完成,得到所述二值化分离卷积神经网络模型的输出。
可选的,所述批量正则化的公式为:
Figure BDA0002738356110000051
μB为数据的均值,m为数据量,
Figure BDA0002738356110000052
为数据的方差,
Figure BDA0002738356110000053
为批量正则化后的参数,ε为常数。
可选的,所述优化单元具体包括:
第二获取子单元,用于获取所述已知识别结果的音频文件对应的识别结果和所述二值化分离卷积神经网络模型的输出;
损失函数获得子单元,用于将所述已知识别结果的音频文件对应的识别结果与所述二值化分离卷积神经网络模型的输出做差,得到损失函数;所述损失函数为:
Figure BDA0002738356110000054
其中dr为损失函数对参数的梯度,max为对梯度张量所有维度的统计,quantize为对所述二值化分离卷积神经网络模型进行二值化处理的过程;
Figure BDA0002738356110000055
表示对dr的k位量化,k表示量化后的梯度的位宽;
损失函数对于全精度权重的导数获得子单元,用于利用
Figure BDA0002738356110000056
对所述损失函数进行处理,得到所述损失函数对于全精度权重的导数
Figure BDA0002738356110000057
其中r0为二值化后的权重。
可选的,所述更新模块具体包括:
第三获取子单元,用于获取所述损失函数对于全精度权重的导数
Figure BDA0002738356110000061
和所述二值化分离卷积神经网络模型全精度未更新的权值ri;
更新子单元,用于利用
Figure BDA0002738356110000062
对所述二值化分离卷积神经网络模型的权值进行更新,得到所述二值化分离卷积神经网络模型更新后的权值ri’。
根据本发明提供的具体实施例,本发明公开了以下技术效果:在分离卷积神经网络训练阶段使用二值化的权重和激活值以及量化后的低位宽反向传播梯度,通过这样的优化方式,可以在硬件上实现语音唤醒的任务,便于布置在可嵌入式设备上,便于边缘计算的部署。并且利用批量正则化对数据进行归一化处理,使数据同分布,提高了网络的训练速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于分离卷积神经网络的语音唤醒方法的示意图;
图2为本发明基于分离卷积神经网络的语音唤醒体统的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书以及上述附图中的术语“第一”、“第二”、“第三”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应当理解,这样描述的对象在适当情况下可以互换。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
在本专利文档中,下文论述的附图以及用来描述本发明公开的原理的各实施例仅用于说明,而不应解释为限制本发明公开的范围。所属领域的技术人员将理解,本发明的原理可在任何适当布置的系统中实施。将详细说明示例性实施方式,在附图中示出了这些实施方式的实例。此外,将参考附图详细描述根据示例性实施例的终端。附图中的相同附图标号指代相同的元件。
本发明说明书中使用的术语仅用来描述特定实施方式,而并不意图显示本发明的概念。除非上下文中有明确不同的意义,否则,以单数形式使用的表达涵盖复数形式的表达。在本发明说明书中,应理解,诸如“包括”、“具有”以及“含有”等术语意图说明存在本发明说明书中揭示的特征、数字、步骤、动作或其组合的可能性,而并不意图排除可存在或可添加一个或多个其他特征、数字、步骤、动作或其组合的可能性。附图中的相同参考标号指代相同部分。
本发明的目的是提供一种基于分离卷积神经网络的语音唤醒方法及系统,利用二值化对模型进行处理,加少了数据量,缩小了数据存储的空间,同时也缩小了硬件的功耗;并且对梯度进行低位宽量化,减少由于量化引起的精度损失。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
一种基于分离卷积神经网络的语音唤醒方法,所述语音唤醒方法包括:
步骤101:获取待识别音频文件并提取所述待识别音频文件的语音特征。
步骤102:将所述待识别音频文件的语音特征输入到音频唤醒模型中,得到音频识别结果;其中,所述音频唤醒模型是依据二值化、批量正则化以及深度可分离卷积神经网络模型建立而成。所述音频唤醒模型的建立方法具体包括:
获取训练样本;所述训练样本包括多个样本对;每个样本对均包括一个输入、一个输出;所述输入为已知识别结果的音频文件的语音特征,所述输出为所述已知识别结果的音频文件对应的识别结果。
利用
Figure BDA0002738356110000071
对所述深度可分离卷积神经网络模型的所有参数权重和所有参数激活值进行二值化处理,得到二值化分离卷积神经网络模型;其中xb为二值化后的参数,x表示参数权重或参数激活值;例如将32位浮点数类型的权重定点为+1或者-1。
将所述已知识别结果的音频文件的语音特征输入到所述二值化分离卷积神经网络模型,利用批量正则化、二值化对所述二值化分离卷积神经网络模型进行处理,得到二值化分离卷积神经网络模型的输出。
根据所述二值化分离卷积神经网络模型的输出和所述已知识别结果的音频文件对应的识别结果,利用损失函数对所述二值化分离卷积神经网络模型进行优化,得到损失函数对于全精度权重的导数。
根据所述损失函数对于全精度权重的导数对所述二值化分离卷积神经网络模型的权值进行更新,进而更新所述二值化分离卷积神经网络模型;更新后的二值化分离卷积神经网络模型为所述音频唤醒模型。
本发明基于分离卷积神经网络模型,将权值与激活值二值化为+1、-1,并将反向传播梯度量化为低比特来训练模型,最终进行语音唤醒,减少由于量化引起的精度损失。
以上内容是将语音唤醒与分离卷积神经网络模型结合,上述方式还可用于图像识别和图像检测等诸多任务处理过程中,这种方式的优势是可以在不降低太多精度的情况下很大程度上减少了计算量以及硬件面积,并且降低很大的功耗。这样的处理方式们可以减小硬件的体积,便于硬件在卡嵌入式设备上的安装,便于边缘计算的部署。
具体实施过程中,对分离卷积神经网络模型进行综合处理并得到相应输出的方法具体包括:
S1:获取所述已知识别结果的音频文件的语音特征;得到语音特征具体方法是利用梅尔倒谱系数进行提取,基本步骤是:连续语音-预加重-分帧-加窗-FFT-mel滤波器组-对数运算-DCT,得到的语音特征为矩阵形式。
S2:将所述已知识别结果的音频文件的语音特征作为所述二值化分离卷积神经网络模型第一层的输入,将所述已知识别结果的音频文件的语音特征与第一权值相乘,得到第一层未处理的输出。
S3:将所述第一层未处理的输出依次进行批量正则化处理和二值化处理,得到所述二值化分离卷积神经网络模型第一层输出。
S4:将所述二值化分离卷积神经网络模型第一层输出作为第二层的输入,与第二权值相乘,得到第二层未处理的输出。
S5:将所述第二层未处理的输出依次进行批量正则化处理和二值化处理,得到所述二值化分离卷积神经网络模型第二层输出。
S6:重复步骤S4-S5至所有层的处理均完成,得到所述二值化分离卷积神经网络模型的输出。
批量正则化的公式为:
Figure BDA0002738356110000091
μB为数据的均值,m为数据量,
Figure BDA0002738356110000092
为数据的方差,
Figure BDA0002738356110000093
为批量正则化后的参数,ε为常数。
批量正则化即通过计算数据的期望与方差将数据进行归一化的处理,目的为了将数据同分布,解决了由于分批次训练的数据的分布各不相同导致网络在每次训练时都要去学习适应不同的分布的问题;也就是本发明采用批量正则化处理可以大大提高网络的训练速度。
根据所述二值化分离卷积神经网络模型的输出和所述已知识别结果的音频文件对应的识别结果,利用损失函数对所述二值化分离卷积神经网络模型进行优化,得到损失函数对于全精度权重的导数具体过程为:
获取所述已知识别结果的音频文件对应的识别结果和所述二值化分离卷积神经网络模型的输出。
将所述已知识别结果的音频文件对应的识别结果与所述二值化分离卷积神经网络模型的输出做差,得到损失函数;深度神经网络中的的损失函数用来度量我们的模型得到的的预测值和数据真实值之间差距,也是一个用来衡量训练出来的模型泛化能力好坏的重要指标。对模型进行优化的最终目的是尽可能地在不过拟合的情况下降低损失值。
所述损失函数为:
Figure BDA0002738356110000094
其中dr为损失函数对参数的梯度,max为对梯度张量所有维度的统计,quantize为对所述二值化分离卷积神经网络模型进行二值化处理的过程;
Figure BDA0002738356110000095
表示对dr的k位量化,k表示量化后的梯度的位宽;将梯度进行了k位量化,最大值是对梯度张量所有维度的统计,然后在梯度上用来放缩变化将结果映射到[0,1]之间,然后在量化之后又放缩回去。
梯度的量化仅仅在反向传播时完成利用
Figure BDA0002738356110000101
对所述损失函数进行处理,得到所述损失函数对于全精度权重的导数
Figure BDA0002738356110000102
其中r0为二值化后的重。
根据所述损失函数对于全精度权重的导数对所述二值化分离卷积神经网络模型的权值进行更新,进而更新所述二值化分离卷积神经网络模型具体包括:
获取所述损失函数对于全精度权重的导数
Figure BDA0002738356110000103
和所述二值化分离卷积神经网络模型全精度未更新的权值ri。
利用
Figure BDA0002738356110000104
对所述二值化分离卷积神经网络模型的权值进行更新,得到所述二值化分离卷积神经网络模型更新后的权值ri’。
本发明请求保护的基于分离卷积神经网络的语音唤醒方法,在模型优化过程中对模型的权重以及激活值进行了二值化,并在反向传播中对梯度进行了低位宽量化。
二值化处理后,可以把矩阵乘法代替为XNOR(异或非操作),这样就节省了大量的加法以及乘法计算,因此从执行时间来看,二值化神经网络是最快的;另一方面二值化将32位宽的权重转化为了1位的+1或-1,减少了数据的存储空间。相比于全精度神经网络内存大小减少了32倍,随之访问存储器也少了32倍;功耗和内存大小成正比,缩减了功耗,给移动端的部署提供了有效的可行性。
对梯度进行低位宽量化的优势为:同样减少了数据的存储空间,并可以类似的在反向传播中减少由于梯度与权重的矩阵乘法引起的乘加运算,需要强调的是,本发明没有直接将其量化为+1或者-1,而是将其量化为低位宽,这样做的目的是减少由于量化引起的精度损失。
与基于分离卷积神经网络的语音唤醒方法对应的是基于分离卷积神经网络的语音唤醒系统,该语音唤醒系统包括:语音特征获取模块201和识别模块202。
语音特征获取模块201用于获取待识别音频文件并提取所述待识别音频文件的语音特征。
识别模块202用于将所述待识别音频文件的语音特征输入到音频唤醒模型中,得到音频识别结果;其中,所述音频唤醒模型是依据二值化、批量正则化以及深度可分离卷积神经网络模型建立而成;所述音频唤醒模型的建立模块具体包括:
训练样本获取单元,用于获取训练样本;所述训练样本包括多个样本对;每个样本对均包括一个输入、一个输出;所述输入为已知识别结果的音频文件的语音特征,所述输出为所述已知识别结果的音频文件对应的识别结果。
二值化处理单元,用于利用
Figure BDA0002738356110000111
对所述深度可分离卷积神经网络模型的所有参数权重和所有参数激活值进行二值化处理,得到二值化分离卷积神经网络模型;其中xb为二值化后的参数,x表示参数权重或参数激活值。
输出单元,用于将所述已知识别结果的音频文件的语音特征输入到所述二值化分离卷积神经网络模型,利用批量正则化、二值化对所述二值化分离卷积神经网络模型进行处理,得到二值化分离卷积神经网络模型的输出。
优化单元,用于根据所述二值化分离卷积神经网络模型的输出和所述已知识别结果的音频文件对应的识别结果,利用损失函数对所述二值化分离卷积神经网络模型进行优化,得到损失函数对于全精度权重的导数。
更新单元,用于根据所述损失函数对于全精度权重的导数对所述二值化分离卷积神经网络模型的权值进行更新,进而更新所述二值化分离卷积神经网络模型;更新后的二值化分离卷积神经网络模型为所述音频唤醒模型。
所述输出单元具体包括:
第一获取子单元,用于获取所述已知识别结果的音频文件的语音特征。
第一处理子单元,用于将所述已知识别结果的音频文件的语音特征作为所述二值化分离卷积神经网络模型第一层的输入,将所述已知识别结果的音频文件的语音特征与第一权值相乘,得到第一层未处理的输出。
第一输出子单元,用于将所述第一层未处理的输出依次进行批量正则化处理和二值化处理,得到所述二值化分离卷积神经网络模型第一层输出。
第二处理子单元,用于将所述二值化分离卷积神经网络模型第一层输出作为第二层的输入,与第二权值相乘,得到第二层未处理的输出。
第二输出子单元,用于将所述第二层未处理的输出依次进行批量正则化处理和二值化处理,得到所述二值化分离卷积神经网络模型第二层输出。
迭代子单元,用于重复步骤S4-S5至所有层的处理均完成,得到所述二值化分离卷积神经网络模型的输出。
所述批量正则化的公式为:
Figure BDA0002738356110000121
μB为数据的均值,m为数据量,
Figure BDA0002738356110000122
为数据的方差,
Figure BDA0002738356110000123
为批量正则化后的参数,ε为常数。
所述优化单元具体包括:
第二获取子单元,用于获取所述已知识别结果的音频文件对应的识别结果和所述二值化分离卷积神经网络模型的输出。
损失函数获得子单元,用于将所述已知识别结果的音频文件对应的识别结果与所述二值化分离卷积神经网络模型的输出做差,得到损失函数;所述损失函数为:
Figure BDA0002738356110000124
其中dr为损失函数对参数的梯度,max为对梯度张量所有维度的统计,quantize为对所述二值化分离卷积神经网络模型进行二值化处理的过程;
Figure BDA0002738356110000125
表示对dr的k位量化,k表示量化后的梯度的位宽。
损失函数对于全精度权重的导数获得子单元,用于利用
Figure BDA0002738356110000126
对所述损失函数进行处理,得到所述损失函数对于全精度权重的导数
Figure BDA0002738356110000131
其中r0为二值化后的权重。
更新模块具体包括:
第三获取子单元,用于获取所述损失函数对于全精度权重的导数
Figure BDA0002738356110000132
和所述二值化分离卷积神经网络模型全精度未更新的权值ri。
更新子单元,用于利用
Figure BDA0002738356110000133
对所述二值化分离卷积神经网络模型的权值进行更新,得到所述二值化分离卷积神经网络模型更新后的权值ri’。
本说明书中实施例采用递进的方式描述。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于分离卷积神经网络的语音唤醒方法,其特征在于,所述语音唤醒方法包括:
获取待识别音频文件并提取所述待识别音频文件的语音特征;
将所述待识别音频文件的语音特征输入到音频唤醒模型中,得到音频识别结果;其中,所述音频唤醒模型是依据二值化、批量正则化以及深度可分离卷积神经网络模型建立而成;所述音频唤醒模型的建立方法具体包括:
获取训练样本;所述训练样本包括多个样本对;每个样本对均包括一个输入、一个输出;所述输入为已知识别结果的音频文件的语音特征,所述输出为所述已知识别结果的音频文件对应的识别结果;
利用
Figure FDA0002738356100000011
对所述深度可分离卷积神经网络模型的所有参数权重和所有参数激活值进行二值化处理,得到二值化分离卷积神经网络模型;其中xb为二值化后的参数,x表示参数权重或参数激活值;
将所述已知识别结果的音频文件的语音特征输入到所述二值化分离卷积神经网络模型,利用批量正则化、二值化对所述二值化分离卷积神经网络模型进行处理,得到二值化分离卷积神经网络模型的输出;
根据所述二值化分离卷积神经网络模型的输出和所述已知识别结果的音频文件对应的识别结果,利用损失函数对所述二值化分离卷积神经网络模型进行优化,得到损失函数对于全精度权重的导数;
根据所述损失函数对于全精度权重的导数对所述二值化分离卷积神经网络模型的权值进行更新,进而更新所述二值化分离卷积神经网络模型;更新后的二值化分离卷积神经网络模型为所述音频唤醒模型。
2.根据权利要求1所述的基于分离卷积神经网络的语音唤醒方法,其特征在于,所述将所述已知识别结果的音频文件的语音特征输入到所述二值化分离卷积神经网络模型,利用批量正则化、二值化对所述二值化分离卷积神经网络模型进行处理,得到二值化分离卷积神经网络模型的输出具体包括:
S1:获取所述已知识别结果的音频文件的语音特征;
S2:将所述已知识别结果的音频文件的语音特征作为所述二值化分离卷积神经网络模型第一层的输入,将所述已知识别结果的音频文件的语音特征与第一权值相乘,得到第一层未处理的输出;
S3:将所述第一层未处理的输出依次进行批量正则化处理和二值化处理,得到所述二值化分离卷积神经网络模型第一层输出;
S4:将所述二值化分离卷积神经网络模型第一层输出作为第二层的输入,与第二权值相乘,得到第二层未处理的输出;
S5:将所述第二层未处理的输出依次进行批量正则化处理和二值化处理,得到所述二值化分离卷积神经网络模型第二层输出;
S6:重复步骤S4-S5至所有层的处理均完成,得到所述二值化分离卷积神经网络模型的输出。
3.根据权利要求1或2所述的基于分离卷积神经网络的语音唤醒方法,其特征在于,所述批量正则化的公式为:
Figure FDA0002738356100000021
μB为数据的均值,m为数据量,
Figure FDA0002738356100000022
为数据的方差,
Figure FDA0002738356100000023
为批量正则化后的参数,ε为常数。
4.根据权利要求3所述的基于分离卷积神经网络的语音唤醒方法,其特征在于,所述根据所述二值化分离卷积神经网络模型的输出和所述已知识别结果的音频文件对应的识别结果,利用损失函数对所述二值化分离卷积神经网络模型进行优化,得到损失函数对于全精度权重的导数具体包括:
获取所述已知识别结果的音频文件对应的识别结果和所述二值化分离卷积神经网络模型的输出;
将所述已知识别结果的音频文件对应的识别结果与所述二值化分离卷积神经网络模型的输出做差,得到损失函数;所述损失函数为:
Figure FDA0002738356100000024
其中dr为损失函数对参数的梯度,max为对梯度张量所有维度的统计,quantize为对所述二值化分离卷积神经网络模型进行二值化处理的过程;
Figure FDA0002738356100000031
表示对dr的k位量化,k表示量化后的梯度的位宽;
利用
Figure FDA0002738356100000032
对所述损失函数进行处理,得到所述损失函数对于全精度权重的导数
Figure FDA0002738356100000033
其中r0为二值化后的权重。
5.根据权利要求4所述的基于分离卷积神经网络的语音唤醒方法,其特征在于,所述根据所述损失函数对于全精度权重的导数对所述二值化分离卷积神经网络模型的权值进行更新,进而更新所述二值化分离卷积神经网络模型具体包括:
获取所述损失函数对于全精度权重的导数
Figure FDA0002738356100000034
和所述二值化分离卷积神经网络模型全精度未更新的权值ri;
利用
Figure FDA0002738356100000035
对所述二值化分离卷积神经网络模型的权值进行更新,得到所述二值化分离卷积神经网络模型更新后的权值ri’。
6.一种基于分离卷积神经网络的语音唤醒系统,其特征在于,所述语音唤醒系统包括:
语音特征获取模块,用于获取待识别音频文件并提取所述待识别音频文件的语音特征;
识别模块,用于将所述待识别音频文件的语音特征输入到音频唤醒模型中,得到音频识别结果;其中,所述音频唤醒模型是依据二值化、批量正则化以及深度可分离卷积神经网络模型建立而成;所述音频唤醒模型的建立模块具体包括:
训练样本获取单元,用于获取训练样本;所述训练样本包括多个样本对;每个样本对均包括一个输入、一个输出;所述输入为已知识别结果的音频文件的语音特征,所述输出为所述已知识别结果的音频文件对应的识别结果;
二值化处理单元,用于利用
Figure FDA0002738356100000041
对所述深度可分离卷积神经网络模型的所有参数权重和所有参数激活值进行二值化处理,得到二值化分离卷积神经网络模型;其中xb为二值化后的参数,x表示参数权重或参数激活值;
输出单元,用于将所述已知识别结果的音频文件的语音特征输入到所述二值化分离卷积神经网络模型,利用批量正则化、二值化对所述二值化分离卷积神经网络模型进行处理,得到二值化分离卷积神经网络模型的输出;
优化单元,用于根据所述二值化分离卷积神经网络模型的输出和所述已知识别结果的音频文件对应的识别结果,利用损失函数对所述二值化分离卷积神经网络模型进行优化,得到损失函数对于全精度权重的导数;
更新单元,用于根据所述损失函数对于全精度权重的导数对所述二值化分离卷积神经网络模型的权值进行更新,进而更新所述二值化分离卷积神经网络模型;更新后的二值化分离卷积神经网络模型为所述音频唤醒模型。
7.根据权利要求6所述的基于分离卷积神经网络的语音唤醒系统,其特征在于,所述输出单元具体包括:
第一获取子单元,用于获取所述已知识别结果的音频文件的语音特征;
第一处理子单元,用于将所述已知识别结果的音频文件的语音特征作为所述二值化分离卷积神经网络模型第一层的输入,将所述已知识别结果的音频文件的语音特征与第一权值相乘,得到第一层未处理的输出;
第一输出子单元,用于将所述第一层未处理的输出依次进行批量正则化处理和二值化处理,得到所述二值化分离卷积神经网络模型第一层输出;
第二处理子单元,用于将所述二值化分离卷积神经网络模型第一层输出作为第二层的输入,与第二权值相乘,得到第二层未处理的输出;
第二输出子单元,用于将所述第二层未处理的输出依次进行批量正则化处理和二值化处理,得到所述二值化分离卷积神经网络模型第二层输出;
迭代子单元,用于重复步骤S4-S5至所有层的处理均完成,得到所述二值化分离卷积神经网络模型的输出。
8.根据权利要求6或7所述的基于分离卷积神经网络的语音唤醒系统,其特征在于,所述批量正则化的公式为:
Figure FDA0002738356100000051
μB为数据的均值,m为数据量,
Figure FDA0002738356100000052
为数据的方差,
Figure FDA0002738356100000053
为批量正则化后的参数,ε为常数。
9.根据权利要求8所述的基于分离卷积神经网络的语音唤醒系统,其特征在于,所述优化单元具体包括:
第二获取子单元,用于获取所述已知识别结果的音频文件对应的识别结果和所述二值化分离卷积神经网络模型的输出;
损失函数获得子单元,用于将所述已知识别结果的音频文件对应的识别结果与所述二值化分离卷积神经网络模型的输出做差,得到损失函数;所述损失函数为:
Figure FDA0002738356100000054
其中dr为损失函数对参数的梯度,max为对梯度张量所有维度的统计,quantize为对所述二值化分离卷积神经网络模型进行二值化处理的过程;
Figure FDA0002738356100000055
表示对dr的k位量化,k表示量化后的梯度的位宽;
损失函数对于全精度权重的导数获得子单元,用于利用
Figure FDA0002738356100000056
对所述损失函数进行处理,得到所述损失函数对于全精度权重的导数
Figure FDA0002738356100000057
其中r0为二值化后的权重。
10.根据权利要求9所述的基于分离卷积神经网络的语音唤醒系统,其特征在于,所述更新模块具体包括:
第三获取子单元,用于获取所述损失函数对于全精度权重的导数
Figure FDA0002738356100000061
和所述二值化分离卷积神经网络模型全精度未更新的权值ri;
更新子单元,用于利用
Figure FDA0002738356100000062
对所述二值化分离卷积神经网络模型的权值进行更新,得到所述二值化分离卷积神经网络模型更新后的权值ri’。
CN202011141291.8A 2020-10-22 2020-10-22 一种基于分离卷积神经网络的语音唤醒方法及系统 Active CN112233675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011141291.8A CN112233675B (zh) 2020-10-22 2020-10-22 一种基于分离卷积神经网络的语音唤醒方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011141291.8A CN112233675B (zh) 2020-10-22 2020-10-22 一种基于分离卷积神经网络的语音唤醒方法及系统

Publications (2)

Publication Number Publication Date
CN112233675A true CN112233675A (zh) 2021-01-15
CN112233675B CN112233675B (zh) 2023-10-27

Family

ID=74110488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011141291.8A Active CN112233675B (zh) 2020-10-22 2020-10-22 一种基于分离卷积神经网络的语音唤醒方法及系统

Country Status (1)

Country Link
CN (1) CN112233675B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112786021A (zh) * 2021-01-26 2021-05-11 东南大学 一种基于分层量化的轻量级神经网络语音关键词识别方法
CN113409773A (zh) * 2021-08-18 2021-09-17 中科南京智能技术研究院 一种二值化神经网络语音唤醒方法及系统
CN114822510A (zh) * 2022-06-28 2022-07-29 中科南京智能技术研究院 一种基于二值卷积神经网络的语音唤醒方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680611A (zh) * 2017-09-13 2018-02-09 电子科技大学 基于卷积神经网络的单通道声音分离方法
CN109063666A (zh) * 2018-08-14 2018-12-21 电子科技大学 基于深度可分离卷积的轻量化人脸识别方法及系统
CN109448719A (zh) * 2018-12-11 2019-03-08 网易(杭州)网络有限公司 神经网络模型建立方法及语音唤醒方法、装置、介质和设备
CN110222559A (zh) * 2019-04-24 2019-09-10 深圳市微纳集成电路与系统应用研究院 基于卷积神经网络的烟雾图像检测方法及装置
CN110472725A (zh) * 2019-07-04 2019-11-19 北京航空航天大学 一种平衡二值化神经网络量化方法及系统
CN110728308A (zh) * 2019-09-25 2020-01-24 华南理工大学 基于改进Yolov2目标检测和语音识别的交互式导盲系统及方法
US20200090641A1 (en) * 2018-09-19 2020-03-19 Adobe Inc. Utilizing a dynamic memory network to track digital dialog states and generate responses
CN111583940A (zh) * 2020-04-20 2020-08-25 东南大学 极低功耗关键词唤醒神经网络电路

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680611A (zh) * 2017-09-13 2018-02-09 电子科技大学 基于卷积神经网络的单通道声音分离方法
CN109063666A (zh) * 2018-08-14 2018-12-21 电子科技大学 基于深度可分离卷积的轻量化人脸识别方法及系统
US20200090641A1 (en) * 2018-09-19 2020-03-19 Adobe Inc. Utilizing a dynamic memory network to track digital dialog states and generate responses
CN109448719A (zh) * 2018-12-11 2019-03-08 网易(杭州)网络有限公司 神经网络模型建立方法及语音唤醒方法、装置、介质和设备
CN110222559A (zh) * 2019-04-24 2019-09-10 深圳市微纳集成电路与系统应用研究院 基于卷积神经网络的烟雾图像检测方法及装置
CN110472725A (zh) * 2019-07-04 2019-11-19 北京航空航天大学 一种平衡二值化神经网络量化方法及系统
CN110728308A (zh) * 2019-09-25 2020-01-24 华南理工大学 基于改进Yolov2目标检测和语音识别的交互式导盲系统及方法
CN111583940A (zh) * 2020-04-20 2020-08-25 东南大学 极低功耗关键词唤醒神经网络电路

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曾润华;张树群;: "改进卷积神经网络的语音情感识别方法", 应用科学学报, no. 05 *
林志文;林志贤;郭太良;林珊玲;: "基于FPGA加速的卷积神经网络识别系统", 电子技术应用, no. 02 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112786021A (zh) * 2021-01-26 2021-05-11 东南大学 一种基于分层量化的轻量级神经网络语音关键词识别方法
CN113409773A (zh) * 2021-08-18 2021-09-17 中科南京智能技术研究院 一种二值化神经网络语音唤醒方法及系统
CN114822510A (zh) * 2022-06-28 2022-07-29 中科南京智能技术研究院 一种基于二值卷积神经网络的语音唤醒方法及系统
CN114822510B (zh) * 2022-06-28 2022-10-04 中科南京智能技术研究院 一种基于二值卷积神经网络的语音唤醒方法及系统

Also Published As

Publication number Publication date
CN112233675B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN112233675A (zh) 一种基于分离卷积神经网络的语音唤醒方法及系统
CN108510067B (zh) 基于工程化实现的卷积神经网络量化方法
KR102213013B1 (ko) 신경망을 이용한 주파수 기반 오디오 분석
CN113409773B (zh) 一种二值化神经网络语音唤醒方法及系统
CN109919295B (zh) 一种基于轻量级卷积神经网络的嵌入式音频事件检测方法
CN104966517A (zh) 一种音频信号增强方法和装置
CN113205820B (zh) 一种用于声音事件检测的声音编码器的生成方法
CN114708855B (zh) 一种基于二值残差神经网络的语音唤醒方法及系统
CN111507155A (zh) 联合U-Net++和UDA的微地震有效信号初至拾取方法及装置
CN115238893B (zh) 面向自然语言处理的神经网络模型量化方法和装置
CN114579743A (zh) 基于注意力的文本分类方法、装置及计算机可读介质
CN112183582A (zh) 一种多特征融合的水下目标识别方法
CN114863905A (zh) 语音类别获取方法、装置、电子设备和存储介质
CN112652299B (zh) 时间序列语音识别深度学习模型的量化方法及装置
CN113762503A (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN112767950A (zh) 一种声纹识别方法、装置及计算机可读存储介质
CN110570877B (zh) 手语视频生成方法、电子设备及计算机可读存储介质
Riviello et al. Binary Speech Features for Keyword Spotting Tasks.
CN117076858A (zh) 一种基于深度学习的低频大地电磁强干扰压制方法及系统
CN111276134A (zh) 语音识别方法、装置和计算机可读存储介质
CN111260023A (zh) 针对卷积神经网络输入层的位解释
CN115691535A (zh) 基于rnn的高信噪比语音降噪方法、装置、设备及介质
CN111724810A (zh) 一种音频分类方法和装置
CN114974219A (zh) 语音识别方法、语音识别装置、电子设备及存储介质
CN113762061A (zh) 神经网络的量化感知训练方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 5 / F, building 1, Qilin artificial intelligence Industrial Park, 266 Chuangyan Road, Jiangning District, Nanjing City, Jiangsu Province

Applicant after: Zhongke Nanjing Intelligent Technology Research Institute

Address before: 5 / F, building 1, Qilin artificial intelligence Industrial Park, 266 Chuangyan Road, Jiangning District, Nanjing City, Jiangsu Province

Applicant before: Nanjing Institute of intelligent technology, Institute of microelectronics, Chinese Academy of Sciences

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant