CN113409773B - 一种二值化神经网络语音唤醒方法及系统 - Google Patents

一种二值化神经网络语音唤醒方法及系统 Download PDF

Info

Publication number
CN113409773B
CN113409773B CN202110945699.9A CN202110945699A CN113409773B CN 113409773 B CN113409773 B CN 113409773B CN 202110945699 A CN202110945699 A CN 202110945699A CN 113409773 B CN113409773 B CN 113409773B
Authority
CN
China
Prior art keywords
layer
convolution layer
voice
convolution
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110945699.9A
Other languages
English (en)
Other versions
CN113409773A (zh
Inventor
乔树山
付冠宇
尚德龙
周玉梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Yitong Technology Nanjing Co ltd
Original Assignee
Zhongke Nanjing Intelligent Technology Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Nanjing Intelligent Technology Research Institute filed Critical Zhongke Nanjing Intelligent Technology Research Institute
Priority to CN202110945699.9A priority Critical patent/CN113409773B/zh
Publication of CN113409773A publication Critical patent/CN113409773A/zh
Application granted granted Critical
Publication of CN113409773B publication Critical patent/CN113409773B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Abstract

本发明涉及一种二值化神经网络语音唤醒方法及系统。该方法包括:获取待识别音频文件;并提取待识别音频文件的语音特征;根据语音特征和语音唤醒模型,确定待识别音频文件的识别结果;语音唤醒模型通过训练后的二值化的深度可分离卷积神经网络进行建立;语音唤醒模型具体的识别过程为:利用所述第一卷积层对输入进行量化处理;根据量化后的语音特征与网络层的二值量化参数权重以及网络层修正因子做卷积乘法,并将卷积后的数据与第一卷积层的偏置系数做加法;将第一卷积层的输出作为第二卷积层的输入;并将第一卷积层替换为第二卷积层,返回量化的步骤,直至输出识别结果。本发明能够在保证识别准确度的基础上,降低功耗。

Description

一种二值化神经网络语音唤醒方法及系统
技术领域
本发明涉及语音唤醒领域,特别是涉及一种二值化神经网络语音唤醒方法及系统。
背景技术
深度学习已被证明在包括图像分类(Image Classification),目标检测(ObjectDetection),自然语言处理(Natural Language Processing)等任务上效果很好。大量的应用程序都配备了图像(计算机视觉)、语音相关的深度学习算法。
但是全精度网络中网络参数为32位浮点值,会占用硬件的空间,并且网络中存在大量的乘法器,会增加硬件部署难度和计算量,增加功耗。
发明内容
本发明的目的是提供一种二值化神经网络语音唤醒方法及系统,能够在保证识别准确度的基础上,降低功耗。
为实现上述目的,本发明提供了如下方案:
一种二值化神经网络语音唤醒方法,包括:
获取待识别音频文件;并提取所述待识别音频文件的语音特征;所述语音特征包括:梅尔倒谱系数特征矩阵;
根据语音特征和语音唤醒模型,确定待识别音频文件的识别结果;所述语音唤醒模型通过训练后的二值化的深度可分离卷积神经网络进行建立;所述二值化的深度可分离卷积神经网络包括:第一卷积层、第二卷积层以及全连接层;所述语音唤醒模型具体的识别过程为:
利用所述第一卷积层对输入进行量化处理;所述第一卷积层的输入为待识别音频文件的语音特征;
根据量化后的语音特征与网络层的二值量化参数权重以及网络层修正因子做卷积乘法,并将卷积后的数据与第一卷积层的偏置系数做加法,得到第一卷积层的输出;所述网络层修正因子为网络层的参数权重未二值化前的32bit浮点数的按通道均值;
将所述第一卷积层的输出作为第二卷积层的输入;并将所述第一卷积层替换为第二卷积层,返回利用所述第一卷积层对输入进行量化处理的步骤,确定第二卷积层的输出,并重复上述步骤,直至输出识别结果。
可选地,利用所述第一卷积层对输入进行量化处理,具体包括:
利用公式
Figure 100002_DEST_PATH_IMAGE001
进行量化处理;
其中,
Figure 240113DEST_PATH_IMAGE002
为二值化后的参数,x表示参数权重或参数激活值。
可选地,所述根据量化后的语音特征与网络层的二值量化参数权重以及网络层修正因子做卷积乘法,并将卷积后的数据与第一卷积层的偏置系数做加法,得到第一卷积层的输出,具体包括:
利用公式
Figure 100002_DEST_PATH_IMAGE003
确定偏置系数;
其中,
Figure 538370DEST_PATH_IMAGE004
是卷积层的均值,
Figure 100002_DEST_PATH_IMAGE005
是卷积层的方差,
Figure 634413DEST_PATH_IMAGE006
是卷积层的偏置,
Figure 100002_DEST_PATH_IMAGE007
是卷积层的权重,
Figure 941897DEST_PATH_IMAGE008
为常数。
可选地,所述根据量化后的语音特征与网络层的二值量化参数权重以及网络层修正因子做卷积乘法,并将卷积后的数据与第一卷积层的偏置系数做加法,得到第一卷积层的输出,具体包括:
利用公式out = alpha(x* w + offset/alpha)确定第一卷积层的输出;
其中,out为输出,alpha为网络层修正因子,且为正数,w为二值量化参数权重。
一种二值化神经网络语音唤醒系统,包括:
语音特征确定模块,用于获取待识别音频文件;并提取所述待识别音频文件的语音特征;所述语音特征包括:梅尔倒谱系数特征矩阵;
识别结果确定模块,用于根据语音特征和语音唤醒模型,确定待识别音频文件的识别结果;所述语音唤醒模型通过训练后的二值化的深度可分离卷积神经网络进行建立;所述二值化的深度可分离卷积神经网络包括:第一卷积层、第二卷积层以及全连接层;所述语音唤醒模型具体的识别过程为:
利用所述第一卷积层对输入进行量化处理;所述第一卷积层的输入为待识别音频文件的语音特征;
根据量化后的语音特征与网络层的二值量化参数权重以及网络层修正因子做卷积乘法,并将卷积后的数据与第一卷积层的偏置系数做加法,得到第一卷积层的输出;所述网络层修正因子为网络层的参数权重未二值化前的32bit浮点数的按通道均值;
将所述第一卷积层的输出作为第二卷积层的输入;并将所述第一卷积层替换为第二卷积层,返回利用所述第一卷积层对输入进行量化处理的步骤,确定第二卷积层的输出,并重复上述步骤,直至输出识别结果。
可选地,所述识别结果确定模块具体包括:
利用公式
Figure 19443DEST_PATH_IMAGE001
进行量化处理;
其中,
Figure 816498DEST_PATH_IMAGE002
为二值化后的参数,x表示参数权重或参数激活值。
可选地,所述识别结果确定模块具体包括:
利用公式
Figure 363017DEST_PATH_IMAGE003
确定偏置系数;
其中,
Figure DEST_PATH_IMAGE009
是卷积层的均值,
Figure 224925DEST_PATH_IMAGE005
是卷积层的方差,
Figure 173289DEST_PATH_IMAGE006
是卷积层的偏置,
Figure 141245DEST_PATH_IMAGE007
是卷积层的权重,k为常数。
可选地,所述识别结果确定模块具体包括:
利用公式out = alpha(x* w + offset/alpha)确定第一卷积层的输出;
其中,out为输出,alpha为网络层修正因子,且为正数,w为二值量化参数权重。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明所提供的一种二值化神经网络语音唤醒方法及系统,通过语音唤醒模型在识别过程中利用所述第一卷积层对输入进行量化处理,根据量化后的语音特征与网络层的二值量化参数权重以及网络层修正因子做卷积乘法,并将卷积后的数据与第一卷积层的偏置系数做加法,得到第一卷积层的输出,进而将第一卷积层的输出作为第二卷积层的输入,再进行量化以及与网络层的二值量化参数权重以及网络层修正因子做卷积乘法,并与偏置系数做加法;并不断重复。即在保证精度不损失的前提下,优化了网络结构,将卷积层的乘除法预算改为加法,合并网络修正因子与卷积层系数,进一步简化网络,使整个网络的部署不需要使用乘法器,大大减少了硬件部署难度以及计算量,降低功耗。并去卷积输入数据进行量化,将32位宽的权重转化为了1位的+1或-1,因此减少了数据的存储空间。相比于全精度神经网络内存大小减少了32倍,随之访问存储器也少了32倍;功耗和内存大小成正比,缩减了功耗,给移动端的部署提供了有效的可行性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种二值化神经网络语音唤醒方法流程示意图;
图2为本发明所提供的一种二值化神经网络语音唤醒系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种二值化神经网络语音唤醒方法及系统,能够在保证识别准确度的基础上,降低功耗。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明所提供的一种二值化神经网络语音唤醒方法流程示意图,如图1所示,本发明所提供的一种二值化神经网络语音唤醒方法,包括:
S101,获取待识别音频文件;并提取所述待识别音频文件的语音特征;所述语音特征包括:梅尔倒谱系数特征矩阵;
S102,根据语音特征和语音唤醒模型,确定待识别音频文件的识别结果;所述语音唤醒模型通过训练后的二值化的深度可分离卷积神经网络进行建立;所述二值化的深度可分离卷积神经网络包括:第一卷积层、第二卷积层以及全连接层;所述语音唤醒模型具体的识别过程为:
利用所述第一卷积层对输入进行量化处理;所述第一卷积层的输入为待识别音频文件的语音特征;
根据量化后的语音特征与网络层的二值量化参数权重以及网络层修正因子做卷积乘法,并将卷积后的数据与第一卷积层的偏置系数做加法,得到第一卷积层的输出;所述网络层修正因子为网络层的参数权重未二值化前的32bit浮点数的按通道均值;
将所述第一卷积层的输出作为第二卷积层的输入;并将所述第一卷积层替换为第二卷积层,返回利用所述第一卷积层对输入进行量化处理的步骤,确定第二卷积层的输出,并重复上述步骤,直至输出识别结果。
其中,第二卷积层为可分离卷积层。可分离卷积层可分为depthwise convolution层(DW)及pointwise convolution(PW)层。
利用所述第一卷积层对输入进行量化处理,具体包括:
利用公式
Figure 424328DEST_PATH_IMAGE001
进行量化处理;即将各网络层参数即权重和偏置在数值上量化为+1或-1。由于网络参数为32位浮点值,因此二值化在硬件实现上理论上减少了32倍的存储空间。
其中,
Figure 135932DEST_PATH_IMAGE002
为二值化后的参数,x表示参数权重或参数激活值。
所述根据量化后的语音特征与网络层的二值量化参数权重以及网络层修正因子做卷积乘法,并将卷积后的数据与第一卷积层的偏置系数做加法,得到第一卷积层的输出,具体包括:
利用公式
Figure 938803DEST_PATH_IMAGE003
确定偏置系数;
其中,
Figure 77660DEST_PATH_IMAGE009
是卷积层的均值,
Figure 346574DEST_PATH_IMAGE005
是卷积层的方差,
Figure 596290DEST_PATH_IMAGE006
是卷积层的偏置,
Figure 519247DEST_PATH_IMAGE007
是卷积层的权重,k为常数。
本发明将卷积层转化为偏置系统,即将批量正则化中的乘除法进行简化,硬件实现只需要加offset,减少乘法器的使用,硬件实现降低功耗;
所述批量正则化的公式为:
Figure 829005DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
为卷积层的均值,m为数据量,
Figure 24363DEST_PATH_IMAGE012
为数据的方差,
Figure DEST_PATH_IMAGE013
为批量正则化后的参数,
Figure 766186DEST_PATH_IMAGE014
为常数。
所述根据量化后的语音特征与网络层的二值量化参数权重以及网络层修正因子做卷积乘法,并将卷积后的数据与第一卷积层的偏置系数做加法,得到第一卷积层的输出,具体包括:
利用公式out = alpha(x* w + offset/alpha)确定第一卷积层的输出;
其中,out为输出,alpha为网络层修正因子,且为正数,w为二值量化参数权重。
数据在网络中数据形式表示为输入input通过第一层卷积层,第一层卷积首先使用上述sign函数将输入二值量化为+1或-1,量化数据与网络层二值量化参数权重w做卷积乘法,即1bit数据卷积乘1bit数据,接下来对每层通道数据乘网络层修正因子alphaalpha为网络参数权重w未二值化前32bit浮点数的按通道均值。这样得到的最终数据经过卷积层后作为当前层输出,下一层网络的输入。下一层网络对输入数据做同样处理,即通过sign函数等。
如此一来网络可以进行进一步简化创新,第一层输出,即第二层输入:
out =x*w*alpha+offset,然而下一层网络层首先经过sign符号函数,大于0为1,小于0为-1,因此可以将上述公式提取alpha,即out=alpha(x*w+offset/alpha);因为alpha值都为正数,sign(out)即可以表示为:
Figure DEST_PATH_IMAGE015
硬件实现便可以进一步简化电路,只需要训练时的参数offset’,减少计算量,不需要使用乘法器。
图2为本发明所提供的一种二值化神经网络语音唤醒系统结构示意图,如图2所示,本发明所提供的一种二值化神经网络语音唤醒系统,包括:
语音特征确定模块201,用于获取待识别音频文件;并提取所述待识别音频文件的语音特征;所述语音特征包括:梅尔倒谱系数特征矩阵;
识别结果确定模块202,用于根据语音特征和语音唤醒模型,确定待识别音频文件的识别结果;所述语音唤醒模型通过训练后的二值化的深度可分离卷积神经网络进行建立;所述二值化的深度可分离卷积神经网络包括:第一卷积层、第二卷积层以及全连接层;所述语音唤醒模型具体的识别过程为:
利用所述第一卷积层对输入进行量化处理;所述第一卷积层的输入为待识别音频文件的语音特征;
根据量化后的语音特征与网络层的二值量化参数权重以及网络层修正因子做卷积乘法,并将卷积后的数据与第一卷积层的偏置系数做加法,得到第一卷积层的输出;所述网络层修正因子为网络层的参数权重未二值化前的32bit浮点数的按通道均值;
将所述第一卷积层的输出作为第二卷积层的输入;并将所述第一卷积层替换为第二卷积层,返回利用所述第一卷积层对输入进行量化处理的步骤,确定第二卷积层的输出,并重复上述步骤,直至输出识别结果。
所述识别结果确定模块202具体包括:
利用公式
Figure 543649DEST_PATH_IMAGE001
进行量化处理;
其中,
Figure 211259DEST_PATH_IMAGE002
为二值化后的参数,x表示参数权重或参数激活值。
所述识别结果确定模块202具体包括:
利用公式
Figure 503700DEST_PATH_IMAGE003
确定偏置系数;
其中,
Figure 95219DEST_PATH_IMAGE004
是卷积层的均值,
Figure 678253DEST_PATH_IMAGE005
是卷积层的方差,
Figure 329815DEST_PATH_IMAGE006
是卷积层的偏置,
Figure 312814DEST_PATH_IMAGE007
是卷积层的权重,k为常数。
所述识别结果确定模块202具体包括:
利用公式out = alpha(x* w + offset/alpha)确定第一卷积层的输出;
其中,out为输出,alpha为网络层修正因子,且为正数,w为二值量化参数权重。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种二值化神经网络语音唤醒方法,其特征在于,包括:
获取待识别音频文件;并提取所述待识别音频文件的语音特征;所述语音特征包括:梅尔倒谱系数特征矩阵;
根据语音特征和语音唤醒模型,确定待识别音频文件的识别结果;所述语音唤醒模型通过训练后的二值化的深度可分离卷积神经网络进行建立;所述二值化的深度可分离卷积神经网络包括:第一卷积层、第二卷积层以及全连接层;所述语音唤醒模型具体的识别过程为:
利用所述第一卷积层对输入进行量化处理;所述第一卷积层的输入为待识别音频文件的语音特征;
根据量化后的语音特征与网络层的二值量化参数权重以及网络层修正因子做卷积乘法,并将卷积后的数据与第一卷积层的偏置系数做加法,得到第一卷积层的输出;所述网络层修正因子为网络层的参数权重未二值化前的32bit浮点数的按通道均值;
将所述第一卷积层的输出作为第二卷积层的输入;并将所述第一卷积层替换为第二卷积层,返回利用所述第一卷积层对输入进行量化处理的步骤,确定第二卷积层的输出,并重复上述步骤,直至输出识别结果;
所述根据量化后的语音特征与网络层的二值量化参数权重以及网络层修正因子做卷积乘法,并将卷积后的数据与第一卷积层的偏置系数做加法,得到第一卷积层的输出,具体包括:
利用公式out = alpha(x* w + offset/alpha)确定第一卷积层的输出;
其中,out为输出,alpha为网络层修正因子,且为正数,w为二值量化参数权重,x为参数权重或参数激活值,offset为偏置系数。
2.根据权利要求1所述的一种二值化神经网络语音唤醒方法,其特征在于,利用所述第一卷积层对输入进行量化处理,具体包括:
利用公式
Figure DEST_PATH_IMAGE001
进行量化处理;
其中,
Figure DEST_PATH_IMAGE002
为二值化后的参数,x表示参数权重或参数激活值。
3.根据权利要求2所述的一种二值化神经网络语音唤醒方法,其特征在于,所述根据量化后的语音特征与网络层的二值量化参数权重以及网络层修正因子做卷积乘法,并将卷积后的数据与第一卷积层的偏置系数做加法,得到第一卷积层的输出,具体包括:
利用公式
Figure DEST_PATH_IMAGE003
确定偏置系数;
其中,
Figure DEST_PATH_IMAGE004
是卷积层的均值,
Figure DEST_PATH_IMAGE005
是卷积层的方差,
Figure DEST_PATH_IMAGE006
是卷积层的偏置,
Figure DEST_PATH_IMAGE007
是卷积层的权重,
Figure DEST_PATH_IMAGE008
为常数。
4.一种二值化神经网络语音唤醒系统,其特征在于,包括:
语音特征确定模块,用于获取待识别音频文件;并提取所述待识别音频文件的语音特征;所述语音特征包括:梅尔倒谱系数特征矩阵;
识别结果确定模块,用于根据语音特征和语音唤醒模型,确定待识别音频文件的识别结果;所述语音唤醒模型通过训练后的二值化的深度可分离卷积神经网络进行建立;所述二值化的深度可分离卷积神经网络包括:第一卷积层、第二卷积层以及全连接层;所述语音唤醒模型具体的识别过程为:
利用所述第一卷积层对输入进行量化处理;所述第一卷积层的输入为待识别音频文件的语音特征;
根据量化后的语音特征与网络层的二值量化参数权重以及网络层修正因子做卷积乘法,并将卷积后的数据与第一卷积层的偏置系数做加法,得到第一卷积层的输出;所述网络层修正因子为网络层的参数权重未二值化前的32bit浮点数的按通道均值;
将所述第一卷积层的输出作为第二卷积层的输入;并将所述第一卷积层替换为第二卷积层,返回利用所述第一卷积层对输入进行量化处理的步骤,确定第二卷积层的输出,并重复上述步骤,直至输出识别结果;
所述识别结果确定模块具体包括:
利用公式out = alpha(x* w + offset/alpha)确定第一卷积层的输出;
其中,out为输出,alpha为网络层修正因子,且为正数,w为二值量化参数权重,x为参数权重或参数激活值,offset为偏置系数。
5.根据权利要求4所述的一种二值化神经网络语音唤醒系统,其特征在于,所述识别结果确定模块具体包括:
利用公式
Figure 381939DEST_PATH_IMAGE001
进行量化处理;
其中,
Figure 440025DEST_PATH_IMAGE002
为二值化后的参数,x表示参数权重或参数激活值。
6.根据权利要求5所述的一种二值化神经网络语音唤醒系统,其特征在于,所述识别结果确定模块具体包括:
利用公式
Figure 187139DEST_PATH_IMAGE003
确定偏置系数;
其中,
Figure 660977DEST_PATH_IMAGE004
是卷积层的均值,
Figure 114829DEST_PATH_IMAGE005
是卷积层的方差,
Figure 406134DEST_PATH_IMAGE006
是卷积层的偏置,
Figure 751795DEST_PATH_IMAGE007
是卷积层的权重,
Figure 590176DEST_PATH_IMAGE008
为常数。
CN202110945699.9A 2021-08-18 2021-08-18 一种二值化神经网络语音唤醒方法及系统 Active CN113409773B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110945699.9A CN113409773B (zh) 2021-08-18 2021-08-18 一种二值化神经网络语音唤醒方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110945699.9A CN113409773B (zh) 2021-08-18 2021-08-18 一种二值化神经网络语音唤醒方法及系统

Publications (2)

Publication Number Publication Date
CN113409773A CN113409773A (zh) 2021-09-17
CN113409773B true CN113409773B (zh) 2022-01-18

Family

ID=77688770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110945699.9A Active CN113409773B (zh) 2021-08-18 2021-08-18 一种二值化神经网络语音唤醒方法及系统

Country Status (1)

Country Link
CN (1) CN113409773B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708855B (zh) * 2022-06-07 2022-09-16 中科南京智能技术研究院 一种基于二值残差神经网络的语音唤醒方法及系统
CN114822510B (zh) * 2022-06-28 2022-10-04 中科南京智能技术研究院 一种基于二值卷积神经网络的语音唤醒方法及系统
CN115062777B (zh) * 2022-08-17 2022-11-22 珠海亿智电子科技有限公司 卷积神经网络的量化方法、量化装置、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108010515B (zh) * 2017-11-21 2020-06-30 清华大学 一种语音端点检测和唤醒方法及装置
CN109448719B (zh) * 2018-12-11 2022-09-09 杭州易现先进科技有限公司 神经网络模型建立方法及语音唤醒方法、装置、介质和设备
CN110070867B (zh) * 2019-04-26 2022-03-11 珠海普林芯驰科技有限公司 语音指令识别方法、计算机装置及计算机可读存储介质
CN110265002B (zh) * 2019-06-04 2021-07-23 北京清微智能科技有限公司 语音识别方法、装置、计算机设备及计算机可读存储介质
CN111344719A (zh) * 2019-07-22 2020-06-26 深圳市大疆创新科技有限公司 基于深度神经网络的数据处理方法、装置及移动设备
CN111583940A (zh) * 2020-04-20 2020-08-25 东南大学 极低功耗关键词唤醒神经网络电路
CN112233675B (zh) * 2020-10-22 2023-10-27 中科南京智能技术研究院 一种基于分离卷积神经网络的语音唤醒方法及系统

Also Published As

Publication number Publication date
CN113409773A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN113409773B (zh) 一种二值化神经网络语音唤醒方法及系统
CN108053028B (zh) 数据定点化处理方法、装置、电子设备及计算机存储介质
CN105632486B (zh) 一种智能硬件的语音唤醒方法和装置
CN111488985B (zh) 深度神经网络模型压缩训练方法、装置、设备、介质
CN110718211B (zh) 一种基于混合压缩卷积神经网络的关键词识别系统
CN114708855B (zh) 一种基于二值残差神经网络的语音唤醒方法及系统
CN112508125A (zh) 一种图像检测模型的高效全整数量化方法
CN111985495A (zh) 模型部署方法、装置、系统及存储介质
CN111178258B (zh) 一种图像识别的方法、系统、设备及可读存储介质
CN113241064B (zh) 语音识别、模型训练方法、装置、电子设备和存储介质
CN112233675B (zh) 一种基于分离卷积神经网络的语音唤醒方法及系统
CN113782009A (zh) 一种基于Savitzky-Golay滤波器平滑方法的语音唤醒系统
CN110782021A (zh) 一种图像分类方法、装置、设备及计算机可读存储介质
CN114707637A (zh) 一种神经网络量化部署方法、系统及存储介质
CN112381147B (zh) 动态图片相似度模型建立、相似度计算方法和装置
CN110930997B (zh) 一种利用深度学习模型对音频进行标注的方法
CN116013293A (zh) 一种基于混合精度量化神经网络的语音唤醒方法及系统
CN116306709A (zh) 数据处理方法、介质及电子设备
CN110570877A (zh) 手语视频生成方法、电子设备及计算机可读存储介质
CN112446461A (zh) 一种神经网络模型训练方法及装置
CN112289311A (zh) 语音唤醒方法、装置、电子设备及存储介质
CN114581879A (zh) 图像识别方法、装置、电子设备以及存储介质
CN112561050B (zh) 一种神经网络模型训练方法及装置
CN114139678A (zh) 卷积神经网络量化方法、装置、电子设备和存储介质
CN110276448B (zh) 一种模型压缩方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240324

Address after: Room 520, Building 1, Artificial Intelligence Industrial Park, No. 266 Chuangyan Road, Qilin Technology Innovation Park, Nanjing, Jiangsu Province, 210000

Patentee after: Zhongke Yitong Technology (Nanjing) Co.,Ltd.

Country or region after: China

Address before: 5 / F, building 1, Qilin artificial intelligence Industrial Park, 266 Chuangyan Road, Jiangning District, Nanjing City, Jiangsu Province

Patentee before: Zhongke Nanjing Intelligent Technology Research Institute

Country or region before: China