CN114708855A - 一种基于二值残差神经网络的语音唤醒方法及系统 - Google Patents
一种基于二值残差神经网络的语音唤醒方法及系统 Download PDFInfo
- Publication number
- CN114708855A CN114708855A CN202210631715.1A CN202210631715A CN114708855A CN 114708855 A CN114708855 A CN 114708855A CN 202210631715 A CN202210631715 A CN 202210631715A CN 114708855 A CN114708855 A CN 114708855A
- Authority
- CN
- China
- Prior art keywords
- neural network
- voice
- binary
- awakening
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000001228 spectrum Methods 0.000 claims abstract description 32
- 238000003062 neural network model Methods 0.000 claims abstract description 22
- 230000004913 activation Effects 0.000 claims description 49
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000013500 data storage Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 22
- 230000008901 benefit Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于二值残差神经网络的语音唤醒方法及系统,涉及语音唤醒技术领域。所述方法包括:获取待识别音频文件,得到待处理语音信号;对所述待处理语音信号进行特征提取,得到梅尔频谱特征帧;构建二值残差神经网络模型;将所述梅尔频谱特征帧输入至训练好的二值残差神经网络模型中,得到关键词以及非关键词的概率值;根据所述概率值判断是否进行语音唤醒。本发明能够在减少数据存储量与计算量的同时提高语音唤醒的识别准确度。
Description
技术领域
本发明涉及语音唤醒技术领域,特别是涉及一种基于二值残差神经网络的语音唤醒方法及系统。
背景技术
语音唤醒系统通常在移动设备上运行,移动设备的内存小、计算力有限,因此语音唤醒系统应同时满足高准确率、运行所用内存小、计算量少的要求。然而,高性能的深度卷积神经网络模型复杂度高,计算量大,常需要占用大量内存,因此难以将其部署到内存较小的移动端。
发明内容
本发明的目的是提供一种基于二值残差神经网络的语音唤醒方法及系统,在减少数据存储量与计算量的同时提高语音唤醒的识别准确度。
为实现上述目的,本发明提供了如下方案:
一种基于二值残差神经网络的语音唤醒方法,包括:
获取待识别音频文件,得到待处理语音信号;
对所述待处理语音信号进行特征提取,得到梅尔频谱特征帧;
构建二值残差神经网络模型;
将所述梅尔频谱特征帧输入至训练好的二值残差神经网络模型中,得到关键词以及非关键词的概率值;
根据所述概率值判断是否进行语音唤醒。
可选地,对所述待处理语音信号进行特征提取,得到梅尔频谱特征帧,具体包括:
对所述待处理语音信号进行预加重、分帧加窗、快速傅里叶变换以及Mel滤波处理,得到梅尔频谱特征帧。
可选地,所述二值残差神经网络模型包括:卷积层、BN层、ReLU激活函数、6个残差块、最大池化层以及全连接层;所述残差块包括:二值化卷积层、BN层、激活函数Hardtanh(x-a+bias)以及一条捷径,x为所述残差块的输入,a为固定值移位,bias为可学习的偏置。
可选地,所述根据所述概率值判断是否进行语音唤醒,具体包括:
当所述关键词的概率值最大,且距离上次唤醒时间已超过设定时限时,按照所述关键词进行语音唤醒;
当所述非关键词的概率最大时,不进行语音唤醒。
本发明还提供了一种基于二值残差神经网络的语音唤醒系统,包括:
音频文件获取模块,用于获取待识别音频文件,得到待处理语音信号;
特征提取模块,用于对所述待处理语音信号进行特征提取,得到梅尔频谱特征帧;
模型构建模块,用于构建二值残差神经网络模型;
概率值输出模块,用于将所述梅尔频谱特征帧输入至训练好的二值残差神经网络模型中,得到关键词以及非关键词的概率值;
语音唤醒判断模块,用于根据所述概率值判断是否进行语音唤醒。
可选地,所述特征提取模块具体包括:
处理单元,用于对所述待处理语音信号进行预加重、分帧加窗、快速傅里叶变换以及Mel滤波处理,得到梅尔频谱特征帧。
可选地,所述二值残差神经网络模型包括:卷积层、BN层、ReLU激活函数、6个残差块、最大池化层以及全连接层;所述残差块包括:二值化卷积层、BN层、激活函数Hardtanh(x-a+bias)以及一条捷径,x为所述残差块的输入,a为固定值移位,bias为可学习的偏置。
可选地,所述语音唤醒判断模块具体包括:
唤醒单元,用于当所述关键词的概率值最大,且距离上次唤醒时间已超过设定时限时,按照所述关键词进行语音唤醒。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明使用二值残差神经网络(B-ResNet8)作为分类器,将残差网络ResNet中的激活值与权重值由32位浮点数量化为1bit数,从而将网络中大量浮点运算转化为代价更低、更有利于硬件部署的移位运算,从而大大减小神经网络模型中的参数量与计算量,提高唤醒速度并降低语音唤醒系统功耗。另外,本发明中还涉及一种新型激活函数,具有固定值移位的可学习激活函数Hardtanh(x-a+bias),利用固定值移位a与可学习的偏置bias来优化网络中激活值的分布,无代价地提高了语音唤醒的识别率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于二值残差神经网络的语音唤醒方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于二值残差神经网络的语音唤醒方法及系统,在减少数据存储量与计算量的同时提高语音唤醒的识别准确度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供的一种基于二值残差神经网络的语音唤醒方法,包括以下步骤:
步骤101:获取待识别音频文件,得到待处理语音信号。
步骤102:对所述待处理语音信号进行特征提取,得到梅尔频谱特征帧。
步骤103:构建二值残差神经网络模型。
步骤104:将所述梅尔频谱特征帧输入至训练好的二值残差神经网络模型中,得到关键词以及非关键词的概率值。
步骤105:根据所述概率值判断是否进行语音唤醒。
其中,步骤102具体包括:
对所述待处理语音信号进行预加重、分帧加窗、快速傅里叶变换以及Mel滤波处理,得到梅尔频谱特征帧。
其中预加重的目的是增大语音信号高频部分的幅度,起到平衡频谱的作用;分帧加窗则是将预加重后的语音信号分成短时帧,并利用窗函数对每帧的信号进行加窗处理,即对固定长度的语音信号乘以汉明窗,使帧两端平滑地衰减,保证数据的平滑,其运算过程为:,,其中S(n)为完成预加重后的语音信号,W(n)为汉明窗函数,S’(n)为完成加窗后得到的时域信号,N为汉明窗口中信号的总长度,a取0.46;快速傅里叶变换是将分帧加窗后得到的时域信号转换为频域信号,并计算能量谱,其计算公式为:,,其中x(n)为长度N的语音信号,为旋转因子,X(k)为快速傅里叶变换后得到的频域信号,再利用公式得到能量谱P;最后在能量谱上应用Mel滤波器组得到梅尔频谱特征帧,具体为利用公式,其中Y(m)为得到的梅尔频谱特征帧,P为上一步得到的能量谱,Hm(k)为Mel滤波器组,m表示Mel滤波器的编号。经过上述步骤得到连续的梅尔频谱声学特征帧。由于二值残差神经网络模型的输入层为固定帧数的声学特征,每次新的声学特征帧,可将其与之前已生成的特征帧利用代码编写软件中的拼接函数(例如python中的cat函数)进行拼接,得到新的输入。
其中,步骤103中构建的二值残差神经网络模型,其输入为梅尔频谱声学特征帧,输出为连续的非关键词和关键词概率。
本发明选取的神经网络为二值残差神经网络B-ResNet8,是在经典残差网络ResNet基础上对其进行改进与二值化得到的。
所述二值残差神经网络模型包括:卷积层、BN层、ReLU激活函数、6个残差块、最大池化层以及全连接层;梅尔频谱声学特征帧作为激活值输入进第一卷积层,经过卷积运算变为激活值输出,然后进入BN层,进行标准化处理,然后经过ReLU激活函数以增加激活值的非线性、减少过拟合,便得到残差块的激活值输入。其中第一层卷积层与最后一层全连接层为全精度层,即未对激活值与权重进行二值化,目的是在神经网络的输入端与输出端避免信息损失,防止明显的精度下降。
每个残差块包括:二值化卷积层、BN层、激活函数Hardtanh(x-a+bias)以及一条捷径,x为所述残差块的输入,a为固定值移位,bias为可学习的偏置。
捷径用于连接残差块中卷积层的输入端与BN层的输出端,复制卷积层的输入,并与BN层的输出相加得到Hardtanh(x-a+bias)激活函数的输入,具体为公式:F(x) = f(x) +x;其中x、f(x)、F(x)分别为卷积层的输入(残差块的输入)、BN层的输出、Hardtanh(x-a+bias)激活函数的输入。而Hardtanh(x-a+bias)激活函数的输出将作为下一个残差块的输入,往复进行。其中,Hardtanh(x-a+bias)激活函数是本发明提出的具有固定值移位的可学习激活函数,除了能增加输出激活值的非线性外,还可通过固定值移位a来移动激活值分布,使激活值分布趋于不平衡,这有利于提高二值化网络的准确性,最佳的固定值移位a可以通过实验获得,在本发明中取x=0.7,而bias是可学习的偏置,可以在训练过程中进一步修正激活值分布,从而获得最优激活分布。此外,残差块中的卷积层都是二值化卷积层,即在卷积运算前,对全精度激活值与全精度权重二值化为1bit数,具体为利用公式:,其中,a r 代表全精度的输入激活值;a b 、w b 则分别代表二值化后的激活值、权重值;w r 为正则化后的全精度权重值,利用公式:得到,其中w为全精度的权重值,w.mean为w的平均值,w.std为w的绝对值。得益于二值化权重和激活值的好处,输出激活值yr可通过简单的xnor运算和popcount运算得到,从而避免了卷积所需的大量浮点数乘加运算,并提高语音唤醒速度。如公式所示:,其中a b 、w b 分别代表二值化后的激活值、权重值,yr为输出激活值。最后一个残差块输出的激活值进入最大池化层进行降采样后,被输入到全连接层,最终输出连续的非关键词和关键词概率。
其中,步骤105具体包括:当所述关键词的概率值最大,且距离上次唤醒时间已超过设定时限时,按照所述关键词进行语音唤醒;当所述非关键词的概率最大时,不进行语音唤醒。
本发明设置了十个关键词作为唤醒词来唤醒设备,经过上述步骤后得到非关键词和关键词概率输出,选择概率值最大的关键词或非关键词当作标签,并作为输出,若该标签为关键词,且距离上次唤醒时间已超过设定时限,则按照该关键词唤醒设备。
本发明与传统的使用全精度神经网络作为分类器的语音唤醒系统相比,使用二值残差神经网络作为分类器,以很小的精度下降为代价,减少了数据存储的空间,大幅度降低语音唤醒系统的计算量与功耗,从而降低了硬件实现的难度。这个优点来自于对神经网络的激活值输入与权重进行二值化处理,大大减少了数据的存储量与系统的运算量,进一步降低了功耗,提供了一种便于移动端使用的轻量级语音唤醒实现方案。
本发明与一般的基于二值化神经网络的语音唤醒系统相比,提高了语音唤醒识别精度,大大提高了二值化网络应用于语音唤醒系统的可行性。这个优点来自于二值残差网络中残差块的引入,一方面可以避免卷积神经网络加深带来梯度消失的问题,另一方面增加了网络中的激活值的数值表示范围,减少了激活值被二值化后带来的信息损失。另外,残差块中使用的并非传统的激活函数,而是本发明提出的新型激活函数,具有固定值移位的可学习激活函数Hardtanh(x-a+bias),通过手动移位a与可学习的偏置bias来优化激活值分布以减少二值化带来的信息损失。这两者大大缓解了二值化网络信息损失太大的缺陷,提高了网络的识别精度。
本发明还提供了一种基于二值残差神经网络的语音唤醒系统,包括:
音频文件获取模块,用于获取待识别音频文件,得到待处理语音信号;
特征提取模块,用于对所述待处理语音信号进行特征提取,得到梅尔频谱特征帧;
模型构建模块,用于构建二值残差神经网络模型;
概率值输出模块,用于将所述梅尔频谱特征帧输入至训练好的二值残差神经网络模型中,得到关键词以及非关键词的概率值;
语音唤醒判断模块,用于根据所述概率值判断是否进行语音唤醒。
其中,所述特征提取模块具体包括:
处理单元,用于对所述待处理语音信号进行预加重、分帧加窗、快速傅里叶变换以及Mel滤波处理,得到梅尔频谱特征帧。
其中,所述语音唤醒判断模块具体包括:
唤醒单元,用于当所述关键词的概率值最大,且距离上次唤醒时间已超过设定时限时,按照所述关键词进行语音唤醒。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种基于二值残差神经网络的语音唤醒方法,其特征在于,包括:
获取待识别音频文件,得到待处理语音信号;
对所述待处理语音信号进行特征提取,得到梅尔频谱特征帧;
构建二值残差神经网络模型;
将所述梅尔频谱特征帧输入至训练好的二值残差神经网络模型中,得到关键词以及非关键词的概率值;
根据所述概率值判断是否进行语音唤醒。
2.根据权利要求1所述的基于二值残差神经网络的语音唤醒方法,其特征在于,对所述待处理语音信号进行特征提取,得到梅尔频谱特征帧,具体包括:
对所述待处理语音信号进行预加重、分帧加窗、快速傅里叶变换以及Mel滤波处理,得到梅尔频谱特征帧。
3.根据权利要求1所述的基于二值残差神经网络的语音唤醒方法,其特征在于,所述二值残差神经网络模型包括:卷积层、BN层、ReLU激活函数、6个残差块、最大池化层以及全连接层;所述残差块包括:二值化卷积层、BN层、激活函数Hardtanh(x-a+bias)以及一条捷径,x为所述残差块的输入,a为固定值移位,bias为可学习的偏置。
4.根据权利要求1所述的基于二值残差神经网络的语音唤醒方法,其特征在于,所述根据所述概率值判断是否进行语音唤醒,具体包括:
当所述关键词的概率值最大,且距离上次唤醒时间已超过设定时限时,按照所述关键词进行语音唤醒;
当所述非关键词的概率最大时,不进行语音唤醒。
5.一种基于二值残差神经网络的语音唤醒系统,其特征在于,包括:
音频文件获取模块,用于获取待识别音频文件,得到待处理语音信号;
特征提取模块,用于对所述待处理语音信号进行特征提取,得到梅尔频谱特征帧;
模型构建模块,用于构建二值残差神经网络模型;
概率值输出模块,用于将所述梅尔频谱特征帧输入至训练好的二值残差神经网络模型中,得到关键词以及非关键词的概率值;
语音唤醒判断模块,用于根据所述概率值判断是否进行语音唤醒。
6.根据权利要求5所述的基于二值残差神经网络的语音唤醒系统,其特征在于,所述特征提取模块具体包括:
处理单元,用于对所述待处理语音信号进行预加重、分帧加窗、快速傅里叶变换以及Mel滤波处理,得到梅尔频谱特征帧。
7.根据权利要求5所述的基于二值残差神经网络的语音唤醒系统,其特征在于,所述二值残差神经网络模型包括:卷积层、BN层、ReLU激活函数、6个残差块、最大池化层以及全连接层;所述残差块包括:二值化卷积层、BN层、激活函数Hardtanh(x-a+bias)以及一条捷径,x为所述残差块的输入,a为固定值移位,bias为可学习的偏置。
8.根据权利要求5所述的基于二值残差神经网络的语音唤醒系统,其特征在于,所述语音唤醒判断模块具体包括:
唤醒单元,用于当所述关键词的概率值最大,且距离上次唤醒时间已超过设定时限时,按照所述关键词进行语音唤醒。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210631715.1A CN114708855B (zh) | 2022-06-07 | 2022-06-07 | 一种基于二值残差神经网络的语音唤醒方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210631715.1A CN114708855B (zh) | 2022-06-07 | 2022-06-07 | 一种基于二值残差神经网络的语音唤醒方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114708855A true CN114708855A (zh) | 2022-07-05 |
CN114708855B CN114708855B (zh) | 2022-09-16 |
Family
ID=82177931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210631715.1A Active CN114708855B (zh) | 2022-06-07 | 2022-06-07 | 一种基于二值残差神经网络的语音唤醒方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114708855B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035897A (zh) * | 2022-08-10 | 2022-09-09 | 中科南京智能技术研究院 | 一种关键词检测方法及系统 |
CN116644796A (zh) * | 2023-07-27 | 2023-08-25 | 美智纵横科技有限责任公司 | 网络模型的量化方法和语音数据的处理方法、装置及芯片 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111276131A (zh) * | 2020-01-22 | 2020-06-12 | 厦门大学 | 一种基于深度神经网络的多类声学特征整合方法和系统 |
US20210074270A1 (en) * | 2019-09-06 | 2021-03-11 | Hyperconnect, Inc. | Keyword spotting apparatus, method, and computer-readable recording medium thereof |
CN113409773A (zh) * | 2021-08-18 | 2021-09-17 | 中科南京智能技术研究院 | 一种二值化神经网络语音唤醒方法及系统 |
CN113782009A (zh) * | 2021-11-10 | 2021-12-10 | 中科南京智能技术研究院 | 一种基于Savitzky-Golay滤波器平滑方法的语音唤醒系统 |
-
2022
- 2022-06-07 CN CN202210631715.1A patent/CN114708855B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210074270A1 (en) * | 2019-09-06 | 2021-03-11 | Hyperconnect, Inc. | Keyword spotting apparatus, method, and computer-readable recording medium thereof |
CN111276131A (zh) * | 2020-01-22 | 2020-06-12 | 厦门大学 | 一种基于深度神经网络的多类声学特征整合方法和系统 |
CN113409773A (zh) * | 2021-08-18 | 2021-09-17 | 中科南京智能技术研究院 | 一种二值化神经网络语音唤醒方法及系统 |
CN113782009A (zh) * | 2021-11-10 | 2021-12-10 | 中科南京智能技术研究院 | 一种基于Savitzky-Golay滤波器平滑方法的语音唤醒系统 |
Non-Patent Citations (5)
Title |
---|
ALEXANDRE RIVIELLO: "Binary Neural Networks for Keyword Spotting Tasks", 《HTTPS://PUBLICATIONS.POLYMTL.CA/5449/》 * |
HYUNGJUN KIM等: "Improving Accuracy of Binary Neural Networks using Unbalanced Activation Distribution", 《PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
ZHONGWEI LIU等: "Adaptive Binarization Method for Binary Neural Network", 《2021 40TH CHINESE CONTROL CONFERENCE (CCC)》 * |
宋佳楠: "面向一维时序信号的二值化网络系统设计", 《中国优秀硕士学位论文全文数据库》 * |
宋知用 编著: "《MATLAB语音信号分析与合成 第2版》", 31 January 2018, 北京航空航天大学出版社 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035897A (zh) * | 2022-08-10 | 2022-09-09 | 中科南京智能技术研究院 | 一种关键词检测方法及系统 |
CN115035897B (zh) * | 2022-08-10 | 2022-11-11 | 中科南京智能技术研究院 | 一种关键词检测方法及系统 |
CN116644796A (zh) * | 2023-07-27 | 2023-08-25 | 美智纵横科技有限责任公司 | 网络模型的量化方法和语音数据的处理方法、装置及芯片 |
CN116644796B (zh) * | 2023-07-27 | 2023-10-03 | 美智纵横科技有限责任公司 | 网络模型的量化方法和语音数据的处理方法、装置及芯片 |
Also Published As
Publication number | Publication date |
---|---|
CN114708855B (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108010515B (zh) | 一种语音端点检测和唤醒方法及装置 | |
CN114708855B (zh) | 一种基于二值残差神经网络的语音唤醒方法及系统 | |
CN104347067A (zh) | 一种音频信号分类方法和装置 | |
CN110718211B (zh) | 一种基于混合压缩卷积神经网络的关键词识别系统 | |
CN113409773B (zh) | 一种二值化神经网络语音唤醒方法及系统 | |
CN113823323B (zh) | 一种基于卷积神经网络的音频处理方法、装置及相关设备 | |
CN112233675B (zh) | 一种基于分离卷积神经网络的语音唤醒方法及系统 | |
CN111625649A (zh) | 文本处理方法、装置、电子设备及介质 | |
CN113241064A (zh) | 语音识别、模型训练方法、装置、电子设备和存储介质 | |
CN108806725A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN113409827B (zh) | 基于局部卷积块注意力网络的语音端点检测方法及系统 | |
CN112420079B (zh) | 语音端点检测方法和装置、存储介质及电子设备 | |
CN106228976A (zh) | 语音识别方法和装置 | |
CN116665675B (zh) | 语音转写方法、系统、电子设备和存储介质 | |
CN112767950A (zh) | 一种声纹识别方法、装置及计算机可读存储介质 | |
CN115798459B (zh) | 音频处理方法、装置、存储介质及电子设备 | |
CN115116458B (zh) | 语音数据转换方法、装置、计算机设备及存储介质 | |
CN112652299B (zh) | 时间序列语音识别深度学习模型的量化方法及装置 | |
CN111477248B (zh) | 一种音频噪声检测方法及装置 | |
CN114822510B (zh) | 一种基于二值卷积神经网络的语音唤醒方法及系统 | |
CN113129926A (zh) | 语音情绪识别模型训练方法、语音情绪识别方法及装置 | |
CN115035897B (zh) | 一种关键词检测方法及系统 | |
Samanta et al. | A Reconfigurable Gaussian Base Normalization Deep Neural Network Design for an Energy-Efficient Voice Activity Detector | |
Huang et al. | A High-Performance Mel-scale Frequency Cepstral Coefficients Digital Circuit Used on Keyword-Spotting Chip | |
CN117649846B (zh) | 语音识别模型生成方法、语音识别方法、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |