CN111210815A - 一种用于语音命令词识别的深度神经网络构建方法和识别方法及装置 - Google Patents

一种用于语音命令词识别的深度神经网络构建方法和识别方法及装置 Download PDF

Info

Publication number
CN111210815A
CN111210815A CN201911195308.5A CN201911195308A CN111210815A CN 111210815 A CN111210815 A CN 111210815A CN 201911195308 A CN201911195308 A CN 201911195308A CN 111210815 A CN111210815 A CN 111210815A
Authority
CN
China
Prior art keywords
voice
dimensional
recognition
channel
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911195308.5A
Other languages
English (en)
Other versions
CN111210815B (zh
Inventor
赵铭
胡伟
蔡一茂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201911195308.5A priority Critical patent/CN111210815B/zh
Publication of CN111210815A publication Critical patent/CN111210815A/zh
Application granted granted Critical
Publication of CN111210815B publication Critical patent/CN111210815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种用于语音命令词识别的深度神经网络构建方法和识别方法及装置。该方法包括:由语音命令集和干扰语音集构成训练数据,对训练数据中的每条语音进行分帧,对每帧语音提取特征参数,得到多通道的一维特征向量;将所有多通道的一维特征向量输入CNN网络进行训练,网络中部分或者全部卷积层使用一维卷积内核进行卷积操作,最终得到训练完成的用于语音命令词识别的CNN网络。本发明将语音特征看作多通道一维特征向量,采用一维卷积操作代替二维卷积操作,能够有效的降低卷积操作的计算量,达到与二维卷积同样级别的识别精度,使智能设备实现本地离线的、能够快速响应的语音命令识别功能,降低了识别的功耗,给用户以良好的使用体验。

Description

一种用于语音命令词识别的深度神经网络构建方法和识别方 法及装置
技术领域
本发明属于语音识别(speech recognition)、人工智能(artificialintelligence)、深度神经网络(deep neural network)、卷积神经网络(CNN,convolutionneural network)算法领域,具体涉及一种用于语音命令词识别的深度卷积神经网络构建方法和基于该神经网络进行语音命令识别的方及装置。
背景技术
语音命令词识别是智能设备人机语音交互功能的重要组成部分。它需要实时响应、高精度和良好的用户体验。传统的语音识别技术使用隐含马尔可夫模型(HMMS)和维特比译码,虽然达到了合理的精度,但模型训练的复杂度高,推理(识别)过程的计算量大,识别延时也较大。近年来,采用深度神经网络进行语音的复杂语句识别和命令词识别已成为一种有吸引力的选择,其比传统的语音识别算法有更高的准确性和更少的识别延时。
智能设备实现语音命令识别可以有两种方式,一种是将语音命令送到云端进行识别,一种是本地识别。云端识别可以使用复杂的神经网络,精度高,但是由于网络延时的存在,识别延时大,用户体验不好。所以很多情况下,智能设备更需要本地离线的语音命令识别功能,以实现快速的响应。对于智能设备,出于功耗方面的考虑,用于离线语音命令识别的神经网络不能过于复杂,以降低计算功耗。但同时要能提供足够高的识别精度,给用户以良好的使用体验。
在一个典型的语音命令词识别系统中,一段输入语音首先被分成多个语音帧,相邻的两个语音帧一般会有部分交叠。对于每帧语音,会进行语音特征参数的提取。常用的语音特征有对数梅尔子带能量(LFBE,Log-mel filter bank energies),和梅尔频率倒谱系数(MFCC,Mel-frequency cepstral coefficients)。提取过程首先将一帧语音通过傅里叶变换转换成频率域的一组频谱系数,然后用频谱系数计算语音特征。
如果一段语音被分成N个语音帧,每个语音帧提取出K个特征参数,那么一个语音命令识别神经网络的输入数据个数为N*K个。用于语音识别的神经网络可以用深度神经网络(DNN,deep neural network)结构,也可用卷积神经网络(CNN,convolution neuralnetwork)结构。
DNN网络由多个全连接层级联组成,N*K个特征作为一组一维数据输入给DNN网络,最后一级全连接层的计算结果输入到输出层得到识别结果。DNN网络的缺点在于采用全连接层,很难提高识别精度。如果要取得较高的识别精度,计算量将非常大。DNN网络将N*K个特征看做一组一维数据,并没有考虑到N个语音帧特征参数之间具有相关性,实际是可以通过卷积操作提取这种相关性,来提高识别精度,或者降低计算量。
CNN网络将N*K个特征看做一幅长为N、宽为K的图像,如下面公式所示,其中U表示特征矩阵,u表示矩阵中的元素即某个特征参数。
Figure BDA0002294526720000021
CNN网络由多个卷积层和全连接层级联组成,最后一级全连接层的计算结果输入到输出层得到识别结果。CNN网络将多帧特征看做图像,因此采用了对图像常用的二维卷积操作,而二维卷积的计算量比较大。
上述用于语音识别的神经网络的结构比较复杂,计算量大,用于智能设备本地离线的语音命令识别功能时,计算功耗高,不适合移动智能设备或对功耗有要求的智能设备的使用。
发明内容
本发明解决的技术问题在于,降低语音命令识别网络的复杂度和计算量,同时提供足够高的识别精度,从而使智能设备实现本地离线的、能够快速响应的语音命令识别功能。
本发明采用的技术方案如下:
一种用于语音命令词识别的深度神经网络构建方法,包括以下步骤:
由语音命令集和干扰语音集构成训练数据,对训练数据中的每条语音进行分帧,对每帧语音提取特征参数,得到多通道的一维特征向量;
将所有多通道的一维特征向量输入CNN网络进行训练,CNN网络中部分或者全部卷积层使用一维卷积内核进行卷积操作,最终得到训练完成的用于语音命令词识别的CNN网络。
进一步地,所述CNN网络中部分或者全部卷积层使用一维卷积内核进行卷积操作,以及激活、池化操作,生成新的多通道的一维特征向量,输入给下一层。
进一步地,所述的对训练数据中的每条语音进行分帧,对每帧语音提取特征参数,得到多通道的一维特征向量,包括:
将一段语音分成N个语音帧,每个语音帧提取出K个特征参数,从而得到N*K个语音特征,将N*K个语音特征作为K个通道的一维特征向量,每个通道的一维向量含有N个数据。
进一步地,定义识别集合={{语音命令集},“干扰语音”,“无声”},所述CNN网络的识别结果对应所述识别集合中“无声”、“干扰语音”、或者某个语音命令之一。
基于同一发明构思,本发明还提供一种用于语音命令词识别的深度神经网络构建装置,其包括:
特征提取模块,负责对由语音命令集和干扰语音集构成的训练数据中的每条语音进行分帧,对每帧语音提取特征参数,得到多通道的一维特征向量;
网络训练模块,负责将所有多通道的一维特征向量输入CNN网络进行训练,CNN网络中部分或者全部卷积层使用一维卷积内核进行卷积操作,最终得到训练完成的用于语音命令词识别的CNN网络。
基于同一发明构思,本发明还提供一种语音命令识别方法,包括以下步骤:
将待识别的语音分成N个语音帧,每个语音帧提取出K个特征参数,从而得到N*K个语音特征;
将提取的N*K个语音特征输入至本发明构建的CNN网络,得到语音命令词识别标签。
基于同一发明构思,本发明还提供一种语音命令识别装置,其包括:
特征提取模块,负责将待识别的语音分成N个语音帧,每个语音帧提取出K个特征参数,从而得到N*K个语音特征;
识别模块,负责将提取的N*K个语音特征输入至本发明构建的CNN网络,得到语音命令词识别标签。
本发明的有益效果如下:
本发明将语音特征看作多通道一维特征向量,而不是二维图像,采用一维卷积操作来代替二维卷积操作,能够有效的降低卷积操作的计算量,并达到与二维卷积同样级别的识别精度,从而使智能设备实现本地离线的、能够快速响应的语音命令识别功能,降低了识别的功耗,给用户以良好的使用体验。
本发明与现有的基于卷积神经网络的语音命令识别算法的区别在于:现有的基于卷积神经网络的语音命令识别算法要么是基于DNN模型,要么是基于二维卷积神经网络,还未有人提出用一维卷积神经网络算法进行语音命令识别。
附图说明
图1是实施例中一维CNN网络的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
目前普遍使用的语音命令识别CNN网络,可以称为二维卷积CNN网络,它将语音特征看作一幅图像,输入给第一个卷积层,通过二维卷积核对输入图像进行卷积,生成多通道特征图像。之后的每一个卷积层都使用多通道二维卷积核对输入的多通道特征图像进行卷积、池化(pooling)、激活(activation)等操作,生成新的多通道特征图像,输入给下一层网络。
CNN网络中二维卷积的计算量比较大。实际上多帧特征图并不是实际存在的图像,那么将不同帧同一位置的特征作为一个特征通道可能更合适。即将背景技术中的特征矩阵U中的[u0,k,u1,k,…,uN-1,k],k∈[0,K-1]看作一个特征通道向量。这样可以用一维卷积来处理。
与目前普遍使用的二维CNN网络不同,本发明提出的语音命令识别网络,可以称为一维CNN网络。该一维CNN网络,将输入的N*K个语音特征,看作有K个通道的一维特征向量组,每个通道的一维特征向量含有N个数据。部分或者全部卷积层使用一维卷积内核,对多通道一维特征向量进行卷积操作,以及激活、池化操作,生成新的多通道一维特征向量,输入给下一层。一个示例的一维CNN网络的结构如图1所示。
将语音特征看作多通道一维特征向量,而不是二维图像,这样就可以采用一维卷积操作来代替二维卷积操作。这种方法可以有效的降低卷积操作的计算量,并达到同样级别的识别精度。
一个示例的一维卷积公式如下:
Figure BDA0002294526720000041
其中:
Zl是l层的输出特征向量组,也是l+1层的输入特征向量组;
Figure BDA0002294526720000042
是Zl的第k个通道的一维特征向量,k∈[0,Kl-1],Kl是Zl的通道数目;
i表示一个通道的一维特征向量中的第i个值;
Figure BDA0002294526720000043
是Zl的第k个通道的一维特征向量
Figure BDA0002294526720000044
的第i个值;
Tl+1是l+1层的卷积结果;
Figure BDA0002294526720000045
是Tl+1的第j个通道的一维特征向量,j∈[0,Kl+1-1],Kl+1是Tl+1的通道数目;
Wl+1是一维卷积内核;
Figure BDA0002294526720000046
是卷积内核Wl+1的系数,对应第l+1层第k个输入通道,第j个输出通道;
b是偏移值;
x∈[-x0,x1];
x0,x1决定了卷积操作的范围,对于输入的第k个通道的一维特征向量中的第i个值
Figure BDA0002294526720000051
卷积操作的范围是从位置(i-x0)到位置(i+x1),也就是从
Figure BDA0002294526720000052
Figure BDA0002294526720000053
卷积结果Tl+1计算出来之后,可以进行激活(activation)和池化(pooling)操作,最终得到l+1层的多通道特征向量Zl+1,输入给下一级。
如图1所示,经过M层卷积层后,进入全连接层1~L,全连接层的作用是用于生成识别结果。
定义识别集合={{语音命令集},“干扰语音”,“无声”}。
网络的识别输出实际是识别集合里每种结果对应的标签,也就是说最终识别出来的结果对应“无声”、“干扰语音”、或者某个语音命令之一。
上述一维CNN网络的训练过程包括以下步骤:
1)首先准备语音命令集,和干扰语音集,每条语音命令和干扰语音都处理成具有相同的时间长度。通常干扰语音集的语音条数是语音命令集的数倍以上。
2)对每条语音进行分帧,对每帧语音提取特征参数,得到多通道特征参数。
3)定义损失函数,用于度量真实命令标签和预测概率之间的差异,例如交叉熵。
4)将所有多通道语音特征参数作为CNN网络的输入用于网络参数训练。
5)通过梯度下降法和反向传播方式更新网络参数,多次迭代以后得到比较稳定的网络参数,作为最终的网络参数。
采用训练完成的一维CNN网络进行语音命令词识别的方法,包括以下步骤:
1)对待识别的语音提取语音特征。将一段语音分成N个语音帧,每个语音帧提取出K个特征参数,从而得到N*K个语音特征。
2)将提取的N*K个语音特征输入至训练完成的一维CNN网络,得到语音命令词识别标签,也就是识别集合里对应结果的标签。
下面提供一个具体应用实例。
输入层:
语音命令的长度为1秒,20毫秒一帧,相邻帧之间交叠区间为10毫秒,最终分成99帧语音。每帧语音提取40个梅尔频率倒谱系数(MFCC)作为语音特征。这样网络输入是99x40的语音特征参数向量组,也就是40个特征通道,每个通道向量的长度是99。
第1个卷积层:
卷积操作采用96个大小为5x40的卷积核,以步长1对输入的99x40语音特征向量组进行卷积操作,卷积结果为大小为99x96的向量组,也就是96个特征通道,每个通道向量的长度是99。卷积结果进行激活操作,激活函数采用修正线性单元ReLu。
本层不进行池化操作,激活结果直接送入第2个卷积层。
第2个卷积层:
卷积操作采用96个大小为7x96的卷积核,以步长1对输入的99x96语音特征向量组进行卷积操作,卷积结果为大小为99x96的向量组,也就是96个特征通道,每个通道向量的长度是99。卷积数据进行激活操作,激活函数采用修正线性单元ReLu。
本层进行池化操作,以步长2做最大池化操作,得到50x96的向量组,也就是96个特征通道,每个通道向量的长度是50。池化之后的数据送入第3个卷积层。
第3个卷积层:
卷积操作采用96个大小为7x96的卷积核,以步长1对输入的50x96语音特征向量组进行卷积操作,卷积结果为大小为50x96的向量组,也就是96个特征通道,每个通道向量的长度是50。卷积数据进行激活操作,激活函数采用修正线性单元ReLu。
本层进行池化操作,以步长2做最大池化操作,得到25x96的向量组,也就是96个特征通道,每个通道向量的长度是25。池化之后的数据送入第4个卷积层
第4个卷积层:
卷积操作采用96个大小为7x96的卷积核,以步长1对输入的25x96语音特征向量组进行卷积操作,卷积结果为大小为25x96的向量组,也就是96个特征通道,每个通道向量的长度是25。卷积数据进行激活操作,激活函数采用修正线性单元ReLu。
本层不进行池化操作,激活结果直接送入全连接层。
全连接层:
全连接层将25x96的向量组展成长度为2400的一维数据。全连接层有32个神经元,每个神经元与一维数据的每个数据连接。全连接层的输出为32个数据。
输出层:
将全连接层的32个数据送入Softmax()函数,得到每个标签的识别概率。将概率最高的标签作为本次识别的结果。
本发明的上述示例的神经网络的识别准确率为95.3%,与参考文献“Hello Edge:Keyword Spotting on Microcontrollers”,Yundong Zhang,Naveen Suda,LiangzhenLai,Vikas Chandra,https://arxiv.org/abs/1711.07128”的对比如下面表1所示。
表1.本发明和现有方法的实验结果对比
准确率 单次识别的计算操作个数 说明
DS-CNN 95.4% 56.9M 文献中准确率最高的算法
CRNN 95.0% 19.2M 文献中准确率第二最高的算法
本发明 95.3% 13.2M
可以看出,采用本发明的方法,在操作次数大大减少的情况下,仍然取得了和上述参考文献准确率最高的算法十分接近的准确率。
在本发明的实际实施过程中,语音命令的时间长度,语音帧长度,语音帧交叠区间的大小,每帧语音提取特征参数的类型和数目,均可以根据需要改变。
在本发明的实际实施过程中,卷积层和全连接层的个数可以根据需要改变。
在本发明的实际实施过程中,卷积层输入和输出的特征通道的数目,特征通道向量的长度,卷积核的尺寸,激活操作选用的函数,是否进行pooling操作,pooling操作的步长,均可以根据需要改变。
在本发明的实际实施过程中,全连接层的输入和输出数据数目,可以根据需要改变。
在本发明的实际实施过程中,输出层生成识别结果的函数,可以根据需要选用其它函数。
基于同一发明构思,本发明另一实施例提供一种用于语音命令词识别的深度神经网络构建装置,其包括:
特征提取模块,负责对由语音命令集和干扰语音集构成的训练数据中的每条语音进行分帧,对每帧语音提取特征参数,得到多通道的一维特征向量;
网络训练模块,负责将所有多通道的一维特征向量输入CNN网络进行训练,CNN网络中部分或者全部卷积层使用一维卷积内核进行卷积操作,最终得到训练完成的用于语音命令词识别的CNN网络。
基于同一发明构思,本发明另一实施例提供一种语音命令识别装置,其包括:
特征提取模块,负责将待识别的语音分成N个语音帧,每个语音帧提取出K个特征参数,从而得到N*K个语音特征;
识别模块,负责将提取的N*K个语音特征输入至本发明构建的CNN网络,得到语音命令词识别标签。
基于同一发明构思,本发明的另一个实施例提供一种电子设备(如智能手机等智能设备),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明的语音命令识别方法中各步骤的指令。
基于同一发明构思,本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明的语音命令识别方法的各个步骤。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的原理和范围,本发明的保护范围应以权利要求书所述为准。

Claims (10)

1.一种用于语音命令词识别的深度神经网络构建方法,其特征在于,包括以下步骤:
由语音命令集和干扰语音集构成训练数据,对训练数据中的每条语音进行分帧,对每帧语音提取特征参数,得到多通道的一维特征向量;
将所有多通道的一维特征向量输入CNN网络进行训练,CNN网络中部分或者全部卷积层使用一维卷积内核进行卷积操作,最终得到训练完成的用于语音命令词识别的CNN网络。
2.根据权利要求1所述的方法,其特征在于,所述CNN网络中部分或者全部卷积层使用一维卷积内核进行卷积操作,以及激活、池化操作,生成新的多通道的一维特征向量,输入给下一层。
3.根据权利要求1所述的方法,其特征在于,所述的对训练数据中的每条语音进行分帧,对每帧语音提取特征参数,得到多通道的一维特征向量,包括:
将一段语音分成N个语音帧,每个语音帧提取出K个特征参数,从而得到N*K个语音特征,将N*K个语音特征作为K个通道的一维特征向量,每个通道的一维向量含有N个数据。
4.根据权利要求3所述的方法,其特征在于,所述一维卷积内核采用的一维卷积公式为:
Figure FDA0002294526710000011
其中,
Figure FDA0002294526710000012
是l层的输出特征向量组Zl的第k个通道的一维特征向量,k∈[0,Kl-1],Kl是Zl的通道数目;
Figure FDA0002294526710000013
是Zl的第k个通道的一维特征向量
Figure FDA0002294526710000014
的第i个值;
Figure FDA0002294526710000015
是l+1层的卷积结果Tl+1的第j个通道的一维特征向量,j∈[0,Kl+1-1],Kl+1是Tl+1的通道数目;
Figure FDA0002294526710000016
是一维卷积内核Wl+1的系数,对应第l+1层第k个输入通道,第j个输出通道;b是偏移值;x∈[-x0,x1],x0,x1决定卷积操作的范围,对于输入的
Figure FDA0002294526710000017
卷积操作的范围是从位置(i-x0)到位置(i+x1)。
5.根据权利要求1所述的方法,其特征在于,通过梯度下降法和反向传播方式更新CNN网络的网络参数,多次迭代以后得到最终的网络参数。
6.根据权利要求1所述的方法,其特征在于,定义识别集合={{语音命令集},“干扰语音”,“无声”},所述CNN网络的识别结果对应所述识别集合中“无声”、“干扰语音”、或者某个语音命令之一。
7.一种用于语音命令词识别的深度神经网络构建装置,其特征在于,包括:
特征提取模块,负责对由语音命令集和干扰语音集构成的训练数据中的每条语音进行分帧,对每帧语音提取特征参数,得到多通道的一维特征向量;
网络训练模块,负责将所有多通道的一维特征向量输入CNN网络进行训练,CNN网络中部分或者全部卷积层使用一维卷积内核进行卷积操作,最终得到训练完成的用于语音命令词识别的CNN网络。
8.一种语音命令识别方法,其特征在于,包括以下步骤:
将待识别的语音分成N个语音帧,每个语音帧提取出K个特征参数,从而得到N*K个语音特征;
将提取的N*K个语音特征输入至权利要求1~6中任一权利要求所述方法构建的CNN网络,得到语音命令词识别标签。
9.一种语音命令识别装置,其特征在于,包括:
特征提取模块,负责将待识别的语音分成N个语音帧,每个语音帧提取出K个特征参数,从而得到N*K个语音特征;
识别模块,负责将提取的N*K个语音特征输入至权利要求1~6中任一权利要求所述方法构建的CNN网络,得到语音命令词识别标签。
10.一种电子设备,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求8所述方法的指令。
CN201911195308.5A 2019-11-28 2019-11-28 一种用于语音命令词识别的深度神经网络构建方法和识别方法及装置 Active CN111210815B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911195308.5A CN111210815B (zh) 2019-11-28 2019-11-28 一种用于语音命令词识别的深度神经网络构建方法和识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911195308.5A CN111210815B (zh) 2019-11-28 2019-11-28 一种用于语音命令词识别的深度神经网络构建方法和识别方法及装置

Publications (2)

Publication Number Publication Date
CN111210815A true CN111210815A (zh) 2020-05-29
CN111210815B CN111210815B (zh) 2023-01-06

Family

ID=70787943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911195308.5A Active CN111210815B (zh) 2019-11-28 2019-11-28 一种用于语音命令词识别的深度神经网络构建方法和识别方法及装置

Country Status (1)

Country Link
CN (1) CN111210815B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113380257A (zh) * 2021-06-08 2021-09-10 深圳市同行者科技有限公司 多端智能家居的响应方法、装置、设备及存储介质
CN113945537A (zh) * 2021-09-27 2022-01-18 桂林电子科技大学 一种高准确度近红外光谱定量模型建立方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101310278A (zh) * 2005-11-16 2008-11-19 皇家飞利浦电子股份有限公司 用户简档的产生方法和过滤方法
CA2810457A1 (en) * 2013-03-25 2014-09-25 Gerald Bradley PENN System and method for applying a convolutional neural network to speech recognition
US20140316771A1 (en) * 2012-05-04 2014-10-23 Kaonyx Labs LLC Systems and methods for source signal separation
CN104157284A (zh) * 2013-05-13 2014-11-19 佳能株式会社 语音命令检测方法和系统,以及信息处理系统
CN105321525A (zh) * 2015-09-30 2016-02-10 北京邮电大学 一种降低voip通信资源开销的系统和方法
US20170164040A1 (en) * 2013-05-13 2017-06-08 Rovi Guides, Inc. Systems and methods for recording content from a different source when previous content runs over
CN108509520A (zh) * 2018-03-09 2018-09-07 中山大学 基于词性和多重cnn的多通道文本分类模型的构建方法
CN109829916A (zh) * 2019-03-04 2019-05-31 国网内蒙古东部电力有限公司 一种基于cnn的变压器故障诊断方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101310278A (zh) * 2005-11-16 2008-11-19 皇家飞利浦电子股份有限公司 用户简档的产生方法和过滤方法
US20140316771A1 (en) * 2012-05-04 2014-10-23 Kaonyx Labs LLC Systems and methods for source signal separation
CA2810457A1 (en) * 2013-03-25 2014-09-25 Gerald Bradley PENN System and method for applying a convolutional neural network to speech recognition
CN104157284A (zh) * 2013-05-13 2014-11-19 佳能株式会社 语音命令检测方法和系统,以及信息处理系统
US20170164040A1 (en) * 2013-05-13 2017-06-08 Rovi Guides, Inc. Systems and methods for recording content from a different source when previous content runs over
CN105321525A (zh) * 2015-09-30 2016-02-10 北京邮电大学 一种降低voip通信资源开销的系统和方法
CN108509520A (zh) * 2018-03-09 2018-09-07 中山大学 基于词性和多重cnn的多通道文本分类模型的构建方法
CN109829916A (zh) * 2019-03-04 2019-05-31 国网内蒙古东部电力有限公司 一种基于cnn的变压器故障诊断方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SIMONE BIANCO,ET AL.: "Biometric Recognition Using Multimodal Physiological Signals", 《IEEE ACCESS》 *
王宗巍等: "面向神经形态计算的智能芯片与器件技术", 《中国科学基金》 *
肖云鹏等: "基于特征参数归一化的鲁棒语音识别方法综述", 《中文信息学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113380257A (zh) * 2021-06-08 2021-09-10 深圳市同行者科技有限公司 多端智能家居的响应方法、装置、设备及存储介质
CN113945537A (zh) * 2021-09-27 2022-01-18 桂林电子科技大学 一种高准确度近红外光谱定量模型建立方法

Also Published As

Publication number Publication date
CN111210815B (zh) 2023-01-06

Similar Documents

Publication Publication Date Title
Coucke et al. Efficient keyword spotting using dilated convolutions and gating
Nakkiran et al. Compressing deep neural networks using a rank-constrained topology
CN109272988B (zh) 基于多路卷积神经网络的语音识别方法
Sainath et al. Deep convolutional neural networks for large-scale speech tasks
Sainath et al. Optimization techniques to improve training speed of deep neural networks for large speech tasks
Tu et al. Variational domain adversarial learning for speaker verification.
Myer et al. Efficient keyword spotting using time delay neural networks
Keshet et al. Pac-bayesian approach for minimization of phoneme error rate
Bai et al. A Time Delay Neural Network with Shared Weight Self-Attention for Small-Footprint Keyword Spotting.
CN117059103A (zh) 基于低秩矩阵近似的语音识别微调任务的加速方法
Ault et al. On speech recognition algorithms
CN111210815B (zh) 一种用于语音命令词识别的深度神经网络构建方法和识别方法及装置
Chen et al. Distilled binary neural network for monaural speech separation
Pandey et al. Emotion recognition from raw speech using wavenet
CN113196385B (zh) 用于音频信号处理的方法和系统及计算机可读存储介质
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN114550703A (zh) 语音识别系统的训练方法和装置、语音识别方法和装置
Sun Joint training of non-negative Tucker decomposition and discrete density hidden Markov models
Liu et al. Graph based emotion recognition with attention pooling for variable-length utterances
Zoughi et al. A gender-aware deep neural network structure for speech recognition
CN116863920A (zh) 基于双流自监督网络的语音识别方法、装置、设备及介质
Sainath et al. Improvements to filterbank and delta learning within a deep neural network framework
CN110717022A (zh) 一种机器人对话生成方法、装置、可读存储介质及机器人
Chien et al. Stochastic Recurrent Neural Network for Speech Recognition.
Deng et al. History utterance embedding transformer lm for speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant