CN112233668B - 一种基于神经网络的语音指令及身份识别方法 - Google Patents
一种基于神经网络的语音指令及身份识别方法 Download PDFInfo
- Publication number
- CN112233668B CN112233668B CN202011128448.3A CN202011128448A CN112233668B CN 112233668 B CN112233668 B CN 112233668B CN 202011128448 A CN202011128448 A CN 202011128448A CN 112233668 B CN112233668 B CN 112233668B
- Authority
- CN
- China
- Prior art keywords
- neural network
- voice
- layer
- function
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 104
- 230000004913 activation Effects 0.000 claims description 29
- 210000002569 neuron Anatomy 0.000 claims description 26
- 238000011176 pooling Methods 0.000 claims description 15
- 238000003062 neural network model Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 6
- 238000005314 correlation function Methods 0.000 claims description 5
- 238000007667 floating Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 2
- 230000006872 improvement Effects 0.000 abstract description 2
- 230000036632 reaction speed Effects 0.000 abstract description 2
- 230000009977 dual effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明属于语音及指令信息的处理技术领域,尤其涉及一种基于神经网络的语音指令及身份识别方法。包括数据集的获取及神经网络的设计与构建;用于构建语音识别拼音转文字数据集的步骤;所述身份识别数据集采用如下方式建立:对前述步骤2中获取的语音数据进行MFCC特征提取,并以该MFCC特征为基础数据建立身份识别的数据集;构建语音指令及身份识别数据集神经网络;本申请解决了在专业领域,对语音数据和人员进行双重识别的需求;本发明的语音识别速度与DFCNN模型几乎相同,但准确率的提升率超过8%,更适应于指令化语言的快速识别和分析,能够有效提高指令考核、中枢指挥机构等专业场景的反应速度和准确度。
Description
技术领域
本发明属于语音及指令信息的处理技术领域,尤其涉及一种基于神经网络的语音指令及身份识别方法。
背景技术
现在正处于一个人工智能飞速发展的时代,语音识别技术在各行各业中应用的越来越多,其中科大讯飞的语音识别技术尤为突出,在大部分场景下都有较好的表现。但是针对一些专用场景,要求不仅能够识别出人到底说出了什么话,还需要分辨出是哪个人说出的语音,此时科大讯飞的语音识别技术的表现就不够理想。为了适应这种专用场景的需求,需要一种新的特殊性的语音识别技术识别语音和说话者,本发明就是在这样的背景下产生的。
发明内容
一种基于神经网络的语音指令及身份识别方法,通过神经网络将语音中的指令及人员身份识别出来,从而省去了对指令及人员身份的手工输入,使得如训练等场景的操作更加方便快捷,效率得到提升。
为实现上述目的,本发明创造采用如下技术方案。
一种基于神经网络的语音指令及身份识别方法,包括数据集的获取及神经网络的设计与构建;
步骤1,用于构建语音识别拼音转文字数据集的步骤;包括,确定当前场景需要识别的所有语句,确定语句文字和对应拼音,所述语句文字应涵盖所有需要识别的语句中的文字;基于前述语句文字和对应拼音分别构建出文字列表和拼音列表,即可通过这两个表将每个文字和拼音转换为整数值;最后将所有的语句的拼音和文字转换为整数值,并以拼音的整数列表作为基础数据建立拼音转文字的数据集;
步骤2,用于获取身份及语音识别基础数据的步骤;包括,确定当前场景需要识别的人员身份,以其名字或ID作为识别标签,分别让所有人员录制前述步骤1中的所有语句;
步骤3,用于构建身份及语音语句识别数据集的步骤;所述语音语句识别数据集采用如下方式建立:对前述步骤2中获取的语音数据进行分帧、加窗和快速傅里叶变换,得到相应的语音时频特征,并以该语音时频特征为基础数据建立语音语句识别的数据集;
所述身份识别数据集采用如下方式建立:对前述步骤2中获取的语音数据进行MFCC特征提取,并以该MFCC特征为基础数据建立身份识别的数据集;
步骤4,构建语音指令及身份识别数据集神经网络;
所述语音指令及身份识别数据集神经网络的设计包含以下步骤:
步骤4.1,确定网络层数,以及每层神经元数量;
步骤4.2,确定神经网络的超参数,包括学习率和迭代次数;
步骤4.3,确定神经网络的相关函数,包括代价函数和激活函数;
步骤4.4,依序构建出语音指令识别数据集的E-DFCNN神经网络、Transformer模型数据集神经网络和身份识别数据集的双层LSTM神经网络。
对前述基于神经网络的语音指令及身份识别方法的进一步改进,所述E-DFCNN神经网络采用四个卷积神经网络单元,所述四个卷积神经网络单元的卷积核大小为3*3,卷积核数量依次为32、64、128、128;共使用三个池化层,选择最大池化层,池化窗口大小为2*2;共使用三个全连接层,前两个全连接层神经元数量分别为512和256,最后一个全连接层的神经元数量为指令中包含的需要识别的汉语拼音的种类数;共使用了2个Dropout层,丢弃率为0.2,防止过拟合。
对前述基于神经网络的语音指令及身份识别方法的进一步改进,所述Transformer模型以汉字拼音作为输入,输出汉字拼音对应的汉字,输入和输出长度相同,是一个序列标注任务,其中layer norm层用于做归一化处理,为防止分母为0报错,增加一个小浮点数epsilon,值为1e-8,即10的-8次方;embedding层对字词进行向量化操作,向量最大长度为100,其中隐藏神经元个数为512,丢弃率为0.2;multi-head attention层中,head的数量为8,隐藏神经元个数为512,丢弃率为0.2;前馈层采用1d卷积神经网络,神经元数量为2048。
对前述基于神经网络的语音指令及身份识别方法的进一步改进,所述双层LSTM神经网络,核心采用两个双向LSTM构成,其中输出单样本的特征值的维度为128,丢弃率为0.2,循环层丢弃率为0.2,输入尺寸为300*39;使用两个全连接层,第一个全连接层的神经元数量为32,第二个全连接层的神经元数量为参与样本训练的人员的数量。
对前述基于神经网络的语音指令及身份识别方法的进一步改进,所述步骤4中,还包括确定神经网络的超参数的步骤,所述超参数至少包括学习率、步长、训练迭代次数;具体而言:
在E-DFCNN神经网络模型中,学习率为0.0008,迭代次数为50次,在每次迭代中,batch_size为4;在Transformer模型中,学习率为0.0003,迭代次数为50次,在每次迭代中,batch_size为4;在双层LSTM神经网络模型中,学习率为0.001,迭代次数为50次,在每次迭代中,batch_size为8。
对前述基于神经网络的语音指令及身份识别方法的进一步改进,还包括确定神经网络的相关函数的步骤,所述相关函数至少包括代价函数和激活函数;具体而言:
在E-DFCNN神经网络模型中,其中4个卷积神经网络单元,激活函数统一为relu函数;其中3个全连接层,前两个全连接层激活函数均选择relu函数,最后一个全连接层选择softmax函数作为激活函数以进行分类输出;采用CTC作为损失函数,其优化函数选择Adam函数,学习率为0.0008;在Transformer模型中,在multi-head attention层中,其激活函数统一为relu函数;在前馈层中,其激活函数统一为relu函数;最终的输出层激活函数使用softmax函数作为分类函数;损失函数选择交叉熵代价函数,其优化函数选择Adam函数,学习率为0.0003;在双层LSTM神经网络模型中,其中第一层全连接层选择relu函数作为激活函数,第二层全连接层选择softmax函数作为激活函数以进行分类输出;选择交叉熵代价函数作为损失函数,选择RMSprop函数作为其优化函数,学习率为0.0008。
对前述基于神经网络的语音指令及身份识别方法的进一步改进,所述语音识别拼音字典包括多个语句文字和拼音字段表;
所述语句文字和拼音字字段表中的拼音字段以“发声+声调”的形式保存,遍历这所有语句文字和拼音字段表,将拼音存入列表中构成字典,将文字转换为拼音所处列表位置的数字。
在对语音数据进行分帧加窗以后,通过快速傅里叶变换,获得用于进行语音语句识别的输入数据。
对前述基于神经网络的语音指令及身份识别方法的进一步改进,对于每个人录制的语音,将语音按照“名字+语音序号”的方式保存下来,后续通过文件名提取出人员的身份标签。
对前述基于神经网络的语音指令及身份识别方法的进一步改进,对语音进行MFCC特征提取,提取出音频的13阶MFCC特征及这13阶特征的一阶差值和二阶差值,一共是39维特征,将其处理成矩阵形式后构成进行身份识别的数据集。
其有益效果在于:
1、解决了在专业领域,对语音数据和人员进行双重识别的需求;通过用于语音指令识别的E-DFCNN神经网络,将语音输入转换为拼音的输出;将拼音通过拼音字典将拼音列表转换为整数值列表,通过Transformer模型将其转换为文字对应整数值的列表,后经文字字典转换为文字,得到了指令的识别结果;最后将语音输入通过双层LSTM神经网络,将语音输入转换为人员的身份,基于本申请的基于神经网络的语音指令及身份识别方法能够用于各种有关于指令考核、中枢指挥机构的专业场景。
2、区别于现有的科大讯飞等现有技术中的DFCNN模型,本发明的语音识别速度与DFCNN模型几乎相同,但准确率的提升率超过8%,更适应于指令化语言的快速识别和分析,能够有效提高指令考核、中枢指挥机构等专业场景的反应速度和准确度。
附图说明
图1是基于神经网络的语音指令及身份识别方法数据集的获取流程示意图;
图2是音频处理后得到的语谱图;
图3是神经网络设计及构建流程图;
图4是E-DFCNN神经网络的结构图;
图5是Transformer模型的结构图;
图6是双层LSTM神经网络的结构图。
具体实施方式
以下结合具体实施例对本发明创造作详细说明。
本申请的一种基于神经网络的语音指令及身份识别方法,包括数据集的获取及神经网络的设计与构建;
对于数据集的获取流程参见图1,实例通过型号为某型的笔记本电脑的麦克风来录制语音获取的舰艇指令数据集为例对本发明的流程进行一个具体的阐述。
步骤1,确定当前场景需要识别的所有语句,设定好语句的文字和对应的拼音,其中语句中的文字应该涵盖所有需要识别的语句中的文字。
实施例具体的实施过程说明如下:
如表1所示,设定好100条用于训练的语句文字和拼音。其中拼音以“发声+声调”的形式保存,每个拼音之间空一格。遍历这100条语句,将拼音存入列表中构成字典。如此一来即可将文字转换为拼音所处列表位置的数字。
表1语句文字和拼音示例表(部分示意)
步骤2,确定当前场景需要识别的人员身份,将其名字或ID作为识别的标签,并让这些人员录制步骤1中提到的语句。
实施例具体的实施过程说明如下:
在本例中,选取十人,每个人录制表1中显示的100条语句的语音,并将语音按照“名字+语音序号”的方式保存下来,后续即可通过文件名提取出人员的身份标签,而语音则用以进行后续的语音处理。
步骤3,对语音数据进行分帧加窗和快速傅里叶变换,得到语音的时频特征,即获得了语音语句识别的数据集;对语音数据进行MFCC特征提取,即获得了语音人声识别的数据集。
实施例具体的实施过程说明如下,使用汉明窗对音频进行加窗操作,其函数为:
在对音频进行分帧加窗以后,通过快速傅里叶变换,即可获得用于进行语音语句识别的输入数据,即用以分辨说的话是什么。
再次对音频进行MFCC特征提取,提取出音频的13阶MFCC特征以及这13阶特征的一阶差值和二阶差值,一共是39维特征。将其处理成矩阵形式后,即可获得用于进行语音人声识别的数据集,即用以分辨是谁说的话,对音频处理后得到的语谱图如图2所示。
对于神经网络的设计流程,参见图3,实施例以上述生成的数据集设计对应的神经网络。
步骤1,确定网络层数,并设定每层神经元数量。
实施例具体的实施过程说明如下:
如图4所示,对于E-DFCNN神经网络,总共使用了四个卷积神经网络单元,其中四个卷积神经网络单元的卷积核大小均为3*3,卷积核数量依次为32、64、128、128;一共使用了三个池化层,使用的池化层规格参数都一样,池化方式选择最大池化层,池化窗口大小为2*2;一共使用了3个全连接层,前两个全连接层神经元数量分别为512和256,最后一个全连接层的神经元数量为指令中包含的需要识别的汉语拼音的种类数;一共使用了2个Dropout层,丢弃率为0.2。E-DFCNN的神经网络模型层数表如表2所示:
表2E-DFCNN的神经网络模型层数表
类型 | 卷积核/池化层尺寸 | 个数 | 神经元选中概率 | |
cov2d_1 | 积层 | (3,3) | 32 | -- |
cov2d_2 | 卷积层 | (3,3) | 32 | -- |
maxpool2d_1 | 池化层 | (2,2) | 32 | -- |
cov2d_3 | 卷积层 | (3,3) | 64 | -- |
cov2d_4 | 卷积层 | (3,3) | 64 | -- |
maxpool2d_2 | 池化层 | (2,2) | 64 | -- |
cov2d_5 | 卷积层 | (3,3) | 128 | -- |
cov2d_6 | 卷积层 | (3,3) | 128 | -- |
maxpool2d_3 | 池化层 | (2,2) | 128 | -- |
cov2d_7 | 卷积层 | (3,3) | 128 | -- |
cov2d_8 | 卷积层 | (3,3) | 128 | -- |
dropout_1 | -- | -- | -- | 0.2 |
dense_1 | 全连接层 | -- | 512 | |
dropout_2 | -- | -- | -- | 0.2 |
dense_2 | 全连接层 | -- | 256 | |
dropout_3 | -- | -- | -- | 0.2 |
对于Transformer模型,该模型将汉字拼音作为输入,输出汉字拼音对应的汉字,由于输入和输出长度相同,只是一个序列标注任务,只需编码器Encoder即可。其中layernorm层用于做归一化处理,为防止分母为0报错,增加一个小浮点数epsilon,值为1e-8,即10的-8次方;embedding层对字词进行向量化操作,向量最大长度设置为100,其中隐藏神经元个数为512,丢弃率为0.2;multi-head attention层中,head的数量为8,隐藏神经元个数为512,丢弃率为0.2;前馈层采用1d卷积神经网络,神经元数量为2048。
对于双层LSTM神经网络,核心采用两个双向LSTM构成,其中输出单样本的特征值的维度设定为128,丢弃率为0.2,循环层丢弃率为0.2,输入尺寸为300*39;使用两个全连接层,第一个全连接层的神经元数量为32,第二个全连接层的神经元数量为参与样本训练的人员的数量。双层LSTM神经网络的层数表如表3所示:
表3双层LSTM神经网络的层数表
类型 | 尺寸 | 个数 | 神经元选中概率 | |
bidirectional_1(LSTM) | 双向LSTM | (300,39) | -- | 0.2,0.2 |
bidirectional_2(LSTM) | 双向LSTM | (300,39) | -- | 0.2,0.2 |
flatten_1 | 扁平层 | -- | -- | -- |
dense_1 | 全连接层 | -- | 32 | -- |
dense_2 | 全连接层 | -- | 人数 | -- |
步骤2,确定神经网络的超参数,包括学习率和迭代次数等。
实施例具体的实施过程说明如下:
区别于通过训练得到的参数数据,超参数是在开始学习过程之前设置值的参数,在确定的神经网络的结构之后,训练网络之前需要确定超参数的值。这些超参数包括学习率、步长、训练迭代次数等。
在E-DFCNN神经网络模型中,学习率设定为0.0008,迭代次数为50次,在每次迭代中,batch_size设定为4。
在Transformer模型中,学习率设定为0.0003,迭代次数为50次,在每次迭代中,batch_size设定为4。
在双层LSTM神经网络模型中,学习率设定为0.001,迭代次数为50次,在每次迭代中,batch_size设定为8。
步骤3,确定神经网络的相关函数,包括代价函数和激活函数,实施例具体的实施过程说明如下:
代价函数主要用来衡量期望的输出值与实际输出值的差异,是用来量化网络模型的误差的目标函数。激活函数是神经网络具有非线性拟合能力的核心,激活函数给神经网络提供了线性拟合的能力。
在E-DFCNN神经网络模型中,其中4个卷积神经网络单元,激活函数统一设置为relu函数;其中3个全连接层,前两个全连接层激活函数均选择relu函数,最后一个全连接层选择softmax函数作为激活函数以进行分类输出。采用CTC作为损失函数,其优化函数选择Adam函数,学习率设置为0.0008。
在Transformer模型中,在multi-head attention层中,其激活函数统一设置为relu函数;在前馈层中,其激活函数统一设置为relu函数;最终的输出层激活函数使用softmax函数作为分类函数;损失函数选择交叉熵代价函数,其优化函数选择Adam函数,学习率设置为0.0003。
在双层LSTM神经网络模型中,其中第一层全连接层选择relu函数作为激活函数,第二层全连接层选择softmax函数作为激活函数以进行分类输出。选择交叉熵代价函数作为损失函数,选择RMSprop函数作为其优化函数,学习率设置为0.0008。
步骤4,依序构建出改进的E-DFCNN神经网络、Transformer模型和双层LSTM神经网络。
实施例具体的实施过程说明如下:
参照图4中的模型所示,依序将各层连接,设定好参数,即可构建E-DFCNN神经网络。
参照图5中的模型所示,依序将各层连接,设定好参数,即可构建Transformer模型。
参照图6中的模型所示,依序将各层连接,设定好参数,即可构建双层LSTM神经网络。
至此,神经网络设计完成,表4是DFCNN神经网络与本发明采用的E-DFCNN神经网络错误率对比,可以看出本发明的准确率明显更高。
表4DFCNN神经网络与本发明采用的E-DFCNN神经网络错误率对比
声学模型 | 词错误率 | 整句错误率 |
DFCNN | 10.77% | 20% |
E-DFCNN | 6.15% | 12% |
表5是DFCNN神经网络与发明采用的E-DFCNN神经网络对指令音频处理时间对比,可以看出本发明在提高准确率的情况下,几乎没有花费更多的时间。
表5DFCNN神经网络与发明中E-DFCNN神经网络对指令音频处理时间对比
声学模型 | 100句指令音频转换用时 | 平均一句转换用时 |
DFCNN | 28.5秒 | 0.285秒 |
E-DFCNN | 29.7秒 | 0.297秒 |
表6是将语音识别神经网络及拼音转文字神经网络结合起来的两个神经网络错误率对比,可以看出结合起来后仍然是本发明在正确率上有更好的表现。
表6不同神经网络组合后错误率对比
模型组合 | 词错误率 | 整句错误率 |
DFCNN+Transformer | 16.77% | 28% |
E-DFCNN+Transformer | 9.15% | 16% |
本发明的双层LSTM神经网络,在使用很少次数的迭代训练次数即可形成极高的准确率,能够更有效的应对现场变化的语音指令信息以及应对某些加密等特殊场合的语音处理,,应对临时数据处理的需求,数据表明,在经过50次迭代的训练后,对于人员身份的识别准确度可达到80%,且准确率将随着迭代次数的增加不断提高。
最后应当说明的是,以上实施例仅用以说明本发明创造的技术方案,而非对本发明创造保护范围的限制,尽管参照较佳实施例对本发明创造作了详细地说明,本领域的普通技术人员应当理解,可以对本发明创造的技术方案进行修改或者等同替换,而不脱离本发明创造技术方案的实质和范围。
Claims (9)
1.一种基于神经网络的语音指令及身份识别方法,其特征在于,包括数据集的获取及神经网络的设计与构建;具体包括:
步骤1,用于构建语音识别拼音转文字数据集的步骤;包括,确定当前场景需要识别的所有语句,确定语句文字和对应拼音,所述语句文字应涵盖所有需要识别的语句中的文字;基于前述语句文字和对应拼音分别构建出文字列表和拼音列表,即可通过这两个表将每个文字和拼音转换为整数值;最后将所有的语句的拼音和文字转换为整数值,并以拼音的整数列表作为基础数据建立拼音转文字的数据集;
步骤2,用于获取身份及语音识别基础数据的步骤;包括,确定当前场景需要识别的人员身份,以其名字或ID作为识别标签,分别让所有人员录制前述步骤1中的所有语句;
步骤3,用于构建身份及语音语句识别数据集的步骤;所述语音语句识别数据集采用如下方式建立:对前述步骤2中获取的语音数据进行分帧、加窗和快速傅里叶变换,得到相应的语音时频特征,并以该语音时频特征为基础数据建立语音语句识别的数据集;
所述身份识别数据集采用如下方式建立:对前述步骤2中获取的语音数据进行MFCC特征提取,并以该MFCC特征为基础数据建立身份识别的数据集;
步骤4,构建语音指令及身份识别数据集神经网络;
所述语音指令及身份识别数据集神经网络的设计包含以下步骤:
步骤4.1,确定网络层数,以及每层神经元数量;
步骤4.2,确定神经网络的超参数,包括学习率和迭代次数;
步骤4.3,确定神经网络的相关函数,包括代价函数和激活函数;
步骤4.4,依序构建出语音指令识别数据集的E-DFCNN神经网络、Transformer模型数据集神经网络和身份识别数据集的双层LSTM神经网络;
所述E-DFCNN神经网络采用四个卷积神经网络单元,所述四个卷积神经网络单元的卷积核大小为3*3,卷积核数量依次为32、64、128、128;
共使用三个池化层,选择最大池化层,池化窗口大小为2*2;共使用三个全连接层,前两个全连接层神经元数量分别为512和256,最后一个全连接层的神经元数量为指令中包含的需要识别的汉语拼音的种类数;共使用了2个Dropout层,丢弃率为0.2,防止过拟合。
2.根据权利要求1所述一种基于神经网络的语音指令及身份识别方法,其特征在于,所述Transformer模型以汉字拼音作为输入,输出汉字拼音对应的汉字,输入和输出长度相同,是一个序列标注任务,其中layer norm层用于做归一化处理,为防止分母为0报错,增加一个小浮点数epsilon,值为1e-8,即10的-8次方;embedding层对字词进行向量化操作,向量最大长度为100,其中隐藏神经元个数为512,丢弃率为0.2;multi-head attention层中,head的数量为8,隐藏神经元个数为512,丢弃率为0.2;前馈层采用1d卷积神经网络,神经元数量为2048。
3.根据权利要求1所述一种基于神经网络的语音指令及身份识别方法,其特征在于,所述双层LSTM神经网络,核心采用两个双向LSTM构成,其中输出单样本的特征值的维度为128,丢弃率为0.2,循环层丢弃率为0.2,输入尺寸为300*39;使用两个全连接层,第一个全连接层的神经元数量为32,第二个全连接层的神经元数量为参与样本训练的人员的数量。
4.根据权利要求1所述一种基于神经网络的语音指令及身份识别方法,其特征在于,所述步骤4中,还包括确定神经网络的超参数的步骤,所述超参数至少包括学习率、步长、训练迭代次数;具体而言:
在E-DFCNN神经网络模型中,学习率为0.0008,迭代次数为50次,在每次迭代中,batch_size为4;
在Transformer模型中,学习率为0.0003,迭代次数为50次,在每次迭代中,batch_size为4;
在双层LSTM神经网络模型中,学习率为0.001,迭代次数为50次,在每次迭代中,batch_size为8。
5.根据权利要求1所述一种基于神经网络的语音指令及身份识别方法,其特征在于,还包括确定神经网络的相关函数的步骤,所述相关函数至少包括代价函数和激活函数;具体而言:
在E-DFCNN神经网络模型中,其中4个卷积神经网络单元,激活函数统一为relu函数;其中3个全连接层,前两个全连接层激活函数均选择relu函数,最后一个全连接层选择softmax函数作为激活函数以进行分类输出;采用CTC作为损失函数,其优化函数选择Adam函数,学习率为0.0008;
在Transformer模型中,在multi-head attention层中,其激活函数统一为relu函数;在前馈层中,其激活函数统一为relu函数;最终的输出层激活函数使用softmax函数作为分类函数;损失函数选择交叉熵代价函数,其优化函数选择Adam函数,学习率为0.0003;
在双层LSTM神经网络模型中,其中第一层全连接层选择relu函数作为激活函数,第二层全连接层选择softmax函数作为激活函数以进行分类输出;选择交叉熵代价函数作为损失函数,选择RMSprop函数作为其优化函数,学习率为0.0008。
6.根据权利要求1所述一种基于神经网络的语音指令及身份识别方法,其特征在于,所述语音识别拼音字典包括多个语句文字和拼音字段表;
所述语句文字和拼音字字段表中的拼音字段以“发声+声调”的形式保存,遍历这所有语句文字和拼音字段表,将拼音存入列表中构成字典,将文字转换为拼音所处列表位置的数字。
8.根据权利要求1所述一种基于神经网络的语音指令及身份识别方法,其特征在于,对于每个人录制的语音,将语音按照“名字+语音序号”的方式保存下来,后续通过文件名提取出人员的身份标签。
9.根据权利要求1所述一种基于神经网络的语音指令及身份识别方法,其特征在于,对语音进行MFCC特征提取,提取出音频的13阶MFCC特征及这13阶特征的一阶差值和二阶差值,一共是39维特征,将其处理成矩阵形式后构成进行身份识别的数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011128448.3A CN112233668B (zh) | 2020-10-21 | 2020-10-21 | 一种基于神经网络的语音指令及身份识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011128448.3A CN112233668B (zh) | 2020-10-21 | 2020-10-21 | 一种基于神经网络的语音指令及身份识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112233668A CN112233668A (zh) | 2021-01-15 |
CN112233668B true CN112233668B (zh) | 2023-04-07 |
Family
ID=74117509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011128448.3A Active CN112233668B (zh) | 2020-10-21 | 2020-10-21 | 一种基于神经网络的语音指令及身份识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112233668B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284499B (zh) * | 2021-05-24 | 2024-07-12 | 亿咖通(湖北)技术有限公司 | 一种语音指令识别方法及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108550375A (zh) * | 2018-03-14 | 2018-09-18 | 鲁东大学 | 一种基于语音信号的情感识别方法、装置和计算机设备 |
CN108962247A (zh) * | 2018-08-13 | 2018-12-07 | 南京邮电大学 | 基于渐进式神经网络多维语音信息识别系统及其方法 |
AU2019101150A4 (en) * | 2019-09-30 | 2019-10-31 | Li, Guanchen MR | Speaker Identity Recognition System Based on Deep Learning |
CN110444223A (zh) * | 2019-06-26 | 2019-11-12 | 平安科技(深圳)有限公司 | 基于循环神经网络和声学特征的说话人分离方法及装置 |
CN110459225A (zh) * | 2019-08-14 | 2019-11-15 | 南京邮电大学 | 一种基于cnn融合特征的说话人辨认系统 |
CN110634491A (zh) * | 2019-10-23 | 2019-12-31 | 大连东软信息学院 | 语音信号中针对通用语音任务的串联特征提取系统及方法 |
CN110875037A (zh) * | 2019-11-19 | 2020-03-10 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置及电子设备 |
CN110992959A (zh) * | 2019-12-06 | 2020-04-10 | 北京市科学技术情报研究所 | 一种语音识别方法及系统 |
CN111243602A (zh) * | 2020-01-06 | 2020-06-05 | 天津大学 | 基于性别、国籍和情感信息的声纹识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10140980B2 (en) * | 2016-12-21 | 2018-11-27 | Google LCC | Complex linear projection for acoustic modeling |
-
2020
- 2020-10-21 CN CN202011128448.3A patent/CN112233668B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108550375A (zh) * | 2018-03-14 | 2018-09-18 | 鲁东大学 | 一种基于语音信号的情感识别方法、装置和计算机设备 |
CN108962247A (zh) * | 2018-08-13 | 2018-12-07 | 南京邮电大学 | 基于渐进式神经网络多维语音信息识别系统及其方法 |
CN110444223A (zh) * | 2019-06-26 | 2019-11-12 | 平安科技(深圳)有限公司 | 基于循环神经网络和声学特征的说话人分离方法及装置 |
CN110459225A (zh) * | 2019-08-14 | 2019-11-15 | 南京邮电大学 | 一种基于cnn融合特征的说话人辨认系统 |
AU2019101150A4 (en) * | 2019-09-30 | 2019-10-31 | Li, Guanchen MR | Speaker Identity Recognition System Based on Deep Learning |
CN110634491A (zh) * | 2019-10-23 | 2019-12-31 | 大连东软信息学院 | 语音信号中针对通用语音任务的串联特征提取系统及方法 |
CN110875037A (zh) * | 2019-11-19 | 2020-03-10 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置及电子设备 |
CN110992959A (zh) * | 2019-12-06 | 2020-04-10 | 北京市科学技术情报研究所 | 一种语音识别方法及系统 |
CN111243602A (zh) * | 2020-01-06 | 2020-06-05 | 天津大学 | 基于性别、国籍和情感信息的声纹识别方法 |
Non-Patent Citations (3)
Title |
---|
Genetic Algorithm for Combined Speaker and Speech Recognition using Deep Neural Networks;Kaur, Gurpreet et al.;《Journal of Telecommunications & Information Technology》;20181231;全文 * |
Text-Independent Speaker Identification Through Feature Fusion and Deep Neural Network;RASHID JAHANGIR et al.;《IEEE Access》;20200208;全文 * |
基于语谱图和神经网络的声纹识别研究;李蜜;《高师理科学刊》;20200430(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112233668A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ferrer et al. | Study of senone-based deep neural network approaches for spoken language recognition | |
CN112397054B (zh) | 一种电力调度语音识别方法 | |
CN113066499B (zh) | 一种陆空通话说话人身份识别方法及装置 | |
CN111696522B (zh) | 基于hmm和dnn的藏语语音识别方法 | |
CN104077598B (zh) | 一种基于语音模糊聚类的情感识别方法 | |
CN104269169B (zh) | 一种混叠音频事件分类方法 | |
CN114550703A (zh) | 语音识别系统的训练方法和装置、语音识别方法和装置 | |
Huang et al. | Speech emotion recognition using convolutional neural network with audio word-based embedding | |
CN114420151B (zh) | 基于并联张量分解卷积神经网络的语音情感识别方法 | |
CN114863938A (zh) | 一种基于注意力残差和特征融合的鸟语识别方法和系统 | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
CN116775873A (zh) | 一种多模态对话情感识别方法 | |
CN112233668B (zh) | 一种基于神经网络的语音指令及身份识别方法 | |
CN112967710B (zh) | 一种低资源客家方言点识别方法 | |
JP6820764B2 (ja) | 音響モデル学習装置および音響モデル学習プログラム | |
CN117558281A (zh) | 一种基于增强自监督框架的说话人识别方法及系统 | |
Singh et al. | Speaker Recognition Assessment in a Continuous System for Speaker Identification | |
CN113763939B (zh) | 基于端到端模型的混合语音识别系统及方法 | |
JP2016162437A (ja) | パターン分類装置、パターン分類方法およびパターン分類プログラム | |
Tailor et al. | Deep learning approach for spoken digit recognition in Gujarati language | |
CN113593525B (zh) | 口音分类模型训练和口音分类方法、装置和存储介质 | |
CN113823292A (zh) | 基于通道注意力深度可分卷积网络的小样本话者辨认方法 | |
Manenti et al. | Unsupervised speech unit discovery using k-means and neural networks | |
CN112463965A (zh) | 一种对文本的语义理解的方法及系统 | |
CN118467742B (zh) | 一种基于语音信号的情感检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |