CN110189749A - 语音关键词自动识别方法 - Google Patents
语音关键词自动识别方法 Download PDFInfo
- Publication number
- CN110189749A CN110189749A CN201910490527.XA CN201910490527A CN110189749A CN 110189749 A CN110189749 A CN 110189749A CN 201910490527 A CN201910490527 A CN 201910490527A CN 110189749 A CN110189749 A CN 110189749A
- Authority
- CN
- China
- Prior art keywords
- neural network
- recurrent neural
- output
- way lstm
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims abstract description 54
- 230000000306 recurrent effect Effects 0.000 claims abstract description 50
- 238000013507 mapping Methods 0.000 claims abstract description 20
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000001228 spectrum Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 22
- 238000009432 framing Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 239000010410 layer Substances 0.000 description 44
- 238000012360 testing method Methods 0.000 description 22
- 230000007246 mechanism Effects 0.000 description 14
- 238000012549 training Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000011229 interlayer Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000002195 synergetic effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000000044 Amnesia Diseases 0.000 description 1
- 208000031091 Amnestic disease Diseases 0.000 description 1
- 230000006986 amnesia Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了语音关键词自动识别方法,包括如下步骤:建立包含关键词的语音样本文件和基于样本文件的文字音素映射表,建立识别模型并将该模型保存给编码模块,将文字音素映射表保存给解码模块;所述识别模型包括数据预处理单元、特征提取单元、双向LSTM循环神经网络和音频分类单元;将语音样本文件循环N次输入到识别模型中,N取大于1的正整数,使双向LSTM循环神经网络,建立语音和关键之间的稳定映射,并将该稳定映射保存至解码模块;将待识别的语音文件输入至识别模型中,得出关键词识别结果。通过将双向LSTM循环神经网络与卷积神经网络进行结合,有效的提高了语音关键词自动识别的识别率与准确率。
Description
技术领域
本发明涉及语音识别技术领域,具体涉及语音关键词自动识别方法。
背景技术
传统自动语音识别模型通常是以一整段话作为识别对象,因此传统语音识别模型一般会需要较深的层次进行信息记忆,因此其需要的样本库往往比较巨大,模型占据内存较大,且计算复杂,特别是在没有网络覆盖和由微控制器作为计算核心的场景中往往无法使用传统的自动语音识别模型进行识别。
基于深度学习的语音关键词自动识别模型在最近几年中取得了较好的进展,现在可以将语音关键词自动识别模型分为三类,即卷积神经网络、循环神经网络结合长短时记忆单元以及引入注意力机制的循环神经网络等。
但是由于某些单词发音的音素具有一定相似的地方,其在经过预处理后转化为的梅尔倒频谱系数表现类征有一定的相似。因此如何在之前学者已经研究的基础上提高语音关键词自动识别的准确率与避免个别单词的识别率过低仍然是现在人们需要解决的问题。
发明内容
本发明目的在于解决现有的语音关键词识别模型对关键词识别时识别率和准确率低的问题,提供了语音关键词自动识别方法,通过将双向LSTM循环神经网络与卷积神经网络进行结合,有效的提高了语音关键词自动识别的识别率与准确率。
本发明通过下述技术方案实现:
语音关键词自动识别方法,包括如下步骤:
步骤一、建立包含关键词的语音样本文件和基于样本文件的文字音素映射表;
步骤二、使用梅尔倒谱系数对语音样本文件进行预处理;得到梅尔倒谱系数频谱图;
步骤三、使用卷积神经网络中的两个卷积层对梅尔倒谱系数频谱图进行两次卷积提取梅尔倒频谱的特征;
步骤四、将第二个卷积层的输出降维后输入到双向LSTM循环神经网络进行记忆;得到双向LSTM循环神经网络的输出信号;
步骤五、将上一步骤得到的输出信号输入给全连接层神经网络中的三层全连接层,其中前两层的激活函数为relu,第三层的输出函数为softmax;
步骤六、根据步骤二至五建立识别模型并将该模型保存,将文字音素映射表保存到数组;所述识别模型包括重复步骤二的数据预处理单元、重复步骤三的特征提取单元、重复步骤四的双向LSTM循环神经网络和重复步骤五的音频分类单元;
步骤七、将待识别的语音文件输入至模型中,将训练好的模型解析后的参数带入到语音文件中进行对比,得到待识别语音的概率密度结果。
为了提高语音关键词自动识别的识别率与准确率,所以本方法中发明人采用了双向LSTM循环神经网络作为识别的主要模型,循环神经网络在诞生之初就是主要用在处理自然语言识别中的,其网络中的每一个输出都与其上一步有关,也就是说,循环神经网络有一定的记忆功能;虽然循环神经网路能够对过去的内容有记忆的功能,但是对于距离比较远的单元,其权重影响也会越来越小,即对于过去的内容产生了“遗忘”,为了应对这种情况,人们引入了长短时记忆单元LSTM来对之前的内容进行记忆,LSTM主要由三个门单元构成,即遗忘门、传入门以及输出门,遗忘门的作用是对能够继续通过cell的信息进行筛选,传入门的作用是控制进入到cell的状态中的信息数量,输出门决定最终输出的是什么值;虽然LSTM具有帮助循环神经网络记忆的功能,但是单向LSTM和单向RNN只能根据过去的信息推断现在的信息,但有时候我们不仅需要过去的信息,也需要未来的信息;所以发明人引入了双向LSTM循环神经网络的模型,即在使用过去和未来的信息来对现在的信息进行综合的推断;同时本发明使用的双向LSTM循环神经网络与卷积神经网络进行了结合,即原始音频在使用梅尔倒频谱处理后先使用两个卷积层进行卷积,提取梅尔倒频谱的特征,由于要尽量让梅尔倒频谱的特征输入到双向LSTM循环神经网络中,因此这里不添加池化层与Dropout。将末层卷积层的输出降维后输入到双向LSTM循环神经网络,在使用双向LSTM层后使用三层全连接层,前两层的激活函数为relu,最后一层的输出函数为softmax。搭建完模型后进行训练,为了避免程序陷入到梯度爆炸或者没有梯度时还再进行无意义的计算,在训练时添加提前结束的判定,用以选择保存最好的模型。本模型使用Adam优化器与学习率衰减的方式对模型进行优化。通过将双向LSTM循环神经网络与卷积神经网络进行结合,有效的提高了语音关键词自动识别的识别率与准确率。
进一步的,所述步骤二具体包括如下步骤:
步骤2.1、对语音样本文件依次进行分帧和加窗处理,得到语音样本文件的时域语音序列;
步骤2.2、对语音样本文件的时域语音序列进行傅里叶变换,得到语音样本文件的频谱图f(m)和能量谱X(k);
步骤2.3、使用三角窗函数对语音样本文件的频谱图f(m)进行梅尔刻度映射,得到映射输出Hm(k);
步骤2.4、将映射输出Hm(k)与能量谱X(k)相乘得到梅尔谱MelSpec(m);
步骤2.5、将梅尔谱MelSpec(m)取log对数,得到log-Mel谱;
步骤2.6、对log-Mel谱进行离散余弦转换,得到梅尔倒谱系数频谱图。
在样本训练过程中都是对频谱信息进行处理,所以在此之前我们必须将语音样本文件从时域转到频域,故而在做傅里叶变换之间必须要将语音样本文件进行分帧;由于分帧后帧与帧之间的连续性就降低了,为了避免相邻两帧的变化过大,因此会让两帧之间有一定的重叠区域,重叠区域包含M个采样点,M一般为N的1/2或1/3;由于分帧后,每一帧的起始段和末尾端会出现不连续的地方,所以分帧越多与原始信号的误差也就越大,加窗就是为了解决这个问题,使分帧后的信号变得连续,每一帧就会表现出周期函数的特征,加窗的目的就是一次仅处理窗中的数据,因为实际的语音信号是很长的,我们不能也不必对非常长的数据进行一次性处理,然后进行傅里叶变换,得到语音样本文件的频谱图f(m)和能量谱X(k);本方法中步骤2.3具体是使用三角窗滤波器对频谱图进行梅尔刻度映射,得到输出函数Hm(k);
在通过公式:计算出梅尔谱MelSpec(m);将梅尔谱取log,可以得到log-mel谱,最后对log-mel谱图进行离散余弦转换,得到梅尔倒谱系数转换后的频谱图,梅尔倒谱系数频谱图。
进一步的,所述步骤四和步骤五之间还设有如下步骤:
步骤A1、提取双向LSTM循环神经网络输出信号的输出向量;
步骤B1、使用密集层投影并用作查询向量以识别与关键词相关度最高的音频;
步骤C1、通过Softmax函数计算LSTM各层间信息每一部分所占权重信息,然后与LSTM输出层的输出信息进行融合,作为全连接层的输入。
现有技术中,语音关键词自动识别模型过一般是在编码-解码的框架下进行搭建的。这种框架主要是用来解决seq-2-seq的问题的,即输入与输出序列不相等时的情况;编码-解码框架的工作原理是先将输入x进行编码,通过非线性变换转换为语义编码c,最后解码器通过对语义编码c进行解码,最终输出目标句子y;可以看出,由于编码-解码模型是通过输入句子x直接编码-解码生成了目标句子y,所以该模型是比较依赖于句子中的顺序关系。而基于上述的内容,发明人将输入中的每个部分都规定了一个权重,即语义编码c是根据每一个部分的权重对输入进行编码的,即语义编码c变成了根据当前输入与注意力机制记忆权重的共同作用的ci;通过引入注意力机制后模型的识别率进一步得到了提高。
进一步的,所述步骤四和步骤五之间还包括如下步骤:
步骤A2、将步骤二中得到的梅尔倒谱系数频谱图与步骤四中的第二层卷积层的输出进行点乘后输入到双向LSTM循环神经网络中进行第一次记忆;
步骤B2、将第一次记忆的输出与双向LSTM循环神经网络的中间层输出进行点乘,并输入到双向LSTM循环神经网络中进行第二次记忆;
步骤C2、将第二次记忆的输出与双向LSTM循环神经网络的最后一层的输出进行点乘,并输入到双向LSTM循环神经网络中进行第三次记忆,将第三次记忆的输出作为双向LSTM循环神经网络的输出信号。
上述的引入注意力机制的循环神经网络模型是使用提取最后一个LSTM层的输出向量,使用密集层投影并用作查询向量以识别音频的哪个部分最相关。但是由于音频信号在经过梅尔倒频谱的处理后是通过卷积层进行特征提取,然后再经过LSTM层进行记忆和选择,也就是说传入注意力机制中的信息并不是完整的信息,虽然通过引入单层注意力机制,可以提高识别率,但是由于音频信号在经过梅尔倒频谱的处理后是通过卷积层进行特征提取,然后再经过LSTM层进行记忆和选择,也就是说传入注意力机制中的信息并不是完整的信息。因此如果能够将注意力机制的输入由LSTM层的输出改为在模型搭建过程中多个层的协同输出可能会有更好的效果,这样的话如果是LSTM层的输出由于记忆问题出现了缺失,还可以通过其它层的输出协同作用,将出现问题的记忆进行纠正,提高对单词识别率的精度。多层注意力机制的最要思想是通过多层次记忆,尽可能的记忆最需要记忆的参数,避免了因为某一次的原因导致某些参数的记忆缺失,造成个别关键词的识别率低下。此时对输入信息进行编码后的语义编码ci不仅与编码方式有关,还受到了输入的直接影响,因此携带的信息也更加接近如输入信息。相比较之前的注意力机制模型这时的语义编码ci,多层注意力机制模型ci会受到不同层级的输出的协同影响,最终在多层级的协同作用下达到更好的性能。
本发明与现有技术相比,具有如下的优点和有益效果:
1、通过将双向LSTM循环神经网络与卷积神经网络进行结合,有效的提高了语音关键词自动识别的识别率与准确率。
2、通过引入多层注意力机制,此时对输入信息进行编码后的语义编码ci不仅与编码方式有关,还受到了输入的直接影响,因此携带的信息也更加接近理想状态下的信息;多层注意力机制模型ci会受到不同层级的输出的协同影响,最终在多层级的协同作用下达到更好的性能。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明的结构网络模型图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
语音关键词自动识别方法,包括如下步骤:
步骤一、建立包含关键词的语音样本文件和基于样本文件的文字音素映射表;
步骤二、使用梅尔倒谱系数对语音样本文件进行预处理;得到梅尔倒谱系数频谱图;
步骤三、使用卷积神经网络中的两个卷积层对梅尔倒谱系数频谱图进行两次卷积提取梅尔倒频谱的特征;
步骤四、将第二个卷积层的输出降维后输入到双向LSTM循环神经网络进行记忆;得到双向LSTM循环神经网络的输出信号;
步骤五、将上一步骤得到的输出信号输入给全连接层神经网络中的三层全连接层,其中前两层的激活函数为relu,第三层的输出函数为softmax;
步骤六、根据步骤二至五建立识别模型并将该模型保存,将文字音素映射表保存到数组;所述识别模型包括重复步骤二的数据预处理单元、重复步骤三的特征提取单元、重复步骤四的双向LSTM循环神经网络和重复步骤五的音频分类单元;
步骤七、将待识别的语音文件输入至模型中,将训练好的模型解析后的参数带入到语音文件中进行对比,得到待识别语音的概率密度结果。
本实施例中,步骤二具体包括如下步骤:
步骤2.1、对语音样本文件依次进行分帧和加窗处理,得到语音样本文件的时域语音序列;
步骤2.2、对语音样本文件的时域语音序列进行傅里叶变换,得到语音样本文件的频谱图f(m)和能量谱X(k);
步骤2.3、使用三角窗函数对语音样本文件的频谱图f(m)进行梅尔刻度映射,得到映射输出Hm(k);
步骤2.4、将映射输出Hm(k)与能量谱X(k)相乘得到梅尔谱MelSpec(m);
步骤2.5、将梅尔谱MelSpec(m)取log对数,得到log-Mel谱;
步骤2.6、对log-Mel谱进行离散余弦转换,得到梅尔倒谱系数频谱图。
本方法中步骤2.3具体是使用三角窗滤波器对频谱图进行梅尔刻度映射,得到输出函数Hm(k);
在通过公式:计算出梅尔谱MelSpec(m);将梅尔谱取log,可以得到log-mel谱;
最后对log-mel谱图进行离散余弦转换,得到梅尔倒谱系数转换后的频谱图,梅尔倒谱系数频谱图。
本实施例中,语音样本文件数目为84800个,关键词共20种,设置循环次数为40次,每一批量数目为64;在训练时添加提前结束的判定。
本实施例最终得到如下数据:第一个循环结束时val_test集的准确率为0.84113,val_test集损失函数为0.6069,每运行一步的时间为146ms,每一个循环的运行时间为184秒;第11个循环的val_test集准确率为0.9444,val_test集损失函数为0.0808,在第21个循环时由于一直没有超过11个循环的准确率,因此触发提前结束,结束循环。最终在测试集上的准确率为86.1%
实施例2
本实施例相较于实施例1的区别在于,步骤四和步骤五之间还设有如下步骤:
步骤A1、提取双向LSTM循环神经网络输出信号的输出向量;
步骤B1、使用密集层投影并用作查询向量以识别与关键词相关度最高的音频;
步骤C1、通过Softmax函数计算LSTM各层间信息每一部分所占权重信息,然后与LSTM输出层机型信息融合,作为全连接层的输入。
本实施例最终得到如下数据:第一个循环结束时val_test集的准确率为0.88871,val_test集损失函数为0.3679,每运行一步的时间为146ms,每一个循环的运行时间为184秒;第10个循环的val_test集准确率为0.94950,val_testval_test集损失函数为0.1828,在第20个循环时由于一直没有超过10个循环的准确率,因此触发提前结束,结束循环。最终在测试集上的准确率为94.3%
实施例3
本实施例相较于实施例1的区别在于,步骤四和步骤五之间还设有如下步骤:
步骤A2、将步骤二中得到的梅尔倒谱系数频谱图与步骤四中的第二层卷积层的输出进行点乘后输入到双向LSTM循环神经网络中进行第一次记忆;
步骤B2、将第一次记忆的输出与双向LSTM循环神经网络的中间层输出进行点乘,并输入到双向LSTM循环神经网络中进行第二次记忆;
步骤C2、将第二次记忆的输出与双向LSTM循环神经网络的最后一层的输出进行点乘,并输入到双向LSTM循环神经网络中进行第三次记忆,将第三次记忆的输出作为双向LSTM循环神经网络的输出信号。
本实施例最终得到如下数据:第一个循环结束时val_test集的准确率为0.87933,val_test集损失函数为0.4332,每运行一步的时间为149ms,每一个循环的运行时间为198秒;第11个循环的val_test集准确率为0.95030,val_test集损失函数为0.2291,在第21个循环时由于一直没有超过11个循环的准确率,因此触发提前结束,结束循环。最终在测试集上的准确率为95.04%
对照组
本对照组与实施例1的区别在于双向LSTM循环神经网络替换为现有的的卷积神经网络,其训练用的语音样本文件和实施例1相同。
本对照组最终得到如下数据:第一个循环结束时val_test集的准确率为0.718,val_test集损失函数为0.9245,每运行一步的时间为117ms,每一个循环的运行时间为155秒;第21个循环的val_test集准确率为0.88770,val_test集损失函数为0.5314,在第31个循环时由于一直没有超过21个循环的准确率,因此触发提前结束,结束循环。
通过将实施例1与对照对比发现,可以看出,使用双向LSTM循环神经网络在测试集上的表现相比较卷积神经网路有了很大的提升,通过将实施2与实施例1对比发现引入注意力机制后模型的识别率得到了进一步提高,但是对个别词汇的识别率上都偏低,通过将实施例3与实施例2对比发现,虽然在测试集的整体识别率与实施例2有了一定的提升,通过在不同样本集及测试集下的验证,可以发现实施例3的整体识别率比较实施例2都有一定的提升。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.语音关键词自动识别方法,其特征在于,包括如下步骤:
步骤一、建立包含关键词的语音样本文件和基于样本文件的文字音素映射表;
步骤二、使用梅尔倒谱系数对语音样本文件进行预处理;得到梅尔倒谱系数频谱图;
步骤三、使用卷积神经网络中的两个卷积层对梅尔倒谱系数频谱图进行两次卷积提取梅尔倒频谱的特征;
步骤四、将第二个卷积层的输出降维后输入到双向LSTM循环神经网络进行记忆;得到双向LSTM循环神经网络的输出信号;
步骤五、将上一步骤得到的输出信号输入给全连接层神经网络中的三层全连接层,其中前两层的激活函数为relu,第三层的输出函数为softmax;
步骤六、根据步骤二至五建立识别模型并将该模型保存,将文字音素映射表保存到数组;所述识别模型包括重复步骤二的数据预处理单元、重复步骤三的特征提取单元、重复步骤四的双向LSTM循环神经网络和重复步骤五的音频分类单元;
步骤七、将待识别的语音文件输入至模型中,将训练好的模型解析后的参数带入到语音文件中进行对比,得到待识别语音的概率密度结果。
2.根据权利要求1所述的语音关键词自动识别方法,其特征在于,所述步骤二具体包括如下步骤:
步骤2.1、对语音样本文件依次进行分帧和加窗处理,得到语音样本文件的时域语音序列;
步骤2.2、对语音样本文件的时域语音序列进行傅里叶变换,得到语音样本文件的频谱图f(m)和能量谱X(k);
步骤2.3、使用三角窗函数对语音样本文件的频谱图f(m)进行梅尔刻度映射,得到映射输出Hm(k);
步骤2.4、将映射输出Hm(k)与能量谱X(k)相乘得到梅尔谱MelSpec(m);
步骤2.5、将梅尔谱MelSpec(m)取log对数,得到log-Mel谱;
步骤2.6、对log-Mel谱进行离散余弦转换,得到梅尔倒谱系数频谱图。
3.根据权利要求1所述的语音关键词自动识别方法,其特征在于,所述步骤四和步骤五之间还设有如下步骤:
步骤A1、提取双向LSTM循环神经网络输出信号的输出向量;
步骤B1、使用密集层投影并用作查询向量以识别与关键词相关度最高的音频;
步骤C1、求出双向LSTM循环神经网络输出信号的加权平均值,并用该加权平均值替换双向LSTM循环神经网络的输出信号。
4.根据权利要求1所述的语音关键词自动识别方法,其特征在于,所述步骤四和步骤五之间还包括如下步骤:
步骤A2、将步骤二中得到的梅尔倒谱系数频谱图与步骤四中的第二个卷积层的输出进行点乘后输入到双向LSTM循环神经网络中进行第一次记忆;
步骤B2、将第一次记忆的输出与双向LSTM循环神经网络的中间层输出进行点乘,并输入到双向LSTM循环神经网络中进行第二次记忆;
步骤C2、将第二次记忆的输出与双向LSTM循环神经网络的最后一层的输出进行点乘,并输入到双向LSTM循环神经网络中进行第三次记忆,将第三次记忆的输出作为双向LSTM循环神经网络的输出信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910490527.XA CN110189749B (zh) | 2019-06-06 | 2019-06-06 | 语音关键词自动识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910490527.XA CN110189749B (zh) | 2019-06-06 | 2019-06-06 | 语音关键词自动识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110189749A true CN110189749A (zh) | 2019-08-30 |
CN110189749B CN110189749B (zh) | 2021-03-19 |
Family
ID=67720657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910490527.XA Active CN110189749B (zh) | 2019-06-06 | 2019-06-06 | 语音关键词自动识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110189749B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110600018A (zh) * | 2019-09-05 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置、神经网络训练方法及装置 |
CN110827801A (zh) * | 2020-01-09 | 2020-02-21 | 成都无糖信息技术有限公司 | 一种基于人工智能的自动语音识别方法及系统 |
CN110930995A (zh) * | 2019-11-26 | 2020-03-27 | 中国南方电网有限责任公司 | 一种应用于电力行业的语音识别模型 |
CN110991148A (zh) * | 2019-12-03 | 2020-04-10 | 孔繁泽 | 信息处理方法及装置、信息交互方法及装置 |
CN111079665A (zh) * | 2019-12-20 | 2020-04-28 | 长沙深之瞳信息科技有限公司 | 基于Bi-LSTM神经网络的摩尔斯电码自动识别方法 |
CN111179910A (zh) * | 2019-12-17 | 2020-05-19 | 深圳追一科技有限公司 | 语速识别方法和装置、服务器、计算机可读存储介质 |
CN111223489A (zh) * | 2019-12-20 | 2020-06-02 | 厦门快商通科技股份有限公司 | 一种基于Attention注意力机制的特定关键词识别方法及系统 |
CN111276125A (zh) * | 2020-02-11 | 2020-06-12 | 华南师范大学 | 一种面向边缘计算的轻量级语音关键词识别方法 |
CN111312288A (zh) * | 2020-02-20 | 2020-06-19 | 阿基米德(上海)传媒有限公司 | 一种广播音频事件处理方法、系统和计算机可读存储介质 |
CN111640454A (zh) * | 2020-05-13 | 2020-09-08 | 广州国音智能科技有限公司 | 频谱图匹配方法、装置、设备及计算机可读存储介质 |
CN111738808A (zh) * | 2020-07-24 | 2020-10-02 | 浙江口碑网络技术有限公司 | 数据处理方法、装置及设备 |
WO2021051544A1 (zh) * | 2019-09-16 | 2021-03-25 | 平安科技(深圳)有限公司 | 语音识别方法及其装置 |
CN112614212A (zh) * | 2020-12-16 | 2021-04-06 | 上海交通大学 | 联合语气词特征的视音频驱动人脸动画实现方法及系统 |
CN112750425A (zh) * | 2020-01-22 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及计算机可读存储介质 |
CN113658596A (zh) * | 2020-04-29 | 2021-11-16 | 扬智科技股份有限公司 | 语意辨识方法与语意辨识装置 |
CN114051076A (zh) * | 2021-11-02 | 2022-02-15 | 重庆川南环保科技有限公司 | 一种客服智能质检方法、装置及存储介质 |
CN114743554A (zh) * | 2022-06-09 | 2022-07-12 | 武汉工商学院 | 基于物联网的智能家居交互方法及装置 |
CN115588437A (zh) * | 2022-12-13 | 2023-01-10 | 南方电网数字电网研究院有限公司 | 语音增强方法、装置、设备和存储介质 |
CN116759061A (zh) * | 2023-08-17 | 2023-09-15 | 简阳市人民医院 | 一种基于个人需求的体检项目推荐系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160099010A1 (en) * | 2014-10-03 | 2016-04-07 | Google Inc. | Convolutional, long short-term memory, fully connected deep neural networks |
CN106951512A (zh) * | 2017-03-17 | 2017-07-14 | 深圳市唯特视科技有限公司 | 一种基于混合编码网络的端到端对话控制方法 |
CN107863111A (zh) * | 2017-11-17 | 2018-03-30 | 合肥工业大学 | 面向交互的语音语料处理方法及装置 |
CN108564940A (zh) * | 2018-03-20 | 2018-09-21 | 平安科技(深圳)有限公司 | 语音识别方法、服务器及计算机可读存储介质 |
CN109003601A (zh) * | 2018-08-31 | 2018-12-14 | 北京工商大学 | 一种针对低资源土家语的跨语言端到端语音识别方法 |
CN109460737A (zh) * | 2018-11-13 | 2019-03-12 | 四川大学 | 一种基于增强式残差神经网络的多模态语音情感识别方法 |
-
2019
- 2019-06-06 CN CN201910490527.XA patent/CN110189749B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160099010A1 (en) * | 2014-10-03 | 2016-04-07 | Google Inc. | Convolutional, long short-term memory, fully connected deep neural networks |
CN106951512A (zh) * | 2017-03-17 | 2017-07-14 | 深圳市唯特视科技有限公司 | 一种基于混合编码网络的端到端对话控制方法 |
CN107863111A (zh) * | 2017-11-17 | 2018-03-30 | 合肥工业大学 | 面向交互的语音语料处理方法及装置 |
CN108564940A (zh) * | 2018-03-20 | 2018-09-21 | 平安科技(深圳)有限公司 | 语音识别方法、服务器及计算机可读存储介质 |
CN109003601A (zh) * | 2018-08-31 | 2018-12-14 | 北京工商大学 | 一种针对低资源土家语的跨语言端到端语音识别方法 |
CN109460737A (zh) * | 2018-11-13 | 2019-03-12 | 四川大学 | 一种基于增强式残差神经网络的多模态语音情感识别方法 |
Non-Patent Citations (1)
Title |
---|
雒瑞森等: "基于关键词识别的可离线无线电电磁频谱管控系统研究", 《电子测试》 * |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021043015A1 (zh) * | 2019-09-05 | 2021-03-11 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置、神经网络训练方法及装置 |
JP7337953B2 (ja) | 2019-09-05 | 2023-09-04 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム |
JP2022531574A (ja) * | 2019-09-05 | 2022-07-07 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム |
CN110600018A (zh) * | 2019-09-05 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置、神经网络训练方法及装置 |
WO2021051544A1 (zh) * | 2019-09-16 | 2021-03-25 | 平安科技(深圳)有限公司 | 语音识别方法及其装置 |
CN110930995A (zh) * | 2019-11-26 | 2020-03-27 | 中国南方电网有限责任公司 | 一种应用于电力行业的语音识别模型 |
CN110930995B (zh) * | 2019-11-26 | 2022-02-11 | 中国南方电网有限责任公司 | 一种应用于电力行业的语音识别模型 |
CN110991148B (zh) * | 2019-12-03 | 2024-02-09 | 孔繁泽 | 信息处理方法及装置、信息交互方法及装置 |
CN110991148A (zh) * | 2019-12-03 | 2020-04-10 | 孔繁泽 | 信息处理方法及装置、信息交互方法及装置 |
CN111179910A (zh) * | 2019-12-17 | 2020-05-19 | 深圳追一科技有限公司 | 语速识别方法和装置、服务器、计算机可读存储介质 |
CN111223489A (zh) * | 2019-12-20 | 2020-06-02 | 厦门快商通科技股份有限公司 | 一种基于Attention注意力机制的特定关键词识别方法及系统 |
CN111079665A (zh) * | 2019-12-20 | 2020-04-28 | 长沙深之瞳信息科技有限公司 | 基于Bi-LSTM神经网络的摩尔斯电码自动识别方法 |
CN110827801B (zh) * | 2020-01-09 | 2020-04-17 | 成都无糖信息技术有限公司 | 一种基于人工智能的自动语音识别方法及系统 |
CN110827801A (zh) * | 2020-01-09 | 2020-02-21 | 成都无糖信息技术有限公司 | 一种基于人工智能的自动语音识别方法及系统 |
CN112750425B (zh) * | 2020-01-22 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及计算机可读存储介质 |
CN112750425A (zh) * | 2020-01-22 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及计算机可读存储介质 |
CN111276125B (zh) * | 2020-02-11 | 2023-04-07 | 华南师范大学 | 一种面向边缘计算的轻量级语音关键词识别方法 |
CN111276125A (zh) * | 2020-02-11 | 2020-06-12 | 华南师范大学 | 一种面向边缘计算的轻量级语音关键词识别方法 |
CN111312288A (zh) * | 2020-02-20 | 2020-06-19 | 阿基米德(上海)传媒有限公司 | 一种广播音频事件处理方法、系统和计算机可读存储介质 |
CN113658596A (zh) * | 2020-04-29 | 2021-11-16 | 扬智科技股份有限公司 | 语意辨识方法与语意辨识装置 |
CN111640454B (zh) * | 2020-05-13 | 2023-08-11 | 广州国音智能科技有限公司 | 频谱图匹配方法、装置、设备及计算机可读存储介质 |
CN111640454A (zh) * | 2020-05-13 | 2020-09-08 | 广州国音智能科技有限公司 | 频谱图匹配方法、装置、设备及计算机可读存储介质 |
CN111738808B (zh) * | 2020-07-24 | 2021-04-13 | 浙江口碑网络技术有限公司 | 数据处理方法、装置及设备 |
CN111738808A (zh) * | 2020-07-24 | 2020-10-02 | 浙江口碑网络技术有限公司 | 数据处理方法、装置及设备 |
CN112614212A (zh) * | 2020-12-16 | 2021-04-06 | 上海交通大学 | 联合语气词特征的视音频驱动人脸动画实现方法及系统 |
CN112614212B (zh) * | 2020-12-16 | 2022-05-17 | 上海交通大学 | 联合语气词特征的视音频驱动人脸动画实现方法及系统 |
CN114051076A (zh) * | 2021-11-02 | 2022-02-15 | 重庆川南环保科技有限公司 | 一种客服智能质检方法、装置及存储介质 |
CN114743554A (zh) * | 2022-06-09 | 2022-07-12 | 武汉工商学院 | 基于物联网的智能家居交互方法及装置 |
CN115588437A (zh) * | 2022-12-13 | 2023-01-10 | 南方电网数字电网研究院有限公司 | 语音增强方法、装置、设备和存储介质 |
CN116759061A (zh) * | 2023-08-17 | 2023-09-15 | 简阳市人民医院 | 一种基于个人需求的体检项目推荐系统 |
CN116759061B (zh) * | 2023-08-17 | 2023-10-27 | 简阳市人民医院 | 一种基于个人需求的体检项目推荐系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110189749B (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110189749A (zh) | 语音关键词自动识别方法 | |
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
CN111312245B (zh) | 一种语音应答方法、装置和存储介质 | |
CN111916111B (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
CN113470662A (zh) | 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配 | |
US11450310B2 (en) | Spoken language understanding | |
WO2016119604A1 (zh) | 一种语音信息搜索方法、装置及服务器 | |
CN114550703A (zh) | 语音识别系统的训练方法和装置、语音识别方法和装置 | |
CN114783418B (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
CN114999460A (zh) | 一种结合Transformer的轻量化中文语音识别方法 | |
CN114495969A (zh) | 一种融合语音增强的语音识别方法 | |
CN113889090A (zh) | 一种基于多任务学习的多语种识别模型的构建和训练方法 | |
CN115394287A (zh) | 混合语种语音识别方法、装置、系统及存储介质 | |
CN113793591A (zh) | 语音合成方法及相关装置和电子设备、存储介质 | |
CN112735404A (zh) | 一种语音反讽检测方法、系统、终端设备和存储介质 | |
Perez-Castanos et al. | Listen carefully and tell: an audio captioning system based on residual learning and gammatone audio representation | |
CN115713933A (zh) | 基于互信息量和se注意力机制的跨语种语音转换方法 | |
Zhao et al. | Knowledge-aware bayesian co-attention for multimodal emotion recognition | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
CN115273829A (zh) | 基于多特征融合的越南语到英语的语音到文本翻译方法 | |
CN115132170A (zh) | 语种分类方法、装置及计算机可读存储介质 | |
CN114758664A (zh) | 语音数据筛选方法、装置、电子设备和可读存储介质 | |
CN114333790A (zh) | 数据处理方法、装置、设备、存储介质及程序产品 | |
Jiang et al. | Audio public opinion analysis model based on heterogeneous neural network | |
Zhao et al. | Research on x-vector speaker recognition algorithm based on Kaldi |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |