CN110634476B - 一种快速搭建鲁棒性声学模型的方法及系统 - Google Patents
一种快速搭建鲁棒性声学模型的方法及系统 Download PDFInfo
- Publication number
- CN110634476B CN110634476B CN201910953684.XA CN201910953684A CN110634476B CN 110634476 B CN110634476 B CN 110634476B CN 201910953684 A CN201910953684 A CN 201910953684A CN 110634476 B CN110634476 B CN 110634476B
- Authority
- CN
- China
- Prior art keywords
- network
- frame
- ctc
- speech
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims abstract description 10
- 230000002779 inactivation Effects 0.000 claims abstract description 7
- 239000000654 additive Substances 0.000 claims abstract description 5
- 230000000996 additive effect Effects 0.000 claims abstract description 5
- 230000009286 beneficial effect Effects 0.000 claims abstract description 4
- 238000002360 preparation method Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 31
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 10
- 230000000295 complement effect Effects 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 238000006467 substitution reaction Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 2
- 230000006872 improvement Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供了一种快速搭建鲁棒性声学模型的方法及系统,方法包括执行以下步骤:第一步骤:数据准备阶段;准备训练样本以及测试样本;第二步骤:以CTC损失函数设计目标函数;采用端到端的训练方式,采用批量梯度的更新方式,设计目标函数;第三步骤:搭建神经网络;搭建声学模型的神经网络,以卷积神经网络、全连接网络为基础,使用随机失活缓解网络训练的过拟合,提高网络参数的泛化能力;第四步骤:构建训练网络。本发明的有益效果是:本发明公开的一种快速搭建鲁棒性声学模型的方法,在不增加语音识别系统复杂度的情况下,提高了模型对加性噪声的鲁棒性。
Description
技术领域
本发明涉及软件领域,尤其涉及一种快速搭建鲁棒性声学模型的方法及系统。
背景技术
近年来,基于深度神经网络的语音识别系统获得越来越多的关注。语音识别是一项将语音转换到对应文字的技术,是实现人机交互的核心技术之一。语音识别系统大致包含声学模型、发音字典、语言模型。其中,声学模型的性能对整体系统的性能影响起着决定性的作用。目前,有很多方法论在干净语音识别任务上能够取得很好的效果,然而这类模型需要在干净语音样本下训练,并且在带噪语音识别任务中模型会性能会大幅度下降,可见提高声学模型鲁棒性问题具有很强的工程应用意义。
研究鲁棒性声学模型的方法论大致分为以下几类,基于前端处理、后端模型、前后端联合优化。基于前端处理类的鲁棒性声学模型可类比为语音增强、降噪。该方法直接作用于声学模型的前端,其核心思想是从带噪语音中恢复出原始的干净语音,然后将干净的语音特征输入到提前训练好的声学模型进行识别。本质上,该类方法并没有解决声学模型的鲁棒性问题,而且添加一个前端处理模板后,增加了语音识别系统模型的复杂度。基于后端类的方法论可简述为设计一个深度神经网络,将带噪样本与干净样本同时用于训练网络,以增强模型的鲁棒性。基于前后端联合优化的方法论可同时优化两个任务:语音增强、语音识别。让语音识别任务的梯度参与指导语音增强的任务,使得增强的任务有利于识别的任务。因为这类联合优化的方法输入的是带噪语音,为了训练准确的声学模型,需要知道带噪语音特征所对应的音素标签、干净的语音特征。所以该类方法需要用干净的语音提前训练一个声学模型,用于为语音帧打标签。
鉴于此,有必要提供一种可以保证模型在干净语音识别任务中有较好的性能情况下,能够提高模型对加噪的声鲁棒性,同时又不增加系统复杂度的方法。
发明内容
本发明提供了一种快速搭建鲁棒性声学模型的方法,包括执行以下步骤:
第一步骤:数据准备阶段;准备训练样本以及测试样本;
第二步骤:以CTC损失函数设计目标函数;采用端到端的训练方式,以L(w)=CTC(x;w)+σCTC(x′;w)+αLd(x,x′:w)为损失函数,采用批量梯度的更新方式,设计目标函数;
第三步骤:搭建神经网络;搭建声学模型的神经网络,以卷积神经网络、全连接网络为基础,使用随机失活缓解网络训练的过拟合,提高网络参数的泛化能力;
第四步骤:构建训练网络;训练一个网络参数共享卷积神经网络,干净样本与带噪样本需要成对输入到该网络,然后通过loss曲线,音素错误率曲线监控网络训练情况。
作为本发明的进一步改进,在所述第一步骤中,还包括依次执行以下步骤:
步骤1:选取两种开源的实录噪声库,即:QUT-NOISE、NOISEX-92;QUT-NOISE中的cafa-foodcourtb-1用于产生训练样本,NOISEX-92的hf-channel、f-16、babble、car、white噪声用于产生测试样本,并以设定的信噪比向干净的语音中加入噪声,产生带噪语料;
步骤2:提取步骤1中带噪语料的fbank语音特征,得到T×64的特征矩阵,其中T代表每条语音的帧数,并生成训练样本集。
作为本发明的进一步改进,所述的以设定的信噪比向干净的语音中加入噪声具体包括:
选取TIMIT作为实验语料,包含61英文音素,TIMIT数据集中只包含干净语料,需要对每条干净语料加入几种加性噪声并产生0、5、10、15dB的带噪语料。
作为本发明的进一步改进,在所述步骤2中,还包括执行以下步骤:fbank语音特征提取步骤:假设每条语音帧是短时平稳,语音帧长为25ms,帧移10ms,每条语音帧做短时傅里叶变换得到一张二维的语谱图,然后将频率轴通过如下公式转化到梅尔频谱,设置64个梅尔滤波器,每帧语音提取64维的特征;
梅尔刻度、赫兹与梅尔滤波器之间的计算关系如下:
mel(f)=1125ln(1+f/700)
f(m)=700(10m/2595-1)
其中,f表示频率,m表示梅尔刻度;
梅尔滤波器系数计算方式如下:
训练样本集生成步骤:对每条干净的语音生成干净的特征x以及相对应的带噪语音的x′,(x~x′)构成一对语音样本X,标记对对应的音素序列,构成训练样本集(Xi,yi)={(X1,y1),(X2,y2),...,(Xm,ym)}。
作为本发明的进一步改进,在所述第二步骤中,还包括执行以下步骤:第1步骤:CTC是一种使用动态规划算法以实现端到端的语音识别的目标函数,即:CTC(x)=-log(p(y|x)),x为输入的语音特征,y为x对应的音素序列,p(y|x)表示输入为x,输出为y的条件概率,优化过程中最小化CTC(x)损失函数,即最大化条件概率p(y|x);
第2步骤:设计以下目标函数:
L(w)=CTC(x;w)+σCTC(x′;w)+αLd(x,x′:w)、添加Ld(x,x′;w)约束项可以将干净样本与带噪样本投影到尽可能相近的概率空间,有利于提高声学模型对噪声的抗干扰能力,w代表网络参数,x代表干净样本,x′代表带噪样本,代表网络的输出层,即为用于计算CTC损失的概率矩阵,σ、α为超参数,用于加权CTC(x′:w)、Ld(x,x′;w)的损失。
作为本发明的进一步改进,在所述第三步骤中,还包括:
搭建7层卷积层,每层卷积层有256个卷积核,卷积核大小为5×3,不使用池化层;3层全连接层,前两层设置512个隐藏单元,最后一层设置62个隐藏单元;随机失活率为0.5,激活函数使用Relu,学习率为1e-5,每输入16组样本,更新一次参数;输入为T×64语音特征矩阵,网络输出为T×62的概率矩阵,其中T代表每条语音的帧数,62代表声学模型的建模单元数,包含61个有效音素及一个空白符,空白符用来当前帧处于有效音素与无效音素之间的状态,每帧特征通过softmax函数得到62个建模单元的概率分布,即:其中表示第t帧判定为第k类的概率。
作为本发明的进一步改进,在所述第三步骤中,由于采用的卷积神经网络,而语音长短不一,需要采用补值的方法将短的语音特征补长,使得一个batch的语音特征是等长的,因此产生一个批量数据时,需要统计16样本中语音帧最长的数值,然后将其余的语音特征在语音帧维度补值至最大数值,网络的输入为四维的张量,[batch,frame,64,1],其中batch表示当前批量样本数为16,frame表示当前批量中最大帧长,64表示每帧语音的特征维数,语音特征深度为1,卷积网络的最后输出特征的是一个四维的张量,[batch,frame,feature,filters],feature表示特征维度,filters表示输出特征的深度,为了将四维张量输入到全连接层,保证batch、frame维度不变,因此将[batch,frame,feature,filters]重组为三维张[batch,frame,feature×filters],然后输入到全连接层。
作为本发明的进一步改进,在所述第四步骤中,每次迭代过程如下:首先输入干净样本x,得到CTC(x;w)、接着输入对应的带噪样本x′计算得到CTC(x′;w)、最后代入L(w)=CTC(x;w)+σCTC(x′;w)+αLd(x,x′:w)中,计算梯度并使用Adam优化算法更新参数,通过监控网络的损失函数曲线和音素错误率PER曲线来选择和保存模型。
作为本发明的进一步改进,所述音素错误率PER计算公式如下:
其中S、D、I表示需要从预测音素序列通过替换、删除、插入操作得到真实序列的操作数。
本发明还公开了一种快速搭建鲁棒性声学模型的系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的方法的步骤。
本发明的有益效果是:1.本发明公开的一种快速搭建鲁棒性声学模型的方法,将Connectionist Temporal Classification(CTC)优化目标的方法用于鲁棒性声学模型的任务中,利用干净样本、带噪样本的特征共同训练网络参数,同时在网络输出层加入二者概率矩阵的L2范数惩罚,将干净特征与带噪特征映射到尽可能相近的概率空间,有利于模型依据概率分布做出相近的决策。2.本发明公开的一种快速搭建鲁棒性声学模型的方法,在不增加语音识别系统复杂度的情况下,提高了模型对加性噪声的鲁棒性;
附图说明
图1是本发明的快速搭建鲁棒性声学模型的流程图;
图2是本发明的鲁棒性声学模型网络结构,即RPSSL模型;
图3是本发明的声学模型网络结构,即baseline模型;
图4是本发明的鲁棒性声学模型对比实验模,即RPS模型;
图5是本发明的测试baseline、RPS、RPSSL声学模型的PER结果图。
具体实施方式
本发明公开了一种快速搭建鲁棒性声学模型的方法,包括执行以下步骤:
第一步骤:数据准备阶段;准备训练样本以及测试样本;
第二步骤:以CTC损失函数设计目标函数;采用端到端的训练方式,以L(w)=CTC(x;w)+σCTC(x′;w)+αLd(x,x′:w)为损失函数,采用批量(bath)梯度的更新方式,设计目标函数,batch大小为16;
第三步骤:搭建神经网络;搭建声学模型的神经网络,以卷积神经网络、全连接网络为基础,使用随机失活缓解网络训练的过拟合,提高网络参数的泛化能力;
第四步骤:构建训练网络;开始训练网络,训练一个网络参数共享卷积神经网络,干净样本与带噪样本需要成对输入到该网络,然后通过loss曲线,音素错误率(PER)曲线监控网络训练情况。
如图1所示,在所述第一步骤中,还包括依次执行以下步骤:
步骤1:选取两种开源的实录噪声库,即:QUT-NOISE、NOISEX-92;QUT-NOISE中的cafa-foodcourtb-1用于产生训练样本,NOISEX-92的hf-channel、f-16、babble、car、white噪声用于产生测试样本,并以设定的信噪比向干净的语音中加入噪声,产生带噪语料;
步骤2:提取步骤1中带噪语料的fbank语音特征,得到T×64的特征矩阵,其中T代表每条语音的帧数,并生成训练样本集。
在所述步骤1中,所述的以设定的信噪比向干净的语音中加入噪声具体包括:
选取英文语料TIMIT作为实验语料,包含61英文音素,英文语料TIMIT数据集中只包含干净语料,需要对每条干净语料加入几种加性噪声并产生0、5、10、15dB的带噪语料。
在所述步骤2中,还包括执行以下步骤:
fbank语音特征提取步骤:假设每条语音帧是短时平稳,语音帧长为25ms,帧移10ms,每条语音帧做短时傅里叶变换得到一张二维的语谱图,然后将频率轴通过如下公式转化到梅尔频谱,设置64个梅尔滤波器,每帧语音提取64维的特征;
梅尔刻度、赫兹与梅尔滤波器之间的计算关系如下:
mel(f)=1125ln(1+f/700)
f(m)=700(10m/2595-1)
其中,f表示频率,m表示梅尔刻度;
梅尔滤波器系数计算方式如下:
训练样本集生成步骤:对每条干净的语音生成干净的特征x以及相对应的带噪语音的x′,(x~x′)构成一对语音样本X,标记对对应的音素序列,构成训练样本集(Xi,yi)={(X1,y1),(X2,y2),...,(Xm,ym)}。
在所述第二步骤中,还包括执行以下步骤:
第1步骤:CTC是一种使用动态规划算法以实现端到端的语音识别的目标函数,即:CTC(x)=-log(p(y|x)),x为输入的语音特征,y为x对应的音素序列,p(y|x)表示输入为x,输出为y的条件概率,优化过程中最小化CTC(x)损失函数,即最大化条件概率p(y|x);
第2步骤:为提高模型的鲁棒性,设计以下目标函数:L(w)=CTC(x;w)+σCTC(x′;w)+αLd(x,x′:w)、添加Ld(x,x′;w)约束项可以将干净样本与带噪样本投影到尽可能相近的概率空间,有利于提高声学模型对噪声的抗干扰能力,w代表网络参数,x代表干净样本,x′代表带噪样本,代表网络的输出层,即为用于计算CTC损失的概率矩阵,σ、α为超参数,用于加权CTC(x′:w)、Ld(x,x′;w)的损失。
在所述第三步骤中,还包括:搭建7层卷积层,每层卷积层有256个卷积核,卷积核大小为5×3,不使用池化层;3层全连接层,前两层设置512个隐藏单元,最后一层设置62个隐藏单元;随机失活率为0.5,激活函数使用Relu,学习率为1e-5,每输入16组样本,更新一次参数;输入为T×64语音特征矩阵,网络输出为T×62的概率矩阵,其中T代表每条语音的帧数,62代表声学模型的建模单元数,包含61个有效音素及一个空白符,空白符用来当前帧处于有效音素与无效音素之间的状态,每帧特征通过softmax函数得到62个建模单元的概率分布,即:其中表示第t帧判定为第k类的概率。
在所述第三步骤中,由于采用的卷积神经网络,而语音长短不一,需要采用补值的方法将短的语音特征补长,使得一个batch的语音特征是等长的,因此产生一个批量数据时,需要统计16样本中语音帧最长的数值,然后将其余的语音特征在语音帧维度补值至最大数值,网络的输入为四维的张量,[batch,frame,64,1],其中batch表示当前批量样本数为16,frame表示当前批量中最大帧长,64表示每帧语音的特征维数,语音特征深度为1,卷积网络的最后输出特征的是一个四维的张量,[batch,frame,feature,filters],feature表示特征维度,filters表示输出特征的深度,为了将四维张量输入到全连接层,保证batch、frame维度不变,因此将[batch,frame,feature,filters]重组为三维张[batch,frame,feature×filters],然后输入到全连接层。
在所述第四步骤中,每次迭代过程如下:
首先输入干净样本x,得到CTC(x;w)、接着输入对应的带噪样本x′计算得到CTC(x′;w)、最后代入L(w)=CTC(x;w)+σCTC(x′;w)+αLd(x,x′:w)中,计算梯度并使用Adam优化算法更新参数,通过监控网络的损失函数曲线和音素错误率(PER)曲线来选择和保存模型。
所述音素错误率PER计算公式如下:
其中S、D、I表示需要从预测音素序列通过替换、删除、插入操作得到真实序列的操作数。
本发明公开的一种快速搭建鲁棒性声学模型的方法,训练网络阶段,CTC采用动态规划的思路求解条件概率p(y|x),模型解码阶段,只需要输出每帧特征对应的概率最大的音素,然后以此删除重复及空格符,得到最终预测输出。
如图2-5所示,为了做对比试验分析,训练三个模型,简称为:baseline、RPS(Parameter Sharing)、RPSSL(RPS with Similarity Loss),优化函数分别如下:
L1(w)=CTC(x;w)、
L2(w)=CTC(x;w)+σCTC(x′;w)、
L3(w)=CTC(x;w)+σCTC(x′;w)+αLd(x,x′:w),
用相同的网络结构、超参数设定训练三个模型,模型测试阶段,所有PER测试结果均是基于39类音素计算得到的。
Baseline、RPS、RPSSL简称为a、b、c,表1为对应模型的PER。
表1
本发明还公开了一种快速搭建鲁棒性声学模型的系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的方法的步骤。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (7)
1.一种快速搭建鲁棒性声学模型的方法,其特征在于,包括执行以下步骤:
第一步骤:数据准备阶段;准备训练样本以及测试样本;
第二步骤:以CTC损失函数设计目标函数;采用端到端的训练方式,以L(w)=CTC(x;w)+σCTC(x′;w)+αLd(x,x′:w)为损失函数,采用批量梯度的更新方式,设计目标函数,w代表网络参数,x代表干净样本,x′代表带噪样本,即为用于计算CTC损失的概率矩阵,σ、α为超参数,用于加权CTC(x′:w)、Ld(x,x′;w)的损失;
第三步骤:搭建神经网络;搭建声学模型的神经网络,以卷积神经网络、全连接网络为基础,使用随机失活缓解网络训练的过拟合,提高网络参数的泛化能力;
第四步骤:构建训练网络;训练一个网络参数共享卷积神经网络,干净样本与带噪样本需要成对输入到该网络,然后通过loss曲线,音素错误率PER曲线监控网络训练情况;
在所述第一步骤中,还包括依次执行以下步骤:
步骤1:选取两种开源的实录噪声库,即:QUT-NOISE、NOISEX-92;QUT-NOISE中的cafa-foodcourtb-1用于产生训练样本,NOISEX-92的hf-channel、f-16、babble、car、white噪声用于产生测试样本,并以设定的信噪比向干净的语音中加入噪声,产生带噪语料;
步骤2:提取步骤1中带噪语料的fbank语音特征,得到T×64的特征矩阵,其中T代表每条语音的帧数,并生成训练样本集;
在所述步骤1中,所述的以设定的信噪比向干净的语音中加入噪声具体包括:
选取TIMIT作为实验语料,包含61英文音素,TIMIT数据集中只包含干净语料,需要对每条干净语料加入几种加性噪声并产生0、5、10、15dB的带噪语料;
在所述第二步骤中,还包括执行以下步骤:
第1步骤:CTC是一种使用动态规划算法以实现端到端的语音识别的目标函数,即:CTC(x)=-log(p(y|x)),x为输入的语音特征,y为x对应的音素序列,p(y|x)表示输入为x,输出为y的条件概率,优化过程中最小化CTC(x)损失函数,即最大化条件概率p(y|x);
第2步骤:设计以下目标函数:
2.根据权利要求1所述的方法,其特征在于,在所述步骤2中,还包括执行以下步骤:
fbank语音特征提取步骤:假设每条语音帧是短时平稳,语音帧长为25ms,帧移10ms,每条语音帧做短时傅里叶变换得到一张二维的语谱图,然后将频率轴通过如下公式转化到梅尔频谱,设置64个梅尔滤波器,每帧语音提取64维的特征;
梅尔刻度、赫兹与梅尔滤波器之间的计算关系如下:
mel(f)=1125ln(1+f/700)
f(m)=700(10m/2595-1)
其中,f表示频率,m表示梅尔刻度;
梅尔滤波器系数计算方式如下:
训练样本集生成步骤:对每条干净的语音生成干净的特征x以及相对应的带噪语音的x′,(x~x′)构成一对语音样本X,标记对对应的音素序列,构成训练样本集(Xi,yi)={(X1,y1),(X2,y2),...,(Xm,ym)}。
3.根据权利要求1所述的方法,其特征在于,在所述第三步骤中,还包括:搭建7层卷积层,每层卷积层有256个卷积核,卷积核大小为5×3,不使用池化层;3层全连接层,前两层设置512个隐藏单元,最后一层设置62个隐藏单元;随机失活率为0.5,激活函数使用Relu,学习率为1e-5,每输入16组样本,更新一次参数;输入为T×64语音特征矩阵,网络输出为T×62的概率矩阵,其中T代表每条语音的帧数,62代表声学模型的建模单元数,包含61个有效音素及一个空白符,空白符用来当前帧处于有效音素与无效音素之间的状态,每帧特征通过softmax函数得到62个建模单元的概率分布,即:其中表示第t帧判定为第k类的概率。
4.根据权利要求3所述的方法,其特征在于,在所述第三步骤中,由于采用的卷积神经网络,而语音长短不一,需要采用补值的方法将短的语音特征补长,使得一个batch的语音特征是等长的,因此产生一个批量数据时,需要统计16样本中语音帧最长的数值,然后将其余的语音特征在语音帧维度补值至最大数值,网络的输入为四维的张量,[batch,frame,64,1],其中batch表示当前批量样本数为16,frame表示当前批量中最大帧长,64表示每帧语音的特征维数,语音特征深度为1,卷积网络的最后输出特征的是一个四维的张量,[batch,frame,feature,filters],feature表示特征维度,filters表示输出特征的深度,为了将四维张量输入到全连接层,保证batch、frame维度不变,因此将[batch,frame,feature,filters]重组为三维张量[batch,frame,feature×filters],然后输入到全连接层。
7.一种快速搭建鲁棒性声学模型的系统,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910953684.XA CN110634476B (zh) | 2019-10-09 | 2019-10-09 | 一种快速搭建鲁棒性声学模型的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910953684.XA CN110634476B (zh) | 2019-10-09 | 2019-10-09 | 一种快速搭建鲁棒性声学模型的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110634476A CN110634476A (zh) | 2019-12-31 |
CN110634476B true CN110634476B (zh) | 2022-06-14 |
Family
ID=68975781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910953684.XA Active CN110634476B (zh) | 2019-10-09 | 2019-10-09 | 一种快速搭建鲁棒性声学模型的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110634476B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111899716B (zh) * | 2020-08-03 | 2021-03-12 | 北京帝派智能科技有限公司 | 一种语音合成方法和系统 |
CN111899091B (zh) * | 2020-08-06 | 2023-03-24 | 华院计算技术(上海)股份有限公司 | 基于鲁棒算法的逾期风险识别方法 |
CN112233655A (zh) * | 2020-09-28 | 2021-01-15 | 上海声瀚信息科技有限公司 | 一种提高语音命令词识别性能的神经网络训练方法 |
CN112382271B (zh) * | 2020-11-30 | 2024-03-26 | 北京百度网讯科技有限公司 | 语音处理方法、装置、电子设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106683663A (zh) * | 2015-11-06 | 2017-05-17 | 三星电子株式会社 | 神经网络训练设备和方法以及语音识别设备和方法 |
CN108986788A (zh) * | 2018-06-06 | 2018-12-11 | 国网安徽省电力有限公司信息通信分公司 | 一种基于后验知识监督的噪声鲁棒声学建模方法 |
US10229672B1 (en) * | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
CN109545190A (zh) * | 2018-12-29 | 2019-03-29 | 联动优势科技有限公司 | 一种基于关键词的语音识别方法 |
CN109767759A (zh) * | 2019-02-14 | 2019-05-17 | 重庆邮电大学 | 基于改进型cldnn结构的端到端语音识别方法 |
CN110070855A (zh) * | 2018-01-23 | 2019-07-30 | 中国科学院声学研究所 | 一种基于迁移神经网络声学模型的语音识别系统及方法 |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107680582B (zh) * | 2017-07-28 | 2021-03-26 | 平安科技(深圳)有限公司 | 声学模型训练方法、语音识别方法、装置、设备及介质 |
-
2019
- 2019-10-09 CN CN201910953684.XA patent/CN110634476B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106683663A (zh) * | 2015-11-06 | 2017-05-17 | 三星电子株式会社 | 神经网络训练设备和方法以及语音识别设备和方法 |
US10229672B1 (en) * | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
CN110070855A (zh) * | 2018-01-23 | 2019-07-30 | 中国科学院声学研究所 | 一种基于迁移神经网络声学模型的语音识别系统及方法 |
CN108986788A (zh) * | 2018-06-06 | 2018-12-11 | 国网安徽省电力有限公司信息通信分公司 | 一种基于后验知识监督的噪声鲁棒声学建模方法 |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
CN109545190A (zh) * | 2018-12-29 | 2019-03-29 | 联动优势科技有限公司 | 一种基于关键词的语音识别方法 |
CN109767759A (zh) * | 2019-02-14 | 2019-05-17 | 重庆邮电大学 | 基于改进型cldnn结构的端到端语音识别方法 |
Non-Patent Citations (1)
Title |
---|
基于DNN-HMM的陆空通话声学模型构建方法;杨金峰等;《中国民航大学学报》;20190831;第37卷(第4期);第36-40页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110634476A (zh) | 2019-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110634476B (zh) | 一种快速搭建鲁棒性声学模型的方法及系统 | |
CN110211574B (zh) | 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法 | |
Rethage et al. | A wavenet for speech denoising | |
Chien et al. | Bayesian recurrent neural network for language modeling | |
US20170372694A1 (en) | Dialogue act estimation method, dialogue act estimation apparatus, and storage medium | |
Zhang et al. | Boosted deep neural networks and multi-resolution cochleagram features for voice activity detection | |
Pandey et al. | Self-attending RNN for speech enhancement to improve cross-corpus generalization | |
CN110600047A (zh) | 基于Perceptual STARGAN的多对多说话人转换方法 | |
CN108172238A (zh) | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 | |
CN110060657B (zh) | 基于sn的多对多说话人转换方法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN112232087B (zh) | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 | |
CN109147774B (zh) | 一种改进的延时神经网络声学模型 | |
Wu et al. | Increasing compactness of deep learning based speech enhancement models with parameter pruning and quantization techniques | |
CN114550703A (zh) | 语音识别系统的训练方法和装置、语音识别方法和装置 | |
CN110853630A (zh) | 面向边缘计算的轻量级语音识别方法 | |
CN111724806B (zh) | 一种基于深度神经网络的双视角单通道语音分离方法 | |
CN114495957A (zh) | 一种基于Transformer改进的语音增强方法、系统、装置 | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN114863938A (zh) | 一种基于注意力残差和特征融合的鸟语识别方法和系统 | |
CN111241820A (zh) | 不良用语识别方法、装置、电子装置及存储介质 | |
CN114495969A (zh) | 一种融合语音增强的语音识别方法 | |
CN116310770A (zh) | 基于梅尔倒谱和注意力残差网络的水声目标识别方法和系统 | |
CN112233668B (zh) | 一种基于神经网络的语音指令及身份识别方法 | |
CN111833851B (zh) | 一种自动学习优化声学模型的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |