CN109192199A - 一种结合瓶颈特征声学模型的数据处理方法 - Google Patents
一种结合瓶颈特征声学模型的数据处理方法 Download PDFInfo
- Publication number
- CN109192199A CN109192199A CN201810703326.9A CN201810703326A CN109192199A CN 109192199 A CN109192199 A CN 109192199A CN 201810703326 A CN201810703326 A CN 201810703326A CN 109192199 A CN109192199 A CN 109192199A
- Authority
- CN
- China
- Prior art keywords
- network
- bottleneck
- layer
- sequence
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 62
- 239000013598 vector Substances 0.000 claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 27
- 230000000306 recurrent effect Effects 0.000 claims abstract description 26
- 239000002356 single layer Substances 0.000 claims abstract description 20
- 239000010410 layer Substances 0.000 claims description 117
- 238000000605 extraction Methods 0.000 claims description 33
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000012546 transfer Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract 3
- 230000001737 promoting effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000005070 sampling Methods 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种结合瓶颈特征声学模型的数据处理方法。该声学模型包括:编码网络和解码网络,编码网络包括瓶颈特征提取子网络和单层循环神经网络,解码网络包括注意力子网络和解码循环神经网络,该方法包括:瓶颈特征提取子网络对语音特征序列(x1,x2,...,xT)进行瓶颈特征提取得到瓶颈特征序列单层循环神经网络对瓶颈特征序列进行编码得到高层特征序列(h1,h2,...,hT),hT表示所述瓶颈特征xT在T时刻的高层特征;注意力子网络根据高层特征序列(h1,h2,...,hT)计算目标向量;解码循环神经网络根据所述高层特征序列(h1,h2,...,hT)和目标向量计算待识别语音每个位置上所有音素的后验概率以得到概率序列(y1,y2,...,yO)。本发明能够减少参数训练规模,提升训练速度以及提升音素和语音特征对齐的准确度,进而提升语音识别的准确性。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种结合瓶颈特征声学模型的数据处理方法。
背景技术
现有注意力声学模型的编码网络所使用的循环神经网络,一方面由于不能同时处理多帧数据,导致无法充分发挥GPU并行计算的优势,造成训练耗时长的问题。另一发面,现有注意力声学模型彻底将语音学的先验知识摒弃使其缺少有效初始化参数,造成模型收敛速度缓慢,也是增加模型训练时间的重要原因。此外,注意力模型在噪声环境中的存在鲁棒性差的问题。
发明内容
为解决现有技术中存在的问题,本发明提供一种结合瓶颈特征声学模型的数据处理方法,该处理方法能够减少参数训练规模,提升训练速度以及提升音素和语音特征对齐的准确度,进而提升语音识别的准确性。
本发明提供一种结合瓶颈特征声学模型的数据处理方法,所述声学模型包括:编码网络和解码网络,所述编码网络包括瓶颈特征提取子网络和单层循环神经网络,所述解码网络包括注意力子网络和解码循环神经网络,所述数据处理方法包括:
步骤1、所述瓶颈特征提取子网络对语音特征序列(x1,x2,...,xT)进行瓶颈特征提取得到瓶颈特征序列xT表示待识别语音经过语音特征提取预处理后在T时刻的语音特征,表示所述语音特征xT在T时刻的瓶颈特征;
步骤2、所述单层循环神经网络对瓶颈特征序列进行编码得到高层特征序列(h1,h2,...,hT),hT表示所述瓶颈特征xT在T时刻的高层特征;
步骤3、所述注意力子网络根据高层特征序列(h1,h2,...,hT)计算目标向量,所述目标向量用于对所述高层特征序列(h1,h2,...,hT)进行压缩;
步骤4、所述解码循环神经网络根据所述高层特征序列(h1,h2,...,hT)和所述目标向量计算待识别语音每个位置上所有音素的后验概率以得到概率序列(y1,y2,...,yO),yO表示待识别语音经所述解码网络输出后在位置o上所有音素的后验概率。
进一步地,所述瓶颈特征提取子网络包括输入层、第一隐含层、瓶颈层和第二隐含层和输出层,所述瓶颈特征提取子网络的训练过程具体为:
利用基于三音子的隐马可夫模型与高斯混合模型组合的GMM-HMM模型获取语音特征序列中每帧特征参数的状态标注信息;
按照深度置信网络的预训练方法,采用无监督训练的方式按照从网络输入到网络输出的顺序逐层初始化转移矩阵;
根据语音特征序列中所有特征参数的状态标注信息,采用有监督训练的方式利用反向传播算法对瓶颈特征提取子网络中的权重进行调整;
将瓶颈层后的网络状态单元和转移矩阵全部删除。
进一步地,所述注意力子网络由多层感知器组成。
进一步地,所述步骤3具体包括:步骤31、计算前一位置输出向量yo-1与时刻t的高层特征ht之间的关联度eo,t,t∈{1,...,T};
步骤32:将关联度eo,t进行指数归一化处理得到注意力子网络的权重αo,t;
步骤33:根据所述权重αo,t和所述高层特征ht确定目标向量cto。
进一步地,所述步骤4具体包括:
步骤41、根据所述目标向量和前一位置输出向量yo-1计算隐含层状态so;
步骤42、将隐含层状态so经过解码循环神经网络的输出层输出得到输出向量yO。
本发明的有益效果:
本发明提供的结合瓶颈特征声学模型的数据处理方法,通过增加基于DBN的瓶颈特征提取网络,取代了现有声学模型中循环神经网络的多层结构。因为DBN网络不是递归结构,所以训练基于DBN的瓶颈特征提取网络时能够在GPU上并行计算多帧的梯度从而有效提升训练效率。与此同时,通过减少循环神经网络的层数够降低反向梯度传递的距离,进一步降低训练时间。其次,基于HMM声学模型的先验信息以权重矩阵的形式存贮在DBN中,因而DBN网络提取的高层特征具有更好的区分性,让模型训练更容易收敛。此外,基于DBN提取的瓶颈特征对噪声具有较强的鲁棒性,使用该瓶颈特征提取网络可弥补注意力模型抗噪能力弱的缺陷。
附图说明
图1为本发明实施例提供的结合瓶颈特征声学模型的结构示意图;
图2为本发明实施例提供的结合瓶颈特征声学模型的数据处理方法的流程示意图;
图3为本发明实施例提供的单层RBM的结构示意图;
图4为本发明实施例提供的吉布斯采样过程示意图;
图5为本发明实施例提供的DBN网络的结构示意图;
图6为本发明实施例提供的基于DBN的瓶颈特征提取网络的结构示意图;
图7为本发明又一实施例提供的结合瓶颈特征声学模型的结构示意图;
图8为本发明实施例提供的现有声学模型和本发明声学模型在训练过程中开发集音素错误率的对比示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明针对现有声学模型训练耗时长和鲁棒性差等问题,提出一种结合瓶颈特征注意力声学模型。该模型由基于深度置信网络(Deep Belief Network,DBN)的瓶颈特征提取网络和基于注意力的序列到序列模型两部分组成:DBN能够引入传统声学模型的先验信息从而提高模型收敛速度,同时增强瓶颈特征的鲁棒性和区分性;注意力模型利用语音特征序列的时序信息计算音素序列的后验概率。在基线系统基础上,通过减少注意力模型中循环神经网络的层数降低训练时间和通过改变瓶颈特征提取网络的输入层单元数和瓶颈层单元数优化识别准确率。
图1为本发明实施例提供的结合瓶颈特征声学模型的结构示意图;如图1所示,该声学模型包括:编码网络和解码网络,所述编码网络包括瓶颈特征提取子网络和单层循环神经网络,所述解码网络包括注意力子网络和解码循环神经网络。
图2为本发明实施例提供的结合瓶颈特征声学模型的数据处理方法的流程示意图;该方法包括:
S201、所述瓶颈特征提取子网络对语音特征序列(x1,x2,...,xT)进行瓶颈特征提取得到瓶颈特征序列xT表示待识别语音经过语音特征提取预处理后在T时刻的语音特征,表示所述语音特征xT在T时刻的瓶颈特征;
S202、所述单层循环神经网络对瓶颈特征序列进行编码得到高层特征序列(h1,h2,...,hT),hT表示所述瓶颈特征xT在T时刻的高层特征;
S203、所述注意力子网络根据高层特征序列(h1,h2,...,hT)计算目标向量,所述目标向量用于对所述高层特征序列(h1,h2,...,hT)进行压缩;
S204、所述解码循环神经网络根据所述高层特征序列(h1,h2,...,hT)和所述目标向量计算待识别语音每个位置上所有音素的后验概率以得到概率序列(y1,y2,...,yO),yO表示待识别语音经所述解码网络输出后在位置o上所有音素的后验概率。
本发明实施例提供的结合瓶颈特征声学模型的数据处理方法,通过增加基于DBN的瓶颈特征提取网络,取代了现有声学模型中循环神经网络的多层结构。因为DBN网络不是递归结构,所以训练基于DBN的瓶颈特征提取网络时能够在GPU上并行计算多帧的梯度从而有效提升训练效率。与此同时,通过减少循环神经网络的层数够降低反向梯度传递的距离,进一步降低训练时间。其次,基于HMM声学模型的先验信息以权重矩阵的形式存贮在DBN中,因而DBN网络提取的高层特征具有更好的区分性,让模型训练更容易收敛。此外,基于DBN提取的瓶颈特征对噪声具有较强的鲁棒性,使用该瓶颈特征提取网络可弥补注意力模型抗噪能力弱的缺陷。
在上述实施例的基础上,所述瓶颈特征提取子网络包括输入层、第一隐含层、瓶颈层和第二隐含层和输出层,所述瓶颈特征提取子网络的训练过程具体为:
利用基于三音子的隐马可夫模型与高斯混合模型组合的GMM-HMM模型获取语音特征序列中每帧特征参数的状态标注信息;
按照深度置信网络的预训练方法,采用无监督训练的方式按照从网络输入到网络输出的顺序逐层初始化转移矩阵;
具体地,无监督训练的方式如下:DBN网络与普通的前馈神经网络不同之处在于,连接层与层之间的权重矩阵具有特殊的初始化参数,该初始化参数由多层受限玻尔兹曼机(简称RBM)计算而得。RBM是一种生成式随机神经网络,单层RBM为由一组可视层单元v和一组隐含层单元h组成的二分图,其结构如图3所示,可视层和隐含层之间为全连接关系,层内部不存在连接关系。
如果已知可视层向量v和隐含层向量h,对于单层RBM可定义能量值E(v,h)。单层RBM分为基于伯努利-伯努利分布的RBM和高斯-伯努利分布的RBM,两种RBM对应能量值分别为:
E(v,h)=-aTv-bTh-hWv (1)
其中,a为可视层偏置向量,b为隐含层偏置向量,W为连接可见层和隐含层的权重矩阵。式(1)描述的是伯努利-伯努利RBM的能量,向量v和向量h每个分量的取值只有0或1。式(2)描述的是高斯伯努利RBM的能量,向量v每个分量的取值只有0或1,而向量h每个分量取值为实数。
在能量函数的基础上,可以定义可见层和隐含层的联合分布函数:
其中,θ为单层RBM的参数,即θ={a,b,W},Z为归一化因子,其值为:
在RBM中,由于可见层和隐含层内部之间没有神经元相连接,所以彼此间互相独立。因此后验概率p(v|h)和p(h|v)均能被方便地计算出来。以伯努利-伯努利RBM为例,后验概率p(h|v)的计算过程如下:
其中,表示权重矩阵W的第i行。式(5)的推导说明在可见层确定的情况下,隐含层状态的各个分量之间互相独立。因为伯努利-伯努利RBM隐含层神经元状态每个分量hi的取值只有0和1,所以有:
其中式(6)的σ(.)表示sigmoid函数。所以隐含层状态的向量可以用如下公式(7)表示:
P(h=1|v)=σ(Wv+b) (7)
根据对称关系,在已知隐含层状态下,单层伯努利-伯努利RBM的可见层状态为:
P(v=1|h)=σ(WTh+a) (8)
对于可见层为高斯分布的高斯伯努利RBM,后验概率p(h=1|v)计算与式(7)相同,而p(v|h)的计算方式如下:
p(v|h)=N(v;WTh+a,I) (9)
其中I代表单位阵。
为了便于训练RBM的参数,需要先定义单层RBM的自由能量(freeenergy):
可见层状态向量概率的边缘概率可以用自由能量表示:
其中,参数θ={a,b,W}决定RBM的可视层向量v的分布。在给定训练数据集V下,单层RBM的参数训练就是通过采用梯度下降法最小化负对数似然度实现:
训练过程中,负对数似然度的导数一般形式为:
其中,<ξ>data和<ξ>model分别表示从样本数据和模型中估计出随机变量ξ的期望值。对于单层RBM中连接矩阵的权重,有:
以伯努利-伯努利RBM为例,期望<vihj>data为训练数据中可见层状态vi和隐含层状态hj取值同时为1的频率,期望<vihj>model为RBM生成式模型分布计算得到的期望。
与普通前馈神经网络不同,由于单层RBM是无向图模型,计算梯度过程中期望<vihj>model的计算会陷入循环,难以直接进行计算。针对此问题,Hinton等提出采用对比散度算法(contrastive divergence,CD),图4简单描述了CD算法中的吉布斯采样过程。首先,吉布斯采样器通过数据样本对可见层初始化,得到可见层状态v。然后,采用式(7)计算得到后验概率p(h|v)作为隐含层状态h。其次,再根据RBM类型的不同分别采用式(8)或式(9)分别采样重构可见层状态v。可见层状态v被重构的次数也被称为吉布斯采样的阶数。理论上,吉布斯无穷阶采样值<vihj>∞等于模型期望值<vihj>model。Hinton发现RBM预训练只是用吉布斯1阶采样得到期望作为估计模型对应期望值用于模型参数训练在实际任务中能够取到较好的效果,即认为<vihj>model=<vihj>∞≈<vihj>1。
图6展示的瓶颈特征提取网络为5层结构,它是在4层结构DBN的基础上增加一层输出音素状态的分类标签而得。其中,4层DBN由4组单层RBM连续堆叠而成,第一层为高斯-伯努利RBM,其余三层均为伯努利-伯努利RBM。堆叠的过程如下:训练一个高斯-伯努利RBM,原因是第一层输入的语音特征为实数,与高斯分布相适配。然后,将隐含层单元的激活概率作为下一层为伯努利-伯努利RBM的可视层输入,第二层RBM的隐含状态再作为第三层RBM的输入,此后所有层依次类推。训练该DBN时,首先根据输入样本数据对第一层RBM用CD算法初始化;然后固定第一层RBM的参数,更具样本数据计算RBM的隐含层状态并将其作为第二层RBM可见层状态。此时再采用CD算法获取训练第二层RBM。往后依次类推,最终逐个得到连接DBN层与层之间的权重参数。训练结束后,只保留连接层与层的权重矩阵作为DBN转移矩阵的初始化参数。
根据语音特征序列中所有特征参数的状态标注信息,采用有监督训练的方式利用反向传播算法对瓶颈特征提取子网络中的权重进行调整;
具体地,上一步骤采用RBM技术利用样本输入数据对网络进行无监督训练后,图5所示的网络中前3层连接权重矩阵均得到初始化,并且训练后的权重矩阵能够部分反映和“记忆”样本数据中的有效信息。为了进一步增强网络对语音特征的提取和区分能力,使得后续的注意力模型获取的瓶颈特征具有更强的鲁棒性和区分性,在无监督训练基础上采用语音样本标注对语言进行有监督训练。有监督训练的方式如下:该训练过程中,首先相当于将DBN的权重直接迁移至深度神经网络(Deep Neural Network,DNN)中,然后在已知DNN模型参数的基础上进行微调(fine tuning)。
此DNN的结构如图6所示,网络的前3个连接矩阵权重W1,W2,W3已知,第4个连接矩阵权重由随机初始化而得,层与层之间加入了激活函数。网络前向计算的过程中,另f(.)表示激活函数,第1个隐含层状态h1和第l个隐含层状态hl分别为:
h1=f(W1x+b1) (15)
hl=f(Wlhl-1+bl) (16)
最后网络的输出向量v是由第4个隐含层h4通过softmax函数而得:
v=softmax(h4) (17)
DNN需要微调的模型参数θ包括连接层与层的权重矩阵W和对应的偏置向量b,它们需要通过样本集训练得到。其中,表示第n个样本的语音特征,表示第n个样本的HMM状态标注分布,该标注信息是通过GMM-HMM生成,采用one-hot编码的形式表示。有监督训练过程中,需要制定训练目标准则和学习算法。
语音状态分类问题本质是一个分类问题,对该问题的准则通常采用最小化交叉熵(cross entropy,CE)函数:
最小化交叉熵函数准则相当于求DNN输出层分布与标注数据分布的最小KL散度(Kullback-Leibler divergence,KLD)。采用one-hot编码表示标注数据的分布也被称为“硬分布”,该分布可用一个示性函数表述,即对于标注给出的向量c,其第i个分类为:
ci=I(c=i) (19)
使用反向传播算法(Back Propagation,BP)对网络参数进行微调:训练结束后,将瓶颈层后的网络状态单元和转移矩阵全部删除即可得到瓶颈特征提取网络。把原始特征参数作为网络输入,通过该网络逐层计算出瓶颈层状态值,该值即为瓶颈特征。
由于DBN的有监督训练过程中使用的数据包含GMM-HMM模型提供的对齐信息,DBN提取的瓶颈特征与传统特征相比,对于不同音素状态DBN提取的瓶颈特征具有更好的区分性。因而如果将该瓶颈特征应用于注意力模型,就能相当于将先验知识迁移至注意力模型中。
最后,将瓶颈层后的网络状态单元和转移矩阵全部删除。
在上述各实施例的基础上,所述注意力子网络由多层感知器组成。
在上述各实施例的基础上,所述S203具体包括:
S2031、计算前一位置输出向量yo-1与时刻t的高层特征ht之间的关联度eo,t,t∈{1,...,T};
S2032:将关联度eo,t进行指数归一化处理得到注意力子网络的权重αo,t;
S2033:根据所述权重αo,t和所述高层特征ht确定目标向量cto。
在上述各实施例的基础上,所述S204具体包括:
S2041、根据所述目标向量和前一位置输出向量yo-1计算隐含层状态so;
S2042、将隐含层状态so经过解码循环神经网络的输出层输出得到输出向量yO。
图7为本发明又一实施例提供的结合瓶颈特征声学模型的结构示意图,如图所示,该声学模型与图1所示的声学模型的区别在于,图7中的注意力子网络由多层感知器组成。其中,BN特征提取网络为DBN网络的子网络,RNN1即为单层循环神经网络;解码RNN即为解码循环神经网络。结合图7,本发明实施例提供的结合瓶颈特征声学模型的数据处理方法包括以下步骤:
S301:训练基于DBN的瓶颈特征提取网络;
S302:瓶颈特征序列作为循环神经网络的输入,采用1层循环神经网络处理特征序列的时序信息:
S303:利用输出序列前一位置输出向量yo-1分别与时刻t∈{1,...,T}的高层特征向量ht一同作为网络输入计算关联度:eo,t=MLP(yo-1,ht);
S304:将关联度进行指数归一化处理:其数值作为权重;
S305:根据权重合并高层特征向量最终得到目标向量cto:
S306:解码的循环神经网络根据yo-1和目标向量cto计算出状态so:so=RNN(yo-1,cto);
S307:根据所述状态so,经过softmax层得到输出向量yo:yo=softmax(so)。
如图6所示,瓶颈特征提取子网络包括输入层、隐含层1、隐含层2(即瓶颈层)和隐含层3和输出层(即softmax层)。结合图6,步骤S301训练基于DBN瓶颈特征提取网络的步骤如下:
S3011:利用基于三音子的隐马可夫模型(Hidden Markov Model,HMM)与高斯混合模型(Gaussian Mixture Model,GMM)组合的GMM-HMM模型获取句子中每帧特征参数的状态标注;
具体地,一般情况下语音特征序列的每一帧都被识别为HMM状态。
S3012:按照DBN的预训练方法,采用无监督训练的方式按照从网络输入到网络输出的顺序逐层初始化转移矩阵;
具体地,本步骤中的预训练方法可采用基于受限玻尔兹曼机(RBM)预训练方法。
S3013:根据GMM-HMM生成的标注信息,以有监督训练的方式使用反向传播算法(back propagation)对网络参数进行微调;
具体地,本步骤中的有监督训练的方式指根据之前得到HMM状态级的标注,使用最大交叉熵作为目标准则函数,使用梯度下降法进行有监督预训练。本步骤中的网络参数指瓶颈特征提取网络中的权重。
S3014:将瓶颈层后的网络状态单元和转移矩阵全部删除。
通过以上步骤,即可完成结合瓶颈特征的注意力声学模型。在TIMIT英语语料数据库的实验表明,本发明提供的结合瓶颈特征声学模型的数据处理方法可将测试集的音素错误率降低至17.80%,训练平均迭代周期下降52%,训练迭代次数由139下降至89。
采用kaldi-pdnn工具包建立和训练DBN模型,采用开源深度学习工具Theano建立和训练注意力模型。实验平台的硬件配置为Intel Xeon E2670 24核CPU、64G内存和NVIDIATesla K80显卡。语音信号采样频率是16kHZ,采样位数16bit,采用Hamming窗处理,帧长25ms,帧移10ms,预加重系数0.97,声学特征在40维FBANK特征基础上拼接一阶、二阶差分,共计120维特征。实验结果如表1,表2,表3及图8所示。
表1不同声学模型的音素错误率和平均周期对比
模型 | 音素错误率/% | 平均周期/min |
Attention 1-RNN | 21.83 | 36.2 |
Attention 2-RNN | 21.41 | 54.8 |
Attention 3-RNN | 19.57 | 76.3 |
BN Attention 1-RNN | 19.07 | 37.5 |
BN Attention 2-RNN | 18.95 | 56.4 |
BN Attention 3-RNN | 18.86 | 78.1 |
DBN-HMM | 21.6 | 15.3 |
由表1可知,在音素错误率方面,现有注意力声学模型(Attention 1-RNN、Attention 2-RNN、Attention 3-RNN、DBN-HMM)和本发明提供的结合瓶颈声学模型(BNAttention 1-RNN、BN Attention 2-RNN、BN Attention 3-RNN)相比,在具有相同循环神经单元个数的条件下,后者明显均比前者效果好;在平均训练周期方面,Attention 1-RNN、Attention 2-RNN、Attention 3-RNN现有声学模型与本发明提供的声学模型相比,后者的训练周期几乎与前者的训练周期一致。并且,随着结合瓶颈特征声学模型内部循环神经单元个数的增加,音素错误率会更低,当然,平均训练周期也会相应有所延长。
表2基于不同输入帧数系统的音素错误率
输入帧数 | 音素错误率/% |
1 | 17.93 |
3 | 18.49 |
5 | 18.92 |
7 | 19.31 |
9 | 19.07 |
语音信号有时序信息,把当前帧的前后4帧(共9帧)特征向量拼接起来作为新的特征向量,表征特征中的时序信息。由表2可知,当输入帧数为1时,系统的音素错误率是最低的。
表3基于不同瓶颈层单元数系统的音素错误率
模型 | 音素错误率/% |
BN Attention 30 | 18.87 |
BN Attention 40 | 17.93 |
BN Attention 50 | 17.83 |
BN Attention 60 | 17.80 |
BN Attention 70 | 17.81 |
由表3可知,本发明提供的结合瓶颈特征声学模型可以通过增加瓶颈特征提取子网络中瓶颈层单元的个数进一步降低音素错误率,从而按照上述数据处理方法提高语音识别的准确性。
由图8可知,实线曲线的收敛速度更快(下降快),而且更快结束收敛(长度短),表明本发明所提供的方法能够有效提升收敛速度和降低训练迭代次数。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种结合瓶颈特征声学模型的数据处理方法,其特征在于,所述声学模型包括:编码网络和解码网络,所述编码网络包括瓶颈特征提取子网络和单层循环神经网络,所述解码网络包括注意力子网络和解码循环神经网络,所述数据处理方法包括:
步骤1、所述瓶颈特征提取子网络对语音特征序列(x1,x2,...,xT)进行瓶颈特征提取得到瓶颈特征序列xT表示待识别语音经过语音特征提取预处理后在T时刻的语音特征,表示所述语音特征xT在T时刻的瓶颈特征;
步骤2、所述单层循环神经网络对瓶颈特征序列进行编码得到高层特征序列(h1,h2,...,hT),hT表示所述瓶颈特征xT在T时刻的高层特征;
步骤3、所述注意力子网络根据高层特征序列(h1,h2,...,hT)计算目标向量,所述目标向量用于对所述高层特征序列(h1,h2,...,hT)进行压缩;
步骤4、所述解码循环神经网络根据所述高层特征序列(h1,h2,...,hT)和所述目标向量计算待识别语音每个位置上所有音素的后验概率以得到概率序列(y1,y2,...,yO),yO表示待识别语音经所述解码网络输出后在位置o上所有音素的后验概率。
2.根据权利要求1所述的方法,其特征在于,所述瓶颈特征提取子网络包括输入层、第一隐含层、瓶颈层和第二隐含层和输出层,所述瓶颈特征提取子网络的训练过程具体为:
利用基于三音子的隐马可夫模型与高斯混合模型组合的GMM-HMM模型获取语音特征序列中每帧特征参数的状态标注信息;
按照深度置信网络的预训练方法,采用无监督训练的方式按照从网络输入到网络输出的顺序逐层初始化转移矩阵;
根据语音特征序列中所有特征参数的状态标注信息,采用有监督训练的方式利用反向传播算法对瓶颈特征提取子网络中的权重进行调整;
将瓶颈层后的网络状态单元和转移矩阵全部删除。
3.根据权利要求1所述的方法,其特征在于,所述注意力子网络由多层感知器组成。
4.根据权利要求1所述的方法,其特征在于,所述步骤3具体包括:
步骤31、计算前一位置输出向量yo-1与时刻t的高层特征ht之间的关联度eo,t,t∈{1,...,T};
步骤32:将关联度eo,t进行指数归一化处理得到注意力子网络的权重αo,t;
步骤33:根据所述权重αo,t和所述高层特征ht确定目标向量cto。
5.根据权利要求4所述的方法,其特征在于,所述步骤4具体包括:
步骤41、根据所述目标向量和前一位置输出向量yo-1计算隐含层状态so;
步骤42、将隐含层状态so经过解码循环神经网络的输出层输出得到输出向量yO。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810703326.9A CN109192199A (zh) | 2018-06-30 | 2018-06-30 | 一种结合瓶颈特征声学模型的数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810703326.9A CN109192199A (zh) | 2018-06-30 | 2018-06-30 | 一种结合瓶颈特征声学模型的数据处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109192199A true CN109192199A (zh) | 2019-01-11 |
Family
ID=64948737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810703326.9A Pending CN109192199A (zh) | 2018-06-30 | 2018-06-30 | 一种结合瓶颈特征声学模型的数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109192199A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110111797A (zh) * | 2019-04-04 | 2019-08-09 | 湖北工业大学 | 基于高斯超矢量和深度神经网络的说话人识别方法 |
CN110211568A (zh) * | 2019-06-03 | 2019-09-06 | 北京大牛儿科技发展有限公司 | 一种语音识别方法及装置 |
CN110223680A (zh) * | 2019-05-21 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 语音处理方法、识别方法及其装置、系统、电子设备 |
CN110299149A (zh) * | 2019-06-18 | 2019-10-01 | 电子科技大学 | 一种基于注意力机制的语音增强算法 |
CN110930978A (zh) * | 2019-11-08 | 2020-03-27 | 北京搜狗科技发展有限公司 | 一种语种识别方法、装置和用于语种识别的装置 |
CN111583900A (zh) * | 2020-04-27 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 歌曲合成方法、装置、可读介质及电子设备 |
CN111862945A (zh) * | 2019-05-17 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN114333900A (zh) * | 2021-11-30 | 2022-04-12 | 南京硅基智能科技有限公司 | 端到端提取bnf特征的方法、网络模型、训练方法及系统 |
WO2022267960A1 (zh) * | 2021-06-24 | 2022-12-29 | 长沙理工大学 | 基于客户端选择的联邦注意力dbn协同检测系统 |
CN113421555B (zh) * | 2021-08-05 | 2024-04-12 | 辽宁大学 | 基于bn-sgmm-hmm低资源语音识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104795063A (zh) * | 2015-03-20 | 2015-07-22 | 中国人民解放军信息工程大学 | 一种基于声学空间非线性流形结构的声学模型构建方法 |
US20160034811A1 (en) * | 2014-07-31 | 2016-02-04 | Apple Inc. | Efficient generation of complementary acoustic models for performing automatic speech recognition system combination |
CN106952644A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于瓶颈特征的复杂音频分割聚类方法 |
CN107993664A (zh) * | 2018-01-26 | 2018-05-04 | 北京邮电大学 | 一种基于竞争神经网络的鲁棒说话人识别方法 |
JP2018087935A (ja) * | 2016-11-30 | 2018-06-07 | 日本電信電話株式会社 | 音声言語識別装置、その方法、及びプログラム |
-
2018
- 2018-06-30 CN CN201810703326.9A patent/CN109192199A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160034811A1 (en) * | 2014-07-31 | 2016-02-04 | Apple Inc. | Efficient generation of complementary acoustic models for performing automatic speech recognition system combination |
CN104795063A (zh) * | 2015-03-20 | 2015-07-22 | 中国人民解放军信息工程大学 | 一种基于声学空间非线性流形结构的声学模型构建方法 |
JP2018087935A (ja) * | 2016-11-30 | 2018-06-07 | 日本電信電話株式会社 | 音声言語識別装置、その方法、及びプログラム |
CN106952644A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于瓶颈特征的复杂音频分割聚类方法 |
CN107993664A (zh) * | 2018-01-26 | 2018-05-04 | 北京邮电大学 | 一种基于竞争神经网络的鲁棒说话人识别方法 |
Non-Patent Citations (3)
Title |
---|
LONG XINGYAN ET AL.: "Joint bottleneck feature and attention model for speech recognition", 《ICMAI》 * |
苏欣 等: "《Android手机应用网络流量分析与恶意行为检测研究》", 31 October 2016, 湖南大学出版社 * |
黄孝平: "《当代机器深度学习方法与应用研究》", 30 November 2017, 电子科技大学出版社 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110111797A (zh) * | 2019-04-04 | 2019-08-09 | 湖北工业大学 | 基于高斯超矢量和深度神经网络的说话人识别方法 |
CN111862945A (zh) * | 2019-05-17 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN110415686B (zh) * | 2019-05-21 | 2021-08-17 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、介质、电子设备 |
CN110223680A (zh) * | 2019-05-21 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 语音处理方法、识别方法及其装置、系统、电子设备 |
CN110415686A (zh) * | 2019-05-21 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、介质、电子设备 |
CN110211568A (zh) * | 2019-06-03 | 2019-09-06 | 北京大牛儿科技发展有限公司 | 一种语音识别方法及装置 |
CN110299149A (zh) * | 2019-06-18 | 2019-10-01 | 电子科技大学 | 一种基于注意力机制的语音增强算法 |
CN110930978A (zh) * | 2019-11-08 | 2020-03-27 | 北京搜狗科技发展有限公司 | 一种语种识别方法、装置和用于语种识别的装置 |
CN111583900A (zh) * | 2020-04-27 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 歌曲合成方法、装置、可读介质及电子设备 |
CN111583900B (zh) * | 2020-04-27 | 2022-01-07 | 北京字节跳动网络技术有限公司 | 歌曲合成方法、装置、可读介质及电子设备 |
WO2022267960A1 (zh) * | 2021-06-24 | 2022-12-29 | 长沙理工大学 | 基于客户端选择的联邦注意力dbn协同检测系统 |
CN113421555B (zh) * | 2021-08-05 | 2024-04-12 | 辽宁大学 | 基于bn-sgmm-hmm低资源语音识别方法 |
CN114333900A (zh) * | 2021-11-30 | 2022-04-12 | 南京硅基智能科技有限公司 | 端到端提取bnf特征的方法、网络模型、训练方法及系统 |
CN114333900B (zh) * | 2021-11-30 | 2023-09-05 | 南京硅基智能科技有限公司 | 端到端提取bnf特征的方法、网络模型、训练方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110211574B (zh) | 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法 | |
CN109192199A (zh) | 一种结合瓶颈特征声学模型的数据处理方法 | |
Meng et al. | Internal language model estimation for domain-adaptive end-to-end speech recognition | |
Cai et al. | A novel learnable dictionary encoding layer for end-to-end language identification | |
Peddinti et al. | A time delay neural network architecture for efficient modeling of long temporal contexts. | |
Nakkiran et al. | Compressing deep neural networks using a rank-constrained topology. | |
Senior et al. | Improving DNN speaker independence with i-vector inputs | |
Meng et al. | Cycle-consistent speech enhancement | |
CN110459225B (zh) | 一种基于cnn融合特征的说话人辨认系统 | |
Cui et al. | Data augmentation for deep convolutional neural network acoustic modeling | |
Nakashika et al. | High-order sequence modeling using speaker-dependent recurrent temporal restricted boltzmann machines for voice conversion. | |
CN111798840B (zh) | 语音关键词识别方法和装置 | |
Meng et al. | Speaker adaptation for attention-based end-to-end speech recognition | |
Adi et al. | To reverse the gradient or not: An empirical comparison of adversarial and multi-task learning in speech recognition | |
Lam et al. | Gaussian process lstm recurrent neural network language models for speech recognition | |
Bao et al. | Incoherent training of deep neural networks to de-correlate bottleneck features for speech recognition | |
CN111653275B (zh) | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 | |
CN105139864A (zh) | 语音识别方法和装置 | |
Guo et al. | Deep neural network based i-vector mapping for speaker verification using short utterances | |
Mallidi et al. | Uncertainty estimation of DNN classifiers | |
Meng et al. | Internal language model adaptation with text-only data for end-to-end speech recognition | |
Han et al. | Self-supervised learning with cluster-aware-dino for high-performance robust speaker verification | |
Bhattacharya et al. | Deep neural network based text-dependent speaker recognition: Preliminary results | |
CN114550703A (zh) | 语音识别系统的训练方法和装置、语音识别方法和装置 | |
Hasannezhad et al. | PACDNN: A phase-aware composite deep neural network for speech enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190111 |