CN108630199A - 一种声学模型的数据处理方法 - Google Patents
一种声学模型的数据处理方法 Download PDFInfo
- Publication number
- CN108630199A CN108630199A CN201810702540.2A CN201810702540A CN108630199A CN 108630199 A CN108630199 A CN 108630199A CN 201810702540 A CN201810702540 A CN 201810702540A CN 108630199 A CN108630199 A CN 108630199A
- Authority
- CN
- China
- Prior art keywords
- network
- maxout
- attention
- sequence
- hidden layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000013528 artificial neural network Methods 0.000 claims description 34
- 239000011159 matrix material Substances 0.000 claims description 13
- 125000004122 cyclic group Chemical group 0.000 claims description 11
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 210000000689 upper leg Anatomy 0.000 claims 1
- 238000012549 training Methods 0.000 abstract description 11
- 230000008569 process Effects 0.000 abstract description 7
- 230000001737 promoting effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 20
- 238000012546 transfer Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000037433 frameshift Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种声学模型的数据处理方法。该声学模型包括编码网络、注意力网络和解码网络,数据处理方法包括:步骤1、编码网络对语音特征序列(x1,x2,...,xT)进行编码得到高层特征序列(h1,h2,...,hT),xT表示待识别语音经过语音特征提取预处理后在T时刻的语音特征,hT表示所述语音特征xT在T时刻的高层特征;步骤2、注意力网络根据高层特征序列(h1,h2,...,hT)计算目标向量,目标向量用于对所述高层特征序列(h1,h2,...,hT)进行压缩;步骤3、解码网络根据高层特征序列(h1,h2,...,hT)和目标向量计算待识别语音每个位置上所有音素的后验概率以得到概率序列(y1,y2,...,yO),yO表示待识别语音经解码网络输出后在位置o上所有音素的后验概率。本发明能够减少参数训练规模,提升训练速度以及提升音素和语音特征对齐的准确度。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种声学模型的数据处理方法。
背景技术
现有的声学模型存在参数规模大、训练耗时极为严峻的问题;此外,现有的声学模型还存在语音特征序列中因存在相同音素而导致的音素和语音特征对齐不准确的问题。为了解决上述问题,亟需一种方法来构建一个新的声学模型能够迅速而准确地对语音进行识别。
发明内容
为解决现有技术中存在的问题,本发明提供一种声学模型的数据处理方法,该处理方法能够减少参数训练规模,提升训练速度以及提升音素和语音特征对齐的准确度,进而提升语音识别的准确性。
本发明提供一种声学模型的数据处理方法,该声学模型包括:编码网络、注意力网络和解码网络,该数据处理方法包括:
步骤1、所述编码网络对语音特征序列(x1,x2,...,xT)进行编码得到高层特征序列(h1,h2,...,hT),xT表示待识别语音经过语音特征提取预处理后在T时刻的语音特征,hT表示所述语音特征xT在T时刻的高层特征;
步骤2、所述注意力网络根据高层特征序列(h1,h2,...,hT)计算目标向量,所述目标向量用于对所述高层特征序列(h1,h2,...,hT)进行压缩;
步骤3、所述解码网络根据所述高层特征序列(h1,h2,...,hT)和所述目标向量计算待识别语音每个位置上所有音素的后验概率以得到概率序列(y1,y2,...,yO),yO表示待识别语音经所述解码网络输出后在位置o上所有音素的后验概率。
其中,所述编码网络包括前向网络和后向网络,所述前向网络和所述后向网络均由基于最少门单元MGU结构的多层循环神经网络组成。
进一步地,所述解码网络由基于MGU的循环神经网络和maxout网络串联组成。
进一步地,所述步骤1具体包括:
步骤11、所述前向网络根据下式
计算时刻t下第c层前向循环神经网络的隐含层状态
步骤12、所述后向网络根据下式
计算时刻t下第c层后向循环神经网络的隐含层状态
步骤13、根据所述第c层前向循环神经网络的隐含层状态和所述第c层后向循环神经网络的隐含层状态得到所述编码网络在时刻t高层特征ht,其中t∈[1,T]。
进一步地,所述步骤2具体包括:
步骤21、所述注意力网络根据前一位置注意力系数αo-1,t确定注意力网络的窗函数wo,t;
步骤22、根据所述窗函数和所述前一位置注意力系数αo-1,t确定前一位置元素yo-1与时刻t高层特征ht之间的关联度eo,t;
步骤23、所述注意力网络根据所述关联度eo,t和所述高层特征序列(h1,h2,...,hT)确定目标向量。
进一步地,所述步骤3具体包括:
步骤31、所述解码网络根据所述目标向量按照下式
so=MGU(so-1,cto) (19)
计算解码网络的隐含层状态so,其中cto表示目标向量;
步骤32、所述解码网络根据所述解码网络的隐含层状态so按照下式
计算位置o上音素i的后验概率hi maxout,其中k为maxout网络每个隐含层单元的候选单元数,W:,i,j∈Rd×m×k和bi,j∈Rm×k分别为maxout网络的参数矩阵和偏置向量,d为maxout网络的隐含层单元数,m为maxout网络的输出层单元数;
步骤33、所述maxout网络根据下式
yo=[h1 maxout,h2 maxout,...,hm maxout] (22)
确定所述yO。
本发明的有益效果:
本发明提供的声学模型的数据处理方法,通过将最少门单元MGU结构替换原有单元(例如门循环单元GRU)结构的循环神经网络单元,从而减少参数规模,提升训练速度;其次,通过加入窗函数限定注意力网络需要计算的语音特征范围并且引入注意力系数,从而提升音素和语音特征对齐的准确度,提升声学模型的识别性能,最终提升语音识别的准确性。
附图说明
图1为本发明实施例提供的声学模型的结构示意图;
图2为本发明实施例提供的声学模型的数据处理方法的流程示意图;
图3为本发明又一实施例提供的声学模型的结构示意图;
图4为本发明实施例提供的采用本发明声学模型后改进系统的音素与特征对齐的效果示意图;
图5为现有技术中基线系统的音素与特征对齐的效果示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的声学模型的结构示意图,如图1所示,该声学模型包括编码网络、注意力网络和解码网络;其中,所述编码网络包括前向网络和后向网络,所述前向网络和所述后向网络均由基于最少门单元MGU结构的多层循环神经网络组成。
图2为本发明实施例提供的声学模型的数据处理方法的流程示意图。如图2所示,该声学模型的数据处理方法包括以下步骤:
S201、所述编码网络对语音特征序列(x1,x2,...,xT)进行编码得到高层特征序列(h1,h2,...,hT),xT表示待识别语音经过语音特征提取预处理后在T时刻的语音特征,hT表示所述语音特征xT在T时刻的高层特征;
具体地,编码网络采用基于MGU单元的多层循环神经网络的学习能力挖掘训练语音特征序列(x1,x2,...,xT)的内在联系,提取待识别语音的高层特征,得到高层特征序列(h1,h2,...,hT),增强语音特征的表达力和区分性。
S202、所述注意力网络根据高层特征序列(h1,h2,...,hT)计算目标向量,所述目标向量用于对所述高层特征序列(h1,h2,...,hT)进行压缩;
具体地,注意力网络基于注意力机制,所谓注意力机制是在序列到序列的模型中,从特征序列中提取有效特征的技术。注意力网络通过模拟人类视觉机制,将注意力分配在语音特征序列(h1,h2,...,hT)的部分相关区域,忽略无关语音特征。由于语音特征序列(h1,h2,...,hT)是一个变长特征序列,在序列到序列模型中,注意力网络需要先将语音特征序列(h1,h2,...,hT)映射成一个目标向量,该目标向量将语音特征序列(h1,h2,...,hT)中的重要信息进行压缩,从而实现变长特征序列到固定长度矢量的变换。
S203、所述解码网络根据所述高层特征序列(h1,h2,...,hT)和所述目标向量计算待识别语音每个位置上所有音素的后验概率以得到概率序列(y1,y2,...,yO),yO表示待识别语音经所述解码网络输出后在位置o上所有音素的后验概率。
具体地,解码网络将编码网络计算得到的高层特征序列(h1,h2,...,hT)和注意力网络计算得到的目标向量作为输入,计算输出序列(y1,y2,...,yO)。
本发明实施例提供的声学模型的数据处理方法,通过将编码网络中的原有单元(例如门循环单元GRU)结构替换为最少门单元MGU结构的循环神经网络单元,从而减少参数规模,提升训练速度;其次,通过增加注意力网络限定需要计算的语音特征范围,从而提升音素和语音特征对齐的准确度,提升声学模型的识别性能,最终提升语音识别的准确性。
在上述实施例的基础上,该方法中的解码网络由基于MGU的循环神经网络和maxout网络串联组成。
具体地,解码网络将注意力网络计算得到的目标向量作为基于MGU的循环神经网络的输入,所述基于MGU的循环神经网络的输出作为maxout网络的输入,通过maxout网络计算高层特征序列(h1,h2,...,hT)每个位置上所有音素的后验概率,从而得到概率序列(y1,y2,...,yO)。
在上述实施例的基础上,该方法中步骤201具体包括以下子步骤:
步骤2011、所述前向网络根据下式
计算时刻t下第c层前向循环神经网络的隐含层状态
步骤2012、所述后向网络根据下式
计算时刻t下第c层后向循环神经网络的隐含层状态
步骤2013、根据所述第c层前向循环神经网络的隐含层状态和所述第c层后向循环神经网络的隐含层状态得到所述编码网络在时刻t高层特征ht,其中t∈[1,T]。
具体地,编码网络的输入为语音特征序列(x1,x2,...,xT),输出为高层特征序列(h1,h2,...,hT)。
在时刻t,第c层的前向循环神经网络和后向循环神经网络的隐含层状态分别为和前向网络和后向网络的信息传递方向相反,对应的传递函数分别为:
前向网络和后向网络采用各自的传递函数并行进行层与层之间的特征传递。
对前向网络而言,按照上述的传递函数,由输入的语音特征序列(x1,x2,...,xT)可得到第1层隐含层状态同理,由c-1层隐含层状态可计算出c层隐含层状态前向网络计算隐含层状态的过程如下所示:
对后向网络而言,按照上述的传递函数,由输入的语音特征序列(x1,x2,...,xT)可得到第1层隐含层状态同理,由c-1层隐含层状态可计算出c层隐含层状态后向网络计算隐含层状态的过程如下所示:
拼接前向网络和后向网络的第c层的隐含层状态,得到编码网络在t时刻的高层特征ht,如下式所示:
在现有的GRU结构中,给定语音特征序列(x1,x2,...,xT),GRU以下式作为传递函数得到高层特征序列(h1,h2,...,hT)
其中,rt为重置门,zt为遗忘门,Wr,Wz,Wh和br,bz,bh分别为权重矩阵和偏置向量,σ和tanh为激活函数。该传递函数简记为下式:
ht=GRU(xt,ht-1) (7)
而本发明实施例中的编码网络采用MGU结构,MGU结构在GRU结构的基础上,让重置门rt和遗忘门zt共享一套参数,其传递函数如下式所示:
参数共享后,需要训练的权重矩阵从Wr,Wz,Wh减少至Wh、Wz,使得参数规模减少1/3。MGU结构的传递函数简记为下式:
ht=MGU(ht-1,xt) (9)
在本发明实施例的编码网络中,将原有模型的GRU单元替换成MGU单元,减少参数规模和训练时间。该编码网络由两组基于MGU单元的多层循环神经网络组成,分别为前向网络和后向网络。双向网络的结构能够同时传递过去和未来的信息,提升了高层特征的信息量。
在上述实施例的基础上,该方法中的步骤202具体包括以下子步骤:
步骤2021、所述注意力网络根据前一位置注意力系数αo-1,t确定注意力网络的窗函数wo,t;
具体地,注意力网络通过设计一个窗函数对高层特征序列进行范围限定,所述窗函数包括窗口中心和窗口宽度两个属性值。其中,位置o处音素的窗口中心以参数mo表示,窗口宽度以参数2w表示。
首先,确定窗口中心mo。本发明实施例中,已知前一位置元素注意力系数αo-1,t,将提取窗口中心mo当成随机抽样过程,所有高层特征的时刻为样本,将前一位置注意力系数αo-1,t作为时刻t频率,确定中心mo有两种方式:
1)将平均数作为窗口中心,如下式所示:
2)将中位数作为窗口中心,如下式所示:
其次,确定窗口宽度。一般情况下,注意力窗口的宽度w设置为100。待识别语音信号被提取语音特征时帧移通常设置为10ms,因此选择100作为窗口宽度能够利用1s内的高层特征信息,而通常一个音素的发音周期只有0.2~0.5s,所以限定范围后的注意力区域能覆盖1~2个音素的特征,满足对特征提取的要求。
最后,若窗口中心为mo,窗口宽度为2w,则当前时刻t下窗口范围是(mo-w,...,mo+w),窗函数如下式所示:
步骤2022、根据所述窗函数和所述前一位置注意力系数αo-1,t确定前一位置元素yo-1与时刻t高层特征ht之间的关联度eo,t;
具体地,在实际操作中,首先注意力网络将前一位置注意力系数向量αo-1,t通过一维卷积神经网络,提升声学模型的区分性和鲁棒性。该卷积神经网络只有一层卷积层,卷积核大小为1×(2w+1),与窗函数的窗口宽度相同,滤波器数为j,卷积方式可采用samepadding,卷积过程可以由下式描述:
其中,为窗函数内注意力系数组成的2w+1维向量,L为j×(2w+1)矩阵,L可经训练得到,卷积后的矩阵lo规模为j×(2w+1)。
其次,注意力网络根据下式:
eo,t=ωTtanh(W[so-1,ht,lo,t]+b) (15)
计算前一位置元素yo-1与时刻t高层特征ht之间的关联度eo,t,其中,W和b为注意力网络的输入层到隐含层权重矩阵和偏置向量,ω为注意力网络的隐含层到输出层的权重矩阵,lo,t为矩阵lo中时刻t对应的列向量,so-1为注意力网络前一位置的隐含层状态。
步骤2023、所述注意力网络根据所述关联度eo,t和所述高层特征序列(h1,h2,...,hT)确定目标向量。
具体地,注意力网络对当前位置所有时刻的关联度进行指数归一化。归一化后的数值称为注意力系数αo,t,如下式所示:
其次,将注意力系数αo,t作为权重,对所有时刻的特征加权求和,得到注意力机制下位置o的目标向量cto,如下式所示:
本发明实施例中注意力网络计算目标向量的过程,可以简记为下式:
cto=attention([h1,h2,...,hT],yo-1) (18)
由上述实施例可以看出,考虑到实际语音信号中单个音素持续时间较短,通过注意力网络限定计算关联度时语音特征的范围,使得注意力分布更加集中;进一步地,考虑到位置相邻的音素的注意力分布相似,在注意力网络的输入特征中加入前一位置音素的注意力系数,获取注意力分布的位置信息,使得关联度计算更加准确。
在上述实施例的基础上,该方法中的步骤203具体包括以下子步骤:
步骤2031、所述解码网络根据所述目标向量按照下式
so=MGU(so-1,cto) (19)
计算解码网络的隐含层状态so,其中cto表示目标向量;
步骤2032、所述解码网络根据所述解码网络的隐含层状态so按照下式
计算位置o上音素i的后验概率hi maxout,其中k为maxout网络每个隐含层的候选单元数,W:,i,j∈Rd×m×k和bi,j∈Rm×k分别为maxout网络的参数矩阵和偏置向量,d为maxout网络的隐含层单元数,m为maxout网络的输出层单元数;
步骤2033、所述maxout网络根据下式
yo=[h1 maxout,h2 maxout,...,hm maxout] (22)
确定所述yO。
具体地,首先,解码网络将注意力网络计算得到的目标向量cto,作为基于MGU单元的循环神经网络的输入,按照下式:
so=MGU(so-1,cto) (19)
计算解码网络的隐含层状态so。
然后,解码网络以隐含层状态so∈Rd作为输入,通过maxout网络计算得到音素i的后验概率hi maxout。maxout网络的每个隐含层单元有多个候选单元,maxout网络从中选择数值最大的单元作为输出。maxout网络计算过程如下式所示:
其中,d为maxout网络的隐含层状态so的维度,对应隐含层单元数目,W:,i,j∈Rd×m×k和bi,j∈Rm×k分别为maxout网络的参数矩阵和偏置向量,k为maxout网络每个隐含层单元的候选单元数,m为输出层单元数目,在声学模型中对应输出的音素种类数目。
最后,如下式所示:
yo=[h1 maxout,h2 maxout,...,hm maxout] (22)
由maxout网络的输出层得到输出向量yO。
图3为本发明又一实施例提供的声学模型的结构示意图。下面对该声学模型的构建过程进行具体描述,如图3所示,本发明构建该模型的方法包括以下步骤:
步骤1:输入语音特征序列(x1,x2,...,xT);
步骤2:在时刻t,第c层的前向循环神经网络和后向循环神经网络的隐含层状态分别为和对应的传递函数分别为:
步骤3:由c-1层隐含层状态计算c层前向循环神经网络的隐含层状态和后向循环神经网络的隐含层状态
步骤4:拼接前向网络和后向网络的第c层隐含状态,得到编码网络在时刻t的高层特征ht:
步骤5:通过注意力网络计算得到目标向量cto,作为基于MGU单元循环神经网络的输入,计算隐含层状态so:so=MGU(so-1,cto);
步骤6:通过maxout网络计算得到音素i的后验概率hi maxout:
步骤7:由maxout网络的输出层得到输出向量yO:yo=[h1 maxout,h2 maxout,...,hm maxout]。
通过以上步骤,即可完成采用最少门单元结构的改进注意力声学模型。在TIMIT语料库测试证明,本发明提供的声学模型使用最少门单元网络,降低了数规模和训练时间,同时性能损失很少。在vystadial_cz捷克语语料库证明,声学模型中的注意力机制提高了音素和特征对齐的准确度,语音识别正确率也得到提升,并且优于传统方法和基于链接时序分类算法的端到端方法。
特征提取采用kaldi开源工具包,端到端模型基线系统采用Theano开源深度学习库搭建。
特征提取:语音信号采样频率是16kHZ,采样位16bit,使用Hamming窗处理,帧长25ms,帧移10ms,预加重系数0.97。语音特征序列采用40维fbank特征和能量,再拼接对应一阶和二阶差分,共计123维参数。
模型初始化:循环神经网络权重矩阵初始设定为标准正交矩阵,偏置向量初始设为0,内部状态值采用均值为0方差为0.1的独立高斯分布初始化。
模型参数:编码网络的隐含层状态维度设为200。注意力网络的卷积神经网络通道数设为10。英语声学模型解码网络输出向量设为63维,分别对应61个音素、空白符和序列终止符的后验概率;捷克语声学模型解码网络输出向量设为44维,分别对应41个捷克语字母,空白符、噪声符号和序列终止符的概率。maxout网络的候选隐含层数目设为64。
实验结果如表1,表2,表3,表4及图4,图5所示。
表1 TIMIT语料库不同模型的性能
表2限定注意力范围后TIMIT和vystadial_cz语料库下的音素错误率和词错误率
表3 TIMIT和vystadial_cz语料库下引入注意力系数特征后系统音素错误率
表4 vystadial_cz语料库下各个系统的词错误率
系统 | 开发集 | 测试集 |
GMM-HMM | 79.11 | 65.87 |
GMM-HMM MMI | 76.08 | 67.38 |
GMM-HMM bMMI | 75.54 | 66.94 |
GMM-HMM MPE | 73.97 | 63.08 |
DNN-HMM sMBR | 69.56 | 57.74 |
RNN-CTC | 77.72 | 69.05 |
注意力基线系统 | 60.67 | 60.33 |
注意力改进模型 | 55.41 | 54.53 |
注意力改进模型(MGU) | 55.97 | 55.83 |
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种声学模型的数据处理方法,其特征在于,所述声学模型包括:编码网络、注意力网络和解码网络,所述数据处理方法包括:
步骤1、所述编码网络对语音特征序列(x1,x2,...,xT)进行编码得到高层特征序列(h1,h2,...,hT),xT表示待识别语音经过语音特征提取预处理后在T时刻的语音特征,hT表示所述语音特征xT在T时刻的高层特征;
步骤2、所述注意力网络根据高层特征序列(h1,h2,...,hT)计算目标向量,所述目标向量用于对所述高层特征序列(h1,h2,...,hT)进行压缩;
步骤3、所述解码网络根据所述高层特征序列(h1,h2,...,hT)和所述目标向量计算待识别语音每个位置上所有音素的后验概率以得到概率序列(y1,y2,...,yO),yO表示待识别语音经所述解码网络输出后在位置o上所有音素的后验概率;
其中,所述编码网络包括前向网络和后向网络,所述前向网络和所述后向网络均由基于最少门单元MGU结构的多层循环神经网络组成。
2.根据权利要求1所述的方法,其特征在于,所述解码网络由基于MGU的循环神经网络和maxout网络串联组成。
3.根据权利要求1所述的方法,其特征在于,所述步骤1具体包括:
步骤11、所述前向网络根据式(1)
计算时刻t下第c层前向循环神经网络的隐含层状态
步骤12、所述后向网络根据式(2)
计算时刻t下第c层后向循环神经网络的隐含层状态
步骤13、根据所述第c层前向循环神经网络的隐含层状态和所述第c层后向循环神经网络的隐含层状态得到所述编码网络在时刻t高层特征ht,其中t∈[1,T]。
4.根据权利要求1所述的方法,其特征在于,所述步骤2具体包括:
步骤21、所述注意力网络根据前一位置注意力系数αo-1,t确定注意力网络的窗函数wo,t;
步骤22、根据所述窗函数和所述前一位置注意力系数αo-1,t确定前一位置元素yo-1与时刻t高层特征ht之间的关联度eo,t;
步骤23、所述注意力网络根据所述关联度eo,t和所述高层特征序列(h1,h2,...,hT)确定目标向量。
5.根据权利要求2所述的方法,其特征在于,所述步骤3具体包括:
步骤31、所述解码网络根据所述目标向量按照式(19)
so=MGU(so-1,cto) (19)
计算解码网络的隐含层状态so,其中cto表示目标向量;
步骤32、所述解码网络根据所述解码网络的隐含层状态so按照式(20)和式(21)
计算位置o上音素i的后验概率hi maxout,其中k为maxout网络每个隐含层单元的候选单元数,W:,i,j∈Rd×m×k和bi,j∈Rm×k分别为maxout网络的参数矩阵和偏置向量,d为maxout网络的隐含层单元数,m为maxout网络的输出层单元数;
步骤33、所述maxout网络根据式(22)
yo=[h1 maxout,h2 maxout,...,hm maxout] (22)
确定所述yO。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810702540.2A CN108630199A (zh) | 2018-06-30 | 2018-06-30 | 一种声学模型的数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810702540.2A CN108630199A (zh) | 2018-06-30 | 2018-06-30 | 一种声学模型的数据处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108630199A true CN108630199A (zh) | 2018-10-09 |
Family
ID=63689493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810702540.2A Pending CN108630199A (zh) | 2018-06-30 | 2018-06-30 | 一种声学模型的数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108630199A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109509484A (zh) * | 2018-12-25 | 2019-03-22 | 科大讯飞股份有限公司 | 一种婴儿啼哭原因的预测方法及装置 |
CN109545201A (zh) * | 2018-12-15 | 2019-03-29 | 中国人民解放军战略支援部队信息工程大学 | 基于深层混合因子分析的声学模型的构建方法 |
CN110211568A (zh) * | 2019-06-03 | 2019-09-06 | 北京大牛儿科技发展有限公司 | 一种语音识别方法及装置 |
CN110335592A (zh) * | 2019-06-28 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110739003A (zh) * | 2019-10-23 | 2020-01-31 | 北京计算机技术及应用研究所 | 基于多头自注意力机制的语音增强方法 |
CN110797018A (zh) * | 2019-08-28 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置、介质和设备 |
CN110875035A (zh) * | 2019-10-24 | 2020-03-10 | 广州多益网络股份有限公司 | 新型多任务联合的语音识别训练架构和方法 |
CN111179918A (zh) * | 2020-02-20 | 2020-05-19 | 中国科学院声学研究所 | 联结主义时间分类和截断式注意力联合在线语音识别技术 |
CN111696525A (zh) * | 2020-05-08 | 2020-09-22 | 天津大学 | 一种基于Kaldi的中文语音识别声学模型构建方法 |
CN111933115A (zh) * | 2020-10-12 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备以及存储介质 |
CN112464999A (zh) * | 2020-11-19 | 2021-03-09 | 深圳大学 | 一种混合气体种类与浓度识别方法、装置及存储介质 |
CN112652300A (zh) * | 2020-12-24 | 2021-04-13 | 百果园技术(新加坡)有限公司 | 多方言语音识别方法、装置、设备和存储介质 |
CN113488029A (zh) * | 2021-06-23 | 2021-10-08 | 中科极限元(杭州)智能科技股份有限公司 | 基于参数共享非自回归语音识别训练解码方法及系统 |
CN113505611A (zh) * | 2021-07-09 | 2021-10-15 | 中国人民解放军战略支援部队信息工程大学 | 在生成对抗中获得更好的语音翻译模型的训练方法和系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110002481A1 (en) * | 2009-07-02 | 2011-01-06 | Oki Semiconductor Co., Ltd. | Audio signal amplitude adjusting device and method |
CN104795063A (zh) * | 2015-03-20 | 2015-07-22 | 中国人民解放军信息工程大学 | 一种基于声学空间非线性流形结构的声学模型构建方法 |
CN106108942A (zh) * | 2016-06-21 | 2016-11-16 | 四川大学 | 基于OpenCL的并行ARFI成像方法 |
CN106297773A (zh) * | 2015-05-29 | 2017-01-04 | 中国科学院声学研究所 | 一种神经网络声学模型训练方法 |
CN106469560A (zh) * | 2016-07-27 | 2017-03-01 | 江苏大学 | 一种基于无监督域适应的语音情感识别方法 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
US20180012613A1 (en) * | 2016-07-11 | 2018-01-11 | The Chinese University Of Hong Kong | Phonetic posteriorgrams for many-to-one voice conversion |
CN107781046A (zh) * | 2016-08-24 | 2018-03-09 | 通用汽车环球科技运作有限责任公司 | 用于可变发动机和电动机声音控制的系统和方法 |
-
2018
- 2018-06-30 CN CN201810702540.2A patent/CN108630199A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110002481A1 (en) * | 2009-07-02 | 2011-01-06 | Oki Semiconductor Co., Ltd. | Audio signal amplitude adjusting device and method |
CN104795063A (zh) * | 2015-03-20 | 2015-07-22 | 中国人民解放军信息工程大学 | 一种基于声学空间非线性流形结构的声学模型构建方法 |
CN106297773A (zh) * | 2015-05-29 | 2017-01-04 | 中国科学院声学研究所 | 一种神经网络声学模型训练方法 |
CN106108942A (zh) * | 2016-06-21 | 2016-11-16 | 四川大学 | 基于OpenCL的并行ARFI成像方法 |
US20180012613A1 (en) * | 2016-07-11 | 2018-01-11 | The Chinese University Of Hong Kong | Phonetic posteriorgrams for many-to-one voice conversion |
CN106469560A (zh) * | 2016-07-27 | 2017-03-01 | 江苏大学 | 一种基于无监督域适应的语音情感识别方法 |
CN107781046A (zh) * | 2016-08-24 | 2018-03-09 | 通用汽车环球科技运作有限责任公司 | 用于可变发动机和电动机声音控制的系统和方法 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
Non-Patent Citations (3)
Title |
---|
DZMITRY BAHDANAU,ET AL.: "End-to-end attention-based large vocabulary speech recognition", 《2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》 * |
J.CHOROWSKIET AL: "Attention-Based Models for Speech Recognition", 《NIPS 2014 DEEP LEARNING WORKSHOP》 * |
龙星延等: "采用最少门单元结构的改进注意力声学模型", 《信号处理》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109545201A (zh) * | 2018-12-15 | 2019-03-29 | 中国人民解放军战略支援部队信息工程大学 | 基于深层混合因子分析的声学模型的构建方法 |
CN109509484A (zh) * | 2018-12-25 | 2019-03-22 | 科大讯飞股份有限公司 | 一种婴儿啼哭原因的预测方法及装置 |
CN110211568A (zh) * | 2019-06-03 | 2019-09-06 | 北京大牛儿科技发展有限公司 | 一种语音识别方法及装置 |
CN110335592A (zh) * | 2019-06-28 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110797018A (zh) * | 2019-08-28 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置、介质和设备 |
CN110797018B (zh) * | 2019-08-28 | 2022-03-25 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置、介质和设备 |
CN110739003A (zh) * | 2019-10-23 | 2020-01-31 | 北京计算机技术及应用研究所 | 基于多头自注意力机制的语音增强方法 |
CN110739003B (zh) * | 2019-10-23 | 2022-10-28 | 北京计算机技术及应用研究所 | 基于多头自注意力机制的语音增强方法 |
CN110875035A (zh) * | 2019-10-24 | 2020-03-10 | 广州多益网络股份有限公司 | 新型多任务联合的语音识别训练架构和方法 |
CN111179918A (zh) * | 2020-02-20 | 2020-05-19 | 中国科学院声学研究所 | 联结主义时间分类和截断式注意力联合在线语音识别技术 |
CN111696525A (zh) * | 2020-05-08 | 2020-09-22 | 天津大学 | 一种基于Kaldi的中文语音识别声学模型构建方法 |
CN111933115A (zh) * | 2020-10-12 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备以及存储介质 |
WO2022078146A1 (zh) * | 2020-10-12 | 2022-04-21 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备以及存储介质 |
CN112464999A (zh) * | 2020-11-19 | 2021-03-09 | 深圳大学 | 一种混合气体种类与浓度识别方法、装置及存储介质 |
CN112652300A (zh) * | 2020-12-24 | 2021-04-13 | 百果园技术(新加坡)有限公司 | 多方言语音识别方法、装置、设备和存储介质 |
CN112652300B (zh) * | 2020-12-24 | 2024-05-17 | 百果园技术(新加坡)有限公司 | 多方言语音识别方法、装置、设备和存储介质 |
CN113488029A (zh) * | 2021-06-23 | 2021-10-08 | 中科极限元(杭州)智能科技股份有限公司 | 基于参数共享非自回归语音识别训练解码方法及系统 |
CN113488029B (zh) * | 2021-06-23 | 2024-06-11 | 中科极限元(杭州)智能科技股份有限公司 | 基于参数共享非自回归语音识别训练解码方法及系统 |
CN113505611A (zh) * | 2021-07-09 | 2021-10-15 | 中国人民解放军战略支援部队信息工程大学 | 在生成对抗中获得更好的语音翻译模型的训练方法和系统 |
CN113505611B (zh) * | 2021-07-09 | 2022-04-15 | 中国人民解放军战略支援部队信息工程大学 | 在生成对抗中获得更好的语音翻译模型的训练方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108630199A (zh) | 一种声学模型的数据处理方法 | |
CN109272990B (zh) | 基于卷积神经网络的语音识别方法 | |
CN110211574B (zh) | 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN108052512B (zh) | 一种基于深度注意力机制的图像描述生成方法 | |
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN111241294B (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
CN111274398B (zh) | 一种方面级用户产品评论情感分析方法及系统 | |
CN110083831A (zh) | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 | |
CN107562784A (zh) | 基于ResLCNN模型的短文本分类方法 | |
CN111291556B (zh) | 基于实体义项的字和词特征融合的中文实体关系抽取方法 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN111143563A (zh) | 基于bert与lstm及cnn融合的文本分类方法 | |
CN106909537B (zh) | 一种基于主题模型和向量空间的一词多义分析方法 | |
CN110134946A (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN111653275B (zh) | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 | |
CN109192199A (zh) | 一种结合瓶颈特征声学模型的数据处理方法 | |
CN113204611A (zh) | 建立阅读理解模型的方法、阅读理解方法及对应装置 | |
CN110276396B (zh) | 基于物体显著性和跨模态融合特征的图片描述生成方法 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN111723572B (zh) | 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 | |
CN108461080A (zh) | 一种基于hlstm模型的声学建模方法和装置 | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN113806543B (zh) | 一种基于残差跳跃连接的门控循环单元的文本分类方法 | |
CN113191150B (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181009 |
|
RJ01 | Rejection of invention patent application after publication |