CN113808581B - 一种声学和语言模型训练及联合优化的中文语音识别方法 - Google Patents
一种声学和语言模型训练及联合优化的中文语音识别方法 Download PDFInfo
- Publication number
- CN113808581B CN113808581B CN202110943687.2A CN202110943687A CN113808581B CN 113808581 B CN113808581 B CN 113808581B CN 202110943687 A CN202110943687 A CN 202110943687A CN 113808581 B CN113808581 B CN 113808581B
- Authority
- CN
- China
- Prior art keywords
- training
- layer
- model
- network
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 78
- 238000005457 optimization Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims description 28
- 238000013528 artificial neural network Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 15
- 239000000463 material Substances 0.000 claims description 10
- 239000000654 additive Substances 0.000 claims description 8
- 230000000996 additive effect Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 3
- 210000005069 ears Anatomy 0.000 claims description 2
- 238000009472 formulation Methods 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000011664 signaling Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 3
- 239000011159 matrix material Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种声学和语言模型训练及联合优化的中文语音识别方法,分别对声学模型和预训练语言模型进行训练,将得到的声学模型和预训练语言模型的输出特征同时输入联合优化网络,训练得到声学模型与语言模型联合优化的中文语音识别算法,然后输入语音经过上述处理获得最终的识别结果。本发明采用预训练语言模型训练、声学模型与语言模型联合优化训练的方式,将大量语音训练转变为部分语音训练与大量易于得到中文语料训练,降低了训练难度,还可以根据特殊场景中文训练语料训练定制语音情景,增大了特定场景中文语音识别的适用性,且通过联合优化网络充分利用声学和语言特征信息,解决了输出之间无关联问题,极大的提高了模型整体的识别效果。
Description
技术领域
本发明涉及中文语音处理技术领域,尤其是一种声学和语言模型训练及联合优化的中文语音识别方法。
背景技术
语音是人类最自然的交互方式。计算机发明之后让机器能够“听懂”人类的语言、理解语言含义,并能做出正确回答就成为了人们追求的目标。随着科学技术的不断发展,语音识别技术的出现使人类的这一理想得以实现。
现有技术中将CNN、RNN、LSTM等网络结构应用于语音识别,但是这些方法都需要大量的中文语音数据进行训练,存储和计算成本过高,且这些模型对于特征信息的提取仍然有待提高。此外,语音识别场景中的噪声、口音等因素,也在一定程度上影响着模型的准确率。
发明内容
为了克服现有技术中存在的上述问题,本发明提出一种声学和语言模型训练及联合优化的中文语音识别方法。
本发明解决其技术问题所采用的技术方案是:一种声学和语言模型训练及联合优化的中文语音识别方法,包括如下步骤:
步骤一,对声学模型进行训练;
步骤二,对预训练语言模型进行训练;
步骤三,将得到的声学模型输出特征与预训练语言模型的输出特征同时输入联合优化网络,通过训练得到网络权重与偏置,最后使用CTC损失函数得到模型预测值和训练样本之间的差异,将得到的损失信息利用后向传播算法计算梯度优化网络模型参数,训练得到声学模型与语言模型联合优化的中文语音识别算法;
步骤四,输入语音通过步骤一到步骤三输入训练好的模型,获得最终的识别结果。
声学模型的具体训练方法如下:
(1.1)对于输入训练语音,使用滤波器放大高频,随后通过窗长度为25ms,步长为10ms的滑动窗口截取语音信号作为一帧,将得到的每帧信号进行短时傅里叶变换,得到语音信号的声谱图,将得到的声谱图经过mel-80滤波器组得到符合人耳听觉习惯的声谱,取log得到输入语音信号的80-channel Fbank特征;
(1.2)将步骤(1.1)中得到的80-channel Fbank特征通过AmPreNet网络进行预处理;
(1.3)AmPreNet输出的数据进入16层ConformerBlock进行解码。数据依次通过前馈神经网络、多头注意力层、卷积块、层归一化得到输出,层与层之间加入ResNet加速神经网络的收敛。
预训练语言模型的具体训练方法如下:
(2.1)对于输入的中文语料,首先根据汉字与拼音的映射关系建立语料库,然后通过one-hot编码转换为语料向量,语料向量进入LmPreNet,通过两层的前馈神经网络将网络原始输入映射到特征空间;
(2.2)处理后的中文语料特征向量输入LmFeatureMap网络;
(2.3)经过LmFeatureMap网络的数据进入LSTM网络模型进行解码,得到语言模型的特征输出信息。
上述的一种声学和语言模型训练及联合优化的中文语音识别方法,所述步骤(1.1)中使用的滤波器为Pre-Emphasis滤波器,滤波器公式如下:
x(n)′=x(n)-λ*x(n-1)
所述短时傅里叶变换,公式如下:
其中,λ为0.97,
其中w(τ-t)为分析窗函数,公式如下:
将经过短时傅里叶变换的信号化为声谱图的公式如下:
其中NFFT设置为512。
上述的一种声学和语言模型训练及联合优化的中文语音识别方法,所述步骤(1.2)中的AmPreNet网络包含两层二维卷积层、一层全连接层、一层Dropout层,二维卷积层的卷积核尺寸为3*3,步长为2*2,个数为32,激活函数为relu,padding设置为samepadding,Dropout的Pdrop=0.1。
上述的一种声学和语言模型训练及联合优化的中文语音识别方法,所述步骤(2.1)中建立语料库的具体方法为:首先将每条数据单独存储一行,根据训练数据的字出现的次数进行统计,去除词频在5以下的字,每个字给予一个ID,一一对应后建立词典。
上述的一种声学和语言模型训练及联合优化的中文语音识别方法,所述步骤(2.1)中LmPreNet神经网络含有1个嵌入层、2个全连接层、2个Dropout层,所述嵌入层参数尺寸为[vocab_size,embed_size],其中vocab_size为词典的大小,embed_size为一个one-hot向量嵌入后向量的长度,大小设置为300;2个所述全连接层输出维度分别为300和150,其激活函数为relu函数;2个所述Dropout层的Pdrop=0.5。
上述的一种声学和语言模型训练及联合优化的中文语音识别方法,步骤(2.2)中,所述LmFeatureMap网络由膨胀卷积层、最大池化层、加性自注意力层、高速卷积层、前馈神经网络,所述膨胀卷积层由4个结构相同的DilatedCNN Block构成,每个所述DilatedCNNBlock由膨胀步长为1、1、2的3层DilatedCNN构成,所述DilatedCNN卷积核大小为3*3,步长为1*1,激活函数为relu,padding设置为samepadding;所述最大池化层是池化窗口大小为2,步长为1,padding为samepadding的一维池化层。
上述的一种声学和语言模型训练及联合优化的中文语音识别方法,所述步骤三中的联合优化网络由三层全连接层、tanh激活层与softmax构成,声学模型与语言模型输入分别流入全连接层,该全连接层输入维度为1024,随后将两个全连接层输出扩大一个维度,通过tanh激活层后流入第三层全连接层,该层输入维度与vocabulary大小相同,最后第三层全连接层输出流入softmax做归一化后输出,该输出为联合优化网络输出,可表述为如下公式:
p(y)=Softmax(zt,u)
其中,LM(),AM()分别表示预训练语言模型与声学模型,zt,u,p(y)分别表示预训练语言模型、声学模型、联合优化网络、softmax层的输出。
本发明的有益效果是:
(1)本发明采用AmPreNet、16层ConformerBlock等模块构成声学模型,可以有效的将提取长序列依赖与提取局部特征相结合,从而获取更深层次的特征信息;
(2)本发明采用LmPreNet、LmFeatureMap、LSTM等模块构成语言模型,其中LmFeatureMap由膨胀卷积层(IDCNN)、最大池化层(Maxpool)、加性自注意力层(Addself-Attention)、高速卷积层(HighwayNet)、前馈神经网络(Feedforward)5个模块构成,膨胀卷积层(IDCNN)可以有效扩大卷积感受野,提取局部特征,加性自注意力层(Addself-Attention)可以有效提取到与当前输入关联性强的特征信息,投入更多的注意力资源所需要关注的目标的细节信息,并抑制其它无用信息,高速卷积层(HighwayNet)则可以解决多层深度神经网络的训练收敛慢问题;
(3)本发明采用预训练语言模型训练、声学模型与语言模型联合优化训练的方式,将大量语音训练转变为部分语音训练与大量易于得到中文语料训练,降低了训练难度与复杂度,还可以根据特殊场景中文训练语料训练定制语音情景,增大了特定场景中文语音识别的适用性,且通过联合优化网络充分利用声学和语言特征信息,解决了输出之间无关联问题,极大的提高了模型整体的识别效果。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1为本发明所公开的一种声学和语言模型训练及联合优化的中文语音识别方法流程示意图;
图2为AmPreNet网络结构示意图;
图3为ConformerBlock网络结构示意图;
图4为Convolution Module网络结构示意图;
图5为LmPreNet网络结构示意图;
图6为LmFeatureMap网络结构示意图;
图7为LSTM网络结构示意图;
图8为声学模型与预训练语言模型联合优化流程示意图。
具体实施方式
为使本领域技术人员更好的理解本发明的技术方案,下面结合附图和具体实施方式对本发明作详细说明。
本发明提供了一种声学模型与语言模型的训练与联合优化的中文语音识别方法,如图1所示,具体实施例如下:
一、声学模型训练
(1)对于输入训练语音,使用Pre-Emphasis滤波器放大高频。滤波器公式如下:
x(n)′=x(n)-λ*x(n-1)
其中,设置λ为0.97。
随后通过窗长度为25ms,步长为10ms的滑动窗口截取语音信号作为一帧,然后对信号做短时傅里叶变换(STFT),去除各维信号之间的相关性,将信号映射到低维空间,公式如下:
其中w(τ-t)为分析窗函数,公式如下:
将经过STFT的信号化为声谱图,其公式如下:
其中NFFT设置为512。
得到的声谱图经过mel-80滤波器组,这样可以对频谱进行平滑化,消除谐波的作用,突显原先语音的共振峰。其公式如下:
其中m设置为80。
经过滤波后得到符合人耳听觉习惯的声谱,取log得到输入语音信号的80-channel Fbank特征。
(2)处理后的80-channelFbank特征通过AmPreNet网络进行预处理,AmPreNet网络如图2所示。所述AmPreNet网络包含两层二维卷积层、一层全连接层、一层Dropout,二维卷积层的卷积核尺寸为3*3,步长为2*2,个数为32,激活函数为relu,padding设置为samepadding,Dropout的Pdrop=0.1。输入进AmPreNet的特征向量首先进行卷积下采样,这样可以降低特征图的维度并且在训练时避免过拟合,得到的数据经过一层linear层与Dropout层输出。
(3)AmPreNet的输出数据进入16层ConformerBlock进行解码,如图3所示。数据依次通过前馈神经网络(Feedforward)、多头自注意力层(Multi-head self attention)、卷积块(Convolution Module)、层归一化(Layernorm)后得到输出,层与层之间加入ResNet加速神经网络的收敛。所述前馈神经网络(Feedforward)由一层LayerNorm、两层全连接层、两层Dropout层、一层activation层构成,其中第一层全连接层输入维度为前馈神经网络(Feedforward)输入维度的4倍,第二层全连接层输入维度与前馈神经网络(Feedforward)输入维度相同。激活层激活函数为swish_activation。两层Dropout层的Pdrop=0.1。
其输出Y可由公式如下表示:
Y=(X*sigmoid(β(XW1+b1)))W2+b2
其中β设置为0.3。W1,W2,b1,b2为两个全连接层的权重矩阵与偏置。
随后将前馈神经网络(Feedforward)输入与输出向量加入残差网络得到输出,其公式如下:
Rout=FFNin+λ*FFNout
其中λ设置为0.5。
随后数据X进入多头自注意力层(Multi-head self attention),通过线性变换得到查询向量矩阵Q,键向量矩阵K和值向量矩阵V,其公式如下:
Q=WqX
K=WkX
V=WvX
其中Wq,Wk,Wv分别为查询向量、键向量、值向量的权重矩阵。初始化方式为glorot_uniform。
然后根据注意力计算公式求出输出向量序列,其公式如下:
head(i)=vi*softmax(s(K,Q))
其中s(K,Q)为打分公式,其公式如下:
其中dk设置为32。
最后得到多头自注意力层(Multi-head self attention)的输出,其公式如下:
Y=Concat(head1,…,headh)Wo
其中h为head个数,设置为16。
多头自注意力层(Multi-head self attention)的输出进入卷积块(ConvolutionModule)提取特征,如图4所示。所述卷积块(Convolution Module)由2层归一化层、3层一维卷积层、1层激活层、一层Dropout、4层残差网络构成。3层卷积层卷积核大小为1,步长为1,Padding为same padding,不同之处在于前2层卷积层卷积核个数为2*input_size,第三层与input_size相同,Dropout层Pdrop=0.1,激活层激活函数为swish_activation。随后数据再经过一层前馈神经网络(Feedforward)得到ConformerBlock的输出。可将ConformerBlock输出表示成如下公式:
X′=X+1/2FFN(X)
X″=X′+1/2MHSA(X′)
X″′=X″+1/2Conv(X″)
Y=X″′+1/2LN(X″′)
其中FFN(),MHSA(),Conv(),LN()分别表示前馈神经网络(Feedforward)、多头自注意力层(Multi-head self attention)、卷积块(Convolution Module)、层归一化(Layernorm)。
二、预训练语言模型训练
(1)对于输入的中文语料,首先根据汉字与拼音的映射关系建立语料库。每条数据单独存储一行,其存储形式如下:id拼音汉字;
具体例子如下:
7788yigerenbuxiangde,fouzejiubiepashi。一_个_人__不_想____得_,否__则_就__别__怕_失__。
根据训练数据的字出现的次数进行统计,去除词频在5以下的字,每个字给予一个id一一对应后建立词典,然后通过one-hot编码转换为语料向量。语料向量进入LmPreNet,该模块如图5所示。所述LmPreNet神经网络含有1个嵌入(embedding)层、2个全连接层、2个Dropout层;嵌入(embedding)层张量参数大小为[vocab_size,embed_size],其中vocab_size为词典的大小,embed_size为一个one-hot向量嵌入后向量的长度,其大小为300。所述2个全连接层输出维度分别为300、150;其激活函数为relu函数。所述2个Dropout层的Pdrop=0.5;经过嵌入将高维稀疏的id类特征转换为稠密向量,然后通过两层的前馈神经网络将网络原始输入映射到特征空间。
(2)处理后的中文语料特征向量通过LmFeatureMap模块,如图6所示。所述LmFeatureMap网络由膨胀卷积层(IDCNN)、最大池化层(Maxpool)、加性自注意力层(Addself-Attention)、高速卷积层(HighwayNet)、前馈神经网络(Feedforward)5个模块构成,所述膨胀卷积层(IDCNN)为4个结构相同的DilatedCNN Block构成,每个DilatedCNNBlock由膨胀步长为1、1、2的3层DilatedCNN构成,DilatedCNN卷积核大小为3*3、步长为1*1、激活函数为relu,padding设置为samepadding;所述最大池化层(Maxpool)是池化窗口大小为2、步长为1、padding为samepadding的一维池化层。输入向量X=[x1,x2,…,xn]经过上述模块后流入加性自注意力层(Addself-Attention),该模块计算过程与声学模型训练步骤(3)大体相似。不同之处在于加性自注意力层(Addself-Attention)只采用了一个head,而且其打分公式如下所示:
s(K,Q)=Wα*tanh(K+Q)
其中Wα是得分向量的权重矩阵,初始化方式为glorot_uniform。
对于输入语料向量X,可将LmFeatureMap模块的输出Y表述为以下公式:
X′=Maxpool(IDCNN(X))
X″=X′+ASAT(X′)
X″′=HW(X″)
Y=X″′+1/2FFN(X″′)
其中ASAT(),HW()分别代表Addself-Attention、HighwayNet。
LmFeatureMap模块通过膨胀卷积层(IDCNN)尽可能多提取到输入序列从local到context的完整特征信息、使用最大池化层(Maxpool)保证Conv的局部不变性和时间维度的粒度、然后依次通过加性自注意力层(Addself-Attention)、高速卷积层(HighwayNet)、前馈神经网络(Feedforward)进行高层次特征的提取映射得到输出。在最大池化层(Maxpool)与高速卷积层(HighwayNet)之间加入ResNet加速神经网络的收敛。
(3)经过LmFeatureMap的数据进入LSTM网络模型进行解码,如图7所示。该网络具有对时序数据建模和捕捉数据中时域相关性的强大能力,它可以被看作是一个由多个门组成的记忆结构。门可以允许或阻止信息沿着序列传递,从而捕获长期依赖关系,得到语言模型的特征输出信息。LSTM的公式如下所示:
其中,是隐藏层l-1层在时刻t的隐藏状态,/>是隐藏层l层在时刻t-1的记忆单元,/>分别是隐藏层l层的遗忘门权重矩阵、输入门权重矩阵、更新门权重矩阵、输出门权重矩阵,/>分别是隐藏层l层的遗忘门偏差、输入门偏差、更新门偏差、输出门偏差。
(4)训练阶段采用损失函数为均方误差,通过Adam优化方式计算每个参数的自适应学习率,来优化目标函数的模型参数。θt是要优化的参数,而gt是相应的梯度,则θt+1优化公式如下所示:
αt=r1αt-1+(1-r1)gt
αt=αt/(1-r1)
βt=βt/(1-r2)
其中,αt和βt分别是梯度的第一矩和第二矩,η是学习率,参数r1,r2和ε分别设置为0.9,0.999,10-8。
训练完成后得到预训练语言模型。
三、声学模型与语言模型的训练与联合优化
将得到的声学模型输出特征与预训练语言模型的输出特征同时输入联合优化网络,如图8所示。该联合优化网络由三层全连接层、tanh激活层与softmax构成。声学模型与语言模型输入分别流入全连接层,该全连接层输入维度为1024,随后将两个全连接层输出扩大一个维度,通过tanh激活层后流入第三层全连接层,该层输入维度与词典大小相同。最后第三层全连接层输出流入softmax做归一化后输出通过训练得到其网络权重与偏置。可表述为如下公式:
p(y)=Softmax(zt,u)
其中,LM(),AM()分别表示预训练语言模型与声学模型,zt,u,p(y)分别表示预训练语言模型、声学模型、联合优化网络、softmax层的输出。
最后使用CTC损失函数得到模型预测值和训练标签的差异。优化器采用Adamax,此方法对学习率的上限提供了一个更简单的范围。其参数设置如下:
learning_rate:0.0001β1:0.9β2:0.98epsilon:0.000001
将得到的损失信息利用后向传播算法计算梯度优化网络模型参数。训练得到声学模型与语言模型联合优化的中文语音识别算法。
四、最后输入语音通过步骤一至步骤三输入训练好的模型,获得最终识别结果。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。
Claims (7)
1.一种声学和语言模型训练及联合优化的中文语音识别方法,其特征在于,包括如下步骤:
步骤一,对声学模型进行训练;
步骤二,对预训练语言模型进行训练;
步骤三,将得到的声学模型输出特征与预训练语言模型的输出特征同时输入联合优化网络,通过训练得到网络权重与偏置,最后使用CTC损失函数得到模型预测值和训练样本之间的差异,将得到的损失信息利用后向传播算法计算梯度优化网络模型参数,训练得到声学模型与语言模型联合优化的中文语音识别算法;
步骤四,输入语音通过步骤一到步骤三输入训练好的模型,获得最终的识别结果;
声学模型的具体训练方法如下:
(1.1)对于输入训练语音,使用滤波器放大高频,随后通过窗长度为25ms,步长为10ms的滑动窗口截取语音信号作为一帧,将得到的每帧信号进行短时傅里叶变换,得到语音信号的声谱图,将得到的声谱图经过mel-80滤波器组得到符合人耳听觉习惯的声谱,取log得到输入语音信号的80-channel Fbank特征;
(1.2)将步骤(1.1)中得到的80-channel Fbank特征通过AmPreNet网络进行预处理;
(1.3)AmPreNet输出的数据进入16层ConformerBlock进行解码;数据依次通过前馈神经网络、多头注意力层、卷积块、层归一化得到输出,层与层之间加入ResNet加速神经网络的收敛;
预训练语言模型的具体训练方法如下:
(2.1)对于输入的中文语料,首先根据汉字与拼音的映射关系建立语料库,然后通过one-hot编码转换为语料向量,语料向量进入LmPreNet,通过两层的前馈神经网络将网络原始输入映射到特征空间;
(2.2)处理后的中文语料特征向量输入LmFeatureMap网络;
(2.3)经过LmFeatureMap网络的数据进入LSTM网络模型进行解码,得到语言模型的特征输出信息。
2.根据权利要求1所述的一种声学和语言模型训练及联合优化的中文语音识别方法,其特征在于,所述步骤(1.1)中使用的滤波器为Pre-Emphasis滤波器,滤波器公式如下:
x(n)′=x(n)-λ*x(n-1)
所述短时傅里叶变换,公式如下:
其中,λ为0.97,
其中w(τ-t)为分析窗函数,公式如下:
将经过短时傅里叶变换的信号化为声谱图的公式如下:
其中NFFT设置为512。
3.根据权利要求2所述的一种声学和语言模型训练及联合优化的中文语音识别方法,其特征在于,所述步骤(1.2)中的AmPreNet网络包含两层二维卷积层、一层全连接层、一层Dropout层,二维卷积层的卷积核尺寸为3*3,步长为2*2,个数为32,激活函数为relu,padding设置为samepadding,Dropout的Pdrop=0.1。
4.根据权利要求1所述的一种声学和语言模型训练及联合优化的中文语音识别方法,其特征在于,所述步骤(2.1)中建立语料库的具体方法为:首先将每条数据单独存储一行,根据训练数据的字出现的次数进行统计,去除词频在5以下的字,每个字给予一个ID,一一对应后建立词典。
5.根据权利要求4所述的一种声学和语言模型训练及联合优化的中文语音识别方法,其特征在于,所述步骤(2.1)中LmPreNet神经网络含有1个嵌入层、2个全连接层、2个Dropout层,所述嵌入层参数尺寸为[vocab_size,embed_size],其中vocab_size为词典的大小,embed_size为一个one-hot向量嵌入后向量的长度,大小设置为300;2个所述全连接层输出维度分别为300和150,其激活函数为relu函数;2个所述Dropout层的Pdrop=0.5。
6.根据权利要求5所述的一种声学和语言模型训练及联合优化的中文语音识别方法,其特征在于,步骤(2.2)中,所述LmFeatureMap网络由膨胀卷积层、最大池化层、加性自注意力层、高速卷积层、前馈神经网络,所述膨胀卷积层由4个结构相同的DilatedCNN Block构成,每个所述DilatedCNN Block由膨胀步长为1、1、2的3层DilatedCNN构成,所述DilatedCNN卷积核大小为3*3,步长为1*1,激活函数为relu,padding设置为samepadding;所述最大池化层是池化窗口大小为2,步长为1,padding为samepadding的一维池化层。
7.根据权利要求6所述的一种声学和语言模型训练及联合优化的中文语音识别方法,其特征在于,所述步骤三中的联合优化网络由三层全连接层、tanh激活层与softmax构成,声学模型与语言模型输入分别流入全连接层,该全连接层输入维度为1024,随后将两个全连接层输出扩大一个维度,通过tanh激活层后流入第三层全连接层,该层输入维度与词典大小相同,最后第三层全连接层输出流入softmax做归一化后输出,该输出为联合优化网络输出,可表述为如下公式:
p(y)=Softmax(zt,u)
其中,LM(),AM()分别表示预训练语言模型与声学模型,zt,u,p(y)分别表示预训练语言模型、声学模型、联合优化网络、softmax层的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110943687.2A CN113808581B (zh) | 2021-08-17 | 2021-08-17 | 一种声学和语言模型训练及联合优化的中文语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110943687.2A CN113808581B (zh) | 2021-08-17 | 2021-08-17 | 一种声学和语言模型训练及联合优化的中文语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113808581A CN113808581A (zh) | 2021-12-17 |
CN113808581B true CN113808581B (zh) | 2024-03-12 |
Family
ID=78893707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110943687.2A Active CN113808581B (zh) | 2021-08-17 | 2021-08-17 | 一种声学和语言模型训练及联合优化的中文语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113808581B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114464182B (zh) * | 2022-03-03 | 2022-10-21 | 慧言科技(天津)有限公司 | 一种音频场景分类辅助的语音识别快速自适应方法 |
CN114822541B (zh) * | 2022-04-25 | 2024-06-04 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于回译的无声语音识别方法和系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109272988A (zh) * | 2018-09-30 | 2019-01-25 | 江南大学 | 基于多路卷积神经网络的语音识别方法 |
CN109272990A (zh) * | 2018-09-25 | 2019-01-25 | 江南大学 | 基于卷积神经网络的语音识别方法 |
CN109427328A (zh) * | 2017-08-28 | 2019-03-05 | 中国科学院声学研究所 | 一种基于滤波网络声学模型的多通道语音识别方法 |
WO2019212375A1 (ru) * | 2018-05-03 | 2019-11-07 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ получения дикторозависимых малоразмерных высокоуровневых акустических признаков речи |
CN111653275A (zh) * | 2020-04-02 | 2020-09-11 | 武汉大学 | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 |
CN111968629A (zh) * | 2020-07-08 | 2020-11-20 | 重庆邮电大学 | 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法 |
CN111986661A (zh) * | 2020-08-28 | 2020-11-24 | 西安电子科技大学 | 复杂环境下基于语音增强的深度神经网络语音识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11538463B2 (en) * | 2019-04-12 | 2022-12-27 | Adobe Inc. | Customizable speech recognition system |
-
2021
- 2021-08-17 CN CN202110943687.2A patent/CN113808581B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109427328A (zh) * | 2017-08-28 | 2019-03-05 | 中国科学院声学研究所 | 一种基于滤波网络声学模型的多通道语音识别方法 |
WO2019212375A1 (ru) * | 2018-05-03 | 2019-11-07 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ получения дикторозависимых малоразмерных высокоуровневых акустических признаков речи |
CN109272990A (zh) * | 2018-09-25 | 2019-01-25 | 江南大学 | 基于卷积神经网络的语音识别方法 |
CN109272988A (zh) * | 2018-09-30 | 2019-01-25 | 江南大学 | 基于多路卷积神经网络的语音识别方法 |
CN111653275A (zh) * | 2020-04-02 | 2020-09-11 | 武汉大学 | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 |
CN111968629A (zh) * | 2020-07-08 | 2020-11-20 | 重庆邮电大学 | 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法 |
CN111986661A (zh) * | 2020-08-28 | 2020-11-24 | 西安电子科技大学 | 复杂环境下基于语音增强的深度神经网络语音识别方法 |
Non-Patent Citations (1)
Title |
---|
基于CNN的扩展混合端到端中文语音识别模型;武阳;余综;;青岛科技大学学报(自然科学版);20200215(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113808581A (zh) | 2021-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Waibel | Modular construction of time-delay neural networks for speech recognition | |
CN105139864B (zh) | 语音识别方法和装置 | |
CN113808581B (zh) | 一种声学和语言模型训练及联合优化的中文语音识别方法 | |
Zerari et al. | Bidirectional deep architecture for Arabic speech recognition | |
Guiming et al. | Speech recognition based on convolutional neural networks | |
CN111009235A (zh) | 一种基于cldnn+ctc声学模型的语音识别方法 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
Venkateswarlu et al. | Speech recognition by using recurrent neural networks | |
CN111009236A (zh) | 一种基于dblstm+ctc声学模型的语音识别方法 | |
Zegers | Speech recognition using neural networks | |
Ying et al. | Design of speech emotion recognition algorithm based on deep learning | |
Wan | Research on speech separation and recognition algorithm based on deep learning | |
CN115472182A (zh) | 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 | |
Hajj et al. | Weighted entropy cortical algorithms for isolated Arabic speech recognition | |
Hu et al. | Speaker Recognition Based on 3DCNN-LSTM. | |
Hamdan et al. | Hybrid Arabic speech recognition system using FFT, fuzzy logic and neural network | |
Utomo et al. | Spoken word and speaker recognition using MFCC and multiple recurrent neural networks | |
Laksmi et al. | Configuring artificial neural network using optimisation techniques for speaker voice recognition | |
Zhou et al. | Sound Event Detection with Speech Interference Using Convolutional Recurrent Neural Networks | |
Mohanty et al. | Recognition of voice signals for Oriya language using wavelet neural network | |
Benkerzaz et al. | The contribution of the neural network to the improvement of speech recognition | |
Eng et al. | Malay speech recognition using self-organizing map and multilayer perceptron | |
He et al. | LSTM Based End-to-End Text-Independent Speaker Verification Using Raw Waveform | |
Sone et al. | Pre-training of DNN-based speech synthesis based on bidirectional conversion between text and speech | |
Hao et al. | A Speech Recognition Algorithm of Speaker-Independent Chinese Isolated Words Based on RNN-LSTM and Attention Mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |