CN113808581A

CN113808581A - 一种声学和语言模型训练及联合优化的中文语音识别方法

Info

Publication number: CN113808581A
Application number: CN202110943687.2A
Authority: CN
Inventors: 熊海良; 刘凯; 朱维红; 周洪超; 周斌; 周智伟; 许玉丹
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2021-12-17
Anticipated expiration: 2041-08-17
Also published as: CN113808581B

Abstract

本发明公开了一种声学和语言模型训练及联合优化的中文语音识别方法，分别对声学模型和预训练语言模型进行训练，将得到的声学模型和预训练语言模型的输出特征同时输入联合优化网络，训练得到声学模型与语言模型联合优化的中文语音识别算法，然后输入语音经过上述处理获得最终的识别结果。本发明采用预训练语言模型训练、声学模型与语言模型联合优化训练的方式，将大量语音训练转变为部分语音训练与大量易于得到中文语料训练，降低了训练难度，还可以根据特殊场景中文训练语料训练定制语音情景，增大了特定场景中文语音识别的适用性，且通过联合优化网络充分利用声学和语言特征信息，解决了输出之间无关联问题，极大的提高了模型整体的识别效果。

Description

一种声学和语言模型训练及联合优化的中文语音识别方法

技术领域

本发明涉及中文语音处理技术领域，尤其是一种声学和语言模型训练及联合优化的中文语音识别方法。

背景技术

语音是人类最自然的交互方式。计算机发明之后让机器能够“听懂”人类的语言、理解语言含义，并能做出正确回答就成为了人们追求的目标。随着科学技术的不断发展，语音识别技术的出现使人类的这一理想得以实现。

现有技术中将CNN、RNN、LSTM等网络结构应用于语音识别，但是这些方法都需要大量的中文语音数据进行训练，存储和计算成本过高，且这些模型对于特征信息的提取仍然有待提高。此外，语音识别场景中的噪声、口音等因素，也在一定程度上影响着模型的准确率。

发明内容

为了克服现有技术中存在的上述问题，本发明提出一种声学和语言模型训练及联合优化的中文语音识别方法。

本发明解决其技术问题所采用的技术方案是：一种声学和语言模型训练及联合优化的中文语音识别方法，包括如下步骤：

步骤一，对声学模型进行训练；

步骤二，对预训练语言模型进行训练；

步骤三，将得到的声学模型输出特征与预训练语言模型的输出特征同时输入联合优化网络，通过训练得到网络权重与偏置，最后使用CTC损失函数得到模型预测值和训练样本之间的差异，将得到的损失信息利用后向传播算法计算梯度优化网络模型参数，训练得到声学模型与语言模型联合优化的中文语音识别算法；

步骤四，输入语音通过步骤一到步骤三输入训练好的模型，获得最终的识别结果。

声学模型的具体训练方法如下：

(1.1)对于输入训练语音，使用滤波器放大高频，随后通过窗长度为 25ms，步长为10ms的滑动窗口截取语音信号作为一帧，将得到的每帧信号进行短时傅里叶变换，得到语音信号的声谱图，将得到的声谱图经过mel-80滤波器组得到符合人耳听觉习惯的声谱，取log得到输入语音信号的80-channel Fbank特征；

(1.2)将步骤(1.1)中得到的80-channel Fbank特征通过AmPreNet网络进行预处理；

(1.3)AmPreNet输出的数据进入16层ConformerBlock进行解码。数据依次通过前馈神经网络、多头注意力层、卷积块、层归一化得到输出，层与层之间加入ResNet加速神经网络的收敛。

预训练语言模型的具体训练方法如下：

(2.1)对于输入的中文语料，首先根据汉字与拼音的映射关系建立语料库，然后通过one-hot编码转换为语料向量，语料向量进入LmPreNet，通过两层的前馈神经网络将网络原始输入映射到特征空间；

(2.2)处理后的中文语料特征向量输入LmFeatureMap网络；

(2.3)经过LmFeatureMap网络的数据进入LSTM网络模型进行解码，得到语言模型的特征输出信息。

上述的一种声学和语言模型训练及联合优化的中文语音识别方法，所述步骤(1.1)中使用的滤波器为Pre-Emphasis滤波器，滤波器公式如下：

x(n)′＝x(n)-λ*x(n-1)

所述短时傅里叶变换，公式如下：

其中，λ为0.97，

其中w(τ-t)为分析窗函数，公式如下：

将经过短时傅里叶变换的信号化为声谱图的公式如下：

其中NFFT设置为512。

上述的一种声学和语言模型训练及联合优化的中文语音识别方法，所述步骤(1.2)中的AmPreNet网络包含两层二维卷积层、一层全连接层、一层 Dropout层，二维卷积层的卷积核尺寸为3*3，步长为2*2，个数为32，激活函数为relu，padding设置为samepadding，Dropout的P_drop＝0.1。

上述的一种声学和语言模型训练及联合优化的中文语音识别方法，所述步骤(2.1)中建立语料库的具体方法为：首先将每条数据单独存储一行，根据训练数据的字出现的次数进行统计，去除词频在5以下的字，每个字给予一个ID，一一对应后建立词典。

上述的一种声学和语言模型训练及联合优化的中文语音识别方法，所述步骤(2.1)中LmPreNet神经网络含有1个嵌入层、2个全连接层、2个Dropout 层，所述嵌入层参数尺寸为[vocab_size,embed_size]，其中vocab_size为词典的大小，embed_size为一个one-hot向量嵌入后向量的长度，大小设置为300； 2个所述全连接层输出维度分别为300和150，其激活函数为relu函数；2个所述Dropout层的P_drop＝0.5。

上述的一种声学和语言模型训练及联合优化的中文语音识别方法，步骤(2.2)中，所述LmFeatureMap网络由膨胀卷积层、最大池化层、加性自注意力层、高速卷积层、前馈神经网络，所述膨胀卷积层由4个结构相同的 DilatedCNN Block构成，每个所述DilatedCNNBlock由膨胀步长为1、1、2 的3层DilatedCNN构成，所述DilatedCNN卷积核大小为3*3，步长为1*1，激活函数为relu，padding设置为samepadding；所述最大池化层是池化窗口大小为2，步长为1，padding为samepadding的一维池化层。

上述的一种声学和语言模型训练及联合优化的中文语音识别方法，所述步骤三中的联合优化网络由三层全连接层、tanh激活层与softmax构成，声学模型与语言模型输入分别流入全连接层，该全连接层输入维度为1024，随后将两个全连接层输出扩大一个维度，通过tanh激活层后流入第三层全连接层，该层输入维度与vocabulary大小相同，最后第三层全连接层输出流入softmax 做归一化后输出，该输出为联合优化网络输出，可表述为如下公式：

p(y)＝Softmax(z_t,u)

其中，LM(),AM()分别表示预训练语言模型与声学模型，

z_t,u,p(y)分别表示预训练语言模型、声学模型、联合优化网络、softmax层的输出。

本发明的有益效果是：

(1)本发明采用AmPreNet、16层ConformerBlock等模块构成声学模型，可以有效的将提取长序列依赖与提取局部特征相结合，从而获取更深层次的特征信息；

(2)本发明采用LmPreNet、LmFeatureMap、LSTM等模块构成语言模型，其中LmFeatureMap由膨胀卷积层(IDCNN)、最大池化层(Maxpool)、加性自注意力层(Addself-Attention)、高速卷积层(HighwayNet)、前馈神经网络(Feedforward)5个模块构成，膨胀卷积层(IDCNN)可以有效扩大卷积感受野，提取局部特征，加性自注意力层(Addself-Attention)可以有效提取到与当前输入关联性强的特征信息，投入更多的注意力资源所需要关注的目标的细节信息，并抑制其它无用信息，高速卷积层(HighwayNet)则可以解决多层深度神经网络的训练收敛慢问题；

(3)本发明采用预训练语言模型训练、声学模型与语言模型联合优化训练的方式，将大量语音训练转变为部分语音训练与大量易于得到中文语料训练，降低了训练难度与复杂度，还可以根据特殊场景中文训练语料训练定制语音情景，增大了特定场景中文语音识别的适用性，且通过联合优化网络充分利用声学和语言特征信息，解决了输出之间无关联问题，极大的提高了模型整体的识别效果。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1为本发明所公开的一种声学和语言模型训练及联合优化的中文语音识别方法流程示意图；

图2为AmPreNet网络结构示意图；

图3为ConformerBlock网络结构示意图；

图4为Convolution Module网络结构示意图；

图5为LmPreNet网络结构示意图；

图6为LmFeatureMap网络结构示意图；

图7为LSTM网络结构示意图；

图8为声学模型与预训练语言模型联合优化流程示意图。

具体实施方式

为使本领域技术人员更好的理解本发明的技术方案，下面结合附图和具体实施方式对本发明作详细说明。

本发明提供了一种声学模型与语言模型的训练与联合优化的中文语音识别方法，如图1所示，具体实施例如下：

一、声学模型训练

(1)对于输入训练语音，使用Pre-Emphasis滤波器放大高频。滤波器公式如下：

x(n)′＝x(n)-λ*x(n-1)

其中，设置λ为0.97。

随后通过窗长度为25ms，步长为10ms的滑动窗口截取语音信号作为一帧，然后对信号做短时傅里叶变换(STFT)，去除各维信号之间的相关性，将信号映射到低维空间，公式如下：

其中w(τ-t)为分析窗函数，公式如下：

将经过STFT的信号化为声谱图，其公式如下：

其中NFFT设置为512。

得到的声谱图经过mel-80滤波器组，这样可以对频谱进行平滑化，消除谐波的作用，突显原先语音的共振峰。其公式如下：

其中m设置为80。

经过滤波后得到符合人耳听觉习惯的声谱，取log得到输入语音信号的 80-channel Fbank特征。

(2)处理后的80-channelFbank特征通过AmPreNet网络进行预处理， AmPreNet网络如图2所示。所述AmPreNet网络包含两层二维卷积层、一层全连接层、一层Dropout，二维卷积层的卷积核尺寸为3*3，步长为2*2，个数为32，激活函数为relu，padding设置为samepadding，Dropout的P_drop＝0.1。输入进AmPreNet的特征向量首先进行卷积下采样，这样可以降低特征图的维度并且在训练时避免过拟合，得到的数据经过一层linear层与Dropout层输出。

(3)AmPreNet的输出数据进入16层ConformerBlock进行解码，如图3 所示。数据依次通过前馈神经网络(Feedforward)、多头自注意力层(Multi-head self attention)、卷积块(Convolution Module)、层归一化(Layernorm)后得到输出，层与层之间加入ResNet加速神经网络的收敛。所述前馈神经网络 (Feedforward)由一层LayerNorm、两层全连接层、两层Dropout层、一层 activation层构成，其中第一层全连接层输入维度为前馈神经网络 (Feedforward)输入维度的4倍，第二层全连接层输入维度与前馈神经网络(Feedforward)输入维度相同。激活层激活函数为swish_activation。两层 Dropout层的P_drop＝0.1。

其输出Y可由公式如下表示：

Y＝(X*sigmoid(β(XW₁+b₁)))W₂+b₂

其中β设置为0.3。W₁,W₂,b₁,b₂为两个全连接层的权重矩阵与偏置。

随后将前馈神经网络(Feedforward)输入与输出向量加入残差网络得到输出，其公式如下：

R_out＝FFN_in+λ*FFN_out

其中λ设置为0.5。

随后数据X进入多头自注意力层(Multi-head self attention)，通过线性变换得到查询向量矩阵Q，键向量矩阵K和值向量矩阵V，其公式如下：

Q＝W_qX

K＝W_kX

V＝W_vX

其中W_q,W_k,W_v分别为查询向量、键向量、值向量的权重矩阵。初始化方式为glorot_uniform。

然后根据注意力计算公式求出输出向量序列，其公式如下：

head(i)＝v_i*softmax(s(K,Q))

其中s(K,Q)为打分公式，其公式如下：

其中d_k设置为32。

最后得到多头自注意力层(Multi-head self attention)的输出，其公式如下：

Y＝Concat(head₁,…,head_h)W^o

其中h为head个数，设置为16。

多头自注意力层(Multi-head self attention)的输出进入卷积块(ConvolutionModule)提取特征，如图4所示。所述卷积块(Convolution Module)由2层归一化层、3层一维卷积层、1层激活层、一层Dropout、4层残差网络构成。 3层卷积层卷积核大小为1，步长为1，Padding为same padding，不同之处在于前2层卷积层卷积核个数为2*input_size，第三层与input_size相同，Dropout 层P_drop＝0.1，激活层激活函数为swish_activation。随后数据再经过一层前馈神经网络(Feedforward)得到ConformerBlock的输出。可将ConformerBlock输出表示成如下公式：

X′＝X+1/2FFN(X)

X″＝X′+1/2MHSA(X′)

X″′＝X″+1/2Conv(X″)

Y＝X″′+1/2LN(X″′)

其中FFN(),MHSA(),Conv(),LN()分别表示前馈神经网络(Feedforward)、多头自注意力层(Multi-head self attention)、卷积块(Convolution Module)、层归一化(Layernorm)。

二、预训练语言模型训练

(1)对于输入的中文语料，首先根据汉字与拼音的映射关系建立语料库。每条数据单独存储一行，其存储形式如下：id拼音汉字；

具体例子如下：

7788yigerenbuxiangde，fouzejiubiepashi。一_个_人__不_想____得_，否__ 则_就__别__怕_失__。

根据训练数据的字出现的次数进行统计，去除词频在5以下的字，每个字给予一个id一一对应后建立词典，然后通过one-hot编码转换为语料向量。语料向量进入LmPreNet，该模块如图5所示。所述LmPreNet神经网络含有1 个嵌入(embedding)层、2个全连接层、2个Dropout层；嵌入(embedding) 层张量参数大小为[vocab_size,embed_size]，其中vocab_size为词典的大小， embed_size为一个one-hot向量嵌入后向量的长度，其大小为300。所述2个全连接层输出维度分别为300、150；其激活函数为relu函数。所述2个Dropout 层的P_drop＝0.5；经过嵌入将高维稀疏的id类特征转换为稠密向量，然后通过两层的前馈神经网络将网络原始输入映射到特征空间。

(2)处理后的中文语料特征向量通过LmFeatureMap模块，如图6所示。所述LmFeatureMap网络由膨胀卷积层(IDCNN)、最大池化层(Maxpool)、加性自注意力层(Addself-Attention)、高速卷积层(HighwayNet)、前馈神经网络(Feedforward)5个模块构成，所述膨胀卷积层(IDCNN)为4个结构相同的DilatedCNN Block构成，每个DilatedCNNBlock由膨胀步长为1、1、 2的3层DilatedCNN构成，DilatedCNN卷积核大小为3*3、步长为1*1、激活函数为relu，padding设置为samepadding；所述最大池化层(Maxpool)是池化窗口大小为2、步长为1、padding为samepadding的一维池化层。输入向量X＝[x₁,x₂,…,x_n]经过上述模块后流入加性自注意力层(Addself-Attention)，该模块计算过程与声学模型训练步骤(3)大体相似。不同之处在于加性自注意力层(Addself-Attention)只采用了一个head，而且其打分公式如下所示：

s(K,Q)＝W_α*tanh(K+Q)

其中W_α是得分向量的权重矩阵，初始化方式为glorot_uniform。

对于输入语料向量X，可将LmFeatureMap模块的输出Y表述为以下公式：

X′＝Maxpool(IDCNN(X))

X″＝X′+ASAT(X′)

X″′＝HW(X″)

Y＝X″′+1/2FFN(X″′)

其中ASAT(),HW()分别代表Addself-Attention、HighwayNet。

LmFeatureMap模块通过膨胀卷积层(IDCNN)尽可能多提取到输入序列从local到context的完整特征信息、使用最大池化层(Maxpool)保证Conv 的局部不变性和时间维度的粒度、然后依次通过加性自注意力层 (Addself-Attention)、高速卷积层(HighwayNet)、前馈神经网络(Feedforward) 进行高层次特征的提取映射得到输出。在最大池化层(Maxpool)与高速卷积层(HighwayNet)之间加入ResNet加速神经网络的收敛。

(3)经过LmFeatureMap的数据进入LSTM网络模型进行解码，如图7 所示。该网络具有对时序数据建模和捕捉数据中时域相关性的强大能力，它可以被看作是一个由多个门组成的记忆结构。门可以允许或阻止信息沿着序列传递，从而捕获长期依赖关系，得到语言模型的特征输出信息。LSTM的公式如下所示：

其中，

是隐藏层l-1层在时刻t的隐藏状态，

是隐藏层l层在时刻t-1 的记忆单元，

分别是隐藏层l层的遗忘门权重矩阵、输入门权重矩阵、更新门权重矩阵、输出门权重矩阵，

分别是隐藏层l层的遗忘门偏差、输入门偏差、更新门偏差、输出门偏差。

(4)训练阶段采用损失函数为均方误差，通过Adam优化方式计算每个参数的自适应学习率，来优化目标函数的模型参数。θ^t是要优化的参数，而g_t是相应的梯度，则θ_t+1优化公式如下所示：

α_t＝r₁α_t-1+(1-r₁)g_t

α_t＝α_t/(1-r₁)

β_t＝β_t/(1-r₂)

其中，α_t和β_t分别是梯度的第一矩和第二矩，η是学习率，参数r₁，r₂和ε 分别设置为0.9，0.999，10^-8。

训练完成后得到预训练语言模型。

三、声学模型与语言模型的训练与联合优化

将得到的声学模型输出特征与预训练语言模型的输出特征同时输入联合优化网络，如图8所示。该联合优化网络由三层全连接层、tanh激活层与 softmax构成。声学模型与语言模型输入分别流入全连接层，该全连接层输入维度为1024，随后将两个全连接层输出扩大一个维度，通过tanh激活层后流入第三层全连接层，该层输入维度与词典大小相同。最后第三层全连接层输出流入softmax做归一化后输出通过训练得到其网络权重与偏置。可表述为如下公式：

p(y)＝Softmax(z_t,u)

其中，LM(),AM()分别表示预训练语言模型与声学模型，

最后使用CTC损失函数得到模型预测值和训练标签的差异。优化器采用 Adamax，此方法对学习率的上限提供了一个更简单的范围。其参数设置如下：

learning_rate:0.0001β1:0.9β2:0.98epsilon:0.000001

将得到的损失信息利用后向传播算法计算梯度优化网络模型参数。训练得到声学模型与语言模型联合优化的中文语音识别算法。

四、最后输入语音通过步骤一至步骤三输入训练好的模型，获得最终识别结果。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种声学和语言模型训练及联合优化的中文语音识别方法，其特征在于，包括如下步骤：

步骤一，对声学模型进行训练；

步骤二，对预训练语言模型进行训练；

声学模型的具体训练方法如下：

(1.1)对于输入训练语音，使用滤波器放大高频，随后通过窗长度为25ms，步长为10ms的滑动窗口截取语音信号作为一帧，将得到的每帧信号进行短时傅里叶变换，得到语音信号的声谱图，将得到的声谱图经过mel-80滤波器组得到符合人耳听觉习惯的声谱，取log得到输入语音信号的80-channel Fbank特征；

预训练语言模型的具体训练方法如下：

(2.2)处理后的中文语料特征向量输入LmFeatureMap网络；

2.根据权利要求1所述的一种声学和语言模型训练及联合优化的中文语音识别方法，其特征在于，所述步骤(1.1)中使用的滤波器为Pre-Emphasis滤波器，滤波器公式如下：

x(n)′＝x(n)-λ*x(n-1)

所述短时傅里叶变换，公式如下：

其中，λ为0.97，

其中w(τ-t)为分析窗函数，公式如下：

将经过短时傅里叶变换的信号化为声谱图的公式如下：

其中NFFT设置为512。

3.根据权利要求2所述的一种声学和语言模型训练及联合优化的中文语音识别方法，其特征在于，所述步骤(1.2)中的AmPreNet网络包含两层二维卷积层、一层全连接层、一层Dropout层，二维卷积层的卷积核尺寸为3*3，步长为2*2，个数为32，激活函数为relu，padding设置为samepadding，Dropout的P_drop＝0.1。

4.根据权利要求1所述的一种声学和语言模型训练及联合优化的中文语音识别方法，其特征在于，所述步骤(2.1)中建立语料库的具体方法为：首先将每条数据单独存储一行，根据训练数据的字出现的次数进行统计，去除词频在5以下的字，每个字给予一个ID，一一对应后建立词典。

5.根据权利要求4所述的一种声学和语言模型训练及联合优化的中文语音识别方法，其特征在于，所述步骤(2.1)中LmPreNet神经网络含有1个嵌入层、2个全连接层、2个Dropout层，所述嵌入层参数尺寸为[vocab_size,embed_size]，其中vocab_size为词典的大小，embed_size为一个one-hot向量嵌入后向量的长度，大小设置为300；2个所述全连接层输出维度分别为300和150，其激活函数为relu函数；2个所述Dropout层的P_drop＝0.5。

6.根据权利要求5所述的一种声学和语言模型训练及联合优化的中文语音识别方法，其特征在于，步骤(2.2)中，所述LmFeatureMap网络由膨胀卷积层、最大池化层、加性自注意力层、高速卷积层、前馈神经网络，所述膨胀卷积层由4个结构相同的DilatedCNN Block构成，每个所述DilatedCNN Block由膨胀步长为1、1、2的3层DilatedCNN构成，所述DilatedCNN卷积核大小为3*3，步长为1*1，激活函数为relu，padding设置为samepadding；所述最大池化层是池化窗口大小为2，步长为1，padding为samepadding的一维池化层。

7.根据权利要求6所述的一种声学和语言模型训练及联合优化的中文语音识别方法，其特征在于，所述步骤三中的联合优化网络由三层全连接层、tanh激活层与softmax构成，声学模型与语言模型输入分别流入全连接层，该全连接层输入维度为1024，随后将两个全连接层输出扩大一个维度，通过tanh激活层后流入第三层全连接层，该层输入维度与词典大小相同，最后第三层全连接层输出流入softmax做归一化后输出，该输出为联合优化网络输出，可表述为如下公式：

p(y)＝Softmax(z_t,u)

其中，LM(),AM()分别表示预训练语言模型与声学模型，