CN112349288A

CN112349288A - 基于拼音约束联合学习的汉语语音识别方法

Info

Publication number: CN112349288A
Application number: CN202010988154.1A
Authority: CN
Inventors: 余正涛; 梁仁凤; 王振晗; 朱俊国; 高盛祥; 毛存礼
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2021-02-09

Abstract

本发明涉及基于拼音约束联合学习的汉语语音识别方法，属于自然语言处理技术领域。本发明首先从公开中文语料集中收集与语音、文本对应的拼音文本，其次通过共享编码器对语音特征编码，再以拼音语音识别为辅助任务，然后，在解码过程中利用拼音作为解码约束，基于共享编码器将拼音语音识别语汉语语音识别联合学习，引入一种更接近语音的归纳偏置，增强编码器对汉语语音的表达能力。本发明提出的基于拼音约束联合学习的汉语语音识别方法，对汉语的识别降低了词错率，为后续在汉语语音识别过程中融入拼音以及使用拼音纠错等工作提供强有力的支撑；缓解了端到端的模型对汉字的识别难以收敛的问题。

Description

基于拼音约束联合学习的汉语语音识别方法

技术领域

本发明涉及基于拼音约束联合学习的汉语语音识别方法，属于自然语言处理技术领域

背景技术

在自动语音识别领域，当前的语音识别模型在英语、法语等表音文字中已经取得很好的效果。然而，汉语是一种典型的表意文字，汉字与语音没有直接的对应关系，但拼音作为汉字读音的标注符号，与汉字存在相互转换的内在联系。将语音特征识别为音节(拼音)单元、再通过一个转换模型将拼音变换为汉字的级联方法存在错误传播，为了避免这种问题，汉字-拼音识别模型在训练时使用拼音帮助对汉字的识别，但是这种方法识别效果不佳，对此，基于音节(包含1400个拼音)的贪婪级联解码器模型，取得相对较好的效果。在汉语语音识别中，引入拼音作为对汉字解码的约束，能够促使模型学习更好的语音特征。因此，提出基于拼音约束联合学习的汉语语音识别方法，在汉语语音识别中引入拼音语音识别任务作为辅助任务联合训练，共同学习，相互促进。

发明内容

本发明提供了基于拼音约束联合学习的汉语语音识别方法，以用于在汉语语音识别总引入拼音作为对汉字解码的约束，能够促使模型学习更好的语音特征，缓解了当前系统对汉字识别难以收敛的问题。

本发明的技术方案是：基于拼音约束联合学习的汉语语音识别方法，首先从公开中文语料集data_aishell中收集与语音、文本对应的拼音文本，其次通过共享编码器对语音特征编码，再以拼音语音识别为辅助任务，然后，在解码过程中利用拼音作为解码约束，基于共享编码器将拼音语音识别语汉语语音识别联合学习，引入一种更接近语音的归纳偏置，增强编码器对汉语语音的表达能力。所述基于拼音约束联合学习的汉语语音识别方法具体步骤如下：

Step1、收集与语音、汉字文本相对应的拼音文本；在公开训练语料data_aishell上，收集与语音、汉字文本相对应的拼音文本，从而得到语音、汉语文本、拼音文本训练集、测试集和验证集。

Step2、共享编码器；共享编码器采用4层的卷积网络和5层的双向LSTM，双向LSTM每个方向有512个隐状态单元，在模型训练时，能同时感知到拼音、汉字的监督信号、从而引入一种更接近汉语语音的归纳偏置。

Step3、拼音语音识别；在解码过程中，拼音语音识别解码器基于共享编码器的输出状态，以前一时刻的输出和当前时刻的上下文向量作为当前时刻的输入进行解码，输出拼音。

Step4、基于拼音约束联合学习的汉字识别；以拼音语音识别为辅助任务，汉语语音识别为主要任务，拼音语音识别和汉语语音识别分别有一个解码器，训练时，模型的交叉熵是两个解码器分别计算损失后正则求和；反向传播时，编码器的参数被两个任务同时更新，两个任务共同促进的效果。

其中，模型共享一个编码器，编码器采用双向长短期记忆网络(Long Short TermMemory networks,LSTM)。共享编码器将语音信号特征x＝(x₁,x₂,...,x_T)作为输入，使用VGG对x抽取特征转为高纬的隐表征，输出为h＝(h₁,h₂,...,h_L)。这里T表示语音特征的帧索引，L为对语音特征下采样后的帧索引(L≤T)。编码器的编码过程表示为：

x＝(x₁,x₂,...,x_T)

拼音语音识别模型采用当前流行的基于注意力机制的编码器-解码器框架，编码过程如上所述。其中，解码器采用单向LSTM，以共享编码器的输出h作为输入，基于当前时刻t以前的输出标签序列，得到每一个t时刻预测拼音p标签y_pt的概率分布：

y_pt＝LSTM(h,y_p(1:t-1))

对于每一时间步t，基于所有的输入语音特征h和注意力机制权重a_t,l产生文本向量c_t：

这里的a_t,l通过softmax层计算：

e_t,l＝ω^Ttanh(Ws_t-1+Vh_l+Uf_t,l+b)

f_t＝F*a_t-1

这里，训练参数有ω、W、V、U和F，γ是模型的锐化因子，*表示一维卷积，f_t通过*与卷积参数F计算得出。

解码器使用c_t、前一时刻的输出标签y_p(t-1)和隐状态s_t-1生成当前时刻的隐状态s_t和预测拼音标签y_pt：

s_t＝LSTM(s_t-1,y_t-1,c_t)

y_pt～Generate(s_t,c_t)

这里LSTM代表单向循环神经网络，Generate代表前馈网络。

结合以上公式，拼音语音识别的损失函数可以通过以下公式计算:

L_p(h,y_p)＝-lnP(y_p|h)

这里拼音序列y_p＝(y_p1,y_p2,...y_pt)，其中t≤T。

基于拼音约束联合学习的汉字识别，以拼音语音识别为辅助任务，汉语语音识别为主要任务，拼音语音识别和汉语语音识别分别有一个解码器，基于共享编码器的输出h，汉字解码器同样以h作为输入，结合当前时刻t以前的输出标签序列，通过简单的前馈网络和一个softmax激活函数，得到每一个时刻t预测汉字c标签y_ct的概率分布P(y_c|h)，基于P(y_c|h)，汉字语音识别交差损失熵可以通过以下公式计算：

L_C(x,y_c)＝-lnP(y_c|h)

这里汉字序列y_c＝(y_c1,y_c2,...y_ct)。

在多任务学习框架下，本文模型的交叉熵通过拼音解码器和汉字解码分别计算损失后的正则求和联合训练。拼音语音识别作为辅助任务帮助模型对汉语的识别能力，与此同时，汉语语音识别促进模型对拼音监督信号的感知。反向传播时，通过共享编码器，能同时感知拼音和汉字的监督信号，编码器的参数被拼音语音识别和汉字语音识别同时更新，基于拼音语音识别联合学习的汉字识别交叉熵损失函数表示为

L_hybrid(h,y)＝λL(h,y_p)+(1-λ)L(h,y_c)

这里λ为模型可微调的超参数：λ∈(0,1)。

考虑CTC具有使模型快速收敛的优势，且不需要对输入序列和输出序列做一一标注和对齐。通常情况下，CTC与RNN结合，RNN作为编码器，对语音特征序列x抽取特征，编码器过程如上所述。CTC假设输出汉语标签之间条件独立，标签之间允许插入空白表示(-)，求不同时刻可能出现的标签路径π＝(π₁,π₂,...,π_T)的概率p(π/x)，通过基于所有可能标签路径序列π∈Φ(y')的概率p(π/x)分布，从而求得CTC负对数似然函数L_CTC。本文模型结合CTC，损失函数表示为：

L(h,y_c)＝(1-λ₁)L_hybrid(h,y)+λ₁L_CTC

这里λ₁为模型可微调的超参数：λ₁∈(0,1)

本发明的有益效果是：

1、本发明所述方法通过一个共享编码器，将拼音语音识别与汉语语音识别联合学习，有效的提高对汉字的识别效果，通过对比实验分析，结果表明本发明的方法均优于其他模型。

附图说明

图1为本发明中的总的流程图；

具体实施方式

实施例1：如图1所示，基于拼音约束联合学习的汉语语音识别方法，所述基于拼音约束联合学习的汉语语音识别方法的具体步骤如下：

Step1、收集与语音、汉字文本相对应的拼音文本；在公开训练语料data_aishell上，收集与语音、汉字文本相对应的拼音文本，从而得到语音、汉语文本、拼音文本训练集、测试集和验证集；

x＝(x₁,x₂,...,x_T)

y_pt＝LSTM(h,y_p(1:t-1))

这里的a_t,l通过softmax层计算：

e_t,l＝ω^Ttanh(Ws_t-1+Vh_l+Uf_t,l+b)

f_t＝F*a_t-1

s_t＝LSTM(s_t-1,y_t-1,c_t)

y_pt～Generate(s_t,c_t)

这里LSTM代表单向循环神经网络，Generate代表前馈网络。

L_p(h,y_p)＝-lnP(y_p|h)

这里拼音序列y_p＝(y_p1,y_p2,...y_pt)，其中t≤T。

L_C(x,y_c)＝-lnP(y_c|h)

这里汉字序列y_c＝(y_c1,y_c2,...y_ct)。

在多任务学习框架下，本文模型的交叉熵通过拼音解码器和汉字解码分别计算损失后的正则求和联合训练。拼音语音识别作为辅助任务帮助模型对汉语的识别能力，与此同时，汉语语音识别促进模型对拼音监督信号的感知。反向传播时，通过共享编码器，能同时感知拼音和汉字的监督信号，编码器的参数被拼音语音识别和汉字语音识别同时更新，基于拼音语音识别联合学习的汉字识别交叉熵损失函数表示为L_hybrid(h,y)＝λL(h,y_p)+(1-λ)L(h,y_c)

这里λ为模型可微调的超参数：λ∈(0,1)。

L(h,y_c)＝(1-λ₁)L_hybrid(h,y)+λ₁L_CTC

这里λ₁为模型可微调的超参数：λ₁∈(0,1)

其中，在模型参数设置时，设置的参数如下所示：

对于未登录字，使用特殊字符“UNK代替”，超参数λ,λ₁均设置为0.2时模型效果最好，dropout设为0.25。模型采用Adadelta算法进行优化，batch_size设置为16，共享编码器采用4层的卷积网络和5层的双向LSTM，双向LSTM每个方向有512个隐状态单元，两个解码器均是一个单层的有512个隐状态单元的LSTM，Attention机制使用location-awareattention。在词嵌入层，每个字表征为256纬的向量。拼音的字表大小为1214，汉语的字表大小为4500。

本发明使用词错误率作为模型的评价指标，词错误率简称WER(Word ErrorRate)，将模型预测的输出序列与监督信号序列进行比较，计算WER的公式：

这里S、D、I表示替换、删除和插入的字数，N为监督信号字序列的总字数，词错误率越低，说明方法越有有效。

为了验证本发明的有效性，实验中，将混合S2S+CTC语音识别系统、中文语音识别级联系统以及本发明进行比较。如表1所示。

表1本文模型对比基线模型的实验结果

从表1中可以看出：本文模型对比基线模型S2S+CTC在验证集上的WER值减少2.5个百分点，在测试集上的WER值减少2.24个百分点，说明了在当前的汉语语音识别中引入拼音语音识别作为辅助任务联合训练，增强了模型对汉字的表达能力，提高了模型的识别效果；对比级联系统，本文模型的识别效果在验证集上提高1.31个百分点，在测试集上提高1.05个百分点，说明了在对汉字的识别中引入拼音语音识别任务，本文的方法避免了级联系统导致的错误传播问题，很好地利用了拼音语音识别任务的优势，取得比级联系统更好的识别效果。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于拼音约束联合学习的汉语语音识别方法，其特征在于：所述方法包括：

Step1、收集与语音、汉字文本相对应的拼音文本；

Step2、通过共享编码器对语音特征编码；

Step3、拼音语音识别：在解码过程中利用拼音作为解码约束；

Step4、基于共享编码器将拼音语音识别语汉语语音识别联合学习进行汉字识别。

2.根据权利要求1所述的基于拼音约束联合学习的汉语语音识别方法，其特征在于：所述步骤Step1的具体步骤为：

Step1.1、在公开中文训练集中，收集与语音、汉语文本对应的拼音文本时，采用汉字转换拼音模型Pinyin2Hanzi进行转换，再根据音频索引编写处理语料小程序，得到语音、汉语文本、拼音文本两两对应的平行语料。

3.根据权利要求1所述的基于拼音约束联合学习的汉语语音识别方法，其特征在于：所述步骤Step2的具体步骤为：

Step2.1、共享编码器采用4层的卷积网络和5层的双向LSTM，双向LSTM每个方向有512个隐状态单元，在模型训练时，能同时感知到拼音、汉字的监督信号、从而引入一种更接近汉语语音的归纳偏置。

4.根据权利要求1所述的基于拼音约束联合学习的汉语语音识别方法，其特征在于：所述步骤Step3的具体步骤为：

Step3.1、在解码过程中，拼音语音识别解码器基于共享编码器的输出状态，以上一时刻的输出和当前时刻的上下文向量作为当前时刻的输入进行解码，输出拼音。

5.根据权利要求1所述的基于拼音约束联合学习的汉语语音识别方法，其特征在于：所述步骤Step4的具体步骤为：

Step4.1、在多任务学习框架下，以拼音语音识别为辅助任务，以汉语语音识别为主要任务，共享一个编码器，拼音语音识别和汉语语音识别分别有一个解码器，训练时，模型的交叉熵是两个解码器分别计算损失后正则求和；反向传播时，编码器的参数被两个任务同时更新，两个任务共同促进的效果。

6.根据权利要求1所述的基于拼音约束联合学习的汉语语音识别方法，其特征在于：所述步骤Step2中，共享一个编码器，编码器采用双向长短期记忆网络LSTM，共享编码器将语音信号特征x＝(x₁,x₂,...,x_T)作为输入，使用VGG对x抽取特征转为高纬的隐表征，输出为h＝(h₁,h₂,...,h_L)，这里T表示语音特征的帧索引，L为对语音特征下采样后的帧索引(L≤T)，编码器的编码过程表示为：

x＝(x₁,x₂,...,x_T)

拼音语音识别模型采用当前流行的基于注意力机制的编码器-解码器框架，编码过程如上所述，其中，解码器采用单向LSTM，以共享编码器的输出h作为输入，基于当前时刻t以前的输出标签序列，得到每一个t时刻预测拼音p标签y_pt的概率分布：

y_pt＝LSTM(h,y_p(1:t-1))

这里的a_t,l通过softmax层计算；

s_t＝LSTM(s_t-1,y_t-1,c_t)

y_pt～Generate(s_t,c_t)

这里LSTM代表单向循环神经网络，Generate代表前馈网络；

L_p(h,y_p)＝-ln P(y_p|h)

这里拼音序列y_p＝(y_p1,y_p2,...y_pt)，其中t≤T。

7.根据权利要求1所述的基于拼音约束联合学习的汉语语音识别方法，其特征在于：所述步骤Step4中：

L_C(x,y_c)＝-ln P(y_c|h)

这里汉字序列y_c＝(y_c1,y_c2,...y_ct)。

L_hybrid(h,y)＝λL(h,y_p)+(1-λ)L(h,y_c)

这里λ为模型可微调的超参数：λ∈(0,1)；

考虑CTC具有使模型快速收敛的优势，且不需要对输入序列和输出序列做一一标注和对齐，通常情况下，CTC与RNN结合，RNN作为编码器，对语音特征序列x抽取特征，CTC假设输出汉语标签之间条件独立，标签之间允许插入空白表示(-)，求不同时刻可能出现的标签路径π＝(π₁,π₂,...,π_T)的概率p(π/x)，通过基于所有可能标签路径序列π∈Φ(y')的概率p(π/x)分布，从而求得CTC负对数似然函数L_CTC，模型结合CTC，损失函数表示为：

L(h,y_c)＝(1-λ₁)L_hybrid(h,y)+λ₁L_CTC

这里λ₁为模型可微调的超参数：λ₁∈(0,1)。