CN112967720B

CN112967720B - 少量重口音数据下的端到端语音转文本模型优化方法

Info

Publication number: CN112967720B
Application number: CN202110129725.0A
Authority: CN
Inventors: 赵雨嫣
Original assignee: Nanjing Digang Science And Technology Co ltd
Current assignee: Nanjing Digang Science And Technology Co ltd
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2022-12-30
Anticipated expiration: 2041-01-29
Also published as: CN112967720A

Abstract

本发明公开了少量重口音数据下的端到端语音转文本模型优化方法，包括以下步骤，所述端到端语音识别模型LAS的构建；根据少量重口音数据的声学特点，设计并构造基于注意力机制的序列到序列的端到端声学模型LAS；这些优点使其能够大大简化语音识别模型的构建和训练，并提升语音识别准确率；与已有的端到端模型相比，本发明所提出的少量重口音数据下的端到端语音转文本模型优化方法仅需要标注少量的重口音语音数据即可完成重口音场景下的模型训练，该发明将已有的普通话语音特征知识迁移到重口语音模型中，能够显著提升重口音场景下的语音识别准确率；该模型能够利用现有的大规模普通话语音语料，能够有效降低重口音语音语料的获取和标注的成本。

Description

少量重口音数据下的端到端语音转文本模型优化方法

技术领域

本发明涉及人工智能技术领域，具体为少量重口音数据下的端到端语音转文本模型优化方法。

背景技术

近年来，大词汇量连续语音识别(Large Vocabulary Continuous SpeechRecognition，LVCSR)随着深度学习的引入，取得了明显的识别性能突破。因此，深度语音识别方法也成为了语音识别领域热门的研究方法。在深度学习的影响下，基于深度神经网络和隐马尔可夫模型(Deep Neural Network-Hidden Markov Mode1，DNN-HMM)混合的语音识别方法显著增强了模型对音素状态的建模能力，大幅提升了语音识别的准确率。

随着深度序列建模技术的发展，端到端建模方法逐步成为了语音识别领域的研究热点。端到端的语音识别模型在简化语音识别流程的同时，在语音识别准确率上已经能够与基于混合模型的方法相媲美。然而，在语音识别的声学模型训练建模中，模型参数的学习往往需要非常多的有标注的语音数据，而资源较少的重口音语音识别通常是在资源稀少的情况下进行声学模型建模，由于有标注的语音数据比较匮乏，导致重口音场景下的语音识别效果较差，因此如何提升端到端模型在少量重口音语音数据下的建模能力成为了重要的研究课题；

尽管基于HMM系统的语音识别准确率能够达到相当高的水平，但是其繁琐的训练过程使该方法的易用性受到了很大限制。随着神经网络方法的快速发展，多数研究人员的研究方向由混合HMM模型转向了基于端到端的语音识别方法。现有的端到端语音识别系统主要包括基于连接时序分类(Connectionist Temporal Classification,CTC)模型的方法、基于循环神经网络的截断模型(Recurrent Neural Networks Transducer,RNN-T)方法以及基于注意力机制的序列到序列的模型(Sequence-to-Sequence,Seq2Seq)方法三类。语音问题实际上可以理解为从语音序列到文本序列的序列转换问题，其难点在于输入序列长度远大于输出序列长度，模型往往需要学习语音和文本的对齐关系。

发明内容

本发明的目的可以通过以下技术方案实现：少量重口音数据下的端到端语音转文本模型优化方法，包括以下步骤，所述端到端语音识别模型LAS的构建；根据少量重口音数据的声学特点，设计并构造基于注意力机制的序列到序列的端到端声学模型LAS。

优选的，所构建的端到端声学模型主要由编码器模块、注意力模块和解码器模块三部分构成；其中，编码器模块用于学习和挖掘语音特征序列的上下文关联信息，从原始特征中提取高层信息，增强特征的区分度和表征能力；注意力模块用于学习编码器模块和解码器模块之间的关联度；解码器模块对输入的高层语义特征进行解码，再结合激活函数计算得到序列每个位置上各个音素出现的后验概率。

优选的，常用大规模普通话语音识别模型的训练；首先，使用已有的已标注的大规模普通话语料对权利要求1中所构建的端到端语音识别模型进行训练，得到普通话数据下的通用端到端语音识别模型。

优选的，少量重口音语音数据下的模型优化；针对标准普通话语音数据下训练得到的通用语音识别模型，使用少量重口音语音数据对其进行优化。

优选的，少量重口音数据下的模型训练；首先，冻结编码器模块的模型参数，即固定编码器模块在普通话语料下训练得到的模型参数；其次，使用少量重口音数据对注意力模块和解码器模块进行优化，即使用少量重口音语音数据对模型注意力模块和解码器模块参数进行微调，使其适应重口音语音特征的空间分布；最后，训练得到少量重口音数据下的端到端语音转文本模型。

优选的，重口音场景下的语音解码。首先，使用束搜索解码技术对重口音语音识别模型进行解码搜索，得到声学模型分数；然后，使用已有的大规模语言模型对搜索得到的解码路径进行语言模型分数计算；最后，使用语言模型分数对声学模型分数进行重打分，得到解码搜索最终的分数，由该分数计算得到重口音语音对应的解码文本。

少量重口音数据下的端到端语音转文本模型优化方法，包括以下步骤：

S1，所述端到端声学模型LAS结构主要由编码器网络、注意力层和解码器网络构成；

编码器由一层包含512个神经节点的BLSTM和3层金字塔双向长短时记忆网络(pyramid Bidirectional Long-Short Term Memory,pBLSTM)构成。对于输入的声学特征序列X＝[x₁,x₂,...,x_n,...,x_N]，x_n为声学特征第n个位置的特征向量，将该特征序列作为长短时记忆网络层(Long-Short Term Memory,LSTM)的输入特征，通过公式(1)～(5)可计算得到LSTM对应的输出序列h＝(h₁,h₂,…,h_n,…,h_N)；

f_n＝σ(W_fx_n+U_fh_n-1+b_f)\*MERGEFORMAT(1)

i_n＝σ(W_ix_n+U_ih_n-1+b_i)\*MERGEFORMAT(2)

o_n＝σ(W_ox_n+U_oh_n-1+b_o)\*MERGEFORMAT(3)

其中，f_n，i_n，o_n和c_n分别表示输入门、遗忘门、输出门和记忆单元第n步的激活向量，σ是Sigmoid激活函数，W_f和U_f、W_i和U_i、W_o和U_o、W_c和U_c分别是输入门、遗忘门、输出门和记忆单元的权重矩阵；b_f、b_i、b_o、b_c分别是输入门、遗忘门、输出门和记忆单元的偏置向量；x_n为第n个时间步的输入特征；h_n-1为第n-1个时间步的输出特征；tanh是激活函数；

为哈达玛(Hadamard)积运算符号；

在LAS的编码器中，使用双向长短时记忆网络(Bidirectional Long-Short TermMemory,BLSTM)对输入的序列特征X进行时序关系建模，其形式化表示如公式(6)所示；

同时使用非线性激活可以得到最终的隐向量

N个时间步的输出序列共同组成上下文相关的高层语义特征

在BLSTM层之后堆叠了三层pBLSTM层，pBLSTM层的计算方式如公式(7)所示；

由于每个时间步的输出特征对于语音转文本任务来说并不都是同等重要的；因此，引入上下文依赖的注意力机制可以使模型专注于序列中上下文相关语义显著特征的学习，从而提升模型推理的准确率。对于解码器输出的中间层语义特征H＝(h₁,h₂,…,h_u,…,h_U)，注意力层首先计算序列中第i个时间步输出特征H对应的权重α_i,u，计算方式如公式(8)～(9)所示；

上下文依赖的语义特征c_i是输入序列的加权之和，是对一段语音整体语义的表征，其加权求和的方法如公式(10)所示；

解码器网络由两层各包含512个神经节点的单向LSTM网络构成，其形式化表示如公式(11)～(12)所示；

s_i＝LSTM(s_i-1,y_i-1,c_i-1)\*MERGEFORMAT(11)

P(y_i|x,y_＜i)＝MLP(s_i,c_i)\*MERGEFORMAT(12)；

S2，常用大规模标准普通话语音模型训练。本发明构建的LAS模型的编码器、注意力层和解码器可以进行端到端联合训练，其目标函数如公式(13)所示；

其中，θ_e、θ_a、θ_d分别为LAS的编码器模块、注意力模块、解码器模块的模型参数；

表示第i个时间步之前时间步字符的真实标记；

S3，少量重口音模型优化；在获得大规模普通话语音识别模型后，使用少量重口音语音数据对其进行优化；首先，冻结模型中编码器模块的参数；然后，使用少量的重口音语音数据对注意力模块和解码器模块进行微调。通过少量的重口音数据即可完成模型对重口音语音特征的适应，从而能够有效提升端到端语音模型对重口音语音的转写准确率。与所述步骤S2相同，重口音模型优化同样采用端到端的优化方式，其形式化表示如公式(14)所示；

S4，重口音模型解码和重打分；由于基于贪心的解码策略每次都在当前位置直接取最优路径，不能保证生成整个序列的概率是最优的。此外，在实际的应用中，词表一般都很大，在有限的搜索时间内无法完成所有可能路径的解码搜索。因此，在实际的应用中，一般采用束搜索(Beam Search)的方法进行语音解码。同时，为了引入语音模型对解码结果进行校正，该技术中引入了语言模型对搜索出的路径进行重打分，其形式化表达如公式(15)所示；

优选的，所述BLSTM的隐向量表征分别来自正向和反向LSTM(使用

和

表示)，每层LSTM的隐藏层节点数为512；所述MLP为带有Softmax激活函数的全连接神经网络，其输出是建模单元的后验概率。

优选的，所述exp为以自然常数e为底的指数函数，φ、

为带有可训练参数的全连接神经网络。

优选的，所述|y|_c表示字符个数；logP_LM(y)表示语言模型分数；λ表示语言模型分数权重，可由验证集确定。实际应用中的解码搜索采用Beam数为32的束搜索，语言模型分数权重λ为0.008；

所述θ_a、θ_d分别为LAS的注意力模块、解码器模块的模型参数；

表示第i个时间步之前时间步字符的真实标记。

本发明的有益效果：

1、本发明提出的方法仅需少量(50小时)重口音标注数据就可对已有端到端语音转文本模型进行优化，从而缓解现有技术重口音语音识别效果差的问题；

2、本发明直接将输入的声学特征序列映射到文本结果序列，不需要进一步处理即可实现语音转写；

3、本发明仅需要标注少量的重口音语音数据即可完成重口音场景下的模型训练，能够将已有的普通话语音特征知识迁移到重口语音模型中，从而提升重口音场景下的语音识别准确率；

4、与基于混合隐马尔可夫模型的语音识别方法相比，少量重口音数据下的端到端语音转文本模型能够将多个模块联合组成一个网络进行端到端模型训练。合并多个模块的好处在于，无需分步设计多个模块即可实现各种中间状态之间的映射。联合优化使端到端模型可以使用与最终评估标准高度相关的函数作为全局优化目标，从而寻求全局最优结果；

5、模型直接将输入的声学特征序列映射到文本结果序列，不需要进一步处理即可实现语音转写。这些优点使其能够大大简化语音识别模型的构建和训练，并提升语音识别准确率；

6、与已有的端到端模型相比，本发明所提出的少量重口音数据下的端到端语音转文本模型优化方法仅需要标注少量的重口音语音数据即可完成重口音场景下的模型训练，该发明将已有的普通话语音特征知识迁移到重口语音模型中，能够显著提升重口音场景下的语音识别准确率；

7、该模型能够利用现有的大规模普通话语音语料，能够有效降低重口音语音语料的获取和标注的成本。

附图说明

下面结合附图对本发明作进一步的说明。

图1少量重口音数据下的端到端语音转文本模型优化方法流程示意图；

图2端到端语音转文本模型结构示意图；

图3少量重口音语音模型优化方法。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1-3，本发明提供技术方案：少量重口音数据下的端到端语音转文本模型优化方法，包括以下步骤，所述端到端语音识别模型LAS的构建；根据少量重口音数据的声学特点，设计并构造基于注意力机制的序列到序列的端到端声学模型LAS。

所构建的端到端声学模型主要由编码器模块、注意力模块和解码器模块三部分构成；其中，编码器模块用于学习和挖掘语音特征序列的上下文关联信息，从原始特征中提取高层信息，增强特征的区分度和表征能力；注意力模块用于学习编码器模块和解码器模块之间的关联度；解码器模块对输入的高层语义特征进行解码，再结合激活函数计算得到序列每个位置上各个音素出现的后验概率。

常用大规模普通话语音识别模型的训练；首先，使用已有的已标注的大规模普通话语料对权利要求1中所构建的端到端语音识别模型进行训练，得到普通话数据下的通用端到端语音识别模型。

少量重口音语音数据下的模型优化；针对标准普通话语音数据下训练得到的通用语音识别模型，使用少量重口音语音数据对其进行优化。

少量重口音数据下的模型训练；首先，冻结编码器模块的模型参数，即固定编码器模块在普通话语料下训练得到的模型参数；其次，使用少量重口音数据对注意力模块和解码器模块进行优化，即使用少量重口音语音数据对模型注意力模块和解码器模块参数进行微调，使其适应重口音语音特征的空间分布；最后，训练得到少量重口音数据下的端到端语音转文本模型。

重口音场景下的语音解码。首先，使用束搜索解码技术对重口音语音识别模型进行解码搜索，得到声学模型分数；然后，使用已有的大规模语言模型对搜索得到的解码路径进行语言模型分数计算；最后，使用语言模型分数对声学模型分数进行重打分，得到解码搜索最终的分数，由该分数计算得到重口音语音对应的解码文本。

编码器由一层包含512个神经节点的BLSTM和3层金字塔双向长短时记忆网络(pyramid Bidirectional Long-Short Term Memory,pBLSTM)构成。对于输入的声学特征序列X＝[x₁,x₂,...,x_n,...,x_N]，x_n为声学特征第n个位置的特征向量，将该特征序列作为长短时记忆网络层(Long-Short Term Memory,LSTM)的输入特征，通过公式(1)～(5)可计算得到LSTM对应的输出序列h＝(h₁,h₂,...,h_n,...,h_N)；

f_n＝σ(W_fx_n+U_fh_n-1+b_f)\*MERGEFORMAT(1)

i_n＝σ(W_ix_n+U_ih_n-1+b_i)\*MERGEFORMAT(2)

o_n＝σ(W_ox_n+U_oh_n-1+b_o)\*MERGEFORMAT(3)

为哈达玛(Hadamard)积运算符号；

同时使用非线性激活可以得到最终的隐向量

N个时间步的输出序列共同组成上下文相关的高层语义特征

s_i＝LSTM(s_i-1,y_i-1,c_i-1)\*MERGEFORMAT(11)

P(y_i|x,y_＜i)＝MLP(s_i,c_i)\*MERGEFORMAT(12)；

表示第i个时间步之前时间步字符的真实标记；

所述BLSTM的隐向量表征分别来自正向和反向LSTM(使用

和

所述exp为以自然常数e为底的指数函数，φ、

为带有可训练参数的全连接神经网络。

所述|y|_c表示字符个数；logP_LM(y)表示语言模型分数；λ表示语言模型分数权重，可由验证集确定。实际应用中的解码搜索采用Beam数为32的束搜索，语言模型分数权重λ为0.008；

表示第i个时间步之前时间步字符的真实标记。

该技术流程示意图如图1所示。首先，针对现有的大量普通话语料构建端到端语音转文本模型；其次，使用大规模普通话语料对构建的端到端模型进行训练，得到通用语音识别模型；然后，使用标注的少量的重口音语音数据对通用语音识别模型进行优化，通过微调模型参数，使其适应重口音语音数据的特征分布，从而得到针对重口音语音识别的端到端模型；最后，使用得到的重口音模型进行语音识别推理，能够显著提升重口音语音转文本的转写准确率。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

Claims

1.少量重口音数据下的端到端语音转文本模型优化方法,其特征在于，包括以下步骤：

S1，端到端声学模型LAS结构主要由编码器网络、注意力层和解码器网络构成；

编码器由一层包含512个神经节点的BLSTM和3层金字塔双向长短时记忆网络(pyramidBidirectional Long-Short Term Memory,pBLSTM)构成；对于输入的声学特征序列X＝[x₁,x₂,...,x_n,...,x_N]，x_n为声学特征第n个位置的特征向量，将该特征序列作为长短时记忆网络层(Long-Short Term Memory,LSTM)的输入特征，通过公式(1)～(5)可计算得到LSTM对应的输出序列h＝(h₁,h₂,…,h_n,…,h_N)；

f_n＝σ(W_fx_n+U_fh_n-1+b_f) (1)

i_n＝σ(W_ix_n+U_ih_n-1+b_i) (2)

o_n＝σ(W_ox_n+U_oh_n-1+b_o) (3)

为哈达玛(Hadamard)积运算符号；

同时使用非线性激活可以得到最终的隐向量

N个时间步的输出序列共同组成上下文相关的高层语义特征

所述BLSTM的隐向量表征分别来自正向和反向LSTM使用

和

表示，每层LSTM的隐藏层节点数为512；MLP为带有Softmax激活函数的全连接神经网络，其输出是建模单元的后验概率；

由于每个时间步的输出特征对于语音转文本任务来说并不都是同等重要的；因此，引入上下文依赖的注意力机制可以使模型专注于序列中上下文相关语义显著特征的学习，从而提升模型推理的准确率；对于解码器输出的中间层语义特征H＝(h₁,h₂,...,h_u,...,h_U)，注意力层首先计算序列中第i个时间步输出特征H对应的权重α_i,u，计算方式如公式(8)～(9)所示；

所述exp为以自然常数e为底的指数函数，φ、

为带有可训练参数的全连接神经网络；

s_i＝LSTM(s_i-1,y_i-1,c_i-1) (11)

P(y_i|x,y_＜i)＝MLP(s_i,c_i) (12)；

S2，常用大规模标准普通话语音模型训练；本发明构建的LAS模型的编码器、注意力层和解码器可以进行端到端联合训练，其目标函数如公式(13)所示；

表示第i个时间步之前时间步字符的真实标记；

S3，少量重口音模型优化；在获得大规模普通话语音识别模型后，使用少量重口音语音数据对其进行优化；首先，冻结模型中编码器模块的参数；然后，使用少量的重口音语音数据对注意力模块和解码器模块进行微调；通过少量的重口音数据即可完成模型对重口音语音特征的适应，从而能够有效提升端到端语音模型对重口音语音的转写准确率；与所述步骤S2相同，重口音模型优化同样采用端到端的优化方式，其形式化表示如公式(14)所示；

S4，重口音模型解码和重打分；由于基于贪心的解码策略每次都在当前位置直接取最优路径，不能保证生成整个序列的概率是最优的；此外，在实际的应用中，词表一般都很大，在有限的搜索时间内无法完成所有可能路径的解码搜索；因此，在实际的应用中，一般采用束搜索(Beam Search)的方法进行语音解码；同时，为了引入语音模型对解码结果进行校正，引入了语言模型对搜索出的路径进行重打分，其形式化表达如公式(15)所示；

所述|y|_c表示字符个数；logP_LM(y)表示语言模型分数；λ表示语言模型分数权重，可由验证集确定；实际应用中的解码搜索采用Beam数为32的束搜索，语言模型分数权重λ为0.008。