CN116486794A

CN116486794A - 一种中英混合语音识别方法

Info

Publication number: CN116486794A
Application number: CN202310386820.8A
Authority: CN
Inventors: 徐慧; 余伟超; 王惠荣; 吴一凡
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-07-25

Abstract

本发明涉及语音处理技术领域，具体涉及一种中英混合语音识别方法。本发明包括以下步骤：步骤S1、对中英混合音频通过预处理得到声学特征，利用Conformer模型分别对中英文特征部分嵌入相对位置信息进行编码学习，接着将编码学习后的特征混合输入到解码器部分；步骤S2、使用预训练生成模型的解码器部分作为GPT‑Decoder解码器，同时由GPT‑Decoder解码器、联结时序分类CTC模块及长短时记忆循环神经网络LSTM‑RNNLM模型组成联合解码器；其中，联结时序分类CTC模块和长短时记忆循环神经网络LSTM‑RNNLM模型辅助GPT‑Decoder解码器进行解码。本发明中的编码器部分引入Conformer模型作为中英双编码器，替换传统的Transformer编码器。本发明中的解码器部分采用联合解码器形式代替原有单一的解码器结构。

Description

一种中英混合语音识别方法

技术领域

本发明涉及语音处理技术领域，具体涉及一种中英混合语音识别方法。

背景技术

中英混合语音识别是指在同一段语音中混合了中文和英文的情况下进行语音识别的技术。中英混合语音识别的挑战主要来自于两个方面：一是语音信号的多样性，中英文的语音信号在声学特征上存在差异，如音高、音色、语速等；二是语言模型的建立，中英文的语法和词汇表也存在差异，如词序、词性、语法规则等。

为了解决中英混合语音识别的挑战，研究者们提出了许多方法。其中，一种常见的方法是使用双语言混合模型，即将两种语言的语音信号和语言模型混合在一起进行识别。这种方法可以提高识别准确率，但需要大量的训练数据和计算资源。另一种方法是使用语音信号的特征进行识别。研究者们发现中英文的语音信号在声学特征上存在差异。因此，可以通过对语音信号的特征进行分析和提取，来区分中英文的语音信号。这种方法可以减少对语言模型的依赖，但需要更加精细的特征提取和分类算法。除了以上两种方法，还有一些其他的方法，如使用深度学习算法进行语音识别、使用语音分割和对齐技术进行语音识别等。这些方法都在不同程度上解决了混合语种语音识别的挑战，但仍需要进一步的研究和改进。总之，中英混合语音识别是一个具有挑战性的问题，但也是一个具有广泛应用前景的领域。应该继续研究探索更加精细的特征提取和分类算法，以及更加高效的语言模型建立方法和新的模块结构，以提高中英混合语音识别的准确率和效率。

发明内容

为了克服上述现有技术的缺点，本发明提出了一种中英混合语音识别方法。

本发明所采用的技术方案是：一种中英混合语音识别方法，包括以下步骤：

步骤S1、对中英混合音频通过预处理得到声学特征，利用Conformer模型分别对中英文特征部分嵌入相对位置信息进行编码学习，接着将编码学习后的特征混合输入到解码器部分；

步骤S2、使用预训练生成模型的解码器部分作为GPT-Decoder解码器，同时由GPT-Decoder解码器、联结时序分类CTC模块及长短时记忆循环神经网络LSTM-RNNLM模型组成联合解码器；其中，联结时序分类CTC模块和长短时记忆循环神经网络LSTM-RNNLM模型辅助GPT-Decoder解码器进行解码。

作为本发明的优选技术方案：所述步骤S1中，用Conformer编码器将预处理后的声学特征同步训练出两个各自独立的中文编码器和英文编码器，训练的同时结合各自语种的位置信息编码。

作为本发明的优选技术方案：所述步骤S2中，把各自训练的语种编码器输出的序列加上语种位置信息作为联合解码器的输入。

作为本发明的优选技术方案：所述步骤S2中，所述联结时序分类CTC模块负责序列解码的对齐任务，长短时记忆循环神经网络LSTM-RNNLM模型负责辅助GPT-Decoder适应变长输入序列的解码。

作为本发明的优选技术方案：所述步骤S2中，GPT-Decoder解码器先对输入序列进行无监督的预训练，同时利用联结时序分类CTC模块对解码序列进行对齐操作。

作为本发明的优选技术方案：所述步骤S2中，GPT-Decoder解码器进行有监督的微调，同时LSTM-RNNLM模块辅助GPT-Decoder解码器进行解码输出识别后的文本序列。

与现有技术相比，本发明的有益效果为：

(1)本发明的编码器部分中使用Conformer模型作为编码器，通过引入多层卷积模块提取更深层次的特征信息，降低了序列长度，进而减少模型的复杂度，有利于模型的快速训练和收敛。在编码器部分中采用联合解码的架构，CTC和LSTM-RNNLM模型辅助GPT-Decoder对序列化输入进行解码，相当程度上加快了模型的推理速度。

(2)本发明的LSTM-RNNLM模型的RNN结构可以将过去的信息传递到当前时刻，解决了上下文依赖的问题，使得模型更能适应变长序列输入的解码；而多个LSTM单元网络可以通过门机制来控制信息的流动，从而避免梯度消失问题。

附图说明

图1是本发明的中英混合语音识别方法流程图；

图2是本发明的单层Conformer模型编码器构造图；

图3是本发明的GPT模型解码器结构图；

图4是本发明的LSTM-RNNLM模型结构图。

具体实施方式

下面结合附图详细的描述本发明的作进一步的解释说明，以使本领域的技术人员可以更深入地理解本发明并能够实施，但下面通过参考实例仅用于解释本发明，不作为本发明的限定。

如图1所示，本发明提出了一种中英混合语音识别方法，包括以下步骤：

S1:采用TALCS中英混合音频集作为训练数据集，先对音频数据进行预处理、提取声学特征，然后借助Conformer模型作为中英双编码器对输入特征结合位置信息进行序列化编码，如图1中混合编码器所示；

S101:对中英混合音频进行预滤波和信号转换、预加重、分帧、加窗和端点检测等预处理操作，然后提取声学特征。

S102:利用12层连续的Conformer块结构分别对中英文语种特征结合位置信息进行编码操作。Conformer块结构如图2所示，一个Conformer块结构包括：前馈网络模块、多头自注意力模块、卷积模块、第二个前馈网络模块。图2四次残差连接数学表示如下：

其中FFN指的是前馈网络模块；MHSA代表的就是多头自注意力机制模块；Conv是卷积模块；Layernorm表示层归一化；x_i、x′_i、x″_i表示中间输出，y_i表示最终输出。

S2:语种编码器输出的序列加上语种位置信息作为输入。利用联合解码器对输入序列进行解码操作，其中CTC模块负责序列解码的对齐任务，LSTM-RNNLM模块则负责辅助GPT-Decoder适应变长输入序列的解码，解决上下文依赖问题。

S201:GPT解码器先对输入序列进行无监督的预训练，同时利用CTC模块对解码序列进行对齐操作。GPT解码器采用12组双层的Transformer结构如图3所示，用数学表示为：

其中U＝(u_-k，...，u_-1)是当前时间片的上下文token，n是层数，W_e是词嵌入矩阵，W_p是位置嵌入矩阵，P(u)表示候选词u的概率，softmax为归一化。

GPT的无监督预训练是基于语言模型进行训练的，这里语言模型使用LSTM-RNNLM模型，由512个如图4所示的单元结构组成。给定一个无标签的序列u＝{u₁，…，u_n}，语言模型的优化目标是最大化下面的似然值：

其中是k滑动窗口的大小，P是条件概率，Θ是模型的参数。这些参数利用随机梯度下降算法(Stochastic Gradient Descent，SGD)进行优化。

S202:做完无监督的预训练后，然后进行有监督的微调。对于一个有标签的数据集每个实例有m个输入token：{x¹，...，xw}，组成标签序列。首先将这些token输入到训练好的预训练模型中，得到最终的特征向量/>然后再通过一个全连接层得到预测结果y：

其中W_y为全连接层的参数。

此时语言模型优化目标为：

但是这里不直接使用损失函数L₂，而是向其中加入了L₁，并使用λ进行两个任务权值的调整，这样可以更好统一整合音频特征序列，从而提高模型的泛化能力。λ的值取0.5：

当进行有监督微调的时候，只需训练输出层的W_y和分隔符的嵌入值，一定程度上减少了运算开支，有利于缩短模型训练时间。

本发明中的编码器部分引入Conformer模型作为中英双编码器，替换传统的Transformer编码器。

本发明中的解码器部分采用GPT-Decoder解码器、联结时序分类CTC模块及长短时记忆循环神经网络LSTM-RNNLM模型组成联合解码器形式代替原有单一的解码器结构。

以上所述的具体实施方案，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，所应理解的是，以上所述仅为本发明的具体实施方案而已，并非用以限定本发明的范围，任何本领域的技术人员，在不脱离本发明的构思和原则的前提下所做出的等同变化与修改，均应属于本发明保护的范围。

Claims

1.一种中英混合语音识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种中英混合语音识别方法，其特征在于，所述步骤S1中，用Conformer编码器将预处理后的声学特征同步训练出两个各自独立的中文编码器和英文编码器，训练的同时结合各自语种的位置信息编码。

3.根据权利要求1所述的一种中英混合语音识别方法，其特征在于，所述步骤S2中，把各自训练的语种编码器输出的序列加上语种位置信息作为联合解码器的输入。

4.根据权利要求1所述的一种中英混合语音识别方法，其特征在于，所述步骤S2中，所述联结时序分类CTC模块负责序列解码的对齐任务，长短时记忆循环神经网络LSTM-RNNLM模型负责辅助GPT-Decoder适应变长输入序列的解码。

5.根据权利要求1所述的一种中英混合语音识别方法，其特征在于，所述步骤S2中，GPT-Decoder解码器先对输入序列进行无监督的预训练，同时利用联结时序分类CTC模块对解码序列进行对齐操作。

6.根据权利要求1所述的一种中英混合语音识别方法，其特征在于，所述步骤S2中，GPT-Decoder解码器进行有监督的微调，同时LSTM-RNNLM模块辅助GPT-Decoder解码器进行解码输出识别后的文本序列。