CN116386609A

CN116386609A - 一种中英混合语音识别方法

Info

Publication number: CN116386609A
Application number: CN202310399570.1A
Authority: CN
Inventors: 徐慧; 余伟超; 王惠荣; 吴一凡
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-07-04

Abstract

本发明涉及语音处理技术领域，尤其涉及一种中英混合语音识别方法，包括：步骤S1、对中英混合音频通过预处理得到声学特征，利用Conformer模型分别对中英文特征部分嵌入相对位置信息进行编码学习，接着将编码学习后的特征混合输入到解码器部分；步骤S2、使用预训练生成模型的解码器部分作为GPT‑Decoder解码器，同时由GPT‑Decoder解码器、联结时序分类CTC模块及长短时记忆循环神经网络LSTM‑RNNLM模型组成联合解码器；其中，联结时序分类CTC模块和长短时记忆循环神经网络LSTM‑RNNLM模型辅助GPT‑Decoder解码器进行解码。本发明中的编码器部分引入Conformer模型作为中英双编码器，替换传统的Transformer编码器。本发明中的解码器部分采用联合解码器形式代替原有单一的解码器结构，有效提高中英混合语音识别的准确率和效率。

Description

一种中英混合语音识别方法

技术领域

本发明涉及语音处理技术领域，尤其涉及一种中英混合语音识别方法。

背景技术

中英混合语音识别是指在同一段语音中混合了中文和英文的情况下进行语音识别的技术。中英混合语音识别的挑战主要来自于两个方面：一是语音信号的多样性，中英文的语音信号在声学特征上存在差异，如音高、音色、语速等；二是语言模型的建立，中英文的语法和词汇表也存在差异，如词序、词性、语法规则等。

为了解决中英混合语音识别的挑战，研究者们提出了许多方法。其中，一种常见的方法是使用双语言混合模型，即将两种语言的语音信号和语言模型混合在一起进行识别。这种方法可以提高识别准确率，但需要大量的训练数据和计算资源。另一种方法是使用语音信号的特征进行识别。研究者们发现中英文的语音信号在声学特征上存在差异。因此，可以通过对语音信号的特征进行分析和提取，来区分中英文的语音信号。这种方法可以减少对语言模型的依赖，但需要更加精细的特征提取和分类算法。除了以上两种方法，还有一些其他的方法，如使用深度学习算法进行语音识别、使用语音分割和对齐技术进行语音识别等。这些方法都在不同程度上解决了混合语种语音识别的挑战，但仍需要进一步的研究和改进。总之，中英混合语音识别是一个具有挑战性的问题，但也是一个具有广泛应用前景的领域。应该继续研究探索更加精细的特征提取和分类算法，以及更加高效的语言模型建立方法和新的模块结构，以提高中英混合语音识别的准确率和效率。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种中英混合语音识别方法，能够有效提高中英混合语音识别的准确率和效率。

为了实现上述目的，本发明采用了如下技术方案：

一种中英混合语音识别方法，具体步骤如下：

步骤S1、对中英混合音频通过预处理得到声学特征，利用Conformer模型分别对中英文特征部分嵌入相对位置信息进行编码学习，接着将编码学习后的特征混合输入到解码器部分；

步骤S2、使用预训练生成模型的解码器部分作为GPT-Decoder解码器，同时由GPT-Decoder解码器、联结时序分类CTC模块及长短时记忆循环神经网络LSTM-RNNLM模型组成联合解码器；其中，联结时序分类CTC模块和长短时记忆循环神经网络LSTM-RNNLM模型辅助GPT-Decoder解码器进行解码。

优选地，在步骤S1中，利用Conformer模型将预处理后的声学特征同步训练出两个各自独立的中文编码器和英文编码器，训练的同时结合各自语种的位置信息编码。

优选地，在步骤S2中，将各自训练的语种编码器输出的序列加上语种位置信息作为联合解码器的输入。

优选地，在步骤S2中，所述联结时序分类CTC模块负责序列解码的对齐任务，长短时记忆循环神经网络LSTM-RNNLM模型负责辅助GPT-Decoder解码器适应变长输入序列的解码。

优选地，在步骤S2中，GPT-Decoder解码器先对输入序列进行无监督的预训练，同时利用联结时序分类CTC模块对解码序列进行对齐操作。

优选地，在步骤S2中，GPT-Decoder解码器进行有监督的微调，同时长短时记忆循环神经网络LSTM-RNNLM模型辅助GPT-Decoder解码器进行解码输出识别后的文本序列。

与现有技术相比，本发明具有以下有益效果：

1、本发明的编码器部分中使用Conformer模型作为编码器，通过引入多层卷积模块提取更深层次的特征信息，降低了序列长度，进而减少模型的复杂度，有利于模型的快速训练和收敛。在编码器部分中采用联合解码的架构，采用CTC和LSTM-RNNLM模型辅助GPT-Decoder对序列化输入进行解码，相当程度上加快了模型的推理速度。

2、本发明的LSTM-RNNLM模型的RNN结构可以将过去的信息传递到当前时刻，解决了上下文依赖的问题，使得模型更能适应变长序列输入的解码；而多个LSTM单元网络可以通过门机制来控制信息的流动，从而避免梯度消失问题。

附图说明

图1为本发明的流程图；

图2为本发明中单层Conformer模型编码器的构造图；

图3为本发明中GPT模型解码器的结构图；

图4为本发明中LSTM-RNNLM模型的结构图。

具体实施方式

下面结合附图将对本发明实施例中的技术方案进行清楚、完整地描述，以使本领域的技术人员能够更好的理解本发明的优点和特征，从而对本发明的保护范围做出更为清楚的界定。本发明所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1-4，一种中英混合语音识别方法，具体步骤如下：

S1：采用TALCS中英混合音频集作为训练数据集，先对音频数据进行预处理、提取声学特征，然后借助Conformer模型作为中英双编码器对输入特征结合位置信息进行序列化编码，如图1中混合编码器所示；

S101：对中英混合音频进行预滤波和信号转换、预加重、分帧、加窗和端点检测等预处理操作，然后提取声学特征；

S102：利用12层连续的Conformer块结构分别对中英文语种特征结合位置信息进行编码操作。Conformer块结构如图2所示，一个Conformer块结构包括：前馈网络模块、多头自注意力模块、卷积模块、第二个前馈网络模块。图2四次残差连接数学表示如下：

其中FFN指的是前馈网络模块；MHSA代表的是多头自注意力机制模块；Conv是卷积模块；Layernorm表示层归一化；x_i、

x′_i、x″_i表示中间输出，y_i表示最终输出。

S2：语种编码器输出的序列加上语种位置信息作为输入。利用联合解码器对输入序列进行解码操作，其中CTC模块负责序列解码的对齐任务，LSTM-RNNLM模块则负责辅助GPT-Decoder适应变长输入序列的解码，解决上下文依赖问题。

S201：GPT解码器先对输入序列进行无监督的预训练，同时利用CTC模块对解码序列进行对齐操作。GPT解码器采用12组双层的Transformer结构如图3所示，用数学表示为：

其中U(u_-k，...，u_-1)是当前时间片的上下文token，n是层数，W_e是词嵌入矩阵，W_p是位置嵌入矩阵，P(u)表示候选词u的概率，softmax为归一化。

GPT的无监督预训练是基于语言模型进行训练的，这里语言模型使用LSTM-RNNLM模型，由512个如图4所示的单元结构组成。给定一个无标签的序列

语言模型的优化目标是最大化下面的似然值：

其中是k滑动窗口的大小，P是条件概率，Θ是模型的参数。这些参数利用随机梯度下降算法(Stochastic Gradient Descent，SGD)进行优化。

S202：做完无监督的预训练后，然后进行有监督的微调。对于一个有标签的数据集

每个实例有m个输入token：{x¹，...，x^m}，组成标签序列。首先将这些token输入到训练好的预训练模型中，得到最终的特征向量/>

然后再通过一个全连接层得到预测结果y：

其中W_y为全连接层的参数。

此时语言模型优化目标为：

但是这里不直接使用损失函数L₂，而是向其中加入了L₁，并使用λ进行两个任务权值的调整，这样可以更好统一整合音频特征序列，从而提高模型的泛化能力。λ的值取0.5：

当进行有监督微调的时候，只需训练输出层的W_y和分隔符的嵌入值，一定程度上减少了运算开支，有利于缩短模型训练时间。

综上所述，本发明中的编码器部分引入Conformer模型作为中英双编码器，替换传统的Transformer编码器；解码器部分采用GPT-Decoder解码器、联结时序分类CTC模块及长短时记忆循环神经网络LSTM-RNNLM模型组成联合解码器形式代替原有单一的解码器结构，有效提高中英混合语音识别的准确率和效率。

本发明中披露的说明和实践，对于本技术领域的普通技术人员来说，都是易于思考和理解的，且在不脱离本发明原理的前提下，还可以做出若干改进和润饰。因此，在不偏离本发明精神的基础上所做的修改或改进，也应视为本发明的保护范围。

Claims

1.一种中英混合语音识别方法，其特征在于，具体步骤如下：

2.根据权利要求1所述的一种中英混合语音识别方法，其特征在于，在步骤S1中，利用Conformer模型将预处理后的声学特征同步训练出两个各自独立的中文编码器和英文编码器，训练的同时结合各自语种的位置信息编码。

3.根据权利要求2所述的一种中英混合语音识别方法，其特征在于，在步骤S2中，将各自训练的语种编码器输出的序列加上语种位置信息作为联合解码器的输入。

4.根据权利要求1所述的一种中英混合语音识别方法，其特征在于，在步骤S2中，所述联结时序分类CTC模块负责序列解码的对齐任务，长短时记忆循环神经网络LSTM-RNNLM模型负责辅助GPT-Decoder解码器适应变长输入序列的解码。

5.根据权利要求4所述的一种中英混合语音识别方法，其特征在于，在步骤S2中，GPT-Decoder解码器先对输入序列进行无监督的预训练，同时利用联结时序分类CTC模块对解码序列进行对齐操作。

6.根据权利要求5所述的一种中英混合语音识别方法，其特征在于，在步骤S2中，GPT-Decoder解码器进行有监督的微调，同时长短时记忆循环神经网络LSTM-RNNLM模型辅助GPT-Decoder解码器进行解码输出识别后的文本序列。