CN117524193B

CN117524193B - 中英混合语音识别系统训练方法、装置、设备及介质

Info

Publication number: CN117524193B
Application number: CN202410021443.2A
Authority: CN
Inventors: 陈顺飞; 胡新辉; 徐欣康
Original assignee: Zhejiang Tonghuashun Intelligent Technology Co Ltd
Current assignee: Zhejiang Tonghuashun Intelligent Technology Co Ltd
Priority date: 2024-01-08
Filing date: 2024-01-08
Publication date: 2024-03-29
Anticipated expiration: 2044-01-08
Also published as: CN117524193A

Abstract

本申请公开了中英混合语音识别系统训练方法、装置、设备及介质，包括：获取中英文混合的训练集语料；利用预设文本翻译词典的中文词汇与翻译得到的英文词汇之间的对应关系对文本训练集进行编码处理，以得到编码后文本训练集；利用编码后文本训练集以及基于文本训练集中的文本句子类型对应的句子级别提示学习模板对初始中英混合语音识别模型进行迭代训练，得到目标中英混合语音识别模型；将与语音训练集中各语音训练数据的语音特征输入至目标中英文混合语音识别模型，以便进行解码推理，以获取中英混合语音识别系统。结合语音语境上下文信息以及文本翻译信息，在训练过程中进行模型效果优化，使得模型对于中英混杂句子中对英文句子的预测更加准确。

Description

中英混合语音识别系统训练方法、装置、设备及介质

技术领域

本发明涉及语音识别技术领域，特别涉及中英混合语音识别系统训练方法、装置、设备及介质。

背景技术

中英混合现象是指在说话过程中切换语言，主要包括句间转换和句内转换两种类型。这种现象给语音识别技术带来了巨大挑战。导致中英混合现象语音识别效果差主要有以下几个方面的原因：一、中英混杂数据比较缺乏，从而导致模型无法完成训练得到鲁棒性较强的中英混杂模型；二、由于中文与英文在发音上具有相似性，在中文上下文语音环境中，容易造成英文单词的漏识别与错误识别；为了解决当前端到端中英混合识别模型中中英混杂数据获取困难，特定领域的中英混数据获取困难等问题，现有技术1中，通过可定制的中英混语音识别模型结构，如图1所示：即在传统端到端模型结构基础上，对中英混合识别中的定制英文单词与目标文本进行编码，联合声学编码特征进行解码操作，但是只谈到对英文单词进行高维编码，进行定制优化，在实际中英混杂问题中，由于英文嵌入在中文的上下文语境中，现有技术1没有充分利用上下文的中文语境信息，会导致识别歧义，准确率较低等问题；而现有技术2中，在原有语音识别系统基础上，对解码器模块进行改造，引入声学编码特征，构建融合多模态语义不变性的语音识别解码模块，对语音识别系统的输出文本进行文本增强，模型结构如图2所示。但是实现过程中以语音特征提取得到的fbank（Filter Bank，滤波器组）特征作为多模态中的语音特征，这种特征无法完全表现语音系统中的语种特性，不具备语种上的区分度。现有技术3中，在原有端到端语音识别模型结构的基础上，引入一套基于生成对抗网络的中英混合文本生成模块，如图3所示。但是现有技术3将生成对抗网络引入语音识别系统，进行联合优化，这不仅增加了整个模型系统的复杂度，而且也增加了系统的训练难度，生成对抗网络在训练过程中比较难收敛；现有技术4中，提出利用单语中文数据，对中文数据进行分词与词性分析，将部分中文词汇翻译得到对应的英文，从而完成中英混杂文本句子的构建，但是完成根据文本语料进行生成，没有考虑语音表达的口语化以及流利化等特点，造成生成的文本不符合实际的语音表达习惯，从而对中英混杂语音识别的效果提升往往不明显。

综上，如何实现降低中英混合语音识别系统对于中英混合数据的依赖性，提升中英混合语音识别系统的准确率是本领域有待解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供中英混合语音识别系统训练方法、装置、设备及介质，能够降低中英混合语音识别系统对于中英混合数据的依赖性，提升中英混合语音识别系统的准确率。其具体方案如下：

第一方面，本申请公开了一种中英混合语音识别系统训练方法，包括：

获取中英文混合的训练集语料；其中所述训练集语料包含语音训练集和与所述语音训练集对应的文本训练集；

利用预设文本翻译词典的中文词汇与翻译得到的英文词汇之间的对应关系对所述文本训练集进行编码处理，以得到编码后文本训练集；

利用所述编码后文本训练集以及基于所述文本训练集中的文本句子类型对应的句子级别提示学习模板对初始中英混合语音识别模型进行迭代训练，以得到目标中英混合语音识别模型；

将与所述语音训练集中各语音训练数据的语音特征输入至所述目标中英文混合语音识别模型，以便进行解码推理，以获取中英混合语音识别系统。

可选的，所述获取中英文混合的训练集语料，包括：

获取包含中文语料、英文语料、中英混合语料的文本训练集；

对所述文本训练集中的英文文本的小写形式的英文字母正则化处理以转换成大写形式的英文字母；

对所述文本训练集中的阿拉伯数字正则化处理以转换为中文汉字；

对所述文本训练集中的标点符号进行删除处理；

将正则化处理后的文本训练集作为目标文本训练集。

可选的，所述获取中英文混合的训练集语料之后，还包括：

对所述目标文本训练集中的语料进行拆分处理，以得到基于拆分后的中文汉字构建的建模单元词典；

基于拆分后的英文单词按照字节对的编码方式进行编码，以得到编码后的英文子词；

根据所述建模单元词典、所述编码后的英文子词及机器学习符号构建用于对所述文本训练集进行编码的目标建模单元模型。

可选的，所述利用预设文本翻译词典的中文词汇与翻译得到的英文词汇之间的对应关系对所述文本训练集进行编码处理，以得到编码后文本训练集之前，还包括：

对所述文本训练集进行分词处理，以得到相应的文本词汇；对所述文本词汇进行中英文转换的翻译处理，以得到中文词汇与翻译得到的英文词汇之间的对应关系，并基于所述对应关系构建文本翻译词典。

可选的，所述利用所述编码后文本训练集以及基于所述文本训练集中的文本句子类型对应的句子级别提示学习模板对初始中英混合语音识别模型进行迭代训练，以得到目标中英混合语音识别模型之前，还包括：

选择基于注意力机制的语音模型作为初始中英文混合语音识别模型，对所述初始中英文混合语音识别模型设置包含编码层参数和解码层参数的模型结构参数和模型训练参数。

可选的，所述利用所述编码后文本训练集以及基于所述文本训练集中的文本句子类型对应的句子级别提示学习模板对初始中英混合语音识别模型进行迭代训练之前，还包括：

当所述编码后文本训练集中的编码文本为英文文本，则在所述编码文本前增加起始序列标志位以构建第一句子级别提示学习模板；

当所述编码后文本训练集中的编码文本为中文文本，则按照第一概率值并基于预设文本翻译词典的对应关系将所述中文文本中随机选择的中文词汇翻译为英文词汇，以得到第一提示学习文本序列编码；并在所述第一提示学习文本序列编码前增加所述起始序列标志位以构建第二句子级别提示学习模板；

当所述编码后文本训练集中的编码文本为中文文本，则按照第二概率值并基于预设文本翻译词典的对应关系将所述中文文本中的中文词汇翻译为对应的英文词汇，以得到第一提示学习词序列编码，并在所述第一提示学习词序列编码前增加所述起始序列标志位以构建第一词级别提示学习模板；

当所述编码后文本训练集中的编码文本为中英混合文本，则按照第三概率值并基于预设文本翻译词典的对应关系将所述中英混合文本中的英文词汇翻译为中文词汇，以得到第二提示学习文本序列编码；并在所述第二提示学习文本序列编码前增加所述起始序列标志位以构建第三句子级别提示学习模板；

当所述编码后文本训练集中的编码文本为中英混合文本，则按照第四概率值并基于预设文本翻译词典的对应关系将所述中英混合文本中的英文词汇翻译为对应的中文词汇，以得到第二提示学习词序列编码，并在所述第二提示学习词序列编码前增加所述起始序列标志位以构建第二词级别提示学习模板；

基于所述第一句子级别提示学习模板、所述第二句子级别提示学习模板、所述第三句子级别提示学习模板、所述第一词级别提示学习模板、所述第二词级别提示学习模板构建不同文本句子类型的句子级别提示学习模板。

可选的，所述将与所述语音训练集中各语音训练数据的语音特征输入至所述目标中英文混合语音识别模型，以便进行解码推理，以获取中英混合语音识别系统，包括：

将所述语音训练集中各语音训练数据输入至所述目标中英文混合语音识别模型的声学编码层，以便所述声学编码层对所述语音训练数据进行特征提取，得到目标维度的语音特征；

将与所述各语音训练数据对应的文本训练数据输入至所述目标建模单元模型，以便所述目标建模单元模型输出针对所述文本训练数据的候选文本编码结果；

将所述候选文本编码结果和所述语音特征输入至所述目标中英文混合语音识别模型的声学解码层，以便通过所述声学解码层的评分函数以及所述语音特征对所述候选文本编码结果进行重新打分，以实现解码推理，获取中英混合语音识别系统。

第二方面，本申请公开了一种中英混合语音识别系统训练装置，包括：

数据获取模块，用于获取中英文混合的训练集语料；其中所述训练集语料包含语音训练集和与所述语音训练集对应的文本训练集；

文本编码模块，用于利用预设文本翻译词典的中文词汇与翻译得到的英文词汇之间的对应关系对所述文本训练集进行编码处理，以得到编码后文本训练集；

模型训练模块，用于利用所述编码后文本训练集以及基于所述文本训练集中的文本句子类型对应的句子级别提示学习模板对初始中英混合语音识别模型进行迭代训练，以得到目标中英混合语音识别模型；

系统生成模块，用于将与所述语音训练集中各语音训练数据的语音特征输入至所述目标中英文混合语音识别模型，以便进行解码推理，以获取中英混合语音识别系统。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的中英混合语音识别系统训练方法的步骤。

第四方面，本申请公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的中英混合语音识别系统训练方法的步骤。

由此可见，本申请公开了一种中英混合语音识别系统训练方法，包括：获取中英文混合的训练集语料；其中所述训练集语料包含语音训练集和与所述语音训练集对应的文本训练集；利用预设文本翻译词典的中文词汇与翻译得到的英文词汇之间的对应关系对所述文本训练集进行编码处理，以得到编码后文本训练集；利用所述编码后文本训练集以及基于所述文本训练集中的文本句子类型对应的句子级别提示学习模板对初始中英混合语音识别模型进行迭代训练，以得到目标中英混合语音识别模型；将与所述语音训练集中各语音训练数据的语音特征输入至所述目标中英文混合语音识别模型，以便进行解码推理，以获取中英混合语音识别系统。可见，通过对文本训练集转换为词编码进行优化，且同时考虑多方面的文本编码训练，结合语音语境上下文信息以及文本翻译信息，在训练过程中进行模型效果优化，使得模型对于中英混杂句子中对英文句子的预测更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为现有技术中公开的一种可定制的中英混语音识别端到端系统流程图；

图2为现有技术中公开的一种融合多模态语义不变性的语音识别文本增强系统流程图；

图3为现有技术中公开的一种统一中英混合文本生成和语音识别的端到端框架流程图；

图4为本申请公开的一种中英混合语音识别系统训练方法流程图；

图5为本申请公开的一种提示学习模板结构图；

图6为本申请公开的一种具体的中英混合语音识别系统训练方法流程图；

图7为本申请公开的一种中英混合语音识别系统结构示意图；

图8为本申请公开的一种中英混合语音识别系统训练装置结构示意图；

图9为本申请公开的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

中英混合现象是指在说话过程中切换语言，主要包括句间转换和句内转换两种类型。这种现象给语音识别技术带来了巨大挑战。导致中英混合现象语音识别效果差主要有以下几个方面的原因：一、中英混杂数据比较缺乏，从而导致模型无法完成训练得到鲁棒性较强的中英混杂模型；二、由于中文与英文在发音上具有相似性，在中文上下文语音环境中，容易造成英文单词的漏识别与错误识别；为了解决当前端到端中英混合识别模型中中英混杂数据获取困难，特定领域的中英混数据获取困难等问题，现有技术1中，通过可定制的中英混语音识别模型结构，如图1所示：即在传统端到端模型结构基础上，对中英混合识别中的定制英文单词与目标文本进行编码，联合声学编码特征进行解码操作，但是只谈到对英文单词进行高维编码，进行定制优化，在实际中英混杂问题中，由于英文嵌入在中文的上下文语境中，现有技术1没有充分利用上下文的中文语境信息，会导致识别歧义，准确率较低等问题；而现有技术2中，在原有语音识别系统基础上，对解码器模块进行改造，引入声学编码特征，构建融合多模态语义不变性的语音识别解码模块，对语音识别系统的输出文本进行文本增强，模型结构如图2所示。但是实现过程中以语音特征提取得到的fbank特征作为多模态中的语音特征，这种特征无法完全表现语音系统中的语种特性，不具备语种上的区分度。现有技术3中，在原有端到端语音识别模型结构的基础上，引入一套基于生成对抗网络的中英混合文本生成模块，如图3所示。但是现有技术3将生成对抗网络引入语音识别系统，进行联合优化，这不仅增加了整个模型系统的复杂度，而且也增加了系统的训练难度，生成对抗网络在训练过程中比较难收敛；现有技术4中，提出利用单语中文数据，对中文数据进行分词与词性分析，将部分中文词汇翻译得到对应的英文，从而完成中英混杂文本句子的构建，但是完成根据文本语料进行生成，没有考虑语音表达的口语化以及流利化等特点，造成生成的文本不符合实际的语音表达习惯，从而对中英混杂语音识别的效果提升往往不明显。

为此，本发明公开了一种中英混合语音识别系统训练方案，能够实现降低中英混合语音识别系统对于中英混合数据的依赖性，提升中英混合语音识别系统的准确率。

参照图4所示，本发明实施例公开了一种中英混合语音识别系统训练方法，包括：

步骤S11：获取中英文混合的训练集语料；其中所述训练集语料包含语音训练集和与所述语音训练集对应的文本训练集。

本实施例中，获取中英文混合的训练集语料，包括：获取包含中文语料、英文语料、中英混合语料的文本训练集；对所述文本训练集中的英文文本的小写形式的英文字母正则化处理以转换成大写形式的英文字母；对所述文本训练集中的阿拉伯数字正则化处理以转换为中文汉字；对所述文本训练集中的标点符号进行删除处理；将正则化处理后的文本训练集作为目标文本训练集。可以理解的是，在执行中英混合语音识别系统训练的过程中，首先获取中英文混合的训练集语料并进行处理，具体的，获取常规的语音训练集和对应的文本训练集，所述文本训练集，包括：纯中文语料，纯英文语料，中英混合的语料；对文本训练集进行正则化处理，具体的，将文本训练集中的所有英文字母转为大写形式的英文字母，将阿拉伯数字转为中文汉字，去除标点符号，然后将上述正则化处理过的文本训练集作为目标文本训练集。

步骤S12：利用预设文本翻译词典的中文词汇与翻译得到的英文词汇之间的对应关系对所述文本训练集进行编码处理，以得到编码后文本训练集。

本实施例中，通过预设文本翻译字典中的中文词汇和英文词汇之间的对应关系，对目标文本训练集的语料进行翻译并编码，这样一来，通过利用预设文本翻译字典对目标文本训练集中的中英混合语料的英文单词、纯英文语料进行中文翻译，获取其对应的中文含义，并得到编码后文本训练集。这样一来，通过上述方式，从单词层面考虑，可以为训练中英混合语音识别系统更好地提供其识别中英混合句子中英文单词的准确率和概率；从句子层面考虑，可以提升中英混合句子整体的识别概率。

本实施例中，所述利用预设文本翻译词典的中文词汇与翻译得到的英文词汇之间的对应关系对所述文本训练集进行编码处理，以得到编码后文本训练集之前，还包括：对所述文本训练集进行分词处理，以得到相应的文本词汇；对所述文本词汇进行中英文转换的翻译处理，以得到中文词汇与翻译得到的英文词汇之间的对应关系，并基于所述对应关系构建文本翻译词典。可以理解的是，针对训练集中的文本数据集，首先对训练集中的中文进行中文分词处理，然后将这部分训练集文本利用翻译模型进行中文转英文的翻译处理，并同时得到中文词汇与其翻译得到英文之间的对应关系。

步骤S13：利用所述编码后文本训练集以及基于所述文本训练集中的文本句子类型对应的句子级别提示学习模板对初始中英混合语音识别模型进行迭代训练，以得到目标中英混合语音识别模型。

本实施例中，利用编码后文本训练集以及对该文本训练集中句子类型对应的句子级别提示学习模板对初始中英混合语音识别模型进行迭代训练，可以理解的是，通过编码后文本训练集以及句子级别提示学习模板共同对初始中英混合语音识别模型进行迭代训练，这样一来，针对编码后的纯英文语料、编码后的中英文混合语料、编码后的纯中文语料，分别利用对应的句子级别提示学习模板，为对应的语料添加提示学习内容，具体的，当编码文本为编码后的纯英文语料时，使用第一句子级别提示学习模板对其添加提示学习内容，以便对初始中英混合语音识别模型进行迭代训练，以得到目标中英混合语音识别模型；当编码文本为编码后的纯中文语料时，使用第二句子级别提示学习模板以及对应的第一词级别提示学习模板共同对纯中文语料句子和句子中的中文词汇进行提示学习内容的添加，以便对初始中英混合语音识别模型进行迭代训练，以得到目标中英混合语音识别模型；当编码文本为编码后的中英混合语料时，使用第三句子级别提示学习模板以及对应的第二词级别提示学习模板共同对中英混合语料句子和句子中的英文词汇进行提示学习内容的添加，以便对初始中英混合语音识别模型进行迭代训练，以得到目标中英混合语音识别模型。可见，通过设计了多个针对不同文本序列的处理模板，用于进行模型训练。这些模板充分利用训练文本中的单语种文本序列信息，通过这种方式对训练文本进行充分利用，从而减少对于中英混合数据的依赖。同时对混合语种序列进行翻译用于模板设计，使得模型在训练的过程中可以充分利用中英混合句子的上下文信息，提升模型对于英文单词的识别准确率。

本实施例中，所述利用所述编码后文本训练集以及基于所述文本训练集中的文本句子类型对应的句子级别提示学习模板对初始中英混合语音识别模型进行迭代训练，以得到目标中英混合语音识别模型之前，还包括：选择基于注意力机制的语音模型作为初始中英文混合语音识别模型，对所述初始中英文混合语音识别模型设置包含编码层参数和解码层参数的模型结构参数和模型训练参数。可以理解的是，设计初始中英文混合语音识别模型的模型结构：采用当前流行的conformer模型作为主要模型结构，模型训练采用CTC（Connectionist temporal classification，指端到端语音识别模型中常用的一种损失函数）/Attention（指端到端模型中的一种注意力机制）方式进行联合优化训练；模型具体参数如下：模型的编码层encoder层采用conformer模型结构，层数为12，多头注意力机制MHA（Multi-Head Attention）的head数为8，线性层维数为2048，输出output维数为256，激活函数为swish，位置编码为相对位置编码rel_pos，CNN（Convolutional Neural Network，卷积神经网络）卷积的kernal（核心）为8；模型的解码层decoder为Transformer模型结构，模型层数为6，多头注意力机制MHA的head数为8，线性层维数为2048，输出output维数为256。Transformer模型结构是一种基于Attention的常用的端到端模型结构，主要有多头注意力机制模型组成。模型训练参数设置：在完成上述模型结构设计后，利用构建的建模单元对上述目标文本训练集进行编码处理（同时在文本序列前后分别添加（<start>，<end>标志位），结合语音训练集，准备进行模型训练，具体模型训练参数如下：dropout正则化参数为0.1，学习率为0.001，采用Warmup学习率调整策略，Warmup策略的基本思想是在训练的早期阶段，逐渐增加学习率，以便模型可以更快地适应新的数据。具体来说，Warmup策略通常会在训练的前几个epoch（训练周期/迭代次数）中使用较高的学习率，然后逐渐降低学习率，以使模型在训练的后期阶段更加稳定和准确。Warmup step为25000，对音频特征数据采用谱增强SpecAugment策略，SpecAugment策略是一种在音频处理中常用的增强策略，旨在提高模型的泛化能力和鲁棒性。它通过对原始音频数据进行随机的变换和干扰，以增加数据的多样性和复杂性，从而帮助模型更好地学习音频数据的特征和模式。模型训练采用CTC/Attention混合训练方式，训练时CTC损失权重为0.3，交叉熵损失权重0.7。

本实施例中，所述利用所述编码后文本训练集以及基于所述文本训练集中的文本句子类型对应的句子级别提示学习模板对初始中英混合语音识别模型进行迭代训练之前，还包括：当所述编码后文本训练集中的编码文本为英文文本，则在所述编码文本前增加起始序列标志位以构建第一句子级别提示学习模板；当所述编码后文本训练集中的编码文本为中文文本，则按照第一概率值并基于预设文本翻译词典的对应关系将所述中文文本中随机选择的中文词汇翻译为英文词汇，以得到第一提示学习文本序列编码；并在所述第一提示学习文本序列编码前增加所述起始序列标志位以构建第二句子级别提示学习模板；当所述编码后文本训练集中的编码文本为中文文本，则按照第二概率值并基于预设文本翻译词典的对应关系将所述中文文本中的中文词汇翻译为对应的英文词汇，以得到第一提示学习词序列编码，并在所述第一提示学习词序列编码前增加所述起始序列标志位以构建第一词级别提示学习模板；当所述编码后文本训练集中的编码文本为中英混合文本，则按照第三概率值并基于预设文本翻译词典的对应关系将所述中英混合文本中的英文词汇翻译为中文词汇，以得到第二提示学习文本序列编码；并在所述第二提示学习文本序列编码前增加所述起始序列标志位以构建第三句子级别提示学习模板；当所述编码后文本训练集中的编码文本为中英混合文本，则按照第四概率值并基于预设文本翻译词典的对应关系将所述中英混合文本中的英文词汇翻译为对应的中文词汇，以得到第二提示学习词序列编码，并在所述第二提示学习词序列编码前增加所述起始序列标志位以构建第二词级别提示学习模板；基于所述第一句子级别提示学习模板、所述第二句子级别提示学习模板、所述第三句子级别提示学习模板、所述第一词级别提示学习模板、所述第二词级别提示学习模板构建不同文本句子类型的句子级别提示学习模板。可以理解的是，如图5所示，当标注文本是纯英文时，在标注文本前只加入<PrevStart>标志位，标注文本不做处理，以构建第一句子级别提示学习模板；当标注文本为纯中文文本时，按0.6的概率值构建第二句子级别提示学习模板，随机根据翻译文本对应关系，替换中文词为英文单词，表示为在标注序列前加入<PrevStart>，<提示学习文本序列编码>，如图5中的样例2所示。当标注文本为纯中文文本时，按0.4的概率值构建词级别的第一词级别提示学习模板，随机选择文本序列中的中文词，根据对应关系将其进行翻译为英文，在标注序列前加入<PrevStart>，<提示学习词编码>；如图5中的样例4所示。当标注文本为中英混合序列文本时，按0.7的概率值构建第三句子级别提示学习模板，对中英混合文本中的英文单词按上述翻译文本对应关系进行翻译成中文，得到纯中文的文本序列，在标注序列前加入<PrevStart>，<提示学习文本序列编码>；如图5中的样例1所示；当标注文本为中英混合序列文本时，按0.3的概率值构建第二词级别提示学习模板，对中英混合文本中的英文单词进行翻译成中文，在标注文本序列前加入<PrevStart>，<提示学习词编码序列>，如图5中的样例3所示。可见，利用中英混语音识别特点，分别从句子级别与单词级别设计了四种提示学习模板方案：针对中英混杂的句子，从单词层面考虑，本申请将英文单词对应的中文含义作为提示学习内容（如图5样例3所示），从而使得模型在训练过程中可以提升中英混杂句子中英文单词的概率；针对中英混杂句子，从句子层面考虑，本申请将中英混杂句子翻译后的中文句子作为提示学习内容（如图5中的样例1），从而使得模型在训练过程中，不仅可以提升英文单词的概率，还可以结合上下文中文语境，提升中英混杂句子整体的识别概率。另一方面，为了对中英混杂句子进行数据扩充操作，对于中文句子进行分词处理，并随机选择句子中的词语进行英文翻译替换，并将替换后的句子（图5中的样例2）或者单词（图5中的样例4）作为提示学习模板内容，从而在模型训练过程中对中英混杂数据进行了扩充处理。这样一来，引入提示学习模板设计方法，对训练集中的标注文本进行重新设计，从而更好的引入文本上下文的信息以及翻译信息。

步骤S14：将与所述语音训练集中各语音训练数据的语音特征输入至所述目标中英文混合语音识别模型，以便进行解码推理，以获取中英混合语音识别系统。

本实施例中，将语音特征作为目标中英文混合语音识别模型训练的输入语音特征，然后目标中英文混合语音识别模型进行解码推理，这样一来，由于模型优化训练结束后进行模型解码推理的主要目的是将训练得到的模型应用于实际的任务中，以生成最终的输出结果。所述语音特征包括：Mel频率倒谱系数（MFCC，Mel Frequency CepstralCoefficients）、线性预测系数（LPC，Linear Predictive Coefficients）等，它们都是描述语音信号的重要特征。Mel频率倒谱系数（MFCC）是一种基于人耳听觉特性的语音特征，它能够反映语音信号的频率分布和音色特征。MFCC是通过对语音信号进行Filter Bank分析，将其分解为多个子带信号，并计算每个子带信号的能量，然后通过Mel频率尺度对这些能量进行加权求和得到的。线性预测系数（LPC）是一种基于线性预测模型的语音特征，它能够反映语音信号的时域特征和共振峰特征。LPC是通过对语音信号进行线性预测分析，得到一组预测系数，这些系数能够描述语音信号的频谱特征和共振峰位置。在模型训练过程中，模型学习了输入数据和输出标签之间的关系，并通过调整模型的参数来最小化损失函数或提高模型的性能。然而，模型优化训练结束后，得到的是一个经过训练的模型，它并不能直接输出最终的结果。模型解码推理是将输入数据通过训练得到的模型进行处理，以生成最终的输出结果的过程。在模型解码推理过程中，输入数据被传递给模型，模型会根据输入数据和训练得到的参数进行计算，并输出相应的结果。模型解码推理的目的是将训练得到的模型应用于实际的任务中，以生成最终的输出结果。在语音识别任务中，模型优化训练结束后，得到的是一个经过训练的中英混合语音识别系统，模型解码推理过程是将输入的语音信号通过该模型进行处理，以生成对应的文本输出。可见，通过模型解码推理，可以得到最终的输出结果，并对模型的性能进行评估和优化。以获取中英混合语音识别系统。

参照图6所示，本发明实施例公开了一种具体的中英混合语音识别系统训练方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

步骤S21：获取中英文混合的训练集语料；其中所述训练集语料包含语音训练集和与所述语音训练集对应的文本训练集。

步骤S22：基于所述文本训练集获取目标文本训练集；对所述目标文本训练集中的语料进行拆分处理，以得到基于拆分后的中文汉字构建的建模单元词典；基于拆分后的英文单词按照字节对的编码方式进行编码，以得到编码后的英文子词；根据所述建模单元词典、所述编码后的英文子词及机器学习符号构建用于对所述文本训练集进行编码的目标建模单元模型。

本实施例中，构建用于模型训练的目标建模单元模型的具体过程为：对于包含中英文语料的文本训练集进行与处理后得到的目标文本训练集，将目标文本训练集中的中文按汉字进行拆分构建建模单元词典，英文进行BPE（Byte Pair Encoding，自然语言处理的词向量表示方法）分词处理，BPE分词规模的大小为3000。BPE是一种基于字节对的编码方式，通过将文本中的字节组合成对，并将这些对映射到一个固定的词汇表中，从而将文本转换为一个向量表示。BPE分词处理是指在使用BPE进行词向量表示之前，先对英文文本进行分词处理，将文本拆分成一个个的词或子词，然后再使用BPE对这些词或子词进行编码。这样可以将文本转换为一个由词或子词组成的向量表示，从而更好地表示文本的语义信息。然后利用中文汉字与英文BPE子词，以及3个序列标志位<PrevStart>，<Start>，<End>还有<blank>，<unk>符号，共同构成目标建模单元模型。其中，<PrevStart>：指的是前一个建模单元的起始位置；<Start>：指的是当前建模单元的起始位置；<End>：指的是当前建模单元的结束位置。序列标志位用于处理序列数据时进行索引和定位。由于文本被拆分成单词或子词，每个单词或子词都有一个起始位置和结束位置。<PrevStart>标志位用于指示上一个单词或子词的起始位置，以便在处理文本时进行上下文关联和分析。在语音识别领域，语音信号被分解成多个时间片段，每个时间片段对应一个语音特征向量。<PrevStart>标志位用于指示上一个时间片段的起始位置，以便在处理语音信号时进行上下文关联和分析。<blank>用于表示一个空白字符或占位符，例如：在文本数据中表示一个缺失的单词或字符。在训练目标中英混合语音识别模型时，如果某个输入元素缺失或未知，可以使用<blank>来表示。<unk>用于表示一个未知或未识别的元素，例如在文本数据中表示一个未知的单词或字符。在训练目标中英混合语音识别模型时，如果遇到一个未知的元素，可以使用<unk>来表示。

步骤S23：利用预设文本翻译词典的中文词汇与翻译得到的英文词汇之间的对应关系对所述文本训练集进行编码处理，以得到编码后文本训练集。

步骤S24：利用所述编码后文本训练集以及基于所述文本训练集中的文本句子类型对应的句子级别提示学习模板对初始中英混合语音识别模型进行迭代训练，以得到目标中英混合语音识别模型。

其中，步骤S21、S23、S24中更加详细的处理过程请参照前述公开的实施例内容，在此不再进行赘述。

步骤S25：将所述语音训练集中各语音训练数据输入至所述目标中英文混合语音识别模型的声学编码层，以便所述声学编码层对所述语音训练数据进行特征提取，得到目标维度的语音特征；将与所述各语音训练数据对应的文本训练数据输入至所述目标建模单元模型，以便所述目标建模单元模型输出针对所述文本训练数据的候选文本编码结果。

本实施例中，将各语音训练数据输入至目标中英文混合语音识别模型的声学编码器，该声学编码器利用编码模块对输入的语音训练数据进行高维向量序列的提取，也即对语音训练数据进行特征提取，也即对语音训练集的语音数据进行特征提取，获取目标维度的语音特征，具体的，获取40维的fbank语音特征。然后利用CTC序列建模方法对文本训练数据进行映射，得到候选文本编码结果，也即文本训练数据输入至目标中英文混合语音识别模型的目标建模单元模型，以便所述目标建模单元模型输出针对所述文本训练数据的候选文本编码结果。

步骤S26：将所述候选文本编码结果和所述语音特征输入至所述目标中英文混合语音识别模型的声学解码层，以便通过所述声学解码层的评分函数以及所述语音特征对所述候选文本编码结果进行重新打分，以实现解码推理，获取中英混合语音识别系统。

本实施例中，模型解码推理阶段可分为可定制化解码与常规解码两个方式：在一种具体实施方式中，对于常规解码，提供音频特征首先输入声学编码器，利用CTC进行解码，得到候选文本编码结果，然后将候选文本编码结果以及声学编码器的高维特征送入解码器进行rescore重打分解码，得到最终的解码识别结果，以实现解码推理，获取中英混合语音识别系统。在另一种具体实施方式中，对于针对英文单词的可定制化解码：提供音频特征，以及定制设置的词汇或者是文本句子，将音频特征输入声学编码器利用CTC解码得到候选文本编码结果以及声学编码器高维特征，对定制提供的词汇或者文本句子根据句子级别提示学习模板和/或词级别提示学习模板中的处理方式加入到CTC解码结果的候选文本编码结果中，构成新的文本序列为<PrevStart><定制化句子或者词编码序列><Start><CTC解码候选文本><End>。新的文本序列与高维声学编码器特征联合送入解码器进行rescore重打分解码，以实现解码推理，获取中英混合语音识别系统。参照图7所示，本发明公开的目标中英文混合语音识别系统的系统结构图，包括：声学编码器、CTC解码模块、提示学习编码器和声学解码器，其中，声学编码器，用于接收输入的语音，然后利用声学编码器中的编码层对其进行高维语音特征提取，以获取目标维度的语音特征，然后将文本训练数据分别输入至CTC解码模块和声学解码器，输入至CTC解码模块，能够进行序列映射，得到候选文本编码结果；输入至声学解码器中，声学解码器能够将该语音特征与经过提示学习编码器编码得到的句子级别提示学习模板一同进行解码，执行rescore重打分解码，得到对应的语音识别结果。

由此可见，通过对模型解码应用中进行定制化热词或者句子添加。由于引入了提示学习编码器，可以在解码过程中通过设置相关的词汇或者句子，使得模型提升对于设置词汇或者句子的识别准确率。这一特征可以解决模型对于专有领域英文词汇，专有名词等的识别问题。

参照图8所示，本发明还公开了一种中英混合语音识别系统训练装置，包括：

数据获取模块11，用于获取中英文混合的训练集语料；其中所述训练集语料包含语音训练集和与所述语音训练集对应的文本训练集；

文本编码模块12，用于利用预设文本翻译词典的中文词汇与翻译得到的英文词汇之间的对应关系对所述文本训练集进行编码处理，以得到编码后文本训练集；

模型训练模块13，用于利用所述编码后文本训练集以及基于所述文本训练集中的文本句子类型对应的句子级别提示学习模板对初始中英混合语音识别模型进行迭代训练，以得到目标中英混合语音识别模型；

系统生成模块14，用于将与所述语音训练集中各语音训练数据的语音特征输入至所述目标中英文混合语音识别模型，以便进行解码推理，以获取中英混合语音识别系统。

由此可见，本申请公开了获取中英文混合的训练集语料；其中所述训练集语料包含语音训练集和与所述语音训练集对应的文本训练集；利用预设文本翻译词典的中文词汇与翻译得到的英文词汇之间的对应关系对所述文本训练集进行编码处理，以得到编码后文本训练集；利用所述编码后文本训练集以及基于所述文本训练集中的文本句子类型对应的句子级别提示学习模板对初始中英混合语音识别模型进行迭代训练，以得到目标中英混合语音识别模型；将与所述语音训练集中各语音训练数据的语音特征输入至所述目标中英文混合语音识别模型，以便进行解码推理，以获取中英混合语音识别系统。可见，通过对文本训练集转换为词编码进行优化，且同时考虑多方面的文本编码训练，结合语音语境上下文信息以及文本翻译信息，在训练过程中进行模型效果优化，使得模型对于中英混杂句子中对英文句子的预测更加准确。

进一步的，本申请实施例还公开了一种电子设备，图9是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图9为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的中英混合语音识别系统训练方法中的相关步骤。另外，本实施例中的电子设备20具体可以为电子计算机。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的中英混合语音识别系统训练方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223除了可以包括电子设备接收到的由外部设备传输进来的数据，也可以包括由自身输入输出接口25采集到的数据等。

进一步的，本申请还公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的中英混合语音识别系统训练方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器RAM（Random Access Memory）、内存、只读存储器ROM（Read Only Memory）、电可编程EPROM（Electrically Programmable Read Only Memory）、电可擦除可编程EEPROM（ElectricErasable Programmable Read Only Memory）、寄存器、硬盘、可移动磁盘、CD-ROM（CompactDisc-Read Only Memory，紧凑型光盘只读储存器）、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的中英混合语音识别系统训练方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种中英混合语音识别系统训练方法，其特征在于，包括：

将与所述语音训练集中各语音训练数据的语音特征输入至所述目标中英混合语音识别模型，以便进行解码推理，以获取中英混合语音识别系统；

其中，所述利用所述编码后文本训练集以及基于所述文本训练集中的文本句子类型对应的句子级别提示学习模板对初始中英混合语音识别模型进行迭代训练之前，还包括：

2.根据权利要求1所述的中英混合语音识别系统训练方法，其特征在于，所述获取中英文混合的训练集语料，包括：

对所述文本训练集中的标点符号进行删除处理；

将正则化处理后的文本训练集作为目标文本训练集。

3.根据权利要求2所述的中英混合语音识别系统训练方法，其特征在于，所述获取中英文混合的训练集语料之后，还包括：

4.根据权利要求2所述的中英混合语音识别系统训练方法，其特征在于，所述利用预设文本翻译词典的中文词汇与翻译得到的英文词汇之间的对应关系对所述文本训练集进行编码处理，以得到编码后文本训练集之前，还包括：

5.根据权利要求1所述的中英混合语音识别系统训练方法，其特征在于，所述利用所述编码后文本训练集以及基于所述文本训练集中的文本句子类型对应的句子级别提示学习模板对初始中英混合语音识别模型进行迭代训练，以得到目标中英混合语音识别模型之前，还包括：

选择基于注意力机制的语音模型作为初始中英混合语音识别模型，对所述初始中英混合语音识别模型设置包含编码层参数和解码层参数的模型结构参数和模型训练参数。

6.根据权利要求3所述的中英混合语音识别系统训练方法，其特征在于，所述将与所述语音训练集中各语音训练数据的语音特征输入至所述目标中英混合语音识别模型，以便进行解码推理，以获取中英混合语音识别系统，包括：

将所述语音训练集中各语音训练数据输入至所述目标中英混合语音识别模型的声学编码层，以便所述声学编码层对所述语音训练数据进行特征提取，得到目标维度的语音特征；

将所述候选文本编码结果和所述语音特征输入至所述目标中英混合语音识别模型的声学解码层，以便通过所述声学解码层的评分函数以及所述语音特征对所述候选文本编码结果进行重新打分，以实现解码推理，获取中英混合语音识别系统。

7.一种中英混合语音识别系统训练装置，其特征在于，包括：

系统生成模块，用于将与所述语音训练集中各语音训练数据的语音特征输入至所述目标中英混合语音识别模型，以便进行解码推理，以获取中英混合语音识别系统；

所述中英混合语音识别系统训练装置，具体用于当所述编码后文本训练集中的编码文本为英文文本，则在所述编码文本前增加起始序列标志位以构建第一句子级别提示学习模板；当所述编码后文本训练集中的编码文本为中文文本，则按照第一概率值并基于预设文本翻译词典的对应关系将所述中文文本中随机选择的中文词汇翻译为英文词汇，以得到第一提示学习文本序列编码；并在所述第一提示学习文本序列编码前增加所述起始序列标志位以构建第二句子级别提示学习模板；当所述编码后文本训练集中的编码文本为中文文本，则按照第二概率值并基于预设文本翻译词典的对应关系将所述中文文本中的中文词汇翻译为对应的英文词汇，以得到第一提示学习词序列编码，并在所述第一提示学习词序列编码前增加所述起始序列标志位以构建第一词级别提示学习模板；当所述编码后文本训练集中的编码文本为中英混合文本，则按照第三概率值并基于预设文本翻译词典的对应关系将所述中英混合文本中的英文词汇翻译为中文词汇，以得到第二提示学习文本序列编码；并在所述第二提示学习文本序列编码前增加所述起始序列标志位以构建第三句子级别提示学习模板；当所述编码后文本训练集中的编码文本为中英混合文本，则按照第四概率值并基于预设文本翻译词典的对应关系将所述中英混合文本中的英文词汇翻译为对应的中文词汇，以得到第二提示学习词序列编码，并在所述第二提示学习词序列编码前增加所述起始序列标志位以构建第二词级别提示学习模板；基于所述第一句子级别提示学习模板、所述第二句子级别提示学习模板、所述第三句子级别提示学习模板、所述第一词级别提示学习模板、所述第二词级别提示学习模板构建不同文本句子类型的句子级别提示学习模板。

8.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至6任一项所述的中英混合语音识别系统训练方法的步骤。

9.一种计算机可读存储介质，其特征在于，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的中英混合语音识别系统训练方法的步骤。