CN115394287A

CN115394287A - 混合语种语音识别方法、装置、系统及存储介质

Info

Publication number: CN115394287A
Application number: CN202210892864.3A
Authority: CN
Inventors: 吴峥; 高天; 王培养; 董德武; 吴明辉; 陈志文; 孙毅成
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2022-11-25

Abstract

本申请公开了一种混合语种语音识别方法、装置、系统及存储介质，其中，该混合语种语音识别方法包括以下步骤：获取待识别语音信息；对所述待识别语音信息进行语种识别，以确定所述待识别语音信息的语种信息；当所述语种信息包括目标语种时，将所述待识别语音信息输入到已训练的转写模型中，以将所述待识别语音信息转换为文本信息，所述目标语种包括第一语种和第二语种，所述文本信息中包括所述第一语种和所述第二语种对应的混合语种文本信息。通过本申请的方法使得获得的文本信息的准确性更高，能够输出多语种语音混合的识别结果，提升用户的使用体验。

Description

混合语种语音识别方法、装置、系统及存储介质

技术领域

本申请涉及人工智能技术领域，具体而言涉及一种混合语种语音识别方法、装置、系统及存储介质。

背景技术

随着深度学习技术，尤其是在语音识别领域的发展和突破，使得语音识别技术被广泛应用于娱乐、教育、智慧城市、医疗、军事等领域，并在各领域应用的实际效果得到了业界的认可。然而，在实际语音识别中，前端获取到的语音数据并不完全是单一语种，有时可能混杂有两个及两个以上语种，例如蒙古语和汉语的混合等，而目前的语音识别技术通常是单一语种建模，在多语种混合的复杂场景中，通过对输入语流进行前端预处理切分成子句，然后对子句进行语种置信度判断，然后经过最高置信度的语种对应语音识别模型输出识别结果，最后拼接子句的识别结果作为最终整句结果输出，然而在语种混合的复杂场景中该输出结果的准确性不高，设置无法识别出多语种混合的语音。

因此需要进行改进，以解决上述问题中的至少一个。

发明内容

针对上述问题，本申请提供了一种混合语种语音识别方法，所述方法包括以下步骤：

获取待识别语音信息；

对所述待识别语音信息进行语种识别，以确定所述待识别语音信息的语种信息；

当所述语种信息包括目标语种时，将所述待识别语音信息输入到已训练的转写模型中，以将所述待识别语音信息转换为文本信息，所述目标语种包括第一语种和/或第二语种，所述文本信息中包括所述第一语种和所述第二语种对应的混合语种文本信息，其中，

所述转写模型的训练过程包括：

在训练过程中，对提取的声学特征进行随机掩码处理，其中，所述随机掩膜处理包括：随机在所述声学特征对应的频谱图中遮挡预定数量的时域特征，和/或，随机在所述声学特征对应的频谱图中遮挡预定数量的频域特征。

在一个实施例中，所述转写模型为基于编码器-解码器框架的语音识别模型，其中，待训练的转写模型的编码器包括依次连接的特征提取模块、卷积网络模块、多个第一Tansformer网络结构、前馈神经网络层、反卷积网络模块、全连接层和归一化网络模块，待训练的转写模型的解码器包括依次连接的转换模块、卷积网络模块、多个第二Tansformer网络结构、前馈神经网络层和归一化网络模块，其中，所述方法预先通过以下步骤训练获得所述已训练的转写模型：

获取训练数据，其中，所述训练数据包括语音信息和语音信息对应的文本标签；

通过所述特征提取模块提取输入的训练数据集中的当前时段的语音信息的声学特征，并对提取的所述声学特征进行所述随机掩码处理；

通过所述编码器的卷积网络模块、所述多个第一Tansformer网络结构和所述前馈神经网络层提取所述声学特征中的固定维度的语音编码特征；

基于CTC损失函数对所述固定维度的语音编码特征进行损失计算，以获得第一损失；

使用反卷积网络模块将所述固定维度的语音编码特征对应的时间维度升采样至与输入的当前时段的语音信息的时间维度一致，并利用全连接层和归一化网络模块对所述反卷积网络模块的输出进行处理后，以获得预测音素标签；

利用交叉熵损失函数计算获得取所述预测音素标签的音素序列相对真实标签对应的音素序列的第二损失；

在所述训练数据中获取当前时段之前的语音信息对应的文本标签；

将当前时段之前的语音信息对应的文本标签输入到所述转换模块,以转换为字符嵌入向量；

将所述字符嵌入向量输入到所述解码器的卷积网络模型提取抽象文本表征信息；

将所述抽象文本表征信息输入到所述解码器的多个第二Tansformer网络结构中，以提取所述高维抽象的文本表征信息；

将所述编码器的前馈神经网络层输出的所述固定维度的语音编码特征和所述高维抽象的文本表征信息通过注意力机制进行特征加权融合，以获得融合特征；

将所述融合特征输入到所述前馈神经网络层和所述归一化网络模块进行处理，以获得预测文本序列；

利用交叉商损失函数计算所述预测文本序列的字符级的第三损失；

利用句子级别损失函数计算所述预测文本序列的第四损失；

将所述第一损失、所述第二损失、所述第三损失和所述第四损失进行加权求和得到总体损失；

利用所述总体损失调整待训练的转写模型中的模型参数，以得到所述已训练的转写模型。

在一个实施例中，所述获取训练数据，包括：

获取所述训练数据集中的语音信息对应的真实文本标签；

对所述真实文本标签进行随机文本特征扰动，以获得语音信息对应的文本标签，其中，所述随机文本特征扰动包括：将随机挑选的真实文本标签的随机位置以预定比例使用非真实标签的字符或音素替代。

在一个实施例中，所述第一语种为小语种，所述转写模型的训练数据包括所述第一语种的合成语音和对应的文本信息、目标语种的原始语音对应的文本信息、目标语种的拼接语音和对应的文本信息、目标语种的增广语音，其中，所述合成语音是对所述第一语种的历史文本对应的音素序列以及所述第一语种的历史语音的声纹信息进行合成获得的，所述拼接语音是将所述训练数据中的随机抽取的两条语音进行拼接获得的，所述增广语音是在所述原始语音中加入背景噪声后获得的。

在一个实施例中，所述对获取的待识别语音信息进行语种识别，以确定所述待识别语音信息的语种信息，包括：

通过已训练的语种识别模型对待识别语音信息进行语种识别，以预测待识别语音信息中所述目标语种的得分，其中，所述目标语种的得分包括所述第一语种的第一得分和所述第二语种的第二得分；

将所述第一得分和所述第一阈值进行比较，以及将所述第二得分和所述第二阈值进行比较，当所述第一得分小于所述第一阈值和所述第二得分小于所述第二阈值时，则确定所述语种信息包括目标语种。

在一个实施例中，所述转写模型为基于编码器-解码器框架的语音识别模型，所述待识别语音信息包括多个时段的语音片段，所述将所述待识别语音信息输入到已训练的转写模型中，以将所述待识别语音信息转换为文本信息，包括：

对每一时段的所述语音片段进行编解码处理，以预测每一时段的所述语音片段对应的预测文本标签；

将所有时段的所述语音片段对应的所述预测文本标签按照时间顺序进行合并，以获得所述待识别语音信息对应的预测文本标签；

根据所述待识别语音信息对应的预测文本标签获取所述待识别语音信息对应的文本信息。

在一个实施例中，所述获取待识别语音信息包括：

获取原始语音信息；

通过语音活动端点检测对所述原始语音信息进行分段并过滤所述原始语音信息中的无效语音，以获得所述待识别语音信息。

本申请另一方面还提供一种混合语种语音识别装置，所述装置包括：

获取模块，用于获取待识别语音信息；

语种识别模块，用于对所述待识别语音信息进行语种识别，以确定所述待识别语音信息的语种信息；

转写模块，用于当所述语种信息包括目标语种时，将所述待识别语音信息输入到已训练的转写模型中，以将所述待识别语音信息转换为文本信息，所述目标语种包括第一语种和第二语种，所述文本信息中包括所述第一语种和所述第二语种对应的混合语种文本信息，其中，

所述转写模型的训练过程包括：

本申请又一方面还提供一种混合语种语音识别系统，所述系统包括存储器和处理器，所述存储器上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时，使得所述处理器执行前述的混合语种语音识别方法。

本申请另一方面一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序在运行时，执行前述的混合语种语音识别方法。

为了解决前述技术问题中的至少一个，本申请提供了一种混合语种语音识别方法、装置、系统及存储介质，通过本申请的混合语种语音识别方法，先对所述待识别语音信息进行语种识别，以确定所述待识别语音信息的语种信息，从而对语音信息的数据进行筛选，当筛选到语音信息中包括目标语种时，将所述待识别语音信息输入到已训练的转写模型中，以将所述待识别语音信息转换为文本信息，从而使得输入到转写模型的数据更加符合模型要求，提高模型的识别效率，进而使得获得的文本信息的准确性更高，能够输出多语种语音混合的识别结果，提升用户的使用体验。

附图说明

本申请的下列附图在此作为本申请的一部分用于理解本申请。附图中示出了本申请的实施例及其描述，用来解释本申请的装置及原理。在附图中，

图1示出根据本申请实施例的混合语种语音识别方法的示意性流程图。

图2示出根据本申请实施例的混合语种语音识别方法的另一示意性流程图。

图3示出根据本申请实施例的蒙古语单语种语料合成仿真的示意性流程图。

图4示出根据本申请实施例的转写模型的示意性框图。

图5示出根据本申请实施例的随机语音特征掩膜的示意图。

图6示出根据本申请实施例的随机文本特征扰动的示意图。

图7示出根据本申请实施例的混合语种语音识别装置的示意性框图。

图8示出根据本申请实施例的混合语种语音识别系统的示意性框图。

具体实施方式

为了使得本申请的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。基于本申请中描述的本申请实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其他实施例都应落入本申请的保护范围之内。

基于前述技术问题中的至少一个，如图1所示，本申请提供一种混合语种语音识别方法100，该方法包括以下步骤：

步骤S110，获取待识别语音信息；

步骤S120，对所述待识别语音信息进行语种识别，以确定所述待识别语音信息的语种信息；

步骤S130，当所述语种信息包括目标语种时，将所述待识别语音信息输入到已训练的转写模型中，以将所述待识别语音信息转换为文本信息，所述目标语种包括第一语种和第二语种，所述文本信息中包括所述第一语种和所述第二语种对应的混合语种文本信息。

通过本申请的混合语种语音识别方法，先对所述待识别语音信息进行语种识别，以确定所述待识别语音信息的语种信息，从而对语音信息的数据进行筛选，当筛选到语音信息中包括目标语种时，将所述待识别语音信息输入到已训练的转写模型中，以将所述待识别语音信息转换为文本信息，从而使得输入到转写模型的数据更加符合模型要求，提高模型的识别效率，进而使得获得的文本信息的准确性更高，能够输出多语种语音混合(例如整句和子句中包括多语种的语音)的识别结果(也即混合语种文本信息)，提升用户的使用体验。

上述的待识别语音信息可以是指包含至少一种语种的语音数据，在本申请实施例中，待识别语音信息可以包括多种语种的语音数据，例如可以同时包含第一语种和第二语种的混合语音，其中，第一语种可以是蒙古语、法语、日语等一种或多种不同小语种，第二语种可以是汉语，或者第一语种还可以是地方方言和第二语种是汉语普通话，或者第一语种还可以是其他民族语言，第二语种是汉语。其中，在本申请中，小语种可以是指的除英语和汉语以外的其他语种。

在本申请中，主要以蒙古语和汉语混合的情况为例，但这不意欲构成限制，本申请除了适用于蒙古语和汉语混合的情况外，还可以适用于其他语种和汉语混合的情况，或者，任意两种或者多种语种混合的情况。

在步骤S110中，待识别语音信息可以是获取到的原始语音信息，该原始语音信息可以是长语流语音或者短语流语音，长语流语音可以是指的时长大于或等于预设时长的语音，而短语流语音则可以是指的时长在预设时间以下的语音。该预设时长可以是根据先验经验合理设定的，在此不做具体限定。

在一些实施例中，所述获取待识别语音信息包括：获取原始语音信息，可选地，该原始语音信息可以为长语流语音；通过语音活动端点检测(Voice Activity Detection，简称VAD)对所述原始语音信息进行分段并过滤所述原始语音信息中的无效语音，以获得所述待识别语音信息，通过分段及过来可以使得待识别语音信息包括的语音基本上是有效语音，从而避免无效语音对后续的语音识别的效果产生干扰，进而提高语音识别输出结果的准确性。

其中，VAD可以用于分离原始语音信息中语音信号和非语音信号(也即无效语音，例如音乐、混响等背景噪音)，VAD可以通过本领域技术人员熟知的任意适合的方式来显示，例如，通过分帧，判断一帧的能量，过零率等简单的方法来判断是否是语音段(也可以称为有效语音)；2，通过检测一帧是否有基音周期来判断是否是语音段(也可以称为有效语音)；3，通过深度神经网络(Deep Neural Networks，DNN)的方法训练模型来分类是否是语音帧，通过DNN来做语音分类，进而分离语音段(可称有效语音)和非语音段 (也即无效语音)。

是否应用VAD进行分段及过滤可以根据实际应用场景进行合理的选择，例如，当应用场景涉及的多数为短语流语音(例如微信语音)时，则可以不使用VAD进行分段及过滤，而当应用场景涉及的多数为长语流语音时，则可以使用VAD进行分段及过滤。

或者，在一些实施例中，可以根据原始语音信息的时长来确定是否应用 VAD进行分段及过滤，例如当时长大于或等于预设时长时，则应用VAD，而当时长小于预设时长时，则不应用VAD。通过如此灵活设置，可以在保证后续语音识别效果的前提下，减少数据处理量。

进一步，在步骤S120中，可以基于本领域技术人员熟知的任意适合的方法确定待识别语音信息的语种信息，例如可以基于已训练的语种识别模型进行识别获取，或者，在一些实施例中，所述对获取的待识别语音信息进行语种识别，以确定所述待识别语音信息的语种信息，包括：通过已训练的语种识别模型对待识别语音信息进行语种识别，以预测待识别语音信息中所述目标语种的得分，其中，所述目标语种的得分包括所述第一语种的第一得分和所述第二语种的第二得分；将所述第一得分和所述第一阈值进行比较，以及将所述第二得分和所述第二阈值进行比较，当所述第一得分小于所述第一阈值和所述第二得分小于所述第二阈值时，则确定所述语种信息包括目标语种。其中，第一阈值和第二阈值可以根据实际需要合理设定，例如可以是60分、 70分、80分、或90分等。

通过语种识别可以确定所述待识别语音信息的语种信息，从而对语音信息的数据进行筛选，当筛选到语音信息中包括目标语种时，将所述待识别语音信息输入到已训练的转写模型中，以将所述待识别语音信息转换为文本信息，从而使得输入到转写模型的数据更加符合模型要求，提高模型的识别效率，进而使得获得的文本信息的准确性更高，能够输出多语种语音混合的识别结果，提升用户的使用体验

在一些实施例中，通过已训练的语种识别模型对待识别语音信息进行语种识别，以预测待识别语音信息中所述目标语种的得分，可以包括：可以通过已训练的语种识别模型提取待识别语音信息中的每个语音片段的语种表征特征，将该语种表征特征与目标语种的语种表征特征进行相似度比对，得到各个语音片段的语种与目标语种的相似度得分(也即目标语种的得分，例如第一得分和第二得分)。

每个语音片段的语种表征特征可以是根据待识别语音信息的声学特征确定的，例如，可以提取待识别语音信息的瓶颈特征作为其声学特征，然后将声学特征通过一系列的正交化投影空间进行映射，得到低维的声学特征作为待识别语音信息的语种表征特征，再从待识别语音信息的语种表征特征中提取出各个语音片段的语种表征特征。或者还可以是基于其他适合的方式确定各个语音片段的语种表征特征。

可选地，待识别语音信息包括多个语音片段，可以依次对每个语音片段的语种信息进行识别，以确定每个语音片段的语种信息，而后续识别时可以是依次对每个语音片段的语音识别，具体识别过程的一些细节将在后文描述。

本申请中，语音片段的划分可以是按照任意适合的方式划分的，任意时长的语音片段，例如，可以将待识别语音信息中的各个语音帧分别作为语音片段。

通过上述的语种识别的过程可以识别出语种信息，从而确定待识别语音信息中是否包括目标语种，而当待识别语音信息中包括目标语种时，例如待识别语音信息的一些语音片段包括第一语种和第二语种，一些语音片段还可能包括第一语种，一些语音片段还可能包括第二语种，则可以将这些包括目标语种的语音片段输入到已训练的转写模型中进行识别，以将所述待识别语音信息转换为文本信息。进一步，在步骤S130中，当所述语种信息包括目标语种时，将所述待识别语音信息输入到已训练的转写模型中，以将所述待识别语音信息转换为文本信息，所述目标语种包括第一语种和第二语种，所述文本信息中包括所述第一语种对应的文本信息和所述第二语种对应的文本信息，通过本申请的已训练的转写模型可以实现对混合语种的语音的识别以及文本的撰写，且识别效果好，准确度高。

在一些实施例中，如图4所示，本申请的转写模型为基于编码器-解码器(Encoder-Decoder)框架的语音识别模型，所述待识别语音信息包括多个时段的语音片段，所述将所述待识别语音信息输入到已训练的转写模型中，以将所述待识别语音信息转换为文本信息，包括：对每一时段的所述语音片段进行编解码处理，以预测每一时段的所述语音片段对应的预测文本标签；将所有时段的所述语音片段对应的所述预测文本标签按照时间顺序进行合并，以获得所述待识别语音信息对应的预测文本标签；根据所述待识别语音信息对应的预测文本标签获取所述待识别语音信息对应的文本信息。

其中，每个时段的时长可以根据实际需要合理设定，例如可以是1s、2s、 3s、5s、10s等。

编码器-解码器(Encoder-Decoder)框架的语音识别模型可以是卷积神经网络(CNN)，递归神经网络(RNN)，长短期记忆网络(LSTM)，循环神经网络(GRU)，嵌入有Attention的神经网络结构等等。

在一些实施例中，对每一时段的语音片段进行编解码处理，以预测每一时段的语音片段对应的预测文本标签，包括：通过编码器(也即转写模型中的编码器部分)对当前时段的语音片段进行编码处理，以获得固定维度的语音编码特征；通过解码器(也即转写模型中的解码器部分)对所述固定维度的语音编码特征和当前时段之间获得的历史预测文本标签进行解码处理，以预测获得所述当前时段的语音片段对应的预测文本标签。通过遍历每个时段的语音片段，依次对目标语种对应的语音片段进行识别以预测文本标签，文本标签可以对应为字符序列或者音素序列。

在一些实施例中，所述通过解码器对所述固定维度的语音编码特征和当前时段之间获得的历史预测文本标签进行解码处理，以预测获得所述当前时段的语音片段对应的预测文本标签，包括：通过解码器提取当前时段之前已预测获得的历史预测文本标签中的高维抽象的文本表征信息，例如当前时段为第t时段，则历史预测文本标签则可以是第t-1时段及其之前的经由已训练的转写模型识别获得的预测文本标签；通过解码器将固定维度的语音编码特征和高维抽象的文本表征信息进行基于注意力机制的融合处理，以获得融合特征；通过解码器对所述融合特征进行处理，以预测获得当前时段的所述语音片段对应的预测文本标签。

固定维度的语音编码特征的提取方法可以是任意适合的方法，例如所述通过编码器对当前时段的语音片段进行编码处理，以获得固定维度的语音编码特征，包括：提取所述当前时段的语音片段的声学特征，例如FilterBank特征、梅尔倒谱系数特征(MFCC)或者其他适合的特征，可以采用任意适合的方法提取声学特征，在此不做具体限定；将所述声学特征输入到卷积网络模块中，以提取所述声学特征中的抽象语音表征信息；将所述抽象语音表征信息输入到所述编码器的多个Tansformer网络结构中，以提取高维抽象的语音表征信息；将所述高维抽象的语音表征信息输入到前馈神经网络层进行处理，以输出所述固定维度的语音编码特征。

其中，编码器的Tansformer网络结构的数量可以根据实际需要合理设定，每个Tansformer网络结构可以基于本领域技术人员熟知的Tansformer block 实现，在此不做具体限定。在一些实施例中，编码部分采用Transformer结构。 Transformer采用了以Self-Attention作为基础单元的结构，Transformer可以更为有效地学习输入的上下文关系，从而给出更丰富准确的语音编码特征。例如编码器部分使用的Transformer block可以由预定数量(例如6个)的相同的复合层组成。每个复合层由多头自注意力机制和全连接的位置前馈网络组成。除了第一个复合层，其他复合层以前一层的输出作为输入。在复合层中，每一个单层之后，都会通过一个类似于残差结构的网络和一个规范化层进行处理。

在一些实施例中，解码器部分可以通过任意适合的方法提取高维抽象的文本表征信息，例如所述通过解码器提取当前时段之前已预测获得的历史预测文本标签中的高维抽象的文本表征信息，包括：将所述历史预测文本标签转换为字符嵌入向量(也即文本嵌入向量)；将所述字符嵌入向量输入到卷积网络模型提取抽象文本表征信息；将所述抽象文本表征信息输入到所述解码器的多个Tansformer网络结构中，以提取所述高维抽象的文本表征信息。

在一些实施例中，可以使用基于Transformer的解码器来产生文本内容。可选地，解码器同样可以具有N个复合层，不同的是，每个复合层可以具有四个单层：一层普通的Multi-head Self-Attention、一个处理话题词之间关系的 Multi-head Self-Attention(称为话题多头自注意力)、一个处理知识图谱信息的 Multi-head Self-Attention(称为知识多头自注意力)以及一个全链接的前馈神经网络。每个单层之间同样使用规范化层进行处理。其中，对于话题多头自注意力机制，使用话题词的隐藏状态向量来进行权重计算。在知识多头自注意力机制中，使用三元组的隐藏状态向量来进行权重计算。其中，上述其中N 为预先设定好的任意正整数，可以为6或12或者其他适合的值。

通过预测每个语音片段的预测文本标签，并将所有语音片段的预测文本标签按照时间顺序进行合并，从而获得待识别语音信息的预测文本标签，进而通过预测文本标签可以生成与待识别语音信息对应的文本信息。

当获取到文本信息后还可以通过显示器显示该文本信息，以使得用户能够获取到该文本信息。

在一个具体示例中，如图3所示，以蒙古语和汉语混合的语音识别为例，首先可以将原始语音数据经过VAD进行分段并过滤其中的无效语音，以获得待识别语音信息，该待识别语音信息中包括多个语音片段，该些语音片段为有效语音，接着通过已训练的语种识别模型对当前时段的语音片段进行语种识别，以预测当前时段的语音片段中所述目标语种的得分，其中，所述目标语种的得分包括所述第一语种的第一得分和所述第二语种的第二得分；将所述第一得分和所述第一阈值进行比较，以及将所述第二得分和所述第二阈值进行比较，当所述第一得分小于所述第一阈值和所述第二得分小于所述第二阈值时，则确定所述语种信息包括目标语种，当语音片段的语种信息中包括目标语种例如蒙古语和汉语时，则将当前时段的语音片段通过已训练的转写模型(例如蒙汉转写模型)进行识别，以将该语音片段转换为文本信息(也即文字结果)，并输出文本信息，通过本申请的转写模型，能够对整句和子句包含混合语种(例如蒙古语和汉语混合)的语音实现混说结果(例如蒙汉混说文字结果)输出。

下文，将对转写模型的训练过程进行介绍

以内蒙古语和汉语的混合语音为例，内蒙古语作为我国蒙古族主要的民族语言，具有悠久的历史，随着蒙古族和汉族在社会、政治、经济等方面交流日益密切，加上近年来互联网、信息产业的高速发展，在日常沟通中涌现出多语言混合现象。其中由于传统蒙古文无法描述一些新构词汇，因此，内蒙古语与汉语混说情况日益增多。然而相关技术主要针对单一语种建模，在多语种混合的复杂场景中，通过对输入语流进行前端预处理切分成子句，然后对子句进行语种置信度判断，然后经过最高置信度的语种对应语音识别模型输出识别结果，最后拼接子句的识别结果作为最终整句结果输出。然而上述相关技术存在以下缺陷：

(1)整句语音经过预处理成子句，再用该子句对应语种的语音识别模型输出识别结果，因此子句中包含蒙汉混合的情况仍无法解决，很可能会导致无法获得准确的文字结果或者甚至无法获得识别结果。

(2)实际场景中，因多语种混合的语料收集相对较难，且尚无统一的语言学规范，因此在训练语料的构建方面难度较大，例如低资源的蒙汉混合语料无法满足复杂语音识别模型的训练需求导致模型效果无法达到实用门槛。

训练的过程通过可以包括数据构建、模型构建、模型训练等过程。

首先，在数据构建部分，为了解决多语种混合的语料收集相对较难，且尚无统一的语言学规范等问题，如图3所示，先对例如蒙古语的单语种语料合成仿真，以获得目标语种的合成语音，所述合成语音是对所述目标语种的历史文本对应的音素序列以及所述目标语种的历史语音的声纹信息进行合成获得的，例如经文本到语音(text-to-speech,简称TTS)模型进行合成获得， TTS模型还可以是GlowTTS，或者其他适合的模型。具体地合成过程在此不做具体限定。

由于例如蒙古语的小语种的文本数据较语音数据更易收集，将其转换为音素序列后，通过合成器生成对应的语音数据，为了提升合成语音的音色多样性且更贴合真实蒙古语语音，因此额外加入了目标语种的历史语音的声纹信息例如真实蒙古语语音对应的声纹特征，在合成时随机挑选一个声纹特征进行语音合成。

通过语音合成方案能够利用更易收集的文本数据便捷得扩充语音数据，从而缓解有些目标语种例如蒙古语的真实语料较少无法构建复杂模型训练数据的问题。但合成的蒙古语语音中音色较少(仍然是基于少量说话人的声纹特征进行语音合成)，因此语音数据虽然足够，但普通方法得到的识别模型效果仍然不理想。

进一步，为了提升识别模型效果，本申请数据构建时，还进行了多语种随机拼接、数据增广。一方面ED模型(也即Encoder-Decoder模型)通常在短语音上识别率较高，在长语音上识别率较差，主要是由于训练数据进行了VAD 切分之后再进行标注，导致训练集大部分都是短语音，在长语音上的泛化能力较弱；另一方面混合语料较单语种语料更难收集。因此本申请在数据构建时进行了多语种随机拼接，从训练集中随机抽取两条语音进行拼接，获得拼接语音，同时也将对应的文本标签按顺序进行拼接，构成一条平行数据，可以增加语音的时长，再和原始的训练数据集进行混合，扩充了语料，增加数据多样性，特别是增加长短语料分布多样性。

此外在原始语音基础上加音乐、混响等背景噪声，进一步增加增广训练数据。

因此，所述转写模型的训练数据包括所述目标语种的合成语音和对应的文本信息、目标语种的原始语音对应的文本信息、目标语种的拼接语音和对应的文本信息、目标语种的增广语音，其中，所述合成语音是对所述目标语种的历史文本对应的音素序列以及所述目标语种的历史语音的声纹信息进行合成获得的，所述拼接语音是将所述训练数据中的随机抽取的两条语音进行拼接获得的，所述增广语音是在所述原始语音中加入背景噪声后获得的。

接着，在模型构建部分

如图4所示，该转写模型是基于encoder-decoder框架的语音识别模型，其主要包含两个分支，Encoder分支(也即编码器部分)和Decoder分支(也即解码器部分)，待训练的转写模型的编码器包括依次连接的特征提取模块、卷积网络模块、多个第一Tansformer网络结构、前馈神经网络层、反卷积网络模块、全连接层和归一化网络模块，待训练的转写模型的解码器包括依次连接的转换模块、卷积网络模块、多个第二Tansformer网络结构、前馈神经网络层和归一化网络模块，可选地，归一化网络模块包括但不限于softmax模块。待训练的转写模型和已训练的转写模型在结构上是有区别的，其中，编码器的反卷积网络模块、全连接层和归一化网络模块是为了辅助进行训练使用的，在训练好的撰写模型中编码器中没有反卷积网络模块、全连接层和归一化网络模块。其中，Encoder分支的特征提取模块可以用于将音频数据(例如语音信息)提取FilterBank特征作为输入，通过卷积网络模块提取抽象语音表征信息，然后通过N个Tansformer Block提取高维抽象的语音表征信息，最后通过前馈模块(例如前馈神经网络(FFN)层)获取到固定维度的语音编码特征。

Decoder分支一方面用于将语音对应的文本序列转换为字符嵌入向量(Embedding)做输入，通过卷积网络模块模型提取抽象文本表征信息，再通过M个Tansformer Block提取高维抽象的文本表征信息；另一方面将Encoder 分支的输出做为输入与高维抽象文本特征通过注意力机制进行特征加权融合，最后通过前馈神经网络模块和softmax输出预测的文本序列。

接着，在模型训练部分中，会进行以下步骤过程：

1)随机语音特征掩码

在训练过程中，对提取的声学特征进行随机掩码处理，其中，所述随机掩膜处理包括：随机在所述声学特征对应的频谱图中遮挡预定数量的时域特征，和/或，随机在所述声学特征对应的频谱图中遮挡预定数量的频域特征；

基于encoder-decoder框架的语音识别模型会存在一定的过拟合问题，模型会对已知数据预测得很好，而对未知数据预测的很差，本申请在模型训练阶段设计时域和频域随机语音特征掩码，无需引入额外的数据，通过直接对频谱图(也即提取的声学特征的频谱图)进行增强，来解决过拟合问题，从而提升语音识别准确率。时域语音特征掩码指随机在频谱图中遮蔽某一些时域的特征(如图5所示的T-MASK标记位置)，频域语音特征掩码是指随机在频谱图中遮蔽一些频域的特征(如图5所示的F-MASK标记位置)，该策略可以帮助模型面对部分频率信号的损失以及部分时间段的信号缺失时更加鲁棒。

2)随机文本特征扰动

在语音识别模型训练阶段，解码预测t时刻的文本标签，会将t-1时刻及之前的真实文本标签作为输入信息引入。然而在应用阶段时，解码预测t时刻的文本标签，只能依靠t-1时刻及之前的模型预测文本标签作为输入。

为了缓解模型训练和模型推理环节针对历史文本标签输入信息之间的偏差，本申请设计了两种随机文本特征扰动策略，一个是针对文本字符级颗粒度，另一个是针对文本音素级更细的颗粒度。该策略只应用在模型训练阶段，在训练过程中对训练数据集中的文本信息对应的真实文本标签进行随机文本特征扰动，其中，所述随机文本特征扰动包括将随机挑选的真实文本标签的随机位置以预定比例使用非真实标签的字符或音素替代(也即为和真实文本标签不同的字符或音素)，进而增加模型在推理环节，针对历史时刻存在部分预测文本标签有问题时对当前文本标签预测的鲁棒性。通过字符和音素两种颗粒度的文本随机扰动也大大增强了在模型推理阶段，当前时刻解码受历史时刻预测标签错误的抗干扰性能。

由于本申请的转写模型采用端到端框架，训练阶段Encoder分支将语音做输入提取FilterBank特征，在该过程采用前面提到的随机特征掩码增加输入数据的多样性，接着通过卷积网络提取浅层表征，然后通过N个transformer block进一步获得语音高维表征，最后通过前馈层(也即前馈神经网络层)获得Encoder分支输出；Decoder分支输入包括两部分，一个是训练数据中的语音对应的真实文本标签(例如人工标注文本标签)，接着转化为文本 Embedding和卷积网络获得浅层文本表征，然后通过N个transformer block 获得深层文本表征(也即高维抽象的文本表征信息)，另一个输入是Encoder 分支的输出，将其与历史时刻的深层文本信息进行对齐融合后，通过前馈层和softmax来预测当前时刻的文本输出，依次获得所有时刻的完整文本输出后，通过与已知人工标注结果进行比对和误差反馈，从而迭代模型内部参数。

为了提升语音识别模型效果，本申请提出一种多任务(Multi Task)训练模型，包括针对Encoder分支的编码器连接时序分类(Connectionist Temporal Classification，CTC)损失函数(也即Encoder CTC Loss)、编码器音素交叉熵 (Cross Entropy Loss，CE)损失函数(Encoder Phone CE Loss)、Decoder分支的解码器字符CE损失函数(也即DecoderChar CE Loss)和解码器序列区分度(Sequence Discriminative training，简称SDT)损失函数(也即SDT Loss)，其中SDT损失函数也即是一种最小化字错误率训练的损失函数。

在一些实施例中，预先通过以下步骤训练获得所述已训练的转写模型包括以下：获取训练数据，其中，所述训练数据包括语音信息和语音信息对应的文本标签，可选地，获取训练数据的过程包括：获取训练数据集中的语音信息对应的真实文本标签，对训练数据集中的文本信息对应的真实文本标签进行随机文本特征扰动，其中，所述随机文本特征扰动包括将随机挑选的真实文本标签的随机位置以预定比例使用非真实标签的字符或音素替代。通过所述特征提取模块提取输入的训练数据集中的当前时段的语音信息的声学特征，并对提取的所述声学特征进行前述的随机掩码处理；通过所述编码器的卷积网络模块、所述多个第一Tansformer网络结构和所述前馈神经网络层提取所述声学特征中的固定维度的语音编码特征；基于CTC损失函数对所述固定维度的语音编码特征进行损失计算，以获得第一损失；使用反卷积网络模块将所述固定维度的语音编码特征对应的时间维度升采样至与输入的当前时段的语音信息的时间维度一致，并利用全连接层和归一化网络模块对所述反卷积网络模块的输出进行处理后，以获得预测音素标签；利用交叉熵损失函数计算获得取所述预测音素标签的音素序列相对真实标签对应的音素序列的第二损失；在所述训练数据中获取当前时段之前的语音信息对应的文本标签；将当前时段之前的语音信息对应的文本标签输入到所述转换模块,以转换为字符嵌入向量；将所述字符嵌入向量输入到所述解码器的卷积网络模型提取抽象文本表征信息；将所述抽象文本表征信息输入到所述解码器的多个第二Tansformer网络结构中，以提取所述高维抽象的文本表征信息；将所述编码器的前馈神经网络层输出的所述固定维度的语音编码特征和所述高维抽象的文本表征信息通过注意力机制进行特征加权融合，以获得融合特征；将所述融合特征输入到所述前馈神经网络层和所述归一化网络模块进行处理，以获得预测文本序列；利用交叉商损失函数计算所述预测文本序列的字符级的第三损失；利用句子级别损失函数计算所述预测文本序列的第四损失；将所述第一损失、所述第二损失、所述第三损失和所述第四损失进行加权求和得到总体损失；利用所述总体损失调整待训练的转写模型中的模型参数，以得到所述已训练的转写模型，通过使总体损失越来越小的迭代更新过程，直到待训练的转写模型收敛，而获得已训练的转写模型。

其中，Encoder CTC Loss主要为了提升蒙汉识别模型在带噪音频、长音频方面的效果，通过引入CTC损失函数辅助Encoder输入特征更好的完成特征对齐，从而获得高纯度的信息编码尖峰提升解码效果，CTC损失函数的损失用于表征预测标签序列相对包含空白(blank)的真实标签序列的差异。

具体公式如下所示，其中y^*表示包含空白(blank)的真实标签序列，x 表示输入。

Encoder Phone CE Loss的引入加强Encoder输出特征对音素信息的预测能力，使用反卷积模块将Encoder输出时间维度升采样至原始输入一致，再利用全连接层接softmax和Encoder Phone CE损失函数获得第二损失也即音素标签预测损失。具体公式如下所示，其中y_n表示真实标签对应的音素序列，W_yn表示权重，

表示音素序列对应的损失，X_n表示输入，C表示类别。

Decoder Char CE loss通过全连接层接softmax获得解码器预测的文本序列字符级的损失(也即第三损失)。具体公式与

基本一致，需将真实音素序列标签替换为真实字序列标签。

Decoder SDT loss是句子级别损失函数，旨在平衡其他目标函数引入的插入、删除错误)。具体公式如下所示，其中

为 N-best序列(也即候选序列)的字错误率平均值，

表示给定输入x输出是第i个候选序列的概率，W(yi,y^*)表示yi的字错误率，x表示输入。

将上述损失函数加权求和得到网络训练的总体损失函数，如以下公式：

其中，权重W1、W2、W3、W4的数值可以根据实际需要合理设定，例如可以使得四者均为0.25，或者，还可以使得W2和W3分别大于W1、W4。

通过多任务训练中设计的四个损失函数，且不同损失函数之间性能互补，保障了转写模型的整体性能。

需要说明的是，连接时序分类(Connectionist Temporal Classification，CTC)损失函数是指基于时间序列标注的一种损失函数。目前相关技术中已有的构建CTC损失函数、交叉熵损失函数、SDT损失函数的相应方法也同样适用于本申请。

基于上面的描述，通过本申请的混合语种语音识别方法，先对所述待识别语音信息进行语种识别，以确定所述待识别语音信息的语种信息，从而对语音信息的数据进行筛选，当筛选到语音信息中包括目标语种时，将所述待识别语音信息输入到已训练的转写模型中，以将所述待识别语音信息转换为文本信息，从而使得输入到转写模型的数据更加符合模型要求，提高模型的识别效率，进而使得获得的文本信息的准确性更高，能够输出多语种语音混合的识别结果，提升用户的使用体验。

下面将结合图7描述根据本申请另一方面提供的一种混合语种语音识别装置700，其可以用于执行前文所述的根据本申请实施例的混合语种语音识别方法。

如图7所示，混合语种语音识别装置700可以包括：获取模块710，用于获取待识别语音信息；语种识别模块720，用于对所述待识别语音信息进行语种识别，以确定所述待识别语音信息的语种信息；转写模块730，用于当所述语种信息包括目标语种时，将所述待识别语音信息输入到已训练的转写模型中，以将所述待识别语音信息转换为文本信息，所述目标语种包括第一语种和/或第二语种，所述文本信息中包括所述第一语种和所述第二语种对应的混合语种文本信息。该装置的各个模块的细节可以参考前文方法的相关描述，在此不再一一描述。

下面将结合图8描述根据本申请另一方面提供的一种混合语种语音识别系统800，其可以用于执行前文所述的根据本申请实施例的混合语种语音识别方法。

前述实施例的混合语种语音识别装置可以用于混合语种语音识别系统 800，该混合语种语音识别系统800可以例如为各种终端设备，例如手机、电脑、平板电脑等。

如图8所示，混合语种语音识别系统800可以包括存储器810和处理器 820，存储器810存储有由处理器820运行的计算机程序，所述计算机程序在被处理器820运行时，使得处理器820执行前文所述的根据本申请实施例的混合语种语音识别方法100。本领域技术人员可以结合前文所述的内容理解根据本申请实施例的混合语种语音识别方法100的具体操作，为了简洁，此处不再赘述具体的细节。

处理器820可以为本领域公知的任何处理系统，例如，中央处理单元 (CPU)、图形处理单元(GPU)、微处理器、微控制器、现场可编程门阵列 (FPGA)等，本发明对此不作限定。

其中，存储器810用于存储一个或更多个神经网络的网络参数。示例性地，存储器810可以为RAM、ROM、EEPROM、闪存或者其他存储技术、 CD-ROM、数字多功能盘(DVD)或其他光盘存储装置、磁带盒、磁带、磁盘存储装置或其他磁存储系统，或者可以用来存储期望的信息且可以由处理器820访问的任何其他介质。

混合语种语音识别系统800还包括显示器(未示出)，该显示器可以用于显示各种可视化信息，例如显示转写获得的文本信息等。

混合语种语音识别系统800还可以包括通信接口(未示出)，可以通过通信总线实现处理器、通信接口、存储器等硬件之间的信息交互。

此外，根据本申请实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本申请实施例的混合语种语音识别方法100的相应步骤。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器 (CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本申请的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本申请的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本申请的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本申请的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者系统的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不任何顺序。可将这些单词解释为名称。

Claims

1.一种混合语种语音识别方法，其特征在于，所述识别方法包括以下步骤：

获取待识别语音信息；

当所述语种信息包括目标语种时，将所述待识别语音信息输入到已训练的转写模型中，以将所述待识别语音信息转换为文本信息，所述目标语种包括第一语种和第二语种，所述文本信息中包括所述第一语种和所述第二语种对应的混合语种文本信息，其中，

所述转写模型的训练过程包括：

2.如权利要求1所述的识别方法，其特征在于，所述转写模型为基于编码器-解码器框架的语音识别模型，其中，待训练的转写模型的编码器包括依次连接的特征提取模块、卷积网络模块、多个第一Tansformer网络结构、前馈神经网络层、反卷积网络模块、全连接层和归一化网络模块，待训练的转写模型的解码器包括依次连接的转换模块、卷积网络模块、多个第二Tansformer网络结构、前馈神经网络层和归一化网络模块，其中，所述方法预先通过以下步骤训练获得所述已训练的转写模型：

将当前时段之前的语音信息对应的文本标签输入到所述转换模块，以转换为字符嵌入向量；

利用句子级别损失函数计算所述预测文本序列的第四损失；

3.如权利要求2所述的识别方法，其特征在于，所述获取训练数据，包括：

获取所述训练数据集中的语音信息对应的真实文本标签；

4.如权利要求1至3中任一项所述的识别方法，其特征在于，所述第一语种为小语种，所述转写模型的训练数据包括所述第一语种的合成语音和对应的文本标签、目标语种的原始语音对应的文本标签、目标语种的拼接语音和对应的文本标签、目标语种的增广语音，其中，所述合成语音是对所述第一语种的历史文本对应的音素序列以及所述第一语种的历史语音的声纹信息进行合成获得的，所述拼接语音是将所述训练数据中的随机抽取的两条语音进行拼接获得的，所述增广语音是在所述原始语音中加入背景噪声后获得的。

5.如权利要求1所述的识别方法，其特征在于，所述对获取的待识别语音信息进行语种识别，以确定所述待识别语音信息的语种信息，包括：

6.如权利要求1所述的识别方法，其特征在于，所述转写模型为基于编码器-解码器框架的语音识别模型，所述待识别语音信息包括多个时段的语音片段，所述将所述待识别语音信息输入到已训练的转写模型中，以将所述待识别语音信息转换为文本信息，包括：

7.如权利要求1所述的识别方法，其特征在于，所述获取待识别语音信息包括：

获取原始语音信息；

8.一种混合语种语音识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别语音信息；

所述转写模型的训练过程包括：

9.一种混合语种语音识别系统，其特征在于，所述系统包括存储器和处理器，所述存储器上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时，使得所述处理器执行如权利要求1-7中的任一项所述的混合语种语音识别方法。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序在运行时，执行如权利要求1-7中的任一项所述的混合语种语音识别方法。