CN115831094B

CN115831094B - 一种多语种语音识别方法、系统、存储介质和电子设备

Info

Publication number: CN115831094B
Application number: CN202211392274.0A
Authority: CN
Inventors: 张熙庆
Original assignee: Shumei Tianxia Beijing Technology Co ltd; Beijing Nextdata Times Technology Co ltd
Current assignee: Shumei Tianxia Beijing Technology Co ltd; Beijing Nextdata Times Technology Co ltd
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-08-15
Anticipated expiration: 2042-11-08
Also published as: CN115831094A

Abstract

本发明涉及一种多语种语音识别方法、系统、存储介质和电子设备，包括：基于多个原始语音样本，对添加有语种识别模块的原始语音识别网络进行训练，得到第一多语种语音识别模型；当待测语音的语种类别不为测试者所获知时，将所述待测语音输入至所述第一多语种语音识别模型，得到所述待测语音的语音识别结果和语种识别结果。本发明在使用单模型完成多语种语音识别的同时，还能够利用已知的语种信息提升语音识别的精度。

Description

一种多语种语音识别方法、系统、存储介质和电子设备

技术领域

本发明涉及深度学习技术领域，尤其涉及一种多语种语音识别方法、系统、存储介质和电子设备。

背景技术

随着深度学习的普及以及带标注语音训练数据量的增长，单一语种的大词表通用语音识别逐渐普及并且获得了比较好的效果。但是单模型多语种的语音识别仍然具有较高的挑战。存在但不限于以下困难点：1)使用语种识别和语音识别级联的方式，会造成语种识别的错误传递给语音识别模块，并且需要训练多个语种的语音识别模型。2)多语种训练数据量的不平衡，直接使用单模型进行多语种识别存在难度。3)在某些多语种识别的场景下，已知语种信息，但是无法在语音识别模块中有效利用。

因此，亟需提供一种技术方案解决上述技术问题。

发明内容

为解决上述技术问题，本发明提供了一种多语种语音识别方法、系统、存储介质和电子设备。

本发明的一种多语种语音识别方法的技术方案如下：

基于多个原始语音样本，对添加有语种识别模块的原始语音识别网络进行训练，得到第一多语种语音识别模型；

当待测语音的语种类别不为测试者所获知时，将所述待测语音输入至所述第一多语种语音识别模型，得到所述待测语音的语音识别结果和语种识别结果。

本发明的一种多语种语音识别方法的有益效果如下：

本发明的方法在使用单模型完成多语种语音识别的同时，提高了对多语种语音识别的精度。

在上述方案的基础上，本发明的一种多语种语音识别方法还可以做如下改进。

进一步，还包括：

当所述待测语音的语种类别为所述测试者所获知时，将所述第一多语种语音识别模型中的所述语种识别模块进行删除，得到第一语音识别模型；

对所述待测语音的语种类别进行编码，得到所述待测语音的目标语种编码特征，并将所述目标语种编码特征添加至所述第一语音识别模型中，得到目标语音识别模型；

将所述待测语音输入至所述目标语音识别模型中，得到所述待测语音的语音识别结果。

进一步，所述语种识别模块包括：语种特征子模块、时间权重子模块、第一全连接线性层、第二全连接线性层、第一1D线性层和Softmax层；所述语种识别模块用于：

接收上一层输出的第一语音特征，并将所述第一语音特征分别输入至所述语种特征子模块和所述时间权重子模块进行处理，得到所述语种特征子模块输出的第一语种特征和所述时间权重子模块输出的时间权重特征；

对所述第一语种特征与所述时间权重特征进行特征相乘，得到并将第二语种特征输入至所述第一全连接线性层进行线性处理，得到第三语种特征；

将所述第三语种特征输入至所述Softmax层进行处理，得到第四语种特征和语种预测结果，并将所述第四语种特征输入至所述第二全连接线性层进行语种编码处理，第一语种编码特征；

对所述第一语种编码特征和所述第一语种特征进行特征相乘，得到并将第二语种编码特征输入至所述第一1D线性层进行处理，得到第三语种编码特征；

对所述第三语种编码特征与所述第一语音特征进行特征合并，得到并将第二语音特征输入至下一层。

进一步，所述基于多个原始语音样本，对添加有语种识别模块的原始语音识别网络进行训练，得到第一多语种语音识别模型，包括：

对每个原始语音样本进行预处理，得到每个原始语音样本对应的Fbank特征，并基于多个Fbank特征，对添加有所述语种识别模块的所述原始语音识别网络进行训练，得到所述第一多语种语音识别模型。

进一步，所述基于多个Fbank特征，对添加有所述语种识别模块的所述原始语音识别网络进行训练，得到所述第一多语种语音识别模型的步骤，包括：

将每个Fbank特征输入至添加有所述语种识别模块的所述原始语音识别网络，得到并根据每个Fbank特征对应的语种识别损失值和语音识别损失值，生成每个Fbank特征的目标损失值；

根据所有的目标损失值对添加有所述语种识别模块的所述原始语音识别网络的参数进行优化，得到优化后的多语种语音识别模型；

将所述优化后的多语种语音识别模型作为添加有所述语种识别模块的所述原始语音识别网络，并返回执行所述将每个Fbank特征输入至添加有所述语种识别模块的所述原始语音识别网络的步骤，直至所述优化后的多语种语音识别模型满足预设迭代训练条件时，得到所述第一多语种语音识别模型。

本发明的一种多语种语音识别系统的技术方案如下：

包括：训练模块和第一识别模块；

所述训练模块用于：基于多个原始语音样本，对添加有语种识别模块的原始语音识别网络进行训练，得到第一多语种语音识别模型；

所述第一识别模块用于：当待测语音的语种类别不为测试者所获知时，将所述待测语音输入至所述第一多语种语音识别模型，得到所述待测语音的语音识别结果和语种识别结果。

本发明的一种多语种语音识别系统的有益效果如下：

本发明的系统在使用单模型完成多语种语音识别的同时，提高了对多语种语音识别的精度。

在上述方案的基础上，本发明的一种多语种语音识别系统还可以做如下改进。

进一步，还包括：第二识别模块；所述第二识别模块用于：

本发明的一种存储介质的技术方案如下：

存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如本发明的一种多语种语音识别方法的步骤。

本发明的一种电子设备的技术方案如下：

包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，使所述计算机执行如本发明的一种多语种语音识别方法的步骤。

附图说明

图1为本发明实施例的一种多语种语音识别方法的流程示意图；

图2为本发明实施例的一种多语种语音识别方法中的原始语音识别网络的结构示意图；

图3为本发明实施例的一种多语种语音识别方法中的第一多语种语音识别模型的结构示意图；

图4为本发明实施例的一种多语种语音识别方法中的语种识别模块的结构示意图；

图5为本发明实施例的一种多语种语音识别方法中的原始语音样本预处理的流程示意图；

图6为本发明实施例的一种多语种语音识别系统的结构示意图。

具体实施方式

如图1所示，本发明实施例的一种多语种语音识别方法，包括如下步骤：

S1、基于多个原始语音样本，对添加有语种识别模块的原始语音识别网络进行训练，得到第一多语种语音识别模型。

其中，①原始语音样本为：任意语种的语音样本。②原始语音识别网络为：现有的语音识别网络，如图2所示，具体为Conformer Encoder的网络结构，包括依次连接的卷积下采样模块、12个Conformer模块、全连接层和Softmax。③语种识别模块用于：对语音特征对应的语种类别进行识别，输出语种预测值和语种编码特征。④第一多语种语音识别模型为：经过训练后的多语种语音识别模型，具体结构如图3所示。

具体地，将每个原始语音样本分别输入至添加有语种识别模块的原始语音识别网络中进行迭代训练，直至满足预设训练条件时，得到第一多语种语音识别模型。

S2、当待测语音的语种类别不为测试者所获知时，将所述待测语音输入至所述第一多语种语音识别模型，得到所述待测语音的语音识别结果和语种识别结果。

其中，①待测语音为：任意语种的语音数据，该待测语音的语种类别可以为测试者已知，也可以是未知的。②语音识别结果为：对待测语音进行识别后所得到的转译文本。③语种识别结果为：待测语音的语种类别的概率。例如，待测语音的语种类别为中文的概率为0.85。

需要说明的是，对于待测语音的语种类别是否为测试者所获知的判断，可通过设置一个交互界面供测试者选择。例如，在测试者对待测语音开始识别之前，在交互界面显示“语种类别已知”和“语种类别未知”的选项，当测试者选择“语种类别未知时，执行将所述待测语音输入至所述第一多语种语音识别模型，得到所述待测语音的语音识别结果和语种识别结果。上述例子仅用于解释说明，并不限于上述方式判断待测语音的语种类别是否为测试者所获知。

较优地，还包括：

当所述待测语音的语种类别为所述测试者所获知时，将所述第一多语种语音识别模型中的所述语种识别模块进行删除，得到第一语音识别模型。

其中，第一语音识别模型为：经过训练后的Conformer Encoder的网络结构。

对所述待测语音的语种类别进行编码，得到所述待测语音的目标语种编码特征，并将所述目标语种编码特征添加至所述第一语音识别模型中，得到目标语音识别模型。

其中，①目标语种编码特征为：(已知语种类别)待测语音的语种编码特征。②目标语音识别模型为：将语种编码特征与Conformer Encoder网络的Conformer模块所输出的语音特征在特征维度进行合并后所得到的语音识别模型，能够利用已知的语种信息提升语音识别的精度。

具体地，将已知语种类别的待测语音输入至目标语音识别模型中进行语音识别，得到待测语音的转译文本。

需要说明的是，上述例子的基础上，当测试者选择“语种类别已知”时，依次执行相应的步骤。上述例子仅用于解释说明，并不限于上述方式判断待测语音的语种类别是否为测试者所获知。

较优地，所述语种识别模块包括：语种特征子模块、时间权重子模块、第一全连接线性层、第二全连接线性层、第一1D线性层和Softmax层。

其中，如图4所示，①语种特征子模块包括：依次连接的第二1D线性层、Swish激活函数层和第一卷积层。②时间权重子模块包括：依次连接的第三1D线性层、Relu激活函数层和第一点卷积层。

所述语种识别模块用于：

接收上一层输出的第一语音特征，并将所述第一语音特征分别输入至所述语种特征子模块和所述时间权重子模块进行处理，得到所述语种特征子模块输出的第一语种特征和所述时间权重子模块输出的时间权重特征。

其中，①上一层是指：原始语音识别网络中的所在层的上一层，具体为：ConformerEncoder网络中的连续12个Conformer模块的最后一个Conformer模块。②第一语音特征为：经过最后一个Conformer模块处理后所输出的语音特征。③输入至语种特征子模块中的第二1D线性层的第一语音特征的特征维度为：[D*H]。④输入至时间权重子模块的第三1D线性层的第一语音特征的特征维度为：[D*1]。⑤第一语种特征为：第一语音特征依次经过第二1D线性层、Swish激活函数层和第一卷积层进行处理后所得到的语种特征，其对应的特征维度为：[T*H]。⑥时间权重特征为：第一语音特征依次经过第三1D线性层、Relu激活函数层和第一点卷积层进行处理后所得到的时间权重特征，其对应的特征维度为：[T*1]。

需要说明的是，时间权重特征是第一点卷积层的输出是conformer输出长度T维度的向量，矩阵相乘时作为注意力机制，即第一语种特征不同时间位置上的权重。

对所述第一语种特征与所述时间权重特征进行特征相乘，得到并将第二语种特征输入至所述第一全连接线性层进行线性处理，得到第三语种特征。

其中，①第二语种特征为：第一语种特征与时间权重特征进行特征相乘后所得到的语种特征。②第三语种特征为：第二语种特征经过第一全连接线性层进行线性处理后所得到的语种特征。

需要说明的是，①在第一语种特征与时间权重特征进行特征相乘时，由于第一语种特征的特征维度为：[T*H]，时间权重特征的的特征维度为：[T*1]，两者进行特征相乘(矩阵乘法)时，需要将其中一个矩阵进行转制处理后再进行特征相乘。②语种特征进行特征相乘以及通过全连接线性层对语种特征进行线性处理的过程均为现有技术，其具体过程在此不过多赘述。

将所述第三语种特征输入至所述Softmax层进行处理，得到第四语种特征和语种预测结果，并将所述第四语种特征输入至所述第二全连接线性层进行语种编码处理，第一语种编码特征。

其中，①第四语种特征为：第三语种特征经过Softmax层进行处理后所得到的语种特征，具体为语种概率向量。②语种预测结果为：第三语种特征对应的语种的预测值。③第一语种编码特征为：第四语种特征经过第二全连接线性层进行语种编码处理后所得到的语种编码特征。

需要说明的是，①第二全连接线性层为语种编码层，其对应的特征维度为：[1*H]。②通过全连接线性层对语种特征进行语种编码处理的过程为：通过第二全连接线性层将第四语种特征(语种概率向量)进行映射，使得语种维度从N变为H。用数字式表示为：V_h＝V_n*W+b_h；其中，*为矩阵乘法，V_n为[1xN]的向量，即是经过Softmax层后所得到的N个语种各自的概率，如[0.8，0.1，0.1]。在已知语种的情况下，是语种的onehot编码，如[1，0，0]。W是[N*H]维度的矩阵，即第二全连接线性层中的线性变换矩阵；b_h是[1*H]的向量，即第二全连接线性层中的bias部分。

对所述第一语种编码特征和所述第一语种特征进行特征相乘，得到并将第二语种编码特征输入至所述第一1D线性层进行处理，得到第三语种编码特征。

其中，①第二语种编码特征为：第一语种编码特征和第一语种特征进行特征相乘所得到的语种编码特征。②第三语种语种编码特征为：第二语种编码特征经过第一1D线性层进行线性处理后所得到的语种编码特征。

需要说明的是，①第一1D线性层为语种编码层，用于将语种特征进行回传，具体为：对语种特征层输出(第一语种特征)和语种编码层输出(第一语种编码特征)的矩阵相乘的结果(第二语种编码特征)进行1D线性层处理得到回传的语种编码特征。

其中，下一层为：Conformer Encoder网络的全连接层。

较优地，步骤S1包括：

其中，如图5所示，对原始语音样本进行预处理的过程依次为：分帧、预加重、加窗、快速傅里叶变换、计算能量谱以及梅尔滤波器进行处理得到原始语音样本对应的Filterbank特征(Fbank特征)。

较优地，所述基于多个Fbank特征，对添加有所述语种识别模块的所述原始语音识别网络进行训练，得到所述第一多语种语音识别模型的步骤，包括：

将每个Fbank特征输入至添加有所述语种识别模块的所述原始语音识别网络，得到并根据每个Fbank特征对应的语种识别损失值和语音识别损失值，生成每个Fbank特征的目标损失值。

其中，①语种识别损失值为：Fbank特征对应的语种识别的预测值与真实值的差值。②语音识别损失值为：Fbank特征对应的语音识别的预测值与真实值的差值。③目标损失值为：语种识别损失值与语音识别损失值之间按照一定比例所计算得到的损失值。例如，A＝αA₁+(1-α)A₂，其中A为目标损失值，A₁为语种识别损失值，A₂为语音识别损失值，α为预设权重。

根据所有的目标损失值对添加有所述语种识别模块的所述原始语音识别网络的参数进行优化，得到优化后的多语种语音识别模型。

需要说明的是，根据损失值(损失函数)对模型参数进行优化的过程为现有技术，在此不设限制。

其中，预设迭代训练条件为：最大迭代训练次数或者模型收敛等。

本实施例的技术方案在使用单模型完成多语种语音识别的同时，提高了对多语种语音识别的精度。

如图6所示，本发明实施例的一种多语种语音识别系统200，包括：训练模块210和第一识别模块220；

所述训练模块210用于：基于多个原始语音样本，对添加有语种识别模块的原始语音识别网络进行训练，得到第一多语种语音识别模型；

所述第一识别模块220用于：当待测语音的语种类别不为测试者所获知时，将所述待测语音输入至所述第一多语种语音识别模型，得到所述待测语音的语音识别结果和语种识别结果。

较优地，还包括：第二识别模块；所述第二识别模块用于：

较优地，所述语种识别模块包括：语种特征子模块、时间权重子模块、第一全连接线性层、第二全连接线性层、第一1D线性层和Softmax层；所述语种识别模块用于：

上述关于本实施例的一种多语种语音识别系统200中的各参数和各个模块实现相应功能的步骤，可参考上文中关于一种多语种语音识别方法的实施例中的各参数和步骤，在此不做赘述。

本发明实施例提供的一种存储介质，包括：存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如一种多语种语音识别方法的步骤，具体可参考上文中一种多语种语音识别方法的实施例中的各参数和步骤，在此不做赘述。

计算机存储介质例如：优盘、移动硬盘等。

本发明实施例提供的一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，使所述计算机执行如一种多语种语音识别方法的步骤，具体可参考上文中的一种多语种语音识别方法的实施例中的各参数和步骤，在此不做赘述。

所属技术领域的技术人员知道，本发明可以实现为方法、系统、存储介质和电子设备。

因此，本发明可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等)，还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)，只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种多语种语音识别方法，其特征在于，包括：

当待测语音的语种类别不为测试者所获知时，将所述待测语音输入至所述第一多语种语音识别模型，得到所述待测语音的语音识别结果和语种识别结果；

所述语种识别模块包括：语种特征子模块、时间权重子模块、第一全连接线性层、第二全连接线性层、第一1D线性层和Softmax层；

所述语种识别模块用于：

将所述第三语种特征输入至所述Softmax层进行处理，得到第四语种特征和语种预测结果，并将所述第四语种特征输入至所述第二全连接线性层进行语种编码处理，得到第一语种编码特征；

2.根据权利要求1所述的多语种语音识别方法，其特征在于，还包括：

3.根据权利要求1所述的多语种语音识别方法，其特征在于，所述基于多个原始语音样本，对添加有语种识别模块的原始语音识别网络进行训练，得到第一多语种语音识别模型，包括：

4.根据权利要求3所述的多语种语音识别方法，其特征在于，所述基于多个Fbank特征，对添加有所述语种识别模块的所述原始语音识别网络进行训练，得到所述第一多语种语音识别模型的步骤，包括：

5.一种多语种语音识别系统，其特征在于，包括：训练模块和第一识别模块；

所述第一识别模块用于：当待测语音的语种类别不为测试者所获知时，将所述待测语音输入至所述第一多语种语音识别模型，得到所述待测语音的语音识别结果和语种识别结果；

所述语种识别模块包括：语种特征子模块、时间权重子模块、第一全连接线性层、第二全连接线性层、第一1D线性层和Softmax层；所述语种识别模块用于：

6.根据权利要求5所述的多语种语音识别系统，其特征在于，还包括：第二识别模块；所述第二识别模块用于：

7.一种存储介质，其特征在于，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如权利要求1至4中任一项所述的多语种语音识别方法。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，使所述计算机执行如权利要求1至4中任一项所述的多语种语音识别方法。