CN112530456B

CN112530456B - 一种语言类别的识别方法、装置、电子设备及存储介质

Info

Publication number: CN112530456B
Application number: CN202110186793.0A
Authority: CN
Inventors: 万同堂; 王秋明
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2021-02-18
Filing date: 2021-02-18
Publication date: 2021-05-28
Anticipated expiration: 2041-02-18
Also published as: CN112530456A

Abstract

本申请提供了一种语言类别的识别方法、装置、电子设备及存储介质，其中，该识别方法包括：将待识别语音中各原始帧的梅尔倒谱特征向量输入至第一语言类别识别模型中，确定第一语言类别识别模型中的高阶特征转换层输出的待识别语音中各合成帧的中间特征向量；基于各合成帧的中间特征向量，确定待识别语音的高阶特征向量；将高阶特征向量输入至第二语言类别识别模型中，确定待识别语音所属的目标语言类别；其中，第一语言类别识别模型为神经网络模型，第二语言类别识别模型为概率线性判断分析模型。本申请能够基于包含用于区分语音的语言类别的语音特征的高阶特征向量，确定待识别语音的语言类别，提高了语言类别识别的准确度。

Description

一种语言类别的识别方法、装置、电子设备及存储介质

技术领域

本申请涉及语音信息处理技术领域，具体而言，涉及一种语言类别的识别方法、装置、电子设备及存储介质。

背景技术

现阶段，随着多媒体信息技术的快速发展，语种识别技术在多语言语音识别系统、多语言语音处理系统中的作用越来越重要，其中，语种识别技术用于识别语音所使用的语言类别，比如，英语、汉语。

相关技术中，在对语音的语言类别进行识别时，首先提取语音的梅尔倒谱系数（Mel Frequency Cepstrum Coefficient, MFCC），再基于梅尔倒谱系数确定语音的语言类别。

但是，在生成梅尔倒谱系数的过程中，需要对语音信号中的高低频信号进行衰减，这使得梅尔倒谱系数中并不能包含语音信号的所有语音特征，即梅尔倒谱系数中缺失用于区分语音的语言类别的相关语音特征，进而造成基于梅尔倒谱系数确定语音的语言类别时，准确度低。

发明内容

有鉴于此，本申请实施例的目的在于提供一种语言类别的识别方法、装置、电子设备及存储介质，能够基于包含用于区分语音的语言类别的语音特征的高阶特征向量，确定待识别语音的语言类别，提高了语言类别识别的准确度。

第一方面，本申请实施例提供了一种语言类别的识别方法，所述识别方法包括：

将待识别语音中各原始帧的梅尔倒谱特征向量输入至预先训练好的第一语言类别识别模型中，确定所述第一语言类别识别模型中的高阶特征转换层输出的所述待识别语音中各合成帧的中间特征向量；

基于所述待识别语音中各合成帧的中间特征向量，确定所述待识别语音的高阶特征向量；

将所述待识别语音的高阶特征向量输入至预先训练好的第二语言类别识别模型中，确定所述待识别语音所属的目标语言类别；其中，所述第一语言类别识别模型为神经网络模型，所述第二语言类别识别模型为概率线性判断分析模型。

在一种可能的实施方式中，所述将待识别语音中各原始帧的梅尔倒谱特征向量输入至预先训练好的第一语言类别识别模型中，确定所述第一语言类别识别模型中的高阶特征转换层输出的所述待识别语音中各合成帧的中间特征向量，包括：

针对所述待识别语音的每个原始帧，根据该原始帧的梅尔倒谱特征向量，以及与该原始帧相邻的预设数量的其他原始帧的梅尔倒谱特征向量，更新该原始帧的梅尔倒谱特征向量；

根据所述待识别语音中各原始帧的更新后的梅尔倒谱特征向量，以及预设的每个合成帧包含的原始帧的数量，确定所述高阶特征转换层输出的所述待识别语音中各合成帧的中间特征向量。

在一种可能的实施方式中，所述基于所述待识别语音中各合成帧的中间特征向量，确定所述待识别语音的高阶特征向量，包括：

基于所述待识别语音中各合成帧的中间特征向量，确定所述待识别语音的合成特征向量；

基于所述待识别语音的合成特征向量，以及预设的投影矩阵，确定所述待识别语音的高阶特征向量；其中，所述高阶特征向量的维度小于所述合成特征向量的维度；所述投影矩阵用于降低合成特征向量的维度。

在一种可能的实施方式中，通过如下方式对所述第一语言类别识别模型进行训练：

获取多个样本语音，以及各个样本语音被标记的标准语言类别；

针对每个样本语音，将该样本语音的各原始帧的梅尔倒谱特征向量输入至第一初始语言类别识别模型中，确定该样本语音所属的第一预测语言类别；

根据每个样本语音所属的第一预测语言类别，以及该样本语音被标记的标准语言类别，确定该样本语音对应的第一损失值；

若各个样本语音对应的第一损失值均小于第一预设阈值，则将当前的第一初始语言类别识别模型确定为所述第一语言类别识别模型，否则，继续对当前的第一初始语言类别识别模型进行训练。

在一种可能的实施方式中，通过如下方式确定所述投影矩阵：

针对每个样本语音，将样本语音中各原始帧的梅尔倒谱特征向量输入至所述第一语言类别识别模型中，确定该样本语音的合成特征向量；

基于各个样本语音的合成特征向量，以及各个样本语音被标记的标准语言类别，计算类内聚散度矩阵和类间聚散度矩阵；

基于所述类内聚散度矩阵和类间聚散度矩阵，计算多个特征值，以及每个特征值对应的特征向量；其中，所述特征值的数量等于所述高阶特征向量的维度；

基于每个特征值对应的特征向量，确定所述投影矩阵。

在一种可能的实施方式中，通过如下方式对所述第二语言类别识别模型进行训练：

针对每个样本语音，将样本语音中各原始帧的梅尔倒谱特征向量输入至所述第一语言类别识别模型中，确定该样本语音的高阶特征向量；

将该样本语音的高阶特征向量输入至第二初始语言类别识别模型中，确定所述样本语音所属的第二预测语言类别；

根据每个样本语音所属的第二预测语言类别，以及该样本语音被标记的标准语言类别，确定该样本语音对应的第二损失值；

若各个样本语音对应的第二损失值均小于第二预设阈值，则将当前的第二初始语言类别识别模型确定为所述第二语言类别识别模型，否则，继续对当前的第二初始语言类别识别模型进行训练。

第二方面，本申请实施例提供了一种语言类别的识别装置，所述识别装置包括：

第一确定模块，用于将待识别语音中各原始帧的梅尔倒谱特征向量输入至预先训练好的第一语言类别识别模型中，确定所述第一语言类别识别模型中的高阶特征转换层输出的所述待识别语音中各合成帧的中间特征向量；

第二确定模块，用于基于所述待识别语音中各合成帧的中间特征向量，确定所述待识别语音的高阶特征向量；

第三确定模块，用于将所述待识别语音的高阶特征向量输入至预先训练好的第二语言类别识别模型中，确定所述待识别语音所属的目标语言类别；其中，所述第一语言类别识别模型为神经网络模型，所述第二语言类别识别模型为概率线性判断分析模型。

在一种可能的实施方式中，所述第一确定模块，在将待识别语音中各原始帧的梅尔倒谱特征向量输入至预先训练好的第一语言类别识别模型中，确定所述第一语言类别识别模型中的高阶特征转换层输出的所述待识别语音中各合成帧的中间特征向量时，包括：

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行第一方面任一项所述的语言类别的识别方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行第一方面任一项所述的语言类别的识别方法的步骤。

本申请实施例提供的一种语言类别的识别方法、装置、电子设备及存储介质，将待识别语音中各原始帧的梅尔倒谱特征向量输入至预先训练好的第一语言类别识别模型中，确定所述第一语言类别识别模型中的高阶特征转换层输出的所述待识别语音中各合成帧的中间特征向量；基于所述待识别语音中各合成帧的中间特征向量，确定所述待识别语音的高阶特征向量；将所述待识别语音的高阶特征向量输入至预先训练好的第二语言类别识别模型中，确定所述待识别语音所属的目标语言类别；其中，所述第一语言类别识别模型为神经网络模型，所述第二语言类别识别模型为概率线性判断分析模型。本申请实施例能够基于包含用于区分语音的语言类别的语音特征的高阶特征向量，确定待识别语音的语言类别，提高了语言类别识别的准确度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的一种语言类别的识别方法的流程图；

图2示出了本申请实施例提供的另一种语言类别的识别方法的流程图；

图3示出了本申请实施例提供的另一种语言类别的识别方法的流程图；

图4示出了本申请实施例提供的另一种语言类别的识别方法的流程图；

图5示出了本申请实施例提供的另一种语言类别的识别方法的流程图；

图6示出了本申请实施例提供的另一种语言类别的识别方法的流程图；

图7示出了本申请实施例提供的一种语言类别的识别装置的结构示意图；

图8示出了本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

相关技术中，在对语音的语言类别进行识别时，首先提取语音的梅尔倒谱系数，再基于梅尔倒谱系数确定语音的语言类别。但是，在生成梅尔倒谱系数的过程中，需要对语音信号中的高低频信号进行衰减，这使得梅尔倒谱系数中并不能包含语音信号的所有语音特征，即梅尔倒谱系数中缺失用于区分语音的语言类别的相关语音特征，进而造成基于梅尔倒谱系数确定语音的语言类别时，准确度低。

基于上述问题，本申请实施例提供了一种语言类别的识别方法、装置、电子设备及存储介质，将待识别语音中各原始帧的梅尔倒谱特征向量输入至预先训练好的第一语言类别识别模型中，确定所述第一语言类别识别模型中的高阶特征转换层输出的所述待识别语音中各合成帧的中间特征向量；基于所述待识别语音中各合成帧的中间特征向量，确定所述待识别语音的高阶特征向量；将所述待识别语音的高阶特征向量输入至预先训练好的第二语言类别识别模型中，确定所述待识别语音所属的目标语言类别；其中，所述第一语言类别识别模型为神经网络模型，所述第二语言类别识别模型为概率线性判断分析模型。本申请实施例能够基于包含用于区分语音的语言类别的语音特征的高阶特征向量，确定待识别语音的语言类别，提高了语言类别识别的准确度。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案，都应该是发明人在本申请过程中对本申请做出的贡献。

下面将结合本申请中附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种语言类别的识别方法进行详细介绍。

参见图1所示，图1为本申请实施例提供的一种语言类别的识别方法的流程图，所述识别方法包括：

S101、将待识别语音中各原始帧的梅尔倒谱特征向量输入至预先训练好的第一语言类别识别模型中，确定所述第一语言类别识别模型中的高阶特征转换层输出的所述待识别语音中各合成帧的中间特征向量。

该步骤中，待识别语音为任意的一种语音，比如，通话语音、用于身份验证的录音、从音视频中提取出的语音，这里不作具体的限定。待识别语音由多个语音样点组成，将待识别语音划分成多个原始帧，每个原始帧中包括相同数量的语音样点，针对每个原始帧，根据该原始帧中每个语音样点的振幅，确定该原始帧的梅尔倒谱特征向量，即梅尔倒谱系数，又称为梅尔频率倒谱系数，最终得到待识别语音中各个原始帧的梅尔倒谱特征向量。

第一语言类别识别模型为神经网络模型，包括多个神经网络层，其中，高阶特征转换层为第一语言类别识别模型中的隐藏层，将待识别语音中各个原始帧的梅尔倒谱特征向量输入至第一语言类别识别模型中，第一语言类别识别模型中的部分神经网络层，基于各个原始帧的梅尔倒谱特征向量，确定各个合成帧的中间特征向量，其中，隐藏层用于输出待识别语音中各合成帧的中间特征向量。

这里，合成帧为对多个原始帧合并后得到的模拟帧，比如，待识别语音对应有10个原始帧，将每5个相邻的原始帧合成一个合成帧，得到合成帧1（原始帧1-5）和合成帧2（原始帧6-10）。

梅尔倒谱特征向量为低阶的特征向量，中间特征向量为基于梅尔倒谱特征向量提取出的高阶的特征向量，由于第一语言类别识别模型是基于标记有标准语言类别的样本语音训练得到的，使得隐藏层输出的中间特征向量更加贴合语言类别识别的应用场景，中间特征向量中包含用于区分语音的语言类别的语音特征。

可选的，在确定待识别语音中各个原始帧的梅尔倒谱特征向量之后，还可以基于能量对待识别语音进行语音活动检测，判断待识别语音中是否包括静音的原始帧，将静音的原始帧删除。具体的，针对每个原始帧，计算该原始帧中各个语音样点的振幅的平方和，若平方和小于K1，则确定该原始帧为静音的原始帧；或者，计算该原始帧的频谱幅度的和值，若频谱幅度的和值小于K2，则确定该原始帧为静音的原始帧，将静音的原始帧删除后，将待识别语音中不是静音的原始帧的梅尔倒谱特征向量输入至第一语言类别识别模型中，确定待识别语音中各合成帧的中间特征向量，其中，K1和K2的数值可以根据用户的实际需求进行设置。

S102、基于所述待识别语音中各合成帧的中间特征向量，确定所述待识别语音的高阶特征向量。

该步骤中，待识别语音由多个合成帧组成，每个合成帧的中间特征向量是高阶的特征向量，根据各个合成帧的高阶的中间特征向量，得到待识别语音的高阶特征向量，这里，待识别语音的高阶特征向量更加贴合语言类别识别的应用场景，高阶特征向量中包含用于区分语音的语言类别的语音特征。

S103、将所述待识别语音的高阶特征向量输入至预先训练好的第二语言类别识别模型中，确定所述待识别语音所属的目标语言类别；其中，所述第一语言类别识别模型为神经网络模型，所述第二语言类别识别模型为概率线性判断分析模型。

该步骤中，第二语言类别识别模型是一种概率线性判断分析模型，使用概率线性判别分析（Probabilistic Linear Discriminant Analysis，PLDA）模型能够弱化信道对语言类别识别结果的影响，这里，信道指通信的通道，是信号传输的媒介，比如，通话语音，微信语音、QQ语音分别对应不同的信道，在实际中，传统的语言类别识别模型（比如高斯混合模型）容易受信道的影响，需要分别训练适用于各种信道的语言类别识别模型，使用概率线性判断分析模型能够弱化信道的影响，训练得到的第二语言类别识别模型能够识别来自不同信道的待识别语音的语言类别。

具体的，将待识别语音的高阶特征向量输入至第二语言类别识别模型中，将第二语言类别识别模型输出的语言类别确定为待识别语音所属的目标语言类别，比如，英语、汉语、西班牙语等不同类别的语言。

本申请实施例提供的语言类别的识别方法，能够基于包含用于区分语音的语言类别的语音特征的高阶特征向量，确定待识别语音的语言类别，提高了语言类别识别的准确度，并使用概率线性判断分析模型识别待识别语音的语言类别，能够弱化信道对语言类别识别的影响，进一步提高语言类别识别的准确度。

进一步的，参见图2所示，图2为本申请实施例提供的另一种语言类别的识别方法的流程图，所述将待识别语音中各原始帧的梅尔倒谱特征向量输入至预先训练好的第一语言类别识别模型中，确定所述第一语言类别识别模型中的高阶特征转换层输出的所述待识别语音中各合成帧的中间特征向量，包括：

S201、针对所述待识别语音的每个原始帧，根据该原始帧的梅尔倒谱特征向量，以及与该原始帧相邻的预设数量的其他原始帧的梅尔倒谱特征向量，更新该原始帧的梅尔倒谱特征向量。

该步骤中，第一语言类别识别模型用于将低阶的梅尔倒谱特征向量转换成高阶的中间特征向量，第一语言类别识别模型是神经网络模型，包括多个神经网络层，其中，一部分神经网络层用于对每一原始帧的梅尔倒谱特征向量进行高阶转换处理，得到每一原始帧的更新后的梅尔倒谱特征向量，并将各个原始帧的更新后的梅尔倒谱特征向量输入至另一部分神经网络层中，以使另一部分神经网络层对更新后的梅尔倒谱特征向量进行进一步的高阶转换处理，得到各合成帧的中间特征向量。

在对每一原始帧的梅尔倒谱特征向量进行高阶转换处理的过程中，针对每一原始帧，根据预设数量，确定与该原始帧相邻的其他原始帧，比如，预设数量为4，待识别语音包括原始帧1-10，与原始帧3相邻的其他原始帧为：原始帧1、原始帧2、原始帧4、原始帧5，根据该原始帧以及与该原始帧相邻的其他原始帧的梅尔倒谱特征向量，对该原始帧的梅尔倒谱特征向量进行更新。

具体的，第一语言类别识别模型中包括神经网络层TDNN0-TDNN3，将待识别语音的各个原始帧的梅尔倒谱特征向量输入TDNN0中，TDNN0的处理机制为：针对每个原始帧t，根据原始帧t-2、原始帧t-1（原始帧t的前一个原始帧）、原始帧t、原始帧t+1（原始帧t的后一个原始帧）、原始帧t+2分别对应的梅尔倒谱特征向量，确定原始帧t的第一更新特征向量；将待识别语音的各个原始帧的梅尔倒谱特征向量和第一更新特征向量输入TDNN1中，TDNN1的处理机制为：针对每个原始帧t，根据原始帧t-2、原始帧t+2分别对应的梅尔倒谱特征向量，以及原始帧t的第一更新特征向量，确定原始帧t的第二更新特征向量；将待识别语音的各个原始帧的梅尔倒谱特征向量和第二更新特征向量输入TDNN2中，TDNN2的处理机制为：针对每个原始帧t，根据原始帧t-3、原始帧t+3分别对应的梅尔倒谱特征向量，以及原始帧t的第二更新特征向量，确定原始帧t的第三更新特征向量；将待识别语音的各个原始帧的第三更新特征向量输入TDNN3中，TDNN3的处理机制为：针对每个原始帧t，根据原始帧t的第三更新特征向量，确定原始帧t的第四更新特征向量，即更新后的梅尔倒谱特征向量，得到各个原始帧的更新后的梅尔倒谱特征向量。

S202、根据所述待识别语音中各原始帧的更新后的梅尔倒谱特征向量，以及预设的每个合成帧包含的原始帧的数量，确定所述高阶特征转换层输出的所述待识别语音中各合成帧的中间特征向量。

该步骤中，合成帧的个数少于原始帧的个数，根据预设的每个合成帧包含的原始帧的数量，将待识别语音的各个原始帧合并成多个合成帧，针对每个合成帧，根据该合成帧包括的每个原始帧的梅尔倒谱特征向量，确定该合成帧的第一特征向量，比如，由原始帧4-6合并成合成帧2，原始帧4-6的梅尔倒谱特征向量分别为：（1,2,3）、（4,5,6）、（7,8,9）、则合成帧2的第一特征向量为（1,2,3,4,5,6,7,8,9）。针对每个合成帧，神经网络层增加该合成帧的第一特征向量的学习深度，得到该合成帧的中间特征向量，进而得到待识别语音中各合成帧的中间特征向量。

具体的，第一语言类别识别模型中还包括神经网络层STATS、TDNN5、TDNN6、OUTPUT，将待识别语音中各原始帧的更新后的梅尔倒谱特征向量输入STATS，STATS的处理机制为：根据预设的每个合成帧包含的原始帧的数量，确定待识别语音包括的多个合成帧，以及每个合成帧的第一特征向量，将待识别语音中各个合成帧的第一特征向量依次输入TDNN5、TDNN6中，TDNN5、TDNN6增加各个合成帧的第一特征向量的学习深度，得到各个合成帧的中间特征向量，并由OUTPUT输出各个合成帧的中间特征向量。

进一步的，参见图3所示，图3为本申请实施例提供的另一种语言类别的识别方法的流程图，所述基于所述待识别语音中各合成帧的中间特征向量，确定所述待识别语音的高阶特征向量，包括：

S301、基于所述待识别语音中各合成帧的中间特征向量，确定所述待识别语音的合成特征向量。

该步骤中，将待识别语音中各合成帧的中间特征向量进行拼接，得到待识别语音的合成特征向量，比如，待识别语音包括合成帧1-3，合成帧1-3的中间特征向量分别为（1,2,1）、（5,4,2），（1,4,2），则待识别语音的合成特征向量为（1,2,1,5,4,2,1,4,2）。

S302、基于所述待识别语音的合成特征向量，以及预设的投影矩阵，确定所述待识别语音的高阶特征向量；其中，所述高阶特征向量的维度小于所述合成特征向量的维度；所述投影矩阵用于降低合成特征向量的维度。

该步骤中，待识别语音的合成特征向量的维度为1×n，预设的投影矩阵的维度为n×d，计算1×n维的合成特征向量与n×d维的投影矩阵的乘积，得到1×d维的高阶特征向量，其中，d＜n，使用投影矩阵，能够降低合成特征向量的维度，得到低维度的高阶特征向量，提高后续的计算效率。

进一步的，参见图4所示，图4为本申请实施例提供的另一种语言类别的识别方法的流程图，通过如下方式对所述第一语言类别识别模型进行训练：

S401、获取多个样本语音，以及各个样本语音被标记的标准语言类别。

该步骤中，每个样本语音被标记的标准语言类别，为该样本语音真实的语言类别，获取样本语音的各个原始帧的梅尔倒谱特征向量，基于各个样本语音的梅尔倒谱特征向量和真实的语言类别，对第一语言类别识别模型进行训练。

S402、针对每个样本语音，将该样本语音的各原始帧的梅尔倒谱特征向量输入至第一初始语言类别识别模型中，确定该样本语音所属的第一预测语言类别。

该步骤中，第一初始语言类别识别模型为初始的神经网络模型，或者，训练未完成的神经网络模型，将每个样本语音的各原始帧的梅尔倒谱特征向量输入至第一初始语言类别识别模型中，将第一初始语言类别识别模型输出的语言类别，确定为定该样本语音所属的第一预测语言类别，其中，第一预测语言类别可能是准确的，也可能是错误的。

S403、根据每个样本语音所属的第一预测语言类别，以及该样本语音被标记的标准语言类别，确定该样本语音对应的第一损失值。

该步骤中，针对每个样本语音，比较第一初始语言类别识别模型输出的该样本语音的第一预测语言类别，与该样本语音真实的标准语言类别是否一致，若相一致，则第一损失值小，若不一致，则第一损失值大，确定每个样本语音对应的第一损失值。

S404、若各个样本语音对应的第一损失值均小于第一预设阈值，则将当前的第一初始语言类别识别模型确定为所述第一语言类别识别模型，否则，继续对当前的第一初始语言类别识别模型进行训练。

该步骤中，针对每个样本语音，若该样本语音的第一损失值小于第一预设阈值，说明该样本语音的第一预测语言类别是准确的，若每个样本语音的第一损失值均小于第一预设阈值，即每个样本语音的第一预测语言类别都是准确的，说明第一初始语言类别识别模型是一个可信赖的模型，无需再对模型进行训练，将当前的第一初始语言类别识别模型确定为第一语言类别识别模型，否则，继续对当前的第一初始语言类别识别模型进行训练，直至各个样本语音的第一损失值均小于第一预设阈值。

进一步的，参见图5所示，图5为本申请实施例提供的另一种语言类别的识别方法的流程图，通过如下方式确定所述投影矩阵：

S501、获取多个样本语音，以及各个样本语音被标记的标准语言类别。

该步骤中，每个样本语音被标记的标准语言类别，为该样本语音真实的语言类别，获取样本语音的各个原始帧的梅尔倒谱特征向量，基于各个样本语音的梅尔倒谱特征向量和真实的语言类别，确定投影矩阵。

S502、针对每个样本语音，将样本语音中各原始帧的梅尔倒谱特征向量输入至所述第一语言类别识别模型中，确定该样本语音的合成特征向量。

该步骤中，在对第一语言类别识别模型训练完成后，将样本语音中各原始帧的梅尔倒谱特征向量输入至预先训练好的第一语言类别识别模型中，确定待识别语音中各合成帧的中间特征向量；基于待识别语音中各合成帧的中间特征向量，确定待识别语音的合成特征向量。

S503、基于各个样本语音的合成特征向量，以及各个样本语音被标记的标准语言类别，计算类内聚散度矩阵和类间聚散度矩阵。

该步骤中，根据各个样本语音的合成特征向量，以及各个样本语音被标记的标准语言类别，确定一个数据集D={(x₁,y₁), (x₂,y₂), ……, (x_m,y_m)}，其中，m为样本语音的数量，每个样本语音i的合成特征向量为x_i，每个样本语音i的标准语言类别为y_i，这里，不同的标准语言类别用不同的数字表示，比如，汉语为1，英语为2。根据数据集D，分别计算类内聚散度矩阵、类间聚散度矩阵，类内聚散度矩阵和类间聚散度矩阵的计算方法是一种开源的计算方法，这里不再赘述。

S504、基于所述类内聚散度矩阵和类间聚散度矩阵，计算多个特征值，以及每个特征值对应的特征向量；其中，所述特征值的数量等于所述高阶特征向量的维度。

该步骤中，在确定类内聚散度矩阵S、类间聚散度矩阵M之后，计算矩阵S^-1M，并计算矩阵S^-1M的多个特征值，以及每个特征值对应的特征向量，从多个特征值中选取出d个最大的特征值，以及d个最大的特征值分别对应的特征向量，d个特征向量分别为（w₁,w₂,w₃,……,w_d）。

S505、基于每个特征值对应的特征向量，确定所述投影矩阵。

该步骤中，根据d个特征向量（w₁,w₂,w₃,……,w_d），确定n×d维的投影矩阵W，针对每个待识别语音，计算该识别语音的中间特征向量与投影矩阵W的乘积，得到该识别语音的高阶特征向量。

进一步的，参见图6所示，图6为本申请实施例提供的另一种语言类别的识别方法的流程图，通过如下方式对所述第二语言类别识别模型进行训练：

S601、获取多个样本语音，以及各个样本语音被标记的标准语言类别。

该步骤中，每个样本语音被标记的标准语言类别，为该样本语音真实的语言类别，获取样本语音的各个原始帧的梅尔倒谱特征向量，基于各个样本语音的梅尔倒谱特征向量和真实的语言类别，对第二语言类别识别模型进行训练。

S602、针对每个样本语音，将样本语音中各原始帧的梅尔倒谱特征向量输入至所述第一语言类别识别模型中，确定该样本语音的高阶特征向量。

该步骤中，在对第一语言类别识别模型训练完成后，将样本语音中各原始帧的梅尔倒谱特征向量输入至预先训练好的第一语言类别识别模型中，确定待识别语音中各合成帧的中间特征向量；基于待识别语音中各合成帧的中间特征向量，确定待识别语音的合成特征向量。并且，在确定投影矩阵之后，基于待识别语音的合成特征向量，以及预设的投影矩阵，确定待识别语音的高阶特征向量。

S603、将该样本语音的高阶特征向量输入至第二初始语言类别识别模型中，确定所述样本语音所属的第二预测语言类别。

该步骤中，第二初始语言类别识别模型为初始的概率线性判断分析模型，或者，训练未完成的概率线性判断分析模型，将每个样本语音的各原始帧的梅尔倒谱特征向量输入至第二初始语言类别识别模型中，将第二初始语言类别识别模型输出的语言类别，确定为定该样本语音所属的第二预测语言类别，其中，第二预测语言类别可能是准确的，也可能是错误的。

S604、根据每个样本语音所属的第二预测语言类别，以及该样本语音被标记的标准语言类别，确定该样本语音对应的第二损失值。

该步骤中，针对每个样本语音，比较第二初始语言类别识别模型输出的该样本语音的第二预测语言类别，与该样本语音真实的标准语言类别是否一致，若相一致，则第二损失值小，若不一致，则第二损失值大，确定每个样本语音对应的第二损失值。

S605、若各个样本语音对应的第二损失值均小于第二预设阈值，则将当前的第二初始语言类别识别模型确定为所述第二语言类别识别模型，否则，继续对当前的第二初始语言类别识别模型进行训练。

该步骤中，针对每个样本语音，若该样本语音的第二损失值小于第二预设阈值，说明该样本语音的第二预测语言类别是准确的，若每个样本语音的第二预测语言类别都是准确的，说明第二初始语言类别识别模型是一个可信赖的模型，无需再对模型进行训练，将当前的第二初始语言类别识别模型确定为第二语言类别识别模型，否则，继续对当前的第二始语言类别识别模型进行训练，直至各个样本语音的第二损失值均小于第二预设阈值。

在训练第一语言类别识别模型、第二语言类别识别模型的过程中，以及确定投影矩阵时，需要使用大量标记有标准语言类别的样本语音，实际中，由于样本语音的标注成本较高，可以采用自动标记的方式对样本语音的语言类别进行标记，具体的，基于现有的少量的标记有标准语言类别的第一样本语音，对任意一个语言类别识别模型进行训练，得到一个目标语言类别识别模型，使用目标语言类别识别模型，对未标记有标准语言类别的第二样本语音的语言类别进行预测，得到每个第二样本语音的预测语言类别以及预测语言类别的置信度，将置信度大于预设阈值的第二样本语音的预测语言类别，标记为该第二样本语音的标准语言类别，其中，预设阈值是根据每个第二样本语音的预测语言类别的置信度确定的，具体的，若每个第二样本语音a _j的置信度为b _j，则预设阈值H为：

其中，h为初始预设阈值，l ₁为每个第二样本语音a _j的置信度bj的平均值，l ₂为灵敏度调节系数，实际中，为了防止引入错误样本语音，预设阈值H会比实际应用中的初始预设阈值h更大一些。

基于同一发明构思，本申请实施例中还提供了与语言类别的识别方法对应的语言类别的识别装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述语言类别的识别方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参见图7所示，图7为本申请一实施例提供的一种语言类别的识别装置的结构示意图，所述识别装置包括：

第一确定模块701，用于将待识别语音中各原始帧的梅尔倒谱特征向量输入至预先训练好的第一语言类别识别模型中，确定所述第一语言类别识别模型中的高阶特征转换层输出的所述待识别语音中各合成帧的中间特征向量；

第二确定模块702，用于基于所述待识别语音中各合成帧的中间特征向量，确定所述待识别语音的高阶特征向量；

第三确定模块703，用于将所述待识别语音的高阶特征向量输入至预先训练好的第二语言类别识别模型中，确定所述待识别语音所属的目标语言类别；其中，所述第一语言类别识别模型为神经网络模型，所述第二语言类别识别模型为概率线性判断分析模型。

在一种可能的实施方式中，所述第一确定模块701，在将待识别语音中各原始帧的梅尔倒谱特征向量输入至预先训练好的第一语言类别识别模型中，确定所述第一语言类别识别模型中的高阶特征转换层输出的所述待识别语音中各合成帧的中间特征向量时，包括：

在一种可能的实施方式中，所述第二确定模块702，在基于所述待识别语音中各合成帧的中间特征向量，确定所述待识别语音的高阶特征向量时，包括：

在一种可能的实施方式中，所述识别装置还包括：

第一获取模块，用于获取多个样本语音，以及各个样本语音被标记的标准语言类别；

第四确定模块，用于针对每个样本语音，将该样本语音的各原始帧的梅尔倒谱特征向量输入至第一初始语言类别识别模型中，确定该样本语音所属的第一预测语言类别；

第五确定模块，用于根据每个样本语音所属的第一预测语言类别，以及该样本语音被标记的标准语言类别，确定该样本语音对应的第一损失值；

第六确定模块，用于若各个样本语音对应的第一损失值均小于第一预设阈值，则将当前的第一初始语言类别识别模型确定为所述第一语言类别识别模型，否则，继续对当前的第一初始语言类别识别模型进行训练。

在一种可能的实施方式中，所述识别装置还包括：

第二获取模块，用于获取多个样本语音，以及各个样本语音被标记的标准语言类别；

第七确定模块，用于针对每个样本语音，将样本语音中各原始帧的梅尔倒谱特征向量输入至所述第一语言类别识别模型中，确定该样本语音的合成特征向量；

第一计算模块，用于基于各个样本语音的合成特征向量，以及各个样本语音被标记的标准语言类别，计算类内聚散度矩阵和类间聚散度矩阵；

第二计算模块，用于基于所述类内聚散度矩阵和类间聚散度矩阵，计算多个特征值，以及每个特征值对应的特征向量；其中，所述特征值的数量等于所述高阶特征向量的维度；

第八确定模块，用于基于每个特征值对应的特征向量，确定所述投影矩阵。

在一种可能的实施方式中，所述识别装置还包括：

第三获取模块，用于获取多个样本语音，以及各个样本语音被标记的标准语言类别；

第九确定模块，用于针对每个样本语音，将样本语音中各原始帧的梅尔倒谱特征向量输入至所述第一语言类别识别模型中，确定该样本语音的高阶特征向量；

第十确定模块，用于将该样本语音的高阶特征向量输入至第二初始语言类别识别模型中，确定所述样本语音所属的第二预测语言类别；

第十一确定模块，用于根据每个样本语音所属的第二预测语言类别，以及该样本语音被标记的标准语言类别，确定该样本语音对应的第二损失值；

第十二确定模块，用于若各个样本语音对应的第二损失值均小于第二预设阈值，则将当前的第二初始语言类别识别模型确定为所述第二语言类别识别模型，否则，继续对当前的第二初始语言类别识别模型进行训练。

本申请实施例提供的语言类别的识别装置，能够基于包含用于区分语音的语言类别的语音特征的高阶特征向量，确定待识别语音的语言类别，提高了语言类别识别的准确度，并使用概率线性判断分析模型识别待识别语音的语言类别，能够弱化信道对语言类别识别的影响，进一步提高语言类别识别的准确度。

参见图8所示，图8为本申请实施例提供的一种电子设备的结构示意图，该电子设备800包括：处理器801、存储器802和总线803，所述存储器802存储有所述处理器801可执行的机器可读指令，当电子设备运行时，所述处理器801与所述存储器802之间通过总线803通信，所述处理器801执行所述机器可读指令，以执行如上述语言类别的识别方法的步骤。

具体地，上述存储器802和处理器801能够为通用的存储器和处理器，这里不做具体限定，当处理器801运行存储器802存储的计算机程序时，能够执行上述语言类别的识别方法。

对应于上述语言类别的识别方法，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述语言类别的识别方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语言类别的识别方法，其特征在于，所述识别方法包括：

将所述待识别语音的高阶特征向量输入至预先训练好的第二语言类别识别模型中，确定所述待识别语音所属的目标语言类别；其中，所述第一语言类别识别模型为神经网络模型，所述第二语言类别识别模型为概率线性判断分析模型；

所述将待识别语音中各原始帧的梅尔倒谱特征向量输入至预先训练好的第一语言类别识别模型中，确定所述第一语言类别识别模型中的高阶特征转换层输出的所述待识别语音中各合成帧的中间特征向量，包括：

根据所述待识别语音中各原始帧的更新后的梅尔倒谱特征向量，以及预设的每个合成帧包含的原始帧的数量，确定所述高阶特征转换层输出的所述待识别语音中各合成帧的中间特征向量；

所述基于所述待识别语音中各合成帧的中间特征向量，确定所述待识别语音的高阶特征向量，包括：

基于所述待识别语音的合成特征向量，以及预设的投影矩阵，确定所述待识别语音的高阶特征向量；其中，所述高阶特征向量的维度小于所述合成特征向量的维度；所述投影矩阵用于降低合成特征向量的维度；

其中，所述基于所述待识别语音中各合成帧的中间特征向量，确定所述待识别语音的合成特征向量，包括：

将待识别语音中各合成帧的中间特征向量进行拼接，得到待识别语音的合成特征向量。

2.根据权利要求1所述的语言类别的识别方法，其特征在于，通过如下方式对所述第一语言类别识别模型进行训练：

3.根据权利要求1所述的语言类别的识别方法，其特征在于，通过如下方式确定所述投影矩阵：

基于每个特征值对应的特征向量，确定所述投影矩阵。

4.根据权利要求1所述的语言类别的识别方法，其特征在于，通过如下方式对所述第二语言类别识别模型进行训练：

5.一种语言类别的识别装置，其特征在于，所述识别装置包括：

第三确定模块，用于将所述待识别语音的高阶特征向量输入至预先训练好的第二语言类别识别模型中，确定所述待识别语音所属的目标语言类别；其中，所述第一语言类别识别模型为神经网络模型，所述第二语言类别识别模型为概率线性判断分析模型；

所述第一确定模块，在将待识别语音中各原始帧的梅尔倒谱特征向量输入至预先训练好的第一语言类别识别模型中，确定所述第一语言类别识别模型中的高阶特征转换层输出的所述待识别语音中各合成帧的中间特征向量时，包括：

所述第二确定模块，在基于所述待识别语音中各合成帧的中间特征向量，确定所述待识别语音的高阶特征向量时，包括：

6.根据权利要求5所述的语言类别的识别装置，其特征在于，所述第一确定模块，在将待识别语音中各原始帧的梅尔倒谱特征向量输入至预先训练好的第一语言类别识别模型中，确定所述第一语言类别识别模型中的高阶特征转换层输出的所述待识别语音中各合成帧的中间特征向量时，包括：

7.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至4任一项所述的语言类别的识别方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至4任一项所述的语言类别的识别方法的步骤。