CN110164417B

CN110164417B - 一种语种向量获得、语种识别的方法和相关装置

Info

Publication number: CN110164417B
Application number: CN201910470489.1A
Authority: CN
Inventors: 李晋; 方昕; 方四安; 柳林; 徐承
Original assignee: iFlytek Co Ltd
Current assignee: Tianjin Xunfeiji Technology Co.,Ltd.
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2021-07-06
Anticipated expiration: 2039-05-31
Also published as: CN110164417A

Abstract

本申请公开了一种语种向量获得、语种识别的方法和相关装置，该方法包括：将各个长时语音数据切分获得短时语音片段，利用全变量因子分析技术得到各个语音数据和各个语音片段的语种向量；基于各个语音数据和各个语音片段的语种向量进行时长干扰属性投影处理获得时长干扰投影矩阵；利用时长干扰投影矩阵将各个语音数据的语种向量映射为各个语音数据的新语种向量。可见，该方法充分有效挖掘长时语音数据和短时语音片段的相互关联信息。即使短时语音数据利用上述全变量空间和时长干扰投影矩阵进行时长因素补偿也能够得到更加精准、稳定的新语种向量，从而提高短时语音语种识别的准确性。

Description

一种语种向量获得、语种识别的方法和相关装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种语种向量获得、语种识别的方法和相关装置。

背景技术

随着智能识别技术的快速发展，语种识别技术越来越多受到人们的关注。在某些应用场景中对语种识别技术的准确性要求较高，而语种识别技术的准确性取决于待识别语音对应的语种向量和预先得到的作为语种识别标准的语种标准向量的准确性。

目前，语种向量获得的方法主要是利用全变量因子分析技术，具体地，利用大量的语音数据预先训练得到覆盖各种环境和信道的全变量空间；针对语音数据，提取语音数据中反映语种信息的语种特征；通过前向-后向算法(Baum-Welch算法)按时序计算每帧语音数据对应的语种特征在混合高斯模型每个高斯成分中的后验占有率；通过全变量空间进行线性投影获得语音数据对应的语种向量。

但是，采用上述语种向量获得的方法，当语音数据时长较短时，语音数据中语音内容较为稀疏，提取的特征无法精确反映语种信息；且提取的特征数量不够充分，则够进行统计计算的特征数量不足，最终获得的语种向量不够精确、稳定，进而导致语种识别的准确性下降。

发明内容

本申请所要解决的技术问题是，提供一种语种向量获得、语种识别的方法和相关装置，短时语音数据进行时长因素补偿也能够得到更加精准、稳定的新语种向量，从而提高语种识别的准确性。

第一方面，本申请实施例提供了一种语种向量获得的方法，该方法包括：

基于各个语音数据和各个所述语音数据切分获得的语音片段，利用全变量因子分析技术获得各个所述语音数据的语种向量和各个所述语音片段的语种向量；所述语音片段的时长符合预设时长范围；

基于各个所述语音数据的语种向量和各个所述语音片段的语种向量，进行时长干扰属性投影处理获得时长干扰投影矩阵；

利用所述时长干扰投影矩阵将各个所述语音数据的语种向量映射为各个所述语音数据的新语种向量。

在本申请实施例的一种实施方式中，所述预设时长范围由第一预设时长和第二预设时长组成，所述第一预设时长小于所述第二预设时长，所述语音数据的时长大于所述第二预设时长，所述语音数据切分获得所述语音片段的步骤包括：

每次切分前基于所述预设时长范围随机确定随机切分时长；

按照所述随机切分时长切分所述语音数据获得所述语音片段。

在本申请实施例的一种实施方式中，所述基于各个语音数据和各个所述语音数据切分获得的语音片段，利用全变量因子分析技术获得各个所述语音数据的语种向量和各个所述语音片段的语种向量，包括：

提取各个所述语音数据的语种特征和各个所述语音片段的语种特征，利用全变量因子分析技术获得全变量空间；

基于各个所述语音数据的语种特征、各个所述语音片段的语种特征和所述全变量空间，获得各个所述语音数据的语种向量和各个所述语音片段的语种向量。

在本申请实施例的一种实施方式中，所述基于各个所述语音数据的语种向量和各个所述语音片段的语种向量，进行时长干扰属性投影处理获得时长干扰投影矩阵，包括：

基于各个所述语音数据对应的语种标识的类别总数、每类所述语种标识对应的所述语音数据的语音总数、每个所述语音数据切分获得的所述语音片段的片段总数、各个所述语音数据的语种向量和各个所述语音片段的语种向量，进行类内方差相关处理获得语种向量时长类内方差；

对所述语种向量时长类内方差进行特征分解相关处理获得时长干扰矩阵；

基于单位矩阵和所述时长干扰矩阵，获得所述时长干扰投影矩阵。

在本申请实施例的一种实施方式中，所述对所述语种向量时长类内方差进行特征分解相关处理获得时长干扰矩阵，包括：

对所述语种向量时长类内方差进行特征分解获得各个特征值和各个所述特征值对应的特征向量；

基于各个所述特征值的大小由大到小排序各个所述特征值；

选取排序后各个所述特征值中前r个特征值对应的特征向量按序组成所述时长干扰矩阵；所述r为正整数，所述r小于各个所述特征值的总数。

在本申请实施例的一种实施方式中，所述基于单位矩阵和所述时长干扰矩阵，获得所述时长干扰投影矩阵，包括：

将所述时长干扰矩阵和所述时长干扰矩阵的转置矩阵相乘获得矩阵乘积；

将所述单位矩阵和所述矩阵乘积相减获得所述时长干扰投影矩阵。

在本申请实施例的一种实施方式中，还包括：

基于每类所述语种标识对应的所述语音数据的新语种向量，进行平均处理获得每类语种标识对应的语种标准向量。

第二方面，本申请实施例提供了一种语种识别的方法，利用上述第一方面任一项所述的时长干扰投影矩阵，该方法包括：

提取待识别语音数据的语种特征，利用预先获得的全变量空间获得所述待识别语音数据的语种向量；

利用所述时长干扰投影矩阵将所述待识别语音数据的语种向量映射为所述待识别语音数据的新语种向量；

获得所述待识别语音数据的新语种向量与每类语种标识对应的语种标准向量的相似度；所述每类语种标识对应的语种标准向量是预先获得的；

基于所述相似度确定最大相似度对应的语种标识为所述待识别语音数据的语种标识。

在本申请实施例的一种实施方式中，所述预设时长范围由第一预设时长和第二预设时长组成，所述第一预设时长小于所述第二预设时长，所述语音数据的时长大于所述第二预设时长，所述第一语种向量获得单元包括：

随机切分时长确定子单元，用于每次切分前基于所述预设时长范围随机确定随机切分时长；

语音片段切分子单元，用于按照所述随机切分时长切分所述语音数据获得所述语音片段。

在本申请实施例的一种实施方式中，所述第一语种向量获得单元包括：

全变量空间获得子单元，用于提取各个所述语音数据的语种特征和各个所述语音片段的语种特征，利用全变量因子分析技术获得全变量空间；

第一语种向量获得子单元，用于基于各个所述语音数据的语种特征、各个所述语音片段的语种特征和所述全变量空间，获得各个所述语音数据的语种向量和各个所述语音片段的语种向量。

在本申请实施例的一种实施方式中，所述时长干扰投影矩阵获得单元包括：

语种向量时长类内方差获得子单元，用于基于各个所述语音数据对应的语种标识的类别总数、每类所述语种标识对应的所述语音数据的语音总数、每个所述语音数据切分获得的所述语音片段的片段总数、各个所述语音数据的语种向量和各个所述语音片段的语种向量，进行类内方差相关处理获得语种向量时长类内方差；

时长干扰矩阵获得子单元，用于对所述语种向量时长类内方差进行特征分解相关处理获得时长干扰矩阵；

时长干扰投影矩阵获得子单元，用于基于单位矩阵和所述时长干扰矩阵，获得所述时长干扰投影矩阵。

在本申请实施例的一种实施方式中，所述时长干扰矩阵获得子单元包括：

特征值和特征向量获得模块，用于对所述语种向量时长类内方差进行特征分解获得各个特征值和各个所述特征值对应的特征向量；

特征值排序模块，用于基于各个所述特征值的大小由大到小排序各个所述特征值；

时长干扰矩阵获得模块，用于选取排序后各个所述特征值中前r个特征值对应的特征向量按序组成所述时长干扰矩阵；所述r为正整数，所述r小于各个所述特征值的总数。

在本申请实施例的一种实施方式中，所述时长干扰投影矩阵获得子单元包括：

矩阵乘积获得模块，用于将所述时长干扰矩阵和所述时长干扰矩阵的转置矩阵相乘获得矩阵乘积；

时长干扰投影矩阵获得模块，用于将所述单位矩阵和所述矩阵乘积相减获得所述时长干扰投影矩阵。

在本申请实施例的一种实施方式中，还包括：

语种标准向量获得单元，用于基于每类所述语种标识对应的所述语音数据的新语种向量，进行平均处理获得每类语种标识对应的语种标准向量。

第三方面，本申请实施例提供了一种语种向量获得的装置，该装置包括：

第一语种向量获得单元，用于基于各个语音数据和各个所述语音数据切分获得的语音片段，利用全变量因子分析技术获得各个所述语音数据的语种向量和各个所述语音片段的语种向量；所述语音片段的时长符合预设时长范围；

时长干扰投影矩阵获得单元，用于基于各个所述语音数据的语种向量和各个所述语音片段的语种向量，进行时长干扰属性投影处理获得时长干扰投影矩阵；

第一新语种向量获得单元，用于利用所述时长干扰投影矩阵将各个所述语音数据的语种向量映射为各个所述语音数据的新语种向量。

第四方面，本申请实施例提供了一种语种识别的装置，利用上述第三方面所述的时长干扰投影矩阵，该装置包括：

第二语种向量获得单元，用于提取待识别语音数据的语种特征，利用预先获得的全变量空间获得所述待识别语音数据的语种向量；

第二新语种向量获得单元，用于利用所述时长干扰投影矩阵将所述待识别语音数据的语种向量映射为所述待识别语音数据的新语种向量；

相似度获得单元，用于获得所述待识别语音数据的新语种向量与每类语种标识对应的语种标准向量的相似度；所述每类语种标识对应的语种标准向量是预先获得的；

语种标识确定单元，用于基于所述相似度确定最大相似度对应的语种标识为所述待识别语音数据的语种标识。

与现有技术相比，本申请至少具有以下优点：

采用本申请实施例的技术方案，首先，将各个长时语音数据切分获得的短时语音片段，利用全变量因子分析技术得到各个语音数据和各个语音片段的语种向量；然后，基于各个语音数据和各个语音片段的语种向量进行时长干扰属性投影处理获得时长干扰投影矩阵；最后，利用时长干扰投影矩阵将各个语音数据的语种向量映射为各个语音数据的新语种向量。由此可见，将各个长时语音数据和切分获得的各个短时语音片段均作为训练数据得到语种向量，并采用时长干扰属性投影处理各个语音数据和各个语音片段的语种向量，充分有效挖掘长时语音数据和短时语音片段之间的相互关联信息得到时长干扰投影矩阵。即使短时语音数据利用上述全变量空间和时长干扰投影矩阵进行时长因素补偿也能够得到更加精准、稳定的新语种向量，从而提高短时语音语种识别的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例中一种应用场景所涉及的系统框架示意图；

图2为本申请实施例提供的一种语种向量获得的方法的流程示意图；

图3为本申请实施例提供的基于各个语音数据获得每类语种标识对应的语种标准向量的结构示意图；

图4为本申请实施例提供的一种语种识别的方法的流程示意图；

图5为本申请实施例提供的一种语种向量获得的装置的结构示意图；

图6为本申请实施例提供的一种语种识别的装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

某些应用场景中语种识别技术的准确性极其重要。现阶段，通常利用全变量因子分析技术获得语音数据对应的语种向量，具体地，在预先利用大量的语音数据训练得到全变量空间后；首先，提取语音数据中反映语种信息的位移差分倒谱(英文：Shifted DeltaCepstral，缩写：SDC)特征或瓶颈(英文：BottleNeck，缩写：PLP)特征等语种特征；然后，通过Baum-Welch算法按时序计算每帧语音数据对应的语种特征在混合高斯模型的每个高斯成分的后验占有率；最后，通过全变量空间进行线性投影获得语音数据对应的语种向量。但是，发明人经过研究发现，当语音数据时长较短时，由于语音数据中语音内容较为稀疏，采用上述方法提取的特征无法精确反映语种信息；且提取的特征数量不够充分，则能够进行统计计算的特征数量不足，最终获得的语种向量不够精确，进而导致语种识别的准确性下降。

为了解决这一问题，在本申请实施例中，对各个长时语音数据进行切分获得短时语音片段，利用全变量因子分析技术得到各个语音数据和各个语音片段的语种向量；然后，基于各个语音数据和各个语音片段的语种向量进行时长干扰属性投影处理获得时长干扰投影矩阵；最后，利用时长干扰投影矩阵将各个语音数据的语种向量映射为各个语音数据的新语种向量。由此可见，将各个长时语音数据和切分获得的各个短时语音片段均作为训练数据得到语种向量，并采用时长干扰属性投影处理各个语音数据和各个语音片段的语种向量，充分有效挖掘长时语音数据和短时语音片段之间的相互关联信息得到时长干扰投影矩阵。即使短时语音数据利用上述全变量空间和时长干扰投影矩阵进行时长因素补偿也能够得到更加精准、稳定的新语种向量，从而提高短时语音语种识别的准确性。

举例来说，本申请实施例的场景之一，可以是应用到如图1所示的场景中，该场景包括用户终端101和处理器102，其中，用户终端101可以是个人计算机，也可以是其它的移动终端，如手机或平板电脑等。用户在用户终端101进行操作确定待训练的各个语音数据，由用户终端101将各个语音数据发送至处理器102。处理器102采用本申请实施例的技术方案获得各个语音数据的新语种向量；处理器102对每类语种标识对应的语音数据的新语种向量，进行平均处理获得每类语种标识对应的语种标准向量。当用户在用户终端101输入时长较短的待识别语音数据后，用户终端101将待识别语音数据发送至处理器102。处理器102基于本申请实施例中的全变量空间和时长干扰投影矩阵获得待识别语音数据的新语种向量；处理器102计算待识别语音数据的新语种向量与每类语种标识对应的语种标准向量的徐昂适度；处理器102确定其中最大相似度对应的语种标识为待识别语音数据的语种标识。

可以理解的是，在上述应用场景中，虽然将本申请实施方式的动作描述由处理器102执行，但是这些动作也可以由用户终端101执行，或者还可以部分由用户终端101执行、部分由处理器102执行。本申请在执行主体方面不受限制，只要执行了本申请实施方式所公开的动作即可。

可以理解的是，上述场景仅是本申请实施例提供的一个场景示例，本申请实施例并不限于此场景。

下面结合附图，通过实施例来详细说明本申请实施例中语种向量获得、语种识别的方法和相关装置的具体实现方式。

示例性方法

参见图2，示出了本申请实施例中一种语种向量获得的方法的流程示意图。在本实施例中，所述方法例如可以包括以下步骤：

步骤201：基于各个语音数据和各个所述语音数据切分获得的语音片段，利用全变量因子分析技术获得各个所述语音数据的语种向量和各个所述语音片段的语种向量；所述语音片段的时长符合预设时长范围。

需要说明的是，由于短时语音数据中表现语种信息的语音内容较为稀疏且语音时长较短，采用现有技术的方式，提取的语种特征无法精确反映语种信息，且提取的语种特征数量也较少进而统计计算的语种特征数量不足，导致短时语音数据的语种向量不够精确、稳定。考虑上述问题可以预先挖掘大量长时语音数据与其对应的短时语音数据之间的相互关联信息，以便去除长时语音数据和短时语音数据的语种向量存在的时长干扰，获得更加精确、稳定的新语种向量，则对于长时语音数据而言，首先需要对其进行切分获得多个短时语音数据。在本申请实施例中，将待训练长时语音数据记为语音数据，将待训练长时语音数据切分获得的短时语音数据记为语音片段。基于常见的短时语音数据的时长的考虑，语音片段需要符合由第一预设时长和第二预设时长组成的预设时长范围，其中，第一预设时长小于第二预设时长，语音数据的时长大于第二预设时长。

作为一种示例，预设时长范围[5s，8s]，即第一预设时长为5s，第二预设时长为8s，语音数据的时长大于8s，语音数据切分获得语音片段时长符合预设时长范围[5s，8s]，即，语音片段时长大于5s且小于8s。

需要说明的是，为了确保语音片段符合预设时长范围，则基于语音数据切分获得语音片段时，首先需要获得符合预设时长范围的切分时长，然后按照该切分时长切分语音数据得到符合设时长范围的语音片段。考虑到切分时长的变化性对挖掘语音数据与其语音片段之间的相互关联信息的影响，切分时长的变化性越大，挖掘得到的语音数据与其语音片段之间的相互关联信息越精确，则切分时长需要基于预设时长范围随机确定，记为随机切分时长，即每次切分前基于预设时长范围随机确定一个随机切分时长，以便基于随机切分时长切分语音数据获得时长不等、变化、多样的语音片段。因此，在本申请实施例的一些实施方式中，所述语音数据切分获得所述语音片段的步骤例如可以包括以下步骤：

步骤A：每次切分前基于所述预设时长范围随机确定随机切分时长；

步骤B：按照所述随机切分时长切分所述语音数据获得所述语音片段。

具体地，切分前基于预设时长范围随机确定随机切分时长，按照随机切分时长切分语音数据；若切分剩余的部分语音数据的时长大于预设时长范围中的第二预设时长，则需要继续进行随机切分；若最后切分剩余的部分语音数据的时长符合预设时长范围，则将其作为语音数据对应的最后一个语音片段；若最后切分剩余的部分语音数据小于预设时长范围中的第一预设时长，则表示该切分剩余的部分语音数据不符合预设时长范围，不能作为语音数据的语音片段需要将其直接丢弃。

作为一种示例，假设语音数据的时长为22s，预设时长范围为[5s，8s]，第一次切分前基于预设时长范围[5s，8s]随机确定的随机切分时长为6s，则第一个语音片段的时长为6s，第一次切分剩余的部分语音数据的时长为16s大于8s需要继续切分，第二次切分前基于预设时长范围[5s，8s]随机确定的随机切分时长为7s，则第二个语音片段的时长为7s，第二次切分剩余的部分语音数据的时长为9s大于8s需要继续切分，第三次切分前基于预设时长范围[5s，8s]随机确定的随机切分时长为8s，则第三个语音片段的时长为8s，第二次切分剩余的部分语音数据的时长为1s小于5s直接丢弃，则该22s语音数据数据切分获得6s语音片段、7s语音片段和8s语音片段共三个语音片段。

可以理解的是，在针对各个语音数据进行切分获得语音片段后，为了后续挖掘语音数据与其语音片段之间的相互关联信息，既需要提取各个语音数据反应语种信息的语种特征，还需要提取各个语音片段反应语种信息的语种特征，并基于各个语音数据的语种特征和各个语音片段的语种特征利用全变量因子分析技术获得全变量空间。该全变量空间相较于现有技术中仅仅基于语音数据获得的全变量空间更加精准、稳定，能够有效兼容长时语音数据的语种特征和短时语音数据的语种特征。该全变量空间将各个语音数据的语种特征转换为各个语音数据的语种向量，将各个语音片段的语种特征转换为各个语音片段的语种向量，以便后续分析语音数据的语种向量与其语音片段的语种向量的差异性，充分挖掘语音数据与其对应的语音片段之间的相互关联信息。因此，在本申请实施例的一些实施方式中，所述步骤201例如可以包括以下步骤：

步骤C：提取各个所述语音数据的语种特征和各个所述语音片段的语种特征，利用全变量因子分析技术获得全变量空间；

步骤D：基于各个所述语音数据的语种特征、各个所述语音片段的语种特征和所述全变量空间，获得各个所述语音数据的语种向量和各个所述语音片段的语种向量。

还可以理解的是，常见的语种特征为SDC特征和或BN特征，由于BN特征是基于音素预测的语种特征，相较于SDC特征能够更好的反映语种区分性信息，在本申请实施例中提取的语种特征可以为BN特征。

步骤202：基于各个所述语音数据的语种向量和各个所述语音片段的语种向量，进行时长干扰属性投影处理获得时长干扰投影矩阵。

需要说明的是，由于语音数据与语音片段之间存在时长差异性，步骤201获得的各个语音数据的语种向量和各个语音片段的语种向量是存在时长干扰的语种向量。因此，可以采用时长干扰属性投影(英文：Duration Nuisance Attribute Projection，缩写：DNAP)方法处理各个语音数据的语种向量和各个语音片段的语种向量，从而得到能够大幅度减弱语种向量时长干扰的时长干扰投影矩阵。

需要说明的是，针对各个语音数据的语种向量和各个语音片段的语种向量，首先，需要计算语音片段的语种向量与语音数据的语种向量之间时长差异的定性反映的数据，记为语种向量时长类内方差，则需要对各个语音数据的语种向量和各个语音片段的语种向量进行类内方差相关处理，实际上语种向量时长类内方差是描述各个不同时长语音片段的语种向量分布方向差异性的矩阵；然后，需要明确语种向量时长类内方差中描述时长差异导致不同时长语音片段的语种向量分布空间较大的若干投影方向，记为时长干扰矩阵，则需要对语种向量时长类内方差进行特征分解相关处理；最后，利用单位矩阵对时长干扰矩阵进行处理以便能够得到大幅度减弱语种向量时长干扰的时长干扰投影矩阵。因此，在本申请实施例的一些实施方式中，所述步骤202例如可以包括以下步骤：

步骤E：基于各个所述语音数据对应的语种标识的类别总数、每类所述语种标识对应的所述语音数据的语音总数、每个所述语音数据切分获得的所述语音片段的片段总数、各个所述语音数据的语种向量和各个所述语音片段的语种向量，进行类内方差相关处理获得语种向量时长类内方差。

具体地，由于每个语音数据实际上是某个语种的某个句子，则将各个语音数据按序依次记为第l个语种第i个语音数据，假设第l个语种第i个语音数据随机切分为N个语音片段，则将其语音片段按序依次记为第l个语种第i个语音数据切分获得的第n个语音片段，上述类内方差相关处理应用如下所示的公式：

其中，

表示第l个语种第i个语音数据的语种向量，

表示第l个语种第i个语音数据切分获得的第n个语音片段的语种向量，N表示每个语音数据切分获得的语音片段的片段总数，I表示每类语种标识对应的语音数据的语音总数，L表示各个语音数据对应的语种标识的类别总数，W表示语种向量时长类内方差。

步骤F：对所述语种向量时长类内方差进行特征分解相关处理获得时长干扰矩阵。

需要说明的是，由于对语种向量时长类内方差进行特征分解相关处理是为了明确描述时长差异导致不同时长语音片段的语种向量分布空间较大的若干投影方向组成的时长干扰矩阵，则需要对语种向量时长类内方差进行特征分解得到各个特征值以及对应的特征向量，基于特征值的大小选取其中较大的部分特征值对应的特征向量组成时长干扰矩阵，其中，选取方式可以是对各个特征值进行由大到小的排序后按序选取。因此，在本申请实施例的一些实施方式中，所述步骤F例如可以包括以下步骤：

步骤F1：对所述语种向量时长类内方差进行特征分解获得各个特征值和各个所述特征值对应的特征向量；

步骤F2：基于各个所述特征值的大小由大到小排序各个所述特征值；

步骤F3：选取排序后各个所述特征值中前r个特征值对应的特征向量按序组成所述时长干扰矩阵；所述r为正整数，所述r小于各个所述特征值的总数。

其中，需要说明的是，r表示从由大到小排序的各个特征值按序确定的部分较大特征值的数量，也是部分较大特征值对应的特征向量的数量，r小于各个特征值的总数的正整数，一般是预先设置一个百分数，记为预设百分数，通过各个特征值的总数与预设百分数的乘积确定。因此，在本申请实施例的一些实施方式中，所述r是基于各个所述特征值的总数和预设百分数确定的。

作为一种示例，假设对语种向量时长类内方差进行特征分解获得10个特征值和对应的10个特征值特征向量，则各个特征值的总数为10；按照10个特征值的大小由大到小排序10个特征值；若预设百分数为60％，各个特征值的总数10与预设百分数60％的乘积为6，则确定r为6；选取排序后10个特征值中前6个特征值对应的6个特征向量按序组成时长干扰矩阵。

步骤G：基于单位矩阵和所述时长干扰矩阵，获得所述时长干扰投影矩阵。

需要说明的是，为了将描述时长差异导致不同时长语音片段的语种向量分布空间较大的若干投影方向的时长干扰矩阵转换得到能够大幅度减弱语种向量时长干扰的时长干扰投影矩阵，通常是先计算时长干扰矩阵和时长干扰矩阵的转置矩阵的矩阵乘积，然后计算单位矩阵与矩阵乘积的差，将其记为时长干扰投影矩阵；其中，单位矩阵的行数、列数与矩阵乘积的行数、列数相同。因此，在本申请实施例的一些实施方式中，所述步骤G例如可以包括以下步骤：

步骤G1：将所述时长干扰矩阵和所述时长干扰矩阵的转置矩阵相乘获得矩阵乘积；

步骤G2：将所述单位矩阵和所述矩阵乘积相减获得所述时长干扰投影矩阵。

具体地，由步骤E1-步骤E2可知步骤E获得应用如下所示的公式：P＝E-RR^T；其中，R表示时长干扰矩阵，R^T表示时长干扰矩阵的转置矩阵，E表示单位矩阵，P表示时长干扰投影矩阵。

步骤203：利用所述时长干扰投影矩阵将各个所述语音数据的语种向量映射为各个所述语音数据的新语种向量。

可以理解的是，步骤201获得的各个语音数据的语种向量实际上是存在时长干扰的语种向量，且基于各个语音数据的语种向量获得的每类语种标识对应的语种标准向量同样是存在时长干扰的语种向量，若将其应用于语种识别会影响语种识别的准确性。在本申请实施例中，由于步骤202获得的时长干扰投影矩阵能够大幅度减弱语种向量时长干扰，因此，可以在步骤202之后利用步骤202获得的时长干扰投影矩阵将各个语音数据的语种向量进行映射转换，得到去除时长干扰的各个语音数据的语种向量，记为各个语音数据的新语种向量。

还需要说明的是，由于步骤203获得的各个语音数据的新语种向量是去除时长干扰的语种向量，相较于步骤201获得的各个语音数据的语种向量更加精准、稳定，则还需要基于各个语音数据的新语种向量，将每类语种标识对应的语音数据的新语种向量进行平均处理，获得更加精准、稳定的每类语种标识对应的语种标准向量，从而在将其应用于语种识别时能够提高语种识别的准确性。因此，在本申请实施例的一些实施方式中，例如还可以包括：基于每类所述语种标识对应的所述语音数据的新语种向量，进行平均处理获得每类语种标识对应的语种标准向量。

作为一种示例，如图3所示的基于各个语音数据获得每类语种标识对应的语种标准向量的结构示意图；基于每个语音数据对应的语种标识以及该语种标识对应的语音数据的语音总数，将各个语音数据依次记为第l个语种第i个语音数据；基于预设时长范围针对第l个语种第i个语音数据进行随机切分获得N个语音片段，语音片段的时长符合预设时长范围，不同语音数据切分获得的语音片段的片段总数N可能不同。提取各个语音数据的BN特征和各个语音片段的BN特征，并利用全变量因子分析技术获得全变量空间。利用全变量空间将各个语音数据的BN特征和各个语音片段的BN特征准转换为各个语音数据的语种向量和各个语音片段的语种向量，第l个语种第i个语音数据的语种向量为

第l个语种第i个语音数据切分获得的N个语音片段的语种向量分别为

利用公式

获得语种向量时长类内方差W；对语种向量时长类内方差W进行特征分解获得各个特征值和各个特征值对应的特征向量，基于各个特征值的大小由大到小排序各个特征值；选取排序后各个特征值中前r个特征值对应的特征向量按序组成时长干扰矩阵R；r为小于各个特征值的总数的正整数；利用公式P＝E-RR^T获得时长干扰投影矩阵P得到DNAP空间。利用公式

获得第l个语种第i个语音数据的新语种向量

并利用公式

获得每类语种标识对应的语种标准向量news^l。

通过本实施例提供的各种实施方式，首先，将各个长时语音数据切分获得的短时语音片段，利用全变量因子分析技术得到各个语音数据和各个语音片段的语种向量；然后，基于各个语音数据和各个语音片段的语种向量进行时长干扰属性投影处理获得时长干扰投影矩阵；最后，利用时长干扰投影矩阵将各个语音数据的语种向量映射为各个语音数据的新语种向量。由此可见，将各个长时语音数据和切分获得的各个短时语音片段均作为训练数据得到语种向量，并采用时长干扰属性投影处理各个语音数据和各个语音片段的语种向量，充分有效挖掘长时语音数据和短时语音片段之间的相互关联信息得到时长干扰投影矩阵。即使短时语音数据利用上述全变量空间和时长干扰投影矩阵进行时长因素补偿也能够得到更加精准、稳定的新语种向量，从而提高短时语音语种识别的准确性。

需要说明的是，对于时长较短的语音数据，可以利用上述方法实施例中的全变量空间和时长干扰投影矩阵获得新语种向量，并可以基于上述方法实施例得到的每类语种标识对应的语种标准向量完成时长较短的语音数据的语音识别，确定时长较短的语音数据的语种标识。下面结合附图4，通过实施例来详细说明本申请应用上述方法实施例中全变量空间和时长干扰投影矩阵，以及预先得到的每类语种标识对应的语种标准向量进行语种识别的具体实现方式。

参见图4，示出了本申请实施例中一种语种识别的方法的流程示意图。在本实施例中，所述方法例如可以包括以下步骤：

步骤401：提取待识别语音数据的语种特征，利用预先获得的全变量空间获得所述待识别语音数据的语种向量。

需要说明的是，待识别语音数据的时长较短，一般符合上述方法实施例中的预设时长范围，待识别语音数据是短时语音数据；本申请实施例中提取的语种特征可以为BN特征；由于该全变量空间是上述方法实施例基于各个语音数据的语种特征和各个语音数据切分获得语音片段的语种特征采用全变量因子分析技术获得的，能够有效兼容长时语音数据的语种特征和短时语音数据的语种特征，则待识别语音数据的语种特征经由该全变量空间可以获得待识别语音数据的语种向量。

步骤402：利用所述时长干扰投影矩阵将所述待识别语音数据的语种向量映射为所述待识别语音数据的新语种向量。

需要说明的是，由于时长干扰投影矩阵是基于各个语音数据的语种向量和各个语音片段的语种向量充分挖掘语音数据与语音片段之间的相互关联信息获得的，因此，时长干扰投影矩阵能够大幅度减弱语种向量的时长干扰，即该时长干扰投影矩阵对于待识别语音数据的语种向量进行时长因素补偿，克服待识别语音数据时长较短出现的某些语种特征缺失问题，获得更加精准、稳定的待识别语音数据的新语种向量。

步骤403：获得所述待识别语音数据的新语种向量与每类语种标识对应的语种标准向量的相似度；所述每类语种标识对应的语种标准向量是预先获得的。

步骤404：基于所述相似度确定最大相似度对应的语种标识为所述待识别语音数据的语种标识。

需要说明的是，语种识别实际上是明确待识别语音数据的新语种向量与采用上述方法实施例预先得到每类语种标识对应的语种标准向量的相似度，则相似度最大的语种标准向量对应的语种标识则为待识别语音数据的语种标识。待识别语音数据的新语种向量与每类语种标识对应的语种标准向量的相似度可以采用余弦距离表示，余弦距离越大表示相似度越大。

作为一种示例，将待识别语音数据记为test语音数据，提取test语音数据的BN特征，并利用全变量空间获得test语音数据的语种向量s_test；利用时长干扰投影矩阵将test语音数据的语种向量s_test映射为test语音数据的新语种向量news_test；利用

计算test语音数据的新语种向量news_test与每类语种标识对应的语种标准向量news^l的余弦距离d(news_test,news^l)，确定最大余弦距离对应的语种标识为test语音数据的语种标识。

通过本实施例提供的各种实施方式，首先，提取待识别语音数据的语种特征，并利用上述实施例中的全变量空间获得待识别语音数据的语种向量；其次，利用上述实施例中的时长干扰投影矩阵将待识别语音数据的语种向量映射为待识别语音数据的新语种向量；然后，计算待识别语音数据的新语种向量与上述实施例预先获得的每类语种标识对应的语种标准向量的相似度；最后，确定最大相似度对应的语种标识为待识别语音数据的语种标识。由此可见，利用有效兼容长时语音数据的语种特征和短时语音数据的语种特征的全变量空间获得短时待识别语音数据的语种向量，并利用能够大幅度减弱语种向量时长干扰的时长干扰投影矩阵对短时待识别语音数据的语种向量进行时长因素补偿，从而得到更加精准、稳定的待识别语音数据的新语种向量，进而提高语种识别的准确性。

示例性装置

参见图5，示出了本申请实施例中一种语种向量获得的装置的结构示意图。在本实施例中，所述装置例如具体可以包括：

第一语种向量获得单元501，用于基于各个语音数据和各个所述语音数据切分获得的语音片段，利用全变量因子分析技术获得各个所述语音数据的语种向量和各个所述语音片段的语种向量；所述语音片段的时长符合预设时长范围；

时长干扰投影矩阵获得单元502，用于基于各个所述语音数据的语种向量和各个所述语音片段的语种向量，进行时长干扰属性投影处理获得时长干扰投影矩阵；

第一新语种向量获得单元503，用于利用所述时长干扰投影矩阵将各个所述语音数据的语种向量映射为各个所述语音数据的新语种向量。

在本申请实施例的一种实施方式中，所述预设时长范围由第一预设时长和第二预设时长组成，所述第一预设时长小于所述第二预设时长，所述语音数据的时长大于所述第二预设时长，所述第一语种向量获得单元501包括：

在本申请实施例的一种实施方式中，所述第一语种向量获得单元501包括：

在本申请实施例的一种实施方式中，所述时长干扰投影矩阵获得单元502包括：

在本申请实施例的一种实施方式中，还包括：

参见图6，示出了本申请实施例中一种语种识别的装置的结构示意图。在本实施例中，利用上述装置实施例所述的时长干扰投影矩阵，所述装置例如具体可以包括：

第二语种向量获得单元601，用于提取待识别语音数据的语种特征，利用预先获得的全变量空间获得所述待识别语音数据的语种向量；

第二新语种向量获得单元602，用于利用所述时长干扰投影矩阵将所述待识别语音数据的语种向量映射为所述待识别语音数据的新语种向量；

相似度获得单元603，用于获得所述待识别语音数据的新语种向量与每类语种标识对应的语种标准向量的相似度；所述每类语种标识对应的语种标准向量是预先获得的；

语种标识确定单元604，用于基于所述相似度确定最大相似度对应的语种标识为所述待识别语音数据的语种标识。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上，然而并非用以限定本申请。任何熟悉本领域的技术人员，在不脱离本申请技术方案范围情况下，都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本申请技术方案的内容，依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本申请技术方案保护的范围内。

Claims

1.一种语种向量获得的方法，其特征在于，包括：

利用所述时长干扰投影矩阵将各个所述语音数据的语种向量映射为各个所述语音数据的新语种向量；

所述基于各个所述语音数据的语种向量和各个所述语音片段的语种向量，进行时长干扰属性投影处理获得时长干扰投影矩阵，包括：

2.根据权利要求1所述的方法，其特征在于，所述预设时长范围由第一预设时长和第二预设时长组成，所述第一预设时长小于所述第二预设时长，所述语音数据的时长大于所述第二预设时长，所述语音数据切分获得所述语音片段的步骤包括：

每次切分前基于所述预设时长范围随机确定随机切分时长；

3.根据权利要求1所述的方法，其特征在于，所述基于各个语音数据和各个所述语音数据切分获得的语音片段，利用全变量因子分析技术获得各个所述语音数据的语种向量和各个所述语音片段的语种向量，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述语种向量时长类内方差进行特征分解相关处理获得时长干扰矩阵，包括：

基于各个所述特征值的大小由大到小排序各个所述特征值；

5.根据权利要求1所述的方法，其特征在于，所述基于单位矩阵和所述时长干扰矩阵，获得所述时长干扰投影矩阵，包括：

6.根据权利要求1所述的方法，其特征在于，还包括：

7.一种语种识别的方法，其特征在于，利用权利要求1-6任一项所述的时长干扰投影矩阵，包括：

8.一种语种向量获得的装置，其特征在于，包括：

第一新语种向量获得单元，用于利用所述时长干扰投影矩阵将各个所述语音数据的语种向量映射为各个所述语音数据的新语种向量；

所述时长干扰投影矩阵获得单元包括：

9.一种语种识别的装置，其特征在于，利用权利要求8所述的时长干扰投影矩阵，包括：