CN108648747B

CN108648747B - 语种识别系统

Info

Publication number: CN108648747B
Application number: CN201810234745.2A
Authority: CN
Inventors: 刘巍巍; 董太清; 周建华; 王希光; 唐玉建; 吴栋; 王浩; 赵鹏; 刘艺; 张卫强; 刘加
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2020-06-02
Anticipated expiration: 2038-03-21
Also published as: CN108648747A

Abstract

本发明提供了一种语种识别系统，所述识别系统包括：获取模块、超矢量计算模块、分类模块及语种识别模块；通过获取模块获取语种的语音样本，并得到音素序列的概率值和二叉决策树特征超矢量的概率值；再通过超矢量计算模块将音素序列的概率值与二叉决策树特征超矢量的概率值进行比较计算、拼接，从而得到语音样本的联合特征超矢量；分类模块用于将训练库中语种样本的联合特征超矢量进行分类和语种建模，得到每一语种的联合支持矢量，语种识别模块用于获取输入的待测的语音段，在训练库中匹配联合支持矢量，得到与语音段对应的目标语种。本发明能够提高语种识别的准确性。

Description

语种识别系统

技术领域

本发明涉及语音识别领域，特别是涉及一种语种识别系统。

背景技术

随着社会的发展，时代的进步，语种识别技术越来越多的被使用。所谓语种识别是从一个语音段里识别出其所使用的语言种类的过程，该技术在很多领域里面有重要的应用，比如语音翻译，多语种识别，信息安全和对外事务等。目前声学系统和基于音素的识别系统是两个语种识别系统的主流系统。基于音素的语种识别是基于这样的假设：就是每个语种包含的音素和音素组合不一样。通过对音素序列进行N-gram建模是一个很有效的语种识别的方法，识别准确率也很高。

传统技术中基于音素的语种识别是通过对音素序列进行N-gram建模，识别准确率也很高，但是还是有一些问题。主要是由于N元文法的特征超矢量不能够有效的表达长上下文音素序列之间的关系。第一，为了描述更多音素序列之间的关系，就需要用高阶N元文法建模，这使建模所需要估计的参数成几何数的增长，计算代价也会更高。第二，许多N元文法的历史是相同的，但是N元文法建模是精确匹配历史的，这就需要估计比实际更多的参数，这也使向量空间模型不鲁棒。

发明内容

基于传统技术中，N元文法对长上下文语音段建模能力差的问题，本发明的目的在于提供一种语种识别系统。

一种语种识别系统，所述识别系统包括：获取模块、超矢量计算模块、分类模块及语种识别模块；所述获取模块，用于获取多个语种样本，并计算多个语种样本中每一语音样本的N元文法的特征超矢量的任意一个音素序列的概率值和二叉决策树特征超矢量中相应音素序列的概率值；所述超矢量计算模块，用于根据所述N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算，再将所有音素序列的比较计算结果拼接，得到每一语音样本的联合特征超矢量；所述分类模块，用于根据样本标签将训练库中语种样本的联合特征超矢量通过分类器进行分类和语种建模，获得每一语种的联合支持矢量；所述语种识别模块，用于获取输入的待测的语音段，并计算得到所述语音段的联合特征超矢量；在所述训练库中查询与所述联合特征超矢量匹配的联合支持矢量；根据匹配结果，获得与所述语音段对应的目标语种。

在其中一个实施例中，所述超矢量计算模块包括：超矢量计算子模块；所述超矢量计算子模块用于将所述N元文法的特征超矢量的任意一个音素序列的概率值与所述二叉决策树特征超矢量相应的音素序列的概率值进行比较判断；若所述N元文法的特征超矢量的任意一个音素序列的概率值小于其所述二叉决策树特征超矢量相应的音素序列的概率值时，通过所述N元文法的特征超矢量中的相应音素序列的概率值与所述二叉决策树中的相应音素序列的概率值计算出几何平均值，将所述几何平均值作为该语音样本的联合特征超矢量的相应音素序列的概率值；若所述N元文法的特征超矢量的任意一个音素序列的概率值不小于其在所述二叉决策树特征超矢量中的相应音素序列的概率值时，将所述N元文法的特征超矢量的相应音素序列的概率值作为该语音样本的联合特征超矢量的相应音素序列的概率值。

在其中一个实施例中，所述语种识别模块包括：置信分数获取子模块、置信分数比较子模块；所述置信分数获取子模块，用于通过所述联合特征超矢量与所述联合支持矢量的计算，获取置信分数；所述置信分数比较子模块，用于将所述置信分数与预设门限值进行比较，得到所述语音段对应的目标语种；其中，若所述语音段得到的所述置信分数大于预设门限值的数值越大，所述语音段属于所述目标语种的概率越大；若所述语音段得到的所述置信分数小于预设门限值的数值越小，所述语音段属于所述目标语种的概率越小。

在其中一个实施例中，所述语种识别模块还包括：后验概率子模块；所述后验概率子模块，用于根据所述置信分数与每一置信分数的权重系数计算得到置信分数矢量；所述语种识别模块还用于通过最大化所述置信分数矢量的后验概率，得到所述语音段所属的语种。

在其中一个实施例中，所述置信分数矢量的后验概率的公式如下：

其中，g(i)是x_i的类别标签，P(g(i))是x_i属于第j类目标语种的概率P(j)是第j类目标语种的先验概率，概率密度函数p(x|λ')是基于N维矢量x的高斯混合模型。

在其中一个实施例中，所述分类模块还用于依次将所述多个语种样本中每个语种的多个语音段的联合特征超矢量作为正样本，将所述其它语种的多个语音段的联合特征超矢量作为负样本，通过迭代算法计算正样本与负样本之间的最优分类面，对语种样本进行分类。

在其中一个实施例中，所述获取模块包括：获取子模块；所述获取子模块用于对每一音素序列出现的次数和所有音素序列出现的次数的比值进行拼接，得到所述语音段的N元文法的特征超矢量。

在其中一个实施例中，所述超矢量计算模块还用于根据获取的所述语音段中N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算，获取所述语音段的联合特征超矢量。

在其中一个实施例中，所述分类模块还包括：比对子模块；所述比对子模块用于将所述语音段的联合特征超矢量与所述训练库中每一语种的联合支持矢量进行比对，得到所述语音段对应的目标语种。

在其中一个实施例中，所述获取模块还包括：矩阵子模块、初级降维子模块、二级降维子模块；所述矩阵子模块，用于获取第一矩阵；所述初级降维子模块，用于将第一矩阵降维为第二矩阵，得到最优音素子集；所述二级降维子模块，用于将第二矩阵降维为第三矩阵，得到预测变量的最优子集。

上述语种识别系统，通过获取模块获取语种的语音样本，并得到音素序列的概率值和二叉决策树特征超矢量的概率值；再通过超矢量计算模块将音素序列的概率值与二叉决策树特征超矢量的概率值进行比较计算、拼接，从而得到语音样本的联合特征超矢量；使用分类模块将训练库中语种样本通过分类器进行分类和语种建模，得到每一语种的联合支持矢量；经过语种识别模块获取输入的待测的语音段，在训练库中查询与联合特征超矢量匹配的联合支持矢量，得到与语音段对应的目标语种。本发明通过使用联合特征超矢量可以使长上下文音素序列更准确，从而让一个语音段的特征描述更加精细，提高语种识别性能。

附图说明

图1为一实施例提供的语种识别方法的流程图；

图2为一实施例的获取联合特征超矢量的流程图；

图3为一实施例的获取目标语种的流程图；

图4为一实施例的建立二叉树的流程图；

图5为一实施例提供的语种识别系统的模块图；

图6为一实施例提供的语种识别系统的超矢量计算模块图；

图7为一实施例提供的语种识别系统的语种识别模块图；

图8为一实施例提供的语种识别系统的获取模块图；

图9为一实施例提供的语种识别系统的分类模块图。

具体实施方式

为了使本发明的技术方案更加清楚，以下结合附图，对本发明的技术方案进一步详细的说明。应当理解，此处所描述的具体实施例仅用以解释本发明并不用于限定本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图1所示出的是与本发明一实施例提供的一种语种识别方法的流程图。该方法包括如下步骤：

步骤S101，获取多个语种样本，并计算多个语种样本中每一语音样本的N元文法的特征超矢量的任意一个音素序列的概率值和二叉决策树特征超矢量中相应音素序列的概率值。

语种样本可以是包括不同语言类型的样本，通过对不同语种样本计算，得到每一语音样本的N元文法的特征超矢量的任意一个音素序列的概率值和二叉决策树特征超矢量中相应音素序列的概率值。

可选的，不同语种可以是中文、英文、法文、德文、日文等。具体的，可以是通过计算获取中文、英文、法文等语音样本的N元文法的特征超矢量和二叉决策树特征超矢量。

N元文法可以称为N-Gram(有时也称为N元模型)，是自然语言处理中一个非常重要的概念，通常在人工智能领域，基于一定的语料库，可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面，N-Gram的另外一个作用是用来评估两个字符串之间的差异程度。

特征超矢量是用特定的数学特征来表示一段语音的各音素序列分布概率的高维矢量。而二叉决策树是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。其中音素序列是两个或多个音素的组合。

步骤S102，根据所述N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算，再将所有音素序列的比较计算结果拼接，获取每一语音样本的联合特征超矢量。

超矢量计算模块，用于根据所述N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算，再将所有音素序列的比较计算结果拼接，得到每一语音样本的联合特征超矢量。

N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值计算可以是运用基础算法，例如：乘法运算、除法运算、加法运算、减法运算等。N元文法的特征超矢量的概率值与二叉决策树特征超矢量的比较可以通过因子分析、聚类分析、方差分析、对应分析等进行比较。

对联合特征超矢量理解可以是，将在N元文法的特征超矢量的某一音素序列的概率值与其在二叉决策树特征超矢量中的概率值相比较，用特定决策方法做出判决，将判决结果作为该音素序列在联合特征超矢量中的概率值，再将所有音素序列的概率拼接并归一化，由此获取N元文法与二叉决策树结合后的特征超矢量称为联合特征超矢量。

步骤S103，根据样本标签将训练库中语种样本的联合特征超矢量通过分类器进行分类和语种建模，获得每一语种的联合支持矢量。

训练库存储着每个语种的样本，通过分类器将每个语种样本的联合特征超矢量进行分类，得到每一语种样本的联合支持矢量。

可选的，通过分类器进行分类可以是通过决策树、逻辑回归、朴素贝叶斯、神经网络等进行分类。具体的，将训练库中每个语种样本的联合特征超矢量通过SVM分类器进行分类，获得每一语种样本的联合支持矢量。

步骤S104，获取输入的待测的语音段，并计算得到所述语音段的联合特征超矢量。

获取所需识别的语音段，首先计算出语音段的联合特征超矢量，语音段可以是不同音高的语音段、不同音强的语音段、不同音长的语音段以及不同音质的语音段。

步骤S105，在所述训练库中查询与所述联合特征超矢量匹配的联合支持矢量。

在存储着不同语种样本的训练库中匹配获取语音段的联合特征超矢量，根据匹配到的联合特征超矢量查询对应的联合支持矢量。联合支持矢量是：在训练阶段时，获取多个任意语种的联合特征超矢量后，用分类器进行训练，得到每个语种对其他语种的最优分类超平面，该超平面是用高维矢量形式表示，称为该语种分类的联合支持矢量。

步骤S106，根据匹配结果，获得与所述语音段对应的目标语种。

匹配到的联合特征超矢量称为相似值，匹配的结果可以是具有相似值高于90％的概率值，或相似值高于95％的概率值，将其定义为目标语种。

在其中一个实施例中，如图2所示，根据所述N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算，再将所有音素序列的比较计算结果拼接，获取每一语音样本的联合特征超矢量包括：

步骤S201，若所述N元文法的特征超矢量的任意一个音素序列的概率值小于其所述二叉决策树特征超矢量相应的音素序列的概率值时，通过所述N元文法的特征超矢量中的相应音素序列的概率值与所述二叉决策树中的相应音素序列的概率值计算出几何平均值，将所述几何平均值作为该语音样本的联合特征超矢量的相应音素序列的概率值；

步骤S202，若所述N元文法的特征超矢量的任意一个音素序列的概率值不小于其在所述二叉决策树特征超矢量中的相应音素序列的概率值时，将所述N元文法的特征超矢量的相应音素序列的概率值作为该语音样本的联合特征超矢量的相应音素序列的概率值。

在其中一个实施例中，如图3所示，所述根据匹配结果，所述根据匹配结果，获得与所述语音段对应的目标语种的步骤还包括：

步骤S301，通过所述联合特征超矢量与所述联合支持矢量的计算，获取置信分数。

步骤S302，将所述置信分数与预设门限值进行比较，得到所述语音段对应的目标语种。

若所述语音段得到的所述置信分数大于预设门限值的数值越大，所述语音段属于所述目标语种的概率越大；

若所述语音段得到的所述置信分数小于预设门限值的数值越小，所述语音段属于所述目标语种的概率越小。

将待识别语音段得到的置信分数与预设门限值的进行比较，置信分数的数值越大，语音段的语种是其对应语种的概率越大，置信分数数值越小，语音段的语种是其对应语种的概率越小。置信分数：是将某一语音段的特征超矢量输入分类器，得到与最优分类超平面的距离。预设门限值：是预先设定的数值，当某一语音段置信分数大于该数值时即认为该语音段属于正类语种。

在其中一个实施例中，所述方法还包括步骤：根据所述置信分数与每一置信分数的权重系数计算得到置信分数矢量；通过最大化所述置信分数矢量的后验概率，得到所述语音段所属的语种。

通过置信分数与每一置信分数的权重系数计算得到置信分数矢量，权重系数就是每一置信分数所具有的重要程度，再通过最大化置信分数矢量的后验概率，得到最大化后的后验概率为语音段所属的语种的概率值，从而确定所属语种。

在其中一个实施例中，根据样本标签将训练库中语种样本的联合特征超矢量通过分类器进行分类和语种建模，获得每一语种的联合支持矢量包括：

依次将所述多个语种样本中每个语种的多个语音段的联合特征超矢量作为正样本，将所述其它语种的多个语音段的联合特征超矢量作为负样本，通过迭代算法计算正样本与负样本之间的最优分类面，对语种样本进行分类。

在语音识别的训练阶段，通常采用“一对多”的SVM分类模式，对于多个语种样本，支持向量机是用多个语种样本中每个语种的联合特征超矢量作为正样本集，所有其他语种的语音段的特征超矢量作为负样本集，在正样本和负样本间寻找出最优分类面，待识别语音段进行分类后，具有更高准确率的识别效果。

在其中一个实施例中，获取多个语种样本，并计算多个语种样本中每一语音样本的N元文法特征超矢量的任意一个音素序列的概率值和二叉决策树特征超矢量中相应音素序列的概率值包括：对每一音素序列出现的次数和所有音素序列出现的次数的比值进行拼接，得到所述语音段的N元文法特征超矢量。

得到待识别语音段的特征超矢量，首先得到待识别语音段所有音素序列出现的次数，再将待识别语音段所有音素序列出现的次数进行拼接，从而得到待识别语音段的N元文法特征超矢量。

在其中一个实施例中，待识别语音段的特征超矢量可以由以下公式计算：

其中F＝f^N，f是音素识别器中包含的音素数，N代表N元文法，

表示音素格

中出现音素序列d_i的概率。

在其中一个实施例中，获取联合特征超矢量的过程中，若N元文法的特征超矢量的概率值小于其二叉决策树特征超矢量时，通过N元文法的特征超矢量中的概率值与二叉决策树中的概率值计算公式如下：

这里r是p(d_q|l_x)和p_Bin(d_q|t_x)的比值，p_Bin(d_i|t_x)代表二叉决策树中音素序列d_i的概率。通过上述公式计算联合概率并拼接出几何平均值，将所述几何平均值作为联合特征超矢量。

在其中一个实施例中，根据所述置信分数与每一置信分数的权重系数计算得到置信分数矢量。获取置信分数矢量融合公式如下：

x＝[w₁λ_1,1,w₁λ_1,2,...,w₁λ_1,T,w₂λ_2,1,w₂λ_2,2,...,w_Mλ_M,T]

这里w₁,w₂,...,w_F是各音素识别器前端子系统的权重，通常各音素识别器前端子系统的权重由各子系统对开发集(一个已知语音段语种的辅助测试集)的识别性能所决定，子系统对开发集的识别性能越好，权重越大，反之越小。通过获取置信分数矢量可以更准备判断出语音段术语哪个语种。

在其中一个实施例中，根据所述置信分数与每一置信分数的权重系数计算得到置信分数矢量；通过最大化所述置信分数矢量的后验概率，得到所述语音段所属的语种。获取有置信分数超矢量的后验概率的公式如下：

这里g(i)是x_i的类别标签，P(g(i))是x_i属于第j类目标语种的概率P(j)是第j类目标语种的先验概率，概率密度函数p(x|λ')是基于N维矢量x的高斯混合模型。

在其中一个实施例中，根据所述N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算，再将所有音素序列的概率值拼接，获取每一语音样本的联合特征超矢量还包括：根据获取的所述语音段中N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算，获取所述语音段的联合特征超矢量。

超矢量计算模块还用于根据获取的所述语音段中N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算，获取所述语音段的联合特征超矢量。

得到待识别语音段的联合特征超矢量，是通过待识别语音段中的N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值比较计算得到，也就是说，此比较计算可以是特征超矢量与二叉决策树特征超矢量的加法运算、减法运算、乘法运算、除法运算。比较可以是因子分析、聚类分析、方差分析、对应分析等。

在其中一个实施例中，所述在所述训练库中查询与所述联合特征超矢量匹配的联合支持矢量的步骤包括：

将所述语音段的联合特征超矢量与所述训练库中每一语种的联合支持矢量进行比对，得到所述语音段对应的目标语种。

得到待识别语音段的目标语种的过程，是将待识别的语音段的联合特征超矢量与训练库中每一语种的联合支持矢量进行比对，也就是说，将待识别语音段的特征超矢量与数据库中存储多种不同语种的联合支持矢量比对，从而确定出待识别的目标语种。

在其中一个实施例中，获得与所述语音段对应的目标语种的运行可以分为两个阶段。两个阶段：训练和测验。(1)在训练阶段，用一对多的策略在训练数据的语种的标签基础上进行语种建模。该语种模型建模的目的是从训练数据中归纳一些语种相关的特征，用语种模型来表示。例如，我们有一个包含中文、英文、日语、法语、韩语五个语种的共计2万段语音的训练库，先提取这2万段语音的特征超矢量，然后使这五个语种依次作为目标语种，对该语种进行建模。对于每个目标语种，支持向量机是用目标语种数据集的语音段的特征超矢量作为正样本集，所有其他语种的语音段的特征超矢量作为负样本集，在正样本和负样本间寻找出最优分类面。因此将训练集语音段的特征向量输入SVM分类器将输入的特征向量映射到一个更高维空间，用迭代算法在此空间中寻找一个最佳超分类平面(即能容忍误差的能力最大的那个超平面，由分割平面开始往两边推，到碰到正负样本点时候的距离都尽量达到最远)将该空间分为两个部分。

(2)在测试阶段，测试语音经历相同特征超矢量提取步骤，计算语音段对每个语种模型的似然性，然后找到与之匹配的语种模型。基于最大似然准则，获得最大似然分数的模型的语种代表该测试语音段的语种类型。

在其中一个实施例中，如图4所示，在所述计算多个语种样本中每一语音样本的N元文法的特征超矢量和二叉决策树特征超矢量步骤之前还包括：

步骤S401，获取第一矩阵；

步骤S402，将第一矩阵降维为第二矩阵，得到最优音素子集；

步骤S403，将第二矩阵降维为第三矩阵，得到预测变量的最优子集。

Flip-Flop(FF)算法是对空间降维的两次翻转的触发器算法。空间降维的搜索算法是进行两次翻转的过程，先将K×K维矩阵降维为2×K维矩阵，再找到当前音素的最优音素子集；然后再通过一次翻转过程，将K×K维矩阵降维为K×2维矩阵，从而得到需要求解的预测变量的最优子集。使用空间降维的FF搜索算法可以进一步降低搜索算法的复杂度，加快二叉树的构造过程。最优音素子集和预测变量的最优子集是通过空间降维算法得到的最优子集，加快二叉决策树的构造过程。其中，最优音素子集是在FF搜索算法中，按照最大互信息准则求得当前可能的音素中的概率最大的一个或几个音素。其中，预测变量的最优子集是在FF搜索算法中，所需预测音素的最有可能的音素的集合。

在一个实施例中，还提供一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现如上述各实施例中的任意一种语种识别方法的步骤。

该计算机设备，其处理器执行程序时，通过实现如上述各实施例中的任意一种语种识别方法，首先获取多个语种的语音样本，通过多个语音样本中每一语音样本的N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值比较计算，再将计算结果拼接得到每一语音样本的联合特征超矢量；通过分类器进行分类和语种建模，得到每一语种的联合支持矢量，获取输入的待测的语音段并得其联合特征超矢量，在训练库中查询与联合特征超矢量匹配的联合支持矢量，得到与语音段对应的目标语种。本发明使用联合语种模型的特征超矢量可以让一个语言的特征描述更加精细，从提高语种识别性能。

此外，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述各语种识别方法的实施例的流程。

在一个实施例中，还提供一种存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上述各实施例中的任意一种语种识别方法的步骤。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随即存储记忆本(RandomAccess Memory，RAM)等。

该计算机存储介质，其存储的计算机程序，通过实现包括如上述各语种识别方法的实施例的流程，首先获取多个语种的语音样本，通过多个语音样本中每一语音样本的N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值比较计算，再将计算结果拼接得到每一语音样本的联合特征超矢量；通过分类器进行分类和语种建模，得到每一语种的联合支持矢量，获取输入的待测的语音段并得其联合特征超矢量，在训练库中查询与联合特征超矢量匹配的联合支持矢量，得到与语音段对应的目标语种。本发明使用联合语种模型的特征超矢量可以让一个语言的特征描述更加精细，从提高语种识别性能。

在一个实施例中，如图5所示，提供了一种语种识别系统1000，包括：获取模块1010、超矢量计算模块1020、分类模块1030及语种识别模块1040，其中：获取模块1010，用于获取多个语种样本，并计算多个语种样本中每一语音样本的N元文法的特征超矢量的任意一个音素序列的概率值和二叉决策树特征超矢量中相应音素序列的概率值。超矢量计算模块1020，用于根据所述N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算，再将所有音素序列的比较计算结果拼接，得到每一语音样本的联合特征超矢量。分类模块1030，用于根据样本标签将训练库中语种样本的联合特征超矢量通过分类器进行分类和语种建模，获得每一语种的联合支持矢量。语种识别模块1040，用于获取输入的待测的语音段，并计算得到所述语音段的联合特征超矢量；在所述训练库中查询与所述联合特征超矢量匹配的联合支持矢量；根据匹配结果，获得与所述语音段对应的目标语种。

在其中一个实施例中，如图6所示，超矢量计算模块1020包括：超矢量计算子模块1021；所述超矢量计算子模块1021用于将所述N元文法的特征超矢量的任意一个音素序列的概率值与所述二叉决策树特征超矢量相应的音素序列的概率值进行比较判断；若所述N元文法的特征超矢量的任意一个音素序列的概率值小于其所述二叉决策树特征超矢量相应的音素序列的概率值时，通过所述N元文法的特征超矢量中的相应音素序列的概率值与所述二叉决策树中的相应音素序列的概率值计算出几何平均值，将所述几何平均值作为该语音样本的联合特征超矢量的相应音素序列的概率值；若所述N元文法的特征超矢量的任意一个音素序列的概率值不小于其在所述二叉决策树特征超矢量中的相应音素序列的概率值时，将所述N元文法的特征超矢量的相应音素序列的概率值作为该语音样本的联合特征超矢量的相应音素序列的概率值。

在其中一个实施例中，如图7所示，所述语种识别模块1040包括：置信分数获取子模块1041、置信分数比较子模块1042；所述置信分数获取子模块1041，用于通过所述联合特征超矢量与所述联合支持矢量的计算，获取置信分数；所述置信分数比较子模块1042，用于将所述置信分数与预设门限值进行比较，得到所述语音段对应的目标语种；其中，若所述语音段得到的所述置信分数大于预设门限值的数值越大，所述语音段属于所述目标语种的概率越大；若所述语音段得到的所述置信分数小于预设门限值的数值越小，所述语音段属于所述目标语种的概率越小。

在其中一个实施例中，如图7所示，所述语种识别模块1040还包括：后验概率子模块1043；所述后验概率子模块1043，用于根据所述置信分数与每一置信分数的权重系数计算得到置信分数矢量；所述语种识别模块1040还用于通过最大化所述置信分数矢量的后验概率，得到所述语音段所属的语种。

在其中一个实施例中，所述分类模块1030还用于依次将所述多个语种样本中每个语种的多个语音段的联合特征超矢量作为正样本，将所述其它语种的多个语音段的联合特征超矢量作为负样本，通过迭代算法计算正样本与负样本之间的最优分类面，对语种样本进行分类。

在其中一个实施例中，如图8所示，所述获取模块1010包括：获取子模块1011；所述获取子模块1011用于对每一音素序列出现的次数和所有音素序列出现的次数的比值进行拼接，得到所述语音段的N元文法的特征超矢量。

在其中一个实施例中，超矢量计算模块1020还用于根据获取的所述语音段中N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算，获取所述语音段的联合特征超矢量。

在其中一个实施例中，如图9所示，分类模块1030还包括：比对子模块1031；所述比对子模块1031用于将所述语音段的联合特征超矢量与所述训练库中每一语种的联合支持矢量进行比对，得到所述语音段对应的目标语种。

在其中一个实施例中，如图8所示，所述获取模块1010还包括：矩阵子模块1012；所述矩阵子模块1012，用于获取第一矩阵；所述初级降维子模块1013，用于将第一矩阵降维为第二矩阵，得到最优音素子集；所述二级降维子模块1014，用于将第二矩阵降维为第三矩阵，得到预测变量的最优子集。

上述语种识别系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语种识别系统，其特征在于，所述识别系统包括：获取模块、超矢量计算模块、分类模块及语种识别模块；

所述获取模块，用于获取多个语种样本，并计算多个语种样本中每一语音样本的N元文法的特征超矢量的任意一个音素序列的概率值和二叉决策树特征超矢量中相应音素序列的概率值；

所述超矢量计算模块，用于根据所述N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算，再将所有音素序列的比较计算结果拼接，得到每一语音样本的联合特征超矢量；

所述分类模块，用于根据样本标签将训练库中语种样本的联合特征超矢量通过分类器进行分类和语种建模，获得每一语种的联合支持矢量；

所述语种识别模块，用于获取输入的待测的语音段，并计算得到所述语音段的联合特征超矢量；在所述训练库中查询与所述语音段的联合特征超矢量匹配的联合支持矢量；根据匹配结果，获得与所述语音段对应的目标语种。

2.根据权利要求1所述的识别系统，其特征在于，所述超矢量计算模块包括：超矢量计算子模块；

所述超矢量计算子模块用于将所述N元文法的特征超矢量的任意一个音素序列的概率值与所述二叉决策树特征超矢量相应的音素序列的概率值进行比较判断；若所述N元文法的特征超矢量的任意一个音素序列的概率值小于其所述二叉决策树特征超矢量相应的音素序列的概率值时，通过所述N元文法的特征超矢量中的相应音素序列的概率值与所述二叉决策树中的相应音素序列的概率值计算出几何平均值，将所述几何平均值作为该语音样本的联合特征超矢量的相应音素序列的概率值；

若所述N元文法的特征超矢量的任意一个音素序列的概率值不小于其在所述二叉决策树特征超矢量中的相应音素序列的概率值时，将所述N元文法的特征超矢量的相应音素序列的概率值作为该语音样本的联合特征超矢量的相应音素序列的概率值。

3.根据权利要求1所述的识别系统，其特征在于，所述语种识别模块包括：置信分数获取子模块、置信分数比较子模块；

所述置信分数获取子模块，用于通过所述语音段的联合特征超矢量与所述联合支持矢量的计算，获取置信分数；

所述置信分数比较子模块，用于将所述置信分数与预设门限值进行比较，得到所述语音段对应的目标语种；

其中，若所述语音段得到的所述置信分数大于预设门限值的数值越大，所述语音段属于所述目标语种的概率越大；

4.根据权利要求3所述的识别系统，其特征在于，所述语种识别模块还包括：后验概率子模块；

所述后验概率子模块，用于根据所述置信分数与每一置信分数的权重系数计算得到置信分数矢量；

所述语种识别模块还用于通过最大化所述置信分数矢量的后验概率，得到所述语音段所属的语种。

5.根据权利要求4所述的识别系统，其特征在于，所述置信分数矢量的后验概率的公式如下：

6.根据权利要求1所述的识别系统，其特征在于，所述分类模块还用于

7.根据权利要求1所述的识别系统，其特征在于，所述获取模块包括：获取子模块；

所述获取子模块用于对每一音素序列出现的次数和所有音素序列出现的次数的比值进行拼接，得到所述语音样本中的语音段对应的N元文法的特征超矢量。

8.根据权利要求7所述的识别系统，其特征在于，所述超矢量计算模块还用于根据获取的所述语音样本中的语音段对应的N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算，获取所述语音样本中的语音段对应的联合特征超矢量。

9.根据权利要求1所述的识别系统，其特征在于，所述语种识别模块还包括：比对子模块；

所述比对子模块用于将所述语音段的联合特征超矢量与所述训练库中每一语种的联合支持矢量进行比对，得到所述语音段对应的目标语种。

10.根据权利要求1所述的识别系统，其特征在于，所述获取模块还包括：矩阵子模块、初级降维子模块、二级降维子模块；

所述矩阵子模块，用于获取第一矩阵；

所述初级降维子模块，用于将第一矩阵降维为第二矩阵，得到最优音素子集；

所述二级降维子模块，用于将第二矩阵降维为第三矩阵，得到预测变量的最优子集。