CN108648747B - 语种识别系统 - Google Patents
语种识别系统 Download PDFInfo
- Publication number
- CN108648747B CN108648747B CN201810234745.2A CN201810234745A CN108648747B CN 108648747 B CN108648747 B CN 108648747B CN 201810234745 A CN201810234745 A CN 201810234745A CN 108648747 B CN108648747 B CN 108648747B
- Authority
- CN
- China
- Prior art keywords
- vector
- language
- super
- feature
- probability value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 239000013598 vector Substances 0.000 claims abstract description 230
- 238000003066 decision tree Methods 0.000 claims abstract description 56
- 238000004364 calculation method Methods 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 33
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 238000000034 method Methods 0.000 description 25
- 238000004458 analytical method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000010845 search algorithm Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000000540 analysis of variance Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000011295 pitch Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种语种识别系统,所述识别系统包括:获取模块、超矢量计算模块、分类模块及语种识别模块;通过获取模块获取语种的语音样本,并得到音素序列的概率值和二叉决策树特征超矢量的概率值;再通过超矢量计算模块将音素序列的概率值与二叉决策树特征超矢量的概率值进行比较计算、拼接,从而得到语音样本的联合特征超矢量;分类模块用于将训练库中语种样本的联合特征超矢量进行分类和语种建模,得到每一语种的联合支持矢量,语种识别模块用于获取输入的待测的语音段,在训练库中匹配联合支持矢量,得到与语音段对应的目标语种。本发明能够提高语种识别的准确性。
Description
技术领域
本发明涉及语音识别领域,特别是涉及一种语种识别系统。
背景技术
随着社会的发展,时代的进步,语种识别技术越来越多的被使用。所谓语种识别是从一个语音段里识别出其所使用的语言种类的过程,该技术在很多领域里面有重要的应用,比如语音翻译,多语种识别,信息安全和对外事务等。目前声学系统和基于音素的识别系统是两个语种识别系统的主流系统。基于音素的语种识别是基于这样的假设:就是每个语种包含的音素和音素组合不一样。通过对音素序列进行N-gram建模是一个很有效的语种识别的方法,识别准确率也很高。
传统技术中基于音素的语种识别是通过对音素序列进行N-gram建模,识别准确率也很高,但是还是有一些问题。主要是由于N元文法的特征超矢量不能够有效的表达长上下文音素序列之间的关系。第一,为了描述更多音素序列之间的关系,就需要用高阶N元文法建模,这使建模所需要估计的参数成几何数的增长,计算代价也会更高。第二,许多N元文法的历史是相同的,但是N元文法建模是精确匹配历史的,这就需要估计比实际更多的参数,这也使向量空间模型不鲁棒。
发明内容
基于传统技术中,N元文法对长上下文语音段建模能力差的问题,本发明的目的在于提供一种语种识别系统。
一种语种识别系统,所述识别系统包括:获取模块、超矢量计算模块、分类模块及语种识别模块;所述获取模块,用于获取多个语种样本,并计算多个语种样本中每一语音样本的N元文法的特征超矢量的任意一个音素序列的概率值和二叉决策树特征超矢量中相应音素序列的概率值;所述超矢量计算模块,用于根据所述N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,再将所有音素序列的比较计算结果拼接,得到每一语音样本的联合特征超矢量;所述分类模块,用于根据样本标签将训练库中语种样本的联合特征超矢量通过分类器进行分类和语种建模,获得每一语种的联合支持矢量;所述语种识别模块,用于获取输入的待测的语音段,并计算得到所述语音段的联合特征超矢量;在所述训练库中查询与所述联合特征超矢量匹配的联合支持矢量;根据匹配结果,获得与所述语音段对应的目标语种。
在其中一个实施例中,所述超矢量计算模块包括:超矢量计算子模块;所述超矢量计算子模块用于将所述N元文法的特征超矢量的任意一个音素序列的概率值与所述二叉决策树特征超矢量相应的音素序列的概率值进行比较判断;若所述N元文法的特征超矢量的任意一个音素序列的概率值小于其所述二叉决策树特征超矢量相应的音素序列的概率值时,通过所述N元文法的特征超矢量中的相应音素序列的概率值与所述二叉决策树中的相应音素序列的概率值计算出几何平均值,将所述几何平均值作为该语音样本的联合特征超矢量的相应音素序列的概率值;若所述N元文法的特征超矢量的任意一个音素序列的概率值不小于其在所述二叉决策树特征超矢量中的相应音素序列的概率值时,将所述N元文法的特征超矢量的相应音素序列的概率值作为该语音样本的联合特征超矢量的相应音素序列的概率值。
在其中一个实施例中,所述语种识别模块包括:置信分数获取子模块、置信分数比较子模块;所述置信分数获取子模块,用于通过所述联合特征超矢量与所述联合支持矢量的计算,获取置信分数;所述置信分数比较子模块,用于将所述置信分数与预设门限值进行比较,得到所述语音段对应的目标语种;其中,若所述语音段得到的所述置信分数大于预设门限值的数值越大,所述语音段属于所述目标语种的概率越大;若所述语音段得到的所述置信分数小于预设门限值的数值越小,所述语音段属于所述目标语种的概率越小。
在其中一个实施例中,所述语种识别模块还包括:后验概率子模块;所述后验概率子模块,用于根据所述置信分数与每一置信分数的权重系数计算得到置信分数矢量;所述语种识别模块还用于通过最大化所述置信分数矢量的后验概率,得到所述语音段所属的语种。
在其中一个实施例中,所述置信分数矢量的后验概率的公式如下:
在其中一个实施例中,所述分类模块还用于依次将所述多个语种样本中每个语种的多个语音段的联合特征超矢量作为正样本,将所述其它语种的多个语音段的联合特征超矢量作为负样本,通过迭代算法计算正样本与负样本之间的最优分类面,对语种样本进行分类。
在其中一个实施例中,所述获取模块包括:获取子模块;所述获取子模块用于对每一音素序列出现的次数和所有音素序列出现的次数的比值进行拼接,得到所述语音段的N元文法的特征超矢量。
在其中一个实施例中,所述超矢量计算模块还用于根据获取的所述语音段中N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,获取所述语音段的联合特征超矢量。
在其中一个实施例中,所述分类模块还包括:比对子模块;所述比对子模块用于将所述语音段的联合特征超矢量与所述训练库中每一语种的联合支持矢量进行比对,得到所述语音段对应的目标语种。
在其中一个实施例中,所述获取模块还包括:矩阵子模块、初级降维子模块、二级降维子模块;所述矩阵子模块,用于获取第一矩阵;所述初级降维子模块,用于将第一矩阵降维为第二矩阵,得到最优音素子集;所述二级降维子模块,用于将第二矩阵降维为第三矩阵,得到预测变量的最优子集。
上述语种识别系统,通过获取模块获取语种的语音样本,并得到音素序列的概率值和二叉决策树特征超矢量的概率值;再通过超矢量计算模块将音素序列的概率值与二叉决策树特征超矢量的概率值进行比较计算、拼接,从而得到语音样本的联合特征超矢量;使用分类模块将训练库中语种样本通过分类器进行分类和语种建模,得到每一语种的联合支持矢量;经过语种识别模块获取输入的待测的语音段,在训练库中查询与联合特征超矢量匹配的联合支持矢量,得到与语音段对应的目标语种。本发明通过使用联合特征超矢量可以使长上下文音素序列更准确,从而让一个语音段的特征描述更加精细,提高语种识别性能。
附图说明
图1为一实施例提供的语种识别方法的流程图;
图2为一实施例的获取联合特征超矢量的流程图;
图3为一实施例的获取目标语种的流程图;
图4为一实施例的建立二叉树的流程图;
图5为一实施例提供的语种识别系统的模块图;
图6为一实施例提供的语种识别系统的超矢量计算模块图;
图7为一实施例提供的语种识别系统的语种识别模块图;
图8为一实施例提供的语种识别系统的获取模块图;
图9为一实施例提供的语种识别系统的分类模块图。
具体实施方式
为了使本发明的技术方案更加清楚,以下结合附图,对本发明的技术方案进一步详细的说明。应当理解,此处所描述的具体实施例仅用以解释本发明并不用于限定本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1所示出的是与本发明一实施例提供的一种语种识别方法的流程图。该方法包括如下步骤:
步骤S101,获取多个语种样本,并计算多个语种样本中每一语音样本的N元文法的特征超矢量的任意一个音素序列的概率值和二叉决策树特征超矢量中相应音素序列的概率值。
语种样本可以是包括不同语言类型的样本,通过对不同语种样本计算,得到每一语音样本的N元文法的特征超矢量的任意一个音素序列的概率值和二叉决策树特征超矢量中相应音素序列的概率值。
可选的,不同语种可以是中文、英文、法文、德文、日文等。具体的,可以是通过计算获取中文、英文、法文等语音样本的N元文法的特征超矢量和二叉决策树特征超矢量。
N元文法可以称为N-Gram(有时也称为N元模型),是自然语言处理中一个非常重要的概念,通常在人工智能领域,基于一定的语料库,可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面,N-Gram的另外一个作用是用来评估两个字符串之间的差异程度。
特征超矢量是用特定的数学特征来表示一段语音的各音素序列分布概率的高维矢量。而二叉决策树是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。其中音素序列是两个或多个音素的组合。
步骤S102,根据所述N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,再将所有音素序列的比较计算结果拼接,获取每一语音样本的联合特征超矢量。
超矢量计算模块,用于根据所述N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,再将所有音素序列的比较计算结果拼接,得到每一语音样本的联合特征超矢量。
N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值计算可以是运用基础算法,例如:乘法运算、除法运算、加法运算、减法运算等。N元文法的特征超矢量的概率值与二叉决策树特征超矢量的比较可以通过因子分析、聚类分析、方差分析、对应分析等进行比较。
对联合特征超矢量理解可以是,将在N元文法的特征超矢量的某一音素序列的概率值与其在二叉决策树特征超矢量中的概率值相比较,用特定决策方法做出判决,将判决结果作为该音素序列在联合特征超矢量中的概率值,再将所有音素序列的概率拼接并归一化,由此获取N元文法与二叉决策树结合后的特征超矢量称为联合特征超矢量。
步骤S103,根据样本标签将训练库中语种样本的联合特征超矢量通过分类器进行分类和语种建模,获得每一语种的联合支持矢量。
训练库存储着每个语种的样本,通过分类器将每个语种样本的联合特征超矢量进行分类,得到每一语种样本的联合支持矢量。
可选的,通过分类器进行分类可以是通过决策树、逻辑回归、朴素贝叶斯、神经网络等进行分类。具体的,将训练库中每个语种样本的联合特征超矢量通过SVM分类器进行分类,获得每一语种样本的联合支持矢量。
步骤S104,获取输入的待测的语音段,并计算得到所述语音段的联合特征超矢量。
获取所需识别的语音段,首先计算出语音段的联合特征超矢量,语音段可以是不同音高的语音段、不同音强的语音段、不同音长的语音段以及不同音质的语音段。
步骤S105,在所述训练库中查询与所述联合特征超矢量匹配的联合支持矢量。
在存储着不同语种样本的训练库中匹配获取语音段的联合特征超矢量,根据匹配到的联合特征超矢量查询对应的联合支持矢量。联合支持矢量是:在训练阶段时,获取多个任意语种的联合特征超矢量后,用分类器进行训练,得到每个语种对其他语种的最优分类超平面,该超平面是用高维矢量形式表示,称为该语种分类的联合支持矢量。
步骤S106,根据匹配结果,获得与所述语音段对应的目标语种。
匹配到的联合特征超矢量称为相似值,匹配的结果可以是具有相似值高于90%的概率值,或相似值高于95%的概率值,将其定义为目标语种。
在其中一个实施例中,如图2所示,根据所述N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,再将所有音素序列的比较计算结果拼接,获取每一语音样本的联合特征超矢量包括:
步骤S201,若所述N元文法的特征超矢量的任意一个音素序列的概率值小于其所述二叉决策树特征超矢量相应的音素序列的概率值时,通过所述N元文法的特征超矢量中的相应音素序列的概率值与所述二叉决策树中的相应音素序列的概率值计算出几何平均值,将所述几何平均值作为该语音样本的联合特征超矢量的相应音素序列的概率值;
步骤S202,若所述N元文法的特征超矢量的任意一个音素序列的概率值不小于其在所述二叉决策树特征超矢量中的相应音素序列的概率值时,将所述N元文法的特征超矢量的相应音素序列的概率值作为该语音样本的联合特征超矢量的相应音素序列的概率值。
在其中一个实施例中,如图3所示,所述根据匹配结果,所述根据匹配结果,获得与所述语音段对应的目标语种的步骤还包括:
步骤S301,通过所述联合特征超矢量与所述联合支持矢量的计算,获取置信分数。
步骤S302,将所述置信分数与预设门限值进行比较,得到所述语音段对应的目标语种。
若所述语音段得到的所述置信分数大于预设门限值的数值越大,所述语音段属于所述目标语种的概率越大;
若所述语音段得到的所述置信分数小于预设门限值的数值越小,所述语音段属于所述目标语种的概率越小。
将待识别语音段得到的置信分数与预设门限值的进行比较,置信分数的数值越大,语音段的语种是其对应语种的概率越大,置信分数数值越小,语音段的语种是其对应语种的概率越小。置信分数:是将某一语音段的特征超矢量输入分类器,得到与最优分类超平面的距离。预设门限值:是预先设定的数值,当某一语音段置信分数大于该数值时即认为该语音段属于正类语种。
在其中一个实施例中,所述方法还包括步骤:根据所述置信分数与每一置信分数的权重系数计算得到置信分数矢量;通过最大化所述置信分数矢量的后验概率,得到所述语音段所属的语种。
通过置信分数与每一置信分数的权重系数计算得到置信分数矢量,权重系数就是每一置信分数所具有的重要程度,再通过最大化置信分数矢量的后验概率,得到最大化后的后验概率为语音段所属的语种的概率值,从而确定所属语种。
在其中一个实施例中,根据样本标签将训练库中语种样本的联合特征超矢量通过分类器进行分类和语种建模,获得每一语种的联合支持矢量包括:
依次将所述多个语种样本中每个语种的多个语音段的联合特征超矢量作为正样本,将所述其它语种的多个语音段的联合特征超矢量作为负样本,通过迭代算法计算正样本与负样本之间的最优分类面,对语种样本进行分类。
在语音识别的训练阶段,通常采用“一对多”的SVM分类模式,对于多个语种样本,支持向量机是用多个语种样本中每个语种的联合特征超矢量作为正样本集,所有其他语种的语音段的特征超矢量作为负样本集,在正样本和负样本间寻找出最优分类面,待识别语音段进行分类后,具有更高准确率的识别效果。
在其中一个实施例中,获取多个语种样本,并计算多个语种样本中每一语音样本的N元文法特征超矢量的任意一个音素序列的概率值和二叉决策树特征超矢量中相应音素序列的概率值包括:对每一音素序列出现的次数和所有音素序列出现的次数的比值进行拼接,得到所述语音段的N元文法特征超矢量。
得到待识别语音段的特征超矢量,首先得到待识别语音段所有音素序列出现的次数,再将待识别语音段所有音素序列出现的次数进行拼接,从而得到待识别语音段的N元文法特征超矢量。
在其中一个实施例中,待识别语音段的特征超矢量可以由以下公式计算:
在其中一个实施例中,获取联合特征超矢量的过程中,若N元文法的特征超矢量的概率值小于其二叉决策树特征超矢量时,通过N元文法的特征超矢量中的概率值与二叉决策树中的概率值计算公式如下:
这里r是p(dq|lx)和pBin(dq|tx)的比值,pBin(di|tx)代表二叉决策树中音素序列di的概率。通过上述公式计算联合概率并拼接出几何平均值,将所述几何平均值作为联合特征超矢量。
在其中一个实施例中,根据所述置信分数与每一置信分数的权重系数计算得到置信分数矢量。获取置信分数矢量融合公式如下:
x=[w1λ1,1,w1λ1,2,...,w1λ1,T,w2λ2,1,w2λ2,2,...,wMλM,T]
这里w1,w2,...,wF是各音素识别器前端子系统的权重,通常各音素识别器前端子系统的权重由各子系统对开发集(一个已知语音段语种的辅助测试集)的识别性能所决定,子系统对开发集的识别性能越好,权重越大,反之越小。通过获取置信分数矢量可以更准备判断出语音段术语哪个语种。
在其中一个实施例中,根据所述置信分数与每一置信分数的权重系数计算得到置信分数矢量;通过最大化所述置信分数矢量的后验概率,得到所述语音段所属的语种。获取有置信分数超矢量的后验概率的公式如下:
这里g(i)是xi的类别标签,P(g(i))是xi属于第j类目标语种的概率P(j)是第j类目标语种的先验概率,概率密度函数p(x|λ')是基于N维矢量x的高斯混合模型。
在其中一个实施例中,根据所述N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,再将所有音素序列的概率值拼接,获取每一语音样本的联合特征超矢量还包括:根据获取的所述语音段中N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,获取所述语音段的联合特征超矢量。
超矢量计算模块还用于根据获取的所述语音段中N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,获取所述语音段的联合特征超矢量。
得到待识别语音段的联合特征超矢量,是通过待识别语音段中的N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值比较计算得到,也就是说,此比较计算可以是特征超矢量与二叉决策树特征超矢量的加法运算、减法运算、乘法运算、除法运算。比较可以是因子分析、聚类分析、方差分析、对应分析等。
在其中一个实施例中,所述在所述训练库中查询与所述联合特征超矢量匹配的联合支持矢量的步骤包括:
将所述语音段的联合特征超矢量与所述训练库中每一语种的联合支持矢量进行比对,得到所述语音段对应的目标语种。
得到待识别语音段的目标语种的过程,是将待识别的语音段的联合特征超矢量与训练库中每一语种的联合支持矢量进行比对,也就是说,将待识别语音段的特征超矢量与数据库中存储多种不同语种的联合支持矢量比对,从而确定出待识别的目标语种。
在其中一个实施例中,获得与所述语音段对应的目标语种的运行可以分为两个阶段。两个阶段:训练和测验。(1)在训练阶段,用一对多的策略在训练数据的语种的标签基础上进行语种建模。该语种模型建模的目的是从训练数据中归纳一些语种相关的特征,用语种模型来表示。例如,我们有一个包含中文、英文、日语、法语、韩语五个语种的共计2万段语音的训练库,先提取这2万段语音的特征超矢量,然后使这五个语种依次作为目标语种,对该语种进行建模。对于每个目标语种,支持向量机是用目标语种数据集的语音段的特征超矢量作为正样本集,所有其他语种的语音段的特征超矢量作为负样本集,在正样本和负样本间寻找出最优分类面。因此将训练集语音段的特征向量输入SVM分类器将输入的特征向量映射到一个更高维空间,用迭代算法在此空间中寻找一个最佳超分类平面(即能容忍误差的能力最大的那个超平面,由分割平面开始往两边推,到碰到正负样本点时候的距离都尽量达到最远)将该空间分为两个部分。
(2)在测试阶段,测试语音经历相同特征超矢量提取步骤,计算语音段对每个语种模型的似然性,然后找到与之匹配的语种模型。基于最大似然准则,获得最大似然分数的模型的语种代表该测试语音段的语种类型。
在其中一个实施例中,如图4所示,在所述计算多个语种样本中每一语音样本的N元文法的特征超矢量和二叉决策树特征超矢量步骤之前还包括:
步骤S401,获取第一矩阵;
步骤S402,将第一矩阵降维为第二矩阵,得到最优音素子集;
步骤S403,将第二矩阵降维为第三矩阵,得到预测变量的最优子集。
Flip-Flop(FF)算法是对空间降维的两次翻转的触发器算法。空间降维的搜索算法是进行两次翻转的过程,先将K×K维矩阵降维为2×K维矩阵,再找到当前音素的最优音素子集;然后再通过一次翻转过程,将K×K维矩阵降维为K×2维矩阵,从而得到需要求解的预测变量的最优子集。使用空间降维的FF搜索算法可以进一步降低搜索算法的复杂度,加快二叉树的构造过程。最优音素子集和预测变量的最优子集是通过空间降维算法得到的最优子集,加快二叉决策树的构造过程。其中,最优音素子集是在FF搜索算法中,按照最大互信息准则求得当前可能的音素中的概率最大的一个或几个音素。其中,预测变量的最优子集是在FF搜索算法中,所需预测音素的最有可能的音素的集合。
在一个实施例中,还提供一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现如上述各实施例中的任意一种语种识别方法的步骤。
该计算机设备,其处理器执行程序时,通过实现如上述各实施例中的任意一种语种识别方法,首先获取多个语种的语音样本,通过多个语音样本中每一语音样本的N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值比较计算,再将计算结果拼接得到每一语音样本的联合特征超矢量;通过分类器进行分类和语种建模,得到每一语种的联合支持矢量,获取输入的待测的语音段并得其联合特征超矢量,在训练库中查询与联合特征超矢量匹配的联合支持矢量,得到与语音段对应的目标语种。本发明使用联合语种模型的特征超矢量可以让一个语言的特征描述更加精细,从提高语种识别性能。
此外,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性的计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各语种识别方法的实施例的流程。
在一个实施例中,还提供一种存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上述各实施例中的任意一种语种识别方法的步骤。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随即存储记忆本(RandomAccess Memory,RAM)等。
该计算机存储介质,其存储的计算机程序,通过实现包括如上述各语种识别方法的实施例的流程,首先获取多个语种的语音样本,通过多个语音样本中每一语音样本的N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值比较计算,再将计算结果拼接得到每一语音样本的联合特征超矢量;通过分类器进行分类和语种建模,得到每一语种的联合支持矢量,获取输入的待测的语音段并得其联合特征超矢量,在训练库中查询与联合特征超矢量匹配的联合支持矢量,得到与语音段对应的目标语种。本发明使用联合语种模型的特征超矢量可以让一个语言的特征描述更加精细,从提高语种识别性能。
在一个实施例中,如图5所示,提供了一种语种识别系统1000,包括:获取模块1010、超矢量计算模块1020、分类模块1030及语种识别模块1040,其中:获取模块1010,用于获取多个语种样本,并计算多个语种样本中每一语音样本的N元文法的特征超矢量的任意一个音素序列的概率值和二叉决策树特征超矢量中相应音素序列的概率值。超矢量计算模块1020,用于根据所述N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,再将所有音素序列的比较计算结果拼接,得到每一语音样本的联合特征超矢量。分类模块1030,用于根据样本标签将训练库中语种样本的联合特征超矢量通过分类器进行分类和语种建模,获得每一语种的联合支持矢量。语种识别模块1040,用于获取输入的待测的语音段,并计算得到所述语音段的联合特征超矢量;在所述训练库中查询与所述联合特征超矢量匹配的联合支持矢量;根据匹配结果,获得与所述语音段对应的目标语种。
在其中一个实施例中,如图6所示,超矢量计算模块1020包括:超矢量计算子模块1021;所述超矢量计算子模块1021用于将所述N元文法的特征超矢量的任意一个音素序列的概率值与所述二叉决策树特征超矢量相应的音素序列的概率值进行比较判断;若所述N元文法的特征超矢量的任意一个音素序列的概率值小于其所述二叉决策树特征超矢量相应的音素序列的概率值时,通过所述N元文法的特征超矢量中的相应音素序列的概率值与所述二叉决策树中的相应音素序列的概率值计算出几何平均值,将所述几何平均值作为该语音样本的联合特征超矢量的相应音素序列的概率值;若所述N元文法的特征超矢量的任意一个音素序列的概率值不小于其在所述二叉决策树特征超矢量中的相应音素序列的概率值时,将所述N元文法的特征超矢量的相应音素序列的概率值作为该语音样本的联合特征超矢量的相应音素序列的概率值。
在其中一个实施例中,如图7所示,所述语种识别模块1040包括:置信分数获取子模块1041、置信分数比较子模块1042;所述置信分数获取子模块1041,用于通过所述联合特征超矢量与所述联合支持矢量的计算,获取置信分数;所述置信分数比较子模块1042,用于将所述置信分数与预设门限值进行比较,得到所述语音段对应的目标语种;其中,若所述语音段得到的所述置信分数大于预设门限值的数值越大,所述语音段属于所述目标语种的概率越大;若所述语音段得到的所述置信分数小于预设门限值的数值越小,所述语音段属于所述目标语种的概率越小。
在其中一个实施例中,如图7所示,所述语种识别模块1040还包括:后验概率子模块1043;所述后验概率子模块1043,用于根据所述置信分数与每一置信分数的权重系数计算得到置信分数矢量;所述语种识别模块1040还用于通过最大化所述置信分数矢量的后验概率,得到所述语音段所属的语种。
在其中一个实施例中,所述置信分数矢量的后验概率的公式如下:
在其中一个实施例中,所述分类模块1030还用于依次将所述多个语种样本中每个语种的多个语音段的联合特征超矢量作为正样本,将所述其它语种的多个语音段的联合特征超矢量作为负样本,通过迭代算法计算正样本与负样本之间的最优分类面,对语种样本进行分类。
在其中一个实施例中,如图8所示,所述获取模块1010包括:获取子模块1011;所述获取子模块1011用于对每一音素序列出现的次数和所有音素序列出现的次数的比值进行拼接,得到所述语音段的N元文法的特征超矢量。
在其中一个实施例中,超矢量计算模块1020还用于根据获取的所述语音段中N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,获取所述语音段的联合特征超矢量。
在其中一个实施例中,如图9所示,分类模块1030还包括:比对子模块1031;所述比对子模块1031用于将所述语音段的联合特征超矢量与所述训练库中每一语种的联合支持矢量进行比对,得到所述语音段对应的目标语种。
在其中一个实施例中,如图8所示,所述获取模块1010还包括:矩阵子模块1012;所述矩阵子模块1012,用于获取第一矩阵;所述初级降维子模块1013,用于将第一矩阵降维为第二矩阵,得到最优音素子集;所述二级降维子模块1014,用于将第二矩阵降维为第三矩阵,得到预测变量的最优子集。
上述语种识别系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种语种识别系统,其特征在于,所述识别系统包括:获取模块、超矢量计算模块、分类模块及语种识别模块;
所述获取模块,用于获取多个语种样本,并计算多个语种样本中每一语音样本的N元文法的特征超矢量的任意一个音素序列的概率值和二叉决策树特征超矢量中相应音素序列的概率值;
所述超矢量计算模块,用于根据所述N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,再将所有音素序列的比较计算结果拼接,得到每一语音样本的联合特征超矢量;
所述分类模块,用于根据样本标签将训练库中语种样本的联合特征超矢量通过分类器进行分类和语种建模,获得每一语种的联合支持矢量;
所述语种识别模块,用于获取输入的待测的语音段,并计算得到所述语音段的联合特征超矢量;在所述训练库中查询与所述语音段的联合特征超矢量匹配的联合支持矢量;根据匹配结果,获得与所述语音段对应的目标语种。
2.根据权利要求1所述的识别系统,其特征在于,所述超矢量计算模块包括:超矢量计算子模块;
所述超矢量计算子模块用于将所述N元文法的特征超矢量的任意一个音素序列的概率值与所述二叉决策树特征超矢量相应的音素序列的概率值进行比较判断;若所述N元文法的特征超矢量的任意一个音素序列的概率值小于其所述二叉决策树特征超矢量相应的音素序列的概率值时,通过所述N元文法的特征超矢量中的相应音素序列的概率值与所述二叉决策树中的相应音素序列的概率值计算出几何平均值,将所述几何平均值作为该语音样本的联合特征超矢量的相应音素序列的概率值;
若所述N元文法的特征超矢量的任意一个音素序列的概率值不小于其在所述二叉决策树特征超矢量中的相应音素序列的概率值时,将所述N元文法的特征超矢量的相应音素序列的概率值作为该语音样本的联合特征超矢量的相应音素序列的概率值。
3.根据权利要求1所述的识别系统,其特征在于,所述语种识别模块包括:置信分数获取子模块、置信分数比较子模块;
所述置信分数获取子模块,用于通过所述语音段的联合特征超矢量与所述联合支持矢量的计算,获取置信分数;
所述置信分数比较子模块,用于将所述置信分数与预设门限值进行比较,得到所述语音段对应的目标语种;
其中,若所述语音段得到的所述置信分数大于预设门限值的数值越大,所述语音段属于所述目标语种的概率越大;
若所述语音段得到的所述置信分数小于预设门限值的数值越小,所述语音段属于所述目标语种的概率越小。
4.根据权利要求3所述的识别系统,其特征在于,所述语种识别模块还包括:后验概率子模块;
所述后验概率子模块,用于根据所述置信分数与每一置信分数的权重系数计算得到置信分数矢量;
所述语种识别模块还用于通过最大化所述置信分数矢量的后验概率,得到所述语音段所属的语种。
6.根据权利要求1所述的识别系统,其特征在于,所述分类模块还用于
依次将所述多个语种样本中每个语种的多个语音段的联合特征超矢量作为正样本,将所述其它语种的多个语音段的联合特征超矢量作为负样本,通过迭代算法计算正样本与负样本之间的最优分类面,对语种样本进行分类。
7.根据权利要求1所述的识别系统,其特征在于,所述获取模块包括:获取子模块;
所述获取子模块用于对每一音素序列出现的次数和所有音素序列出现的次数的比值进行拼接,得到所述语音样本中的语音段对应的N元文法的特征超矢量。
8.根据权利要求7所述的识别系统,其特征在于,所述超矢量计算模块还用于根据获取的所述语音样本中的语音段对应的N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,获取所述语音样本中的语音段对应的联合特征超矢量。
9.根据权利要求1所述的识别系统,其特征在于,所述语种识别模块还包括:比对子模块;
所述比对子模块用于将所述语音段的联合特征超矢量与所述训练库中每一语种的联合支持矢量进行比对,得到所述语音段对应的目标语种。
10.根据权利要求1所述的识别系统,其特征在于,所述获取模块还包括:矩阵子模块、初级降维子模块、二级降维子模块;
所述矩阵子模块,用于获取第一矩阵;
所述初级降维子模块,用于将第一矩阵降维为第二矩阵,得到最优音素子集;
所述二级降维子模块,用于将第二矩阵降维为第三矩阵,得到预测变量的最优子集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810234745.2A CN108648747B (zh) | 2018-03-21 | 2018-03-21 | 语种识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810234745.2A CN108648747B (zh) | 2018-03-21 | 2018-03-21 | 语种识别系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108648747A CN108648747A (zh) | 2018-10-12 |
CN108648747B true CN108648747B (zh) | 2020-06-02 |
Family
ID=63744574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810234745.2A Expired - Fee Related CN108648747B (zh) | 2018-03-21 | 2018-03-21 | 语种识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108648747B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108510977B (zh) * | 2018-03-21 | 2020-05-22 | 清华大学 | 语种识别方法及计算机设备 |
CN109741731B (zh) * | 2019-01-08 | 2020-12-29 | 国家计算机网络与信息安全管理中心 | 一种语种训练数据获得方法及装置 |
CN109801619A (zh) * | 2019-02-13 | 2019-05-24 | 安徽大尺度网络传媒有限公司 | 一种智能化跨语言语音识别转化方法 |
CN110428803B (zh) * | 2019-07-22 | 2020-04-28 | 北京语言大学 | 一种基于发音属性的发音人国别识别模型建模方法及系统 |
CN110853617B (zh) * | 2019-11-19 | 2022-03-01 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、语种识别的方法、装置及设备 |
CN111833865B (zh) * | 2020-01-08 | 2024-05-24 | 北京嘀嘀无限科技发展有限公司 | 一种人机交互方法与终端、计算机可读存储介质 |
CN111445898B (zh) * | 2020-03-17 | 2022-05-17 | 科大讯飞股份有限公司 | 语种识别方法、装置、电子设备和存储介质 |
CN111640419B (zh) * | 2020-05-26 | 2023-04-07 | 合肥讯飞数码科技有限公司 | 语种识别方法、系统、电子设备及存储介质 |
CN114067834B (zh) * | 2020-07-30 | 2024-08-09 | 中国移动通信集团有限公司 | 一种不良前导音识别方法、装置、存储介质和计算机设备 |
CN113657391A (zh) * | 2021-08-13 | 2021-11-16 | 北京百度网讯科技有限公司 | 文字识别模型的训练方法、识别文字的方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101546555A (zh) * | 2009-04-14 | 2009-09-30 | 清华大学 | 用于语种识别的约束异方差线性鉴别分析方法 |
CN101645269A (zh) * | 2008-12-30 | 2010-02-10 | 中国科学院声学研究所 | 一种语种识别系统及方法 |
CN101894548A (zh) * | 2010-06-23 | 2010-11-24 | 清华大学 | 一种用于语种识别的建模方法及装置 |
WO2012047955A1 (en) * | 2010-10-05 | 2012-04-12 | Infraware, Inc. | Language dictation recognition systems and methods for using the same |
CN103117060A (zh) * | 2013-01-18 | 2013-05-22 | 中国科学院声学研究所 | 用于语音识别的声学模型的建模方法、建模系统 |
CN105280181A (zh) * | 2014-07-15 | 2016-01-27 | 中国科学院声学研究所 | 一种语种识别模型的训练方法及语种识别方法 |
CN105681920A (zh) * | 2015-12-30 | 2016-06-15 | 深圳市鹰硕音频科技有限公司 | 一种具有语音识别功能的网络教学方法及系统 |
CN106023995A (zh) * | 2015-08-20 | 2016-10-12 | 漳州凯邦电子有限公司 | 一种语音识别方法及运用该方法的穿戴式语音控制设备 |
CN106959943A (zh) * | 2016-01-11 | 2017-07-18 | 阿里巴巴集团控股有限公司 | 语种识别更新方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180012639A (ko) * | 2016-07-27 | 2018-02-06 | 삼성전자주식회사 | 음성 인식 방법, 음성 인식 장치, 음성 인식 장치를 포함하는 기기, 음성 인식 방법을 수행하기 위한 프로그램을 저장하는 저장 매체, 및 변환 모델을 생성하는 방법 |
-
2018
- 2018-03-21 CN CN201810234745.2A patent/CN108648747B/zh not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645269A (zh) * | 2008-12-30 | 2010-02-10 | 中国科学院声学研究所 | 一种语种识别系统及方法 |
CN101546555A (zh) * | 2009-04-14 | 2009-09-30 | 清华大学 | 用于语种识别的约束异方差线性鉴别分析方法 |
CN101894548A (zh) * | 2010-06-23 | 2010-11-24 | 清华大学 | 一种用于语种识别的建模方法及装置 |
WO2012047955A1 (en) * | 2010-10-05 | 2012-04-12 | Infraware, Inc. | Language dictation recognition systems and methods for using the same |
CN103117060A (zh) * | 2013-01-18 | 2013-05-22 | 中国科学院声学研究所 | 用于语音识别的声学模型的建模方法、建模系统 |
CN105280181A (zh) * | 2014-07-15 | 2016-01-27 | 中国科学院声学研究所 | 一种语种识别模型的训练方法及语种识别方法 |
CN106023995A (zh) * | 2015-08-20 | 2016-10-12 | 漳州凯邦电子有限公司 | 一种语音识别方法及运用该方法的穿戴式语音控制设备 |
CN105681920A (zh) * | 2015-12-30 | 2016-06-15 | 深圳市鹰硕音频科技有限公司 | 一种具有语音识别功能的网络教学方法及系统 |
CN106959943A (zh) * | 2016-01-11 | 2017-07-18 | 阿里巴巴集团控股有限公司 | 语种识别更新方法及装置 |
Non-Patent Citations (3)
Title |
---|
Bayesian Speaker Adaptation Based on a New Hierarchical Probabilistic Model;Zhang W L , Zhang W Q , Li B C , et al.;《IEEE Transactions on Audio, Speech and Language Processing》;20120731;第2002-2015页 * |
基于鉴别性向量空间模型的语种识别;刘巍巍,张卫强,刘加;《清华大学学报(自然科学版)》;20130630;第796-799页 * |
基于音素后验概率的样例语音关键词检测方法;张卫强,宋贝利,蔡猛,刘加;《天津大学学报(自然科学与工程技术版)》;20150930;第757-760页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108648747A (zh) | 2018-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108648747B (zh) | 语种识别系统 | |
CN108711422B (zh) | 语音识别方法、装置、计算机可读存储介质和计算机设备 | |
CN111160017B (zh) | 关键词抽取方法、话术评分方法以及话术推荐方法 | |
CN108510977B (zh) | 语种识别方法及计算机设备 | |
CN109635273B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
CN108304372B (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
CN107729468B (zh) | 基于深度学习的答案抽取方法及系统 | |
CN112069298A (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
CN116775847A (zh) | 一种基于知识图谱和大语言模型的问答方法和系统 | |
CN108027814B (zh) | 停用词识别方法与装置 | |
CN111191442A (zh) | 相似问题生成方法、装置、设备及介质 | |
CN110309504B (zh) | 基于分词的文本处理方法、装置、设备及存储介质 | |
CN113934830A (zh) | 文本检索模型训练、问答检索方法、装置、设备及介质 | |
CN112328891A (zh) | 训练搜索模型的方法、搜索目标对象的方法及其装置 | |
CN112597285B (zh) | 一种基于知识图谱的人机交互方法及系统 | |
CN115544303A (zh) | 用于确定视频的标签的方法、装置、设备及介质 | |
CN113449084A (zh) | 基于图卷积的关系抽取方法 | |
CN114780691A (zh) | 模型预训练及自然语言处理方法、装置、设备及存储介质 | |
CN113821605A (zh) | 一种事件抽取方法 | |
CN115713072A (zh) | 一种基于提示学习和上下文感知的关系类别推断系统及方法 | |
CN110837730B (zh) | 一种未知实体词汇的确定方法及装置 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN112632248A (zh) | 问答方法、装置、计算机设备和存储介质 | |
CN114995903A (zh) | 一种基于预训练语言模型的类别标签识别方法及装置 | |
CN117235137B (zh) | 一种基于向量数据库的职业信息查询方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200602 |
|
CF01 | Termination of patent right due to non-payment of annual fee |