CN108510977A - 语种识别方法及计算机设备 - Google Patents
语种识别方法及计算机设备 Download PDFInfo
- Publication number
- CN108510977A CN108510977A CN201810235261.XA CN201810235261A CN108510977A CN 108510977 A CN108510977 A CN 108510977A CN 201810235261 A CN201810235261 A CN 201810235261A CN 108510977 A CN108510977 A CN 108510977A
- Authority
- CN
- China
- Prior art keywords
- super vector
- vector
- languages
- feature super
- probability value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 claims abstract description 239
- 238000003066 decision tree Methods 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 31
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种语种识别方法及计算机设备,首先获取多个语种的语音样本,通过多个语种样本中每一语音样本的每一音素序列的N元文法的特征超矢量的概率值与二叉决策树特征超矢量比较计算,再将所有音素序列的比较计算结果拼接得到每一语音样本的联合特征超矢量;通过分类器将训练库中语种样本的联合特征超矢量进行分类和语种建模,得到每一语种的联合支持矢量,获取输入的待测的语音段并得其联合特征超矢量,在训练库中查询与联合特征超矢量匹配的联合支持矢量,得到与语音段对应的目标语种。本发明使用联合特征超矢量可以使长上下文音素序列更准确的建模,从而可以让一个语音段的特征描述更加精细,提高语种识别性能。
Description
技术领域
本发明涉及语音识别领域,特别是涉及一种语种识别方法及计算机设备。
背景技术
随着社会的发展,时代的进步,语种识别技术越来越多的被使用。所谓语种识别是从一个语音段里识别出其所使用的语言种类的过程,该技术在很多领域里面有重要的应用,比如语音翻译,多语种识别,信息安全和对外事务等。目前声学系统和基于音素的识别系统是两个语种识别系统的主流系统。基于音素的语种识别是基于这样的假设:就是每个语种包含的音素和音素组合不一样。通过对音素序列进行N-gram建模是一个很有效的语种识别的方法,识别准确率也很高。
传统技术中基于音素的语种识别是通过对音素序列进行N-gram建模,识别准确率也很高,但是还是有一些问题。主要是由于N元文法的特征超矢量不能够有效的表达长上下文音素序列之间的关系。第一,为了描述更多音素序列之间的关系,就需要用高阶N元文法建模,这使建模所需要估计的参数成几何数的增长,计算代价也会更高。第二,许多N元文法的历史是相同的,但是N元文法建模是精确匹配历史的,这就需要估计比实际更多的参数,这也使向量空间模型不鲁棒。
发明内容
基于传统技术中,N元文法对长上下文语音段建模能力差的问题,本发明的目的在于提供一种语种识别的方法及计算机设备。
一种语种识别方法,所述方法包括如下步骤:获取多个语种样本,并计算多个语种样本中每一语音样本的N元文法的特征超矢量的任意一个音素序列的概率值和二叉决策树特征超矢量中相应音素序列的概率值;根据所述N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,再将所有音素序列的比较计算结果拼接,获取每一语音样本的联合特征超矢量;根据样本标签将训练库中语种样本的联合特征超矢量通过分类器进行分类和语种建模,获得每一语种的联合支持矢量;获取输入的待测的语音段,并计算得到所述语音段的联合特征超矢量;在所述训练库中查询与所述联合特征超矢量匹配的联合支持矢量;根据匹配结果,获得与所述语音段对应的目标语种。
在其中一个实施例中,根据所述N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,再将所有音素序列的比较计算结果拼接,获取每一语音样本的联合特征超矢量包括:若所述N元文法的特征超矢量的任意一个音素序列的概率值小于其所述二叉决策树特征超矢量相应的音素序列的概率值时,通过所述N元文法的特征超矢量中的相应音素序列的概率值与所述二叉决策树中的相应音素序列的概率值计算出几何平均值,将所述几何平均值作为该语音样本的联合特征超矢量的相应音素序列的概率值;若所述N元文法的特征超矢量的任意一个音素序列的概率值不小于其在所述二叉决策树特征超矢量中的相应音素序列的概率值时,将所述N元文法的特征超矢量的相应音素序列的概率值作为该语音样本的联合特征超矢量的相应音素序列的概率值。
在其中一个实施例中,所述根据匹配结果,获得与所述语音段对应的目标语种的步骤还包括:通过所述联合特征超矢量与所述联合支持矢量的计算,获取置信分数;将所述置信分数与预设门限值进行比较,得到所述语音段对应的目标语种;其中,若所述语音段得到的所述置信分数大于预设门限值的数值越大,所述语音段属于所述目标语种的概率越大;若所述语音段得到的所述置信分数小于预设门限值的数值越小,所述语音段属于所述目标语种的概率越小。
在其中一个实施例中,所述方法还包括步骤:根据所述置信分数与每一置信分数的权重系数计算得到置信分数矢量;通过最大化所述置信分数矢量的后验概率,得到所述语音段所属的语种。
在其中一个实施例中,根据样本标签将训练库中语种样本的联合特征超矢量通过分类器进行分类和语种建模,获得每一语种的联合支持矢量包括:依次将所述多个语种样本中每个语种的多个语音段的联合特征超矢量作为正样本,将所述其它语种的多个语音段的联合特征超矢量作为负样本,通过迭代算法计算正样本与负样本之间的最优分类面,对语种样本进行分类。
在其中一个实施例中,获取多个语种样本,并计算多个语种样本中每一语音样本的N元文法特征超矢量的任意一个音素序列的概率值和二叉决策树特征超矢量中相应音素序列的概率值包括:对每一音素序列出现的次数和所有音素序列出现的次数的比值进行拼接,得到所述语音段的N元文法特征超矢量。
在其中一个实施例中,根据所述N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,再将所有音素序列的概率值拼接,获取每一语音样本的联合特征超矢量还包括:根据获取的所述语音段中N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,获取所述语音段的联合特征超矢量。
在其中一个实施例中,所述在所述训练库中查询与所述联合特征超矢量匹配的联合支持矢量的步骤包括:将所述语音段的联合特征超矢量与所述训练库中每一语种的联合支持矢量进行比对,得到所述语音段对应的目标语种。
在其中一个实施例中,在所述计算多个语种样本中每一语音样本的N元文法的特征超矢量和二叉决策树特征超矢量步骤之前还包括:获取第一矩阵;将第一矩阵降维为第二矩阵,得到最优音素子集;将第二矩阵降维为第三矩阵,得到预测变量的最优子集。
一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现语音识别方法的步骤。
上述语种识别方法及计算机设备,首先获取多个语种的语音样本,通过多个语音样本中每一语音样本的N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值比较计算,再将计算结果拼接得到每一语音样本的联合特征超矢量;通过分类器进行分类和语种建模,得到每一语种的联合支持矢量,获取输入的待测的语音段并得其联合特征超矢量,在训练库中查询与联合特征超矢量匹配的联合支持矢量,得到与语音段对应的目标语种。本发明使用联合特征超矢量可以使长上下文音素序列更准确的建模,从而可以让一个语音段的特征描述更加精细,提高语种识别性能
附图说明
图1为一实施例提供的语种识别方法的流程图;
图2为一实施例的获取联合特征超矢量的流程图;
图3为一实施例的获取目标语种的流程图;
图4为一实施例的建立二叉树的流程图。
具体实施方式
为了使本发明的技术方案更加清楚,以下结合附图,对本发明的技术方案进一步详细的说明。应当理解,此处所描述的具体实施例仅用以解释本发明并不用于限定本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1所示出的是与本发明一实施例提供的一种语种识别方法的流程图。该方法包括如下步骤:
步骤S101,获取多个语种样本,并计算多个语种样本中每一语音样本的N元文法的特征超矢量的任意一个音素序列的概率值和二叉决策树特征超矢量中相应音素序列的概率值。
语种样本可以是包括不同语言类型的样本,通过对不同语种样本计算,得到每一语音样本的N元文法的特征超矢量的任意一个音素序列的概率值和二叉决策树特征超矢量中相应音素序列的概率值。
可选的,不同语种可以是中文、英文、法文、德文、日文等。具体的,可以是通过计算获取中文、英文、法文等语音样本的N元文法的特征超矢量和二叉决策树特征超矢量。
N元文法可以称为N-Gram(有时也称为N元模型),是自然语言处理中一个非常重要的概念,通常在人工智能领域,基于一定的语料库,可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面,N-Gram的另外一个作用是用来评估两个字符串之间的差异程度。
特征超矢量是用特定的数学特征来表示一段语音的各音素序列分布概率的高维矢量。而二叉决策树是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。其中音素序列是两个或多个音素的组合。
步骤S102,根据所述N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,再将所有音素序列的比较计算结果拼接,获取每一语音样本的联合特征超矢量。
N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值计算可以是运用基础算法,例如:乘法运算、除法运算、加法运算、减法运算等。N元文法的特征超矢量的概率值与二叉决策树特征超矢量的比较可以通过因子分析、聚类分析、方差分析、对应分析等进行比较。
对联合特征超矢量理解可以是,将在N元文法的特征超矢量的某一音素序列的概率值与其在二叉决策树特征超矢量中的概率值相比较用用特定决策方法做出判决,将判决结果作为该音素序列在联合特征超矢量中的概率值,再将所有音素序列的概率是拼接并归一化,由此获取N元文法与二叉决策树结合后的特征超矢量称为联合特征超矢量。
步骤S103,根据样本标签将训练库中语种样本的联合特征超矢量通过分类器进行分类和语种建模,获得每一语种的联合支持矢量。
训练库存储着每个语种的样本,通过分类器将每个语种样本的联合特征超矢量进行分类,得到每一语种样本的联合支持矢量。
可选的,通过分类器进行分类可以是通过决策树、逻辑回归、朴素贝叶斯、神经网络等进行分类。具体的,将训练库中每个语种样本的联合特征超矢量通过SVM分类器进行分类,获得每一语种样本的联合支持矢量。
步骤S104,获取输入的待测的语音段,并计算得到所述语音段的联合特征超矢量。
获取所需识别的语音段,首先计算出语音段的联合特征超矢量,语音段可以是不同音高的语音段、不同音强的语音段、不同音长的语音段以及不同音质的语音段。
步骤S105,在所述训练库中查询与所述联合特征超矢量匹配的联合支持矢量。
在存储着不同语种样本的训练库中匹配获取语音段的联合特征超矢量,根据匹配到的联合特征超矢量查询对应的联合支持矢量。联合支持矢量是:在训练阶段时,获取多个任意语种的联合特征超矢量后,用分类器进行训练,得到每个语种对其他语种的最优分类超平面,该超平面是用高维矢量形式表示,称为该语种分类的联合支持矢量。
步骤S106,根据匹配结果,获得与所述语音段对应的目标语种。
匹配到的联合特征超矢量称为相似值,匹配的结果可以是具有相似值高于90%的概率值,或相似值高于95%的概率值,将其定义为目标语种。
在其中一个实施例中,根据所述N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,再将所有音素序列的比较计算结果拼接,获取每一语音样本的联合特征超矢量包括::
步骤S201,若所述N元文法的特征超矢量的任意一个音素序列的概率值小于其所述二叉决策树特征超矢量相应的音素序列的概率值时,通过所述N元文法的特征超矢量中的相应音素序列的概率值与所述二叉决策树中的相应音素序列的概率值计算出几何平均值,将所述几何平均值作为该语音样本的联合特征超矢量的相应音素序列的概率值;
步骤S202,若所述N元文法的特征超矢量的任意一个音素序列的概率值不小于其在所述二叉决策树特征超矢量中的相应音素序列的概率值时,将所述N元文法的特征超矢量的相应音素序列的概率值作为该语音样本的联合特征超矢量的相应音素序列的概率值。
通过N元文法的的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值比较得到联合特征超矢量,在N元文法的特征超矢量的概率值与二叉决策树特征超矢量的概率值进行比较中,若N元文法的特征超矢量的概率值小于其在二叉决策树中的概率值时,则通过N元文法的特征超矢量中的概率值与二叉决策树中的概率值进行计算;若N元文法的特征超矢量的概率值大于或等于其二叉决策树中的概率值时,无需计算,将N元文法的特征超矢量的相应音素序列的概率值作为该语音样本的联合特征超矢量的相应音素序列的概率值。
在其中一个实施例中,所述根据匹配结果,所述根据匹配结果,获得与所述语音段对应的目标语种的步骤还包括:
步骤S301,通过所述联合特征超矢量与所述联合支持矢量的计算,获取置信分数;
步骤S302,将所述置信分数与预设门限值进行比较,得到所述语音段对应的目标语种;
若所述语音段得到的所述置信分数大于预设门限值的数值越大,所述语音段属于所述目标语种的概率越大;
若所述语音段得到的所述置信分数小于预设门限值的数值越小,所述语音段属于所述目标语种的概率越小。
将待识别语音段得到的置信分数与预设门限值的进行比较,置信分数的数值越大,语音段的语种是其对应语种的概率越大,置信分数数值越小,语音段的语种是其对应语种的概率越小。置信分数:是将某一语音段的特征超矢量输入分类器,得到与最优分类超平面的距离。预设门限值:是预先设定的数值,当某一语音段置信分数大于该数值时即认为该语音段属于正类语种。
在其中一个实施例中,所述方法还包括步骤:
根据所述置信分数与每一置信分数的权重系数计算得到置信分数矢量;通过最大化所述置信分数矢量的后验概率,得到所述语音段所属的语种。
通过置信分数与每一置信分数的权重系数计算得到置信分数矢量,权重系数就是每一置信分数所具有的重要程度,再通过最大化置信分数矢量的后验概率,得到最大化后的后验概率为语音段所属的语种的概率值,从而确定所属语种。
在其中一个实施例中,根据样本标签将训练库中语种样本的联合特征超矢量通过分类器进行分类和语种建模,获得每一语种的联合支持矢量包括:
依次将所述多个语种样本中每个语种的多个语音段的联合特征超矢量作为正样本,将所述其它语种的多个语音段的联合特征超矢量作为负样本,通过迭代算法计算正样本与负样本之间的最优分类面,对语种样本进行分类。
在语音识别的训练阶段,通常采用“一对多”的SVM分类模式,对于多个语种样本,支持向量机是用多个语种样本中每个语种的联合特征超矢量作为正样本集,所有其他语种的语音段的特征超矢量作为负样本集,在正样本和负样本间寻找出最优分类面,待识别语音段进行分类后,具有更高准确率的识别效果。
在其中一个实施例中,获取多个语种样本,并计算多个语种样本中每一语音样本的N元文法特征超矢量的任意一个音素序列的概率值和二叉决策树特征超矢量中相应音素序列的概率值包括:
对每一音素序列出现的次数和所有音素序列出现的次数的比值进行拼接,得到所述语音段的N元文法特征超矢量。
得到待识别语音段的特征超矢量,首先得到待识别语音段所有音素序列出现的次数,再将待识别语音段所有音素序列出现的次数进行拼接,从而得到待识别语音段的N元文法特征超矢量。
在其中一个实施例中,待识别语音段的特征超矢量可以由以下公式计算:
其中F=fN,f是音素识别器中包含的音素数,N代表N元文法,表示音素格中出现音素序列di的概率。
在其中一个实施例中,获取联合特征超矢量的过程中,若N元文法的特征超矢量的概率值小于其二叉决策树特征超矢量时,通过N元文法的特征超矢量中的概率值与二叉决策树中的概率值计算公式如下:
这里r是p(dq|lx)和pBin(dq|tx)的比值,pBin(di|tx)代表二叉决策树中音素序列di的概率。通过上述公式计算联合概率并拼接出几何平均值,将所述几何平均值作为联合特征超矢量。
在其中一个实施例中,根据所述置信分数与每一置信分数的权重系数计算得到置信分数矢量。获取置信分数矢量融合公式如下:
x=[w1λ1,1,w1λ1,2,...,w1λ1,T,w2λ2,1,w2λ2,2,...,wMλM,T]
这里w1,w2,...,wF是各音素识别器前端子系统的权重,通常各音素识别器前端子系统的权重由各子系统对开发集(一个已知语音段语种的辅助测试集)的识别性能所决定,子系统对开发集的识别性能越好,权重越大,反之越小。通过获取置信分数矢量可以更准备判断出语音段术语哪个语种。
在其中一个实施例中,根据所述置信分数与每一置信分数的权重系数计算得到置信分数矢量;通过最大化所述置信分数矢量的后验概率,得到所述语音段所属的语种。获取有置信分数超矢量的后验概率的公式如下:
这里g(i)是xi的类别标签,P(j)是第j类目标语种的先验概率,概率密度函数p(x|λ')是基于N维矢量x的高斯混合模型。
在其中一个实施例中,根据所述N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,再将所有音素序列的概率值拼接,获取每一语音样本的联合特征超矢量还包括:
根据获取的所述语音段中N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,获取所述语音段的联合特征超矢量。
得到待识别语音段的联合特征超矢量,是通过待识别语音段中的N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值比较计算得到,也就是说,此比较计算可以是特征超矢量与二叉决策树特征超矢量的加法运算、减法运算、乘法运算、除法运算。比较可以是因子分析、聚类分析、方差分析、对应分析等。
在其中一个实施例中,所述在所述训练库中查询与所述联合特征超矢量匹配的联合支持矢量的步骤包括:
将所述语音段的联合特征超矢量与所述训练库中每一语种的联合支持矢量进行比对,得到所述语音段对应的目标语种。
得到待识别语音段的目标语种的过程,是将待识别的语音段的联合特征超矢量与训练库中每一语种的联合支持矢量进行比对,也就是说,将待识别语音段的特征超矢量与数据库中存储多种不同语种的联合支持矢量比对,从而确定出待识别的目标语种。
在其中一个实施例中,获得与所述语音段对应的目标语种的运行可以分为两个阶段。两个阶段:训练和测验。(1)在训练阶段,用一对多的策略在训练数据的语种的标签基础上进行语种建模。该语种模型建模的目的是从训练数据中归纳一些语种相关的特征,用语种模型来表示。例如,我们有一个包含中文、英文、日语、法语、韩语五个语种的共计2万段语音的训练库,先提取这2万段语音的特征超矢量,然后使这五个语种依次作为目标语种,对该语种进行建模。对于每个目标语种,支持向量机是用目标语种数据集的语音段的特征超矢量作为正样本集,所有其他语种的语音段的特征超矢量作为负样本集,在正样本和负样本间寻找出最优分类面。因此将训练集语音段的特征向量输入SVM分类器将输入的特征向量映射到一个更高维空间,用迭代算法在此空间中寻找一个最佳超分类平面(即能容忍误差的能力最大的那个超平面,由分割平面开始往两边推,到碰到正负样本点时候的距离都尽量达到最远)将该空间分为两个部分,这里是依据Mercer准则从训练数据得到的支持矢量。
(2)在测试阶段,测试语音经历相同特征超矢量提取步骤,计算语音段对每个语种模型的似然性,然后找到与之匹配的语种模型。基于最大似然准则,获得最大似然分数的模型的语种代表该测试语音段的语种类型。
在其中一个实施例中,在所述计算多个语种样本中每一语音样本的N元文法的特征超矢量和二叉决策树特征超矢量步骤之前还包括:
步骤S401,获取第一矩阵;
步骤S402,将第一矩阵降维为第二矩阵,得到最优音素子集;
步骤S403,将第二矩阵降维为第三矩阵,得到预测变量的最优子集。
Flip-Flop(FF)算法是对空间降维的两次翻转的触发器算法。空间降维的搜索算法是进行两次翻转的过程,先将K×K维矩阵降维为2×K维矩阵,再找到当前音素的最优音素子集;然后再通过一次翻转过程,将K×K维矩阵降维为K×2维矩阵,从而得到需要求解的预测变量的最优子集。使用空间降维的FF搜索算法可以进一步降低搜索算法的复杂度,加快二叉树的构造过程。最优音素子集和预测变量的最优子集是通过空间降维算法得到的最优子集,加快二叉决策树的构造过程。其中,最优音素子集是在FF搜索算法中,按照最大互信息准则求得当前可能的音素中的概率最大的一个或几个音素。其中,预测变量的最优子集是在FF搜索算法中,所需预测音素的最有可能的音素的集合。
在一个实施例中,还提供一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现如上述各实施例中的任意一种语种识别方法的步骤。
该计算机设备,其处理器执行程序时,通过实现如上述各实施例中的任意一种语种识别方法,首先获取多个语种的语音样本,通过多个语音样本中每一语音样本的N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值比较计算,再将计算结果拼接得到每一语音样本的联合特征超矢量;通过分类器进行分类和语种建模,得到每一语种的联合支持矢量,获取输入的待测的语音段并得其联合特征超矢量,在训练库中查询与联合特征超矢量匹配的联合支持矢量,得到与语音段对应的目标语种。本发明使用联合语种模型的特征超矢量可以让一个语言的特征描述更加精细,从提高语种识别性能。
此外,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性的计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各语种识别方法的实施例的流程。
在一个实施例中,还提供一种存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上述各实施例中的任意一种语种识别方法的步骤。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随即存储记忆本(RandomAccess Memory,RAM)等。
该计算机存储介质,其存储的计算机程序,通过实现包括如上述各语种识别方法的实施例的流程,首先获取多个语种的语音样本,通过多个语音样本中每一语音样本的N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值比较计算,再将计算结果拼接得到每一语音样本的联合特征超矢量;通过分类器进行分类和语种建模,得到每一语种的联合支持矢量,获取输入的待测的语音段并得其联合特征超矢量,在训练库中查询与联合特征超矢量匹配的联合支持矢量,得到与语音段对应的目标语种。本发明使用联合语种模型的特征超矢量可以让一个语言的特征描述更加精细,从提高语种识别性能。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种语种识别方法,其特征在于,所述方法包括如下步骤:
获取多个语种样本,并计算多个语种样本中每一语音样本的N元文法的特征超矢量的任意一个音素序列的概率值和二叉决策树特征超矢量中相应音素序列的概率值;
根据所述N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,再将所有音素序列的比较计算结果拼接,获取每一语音样本的联合特征超矢量;
根据样本标签将训练库中语种样本的联合特征超矢量通过分类器进行分类和语种建模,获得每一语种的联合支持矢量;
获取输入的待测的语音段,并计算得到所述语音段的联合特征超矢量;
在所述训练库中查询与所述联合特征超矢量匹配的联合支持矢量;
根据匹配结果,获得与所述语音段对应的目标语种。
2.根据权利要求1所述的识别方法,其特征在于,根据所述N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,再将所有音素序列的比较计算结果拼接,获取每一语音样本的联合特征超矢量包括:
若所述N元文法的特征超矢量的任意一个音素序列的概率值小于其所述二叉决策树特征超矢量相应的音素序列的概率值时,通过所述N元文法的特征超矢量中的相应音素序列的概率值与所述二叉决策树中的相应音素序列的概率值计算出几何平均值,将所述几何平均值作为该语音样本的联合特征超矢量的相应音素序列的概率值;
若所述N元文法的特征超矢量的任意一个音素序列的概率值不小于其在所述二叉决策树特征超矢量中的相应音素序列的概率值时,将所述N元文法的特征超矢量的相应音素序列的概率值作为该语音样本的联合特征超矢量的相应音素序列的概率值。
3.根据权利要求1所述的识别方法,其特征在于,所述根据匹配结果,获得与所述语音段对应的目标语种的步骤还包括:
通过所述联合特征超矢量与所述联合支持矢量的计算,获取置信分数;
将所述置信分数与预设门限值进行比较,得到所述语音段对应的目标语种;
其中,若所述语音段得到的所述置信分数大于预设门限值的数值越大,所述语音段属于所述目标语种的概率越大;
若所述语音段得到的所述置信分数小于预设门限值的数值越小,所述语音段属于所述目标语种的概率越小。
4.根据权利要求3所述的识别方法,其特征在于,所述方法还包括步骤:
根据所述置信分数与每一置信分数的权重系数计算得到置信分数矢量;
通过最大化所述置信分数矢量的后验概率,得到所述语音段所属的语种。
5.根据权利要求1所述的识别方法,其特征在于,根据样本标签将训练库中语种样本的联合特征超矢量通过分类器进行分类和语种建模,获得每一语种的联合支持矢量包括:
依次将所述多个语种样本中每个语种的多个语音段的联合特征超矢量作为正样本,将所述其它语种的多个语音段的联合特征超矢量作为负样本,通过迭代算法计算正样本与负样本之间的最优分类面,对语种样本进行分类。
6.根据权利要求1所述的识别方法,其特征在于,获取多个语种样本,并计算多个语种样本中每一语音样本的N元文法特征超矢量的任意一个音素序列的概率值和二叉决策树特征超矢量中相应音素序列的概率值包括:
对每一音素序列出现的次数和所有音素序列出现的次数的比值进行拼接,得到所述语音段的N元文法特征超矢量。
7.根据权利要求6所述的识别方法,其特征在于,根据所述N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,再将所有音素序列的概率值拼接,获取每一语音样本的联合特征超矢量还包括:
根据获取的所述语音段中N元文法的特征超矢量的任意一个音素序列的概率值与二叉决策树特征超矢量中相应音素序列的概率值进行比较计算,获取所述语音段的联合特征超矢量。
8.根据权利要求1所述的识别方法,其特征在于,所述在所述训练库中查询与所述联合特征超矢量匹配的联合支持矢量的步骤包括:
将所述语音段的联合特征超矢量与所述训练库中每一语种的联合支持矢量进行比对,得到所述语音段对应的目标语种。
9.根据权利要求1所述的识别方法,其特征在于,在所述计算多个语种样本中每一语音样本的N元文法的特征超矢量和二叉决策树特征超矢量步骤之前还包括:
获取第一矩阵;
将第一矩阵降维为第二矩阵,得到最优音素子集;
将第二矩阵降维为第三矩阵,得到预测变量的最优子集。
10.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-9任意一项所述的语种识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810235261.XA CN108510977B (zh) | 2018-03-21 | 2018-03-21 | 语种识别方法及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810235261.XA CN108510977B (zh) | 2018-03-21 | 2018-03-21 | 语种识别方法及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108510977A true CN108510977A (zh) | 2018-09-07 |
CN108510977B CN108510977B (zh) | 2020-05-22 |
Family
ID=63377839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810235261.XA Expired - Fee Related CN108510977B (zh) | 2018-03-21 | 2018-03-21 | 语种识别方法及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108510977B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147769A (zh) * | 2018-10-17 | 2019-01-04 | 北京猎户星空科技有限公司 | 一种语种识别方法、装置、翻译机、介质和设备 |
CN110070853A (zh) * | 2019-04-29 | 2019-07-30 | 盐城工业职业技术学院 | 一种语音识别转化方法及系统 |
CN110196910A (zh) * | 2019-05-30 | 2019-09-03 | 珠海天燕科技有限公司 | 一种语料分类的方法及装置 |
CN110428803A (zh) * | 2019-07-22 | 2019-11-08 | 北京语言大学 | 一种基于发音属性的发音人国别识别方法及系统 |
CN113096642A (zh) * | 2021-03-31 | 2021-07-09 | 南京地平线机器人技术有限公司 | 语音识别方法和装置、计算机可读存储介质、电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0677836B1 (de) * | 1994-04-14 | 1999-10-27 | Philips Patentverwaltung GmbH | Verfahren zum Ermitteln einer Folge von Wörtern und Anordnung zur Durchführung des Verfahrens |
CN101123090A (zh) * | 2006-08-11 | 2008-02-13 | 哈曼贝克自动系统股份有限公司 | 通过使用平方根折扣的统计语言的语音识别 |
CN103745234A (zh) * | 2014-01-23 | 2014-04-23 | 东北大学 | 一种带钢表面缺陷的特征提取与分类方法 |
CN105280181A (zh) * | 2014-07-15 | 2016-01-27 | 中国科学院声学研究所 | 一种语种识别模型的训练方法及语种识别方法 |
EP2996045A1 (en) * | 2014-09-10 | 2016-03-16 | Xerox Corporation | Language model with structured penalty |
CN108648747A (zh) * | 2018-03-21 | 2018-10-12 | 清华大学 | 语种识别系统 |
-
2018
- 2018-03-21 CN CN201810235261.XA patent/CN108510977B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0677836B1 (de) * | 1994-04-14 | 1999-10-27 | Philips Patentverwaltung GmbH | Verfahren zum Ermitteln einer Folge von Wörtern und Anordnung zur Durchführung des Verfahrens |
CN101123090A (zh) * | 2006-08-11 | 2008-02-13 | 哈曼贝克自动系统股份有限公司 | 通过使用平方根折扣的统计语言的语音识别 |
CN103745234A (zh) * | 2014-01-23 | 2014-04-23 | 东北大学 | 一种带钢表面缺陷的特征提取与分类方法 |
CN105280181A (zh) * | 2014-07-15 | 2016-01-27 | 中国科学院声学研究所 | 一种语种识别模型的训练方法及语种识别方法 |
EP2996045A1 (en) * | 2014-09-10 | 2016-03-16 | Xerox Corporation | Language model with structured penalty |
CN108648747A (zh) * | 2018-03-21 | 2018-10-12 | 清华大学 | 语种识别系统 |
Non-Patent Citations (3)
Title |
---|
仲海兵: "基于音素层信息的语种识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
刘巍巍,等: "基于鉴别性向量空间模型的语种识别", 《清华大学学报(自然科学版)》 * |
金恬: "语种识别中的隐含语义分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147769A (zh) * | 2018-10-17 | 2019-01-04 | 北京猎户星空科技有限公司 | 一种语种识别方法、装置、翻译机、介质和设备 |
CN110070853A (zh) * | 2019-04-29 | 2019-07-30 | 盐城工业职业技术学院 | 一种语音识别转化方法及系统 |
CN110070853B (zh) * | 2019-04-29 | 2020-07-03 | 盐城工业职业技术学院 | 一种语音识别转化方法及系统 |
CN110196910A (zh) * | 2019-05-30 | 2019-09-03 | 珠海天燕科技有限公司 | 一种语料分类的方法及装置 |
CN110428803A (zh) * | 2019-07-22 | 2019-11-08 | 北京语言大学 | 一种基于发音属性的发音人国别识别方法及系统 |
CN113096642A (zh) * | 2021-03-31 | 2021-07-09 | 南京地平线机器人技术有限公司 | 语音识别方法和装置、计算机可读存储介质、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108510977B (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108648747A (zh) | 语种识别系统 | |
Luan et al. | Scientific information extraction with semi-supervised neural tagging | |
CN108510977A (zh) | 语种识别方法及计算机设备 | |
US11210470B2 (en) | Automatic text segmentation based on relevant context | |
CN110852107B (zh) | 一种关系提取方法、装置、及存储介质 | |
CN106294344A (zh) | 视频检索方法和装置 | |
WO2022042297A1 (zh) | 文本聚类方法、装置、电子设备及存储介质 | |
WO2024067276A1 (zh) | 用于确定视频的标签的方法、装置、设备及介质 | |
CN115713072A (zh) | 一种基于提示学习和上下文感知的关系类别推断系统及方法 | |
Siddhant et al. | Leveraging native language speech for accent identification using deep siamese networks | |
JP2004198597A5 (zh) | ||
CN114995903A (zh) | 一种基于预训练语言模型的类别标签识别方法及装置 | |
CN109190112B (zh) | 基于双通道特征融合的专利分类方法、系统及存储介质 | |
CN110781297A (zh) | 基于层次判别树的多标签科研论文的分类方法 | |
Ludwig et al. | Deep embedding for spatial role labeling | |
CA2998004A1 (en) | Systems and methods for record linkage and paraphrase generation using surrogate learning | |
CN113536760A (zh) | 引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及系统 | |
JP6127778B2 (ja) | モデル学習方法、モデル学習プログラム及びモデル学習装置 | |
CN112417147A (zh) | 训练样本的选取方法与装置 | |
CN112489689A (zh) | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 | |
CN116757195A (zh) | 一种基于提示学习的隐性情感识别方法 | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
CN115861995A (zh) | 一种视觉问答方法、装置及电子设备和存储介质 | |
CN115600595A (zh) | 一种实体关系抽取方法、系统、设备及可读存储介质 | |
CN115796635A (zh) | 基于大数据和机器学习的银行数字化转型成熟度评价系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200522 |