CN110517663B

CN110517663B - 一种语种识别方法及识别系统

Info

Publication number: CN110517663B
Application number: CN201910708975.2A
Authority: CN
Inventors: 张劲松; 于嘉威; 解焱陆
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: Ocdop Ltd
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2021-09-21
Anticipated expiration: 2039-08-01
Also published as: CN110517663A

Abstract

本发明提供一种语种识别方法及识别系统，能够提高语种识别系统的性能。所述方法包括：将每帧语音信号转换成发音属性特征；利用所述发音属性特征训练时延神经网络，其中，将所述发音属性特征输入时延神经网络，所述时延神经网络对输入的发音属性特征进行学习和分类，得到每种语种在发音属性特征空间中的分布，即语种模型；进行语种识别时，将待识别语音的发音属性特征输入已训练好的时延神经网络中，时延神经网络的输出结果为待识别语音和每种语种模型的相似度，其中，相似度最大的语种模型为待识别语音的语种类别。本发明涉及语音识别技术领域。

Description

一种语种识别方法及识别系统

技术领域

本发明涉及语音识别技术领域，特别是指一种语种识别方法及识别系统。

背景技术

语种识别是指利用计算机自动辨别或者确认语音片段所属语言种类的过程。一个有效的语种识别系统可以被广泛的应用于多语言的语音识别系统和自动翻译系统的前端之中。可以用来区分语种的特征有很多，包括：声学特征、韵律特征、音位结构特征、词法形态、句法特征等。

现有的语种识别方法根据使用的特征不同可以分为两类：①基于频谱的语种识别方法。②基于标识(token)的语种识别方法。基于频谱的语种识别方法利用的是不同语种的频谱特征在声学空间中分布的差异。目前最先进的语种识别模型，比如：全变量因子(i-vector)和x-vector方法，其中，x-vector系统包含一个前向深度神经网络，该神经网络将变长的语音段映射到一个定长的嵌入层，从该嵌入层中提取出的特征向量就称为x-vector，i-vector和x-vector方法都是将声学频谱参数投射到语种相关的高维空间，然后识别语种。基于标识的语种识别方法通常使用音位结构学(phonotactic)的信息，这种信息是用来描述一个语言中的音素是如何排列、组合的。应用这种方法的一个著名的例子就是音素识别器结合语言模型方法，这种方法首先通过音素识别器将语音信号转换为音素序列，然后根据音素序列提取N元统计量(N-gram)作为特征，最后根据这些统计特征建立每个语种的语言模型，通过语言模型为每条测试语音生成一个语种相关的可能性分数，依此来识别语种。

相比于基于标识的语种识别方法，基于频谱的语种识别方法建模时间信息的能力较弱。而基于标识的语种识别方法不能像基于频谱的语种识别方法那样利用语种之间不同的声学特征分布。同时语种识别系统的性能高度依赖于标识识别器的准确率，而要训练好这样的标识识别系统，需要足够多的有标记的数据和完备发音字典，但这对于语种识别任务中的低资源语种而言十分困难。

鉴于此，发音属性特征(Articulatory features，AFs)被引入到语种识别任务中。发音属性特征表示的是发声器官在发某个特定的音素时所引发的声道的变化。不同的发音属性的组合可以表示不同的音素。这意味着相比于音素特征，发音属性特征的颗粒度更小，在语种之间是更加通用的，因此其跨语言建模的能力也更强。所以当同样使用单一或者多个语种来识别音素和发音属性时，发音属性的识别准确率会更高，从而语种识别系统的性能也会表现更好。除此之外，基于发音属性特征的语种识别方法，在提取到发音属性特征后，后端多数采用基于N-gram的语言模型来建模不同语种的音位结构信息，但该方法的缺点是，后端的语言模型会遭遇数据稀疏的问题，即N-gram的数量会随着想要捕捉更多的音位结构上下文信息而增加标识序列的长度，从而使语种识别系统的性能下降。

发明内容

本发明要解决的技术问题是提供一种语种识别方法及识别系统，以解决现有技术所存在的语种识别系统的后端采用基于N-gram的语言模型来建模不同语种的音位结构信息，导致语种识别系统性能下降的问题。

为解决上述技术问题，本发明实施例提供一种语种识别方法，包括：

将每帧语音信号转换成发音属性特征；

利用所述发音属性特征训练时延神经网络，其中，将所述发音属性特征输入时延神经网络，所述时延神经网络对输入的发音属性特征进行学习和分类，得到每种语种在发音属性特征空间中的分布，即语种模型；

进行语种识别时，将待识别语音的发音属性特征输入已训练好的时延神经网络中，时延神经网络的输出结果为待识别语音和每种语种模型的相似度，其中，相似度最大的语种模型为待识别语音的语种类别。

进一步地，在将每帧语音信号转换成发音属性特征之前，所述方法还包括：

确定基于帧级别特征的用于识别发音属性的发音属性提取器。

进一步地，所述确定基于帧级别特征的用于识别发音属性的发音属性提取器包括：

依据预设的音素与发音属性之间的映射关系，将基于音素的训练语料转换为发音属性的标签，得到特征提取模块的训练集；

利用所述训练集训练所述特征提取模块；

其中，所述特征提取模块包含M个发音属性提取器，每个发音属性提取器对应一种发音属性，每种发音属性包括：若干个属性类；每帧语音信号通过每个发音属性提取器后，得到一个后验概率以表示该帧语音信号所属的发音属性的类别，将该帧语音信号的M种不同的发音属性的共Q类不同的属性类的后验概率进行排列，得到发音属性特征，其中，Q表示M种发音属性包含的属性类的数目。

进一步地，所述将每帧语音信号转换成发音属性特征包括：

通过M个发音属性提取器，将每帧语音信号转换成由Q类不同的属性类的后验概率所组成的发音属性特征。

进一步地，时延神经网络中softmax层的节点个数与待分类的语种个数相同，其中，softmax表示多分类；

softmax层每个节点的最后输出结果是句子层级的，每个节点将一句话中的所有帧的softmax层的输出结果加和取平均作为对应节点的最后输出结果。

本发明实施例还提供一种语种识别系统，包括：

发音属性提取器，用于将每帧语音信号转换成发音属性特征；

时延神经网络，用于利用所述发音属性特征训练时延神经网络，其中，将所述发音属性特征输入时延神经网络，所述时延神经网络对输入的发音属性特征进行学习和分类，得到每种语种在发音属性特征空间中的分布，即语种模型；还用于进行语种识别时，将待识别语音的发音属性特征输入已训练好的时延神经网络中，时延神经网络的输出结果为待识别语音和每种语种模型的相似度，其中，相似度最大的语种模型为待识别语音的语种类别。

进一步地，所述系统还包括：

确定模块，用于确定基于帧级别特征的用于识别发音属性的发音属性提取器。

进一步地，所述确定模块，用于依据预设的音素与发音属性之间的映射关系，将基于音素的训练语料转换为发音属性的标签，得到特征提取模块的训练集，利用所述训练集训练所述特征提取模块；

进一步地，所述发音属性提取器，用于将每帧语音信号转换成由Q类不同的属性类的后验概率所组成的发音属性特征。

本发明的上述技术方案的有益效果如下：

上述方案中，将每帧语音信号转换成发音属性特征；利用所述发音属性特征训练时延神经网络，其中，将所述发音属性特征输入时延神经网络，所述时延神经网络对输入的发音属性特征进行学习和分类，得到每种语种在发音属性特征空间中的分布，即语种模型；进行语种识别时，将待识别语音的发音属性特征输入已训练好的时延神经网络中，时延神经网络的输出结果为待识别语音和每种语种模型的相似度，其中，相似度最大的语种模型为待识别语音的语种类别。这样，利用发音属性特征的跨语种的特点，以及时延神经网络捕获输入的发音属性特征的上下文信息的能力，从而帮助语种识别系统更好的学习到输入的发音属性特征的区分性信息，提高语种识别系统的性能。

附图说明

图1为本发明实施例提供的语种识别方法的流程示意图；

图2为本发明实施例提供的基于发音属性特征和时延神经网络的语种识别方法的详细流程示意图；

图3为本发明实施例提供的时延神经网络的结构示意图；

图4为本发明实施例提供的语种识别系统的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的语种识别系统的后端采用基于N-gram的语言模型来建模不同语种的音位结构信息，导致语种识别系统性能下降的问题，提供一种语种识别方法及识别系统。

实施例一

如图1所示，本发明实施例提供的语种识别方法，包括：

S101，将每帧语音信号转换成发音属性特征；

S102，利用所述发音属性特征训练时延神经网络(Time Delay Neural Network，TDNN)，其中，将所述发音属性特征输入时延神经网络，所述时延神经网络对输入的发音属性特征进行学习和分类，得到每种语种在发音属性特征空间中的分布，即语种模型；

S103，进行语种识别时，将待识别语音的发音属性特征输入已训练好的时延神经网络中，时延神经网络的输出结果为待识别语音和每种语种模型的相似度，其中，相似度最大的语种模型为待识别语音的语种类别。

本发明实施例所述的语种识别方法，将每帧语音信号转换成发音属性特征；利用所述发音属性特征训练时延神经网络，其中，将所述发音属性特征输入时延神经网络，所述时延神经网络对输入的发音属性特征进行学习和分类，得到每种语种在发音属性特征空间中的分布，即语种模型；进行语种识别时，将待识别语音的发音属性特征输入已训练好的时延神经网络中，时延神经网络的输出结果为待识别语音和每种语种模型的相似度，其中，相似度最大的语种模型为待识别语音的语种类别。这样，利用发音属性特征的跨语种的特点，以及时延神经网络捕获输入的发音属性特征的上下文信息的能力，从而帮助语种识别系统更好的学习到输入的发音属性特征的区分性信息，提高语种识别系统的性能。

在前述语种识别方法的具体实施方式中，进一步地，在将每帧语音信号转换成发音属性特征之前，所述方法还包括：

本实施例中，通过所述发音属性提取器将每帧语音信号转换成发音属性特征。

在前述语种识别方法的具体实施方式中，进一步地，所述确定基于帧级别特征的用于识别发音属性的发音属性提取器包括：

利用所述训练集训练所述特征提取模块；

本实施例中，发音属性特征表示的是发声器官在发某个特定的音素时所引发的声道的变化。不同的发音属性的组合可以表示不同的音素，因此发音属性是比音素颗粒度更小的声学特征。发音属性在跨语言的情景下可以被更准确的识别。在基于标识的语种识别方法中，音素识别器的精确度是一个关键因素，具体来说，如果要识别的另一种语言的音素与训练音素识别器的语言中包含的音素相同，则可以基于它们之间的相似性假设在语言模型中对其进行建模。如果某些音素与用于音素识别器的语言的音素非常不同，则它们在语言建模中不能很好地表示，这对于语种识别任务来说是很常见的，常常只能使用几个语种来建立音素识别器，无法覆盖所有语言的音素。因此，在语种识别任务中使用语言通用的AFs来构建语种识别系统的前端，以获得更准确的标识识别结果，提高语种识别系统的性能。

本实施例中，使用了如表1所示的M(M＝7)种共Q(Q＝27)类发音属性，这些发音属性的分类是根据国际音标协会的分类方案。每一种发音属性都有多个不同的属性类，比如发音方式包含7类不同的属性：塞音、摩擦音、塞擦音、鼻音、边音、近音、闪音等属性类。

表1:发音属性类别列表

由于为语音信号手工标注发音属性相当困难且花费成本很高，因此为发音属性生成训练集的一种合理方法是：依据预设的音素与发音属性之间的映射关系，将基于音素的训练语料转换为发音属性的标签，得到特征提取模块的训练集。如表2所示，表2为普通话音素与发音属性之间的映射关系。

表2普通话音素与发音属性之间的映射关系

本实施例中，利用所述训练集训练所述特征提取模块，如图2所示，已训练好的特征提取模块包含了7个发音属性提取器，每一个发音属性提取器是分别为每一种发音属性建立的，即：7个发音属性提取器对应7种不同的发音属性。

本实施例中，每帧语音信号通过每个发音属性提取器后会得到一个后验概率以表示这帧语音信号所属的发音属性的类别，然后将这帧语音信号的七种不同的发音属性的共27类不同的属性类的后验概率通过拼接模块进行拼接，得到一个特征向量，该特征向量为发音属性特征。

在前述语种识别方法的具体实施方式中，进一步地，所述将每帧语音信号转换成发音属性特征包括：

本实施例中，将提取发音属性特征的特征提取模块/M个发音属性提取器作为语种识别系统的前端，前端的目的是将每帧语音信号转换成发音属性特征。

本实施例中，使用时延神经网络来作为语种识别系统的后端，为发音属性特征在语种识别任务中的应用方式提供了的新思路，也为语种识别任务提高系统性能提供了参考价值。时延神经网络的结构如图3所示。时延神经网络是用来处理序列数据的，具体来说，时延神经网络是一个前向神经网络，但它与输入权重相关的层权重有延迟，具体是通过向输入添加一系列的时间延迟，以在不同时间点表示数据。这样的结构允许时延神经网络对时序的输入数据动态响应。

本实施例中，时延神经网络的输入是特征提取模块/M个发音属性提取器转换得到的帧层级的发音属性特征，即27种不同属性类的后验概率所组成的特征向量，所述时延神经网络对输入的发音属性特征进行学习和分类，得到每种语种在发音属性特征空间中的分布，即语种模型；其中，时延神经网络中softmax层的节点个数与待分类的语种个数相同，例如，节点个数为10，其中，softmax表示多分类。

本实施例中，softmax层每个节点的最后输出结果是句子层级的，具体的：每个节点将一句话中的所有帧的softmax层的输出结果加和取平均作为对应节点的最后输出结果。

本实施例中，进行语种识别时，输出的10维的句子层级的向量中，最大的相似度值所对应的语种就是待识别语音(具体指：语句)的识别结果。

为了验证本发明实施例所述的语种识别方法的有效性，对其进行实验验证：

在本实验中设置了i-vector语种识别系统和x-vector语种识别系统作为基线系统；同时使用了梅尔频率倒谱系数(MFCC)和深度瓶颈层特征(Deep Bottleneck，DBN)与发音属性特征作对比。具体的实验设置如下：

1)数据集

深度瓶颈层特征是在两个普通话语料库上训练的语音识别系统中提取的。第一个语料库用于大型普通话语音识别系统开发，第二个语料库是一个开源普通话语音库，名为AISHELL-1。两个语料库加起来有1800个说话人(300小时)，大约250000条语音。

所有实验均在东方语种识别竞赛的AP17-OLR数据库上进行评估。该数据库由10种不同的语言组成：中国的哈萨克语(ka-cn)，中国的藏语(ti-cn)，中国的维吾尔语(uy-id)，中国的粤语(ct-cn)，中国的普通话(zh-cn)，印度尼西亚的印度尼西亚语(id-id)，日本的日语(ja-jp)，俄罗斯的俄语(ru-ru)，韩国的韩语(ko-kr)，越南的越南语(vi-vn)。每种语言的训练数据时长约为10小时，语料是通过电话采集的，采样率为16kHz，分辨率为16位。

2)特征提取

声学特征梅尔频率倒谱系数(MFCC)的维数是40维，没有倒谱截断，帧长为25ms。这些特征相当于滤波器组系数(Filter bank)，但更具可压缩性。

深度瓶颈层特征是从一个基于深度神经网络的语音识别系统中抽取出来的。这个深度神经网络是一个时延神经网络，激活函数为非线性的p-norm，该深度神经网络模型是在AISHELL-1和863普通话语料库上进行训练的。深度神经网络有6个隐藏层，每一层有650个节点，最后一个隐藏层被设置为100个节点作为瓶颈层。该网络的输入特征是40维的梅尔频率倒谱系数。网络去掉了的softmax输出层，因为提取深度瓶颈层特征不需要softmax层。

发音属性特征也是从深度神经网络的语音识别系统中抽取出来的，但它们是softmax输出层的后验概率而不是瓶颈层中提取的。这里语音识别系统使用的是链式时延神经网络(chain time-delay neural network)，激活函数为非线性的p-norm，模型是在AISHELL-1和863普通话语料库上进行训练。神经网络有6个隐藏层，每个隐藏层的有625个节点。神经网络的输入是40维梅尔频率倒谱系数。此外，输入特征的原始帧速率每秒100帧，输出帧速率降低了3倍。

3)i-vector语种识别系统

i-vector的提取是基于高斯混合模型的通用背景模型(GMM-UBM)，其中通用背景模型含有2048个高斯混合模型，最后会提取出400维的i-vector，提取i-vector使用的特征就是上面提到的这三个特征：梅尔频率倒谱系数、深度瓶颈层特征、发音属性特征。

4)i-vector的语种识别系统

x-vector的网络结构是一个5层的时延神经网络。每一层的输出经过拼接后输入到下一层，具体每一层拼接的上下文分别是：[t-2,t+2]，[t-2,t+2],[t-3,t+3],[t],[t]，其中t为当前帧。网络前四层中，每一层的节点数为512个，第五层的节点数为1500个。段层级部分包括两层全向连接层，这两层的节点数分别为512个，激活函数为ReLU。

5)时延神经网络

时延神经网络的设置如下，网络共有6层，每一层有650个节点，激活函数是p-norm，每一层拼接的帧数如下：[t-2,t+2]，[t-1,t+1],[t-1,t+1],[t-3,t+3],[t-6,t+6],[t]；其中，t表示当前帧，在第一层(Layer1)，然后将帧[t-2,t+2]拼接到一起，传递到第二层，第二层将[t-1,t+1]拼接到一起，依此类推，第三、四、五层分别将[t-1,t+1]、[t-3,t+3]、[t-6,t+6]拼接到一起，这样经过了四层神经网络后，一共可以在左边获得13帧的上文信息，在右边获得13帧的下文信息。输出的softmax层有10个节点(对应10种语言)。

6)实验结果与结论

6.1)基于发音属性特征和时延神经网络的语种识别方法vs基线系统

实验的评价指标是等错误率(Equal Error Rate，EER)和最小检测代价(minCavg)。表3显示了基线系统和本实施例所述的基于发音属性特征和时延神经网络的语种识别方法的性能。使用All-AFs来表示组合在一起的7种发音属性特征，可以看到，基于发音属性特征和时延神经网络的语种识别方法比基于深度瓶颈层特征的系统和基于梅尔频率倒谱系数的系统性能表现更好，等错误率更低。总体而言，在等错误率上，基于发音属性的时延神经网络相比基于深度瓶颈层特征的时延神经网络降低了约46％，基于发音属性的i-vector相比基于深度瓶颈层特征的i-vector降低了约9％，基于发音属性的x-vector相比基于深度瓶颈层特征的x-vector降低了约20％。以上结果表明，发音属性特征有利于提高语种识别任务的性能。

此外，基于发音属性的时延神经网络的实验结果让人印象深刻。基于发音属性的时延神经网络的等错率比基于发音属性的i-vector降低了15％。同时，基于发音属性的时延神经网络和基于发音属性的x-vector的结果接近。这些结果表明，当使用发音属性作为前端时，一个简单的时延神经网络后端便可对语种识别任务提升很大。

表3不同方法的EER和minCavg(括号中的数值)

特征	TDNN	i-vector+cosine	x-vector+cosine
				MFCC	11.29(12.09)	6.22(6.87)	5.76(5.13)
DBN	7.17(6.88)	5.02(4.76)	4.43(4.53)
				All-AFs	3.86(3.56)	4.56(4.32)	3.52(3.22)

6.3)系统融合

系统融合的结果如表4所示。实验中使用Focal工具来融合系统，主要将基于发音属性的时延神经网络系统融合到不同的方法中，以比较不同融合系统的性能差异。正如在表3中所看到的，融合系统为本实验的识别结果带来了了显著的性能提升。特别是发音属性做前端，时延神经网络、i-vector和x-vector分别做后端的融合系统(AFs-ivector+AFs-xvector+AFs-TDNN)在等错误率上相对单系统的基于发音属性的x-vector方法降低了45％。

表4:不同的系统融合方法的EER和minCavg(括号中的数值)

融合系统	EER(minCavg)
		MFCC-TDNN+AFs-TDNN	3.46(3.76)
DBN-TDNN+AFs-TDNN	2.95(3.21)
		DBN-ivector+AFs-TDNN	2.56(2.32)
DBN-xvector+AFs-TDNN	2.21(2.36)
		AFs-ivector+AFs-TDNN	2.27(2.53)
AFs-xvector+AFs-TDNN	2.14(2.01)
		AFs-ivector+AFs-xvector+AFs-TDNN	1.92(1.84)
MFCC-TDNN+AFs-TDNN	3.46(3.76)

6.3)实验结论

本发明探索了基于发音属性特征和时延神经网络的语种识别方法在语种识别任务中的应用。这种方法利用了发音属性的跨语言特性和时延神经网络捕获输入的发音属性特征的上下文信息的能力。实验在AP17-OLR数据集上进行，实验结果表明了该方法的有效性。具体来说，发现基于发音属性的时延神经网络系统明显优于基于深度瓶颈层特征的i-vector和x-vector的系统。该技术的发明为发音属性特征在语种识别任务中的应用方式提供了的新思路，也为语种识别任务提高系统性能提供了参考价值。

实施例二

本发明还提供一种语种识别系统的具体实施方式，由于本发明提供的语种识别系统与前述语种识别方法的具体实施方式相对应，该语种识别系统可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的，因此上述语种识别方法具体实施方式中的解释说明，也适用于本发明提供的语种识别系统的具体实施方式，在本发明以下的具体实施方式中将不再赘述。

如图4所示，本发明实施例还提供一种语种识别系统，包括：

发音属性提取器11，用于将每帧语音信号转换成发音属性特征；

时延神经网络12，用于利用所述发音属性特征训练时延神经网络，其中，将所述发音属性特征输入时延神经网络，所述时延神经网络对输入的发音属性特征进行学习和分类，得到每种语种在发音属性特征空间中的分布，即语种模型；还用于进行语种识别时，将待识别语音的发音属性特征输入已训练好的时延神经网络中，时延神经网络的输出结果为待识别语音和每种语种模型的相似度，其中，相似度最大的语种模型为待识别语音的语种类别。

本发明实施例所述的语种识别系统，将每帧语音信号转换成发音属性特征；利用所述发音属性特征训练时延神经网络，其中，将所述发音属性特征输入时延神经网络，所述时延神经网络对输入的发音属性特征进行学习和分类，得到每种语种在发音属性特征空间中的分布，即语种模型；进行语种识别时，将待识别语音的发音属性特征输入已训练好的时延神经网络中，时延神经网络的输出结果为待识别语音和每种语种模型的相似度，其中，相似度最大的语种模型为待识别语音的语种类别。这样，利用发音属性特征的跨语种的特点，以及时延神经网络捕获输入的发音属性特征的上下文信息的能力，从而帮助语种识别系统更好的学习到输入的发音属性特征的区分性信息，提高语种识别系统的性能。

在前述语种识别系统的具体实施方式中，进一步地，所述系统还包括：

在前述语种识别系统的具体实施方式中，进一步地，所述确定模块，用于依据预设的音素与发音属性之间的映射关系，将基于音素的训练语料转换为发音属性的标签，得到特征提取模块的训练集，利用所述训练集训练所述特征提取模块；

其中，所述特征提取模块包含M个发音属性提取器，每个发音属性提取器对应一种发音属性，每种发音属性包括：若干个属性类；每帧语音信号通过每个发音属性提取器后，得到一个后验概率以表示该帧语音信号所属的发音属性的类别，将该帧语音信号的M种不同的发音属性的共Q类不同的属性类的后验概率进行排列，得到发音属性特征。

在前述语种识别系统的具体实施方式中，进一步地，所述发音属性提取器，用于将每帧语音信号转换成由Q类不同的属性类的后验概率所组成的发音属性特征。

在前述语种识别系统的具体实施方式中，进一步地，时延神经网络中softmax层的节点个数与待分类的语种个数相同，其中，softmax表示多分类；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语种识别方法，其特征在于，包括：

将每帧语音信号转换成发音属性特征；

进行语种识别时，将待识别语音的发音属性特征输入已训练好的时延神经网络中，时延神经网络的输出结果为待识别语音和每种语种模型的相似度，其中，相似度最大的语种模型为待识别语音的语种类别；

其中，在将每帧语音信号转换成发音属性特征之前，所述方法还包括：

确定基于帧级别特征的用于识别发音属性的发音属性提取器；

其中，所述确定基于帧级别特征的用于识别发音属性的发音属性提取器包括：

利用所述训练集训练所述特征提取模块；

2.根据权利要求1所述的语种识别方法，其特征在于，所述将每帧语音信号转换成发音属性特征包括：

3.根据权利要求1所述的语种识别方法，其特征在于，时延神经网络中softmax层的节点个数与待分类的语种个数相同，其中，softmax表示多分类；

4.一种语种识别系统，其特征在于，包括：

时延神经网络，用于利用所述发音属性特征训练时延神经网络，其中，将所述发音属性特征输入时延神经网络，所述时延神经网络对输入的发音属性特征进行学习和分类，得到每种语种在发音属性特征空间中的分布，即语种模型；还用于进行语种识别时，将待识别语音的发音属性特征输入已训练好的时延神经网络中，时延神经网络的输出结果为待识别语音和每种语种模型的相似度，其中，相似度最大的语种模型为待识别语音的语种类别；

其中，所述系统还包括：

确定模块，用于确定基于帧级别特征的用于识别发音属性的发音属性提取器；

其中，所述确定模块，用于依据预设的音素与发音属性之间的映射关系，将基于音素的训练语料转换为发音属性的标签，得到特征提取模块的训练集，利用所述训练集训练所述特征提取模块；

5.根据权利要求4所述的语种识别系统，其特征在于，所述发音属性提取器，用于将每帧语音信号转换成由Q类不同的属性类的后验概率所组成的发音属性特征。

6.根据权利要求4所述的语种识别系统，其特征在于，时延神经网络中softmax层的节点个数与待分类的语种个数相同，其中，softmax表示多分类；