CN105336324B

CN105336324B - 一种语种识别方法及装置

Info

Publication number: CN105336324B
Application number: CN201510792176.XA
Authority: CN
Inventors: 李骁; 李超; 关勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-11-17
Filing date: 2015-11-17
Publication date: 2018-04-03
Anticipated expiration: 2035-11-17
Also published as: US20180336883A1; US10650801B2; WO2017084334A1; CN105336324A

Abstract

本发明实施例提供了一种语种识别方法及装置。一方面，本发明实施例通过接收到语音信号包含的第N个语音片段之后，根据已经接收到的前N个语音片段，进行语种识别，以获得至少一个语种中每个语种的得分，N的取值为2、3、4、……；从而，若存在得分达到指定阈值的语种，将得分达到指定阈值的语种作为与所述语音信号相匹配的语种。因此，本发明实施例提供的技术方案解决了现有技术中语种识别的效率比较低，使语种识别无法应用于需要快速获得识别结果的应用场景中的问题。

Description

一种语种识别方法及装置

【技术领域】

本发明涉及语音识别技术领域，尤其涉及一种语种识别方法及装置。

【背景技术】

随着互联网应用与信息技术的不断发展，出现了语音识别技术，目前语音识别技术已经广泛应用于家电、工业、医疗等许多领域，给用户的生活带来极大便利。

现有技术中，在进行语音识别之前需要先进行语种识别，用以识别出输入的语音信号是采用的哪个语种，进而能够使用该语种对应的解码器对语音信号进行进一步的语音识别。

然而，现有技术中，客户端将用户输入的语音信号分成若干语音片段后，依次将语音片段发送到服务器进行语种识别的。服务器在接收到属于同一语音信号的所有语音片段之后，才开始进行语种识别，导致现有技术中语种识别的效率比较低，使语种识别无法应用于需要快速获得识别结果的应用场景中。

【发明内容】

有鉴于此，本发明实施例提供了一种语种识别方法及装置，解决了现有技术中语种识别的效率比较低，使语种识别无法应用于需要快速获得识别结果的应用场景中的问题。

本发明实施例的一方面，提供一种语种识别方法，包括：

接收到语音信号包含的第N个语音片段之后，根据已经接收到的前N个语音片段，进行语种识别，以获得至少一个语种中每个语种的得分，N的取值为2、3、4、……；

若存在得分达到指定阈值的语种，将得分达到指定阈值的语种作为与所述语音信号相匹配的语种。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述方法还包括：

若不存在得分达到指定阈值的语种，在接收到第N+1个语音信号之后，继续根据已经接收到第N+1个语音信号，进行语种识别，直到获得与所述语音信号相匹配的语种为止。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据已经接收到的前N个语音片段，进行语种识别，以获得至少一个语种中每个语种的得分，包括：

从所述第N个语音片段提取语音特征；

根据所述语音特征，获得所述第N个语音片段的统计量；

根据所述第N个语音片段的统计量和前N-1个语音片段的第一累计统计量，获得第二累计统计量；

利用语种识别模型对所述第二累计统计量进行语种识别，以获得至少一个语种中每个语种的得分。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，从所述第N个语音片段提取语音特征之前，所述方法还包括：对所述第N个语音片段进行静音检测，以去除所述第N个语音片段中的静音信号。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述第二累计统计量包括：前N个语音片段的语音特征的权重、前N个语音片段的语音特征的均值和前N个语音片段的语音特征的方差。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述语种识别模型包括判决模型和背景模型；所述利用语种识别模型对所述第二累计统计量进行语种识别，以获得至少一个语种中每个语种的得分，包括：

利用背景模型将所述第二累计统计量转换成对应的高斯超向量；

计算判决模型中的向量与所述高斯超向量之间的空间距离，以作为所述判决模型对应的语种的得分。

若所述语音信号包含的所有语音片段都接收到之后，不存在得分达到指定阈值的语种，将得分最高的语种作为与所述语音信号相匹配的语种。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述方法还包括：将与所述语音信号相匹配的语种作为语种识别结果，并输出所述语种识别结果。

本发明实施例的一方面，提供一种语种识别装置，包括：

识别模块，用于接收到语音信号包含的第N个语音片段之后，根据已经接收到的前N个语音片段，进行语种识别，以获得至少一个语种中每个语种的得分，N的取值为2、3、4、……；

判断模块，用于若存在得分达到指定阈值的语种，将得分达到指定阈值的语种作为与所述语音信号相匹配的语种。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述识别模块，还用于：

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述识别模块，具体用于：

从所述第N个语音片段提取语音特征；

根据所述语音特征，获得所述第N个语音片段的统计量；

对所述第N个语音片段进行静音检测，以去除所述第N个语音片段中的静音信号。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述语种识别模型包括判决模型和背景模型；所述识别模块用于利用语种识别模型对所述第二累计统计量进行语种识别，以获得至少一个语种中每个语种的得分时，具体用于：

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述判断模块，还用于：

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述装置还包括：

输出模块，用于将与所述语音信号相匹配的语种作为语种识别结果，并输出所述语种识别结果。

由以上技术方案可以看出，本发明实施例具有以下有益效果：

根据本发明实施例提供的技术方案，能够在每次接收到一个语音片段之后，就进行语种识别，从而可以在接收完所有语音片段之前就可以完成语种识别，与现有技术中，必须在接收到所有语音片段之后才开始进行语种识别的方法相比，本发明实施例解决了现有技术中语种识别的效率比较低，使语种识别无法应用于需要快速获得识别结果的应用场景中的问题，大大提高了语种识别的效率，使得语种识别能够应用于需要快速获得识别结果的应用场景中。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例所提供的技术方案使用的系统示例图；

图2是本发明实施例所提供的语种识别方法的流程示意图；

图3是本发明实施例所提供的语种识别方法的优选实施例的流程示意图；

图4是本发明实施例所提供的语种识别装置的功能方块图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二等来描述累计统计量，但这些累计统计量不应限于这些术语。这些术语仅用来将累计统计量彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一累计统计量也可以被称为第二累计统计量，类似地，第二累计统计量也可以被称为第一累计统计量。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

本发明实施例所提供的技术方案使用的系统如图1所示，主要由客户端和服务器组成，本发明实施例所提供的方法和装置在服务器侧实现，主要用于接收客户端发送的语音信号，然后进行语种识别，最后输出识别结果。本发明实施例对客户端的功能没有进行变更。

本发明实施例给出一种语种识别方法，请参考图2，其为本发明实施例所提供的语种识别方法的流程示意图，如图所示，该方法包括以下步骤：

S201，接收到语音信号包含的第N个语音片段之后，根据已经接收到的前N个语音片段，进行语种识别，以获得至少一个语种中每个语种的得分，N为大于或者等于2的整数。

S202，若存在得分达到指定阈值的语种，将得分达到指定阈值的语种作为与所述语音信号相匹配的语种。

请参考图3，其为本发明实施例所提供的语种识别方法的优选实施例的流程示意图，如图所示，在线上的实际场景中，客户端可以接收用户输入的语音信号，然后将语音信号分成若干语音片段，进而将语音片段依次发送给服务器。这意味着服务器并不是一次性的接收到用户的语音信号，而是一部分一部分的接收，依次接收语音片段。用户在一句话还没说完时，实际上一部分的语音片段已经被发送到了服务器，这样，服务器就可以接收到客户端发送的语音片段，其中，客户端是按照顺序向服务器发送若干语音片段的，服务器一次也只接收一个语音片段。

可以理解的是，一个语音信号包含的各语音片段的长度可以相等，或者，也可以不等。例如，第一个语音片段的长度是500ms，此后的每个语音片段的长度是250ms。

本发明实施例中，服务器在接收到语音信号包含的第N个语音片段之后，根据已经接收到的前N个语音片段，进行语种识别，以获得至少一个语种中每个语种的得分。

进一步的，若存在得分达到指定阈值的语种，将得分达到指定阈值的语种作为与所述语音信号相匹配的语种。这里，由于服务器获得了与语音信号相匹配的语种，则服务器停止进行语种识别，即服务器即使再接收到第N+1个语音片段，服务器也不会继续根据前N+1个语音信号继续进行语种识别。

反之，若不存在得分达到指定阈值的语种，则在服务器接收到第N+1个语音信号之后，服务器继续根据已经接收到前N+1个语音信号，进行语种识别，直到获得与所述语音信号相匹配的语种为止。

若所述语音信号包含的所有语音片段都被服务器接收到之后，仍然不存在得分达到指定阈值的语种，则服务器将得分最高的语种作为与所述语音信号相匹配的语种。

本发明实施例中，N为大于或者等于2的整数，N为2、3、4、……。相当于，服务器从接收的第2个语音片段开始，每收到一个语音片段之后，就根据已经收到所有语音片段进行一次语种识别，直到获得得分达到指定阈值的语种时为止。

举例说明，本发明实施例中，服务器根据已经接收到的前N个语音片段，进行语种识别，以获得至少一个语种中每个语种的得分的方法可以包括但不限于：

如图3所示，首先，对所述第N个语音片段进行静音检测，以去除所述第N个语音片段中的静音信号。然后，从所述第N个语音片段提取语音特征。接着，根据所述语音特征，获得所述第N个语音片段的统计量。然后，根据所述第N个语音片段的统计量和前N-1个语音片段的第一累计统计量，获得第二累计统计量。最后，利用语种识别模型对所述第二累计统计量进行语种识别，以获得至少一个语种中每个语种的得分。

实际应用过程中，用户在向客户端输入语音信号时，在用户说话之前，客户端往往会采集到一定时长的静音信号。因此，服务器在收到一个语音片段之后，如第N个语音片段，需要先对该第N个语音片段进行静音检测，以确定静音信号在第N个语音片段中的位置，进而根据该位置，在该语音片段中去除该第N个语音片段的静音信号，从而避免静音信号的存在给语种识别带来的干扰。另外，还可以在静音检测的同时将语音片段中的噪声信号同时去除，进一步减少了给语种识别带来的干扰。

在一个具体的实现过程中，在对第N个语音片段进行静音检测后，进一步从静音检测后获得的第N个语音片段提取第N个语音片段的语音特征。其中，第N个语音片段的语音特征可以包括但不限于：感知线性预测系数(Perceptual Linear Predictive，PLP)和梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)等。

如图3所示，本发明实施例中，服务器在每接收到一个语音片段后，都获得该语音片段的统计量，然后将该语音片段的统计量与之前收到的所有语音片段的累计统计量进行累计，从而获得新的累计统计量，相当于将该语音片段的统计量是在原有累计统计量上进行累计，并不是重新进行接收到所有语音片段的统计量的累计。

如图3所示，基于上述描述，服务器在接收到第N个语音片段后，就将第N个语音片段的统计量与前N-1个语音片段的第一累计统计量相加，以获得第二累计统计量，以实现将第N个语音片段的统计量累计到该第二累计统计量之中。可以理解的是，第二累计统计量代表了语音信号到目前为止的语种特征。

本发明实施例中，所述第N个语音片段的统计量包括：第N个语音片段的权重。

所述第一累计统计量包括：前N-1个语音片段的语音特征的权重、前N-1个语音片段的语音特征的均值和前N-1个语音片段的语音特征的方差。

相应的，所述第二累计统计量包括：前N个语音片段的语音特征的权重、前N个语音片段的语音特征的均值和前N个语音片段的语音特征的方差。

可以理解的是，为了能够实现语音片段的统计量的累计，可以在每次累计统计量之后，将获得的新的累计统计量保存在服务器的内存中，且在接收到重置信号之前，不会进行累计统计量的清零。因此，可以从服务器的内存中获得前N-1个语音片段的第一累计统计量。

举例说明，利用如下公式获得第N个语音片段的权重：

n_t＝Pr(i|x_t)

其中，n_i表示第N个语音片段的权重。x_t表示在t时刻的语音片段，Pr(i|x_i)表示x_t落在背景模型中第i个簇上的概率。

同理，举例说明，利用如下公式获得前N个语音片段的语音特征的权重：

利用如下公式获得前N个语音片段的语音特征的均值：

利用如下公式获得前N个语音片段的语音特征的方差：

上述公式中，n_i表示前N个语音片段的语音特征的权重；T表示语音信号的总时长；E_i(x)表示前N个语音片段的语音特征的均值；E_i(x²)表示前N个语音片段的语音特征的方差。

举例说明，利用语种识别模型对所述第二累计统计量进行语种识别，以获得至少一个语种中每个语种的得分的方法可以包括但不限于：

如图3所示，本发明实施例中，所述语种识别模型可以包括但不限于判决模型和背景模型。其中，判决模型可以利用高斯超向量模型、深度神经网络模型或者空间向量模型实现。所述判决模型的数目可以为至少两个，如英语对应的判决模型、汉语对应的判决模型、法语对应的判决模型等，每个判决模型可以包括对应的语种的向量。背景模型是一个是利用大量不同语种、不同信道和不同性别的用户的语音信号进行训练获得的高阶的高斯混合模型。

首先，可以利用背景模型将所述第二累计统计量转换成对应的高斯超向量。然后，计算判决模型中的向量与所述高斯超向量之间的空间距离，以作为所述判决模型对应的语种的得分。

可以理解的是，可以利用至少两个判断模型中每个判决模型分别对所述第二累计统计量进行打分，从而获得每个判决模型对应的语种的得分。例如，利用英语对应的判决模型进行打分，获得前N个语音片段对应的语种是英语的得分，利用汉语对应的判决模型进行打分，获得前N个语音片段对应的语种是汉语的得分，利用法语对应的判决模型进行打分，获得前N个语音片段对应的语种是法语的得分。

进一步，将至少一个语种中每个语种的得分，分别与该语种的指定阈值进行比较，若存在得分达到相应语种的指定阈值的语种，将该得分达到相应语种的指定阈值的语种，作为与所述前N个语音片段相匹配的语种，并停止语种识别，即使接收到第N+1个语音片段，服务器也不会对其执行上述的语种识别过程，因此已经识别出了与语音信号相匹配的语种。

反之，如果不存在得分达到相应语种的指定阈值的语种，即所有得分都没有达到相应语种的指定阈值，则继续对接收到的下一个语音片段，即第N+1个语音片段执行上述操作，用以根据前N+1个语音片段，再次获得每个语种的得分，直到存在得分达到相应语种的指定阈值的语种时停止上述语种识别过程。

例如，若前N个语音片段对应的语种是英语的得分达到英语的指定阈值，则认为英语是与前N个语音片段相匹配的语种。或者，又如，若前N个语音片段对应的语种是英语的得分达到汉语的指定阈值，则认为汉语是与前N个语音片段相匹配的语种。或者，又如，若前N个语音片段对应的语种是法语的得分达到法语的指定阈值，则认为法语是与前N个语音片段相匹配的语种。

可以理解的是，一般的，要么没有得分达到指定阈值的语种，要么只有一个得分达到指定阈值的语种，不会存在两个以上得分达到指定阈值的语种。

可以理解的是，得分达到指定阈值指的是得分大于或者等于该指定阈值。

进一步的，在获得与所述语音信号相匹配的语种之后，将与所述语音信号相匹配的语种作为语种识别结果，并输出所述语种识别结果给控制模块。控制模块判断当前所使用的解码器是否为该语种对应的解码器，如果是，则可以利用当前所使用的解码器对已经收到的所有语音片段进行语音识别；如果不是，则切换到该语种对应的解码器，利用该语种对应的解码器对已经收到的所有语音片段进行语音识别。这样，即使服务器还没有获得完整的语音信号，服务器也可以开始进行语种识别和语音识别，提高了语种识别效率和语音识别效率。

现有技术中，服务器在接收到属于同一语音信号的所有语音片段之后，将完整的语音信号作为整体进行静音检测、语音特征提取以及利用语种识别模型进行识别。该技术方案的缺点是需要接收到所有语音片段之后，才开始进行语种识别，从而导致语种识别的效率比较低，使得语种识别技术无法应用于需要及时得到识别结果的应用场景中。例如，当所在国家未知的某搜索客户端在接收到用户输入的语音信号之后，服务器需要先从客户端接收到完整的语音信号之后，再等待语种识别完成，然后再根据语种识别的结果选择相应的解码器来进行语音识别，最后根据语音识别结果进行搜索，并返回搜索结果给客户端。这一系列的处理过程效率比较低，让用户感受到了极大的延迟感，目前整体实时率在0.5左右，也就是说用户输入完一个3s长的语音信号之后，需要等待1.5s才能得到返回的结果。

为了解决现有技术中的问题，本发明实施例所提供的技术方案中，在每接收到一个语音片段后，就进行一次语种识别，若根据语种识别中的得分能够确定相匹配的语种，就立即获得语种识别结果，并不再对此后收到的语音片段进行语种识别，而是立即开始语音识别，从而能够提高语种识别效率和语音识别效率，使用户能够及时获得所需要的结果。

传统的语种识别技术由于受限于语音的完整性，难以与语音识别等其他语音技术相结合，不能应用于语音搜索、语音输入等与语音相关的常规应用场景。本发明实施例所提供的技术方案能够扩大语种识别的应用场景，使语种识别技术能够适用于更多的应用场景，如需要及时得到识别结果的应用场景。

另外，现有技术中，支持语音识别的应用往往只能接收针对某一特定语言的语音信号，如果用户需要使用其他语言来输入语音信号，只能选择使用其他应用，操作成本较高，用户体验较差。然而，如果结合使用本发明实施例所提供的语种识别方法，可以实现支持不同语言输入的语音信号，减少了操作成本，给用户带来良好体验。

本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。

请参考图4，其为本发明实施例所提供的语种识别装置的功能方块图。如图所示，该装置包括：

识别模块41，用于接收到语音信号包含的第N个语音片段之后，根据已经接收到的前N个语音片段，进行语种识别，以获得至少一个语种中每个语种的得分，N的取值为2、3、4、……；

判断模块42，用于若存在得分达到指定阈值的语种，将得分达到指定阈值的语种作为与所述语音信号相匹配的语种。

可选的，所述识别模块41，还用于：

在一个具体的实现过程中，所述识别模块41，具体用于：

从所述第N个语音片段提取语音特征；

根据所述语音特征，获得所述第N个语音片段的统计量；

可选的，所述识别模块41，还用于：

在一个具体的实现过程中，所述第二累计统计量包括：前N个语音片段的语音特征的权重、前N个语音片段的语音特征的均值和前N个语音片段的语音特征的方差。

在一个具体的实现过程中，所述语种识别模型包括判决模型和背景模型；所述识别模块用于利用语种识别模型对所述第二累计统计量进行语种识别，以获得至少一个语种中每个语种的得分时，具体用于：

可选的，所述判断模块42，还用于：

可选的，所述装置还包括：

输出模块43，用于将与所述语音信号相匹配的语种作为语种识别结果，并输出所述语种识别结果。

由于本实施例中的各单元能够执行图2所示的方法，本实施例未详细描述的部分，可参考对图2的相关说明。

本发明实施例的技术方案具有以下有益效果：

本发明实施例中，通过接收到语音信号包含的第N个语音片段之后，根据已经接收到的前N个语音片段，进行语种识别，以获得至少一个语种中每个语种的得分，N的取值为2、3、4、……；从而，若存在得分达到指定阈值的语种，将得分达到指定阈值的语种作为与所述语音信号相匹配的语种。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语种识别方法，其特征在于，所述方法包括：

若存在得分达到指定阈值的语种，将得分达到指定阈值的语种作为与所述语音信号相匹配的语种；

所述方法还包括：

2.根据权利要求1所述的方法，其特征在于，所述根据已经接收到的前N个语音片段，进行语种识别，以获得至少一个语种中每个语种的得分，包括：

从所述第N个语音片段提取语音特征；

根据所述语音特征，获得所述第N个语音片段的统计量；

3.根据权利要求2所述的方法，其特征在于，从所述第N个语音片段提取语音特征之前，所述方法还包括：对所述第N个语音片段进行静音检测，以去除所述第N个语音片段中的静音信号。

4.根据权利要求2所述的方法，其特征在于，所述第二累计统计量包括：前N个语音片段的语音特征的权重、前N个语音片段的语音特征的均值和前N个语音片段的语音特征的方差。

5.根据权利要求2所述的方法，其特征在于，所述语种识别模型包括判决模型和背景模型；所述利用语种识别模型对所述第二累计统计量进行语种识别，以获得至少一个语种中每个语种的得分，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述方法还包括：将与所述语音信号相匹配的语种作为语种识别结果，并输出所述语种识别结果。

8.一种语种识别装置，其特征在于，所述装置包括：

判断模块，用于若存在得分达到指定阈值的语种，将得分达到指定阈值的语种作为与所述语音信号相匹配的语种；

所述识别模块，还用于：

9.根据权利要求8所述的装置，其特征在于，所述识别模块，具体用于：

从所述第N个语音片段提取语音特征；

根据所述语音特征，获得所述第N个语音片段的统计量；

10.根据权利要求9所述的装置，其特征在于，所述识别模块，还用于：

11.根据权利要求9所述的装置，其特征在于，所述第二累计统计量包括：前N个语音片段的语音特征的权重、前N个语音片段的语音特征的均值和前N个语音片段的语音特征的方差。

12.根据权利要求9所述的装置，其特征在于，所述语种识别模型包括判决模型和背景模型；所述识别模块用于利用语种识别模型对所述第二累计统计量进行语种识别，以获得至少一个语种中每个语种的得分时，具体用于：

13.根据权利要求8所述的装置，其特征在于，所述判断模块，还用于：

14.根据权利要求8至13中任一项所述的装置，其特征在于，所述装置还包括：