CN111524502A

CN111524502A - 一种语种检测方法、装置、设备及存储介质

Info

Publication number: CN111524502A
Application number: CN202010460914.1A
Authority: CN
Inventors: 李晋; 褚繁; 方昕; 方四安; 柳林; 徐承
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-08-11
Anticipated expiration: 2040-05-27

Abstract

本申请提出一种语种检测方法、装置、设备及存储介质，该方法包括：获取待检测语音数据的各个语音数据段的声学特征；基于预先构建的正交化投影空间，分别将所述各个语音数据段的声学特征映射为语种表征特征；其中，所述正交化投影空间中的指定语种的投影空间与非指定语种的投影空间不重叠；根据所述各个语音数据段的语种表征特征，确定所述各个语音数据段的语种为指定语种或非指定语种。上述方案通过提取待检测语音数据中的各个语音数据段的语种表征特征，来识别各个语音数据段的语种为指定语种或非指定语种。当待检测语音数据为包含混合语种的语音数据时，通过执行上述方案，可以从待检测语音数据中检测出不同语种的语音数据段。

Description

一种语种检测方法、装置、设备及存储介质

技术领域

本申请涉及音频数据处理技术领域，尤其涉及一种语种检测方法、装置、设备及存储介质。

背景技术

语种识别是指识别语音片段所属语言种类的过程，语种识别是语音识别等语音数据处理的重要前提，准确地识别语音片段所属语种，可以使语音识别等语音数据处理的方向更明确。

随着语音数据的多语种混合现象越来越普遍，如何从多语种混合的语音数据中检测出包含不同语种的语音数据段，成为了语种识别场景中的新型语种识别难题。

发明内容

基于上述需求，本申请提出一种语种检测方法、装置、设备及存储介质，能够准确地检测语音数据各语音数据段的语种，从而可以从混合语种的语音数据中检测出包含不同语种的语音数据段。

为了达到上述目的，本申请具体提出如下技术方案：

一种语种检测方法，包括：

获取待检测语音数据的各个语音数据段的声学特征；

基于预先构建的正交化投影空间，分别将所述各个语音数据段的声学特征映射为语种表征特征；其中，所述正交化投影空间中的指定语种的投影空间与非指定语种的投影空间不重叠；

根据所述各个语音数据段的语种表征特征，确定所述各个语音数据段的语种为指定语种或非指定语种。

一种语种检测装置，包括：

特征获取单元，用于获取待检测语音数据的各个语音数据段的声学特征；

特征处理单元，用于基于预先构建的正交化投影空间，分别将所述各个语音数据段的声学特征映射为语种表征特征；其中，所述正交化投影空间中的指定语种的投影空间与非指定语种的投影空间不重叠；

语种检测单元，用于根据所述各个语音数据段的语种表征特征，确定所述各个语音数据段的语种为指定语种或非指定语种。

一种语种检测设备，包括：

存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现上述的语种检测方法。

一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现上述的语种检测方法。

本申请提出的语种检测方法，在获取待检测语音数据的各个语音数据段的声学特征后，基于预先构建的正交化投影空间，分别将各个语音数据段的声学特征映射为语种表征特征；进而，根据各个语音数据段的语种表征特征，确定所述各个语音数据段的语种为指定语种或非指定语种。上述方案通过提取待检测语音数据中的各个语音数据段的语种表征特征，来识别各个语音数据段的语种为指定语种或非指定语种。当待检测语音数据为包含混合语种的语音数据时，通过上述的对待检测语音数据的各个语音数据段的语种识别，可以从待检测语音数据中检测出不同语种的语音数据段，从而能够解决多语种混合语音数据的语种识别问题。

进一步的，本申请上述方案中所应用的正交化投影空间中的指定语种的投影空间与非指定语种的投影空间不重叠。基于该正交化投影空间获取语音数据段的语种表征特征，可以使指定语种的语种表征特征与非指定语种的语种表征特征之间不存在重叠或混合，也就是使指定语种和非指定语种的语种信息的区分性更强，从而更有利于根据语种表征特征区分指定语种和非指定语种。因此，本申请上述技术方案能够更加准确地从语音数据中区分出指定语种语音数据和非指定语种语音数据，能够更加准确地从多语种混合的语音数据中检测出包含不同语种的语音数据段。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的一种语种检测方法的流程示意图；

图2是本申请实施例提供的构建正交化投影空间的处理流程示意图；

图3是本申请实施例提供的另一种语种检测方法的流程示意图；

图4是本申请实施例提供的一种语种检测装置的结构示意图；

图5是本申请实施例提供的另一种语种检测装置的结构示意图；

图6是本申请实施例提供的一种语种检测设备的结构示意图。

具体实施方式

本申请实施例技术方案适用于语音数据语种识别应用场景，尤其适用于识别混合语种语音数据的语种识别应用场景，具体的，采用本申请实施例技术方案，可以识别语音数据的各语音数据段的语种，从而可以实现对混合语种语音数据的各语音数据段的语种识别，以及可以实现各语种语音数据段的检测等。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1所示，本申请实施例提出的语种检测方法，包括：

S101、获取待检测语音数据的各个语音数据段的声学特征。

上述的待检测语音数据，是指包含至少一种语种的语音数据，在本申请实施例中，该待检测语音数据，特指包含多种语种的语音数据，例如，同时包含汉语、英语、法语等不同语种语音的语音数据。

作为一种示例性的预先设定方式，本申请实施例预先设定某一语种为指定语种，从而该语种之外的其他语种即为非指定语种。例如，将汉语作为指定语种，而将英语、法语等非汉语语种统称为非指定语种。

基于上述设定，本申请实施例上述的待检测语音数据，是指包含指定语种和非指定语种的语音数据，并且指定语种的语音数据内容和非指定语种的语音数据内容在上述的待检测语音数据中的位置随机，可以前后排列，也可以相互穿插存在。

在获取到待检测语音数据后，本申请实施例将待检测语音数据划分为各个语音数据段，并且分别获取各个语音数据段的声学特征。

作为一种示例性的实现方式，本申请实施例设置长度为设定帧数的滑窗，从所述待检测语音数据的起始位置开始，按照设定步长依次滑动，每滑动一次，将滑窗内的语音数据作为一个语音数据段，由此得到待检测语音数据的各个语音数据段。

对于各个语音数据段，分别提取声学特征即可获取各个语音数据段的声学特征。

作为另一种可选的实现方式，还可以首先提取上述待检测音频数据的声学特征，然后对待检测语音数据的声学特征依次进行分段，作为待检测语音数据中的各个语音数据段的声学特征。其中，上述的对待检测语音数据的声学特征依次进行分段，也可以通过上述的滑窗滑动方式实现。

在本申请实施例中，将语音数据的瓶颈特征，作为待检测语音数据和/或待检测语音数据的各个语音数据段的声学特征。在实际应用本申请实施例技术方案时，也可以通过提取待检测语音数据和/或待检测语音数据的各个语音数据段的其他声学特征，本申请实施例不做严格限定。

S102、基于预先构建的正交化投影空间，分别将所述各个语音数据段的声学特征映射为语种表征特征。

其中，所述正交化投影空间中的指定语种的投影空间与非指定语种的投影空间不重叠。

上述的投影空间，是指用于对声学特征进行映射投影的特征空间，经过该投影空间的投影，可以滤除声学特征中的诸如信道特征等对于语种识别无用的信息，从而使声学特征的维度降低，同时使声学特征更加纯净。

常规的投影空间为通用的投影空间，指定语种和非指定语种的语音数据均通过该通用的投影空间进行特征映射，并且在通用的投影空间中，并没有对特征中包含的语种信息进行区分，不同的语种信息混合在一起。因此，采用通用的投影空间对语音数据的声学特征进行投影映射后得到的低维声学特征，对于语种信息的区分性不强，从而难以达到满意的语种识别效果。

而在本申请实施例中，设置正交化的投影空间，在该正交化的投影空间中，指定语种的投影空间与非指定语种的投影空间不重叠。也就是，指定语种和非指定语种在上述正交化投影空间中，分别占据互不重叠的投影空间。

则可以理解，基于上述的正交化投影空间，将指定语种的声学特征进行映射后的结果，与将非指定语种的声学特征进行映射后的结果，在该正交化投影空间中是不重叠的。而对于任意未知语种的语音数据，将其声学特征经过上述正交化投影空间进行映射投影后得到的特征，根据其处于指定语种投影空间的部分和处于非指定语种投影空间的部分的比例，可以很轻易地确定其语种信息。

例如，假设某一语音数据的声学特征经过上述的正交化投影空间进行映射后，得到的低维声学特征中，有80％的部分处于指定语种投影空间，而只有20％的部分处于非指定语种投影空间，则可以确定，该语音数据的低维声学特征更倾向于指定语种的声学特征，由此可以认为该语音数据的语种为指定语种。

由于本申请实施例上述的正交化投影空间对于指定语种和非指定语种区分了不同的投影空间，并且指定语种和非指定语种的投影空间不重叠，因此该正交化投影空间更有利于区分指定语种信息和非指定语种信息，经过该正交化投影空间的映射得到的特征更加能够表征语种特征，因此本申请实施例将经过该正交化投影空间映射得到的特征设定为语种表征特征。

基于上述的正交化投影空间，本申请实施例将待检测语音数据的各个语音数据段的声学特征分别映射为语种表征特征。

S103、根据所述各个语音数据段的语种表征特征，确定所述各个语音数据段的语种为指定语种或非指定语种。

在分别获取待检测语音数据中的各个语音数据段的语种表征特征后，根据各个语音数据段的语种表征特征，可以确定各个语音数据段的语种是指定语种还是非指定语种。

示例性的，通过对语音数据段的语种表征特征进行分类，可以确定语音数据段的语种是指定语种还是非指定语种。该分类过程具体可以借助语种分类模型实现。

或者，通过将各个语音数据段的语种表征特征与预先确定的指定语种的标准语种表征特征进行对比，即可判断语音数据段的语种是否为指定语种，从而确定语音数据段的语种是指定语种还是非指定语种。

例如，在获取到待检测语音数据的瓶颈特征后，设定长度为L帧的滑窗，从该待检测语音数据的起始位置开始，按照S帧为步长进行滑动，每滑动一次后，位于滑窗内的瓶颈特征即作为获取的一个语音数据段的声学特征。通过上述处理，可以获取待检测语音数据中的各个语音数据段的声学特征。

假设通过上述处理，得到了N个语音数据段的声学特征。

然后，利用预先构建的正交化投影空间T，将每个语音数据段的声学特征映射为低维的语种表征特征w_n，其中，n表示第个语音数据段，n＝1,2,...,N。

基于每个语音数据段的语种表征特征w_n，通过语种分类即可确定各个语音数据段的语种。

或者，将每个语音数据段的语种表征特征w_n，与预先确定的指定语种的语种表征特征w进行相似度比对：

即可得到每个语音数据段的语种与指定语种的相似度得分score_n。根据该相似度得分score_n，即可确定语音数据段的语种是指定语种还是非指定语种。

例如，本申请实施例预先设置第一相似度阈值T₁，如果某一语音数据段的语种与指定语种的相似度得分score_n≥T₁，则可以认为该语音数据段的语种为指定语种；否则可以认为该语音数据段的语种为非指定语种。

通过上述介绍可见，本申请实施例提出的语种检测方法，在获取待检测语音数据的各个语音数据段的声学特征后，基于预先构建的正交化投影空间，分别将各个语音数据段的声学特征映射为语种表征特征；进而，根据各个语音数据段的语种表征特征，确定所述各个语音数据段的语种为指定语种或非指定语种。上述方案通过提取待检测语音数据中的各个语音数据段的语种表征特征，来识别各个语音数据段的语种为指定语种或非指定语种。当待检测语音数据为包含混合语种的语音数据时，通过上述的对待检测语音数据的各个语音数据段的语种识别，可以从待检测语音数据中检测出不同语种的语音数据段，从而能够解决多语种混合语音数据的语种识别问题。

本申请实施例还公开了上述的正交投影空间的构建过程，该构建过程如图2所示。

首先，分别获取指定语种的全变量投影空间，以及非指定语种的全变量投影空间。

示例性的，对多类型语种训练数据进行声学特征提取，例如提取filter bank特征，并基于多类型语种训练数据的声学特征，根据最大似然准则，利用EM算法估计得到通用背景模型M(Universal Background Model,UBM)。

基于上述的通用背景模型M，分别利用指定语种语音数据样本和非指定语种语音数据样本，训练全变量投影空间，得到指定语种的全变量投影空间T_指定，以及非指定语种的全变量投影空间T_非指定。

其中，上述的通用背景模型M的构建过程，以及利用指定语种的语音数据样本和非指定语种的语音数据样本，训练得到相应的指定语种的全变量投影空间T_指定和非指定语种的全变量投影空间T_非指定的具体处理过程，均可以参照现有技术中的处理过程实现，本申请实施例不再详细介绍。

然后，根据上述的指定语种的全变量投影空间T_指定，以及非指定语种的全变量投影空间T_非指定，构建正交化投影空间。

示例性的，在分别获取指定语种的全变量投影空间T_指定，和非指定语种的全变量投影空间T_非指定后，通过对两种全变量投影空间进行正交化处理，可以使两种全变量投影空间不重叠，进而利用互不重叠的两种全变量投影空间，可以构建得到正交化投影空间T。

上述处理具体可按照如下步骤进行：

首先，通过对指定语种的全变量投影空间和非指定语种的全变量投影空间进行正交化处理，获取非指定语种的子投影空间。

其中，上述的非指定语种的子投影空间，是与指定语种的全变量投影空间相互正交的投影空间。

具体的，对指定语种的全变量投影空间T_指定的协方差矩阵进行特征分解，得到指定语种的全变量投影空间T_指定的正交基O_指定；然后将非指定语种的全变量投影空间T_非指定在正交基O_指定上进行最佳均方估计，使得通过均方估计处理得到的正交基O_指定上的全变量投影空间T_{非指定估计}(非指定语种的估计投影空间)和原始的非指定语种的全变量投影空间T_非指定的均方误差最小，进而可以得到非指定语种的子投影空间T′_非指定＝T_非指定-T_{非指定估计}。经过上述处理得到的非指定语种的子投影空间T′_非指定和指定语种的全变量投影空间T_指定相互正交。

然后，对指定语种的全变量投影空间T_指定，以及上述的非指定语种的子投影空间T′_非指定进行拼接，得到正交化投影空间T＝{T_指定，T′_非指定}。

需要说明的是，上述的投影空间正交化处理的具体处理过程，还可以参照现有技术方案中常规的投影空间正交化处理方案实现，本申请实施例不做严格限定，亦不再详述。

作为一种优选的处理方式，在根据各个语音数据段的语种表征特征，确定各个语音数据段的语种为指定语种或非指定语种后，参见图3所示，本申请实施例公开的语种检测方法还包括：

S304、根据所述各个语音数据段的语种，从所述待检测语音数据中确定出目标语音数据段。

其中，所述目标语音数据段为指定语种语音数据段，或包含非指定语种语音数据的语音数据段。

具体的，上述的目标语音数据段，可以是符合目标语音数据段定义的单个的语音数据段，也可以是由多个连续的语音数据段拼接构成的符合目标语音数据段定义的语音数据段。

其中，上述的包含非指定语种语音数据的语音数据段，可以是只包含非指定语种语音数据的语音数据段，也可以是既包含非指定语种语音数据，又包含指定语种语音数据的语音数据段。

可以理解，当分别确定待检测语音数据中的各个语音数据段的语种后，可以从待检测语音数据中确定出指定语种的语音数据段，或者是包含非指定语种语音数据的语音数据段。

例如，将连续的指定语种的语音数据段进行合并，即可得到指定语种的目标语音数据段；或者，将连续的非指定语种的语音数据段进行合并，即可得到非指定语种的目标语音数据段。

本申请实施例上述的语种检测方法，可以用于从待检测语音数据中确定出包含指定语种语音数据以及非指定语种语音数据的混合语种语音数据段，也就是可以从待检测语音数据中确定出包含非指定语种的语音数据的目标语音数据段，此时该包含非指定语种的语音数据的目标语音数据段，特指既包含非指定语种的语音数据，又包含指定语种的语音数据的语音数据段。

当上述的目标语音数据段为包含非指定语种语音数据的语音数据段时，本申请实施例上述的根据所述各个语音数据段的语种，从所述待检测语音数据中确定出目标语音数据段，包括：

根据所述各个语音数据段的语种，从所述待检测语音数据中检测连续的非指定语种的语音数据段；

基于检测到的各个连续的非指定语种的语音数据段，从所述待检测语音数据中确定出目标语音数据段。

可以理解的是，基于S103确定的非指定语种可能准确度不够，可能实际上并不是真正包含了非指定语种，为了进一步确定出是否真的是非指定语种，还可以先确定出目标语音数据段，再基于目标语音数据段进一步进行判断。

具体的，基于上述的对各个语音数据段的语种识别，根据各个语音数据段的语种识别结果，从待检测语音数据中检测连续的非指定语种的语音数据段，并将检测到的连续的非指定语种的语音数据段进行合并，即可得到包含非指定语种语音数据的语音数据段，即目标语音数据段。

例如，假设通过将每个语音数据段的语种表征特征w_n与指定语种的语种表征特征w进行相似度比对，得到各个语音数据段的语种与指定语种的相似度得分score_n，该得分与指定语种判别阈值T₁进行对比，即可判断语音数据段的语种是否为指定语种，例如，当score_n≥T₁时，可以确定语音数据段为指定语种；当score_n＜T₁时，可以确定语音数据段为非指定语种。根据上述设定，从待检测语音数据中的第一个语音数据段开始，依次遍历每个语音数据段，当某个语音数据段的score_n＜T₁时，将该语音数据段的起始位置记为IndexS，然后，当继续遍历到某个语音数据段时，如果该语音数据段的score_n≥T₁，则将该语音数据段的结束位置记为IndexE，则IndexS和IndexE之间的连续语音数据段构成的整体语音数据段，即为包含非指定语种语音数据的目标语音数据段。

进一步的，当按照本申请上述实施例介绍，从待检测语音数据中检测出包含非目标语种语音数据的目标语音数据段后，本申请上述的语种检测方法还包括：

至少根据所述目标语音数据段的声学特征，识别所述目标语音数据段中的非指定语种片段。

其中，所述非指定语种片段，是指包含非指定语种语音数据的数据片段，该非指定语种片段，是在目标语音数据段内部所包含的、更小粒度的包含非指定语种语音数据的数据片段，可以是只包含非指定语种语音数据的数据片段，也可以是既包含指定语种语音数据，又包含非指定语种语音数据的数据片段。可以认为，上述的从目标语音数据段中确定出非指定语种片段，是指从目标语音数据段中，更进一步地精确地确定出其中包含的非指定语种片段。

示例性的，通过对目标语音数据段进行更小粒度的语种识别，可以更精确地确定各个更小粒度的语音片段的语种，进而可以该目标语音数据段中确定出非指定语种片段，当然还可以确定出指定语种片段。

上述的从目标语音数据段中识别非指定语种片段的过程，本质上是从目标语音数据段中更精确地定位包含非指定语种语音数据的数据片段的过程。

作为一种可选的实现方式，上述的至少根据所述目标语音数据段的声学特征，识别所述目标语音数据段中的非指定语种片段，具体可以通过如下方式实现：

首先，根据所述目标语音数据段的声学特征，确定所述目标语音数据段中的各个语音片段的语种表征特征。

示例性的，上述的各个语音片段，可以是按照任意方式划分的、任意长度的语音片段。作为优选的实现方式，可以将目标语音数据段中的各个语音帧分别作为语音片段。

基于上述的语音片段划分，本申请实施例根据目标语音数据段的声学特征，确定各个语音片段的语种表征特征。

示例性的，提取目标语音数据段的瓶颈特征作为该目标语音数据段的声学特征，然后将该目标语音数据段的声学特征通过上述实施例介绍的正交化投影空间进行映射，得到低维的声学特征，作为该目标语音数据段的语种表征特征。进而，从该目标语音数据段的语种表征特征中，提取出各个语音片段的语种表针特征。

或者，提取目标语音数据段的声学特征后，从中提取出各个语音片段的声学特征。然后，基于上述的正交化投影空间，分别将各个语音片段的声学特征映射为低维的声学特征，作为语音片段的语种表征特征。

在分别获取各个语音片段的语种表征特征后，根据所述各个语音片段的语种表征特征，以及预先确定的指定语种的语种表征特征，识别所述目标语音数据段中的非指定语种片段。

具体的，将各个语音片段的语种表征特征，分别与预先确定的指定语种的语种表征特征进行对比，根据各个语音片段的语种表征特征与指定语种的语种表征特征的相似度，即可确定各个语音片段的语种。

此时，可以从目标语音数据段中分别确定出各个非指定语种的语音片段，例如可以确定出各个非指定语种的语音帧。

或者，在分别确定各个语音片段的语种的基础上，将连续的相同语种的语音片段进行合并，可以得到包含指定语种的语音片段，或者包含非指定语种的语音片段。

例如，根据目标语音数据段中的各个语音帧的语种，将连续的相同语种的语音帧进行合并，即可得到各个不同语种的语音片段，此时可以从目标语音数据中确定出非指定语种片段。

作为另一种可选的实现方式，参见图3所示，通过执行步骤S304，根据各个语音数据段的语种，从所述待检测语音数据中检测出包含非指定语种语音数据的目标语音数据段后，上述的至少根据所述目标语音数据段的声学特征，识别所述目标语音数据段中的非指定语种片段，具体包括：

S305、根据所述目标语音数据段的声学特征，确定所述目标语音数据段中的各个语种转折点。

其中，所述语种转折点两侧的语音数据的语种分别为所述指定语种和所述非指定语种。

具体的，基于上述的从目标语音数据段中确定出包含非指定语种语音数据的语种片段的目的，本申请实施例直接从目标语音数据段中识别指定语种语音数据段和非指定语种语音数据段。

可以理解，如果能够确定目标语音数据段中的指定语种的语音数据和非指定语种的语音数据之间的转折点，即可确定各个指定语种语音数据片段和非指定语种语音数据片段。

因此，本申请实施例以目标语音数据段的声学特征为依据，从目标语音数据段中检测指定语种语音数据和非指定语种语音数据之间的语种转折点。

作为一种示例性的实现方式，本申请实施例预先训练语种转折点预测模型，该语种转折点预测模型至少通过根据语音数据样本的声学特征，预测语音数据样本中的指定语种语音数据和非指定语种语音数据之间的转折点训练得到。经过上述训练，该语种转折点预测模型可以准确地从语音数据中预测出指定语种语音数据和非指定语种语音数据之间的转折点。

作为可选的实现方式，本申请实施例通过对深度神经网络(Deep NeuralNetworks，DNN)进行上述训练构建语种转折点预测模型。

将上述的目标语音数据的声学特征输入上述的语种转折点预测模型，即可从目标语音数据段中检测出各个语种转折点。

例如，将从待检测语音数据中提取出的IndexS和IndexE之间的语音数据段的声学特征，输入上述的语种转折点预测模型，得到其中的各个语种转折点a₁,a₂,...,a_z，其中，z表示预测到的语种转折点数量。

S306、分别获取每两个相邻语种转折点之间的语音片段的语种表征特征。

具体的，在分别确定目标语音数据段中的各个语种转折点后，每两个相邻的语种转折点之间的语音数据构成一个语音片段，例如，[IndexS,a₁],[a₁,a₂],…,[a_z-1,a_z],[a_z,IndexE]。因此，基于上述的各个语种转折点，可以将目标语音数据段划分为各个语音片段。

进一步的，本申请实施例分别获取上述各个语音片段的语种表征特征w_m,m＝1,2,...,z。该各个语音片段的语种表征特征的获取方式，可以参照上述实施例介绍，此处不再重复。

S307、至少根据每两个相邻语种转折点之间的语音片段的语种表征特征，识别所述目标语音数据段中的非指定语种片段。

具体的，在分别确定各个语音片段的语种表征特征后，即可以此为依据确定目标语音数据段中的非指定语种片段。

示例性的，将各个语音片段的语种表征特征w_m，与指定语种的语种表征特征w进行对比，即可判断各个语音片段的语种是指定语种还是非指定语种，进而可以从目标语音数据段中确定出非指定语种片段。

或者，根据各个语音片段的语种表征特征w_m，进行指定语种片段和非指定语种片段分类处理，也可以从目标语音数据段中确定出非指定语种片段。

其中，上述的分类处理，可以借助常规的语种分类模型或算法实现。

上述确定出的非指定语种片段，可以是单个的非指定语种语音片段，也可以是由多个连续的非指定语种语音片段构成的语音数据片段。

在本申请实施例中，上述的非指定语种片段，特指目标语音数据段中的、既包含指定语种语音片段，又包含非指定语种语音片段的混合语种数据片段。

则，基于上述的非指定语种片段检测需求，作为一种优选的实现方式，本申请实施例公开了，上述的至少根据每两个相邻语种转折点之间的语音片段的语种表征特征，识别所述目标语音数据段中的非指定语种片段，具体包括如下步骤S1～S3：

S1、获取所述目标语音数据段的语种表征特征。

具体的，利用上述的正交化投影空间，将上述目标语音数据段的声学特征映射为低维的声学特征，作为目标语音数据段的语种表征特征w_m0。

S2、根据每两个相邻语种转折点之间的语音片段的语种表征特征，以及所述目标语音数据段的语种表征特征，判断所述目标语音数据段是否符合预设规则；其中，所述预设规则是指语音数据段中的指定语种语音片段数量与非指定语种语音片段数量满足预设的数量比例要求。

由于本申请实施例从待检测语音数据中检测出的目标语音数据段，是包含非指定语种语音数据的语音数据段，则可以理解，该目标语音数据段的语种表征特征，能够表示包含非指定语种语音数据的语音数据段的语种表征特征。

如果该目标语音数据段中的某一语音片段的语种表征特征w_m，与该目标语音数据段的语种表征特征w_m0足够相似，则可以认为该语音片段是包含非指定语种语音数据的语音片段。

同时，本申请实施例设定，当上述的目标语音数据段中的指定语种语音片段数量，与包含非指定语种语音数据的语音片段的数量满足预设的数量比例要求，作为判断目标语音数据段是否为真正的包含非指定语种语音数据的语音数据段的预设规则。当目标语音数据段符合该预设规则时，认为该目标语音数据段是真正的包含非指定语种语音数据的语音数据段。当目标语音数据段不符合该预设规则时，可以认为该目标语音数据段不包含非指定语种语音数据。

基于上述思想，本申请实施例将目标语音数据段中的每个语音片段的语种表征特征w_m，与该目标语音数据段的语种表征特征w_m0进行对比，并依据对比结果判断指定语种语音片段数量，与包含非指定语种语音数据的语音片段的数量是否满足预设的数量比例要求，如果满足，则认为该目标语音数据段是真正的包含非指定语种语音数据的语音数据段，即目标语音数据段检测结果正确；否则，认为该目标语音数据段不是真正的包含非指定语种语音数据的语音数据段，即初步得到的目标语音数据段检测结果实际错误。

可选的，也可以直接将上述目标语音数据段中的各个语音片段的语种表征特征w_m与指定语种的语种表征特征w进行对比，判断各个语音片段是否为包含非指定语种语音数据的语音片段，进而可以根据判断指定语种语音片段数量，与包含非指定语种语音数据的语音片段的数量是否满足预设的数量比例要求，用于确定目标语音数据段是否为真正的包含非指定语种语音数据的语音数据段。

作为一种优选的实现方式，本申请实施例按照如下步骤SS1～SS4的处理，确定上述的目标语音数据段是否为真正的包含非指定语种语音数据的语音数据段：

SS1、根据每两个相邻语种转折点之间的语音片段的语种表征特征，对所述每两个相邻语种转折点之间的语音片段进行聚类处理，得到各个语音片段组。

示例性的，对于[IndexS,a₁],[a₁,a₂],…,[a_z-1,a_z],[a_z,IndexE]这z个语音片段的语种表征特征w_m,m＝1,2,...,z进行层次聚类，得到p(1≤p≤z)个语音片段组。

SS2、分别获取各个语音片段组的语种表征特征。

示例性的，对于每个语音片段组，计算该语音片段组中的各个语音片段的语种表征特征的均值，作为该语音片段组的语种表征特征。

即，对于语音片段组p，通过

计算该语音片段组的语种表征特征w_p，其中，q表示语音片段组中的语音片段数量。

SS3、通过将各个语音片段组的语种表征特征与所述目标语音数据段的语种表征特征进行对比，确定所述目标语音数据段中的指定语种语音片段数量，以及非指定语种语音片段数量。

具体的，对目标语音数据段中的非指定语种语音片段数量和指定语种语音片段数量进行计数，分别以P和Q表示，其初始值均为0。

将步骤SS2中确定的每个语音片段组的语种表征特征w_p与目标语音数据段的语种表征特征w_m0进行相似度比对

若score_p＞T₂，则将该语音片段组中的语音片段数量累加到非指定语种语音片段数量P上；

否则，将该语音片段组中的语音片段数量累加到指定语种语音片段数量Q上。

其中，上述T₂为预先设定的相似度阈值。

SS4、根据所述指定语种语音片段数量Q，以及所述非指定语种语音片段数量P，判断所述目标语音数据段是否符合预设规则。

示例性的，若

则认为该目标语音数据段是包含非指定语种语音数据的语音数据段；否则，认为该目标语音数据段不是包含非指定语种语音数据的语音数据段。

其中，上述T₃为预先确定的比例阈值，在本申请实施例中，T₃的取值为200％。

如果经过上述判断，确定目标语音数据段不是包含非指定语种语音数据的数据段，则可以认为上述的待检测语音数据中不包含非指定语种语音数据。

S3、如果所述目标语音数据段符合预设规则，则根据所述目标语音数据段中的各个语种转折点，从所述目标语音数据段中确定出非指定语种片段。

具体的，当确认上述的目标语音数据段符合预设规则时，也就是确定上述的目标语音数据段是真正的包含非指定语种语音数据的语音数据段时，基于目标语音数据段中的各个语种转折点，确定出目标语音数据段中的非指定语种片段。

示例性的，对于目标语音数据段中的各个语种转折点a₁,a₂,...,a_z，将其中相邻的语种转折点之间的语音数据长度小于设定的语音数据长度阈值的语种转折点确定为虚假语种转折点，并将虚假语种转折点从目标语音数据段中剔除。

例如，假设a₁和a₂之间的语音数据长度小于设定的语音数据长度阈值，则将a₁和a₂确定为虚假语种转折点，并将a₁和a₂从目标语音数据段中剔除。

经过上述的虚假语种转折点剔除后，将目标语音数据段中剩余的语种转折点中的第一个语种转折点确定为非指定语种片段的起始位置，同时将最后一个语种转折点确定为非指定语种片段的结束位置，即可从目标语音数据段中确定出非指定语种片段。

例如，将a₁和a₂从目标语音数据段中剔除后，将a₃作为非指定语种片段的起始位置，将a_z作为非指定语种片段的结束位置，a₃和a_z之间的语音数据片段，即为即包含指定语种语音片段，又包含非指定语种语音片段的非指定语种语种片段。

图3中的步骤S301～S302分别对应图1所示的方法实施例中的步骤S101～S103，其具体处理内容请参见图1所示的方法实施例的内容，此处不再赘述。

与上述的语种检测方法相对应的，本申请实施例还提出一种语种检测装置，参见图4所示，该装置包括：

特征获取单元100，用于获取待检测语音数据的各个语音数据段的声学特征；

特征处理单元110，用于基于预先构建的正交化投影空间，分别将所述各个语音数据段的声学特征映射为语种表征特征；其中，所述正交化投影空间中的指定语种的投影空间与非指定语种的投影空间不重叠；

语种检测单元120，用于根据所述各个语音数据段的语种表征特征，确定所述各个语音数据段的语种为指定语种或非指定语种。

本申请实施例提出的语种检测装置，在获取待检测语音数据的各个语音数据段的声学特征后，基于预先构建的正交化投影空间，分别将各个语音数据段的声学特征映射为语种表征特征；进而，根据各个语音数据段的语种表征特征，确定所述各个语音数据段的语种为指定语种或非指定语种。该装置通过提取待检测语音数据中的各个语音数据段的语种表征特征，来识别各个语音数据段的语种为指定语种或非指定语种。当待检测语音数据为包含混合语种的语音数据时，通过上述的对待检测语音数据的各个语音数据段的语种识别，可以从待检测语音数据中检测出不同语种的语音数据段，从而能够解决多语种混合语音数据的语种识别问题。

进一步的，本申请上述方案中所应用的正交化投影空间中的指定语种的投影空间与非指定语种的投影空间不重叠。基于该正交化投影空间获取语音数据段的语种表征特征，可以使指定语种的语种表征特征与非指定语种的语种表征特征之间不存在重叠或混合，也就是使指定语种和非指定语种的语种信息的区分性更强，从而更有利于根据语种表征特征区分指定语种和非指定语种。因此，本申请实施例提出的语种检测装置能够更加准确地从语音数据中区分出指定语种语音数据和非指定语种语音数据，能够更加准确地从多语种混合的语音数据中检测出包含不同语种的语音数据段。

作为一种可选的实现方式，所述正交化投影空间的构建过程，包括：

分别获取指定语种的全变量投影空间，以及非指定语种的全变量投影空间；

根据所述指定语种的全变量投影空间和所述非指定语种的全变量投影空间，构建正交化投影空间。

作为一种可选的实现方式，所述根据所述指定语种的全变量投影空间和所述非指定语种的全变量投影空间，构建正交化投影空间，包括：

通过对所述指定语种的全变量投影空间和所述非指定语种的全变量投影空间进行正交化处理，获取所述非指定语种的子投影空间；其中，所述非指定语种的子投影空间，是与所述指定语种的全变量投影空间相互正交的投影空间；

对所述指定语种的全变量投影空间，以及所述非指定语种的子投影空间进行拼接，得到正交化投影空间。

作为一种可选的实现方式，所述通过对所述指定语种的全变量投影空间和所述非指定语种的全变量投影空间进行正交化处理，获取所述非指定语种的子投影空间，包括：

通过对所述指定语种的全变量投影空间的协方差矩阵进行特征分解处理，得到所述指定语种的全变量投影空间的正交基；

将所述非指定语种的全变量投影空间在所述全变量投影空间的正交基上进行均方估计处理，得到所述非指定语种的估计投影空间；

计算所述非指定语种的全变量投影空间和所述非指定语种的估计投影空间的差值，作为所述非指定语种的子投影空间。

作为一种可选的实现方式，所述语种检测单元120根据所述各个语音数据段的语种表征特征，确定所述各个语音数据段的语种为指定语种或非指定语种时，具体用于：

分别将所述各个语音数据段的语种表征特征，与预先确定的指定语种的语种表征特征进行对比，确定所述各个语音数据段的语种为指定语种或非指定语种。

作为一种可选的实现方式，参见图5所示，所述装置还包括：

语音检测单元130，用于根据所述各个语音数据段的语种，从所述待检测语音数据中确定出目标语音数据段；其中，所述目标语音数据段为指定语种语音数据段，或包含非指定语种语音数据的语音数据段。

作为一种可选的实现方式，当所述目标语音数据段为包含非指定语种语音数据的语音数据段时，所述语音检测单元130根据所述各个语音数据段的语种，从所述待检测语音数据中确定出目标语音数据段时，具体用于：

作为一种可选的实现方式，当从所述待检测语音数据中确定出目标语音数据段后，所述语音检测单元130还用于：

至少根据所述目标语音数据段的声学特征，识别所述目标语音数据段中的非指定语种片段；

其中，所述非指定语种片段为包含非指定语种语音数据的数据片段。

作为一种可选的实现方式，所述至少根据所述目标语音数据段的声学特征，识别所述目标语音数据段中的非指定语种片段，包括：

根据所述目标语音数据段的声学特征，获取所述目标语音数据段中的各个语音片段的语种表征特征；

根据所述各个语音片段的语种表征特征，以及预先确定的指定语种的语种表征特征，识别所述目标语音数据段中的非指定语种片段。

根据所述目标语音数据段的声学特征，确定所述目标语音数据段中的各个语种转折点；其中，所述语种转折点两侧的语音数据的语种分别为所述指定语种和所述非指定语种；

分别获取每两个相邻语种转折点之间的语音片段的语种表征特征；

至少根据每两个相邻语种转折点之间的语音片段的语种表征特征，识别所述目标语音数据段中的非指定语种片段。

作为一种可选的实现方式，所述根据所述目标语音数据段的声学特征，确定所述目标语音数据段中的各个语种转折点，包括：

将所述目标语音数据段的声学特征，输入预先训练的语种转折点预测模型，得到所述目标语音数据段中的各个语种转折点；

其中，所述语种转折点预测模型，至少通过根据语音数据样本的声学特征，预测所述语音数据样本中的指定语种语音数据和非指定语种语音数据之间的转折点训练得到。

作为一种可选的实现方式，所述至少根据每两个相邻语种转折点之间的语音片段的语种表征特征，识别所述目标语音数据段中的非指定语种片段，包括：

获取所述目标语音数据段的语种表征特征；

根据每两个相邻语种转折点之间的语音片段的语种表征特征，以及所述目标语音数据段的语种表征特征，判断所述目标语音数据段是否符合预设规则；其中，所述预设规则是指语音数据段中的指定语种语音片段数量与非指定语种语音片段数量满足预设的数量比例要求；

如果所述目标语音数据段符合预设规则，则根据所述目标语音数据段中的各个语种转折点，从所述目标语音数据段中确定出非指定语种片段。

作为一种可选的实现方式，所述根据每两个相邻语种转折点之间的语音片段的语种表征特征，以及所述目标语音数据段的语种表征特征，判断所述目标语音数据段是否符合预设规则，包括：

根据每两个相邻语种转折点之间的语音片段的语种表征特征，对所述每两个相邻语种转折点之间的语音片段进行聚类处理，得到各个语音片段组；

分别获取各个语音片段组的语种表征特征；

通过将各个语音片段组的语种表征特征与所述目标语音数据段的语种表征特征进行对比，确定所述目标语音数据段中的指定语种语音片段数量，以及非指定语种语音片段数量；

根据所述指定语种语音片段数量，以及所述非指定语种语音片段数量，判断所述目标语音数据段是否符合预设规则。

作为一种可选的实现方式，所述根据各个语种转折点，确定所述目标语音数据段中的非指定语种片段，包括：

通过将所述目标语音数据段中的第一个语种转折点确定为非指定语种片段的起始位置，以及将所述目标语音数据段中的最后一个语种转折点确定为非指定语种片段的结束位置，从所述目标语音数据段中确定出非指定语种片段。

作为一种可选的实现方式，在根据所述目标语音数据段中的各个语种转折点，从所述目标语音数据段中确定出非指定语种片段之前，所述语音检测单元130还用于：

分别确定每两个相邻语种转折点之间的语音数据长度；

如果任意两个相邻的语种转折点之间的语音数据长度小于设定的语音数据长度阈值，则将该两个相邻的语种转折点剔除。

具体的，上述语种检测装置的各个单元的具体工作内容，请参见上述方法实施例的内容，此处不再赘述。

本申请实施例还提出一种语种检测设备，参见图6所示，该设备包括：

存储器200和处理器210；

其中，所述存储器200与所述处理器210连接，用于存储程序；

所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的语种检测方法。

具体的，上述目标检测结果的评测设备还可以包括：总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器210可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器，还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器2102执行存储器200中所存放的程序，以及调用其他设备，可用于实现本申请实施例所提供的语种检测方法的各个步骤。

本申请另一实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时，实现上述任一实施例提供的语种检测方法的各个步骤。

上述的语种检测设备的各个部分的具体工作内容，以及上述的存储介质中的计算机程序被处理器运行时的具体处理内容，均可参见本申请上述方法实施例的内容，此处不再重复。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语种检测方法，其特征在于，包括：

获取待检测语音数据的各个语音数据段的声学特征；

2.根据权利要求1所述的方法，其特征在于，所述正交化投影空间的构建过程，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述指定语种的全变量投影空间和所述非指定语种的全变量投影空间，构建正交化投影空间，包括：

4.根据权利要求3所述的方法，其特征在于，所述通过对所述指定语种的全变量投影空间和所述非指定语种的全变量投影空间进行正交化处理，获取所述非指定语种的子投影空间，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述各个语音数据段的语种表征特征，确定所述各个语音数据段的语种为指定语种或非指定语种，包括：

6.根据权利要求1所述的方法，其特征在于，还包括：

根据所述各个语音数据段的语种，从所述待检测语音数据中确定出目标语音数据段；其中，所述目标语音数据段为指定语种语音数据段，或包含非指定语种语音数据的语音数据段。

7.根据权利要求6所述的方法，其特征在于，当所述目标语音数据段为包含非指定语种语音数据的语音数据段时，所述根据所述各个语音数据段的语种，从所述待检测语音数据中确定出目标语音数据段，包括：

8.根据权利要求7所述的方法，其特征在于，当从所述待检测语音数据中确定出目标语音数据段后，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述至少根据所述目标语音数据段的声学特征，识别所述目标语音数据段中的非指定语种片段，包括：

10.根据权利要求9所述的方法，其特征在于，所述至少根据每两个相邻语种转折点之间的语音片段的语种表征特征，识别所述目标语音数据段中的非指定语种片段，包括：

获取所述目标语音数据段的语种表征特征；

11.根据权利要求10所述的方法，其特征在于，所述根据每两个相邻语种转折点之间的语音片段的语种表征特征，以及所述目标语音数据段的语种表征特征，判断所述目标语音数据段是否符合预设规则，包括：

分别获取各个语音片段组的语种表征特征；

12.一种语种检测装置，其特征在于，包括：

13.一种语种检测设备，其特征在于，包括：

存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现如权利要求1至11中任一项所述的语种检测方法。

14.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至11中任一项所述的语种检测方法。