CN110491375B

CN110491375B - 一种目标语种检测的方法和装置

Info

Publication number: CN110491375B
Application number: CN201910780178.5A
Authority: CN
Inventors: 阿里木·赛买提; 褚繁; 李晋; 方昕; 柳林; 卡哈尔·卡迪尔; 段雪明; 彭小露
Original assignee: Xinjiang Iflytek Information Technology Co ltd
Current assignee: Xinjiang Shenggu Rongchuang Digital Industry Development Co ltd
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2022-02-01
Anticipated expiration: 2039-08-22
Also published as: CN110491375A

Abstract

本申请公开了一种目标语种检测的方法和装置，该方法包括：将待识别语音数据的语种特征切分为多个语种特征段；针对每个语种特征段，利用多语种分类模型获得每一帧的C维语种得分向量，将每一帧的C维语种得分向量中目标语种与各个其他语种的得分差平均值、得分差中位值或得分差最小值组成向量α；比较每个向量α与全1向量β的相似度和相似度阈值，确定待识别语音数据是否包括目标语种。切分获得较短的语种特征段输入多语种分类模型，获得准确稳定的每一帧的C维语种得分向量，各帧目标语种与各个其他语种的得分差平均值、得分差中位值或得分差最小值形成向量α，其与全1向量β的相似度和相似度阈值，衡量语种特征段是否包括目标语种。

Description

一种目标语种检测的方法和装置

技术领域

本申请涉及语音数据处理技术领域，尤其涉及一种目标语种检测的方法和装置。

背景技术

随着智能识别技术的快速发展，语种识别技术越来越受到人们的关注。某些应用场景下，一段语音数据包括多个不同语种，即，多个不同语种混合在同一语音数据中；面对检测该语音数据是否包括目标语种的需求，语种识别技术的性能至关重要。

目前，语种识别方法主要是基于全变量因子分析技术，具体地，提取待识别语音数据中反映语种信息的语种特征；通过前向-后向算法(Baum-Welch算法)按时序计算每帧待识别语音数据的语种特征在混合高斯模型每个高斯成分中的后验占有率；利用预先训练的全变量空间进行线性投影获得待识别语音数据的语种向量；基于该语种向量与各类语种的语种标准向量的相似度确定待识别语音数据的语种类别。

但是，采用上述语种识别方法，当待识别语音数据包括多个不同语种时，获得的语种向量仅仅表征整个待识别语音数据的语种信息，仅基于该语种向量与各类语种的语种标准向量的相似度，识别整个待识别语音数据的类别，导致语种识别不准确、不稳定，从而无法准确稳定地检测待识别语音数据是否包括目标语种。

发明内容

本申请所要解决的技术问题是，提供一种目标语种检测的方法和装置，能够准确稳定地检测待识别语音数据是否包括目标语种。

第一方面，本申请实施例提供了一种目标语种检测的方法，该方法包括：

切分待识别语音数据的语种特征，获得多个语种特征段；

将每个所述语种特征段输入多语种分类模型，获得每个所述语种特征段每一帧的C维语种得分向量；

针对每个所述语种特征段，获得所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值组成向量α，所述得分差统计值包括得分差平均值、得分差中位值或得分差最小值；

基于每个所述向量α与全1向量β的相似度和相似度阈值，确定所述待识别语音数据是否包括所述目标语种。

可选的，所述切分待识别语音数据的语种特征，获得多个语种特征段，具体为：

基于预设窗长L和预设窗移S切分所述待识别语音数据的语种特征，获得多个L帧语种特征段，S＜L。

可选的，所述针对每个所述语种特征段，获得所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差平均值组成向量α，包括：

针对每个所述语种特征段，基于所述每一帧的C维语种得分向量中目标语种得分与各个其他语种得分，获得所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值；

将所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值按照帧顺序组成所述向量α。

可选的，所述基于每个所述向量α与全1向量β的相似度和相似度阈值，确定所述待识别语音数据是否包括所述目标语种，包括：

若至少一个所述向量α与全1向量β的相似度大于等于所述相似度阈值，确定所述待识别语音数据包括目标语种；

若各个所述向量α与全1向量β的相似度均小于所述相似度阈值，确定所述待识别语音数据不包括目标语种。

可选的，还包括：

若至少一个所述向量α与全1向量β的相似度大于等于所述相似度阈值，将所述至少一个所述向量α对应的语种特征段确定为目标语种特征段；

基于所述目标语种特征段的切分信息，确定所述目标语种在所述待识别语音数据的位置。

可选的，当待识别语音数据包括多个目标语种特征段，所述切分信息为切分起止边界时，所述基于所述目标语种特征段的切分信息，确定所述目标语种在所述待识别语音数据的位置，具体为：

若多个所述目标语种特征段中至少两个所述目标语种特征段对应的切分起止边界重叠，基于多个所述目标语种特征段对应的切分起止边界，合并至少两个所述目标语种特征段对应的切分起止边界，确定所述目标语种在所述待识别语音数据的位置。

可选的，所述多语种分类模型训练步骤，包括：

基于C个不同语种的训练语音数据，获得每个所述训练语音数据的语种特征和对应的C维语种标签，C为正整数，C≥2，所述C维语种标签中每一维表示一个语种；

基于每个所述训练语音数据的语种特征和对应的C维语种标签，训练循环神经网络获得多语种分类模型。

可选的，所述基于每个所述训练语音数据的语种特征和对应的C维语种标签，训练循环神经网络获得多语种分类模型，包括：

将每个所述训练语音数据的语种特征输入所述循环神经网络获得每个所述训练语音数据的语种特征每一帧的C维预测语种得分向量；

针对每个所述训练语音数据的语种特征，将各帧的C维预测语种得分向量进行帧平均处理，获得每个所述训练语音数据的语种特征的C维预测语种标签；

基于每个C维预测语种标签和对应的所述C维语种标签，获得所述循环神经网络的损失函数；

基于所述循环神经网络的损失函数更新所述循环神经网络的网络参数，获得所述多语种分类模型。

可选的，所述语种特征为瓶颈特征，所述瓶颈特征是通过瓶颈特征提取模型获得的；所述瓶颈特征提取模型是基于语音数据的底层声学特征和音素状态训练包括瓶颈层的深度神经网络获得的。

第二方面，本申请实施例提供了一种目标语种检测的装置，该装置包括：

语种特征段获得单元，用于切分待识别语音数据的语种特征，获得多个语种特征段；

C维语种得分向量获得单元，用于将每个所述语种特征段输入多语种分类模型，获得每个所述语种特征段每一帧的C维语种得分向量；

向量α获得单元，用于针对每个所述语种特征段，获得所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值组成向量α，所述得分差统计值包括得分差平均值、得分差中位值或得分差最小值；

目标语种确定单元，用于基于每个所述向量α与全1向量β的相似度和相似度阈值，确定所述待识别语音数据是否包括所述目标语种。

可选的，所述语种特征段获得单元，具体用于：

可选的，所述向量α获得单元，包括：

得分差获得子单元，用于针对每个所述语种特征段，基于所述每一帧的C维语种得分向量中目标语种得分与各个其他语种得分，获得所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值；

向量α获得子单元，用于将所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值按照帧顺序组成所述向量α。

可选的，所述目标语种确定单元，包括：

第一确定子单元，用于若至少一个所述向量α与全1向量β的相似度大于等于所述相似度阈值，确定所述待识别语音数据包括目标语种；

第二确定子单元，用于若各个所述向量α与全1向量β的相似度均小于所述相似度阈值，确定所述待识别语音数据不包括目标语种。

可选的，所述装置还包括：

目标语种特征段确定单元，用于若至少一个所述向量α与全1向量β的相似度大于等于所述相似度阈值，将所述至少一个所述向量α对应的语种特征段确定为目标语种特征段；

目标语种位置确定单元，用于基于所述目标语种特征段的切分信息，确定所述目标语种在所述待识别语音数据的位置。

可选的，当待识别语音数据包括多个目标语种特征段，所述切分信息为切分起止边界时，则所述目标语种位置确定单元，具体用于：

可选的，所述装置还包括多语种分类模型训练单元，所述多语种分类模型训练单元，包括：

获得子单元，用于基于C个不同语种的训练语音数据，获得每个所述训练语音数据的语种特征和对应的C维语种标签，C为正整数，C≥2，所述C维语种标签中每一维表示一个语种；

训练子单元，用于基于每个所述训练语音数据的语种特征和对应的C维语种标签，训练循环神经网络获得多语种分类模型。

可选的，所述训练子单元，包括：

C维预测语种得分向量获得模块，用于将每个所述训练语音数据的语种特征输入所述循环神经网络获得每个所述训练语音数据的语种特征每一帧的C维预测语种得分向量；

C维预测语种标签获得模块，用于针对每个所述训练语音数据的语种特征，将各帧的C维预测语种得分向量进行帧平均处理，获得每个所述训练语音数据的语种特征的C维预测语种标签；

损失函数获得模块，用于基于每个C维预测语种标签和对应的所述C维语种标签，获得所述循环神经网络的损失函数；

多语种分类模型获得模块，用于基于所述循环神经网络的损失函数更新所述循环神经网络的网络参数，获得所述多语种分类模型。

与现有技术相比，本申请至少具有以下优点：

采用本申请实施例的技术方案，首先，将待识别语音数据的语种特征切分为多个语种特征段；然后，利用多语种分类模型获得每个语种特征段每一帧的C维语种得分向量；其次，对于每个语种特征段而言，将其每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值组成向量α，得分差统计值为得分差平均值、得分差中位值或得分差最小值；最后，比较每个向量α与全1向量β的相似度和相似度阈值，确定待识别语音数据是否包括目标语种。由此可见，以切分语种特征方式产生包括一种语种的语种特征段，语种特征段输入多语种分类模型获得更为准确稳定的每一帧的C维语种得分向量，采用各帧目标语种与各个其他语种的得分差平均值、得分差中位值或得分差最小值组成向量α，通过其与全1向量β的相似度和相似度阈值比较，衡量语种特征段是否包括目标语种，从而能够准确稳定地检测待识别语音数据是否包括目标语种。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例中一种应用场景所涉及的系统框架示意图；

图2为本申请实施例提供的一种目标语种检测的方法的流程示意图；

图3为本申请实施例提供的一种待识别语音数据的语种特征切分示意图；

图4为本申请实施例提供的一种两个目标语种特征段对应的切分起止边界重叠示意图；

图5为本申请实施例提供的一种多语种分类模型训练的方法的流程示意图；

图6为本申请实施例提供的一种包括瓶颈层的深度神经网络具体结构的示意图；

图7为本申请实施例提供的一种长短期记忆网络具体结构的示意图；

图8为本申请实施例提供的一种目标语种检测的装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现阶段，语种识别方法主要是基于全变量因子分析技术，具体地，提取语音数据中反映语种信息的位移差分倒谱(英文：Shifted Delta Cepstral，缩写：SDC)特征或瓶颈(英文：BottleNeck，缩写：BN)特征等语种特征；通过Baum-Welch算法按时序计算每帧语音数据对应的语种特征在混合高斯模型的每个高斯成分的后验占有率；通过全变量空间进行线性投影获得语音数据对应的语种向量；基于该语种向量与各类语种的语种标准向量的相似度确定待识别语音数据的语种类别。

但是，发明人经过研究发现，当待识别语音数据包括多个不同语种时，面对检测该语音数据是否包括目标语种的需求，采用上述语种识别方法，其中，全变量因子分析技术获得的语种向量仅仅表征整个待识别语音数据的语种信息，仅基于该语种向量与各类语种的语种标准向量的相似度，识别整个待识别语音数据的类别，容易导致语种识别不准确、不稳定，从而无法准确稳定地检测待识别语音数据是否包括目标语种。

为了解决这一问题，在本申请实施例中，将待识别语音数据的语种特征切分为多个语种特征段；利用多语种分类模型获得每个语种特征段每一帧的C维语种得分向量；对于每个语种特征段而言，将其每一帧的C维语种得分向量中目标语种与各个其他语种的得分差平均值、得分差中位值或得分差最小值组成向量α；比较每个向量α与全1向量β的相似度和相似度阈值，确定待识别语音数据是否包括目标语种。由此可见，以切分语种特征方式产生包括一种语种的语种特征段，语种特征段输入多语种分类模型获得更为准确稳定的每一帧的C维语种得分向量，采用各帧目标语种与各个其他语种的得分差平均值、得分差中位值或得分差最小值形成向量α，通过其与全1向量β的相似度和相似度阈值比较，衡量语种特征段是否包括目标语种，从而能够准确稳定地检测待识别语音数据是否包括目标语种。

举例来说，本申请实施例的场景之一，可以是应用到如图1所示的场景中，该场景包括用户终端101和处理器102，其中，用户终端101可以是个人计算机，也可以是其它的移动终端，如手机或平板电脑等。用户在用户终端101进行操作确定待识别语音数据，由用户终端101将待识别语音数据发送至处理器102。处理器102采用本申请实施例的技术方案检测待识别语音数据，以确定待识别语音数据是否包括目标语种。

可以理解的是，在上述应用场景中，虽然将本申请实施方式的动作描述由处理器102执行，但是这些动作也可以由用户终端101执行，或者还可以部分由用户终端101执行、部分由处理器102执行。本申请在执行主体方面不受限制，只要执行了本申请实施方式所公开的动作即可。

可以理解的是，上述场景仅是本申请实施例提供的一个场景示例，本申请实施例并不限于此场景。

下面结合附图，通过实施例来详细说明本申请实施例中目标语种检测的方法和装置的具体实现方式。

示例性方法

参见图2，示出了本申请实施例中一种目标语种检测的方法的流程示意图。在本实施例中，所述方法例如可以包括以下步骤：

步骤201：切分待识别语音数据的语种特征，获得多个语种特征段。

可以理解的是，现有技术中是基于整个待识别语音数据的语种特征，获得表征整个待识别语音数据的语种信息的语种向量，由于待识别语音数据包括多个不同语种，基于该语种向量与各类语种的语种标准向量的相似度识别整个待识别语音数据的类别，容易导致语种识别不准确、不稳定，则在本申请实施例中，考虑将整个待识别语音数据的语种特征切分为多个语种特征段，以便得到包括一种语种、较短的语种特征段，尽量避免语种特征段包括不同语种。

其中，需要说明的是，常见的语音数据的语种特征为SDC特征和BN特征，由于BN特征是基于语音数据的底层声学特征和音素状态得到的语种特征，相较于SDC特征能够更好的反映不同语种区分性信息，则在本申请实施例中，语种特征为BN特征(瓶颈特征)，当然本申请实施例中并不限定语种特征必须为BN特征，语种特征也可以是SDC特征或其他语种特征。实际应用中，当语种特征为BN特征时，需要预先以语音数据的底层声学特征为输入，以语音数据的音素状态为输出，预先训练包括瓶颈层的深度神经网络，得到BN特征提取模型(瓶颈特征提取模型)，BN特征提取模型的具体内容参见下述方法实施例的说明。将待识别语音数据输入预先训练得到的BN特征提取模型，即可获得待识别语音数据的语种特征。因此，在本申请实施例一种可选的实施方式中，所述语种特征为瓶颈特征，所述瓶颈特征是通过瓶颈特征提取模型获得的；所述瓶颈特征提取模型是基于语音数据的底层声学特征和音素状态训练包括瓶颈层的深度神经网络获得的。

其中，还需要说明的是，在本申请实施例中可以利用滑窗的方式将待识别语音数据的语种特征，切分为若干段帧数大小相同的语种特征段。具体地，例如，如图3所示的一种待识别语音数据的语种特征切分示意图，预先设定窗长为L和窗移为S，窗移小于窗长，即，预设窗长为L和预设窗移为S，S＜L，利用滑窗的方式切分待识别语音数据的语种特征，切分得到的每个语种特征段的帧数等于预设窗长L，相邻两个语种特征段的起始帧相隔帧数等于预设窗移S；预先设定合适的窗长和窗移进行滑窗切分，可以得到仅包括一种语种、较短的语种特征段，更加便于后续多语种分类模型的处理。因此，在本申请实施例一种可选的实施方式中，所述步骤201例如具体可以为：基于预设窗长L和预设窗移S切分所述待识别语音数据的语种特征，获得多个L帧语种特征段，S＜L。

步骤202：将每个所述语种特征段输入多语种分类模型，获得每个所述语种特征段每一帧的C维语种得分向量。

需要说明的是，在本申请实施例中，多语种分类模型是以C个不同语种的训练语音数据的语种特征为输入，以输入对应的C维语种标签为输出，预先训练循环神经网络获得的，多语种分类模型的具体训练步骤参见下述方法实施例。其中，C维语种标签实际上是一个C维语种标签向量，其每一维表示一个语种，例如，C个不同语种为中文、英语、法语三个语种，中文对应的C维语种标签为(1，0，0)，英语对应的C维语种标签为(0，1，0)，法语对应的C维语种标签为(0，0，1)。实际应用中，语种特征段输入多语种分类模型，可以得到语种特征段每一帧的C维语种得分向量，C维语种得分向量中每一维是该维表示语种的得分，例如，某个语种特征段每一帧的C维语种得分向量为(0.1，0.1，0.8)，其中，0.1表示中文的得分，0.1表示英文的得分，0.8表示法语的得分。

步骤203：针对每个所述语种特征段，获得所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值组成向量α，所述得分差统计值包括得分差平均值、得分差中位值或得分差最小值。

需要说明的是，针对每个语种特征段而言，步骤202获得的其每一帧的C维语种得分向量中每一维是该维表示语种的得分，为了检测语种特征段是否包括目标语种，首先需要明确各帧的C维语种得分向量中目标语种与各个其他语种的得分差异情况。实际应用中，针对每个语种特征段而言，需要得到每一帧的C维语种得分向量中目标语种与各个其他语种的得分差平均值、得分差中位值或得分差最小值，可称为得分差统计值，并将各帧对应的得分差统计值组成向量α。

具体地，针对每个所述语种特征段，首先，计算每一帧的C维语种得分向量中目标语种与各个其他语种的得分差；对每一帧的C维语种得分向量中目标语种与各个其他语种的得分差进行统计处理，得到每一帧的C维语种得分向量中目标语种与各个其他语种的得分差平均值、得分差中位值或得分差最小值，作为得分差统计值；最后，按照帧顺序将上述得分差统计值组成向量α，该向量α表示语种特征段中目标语种与其他语种的得分差异情况，即，语种特征段中目标语种与其他语种的差异程度。因此，在本申请实施例一种可选的实施方式中，所述步骤203例如可以包括以下步骤：

步骤A：针对每个所述语种特征段，基于所述每一帧的C维语种得分向量中目标语种得分与各个其他语种得分，获得所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值。

可以理解的是，得分差统计值可以是得分差平均值，也可以是得分差中位值，还可以是得分差最小值。其中，得分差平均值是指每一帧的C维语种得分向量中目标语种与各个其他语种的得分差的平均值；得分差中位值是指每一帧的C维语种得分向量中目标语种与各个其他语种的得分差从小到大或从大到小排列后处于中间的得分差；得分差最小值是指每一帧的C维语种得分向量中目标语种与各个其他语种的得分差中最小的得分差。

例如，语种特征段第i帧的C维语种得分向量中目标语种与各个其他语种的得分差平均值α_i的计算公式如下所示：

其中，C表示不同语种的语种数量，Score_t表示第i帧的C维语种得分向量中目标语种t得分，Score_c表示第i帧的C维语种得分向量中第c个语种(其他语种)得分。

步骤B：将所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值按照帧顺序组成所述向量α。

例如，语种特征段的帧数为L时，语种特征段利用上述步骤A至，可以获得L个目标语种与各个其他语种的得分差统计值，按照语种特征段的帧顺序，将L个目标语种与各个其他语种的得分差统计值，组成L维的向量α，以表示语种特征段中目标语种与其他语种的差异程度。

步骤204：基于每个所述向量α与全1向量β的相似度和相似度阈值，确定所述待识别语音数据是否包括所述目标语种。

可以理解的是，由于向量α表示语种特征段中目标语种与各个其他语种的差异程度，理想状态下，每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值为1，表示该语种特征段的语种类别为目标语种，即，向量α中每一维越接近于1，该语种特征段的语种类别为目标语种的可能性越大。因此，在本申请实施例中，基于向量α确定与其维度相同的全1向量β，向量α与全1向量β的相似度越大，该向量α对应的语种特征段的语种类别为目标语种的可能性越大。预先设定一个相似度作为相似度阈值，用于表示判断语种特征段的语种类别为目标语种时向量α与全1向量β的相似度最小值。待识别语音数据对应的每个语种特征段对应一个向量α，基于每个向量α与全1向量β的相似度和相似度阈值，即可确定每个向量α对应的语种特征段的语种类别是否为目标语种，从而确定待识别语音数据是否包括目标语种。

由上述说明可知，在步骤203之后，比较每个向量α与全1向量β的相似度与相似度阈值的大小，只要存在至少一个向量α与全1向量β的相似度大于等于相似度阈值，表示该至少一个向量α对应的语种特征段的语种类别为目标语种，即可确定待识别语音数据包括目标语种；反之，任何一个向量α与全1向量β的相似度均小于相似度阈值，表示各个向量α对应的语种特征段的语种类别均不为目标语种，则确定待识别语音数据不包括目标语种。因此，在本申请实施例一种可选的实施方式中，所述步骤204例如可以包括以下步骤：

步骤C：若至少一个所述向量α与全1向量β的相似度大于等于所述相似度阈值，确定所述待识别语音数据包括目标语种；

步骤D：若各个所述向量α与全1向量β的相似度均小于所述相似度阈值，确定所述待识别语音数据不包括目标语种。

需要说明的是，由于待识别语音数据包括不同语种，语种特征段是基于待识别语音数据的语种特征切分得到的，设置相似度阈值可以极大程度的避免某个语种特征段中包含多个不同语种但检测其语种类别为目标语种的虚假情况，有效筛除包含多个不同语种的语种特征段，提高识别语种特征段的语种类别是否为目标语种的准确率。

例如，计算向量α与全1向量β的余弦距离表示向量α与全1向量β的相似度，预先设定余弦距离阈值，向量α与全1向量β的余弦距离越大，表示向量α与全1向量β的相似度越大，向量α对应的语种特征段的语种类别为目标语种的可能性越大。因此，若各个向量α中目标向量α与全1向量β的余弦距离大于等于余弦距离阈值，确定待识别语音数据包括目标语种；若各个向量α与全1向量β的余弦距离均小于余弦距离阈值，确定待识别语音数据不包括目标语种。具体地，向量α与全1向量β的余弦距离D计算公式如下所示：

还需要说明的是，在上述步骤D确定待识别语音数据包括目标语种之后，面对确定待识别语音数据中目标语种的位置的需求，当至少一个所述向量α与全1向量β的相似度大于等于相似度阈值，该至少一个所述向量α对应的语种特征段的语种类别为目标语种首先，需要将目标向量α对应的语种特征段确定为目标语种特征段，即，目标语种特征段的语种类别为目标语种；然后，利用目标语种特征段的切分信息确定其在待识别语音数据的位置，即可确定待识别语音数据中目标语种的位置。因此，在本申请实施例一种可选的实施方式中，在步骤D之后，例如还可以包括以下步骤：

步骤E：将所述目标向量α对应的语种特征段确定为目标语种特征段，所述目标语种特征段的语种类别为所述目标语种；

步骤F：基于所述目标语种特征段的切分信息，确定所述目标语种在所述待识别语音数据的位置。

其中，需要说明的是，当至少一个向量α为多个时，即，各个向量α中多个向量α与全1向量β的相似度大于等于相似度阈值，则待识别语音数据包括多个目标语种特征段，此情况下需要综合多个所述目标语种特征段的切分信息，确定目标语种在待识别语音数据的位置；当然，待识别语音数据仅包括一个目标语种特征段，仅通过该目标语种特征段的切分信息，即可确定目标语种在待识别语音数据的位置。其中，目标语种特征段的切分信息例如可以为目标语种特征段对应的切分起止边界。因此，在本申请实施例一种可选的实施方式中，若待识别语音数据包括多个目标语种特征段，所述步骤F例如具体可以为：基于多个所述目标语种特征段对应的切分起止边界，确定所述目标语种在所述待识别语音数据的位置。

其中，需要说明的是，有可能存在多个目标语种特征段对应的切分起止边界重叠的情况，此情况下需要先对重叠的切分起止边界进行合并处理，再综合确定目标语种在所述待识别语音数据的位置。因此，在本申请实施例一种可选的实施方式中，所述步骤F例如具体可以为：若多个所述目标语种特征段中至少两个所述目标语种特征段对应的切分起止边界重叠，合并至少两个所述目标语种特征段对应的切分起止边界，确定所述目标语种在所述待识别语音数据的位置。

例如，如图4所示的一种两个目标语种特征段对应的切分起止边界重叠示意图，其中，目标语种特征段1对应的切分起止边界为第a帧至第b帧，目标语种特征段2对应的切分起止边界为第c帧至第d帧，a＜c＜b，表示第a帧至第b帧与第c帧至第d帧有重叠帧，即，目标语种特征段1和目标语种特征段2对应的切分起止边界重叠，需要对第a帧至第b帧与第c帧至第d帧进行合并处理得到第a帧至至第d帧，基于目标语种特征段1和目标语种特征段2对应的合并切分起止边界第a帧至至第d帧，确定目标语种在待识别语音数据的位置。

通过本实施例提供的各种实施方式，首先，将待识别语音数据的语种特征切分为多个语种特征段；然后，利用多语种分类模型获得每个语种特征段每一帧的C维语种得分向量；其次，对于每个语种特征段而言，将其每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值组成向量α，得分差统计值为得分差平均值、得分差中位值或得分差最小值；最后，比较每个向量α与全1向量β的相似度和相似度阈值，确定待识别语音数据是否包括目标语种。由此可见，以切分语种特征方式产生包括一种语种的语种特征段，语种特征段输入多语种分类模型获得更为准确稳定的每一帧的C维语种得分向量，采用各帧目标语种与各个其他语种的得分差平均值、得分差中位值或得分差最小值组成向量α，通过其与全1向量β的相似度和相似度阈值比较，衡量语种特征段是否包括目标语种，从而能够准确稳定地检测待识别语音数据是否包括目标语种。

下面结合附图5，通过实施例来详细说明上述方法实施例中多语种分类模型训练的方法的具体实现方式。

参见图5，示出了本申请实施例中一种多语种分类模型训练的方法的流程示意图。在本实施例中，所述方法例如可以包括以下步骤：

步骤501：基于C个不同语种的训练语音数据，获得每个所述训练语音数据的语种特征和对应的C维语种标签，C为正整数，C≥2，所述C维语种标签中每一维表示一个语种。

可以理解的是，C个不同语种是指大量待识别语音数据所包括的各个不同语种，选取C个不同语种中每个语种的语音数据作为训练语音数据，每个训练语音数据仅包括一个语种。为了后续获得多语种分类模型，首先需要获得每个训练语音数据的语种特征和对应的C维语种标签。同上述方法实施例说明可知，C维语种标签实际上是一个C维语种标签向量，其每一维表示一个语种，例如，C个不同语种为中文、英语、法语三个语种，中文对应的C维语种标签为(1，0，0)，英语对应的C维语种标签为(0，1，0)，法语对应的C维语种标签为(0，0，1)。

同上述方法实施例说明可知，在本申请实施例一种可选的实施方式中，所述语种特征为瓶颈特征，所述瓶颈特征是通过瓶颈特征提取模型获得的；所述瓶颈特征提取模型是基于语音数据的底层声学特征和音素状态训练包括瓶颈层的深度神经网络获得的。

具体地，以语音数据的底层声学特征为输入，例如，语音数据的48维滤波器组特征作为输入，以语音数据的音素状态为输出，预先训练包括瓶颈层的深度神经网络，例如，如图6所示的一种包括瓶颈层的深度神经网络具体结构的示意图，其中，深度神经网络具体结构为全连接层+瓶颈层+全连接层，基于深度神经网络的损失函数更新深度神经网络的网络参数直至损失函数收敛或达到一定迭代次数，将训练完成的深度神经网络结构的具体结构中全连接层+瓶颈层作为瓶颈特征提取模型；将训练语音数据的48维滤波器组特征输入瓶颈特征提取模型，可输出训练语音数据的56维瓶颈特征。

步骤502：基于每个所述训练语音数据的语种特征和对应的C维语种标签，训练循环神经网络获得多语种分类模型。

可以理解的是，由于基于隐层循环的循环神经网络的结构，可以建立起时域和频域之间的关联关系，其对语音数据的时序结构进行建模的方法在语种识别领域中有着显著的优势，因此，在本申请实施例中，以C个不同语种的训练语音数据的语种特征为输入，以其对应的C维语种标签为输出，预先训练循环神经网络得到多语种分类模型。

需要说明的是，训练循环神经网络实际上是指基于循环神经网络的损失函数更新循环神经网络的网络参数。具体地，语种特征输入循环神经网络得到的是其每一帧的C维预测语种得分向量；帧平均处理各帧的C维预测语种得分向量，即可获得一个C维预测语种平均得分向量作为C维预测语种标签，循环神经网络的目的实际上是尽量使得C维预测语种标签接近于对应的C维语种标签；则基于C维预测语种标签和对应的C维语种标签，即可获得循环神经网络的损失函数。因此，在本申请实施例一种可选的实施方式中，所述步骤502例如可以包括以下步骤：

步骤G：将每个所述训练语音数据的语种特征输入所述循环神经网络获得每个所述训练语音数据的语种特征每一帧的C维预测语种得分向量；

步骤H：针对每个所述训练语音数据的语种特征，将各帧的C维预测语种得分向量进行帧平均处理，获得每个所述训练语音数据的语种特征的C维预测语种标签；

步骤I：基于每个C维预测语种标签和对应的所述C维语种标签，获得所述循环神经网络的损失函数；

步骤J：基于所述循环神经网络的损失函数更新所述循环神经网络的网络参数，获得所述多语种分类模型。

需要说明的是，当语音数据的时长较短时，表现语种信息的语音内容较为稀疏，在语种信息不充分的情况下，由于长短期记忆网络是一种循环神经网络，适用于处理和预测时间序列中间隔和延迟相对较长的任务，解决长期依赖的问题，可以对一段语音数据中的语种信息进行很好的表征。则在本申请实施例中，考虑通过提取语音数据的时序信息，提升语种判别的精度，以便建立更加精准稳定的模型，利用长短期记忆网络在短时语音语种判断上的优势，可以实现对较少帧数语种特征段的准确稳定预测。具体地，长短期记忆网络的网络结构是由长短期记忆层结合全连接层组成的。因此，在本申请实施例一种可选的实施方式中，所述循环神经网络为长短期记忆网络，所述长短期记忆网络包括长短期记忆层和全连接层。

例如，如图7所示的一种长短期记忆网络具体结构的示意图，其中，长短期记忆网络具体结构为3层长短期记忆层+2层全连接层，训练过程中，训练语音数据的语种特征输入3层长短期记忆层，输出获得每一帧的1024维预测语种得分向量，再输入第一层全连接层，输出获得每一帧的30维预测语种得分向量，最后输入第二层全连接层，输出获得每一帧的C维预测语种得分向量。

需要说明的是，本申请实施例中，最终对循环神经网络的训练结果应当是：语种特征输入循环神经网络得到的每一帧的C维预测语种得分向量，进行帧平均处理得到的C维预测语种标签接近对应的C维语种标签，基于两者得到循环神经网络的损失函数基本趋于稳定；即，循环神经网络的损失函数收敛时结束训练。但是，有可能存在循环神经网络迭代很多次其损失函数仍然未能收敛的情况，此时需要预先设置一个迭代次数，记为预设迭代次数，当循环神经网络的迭代次数达到预设迭代次数时结束训练。因此，在本申请实施例一种可选的实施方式中，所述循环神经网络的训练结束条件为所述循环神经网络的损失函数收敛；或，所述循环神经网络的训练结束条件为所述循环神经网络的迭代次数达到预设迭代次数。

通过本实施例提供的各种实施方式，采集C个不同语种的训练语音数据，获得每个训练语音数据的语种特征和对应的C维语种标签，C为正整数，C≥2，C维语种标签中每一维表示一个语种；以每个训练语音数据的语种特征为输入，以对应的C维语种标签输出，训练循环神经网络获得多语种分类模型。由此可见，基于训练语音数据的语种特征和对应的C维语种标签，利用循环神经网络基于其隐层循环，充分挖掘训练语音数据的时域和频域之间的关联关系，较短时长的训练语音数据也可进行充分的语种特征训练，得到更加精准稳定的多语种分类模型，针对待识别语音数据对应的帧数较少语种特征段，利用该多语种分类模型可获得的更加精准稳定的C维语种得分向量，从而提高语种识别准确性、稳定性。

示例性装置

参见图8，示出了本申请实施例中一种目标语种检测的装置的结构示意图。在本实施例中，所述装置例如具体可以包括：

语种特征段获得单元801，用于切分待识别语音数据的语种特征，获得多个语种特征段；

C维语种得分向量获得单元802，用于将每个所述语种特征段输入多语种分类模型，获得每个所述语种特征段每一帧的C维语种得分向量；

向量α获得单元803，用于针对每个所述语种特征段，获得所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值组成向量α，所述得分差统计值包括得分差平均值、得分差中位值或得分差最小值；

目标语种确定单元804，用于基于每个所述向量α与全1向量β的相似度和相似度阈值，确定所述待识别语音数据是否包括所述目标语种。

在本申请实施例一种可选的实施方式中，所述语种特征段获得单元801，具体用于：

在本申请实施例一种可选的实施方式中，所述向量α获得单元803，包括：

在本申请实施例一种可选的实施方式中，所述目标语种确定单元804，包括：

在本申请实施例一种可选的实施方式中，所述装置还包括：

在本申请实施例一种可选的实施方式中，当待识别语音数据包括多个目标语种特征段，所述切分信息为切分起止边界时，则所述目标语种位置确定单元，具体用于：

在本申请实施例一种可选的实施方式中，所述装置还包括多语种分类模型训练单元，所述多语种分类模型训练单元，包括：

在本申请实施例一种可选的实施方式中，所述训练子单元，包括：

在本申请实施例一种可选的实施方式中，所述语种特征为瓶颈特征，所述瓶颈特征是通过瓶颈特征提取模型获得的；所述瓶颈特征提取模型是基于语音数据的底层声学特征和音素状态训练包括瓶颈层的深度神经网络获得的。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上，然而并非用以限定本申请。任何熟悉本领域的技术人员，在不脱离本申请技术方案范围情况下，都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本申请技术方案的内容，依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本申请技术方案保护的范围内。

Claims

1.一种目标语种检测的方法，其特征在于，包括：

切分待识别语音数据的语种特征，获得多个语种特征段，所述待识别语音数据的语种特征对应多个语种，所述语种特征段对应一种语种；

2.根据权利要求1所述的方法，其特征在于，所述切分待识别语音数据的语种特征，获得多个语种特征段，具体为：

3.根据权利要求1所述的方法，其特征在于，所述针对每个所述语种特征段，获得所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差平均值组成向量α，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于每个所述向量α与全1向量β的相似度和相似度阈值，确定所述待识别语音数据是否包括所述目标语种，包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

6.根据权利要求5所述的方法，其特征在于，当待识别语音数据包括多个目标语种特征段，所述切分信息为切分起止边界时，所述基于所述目标语种特征段的切分信息，确定所述目标语种在所述待识别语音数据的位置，具体为：

7.根据权利要求1所述的方法，其特征在于，所述多语种分类模型训练步骤，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于每个所述训练语音数据的语种特征和对应的C维语种标签，训练循环神经网络获得多语种分类模型，包括：

9.根据权利要求1-8任一项所述的方法，其特征在于，所述语种特征为瓶颈特征，所述瓶颈特征是通过瓶颈特征提取模型获得的；所述瓶颈特征提取模型是基于语音数据的底层声学特征和音素状态训练包括瓶颈层的深度神经网络获得的。

10.一种目标语种检测的装置，其特征在于，包括：

语种特征段获得单元，用于切分待识别语音数据的语种特征，获得多个语种特征段，所述待识别语音数据的语种特征对应多个语种，所述语种特征段对应一种语种；