CN109741731B

CN109741731B - 一种语种训练数据获得方法及装置

Info

Publication number: CN109741731B
Application number: CN201910015434.1A
Authority: CN
Inventors: 袁庆升; 汪立东; 包秀国; 张鸿; 时磊; 张卫强; 邵云飞
Original assignee: Tsinghua University; National Computer Network and Information Security Management Center
Current assignee: Tsinghua University; National Computer Network and Information Security Management Center
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2020-12-29
Anticipated expiration: 2039-01-08
Also published as: CN109741731A

Abstract

本发明提供一种语种训练数据获得方法及装置，用以解决相关技术中语种训练数据质量较低的问题。该方法包括：训练用于识别各种语种的语种识别模型；使用各语种识别模型识别数据集中的第二音频数据，获得与各语种识别模型对应的得分；确定第二音频数据对应的识别语种；计算数据集中各条第二音频数据的得分信息熵；将所述数据集中，得分信息熵满足第一预设条件且实际语种与识别语种一致的第二音频数据的集合作为训练数据集，训练数据集中的第二音频数据用于训练所述语种识别模型，返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤，直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。本发明提高了语种训练数据的质量。

Description

一种语种训练数据获得方法及装置

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种语种训练数据获得方法及装置。

背景技术

语种识别模型的质量取决于用于训练该模型的训练数据的质量，然而一般情况下，训练数据中总会有一些标注错误的情况，这些数据的存在会使得训练得到的语种识别模型的描述能力较差，最终影响语种识别模型的识别性能。故如何将这些数据筛除变得非常重要。目前，语种训练数据的选择主要依靠人工检查，将标注好的训练数据进行抽检，发现标注错误率较大时，则重新对训练数据进行标注。这种方式费时费力，在数据量较大时，不可避免的会残留一些错误。

发明内容

本发明的主要目的在于提供一种语种训练数据获得方法及装置，以解决相关技术中用于训练语种识别模型的训练数据质量较低的问题。

根据本公开的第一个方面，提供了一种语种训练数据获得方法，包括：使用训练数据分别训练用于识别各种语种的语种识别模型，其中，所述训练数据中包括各种语种的第一音频数据；分别使用所述各语种识别模型识别数据集中的第二音频数据，所述第二音频数据预先标注有其所属语种，获得与各所述语种识别模型对应的得分；根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种；计算所述数据集中各条第二音频数据的得分信息熵；将所述数据集中，所述得分信息熵满足第一预设条件且实际语种与所述识别语种一致的第二音频数据的集合作为训练数据集，所述训练数据集中的第二音频数据用于训练所述语种识别模型，返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤，直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。

可选地，所述计算所述数据集中各条第二音频数据的得分信息熵，包括：使用如下公式对使用各所述语种识别模型识别所述第二音频数据得到的分数进行归一化；

其中，I为所述语种识别模型的总个数，

为第i个语种识别模型，

的上标(0)表示迭代次数，

表示使用第i个语种识别模型识别所述数据集中第j条第二音频数据的得分；

使用如下公式计算所述得分信息熵；

其中，H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵。

可选地，所述第一预设条件，包括：H(j)≤κlog I，其中，H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵，κ为预设常数，I为所述语种识别模型的总个数。

可选地，所述第二预设条件包括，当前得到的所述训练数据的数量与上一次得到的所述训练数据的数量一致。

可选地，所述根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种，包括：选择各所述语种识别模型对所述第二音频数据进行识别得到的得分中，得分最高的分数对应的语种作为所述第二音频数据的识别语种。

根据本发明的第二个方面，提供了一种语种训练数据获得装置，包括：训练模块，用于使用训练数据分别训练用于识别各种语种的语种识别模型，其中，所述训练数据中包括各种语种的第一音频数据；识别模块，用于分别使用所述各语种识别模型识别数据集中的第二音频数据，所述第二音频数据预先标注有其所属语种，获得与各所述语种识别模型对应的得分；第一确定模块，用于根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种；计算模块，用于计算所述数据集中各条第二音频数据的得分信息熵；第二确定模块，用于将所述数据集中，所述得分信息熵满足第一预设条件且实际语种与所述识别语种一致的第二音频数据的集合作为训练数据集，所述训练数据集中的第二音频数据用于训练所述语种识别模型，返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤，直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。

可选地，所述计算模块，包括：第一计算单元，用于使用如下公式对使用各所述语种识别模型识别所述第二音频数据得到的分数进行归一化；

其中，I为所述语种识别模型的总个数，

为第i个语种识别模型，

的上标(0)表示迭代次数，

表示使用第i个语种识别模型识别所述数据集中第j条第二音频数据的得分；第二计算单元，用于使用如下公式计算所述得分信息熵；

可选地，所述第一确定模块用于：选择各所述语种识别模型对所述第二音频数据进行识别得到的得分中，得分最高的分数对应的语种作为所述第二音频数据的识别语种。

本发明实施例的语种训练数据获得方法基于训练得到的语种识别模型识别训练数据，根据识别分数选取信息熵低的训练数据作为新的训练数据，用于再次训练语种识别模型，即可实现对语种训练数据的提纯，从而得到质量较高的语种训练数据。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据一示例性实施例示出的一种语种训练数据获得方法的流程图；

图2是根据一示例性实施例示出的一种语种训练数据获得方法的流程图；

图3是根据一示例性实施例示出的一种语种训练数据获得装置的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种语种训练数据获得方法，该方法可用于语种训练数据的过滤与提纯，本发明的语种训练数据用于训练语种识别模块，语种识别模型可识别音频数据对应的语种。该方法先采用训练得到的语种识别模型对训练数据进行语种识别，然后根据识别分数选取信息熵低的训练数据再次训练语种识别模型，如此迭代若干次后，即可得到较为纯正的训练集数据，再利用这些数据训练得到的语种识别模型，将能够获得较高的识别性能。

图1是根据一示例性实施例示出的一种语种训练数据获得方法的流程图，如图1所示，该方法包括如下步骤：

步骤101：使用训练数据分别训练用于识别各种语种的语种识别模型，其中，所述训练数据中包括各种语种的第一音频数据；

上述训练数据可预先标注有其所属的语种，该训练数据在一个训练数据集中。

上述语种识别模型可以是GMM(高斯混合)模型、SVM(Support Vector Machine，支持向量机)模型或i-vector模型中的任意一种。

步骤102：分别使用所述各语种识别模型识别数据集中的第二音频数据，所述第二音频数据的预先标注有其所属语种，获得与各所述语种识别模型对应的得分；

步骤102中的数据集可以与步骤101中的训练数据集为同一数据集，也可为不同的数据集。在使用各语种识别模型识别第二音频数据的语种之前，该第二音频数据预先标注有其所属语种，故，根据各语种识别模型对第二音频数据进行语种识别得到的识别结果可用于衡量数据集中音频数据的之间，例如，可识别出一些标注错误的音频数据。

步骤103：根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种；

在一种可实现方式中，所述根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种可包括：选择各所述语种识别模型对所述第二音频数据进行识别得到的得分中，得分最高的分数对应的语种作为所述第二音频数据的识别语种。例如，假设上述语种识别模型包括，汉语识别模型、英语识别模型以及法语识别模型，对于数据集中第n条第二音频数据来说，在使用该三种模型对该音频数据进行语种识别时，得到的分数依次为汉语识别模型得到的分数为6分、英语识别模型得到的分数为5分以及法语模型得到的分数为8.5分，则可认为该数据集中该第n条音频数据的语种为法语。

步骤104：计算所述数据集中各条第二音频数据的得分信息熵；

在一种可实现方式中，所述计算所述数据集中各条第二音频数据的得分信息熵可包括：

使用如下公式对使用各所述语种识别模型识别所述第二音频数据得到的分数进行归一化；

其中，I为所述语种识别模型的总个数，

为第i个语种识别模型，

的上标(0)表示迭代次数，

使用如下公式计算所述得分信息熵；

步骤105：将所述数据集中，所述得分信息熵满足第一预设条件且实际语种与所述识别语种一致的第二音频数据的集合作为训练数据集，所述训练数据集中的第二音频数据用于训练所述语种识别模型，重新执行步骤101至步骤104，直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。

在一种可实现方式中，所述第一预设条件可包括：H(j)≤κlog I，其中， H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵，κ为预设常数，I为所述语种识别模型的总个数。

在一种可实现方式中，所述第二预设条件可包括，当前得到的所述训练数据的数量与上一次得到的所述训练数据的数量一致，例如，通过不断的循环执行上述步骤101至步骤105这些步骤，直到某次重新执行完步骤101至步骤105之后，得到的训练数据的数量与上一次执行步骤101至步骤105时所得到的训练数据的数量一致时，该方法的流程结束。也即，通过不断的循环执行上述步骤101至步骤105，直至获得的训练数据的数量不再减少时，停止执行该方法的步骤。

以下结合附图2通过一个例子对本发明的语种训练数据的获得方法进行说明，该方法可在数字集成电路芯片中按以下流程实现：

步骤一：采用初始标注数据集训练基础模型，每类语种对应一个基础模型，共I个基础模型，第i个语种的模型记为

其中上标(0)表示迭代次数；

在该例子中，首先提供一个初始标注数据集，该数据集中可包括多种语种的音频数据，各音频数据可事先标注有其所属的语种。利用该初始标注数据集生成的语种识别模型可称为基础模型。

步骤二：先采用基础模型对训练数据(该训练数据可以是初始标注数据集中的训练数据)进行识别，第j条数据输入第i个语种模型得到的得分记为

步骤三：计算第j条数据的得分信息熵，计算过程如下：

采用如下公式对得分进行归一化处理：

将归一化的分数视为每个语种的概率，采用如下公式计算信息熵：

步骤四：根据信息熵进行数据选择，保留初始标注数据集中满足 H(j)≤κlogI条件以及

(语种识别分数最高的模型识别出的数据的语种)与该数据的标注标签(标注标签表明该数据所属的语种)一致的数据 (κ的取值可以为0.9，的取值可以决定步骤一至步骤四的循环执行次数)，作为新的训练集；

步骤五：采用新的训练集重复步骤一至步骤四进行下一次迭代，直到训练集数据不再减少为止。

为了便于对本发明实施例的语种训练数据的获得方法进行理解，以下结合附图2基于该方法的一种可实现方式，对该方法的整个流程进行简要说明，如图2所示，首先基于训练得到的语种识别模型识别训练数据，根据识别分数选取信息熵低的训练数据进行再次训练语种识别模型，如此循环执行该过程，即可得到较为纯正的训练集数据，再利用这些数据训练得到的语种识别模型，将能够获得较高的识别性能。该方法可以对训练集中的错误数据、垃圾数据进行有效过滤，且处理流程简单，采用该方法，可以有效提高语种模型训练的质量。

本发明的语种训练数据的获得方法的关键在于信息熵的计算，下面将举一个例子对信息熵的计算进行说明。假设一共有5个语种模型，对某一条数据进行识别得到的分数分别为-0.1、0.1、-1.2、0.8、-0.6，则归一化因子为exp(-0.1)+exp(0.1)+exp(-1.2)+exp(0.8)+exp(-0.6)＝5.085555，归一化分数为 exp(-0.1)/5.085555＝0.177923、exp(0.1)/5.085555＝0.217316、 exp(-1.2)/5.085555＝0.059225、exp(0.8)/5.085555＝0.437620、exp(-0.6)/5.085555＝0.107916，进而可得到信息熵为{0.177923log(0.177923)+0.217316log(0.217316)+0.059225log(0.059225) +0.437620log(0.437620)+0.107916log(0.107916)}＝1.408189

整个计算过程的结果如下表1所示：

表1

由于该熵值小于0.9*log5＝1.44849，如果同时满足该条数据的语种标注号 4，则这条数据应该保留，否则可从初始标注数据集中删除该条数据。

图3是根据一示例性实施例示出的一种语种训练数据获得装置的框图，如图3所示，该装置30包括：

训练模块31，用于使用训练数据分别训练用于识别各种语种的语种识别模型，其中，所述训练数据中包括各种语种的第一音频数据；

识别模块32，用于分别使用所述各语种识别模型识别数据集中的第二音频数据，所述第二音频数据预先标注有其所属语种，获得与各所述语种识别模型对应的得分；

第一确定模块33，用于根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种；

计算模块34，用于计算所述数据集中各条第二音频数据的得分信息熵；

第二确定模块35，用于将所述数据集中，所述得分信息熵满足第一预设条件且实际语种与所述识别语种一致的第二音频数据的集合作为训练数据集，所述训练数据集中的第二音频数据用于训练所述语种识别模型，返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤，直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。

在一种可实现方式中，所述计算模块34可包括：第一计算单元，用于使用如下公式对使用各所述语种识别模型识别所述第二音频数据得到的分数进行归一化；

其中，I为所述语种识别模型的总个数，

为第i个语种识别模型，

的上标(0)表示迭代次数，

在一种可实现方式中，所述第二预设条件可包括，当前得到的所述训练数据的数量与上一次得到的所述训练数据的数量一致。

在一种可实现方式中，所述第一确定模块33可用于：选择各所述语种识别模型对所述第二音频数据进行识别得到的得分中，得分最高的分数对应的语种作为所述第二音频数据的识别语种。

以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种语种训练数据获得方法，其特征在于，包括：

使用训练数据分别训练用于识别各种语种的语种识别模型，其中，所述训练数据中包括各种语种的第一音频数据；

分别使用所述各语种识别模型识别数据集中的第二音频数据，所述第二音频数据预先标注有其所属语种，获得与各所述语种识别模型对应的得分；

根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种；

计算所述数据集中各条所述第二音频数据的得分信息熵；

将所述数据集中，所述得分信息熵满足第一预设条件且实际语种与所述识别语种一致的第二音频数据的集合作为训练数据集，所述训练数据集中的第二音频数据用于训练所述语种识别模型，返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤，直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。

2.根据权利要求1所述的方法，其特征在于，所述计算所述数据集中各条所述第二音频数据的得分信息熵，包括：

其中，I为所述语种识别模型的总个数，

为第i个语种识别模型，

的上标(0)表示迭代次数，

使用如下公式计算所述得分信息熵；

3.根据权利要求1所述的方法，其特征在于，所述第一预设条件，包括：

H(j)≤κlogI，其中，H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵，κ为预设常数，I为所述语种识别模型的总个数。

4.根据权利要求1所述的方法，其特征在于，所述第二预设条件包括：当前得到的所述训练数据的数量与上一次得到的所述训练数据的数量一致。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种，包括：

选择各所述语种识别模型对所述第二音频数据进行识别得到的得分中，得分最高的分数对应的语种作为所述第二音频数据的识别语种。

6.一种语种训练数据获得装置，其特征在于，包括：

训练模块，用于使用训练数据分别训练用于识别各种语种的语种识别模型，其中，所述训练数据中包括各种语种的第一音频数据；

识别模块，用于分别使用所述各语种识别模型识别数据集中的第二音频数据，所述第二音频数据预先标注有其所属语种，获得与各所述语种识别模型对应的得分；

第一确定模块，用于根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种；

计算模块，用于计算所述数据集中各条所述第二音频数据的得分信息熵；

第二确定模块，用于将所述数据集中，所述得分信息熵满足第一预设条件且实际语种与所述识别语种一致的第二音频数据的集合作为训练数据集，所述训练数据集中的第二音频数据用于训练所述语种识别模型，返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤，直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。

7.根据权利要求6所述的装置，其特征在于，所述计算模块，包括：

第一计算单元，用于使用如下公式对使用各所述语种识别模型识别所述第二音频数据得到的分数进行归一化；

其中，I为所述语种识别模型的总个数，

为第i个语种识别模型，

的上标(0)表示迭代次数，

第二计算单元，用于使用如下公式计算所述得分信息熵；

8.根据权利要求6所述的装置，其特征在于，所述第一预设条件，包括：

9.根据权利要求6所述的装置，其特征在于，所述第二预设条件包括：当前得到的所述训练数据的数量与上一次得到的所述训练数据的数量一致。

10.根据权利要求6所述的装置，其特征在于，所述第一确定模块用于：