CN116705001A

CN116705001A - 一种蒙古语语音数据选择方法及系统

Info

Publication number: CN116705001A
Application number: CN202310483166.2A
Authority: CN
Inventors: 王洪彬; 王嘉泰; 孙佳琦; 马志强; 刘志强
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2023-09-05

Abstract

本发明公开了一种蒙古语语音数据选择方法及系统，涉及语音识别技术领域，本发明将困惑度与可信度两种选择机制优势互补，对伪标注数据的语义组合关系正确性和声学特征匹配正确性同时进行评价，解决蒙古语伪标注数据集单词语义关系正确性和音义关系正确性不能兼顾的问题，进而提升蒙古语语音识别模型半监督训练的性能。

Description

一种蒙古语语音数据选择方法及系统

技术领域

本发明涉及语音识别技术领域，更具体的说是涉及一种蒙古语语音数据选择方法及系统。

背景技术

伪标注数据选择任务是在蒙古语端到端语音识别模型半监督训练过程中按相应的伪标注选择机制得到伪标注句子集，并选出高质量伪标注句序列，与相应的无标注语音数据匹配组成蒙古语伪标注数据集的过程。伪标注选择方法通常分为两类，(1)可信度是常见的伪标注数据选择机制，词作为蒙古语端到端语音识别模型的建模单元，一般使用句级可信度选取伪标注数据。但句级可信度只能在伪标注数据和无标注数据声学特征的匹配程度方面对伪标注数据进行可靠性评价，然而选择出的部分高质量伪标注数据不符合蒙古语语法要求，包含不正确的语义组合关系；(2)困惑度也被应用于伪标注选择任务，从语义关系的正确性对伪标注数据的进行可靠性评价，选择出其中高质量伪标注数据和相应的无标注数据声学特征匹配。

但是，目前蒙古语数据集中标注的蒙古语语音数据量稀少，且分布在不同的地区。得到无标注蒙古语语音数据相对容易，只需要简单重复地大量采集即可。基于半监督学习的蒙古语语音识别是利用经过伪标注后的无标注蒙古语语音数据加强语音识别模型训练，缓解由于标注训练数据缺乏而造成语音识别模型性能不高的现象。但是在获得的伪标注数据集中的大量的识别错误会影响下一次更新训练的种子模型性能，并且训练更新次数的增加导致错误积累的问题。

因此，提出一种蒙古语语音数据选择方法及系统，解决半监督蒙古语语音识别伪标注选择任务中存在的蒙古语伪标注数据集中单词语义关系正确性和音义关系正确性不能兼顾是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种蒙古语语音数据选择方法及系统，通过语音识别模型半监督训练在标注蒙古语语音数据集D和无标注蒙古语语音数据集S上采用蒙古语语音数据选择方法寻找高质量伪标注句子集，解决半监督蒙古语语音识别伪标注选择任务中存在的蒙古语伪标注数据集中单词语义关系正确性和音义关系正确性不能兼顾的问题。为了实现上述目的，本发明采用如下技术方案：

一种蒙古语语音数据选择方法，包括：

获取标注语音数据集和无标注语音数据集；

使用标注语音数据集训练种子语音识别模型；

通过训练后的所述种子语音识别模型解码无标注语音数据集得到伪标注句子集；

通过种子语言模型计算伪标注句子集中每条伪标注句序列的困惑度值；

计算伪标注句序列中全部单词的后验概率的平均值得到可信度值；

通过伪标注句序列的可信度值和困惑度值计算得到伪标注句序列的可信困惑度分数；

设定可信困惑度临界值，让伪标注句子集通过可信困惑度数据选择机制，选择可信困惑度分数大于临界值的句序列，得到的高质量伪标注句子集；

将高质量伪标注句子集与相应的无标注语音数据进行匹配，得到蒙古语伪标注数据集。

可选的，所述获取伪标注句子集中每条伪标注句序列的困惑度值具体步骤为：

获取标注语音数据集和无标注语音数据集；

利用标注语音数据集训练得到种子语音识别模型和种子语言模型，再次将无标注语音数据集输入进种子语音识别模型，输出伪标注句子集；

利用伪标注句子集为测试数据通过种子语言模型，得到每条伪标注句序列的困惑度值。

可选的，所述获取其中每条伪标注句序列的困惑度值具体步骤为：

其中，PPL(t)为困惑度值，n代表伪标注句序列t中单词数量，w_i代表伪标注句序列中第i个位置的单词。

可选的，获取所述可信度值的具体步骤为：

其中，Confi(t)为可信度值，w_i代表伪标注句序列中第i个位置的单词，n代表伪标注句序列t的单词个数，x_i代表该位置单词的声学特征。

可选的，获取所述可信困惑度分数的具体步骤为：

其中，CP-Score(t)为可信困惑度分数，w_i代表伪标注句序列中第i个位置的单词，n代表伪标注句序列t的单词个数，x_i表示该位置单词的声学特征，/>代表伪标注句子集T中句序列的平均长度，/>表示利用指数函数将困惑度值完成平均归一化，α为权重值，对于伪标注句子集T中的一条伪标注句序列t＝w₁w_n-1w_n，其相似概率为p(t)＝P(w₁w_n-1w_n)，/>其中，M代表伪标注句子集T中句子数量，|t_j|为T中第j条伪标注句序列长度。

可选的，所述得到蒙古语伪标注数据集的具体步骤为：

标注语音数据集训练语音识别种子模型；

语音识别种子模型解码无标注语音数据集生成伪标注句子集，并通过可信困惑度选择机制得到高质量伪标注句子集；

输出高质量伪标注句子集的伪标注句序列和相应的无标注语音数据匹配组成蒙古语伪标注数据集。

可选的，一种蒙古语语音数据选择系统，包括：

数据输入模块：用于输入标注语音数据集和无标注语音数据集；

训练模块：使用标注语音数据集训练种子语音识别模型；

解码模块：通过训练后的所述种子语音识别模型解码无标注语音数据集得到伪标注句子集；

计算模块：通过种子语言模型计算伪标注句子集中每条伪标注句序列的困惑度值；计算伪标注句序列中全部单词的后验概率的平均值得到可信度值；

输出模块：通过可信困惑度伪标注选择机制选择高质量伪标注句子集，与对应的无标注语音数据配对成蒙古语伪标注数据集并输出。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种蒙古语语音数据选择方法及系统，具有如下有益效果：

本发明所述蒙古语句子可信困惑度同时使用句级可信度和困惑度从不同方面评价伪标注句序列的正确性。句级可信度是评价种子模型产生的伪标注句序列的可靠性，困惑度是评价伪标注句序列中词间语义组合关系的可靠性。因此，句子可信困惑度同时评价伪标注句序列与句中语义组合关系的可靠度，进一步得到符合语法要求的伪标注句子，进而提高蒙古语伪标注数据集的准确性。本发明解决了半监督蒙古语语音识别伪标注选择任务中存在蒙古语伪标注数据集单词语义关系正确性和音义关系正确性不能兼顾的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的结构框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种蒙古语语音数据选择方法，包括：

获取标注语音数据集和无标注语音数据集；

使用标注语音数据集训练种子语音识别模型；

本发明在半监督蒙古语语音识别的伪标注选择任务中，可信困惑度伪标注选择机制能够获得高准确性的蒙古语伪标注数据集，提升了蒙古语端到端语音识别模型的识别性能。

进一步的，在实施例1中，一种蒙古语语音数据选择方法，具体包括：

(1)蒙古语语音识别模型半监督训练的目标是在标注蒙古语语音数据集D和无标注蒙古语语音数据集S，利用标注蒙古语数据集D训练蒙古语语音识别种子模型，即SeedASR₁＝train(L)；

(2)蒙古语语音识别种子模型解码所有无标注蒙古语语音数据生成伪标注句子集T，即T＝SeedASR₁(S)，其中T＝{t₁,...,t_j,...,t_M}，t_j表示无标注蒙古语语音s_j对应的伪标注句子；

(3)句子可信困惑度选择机制选择伪标注句子集得到高质量伪标注句子集T'，即T'＝filter(T)，其中T'＝{t'₁,t'₂,K,t'_m|m≤M}，t'_m表示选择得到的高质量伪标注句序列，m表示高质量伪标注句序列的数量；高质量伪标注句子集T'的伪标注句序列和相应的无标注蒙古语语音数据S'＝{s'₁,s'₂,K,s'_m}匹配组成蒙古语伪标注数据集D'，其中D'＝(S',T')；

本发明提供一种蒙古语语音数据选择方法，来缓解标注的蒙古语音频稀少且分布地区不均衡问题，句子可信困惑度同时使用句级可信度值和困惑度值从不同方面对伪标注句序列的进行正确性评价。句级可信度是评价种子模型产生的伪标注句序列的可靠性，困惑度是评价伪标注句序列中词间语义组合关系的可靠性。因此，句子可信困惑度同时评价伪标注句序列与句中语义组合关系的可靠度，从而进一步提升蒙古语语音识别模型半监督训练的性能。

进一步的，在实施例2中，一种蒙古语语音数据选择方法中计算伪标注句序列的可信困惑度分数过程的具体步骤为：

首先，蒙古语种子语音识别模型SeedASR和种子语言模型SeedLM由标注蒙古语语音数据训练得到，无标注蒙古语语音数据集S通过种子语音识别模型SeedASR解码得到伪标注句子集T。然后，测试数据伪标注句子集T通过语言参照模型SeedLM，计算每条伪标注句序列t的困惑度值PPL(t)，可信度值Confi(t)是伪标注句序列中全部单词的后验概率的平均值。最后，利用每条伪标注句序列t的可信度值Confi(t)和困惑度值PPL(t)计算可信困惑度分数CP-Score(t)。对于伪标注句子集T中的一条伪标注句序列t＝w₁...w_n-1w_n，其相似概率为p(t)＝P(w₁...w_n-1w_n)，则t的可信度值、困惑度值和可信困惑度分数计算公式如下：

其中，w_i代表伪标注句序列中第i个位置的单词，n代表伪标注句序列t中单词个数，x_i表示该位置单词的声学特征，代表伪标注句子集T中句序列的平均长度，详细见公式(3-4)。/>表示利用指数函数将困惑度值完成平均归一化，α为权重值，取值区间为[0.5,1]。

其中，M表示伪标注句子集T中伪标注句序列数量，|t_j|为T中第j条伪标注句序列的长度。

进一步的，在实施例3中，一种蒙古语语音数据选择方法中，句子可信困惑度伪标注机制是计算伪标注句序列的可信困惑度分数，然后设置可信困惑度临界值来确定选择数据构建高质量伪标注句子集。句子可信困惑度伪标注选择算法如下所示：

进一步的，在实施例3中，一种蒙古语语音数据选择系统，包括：

训练模块：使用标注语音数据集训练种子语音识别模型；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种蒙古语语音数据选择方法，其特征在于，包括：

获取标注语音数据集和无标注语音数据集；

使用标注语音数据集训练种子语音识别模型；

通过种子语言模型计算伪标注句子集中每条伪标注句序列的困惑度值；计算伪标注句序列中全部单词的后验概率的平均值得到可信度值；通过伪标注句序列的可信度值和困惑度值计算得到伪标注句序列的可信困惑度分数；

设定可信困惑度临界值，让伪标注句子集通过可信困惑度数据选择机制，选择可信困惑度分数大于临界值的句序列，得到的高质量伪标注句子集；将高质量伪标注句子集与相应的无标注语音数据进行匹配，得到蒙古语伪标注数据集。

2.根据权利要求1所述的一种蒙古语语音数据选择方法，其特征在于，所述获取伪标注句子集中每条伪标注句序列的困惑度值具体步骤为：

获取标注语音数据集和无标注语音数据集；

3.根据权利要求2所述的一种蒙古语语音数据选择方法，其特征在于，所述获取其中每条伪标注句序列的困惑度值具体步骤为：

4.根据权利要求1所述的一种蒙古语语音数据选择方法，其特征在于，获取所述可信度值的具体步骤为：

5.根据权利要求1所述的一种蒙古语语音数据选择方法，其特征在于，获取所述可信困惑度分数的具体步骤为：

6.根据权利要求1所述的一种蒙古语语音数据选择方法，其特征在于，所述得到蒙古语伪标注数据集的具体步骤为：

标注语音数据集训练语音识别种子模型；

7.一种蒙古语语音数据选择系统，其特征在于，包括：

训练模块：使用标注语音数据集训练种子语音识别模型；