CN115527551A

CN115527551A - 语音标注质量评价方法、装置、电子设备和存储介质

Info

Publication number: CN115527551A
Application number: CN202211139461.8A
Authority: CN
Inventors: 杨军; 方磊; 施志强; 王婕珺; 夏翔
Original assignee: Hefei Ustc Iflytek Co ltd
Current assignee: Hefei Ustc Iflytek Co ltd
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2022-12-27

Abstract

本发明提供一种语音标注质量评价方法、装置、电子设备和存储介质，所述方法包括：确定原始语音的标注文本；基于标注文本进行语音合成，得到合成语音；对原始语音进行语音识别，得到原始语音文本表征以及原始识别文本；对合成语音进行语音识别，得到合成语音文本表征以及合成识别文本；基于原始语音文本表征与合成语音文本表征之间的特征相似度，和/或，原始识别文本与合成识别文本之间的文本编辑距离，确定标注质量评价结果。本发明提供的语音标注质量评价方法、装置、电子设备和存储介质，能够准确确定标注质量评价结果，从而可以快速筛选出不合格的标注文本，极大提升了标注文本的核查效率，同时极大节省了人力及时间成本。

Description

语音标注质量评价方法、装置、电子设备和存储介质

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种语音标注质量评价方法、装置、电子设备和存储介质。

背景技术

现实的语音识别业务中，某些通用场景中识别效果较好的模型迁移到特定场景后，识别效果下降明显，通常需要收集这些特定场景的语料进行标注，然后应用通用场景的模型来迭代，以期达到更好的识别效果。这些语料标注的质量直接决定模型训练效果的好坏，因此，语音标注质量的核查至关重要。

目前，语音标注质量的核查方式为人工核验，分为两个阶段，第一个阶段为全检，需要对全量的标注数据进行检查，另一阶段为质检，会从全检的数据随机抽查一定的比例数据再次检查，只有两个阶段都核验合格的数据，才能用于后续模型的迭代训练。然而，此种核查方式特别耗费人力及时间，特别是第一个阶段，需要对标注数据进行逐条核验，特别耗时。

发明内容

本发明提供一种语音标注质量评价方法、装置、电子设备和存储介质，用以解决现有技术中标注数据的质量核查耗费人力及时间成本的缺陷。

本发明提供一种语音标注质量评价方法，包括：

确定原始语音的标注文本；

基于所述标注文本进行语音合成，得到合成语音；

对所述原始语音进行语音识别，得到原始语音文本表征以及原始识别文本；

对所述合成语音进行语音识别，得到合成语音文本表征以及合成识别文本；

基于所述原始语音文本表征与所述合成语音文本表征之间的特征相似度，和/或，所述原始识别文本与所述合成识别文本之间的文本编辑距离，确定标注质量评价结果。

根据本发明提供的一种语音标注质量评价方法，所述对所述原始语音进行语音识别，得到原始语音文本表征以及原始识别文本，包括：

将所述原始语音的声学特征输入至语音识别模型，得到所述语音识别模型输出的所述原始语音文本表征以及所述原始识别文本；

所述语音识别模型基于样本语音的声学特征以及样本标注文本训练得到；所述语音识别模型基于所述样本标注文本对应样本语音文本表征之间的差异，以及样本识别文本与所述样本标注文本之间的差异训练得到；

所述对所述合成语音进行语音识别，得到合成语音文本表征以及合成识别文本，包括：

将所述合成语音的声学特征输入至所述语音识别模型，得到所述语音识别模型输出的所述合成语音文本表征以及所述合成识别文本。

根据本发明提供的一种语音标注质量评价方法，所述语音识别模型的训练步骤包括：

将所述样本语音的声学特征输入至所述语音识别模型的初始模型，得到所述初始模型输出的所述样本语音文本表征以及所述样本识别文本；

基于相同样本标注文本对应样本语音文本表征之间的差异和/或不同样本标注文本对应样本语音文本表征之间的差异，以及所述样本标注文本与所述样本识别文本之间的差异，对所述初始模型进行参数迭代，得到所述语音识别模型。

根据本发明提供的一种语音标注质量评价方法，所述样本语音包括样本原始语音以及样本合成语音，所述样本合成语音是对所述样本标注文本进行语音合成得到；

所述不同样本标注文本对应样本语音文本表征之间的差异包括不同样本标注文本对应样本原始语音文本表征之间的差异和/或不同样本标注文本对应样本合成语音文本表征之间的差异；

所述相同样本标注文本对应样本语音文本表征之间的差异包括相同标注文本对应样本原始语音文本表征之间的差异、相同样本标注文本对应样本合成语音文本表征之间的差异以及相同标注文本对应样本原始语音文本表征和样本合成语音文本表征之间的差异中的至少一种。

根据本发明提供的一种语音标注质量评价方法，所述将所述原始语音的声学特征输入至语音识别模型，得到所述语音识别模型输出的所述原始语音文本表征以及所述原始识别文本，包括：

将所述原始语音的声学特征输入至所述语音识别模型的第一编码层，得到所述第一编码层输出的原始编码特征；

将所述原始编码特征输入至所述语音识别模型的注意力层，得到所述注意力层输出的注意力特征；

将所述注意力特征输入至所述语音识别模型的第二编码层，得到所述第二编码层输出的所述原始语音文本表征；

将所述注意力特征输入至所述语音识别模型的解码层，得到所述解码层输出的所述原始识别文本。

根据本发明提供的一种语音标注质量评价方法，所述文本编辑距离的确定步骤包括：

确定所述原始识别文本转换成所述合成识别文本对应的替换操作次数、插入操作次数以及删除操作次数；

基于所述替换操作次数、所述插入操作次数以及所述删除操作次数，确定所述文本编辑距离。

根据本发明提供的一种语音标注质量评价方法，所述基于所述替换操作次数、所述插入操作次数以及所述删除操作次数，确定所述文本编辑距离，包括：

基于所述替换操作次数，确定第一编辑距离；

基于所述插入操作次数，确定第二编辑距离；

基于所述删除操作次数，确定第三编辑距离；

将所述第一编辑距离、所述第二编辑距离以及所述第三编辑距离的平均值作为所述文本编辑距离。

本发明还提供一种语音标注质量评价装置，包括：

文本确定单元，用于确定原始语音的标注文本；

语音合成单元，用于基于所述标注文本进行语音合成，得到合成语音；

第一识别单元，用于对所述原始语音进行语音识别，得到原始语音文本表征以及原始识别文本；

第二识别单元，用于对所述合成语音进行语音识别，得到合成语音文本表征以及合成识别文本；

质量评价单元，用于基于所述原始语音文本表征与所述合成语音文本表征之间的特征相似度，和/或，所述原始识别文本与所述合成识别文本之间的文本编辑距离，确定标注质量评价结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音标注质量评价方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音标注质量评价方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音标注质量评价方法。

本发明提供的语音标注质量评价方法、装置、电子设备和存储介质，基于原始语音文本表征与合成语音文本表征之间的特征相似度，和/或，原始识别文本与合成识别文本之间的文本编辑距离，能够准确确定标注质量评价结果，从而实现标注文本的准确质量评价，进而可以快速筛选出不合格的标注文本，极大提升了标注文本的核查效率，同时极大节省了人力及时间成本。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音标注质量评价方法的流程示意图；

图2是本发明提供的语音识别模型训练方法的流程示意图；

图3是本发明提供的语音标注质量评价方法中步骤130的实施方式的流程示意图；

图4是本发明提供的语音识别模型的结构示意图；

图5是本发明提供的文本编辑距离确定方法的流程示意图；

图6是本发明提供的语音标注质量评价装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着深度学习技术在语音识别领域的突破，连续语音识别技术已广泛应用于教育、娱乐、医疗、交通等各行各业，应用的效果得到了业界的普遍认可。但由于连续语音识别技术属于典型的数据驱动性、有监督学习的模式识别技术，训练数据所覆盖的数量与质量直接影响着系统的识别性能。由于行业领域的不同，同一个语种的连续语音识别任务，所要识别的数据具有非常明显的差异性，包括信道、文本主题、说话人、环境噪声等因素，这些差异性的客观存在，导致难以建立一个各行业领域通用的连续语音识别系统。现实的语音识别业务中，某些通用场景中识别效果较好的模型迁移到特定场景后，识别效果下降明显，通常需要收集这些特定场景的语料进行标注，然后应用通用场景的模型来迭代训练。这些语料标注的质量直接决定模型训练效果的好坏，因此，语音标注质量的核查至关重要。

目前，语音标注质量的核查方式为人工核验，分为两个阶段，第一个阶段为全检，需要对全量的标注数据进行检查，另一阶段为质检，会从全检的数据随机抽查一定的比例数据再次检查，只有两个阶段都核验合格的数据，才能视为合格的标注数据，从而可以有效保障标注数据的质量。然而，此种核查方式特别耗费人力及时间，特别是第一个阶段，需要对标注数据进行逐条核验，特别耗时。

对此，本发明提供一种语音标注质量评价方法。图1是本发明提供的语音标注质量评价方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤110、确定原始语音的标注文本。

此处，原始语音即可以作为语音识别模型的训练样本的语音数据，具体可以是通过收音设备预先采集得到的，也可以是实时录制得到的，本发明实施例对此不作具体限定。获取到原始语音之后，对原始语音进行语音标注处理，即可得到原始语音的标注文本。

步骤120、基于标注文本进行语音合成，得到合成语音。

具体地，合成语音指根据标注文本进行语音合而成后得到的语音数据。在基于标注文本进行语音合成时，可以仅合成单个倍速的语音，也可以合成多个倍速的语音，本发明实施例对此不作具体限定。

步骤130、对原始语音进行语音识别，得到原始语音文本表征以及原始识别文本；

步骤140、对合成语音进行语音识别，得到合成语音文本表征以及合成识别文本。

具体地，原始语音文本表征可以表征原始语音对应的文本内容信息，原始识别文本指对原始语音进行语音识别后得到的文本。在对原始语音进行语音识别时，可以采用语音识别模型对原始语音进行语音识别，得到原始语音文本表征以及原始识别文本。

同理，合成语音文本表征可以表征合成语音对应的文本内容信息，合成识别文本指对合成语音进行语音识别后得到的文本。在对合成语音进行语音识别时，可以采用语音识别模型对合成语音进行语音识别，得到合成语音文本表征以及合成识别文本。

步骤150、基于原始语音文本表征与合成语音文本表征之间的特征相似度，和/或，原始识别文本与合成识别文本之间的文本编辑距离，确定标注质量评价结果。

具体地，标注质量评价结果可以表征标注文本的准确度，而合成语音是对标注文本进行语音合成得到的。原始语音与合成语音的内容相似度越高，表明合成语音对应的标注文本准确度越高；原始语音与合成语音的内容相似度越低，表明合成语音对应的标注文本准确度越低。

此外，特征相似度可以表征原始语音与合成语音之间的文本内容相关度，文本内容相关度越大，表明原始语音与合成语音的内容相似度越高，进而标注文本准确度越高。

再有，文本编辑距离可以表征原始识别文本与合成识别文本之间的文本差异程度，文本差异程度越小，表明原始识别文本与合成识别文本之间的相似度越高，也即原始识别文本对应的原始语音与合成识别文本对应的合成语音之间的内容相似度越高，进而标注文本准确度越高。其中，文本编辑距离也叫莱文斯坦距离(Levenshtein)，是针对两个字符串的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串，处理方式可以包括替换字符、删除字符、插入字符等。

可以理解的是，标注质量评价结果可以是具体的质量评分，也可以是标注文本所属的质量等级，本发明实施例对此也不作具体限定。进一步地，根据标注质量评价结果可以判断标注文本是否合格，如果合格，则可以用于后续语音识别模型的迭代训练，如果不合格，则可以对样本语音进行重新标注或者对标注文本进行修正等处理。

本发明实施例提供的语音标注质量评价方法，基于原始语音文本表征与合成语音文本表征之间的特征相似度，和/或，原始识别文本与合成识别文本之间的文本编辑距离，能够准确确定标注质量评价结果，从而实现标注文本的准确质量评价，进而可以快速筛选出不合格的标注文本，极大提升了标注文本的核查效率，同时极大节省了人力及时间成本。

作为一种可选实施例，特征相似度可以采用原始语音文本表征与合成语音文本表征之间的余弦相似度来表征，即可以通过如下公式确定特征相似度：

其中，cos_sim表示特征相似度，test_text_vector1表示原始语音文本表征，test_text_vector2表示合成语音文本表征。cos_sim越大，表明原始语音文本表征与合成语音文本表征之间的语义相似度越高，也即原始语音与合成语音之间的发音序列相似度越高，进而标注文本的准确率越高。

标注质量评价结果对应的质量评分可以采用如下公式确定：

score＝cos_sim-α·Dist_edit_avg

其中，score表示质量评分，Dist_edit_avg表示文本编辑距离，α表示调节因子，可以根据实际情况取值。

可以理解的是，本发明实施例可以设定阈值score_thred，当score>score_thred时，表明标注文本的准确率较高，即标注文本合格；当score≤score_thred时，表明标注文本的准确率较低，即标注文本不合格，此时可以对其进行重新标注。

基于上述实施例，步骤130包括：

将原始语音的声学特征输入至语音识别模型，得到语音识别模型输出的原始语音文本表征以及原始识别文本；

语音识别模型基于样本语音的声学特征以及样本标注文本训练得到；语音识别模型基于样本标注文本对应样本语音文本表征之间的差异，以及样本识别文本与样本标注文本之间的差异训练得到；

步骤140包括：

将合成语音的声学特征输入至语音识别模型，得到语音识别模型输出的合成语音文本表征以及合成识别文本。

具体地，原始语音和合成语音分别对应的声学特征，具体可以是LPC(LinearPrediction Coefficient，线性预测系数)、MFCCs(Mel Frequency CepstralCoefficients，梅尔频率倒谱系数)或PLP(Perceptual Linear Predictive，感知线性预测)等或其任意组合，本发明实施例对此不作具体限定。

在确定原始语音和合成语音分别对应的声学特征后，采用语音识别模型进行语音识别，得到原始语音对应的原始识别文本和表征原始语音的语义信息的原始语音文本表征，以及合成语音对应的合成识别文本和表征合成语音的语义信息的合成语音文本表征。

其中，语音识别模型基于样本标注文本对应样本语音文本表征之间的差异，以及样本识别文本与样本标注文本之间的差异训练得到。样本标注文本对应样本语音文本表征之间的差异既可以表征相同样本标注文本对应样本语音文本表征之间的差异，也可以表征不同样本标注文本对应样本语音文本表征之间的差异，也就是基于样本标注文本对应样本语音文本表征之间的差异对语音识别模型进行训练时，能够最小化相同样本标注文本对应样本语音文本表征之间的距离，最大化不同样本标注文本对应样本语音文本表征之间的距离，从而可以避免不同样本语音之间语速、语调、韵律、性别对提取样本语音文本表征精度的干扰，也就是能够使得训练完成的语音识别模型能够精确提取对应的语音文本表征。同时，基于样本识别文本与样本标注文本之间的差异对语音识别模型进行训练，可以使得训练完成的语音识别模型能够精确获取对应的识别文本。

由此可见，本发明实施例中基于样本标注文本对应样本语音文本表征之间的差异，以及样本识别文本与样本标注文本之间的差异训练得到的语音识别模型，不仅能够准确提取对应的语音文本表征，而且能够精确获取对应的识别文本。

基于上述任一实施例，图2是本发明提供的语音识别模型训练方法的流程示意图，如图2所示，语音识别模型的训练步骤包括：

步骤210、将样本语音的声学特征输入至语音识别模型的初始模型，得到初始模型输出的样本语音文本表征以及样本识别文本；

步骤220、基于相同样本标注文本对应样本语音文本表征之间的差异和/或不同样本标注文本对应样本语音文本表征之间的差异，以及样本标注文本与样本识别文本之间的差异，对初始模型进行参数迭代，得到语音识别模型。

具体地，相同样本标注文本对应的样本语音之间可能存在语速、语调、韵律、性别等之间的差异，为了避免这些因素对最终提取样本语音文本表征的影响，本发明实施例基于样本标注文本对应样本语音文本表征之间的差异对语音识别模型进行训练，从而能够最小化相同样本标注文本对应样本语音文本表征之间的距离，最大化不同样本标注文本对应样本语音文本表征之间的距离，避免不同样本语音之间语速、语调、韵律、性别对提取样本语音文本表征精度的干扰，也就是能够使得训练完成的语音识别模型能够精确提取对应的语音文本表征。

同时，基于样本识别文本与样本标注文本之间的差异对语音识别模型进行训练，可以使得训练完成的语音识别模型能够精确获取对应的识别文本。

基于上述任一实施例，样本语音包括样本原始语音以及样本合成语音，样本合成语音是对样本标注文本进行语音合成得到；

不同样本标注文本对应样本语音文本表征之间的差异包括不同样本标注文本对应样本原始语音文本表征之间的差异和/或不同样本标注文本对应样本合成语音文本表征之间的差异；

相同样本标注文本对应样本语音文本表征之间的差异包括相同标注文本对应样本原始语音文本表征之间的差异、相同样本标注文本对应样本合成语音文本表征之间的差异以及相同标注文本对应样本原始语音文本表征和样本合成语音文本表征之间的差异中的至少一种。

具体地，基于不同样本标注文本对应样本原始语音文本表征之间的差异对语音识别模型进行训练，能够最大化不同样本标注文本对应样本原始语音文本表征之间的距离，从而能够使得语音识别模型能够准确学习到不同样本标注文本对应样本原始语音文本表征之间的差异信息。不同样本标注文本对应样本合成语音文本表征之间的差异对语音识别模型进行训练，能够最大化不同样本标注文本对应样本合成语音文本表征之间的距离，从而能够使得语音识别模型准确学习到不同样本标注文本对应样本合成语音文本表征之间的差异信息。

基于相同标注文本对应样本原始语音文本表征之间的差异对语音识别模型进行训练，能够最小化相同样本标注文本对应样本原始语音文本表征之间的距离，从而能够使得语音识别模型准确学习到相同样本标注文本对应样本原始语音文本表征的相同信息。基于相同标注文本对应样本合成语音文本表征之间的差异对语音识别模型进行训练，能够最小化相同样本标注文本对应样本合成语音文本表征之间的距离，从而能够使得语音识别模型准确学习到相同样本标注文本对应样本合成语音文本表征的相同信息。基于相同标注文本对应样本原始语音文本表征和样本合成语音文本表征之间的差异对语音识别模型进行训练，能够最小化相同样本标注文本对应样本原始语音文本表征和样本合成语音文本表征之间的距离，从而能够使得语音识别模型准确学习到相同样本标注文本对应样本原始语音文本表征和样本合成语音文本表征之间的相同信息。

可选地，在样本语音包括样本原始语音以及样本合成语音的情况下，语音识别模型对应的损失函数Loss为：

Loss＝CTCLoss1+CTCLoss2+TripletLoss+MMDLoss

其中，CTCLoss1基于样本原始识别文本与样本标注文本之间的差异确定，CTCLoss2基于样本合成识别文本与样本标注文本之间的差异确定，TripletLoss基于不同样本标注文本对应样本语音文本表征之间的差异、相同标注文本对应样本原始语音文本表征之间的差异以及相同样本标注文本对应样本合成语音文本表征之间的差异确定，MMDLoss基于相同标注文本对应样本原始语音文本表征和样本合成语音文本表征之间的差异确定。

基于上述任一实施例，图3是本发明提供的语音标注质量评价方法中步骤130的实施方式的流程示意图，如图3所示，步骤130中将原始语音的声学特征输入至语音识别模型，得到语音识别模型输出的原始语音文本表征以及原始识别文本，包括：

步骤131、将原始语音的声学特征输入至语音识别模型的第一编码层，得到第一编码层输出的原始编码特征；

步骤132、将原始编码特征输入至语音识别模型的注意力层，得到注意力层输出的注意力特征；

步骤133、将注意力特征输入至语音识别模型的第二编码层，得到第二编码层输出的原始语音文本表征；

步骤134、将注意力特征输入至语音识别模型的解码层，得到解码层输出的原始识别文本。

具体地，语音识别模型包括第一编码层、注意力层、第二编码层和解码层。图4是本发明提供的语音识别模型的结构示意图，如图4所示，第一编码层用于对原始语音的声学特征进行编码，得到原始编码特征，接着注意力层对原始编码特征进行注意力变换，得到注意力特征，进而第二编码层可以对注意力特征进行编码，得到可以表征原始语音的语义信息的原始语音文本表征，以及解码层对注意力特征进行解码，得到原始识别文本。

基于上述任一实施例，图5是本发明提供的文本编辑距离确定方法的流程示意图，如图5所示，文本编辑距离的确定步骤包括：

步骤510、确定原始识别文本转换成合成识别文本对应的替换操作次数、插入操作次数以及删除操作次数；

步骤520、基于替换操作次数、插入操作次数以及删除操作次数，确定文本编辑距离。

具体地，原始识别文本和合成识别文本分别对应的字符串可能存在差异，若要将原始识别文本转换成合成识别文本，则可以通过替换操作、插入操作和删除操作使得原始识别文本与合成识别文本分别对应的字符串一致。例如，若原始识别文本为“今天好晴朗”，合成识别文本为“今天真晴朗”，则将原始识别文本转换为合成识别文本时，需要将原始识别文本中的“好”替换为“晴”，即替换操作1次，插入操作0次以及删除操作0次。

根据替换操作次数、插入操作次数以及删除操作次数，可以确定原始识别文本与合成识别文本之间的编辑距离，即文本编辑距离，文本编辑距离越小，表明原始识别文本与合成识别文本之间的文本差异程度越小，也即原始识别文本与合成识别文本之间的相似度越高，从而原始识别文本对应的原始语音与合成识别文本对应的合成语音之间的内容相似度越高，进而标注文本准确度越高。

可选地，本发明实施例可以基于替换操作次数、插入操作次数以及删除操作次数之和确定文本编辑距离，也可以基于替换操作次数、插入操作次数以及删除操作次数的平均值确定文本编辑距离，本发明实施例对此不作具体限定。

基于上述任一实施例，步骤520包括：

基于替换操作次数，确定第一编辑距离；

基于插入操作次数，确定第二编辑距离；

基于删除操作次数，确定第三编辑距离；

将第一编辑距离、第二编辑距离以及第三编辑距离的平均值作为文本编辑距离。

具体地，在原始识别文本与合成识别文本的字符长度一致的情况下，可以忽略字符长度的影响，基于第一编辑距离、第二编辑距离和第三编辑距离之和确定文本编辑距离。在原始识别文本与合成识别文本的字符长度不一致的情况下，字符长度会影响文本编辑距离的精度，例如原始识别文本为“今天晴朗”，合成识别文本为“今天好晴朗啊啊啊啊”，则将原始识别文本转换为合成识别文本时，需要将原始识别文本中的4个“啊”删除，即删除操作4次，并插入“好”，即插入操作1次，但实际上原始识别文本与合成识别文本此时的相似度比较高，若采用第一编辑距离、第二编辑距离和第三编辑距离之和确定文本编辑距离，则可能造成误差，降低文本编辑距离的精度。

对此，本发明实施例将第一编辑距离、第二编辑距离以及第三编辑距离的平均值作为文本编辑距离，从而可以避免字符长度对文本编辑距离精度的影响。其中，第一编辑距离可以为替换操作次数，第二编辑距离可以为插入操作次数，第三编辑距离可以为删除操作次数。

可选地，文本编辑距离可以基于如下公式确定：

Dist_edit_avg＝2*Dist_edit/(N1+N2)

其中，Dist_edit_avg表示文本编辑距离，N1表示原始识别文本的字符数，N2表示合成识别文本的字符数。

基于上述任一实施例，本发明提供的语音标注质量评价方法具体包括模型训练及语音标注质量评价两个阶段。具体如下所述：

一、模型训练阶段：

S1、收集多个语种的开源的连续样本语音标注数据集。

S2、对S1中的样本标注文本，采用合成算法合成对应的样本合成语音，记第i个标注文本对应的样本原始语音为x_real_i，其对应的样本合成语音为x_synthesis_i。

S3、对S1和S2中的样本语音，过滤除无效音，提取声学特征(Fileter Bank，FB特征)，记第i个样本标注文本对应的FB特征为fb_i，其对应的样本合成语音的FB特征为fb_synthesis_i。

S4、初始化第一语音识别模型(LSA_TEXT_REPRESENTATION_Net1)及第二语音识别模型(LSA_TEXT_REPRESENTATION_Net2)参数，对S3中的FB特征，一次送一个batch的fb_i到LSA_TEXT_REPRESENTATION_Net1，同时送一个对应batch的fb_synthesis_i到LSA_TEXT_REPRESENTATION_Net2，采用CTCLoss、TripletLoss、MMDLoss联合训练这两个模型，其联合训练的损失函数如下所示：

Loss＝CTCLoss1+CTCLoss2+TripletLoss+MMDLoss

其中，CTCLoss1作用于LSA_TEXT_REPRESENTATION_Net1、CTCLoss2作用于LSA_TEXT_REPRESENTATION_Net2，TripLetLoss使得两个模型提取的文本表征在标注文本内容相同时距离更进，在标注文本内容不同时距离更远。MMDLoss用于去除合成语音与原始语音之间由于语速、语调、韵律、性别的差异对文本表征的干扰。

其中，LSA_TEXT_REPRESENTATION_Net1和LSA_TEXT_REPRESENTATION_Net2的结构相同，均包括第一编码层、注意力层、第二编码层和解码层，第一编码层用于对声学特征进行编码，得到编码特征；注意力层用于对编码特征进行注意力变换，得到注意力特征；第二编码层用于对注意力特征进行编码，得到文本表征；解码层用于对注意力特征进行解码，得到识别文本。其中，第二编码层可以为CNN(Convolutional Neural Network,CNN)网络结构，用于将注意力层输出的注意力特征做特征变化，映射成一个维度固定的向量。

S5、反复迭代S4至Loss稳定或达到最大迭代次数N，此时得到的LSA_TEXT_REPRESENTATION_Net1及LSA_TEXT_REPRESENTATION_Net2可以用来判断标注文本是否达标。

二、语音标注质量评价阶段：

S6、待检查的原始语音test_real，其对应的标注文本为text_test。采用语音合成工具，对text_test进行语音合成，得到合成语音test_synthesis。

S7、对S6中的原始语音及合成语音提取FB特征，分别记为test_fb_real和test_fb_synthesis。

S8、加载训练阶段S5中的LSA_TEXT_REPRESENTATION_Net1，将S7中的test_fb_real提取原始语音文本表征test_text_vector1及原始识别文本test_text_rec1。

S9、加载训练阶段S5中的LSA_TEXT_REPRESENTATION_Net2，将S7中的test_fb_synthesis提取合成语音文本表征test_text_vector2及合成识别test_text_rec2。

S10、计算test_text_vector1与test_text_vector2之间的余弦相似度cos_sim。

S11、计算test_text_rec1与test_text_rec2之间的文本编辑距离，记为Dist_edit，一般来说，同等字数的情况下，两者识别结果越接近，编辑距离越小，考虑到字长对编辑距离的影响，此处求取一个编辑距离的平均值，即文本编辑距离记为Dist_edit_avg，如下式所示：

Dist_edit_avg＝2*Dist_edit/(N1+N2)

其中，N1及N2分别表示test_text_rec1及test_text_rec2的字数。

S12、根据S10中的cos_sim，S11中的Dist_edit_avg，计算标注吻合度打分score(该打分用于表征标注质量评价结果)，如下式所示：

score＝cos_sim-α·Dist_edit_avg

式中的α为调节因子，一般取值较小，使得Dist_edit_avg作为cos_sim的补充，取值可以根据实际况而定。

S13、划定阈值score_thred，根据阈值判别最终的标注是否合格，即如果score大于score_thred，则判为标注合格；否则该条标注则被判断为不合格，需要送入检查，重新标注。

通过以上步骤，完成了标注文本的质量评价，可以实现从一批原始标注数据中快速筛查出不合格的连续语音标注数据，将不合格的标注数据进行修正，而对合格的标注数据无需进行改动，极大加快了标注数据的检查进度，极大节省了人力及时间成本。

下面对本发明提供的语音标注质量评价装置进行描述，下文描述的语音标注质量评价装置与上文描述的语音标注质量评价方法可相互对应参照。

基于上述任一实施例，图6是本发明提供的语音标注质量评价装置的结构示意图，如图6所示，该装置包括：

文本确定单元610，用于确定原始语音的标注文本；

语音合成单元620，用于基于所述标注文本进行语音合成，得到合成语音；

第一识别单元630，用于对所述原始语音进行语音识别，得到原始语音文本表征以及原始识别文本；

第二识别单元640，用于对所述合成语音进行语音识别，得到合成语音文本表征以及合成识别文本；

质量评价单元650，用于基于所述原始语音文本表征与所述合成语音文本表征之间的特征相似度，和/或，所述原始识别文本与所述合成识别文本之间的文本编辑距离，确定标注质量评价结果。

基于上述任一实施例，所述对所述原始语音进行语音识别，得到原始语音文本表征以及原始识别文本，包括：

基于上述任一实施例，所述语音识别模型的训练步骤包括：

基于上述任一实施例，所述样本语音包括样本原始语音以及样本合成语音，所述样本合成语音是对所述样本标注文本进行语音合成得到；

基于上述任一实施例，所述将所述原始语音的声学特征输入至语音识别模型，得到所述语音识别模型输出的所述原始语音文本表征以及所述原始识别文本，包括：

基于上述任一实施例，所述文本编辑距离的确定步骤包括：

基于上述任一实施例，所述基于所述替换操作次数、所述插入操作次数以及所述删除操作次数，确定所述文本编辑距离，包括：

基于所述替换操作次数，确定第一编辑距离；

基于所述插入操作次数，确定第二编辑距离；

基于所述删除操作次数，确定第三编辑距离；

图7是本发明提供的电子设备的结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、存储器(memory)720、通信接口(Communications Interface)730和通信总线740，其中，处理器710，存储器720，通信接口730通过通信总线740完成相互间的通信。处理器710可以调用存储器720中的逻辑指令，以执行语音标注质量评价方法，该方法包括：确定原始语音的标注文本；基于所述标注文本进行语音合成，得到合成语音；对所述原始语音进行语音识别，得到原始语音文本表征以及原始识别文本；对所述合成语音进行语音识别，得到合成语音文本表征以及合成识别文本；基于所述原始语音文本表征与所述合成语音文本表征之间的特征相似度，和/或，所述原始识别文本与所述合成识别文本之间的文本编辑距离，确定标注质量评价结果。

此外，上述的存储器720中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的语音标注质量评价方法，该方法包括：确定原始语音的标注文本；基于所述标注文本进行语音合成，得到合成语音；对所述原始语音进行语音识别，得到原始语音文本表征以及原始识别文本；对所述合成语音进行语音识别，得到合成语音文本表征以及合成识别文本；基于所述原始语音文本表征与所述合成语音文本表征之间的特征相似度，和/或，所述原始识别文本与所述合成识别文本之间的文本编辑距离，确定标注质量评价结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的语音标注质量评价方法，该方法包括：确定原始语音的标注文本；基于所述标注文本进行语音合成，得到合成语音；对所述原始语音进行语音识别，得到原始语音文本表征以及原始识别文本；对所述合成语音进行语音识别，得到合成语音文本表征以及合成识别文本；基于所述原始语音文本表征与所述合成语音文本表征之间的特征相似度，和/或，所述原始识别文本与所述合成识别文本之间的文本编辑距离，确定标注质量评价结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音标注质量评价方法，其特征在于，包括：

确定原始语音的标注文本；

基于所述标注文本进行语音合成，得到合成语音；

2.根据权利要求1所述的语音标注质量评价方法，其特征在于，所述对所述原始语音进行语音识别，得到原始语音文本表征以及原始识别文本，包括：

对所述合成语音进行语音识别，得到合成语音文本表征以及合成识别文本，包括：

3.根据权利要求2所述的语音标注质量评价方法，其特征在于，所述语音识别模型的训练步骤包括：

4.根据权利要求3所述的语音标注质量评价方法，其特征在于，所述样本语音包括样本原始语音以及样本合成语音，所述样本合成语音是对所述样本标注文本进行语音合成得到；

5.根据权利要求2所述的语音标注质量评价方法，其特征在于，所述将所述原始语音的声学特征输入至语音识别模型，得到所述语音识别模型输出的所述原始语音文本表征以及所述原始识别文本，包括：

6.根据权利要求1至5任一项所述的语音标注质量评价方法，其特征在于，所述文本编辑距离的确定步骤包括：

7.根据权利要求6所述的语音标注质量评价方法，其特征在于，所述基于所述替换操作次数、所述插入操作次数以及所述删除操作次数，确定所述文本编辑距离，包括：

基于所述替换操作次数，确定第一编辑距离；

基于所述插入操作次数，确定第二编辑距离；

基于所述删除操作次数，确定第三编辑距离；

8.一种语音标注质量评价装置，其特征在于，包括：

文本确定单元，用于确定原始语音的标注文本；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述语音标注质量评价方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音标注质量评价方法。