CN111062203B

CN111062203B - 基于语音的数据标注方法、装置、介质以及电子设备

Info

Publication number: CN111062203B
Application number: CN201911100150.9A
Authority: CN
Inventors: 朱成浩; 李鑫
Original assignee: Seashell Housing Beijing Technology Co Ltd
Current assignee: Seashell Housing Beijing Technology Co Ltd
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2021-07-20
Anticipated expiration: 2039-11-12
Also published as: CN111062203A

Abstract

公开了一种基于语音的数据标注方法、装置、介质以及电子设备。其中的数据标注方法包括：获取待标注语音的待标注处理语句；将所述待标注处理语句提供给病句纠错模型，经由所述病句纠错模型对所述待标注处理语句进行语句预测处理，获得预测出的纠正语句；根据所述纠正语句，确定所述待标注语音的标注语句。本公开有利于兼顾语音标注的准确性以及标注效率，从而有利于降低语音标注的成本。

Description

基于语音的数据标注方法、装置、介质以及电子设备

技术领域

本公开涉及数据标注技术，尤其是一种基于语音的数据标注方法、基于语音的数据标注装置、存储介质以及电子设备。

背景技术

随着AI(Artificial Intelligence，人工智能)技术的发展，越来越多的领域使用了AI技术。例如，智能客服领域使用了语音识别技术。再例如，智能支付领域以及智能考勤领域使用了人脸识别技术。再例如，智能驾驶领域使用了图像识别技术等。

在涉及语音的AI技术中，往往需要对语音进行数据标注处理，生成样本数据，以便于利用样本数据对用于语音识别的模型(如语音识别模型)进行训练。

如何在保证语音的数据标注的准确性的同时，提高标注效率，是一个值得关注的技术问题。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种基于语音的数据标注方法、基于语音的数据标注装置、存储介质以及电子设备。

根据本公开实施例的一方面，提供一种基于语音的数据标注方法，该方法包括：获取待标注语音的待标注处理语句；将所述待标注处理语句提供给病句纠错模型，并经由所述病句纠错模型对所述待标注处理语句进行语句预测处理，获得预测出的纠正语句；根据所述纠正语句，确定所述待标注语音的标注语句。

在本公开一实施方式中，所述获取待标注语音的待标注处理语句，包括：获取待标注语音的语音识别结果，其中，所述语音识别结果被作为待标注处理语句；和/或，对待筛选集合中的待筛选语句对进行筛选处理，获得筛选出的语句对，其中，所述筛选出语句对被作为所述待标注处理语句。

在本公开又一实施方式中，所述病句纠错模型的输入包括：由正确语句和错误语句形成的输入语句对；所述将所述待标注处理语句提供给病句纠错模型，包括：将所述语音识别结果作为所述病句纠正模型的输入语句对中的错误语句，将所述输入语句对中的正确语句设置为无效语句，并将所述输入语句对提供给病句纠错模型；或者，将所述筛选出的语句对作为所述病句纠正模型的输入语句对，提供给病句纠错模型。

在本公开再一实施方式中，所述对待筛选集合中的待筛选语句对进行筛选处理，获得筛选出的语句对，包括：将所述待筛选集合中的待筛选语句对提供给所述病句纠错模型中的解码器；根据所述解码器的输出，确定从所述待筛选集合中的待筛选语句中筛选出的语句对。

在本公开再一实施方式中，所述根据所述纠正语句，确定所述待标注语音的标注语句，包括：根据所述病句纠错模型的输入语句对中的正确语句和所述纠正语句，获取所述纠正语句的干预语句；根据所述干预语句以及纠正语句，确定所述待标注语音的标注语句。

在本公开再一实施方式中，所述根据所述干预语句以及纠正语句，确定所述待标注语音的标注语句，包括：获取所述干预语句和所述纠正语句的相似信息；若所述相似信息满足预定相似条件，则将所述干预语句和所述纠正语句作为所述待标注语音的标注语句。

在本公开再一实施方式中，所述获取所述干预语句和所述纠正语句的相似信息，包括：根据所述干预语句，确定所述纠正语句的困惑度，其中，所述纠正语句的困惑度被作为所述相似信息；所述相似信息满足预定相似条件，包括：所述纠正语句的困惑度低于所述纠正语句的困惑度。

在本公开再一实施方式中，所述方法还包括：若所述相似信息不满足所述预定相似条件，则将所述干预语句和所述纠正语句作为待筛选集合中的待筛选语句对；其中，所述待筛选集合中的待筛选语句对中的被筛选出的语句对，被作为所述待标注处理语句。

在本公开再一实施方式中，所述方法还包括：利用语句对样本对待训练病句纠错模型进行训练，以形成所述病句纠错模型；其中，所述语句对样本包括：正确语句样本和错误语句样本。

在本公开再一实施方式中，所述利用语句对样本对待训练病句纠错模型进行训练，包括：获取语句对样本；将所述语句对样本提供给所述待训练病句纠错模型，并经由所述待训练病句纠错模型对所述语句对样本中的错误语句样本进行语句预测处理，获得所述错误语句样本的纠正语句；至少根据所述错误语句样本的纠正语句与所述语句对样本中的正确语句样本之间的差异，调整所述病句纠错模型的模型参数。

在本公开再一实施方式中，所述获取语句对样本，包括：从语音的标注语句集合以及待标注语音的待标注处理语句集合中的至少一个集合中，获取语句对样本。

在本公开再一实施方式中，所述从语音的标注语句集合以及待标注语音的待标注处理语句集合中的至少一个集合中，获取语句对样本，包括：将所述标注语句集合中的多个标注语句和/或所述待标注处理语句集合中的多个待标注处理语句，提供给所述待训练病句纠错模型；根据所述待训练病句纠错模型的输出，确定所述多个标注语句和/或所述多个待标注处理语句的筛选结果，获得语句对样本。

在本公开再一实施方式中，所述待训练病句纠错模型包括：解码器和编码器；所述将所述标注语句集合中的多个标注语句和/或所述待标注处理语句集合中的多个待标注处理语句，提供给所述待训练病句纠错模型，包括：将所述标注语句集合中的多个标注语句和/或所述待标注处理语句集合中的多个待标注处理语句中的正确语句，提供给所述待训练病句纠错模型的编码器；将所述标注语句集合中的多个标注语句和/或所述待标注处理语句集合中的多个待标注处理语句中的错误语句，提供给所述待训练病句纠错模型的解码器；其中，所述编码器的输出被提供给解码器的中间层的输入。

在本公开再一实施方式中，所述至少根据所述错误语句样本的纠正语句与所述语句对样本中的正确语句样本之间的差异，调整所述病句纠错模型的模型参数，包括：根据所述错误语句样本的纠正语句与所述语句对样本中的正确语句之间的差异、基于预设过滤规则对所述语句对样本集合中的多个语句对样本的过滤结果、所述待训练病句纠错模型的解码器针对所述语句对样本集合中的多个语句对样本生成的用于数据分发评估的归一化概率以及正则项，调整所述病句纠错模型的模型参数。

根据本公开实施例的另一个方面，提供了一种基于语音的数据标注装置，包括：第一获取模块，用于获取待标注语音的待标注处理语句；第二获取模块，用于将所述待标注处理语句提供给病句纠错模型，并经由所述病句纠错模型对所述待标注处理语句进行语句预测处理，获得预测出的纠正语句；确定标注语句模块，用于根据所述纠正语句，确定所述待标注语音的标注语句。

在本公开一实施方式中，所述第一获取模块包括：第一子模块，用于获取待标注语音的语音识别结果，其中，所述语音识别结果被作为待标注处理语句；和/或，第二子模块，用于对待筛选集合中的待筛选语句对进行筛选处理，获得筛选出的语句对，其中，所述筛选出语句对被作为所述待标注处理语句。

在本公开又一实施方式中，所述病句纠错模型的输入包括：由正确语句和错误语句形成的输入语句对；所述第二获取模块包括：第三子模块，用于将所述语音识别结果作为所述病句纠正模型的输入语句对中的错误语句，将所述输入语句对中的正确语句设置为无效语句，并将所述输入语句对提供给病句纠错模型；或者，第四子模块，用于将所述筛选出的语句对作为所述病句纠正模型的输入语句对，提供给病句纠错模型。

在本公开再一实施方式中，所述第二子模块具体用于：将所述待筛选集合中的待筛选语句对提供给所述病句纠错模型中的解码器；根据所述解码器的输出，确定从所述待筛选集合中的待筛选语句中筛选出的语句对。

在本公开再一实施方式中，所述确定标注语句模块，包括：第五子模块，用于根据所述病句纠错模型的输入语句对中的正确语句和所述纠正语句，获取所述纠正语句的干预语句；第六子模块，用于根据所述干预语句以及纠正语句，确定所述待标注语音的标注语句。

在本公开再一实施方式中，所述第六子模块包括：第一单元，用于获取所述干预语句和所述纠正语句的相似信息；第二单元，用于若所述相似信息满足预定相似条件，则将所述干预语句和所述纠正语句作为所述待标注语音的标注语句。

在本公开再一实施方式中，所述第一单元具体用于：根据所述干预语句，确定所述纠正语句的困惑度，其中，所述纠正语句的困惑度被作为所述相似信息；所述相似信息满足预定相似条件，包括：所述纠正语句的困惑度低于所述纠正语句的困惑度。

在本公开再一实施方式中，所述装置还包括：形成集合模块，用于若所述相似信息不满足所述预定相似条件，则将所述干预语句和所述纠正语句作为待筛选集合中的待筛选语句对；其中，所述待筛选集合中的待筛选语句对中的被筛选出的语句对，被作为所述待标注处理语句。

在本公开再一实施方式中，所述装置还包括：训练模块，用于利用语句对样本对待训练病句纠错模型进行训练，以形成所述病句纠错模型；其中，所述语句对样本包括：正确语句样本和错误语句样本。

在本公开再一实施方式中，所述训练模块包括：第七子模块，用于获取语句对样本；第八子模块，用于将所述语句对样本提供给所述待训练病句纠错模型，并经由所述待训练病句纠错模型对所述语句对样本中的错误语句样本进行语句预测处理，获得所述错误语句样本的纠正语句；第九子模块，用于至少根据所述错误语句样本的纠正语句与所述语句对样本中的正确语句样本之间的差异，调整所述病句纠错模型的模型参数。

在本公开再一实施方式中，所述第七子模块具体用于：从语音的标注语句集合以及待标注语音的待标注处理语句集合中的至少一个集合中，获取语句对样本。

在本公开再一实施方式中，所述第七子模块具体用于：将所述标注语句集合中的多个标注语句和/或所述待标注处理语句集合中的多个待标注处理语句，提供给所述待训练病句纠错模型；根据所述待训练病句纠错模型的输出，确定所述多个标注语句和/或所述多个待标注处理语句的筛选结果，获得语句对样本。

在本公开再一实施方式中，所述待训练病句纠错模型包括：解码器和编码器；所述第八子模块具体用于：将所述标注语句集合中的多个标注语句和/或所述待标注处理语句集合中的多个待标注处理语句中的正确语句，提供给所述待训练病句纠错模型的编码器；将所述标注语句集合中的多个标注语句和/或所述待标注处理语句集合中的多个待标注处理语句中的错误语句，提供给所述待训练病句纠错模型的解码器；其中，所述编码器的输出被提供给解码器的中间层的输入。

在本公开再一实施方式中，所述第九子模块具体用于：根据所述错误语句样本的纠正语句与所述语句对样本中的正确语句之间的差异、基于预设过滤规则对所述语句对样本集合中的多个语句对样本的过滤结果、所述待训练病句纠错模型的解码器针对所述语句对样本集合中的多个语句对样本生成的用于数据分发评估的归一化概率以及正则项，调整所述病句纠错模型的模型参数。

根据本公开实施例的再一方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述基于语音的数据标注方法。

根据本公开实施例的又一方面，提供一种电子设备，该电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述基于语音的数据标注方法。

基于本公开上述实施例提供的一种基于语音的数据标注方法和装置，通过利用病句纠错模型对待标注处理语句进行语句预测处理，可以获得待标注处理语句的纠错语句；本公开通过利用纠错语句，有利于快捷准确的获得待标注语音的标注语句。由此可知，本公开提供的技术方案有利于兼顾语音标注的准确性以及标注效率，从而有利于降低语音标注的成本。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同描述一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开的适用场景的一个实施例的示意图；

图2为本公开的基于语音的数据标注方法一个实施例的流程图；

图3为本公开的病句纠错模型一个实施例的示意图；

图4为本公开的根据干预语句和纠正语句确定待标注语音的标注语句的一个实施例的流程图；

图5为本公开的待训练病句纠错模型的训练过程一个实施例的流程图；

图6为本公开的待训练病句纠错模型中的编码器一个实施例的示意图；

图7为本公开的待训练病句纠错模型一个实施例的示意图；

图8为本公开的基于语音的数据标注装置一个实施例的结构示意图；

图9为本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或者两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅是一种描述关联对象的关联关系，表示可以存在三种关系，如A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开的实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统或者服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施。在分布式云计算环境中，任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

本公开概述

在实现本公开的过程中，发明人发现，目前，通常采用人工标注方式对语音进行标注，例如，将待标注语音提供给人工标注平台，所有标注人员均分别从人工标注平台中选取待标注语音，并播放，各标注人员均根据自己听到的声音，分别给出其选取的待标注语音的标注语句(即标注文本)。待标注语音和其对应的至少一条标注语句一起，可以形成一条训练数据。该训练数据可以用于对语音识别模型进行训练。很明显，通过人工标注方式对语音进行标注，其效率较低，标注成本较高。另外，当语音识别模型被应用于房产领域或者医疗领域等特定领域时，现有的训练数据集，往往无法满足该语音识别模型的训练需求，通常需要针对该领域的特点，生成新的训练数据，从而会进一步突显人工标注方式的低效率以及高成本。

示例性概述

本公开提供的基于语音的数据标注技术的应用场景的一个例子，如图1所示。

图1中，本公开可以通过录制方式或者从预设语音集合中读取方式或者语音合成方式等，获得房产领域的多条语音。多条语音如图1中的语音1、语音2、……以及语音n(n为大于2的整数)所示。本公开需要对获得的多条语音分别进行文本标注。

本公开可以将语音1、语音2、……以及语音n分别提供给已成功训练完成的语音识别模型100，从而可以获得语音1、语音2、……以及语音n各自对应的语音识别出的文本，如图1中的文本1、文本2、……以及文本n。这里的语音识别模型100可以为通用领域的语音识别模型，也可以为适用于除房产领域之外的其他领域的语音识别模型。例如，该语音识别模型100可以是利用基于日常对话的语音以及语音的标注语句，成功训练获得的语音识别模型。本公开允许该语音识别模型100的语音识别准确性存在较大欠缺。

本公开可以将语音识别模型100识别出的文本1、文本2、……以及文本n分别提供给病句纠错模型101，由病句纠错模型101针对输入的各文本分别进行预测处理，从而获得第一个输入的文本的纠正语句(如文本1的纠正语句)、第二个输入的文本的纠正语句(如文本2的纠正语句)、……以及第n个输入的文本的纠正语句(如文本n的纠正语句)。

本公开可以对各纠正语句分别进行干预处理，例如，利用标注干预平台102(如人工标注干预平台等)对各纠正语句分别进行干预处理。该干预处理可以实现对各纠正语句的校正，从而本公开可以获得第一个输入的纠正语句的干预语句、第二个输入的纠正语句的干预语句、……以及第n个输入的纠正语句的干预语句。本公开可以将干预处理后获得的各干预语句分别作为正确语句，并将相应的纠正语句作为错误语句，使一个干预语句和一个纠正语句形成一个语句对。

在一个语句对非常相近的情况下，本公开可以将该语句对作为相应语音的标注语句。在一个语句对的相近程度不满足预定要求时，本公开可以将该语句对添加在待标注语句对集合103中。本公开可以从待标注语句对集合103中筛选出至少一待标注语句对。本公开可以将筛选出的待标注语句对再次提供给病句纠错模型101，以便于继续产生语音的标注语句，从而本公开可以在不需要人工播放语音的情况下，快捷准确的获得各语音的标注语句。

本公开获得的各语音的标注语句可以用于房产领域的训练语音识别模型，例如，可以用于训练上述语音识别模型100或者其他语音识别模型等，使成功训练后的语音识别模型可以很好的适用于房产领域，即成功训练后的语音识别模型针对房产领域的语音具有较好的语音识别准确性。

示例性方法

图2为本公开的基于语音的数据标注方法一个实施例的流程示意图。如图2所示，该实施例的方法包括步骤：S200、S201以及S202。下面对各步骤分别进行说明。

S200、获取待标注语音的待标注处理语句。

本公开中的待标注语音可以是指需要为其进行文本标注的语音。在通常情况下，为语音所标注的文本所表达的含义与该语音所表达的含义相同。本公开中的待标注语音可以包括：采用录制或者从语音集合中读取或者利用语音合成等方式获得的语音。在本公开获取到的所有待标注语音属于同一个领域(如房产领域)的情况下，本公开可以实现为一个特定领域形成训练数据集合。

本公开中的待标注处理语句可以认为是待标注语音的初始标注文本。也就是说，由于待标注处理语句中可能存在错误，因此，将待标注处理语句作为待标注语音的标注语句并不合适，在对待标注处理语句进行一定的处理，消除其存在的错误之后，再将其作为待标注语音的标注语句，是比较合适的。

本公开中的待标注处理语句可以为一句完整的话，例如，“我想在西二旗附近租房”。该待标注处理语句也可以为一个词组，例如，“商贷”等。该待标注处理语句还可以为由多个词组组成的短语，例如，“房屋整租”等。

S201、将待标注处理语句提供给病句纠错模型，并经由病句纠错模型对待标注处理语句进行语句预测处理，获得预测出的纠正语句。

本公开中的病句纠错模型可以是指用于对待标注处理语句进行病句纠错的神经网络。本公开中的病句纠错模型的结构可以包括但不限于：Transformer(转换器)结构。

本公开的病句纠错模型的输入至少包括：待标注处理语句。该病句纠错模型的输入通常包括：一个语句对，即两个语句。其中一个语句为正确语句，而另一个语句为错误语句。其中的正确语句并不是指完全正确或者绝对正确的语句，而是指被看作是正确的语句。其中的错误语句并不是指一定带有错误的语句，而是指被看作是错误的语句。在病句纠错模型的输入包括正确语句和错误语句的情况下，若本公开中的待标注处理语句仅包括一个语句，则该语句通常会被作为一个语句对中的错误语句。

本公开的病句纠错模型可以根据输入，输出待标注处理语句的纠正语句，即病句纠错模型输出其输入的错误语句的纠正语句。该纠正语句并不是指纠正了待标注处理语句中的所有错误后的语句，也就是说，纠正语句并不是完全正确或者绝对正确的语句，而是指被看作是纠正了标注处理语句中的错误的语句。即纠正语句中可能仍然存在错误。在极端情况下，病句纠错模型有可能并没有纠正待标注处理语句中的任何错误。

本公开中的病句纠错模型可以是利用语句对样本训练获得的。训练病句纠错模型的过程可以参见下述实施例中针对图5的描述。另外，需要说明的是，本公开中的完全正确的语句或者绝对正确的语句通常是指与待标注语音所表达的含义完全相符的语句。

S202、根据纠正语句，确定待标注语音的标注语句。

本公开中的待标注语音的标注语句可以称为待标注语音的标签(label)，且该标签为文本形式的标签。本公开可以对纠正语句进行进一步处理，并根据处理结果来确定待标注语音的标注语句。例如，本公开可以对纠正语句进行检验，并根据检验结果来确定是否基于该纠正语句形成待标注语音的标注语句。另外，本公开也可以通过对纠正语句进行判断等方式，来确定是否使待标注语音的标注语句包含该纠正语句。

本公开通过利用病句纠错模型对待标注处理语句进行语句预测处理，可以获得待标注处理语句的纠错语句；通过对纠错语句，有利于快捷准确的获得待标注语音的标注语句，从而可以避免通过播放语音方式来设置标注语句而存在的标注效率低以及成本高等问题，进而本公开有利于兼顾语音标注的准确性以及标注效率，从而有利于降低语音标注的成本。

在一个可选示例中，本公开中的病句纠错模型的输入呈现为语句对形式。也就是说，病句纠错模型的输入通常为输入语句对。输入语句对包括两个语句，其中一个语句为正确语句，另一个语句为错误语句。输入语句对中的正确语句并不是指完全正确或者绝对正确的语句，而是指被看作是正确的语句。输入语句对中的错误语句并不是指一定带有错误的语句，而是指被看作是错误的语句。输入语句对中的正确语句可以为有效语句，也可以为无效语句(如被填充为预定值的语句)，而输入语句对中的错误语句通常为有效语句。

在一个可选示例中，本公开可以通过多种方式获取到待标注语音的待标注处理语句。

一个例子，本公开可以采用语音识别的方式，获取到待标注语音的待标注处理语句。例如，本公开可以将待标注语音提供给预设的语音识别模型，经由该语音识别模型对待标注语音进行语音识别处理，从而本公开可以根据该语音识别模型的输出，获得待标注语音的语音识别结果，本公开中的待标注处理语句可以包括该语音识别结果。

再一个例子，本公开可以采用对待筛选集合中的待筛选语句对进行筛选处理的方式，获得待标注语音的待标注处理语句。待筛选集合通常包括多个待筛选语句对，每一个待筛选语句对均包括一个正确语句和一个错误语句，一个筛选语句所包含的正确语句和错误语句均是针对同一个待标注语音的。一个待筛选语句对中的正确语句并不是指完全正确或者绝对正确的语句，而是指被看作是正确的语句。同样的，一个待筛选语句对中的错误语句并不是指一定带有错误的语句，而是指被看作是错误的语句。本公开对待筛选集合中的多个待筛选语句对进行筛选处理的目的在于：获得训练质量较好的标注语句。本公开从待筛选语句对中筛选出的语句对被作为待标注处理语句。本公开中的训练质量较好的标注语句对可以是指：在利用该标注语句对语音识别模型进行训练时，语音识别模型的语音识别结果的准确性往往较差。

本公开通过采用语音识别方式和/或基于待筛选集合的筛选模式，获取待标注处理语句，并基于待标注处理语句形成待标注语音的标注语句，在有利于提高获得待标注语音的待标注处理语句方式的多样性的同时，有利于获得训练质量较高的标注语句。

在一个可选示例中，在本公开中的病句纠错模型的输入包括：由正确语句和错误语句形成的输入语句对的情况下，本公开中的将待标注处理语句提供给病句纠错模型的一种方式可以为：将语音识别结果作为病句纠正模型的输入语句对中的错误语句，并将输入语句对中的正确语句设置为无效语句，之后，将该输入语句对提供给病句纠错模型。本公开中的将待标注处理语句提供给病句纠错模型的另一种方式可以为：将从待筛选集合中筛选出的语句对直接作为病句纠正模型的输入语句对，具体的，对于从待筛选集合中筛选出的任一语句对而言，可以将该语句对中的正确语句作为输入语句对中的正确语句，将该语句对中的错误语句作为输入语句对中的错误语句。另外，待筛选集合中的待筛选语句对中的正确语句也可以为无效语句。

由于本公开中的输入语句对中的正确语句可以被设置为无效语句，因此，可以满足基于语音的数据标注方法的冷启动对输入数据的要求，从而有利于实现基于语音的数据标注方法的冷启动。另外，本公开通过将正确语句和错误语句以语句对的形式，提供给病句纠错模型，有利于提高病句纠错模型预测出的纠正语句的准确性。

需要特别说明的是，本公开提供给病句纠错模型的待标注处理语句通常表示为至少一个词向量的形式。一个词向量可以表示一个字(例如，一个汉字或者一个外文单词等)或者一个词(例如，一个词组等)。本公开中的无效语句可以是指语句中的所有词向量均被填充的预定值(如零等)。输入语句对中的正确语句可以被表示为下述公式(1)的形式，输入语句对中的错误语句可以被表示为下述公式(2)的形式：

在上述公式(1)和公式(2)中，

和

分别表示输入语句对中的正确语句中的第一个词向量、第二个词向量、第n-1个词向量以及第n个词向量；

以及

分别表示输入语句对中的错误语句中的第一个词向量、第二个词向量、第m-1个词向量以及第m个词向量；其中的n和m均为大于3的正整数，且n和m可以相等；n和m通常为预先设置的已知值。在待标注处理语句所包含的词向量的数量小于n和m的情况下，可以将输入语句对中的正确语句和错误语句中的相应词向量填充为预定值(如零等)。

在一个可选示例中，本公开的病句纠错模型可以包括：位置信息编码层、至少一个解码器(Decoder)以及激活层(如线性激活层)。本公开中的病句纠错模型包括但不限于图3所示的例子。

图3中的病句纠错模型包括：位置信息编码层300、多个解码器301(图3中示出了6个解码单元)以及激活层302(例如，线性激活层)。

位置信息编码层300用于对病句纠错模型的输入语句对中的正确语句以及错误语句中的各词向量分别进行位置编码，并在各词向量中分别加入相应的位置编码。位置信息编码层300针对输入语句对中的正确语句中的各词向量所执行的位置编码处理可以表示为下述公式(3)的形式：

在上述公式(3)中，

以及

分别表示在输入语句对中的正确语句中的第一个词向量

第二个词向量

第n-1个词向量

以及第n个词向量

中分别加入相应的位置编码后形成的向量。

同理，位置信息编码层300在输入语句对中的错误语句中的第一个词向量

第二个词向量

第m-1个词向量

以及第m个词向量

中分别加入相应的位置编码后形成的向量可以表示为

本公开中的一个解码器301可以包括三个单元。其中第一个单元包括：多头自注意力(Multi-head self-attention)层3011以及层规范化(Normalization)层3012；其中第二个单元包括：多头自注意力层3013以及层规范化层3014。其中第三个单元包括：前馈(FeedForward)神经网络层3015以及层规范化层3016。

多头自注意力层3011和多头自注意力层3013均包括多个自注意力层(如8个自注意力层)。多头自注意力层3011和多头自注意力层3013所执行的操作可以表示为下述公式(4)的形式：

MultiHead(Q,K,V)＝Concat(head₁,head₂,......,head_n) 公式(4)

在上述公式(4)中，MultiHead(Q,K,V)表示多头自注意力层的输出；Q、K和V均为多头自注意力层的参数，通常为训练获得的数值；Q为多头自注意力层的查询向量，Q与多头自注意力层输入的词向量相乘可以得到输入的词向量的查询向量；K为多头子注意力层的键向量，K与多头自注意力层输入的词向量相乘可以得到输入的词向量的键向量；V为多头自注意力层的值向量，V与多头自注意力层输入的词向量相乘可以得到输入的词向量的值向量；head₁、head₂和head_n分别表示多头自注意力层中的第一个自注意力层的输出、第二个自注意力层的输出以及第n个自注意力层的输出；Concat(*)表示连接。

上述公式(4)中的head₁、head₂、……以及head_n可以表示为下述公式(5)的形式：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) 公式(5)

在上述公式(5)中，W_i ^Q表示第i个词向量针对Q的权重；W_i ^K表示第i个词向量针对K的权重；W_i ^V表示第i个词向量针对V的权重；Attention(*)表示自注意力层基于*对其输入的词向量所执行的操作。例如，Attention(*)可以表示为下述公式(6)的形式：

在上述公式(6)中，Softmax是一个用于分类的函数；Softmax(*)表示基于参数*对输入的词向量执行分类操作；

表示词向量的维度。

层规范化用于对其输入进行正则以及线性变换处理。

前馈神经网络层所执行的操作可以表示为下述公式(7)的形式：

FFD(x)＝ReLU(W₁x+b₁)W₂+b₂ 公式(7)

在上述公式(7)中，FFD(x)表示前馈神经网络层的输出；W₁、b₁、W₂和b₂为前馈神经网络侧的参数，通常为训练获得的数值；ReLU(W₁x+b₁)表示基于(W₁x+b₁)的线性激活函数，即取(W₁x+b₁)矩阵中的第0维的最大值，该线性激活函数可以简单的表示为下述公式(8)的形式。

ReLU(*)＝max(0,*) 公式(8)

多个解码器301可以堆叠串接，例如，第一个解码器301的输出与第二个解码器301的输入连接、第二个解码器301的输出与第三个解码器301的输入连接、……最后一个解码器301的输出与激活层302(如线性激活层)的输入连接。

在病句纠错模型包括串联的6个解码器301的情况下，最后一个解码器301的输出可以表示为下述公式(9)的形式：

在上述公式(9)中，h^r表示病句纠错模型中的最后一个解码器301的输出，h^r可以认为是用于数据分发评估的归一化概率。

可选的，激活层302的输出可以表示为下述公式(10)的形式：

Oⁱ＝W^dh^r+b 公式(10)

在上述公式(10)中，Oⁱ可以为

表示对于输入语句对中的错误语句中的第i个词而言，词表中的第一个词的分数；

表示对于输入语句对中的错误语句中的第i个词而言，词表中的第二个词的分数；

表示对于输入语句对中的错误语句中的第i个词而言，词表中的第v-1个词的分数；

表示对于输入语句对中的错误语句中的第i个词而言，词表中的第v个词的分数；W^d和b表示激活层302的参数，通常为训练获得的数值。

需要特别说明的是，

被提供给病句纠错模型中的第一个解码器301的第一个单元中的多头自注意力层3011，而

被提供给病句纠错模型中的每一个解码器的第二个单元中的多头自注意力层3013。

在一个可选示例中，在本公开的病句纠错模型包括解码器的情况下，本公开对待筛选集合中的待筛选语句对进行筛选处理的一个例子可以为：将待筛选集合中的多个待筛选语句对分别提供给病句纠错模型中的解码器，经由该解码器对待筛选集合中的多个待筛选语句对分别进行筛选处理。具体的，对于任一待筛选语句对而言，其中的错误语句的各词向量在被位置编码处理后，被提供给病句纠错模型中的第一个解码器的输入；而其中的正确语句的各词向量在被位置编码处理后，被提供给病句纠错模型中的每一个解码器的第二个单元中的多头自注意力层。本公开可以将待根据病句纠错模型中的最后一个解码器的输出(如用于数据分发评估的归一化概率)，确定待筛选集合中的各待筛选语句对的评分，并根据各待筛选语句对的评分确定从待筛选集合中筛选出的语句对。也就是说，将多个待筛选语句对中的评分满足预定评分要求的待筛选语句作为筛选出的语句。例如，将评分高于预定分数的待筛选语句对作为筛选出的语句对。再例如，将前N个评分的待筛选语句对作为筛选出的语句对。

本公开通过利用病句纠错模型中的解码器对待筛选集合中的待筛选语句对进行筛选，有利于便捷的获得有可能成为高质量的训练数据的标注语句，从而在利用较少数量的标注语句对语音识别模型进行训练时，有利于获得较高质量的训练效果。也就是说，本公开在获得标注语句时，采用了主动学习的筛选策略，从而本公开的基于语音的数据标注方式可以称为基于主动学习的数据标注方式，最终有利于提高语音识别模型的训练效率。

在一个可选示例中，本公开可以对病句纠错模型输出的纠正语句进行一定程度的干预，形成纠正语句的干预语句，并利用干预语句和纠正语句确定待标注语音的标注语句。具体的，本公开可以将病句纠错模型的输入语句对中的正确语句和纠正语句均提供给标注干预平台，经由标注干预平台对纠正语句进行标注干预，生成纠正语句的干预语句，从而本公开可以从标注干预平台处获得纠正语句的干预语句，之后，本公开可以根据干预语句和纠正语句，确定待标注语音的标注语句。

可选的，本公开中的标注干预平台可以包括但不限于人工标注干预平台，该人工标注干预平台可以为众标平台。本公开中的标注干预平台用于对纠正语句进行校正处理。标注干预平台所形成的纠正语句的干预语句可能是完全正确的语句，也可能仍然存在错误。另外，在本公开将病句纠错模型的输入语句对中的正确语句和纠正语句作为一个语句对提供给标注干预平台的情况下，本公开可以从标注干预平台处获得该纠正语句的一个或者多个干预语句。一个例子，假定正确语句为“我去北京西二旗附近租房”，假定纠正语句为“我去南京的颐和园附近租房”，在将该正确语句和纠正语句均提供给标注干预平台的情况下，本公开从标注干预平台处获取到的纠正语句的干预语句可以包括但不限于：“我去北京西二旗附近租房”以及“我去北京的颐和园附近租房”等。

需要特别说明的是，本公开提供的技术方案可以包括：将病句纠错模型的输入语句对中的正确语句和病句纠错模型输出的纠正语句均提供给标注干预平台的操作、以及从标注干预平台处获得纠正语句的干预语句的操作，本公开提供的技术方案可以不包括标注干预平台所执行的操作。

由于标注干预平台可以在不需要播放待标注语音的情况下，对纠正语句进行标注干预，因此，本公开可以有效的减少标注干预平台的工作量。另外，本公开通过利用从标注干预平台处获取的纠正语句的干预语句以及纠正语句来确定待标注语音的标注语句，有利于使待标注语音的标注语句逐渐的逼近待标注语音的理想标注语句。

在一个可选示例中，本公开的根据干预语句和纠正语句，确定待标注语音的标注语句的方式可以如图4所示。

图4中，S400、获取干预语句和纠正语句的相似信息。

可选的，本公开中的干预语句和纠正语句的相似信息可以包括但不限于：相对于干预语句而言，纠正语句的困惑度。本公开中的相对于干预语句而言，纠正语句的困惑度也可以认为是：纠正语句被认为是干预语句的置信度。

可选的，本公开可以利用困惑度评测模型获得干预语句和纠正语句的相似信息。即本公开可以将干预语句和纠正语句作为输入提供给困惑度评测模型，困惑度评测模型会输出纠正语句被认为是干预语句的置信度，从而本公开获得干预语句和纠正语句的相似信息。本公开通过利用困惑度评测模型可以便捷的获得干预语句和纠正语句的相似信息。

可选的，本公开利用困惑度评测模型获得干预语句和纠正语句的相似信息的过程可以表示为下述公式(11)的形式：

在上述公式(11)中，PPL表示相对于干预语句而言，纠正语句的困惑度；

表示纠正语句中的第i个词的被认为是干预语句中的词的概率以及被认为不是干预语句中的词的概率，也就是说，

表示纠正语句中的第i词属于预定类别的概率分布；N表示纠正语句所包含的词的数量。本公开可以利用纠正语句中的第i个词的被认为不是干预语句中的词的概率来确定纠正语句的困惑度。

S401、判断干预语句和纠正语句的相似信息是否满足预定相似条件。如果判断结果为该相似信息满足预定相似条件，则到S402。如果判断结果为该像素信息不满足预定相似条件，则到S403。

可选的，在干预语句和纠正语句的相似信息包括：纠正语句的困惑度的情况下，本公开中的预定相似条件可以包括：纠正语句的困惑度低于纠正语句的困惑度。也就是说，在判断出纠正语句的困惑度低于纠正语句的困惑度时，两者的相似信息满足预定相似条件，而在纠正语句的困惑度不低于纠正语句的困惑度时，两者的相似信息不满足预定相似条件。

S402、将干预语句和纠正语句均作为待标注语音的标注语句。

可选的，本公开可以将待标注语音和其干预语句以及纠正语句一起形成训练数据样本集合，该训练数据样本集合可以用于训练语音识别模型，例如，该训练数据样本集合可以用于训练适用于房产领域的语音识别模型。由此可知，本公开可以在不需要人工收听语音的情况下，便捷准确的获得用于训练特定领域的语音识别模型的数量数据，从而有利于提高语音标注的准确性以及标注效率，从而有利于降低语音标注的成本。

S403、将干预语句和纠正语句作为待筛选集合中的待筛选语句对。

可选的，本公开中的待筛选集合中的待筛选语句对用于形成待标注语音的待标注处理语句。也就是说，不满足预定相似条件的干预语句和纠正语句在经过筛选后，可能会被作为输入语句对提供给病句纠错模型。在待筛选语句对包括正确语句和错误语句的情况下，干预语句被作为待筛选语句对中的正确语句，而纠正语句被作为待筛选语句对中的错误语句。

本公开通过利用干预语句和纠正语句形成待筛选语句对，而待筛选语句对又会在筛选后被提供给病句纠错模型，从而可以在不断的充实待筛选语句集合的同时，不断的利用待筛选语句集合形成待标注语音的标注语句，从而有利于提高语音标注的准确性以及标注效率。

在一个可选示例中，本公开中的病句纠错模型是利用语句对样本对待训练病句纠错模型进行训练形成的。本公开中的语句对样本通常包括两个语句样本，即正确语句样本和错误语句样本，且一个语句对样本中的正确语句样本和错误语句样本通常是针对同一个语音的。本公开利用语句对样本对待训练病句纠错模型进行训练的过程可以如图5所示。

图5中，S500、获取语句对样本。

可选的，本公开可以从语句对样本集合中获取语句对样本。该语句对样本集合可以包括两部分内容，即语句对样本集合可以包括两个集合，其中一个集合为语音的标注语句集合，其中另一个集合为待标注语音的待标注处理语句集合。语音的标注语句集合中包括至少一个已对语音成功标注的语句对样本；例如，利用本公开的方法确定出的待标注语音的标注语句，标注语句可以称为语音的标注标签。待标注语音的待标注处理语句集合可以包括上述待筛选集合。待标注语音的待标注处理语句集合中的语句对样本还没有成为语音的标注标签。本公开可以从语音的标注语句集合和待标注语音的待标注处理语句集合中的至少一个集合中获取多个语句对样本。

本公开的语句对样本集合T可以表示为下述(12)的形式：

T＝{(x₁,y₁),(x₂,y₂),......,(x_m,y_m)} 公式(12)

在上述公式(12)中，(x₁,y₁)表示语句对样本集合T中的第一个语句对样本；(x₂,y₂)表示语句对样本集合T中的第二个语句对样本；(x_m,y_m)表示语句对样本集合T中的第m个语句对样本。

可选的，在本公开中的待训练病句纠错模型包括解码器的情况下，本公开可以将语句对样本集合(如标注语句集合和/或待标注处理语句集合)中的多个语句对样本均提供给待训练病句纠错模型中的解码器，经由解码器对语句对样本集合中的多个语句对样本进行筛选处理，从而筛选出训练质量较好的语句对样本，并提供给待训练病句纠错模型的语音对样本。

可选的，本公开可以利用病句纠错模型中的最后一个解码器针对每一个语句对样本输出的用于数据分发评估的归一化概率，来确定各语句对样本的训练质量，从而有利于量化语句对样本的训练质量。通过对各语句对样本的训练质量进行比对，即可筛选出训练质量较好的语句对样本。本公开通过对语句对样本集合中的语句对样本进行筛选，使本公开可以利用较少数量的语句对样本，获得较高质量的训练效果。也就是说，本公开在为病句纠错模型提供语句对样本时，采用了主动学习的筛选策略，因此，本公开的病句纠错模型的训练方式可以称为基于主动学习的训练方式，最终有利于提高病句纠错模型的训练效率。

S501、将语句对样本提供给待训练病句纠错模型，并经由待训练病句纠错模型对语句对样本中的错误语句样本进行语句预测处理，获得错误语句样本的纠正语句。

可选的，本公开中的待训练病句纠错模型可以包括：位置信息编码层、至少一个解码器、至少一个编码器以及激活层，其中的解码器可以为图3所示的解码器。其中的编码器与解码器连接，即编码器的输出被作为解码器的输入。在待训练病句纠错模型成功训练后，本公开可以采用断开编码器与解码器之间的连接关系或者将编码器从病句纠错模型中去除等方式，使成功训练后的病句纠错模型所执行的所有操作不包含有编码器执行的操作。

可选的，待训练病句纠错模型中的编码器的一个例子如图6所示。

图6中的位置信息编码层600用于对待训练病句纠错模型的输入语句对样本中的正确语句中的各词向量进行位置编码。位置信息编码层600的输出提供给待训练病句纠错模型中的第一个编码器601。编码器600可以包括：两个单元。其中第一个单元包括：多头自注意力层6011以及层规范化层6012。第二个单元包括：前馈神经网络层6013和层规范化层6014。在待训练病句纠错模型包括多个编码器601(图6中示出了6个编码单元)的情况下，多个编码器601可以堆叠串接，即第一个编码器的输出与第二个编码器的输入连接、第二个编码器的输出与第三编码器的输入连接、……最后一个编码器的输出与待训练病句纠错模型中的每一个解码器分别连接。例如，最后一个编码单元的输出与每一个解码器中的第二个多头自注意力层的输入连接。

包含有编码器和解码器的待训练病句纠错模型的一个例子如图7所示。

图7中，待训练病句纠错模型包括：位置信息编码层700、至少一个编码器701(图7中示出了6个编码器)、位置信息编码层702、至少一个解码器703(图7中示出了6个解码单元)以及激活层704(例如，线性激活层)。

每一个编码器701均包括：两个单元。其中的第一个单元包括：多头自注意力层7011以及层规范化层7012。其中的第二个单元包括：前馈神经网络层7013和层规范化层7014。

每一个解码器703均包括：三个单元。其中的第一个单元包括：多头自注意力层7031以及层规范化层7032。其中的第二个单元包括：多头自注意力层7033以及层规范化层7034。其中的第三个单元包括：前馈神经网络层7035和层规范化层7036。

多个编码器701和多个解码器703可以堆叠串接，例如，第一个编码器701的层规范化层7014的输出与第二个编码器701的多头自注意力层7011的输入连接、第二个编码器701的层规范化层7014的输出与第三个编码器701的多头自注意力层7011的输入连接、……第六个编码器701的层规范化层7034的输出与六个解码器703中的每一个多头自注意力层7033的输入分别连接；第一个解码器703中的层规范化层7036的输出与第二个解码器703中的多头自注意力层7031的输入连接；第二个解码器703中的层规范化层7036的输出与第三个解码器703中的多头自注意力层7031的输入连接、……第六个解码器703中的层规范化层7036的输出与激活层704的输入连接。位置信息编码层702为第一个解码器703提供输入，位置信息编码层700为第一个编码器701提供输入。需要说明的是，本公开中的待训练病句纠错模型可以包括一个位置信息编码层，即该位置信息编码层将语句对样本中的正确语句样本进行位置编码处理后，提供给待训练病句纠错模型中的第一个编码器701，并将语句对样本中的错误语句样本进行位置编码处理后，提供给待训练病句纠错模型中的第一个解码器703。

可选的，待训练病句纠错模型中的第六个编码器701的输出可以表示为下述公式(13)的形式：

在上述公式(13)中，

以及

分别表示在语句对样本中的正确语句样本中的第一个词向量

第二个词向量

第n-1个词向量

以及第n个词向量

中分别加入相应的位置编码后形成的向量，

表示

以及

各自对应的输出结果。

在对待训练病句纠错模型成功训练后，本公开可以断开第六个编码器701与每一个解码器703的连接。位置信息编码层700的输出可以分别与每一个解码器703中的多头自注意力层7033的输入连接。在不保留位置信息编码层700的情况下，本公开可以将位置信息编码层702的输出与每一个解码器703中的多头自注意力层7033的输入连接，以便于位置信息编码层702可以将其针对正确语句进行位置编码后的结果提供给每一个解码器703中的多头自注意力层7033。

S502、至少根据错误语句样本的纠正语句与语句对样本中的正确语句样本之间的差异，调整病句纠错模型的模型参数。

可选的，本公开中的错误语句样本的纠正语句与语句对样本中的正确语句样本之间的差异，所形成的损失可以表示为下述公式(14)的形式：

在上述公式(14)中，yi表示n_l中的第i个语句对样本中的错误语句样本的纠正语句(利用词向量表示的纠正语句)；f(x_i)表示n_l中的第i个语句对样本中的正确语句样本(利用词向量表示的正确语句样本)；nl表示语音的标注语句集合；v_j表示x_j的句子简易程度，v_j∈[0,1]，例如，v_j越接近0表示句子越简易，而v_j越接近1表示句子越复杂；w_j表示x_j的句子信息丰富程度，w_j∈[0,1]，例如，w_j越接近0表示句子信息越单一，越接近1表示句子信息越丰富；

表示在语句对样本中的正确语句样本为无效语句时，本公开为该语句对样本中的正确语句样本的赋值，且

f(x_j)表示n_u中的第j个语句对样本中的正确语句样本(利用词向量表示的正确语句样本)；n_u表示待标注语音的待标注处理语句集合。

可选的，本公开可以利用上述计算出的损失，进行反向传播，以更新待训练病句纠错模型的网络参数。例如，更新所有编码器、所有解码器以及激活层的网络参数。

可选的，本公开可以不仅根据上述计算出的损失来更新待训练病句纠错模型的网络参数，还可以采用其他方式来计算损失，并利用采用其他方式计算出的损失来更新待训练病句纠错模型的网络参数。例如，本公开可以根据错误语句样本的纠正语句与语句对样本中的正确语句之间的差异、基于预设过滤规则对语句对样本集合中的多个语句对样本的过滤结果、待训练病句纠错模型的解码器针对语句对样本集合中的多个语句对样本生成的用于数据分发评估的归一化概率以及正则项，调整待训练病句纠错模型的模型参数。也就是说，本公开可以利用下述公式(15)计算损失：

在上述公式(15)中，l(f,w,v)可以表示为上述公式(13)的形式；g(v)表示基于预设过滤规则对语句对样本集合中的多个语句对样本的过滤结果，该预设过滤规则可以是针对句子复杂度的过滤规则，且g(v)可以表示为下述公式(16)的形式；h(L∪U,U\Q)表示待训练病句纠错模型中的最后一个解码器输出的用于数据分发评估的归一化概率；L表示语音的标注语句集合n_l中的语句对样本，即具有标签的语句对样本；U表示待标注语音的待标注处理语句集合n_u中的语句对样本，即不具有标签的语句对样本；Q表示筛选获得的语句对样本；Ω(f)表示正则项，且Ω(f)可以表示为下述公式(17)的形式；γ、μ和λ均表示权重，为已知值。

在上述公式(16)中，v表示权重矩阵；n_u表示待标注语音的待标注处理语句集合；v_j表示n_u中的第j个语句对样本。

Ω(f)＝||f||² 公式(17)

在上述公式(17)中，f表示f(x_i)或者f(x_j)；f(x_i)表示n_l中的第i个语句对样本中的正确语句样本(利用词向量表示的正确语句样本)；f(x_j)表示n_u中的第j个语句对样本中的正确语句样本(利用词向量表示的正确语句样本)。

由于本公开允许语句对样本中的正确语句样本为无效语句，因此，本公开对待训练病句纠错模型的训练过程，可以实现冷启动训练，从而本公开可以在语句对样本为不带有标签的语句对样本的情况下，实现对待训练病句纠错模型的训练，进而有利于提供病句纠错模型的训练效率。

示例性装置

图8为本公开的基于语音的数据标注装置一个实施例的结构示意图。该实施例的装置可用于实现本公开上述各方法实施例。

如图8所示，该实施例的装置包括：第一获取模块800、第二获取模块801以及确定标注语句模块802。可选的，该装置还可以包括：形成集合模块803以及训练模块804中的至少一个。

第一获取模块800用于获取待标注语音的待标注处理语句。

可选的，第一获取模块800可以包括：第一子模块和第二子模块中的至少一个。第一子模块用于获取待标注语音的语音识别结果，其中，语音识别结果被作为待标注处理语句。第二子模块用于对待筛选集合中的待筛选语句对进行筛选处理，获得筛选出的语句对，其中，筛选出语句对被作为所述待标注处理语句。例如，第二子模块可以将待筛选集合中的待筛选语句对提供给所述病句纠错模型中的解码器，第二子模块根据解码器的输出，确定从待筛选集合中的待筛选语句中筛选出的语句对。

第二获取模块801用于将待标注处理语句提供给病句纠错模型，并经由病句纠错模型对待标注处理语句进行语句预测处理，获得预测出的纠正语句。

可选的，在病句纠错模型的输入包括：由正确语句和错误语句形成的输入语句对的情况下，第二获取模块801可以包括：第三子模块和第四子模块。第三子模块用于将语音识别结果作为病句纠正模型的输入语句对中的错误语句，将输入语句对中的正确语句设置为无效语句，并将输入语句对提供给病句纠错模型。第四子模块用于将筛选出的语句对作为病句纠正模型的输入语句对，提供给病句纠错模型。

确定标注语句模块802用于根据纠正语句，确定待标注语音的标注语句。

可选的，确定标注语句模块802可以包括：第五子模块和第六子模块。第五子模块用于根据病句纠错模型的输入语句对中的正确语句和纠正语句，获取纠正语句的干预语句。例如，第五子模块可以将病句纠错模型的输入语句对中的正确语句和纠正语句提供给标注干预平台，并从标注干预平台处获得纠正语句的干预语句。第六子模块用于根据干预语句以及纠正语句，确定待标注语音的标注语句。

可选的，第六子模块可以包括：第一单元和第二单元。第一单元用于获取干预语句和纠正语句的相似信息。例如，第一单元可以根据干预语句，确定纠正语句的困惑度，其中，纠正语句的困惑度被作为相似信息。第二单元用于若相似信息满足预定相似条件，则第二单元将干预语句和纠正语句作为待标注语音的标注语句。本公开中的相似信息满足预定相似条件可以具体为纠正语句的困惑度低于纠正语句的困惑度。

可选的，形成集合模块803用于若相似信息不满足预定相似条件，则将干预语句和纠正语句作为待筛选集合中的待筛选语句对。其中，待筛选集合中的待筛选语句对中的被筛选出的语句对，被作为待标注处理语句。

训练模块804用于利用语句对样本对待训练病句纠错模型进行训练，以形成病句纠错模型。其中的语句对样本包括：正确语句样本和错误语句样本。

可选的，训练模块804可以包括：第七子模块、第八子模块以及第九子模块。

第七子模块用于获取语句对样本。例如，第七子模块可以从语音的标注语句集合以及待标注语音的待标注处理语句集合中的至少一个集合中，获取语句对样本。更进一步的，第七子模块可以将标注语句集合中的多个标注语句和/或待标注处理语句集合中的多个待标注处理语句，提供给待训练病句纠错模型；第七子模块可以根据待训练病句纠错模型的输出，确定多个标注语句和/或多个待标注处理语句的筛选结果，获得语句对样本。

第八子模块用于将语句对样本提供给待训练病句纠错模型，并经由待训练病句纠错模型对语句对样本中的错误语句样本进行语句预测处理，获得错误语句样本的纠正语句。在待训练病句纠错模型包括：解码器和编码器的情况下，第八子模块可以将标注语句集合中的多个标注语句和/或待标注处理语句集合中的多个待标注处理语句中的正确语句，提供给待训练病句纠错模型的编码器；第八子模块将标注语句集合中的多个标注语句和/或待标注处理语句集合中的多个待标注处理语句中的错误语句，提供给待训练病句纠错模型的解码器。其中，编码器的输出被提供给解码器的中间层的输入。

第九子模块用于至少根据错误语句样本的纠正语句与语句对样本中的正确语句样本之间的差异，调整病句纠错模型的模型参数。例如，第九子模块可以根据错误语句样本的纠正语句与语句对样本中的正确语句之间的差异、基于预设过滤规则对所述语句对样本集合中的多个语句对样本的过滤结果、待训练病句纠错模型的解码器针对语句对样本集合中的多个语句对样本生成的用于数据分发评估的归一化概率以及正则项，调整病句纠错模型的模型参数。

训练模块804及其包括的子模块具体执行的操作可以参见上述方法实施例中针对图5-7的描述，在此不再详细说明。

示例性电子设备

下面参考图9来描述根据本公开实施例的电子设备。图9示出了根据本公开实施例的电子设备的框图。如图9所示，电子设备91包括一个或多个处理器911和存储器912。

处理器911可以是中央处理单元(CPU)或者具有基于语音的数据标注能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备91中的其他组件以执行期望的功能。

存储器912可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器，例如，可以包括：随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器，例如，可以包括：只读存储器(ROM)、硬盘以及闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器911可以运行所述程序指令，以实现上文所述的本公开的各个实施例的基于语音的数据标注方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备91还可以包括：输入装置913以及输出装置914等，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外，该输入设备913还可以包括例如键盘、鼠标等等。该输出装置914可以向外部输出各种信息。该输出设备914可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图9中仅示出了该电子设备91中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备91还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的基于语音的数据标注方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的基于语音的数据标注方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括：具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备以及系统。诸如“包括”、“包含、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述，以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言，是非常显而易见的，并且在此定义的一般原理可以应用于其他方面，而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于语音的数据标注方法，包括：

获取待标注语音的待标注处理语句；

将所述待标注处理语句提供给病句纠错模型，并经由所述病句纠错模型对所述待标注处理语句进行语句预测处理，获得预测出的纠正语句；

根据所述纠正语句，确定所述待标注语音的标注语句；

其中，所述根据所述纠正语句，确定所述待标注语音的标注语句，包括：

根据所述病句纠错模型的输入语句对中的正确语句和所述纠正语句，获取所述纠正语句的干预语句；

根据所述干预语句以及纠正语句，确定所述待标注语音的标注语句。

2.根据权利要求1所述的方法，其中，所述获取待标注语音的待标注处理语句，包括：

获取待标注语音的语音识别结果，其中，所述语音识别结果被作为待标注处理语句；和/或

对待筛选集合中的待筛选语句对进行筛选处理，获得筛选出的语句对，其中，所述筛选出语句对被作为所述待标注处理语句。

3.根据权利要求2所述的方法，其中，所述病句纠错模型的输入包括：由正确语句和错误语句形成的输入语句对；

所述将所述待标注处理语句提供给病句纠错模型，包括：

将所述语音识别结果作为所述病句纠错模型的输入语句对中的错误语句，将所述输入语句对中的正确语句设置为无效语句，并将所述输入语句对提供给病句纠错模型；或者

将所述筛选出的语句对作为所述病句纠错模型的输入语句对，提供给病句纠错模型。

4.根据权利要求2所述的方法，其中，所述对待筛选集合中的待筛选语句对进行筛选处理，获得筛选出的语句对，包括：

将所述待筛选集合中的待筛选语句对提供给所述病句纠错模型中的解码器；

根据所述解码器的输出，确定从所述待筛选集合中的待筛选语句中筛选出的语句对。

5.根据权利要求1所述的方法，其中，所述根据所述干预语句以及纠正语句，确定所述待标注语音的标注语句，包括：

获取所述干预语句和所述纠正语句的相似信息；

若所述相似信息满足预定相似条件，则将所述干预语句和所述纠正语句作为所述待标注语音的标注语句。

6.根据权利要求5所述的方法，其中，所述获取所述干预语句和所述纠正语句的相似信息，包括：

根据所述干预语句，确定所述纠正语句的困惑度，其中，所述纠正语句的困惑度被作为所述相似信息；

所述相似信息满足预定相似条件，包括：

所述纠正语句的困惑度低于所述纠正语句的困惑度。

7.根据权利要求5所述的方法，其中，所述方法还包括：

若所述相似信息不满足所述预定相似条件，则将所述干预语句和所述纠正语句作为待筛选集合中的待筛选语句对；

其中，所述待筛选集合中的待筛选语句对中的被筛选出的语句对，被作为所述待标注处理语句。

8.根据权利要求1至7中任一项所述的方法，其中，所述方法还包括：

利用语句对样本对待训练病句纠错模型进行训练，以形成所述病句纠错模型；

其中，所述语句对样本包括：正确语句样本和错误语句样本。

9.根据权利要求8所述的方法，其中，所述利用语句对样本对待训练病句纠错模型进行训练，包括：

获取语句对样本；

将所述语句对样本提供给所述待训练病句纠错模型，并经由所述待训练病句纠错模型对所述语句对样本中的错误语句样本进行语句预测处理，获得所述错误语句样本的纠正语句；

至少根据所述错误语句样本的纠正语句与所述语句对样本中的正确语句样本之间的差异，调整所述病句纠错模型的模型参数。

10.根据权利要求9所述的方法，其中，所述获取语句对样本，包括：

从语音的标注语句集合以及待标注语音的待标注处理语句集合中的至少一个集合中，获取语句对样本。

11.根据权利要求10所述的方法，其中，所述从语音的标注语句集合以及待标注语音的待标注处理语句集合中的至少一个集合中，获取语句对样本，包括：

将所述标注语句集合中的多个标注语句和/或所述待标注处理语句集合中的多个待标注处理语句，提供给所述待训练病句纠错模型；

根据所述待训练病句纠错模型的输出，确定所述多个标注语句和/或所述多个待标注处理语句的筛选结果，获得语句对样本。

12.根据权利要求11所述的方法，其中，所述待训练病句纠错模型包括：解码器和编码器；

所述将所述标注语句集合中的多个标注语句和/或所述待标注处理语句集合中的多个待标注处理语句，提供给所述待训练病句纠错模型，包括：

将所述标注语句集合中的多个标注语句和/或所述待标注处理语句集合中的多个待标注处理语句中的正确语句，提供给所述待训练病句纠错模型的编码器；

将所述标注语句集合中的多个标注语句和/或所述待标注处理语句集合中的多个待标注处理语句中的错误语句，提供给所述待训练病句纠错模型的解码器；

其中，所述编码器的输出被提供给解码器的中间层的输入。

13.根据权利要求10所述的方法，其中，所述至少根据所述错误语句样本的纠正语句与所述语句对样本中的正确语句样本之间的差异，调整所述病句纠错模型的模型参数，包括：

根据所述错误语句样本的纠正语句与所述语句对样本中的正确语句之间的差异、基于预设过滤规则对所述语句对样本集合中的多个语句对样本的过滤结果、所述待训练病句纠错模型的解码器针对所述语句对样本集合中的多个语句对样本生成的用于数据分发评估的归一化概率以及正则项，调整所述病句纠错模型的模型参数。

14.一种基于语音的数据标注装置，其中，所述装置包括：

第一获取模块，用于获取待标注语音的待标注处理语句；

第二获取模块，用于将所述待标注处理语句提供给病句纠错模型，并经由所述病句纠错模型对所述待标注处理语句进行语句预测处理，获得预测出的纠正语句；

确定标注语句模块，用于根据所述纠正语句，确定所述待标注语音的标注语句；

其中，所述确定标注语句模块，包括：

第五子模块，用于根据所述病句纠错模型的输入语句对中的正确语句和所述纠正语句，获取所述纠正语句的干预语句；

第六子模块，用于根据所述干预语句以及纠正语句，确定所述待标注语音的标注语句。

15.根据权利要求14所述的装置，其中，所述第一获取模块包括：

第一子模块，用于获取待标注语音的语音识别结果，其中，所述语音识别结果被作为待标注处理语句；和/或

第二子模块，用于对待筛选集合中的待筛选语句对进行筛选处理，获得筛选出的语句对，其中，所述筛选出语句对被作为所述待标注处理语句。

16.根据权利要求15所述的装置，其中，所述病句纠错模型的输入包括：由正确语句和错误语句形成的输入语句对；

所述第二获取模块包括：

第三子模块，用于将所述语音识别结果作为所述病句纠错模型的输入语句对中的错误语句，将所述输入语句对中的正确语句设置为无效语句，并将所述输入语句对提供给病句纠错模型；或者

第四子模块，用于将所述筛选出的语句对作为所述病句纠错模型的输入语句对，提供给病句纠错模型。

17.根据权利要求15所述的装置，其中，所述第二子模块具体用于：

18.根据权利要求14所述的装置，其中，所述第六子模块包括：

第一单元，用于获取所述干预语句和所述纠正语句的相似信息；

第二单元，用于若所述相似信息满足预定相似条件，则将所述干预语句和所述纠正语句作为所述待标注语音的标注语句。

19.根据权利要求18所述的装置，其中，所述第一单元具体用于：

所述相似信息满足预定相似条件，包括：

所述纠正语句的困惑度低于所述纠正语句的困惑度。

20.根据权利要求18所述的装置，其中，所述装置还包括：

形成集合模块，用于若所述相似信息不满足所述预定相似条件，则将所述干预语句和所述纠正语句作为待筛选集合中的待筛选语句对；

21.根据权利要求14至20中任一项所述的装置，其中，所述装置还包括：

训练模块，用于利用语句对样本对待训练病句纠错模型进行训练，以形成所述病句纠错模型；

22.根据权利要求21所述的装置，其中，所述训练模块包括：

第七子模块，用于获取语句对样本；

第八子模块，用于将所述语句对样本提供给所述待训练病句纠错模型，并经由所述待训练病句纠错模型对所述语句对样本中的错误语句样本进行语句预测处理，获得所述错误语句样本的纠正语句；

第九子模块，用于至少根据所述错误语句样本的纠正语句与所述语句对样本中的正确语句样本之间的差异，调整所述病句纠错模型的模型参数。

23.根据权利要求22所述的装置，其中，所述第七子模块具体用于：

24.根据权利要求23所述的装置，其中，所述第七子模块具体用于：

25.根据权利要求24所述的装置，其中，所述待训练病句纠错模型包括：解码器和编码器；

所述第八子模块具体用于：

其中，所述编码器的输出被提供给解码器的中间层的输入。

26.根据权利要求23所述的装置，其中，所述第九子模块具体用于：

27.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-13中任一项所述的方法。

28.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-13中任一项所述的方法。