CN114266239A

CN114266239A - 数据集的生成方法及装置

Info

Publication number: CN114266239A
Application number: CN202111671826.7A
Authority: CN
Inventors: 凌悦; 付宇
Original assignee: Shengdoushi Shanghai Technology Development Co Ltd
Current assignee: Shengdoushi Shanghai Science and Technology Development Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-01

Abstract

本公开提供了一种数据集的生成方法及装置，涉及人工智能技术领域，尤其涉及自然语言处理领域。实现方案为：获取标签预测模型所输出的关于输入文本信息的至少一个标签预测类别；根据预设规则，从至少一个标签预测类别中确定至少一个不可靠标签预测类别；基于输入文本信息以及相对应的一个或多个真实标签类别生成第一样本文本集。输入文本信息以及确定出的真实标签类别可以作为新生成的样本数据以用于对其他神经网络模型的训练。由于新生成的样本数据中的不可靠标签类别已被校准，因此，后续训练完成的其他神经网络模型可以提高对于不可靠标签类别的预测的准确度。

Description

数据集的生成方法及装置

技术领域

本公开涉及人工智能技术领域，尤其涉及自然语言处理领域，具体涉及一种数据集的生成方法及装置、用于标签预测的神经网络模型的训练方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

文本分类在信息检索以及自然语言分析等诸多领域均有广泛应用。文本分类是对给定文本分配正确的标签。其中，多标签文本分类是一种较为常见的文本分类方式。在多标签文本分类中，每个给定文本会与多个标签相关联，即将多个标签分配给该给定文本。例如，对于餐饮的服务行业，一份客户评论是往往含有丰富的语义，使得客户评论既可能属于对“食品”的评价，又可能属于对“服务”的评价。因此，目前需要一种能够准确地预测一份文本信息的标签的预测模型，以便于后续的文本分析。同时，为了能够生成上述预测模型可能还需要能够训练上述预测模型的数据集。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

本公开提供了一种数据集的生成方法及装置、用于标签预测的神经网络模型的训练方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的一方面，提供了一种数据集的生成方法，包括：获取标签预测模型所输出的关于输入文本信息的至少一个标签预测类别；根据预设规则，从至少一个标签预测类别中确定至少一个不可靠标签预测类别；从至少一个不可靠标签预测类别中确定输入文本信息的一个或多个真实标签类别；以及基于输入文本信息以及相对应的一个或多个真实标签类别生成第一样本文本集。

根据本公开的另一方面，提供了一种用于标签预测的神经网络模型的训练方法，包括：获取样本文本信息及其至少一个真实标签类别，所获取的样本文本信息来自第一样本文本集并且第一样本文本集为采用上述的方法而生成的；将样本文本信息输入神经网络模型，并获取神经网络模型所输出的针对样本文本信息的至少一个标签预测类别；至少基于至少一个真实标签类别和至少一个标签预测类别，计算损失值；以及基于损失值调整神经网络模型的参数。

根据本公开的另一方面，提供了一种数据集的生成装置，包括：第一获取单元，配置成获取标签预测模型所输出的关于输入文本信息的至少一个标签预测类别；第一确定单元，配置成根据预设规则，从至少一个标签预测类别中确定至少一个不可靠标签预测类别；第二确定单元，配置成从至少一个不可靠标签预测类别中确定输入文本信息的一个或多个真实标签类别；以及生成单元，配置成基于输入文本信息以及相对应的一个或多个真实标签类别生成第一样本文本集。

根据本公开的另一方面，提供了一种用于标签预测的神经网络模型的训练装置，包括：第二获取单元，配置成获取样本文本信息及其至少一个真实标签类别，所获取的样本文本信息来自第一样本文本集并且第一样本文本集为采用上述方法而生成的；第三获取单元，配置成将样本文本信息输入神经网络模型，并获取神经网络模型所输出的针对所获取的样本文本信息的至少一个标签预测类别；计算单元，配置成至少基于至少一个真实标签类别和至少一个标签预测类别，计算损失值；以及调整单元，配置成基于损失值调整神经网络模型的参数。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，其中，计算机程序在被处理器执行时实现权利上述的方法。

根据本公开的一个或多个实施例，可以在使用标签预测模型对输入文本信息进行标签预测时，对于预测结果中的不可靠标签类别重新确定其真实标签类别。输入文本信息以及确定出的真实标签类别可以作为新生成的样本数据以用于对其他神经网络模型的训练。由于新生成的样本数据中的不可靠标签类别已被校准，因此，后续训练完成的其他神经网络模型可以提高对于不可靠标签类别的预测的准确度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1示出了根据本公开的实施方式的数据集的生成方法的流程图；

图2示出了根据本公开的实施方式的用于实现图1所示方法的系统的结构框图；

图3示出了根据本公开的实施方式的确定输入文本信息的真实标签类别的方法的流程图；

图4示出了根据本公开的实施方式的用于标签预测的神经网络模型的训练方法的流程图；

图5示出了根据本公开的实施方式的数据集的生成装置的结构框图；

图6示出了根据本公开另一实施方式的数据集的生成装置的结构框图；

图7示出了根据本公开的实施方式的用于标签预测的神经网络模型的训练装置的结构框图；

图8示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个要素与另一要素区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

下面将结合附图详细描述本公开的实施例。

图1示出了根据本公开实施方式的数据集的生成方法100的流程图。上述标签预测模型用于对输入的文本信息进行标签预测，以得到预测的标签类别。如图1所示，该方法100包括：

步骤101，获取标签预测模型所输出的关于输入文本信息的至少一个标签预测类别；

步骤102，根据预设规则，从至少一个标签预测类别中确定至少一个不可靠标签预测类别；

步骤103，从至少一个不可靠标签预测类别中确定输入文本信息的一个或多个真实标签类别；以及

步骤104，基于所述输入文本信息以及相对应的一个或多个真实标签类别生成第一样本文本集。

根据本公开的一个或多个实施例，可以在使用标签预测模型对输入文本信息进行预测时，对于预测结果中的不可靠标签类别重新确定其真实标签类别。输入文本信息以及确定出的真实标签类别可以作为新生成的样本数据用于对其他神经网络模型的训练。由于新生成的样本数据中的不可靠标签类别已被校准，因此，后续训练完成的其他神经网络模型可以提高对于不可靠标签类别的预测的准确度。

在本公开的多个实施例中，输入的文本信息可以是关于商家(特别是餐饮服务行业)的顾客评论，预测的标签类别表示顾客评论的特征分类。例如：输入的文本信息可以是“今天的汉堡很好吃”，那么对应的标签可以是“味道好”。对于同一文本信息可以具有多个标签类别，例如文本信息“今天的汉堡很好吃，但是服务员的态度不好”可以对应于“味道好”以及“态度差”两个标签类别。当然可以理解，同一文本信息还可以存在具有两种以上标签类别的文本信息。

图2示出了根据本公开实施方式的用于实现图1所示方法的系统200的结构框图。如图2所示，该系统200包括：标签码表管理平台210、文本生成引擎220、训练数据存储引擎230、多标签预测引擎240、标签标注平台250以及存储平台260。其中，标签码表管理平台210可以预先存储有关于文本信息的所有标签类别。

在步骤101之前，可以首先通过预训练得到标签预测模型。在预训练的过程中，所使用的预训练样本文本集(在下文也被称为第二样本文本集)可能并不完善，导致标签预测模型并不能准确预测输入的文本信息。举例说明，若标签预测模型总共可以预测文本信息的A、B、C和D四种标签，但是在预训练过程中，仅关于标签A和B的预训练文本样本是充足的，关于标签C和D的预训练文本样本不足，那么在这种情况下，为了完成对标签预测模型的预训练，需要将关于标签C和D的预训练文本样本进行补充。示例性地，若训练一个完备的标签预测模型，每个标签至少需要对应的100条预训练文本样本。标签A和B均包含100条预训练文本样本，但是标签C仅包含10条预训练文本样本，而标签D完全不存在预训练文本样本，那么需要将标签C和D的预训练文本样本均补充至100条，即需要补充90条标签C的预训练文本样本以及100条标签D的预训练文本样本。

上述待补充的预训练文本样本可以由自然语言生成模型生成。自然语言生成模型包括以GPT2、BART等为预训练模型并且使用自有语料进行微调(fine-tuned)的多种自然语言生成模型。因此，可以理解，第二样本文本集包括两种预训练文本样本。其中，第一种是真实的文本信息(例如真实的用户评论)，第二种是上文的由自然语言生成模型生成的构造文本信息，或非真实的文本信息。参照图2，文本生成引擎220可以从标签码表管理平台210获取需要进行预训练文本样本补充的一个或多个标签类别，然后将这些标签类别分别输入到文本生成引擎220内的经过微调的多种自然语言生成模型中。多种自然语言生成模型将会生成与这些标签类别相对应的预训练文本样本，如上文所述，这些预训练文本样本是非真实的文本样本，属于构造文本信息。生成的第二样本文本集可以存储在训练数据存储引擎230中。

如上文所述，经由第二样本文本集预训练得到的标签预测模型对于某些标签类别的预测可能是不准确的，特别是哪些构造文本信息所对应的标签类别。示例性地，若关于标签C和D的预训练文本样本不足，那么标签预测模型对于标签类别C和D的预测结果相对于标签类别A和B将会不准确。因此后续需要对这些不准确的预测结果进行校对，以提高后续生成的第一样本文本集的信息准确性。

在预训练得到标签预测模型后，在步骤101中，可以使用该模型进行标签预测。可以将真实的文本信息(例如，用户的真实评论)输入到标签预测模型中，得到至少一个标签预测类别。标签预测模型是一种多标签类别的预测模型，因此对于同一个输入文本信息，可以输出得到一个或多个标签类别。如图2所示，多标签预测引擎240中包含有上述标签预测模型，真实的文本信息可以被输入到多标签预测引擎240中进行预测。

在步骤102中，由于标签预测模型对于某些标签的预测能力较差，因此预测结果得到的至少一个标签预测类别中可能包括可靠标签预测类别和不可靠标签预测类别。标签预测模型的输出还包括至少一个标签预测类别各自相对应的预测置信度。预设规则可以基于预测置信度进行设定，例如，从至少一个标签预测类别中确定至少一个不可靠标签预测类别可以包括：从至少一个标签预测类别中确定相对应的预测置信度小于第一预设置信度的至少一个标签预测类别，以作为至少一个不可靠标签预测类别。举例说明，若将一个输入文本信息输入到标签预测模型中后，标签预测模型输出了A、B和C三个标签类别，并且这三个标签类别的置信度分别为90％、20％和15％。假设确定不可靠标签预测类别的第一预设置信度设置为30％，那么标签类别B和C为不可靠标签预测类别。

在步骤103中，对于输入的文本信息的不可靠标签预测类别，重新确定其真实标签预测类别。例如可以通过人工标注的方式确定输入的文本信息的真实标签预测类别。下文将对如何确定输入的文本信息的真实标签预测类别进行详细说明，这里不再详述。

在步骤104中，基于输入文本信息以及相对应的一个或多个真实标签类别生成第一样本文本集，以供标签预测模型进行再训练，或者供其他用于标签预测的神经网络模型进行训练。如图2所示，若第一样本文本集供标签预测模型进行再训练，那么新的样本文本信息可以从标签标注平台250反馈到训练数据存储引擎230中，并更新用于训练标签预测模型的第二样本文本集。

图3示出了根据本公开实施方式的确定输入文本信息的真实标签类别的方法的流程图。如图3所示，该方法300包括：

步骤301，将输入文本信息以及至少一个不可靠标签预测类别及其预测置信度发送至标签标注平台250，以供确定输入文本信息的真实标签类别；以及

步骤302，从标签标注平台250获取输入文本信息的真实标签类别。

标签标注平台250用于接收并存储方法100中的步骤102中模型输出的各个不可靠标签预测类别，以供后续标注使用。在标签标注平台250，输入文本信息的真实标签类别可以经由人工(例如商家的相关的工作人员或数据管理人员)进行标注。标签标注平台250包括多种功能，如角色分配(分配哪些人员进行数据标注，那些人员进行人工复核等)、进度查看(查看某一标注任务目前的进度)、抽检、标注、复核等。

相关工作人员可以通过多种方式对输入文本信息的真实标签类别进行标注，例如可以从至少一个不可靠标签预测类别选择其中一个以作为真实标签类别，就是说对于一个输入文本信息只确定一个真实标签类别，或者可以针对每个不可靠标签预测类别确定其是否是输入文本信息的真实标签类别，也就是说对于一个输入文本信息可以确定多个真实标签类别。当然，在另外一些实施例中还存在其它的标注方式，这里不再一一列举。

如图2所示，训练数据存储引擎230可以获取在上述标签标注平台250确定好的输入文本信息的真实标签类别，以供后续作为再训练的样本数据使用。

在本实施例中，在标签标注平台250经由人工标注真实标签类别。一方面，由人工标注标签类别，得到的真实标签类别将更加准确；另一方面，首先通过标签预测模型初步得到不可靠的标签预测结果，然后，相关工作人员可以在这些初步得到的标签预测结果的基础上进一步确定真实标签类别，减少了相关人员的标注工作量。

在相关技术中，存在将未预测的输入文本信息直接发送至标签标注平台250然后经由人工进行标签标注的方案，这种方案需要相关人员从大量预备的标签类别中进行选择，这样使得标注的工作量相当大并且容易导致工作人员标注错误。相较于相关技术，本实施例的方法，经过标签预测模型的初步预测之后，相关人员仅仅需要从初步预测中的数量较少的标签类别中确定真实标签类别，因此，大大减少了相关人员的标注工作量。

在一些实施例中，在上述方法100的步骤104之前还可以包括：

在一些实施例中，可以将输入文本信息以及相对应的一个或多个真实标签类别作为新的样本文本信息添加到第二样本文本集以构成第一样本文本集。

在另外一些实施例中，还可以将输入文本信息以及相对应的一个或多个真实标签类别作为新的样本文本信息替换第二样本文本集中的至少部分构造文本信息以构成第一样本文本集。如上文所述，第二样本文本集包括两种预训练文本样本。第一种是真实的文本信息，第二种是构造文本信息。输入文本信息可以用来替换构造文本信息，也就是说替换掉第二样本文本集中的不可靠的预训练文本样本，使得更新后的第一样本文本集中的样本更加完整。还以上文所举示例进行说明，若对于标签C存在90条的构造文本信息，对于标签D存在100条的构造文本信息，那么可以使用输入文本信息以及相对应的真实标签类别替换这190条的构造文本信息。

在一些实施例中，还可以进一步根据真实标签类别的种类针对性地替换第二样本文本集中的构造文本信息，示例性地，可以替换与真实标签类别相同的标签类别所对应的构造文本信息。还以上文所举示例进行说明，若真实标签类别为标签C，那么可以使用输入文本信息替换第二样本文本集中的标签类别为C的构造文本信息。需要补充说明的是，若输入文本信息具有对应的两个或两个以上的真实标签类别，那么输入文本信息可以用于替换第二样本文本集中的对应于多个标签类别的构造文本信息。示例性地，若输入文本信息具有C和D两个真实标签类别，那么输入文本信息可以分别替换第二样本文本集中的对应于标签类别为C和D的构造文本信息。

随着标签预测模型的预测次数的增加，可以获取多个输入文本信息以及关于多个输入文本信息的不可靠标签预测类别，进而通过人工标注获得关于多个输入文本信息中每个输入文本信息的真实标签类别，然后使用多个输入文本信息替换第二样本文本集中的构造文本信息。因此，随着标签预测模型的预测次数的增加，第二样本文本集中的构造文本信息可以被逐渐替换，直到不存在构造文本信息为止。此时，第二样本文本集被完全替换为能够对标签预测模型进行完整训练的第二本文本集。

本公开还提供了一种用于标签预测的神经网络模型的训练方法，图4示出了根据本公开的实施方式的用于标签预测的神经网络模型的训练方法400的流程图，如图4所示，该方法400包括：

步骤401，获取样本文本信息及其至少一个真实标签类别，所获取的样本文本信息来自第一样本文本集并且第一样本文本集为采用图1所示的方法100而生成的；

步骤402，将样本文本信息输入神经网络模型，并获取神经网络模型所输出的针对样本文本信息的至少一个标签预测类别；

步骤403，至少基于至少一个真实标签类别和至少一个标签预测类别，计算损失值；以及

步骤404，基于损失值调整神经网络模型的参数。

如上文所述，方法100中的输入文本信息以及确定出的真实标签类别可以作为新生成的样本数据以用于对其他神经网络模型的训练。由于新生成的样本数据中的不可靠标签类别已被校准，因此，后续训练完成的其他神经网络模型可以提高对于不可靠标签类别的预测的准确度。

在步骤403-404中，例如可以通过计算损失函数来计算损失值。经过参数调整后的用于标签预测的神经网络模型能够更好的预测各种标签类别。

在一些实施例中，上述神经网络模型包括方法100中所述的标签预测模型。也就是说，第一样本文本集用于标签预测模型的再训练。继续参照图2所示，标签标注平台250对输入文本信息的真实标签类别进行标注后，将输入文本信息及其真实标签类别作为第一样本文本集反馈至训练数据存储引擎230中。训练数据存储引擎230更新完成训练文本集后，使用更新后的第一本文本集再训练多标签预测引擎240中的标签预测模型。因此，训练数据存储引擎230、多标签预测引擎240、标签标注平台250这三者构成了标签预测模型训练的闭环，从而实现了标签预测模型的自学习的过程。

根据本公开的另一方面，还提供了一种数据集的生成装置，图5示出了根据本公开实施方式的数据集的生成装置500的结构框图。如图5所示，该装置500包括：第一获取单元510，配置成获取标签预测模型所输出的关于输入文本信息的至少一个标签预测类别；第一确定单元520，配置成根据预设规则，从至少一个标签预测类别中确定至少一个不可靠标签预测类别；第二确定单元530，配置成从至少一个不可靠标签预测类别中确定输入文本信息的一个或多个真实标签类别；生成单元540，配置成基于输入文本信息以及相对应的一个或多个真实标签类别生成第一样本文本集。

图6示出了根据本公开实施方式的数据集的生成装置600的结构框图。如图6所示，除图5所示的各单元外，该装置600还包括：预训练单元650，配置成在将输入文本信息输入标签预测模型之前，利用第二样本文本集对标签预测模型进行预训练，其中，样本文本集包括多个样本文本信息。

在一些实施例中，生成单元640包括：添加模块641，配置成将输入文本信息以及相对应的一个或多个真实标签类别作为新的样本文本信息添加到第二样本文本集以构成第一样本文本集。

在一些实施例中，生成单元640还包括：替换模块642，配置成将输入文本信息以及相对应的一个或多个真实标签类别作为新的样本文本信息替换第二样本文本集中的至少部分构造文本信息以构成第一样本文本集。

在一些实施例中，标签预测模型的输出还包括至少一个标签预测类别各自相对应的预测置信度，其中，第一确定单元620，还配置成从至少一个标签预测类别中确定相对应的预测置信度小于第一预设置信度的至少一个标签预测类别，以作为至少一个不可靠标签预测类别。

在一些实施例中，第二确定单元630包括：发送模块631，配置成将输入文本信息以及至少一个不可靠标签预测类别及其预测置信度发送至标签标注平台，以供确定输入文本信息的真实标签类别；以及获取模块632，配置成从标签标注平台获取输入文本信息的真实标签类别。

根据本公开的另一方面，还提供了一种用于标签预测的神经网络模型的训练装置，图7示出了根据本公开实施方式的用于标签预测的神经网络模型的训练装置700的结构框图。如图7所示，该装置700包括：第二获取单元710，配置成获取样本文本信息及其至少一个真实标签类别，所获取的样本文本信息来自第一样本文本集并且第一样本文本集为采用上述的方法而生成的；第三获取单元720，配置成将样本文本信息输入神经网络模型，并获取神经网络模型所输出的针对样本文本信息的至少一个标签预测类别；计算单元730，配置成至少基于至少一个真实标签类别和至少一个标签预测类别，计算损失值；以及调整单元740，配置成基于损失值调整神经网络模型的参数。

这里，标签预测模型的数据集的生成装置500的各单元510～540的操作分别与前面描述的方法100中的步骤101～104的操作类似，数据集的生成装置600的上述各模块的操作分别与前面描述的方法300-400中的相应步骤的操作类似，用于标签预测的神经网络模型的训练装置700的各装置710～740的操作分别与前面描述的方法400中的步骤401～404的操作类似，这里不再赘述。

根据本公开的另一方面，还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的方法。

根据本公开的另一方面，还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述的数据集的生成方法以及用于标签预测的神经网络模型的训练方法。

根据本公开的另一方面，还提供一种计算机程序产品，包括计算机程序，其中，计算机程序再被处理器执行时实现上述的数据集的生成方法以及用于标签预测的神经网络模型的训练方法。

参见图8，现将描述可以作为本公开的电子设备800的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备可以是不同类型的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

图8示出了根据本公开实施例的电子设备的框图。如图8所示，电子设备800可以包括能够通过系统总线803彼此通信的至少一个处理器801、工作存储器802、I/O设备804、显示设备805、存储装置806和通信接口807。

处理器801可以是单个处理单元或多个处理单元，所有处理单元可以包括单个或多个计算单元或者多个核心。处理器801可以被实施成一个或更多微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。处理器801可以被配置成获取并且执行存储在工作存储器802、存储装置806或者其他计算机可读介质中的计算机可读指令，诸如操作系统802a的程序代码、应用程序802b的程序代码等。

工作存储器802和存储装置806是用于存储指令的计算机可读存储介质的示例，指令由处理器801执行来实施前面所描述的各种功能。工作存储器802可以包括易失性存储器和非易失性存储器二者(例如RAM、ROM等等)。此外，存储装置806可以包括硬盘驱动器、固态驱动器、可移除介质、包括外部和可移除驱动器、存储器卡、闪存、软盘、光盘(例如CD、DVD)、存储阵列、网络附属存储、存储区域网等等。工作存储器802和存储装置806在本文中都可以被统称为存储器或计算机可读存储介质，并且可以是能够把计算机可读、处理器可执行程序指令存储为计算机程序代码的非暂态介质，计算机程序代码可以由处理器801作为被配置成实施在本文的示例中所描述的操作和功能的特定机器来执行。

I/O设备804可以包括输入设备和/或输出设备，输入设备可以是能向电子设备800输入信息的任何类型的设备，可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出设备可以是能呈现信息的任何类型的设备，并且可以包括但不限于包括视频/音频输出终端、振动器和/或打印机。

通信接口807允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、802.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

工作寄存器802中的应用程序802b可以被加载执行上文所描述的各个方法和处理，例如图1中的步骤S101-步骤S104。在一些实施例中，计算机程序的部分或者全部可以经由存储装置806和/或通信接口807而被载入和/或安装到电子设备800上。当计算机程序被加载并由处理器801执行时，可以执行上文描述的数据集的生成方法以及用于标签预测的神经网络模型的训练方法的一个或多个步骤。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种数据集的生成方法，包括：

获取标签预测模型所输出的关于输入文本信息的至少一个标签预测类别；

根据预设规则，从所述至少一个标签预测类别中确定至少一个不可靠标签预测类别；

从所述至少一个不可靠标签预测类别中确定所述输入文本信息的一个或多个真实标签类别；以及

基于所述输入文本信息以及相对应的一个或多个真实标签类别生成第一样本文本集。

2.根据权利要求1所述的生成方法，还包括：

在将所述输入文本信息输入所述标签预测模型之前，利用第二样本文本集对所述标签预测模型进行预训练，其中，所述第二样本文本集包括多个样本文本信息。

3.根据权利要求2所述的生成方法，其中，

所述第二样本文本集中的多个样本文本信息包括由自然语言生成模型生成的构造文本信息。

4.根据权利要求3所述的生成方法，其中，基于所述输入文本信息以及相对应的一个或多个真实标签类别生成第一样本文本集包括：

将所述输入文本信息以及相对应的一个或多个真实标签类别作为新的样本文本信息添加到所述第二样本文本集以构成所述第一样本文本集。

5.根据权利要求3所述的生成方法，其中，基于所述输入文本信息以及相对应的一个或多个真实标签类别生成第一样本文本集还包括：

将所述输入文本信息以及相对应的一个或多个真实标签类别作为新的样本文本信息替换所述第二样本文本集中的至少部分构造文本信息以构成所述第一样本文本集。

6.根据权利要求1至5中任一项所述的生成方法，其中，所述标签预测模型的输出还包括所述至少一个标签预测类别各自相对应的预测置信度，其中，根据预设规则，从所述至少一个标签预测类别中确定至少一个不可靠标签预测类别包括：

从所述至少一个标签预测类别中确定相对应的预测置信度小于第一预设置信度的至少一个标签预测类别，以作为所述至少一个不可靠标签预测类别。

7.根据权利要求1至5中任一项所述的生成方法，其中，从所述至少一个不可靠标签预测类别中确定所述输入文本信息的一个或多个真实标签类别包括：

将所述输入文本信息以及所述至少一个不可靠标签预测类别发送至标签标注平台，以供确定所述输入文本信息的真实标签类别；以及

从标签标注平台获取所述输入文本信息的真实标签类别。

8.一种用于标签预测的神经网络模型的训练方法，包括：

获取样本文本信息及其至少一个真实标签类别，所获取的样本文本信息来自第一样本文本集并且所述第一样本文本集为采用权利要求1-7中任一项所述的方法而生成的；

将所述样本文本信息输入所述神经网络模型，并获取所述神经网络模型所输出的针对所获取的样本文本信息的至少一个标签预测类别；

至少基于所述至少一个真实标签类别和所述至少一个标签预测类别，计算损失值；以及

基于所述损失值调整所述神经网络模型的参数。

9.根据权利要求8所述的训练方法，其中

所述神经网络模型包括所述标签预测模型。

10.一种数据集的生成装置，包括：

第一获取单元，配置成获取所述标签预测模型所输出的关于输入文本信息的至少一个标签预测类别；

第一确定单元，配置成根据预设规则，从所述至少一个标签预测类别中确定至少一个不可靠标签预测类别；

第二确定单元，配置成从所述至少一个不可靠标签预测类别中确定所述输入文本信息的一个或多个真实标签类别；以及

生成单元，配置成基于所述输入文本信息以及相对应的一个或多个真实标签类别生成第一样本文本集。

11.一种用于标签预测的神经网络模型的训练装置，包括：

第二获取单元，配置成获取样本文本信息及其至少一个真实标签类别，所获取的样本文本信息来自第一样本文本集并且所述第一样本文本集为采用权利要求1-7中任一项所述的方法而生成的；

第三获取单元，配置成将所述样本文本信息输入所述神经网络模型，并获取所述神经网络模型所输出的针对所获取的样本文本信息的至少一个标签预测类别；

计算单元，配置成至少基于所述至少一个真实标签类别和所述至少一个标签预测类别，计算损失值；以及

调整单元，配置成基于所述损失值调整所述神经网络模型的参数。

12.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

13.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。

14.一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现权利要求1-9中任一项所述的方法。