CN112269877A

CN112269877A - 数据标注方法及装置

Info

Publication number: CN112269877A
Application number: CN202011166950.3A
Authority: CN
Inventors: 李远舟
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-01-26

Abstract

本申请公开了一种数据标注方法及装置，属于通信技术领域，能够解决标注机器学习用到的训练样本耗时较长的问题。该方法包括：采用规则模型，对第一样本集中的N个第一样本中的目标样本进行标注，得到目标样本的标注类别；规则模型包括：至少一个标注规则，每个标注规则对应一个标注类别；对目标样本的标注类别进行循环校验，以调整目标样本的标注类别对应的目标标注规则，直至目标样本的校验结果满足预设条件；采用第二样本集对预设文本分类模型进行训练，得到第一文本分类模型；其中，第一文本分类模型为训练后的预设文本分类模型；第二样本集包括：第一样本集中已标注的第一样本。本申请实施例应用于机器学习的场景中。

Description

数据标注方法及装置

技术领域

本申请实施例涉及通信技术领域，尤其涉及一种数据标注方法及装置。

背景技术

文本分类是自然语言处理(natural language processing，NLP)中一个非常重要的模块，是指计算机通过算法，对输入的文本按照一定的类目体系进行自动化归类的过程。如今，文本分类技术已经被广泛的应用在文本审核、广告过滤、舆情分析、情感分析和反黄识别等多个NLP领域。

在相关技术中，多采用词向量以及深度神经网络来进行文本分类，通过对样本进行标注，使用标注过的样本对文本分类模型进行训练，进而得到能够对文本进行智能分类的模型。

然而，上述样本标注过程需要大量的人工参与，且耗时较长。

发明内容

本申请实施例的目的是提供一种数据标注方法及装置，能够解决标注机器学习用到的训练样本耗时较长的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供一种数据标注方法，该方法包括：采用规则模型，对第一样本集中的N个第一样本中的目标样本进行标注，得到目标样本的标注类别；规则模型包括：至少一个标注规则，每个标注规则对应一个标注类别；对目标样本的标注类别进行循环校验，以调整目标样本的标注类别对应的目标标注规则，直至目标样本的校验结果满足预设条件；采用第二样本集对预设文本分类模型进行训练，得到第一文本分类模型；其中，第一文本分类模型为训练后的预设文本分类模型；第二样本集包括：第一样本集中已标注的第一样本。

第二方面，本申请实施例还提供了一种数据标注装置，该装置包括：样本标注模块，校验模块和训练模块；样本标注模块，用于采用规则模型，对第一样本集中的N个第一样本中的目标样本进行标注，得到目标样本的标注类别；规则模型包括：至少一个标注规则，每个标注规则对应一个标注类别；校验模块，用于对样本标注模块标注的目标样本的标注类别进行循环校验，以调整目标样本的标注类别对应的目标标注规则，直至目标样本的校验结果满足预设条件；训练模块，用于采用第二样本集对预设文本分类模型进行训练，得到第一文本分类模型；其中，第一文本分类模型为训练后的预设文本分类模型；第二样本集包括：第一样本集中已标记的第一样本。

第三方面，本申请实施例提供了一种电子设备，包括处理器、存储器及存储在该存储器上并可在该处理器上运行的程序或指令，该程序或指令被该处理器执行时实现如第一方面所述的数据标注方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

在本申请实施例中，通过采用规则模型，对第一样本集中的N个第一样本中的目标样本进行标注，能够在尽可能的保证准确率的同时，提取出最能够代表这个类别文本特性的样本，之后，通过对目标样本的标注类别进行循环校验，以调整目标样本的标注类别对应的目标标注规则，直至目标样本的校验结果满足预设条件，可以在较少的人工参与下，得到标注较为准确的训练样本。之后，再采用第一样本集中已标记的第一样本，对预设文本分类模型进行训练，这样便可得到准确率较高的文本分类模型。

附图说明

图1是本申请实施例提供的一种数据标注方法流程示意图；

图2是本申请实施例提供的一种训练样本获取的流程示意图；

图3是本申请实施例提供的一种文本分类模型的训练流程示意图；

图4是本申请实施例提供的一种数据标注装置结构示意图；

图5是本申请实施例提供的一种电子设备的结构示意图之一；

图6是本申请实施例提供的一种电子设备的结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面对本申请实施例中涉及的部分术语进行解释：

LDA：LDA(latent dirichlet allocation)是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。LDA是一种非监督机器学习技术，可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。

TF-IDF：TF-IDF(term frequency inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜索引擎还会使用基于链接分析的评级方法，以确定文件在搜寻结果中出现的顺序。

本申请实施例提供的数据标注方法可以应用于机器学习的场景中。

示例性的，针对标注用于训练文本分类模型所需的训练样本的场景，基于机器学习和神经网络的文本分类方法，在分类准确率上往往有不错的表现，但与专家经验或者是规则模型不同，这些算法对训练样本有一定要求：

1、需要一定数量的标注样本，基于机器学习和神经网络的算法，其原理是通过构建复杂模型，去学习样本和标注之间的对应关系。因此标注样本在其中起到了决定性的作用。尤其在文本分类中，每一个类别的文本都需要一定量的标注数据以供模型学习。如果标注数据较少，模型学习到的知识有限，那么模型的准确性和泛化能力将会非常不尽如人意；如果个别类别缺少标注数据，那么模型将无法学习到这个类别相关的任何知识。

2、样本需要准确标注，机器学习的本质就是对样本和标注对应关系的学习，如果样本标注错了，那么机器学习的方向就会错误甚至是完全相反。

3、标注的样本需要与总体样本具有相同的分布，机器学习项目中，标注的样本需要与总体样本的分布相同，例如，有一个文本类别是“旅游出行”，标注的样本中样本的关键词与之相关的大多是“自行车”、“汽车”、“飞机”等等，而关键词为“游轮”的样本，因为通过“游轮”出行的样本较少未被标注，文本分类模型很难学习到“游轮”与“旅游出行”的对应关系。在之后的分类任务中，“游轮”相关的文本也将难以被正确的分到“旅游出行”类上。机器学习项目中，通常都是使用随机抽样的方法对数据进行标注，这样才能够保证样本分布与总体相同。

在相关技术中，数据标注往往意味着巨大的人力和财力开销，通常都需要专门雇佣或者组织一个团队进行数据标注和错误校验。除了专门从事相关数据研发的企业外，大多数项目是缺少这样条件的。在文本分类项目中，大多数的标注样本通常来自于外部数据。而外部数据总是存在着标准不同(分类方法不同)、数据质量差(分类错误)等问题。如果直接使用外部数据，容易严重影响项目的质量；如果使用人工标注，则容易导致项目进度缓慢。

针对这一问题，在本申请实施例提供的技术方案中，首先对原始样本集中每个样本的文本标题进行分词、去停用词处理，然后提取处理过的文本标题的关键词，并根据样本的关键词构建规则模型。之后，对规则模型中，具有唯一关键词的样本进行标注。对于标注过的样本，使用LDA主题模型，根据其文本内容提取样本标注类别中的主题元素，通过标注类别的主题，校验标注的样本的标注类别是否准确，若存在较大误差，则在调整规则模型的规则后，重新对误差较大的样本进行标注。之后，将所有标注过的样本作为文本分类模型的训练样本对文本分类模型进行训练，并使用训练好的文本分类模型对原始样本集中的样本进行预测，根据预测结果将原始样本集中的样本进行分类。对于模型分值大于或者等于预设分值的样本，将预测结果指示的标注类别作为其标注类别，并使用上述校验方法再次对该样本进行校验。对于通过二次校验的样本，将其扩充到训练集中，之后，重新使用扩充后的训练集对文本分类模型进行训练，直至满足预设收敛条件。这样，便可得到标注准确、且数量可观的标注样本。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的数据标注方法进行详细地说明。

如图1所示，本申请实施例提供的一种数据标注方法，该方法可以包括下述步骤201至步骤203：

步骤201、数据标注装置采用规则模型，对第一样本集中的N个第一样本中的目标样本进行标注，得到目标样本的标注类别。

其中，上述规则模型包括：至少一个标注规则，每个标注规则对应一个标注类别。

可选地，在本申请实施例中，数据标注装置可以从样本的文本内容或者文本标题中提取关键词，来确定样本的主题。由于从样本的文本标题中提取的关键词较为准确，因此，本申请实施例提供的数据标注方法，可以从样本的文本标题中提取关键词，上述目标样本为：N个第一样本中具有关键词的样本。

进一步可选地，在本申请实施例中，通常情况下一个关键词足以描述清楚样本的主题。若提取到多个关键词，可能是由于文本的标题中包含了较多的内容，这样的样本可能会影响到样本标注的准确性，因此，上述目标样本还可以为：N个第一样本中具有唯一关键词的第一样本。

示例性的，本申请实施例中，假设将第一样本集中的样本分为了两类：“游戏”类和“旅游”类，每个类别里包括多个样本。样本与标注类别的关系可以参考如以下表1所示的关系：

表1

示例性的，上述第一样本集中包括：部分标注过的样本，以及剩余未标注过的样本。对于文本分类模型来说，只能通过样本与标注之间的对应关系，来学习如何对样本进行分类，因此，需要对训练集中的样本进行标注。而通常情况下，获取到的样本集中，只有很少的一部分样本被标注过，或者，没有被标注过的样本，并且，即使标注过的样本，标注的准确度也不高。因此，对于样本集中标注过的样本，可以通过提取文本标题中关键词的方法，对样本进行初步标注，对于样本集中未标注过的样本，可以通过专家经验来生成关键词。

示例性的，电子设备提取第一样本集中每个第一样本的文本标题，对文本标题进行分词、去停用词处理，并使用TF-IDF算法提取文本标题中的关键词。之后，根据提取到的关键词，构建规则模型，对样本进行标注。

需要说明的是，之所以提取文本标题的关键词，首先，是因为文本标题较文本正文更加凝练，通常包含了文本的主题和概括，这样，通过文本标题获取的关键词更加准确。其次，文本正文通常包含的信息量较大，通过文本正文提取关键词可能会获取到多个毫无关系或者关联性较低的关键词，使得在规则模型对样本进行标注时，标注错误。再次，通过文本标题的关键词构建的规则模型，对样本进标注后，样本的文本正文部分的数据分布依然是样本总体的无偏估计，这样，可以避免由于人为干预导致标注样本的分布产生偏差，降低文本分类模型的泛化能力。

步骤202、数据标注装置对目标样本的标注类别进行循环校验，以调整目标样本的标注类别对应的目标标注规则，直至目标样本的校验结果满足预设条件。

示例性的，电子设备利用规则模型对样本进行标注后，可能存在较多不够准确的标注，因此，需要对标注过的样本进行校验。

示例性的，上述标注规则可以理解为，将目标样本输入规则模型后，规则模型将目标样本的关键词与标注规则进行匹配，进而得到与关键词匹配的标注规则对应的标注类别。电子设备可以通过修改匹配规则来、和\或关键词，来对标注不准确的目标样本进行重新标注。

举例说明，如在标注类别为“旅游攻略”类别中，如果根据样本的文本标题，将“攻略”设定为关键词，则会发现标注的样本中带有大量的游戏攻略，此时需要在“旅游攻略”类别中，将攻略关键词删除；再比如在“保险”类别中，如果将“保险”设定为关键词，会发现标注样本中带有大量的“保险箱”、“保险柜”相关的文本。此时需要在“保险”类别中，限定标注包含“保险”且不包含“保险箱”、“保险柜”等字段的文本。

示例性的，上述预设条件可以包括以下任一项：所有目标样本的标注类别均与其文本主题一致；预设比例的目标样本的标注类别与其文本主题一致。

示例性的，电子设备将上述所有通过校验的目标样本，作为文本分类模型的训练样本，对文本分类模型进行训练。

步骤203、数据标注装置采用第二样本集对预设文本分类模型进行训练，得到第一文本分类模型。

其中，上述第一文本分类模型为训练后的预设文本分类模型；上述第二样本集包括：第一样本集中已标记的第一样本。

示例性的，在获取到较为准确的、标注过的训练样本后，电子设备可以使用上述训练样本训练文本分类模型。进一步的，该文本分类模型可以为fasttext 算法。fasttext算法是基于浅层神经网络的文本分类算法，在有较高准确率的前提下，拥有非常快的训练和预测速度，比较适合数据量大且需要反复迭代的场景中。

示例性的，入模的数据选择经过分词、去停用词之后的样本的正文内容和标题。这样可以在不改变数据分布的同时，提高模型的预测的准确率。

如此，通过采用规则模型，对第一样本集中的N个第一样本中的目标样本进行标注，能够在尽可能的保证准确率的同时，提取出最能够代表这个类别文本特性的样本，之后，通过对目标样本的标注类别进行循环校验，以调整目标样本的标注类别对应的目标标注规则，直至目标样本的校验结果满足预设条件，可以在较少的人工参与下，得到标注较为准确的训练样本。之后，再采用第一样本集中已标记的第一样本，对预设文本分类模型进行训练，这样便可得到准确率较高的文本分类模型。

可选地，在本申请实施例中，电子设备可以通过样本的文本主题对标注类进行校验，以提高样本标注的准确性。

示例性的，上述步骤202，可以包括以下步骤202a1至步骤202a3：

步骤202a1、数据标注装置采用目标样本的文本主题，对目标样本的标注类别进行校验，得到校验结果。

其中，上述校验结果用于指示目标样本的文本主题与目标样本的标注类别间的匹配程度。

步骤202a2、在校验结果未满足预定条件的情况下，数据标注装置根据目标样本的文本标题的关键字，调整目标样本的标注类别对应的目标标注规则。

步骤202a3、数据标注装置重新采用调整后的规则模型对目标样本进行标注，得到目标样本的新的标注类别，并基于新的标注类别进行校验，直至目标样本的校验结果满足预设条件。

示例性的，电子设备可以获取目标样本的文本内容，对文本内容进行分词、去停用词处理后，使用LDA主题模型，根据目标样本的文本内容，提取标注类别中的文本主题。之后，通过获取到的文本主题，对目标样本的标注类别进行校验，并在校验结果指示目标样本的标注类别与文本主题不一致的情况下，则修改标注规则后对目标样本进行重新标注。重复执行上述校验过程，直到所有目标样本的校验结果满足预设条件。

示例性的，由于获取到的文本主题与标注类别在文字描述上不可能完全一致，电子设备可以通过语义识别，来判断两个词汇的描述是否一致。

举例说明，如图2所示，为训练样本获取的流程示意图，电子设备获取到原始样本集后，获取样本集中每个样本的关键词，之后，根据关键词构建规则模型，并使用规则模型对具有唯一关键词的样本进行标注。获取标注过的样本的文本主题，并使用文本主题对样本的标注类别进行校验。若通过校验，则将该样本作为文本分类模型的训练样本，若未通过校验，则修改规则模型的规则，重新对该样本进行标注，重复执行上述过程，直到满足预设条件。

如此，电子设备利用样本的文本主题，来对通过规则模型标注的样本进行第一次校验，并得到较为准确的训练样本。

可选地，在本申请实施例中，电子设备在文本分类模型训练好之后，可以利用训练好的模型对原始样本进行预测，将满足条件的样本扩充到训练集中，并使用新的训练集对文本分类模型进行训练。

示例性的，上述步骤203之后，本申请实施例提供的数据标注方法，还可以包括以下步骤204a：

步骤204a、循环执行以下步骤204a1和步骤204a2，直至满足预设收敛条件。

步骤204a1、数据标注装置采用第一文本分类模型对第三样本进行文本分类，得到第三样本的分类结果，在第三样本的模型分值大于或者等于预设数值的情况下，将第三样本的预测结果指示的类别作为第三样本的标注类别，并基于第三样本的分类结果更新第二样本集。

步骤204a2、数据标注装置采用更新后的第二样本集对预设文本分类模型进行训练。

其中，上述第三样本为第一样本集中的至少一个样本。

示例性的，上述预设收敛条件可以为以下任一项：文本分类模型的误差值小于预设误差值；两次迭代之间的权值变化小于预设变化阈值；迭代次数满足预设次数。

示例性的，上述预设文本分类模型为初始化的文本分类模型，即电子设备每次使用扩充后的训练集对文本分类模型进行训练时，该文本分类模型为未经训练的文本分类模型。

示例性的，由于通过规则模型获取到的训练样本数据量较少(通常情况下，利用规则模型标注的样本的数量不到总体样本的1/10)，在保证准确率的前提下，训练好的文本分类模型无法覆盖全量的数据，此时，电子设备将第一样本集中模型分值大于或者等于0.9(即文本分类模型预测该样本有90％的概率属于某个标注类别的样本，且训练好的文本分类模型需要对所有样本进行预测)，按照预测结果对其进行标注。对于第二样本集中的样本，若其模型分值大于或者等于 0.8，且该样本的标注类别与预测结果不一致，则按照预测结果预测的标注类别对其进行重新标注。

示例性的，电子设备按照上述方法更新第二样本集(即对第二样本集进行扩充)之后，需要对于新增和更新过的第二样本集中的样本(即上述第三样本) 进行二次校验，即，电子设备利用LDA算法获取第三样本的文本主题，并利用第三样本的文本主题对第三样本的标注类别进行校验，若校验结果指示第三样本的文本主题与第三样本的标注类别不一致，则将校验结果不一致的第三样本从第二样本集中删除。

举例说明，如图3所示，为文本分类模型的训练流程示意图：电子设备获取到训练样本集后，对文本分类模型进行训练，并使用训练好的文本分类模型对原始样本集进行预测，对于原始样本集中满足条件的样本，使用预测结果指示的标注类别对其进行标注，之后，获取该样本的文本主题，并利用文本主题对其标注类别进行校验，若通过校验，则将该样本扩充至训练样本集中，若未通过校验，则删除该样本的标注，重复上述过程，直到满足收敛条件后，结束训练。

如此，在文本分类模型每次迭代时，都对训练集进行扩充和二次校验，使得电子设备在进行多次迭代后，能够得到标注准确、且样本数量庞大的训练集。

进一步可选地，在本申请实施例中，在对文本分类模型进行训练后，便可以使用训练好的文本分类模型，对剩余未标记的样本进行预测，并根据预测结果对所有样本集进行文本分类。

示例性的，上述步骤204a之后，本申请实施例提供的数据标注方法，还可以包括以下步骤204b：

步骤204b、数据标注装置采用训练后的预设文本分类模型，对第一样本集中未标注的样本进行标注，并根据标注结果，对第一样本集进行文本分类。

示例性的，当训练好文本分类模型后，可以对第一样本集中的所有样本进行重标注，也可以仅对第一样本集中未标注的样本进行标注。由于第一样本集中已被标注的样本已经作为训练集完成了对模型的训练，采用训练好的模型对训练集中的样本进行预测，得到的预测结果并不会发生明显的变化，因此，为了避免重复工作，可以仅对第一样本集中未标注的样本进行标注。

如此，可以对原始样本集中的所有样本完成标注，并根据标注结果，完成对样本集的文本分类。

本申请实施例提供的数据标注方法，首先对第一样本集中每个样本的文本标题进行分词、去停用词处理，然后提取处理过的文本标题的关键词，并根据样本的关键词构建规则模型。之后，对规则模型中，具有唯一关键词的目标样本进行标注。对于标注过的目标样本，使用LDA主题模型，根据目标样本的文本内容提取目标样本标注类别中的文本主题，通过文本主题，校验标注的目标样本的标注类别是否准确，若校验结果指示目标样本的标注类别与文本主题不一致，则在调整规则模型的规则后，对该目标样本进行重新标注。之后，将所有标注过的目标样本作为预设文本分类模型的训练样本对预设文本分类模型进行训练，并使用训练好的第一文本分类模型对第一样本集中的所有样本进行预测，根据预测结果将第一样本集中的样本进行分类。对于模型分值大于或者等于预设分值的第三样本，将预测结果指示的标注类别作为第三样本的标注类别，并使用上述校验方法再次对该样本进行校验。对于通过二次校验的第三样本，将其扩充到训练集中，之后，重新使用扩充后的训练集对文本分类模型进行训练，直至满足预设收敛条件。这样，便可得到标注准确、且数量可观的标注样本。

需要说明的是，本申请实施例提供的数据标注方法，执行主体可以为数据标注装置，或者该数据标注装置中的用于执行数据标注方法的控制模块。本申请实施例中以数据标注装置执行数据标注方法为例，说明本申请实施例提供的数据标注装置。

需要说明的是，本申请实施例中，上述各个方法附图所示的。数据标注方法均是以结合本申请实施例中的一个附图为例示例性的说明的。具体实现时，上述各个方法附图所示的数据标注方法还可以结合上述实施例中示意的其它可以结合的任意附图实现，此处不再赘述。

图4为实现本申请实施例提供的一种数据标注装置的可能的结构示意图，如图4所示，数据标注装置600包括：样本标注模块601，校验模块602和训练模块603，其中：样本标注模块601，用于采用规则模型，对第一样本集中的N 个第一样本中的目标样本进行标注，得到目标样本的标注类别；规则模型包括：至少一个标注规则，每个标注规则对应一个标注类别；校验模块602，用于对样本标注模块601标注的目标样本的标注类别进行循环校验，以调整目标样本的标注类别对应的目标标注规则，直至目标样本的校验结果满足预设条件；训练模块603，用于采用第二样本集对预设文本分类模型进行训练，得到第一文本分类模型；其中，第一文本分类模型为训练后的预设文本分类模型；第二样本集包括：第一样本集中已标记的第一样本。

可选地，如图4所示，数据标注装置600，还包括：规则调整模块604；校验模块602，具体用于采用目标样本的文本主题，对目标样本的标注类别进行校验，得到校验结果；校验结果用于指示目标样本的文本主题与目标样本的标注类别间的匹配程度；规则调整模块604，用于在校验模块602的校验结果未满足预定条件的情况下，根据目标样本的文本标题的关键字，调整目标样本的标注类别对应的目标标注规则；样本标注模块601，还用于重新采用规则调整模块 604调整后的规则模型对目标样本进行标注，得到目标样本的新的标注类别，并基于新的标注类别进行校验，直至目标样本的校验结果满足预设条件。

可选地，如图4所示，数据标注装置600，还包括：分类模块605；分类模块605，用于采用第一文本分类模型对第三样本进行文本分类，得到第三样本的分类结果，在第三样本的模型分值大于或者等于预设数值的情况下，将第三样本的预测结果指示的类别作为第三样本的标注类别，并基于第三样本的分类结果更新第二样本集；训练模块603，还用于采用分类模块605更新后的第二样本集对预设文本分类模型进行训练；其中，第三样本为第一样本集中的至少一个样本。

进一步可选地，所述样本标注模块601，还用于采用训练后的预设文本分类模型，对所述第一样本集中未标注的样本进行标注，并根据标注结果，对所述第一样本集进行文本分类。

需要说明的是，如图4所示，数据标注装置600中一定包括的模块用实线框示意，如样本标注模块601，和校验模块602；数据标注装置600中可能包括的模块用虚线框示意，如规则调整模块604、训练模块603和分类模块605。

本申请实施例中的数据标注装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer， UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的数据标注装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的数据标注装置能够实现图1至图3的方法实施例实现的各个过程，为避免重复，这里不再赘述。

本申请实施例提供的数据标注装置，首先对第一样本集中每个样本的文本标题进行分词、去停用词处理，然后提取处理过的文本标题的关键词，并根据样本的关键词构建规则模型。之后，对规则模型中，具有唯一关键词的目标样本进行标注。对于标注过的目标样本，使用LDA主题模型，根据目标样本的文本内容提取目标样本标注类别中的文本主题，通过文本主题，校验标注的目标样本的标注类别是否准确，若校验结果指示目标样本的标注类别与文本主题不一致，则在调整规则模型的规则后，对该目标样本进行重新标注。之后，将所有标注过的目标样本作为预设文本分类模型的训练样本对预设文本分类模型进行训练，并使用训练好的第一文本分类模型对第一样本集中的所有样本进行预测，根据预测结果将第一样本集中的样本进行分类。对于模型分值大于或者等于预设分值的第三样本，将预测结果指示的标注类别作为第三样本的标注类别，并使用上述校验方法再次对该样本进行校验。对于通过二次校验的第三样本，将其扩充到训练集中，之后，重新使用扩充后的训练集对文本分类模型进行训练，直至满足预设收敛条件。这样，便可得到标注准确、且数量可观的标注样本。

可选的，如图5所示，本申请实施例还提供一种电子设备M00，包括处理器M01，存储器M02，存储在存储器M02上并可在所述处理器M01上运行的程序或指令，该程序或指令被处理器M01执行时实现上述数据标注方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要注意的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图6为实现本申请各个实施例的一种电子设备的硬件结构示意图。

该电子设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。

本领域技术人员可以理解，电子设备100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图6中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器110，用于采用规则模型，对第一样本集中的N个第一样本中的目标样本进行标注，得到目标样本的标注类别；规则模型包括：至少一个标注规则，每个标注规则对应一个标注类别；处理器110，用于对标注的目标样本的标注类别进行循环校验，以调整目标样本的标注类别对应的目标标注规则，直至目标样本的校验结果满足预设条件。

可选地，处理器110，具体用于采用目标样本的文本主题，对目标样本的标注类别进行校验，得到校验结果；校验结果用于指示目标样本的文本主题与目标样本的标注类别间的匹配程度；处理器110，用于在校验结果未满足预定条件的情况下，根据目标样本的文本标题的关键字，调整目标样本的标注类别对应的目标标注规则；处理器110，还用于重新采用调整后的规则模型对目标样本进行标注，得到目标样本的新的标注类别，并基于新的标注类别进行校验，直至目标样本的校验结果满足预设条件。

可选地，处理器110，用于采用第二样本集对预设文本分类模型进行训练，得到第一文本分类模型；其中，第一文本分类模型为训练后的预设文本分类模型；第二样本集包括：第一样本集中已标记的第一样本。

如此，电子设备可以使用经过一次标注校验的样本作为文本分类模型的训练样本，这样训练好的模型具有较高的准确率。

可选地，处理器110，用于采用第一文本分类模型对第三样本进行文本分类，得到第三样本的分类结果，在第三样本的模型分值大于或者等于预设数值的情况下，将第三样本的预测结果指示的类别作为第三样本的标注类别，并基于第三样本的分类结果更新第二样本集；处理器110，还用于采用更新后的第二样本集对预设文本分类模型进行训练；其中，第三样本为第一样本集中的至少一个样本。

进一步可选地，处理器110，用于采用训练后的预设文本分类模型，对第一样本集中未标注的样本进行标注，并根据标注结果，对第一样本集进行文本分类。

本申请实施例提供的电子设备，首先对第一样本集中每个样本的文本标题进行分词、去停用词处理，然后提取处理过的文本标题的关键词，并根据样本的关键词构建规则模型。之后，对规则模型中，具有唯一关键词的目标样本进行标注。对于标注过的目标样本，使用LDA主题模型，根据目标样本的文本内容提取目标样本标注类别中的文本主题，通过文本主题，校验标注的目标样本的标注类别是否准确，若校验结果指示目标样本的标注类别与文本主题不一致，则在调整规则模型的规则后，对该目标样本进行重新标注。之后，将所有标注过的目标样本作为预设文本分类模型的训练样本对预设文本分类模型进行训练，并使用训练好的第一文本分类模型对第一样本集中的所有样本进行预测，根据预测结果将第一样本集中的样本进行分类。对于模型分值大于或者等于预设分值的第三样本，将预测结果指示的标注类别作为第三样本的标注类别，并使用上述校验方法再次对该样本进行校验。对于通过二次校验的第三样本，将其扩充到训练集中，之后，重新使用扩充后的训练集对文本分类模型进行训练，直至满足预设收敛条件。这样，便可得到标注准确、且数量可观的标注样本。

应理解的是，本申请实施例中，输入单元104可以包括图形处理器(GraphicsProcessing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏。触控面板1071 可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器109可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述数据标注方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory， ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述数据标注方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台电子设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种数据标注方法，其特征在于，所述方法包括：

采用规则模型，对第一样本集中的N个第一样本中的目标样本进行标注，得到所述目标样本的标注类别；所述规则模型包括：至少一个标注规则，每个标注规则对应一个标注类别；

对所述目标样本的标注类别进行循环校验，以调整所述目标样本的标注类别对应的目标标注规则，直至所述目标样本的校验结果满足预设条件；

采用第二样本集对预设文本分类模型进行训练，得到第一文本分类模型；

其中，所述第一文本分类模型为训练后的预设文本分类模型；所述第二样本集包括：所述第一样本集中已标注的第一样本。

2.根据权利要求1所述的方法，其特征在于，所述对所述目标样本的标注类别进行循环校验，以调整所述目标样本的标注类别对应的目标标注规则，直至所述目标样本的校验结果满足预设条件，包括：

采用所述目标样本的文本主题，对所述目标样本的标注类别进行校验，得到校验结果；所述校验结果用于指示所述目标样本的文本主题与所述目标样本的标注类别间的匹配程度；

在所述校验结果未满足预定条件的情况下，根据所述目标样本的文本标题的关键字，调整所述目标样本的标注类别对应的目标标注规则；

重新采用调整后的规则模型对所述目标样本进行标注，得到所述目标样本的新的标注类别，并基于所述新的标注类别进行校验，直至所述目标样本的校验结果满足预设条件。

3.根据权利要求1所述的方法，其特征在于，所述目标样本为：所述N个第一样本中具有唯一关键词的第一样本。

4.根据权利要求1所述的方法，其特征在于，所述采用第二样本集对预设文本分类模型进行训练，得到第一文本分类模型之后，所述方法还包括：

循环执行以下步骤，直至满足预设收敛条件：

采用所述第一文本分类模型对第三样本进行文本分类，得到所述第三样本的分类结果，在所述第三样本的模型分值大于或者等于预设数值的情况下，将所述第三样本的预测结果指示的类别作为所述第三样本的标注类别，并基于所述第三样本的分类结果更新所述第二样本集；

采用更新后的所述第二样本集对所述预设文本分类模型进行训练；

其中，所述第三样本为所述第一样本集中的至少一个样本。

5.根据权利要求4所述的方法，其特征在于，所述对所述预设文本分类模型进行训练，并满足预设收敛条件之后，所述方法还包括：

采用训练后的预设文本分类模型，对所述第一样本集中未标注的样本进行标注，并根据标注结果，对所述第一样本集进行文本分类。

6.一种数据标注装置，其特征在于，所述装置包括：样本标注模块，校验模块和训练模块；

所述样本标注模块，用于采用规则模型，对第一样本集中的N个第一样本中的目标样本进行标注，得到所述目标样本的标注类别；所述规则模型包括：至少一个标注规则，每个标注规则对应一个标注类别；

所述校验模块，用于对所述样本标注模块标注的目标样本的标注类别进行循环校验，以调整所述目标样本的标注类别对应的目标标注规则，直至所述目标样本的校验结果满足预设条件；

所述训练模块，用于采用第二样本集对预设文本分类模型进行训练，得到第一文本分类模型；

其中，所述第一文本分类模型为训练后的预设文本分类模型；所述第二样本集包括：所述第一样本集中已标记的第一样本。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：规则调整模块；

所述校验模块，具体用于采用所述目标样本的文本主题，对所述目标样本的标注类别进行校验，得到校验结果；所述校验结果用于指示所述目标样本的文本主题与所述目标样本的标注类别间的匹配程度；

所述规则调整模块，用于在所述校验模块的校验结果未满足预定条件的情况下，根据所述目标样本的文本标题的关键字，调整所述目标样本的标注类别对应的目标标注规则；

所述样本标注模块，还用于重新采用所述规则调整模块调整后的规则模型对所述目标样本进行标注，得到所述目标样本的新的标注类别，并基于所述新的标注类别进行校验，直至所述目标样本的校验结果满足预设条件。

8.根据权利要求6所述的装置，其特征在于，所述目标样本为：所述N个第一样本中具有唯一关键词的第一样本。

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：分类模块；

所述分类模块，用于采用所述第一文本分类模型对第三样本进行文本分类，得到所述第三样本的分类结果，在所述第三样本的模型分值大于或者等于预设数值的情况下，将所述第三样本的预测结果指示的类别作为所述第三样本的标注类别，并基于所述第三样本的分类结果更新第二样本集；

所述训练模块，还用于采用所述分类模块更新后的第二样本集对所述预设文本分类模型进行训练；

其中，所述第三样本为所述第一样本集中的至少一个样本。

10.根据权利要求9所述的装置，其特征在于，

所述样本标注模块，还用于采用训练后的预设文本分类模型，对所述第一样本集中未标注的样本进行标注，并根据标注结果，对所述第一样本集进行文本分类。