CN115455145A

CN115455145A - 一种分类数据集的构建方法、装置、设备和存储介质

Info

Publication number: CN115455145A
Application number: CN202211085788.1A
Authority: CN
Inventors: 姜姗; 刘升平; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2022-12-09

Abstract

本发明公开了一种分类数据集的构建方法、装置、设备和存储介质。该方法包括：获取样本数据；通过预设的标注函数在所述样本数据中提取关键词；根据在所述样本数据中提取的所述关键词，对所述样本数据进行标注；利用标注后的所述样本数据训练预设的标注模型，以便在所述标准模型完成训练之后，利用所述标注模型进行样本数据分类标注。在此过程中，先使用标注函数为样本数据标注标签，再将标注模型在已标注标签的样本数据上进行训练，最后可以使用标注模型进行样本数据分类标注，得到分类数据集，标注模型的标注准确率较高，而且避免了人工标注的问题，经济成本，人力成本，时间成本都得到了极大的降低。

Description

一种分类数据集的构建方法、装置、设备和存储介质

技术领域

本发明涉及模型训练技术领域，尤其涉及一种分类数据集的构建方法、装置、设备和存储介质。

背景技术

文本分类是自然语言处理(Natural Language Processing，简称NLP)领域的基础任务，基于预训练模型(如BERT)的微调是当前主流技术方案。微调预训练模型依赖具体使用场景的数据集。目前，构建数据集的传统方式是人工标注。但是，人工标注通常需要花费大量的时间和人力，昂贵又耗时，而且领域专家是稀缺资源，如果众包标注，那么数据标注的准确度往往无法达到要求。

发明内容

本发明的主要目的在于提出一种分类数据集的构建方法、装置、设备和存储介质，旨在解决现有人工标注方式花费成本较大的问题。

为实现上述技术问题，本发明是通过以下技术方案来实现的：

本发明实施例提供了一种分类数据集的构建方法，包括：获取样本数据；通过预设的标注函数在所述样本数据中提取关键词；根据在所述样本数据中提取的所述关键词，对所述样本数据进行标注；利用标注后的所述样本数据训练预设的标注模型，以便在所述标准模型完成训练之后，利用所述标注模型进行样本数据分类标注。

其中，所述标注函数的数量为多个，每个所述标注函数用于提取一个关键词；所述通过预设的标注函数在所述样本数据中提取关键词，包括：通过多个所述标注函数分别在所述样本数据中尝试提取关键词；所述根据在所述样本数据中提取的所述关键词，对所述样本数据进行标注，包括：根据多个所述标注函数分别在所述样本数据中提取到的关键词，确定同义词集合；其中，每个所述同义词集合包括互为同义词的关键词；根据包含关键词数量最多的同义词集合，对所述样本数据进行标注。

其中，所述方法还包括：获取测试样本集；其中，在所述测试样本集中包括多个样本数据，并且每个所述样本数据已经被预先标注正确的样本标签；针对每个标注函数，执行如下步骤；通过所述标注函数在每个所述样本数据中提取关键词；根据所述标注函数在每个所述样本数据中提取的关键词分别对每个所述样本数据进行标注，得到所述样本数据的标签；根据每个所述样本数据的标签以及每个所述样本数据的样本标签，确定所述标注函数的提取准确率；在所述标注函数的提取准确率小于预设的准确率阈值时，舍弃所述标注函数或者调整所述标注函数。

其中，所述标注模型为预训练模型；所述标注模型用于对样本数据进行分类，每个类别对应一个标签。

本发明实施例还提供了一种分类数据集的构建装置，包括：获取模块，用于获取样本数据；提取模块，用于通过预设的标注函数在所述样本数据中提取关键词；标注模块，用于根据在所述样本数据中提取的所述关键词，对所述样本数据进行标注；训练模块，用于利用标注后的所述样本数据训练预设的标注模型，以便在所述标准模型完成训练之后，利用所述标注模型进行样本数据分类标注。

其中，所述标注函数的数量为多个，每个所述标注函数用于提取一个关键词；所述提取模块，用于：通过多个所述标注函数分别在所述样本数据中尝试提取关键词；所述标注模块，用于：根据多个所述标注函数分别在所述样本数据中提取到的关键词，确定同义词集合；其中，每个所述同义词集合包括互为同义词的关键词；根据包含关键词数量最多的同义词集合，对所述样本数据进行标注。

其中，所述获取模块，用于：获取测试样本集；其中，在所述测试样本集中包括多个样本数据，并且每个所述样本数据已经被预先标注正确的样本标签；所述装置还包括验证模块；所述验证模块，用于在所述通过预设的标注函数在所述样本数据中提取关键词之后，针对每个标注函数，执行如下步骤；通过所述标注函数在每个所述样本数据中提取关键词；根据所述标注函数在每个所述样本数据中提取的关键词分别对每个所述样本数据进行标注，得到所述样本数据的标签；根据每个所述样本数据的标签以及每个所述样本数据的样本标签，确定所述标注函数的提取准确率；在所述标注函数的提取准确率小于预设的准确率阈值时，舍弃所述标注函数或者调整所述标注函数。

其中，所述标注模型为预训练模型；所述标注模型用于对样本数据进行分类标注；其中，每个类别对应一个所述标签。

本发明实施例还提供了一种分类数据集的构建设备，所述分类数据集的构建设备包括处理器、存储器；所述处理器用于执行所述存储器中存储的分类数据集的构建程序，以实现上述任一项所述的分类数据集的构建方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述任一项所述的分类数据集的构建方法。

本发明有益效果如下：

在本发明实施例中，获取样本数据；通过预设的标注函数在所述样本数据中提取关键词；根据在所述样本数据中提取的所述关键词，对所述样本数据进行标注；利用标注后的所述样本数据训练预设的标注模型，以便在所述标准模型完成训练之后，利用所述标注模型进行样本数据分类，形成分类数据集。在此过程中，先使用标注函数为样本数据标注标签，再将标注模型在已标注标签的样本数据上进行训练，最后可以使用标注模型进行样本数据分类标注，得到分类数据集，标注模型的标注准确率较高，而且避免了人工标注的问题，经济成本，人力成本，时间成本都得到了极大的降低。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为根据本发明一实施例的分类数据集的构建方法的流程图；

图2为根据本发明一实施例的分类数据集的构建装置的结构图；

图3为根据本发明一实施例的分类数据集的构建设备的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图及具体实施例，对本发明作进一步地详细说明。

根据本发明的实施例，提供了一种分类数据集的构建方法。如图1所示，为根据本发明一实施例的分类数据集的构建方法的流程图。

步骤S110，获取样本数据。

样本数据可以是文本数据。该文本数据例如是：病人的入院记录。

样本数据的数量可以为多个。样本数据为预先无标注的样本数据。

步骤S120，通过预设的标注函数在所述样本数据中提取关键词。

所述标注函数的数量为多个，每个所述标注函数用于提取一个关键词。

通过多个所述标注函数分别在所述样本数据中尝试提取关键词。进一步地，在样本数据的数量为多个的情况下，针对每个标注函数而言，通过该标注函数在多个样本数据中分别尝试提取关键词。

为了确保标注函数的召回率，可以针对每个标注函数，在该标注函数于多个样本数据中尝试提取关键词之后，确定该标注函数的召回率。如果标注函数的召回率低于预设的召回率阈值，则调整该标注函数或者丢弃该标注函数。

步骤S130，根据在所述样本数据中提取的所述关键词，对所述样本数据进行标注。

预设关键词对应的标签，将关键词对应的标签标注为样本数据的标签。进一步地，关键词和其对应的标签可以相同或者不同。例如：多个互为同义词的关键词可以对应到一个标签。

如果一个样本数据被一个标注函数命中，则根据该标注函数提取到的关键词，标注该样本数据。

如果一个样本数据被多个标注函数命中，则可以采用投票法确定样本数据的标签。具体的，根据多个所述标注函数分别在所述样本数据中提取到的关键词，确定同义词集合；其中，每个所述同义词集合包括互为同义词的关键词；根据包含关键词数量最多的同义词集合，对所述样本数据进行标注。进一步地，在设置标注函数阶段，可以指定互为同义词的关键词，并且在一组互为同义词的关键词中指定一个代表关键词作为该组关键词对应的标签。例如：已婚，适龄结婚和有配偶互为同义词，已婚为代表关键词。这样，在多个标注函数分别在一个样本数据中都提取到关键词之后，可以对各个标注函数提取的关键词进行聚合处理，得到多个同义词集合，并确定包含同义词最多的同义词集合，查询该同义词集合中多个对应的标签标注样本数据。

例如：根据入院记录中的婚史判断病人的婚姻状态，并对入院记录标注婚姻状态标签。婚姻状态包括：已婚、离异、丧偶、未婚和其他。将婚姻状态标签的格式设置为5位，从第1位到第5位顺序对应已婚、离异、丧偶、未婚和其他，在该关键词对应的标签位设置1，其他位设置0。

样例1：婚史：病人23岁，已婚，有一子一女。这时，用于提取“已婚”关键词的标注函数提取到关键词，为该样本数据标注标签：10000(表示已婚)。

样例2：婚史：病人已婚，配偶因心脏病去世，未再婚。这时，用于提取“去世”关键词的标注函数提取的关键词，“去世”对应“丧偶”，为该样本数据标注标签：00100(表示丧偶)。

如果样本数据没有被任何标注函数命中，则可以直接舍弃该样本数据。如果两个同义词集合中包括的关键词数量相同，可以直接舍弃该样本数据，或者为该样本数据添加标识，以便后续对两个同义词集合中的关键词分别对应的标注函数进行调整。

为了确保标注函数的准确率，在获取样本数据时，可以获取测试样本集；其中，在所述测试样本集中包括多个样本数据，并且每个所述样本数据已经被预先标注正确的样本标签；针对每个标注函数，执行如下步骤；通过所述标注函数在每个所述样本数据中提取关键词；根据所述标注函数在每个所述样本数据中提取的关键词分别对每个所述样本数据进行标注，得到所述样本数据的标签；根据每个所述样本数据的标签以及每个所述样本数据的样本标签，确定所述标注函数的提取准确率；在所述标注函数的提取准确率小于预设的准确率阈值时，舍弃所述标注函数或者调整所述标注函数。进一步地，针对每个样本数据，判断样本数据的标签和样本标签是否一致；如果一致，则计标注函数标注正确一次；统计标注函数标注正确的次数，使用标记正确的次数除以标注总次数，得到标注函数的准确率。

步骤S140，利用标注后的所述样本数据训练预设的标注模型，以便在所述标准模型完成训练之后，利用所述标注模型进行样本数据分类标注。

标注模型为预训练模型；所述标注模型用于对样本数据进行分类标注；其中，每个类别对应一个所述标签。也即是说，该标注模型在训练之前，已经初步具备数据分类能力，经过训练之后，可以更加准确的对样本数据进行分类并进行标注。进一步地，该标注模型可以是BERT模型。

具体而言，预先设置样本集。在所述样本集中包括多个样本数据。在样本集中获取部分样本数据形成测试样本集，将样本集中的其余样本数据作为训练样本集。例如：原始病例数据都是无标签的，从中选取一部分数据由标注人员进行人工标注，作为标注模型的测试样本集(也可用于验证标注函数的准确率)，其余大规模无标签数据作为标注模型的训练样本集(本实施例的步骤S110至130可以基于训练样本集进行标注)。

在标注函数标注(训练样本集中的)所有样本数据之后，可以产生大量已标注的样本数据，形成标注函数集。将预设的预训练模型在该标注函数集上进行训练，使用预测样本集进行模型效果评估，预训练模型在经过多次参数优化之后，训练完成，进而可以得到最终的标注模型。

使用训练得到的标注模型对训练样本集中的每个样本数据重新进行标注，可以实现对样本数据的分类。该重新标注之后的样本数据亦可以作为模型的训练集。

在本实施例中，获取样本数据；通过预设的标注函数在所述样本数据中提取关键词；根据在所述样本数据中提取的所述关键词，对所述样本数据进行标注；利用标注后的所述样本数据训练预设的标注模型，以便在所述标准模型完成训练之后，利用所述标注模型进行样本数据分类，形成分类数据集。在此过程中，先使用标注函数为样本数据标注标签，再将标注模型在已标注标签的样本数据上进行训练，最后可以使用标注模型进行样本数据分类标注，得到分类数据集，标注模型的标注准确率较高，而且避免了人工标注的问题，经济成本，人力成本，时间成本都得到了极大的降低。

在本实施例中，由于标注函数标注标签的准确率很难做到百分之百，所以本实施例使用预训练模型作为标注模型，这样标注模型本身具有一定的分类能力，可以在一定程度上校正标注函数的标注错误，提升标注模型最终的标注准确性。

在本实施例中，实现了一种基于弱监督学习的文本分类数据集构建方法。其中，标注函数相当于多个弱分类器。通过投票机制组合多个弱分类器，再经过预训练模型的微调，比单独使用标注函数打标，或者直接使用预训练模型预测的标注质量有所提高。同时节约了人力和时间，降低了数据集构建的成本。

本发明实施例还提供了一种分类数据集的构建装置。如图2所示，为根据本发明一实施例的分类数据集的构建装置的结构图。

该分类数据集的构建装置，包括：

获取模块210，用于获取样本数据。

提取模块220，用于通过预设的标注函数在所述样本数据中提取关键词。

标注模块230，用于根据在所述样本数据中提取的所述关键词，对所述样本数据进行标注。

训练模块240，用于利用标注后的所述样本数据训练预设的标注模型，以便在所述标准模型完成训练之后，利用所述标注模型进行样本数据分类标注。

其中，所述标注函数的数量为多个，每个所述标注函数用于提取一个关键词；所述提取模块220，用于：通过多个所述标注函数分别在所述样本数据中尝试提取关键词；所述标注模块230，用于：根据多个所述标注函数分别在所述样本数据中提取到的关键词，确定同义词集合；其中，每个所述同义词集合包括互为同义词的关键词；根据包含关键词数量最多的同义词集合，对所述样本数据进行标注。

其中，所述获取模块210，用于：获取测试样本集；其中，在所述测试样本集中包括多个样本数据，并且每个所述样本数据已经被预先标注正确的样本标签；所述装置还包括验证模块(图中未示出)；所述验证模块，用于在所述通过预设的标注函数在所述样本数据中提取关键词之后，针对每个标注函数，执行如下步骤；通过所述标注函数在每个所述样本数据中提取关键词；根据所述标注函数在每个所述样本数据中提取的关键词分别对每个所述样本数据进行标注，得到所述样本数据的标签；根据每个所述样本数据的标签以及每个所述样本数据的样本标签，确定所述标注函数的提取准确率；在所述标注函数的提取准确率小于预设的准确率阈值时，舍弃所述标注函数或者调整所述标注函数。

本发明实施例所述的装置的功能已经在上述方法实施例中进行了描述，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

本实施例提供一种分类数据集的构建设备。如图3所示，为根据本发明一实施例的分类数据集的构建设备的结构图。

在本实施例中，所述分类数据集的构建设备包括但不限于：处理器310、存储器320。

所述处理器310用于执行存储器320中存储的分类数据集的构建程序，以实现上述的分类数据集的构建方法。

具体而言，所述处理器310用于执行存储器320中存储的分类数据集的构建程序，以实现以下步骤：获取样本数据；通过预设的标注函数在所述样本数据中提取关键词；根据在所述样本数据中提取的所述关键词，对所述样本数据进行标注；利用标注后的所述样本数据训练预设的标注模型，以便在所述标准模型完成训练之后，利用所述标注模型进行样本数据分类标注。

本发明实施例还提供了一种计算机可读存储介质。这里的计算机可读存储介质存储有一个或者多个程序。其中，计算机可读存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。

当计算机可读存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述的分类数据集的构建方法。

具体而言，所述处理器用于执行存储器中存储的分类数据集的构建程序，以实现以下步骤：获取样本数据；通过预设的标注函数在所述样本数据中提取关键词；根据在所述样本数据中提取的所述关键词，对所述样本数据进行标注；利用标注后的所述样本数据训练预设的标注模型，以便在所述标准模型完成训练之后，利用所述标注模型进行样本数据分类标注。

以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种分类数据集的构建方法，其特征在于，包括：

获取样本数据；

通过预设的标注函数在所述样本数据中提取关键词；

根据在所述样本数据中提取的所述关键词，对所述样本数据进行标注；

利用标注后的所述样本数据训练预设的标注模型，以便在所述标准模型完成训练之后，利用所述标注模型进行样本数据分类标注。

2.根据权利要求1所述的方法，其特征在于，

所述标注函数的数量为多个，每个所述标注函数用于提取一个关键词；

所述通过预设的标注函数在所述样本数据中提取关键词，包括：

通过多个所述标注函数分别在所述样本数据中尝试提取关键词；

所述根据在所述样本数据中提取的所述关键词，对所述样本数据进行标注，包括：

根据多个所述标注函数分别在所述样本数据中提取到的关键词，确定同义词集合；其中，每个所述同义词集合包括互为同义词的关键词；

根据包含关键词数量最多的同义词集合，对所述样本数据进行标注。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取测试样本集；其中，在所述测试样本集中包括多个样本数据，并且每个所述样本数据已经被预先标注正确的样本标签；

针对每个标注函数，执行如下步骤；

通过所述标注函数在每个所述样本数据中提取关键词；

根据所述标注函数在每个所述样本数据中提取的关键词分别对每个所述样本数据进行标注，得到所述样本数据的标签；

根据每个所述样本数据的标签以及每个所述样本数据的样本标签，确定所述标注函数的提取准确率；

在所述标注函数的提取准确率小于预设的准确率阈值时，舍弃所述标注函数或者调整所述标注函数。

4.根据权利要求1所述的方法，其特征在于，

所述标注模型为预训练模型；

所述标注模型用于对样本数据进行分类，每个类别对应一个标签。

5.一种分类数据集的构建装置，其特征在于，包括：

获取模块，用于获取样本数据；

提取模块，用于通过预设的标注函数在所述样本数据中提取关键词；

标注模块，用于根据在所述样本数据中提取的所述关键词，对所述样本数据进行标注；

训练模块，用于利用标注后的所述样本数据训练预设的标注模型，以便在所述标准模型完成训练之后，利用所述标注模型进行样本数据分类标注。

6.根据权利要求5所述的装置，其特征在于，

所述提取模块，用于：通过多个所述标注函数分别在所述样本数据中尝试提取关键词；

所述标注模块，用于：根据多个所述标注函数分别在所述样本数据中提取到的关键词，确定同义词集合；其中，每个所述同义词集合包括互为同义词的关键词；根据包含关键词数量最多的同义词集合，对所述样本数据进行标注。

7.根据权利要求5所述的装置，其特征在于，

所述获取模块，用于：获取测试样本集；其中，在所述测试样本集中包括多个样本数据，并且每个所述样本数据已经被预先标注正确的样本标签；

所述装置还包括验证模块；所述验证模块，用于在所述通过预设的标注函数在所述样本数据中提取关键词之后，针对每个标注函数，执行如下步骤；通过所述标注函数在每个所述样本数据中提取关键词；根据所述标注函数在每个所述样本数据中提取的关键词分别对每个所述样本数据进行标注，得到所述样本数据的标签；根据每个所述样本数据的标签以及每个所述样本数据的样本标签，确定所述标注函数的提取准确率；在所述标注函数的提取准确率小于预设的准确率阈值时，舍弃所述标注函数或者调整所述标注函数。

8.根据权利要求5所述的装置，其特征在于，

所述标注模型为预训练模型；

所述标注模型用于对样本数据进行分类标注；其中，每个类别对应一个所述标签。

9.一种分类数据集的构建设备，其特征在于，所述分类数据集的构建设备包括处理器、存储器；所述处理器用于执行所述存储器中存储的分类数据集的构建程序，以实现权利要求1-4中任一项所述的分类数据集的构建方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1-4中任一项所述的分类数据集的构建方法。