CN108062394A

CN108062394A - 一种数据集的标注方法及相关装置

Info

Publication number: CN108062394A
Application number: CN201711365513.2A
Authority: CN
Inventors: 李云彬; 权圣
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2018-05-22

Abstract

本申请公开了一种数据集的标注方法，包括：按照预设规则从原始数据中选择未标注数据，得到候选数据集；对候选数据集进行不确定性分析，并根据分析结果进行待标注数据筛选，得到待标注数据集；根据接收到的标注信息对待标注数据集进行标注处理，得到已标注数据集。通过将数据集根据不确定性进行数据筛选得到适合模型处理的不确定数据集，对该数据集进行标注可以提高模型训练测试的效率，以更少的数据可以达到更好的效果，提升监督学习的整体效率。本申请还公开了一种数据集的标注装置、服务器以及计算机可读存储介质，具有上述有益效果。

Description

一种数据集的标注方法及相关装置

技术领域

本申请涉及计算机技术领域，特别涉及一种数据集的标注方法、标注装置、服务器以及计算机可读存储介质。

背景技术

随着信息技术的发展，机器学习技术被应用到越来越多的领域，提高不同应用场景下处理问题的效率。机器学习主要是通过大量数据进行训练，得到更加精准的识别模型，同时还要不断的使用原始数据对识别模型的进行测试，以判断该识别模型是否达到学习的要求。

目前主流的机器学习还是监督学习，在监督学习中不可缺少的是有标签的数据。而随着互联网的进一步的发展，每天都在产生大量的数据，并且这些数据都是杂乱无章的，没有标签的，无法直接使用到监督学习中。进一步，数据的标签质量还会直接影响到监督学习的识别模型的识别效果上限。

其中，对于测试使用的原始数据需要进行人工标注，才可以作为训练的原始数据。人工标注主要是对没有标签的数据进行人工的标注相应的类别，以获得具有标注的数据。

但是在一般的人工标注处理中，不可避免会对大量现有识别模型可以进行识别的数据进行标注，这些识别模型已经可以进行识别的数据无法使识别模型得到更好的测试，也就是无法达到对测试数据进行标注的预期效果，降低了监督学习的整体训练效率。

因此，如何提高数据标注的效率是本领域技术人员所关注的重点问题。

发明内容

本申请的目的是提供一种数据集的标注方法、标注装置、服务器以及计算机可读存储介质，通过将数据集根据不确定性进行数据筛选得到适合模型处理的不确定数据集，对该数据集进行标注可以提高模型训练测试的效率，以更少的数据可以达到更好的效果，提升监督学习的整体效率。

为解决上述技术问题，本申请提供一种数据集的标注方法，包括：

按照预设规则从原始数据中选择未标注数据，得到候选数据集；

对所述候选数据集进行不确定性分析，并根据分析结果进行待标注数据筛选，得到待标注数据集；

根据接收到的标注信息对所述待标注数据集进行标注处理，得到已标注数据集。

可选的，对所述候选数据集进行不确定性分析，并根据分析结果进行待标注数据筛选，得到待标注数据集，包括：

对所述候选数据集的数据进行不确定性分析，得到每条所述数据的不确定性数值；

对所有所述数据根据相对应的不确定性数值进行降序排序，选择前预设数量个的所述数据作为所述待标注数据；

将所有所述待标注数据作为待标注数据集。

判断每条所述数据的相对应不确定性数值是否大于预设不确定性数值；

若是，则将所述数据作为所述待标注数据；

将所有所述待标注数据作为待标注数据集。

可选的，对所述候选数据集的数据进行不确定性分析，得到每条所述数据的不确定性数值，包括：

对所述候选数据集的数据进行最小置信度分析、边缘采样分析以及信息熵分析中的至少一项分析，得到每条所述数据的不确定性数值。

可选的，按照预设规则从原始数据中选择未标注数据，得到候选数据集，包括：

从原始数据中选择预设时间段内的未标注数据，得到候选数据集。

可选的，根据接收到的标注信息对所述待标注数据集进行标注处理，得到已标注数据集，包括：

接收标注人员输入的与所述待标注数据集的数据对应的标注信息；

根据审核结果将所述标注信息与所述待标注数据集的数据形成对应关系，得到已标注数据集；其中，所述审核结果为审核人员对所述标注信息进行审核处理得到的。

本申请还提供一种数据集的标注装置，包括：

候选数据获取模块，用于按照预设规则从原始数据中选择未标注数据，得到候选数据集；

待标注数据获取模块，用于对所述候选数据集进行不确定性分析，并根据分析结果进行待标注数据筛选，得到待标注数据集；

数据标注模块，用于根据接收到的标注信息对所述待标注数据集进行标注处理，得到已标注数据集。

本申请还提供一种服务器，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时，实现如下的步骤：

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如下的步骤：

本申请所提供的一种数据集的标注方法，包括：按照预设规则从原始数据中选择未标注数据，得到候选数据集；对所述候选数据集进行不确定性分析，并根据分析结果进行待标注数据筛选，得到待标注数据集；根据接收到的标注信息对所述待标注数据集进行标注处理，得到已标注数据集。

可见，本申请的技术方案中将候选数据集根据不确定性分析的结果，进行筛选得到相应的待标注数据集。其中，不确定性分析是分析监督学习是否对于数据的识别存在不确定状态，如果对数据的识别结果是不确定的，那么该数据就是当前的监督学习无法很好判断的数据，进而将该数据进行标注作为监督学习的测试集可以得到更准确的测试结果。因此，通过本申请技术方案可以提高模型训练测试的效率，以更少的数据可以达到更好的效果，提升监督学习的整体效率。

本申请还提供一种数据集的标注装置、服务器以及计算机可读存储介质，具有上述有益效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种数据集的标注方法的流程图；

图2为本申请实施例所提供的数据集的标注方法中的一种数据筛选方式的流程图；

图3为本申请实施例所提供的数据集的标注方法中的另一种数据筛选方式的流程图；

图4为本申请实施例所提供的数据集的标注方法中的标注处理的流程图；

图5为本申请实施例所提供的一种数据集的标注装置的结构示意图。

具体实施方式

本申请的核心是提供一种数据集的标注方法、标注装置、服务器以及计算机可读存储介质，通过将数据集根据不确定性进行数据筛选得到适合模型处理的不确定数据集，对该数据集进行标注可以提高模型训练测试的效率，以更少的数据可以达到更好的效果，提升监督学习的整体效率。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种数据集的标注方法的流程图。

本实施例提供一种数据集的标注方法，可以提高数据集标注的效率，提升监督学习的整体训练效果，该方法可以包括：

S101，按照预设规则从原始数据中选择未标注数据，得到候选数据集；

本步骤旨在从原始数据中选出需要进行标注处理的未标注数据，将选出的所有未标注数据作为候选数据集。

其中，原始数据是指在互联网中产生的大量数据，显然，这些数据也是没有经过处理并且杂乱无章的数据。机器学习可以对这些数据进行识别处理得到最后的结果，或者从中选取相应的数据进行测试处理，以得到更适合本次机器学习的数据，使机器学习按照预期目标进行，得到更好的识别模型。

因此，就需要从大量的原始数据中选取标注处理的候选数据。其中，预设规则即预先设定的选取规则，可以是按照数据的产出时间进行选取，例如，选择过年法定假期之间的数据作为候选数据，就可以集中学习假期时的数据得到相应的结果数据；还可以选择特定数据产生源的数据作为候选数据，例如，选择腾讯网或者网易新闻的数据作为候选数据，就可以得到符合某个网站特点的识别模型；也可以选择特定地点的数据作为候选数据，例如，选择湖北省或者广东省的数据作为候选数据。具体的，可以视机器学习的实际情况再选择以何种方式筛选候选数据，在此不做限定。

按照上述的预设规则选择出相应的候选数据后，就可以将所有候选数据的集合作为候选数据集。

S102，对候选数据集进行不确定性分析，并根据分析结果进行待标注数据筛选，得到待标注数据集；

在步骤S101的基础上，本步骤旨在对候选数据集根据不确定性分析的结果进行相应的筛选，得到待标注数据集。

在一般的监督学习过程中，需要对候选数据集中的数据进行标注才可以进行对识别模型的测试。而通常会对候选数据集中的数据直接进行标注，得到相应的测试集。但是由于候选数据集中的数据还会存在目前识别模型可以轻松识别的数据，将此类数据进行标注后再进行测试通常起不到需要的效果，并且还浪费了大量的标注人员的人力，降低监督学习的整体效率。

因此，本申请的技术方案中将候选数据集根据不确定性分析的结果，进行筛选得到相应的待标注数据集。其中，不确定性分析是分析监督学习是否对于数据的识别存在不确定状态，如果对数据的识别结果是不确定的，那么该数据就是当前的监督学习无法很好判断的数据，进而将该数据进行标注作为监督学习的测试集可以得到更准确的测试结果。因此，通过本申请技术方案可以提高模型训练测试的效率，以更少的数据可以达到更好的效果，提升监督学习的整体效率。

其中，不确定性可以通过最小置信度、边缘采样以及信息熵进行衡量。具体的，其分析结果可以通过数值的方式进行体现，例如，数值越高不确定性就越高；也可以将不确定性划分为多个等级进行比较；具体的，可以根据实际应用的情况选择合适的形式展示不确定性，在此不作赘述。

S103，根据接收到的标注信息对待标注数据集进行标注处理，得到已标注数据集。

在步骤S102的基础上，本步骤旨在对待标注数据集进行标注处理。标注处理是指将数据集中的数据与其相对应的类别形成一一对应的关系，就可以得到相应的已标注数据集。

本实施例提供一种数据集的标注方法，可以通过将数据集根据不确定性进行数据筛选得到适合模型处理的不确定数据集，对该数据集进行标注可以提高模型训练测试的效率，以更少的数据达到更好的效果，提升监督学习的整体效率。

请参考图2，图2为本申请实施例所提供的数据集的标注方法中的一种数据筛选方式的流程图。

基于上一实施例，本实施例可以主要是针对上一实施例中如何进行待标注数据筛选做的一个具体说明，其它部分与上一实施例大体相同，相同部分可以参考上一实施例，在此不作赘述。

本实施例可以包括：

S201，对候选数据集的数据进行不确定性分析，得到每条数据的不确定性数值；

本步骤旨在对数据集中的数据进行不确定性分析，得到每条数据对应的不确定性分析结果，即不确定性数值。

本步骤主要选择数值的方式表现不确定性的高低，可以更加直观的显示数据的不确定的程度，并且方便通过数值比较不确定性之间的差异。

S202，对所有数据根据相对应的不确定性数值进行降序排序，选择前预设数量个的数据作为待标注数据；

在步骤S201的基础上，本步骤旨在根据不确定性数值对数据进行降序排序，并选择排序结果前预设数量个的数据作为待标注数据。

通过将数据进行降序排序，就可以保持序列前的数据都是不确定性较高的数据，再进行选择就可以保持数据的不确定性程度，进而保持用做测试集的数据的测试效率较高。

其中，预设数量可以根据应用的环境进行相应的选择，也可以根据一定的比例设置预设数量，例如，可以选择候选数据集的80％作为待标注数据，此时预设数量就是总数据量的80％。具体的，还可以根据实际应用的情况，选择合适的预设数量的设置方式，在此不做限定。

S203，将所有待标注数据作为待标注数据集。

在步骤S202的基础上，本步骤旨在将上述步骤得到的所有待标注数据作为待标注数据集。

请参考图3，图3为本申请实施例所提供的数据集的标注方法中的另一种数据筛选方式的流程图。

基于上一实施例，本实施例可以主要是针对上一实施例中如何进行待标注数据筛选做的另一个具体说明，其他部分与上一实施例大体相同，相同部分可以参考上一实施例，在此不作赘述。

本实施例可以包括：

S301，对候选数据集的数据进行不确定性分析，得到每条数据的不确定性数值；

S302，判断每条数据的相对应不确定性数值是否大于预设不确定性数值；

在步骤S301的基础上本步骤旨在判断每条数据的不确定性数值是否大于预设的不确定性数值。

其中，预设不确定性数值可以根据实际工作的环境进行设置，在此不做赘述。

S303，若是，则将数据作为待标注数据；

在步骤S302的基础上，本步骤旨在将不确定性数值大于预设不确定性数值的数据作为待标注数据。

如果数据的不确定性数值大于预设数值就可以说明该数据符合标注的规则，进而继续进行标注处理。

S304，将所有待标注数据作为待标注数据集。

在步骤S303的基础上，本步骤旨在将所有待标注数据作为待标注数据集。

基于上述实施例，其中对候选数据集所进行的不确定性分析可以是最小置信度分析、边缘采样分析以及信息熵分析中的至少一项分析。通过其中任一项分析或者组合后的分析方式，都可以在不同角度分析出数据的不确定性，得到相应的不确定性结果。而不同的分析方式的准确性以及运算效率都不尽相同，具体的应视不同的应用环境进行选择，在此不作赘述。

可选的，可以综合最小置信度分析、边缘采样分析以及信息熵分析的指标对候选数据的不确定性进行分析。特别的，数据的不确定性也可以叫做数据的标注价值。关于数据的标注价值可以定义如下：

value(x)＝LC(x)+MS(x)+Entropy(x)

其中，LC为Least confidence，即最小置信度分析，定义可以是：

LC(x)＝1-max_y(P_θ(y|x))

LC表示1减去样本x的预测概率分布中最大的概率，其中y表示标签(类别)，max_y(P_θ(y|x)即为上述最大概率，P_θ(y|x)为样本x的预测概率分布中的概率，P_θ为模型预测概率分布，LC越大表示样本x不确定性越高。

MS为Margin sampling，即边缘采样分析，定义可以是：

MS表示样本x的概率分布中最大概率P_θ(y₁|x)和次大概率P_θ(y₂|x)的差值，其中y₁,y₂分别为模型θ预测的最大概率和次大概率对应的标签(类别)，P_θ为模型预测概率分布，MS越大表示样本x不确定性越高。

Entropy即为信息熵分析，其定义可以是：

Entropy表示样本x的预测概率分布的信息熵，其中，P_θ(y_i|x)表示样本x的预测概率，P_θ为模型预测概率分布，Entropy越大表示样本x不确定性越高。

最后，value(x)的值越大就说明样本(数据)x的不确定性越大，即越需要进行相应的标注处理。

请参考图4，图4为本申请实施例所提供的数据集的标注方法中的标注处理的流程图。

基于上一实施例，本实施例可以主要是针对上一实施例中如何进行标注处理做的一个具体说明，其他部分与上一实施例大体相同，相同部分可以参考上一实施例，在此不作赘述。

本实施例可以包括：

S401，接收标注人员输入的与待标注数据集的数据对应的标注信息；

S402，根据审核结果将标注信息与待标注数据集的数据形成对应关系，得到已标注数据集；其中，审核结果为审核人员对标注信息进行审核处理得到的。

本实施例旨在对待标注数据进行标注处理，将待标注数据集中的数据与标注信息形成对应关系。

其中，还对标注信息进行了审核处理，提高标注处理的准确率。

本申请实施例提供了一种数据集的标注方法，可以通过将数据集根据不确定性进行数据筛选得到适合模型处理的不确定数据集，对该数据集进行标注可以提高模型训练测试的效率，以更少的数据可以达到更好的效果，提升监督学习的整体效率。

下面对本申请实施例提供的一种数据集的标注装置进行介绍，下文描述的一种数据集的标注装置与上文描述的一种数据集的标注方法可相互对应参照。

请参考图5，图5为本申请实施例所提供的一种数据集的标注装置的结构示意图。

该实施例提供一种数据集的标注装置，可以包括：

候选数据获取模块100，用于按照预设规则从原始数据中选择未标注数据，得到候选数据集；

待标注数据获取模块200，用于对候选数据集进行不确定性分析，并根据分析结果进行待标注数据筛选，得到待标注数据集；

数据标注模块300，用于根据接收到的标注信息对待标注数据集进行标注处理，得到已标注数据集。

基于该实施例，可以实现如下具体实施方案：

在对文本数据进行分类的过程中，已标注训练集和测试集情况如下：

训练集：S＝60000条

测试集：T＝10000条

模型：θ

现在新增标注语料，为了对比本方案和传统方案的效果，两种方案都进行了语料标注，标注数量如下：

本方案标注语料数：6000条

传统方案标注语料数：20000条

通过交叉验证的方式，分别测试将不同方案标注语料加入训练之后在测试集上的表现。

经过标注处理后，一共标注了6000条语料，每次迭代从语料候选集中筛选1000条进行标注；在传统标注流程中，从未标注语料集中随机筛选20000条语料进行标注。

在该实例中，模型使用sklearn工具中的LogisticRegression模型。模型参数设置如下：

dual＝True；C＝4；其它参数使用默认值。

文本预处理采用1-gram、2-gram进行切词处理，文本向量化采用one-hot encoder进行编码。

将训练集进行三等份交叉，将本方案标注的语料加入训练集训练模型计算在测试集上的准确率，重复5次，一共得到15个准确率，取平均值作为最后的准确率。

将训练集进行三等份交叉，从传统标注的语料中分别随机筛选500，1000，1500，…，20000(递增值为500)加入训练集训练模型计算在测试集上的准确率，重复5次，对于每一个加入训练集的数值一共得到15个准确率，取平均值作为每一个数值最后的准确率。

最后通过分析，传统方法标注8000条语料才能达到本方案标注6000条语料在测试集上相当的准确率。也就是说采用本方案进行语料标注相比传统方案节约语料标注量25％。

本申请实施例还提供一种服务器，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时，实现如下的步骤：

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如下的步骤：

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种数据集的标注方法、标注装置、服务器以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种数据集的标注方法，其特征在于，包括：

2.根据权利要求1所述的标注方法，其特征在于，对所述候选数据集进行不确定性分析，并根据分析结果进行待标注数据筛选，得到待标注数据集，包括：

将所有所述待标注数据作为待标注数据集。

3.根据权利要求1所述的标注方法，其特征在于，对所述候选数据集进行不确定性分析，并根据分析结果进行待标注数据筛选，得到待标注数据集，包括：

若是，则将所述数据作为所述待标注数据；

将所有所述待标注数据作为待标注数据集。

4.根据权利要求2和3任一项所述的标注方法，其特征在于，对所述候选数据集的数据进行不确定性分析，得到每条所述数据的不确定性数值，包括：

5.根据权利要求4所述的标注方法，其特征在于，按照预设规则从原始数据中选择未标注数据，得到候选数据集，包括：

6.根据权利要求5所述的标注方法，其特征在于，根据接收到的标注信息对所述待标注数据集进行标注处理，得到已标注数据集，包括：

7.一种数据集的标注装置，其特征在于，包括：

8.一种服务器，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述的标注方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的标注方法的步骤。