CN112348108A

CN112348108A - 一种基于众包模式的样本标注方法

Info

Publication number: CN112348108A
Application number: CN202011292894.8A
Authority: CN
Inventors: 何国良; 王晗; 黄成瑞
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2021-02-09

Abstract

本发明公开了一种基于众包模式的样本标注方法，包括以下步骤：1)获取未标注的多元时间序列数据集，抽取选择数据集中需要标注的样本；2)对所有标注者，基于每个标注者的标注准确度和标注成本，选择达到置信度阈值且成本最低的标注者集，作为成本效益众包标注模型；3)对抽取的需要标注的样本，基于成本效益众包标注模型得到标注结果，将标注后的样本加入标注数据集，并将其逆最近邻样本与该未标注样本分为同一类，加入标记数据集，得到更新后的标记数据集；4)计算停止标准，达到停止条件后，得到多元时间序列数据集对应的最终的标记数据集结果。本发明方法用于实现对未标注样本可靠且低成本的标注。

Description

一种基于众包模式的样本标注方法

技术领域

本发明涉及数据挖掘技术，尤其涉及一种基于众包模式的样本标注方法。

背景技术

高质量的数据集对于模型的训练至关重要。但是现实生活中，标记数据往往数量很少，并且对数据的高效准确的标注耗时且昂贵。针对此问题，主动学习逐渐成为研究热点，而其中的一个关键就是对未标记样本的有效标注，传统的机器学习算法往往没有考虑到标注者准确性不同的问题。为提升标注准确度，研究者们提出了一些众包标注算法，其中最重要的问题在于标注者的标注误差。

为提升基于众包标注数据训练得到的分类器性能，Zhang等学者提出了一种群体学习的元学习集成方法，尽可能保存对学习有价值的信息而不是查询训练实例的真实标签。基于半监督学习，Atarashi等学者改进了一种众包标记过程的泛化模型，通过引入未标注数据的潜在特征和数据分布有效利用未标注数据。为提高众包标注的质量，Liu等学者设计了一种有效的在线算法，利用简单的多数投票规则随时间推移分辨高质量和低质量标注者。

此外，主动学习的成本也是一个重要问题。为了在低成本条件下提高标注准确度，Huang等学者提出了衡量实例-标注者对的成本-有效性的主动学习标准，为实例选择成本相对较低并可提供准确标注的标注者。

以上研究对于众包标注的准确性和标注成本分别展开了研究。然而，现有的传统众包标注方法未考虑群体智能，事实上，每个个体对于不同种类的实例标注准确度不同。此外，标注准确度与标注成本之间需要进行权衡，在保证标注准确度满足要求的同时，尽可能降低标注成本。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于众包模式的样本标注方法。

本发明解决其技术问题所采用的技术方案是：一种基于众包模式的样本标注方法，包括以下步骤：

1)获取未标注的多元时间序列数据集，抽取选择数据集中需要标注的样本；

2)对所有标注者，基于每个标注者的标注准确度和标注成本，选择达到置信度阈值且成本最低的标注者集，作为成本效益众包标注模型；

3)对抽取的需要标注的样本，基于成本效益众包标注模型得到标注结果，将标注后的样本加入标注数据集，并将其逆最近邻样本与该未标注样本分为同一类，加入标记数据集，得到更新后的标记数据集；

4)计算停止标准，达到停止条件后，得到多元时间序列数据集对应的最终的标记数据集结果。

按上述方案，所述步骤1)中多元时间序列数据集为工业传感器数据，金融数据，医疗数据，服务器系统监控数据等。

按上述方案，所述步骤1)中采用抽样算法选择确定数据集中需要标注的样本。

按上述方案，所述步骤2)中选择达到置信度阈值且成本最低的标注者集，具体如下：

2.1)对于所有标注者，采取适应性标注者选择算法得到用于标注的标注者集；

2.2)基于标注者集中的每个标注者的标注准确度和标注成本，通过群体智能决策计算得到标注者群体标注置信度，对各标注者的标注成本求和得到标注者群体标注成本；

2.3)获取在满足置信度要求的条件下，标注成本最低的标注者群体作为标注者集，该标注者集表示如下：

其中，U表示未标注样本，

表示标注者个体，

表示用于标注的标注者集，Cost(a)表示标注者集中标注者a的标注成本，Confid(U,H^*)表示标注者群体

对未标注样本U的标注置信度，δ为置信度阈值。

按上述方案，所述步骤2.1)中采取适应性标注者选择算法得到用于标注的标注者集，具体如下：

2.1.1)初始时随机生成具有N个个体的人群Θ，人群Θ中的每个个体由一组二进制编码构成，每个二进制码表示第i个标注者被选择的情况，被选择时为1，否则为0；

2.1.2)对人群Θ中的所有个体进行适应度评价，适应度用标记置信度和标记成本表示，对于人群Θ中的任一个个体

适应度F采用下式计算：

其中，Cost_max是所有可行解的最大成本，

为惩罚方程；

2.1.3)进行交叉操作，对两个个体的交叉点之前的二进制码片段进行交换，得到两个新的个体，在两个原个体和两个新个体中选择适应度最高的两个个体保留，接下来对保留的个体分别执行变异操作，随机改变个体的一个二进制编码值，保留变异前个体与变异后个体中适应度最高的个体；

2.1.4)当满足迭代停止条件时，得到适应度满足需求的个体集合

即为标注者集

按上述方案，所述步骤4)中停止条件，在连续几轮迭代中抽取选择的样本之间价值差异变化收敛时，则判断剩余的未标记样本中不存在重要的样本，达到停止条件。

本发明产生的有益效果是：

本发明针对高维多元时间序列提出了一种高置信度且低成本的众包标注策略，选择需要标注的样本后，通过适应性标注者选择算法得到置信度满足阈值且成本最低的标注者集，实现对未标注样本可靠且低成本的标注。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的结构示意图；

图2为对WG未标记数据集中不同比例数据进行标注后得到的最近邻分类器分类的准确度示意图；

图3为对WG未标记数据集中不同比例数据进行标注后得到的最近邻分类器分类的F-measure值示意图；

图4为对WG未标记数据集中不同比例数据进行标注后得到的最近邻分类器分类的时间消耗示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明针对高维多元时间序列的主动学习问题，提出了一种高置信度且低成本的众包标注策略。选择需要标注的样本后，通过适应性标注者选择算法得到置信度满足阈值且成本最低的标注者集，实现对未标注样本可靠且低成本的标注。本发明的适用对象，常见包括工业传感器数据，金融数据，医疗数据(如心电图数据集)，服务器系统监控数据等，本发明的应用场景包括医学疾病诊断，系统故障侦测，股票分析等。

本发明实施例以WG数据集(波士顿数据集)为具体实例说明本发明方法的有效性，WG数据含2个类别(分别记为正例与反例)，每个数据包括3个变量，即每个数据包括3个变量的时间序列，每个时间序列长为315，共包含1120个数据。初始状态只有一个标记正例数据，其余数据为未标记数据。为降低初始化的敏感性，进行十次试验，每次以不同的标记数据作为初始状态。

如图1所示，基于以上数据集，实施例通过以下步骤对数据集实施半监督主动学习框架，

一种基于众包模式的样本标注方法，包括以下步骤：

步骤1，对于未标记多元时间序列数据集，选择需要标注的样本；

本实施例对于WG数据集的未标注样本集U，选择出需要标注的样本。

步骤2，对所有标注者，基于每个标注者的标注准确度和标注成本，采取适应性标注者选择算法选择达到置信度阈值且成本最低的标注者集；建立成本效益众包标注模型；

本实施例对于标注者群体，基于成本效益众包标注模型，经过初始化、交叉和变异操作得到用于标注的标注者集。基于每个标注者的标注准确度和标注成本，通过群体智能决策可计算得到群体标注置信度，对各标注者的标注成本求和可得群体标注成本。成本效益众包标注模型寻求在满足置信度要求的条件下，标注成本最低的标注者集，表示如下：

其中，U表示未标注样本，

表示标注者个体，Cost(a)表示标注者a的标注成本，Confid(U,H^*)表示标注者群体

对未标注样本U的标注置信度，δ为阈值。

成本效益众包标注模型中，采用适应性标注者选择算法求解得到标注者集。具体实现为：

初始时随机生成具有N个个体的人群Θ，人群Θ中的每个个体由一组二进制编码构成，每个二进制码表示第i个标注者被选择的情况，被选择时为1，否则为0。然后对人群Θ中的所有个体进行适应度评价，适应度用标记置信度和标记成本表示。对于人群Θ中的一个个体

适应度F的计算为：

其中，Cost_max是所有可行解的最大成本，

为惩罚方程。

然后进行交叉操作，对两个个体的交叉点之前的二进制码片段进行交换，得到两个新的个体，在两个原个体和两个新个体中选择适应度最高的两个个体保留。接下来对保留的个体分别执行变异操作，随机改变个体的一个二进制编码值，保留变异前个体与变异后个体中适应度最高的个体。当满足迭代停止条件时，得到适应度最高的个体

实验中，某个体对某类样本的标注准确率随机设定在0.5～0.6或0.6～0.7的范围，并且，对于数据的各类别，基于正态分布的3σ原则设定个体的标注准确率。基于个体a_i对于数据集D的平均标注准确率，其标注成本Cost计算如下：

其中，Mean_Acc(ai，D)是a_i在数据集D上的准确度均值，γ＝3且η＝20。标注者的准确率和标注成本在实验中设定后保持不变。

具体实施时，本发明技术人员可以自行设计相应运行流程。为便于实施参考起见，提供建议适应性标注者选择算法伪代码如下：

在适应性标注者选择过程中，各符号说明：Algorithm 1表示本发明的算法1，ALS为算法1的名称，即适应性标注者选择，Input、Output分别表示算法1的输入、输出，U表示未标记多元时间序列，δ表示置信度阈值，Θ表示生成的群体，N表示群体Θ中的个体数目，F

表示个体

的适应度。

算法流程：首先，随机生成具有N个个体的群体Θ，见行1；然后迭代进行以下过程：对群体中的每个个体衡量适应度，执行交叉和变异，见行2～6；最后得到最合适的标注者子集以及置信度。

步骤3，对步骤1所得的未标注样本，基于成本效益众包标注模型得到标注结果，将标注后的样本加入标注数据集，并将其逆最近邻样本与该未标注样本分为同一类，加入标记数据集。

经过以上步骤，已经得到需要标注的未标记样本和最合适的标注者集，接下来利成本效益众包标注模型得到对未标记样本的标注结果，将标注后的样本加入到标注数据集

中。为了进一步扩大标注数据集的大小，再计算该样本在未标注数据集

中的逆1近邻样本U*，采用半监督分类器对U*分类为与U相同的类别，加入标注数据集中。实验中的半监督分类器采用最近邻分类器。

具体实施时，本发明技术人员可以自行设计相应运行流程。为便于实施参考起见，提供建议建立规则的伪代码：

在半监督主动学习过程中，各符号说明：Algorithm 2表示本发明的算法2，Framework of Active Semi-Supervised Learning为算法2的名称，即半监督主动学习框架，Input、Output分别表示算法2的输入、输出，PL表示部分标记，D表示多元时间序列训练数据集，L表示标记数据集，表示未标记数据集，U表示步骤1中选择的未标记样本，U^*表示U的逆1近邻样本。

算法流程：在停止标准满足之前，迭代进行如下过程：首先通过步骤1中的抽样算法选择最有价值的未标记样本U，见行2；然后，通过步骤2中的适应性标注者选择算法得到最优标注者集，见行3；然后基于标注者集对U进行标注，并将U加入标记数据集L中，见行4；接下来，将U的逆1近邻通过半监督学习自动归类到与U相同的类别，扩大标注数据集，见行5；最后得到更新后的标记数据集L。

步骤4，计算停止标准，判断算法是否达到迭代停止条件，达到停止条件后，得到标记数据集更新结果。

经过以上步骤，已经选择出合适的标注者集对需要标记的样本进行了可靠的标记。接下来判断算法迭代是否达到停止条件，在几轮迭代中选择的样本之间价值差异很小时，认为剩余的未标记样本中不存在重要的样本，对于分类器的性能提高没有帮助，主动学习达到停止条件。

综上所述，本发明提出了一种基于众包模式的样本标注方法，能获取高质量的标注数据集，首先，选择需要标注的样本；其次，为在保证置信度的情况下尽可能降低标注成本，将标注准确性提升与标注成本降低问题相结合，提出一种基于群体智能的成本效益众包标注模型；最后，为获取最合适的标注者集，提出了一种适应性标注者选择算法，可对未标注样本进行可靠且低成本的标注。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。