CN112348108A - 一种基于众包模式的样本标注方法 - Google Patents

一种基于众包模式的样本标注方法 Download PDF

Info

Publication number
CN112348108A
CN112348108A CN202011292894.8A CN202011292894A CN112348108A CN 112348108 A CN112348108 A CN 112348108A CN 202011292894 A CN202011292894 A CN 202011292894A CN 112348108 A CN112348108 A CN 112348108A
Authority
CN
China
Prior art keywords
annotator
cost
labeling
samples
individuals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011292894.8A
Other languages
English (en)
Inventor
何国良
王晗
黄成瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202011292894.8A priority Critical patent/CN112348108A/zh
Publication of CN112348108A publication Critical patent/CN112348108A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于众包模式的样本标注方法,包括以下步骤:1)获取未标注的多元时间序列数据集,抽取选择数据集中需要标注的样本;2)对所有标注者,基于每个标注者的标注准确度和标注成本,选择达到置信度阈值且成本最低的标注者集,作为成本效益众包标注模型;3)对抽取的需要标注的样本,基于成本效益众包标注模型得到标注结果,将标注后的样本加入标注数据集,并将其逆最近邻样本与该未标注样本分为同一类,加入标记数据集,得到更新后的标记数据集;4)计算停止标准,达到停止条件后,得到多元时间序列数据集对应的最终的标记数据集结果。本发明方法用于实现对未标注样本可靠且低成本的标注。

Description

一种基于众包模式的样本标注方法
技术领域
本发明涉及数据挖掘技术,尤其涉及一种基于众包模式的样本标注方法。
背景技术
高质量的数据集对于模型的训练至关重要。但是现实生活中,标记数据往往数量很少,并且对数据的高效准确的标注耗时且昂贵。针对此问题,主动学习逐渐成为研究热点,而其中的一个关键就是对未标记样本的有效标注,传统的机器学习算法往往没有考虑到标注者准确性不同的问题。为提升标注准确度,研究者们提出了一些众包标注算法,其中最重要的问题在于标注者的标注误差。
为提升基于众包标注数据训练得到的分类器性能,Zhang等学者提出了一种群体学习的元学习集成方法,尽可能保存对学习有价值的信息而不是查询训练实例的真实标签。基于半监督学习,Atarashi等学者改进了一种众包标记过程的泛化模型,通过引入未标注数据的潜在特征和数据分布有效利用未标注数据。为提高众包标注的质量,Liu等学者设计了一种有效的在线算法,利用简单的多数投票规则随时间推移分辨高质量和低质量标注者。
此外,主动学习的成本也是一个重要问题。为了在低成本条件下提高标注准确度,Huang等学者提出了衡量实例-标注者对的成本-有效性的主动学习标准,为实例选择成本相对较低并可提供准确标注的标注者。
以上研究对于众包标注的准确性和标注成本分别展开了研究。然而,现有的传统众包标注方法未考虑群体智能,事实上,每个个体对于不同种类的实例标注准确度不同。此外,标注准确度与标注成本之间需要进行权衡,在保证标注准确度满足要求的同时,尽可能降低标注成本。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于众包模式的样本标注方法。
本发明解决其技术问题所采用的技术方案是:一种基于众包模式的样本标注方法,包括以下步骤:
1)获取未标注的多元时间序列数据集,抽取选择数据集中需要标注的样本;
2)对所有标注者,基于每个标注者的标注准确度和标注成本,选择达到置信度阈值且成本最低的标注者集,作为成本效益众包标注模型;
3)对抽取的需要标注的样本,基于成本效益众包标注模型得到标注结果,将标注后的样本加入标注数据集,并将其逆最近邻样本与该未标注样本分为同一类,加入标记数据集,得到更新后的标记数据集;
4)计算停止标准,达到停止条件后,得到多元时间序列数据集对应的最终的标记数据集结果。
按上述方案,所述步骤1)中多元时间序列数据集为工业传感器数据,金融数据,医疗数据,服务器系统监控数据等。
按上述方案,所述步骤1)中采用抽样算法选择确定数据集中需要标注的样本。
按上述方案,所述步骤2)中选择达到置信度阈值且成本最低的标注者集,具体如下:
2.1)对于所有标注者,采取适应性标注者选择算法得到用于标注的标注者集;
2.2)基于标注者集中的每个标注者的标注准确度和标注成本,通过群体智能决策计算得到标注者群体标注置信度,对各标注者的标注成本求和得到标注者群体标注成本;
2.3)获取在满足置信度要求的条件下,标注成本最低的标注者群体作为标注者集,该标注者集表示如下:
Figure BDA0002784467300000031
其中,U表示未标注样本,
Figure BDA0002784467300000033
表示标注者个体,
Figure BDA0002784467300000032
表示用于标注的标注者集,Cost(a)表示标注者集中标注者a的标注成本,Confid(U,H*)表示标注者群体
Figure BDA0002784467300000041
对未标注样本U的标注置信度,δ为置信度阈值。
按上述方案,所述步骤2.1)中采取适应性标注者选择算法得到用于标注的标注者集,具体如下:
2.1.1)初始时随机生成具有N个个体的人群Θ,人群Θ中的每个个体由一组二进制编码构成,每个二进制码表示第i个标注者被选择的情况,被选择时为1,否则为0;
2.1.2)对人群Θ中的所有个体进行适应度评价,适应度用标记置信度和标记成本表示,对于人群Θ中的任一个个体
Figure BDA0002784467300000046
适应度F采用下式计算:
Figure BDA0002784467300000042
其中,Costmax是所有可行解的最大成本,
Figure BDA0002784467300000043
为惩罚方程;
2.1.3)进行交叉操作,对两个个体的交叉点之前的二进制码片段进行交换,得到两个新的个体,在两个原个体和两个新个体中选择适应度最高的两个个体保留,接下来对保留的个体分别执行变异操作,随机改变个体的一个二进制编码值,保留变异前个体与变异后个体中适应度最高的个体;
2.1.4)当满足迭代停止条件时,得到适应度满足需求的个体集合
Figure BDA0002784467300000044
即为标注者集
Figure BDA0002784467300000045
按上述方案,所述步骤4)中停止条件,在连续几轮迭代中抽取选择的样本之间价值差异变化收敛时,则判断剩余的未标记样本中不存在重要的样本,达到停止条件。
本发明产生的有益效果是:
本发明针对高维多元时间序列提出了一种高置信度且低成本的众包标注策略,选择需要标注的样本后,通过适应性标注者选择算法得到置信度满足阈值且成本最低的标注者集,实现对未标注样本可靠且低成本的标注。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的结构示意图;
图2为对WG未标记数据集中不同比例数据进行标注后得到的最近邻分类器分类的准确度示意图;
图3为对WG未标记数据集中不同比例数据进行标注后得到的最近邻分类器分类的F-measure值示意图;
图4为对WG未标记数据集中不同比例数据进行标注后得到的最近邻分类器分类的时间消耗示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明针对高维多元时间序列的主动学习问题,提出了一种高置信度且低成本的众包标注策略。选择需要标注的样本后,通过适应性标注者选择算法得到置信度满足阈值且成本最低的标注者集,实现对未标注样本可靠且低成本的标注。本发明的适用对象,常见包括工业传感器数据,金融数据,医疗数据(如心电图数据集),服务器系统监控数据等,本发明的应用场景包括医学疾病诊断,系统故障侦测,股票分析等。
本发明实施例以WG数据集(波士顿数据集)为具体实例说明本发明方法的有效性,WG数据含2个类别(分别记为正例与反例),每个数据包括3个变量,即每个数据包括3个变量的时间序列,每个时间序列长为315,共包含1120个数据。初始状态只有一个标记正例数据,其余数据为未标记数据。为降低初始化的敏感性,进行十次试验,每次以不同的标记数据作为初始状态。
如图1所示,基于以上数据集,实施例通过以下步骤对数据集实施半监督主动学习框架,
一种基于众包模式的样本标注方法,包括以下步骤:
步骤1,对于未标记多元时间序列数据集,选择需要标注的样本;
本实施例对于WG数据集的未标注样本集U,选择出需要标注的样本。
步骤2,对所有标注者,基于每个标注者的标注准确度和标注成本,采取适应性标注者选择算法选择达到置信度阈值且成本最低的标注者集;建立成本效益众包标注模型;
本实施例对于标注者群体,基于成本效益众包标注模型,经过初始化、交叉和变异操作得到用于标注的标注者集。基于每个标注者的标注准确度和标注成本,通过群体智能决策可计算得到群体标注置信度,对各标注者的标注成本求和可得群体标注成本。成本效益众包标注模型寻求在满足置信度要求的条件下,标注成本最低的标注者集,表示如下:
Figure BDA0002784467300000071
其中,U表示未标注样本,
Figure BDA0002784467300000072
表示标注者个体,Cost(a)表示标注者a的标注成本,Confid(U,H*)表示标注者群体
Figure BDA0002784467300000073
对未标注样本U的标注置信度,δ为阈值。
成本效益众包标注模型中,采用适应性标注者选择算法求解得到标注者集。具体实现为:
初始时随机生成具有N个个体的人群Θ,人群Θ中的每个个体由一组二进制编码构成,每个二进制码表示第i个标注者被选择的情况,被选择时为1,否则为0。然后对人群Θ中的所有个体进行适应度评价,适应度用标记置信度和标记成本表示。对于人群Θ中的一个个体
Figure BDA0002784467300000081
适应度F的计算为:
Figure BDA0002784467300000082
其中,Costmax是所有可行解的最大成本,
Figure BDA0002784467300000083
为惩罚方程。
然后进行交叉操作,对两个个体的交叉点之前的二进制码片段进行交换,得到两个新的个体,在两个原个体和两个新个体中选择适应度最高的两个个体保留。接下来对保留的个体分别执行变异操作,随机改变个体的一个二进制编码值,保留变异前个体与变异后个体中适应度最高的个体。当满足迭代停止条件时,得到适应度最高的个体
Figure BDA0002784467300000084
实验中,某个体对某类样本的标注准确率随机设定在0.5~0.6或0.6~0.7的范围,并且,对于数据的各类别,基于正态分布的3σ原则设定个体的标注准确率。基于个体ai对于数据集D的平均标注准确率,其标注成本Cost计算如下:
Figure BDA0002784467300000085
其中,Mean_Acc(ai,D)是ai在数据集D上的准确度均值,γ=3且η=20。标注者的准确率和标注成本在实验中设定后保持不变。
具体实施时,本发明技术人员可以自行设计相应运行流程。为便于实施参考起见,提供建议适应性标注者选择算法伪代码如下:
Figure BDA0002784467300000091
Figure BDA0002784467300000101
在适应性标注者选择过程中,各符号说明:Algorithm 1表示本发明的算法1,ALS为算法1的名称,即适应性标注者选择,Input、Output分别表示算法1的输入、输出,U表示未标记多元时间序列,δ表示置信度阈值,Θ表示生成的群体,N表示群体Θ中的个体数目,F
Figure BDA0002784467300000102
表示个体
Figure BDA0002784467300000103
的适应度。
算法流程:首先,随机生成具有N个个体的群体Θ,见行1;然后迭代进行以下过程:对群体中的每个个体衡量适应度,执行交叉和变异,见行2~6;最后得到最合适的标注者子集以及置信度。
步骤3,对步骤1所得的未标注样本,基于成本效益众包标注模型得到标注结果,将标注后的样本加入标注数据集,并将其逆最近邻样本与该未标注样本分为同一类,加入标记数据集。
经过以上步骤,已经得到需要标注的未标记样本和最合适的标注者集,接下来利成本效益众包标注模型得到对未标记样本的标注结果,将标注后的样本加入到标注数据集
Figure BDA0002784467300000104
中。为了进一步扩大标注数据集的大小,再计算该样本在未标注数据集
Figure BDA0002784467300000105
中的逆1近邻样本U*,采用半监督分类器对U*分类为与U相同的类别,加入标注数据集中。实验中的半监督分类器采用最近邻分类器。
具体实施时,本发明技术人员可以自行设计相应运行流程。为便于实施参考起见,提供建议建立规则的伪代码:
Figure BDA0002784467300000111
在半监督主动学习过程中,各符号说明:Algorithm 2表示本发明的算法2,Framework of Active Semi-Supervised Learning为算法2的名称,即半监督主动学习框架,Input、Output分别表示算法2的输入、输出,PL表示部分标记,D表示多元时间序列训练数据集,L表示标记数据集,表示未标记数据集,U表示步骤1中选择的未标记样本,U*表示U的逆1近邻样本。
算法流程:在停止标准满足之前,迭代进行如下过程:首先通过步骤1中的抽样算法选择最有价值的未标记样本U,见行2;然后,通过步骤2中的适应性标注者选择算法得到最优标注者集,见行3;然后基于标注者集对U进行标注,并将U加入标记数据集L中,见行4;接下来,将U的逆1近邻通过半监督学习自动归类到与U相同的类别,扩大标注数据集,见行5;最后得到更新后的标记数据集L。
步骤4,计算停止标准,判断算法是否达到迭代停止条件,达到停止条件后,得到标记数据集更新结果。
经过以上步骤,已经选择出合适的标注者集对需要标记的样本进行了可靠的标记。接下来判断算法迭代是否达到停止条件,在几轮迭代中选择的样本之间价值差异很小时,认为剩余的未标记样本中不存在重要的样本,对于分类器的性能提高没有帮助,主动学习达到停止条件。
综上所述,本发明提出了一种基于众包模式的样本标注方法,能获取高质量的标注数据集,首先,选择需要标注的样本;其次,为在保证置信度的情况下尽可能降低标注成本,将标注准确性提升与标注成本降低问题相结合,提出一种基于群体智能的成本效益众包标注模型;最后,为获取最合适的标注者集,提出了一种适应性标注者选择算法,可对未标注样本进行可靠且低成本的标注。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (6)

1.一种基于众包模式的样本标注方法,其特征在于,包括以下步骤:
1)获取未标注的多元时间序列数据集,抽取选择数据集中需要标注的样本;
2)对所有标注者,基于每个标注者的标注准确度和标注成本,选择达到置信度阈值且成本最低的标注者集,作为成本效益众包标注模型;
3)对抽取的需要标注的样本,基于成本效益众包标注模型得到标注结果,将标注后的样本加入标注数据集,并将其逆最近邻样本与该未标注样本分为同一类,加入标记数据集,得到更新后的标记数据集;
4)计算停止标准,达到停止条件后,得到多元时间序列数据集对应的最终的标记数据集结果。
2.根据权利要求1所述的基于众包模式的样本标注方法,其特征在于,所述步骤1)中多元时间序列数据集为工业传感器数据,金融数据,医疗数据,服务器系统监控数据等。
3.根据权利要求1所述的基于众包模式的样本标注方法,其特征在于,所述步骤1)中采用抽样算法选择确定数据集中需要标注的样本。
4.根据权利要求1所述的基于众包模式的样本标注方法,其特征在于,所述步骤2)中选择达到置信度阈值且成本最低的标注者集,具体如下:
2.1)对于所有标注者,采取适应性标注者选择算法得到用于标注的标注者集;
2.2)基于标注者集中的每个标注者的标注准确度和标注成本,通过群体智能决策计算得到标注者群体标注置信度,对各标注者的标注成本求和得到标注者群体标注成本;
2.3)获取在满足置信度要求的条件下,标注成本最低的标注者群体作为标注者集,该标注者集表示如下:
Figure FDA0002784467290000021
Figure FDA0002784467290000022
其中,U表示未标注样本,
Figure FDA0002784467290000023
表示标注者个体,
Figure FDA0002784467290000024
表示用于标注的标注者集,Cost(a)表示标注者集中标注者a的标注成本,Confid(U,H*)表示标注者群体
Figure FDA0002784467290000025
对未标注样本U的标注置信度,δ为置信度阈值。
5.根据权利要求4所述的基于众包模式的样本标注方法,其特征在于,所述步骤2.1)中采取适应性标注者选择算法得到用于标注的标注者集,具体如下:
2.1.1)初始时随机生成具有N个个体的人群Θ,人群Θ中的每个个体由一组二进制编码构成,每个二进制码表示第i个标注者被选择的情况,被选择时为1,否则为0;
2.1.2)对人群Θ中的所有个体进行适应度评价,适应度用标记置信度和标记成本表示,对于人群Θ中的任一个个体
Figure FDA0002784467290000035
适应度F采用下式计算:
Figure FDA0002784467290000031
其中,Costmax是所有可行解的最大成本,
Figure FDA0002784467290000032
为惩罚方程;
2.1.3)进行交叉操作,对两个个体的交叉点之前的二进制码片段进行交换,得到两个新的个体,在两个原个体和两个新个体中选择适应度最高的两个个体保留,接下来对保留的个体分别执行变异操作,随机改变个体的一个二进制编码值,保留变异前个体与变异后个体中适应度最高的个体;
2.1.4)当满足迭代停止条件时,得到适应度满足需求的个体集合
Figure FDA0002784467290000033
即为标注者集
Figure FDA0002784467290000034
6.根据权利要求1所述的基于众包模式的样本标注方法,其特征在于,所述步骤4)中停止条件为在连续几轮迭代中抽取选择的样本之间价值差异变化收敛时,则判断剩余的未标记样本中不存在重要的样本,达到停止条件。
CN202011292894.8A 2020-11-18 2020-11-18 一种基于众包模式的样本标注方法 Pending CN112348108A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011292894.8A CN112348108A (zh) 2020-11-18 2020-11-18 一种基于众包模式的样本标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011292894.8A CN112348108A (zh) 2020-11-18 2020-11-18 一种基于众包模式的样本标注方法

Publications (1)

Publication Number Publication Date
CN112348108A true CN112348108A (zh) 2021-02-09

Family

ID=74362876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011292894.8A Pending CN112348108A (zh) 2020-11-18 2020-11-18 一种基于众包模式的样本标注方法

Country Status (1)

Country Link
CN (1) CN112348108A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611463A (zh) * 2022-05-10 2022-06-10 天津大学 一种面向依存分析的众包标注方法及装置
CN114611715A (zh) * 2022-05-12 2022-06-10 之江实验室 基于标注者可靠度时序建模的众包主动学习方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104318242A (zh) * 2014-10-08 2015-01-28 中国人民解放军空军工程大学 一种高效的svm主动半监督学习算法
CN107194428A (zh) * 2017-05-26 2017-09-22 重庆师范大学 一种基于近邻密度和半监督knn的集成自训练方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104318242A (zh) * 2014-10-08 2015-01-28 中国人民解放军空军工程大学 一种高效的svm主动半监督学习算法
CN107194428A (zh) * 2017-05-26 2017-09-22 重庆师范大学 一种基于近邻密度和半监督knn的集成自训练方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611463A (zh) * 2022-05-10 2022-06-10 天津大学 一种面向依存分析的众包标注方法及装置
CN114611715A (zh) * 2022-05-12 2022-06-10 之江实验室 基于标注者可靠度时序建模的众包主动学习方法和装置
CN114611715B (zh) * 2022-05-12 2022-08-23 之江实验室 基于标注者可靠度时序建模的众包主动学习方法和装置

Similar Documents

Publication Publication Date Title
CN112131404B (zh) 一种四险一金领域知识图谱中实体对齐方法
CN112069310B (zh) 基于主动学习策略的文本分类方法及系统
CN112528676B (zh) 文档级别的事件论元抽取方法
CN111753101B (zh) 一种融合实体描述及类型的知识图谱表示学习方法
CN109635108B (zh) 一种基于人机交互的远程监督实体关系抽取方法
CN111368920B (zh) 基于量子孪生神经网络的二分类方法及其人脸识别方法
CN110705607B (zh) 一种基于循环重标注自助法的行业多标签降噪方法
WO2022057671A1 (zh) 一种基于神经网络的知识图谱不一致性推理方法
CN113010683B (zh) 基于改进图注意力网络的实体关系识别方法及系统
CN111325264A (zh) 一种基于熵的多标签数据分类方法
CN112348108A (zh) 一种基于众包模式的样本标注方法
CN113269239B (zh) 一种基于多通道卷积神经网络的关系网络节点分类方法
CN110225001A (zh) 一种基于主题模型的动态自更新网络流量分类方法
CN112766458A (zh) 一种联合分类损失的双流有监督深度哈希图像检索方法
CN114863091A (zh) 一种基于伪标签的目标检测训练方法
CN115687610A (zh) 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质
CN111191033B (zh) 一种基于分类效用的开集分类方法
CN113204975A (zh) 一种基于远程监督的敏感文风识别方法
Ali et al. Fake accounts detection on social media using stack ensemble system
CN115797701A (zh) 目标分类方法、装置、电子设备及存储介质
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN117216668B (zh) 一种基于机器学习的数据分类分级处理方法和系统
CN112668633A (zh) 一种基于细粒度领域自适应的图迁移学习方法
CN111126443A (zh) 基于随机游走的网络表示学习方法
CN116226747A (zh) 数据分类模型的训练方法、数据分类方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210209