CN112766347A - 一种结合标注质量控制的主动学习方法 - Google Patents

一种结合标注质量控制的主动学习方法 Download PDF

Info

Publication number
CN112766347A
CN112766347A CN202110036696.3A CN202110036696A CN112766347A CN 112766347 A CN112766347 A CN 112766347A CN 202110036696 A CN202110036696 A CN 202110036696A CN 112766347 A CN112766347 A CN 112766347A
Authority
CN
China
Prior art keywords
samples
marking
marked
active learning
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110036696.3A
Other languages
English (en)
Inventor
宋艳枝
王星宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Liman Information Technology Co ltd
Original Assignee
Hefei Liman Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Liman Information Technology Co ltd filed Critical Hefei Liman Information Technology Co ltd
Priority to CN202110036696.3A priority Critical patent/CN112766347A/zh
Publication of CN112766347A publication Critical patent/CN112766347A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及主动学习技术领域,具体涉及一种结合标注质量控制的主动学习方法,包括以下步骤:S1:训练模型;S2:对全部未标注样本进行伪标注;S3:分折计算观测距离S4:基于观测距离挑选待标注和待检查的样本,基于观测距离挑选待标注和待检查的样本,对于需要标注的样本,将其标注后加入已标注样本集,对于需要检查的样本,对其进行一次额外的标注,再基于已有的历史标注确定其标注,然后更新已标注样本集,完成本步骤后返回步骤S1,直到模型性能可以接受,或者达到了标注预算限制;这种结合标注质量控制的主动学习方法,可以在主动学习的同时控制标注质量。

Description

一种结合标注质量控制的主动学习方法
技术领域
本发明涉及主动学习技术领域,具体涉及一种结合标注质量控制的主动学习方法。
背景技术
主动学习,是利用模型选择最有价值的待标注样本的过程。在学习过程中,通过逐次标注最有价值的样本而降低训练模型所需的标注成本。
通常主动学习的模式,是不考虑样本的标注质量的,即认为标注人员给出的标注是可以信赖的。但实际中,标注人员给出错误的标注结果是不可避免的。所以在实际应用时,主动学习方法通常隐含一个标注质量控制方法,以确保获得的标注的质量可以接受。主动学习与标注质量控制都是独立工作的,没有协同工作,这降低了整体的标注效率。
发明内容
本发明的目的是提供一种结合标注质量控制的主动学习方法,可以在主动学习的同时控制标注质量。
为了实现以上目的,本发明采用的技术方案为:一种结合标注质量控制的主动学习方法,包括以下步骤:
S1:训练模型;
S2:对全部未标注样本进行伪标注;
S3:分折计算观测距离
S4:基于观测距离挑选待标注和待检查的样本,基于观测距离挑选待标注和待检查的样本,对于需要标注的样本,将其标注后加入已标注样本集,对于需要检查的样本,对其进行一次额外的标注,再基于已有的历史标注确定其标注,然后更新已标注样本集,完成本步骤后返回步骤S1,直到模型性能可以接受,或者达到了标注预算限制。
进一步的,所述的步骤S3中的观测距离采用分折实验的方法计算。
进一步的,所述的方法还包括选择待标注样本和待检查标注的指标,包括使用预测距离选择待标注样本,使用标注距离选择待检查的标注,还包括基于三角不等式使用观测距离作为预测距离和标注距离的下界。
本发明的技术效果在于:本发明中的结合标注质量控制的主动学习方法可以同时进行主动学习和标注质量控制,并使用模型选择待检查的样本,以降低质量控制的效率,降低总的标注成本。
附图说明
图1为本发明实施例提供的主动学习方法的流程示意图。
图2为本发明实施例提供的主动学习方法中“标注距离-预测距离-观测距离”示意图。
图3为本发明实施例提供的主动学习方法抗冗余实验结果分析。
图4为本发明实施例提供的主动学习方法模拟实验数据。
图5为本发明实施例提供的主动学习方法真实数据实验数据。
图6为本发明实施例提供的主动学习方法真实数据实验数据。
具体实施方式
参照附图1-6,一种结合标注质量控制的主动学习方法,包括以下步骤:
S1:训练模型;
S2:对全部未标注样本进行伪标注;
S3:分折计算观测距离
S4:基于观测距离挑选待标注和待检查的样本,对于需要标注的样本,将其标注后加入已标注样本集,对于需要检查的样本,对其进行一次额外的标注,再基于已有的历史标注确定其标注,然后更新已标注样本集,完成本步骤后返回步骤S1,直到模型性能可以接受,或者达到了标注预算限制。
这种结合标注质量控制的主动学习方法有效地降低标注成本,并同时控制了所获得标注的质量;如果全部样本已有初步的标注,还可以单独仅进行标注质量控制,提升数据集的标注质量;如果确认标注者的标注质量可接受,还可以单独仅进行主动学习,其性能也优于传统的主动学习方法;在进行通常的主动学习方法的选择样本进行标注的过程外,通过在内部整合标注质量控制功能,降低了总体的标注成本。为了同时进行主动学习和标注质量控制,我们设计了一种新的指标以选择待标注样本和待检查样本。
如附图2所示,我们认为样本的真实标注是未知的,标注者可以被视为一个模型,其对样本给出的标注即是该模型的预测结果。在这个视角下,机器学习模型给出的预测结果和标注人员给出的标注结果可以使用同一种指标度量其与样本真实标注间的距离。我们称标注结果与真实标注间的距离为“标注距离”,称模型预测结果与真实标注间的距离为“预测距离”。但由于样本的真实标注是未知的,我们实际可以获得的仅有模型预测结果和标注结果之间的距离“观测距离”。若距离度量满足三角不等式,则我们可以使用“观测距离”来估计“标注距离”和“预测距离”中较大值的下界。
在主动学习中,我们选择标注那些“预测距离”大的样本,它们是当前模型在其上表现不佳的样本;在标注质量控制任务中,我们选择检查那些“预测距离”大的样本,它们是更可能被标注错误的样本。为了同时进行主动学习和标注质量控制任务,我们选择标注那些“标注距离”和“预测距离”中较大值更大的样本。在实践中,也即标注那些和检查那些“观测距离”大的样本。
这种结合标注质量控制的主动学习方法,还可以包括:
使用伪标注方法,满足计算“观测距离”时需要至少一个标注的需求;
使用分折方法计算“观测距离”,解决神经网络容易在训练集上过度拟合进而严重低估“观测距离”的问题。
具体的,因为计算观测距离时需要至少一个标注,所以我们使用伪标注方法来提供最初的标注。我们在使用标注训练集训练完成模型后,使用模型预测每个未标注样本的标注作为其伪标注。
计算观测距离需要标注信息和模型对样本的预测信息。其中标注信息已由真是标注和伪标注提供,而预测信息需要训练一个模型。若直接在当前的标注数据集(含伪标注)上训练模型,则由于神经网络在训练集上容易过度拟合,所得到的观测距离会过小。为了解决该问题,我们使用分折实验的方法,将数据集分割为K组,每次在其中K-1组上训练模型并计算剩余那组样本的观测距离。
分折实验的方法同时增强了本方法在数据集冗余情况下的性能表现。我们可以证明,当分折实验的分组数为K时,对于数据集中任意一组冗余样本,其在同一个批量中被选中的概率小于1/K。若数据集中存在较严重的样本冗余问题,则可以通过增加K的方法来降低其影响。附图3中展示了本方法在模拟的冗余数据集上的性能,可见本方法可以较好的应对数据集冗余的问题。
本方法的整体算法流程如下:
Figure BDA0002894628760000061
本发明提供的主动学习方法已在模拟数据集和真实数据集上进行了实验验证。如附图4为本发明实施例提供的主动学习方法在模拟数据集上的实验结果,如附图5,附图6为本发明提供的主动学习方法在真实数据集上的实验结果,其中ALQC即为本方法。图中可见本方法显著优于其它的对比方法,即在相同的标注成本下可以取得更好的模型预测性能,使用更少的标注成本达到指定的模型预测性能。
这种结合标注质量控制的主动学习方法,与现有其它主动学习方法相比具有以下优点:可以同时进行标注质量控制,简化了整个标注流程;由于同时进行标注质量控制和主动学习,提升了标注质量控制的效率,降低了总的标注成本。理论证明表明,本发明提供的主动学习方法可以降低数据集中冗余样本的影响,不容易发生在同一个标注批量中标注多个相似样本的低效率标注情况,降低了总的标注成本。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (3)

1.一种结合标注质量控制的主动学习方法,包括以下步骤:
S1:训练模型;
S2:对全部未标注样本进行伪标注;
S3:分折计算观测距离
S4:基于观测距离挑选待标注和待检查的样本,对于需要标注的样本,将其标注后加入已标注样本集,对于需要检查的样本,对其进行一次额外的标注,再基于已有的历史标注确定其标注,然后更新已标注样本集,完成本步骤后返回步骤S1,直到模型性能可以接受,或者达到了标注预算限制。
2.根据权利要求1所述结合标注质量控制的主动学习方法,其特征在于:所述的步骤S3中的观测距离采用分折实验的方法计算。
3.根据权利要求1所述结合标注质量控制的主动学习方法,其特征在于:所述的方法还包括选择待标注样本和待检查标注的指标,包括使用预测距离选择待标注样本,使用标注距离选择待检查的标注,还包括基于三角不等式使用观测距离作为预测距离和标注距离的下界。
CN202110036696.3A 2021-01-12 2021-01-12 一种结合标注质量控制的主动学习方法 Pending CN112766347A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110036696.3A CN112766347A (zh) 2021-01-12 2021-01-12 一种结合标注质量控制的主动学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110036696.3A CN112766347A (zh) 2021-01-12 2021-01-12 一种结合标注质量控制的主动学习方法

Publications (1)

Publication Number Publication Date
CN112766347A true CN112766347A (zh) 2021-05-07

Family

ID=75701624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110036696.3A Pending CN112766347A (zh) 2021-01-12 2021-01-12 一种结合标注质量控制的主动学习方法

Country Status (1)

Country Link
CN (1) CN112766347A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611715A (zh) * 2022-05-12 2022-06-10 之江实验室 基于标注者可靠度时序建模的众包主动学习方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793702A (zh) * 2014-02-28 2014-05-14 武汉大学 基于协同尺度学习的行人重识别方法
CN105577477A (zh) * 2015-12-28 2016-05-11 哈尔滨工业大学 使用概率模型的基于测量的ip地址地理定位系统
CN108090499A (zh) * 2017-11-13 2018-05-29 中国科学院自动化研究所 基于最大信息三元组筛选网络的数据主动标注方法和系统
CN110459282A (zh) * 2019-07-11 2019-11-15 新华三大数据技术有限公司 序列标注模型训练方法、电子病历处理方法及相关装置
US20190370987A1 (en) * 2017-03-27 2019-12-05 Shenzhen Institutes Of Advanced Technology Chinese Academy Of Sciences Texture synthesis method, and device for same
CN110765917A (zh) * 2019-10-17 2020-02-07 中国科学院上海高等研究院 适用于人脸识别模型训练的主动学习方法、装置、终端、介质
CN112149721A (zh) * 2020-09-10 2020-12-29 南京大学 一种基于主动学习降低标注需求的目标检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793702A (zh) * 2014-02-28 2014-05-14 武汉大学 基于协同尺度学习的行人重识别方法
CN105577477A (zh) * 2015-12-28 2016-05-11 哈尔滨工业大学 使用概率模型的基于测量的ip地址地理定位系统
US20190370987A1 (en) * 2017-03-27 2019-12-05 Shenzhen Institutes Of Advanced Technology Chinese Academy Of Sciences Texture synthesis method, and device for same
CN108090499A (zh) * 2017-11-13 2018-05-29 中国科学院自动化研究所 基于最大信息三元组筛选网络的数据主动标注方法和系统
CN110459282A (zh) * 2019-07-11 2019-11-15 新华三大数据技术有限公司 序列标注模型训练方法、电子病历处理方法及相关装置
CN110765917A (zh) * 2019-10-17 2020-02-07 中国科学院上海高等研究院 适用于人脸识别模型训练的主动学习方法、装置、终端、介质
CN112149721A (zh) * 2020-09-10 2020-12-29 南京大学 一种基于主动学习降低标注需求的目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TRIPLELIFT: "伪标签(Pseudo-Labelling)——锋利的匕首", pages 2, Retrieved from the Internet <URL:《https://zhuanlan.zhihu.com/p/157325083》> *
ZHONG M等: "Multispecies bioacoustics classification using transfer learning of deep convolutional neural networks with pseudo-labeling", 《THE JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA》, vol. 148, no. 4, pages 2442 - 2442 *
陈珂等: "基于半监督学习的微博情感分析", 《计算机与数字工程》, no. 9, pages 153 - 158 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611715A (zh) * 2022-05-12 2022-06-10 之江实验室 基于标注者可靠度时序建模的众包主动学习方法和装置
CN114611715B (zh) * 2022-05-12 2022-08-23 之江实验室 基于标注者可靠度时序建模的众包主动学习方法和装置

Similar Documents

Publication Publication Date Title
US10671933B2 (en) Method and apparatus for evaluating predictive model
CN108345544B (zh) 一种基于复杂网络的软件缺陷分布影响因素分析方法
JP5479431B2 (ja) バイオマーカー抽出装置および方法
WO2021073119A1 (zh) 基于意图识别模型的实体消歧方法、装置和计算机设备
CN107103205A (zh) 一种基于蛋白质质谱数据注释真核生物基因组的生物信息学方法
JP7353946B2 (ja) アノテーション装置および方法
CN110688853B (zh) 序列标注方法、装置、计算机设备和存储介质
CN110738654B (zh) 髋关节影像中的关键点提取及骨龄预测方法
CN117391258B (zh) 一种负碳排放的预测方法、装置、设备及存储介质
CN113157564B (zh) 一种基于特征分布对齐和邻域实例选择的跨项目缺陷预测方法
CN117873839B (zh) 复杂算力系统的故障检测方法、装置、设备和存储介质
CN110309309B (zh) 一种用于评估人工标注数据质量的方法及系统
US10346450B2 (en) Automatic datacenter state summarization
CN103455417B (zh) 一种基于马尔可夫模型的软件错误定位系统及错误定位方法
CN112766347A (zh) 一种结合标注质量控制的主动学习方法
CN112699018B (zh) 基于软件缺陷关联分析的软件缺陷定位方法
CN113919510A (zh) 一种样本特征选择方法、装置、设备及介质
CN106021992A (zh) 位置相关变体识别计算流水线
CN103034582B (zh) 定位回归用例的方法和系统
CN111767546A (zh) 一种基于深度学习的输入结构推断方法和装置
US20090175520A1 (en) Method and apparatus for matching of bracketed patterns in test strings
CN110427330B (zh) 一种代码分析的方法以及相关装置
CN111383710A (zh) 基于粒子群优化双子支持向量机的基因剪接位点识别模型构建方法
Eftimov et al. PerformViz: a machine learning approach to visualize and understand the performance of single-objective optimization algorithms
Chida et al. Enhanced Encoding with Improved Fuzzy Decision Tree Testing Using CASP Templates

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination