CN108182448B - 一种标注策略的选择方法及相关装置 - Google Patents

一种标注策略的选择方法及相关装置 Download PDF

Info

Publication number
CN108182448B
CN108182448B CN201711408351.6A CN201711408351A CN108182448B CN 108182448 B CN108182448 B CN 108182448B CN 201711408351 A CN201711408351 A CN 201711408351A CN 108182448 B CN108182448 B CN 108182448B
Authority
CN
China
Prior art keywords
labeling
accuracy
strategy
marking
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711408351.6A
Other languages
English (en)
Other versions
CN108182448A (zh
Inventor
赵开云
何朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongguancun Kejin Technology Co Ltd
Original Assignee
Beijing Zhongguancun Kejin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongguancun Kejin Technology Co Ltd filed Critical Beijing Zhongguancun Kejin Technology Co Ltd
Priority to CN201711408351.6A priority Critical patent/CN108182448B/zh
Publication of CN108182448A publication Critical patent/CN108182448A/zh
Application granted granted Critical
Publication of CN108182448B publication Critical patent/CN108182448B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种标注策略的选择方法,包括:采用多个标注策略对已标注数据集进行模拟标注处理和监督学习训练,并根据处理过程中的指标数据进行回归预测模型训练,得到对应的回归预测模型;当获取到标注任务的指标数据时,利用所有回归预测模型根据指标数据进行预测计算处理,得到预测结果;根据预测结果和预期结果,确定人力成本最小的标注策略作为使用的标注策略。通过获取模拟标注处理中指标数据进行训练得到回归预测模型,可以实现‑对该标注策略‑进行预测,进而根据预测结果确定人力成本最小的标注策略,保证训练效果的情况下降低人力成本。本申请还公开了一种标注策略的选择装置、服务器以及计算机可读存储介质,具有上述有益效果。

Description

一种标注策略的选择方法及相关装置
技术领域
本申请涉及计算机技术领域,特别涉及一种标注策略的选择方法、选择装置、服务器以及计算机可读存储介质。
背景技术
随着信息技术的发展,机器学习技术被应用到越来越多的领域,提高不同应用场景下处理问题的效率。机器学习主要是通过大量数据进行训练,得到精准的识别模型,同时还要不断的使用原始数据对识别模型的进行测试,以判断该识别模型是否达到学习的要求。
其中,机器学习技术主要有两种学习方式,监督学习和无监督学习。监督学习即在学习过程中需要人工不断的干预,以调整训练模型的状态,得到符合预期的识别模型。一般情况下,人工干预是指对训练的所需要的原始数据进行人工识别,得到已经分类识别的后的数据,进而使用该种数据对识别模型进行训练以及测试。具体的,人工识别是指人工进行标注的过程,即需要人力对数据按照预设的类别进行分类。并且由于一般的机器学习需要的数据量非常大,其中数据标注需要的人力资源十分巨大。
进一步的,数据标注的效果决定了识别模型训练的效果,因此在很多应用情况下保证数据标注的质量就是十分重要的。一般为了保证数据标注的质量,就需要使用各种标注策略进行标注处理,例如,对于同一数据进行多人次标注,所以必须投入大量的人力资源。但是,在实际使用过程中,同一数据无论石碑单人标注还是多人标注,部分数据都已经达到了训练的最终效果。此时再投入大量的人力成本对于模型训练的整体效果并没有相应的提升,导致部分标注工作没有起到实际的作用,造成人力资源的浪费和不必要的成本投入。
因此,如何在保证数据标注的质量同时降低人力成本的投入,是本领技术人员所关注的重点问题。
发明内容
本申请的目的是提供一种标注策略的选择方法、选择装置、服务器以及计算机可读存储介质,可以通过获取某一个标注策略的训练数据量、标注准确率以及识别准确率,建立起各个指标数据之间的影响关系,形成回归预测模型,可以实现在实际标注任务中对该标注策略的训练效果进行预测,进而根据预测结果确定人力成本最小的标注策略,保证训练效果的情况下降低人力成本。
为解决上述技术问题,本申请提供一种标注策略的选择方法,包括:
采用多个标注策略对已标注数据集进行模拟标注处理和监督学习训练,并根据所述模拟标注处理和所述监督学习训练中的指标数据进行回归预测模型训练,得到对应的回归预测模型;其中,所述指标数据包括标注准确率、识别准确率以及数据量;
当获取到标注任务的目前标注准确率、已标注数据量以及预期标注数据量时,利用所有所述回归预测模型根据所述目前标注准确率、所述已标注数据量以及预期标注数据量进行预测计算处理,得到对应的预测识别准确率;
根据所有所述预测识别准确率和预期识别准确率,确定人力成本最小的标注策略作为所述标注任务中使用的标注策略;其中,所述人力成本为根据标注策略中的标注方式和预期标注数据量计算得到的。
可选的,采用多个标注策略对已标注数据集进行模拟标注处理和监督学习训练,并根据所述模拟标注处理和所述监督学习训练中的指标数据进行回归预测模型训练,得到对应的回归预测模型;其中,所述指标数据包括标注准确率、识别准确率以及数据量,包括:
采用多个标注策略对所述已标注数据集进行所述模拟标注处理得到对应的训练数据集,对所述训练数据集进行标注准确率计算,得到对应的标注准确率;
将所有所述训练数据集进行所述监督学习训练,得到对应的识别模型,对每个所述识别模型进行识别准确率计算,得到对应的识别准确率;
将每个所述标注策略对应的标注准确率、识别准确率以及数据量进行回归统计处理,得到对应的回归预测模型。
可选的,将每个所述标注策略对应的标注准确率、识别准确率以及数据量进行回归统计处理,得到对应的回归预测模型,包括:
将每个所述标注策略对应的所述标注准确率、所述识别准确率以及所述数据量进行统计,得到开始数据量、结束数据量、标注准确率以及识别准确率之间的对应关系;
将所述对应关系以所述识别准确率为目标值进行回归模型训练,得到每个所述标注策略对应的回归预测模型。
本申请还提供一种标注策略的选择装置,包括:
回归模型获取模块,用于采用多个标注策略对已标注数据集进行模拟标注处理和监督学习训练,并根据所述模拟标注处理和所述监督学习训练中的指标数据进行回归预测模型训练,得到对应的回归预测模型;其中,所述指标数据包括标注准确率、识别准确率以及数据量;
预测模块,用于当获取到标注任务的目前标注准确率、已标注数据量以及预期标注数据量时,利用所有所述回归预测模型根据所述目前标注准确率、所述已标注数据量以及预期标注数据量进行预测计算处理,得到对应的预测识别准确率;
策略选择模块,用于根据所有所述预测识别准确率和预期识别准确率,确定人力成本最小的标注策略作为所述标注任务中使用的标注策略;其中,所述人力成本为根据标注策略中的标注方式和预期标注数据量计算得到的。
可选的,所述回归模型获取模块包括:
模拟标注单元,用于采用多个标注策略对所述已标注数据集进行所述模拟标注处理得到对应的训练数据集,对所述训练数据集进行标注准确率计算,得到对应的标注准确率;
识别模型训练单元,用于将所有所述训练数据集进行所述监督学习训练,得到对应的识别模型,对每个所述识别模型进行识别准确率计算,得到对应的识别准确率;
预测模型训练单元,用于将每个所述标注策略对应的标注准确率、识别准确率以及数据量进行回归统计处理,得到对应的回归预测模型。
可选的,所述预测模型训练单元,包括:
数据统计处理子单元,用于将每个所述标注策略对应的所述标注准确率、所述识别准确率以及所述数据量进行统计,得到开始数据量、结束数据量、标注准确率以及识别准确率之间的对应关系;
回归模型训练子单元,用于将所述对应关系以所述识别准确率为目标值进行回归模型训练,得到每个所述标注策略对应的回归预测模型。
本申请还提供一种服务器,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上所述的选择方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的选择方法的步骤。
本申请所提供的一种标注策略的选择方法,包括:采用多个标注策略对已标注数据集进行模拟标注处理和监督学习训练,并根据所述模拟标注处理和所述监督学习训练中的指标数据进行回归预测模型训练,得到对应的回归预测模型;其中,所述指标数据包括标注准确率、识别准确率以及数据量;当获取到标注任务的目前标注准确率、已标注数据量以及预期标注数据量时,利用所有所述回归预测模型根据所述目前标注准确率、所述已标注数据量以及预期标注数据量进行预测计算处理,得到对应的预测识别准确率;根据所有所述预测识别准确率和预期识别准确率,确定人力成本最小的标注策略作为所述标注任务中使用的标注策略;其中,所述人力成本为根据标注策略中的标注方式和预期标注数据量计算得到的。
通过获取某一个标注策略的训练数据量、标注准确率以及识别准确率,建立起各个指标数据之间的影响关系,形成回归预测模型,可以实现在实际标注任务中对该标注策略的训练效果进行预测,进而根据预测结果确定人力成本最小的标注策略,保证训练效果的情况下降低人力成本。
本申请还提供一种标注策略的选择装置、服务器以及计算机可读存储介质,具有上述有益效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种标注策略的选择方法的流程图;
图2为本申请实施例所提供的标注策略的选择方法中的获取预测模型的流程图;
图3为本申请实施例所提供的标注策略的选择方法中的进行回归分析的流程图;
图4为本申请实施例所提供的一种标注策略的选择装置的结构示意图。
具体实施方式
目前在监督学习的领域,对于训练监督学习模型主要是通过已经标注的数据集进行机器学习。其中,已标注数据集的好坏就决定了监督学习最终结果的好坏,而已标注数据集的好坏受到标注过程中各种因素的影响。为了保证标注的质量往往要花费大量的人力成本,但是有些时候会出现已标注数据集的标注结果已经达到预期结果,却还使用原有的标注策略和标注的数据量进行标注,使用了大量的人力成本,导致人力成本的浪费。
因此,本申请的核心是提供一种标注策略的选择方法、选择装置、服务器以及计算机可读存储介质,可以通过获取某一个标注策略的训练数据量、标注准确率以及识别准确率,建立起各个指标数据之间的影响关系,形成回归预测模型,可以实现在实际标注任务中对该标注策略的训练效果进行预测,进而根据预测结果确定人力成本最小的标注策略,保证训练效果的情况下降低人力成本。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例所提供的一种标注策略的选择方法的流程图。
本实施例提供了一种标注策略的选择方法,可以降低标注任务中的人力成本,该方法可以包括:
S101,采用多个标注策略对已标注数据集进行模拟标注处理和监督学习训练,并根据模拟标注处理和监督学习训练中的指标数据进行回归预测模型训练,得到对应的回归预测模型;其中,指标数据包括标注准确率、识别准确率以及数据量;
本步骤旨在进行模拟的标注处理和监督学习训练,再根据该过程中的指标数据进行回归预测模型训练,得到可以预测出相应结果的回归预测模型。其中,进行模型标注处理和监督学习训练主要是获取进行训练回归预测模型的素材数据,即本步骤中的指标数据。
其中,标注策略是指在进行标注任务中所使用的标注方式。无论在线下使用文件的方式进行标注,还是在线上使用‘标注平台’一类工具进行标注,对于一个完整的标注任务,在开始标注到标注一定时间后,都能够获得由多个人参与的、多个标注子任务组成的‘多人、多批次’的标注后的数据。其中,标注的参与者通常是由多个标注者和少量的审核者组成(由于审核者需要很高的标注准确率,资源紧张)。同一条数据一般会被不同标注者标注多次,同一条数据一般只被审核者审核一次。通常,有多个不同的标注策略可以选择,并且对应的不同的标注方式:
如果标注策略是一条数据被标注一次,那么在每批次的标注数据中,对同一条数据,随机选择一人的标注结果作为监督学习模型的训练数据;
如果标注策略是一条数据被标注两次,那么每批次的标注数据中,同一条数据,随机选择两人的标注结果,如标注一致直接使用标注结果,如不一致随机选择一人标注结果使用;
如果标注策略是一条数据被标注两次后审核一次,那么每批次的标注数据中,同一条数据,随机选择两人的标注结果,如标注一致直接使用,如标注不一致,直接使用审核者标注结果;
如果标注策略是一条数据被标注三次,那么每批次的标注数据中,同一条数据,随机选择三人的标注结果,如标注一致直接使用,如标注两人一致,使用两人标注一致的标注结果,如果三人均不一致,随机使用一人标注结果。
上述不同的标注策略中,由于标注次数和是否进行审核的区别,最后导致识别模型的识别准确率也是千差万别,并且不同的标注策略实施过程中的人力成本也不尽相同。
进而在实际应用过程中,由于预期使用的数据量固定和预期达到的识别准确率的不同,使用的不同的标注策略在都可以完成任务的情况,使用的人力不相同。当使用了过多的人力资源后,会造成成本提高,不利于整体的训练学习过程。此外,有可能准确率的要求很高,如何选取到合适标注策略以保证监督学习的效果,可以使资源充分的利用。
需要注意的是,本步骤中获取的指标数据是针对一个标注策略的内含有多组数据的指标数据。例如,指标数据中的标注准确率、识别准确率以及数据量等数据项目,每个数据项目都有不同的数据,以组成含有多组数据的指标数据。
相应的,为了获取指标数据中的多组数据,需要在进行模型的标注处理中使用多组不同数据量的已标注数据集进行处理,此外监督学习训练的数据量也会随着前述的数据量变化而变化。例如,可以将一个已标注数据集分批次进行模拟标注处理,每个批次的数据量可以为固定的数量,还可以变化;也可以获取多个不同数据量的已标注数据集进行模型标注处理,以达到不同数据量的目的。在上述过程中,同时记录数据量、标注准确率以及识别准确率,就可以得到多组不同数据的指标数据。
进一步的,回归预测模型本身的预测准确率,由训练其的数据而决定。一般情况下,训练回归预测模型的数据量越多,其回归预测模型的预测准确率也就越高。因此,本步骤中的指标数据可以由获取的多组数据组成,以提高回归预测模型预测的准确率。
S102,当获取到标注任务的目前标注准确率、已标注数据量以及预期标注数据量时,利用所有回归预测模型根据目前标注准确率、已标注数据量以及预期标注数据量进行预测计算处理,得到对应的预测识别准确率;
在步骤S101的基础上,本步骤旨在对获取的相关数据通过回归预测模型进行预测,得到相应的预测识别准确率。
其中,进行预测需要的相关数据包括目前标注准确率、已标注数据量以及预测标注数据量。目前标注准确率,是指目前进行标注任务已经标注的标注准确率,也就是有本申请技术有可能在标注任务中间进行预测,再选择不同的标注策略,其中,就需要获取相应的目前标注准确率;当然,如果是在标注任务未开始时进行预测,那么目前标注准确率就为零。已标注数据量,是指已经标注了的数据量,同目前标注准确率的应用情况,如果在标注任务中进行那么就获取相应的以标注数据量,如果在标注任务未开始,那么已标注数据量就为零。预测标注数据量,就是在标注任务中需要对于标注的数据量的估计值。
然后通过获取的相关数据进行预测,根据回归预测模型的不同,预测所得到的结果也不同。在本实施例中,是通过上述获取的数据进行预测得到预测识别准确率,即相应的预测结果。
S103,根据所有预测识别准确率和预期识别准确率,确定人力成本最小的标注策略作为标注任务中使用的标注策略;其中,人力成本为根据标注策略中的标注方式和预期标注数据量计算得到的。
在步骤S102的基础上,本步骤旨在根据得到预测结果和预期的结果选择合适的标注策略。在实施例中,是通过预测识别准确率和预期识别准确率,确定人力成本最小的标注策略。也就就是,在确保最终的准确率达到预期的情况下,确定人力成本最小的标注策略。例如,当预测后得到某三个标注策略都可以达到相应的标注要求,因此计算每个标注策略所使用到的人力成本,确定人力成本最小的标注策略作为后续使用的标注策略。
其中,人力成本是根据标注策略中的标注方式和使用的预期标注数据量计算得到的。由于,每个标注策略的所使用的人次和人员配置的不同,需要根据其标注方式计算相应的人力成本。
以下为具体在应用环境的具体实例:
在构建对话系统的监督学习模型时,需要标注大量语料,并且将预期的识别准确率设置在84%。标注开始时,选择的标注策略策略是3人重复标注3次、1人审核。当标注语料量达到10万时候,模型在测试集准确率为78%。
通过本申请的回归预测模型,预测结果是继续使用3人标注、1人审核的策略大约需要继续标注11万条的语料,识别模型的识别准确率为90%。
将另一种标注策略通过预测发现,如果后续标注使用单人标注不审核的策略,还大约需要标注19万条的语料。
前者的标注策略下标注11万条的语料需要的人力成本为35.2万条,而后者的标注策略下只需要19.5万条的人力成本。
因此,选择后者即单人标注的策略作为后续使用的标注策略,节约了标注的人力成本。
请参考图2,图2为本申请实施例所提供的标注策略的选择方法中的获取预测模型的流程图。
基于上一实施例,本实施例主要是对上一实施例中如何获取预测模型做的一个说明,其他部分与上一实施例大体相同,相同部分可以参考上一实施例,在此不作赘述。
本实施例可以包括:
S201,采用多个标注策略对已标注数据集进行模拟标注处理得到对应的训练数据集,对训练数据集进行标注准确率计算,得到对应的标注准确率;
本步骤旨在采用过个标注策略进行模拟标注处理,并计算得到对应的标注准确率。
其中,标注准确率是指在人工标注的过程中,人工对于数据标注操作的准确率。由于标注准确率的高低直接影响了学习训练过程中,识别模型的识别准确率,因此本步骤中经过计算得到相应的标注准确率。
进一步,由于标注过程中所标注的数据量的不同,也会导致最终结果的变化,因此本步骤中对于不同数据量的训练数据集均进行了标注准确率的计算,得到对应的标注准确率。
其中,得到的训练数据集是为了后续步骤中进行监督学习训练所使用的,并且由于每次使用的是不同数据量的已标注数据集得到的,因此该训练数据集中的数据量也是不相同的。
S202,将所有训练数据集进行监督学习训练,得到对应的识别模型,对每个识别模型进行识别准确率计算,得到对应的识别准确率;
在步骤S201的基础上,本步骤旨在使用得到的所有训练数据集进行监督学习训练,并得到对应的识别模型,进一步根据识别模型进行识别准确率计算,也就是得到了预测模型的中的应变量。
然后,使用识别模型进行识别准确计算,得到识别准确率。可选的,可以通过已标注数据集对识别模型进行测试,根据测试结果得到相应的识别准确率。
具体的,由于所使用的训练数据集的数量为多个,那么经过学习训练得到的识别模型的数量也应该为多个,进一步的模型准率的数量也为多个。因此,不同数据量的已标注数据集对应了在该标注策略下的标注准确率和识别准确率。
S203,将每个标注策略对应的标注准确率、识别准确率以及数据量进行回归统计处理,得到对应的回归预测模型。
在步骤S202的基础上,本步骤旨在将得到数据进行回归统计处理,即通过回归模型分析,得到对应的回归预测模型。
请参考图3,图3为本申请实施例所提供的标注策略的选择方法中的进行回归分析的流程图。
基于上一实施例,本实施例主要是对上一实施例中如何进行回归分析做的一个说明,其他部分与上一实施例大体相同,相同部分可以参考上一实施例,在此不作赘述。
本实施例可以包括:
S301,将每个标注策略对应的标注准确率、识别准确率以及数据量进行统计,得到开始数据量、结束数据量、标注准确率以及识别准确率之间的对应关系;
本步骤旨在将得到数据进行统计处理,得到每个不同数据量的已标注数据集的数据之间的对应关系。其中,得到统计结果即对应关系的展示形式可以如下表:
表1对应关系统计表
标注策略 开始数据量 结束数据量 标注准确率 识别准确率
A a_1 m_1 b_1 c_1
A a_2 m_2 b_2 c_2
A …… …… …… ……
A a_n m_n b_n c_n
B x_1 k_1 y_1 z_1
B …… …… …… ……
B x_n k_n y_n z_n
其中,统计处理可以是每个已标注数据集进行处理后,对数据进行记录就可以得到统计的数据,还可以通过其他方式得到相应的数据,在此不做赘述。
S302,将对应关系以识别准确率为目标值进行回归模型训练,得到每个标注策略对应的回归预测模型。
在步骤S301的基础上,本步骤旨在根据统计后的数据进行回归模型训练,得到相应的回归预测模型。
其中,是以识别准确率作为回归预测模型的目标值,也就是将识别准确率作为预测模型中的应变量,其受到其他影响因素而变化。具体,该回归预测模型的形式可以是:
accuracy=f(num_init_corpous,acc_corpus,num_final_corpus);
其中,accuracy表示识别模型最终可以得到的识别准确率,num_init_corpous表示的是识别模型的开始数据量,acc_corpus表示的是标注数据的标注准确率,num_final_corpus表示的是结束数据量。
当然,在本步骤中还可以将其他因素作为回归模型训练的目标值,应视具体应用情况而选择不同的目标值,在此不做限定。
在实际使用过程中,就可以结合上述的回归模型,能够通过其中所使用的数据量预测到使用标注策略进行标注结束后的识别准确率。
本申请实施例提供一种标注策略的选择方法,可以通过获取某一个标注策略的训练数据量、标注准确率以及识别准确率,建立起各个指标数据之间的影响关系,形成回归预测模型,可以实现在实际标注任务中对该标注策略的训练效果进行预测,进而根据预测结果确定人力成本最小的标注策略,保证训练效果的情况下降低人力成本。
下面对本申请实施例提供的一种标注策略的选择装置进行介绍,下文描述的一种标注策略的选择装置与上文描述的一种标注策略的选择方法可相互对应参照。
请参考图4,图4为本申请实施例所提供的一种标注策略的选择装置的结构示意图。
本实施例提供一种标注策略的选择装置,该装置可以包括:
回归模型获取模块100,用于采用多个标注策略对已标注数据集进行模拟标注处理和监督学习训练,并根据模拟标注处理和监督学习训练中的指标数据进行回归预测模型训练,得到对应的回归预测模型;其中,指标数据包括标注准确率、识别准确率以及数据量;
预测模块200,用于当获取到标注任务的目前标注准确率、已标注数据量以及预期标注数据量时,利用所有回归预测模型根据目前标注准确率、已标注数据量以及预期标注数据量进行预测计算处理,得到对应的预测识别准确率;
策略选择模块300,用于根据所有预测识别准确率和预期识别准确率,确定人力成本最小的标注策略作为标注任务中使用的标注策略;其中,人力成本为根据标注策略中的标注方式和预期标注数据量计算得到的。
该回归模型获取模块100,可以包括:
模拟标注单元,用于采用多个标注策略对已标注数据集进行模拟标注处理得到对应的训练数据集,对训练数据集进行标注准确率计算,得到对应的标注准确率;
识别模型训练单元,用于将所有训练数据集进行监督学习训练,得到对应的识别模型,对每个识别模型进行识别准确率计算,得到对应的识别准确率;
预测模型训练单元,用于将每个标注策略对应的标注准确率、识别准确率以及数据量进行回归统计处理,得到对应的回归预测模型。
该预测模型训练单元,可以包括:
数据统计处理子单元,用于将每个标注策略对应的标注准确率、识别准确率以及数据量进行统计,得到开始数据量、结束数据量、标注准确率以及识别准确率之间的对应关系;
回归模型训练子单元,用于将对应关系以识别准确率为目标值进行回归模型训练,得到每个标注策略对应的回归预测模型。
本申请实施例还提供一种服务器,包括:存储器,用于存储计算机程序;处理器,用于执行计算机程序时实现如以上实施例说明的选择方法的步骤。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如以上实施例说明的选择方法的步骤
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种标注策略的选择方法、选择装置、服务器以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (6)

1.一种标注策略的选择方法,其特征在于,包括:
采用多个标注策略对已标注数据集进行模拟标注处理得到对应的训练数据集,对所述训练数据集进行标注准确率计算,得到对应的标注准确率;
将所有所述训练数据集进行监督学习训练,得到对应的识别模型,对每个所述识别模型进行识别准确率计算,得到对应的识别准确率;
将每个所述标注策略对应的标注准确率、识别准确率以及数据量进行回归统计处理,得到对应的回归预测模型;
当获取到标注任务的目前标注准确率、已标注数据量以及预期标注数据量时,利用所有所述回归预测模型根据所述目前标注准确率、所述已标注数据量以及预期标注数据量进行预测计算处理,得到对应的预测识别准确率;
根据所有所述预测识别准确率和预期识别准确率,确定人力成本最小的标注策略作为所述标注任务中使用的标注策略;其中,所述人力成本为根据标注策略中的标注方式和预期标注数据量计算得到的。
2.根据权利要求1所述的选择方法,其特征在于,将每个所述标注策略对应的标注准确率、识别准确率以及数据量进行回归统计处理,得到对应的回归预测模型,包括:
将每个所述标注策略对应的所述标注准确率、所述识别准确率以及所述数据量进行统计,得到开始数据量、结束数据量、标注准确率以及识别准确率之间的对应关系;
将所述对应关系以所述识别准确率为目标值进行回归模型训练,得到每个所述标注策略对应的回归预测模型。
3.一种标注策略的选择装置,其特征在于,包括:
回归模型获取模块,用于采用多个标注策略对已标注数据集进行模拟标注处理得到对应的训练数据集,对所述训练数据集进行标注准确率计算,得到对应的标注准确率;将所有所述训练数据集进行监督学习训练,得到对应的识别模型,对每个所述识别模型进行识别准确率计算,得到对应的识别准确率;将每个所述标注策略对应的标注准确率、识别准确率以及数据量进行回归统计处理,得到对应的回归预测模型;
预测模块,用于当获取到标注任务的目前标注准确率、已标注数据量以及预期标注数据量时,利用所有所述回归预测模型根据所述目前标注准确率、所述已标注数据量以及预期标注数据量进行预测计算处理,得到对应的预测识别准确率;
策略选择模块,用于根据所有所述预测识别准确率和预期识别准确率,确定人力成本最小的标注策略作为所述标注任务中使用的标注策略;其中,所述人力成本为根据标注策略中的标注方式和预期标注数据量计算得到的。
4.根据权利要求3所述的选择装置,其特征在于,所述回归模型获取模块,包括:
数据统计处理子单元,用于将每个所述标注策略对应的所述标注准确率、所述识别准确率以及所述数据量进行统计,得到开始数据量、结束数据量、标注准确率以及识别准确率之间的对应关系;
回归模型训练子单元,用于将所述对应关系以所述识别准确率为目标值进行回归模型训练,得到每个所述标注策略对应的回归预测模型。
5.一种服务器,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至2任一项所述的选择方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至2任一项所述的选择方法的步骤。
CN201711408351.6A 2017-12-22 2017-12-22 一种标注策略的选择方法及相关装置 Active CN108182448B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711408351.6A CN108182448B (zh) 2017-12-22 2017-12-22 一种标注策略的选择方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711408351.6A CN108182448B (zh) 2017-12-22 2017-12-22 一种标注策略的选择方法及相关装置

Publications (2)

Publication Number Publication Date
CN108182448A CN108182448A (zh) 2018-06-19
CN108182448B true CN108182448B (zh) 2020-08-21

Family

ID=62546777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711408351.6A Active CN108182448B (zh) 2017-12-22 2017-12-22 一种标注策略的选择方法及相关装置

Country Status (1)

Country Link
CN (1) CN108182448B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108961243A (zh) * 2018-07-05 2018-12-07 广东工业大学 一种基于机器学习的篡改视频标注方法及装置
CN110874725B (zh) * 2018-09-04 2023-04-07 Oppo广东移动通信有限公司 电子红包识别策略选择方法、装置及移动终端
CN109271630B (zh) * 2018-09-11 2022-07-05 成都信息工程大学 一种基于自然语言处理的智能标注方法及装置
CN111950770A (zh) * 2020-07-20 2020-11-17 上海淇馥信息技术有限公司 一种管理资源返还辅助策略的方法、装置和电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866337A (zh) * 2009-04-14 2010-10-20 日电(中国)有限公司 词性标注系统、用于训练词性标注模型的装置及其方法
CN102662930A (zh) * 2012-04-16 2012-09-12 乐山师范学院 一种语料标注方法及装置
CN103049629A (zh) * 2011-10-17 2013-04-17 阿里巴巴集团控股有限公司 一种检测噪音数据的方法及装置
CN103514369A (zh) * 2013-09-18 2014-01-15 上海交通大学 一种基于主动学习的回归分析系统及方法
CN103902525A (zh) * 2012-12-28 2014-07-02 新疆电力信息通信有限责任公司 维吾尔语词性标注方法
CN104933588A (zh) * 2015-07-01 2015-09-23 北京京东尚科信息技术有限公司 用于拓展商品品类的数据标注平台及方法
CN106156025A (zh) * 2015-03-25 2016-11-23 阿里巴巴集团控股有限公司 一种数据标注的管理方法及装置
CN107067105A (zh) * 2017-04-07 2017-08-18 华东师范大学 一种基于最优数据分组的众包策略分配方法
CN107169001A (zh) * 2017-03-31 2017-09-15 华东师范大学 一种基于众包反馈和主动学习的文本分类模型优化方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866337A (zh) * 2009-04-14 2010-10-20 日电(中国)有限公司 词性标注系统、用于训练词性标注模型的装置及其方法
CN103049629A (zh) * 2011-10-17 2013-04-17 阿里巴巴集团控股有限公司 一种检测噪音数据的方法及装置
CN102662930A (zh) * 2012-04-16 2012-09-12 乐山师范学院 一种语料标注方法及装置
CN103902525A (zh) * 2012-12-28 2014-07-02 新疆电力信息通信有限责任公司 维吾尔语词性标注方法
CN103514369A (zh) * 2013-09-18 2014-01-15 上海交通大学 一种基于主动学习的回归分析系统及方法
CN106156025A (zh) * 2015-03-25 2016-11-23 阿里巴巴集团控股有限公司 一种数据标注的管理方法及装置
CN104933588A (zh) * 2015-07-01 2015-09-23 北京京东尚科信息技术有限公司 用于拓展商品品类的数据标注平台及方法
CN107169001A (zh) * 2017-03-31 2017-09-15 华东师范大学 一种基于众包反馈和主动学习的文本分类模型优化方法
CN107067105A (zh) * 2017-04-07 2017-08-18 华东师范大学 一种基于最优数据分组的众包策略分配方法

Also Published As

Publication number Publication date
CN108182448A (zh) 2018-06-19

Similar Documents

Publication Publication Date Title
CN108182448B (zh) 一种标注策略的选择方法及相关装置
CN105912500B (zh) 机器学习模型生成方法和装置
CN111259772B (zh) 图像标注方法、装置、设备和介质
CN110084271B (zh) 一种图片类别的识别方法和装置
WO2021174811A1 (zh) 车流量时间序列的预测方法及预测装置
CN107004371B (zh) 对教育内容效果的量度
CN109976998B (zh) 一种软件缺陷预测方法、装置和电子设备
CN108052979A (zh) 对模型预测值进行融合的方法、装置和设备
CN109872026A (zh) 评测结果生成方法、装置、设备及计算机可读存储介质
CN110458600A (zh) 画像模型训练方法、装置、计算机设备及存储介质
CN113705792B (zh) 基于深度学习模型的个性化推荐方法、装置、设备及介质
CN115358897A (zh) 一种基于电子学生证的学生管理方法、系统、终端及存储介质
CN114596111A (zh) 风险识别模型生成方法、装置、设备及存储介质
CN112015992B (zh) 智能单词背诵计划生成方法
CN113900654A (zh) 基于程序语言教学实践平台的代码抄袭检测方法及系统
CN117312628A (zh) 运动课程的推荐方法、装置、存储介质以及电子设备
CN109408396A (zh) 软件质量评价方法、装置、设备及计算机可读存储介质
CN114693011A (zh) 一种政策匹配方法、装置、设备和介质
Rahman et al. A Risk Model of Requirements Change Impact Analysis.
US20210124853A1 (en) Simulation based on precomputed results of the simulation
CN109858006B (zh) 科目识别训练方法、装置
CN114530073B (zh) 基于虚拟现实的培训方法及装置
CN115167965A (zh) 交易进度条的处理方法及装置
CN114691903A (zh) 一种智能课程测试方法及系统、电子设备、存储介质
CN113918471A (zh) 测试用例的处理方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant