CN113191120A - 一种智能标注平台的方法、装置、电子设备和存储介质 - Google Patents

一种智能标注平台的方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113191120A
CN113191120A CN202110616945.6A CN202110616945A CN113191120A CN 113191120 A CN113191120 A CN 113191120A CN 202110616945 A CN202110616945 A CN 202110616945A CN 113191120 A CN113191120 A CN 113191120A
Authority
CN
China
Prior art keywords
data
labeling
platform
marking
annotation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110616945.6A
Other languages
English (en)
Inventor
史亚飞
李霄寒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202110616945.6A priority Critical patent/CN113191120A/zh
Publication of CN113191120A publication Critical patent/CN113191120A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种智能标注平台的方法、装置、电子设备和存储介质,该方法包括:在学习阶段,标注平台接收工程师上传的待标注数据;管理员在标注平台上将待标注数据分为第一学习数据和第一待标注数据;标注专家在标注平台上对第一学习数据进行标注得到金标准数据;标注人员在标注平台上对第一学习数据进行标注得到第一标注数据;标注平台对金标准数据和第一标注数据进行对比打分;根据打分结果确定标注人员是否具有标注其他待标注数据的能力。本申请实施例中通过加入学习阶段,评估标注人员和标注专家之间标注的差异,判断标注人员与标注专家之间标注水平的差异,减少因标注人员的标注水平不足,造成数据回标的情况,提高标注效率。

Description

一种智能标注平台的方法、装置、电子设备和存储介质
技术领域
本发明涉及智能标注技术领域,具体涉及一种智能标注平台的方法、装置、电子设备和存储介质。
背景技术
目前,在数据标注领域,缺少数据选择的过程,有些数据对模型提升效果有限,但有可能将这部分数据进行标注,增加标注成本;缺少对标注人员的标注水平评估的阶段。
发明内容
本发明提供一种智能标注平台的方法、装置、电子设备和存储介质,能够解决上述增加标注成本;缺少对标注人员的标注水平评估的阶段的技术问题。
本发明解决上述技术问题的技术方案如下:
第一方面,本发明实施例提供了一种智能标注平台的方法,包括:
在学习阶段,标注平台接收工程师上传的待标注数据;
管理员在标注平台上将待标注数据分为第一学习数据和第一待标注数据;
标注专家在标注平台上对第一学习数据进行标注得到金标准数据;
标注人员在标注平台上对第一学习数据进行标注得到第一标注数据;
标注平台对金标准数据和第一标注数据进行对比打分;
根据打分结果确定标注人员是否具有标注其他待标注数据的能力。
在一些实施例中,上述方法中根据打分结果确定标注人员是否具有具有标注其他待标注数据的能力,包括:
若打分结果大于预设阈值,则确定标注人员具有标注其他待标注数据的能力;
若打分结果小于所述预设阈值,则确定标注人员不具有标注其他待标注数据的能力。
在一些实施例中,上述方法还包括:
标注人员具有标注其他待标注数据的能力,则标注人员作为标注专家,对学习数据进行标注得到金标准数据;
标注人员不具有标注其他待标注数据的能力,则标注人员作为标注人员,对学习数据进行标注得到第一标注数据。
在一些实施例中,上述方法还包括:
在标注阶段,工程师在标注平台上采用模型回标的方法对待标注数据进行预标注得到预标注数据;
管理员在标注平台上将预标注数据分为第二学习数据和第二待标注数据;
标注人员在所述标注平台上对所述第二待标注数据进行标注得到第二标注数据;
标注平台采用标注不一致检测算法进行检测第二标注数据是否达标。
在一些实施例中,上述方法中标注平台检测第二标注数据是否达标,包括:
若第二标注数据达标,则标注专家对所述第二标注数据进行质量抽检确定是否达标;
若第二标注数据不达标,则管理员在所述标注平台上重新确定第二待标注数据,标注人员在标注平台上对第二待标注数据进行标注得到第二标注数据,标注平台检测第二标注数据是否达标。
在一些实施例中,上述方法中标注专家对标注人员标注的数据进行质量抽检确定是否达标,包括:
若第二标注数据质量抽检达标,采用第二标注数据进行模型训练,若模型指标满足条件,则标注结束;
若第二标注数据质量抽检不达标,则管理员在所述标注平台上重新确定第二待标注数据,标注人员在标注平台上对所述第二待标注数据进行标注得到第二标注数据,标注平台检测第二标注数据是否达标。
在一些实施例中,上述方法中,若模型指标不满足条件,则工程师采用主动学习算法确定预标注数据。
第二方面,本发明实施例还提供了一种智能标注平台的装置,包括:
接收模块:用于在学习阶段,标注平台接收工程师上传的待标注数据;
分类模块:用于管理员在标注平台上将待标注数据分为第一学习数据和第一待标注数据;
第一标注模块:用于标注专家在标注平台上对第一学习数据进行标注得到金标准数据;
第二标注模块:用于标注人员在所述标注平台上对所述第一学习数据进行标注得到第一标注数据;
对比模块:标注平台对所述金标准数据和第一标注数据进行对比打分;
确定模块:用于根据打分结果确定标注人员是否具有标注其他待标注数据的能力。
第三方面,本发明实施例还提供了一种电子设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述任一项所述一种智能标注平台的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述任一项所述一种智能标注平台的方法。
本发明的有益效果是:在学习阶段,标注平台接收工程师上传的待标注数据;管理员在标注平台上将待标注数据分为第一学习数据和第一待标注数据;标注专家在标注平台上对第一学习数据进行标注得到金标准数据;标注人员在标注平台上对第一学习数据进行标注得到第一标注数据;标注平台对金标准数据和第一标注数据进行对比打分;根据打分结果确定标注人员是否具有标注其他待标注数据的能力。本申请实施例中通过加入学习阶段,评估标注人员和标注专家之间标注的差异,判断标注人员与标注专家之间标注水平的差异,从而确定标注人员是否有标注其他数据的能力,若有,则作为专家标注其他数据,若没有,则继续标注学习阶段的第一标注数据,减少因标注人员的标注水平不足,造成数据回标的情况,提高标注效率。
附图说明
图1为本发明实施例提供的一种智能标注平台的方法图一;
图2为本发明实施例提供的一种智能标注平台的方法图二;
图3为本发明实施例提供的一种智能标注平台的装置图;
图4为本发明实施例提供的一种电子设备的示意性框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开,而非对本申请的限定。基于所描述的本申请的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
图1为本发明实施例提供的一种智能标注平台的方法图一。
第一方面,结合图1,本发明实施例提供了一种智能标注平台的方法,包括S101、S102、S103、S104、S105和S106六个步骤:
S101:在学习阶段,标注平台接收工程师上传的待标注数据。
具体的,本申请实施例中,在工程师上传待标注数据到标注平台时,可以对待标注数据进行预处理,可以将待标注数据处理成标注平台要求的格式。
S102:管理员在标注平台上将待标注数据分为第一学习数据和第一待标注数据。
具体的,本申请实施例中,在工程师上传待标注数据到标注平台后,管理员可以在标注平台上看到待标注数据,管理员将待标注数据按照一定的比例分为第一学习数据和第一待标注数据;这里的一定的比例可以根据具体情况灵活确定,例如第一学习数据占比80%,第一待标注数据占比20%;第一学习数据占比70%,第一待标注数据占比30%等,并不以此限定本申请的保护范围。
S103:标注专家在标注平台上对第一学习数据进行标注得到金标准数据。
具体的,本申请实施例中,在管理员将待标注数据按照一定的比例分为第一学习数据和第一待标注数据后,标注专家在标注平台上看到了第一学习数据,对第一学习数据进行标注得到金标准数据。
S104:标注人员在标注平台上对第一学习数据进行标注得到第一标注数据。
具体的,本申请实施例中,在管理员将待标注数据按照一定的比例分为第一学习数据和第一待标注数据后,标注人员在标注平台上看到了第一学习数据,对第一学习数据进行标注得到第一标注数据。
S105:标注平台对金标准数据和第一标注数据进行对比打分。
具体的,本申请实施例中,标注平台对金标准数据和第一标注数据进行对比打分,确定第一标注数据和金标准数据的差异得到打分结果。
S106:根据打分结果确定标注人员是否具有标注其他待标注数据的能力。
本申请实施例中通过加入学习阶段,评估标注人员和标注专家之间标注的差异,判断标注人员与标注专家之间标注水平的差异,从而确定标注人员是否有标注其他数据的能力,若有标注其他数据的能力,则作为专家标注其他数据,若没有标注其他数据的能力,则继续标注学习阶段的第一标注数据,减少因标注人员的标注水平不足,造成数据回标的情况,提高标注效率。
还应理解,本申请中评估标注人员和标注专家之间标注的差异,不同的标注任务对应的打分标准不一样,如针对命名实体识别任务,采用f1值作为打分标准,f1值的计算公式如下:
Figure BDA0003098053100000061
Figure BDA0003098053100000062
Figure BDA0003098053100000063
其中TP表示真正率,FP表示假正率,FN表示假负率,p表示精确率,r表示召回率。
如针对分类任务,采用auc值作为打分标准。
在一些实施例中,上述方法中根据打分结果确定标注人员是否具有具有标注其他待标注数据的能力,包括:
若打分结果大于预设阈值,则确定标注人员具有标注其他待标注数据的能力;
若打分结果小于所述预设阈值,则确定标注人员不具有标注其他待标注数据的能力。
具体的,本申请实施例中,以命名实体识别任务为例,若f1>预设阈值,则确定标注人员具有标注其他待标注数据的能力;若f1<预设阈值,则确定标注人员不具有标注其他待标注数据的能力。
在一些实施例中,上述方法还包括:
标注人员具有标注其他待标注数据的能力,则标注人员作为标注专家,对学习数据进行标注得到金标准数据;
标注人员不具有标注其他待标注数据的能力,则标注人员作为标注人员,对学习数据进行标注得到第一标注数据。
具体的,本申请实施例中,若确定标注人员具有标注其他数据的能力,则作为标注人员作为标注专家标注其他数据,若确定标注人员不具有标注其他数据的能力,则标注人员继续标注学习阶段的第一标注数据,提高标注能力,减少因标注人员的标注水平不足,造成数据回标的情况,提高标注效率。
图2为本发明实施例提供的一种智能标注平台的方法图二。
在一些实施例中,结合图2,上述方法还包括S201、S202、S203和S204四个步骤:
S201:在标注阶段,工程师在标注平台上采用模型回标的方法对待标注数据进行预标注得到预标注数据。
具体的,本申请实施例中,模型回标是用当前模型的预测能力去对未标注的数据进行预标注得到预标注数据,当前的模型也许不能完全预测对数据,但是大部分的数据应该是可以预测出来的,从而减少标注的数量,降低标注成本。
S202:管理员在标注平台上将预标注数据分为第二学习数据和第二待标注数据。
具体的,本申请实施例中,在工程师在标注平台上采用模型回标的方法对待标注数据进行预标注得到预标注数据后,管理员将预标注数据按照一定的比例分为第二学习数据和第二待标注数据;这里的一定的比例可以根据具体情况灵活确定,例如第二学习数据占比20%,第二待标注数据占比80%;第二学习数据占比30%,第二待标注数据占比70%等,并不以此限定本申请的保护范围。
S203:标注人员在所述标注平台上对所述第二待标注数据进行标注得到第二标注数据。
具体的,本申请实施例中,在管理员将预标注数据按照一定的比例分为第二学习数据和第二待标注数据后,标注人员在标注平台上看到了第二待标注数据,对第二待标注数据进行标注得到第二标注数据。
S204:标注平台采用标注不一致检测算法进行检测第二标注数据是否达标。
具体的,本申请实施例中,标注平台采用标注不一致检测算法进行检测得到第二标注数据达标或者不达标两种结果。
在一些实施例中,上述方法中标注平台检测第二标注数据是否达标,包括:
若检测第二标注数据达标,则标注专家对所述第二标注数据进行质量抽检确定是否达标。
具体的,本申请实施例中,若标注平台检测结果为第二标注数据达标,则标注专家对标注专家对第二标注数据进行质量抽检确定第二标注数据的抽检结果达标或者不达标。
若检测第二标注数据不达标,则管理员在所述标注平台上重新确定第二待标注数据,标注人员在标注平台上对第二待标注数据进行标注得到第二标注数据,标注平台检测第二标注数据是否达标。
具体的,本申请实施例中,若检测结果为第二标注数据不达标,则管理员在标注平台上重新将预标注数据按照一定的比例分为第二学习数据和第二待标注数据;标注人员在标注平台上对第二待标注数据重新进行标注得到第二标注数据,标注平台重新检测第二标注数据是否达标。
在一些实施例中,上述方法中标注专家对标注人员标注的数据进行质量抽检确定是否达标,包括:
若抽检第二标注数据达标,采用第二标注数据进行模型训练,若模型指标满足条件,则标注结束;
具体的,本申请实施例中,若抽检结果为第二标注数据达标,采用第二标注数据进行模型训练,若模型指标满足条件,则标注结束;
若抽检第二标注数据不达标,则管理员在所述标注平台上重新确定第二待标注数据,标注人员在标注平台上对所述第二待标注数据进行标注得到第二标注数据,标注平台检测第二标注数据是否达标。
具体的,本申请实施例中,若抽检第二标注数据不达标,则管理员在标注平台上重新将预标注数据按照一定的比例分为第二学习数据和第二待标注数据;标注人员在标注平台上对第二待标注数据重新进行标注得到第二标注数据,标注平台重新检测第二标注数据是否达标。
在一些实施例中,上述方法中,若模型指标不满足条件,则工程师采用主动学习算法确定预标注数据。
具体的,本申请实施例中,若抽检结果为第二标注数据达标,采用第二标注数据进行模型训练,若模型指标不满足条件,则工程师采用主动学习算法确定预标注数据,管理员在标注平台上重新将预标注数据按照一定的比例分为第二学习数据和第二待标注数据;标注人员在标注平台上对第二待标注数据重新进行标注得到第二标注数据,标注平台重新检测第二标注数据是否达标。
应理解,通过主动学习算法可以主动选择对模型训练更有价值的数据,减少标注的数量,降低标注成本。
图3为本发明实施例提供的一种智能标注平台的装置图。
第二方面,结合图3,本发明实施例还提供了一种智能标注平台的装置,包括:
接收模块301:用于在学习阶段,标注平台接收工程师上传的待标注数据。
具体的,本申请实施例中,在工程师上传待标注数据到标注平台时,可以对待标注数据进行预处理,可以将待标注数据处理成标注平台要求的格式,标注平台接收工程师上传的待标注数据。
分类模块302:用于管理员在标注平台上将待标注数据分为第一学习数据和第一待标注数据。
具体的,本申请实施例中,在工程师上传待标注数据到标注平台后,管理员可以在标注平台上看到待标注数据,管理员将待标注数据按照一定的比例分类,分类模块302分为第一学习数据和第一待标注数据;这里的一定的比例可以根据具体情况灵活确定,例如第一学习数据占比80%,第一待标注数据占比20%;第一学习数据占比70%,第一待标注数据占比30%等,并不以此限定本申请的保护范围。
第一标注模块303:用于标注专家在标注平台上对第一学习数据进行标注得到金标准数据。
具体的,本申请实施例中,在管理员将待标注数据按照一定的比例分为第一学习数据和第一待标注数据后,标注专家在标注平台上看到了第一学习数据,通过第一标注模块303对第一学习数据进行标注得到金标准数据。
第二标注模块304:用于标注人员在所述标注平台上对所述第一学习数据进行标注得到第一标注数据。
具体的,本申请实施例中,在管理员将待标注数据按照一定的比例分为第一学习数据和第一待标注数据后,标注人员在标注平台上看到了第一学习数据,通过第二标注模块304对第一学习数据进行标注得到第一标注数据。
对比模块305:标注平台对所述金标准数据和第一标注数据进行对比打分。
具体的,本申请实施例中,标注平台中的对比模块305对金标准数据和第一标注数据进行对比打分,确定第一标注数据和金标准数据的差异得到打分结果。
确定模块306:用于根据打分结果确定标注人员是否具有标注其他待标注数据的能力。
本申请实施例中通过加入学习阶段,评估标注人员和标注专家之间标注的差异,判断标注人员与标注专家之间标注水平的差异,从而确定模块306确定标注人员是否有标注其他数据的能力,若有,则作为专家标注其他数据,若没有,则继续标注学习阶段的第一标注数据,减少因标注人员的标注水平不足,造成数据回标的情况,提高标注效率。
第三方面,本发明实施例还提供了一种电子设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述任一项所述一种智能标注平台的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述任一项所述一种智能标注平台的方法。
图4是本公开实施例提供的一种电子设备的示意性框图。
如图4所示,电子设备包括:至少一个处理器401、至少一个存储器402和至少一个通信接口403。电子设备中的各个组件通过总线系统404耦合在一起。通信接口403,用于与外部设备之间的信息传输。可理解,总线系统404用于实现这些组件之间的连接通信。总线系统304除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图3中将各种总线都标为总线系统404。
可以理解,本实施例中的存储器402可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
在一些实施方式中,存储器402存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本申请实施例提供的一种智能标注平台的方法中任一方法的程序可以包含在应用程序中。
在本申请实施例中,处理器401通过调用存储器402存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器401用于执行本申请实施例提供的一种智能标注平台的方法各实施例的步骤。
在学习阶段,标注平台接收工程师上传的待标注数据;
管理员在标注平台上将待标注数据分为第一学习数据和第一待标注数据;
标注专家在标注平台上对第一学习数据进行标注得到金标准数据;
标注人员在标注平台上对第一学习数据进行标注得到第一标注数据;
标注平台对金标准数据和第一标注数据进行对比打分;
根据打分结果确定标注人员是否具有标注其他待标注数据的能力。
本申请实施例提供的一种智能标注平台的方法中任一方法可以应用于处理器401中,或者由处理器401实现。处理器401可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请实施例提供的一种智能标注平台的方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器402,处理器401读取存储器402中的信息,结合其硬件完成一种智能标注平台的方法的步骤。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本申请的实施方式,但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种智能标注平台的方法,其特征在于,包括:
在学习阶段,标注平台接收工程师上传的待标注数据;
管理员在所述标注平台上将所述待标注数据分为第一学习数据和第一待标注数据;
标注专家在所述标注平台上对所述第一学习数据进行标注得到金标准数据;
标注人员在所述标注平台上对所述第一学习数据进行标注得到第一标注数据;
所述标注平台对所述金标准数据和所述第一标注数据进行对比打分;
根据打分结果确定标注人员是否具有标注其他待标注数据的能力。
2.根据权利要求1所述的智能标注平台的方法,其特征在于,所述根据打分结果确定标注人员是否具有具有标注其他待标注数据的能力,包括:
若所述打分结果大于预设阈值,则确定所述标注人员具有标注其他待标注数据的能力;
若所述打分结果小于所述预设阈值,则确定所述标注人员不具有标注其他待标注数据的能力。
3.根据权利要求2所述的智能标注平台的方法,其特征在于,所述方法还包括:
所述标注人员具有标注其他待标注数据的能力,则所述标注人员作为标注专家,对所述学习数据进行标注得到金标准数据;
所述标注人员不具有标注其他待标注数据的能力,则所述标注人员作为标注人员,对所述学习数据进行标注得到第一标注数据。
4.根据权利要求1所述的智能标注平台的方法,其特征在于,所述方法还包括:
在标注阶段,工程师在所述标注平台上采用模型回标的方法对所述待标注数据进行预标注得到预标注数据;
管理员在所述标注平台上将所述预标注数据分为第二学习数据和第二待标注数据;
标注人员在所述标注平台上对所述第二待标注数据进行标注得到第二标注数据;
所述标注平台采用标注不一致检测算法进行检测所述第二标注数据是否达标。
5.根据权利要求4所述的智能标注平台的方法,其特征在于,所述标注平台检测所述第二标注数据是否达标,包括:
若检测所述第二标注数据达标,则所述标注专家对所述第二标注数据进行质量抽检确定是否达标;
若检测所述第二标注数据不达标,则所述管理员在所述标注平台上重新确定第二待标注数据,标注人员在所述标注平台上对所述第二待标注数据进行标注得到第二标注数据,所述标注平台检测所述第二标注数据是否达标。
6.根据权利要求5所述的智能标注平台的方法,其特征在于,所述标注专家对标注人员标注的数据进行质量抽检确定是否达标,包括:
若抽检所述第二标注数据达标,采用所述第二标注数据进行模型训练,若所述模型指标满足条件,则标注结束;
若抽检所述第二标注数据不达标,则所述管理员在所述标注平台上重新确定所述第二待标注数据,标注人员在所述标注平台上对所述第二待标注数据进行标注得到所述第二标注数据,所述标注平台检测所述第二标注数据是否达标。
7.根据权利要求6所述的智能标注平台的方法,其特征在于,若所述模型指标不满足条件,则工程师采用主动学习算法确定所述预标注数据。
8.一种智能标注平台的装置,其特征在于,包括:
接收模块:用于在学习阶段,标注平台接收工程师上传的待标注数据;
分类模块:用于管理员在所述标注平台上将所述待标注数据分为第一学习数据和第一待标注数据;
第一标注模块:用于标注专家在所述标注平台上对所述第一学习数据进行标注得到金标准数据;
第二标注模块:用于标注人员在所述标注平台上对所述第一学习数据进行标注得到第一标注数据;
对比模块:所述标注平台对所述金标准数据和所述第一标注数据进行对比打分;
确定模块:用于根据打分结果确定标注人员是否具有标注其他待标注数据的能力。
9.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至8任一项所述一种智能标注平台的方法。
10.一种计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至7任一项所述一种智能标注平台的方法。
CN202110616945.6A 2021-06-02 2021-06-02 一种智能标注平台的方法、装置、电子设备和存储介质 Pending CN113191120A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110616945.6A CN113191120A (zh) 2021-06-02 2021-06-02 一种智能标注平台的方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110616945.6A CN113191120A (zh) 2021-06-02 2021-06-02 一种智能标注平台的方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113191120A true CN113191120A (zh) 2021-07-30

Family

ID=76975958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110616945.6A Pending CN113191120A (zh) 2021-06-02 2021-06-02 一种智能标注平台的方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113191120A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618810A (zh) * 2022-12-20 2023-01-17 中化现代农业有限公司 一种提升数据标注准确率的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050027664A1 (en) * 2003-07-31 2005-02-03 Johnson David E. Interactive machine learning system for automated annotation of information in text
CN109710933A (zh) * 2018-12-25 2019-05-03 广州天鹏计算机科技有限公司 训练语料的获取方法、装置、计算机设备和存储介质
CN111080092A (zh) * 2019-11-29 2020-04-28 北京云聚智慧科技有限公司 数据标注管理方法及装置、电子设备和可读存储介质
CN111274821A (zh) * 2020-02-25 2020-06-12 北京明略软件系统有限公司 一种命名实体识别数据标注质量评估方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050027664A1 (en) * 2003-07-31 2005-02-03 Johnson David E. Interactive machine learning system for automated annotation of information in text
CN109710933A (zh) * 2018-12-25 2019-05-03 广州天鹏计算机科技有限公司 训练语料的获取方法、装置、计算机设备和存储介质
CN111080092A (zh) * 2019-11-29 2020-04-28 北京云聚智慧科技有限公司 数据标注管理方法及装置、电子设备和可读存储介质
CN111274821A (zh) * 2020-02-25 2020-06-12 北京明略软件系统有限公司 一种命名实体识别数据标注质量评估方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618810A (zh) * 2022-12-20 2023-01-17 中化现代农业有限公司 一种提升数据标注准确率的方法及装置

Similar Documents

Publication Publication Date Title
CN109189991B (zh) 重复视频识别方法、装置、终端及计算机可读存储介质
CN109446885B (zh) 一种基于文本的元器件识别方法、系统、装置和存储介质
CN104572446B (zh) 一种自动化测试方法及系统
US9141883B1 (en) Method, hard negative proposer, and classifier for supporting to collect hard negative images using a similarity map
CN111325260B (zh) 数据处理方法及装置、电子设备、计算机可读介质
CN109118420B (zh) 水印识别模型建立及识别方法、装置、介质及电子设备
CN112464640A (zh) 数据要素分析方法、装置、电子装置和存储介质
CN109241998B (zh) 模型训练方法、装置、设备及存储介质
CN113191120A (zh) 一种智能标注平台的方法、装置、电子设备和存储介质
CN112181835A (zh) 自动化测试方法、装置、计算机设备及存储介质
CN105117489B (zh) 一种数据库管理方法、装置及电子设备
CN112257413A (zh) 地址参数处理方法及相关设备
US9053087B2 (en) Automatic semantic evaluation of speech recognition results
CN115100739A (zh) 人机行为检测方法、系统、终端设备及存储介质
CN114329022A (zh) 一种色情分类模型的训练、图像检测方法及相关装置
CN113010785A (zh) 用户推荐方法及设备
CN109710626B (zh) 数据入库管理方法、装置、电子设备,及存储介质
CN111523322A (zh) 需求文档质量评价模型训练方法及需求文档质量评价方法
CN114140751B (zh) 一种考场监控方法及系统
US20080140741A1 (en) method for using the fundamental homotopy group in assessing the similarity of sets of data
CN115294505A (zh) 风险物体检测及其模型的训练方法、装置及电子设备
CN112989869B (zh) 人脸质量检测模型的优化方法、装置、设备及存储介质
CN111078984B (zh) 网络模型发布方法、装置、计算机设备和存储介质
CN109582850B (zh) 一种网页爬取的方法、装置、存储介质及电子设备
CN113299345B (zh) 病毒基因分类的方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination