CN115618810A - 一种提升数据标注准确率的方法及装置 - Google Patents

一种提升数据标注准确率的方法及装置 Download PDF

Info

Publication number
CN115618810A
CN115618810A CN202211636079.8A CN202211636079A CN115618810A CN 115618810 A CN115618810 A CN 115618810A CN 202211636079 A CN202211636079 A CN 202211636079A CN 115618810 A CN115618810 A CN 115618810A
Authority
CN
China
Prior art keywords
data
information
marking
labeling
personnel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211636079.8A
Other languages
English (en)
Inventor
丁怀强
毕旭东
蔡永维
田阔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sinochem Agriculture Holdings
Original Assignee
Sinochem Agriculture Holdings
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sinochem Agriculture Holdings filed Critical Sinochem Agriculture Holdings
Priority to CN202211636079.8A priority Critical patent/CN115618810A/zh
Publication of CN115618810A publication Critical patent/CN115618810A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种提升数据标注准确率的方法及装置,属于数据处理技术领域。方法包括:随机抽取第一标注人员标注的一条数据,获取所述数据的第一标注信息;将所述数据发送给第二标注人员,并提醒所述第二标注人员对所述数据进行优先标注;接收所述第二标注人员返回的对所述数据的第二标注信息;比较所述数据的所述第一标注信息和所述第二标注信息,若二者一致,则确定对所述数据的标注信息正确无误。本发明能够提高数据标注的效率和准确率。

Description

一种提升数据标注准确率的方法及装置
技术领域
本发明属于数据处理技术领域,尤其涉及一种提升数据标注准确率的方法及装置。
背景技术
人工智能的最终目标使计算机能够模拟人的思维方式和行为,若想达到这个目标,则需要大量优质的训练数据使人工智能可以通过学习从而形成更好的模型,变得更加智能化。然而在标注人员标注数据时,面对大量的数据,标注的过程中难免出现错误数据,如果错误数据过多,人工智能通过学习错误的数据得过的模型也落后行业水平。
如果把人工智能比作金字塔,最顶端的是人工智能应用(比如无人车、机器人等),而最底端则是数据服务,简单来说,数据标注就是标注和加工原始数据、分析提炼专业特征,并通过训练和测评让算法迭代升级,即使用自动化工具通过分类、画框、注释等等对收集来的数据进行标记以形成可供计算机识别分析的优质数据的过程。
现有技术方案中包括三个角色:1)标注员标注数据;2)审核员负责被标注数据的质量;3)管理员负责人员管理,任务发放。标注流程包括:1)管理员进行任务发放,绩效管理;2)标注员熟悉标注工具,设置一些快捷键,高效正确完成标注;3)质量跟踪,审核员通过计算标注人员的正确率,对人员进行淘汰制来提高人员的标注质量。
现有技术的缺点:1)标注人员在认知范围内标注错误时,不能及时发现并纠正,造成滚雪球现象;2)审核工作在标注完成后进行,全部压力都集中到审核人员,造成极大的压力,难免会有疏忽。再者如果准确率很低的话,数据是不可逆的,将面临弃用、重新进行标记等问题,造成极大的资源浪费;3) 当下数据标注行业单次交付达标率低于50%,三次内交付达标率低于90%,远远不能满足AI企业的需求。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种提升数据标注准确率的方法及装置,能够提高数据标注的效率和准确率。
根据本发明的一个方面,本发明提供了一种提升数据标注准确率的方法,所述方法包括以下步骤:
S1:随机抽取第一标注人员标注的一条数据,获取所述数据的第一标注信息;将所述数据发送给第二标注人员,并提醒所述第二标注人员对所述数据进行优先标注;
S2:接收所述第二标注人员返回的对所述数据的第二标注信息;比较所述数据的所述第一标注信息和所述第二标注信息,若二者一致,则确定对所述数据的标注信息正确无误。
优选地,所述随机抽取第一标注人员标注的一条数据包括:
实时统计标注人员所标注数据的数量,当所述标注人员开始标注后每标注N条数据,则在所述标注人员所标注的数据中随机抽取一条数据。
优选地,所述方法包括:
比较所述数据的所述第一标注信息和所述第二标注信息,当二者不一致时,把所述第一标注信息和所述第二标注信息推送给审核员进行审核。
优选地,所述方法包括:
接收审核员审核完成之后形成的审核信息,将所述审核信息推送给相关标注人员,锁定标注人员账号,强制停止标注任务,提醒标注人员优先处理所述审核信息;所述审核信息是所述审核员对所述第一标注信息和所述第二标注信息进行审核,给错误一方或双方加上标识之后形成的。
优选地,所述方法包括:
在标注人员对所述审核信息有异议发起复核,并由审核员发起投票的情况下,实时统计投票结果,并把投票结果推送给审核员和标注人员。
根据本发明的另一个方面,本发明还提供了一种提升数据标注准确率的装置,所述装置包括:
抽取模块,用于随机抽取第一标注人员标注的一条数据,获取所述数据的第一标注信息;
收发模块,用于将所述数据发送给第二标注人员,并提醒所述第二标注人员对所述数据进行优先标注;接收所述第二标注人员返回的对所述数据的第二标注信息;
判断模块,用于比较所述数据的所述第一标注信息和所述第二标注信息,若二者一致,则确定对所述数据的标注信息正确无误。
优选地,所述抽取模块随机抽取第一标注人员标注的一条数据包括:
实时统计标注人员所标注数据的数量,当所述标注人员开始标注后每标注N条数据,则在所述标注人员所标注的数据中随机抽取一条数据。
优选地,
所述判断模块比较所述数据的所述第一标注信息和所述第二标注信息,当二者不一致时,所述收发模块把所述第一标注信息和所述第二标注信息推送给审核员进行审核。
优选地,所述收发模块还用于:
接收审核员审核完成之后形成的审核信息,将所述审核信息推送给相关标注人员,锁定标注人员账号,强制停止标注任务,提醒标注人员优先处理所述审核信息;所述审核信息是所述审核员对所述第一标注信息和所述第二标注信息进行审核,给错误一方或双方加上标识之后形成的。
优选地,所述收发模块还用于:
在标注人员对所述审核信息有异议发起复核,并由审核员发起投票的情况下,实时统计投票结果,并把投票结果推送给审核员和标注人员。
有益效果:本发明通过对标注数据进行抽查,由审核人员进行标注信息的审核,在标注人员对审核信息有异议的情况下发起投票,能够提高数据标注的效率和准确率。
通过参照以下附图及对本发明的具体实施方式的详细描述,本发明的特征及优点将会变得清楚。
附图说明
图1是本申请的一种提升数据标注准确率的方法流程图;
图2是本申请的一种数据标注投票示意图;
图3是本申请的一种数据标注装置通知和统计示意图;
图4是本申请的一种提升数据标注准确率的装置结构示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
图1是本申请的一种提升数据标注准确率的方法流程图。如图1所示,本发明提供了本发明提供了一种提升数据标注准确率的方法,所述方法包括以下步骤:
S1:随机抽取第一标注人员标注的一条数据,获取所述数据的第一标注信息;将所述数据发送给第二标注人员,并提醒所述第二标注人员对所述数据进行优先标注。
具体地,管理员根据数据量确定标注人员个数,把数据平均分发给标注员,同时设置期望的验证比例,此案例以10:1为标准。
标注员在在线平台上进行标注,平台提供快捷键,标注员第一次使用会有指导层提示,帮助标注员快速上手。
标注员收到待核验的数据时,装置会优先让其处理该数据;标注员对待核验的数据是无感的,正常标注完成后,会计入工作量。
优选地,所述随机抽取第一标注人员标注的一条数据包括:
实时统计标注人员所标注数据的数量,当所述标注人员开始标注后每标注N条数据,则在所述标注人员所标注的数据中随机抽取一条数据。
具体地,标注员开始标注后每标10条数据,装置就会在其中随机抽取一条数据,发送给其中一位标注人员(如果只有一位标注员时,发送给自己)。当有多位标注员时,以此类推。
S2:接收所述第二标注人员返回的对所述数据的第二标注信息;比较所述数据的所述第一标注信息和所述第二标注信息,若二者一致,则确定对所述数据的标注信息正确无误。
优选地,所述方法包括:
比较所述数据的所述第一标注信息和所述第二标注信息,当二者不一致时,把所述第一标注信息和所述第二标注信息推送给审核员进行审核。
具体地,装置进行标注信息结果对比;若完全一致,则认为该条数据的标注信息无误;若有偏差,把双方的标注信息推送给审核员。审核员完成审核之前,为了不影响整体标注进度,标注人员可正常继续标注。
本实施例通过对标注数据进行抽查,由审核人员进行标注信息的审核,能够提高数据标注的效率和准确率。
优选地,所述方法包括:
接收审核员审核完成之后形成的审核信息,将所述审核信息推送给相关标注人员,锁定标注人员账号,强制停止标注任务,提醒标注人员优先处理所述审核信息;所述审核信息是所述审核员对所述第一标注信息和所述第二标注信息进行审核,给错误一方或双方加上标识之后形成的。
具体地,审核员的审核分为两种:一种是标注人员有分歧的标注信息,需要进行确认;一种是全部的标注信息进行审核工作。本实施例主要针对标注人员有分歧的数据进行描述。审核人员打开相关装置,获取两份标注数据进行审核,给错误一方或双方加上标识,并给出正确的标注信息,确认无误后,提交信息;装置会根据标识推送给相关标注人员,此次审核工作结束。装置锁定标注人员账号,强制停止标注任务,需优先处理审核信息;标注装置会展示正确与错误的标注内容,标注人员需确认之后,方可继续标注。
优选地,所述方法包括:
在标注人员对所述审核信息有异议发起复核,并由审核员发起投票的情况下,实时统计投票结果,并把投票结果推送给审核员和标注人员。
具体地,可能会出现标注人员对审核结果有异议的情况,为确保数据的准确性,参考图2和图3,设计投票流程。
标注员可通过标注装置,发起复核,若此次剩余标注人员超过三人,则会由审核人员发起投票,若不足三人,决定权还是交给审核人员;
审核人员发起投票,假设投票编号为A、B,审核人员需要选择投票人员,投票数量保证为奇数,保证投票的成功率,投票信息发送给选择的投票人员的同时,会以异步的方式发送短信通知、开启监听任务(参考图3)。
等待投票结果过程中,发起复核的标注员可以继续进行标注任务,标注员每投一票,监听任务就会实时统计投票结果,若其中一个编号的得票超过半数,停止此次任务,并且把投票结果推送给审核员和标注人员,否则继续等待,直至投票结束。
在本实施例中,将审核工作穿插到标注过程中,可以实时关注到标注质量,一旦出现质量问题,能够快速发现,并及时纠正,全部人员参与审核工作,提高工作效率;也可以让标注人员在标注时保持高度专注,减少出错概率,被检测出错误之后,审核员给出正确标注内容,在标注的同时学习新的知识。实验结果表明,本实施例提高标注达标率,经过用户百万级数据标注,单次标注达标率达到65%以上,三次交付达标率提高到95%以上,远高于行业水平,可为企业减少人力成本支出,提升盈利空间。
实施例2
图4是本申请的一种提升数据标注准确率的装置结构示意图。如图4所示,本发明还提供了一种提升数据标注准确率的装置,所述装置包括:
抽取模块401,用于随机抽取第一标注人员标注的一条数据,获取所述数据的第一标注信息;
收发模块402,用于将所述数据发送给第二标注人员,并提醒所述第二标注人员对所述数据进行优先标注;接收所述第二标注人员返回的对所述数据的第二标注信息;
判断模块403,用于比较所述数据的所述第一标注信息和所述第二标注信息,若二者一致,则确定对所述数据的标注信息正确无误。
优选地,所述抽取模块401随机抽取第一标注人员标注的一条数据包括:
实时统计标注人员所标注数据的数量,当所述标注人员开始标注后每标注N条数据,则在所述标注人员所标注的数据中随机抽取一条数据。
优选地,
所述判断模块403比较所述数据的所述第一标注信息和所述第二标注信息,当二者不一致时,所述收发模块402把所述第一标注信息和所述第二标注信息推送给审核员进行审核。
优选地,所述收发模块402还用于:
接收审核员审核完成之后形成的审核信息,将所述审核信息推送给相关标注人员,锁定标注人员账号,强制停止标注任务,提醒标注人员优先处理所述审核信息;所述审核信息是所述审核员对所述第一标注信息和所述第二标注信息进行审核,给错误一方或双方加上标识之后形成的;
优选地,所述收发模块402还用于:
在标注人员对所述审核信息有异议发起复核,并由审核员发起投票的情况下,实时统计投票结果,并把投票结果推送给审核员和标注人员。
本实施例2中各个模块所执行的方法步骤的具体实施过程与实施例1中的各个步骤的实施过程相同,在此不再赘述。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (10)

1.一种提升数据标注准确率的方法,其特征在于,所述方法包括以下步骤:
S1:随机抽取第一标注人员标注的一条数据,获取所述数据的第一标注信息;将所述数据发送给第二标注人员,并提醒所述第二标注人员对所述数据进行优先标注;
S2:接收所述第二标注人员返回的对所述数据的第二标注信息;比较所述数据的所述第一标注信息和所述第二标注信息,若二者一致,则确定对所述数据的标注信息正确无误。
2.根据权利要求1所述的方法,其特征在于,所述随机抽取第一标注人员标注的一条数据包括:
实时统计标注人员所标注数据的数量,当所述标注人员开始标注后每标注N条数据,则在所述标注人员所标注的数据中随机抽取一条数据。
3.根据权利要求1所述的方法,其特征在于,所述方法包括:
比较所述数据的所述第一标注信息和所述第二标注信息,当二者不一致时,把所述第一标注信息和所述第二标注信息推送给审核员进行审核。
4.根据权利要求3所述的方法,其特征在于,所述方法包括:
接收审核员审核完成之后形成的审核信息,将所述审核信息推送给相关标注人员,锁定标注人员账号,强制停止标注任务,提醒标注人员优先处理所述审核信息;所述审核信息是所述审核员对所述第一标注信息和所述第二标注信息进行审核,给错误一方或双方加上标识之后形成的。
5.根据权利要求4所述的方法,其特征在于,所述方法包括:
在标注人员对所述审核信息有异议发起复核,并由审核员发起投票的情况下,实时统计投票结果,并把投票结果推送给审核员和标注人员。
6.一种提升数据标注准确率的装置,其特征在于,所述装置包括:
抽取模块,用于随机抽取第一标注人员标注的一条数据,获取所述数据的第一标注信息;
收发模块,用于将所述数据发送给第二标注人员,并提醒所述第二标注人员对所述数据进行优先标注;接收所述第二标注人员返回的对所述数据的第二标注信息;
判断模块,用于比较所述数据的所述第一标注信息和所述第二标注信息,若二者一致,则确定对所述数据的标注信息正确无误。
7.根据权利要求6所述的装置,其特征在于,所述抽取模块随机抽取第一标注人员标注的一条数据包括:
实时统计标注人员所标注数据的数量,当所述标注人员开始标注后每标注N条数据,则在所述标注人员所标注的数据中随机抽取一条数据。
8.根据权利要求6所述的装置,其特征在于,
所述判断模块比较所述数据的所述第一标注信息和所述第二标注信息,当二者不一致时,所述收发模块把所述第一标注信息和所述第二标注信息推送给审核员进行审核。
9.根据权利要求8所述的装置,其特征在于,所述收发模块还用于:
接收审核员审核完成之后形成的审核信息,将所述审核信息推送给相关标注人员,锁定标注人员账号,强制停止标注任务,提醒标注人员优先处理所述审核信息;所述审核信息是所述审核员对所述第一标注信息和所述第二标注信息进行审核,给错误一方或双方加上标识之后形成的。
10.根据权利要求9所述的装置,其特征在于,所述收发模块还用于:
在标注人员对所述审核信息有异议发起复核,并由审核员发起投票的情况下,实时统计投票结果,并把投票结果推送给审核员和标注人员。
CN202211636079.8A 2022-12-20 2022-12-20 一种提升数据标注准确率的方法及装置 Pending CN115618810A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211636079.8A CN115618810A (zh) 2022-12-20 2022-12-20 一种提升数据标注准确率的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211636079.8A CN115618810A (zh) 2022-12-20 2022-12-20 一种提升数据标注准确率的方法及装置

Publications (1)

Publication Number Publication Date
CN115618810A true CN115618810A (zh) 2023-01-17

Family

ID=84880041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211636079.8A Pending CN115618810A (zh) 2022-12-20 2022-12-20 一种提升数据标注准确率的方法及装置

Country Status (1)

Country Link
CN (1) CN115618810A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536662A (zh) * 2018-04-16 2018-09-14 苏州大学 一种数据标注方法及装置
CN110991486A (zh) * 2019-11-07 2020-04-10 北京邮电大学 多人协作图像标注质量控制的方法和装置
CN111723225A (zh) * 2020-05-09 2020-09-29 江苏丰华联合科技有限公司 一种图像数据标注方法
CN113159123A (zh) * 2021-03-17 2021-07-23 开易(北京)科技有限公司 一种数据标注方法、标注员考核方法及标注结果审核方法
CN113191120A (zh) * 2021-06-02 2021-07-30 云知声智能科技股份有限公司 一种智能标注平台的方法、装置、电子设备和存储介质
WO2022205585A1 (zh) * 2021-03-30 2022-10-06 苏州大学 一种数据标注的方法、系统、设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536662A (zh) * 2018-04-16 2018-09-14 苏州大学 一种数据标注方法及装置
CN110991486A (zh) * 2019-11-07 2020-04-10 北京邮电大学 多人协作图像标注质量控制的方法和装置
CN111723225A (zh) * 2020-05-09 2020-09-29 江苏丰华联合科技有限公司 一种图像数据标注方法
CN113159123A (zh) * 2021-03-17 2021-07-23 开易(北京)科技有限公司 一种数据标注方法、标注员考核方法及标注结果审核方法
WO2022205585A1 (zh) * 2021-03-30 2022-10-06 苏州大学 一种数据标注的方法、系统、设备及可读存储介质
CN113191120A (zh) * 2021-06-02 2021-07-30 云知声智能科技股份有限公司 一种智能标注平台的方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN110991486B (zh) 多人协作图像标注质量控制的方法和装置
CN106447475A (zh) 一种自动批量对账方法及系统
CN106649500A (zh) 数据核对方法及系统
CN101453358B (zh) 一种oracle数据库绑定变量的sql语句审计方法及系统
CN107533777B (zh) 在便携设备中实施的电子投票方法和系统
CN110378273B (zh) 一种监测作业流程的方法和装置
CN115409395B (zh) 一种水利施工工程的质量验收检查方法及系统
CN101561806B (zh) Db2数据库操作的信息提取和审计方法及其装置、系统
CN115357906A (zh) 面向网络安全等级保护2.0的智能辅助测评方法及系统
CN113535689A (zh) 一种用于数字疗法的数据库建立管理系统
CN114566159A (zh) 一种基于校核操作的电气票流转方法及装置
CN110852714A (zh) 应用于装修业务平台的薪酬提成数据管理系统
CN115618810A (zh) 一种提升数据标注准确率的方法及装置
CN114219507A (zh) 中药供应商的资质审核方法、装置、电子设备及存储介质
CN112541713A (zh) 基于指标体系的政务公开自动评估的方法
CN115908062A (zh) 一种知识产权全周期管理系统
CN113963368A (zh) 业务数据的录入方法、装置、电子设备及存储介质
CN113888370A (zh) 一种人员信息采集和自动分配电子试卷的方法
CN114841663A (zh) Gps设备安装质量的核验方法、装置、设备及存储介质
CN105701906B (zh) 一种基于指纹密码锁的自助设备安全管理方法
CN113837561A (zh) 四级审核全过程管控现金流的方法
CN112766871A (zh) 一种资金发放系统
CN116433401B (zh) 基于业财融合下多维信息结构的审计模型构建方法
CN114153981A (zh) 基于知识图谱的资源字段有效性检验方法、介质及设备
CN115952234A (zh) 隔离系统之间的信息同步方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230117

RJ01 Rejection of invention patent application after publication