CN112381526A - 一种基于自动校验的数据标注系统及方法 - Google Patents
一种基于自动校验的数据标注系统及方法 Download PDFInfo
- Publication number
- CN112381526A CN112381526A CN202011366171.8A CN202011366171A CN112381526A CN 112381526 A CN112381526 A CN 112381526A CN 202011366171 A CN202011366171 A CN 202011366171A CN 112381526 A CN112381526 A CN 112381526A
- Authority
- CN
- China
- Prior art keywords
- data
- marking
- labeling
- standard
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及一种基于自动校验的数据标注系统及方法。该方法的步骤为:S1、建立标准标注数据样例库;S2、发布待标注数据任务;S3、用户选取待标注数据,并进行标注处理;S4、响应用户标注动作,并保存用户标注结果;S5、判断同一份数据多人标注结果是否一致;利用大数原则,将人工定性转为机器定量控制,自动完成不一致标注结果校验及最终标注结果生成决策,保证标注数据质量的同时还提升了效率。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于自动校验的数据标注系统及方法。
背景技术
随着互联网技术和计算机科学技术的不断发展,人工智能愈演愈烈,其核心技术即为机器学习。在对机器学习模型进行训练之前,通常需要准备训练数据,对大量训练数据进行标注。
目前主要有两种标注方法。一种是基于文件的纯人工标注,这种标注方式效率低下;第二种是借助于简单的可视化标注系统,辅助人工进行标注。第二种方式相较于第一种方式虽然效率有一定的提升,但还是无法控制标注质量。并且,在进行数据标注时,若标注内容带有主观性或概念相对模糊的定性指标,则标注结果会由于标注人员的知识水平、认知能力和个人偏好等产生标注偏差,从而影响训练数据的质量。为了降低标注人员的主观性对数据标注的影响,往往在标注前期组织人员培训,该项措施成本较大,需消耗大量的人力、物力和财力,且无法完全保证数据标注的准确性。
针对存在的上述这类问题,通常在进行数据标注时,一般会多个标注人员通过标注系统对同一数据进行独立标注,当多个标注人员对于同一数据的标注结果存在差异时,需要通过特定的措施进行处理。其中的一种常见策略是,通过集体讨论或者人工选择的方法确定最佳的标注结果,由此可能会使标注工作停滞,降低标注效率,也不利于标注人员业务水平的提高;同时,也无法提高库存标注信息的准确率。而另一种策略是采用标注人数最多的结果,但在数量相同的情况下仍旧不能解决问题;而且由于标注任务业务水平差异,标注数据质量问题仍然存在。
发明内容
本发明的目的是为了解决上述问题,提供一种基于自动校验的数据标注系统及方法。该方法是一种基于质量控制的数据标注方法,通过该系统结合该方法针对上述存在的问题,具有相对的稳定性和可靠性,充分克服了现有标注方法对人工依赖程度高、效率低下、标注数据质量难以控制的问题。
为了达到上述发明目的,本发明采用以下技术方案:一种基于自动校验的数据标注系统,该标注系统包括:
任务管理模块,用于分批分类发布待标注数据,控制数据标注流程,包括任务新增、修改、发布等功能;
打标管理模块,用于用户对数据进行标注,包括数据标注、已标注数据查看、修改、删除等功能,且数据标注过程按所述标注方法进行;
审核管理模块,用于对机器分析识别的标注结果进行审核,包括标注结果确认、修改、作废等功能,且审核过程按所述标注方法进行;在该模块中,支持标准标注数据的标记,被标记为标准标注数据的数据将存入标准标注数据样例库中,不断补充和完善标准标注数据样例库;
标准标注数据样例库(Golden库)模块,是标注数据质量控制的关键模块之一,用于存储和统一管理所有的标准标注数据样例,供数据标注进行质量控制;提供新增、删除、修改等功能,并支持设置标准标注数据难易级别,发布任务是可设定混合指定难易级别的标准标注数据;
报表统计模块,用于对数据标注进行统计分析,从标注任务、数据源、标注用用、标签等维度统计算对应的标注数据数量、Golden正确率、机器识别正确率等指标;
考试管理模块,用于对用户进行数据标注训练考试,在数据标注过程中标准标注数据的正确率低于阈值的用户或新用户需要先进行考试,考试通过后才能进行数据标注;用于考试的试题样例从标准标注数据样例库中抽取;该模块提供考试任务发布、在线考试、查看结果等功能;
标签管理模块,用于对数据标注的使用的标签进行统一的维护管理,提供标签的增删改查功能,并支持用户自定义标签;
统一标签库模块,用于存储最终的数据标注结果,支持查看和修改标注功能,并提供接口供外围系统获取标注好的数据;
用户管理模块,用于对标注人员信息及权限进行统一的管理,提供用户信息增删改查以及角色权限绑定、解绑等功能;
任务管理模块、打标管理模块、审核管理模块、标准标注数据样例库模块、报表统计模块、考试管理模块、标签管理模块、统一标签库模块和用户管理模块基于通过基于基本需求及逻辑架构进行结合配置。
进一步的,基于以上系统的标注方法,具体步骤如下:
S1、建立标准标注数据样例库;
S2、发布待标注数据任务;
S3、用户选取待标注数据,并进行标注处理;
S4、响应用户标注动作,并保存用户标注结果;
S5、判断同一份数据多人标注结果是否一致;
若一致,则选取其中一人标注结果为最终标注结果,若不一致,再判断不一致的标注结果个数是否相同;
若不相同,则采用大数原则自动选取标注结果个数最大的作为最终标注结果,
若相同,将该数据样例分发给标准标注数据样例库中所储存的标注人员进行标注,最后确定最终的标注结果。
进一步的,步骤S1具体为:抽选业务水平较高的标注人员,选取标注样例进行标注,并将标注结果作为标准标注样例存入数据中,建立标准标注数据样例库;
优选的,步骤S2中,待标注数据按批次发布给用户进行标注。
进一步的,步骤S3具体为:用户选取待标注数据时,按用户所选待标注数据数量的一定比例从标准标注数据样例库中选取对应类别及数量的标准标注样例与待标注数据随机混合。
进一步的,标准标注样例与待标注数据随机混合时,与待标注数据随机混合的标准标注样例的比例为10-15%。
进一步的,还包括步骤S6:对用户标注所混合的标准标注样例进行对比处理,统计用户标注的标准标注样例总数和标准标注样例的正确率;当用户标注的标准标注样例总数和标准标注样例正确率低于设定的阈值时,禁止该用户进行数据标注操作。
进一步的,步骤S6中,在禁止该用户进行数据标注操作后,还将该用户标注的数据作废,同时存入待重审数据库中,之后可重新审核标注。
进一步的,步骤还包括:将最终的标注结果保存,并将其存入统一的标注样例数据库中,供模型使用。
进一步的,当在一份数据一人标注的情况下,步骤S5中,用户标注的数据即为最终标注结果。
本申请是一种基于自动校验的数据标注方法,通过建立标准标注数据样例库(具有标准标注结果的数据样例),在一份数据多人标注的基础上,待标注数据中混合标准标注数据样例,通过计算标注人员对标准标注数据样例标注的正确率,抽样量化该标注人员所标注数据质量,并结合设定的阈值,对质量差的标注数据丢弃或重审,以实现质量控制。
与现有技术相比,本发明具有以下有益效果。
1、本发明提供了基于质量控制机制,通过建立标准标注数据样例库,在数据标注时随机混合一定比例的标准标注样例,并计算标注人员的对标准标注样例标注的正确率,抽样量化该标注人员所标注数据质量,并结合设定的阈值进行控制,解决了由标注人员差异造成的标注数据质量问题,实现了一种针对定性指标进行稳定性、可靠性的标注方法,提升了标注效率与数据质量,降低成本。
2、采用一份数据多人标注的机制,针对标注结果不一致问题,利用大数原则,将人工定性转为机器定量控制,自动完成不一致标注结果校验及最终标注结果生成决策,保证标注数据质量的同时还提升了效率。
3、相较于传统的基于文件或简单标注系统辅助工具的数据标注方式,本发明提供了一套功能完善、在线可视化、所见即所得的标注系统,使得数据标注更加简单、高效。
附图说明
图1是本发明的流程图。
图2是本发明的标注系统物理部署架构示意图。
图3是本发明的标注系统逻辑架构示意图。
图4是本发明的标注系统进一步的逻辑架构示意图。
具体实施方式
下面通过具体实施例对本发明的技术方案作进一步描述说明。
如果无特殊说明,本发明的实施例中所采用的原料均为本领域常用的原料,实施例中所采用的方法,均为本领域的常规方法。
一种基于自动校验的数据标注系统,该标注系统包括:任务管理模块、打标管理模块、审核管理模块、报表统计模块、考试管理模块、标签管理模块、统一标签库模块、用户管理模块。
具体的各模块功能如下。
任务管理模块,用于分批分类发布待标注数据,控制数据标注流程,包括任务新增、修改、发布等功能;
打标管理模块,用于用户对数据进行标注,包括数据标注、已标注数据查看、修改、删除等功能,且数据标注过程按所述标注方法进行;
审核管理模块,用于对机器分析识别的标注结果进行审核,包括标注结果确认、修改、作废等功能,且审核过程按所述标注方法进行;在该模块中,支持标准标注数据的标记,被标记为标准标注数据的数据将存入标准标注数据样例库中,不断补充和完善标准标注数据样例库;
标准标注数据样例库模块,是标注数据质量控制的关键模块之一,用于存储和统一管理所有的标准标注数据样例,供数据标注进行质量控制;提供新增、删除、修改等功能,并支持设置标准标注数据难易级别,发布任务是可设定混合指定难易级别的标准标注数据;
报表统计模块,用于对数据标注进行统计分析,从标注任务、数据源、标注用用、标签等维度统计算对应的标注数据数量、Golden正确率、机器识别正确率等指标;
考试管理模块,用于对用户进行数据标注训练考试,在数据标注过程中标准标注数据的正确率低于阈值的用户或新用户需要先进行考试,考试通过后才能进行数据标注;用于考试的试题样例从标准标注数据样例库中抽取;该模块提供考试任务发布、在线考试、查看结果等功能;
标签管理模块,用于对数据标注的使用的标签进行统一的维护管理,提供标签的增删改查功能,并支持用户自定义标签;
统一标签库模块,用于存储最终的数据标注结果,支持查看和修改标注功能,并提供接口供外围系统获取标注好的数据;
用户管理模块,用于对标注人员信息及权限进行统一的管理,提供用户信息增删改查以及角色权限绑定、解绑等功能。
如图4所示,各模块的逻辑架构具体为:
任务管理模块与打标管理模块和审核管理模块分别相连;
打标管理模块和审核管理模块均与统一标签库模块相连;
在打标管理模块和审核管理模块之间分别通过标准标注数据样例库模块和标签管理模块相连;
用户管理模块与审核管理模块相连,同时,用户管理模块还与考试管理模块相连;
任务管理模块负责从数据源抽取数据生成打标和审图任务数据,然后打标管理和审核管理模块从任务管理模块读取待标注和待审核的任务数据进行标注和审核,同时会从Golden库(标准标注数据样例库)按一定比率读取标准用例数据进行随机混合,并从标签管理模块读取用来标注的标签数据;打标管理和审图管理模块标注和审核的数据,经过自动校验后输出的最终结果存入统一标签库中,供给模型训练使用。其中,用户管理和报表管理模块贯穿于整个流程,每个环节都需要用户参与,都会输出报表;而考试管理模块主要是用于对用户标注准确率进行验证,仅通过考试的用户才被允许参与到主流程中。
一种基于自动校验的数据标注方法,该方法具体步骤如下:
S1、建立标准标注数据样例库;
S2、发布待标注数据任务;
S3、用户选取待标注数据,并进行标注处理;
S4、响应用户标注动作,并保存用户标注结果;
S5、判断同一份数据多人标注结果是否一致;
若一致,则选取其中一人标注结果为最终标注结果,若不一致,再判断不一致的标注结果个数是否相同;
若不相同,则采用大数原则自动选取标注结果个数最大的作为最终标注结果,
若相同,将该数据样例分发给标准标注数据样例库中所储存的标注人员进行标注,最后确定最终的标注结果。
步骤S1具体为:抽选业务水平较高的标注人员,选取标注样例进行标注,并将标注结果作为标准标注样例存入数据中,建立标准标注数据样例库;
步骤S2中,待标注数据按批次发布给用户进行标注。
步骤S3具体为:用户选取待标注数据时,按用户所选待标注数据数量的一定比例从标准标注数据样例库中选取对应类别及数量的标准标注样例与待标注数据随机混合。标准标注样例与待标注数据随机混合时,与待标注数据随机混合的标准标注样例的比例为10-15%。
步骤S5中,当在一份数据一人标注的情况下,用户标注的数据即为最终标注结果。
还包括步骤S6:对用户标注所混合的标准标注样例进行对比处理,统计用户标注的标准标注样例总数和标准标注样例的正确率;当用户标注的标准标注样例总数和标准标注样例正确率低于设定的阈值时,禁止该用户进行数据标注操作。在禁止该用户进行数据标注操作后,还将该用户标注的数据作废,同时存入待重审数据库中,之后可重新审核标注。
步骤还包括:将最终的标注结果保存,并将其存入统一的标注样例数据库中,供模型使用。
实施例1:一种基于自动校验的数据标注方法,如图1所示,该方法具体步骤如下:
S1、建立标准标注数据样例库;
S2、发布待标注数据任务;
S3、用户选取待标注数据,并进行标注处理;
S4、响应用户标注动作,并保存用户标注结果;
S5、当数据为一人标注的情况下,用户标注的数据即为最终标注结果。当标注是多人时,判断同一份数据多人标注结果是否一致;
若一致,则选取其中一人标注结果为最终标注结果,若不一致,再判断不一致的标注结果个数是否相同;
若不相同,则采用大数原则自动选取标注结果个数最大的作为最终标注结果,
若相同,将该数据样例分发给标准标注数据样例库中所储存的标注人员进行标注,最后确定最终的标注结果。
实施例2:一种基于自动校验的数据标注方法,如图1所示,该方法具体步骤如下:
S1、建立标准标注数据样例库;抽选业务水平较高的标注人员,选取标注样例进行标注,并将标注结果作为标准标注样例存入数据中,建立标准标注数据样例库;
S2、发布待标注数据任务;待标注数据按批次发布给用户进行标注。
S3、用户选取待标注数据,并进行标注处理;用户选取待标注数据时,按用户所选待标注数据数量的一定比例从标准标注数据样例库中选取对应类别及数量的标准标注样例与待标注数据随机混合。标准标注样例与待标注数据随机混合时,与待标注数据随机混合的标准标注样例的比例为10-15%。
S4、响应用户标注动作,并保存用户标注结果。
S5、当在一份数据一人标注的情况下,用户标注的数据即为最终标注结果,多人标时,判断同一份数据多人标注结果是否一致;
若一致,则选取其中一人标注结果为最终标注结果,若不一致,再判断不一致的标注结果个数是否相同;
若不相同,则采用大数原则自动选取标注结果个数最大的作为最终标注结果,
若相同,将该数据样例分发给标准标注数据样例库中所储存的标注人员进行标注(分发给标准标注数据样例库中所储存的一名或多名标注正确率超过设定阈值的标注人员进行标注),最后确定最终的标注结果。
实施例3:在实施例2的基础上还包括步骤S6:对用户标注所混合的标准标注样例进行对比处理,统计用户标注的标准标注样例总数和标准标注样例的正确率;当用户标注的标准标注样例总数和标准标注样例正确率低于设定的阈值时,禁止该用户进行数据标注操作。在禁止该用户进行数据标注操作后,还将该用户标注的数据作废,同时存入待重审数据库中,之后可重新审核标注。
将最终的标注结果保存,并将其存入统一的标注样例数据库中,供模型使用。
实施例4:按照图2的物理部署架构图部署标注系统,
用户直接与交互设备交互,如PC机、移动设备等,这些交互设备与WebServer交互,
WebServer与Nginx连接,Nginx通过APPServer与DBServer连接;
其中:
WebServer:web服务器,部署前端页面应用;
APPServer:应用服务器,部署后端逻辑应用;
Nginx::代理服务器,用于转发WebServer的请求至APPServer;
DBServer:数据库服务器,用于提供数据存储服务;
需要说明的是,图中涉及的硬件设备数量、软件数量和版本没有具体限制,可根据实际需要进行配置部署。
导入100名标注人员、2业务专家用户信息到标注系统。
准备两份需要进行服装品类标注的图片数据各1000张,一份用于生成标准标注数据样例,一份用于用户标注。这里需要说明的是,标准标注数据样例数据不仅可用于质量控制,也可以供模型训练使用。
将用于生成标准标注数据样例的1000张图片数据导入系统,发布“服装品类”标准标注数据样例标注任务,由业务专家进行标注,建立标准标注数据样例库。
将另一份待标注的1000张图片数据导入系统,发布“服装品类”标注任务,设置相关参数,标准标注数据样例的混合比率:10%,数据分发次数:2(即1张图2人审核),标准标注数据样例标注正确率阈值:90%,标准标注数据样例数阈值:10(即当标准标注数据样例数达到10时,标准标注数据样例正确率阈值才生效)。
100名标注用户同时对发布的“服装品类”标注任务的图片进行标注。设定每个用户每次获取的待标注图片数不超过10张,用户获取待标注任图片时,系统实时随机混合当前获取图片数量10%的标准标注数据样例(即2张),这里需要说明的是,通过系统控制同一用户每次取到的图片都不一致,而且每张图片只能被2人标注 。
所有图片标注完成,系统再自动校验以便标注结果,将有效标注结果存入统一标签库 。
针对上述用户标注过程进行详细说明。
1)用户对当前获取的10张待标注的图片和2张标准标注数据样例进行标注,标注完成后提交标注数据至后台系统。
2)标注系统接收用户提交的标注数据,先保存到数据库中。然后对每一张图片及标注信息进行处理。
3)检查当前图片是否存在多人标注,若无,则将当前用标注的数据作为标注结果保存;若存在多人标注数据,再检查所有标注结果是否一致,若是,则任取其一作为最终标注结果保存(或更新),
若存在不一致标注结果,再检查不一致个数是否相同,
若不同,则取个数大的标注结果,若相同则需要增加一人标注。
这里举例说明,若A标注“大衣”,B标注“大衣”,则取“大衣”;若A标注“大衣”,B标注“夹克”,则自动分发给另一人标注。
4)检查当前标注任务下是否存在标准标注数据样例正确率超过90%的标注用户,若存在,则将当前存在结果不一致的图片分发给其中一个进行标注,若不存在,则直接分发给业务专家标注,最终以最后一人的标注结果为最终结果并保存(或更新)。
5)处理的图片若是标准标注数据样例,则将用户标注的信息与设定的标准进行对比,累计计算用户标注的标准标注数据样例总数和标准标注数据样例正确率并缓存;当用户标注的标准标注数据样例总数达到10且Golden正确率低于90%时,系统禁止该用户进行后续的数据标注操作,并在界面上弹出警告提示。
6)获取下一批待标注数据进行标注直至任务完成或退出标注界面。
在该过程中,用到一个标注系统,如图3所示。
所述标注系统包括:
任务管理模块,用于分批分类发布待标注数据,控制数据标注流程,包括任务新增、修改、发布等功能;
打标管理模块,用于用户对数据进行标注,包括数据标注、已标注数据查看、修改、删除等功能,且数据标注过程按所述标注方法进行;
审核管理模块,用于对机器分析识别的标注结果进行审核,包括标注结果确认、修改、作废等功能,且审核过程按所述标注方法进行;在该模块中,支持标准标注数据的标记,被标记为标准标注数据的数据将存入标准标注数据样例库中,不断补充和完善标准标注数据样例库;
标准标注数据样例库模块,是标注数据质量控制的关键模块之一,用于存储和统一管理所有的标准标注数据样例,供数据标注进行质量控制;提供新增、删除、修改等功能,并支持设置标准标注数据难易级别,发布任务是可设定混合指定难易级别的标准标注数据;
报表统计模块,用于对数据标注进行统计分析,从标注任务、数据源、标注用用、标签等维度统计算对应的标注数据数量、Golden正确率、机器识别正确率等指标;
考试管理模块,用于对用户进行数据标注训练考试,在数据标注过程中标准标注数据的正确率低于阈值的用户或新用户需要先进行考试,考试通过后才能进行数据标注;用于考试的试题样例从标准标注数据样例库中抽取;该模块提供考试任务发布、在线考试、查看结果等功能;
标签管理模块,用于对数据标注的使用的标签进行统一的维护管理,提供标签的增删改查功能,并支持用户自定义标签;
统一标签库模块,用于存储最终的数据标注结果,支持查看和修改标注功能,并提供接口供外围系统获取标注好的数据;
用户管理模块,用于对标注人员信息及权限进行统一的管理,提供用户信息增删改查以及角色权限绑定、解绑等功能;
任务管理模块、打标管理模块、审核管理模块、标准标注数据样例库模块、报表统计模块、考试管理模块、标签管理模块、统一标签库模块和用户管理模块基于基本需求进行结合配置。
如图4所示,各模块的逻辑架构具体为:
任务管理模块与打标管理模块和审核管理模块分别相连;
打标管理模块和审核管理模块均与统一标签库模块相连;
在打标管理模块和审核管理模块之间分别通过标准标注数据样例库模块和标签管理模块相连;
用户管理模块与审核管理模块相连,同时,用户管理模块还与考试管理模块相连;
任务管理模块负责从数据源抽取数据生成打标和审图任务数据,然后打标管理和审核管理模块从任务管理模块读取待标注和待审核的任务数据进行标注和审核,同时会从Golden库(标准标注数据样例库)按一定比率读取标准用例数据进行随机混合,并从标签管理模块读取用来标注的标签数据;打标管理和审图管理模块标注和审核的数据,经过自动校验后输出的最终结果存入统一标签库中,供给模型训练使用。其中,用户管理和报表管理模块贯穿于整个流程,每个环节都需要用户参与,都会输出报表;而考试管理模块主要是用于对用户标注准确率进行验证,仅通过考试的用户才被允许参与到主流程中。
上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种基于自动校验的数据标注系统,其特征在于,所述标注系统包括:
任务管理模块,用于分批分类发布待标注数据,控制数据标注流程,包括任务新增、修改、发布等功能;
打标管理模块,用于用户对数据进行标注,包括数据标注、已标注数据查看、修改、删除等功能,且数据标注过程按所述标注方法进行;
审核管理模块,用于对机器分析识别的标注结果进行审核,包括标注结果确认、修改、作废等功能,且审核过程按所述标注方法进行;在该模块中,支持标准标注数据的标记,被标记为标准标注数据的数据将存入标准标注数据样例库中,不断补充和完善标准标注数据样例库;
标准标注数据样例库模块,是标注数据质量控制的关键模块之一,用于存储和统一管理所有的标准标注数据样例,供数据标注进行质量控制;提供新增、删除、修改等功能,并支持设置标准标注数据难易级别,发布任务是可设定混合指定难易级别的标准标注数据;
报表统计模块,用于对数据标注进行统计分析,从标注任务、数据源、标注用用、标签等维度统计算对应的标注数据数量、Golden正确率、机器识别正确率等指标;
考试管理模块,用于对用户进行数据标注训练考试,在数据标注过程中标准标注数据的正确率低于阈值的用户或新用户需要先进行考试,考试通过后才能进行数据标注;用于考试的试题样例从标准标注数据样例库中抽取;该模块提供考试任务发布、在线考试、查看结果等功能;
标签管理模块,用于对数据标注的使用的标签进行统一的维护管理,提供标签的增删改查功能,并支持用户自定义标签;
统一标签库模块,用于存储最终的数据标注结果,支持查看和修改标注功能,并提供接口供外围系统获取标注好的数据;
用户管理模块,用于对标注人员信息及权限进行统一的管理,提供用户信息增删改查以及角色权限绑定、解绑等功能;
任务管理模块、打标管理模块、审核管理模块、标准标注数据样例库模块、报表统计模块、考试管理模块、标签管理模块、统一标签库模块和用户管理模块基于逻辑架构布置。
2.根据权利要求1所述的标注系统,其特征在于,该标注系统的标注方法具体步骤如下:
S1、建立标准标注数据样例库;
S2、发布待标注数据任务;
S3、用户选取待标注数据,并进行标注处理;
S4、响应用户标注动作,并保存用户标注结果;
S5、判断同一份数据多人标注结果是否一致;
若一致,则选取其中一人标注结果为最终标注结果,若不一致,再判断不一致的标注结果个数是否相同;
若不相同,则采用大数原则自动选取标注结果个数最大的作为最终标注结果,
若相同,将该数据样例分发给标准标注数据样例库中所储存的标注人员进行标注,最后确定最终的标注结果。
3.根据权利要求1所述的标注系统,其特征在于,步骤S1具体为:抽选具有标注业务水平的标注人员,选取标注样例进行标注,并将标注结果作为标准标注样例存入数据中,建立标准标注数据样例库。
4.根据权利要求1所述的标注系统,其特征在于,步骤S2中,待标注数据按批次发布给用户进行标注。
5.根据权利要求1所述的标注系统,其特征在于,步骤S3具体为:用户选取待标注数据时,按用户所选待标注数据数量的一定比例从标准标注数据样例库中选取对应类别及数量的标准标注样例与待标注数据随机混合。
6.根据权利要求5所述的标注系统,其特征在于,与待标注数据随机混合的标准标注样例的比例为10-15%。
7.根据权利要求5所述的标注系统,其特征在于,还包括步骤S6:对用户标注所混合的标准标注样例进行对比处理,统计用户标注的标准标注样例总数和标准标注样例的正确率;当用户标注的标准标注样例总数和标准标注样例正确率低于设定的阈值时,禁止该用户进行数据标注操作。
8.根据权利要求6所述的标注系统,其特征在于,步骤S6中,在禁止该用户进行数据标注操作后,还将该用户标注的数据作废,同时存入待重审数据库中,之后可重新审核标注。
9.根据权利要求1所述的标注系统,其特征在于,步骤还包括:将最终的标注结果保存,并将其存入统一的标注样例数据库中,供模型使用。
10.根据权利要求1所述的标注系统,其特征在于,当在一份数据一人标注的情况下,步骤S5中,用户标注的数据即为最终标注结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011366171.8A CN112381526A (zh) | 2020-11-29 | 2020-11-29 | 一种基于自动校验的数据标注系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011366171.8A CN112381526A (zh) | 2020-11-29 | 2020-11-29 | 一种基于自动校验的数据标注系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112381526A true CN112381526A (zh) | 2021-02-19 |
Family
ID=74587671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011366171.8A Withdrawn CN112381526A (zh) | 2020-11-29 | 2020-11-29 | 一种基于自动校验的数据标注系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112381526A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906349A (zh) * | 2021-03-30 | 2021-06-04 | 苏州大学 | 一种数据标注的方法、系统、设备及可读存储介质 |
-
2020
- 2020-11-29 CN CN202011366171.8A patent/CN112381526A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906349A (zh) * | 2021-03-30 | 2021-06-04 | 苏州大学 | 一种数据标注的方法、系统、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110991486B (zh) | 多人协作图像标注质量控制的方法和装置 | |
WO2019100577A1 (zh) | 自动化测试管理方法、装置、终端设备及存储介质 | |
CN107862447B (zh) | 一种检验检测智能实验室质量监督管理系统 | |
US11645191B2 (en) | Review process for evaluating changes to target code for a software-based product | |
WO2019100576A1 (zh) | 自动化测试管理方法、装置、终端设备及存储介质 | |
CN104750469B (zh) | 源代码统计分析方法和系统 | |
CN110399303B (zh) | 用于准备测试数据的方法、数据准备装置和电子设备 | |
CN109118411B (zh) | 基于智能辅助平台和移动终端的刑事执行检察系统和方法 | |
CN117391292A (zh) | 碳排放节能管理分析系统及方法 | |
CN113742227B (zh) | 一种软件测试过程的控制方法、装置、设备和介质 | |
CN112381526A (zh) | 一种基于自动校验的数据标注系统及方法 | |
CN114580914A (zh) | 一种职称申报评审方法 | |
CN115221380A (zh) | 一种城建档案的批量管理方法、系统和平台 | |
CN113176968B (zh) | 基于接口参数分类的安全测试方法、装置及存储介质 | |
CN110472922A (zh) | 一种基于智慧实验室安全检查的管理系统 | |
CN111767205A (zh) | 一种支持任务拆分的在线检测方法及系统 | |
CN110531718A (zh) | 一种石化工业生产线中设备的巡检方法及巡检系统 | |
CN113138917A (zh) | 一种性能测试平台 | |
CN111008086A (zh) | 一种基于消息队列的反欺诈策略优化方法 | |
CN112686540A (zh) | 一种基于信息需求的信息处理方法及装置 | |
CN113139780A (zh) | 一种办公自动化oa智能办公管理系统 | |
CN116701358B (zh) | 一种数据处理方法及系统 | |
CN109540467A (zh) | 基于工业互联网平台的光纤自动测试系统 | |
CN117132254A (zh) | 邮件数据核查方法及装置 | |
CN215642785U (zh) | 一种针对临床试验的电子稽查系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210219 |
|
WW01 | Invention patent application withdrawn after publication |