CN113407980B - 数据标注系统 - Google Patents

数据标注系统 Download PDF

Info

Publication number
CN113407980B
CN113407980B CN202110950087.9A CN202110950087A CN113407980B CN 113407980 B CN113407980 B CN 113407980B CN 202110950087 A CN202110950087 A CN 202110950087A CN 113407980 B CN113407980 B CN 113407980B
Authority
CN
China
Prior art keywords
data
account
module
annotation
management module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110950087.9A
Other languages
English (en)
Other versions
CN113407980A (zh
Inventor
许震洲
熊海飞
黄雪峰
李飞
于洋
陈彪
钱程浩
潘绍华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xinrun Fulian Digital Technology Co Ltd
Original Assignee
Shenzhen Xinrun Fulian Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xinrun Fulian Digital Technology Co Ltd filed Critical Shenzhen Xinrun Fulian Digital Technology Co Ltd
Priority to CN202110950087.9A priority Critical patent/CN113407980B/zh
Publication of CN113407980A publication Critical patent/CN113407980A/zh
Application granted granted Critical
Publication of CN113407980B publication Critical patent/CN113407980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/604Tools and structures for managing or administering access control systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2141Access rights, e.g. capability lists, access control lists, access tables, access matrices

Abstract

本发明公开了一种数据标注系统。其中,数据标注系统包括数据管理模块,用于导入原始图像数据,并将原始图像数据分配给至少一个具有数据预处理权限的账户,保存数据预处理后的图像数据;其中,所述数据预处理包括图像的剪裁、图像的归类和图像的过滤;标注管理模块,用于将数据预处理后的图像数据分配给至少一个具有数据标注权限的账户,保存数据标注后的图像数据;统计分析模块,用于对账户的处理进度进行统计,并提供统计结果。本发明提供的数据标注系统易于安装部署,方便用户简便快捷地标注数据,能进行统一的数据管理,还能提供统计服务,输出结果可直接用于模型训练过程。

Description

数据标注系统
技术领域
本发明涉及数据标注技术领域,尤其涉及一种数据标注系统。
背景技术
近年来,随着人工智能神经网络算法的快速发展,计算机视觉技术的相关应用也得到了的很大的推动。例如汽车自动驾驶、人脸识别、图像分类、目标检测等,特别是人脸识别和目标检测等技术已经得到广泛的应用。当前计算机视觉是深度学习领域最热门的研究领域之一,深度学习领域中神经网络模型的训练需要大量的标注数据,一个计算机视觉的典型应用场景的开发支持需要上万甚至数十万张不等的经过标注的图片数据,随着计算机视觉在不同领域和场景下的广泛应用,高质量的标注数据有着长期的海量的需求。此外,标注数据的质量往往直接决定了模型最终的性能,因此获取高质量的标注数据是深度学习领域中极其重要的一环。但现有技术中,高效率的获取大量高质量的标注数据对深度学习模型的落地和AI项目的推进是十分重要的,尚存在较大的改进空间。
发明内容
为解决标注数据的获取效率较低、质量较差的技术问题,本发明实施例提供一种数据标注系统。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种数据标注系统,数据标注系统包括:
数据管理模块,用于导入原始图像数据,并将原始图像数据分配给至少一个具有数据预处理权限的账户,保存数据预处理后的图像数据;其中,所述数据预处理包括图像的剪裁、图像的归类和图像的过滤;
标注管理模块,与所述数据管理模块连接,用于将数据预处理后的图像数据分配给至少一个具有数据标注权限的账户,保存数据标注后的图像数据;
统计分析模块,与所述数据管理模块和所述标注管理模块连接,用于对账户的处理进度进行统计,并提供统计结果。
上述方案中,所述数据管理模块还用于根据每个具有数据预处理权限的账户的第一分配权重为每个具有数据预处理权限的账户分配原始图像数据。
上述方案中,所述标注管理模块还用于根据每个具有数据标注权限的账户的第二分配权重为每个具有数据标注权限的账户分配数据预处理后的图像数据。
上述方案中,所述数据标注系统还包括账户管理模块,与所述数据管理模块和所述标注管理模块连接;
所述账户管理模块,用于执行账户注册、账户注销、账户权限认证和账户权限变更的操作。
上述方案中,所述账户管理模块,还用于将账户划分为不同的账户类型;其中,所述账户类型包括处理员、审核员、管理员;所述账户类型为处理员的账户具有执行数据标注的权限或执行数据预处理的权限;所述账户类型为审核员的账户具有执行数据审核的权限;所述账户类型为管理员的账户具有执行数据管理的权限。
上述方案中,所述数据标注系统还包括前端模块,与所述数据管理模块、所述标注管理模块和所述统计分析模块连接;
所述前端模块,用于提供交互界面;其中,所述前端模块是通过第一框架进行开发的,除所述前端模块之外的其他模块是通过第二框架进行开发的;通过所述第二框架开发的其他模块通过API接口为所述前端模块提供服务。
上述方案中,所述数据标注系统还包括中间件模块,与所述数据管理模块、所述标注管理模块和所述统计分析模块连接;
所述中间件模块,用于缓存通信数据和执行通信数据的分布式通信。
上述方案中,所述中间件模块包括第一中间件模块、第二中间件模块和第三中间件模块;
所述第一中间件模块,用于缓存待处理数据,建立待处理任务队列,执行各个模块间待处理数据的通信;
所述第二中间件模块,用于在各个模块内执行待处理数据的通信;
所述第三中间件模块,用于记录系统运行期间所产生的运行日志。
上述方案中,所述数据标注系统还包括数据库模块,与所述数据管理模块、所述标注管理模块和所述统计分析模块连接;
所述数据库模块,用于进行数据存储。
上述方案中,所述数据库模块包括第一数据库模块和第二数据库模块;
所述第一数据库模块,用于存储结构化数据;所述结构化数据包括账户信息、图像数据;
所述第二数据库模块,用于存储非结构化数据。
本发明实施例提供的数据标注系统,数据标注系统包括数据管理模块,用于导入原始图像数据,并将原始图像数据分配给至少一个具有数据预处理权限的账户,保存数据预处理后的图像数据;其中,所述数据预处理包括图像的剪裁、图像的归类和图像的过滤;标注管理模块,用于将数据预处理后的图像数据分配给至少一个具有数据标注权限的账户,保存数据标注后的图像数据;统计分析模块,用于对账户的处理进度进行统计,并提供统计结果。本发明提供的数据标注系统易于安装部署,方便用户简便快捷地标注数据,能进行统一的数据管理,还能提供统计服务,输出结果可直接用于模型训练过程。
附图说明
图1为本发明实施例数据标注系统的结构示意图;
图2为本发明应用实施例系统架构示意图;
图3为本发明应用实施例系统任务分配流程示意图;
图4为本发明实施例计算机设备的内部结构图。
具体实施方式
下面将结合附图及实施例对本发明作进一步详细的描述。
计算机视觉深度学习当中最常见的标注任务为图像数据标注,目前企业中标注数据工作主要有三种方式完成,分别是:企业内部自建的数据标注团队、与外包公司合作以及数据众包平台。
目前,企业当中用于数据标注工作的技术方案主要有以下两种:
一种是以Labelme为代表的提供图形界面的数据标注软件,能够对图像进行多边形,矩形,圆形,多线段,线段,点形式的标注,能够满足绝大多数的用于计算机视觉场景的图像数据标注任务,可用于目标检测,图像分割等任务。在进行数据标注时,管理员首先把处理好的原始图像数据分发传递给每个标注员的本地磁盘上,标注员在自己电脑的本地磁盘当中打开Labelme并使用其进行数据标注,将标注好的数据发给审核员进行质量复核。
另一种是以百度智能云为代表的一体化数据服务平台,提供了数据采集、数据标注服务。在使用时,在平台上申请相应的服务,提出需求,最终由平台进行数据交付。
但上述两种方式并不能满足用户需求,存在以下缺陷:
(1)安装部署麻烦
以Labelme的安装为例,由于Labelme是基于python开发的,因此在使用Labelme进行数据标注工作时,需要安装配置python环境和相关库,通常的解决方案是配置Anaconda环境,在此基础上使用pip库来下载安装labelme。此外也可以使用pyinstaller将labelme打包成独立的可执行文件,但仍存在打包文件体积过大的问题。Labelme的安装部署和环境配置对于普通标注人员来说过于麻烦,不便捷,且若是需要多人进行标注工作时,每个标注员的电脑都需要进行一次安装部署,若配置环境或相关库的版本不一致,还可能出现数据兼容性问题。
(2)团队协同工作中的沟通效率、执行成本和执行效率方面表现不尽人意
在企业中通常是通过组建一个内部标注团队来进行数据标注工作的,而Labelme类的数据标注工具只支持读取和操作本地磁盘文件,因此在团队协同进行数据标注工作时,管理员需要先手工地进行任务量的评估和分配,然后将数据通过网络或者U盘等存储介质分发至每个标注员的电脑的本次磁盘当中,标注员标注后再将标注后的数据传递给质量审核人员,审核人员将合格的数据再发还给管理员,这一过程中的数据传递成本较高,数据在多端传递途中容易带来数据丢失等数据管理上的问题,此外还会造成在多个电脑端中存储同一份数据的数据冗余。
(3)缺少可视化的数据报表
在一个团队进行协同数据标注任务的时候,管理员需要对任务进行分发、跟踪每个标注员的任务的完成进度,在一个标注项目结束后还需要对整个项目进行汇总、统计和评估项目难度,给每个标注员进行绩效评定,同时还要结合模型训练效果对标注工作进行反馈。在传统工具类软件中不提供这些可视化的统计分析功能,通常是管理员进行手动通过Excel等工具进行汇总计算,不够直观,且容易出错,效率不高。
(4)人工手动任务分配可能存在不合理以及效率低
在一个项目的起始阶段,传统流程中需要管理员手动地进行任务划分和分配。且分配好后,任务量的分配是固定的,若某个标注员由于一些原因标注效率较低,由于短板效应,会使得整个项目的进度受到拖累。
(5)数据泄露风险
在一些对数据安全较为敏感的数据标注任务的场景中,若是将部分任务交给外包公司或百度智能云类的数据服务平台,则会出现一定的数据泄露风险。在使用Labelme类的传统工具类软件,由于数据需要通过U盘等存储介质在不同电脑之间来传递数据,因此也存在一定的数据丢失风险。
(6)没有提供用于模型训练的数据接口
在完成数据标注任务后,传统的数据标注类软件或平台在所提供的标注数据在模型的训练时往往需要进行格式转换,转换成可直接用于模型训练的数据格式(例如张量),传统的数据标注类软件或平台提供的标注数据并不能直接用于模型的训练。
基于此,本申请提出一种易于安装部署,标注数据简便快捷,能够进行统一的数据管理,自适应任务分配,提供可视化的实时进度追踪、项目汇总统计、自动绩效评定、提供可直接用于模型训练、用于计算机视觉工业应用场景的分布式多人协作数据标注系统。
具体地,本发明实施例提供了一种数据标注系统,如图1所示,该数据标注系统100包括:
数据管理模块101,用于导入原始图像数据,并将原始图像数据分配给至少一个具有数据预处理权限的账户,保存数据预处理后的图像数据;其中,所述数据预处理包括图像的剪裁、图像的归类和图像的过滤;
标注管理模块102,用于将数据预处理后的图像数据分配给至少一个具有数据标注权限的账户,保存数据标注后的图像数据;
统计分析模块103,用于对账户的处理进度进行统计,并提供统计结果。
实际应用时,数据管理模块101、标注管理模块102和统计分析模块103可由数据标注系统中的处理器实现。
具体地,该数据标注系统100可提供用于外部连接的数据接口,通过该数据接口可从外部模块或外部客户端中导入原始图像数据。
进一步地,在一实施例中,所述数据标注系统100还包括账户管理模块;
所述账户管理模块,用于执行账户注册、账户注销、账户权限认证和账户权限变更的操作。
此外,在一实施例中,所述账户管理模块,还用于将账户划分为不同的账户类型;其中,所述账户类型包括处理员、审核员、管理员;所述账户类型为处理员的账户具有执行数据标注的权限或执行数据预处理的权限;所述账户类型为审核员的账户具有执行数据审核的权限;所述账户类型为管理员的账户具有执行数据管理的权限。
具体地,针对不同的账户类型,所述数据管理模块101还可以用于执行如下操作:将原始图像数据分配给账户类型为处理员的账户,在所述账户执行完数据预处理操作后,将数据预处理后的图像数据分配给账户类型为审核员的账户进行审核,在所述账户类型为审核员的账户审核通过后,保存所述数据预处理后的图像数据。其中,账户类型为管理员的账户对上述过程进行监管。
相应地,标注管理模块102可以用于执行如下操作:将数据预处理后的图像数据分配给账户类型为处理员的账户,在所述账户执行完数据标注操作后,将数据标注后的图像数据分配给账户类型为审核员的账户进行审核,在所述账户类型为审核员的账户审核通过后,保存所述数据标注后的图像数据。其中,账户类型为管理员的账户对上述过程进行监管。
进一步地,在一实施例中,所述数据管理模块101还用于根据每个具有数据预处理权限的账户的第一分配权重为每个具有数据预处理权限的账户分配原始图像数据。
相应地,在一实施例中,所述标注管理模块102还用于根据每个具有数据标注权限的账户的第二分配权重为每个具有数据标注权限的账户分配数据预处理后的图像数据。
这里,第一分配权重和第二分配权重可以为系统预设的,也可以是人工进行设定的,并且在特定场合下,可以对设定好的第一分配权重和第二分配权重进行修改,已完成分配任务。
此外,在进行分配时,可以采用自适应任务分配方式。具体地:
对每一个需要进行任务的账户设置一个分配权重值,所有账户的分配权重值的总和为1。根据每个账户设置的分配权重值来进行任务的分配。例如,5个账户(p1,p2,p3,p4,p5),分别对应的分配权重为0.5,0.3,0.1,0.05,0.05。则分配任务时,该任务有50%的概率分配给p1,30%的概率分配给p2,10%的概率分配给p3,5%的概率分配给p4和p5。
进一步地,给每一个需要进行任务的账户设置的分配权重值可以根据该账户以往的处理进度进行调整。
具体地,可先获取每个账户近一段时间内的平均日任务完成量,记为Ew,最近一天的日任务完成量为W,则Ew可通过如下公式(1)进行计算:
Figure 208096DEST_PATH_IMAGE001
公式(1)
其中,Ew表示每个账户近一段时间内的平均日任务完成量,Ew’表示前一个工作日的每个账户近一段时间内的平均日任务完成量,W表示最近一天的日任务完成量,
Figure 187553DEST_PATH_IMAGE002
表示参数,取值为0.3。
这里,当某个账户的Ew值为0时,表示该账户是新创建的账户,没有历史数据,则该账户的初始值赋为所有具有历史数据账户的Ew的平均值。
具体地,根据所获得的每个账户的Ew值计算每个账户的分配概率权重,计算公式如下:
Figure 967290DEST_PATH_IMAGE003
公式(2)
其中,Wi表示每个账户的分配概率权重,Ewi表示第i个账户近一段时间内的平均日任务完成量,n表示所有账户的数量。
这里,若平均Ew值为0,则所有账户的Ew值都为0,则表示系统为初始化状态,没有任何历史数据,则赋予每个账户等同的任务权重,每个账户的分配权重为
Figure 362499DEST_PATH_IMAGE004
(n为标注账户的总数量)。
进一步地,为完成数据的标注任务,以使得图像数据能被展示,从而被进行标注,在一实施例中,所述数据标注系统还包括前端模块;
所述前端模块,用于提供交互界面;其中,所述前端模块是通过第一框架进行开发的,除所述前端模块之外的其他模块是通过第二框架进行开发的;通过所述第二框架开发的其他模块通过API接口为所述前端模块提供服务。
这里,前端模块可以为能进行人机交互的UI界面,在该界面中输入对应的访问地址,可执行本系统的相关功能操作。
具体地,该第一框架可以为Vue前端框架下的ElementUI,第二框架可以为采用Python中的fastapi框架。第一框架和第二框架为两个不同的框架,从而实现前后端分离的效果。这里的API接口可以为符合restful规范的API接口。
实际应用时,用户可以先在该前端模块中进行用户认证。这里,若无账户需要先进行账户注册,注册时由管理员确定账户的使用权限。登录时,前端模块将输入的用户信息发送给后端的登录接口,由后端的账户管理模块进行验证,验证通过后返回一个token值,表示登陆成功,并且在前端的任何请求都需要携带token信息,在使用了没有对应权限的接口时则返回错误。登陆成功后,则进入到该前端模块的主界面,具有不同权限的用户的主界面可操作功能是不同的,例如管理员具有最高权限,可以查看所有的账号信息,而标注员则不能,只能对分配到该前端模块的任务进行标注,审核员则不具有标注功能界面。
进一步地,在一实施例中,所述数据标注系统还包括中间件模块;
所述中间件模块,用于缓存通信数据和执行通信数据的分布式通信。
具体地,在一实施例中,所述中间件模块可包括第一中间件模块、第二中间件模块和第三中间件模块;
所述第一中间件模块,用于缓存待处理数据,建立待处理任务队列,执行各个模块间待处理数据的通信;
所述第二中间件模块,用于在各个模块内执行待处理数据的通信;
所述第三中间件模块,用于记录系统运行期间所产生的运行日志。
这里,第一中间件模块可为Redis,第二中间件模块可为ZeroMQ,第三中间件模块可为kafka。
另外,在一实施例中,所述数据标注系统还包括数据库模块;
所述数据库模块,用于进行数据存储。
具体地,在一实施例中,所述数据库模块包括第一数据库模块和第二数据库模块;
所述第一数据库模块,用于存储结构化数据;所述结构化数据包括账户信息、图像数据;
所述第二数据库模块,用于存储非结构化数据。
这里,第一数据库模块可为MySQL,第二数据库模块可为MongoDB。
本发明实施例提供的数据标注系统,数据标注系统包括数据管理模块,用于导入原始图像数据,并将原始图像数据分配给至少一个具有数据预处理权限的账户,保存数据预处理后的图像数据;其中,所述数据预处理包括图像的剪裁、图像的归类和图像的过滤;标注管理模块,用于将数据预处理后的图像数据分配给至少一个具有数据标注权限的账户,保存数据标注后的图像数据;统计分析模块,用于对账户的处理进度进行统计,并提供统计结果。本发明提供的数据标注系统易于安装部署,方便用户简便快捷地标注数据,能进行统一的数据管理,还能提供统计服务,输出结果可直接用于模型训练过程。
下面结合应用实施例对本发明再作进一步详细的描述。
具体地,本实施例提供一种易于安装部署,标注数据简便快捷,能够进行统一的数据管理,自适应任务分配,提供可视化的实时进度追踪、项目汇总统计、自动绩效评定、提供可直接用于模型训练、用于计算机视觉工业应用场景的分布式多人协作数据标注系统。
如图2所示,本实施例采用前后端分离的架构,一共四层包括前端(可理解为上述的前端模块)、服务层(包括上述的数据管理模块、标注管理模块、统计分析模块和账户管理模块)、中间件层(可理解为上述的中间件模块)以及数据层(可理解为上述的数据库模块)。这里,服务层、中间件层和数据层为后端。其中,前端采用web作为人机交互的UI界面,主要使用Vue前端框架下的ElementUI进行开发,后端的服务层采用Python中的fastapi框架向前端的表示层提供符合restful规范的api接口,中间件层主要负责缓存和分布式通信,数据层主要负责统一的数据管理和数据存储。
前端的表示层主要提供UI界面,负责和用户的人机交互。在使用本发明的数据标注管理系统时,需在浏览器输入对应的地址访问界面。在进行标注或其他系统功能之前,用户首先需要在登录界面进行用户认证,若无账户需要先进行账户注册,注册时由管理员确定账户的使用权限。登录时,前端将输入的用户信息发送给后端的登录接口,由后端进行验证,验证通过后返回一个token值,表示登陆成功,并且在前端的任何请求都需要携带token信息,在使用了没有对应权限的接口时则返回错误。登陆成功后,则进入到主界面,具有不同权限的用户的主界面可操作功能是不同的,例如管理员具有最高权限,可以查看所有的账号信息,而标注员则不能,只能对分配到前端的任务进行标注,审核员则不具有标注功能界面。
服务层提供的功能接口主要涵盖了四大模块,分别是账户管理(可理解为上述的账户管理模块)、数据管理(可理解为上述的数据管理模块)、标注管理(可理解为上述的标注管理模块)、以及统计分析(可理解为上述的统计分析模块)。账户管理模块提供账户注册、账户注销、权限认证、以及权限变更。主要用于进行权限管理,将不同权限的账户隔离开,保证标注流程中的每个角色具有专一的职责属性。例如,标注员只负责数据的标注、不能够修改数据、对数据进行删除等操作;审核员只负责进行数据复核,对数据进行质量检测;管理员则负责全局的管理。权限管理使得不同角色的职责分隔开,互不干扰。数据管理模块主要提供了数据导入、数据预处理(图像剪裁,筛选分类、无效数据过滤)、质量复核。对于多个前端界面终端,在接口层面提供了数据的统一传输、存储和管理。标注管理在接口层面主要提供了任务分配、图像标注的存储、标注数据的复核、以及标注反馈功能。其中任务分配默认采用自适应权重分配方法,根据对每个标注人员工作效率的追踪来进行不同权重的自适应任务分配,同时保留人工设定分配比重的功能接口,在特定场合下由管理员进行人工干预分配。统计分析模块主要提供了统计汇总的功能接口,可查询并返回统计数据,用于在前端进行可视化的数据报表展示。
中间件层的技术栈可由Redis、ZeroMQ以及kafka构成。Redis主要用来做数据缓存以及建立待标注任务队列,和使用发布-订阅模式用来对多个标注员的界面端进行任务的发布。ZeroMQ主要用于在不同服务进程中的数据通信,kafka用于作为整个系统的日志收集中心,记录系统运行期间所产的运行日志,以便于系统的维护。
数据层主要使用了MySQL和MongoDB这两种数据库用来进行数据存储。MySQL用来存取账户信息等关系型数据,MongoDB用于存储非结构的化的数据以保证数据吞吐量和相关功能涉及的数据查询的性能。
另外,基于上述系统架构,数据标注项目在系统中的运行流程中,一个数据标注项目在系统的运行流程主要包含了三大模块,分别是数据管理、标注管理以及统计分析。
当一个数据标注项目开始时,首先由管理员将采集到的原始图像数据由系统提供的接口导入并存储至数据库,原始图像数据入库口进入数据预处理队列,由具有对应权限的人员在对应的界面进行数据预处理操作,其中包括图像的剪裁、归类以及过滤,处理完毕后,进行提交,由数据复核人员对与处理后的数据进行审核。若不合格,则返回对应数据给相应的数据处理人员重进进行数据预处理,并反馈不合格原因;若合格,则将预处理后的数据写入数据层中的未标记数据库,并同步写入待标注任务队列。下一步进入到标注管理流程。
在标注任务被写入待标注任务队列后,若采用默认分配,则后端将队列里的每个任务按照自适应任务分配方法推送到的分配的标注员的前端页面,由标注员进行标注,任务队列里的任务是由具有标注权限的多个账号共同完成的。在标注员完成一个任务的标注后,点击提交按钮,前端页面将该任务以及对应的账号信息一同发送至后端服务层,由服务层写入标注队列当中,标注复核员从标注队列中一个一个将已标注任务取出并进行质量复核,若审核不同过,则将标注任务发回对其标注的标注员,并反馈不同过的原因,若审核通过,则将标注任务进行格式转换并写入训练数据集中,算法研究员可直接调用数据接口获取转换后的标记数据进行模型训练,并将训练结果反馈给管理员。
在一个项目结束后,统计分析模块将汇总统计该项目的运行期间所产生的各种数据,统计每个标注员的工作效率,标注员的平均工作效率的时间分布,标注的合格率、漏检率,并计算每个工作人员的绩效,并将结果在前端界面以图表的形式进行可视化的展示,管理员可通过报表进行绩效评定、标注工作时间安排、标注总结等。
接下来,将详细说明本实施例中的自适应任务分配方法。
自适应任务分配方法的基本原理是赋予每个标注账户一个归一化的权重(所有权重的总和为1),并根据每个权重来进行概率化的分配。例如一个拥有5个标注人员的列表(p1,p2,p3,p4,p5), 对应的权重为(0.5,0.3,0.1,0.05,0.05),则对于一个发布的标注任务T,它有50%的概率分配给p1,30%的概率分配给p2,10%的概率分配给p3,5%的概率分配给p4和p5。
该方法所依据的指标是每个标注员的近7日指数移动平均日任务完成量,记为Ew,最近一天的日任务完成量为W,则Ew的计算公式为:
Figure 176872DEST_PATH_IMAGE001
公式(1)
其中,Ew表示每个账户近一段时间内的平均日任务完成量,Ew’表示前一个工作日的每个账户近一段时间内的平均日任务完成量,W表示最近一天的日任务完成量,
Figure 812384DEST_PATH_IMAGE002
表示参数,取值为0.3。
这里,若某个账户的Ew值为0,则表示该账户是新创建的账户,没有历史数据,则该账户的初始值赋为所有具有历史数据账户的Ew的平均值。
另外,根据所获得的每个账户的Ew值计算每个账户的分配概率权重,计算公式如下:
Figure 79417DEST_PATH_IMAGE003
公式(2)
其中,Wi表示每个账户的分配概率权重,Ewi表示第i个账户近一段时间内的平均日任务完成量,n表示所有账户的数量。
这里,若平均Ew值为0,则所有账户的Ew值都为0,则表示系统为初始化状态,没有任何历史数据,则赋予每个账户等同的任务权重,每个账户的分配权重为
Figure 278317DEST_PATH_IMAGE004
(n为标注账户的总数量)。
另外,参数图3,任务分配的具体流程为:
系统首先获取当前所有的标注人员账号列表,查询账户列表重每个账号的最近七日的日任务完成量,并依据公式(1)来计算每个账号当前的Ew值,若Ew值为0,则表示该账号无历史任务量数据,是新创建的账号,则计算有历史任务量数据的账号的平均Ew值作为新建账号的默认Ew值,若平均Ew值也为0,则表示所有账号都为新建账号,则赋予每个账号等同的权重w。若Ew值不为0,设置账号的Ew值,并依据公式(2)计算每个账号的任务分配权重w。最后根据每个账号的任务分配权重w,由概率算法来确定每个任务的分配账号。
本实施例的上述系统架构具有以下优点:
(1)对标注人员来说安装使用简便。
由于操作界面采用了Web端,因此对于标注员来说只需要安装一个浏览器,并在浏览器中输入一个IP地址就可以进行标注操作,省去了繁杂的环境配置和相关库的安装。
(2)大大提升了团队的协作能力,提升工作效率。
本发明的系统提供了统一的数据存储,数据接口,能够进行统一的数据管理,并提供了相应的可视化界面,数据以流水线的方式进行在不同流程间进行传递,不同人员通过系统界面进行交互,管理员通过可视化界面进行团队管理、项目管理,进度追踪等,提高的团队的协作能力和工作效率。
(3)自动化的任务分配,高效且合理。
根据每个标注员的工作效率进行自动化的任务分配,使得可以最高效的推动项目的进展,且由于是自动化分配,省去了人工计算的时间。
(4)统一的数据管理,数据安全性得到了保障,并减少了数据冗余和数据传输的丢失风险。
在后端提供了统一的数据接口、数据存储以及数据管理,因此在每个任务只需要在数据层存储一份,减少了数据冗余,数据通过统一接口在网络上进行传输,不需要使用U盘等介质进行传输,减少了在数据传递过程中的丢失风险。此外,在数据层采用数据进行数据存储,数据的安全性得到了一定程度的保障。
(5)提供了可视化的统计数据报表,方便管理员直观高效的进行统计汇总。
以图表的形式在前端界面进行可视化的展示,并且统计汇总过程是由后端自动进行计算的,相比通过Excel数据表格等传统方式提高了效率。
(6)提供模型所需的数据接口,可与模型训练无缝对接。
提供了接口,模型可直接调用进行训练。
(7)拓展能力强
由于后端采取数据库进行数据存储,当数据量大到单机无法存储时,可进行集群拓展,而获取数据的接口不变,这对前端的数据请求来说是透明了,系统的可拓展性强。
基于上述程序模块的硬件实现,本发明实施例还提供了一种电子设备(计算机设备)。具体地,在一个实施例中,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器A01、网络接口A02、显示屏A04、输入装置A05和存储器(图中未示出)。其中,该计算机设备的处理器A01用于提供计算和控制能力。该计算机设备的存储器包括内存储器A03和非易失性存储介质A06。该非易失性存储介质A06存储有操作系统B01和计算机程序B02。该内存储器A03为非易失性存储介质A06中的操作系统B01和计算机程序B02的运行提供环境。该计算机设备的网络接口A02用于与外部的终端通过网络连接通信。该计算机程序被处理器A01执行时以实现上述数据标注系统的功能。该计算机设备的显示屏A04可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置A05可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本发明实施例提供的设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现上述数据标注系统的功能。
本领域内的技术人员应明白,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
可以理解,本发明实施例的存储器可以是易失性存储器或者非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,ReadOnly Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,RandomAccess Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (7)

1.一种数据标注系统,其特征在于,所述数据标注系统包括前端部分和后端部分:
前端部分包括:前端模块,用于提供交互界面;其中,所述前端模块是通过第一框架进行开发的;所述交互界面包括浏览器;所述第一框架包括Vue前端框架下的ElementUI;
后端部分包括:数据管理模块,用于导入原始图像数据,并将原始图像数据分配给至少一个具有数据预处理权限的账户,保存数据预处理后的图像数据;其中,所述数据预处理包括图像的剪裁、图像的归类和图像的过滤;
所述数据管理模块还用于根据每个具有数据预处理权限的账户的第一分配权重为每个具有数据预处理权限的账户分配原始图像数据;
标注管理模块,与所述数据管理模块连接,用于将数据预处理后的图像数据分配给至少一个具有数据标注权限的账户,保存数据标注后的图像数据;
所述标注管理模块还用于根据每个具有数据标注权限的账户的第二分配权重为每个具有数据标注权限的账户分配数据预处理后的图像数据;
其中,根据账户以往的处理进度利用如下公式调整所述第一分配权重或所述第二分配权重:
Figure 908444DEST_PATH_IMAGE001
Figure 763267DEST_PATH_IMAGE002
其中,Wi表示每个账户的分配概率权重,Ewi表示第i个账户近一段时间内的平均日任务完成量,n表示所有账户的数量,Ew’表示前一个工作日的每个账户近一段时间内的平均日任务完成量,W表示最近一天的日任务完成量,
Figure 543004DEST_PATH_IMAGE003
表示参数,取值为0.3;
统计分析模块,与所述数据管理模块和所述标注管理模块连接,用于对账户的处理进度进行统计,并提供统计结果;其中,后端部分是通过第二框架进行开发的;所述第二框架包括采用Python中的fastapi框架;
其中,所述前端部分和所述后端部分通过API接口进行通信。
2.根据权利要求1所述的数据标注系统,其特征在于,所述数据标注系统的后端部分还包括账户管理模块,与所述数据管理模块和所述标注管理模块连接,用于执行账户注册、账户注销、账户权限认证和账户权限变更的操作。
3.根据权利要求2所述的数据标注系统,其特征在于,
所述账户管理模块,还用于将账户划分为不同的账户类型;其中,所述账户类型包括处理员、审核员、管理员;所述账户类型为处理员的账户具有执行数据标注的权限或执行数据预处理的权限;所述账户类型为审核员的账户具有执行数据审核的权限;所述账户类型为管理员的账户具有执行数据管理的权限。
4.根据权利要求1所述的数据标注系统,其特征在于,所述数据标注系统的后端部分还包括中间件模块,与所述数据管理模块、所述标注管理模块和所述统计分析模块连接;
所述中间件模块,用于缓存通信数据和执行通信数据的分布式通信。
5.根据权利要求4所述的数据标注系统,其特征在于,所述中间件模块包括第一中间件模块、第二中间件模块和第三中间件模块;
所述第一中间件模块,用于缓存待处理数据,建立待处理任务队列,执行各个模块间待处理数据的通信;
所述第二中间件模块,用于在各个模块内执行待处理数据的通信;
所述第三中间件模块,用于记录系统运行期间所产生的运行日志。
6.根据权利要求1所述的数据标注系统,其特征在于,所述数据标注系统的后端部分还包括数据库模块,与所述数据管理模块、所述标注管理模块和所述统计分析模块连接;
所述数据库模块,用于进行数据存储。
7.根据权利要求6所述的数据标注系统,其特征在于,所述数据库模块包括第一数据库模块和第二数据库模块;
所述第一数据库模块,用于存储结构化数据;所述结构化数据包括账户信息、图像数据;
所述第二数据库模块,用于存储非结构化数据。
CN202110950087.9A 2021-08-18 2021-08-18 数据标注系统 Active CN113407980B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110950087.9A CN113407980B (zh) 2021-08-18 2021-08-18 数据标注系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110950087.9A CN113407980B (zh) 2021-08-18 2021-08-18 数据标注系统

Publications (2)

Publication Number Publication Date
CN113407980A CN113407980A (zh) 2021-09-17
CN113407980B true CN113407980B (zh) 2022-02-15

Family

ID=77688646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110950087.9A Active CN113407980B (zh) 2021-08-18 2021-08-18 数据标注系统

Country Status (1)

Country Link
CN (1) CN113407980B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114580577B (zh) * 2022-05-05 2022-09-13 天津大学 一种面向多模态的交互式数据标注方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975980A (zh) * 2016-04-27 2016-09-28 百度在线网络技术(北京)有限公司 监控图像标注质量的方法和装置
CN108830466A (zh) * 2018-05-31 2018-11-16 长春博立电子科技有限公司 一种基于云平台的图像内容语义标注系统和方法
CN110717317A (zh) * 2019-09-12 2020-01-21 中国科学院自动化研究所 在线人工中文文本标注系统
CN112070224A (zh) * 2020-08-26 2020-12-11 成都品果科技有限公司 一种神经网络训练用样本的修订系统及方法
CN113128565A (zh) * 2021-03-25 2021-07-16 之江实验室 面向预训练标注数据不可知的图像自动标注系统和装置
CN113240126A (zh) * 2021-01-13 2021-08-10 深延科技(北京)有限公司 标注管理方法、装置、设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978894A (zh) * 2019-03-26 2019-07-05 成都迭迦科技有限公司 一种基于三维乳腺彩超的病变区域标注方法及系统
CN110490856B (zh) * 2019-05-06 2021-01-15 腾讯医疗健康(深圳)有限公司 医疗内窥镜图像的处理方法、系统、机器设备和介质
CN110443476A (zh) * 2019-07-23 2019-11-12 国家计算机网络与信息安全管理中心 基于知识标注评价的任务分配方法及系统
CN111507557A (zh) * 2019-12-09 2020-08-07 武汉空心科技有限公司 一种基于多角色的工作平台任务分配方法及系统
CN111723225A (zh) * 2020-05-09 2020-09-29 江苏丰华联合科技有限公司 一种图像数据标注方法
CN111695613B (zh) * 2020-05-28 2023-01-24 平安科技(深圳)有限公司 数据标注系统、计算机可读存储介质及电子设备
CN112381114A (zh) * 2020-10-20 2021-02-19 广东电网有限责任公司中山供电局 一种深度学习图像标注系统及方法
CN112579808B (zh) * 2020-12-29 2023-07-18 上海赛图默飞医疗科技有限公司 数据标注处理方法及装置、系统
CN113034025B (zh) * 2021-04-08 2023-12-01 成都国星宇航科技股份有限公司 一种遥感图像标注系统和方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975980A (zh) * 2016-04-27 2016-09-28 百度在线网络技术(北京)有限公司 监控图像标注质量的方法和装置
CN108830466A (zh) * 2018-05-31 2018-11-16 长春博立电子科技有限公司 一种基于云平台的图像内容语义标注系统和方法
CN110717317A (zh) * 2019-09-12 2020-01-21 中国科学院自动化研究所 在线人工中文文本标注系统
CN112070224A (zh) * 2020-08-26 2020-12-11 成都品果科技有限公司 一种神经网络训练用样本的修订系统及方法
CN113240126A (zh) * 2021-01-13 2021-08-10 深延科技(北京)有限公司 标注管理方法、装置、设备及存储介质
CN113128565A (zh) * 2021-03-25 2021-07-16 之江实验室 面向预训练标注数据不可知的图像自动标注系统和装置

Also Published As

Publication number Publication date
CN113407980A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
US11941017B2 (en) Event driven extract, transform, load (ETL) processing
DE102016105472B4 (de) Speicherebenenverteilung und parallele Zuordnung auf Blockebene bei Dateisystemen
US10346435B2 (en) System and method for improved performance in a multidimensional database environment
US9063992B2 (en) Column based data transfer in extract, transform and load (ETL) systems
US6606740B1 (en) Development framework for case and workflow systems
US10061788B2 (en) Transformation of document flow to contributors network
CN101405728B (zh) 具有动态加载能力的关系数据库架构
US20180004783A1 (en) Database object management for a shared pool of configurable computing resources
CN110489699A (zh) 一种异步数据采集方法及系统
CN110032594B (zh) 可定制化的多源数据库的数据抽取方法、装置及存储介质
US8892505B2 (en) Method for scheduling a task in a data warehouse
US9842221B2 (en) Role analyzer and optimizer in database systems
US20150052157A1 (en) Data transfer content selection
CN112801607A (zh) 一种管理服务平台及构建方法
US20220358142A1 (en) Execution-Time Dynamic Range Partitioning Transformations
US11372826B2 (en) Dynamic inclusion of custom columns into a logical model
CN113407980B (zh) 数据标注系统
CN111125284A (zh) 一种一体化时空大数据与地理信息公共服务云平台
CN107169126A (zh) 一种日志处理方法及相关设备
CN110019440B (zh) 数据的处理方法及装置
US20180349496A1 (en) Method for indexing of videodata for faceted classification
US10109019B2 (en) Accelerated disaggregation in accounting calculation via pinpoint queries
CN114372069A (zh) 数据处理方法及装置、存储介质及电子设备
CN112966024A (zh) 一种基于大数据的金融风控数据分析系统
US20160378285A1 (en) Automatic Detection of Semantics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant