CN110991486B - 多人协作图像标注质量控制的方法和装置 - Google Patents
多人协作图像标注质量控制的方法和装置 Download PDFInfo
- Publication number
- CN110991486B CN110991486B CN201911082512.6A CN201911082512A CN110991486B CN 110991486 B CN110991486 B CN 110991486B CN 201911082512 A CN201911082512 A CN 201911082512A CN 110991486 B CN110991486 B CN 110991486B
- Authority
- CN
- China
- Prior art keywords
- labeling
- user
- image
- data
- quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 250
- 238000000034 method Methods 0.000 title claims abstract description 43
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims abstract description 62
- 238000012795 verification Methods 0.000 claims abstract description 25
- 238000012797 qualification Methods 0.000 claims description 26
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 10
- 230000002776 aggregation Effects 0.000 claims description 9
- 238000004220 aggregation Methods 0.000 claims description 9
- 238000003908 quality control method Methods 0.000 claims description 9
- 238000007689 inspection Methods 0.000 claims description 8
- 230000002452 interceptive effect Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000135 prohibitive effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/101—Collaborative creation, e.g. joint development of products or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多人协作图像标注质量控制的方法和装置,其中,方法包括:在标注包中按预设的比例投入金标准数据,以验证标注用户针对任一标注包的标注质量,通过验证的标注包数据暂定为合格,执行下一步骤,未通过的数据包将被重新打散,重新分配给用户进行标注;将一份图像分发给多位用户,收集多位用户对图像的标注结果,获取重复标签后,得到真实标签;以数据包或者用户为单位进行随机抽检,评价标注质量;将使用金标准推算的用户准确率反馈给用户,并将金标准中以及人工抽检出的错误数据及其对应的正确答案反馈给标注用户,以使标注用户接收再训练。该方法不仅可以保证标注质量,而且可以获取正确标注结果,简单易实现。
Description
技术领域
本发明涉及数据标注技术领域,特别涉及一种多人协作图像标注质量控制的方法和装置。
背景技术
近年来,随着卷积神经网络等深度学习网络的技术发展,使用深度学习对数字图像处理已成为计算机科学、工程学、医学,甚至社会科学等领域的重要研究对象。深度学习为图像目标检测等领域带来了精度的大幅提升。这主要依赖于越来越多的神经网络层数和大型的训练数据集。深度神经网络层数的提升能更多地提取图像中所包含的特征信息,从而提高识别精度。但详细特征信息的提取强烈依赖于大量的训练样本,少量的数据集很容易在网络层数过多时出现过拟合现象,从而影响识别精度。
获取大量的训练样本对绝大多数深度学习项目来说是件不可避免的事情,而大量训练数据的人工标注仅仅由研究人员完成成本极高且不现实。目前市面上出现了多家专业标注公司以及众包平台提供数据标注服务。但是这些标注人员工作能力参差不齐,往往缺乏相应的专业背景知识,同时,经济利益驱动下,有些标注者存在作弊行为,使得数据标注质量得不到保证,造成人力、时间等资源的浪费。所以标注质量的控制极其重要。
相关技术,(1)监控图像标注质量的方法和装置,方法包括:执行获取步骤获取单次任务的标注数据的准确率:向标注账户下发待标注图像,待标注图像包括预定比例的样本图像,获取对待标注图像的人工标注数据,人工标注数据包括样本图像的当前标注数据,获取当前标注数据相对于样本图像的标准标注数据准确的比值,响应于比值大于预定值,将待标注图像输入图片识别模型,得到自动标注数据,比对人工标注数据与自动标注数据,得到单次任务的标注数据的准确率;计算多次任务的标注数据的准确率与预设的平均标注准确率的方差;基于方差,确定向标注账户下发的样本图像数量和/或确定适于标注账户标注的图像类型。此举通过行针对性的标注数据分发提高标注质量,但不能解决标注人员主观差异导致的标注偏差,且通过图片识别模型得到的自动标注数据可靠性不能保证。
(2)一种基于多人协同图像标注的系统自动审核方法,由多人协同对同一张图像中的不同物体进行区域标注,并为标注得到的每个物体区域打上类别标签;根据标签对图像中所有物体区域进行分类;统计每一类别的物体区域个数,若存在某一类别的物体区域数量大于协同标注人数n,则对该类别的物体区域进行二次分类,将其中属于同一物体的物体区域单独归为一类,使得图像中一个物体即对应一个类别;对于任一类别,在图像中确定该类别所有物体区域的并集,根据物体区域的边框从该并集中遍历出由边框围成的所有子区域,并为各子区域及其各像素点赋予权重;对于该类别中的任一物体区域i,通过计算物体区域i内像素点权重的累加总和wi以及该类别所有物体区域并集内像素点权重的累加总和wtotal,从而得到物体区域i的评价指标Ai和Bi;设置一比例因子prop作为审核标准,进而根据比例因子prop以及评价指标Ai和Bi对于多人协同对该类别物体的整体标注行为质量进行审核评估。本发明提供了图像区域标注自动审核的一种解决方案,免除了专业人员审核步骤,对于开发人员来说自动审核提高了工作效率减少了工作量;但其未对标注人员初始质量进行控制,难以保证后续标注质量,在此基础下的标注审核便缺乏信度。
综上,训练样本标注质量直接影响着深度学习模型的效果,如何有效保证标注质量是目前亟待解决的技术问题,通过对上述现有技术实现方案的介绍,可以看到现有目前的图像标注质量控制往往仅对标注某一环节,如控制标注数量分发,优化审核,其标注质量控制的实现往往需要预设一部分前提,缺乏一套完备的流程与方案。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种多人协作图像标注质量控制的方法,该方法不仅可以保证标注质量,而且可以获取正确标注结果,简单易实现。
本发明的另一个目的在于提出一种多人协作图像标注质量控制的装置。
为达到上述目的,本发明一方面实施例提出了一种多人协作图像标注质量控制的方法,包括以下步骤:金标准验证步骤:在标注包中按预设的比例投入金标准数据,以验证标注用户针对任一标注包的标注质量,通过验证的标注包数据暂定为合格,执行下一步骤,未通过的数据包将被重新打散,重新分配给用户进行标注;多人拟合步骤:将一份图像分发给多位用户,收集所述多位用户对所述图像的标注结果,获取重复标签后,得到真实标签;人工抽检步骤:以数据包或者用户为单位进行随机抽检,评价标注质量;质量反馈步骤:将使用金标准推算的用户准确率反馈给用户,并将金标准中以及人工抽检出的错误数据及其对应的正确答案反馈给标注用户,以使标注用户接收再训练。
本发明实施例的多人协作图像标注质量控制的方法,通过多人协作、资格认证、金标准验证、人工抽检等环节以及完备的控制流程保证图像标注质量,并提高标注效率,从而不仅可以保证标注质量,而且可以获取正确标注结果,简单易实现。
另外,根据本发明上述实施例的多人协作图像标注质量控制的方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,在所述金标准验证之前,还包括:资格认证步骤:采用认证数据对标注人员的标注水平进行测试,通过测试的标注者通过资格认证,以参与实际标注过程。
进一步地,在本发明的一个实施例中,所述多人拟合步骤还包括:当同一份图像重新标注次数大于或等于预设次数时,将所述图像舍弃。
进一步地,在本发明的一个实施例中,其中,对于分类标签,对同一个标注图像收集奇数个标注结果,并通过多数投票原则获取所述真实标签;对于分割标注结果聚合,采集来自多个标注用户的同一个图像的多个标注结果,以获得不同类别分别对应的分割标注区域。
进一步地,在本发明的一个实施例中,所述质量反馈步骤还包括:将金标准中用户标注错误数据以及正确标注结果通过交互式界面呈现至所述用户。
为达到上述目的,本发明另一方面实施例提出了一种多人协作图像标注质量控制的装置,包括:金标准验证模块,用于在标注包中按预设的比例投入金标准数据,以验证标注用户针对任一标注包的标注质量,通过验证的标注包数据暂定为合格,执行下一步骤,未通过的数据包将被重新打散,重新分配给用户进行标注;多人拟合模块,用于将一份图像分发给多位用户,收集所述多位用户对所述图像的标注结果,获取重复标签后,得到真实标签;人工抽检模块,用于以数据包或者用户为单位进行随机抽检,评价标注质量;质量反馈模块,用于将使用金标准推算的用户准确率反馈给用户,并将金标准中以及人工抽检出的错误数据及其对应的正确答案反馈给标注用户,以使标注用户接收再训练。
本发明实施例的多人协作图像标注质量控制的装置,通过多人协作、资格认证、金标准验证、人工抽检等环节以及完备的控制流程保证图像标注质量,并提高标注效率,从而不仅可以保证标注质量,而且可以获取正确标注结果,简单易实现。
另外,根据本发明上述实施例的多人协作图像标注质量控制的装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,还包括:资格认证模块,用于在所述金标准验证之前,采用认证数据对标注人员的标注水平进行测试,通过测试的标注者通过资格认证,以参与实际标注过程。
进一步地,在本发明的一个实施例中,所述多人拟合模块进一步用于当同一份图像重新标注次数大于或等于预设次数时,将所述图像舍弃。
进一步地,在本发明的一个实施例中,其中,对于分类标签,对同一个标注图像收集奇数个标注结果,并通过多数投票原则获取所述真实标签;对于分割标注结果聚合,采集来自多个标注用户的同一个图像的多个标注结果,以获得不同类别分别对应的分割标注区域。
进一步地,在本发明的一个实施例中,所述质量反馈模块进一步用于将金标准中用户标注错误数据以及正确标注结果通过交互式界面呈现至所述用户。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的多人协作图像标注质量控制的方法的流程图;
图2为根据本发明一个实施例的多人协作图像标注质量控制的方法的流程图;
图3为根据本发明实施例的资格认证步骤流程图;
图4为根据本发明实施例的分割问题的正确率可用交并比评价示意图;
图5为根据本发明实施例的金标准验证步骤流程图;
图6为根据本发明实施例的多人协作图像标注质量控制的装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的多人协作图像标注质量控制的方法和装置,首先将参照附图描述根据本发明实施例提出的多人协作图像标注质量控制的方法。
图1是本发明一个实施例的多人协作图像标注质量控制的方法的流程图。
如图1所示,该多人协作图像标注质量控制的方法包括以下步骤:
在步骤S101中,金标准验证步骤:在标注包中按预设的比例投入金标准数据,以验证标注用户针对任一标注包的标注质量,通过验证的标注包数据暂定为合格,执行下一步骤,未通过的数据包将被重新打散,重新分配给用户进行标注。
可以理解的是,如图2所示,通过资格审查环节的用户后续标注中,预设m为t份样本中所含金标准数据量,通过分发系统随机选择m份金标准数据与未标注数据打包,然后将打包好的数据作为用户标注的基本单位。用户提交标注结果后,通过预设金标准推断用户标注数据包的准确率,判断数据包是否合格。
进一步地,在本发明的一个实施例中,如图2所示,在金标准验证步骤之前,还包括资格认证步骤:采用认证数据对标注人员的标注水平进行测试,通过测试的标注者通过资格认证,以参与实际标注过程。
可以理解的是,可以理解的是,在标注开始前对标注用户进行必要的资格认证,标注之前,向用户投放已有正确标注结果的认证包,将用户标注结果与正确标注结果进行比对,获取用户对n张具有正确标记结果的图像的标注正确率。
具体而言,(1)如图3所示,资格认证具体如下:
由于标注人员专业背景知识以及工作能力未知,如果直接标注,可能会产生大量的无用数据造成人力物力的浪费,数据标注质量得不到保证。所以在标注开始前需进行必要的资格认证,系统预设一定量认证图像总体及认证样本量,图像总体均为标注结果已确定的图像数据,用户提交资格认证请求后,系统根据预设的审查样本量在审查图像总体中随机抽取n张形成审查包形成标注任务,将审查包中图像显示于认证界面,用于资格认证。将用户对审查包中图像的标注结果与已知正确标注结果进行比对,获取用户对n张具有正确标记结果的图像的标注正确率;图像标注问题一般分为分类问题与分割问题。
对于分类问题,正确分类样本数为m,分类问题正确率r的计算方式可以为:
r=m/n (1)
对于分割问题,如图4所示,真实区域为A,标注用户实际标注区域为B,分割问题的正确率可用交并比(IoU)评价:
IoU=A∩B/A∪B (2)
在分子中,本发明实施例计算标注用户标注区域和真实区域之间的重叠区域;分母是两者并集区域。
将正确率与预设阈值相比较,当标注正确率大于等于预设的阈值时,则认证通过,确定该标注用户具有标注资格,通过统一的认证筛选出具有标注资格的标注用户,以保证标注用户的水平,保证后续标注质量的一致性和稳定性。
(2)如图5所示,金标准验证具体如下:
金标准为已确定标注结果的图像,金标准验证用于通过资格认证环节的用户后续标注中,预设t为数据包中待标注图像数量,系统将数据包作为用户标注的基本单位,分发系统按照预设比例将金标准数据与未标注数据打包,分发给标注用户标注。用户完成数据包标注提交标注结果后,系统根据用户对数据包中金标准数据的标注结果计算用户针对此包的标注准确率,分类任务与分割任务正确率计算方式可以分别参考公式(1)和(2),当标注正确率大于等于预设的阈值时,则暂定用户针对此数据包的标注合格,进入下一流程,未合格的数据包将重新打散,重新分配给用户进行标注。
在步骤S102中,多人拟步骤合:将一份图像分发给多位用户,收集多位用户对图像的标注结果,获取重复标签后,得到真实标签。
可以理解的是,如图2所示,本发明实施例将一份图片分发给多位用户,收集多个用户对同一图像的标注结果,获取重复标签后,对分割标签和分类标签采用不同的方法基于重复标签推断真实标签。
进一步地,在本发明的一个实施例中,多人拟合步骤还包括:当同一份图像重新标注次数大于或等于预设次数时,将图像舍弃。
其中,在本发明的一个实施例中,对于分类标签,对同一个标注图像收集奇数个标注结果,并通过多数投票原则获取真实标签;对于分割标注结果聚合,采集来自多个标注用户的同一个图像的多个标注结果,以获得不同类别分别对应的分割标注区域。
具体而言,系统将一份图片分发给多位用户,收集多个用户对同一图像的标注结果,当每份图像收集到的合格标注结果中相同标注结果所占比例大于等于预设阈值后,获取针对该图像的重复标签,进行拟合,否则,将数据重新分类给用户进行标注,当同一份图像重新标注次数>=3时,说明图像真实标签争议过大,考虑将图像舍弃。
对于标签的拟合,可以采用多种方式。
针对分类标签,最基本的为多数投票算法,即对同一个标注图像收集奇数个标注结果,然后通过多数投票原则(少数服从多数)来获取最终结果,多数投票方法是假定每个工人的答题准确率是一致的,没有考虑工人的多样性,因此采用这种方法得到的最终结果往往不够准确。另一常被使用的算法为EM算法,通过混淆矩阵来反映标注用户的标注准确率,通过建立隐变量的方式,把求解过程转换为互相推导,不断循环到最终收敛的过程。EM算法不断循环迭代直到收敛,主要分为以下两个步骤:1)利用多个工作者所做的标记分类,估计出每项任务的正确答案;2)通过工作者提交的答案与估计得到的正确答案进行比较,得到对标注用户提交结果的整体质量评价。算法的最终输出结果是每项任务估计出的正确答案和每个标注用户的“混合矩阵”。也可采用其它分类标签聚合方法。
针对分割标注结果聚合,最基本的方式可采用重合区域。收集来自多个标注用户的同一个图像的多个标注结果。对来自多人的标注区域分不同类别分别取其并集,可获得不同类别分别对应的分割标注区域。也可采用其它分割区域标签聚合方法。
在步骤S103中,人工抽检步骤:以数据包或者用户为单位进行随机抽检,评价标注质量。
可以理解的是,如图2所示,人工抽检步骤中可以由权威专家以数据包或者用户为单位进行随机抽检,评价标注质量,将不合格数据丢弃或者修改,供后续使用。
具体而言,由权威专家以数据包或者用户为单位进行随机抽检,评价标注质量,人工抽检可以存在于标注开始后的各个阶段,抽取的比例根据具体需求设置。数据拟合前的抽检从非金标准数据中抽取,拟合后的抽检从拟合后标注结果抽取,权威专家抽取后对标注结果进行评价并根据标注质量选择丢弃数据或对错误标注进行修改,供后续使用。系统提供标注结果查看和修改的交互界面,专家可对错误标注结果进行添加、删除、扩大缩小区域等操作。
在步骤S104中,质量反馈步骤:将使用金标准推算的用户准确率反馈给用户,并将金标准中以及人工抽检出的错误数据及其对应的正确答案反馈给标注用户,以使标注用户接收再训练。
可以理解的是,如图2所示,本发明实施例将使用金标准推算的用户准确率反馈给用户,另将金标准中用户标注错误数据以及人工抽检出的标注不合理的部分数据及对应的正确结果反馈给标注用户,使标注用户接收再训练,提高后续标注质量。
进一步地,在本发明的一个实施例中,质量反馈步骤还包括:将金标准中用户标注错误数据以及正确标注结果通过交互式界面呈现至用户。
具体而言,在金标准验证流程后即将使用金标准推算的用户准确率反馈给用户,另将金标准中用户标注错误数据以及正确标注结果通过交互式界面呈现。可以基于准确率对用户进行积分奖励、排名、报酬等的计算,以激励标注用户保证质量。
在各个阶段的人工抽检中,若得到错误数据并修改,则将标注用户原标注数据与专家修改后数据通过不同颜色的标签加以区分,并显示于界面上,使标注用户进行对比、学习,实现再训练。基于不断的反馈交互,逐渐提升标注用户的业务能力,图像标注效率。
通过质量反馈,提高标注用户的图片标注准确率,保证标注质量。
综上,本发明实施例提出的多人协作图像标注质量控制的方法,通过多人协作、资格认证、金标准验证、人工抽检等环节以及完备的控制流程保证图像标注质量,并提高标注效率,从而不仅可以保证标注质量,而且可以获取正确标注结果,简单易实现。
其次参照附图描述根据本发明实施例提出的多人协作图像标注质量控制的装置。
图6是本发明一个实施例的多人协作图像标注质量控制的装置的结构示意图。
如图6所示,该多人协作图像标注质量控制的装置10包括:金标准验证模块100、多人拟合模块200、人工抽检模块300和质量反馈模块400。
其中,金标准验证模块100用于在标注包中按预设的比例投入金标准数据,以验证标注用户针对任一标注包的标注质量,通过验证的标注包数据暂定为合格,执行下一步骤,未通过的数据包将被重新打散,重新分配给用户进行标注;多人拟合模块200用于将一份图像分发给多位用户,收集多位用户对图像的标注结果,获取重复标签后,得到真实标签;人工抽检模块300用于以数据包或者用户为单位进行随机抽检,评价标注质量;质量反馈模块400用于将使用金标准推算的用户准确率反馈给用户,并将金标准中以及人工抽检出的错误数据及其对应的正确答案反馈给标注用户,以使标注用户接收再训练。本发明实施例的装置10不仅可以保证标注质量,而且可以获取正确标注结果,简单易实现。
进一步地,在本发明的一个实施例中,还包括:资格认证模块,用于在金标准验证之前,采用认证数据对标注人员的标注水平进行测试,通过测试的标注者通过资格认证,以参与实际标注过程。
进一步地,在本发明的一个实施例中,多人拟合模块进一步用于当同一份图像重新标注次数大于或等于预设次数时,将图像舍弃。
进一步地,在本发明的一个实施例中,其中,对于分类标签,对同一个标注图像收集奇数个标注结果,并通过多数投票原则获取真实标签;对于分割标注结果聚合,采集来自多个标注用户的同一个图像的多个标注结果,以获得不同类别分别对应的分割标注区域。
进一步地,在本发明的一个实施例中,质量反馈模块进一步用于将金标准中用户标注错误数据以及正确标注结果通过交互式界面呈现至用户。
需要说明的是,前述对多人协作图像标注质量控制的方法实施例的解释说明也适用于该实施例的多人协作图像标注质量控制的装置,此处不再赘述。
根据本发明实施例提出的多人协作图像标注质量控制的装置,通过多人协作、资格认证、金标准验证、人工抽检等环节以及完备的控制流程保证图像标注质量,并提高标注效率,从而不仅可以保证标注质量,而且可以获取正确标注结果,简单易实现。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (6)
1.一种多人协作图像标注质量控制的方法,其特征在于,包括以下步骤:
金标准验证步骤:在标注包中按预设的比例投入金标准数据,以验证标注用户针对任一标注包的标注质量,通过验证的标注包数据暂定为合格,执行下一步骤,未通过的数据包将被重新打散,重新分配给用户进行标注,其中,所述金标准为已确定标注结果的图像,所述验证标注用户针对任一标注包的标注质量,包括:
根据用户对数据包中金标准数据的标注结果计算用户针对此包的标注准确率;
当标注正确率大于等于预设的阈值时,则暂定用户针对此数据包的标注合格,进入下一流程,未合格的数据包将重新打散,重新分配给用户进行标注;
多人拟合步骤:将一份图像分发给多位用户,收集所述多位用户对所述图像的标注结果,获取重复标签后,得到真实标签;
人工抽检步骤:以数据包或者用户为单位进行随机抽检,评价标注质量;以及
质量反馈步骤:将使用金标准推算的用户准确率反馈给用户,并将金标准中以及人工抽检出的错误数据及其对应的正确答案反馈给标注用户,以使标注用户接收再训练;
其中,所述多人拟合步骤还包括:
当同一份图像重新标注次数大于或等于预设次数时,将所述图像舍弃;
对于分类标签,对同一个标注图像收集奇数个标注结果,并通过多数投票原则获取所述真实标签;
对于分割标注结果聚合,采集来自多个标注用户的同一个图像的多个标注结果,以获得不同类别分别对应的分割标注区域。
2.根据权利要求1所述的方法,其特征在于,在所述金标准验证之前,还包括:
资格认证步骤:采用认证数据对标注人员的标注水平进行测试,通过测试的标注者通过资格认证,以参与实际标注过程。
3.根据权利要求1所述的方法,其特征在于,所述质量反馈步骤还包括:
将金标准中用户标注错误数据以及正确标注结果通过交互式界面呈现至所述用户。
4.一种多人协作图像标注质量控制的装置,其特征在于,包括:
金标准验证模块,用于在标注包中按预设的比例投入金标准数据,以验证标注用户针对任一标注包的标注质量,通过验证的标注包数据暂定为合格,执行下一步骤,未通过的数据包将被重新打散,重新分配给用户进行标注;
多人拟合步模块,用于将一份图像分发给多位用户,收集所述多位用户对所述图像的标注结果,获取重复标签后,得到真实标签;
人工抽检模块,用于以数据包或者用户为单位进行随机抽检,评价标注质量;以及
质量反馈模块,用于将使用金标准推算的用户准确率反馈给用户,并将金标准中以及人工抽检出的错误数据及其对应的正确答案反馈给标注用户,以使标注用户接收再训练;
其中,所述多人拟合步模块进一步用于当同一份图像重新标注次数大于或等于预设次数时,将所述图像舍弃;
对于分类标签,对同一个标注图像收集奇数个标注结果,并通过多数投票原则获取所述真实标签;
对于分割标注结果聚合,采集来自多个标注用户的同一个图像的多个标注结果,以获得不同类别分别对应的分割标注区域。
5.根据权利要求4所述的装置,其特征在于,还包括:
资格认证模块,用于在所述金标准验证之前,采用认证数据对标注人员的标注水平进行测试,通过测试的标注者通过资格认证,以参与实际标注过程。
6.根据权利要求4所述的装置,其特征在于,所述质量反馈模块进一步用于将金标准中用户标注错误数据以及正确标注结果通过交互式界面呈现至所述用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911082512.6A CN110991486B (zh) | 2019-11-07 | 2019-11-07 | 多人协作图像标注质量控制的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911082512.6A CN110991486B (zh) | 2019-11-07 | 2019-11-07 | 多人协作图像标注质量控制的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110991486A CN110991486A (zh) | 2020-04-10 |
CN110991486B true CN110991486B (zh) | 2023-12-29 |
Family
ID=70083442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911082512.6A Active CN110991486B (zh) | 2019-11-07 | 2019-11-07 | 多人协作图像标注质量控制的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110991486B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111986194B (zh) * | 2020-09-03 | 2024-07-05 | 深圳平安智慧医健科技有限公司 | 医学标注图像检测方法、装置、电子设备及存储介质 |
CN111932536B (zh) * | 2020-09-29 | 2021-03-05 | 平安国际智慧城市科技股份有限公司 | 病灶标注的验证方法、装置、计算机设备及存储介质 |
CN112418263A (zh) * | 2020-10-10 | 2021-02-26 | 上海鹰瞳医疗科技有限公司 | 一种医学图像病灶分割标注方法及系统 |
CN114693587A (zh) | 2020-12-28 | 2022-07-01 | 深圳硅基智能科技有限公司 | 眼底图像的数据标注的质量控制方法及质量控制系统 |
CN112836732B (zh) * | 2021-01-25 | 2024-04-19 | 深圳市声扬科技有限公司 | 数据标注的校验方法、装置、电子设备及存储介质 |
CN112989087B (zh) * | 2021-01-26 | 2023-01-31 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、设备以及计算机可读存储介质 |
CN113205130B (zh) * | 2021-04-28 | 2023-05-02 | 五八有限公司 | 一种数据审核方法、装置、电子设备及存储介质 |
CN113313359A (zh) * | 2021-04-30 | 2021-08-27 | 北京医准智能科技有限公司 | 一种影像标注诊断质量的评估方法及装置 |
CN113409280B (zh) * | 2021-06-24 | 2022-08-02 | 青岛海信医疗设备股份有限公司 | 医学影像的处理方法、标注方法和电子设备 |
CN113989610B (zh) * | 2021-12-27 | 2022-04-05 | 广州思德医疗科技有限公司 | 一种图像智能标注方法、装置及系统 |
CN115424707A (zh) * | 2022-09-01 | 2022-12-02 | 郑州大学第一附属医院 | 基于图像比对的医学图像数据众包标注方法、系统及终端 |
CN115204760A (zh) * | 2022-09-16 | 2022-10-18 | 创新奇智(合肥)科技有限公司 | 一种数据标注方法及装置 |
CN115618810A (zh) * | 2022-12-20 | 2023-01-17 | 中化现代农业有限公司 | 一种提升数据标注准确率的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975980A (zh) * | 2016-04-27 | 2016-09-28 | 百度在线网络技术(北京)有限公司 | 监控图像标注质量的方法和装置 |
CN108898225A (zh) * | 2018-05-04 | 2018-11-27 | 成都信息工程大学 | 基于人机协同学习的数据标注方法 |
CN108932724A (zh) * | 2018-05-31 | 2018-12-04 | 杭州晓图科技有限公司 | 一种基于多人协同图像标注的系统自动审核方法 |
CN109389275A (zh) * | 2017-08-08 | 2019-02-26 | 北京图森未来科技有限公司 | 一种图像标注方法和装置 |
WO2019137196A1 (zh) * | 2018-01-11 | 2019-07-18 | 阿里巴巴集团控股有限公司 | 图像标注信息助理方法、装置、服务器及系统 |
-
2019
- 2019-11-07 CN CN201911082512.6A patent/CN110991486B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975980A (zh) * | 2016-04-27 | 2016-09-28 | 百度在线网络技术(北京)有限公司 | 监控图像标注质量的方法和装置 |
CN109389275A (zh) * | 2017-08-08 | 2019-02-26 | 北京图森未来科技有限公司 | 一种图像标注方法和装置 |
WO2019137196A1 (zh) * | 2018-01-11 | 2019-07-18 | 阿里巴巴集团控股有限公司 | 图像标注信息助理方法、装置、服务器及系统 |
CN108898225A (zh) * | 2018-05-04 | 2018-11-27 | 成都信息工程大学 | 基于人机协同学习的数据标注方法 |
CN108932724A (zh) * | 2018-05-31 | 2018-12-04 | 杭州晓图科技有限公司 | 一种基于多人协同图像标注的系统自动审核方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110991486A (zh) | 2020-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110991486B (zh) | 多人协作图像标注质量控制的方法和装置 | |
CN106815784B (zh) | 基于改进蚁群算法智能组卷的考试系统 | |
CN109241709A (zh) | 基于滑块验证码验证的用户行为识别方法及装置 | |
CN108389147A (zh) | 试题难度分级处理方法及系统 | |
CN108073517B (zh) | 第三方软件测试的管理方法、装置、介质和计算机设备 | |
CN113947270A (zh) | 一种用于提高众包任务标注质量的方法 | |
US20120308983A1 (en) | Democratic Process of Testing for Cognitively Demanding Skills and Experiences | |
CN117745494A (zh) | 一种多端融合的3d视频数字化osce考站系统 | |
CN115409395A (zh) | 一种水利施工工程的质量验收检查方法及系统 | |
CN107818707B (zh) | 一种自动出题的考试系统 | |
CN111459805B (zh) | 一种外协测试人才管理方法和系统 | |
Alkhawaja et al. | Exploring and developing an instrument for measuring system quality construct in the context of e-learning | |
CN114912510A (zh) | 一种线上调研样本质量评估系统 | |
CN114580914A (zh) | 一种职称申报评审方法 | |
Kuutila et al. | Daily questionnaire to assess self-reported well-being during a software development project | |
CN113554316A (zh) | 一种基于物联网的员工培训系统 | |
CN110147964B (zh) | 基于大数据技术的人才评价系统 | |
CN105653445B (zh) | 一种满足do‑178c测试结果的实现方法 | |
CN117078152A (zh) | 一种烟草行业基于图像识别的商零精准签收方法及系统 | |
CN110189063A (zh) | 案件质量预检系统 | |
CN111178248B (zh) | 在线实验考核方法、装置、计算机设备和存储介质 | |
CN112381526A (zh) | 一种基于自动校验的数据标注系统及方法 | |
CN103514288B (zh) | 客户端类别识别方法和系统 | |
CN113705072A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
Pukas et al. | Intelligent Analyzing Module in the Academic Staff Performance Appraisal System. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |