CN113159123A - 一种数据标注方法、标注员考核方法及标注结果审核方法 - Google Patents

一种数据标注方法、标注员考核方法及标注结果审核方法 Download PDF

Info

Publication number
CN113159123A
CN113159123A CN202110288665.7A CN202110288665A CN113159123A CN 113159123 A CN113159123 A CN 113159123A CN 202110288665 A CN202110288665 A CN 202110288665A CN 113159123 A CN113159123 A CN 113159123A
Authority
CN
China
Prior art keywords
labeling
result
data
assessment
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110288665.7A
Other languages
English (en)
Inventor
张世亮
陈志江
吴沛
邱宗林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Adasplus Beijing Technology Co ltd
Original Assignee
Adasplus Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Adasplus Beijing Technology Co ltd filed Critical Adasplus Beijing Technology Co ltd
Priority to CN202110288665.7A priority Critical patent/CN113159123A/zh
Publication of CN113159123A publication Critical patent/CN113159123A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种数据标注方法、标注员考核方法及标注结果审核方法,其中,数据标注方法,包括如下步骤:接收多个第一标注信息,所述第一标注信息为用户根据预先建立的标注模板对标注对象进行标注得到,所述预先建立的标注模板包括多个标注类别之间的关联关系;根据所述多个第一标注信息以及对应标注类别之间的关联关系,形成所述标注对象的第二标注信息。通过实施本发明,引入了标注对象间的关联性,适用于复杂标注需求,能够深度挖掘图像信息,提高了数据标注的信息量。

Description

一种数据标注方法、标注员考核方法及标注结果审核方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种数据标注方法、标注员考核方法及标注结果审核方法。
背景技术
目前监督式学习和半监督式学习的核心是把数据特征处理后提供给机器进行训练。数据是人工智能的血液,而数据只有加上标注信息才有意义,大量优质的训练数据使算法可以通过学习从而形成更好的模型。为了提供包含标注信息的数据,目前的标注方式大都是采用众包的方式进行标注,众包标注数据的方法一般有两种:离线组织众包数据标注以及在线组织众包数据标注。无论是哪种数据标注方法,其标注内容之间都相对独立,比如,在当前画面中分别标注出所有人物的头部以及所有人物的四肢,缺乏标注内容之间关系的描述,导致使用当前的标注方法进行数据标注时,挖掘到的图像信息相对单一,信息量有限,使得模型训练时,难以进一步深刻理解图像信息。
发明内容
有鉴于此,本发明实施例提供了一种数据标注方法、标注员考核方法及标注结果审核方法,以解决现有技术中数据标注时,挖掘到的图像信息相对单一,信息量有限的缺陷。
根据第一方面,本发明实施例提供一种数据标注方法,包括如下步骤:接收多个第一标注信息,所述第一标注信息为用户根据预先建立的标注模板对标注对象进行标注得到,所述预先建立的标注模板包括多个标注类别之间的关联关系;根据所述多个第一标注信息以及对应标注类别之间的关联关系,形成所述标注对象的第二标注信息。
可选地,所述标注模板的建立方式包括:接收用户自定义的多个标注类别信息及其对应的标注方式选择信息,所述标注方式包括边框、多边形、关键点、选择题、问答题中至少一种;根据用户自定义的多个标注类别信息及其对应的标注方式选择信息,生成标注模板。
根据第二方面,本发明实施例提供一种标注员考核方法,包括如下步骤:获取任意一个标注员对多个待标注数据的考核标注结果,所述考核标注结果根据第一方面或第一方面任一实施方式所述的数据标注方法进行标注得到;根据所述待标注数据的考核标注结果以及对应的目标标注结果,确定所述标注员是否通过考核。
可选地,所述考核标注结果以及所述目标标注结果包括考核标注框以及标注框对应的标注类别,所述根据每一个待标注数据的所述考核标注结果以及对应的目标标注结果,确定所述标注员是否通过考核,包括:将任意一个待标注数据的考核标注框与对应目标标注框进行交并比计算,得到交并比结果,得到准确度评价结果;将所述待标注数据的考核标注框对应的标注类别与对应目标标注框的标注类别进行比较,得到类别标注评价结果;根据所述准确度评价结果以及所述类别标注评价结果,得到所述待标注数据的评价结果;重复所述将任意一个待标注数据的考核标注框与对应目标标注框进行交并比计算,得到交并比结果,得到准确度评价结果至所述根据所述准确度评价结果以及所述类别标注评价结果,得到所述待标注数据的评价结果,直至得到每一个待标注数据的评价结果;根据每一个待标注数据的评价结果与预设评价指标,确定所述标注员是否通过考核。
可选地,还包括:根据每一个类别标注评价结果,建立混淆矩阵,所述混淆矩阵用于统计类别标注错误的类别信息;按照混淆矩阵,向所述标注员发送待标注数据。
根据第三方面,本发明实施例提供一种标注结果审核方法,应用于审核员端,包括如下步骤:接收标注员端对待标注数据的标注结果,所述标注结果根据第一方面或第一方面任一实施方式所述的数据标注方法得到;接收审核员对所述标注结果的审核确认信息,所述审核确认信息包括审核通过以及审核不通过;当所述审核确认信息为审核不通过,则将所述标注结果发送至所述标注员端。
可选地,还包括:当所述审核确认信息为审核通过,则将所述标注结果发送至质检员端。
根据第四方面,本发明实施例提供一种标注结果审核方法,应用于仲裁端,包括如下步骤:接收标注员端发起申诉请求;接收仲裁员对所述申诉请求的仲裁结果,所述仲裁结果包括标注员错误、审核员错误、图像质量不符合目标要求中的至少一个;当所述申诉请求的仲裁结果为审核员错误时,将所述仲裁结果发送至审核员端。
可选地,还包括:当所述申诉请求的仲裁结果为标注员错误时,将所述仲裁结果发送至标注员端;当所述申诉请求的仲裁结果为图像质量不符合目标要求时,将所述标注结果删除。
可选地,所述接收标注员端发起的对标注结果审核不通过的申诉请求之后,所述接收仲裁员对所述申诉请求的仲裁结果之前,包括:将所述对标注结果审核不通过的申诉请求与历史申诉请求进行比对,判断所述申诉请求是否重复发起;当所述申诉请求不为重复发起,则显示所述申诉请求。
根据第五方面,本发明实施例提供一种数据标注装置,包括:第一标注信息接收模块,用于接收多个第一标注信息,所述第一标注信息为用户根据预先建立的标注模板对标注对象进行标注得到,所述预先建立的标注模板包括多个标注类别之间的关联关系;第二标注信息确定模块,用于根据所述多个第一标注信息以及对应标注类别之间的关联关系,形成所述标注对象的第二标注信息。
根据第六方面,本发明实施例提供一种标注员考核装置,包括:第一考核标注结果获取模块,用于获取任意一个标注员对多个待标注数据的考核标注结果,所述考核标注结果根据第一方面或第一方面任一实施方式所述的数据标注方法进行标注得到;考核结果判断模块,用于根据所述待标注数据的考核标注结果以及对应的目标标注结果,确定所述标注员是否通过考核。
根据第七方面,本发明实施例提供一种标注结果审核装置,应用于审核员端,包括:第二考核标注结果获取模块,用于接收标注员端对待标注数据的标注结果,所述标注结果根据第一方面或第一方面任一实施方式的数据标注方法得到;第二考核标注结果获取模块,用于接收审核员对所述标注结果的审核确认信息,所述审核确认信息包括审核通过以及审核不通过;第一发送模块,用于当所述审核确认信息为审核不通过,则将所述标注结果发送至所述标注员端。
根据第八方面,本发明实施例提供一种标注结果审核装置,应用于仲裁端,包括:申请请求接收模块,用于接收标注员端发起申诉请求;仲裁结果接收模块,用于接收仲裁员对所述申诉请求的仲裁结果,所述仲裁结果包括标注员错误、审核员错误、图像质量不符合目标要求中的至少一个;第二发送模块,用于当所述申诉请求的仲裁结果为审核员错误时,将所述仲裁结果发送至审核员端。
根据第九方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面或第一方面任一实施方式所述的数据标注方法或,第二方面或第二方面任一实施方式所述的标注员考核方法,或第三方面或第三方面任一实施方式或,第四方面或第四方面任一实施方式所述标注结果审核方法的步骤。
根据第十方面,本发明实施例提供一种存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面或第一方面任一实施方式所述的数据标注方法或,第二方面或第二方面任一实施方式所述的标注员考核方法,或第三方面或第三方面任一实施方式或,第四方面或第四方面任一实施方式所述标注结果审核方法的步骤。
本发明技术方案,具有如下优点:
本发明实施例提供的数据标注方法,通过对第一标注信息按照预先建立的模板进行关联,形成包含标注类别之间关联关系的第二标注信息,相比传统的标注方法,引入了标注对象间的关联性,适用于复杂标注需求,能够深度挖掘图像信息,提高了数据标注的信息量。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中数据标注方法的一个具体示例的流程图;
图2为本发明实施例中数据标注方法的一个具体示例图;
图3为本发明实施例中数据标注方法的一个具体示例图;
图4为本发明实施例中标注员考核方法的一个具体示例的流程图;
图5为本发明实施例中标注结果审核方法的一个具体示例的流程图;
图6为本发明实施例中标注结果审核方法的一个具体示例的流程图;
图7为本发明实施例中电子设备的一个具体示例的原理框图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本实施例提供一种数据标注方法,如图1所示,包括如下步骤:
S101,接收多个第一标注信息,第一标注信息为用户根据预先建立的标注模板对标注对象进行标注得到,预先建立的标注模板包括多个标注类别以及标注类别之间的关联关系;
示例性地,第一标注信息可以包括边框、关键点、多边形等的位置信息以及对应位置信息的标注内容。如图2所示,第一标注信息可以是以矩形框的方式标注出的人脸位置信息(Q-1以及Q-2)或者以矩形框的方式标注出的眼镜位置信息(W-3),以及与Q-1以及Q-2的人脸位置信息对应的其余标注内容,比如,性别标注、情绪标注,与W-3的眼镜位置信息对应的眼镜类型信息等等。预先建立的标注模板可以以图2中虚线内的部分为例,包含了如图3所示的不同标注类别,以及不同标注类别之间的层级关系,包括人脸框,以及对应该人脸框的性别标注(男、女)、情绪标注(喜、怒、哀、乐),若人脸框内还存在眼镜框时,其标注内容还包括对应眼镜框的眼镜类型(太阳镜、墨镜、普通眼镜)。
接收多个第一标注信息的方式可以是接收用户对特定区域的点击信号,比如,接收男、女选项对应选择区域的点击信号,还可以是接收边框、关键点、多边形等的位置信息,本实施例对接收多个第一标注信息的方式不做限定,本领域技术人员可以根据需要确定。
S102,根据多个第一标注信息以及对应标注类别之间的关联关系,形成标注对象的第二标注信息。
示例性地,第二标注信息表征将多个第一标注信息按照其标注类别之间的关系进行关联,形成的标注信息。根据多个第一标注信息以及对应标注类别之间的关联关系,形成标注对象的第二标注信息的方式可以是将各个第一标注信息按照对应标注类别之间的关联关系,写入集合中,得到标注对象的第二标注信息。其中,集合的表达形式可以是:
C={cj|j∈[1..m]};
其中,m表示所有的复合标注类别数量,cj=<uj,S(j)>,uj表示当前复合标注类别的基本类型,S(j)表示当前复合类别的关联子集,S(j)是由复合标注类型sk组成的集合,定义如下:
S(j)={sk|sk∈C,k∈[1…l(j)]};
其中l(j)表示该集合的数量,当l(j)=0时为空集。
以图3为例,
C={人脸框:{<性别:男、女>,<情绪:喜、怒、哀、乐>,眼镜框:<眼镜类型:普通眼镜、太阳镜、墨镜>}}
以图2中的Q-1对应的多个第一标注信息以及对应标注类别之间的关联关系,形成的第二标注信息表达形式可以是:
C={人脸框Q-1:{<性别:男>,<情绪:乐>,眼镜框w-3:<眼镜类型:普通眼镜>}}。
本实施例提供的数据标注方法,通过对第一标注信息按照预先建立的模板进行关联,形成包含标注类别之间关联关系的第二标注信息,相比传统的标注方法,引入了标注对象间的关联性,适用于复杂标注需求,能够深度挖掘图像信息,提高了数据标注的信息量。
作为本实施例一种可选的实施方式,标注模板的建立方式包括:
接收用户自定义的多个标注类别信息以及标注方式选择信息,标注方式包括边框、多边形、关键点、选择题、问答题中至少一种;根据用户自定义的多个标注类别信息及其对应的标注方式选择信息,生成标注模板。
示例性地,用户自定义的多个标注类别信息针对不同标注任务可以不同,比如对人物样本进行标注时,用户自定义的多个标注类别信息可以包括人脸位置、表情类别、性别类别、眼镜位置、眼镜类别等等。对车辆样本进行标注时,用户自定义的多个标注类别信息可以包括车辆类别、车辆颜色等等。本实施例对标注类别信息不做限定,本领域技术人员可以根据需要确定。
以图2为例,对于多个标注类别信息对应的标注方式选择信息进行说明,对表情进行标注时,其标注方式为选择题,对整个人脸位置进行标注时,其标注的方式为边框。本实施例对标注方式不做限定,本领域技术人员可以根据需要设置。
接收标注方式选择信息的方式可以是接收预先搭建的构件的选择信息,比如,对于选择题形式的标注方式,界面内部存储有预先搭建的表征选择题的构件,当用户需要选择题形式的标注方式时,可以通过拖、拉、拽或者点击选项的方式选择对应的选择题构件。接收用户自定义的多个标注类别信息的方式可以是接收用户在特定输入框内的输入信息,比如,在选择题选项位置框中输入喜、怒、哀、乐四个选项等。从而根据用户自定义的多个标注类别信息及其对应的标注方式选择信息,生成标注模板,提高了数据标注的灵活性。
本实施例提供一种标注员考核方法,如图4所示,包括如下步骤:
S201,获取任意一个标注员对多个待标注数据的考核标注结果,考核标注结果根据上述实施例中的数据标注方法进行标注得到;
示例性地,多个待标注数据可以是随机派发的图片,也可以是定向派发的图片,比如,当需要对某个标注员的某类图片标注能力进行考核,则可以定向将该类图片集中发送给该标注员,本实施例对多个待标注数据的类型以及派发的方式不做限定,本领域技术人员可以根据需要确定。多个待标注数据的考核标注结果可以包括对待标注数据的考核标注框以及标注类别信息。数据标注方式具体参见上述实施例对应部分,在此不再赘述。获取任意一个标注员对多个待标注数据的考核标注结果的方式可以是获取标注员的所有考核标注结果进行考核,为了减小考核数据量,也可以在该标注员的所有考核标注结果中随机抽取出一部分进行考核。
S202,根据待标注数据的考核标注结果以及对应的目标标注结果,确定标注员是否通过考核。
示例性地,目标标注结果表征该待标注数据的标准标注结果。根据待标注数据的考核标注结果以及对应的目标标注结果,确定标注员是否通过考核的方式可以是仅通过待标注数据的考核标注框与对应目标标注结果中的考核标注框进行确定;也可以是仅通过待标注数据的标注类别信息与目标标注结果中标注类别信息进行判断,当标注类别出现错误的待标注数据量超过预定阈值时,则判定标注员不通过考核。本实施例对根据待标注数据的考核标注结果以及对应的目标标注结果,确定标注员是否通过考核的方式不做限定,本领域技术人员可以根据需要确定。
本实施例以仅通过待标注数据的考核标注框与对应目标标注结果中的考核标注框进行确定为例进行说明,具体方式如下:
Figure BDA0002981252490000101
其中,R1为考核标注框,R2为目标标注结果中目标标注框。
根据如表1的评分标准,再结合上面的IoU,给标注员考核标注结果进行打分。
表1
IoU值 0 (0,0.3) [0.3,0.6) [0.6,0.8) [0.8,0.9) [0.9,1) 1.0
得分 0 30 60 70 80 90 100
当一个待标注数据中包含多个需要标注的目标时,需记录标注员标注的每个考核标注框的得分。每个待标注数据的得分可以是该待标注数据中所有考核标注框的平均分,以加强考核难度,也可以是所有考核标注框的最低分,本实施例对此不做限定,本领域技术人员可以根据需要确定。当待标注数据的得分是所有考核标注框的最低分时,其表达式表示为:s=min{si|i∈[1..t]},其中t为该图片中需要标注的目标数量,si代表的是第i个考核标注框的得分。
通过设定每个待标注数据的及格分数,判断每个待标注数据是否及格,当及格的待标注数据占被考核的所有待标注数据的百分比大于或者等于预设百分比时,则判定标注员通过考核;当及格的待标注数据占被考核的所有待标注数据的百分比小于设百分比时,则判定标注员未通过考核。其中,可以设定及格分数为90分,预设百分比为90%。本实施例对及格分数以及预设百分比不做限定,本领域技术人员可以根据需要设置。
作为本实施例一种可选的实施方式,考核标注结果以及目标标注结果包括考核标注框以及标注框对应的标注类别,根据每一个待标注数据的考核标注结果以及对应的目标标注结果,确定标注员是否通过考核,包括:
首先,将任意一个待标注数据的考核标注框与对应目标标注框进行交并比计算,得到交并比结果,得到准确度评价结果;
示例性地,准确度评价结果用于表征标注员的考核标注框是否达到准确度要求,准确度评价结果的表征方式可以是及格与不及格。将任意一个待标注数据的考核标注框与对应目标标注框进行交并比计算,得到交并比结果的方式可以参见公式(1)。当一个待标注数据中仅有一个需要标注的目标时,可以按照表1的评分标准,得到待标注数据中标注框的交并比得分。当一个待标注数据中包含多个需要标注的目标时,根据公式(1)以及表1,得到待标注数据中每个考核标注框的得分,并通过选取该待标注数据中考核标注框平均值或者最小值的方式,得到待标注数据中标注框的交并比得分。当交并比得分大于预设分数时,准确度评价结果为及格,交并比得分小于或等于预设分数时,准确度评价结果为不及格。
其次,将考核标注框对应的标注类别与对应目标标注框的标注类别进行比较,得到类别标注评价结果;
示例性地,当待标注数据中存在多个需要标注的目标时,判断每一个考核标注框对应的标注类别与目标标注框的标注类别是否一致,当出现任意一个考核标注框对应的标注类别与目标标注框的标注类别不一致时,得到的类别标注评价结果为不合格。
然后,根据准确度评价结果以及类别标注评价结果,得到待标注数据的评价结果;
示例性地,根据准确度评价结果以及类别标注评价结果,得到待标注数据的评价结果的方式可以是当准确度评价结果以及类别标注评价结果都为及格时,得到的该待标注数据的评价结果为及格,表示为1;当任意一个评价结果为不及格,则得到的该待标注数据的评价结果为不及格,表示为0。
再次,重复将任意一个待标注数据的考核标注框与对应目标标注框进行交并比计算,得到交并比结果,得到准确度评价结果至所述根据准确度评价结果以及所述类别标注评价结果,得到待标注数据的评价结果,直至得到每一个待标注数据的评价结果;
然后,根据每一个待标注数据的评价结果与预设评价指标,确定标注员是否通过考核。
示例性地,预设评价指标可以是待标注数据的评价结果中及格率高于预设阈值,或者待标注数据的评价结果中及格的数量大于预设数量,其表达式可以为:
Figure BDA0002981252490000131
其中,Ik表示当前标注的是第k个待标注数据,f(Ik)表示第k个待标注数据的评价结果(0或1),x表示所有考核的待标注数据总数量,y表示预设数量。
作为本实施例一种可选的实施方式,标注员考核方法还包括:
根据每一个类别标注评价结果,建立混淆矩阵,混淆矩阵用于统计类别标注错误的数量信息;按照混淆矩阵,向标注员发送待标注数据。
示例性地,对每一个待标注数据建立混淆矩阵,在每一张待标注数据中统计类别标注错误的数量信息,具体的建立方式可以以以下公式表示:
M={mi,j|i,j∈[1..n]};
其中,mi,j表示把为第i类标注成第j类的数量,当i=j时,mi,j表示的是考核标注框对应的标注类别与目标标注框的标注类别一致的数量,n为总的类别数量。
按照混淆矩阵,向标注员发送待标注数据的方式可以是选择mi,j中数值最大的数据对应的待标注数据类型,并从系统中选择与其类型相同或相似类型的待标注数据发送给对应的标注员,以不断强化标注员的记忆和理解,提高培训效果。
比如,一个待标注数据中包含5种标注类型,6个待标注目标,得到的混淆矩阵如下所示:
Figure BDA0002981252490000141
m11等于1,表示正确标注第1类类型的数量为1,m22等于1,表示正确标注第2类类型的数量为1,m53等于2,表示将第5类标注类型标注为第3类标注类型的数量为2,m54等于1,表示将第5类标注类型标注为第4类标注类型的数量为1,m55等于1,表示正确标注第5类类型的数量为1。由此可知,第5类标注类型和第3类标注类型最容易混淆,可以优先派发最容易混淆类型的图片至标注员。
本实施例提出了基于混淆矩阵评价的培训考核过程,通过混淆矩阵进行考核过程评价,根据错误情况指导后续图像分发规则,加强标注人员对易错规则的理解。
本实施例提供一种标注结果审核方法,应用于审核员端,如图5所示,包括如下步骤:
S301,接收标注员端对待标注数据的标注结果,所述标注结果根据上述数据标注方法得到;具体内容参见上述数据标注方法对应部分,在此不再赘述。
S302,接收审核员对标注结果的审核确认信息,审核确认信息包括审核通过以及审核不通过;接收审核员对标注结果的审核确认信息的方式可以是接收审核员在目标输入框的输入信息或者接收审核员在目标选择区域的选择信息,比如,界面上显示有审核通过和审核不通过两个按钮,当在任意一个按钮上接收到点击信号时,则认为接收到审核员对标注结果的审核确认信息。
S303,当审核确认信息为审核不通过,则将标注结果发送至标注员端。以使标注员重新修改。
作为本实施例一种可选的实施方式,标注结果审核方法还包括:当审核确认信息为审核通过,则将标注结果发送至质检员端。以便于质检员对审核结果进行质检。质检员在进行抽样检查时,若抽样检查合格,则导出标注结果,若不合格,则将不合格的标注结果反馈给对应的标注员以便进行重新标注。
本实施例提供一种标注结果审核方法,应用于仲裁端,如图6所示,包括如下步骤:
S401,接收标注员端发起的申诉请求;
示例性地,申诉请求的内容可以是对审核员审核错误的申诉,还可以是审核员拒绝审核时,发起的行为申诉,本实施例对申诉请求的具体内容不做限定,本领域技术人员可以根据需要确定。
S402,接收仲裁员对申诉请求的仲裁结果,仲裁结果包括标注员错误、审核员错误、图像质量不符合目标要求中的至少一个;
S403,当申诉请求的仲裁结果为审核员错误时,将仲裁结果发送至审核员端。
作为本实施例一种可选的实施方式,标注结果审核方法还包括:
当申诉请求的仲裁结果为标注员错误时,将仲裁结果发送至标注员端;
当申诉请求的仲裁结果为图像质量不符合目标要求时,将标注结果删除。
作为本实施例一种可选的实施方式,接收标注员端发起的对标注结果审核不通过的申诉请求之后,接收仲裁员对申诉请求的仲裁结果之前,包括:
将对标注结果审核不通过的申诉请求与历史申诉请求进行比对,判断申诉请求是否重复发起;当申诉请求不为重复发起,则显示申诉请求。
示例性地,历史申诉请求中可以包括发起申诉的ip地址、申诉的具体内容等等。将标注结果审核不通过的申诉请求与历史申诉请求进行比对的方式可以是比对当前的申诉请求的申诉内容是否存在于历史申诉请求中,当存在于历史申诉请求中时,再查看发起申诉的ip地址是否相同,如果ip地址相同,则可以认为属于重复发起的申诉请求。对于重复发起的申诉请求则直接向标注员端发送驳回申诉的通知,当申诉请求不为重复发起时,则在仲裁端显示申诉请求,以便仲裁员对其进行仲裁。
可以发现,对审核员拒绝的图片,标注员可以提出申诉,从而制约审核员不能随意审核拒绝;对审核员通过的图片,同样需要进行抽样检查,一旦合格率过低,则将该审核员的所有审核图片全部打回重审。为了进行申诉的仲裁,和图片抽样检查,引入质检员的角度,质检员可以在一开始由管理人员担任,后续可以从标注员和审核员中选择评价指标靠前的人员担任,在进行质检操作时需要回避自己标注或审核的图片。
通过以上的方法,建立起了标注员和审核员相互制约迭代的机制,标注员需要加强规则理解认真细致标图,审核员也需要公正客观审图不能随意操作。
对标注员建立以下评价指标:
首次审核通过率
Figure BDA0002981252490000161
其中Nacc_first表示该审核员首次审核即通过的图片数量,Nchecked表示该审核员已经审核的图片总数。标注员的首次审核通过率越高,表示该标注员的规则理解快,工作认真细致,如果首次审核通过率过低,则需要对该标注员是否胜任岗位进行重新评估。
申诉发起率
Figure BDA0002981252490000162
其中Nprotest表示发起申诉的图片数量,Nrejected表示被审核拒绝的图片数量。申诉发起率表示该标注员利用申诉功能的概率,如果申诉发起率过高,则表明该标注员有滥用申诉功能的嫌疑。
对审核员建立以下评价指标:
审核通过率
Figure BDA0002981252490000171
其中Npassed表示该审核员审核通过的图片数量,Nchecked表示审核图片的总数。审核通过率太高或太低,都可能存在问题,需要关注。
被申诉率
Figure BDA0002981252490000172
其中Nprotested表示该审核员被发起申诉的图片数量,Nrejected表示该审核员审核拒绝的图片数量。如果被申诉率过高,则表明该审核员的审核存在明显的问题,需要重点关注评估审核员能否胜任岗位。
抽样合格率
Figure BDA0002981252490000173
其中Npassed_again表示抽样检查时同样判断为通过的图片数量,μ为抽样比例系数,Npassed为该审核员审核通过的图片总数。抽样合格率必须大于给定的阈值,才表明该审核员的判断结果可信。
根据以上标注员和审核员的评价指标,可以及时对人员的岗位胜任情况做出评估,对已经标注的数据及时调整或重标。由于相互制约机制的存在,标注员和审核员都必须认真细致工作才行,通过几轮迭代后留存人员能够保证高质量的标注数据输出。
本实施例通过一种数据标注装置,包括:第一标注信息接收模块,用于接收多个第一标注信息,所述第一标注信息为用户根据预先建立的标注模板对标注对象进行标注得到,所述预先建立的标注模板包括多个标注类别之间的关联关系;第二标注信息确定模块,用于根据所述多个第一标注信息以及对应标注类别之间的关联关系,形成所述标注对象的第二标注信息。具体内容参见方法实施例对应部分,在此不再赘述。
本实施提供一种标注员考核装置,包括:
第一考核标注结果获取模块,用于获取任意一个标注员对多个待标注数据的考核标注结果,所述考核标注结果根据第一方面或第一方面任一实施方式所述的数据标注方法进行标注得到;具体内容参见方法实施例对应部分,在此不再赘述。
考核结果判断模块,用于根据所述待标注数据的考核标注结果以及对应的目标标注结果,确定所述标注员是否通过考核。具体内容参见方法实施例对应部分,在此不再赘述。
本实施提供一种标注结果审核装置,应用于审核员端,包括:
第二考核标注结果获取模块,用于接收标注员端对待标注数据的标注结果,所述标注结果根据第一方面或第一方面任一实施方式所述的数据标注方法得到;具体内容参见方法实施例对应部分,在此不再赘述。
第二考核标注结果获取模块,用于接收审核员对所述标注结果的审核确认信息,所述审核确认信息包括审核通过以及审核不通过;具体内容参见方法实施例对应部分,在此不再赘述。
第一发送模块,用于当所述审核确认信息为审核不通过,则将所述标注结果发送至所述标注员端。具体内容参见方法实施例对应部分,在此不再赘述。
本实施提供一种标注结果审核装置,应用于仲裁端,包括:
申请请求接收模块,用于接收标注员端发起申诉请求;具体内容参见方法实施例对应部分,在此不再赘述。
仲裁结果接收模块,用于接收仲裁员对所述申诉请求的仲裁结果,所述仲裁结果包括标注员错误、审核员错误、图像质量不符合目标要求中的至少一个;具体内容参见方法实施例对应部分,在此不再赘述。
第二发送模块,用于当所述申诉请求的仲裁结果为审核员错误时,将所述仲裁结果发送至审核员端。具体内容参见方法实施例对应部分,在此不再赘述。
本申请实施例还提供一种电子设备,如图7所示,处理器310和存储器320,其中处理器310和存储器320可以通过总线或者其他方式连接。
处理器310可以为中央处理器(Central Processing Unit,CPU)。处理器310还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器320作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的数据标注方法或标注员考核方法或标注结果审核方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理。
存储器320可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器320可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器320中,当被所述处理器310执行时,执行如图所示实施例中的数据标注方法或标注员考核方法或标注结果审核方法。
上述电子设备的具体细节可以对应参阅图所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
本实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中数据标注方法或标注员考核方法或标注结果审核方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (16)

1.一种数据标注方法,其特征在于,包括如下步骤:
接收多个第一标注信息,所述第一标注信息为用户根据预先建立的标注模板对标注对象进行标注得到,所述预先建立的标注模板包括多个标注类别之间的关联关系;
根据所述多个第一标注信息以及对应标注类别之间的关联关系,形成所述标注对象的第二标注信息。
2.根据权利要求1所述的方法,其特征在于,所述标注模板的建立方式包括:
接收用户自定义的多个标注类别信息及其对应的标注方式选择信息,所述标注方式包括边框、多边形、关键点、选择题、问答题中至少一种;
根据用户自定义的多个标注类别信息及其对应的标注方式选择信息,生成标注模板。
3.一种标注员考核方法,其特征在于,包括如下步骤:
获取任意一个标注员对多个待标注数据的考核标注结果,所述考核标注结果根据权利要求1或2所述的数据标注方法进行标注得到;
根据所述待标注数据的考核标注结果以及对应的目标标注结果,确定所述标注员是否通过考核。
4.根据权利要求3所述的方法,其特征在于,所述考核标注结果以及所述目标标注结果包括考核标注框以及标注框对应的标注类别,所述根据每一个待标注数据的所述考核标注结果以及对应的目标标注结果,确定所述标注员是否通过考核,包括:
将任意一个待标注数据的考核标注框与对应目标标注框进行交并比计算,得到交并比结果,得到准确度评价结果;
将所述待标注数据的考核标注框对应的标注类别与对应目标标注框的标注类别进行比较,得到类别标注评价结果;
根据所述准确度评价结果以及所述类别标注评价结果,得到所述待标注数据的评价结果;
重复所述将任意一个待标注数据的考核标注框与对应目标标注框进行交并比计算,得到交并比结果,得到准确度评价结果至所述根据所述准确度评价结果以及所述类别标注评价结果,得到所述待标注数据的评价结果,直至得到每一个待标注数据的评价结果;
根据每一个待标注数据的评价结果与预设评价指标,确定所述标注员是否通过考核。
5.根据权利要求4所述的方法,其特征在于,还包括:
根据每一个类别标注评价结果,建立混淆矩阵,所述混淆矩阵用于统计类别标注错误的类别信息;
按照混淆矩阵,向所述标注员发送待标注数据。
6.一种标注结果审核方法,其特征在于,应用于审核员端,包括如下步骤:
接收标注员端对待标注数据的标注结果,所述标注结果根据权利要求1或2所述的数据标注方法进行标注得到;
接收审核员对所述标注结果的审核确认信息,所述审核确认信息包括审核通过以及审核不通过;
当所述审核确认信息为审核不通过,则将所述标注结果发送至所述标注员端。
7.根据权利要求6所述的方法,其特征在于,还包括:
当所述审核确认信息为审核通过,则将所述标注结果发送至质检员端。
8.一种标注结果审核方法,其特征在于,应用于仲裁端,包括如下步骤:
接收标注员端发起申诉请求;
接收仲裁员对所述申诉请求的仲裁结果,所述仲裁结果包括标注员错误、审核员错误、图像质量不符合目标要求中的至少一个;
当所述申诉请求的仲裁结果为审核员错误时,将所述仲裁结果发送至审核员端。
9.根据权利要求8所述的方法,其特征在于,还包括:
当所述申诉请求的仲裁结果为标注员错误时,将所述仲裁结果发送至标注员端;
当所述申诉请求的仲裁结果为图像质量不符合目标要求时,将所述标注结果删除。
10.根据权利要求8所述的方法,其特征在于,所述接收标注员端发起的对标注结果审核不通过的申诉请求之后,所述接收仲裁员对所述申诉请求的仲裁结果之前,包括:
将所述对标注结果审核不通过的申诉请求与历史申诉请求进行比对,判断所述申诉请求是否重复发起;
当所述申诉请求不为重复发起,则显示所述申诉请求。
11.一种数据标注装置,其特征在于,包括:
第一标注信息接收模块,用于接收多个第一标注信息,所述第一标注信息为用户根据预先建立的标注模板对标注对象进行标注得到,所述预先建立的标注模板包括多个标注类别之间的关联关系;
第二标注信息确定模块,用于根据所述多个第一标注信息以及对应标注类别之间的关联关系,形成所述标注对象的第二标注信息。
12.一种标注员考核装置,其特征在于,包括:
第一考核标注结果获取模块,用于获取任意一个标注员对多个待标注数据的考核标注结果,所述考核标注结果根据权利要求1或2所述的数据标注方法进行标注得到;
考核结果判断模块,用于根据所述待标注数据的考核标注结果以及对应的目标标注结果,确定所述标注员是否通过考核。
13.一种标注结果审核装置,其特征在于,应用于审核员端,包括:
第二考核标注结果获取模块,用于接收标注员端对待标注数据的标注结果,所述标注结果根据权利要求1或2所述的数据标注方法进行标注得到;
第二考核标注结果获取模块,用于接收审核员对所述标注结果的审核确认信息,所述审核确认信息包括审核通过以及审核不通过;
第一发送模块,用于当所述审核确认信息为审核不通过,则将所述标注结果发送至所述标注员端。
14.一种标注结果审核装置,其特征在于,应用于仲裁端,包括:
申请请求接收模块,用于接收标注员端发起申诉请求;
仲裁结果接收模块,用于接收仲裁员对所述申诉请求的仲裁结果,所述仲裁结果包括标注员错误、审核员错误、图像质量不符合目标要求中的至少一个;
第二发送模块,用于当所述申诉请求的仲裁结果为审核员错误时,将所述仲裁结果发送至审核员端。
15.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1或2所述的数据标注方法或,权利要求3-5任一所述的标注员考核方法,或权利要求6-10任一所述标注结果审核方法的步骤。
16.一种存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1或2所述的数据标注方法或,权利要求3-5任一所述的标注员考核方法,或权利要求6-10任一所述标注结果审核方法的步骤。
CN202110288665.7A 2021-03-17 2021-03-17 一种数据标注方法、标注员考核方法及标注结果审核方法 Pending CN113159123A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110288665.7A CN113159123A (zh) 2021-03-17 2021-03-17 一种数据标注方法、标注员考核方法及标注结果审核方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110288665.7A CN113159123A (zh) 2021-03-17 2021-03-17 一种数据标注方法、标注员考核方法及标注结果审核方法

Publications (1)

Publication Number Publication Date
CN113159123A true CN113159123A (zh) 2021-07-23

Family

ID=76887694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110288665.7A Pending CN113159123A (zh) 2021-03-17 2021-03-17 一种数据标注方法、标注员考核方法及标注结果审核方法

Country Status (1)

Country Link
CN (1) CN113159123A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673957A (zh) * 2021-08-23 2021-11-19 中国人民解放军32801部队 文本数据的离线众包标注方法
CN113722555A (zh) * 2021-07-29 2021-11-30 武汉光庭信息技术股份有限公司 一种数据标注项质检方法及系统
CN114972846A (zh) * 2022-04-29 2022-08-30 上海深至信息科技有限公司 一种超声图像标注系统
CN115618810A (zh) * 2022-12-20 2023-01-17 中化现代农业有限公司 一种提升数据标注准确率的方法及装置
CN116051558A (zh) * 2023-03-31 2023-05-02 菲特(天津)检测技术有限公司 一种缺陷图像标注方法、装置、设备及介质
WO2023168964A1 (zh) * 2022-03-07 2023-09-14 华为云计算技术有限公司 一种数据切分方法及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062950A (zh) * 2018-06-22 2018-12-21 北京奇艺世纪科技有限公司 一种文本标注的方法及装置
WO2019137196A1 (zh) * 2018-01-11 2019-07-18 阿里巴巴集团控股有限公司 图像标注信息助理方法、装置、服务器及系统
CN111506554A (zh) * 2019-11-08 2020-08-07 马上消费金融股份有限公司 数据标注方法以及相关装置
CN111695613A (zh) * 2020-05-28 2020-09-22 平安科技(深圳)有限公司 数据标注系统、计算机可读存储介质及电子设备
CN112270532A (zh) * 2020-11-12 2021-01-26 北京百度网讯科技有限公司 一种数据处理方法、装置、电子设备以及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019137196A1 (zh) * 2018-01-11 2019-07-18 阿里巴巴集团控股有限公司 图像标注信息助理方法、装置、服务器及系统
CN109062950A (zh) * 2018-06-22 2018-12-21 北京奇艺世纪科技有限公司 一种文本标注的方法及装置
CN111506554A (zh) * 2019-11-08 2020-08-07 马上消费金融股份有限公司 数据标注方法以及相关装置
CN111695613A (zh) * 2020-05-28 2020-09-22 平安科技(深圳)有限公司 数据标注系统、计算机可读存储介质及电子设备
CN112270532A (zh) * 2020-11-12 2021-01-26 北京百度网讯科技有限公司 一种数据处理方法、装置、电子设备以及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722555A (zh) * 2021-07-29 2021-11-30 武汉光庭信息技术股份有限公司 一种数据标注项质检方法及系统
CN113673957A (zh) * 2021-08-23 2021-11-19 中国人民解放军32801部队 文本数据的离线众包标注方法
WO2023168964A1 (zh) * 2022-03-07 2023-09-14 华为云计算技术有限公司 一种数据切分方法及相关装置
CN114972846A (zh) * 2022-04-29 2022-08-30 上海深至信息科技有限公司 一种超声图像标注系统
CN115618810A (zh) * 2022-12-20 2023-01-17 中化现代农业有限公司 一种提升数据标注准确率的方法及装置
CN116051558A (zh) * 2023-03-31 2023-05-02 菲特(天津)检测技术有限公司 一种缺陷图像标注方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN113159123A (zh) 一种数据标注方法、标注员考核方法及标注结果审核方法
TWI598755B (zh) 資料分析系統、資料分析方法、內儲資料分析程式的電腦程式產品及內儲資料分析程式的記錄媒體
US9195910B2 (en) System and method for classification with effective use of manual data input and crowdsourcing
US9390378B2 (en) System and method for high accuracy product classification with limited supervision
EP4040401A1 (en) Image processing method and apparatus, device and storage medium
AU2020200909A1 (en) Evaluation control
WO2022105115A1 (zh) 问答对匹配方法、装置、电子设备及存储介质
CN109062950B (zh) 一种文本标注的方法及装置
Galatzan et al. Exploring the state of the science of the nursing hand-off communication
WO2019179010A1 (zh) 数据集获取方法、分类方法、装置、设备及存储介质
WO2017157165A1 (zh) 信用分数模型训练方法、信用分数计算方法、装置及服务器
WO2020237872A1 (zh) 语义分析模型准确度的校验方法、装置、存储介质及设备
CN112528703B (zh) 一种识别表格结构的方法、装置及电子设备
CN112685324A (zh) 一种生成测试方案的方法及系统
CN109346146B (zh) 处方审核分配方法、电子设备及存储介质
CN107330076A (zh) 一种网络舆情信息展示系统及方法
Gui et al. REndo: internal instrumental variables to address endogeneity
US11803796B2 (en) System, method, electronic device, and storage medium for identifying risk event based on social information
CN112989050A (zh) 一种表格分类方法、装置、设备及存储介质
WO2019084864A1 (zh) 电子病历的评价方法及装置
CN115310772A (zh) 一种药械质量监管结果数据监测方法、药械交易平台及系统
CN114520059A (zh) 一种基于大数据的中医诊断学数据平台
CN114548263A (zh) 标注数据的校验方法、装置、计算机设备及存储介质
CN112819925A (zh) 病灶标注的处理方法、装置、电子设备和介质
CN117974065B (zh) 一种基于chatGLM模型的交流指引系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination