CN110880021B - 模型辅助式数据标注系统及标注方法 - Google Patents

模型辅助式数据标注系统及标注方法 Download PDF

Info

Publication number
CN110880021B
CN110880021B CN201911075918.1A CN201911075918A CN110880021B CN 110880021 B CN110880021 B CN 110880021B CN 201911075918 A CN201911075918 A CN 201911075918A CN 110880021 B CN110880021 B CN 110880021B
Authority
CN
China
Prior art keywords
labeling
model
result
data
annotation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911075918.1A
Other languages
English (en)
Other versions
CN110880021A (zh
Inventor
张发恩
敖川
秦永强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alnnovation Beijing Technology Co ltd
Original Assignee
Alnnovation Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alnnovation Beijing Technology Co ltd filed Critical Alnnovation Beijing Technology Co ltd
Priority to CN201911075918.1A priority Critical patent/CN110880021B/zh
Publication of CN110880021A publication Critical patent/CN110880021A/zh
Application granted granted Critical
Publication of CN110880021B publication Critical patent/CN110880021B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种模型辅助式数据标注系统,包括:模型辅助标注子系统,用于基于辅助标注模型自动对所述输入图像进行数据标注,并得到一模型辅助数据标注结果并存储;人工标注子系统,连接所述模型辅助标注子系统,用于将所述输入图像提供给标注人员进行人工数据标注,并得到一第一人工数据标注结果并存储,所述人工标注子系统还用于将所述模型辅助标注子系统标注的所述模型辅助数据标注结果提供给所述标注人员,以对所述模型辅助数据标注结果进行进一步的人工标注,得到一第二人工数据标注结果并存储,本发明将系统数据标注和人工数据标注结合起来,并根据人工数据标记结果迭代更新辅助标注模型,提高了系统数据标注的速度和准确度。

Description

模型辅助式数据标注系统及标注方法
技术领域
本发明涉及一种数据标注系统,尤其涉及一种基于计算机视觉识别技术的模型辅助式数据标注系统及标注方法。
背景技术
近些年,基于深度学习的计算机视觉识别技术被广泛应用于各行各业。一个表现优异的深度学习模型需要大量的高质量的标注数据予以支持,而这些高质量的标注数据目前几乎全部采用人工标注方式标注而得。人工数据标注方式效率十分低下,而且标注结果是否准确很大程度上依赖于标注人员的标注水平,所以通过人工标注方式对数据进行标注的质量无法实现有效保证。
另外比如在图像数据标注场景中,现有的数据标注系统需要对新加入的图像进行从头至尾的重新标记,而大多时候,新加入的图像中的大部分区域与已经过数据标注的旧图像的图像内容完全相同。此时若系统对新图像进行数据重新标注,无疑降低了数据标注系统的数据标注效率。
发明内容
本发明的目的在于提供一种模型辅助式数据标注系统,以解决上述技术问题。
为达此目的,本发明采用以下技术方案:
提供一种模型辅助式数据标注系统,用于对输入图像进行数据标注,包括:
模型辅助标注子系统,用于基于训练形成的辅助标注模型自动对所述输入图像进行数据标注,并得到一模型辅助数据标注结果并存储;
人工标注子系统,连接所述模型辅助标注子系统,用于将所述输入图像提供给标注人员进行人工数据标注,并得到一第一人工数据标注结果并存储,
所述人工标注子系统还用于将所述模型辅助标注子系统标注的所述模型辅助数据标注结果提供给所述标注人员,以对所述模型辅助数据标注结果进行进一步的人工标注,得到一第二人工数据标注结果并存储;
所述模型辅助标注子系统还用于以所述模型辅助数据标注结果、和/或所述第一人工数据标注结果、和/或所述第二人工数据标注结果为训练样本,训练得到所述辅助标注模型。
优选地,所述模型辅助标注子系统中包括:
超参策略选择模块,用于提供给一模型训练模块选择训练所述辅助标注模型所需的超参数;
网络架构选择模块,用于提供给所述模型训练模块选择训练所述辅助标注模型所需的网络架构;
模型训练模块,分别连接所述超参策略选择模块和所述网络架构选择模块,用于以所述模型辅助数据标注结果、和/或所述第一人工数据标注结果、和/或所述第二人工数据标注结果作为训练样本,并基于所选的各所述超参数和对应的所述网络架构,训练得到多个所述辅助标注模型;
模型评价模块,连接所述模型训练模块,用于对各所述辅助标注模型进行模型评价,最终确定用于对输入图像进行数据标注的最优的所述辅助标注模型;
模型推理模块,连接所述模型评价模块,用于将最优的所述辅助标注模型推送给一模型辅助数据标注模块;
模型辅助数据标注模块,连接所述模型推理模块,用于基于最优的所述辅助标注模型自动对所述输入图像进行数据标注,并得到所述模型辅助数据标注结果并存储。
优选地,所述人工标注子系统中具体包括:
图像获取模块,用于获取所述输入图像、和/或所述模型辅助数据标记结果;
多边形区域标注模块,连接所述图像获取模块,用于将所述输入图像、和/或所述模型辅助数据标记结果通过一人机交互界面提供给所述标注人员,并提示所述标注人员在所述输入图像、和/或所述模型辅助数据标记结果中以多边形区域标注方式标注出关联于待标注对象的多个多边形区域,得到一区域标注结果并存储;
类别标注模块,连接所述多边形区域标注模块,用于提供给所述标注人员对各所述多边形区域进行对应的类别标注,得到一类别标注结果;
任务分发模块,分别连接所述多边形区域标注模块和所述类别标注模块,用于将所述区域标记结果、和/或所述类别标注结果分发给对应的所述标注人员,以提供给对应的所述标注人员对所述区域标注结果、和/或类别标注结果进行进一步的纠正标注,得到纠正标注结果并存储;
质检审核模块,连接所述任务分发模块,用于提供给质检审核人员对所述纠正标注结果进行质检审核,得到一质检审核结果并存储;
人工数据标注结果输出模块,分别连接所述多边形区域标注模块、所述类别标注模块、所述任务分发模块和连接所述质检审核模块,用于将所述区域标注结果、和/或所述类别标注结果、和/或所述纠正标注结果、和/或所述质检审核结果作为人工数据标注结果并输出;
交互模块,分别连接所述图像获取模块、所述多边形区域标注模块、所述类别标注模块、所述任务分发模块、所述质检审核模块和所述人工数据标注结果输出模块,用于实现所述人工标注子系统与所述标注人员以及与所述质检审核人员的人机交互。
优选地,所述人工标注子系统还包括:
绩效管理模块,分别连接所述多边形区域标注模块、所述类别标注模块、所述任务分发模块和所述质检审核模块,用于对各所述标注人员和各所述质检审核人员进行工作绩效管理。
优选地,所述模型辅助标注子系统通过一API应用程序接口将所述模型辅助数据标注结果发送给所述人工标注子系统。
本发明还提供一种模型辅助式数据标注方法,通过应用所述模型辅助式数据标注系统实现,包括如下步骤:
步骤S1,所述模型辅助式数据标注系统通过所述模型辅助标注子系统自动对所述输入图像进行数据标注,得到所述模型辅助数据标记结果并存储;
步骤S2,所述模型辅助式数据标注系统中的所述人工标注子系统于所述模型辅助标注子系统处获取所述模型辅助数据标记结果;
步骤S3,所述人工标注子系统将所述模型辅助数据标注结果提供给标注人员,以对所述模型辅助数据标注结果进行进一步的人工标注,得到一人工数据标注结果并存储;
步骤S4,所述模型辅助式数据标注系统将所述人工数据标注结果作为系统最终对所述输入图像的数据标记结果并输出。
本发明还提供另外一种模型辅助式数据标注方法,同样通过应用所述模型辅助式数据标注系统实现,包括如下步骤:
步骤L1,所述模型辅助式数据标注系统通过所述人工标注子系统对所述输入图像进行人工数据标注,得到所述第一人工数据标注结果并存储;
步骤L2,所述模型辅助式数据标注系统将所述第一人工数据标注结果输出给所述模型辅助标注子系统进行进一步的数据标注,得到所述模型辅助数据标注结果并存储;
步骤L3,所述人工标注子系统于模型辅助标注子系统处获取所述模型辅助数据标注结果,并将所述模型辅助数据标注结果提供给所述标注人员,以对所述模型辅助数据标注结果进行进一步的人工标注,得到所述第二人工数据标注结果;
步骤L4,所述模型辅助式数据标注系统将所述第二人工数据标注结果作为系统最终对所述输入图像的数据标注结果并输出。
优选地,所述步骤S1中,所述模型辅助标注子系统通过所述辅助标注模型自动对所述输入图像进行数据标注;
所述辅助标注模型的训练方法具体包括如下步骤:
步骤M1,所述模型辅助标注子系统选择模型训练所需的超参数;
步骤M2,所述模型辅助标注子系统选择模型训练所需的网络架构;
步骤M3,所述模型辅助标注子系统以所述模型辅助数据标记结果、和/或所述人工数据标注结果为训练样本,并基于所选的各所述超参数和所述网络架构,最终训练得到所述辅助标注模型。
优选地,所述步骤M2中的所述网络架构为卷积神经网络的网络架构。
优选地,所述步骤L1中,所述人工标注子系统对所述输入图像进行人工数据标注的方法具体包括如下步骤:
步骤N1,所述人工标注子系统获取所述输入图像;
步骤N2,所述人工标注子系统通过一人机交互界面将所述输入图像提供给标注人员,并提示所述标注人员以多边形区域标注方式在所述输入图像中标注出关联于待标注对象的多个多边形区域,得到一区域标注结果并存储;
步骤N3,所述标注人员对各所述多边形区域进行对应的类别标注,得到一类别标注结果;
步骤N4,所述人工标注子系统将所述区域标注结果、和/或所述类别标注结果分发给对应的所述标注人员,以提供给对应的所述标注人员对所述区域标注结果、和/或所述类别标注结果进行进一步的纠正标注,得到一纠正标注结果并存储;
步骤N5,所述人工标注子系统将所述纠正标注结果发送给对应的质检审核人员进行质检审核,得到一质检审核结果并存储;
步骤N6,所述人工标注子系统将所述区域标注结果、和/或类别标注结果、和/或纠正标注结果、和/或所述质检审核结果作为人工数据标注结果并输出。
本发明提供的模型辅助式数据标注系统将系统自动数据标注和人工数据标注结合起来,通过把大部分的数据标注比如重复的数据标注工作交给系统自动标注,对少量新加入的数据通过人工标注方式进行数据标注,然后根据人工数据标记结果迭代更新系统的辅助标注模型,提高了系统自动数据标注的速度和准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的模型辅助式数据标注系统的结构示意图;
图2是本发明实施例提供的模型辅助式数据标注系统中的模型辅助标注子系统的结构示意图;
图3是本发明实施例提供的模型辅助式数据标注系统中的人工标注子系统的结构示意图;
图4是本发明提供的一种模型辅助式数据标注方法的步骤图一;
图5是本发明提供的一种模型辅助式数据标注方法的步骤图二;
图6是本发明实施例提供的模型辅助式数据标注系统训练辅助标注模型的方法步骤图;
图7是本发明实施例提供的模型辅助式数据标注系统对输入图像进行人工数据标注的方法步骤图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
本发明实施例提供的一种基于计算机视觉识别技术的模型辅助式数据标注系统,用于对输入图像进行数据标注,请参照图1,该数据标注系统包括:
模型辅助标注子系统10,用于基于训练形成的辅助标注模型自动对输入图像进行数据标注,并得到一模型辅助数据标注结果并存储;
人工标注子系统20,连接模型辅助标注子系统10,用于将输入图像提供给标注人员进行人工数据标注,并得到一第一人工数据标注结果并存储;
人工标注子系统20还用于将模型辅助标注子系统10标注的模型辅助数据标注结果提供给标注人员,以对模型辅助数据标注结果进行进一步的人工标注,得到一第二人工数据标注结果并存储;
模型辅助标注子系统10还用于以模型辅助数据标注结果、和/或第一人工数据标注结果、和/或第二人工数据标注结果为训练样本,训练得到辅助标注模型。
请具体参照图2,模型辅助标注子系统10中包括:
超参策略选择模块101,用于提供给一模型训练模块选择训练辅助标注模型所需的超参数;
网络架构选择模块102,用于提供给模型训练模块103选择训练辅助标注模型所需的网络架构;
模型训练模块103,分别连接超参策略选择模块101和网络架构选择模块102,用于以模型辅助数据标注结果、和/或第一人工数据标注结果、和/或第二人工数据标注结果作为训练样本,并基于所选的各超参数和对应的网络架构,训练得到多个辅助标注模型;
模型评价模块104,连接模型训练模块103,用于对各辅助标注模型进行模型评价,最终确定用于对输入图像进行数据标注的最优的辅助标注模型;
模型推理模块105,连接模型评价模块104,用于将最优的辅助标注模块推送给一模型辅助数据标注模块;
模型辅助数据标注模块106,连接模型推理模块105,用于基于最优的辅助标注模型自动对输入图像进行数据标注,并得到模型辅助数据标注结果并存储。
上述技术方案中,超参策略选择模块101对于训练辅助标注模块所需的超参数的选择优选通过以下两种方式实现:
一是算法工程师根据经验将各超参数预设于超参策略选择模块101中,在训练辅助标注模型时,模型训练模块103直接调用存储在超参策略选择模块101中的各超参数即可。
二是为超参策略选择模块101设定搜索空间,超参策略选择模块101在该搜索空间内搜索训练辅助标注模型所需的超参数。
另外,上述技术方案中,模型训练模块103在训练辅助标注模型前还需要选择合适的网络架构,以实现对辅助标注模型的训练。对于网络架构的选择主要通过以下两种方式进行:
一是算法工程师将网络架构预设在网络架构选择模块102中,系统在训练辅助标注模型时,直接调用预设的网络架构对辅助标注模型进行训练即可。
二是在根据选择的超参数,在一网络架构库中搜索处适合的网络架构,以实现对辅助标注模型的训练。
上述的网络架构优选为现有技术中存在的卷积神经网络架构。
另外,由于对超参数和网络架构的选择过程并非本发明要求权利保护的范围,所以对于超参数和网络架构的具体选择过程在此不作阐述。
上述技术方案中,模型评价模块104从多个辅助标注模型中选择最优的辅助标注模型的过程为现有技术,在此不作阐述。
请继续参照图3,人工标注子系统20中具体包括:
图像获取模块201,用于获取输入图像、和/或模型辅助数据标记结果;
多边形区域标注模块202,连接图像获取模块201,用于将输入图像、和/或模型辅助数据标记结果通过一人机交互界面提供给标注人员,并提示标注人员在输入图像、和/或模型辅助数据标记结果中以多边形区域标注方式标注出关联于待标注对象的多个多边形区域,得到一区域标注结果并存储;
类别标注模块203,连接多边形区域标注模块202,用于提供给标注人员对各多边形区域进行对应的类别标注,得到一类别标注结果;
任务分发模块204,分别连接多边形区域标注模块202和类别标注模块203,用于将区域标注结果、和/或类别标注结果分发给对应的标注人员,以提供给对应的标注人员对区域标注结果、和/或类别标注结果进行进一步的纠正标注,得到纠正标注结果并存储;
质检审核模块205,连接任务分发模块204,用于提供给质检审核人员对纠正标注结果进行质检审核,得到一质检审核结果并存储;
人工数据标注结果输出模块206,分别连接多边形区域标注模块202、类别标注模块203、任务分发模块204和质检审核模块205,用于将区域标注结果、和/或类别标注结果、和/或纠正标注结果、和/或质检审核结果作为人工数据标注结果并输出;
交互模块207,分别连接图像获取模块201、多边形区域标注模块202、类别标注模块203、任务分发模块204、质检审核模块205和人工数据标注结果输出模块206,用于实现人工标注子系统与标注人员以及质检审核人员的人机交互。
这里需要说明的是,人工数据标注结果包括上述的第一人工数据标注结果和第二人工数据标注结果。
请参照图3,更优选地,人工标注子系统还包括:
绩效管理模块208,分别连接多边形区域标注模块202、类别标注模块203、任务分发模块204和质检审核模块205,用于对各标注人员和各质检审核人员进行工作绩效管理。
上述技术方案中,模型辅助标注子系统优选通过一API应用程序接口将模型辅助数据标注结果发送给人工标注子系统。
本发明还提供了一种模型辅助式数据标注方法,通过应用上述的模型辅助式数据标注系统实现,请参照图4,具体包括如下步骤:
步骤S1,模型辅助式数据标注系统通过模型辅助标注子系统自动对输入图像进行数据标注,得到模型辅助数据标记结果并存储;
步骤S2,模型辅助式数据标注系统中的人工标注子系统于模型辅助标注子系统处获取模型辅助数据标记结果;
步骤S3,人工标注子系统将模型辅助数据标注结果提供给标注人员,以对模型辅助数据标注结果进行进一步的人工标注,得到一人工数据标注结果并存储;
步骤S4,模型辅助式数据标注系统将人工数据标注结果作为系统最终对输入图像的数据标记结果并输出。
本发明还提供了另外一种模型辅助式数据标注方法,同样通过应用上述的模型辅助式数据标注系统实现,请参照图5,具体包括如下步骤:
步骤L1,模型辅助式数据标注系统通过人工标注子系统对输入图像进行人工数据标注,得到第一人工数据标注结果并存储;
步骤L2,模型辅助式数据标注系统将第一人工数据标注结果输出给模型辅助标注子系统进行进一步的数据标注,得到模型辅助数据标注结果并存储;
步骤L3,人工标注子系统于模型辅助标注子系统处获取模型辅助数据标注结果,并将模型辅助数据标注结果提供给标注人员,以对模型辅助数据标注结果进行进一步的人工标注,得到第二人工数据标注结果;
步骤L4,模型辅助式数据标注系统将第二人工数据标注结果作为系统最终对输入图像的数据标注结果并输出。
上述技术方案中,步骤S1中,模型辅助标注子系统通过辅助标注模型自动对输入图像或第一人工数据标注结果进行数据标注,
请具体参照图6,辅助标注模型的训练方法优选包括如下步骤:
步骤M1,模型辅助标注子系统选择模型训练所需的超参数;
步骤M2,模型辅助标注子系统选择模型训练所需的网络架构;
步骤M3,模型辅助标注子系统以模型辅助数据标记结果、和/或人工数据标注结果为训练样本,并基于所选的各超参数和网络架构,最终训练得到辅助标注模型。
更优选地,步骤M2中的网络架构为卷积神经网络的网络架构,该网络架构为现有的网络架构,模型辅助标注子系统基于该网络架构训练得到辅助标注模型的具体过程并非本发明要求权利保护的范围,所以在此不作详细阐述。
请继续参照图7,步骤L1中,人工标注子系统对输入图像进行人工数据标注的方法具体包括如下步骤:
步骤N1,人工标注子系统获取输入图像;
步骤N2,人工标注子系统通过一人机交互界面将输入图像提供给标注人员,并提示标注人员以多边形区域标注方式在输入图像中标注出关联于待标注对象的多个多边形区域,得到一区域标注结果并存储;
步骤N3,标注人员对各多边形区域进行对应的类别标注,得到一类别标注结果;
步骤N4,人工标注子系统将区域标注结果、和/或类别标注结果分发给对应的标注人员,以提供给对应的标注人员对区域标注结果、和/或类别标注结果进行进一步的纠正标注,得到纠正标注结果并存储;
步骤N5,人工标注子系统将纠正标注结果发送给对应的质检审核人员进行质检审核,得到一质检审核结果并存储;
步骤N6,人工标注子系统将区域标注结果、和/或类别标注结果、和/或纠正标注结果、和/或质检审核结果作为人工数据标注结果并输出。
上述技术方案中,人工标注子系统对模型辅助数据标注结果进行进一步的人工数据标注的方法过程与对输入图像的人工数据标注的方法过程完全一致,在此不再赘述。
上述技术方案中,模型辅助式数据标注系统通过模型自动数据标注和人工数据标注两种标注方式对输入图像进行交替数据标注,并迭代训练辅助标注模型,使得通过该辅助标注模型识别输出的数据标注结果越来越精确,人工纠正的工作量越来越小,大幅提高了数据标注的速度和数据标注准确率。
需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。

Claims (9)

1.一种模型辅助式数据标注系统,用于对输入图像进行数据标注,其特征在于,包括:
模型辅助标注子系统,用于基于训练形成的辅助标注模型自动对所述输入图像进行数据标注,并得到一模型辅助数据标注结果并存储;
人工标注子系统,连接所述模型辅助标注子系统,用于将所述输入图像提供给标注人员进行人工数据标注,并得到一第一人工数据标注结果并存储,
所述人工标注子系统还用于将所述模型辅助标注子系统标注的所述模型辅助数据标注结果提供给所述标注人员,以对所述模型辅助数据标注结果进行进一步的人工标注,得到一第二人工数据标注结果并存储;
所述模型辅助标注子系统还用于以所述模型辅助数据标注结果、和/或所述第一人工数据标注结果、和/或所述第二人工数据标注结果为训练样本,训练得到所述辅助标注模型;所述模型辅助标注子系统中包括:
超参策略选择模块,用于提供给一模型训练模块选择训练所述辅助标注模型所需的超参数;
网络架构选择模块,用于提供给所述模型训练模块选择训练所述辅助标注模型所需的网络架构;
模型训练模块,分别连接所述超参策略选择模块和所述网络架构选择模块,用于以所述模型辅助数据标注结果、和/或所述第一人工数据标注结果、和/或所述第二人工数据标注结果作为训练样本,并基于所选的各所述超参数和对应的所述网络架构,训练得到多个所述辅助标注模型;
模型评价模块,连接所述模型训练模块,用于对各所述辅助标注模型进行模型评价,最终确定用于对输入图像进行数据标注的最优的所述辅助标注模型;
模型推理模块,连接所述模型评价模块,用于将最优的所述辅助标注模型推送给一模型辅助数据标注模块;
模型辅助数据标注模块,连接所述模型推理模块,用于基于最优的所述辅助标注模型自动对所述输入图像进行数据标注,并得到所述模型辅助数据标注结果并存储。
2.如权利要求1所述的模型辅助式数据标注系统,其特征在于,所述人工标注子系统中具体包括:
图像获取模块,用于获取所述输入图像、和/或所述模型辅助数据标记结果;
多边形区域标注模块,连接所述图像获取模块,用于将所述输入图像、和/或所述模型辅助数据标记结果通过一人机交互界面提供给所述标注人员,并提示所述标注人员在所述输入图像、和/或所述模型辅助数据标记结果中以多边形区域标注方式标注出关联于待标注对象的多个多边形区域,得到一区域标注结果并存储;
类别标注模块,连接所述多边形区域标注模块,用于提供给所述标注人员对各所述多边形区域进行对应的类别标注,得到一类别标注结果;
任务分发模块,分别连接所述多边形区域标注模块和所述类别标注模块,用于将所述区域标注结果、和/或所述类别标注结果分发给对应的所述标注人员,以提供给对应的所述标注人员对所述区域标注结果、和/或类别标注结果进行进一步的纠正标注,得到纠正标注结果并存储;
质检审核模块,连接所述任务分发模块,用于提供给质检审核人员对所述纠正标注结果进行质检审核,得到一质检审核结果并存储;
人工数据标注结果输出模块,分别连接所述多边形区域标注模块、所述类别标注模块、所述任务分发模块和连接所述质检审核模块,用于将所述区域标注结果、和/或所述类别标注结果、和/或所述纠正标注结果、和/或所述质检审核结果作为人工数据标注结果并输出;
交互模块,分别连接所述图像获取模块、所述多边形区域标注模块、所述类别标注模块、所述任务分发模块、所述质检审核模块和所述人工数据标注结果输出模块,用于实现所述人工标注子系统与所述标注人员以及与所述质检审核人员的人机交互。
3.如权利要求2所述的模型辅助式数据标注系统,其特征在于,所述人工标注子系统还包括:
绩效管理模块,分别连接所述多边形区域标注模块、所述类别标注模块、所述任务分发模块和所述质检审核模块,用于对各所述标注人员和各所述质检审核人员进行工作绩效管理。
4.如权利要求1所述的模型辅助式数据标注系统,其特征在于,所述模型辅助标注子系统通过一API应用程序接口将所述模型辅助数据标注结果发送给所述人工标注子系统。
5.一种模型辅助式数据标注方法,通过应用如权利 要求 1-4任意一项所述的模型辅助式数据标注系统实现,其特征在于,包括如下步骤:
步骤S1,所述模型辅助式数据标注系统通过所述模型辅助标注子系统自动对所述输入图像进行数据标注,得到所述模型辅助数据标记结果并存储;
步骤S2,所述模型辅助式数据标注系统中的所述人工标注子系统于所述模型辅助标注子系统处获取所述模型辅助数据标记结果;
步骤S3,所述人工标注子系统将所述模型辅助数据标注结果提供给标注人员,以对所述模型辅助数据标注结果进行进一步的人工标注,得到一人工数据标注结果并存储;
步骤S4,所述模型辅助式数据标注系统将所述人工数据标注结果作为系统最终对所述输入图像的数据标记结果并输出。
6.如权利要求5所述的模型辅助式数据标注方法,其特征在于,所述步骤S1中,所述模型辅助标注子系统通过所述辅助标注模型自动对所述输入图像进行数据标注;
所述辅助标注模型的训练方法具体包括如下步骤:
步骤M1,所述模型辅助标注子系统选择模型训练所需的超参数;
步骤M2,所述模型辅助标注子系统选择模型训练所需的网络架构;
步骤M3,所述模型辅助标注子系统以所述模型辅助数据标记结果、和/或所述人工数据标注结果为训练样本,并基于所选的各所述超参数和所述网络架构,最终训练得到所述辅助标注模型。
7.如权利要求6所述的模型辅助式数据标注方法,其特征在于,所述步骤M2中的所述网络架构为卷积神经网络的网络架构。
8.一种模型辅助式数据标注方法,通过应用如权利 要求 1-4任意一项所述的模型辅助式数据标注系统实现,其特征在于,包括如下步骤:
步骤L1,所述模型辅助式数据标注系统通过所述人工标注子系统对所述输入图像进行人工数据标注,得到所述第一人工数据标注结果并存储;
步骤L2,所述模型辅助式数据标注系统将所述第一人工数据标注结果输出给所述模型辅助标注子系统进行进一步的数据标注,得到所述模型辅助数据标注结果并存储;
步骤L3,所述人工标注子系统于模型辅助标注子系统处获取所述模型辅助数据标注结果,并将所述模型辅助数据标注结果提供给所述标注人员,以对所述模型辅助数据标注结果进行进一步的人工标注,得到所述第二人工数据标注结果;
步骤L4,所述模型辅助式数据标注系统将所述第二人工数据标注结果作为系统最终对所述输入图像的数据标注结果并输出。
9.如权利要求8所述的模型辅助式数据标注方法,其特征在于,所述步骤L1中,所述人工标注子系统对所述输入图像进行人工数据标注的方法具体包括如下步骤:
步骤N1,所述人工标注子系统获取所述输入图像;
步骤N2,所述人工标注子系统通过一人机交互界面将所述输入图像提供给标注人员,并提示所述标注人员以多边形区域标注方式在所述输入图像中标注出关联于待标注对象的多个多边形区域,得到一区域标注结果并存储;
步骤N3,所述标注人员对各所述多边形区域进行对应的类别标注,得到一类别标注结果;
步骤N4,所述人工标注子系统将所述区域标注结果、和/或所述类别标注结果分发给对应的所述标注人员,以提供给对应的所述标注人员对所述区域标注结果、和/或所述类别标注结果进行进一步的纠正标注,得到一纠正标注结果并存储;
步骤N5,所述人工标注子系统将所述纠正标注结果发送给对应的质检审核人员进行质检审核,得到一质检审核结果并存储;
步骤N6,所述人工标注子系统将所述区域标注结果、和/或类别标注结果、和/或纠正标注结果、和/或所述质检审核结果作为人工数据标注结果并输出。
CN201911075918.1A 2019-11-06 2019-11-06 模型辅助式数据标注系统及标注方法 Active CN110880021B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911075918.1A CN110880021B (zh) 2019-11-06 2019-11-06 模型辅助式数据标注系统及标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911075918.1A CN110880021B (zh) 2019-11-06 2019-11-06 模型辅助式数据标注系统及标注方法

Publications (2)

Publication Number Publication Date
CN110880021A CN110880021A (zh) 2020-03-13
CN110880021B true CN110880021B (zh) 2021-03-16

Family

ID=69729065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911075918.1A Active CN110880021B (zh) 2019-11-06 2019-11-06 模型辅助式数据标注系统及标注方法

Country Status (1)

Country Link
CN (1) CN110880021B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539446A (zh) * 2020-04-21 2021-10-22 杭州普健医疗科技有限公司 Ct图像标注方法及系统、存储介质及终端
CN111724402B (zh) * 2020-06-18 2021-07-20 北京小白世纪网络科技有限公司 一种医疗影像标注方法、系统及装置
CN112906349A (zh) * 2021-03-30 2021-06-04 苏州大学 一种数据标注的方法、系统、设备及可读存储介质
CN113380384A (zh) * 2021-05-01 2021-09-10 首都医科大学宣武医院 人机协同训练医学影像标注模型的方法、标注方法及系统
CN117763349A (zh) * 2023-12-07 2024-03-26 成都市汇众天智科技有限责任公司 基于机器学习与区块链的大规模数据智能标注系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009053613A1 (fr) * 2007-10-10 2009-04-30 Eads Defence And Security Systems Procede et systeme d'annotation de documents multimedia
CN105404896A (zh) * 2015-11-03 2016-03-16 北京旷视科技有限公司 标注数据处理方法和标注数据处理系统
CN108009589A (zh) * 2017-12-12 2018-05-08 腾讯科技(深圳)有限公司 样本数据处理方法、装置和计算机可读存储介质
CN108805163A (zh) * 2018-04-27 2018-11-13 淘然视界(杭州)科技有限公司 衣服图像自动标注方法
CN108985293A (zh) * 2018-06-22 2018-12-11 深源恒际科技有限公司 一种基于深度学习的图像自动化标注方法及系统
CN109446369A (zh) * 2018-09-28 2019-03-08 武汉中海庭数据技术有限公司 图像半自动标注的交互方法及系统
CN109492686A (zh) * 2018-11-01 2019-03-19 郑州云海信息技术有限公司 一种图片标注方法与系统
CN109816019A (zh) * 2019-01-25 2019-05-28 上海小萌科技有限公司 一种图像数据自动化辅助标注方法
CN110287324A (zh) * 2019-06-27 2019-09-27 成都冰鉴信息科技有限公司 一种针对粗粒度文本分类的数据动态标注方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009053613A1 (fr) * 2007-10-10 2009-04-30 Eads Defence And Security Systems Procede et systeme d'annotation de documents multimedia
CN105404896A (zh) * 2015-11-03 2016-03-16 北京旷视科技有限公司 标注数据处理方法和标注数据处理系统
CN108009589A (zh) * 2017-12-12 2018-05-08 腾讯科技(深圳)有限公司 样本数据处理方法、装置和计算机可读存储介质
CN108805163A (zh) * 2018-04-27 2018-11-13 淘然视界(杭州)科技有限公司 衣服图像自动标注方法
CN108985293A (zh) * 2018-06-22 2018-12-11 深源恒际科技有限公司 一种基于深度学习的图像自动化标注方法及系统
CN109446369A (zh) * 2018-09-28 2019-03-08 武汉中海庭数据技术有限公司 图像半自动标注的交互方法及系统
CN109492686A (zh) * 2018-11-01 2019-03-19 郑州云海信息技术有限公司 一种图片标注方法与系统
CN109816019A (zh) * 2019-01-25 2019-05-28 上海小萌科技有限公司 一种图像数据自动化辅助标注方法
CN110287324A (zh) * 2019-06-27 2019-09-27 成都冰鉴信息科技有限公司 一种针对粗粒度文本分类的数据动态标注方法及装置

Also Published As

Publication number Publication date
CN110880021A (zh) 2020-03-13

Similar Documents

Publication Publication Date Title
CN110880021B (zh) 模型辅助式数据标注系统及标注方法
CN109348275B (zh) 视频处理方法和装置
CN108305050B (zh) 报案信息及服务需求信息的提取方法、装置、设备及介质
JP6800351B2 (ja) 電極シートのバリを検出するための方法および装置
CN109616101B (zh) 声学模型训练方法、装置、计算机设备和可读存储介质
CN103914546A (zh) 数据更新方法及其装置
CN112463986B (zh) 信息存储的方法及装置
JP7128919B2 (ja) 技能用語評定方法および装置、電子機器、コンピュータ読み取り可能な媒体
CN110610698A (zh) 一种语音标注方法及装置
JP6488417B1 (ja) ワークショップ支援システムおよびワークショップ支援方法
EP3822878A3 (en) Method and apparatus for forecasting demand for talent, device, storage medium, and computer program product
CN103377403B (zh) 企业业务组件建模方法和系统
US20150039289A1 (en) Systems and Methods for Representing, Diagnosing, and Recommending Interaction Sequences
AU2022271364A1 (en) Facilitating identification of fillable regions in a form
CN111325031A (zh) 简历解析方法及装置
CN113283231B (zh) 获取签章位的方法、设置系统、签章系统及存储介质
CN106708791A (zh) 数据格式转换方法及装置
CN113762109A (zh) 一种文字定位模型的训练方法及文字定位方法
CN111126493B (zh) 深度学习模型的训练方法、装置、电子设备及存储介质
CN111178442B (zh) 一种提高算法精度的业务实现方法
CN108509563A (zh) 基于知识图谱的机器人推理联想方法、装置、设备及介质
CN113821652A (zh) 模型数据处理方法、装置、电子设备以及计算机可读介质
CN111985471A (zh) 一种车牌定位方法、装置及存储介质
CN116863116A (zh) 基于人工智能的图像识别方法、装置、设备及介质
CN116186089A (zh) 一种产业资源智能匹配方法、系统、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant