CN111985394A - Kitti数据集的半自动实例标注方法及系统 - Google Patents
Kitti数据集的半自动实例标注方法及系统 Download PDFInfo
- Publication number
- CN111985394A CN111985394A CN202010837250.6A CN202010837250A CN111985394A CN 111985394 A CN111985394 A CN 111985394A CN 202010837250 A CN202010837250 A CN 202010837250A CN 111985394 A CN111985394 A CN 111985394A
- Authority
- CN
- China
- Prior art keywords
- labeling
- training
- network
- data set
- instance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Abstract
本发明公开了一种KITTI数据集的半自动实例标注方法及系统,涉及智能网联汽车环境感知数据标注技术领域,解决了现有实例标注效率低且人力成本高的技术问题,其技术方案要点是将待标注的KITTI数据集切分成不同的子集数据集,将子集数据集投入到第一标注网络进行预标注,得到预标注结果,使用Labelme标注软件手动修正预标注结果,得到第一标注结果。由于KITTI数据集本身具有边界框标注信息,标注网络能够利用KITTI数据集的边界框标注信息,精确定位目标位置,而无需标注人员手动框出目标位置。同时,标注人员无需全称参与标注过程,只需专注于标注结果的修正,标注效率高,节约时间和精力。
Description
技术领域
本公开涉及智能网联汽车环境感知数据标注技术领域,尤其涉及一种KITTI数据集的半自动实例标注方法及系统。
背景技术
KITTI数据集因其丰富多样的数据类型和大量精细的标注信息,被广泛应用于智能网联汽车的环境感知算法训练与评估。KITTI数据集主要使用边界框来标注图像中的目标,但是边界框中往往包含来自背景和其他目标的噪声,而实例级别的标注则能够利用掩模来精准定位目标的轮廓,对环境的解析更详细和自然。但是目前KITTI数据集仅包含200张实例级别的标注训练图像,这对于需要大量数据的基于深度学习的环境感知方法是远远不够的,但人工进行实例级别的标注非常耗时耗力。
公布号为CN110826555A的中国发明专利申请公开了一种人机协同的图像目标检测数据半自动标注方法,标注人员提供目标的大致位置,然后网络自动标注目标类别并修正位置,最后标注人员修正标注错误的样本,但是此方法仅用于边界框的标注。与此类似,Polygon-RNN(Castrejon L,Kundu K,Urtasun R,et al.Annotating object instanceswith a polygon-rnn[C]//IEEE conference on computer vision and patternrecognition,2017:4485-4493.)公开了一种人机交互式标注系统,标注人员首先框选出图像中的待标注目标,系统为目标自动生成多边形轮廓,标注人员再通过手动调整和修改轮廓,完成精确的实例级别的标注。这种方法需要标注人员全程参与标注过程,而不是只专注于后期对自动标注的调整,所以该类方法虽然在一定程度上减少了人工标注时间,但是效率提升有限,且此类方法需要标注人员手工框处目标位置,这一步骤的精确与否在很大程度上影响着自动标注结果的好坏,并且对于KITTI数据集来讲,此类半自动标注方法没有利用已有的边界框标注信息。
综上,可知现有技术存在的问题是:当前的半自动标注方法需要标注人员全程参与标注过程,标注效率提升有限,且没有专门针对KITTI数据集的半自动标注方法,没有充分利用KITTI数据集已有的边界框标注信息。
发明内容
本公开提供了一种KITTI数据集的半自动实例标注方法及系统,其技术目的是利用实例分割神经网络根据KITTI数据集已有的边界框标注信息,自动输出预标注结果,标注者只需要专注于修改和细化预标注结果,提高标注效率,节约标注成本。
本公开的上述技术目的是通过以下技术方案得以实现的:
一种KITTI数据集的半自动实例标注方法,包括:
按照需求类别在实例分割数据集中提取实例标注数据,得到训练数据;
将所述训练数据按照训练网络的需求格式生成训练集;
将所述训练集投入到所述训练网络进行训练,得到第一标注网络;
将待标注的KITTI数据集切分成不同的子集数据集,并给所述子集数据集编号为1,2,...,i;i为正整数;
将第1个所述子集数据集投入到所述第一标注网络进行预标注,得到预标注结果;
使用Labelme标注软件手动修正所述预标注结果,得到第一标注结果。
进一步地,包括:
S1:将所述第一标注结果加入到所述训练集得到第一训练集,将所述第一训练集投入到所述训练网络进行训练,得到第二标注网络;
S2:将第2个所述子集数据集投入到所述第二标注网络进行标注,得到第二标注结果;
S3:使用Labelme标注软件手动修正所述第二标注结果,得到第三标注结果;
循环S1-S3,直至全部的i个子集数据集完成标注。
进一步地,所述训练网络包括Mask Scoring R-CNN实例分割网络、Mask-RCNN实例分割网络和PANet实例分割网络。
进一步地,所述实例分割数据集包括Cityscapes数据集、Mapillary Vistas数据集、Apollo Scape数据集和BDD100K数据集。
一种KITTI数据集的半自动实例标注系统,包括:
提取模块,按照需求类别在实例分割数据集中提取实例标注数据,得到训练数据;
生成模块,将所述训练数据按照训练网络的需求格式生成训练集;
训练模块,将所述训练集投入到所述训练网络进行训练,得到第一标注网络;
切分模块,将待标注的KITTI数据集切分成不同的子集数据集,并给所述子集数据集编号为1,2,...,i;i为正整数;
第一标注模块,将第1个所述子集数据集投入到所述第一标注网络进行预标注,得到预标注结果;
第一修正模块,使用Labelme标注软件手动修正所述预标注结果,得到第一标注结果。
进一步地,所述训练模块还用于:将所述第一标注结果加入到所述训练集得到第一训练集,将所述第一训练集投入到所述训练网络进行训练,得到第二标注网络。
进一步地,该系统还包括:
第二标注模块,将第2个所述子集数据集投入到所述第二标注网络进行标注,得到第二标注结果;
第二修正模块,使用Labelme标注软件手动修正所述第二标注结果,得到第三标注结果。
本公开的有益效果在于:本公开所述的KITTI数据集的半自动实例标注方法及系统,按照需求类别在实例分割数据集中提取实例标注数据,得到训练数据,将所述训练数据按照训练网络的需求格式生成训练集,将所述训练集投入到所述训练网络进行训练,得到第一标注网络;将待标注的KITTI数据集切分成不同的子集数据集,将其中一个子集数据集投入到所述第一标注网络进行预标注,得到预标注结果,使用Labelme标注软件手动修正所述预标注结果,得到第一标注结果。由于KITTI数据集本身具有边界框标注信息,标注网络能够利用KITTI数据集的边界框标注信息,精确定位目标位置,而无需标注人员手动框出目标位置。同时,标注人员无需全程参与标注过程,只需专注于标注结果的修正,标注效率高,节约时间和精力。
附图说明
图1为本公开方法流程图;
图2为本公开系统示意图;
图3为本公开实施例一流程图;
图4为本公开实施例二流程图;
图5为本公开标注结果与精细手动标注结果对照图。
具体实施方式
下面将结合附图对本公开技术方案进行详细说明。在本公开的描述中,需要理解地是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量,仅用来区分不同的组成部分。本发明中,“第一标注网络”用来表示训练网络训练出的第1个标注网络,“第二标注网络”用来表示加入子集数据集的标注结果后的训练集再投入到训练网络训练出的第2个,第3个,...,第i个标注网络。“第一标注结果”表示第一标注网络标注后再手动修正的标注结果,“第二标注结果”表示第二标注网络标注后得到的标注结果,“第三标注结果”表示“第二标注结果”手动修正后的标注结果。同理可知“第一修正模块”用于对第一标注网络的标注结果进行修正、,“第二修正模块”用于对第二标注网络的标注结果进行修正,“第一标注模块”用于对第1个投入到第一标注网络的子集数据集进行标注,“第二标注模块”用于对投入到第二标注网络的子集数据集进行标注。
本技术领域技术人员可以理解,除非另外定义,本申请使用的所有术语(包括技术术语和科学术语)具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
图1为本公开方法流程图,如图1所示,首先按照需求类别在实例分割数据集中提取实例标注数据,得到训练数据,再将训练数据按照训练网络的需求格式生成训练集,将训练集投入到训练网络进行训练,得到第一标注网络。将待标注的KITTI数据集切分成不同的子集数据集,并给所述子集数据集编号为1,2,...,i;i为正整数,将第1个子集数据集投入到第一标注网络进行预标注,得到预标注结果,最后使用Labelme标注软件手动修正所述预标注结果,得到第一标注结果。
按需求类别在实例分割数据集中提取实例标注数据,这里的实例分割数据集包括Cityscapes数据集、Mapillary Vistas数据集、Apollo Scape数据集和BDD100K数据集等,这些数据集都从实际交通环境采集而得。如果需要标注的数据类别是汽车,那么就在实例分割数据集中提取关于汽车的实例标注数据,以训练出更精准的标注网络。
一般地,预标注的步骤具体为:屏蔽标注网络中的区域候选网络(RPN,RegionProposal Network),将KITTI数据集已有的边界框信息映射到子集数据集中的特征图中,作为感兴趣区域(RoI,Region of Interest)进行分类与实例轮廓预测,并将预测的类别与掩模信息以Labelme标注软件可读取的json格式文件输出。
图3为本公开实施例一流程图,在得到第一标注结果后,将第一标注结果加入到训练集形成第一训练集,再将第一训练集投入到训练网络进行训练,得到第二标注网络,然后再将待标注的第2个子集数据集投入到第二标注网络进行标注,得到第二标注结果,使用Labelme标注软件手动修正第二标注结果,得到第三标注结果,再将第三标注结果加入道第一训练集中形成第二训练集,循环上述操作,直至全部的子集数据集全部标注完成。此过程能够增加标注网络的训练数据量,使标注结果更精确,并提高手动修正效率。一般地,将待标注的KITTI数据集切分成子集数据集,例如每个子集数据集包括1000张图像,若剩余图像不满1000张也视为一个子集数据集。
图2为本公开系统示意图,该系统包括提取模块、生成模块、训练模块、切分模块、第一标注模块和第一修正模块,各模块的具体作用参考本公开所述方法,不再赘述。
图4为本公开实施例二示意图,在图4中,该系统还包括第二标注模块和第二修正模块,第一标注模块用于将第1个子集数据集投入到第一标注网络进行预标注,得到预标注结果;第一修正模块使用Labelme标注软件手动修正预标注结果,得到第一标注结果。训练模块再使用加上第一标注结果的训练集进行训练,得到第二标注网络,然后第二标注模块将第2个子集数据集投入到第二标注网络进行预标注,得到第二标注结果;第二修正模块使用Labelme标注软件手动修正第二标注结果,得到第三标注结果,循环标注过程参见本公开方法,不再赘述。
图5为本公开标注结果与精细手动标注结果对照图,从图5可知,通过本公开的系统及方法得到的标注结果与精细手动标注结果基本一致,而本申请的标注效率远高于精细手动标准,节约时间,节省人力。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,本公开的保护范围由权利要求书及其等效物限定。
Claims (9)
1.一种KITTI数据集的半自动实例标注方法,其特征在于,包括:
按照需求类别在实例分割数据集中提取实例标注数据,得到训练数据;
将所述训练数据按照训练网络的需求格式生成训练集;
将所述训练集投入到所述训练网络进行训练,得到第一标注网络;
将待标注的KITTI数据集切分成不同的子集数据集,并给所述子集数据集编号为1,2,...,i;i为正整数;
将第1个所述子集数据集投入到所述第一标注网络进行预标注,得到预标注结果;
使用Labelme标注软件手动修正所述预标注结果,得到第一标注结果。
2.如权利要求1所述的KITTI数据集的半自动实例标注方法,其特征在于,包括:
S1:将所述第一标注结果加入到所述训练集得到第一训练集,将所述第一训练集投入到所述训练网络进行训练,得到第二标注网络;
S2:将第2个所述子集数据集投入到所述第二标注网络进行标注,得到第二标注结果;
S3:使用Labelme标注软件手动修正所述第二标注结果,得到第三标注结果;
循环S1-S3,直至全部的i个子集数据集完成标注。
3.如权利要求1所述的KITTI数据集的半自动实例标注方法,其特征在于,所述训练网络包括Mask Scoring R-CNN实例分割网络、Mask-RCNN实例分割网络和PANet实例分割网络。
4.如权利要求1所述的KITTI数据集的半自动实例标注方法,其特征在于,所述实例分割数据集包括Cityscapes数据集、Mapillary Vistas数据集、Apollo Scape数据集和BDD100K数据集。
5.一种KITTI数据集的半自动实例标注系统,其特征在于,包括:
提取模块,按照需求类别在实例分割数据集中提取实例标注数据,得到训练数据;
生成模块,将所述训练数据按照训练网络的需求格式生成训练集;
训练模块,将所述训练集投入到所述训练网络进行训练,得到第一标注网络;
切分模块,将待标注的KITTI数据集切分成不同的子集数据集,并给所述子集数据集编号为1,2,...,i;i为正整数;
第一标注模块,将第1个所述子集数据集投入到所述第一标注网络进行预标注,得到预标注结果;
第一修正模块,使用Labelme标注软件手动修正所述预标注结果,得到第一标注结果。
6.如权利要求5所述的KITTI数据集的半自动实例标注系统,其特征在于,所述训练模块还用于:将所述第一标注结果加入到所述训练集得到第一训练集,将所述第一训练集投入到所述训练网络进行训练,得到第二标注网络。
7.如权利要求6所述的KITTI数据集的半自动实例标注系统,其特征在于,该系统还包括:
第二标注模块,将第2个所述子集数据集投入到所述第二标注网络进行标注,得到第二标注结果;
第二修正模块,使用Labelme标注软件手动修正所述第二标注结果,得到第三标注结果。
8.如权利要求7所述的KITTI数据集的半自动实例标注系统,其特征在于,所述训练网络包括Mask Scoring R-CNN实例分割网络、Mask-RCNN实例分割网络和PANet实例分割网络。
9.如权利要求8所述的KITTI数据集的半自动实例标注系统,其特征在于,所述实例分割数据集包括Cityscapes数据集、Mapillary Vistas数据集、Apollo Scape数据集和BDD100K数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010837250.6A CN111985394B (zh) | 2020-08-19 | 2020-08-19 | Kitti数据集的半自动实例标注方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010837250.6A CN111985394B (zh) | 2020-08-19 | 2020-08-19 | Kitti数据集的半自动实例标注方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111985394A true CN111985394A (zh) | 2020-11-24 |
CN111985394B CN111985394B (zh) | 2021-05-28 |
Family
ID=73435170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010837250.6A Active CN111985394B (zh) | 2020-08-19 | 2020-08-19 | Kitti数据集的半自动实例标注方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111985394B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313720A (zh) * | 2021-06-30 | 2021-08-27 | 上海商汤科技开发有限公司 | 对象分割方法和装置 |
WO2023184745A1 (zh) * | 2022-03-31 | 2023-10-05 | 上海商汤智能科技有限公司 | 数据标注方法及装置、电子设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107153822A (zh) * | 2017-05-19 | 2017-09-12 | 北京航空航天大学 | 一种基于深度学习的半自动图像精标注方法 |
CN108447049A (zh) * | 2018-02-27 | 2018-08-24 | 中国海洋大学 | 一种基于生成式对抗网络的数字化生理生物体分割方法 |
CN109241513A (zh) * | 2018-08-27 | 2019-01-18 | 上海宝尊电子商务有限公司 | 一种基于大数据众包模式数据标注的方法及装置 |
CN109446369A (zh) * | 2018-09-28 | 2019-03-08 | 武汉中海庭数据技术有限公司 | 图像半自动标注的交互方法及系统 |
CN110570434A (zh) * | 2018-06-06 | 2019-12-13 | 杭州海康威视数字技术股份有限公司 | 一种图像分割标注方法和装置 |
CN110826555A (zh) * | 2019-10-12 | 2020-02-21 | 天津大学 | 一种人机协同的图像目标检测数据半自动标注方法 |
CN110910401A (zh) * | 2019-10-31 | 2020-03-24 | 五邑大学 | 半自动化图像分割数据标注方法、电子装置及存储介质 |
CN110992384A (zh) * | 2019-11-15 | 2020-04-10 | 五邑大学 | 半自动化图像数据标注方法、电子装置及存储介质 |
-
2020
- 2020-08-19 CN CN202010837250.6A patent/CN111985394B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107153822A (zh) * | 2017-05-19 | 2017-09-12 | 北京航空航天大学 | 一种基于深度学习的半自动图像精标注方法 |
CN108447049A (zh) * | 2018-02-27 | 2018-08-24 | 中国海洋大学 | 一种基于生成式对抗网络的数字化生理生物体分割方法 |
CN110570434A (zh) * | 2018-06-06 | 2019-12-13 | 杭州海康威视数字技术股份有限公司 | 一种图像分割标注方法和装置 |
CN109241513A (zh) * | 2018-08-27 | 2019-01-18 | 上海宝尊电子商务有限公司 | 一种基于大数据众包模式数据标注的方法及装置 |
CN109446369A (zh) * | 2018-09-28 | 2019-03-08 | 武汉中海庭数据技术有限公司 | 图像半自动标注的交互方法及系统 |
CN110826555A (zh) * | 2019-10-12 | 2020-02-21 | 天津大学 | 一种人机协同的图像目标检测数据半自动标注方法 |
CN110910401A (zh) * | 2019-10-31 | 2020-03-24 | 五邑大学 | 半自动化图像分割数据标注方法、电子装置及存储介质 |
CN110992384A (zh) * | 2019-11-15 | 2020-04-10 | 五邑大学 | 半自动化图像数据标注方法、电子装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
PAI PENG ET AL: "Adaptive Multi-Modal Fusion Instance Segmentation for CAEVs in Complex Conditions: Dataset, Framework and Verifications", 《HTTPS://WWW.RESEARCHSQUARE.COM/ARTICLE/RS-44968/V1》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313720A (zh) * | 2021-06-30 | 2021-08-27 | 上海商汤科技开发有限公司 | 对象分割方法和装置 |
CN113313720B (zh) * | 2021-06-30 | 2024-03-29 | 上海商汤科技开发有限公司 | 对象分割方法和装置 |
WO2023184745A1 (zh) * | 2022-03-31 | 2023-10-05 | 上海商汤智能科技有限公司 | 数据标注方法及装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111985394B (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8494273B2 (en) | Adaptive optical character recognition on a document with distorted characters | |
US20190019055A1 (en) | Word segmentation system, method and device | |
CN109522900B (zh) | 自然场景文字识别方法及装置 | |
CN111985394B (zh) | Kitti数据集的半自动实例标注方法及系统 | |
CN109670494B (zh) | 一种附带识别置信度的文本检测方法及系统 | |
CN111967313B (zh) | 一种深度学习目标检测算法辅助的无人机图像标注方法 | |
CN109886978B (zh) | 一种基于深度学习的端到端告警信息识别方法 | |
CN106845467B (zh) | 基于光学字符识别技术的航空维修工卡工作内容识别方法 | |
CN112365497A (zh) | 基于TridentNet和Cascade-RCNN结构的高速目标检测方法和系统 | |
CN111539417B (zh) | 一种基于深度神经网络的文本识别训练优化方法 | |
CN112819840B (zh) | 一种融合深度学习与传统处理的高精度图像实例分割方法 | |
CN111626177A (zh) | 一种pcb元件识别方法及装置 | |
CN112766255A (zh) | 一种光学文字识别方法、装置、设备及存储介质 | |
CN112749649A (zh) | 一种智能识别并生成电子合同的方法及系统 | |
CN111488854A (zh) | 一种道路交通标志自动识别与分类方法 | |
CN111832410A (zh) | 一种基于视觉与激光雷达融合的前向列车检测方法 | |
CN116740723A (zh) | 一种基于开源Paddle框架的PDF文档识别方法 | |
CN112232354A (zh) | 一种文字识别方法、装置、设备及存储介质 | |
CN111652117A (zh) | 一种对多文档图像分割的方法及介质 | |
CN111914706B (zh) | 一种文字检测输出结果质量检测和控制的方法与装置 | |
CN112215303B (zh) | 一种基于自学属性的图像理解方法及系统 | |
US20120281919A1 (en) | Method and system for text segmentation | |
CN116738271A (zh) | 基于雷达与视频融合的目标自主识别分类方法、系统 | |
CN116110047A (zh) | 基于ocr-ner的结构化电子病历构建方法和系统 | |
CN113516041A (zh) | 一种藏文古籍文档图像版面分割、识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |