CN110163224B - 一种可在线学习的辅助数据标注方法 - Google Patents

一种可在线学习的辅助数据标注方法 Download PDF

Info

Publication number
CN110163224B
CN110163224B CN201810062344.3A CN201810062344A CN110163224B CN 110163224 B CN110163224 B CN 110163224B CN 201810062344 A CN201810062344 A CN 201810062344A CN 110163224 B CN110163224 B CN 110163224B
Authority
CN
China
Prior art keywords
data
candidate frame
model
target
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810062344.3A
Other languages
English (en)
Other versions
CN110163224A (zh
Inventor
胡清华
吴浩然
温泉
宝鹤鹏
赵帅
陈超
李敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Catarc Data Co ltd
Tianjin University
Original Assignee
Beijing Catarc Data Co ltd
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Catarc Data Co ltd, Tianjin University filed Critical Beijing Catarc Data Co ltd
Priority to CN201810062344.3A priority Critical patent/CN110163224B/zh
Publication of CN110163224A publication Critical patent/CN110163224A/zh
Application granted granted Critical
Publication of CN110163224B publication Critical patent/CN110163224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种可在线学习的辅助数据标注方法,包括第一次模型训练、使用模型标注数据、人工校正标注数据、再次训练优化模型的步骤,本发明的辅助数据标注方法可以在初试数据很少的情况下完成模型训练并将模型用于辅助数据标注,最重要的是本发明的方法通过使用每次辅助标注完成的数据再次训练模型来实现在线学习,进一步提升模型的性能,提高模型的目标检测的准确率,从而提升辅助标注数据的准确率,极大地减少了重复性的人工数据标注过程对时间和人力成本的耗费。

Description

一种可在线学习的辅助数据标注方法
技术领域
本发明涉及计算机视觉领域和深度学习领域,特别涉及一种可在线学习的辅助数据标注方法。
背景技术
目标检测是计算机视觉领域很重要的一个分支,通过目标检测模型机器可以获得图片中我们感兴趣物体的区域、类别、置信度等属性,为了使得目标检测能够达到很高的准确率,必须对目标检测模型进行训练。目前深度学习领域的模型都需要大量数据进行训练,由于目标检测所需数据标签具有很多属性,因此目前的模型的训练的就是对大量数据进行人工标注,用标注的数据对模型进行训练,数据标注这种重复性工作需要耗费大量的人力和时间,而且在数据训练完成之前,模型不能用来进行数据标注,在数据训练完成之后,模型也不能通过在线学习提高性能。
发明内容
本发明的目的是解决现有数据标注过程需要重复耗费大量人力和时间的技术问题,本发明提供一种可在线学习的辅助数据标注方法。
本发明解决技术问题采用如下技术方案:
一种可在线学习的辅助数据标注方法,包括以下步骤:
1)使用最初标记好的少量数据,对模型进行一次训练得到M1:训练时使用深度目标检测网络faster rcnn,在训练faster rcnn时使用随机梯度下降法;对模型进行第一次训练时初始学习率设置为0.001,之后的训练初始学习率设置为0.0001;每次训练时使用20%数据作为测试集数据;
2)判断是否有新的数据需要标注,如果有新的数据需要标注,重复步骤3)至步骤5)的迭代计算,直至没有新的数据需要标注,结束方法;
3)对于需要标注的第l批次数据xl,使用上一次训练得到的模型Ml-1对数据进行预测:
Figure BDA0001555696440000021
预测时选框置信度阈值设置为0.65,得到预测数据/>
Figure BDA0001555696440000022
包括目标候选框置信度、目标候选框位置、目标物体类别信息;
4)在上一步预测得到的数据
Figure BDA0001555696440000023
的基础上进行人工的校正微调,得到人工标记数据
Figure BDA0001555696440000024
5)将标记好的数据
Figure BDA0001555696440000025
作为标签输入到目标检测模型中,对模型进行进一步优化,得到新的模型Ml;所述的优化采用联合联合损失函数,计算候选框置信度损失、分类损失、候选框位置损失之和,计算公式为:
Figure BDA0001555696440000026
所述的pi
Figure BDA0001555696440000027
分别代表预测得到的候选框置信度以及实际的标签,只有当候选框内包含目标时,/>
Figure BDA0001555696440000028
为1,否则为0;Lcls为对数损失函数,Ncls设置为256;ci和/>
Figure BDA0001555696440000029
分别代表预测目标类别和目标真实类别;Lclass为softmax损失函数,目标分为车辆和行人,类别数设置为2;Nclass设置为256;ti和/>
Figure BDA00015556964400000210
分别代表预测候选框位置及候选框真实位置,候选框位置以一个四元组向量(x,y,w,h)表示,参数分别代表候选框中心店横纵左边及候选框宽度、高度;
Figure BDA00015556964400000211
Nreg设置为2400,λ设置为10。
本发明具有如下有益效果:本发明的辅助数据标注方法可以在初试数据很少的情况下完成模型训练并将模型用于辅助数据标注,最重要的是本发明的方法通过使用每次辅助标注完成的数据再次训练模型来实现在线学习,进一步提升模型的性能,提高模型的目标检测的准确率,从而提升辅助标注数据的准确率,极大地减少了重复性的人工数据标注过程对时间和人力成本的耗费。
附图说明
图1为本发明可在线学习的辅助数据标注方法的流程图。
具体实施方式
下面结合实施方式对本发明的技术方案作进一步阐述。
具体实施方式:本实施方式是一种可在线学习的辅助数据标注方法,具体步骤如下:
1)使用最初标记好的数据,对模型进行一次训练得到M1:训练时使用深度目标检测网络faster rcnn,在训练faster rcnn时使用随机梯度下降法;对模型进行第一次训练时初始学习率设置为0.001,之后的训练初始学习率设置为0.0001;每次训练时使用20%数据作为测试集数据;
2)判断是否有新的数据需要标注,如果有新的数据需要标注,重复步骤3)至步骤5)的迭代计算,直至没有新的数据需要标注,结束方法;
3)对于需要标注的第l批次数据xl,使用上一次训练得到的模型Ml-1对数据进行预测:
Figure BDA0001555696440000031
预测时选框置信度阈值设置为0.65,得到预测数据/>
Figure BDA0001555696440000032
包括目标候选框置信度、目标候选框位置、目标物体类别信息;
4)在上一步预测得到的数据
Figure BDA0001555696440000033
的基础上进行人工的校正微调,得到人工标记数据
Figure BDA0001555696440000034
5)将标记好的数据
Figure BDA0001555696440000035
作为标签输入到目标检测模型中,对模型进行进一步优化,得到新的模型Ml;所述的优化采用联合联合损失函数,计算候选框置信度损失、分类损失、候选框位置损失之和,计算公式为:
Figure BDA0001555696440000041
所述的pi
Figure BDA0001555696440000042
分别代表预测得到的候选框置信度以及实际的标签,只有当候选框内包含目标时,/>
Figure BDA0001555696440000043
为1,否则为0;Lcls为对数损失函数,Ncls设置为256;ci和/>
Figure BDA0001555696440000044
分别代表预测目标类别和目标真实类别;Lclass为softmax损失函数,目标分为车辆和行人,类别数设置为2;Nclass设置为256;ti和/>
Figure BDA0001555696440000045
分别代表预测候选框位置及候选框真实位置,候选框位置以一个四元组向量(x,y,w,h)表示,参数分别代表候选框中心店横纵左边及候选框宽度、高度;
Figure BDA0001555696440000046
Nreg设置为2400,λ设置为10。
最后应说明的是:以上实施方式仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施方式技术方案的精神和范围。

Claims (1)

1.一种可在线学习的辅助数据标注方法,其特征在于,包括以下步骤:
1)使用最初标记好的少量数据,对模型进行一次训练得到M1:训练时使用深度目标检测网络faster rcnn,在训练faster rcnn时使用随机梯度下降法;对模型进行第一次训练时初始学习率设置为0.001,之后的训练初始学习率设置为0.0001;每次训练时使用20%数据作为测试集数据;
2)判断是否有新的数据需要标注,如果有新的数据需要标注,重复步骤3)至步骤5)的迭代计算,直至没有新的数据需要标注,结束方法;
3)对于需要标注的第l批次数据xl,使用上一次训练得到的模型Ml-1对数据进行预测:
Figure FDA0001555696430000011
预测时候选框置信度阈值设置为0.65,得到预测数据/>
Figure FDA0001555696430000012
包括目标候选框置信度、目标候选框位置、目标物体类别信息;
4)在上一步预测得到的数据
Figure FDA0001555696430000013
的基础上进行人工的校正微调,得到人工标记数据/>
Figure FDA0001555696430000014
5)将标记好的数据
Figure FDA0001555696430000015
作为标签输入到目标检测模型中,对模型进行进一步优化,得到新的模型Ml;所述的优化采用联合联合损失函数,计算候选框置信度损失、分类损失、候选框位置损失之和,计算公式为:
Figure FDA0001555696430000016
所述的pi
Figure FDA0001555696430000017
分别代表预测得到的候选框置信度以及实际的标签,只有当候选框内包含目标时,/>
Figure FDA0001555696430000018
为1,否则为0;Lcls为对数损失函数,Ncls设置为256;ci和/>
Figure FDA0001555696430000021
分别代表预测目标类别和目标真实类别;Lclass为softmax损失函数,目标分为车辆和行人,类别数设置为2;Nclass设置为256;ti和/>
Figure FDA0001555696430000022
分别代表预测候选框位置及候选框真实位置,候选框位置以一个四元组向量(x,y,w,h)表示,参数分别代表候选框中心店横纵左边及候选框宽度、高度;
Figure FDA0001555696430000023
Nreg设置为2400,λ设置为10。
CN201810062344.3A 2018-01-23 2018-01-23 一种可在线学习的辅助数据标注方法 Active CN110163224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810062344.3A CN110163224B (zh) 2018-01-23 2018-01-23 一种可在线学习的辅助数据标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810062344.3A CN110163224B (zh) 2018-01-23 2018-01-23 一种可在线学习的辅助数据标注方法

Publications (2)

Publication Number Publication Date
CN110163224A CN110163224A (zh) 2019-08-23
CN110163224B true CN110163224B (zh) 2023-06-20

Family

ID=67641144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810062344.3A Active CN110163224B (zh) 2018-01-23 2018-01-23 一种可在线学习的辅助数据标注方法

Country Status (1)

Country Link
CN (1) CN110163224B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111210111B (zh) * 2019-12-22 2023-10-13 中电海康集团有限公司 一种基于在线学习与众包数据分析的城市环境评估方法和系统
CN111476165A (zh) * 2020-04-07 2020-07-31 同方赛威讯信息技术有限公司 基于深度学习的电子文档中标题印章指纹特征检测方法
CN113672732B (zh) * 2021-08-19 2024-04-26 胜斗士(上海)科技技术发展有限公司 用于对业务数据进行分类的方法和设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014183275A1 (zh) * 2013-05-15 2014-11-20 中国科学院自动化研究所 一种基于在线学习的局部可形变目标检测方法及其系统
CN106934346A (zh) * 2017-01-24 2017-07-07 北京大学 一种目标检测性能优化的方法
CN107301376A (zh) * 2017-05-26 2017-10-27 浙江大学 一种基于深度学习多层刺激的行人检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014183275A1 (zh) * 2013-05-15 2014-11-20 中国科学院自动化研究所 一种基于在线学习的局部可形变目标检测方法及其系统
CN106934346A (zh) * 2017-01-24 2017-07-07 北京大学 一种目标检测性能优化的方法
CN107301376A (zh) * 2017-05-26 2017-10-27 浙江大学 一种基于深度学习多层刺激的行人检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李敏 ; 禹龙 ; 田生伟 ; 吐尔根・依布拉音 ; 艾斯卡尔・艾木都拉 ; .基于深度学习的维吾尔语语句情感倾向分析.计算机工程与设计.2016,(第08期),全文. *

Also Published As

Publication number Publication date
CN110163224A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
CN110059694B (zh) 电力行业复杂场景下的文字数据的智能识别方法
CN111160474B (zh) 一种基于深度课程学习的图像识别方法
CN110163224B (zh) 一种可在线学习的辅助数据标注方法
CN110472467A (zh) 基于YOLO v3的针对交通枢纽关键物体的检测方法
CN108416382B (zh) 一种基于迭代采样和一对多标签修正的Web图像训练卷积神经网络方法
CN108830196A (zh) 基于特征金字塔网络的行人检测方法
CN110992365B (zh) 一种基于图像语义分割的损失函数及其设计方法
CN111680702B (zh) 一种使用检测框实现弱监督图像显著性检测的方法
CN112750106B (zh) 一种基于非完备标记的深度学习的核染色细胞计数方法、计算机设备、存储介质
CN111127360B (zh) 一种基于自动编码器的灰度图像迁移学习方法
CN108596204B (zh) 一种基于改进型scdae的半监督调制方式分类模型的方法
CN108829810A (zh) 面向健康舆情的文本分类方法
CN116258861B (zh) 基于多标签学习的半监督语义分割方法以及分割装置
CN107240100B (zh) 一种基于遗传算法的图像分割方法和系统
CN113673622B (zh) 激光点云数据标注方法、装置、设备及产品
CN109345559A (zh) 基于样本扩充和深度分类网络的运动目标跟踪方法
CN115080734A (zh) 一种基于注意力机制与强化学习的跨域情感分类方法
CN109740554A (zh) 一种道路边缘线识别方法及系统
CN112396042A (zh) 实时更新的目标检测方法及系统、计算机可读存储介质
CN114998570B (zh) 一种对象检测框的确定方法、装置、存储介质及电子装置
CN109740551A (zh) 一种基于计算机视觉的夜间车道线识别方法及系统
CN113159082B (zh) 一种增量式学习目标检测网络模型构建及权重更新方法
CN112419269B (zh) 一种道面病害分割的方法
CN115063679A (zh) 一种基于深度学习的路面质量评估方法
CN113837220A (zh) 基于在线持续学习的机器人目标识别方法、系统及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant