CN112784927B - 一种基于在线学习的半自动图像标注方法 - Google Patents

一种基于在线学习的半自动图像标注方法 Download PDF

Info

Publication number
CN112784927B
CN112784927B CN202110177362.8A CN202110177362A CN112784927B CN 112784927 B CN112784927 B CN 112784927B CN 202110177362 A CN202110177362 A CN 202110177362A CN 112784927 B CN112784927 B CN 112784927B
Authority
CN
China
Prior art keywords
classifier
target
parameter
time
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110177362.8A
Other languages
English (en)
Other versions
CN112784927A (zh
Inventor
傅瑞罡
高颖慧
董小虎
李飚
朱永锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110177362.8A priority Critical patent/CN112784927B/zh
Publication of CN112784927A publication Critical patent/CN112784927A/zh
Application granted granted Critical
Publication of CN112784927B publication Critical patent/CN112784927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis

Abstract

本发明属于数据工程领域,具体公开了一种基于在线学习的半自动图像标注方法,用于为基于学习的图像目标检测方法制备训练数据。本方法针对目标检测领域中的手工制备训练数据耗时问题,通过边标注边学习的方式,提取并利用手动标注过程中存在的监督信息,提高了图像标注的自动化程度,提升了数据集制备的效率。

Description

一种基于在线学习的半自动图像标注方法
技术领域
本发明涉及一种基于在线学习的半自动图像标注方法,属于数据工程领域,用于为基于学习的图像目标检测方法制备训练数据。
背景技术
近年来,以卷积神经网络为代表的深度学习技术凭借其强大的特征学习能力,在图像目标检测领域的应用越来越广泛。训练数据的制备是特征学习的必要条件。检测领域的数据标注包括框选和注释两个步骤。框选指选定目标,并标出目标的外界矩形框;注释指提供目标的类别信息。
目前,训练数据的制备通常依靠人力标注,配合一些交互式的辅助标注工具可以在一定程度上减轻了标注者的负担。这些标注工具,如labelme、labelimg等,提供了在图片上画多边形边界、注释物体类别等基本功能。但尽管如此,整体的标注效率仍然非常低下,每个目标实例的标注需要花费数十秒。
为了节省标注的人力成本,一些研究探索了更简单的标注方法,例如基于眼动的标注方法、基于点的标注方法以及基于框验证的标注方法。基于眼动的标注方法需要配备眼动仪,价格昂贵,适普性不强。基于点的标注方法和基于框验证的标注方法在鲁棒性上稍差,即当目标所处环境较复杂时,方法性能不可靠。因此,研究一种鲁棒性强、自动化程度高的标注方法很有必要。
发明内容
本发明要解决的技术问题是:针对目标检测领域中的手工制备训练数据耗时问题,通过边标注边学习的方式,提取并利用手动标注过程中存在的监督信息,提高图像标注的自动化程度,提升数据集制备的效率。
为解决上述技术问题,本发明提出一种基于在线学习的半自动图像标注方法,所述方法包括四个步骤:
(1)确定待标注图像集中存在的目标类别数,初始化一个多分类的逻辑回归分类器;
(2)输入待标注图像,执行手动标注模式:通过手动框选目标位置、手动注释目标类别,完成对图像中所有目标的标注,并通过这些已标注数据在线训练分类器;
(3)测试分类器性能,并基于分类器性能决定是否由手动标注模式切换至半自动标注模式;
(4)输入待标注图像,执行半自动标注模式:手动框选目标位置,通过分类器自动完成对目标类别的注释。
所述步骤(1)通过以下步骤实现:
1)利用人机交互界面,确定数据集中的目标类别数n;
2)初始化逻辑回归分类器:逻辑回归分类器的初始化即建立一个全零的m×n大小的参数矩阵w,其中,m为预设参数,与目标HOG特征的维度相匹配,n为目标类别数。
所述步骤(2)通过以下步骤实现:
1)利用人机交互界面,手动框选目标位置,手动注释目标类别;
2)提取t时刻目标样本(记t时刻为标注第t个目标样本的时刻)的HOG特征x,x为一个m维的矢量,即x∈Rm×1
3)获取t时刻目标样本的真实标签y,并计算分类器的交叉熵损失:
Figure BDA0002940400630000021
其中,wt,i、wt,y分别为t时刻分类器参数矩阵w中的第i列和第y列矢量;
4)使用Ftrl方法在线训练分类器模型,以使得分类器的损失变小;记wt,i,j为t时刻分类器参数矩阵w第i列第j行元素的值,gt,i,j为分类器交叉熵损失L关于参数wt,i,j的梯度值,Ftrl 方法的参数更新公式为:
Figure BDA0002940400630000022
其中,待优化函数中的第一项
Figure BDA0002940400630000023
w与分类器损失关于参数的梯度有关;第二项
Figure BDA0002940400630000024
为参数的约束项,用于避免t时刻的迭代结果与从前结果产生过于严重的偏差,稳定损失的收敛;第三项λ1||w||1、第四项
Figure BDA0002940400630000025
分别为参数的L1、L2正则项,用于保证参数的稀疏性;σs,i,j、λ1、λ2为损失权重;
若已知wt,i,j,则t+1时刻的wt+1,i,j求解过程如下:
1.计算损失L关于参数wt,i,j的梯度gt,i,j
Figure BDA0002940400630000026
2.计算中间变量σt,i,j
Figure BDA0002940400630000027
其中,α为人为设定的超参数;
3.计算中间变量zt,i,j
Figure BDA0002940400630000028
4.计算中间变量ηt,i,j
Figure BDA0002940400630000029
其中,β为人为设定的超参数;
5.更新t+1时刻的参数值wt+1,i,j
Figure BDA0002940400630000031
其中,sgn()表示符号函数,λ1、λ2为人为设定的超参数。
所述步骤(3)通过以下步骤实现:
从所有已标注的目标样本中随机采样d个样本组成验证集,记为{x1,x2,...,xd},对应真实标签为{y1,y2,...,yd};使用分类器对验证集中的所有目标做类别预测,对于任意样本xk, k∈{1,2,...,d},其类别预测结果为:
Figure BDA0002940400630000032
其中,wt,i为t时刻w中的第i列矢量;
对比预测类别以及真实标签,分类器在验证集上的分类正确个数为:
Figure BDA0002940400630000033
其中,yk是样本xk对应的真实标签;分类器的分类准确率最终确定为
Figure BDA0002940400630000034
/d,准确率越高,说明分类器的性能越好;当分类器在验证集上达到设定的分类准确率后,执行半自动标注模式以提升标注的速度。
所述步骤(4)通过以下步骤实现:
1)利用人机交互界面,手动框选目标位置;
2)提取目标的HOG特征x;
3)使用分类器对目标的类别做预测:将目标特征x输入分类器,目标的类别置信度分布如下:
Figure BDA0002940400630000035
其中,n为目标类别数,p是n维矢量,它的第i个元素pi对应目标属于第i个类别的置信度,满足0<pi<1,且
Figure BDA0002940400630000036
特征x的类别最终判决为:
Figure BDA0002940400630000037
Figure BDA0002940400630000038
即为目标的注释结果,这是由分类器自动生成的。
本发明的有益效果:
与现有技术相比,本发明的优点在于通过将注释过程抽象为学习分类问题,实现了标注过程的部分自动化,提升了数据标注的效率。目标类别数越多,效率提升越明显。
附图说明
图1为本发明两种标注模式的示意图;
图2为基于本发明方法的图像标注示意图;
图3为在线学习下的模型准确率收敛曲线。
具体实施方式
为将本发明的目的、内容、优点阐述地更加清晰,以下将结合说明书附图对本发明作进一步详细说明。本发明涉及一种基于在线学习的半自动图像标注方法,包括如下步骤:
(1)确定待标注图像集中存在的目标类别数,初始化一个多分类的逻辑回归分类器;
(2)输入待标注图像,执行手动标注模式:通过手动框选目标位置、手动注释目标类别,完成对图像中所有目标的标注,并通过这些已标注数据在线训练分类器;
(3)测试分类器性能,并基于分类器性能决定是否由手动标注模式切换至半自动标注模式;
(4)输入待标注图像,执行半自动标注模式:手动框选目标位置,通过分类器自动完成对目标类别的注释。
所述步骤(1)通过以下步骤实现:
1)利用人机交互界面,确定数据集中的目标类别数n;
2)初始化逻辑回归分类器:逻辑回归分类器的初始化即建立一个全零的m×n大小的参数矩阵w,其中,m为预设参数,与目标HOG特征的维度相匹配,n为目标类别数。
所述步骤(2)执行手动标注模式,其流程如图1第一行所示。具体地,它通过以下步骤实现:
1)利用人机交互界面,手动框选目标位置,手动注释目标类别,如图2所示;
2)提取t时刻目标样本(记t时刻为标注第t个目标样本的时刻)的HOG特征x,x为一个m维的矢量,即x∈Rm×1
3)获取t时刻目标样本的真实标签y,并计算分类器的交叉熵损失:
Figure BDA0002940400630000041
其中,wt,i、wt,y分别为t时刻分类器参数矩阵w中的第i列和第y列矢量。
4)使用Ftrl方法在线训练分类器模型,以使得分类器的损失变小;记wt,i,j为t时刻分类器参数矩阵w第i列第j行元素的值,gt,i,j为分类器交叉熵损失L关于参数wt,i,j的梯度值,Ftrl 方法的参数更新公式为:
Figure BDA0002940400630000042
其中,待优化函数中的第一项
Figure BDA0002940400630000043
w与分类器损失关于参数的梯度有关;第二项
Figure BDA0002940400630000044
为参数的约束项,用于避免t时刻的迭代结果与从前结果产生过于严重的偏差,稳定损失的收敛;第三项λ1||w||1、第四项
Figure BDA0002940400630000045
分别为参数的L1、L2正则项,用于保证参数的稀疏性;σs,i,j、λ1、λ2为损失权重;
若已知wt,i,j,则t+1时刻的wt+1,i,j求解过程如下:
1.计算损失L关于参数wt,i,j的梯度gt,i,j
Figure BDA0002940400630000051
2.计算中间变量σt,i,j
Figure BDA0002940400630000052
其中,α为人为设定的超参数;
3.计算中间变量zt,i,j
Figure BDA0002940400630000053
4.计算中间变量ηt,i,j
Figure BDA0002940400630000054
其中,β为人为设定的超参数;
5.更新t+1时刻的参数值wt+1,i,j
Figure BDA0002940400630000055
其中,sgn()表示符号函数,λ1、λ2为人为设定的超参数。
所述步骤(3)通过以下步骤实现:
从所有已标注的目标样本中随机采样d个样本组成验证集,记为{x1,x2,...,xd},对应真实标签为{y1,y2,...,yd};使用分类器对验证集中的所有目标做类别预测,对于任意样本xk, k∈{1,2,...,d},其类别预测结果为:
Figure BDA0002940400630000056
其中,wt,i为t时刻w中的第i列矢量。
对比预测类别以及真实标签,分类器在验证集上的分类正确个数为:
Figure BDA0002940400630000057
其中,yk是样本xk对应的真实标签。分类器的分类准确率最终可确定为
Figure BDA0002940400630000058
/d。准确率越高,说明分类器的性能越好。当分类器在验证集上达到设定的分类准确率后,执行半自动标注模式以提升标注的速度。
所述步骤(4)执行半自动标注模式,其流程如图1第二行所示。具体地,它通过以下步骤实现:
1)利用人机交互界面,手动框选目标位置;
2)提取目标的HOG特征x;
3)使用分类器对目标的类别做预测:将目标特征x输入分类器,目标的类别置信度分布如下:
Figure BDA0002940400630000061
其中,n为目标类别数,p是n维矢量,它的第i个元素pi对应目标属于第i个类别的置信度,满足0<pi<1,且
Figure BDA0002940400630000062
特征x的类别最终判决为:
Figure BDA0002940400630000063
Figure BDA0002940400630000064
即为目标的注释结果,这是由分类器自动生成的。
标注前期使用手动标注模式;随着分类器在线训练次数的增多,它的分类性能将越来越好;当分类器在验证集上达到设定的分类准确率后,执行半自动标注模式以提升标注的速度。 Ftrl算法在飞机-轮船二分类问题上的收敛情况如图3所示。对于2000个测试样本,Ftrl算法在训练了200步左右就能得到80%的分类准确率,收敛速度较快。此外,随着数据量的增加,准确率越来越高,收敛也越来越稳定。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (1)

1.一种基于在线学习的半自动图像标注方法,其特征在于,包括以下步骤:
(1)确定待标注图像集中存在的目标类别数,初始化一个多分类的逻辑回归分类器;
所述步骤(1)通过以下步骤实现:
1)利用人机交互界面,确定数据集中的目标类别数n;
2)初始化逻辑回归分类器:逻辑回归分类器的初始化即建立一个全零的m×n大小的参数矩阵w,其中,m为预设参数,与目标HOG特征的维度相匹配,n为目标类别数;
(2)输入待标注图像,执行手动标注模式:通过手动框选目标位置、手动注释目标类别,完成对图像中所有目标的标注,并通过这些已标注数据在线训练分类器;
所述步骤(2)通过以下步骤实现:
1)利用人机交互界面,手动框选目标位置,手动注释目标类别;
2)提取t时刻目标样本的HOG特征x,x为一个m维的矢量,即x∈Rm×1; t 时刻为标注第 t个目标样本的时刻 ;
3)获取t时刻目标样本的真实标签y,并计算分类器的交叉熵损失:
Figure FDA0002940400620000011
其中,wt,i、wt,y分别为t时刻分类器参数矩阵w中的第i列和第y列矢量;
4)使用Ftrl方法在线训练分类器模型,以使得分类器的损失变小;记wt,i,j为t时刻分类器参数矩阵w第i列第j行元素的值,gt,i,j为分类器交叉熵损失L关于参数wt,i,j的梯度值,Ftrl方法的参数更新公式为:
Figure FDA0002940400620000012
其中,待优化函数中的第一项
Figure FDA0002940400620000013
与分类器损失关于参数的梯度有关;第二项
Figure FDA0002940400620000014
为参数的约束项,用于避免t时刻的迭代结果与从前结果产生过于严重的偏差,稳定损失的收敛;第三项λ1||w||1、第四项
Figure FDA0002940400620000015
分别为参数的L1、L2正则项,用于保证参数的稀疏性;σs,i,j、λ1、λ2为损失权重;
若已知wt,i,j,则t+1时刻的wt+1,i,j求解过程如下:
1.计算损失L关于参数wt,i,j的梯度gt,i,j
Figure FDA0002940400620000016
2.计算中间变量σt,i,j
Figure FDA0002940400620000017
其中,α为人为设定的超参数;
3.计算中间变量zt,i,j
Figure FDA0002940400620000021
4.计算中间变量ηt,i,j
Figure FDA0002940400620000022
其中,β为人为设定的超参数;
5.更新t+1时刻的参数值wt+1,i,j
Figure FDA0002940400620000023
其中,sgn()表示符号函数,λ1、λ2为人为设定的超参数;
(3)测试分类器性能,并基于分类器性能决定是否由手动标注模式切换至半自动标注模式;
所述步骤(3)通过以下步骤实现:
从所有已标注的目标样本中随机采样d个样本组成验证集,记为{x1,x2,...,xd},对应真实标签为{y1,y2,...,yd};使用分类器对验证集中的所有目标做类别预测,对于任意样本xk,k∈{1,2,...,d},其类别预测结果为:
Figure FDA0002940400620000024
其中,wt,i为t时刻w中的第i列矢量;
对比预测类别以及真实标签,分类器在验证集上的分类正确个数为:
Figure FDA0002940400620000025
其中,yk是样本xk对应的真实标签;分类器的分类准确率最终确定为
Figure FDA0002940400620000026
准确率越高,说明分类器的性能越好;当分类器在验证集上达到设定的分类准确率后,执行半自动标注模式以提升标注的速度;
(4)输入待标注图像,执行半自动标注模式:手动框选目标位置,通过分类器自动完成对目标类别的注释;
所述步骤(4)通过以下步骤实现:
1)利用人机交互界面,手动框选目标位置;
2)提取目标的HOG特征x;
3)使用分类器对目标的类别做预测:将目标特征x输入分类器,目标的类别置信度分布如下:
Figure FDA0002940400620000027
其中,n为目标类别数,p是n维矢量,它的第i个元素pi对应目标属于第i个类别的置信度,满足0<pi<1,且
Figure FDA0002940400620000028
特征x的类别最终判决为:
Figure FDA0002940400620000031
Figure FDA0002940400620000032
即为目标的注释结果,这是由分类器自动生成的。
CN202110177362.8A 2021-02-09 2021-02-09 一种基于在线学习的半自动图像标注方法 Active CN112784927B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110177362.8A CN112784927B (zh) 2021-02-09 2021-02-09 一种基于在线学习的半自动图像标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110177362.8A CN112784927B (zh) 2021-02-09 2021-02-09 一种基于在线学习的半自动图像标注方法

Publications (2)

Publication Number Publication Date
CN112784927A CN112784927A (zh) 2021-05-11
CN112784927B true CN112784927B (zh) 2022-03-04

Family

ID=75761362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110177362.8A Active CN112784927B (zh) 2021-02-09 2021-02-09 一种基于在线学习的半自动图像标注方法

Country Status (1)

Country Link
CN (1) CN112784927B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329084A (zh) * 2022-08-26 2022-11-11 苏州大学 基于稀疏线性在线学习的垃圾邮件分类方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778740A (zh) * 2016-12-06 2017-05-31 北京航空航天大学 一种基于深度学习的tfds非故障图像检测方法
CN108875821A (zh) * 2018-06-08 2018-11-23 Oppo广东移动通信有限公司 分类模型的训练方法和装置、移动终端、可读存储介质
CN111540006A (zh) * 2020-04-26 2020-08-14 河南大学 基于深度迁移学习的植物气孔智能检测与识别方法及系统
CN111985462A (zh) * 2020-07-28 2020-11-24 天津恒达文博科技股份有限公司 基于深度神经网络的古文字检测、识别和检索系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8774515B2 (en) * 2011-04-20 2014-07-08 Xerox Corporation Learning structured prediction models for interactive image labeling
US10606982B2 (en) * 2017-09-06 2020-03-31 International Business Machines Corporation Iterative semi-automatic annotation for workload reduction in medical image labeling

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778740A (zh) * 2016-12-06 2017-05-31 北京航空航天大学 一种基于深度学习的tfds非故障图像检测方法
CN108875821A (zh) * 2018-06-08 2018-11-23 Oppo广东移动通信有限公司 分类模型的训练方法和装置、移动终端、可读存储介质
CN111540006A (zh) * 2020-04-26 2020-08-14 河南大学 基于深度迁移学习的植物气孔智能检测与识别方法及系统
CN111985462A (zh) * 2020-07-28 2020-11-24 天津恒达文博科技股份有限公司 基于深度神经网络的古文字检测、识别和检索系统

Also Published As

Publication number Publication date
CN112784927A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
Li et al. Learning deep semantic segmentation network under multiple weakly-supervised constraints for cross-domain remote sensing image semantic segmentation
CN109034205B (zh) 基于直推式半监督深度学习的图像分类方法
McNeely-White et al. Inception and ResNet features are (almost) equivalent
CN108416370B (zh) 基于半监督深度学习的图像分类方法、装置和存储介质
CN108897989B (zh) 一种基于候选事件元素注意力机制的生物事件抽取方法
Quattoni et al. An efficient projection for l 1,∞ regularization
Zhou et al. Deep semantic dictionary learning for multi-label image classification
Yang et al. Show, attend, and translate: Unsupervised image translation with self-regularization and attention
CN111368920B (zh) 基于量子孪生神经网络的二分类方法及其人脸识别方法
CN111552807A (zh) 一种短文本多标签分类方法
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN109753897B (zh) 基于记忆单元强化-时序动态学习的行为识别方法
CN109034080A (zh) 多源域自适应的人脸识别方法
CN110619059B (zh) 一种基于迁移学习的建筑物标定方法
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN111667027A (zh) 多模态图像的分割模型训练方法、图像处理方法及装置
CN114255371A (zh) 一种基于组件监督网络的小样本图像分类方法
CN112784927B (zh) 一种基于在线学习的半自动图像标注方法
CN114048314A (zh) 一种自然语言隐写分析方法
Peng et al. Toward personalized modeling: Incremental and ensemble alignment for sequential faces in the wild
CN112861626A (zh) 基于小样本学习的细粒度表情分类方法
CN111062406B (zh) 一种面向异构领域适应的半监督最优传输方法
Dheeraj et al. Plant leaf diseases identification using deep learning approach for sustainable agriculture
Frank et al. Confidence-driven hierarchical classification of cultivated plant stresses
CN113592045B (zh) 从印刷体到手写体的模型自适应文本识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant