CN112784927B - 一种基于在线学习的半自动图像标注方法 - Google Patents
一种基于在线学习的半自动图像标注方法 Download PDFInfo
- Publication number
- CN112784927B CN112784927B CN202110177362.8A CN202110177362A CN112784927B CN 112784927 B CN112784927 B CN 112784927B CN 202110177362 A CN202110177362 A CN 202110177362A CN 112784927 B CN112784927 B CN 112784927B
- Authority
- CN
- China
- Prior art keywords
- classifier
- target
- parameter
- time
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
Abstract
本发明属于数据工程领域,具体公开了一种基于在线学习的半自动图像标注方法,用于为基于学习的图像目标检测方法制备训练数据。本方法针对目标检测领域中的手工制备训练数据耗时问题,通过边标注边学习的方式,提取并利用手动标注过程中存在的监督信息,提高了图像标注的自动化程度,提升了数据集制备的效率。
Description
技术领域
本发明涉及一种基于在线学习的半自动图像标注方法,属于数据工程领域,用于为基于学习的图像目标检测方法制备训练数据。
背景技术
近年来,以卷积神经网络为代表的深度学习技术凭借其强大的特征学习能力,在图像目标检测领域的应用越来越广泛。训练数据的制备是特征学习的必要条件。检测领域的数据标注包括框选和注释两个步骤。框选指选定目标,并标出目标的外界矩形框;注释指提供目标的类别信息。
目前,训练数据的制备通常依靠人力标注,配合一些交互式的辅助标注工具可以在一定程度上减轻了标注者的负担。这些标注工具,如labelme、labelimg等,提供了在图片上画多边形边界、注释物体类别等基本功能。但尽管如此,整体的标注效率仍然非常低下,每个目标实例的标注需要花费数十秒。
为了节省标注的人力成本,一些研究探索了更简单的标注方法,例如基于眼动的标注方法、基于点的标注方法以及基于框验证的标注方法。基于眼动的标注方法需要配备眼动仪,价格昂贵,适普性不强。基于点的标注方法和基于框验证的标注方法在鲁棒性上稍差,即当目标所处环境较复杂时,方法性能不可靠。因此,研究一种鲁棒性强、自动化程度高的标注方法很有必要。
发明内容
本发明要解决的技术问题是:针对目标检测领域中的手工制备训练数据耗时问题,通过边标注边学习的方式,提取并利用手动标注过程中存在的监督信息,提高图像标注的自动化程度,提升数据集制备的效率。
为解决上述技术问题,本发明提出一种基于在线学习的半自动图像标注方法,所述方法包括四个步骤:
(1)确定待标注图像集中存在的目标类别数,初始化一个多分类的逻辑回归分类器;
(2)输入待标注图像,执行手动标注模式:通过手动框选目标位置、手动注释目标类别,完成对图像中所有目标的标注,并通过这些已标注数据在线训练分类器;
(3)测试分类器性能,并基于分类器性能决定是否由手动标注模式切换至半自动标注模式;
(4)输入待标注图像,执行半自动标注模式:手动框选目标位置,通过分类器自动完成对目标类别的注释。
所述步骤(1)通过以下步骤实现:
1)利用人机交互界面,确定数据集中的目标类别数n;
2)初始化逻辑回归分类器:逻辑回归分类器的初始化即建立一个全零的m×n大小的参数矩阵w,其中,m为预设参数,与目标HOG特征的维度相匹配,n为目标类别数。
所述步骤(2)通过以下步骤实现:
1)利用人机交互界面,手动框选目标位置,手动注释目标类别;
2)提取t时刻目标样本(记t时刻为标注第t个目标样本的时刻)的HOG特征x,x为一个m维的矢量,即x∈Rm×1;
3)获取t时刻目标样本的真实标签y,并计算分类器的交叉熵损失:
其中,wt,i、wt,y分别为t时刻分类器参数矩阵w中的第i列和第y列矢量;
4)使用Ftrl方法在线训练分类器模型,以使得分类器的损失变小;记wt,i,j为t时刻分类器参数矩阵w第i列第j行元素的值,gt,i,j为分类器交叉熵损失L关于参数wt,i,j的梯度值,Ftrl 方法的参数更新公式为:
其中,待优化函数中的第一项w与分类器损失关于参数的梯度有关;第二项为参数的约束项,用于避免t时刻的迭代结果与从前结果产生过于严重的偏差,稳定损失的收敛;第三项λ1||w||1、第四项分别为参数的L1、L2正则项,用于保证参数的稀疏性;σs,i,j、λ1、λ2为损失权重;
若已知wt,i,j,则t+1时刻的wt+1,i,j求解过程如下:
1.计算损失L关于参数wt,i,j的梯度gt,i,j;
2.计算中间变量σt,i,j:
其中,α为人为设定的超参数;
3.计算中间变量zt,i,j:
4.计算中间变量ηt,i,j:
其中,β为人为设定的超参数;
5.更新t+1时刻的参数值wt+1,i,j:
其中,sgn()表示符号函数,λ1、λ2为人为设定的超参数。
所述步骤(3)通过以下步骤实现:
从所有已标注的目标样本中随机采样d个样本组成验证集,记为{x1,x2,...,xd},对应真实标签为{y1,y2,...,yd};使用分类器对验证集中的所有目标做类别预测,对于任意样本xk, k∈{1,2,...,d},其类别预测结果为:
其中,wt,i为t时刻w中的第i列矢量;
对比预测类别以及真实标签,分类器在验证集上的分类正确个数为:
所述步骤(4)通过以下步骤实现:
1)利用人机交互界面,手动框选目标位置;
2)提取目标的HOG特征x;
3)使用分类器对目标的类别做预测:将目标特征x输入分类器,目标的类别置信度分布如下:
本发明的有益效果:
与现有技术相比,本发明的优点在于通过将注释过程抽象为学习分类问题,实现了标注过程的部分自动化,提升了数据标注的效率。目标类别数越多,效率提升越明显。
附图说明
图1为本发明两种标注模式的示意图;
图2为基于本发明方法的图像标注示意图;
图3为在线学习下的模型准确率收敛曲线。
具体实施方式
为将本发明的目的、内容、优点阐述地更加清晰,以下将结合说明书附图对本发明作进一步详细说明。本发明涉及一种基于在线学习的半自动图像标注方法,包括如下步骤:
(1)确定待标注图像集中存在的目标类别数,初始化一个多分类的逻辑回归分类器;
(2)输入待标注图像,执行手动标注模式:通过手动框选目标位置、手动注释目标类别,完成对图像中所有目标的标注,并通过这些已标注数据在线训练分类器;
(3)测试分类器性能,并基于分类器性能决定是否由手动标注模式切换至半自动标注模式;
(4)输入待标注图像,执行半自动标注模式:手动框选目标位置,通过分类器自动完成对目标类别的注释。
所述步骤(1)通过以下步骤实现:
1)利用人机交互界面,确定数据集中的目标类别数n;
2)初始化逻辑回归分类器:逻辑回归分类器的初始化即建立一个全零的m×n大小的参数矩阵w,其中,m为预设参数,与目标HOG特征的维度相匹配,n为目标类别数。
所述步骤(2)执行手动标注模式,其流程如图1第一行所示。具体地,它通过以下步骤实现:
1)利用人机交互界面,手动框选目标位置,手动注释目标类别,如图2所示;
2)提取t时刻目标样本(记t时刻为标注第t个目标样本的时刻)的HOG特征x,x为一个m维的矢量,即x∈Rm×1;
3)获取t时刻目标样本的真实标签y,并计算分类器的交叉熵损失:
其中,wt,i、wt,y分别为t时刻分类器参数矩阵w中的第i列和第y列矢量。
4)使用Ftrl方法在线训练分类器模型,以使得分类器的损失变小;记wt,i,j为t时刻分类器参数矩阵w第i列第j行元素的值,gt,i,j为分类器交叉熵损失L关于参数wt,i,j的梯度值,Ftrl 方法的参数更新公式为:
其中,待优化函数中的第一项w与分类器损失关于参数的梯度有关;第二项为参数的约束项,用于避免t时刻的迭代结果与从前结果产生过于严重的偏差,稳定损失的收敛;第三项λ1||w||1、第四项分别为参数的L1、L2正则项,用于保证参数的稀疏性;σs,i,j、λ1、λ2为损失权重;
若已知wt,i,j,则t+1时刻的wt+1,i,j求解过程如下:
1.计算损失L关于参数wt,i,j的梯度gt,i,j;
2.计算中间变量σt,i,j:
其中,α为人为设定的超参数;
3.计算中间变量zt,i,j:
4.计算中间变量ηt,i,j:
其中,β为人为设定的超参数;
5.更新t+1时刻的参数值wt+1,i,j:
其中,sgn()表示符号函数,λ1、λ2为人为设定的超参数。
所述步骤(3)通过以下步骤实现:
从所有已标注的目标样本中随机采样d个样本组成验证集,记为{x1,x2,...,xd},对应真实标签为{y1,y2,...,yd};使用分类器对验证集中的所有目标做类别预测,对于任意样本xk, k∈{1,2,...,d},其类别预测结果为:
其中,wt,i为t时刻w中的第i列矢量。
对比预测类别以及真实标签,分类器在验证集上的分类正确个数为:
所述步骤(4)执行半自动标注模式,其流程如图1第二行所示。具体地,它通过以下步骤实现:
1)利用人机交互界面,手动框选目标位置;
2)提取目标的HOG特征x;
3)使用分类器对目标的类别做预测:将目标特征x输入分类器,目标的类别置信度分布如下:
标注前期使用手动标注模式;随着分类器在线训练次数的增多,它的分类性能将越来越好;当分类器在验证集上达到设定的分类准确率后,执行半自动标注模式以提升标注的速度。 Ftrl算法在飞机-轮船二分类问题上的收敛情况如图3所示。对于2000个测试样本,Ftrl算法在训练了200步左右就能得到80%的分类准确率,收敛速度较快。此外,随着数据量的增加,准确率越来越高,收敛也越来越稳定。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (1)
1.一种基于在线学习的半自动图像标注方法,其特征在于,包括以下步骤:
(1)确定待标注图像集中存在的目标类别数,初始化一个多分类的逻辑回归分类器;
所述步骤(1)通过以下步骤实现:
1)利用人机交互界面,确定数据集中的目标类别数n;
2)初始化逻辑回归分类器:逻辑回归分类器的初始化即建立一个全零的m×n大小的参数矩阵w,其中,m为预设参数,与目标HOG特征的维度相匹配,n为目标类别数;
(2)输入待标注图像,执行手动标注模式:通过手动框选目标位置、手动注释目标类别,完成对图像中所有目标的标注,并通过这些已标注数据在线训练分类器;
所述步骤(2)通过以下步骤实现:
1)利用人机交互界面,手动框选目标位置,手动注释目标类别;
2)提取t时刻目标样本的HOG特征x,x为一个m维的矢量,即x∈Rm×1; t 时刻为标注第 t个目标样本的时刻 ;
3)获取t时刻目标样本的真实标签y,并计算分类器的交叉熵损失:
其中,wt,i、wt,y分别为t时刻分类器参数矩阵w中的第i列和第y列矢量;
4)使用Ftrl方法在线训练分类器模型,以使得分类器的损失变小;记wt,i,j为t时刻分类器参数矩阵w第i列第j行元素的值,gt,i,j为分类器交叉熵损失L关于参数wt,i,j的梯度值,Ftrl方法的参数更新公式为:
其中,待优化函数中的第一项与分类器损失关于参数的梯度有关;第二项为参数的约束项,用于避免t时刻的迭代结果与从前结果产生过于严重的偏差,稳定损失的收敛;第三项λ1||w||1、第四项分别为参数的L1、L2正则项,用于保证参数的稀疏性;σs,i,j、λ1、λ2为损失权重;
若已知wt,i,j,则t+1时刻的wt+1,i,j求解过程如下:
1.计算损失L关于参数wt,i,j的梯度gt,i,j;
2.计算中间变量σt,i,j:
其中,α为人为设定的超参数;
3.计算中间变量zt,i,j:
4.计算中间变量ηt,i,j:
其中,β为人为设定的超参数;
5.更新t+1时刻的参数值wt+1,i,j:
其中,sgn()表示符号函数,λ1、λ2为人为设定的超参数;
(3)测试分类器性能,并基于分类器性能决定是否由手动标注模式切换至半自动标注模式;
所述步骤(3)通过以下步骤实现:
从所有已标注的目标样本中随机采样d个样本组成验证集,记为{x1,x2,...,xd},对应真实标签为{y1,y2,...,yd};使用分类器对验证集中的所有目标做类别预测,对于任意样本xk,k∈{1,2,...,d},其类别预测结果为:
其中,wt,i为t时刻w中的第i列矢量;
对比预测类别以及真实标签,分类器在验证集上的分类正确个数为:
(4)输入待标注图像,执行半自动标注模式:手动框选目标位置,通过分类器自动完成对目标类别的注释;
所述步骤(4)通过以下步骤实现:
1)利用人机交互界面,手动框选目标位置;
2)提取目标的HOG特征x;
3)使用分类器对目标的类别做预测:将目标特征x输入分类器,目标的类别置信度分布如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110177362.8A CN112784927B (zh) | 2021-02-09 | 2021-02-09 | 一种基于在线学习的半自动图像标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110177362.8A CN112784927B (zh) | 2021-02-09 | 2021-02-09 | 一种基于在线学习的半自动图像标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112784927A CN112784927A (zh) | 2021-05-11 |
CN112784927B true CN112784927B (zh) | 2022-03-04 |
Family
ID=75761362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110177362.8A Active CN112784927B (zh) | 2021-02-09 | 2021-02-09 | 一种基于在线学习的半自动图像标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112784927B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115329084A (zh) * | 2022-08-26 | 2022-11-11 | 苏州大学 | 基于稀疏线性在线学习的垃圾邮件分类方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778740A (zh) * | 2016-12-06 | 2017-05-31 | 北京航空航天大学 | 一种基于深度学习的tfds非故障图像检测方法 |
CN108875821A (zh) * | 2018-06-08 | 2018-11-23 | Oppo广东移动通信有限公司 | 分类模型的训练方法和装置、移动终端、可读存储介质 |
CN111540006A (zh) * | 2020-04-26 | 2020-08-14 | 河南大学 | 基于深度迁移学习的植物气孔智能检测与识别方法及系统 |
CN111985462A (zh) * | 2020-07-28 | 2020-11-24 | 天津恒达文博科技股份有限公司 | 基于深度神经网络的古文字检测、识别和检索系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8774515B2 (en) * | 2011-04-20 | 2014-07-08 | Xerox Corporation | Learning structured prediction models for interactive image labeling |
US10606982B2 (en) * | 2017-09-06 | 2020-03-31 | International Business Machines Corporation | Iterative semi-automatic annotation for workload reduction in medical image labeling |
-
2021
- 2021-02-09 CN CN202110177362.8A patent/CN112784927B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778740A (zh) * | 2016-12-06 | 2017-05-31 | 北京航空航天大学 | 一种基于深度学习的tfds非故障图像检测方法 |
CN108875821A (zh) * | 2018-06-08 | 2018-11-23 | Oppo广东移动通信有限公司 | 分类模型的训练方法和装置、移动终端、可读存储介质 |
CN111540006A (zh) * | 2020-04-26 | 2020-08-14 | 河南大学 | 基于深度迁移学习的植物气孔智能检测与识别方法及系统 |
CN111985462A (zh) * | 2020-07-28 | 2020-11-24 | 天津恒达文博科技股份有限公司 | 基于深度神经网络的古文字检测、识别和检索系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112784927A (zh) | 2021-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Learning deep semantic segmentation network under multiple weakly-supervised constraints for cross-domain remote sensing image semantic segmentation | |
CN109034205B (zh) | 基于直推式半监督深度学习的图像分类方法 | |
McNeely-White et al. | Inception and ResNet features are (almost) equivalent | |
CN108416370B (zh) | 基于半监督深度学习的图像分类方法、装置和存储介质 | |
CN108897989B (zh) | 一种基于候选事件元素注意力机制的生物事件抽取方法 | |
Quattoni et al. | An efficient projection for l 1,∞ regularization | |
Zhou et al. | Deep semantic dictionary learning for multi-label image classification | |
Yang et al. | Show, attend, and translate: Unsupervised image translation with self-regularization and attention | |
CN111368920B (zh) | 基于量子孪生神经网络的二分类方法及其人脸识别方法 | |
CN111552807A (zh) | 一种短文本多标签分类方法 | |
CN114841257B (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN109753897B (zh) | 基于记忆单元强化-时序动态学习的行为识别方法 | |
CN109034080A (zh) | 多源域自适应的人脸识别方法 | |
CN110619059B (zh) | 一种基于迁移学习的建筑物标定方法 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN111667027A (zh) | 多模态图像的分割模型训练方法、图像处理方法及装置 | |
CN114255371A (zh) | 一种基于组件监督网络的小样本图像分类方法 | |
CN112784927B (zh) | 一种基于在线学习的半自动图像标注方法 | |
CN114048314A (zh) | 一种自然语言隐写分析方法 | |
Peng et al. | Toward personalized modeling: Incremental and ensemble alignment for sequential faces in the wild | |
CN112861626A (zh) | 基于小样本学习的细粒度表情分类方法 | |
CN111062406B (zh) | 一种面向异构领域适应的半监督最优传输方法 | |
Dheeraj et al. | Plant leaf diseases identification using deep learning approach for sustainable agriculture | |
Frank et al. | Confidence-driven hierarchical classification of cultivated plant stresses | |
CN113592045B (zh) | 从印刷体到手写体的模型自适应文本识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |