CN111292349A - 一种基于推荐候选框融合的用于目标检测的数据增强方法 - Google Patents
一种基于推荐候选框融合的用于目标检测的数据增强方法 Download PDFInfo
- Publication number
- CN111292349A CN111292349A CN202010053409.5A CN202010053409A CN111292349A CN 111292349 A CN111292349 A CN 111292349A CN 202010053409 A CN202010053409 A CN 202010053409A CN 111292349 A CN111292349 A CN 111292349A
- Authority
- CN
- China
- Prior art keywords
- fusion
- candidate frame
- recommendation candidate
- recommendation
- frame set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 148
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000001514 detection method Methods 0.000 title claims abstract description 24
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000001629 suppression Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 abstract description 36
- 230000006870 function Effects 0.000 description 14
- 238000012360 testing method Methods 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000007500 overflow downdraw method Methods 0.000 description 5
- 241000257465 Echinoidea Species 0.000 description 4
- 238000013434 data augmentation Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 235000020637 scallop Nutrition 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 241000258957 Asteroidea Species 0.000 description 2
- 101000912561 Bos taurus Fibrinogen gamma-B chain Proteins 0.000 description 2
- 241000251511 Holothuroidea Species 0.000 description 2
- 241000237509 Patinopecten sp. Species 0.000 description 2
- 239000006002 Pepper Substances 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013432 robust analysis Methods 0.000 description 2
- 235000002566 Capsicum Nutrition 0.000 description 1
- 241000237503 Pectinidae Species 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
一种基于推荐候选框融合的用于目标检测的数据增强方法,包括:输入一个待检测的图片序列;对输入的图片序列进行深度空间特征提取,每一个卷积层都会产生一个特征图;在最后一层特征图上提取大量可能包含前景目标的区域;得到推荐候选框集;取推荐候选框与融合对象,按照融合比例进行线性叠加,获得融合推荐候选框集;以及将融合推荐候选框集更新到原图片序列上推荐候选框集的位置上生成新图片序列,然后用新图片序列替换原图片序列来训练目标检测器。该方法基于推荐候选框的融合生成新的训练样本以替代原训练数据,能够训练出更稳定,更具鲁棒性的目标检测器,提高模型对复杂样本的检测能力。
Description
技术领域
本发明涉及目标检测技术领域,尤其涉及一种基于推荐候选框融合的用于目标检测的数据增强方法。
背景技术
由于现实世界的复杂性,现有训练集无法涵盖可能出现的种种情况。在有监督学习下,深度神经网络尝试去记忆、拟合训练数据,这导致模型经常面临过拟合问题,缺乏一定的鲁棒性:对于没有出现在训练数据中的情况,模型由于缺乏泛化能力会做出错误的预测;预测过程中容易受到噪声、模糊等因素的干扰。与此同时,模型在训练的过程中稳定性较差,在达到最佳性能后继续训练会出现性能大幅下降的情况。对此,数据增广手段被提出用以扩充训练数据集,缓解模型过拟合的情况。在早期,数据增广方法主要侧重增加训练数据,如随机裁剪,水平翻转,平移,旋转等。由于光照条件差异,对比度、亮度也成为需要调整的对象。与数据增广方法联系较为紧密的另一个分支是正则化。应用较为广泛的正则化方法包括权重衰减,正则项设置,随机失活(Dropout)等。
近年来,数据增广方法结合正则化,逐渐演变成了一种增强数据的方式,即在扩充数据量的同时又对模型起到正则化的作用,进而避免模型过度依赖训练数据。基于样本融合的数据增强方法,正是近年来研究的热点,也是刚刚兴起不久的领域。对于给定的图片数据集,样本融合方法尝试找到一种合理的融合方式,如随机选出数据集中的图片按照设定的融合比例进行混合,或是随机交换图片的区域,然后按照图片融合比例对标签进行融合,但也有些方法不进行标签的融合。通过这种融合方式可以获得该数据集的多个邻域数据集,并用该数据集去训练深度神经网络,使得训练出来的模型能够应对多种情况,且在有干扰的情况下仍能做出正确的判断。然而,现有的这些样本融合的数据增强方法(参考文献[1]、[2]、[3]和[4])主要是针对图像分类领域设计,鲜有人研究用于目标检测领域的基于样本融合的数据增强方法。如果直接将采用样本融合的数据增强训练得到的骨架模型直接作为目标检测器的预训练模型,虽然可以提升目标检测器的性能,但也会引入图像分类领域的偏置(图像分类对位置不敏感,而目标检测对位置敏感)。因此,如何针对目标检测器的特性去设计一种适用于目标检测的基于样本融合的数据增强方法,也是目前亟待解决的问题。
发明内容
为了解决上述样本融合的数据增强方法应用在目标检测领域存在的问题,本发明提出了一种基于推荐候选框融合的用于目标检测的数据增强方法,该方法基于推荐候选框的融合生成新的训练样本以替代原训练数据,能够训练出更稳定,更具鲁棒性的目标检测器,提高模型对复杂样本的检测能力。
本发明的技术方案如下:
一种基于推荐候选框融合的用于目标检测的数据增强方法,包括如下步骤:1)输入一个待检测的图片序列;2)利用深度卷积神经网络模型对输入的图片序列进行深度空间特征提取,每一个卷积层都会产生一个特征图;3)在最后一层特征图上利用区域提议网络的锚点机制来提取大量可能包含前景目标的区域;4)对于可能包含前景目标的区域,首先取出前景目标预测分数大于设定阈值的区域,然后去除冗余的区域,再使用边框回归系数校正筛选过的区域,得到推荐候选框集;5)取推荐候选框与融合对象,按照融合比例进行线性叠加,获得融合推荐候选框集;以及6)将融合推荐候选框集更新到原图片序列上推荐候选框集的位置上生成新图片序列,然后用新图片序列替换原图片序列来训练目标检测器。
优选的,在上述推荐候选框融合的数据增强方法中,步骤3)包括锚点的产生:利用滑动窗口在最后一层特征图自上而下,从左到右滑动,每滑到一个位置,同时预测产生K个不同尺度的锚点,每个锚点都根据其中包含目标的可能性预测一个分数,根据分数从高到低排序,保留前N个最有可能包含目标的锚点,生成锚点集A。
优选的,在上述推荐候选框融合的数据增强方法中,步骤4)包括,利用区域提议网络将最后一层特征图经过卷积层与激活层,输出经过区域提议网络的两个1×1的卷积层,各自得到前景/背景概率和每个锚点对应的边框回归系数;然后取出锚点集A中的前景锚点,对应预测分数大于设定阈值的区域,使用其对应的边框回归系数对进行边框校正;最后进行极大值抑制去除冗余锚点,得到推荐候选框集。
优选的,在上述推荐候选框融合的数据增强方法中,步骤5)中,包括为推荐候选框集中的每个推荐候选框随机选择融合对象,融合对象也来自推荐候选框集,最终得到融合对象集;采用插值的方式将融合对象集中元素的尺寸变换到它们各自对应的推荐候选框的尺寸;然后基于贝塔函数生成融合比例,将推荐候选框集中的元素与融合对象集中对应的元素按照融合比例进行线性叠加,生成融合推荐候选框集。
优选的,在上述推荐候选框融合的数据增强方法中,在步骤5)中,具体包括:将推荐候选框集打乱顺序得到打乱后的推荐候选框集,然后将推荐候选框集与打乱后的推荐候选框集中的第一个元素按照融合比例进行线性叠加,完成后,对推荐候选框集与打乱后的推荐候选框集中的第二个元素执行相同的融合操作,接着第三个元素,直到推荐候选框集与打乱后的推荐候选框集中的所有推荐候选框全都执行融合操作为止,最终得到融合候选框集。
优选的,在上述推荐候选框融合的数据增强方法中,基于贝塔函数生成融合比例γ′:(1-γ′),其中,γ′不是直接由Beta函数产生:首先使用Beta函数生成一个随机比例γ,其中α是推荐候选框融合的数据增强方法的超参数,其最优取值与数据集相关:
γ=Beta(α,α)
其次使用最大值函数选取一个较大值作为推荐候选框的融合比例:
γ′=Max(γ,1-γ)。
与现有技术相比,本发明的有益效果是:
1)本发明将复杂样本(具有目标重叠、遮挡、模糊特征)的检测难问题归结为数据集中复杂样本数量不足问题:即训练数据集中缺乏目标重叠、遮挡、模糊样本,而导致检测器缺乏检测复杂样本的能力。通过推荐候选框融合增加训练集中复杂样本的比例,进一步提升检测器对复杂样本的检测能力;
2)本发明将样本融合从图片层次进化到推荐候选框层次,使得数据增强的作用范围主要集中在前景目标上。因为目标检测模型更关注图片的前景信息,所以这种基于推荐候选框的融合方法比传统的样本融合方法更适用于目标检测模型。
3)本发明在Pascal VOC 2007和URPC 2018数据集上进行测试,结果表明经训练得到的Faster-RCNN模型在Pascal VOC数据集上能够提升0.8%mAP,在URPC数据集上能够提升1.18%mAP;在训练过程中,使用本发明训练的模型在两个数据集上的表现比未采用时有更好的稳定性;在预测阶段,使用本发明训练的模型在添加噪声的样本上比未采用时有更好的鲁棒性。
附图说明
下面结合附图,通过实例对本发明作进一步描述,但不以任何方式限制本发明的权利要求范围。
图1是本发明所针对的数据集难点示意图;
图2是本发明所提出的基于推荐候选框融合的用于目标检测的数据增强方法的整个网络框架图;
图3是本发明所提出的推荐候选框融合方法的一个实施例的示意图;
图4是依据本发明进行样本融合的数据增强方法的流程图;
图5A是本发明所训练得到的模型在Pascal VOC数据集的稳定性分析;
图5B分别是本发明所训练得到的模型在URPC数据集上的稳定性分析
图6是本发明训练得到的模型的鲁棒性分析。
具体实施方式
本发明的基于推荐候选框融合的用于目标检测的数据增强方法,是一种基于样本融合的用于训练深度神经网络的数据增强方法,该方法是基于推荐候选框的融合生成新的训练样本以替代原训练数据,能够训练出更稳定,更具鲁棒性的目标检测器。
该方法主要通过四个步骤来实现:第一步:推荐候选框的获得,具体地,给定区域提议网络产生的可能包含目标对象的推荐候选框集,对应下面步骤(1)(2)(3)(4);第二步:融合对象的获得,具体地,推荐候选框集中每个推荐候选框随机选择融合对象,该融合对象也来自推荐候选框集,最终得到融合对象集,该融合对象集与推荐候选框集所包含的元素数量是一致的,且一一对应,对应下面步骤(5);第三步:融合比例的生成以及推荐候选框的融合,具体地,采用插值的方式将融合对象集中元素的尺寸变换到它们各自对应的推荐候选框的尺寸;然后基于贝塔函数生成融合比例权重,将推荐候选框集中的元素与融合对象集中对应的元素按照权重进行线性叠加,生成新的融合推荐候选框集,对应下面步骤(5);第四步:原图候选框的更新,具体地,将融合推荐候选框集更新到原图片序列上推荐候选框集的位置上生成新图片序列,然后用该生成的新图片序列替换原图片序列来训练目标检测器,且这种替换操作存在于网络训练过程中的每一次迭代中。使用大量的邻域数据替代原始数据集去训练目标检测器,不但缓解了模型经常面临的过拟合问题,而且还进一步提升了模型的稳定性与鲁棒性,对应下面步骤(6)和(7)。通过在Pascal VOC(07+12)、URPC 2018数据集上大量的实验,验证了本发明方法的优越性。本发明能在不改变经典两阶段检测器模型Faster R-CNN的基础上,在多个数据集上取得性能增益。
本发明的基于推荐候选框融合的数据增强方法用于目标检测领域,能够训练具有更高性能、更高稳定性与鲁棒性的深度目标检测器。该方法主要包括四个阶段:推荐候选框及其融合对象的获得、融合比例的生成、推荐候选框的融合以及原图候选框的更新。
输入一个图片序列,首先利用经典的深度神经网络(例如,残差网络(ResNet))模型对其提取丰富的深度空间特征,在深度神经网络的最后一层特征图Fconv5上利用区域提议网络(Region Proposal Network,RPN)的锚点(anchor)机制来提取大量可能包含前景目标的区域。对于这些可能包含前景目标的区域,首先需要取出前景预测分数大于设定阈值的区域,然后去除冗余的区域(多个包含同一前景目标的区域),再使用边框回归系数去校正筛选过的区域,得到本发明需要的推荐候选框输入。然后基于贝塔函数生成推荐候选框的融合比例,通过插值操作保证融合对象与推荐候选框尺寸保持一致,然后进行叠加融合。最后将融合的结果更新到原图片序列推荐候选框的位置上,得到原图片序列的邻域数据,并用于训练目标检测器。
具体包括如下步骤:
1)输入一个待检测的图片序列,其维度为B×3×H×W,其中B代表图片数量,H和W代表3通道图像的长和宽;
3)在深度神经网络的最后一层特征图Fconv5上利用区域提议网络(RegionProposal Network,RPN)的锚点(anchor)机制来提取大量可能包含前景目标的区域。具体地包括锚点(Anchor)产生:利用滑动窗口以步长为1的速度在最后一层特征图Fconv5自上而下,从左到右滑动。每滑到一个位置,同时预测产生K个不同尺度的锚点,每个锚点都根据其中包含目标的可能性预测一个分数,根据分数从高到低排序,保留前N个最有可能包含目标的锚点,生成锚点集A;
4)对于可能包含前景目标的区域,首先需要取出前景预测分数大于设定阈值的区域,然后去除冗余的区域(多个包含同一前景目标的区域),再使用边框回归系数去校正筛选过的区域,得到推荐候选框。具体地,区域提议网络:将最后一层特征图Fconv5经过一层卷积层与激活层,然后将输出经过区域提议网络的两个1×1的卷积层,各自得到前景/背景概率和每个锚点对应的边框回归系数。然后取出锚点集A中的前景锚点(预测分数大于设定阈值),即前景概率较高的区域,使用其对应的边框回归系数对进行边框校正。最后进行极大值抑制去除冗余锚点,得到输出推荐候选框集S;
5)获得融合推荐候选框集:取推荐候选框与融合对象,按照融合比例进行线性叠加,得到融合推荐候选框集。具体地,将推荐候选框集S打乱顺序得到S′,然后将S与S′中的第一个元素按照融合比例进行叠加,完成后对S与S′中的第二个元素执行相同的融合操作,接着第三个,直到S和S′中的所有推荐候选框全都执行融合操作为止,最终得到融合候选框集S″;
不同于以往的样本融合的数据增强方法,本发明采用了推荐候选框的融合方式去模拟目标重叠、遮挡、模糊特征。从S和S′中取出对应的推荐候选框xA及融合对象xB,其中xA的尺寸为c×h×w,xB的尺寸为c×h′×w’。首先使用插值的方式将xB的尺寸缩放到xA的尺寸,保证两个推荐候选框的尺寸一致,即保持长宽一致,而不改变各自通道的顺序。基于贝塔函数生成融合比例γ′:(1-γ′)。γ′不是直接由Beta函数产生:
首先使用Beta函数生成一个随机比例γ,其中α是推荐候选框融合的数据增强方法的超参数,其最优取值与数据集相关:
γ=Beta(α,α)
其次使用最大值函数选取一个较大值作为推荐候选框的融合比例:
γ′=Max(γ,1-γ)
对两个推荐候选框按照γ′:(1-γ′)的比例进行线性叠加得到融合后的推荐候选框xC,xC的尺寸为c×h×w,与xA尺寸一致,融合后的推荐候选框的标签与xA标签保持一致。
6)生成新的训练样本:将融合推荐候选框集更新到原图片序列推荐候选框的位置上产生新的图片序列。具体地,用融合候选框集S"中的元素替换掉原图上推荐候选框S中的元素,得到新的训练样本,然后将该人工生成的训练数据作为输入输送到深度神经网络ResNet中提取特征,然后将最后一层特征图Fconv5'用于下一步的分类与校正操作。不同于以往的样本融合的数据增强方法,通过将步骤5)中得到的人工生成的多个推荐候选框更新到原图片序列上,使得数据增强主要集中在输入图片序列的前景目标上,而不是每个区域同等对待增强。
7)目标检测器的训练:通过上述步骤,在训练阶段的每一次迭代中都执行推荐候选框的融合操作生成新的图片序列,然后用该生成的图片序列训练目标检测器,多次迭代后能够得到更具稳定性和鲁棒性的目标检测器,目标检测器输出各类别概率及边框回归系数,并用输出的边框回归系数对区域提议网络生成的推荐候选框进行校正。
图1是本发明所针对的数据集难点示意图。本发明将复杂样本的检测难问题归结为数据集中复杂样本数量不足的问题:即训练数据集中缺乏目标重叠、遮挡、模糊样本,而导致检测器在检测这些样本时表现不佳。因此本发明尝试通过推荐候选框融合去模拟这种重叠、遮挡、模糊的情况,主要对前景目标进行增强而不是同等对待图片中每一部分。
图2是本发明所提出的基于推荐候选框融合的数据增强方法的整体网络框架图,其中:1-输入一个包含B张图片的图片序列;2-利用头网络即深度神经网络(ResNet)模型对图片序列进行特征提取;3-取头网络最后一层特征图Fconv5;4-将最后一层特征图Fconv5输入区域提议网络,得到前景/背景概率及边框回归系数,然后取出前景概率较高的区域,并使用对应边框回归系数进行边框校正得到图片的推荐候选框;5-取推荐候选框与融合对象,按照融合比例进行线性叠加,得到融合后的推荐候选框;6-将融合后的推荐候选框更新到原图片序列上产生新的训练样本,然后新图片序列经过头网络提取得到的推荐候选框特征将用于后续目标检测器(分类器)的训练,目标检测器(分类器)输出各类别概率及边框回归系数,并用输出的边框回归系数对区域提议网络生成的推荐候选框进行校正。
图3是本发明提出的推荐候选框的融合方法的一个实施例的示意图。假设随机选取到的两个推荐候选框x1,x2,包含的目标分别为扇贝、海胆。假设融合比例是(0.7:0.3),线性叠加后得到融合的推荐候选框该候选框具备遮挡、模糊的特性。x3是来自数据集中的一个复杂样本(遮挡),包含了重叠的扇贝和海胆。不难发现,我们的融合样本不仅模拟了x3的类间重叠情况,还模拟了复杂样本中的模糊特性。通过这种方式,可以提高数据集中复杂样本所占的比例,从而提高模型对复杂样本的检测能力。
图4是依据本发明进行样本融合的数据增强方法的流程图,整体流程为S1-S10,其中,S1输入一个图片序列;S2利用头网络ResNet(即,骨干网络)提取特征;S3利用区域提议网络(区域推荐网络)生成n个推荐候选框,记为集A;S4为每个推荐候选框随机选择融合对象,得到集B;S5基于贝塔函数产生融合比例c:(1-c);S6将推荐候选框集A与融合对象集B中索引元素按照融合比例c进行融合;S7候选框索引i加1(i=i+1);S8判断是否满足循环停止条件I<n;如果不满足,则跳转到S6继续执行;S9如果满足,则将融合生成的n个新推荐候选框更新到原图片序列上;S10得到人工生成的新图片序列;S11然后将生成的新序列用于训练目标检测器。
图5A和图5B是本发明训练得到的模型的稳定性分析,图5A和图5B中示出了基准模型和本发明的模型在Pascal VOC数据集和URPC数据集上的对比,从图中可以观察到无论是在Pascal VOC数据集上还是在URPC数据集上,采用本发明训练得到的模型都优于基准模型(经典两阶段检测器模型Faster R-CNN)。
图6是本发明方法训练得到的模型的鲁棒性分析,从图中可以观察到对于人为生成的包含高斯噪声、泊松噪声、盐噪声、椒噪声和椒盐噪声的测试样本,使用本发明训练得到的模型在噪声测试样本上的表现都优于基准模型。
为了验证本发明的有效性,在两个公开数据集进行测试,分别是视觉对象类挑战(简称Pascal VOC 2007)和水下机器人抓取大赛(简称URPC 2018)。Pascal VOC数据集包含9963张标注过的图片,由训练集/验证集/测试集三部分组成,总共包含20种类别,共标注24640个物体。较为常用的Pascal VOC数据集是Pascal VOC 2007与Pascal VOC 2012。在我们的实验中我们取Pascal VOC 2007与Pascal VOC 2012中训练验证集训练模型,取PascalVOC 2007的测试集进行模型的测试。URPC数据集是一个水下目标检测数据集,该数据集分为训练验证集与测试集,其中训练验证集包含2901张图片,测试集包含800张测试图片。该水下数据集中共标注四种水下生物:海参、海胆、扇贝、海星。该水下数据集比通用目标检测数据集难度更大。URPC数据集中的图片质量普遍较差,存在色偏、低对比度的情况。由于水下生物的生活习性,海参、海胆、扇贝和海星常常密集分布,相互重叠与遮挡,而且由于水中混杂的泥沙,导致水下生物出现模糊的情况。对于这两个数据集,我们都采用mAP(meanAverage Precision)作为评价指标。据我们所知,本发明是首个公布基于推荐候选框融合的数据增强方法在Pascal VOC与URPC数据集上的性能,本发明对比了本发明提出的数据增强方法相对于基准的性能表现,结果如表1、表2所示。
本发明以URPC 2018数据集为例,来说明本发明如何在实际中使用。本发明的基于推荐候选框融合的数据增强方法是基于Faster R-CNN的公开代码并在Pytorch深度学习框架上实现,首先网络的输入是一个包含4张图片的图片序列,然后使用ImageNet预训练的ResNet-101模型作为检测器的特征提取网络,接着使用URPC 2018的数据集进行参数微调,最后进行特征提取,并将特征输送到区域提议网络中。在由区域提议网络产生推荐候选框之后,在不改变推荐候选框数量的情况下打乱它们的顺序,然后与原顺序推荐候选框构成融合对,按照给定的融合比例进行线性叠加。接着将融合后的推荐候选框更新到原图片序列上推荐候选框的位置上,获得新的图片序列,并提取新图片序列的特征图,用于训练后续的目标检测器。该融合操作存在于训练过程中的每一次迭代。结果如下。
表1:在URPC 2018数据集上的结果对比
表1是本发明及其变式在水下数据集URPC上的结果,该数据集包含大量的重叠、遮挡、模糊的复杂样本。其中,“√”表示使用的方法包括对应的模块,单图表示只使用一张图内的推荐候选框进行融合,多图表示使用多张图内的推荐候选框进行融合,标注指使用人工标注区域进行融合,RoI(region of interest)指使用区域提议网络生成的可能包含目标的区域进行融合,Max表示采用最大值函数选择融合比例。
从表1的倒数两行可以发现,在选取融合比例时的max操作对性能的影响较大,相对于基准网络(baseline)相差了0.88%mAP,这说明了在不融合标签的情况下选取融合比例时采用的max操作的重要性。从表1第二行与第三行可以得出,基于推荐候选框的融合比基于标注(Ground Truth,GT)框的融合更加有效,二者性能相差0.75%。从表1的第二行与第五行,第三行与第四行两组对比可以看出,在多图上采用样本融合的数据增强方法比单图有更多的性能增益。因此本发明是基于多图的推荐候选框融合,同时采用max函数为推荐候选框选取一个较大权重,为融合对象选取一个较小的权重。以上实验结果表明了本发明的有效性。
在Pascal VOC数据集上的测试,首先网络的输入是一个包含四张图片的图片序列,然后使用ImageNet预训练的ResNet-101模型作为检测器的特征提取网络,然后使用Pascal VOC的数据集进行参数微调,最后进行特征提取,并将特征输送到区域提议网络中。后续过程与在URPC数据集测试一致。结果如下。
表2:在Pascal VOC数据集上的结果对比
表2是本发明及其变式在通用目标检测数据集Pascal VOC上的结果。其中,“√”表示使用的方法包括对应的模块,单图表示只使用一张图内的推荐候选框进行融合,多图表示使用多张图内的推荐候选框进行融合,标注指使用人工标注区域进行融合,RoI(regionof interest)指使用区域提议网络生成的可能包含目标的区域进行融合,Max表示采用最大值函数选择融合比例。该数据集的重叠、遮挡、模糊样本占本数据集的比例没有水下数据集高,因此本发明在Pascal VOC上的性能增益会小于URPC数据集。从表2的第一行与第二行可以看出,本发明可以在不改变模型结构的情况下提高0.8%mAP。本发明及其变式对比基准都取得了一定的性能增益。实验结果说明本发明提出的方法相较于变式能够最大程度的提升目标检测器的性能。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
现有的用于图像分类的基于样本融合的数据增强方法分别记载在以下相应的参考文献中:
[1]HongyiZhang,MoustaphaCisse,YannNDauphin,andDavid Lopez-Paz,“mixup:Beyond empirical risk minimization,”arXiv preprint arXiv:1710.09412,2017.
[2]Terrance DeVries and Graham W Taylor,“Improved regularization ofconvolutional neural networks with cutout,”arXiv preprint arXiv:1708.04552,2017.
[3]Sangdoo Yun,Dongyoon Han,Seong Joon Oh,Sanghyuk Chun,Junsuk Choe,and Youngjoon Yoo,“Cutmix:Regular-ization strategy to train strongclassifiers with localizable fea-tures,”arXiv preprint arXiv:1905.04899,2019.
[4]Cecilia Summers and Michael J Dinneen,“Improved mixed-example dataaugmentation,”in 2019IEEE Winter Conference on Applications of ComputerVision(WACV).IEEE,2019,pp.1262–1270.
Claims (6)
1.一种基于推荐候选框融合的用于目标检测的数据增强方法,其特征在于:包括如下步骤:
1)输入一个待检测的图片序列;
2)利用深度卷积神经网络模型对输入的图片序列进行深度空间特征提取,每一个卷积层都会产生一个特征图;
3)在最后一层特征图上利用区域提议网络的锚点机制来提取大量可能包含前景目标的区域;
4)对于可能包含前景目标的区域,首先取出前景目标预测分数大于设定阈值的区域,然后去除冗余的区域,再使用边框回归系数校正筛选过的区域,得到推荐候选框集;
5)取推荐候选框与融合对象,按照融合比例进行线性叠加,获得融合推荐候选框集;以及
6)将融合推荐候选框集更新到原图片序列上推荐候选框集的位置上生成新图片序列,然后用所述新图片序列替换原图片序列来训练目标检测器。
2.根据权利要求1所述的推荐候选框融合的数据增强方法,其特征在于,所述步骤3)包括锚点的产生:利用滑动窗口在最后一层特征图自上而下,从左到右滑动,每滑到一个位置,同时预测产生K个不同尺度的锚点,每个锚点都根据其中包含目标的可能性预测一个分数,根据分数从高到低排序,保留前N个最有可能包含目标的锚点,生成锚点集A。
3.根据权利要求2所述的推荐候选框融合的数据增强方法,其特征在于,步骤4)包括,利用所述区域提议网络将所述最后一层特征图经过卷积层与激活层,输出经过所述区域提议网络的两个1×1的卷积层,各自得到前景/背景概率和每个锚点对应的边框回归系数;然后取出所述锚点集A中的前景锚点,对应预测分数大于设定阈值的区域,使用其对应的边框回归系数对进行边框校正;最后进行极大值抑制去除冗余锚点,得到推荐候选框集。
4.根据权利要求1所述的推荐候选框融合的数据增强方法,其特征在于,步骤5)中,包括为所述推荐候选框集中的每个推荐候选框随机选择融合对象,所述融合对象也来自所述推荐候选框集,最终得到融合对象集;采用插值的方式将所述融合对象集中元素的尺寸变换到它们各自对应的推荐候选框的尺寸;然后基于贝塔函数生成融合比例,将所述推荐候选框集中的元素与所述融合对象集中对应的元素按照融合比例进行线性叠加,生成融合推荐候选框集。
5.根据权利要求4所述的推荐候选框融合的数据增强方法,其特征在于,在步骤5)中,具体包括:将推荐候选框集打乱顺序得到打乱后的推荐候选框集,然后将所述推荐候选框集与所述打乱后的推荐候选框集中的第一个元素按照融合比例进行线性叠加,完成后,对所述推荐候选框集与所述打乱后的推荐候选框集中的第二个元素执行相同的融合操作,接着第三个元素,直到所述推荐候选框集与所述打乱后的推荐候选框集中的所有推荐候选框全都执行融合操作为止,最终得到融合候选框集。
6.根据权利要求4所述的推荐候选框融合的数据增强方法,其特征在于:基于贝塔函数生成融合比例γ′:(1-γ′),其中,γ′不是直接由Beta函数产生:
首先使用Beta函数生成一个随机比例γ,其中α是推荐候选框融合的数据增强方法的超参数,其最优取值与数据集相关:
γ=Beta(α,α)
其次使用最大值函数选取一个较大值作为推荐候选框的融合比例:
γ′=Max(γ,1-γ)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010053409.5A CN111292349B (zh) | 2020-01-17 | 2020-01-17 | 一种基于推荐候选框融合的用于目标检测的数据增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010053409.5A CN111292349B (zh) | 2020-01-17 | 2020-01-17 | 一种基于推荐候选框融合的用于目标检测的数据增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111292349A true CN111292349A (zh) | 2020-06-16 |
CN111292349B CN111292349B (zh) | 2023-04-18 |
Family
ID=71021198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010053409.5A Active CN111292349B (zh) | 2020-01-17 | 2020-01-17 | 一种基于推荐候选框融合的用于目标检测的数据增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111292349B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113361588A (zh) * | 2021-06-03 | 2021-09-07 | 北京文安智能技术股份有限公司 | 基于图像数据增强的图像训练集生成方法和模型训练方法 |
CN116310293A (zh) * | 2023-02-13 | 2023-06-23 | 中国矿业大学(北京) | 一种基于弱监督学习的生成高质量候选框目标检测方法 |
US11689693B2 (en) * | 2020-04-30 | 2023-06-27 | Boe Technology Group Co., Ltd. | Video frame interpolation method and device, computer readable storage medium |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284704A (zh) * | 2018-09-07 | 2019-01-29 | 中国电子科技集团公司第三十八研究所 | 基于cnn的复杂背景sar车辆目标检测方法 |
CN109977812A (zh) * | 2019-03-12 | 2019-07-05 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
CN110211097A (zh) * | 2019-05-14 | 2019-09-06 | 河海大学 | 一种基于Faster R-CNN参数迁移的裂缝图像检测方法 |
-
2020
- 2020-01-17 CN CN202010053409.5A patent/CN111292349B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284704A (zh) * | 2018-09-07 | 2019-01-29 | 中国电子科技集团公司第三十八研究所 | 基于cnn的复杂背景sar车辆目标检测方法 |
CN109977812A (zh) * | 2019-03-12 | 2019-07-05 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
CN110211097A (zh) * | 2019-05-14 | 2019-09-06 | 河海大学 | 一种基于Faster R-CNN参数迁移的裂缝图像检测方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11689693B2 (en) * | 2020-04-30 | 2023-06-27 | Boe Technology Group Co., Ltd. | Video frame interpolation method and device, computer readable storage medium |
CN113361588A (zh) * | 2021-06-03 | 2021-09-07 | 北京文安智能技术股份有限公司 | 基于图像数据增强的图像训练集生成方法和模型训练方法 |
CN116310293A (zh) * | 2023-02-13 | 2023-06-23 | 中国矿业大学(北京) | 一种基于弱监督学习的生成高质量候选框目标检测方法 |
CN116310293B (zh) * | 2023-02-13 | 2023-09-12 | 中国矿业大学(北京) | 一种基于弱监督学习的生成高质量候选框目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111292349B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Voigtlaender et al. | Online adaptation of convolutional neural networks for the 2017 davis challenge on video object segmentation | |
Kümmerer et al. | DeepGaze II: Reading fixations from deep features trained on object recognition | |
Zhao et al. | Robust LSTM-autoencoders for face de-occlusion in the wild | |
CN111292349B (zh) | 一种基于推荐候选框融合的用于目标检测的数据增强方法 | |
Rosin | Image processing using 3-state cellular automata | |
CN109858429B (zh) | 一种基于卷积神经网络的眼底图像病变程度识别与可视化系统 | |
Yu et al. | Iterative target-constrained interference-minimized classifier for hyperspectral classification | |
Feng et al. | Deep-masking generative network: A unified framework for background restoration from superimposed images | |
CN112597815A (zh) | 一种基于Group-G0模型的合成孔径雷达图像舰船检测方法 | |
JP7160416B2 (ja) | 水増しを用いた学習方法及び学習装置 | |
Sun et al. | Cloud-aware generative network: Removing cloud from optical remote sensing images | |
Li et al. | Learning disentangling and fusing networks for face completion under structured occlusions | |
Bertoin et al. | Local feature swapping for generalization in reinforcement learning | |
Govathoti et al. | Data augmentation techniques on chilly plants to classify healthy and bacterial blight disease leaves | |
Li et al. | Underwater object tracker: UOSTrack for marine organism grasping of underwater vehicles | |
Wu et al. | Salient object detection based on global to local visual search guidance | |
Yang et al. | Pseudo-representation labeling semi-supervised learning | |
Ma et al. | Weighted multi-error information entropy based you only look once network for underwater object detection | |
CN113487506A (zh) | 基于注意力去噪的对抗样本防御方法、装置和系统 | |
Liu et al. | Deep Counterfactual Representation Learning for Visual Recognition against Weather Corruptions | |
Zhu et al. | High-compressed deepfake video detection with contrastive spatiotemporal distillation | |
Shah et al. | Two-stage coarse-to-fine image anomaly segmentation and detection model | |
Cygert | Robust and Efficient Machine Learning Algorithms for Visual Recognition | |
Zhang et al. | Video Frame Interpolation via Multi-scale Expandable Deformable Convolution | |
Mudassar et al. | FocalNet-Foveal Attention for Post-processing DNN Outputs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |