CN112529095B - 一种基于卷积区域重配准的单阶段目标检测方法 - Google Patents
一种基于卷积区域重配准的单阶段目标检测方法 Download PDFInfo
- Publication number
- CN112529095B CN112529095B CN202011533529.1A CN202011533529A CN112529095B CN 112529095 B CN112529095 B CN 112529095B CN 202011533529 A CN202011533529 A CN 202011533529A CN 112529095 B CN112529095 B CN 112529095B
- Authority
- CN
- China
- Prior art keywords
- network
- stage
- detection
- training
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于卷积区域重配准的单阶段目标检测方法,包括获取检测图片的训练集;对训练集的训练图片和测试图片进行像素的标准化并将图片缩放至相同大小;建立深度卷积神经网络结构,利用损失函数及所述训练集进行训练得到网络模型;根据网络模型对测试图片测试,基于第一阶段的坐标回归结果,对卷积核采样区域进行重新定位,在特征金字塔的基础上判断前景目标区域的具体类别并进行第二阶段的坐标回归;对获得的检测结果通过非极大值抑制的方法进行后处理,获得最终的检测结果。本发明能够根据图片中目标的不同大小,自适应地调整第二阶段检测时卷积核的感受野,获取更加完整的特征信息,从而达到更好的目标检测效果。
Description
技术领域
本发明涉及深度神经网络目标检测技术领域,特别涉及一种基于卷积区域重配准的单阶段目标检测方法。
背景技术
随着深度学习技术的发展,基于深度学习的目标检测技术越来越受到人们的重视,应用范围也逐渐扩大,小到智能手机的摄像头,大到工业生产的流水线,都有目标检测技术的用武之地。传统的目标检测技术需要专业人员针对特定的应用场景,设计相应的特征提取器和分类器,如HOG特征(Histogram of Oriented Gradient简写,代表方向梯度直方图)和SVM分类器(Support Vector Machine简写,代表支持向量机)等。但是传统目标检测检测技术应用场景单一,可移植性与鲁棒性较差,每次重新部署或者改变检测对象都需要重新设计特征提取器与分类器,局限性较大。
自深度学习技术出现后,目标检测技术也得到了突飞猛进的发展,许多检测框架被提出并且很快就被应用于工业生产和实际生活中。现有的检测框架主要分为单阶段检测框架和双阶段检测框架。其中,单阶段检测框架包括SSD、YOLO等,双阶段检测框架包括Faster-RCNN、Mask-RCNN等。双阶段检测框架具有更复杂的特征提取结构,在特征提取网络的基础上,使用区域特征池化等方法,更好地提取待检测区域的卷积特征,并且在分类层中使用全连接层的方式进行分类。更复杂的特征提取手段和更多的参数量使得双阶段检测框架的检测准确率更高。
现有技术的不足之处在于,在很多实际应用场景中,其对检测精度的要求并不十分苛刻,但是要求足够快的检测速度,尤其是在一些实时检测项目中。双阶段检测框架由于其耗费的算力资源和检测时间都较高,所以难以满足实际要求。相反,单阶段检测框架依赖其统一的全卷积特性,可以实现更快的检测速度,且在简单场景下的同样能够达到较高的检测精度。但是当场景变化较大以及待检测的目标在图像中的尺寸变化较为剧烈,尤其是待检测目标具有不同的旋转角度的情况下,普通的单阶段检测方法不能很好地解决这些问题,容易导致目标的漏检与误检,从而影响最终的检测效果。
发明内容
本发明的目的克服现有技术存在的不足,为实现以上目的,采用一种基于卷积区域重配准的单阶段目标检测方法,以解决上述背景技术中提出的问题。
一种基于卷积区域重配准的单阶段目标检测方法,包括:
获取检测图片的训练集;
对训练集的训练图片和测试图片进行图片标准化;
建立深度卷积神经网络结构,利用损失函数及所述训练集进行训练得到网络模型;
根据网络模型对测试图片测试,进行计算面积交并比以及非极大值抑制,得到最终的检测结果。
作为本发明的进一步的方案:所述获取检测图片的训练集的具体步骤包括:
获取检测图片的训练集,所述训练集包括M张训练图片为X={X1,X2,…,Xm,…,XM},其中Xm表示第m张训练图片;
所述M张训练图片选取有一一对应的M个标签为Y={Y1,Y2,…,Ym,…,YM},其中Ym表示第m张训练图片;
所述M个标签中包括相应图片中的N个目标物体的类别与坐标信息为Ym={Pm,1,Bm,1,Pm,2,Bm,2,…,Pm,n,Bm,n,…,Pm,N,Bm,N},其中Pm,n表示第m张图片中的第n个目标物体在所属的类别,且Pm,n∈{C0,C1,C2,…,Cj,…,CJ},C表示总的类别,Cj表示第j个类别,C0表示背景类,J为类别总数,Bm,n表示第m张图片中的第n个物体的坐标,且Bm,n={wm,n,hm,n,cxm,n,cym,n,θm,n},分别表示标注物体的矩形框的宽度wm,n、高度hm,n、中心点横坐标cxm,n、中心点纵坐标cym,n和旋转角度θm,n。
作为本发明的进一步的方案:所述对训练集的训练图片和测试图片进行图片标准化的具体步骤包括:
根据预设像素均值和像素标准差,将训练集X中的图片进行像素层面的标准化;
再将训练集X中的图片进行缩放,保持图片大小一致;
训练集X中的图片进行数据增强操作,其中包括图片亮度与饱和度的随机改变、图片的随机水平翻转,以及图片的随机裁剪。
作为本发明的进一步的方案:所述任一图片像素点的标准化公式为:
Pixelx=(Pixelx-Pixelmean)/Pixelxstd;
其中,Pixelmean为像素均值,Pixelstd为像素标准差。
作为本发明的进一步的方案:所述建立深度卷积神经网络结构,利用损失函数及所述训练集进行训练得到网络模型的具体步骤包括:
获取基础特征提取网络M和额外卷积网络MA;
在所述基础特征提取网络M和额外卷积网络MA的基础上搭建第一阶段的分类网络CLS1和定位网络LOC1;
在基础特征提取网络M和额外卷积网络MA的基础上构建特征金字塔网络,并生成F张第一阶段的特征图FEA1,并进一步生成高分辨率的第二阶段的特征图FEA2;
以所述第一阶段定位网络LOC1的坐标检测结果LR1对第一阶段的分类网络CLS1和卷积网络的卷积区域CR1进行重配准;
在所述第二阶段的特征图FEA2和重分配卷积区域CR2的基础上,进行第二阶段的分类与定位,得到第二阶段的分类网络CLS2与定位网络LOC2;
在第一阶段和第二阶段检测过程中进行损失函数定义;
进行训练集训练获得最终的网络模型。
作为本发明的进一步的方案:所述获取基础特征提取网络M和额外卷积网络MA的具体步骤包括:
使用ResNet网络和/或VGG网络作为图片的基础特征提取网络,其中ResNet网络包括ResNet50、ResNet101和ResNet152,VGG网络包括VGG16和VGG19;
根据上述公式,在基础特征提取网络M基础上添加额外卷积网络MA并对进行参数初始化操作:
Mweight=MPweight;
MAweight=Gaussian(0,1);
其中Mweight和MAweight分别为基础特征网络和额外卷积网络的参数;MP表示基础特征网络M在数据集上的预训练结果,MPweight表示预训练网络的参数;Gaussian(0,1)表示额外卷积网络MA的权重参数满足均值为0,方差为1的高斯分布。
作为本发明的进一步的方案:所述构建特征金字塔网络的具体步骤包括:
首先对最高层特征图进行单独处理;
再按照特征图空间分辨率由低到高的顺序依次进行处理:
FEA2F=TSF(FEA1F);
t=TSi(FEA1i);
FEA2i=t+INPi(FEA2i+1);
其中,t为特征金字塔构造过程中的中间特征图;其中i的取值顺序为{F-1,F-2,…,1},特征金字塔网络包括包括特征图转换网络TS和特征图缩放网络INP。
作为本发明的进一步的方案:所述在第一阶段和第二阶段检测过程中进行损失函数定义的具体步骤包括:
所述损失函数为:
其中,i表示预设锚框的下标,pi和xi分别表示第一阶段的二分类预测概率和坐标检测结果;和分别表示下标为i的预设锚框的真实类别和位置偏移向量,ci和ti为第二阶段的多分类预测概率和坐标检测结果,N1和N2分别表示第一阶段和第二阶段检测过程中的正样本数量。Lb为判断物体为前景或者背景的二分类交叉熵损失,Lm为判断物体所述类别的多分类交叉熵损失,Lr为Smooth-L1损失函数;
总损失Loss为第一阶段和第二阶段的损失的加权和。
作为本发明的进一步的方案:所述根据网络模型对测试图片测试,进行计算面积交并比以及非极大值抑制,得到最终的检测结果的具体步骤包括:
根据训练得到的网络模型,使用Q张测试图片的样本T进行测试,输入网络模型;
并将检测结果R={R1,R2,…,Rq,…,RQ}以类别保存;
最后计算旋转后的矩形框之间的面积交并比,进行非极大值抑制,仅保留得分较大且相互重叠面积小的检测框,作为最终的检测结果。
作为本发明的进一步的方案:所述非极大值抑制的步骤为:
对初始检测结果Rq中同类别下的每个检测框的预测得分分别进行重新降序排序,所述排序后结果为R'q={R'c1,R'c2,…,R'cf,…,R'cF},其中R'cf为排序后的第j类上的检测结果;
对R'cf中的任意一个检测框b,将其和所有预测得分小于当前得分的检测框之间进行面积交并比的计算,所述面积交并比计算公式为:
T=areab+areabs;
I=interw×interh;
U=T-I;
IOU=I/U;
其中,areab表示检测框b的面积,areabs表示任一得分小于b的检测框bs的面积,interw与interh分别表示两个检测框相交区域的宽度和高度;
若两个检测框的面积交并比超过阈值tiou,则舍弃得分较低的检测框bs。
与现有技术相比,通过采用上述的技术方案,本发明存在以下技术效果:
本申请通过采用计算机视觉和深度学习领域的算法,包括图片增强、深度卷积网络搭建、特征提取等,实现基于卷积区域重配准的单阶段目标检测,提高了传统单阶段目标检测方法的检测能力,解决了传统单阶段检测方法针对复杂场景和多尺度目标下难以进行有效检测的问题;通过第一阶段特征图上的检测结果对后续卷积层的卷积区域进行自适应地调整并且通过双线性插值计算重配准的采样点,保持了单阶段检测全卷积的特性,从而保证了检测速度,并获得目标区域更加完整和精细的特征,解决了传统单阶段检测方法只能提取固定感受野下目标特征的问题。
本申请以深度学习中的梯度反向传播算法为基础,根据网络最后的损失函数,训练时自动计算每次迭代的损失,通过链式求导法则,计算出网络中所有可学习参数的更新梯度,从而完成网络参数的更新,实现端到端的训练过程,避免了人工干预和手动计算特征提取器与分类器参数,提高了系统的易用性,且学习到的网络参数能够较好地适应于多种检测目标。其中,在梯度反向传播进行参数更新时,能够更直接高效地更新这两部分的网络参数,避免梯度消失。
本申请根据数字图像处理原理,对训练图片进行多种数据增强,包括图片翻转、色彩空间转换、图片缩放等,提高训练图片的利用率,增加样本的多样性,一定程度上减少数据标注的需求,提升模型的鲁棒性和泛化能力。
本申请使用基于深度学习的双线性插值方法实现卷积区域采样点的重配准,从而满足链式求导法则,使得梯度可以正常传播,实现端到端地训练,且不增加网络的参数量。
本申请以非极大值抑制作为待检测图片中检测结果的后处理手段,并将其扩展到带有旋转角度的检测框中,从而实现对水平检测框和旋转检测框的通用化处理,有效减少图片中的冗余检测结果。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1为本申请公开的一些实施例的单阶段目标检测方法的流程框图;
图2为本申请公开的一些实施例的整体网络结构示意图;
图3为本申请公开的一些实施例的训练与测试框架流程示意图;
图4为本申请公开的一些实施例的卷积区域重配准结构示意图;
图5为本申请公开的一些实施例的检测结构非极大值抑制处理流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1、图2和图3,本发明实施例中,一种基于卷积区域重配准的单阶段目标检测方法,包括:
首先准备好训练用的带有标注信息的图片;然后对训练图片进行处理和增强;搭建基础特征提取网络和额外卷积网络用语获取输入图片的第一阶段特征图并且进行第一阶段的二分类和位置检测;搭建特征金字塔网络用于获取第二阶段的特征图;在第二阶段特征图的基础上,结合第一阶段的检测结果,对卷积区域进行调整,重新计算卷积区域中的采样点位置,使用双线性插值方法获取新的采样点位置的像素值,实现卷积区域的重配准;之后基于重配准的卷积区域进行第二阶段的多类别分类和位置检测;使用多目标损失函数作为网络的损失函数;测试时采用更加通用的基于旋转矩形框的非极大值抑制方法进行检测结果后处理。
S1、获取检测图片的训练集;
获取检测图片的训练集,所述训练集包括M张训练图片为X={X1,X2,…,Xm,…,XM},其中Xm表示第m张训练图片;
所述M张训练图片选取有一一对应的M个标签为Y={Y1,Y2,…,Ym,…,YM},其中Ym表示第m张训练图片;
所述M个标签中包括相应图片中的N个目标物体的类别与坐标信息为Ym={Pm,1,Bm,1,Pm,2,Bm,2,…,Pm,n,Bm,n,…,Pm,N,Bm,N},其中Pm,n表示第m张图片中的第n个目标物体在所属的类别,且Pm,n∈{C0,C1,C2,…,Cj,…,CJ},C表示总的类别,Cj表示第j个类别,C0表示背景类,J为类别总数,Bm,n表示第m张图片中的第n个物体的坐标,且Bm,n={wm,n,hm,n,cxm,n,cym,n,θm,n},分别表示标注物体的矩形框的宽度wm,n、高度hm,n、中心点横坐标cxm,n、中心点纵坐标cym,n和旋转角度θm,n。
S2、对训练集的训练图片和测试图片进行图片标准化;
在一些具体的实施例中,所述对训练集的训练图片和测试图片进行图片标准化的具体步骤包括:
根据预设像素均值Pixelmean和像素标准差Pixelstd,将训练集X中的图片进行像素层面的标准化;
将训练集X中的图片统一缩放至320×320的大小,需要注意图片缩放之后,图片中物体的标注位置也需要进行相应调整,否则会出现不匹配。也可以将图片缩放至512×512或者640×640,更高分辨率的图片能够提升检测的精度,但是会降低检测速度,保持图片大小一致,使其图片尺寸相同并满足网络的输入条件。
训练集X中的图片进行数据增强操作,其中包括图片亮度与饱和度的随机改变、图片的随机水平翻转,以及图片的随机裁剪。
所述图片亮度与饱和度的随机改变分别是在RGB色彩空间中和将图片转换到HSV空间中进行的,所述图片的随机水平翻转采用水平随机翻转,所述图片的翻转和随机裁剪需要同时考虑图片中物体的标注位置下,同步进行调整。
具体的,所采用的训练图片为RGB图片,因此每个像素点具有三个像素值,分别对应于三个颜色通道,所以Pixelmean与Pixelstd同样具有三个像素值,每个通道之间分别进行像素值的处理。
所述任一图片像素点的标准化公式为:
Pixelx=(Pixelx-Pixelmean)/Pixelxstd;
其中,Pixelmean为像素均值,Pixelstd为像素标准差。
S3、建立深度卷积神经网络结构,利用损失函数及所述训练集进行训练得到网络模型;
在一些具体的实施例中,所述深度卷积神经网络结构包括:基础特征提取网络与额外卷积网络、一阶段检测与定位网络、特征金字塔网络、卷积区域重配准结构和二阶段检测与定位网络。
获取基础特征提取网络M和额外卷积网络MA;
具体的,使用ResNet系列网络和/或者VGG系列网络作为图片的基础特征提取网络M,其中ResNet网络包括ResNet50、ResNet101和ResNet152;VGG网络包括VGG16和VGG19。确定所使用的基础特征提取网络M后,需要在M的基础上添加额外的卷积网络MA用于获得更低分辨率的特征图,其空间分辨率更小,但是特征抽象程度更高,具有更大的感受野,能够检测图片中的大型物体。
并对M和MA分别进行参数初始化操作:
Mweight=MPweight;
MAweight=Gaussian(0,1);
其中Mweight和MAweight分别为基础特征网络和额外卷积网络的参数;MP表示基础特征网络M在数据集上的预训练结果,MPweight表示预训练网络的参数;Gaussian(0,1)表示额外卷积网络MA的权重参数满足均值为0,方差为1的高斯分布。
在一些具体的实施例中,所述基础特征提取网络M采用ResNet50,其预训练模型来自ImageNet数据集上的分类模型,并且将ResNet50前两层残差结构的学习率置为0,使其不参与训练,这样可以降低网络训练过程中的过拟合风险。
在所述基础特征提取网络M和额外卷积网络MA的基础上搭建第一阶段的分类网络CLS1和定位网络LOC1;
在所述基础特征提取网络和额外卷积网络的基础上进行搭建第一阶段的分类网络CLS1和定位网络LOC1,且CLS1与LOC1分别由F个卷积层构成。其中分类网络CLS1和定位网络LOC1分别表示为CLS1={CLS11,CLS12,…,CLS1f,CLS1F},LOC1={LOC11,LOC12,…,LOC1f,LOC1F},F为基础特征提取网络M和额外卷积网络MA所共同产生的特征图数量,CLS1f与LOC1f分别表示表示第f张特征图上分类与定位网络,其表示如下:
CLS1f=Conv(channel1f,2,strideh1,stridew1);
LOC1f=Conv(channel1f,5,strideh1,stridew1);
其中,Conv表示一个单独的卷积层,输入通道数channel1f表示由基础特征提取网络和额外卷积网络得到的第f张特征图的通道数;2表示CLS1f的卷积输出通道数,代表此时只进行前景和背景的二分类判别工作,5表示LOC1f的卷积输出通道数,代表此时坐标回归的参数为5个,与上文所述的物体坐标Bm,n相对应;strideh1和stridew1为卷积核的高度和宽度。
在一些具体的实施例中,由ResNet50和额外卷积网络共同生成的特征图数量为4,即F为4,其特征图相应通道数分别为{512,1024,2048,512}。strideh1和stridew1均为3。
在基础特征提取网络M和额外卷积网络MA的基础上构建特征金字塔网络,并生成F张第一阶段的特征图FEA1,并进一步生成高分辨率的第二阶段的特征图FEA2;
具体的,生成F张第一阶段的特征图FEA1表示为FEA1={FEA11,FEA12,…,FEA1f,…,FEA1F},第一阶段的特征图的宽度和高度分别表示为W1={W11,W12,…,W1f,…,W1F}和H1={H11,H12,…,H1f,…,H1F},其中W1f和H1f分别表示第一阶段的第f张特征图的宽度和高度。
当1≤i≤F-1时,满足W1i=2×W1i+1,H1i=2×H1i+1。在FEA1中,高层特征图的空间分辨率小但是语义信息丰富,底层特征图的空间分辨率大,因此具有更精细的局部特征,特征金字塔能够将高层特征图的语义信息向底层进行传递,从而结合两者的优点,获得具有更高分辨率同时具有丰富语义信息的特征图。将特征金字塔生成的特征图记为FEA2,称为第二阶段的特征图,FEA2={FEA21,FEA22,…,FEA2f,…,FEA2F},其中FEA2f表示第一阶段的第f张特征图。FEA2的特征图数量与FEA1相同,且FEA2f与FEA1f的宽度和高度保持相同。
其中特征金字塔网络包括特征图转换网络TS和特征图缩放网络INP,特征图转换网络可表示为TS={TS1,TS2,…,TSf,…,TSF},TS同样由F个部分构成,其中TSf表示第f个特征图转换网络;INP={INP1,INP2,…,INPf,…,INPF},INP由F-1个部分构成,其中INPf表示第f张特征图与第f+1张特征图之间的特征图缩放网络,经过特征图缩放网络的特征图其宽度和高度将变为原来的2倍。
其中,特征图金字塔的构造过程中,首先对最高层特征图进行单独处理;
再按照特征图空间分辨率由低到高的顺序依次进行处理:
FEA2F=TSF(FEA1F);
t=TSi(FEA1i);
FEA2i=t+INPi(FEA2i+1);
其中,t为特征金字塔构造过程中的中间特征图;其中i的取值顺序为{F-1,F-2,…,1},特征金字塔网络包括包括特征图转换网络TS和特征图缩放网络INP。
具体的,所述特征金字塔构造过程中的中间特征图不进行最后的检测步骤。FEA2F只需执行一次,而公式t与公式FEA2i共需执行F-1次。
在一些具体的实施例中,特征图转换网络由Res2net结构进行充当,Res2net对一张特征图的不同通道之间进行残差形式的转换与连接,增强的特征提取能力;特征图缩放网络由PyTorch函数库中的特征图插值函数完成。
如图4所示,缩放后的特征图通过通道拼接操作与前一张特征图进行合并,只有送入特征图转换网络,生成新的特征图。特征图转换网络共包含5个相同的结构,特征图缩放网络包含4和相同的结构,相同的结构之间各自拥有独立的可训练参数。
以所述第一阶段定位网络LOC1的坐标检测结果LR1对第一阶段的分类网络CLS1和卷积网络的卷积区域CR1进行重配准;
其中,坐标检测结果可表示为LR1={w1,h1,cx1,cy1,θ1},表示在预设锚框基础上所检测到的宽度、高度、中心点坐标和旋转角度。
以二维空间中的3×3卷积操作在原点上的结果作为示例:
CR2=Rotate(Scale(Shift(CR1,LR1)))
此时CR1为一个3×3的矩形区域,SP1表示所述卷积区域CR1中的采样点坐标集合,共9个位置;Rotate、Scale和Shift表示根据检测结果LR1,按照顺序分别对所述卷积区域CR1进行平移、缩放和旋转操作,CR2为所得的新的卷积区域;式(11)中,SP2为新的卷积区域CR2的采样点集合,{p1,p2,p3,p4,p5,p6,p7,p8,p9}为相应的9个采样点坐标。
在所述第二阶段的特征图FEA2和重分配卷积区域CR2的基础上,进行第二阶段的分类与定位,得到第二阶段的分类网络CLS2与定位网络LOC2;
分别表示为:
CLS2={CLS21,CLS22,…,CLS2f,CLS2F},
LOC2={LOC21,LOC22,…,LOC2f,LOC2F},
CLS2f与LOC2f分别表示表示第f张特征图上分类与定位网络,其表示如下:
CLS2f=Conv(channel2f,J,strideh2,stridew2);
LOC2f=Conv(channel2f,5,strideh2,stridew2);
其中,Conv表示一个单独的卷积层,输入通道数channel1f表示由基础特征提取网络和额外卷积网络得到的第f张特征图的通道数;2表示CLS1f的卷积输出通道数,代表此时只进行前景和背景的二分类判别工作,5表示LOC1f的卷积输出通道数,代表此时坐标回归的参数为5个,与上文所述的物体坐标Bm,n相对应;strideh1和stridew1为卷积核的高度和宽度。
其中,channel2f表示第f张第二阶段的特征图FEA2f的通道数,Conv表示一个卷积层,J为CLS2f的卷积输出通道数,同时也是训练和测试图片中的物体类别总数,相较于CLS1f,此时不再进行二分类的工作,而是进行物体的具体类别判断;LOC2f的卷积输出通道数为5,用于检测物体的坐标,与LOC1f的结构相同,不同的是此时不再是基于预设锚框的位置检测,而是以第一阶段位置检测的结果LR1作为基础进一步精细检测物体位置。
在一些具体的实施例中,第二阶段特征图的数量为4,其相应通道数分别为{256,256,256,256}。strideh2和stridew2均为3。
在第一阶段和第二阶段检测过程中进行损失函数定义;
具体的,所述损失函数包括第一阶段检测的二分类和回归损失以及第二阶段的多分类和回归损失;使用训练集进行网络的训练并获得最终的网络模型。损失函数是通过计算网络最后的分类与位置检测结果和图片标注信息中的真实类别与位置,得到一个数值,此数值越大,表示网络性能越差,反之则表示网络性能越好,训练的目的就是为了降低这个损失值。
所述损失函数为:
其中,i表示预设锚框的下标,pi和xi分别表示第一阶段的二分类预测概率和坐标检测结果;和分别表示下标为i的预设锚框的真实类别和位置偏移向量,ci和ti为第二阶段的多分类预测概率和坐标检测结果,N1和N2分别表示第一阶段和第二阶段检测过程中的正样本数量。Lb为判断物体为前景或者背景的二分类交叉熵损失,Lm为判断物体所述类别的多分类交叉熵损失,Lr为Smooth-L1损失函数。
在一些具体的实施例中,对于所有的预设锚框,首先通过和输入图片中标注位置的计算获得其属于正样本还是负样本;所有的锚框均参与分类损失的计算,但是只有属于正样本的锚框才会参与位置损失的计算,因为对于属于负样本,即背景类别的锚框,其位置信息并不重要。
并且最终用于优化目标函数的总损失定义为两个阶段的损失的加权和:
Loss=λ1Loss1+λ2Loss2;
其中,λ1和λ2为加权系数。具体的,所述λ1和λ2均为1。
进行训练集训练获得最终的网络模型。
S4、根据网络模型对测试图片测试,进行计算面积交并比以及非极大值抑制,得到最终的检测结果。
如图5所示,根据训练得到的网络模型,使用Q张测试图片的样本T={T1,T2,…,Tq,…,TQ}进行测试,测试时仅将图片送入网络进行前向传播,获得图片中每个锚点位置的类别得分与回归坐标,舍弃被判别为背景的区域和得分小于所设得分阈值tscore的区域,输入网络模型;
并将检测结果R={R1,R2,…,Rq,…,RQ}以类别保存,其中Rq表示第q张测试图片的检测检测结果,且Rq={Rc1,Rc2,…,Rcj,…,RcJ},其中Rcj表示当前测试图片在第j类上所有的检测结果;
在一些具体的实施例中,所述得分阈值tscore为0.5,并且舍弃所有预测得分在0.5以下可信度不高的结果。
图片测试步骤如下:
对测试图片进行像素层面的标准化;
对测试图片进行缩放,缩放至与用于训练的图片的尺寸相同;
将网络模型改为测试模式,不再对检测结果进行损失计算和梯度反向传播,只进行前向传播过程;
获取当前第q张测试图片的初始检测结果Rq。
在一些具体的实施例中,初始检测结果为第二阶段的多分类与位置检测结果,第一阶段的检测结果仅用于网络的前向传播过程,不作为最终的检测结果。
最后对初始检测结果R计算旋转后的矩形框之间的面积交并比,进行非极大值抑制,仅保留得分较大且相互重叠面积小的检测框,作为最终的检测结果。
所述非极大值抑制的步骤为:
对初始检测结果Rq中同类别下的每个检测框的预测得分分别进行重新降序排序,所述排序后结果为R'q={R'c1,R'c2,…,R'cf,…,R'cF},其中R'cf为排序后的第j类上的检测结果;
对R'cf中的任意一个检测框b,将其和所有预测得分小于当前得分的检测框之间进行面积交并比的计算,所述面积交并比计算公式为:
T=areab+areabs;
I=interw×interh;
U=T-I;
IOU=I/U;
其中,areab表示检测框b的面积,areabs表示任一得分小于b的检测框bs的面积,interw与interh分别表示两个检测框相交区域的宽度和高度;
若两个检测框的面积交并比超过阈值tiou,则舍弃得分较低的检测框bs。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于卷积区域重配准的单阶段目标检测方法,其特征在于,包括:
步骤S1、获取检测图片的训练集,所述训练集包括M张训练图片,以及与M张训练图片一一对应的M个标签,通过M个标签表示相应图片中的N个目标物体的类别与坐标信息,其中坐标信息包括表示标注物体的矩形框的宽度、高度、中心点横坐标、中心点纵坐标和旋转角度;
步骤S2、对训练集的训练图片和测试图片进行图片标准化;
步骤S3、建立深度卷积神经网络结构,利用损失函数及所述训练集进行训练得到网络模型,其具体步骤包括:
获取基础特征提取网络M和额外卷积网络MA;
在所述基础特征提取网络M和额外卷积网络MA的基础上搭建第一阶段的分类网络CLS1和定位网络LOC1;
在基础特征提取网络M和额外卷积网络MA的基础上构建特征金字塔网络,通过基础特征提取网络M和额外卷积网络MA生成F张第一阶段的特征图FEA1,再根据构建的特征金字塔网络生成高分辨率的第二阶段的特征图FEA2;
以所述第一阶段定位网络LOC1的坐标检测结果LR1对第一阶段的分类网络CLS1和卷积网络的卷积区域CR1进行重配准,得到重分配卷积区域CR2,其中重配准步骤为:
根据第一阶段检测结果进行中心点偏移和长宽缩放,获得新的卷积区域及采样点位置,再通过双线性插值方法获得重配准后的采样点位置的特征值;
在所述第二阶段的特征图FEA2和重分配卷积区域CR2的基础上,进行第二阶段的分类与定位,得到第二阶段的分类网络CLS2与定位网络LOC2;
在第一阶段和第二阶段检测过程中进行损失函数定义;
进行训练集训练获得最终的网络模型;
步骤S4、根据网络模型对测试图片测试,进行计算面积交并比以及非极大值抑制,得到最终的检测结果,其具体步骤包括:
根据训练得到的网络模型,使用Q张测试图片的样本T进行测试,输入网络模型;
并将检测结果R={R1,R2,…,Rq,…,RQ}以类别保存,其中Rq表示第q张测试图片的检测结果;
最后计算旋转后的矩形框之间的面积交并比,进行非极大值抑制,仅保留得分较大且相互重叠面积小的检测框,作为最终的检测结果;
所述非极大值抑制的步骤为:
对初始检测结果Rq中同类别下的每个检测框的预测得分分别进行重新降序排序,所述排序后结果为R'q={Rc'1,Rc'2,…,Rc'f,…,Rc'F},其中Rc'f为排序后的第j类上的检测结果;
对Rc'f中的任意一个检测框b,将其和所有预测得分小于当前得分的检测框之间进行面积交并比的计算,所述面积交并比计算公式为:
T=areab+areabs;
I=interw×interh;
U=T-I;
IOU=IU;
其中,areab表示检测框b的面积,areabs表示任一得分小于b的检测框bs的面积,interw与interh分别表示两个检测框相交区域的宽度和高度;
若两个检测框的面积交并比超过阈值tiou,则舍弃得分较低的检测框bs。
2.根据权利要求1所述一种基于卷积区域重配准的单阶段目标检测方法,其特征在于,所述获取检测图片的训练集的具体步骤包括:
获取检测图片的训练集,所述训练集包括M张训练图片为X={X1,X2,…,Xm,…,XM},其中Xm表示第m张训练图片;
所述M张训练图片选取有一一对应的M个标签为Y={Y1,Y2,…,Ym,…,YM},其中Ym表示第m张训练图片的标签;
所述M个标签中包括相应图片中的N个目标物体的类别与坐标信息为Ym={Pm,1,Bm,1,Pm,2,Bm,2,…,Pm,n,Bm,n,…,Pm,N,Bm,N},其中Pm,n表示第m张图片中的第n个目标物体在所属的类别,且Pm,n∈{C0,C1,C2,…,Cj,…,CJ},C表示总的类别,Cj表示第j个类别,C0表示背景类,J为类别总数,Bm,n表示第m张图片中的第n个物体的坐标,且Bm,n={wm,n,hm,n,cxm,n,cym,n,θm,n},分别表示标注物体的矩形框的宽度wm,n、高度hm,n、中心点横坐标cxm,n、中心点纵坐标cym,n和旋转角度θm,n。
3.根据权利要求1或2所述一种基于卷积区域重配准的单阶段目标检测方法,其特征在于,所述对训练集的训练图片和测试图片进行图片标准化的具体步骤包括:
根据预设像素均值和像素标准差,将训练集X中的图片进行像素层面的标准化;
再将训练集X中的图片进行缩放,保持图片大小一致;
训练集X中的图片进行数据增强操作,其中包括图片亮度与饱和度的随机改变、图片的随机水平翻转,以及图片的随机裁剪。
4.根据权利要求3所述一种基于卷积区域重配准的单阶段目标检测方法,其特征在于,任一图片像素点的标准化公式为:
Pixelx=(Pixelx-Pixelmean)/Pixelxstd;
其中,Pixelmean为像素均值,Pixelstd为像素标准差。
5.根据权利要求1所述一种基于卷积区域重配准的单阶段目标检测方法,其特征在于,所述获取基础特征提取网络M和额外卷积网络MA的具体步骤包括:
使用ResNet网络和/或VGG网络作为图片的基础特征提取网络,其中ResNet网络包括ResNet50、ResNet101和ResNet152,VGG网络包括VGG16和VGG19;
在基础特征提取网络M基础上添加额外卷积网络MA并对其进行参数初始化操作:
Mweight=MPweight;
MAweight=Gaussian(0,1);
其中Mweight和MAweight分别为基础特征网络和额外卷积网络的参数;MP表示基础特征网络M在数据集上的预训练结果,MPweight表示预训练网络的参数;Gaussian(0,1)表示额外卷积网络MA的权重参数满足均值为0,方差为1的高斯分布。
6.根据权利要求1所述一种基于卷积区域重配准的单阶段目标检测方法,其特征在于,所述构建特征金字塔网络的具体步骤包括:
首先对最高层特征图进行单独处理;
再按照特征图空间分辨率由低到高的顺序依次进行处理:
FEA2F=TSF(FEA1F);
t=TSi(FEA1i);
FEA2i=t+INPi(FEA2i+1);
其中,t为特征金字塔构造过程中的中间特征图;其中i的取值顺序为{F-1,F-2,…,1},其中F为第二阶段的特征图的数量,特征金字塔网络包括包括特征图转换网络TS和特征图缩放网络INP。
7.根据权利要求1所述一种基于卷积区域重配准的单阶段目标检测方法,其特征在于,所述在第一阶段和第二阶段检测过程中进行损失函数定义的具体步骤包括:
所述损失函数为:
第一阶段的损失函数为:
第二阶段的损失函数为:
其中,i表示预设锚框的下标,pi和xi分别表示第一阶段的二分类预测概率和坐标检测结果;和分别表示下标为i的预设锚框的真实类别和位置偏移向量,ci和ti为第二阶段的多分类预测概率和坐标检测结果,N1和N2分别表示第一阶段和第二阶段检测过程中的正样本数量,Lb为判断物体为前景或者背景的二分类交叉熵损失,Lm为判断物体所述类别的多分类交叉熵损失,Lr为Smooth-L1损失函数;
总损失Loss为第一阶段和第二阶段的损失的加权和。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011533529.1A CN112529095B (zh) | 2020-12-22 | 2020-12-22 | 一种基于卷积区域重配准的单阶段目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011533529.1A CN112529095B (zh) | 2020-12-22 | 2020-12-22 | 一种基于卷积区域重配准的单阶段目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112529095A CN112529095A (zh) | 2021-03-19 |
CN112529095B true CN112529095B (zh) | 2023-04-07 |
Family
ID=74975785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011533529.1A Active CN112529095B (zh) | 2020-12-22 | 2020-12-22 | 一种基于卷积区域重配准的单阶段目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112529095B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711288A (zh) * | 2018-12-13 | 2019-05-03 | 西安电子科技大学 | 基于特征金字塔和距离约束fcn的遥感船舶检测方法 |
CN110569782A (zh) * | 2019-09-05 | 2019-12-13 | 辽宁科技大学 | 一种基于深度学习目标检测方法 |
AU2020100048A4 (en) * | 2020-01-10 | 2020-02-13 | Ding, Mengfang Mr | Method of object detection for vehicle on-board video based on RetinaNet |
CN111046928A (zh) * | 2019-11-27 | 2020-04-21 | 上海交通大学 | 定位精准的单阶段实时通用目标检测器及方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170124409A1 (en) * | 2015-11-04 | 2017-05-04 | Nec Laboratories America, Inc. | Cascaded neural network with scale dependent pooling for object detection |
US10032067B2 (en) * | 2016-05-28 | 2018-07-24 | Samsung Electronics Co., Ltd. | System and method for a unified architecture multi-task deep learning machine for object recognition |
CN109815886B (zh) * | 2019-01-21 | 2020-12-18 | 南京邮电大学 | 一种基于改进YOLOv3的行人和车辆检测方法及系统 |
CN109977945A (zh) * | 2019-02-26 | 2019-07-05 | 博众精工科技股份有限公司 | 基于深度学习的定位方法和系统 |
CN110245655B (zh) * | 2019-05-10 | 2023-06-06 | 天津大学 | 一种基于轻量级图像金字塔网络的单阶段物体检测方法 |
CN110807372A (zh) * | 2019-10-15 | 2020-02-18 | 哈尔滨工程大学 | 一种基于深度特征重组的快速光学遥感目标识别方法 |
CN111027547B (zh) * | 2019-12-06 | 2022-08-09 | 南京大学 | 一种针对二维图像中的多尺度多形态目标的自动检测方法 |
CN111160249A (zh) * | 2019-12-30 | 2020-05-15 | 西北工业大学深圳研究院 | 基于跨尺度特征融合的光学遥感图像多类目标检测方法 |
CN111461145B (zh) * | 2020-03-31 | 2023-04-18 | 中国科学院计算技术研究所 | 一种基于卷积神经网络进行目标检测的方法 |
CN111476252B (zh) * | 2020-04-03 | 2022-07-29 | 南京邮电大学 | 一种面向计算机视觉应用的轻量化无锚框目标检测方法 |
CN111476159B (zh) * | 2020-04-07 | 2023-04-07 | 哈尔滨工业大学 | 一种基于双角回归的检测模型训练、检测方法及装置 |
CN111553347B (zh) * | 2020-04-26 | 2023-04-18 | 佛山市南海区广工大数控装备协同创新研究院 | 一种面向任意角度的场景文本检测方法 |
CN111797676B (zh) * | 2020-04-30 | 2022-10-28 | 南京理工大学 | 一种高分辨率遥感图像目标在轨轻量化快速检测方法 |
CN111611998A (zh) * | 2020-05-21 | 2020-09-01 | 中山大学 | 一种基于候选区域面积和宽高的自适应特征块提取方法 |
CN111814884A (zh) * | 2020-07-10 | 2020-10-23 | 江南大学 | 一种基于可变形卷积的目标检测网络模型的升级方法 |
-
2020
- 2020-12-22 CN CN202011533529.1A patent/CN112529095B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711288A (zh) * | 2018-12-13 | 2019-05-03 | 西安电子科技大学 | 基于特征金字塔和距离约束fcn的遥感船舶检测方法 |
CN110569782A (zh) * | 2019-09-05 | 2019-12-13 | 辽宁科技大学 | 一种基于深度学习目标检测方法 |
CN111046928A (zh) * | 2019-11-27 | 2020-04-21 | 上海交通大学 | 定位精准的单阶段实时通用目标检测器及方法 |
AU2020100048A4 (en) * | 2020-01-10 | 2020-02-13 | Ding, Mengfang Mr | Method of object detection for vehicle on-board video based on RetinaNet |
Non-Patent Citations (1)
Title |
---|
吴哲夫等.基于空间自适应卷积LSTM的视频预测.《计算机应用与软件》.2020,第37卷(第9期),第62-67、110页. * |
Also Published As
Publication number | Publication date |
---|---|
CN112529095A (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN109977918B (zh) | 一种基于无监督域适应的目标检测定位优化方法 | |
CN107229904B (zh) | 一种基于深度学习的目标检测与识别方法 | |
US20190228268A1 (en) | Method and system for cell image segmentation using multi-stage convolutional neural networks | |
CN111767882A (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
CN113221787B (zh) | 基于多元差异性融合的行人多目标跟踪方法 | |
CN111967480A (zh) | 基于权重共享的多尺度自注意力目标检测方法 | |
CN110569782A (zh) | 一种基于深度学习目标检测方法 | |
CN111860439A (zh) | 一种无人机巡检图像缺陷检测方法、系统及设备 | |
CN111079674A (zh) | 一种基于全局和局部信息融合的目标检测方法 | |
CN111161213B (zh) | 一种基于知识图谱的工业产品缺陷图像分类方法 | |
CN109165658B (zh) | 一种基于Faster-RCNN的强负样本水下目标检测方法 | |
CN111768415A (zh) | 一种无量化池化的图像实例分割方法 | |
CN113850783B (zh) | 一种海面船舶检测方法及系统 | |
CN110008899B (zh) | 一种可见光遥感图像候选目标提取与分类方法 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN117765373B (zh) | 一种自适应裂缝尺寸的轻量化道路裂缝检测方法及系统 | |
CN113159215A (zh) | 一种基于Faster Rcnn的小目标检测识别方法 | |
CN112733942A (zh) | 一种基于多级特征自适应融合的变尺度目标检测方法 | |
CN114241250A (zh) | 一种级联回归目标检测方法、装置及计算机可读存储介质 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、系统、设备及介质 | |
CN113536896B (zh) | 基于改进Faster RCNN的绝缘子缺陷检测方法、装置及存储介质 | |
CN113128564B (zh) | 一种基于深度学习的复杂背景下典型目标检测方法及系统 | |
CN116740572A (zh) | 一种基于改进yolox的海上船舰目标检测方法和系统 | |
CN111160372A (zh) | 一种基于高速卷积神经网络的大目标识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |