CN111611998A - 一种基于候选区域面积和宽高的自适应特征块提取方法 - Google Patents

一种基于候选区域面积和宽高的自适应特征块提取方法 Download PDF

Info

Publication number
CN111611998A
CN111611998A CN202010433564.XA CN202010433564A CN111611998A CN 111611998 A CN111611998 A CN 111611998A CN 202010433564 A CN202010433564 A CN 202010433564A CN 111611998 A CN111611998 A CN 111611998A
Authority
CN
China
Prior art keywords
feature
loss
candidate region
detection
positive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010433564.XA
Other languages
English (en)
Inventor
陈楚城
戴宪华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202010433564.XA priority Critical patent/CN111611998A/zh
Publication of CN111611998A publication Critical patent/CN111611998A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于候选区域面积和宽高的自适应特征块提取方法,包括:(1)利用特征提取网络对输入图像进行特征提取;(2)通过特征金字塔网络构建检测特征图;(3)利用区域建议网络获取候选区域;(4)通过自适应特征块提取方法获取候选区域的最终特征块;(5)获取检测模型的分类误差和回归误差,训练模型;(6)利用训练好的检测模型获取测试图像的目标位置和类别。本发明的方法可以有效利用多个检测特征图的信息,补充感受野信息的同时获取细节信息,从而提高检测模型在具有悬殊宽高比的目标上的检测性能,最终提高检测模型的整体检测。

Description

一种基于候选区域面积和宽高的自适应特征块提取方法
技术领域
本发明涉及图像目标检测领域,即一种基于候选区域面积和宽高的自适应特征块提取方法。
背景技术
近年来,深度学习技术广泛应用于计算机视觉、自然语言处理和语音处理等多个领域中,并取得显著的成果。其中以深度学习中的卷积神经网络在图像处理领域的成果尤为显著,所取得的效果是传统算法无法比拟的。后来,科研人员将深度学习技术应用于目标检测技术中,提出一系列基于深度学习的目标检测算法,以提高检测模型的检测精度或者检测速度。科研人员为了解决目标物体的多尺度问题,提出了特征金字塔网络结构。
特征金字塔网络中是根据候选区域的面积大小来决定候选区域特征块从哪个检测特征图中获取。但是这种只根据候选区域面积大小的单一元素,当检测对象中存在具有悬殊宽高比的对象,检测模型的检测性能往往较低。这是由于候选区域的面积大小无法全面反映具有悬殊宽高比的对象的整体信息,导致候选区域特征块从不合理的检测特征图中获取,而该检测特征图无法提供充足的感受野和辅助定位的细节信息,因此检测模型的检测性能并不理想。
发明内容
为了克服现有技术存在的不足,本发明提出了一种解决上述难点的基于候选区域面积和宽高的自适应特征块提取方法。
为了实现以上目的,本发明提出的方法具体步骤如下:
(1)图像划分,将图像划分成训练集和测试集两部分,两个部分不存在相同的图像,训练集用来训练检测模型,测试集用来评估检测模型的性能,且训练集和测试集中不仅包含图像,还包含图像中目标对象的位置信息和类别信息;
(2)图像预处理,包括随机上下翻转、随机左右翻转和随机光照改变等,其中随机上下翻转、随机左右翻转和随机光照改变只针对训练集,特别的,当进行随机上下翻转和随机左右翻转的时候,目标对象的坐标信息也需要做出相应的变化;
(3)训练检测模型,将经过图像预处理后的训练集中的图像和标签信息输入到基于自适应特征块提取的带有特征金字塔网络的Faster R-CNN的检测模型中进行训练,获取各图像中目标对象的预测框和类别,并与实际的标签信息中的真实框和类别进行对比,计算出回归损失和分类损失,其中回归损失和分类损失包含了区域建议网络的损失还有第二阶段的损失,然后采用多学习任务的方法,利用带动量的梯度下降算法进行训练;
(4)测试检测模型,将测试集中的图像输入到训练好的基于自适应特征块提取的带有特征金字塔网络的Faster R-CNN的检测模型中进行检测,获得测试图像中目标对象的位置和类型,并统计检测模型的检测精度。
所述步骤(3)中训练包括构建检测特征图和获取正负样本的步骤、获取区域建议网络损失值的步骤、获取候选区域的步骤、通过自适应特征块提取方法获取候选区域最终特征块的步骤、获取第二阶段损失值的步骤和多任务学习的步骤。
如图1所示,所述步骤(3)具体为:
(3.1)构建带有特征金字塔网络的Faster R-CNN检测模型,其中骨干网络是ResNet50。输入图像经过骨干网络进行特征提取后形成不同大小的特征图,浅层的特征图的分辨率较大,包含的细节信息较多但语义信息较少;深层的特征图的分辨率较小,包含的细节信息较少但语义信息较多。通过从上而下和横向连接的方式构建检测特征图,形成特征金字塔网络。对这些检测特征图通过卷积操作预测不同特征图上不同特征点映射回原图上的点的若干个anchors的前背景分类概率和相对平移缩放参数,同时不同检测特征图上不同特征点映射到原图上的点对应的anchors与真实框计算交并比,如果与真实框的交并比最高或者与任意真实框的交并比大于0.7的anchor则认为是正样本,而与所有真实框的交并比都小于0.3的anchor则认为是负样本;
(3.2)从正负样本集中分别选择128个正样本和128个负样本,组成正负样本比例为1:1的正负样本集。如果正样本集中正样本的数目不足128个,则取出所有正样本,并从负样本从选取若干个负样本,组成256个正负样本。如果正样本集中正样本的数目多于128个,则采用随机采样的方式获取128个正样本。如果负样本集中负样本的数目多于128个,也采用随机采样的方式获取128个负样本。正样本在此的类别为前景,负样本在此的类别为背景,同时可以获取正样本与对应真实框之间的真实平移缩放参数。利用正负样本的类别和模型预测的前背景概率值,利用交叉熵损失函数计算分类损失。利用正样本与对应真实框的真实平移缩放参数和模型预测的相对平移缩放参数,利用smoothL1函数计算回归损失。最终合并分类损失和回归损失,获取区域建议网络的损失值;
(3.3)通过区域建议网络的预测平移缩放参数对anchor boxes进行位置调整,得到候选框。根据候选框的预测前景概率值大小,从5个检测特征图中分别获取2000个候选框,合计10000个候选框。对10000个候选框进行非极大值抑制操作,并获取前景概率值最大的2000个候选框作为候选区域;
(3.4)获取候选区域的面积、宽度和高度,并根据这些信息获取相应的检测特征图,然后根据候选区域在原图中的位置和感受野计算,获取候选区域在相应检测特征图上的特征块。接着对这些特征块分别通过RoI pooling层,得到维度一致的候选区域特征块。最后对这些候选区域特征块进行自适应融合,获取候选区域的最终特征块。其中自适应融合是一种逐点取最大值的方式进行融合。
(3.5)利用候选区域的最终特征块通过全连接层,获取细分类的类别置信度和预测相对平移缩放参数,计算出细分类误差和回归误差,其中分类损失是采用交叉熵损失函数,回归损失是采用smoothL1函数。合并第二阶段的分类损失和回归损失,得到第二阶段的损失值;
(3.6)合并区域建议网络的损失值和第二阶段的损失值,得到检测模型总的损失值,利用带动量的梯度下降算法进行训练。
所述步骤(3.4)的自适应特征块提取方法的操作步骤如下:
首先根据候选区域的面积、宽度和高度等信息,通过公式:
Figure BDA0002501391300000041
分别获取对应的检测特征图,其中ko取数值4,w和h分别表示候选区域的宽度和高度,Fs、Fw和Fh分别表示由候选区域的面积、宽度和高度决定的检测特征图的层数。接着利用候选区域在原图中的位置和感受野的计算,分别获取候选区域在对应检测特征图上的特征块。对获取的特征块,分别通过RoI pooling层,获取维度一致的候选区域特征块。最后对这些候选区域特征块,通过逐点取最大值的方式进行自适应融合,得到候选区域的最终特征块。逐点取最大值进行自适应融合的简单实例如图2所示。自适应特征块提取方法的流程如图3所示。
所述步骤(3.6)的训练过程具体包括区域建议网络的前背景分类损失和回归损失及Fast R-CNN中的细分类损失和回归损失:
区域建议网络的损失函数:
Figure BDA0002501391300000042
另外
Figure BDA0002501391300000043
tx=(x-xa)/wa,ty=(y-ya)/ha,tw=log(w/wa),th=log(h/ha)
Figure BDA0002501391300000044
x,xa,x*分别表示预测框,anchor box和真实框的信息(y,w,h也同x类似)
其中Ncls表示计算分类损失时正负样本个数,Nreg表示anchor定位的数量,λ设为超参数,分类损失函数为交叉熵损失函数,回归损失函数为smoothL1,分类损失中用到正负样本而回归损失中只用到正样本。
Fast R-CNN的损失函数:
L(p,u,tu,v)=Lcls(p,u)+λ[u≥1]Lloc(tu,v)
v=(vx,vy,vw,vh),表示真实的平移缩放参数,
Figure BDA0002501391300000051
表示预测的平移缩放参数
其中分类损失函数为交叉熵损失函数,回归损失函数为smoothL1,分类损失中用到正负样本而回归损失中只用到正样本,平移缩放参数的计算同区域建议网络中一致。
所述步骤(4)中测试过程具体为测试图像通过训练好的基于自适应特征块提取的带有特征金字塔网络的Faster R-CNN检测模型后得到若干个预测框的位置和对应的类别,我们对这些预测框进行非极大值抑制操作,最后保留类别置信度高于某个阈值的若干个预测框作为最后的输出结果。
与现有技术相比,本发明的有益效果是:
本发明的方法对于具有悬殊宽高比的对象,可以利用候选区域的面积、宽度和高度等信息,获取深层检测特征图、中间检测特征图和浅层检测特征图等,然后获取对应的候选区域特征块,再通过逐点取最大值的方式进行自适应融合,最终获取候选区域的最终特征块,综合利用了多个检测特征图的信息,从而补充感受野和获取定位所需的细节信息。对于正常宽高比的对象,本方法所起的作用与之前的方法作用相同。因此,本发明可以综合利用多个检测特征图的信息,提高检测模型对具有悬殊宽高比对象的检测性能,从而提高检测模型的整体检测性能。
附图说明
图1是基于自适应特征块提取的带有特征金字塔网络的Faster R-CNN模型组成示意图
图2是通过逐点取最大值进行自适应融合的简单实例图
图3是自适应特征块提取方法的操作流程示意图
具体实施方式
下面对本发明进行进一步说明。
本发明的实施过程及实施例如下:
(1)图像划分,将铝材瑕疵图像划分成训练集和测试集两部分,其中训练集包含2505张训练图像,测试集包含500张测试图像,两个部分不存在相同的图像,训练集用来训练检测模型,测试集用来评估检测模型的性能,且训练集和测试集中不仅包含图像,还包含图像中目标对象的位置信息和类别信息;
(2)图像预处理,包括随机上下翻转、随机左右翻转和随机光照改变等,其中随机上下翻转、随机左右翻转和随机光照改变只针对训练集,特别的,当进行随机上下翻转和随机左右翻转的时候,目标对象的坐标信息也需要做出相应的变化;
(3)训练检测模型,将经过图像预处理后的训练集中的图像和标签信息输入到基于自适应特征块提取的带有特征金字塔网络的Faster R-CNN的检测模型中进行训练,获取各图像中目标对象的预测框和类别,并与实际的标签信息中的真实框和类别进行对比,计算出回归损失和分类损失,其中回归损失和分类损失包含了区域建议网络的损失还有第二阶段的损失,然后采用多学习任务的方法,利用带动量的梯度下降算法进行训练;
(3.1)构建带有特征金字塔网络的Faster R-CNN检测模型,其中骨干网络是ResNet50。输入图像经过骨干网络进行特征提取后形成不同大小的特征图,浅层的特征图的分辨率较大,包含的细节信息较多但语义信息较少;深层的特征图的分辨率较小,包含的细节信息较少但语义信息较多。通过从上而下和横向连接的方式构建检测特征图,形成特征金字塔网络。对这些检测特征图通过卷积操作预测不同特征图上不同特征点映射回原图上的点的若干个anchors的前背景分类概率和相对平移缩放参数,同时不同检测特征图上不同特征点映射到原图上的点对应的anchors与真实框计算交并比,如果与真实框的交并比最高或者与任意真实框的交并比大于0.7的anchor则认为是正样本,而与所有真实框的交并比都小于0.3的anchor则认为是负样本;
(3.2)从正负样本集中分别选择128个正样本和128个负样本,组成正负样本比例为1:1的正负样本集。如果正样本集中正样本的数目不足128个,则取出所有正样本,并从负样本从选取若干个负样本,组成256个正负样本。如果正样本集中正样本的数目多于128个,则采用随机采样的方式获取128个正样本。如果负样本集中负样本的数目多于128个,也采用随机采样的方式获取128个负样本。正样本在此的类别为前景,负样本在此的类别为背景,同时可以获取正样本与对应真实框之间的真实平移缩放参数。利用正负样本的类别和模型预测的前背景概率值,利用交叉熵损失函数计算分类损失。利用正样本与对应真实框的真实平移缩放参数和模型预测的相对平移缩放参数,利用smoothL1函数计算回归损失。最终合并分类损失和回归损失,获取区域建议网络的损失值;
(3.3)通过区域建议网络的预测平移缩放参数对anchor boxes进行位置调整,得到候选框。根据候选框的预测前景概率值大小,从5个检测特征图中分别获取2000个候选框,合计10000个候选框。对10000个候选框进行非极大值抑制操作,并获取前景概率值最大的2000个候选框作为候选区域;
(3.4)获取候选区域的面积、宽度和高度,并根据这些信息获取相应的检测特征图,然后根据候选区域在原图中的位置和感受野计算,获取候选区域在相应检测特征图上的特征块。接着对这些特征块分别通过RoI pooling层,得到维度一致的候选区域特征块。最后对这些候选区域特征块进行自适应融合,获取候选区域的最终特征块。其中自适应融合是一种逐点取最大值的方式进行融合。
(3.5)利用候选区域的最终特征块通过全连接层,获取细分类的类别置信度和预测相对平移缩放参数,计算出细分类误差和回归误差,其中分类损失是采用交叉熵损失函数,回归损失是采用smoothL1函数。合并第二阶段的分类损失和回归损失,得到第二阶段的损失值;
(3.6)合并区域建议网络的损失值和第二阶段的损失值,得到检测模型总的损失值,利用带动量的梯度下降算法进行训练。
具体实施中,损失包括区域建议网络的前背景分类损失和回归损失及Fast R-CNN中的细分类损失和定位损失:
区域建议网络的损失函数:
Figure BDA0002501391300000081
另外
Figure BDA0002501391300000082
tx=(x-xa)/wa,ty=(y-ya)/ha,tw=log(w/wa),th=log(h/ha)
Figure BDA0002501391300000083
x,xa,x*分别表示预测框,anchor box和真实框(y,w,h也同x类似)
其中Ncls=256表示计算分类损失时正负样本个数,其中前景包含所有的正样本,背景数量满足跟前景数量之和为256,且背景的选择采用在线难分样本挖掘策略获取,Nreg表示anchor定位的数量,λ设为10,分类损失函数为交叉熵损失函数,回归损失函数为smoothL1,分类损失中用到正负样本而回归损失中只用到正样本。
Fast R-CNN的损失函数:
L(p,u,tu,v)=Lcls(p,u)+λ[u≥1]Lloc(tu,v)
v=(vx,vy,vw,vh),表示真实的平移缩放参数,
Figure BDA0002501391300000084
表示预测的平移缩放参数
其中分类损失函数为交叉熵损失函数,回归损失函数为smoothL1,分类损失中用到正负样本而回归损失中只用到正样本,平移缩放参数的计算同区域生成网络中一致。
训练时候,每张显卡放置两张训练图像,共用两张显卡进行训练。特征金字塔网络中的检测特征图P2-P6的基本尺寸分别为32x32,64x64,128x128,256x256和512x512等,横纵比都为1:2,1:1和2:1等。随机梯度下降算法中动量设置为0.9,权重衰减设置为0.0005。训练阶段共设置20个迭代周期,每个迭代周期遍历一次训练集。同时在1-16个迭代周期时,学习速率为0.005;在17-19个迭代周期时,学习速率为0.0005;在第20个迭代周期时,学习速率为0.00005。训练阶段图像的短边控制在600-1000之间,每次迭代从600-1000中随机选取一个整数作为短边长度,且采用控制图像横纵比的策略。训练结束后,保存最新的模型作为检测网络的模型。
(5)采用训练后的基于自适应特征块提取的带有特征金字塔网络的Faster R-CNN检测模型对测试集进行测试,获得测试集图像的检测结果。
具体实施中,将测试集中待测图像输入到检测网络中,获取预测框的位置和对应的类别置信度,其中测试图像的短边大小为800。测试图像通过检测模型可以获取预测框。接着对预测框进行非极大值抑制,非极大值抑制中阈值设置为0.5。最后保留类别置信度大于0.05的预测框,作为最后的预测结果。
最后实验证明,基于自适应特征块提取的带有特征金字塔网络的Faster R-CNN检测模型相比带有特征金字塔网络的Faster R-CNN检测模型,在铝材瑕疵测试集中,在IoU=0.5时,mAP值可以提高1.6%。这部分的提升主要是在桔皮和喷流等瑕疵上,其中桔皮的横纵比为7.6,AP值提高了9.6%;喷流的横纵比为7.1,AP值提高了12.1%。
通过以上实验证明了基于候选区域面积和宽高的自适应特征块提取方法可以提高检测模型对具有悬殊宽高比的对象的检测性能,从而提高检测模型的整体检测性能。

Claims (6)

1.一种基于候选区域面积和宽高的自适应特征块提取方法,其特征在于包括如下步骤:
(1)图像划分,将图像划分成训练集和测试集两部分,两个部分不存在相同的图像,训练集用来训练检测模型,测试集用来评估检测模型的性能,且训练集和测试集中不仅包含图像,还包含图像中目标对象的位置信息和类别信息;
(2)图像预处理,包括随机上下翻转、随机左右翻转和随机光照改变等,其中随机上下翻转、随机左右翻转和随机光照改变只针对训练集,特别的,当进行随机上下翻转和随机左右翻转的时候,目标对象的坐标信息也需要做出相应的变化;
(3)训练检测模型,将经过图像预处理后的训练集中的图像和标签信息输入到基于自适应特征块提取的带有特征金字塔网络的Faster R-CNN的检测模型中进行训练,获取各图像中目标对象的预测框和类别,并与实际的标签信息中的真实框和类别进行对比,计算出回归损失和分类损失,其中回归损失和分类损失包含了区域建议网络的损失还有第二阶段的损失,然后采用多学习任务的方法,利用带动量的梯度下降算法进行训练;
(4)测试检测模型,将测试集中的图像输入到训练好的基于自适应特征块提取的带有特征金字塔网络的Faster R-CNN的检测模型中进行检测,获得测试图像中目标对象的位置和类型,并统计检测模型的检测精度。
2.根据权利要求1所述的一种基于候选区域面积和宽高的自适应特征块提取方法,其特征是:
所述步骤(3)中训练包括构建检测特征图和获取正负样本的步骤、获取区域建议网络损失值的步骤、获取候选区域的步骤、通过自适应特征块提取方法获取候选区域最终特征块的步骤、获取第二阶段损失值的步骤和多任务学习的步骤。
3.根据权利要求2所述的一种基于候选区域面积和宽高的自适应特征块提取方法,其特征是:所述步骤(3)具体为:
(3.1)构建带有特征金字塔网络的Faster R-CNN检测模型,其中骨干网络是ResNet50。输入图像经过骨干网络进行特征提取后形成不同大小的特征图,浅层的特征图的分辨率较大,包含的细节信息较多但语义信息较少;深层的特征图的分辨率较小,包含的细节信息较少但语义信息较多。通过从上而下和横向连接的方式构建检测特征图,形成特征金字塔网络。对这些检测特征图通过卷积操作预测不同特征图上不同特征点映射回原图上的点的若干个anchors的前背景分类概率和相对平移缩放参数,同时不同检测特征图上不同特征点映射到原图上的点对应的anchors与真实框计算交并比,如果与真实框的交并比最高或者与任意真实框的交并比大于0.7的anchor则认为是正样本,而与所有真实框的交并比都小于0.3的anchor则认为是负样本;
(3.2)从正负样本集中分别选择128个正样本和128个负样本,组成正负样本比例为1:1的正负样本集。如果正样本集中正样本的数目不足128个,则取出所有正样本,并从负样本从选取若干个负样本,组成256个正负样本。如果正样本集中正样本的数目多于128个,则采用随机采样的方式获取128个正样本。如果负样本集中负样本的数目多于128个,也采用随机采样的方式获取128个负样本。正样本在此的类别为前景,负样本在此的类别为背景,同时可以获取正样本与对应真实框之间的真实平移缩放参数。利用正负样本的类别和模型预测的前背景概率值,利用交叉熵损失函数计算分类损失。利用正样本与对应真实框的真实平移缩放参数和模型预测的相对平移缩放参数,利用smoothL1函数计算回归损失。最终合并分类损失和回归损失,获取区域建议网络的损失值;
(3.3)通过区域建议网络的预测平移缩放参数对anchor boxes进行位置调整,得到候选框。根据候选框的预测前景概率值大小,从5个检测特征图中分别获取2000个候选框,合计10000个候选框。对10000个候选框进行非极大值抑制操作,并获取前景概率值最大的2000个候选框作为候选区域;
(3.4)获取候选区域的面积、宽度和高度,并根据这些信息获取相应的检测特征图,然后根据候选区域在原图中的位置和感受野计算,获取候选区域在相应检测特征图上的特征块。接着对这些特征块分别通过RoI pooling层,得到维度一致的候选区域特征块。最后对这些候选区域特征块进行自适应融合,获取候选区域的最终特征块。其中自适应融合是一种逐点取最大值的方式进行融合。
(3.5)利用候选区域的最终特征块通过全连接层,获取细分类的类别置信度和预测相对平移缩放参数,计算出细分类误差和回归误差,其中分类损失是采用交叉熵损失函数,回归损失是采用smoothL1函数。合并第二阶段的分类损失和回归损失,得到第二阶段的损失值;
(3.6)合并区域建议网络的损失值和第二阶段的损失值,得到检测模型总的损失值,利用带动量的梯度下降算法进行训练。
4.根据权利要求3所述的一种基于候选区域面积和宽高的自适应特征块提取方法,其特征是,所述步骤(3.4)的自适应特征块提取方法的操作步骤如下:
首先根据候选区域的面积、宽度和高度等信息,通过公式:
Figure FDA0002501391290000031
分别获取对应的检测特征图。接着利用候选区域在原图中的位置和感受野的计算,分别获取候选区域在对应检测特征图上的特征块。对获取的特征块,分别通过RoI pooling层,获取维度一致的候选区域特征块。最后对这些候选区域特征块,通过逐点取最大值的方式进行自适应融合,得到候选区域的最终特征块。公式(1)中ko取数值4,w和h表示候选区域的宽度和高度,Fs、Fw和Fh分别表示由候选区域的面积、宽度和高度决定的检测特征图层数。
5.根据权利要求3所述的一种基于候选区域面积和宽高的自适应特征块提取方法,其特征是,所述步骤(3.6)的训练过程具体包括区域建议网络的前背景分类损失和回归损失及Fast R-CNN中的细分类损失和回归损失:
区域建议网络的损失函数:
Figure FDA0002501391290000032
另外
Figure FDA0002501391290000041
tx=(x-xa)/wa,ty=(y-ya)/ha,tw=log(w/wa),th=log(h/ha)
Figure FDA0002501391290000042
x,xa,x*分别表示预测框,anchor box和真实框的信息(y,w,h也同x类似)
其中Ncls表示计算分类损失时正负样本个数,Nreg表示anchor定位的数量,λ设为超参数,分类损失函数为交叉熵损失函数,回归损失函数为smoothL1,分类损失中用到正负样本而回归损失中只用到正样本。
Fast R-CNN的损失函数:
L(p,u,tu,v)=Lcls(p,u)+λ[u≥1]Lloc(tu,v)
v=(vx,vy,vw,υh),表示真实的平移缩放参数
Figure FDA0002501391290000043
表示预测的平移缩放参数
其中分类损失函数为交叉熵损失函数,回归损失函数为smoothL1,分类损失中用到正负样本而回归损失中只用到正样本,平移缩放参数的计算同区域建议网络中一致。
6.根据权利要求1所述的一种基于候选区域面积和宽高的自适应特征块提取方法,其特征是:
所述步骤(4)中测试过程具体为测试图像通过训练好的基于自适应特征块提取的带有特征金字塔网络的Faster R-CNN检测模型后得到若干个预测框的位置和对应的类别,我们对这些预测框进行非极大值抑制操作,最后保留类别置信度高于某个阈值的若干个预测框作为最后的输出结果。
CN202010433564.XA 2020-05-21 2020-05-21 一种基于候选区域面积和宽高的自适应特征块提取方法 Pending CN111611998A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010433564.XA CN111611998A (zh) 2020-05-21 2020-05-21 一种基于候选区域面积和宽高的自适应特征块提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010433564.XA CN111611998A (zh) 2020-05-21 2020-05-21 一种基于候选区域面积和宽高的自适应特征块提取方法

Publications (1)

Publication Number Publication Date
CN111611998A true CN111611998A (zh) 2020-09-01

Family

ID=72203577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010433564.XA Pending CN111611998A (zh) 2020-05-21 2020-05-21 一种基于候选区域面积和宽高的自适应特征块提取方法

Country Status (1)

Country Link
CN (1) CN111611998A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160407A (zh) * 2019-12-10 2020-05-15 重庆特斯联智慧科技股份有限公司 一种深度学习目标检测方法及系统
CN112085126A (zh) * 2020-09-30 2020-12-15 浙江大学 一种侧重于分类任务的单样本目标检测方法
CN112183435A (zh) * 2020-10-12 2021-01-05 河南威虎智能科技有限公司 一种两阶段的手部目标检测方法
CN112329858A (zh) * 2020-11-06 2021-02-05 哈尔滨市科佳通用机电股份有限公司 一种铁路动车防松铁丝折断故障图像识别方法
CN112508052A (zh) * 2020-11-09 2021-03-16 北京迈格威科技有限公司 目标检测网络训练方法、装置、电子设备及存储介质
CN112529095A (zh) * 2020-12-22 2021-03-19 合肥市正茂科技有限公司 一种基于卷积区域重配准的单阶段目标检测方法
CN113159216A (zh) * 2021-05-10 2021-07-23 上海电力大学 一种用于表面缺陷检测的正样本扩充方法
CN113469302A (zh) * 2021-09-06 2021-10-01 南昌工学院 一种视频图像的多圆形目标识别方法和系统
CN113705361A (zh) * 2021-08-03 2021-11-26 北京百度网讯科技有限公司 活体检测模型的方法、装置及电子设备
CN113989850A (zh) * 2021-11-08 2022-01-28 深圳市音络科技有限公司 基于深度学习的视频会议场景人形检测方法
CN114549845A (zh) * 2022-01-13 2022-05-27 山东师范大学 一种基于特征融合的Logo图像检测方法及系统
CN114743094A (zh) * 2022-03-17 2022-07-12 中山大学 一种基于多感受野特征金字塔的影像目标检测方法及装置
WO2023109208A1 (zh) * 2021-12-15 2023-06-22 北京邮电大学 小样本目标检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734694A (zh) * 2018-04-09 2018-11-02 华南农业大学 基于faster r-cnn的甲状腺肿瘤超声图像自动识别方法
CN109711474A (zh) * 2018-12-24 2019-05-03 中山大学 一种基于深度学习的铝材表面缺陷检测算法
CN110163187A (zh) * 2019-06-02 2019-08-23 东北石油大学 基于f-rcnn的远距离交通标志检测识别方法
CN110705544A (zh) * 2019-09-05 2020-01-17 中国民航大学 基于Faster-RCNN的自适应快速目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734694A (zh) * 2018-04-09 2018-11-02 华南农业大学 基于faster r-cnn的甲状腺肿瘤超声图像自动识别方法
CN109711474A (zh) * 2018-12-24 2019-05-03 中山大学 一种基于深度学习的铝材表面缺陷检测算法
CN110163187A (zh) * 2019-06-02 2019-08-23 东北石油大学 基于f-rcnn的远距离交通标志检测识别方法
CN110705544A (zh) * 2019-09-05 2020-01-17 中国民航大学 基于Faster-RCNN的自适应快速目标检测方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160407A (zh) * 2019-12-10 2020-05-15 重庆特斯联智慧科技股份有限公司 一种深度学习目标检测方法及系统
CN112085126A (zh) * 2020-09-30 2020-12-15 浙江大学 一种侧重于分类任务的单样本目标检测方法
CN112085126B (zh) * 2020-09-30 2023-12-12 浙江大学 一种侧重于分类任务的单样本目标检测方法
CN112183435A (zh) * 2020-10-12 2021-01-05 河南威虎智能科技有限公司 一种两阶段的手部目标检测方法
CN112329858B (zh) * 2020-11-06 2021-07-16 哈尔滨市科佳通用机电股份有限公司 一种铁路动车防松铁丝折断故障图像识别方法
CN112329858A (zh) * 2020-11-06 2021-02-05 哈尔滨市科佳通用机电股份有限公司 一种铁路动车防松铁丝折断故障图像识别方法
CN112508052A (zh) * 2020-11-09 2021-03-16 北京迈格威科技有限公司 目标检测网络训练方法、装置、电子设备及存储介质
CN112529095A (zh) * 2020-12-22 2021-03-19 合肥市正茂科技有限公司 一种基于卷积区域重配准的单阶段目标检测方法
CN113159216A (zh) * 2021-05-10 2021-07-23 上海电力大学 一种用于表面缺陷检测的正样本扩充方法
CN113705361A (zh) * 2021-08-03 2021-11-26 北京百度网讯科技有限公司 活体检测模型的方法、装置及电子设备
CN113469302A (zh) * 2021-09-06 2021-10-01 南昌工学院 一种视频图像的多圆形目标识别方法和系统
CN113989850A (zh) * 2021-11-08 2022-01-28 深圳市音络科技有限公司 基于深度学习的视频会议场景人形检测方法
WO2023109208A1 (zh) * 2021-12-15 2023-06-22 北京邮电大学 小样本目标检测方法及装置
CN114549845A (zh) * 2022-01-13 2022-05-27 山东师范大学 一种基于特征融合的Logo图像检测方法及系统
CN114743094A (zh) * 2022-03-17 2022-07-12 中山大学 一种基于多感受野特征金字塔的影像目标检测方法及装置

Similar Documents

Publication Publication Date Title
CN111611998A (zh) 一种基于候选区域面积和宽高的自适应特征块提取方法
CN108647585B (zh) 一种基于多尺度循环注意力网络的交通标识符检测方法
CN108416266B (zh) 一种利用光流提取运动目标的视频行为快速识别方法
CN109902602B (zh) 一种基于对抗神经网络数据增强的机场跑道异物材料识别方法
CN110348376A (zh) 一种基于神经网络的行人实时检测方法
CN109509187B (zh) 一种针对大分辨率布匹图像中的小瑕疵的高效检验算法
CN110175613A (zh) 基于多尺度特征和编解码器模型的街景图像语义分割方法
CN106980858A (zh) 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法
CN112507777A (zh) 一种基于深度学习的光学遥感图像舰船检测与分割方法
CN111368769B (zh) 基于改进锚点框生成模型的船舶多目标检测方法
CN110991444B (zh) 面向复杂场景的车牌识别方法及装置
CN110930387A (zh) 基于深度可分离卷积神经网络的织物疵点检测方法
CN110363253A (zh) 一种基于卷积神经网络的热轧带钢表面缺陷分类方法
CN110135430A (zh) 一种基于深度神经网络的铝材模具id自动识别系统
CN111753682B (zh) 一种基于目标检测算法的吊装区域动态监控方法
CN110009622B (zh) 一种显示面板外观缺陷检测网络及其缺陷检测方法
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN111127454A (zh) 基于深度学习生成工业缺陷样本的方法及系统
CN112329771B (zh) 一种基于深度学习的建筑材料样本识别方法
CN115880495A (zh) 复杂环境下的舰船图像目标检测方法与系统
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
CN113221956A (zh) 基于改进的多尺度深度模型的目标识别方法及装置
CN117576038A (zh) 基于YOLOv8网络的织物瑕疵检测方法及系统
CN113657196B (zh) Sar图像目标检测方法、装置、电子设备和存储介质
CN113963333B (zh) 一种基于改进yolof模型的交通标志牌检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200901

WD01 Invention patent application deemed withdrawn after publication