CN111986252B - 一种用于目标分割网络中候选边界框精准定位的方法 - Google Patents

一种用于目标分割网络中候选边界框精准定位的方法 Download PDF

Info

Publication number
CN111986252B
CN111986252B CN202010685863.2A CN202010685863A CN111986252B CN 111986252 B CN111986252 B CN 111986252B CN 202010685863 A CN202010685863 A CN 202010685863A CN 111986252 B CN111986252 B CN 111986252B
Authority
CN
China
Prior art keywords
candidate
confidence score
frame
candidate boundary
iou
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010685863.2A
Other languages
English (en)
Other versions
CN111986252A (zh
Inventor
张烨
樊一超
陈威慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010685863.2A priority Critical patent/CN111986252B/zh
Publication of CN111986252A publication Critical patent/CN111986252A/zh
Application granted granted Critical
Publication of CN111986252B publication Critical patent/CN111986252B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

一种用于目标分割网络中候选边界框精准定位的方法,包括:步骤一,构建轻量级的卷积神经网络模型,并设计网络参数;步骤二,求解网络模型中IoU layer的交并比IoU;步骤三,求解网络模型中候选边界框的置信度得分;步骤四,根据交并比和置信度得分的设定去除候选边界框冗余,最终使得输出的候选边界框其置信度得分最高,且最接近真实标定框。本发明能够在目标漏检和错误检测之间找到一个平衡之处,并且使得候选边界框更接近真实标定框,同时本发明所设计的网络结构和置信度求解方法具有一定的泛化能力,可以应用在较为复杂的场景中。

Description

一种用于目标分割网络中候选边界框精准定位的方法
技术领域
本发明涉及一种用于目标分割网络中候选边界框精准定位的方法。
技术背景
在应用机器学习对图像中的目标物体进行分割时,首先需要对输入的原始图像进行尺寸缩放,然后将固定尺寸的图像输入至预设置好的卷积神经网络中进行特征提取,随后在特征图上进行锚点,进而提取感兴趣区域,从而确定前景(目标物体)和背景的候选边界框。
经过上述过程的处理,往往求得的候选边界框四维位置坐标(中心位置坐标及其宽高)与预先标定的目标所处的真实框存在极大的偏差,同时也导致了两个方面的问题。其一,如果所得候选边界框与真实标定框的重叠率大于既定的阈值,则将导致此候选边界框被剔除,那么很有可能会造成一部分目标漏检的情况。其二,对于候选边界框与真实标定框的重叠率阈值的预设定往往存在一定的难度,如果设置太小则有可能会造成部分目标漏检,如果将阈值设置太大则容易造成同一目标多次检测或者错误检测的情况。
为了在漏检和误检之间找到平衡之处,同时减小候选边界框与真实框之间的偏差,本发明通过设计轻量级的网络对候选边界框的得分和其与真实框的重叠率(交并比)进行调整,从而使得对于每一个目标物体来说,经过分割网络之后仅保留一个得分最高的候选边界框,且此候选边界框与真实标定框之间的偏差尽量达到最小。
发明内容
为了克服现有技术的上述不足,本发明针对目标分割网络中候选边界框定位偏差、漏检、错误检测及部分目标检测等问题提供了一种用于目标分割网络中候选边界框精准定位的方法。首先构建一个轻量级的卷积神经网络模型,并对其网络参数进行合理设计,用于对当前所得候选边界框不精准的预测图进行传输、卷积等操作;然后对其网络中交并比和置信度得分进行设计求解;最后根据交并比和置信度得分的设定去除候选边界框冗余,并微调候选边界框以达到精准定位的效果。
为实现上述目的,本发明采用以下技术方案:
一种用于目标分割网络中候选边界框精准定位的方法,包括如下步骤:
步骤一,构建轻量级的卷积神经网络模型,并对其网络参数进行合理设计;
本发明设计一个四层的小型卷积神经网络模型,如果将一个尺寸大小为W×H的图像输入到该小型网络中,经过网络变换之后可以获得一个w×h大小的置信度得分图像。
本发明的网络结构具体设计如下:
在该小型卷积神经网络结构的第一层设置了两个并行的卷积层。第一个分层用于制作IoU层,确定每一个候选边界框与其对应的真实标定框之间的交并重叠关系,即随机选择一个像素点,然后计算该点周围11×11范围内的随机一点对应的候选框与该点对应真实标定框之间的交并重叠部分,从而算出IoU值;另一个分层的作用是获取一个w×h×2的置信度得分图,在该层中有两个通道,在第一个大小为w×h×1的通道中,每一个随机点都对应于原始输入图像中的一个4×4大小的区域,如果将该区域落入边界框中,便可获得一个置信度得分,然后将该得分计入置信度得分图中,第二个通道与第一个通道大小相同,则记为S(T),其中T表示该网络中的阈值。
该网络结构的第二层是由两个并行的卷积分层所组成,主要用以连接上一层中两个分层的输出结果。
该网络结构的第三层和第四层均为对置信度得分图进行卷积,最终输出置信度得分图像,其大小为w×h×512。
在本发明的网络结构中,其具体的参数设置如下:
第一层:在第一个分层,即IoU layer中,其随机设置1×1的像素部分,然后计算该部分周围11×11范围内的随机一点对应的候选边界框,并对其进行遍历,求得其与先前选择的点对应真实标定框的交并重叠部分;在获得置信度得分图分层中,设置其卷积核大小为11×11,卷积通道为2,卷积步长为1,最后所得置信度得分图尺寸为w×h×2;
第二层:该层是由两个w×h×512的并行卷积层连接组成,其卷积核大小为1×1,卷积通道为1024,卷积步长为1,最后所得置信度得分图尺寸为w×h×1024;
第三层:其层上卷积核大小为1×1,卷积通道为512,卷积步长为1,最后所得置信度得分图尺寸为w×h×512;
第四层:该层参数设置同第三层相同,但是该层作为网络的最后一层,则无需设置激活函数,直接输出置信度得分最高的候选边界框即可。
步骤二,求解网络模型中IoU layer的交并比IoU;
在步骤一设计的网络模型中,其第一层的IoU分层中获取的候选边界框与预先标定的真实框之间存在四种位置关系,即候选边界框与真实标定框部分重合、真实标定框包含于候选边界框、候选边界框包含于真实标定框及候选边界框与真实标定框完全不交叉。
在上述四种位置关系中,真实标定框和候选边界框的面积计算公式都可以表示为如下公式:
其中,SGroundTruth与SDetection分别表示真实标定框和候选边界框的面积,WGroundTruth与WDetection分别表示真实标定框与候选边界框的宽,HGroundTruth与HDetection分别表示真实标定框与候选边界框的高,(x1,y1)和(x2,y2)分别代表真实标定框左上角和右下角的坐标值,(x3,y3)和(x4,y4)分别代表候选边界框左上角和右下角的坐标值,本发明所设计的纵向坐标轴是向下的坐标轴,即纵坐标值越往下越大。
候选边界框与真实标定框重叠部分的面积则通过下列公式表示:
SOverlap=WOverlap·HOverlap (3)
其中,SOverlap表示候选边界框与真实标定框重叠部分的面积,WOverlap和HOverlap分别表示候选边界框与真实标定框重叠部分的宽和高。因为候选边界框与预先标定的真实框之间的位置关系不同,所以求解其重叠面积时要分四种情况讨论。
(1)若候选边界框与真实标定框部分重合,则WOverlap和HOverlap表示为如下公式:
(2)若真实标定框包含于候选边界框,则WOverlap和HOverlap表示为如下公式:
(3)若候选边界框包含于真实标定框,则WOverlap和HOverlap表示为如下公式:
(4)若候选边界框与真实标定框完全不交叉,则WOverlap和HOverlap表示为如下公式:
通过对以上四种情况的比较,本发明将式(4)-(7)进行归纳总结,统一表示为下式:
通过上述公式可以求得SOverlap、SDetection、SGroundTruth,随之利用如下公式可计算得到IoU:
步骤三,求解网络模型中候选边界框的置信度得分;
在步骤一所设计的网络中,为了使目标定位更加精确,本发明根据分类候选边界框的置信度得分,引入了罚函数的计算公式,并利用罚函数来降低大于IoU阈值的候选边界框的置信度得分,使得对候选边界框做进一步的筛选。
本发明使用线性加权法设计的罚函数表达式如下所示:
其中,si表示当前所属类别的候选框置信度得分,si1表示线性加权后的置信度得分,a代表权值系数,且a的取值范围是0到1之间,bm和bi分别代表置信度得分最高的候选边界框和当前所处的候选边界框,IoU(bm,bi)表示置信度得分最高的候选边界框和当前所处的候选边界框之间的交并比,Nt代表预先设定的IoU阈值。
本发明对比了高斯函数曲线,对高斯加权法的罚函数进行设计,其表达式如下所示:
其中,si表示当前所属类别的候选框置信度得分,si2表示高斯加权后的置信度得分,σ代表惩罚力度因子,bm和bi分别代表置信度得分最高的候选边界框和当前所处的候选边界框,IoU(bm,bi)表示置信度得分最高的候选边界框和当前所处的候选边界框之间的交并比,D为所有候选边界框的集合。
本发明采用负指数加权法则来设计指数加权法的罚函数,其表达式如下所示:
其中,si表示当前所属类别的候选框置信度得分,si3表示指数加权后的置信度得分,bm和bi分别代表置信度得分最高的候选边界框和当前所处的候选边界框,IoU(bm,bi)表示置信度得分最高的候选边界框和当前所处的候选边界框之间的交并比,Nt代表预先设定的IoU阈值。
为了使本发明所设计的网络结构具有较好的泛化能力,以便在较为复杂的场景中得以应用,本发明对上述三种加权方法的罚函数进行了整合加权,其混合后的罚函数表示为:
其中,代表该候选边界框对应的新的置信度得分,si1,si2,si3分别代表经上述三种罚函数更新后的置信度得分,w1,w2,w3分别代表其对应的权重,本发明默认设置该权重相同,即w1=w2=w3=1/3。根据上述公式(10)-(13)将候选边界框置信度得分进行更新,然后重新写入到步骤一所设计的网络中。
步骤四,根据交并比和置信度得分的设定去除候选边界框冗余,最终使得输出的候选边界框其置信度得分最高,且最接近真实标定框;
此步骤的具体流程如下:
(1)设定一个重叠率IoU的阈值和置信度得分的阈值;
(2)根据步骤二计算求得所有分类候选框的面积,同时将候选边界框按照其信度得分从高到低排序,并筛选出分类置信度得分最高的候选边界框;
(3)分别遍历计算其余候选边界框同置信度得分最高的候选边界框的交叉面积,从而根据步骤二中的公式(9)求得IoU值的大小;
(4)比较计算所得的IoU值与预先设定的阈值的关系,如若IoU小于设定阈值,则保留其对应的候选边界框;如若IoU大于预设阈值,则根据步骤三中的公式更新候选边界框置信度得分;
(5)将更新后的置信度得分与预先设定的置信度得分阈值进行比较,如若更新后的得分大于预设的置信度得分阈值,则保留对应的候选边界框;否则,将该候选边界框删除以去冗余;
(6)从剩余的候选边界框中,选择置信度得分最高的候选边界框,重复(1)至(5),直至全部候选边界框均被处理完毕为止,最终获得每个目标置信度得分最高的候选边界框。
本发明的优点是:
本发明针对目标分割网络中候选边界框定位偏差、漏检、错误检测及部分目标检测等问题提供了一种用于目标分割网络中候选边界框精准定位的方法。首先构建一个轻量级的卷积神经网络模型,用于对当前所得候选边界框不精准的预测图进行传输、卷积等操作;然后对其网络中交并比和置信度得分进行设计求解;最后根据交并比和置信度得分的设定去除候选边界框冗余,并微调候选边界框以达到精准定位的效果。总而言之,对于每一个目标物体来说,经过此网络之后仅保留一个得分最高的候选边界框,且此候选边界框与真实边界框之间的偏差尽量达到最小。因此,本发明能够在目标漏检和错误检测之间找到一个平衡之处,并且使得候选边界框更接近真实标定框,同时本发明所设计的网络结构和置信度求解方法具有一定的泛化能力,可以应用在较为复杂的场景中。
附图说明
图1a~图1c是第一种候选边界框检测异常情况对比,其中,图1a是正常检测的边界框,图1b是如圈中标出的货物漏检的情况;图1c是如圈中标出的货物和人物漏检的情况;
图2a~图2b是第二种候选边界框检测异常情况对比,其中,图2a是错误检测的边界框,图2b是如圈中标出的货物重复检测的情况;
图3是本发明所构建的轻量级卷积神经网络模型;
图4a~图4d是候选边界框与真实标定框之间可能出现的四种交叉情况,其中,图4a是候选边界框与真实标定框部分重合的情况,图4b是真实标定框包含于候选边界框的情况;图4c是候选边界框包含于真实标定框的情况;图4d是候选边界框与真实标定框完全不交叉的情况;
图5是本发明方法的流程图。
具体实施方式
为了克服现有技术的上述不足,本发明针对目标分割网络中候选边界框定位偏差、漏检、错误检测及部分目标检测等问题提供了一种用于目标分割网络中候选边界框精准定位的方法。首先构建一个轻量级的卷积神经网络模型,并对其网络参数进行合理设计,用于对当前所得候选边界框不精准的预测图进行传输、卷积等操作;然后对其网络中交并比和置信度得分进行设计求解;最后根据交并比和置信度得分的设定去除候选边界框冗余,并微调候选边界框以达到精准定位的效果。
为实现上述目的,本发明采用以下技术方案:
一种用于目标分割网络中候选边界框精准定位的方法,包括如下步骤:
步骤一,构建轻量级的卷积神经网络模型,并对其网络参数进行合理设计;
本发明设计一个四层的小型卷积神经网络模型,如果将一个尺寸大小为W×H的图像输入到该小型网络中,经过网络变换之后可以获得一个w×h大小的置信度得分图像。
本发明的网络结构具体设计如下:
在该小型卷积神经网络结构的第一层设置了两个并行的卷积层。第一个分层用于制作IoU层,确定每一个候选边界框与其对应的真实标定框之间的交并重叠关系,即随机选择一个像素点,然后计算该点周围11×11范围内的随机一点对应的候选框与该点对应真实标定框之间的交并重叠部分,从而算出IoU值;另一个分层的作用是获取一个w×h×2的置信度得分图,在该层中有两个通道,在第一个大小为w×h×1的通道中,每一个随机点都对应于原始输入图像中的一个4×4大小的区域,如果将该区域落入边界框中,便可获得一个置信度得分,然后将该得分计入置信度得分图中,第二个通道与第一个通道大小相同,则记为S(T),其中T表示该网络中的阈值。
该网络结构的第二层是由两个并行的卷积分层所组成,主要用以连接上一层中两个分层的输出结果。
该网络结构的第三层和第四层均为对置信度得分图进行卷积,最终输出置信度得分图像,其大小为w×h×512。
在本发明的网络结构中,其具体的参数设置如下:
第一层:在第一个分层,即IoU layer中,其随机设置1×1的像素部分,然后计算该部分周围11×11范围内的随机一点对应的候选边界框,并对其进行遍历,求得其与先前选择的点对应真实标定框的交并重叠部分;在获得置信度得分图分层中,设置其卷积核大小为11×11,卷积通道为2,卷积步长为1,最后所得置信度得分图尺寸为w×h×2;
第二层:该层是由两个w×h×512的并行卷积层连接组成,其卷积核大小为1×1,卷积通道为1024,卷积步长为1,最后所得置信度得分图尺寸为w×h×1024;
第三层:其层上卷积核大小为1×1,卷积通道为512,卷积步长为1,最后所得置信度得分图尺寸为w×h×512;
第四层:该层参数设置同第三层相同,但是该层作为网络的最后一层,则无需设置激活函数,直接输出置信度得分最高的候选边界框即可。
步骤二,求解网络模型中IoU layer的交并比IoU;
在步骤一设计的网络模型中,其第一层的IoU分层中获取的候选边界框与预先标定的真实框之间存在四种位置关系,即候选边界框与真实标定框部分重合、真实标定框包含于候选边界框、候选边界框包含于真实标定框及候选边界框与真实标定框完全不交叉。
在上述四种位置关系中,真实标定框和候选边界框的面积计算公式都可以表示为如下公式:
其中,SGroundTruth与SDetection分别表示真实标定框和候选边界框的面积,WGroundTruth与WDetection分别表示真实标定框与候选边界框的宽,HGroundTruth与HDetection分别表示真实标定框与候选边界框的高,(x1,y1)和(x2,y2)分别代表真实标定框左上角和右下角的坐标值,(x3,y3)和(x4,y4)分别代表候选边界框左上角和右下角的坐标值,本发明所设计的纵向坐标轴是向下的坐标轴,即纵坐标值越往下越大。
候选边界框与真实标定框重叠部分的面积则通过下列公式表示:
SOverlap=WOverlap·HOverlap (3)
其中,SOverlap表示候选边界框与真实标定框重叠部分的面积,WOverlap和HOverlap分别表示候选边界框与真实标定框重叠部分的宽和高。因为候选边界框与预先标定的真实框之间的位置关系不同,所以求解其重叠面积时要分四种情况讨论。
(1)若候选边界框与真实标定框部分重合,则WOverlap和HOverlap表示为如下公式:
(2)若真实标定框包含于候选边界框,则WOverlap和HOverlap表示为如下公式:
(3)若候选边界框包含于真实标定框,则WOverlap和HOverlap表示为如下公式:
(4)若候选边界框与真实标定框完全不交叉,则WOverlap和HOverlap表示为如下公式:
通过对以上四种情况的比较,本发明将式(4)-(7)进行归纳总结,统一表示为下式:
通过上述公式可以求得SOverlap、SDetection、SGroundTruth,随之利用如下公式可计算得到IoU:
步骤三,求解网络模型中候选边界框的置信度得分;
在步骤一所设计的网络中,为了使目标定位更加精确,本发明根据分类候选边界框的置信度得分,引入了罚函数的计算公式,并利用罚函数来降低大于IoU阈值的候选边界框的置信度得分,使得对候选边界框做进一步的筛选。
本发明使用线性加权法设计的罚函数表达式如下所示:
其中,si表示当前所属类别的候选框置信度得分,si1表示线性加权后的置信度得分,a代表权值系数,且a的取值范围是0到1之间,bm和bi分别代表置信度得分最高的候选边界框和当前所处的候选边界框,IoU(bm,bi)表示置信度得分最高的候选边界框和当前所处的候选边界框之间的交并比,Nt代表预先设定的IoU阈值。
本发明对比了高斯函数曲线,对高斯加权法的罚函数进行设计,其表达式如下所示:
其中,si表示当前所属类别的候选框置信度得分,si2表示高斯加权后的置信度得分,σ代表惩罚力度因子,bm和bi分别代表置信度得分最高的候选边界框和当前所处的候选边界框,IoU(bm,bi)表示置信度得分最高的候选边界框和当前所处的候选边界框之间的交并比,D为所有候选边界框的集合。
本发明采用负指数加权法则来设计指数加权法的罚函数,其表达式如下所示:
其中,si表示当前所属类别的候选框置信度得分,si3表示指数加权后的置信度得分,bm和bi分别代表置信度得分最高的候选边界框和当前所处的候选边界框,IoU(bm,bi)表示置信度得分最高的候选边界框和当前所处的候选边界框之间的交并比,Nt代表预先设定的IoU阈值。
为了使本发明所设计的网络结构具有较好的泛化能力,以便在较为复杂的场景中得以应用,本发明对上述三种加权方法的罚函数进行了整合加权,其混合后的罚函数表示为:
其中,代表该候选边界框对应的新的置信度得分,si1,si2,si3分别代表经上述三种罚函数更新后的置信度得分,w1,w2,w3分别代表其对应的权重,本发明默认设置该权重相同,即w1=w2=w3=1/3。根据上述公式(10)-(13)将候选边界框置信度得分进行更新,然后重新写入到步骤一所设计的网络中。
步骤四,根据交并比和置信度得分的设定去除候选边界框冗余,最终使得输出的候选边界框其置信度得分最高,且最接近真实标定框;
此步骤的具体流程如下:
(1)设定一个重叠率IoU的阈值和置信度得分的阈值;
(2)根据步骤二计算求得所有分类候选框的面积,同时将候选边界框按照其信度得分从高到低排序,并筛选出分类置信度得分最高的候选边界框;
(3)分别遍历计算其余候选边界框同置信度得分最高的候选边界框的交叉面积,从而根据步骤二中的公式(9)求得IoU值的大小;
(4)比较计算所得的IoU值与预先设定的阈值的关系,如若IoU小于设定阈值,则保留其对应的候选边界框;如若IoU大于预设阈值,则根据步骤三中的公式更新候选边界框置信度得分;
(5)将更新后的置信度得分与预先设定的置信度得分阈值进行比较,如若更新后的得分大于预设的置信度得分阈值,则保留对应的候选边界框;否则,将该候选边界框删除以去冗余;
(6)从剩余的候选边界框中,选择置信度得分最高的候选边界框,重复(1)至(5),直至全部候选边界框均被处理完毕为止,最终获得每个目标置信度得分最高的候选边界框。
本发明的优点是:
本发明针对目标分割网络中候选边界框定位偏差、漏检、错误检测及部分目标检测等问题提供了一种用于目标分割网络中候选边界框精准定位的方法。首先构建一个轻量级的卷积神经网络模型,用于对当前所得候选边界框不精准的预测图进行传输、卷积等操作;然后对其网络中交并比和置信度得分进行设计求解;最后根据交并比和置信度得分的设定去除候选边界框冗余,并微调候选边界框以达到精准定位的效果。总而言之,对于每一个目标物体来说,经过此网络之后仅保留一个得分最高的候选边界框,且此候选边界框与真实边界框之间的偏差尽量达到最小。因此,本发明能够在目标漏检和错误检测之间找到一个平衡之处,并且使得候选边界框更接近真实标定框,同时本发明所设计的网络结构和置信度求解方法具有一定的泛化能力,可以应用在较为复杂的场景中。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (1)

1.一种用于目标分割网络中候选边界框精准定位的方法,包括如下步骤:
步骤一,构建轻量级的卷积神经网络模型,并设计网络参数;
设计一个四层的小型卷积神经网络模型,将一个尺寸大小为W×H的图像输入到该小型卷积神经网络中,经过网络变换之后获得一个w×h大小的置信度得分图像;
小型卷积神经网络的结构如下:
在该小型卷积神经网络结构的第一层设置两个并行的卷积分层;第一个分层用于制作IoU层,确定每一个候选边界框与其对应的真实标定框之间的交并重叠关系,即随机选择一个像素点,然后计算该点周围11×11范围内的随机一点对应的候选框与该点对应真实标定框之间的交并重叠部分,从而算出IoU值;另一个分层的作用是获取一个w×h×2的置信度得分图,在该分层中有两个通道,在第一个通道的大小为w×h×1,每一个随机点都对应于原始输入图像中的一个4×4大小的区域,如果将该区域落入边界框中,便可获得一个置信度得分,然后将该得分计入置信度得分图中,第二个通道与第一个通道大小相同,则记为S(T),其中T表示该网络中的阈值;
该小型卷积网络结构的第二层是由两个并行的卷积分层所组成,用以连接上一层中两个分层的输出结果;
该小型卷积网络结构的第三层和第四层均为对置信度得分图进行卷积,最终输出置信度得分图像,其大小为w×h×512;
在小型卷积网络结构的参数设置如下:
第一层:在第一个分层,即IoU layer中,其随机设置1×1的像素部分,然后计算该部分周围11×11范围内的随机一点对应的候选边界框,并对其进行遍历,求得其与先前选择的点对应真实标定框的交并重叠部分;在获得置信度得分图分层中,设置其卷积核大小为11×11,卷积通道为2,卷积步长为1,最后所得置信度得分图尺寸为w×h×2;
第二层:第二层是由两个w×h×512的并行卷积分层连接组成,其卷积核大小为1×1,卷积通道为1024,卷积步长为1,最后所得置信度得分图尺寸为w×h×1024;
第三层:第三层上卷积核大小为1×1,卷积通道为512,卷积步长为1,最后所得置信度得分图尺寸为w×h×512;
第四层:第四层参数设置同第三层相同,但是第四层作为网络的最后一层,则无需设置激活函数,直接输出置信度得分最高的候选边界框即可;
步骤二,求解网络模型中IoU layer的交并比IoU;
在步骤一设计的网络模型中,其第一层的IoU分层中获取的候选边界框与预先标定的真实框之间存在四种位置关系,即候选边界框与真实标定框部分重合、真实标定框包含于候选边界框、候选边界框包含于真实标定框及候选边界框与真实标定框完全不交叉;
在上述四种位置关系中,真实标定框和候选边界框的面积计算公式表示为如下公式:
其中,SGroundTru与SDetection分别表示真实标定框和候选边界框的面积,WGroundTruth与WDetection分别表示真实标定框与候选边界框的宽,HGroundTruth与HDetection分别表示真实标定框与候选边界框的高,(x1,y1)和(x2,y2)分别代表真实标定框左上角和右下角的坐标值,(x3,y3)和(x4,y4)分别代表候选边界框左上角和右下角的坐标值,纵向坐标轴是向下的坐标轴,即纵坐标值越往下越大;
候选边界框与真实标定框重叠部分的面积则通过下列公式表示:
SOverlap=WOverlap·HOverlap (3)
其中,SOverlap表示候选边界框与真实标定框重叠部分的面积,WOverlap和HOverlap分别表示候选边界框与真实标定框重叠部分的宽和高;因为候选边界框与预先标定的真实框之间的位置关系不同,求解其重叠面积时要分四种情况:
(1)若候选边界框与真实标定框部分重合,则WOverlap和HOverlap表示为如下公式:
(2)若真实标定框包含于候选边界框,则WOverlap和HOverlap表示为如下公式:
(3)若候选边界框包含于真实标定框,则WOverlap和HOverlap表示为如下公式:
(4)若候选边界框与真实标定框完全不交叉,则WOverlap和HOverlap表示为如下公式:
通过对以上四种情况的比较,将式(4)-(7)进行归纳总结,统一表示为下式:
通过上述公式可以求得SOverlap、SDetection、SGroundTruth,随之利用如下公式可计算得到IoU:
步骤三,求解网络模型中候选边界框的置信度得分;
在步骤一所设计的网络中,为了使目标定位更加精确,根据分类候选边界框的置信度得分,引入了罚函数的计算公式,并利用罚函数来降低大于IoU阈值的候选边界框的置信度得分,使得对候选边界框做进一步的筛选;
使用线性加权法设计的罚函数表达式如下所示:
其中,si表示当前所属类别的候选框置信度得分,si1表示线性加权后的置信度得分,a代表权值系数,且a的取值范围是0到1之间,bm和bi分别代表置信度得分最高的候选边界框和当前所处的候选边界框,IoU(bm,bi)表示置信度得分最高的候选边界框和当前所处的候选边界框之间的交并比,Nt代表预先设定的IoU阈值;
对比高斯函数曲线,对高斯加权法的罚函数进行设计,其表达式如下所示:
其中,si表示当前所属类别的候选框置信度得分,si2表示高斯加权后的置信度得分,σ代表惩罚力度因子,bm和bi分别代表置信度得分最高的候选边界框和当前所处的候选边界框,IoU(bm,bi)表示置信度得分最高的候选边界框和当前所处的候选边界框之间的交并比,D为所有候选边界框的集合;
采用负指数加权法则来设计指数加权法的罚函数,其表达式如下所示:
其中,si表示当前所属类别的候选框置信度得分,si3表示指数加权后的置信度得分,bm和bi分别代表置信度得分最高的候选边界框和当前所处的候选边界框,IoU(bm,bi)表示置信度得分最高的候选边界框和当前所处的候选边界框之间的交并比,Nt代表预先设定的IoU阈值;
对上述线性加权法、高斯加权法、负指数加权法的罚函数进行整合加权,其混合后的罚函数表示为:
其中,代表该候选边界框对应的新的置信度得分,si1,si2,si3分别代表经上述三种罚函数更新后的置信度得分,w1,w2,w3分别代表其对应的权重,默认设置该权重相同,即w1=w2=w3=1/3;根据上述公式(10)-(13)将候选边界框置信度得分进行更新,然后重新写入到步骤一所设计的小型卷积神经网络中;
步骤四,根据交并比和置信度得分的设定去除候选边界框冗余,最终使得输出的候选边界框其置信度得分最高,且最接近真实标定框;具体流程如下:
(1)设定一个重叠率IoU的阈值和置信度得分的阈值;
(2)根据步骤二计算求得所有分类候选框的面积,同时将候选边界框按照其信度得分从高到低排序,并筛选出分类置信度得分最高的候选边界框;
(3)分别遍历计算其余候选边界框同置信度得分最高的候选边界框的交叉面积,从而根据步骤二中的公式(9)求得IoU值的大小;
(4)比较计算所得的IoU值与预先设定的阈值的关系,如若IoU小于设定阈值,则保留其对应的候选边界框;如若IoU大于预设阈值,则根据步骤三中的公式更新候选边界框置信度得分;
(5)将更新后的置信度得分与预先设定的置信度得分阈值进行比较,如若更新后的得分大于预设的置信度得分阈值,则保留对应的候选边界框;否则,将该候选边界框删除以去冗余;
(6)从剩余的候选边界框中,选择置信度得分最高的候选边界框,重复(1)至(5),直至全部候选边界框均被处理完毕为止,最终获得每个目标置信度得分最高的候选边界框。
CN202010685863.2A 2020-07-16 2020-07-16 一种用于目标分割网络中候选边界框精准定位的方法 Active CN111986252B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010685863.2A CN111986252B (zh) 2020-07-16 2020-07-16 一种用于目标分割网络中候选边界框精准定位的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010685863.2A CN111986252B (zh) 2020-07-16 2020-07-16 一种用于目标分割网络中候选边界框精准定位的方法

Publications (2)

Publication Number Publication Date
CN111986252A CN111986252A (zh) 2020-11-24
CN111986252B true CN111986252B (zh) 2024-03-29

Family

ID=73437748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010685863.2A Active CN111986252B (zh) 2020-07-16 2020-07-16 一种用于目标分割网络中候选边界框精准定位的方法

Country Status (1)

Country Link
CN (1) CN111986252B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269500B (zh) * 2021-06-16 2022-06-10 江苏佳利达国际物流股份有限公司 一种基于神经网络的冷链物流监控方法及系统
CN113420682B (zh) 2021-06-28 2023-08-15 阿波罗智联(北京)科技有限公司 车路协同中目标检测方法、装置和路侧设备
CN115701873A (zh) * 2021-07-19 2023-02-14 北京字跳网络技术有限公司 一种图像匹配方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764228A (zh) * 2018-05-28 2018-11-06 嘉兴善索智能科技有限公司 一种图像中文字目标检测方法
CN109800778A (zh) * 2018-12-03 2019-05-24 浙江工业大学 一种基于难分样本挖掘的Faster RCNN目标检测方法
CN109902806A (zh) * 2019-02-26 2019-06-18 清华大学 基于卷积神经网络的噪声图像目标边界框确定方法
CN110135267A (zh) * 2019-04-17 2019-08-16 电子科技大学 一种大场景sar图像细微目标检测方法
CN110930454A (zh) * 2019-11-01 2020-03-27 北京航空航天大学 一种基于边界框外关键点定位的六自由度位姿估计算法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101859A (zh) * 2017-06-21 2018-12-28 北京大学深圳研究生院 使用高斯惩罚检测图像中行人的方法
US11188794B2 (en) * 2017-08-10 2021-11-30 Intel Corporation Convolutional neural network framework using reverse connections and objectness priors for object detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764228A (zh) * 2018-05-28 2018-11-06 嘉兴善索智能科技有限公司 一种图像中文字目标检测方法
CN109800778A (zh) * 2018-12-03 2019-05-24 浙江工业大学 一种基于难分样本挖掘的Faster RCNN目标检测方法
CN109902806A (zh) * 2019-02-26 2019-06-18 清华大学 基于卷积神经网络的噪声图像目标边界框确定方法
CN110135267A (zh) * 2019-04-17 2019-08-16 电子科技大学 一种大场景sar图像细微目标检测方法
CN110930454A (zh) * 2019-11-01 2020-03-27 北京航空航天大学 一种基于边界框外关键点定位的六自由度位姿估计算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks;Ren Shaoqing 等;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;第39卷(第6期);第1137-1149 页 *

Also Published As

Publication number Publication date
CN111986252A (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN111986252B (zh) 一种用于目标分割网络中候选边界框精准定位的方法
CN112052787B (zh) 基于人工智能的目标检测方法、装置及电子设备
CN111914834B (zh) 图像识别方法、装置、计算机设备和存储介质
WO2020102988A1 (zh) 基于特征融合和稠密连接的红外面目标检测方法
CN110909671B (zh) 一种融合概率和高度信息的栅格地图障碍物检测方法
CN106778835A (zh) 融合场景信息和深度特征的遥感图像机场目标识别方法
CN111968084B (zh) 一种基于人工智能的航空发动机叶片缺陷快速精准识别方法
CN106803071A (zh) 一种图像中的物体检测方法及装置
CN108305260B (zh) 一种图像中角点的检测方法、装置及设备
CN107680113A (zh) 基于贝叶斯框架边缘先验的多层分割网络的图像分割方法
CN112348836B (zh) 一种自动提取建筑物轮廓的方法及装置
CN110490155B (zh) 一种禁飞空域无人机检测方法
CN114627052A (zh) 一种基于深度学习的红外图像漏气漏液检测方法及系统
CN111144234A (zh) 一种基于深度学习的视频sar目标检测方法
CN111652297B (zh) 用于图像检测模型训练的故障图片生成方法
CN111931915A (zh) 一种基于diou损失函数的训练网络的方法
KR102568979B1 (ko) 이미지의 특징부 계측을 위한 파라미터 추정
CN117541652A (zh) 一种基于深度lk光流法与d-prosac采样策略的动态slam方法
CN110348311B (zh) 一种基于深度学习的道路交叉口识别系统及方法
CN111160372B (zh) 一种基于高速卷积神经网络的大目标识别方法
CN112329768A (zh) 一种基于改进的yolo的加油站卸油停车牌标志的识别方法
CN115731458A (zh) 一种遥感影像的处理方法、装置和电子设备
CN114005150B (zh) 一种可量化的前端人脸检测的设计方法
CN111127393B (zh) 雷达影像变化检测的样本制作方法及系统、存储介质、设备
CN113326858B (zh) 一种多特征提取网络的目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant