CN114998611A - 一种基于结构融合的目标轮廓检测方法 - Google Patents

一种基于结构融合的目标轮廓检测方法 Download PDF

Info

Publication number
CN114998611A
CN114998611A CN202210593111.2A CN202210593111A CN114998611A CN 114998611 A CN114998611 A CN 114998611A CN 202210593111 A CN202210593111 A CN 202210593111A CN 114998611 A CN114998611 A CN 114998611A
Authority
CN
China
Prior art keywords
contour
target
prior
loss
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210593111.2A
Other languages
English (en)
Inventor
桂盛霖
简柯青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210593111.2A priority Critical patent/CN114998611A/zh
Publication of CN114998611A publication Critical patent/CN114998611A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于结构融合的目标轮廓检测方法,该方法包括获取数据集、构建基于结构融合的目标轮廓检测模型、计算目标检测分支损失和轮廓检测分支损失、将这两种损失进行权重相加得到总损失,并得到训练好的基于结构融合的目标轮廓检测模型、对测试数据进行轮廓预测。本发明构建的基于结构融合的目标轮廓检测模型将目标检测算法SSD与轮廓检测算法CEDN通过共享基础网络的方式融合在一起,利用目标检测分支将注意力集中在目标物体这一特点,在不增加各自分支网络参数的情况下提升了轮廓检测网络对无关边缘的抑制能力以及加强了对目标轮廓的检测精度。

Description

一种基于结构融合的目标轮廓检测方法
技术领域
本发明涉及计算机视觉领域,具体涉及一种基于结构融合的目标轮廓检测方法。
背景技术
在目标物体轮廓检测中,深度卷积神经网络通过对输入图像的全局和深度信息的利用,已经极大地提高了轮廓检测的精度,如J.Yang等人提出的CEDN(参见J.Yang,B.Price,S.Cohen,et al.“Object contour detection with a fully convolutionalencoderdecoder networ k[C]”.Proceedings of the IEEE conference on computervision and pattern recognition,2016,193-202.)利用浅层特征中的定位信息,深层特征中的轮廓信息,将VGG-16的五个模块构成编码器,经由编码器得到最深层的特征图,通过Unpooling的方法结合浅层特征中的轮廓位置信息,一步一步通过上采样还原为原图尺寸,最后作用于sigmoid函数作为输出得到轮廓预测。
在目标检测技术中,基于锚框机制的单阶段检测算法在速度上和精度上都有较好的表现,如Liu等人提出的单阶段目标检测算法SSD(参见Liu W,Anguelov D,Erhan D,Szegedy C,Reed S,Fu C Y and Berg A C.2016.SSD:single shot MultiBox detector//Proceedings of the 14th European Conference on Computer Vision.Amsterdam:Springer:21-37),在不同尺度的特征图上设计了大小不一的密集先验框,以此作为预测框的基准,利用不同尺度的特征图来检测大小不同的物体,增强了检测精度,并通过卷积预测的方法代替全连接层,加快了检测速度。
轮廓检测算法虽然已经得到了快速的发展,但由于一张图片中目标物体的轮廓信息非常有限,而噪声干扰很多,所以如何将算法聚焦于物体,并进一步消除物体内部的纹理噪声一直是轮廓检测领域中最重要的问题之一。目标检测算法需要找到图像中特定的目标,并对目标进行定位和分类,从而将目标检测算法与物体轮廓检测算法结合,利用目标检测算法提取的特征将聚焦于目标物体这一特点,消除背景信息干扰,可以让物体轮廓识别算法更好地检测目标物体的轮廓。将目标检测算法与轮廓检测算法结合在一起,进而提升轮廓检测精度是本发明要解决的问题。
本发明被广泛应用于需要精确识别物体位置的领域中,例如机舱门检测等。
发明内容
针对上述问题,本发明融合了在背景技术中提到的的轮廓检测算法和目标检测算法,首先构建了一种基于结构融合的目标轮廓检测模型,该模型包括目标检测分支和轮廓检测分支,这两个分支共享特征提取网络。该模型使用到的数据集中的数据除了包括输入图像和记录输入图像中物体的定位框标签信息的文本外,还包括含有正确轮廓位置的轮廓标签图,将所述数据集按预设比例分为训练集和测试集。
训练所述基于结构融合的目标轮廓检测模型时将训练集中的输入图像和轮廓标签图的大小放缩到固定尺寸,将输入图像输入特征提取网络,由特征提取网络的最后一层卷积层Conv5_3得到的特征图作为目标检测分支和轮廓检测分支的输入,该特征图在目标检测分支经过一系列卷积操作之后得到若干特征图,最后通过由特征提取网络中Conv4_3卷积层得到的特征图以及由目标检测分支中Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2卷积层得到的特征图作为所述基于结构融合的目标轮廓检测模型中类别预测器和先验框位置预测器的输入并得到先验框,先验框中包含了预测得到的目标物体的类别以及位置信息。同时在轮廓检测分支,将卷积层Conv5_3得到的特征图先通过网络层Max pooling 5进行池化操作,然后经过卷积层Conv5_4、Conv5_5、Conv5_6后得到的特征图经过一系列的上采样和反卷积操作得到长宽与输入图像相同的特征图,当前特征图经过反卷积层Deconv1_2后得到深度为1且长宽与输入图像相同的特征图,将此时的特征图作用于sigmoid函数后作为轮廓预测图输出。将目标检测分支中预测的目标物体类别和位置与定位框标签进行损失计算,将轮廓检测分支中预测得到的轮廓预测图与轮廓标签进行损失计算,并将两个分支的损失进行权重相加得到最后的总损失,最后利用梯度回传方法更新网络参数。当总损失不再下降或在某一预设范围内波动时结束训练,得到训练好的基于结构融合的目标轮廓检测模型。
在测试过程中,将测试集中的输入图像直接输入训练好的基于结构融合的目标轮廓检测模型中。其中,对于轮廓预测,将测试集中的输入图像直接输入该模型所述训练好的基于结构融合的目标轮廓检测模型中,将卷积层Conv5_3得到的特征图只作为轮廓检测分支的输入,而不作为目标检测分支的输入,由此得到轮廓预测图;对于目标位置和类别预测,将测试集中的输入图像放缩为固定大小后输入,将卷积层Conv5_3得到的特征图只作为目标检测分支的输入,而不作为轮廓检测分支的输入,由此得到目标物体的类别和位置预测。
本发明提出了一种基于结构融合的目标轮廓检测方法,包括以下步骤:
S1)建立基于结构融合的目标轮廓检测模型
所述基于结构融合的目标轮廓检测模型,在单阶段目标检测算法SSD的基础上,将SSD网络的特征提取网络中最后一层卷积层Conv5_3得到的尺寸为输入图像
Figure BDA0003666385920000021
的特征图作为轮廓检测分支的输入,在轮廓检测分支中,通过一系列反卷积和Unpooling层将该特征图还原到输入图像大小。
具体地,所述目标检测分支在特征提取网络VGG-16之后新增10个卷积层,并将由特征提取网络中Conv4_3卷积层得到的特征图,轮廓检测分支中Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2卷积层输出的特征图同时输入类别预测器和先验框位置预测器中进行预测得到先验框,先验框中含有目标物体的类别以及位置的预测。
所述轮廓检测分支的输入是SSD网络的特征提取网络中最后一层卷积层Conv5_3得到的特征图,通过网络层Max pooling 5和多个卷积层后,利用Unpooling层以及反卷积层的组合对该特征图进行逐步上采样直至其长和宽与输入图像相同,最后经过反卷积层Deconv1_2将该特征图的通道数降为1,并采用sigmoid函数对该特征图的像素值进行归一化处理得到轮廓预测图,该轮廓预测图中每个像素的像素值表示为该像素预测为轮廓的概率。
S2)计算目标检测分支损失
将Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2输出的特征图输入类别预测器和先验框位置预测器最后得到先验框,先验框记录了目标物体的类别以及位置的预测,将预测的先验框与物体的定位框标签进行损失计算,得到目标检测分支损失。
S3)计算轮廓检测分支损失
将轮廓检测分支得到的轮廓预测图与轮廓标签计算每个像素的损失,再对轮廓预测图中所有像素的损失求和得到最后的损失,得到轮廓检测分支损失。
S4)将步骤S2)和S3)得到的损失进行权重相加后,进行梯度回传并更新网络参数,重复步骤S2)和步骤S3)直至总损失不再下降或在某一范围内波动时结束训练,得到训练好的基于结构融合的目标轮廓检测模型。
S5)将测试集中待测试样本的输入图像输入经过步骤S4)得到的训练好的基于结构融合的目标轮廓检测模型中,得到待测试样本的预测结果。
本发明提出了将目标检测网络与轮廓检测网络通过共享基础网络的方式进行融合,得到了基于结构融合的目标轮廓检测模型。利用目标检测任务将网络注意力集中于物体信息的特征,在不增加各自分支网络参数的情况下提升了轮廓检测网络对无关边缘的抑制能力以及加强了对目标轮廓的检测精度。
附图说明
图1为本发明提出的基于结构融合的目标轮廓检测模型结构示意图。
具体实施方式
以下结合附图与附图标记对本发明的实施方式做更详细的说明,使熟悉本领域的技术人员在研读本说明后能据以实施。应当理解本例所描述的实施例仅以解释本发明,并不用与限定本发明。
本发明由两个阶段、6个步骤组成,其中第一阶段包括步骤1至5,第二阶段包括步骤6。
具体地,本发明提出的一种基于结构融合的目标轮廓检测方法包括如下步骤:
步骤1:获取数据集,数据集中的任意一个数据除了包括输入图像和记录输入图像中物体的定位框标签信息的文本外,还包括含有正确轮廓位置的轮廓标签图,将所述数据集按预设比例分为训练集和测试集。
步骤2:建立本发明基于结构融合的目标轮廓检测模型结构;
步骤3:计算目标检测分支损失;
步骤4:计算轮廓检测分支损失;
步骤5:将步骤3和步骤4得到的损失进行权重相加得到总损失,重复步3和步骤4,直到总损失不再下降或在某一范围内波动时结束训练,得到训练好的基于结构融合的目标轮廓检测模型。
步骤6:将训练好的基于结构融合的目标轮廓检测模型对测试数据进行轮廓预测。
其中步骤2建立本发明网络结构的具体方法为:在现有单阶段目标检测算法SSD的基础上,将SSD网络的特征提取网络中提取的尺寸为输入图片
Figure BDA0003666385920000041
的特征图作为轮廓检测分支的输入,以图1为例,将特征提取网络中最后一层卷积Conv5_3得到的特征图1作为轮廓检测分支的输入,该特征图1通过网络层Max pooling 5层进行池化操作后,经过卷积层Conv5_4、Conv5_5、Conv5_6后得到特征图2,利用Unpooling层以及反卷积层的组合对该特征图2进行逐步上采样最后得到长和宽与输入图像相同且深度为1的特征图3。将sigmoid函数作用于该特征图3后得到最后的轮廓预测图。
所述的Unpooling层通过对应Max pooling层记录的局部最大特征值信息进行上采样。具体的:Unpooling i′层(即第i′个Unpooling层)采用Max pooling i′层(即第i′个Max pool ing层)得到的局部最大特征值信息,其中i′=1,2,…,5。各Unpooling层输出特征图的尺寸变为对应Max pooling层输入特征图的尺寸,并在每个Unpooling层后进行反卷积操作进一步提取Unpooling层输出特征图的特征。
经过上述经过一系列Unpooling层以及反卷积层后得到长和宽与输入图像相同且深度为1的特征图4,并利用sigmoid函数对该特征图4的每一个像素值进行归一化处理得到轮廓预测图,该轮廓预测图中每个像素的像素值表示为该像素预测为轮廓的概率。
其中步骤3计算目标检测分支损失的具体做法为:
步骤3.1:计算单阶段目标检测分支损失,首先需要先对先验框与定位框标签进行匹配,匹配过程如下:
(a)将由Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2输出的特征图输入类别预测器和先验框位置预测器最后得到先验框,先验框中包含了网络对输入图像中物体位置和类别的预测信息。
(b)先验框与定位框标签进行匹配,匹配的原则有两个:1、对于输入图像中的每个定位框标签,与先验框进行交并比(IOU)计算,并将每个定位框标签分别与IOU最大的先验框匹配。2、对于剩余的未匹配的先验框,若先验框与某个定位框标签的IOU大于阈值0.5,那么该先验框也与这个定位框标签进行匹配。
(c)若将经过步骤(b)处理后与定位框标签匹配的先验框集合记为Pos,对于剩下没有与定位框标签匹配的先验框集合记为Neg,Pos中的先验框数量记为k,然后对Neg中先验框的类别置信度进行排序,选择置信度排名前3k的先验框,Pos中的k个先验框与从Neg中挑选出的3k个先验框一起,总共挑选出4k个先验框。
步骤3.2:计算单阶段目标检测算法SSD的目标检测分支损失,目标检测分支的损失函数包括两个部分,一是先验框的偏移量损失,另一个则是先验框的类别预测损失。对于先验框的偏移量损失函数为:
Figure BDA0003666385920000051
其中i表示先验框的序号,j表示定位框标签的序号,若第i个先验框与第j个定位框标签匹配(N表示Pos的元素总数,m表示上标m∈[cx,cy,w,h],例如[lcx,lcy,lw,lh]),则xij=1,否则xij=0。[lcx,lcy,lw,lh]是由所述基于结构融合的目标轮廓检测模型预测的先验框中心坐标的x分量、y分量以及长和宽的偏移量,其中lcx,lcy分别表示预测的先验框中心坐标的x分量和y分量,lw,lh分别表示预测的先验框长和宽的偏移量,
Figure BDA0003666385920000052
表示预测的第i个先验框的信息,
Figure BDA0003666385920000053
为定位框标签的编码值,具体的计算公式如下:
Figure BDA0003666385920000061
Figure BDA0003666385920000062
Figure BDA0003666385920000063
Figure BDA0003666385920000064
其中
Figure BDA0003666385920000065
分别表示第i个先验框的中心坐标的x分量和y分量以及长和宽,
Figure BDA0003666385920000066
分别表示第j个定位框标签的中心坐标的x分量和y分量以及长和宽,log(·)表示自然对数,而函数smoothL1(*)的具体形式为:
Figure BDA0003666385920000067
对于先验框的类别预测损失函数为:
Figure BDA0003666385920000068
其中
Figure BDA0003666385920000069
上式中i表示先验框的序号,j表示定位框标签的序号,p为该定位框标签所属的类别(p的取值从1开始到数据集中包含物体类别数目的值,0表示预测为背景,p从1开始是因为在Pos中只需要预测为某一物体的先验框)。若第i个先验框与第j个定位框标签匹配(预测为背景的框需要抛弃,这部分只计算先验框类别预测为物体的),则
Figure BDA00036663859200000610
否则
Figure BDA00036663859200000611
表示第i个先验框属于类别p的模型输出特征值,
Figure BDA00036663859200000612
表示第i个先验框属于类别p的概率,
Figure BDA00036663859200000613
则表示先验框中预测为背景的概率,
Figure BDA00036663859200000614
表示常数e的
Figure BDA00036663859200000615
次方。
最终目标检测分支的损失函数为:
Figure BDA00036663859200000616
其中N表示Pos的元素总数。
其中步骤4计算轮廓检测分支损失的具体做法为,将轮廓预测图中每个像素与轮廓标签图中的对应像素进行带权重的交叉熵损失计算,其中带权重的交叉熵损失函数为:
Figure BDA0003666385920000071
上式中Xi″和yi″分别表示轮廓预测图和轮廓标签图在像素i″处的输出概率和类别,δ是sigmoid函数,W表示将在所述基于结构融合的目标轮廓检测模型中学习的所有参数。
其中步骤5将步骤3和步骤4得到的损失进行权重相加得到总损失,重复步3和步骤4,直到总损失不再下降或在某一范围内波动时结束训练,得到训练好的基于结构融合的目标轮廓检测模型。
其中步骤6将测试集中待测试样本的输入图像输入经过步骤5后训练好的基于结构融合的目标轮廓检测模型中,对于轮廓预测,将待测试样本的输入图像直接输入该训练好的基于结构融合的目标轮廓检测模型中,将此时卷积层Conv5_3得到的特征图只作为轮廓检测分支的输入,而不作为目标检测分支的输入,由此得到待测试样本的轮廓预测图;对于目标位置和类别预测,将待测试样本的输入图像放缩为固定大小后输入所述训练好的基于结构融合的目标轮廓检测模型中,将卷积层Conv5_3当前得到的特征图只作为目标检测分支的输入,而不作为轮廓检测分支的输入,由此得到目标物体的类别和位置预测。
本发明提出了一种基于结构融合的目标轮廓检测方法,该方法中构建的基于结构融合的目标轮廓检测模型将目标检测算法SSD与轮廓检测算法CEDN通过共享基础网络的方式融合在一起,利用目标检测分支将注意力集中在目标物体这一特点,在未改变轮廓检测分支的网络复杂度的前提下提升了轮廓检测的检测精度。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (5)

1.一种基于结构融合的目标轮廓检测方法,其特征在于,该方法包括以下步骤:
S1)获取数据集,所述数据集中的任意一个数据除了包括输入图像和记录输入图像中物体的定位框标签信息的文本外,还包括含有正确轮廓位置的轮廓标签图,将所述数据集按预设比例分为训练集和测试集;
S2)建立基于结构融合的目标轮廓检测模型
构建基于结构融合的目标轮廓检测模型,该模型包括目标检测分支和轮廓检测分支,这两个分支共享特征提取网络,所述基于结构融合的目标轮廓检测模型在单阶段目标检测算法SSD的基础上,将SSD网络的特征提取网络中最后一层卷积层Conv5_3得到的尺寸为输入图像
Figure FDA0003666385910000011
的特征图1作为轮廓检测分支的输入,在轮廓检测分支中,通过一系列反卷积和Unpo oling层将该特征图1还原到输入图像大小;
具体地,所述目标检测分支在特征提取网络VGG-16之后新增10个卷积层,并将由特征提取网络中Conv4_3卷积层得到的特征图,以及轮廓检测分支中Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2卷积层输出的特征图同时输入所述基于结构融合的目标轮廓检测模型中的类别预测器和先验框位置预测器中进行预测得到先验框,先验框中含有目标物体的类别以及位置的预测;
所述轮廓检测分支的输入是SSD网络的特征提取网络中最后一层卷积层Conv5_3得到的特征图,该特征图通过网络层Max pooling 5和多个卷积层后,利用Unpooling层以及反卷积层的组合对该特征图进行逐步上采样直至其长和宽与输入图像相同,最后经过反卷积层Deconv1_2将该特征图的通道数降为1,并采用sigmoid函数对该特征图的像素值进行归一化处理得到轮廓预测图,该轮廓预测图中每个像素的像素值表示为该像素预测为轮廓的概率;
S3)计算目标检测分支损失
将目标检测分支预测得到的先验框与物体的定位框标签进行损失计算,得到目标检测分支损失;
S4)计算轮廓检测分支损失
将轮廓检测分支得到的轮廓预测图与轮廓标签图计算每个像素的损失,再对轮廓预测图中所有像素的损失求和得到最后的损失,得到轮廓检测分支损失;
S5)将步骤S3)得到的目标检测分支损失和步骤S4)得到的轮廓检测分支损失进行权重相加后得到总损失,并进行梯度回传更新网络参数,重复步骤S3)和步骤S4)直至总损失不再下降时结束训练,得到训练好的基于结构融合的目标轮廓检测模型;
S6)将测试集中待测试样本的输入图像输入经过步骤S5)得到的训练好的基于结构融合的目标轮廓检测模型中,得到待测试样本的预测结果。
2.根据权利要求1所述的基于结构融合的目标轮廓检测方法,其特征在于,所述计算目标检测分支损失具体包括:
S31)首先对先验框与定位框标签进行匹配,匹配过程如下:
S311)设定两个匹配原则:1、对于输入图像中的每个定位框标签,与先验框进行交并比IOU计算,并将每个定位框标签分别与IOU最大的先验框匹配;2、对于剩余的未匹配的先验框,若先验框与某个定位框标签的IOU大于预设阈值,那么该先验框也与这个定位框标签进行匹配;
S312)将经过步骤S311)处理后与定位框标签匹配的先验框集合记为Pos,对于剩下没有与定位框标签匹配的先验框集合记为Neg,Pos中的先验框数量记为k,然后对Neg中先验框的类别置信度进行排序,选择置信度排名前3k的先验框,Pos中的k个先验框与从Neg中挑选出的3k个先验框一起,总共挑选出4k个先验框;
S32)设置所述目标检测分支的损失函数包括两个部分,一是先验框的偏移量损失,另一个则是先验框的类别预测损失;
对于先验框的偏移量损失函数为:
Figure FDA0003666385910000021
其中i表示先验框的序号,j表示定位框标签的序号,若第i个先验框与第j个定位框标签匹配,则xij=1,否则xij=0;N表示Pos中的元素总数,m表示上标m∈[cx,cy,w,h],lcx,lcy分别表示所述基于结构融合的目标轮廓检测模型预测的先验框中心坐标的x分量和y分量,lw,lh分别表示所述基于结构融合的目标轮廓检测模型预测的先验框长和宽的偏移量,
Figure FDA0003666385910000025
表示预测的第i个先验框的信息,
Figure FDA0003666385910000022
为定位框标签的编码值,具体的计算公式如下:
Figure FDA0003666385910000023
Figure FDA0003666385910000024
Figure FDA0003666385910000031
Figure FDA0003666385910000032
其中
Figure FDA0003666385910000033
分别表示第i个先验框的中心坐标的x分量、y分量、先验框的长和宽,
Figure FDA0003666385910000034
分别表示第j个定位框标签的中心坐标的x分量、y分量以及定位框标签的长和宽,log(·)表示自然对数,函数smoothL1(*)的具体形式为:
Figure FDA0003666385910000035
对于先验框的类别预测损失函数为:
Figure FDA0003666385910000036
其中
Figure FDA0003666385910000037
其中,p为定位框标签所属的类别,p的取值从1开始到数据集中包含物体类别数目的值,p取0表示预测为背景,若第i个先验框与第j个定位框标签匹配,则
Figure FDA0003666385910000038
否则
Figure FDA0003666385910000039
Figure FDA00036663859100000310
表示第i个先验框属于类别p的模型输出特征值,
Figure FDA00036663859100000311
表示第i个先验框属于类别p的概率,
Figure FDA00036663859100000312
则表示先验框中预测为背景的概率,
Figure FDA00036663859100000313
表示常数e的
Figure FDA00036663859100000314
次方;
最终目标检测分支的损失函数为:
Figure FDA00036663859100000315
3.根据权利要求2所述的基于结构融合的目标轮廓检测方法,其特征在于,所述计算轮廓检测分支损失中将轮廓检测分支得到的轮廓预测图与轮廓标签图计算每个像素的损失具体为:
将轮廓预测图中每个像素与轮廓标签图中的对应像素进行带权重的交叉熵损失计算,其中带权重的交叉熵损失函数为:
Figure FDA0003666385910000041
上式中Xi″和yi″分别表示轮廓预测图和轮廓标签图在像素i″处的输出概率和类别,δ是sigmoid函数,W表示将在所述基于结构融合的目标轮廓检测模型中学习的所有网络参数。
4.根据权利要求3所述的基于结构融合的目标轮廓检测方法,其特征在于,所述步骤S6)具体为:对于轮廓预测,将待测试样本的输入图像直接输入所述训练好的基于结构融合的目标轮廓检测模型中,将卷积层Conv5_3当前得到的特征图只作为轮廓检测分支的输入,而不作为目标检测分支的输入,由此得到待测试样本的轮廓预测图;对于目标位置和类别预测,将待测试样本的输入图像放缩为固定大小后输入所述训练好的基于结构融合的目标轮廓检测模型中,将卷积层Conv5_3当前得到的特征图只作为目标检测分支的输入,而不作为轮廓检测分支的输入,由此得到目标物体的类别和位置预测。
5.根据权利要求4所述的基于结构融合的目标轮廓检测方法,其特征在于,所述步骤S311)中的预设阈值为0.5。
CN202210593111.2A 2022-05-27 2022-05-27 一种基于结构融合的目标轮廓检测方法 Withdrawn CN114998611A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210593111.2A CN114998611A (zh) 2022-05-27 2022-05-27 一种基于结构融合的目标轮廓检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210593111.2A CN114998611A (zh) 2022-05-27 2022-05-27 一种基于结构融合的目标轮廓检测方法

Publications (1)

Publication Number Publication Date
CN114998611A true CN114998611A (zh) 2022-09-02

Family

ID=83028642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210593111.2A Withdrawn CN114998611A (zh) 2022-05-27 2022-05-27 一种基于结构融合的目标轮廓检测方法

Country Status (1)

Country Link
CN (1) CN114998611A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115423832A (zh) * 2022-11-04 2022-12-02 珠海横琴圣澳云智科技有限公司 肺动脉分割模型构建方法、肺动脉分割方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115423832A (zh) * 2022-11-04 2022-12-02 珠海横琴圣澳云智科技有限公司 肺动脉分割模型构建方法、肺动脉分割方法和装置

Similar Documents

Publication Publication Date Title
CN113065558B (zh) 一种结合注意力机制的轻量级小目标检测方法
CN111639692B (zh) 一种基于注意力机制的阴影检测方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN111950453B (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN109684922B (zh) 一种基于卷积神经网络的多模型对成品菜的识别方法
CN111160407B (zh) 一种深度学习目标检测方法及系统
CN110728694B (zh) 一种基于持续学习的长时视觉目标跟踪方法
CN111798469A (zh) 基于深度卷积神经网络的数字图像小数据集语义分割方法
CN111753682A (zh) 一种基于目标检测算法的吊装区域动态监控方法
CN112580480A (zh) 一种高光谱遥感影像分类方法及装置
CN115019103A (zh) 基于坐标注意力群组优化的小样本目标检测方法
CN115187786A (zh) 一种基于旋转的CenterNet2目标检测方法
CN115937774A (zh) 一种基于特征融合和语义交互的安检违禁品检测方法
CN112597919A (zh) 基于YOLOv3剪枝网络和嵌入式开发板的实时药盒检测方法
CN116912796A (zh) 一种基于新型动态级联YOLOv8的自动驾驶目标识别方法及装置
CN111274964A (zh) 一种基于无人机视觉显著性分析水面污染物的检测方法
CN114998611A (zh) 一种基于结构融合的目标轮廓检测方法
CN115880660A (zh) 一种基于结构表征和全局注意力机制的轨道线检测方法和系统
CN113450321B (zh) 基于边缘检测的单阶段目标检测方法
CN111950586B (zh) 一种引入双向注意力的目标检测方法
CN115410089A (zh) 自适应局部上下文嵌入的光学遥感小尺度目标检测方法
CN115063831A (zh) 一种高性能行人检索与重识别方法及装置
Połap et al. Lightweight CNN based on Spatial Features for a Vehicular Damage Detection System
CN115797633B (zh) 一种遥感图像分割方法、系统、存储介质和电子设备
CN117152746B (zh) 一种基于yolov5网络的宫颈细胞分类参数获取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220902

WW01 Invention patent application withdrawn after publication