CN114998611A

CN114998611A - 一种基于结构融合的目标轮廓检测方法

Info

Publication number: CN114998611A
Application number: CN202210593111.2A
Authority: CN
Inventors: 桂盛霖; 简柯青
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-09-02

Abstract

本发明公开了一种基于结构融合的目标轮廓检测方法，该方法包括获取数据集、构建基于结构融合的目标轮廓检测模型、计算目标检测分支损失和轮廓检测分支损失、将这两种损失进行权重相加得到总损失，并得到训练好的基于结构融合的目标轮廓检测模型、对测试数据进行轮廓预测。本发明构建的基于结构融合的目标轮廓检测模型将目标检测算法SSD与轮廓检测算法CEDN通过共享基础网络的方式融合在一起，利用目标检测分支将注意力集中在目标物体这一特点，在不增加各自分支网络参数的情况下提升了轮廓检测网络对无关边缘的抑制能力以及加强了对目标轮廓的检测精度。

Description

一种基于结构融合的目标轮廓检测方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于结构融合的目标轮廓检测方法。

背景技术

在目标物体轮廓检测中，深度卷积神经网络通过对输入图像的全局和深度信息的利用，已经极大地提高了轮廓检测的精度，如J.Yang等人提出的CEDN(参见J.Yang,B.Price,S.Cohen,et al.“Object contour detection with a fully convolutionalencoderdecoder networ k[C]”.Proceedings of the IEEE conference on computervision and pattern recognition,2016,193-202.)利用浅层特征中的定位信息，深层特征中的轮廓信息，将VGG-16的五个模块构成编码器，经由编码器得到最深层的特征图，通过Unpooling的方法结合浅层特征中的轮廓位置信息，一步一步通过上采样还原为原图尺寸，最后作用于sigmoid函数作为输出得到轮廓预测。

在目标检测技术中，基于锚框机制的单阶段检测算法在速度上和精度上都有较好的表现，如Liu等人提出的单阶段目标检测算法SSD(参见Liu W,Anguelov D,Erhan D,Szegedy C,Reed S,Fu C Y and Berg A C.2016.SSD:single shot MultiBox detector//Proceedings of the 14th European Conference on Computer Vision.Amsterdam:Springer:21-37)，在不同尺度的特征图上设计了大小不一的密集先验框，以此作为预测框的基准，利用不同尺度的特征图来检测大小不同的物体，增强了检测精度，并通过卷积预测的方法代替全连接层，加快了检测速度。

轮廓检测算法虽然已经得到了快速的发展，但由于一张图片中目标物体的轮廓信息非常有限，而噪声干扰很多，所以如何将算法聚焦于物体，并进一步消除物体内部的纹理噪声一直是轮廓检测领域中最重要的问题之一。目标检测算法需要找到图像中特定的目标，并对目标进行定位和分类，从而将目标检测算法与物体轮廓检测算法结合，利用目标检测算法提取的特征将聚焦于目标物体这一特点，消除背景信息干扰，可以让物体轮廓识别算法更好地检测目标物体的轮廓。将目标检测算法与轮廓检测算法结合在一起，进而提升轮廓检测精度是本发明要解决的问题。

本发明被广泛应用于需要精确识别物体位置的领域中，例如机舱门检测等。

发明内容

针对上述问题，本发明融合了在背景技术中提到的的轮廓检测算法和目标检测算法，首先构建了一种基于结构融合的目标轮廓检测模型，该模型包括目标检测分支和轮廓检测分支，这两个分支共享特征提取网络。该模型使用到的数据集中的数据除了包括输入图像和记录输入图像中物体的定位框标签信息的文本外，还包括含有正确轮廓位置的轮廓标签图，将所述数据集按预设比例分为训练集和测试集。

训练所述基于结构融合的目标轮廓检测模型时将训练集中的输入图像和轮廓标签图的大小放缩到固定尺寸，将输入图像输入特征提取网络，由特征提取网络的最后一层卷积层Conv5_3得到的特征图作为目标检测分支和轮廓检测分支的输入，该特征图在目标检测分支经过一系列卷积操作之后得到若干特征图，最后通过由特征提取网络中Conv4_3卷积层得到的特征图以及由目标检测分支中Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2卷积层得到的特征图作为所述基于结构融合的目标轮廓检测模型中类别预测器和先验框位置预测器的输入并得到先验框，先验框中包含了预测得到的目标物体的类别以及位置信息。同时在轮廓检测分支，将卷积层Conv5_3得到的特征图先通过网络层Max pooling 5进行池化操作，然后经过卷积层Conv5_4、Conv5_5、Conv5_6后得到的特征图经过一系列的上采样和反卷积操作得到长宽与输入图像相同的特征图，当前特征图经过反卷积层Deconv1_2后得到深度为1且长宽与输入图像相同的特征图，将此时的特征图作用于sigmoid函数后作为轮廓预测图输出。将目标检测分支中预测的目标物体类别和位置与定位框标签进行损失计算，将轮廓检测分支中预测得到的轮廓预测图与轮廓标签进行损失计算，并将两个分支的损失进行权重相加得到最后的总损失，最后利用梯度回传方法更新网络参数。当总损失不再下降或在某一预设范围内波动时结束训练，得到训练好的基于结构融合的目标轮廓检测模型。

在测试过程中，将测试集中的输入图像直接输入训练好的基于结构融合的目标轮廓检测模型中。其中，对于轮廓预测，将测试集中的输入图像直接输入该模型所述训练好的基于结构融合的目标轮廓检测模型中，将卷积层Conv5_3得到的特征图只作为轮廓检测分支的输入，而不作为目标检测分支的输入，由此得到轮廓预测图；对于目标位置和类别预测，将测试集中的输入图像放缩为固定大小后输入，将卷积层Conv5_3得到的特征图只作为目标检测分支的输入，而不作为轮廓检测分支的输入，由此得到目标物体的类别和位置预测。

本发明提出了一种基于结构融合的目标轮廓检测方法，包括以下步骤：

S1)建立基于结构融合的目标轮廓检测模型

所述基于结构融合的目标轮廓检测模型，在单阶段目标检测算法SSD的基础上，将SSD网络的特征提取网络中最后一层卷积层Conv5_3得到的尺寸为输入图像

的特征图作为轮廓检测分支的输入，在轮廓检测分支中，通过一系列反卷积和Unpooling层将该特征图还原到输入图像大小。

具体地，所述目标检测分支在特征提取网络VGG-16之后新增10个卷积层，并将由特征提取网络中Conv4_3卷积层得到的特征图，轮廓检测分支中Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2卷积层输出的特征图同时输入类别预测器和先验框位置预测器中进行预测得到先验框，先验框中含有目标物体的类别以及位置的预测。

所述轮廓检测分支的输入是SSD网络的特征提取网络中最后一层卷积层Conv5_3得到的特征图，通过网络层Max pooling 5和多个卷积层后，利用Unpooling层以及反卷积层的组合对该特征图进行逐步上采样直至其长和宽与输入图像相同，最后经过反卷积层Deconv1_2将该特征图的通道数降为1，并采用sigmoid函数对该特征图的像素值进行归一化处理得到轮廓预测图，该轮廓预测图中每个像素的像素值表示为该像素预测为轮廓的概率。

S2)计算目标检测分支损失

将Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2输出的特征图输入类别预测器和先验框位置预测器最后得到先验框，先验框记录了目标物体的类别以及位置的预测，将预测的先验框与物体的定位框标签进行损失计算，得到目标检测分支损失。

S3)计算轮廓检测分支损失

将轮廓检测分支得到的轮廓预测图与轮廓标签计算每个像素的损失，再对轮廓预测图中所有像素的损失求和得到最后的损失，得到轮廓检测分支损失。

S4)将步骤S2)和S3)得到的损失进行权重相加后，进行梯度回传并更新网络参数，重复步骤S2)和步骤S3)直至总损失不再下降或在某一范围内波动时结束训练，得到训练好的基于结构融合的目标轮廓检测模型。

S5)将测试集中待测试样本的输入图像输入经过步骤S4)得到的训练好的基于结构融合的目标轮廓检测模型中，得到待测试样本的预测结果。

本发明提出了将目标检测网络与轮廓检测网络通过共享基础网络的方式进行融合，得到了基于结构融合的目标轮廓检测模型。利用目标检测任务将网络注意力集中于物体信息的特征，在不增加各自分支网络参数的情况下提升了轮廓检测网络对无关边缘的抑制能力以及加强了对目标轮廓的检测精度。

附图说明

图1为本发明提出的基于结构融合的目标轮廓检测模型结构示意图。

具体实施方式

以下结合附图与附图标记对本发明的实施方式做更详细的说明，使熟悉本领域的技术人员在研读本说明后能据以实施。应当理解本例所描述的实施例仅以解释本发明，并不用与限定本发明。

本发明由两个阶段、6个步骤组成，其中第一阶段包括步骤1至5，第二阶段包括步骤6。

具体地，本发明提出的一种基于结构融合的目标轮廓检测方法包括如下步骤：

步骤1：获取数据集，数据集中的任意一个数据除了包括输入图像和记录输入图像中物体的定位框标签信息的文本外，还包括含有正确轮廓位置的轮廓标签图，将所述数据集按预设比例分为训练集和测试集。

步骤2：建立本发明基于结构融合的目标轮廓检测模型结构；

步骤3：计算目标检测分支损失；

步骤4：计算轮廓检测分支损失；

步骤5：将步骤3和步骤4得到的损失进行权重相加得到总损失，重复步3和步骤4，直到总损失不再下降或在某一范围内波动时结束训练，得到训练好的基于结构融合的目标轮廓检测模型。

步骤6：将训练好的基于结构融合的目标轮廓检测模型对测试数据进行轮廓预测。

其中步骤2建立本发明网络结构的具体方法为：在现有单阶段目标检测算法SSD的基础上，将SSD网络的特征提取网络中提取的尺寸为输入图片

的特征图作为轮廓检测分支的输入，以图1为例，将特征提取网络中最后一层卷积Conv5_3得到的特征图1作为轮廓检测分支的输入，该特征图1通过网络层Max pooling 5层进行池化操作后，经过卷积层Conv5_4、Conv5_5、Conv5_6后得到特征图2，利用Unpooling层以及反卷积层的组合对该特征图2进行逐步上采样最后得到长和宽与输入图像相同且深度为1的特征图3。将sigmoid函数作用于该特征图3后得到最后的轮廓预测图。

所述的Unpooling层通过对应Max pooling层记录的局部最大特征值信息进行上采样。具体的：Unpooling i′层(即第i′个Unpooling层)采用Max pooling i′层(即第i′个Max pool ing层)得到的局部最大特征值信息，其中i′＝1,2,…,5。各Unpooling层输出特征图的尺寸变为对应Max pooling层输入特征图的尺寸，并在每个Unpooling层后进行反卷积操作进一步提取Unpooling层输出特征图的特征。

经过上述经过一系列Unpooling层以及反卷积层后得到长和宽与输入图像相同且深度为1的特征图4，并利用sigmoid函数对该特征图4的每一个像素值进行归一化处理得到轮廓预测图，该轮廓预测图中每个像素的像素值表示为该像素预测为轮廓的概率。

其中步骤3计算目标检测分支损失的具体做法为：

步骤3.1：计算单阶段目标检测分支损失，首先需要先对先验框与定位框标签进行匹配，匹配过程如下：

(a)将由Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2输出的特征图输入类别预测器和先验框位置预测器最后得到先验框，先验框中包含了网络对输入图像中物体位置和类别的预测信息。

(b)先验框与定位框标签进行匹配，匹配的原则有两个：1、对于输入图像中的每个定位框标签，与先验框进行交并比(IOU)计算，并将每个定位框标签分别与IOU最大的先验框匹配。2、对于剩余的未匹配的先验框，若先验框与某个定位框标签的IOU大于阈值0.5，那么该先验框也与这个定位框标签进行匹配。

(c)若将经过步骤(b)处理后与定位框标签匹配的先验框集合记为Pos，对于剩下没有与定位框标签匹配的先验框集合记为Neg，Pos中的先验框数量记为k，然后对Neg中先验框的类别置信度进行排序，选择置信度排名前3k的先验框，Pos中的k个先验框与从Neg中挑选出的3k个先验框一起，总共挑选出4k个先验框。

步骤3.2：计算单阶段目标检测算法SSD的目标检测分支损失，目标检测分支的损失函数包括两个部分，一是先验框的偏移量损失，另一个则是先验框的类别预测损失。对于先验框的偏移量损失函数为：

其中i表示先验框的序号，j表示定位框标签的序号，若第i个先验框与第j个定位框标签匹配(N表示Pos的元素总数，m表示上标m∈[cx,cy,w,h]，例如[l^cx,l^cy,l^w,l^h])，则x_ij＝1，否则x_ij＝0。[l^cx,l^cy,l^w,l^h]是由所述基于结构融合的目标轮廓检测模型预测的先验框中心坐标的x分量、y分量以及长和宽的偏移量，其中l^cx,l^cy分别表示预测的先验框中心坐标的x分量和y分量，l^w,l^h分别表示预测的先验框长和宽的偏移量，

表示预测的第i个先验框的信息，

为定位框标签的编码值，具体的计算公式如下：

其中

分别表示第i个先验框的中心坐标的x分量和y分量以及长和宽，

分别表示第j个定位框标签的中心坐标的x分量和y分量以及长和宽，log(·)表示自然对数，而函数smooth_L1(*)的具体形式为：

对于先验框的类别预测损失函数为：

其中

上式中i表示先验框的序号，j表示定位框标签的序号，p为该定位框标签所属的类别(p的取值从1开始到数据集中包含物体类别数目的值，0表示预测为背景，p从1开始是因为在Pos中只需要预测为某一物体的先验框)。若第i个先验框与第j个定位框标签匹配(预测为背景的框需要抛弃，这部分只计算先验框类别预测为物体的)，则

否则

表示第i个先验框属于类别p的模型输出特征值，

表示第i个先验框属于类别p的概率，

则表示先验框中预测为背景的概率，

表示常数e的

次方。

最终目标检测分支的损失函数为：

其中N表示Pos的元素总数。

其中步骤4计算轮廓检测分支损失的具体做法为，将轮廓预测图中每个像素与轮廓标签图中的对应像素进行带权重的交叉熵损失计算，其中带权重的交叉熵损失函数为：

上式中X_i″和y_i″分别表示轮廓预测图和轮廓标签图在像素i″处的输出概率和类别，δ是sigmoid函数，W表示将在所述基于结构融合的目标轮廓检测模型中学习的所有参数。

其中步骤5将步骤3和步骤4得到的损失进行权重相加得到总损失，重复步3和步骤4，直到总损失不再下降或在某一范围内波动时结束训练，得到训练好的基于结构融合的目标轮廓检测模型。

其中步骤6将测试集中待测试样本的输入图像输入经过步骤5后训练好的基于结构融合的目标轮廓检测模型中，对于轮廓预测，将待测试样本的输入图像直接输入该训练好的基于结构融合的目标轮廓检测模型中，将此时卷积层Conv5_3得到的特征图只作为轮廓检测分支的输入，而不作为目标检测分支的输入，由此得到待测试样本的轮廓预测图；对于目标位置和类别预测，将待测试样本的输入图像放缩为固定大小后输入所述训练好的基于结构融合的目标轮廓检测模型中，将卷积层Conv5_3当前得到的特征图只作为目标检测分支的输入，而不作为轮廓检测分支的输入，由此得到目标物体的类别和位置预测。

本发明提出了一种基于结构融合的目标轮廓检测方法，该方法中构建的基于结构融合的目标轮廓检测模型将目标检测算法SSD与轮廓检测算法CEDN通过共享基础网络的方式融合在一起，利用目标检测分支将注意力集中在目标物体这一特点，在未改变轮廓检测分支的网络复杂度的前提下提升了轮廓检测的检测精度。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于结构融合的目标轮廓检测方法，其特征在于，该方法包括以下步骤：

S1)获取数据集，所述数据集中的任意一个数据除了包括输入图像和记录输入图像中物体的定位框标签信息的文本外，还包括含有正确轮廓位置的轮廓标签图，将所述数据集按预设比例分为训练集和测试集；

S2)建立基于结构融合的目标轮廓检测模型

构建基于结构融合的目标轮廓检测模型，该模型包括目标检测分支和轮廓检测分支，这两个分支共享特征提取网络，所述基于结构融合的目标轮廓检测模型在单阶段目标检测算法SSD的基础上，将SSD网络的特征提取网络中最后一层卷积层Conv5_3得到的尺寸为输入图像

的特征图1作为轮廓检测分支的输入，在轮廓检测分支中，通过一系列反卷积和Unpo oling层将该特征图1还原到输入图像大小；

具体地，所述目标检测分支在特征提取网络VGG-16之后新增10个卷积层，并将由特征提取网络中Conv4_3卷积层得到的特征图，以及轮廓检测分支中Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2卷积层输出的特征图同时输入所述基于结构融合的目标轮廓检测模型中的类别预测器和先验框位置预测器中进行预测得到先验框，先验框中含有目标物体的类别以及位置的预测；

所述轮廓检测分支的输入是SSD网络的特征提取网络中最后一层卷积层Conv5_3得到的特征图，该特征图通过网络层Max pooling 5和多个卷积层后，利用Unpooling层以及反卷积层的组合对该特征图进行逐步上采样直至其长和宽与输入图像相同，最后经过反卷积层Deconv1_2将该特征图的通道数降为1，并采用sigmoid函数对该特征图的像素值进行归一化处理得到轮廓预测图，该轮廓预测图中每个像素的像素值表示为该像素预测为轮廓的概率；

S3)计算目标检测分支损失

将目标检测分支预测得到的先验框与物体的定位框标签进行损失计算，得到目标检测分支损失；

S4)计算轮廓检测分支损失

将轮廓检测分支得到的轮廓预测图与轮廓标签图计算每个像素的损失，再对轮廓预测图中所有像素的损失求和得到最后的损失，得到轮廓检测分支损失；

S5)将步骤S3)得到的目标检测分支损失和步骤S4)得到的轮廓检测分支损失进行权重相加后得到总损失，并进行梯度回传更新网络参数，重复步骤S3)和步骤S4)直至总损失不再下降时结束训练，得到训练好的基于结构融合的目标轮廓检测模型；

S6)将测试集中待测试样本的输入图像输入经过步骤S5)得到的训练好的基于结构融合的目标轮廓检测模型中，得到待测试样本的预测结果。

2.根据权利要求1所述的基于结构融合的目标轮廓检测方法，其特征在于，所述计算目标检测分支损失具体包括：

S31)首先对先验框与定位框标签进行匹配，匹配过程如下：

S311)设定两个匹配原则：1、对于输入图像中的每个定位框标签，与先验框进行交并比IOU计算，并将每个定位框标签分别与IOU最大的先验框匹配；2、对于剩余的未匹配的先验框，若先验框与某个定位框标签的IOU大于预设阈值，那么该先验框也与这个定位框标签进行匹配；

S312)将经过步骤S311)处理后与定位框标签匹配的先验框集合记为Pos，对于剩下没有与定位框标签匹配的先验框集合记为Neg，Pos中的先验框数量记为k，然后对Neg中先验框的类别置信度进行排序，选择置信度排名前3k的先验框，Pos中的k个先验框与从Neg中挑选出的3k个先验框一起，总共挑选出4k个先验框；

S32)设置所述目标检测分支的损失函数包括两个部分，一是先验框的偏移量损失，另一个则是先验框的类别预测损失；

对于先验框的偏移量损失函数为：

其中i表示先验框的序号，j表示定位框标签的序号，若第i个先验框与第j个定位框标签匹配，则x_ij＝1，否则x_ij＝0；N表示Pos中的元素总数，m表示上标m∈[cx,cy,w,h]，l^cx,l^cy分别表示所述基于结构融合的目标轮廓检测模型预测的先验框中心坐标的x分量和y分量，l^w,l^h分别表示所述基于结构融合的目标轮廓检测模型预测的先验框长和宽的偏移量，

表示预测的第i个先验框的信息，

为定位框标签的编码值，具体的计算公式如下：

其中

分别表示第i个先验框的中心坐标的x分量、y分量、先验框的长和宽，

分别表示第j个定位框标签的中心坐标的x分量、y分量以及定位框标签的长和宽，log(·)表示自然对数，函数smooth_L1(*)的具体形式为：

对于先验框的类别预测损失函数为：

其中

其中，p为定位框标签所属的类别，p的取值从1开始到数据集中包含物体类别数目的值，p取0表示预测为背景，若第i个先验框与第j个定位框标签匹配，则

否则

表示第i个先验框属于类别p的模型输出特征值，

表示第i个先验框属于类别p的概率，

则表示先验框中预测为背景的概率，

表示常数e的

次方；

最终目标检测分支的损失函数为：

3.根据权利要求2所述的基于结构融合的目标轮廓检测方法，其特征在于，所述计算轮廓检测分支损失中将轮廓检测分支得到的轮廓预测图与轮廓标签图计算每个像素的损失具体为：

将轮廓预测图中每个像素与轮廓标签图中的对应像素进行带权重的交叉熵损失计算，其中带权重的交叉熵损失函数为：

上式中X_i″和y_i″分别表示轮廓预测图和轮廓标签图在像素i″处的输出概率和类别，δ是sigmoid函数，W表示将在所述基于结构融合的目标轮廓检测模型中学习的所有网络参数。

4.根据权利要求3所述的基于结构融合的目标轮廓检测方法，其特征在于，所述步骤S6)具体为：对于轮廓预测，将待测试样本的输入图像直接输入所述训练好的基于结构融合的目标轮廓检测模型中，将卷积层Conv5_3当前得到的特征图只作为轮廓检测分支的输入，而不作为目标检测分支的输入，由此得到待测试样本的轮廓预测图；对于目标位置和类别预测，将待测试样本的输入图像放缩为固定大小后输入所述训练好的基于结构融合的目标轮廓检测模型中，将卷积层Conv5_3当前得到的特征图只作为目标检测分支的输入，而不作为轮廓检测分支的输入，由此得到目标物体的类别和位置预测。

5.根据权利要求4所述的基于结构融合的目标轮廓检测方法，其特征在于，所述步骤S311)中的预设阈值为0.5。