CN113011443B

CN113011443B - 一种基于关键点的目标检测的特征融合方法

Info

Publication number: CN113011443B
Application number: CN202110443624.0A
Authority: CN
Inventors: 匡平; 周阳
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2022-06-03
Anticipated expiration: 2041-04-23
Also published as: CN113011443A

Abstract

本发明公开了一种基于关键点的目标检测的特征融合方法，主要解决现有方法不能有效融合高层的语义信息和低层的位置信息、对小目标的检测效果不佳的问题。该方法包括特征提取模块、特征融合模块、热力图生成模块，后处理模块；其中，所述特征融合模块包括特征相加模块和特征拼接模块。通过上述设计，本发明通过特征相加模块和特征拼接模块在基于关键点的目标检测中将高层特征的语义信息与低层特征的位置信息有效进行融合，使得图像的多层特征图通过自顶向下和自底向上的连接能够很好地融合不同尺度的信息，极大增强特征表达能力。因此，适宜推广应用。

Description

一种基于关键点的目标检测的特征融合方法

技术领域

本发明涉及目标检测算法技术领域，具体地说，是涉及一种基于关键点的目标检测的特征融合方法。

背景技术

目标检测的任务是找出图像中所有感兴趣的目标，确定其位置与大小。目前基于深度学习的目标检测算法主要分为双阶段和单阶段算法。双阶段检测算法分两步完成，首先获取一系列的候选区域，然后对候选区域进行分类和坐标回归，如RCNN系列。单阶段算法则是省略了获取候选区域这一步骤，直接对预先设定的锚框进行回归和定位，如YOLO，SSD等。他们的共同点是都需要预先定义锚框，典型的做法是通过特征金字塔得到多个不同分辨率的特征图，然后在每个特征图上设置多个不同比例和大小的锚框，然而锚框需要根据数据集中目标的分布手动设置，如果设置不合理会极大影响检测效果。

基于关键点的方法是目标检测中相对较新的范例，消除了对锚框的需求，采用编码解码的模式，只需要使用解码器最后一层特征图进行检测。通常是将输入图像输入到骨干网络得到缩小32倍的特征图，然后再将其上采样到相对于输入图像缩小4倍的特征图。其中上采样方法可以是直接反卷积扩大特征图的分辨率，或者通过特征金字塔使用双线性插值的方式扩大特征图的分辨率，将其与骨干网络提取的特征中相同分辨率的特征对应元素相加，最终得到一个相对于输入图像缩小4倍特征图用于检测。但是该方法存在如下缺陷：

(1)特征金字塔适用于基于锚框的目标检测方法，这类方法可以充分利用特征金字塔得到的多个不同分辨率的特征图。但是基于关键点的目标检测方法只使用了一层特征图，现有方法不能有效融合高层的语义信息和低层的位置信息得到一个同时具有丰富语义信息和位置信息的特征图。

(2)最后用于检测的特征图的分辨率为输入图像的四分之一，对小目标而言缩小4倍后在特征图中的信息已经微乎其微，导致小目标的检测效果不尽如人意。

发明内容

本发明的目的在于提供一种基于关键点的目标检测的特征融合方法，主要解决现有方法不能有效融合高层的语义信息和低层的位置信息、对小目标的检测效果不佳的问题。

为实现上述目的，本发明采用的技术方案如下：

一种基于关键点的目标检测的特征融合方法，包括特征提取模块、特征融合模块、热力图生成模块，后处理模块；

所述特征融合模块包括：

特征相加模块：用于将输入该模块的两个特征图缩放到相同的分辨率和通道数，并将缩放后的两个特征图的对应元素相加；

特征拼接模块：用于将输入该模块的两个或多个特征图缩放到相同的分辨率，但是通道数可以不同，然后将缩放后的两个特征图的通道维度叠加起来，并通过1*1卷积整合通道；

具体实现步骤如下：

(S1)将待检测的图片输入到特征提取模块，得到多个不同分辨率的第一特征图；

(S2)将得到的第一特征图输入到特征融合模块，通过特征融合模块将高层特征的语义信息与低层特征的位置信息有效融合，得到一个同时包含丰富的语义信息和位置信息的第二特征图；

(S3)将第二特征图输入到热力图生成模块同时结合特征融合模块拼接第一特征图中具有丰富位置信息的特征图，得到三个分别代表目标的位置，目标的大小和目标的偏移的热力图；

(S4)将三个热力图输入到后处理模块，输出图片中所有目标的检测框。

进一步地，在步骤(S1)中，输入分辨率为L*W*3的图像经过特征提取模块的多轮卷积后得到第零层特征C₁、C₂、C₃、C₄、C₅，其分辨率分别为L/2*W/2*64，L/4*W/4*256，L/8*W/8*512，L/16*W/16*1024，L/32*W/32*2048；其中，L代表图像的长，W代表图像的宽。

进一步地，在步骤(S2)中，所述特征融合模块内包括了特征个数随着层数的增加逐层减少一个的第一层特征P_{i_1}，第二层特征P_{i_2}，第三层特征P_{i_3}，第四层特征P_{i_4}；其中，2≤i≤4，第四层特征只有一个，即为第二特征图，其分辨率为L/4*W/4*64。

进一步地，在步骤(S2)中，所述第一层特征P_{i_1}通过特征融合模块中的特征相加模块自顶向下得到，即

P_{i_1}＝deconv3(P_{i+1_1})+conv1(C_i) 2≤i≤4；

其中，P_{i+1_1}表示自顶向下的低分辨率特征图，C_i表示横向连接的来自特征提取网络的高分辨率特征图，deconv3表示3*3的转置卷积，conv1表示1*1的卷积，使用conv1和deconv3保持要融合的两个特征图的长宽和通道数完全相同，+conv3(C_i)中的+号表示将两个特征图对应位置的原始值相加。

进一步地，在步骤(S2)中，所述第二到四层特征P_{i_j}用公式描述为：

P_{i_j}＝conv1(concat(deconv3(P_{i+1_j-1})，P_{i_j-1}，conv3(P_{i-1_j})，C_i))2≤i，j≤4；

其中，P_{i+1_j-1}表示自顶向下的特征图，P_{i_j-1}表示自底向上的特征图，P_{i-1_j}表示前一层的中间特征图，C_i表示跨接的特征提取模块中的原始特征图，conv3表示3*3的卷积，用于将自底向上的大分辨率的特征图缩小一倍，而deconv3表示3*3的转置卷积，用于将自顶向下的小分辨率特征图放大一倍，使用conv3和deconv3保持要融合的多个特征图的长宽相同，但是通道数可以不同，concat表示特征拼接，用于将多个分辨率相同的特征图层叠在一起。conv1表示1*1的卷积，用于对拼接后的特征图在通道上进行整合；第四层的特征即为特征融合模块输出的第二特征图。

进一步地，在步骤(S3)中，第二特征图分别进行3次独立卷积得到代表目标出现的位置和概率的hm特征图、代表目标的长宽的wh特征图、代表目标中心点的偏移量reg特征图。

进一步地，在步骤(S4)中，所述后处理模块对步骤(S3)中输出的特征图输出所有检测目标的检测框(x₁，y₁，x₂，y₂，score)；其中，x₁，y₁为检测目标左上角的位置，x₂，y₂为检测目标右下角的位置，score为检测目标的置信度。

与现有技术相比，本发明具有以下有益效果：

(1)本发明的方法在进行图像处理时，通过特征相加模块和特征拼接模块在基于关键点的目标检测中将高层特征的语义信息与低层特征的位置信息有效进行融合，使得图像的多层特征图通过自顶向下和自底向上的连接能够很好地融合不同尺度的信息，极大增强特征表达能力。

(2)本发明在在特征融合模块输出的丰富语义信息和位置信息的特征图的基础上，提升了特征图的分辨率并且拼接了特征提取模块中具有丰富位置信息的特征图C1，进一步增强了对小目标的特征表达能力，有效解决了小目标检测准确率低的问题。

附图说明

图1为本发明方法的流程示意图。

图2为本发明-实施例中图像融合示意图。

具体实施方式

下面结合附图说明和实施例对本发明作进一步说明，本发明的方式包括但不仅限于以下实施例。

实施例

如图1、2所示，本发明公开的一种基于关键点的目标检测的特征融合方法，包括特征提取模块、特征融合模块、热力图生成模块，后处理模块。

具体实现步骤如下：

首先，将待检测的图片输入到特征提取模块，得到多个不同分辨率的第一特征图。所述特征提取模块为骨干网络ResNet50，也可以替换为其他网络例如vgg，mobilenet等。假设输入图像的分辨率为L*W*3，其中，L代表图像的长，W代表图像的宽。输入图像经过特征提取模块的多轮卷积后，得到5个特征图，称为第零层特征C₁、C₂、C₃、C₄、C₅，其分辨率分别为L/2*W/2*64，L/4*W/4*256，L/8*W/8*512，L/16*W/16*1024，L/32*W/32*2048。

随后将得到的第一特征图输入到特征融合模块，所述特征融合模块是一种特征金字塔结构，将其命名为高分辨率特征金字塔(HFPN)，它包含多条自顶向下的路径和自底向上的路径，如图1所示。将P_{i_1}称为第一层特征，将P_{i_2}称为第二层特征，将P_{i_3}称为第三层特征，将P_{i_4}称为第四层特征。特征个数随着层数的增加逐层减少一个，第四层只有一个特征，即为最终所需要的第二特征图，该特征图的分辨率为L/4*W/4*64。

其中特征融合模块包括了两个模块：特征相加模块和特征拼接模块。

特征相加模块用于将输入该模块的两个特征图缩放到相同的分辨率和通道数，然后将他们对应元素相加，该模块只用于自顶向下得到第一层特征。

低分辨率的特征图为P_{i+1_1}，高分辨率的特征图为C_i，P_{i+1_1}通过3*3反卷积将分辨率扩大一倍，同时C_i通过1*1卷积压缩其通道数，使他们的分辨率和通道数保持相同，然后将他们对应位置的元素相加得到输出特征P_{i_1}。可用以下公式进行描述：

P_{i_1}＝deconv3(P_{i+1_1})+conv1(C_i) 2≤i≤4；

特征拼接模块用于将输入该模块的两个或多个特征图缩放到相同的分辨率，但是通道数可以不同，然后将他们在通道维度叠加起来，通过1*1卷积整合通道，该模块用于自底向上得到第二、三、四层特征。其中图中弯曲的箭头表示横向连接，如果需要获得的特征图是每层中最上面的特征(如P_{4_2}，P_{3_3}，P_{2_4})，则需要通过横向连接将特征提取网络得到的对应分辨率的特征图拼接进来。可用以下公式进行描述：

其中，P_{i+1_j-1}表示自顶向下的特征图，P_{i_j-1}表示自底向上的特征图，P_{i-1_j}表示前一层的中间特征图，C_i表示跨接的特征提取模块中的原始特征图，conv3表示3*3的卷积，用于将自底向上的大分辨率的特征图缩小一倍，而deconv3表示3*3的转置卷积，用于将自顶向下的小分辨率特征图放大一倍，使用conv3和deconv3保持要融合的多个特征图的长宽相同，但是通道数可以不同，concat表示特征拼接，用于将多个分辨率相同的特征图层叠在一起。conv1表示1*1的卷积，用于对拼接后的特征图在通道上进行整合。其中，其中C_i和conv3(P_{i-1_j})根据不同情况可能为空，如P_{2_2}由于在最底层没有自底向上的conv3(P_{i-1_j})，并且由于不是最顶层特征，所以C_i为空，如图2中具体的网络结构所示。第四层的特征即为特征融合模块输出的第二特征图。

具体而言：

第一层特征P_{i_1}(2≤i≤5)通过特征相加模块自顶向下得到。C₅经过1*1卷积，缩减通道数为256，得到第二层特征P_{5_2}。C₄经过1*1卷积，缩减通道数为256，同时P_{5_2}经过3*3反卷积，扩大一倍的分辨率，此时这两个特征图的分辨率和通道数完全相同，将他们对应元素相加，得到新的特征图P_{4_1}。P_{3_1}与P_{2_1}同理可得。

第二层特征P_{i_2}(2≤i≤4)通过特征相加模块自底向上得到。其中P_{2_2}不需要自底向上的特征，它由第一层特征P_{3_1}通过3*3反卷积和第一层特征P_{2_1}拼接，然后通过一个1*1卷积压缩通道数到128得到。P_{3_2}则不仅需要第一层特征，还需要拼接自底向上的P_{2_2}。P_{4_2}则额外需要再拼接来自特征提取网络的特征C₄。

第三次特征P_{i_3}(2≤i≤3)和第四层特征P_{2_4}也同理可得。其中第四层只有一个特征图P_{2_4}，该特征即为HFPN的输出的第二特征图。

HFPN的输出的第二特征图输入到热力图生成模块同时结合特征融合模块拼接第一特征图中具有丰富位置信息的特征图，得到三个分别代表目标的位置，目标的大小和目标的偏移的热力图；即第二特征图分别进行3次独立卷积得到代表目标出现的位置和概率的hm特征图、代表目标的长宽的wh特征图、代表目标中心点的偏移量reg特征图。

最后将三个热力图输入到后处理模块，输出所有检测目标的检测框(x₁，y₁，x₂，y₂，score)；其中，x₁，y₁为检测目标左上角的位置，x₂，y₂为检测目标右下角的位置，score为检测目标的置信度。

将本发明方法(HFPN)与原方法(FPN)进行对比实验，在公开的数据集Visdrone上进行训练和测试，特征提取模块采用ResNet50，除了特征融合部分的不同外，其他实验设置均相同。从实验结果表1可以看出该方法相比FPN大幅领先，mAP领先了7％。

表1 实验结果对比

通过上述设计，本发明通过特征相加模块和特征拼接模块在基于关键点的目标检测中将高层特征的语义信息与低层特征的位置信息有效进行融合，使得图像的多层特征图通过自顶向下和自底向上的连接能够很好地融合不同尺度的信息，极大增强特征表达能力。因此，与现有技术相比，具有突出的实质性特点和显著的进步。

上述实施例仅为本发明的优选实施方式之一，不应当用于限制本发明的保护范围，但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色，其所解决的技术问题仍然与本发明一致的，均应当包含在本发明的保护范围之内。

Claims

1.一种基于关键点的目标检测的特征融合方法，其特征在于，包括特征提取模块、特征融合模块、热力图生成模块，后处理模块；

所述特征融合模块包括：

特征拼接模块：用于将输入该模块的两个或多个特征图缩放到相同的分辨率，然后将缩放后的两个特征图的通道维度叠加起来，并通过1*1卷积整合通道；

具体实现步骤如下：

2.根据权利要求1所述的一种基于关键点的目标检测的特征融合方法，其特征在于，在步骤(S1)中，输入分辨率为L*W*3的图像经过特征提取模块的多轮卷积后得到第零层特征C₁、C₂、C₃、C₄、C₅，其分辨率分别为L/2*W/2*64，L/4*W/4*256，L/8*W/8*512，L/16*W/16*1024，L/32*W/32*2048；其中，L代表图像的长，W代表图像的宽。

3.根据权利要求1所述的一种基于关键点的目标检测的特征融合方法，其特征在于，在步骤(S2)中，所述特征融合模块内包括了特征个数随着层数的增加逐层减少一个的第一层特征P_{i_1}，第二层特征P_{i_2}，第三层特征P_{i_3}，第四层特征P_{i_4}；其中，2≤i≤4，第四层特征只有一个，即为第二特征图，其分辨率为L/4*W/4*64。

4.根据权利要求3所述的一种基于关键点的目标检测的特征融合方法，其特征在于，在步骤(S2)中，所述第一层特征P_{i_1}通过特征融合模块中的特征相加模块自顶向下得到，即

P_{i_1}＝deconv3(P_{i+1_1})+conv1(C_i) 2≤i≤4；

5.根据权利要求4所述的一种基于关键点的目标检测的特征融合方法，其特征在于，在步骤(S2)中，所述第二到四层特征P_{i_j}用公式描述为：

其中，P_{i+1_j-1}表示自顶向下的特征图，P_{i_j-1}表示自底向上的特征图，P_{i-1_j}表示前一层的中间特征图，C_i表示跨接的特征提取模块中的原始特征图，conv3表示3*3的卷积，用于将自底向上的大分辨率的特征图缩小一倍，而deconv3表示3*3的转置卷积，用于将自顶向下的小分辨率特征图放大一倍，使用conv3和deconv3保持要融合的多个特征图的长宽相同，但是通道数可以不同，concat表示特征拼接，用于将多个分辨率相同的特征图层叠在一起；conv1表示1*1的卷积，用于对拼接后的特征图在通道上进行整合；第四层的特征即为特征融合模块输出的第二特征图。

6.根据权利要求5所述的一种基于关键点的目标检测的特征融合方法，其特征在于，在步骤(S3)中，第二特征图分别进行3次独立卷积得到代表目标出现的位置和概率的hm特征图、代表目标的长宽的wh特征图、代表目标中心点的偏移量reg特征图。

7.根据权利要求6所述的一种基于关键点的目标检测的特征融合方法，其特征在于，在步骤(S4)中，所述后处理模块对步骤(S3)中输出的特征图输出所有检测目标的检测框(x₁，y₁，x₂，y₂，score)；其中，x₁，y₁为检测目标左上角的位置，x₂，y₂为检测目标右下角的位置，score为检测目标的置信度。