CN110929685A

CN110929685A - 基于混合特征金字塔和混合膨胀卷积的行人检测网络结构

Info

Publication number: CN110929685A
Application number: CN201911256264.2A
Authority: CN
Inventors: 候少麒; 殷光强; 李耶; 殷雪朦; 杨晓宇; 李超
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-03-27

Abstract

本发明属于计算机视觉方向技术领域，公开了一种基于混合特征金字塔和混合膨胀卷积的人脸检测网络结构，包括混合金字塔结构生成步骤和上下文信息提取器模块生成步骤以卷积神经网络为主干网络，结合混合特征金字塔和混合膨胀卷积技术，可以有效解决人脸在尺度、姿势、表情、遮挡、模糊等多变条件下的多人脸检测问题的基于混合特征金字塔和混合膨胀卷积的多子网络人脸检测模型设计方法。

Description

基于混合特征金字塔和混合膨胀卷积的行人检测网络结构

技术领域

本发明属于计算机视觉方向技术领域，具体涉及基于混合特征金字塔和混合膨胀卷积的行人检测网络结构。

背景技术

行人检测，是基于行人的外在特征信息进行行人识别与定位的一种生物识别技术，是行人识别或再识别系统中最关键的一环。行人检测是指对于任意一幅给定的图像，采用一定的策略对其进行搜索以确定其中是否含有行人，如果是则返回行人的位置、大小和姿态。在智能安防和智能监控及图像检索等领域应用广泛，具有极高的商业价值。

由于行人在尺度、姿势、表情（去掉）、遮挡、模糊等方面具有高度的变化性，行人检测仍然是一个具有挑战性的问题。VJ检测算法和基于DPM的传统行人检测算法，使用人工设计的描述子以及传统的机器学习算法。人工设计的描述子数量少，自适应能力差，不如基于深度卷积网络的特征提取器；基于深度网络的机器学习算法具有更强的表达能力，可以模仿任意形状的决策面，这是传统机器学习算法所不具备的。由于这两个原因，传统人脸检测算法的检测效果往往较差。

视频、图像中的行人尺度存在着较大的差异性，且行人容易受遮挡、模糊等问题影响，这些都是行人检测领域最棘手的问题之一。目前，效果稳定且使用应用较多的行人检测算法主要还是基于Haar的AdaBoost行人检测算法，该算法主要包括两个部分：训练和识别。训练一般采用离线的方式，选取大量的行人样本作为正样本，同时选取大量非行人图像作为负样本，通过迭代的方法从大量的Haar特征中提取出分类效果最好的特征作为弱分类器，而最终生成的强分类器是由大量的弱分类器组成，训练的结果包含提取的大量Haar特征及权值。AdaBoost行人检测算法虽然简单有效，但只对单一行人的检测具有较好的效果，作为传统行人检测算法的AdaBoost算法具有存在诸多的局限性，主要局限如下：

（1）特征局限：Haar特征属于手工特征，自适应性能和泛化性能较差。

（2）实时性：一般是线下行人匹配。

（3）应用场景局限：适用的数据集是单一行人图像，对多尺度行人、多张行人、行人遮挡、行人形变等复杂、更切实际的应用场景和环境无能为力，且没有行人定位功能；准确来说，AdaBoost算法属于行人匹配模块。

发明内容

本发明提供了一种可以有效解决行人在尺度、姿势、、遮挡、模糊等多变条件下的多行人检测问题的基于混合特征金字塔和混合膨胀卷积的多子网络行人检测模型设计方法。

本发明所公开的基于混合特征金字塔和混合膨胀卷积的多子网络行人检测模型设计方法，其特征在于，包括以下步骤：

混合金字塔结构生成步骤，以卷积神经网络为主干网络、以卷积神经网络中具有不同级别语义信息的特征映射层作为基础层构建混合金字塔网络模块HFPN形成混合特征图；使用卷积神经网络的膨胀卷积层构建混合膨胀卷积结构模块HDCS并添加至卷积神经网络的末端代替卷积神经网络的全连接层；所述卷积神经网络为VGGnet或者ResNet网络，进一步的，也不止这两个网络可供选择，这两个是卷积神经网络中最具有代表性的，其他的卷积神经网络也都可以。

上下文信息提取器模块生成步骤，使用卷积神经网络的普通卷积层对所述混合金字塔结构生成步骤中生成的混合特征图进行特征加工，然后对于加工后的特征图进行双分支处理，每个分支的特征图通道数为均分的一半，对两个分支处理后的特征图进行通道拼接形成上下文信息提取器模块，将所述上下文信息提取器模块嵌入到卷积神经网络中。

所述混合金字塔结构生成步骤中混合金字塔网络模块HFPN的构建，是以卷积神经网络中选取的具有不同级别语义信息的若干特征图层作为基础层（所有的卷积图层都算），由上至下（即由深至浅）依次选取相邻的高、中、低三个特征图层为一个单元，首先将一个单元中的高、中两个特征图层进行融合形成复合特征图，然后将复合特征图和该单元中的低层特征图再次进行融合形成混合特征图，这个过程就是混合特征金字塔网络模块做的作用，这是一个单元的处理，然后按照这种流程依次向下，每次以一个层为步长，比如主干网络一共10层，第一次选10、9、8，第二次选9、8、7，……，3、2、1，再取三个特征图层进行同样的处理，直至将所有基础层全部形成混合特征图。

所述将一个单元中，将高、中两层的特征图进行融合形成复合特征图，具体包括以下步骤：

首先，采用双线性插值的方法将高层特征图的尺寸进行扩充，使其尺寸等于中层特征图的尺寸；

然后，使用卷积神经网络的卷积层（如卷积核尺寸为1*1的卷积层）对尺寸扩张后的高层特征图进行通道压缩，使其通道数等于中层特征图；

最后，对两层特征图进行通道拼接（非逐元素、逐通道相加），形成复合特征图，此时复合特征图的通道数是中层特征图的两倍。

所述对尺寸扩张后的高层特征图进行通道压缩使用卷积神经网络的卷积层是卷积核尺寸为1*1的卷积层。

所述将一个单元中，所述将复合特征图与低层特征图进行融合形成混合特征图，具体包括以下步骤：

首先，使用卷积神经网络的卷积层（如3*3的卷积层）对低层特征图的尺寸进行压缩，使得压缩后的尺寸等于复合特征图的尺寸且通道数扩充为该低层特征图面积压缩的倍数（因为也不一定是4倍）。假设低层特征图维度为h*w*c，复合特征图的尺寸为(h/2)*(w/2)，则变换后的低层特征图维度为(h/2)*(w/2)*(c*4)，相当于通道数也扩充为原来的四倍，这样做的目的是保证信息总量不变，防止信息损失，从而产生真正所需的低层信息；

其次，使用卷积神经网络的卷积层（如3*3的卷积层）对变换后的低层特征图进行通道压缩，使其通道数等于该单元中复合特征图的1/2；

然后，将压缩后的低层特征图与该单元中的复合特征图进行通道拼接（非逐元素、逐通道相加），形成最终的融合特征图，此时融合特征图中高中低层特征图的通道数都相同；

最后，使用卷积神经网络的卷积层（如3*3的卷积层）对融合后的特征图进行通道变化，根据需要进行压缩操作或者扩张操作，接着再用卷积神经网络的卷积层（如3*3的卷积层）的卷积操作进行通道信息融合，从而形成最终的混合特征图，用于下一步操作，输入到上下文信息提取器模块生成步骤中，混合特征图的通道数等于融合特征图的1/3，便于和融合特征图中的原中层特征图的通道数量相对应，即等于原始一个单元里，中层特征图的通道数。

所述混合膨胀卷积结构模块HDCS包含三个卷积核尺寸均为3*3的膨胀卷积层，且三个膨胀卷积层的膨胀系数依次为较小的数值1、2、3。假设网络第l层有一像素v，第l-1层使用混合膨胀卷积模块后，感受野覆盖区域中所有的值均对v值产生贡献，并且距离v值位置越近的区域贡献的比重越大，避免了使用单一膨胀卷积时，卷积核中的0元素导致上层特征图的局部区域信息的丢失。

使用使用较小的3*3的卷积层对混合特征图进行特征加工，3*3尺寸的卷积层参数较少，且操作时在增加特征非线性的同时不易产生由于特征图上（下）采样引起的特征混淆现象。

所述对于加工后的特征图进行双分支处理，每个分支的特征图通道数为均分的一半，具体的第一个分支经过一个3*3的卷积层，第二个分支经过两个3*3的卷积层。

与现有技术相比，本发明所提供的这种基于混合特征金字塔和混合膨胀卷积的行人检测网络结构，设计了混合特征金字塔结构，不仅融合来自高层的语义信息，同时融合低层精细的特征信息，而低层特征信息对于小行人的检测十分重要；为了检测大范围尺度的行人，将主干网络的全连接层替换为多个膨胀卷积层，本算法还设计了混合膨胀卷积结构，将其放置在卷积神经网络卷积部分之后，混合膨胀卷积结构可以十分快速地扩大感受野，进而获取更高分辨率的特征图，上下文信息提取器，更好地处理行人遮挡、模糊等问题。

进一步的，采用混合特征金字塔的复合特征图的获取方式使用通道拼接的方式，与传统的FPN采用逐元素相加的方式不同，使用的方式也不同，在FPN中，复合特征图对于低层特征图是高层信息，同时直接用于检测任务；而混合特征金字塔中，对于低层特征图，复合特征图需要进一步加工才能产生有用的高层信息，同时要与低层特征图进行进一步的融合才能用于检测；混合特征金字塔的复合特征图用作高层语义信息时，使用1*1的卷积核，用于检测时全部使用3*3的卷积核，因为1*1的卷积核不会改变感受野，更适合语义学习，而3*3的卷积核可以避免多次下采样和上采样所引起的混淆。

混合特征金字塔对于复合特征图的使用更为细致合理，不仅将当前层与高层语义信息用于检测，还融合了来自临近低层的特征信息，混合特征金字塔使用了一系列通道压缩和扩张的操作，这对于获取有效信息十分必要。

并且，本技术方案中是一个单阶段行人检测算法，但由于较大的卷积核需要更大的计算量，故可以由多个串联的小卷积核替代，为了进一步减少计算量和防止上下文信息相关性减弱，上下文信息提取器模块采用了部分卷积层共享的方式，由于上下文信息是辅助信息，所以这两个分支的通道数各为主分支的一半。

附图说明

本发明的前述和下文具体描述在结合以下附图阅读时变得更清楚，附图中：

图1是本发明网络模块HFPN功能示意图；

图2是本发明网络模块HDCS功能示意图；

图3是本发明上下文信息提取器模块的逻辑示意图。

图4是本发明设计结构示意图。

具体实施方式

下面通过几个具体的实施例来进一步说明实现本发明目的技术方案，需要说明的是，本发明要求保护的技术方案包括但不限于以下实施例。

实施例1

作为本发明一种最基本的实施方案，本实施例公开了基于混合特征金字塔和混合膨胀卷积的行人检测网络结构，具体的，如图4，包括以下步骤：

混合金字塔结构生成步骤，如图1，以卷积神经网络为主干网络、以卷积神经网络中具有不同级别语义信息的特征映射层作为基础层构建混合金字塔网络模块HFPN形成混合特征图；如图2，使用卷积神经网络的膨胀卷积层构建混合膨胀卷积结构模块HDCS并添加至卷积神经网络的末端代替卷积神经网络的全连接层；优选地，所述卷积神经网络为VGGnet或者ResNet网络。

上下文信息提取器模块生成步骤，如图3，使用卷积神经网络的普通卷积层对所述混合金字塔结构生成步骤中生成的混合特征图进行特征加工，然后对于加工后的特征图进行双分支处理，每个分支的特征图通道数为均分的一半，对两个分支处理后的特征图进行通道拼接形成上下文信息提取器模块，将所述上下文信息提取器模块嵌入到卷积神经网络中。

即本方案：

（1）设计混合膨胀卷积替换作为主干网络的卷积神经网络中的全连接层，在增加网络非线性的同时有效地提高了特征图的感受野；

（2）设计混合特征金字塔结构，融合高层语义信息和低层精细的特征信息，并在多个混合的特征图上融合进行行人检测；

（3）设计上下文信息提取器，有效地处理遮挡、模糊等问题。

采用混合特征金字塔的复合特征图的获取方式使用通道拼接的方式，与传统的FPN采用逐元素相加的方式不同，使用的方式也不同，在FPN中，复合特征图对于低层特征图是高层信息，同时直接用于检测任务；而混合特征金字塔中，对于低层特征图，复合特征图需要进一步加工才能产生有用的高层信息，同时要与低层特征图进行进一步的融合才能用于检测，混合特征金字塔对于复合特征图的使用更为细致合理，不仅将当前层与高层语义信息用于检测，还融合了来自临近低层的特征信息，混合特征金字塔使用了一系列通道压缩和扩张的操作，这对于获取有效信息十分必要。

实施例2

作为本发明一种优选地实施方案，在上述实施例1的方案基础上，进一步的，所述混合金字塔结构生成步骤中混合金字塔网络模块HFPN的构建，是以卷积神经网络中选取的具有不同级别语义信息的若干特征图层作为基础层，由上至下（即由深至浅）依次选取相邻的高、中、低三个特征图层为一个单元，首先将一个单元中的高、中两个特征图层进行融合形成复合特征图，然后将复合特征图和该单元中的低层特征图再次进行融合形成混合特征图，这个过程就是混合特征金字塔网络模块做的作用，这是一个单元的处理，然后按照这种流程依次向下，每次以一个层为步长，比如主干网络一共10层，第一次选10、9、8，第二次选9、8、7，……，3、2、1，再取三个特征图层进行同样的处理，直至将所有基础层全部形成混合特征图。

所述将一个单元中，将高、中两层的特征图进行融合形成复合特征图，首先，采用双线性插值的方法将高层特征图的尺寸进行扩充，使其尺寸等于中层特征图的尺寸；然后，使用卷积神经网络的卷积层（如卷积核尺寸为1*1的卷积层）对尺寸扩张后的高层特征图进行通道压缩，使其通道数等于中层特征图；最后，对两层特征图进行通道拼接，形成复合特征图，通道拼接非逐元素、逐通道相加；此时复合特征图的通道数是中层特征图的两倍；所述对尺寸扩张后的高层特征图进行通道压缩使用卷积神经网络的卷积层是卷积核尺寸为1*1的卷积层。

同样的，所述将一个单元中，所述将复合特征图与低层特征图进行融合形成混合特征图，首先，使用卷积神经网络的卷积层，如3*3的卷积层，对低层特征图的尺寸进行压缩，使得压缩后的尺寸等于复合特征图的尺寸且通道数扩充为该低层特征图面积压缩的倍数。假设低层特征图维度为h*w*c，复合特征图的尺寸为(h/2)*(w/2)，则变换后的低层特征图维度为(h/2)*(w/2)*(c*4)，相当于通道数也扩充为原来的四倍，这样做的目的是保证信息总量不变，防止信息损失，从而产生真正所需的低层信息；其次，使用卷积神经网络的卷积层，如3*3的卷积层，对变换后的低层特征图进行通道压缩，使其通道数等于该单元中复合特征图的1/2；

与现有技术相比，本发明所提供的这种基于混合特征金字塔和混合膨胀卷积的人脸检测网络结构，设计了混合特征金字塔结构，不仅融合来自高层的语义信息，同时融合低层精细的特征信息，而低层特征信息对于小行人的检测十分重要；为了检测大范围尺度的行人，将主干网络的全连接层替换为多个膨胀卷积层，本算法还设计了混合膨胀卷积结构，将其放置在卷积神经网络卷积部分之后，混合膨胀卷积结构可以十分快速地扩大感受野，进而获取更高分辨率的特征图，上下文信息提取器，更好地处理行人遮挡、模糊等问题。

这里选择属于VGGnet中一种的VGG16卷积神经网络为基础主干网络，构建混合特征金字塔网络模块HFPN（Hybrid Feature Pyramid Network），如图4，添加Conv6层，Conv6使用滑动步长为2的3*3卷积层，用于缩减特征图尺寸，使用VGG16中选取的Conv3_3、Conv4_3、Conv5_3和Conv6作为HFPN的基础层。

由上至下（即由深至浅），依次将相邻的两个基础层的特征进行融合，形成复合特征图，方法如本实施例中所述，首先，上层特征图的尺寸采用双线性插值的方法进行扩充，使其尺寸等于较浅层特征图的尺寸；然后，利用1*1的卷积层对扩张后的较深层特征图进行通道压缩，使其通道数等于较浅层特征图；最后，用逐元素、逐通道相加以外的方式对两层特征图进行通道拼接，形成复合特征图，此时复合特征图特征通道数是较浅层的两倍。

因为低层特征图含有更精确的细节信息，这对于定位和检测小尺度行人很有帮助。故将复合特征图再与相邻的下层特征图进行融合，形成最终的融合高中低三层语义信息的混合特征金字塔网络模块，具体的也如本实施例中所述，首先，使用3*3的卷积层对下层特征图的尺寸进行压缩，假设下层特征图维度为h*w*c，则变化后的特征图维度为(h/2)*(w/2)*(c*4)，相当于进行了通道扩充，这样做的目的是保证信息总量不变，防止信息损失，从而产生真正所需的低层信息；其次，使用3*3的卷积层对变换后的低层特征图进行通道压缩，使其通道数等于相邻复合特征图的1/2；然后，将压缩后的下层特征图与相邻复合特征图进行通道拼接，形成最终的融合特征图，此时一个混合金字塔网络模块中，高中低层特征图的通道数都相同；最后，使用3*3的卷积层对融合后的特征图进行通道变化，根据需要进行压缩操作或者扩张操作，接着再使用3*3的卷积进行通道信息融合，从而形成最终的检测特征图，检测特征图的通道数等于融合特征图的1/3，便于和融合特征图中的原中层特征图的通道数量相对应。

构建混合膨胀卷积结构模块HDCS（Hybrid Dilated Convolutions），混合膨胀卷积模块使用三个膨胀卷积层，膨胀系数依次选用较小的数值1、2、3，卷积核尺寸均为3*3。假设网络第l层有一像素v，第l-1层使用混合膨胀卷积模块后，三个膨胀卷积感受野覆盖区域对像素v有实际贡献的区域依次如图3中的(a)、(b)、(c)所示，由图3中的(c)可以看到，感受野覆盖区域中所有的值均对v值产生贡献，并且距离v值位置越近的区域贡献的比重越大。避免了使用单一膨胀卷积时，卷积核中的0元素导致上层特征图的局部区域信息的丢失。将HDCS模块添加到VGGNet的末端，用于进一步加工信息、减少特征图尺寸和扩大感受野，便于检测较大尺度的行人。

构建上下文信息提取器，使用较小的3*3的卷积层对上层特征图进行特征加工，对于加工后的特征图进行双分支处理，每个分支的特征图通道数为均分的一半，第一个分支经过一个3*3的卷积层，第二个分支经过两个3*3的卷积层，对两个分支处理后的特征图进行通道拼接，形成最终的上下文信息提取器模块；上下文信息提取器可以有效地处理遮挡、模糊等问题，使用3*3的小尺寸卷积核可以进一步减少参数计算量，将设计的混合金字塔网络模块、混合膨胀卷积模块和上下文信息提取器嵌入到以VGG16为主干的网络模型中，详细结构见图4。

Claims

1.基于混合特征金字塔和混合膨胀卷积的多子网络行人检测模型设计方法，其特征在于，包括以下步骤：

混合金字塔结构生成步骤，以卷积神经网络为主干网络、以卷积神经网络中具有不同级别语义信息的特征映射层作为基础层构建混合金字塔网络模块HFPN形成混合特征图；使用卷积神经网络的膨胀卷积层构建混合膨胀卷积结构模块HDCS并添加至卷积神经网络的末端代替卷积神经网络的全连接层；

上下文信息提取器模块生成步骤，使用卷积神经网络的普通卷积层对所述混合金字塔结构生成步骤中生成的混合特征图进行特征加工，然后对于加工后的特征图进行双分支处理，对两个分支处理后的特征图进行通道拼接形成上下文信息提取器模块，将所述上下文信息提取器模块嵌入到卷积神经网络中。

2.如权利要求1所述的基于混合特征金字塔和混合膨胀卷积的行人检测网络结构，其特征在于：所述卷积神经网络为VGGnet或者ResNet网络。

3.如权利要求1所述的基于混合特征金字塔和混合膨胀卷积的行人检测网络结构，其特征在于：所述混合金字塔结构生成步骤中混合金字塔网络模块HFPN的构建，是以卷积神经网络中选取的具有不同级别语义信息的若干特征图层作为基础层，由上至下依次选取相邻的高、中、低三个特征图层为一个单元，首先将一个单元中的高、中两个特征图层进行融合形成复合特征图，然后将复合特征图和该单元中的低层特征图再次进行融合形成混合特征图，直至将所有基础层全部形成混合特征图。

4.如权利要求3所述的基于混合特征金字塔和混合膨胀卷积的行人检测网络结构，其特征在于：所述将一个单元中，将高、中两层的特征图进行融合形成复合特征图，具体包括以下步骤：

然后，使用卷积神经网络的卷积层对尺寸扩张后的高层特征图进行通道压缩，使其通道数等于中层特征图；

最后，对两层特征图进行通道拼接，形成复合特征图，此时复合特征图的通道数是中层特征图的两倍。

5.如权利要求4所述的基于混合特征金字塔和混合膨胀卷积的行人检测网络结构，其特征在于：所述对尺寸扩张后的高层特征图进行通道压缩使用卷积神经网络的卷积层是卷积核尺寸为1*1的卷积层。

6.如权利要求3所述的基于混合特征金字塔和混合膨胀卷积的行人检测网络结构，其特征在于：所述将一个单元中，所述将复合特征图与低层特征图进行融合形成混合特征图，具体包括以下步骤：

首先，使用卷积神经网络的卷积层对低层特征图的尺寸进行压缩，使得压缩后的尺寸等于复合特征图的尺寸且通道数扩充为该低层特征图面积压缩的倍数；

其次，使用卷积神经网络的卷积层对变换后的低层特征图进行通道压缩，使其通道数等于该单元中复合特征图的1/2；

然后，将压缩后的低层特征图与该单元中的复合特征图进行通道拼接，形成最终的融合特征图，此时融合特征图中高中低层特征图的通道数都相同；

最后，使用卷积神经网络的卷积层对融合后的特征图进行通道进行压缩操作或者扩张操作，接着再用卷积神经网络的卷积层的卷积操作进行通道信息融合，从而形成最终的混合特征图。

7.如权利要求1所述的基于混合特征金字塔和混合膨胀卷积的行人检测网络结构，其特征在于：所述混合膨胀卷积结构模块HDCS包含三个卷积核尺寸均为3*3的膨胀卷积层，且三个膨胀卷积层的膨胀系数依次为数值1、2、3。

8.如权利要求1所述的基于混合特征金字塔和混合膨胀卷积的行人检测网络结构，其特征在于：所述上下文信息提取器模块生成步骤中，对于加工后的特征图进行双分支处理，具体的第一个分支经过一个3*3的卷积层，第二个分支经过两个3*3的卷积层。