CN111241910A

CN111241910A - 基于双信息流与视网膜感受野结构的行人检测模型设计方法

Info

Publication number: CN111241910A
Application number: CN201911255983.2A
Authority: CN
Inventors: 候少麒; 殷光强; 李耶; 刘学婷; 杨晓宇; 黄方正
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-06-05

Abstract

本发明属于计算机视觉技术领域，公开了一种基于双信息流结构与视网膜感受野结构的快速行人检测网络设计方法。包括Conv1卷积单元构建步骤、TIFB双信息流模块构建步骤、RRFB视网膜感受野单元构建步骤、特征图处理卷积构建步骤和多尺度行人检测构建步骤，是一种变尺度单阶段的快速行人检测算法网络的结构设计，其所含卷积层较少，推理过程只需要对输入图片进行一次前向运算，有效地兼顾了行人检测中的精度和速度问题。

Description

基于双信息流与视网膜感受野结构的行人检测模型设计方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于双信息流结构与视网膜感受野结构的快速行人检测网络设计方法。

背景技术

行人检测是行人识别或再识别的第一步关键环节，是指对于任意一幅给定的图像，利用行人视觉特征信息对其进行搜索以确定其中是否含有行人，并返回行人的位置、大小和姿态的生物技术。

现今的行人检测技术主要分为传统算法和深度学习算法两大类。传统算法主要使用基于几何特征、模板匹配、统计分析等方法，依赖手动提取的Haar、HOG等特征描述子进行行人检测，最大的缺陷是手工特征提取速度慢、表征能力差且不具有良好的泛化能力，难以应对行人尺度差异、光照变化、遮挡等条件带来的影响；随着神经网络的发展，深度学习技术以其特征的高效性与鲁棒性、处理速度的实时性等优势逐渐成为行人检测的主流方法。深度学习是一种自主特征提取的、端到端的学习方法，其学习流程简单，大大减少了时间成本。

深度学习算法使得行人检测的精度取得了长足的进步，在世界权威基准数据集上的真正例率（简称TPR）已逐渐趋于饱和。但在精度提高的同时，行人检测算法的推理时间长、检测速度低却依然是其所面临又一重大挑战，更深的神经网络具有更多的参数，一般也会具有更强的表达能力。然而，由于优化神经网络需要借助反向传播算法，随着层数增多，神经网络容易发生梯度消失或者梯度爆炸，这导致深度神经网络难以训练、不容易收敛，从而导致网络性能退化，行人检测精度和速度的兼顾性亟待解决。

VJ检测算法和基于DPM的传统行人检测算法使用人工设计的描述子，检测速度可以达到实时，但由于人工设计的描述子数量少，自适应能力差，检测的效果却很一般；Faster-RCNN、CMS-RCNN、HR、SSH等基于卷积神经网络的两阶段或单阶段算法，借助深层卷积网络强大的表征能力，达到了很好的检测效果，但是由于基础卷积网络层数过多，计算量和推理时间迅速增加，检测速度变得缓慢；MTCNN是多阶段行人检测算法中的代表算法，具有较高的TPR，检测速度完全可以达到实时，但是却存在多阶段行人检测算法固有的缺陷——提取大量重复计算的候选框。

发明内容

本发明提供了一种变尺度单阶段的快速行人检测算法网络的结构设计，其所含卷积层较少，推理过程只需要对输入图片进行一次前向运算，有效地兼顾了行人检测中的精度和速度问题。

本发明所公开的基于双信息流与视网膜感受野结构的行人检测模型设计方法，其特征在于，包括以下步骤：

Conv1卷积单元构建步骤，构建包括用于提取特征的卷积层、用于对数据分布进行归一化的BN层和用于增加特征的非线性表达的激活层的Conv1卷积单元；这三层是深度学习的通用层，优选地，卷积层为7*7卷积层，使用较大的卷积核和滑动步长，以及较小的通道数，便于迅速减少特征图的尺寸以及后续步骤的计算量。

TIFB双信息流模块构建步骤，TIFB双信息流模块包括三个依次串联的TIFB基本单元，所述TIFB基本单元包括顺序相连的卷积层、BN层和激活层；待检测的图像经过所述Conv1卷积单元的处理后输入至TIFB双信息流模块，依次经过TIFB基本单元的卷积层、BN层、激活层等操作组成的映射函数F(x)输出，将输出的映射函数F(x)与所述Conv1卷积模块的输入（即x项）进行逐元素、逐通道相加后得到最终的输出特征图y；这一跨层结构的目的是改变网络对原始映射的学习方式，可以防止在深层网络模型中出现梯度消失或梯度爆炸的问题。

RRFB视网膜感受野单元构建步骤，RRFB视网膜感受野单元包括依次串联的三个RRFB模块，所述RRFB模块包括四个含有卷积层、BN层和激活层的分支，所述TIFB双信息流模块输出至RRFB视网膜感受野单元，经过所述RRFB模块中的卷积层、BN层和激活层分支处理后输出，四个分支的输出合并即为所述RRFB模块的输出；

特征图处理卷积构建步骤，构建4个依次相连且2个为一组的、均包括有依次串联的卷积层、BN层和激活层的卷积模块，所述RRFB视网膜感受野单元的输出依次经过所述4个卷积模块完成特征的线性变换、特征图的通道数加倍与减半；

多尺度行人检测构建步骤，将所述RRFB视网膜感受野单元的输出结果，和所述特征图处理卷积的2组输出作为行人检测的特征图，分别经过若干个用于变换行人检测特征图的尺寸和通道数使特征图符合行人的二分类和位置框回归的数据输出格式的卷积单元，并将结果输出至损失函数计算中。

优选地，所述TIFB双信息流模块的三个依次串联的TIFB基本单元之间，从上至下以全连接方式连接，即从上至下将当前层的特征图信息与靠后层特征图进行依次连接，TIFB的结构等价于利用全连接的方式将当前层的特征图信息与靠后层特征图进行依次连接，靠前层的特征被多次传递和多次加工使用，使得局部多层的特征信息得以互相融合，增加了特征图的语义丰富度、传递效率和利用率。

所述RRFB模块的四个含有卷积层、BN层和激活层的分支，具体的：

第一个分支，将所述TIFB双信息流模块的输出依次经过1*1的卷积层、BN层和激活层，然后将结果再依次经过3*3的卷积层、BN层和激活层，最后得到分支一的输出y₁；

第二个分支，将所述TIFB双信息流模块的输出依次经过1*1的卷积层、BN层和激活层，然后将结果再依次经过3*3的卷积层、BN层和激活层，再将结果依次经过3*3的膨胀卷积层、BN层和激活层，最后得到分支三的输出y₂；

第三个分支，将所述TIFB双信息流模块的输出依次经过1*1的卷积层、BN层和激活层，其次将结果再依次经过3*3的卷积层、BN层和激活层，再次将结果再依次经过3*3的卷积层、BN层和激活层，再将结果依次经过3*3的膨胀卷积层、BN层和激活层，最后得到分支三的输出y₃。

第四个分支是将所述TIFB双信息流模块的输出依次经过3*3的最大值池化层、BN层和激活层，然后将结果再依次经过1*1的卷积层、BN层和激活层，最后得到分支四的输出y₄。

所述四个分支的输出合并即为所述RRFB模块的输出，具体的是将所述的四个分支的输出y₁、y₂、y₃和y₄合并，得到RRFB模块的最终输出y=y₁+y₂+y₃+y₄，且合并的方式是四个分支的输出进行通道拼接，并非逐元素、逐通道相加。

所述四个分支的输出均是与原始图片一样的w*h*c数据格式，表示原图片是宽为w、高为h的通道为c的图片。

所述4个卷积模块，从上至下依次具体的：

第一个卷积模块和第二个卷积模块为一组，第三个卷积模块和第四个卷积模块为一组；

第一个卷积模块目的是在不改变RRFB视网膜感受野单元输出特征图通道数量的同时，用于对特征进行线性变换，包括依次串联的1*1卷积层、BN层和激活层，且1*1卷积层其卷积核通道数为128；

第二个卷积模块目的是将特征图的通道数加倍以便进行后续的行人检测步骤，包括依次串联的3*3膨胀卷积层、BN层和激活层，且3*3膨胀卷积层的步长为2，卷积核通道数为128；

第三个卷积模块目的是将第二个卷积模块输出特征图的通道数减半，这有利于过滤无效冗余的信息和提取有效信息，同时减少了计算量和参数数量，包括依次串联的1*1卷积层、BN层和激活层，且1*1卷积层的卷积核通道数为256；

第四个卷积模块目的是将第三个卷积模块输出特征图的通道数加倍以便进行后续的行人检测步骤，包括依次串联的3*3膨胀卷积层、BN层和激活层，且3*3膨胀卷积层的步长为2，卷积核通道数为128。

具体的，所述用于变换行人检测特征图的尺寸和通道数使特征图符合行人的二分类和位置框回归的数据输出格式的卷积单元为6个；

所述RRFB视网膜感受野单元的输出结果分别经过2个卷积核尺寸3*3，通道数为128的卷积单元进行行人的二分类和位置框的回归；

所述特征图处理卷积的2组输出，每一组均分别经过2个卷积核尺寸3*3，通道数为256的卷积单元进行行人的二分类和位置框的回归。

与现有技术相比，本发明的技术方案设计了双信息流模块结构（简称TIFB），以及视网膜感受野模块结构（简称RRFB）；使用TIFB和一个卷积模块Conv1组建了用以特征提取、快速缩减特征图尺寸、限制特征图通道数的Part 1（目的是减少推理时间，提高检测速度），使用3个RRFB模块和一些卷积模块构成了用以进一步加工特征、进行特征图通道数和尺寸变换、进行行人多尺度检测的Part 2；Part 1的输出作为Part 2的输入，从而形成整体的行人检测模型，模型所含卷积层较少，推理过程只需要对输入图片进行一次前向运算，有效地兼顾了行人检测中的精度和速度问题。

具体的，从整个网络模型来看，使用Conv1模块和TIFB模块组成了用以特征提取、快速缩减特征图尺寸、限制特征图通道数的Part 1部分，从而减少推理时间，提高了行人检测速度；使用三个RRFB模块和一些卷积模块组成的用以进一步加工特征、进行特征图通道数和尺寸变换、进行行人多尺度检测的Part 2部分，从而可以提取丰富的、变尺度的行人特征，提高了行人检测的精度。

附图说明

本发明的前述和下文具体描述在结合以下附图阅读时变得更清楚，附图中：

图1是本发明TIFB模块的基本单元结构示意图；

图2是本发明 TIFB结构及其等价结构示意图；

图3是本发明RRFB结构示意图；

图4是本发明网络模型的整体结构流程示意图。

具体实施方式

下面通过具体的实施例来进一步说明实现本发明目的技术方案，需要说明的是，本发明要求保护的技术方案包括但不限于以下实施例。

本实施例公开了一种双信息流与视网膜感受野结构的行人检测模型设计方法，具体的：

输入的原始图片和特征图的数据格式都是w*h*c，分别表示宽、高和通道数。如原始图片是w*h*3数据格式，表示原图片是宽为w、高为h的三通道彩色图片。

行人检测模型的设计，首先是构建Conv1卷积单元，原图片输入到Conv1卷积单元：Conv1卷积单元依次包含卷积层、BN层和激活层，这三层是深度学习的通用层，卷积层主要是提取特征、BN层是对数据分布进行归一化、激活层是为了增加特征的非线性表达，卷积层是7*7的卷积层，滑动步长为4，使用较大的卷积核和滑动步长，以及较少的卷积核个数便于迅速减少特征图的尺寸以及后续步骤的计算量。

然后构建TIFB双信息流模块，Conv1卷积单元的输出进入到TIFB双信息流模，TIFB双信息流模结构如图2，是由如图1的三个TIFB基本单元依次串联组成，串联表示上一个单元的输出作为下一个单元的输入。

如图1，输入x表示所述Conv1卷积单元的输出高度为h、宽度为w和通道数为c的上一层特征图的数据，依次经过包括卷积层、BN层、激活层等操作组成的映射函数F后输出F(x)，再将映射输出F(x)与输入x的数据进行逐元素、逐通道相加后得到最终的输出特征图y，这一跨层结构的目的是改变网络对原始映射的学习方式，可以防止在深层网络模型中出现梯度消失或梯度爆炸的问题。

如图2，将三个TIFB基本单元进行依次串联后得到最终的TIFB双信息流模块，优选地，本方案中将三个TIFB单元的输出通道数分别设置为64、96、128，TIFB双信息流模块的结构等价于利用全连接的方式将当前层的特征图信息与靠后层特征图进行依次连接，靠前层的特征被多次传递和多次加工使用，使得局部多层的特征信息得以互相融合，增加了特征图的语义丰富度、传递效率和利用率。

接着构建RRFB视网膜感受野单元，TIFB双信息流模块的输出进入到RRFB视网膜感受野单元中依次串联的三个RRFB模块：第一个RRFB模块的输出作为第二个RRFB模块的输入，如图4中的 RRFB1~RRFB3，本方案中TIFB双信息流模块的输出进入到依次串联的三个RRFB模块：

而所述RRFB模块的构建如图3：

（1）构建第一个分支，顺序为从左至右，首先将TIFB双信息流模块的输出依次经过1*1的卷积层、BN层和激活层，然后将得到的输出依次经过3*3的卷积层、BN层和激活层，最后得到分支一的输出y₁，y₁为w*h*c数据格式的特征图，1*1的卷积层参数少且不改变特征图的尺寸，常用来变换特征图的通道数。

（2）构建第二个分支，首先将TIFB双信息流模块的输出依次经过1*1的卷积层、BN层和激活层，其次将得到的输出依次经过3*3的卷积层、BN层和激活层，然后将得到的输出依次经过3*3的膨胀卷积层、BN层和激活层，最后得到分支二的输出y₂，3*3的膨胀卷积层，膨胀系数为3，目的是增大卷积核的感受野，获取不同尺度的更高分辨率的特征图。

（3）构建第三个分支，首先将TIFB双信息流模块的输出依次经过1*1的卷积层、BN层和激活层，其次将得到的输出依次经过3*3的卷积层、BN层和激活层，再次将得到的输出依次经过3*3的卷积层、BN层和激活层，然后将得到的输出依次经过3*3的膨胀卷积层、BN层和激活层，最后得到分支三的输出y₃，这里3*3的膨胀卷积层的膨胀系数为5。

（4）构建第四个分支，首先将TIFB双信息流模块的输出依次经过3*3的最大值池化层、BN层和激活层，然后将得到的输出依次经过1*1的卷积层、BN层和激活层，最后得到分支四的输出y₄，这里3*3的最大值池化层步长为1，池化层的目的是缩减特征图尺寸，获取更显著、更鲁棒的特征信息。

（5）将四个分支的输出合并得到第一个RRFB模块的最终输出y=y₁+y₂+y₃+y₄，需要注意的是合并的方式是四个分支的输出进行通道拼接，并非逐元素、逐通道相加。

RRFB模块的设计增加了卷积网络的宽度，丰富了特征图的尺度信息，增强了特征图的尺度不变性，使用多个RRFB串联增加了卷积网络的深度，深度和宽度的增加均有利于增加网络的容量和表达能力。

然后构建特征图处理卷积，具体的，如图4，分别构建卷积模块Conv2_1~Conv3_2模块，RRFB视网膜感受野单元中的RRFB模块3（RRFB3）的输出依次进入到卷积模块Conv2_1~Conv3_2：

（1）RRFB3的输出经过卷积模块Conv2_1，卷积模块Conv2_1包括1*1的卷积层、BN层和激活层依次串联组成，如上所述，1*1的卷积层卷积核通道数为128，目的是在不改变RRFB3输出特征图通道数量的同时，对特征进行线性变换。

（2）卷积模块Conv2_1的输出经过卷积模块Conv2_2，卷积模块Conv2_2包括3*3的膨胀卷积层、BN层和激活层依次串联组成，3*3的膨胀卷积层步长为2，卷积核通道数为128，目的是将特征图的通道数加倍以便进行后续的行人检测步骤。

（3）卷积模块Conv2_2的输出经过卷积模块Conv3_1，卷积模块Conv3_1模块由1*1的卷积层、BN层和激活层依次串联组成，1*1的卷积层卷积核通道数为256，目的是将卷积模块Conv2_2输出特征图的通道数减半，这有利于过滤无效冗余的信息和提取有效信息，同时减少了计算量和参数数量。

（4）卷积模块Conv3_1的输出经过卷积模块Conv3_2，卷积模块Conv3_2模块由3*3的膨胀卷积层、BN层和激活层依次串联组成，3*3的膨胀卷积层步长为2，卷积核通道数为128，目的是将卷积模块Conv3_1输出特征图的通道数加倍以便进行后续的行人检测步骤。

最后一步，构建多尺度行人检测的结构，如图4，将RRFB视网膜感受野单元中的RRFB模块3（RRFB3）、卷积模块Conv2_2和Conv3_2这三层不同尺度的输出特征图作为行人检测的特征图：

（1）将RRFB3的输出分别经过卷积模块Conv4_1（卷积核尺寸3*3，通道数为128）和卷积模块Conv4_2（卷积核尺寸3*3，通道数为128），分别进行行人的二分类和位置框的回归。

（2）将卷积模块Conv2_2的输出分别经过卷积模块Conv5_1（卷积核尺寸3*3，通道数为256）和卷积模块Conv5_2（卷积核尺寸3*3，通道数为256），分别进行行人的二分类和位置框的回归。

（3）将卷积模块Conv3_2的输出分别经过卷积模块Conv6_1（卷积核尺寸3*3，通道数为256）和卷积模块Conv6_2（卷积核尺寸3*3，通道数为256），分别进行行人的二分类和位置框的回归类。

卷积模块Conv4_1~Conv6_2的作用是变换行人检测特征图的尺寸和通道数，使其符合相应的行人二分类和位置框回归的数据输出格式；RRFB3的输出特征图尺寸较小，包含的特征信息更为细致，适合小行人的检测，而卷积模块Conv2_2和Conv3_2份别属于中等尺寸和小尺寸的特征图，包含的特征信息更为宽泛，适合中等和较大行人的检测；设计的多尺度行人检测避免了单一特征图或复合特征图承担过多的检测任务从而导致的检测性能低下。

Claims

1.基于双信息流与视网膜感受野结构的行人检测模型设计方法，其特征在于，包括以下步骤：

Conv1卷积单元构建步骤，构建包括用于提取特征的卷积层、用于对数据分布进行归一化的BN层和用于增加特征的非线性表达的激活层的Conv1卷积单元；

TIFB双信息流模块构建步骤，TIFB双信息流模块包括三个依次串联的TIFB基本单元，所述TIFB基本单元包括顺序相连的卷积层、BN层和激活层；待检测的图像经过所述Conv1卷积单元的处理后输入至TIFB双信息流模块，依次经过TIFB基本单元的卷积层、BN层、激活层操作组成的映射函数F(x)输出，将输出的映射函数F(x)与所述Conv1卷积模块的输入（即x项）进行逐元素、逐通道相加后得到最终的输出特征图y；

RRFB视网膜感受野单元构建步骤，RRFB视网膜感受野单元包括依次串联的三个RRFB模块，所述RRFB模块包括四个含有卷积层、BN层和激活层的分支，所述TIFB双信息流模块输出至RFB视网膜感受野单元，经过所述RRFB模块中的卷积层、BN层和激活层分支处理后输出，四个分支的输出合并即为所述RRFB模块的输出；

特征图处理卷积构建步骤，构建4个依次相连且2个为一组的、均包括有依次串联的卷积层、BN层和激活层的卷积模块，所述RRFB视网膜感受野单元的输出依次经过所述4个卷积模块完成特征线性变换、特征图的通道数加倍与减半；

2.如权利要求1所述的基于双信息流与视网膜感受野结构的行人检测模型设计方法，其特征在于：所述TIFB双信息流模块的三个依次串联的TIFB基本单元之间，从上至下以全连接方式连接，即从上至下将当前层的特征图信息与靠后层特征图进行依次连接。

3.如权利要求1所述的基于双信息流与视网膜感受野结构的行人检测模型设计方法，其特征在于，所述RRFB模块的四个含有卷积层、BN层和激活层的分支，具体的：

第三个分支，将所述TIFB双信息流模块的输出依次经过1*1的卷积层、BN层和激活层，其次将结果再依次经过3*3的卷积层、BN层和激活层，然后将结果再依次经过3*3的卷积层、BN层和激活层，再将结果依次经过3*3的膨胀卷积层、BN层和激活层，最后得到分支三的输出y₃；

4.如权利要求3所述的基于双信息流与视网膜感受野结构的行人检测模型设计方法，其特征在于：所述四个分支的输出合并即为所述RRFB模块的输出，具体的是将所述的四个分支的输出y₁、y₂、y₃和y₄合并，得到RRFB模块的最终输出y=y₁+y₂+y₃+y₄，且合并的方式是四个分支的输出进行通道拼接。

5.如权利要求4所述的基于双信息流与视网膜感受野结构的行人检测模型设计方法，其特征在于：所述四个分支的输出均是与原始图片一样的w*h*c数据格式，表示原图片是宽为w、高为h的通道为c的图片。

6.如权利要求1所述的基于双信息流与视网膜感受野结构的行人检测模型设计方法，其特征在于，所述4个卷积模块，从上至下依次具体的：

7.如权利要求1所述的基于双信息流与视网膜感受野结构的行人检测模型设计方法，其特征在于：所述用于变换行人检测特征图的尺寸和通道数使特征图符合行人的二分类和位置框回归的数据输出格式的卷积单元为6个；

8.如权利要求1所述的基于双信息流与视网膜感受野结构的行人检测模型设计方法，其特征在于：所述Conv1卷积单元构建步骤中，构建包括用于提取特征的卷积核为7*7的卷积层。