CN109284669A

CN109284669A - 基于Mask RCNN的行人检测方法

Info

Publication number: CN109284669A
Application number: CN201810860454.4A
Authority: CN
Inventors: 孙福明; 蔡希彪; 贾旭
Original assignee: Liaoning University of Technology
Current assignee: Liaoning University of Technology
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2019-01-29

Abstract

基于Mask RCNN的行人检测方法：结合Mask RCNN中对Faster RCNN的改进，如加入特征金字塔结构、结合上下文信息的反卷积融合和目标分割网络分支，详细叙述了Mask RCNN的特征提取网络结构、区域推荐网络结构、候选窗口分类与分解网络结构、超参数设置情况。最后，在开源的Keras深度学习框架和MS COCO通用目标检测数据集采用端到端结合部分权重冻结的方法，实现了其对行人检测的具体应用。可在环境复杂的不同路况进行行人检测，可有效的提高召回率和准确率。对Mask RCNN优化，可将误检的车内司机和乘客问题完美修正，其充分体现的了通用目标检测模型的优势。

Description

基于Mask RCNN的行人检测方法

技术领域

本发明属于行人检测方法领域，特别涉及基于Mask RCNN的行人检测方法。

背景技术

随着科技的发展和时代的进步，不得不承认我们的生活方式也随之不断地变化着。人们的出行方式不断更新，汽车是当代环境下最为广泛的一种交通工具，据公安部交管局统计，截至2017年6月底，全国机动车保有量达3.04亿辆，其中汽车2.05亿辆，同事交通安全问题特别突出，据不完全统计，每年中低收入国家在交通事故中丧生的人数已经达到全球总死亡人数的90％以上，然而这些国家拥有的车辆总数仅占全球车辆总数的48％。触目惊心的数据带来的是交通安全问题背后的深思，而分析多种交通事故原因我们发现虽然造成交通事故频发的原因有很多，但对行人的关注度不高是其中至关重要的原因之一。

为了解决这个问题，国内外研究人员提供了很多解决办法，最典型的就是辅助驾驶系统。先进的辅助驾驶系统(ASAD)，而在该系统中，最为关键的技术就是行人检测技术。

行人检测技术的最终目的是用以判断某个视频序列或图像中是否有行人的存在，在此基础上能够准确的框出行人的位置。虽然目前的研究已经可以在一定程度判断出行人的图像，但是依然存在着很多不能完全准确识别分辨的问题。

发明内容

本发明的目的是提供基于Mask RCNN的行人检测方法，本方法可以在环境复杂的不同路况进行行人检测。

基于Mask RCNN的行人检测方法：

首先介绍了Mask RCNN方法的整体结构、行人检测数据集的选择和算法性能评价方法，表明了相比原始的专用行人检测算法，通用目标检测数据集和通用目标检测算法的优点。然后，结合Mask RCNN中对Faster RCNN的改进，如加入特征金字塔结构、结合上下文信息的反卷积融合和目标分割网络分支，详细叙述了Mask RCNN的特征提取网络结构、区域推荐网络结构、候选窗口分类与分解网络结构、超参数设置情况。最后，在开源的Keras深度学习框架和MS COCO通用目标检测数据集采用端到端结合部分权重冻结的方法，实现了其对行人检测的具体应用。实验结果表面，本方法可以在环境复杂的不同路况进行行人检测，此外训练数据集的目标尺度分布与测试数据集的目标尺度分布项匹配可以有效的提高召回率和准确率。利用Mask RCNN可以同时生成准确目标分割结果的特点，设计了针对行人检测的优化方法，可以将误检的车内司机和乘客问题完美修正，其充分体现的了通用目标检测模型的优势。

其优点在于：

提出了基于Mask RCNN和图像分割的目标检测算法。首先，详细介绍了Mask RCNN目标检测算法结构以及相较于Faster RCNN算法的改进。其次，论述了训练集目标尺度分布于测试集目标尺度分布的关系，并是用MR-FPPI指标测试其性能。最后，结合Mask CNN可以同时进行目标检测和目标分割的特性，针对车内目标误检为行人的情况，提出一种结合目标分割结果的优化算法，并使用MR-FPPI指标测试其性能。

附图说明

图1为Mask RCNN算法流程图。

图2为数据集目标标签对比图，(a)Caltech数据集标注。

图3为数据集目标标签对比图，(b)Cityscapes数据集标注。

图4为Cityscapes数据集检测结果，图(a)原始图像。

图5为Cityscapes数据集检测结果，(b)目标检测后图像。

图6为残差网络单元结构示意图。

图7为残差网络部分结构示意图。

图8为区域推荐网络算法流程图。

图9为候选窗口分类、分割处理流程图。

图10为MS COCO训练集人类目标高度分布直方图。

图11为Cityscapes数据集不同分辨率测试结果图，(a)0.5倍放缩测试结果直方图。

图12为Cityscapes数据集不同分辨率测试结果图，(b)1倍放缩测试结果直方图。

图13为Cityscapes数据集不同分辨率测试结果图，(c)2倍放缩测试结果直方图。

图14为Cityscapes数据集不同比例缩放测试结果图。

图15为车内司机与乘客误检为行人，(a)车内乘客。

图16为车内司机与乘客误检为行人，(b)车内司机。

图17为优化算法应用前后对比图，(a)算法改进前。

图18为优化算法应用前后对比图，(b)算法改进后。

图19优化算法测试结果。

具体实施方式：

基于Mask RCNN的行人检测方法：

在目标检测算法方面，卷积神经网络已经替代了传统的人工设计特征的形式成为目标检测的主流算法。RCNN系列算法主要是应用卷积神经网络的目标检测算法族，MaskRCNN框架在RCNN系列算法中属于比较前沿的，其在高分辨率的目标检测上性能优异，由于行人检测与通用目标检测在功能上具有相似性，所以该算法可以直接应用在行人检测中。在现实情况中，由于摄像器材分辨率的不同，导致目标分辨率随之出现差异，这导致不同数据集里目标分辨率的不同，在此基础上，由于卷积神经网络的特性，用训练集训练的模型对目标分辨率是敏感的。针对行人检测问题，当使用一个数据集训练的模型去测试另一个数据集的行人时，会出现目标召回率低的问题，比如训练集采用MS COCO的数据，测试采用Cityscapes 数据集，此时由于图像分辨率与目标分辨率的差异会导致行人目标丢失率较高。通过统一调整输入图像的分辨率以实现调整其数据集目标尺度的分布情况，利用MR-FPPI(Miss rate against false positives per image)曲线指标测试其结果，可以发现该方法能明显改善检测性能。

Mask RCNN算法介绍：

Mask RCNN的检测结果可以在没有添加任何技巧的前提下超过各种数据增强加持下的 FCIS，FCIS是COCO 2016分割挑战赛的冠军。该方法优于其他方法最大的一个特点就是Mask RCNN是属于检测和分割是并行进行的。Mask RCNN是基于经典的Faster RCNN的框架基础进行改进的，在Faster RCNN基础特征网络的后面加入了全卷积的分割子网，这样就使得原来Faster RCNN网络用来进行的分类和回归的两个任务变为现在了Mask RCNN网络中的分类、回归以及分割的三个任务。

Mask RCNN将Faster RCNN网络中经典的RoI Pooling层替换成了RoI Align，RoIAlign 引入了一个插值过程，这可以很大程度上解决了仅通过Pooling直接采样带来的对齐问题。并且在此基础上添加并列的Fully Convolution Networks层(FCN)。总的来说MaskRCNN在边框识别的基础上添加了分支网络，这就可以用于语义Mask识别。而且Mask RCNN网络的训练简单方便，与Faster RCNN相比仅增加一个小的支出，就可以达到5FPS的处理速度。而且Mask RCNN可以方便的扩展到其他任务，比如人的姿态估计等。Mask RCNN不借助技巧，在每个任务上，效果优于目前所有的单一模型检测。

Mask RCNN具体的过程如下：

其作者在论文中给出了包含FPN和不包含FPN两种框架，本次使用带FPN的MaskRCNN 网络结构，具体如图1所示。

首先，输入一幅图像，Mask RCNN使用RPN网络来产生候选区域(ROI)。然后利用ResNet-101残差卷积网络提取出这幅图像的整体特征，从而进一步得到这幅图像的特征图，这里的特征提取过程与Faster RCNN网络提取特征的过程相同。下一步就是进一步得到图像中每个ROI区域的特征图，对每一个ROI使用ROI Align进行像素校正。而得到每个ROI区域的特征图后，对每个ROI进行预测，得到其类别以及bounding box。最后对每一个ROI使用设计的FCN框架预测ROI区域每个像素点所属类别，最终得到图像实例分割结果。

行人数据集选择与算法性能评价方法：

关于行人检测的数据集有多种，其中常用的数据集对比如表1所示。

表1常用行人数据集及其特点

在深度学习中，模型的性能由三方面决定。首先是模型的结构，模型的结构决定着它的复杂度，针对难度不同的任务选择复杂度适合的模型能取得较好的效果，而模型过于复杂往往会造成学习能力过强，从而出现过拟合现象。对于行人检测任务，行人属于非刚性物体，并且由于其衣着和形态多种多样，道路环境的内容非常丰富，因此需要选择复杂度加高的网络结构，Mask RCNN作为目前性能最好的目标检测算法，它是一个较好的选择。其次是数据集图像的分辨率、清晰度和标注的情况都是非常重要的，本次实验没有选用Caltech数据集，虽然它是较为经典的行人检测数据集，此前的多篇文章选择其作为训练集和测试集，但是随着时间的推移，新的车载摄像机采集的数据集出现了，即为 Cityscapes数据集。

Cityscapes数据集分为粗糙标注和精细标注两部分，其中的精细标注的数据集在图像分辨率，目标清晰度，以及目标标注的确定性和全面性都远远超过 Caltech数据集。在Caltech数据集中有许多正常行人并没有给出标注信息，而在测试时，这种掺杂主观选择性的目标标注方式对于性能越高的目标检测算法造成的影响越大，这是由于在计算机眼中一切行人目标都都应该被同等对待的。 Caltech数据集的目标标注是采用长方形方框的形式，其四个坐标存在一定误差，而Mask RCNN算法对于目标检测已经到达像素级精度，由于Caltech数据集在边框坐标标注精度较低，已经不适合测试Mask RCNN算法，具体如图2和3所示，其中图2为Caltech数据集的目标标签，可以看出其边框与真实行人目标存在较大间隙，图3为Cityscapes数据集的目标标注情况，其以做到像素级精确，可以依照其目标分割信息得到精确的目标检测边框。

在Mask RCNN中，目标边框的作用主要是为目标分割支路提供感兴趣区域，具体的目标边界由目标分割支路完成，进而得到精确的目标检测边框。如图4和5所示，其中图4(a)为Cityscapes数据集中被检测图像，图5(b)为使用Mask RCNN算法进行检测得到的图像。

Mask RCNN中在利用RPN获取感兴趣区域和目标分类两方面极大地提高了目标分割的准确度，同时，目标分割也使得目标边框更加准确。而且其良好的像素级的目标分割也为其后续行人检测优化算法提供了技术基础。

在Cityscapes数据集中，并不是每张图像中都有行人存在，本设计针对行人检测，故筛选出Cityscapes数据集里5000张精细标注中带有行人的2900张图像进行测试。

MR-FPPI(Miss rate against false positives per image)是目标检测中评估性能的一个重要指标，行人检测属于目标检测中的一种特殊情况，故也使用MR与 FPPI的关系曲线来评估其性能。MR为目标漏检率，FPPI称为平均每张图中误判目标的数目。检测器的目的是在图像中找到目标并用矩形框框出目标物体(例如行人)，同时每个被矩形框框出的目标还有一个分数，代表其准确度的信心强弱，只有分数高于阈值的目标才会被框出，这个阈值也是输出MR-FPPI曲线的关键，通常来说，分数阈值越高，FPPI会越低，而MR会越高。

训练集的选择：

RCNN出现之前，行人检测并不是采用通用的目标检测模型，而是使用HOG 加SVM框架完成行人检测任务。其模型只能检测图像中的行人目标，无法同时识别其他相关目标，如轿车、公交车、卡车、摩托车、自行车、交通标志以及交通信号灯等。这些非行人目标在某些角度观察，其与行人十分相似，这是行人检测误检的原因之一。采用通用目标检测模型则可缓解这一情况。

一般训练行人检测模型采用专用的行人检测数据集，如Caltech，但其训练集在目标标注时只标注行人，对其他一些相似的人形物体，如车辆、树木、猫、狗、交通标志等，这些易混目标均未标出区分。而在MS COCO可以标记出80 种不同物体，可以把与行人相似的非行人目标划分到具体的正确类别。更重要的是Caltech数据集并没有目标分割标注，而只是使用窗口框出目标，无法训练 Mask RCNN的目标分割支路的参数。

考虑到环境因素和图像分辨率因素，以及训练Mask RCNN必须具备对目标分割的标注，最终选择了MS COCO作为训练集，选择Cityscapes数据集中带有行人的精细标注的图像作为测试集。

基于Mask RCNN方法的行人检测网络结构设计：

特征提取网络设计：

选择目前效果较好的开源CNN网络作为特征提取网络。其中，ResNet-101 网络在目前特征提取方面性能表现优异，与其他卷积神经网络相比，它加入了残差函数，这种残差函数可以使CNN的深度达到很高的情况下不出现退化。在计算机视觉中，随着网络层数的增加，其提取的特征等级也越高，越接近语义信息。在没有残差网络出现前，网络层数过深会带来梯度弥散或者梯度爆炸现象，解决了退化问题后，随着网络层数的增加其性能也不断增加，如ResNet-50、 ResNet-101、ResNet-152的性能为稳步提升。

具体残差函数结构为图6所示。如果设输入特征矩阵为x，中间权重网络为 F，则输出到下一层的特征矩阵为H(x)＝F(x)+x，单元网络拟合的函数为 F(x)＝H(x)-x。其最初目的是模拟恒等学习情况，认为网络要学习一个F(x)＝x的映射比学习F(x)＝0的映射更难。除此之外，残差结构带来的另一实际影响是输出特征矩阵的变化对中间权重网络为F的影响更大，使其更加敏感。残差网络的思想即为去掉相同的主体部分，从而突出特征矩阵的变化，这与电路中的差分放大系统十分相似，差分放大系统可以解决信号远距离传输中的线路干扰，残差网络可以解决深层网络中的梯度弥散或者梯度爆炸问题。

特征提取部分网络结构示意图如图7所示。

图7在Max pooling层之后的x支路加入了卷积核为1*1的卷积层和BN (BatchNormalization)层，其作用为改变矩阵维数，在后续的残差结构中则没有该卷积层与BN层，将输入特征矩阵直接与F(x)相加。在每一个F(x)结构中，都由三次卷积组成，第一次和最后一次为1*1的卷积核，其作用做改为矩阵维数，中间为3*3的卷积核。其后续的残差网络就是此网络的重复叠加，其中卷积核一直为3*3，而特征矩阵的通道数则不断变化。

用基于TensorFlow后端的Keras深度学习框架库复现Mask RCNN算法，采用MSCOCO数据集训练该模型。目前，目标检测算法主流框架为FPN和融合上下文信息。融合上下文信息即低层视觉信息结合高层语义信息，结合方法为多种方式，如元素逐一相加或相乘、特征图累加使通道数增多等方式，其中逐元素相加方法效果较好，故本次采用此种方法。

目前，TensorFlow框架对多显卡并行训练支持较好，在使用随机梯度下降算法时，每次批处理的样本图像越多，则模型泛化能力与loss下降稳定性越高，但MS COCO数据集的图像分辨率并不一致，为提高批处理能力，把输入图像统一处理为1024*1024分辨率，但保证样本图像原始纵横比，对于其他部分进行补0处理。

表2列出ResNet-101残差网络与特征金字塔在组合时特征矩阵的维度具体数值，以及特征金字塔对其进行降维后的分辨率，该特征金字塔为5层，残差网络只输出4个特征矩阵，其最后一层的特征矩阵由倒数第二层直接降维得到。

结合上下文信息对小目标检测是很有帮助的，行人检测任务中，会出现大量小目标需要被检测的情况，在得到FPN层特征矩阵后，对高层特征矩阵进行反卷积处理，使其与前一层特征矩阵维度一致，通过矩阵逐元素相加的方法使其相互融合。

表2特征矩阵分辨率对比表

至此，图像的特征提取完成，将一张图像转化为5个特征矩阵，后续将通过区域推荐算法，从5个特征矩阵中寻找前景目标。

区域推荐网络设计：

RCNN系列算法的基本流程为：先对图像进行特征提取，而后通过该特征矩阵得到前景目标，以往选取前景目标通常采用滑动窗口的形式，可以想象这是多个小任务在累加进行处理，其处理过程则是串行进行的。而Faster RCNN 提出RPN区域推荐网络结构，使用锚点形式，使串行处理的滑动窗口任务变成并行处理的锚点任务，这大大加快了处理速度。而Mask RCNN选取前景目标的形式与Faster RCNN的基本一致，由于FPN层的存在，每个FPN层的每个锚点的数量并不是Faster RCNN中的3种尺度与3种形状(组合起来共9种形状)，而是只有一种尺度的3种形状，即竖直长方形、水平长方形和正方形。如FPN 的第一层的特征矩阵分辨率为256*256*256，则一共产生256*256*3个预选窗口，第二层的特征矩阵分辨率为128*128*256，则一共产生128*128*3个预选窗口，根据原始图像分辨率与每个特征矩阵分辨率，可以计算出每个锚点的三个预选窗口的坐标，通过一个卷积核为3×3的卷积层，可以得到新的矩阵，其值为每个窗口生成的目标概率值和四个坐标偏移量。用4个变量P_cx、P_cy、P_w、P_h分别表示每个锚点预选窗口的中心横坐标、中心纵坐标、窗口宽度、窗口高度。四个坐标偏移量为d_x、d_y、d_w、d_h分别为预选窗口中心点的平移横坐标、中心点的平移纵坐标、窗口宽度缩放系数、窗口高度缩放系数。最终得到的新窗口值为P′_cx、 P′_cy、P′_w、P′_h，其生成关系如公式(1)所示。

P′_cx＝P_cx×P_w+d_x

P′_cy＝P_cy×P_h+d_y (1)。

P′_w＝P_w×exp(d_w)

P′_y＝P_y×exp(d_h)

Faster RCNN是在一个特征层上生成所有的锚点窗口，而加入FPN的Mask RCNN是在不同特征层上生成不同尺寸的锚点窗口，随着特征层逐渐增高，特征层越来越抽象，每个锚点所对应在原始图像的面积则越大，表3为RPN各层锚点窗口对应的尺寸。

表3RPN锚点窗口设置

表3可以看出其锚点窗口的设置广泛覆盖了MS COCO数据集中各个尺寸的目标。

区域推荐网络整体流程图如图8所示。

通过特征提取网络得到的5个特征矩阵都要经过图8所示的流程图处理，最终得到推荐窗口列表。在此设计均未采用SVM分类器，而是采用Softmax分类器，相比于SVM的得分的结果Softmax分类器的得分结果具有概率意义， Softmax将其得分映射到概率空间，其末项得分既为目标属于该类别的概率值。

对于输入图像调整为1024*1024分辨率的图像，所产生的窗口数量的巨大的，就算后期去掉超出图像边缘的锚点窗口，其数量也是十分巨大的，对其逐一进行分类、回归和目标分割就需要极大的计算量。故通过对每个窗口的目标概率值进行排序，在进行非极大值抑制处理后，在训练阶段保留2000个推荐窗口，在测试阶段保留1000个推荐窗口。

关于锚与样本目标框匹配的问题，选择所有锚中与样本目标框重叠率最高的以及重叠率大于0.7的为正样本，重叠率小于0.3的为负样本，其他作为中立样本。为保证正负样本数量的平衡，正样本数量不得超过选择锚总数的一半，正负样本的超出的部分将被置为中立样本。所有锚即为不同FPN层锚的总和。

候选窗口分类、分割处理设计：

如前述，通过RPN区域推荐网络得到初步的前景目标，本小结将对得到的推荐目标进行处理。

由于Faster RCNN中全连接层的存在，若要处理任意分辨率的图像，必须在全连接层之前进行统一量化操作，Faster RCNN采用RoI Pooling层完成此操作，但其并不能保证输入与输出之间像素级的一一对应，该过程对于分类并不会造成较大影响，但对像素级的目标分割造成影响较大。而Mask RCNN的RoI Align层去除RoI Pooling层中所有量化过程，复现时将目标检测支路延续使用 Faster RCNN的RoI Pooling的7*7尺寸，目标分割支路采用14*14尺寸。本设计在从特征图中抽取感兴趣区域时采用双线性插值减小误差的存在。

目标分割网络与目标检测网络都是从区域推荐网络接收候选窗口，结合前述特征金字塔得到的5层特征矩阵，从中抽取出候选窗口所对应的局部特征矩阵，既RoI Pooling层与RoI Align层输出的特征矩阵，其二者原理相同，只是分辨率不同。

候选窗口分类、分割处理流程图如图9所示。从图中可以看到，在复现时 RoIPooling层得到的特征矩阵经过两个卷积核为1*1的卷积层处理，其效果与全连接层一样。由于MS COCO数据集复杂度较高，则没有仿照Faster RCNN 在卷积层之后加入dropout层。每个候选窗口都将得到一个81维的向量，其经过sigmoid函数处理后得到81个概率值，其对应80种物体和背景的概率值，其中哪类概率值最高，该候选窗口既为那一类目标，最终模型输出结果时，只有概率值高于设定阈值时才会在图像中标记出该物体。在得到候选窗口概率值的同时，还将进一步根据目标属于哪一类物体对其位置坐标进行精确调整。由于输出结果非常多，会出现统一物体重复标记的情况，故在目标检测的最终输出结果中使用非极大值抑制算法对重叠率较高的目标进行删减处理。

在得到目标检测结果的同时，还将处理目标分割网络。其在RoI Align层处理后得到各个候选窗口的特征矩阵，对其进行多次卷积操作后对其进行反卷积操作，并对每一类别单独产生图像分割的二值图，二值化的过程通过sigmoid函数完成，最终该感兴趣区域采用哪个类别的二值图由目标检测分支输出的目标类别来决定，这也消除了通常目标分割所面对的类间竞争问题。

损失函数设计：

关于损失函数，Mask RCNN在Faster RCNN基础上添加了L_mask变量，它对预测得到的目标分割二值图进行交叉熵运算，其为多任务学习方式，整体损失函数如公式(2)所示：

L＝L_cls+L_box+L_mask+L_p+L_r (2)。

其中L_mask为目标分割结果的损失，L_cls为目标检测分类损失，L_box为目标检测坐标回归损失，L_r为权重正则化损失，L_p为区域推荐网络损失。

(1)目标检测分类损失：

在训练时，目标检测网络会得到200个的区域推荐窗口，这个正负样本的比例是1:2。设p为正确分类所对应的概率值，L_cls表示200个区域推荐窗口的分类损失，选择交叉熵作为衡量标准，其计算如公式(3)所示：

(2)目标检测坐标回归损失：

坐标回归损失与目标检测分类损失的衡量标准不同，选择smooth L1作为其衡量标准。其计算如公式(4)所示：

(3)目标分割结果的损失：

在训练时，目标检测网络会得到200个的区域推荐窗口，目标分割会输出200个28*28的矩阵，矩阵的每个元素为0至1的概率值。选择对数损失函数来衡量目标分割结果。下面给出对数损失函数在单个数据点的定义，如公式(5) 所示：

Cost(y,p(y|x))＝-yln p(y|x)-(1-y)ln(1-p(y|x)) (5)。

每个窗口目标分割图像矩阵维度是28*28，则L_mask的公式如式(6)所示：

(4)区域推荐网络损失：

RPN网络只需要区分候选窗口是否为前景就可，故其为二分类问题，可以参考L_cls、L_box进行计算。

(5)权重正则化误差：

L_r即为所有权重系数的平方和与比例系数α的乘积，具体如公式(7)所示，其中w为网络可训练的权重参数。

网络超参数设置：

Mask RCNN网络为端到端设计，这给训练带来了极大的方便，不但提高了整体的操作的效率，还可以有效降低操作人员的门槛。但这样做也有其弊端存在，主要是在性能提高的时候不易察觉到问题所在，如果是分步骤执行的训练，在通过对比操作来找到问题所在，从而突破瓶颈，提高性能。在训练时，可以选择有意的冻结部分权重来满足分步训练的需求。

在训练深度学习模型时，不仅要准备已标注的数据集、网络结构和初始化网络权重参数，更好设置控制训练过程的超参数，本网络的超参数在表4中被列出。

表4超参数设置

实验分析：

选择MS COCO数据集的训练集作为Mask RCNN的训练集，其具有80类不同目标，在目标标注方面，特别是小目标标注方面比其他多分类的数据集更为细致和清晰。在训练前将训练集图像在保持纵横比的情况放缩到1024*1024分辨率，对其中人类目标尺寸进行统计，结果如图10所示，从直方图图中可以明显看出其目标尺寸的分布极广泛但不均匀，大部分人类目标高度尺寸集中在30 个像素值附近。

在Mask CNN中，其FPN中最底层的特征图种每个锚点所对应感兴趣区域面积为16*64、32*32和64*16，在训练和测试时，正样本与锚点的感兴趣区域的重叠率为0.7，若目标的面积过小，则其无法获得足够的重叠率，故对于较小目标的识别率极差。我们对Cityscapes数据集进行放缩处理，放缩倍数分别为0.5 倍、1倍和2倍，针对三种分辨率的数据集分别利用MS COCO训练集训练的模型进行测试，测试结果如图10所示，图中蓝色柱状图为测试集所有人类目标高度直方图，红色柱状图为模型在该测试集召回正确目标的高度直方图，从图中可以看出，输入图像被0.5倍缩放后，其对高度小于16像素的小目标无法识别。

通常，在对图像分类模型进行训练时，其训练集样本数量越多则模型学习到的模型越准确。使用的MS COCO数据集中人类目标各个尺度的样本数量存在较大差别，这也会出现各个尺度权重训练程度不一的情况，对于样本数量充足的尺度则训练效果较好，相反，对样本数量不足的尺度则效果相对较差。在图 11-13中，图12(b)和图13(c)进行对比可以看出，同样的目标被放大后其识别效果相对较差。

在实际中，制作一个数据集的人力成本和时间成本是巨大的，这种目标尺度分布不均匀的情况是很难避免的和改变的，但可以通过一些方法在不改变数据集的情况下提高模型的性能：

(1)针对最小锚尺寸固定的问题，可以实际查询测试集中最小样本的尺寸，将其放大到可以识别范围内。

(2)小目标被放大的同时，正常目标也被放大，其识别率会降低，在不考虑显存使用不符合性价比的情况下，可以同时对一张图像的多种缩放图像进行同时处理，对得到的目标统计合并，并对最终结果运用非极大值抑制算法取出重复的目标。

针对行人检测问题，采用Mask RCNN通用目标检测框架，其生成区域推荐网络算法的方式决定其对于小目标识别存在硬性临界值，即面积小于某一阈值的目标无法被识别。可通过对输入图像进行分辨率调整提高小目标检测能力，在行人检测领域，对于模型性能的评价标准有许多，其中较为合理的是MR-FPPI (Miss rate against false positivesper image)曲线指标。在此采用MS COCO数据集中的训练集训练Mask RCNN模型，测试集我们选择Cityscapes中精确标准的训练集和验证集，将其分别放缩为0.5倍、1倍和2倍进行测试，测试结果绘制成MR-FPPI曲线，如图14所示。

横轴为FPPI指标，纵轴为MR指标，其中红色线、蓝色线与绿色线分别对应放缩0.5倍、1倍与2倍后的检测结果，可以看出在平均每张图误检数量为1 时，放缩1倍和2倍分别可以获得0.7和0.73的准确率。其曲线与纵轴、横轴所围成的面积越小表明确其模型性能越好，即在每张图误判目标尽可能低的情况下，其获得的漏检率也较低。

图14中可以看到，在FPPI指标较低的情况下，其三条曲线交织在一起，即此时模型对于三种分辨率的图像的检测性能是相似的，随着FPPI的指标不断增高，即图像中误判目标的逐渐增多，其高分辨率图像中目标的漏检率明显减低。而低分辨图像的漏检率存在下限，其原因为特征金字塔以及其对应的锚存在最窗口，即目标过小时其分数过低无法通过特征金字塔与锚的机制将其在后续的区域推荐网络中筛选出，进而无法在后续的目标检测网络与目标分割网络中将该目标直接丢失。当图像放大后，其相应的目标也跟随去一起放大，而在图像中高分辨的大目标的数量相较与低分辨了的小目标图像其数量较少，故其MR-FPPI曲线会出现图14中的情况。

行人检测算法的优化：

前所述都是对所有小目标检测使用的，算是一种通用优化算法，在针对具体行人检测问题是，行人具有其特定性，并不是图像中所有人类都是行人，只有在道路上行走的行人才是行人，在车内的人并不属于行人，但在实际情况中经常将车内的司机或者乘客判断为行人，具体如图15-16所示。

在Mask RCNN中，可以将物体的边缘精确到像素级而不仅仅是一个矩形框，基于此，可以准确的判断该人是在车内还是车外。判断流程如下：

(1)通过检测行人下面是否有摩托车或自行车来判断是否为行人，因为无论是司机或者乘客都不会在其下方出现自行车或摩托车。

(2)通过检测该人与车的像素重合率判断该人是在车内还是车外。

应用该算法前后检测效果如图17-18所示图中可以看出车内司机与乘客未被标记，而与车辆重叠较大的骑摩托车行人，也未被判断为车内乘客，这在一定程度提高了准确度。

针对行人检测中车内司机与乘客被误判问题，也采用MR-FPPI曲线测试其性能，使其应用在效果较好的2倍放缩的Cityscapes数据集，测试结果如图19 所示。

图19中可看出，优化后的蓝线比优化前的红线更低，经过优化后期输入图像放缩为2倍分辨率时准确率为0.75。

Claims

1.基于Mask RCNN的行人检测方法，其特征在于包括下列步骤：首先是基于Mask RCNN方法的行人检测网络结构设计方法；

基于Mask RCNN方法的行人检测网络结构设计方法包括：特征提取网络设计，区域推荐网络设计，候选窗口分类、分割处理设计和损失函数设计。

2.基于Mask RCNN的行人检测方法，其特征在于包括下列步骤：特征提取网络设计：

在Max pooling层之后的x支路加入了卷积核为1*1的卷积层和BN层，其作用为改变矩阵维数，在后续的残差结构中则没有该卷积层与BN层，将输入特征矩阵直接与F(x)相加；在每一个F(x)结构中，都由三次卷积组成，第一次和最后一次为1*1的卷积核，其作用做改为矩阵维数，中间为3*3的卷积核；其后续的残差网络就是此网络的重复叠加；

列出残差网络与特征金字塔在组合时特征矩阵的维度具体数值，以及特征金字塔对其进行降维后的分辨率，该特征金字塔,层数比残差网络只输出特征矩阵数多1，残差网络最后一层的特征矩阵由倒数第二层直接降维得到；

结合上下文信息对小目标检测，行人检测任务中，会出现大量小目标需要被检测的情况，在得到FPN层特征矩阵后，对高层特征矩阵进行反卷积处理，使其与前一层特征矩阵维度一致，通过矩阵逐元素相加的方法使其相互融合；

至此，图像的特征提取完成，将一张图像转化为度个特征矩阵，后续将通过区域推荐算法，从多个特征矩阵中寻找前景目标。

3.基于Mask RCNN的行人检测方法，其特征在于包括下列步骤：区域推荐网络设计：

通过特征提取网络得到的每个特征矩阵，分别经过两路卷积层、BN层、ReLU层、卷积层、BN层和ReLU层，再分别对应Sigmoid层和锚点窗口概率值列表，以及锚点窗口坐标变换和锚点窗口位置列表，再共同经过非极大值抑制处理，最终得到推荐窗口列表。

4.基于Mask RCNN的行人检测方法，其特征在于包括下列步骤：候选窗口分类、分割处理设计：

在复现时RoI Pooling层得到的特征矩阵经过两个卷积层处理，每个候选窗口都将得到一个多维的向量，其经过sigmoid函数处理后得到多个概率值，其对应多种物体和背景的概率值，其中哪类概率值最高，该候选窗口既为那一类目标；

在得到候选窗口概率值的同时，还将进一步根据目标属于哪一类物体对其位置坐标进行精确调整；由于输出结果非常多，会出现统一物体重复标记的情况，故在目标检测的最终输出结果中使用非极大值抑制算法对重叠率较高的目标进行删减处理；

在得到目标检测结果的同时，还将处理目标分割网络；在RoI Align层处理后得到各个候选窗口的特征矩阵，对其进行多次卷积操作后对其进行反卷积操作，并对每一类别单独产生图像分割的二值图，二值化的过程通过sigmoid函数完成，最终该感兴趣区域采用哪个类别的二值图由目标检测分支输出的目标类别来决定。

5.基于Mask RCNN的行人检测方法，其特征在于包括下列步骤：损失函数设计：

1)目标检测分类损失；2)目标检测坐标回归损失：3)目标分割结果的损失；4)区域推荐网络损失；5)权重正则化误差。

6.基于Mask RCNN的行人检测方法，其特征在于包括下列步骤：还有网络超参数设置：为提高性能，在训练时，可以选择有意的冻结部分权重来满足分步训练的需求。

7.基于Mask RCNN的行人检测方法，其特征在于包括下列步骤：当机动车上的驾驶员和乘客被判断为行人时，在Mask RCNN中，可以将物体的边缘精确到像素级而不仅仅是一个矩形框，基于此，可以准确的判断该人是在车内还是车外；判断流程如下：

1)通过检测行人下面是否有摩托车或自行车来判断是否为行人，因为无论是司机或者乘客都不会在其下方出现自行车或摩托车；

2)通过检测该人与车的像素重合率判断该人是在车内还是车外。