CN113723322A

CN113723322A - 一种基于单阶段无锚点框架的行人检测方法及系统

Info

Publication number: CN113723322A
Application number: CN202111025295.4A
Authority: CN
Inventors: 李泽超; 丁志峰
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-11-30

Abstract

本发明涉及一种基于单阶段无锚点框架的行人检测方法及系统。所述方法包括：获取行人数据集，对行人数据集进行预处理得到图集，将行人数据集输入网络模型得到第三特征图；网络模型包括依次连接的残差网络、交叉融合特征金字塔和检测头；计算第三特征图与图集中各图之间的误差；根据误差采用反向传播算法对网络模型进行训练得到行人检测模型，行人检测模型用于进行行人检测。本发明得到的行人检测模型可在一定程度上解决行人类间差异小的问题，从而提高行人检测的准确性。

Description

一种基于单阶段无锚点框架的行人检测方法及系统

技术领域

本发明涉及行人检测领域，特别是涉及一种基于单阶段无锚点框架的行人检测方法及系统。

背景技术

行人检测是利用计算机视觉技术判断图像或者视频序列中是否存在行人并给予精确定位，是计算机视觉中的经典问题，行人检测在视频监控、车辆辅助驾驶、人体行为分析等领域中都有着重要的应用和不同的要求。如车辆辅助驾驶系统既要能够保护行人的人身安全和驾驶员的行车安全，在实时自动检测行人的同时还需与驾驶员进行互动。行人检测作为目标检测中的子任务之一，任务目标为定位图像或视频关键帧中所有不同大小的行人，这对模型的精度和速度都有着很高的要求。此外，该领域还具有背景复杂、遮挡问题、类间差异小等难点。

在现有技术中，解决背景复杂问题往往需要获取更多的上下文信息或重新定义正负样本；遮挡问题大都需要通过给目标添加随机遮挡提高数据集多样性或生成额外的辅助框等特殊处理进行解决；然而并没有很好的解决行人类间差异小这个问题的办法。

发明内容

本发明的目的是提供一种基于单阶段无锚点框架的行人检测方法及系统，可在一定程度上解决行人类间差异小的问题，从而提高行人检测的准确性。

为实现上述目的，本发明提供了如下方案：

一种基于单阶段无锚点框架的行人检测方法，包括：

获取行人数据集；所述行人数据集为行人被框选的行人图像；

对所述行人数据集进行预处理得到图集；所述图集包括掩膜图、尺寸图和偏移图；所述掩膜图为包括行人中心点和行人图像高斯分布掩膜的图；所述尺寸图为包括行人长宽比信息的图；所述偏移图为包括行人中心点偏移量信息的图；所述行人中心点为所述行人数据集中框的中心点；

将所述行人数据集输入网络模型得到第三特征图；所述网络模型包括依次连接的残差网络、交叉融合特征金字塔和检测头；所述残差网络中的归一化方法包括组归一化和批标准化；

计算所述第三特征图与所述图集中各图之间的误差；

根据所述误差采用反向传播算法对所述网络模型进行训练得到行人检测模型，所述行人检测模型用于进行行人检测。

可选的，在所述对所述行人数据集进行预处理得到图集之前还包括：

对所述行人数据集进行数据增强处理得到增强后的行人数据集。

可选的，所述对所述行人数据集进行数据增强处理得到增强后的行人数据集，具体包括：

依次对所述行人数据集进行镜像操作和尺寸调整操作，所述尺寸调整操作为随机扩充或者随机裁剪。

可选的，所述掩膜图的确定过程为：

根据所述行人中心点对所述行人数据集处理生成中心点掩模；

以所述行人中心点为中心，对所述行人数据集进行高斯分布处理生成高斯掩模；

将所述中心点掩模和所述高斯掩模组合得到掩膜图。

可选的，所述将所述行人数据集输入网络模型得到第三特征图，具体包括：

将所述行人数据集输入残差网络得到第一特征图；

采用交叉融合特征金字塔对所述第一特征图进行处理得到第二特征图；

将所述第二特征图进行检测头操作得到第三特征图。

一种基于单阶段无锚点框架的行人检测系统，包括：

行人图像采集模块，用于获取行人数据集；所述行人数据集为行人被框选的行人图像；

图集确定模块，用于对所述行人数据集进行预处理得到图集；所述图集包括掩膜图、尺寸图和偏移图；所述掩膜图为包括行人中心点和行人图像高斯分布掩膜的图；所述尺寸图为包括行人长宽比信息的图；所述偏移图为包括行人中心点偏移量信息的图；所述行人中心点为所述行人数据集中框的中心点；

第三特征图确定模块，用于将所述行人数据集输入网络模型得到第三特征图；所述网络模型包括依次连接的残差网络、交叉融合特征金字塔和检测头；所述残差网络中的归一化方法包括组归一化和批标准化；

误差计算模块，用于计算所述第三特征图与所述图集中各图之间的误差；

模型确定模块，用于根据所述误差采用反向传播算法对所述网络模型进行训练得到行人检测模型，所述行人检测模型用于进行行人检测。

可选的，所述基于单阶段无锚点框架的行人检测系统，还包括：

增强模块，用于对所述行人数据集进行数据增强处理得到增强后的行人数据集。

可选的，所述增强模块具体包括：

增强单元，用于依次对所述行人数据集进行镜像操作和尺寸调整操作，所述尺寸调整操作为随机扩充或者随机裁剪。

可选的，所述图集确定模块包括：

中心点掩模生成单元，用于根据所述行人中心点对所述行人数据集处理生成中心点掩模；

高斯掩模生成单元，用于以所述行人中心点为中心，对所述行人数据集进行高斯分布处理生成高斯掩模；

掩膜图确定单元，用于将所述中心点掩模和所述高斯掩模组合得到掩膜图。

可选的，所述第三特征图确定模块包括：

第一特征图确定单元，用于将所述行人数据集输入残差网络得到第一特征图；

第二特征图确定单元，用于采用交叉融合特征金字塔对所述第一特征图进行处理得到第二特征图；

第三特征图确定单元，用于将所述第二特征图进行检测头操作得到第三特征图。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明对行人数据集进行预处理得到图集；将所述行人数据集输入网络模型得到第三特征图；网络模型包括依次连接的残差网络、交叉融合特征金字塔和检测头；计算第三特征图与图集中各图之间的误差；根据误差采用反向传播算法对所述网络模型进行训练得到行人检测模型，得到的行人检测模型可在一定程度上解决行人类间差异小的问题，从而提高行人检测的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于单阶段无锚点框架的行人检测方法的流程图；

图2为本发明实施例提供的基于单阶段无锚点框架的行人检测方法的网络结构框图；

图3为本发明实施例提供的残差网络中残差结构的示意图；

图4为本发明实施例提供的交叉融合特征金字塔中交叉融合的示意图；

图5为本发明实施例提供的基于单阶段无锚点框架的行人检测系统的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

目前大多数优秀检测算法都是基于锚点的检测算法，但由于锚点先验大都需要通过人为进行设计，导致基于锚点的检测算法存在诸多缺点，随着基于无锚点的检测算法的检测精度快速提高，基于无锚点的检测算法被越来越多的学者所关注，产生了很多优秀算法，此外更有研究表明，目标检测数据集中正负样本的定义是两者性能优劣的根本区别，因此设计一个合理快速而又鲁棒的基于单阶段无锚点框架的行人检测是具有一定的可行性的，综上，本实施例提供了一种基于单阶段无锚点框架的行人检测方法，如图1所示，所述方法包括：

获取行人数据集；所述行人数据集为行人被框选的行人图像。

对所述行人数据集进行预处理得到图集；所述图集包括掩膜图、尺寸图和偏移图；所述掩膜图为包括行人中心点和行人图像高斯分布掩膜的图；所述尺寸图为包括行人长宽比信息的图；所述偏移图为包括行人中心点偏移量信息的图；所述行人中心点为所述行人数据集中框的中心点；其中长宽比信息就是行人的长宽比，所述行人中心点偏移量信息就是偏移图中行人中心点与行人数据集中行人中心点之间的偏移量。

将所述行人数据集输入网络模型得到第三特征图；所述网络模型包括依次连接的残差网络、交叉融合特征金字塔和检测头；所述残差网络中的归一化方法包括组归一化和批标准化，组归一化和批标准化按照权重结合，权重可通过训练进行优化。

对第三特征图进行分析和回归(计算所述第三特征图与所述图集中各图之间的误差；根据所述误差采用反向传播算法对所述网络模型进行训练得到行人检测模型，所述行人检测模型用于进行行人检测)。

在实际应用中，在所述对所述行人数据集进行预处理得到图集之前还包括：

对所述行人数据集进行数据增强处理得到增强后的行人数据集，提高样本数量。后续可以将增强后的行人数据集输入网络模型得到第三特征图。

在实际应用中，在对所述行人数据集进行数据增强处理得到增强后的行人数据集之后，在对所述行人数据集进行预处理得到图集之前还可以包括对行人数据集进行放大或者缩小操作得到操作后的行人数据集，后续可以根据操作后的行人数据集进行预处理得到图集，也可以将操作后的行人数据集输入网络模型得到第三特征图。

在实际应用中，所述对所述行人数据集进行数据增强处理得到增强后的行人数据集，具体包括：

依次对所述行人数据集进行镜像操作和尺寸调整操作，所述尺寸调整操作为随机扩充或者随机裁剪，其中具体为：设定阈值α(通常α＝0.5)，为所述行人数据集中每张行人图像随机生成一个[0,1]内的数β，比较α和β大小，若α＜β，则行人图像及标签保持不变，若α＞β，则对行人图像及标签进行镜像(左右翻转)操作；为镜像操作得到的行人数据集中的行人图像(图像大小为h,w)随机生成一个[0.4,1.5]内的数γ，根据随机数γ对行人图像进行相应操作，若γ＜1，则对行人图像进行随机裁剪的同时对标签进行相对应的变换；若γ＞1，则对行人图像边缘四周进行随机补0扩充，并对标签进行相对应的变换；标签就是对图像中的行人进行框选。

在实际应用中，可以根据行人数据集生成包含高斯分布掩膜信息以及行人中心点的特征图，对所述行人数据集，以标签来生成中心点掩膜；以行人中心点为中心，利用高斯分布生成高斯掩膜，以保留行人的特征信息；将两掩膜(中心点掩膜和高斯掩膜)组合成维度大小为[2,h/n,w/n]的特征图(在实际应用n可取为4)，所以所述掩膜图的确定过程具体为：

根据所述行人中心点对所述行人数据集处理生成中心点掩模。

以所述行人中心点为中心，对所述行人数据集进行高斯分布处理生成高斯掩模。

将所述中心点掩模和所述高斯掩模组合得到掩膜图。

在实际应用中，尺寸图的确定过程为：对所述行人数据集，根据行人目标标签信息生成具有行人长宽比信息的特征图。

在实际应用中，偏移图的确定过程为：对所述行人数据集，生成保留由于图片缩放、镜像、裁剪或扩充等操作导致行人目标中心点产生偏移所造成误差信息的特征图。

在实际应用中，将所述行人数据集输入网络模型得到第三特征图具体包括：

将所述行人数据集输入残差网络得到第一特征图。

采用交叉融合特征金字塔对所述第一特征图进行处理得到第二特征图。

将所述第二特征图进行检测头操作得到第三特征图。

在实际应用中，所述将所述第二特征图进行检测头操作得到第三特征图，具体包括：

对所述第二特征图分别进行三次卷积操作得到中心热图(gather map和centermap)、尺度热图以及偏移热图，其中，中心热图可通过1×1×1的卷积核生成包含行人目标高斯掩膜以及中心点信息的特征图、尺度热图可通过1×1×1的卷积核生成包含行人目标尺度信息的特征图、偏移热图可通过1×1×2的卷积核生成包含行人目标中心点偏移量信息的特征图。

对所述中心热图、所述尺度热图以及所述偏移热图进行图像融合得到第三特征图，第三特征图的维度大小为[3,h/n,w/n]，其中[0,h/n,w/n]包含行人目标的高斯掩膜以及中心点信息，[1,h/n,w/n]包含行人目标的尺度信息，[2,h/n,w/n]包含行人目标中心点的偏移量信息。

在实际应用中，计算所述第三特征图与所述图集中各图之间的误差，具体为：

计算掩膜图与第三特征图[0,h/n,w/n]之间的误差L₅₁，即中心点误差为

其中

其中，K为图像中行人的总数，

为表示在该位置处是否存在行人中心，参数α类似于一个系数，为减小行人中心点附近像素点的影响，g_p为第三特征图[0,h/n,w/n]中的高斯分量，g_t为掩膜图中的高斯分量，γ设为2，β设为4；β和γ都是预设定的超参，为了控制惩罚，聚拢误差

其中K为图像中行人的总数，c_p为第三特征图[0,h/n,w/n]中行人目标的中心点分量，c_t为掩膜图中行人目标的中心点分量；即L₅₁＝L_center+L_gather。L_center用于计算行人目标的定位误差，L_gather用于辅助拉近预测行人目标和对应行人标签间的距离。

计算尺寸图与第三特征图[1,h/n,w/n]之间的误差L₅₂，即

其中K为图像中行人目标的总数，

s_p为第三特征图[1,h/n,w/n]中行人目标长宽比信息分量，s_t为尺寸图中行人目标长宽比信息分量。L_scale用于计算行人目标的尺度误差。

计算偏移图与第三特征图[2,h/n,w/n]之间的误差L₅₃，即

其中K为图像中行人目标的总数，

o_p为第三特征图[2,h/n,w/n]中的行人目标中心点的偏移分量，o_t为偏移图中的行人目标中心点的偏移分量。L_offset用于计算行人目标中心点的偏移误差。

在实际应用中，根据所述误差采用反向传播算法对所述网络模型进行训练得到行人检测模型，所述行人检测模型用于进行行人检测，具体包括：

根据L＝L₅₁+L₅₂+L₅₃计算总误差。

根据总误差进行反向传播，更新网络参数，更新后的网络将用于进行行人检。

在实际应用中，如图2所示，将行人数据集输入到新Resnet-50残差网络中获得第一特征图，再使用交叉融合特征金字塔对第一特征图进行分析，获得第二特征图，最后经过检测头得到第三特征图。

在实际用应用中，第一特征图，具体为将行人数据集(可以是最初获取的行人数据集也可以是数据增强之后的行人数据集，也可以是放大或缩小后得到的操作后的行人数据集)输入残差网络中最后3层(第3，4，5层)输出的特征图为第一特征图，其中残差网络可以为新Resnet-50残差网络，新Resnet-50残差网络为将Resnet-50残差网络中的批标准化(Batch Normalization，BN)替换为批组标准化(Batch-Group Normalization，BGN)，如图3所示。也可以将其他形式的Resnet-50残差网络中的批标准化替换为批组标准化，图3只是对一种结构进行的举例。BGN为将可切换标准化(Switchable Normalization，SN)中的实例标准化(Instance Normalization，IN)和层标准化(Layer Normalizaiton，LN)替换为组归一化(Group Normalization，GN)，以可训练的权重比例将BN和GN进行组合；组合方式如下：

其中β、γ和∈是一个很小的常数，h表示图像中标准化前的像素(h仅在此处表示为像素)，

表示图像中标准化后的像素，k∈{bn，gn}，bn表示批标准化，gn表示组归一化，μ_k和

分别为期望和方差，

w_k为经过softmax之后得到标准化所需期望的权重，λ_k表示softmax的控制参数，

w’_k为经过softmax之后得到标准化所需方差的权重，λ′_k表示softmax的控制参数，λ_k，λ′_k分别为w_k和w’_k,中需要优化的参数。

在实际应用中，交叉融合特征金字塔从Resnet-50残差网络的第3阶段开始，总共分为三个步骤。新第5层特征图的确定方法如图4所示，为图2所示交叉融合特征金字塔中的一个

以Resnet-50残差网络第5层的特征图为例，采用交叉融合特征金字塔对所述第一特征图进行处理得到第二特征图，具体方案如下：

步骤41：获取Resnet-50残差网络生成的第3，4，5层的特征图。

步骤42：将第3层的特征图经过一个3×3的卷积核进一步单独的提取特征，并将其维度降为与第4层的特征图一致，将第5层的特征图通过上采样使其与第4层的特征图维度一致。

步骤43：将第4层的特征图进行拷贝，将其与将所述步骤42生成的两个特征层进行融合，得到新的第5层特征图。

以与步骤41、步骤42、步骤43相类似的方式获得新的第3层特征图(将第3层、第4层和第5层的特征图均进行上采样得到与第2层特征图的维度相同的图，将这三个特征图进行融合得到新的第3层特征图)和新的第4层特征图(将第4层和第5层的特征图进行上采样得到与第3层特征图的维度相同的图，将两个图与第3层的特征图进行融合得到新的第4层特征层)，并将新的第3层特征层、第4层特征层和第5层特征层再经过类似于步骤42和步骤43的步骤得到维度大小为[256,h/n,w/n]的第二特征图，第二特征图的维度大小与行人数据集预处理后三个图的大小一致。

本发明还提供了如下方案：

如图5所示，检测系统包括：行人图像采集模块、训练和优化模块、检测模块和显示模块。

行人图像采集模块主要负责包括行人图像以及对应标签的采集，并将采集到的数据输送到训练和优化模块；训练和优化模块包括图集确定模块、第三特征图确定模块、误差计算模块和模型确定模块，可接收来自行人图像采集模块的行人图像及标签，并将其用于训练和优化网络框架，主要用于训练网络模型，最终得到训练好的模型，并将其发送给检测模块；检测模块包括利用已训练好的网络模型进行检测行人图像，并将结果输出到显示模块；显示模块具有图像显示功能，显示检测模块发送的图像数据，得到图像是否有行人的检测结果。

具体的，行人图像采集模块，用于获取行人数据集；所述行人数据集为行人被框选的行人图像。

图集确定模块，用于对所述行人数据集进行预处理得到图集；所述图集包括掩膜图、尺寸图和偏移图；所述掩膜图为包括行人中心点和行人图像高斯分布掩膜的图；所述尺寸图为包括行人长宽比信息的图；所述偏移图为包括行人中心点偏移量信息的图；所述行人中心点为所述行人数据集中框的中心点。

第三特征图确定模块，用于将所述行人数据集输入网络模型得到第三特征图；所述网络模型包括依次连接的残差网络、交叉融合特征金字塔和检测头；所述残差网络中的归一化方法包括组归一化和批标准化。

误差计算模块，用于计算所述第三特征图与所述图集中各图之间的误差。

作为一种可选的实施方式，基于单阶段无锚点框架的行人检测系统，还包括：

作为一种可选的实施方式，所述增强模块具体包括：

作为一种可选的实施方式，所述图集确定模块包括：

中心点掩模生成单元，用于根据所述行人中心点对所述行人数据集处理生成中心点掩模。

高斯掩模生成单元，用于以所述行人中心点为中心，对所述行人数据集进行高斯分布处理生成高斯掩模。

作为一种可选的实施方式，所述第三特征图确定模块包括：

第一特征图确定单元，用于将所述行人数据集输入残差网络得到第一特征图。

第二特征图确定单元，用于采用交叉融合特征金字塔对所述第一特征图进行处理得到第二特征图。

作为一种可选的实施方式，所述第三特征图确定单元包括：

卷积操作子单元，用于对所述第二特征图分别进行三次卷积操作得到中心热图、尺度热图以及偏移热图。

第三特征图确定子单元，用于对所述中心热图、所述尺度热图以及所述偏移热图进行图像融合得到第三特征图。

本发明的具有以下技术效果：

1)采用残差网络、交叉融合特征金字塔和误差计算方法对本发明网络结构进行训练得到的模型可以拉近预测目标和标注间的距离，从而可以在一定程度上解决行人类间差异小的问题，提高检测精度。

2)其中采用新的BGN归一化方法，可以更为有利提取图像中的特征，过滤掉无用特征，提高了行人检测的准确性，并在测试的过程中不会影响检测速度，提高行人检测的精度；L_gather拉近预测目标和标注间的距离，从而可以在一定程度上解决行人类间差异小的问题。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于单阶段无锚点框架的行人检测方法，其特征在于，包括：

计算所述第三特征图与所述图集中各图之间的误差；

2.根据权利要求1所述的一种基于单阶段无锚点框架的行人检测方法，其特征在于，在所述对所述行人数据集进行预处理得到图集之前还包括：

3.根据权利要求2所述的一种基于单阶段无锚点框架的行人检测方法，其特征在于，所述对所述行人数据集进行数据增强处理得到增强后的行人数据集，具体包括：

4.根据权利要求1所述的一种基于单阶段无锚点框架的行人检测方法，其特征在于，所述掩膜图的确定过程为：

将所述中心点掩模和所述高斯掩模组合得到掩膜图。

5.根据权利要求1所述的一种基于单阶段无锚点框架的行人检测方法，其特征在于，所述将所述行人数据集输入网络模型得到第三特征图，具体包括：

将所述行人数据集输入残差网络得到第一特征图；

将所述第二特征图进行检测头操作得到第三特征图。

6.一种基于单阶段无锚点框架的行人检测系统，其特征在于，包括：

7.根据权利要求6所述的一种基于单阶段无锚点框架的行人检测系统，其特征在于，还包括：

8.根据权利要求7所述的一种基于单阶段无锚点框架的行人检测系统，其特征在于，所述增强模块具体包括：

9.根据权利要求6所述的一种基于单阶段无锚点框架的行人检测系统，其特征在于，所述图集确定模块包括：

10.根据权利要求6所述的一种基于单阶段无锚点框架的行人检测系统，其特征在于，所述第三特征图确定模块包括：