CN113128308B

CN113128308B - 一种港口场景下的行人检测方法、装置、设备及介质

Info

Publication number: CN113128308B
Application number: CN202010027137.1A
Authority: CN
Inventors: 邹逸群; 肖志红; 吴志虎; 唐琎; 汤松林; 张泳祥; 邹双; 李江涛
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2022-05-20
Anticipated expiration: 2040-01-10
Also published as: CN113128308A

Abstract

本发明公开了一种港口场景下的行人检测方法、装置、设备及介质，其方法为：获取若干已知行人框的预处理图像，计算行人框中心在行人检测网络输出端的映射值；在行人检测网络的所有预测框中，选择与映射值匹配的预测框为正样本，其余预测框为负样本；以预处理图像作为输入、预测框的标签值作为学习目标，训练行人检测网络，得到行人检测系统；计算负样本预测框与预处理图像中所有行人框的交并比，若最大值大于0.5，则该负样本不参与训练；将待检测的预处理图像输入到行人检测系统，提取检测框；去掉行人置信度低于阈值的检测框以及重叠框，剩余的检测框即为待检测的行人框。本发明可解决目前检测方法中需要人为设计anchor的问题。

Description

一种港口场景下的行人检测方法、装置、设备及介质

技术领域

本发明属于图像信息处理领域，具体涉及一种港口场景下的行人检测的方法。

背景技术

行人检测技术是指通过图像处理及模式识别等算法从给定的图像数据中检测出行人坐标位置并给予此检测结果的置信度。行人检测是计算机视觉中一个重要的研究热点，是众多实际应用中核心技术之一，例如，人类行为分析，行人姿态估计，行人属性分析，智能监控，自动驾驶等。因此行人检测技术具有极高的科研价值和商业价值，并有大量的学者从事行人检测的研究，众多有效的行人检测算法被提出来。

尽管近几年计算机视觉研究者致力于行人检测的研究中，但是行人检测问题依旧挑战性很大。这主要是因为有两个原因：其一，由于行人与摄像机的距离是不固定的，行人的尺度有很大的变化；其二，在实际环境中，大部分的行人距离摄像机较远，这些小目标的特征不明显，容易被误认为是背景，从而造成大量的漏检和误检。

为了获取给定图片中所有行人的坐标，行人检测器通常有以下三步：第一，对整张图片进行一系列的操作(梯度计算，卷积等)，获取对应的特征；其次，使用不同尺度和形状的预选框遍历整张图；最后基于预选框中的特征，判断其中是否存在行人目标，如存在目标则调整预选框的坐标和大小，从而得到最后的行人检测框。其中，提取特征这一步骤是行人检测技术中最重要的一步，所以，现如今主要的研究方法可以被分为两类：基于手工特征的方法和基于深度特征学习的方法。

基于手工特征的方法主要考虑了行人的先验信息，对输入图像进行一系列的计算和投影，然后得到行人特征。例如，HOG(Histogram ofOriented Gradient，方向梯度直方图算法)，挖掘行人的形状信息。对图像进行不同的变化，颜色空间转换，梯度计算，边缘检测等(LUV,Gabor,edges)，并提出利用积分通道特征将其融合，从而获得更丰富的特征集。DPM(Deformable Part Model，可变形部件模型的检测算法)针对人体部件建立一定形式的空间约束，根据模型与部件模型的共同作用检测人体目标。上述传统行人检测方法的优点是计算速度快且不需要昂贵的计算资源如GPU和大量内存。但是，虽然这些行人检测算法能够在简单的环境中达到应用要求，在实际复杂的环境中，存在大量的误检和漏检。

相比之下，基于深度学习的行人检测系统通过大量的数据自主学习得到具有强大语义表述能力的特征，从而显著性地降低误检和漏检率，使得行人技术能够应用于真实场景。目前基于深度学习的行人检测算法大致可分为两类，其中一类算法是两阶段行人检测算法，如RCNN、SPPNet、Faster RCNN、Mask RCNN等，这类算法在第一阶段使用RPN(RegionProposal Network)或者FPN(Feature PyramidNetwork)等预选框提取网络获取行人预选框，然后将第一阶段获得的行人预选框送入第二阶段网络进行二次分类和回归，两阶段行人检测算法的优点是性能好，能够满足大多数场景的性能需求，但缺点是速度慢，在对实时性有要求的场景下基本无法使用。另一类算法是一阶段行人检测算法，如YOLO、SSD、RetinaNet等，这类算法相当于两阶段算法的第一阶段，即直接使用一个网络回归出行人框，一阶段算法的优点是速度快，基本能够满足实时性要求，但性能不如两阶段算法。这两类算法都是基于anchor的，而使用anchor就存在需要人为设计的问题，目前的解决方法是在训练集上使用kmeans聚类出anchor，但这种聚类出来的anchor仍然不能跨数据集使用。

在此背景下，研究一种不需要anchor，且可以解决尺度变化问题的行人检测算法尤为重要。

发明内容

本发明所要解决的技术问题是提供一种港口场景下的行人检测方法，解决了已有行人检测方法需要人为设计anchor的问题。

为实现上述技术目的，本发明采用如下技术方案：

一种港口场景下的行人检测方法，包括以下步骤：

步骤1，获取若干已知行人框的、有关港口场景的预处理图像，并根据行人检测网络的步长设置，计算预处理图像中每个行人框中心在行人检测网络输出端的映射值；

步骤2，在行人检测网络输出端的所有预测框中：选择与步骤1得到的映射值匹配的预测框作为正样本，设置其标签为

将其余预测框作为负样本，设置其标签为

样本的标签中，

表示第(i,j)个预测框是否参与训练，conf_ij表示第(i,j)个预测框的行人置信度预测目标，(x_ij,min,y_ij,min)和(x_ij,max,y_ij,max)分别表示第(i,j)个预测框的左上角和右下角坐标预测目标，

和

分别表示预处理图像中第k个行人框的左上角和右下角坐标；

步骤3，以预处理图像作为输入、预测框的标签值作为学习目标，训练行人检测网络，得到行人检测系统；

在训练过程中计算损失时，计算被标记为负样本的预测框与预处理图像中所有行人框的交并比，如果最大交并比大于0.5，则该负样本不参与训练，即设置其第一位标签值为

步骤4，将行人框待检测的、有关港口场景的预处理图像，输入至步骤3得到的行人检测系统中，获取预处理图像中的检测框；

步骤5，对步骤4中得到的检测框，去掉其中行人置信度低于阈值的检测框以及重叠框，剩余的检测框即为待检测的行人框。

进一步地，训练行人检测网络所采用的损失函数为：

式中，L表示行人检测网络在当前训练迭代时的总损失，

分别表示第(i,j)个预测框Θ_ij的置信度损失和坐标回归损失；h、w分别表示行人检测网络的中间输出特征图的高和宽；

表示预测框Θ_ij的行人置信度预测值，conf_ij表示预测框Θ_ij的标签值中的行人置信度；

表示预测框Θ_ij的行人框坐标预测值，B_ij表示预测框Θ_ij的标签值中的行人框坐标，G_ij表示

和B_ij的最小闭包区域；

表示置信度损失的权重，

表示坐标回归损失的权重，λ为行人检测网络中的超参数；h_img、w_img分别表示预处理图像的高和宽。

进一步地，所述行人检测网络包括：由backbone和FPN组成的特征提取网络模块、特征图融合模块、尺度attention模块、分类子网络和回归子网络；

所述backbone采用轻量化网络mobileNetV2，对输入大小为512×512×3的预处理图像进行特征提取，获取大小分别为64×64×32、32×32×96、16×16×1024的特征图C3、C4、C5；

所述FPN的结构为：首先是在特征图C5后面使用一个输出通道为96的bottleneck模块，得到大小为16×16×96的特征图P5；然后在特征图P5后面使用一个最近邻插值层，得到大小为32×32×96的特征图P5*，之后将特征图C4和P5*相加得到特征图C4*，然后在C4*后面使用一个输出通道为32的bottleneck模块，得到大小为32×32×32的特征图P4，然后在特征图P4后面使用一个最近邻插值层，得到大小为64×64×32的特征图P4*，之后将特征图C3和特征图P4*相加得到特征图C3*，最后在C3*后面使用一个输出通道为16的bottleneck模块，得到大小为64×64×16的特征图P3；

所述特征图融合模块的结构为：在特征图P5后面接一个步长为4、输出通道为16的转置卷积层，得到大小为64×64×16的特征图PL；在P4后面接一个步长为2、输出通道为16的转置卷积层，得到大小为64×64×16的特征图PM；在P3后面接一个步长为1、输出通道为16的普通卷积层，得到大小为64×64×16的特征图PS；最后将特征图PS、PM、PL级联起来，得到大小为64×64×48的特征图P_concat；

所述尺度attention模块的结构为：在特征图P_concat后面使用一个步长为1、输出通道为3的3×3卷积层和sigmoid激活层，得到大小为64×64×3的特征图P_concat*；之后将特征图P_concat*沿通道维复制16次，得到大小为64×64×48的特征图P_scale_attention；然后将特征图P_scale_attention与特征图P_concat点乘，得到检测特征图P；

所述分类子网络的结构为：首先在特征图P后面使用一个步长为1、输出通道为1的1×1卷积层，得到cls^p∈R^64×64×1，然后再用以下公式对cls^p中的每个值

进行解码，得到分类子网络的输出conf^p∈R^64×64×1，其中

表示分类子网络为第(i,j)个预测框预测的行人置信度；对

进行解码的公式为：

所述回归子网络的结构为：首先在检测特征图P后面使用一个步长为1、输出通道为4的1×1卷积层，得到reg^p∈R^64×64×4，其中

表示reg^p的第(i,j)个向量，然后再使用以下公式对

进行解码，得到回归子网络的输出coor^p∈R⁶⁴ ^×64×4，其中

表示回归子网络为第(i,j)个预测框预测的坐标，s是行人检测网络的步长；对

进行解码的公式为：

将分类子网络的输出conf^p与回归子网络的输出coor^p沿通道级联起来，得到行人检测网络最终输出的检测框Θ∈R^64×64×5，其中

进一步地，步骤1中计算预处理图像中每个行人框中心在行人检测网络输出端的映射值的方法为：

式中，

为预处理图像中第k个行人框的中心点在预处理图像中的坐标，s是行人检测网络的步长；

与映射值匹配的预测框是指，第(i,j)个预测框满足：

进一步地，步骤5中使用soft-nms算法去掉其中的重叠框，具体过程为：

步骤5.1，首先将预处理图像中的所有检测框放入列表L1中；

步骤5.2，将列表L1中所有检测框按行人置信度从高到低的顺序排序；

步骤5.3，从列表L1中取出行人置信度最高的检测框A放入列表L2中，并将检测框A从列表L1中删除，计算检测框A与列表L1中所有检测框的交并比IOU_l，l表示列表L1中的第l个检测框；

步骤5.4，根据列表L1中每个检测框的IOU_l，按公式

计算该检测框的权重；其中中间参数δ＝0.3；

步骤5.5，去掉列表L1中权重低于权重阈值的检测框，并返回执行步骤5.2，直到列表L1为空。

进一步地，所述预处理图像是指，对港口场景图像进行直方图均衡化处理和标准化处理后得到的图像；

其中，直方图均衡化处理的转换公式为：

式中，MN表示港口场景图像的像素点总数，n_p表示灰度值为p的像素个数，s_q表示灰度值q经过直方图均衡化之后得到的新灰度值；

标准化处理的过程为：

步骤A1，计算出直方图均衡化处理得到的图像中RGB三个通道的均值u_c和标准差σ_c；

步骤A2，使用以下公式对图像进行标准化处理：

其中g_c表示某一像素点的c通道灰度值，r,g,b表示图像的RGB三个通道。

本发明还提供一种港口场景下的行人检测装置，所述装置包括映射值计算模块、标签设置模块、行人检测网络训练模块、行人检测模块和行人框筛选模块；

所述映射值计算模块，用于获取若干已知行人框的、有关港口场景的预处理图像，并根据行人检测网络的步长设置，计算预处理图像中每个行人框中心在行人检测网络输出端的映射值；

所述标签设置模块，用于在行人检测网络输出端的所有预测框中：选择与映射值匹配的预测框作为正样本，设置其标签为

将其余预测框作为负样本，设置其标签为

其中，

和

分别表示预处理图像中第k个行人框的左上角和右下角坐标；

所述行人检测网络训练模块，用于以预处理图像作为输入、预测框的标签值作为学习目标，训练行人检测网络，得到行人检测系统；在训练过程中计算损失时，计算被标记为负样本的预测框与预处理图像中所有行人框的交并比，如果最大交并比大于0.5，则该负样本不参与训练，即设置其第一位标签值为

所述行人检测模块，用于接收行人框待检测的、有关港口场景的预处理图像的输入，并使用行人检测系统获取预处理图像中的检测框；

所述行人框筛选模块，用于对行人检测模块得到的检测框，去掉其中行人置信度低于阈值的检测框，并使用soft-nms算法去掉其中的重叠框，将剩余的检测框作为待检测的行人框。

本发明还提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法。

有益效果

首先，本发明分析了anchor在行人检测网络中的作用，并通过合理分配正负样本以及合理设置回归目标，实现了anchor-free，使行人检测网络摆脱对anchor的依赖，解决了anchor需要人为设计、且不能跨数据集使用的问题；其次，通过融合FPN所有检测分支的特征以及尺度attention模块，使网络在检测某个尺度的行人时，能够自适应地为该行人对应的多个具有不同感受野的ROI特征赋予合适的权重，从而缓解行人尺度变化问题；再次，针对港口场景亮度分布比较大的问题，使用图像处理中的直方图均衡化对原始图像进行亮度均衡化处理，提高行人检测精度；另外，使用soft-nms算法去掉重叠框，获取最终的行人框，该方法可广泛应用于辅助驾驶、无人驾驶、智能监控等实际应用场景中。

附图说明

图1为本发明实例中港口场景下的行人检测方法流程图；

图2为本发明实例中行人检测网络的结构图；

图3为实施例1的各步骤效果图；其中图a为港口场景图，图b为直方图均衡化之后的效果图，图c为灰度值标准化之后的效果图，图d为原始检测效果图，图e为去掉低置信度检测框之后的检测效果图，图f为去掉重叠检测框之后的检测效果图；

图4为实施例5的各步骤效果图；其中图a为港口场景图，图b为直方图均衡化之后的效果图，图c为灰度值标准化之后的效果图，图d为原始检测效果图，图e为去掉低置信度检测框之后的检测效果图，图f为去掉重叠检测框之后的检测效果图；

图5为实施例6的各步骤效果图；其中图a为港口场景图，图b为直方图均衡化之后的效果图，图c为灰度值标准化之后的效果图，图d为原始检测效果图，图e为去掉低置信度检测框之后的检测效果图，图f为去掉重叠检测框之后的检测效果图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例以本发明的技术方案为依据开展，给出了详细的实施方式和具体的操作过程，对本发明的技术方案作进一步解释说明。

实施例1：

本实施例提供一种港口场景下的行人检测方法，整体实施流程如图1所示，包括以下步骤：

步骤0，获取港口场景图像，并进行直方图均衡化处理和标准化处理。

由于港口场景会受到天气和环境的影响，所以场景亮度分布比较大，这会影响后续步骤的检测效果，本实施例采用直方图均衡化算法对图像灰度值进行非线性拉伸，使图像的灰度值在各个灰度值区域分布比较均匀。

首先使用双线性插值算法将港口图3(a)的尺寸调整到512×512，然后使用直方图均衡化算法对图3(a)进行均衡化处理得到图片3(b)，具体的直方图均衡化处理的转换函数为：

式中，MN表示港口场景图像的像素点总数，n_p表示灰度值为p的像素个数，s_q表示灰度值q经过直方图均衡化之后得到的新灰度值。

为了提高网络训练效率，增强网络对环境的鲁棒性，本实施例在直方图均衡化之后的均衡化图像3(b)基础上进行标准化处理，所述过程分为两个小步骤：

步骤A1，计算出直方图均衡化处理得到的均衡化图像3(b)的RGB三个通道的均值u_c和标准差σ_c；

步骤A2，使用以下公式对图像进行标准化处理得到图像3(c)：

步骤1，获取若干经过步骤0得到的且已知行人框的预处理图像，并根据行人检测网络的步长s，按以下公式计算预处理图像中每个行人框中心在行人检测网络输出端的映射值：

式中，

为预处理图像中第k个行人框的中心点在预处理图像中的坐标，

为第k个行人框的中心点在行人检测网络输出端的映射值。

本发明实施例所采用的行人检测网络包括：由backbone和FPN组成的特征提取网络模块、特征图融合模块、尺度attention模块、分类子网络和回归子网络。

(1)特征提取网络的设计

特征提取网络是一种卷积神经网络，主体结构由backbone和FPN组成，backbone用于提取图像的多尺度多语义特征，FPN负责使用高语义特征来丰富低层的精细特征。backbone和FPN结构的具体描述如下：

(i)backbone的设计

为保证检测的实时性，本实施例的backbone采用轻量化网络mobileNetV2，训练和测试期间的输入都是大小为512×512×3的RGB图像矩阵，用C_x表示mobileNetV2第x阶段输出的特征图，C_x相对于原图的步长为2^x，本实施例从backbone中提取的特征图分别是大小为64×64×32、32×32×96、16×16×1024的特征图C₃、C₄、C₅。

(ii)FPN的设计

为保证检测的实时性，本发明设计了一个轻量化的FPN结构，在FPN结构中包含了一系列的卷积层、GN(Group Normalization)层、激活层和双线性插值层，为方便描述，我们定义一个bottleneck(cout)模块，cout表示bottleneck模块的输出通道，bottleneck模块由1×1的卷积层、GN层、relu6激活层、3×3的depthwise卷积层、GN层、relu6激活层、1×1的卷积层和GN层组成，第一个1×1卷积层的输出通道为2×cout，第二个1×1的卷积层的输出通道为cout。

FPN在本实施例中的具体结构为：首先是在特征图C5后面使用一个输出通道为96的bottleneck模块，得到大小为16×16×96的特征图P5；然后在特征图P5后面使用一个最近邻插值层，得到大小为32×32×96的特征图P5*，之后将特征图C4和P5*相加得到特征图C4*，然后在C4*后面使用一个输出通道为32的bottleneck模块，得到大小为32×32×32的特征图P4，然后在特征图P4后面使用一个最近邻插值层，得到大小为64×64×32的特征图P4*，之后将特征图C3和特征图P4*相加得到特征图C3*，最后在C3*后面使用一个输出通道为16的bottleneck模块，得到大小为64×64×16的特征图P3。

(2)特征图融合模块的设计

特征提取网络输出3个检测分支的特征图P3、P4、P5，特征图融合模块则对该3个特征图沿通道进行融合，这样的设计有以下两个好处：

(i)由于本发明之后会实现anchor-free，如果像FPN一样使用多个检测分支，那么就需要为每个检测分支设置有效的训练尺度范围，从而引入很多超参数，而融合所有检测特征图之后，就只有一个检测分支，这个检测分支负责检测所有尺度的行人，所以不再需要设置有效训练尺度范围。

(ii)由于FPN各个检测分支的特征图具有不同大小的感受野，所以低层特征图具有详细的空间位置信息，高层特征图具有丰富的语义信息，因此将这些特征图融合之后，在检测某个尺度的行人时，可以充分利用低层的空间位置特征和高层的语义特征，从而缓解尺度变化问题。

特征图融合模块在本实施例中的具体结构为：在特征图P5后面接一个步长为4、输出通道为16的转置卷积层，得到大小为64×64×16的特征图PL；在P4后面接一个步长为2、输出通道为16的转置卷积层，得到大小为64×64×16的特征图PM；在P3后面接一个步长为1、输出通道为16的普通卷积层，得到大小为64×64×16的特征图PS；最后将特征图PS、PM、PL级联起来，得到大小为64×64×48的特征图P_concat。

(3)尺度attention模块的设计

本实施例提出一个尺度attention模块，使网络在检测某个尺度的行人时，能够自适应地为该行人对应的多个具有不同感受野的ROI特征赋予合适的权重。

尺度attention模块在本实施例中的具体结构为：在特征图P_concat后面使用一个步长为1、输出通道为3的3×3卷积层和sigmoid激活层，得到大小为64×64×3的特征图P_concat*；之后将特征图P_concat*沿通道维复制16次，得到大小为64×64×48的特征图P_scale_attention；然后将特征图P_scale_attention与特征图P_concat点乘，得到检测特征图P；

(4)分类子网络和回归子网络的设计

分类子网络用于预测行人框的置信度，在本实施例中的具体结构为：首先在检测特征图P后面使用一个步长为1、输出通道为1的1×1卷积层，得到cls^p∈R^64×64×1；然后再用以下公式对cls^p中的每个值

进行解码，得到分类子网络的输出conf^p∈R^64×64×1，其中

表示分类子网络为第(i,j)个预测框预测的行人置信度；对

进行解码的公式为：

回归子网络用于预测行人框的坐标，在本实施例中的具体结构为：首先在检测特征图P后面使用一个步长为1、输出通道为4的1×1卷积层，得到reg^p∈R^64×64×4，其中

表示reg^p的第(i,j)个向量，然后再使用以下公式对

进行解码，得到回归子网络的输出coor^p∈R^64×64×4，其中

进行解码的公式为：

在本实施例中，行人检测网络的步长取值s＝8。

(5)损失函数的设计

本发明设计的损失函数如下所示：

式中，L表示行人检测网络在当前训练迭代时的总损失，

和B_ij的最小闭包区域；

表示置信度损失的权重，类似于focal loss用来缓解正负样本不均衡问题；

表示坐标回归损失的权重，用于平衡不同尺度行人的回归损失；λ为行人检测网络中的超参数；h_img、w_img分别表示预处理图像的高和宽。

在本实施例中，h＝w＝64，h_img＝w_img＝512，λ＝2。

将其余预测框作为负样本，设置其标签为

样本的标签中，

和

分别表示预处理图像中第k个行人框的左上角和右下角坐标。

Anchor是人工在输入图像中设定的先验框，可用于分配正负样本和作为回归子网络回归目标框的初始框。其在行人检测网络中主要有两个作用，第一个作用是可以解决行人框平移的问题，第二个作用是可以缓解尺度变化问题。Anchor的缺点是需要人工设计，且基于anchor的行人检测网络对anchor超参数都非常敏感。针对anchor存在的问题，本发明提出一种anchor-free方法，通过对正负样本进行分配和设置回归目标框，使行人检测网络摆脱对anchor的依赖。

本发明在步骤2中，使用

表示行人检测网络输出端的第(i,j)个预测框的标签，其中

表示该预测框是否参与训练，conf_ij表示行人置信度预测目标，(x_ij,min,y_ij,min,x_ij,max,y_ij,max)表示Θ_ij负责回归的行人框坐标。输入行人检测网络的预处理图像中第k个行人框用

表示，其中

和

分别表示左上角坐标和右下角坐标。

在分配正样本的时候，行人框B_k的中心

经步骤1得到的映射值

与行人检测网络的第(i,j)个预测框相匹配，即满足

则将该第(i,j)个预测框Θ_ij设置为正样本，即设置该预测框Θ_ij的标签为

对于其他非正样本的预测框，则首先将它们全部设置为负样本，即标签设置为(1,0,0,0,0,0)。

在训练过程中计算损失时，计算被标记为负样本的预测框与预处理图像中所有行人框的交并比，如果最大交并比大于0.5，那么本发明认为该预测框已经能够相对准确地预测出行人框，不应该属于负样本，设置该预测框不参与负样本损失计算，即设置其第一位标签值为

在本实施例中，训练使用GPU进行加速，训练使用的优化算法为Adam，初始学习率为1e-4，使用cosine learning rate对学习率进行调整，最终学习率为1e-6，使用的数据增增广方式是裁剪、翻转、平移，batch size设置为2，训练200个周期。

步骤4，将行人框待检测的、有关港口场景的预处理图像，输入至步骤3得到的行人检测系统，获取预处理图像中的检测框，如图3(d)所示。

步骤5，对步骤4中得到的检测框，去掉其中行人置信度低于阈值的检测框，得到如图3(e)所示的图像；再使用soft-nms算法去掉其中的重叠框，剩余的检测框即为待检测的行人框，如图3(f)所示。

其中使用soft-nms算法去掉其中的重叠框的计算过程为：

步骤5.1，首先将预处理图像中的所有检测框放入列表L1中；

步骤5.4，根据列表L1中每个检测框的IOU_l，按公式

计算该检测框的权重；其中中间参数δ＝0.3；

步骤5.5，去掉列表L1中权重低于权重阈值0.5的检测框，并返回执行步骤5.2，直到列表L1为空。

实施例2：

本发明还提供一种港口场景下的行人检测装置，包括映射值计算模块、标签设置模块、行人检测网络训练模块、行人检测模块和行人框筛选模块；

将其余预测框作为负样本，设置其标签为

其中，

和

分别表示预处理图像中第k个行人框的左上角和右下角坐标；

所述行人检测网络训练模块，用于以预处理图像作为输入、预测框的标签值作为学习目标，训练行人检测网络，得到行人检测系统；在训练过程中计算损失时，计算被标记为负样本的每个预测框与预处理图像中所有行人框的交并比，如果最大交并比大于0.5，则该负样本不参与训练，即设置其第一位标签值为

实施例3：

本发明还提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如实施例1所述的方法。

实施例4：

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如实施例1所述的方法。

实施例5：

对港口图像4(a)进行行人检测。第一步是使用传统图像处理算法对港口图像进行预处理。首先使用双线性插值算法将港口图4(a)的尺寸调整到512×512，然后使用直方图均衡化算法对图4(a)进行均衡化处理得到图4(b)。接着进行灰度值标准化处理，首先计算出训练数据集中RGB三个通道的均值和方差，然后用公式(2)对图4(b)进行标准化处理得到图4(c)。

第二步是使用基于深度卷积神经网络的行人检测系统进行检测。由第一步获取了预处理图像，如图4(c)所示，将图像4(c)作为行人检测系统的输入。按照实施例1所述搭建出行人检测网络，其中网络最终的损失函数如公式(6)所示。搭建好的网络与实施例1相同需要先经过训练，训练过程使用GPU加速，训练使用的优化算法为Adam，初始学习率为1e-4，使用cosine learning rate对学习率进行调整，最终学习率为1e-6，使用的数据增广方式是多尺度训练、裁剪、翻转、平移，batch size设置为2，训练200个周期。通过训练好的行人检测系统来检测行人，得到如图4(d)所示的原始检测框。

第三步是对原始检测结果进行后处理。由第二步获得了原始的行人检测框，如图4(d)所示，首先去掉所有置信度低于0.5的检测框，得到如图4(e)所示的检测框，然后使用soft-nms算法去掉重叠框，得到最终的检测结果，如图4(f)所示。

实施例5：

对港口图像5(a)进行行人检测。第一步是使用传统图像处理算法对港口图像进行预处理。首先使用双线性插值算法将港口图像5(a)的尺寸调整到512×512，然后使用直方图均衡化算法对图5(a)进行均衡化处理得到图5(b)。接着进行灰度值标准化处理，首先计算出训练数据集中RGB三个通道的均值和方差，然后用公式(2)对图5(b)进行标准化处理得到图5(c)。

第二步是使用基于深度卷积神经网络的行人检测系统进行检测。由第一步获取了预处理图像，如图5(c)所示，将图5(c)作为行人检测系统的输入。按照实施例1中所搭建的行人检测网络，其中网络最终的损失函数如公式(6)所示。搭建好的网络与实施例1相同需要先经过训练，训练过程使用GPU加速，训练使用的优化算法为Adam，初始学习率为1e-4，使用cosine learning rate对学习率进行调整，最终学习率为1e-6，使用的数据增广方式是多尺度训练、裁剪、翻转、平移，batch size设置为2，训练200个周期。通过训练好的行人检测系统来检测行人，得到如图5(d)所示的原始检测框。

第三步是对原始检测结果进行后处理。由第二步获得了原始的行人检测框，如图5(d)所示，首先去掉所有置信度低于0.5的检测框，得到如图5(e)所示的检测框，然后使用soft-nms算法去掉重叠框，得到最终的检测结果，如图5(f)所示。

以上实施例为本申请的优选实施例，本领域的普通技术人员还可以在此基础上进行各种变换或改进，在不脱离本申请总的构思的前提下，这些变换或改进都应当属于本申请要求保护的范围之内。