CN111368625A

CN111368625A - 一种基于级联优化的行人目标检测方法

Info

Publication number: CN111368625A
Application number: CN201911085112.0A
Authority: CN
Inventors: 冷彪; 郝杰
Original assignee: Shenzhen Beihang Emerging Industrial Technology Research Institute
Current assignee: Shenzhen Beihang Emerging Industrial Technology Research Institute
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-07-03
Anticipated expiration: 2039-11-08
Also published as: CN111368625B

Abstract

本发明涉及一种基于级联优化的行人检测方法，属于计算机视觉中的行人检测领域。首先利用基于无监督注意力机制的候选区域生成网络产生不同行人候选目标区域，然后利用设计的优化网络从不同特征层上提取候选目标区域，逐层对样本进行优化，最终得到准确的行人目标预测。

Description

一种基于级联优化的行人目标检测方法

技术领域

本发明涉及一种基于级联优化的行人目标检测方法，属于计算机视觉中的行人检测领域。

背景技术

行人检测技术是计算机视觉领域中的一个基础问题，在自动驾驶，自动机器人等，视频监控等领域都有广泛应用。

目前行人检测中的主要挑战在于遮挡，尺度，复杂背景，目标变形等。首先，道路中的车辆和行人都较多，因此行人之间的遮挡，行人被建筑物、汽车等遮挡都可能会比较严重，类内遮挡和类间遮挡都可能给检测器带来挑战。其次，由于行人和摄像头的距离不一致，因此呈现在图像中的行人尺度范围可能变化较大，这种尺度问题可能会使检测不准确。另外，存在建筑物，树木等也可能与行人的形态相似，使检测器造成误判。最后，行人本身也可能姿态各异，甚至部分行人可能像素模糊，使检测器无法准确判断。

一般的行人检测方法一般都是基于预设框的，可以分为单阶段与双阶段的检测器。单阶段检测指网络直接生成候选样本和对应的置信度，从而对行人目标做出预测。双阶段检测指网络产生候选框之后，再在特征层上提取出相应区域，以做进一步的分类和回归优化。单阶段与双阶段的检测中都会用到一种特征金字塔的结构，即从不同的特征层中检测不同的目标，通常按照尺度分类，较深的特征层认为感受野较大，因此用来检测尺度较大的目标。常用的单阶段检测方法无法对难样本如干扰背景，亦无法对模糊行人进行准确判断，常用的双阶段方法将所有样本都进行再分类，反而会破坏已有的部分检测结果的准确性。

目前无相关文献报导。

发明内容

本发明技术问题为：针对现有技术的，提供一种基于级联优化的行人目标检测方法，充分利用网络各层特征的特点，将行人检测中的遮挡，目标变形，尺度，复杂背景等难点问题统一归类为网络判断不准确的问题，使金字塔特征层网络对难样本进行级联优化检测，最终使行人检测的准确率达到较高水平。

本发明技术要解决的问题是：克服现有针对行人检测的不足，提供一种基于级联优化的行人目标检测方法，充分利用网络各层特征的优势，将行人检测中的遮挡，目标变形，尺度，复杂背景等难点问题统一归类为网络判断不准确的难样本问题，使网络特征金字塔的每一层对样本进行级联优化，最终达到更加准确的行人检测结果。

本发明采用的技术方案为一种基于级联分类优化的行人检测方法，充分利用网络各层特征的优势，将行人检测中的遮挡，目标变形，尺度，复杂背景等难点问题统一归类为网络判断不准确的难样本问题，从根本上提高准确率。

本发明一种基于级联分类优化的行人检测方法，该方法包括有下列步骤：

步骤一：基于无监督注意力机制的候选区域生成

本发明区域生成网络部分的的主体框架为VGG16网络，如图1所示。和初始设计不同，本发明增加了一个无监督注意力机制的设计。图像I输入到网络后产生特征图F，本归有在生成候选区域时没有用到特征金字塔结构。VGG16网络生成的特征图再输入到一个子网络以产生其自身权重w，子网络由一卷积层与激活层组成，最后一个卷积层的通道为1，然后在通过一个sigmoid层，以使最终权重w与输入特征F的大小一致，且通道为1。从图1可以看到，权重特征图w在行人目标区域具有较高的响应。输入特征图F的每个通道都和所学的权重w相乘，如下式所示：

上式中F_w即为最终的特征图，

代表点积。对F_w做分类和回归以后，将产生候选框的集合

N表示不同行人候选目标区域的个数，x_i,y_i,w_i,h_i,c_i分别为某个候选目框的中心点横坐标，纵坐标，宽和高，c_i为候选区域的置信度，i代表候选区域的索引值，取值为1到N。

步骤二：优化网络的设计

在介绍主体的级联优化网络之前，首先介绍本方案优化网络的细节设计。步骤一产生的候选区域由步骤二进行下一步处理。具体结构如图2所示。F_t代表特征金字塔的某一层特征图，t＝0表示以原图为基础的优化网络，t＝1,2,3分别表示以第三，第四，第五卷积层为基础的优化网络。

本发明的特征金字塔包括输入原图，VGG16的conv3，conv4，conv5层。首先从特征层F_t中提取出候选区域，然后令其通过全连接层，得到优化的置信度和坐标，分别对应分类与回归操作。注意到优化网络的置信度和候选区域是没有关系的，而优化网络所产生的坐标与输入区域的坐标、真实坐标有关。优化网络所预测的坐标是一种相对坐标，是对输入区域坐标的修正。令(P_x,P_y,P_w,P_h)表示候选目标区域的中心点横坐标、纵坐标、宽和高，(G_x,G_y,G_w,G_h)表示对应的真实行人区域中心点横坐标、纵坐标、宽和高，则优化网络所预测区域的中心点横坐标、纵坐标、宽和高(t_x,t_y,t_w,t_h)表示如下：

t_x＝(G_x-P_x)/P_w

t_y＝(G_y-P_y)/P_h

t_w＝log(G_w/P_a)

t_h＝log(G_h/P_h)

当特征层为输入图像时，候选区域可直接在原图上裁剪，当特征层为网络的不同层时，本发明用ROI Align方法，提取对应的特征区域。

步骤三：级联优化网络

步骤一与步骤二共同构成步骤三的结构。级联优化网络的主体架构如图3所示。其中的区域生成网络指步骤一中介绍的基于无监督注意力机制的候选区域生成结构，优化网络在步骤二中已详细介绍。

设步骤一中样本的置信度分别为

N为样本总数，

到

由大到小排列，k为待选取的目标样本个数，k＜＜N，首先将置信度为

的样本挑出，输入到步骤二中以原图为基础的优化网络，得到优化的置信度和坐标，设优化后的样本置信度分别为

N′为优化后的样本坐标，N′＝N-2k，之后再将置信度为

的样本取出，送入以第三卷积层为基础的优化网络，得到进一步的优化样本置信度与坐标，同理，将第三卷积层优化网络置信度最高与最低的k个输出作为第四卷基层优化网络的输入，第四卷积层优化网络的置信度最高与最低的k个输出作为第五卷积层优化网络的输入；

此外，对每一层优化网络的样本尺度也有限制，第t卷积层优化网络的样本为尺度限制为(S_t,S_t+1),t＝0,1,2,3.t＝0表示以原图为基础的优化网络，t＝1,2,3分别表示以第三，第四，第五卷积层为基础的优化网络，S_t和S_t+1的值设置根据目标数据的范围自行确定，代表第t层优化网络的尺度范围。

经级联优化操作后，充分利用了各层特征的优势，最终使网络可以更加准确的确定候选区域的类别。

本发明与现有技术相比的优点在于：

(1)区域生成网络中增加了注意力机制，和现有技术相比，增加了目标区域的特征响应，抑制了背景噪声，提高了区域候选生成样本的准确率。

(2)设计了不同的优化网络，和现有技术相比，综合考虑尺度和置信度两个方面，使基于不同网络层的优化网络处理不同类型的目标，充分利用网络各层特征的特点和优势。

(3)在区域生成网络和优化网络的基础上，设计了优化网络对候选区域再分类与再回归的方案，不同的优化网络通过不同类型的目标，最终使所有的目标都能被准确的检测。

附图说明

图1为本发明中区域生成网络主体架构图；

图2为本发明中的优化网络的设计图；

图3为本发明方法的实现流程图。

具体实施方式

如图1所示，本发明方法整个实现过程如下：

本发明一种基于级联优化的行人检测方法，该方法包括有下列实施步骤：

步骤一：基于无监督注意力机制的候选区域生成

区域生成网络部分的的主体框架为VGG16网络，如图1所示。和初始设计不同，本方案增加了一个无监督注意力机制的设计。图像I输入到网络后产生特征图F，本发明在生成候选区域时没有用到特征金字塔结构。VGG16网络生成的特征图再输入到一个子网络以产生其自身权重w，子网络由一卷积层与激活层组成，最后一个卷积层的通道为1，然后在通过一个sigmoid层，以使最终权重w与输入特征F的大小一致，且通道为1。从图1可以看到，权重特征图w在行人目标区域具有较高的响应。输入特征图F的每个通道都和所学的权重w相乘，如下式所示：

上式中F_w即为最终的特征图，

代表点积。对F_w做分类和回归以后，将产生候选框的集合

其中N表示候选区域的个数，x_i,y_i,w_i,h_i,c_i分别为某个候选目框的中心点横坐标，纵坐标，宽和高，c_i为候选区域的置信度，i代表候选目标的索引值，取值为1到N。

步骤二：优化网络的设计

在介绍主体的级联优化网络之前，首先介绍优化网络的细节设计。步骤一产生的不同行人候选区域由步骤二进行下一步处理。具体结构如图2所示。F_t代表特征金字塔的某一层特征图，t＝0表示以原图为基础的优化网络，t＝1,2,3分别表示以第三，第四，第五卷积层为基础的优化网络。

本发明的特征金字塔包括输入原图，VGG16的conv3，conv4，conv5层。首先从特征层F_t中提取出候选区域，然后令其通过全连接层，得到优化的置信度和坐标，分别对应分类与回归操作。注意到优化网络的置信度和候选区域是没有关系的，而优化网络所产生的坐标与输入区域的坐标、真实坐标有关。优化网络所预测的坐标是一种相对坐标，是对输入区域坐标的修正。令(P_x,P_y,P_w,P_h)表示候选区域的中心点横坐标、纵坐标、宽和高，(G_x,G_y,G_w,G_h)表示对应的真实行人区域的中心点横坐标、纵坐标、宽和高，则优化网络所预测区域的坐标(t_x,t_y,t_w,t_h)可以表示如下：

t_x＝(G_x-P_x)/P_w

t_y＝(G_y-P_y)/P_h

t_w＝log(G_w/P_w)

t_h＝log(G_h/P_h)

上式中log表示自然对数。当特征层为输入图像时，候选区域可直接在原图上裁剪，当特征层为网络的不同层时，本发明用ROI Align方法，提取对应的特征区域。

步骤三：级联优化网络

设步骤一中样本的置信度分别为

N为样本总数，

到

N′为优化后的样本坐标，N′＝N-2k，之后再将置信度为

此外，对每一层优化网络的样本尺度也有限制，第t卷积层优化网络的样本为尺度限制为(S_t,S_t+1),t＝0,1,2,3，t＝0表示以原图为基础的优化网络，t＝1,2,3分别表示以第三，第四，第五卷积层为基础的优化网络，S_t和S_t+1的值设置根据目标数据的范围自行确定，代表第t层优化网络的尺度范围。

之所以挑选置信度较低和较高的k个样本，是因为一般情况下经网络预测的得到候选目标，其置信度较高和较低，则表示样本更加接近于正样本或负样本，若置信度在0.5左右，则表示该样本不能被网络很好的推测，因此将其通过某一优化网络进行预测。此外考虑到不同层具有不同的感受野，其适合检测的尺度范围不同，因此本发明还引入尺度信息，以使不同层检测不同的尺度。

本发明在Caltech数据集上所做实验的结果如下表所示。其中步骤一中的区域生成网络、以原图为基础的优化网络、第三、第四、第五卷积层优化网络在相关步骤中已解释，RPN+BF方法为学术界性能较高的一种类似方法，采用一般的区域生成网络加随机森林实现。评价指标为学术界公用的平均漏检率，指在最终检测结果上选定不同的阈值，得到不同的漏检率和虚警率，在检率与虚警率图像上按照对数选取10个点，其所对应的平均漏检率。平均漏检率越低，代表检测性能越好。

由实验结果可知，同类型的RPN+BF方法平均漏检率为10％，而仅用本发明中区域生成网络平均漏检率便可达9.53％，利用以原图为基础的优化网络进行优化之后，平均漏检率可降低到9.30％，再分别利用第三，第四，第五卷积层优化网络优化后，平均漏检率最终可以降低到8.88％。由此说明，本发明可以带来性能提升，且与其他方法相比更加具有性能上的优势。

表1

Claims

1.一种基于级联优化的行人目标检测方法，其特征在于，包括以下步骤：

步骤一：在一般区域生成网络的基础上，根据特征对于目标区域的响应特点，在待处理网络特征的基础上增加一个子网络，得到不同行人候选目标区域，每个候选目标区域均包含区域尺度和置信度；

步骤二：根据步骤一得到的不同行人候选目标区域尺度范围及置信度分布情况，进行不同级别优化网络的设计，分别得到基于输入图像和网络不同层级对应的优化网络结构，其输入为不同的候选区域，输出为优化后候选区域的置信度和坐标值；

步骤三：使不同尺度和置信度的候选区域通过不同的优化子网络，采用不同的优化网络对步骤一中不同行人候选目标区域分别进行修正，最终得到准确的行人目标检测结果。

2.根据权利要求1所述的基于级联优化的行人目标检测方法，其特征在于：所述步骤一具体实现如下：

设I为输入图像，经神经网络逐层处理后，最终得到特征F：

上式中

代表神经网络的作用函数；

设图像I大小为W×H，W和H分别代表图像的宽和高，网络截至特征图F的总步长为S，则特征F的大小为

记为W_s×H_s×C,其中C为通道的数目，特征图F和输入图像I是尺度放缩对应的关系；令F自主学习一个特征增强的监督特征f，f大小为W_s×H_s×1，W_s和H₃分别代表监督特征的宽和高，其特点是背景目标对应的区域响应较低，即经Sigmoid函数处理后对应的值小于0.3，前景目标区域对应的响应较高，即经Sigmoid函数处理后其值均大于0.7，然后令f和初始特征F的每个通道都相乘，得到区域增强的特征F′，获得f的具体操作为令F通过3个卷积加ReLu激活函数操作，卷积层的步长均为1，中间设置不同的通道数量，最后一个卷积层的通道设置为1，再通过sigmoid层使特征范围约束在0到1之间，即得到监督特征f，最后对区域增强后的特征F分别作分类和回归操作，得到不同行人候选目标区域。

3.根据权利要求1所述的基于级联优化的行人目标检测方法，其特征在于：所述步骤二：优化网络的设计具体实现如下：

优化网络的输入为不同行人候选目标区域，输出为优化后候选区域的置信度和坐标值，设某一输入候选区域大小为W_t×H_t,t＝0,1,2,3,t＝0表示该区域从原图中提取出来，t＝1,2,3分别表示该区域从VGG16网络的第三，第四，第五卷积层中提取所得，t值不同对应的优化网络设计也不同；优化网络的结构基础为VGG16网络，从第五特征层开始截断，后接两个全连接层，最后经过一个分类分支与回归分支，得到输入区域的优化；当候选区域从原图截取所得，则对应的优化网络的输入为VGG16整个网络，若从第三卷积层截取而得，则优化网络的输入为VGG16第三卷积层之前全部截断，从第三卷积层开始向后运行的网络模型；第四，第五卷积层的区域优化网络结构分别为VGG16网络的第四、第五卷积层之前全部截断所得,以上由原图截取，第三，第四，第五截取所得的网络结构分别称为以原图为基础的优化网络结构、以第三、第四、第五卷积层优化网络结构；

设输入候选区域的初始预测置信度为c_i,初始预测坐标为