CN110929593A

CN110929593A - 一种基于细节辨别区别的实时显著性行人检测方法

Info

Publication number: CN110929593A
Application number: CN201911078936.5A
Authority: CN
Inventors: 陈彬; 赵聪聪; 白雪峰; 于水; 胡明亮; 朴铁军
Original assignee: Harbin Institute of Technology Weihai
Current assignee: Harbin Institute of Technology Weihai
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2020-03-27
Anticipated expiration: 2039-11-06
Also published as: CN110929593B

Abstract

一种基于细节辨别区别的实时显著性行人检测方法，在现有的图像数据集中进行参数预训练；对监控视频中的视频数据读取并转化为可处理的图像格式；对步骤B中的图像进行特征提取；预训练的模型参数迁移到YOLO神经网络模型，在行人检测数据集上进行网络模型训练，用训练好的网络模型根据行人特征H和显著性特征进行行人检测。通过现有公开图像数据集中上进行参数预训练并引入到YOLO神经网络模型上，根据检测显著性区域特征和注重细节辨别区分的行人特征，进而实时的对行人进行检测，此种方法相比于单纯利用YOLO模型，有效地增加模型的多尺度预测泛化能力和极大的提高了系统的检测速率以及降低漏检率。

Description

一种基于细节辨别区别的实时显著性行人检测方法

技术领域

本发明涉及行人检测领域，尤其涉及一种基于细节辨别区别的实时显著性行人检测方法。

背景技术

行人检测是计算机视觉领域的一项重要研究方向，其通过对图像进行分析检测出图像中是否有行人。其在车辆辅助驾驶、智能监控、智能机器人等领域中有着广泛的应用。例如，车辆辅助驾驶系统可利用行人检测技术发现车辆前方的行人，提醒司机避让；智能监控系统可利用行人检测技术发现监控画面中的行人，以便对行人的行为进行分析，对可疑人员进行跟踪；而智能机器人则可利用行人检测技术发现周边环境中的行人，以自动避让或跟随等。近年来，随着智能检测的快速发展，行人检测也进入了一个较快的发展阶段，但是还存在很多问题有待解决，尤其是在性能和速度方面难以达到平衡。目前行人检测技术大概可以分为两类：1、基于背景建模，利用背景建模方法，提取出前景运动的目标，在目标区域内进行特征提取，然后利用分类器进行分类，判断是否包含行人，背景建模目前主要存在的问题：(1)必须适应环境的变化(比如光照的变化造成图像色度的变化)；(2)相机抖动引起画面的抖动(比如手持相机拍照时候的移动)；(3) 物体检测中往往会出现Ghost区域，Ghost区域也就是指当一个原本静止的物体开始运动，背景差检测算法可能会将原来该物体所覆盖的区域错误的检测为运动的，这块区域就成为Ghost，当然原来运动的物体变为静止的也会引入 Ghost区域，Ghost区域在检测中必须被尽快的消除。

目前行人检测的主要方法是通过使用有效的特征提取方法，并用HOG、PGA 等方法进行特征降维，之后通过分类器如支持向量机等实现二分类，从而判断目标物体是否为待检测行人。随着卷积神经网络的发展，使用卷积神经网络进行行人识别的研究愈发增加，得到了较好的识别效果，但随着网络规模的复杂化，检测的速度不能满足实时性需求。YOLO是近年来提出的一种物体检测方法。它将一张待检测图片分为若干个小的区域，通过单个卷积神经网络得出每个区域所包含的物体及其属性，包括物体所占区域的中心位置、长宽等，从而达到目标检测的目的，在物体检测中得到了良好的效果。相比于其他检测系统，YOLO神经网络的优势在于其网络结构简单，可以达到远高于常用视频帧数30帧以上的检测速度，同时拥有良好的检测效果。

在行人检测的发展从传统方法的特征提取、度量学习两阶段到转向基于深度学习的端到端学习过程中，行人检测技术目前存在以下主要问题：(1)行人的姿态、服饰各不相同、复杂的背景、不同的行人尺度以及不同的光照环境；(2) 提取的特征在特征空间中的分布不够紧凑；(3)分类器的性能受训练样本的影响较大；(4)离线训练时的负样本无法涵盖所有真实应用场景的情况。(5)对于判定为行人的区域通过矩形框确定位置信息，由于通常会选取多种尺寸的滑窗大小，一个行人的位置可能包含多个重叠的矩形框，最后需要采用非极大值抑制 (Non-Maximum Suppression，NMS)算法进行后处理，输出每个检测到行人的最佳位置。早期的行人检测采用精心设计的手工特征(SIFT、HOG等)来描述行人特征，再通过支持向量机(Support Vector Machine，SVM)分类器进行分类，这个过程属于浅层学习，对行人特征的刻画能力有限，往往达不到理想的效果。

发明内容

本发明涉及一种基于细节辨别区别的实时显著性行人检测方法，所述方法的检测效率极大的提高且降低漏检率。

一种基于细节辨别区别的实时显著性行人检测方法，包括以下几个步骤：

步骤A：在现有的图像数据集中进行参数预训练；

步骤B：对监控视频中的视频数据读取并转化为可处理的图像格式；

步骤C：对步骤B中的图像进行特征提取；

步骤D：利用第一分支网络和第二分支网络对步骤C中的特征进行解析人体语义信息，计算得到行人特征H；

H＝α*A+β*B

其中，A表示第一分支网络，B表示第二分支网络，α和β是网络分支系数；

步骤E：先对图像进行形态显著性计算，利用PCA对基础部分进行降维，获取最具有代表性的行人特征作为显著性计算的依据，再利用超像素分割将图像分割为不同的区域，计算各区域与全图平均值的对比度，得到形态显著图；

加入先验信息，融合所述形态显著再对图像进行颜色显著性计算，计算在 CIELab空间下，各个所述区域间的颜色对比对度，得到颜色显著图；

形态显著图和所述颜色显著图，获取图像的显著性区域，再将显著性区域增亮，提取到显著性特征；

步骤F：将步骤A中预训练的模型参数迁移到YOLO神经网络模型，在行人检测数据集上进行网络模型训练，用训练好的网络模型根据所述行人特征H和所述显著性特征进行行人检测。

上述技术方案中，更进一步的是，在步骤A中，所述现有的图像数据集为 ImageNet大型公开数据库。

上述技术方案中，更进一步的是，在步骤B中，所述图像格式可为JPG、PNG。支持多种图片格式，提高了适应广度。

上述技术方案中，更进一步的是，在步骤B中，还包括对所述图像的预处理步骤，对所述图像失真处理。使得图像提高品质，减少干扰信息影响行人特征的提取。

上述技术方案中，更进一步的是，在步骤C中，截取基础网络Darknet-53 作为特征提取网络。Darknet-53网络融合了Darknet-19以及其他新型网络，提高了特征提取的准确度。

上述技术方案中，更进一步的是，在步骤D中，所述第一分支网络和所述第二分支用于计算人体解析的上下分支语义信息。在使用深度网络模型的实践中，仅使用单个分支网络难以捕获不同的特征。如果将两种类型的图片放置在一个网络中，则训练效果将比两种类型的图片差得多，引入不同的子网络来学习并获得更多的部分领域特征差异化的结果。

与现有技术相比，本发明的有益效果是：通过现有公开图像数据集中上进行参数预训练并引入到YOLO神经网络模型上，使目标卷积神经网络模型获得一个较好的初始化参数值。在此基础上，通过人工标注数据集，即自己制作数据集的方式扩充行人检测复杂场景训练，在自己的数据集上进行再训练以及对目标任务进行继续训练，并且根据检测显著性区域特征和注重细节辨别区分的行人特征，进而实时的对行人进行检测，此种方法相比于单纯利用YOLO模型，有效地增加模型的多尺度预测泛化能力和极大的提高了系统的检测速率以及降低漏检率。

附图说明

图1为本发明所述的Darknet-53结构图。

图2为本发明所述的先验框示意图。

图3为本发明所述的Itti算法流程图。

图4为本发明所述的显著性特征提取流程图。

图5为本发明所述的物体遮挡不全时显著性目标检测算法效果图。

图6为本发明所述的物体边缘模糊时显著性目标检测算法效果图。

图7为本发明所述的方法流程图。

图8为本发明所述YOLO v3神经网络结构图。

具体实施方式

以下实施例结合附图对本发明做进一步描述。

如图1—8所示，首先，需要在ImageNet大型公开数据集上进行参数预训练初始化网络；

在读取监控视频数据中的视频数据，将其解码，以3—5帧每秒的速率对视频数据进行采样并转化为JPG或PNG格式的图像再对图像进行预处理；

图像分析中，图像质量的好坏直接影响识别算法的设计与效果的精度，因此在图像分析(特征提取、分割、匹配和识别等)前，需要进行预处理。图像预处理的主要目的是消除图像中无关的信息，恢复有用的真实信息，增强有关信息的可检测性、最大限度地简化数据，从而改进特征提取、图像分割、匹配和识别的可靠性；

在图像预处理操作时，使用图像增强操作，增强图像中的有用信息，它可以是一个失真的过程，其目的是要改善图像的视觉效果，针对给定图像的应用场合，有目的地强调图像的整体或局部特性，将原来不清晰的图像变得清晰或强调某些感兴趣的特征，扩大图像中不同物体特征之间的差别，抑制不感兴趣的特征，使之改善图像质量、丰富信息量，加强图像判读和识别效果；读取、解码、采样和转化为领域内的常用手段，本实施例中不再赘述；

得到图像后对图像进行特征提取，特征提取操作时，截取基础网络 Darknet-53的一部分作为特征提取网络，特征提取网络分别与候选区域网络和判别网络连接，同时候选区域网络也与判别网络连接，最终由判别网络输出选定行人后的结果。Darknet-53网络融合了Darknet-19以及其他新型残差网络，由一系列的1x1和3x3的卷积层组成(每个卷积层后都会跟一个BN层和一个LeakyReLU层，因为网络中有53个convolutional layers，所以叫做Darknet-53)。

这个网络主要是由一系列的1x1和3x3的卷积层组成，卷积层构成如图1中所示，每个卷积层后都会跟一个BN层和一个LeakyReLU层。原Darknet-53中的尺寸是在图片分类训练集上训练的，所以输入的图像尺寸是256*256，如图1是以YOLO v3416模型进行绘制的，所以输入的尺寸是416*416，预测的三个特征层大小分别是52，26，13；

Convolutional是指Conv2d+BN+LeakyReLU，和Darknet-53图1中的一样，而生成预测结果的最后三层都只是Conv2d。

得到图像特征之后，对图像每个下采样比例设置三种先验框，并且设计总共九种尺寸的先前框。YOLO数据集中的九个先验框是：(10·13)，(16·30)， (33·23)，(30·61)，(62·45)，(59·119)，(116·90)，(156·198)，(373·326)。在最小的13*13特征图上应用较大的先验框(116·90)，(156·198)，(373·326)，其中分布上具有最大的感受野，适合检测较大的对象。另外，介质26*26特征图(中等感受野)使用适合于检测中等尺寸物体的介质先验框(30·61)，(62·45)， (59·119)。它适用于检测较小的物体，使用较大的52*52特征图和较小的先验框(10·13)，(16·30)，(3·23)。行人检测的先验框设计如图所示。每个Bounding Boxes有五个坐标值，t_y，t_w，t_h，t₀。假设一个网格单元对于图片左上角的偏移量是c_x、c_y，Bounding Boxes Prior的宽度和高度是p_w、p_h，模型的边界预测公式如(1)：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

一方面，突出的物体检测是许多图像分析任务中的关键步骤，也是边缘级任务的行人检测，因为它不仅可以识别视觉场景的相关部分，还可以通过滤除不相关的段来降低计算复杂性。另一方面，人眼的视觉影响取决于目标和局部区域之间的对比度。对比度越高，人眼对目标的感知越明显。使用每个像素的对比度和周围区域像素来表征图像是更好的方法。在本发明中，我们基于细节辨别区分的实时显著性行人检测对YOLO模型进行了改进，以减少行人检测的误报。与此同时，我们在darknet53的末尾增加了一个三层网络，包括双层卷积和一个完全连接的网络，以减弱复杂背景条件下的行人信息，从而显著增强未来的行人信息。

在使用深度网络模型的实践中，仅使用单个分支网络难以捕获不同的特征。如果将两种类型的图片放置在一个网络中，则训练效果将比两种类型的图片差得多。因此，有必要引入不同的子网络来学习并获得更多的部分领域特征差异化的结果。细节区域进一步分为两个子分支：上体分支和下体分支。这两种类型的分支可以通过不同语义信息的引导共同学习互补特征表示。用于计算人体解析的上下分支的语义信息，H表示行人特征，A表示上体分支，B表示下体分支，a和β是分支系数。公式如(3)：

H＝a*A+β*B (3)

由于YOLOv3模型本身具有很强的泛化能力，因此我们将检测能力与寻找最重要的局部区域特征的泛化能力进行平衡，并使用全局最大池而不是全局统一池。

人类视觉系统在面对自然场景时具有快速搜索和定位感兴趣目标的能力，这种视觉注意机制是人们日常生活中处理视觉信息的重要机制。随着互联网带来的大数据量的传播，如何从海量的图像和视频数据中快速地获取重要信息，已经成为计算机视觉领域一个关键的问题。通过在计算机视觉任务中引入这种视觉注意机制，即视觉显著性，可以为视觉信息处理任务带来一系列重大的帮助和改善。本发明结合视觉显著性思想，采用显著性特征提取，辨别区分关注感兴趣目标行人，进行使得行人检测精准性较之前算法有所提升；

对图像进行显著性特征提取，图像显著性特征提取常见方法有：Itti算法，图3所示。对输入图片1/2采样，重复八次，最小尺度的图片I8大小是原图片 I0的1/256，共计8个尺度；Step2：分别提取不同尺度下的图像特征，颜色特征R、G、B、Y，亮度特征I，方向特征(0,45,90,135四个方向)，共计9个特征；Step3：计算中央周边差，中央c包括2,3,4；周边s包括5,6,7,8；要求c-s 等于3,4，所以共有2-5，2-6，3-6，3-7，4-7，4-8六种尺度差。特征差值包括 I，RG，BY，O(四种方向)七种特征，共计42幅特征图。取差的时候需要向上差值，使其具有相同的尺度；Step4：归一化，不同特征得到的显著值不同；然后分别尺度间求和，包括Im(亮度和)，Cm(RG、BY)，Om(四个方向和)，求和与上面取差类似，先插值，后求和。Step5：显著图融合，均值融合的方法。频繁的差值处理导致分辨率差，显著边缘效果不好；Itti算法缺陷是：频繁的差值处理导致分辨率差，显著边缘效果不好；

本发明在显著性特征提取时融合PCA算法，该算法将形态与Lab颜色空间下两种描述相结合；图4所示；

Step1：形态显著性计算，利用PCA(Principal Component Analysis)对基础部分进行降维，找到最具有代表性的特征作为显著性计算的依据。利用超像素分割将图像分割为不同的区域，计算各区域与全图平均值的对比度，得到显著图。

Step2：颜色显著性计算，计算在CIELab空间下，各个区域间的颜色对比度。

Step3：加入先验信息，在神经网络设计中建立先验信息，以此建立一种特定的网络结构，是必须考虑的重要问题。通过使用权值共享(weight-sharing)，限制突触权值的选择，其有很好的附带效益，它能使网络白由参数的数量显著下降。融合形态显著图和颜色显著图的基础上，找到图像中显著性区域，加入一个 o＝1000的Gaussian滤波器，凸出显著性区域增加亮度，形成显著性特征。S为显著性函数，P为先验信息函数，p_x为先验信息。

S(p_x)＝G(P_x)·P(p_x)·C(p_x) (4)

一方面，显著性目标检测(Salient Object Detection,SOD)可以使计算机模仿人眼的视觉特征，高效快速地发现场景中最具吸引力的区域，为此，显著性检测结果应该符合人眼的视觉特征，检测结果必须与人眼观察到的结果一致，显著性检测在计算机视觉中有着广泛的应用。另一方面，神经元具有较大的接受范围提供全局信息，可以帮助更好地识别图像中最显著的区域，卷积神经网络所能实现前所未有的性能使其逐渐成为显著性物体检测的主流方向。

与此同时，综合考虑图像中高层语义信息，通过能量函数优化得到像素高级显著性图，以及通过纹理特征分类器可以将待检测目标分类得到中心，并且通过融合颜色特征及对似性物体的对象级显著性特征，将会更好地提升目标检测模型对物体存在遮挡不全、边缘模糊问题的检测精准性。

另外，通过采用每个编码器块和相应的解码器块来构建的注意反馈模块 (AFM)，以逐比例地细化粗略预测。注意力反馈模块有助于捕捉目标的整体形状。此外，边界增强损失(BEL)用于产生精美的边界，帮助在目标轮廓上的显着性预测的学习。提出的模型具有学习生成精确和结构完整的显着性目标检测结果的能力，可以在不进行后处理的情况下明确切割目标的轮廓。

如图5—6所示，在全局显著性预测上，可以在最后一层直接使用全连接层。原因在于：最深层中的相邻元素具有大的重叠感受域，意味着输入图像上的相同像素贡献了大量冗余次数来计算单个显着性值使用所有像素，对于确定一般位置很有用，但局部模式会丢失这些事实激励了全局感知模块的提出，以充分利用局部和全局信息。另外，在损失函数方面改进上，进行平均池化操作来实现边界轮廓的提取，作差后通过绝对值操作进而提取了边界。总的损失函数可以表示为：

Γ(S^(l,t),G^(l))＝λ₁·Г_ce(S^(l,t),G^(l))+λ₂·Г_e(B^(l)(S^(l,t)),B^(l)(G^(l))) (5)

其中，第一项Г_ce(·，·)表示显着性检测，而第二项是边界增强损失。Г_e(·，·)表示欧几里得损失。我们使用λ₁和λ₂控制损失权重，设置λ₁：λ₂＝1： 10在我们的实现中加强了对象轮廓的学习进度。对于l＝3、4、5，损失函数只包含第一项，即交叉熵显着性检测丢失。将Darknet-53网络模型与显著性目标检测融合，使得存在物体遮挡不全和边缘模糊问题时，有效提升目标检测的精准性。

以上，提取到所述行人特征融合显著性特征目标检测，以提高显著性行人检测算法的精准性。

将ImageNet大型公开数据集上预训练的模型参数，牵引到YOLO神经网络中，上；

YOLO算法把输入图像划分成S*S的网格，然后对每个网格都预测B个 boundingboxes，每个bounding box都对应5个预测值：x,y,w,h和confidence。 x,y就是boundingbox的中心位置坐标；w和h则对应宽和高，confindence为置信度，即其属于某一类别物体的概率。每个格子都预测C个假定类别的概率。在原始的YOLO中取S＝7，B＝2，所以最后有7*7*2个tensor。而YOLO v3设定的是每个网格单元预测3个bounding boxes，每个box需要有(x,y,w,h, confidence)五个基本参数，然后还要有预测80个类别的概率。所以3*(5+80) ＝255。

每个bounding box都对应一个confidence score，如果网格里面没有物体，confidence就是0，如果有，则confidence score等于预测的box和ground truth 的IOU值。所以如何判断一个网格中是否包含物体的方法为：如果一个物体的 ground truth的中心点坐标在一个网格中，那么这个网格就是包含这个物体，也就是说这个物体的预测就由该网格负责。

对于上面提到的ground truth，解释如下。机器学习包括有监督学习(supervised learning)，无监督学习(unsupervised learning)，和半监督学习 (semi-supervised learning)。在有监督学习中，数据是有标注的，以(x,t) 的形式出现，其中x是输入数据，t是标注。正确的t标注是ground truth，错误的标记则不是。

与之前YOLO版本一样，YOLO v3的边框预测anchor boxes也是通过聚类的方法得到的。YOLO v3对每个bounding box预测四个坐标值(tx,ty,tw,th)，对于预测的网格根据图像左上角的偏移(cx,cy)(cx,cy)，以及之前得到bounding box的宽和高pw、ph，可以对bounding boxes按到公式(1)的方式进行预测：

在训练这几个坐标值的时候采用了sum of squared error loss(平方和距离误差损失)，YOLO全部使用了均方和误差作为loss函数，见公式(6)。由三部分组成:坐标误差、IOU误差和分类误差。只是简单的差方相加而已，这种方式的误差可以很快的计算出来。

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

YOLO v3提供了3种尺寸不一的边界框，即图8中的三个预测值。用相似的 FPN(feature pyramid network)网络提取这些尺寸的特征，以形成金字塔形网络。在基本特征提取器中增加了几个卷积层，并用最后的卷积层预测一个三维张量编码：边界框、框中目标和分类预测。

接着，从前两个图层中得到特征图，并对它进行2次上采样。再从网络更早的图层中获得特征图，用element-wise把高低两种分辨率的特征图连接到一起。这样做能使找到早期特征映射中的上采样特征和细粒度特征，并获得更有意义的语义信息。之后，添加几个卷积层来处理这个特征映射组合，并最终预测出一个相似的、大小是原先两倍的张量。

用同样的网络设计来预测边界框的最终尺寸，这个过程其实也有助于分类预测，因为可以从早期图像中筛选出更精细的特征。

和YOLO v2一样，YOLO v3使用的聚类方法还是K-Means，它能用来确定边界框的先验。在实验中，选择了9个聚类和3个尺寸，然后在不同尺寸的边界框上均匀分割维度聚类。在COCO数据集上，这9个K-Means聚类分别是：(10×13)、 (16×30)、(33×23)、(30×61)、(62×45)、(59×119)、(116×90)、(156× 198)、(373×326)。

在YOLO神经网络模型设计之后，在行人数据集(INRIA和NICTA)上进行训练，行人数据集可以划分为训练集、验证集和测试集，比例为8：1：1。以及在测试集上进行测试，进而使用训练好的YOLO神经网络模型进行行人检测。

本发明不局限于上述实施例，领域内的技术人员可在所具备的知识范围内，在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于细节辨别区别的实时显著性行人检测方法，其特征在于，包括以下几个步骤：

步骤A：在现有的图像数据集中进行参数预训练；

步骤C：对步骤B中的图像进行特征提取；

H＝α*A+β*B

加入先验信息，融合所述形态显著再对图像进行颜色显著性计算，计算在CIELab空间下，各个所述区域间的颜色对比对度，得到颜色显著图；

2.根据权利要求1中所述的一种基于细节辨别区别的实时显著性行人检测方法，其特征在于，在步骤A中，所述现有的图像数据集为ImageNet大型公开数据库。

3.根据权利要求1中所述的一种基于细节辨别区别的实时显著性行人检测方法，其特征在于，在步骤B中，所述图像格式可为JPG、PNG。

4.根据权利要求1中所述的一种基于细节辨别区别的实时显著性行人检测方法，其特征在于，在步骤B中，还包括对所述图像的预处理步骤，对所述图像失真处理。

5.根据权利要求1中所述的一种基于细节辨别区别的实时显著性行人检测方法，其特征在于，在步骤C中，截取基础网络Darknet-53作为特征提取网络。

6.根据权利要求1中所述的一种基于细节辨别区别的实时显著性行人检测方法，其特征在于，在步骤D中，所述第一分支网络和所述第二分支用于计算人体解析的上下分支语义信息。