CN109558790B

CN109558790B - 一种行人目标检测方法、装置及系统

Info

Publication number: CN109558790B
Application number: CN201811172791.0A
Authority: CN
Inventors: 仝小敏; 吉祥; 李鹏; 李俊毅; 仝茵
Original assignee: China Academy of Electronic and Information Technology of CETC
Current assignee: China Academy of Electronic and Information Technology of CETC
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2023-09-12
Anticipated expiration: 2038-10-09
Also published as: CN109558790A

Abstract

本发明公开了一种行人目标检测方法、装置及系统，本发明通过利用运动检测信息去除深度学习检测目标中的虚警目标，并利用运动像素优化目标边界，获得更加准确的目标定位信息。相比于只利用深度学习模型检测行人的方法，本发明方法由于有效的去除了虚警目标，所以大大提高了行人目标的检测准确率。

Description

一种行人目标检测方法、装置及系统

技术领域

本发明涉及计算机技术领域，特别是涉及一种行人目标检测方法、装置及系统。

背景技术

随着计算机计算技术和存储技术的快速发展，视频信息占人们接受信息的比重越来越大，对视频的智能分析也越来越重要。其中视频目标检测是对视频分析的重要切入点，因此不管是在学术界还是在商业界，目标检测都是研究和应用的一个热点。传统的视频运动目标检测方法包括背景差法、帧差法、光流法，这类方法的主要原理是分析运动目标相对于背景图像的差异，确定运动目标所在的位置。

深度学习是目前机器学习在实际应用中最成功的一种方法，在自然图像分类、通用目标检测、语义分割等视觉领域取得了突破性的成绩。将深度学习用于视频运动目标检测的方法，能够有效描述目标外观、结构、色彩等视觉特征，从而检测定位目标。

而针对视频行人检测这个特定的应用，传统的视频运动目标检测方法仅仅利用目标运动信息并不能精确定位行人目标，尤其是目标之间有交叠、部分遮挡等情况下，无法区分不同的目标，检测准确率91.2％。基于深度学习的目标检测方法的局限性在于没有利用目标运动信息，导致与目标外观相似的虚警目标被误检，检测准确率92.3％。

发明内容

本发明提供了一种行人目标检测方法、装置及系统，以解决现有技术中视频行人检测不能精确定位行人目标的问题。

本发明提供了一种行人目标检测方法，该方法包括：将原始图像I₀输入预设的行人检测模型，得到行人检测结果集合P＝{＜p_k,T_k,x_k,min,x_k,max,y_k,min,y_k,max＞,k＝1,2,...,K}；其中，K为当前检测到的行人目标数，p_k为第k个目标T_k的检测置信度，x_k,min,x_k,max,y_k,min,y_k,max分别为T_k的上下左右边界像素位置；采用基于混合高斯模型的背景差算法对当前帧图像进行运动前景提取，得到的前景图I；将行人检测结果中第k个目标为T_k，在当前图像中对应的区域为(x_k,min，x_k,max，y_k,min,y_k,max)，行人T_k的运动得分其中，Area_k＝(x_k,max-x_k,min+1)·(y_k,max-y_k,min+1)，/>当S_k大于预定阈值，则判定T_k为正确检测到的行人目标，当S_k小于等于预定阈值，则判定T_k为虚警目标。

优选地，所述行人检测模型为采用VOC和COCO数据库一起训练YOLOV3权重模型，目标类别数取class＝1，迭代预定次数后得到的权重模型。

优选地，对图像中坐标为(x,y)的点处混合高斯模型为M＝{＜w_i,Model_i＞,i＝1,2,...,Num}，Num为混合高斯模型所包含的单高斯模型的数目，前景提取其中，I₀为当前输入原始图像，θ为前景提取阈值。

优选地，所述预定阈值为0.5。

本发明第二方面提供了一种行人目标检测装置，该装置包括：

处理单元，用于将原始图像I₀输入预设的行人检测模型，得到行人检测结果集合P＝{＜p_k,T_k,x_k,min,x_k,max,y_k,min,y_k,max＞,k＝1,2,...,K}；其中，K为当前检测到的行人目标数，p_k为第k个目标T_k的检测置信度，x_k,min,x_k,max,y_k,min,y_k,max分别为T_k的上下左右边界像素位置；

提取单元，用于采用基于混合高斯模型的背景差算法对当前帧图像进行运动前景提取，得到的前景图I；

判断单元，用于将行人检测结果中第k个目标为T_k，在当前图像中对应的区域为(x_k,min，x_k,max，y_k,min,y_k,max)，行人T_k的运动得分其中，Area_k＝(x_k,max-x_k,min+1)·(y_k,max-y_k,min+1)，/>当S_k大于预定阈值，则判定T_k为正确检测到的行人目标，当S_k小于等于预定阈值，则判定T_k为虚警目标。

优选地，所述提取单元，还用于对图像中坐标为(x,y)的点处混合高斯模型为M＝{＜w_i,Model_i＞,i＝1,2,...,Num}，Num为混合高斯模型所包含的单高斯模型的数目，前景提取其中，I₀为当前输入原始图像，θ为前景提取阈值。

优选地，所述预定阈值为0.5。

本发明第三方面提供了一种行人目标检测系统，该系统包括上述任一种所述的装置。

本发明第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有信号映射的计算机程序，所述计算机程序被至少一个处理器执行时，以实现上述任一种所述的行人目标检测方法。

本发明有益效果如下：

本发明提供了一种融合运动检测信息和深度学习的视频行人检测方法，该方法利用运动检测信息去除深度学习检测目标中的虚警目标，并利用运动像素优化目标边界，获得更加准确的目标定位信息。相比于只利用深度学习模型检测行人的方法，本发明方法由于有效的去除了虚警目标，所以大大提高了行人目标的检测准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例的一种行人目标检测方法的流程示意图；

图2是本发明实施例的另一种行人目标检测方法的流程示意图；

图3是本发明实施例的一种行人目标检测装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明第一实施例提供了一种行人目标检测方法，参见图1，该方法包括：

S101、将原始图像I₀输入预设的行人检测模型，得到行人检测结果集合P＝{＜p_k,T_k,x_k,min,x_k,max,y_k,min,y_k,max＞,k＝1,2,...,K}；其中，K为当前检测到的行人目标数，p_k为第k个目标T_k的检测置信度，x_k,min,x_k,max,y_k,min,y_k,max分别为T_k的上下左右边界像素位置；

S102、采用基于混合高斯模型的背景差算法对当前帧图像进行运动前景提取，得到的前景图I；

S103、将行人检测结果中第k个目标为T_k，在当前图像中对应的区域为(x_k,min，x_k,max，y_k,min,y_k,max)，行人T_k的运动得分其中，Area_k＝(x_k,max-x_k,min+1)·(y_k,max-y_k,min+1)，/>

当S_k大于预定阈值，则判定T_k为正确检测到的行人目标，当S_k小于等于预定阈值，则判定T_k为虚警目标。

具体实施时，本发明实施例设定所述预定阈值为0.5。

本发明提出一种融合运动检测信息和深度学习的视频行人检测方法，该方法利用运动检测信息去除深度学习检测目标中的虚警目标，并利用运动像素优化目标边界，获得更加准确的目标定位信息。相比于只利用深度学习模型检测行人的方法，本发明方法由于有效的去除了虚警目标，所以大大提高了行人目标的检测准确率。

本发明实施例中，所述行人检测模型为采用VOC和COCO数据库一起训练YOLOV3权重模型，目标类别数取class＝1，迭代预定次数后得到的权重模型。

具体地，在ubuntu16.0.4下配置CUDA9.1和OPENCV3.2，采用VOC和COCO数据库一起训练YOLOV3权重模型，目标类别数取class＝1，取迭代30000次后得到的权重模型作为行人检测模型。

本发明实施例中，对图像中坐标为(x,y)的点处混合高斯模型为M＝{＜w_i,Model_i＞,i＝1,2,...,Num}，Num为混合高斯模型所包含的单高斯模型的数目，前景提取其中，I₀为当前输入原始图像，θ为前景提取阈值。

总体来说，本发明实施例为提高行人目标检测准确率，本发明提出一种融合GMM和YOLO的视频行人目标检测方法，将深度学习方法引入传统视频运动目标检测方法，利用对行人目标准确、全面的外观描述的同时，挖掘行人目标运动信息。GMM方法指的是背景建模法中比较成熟的混合高斯建模法，深度学习采用YOLOV3深度神经网络模型，实现行人与背景的二分类。将GMM和YOLO融合来提高视频行人目标检测准确率。

本发明同时利用目标运动信息和外观特征信息来检测行人目标。首先利用公开数据集离线训练yolov3行人检测模型参数，利用不同光照下采集的背景图像进行GMM背景建模。然后将原始图像分别输入GMM模型和行人检测模型，分别获得GMM运动检测结果和行人目标检测结果。根据运动检测结果计算每个检测到的行人的运动得分，最终获得行人检测结果。

也就是说，本发明实施例是利用运动信息去除场景中检测到的虚警目标，从而大大提高了视频行人目标检测准确率。

本发明实施例利用混合高斯建模技术(GMM，GuassinMixureModel)建立多个高斯背景模型，即，本发明实施例是通过混合高斯建模技术对图像中每个像素点建立多个高斯背景模型，每个高斯模型＜w,Model＞包含权重w和模型Model，用以描述像素点的一个背景模型，模型Model由均值μ和方差σ两个参数组成，权重w则表示这个背景模型的置信度。多个高斯背景模型是用来描述光照变化、阴影等复杂情况下背景像素。若当前像素值对该像素点的任意一个背景模型的置信度高于置信度阈值θ，则认为该像素点为背景点；反之，若当前像素值对任何一个背景模型的置信度都低于置信度阈值θ，则认为当前像素点为前景点。

另外，本发明通过李彤YOLO把一整张图片一下子应用到一个神经网络中去。网络把图片分成不同的区域，然后给出每个区域的边框预测和概率，并依据概率大小对所有边框分配权重。最后，设置阈值，只输出得分(概率值)超过阈值的检测结果。网络有24个卷积层，后面是2个全连接层。本发明使用YOLOV3进行行人目标检测模型训练和行人目标检测，只使用1×1降维层，后面是3×3卷积层。

下面将结合图2对本发明实施例所述的方法进行详细的解释和说明：

(1)YOLOV3行人检测模型训练

在ubuntu16.0.4下配置CUDA9.1和OPENCV3.2，采用VOC和COCO数据库一起训练YOLOV3权重模型，目标类别数取class＝1，取迭代30000次后得到的权重模型作为行人检测模型。

(2)YOLOV3行人检测

将原始图像I₀输入行人检测模型，得到行人检测结果集合P＝{＜p_k,T_k,x_k,min,x_k,max,y_k,min,y_k,max＞,k＝1,2,...,K}，K表示当前检测到的行人目标数，p_k表示第k个目标T_k的检测置信度，x_k,min,x_k,max,y_k,min,y_k,max分别表示T_k的上下左右边界像素位置。

(3)GMM运动目标检测

采用基于混合高斯模型的背景差算法对当前帧图像进行运动前景提取，得到的前景图记为I。假设对图像中坐标为(x,y)的点处混合高斯模型为M＝{＜w_i,Model_i＞,i＝1,2,...,Num}(Num表示混合高斯模型所包含的单高斯模型的数目)，那么前景提取公式如下：

式(1)中，I₀为当前输入原始图像，θ为前景提取阈值，可以为固定阈值，也可取为自适应的(如取所有权重中的次小值)。

(4)行人运动打分

记行人检测结果中第k个目标为T_k，在当前图像中对应的区域为(x_k,min，x_k,max，y_k,min,y_k,max)，那么行人T_k的运动得分S_k计算方式如下：

Area_k＝(x_k,max-x_k,min+1)·(y_k,max-y_k,min+1) (3)

若S_k大于预定阈值，则认为T_k为正确检测到的行人目标，反之，则认为T_k为虚警目标，从检测结果中去除。

需要说明的是，本发明实施例所述的预设阈值的含义为前景面积占目标区域面积的比例，本发明在实验中取0.5。若为正确检测的行人目标，则用当前前景区域边界作为目标检测结果输出。

综上，本发明提出一种融合运动检测信息和深度学习的视频行人检测方法，该方法利用运动检测信息去除深度学习检测目标中的虚警目标，并利用运动像素优化目标边界，获得更加准确的目标定位信息。相比于只利用深度学习模型检测行人的方法，本发明方法有效的去除了虚警目标，提高了行人目标的检测准确率。

本发明的方法在2017年央企双创展中实地应用，主要通过统计各个展台前参观人数检测分析各个展台热度。数据源为187路海康网络摄像头，通过对每一路摄像头轮流访问获取并处理当前捕获的图像帧，统计当前展厅前参观人数。在Intel(R)Core(TM)i5-3470CPU@3.20GHz的处理器上每帧图像处理耗时越3秒，这样每个展台前摄像头的两次访问间隔约为10分钟，能够满足展台热度分析需求。YOLO检测结果中有许多外观于行人特征相像的虚假目标，并且正确检测的目标区域比真实目标区域偏大。本发明利用运动检测信息，去除了检测结果中的虚警目标，同时，使得检测到的行人区域更加精确。对双创展举办期间的行人检测准确率进行对比统计，本发明方法的检测准确率相比于YOLO，提高了5％。

本发明第二实施例提供了一种行人目标检测装置，参见图3，该装置包括：

具体实施时，本发明实施例所述提取单元，还用于对图像中坐标为(x,y)的点处混合高斯模型为M＝{＜w_i,Model_i＞,i＝1,2,...,Num}，Num为混合高斯模型所包含的单高斯模型的数目，前景提取其中，I₀为当前输入原始图像，θ为前景提取阈值。

本发明实施例的相关内容可参见本发明第一实施例进行理解，在此不做详细论述。

本发明第三实施例提供了一种行人目标检测系统，该系统包括本发明第二实施例中任一种所述的装置。具体可参见本发明第二实施例进行理解，在此不做详细论述。

本发明第四实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有信号映射的计算机程序，所述计算机程序被至少一个处理器执行时，以实现本发明第一实施例所述的行人目标检测方法。本发明实施例的相关内容可参见本发明第一实施例进行理解，在此不做详细论述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的分布式文件系统数据导入装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种行人目标检测方法，其特征在于，包括：

将原始图像I₀输入预设的行人检测模型，得到行人检测结果集合P＝{＜p_k,T_k,x_k,min,x_k,max,y_k,min,y_k,max＞,k＝1,2,...,K}；其中，K为当前检测到的行人目标数，p_k为第k个目标T_k的检测置信度，x_k,min,x_k,max,y_k,min,y_k,max分别为T_k的上下左右边界像素位置；

采用基于混合高斯模型的背景差算法对当前帧图像进行运动前景提取，得到的前景图I；

将行人检测结果中第k个目标为T_k，在当前图像中对应的区域为(x_k,min，x_k,max，y_k,min,y_k,max)，行人T_k的运动得分其中，Area_k＝(x_k,max-x_k,min+1)·(y_k,max-y_k,min+1)，/>

当S_k大于预定阈值，则判定T_k为正确检测到的行人目标，当S_k小于等于预定阈值，则判定T_k为虚警目标；

对图像中坐标为(x,y)的点处混合高斯模型为M＝{＜w_i,Model_i＞,i＝1,2,...,Num}，Num为混合高斯模型所包含的单高斯模型的数目，前景提取其中，I₀为当前输入原始图像，θ为前景提取阈值，Model_i表示混合高斯模型的第i个高斯模型，w_i为混合高斯模型所对应的权重。

2.根据权利要求1所述的方法，其特征在于，

所述行人检测模型为采用VOC和COCO数据库一起训练YOLO V3权重模型，目标类别数取class＝1，迭代预定次数后得到的权重模型。

3.根据权利要求1所述的方法，其特征在于，

所述预定阈值为0.5。

4.一种行人目标检测装置，其特征在于，包括：

判断单元，用于将行人检测结果中第k个目标为T_k，在当前图像中对应的区域为(x_k,min，x_k,max，y_k,min,y_k,max)，行人T_k的运动得分其中，Area_k＝(x_k,max-x_k,min+1)·(y_k,max-y_k,min+1)，/>当S_k大于预定阈值，则判定T_k为正确检测到的行人目标，当S_k小于等于预定阈值，则判定T_k为虚警目标；

所述提取单元，还用于对图像中坐标为(x,y)的点处混合高斯模型为M＝{＜w_i,Model_i＞,i＝1,2,...,Num}，Num为混合高斯模型所包含的单高斯模型的数目，前景提取其中，I₀为当前输入原始图像，θ为前景提取阈值，Model_i表示混合高斯模型的第i个高斯模型，w_i为混合高斯模型所对应的权重。

5.根据权利要求4所述的装置，其特征在于，

6.根据权利要求4所述的装置，其特征在于，

所述预定阈值为0.5。

7.一种行人目标检测系统，其特征在于，包括权利要求4-6中任意一项所述的装置。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有信号映射的计算机程序，所述计算机程序被至少一个处理器执行时，以实现权利要求1-3中任意一项所述的行人目标检测方法。