CN109145708A

CN109145708A - 一种基于rgb和d信息融合的人流量统计方法

Info

Publication number: CN109145708A
Application number: CN201810648702.9A
Authority: CN
Inventors: 申富饶; 姚杨; 张旭; 梁雨; 吴文钦
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2019-01-04
Anticipated expiration: 2038-06-22
Also published as: CN109145708B

Abstract

本发明公开了一种基于RGB和D信息融合的人流量统计方法，包括：步骤1，采集包含人头信息的图像样本；步骤2，对RGB样本进行人头区域的标记，将正负样本裁剪，对裁剪后的样本图像大小做正则化处理并为不同样本附上相应的样本标签；步骤3，提取所有RGB样本图像的HOG特征，将提取的HOG特征和其对应的样本标签输入到SVM分类器进行训练；步骤4，利用训练好的SVM分类器对于新输入的视频帧中的RGB图像进行人头区域检测；步骤5，对新输入的视频帧的Depth图像的深度信息进行人头区域检测；步骤6，将检测结果融合获得最终检测目标框；步骤7，对目标对象进行跟踪获得目标对象的运动轨迹，统计人流量信息。

Description

一种基于RGB和D信息融合的人流量统计方法

技术领域

本发明涉及一种基于RGB和D信息融合的人流量统计方法。

背景技术

近年来，智慧城市建设已成为社会生活发展的主要趋势。实时进出的人数是公共场所控制和管理的重要信息，如在公共交通设施上以及商场里。获取人流量信息不仅可以避免由于人流量过大造成的安全问题，也可以用来合理规划时间空间资源获得更好的经济效益。

传统的人流计数技术是通过旋转门，激光，红外线，压力等传感器来实现的。然而，为了获得人数(进/出)，让人按顺序经过指定传感器是必须的。因此，当人们并排走或者人流量较大时，这些传感器就没有办法获得一个准确的结果，所以说这些传感器的有效使用会极大的限制了人们进出的自由。同时，使用这些传感器必须改变当前的环境来安装这些设备，这会比较麻烦。所以说这些方法没有办法做到方便与准确并存。

现在基于计算机视觉的方法被广泛用于人数统计。近年来，深度学习在行人检测，人群行为分析和其他视频监控应用等各种视觉任务中取得了显着成果。Sermanet等人指出从深度学习模式获得的信息比手动获取的更加具有差异区分性。张等人提出了一种简单而有效的多列卷积神经网络(MCNN)架构来将图像映射到人口密度图。还有一系列的RNN，Fast-RCNN等方法在视觉处理方面的应用。参考文献：Sermanet,P.,Lecun,Y.:Trafficsign recognition with multi-scale convolutional networks.In:InternationalJoint Conference on Neural Networks.pp.2809-2813(2011)。

但是，深度学习算法必须依赖昂贵的计算设备(如GPU)和大量的数据。Kilambi等提出了一个基于斑点的系统来估计城市环境中一组人的数量。但是，基于斑点的方法只能检测移动物体。Li应用梯度直方图HOG特征来检测头肩，头肩探测的优点是减少部分阻塞的有效性，但是HOG特征对头肩检测不具有足够的判别能力。因此，检测率仍然不高。而且，在光线不足的情况下，RGB图像将失败，因此只有使用RGB图像才能满足该系统适应不同环境的需求。参考文献：Li,M.,Zhang,Z.,Huang,K.,Tan,T.:Estimating the number ofpeople in crowded scenes by mid based foreground segmentation and head-shoulder detection.In:International Conference on Pattern Recognition.pp.1{4(2009)。

最后对于利用头部的三维信息，许多文献提出了使用深度信息进行场景的3D分析的方法。这个领域的初始方法是开始于立体相机的使用，Microsoft Kinect的出现提供了通过结构光的深度图像之后，研究人员提出了使用这种类型的采集设备的新方法。但是对于这种来自深度相机采集的深度图像的原始深度信息数据是嘈杂的，包含许多噪音，这使得在使用原始数据进行分析时会出现不连续和难以分析的现象，而一般的深度信息处理算法比较初步，虽然处理后的数据可以做到安全使用，但是信息的利用度低。

发明内容

发明目的：克服当前单纯使用基于RGB图像的传统机器学习方法进行人头区域检测的不准确性，直接利用未经有效处理的Depth图像的深度信息进行检测的不鲁棒性，以及深度学习方法的高设备要求和大数据量的要求；考虑RGB以及Depth图像在不同关照条件下的数据失效问题，引入基于RGB与Depth的信息融合的人流量统计方法。充分利用RGB与Depth人头图像的物理与结构信息，增加检测准确性，提高算法的鲁棒性，实现运行的实时性。

为了解决上述技术问题，本发明公开了一种基于RGB(RGB即红绿蓝)和D(D表示Depth图像)信息融合的人流量统计方法，该方法可以用于多种场合，各种环境下的人流量统计，包括如下步骤：

步骤1，采集包含人头信息的图像样本，样本中既包括RGB图像也包括Depth图像，得到RGB图像的数据集B1和Depth图像的数据集B2，以及RGB图像样本的人头区域标记数据集L；

步骤2，利用人头区域标记数据集L对数据集B1进行处理，获得处理后的数据集Y；

步骤3，利用数据集Y提取的HOG特征以及相应的样本标签，训练一个SVM分类器，将训练好的分类器结果文件保存成结果文件C；

步骤4，利用文件C，对新输入视频中的每一帧图像进行基于RGB图像的人头区域检测，得出人头区域候选框D1；

步骤5，使用深度图像卷积滤波算法(Deep Convex Convolution FilteringAlgorithm)DCCFA对Depth图像进行处理得到滤波图，基于滤波图得到人头区域候选框D2；

步骤6，利用人头区域候选框D1和D2，得到最终人头预测框D；

步骤7，基于最终人头预测框D进行行人的跟踪，记录行人的运动轨迹J；

步骤8，基于运动轨迹J，分析每个经过最终人头预测框D的行人的运动进出方向，从而统计每个时刻的出入人数。

步骤1包括如下步骤：

步骤1-1，使用TOF(TIME OF FYING)摄像头对来往人流进行摄像，获取人流视频；

步骤1-2，对于人流视频的每一帧进行图像保存，其中包括RGB图像以及Depth图像；

步骤1-3，人工对于RGB图像进行人头区域的标定框绘制，并保存标定框坐标，得到人头区域标记数据集L。

步骤2中，根据标定的人头区域的标定框对数据集B1进行裁剪，该标定框为矩形框，将该矩形框中的部分裁剪出来作为正样本，赋予其样本标签1，不在该矩形框中的其他区域进行随机裁剪作为负样本，并为其赋予样本标签0，由于HOG特征不具有旋转不变性，对所有的正负样本进行四个方向的旋转操作(解决了旋转不变性，同时扩大了样本数量)，同时，将所有正负样本大小缩放到统一尺寸，最后为了最终训练结果更加有效，本发明选择正负总样本数大致是1:3，设处理后所有的正负样本组成数据集Y。

步骤3中，提取数据集Y中所有正负样本的HOG(方向梯度直方图，Histogram ofOriented Gradient,HOG)特征向量，将HOG特征向量结合其对应的样本标签输入SVM分类器中进行训练，保存训练的结果为.txt文件，记为C。参考文献：Dalal N,TriggsB.Histograms of oriented gradients for human detection[C].IEEE ComputerSociety Conference on Computer Vision&Pattern Recognition.IEEE ComputerSociety,2005:886-893。

步骤4中，采用文件C处理新输入视频(这个视频可以是前期录制好的，也可以是的摄像头实时拍摄的结果；一般同时包括RGB与深度图像两种格式，当然一种视频流的输入也是可以的)中的每一帧图像，使用多尺度的滑动窗口对整张图像进行判断，对于区域返回为真值(true)的确定为人头区域，然后给予这些获取的人头区域做NMS(non maximumsuppression)非极大值抑制操作，将最终的区域框大小进行微调后保存为人头区域候选框D1。参考文献：Neubeck A,Gool L V.Efficient Non-Maximum Suppression[C].International Conference on Pattern Recognition.IEEE,2006:850-855。

步骤5中，通过深度图卷积滤波算法DCCFA对Depth图像进行卷积滤波处理：

dist(x,y)＝DCCFA(src(x,y))，

其中，dist(x,y)表示经过深度卷积滤波算法后的每个像素点的值，src(x,y)表示Depth图像的每一个像素点的值。

对于DCCFA算法，它的每一个卷积核内的计算原理如下：

dist(x,y)＝DCCFA(src(x,y))，

其中，dist(x,y)表示经过深度卷积滤波算法后的每个像素点的值，src(x,y)表示Depth图像的每一个像素点的值，DCCFA(src(x,y))表示对输入的原始depth图像进行卷积滤波算法处理；

对于DCCFA算法，它的每一个卷积核内的计算原理如下：

c＝center(kernal)，

center(kernal)表示取c为卷积核中心点；

对当前范围内的所有点进行如下操作：

pixel(x,y)＝pixel(x,y)-pixel(c),(x,y)指示当前操作范围内点集中的每一点；

pixel(x,y)表示坐标(x,y)处的像素值，pixel(c)表示卷积核中心点c的像素值；

卷积核的作用就是让凸起部分周围的像素值减去中间的值，这样凸起部分的像素值卷积之后的结果就比较大，就可以和其它区域区分开，方法虽然简单但是效果提升相当明显，将卷积处理后的图像记为depth_filter，然后设定一个阈值，基于阈值判断该区域是否为人头区域，当该区域的像素值大于阈值时，则判断为人头区域并将该区域作为候选框保存下来，从而得到人头区域候选框D2。

通过DCCFA算法处理后的depth_filter图像，除了去除了原始深度图像的大量噪声点外，还使得之后的判定阈值的设置十分鲁棒，阈值大小的选取对于算法结果的影响不大，可以根据当时环境大致设定，只要不过于离谱即可(大致80-120等，可根据行人距离摄像头高度具体确定)。

步骤6中，将人头区域候选框D1和D2进行非最大值抑制操作，分别将两组候选框的重标记区域删除，获得删减后的两组候选框，对这两组候选框取交集，只有同时被RGB以及Depth图像检测出了是人头区域的区域才是最终算法预测的人头区域，从而得到最终人头预测框D。参考文献：Neubeck A,Gool L V.Efficient Non-Maximum Suppression[C].International Conference on Pattern Recognition.IEEE,2006:850-855。

步骤7中，利用最终人头预测框D在图像depth_filter上进行KCF(KernelCorrelation Filter)追踪，获取每个通过进出口的行人的运动轨迹J。参考文献：Henriques J F,Caseiro R,Martins P,et al.High-Speed Tracking with KernelizedCorrelation Filters[J].IEEE Transactions on Pattern Analysis&MachineIntelligence,2015。

步骤8中，利用步骤7得到的行人运动轨迹J，通过判断该行人运动轨迹的起点和终点的坐标信息判断该人的运动方向为进还是出，当该人离开检测区域时通过判断该行人的运动轨迹是否通过计数线，来决定本次统计中是否将这个人的进出信息添加。其中计数线的设置可以人为设置，一般默认为是监控视频图像的中间位置。

有益效果：本发明的显著优点是提高了人头检测的准确率，提升了算法的鲁棒性，破除了系统运行环境的限制性，同时在有限的设备条件下缩短了算法的运行时间，达到了运行的实时性。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述或其他方面的优点将会变得更加清楚。

图1为本发明系统的运行流程图。

图2为本发明中算法的检测部分的效果图。

图3为本发明中计数的效果图。

图4为本发明中经过DCCFA算法得到的depth_filter图像与原始RGB图像对应的灰度图的对比图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

图1是本发明系统的运行流程图，包括7个步骤。

步骤1包括如下步骤：

步骤1-1，使用TOF(TIME OF FYING)摄像头对来往人流进行摄像；

步骤1-2，对于视频的每一帧进行图像保存，其中包括RGB以及Depth图像；

步骤1-3，人工对于其中的RGB图像进行人头区域的标定框绘制，并保存标定框坐标。

步骤2中，根据人工标定的人头区域坐标(矩形框)，将该矩形框中的部分裁剪出来作为正样本，赋予其样本标签1，不在该矩形框中的其他区域进行随机裁剪并为其赋予样本标签0。由于HOG特征不具有旋转不变性，所以对所有的正负样本进行四个方向的旋转操作(解决了旋转不变性，同时扩大了样本数量)，同时，将所有正负样本大小缩放到统一尺寸。为了最终训练结果更加有效，本发明选择正负总样本数大致是1:3。

步骤3中，利用正负样本数据集提取他们的HOG特征，将HOG特征向量结合其对应的样本标签输入SVM分类器中进行训练，保存训练的结果为.txt文件，方便之后调用。

步骤4中，采用SVM分类器处理视频每一帧图像，使用多尺度的滑动窗口对整张图像进行判断，对于区域返回为true的确定为人头区域，然后给予这些获取的区域做NMS(非极大值抑制)操作，将最终的区域框大小进行微调后保存

步骤5中，提出了一个深度图卷积滤波算法Deep Convex Convolution FilteringAlgorithm(DCCFA)，定义如下：

dist(x,y)＝DCCFA(src(x,y))，

其中，dst(x,y)表示经过深度卷积滤波算法后的每个像素点的值，src(x,y)表示经过摄像头采集的图像的深度图的每一个像素点的值，将处理后图像表达为depth_filter。

对于DCCFA算法，它的每一个卷积核内的计算原理如下：

dist(x,y)＝DCCFA(src(x,y))，

其中，dist(x,y)表示经过深度卷积滤波算法后的每个像素点的值，src(x,y)表示Depth图像的每一个像素点的值，即对输入的原始depth图像进行卷积滤波算法处理；

对于DCCFA算法，它的每一个卷积核内的计算原理如下：

c＝center(kernal)，即取c为卷积核中心点；

对当前范围内的所有点进行如下操作：

原理在于：由于本发明的摄像头是垂直安装在门顶上，自上而下的对来往人流进行拍摄，基于这一特性，DCCFA利用人头区域相对于周边的肩膀以及其他的背景得高度信息来说是一个相对凸起来的区域，而周边的背景以及肩膀背部等高度相对是一个比较均等的平滑区域这一特点，每次使用一个卷积核对整张图像进行滑动滤波操作。

在深度图中，每一点的像素值代表着当前点距离摄像头的距离远近，所以对于凸起的区域来说，它相对于周边区域有相对较小的像素值。

DCCFA算法的卷积核的作用就是让凸起部分周围的值减去中间的值，这样凸起部分卷积之后的结果就比较大，就可以和其它区域区分开。

方法虽然简单但是效果提升相当明显，将卷积处理后的图像记为depth_filter，然后设定一个阈值。基于阈值判断该区域是否为人头区域，即当该区域的像素值大于阈值时，则判断为时人头区域并将该区域作为候选框保存下来，从而得到人头区域候选框D2。

步骤6中，使用步骤4，5中检测得到的两组候选框进行非最大值抑制操作，分别将两组候选框的重标记区域删除，获得删减后的两组候选框。

然后对这两组候选框取交集，只有同时被RGB以及Depth图像检测出了是人头区域的区域才是最终算法预测的人头区域。

步骤7中，利用步骤6中得到的人头区域候选框进行KCF追踪，获取每个通过进出口的行人的运动轨迹，在这里算法是运行使用步骤5中获取的(6中说明的)depth_filter图像上，因为该图像相对于获得的其他图像来说基本不存在噪音点，会使得追踪算法的运行更加准确。

步骤8中，利用步骤7中得到的行人运动轨迹，通过判断该行人运动轨迹的起点和终点的坐标信息判断该人的运动方向(进还是出)，当该人离开检测区域时通过判断该行人的运动轨迹是否通过计数线，来决定本次统计中是否将这个人的进出信息添加。其中计数线的设置可以人为设置，一般默认为是监控视频图像的中间位置。

实施例

为了进行系统运行前预处理，本发明需要进行系统算法模型的训练，训练集可以仅包含RGB图像，因为基于Depth图像的人头区域识别操作主要是在图像层级上的，可以不需要训练步骤。

图像训练集的获取，本发明使用实时保存摄像头在不同环境拍摄的图像的形式进行获取，然后进行人工的人头区域标定，最终本发明获取的一组带有人头所在区域坐标信息的图像集，该图像集最终包括2000张左右的原始图像。

本发明在不同的光线环境，不同的背景环境以及不同的人流运动环境下获取了大量视频，并将其制作成了5个数据集作为视频测试集，每个视频数据集中分别大约有100个人进出。对于每个数据集使用图一所示的步骤进行处理，利用训练好的SVM分类器以及DCCFA算法进行人头的检测，然后基于depth_filter图像进行KCF追踪，基于追踪轨迹进行出入人流的计数，对比真实的出入人数和测试的出入人数计算统计的准确率。

在这5个数据集中，首先是数据集1，该数据集是本发明将摄像头的架设高度从一般情况的2m提高到2.5m；再是数据集2以及数据集3，该数据集是本发明在室外进行采集的视频图像；最后是数据集4以及数据集5，该数据集是本发明在室内进行采集的视频图像。

利用上述的图像训练集以及视频测试集，按照以下步骤进行系统模型的训练以及评估：

1、基于RGB图像信息的模型训练：

1.1按照标定的坐标信息，将图像训练集中的所有图像进行裁剪操作，坐标标定的范围内属于正样本信息，将其保存到正样本集中，其他区域为负样本信息，本发明进行随机采取，将其保存到负样本集中；

1.2对样本的尺度正则化，也就是样本的尺寸要一样，这样可以排除训练样本尺度对模型训练的影响，并且为正负样本分别赋予样本标记(1/0)；

在具体实施时，由于HOG特征不具有旋转不变性，所以对所有的正负样本进行四个方向的旋转操作(解决了旋转不变性，同时扩大了样本数量)。对于正负样本的旋转操作，实施时采用将所有的样本旋转0度，90度，180度，270度操作，如果效果不佳，还可以加上更多的旋转操作，比如45度等。对于正负样本的大小，实施时选择了将所有样本图片缩放到640*480的大小。

1.3对处理好的正负样本集分别提取其HOG特征，利用这些特征使用传统SVM分类器进行训练，保存训练获得的支持向量以及相关参数；

1.4得到分类器并保存；

2.测试

2.1对于视频流，本发明采用逐帧检测的方法，对于每一帧图像先利用训练好的SVM分类器进行基于RGB图像的检测，得到一组人头区域检测框；

2.2对于每帧图像进行基于Depth图像深度信息的区域检测，得到第二组人头区域检测框；

2.3对于获得的两组检测框进行信息融合操作；

2.3.1在正常光照下进行交集操作，仅保留同时被RGB图像以及Depth图像同时识别为人头区域的检测框作为最终的识别框；

2.3.2在光照弱时，RGB图像信息基本失效，本发明只使用Depth图像识别的人头区域检测框作为最终的识别框；

2.3.3在光照特别强时，Depth图像信息会出现错误，本发明只使用RGB图像识别的人头区域检测框作为最终的识别框；

2.4将每帧最终的检测识别框作为追踪的输入框，使用KCF算法进行行人的追踪，获得每个行人的运动轨迹；

2.5基于每条运动轨迹，判断行人运动的方向；

2.6当行人的运动轨迹离开检测区域时，对此刻的人流数进行更新，实时获得每一帧的人流量信息。

基于上述的训练以及测试步骤，最终获得了一个可以在普通pc端运行的实时人流量统计系统，使用这种特征融合的方法进行人流量计数的准确度达到了95％以上。并且信息融合策略的使用解决了传统计数方法在不同光线或者不同环境下鲁棒性差的缺点。所以本发明用于人流量计数的应用，具备鲁棒性好、预测准确率高的优点。

图2列出了本发明中的检测算法部分在本发明采集的图像数据集上对于人头区域检测的情况，其中2m提高到2.5m表示本发明将摄像头的架设高度，表的第一列代表本发明使用的融合算法使用的图像数据情况。结果显示，本发明在统计准确率方面具有优异的表现。表格中的一些指标含义如下：dataset指示不同情况下的数据集，high表示将摄像头架设高度提升到2.5m后的数据集，outdoor(1/2)表示在室外采集的数据，indoor(1/2)表示在室内采集的数据。pre，recall以及f-index表示的是三种度量指标准确率，召回率以及F-指标，越大表示效果越好。R，R+D以及D这三者是表示使用不同的图片格式，R表示只使用RGB图像，D表示只使用Depth图像，R+D表示使用RGB与Depth两种图片进行融合计算。图2中的reality表示当前数据集中实有的人头数，error表示检测出错的人头数，miss表示漏检的人头数。

图3列出了本发明与在本发明采集的视频数据集上对于人数统计测试结果。其中，表的第一列给出了不同的数据集，high表示本发明将摄像头的架设高度从一般情况的2m提高到2.5m，outdoor以及indoor分别指数据集中的视频是在室外还是室内采集的。第一列给出了不同的计量指标。结果显示，本发明在统计准确率方面具有优异的表现。由于本发明使用了DCCFA算法对于每张图像进行滤波处理，极大缩减了深度图处理时间提高深度图的信息利用率，极大程度上提升统计准确率，因此在提高准确率的同时大大缩短了运行时间。

图4给出了经过DCCFA算法得到的depth_filter图像与原始RGB图像对应的灰度图的对比图，可以很明显的看出来，原来的RGB图像对应的灰度图像中含有许多非有效信息，对于人头区域以及非人头区域的区分中有大量背景信息的干扰，而depth_filter图像则基本只有人头区域和非人头区域的区别，这首先对于检测时非常有利的，其次在后续对于运动行人的头部进行追踪的时候也因为没有了其他非有效信息的干扰使得计数更加有效准确。

本发明提供了一种基于RGB和D信息融合的人流量统计方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于RGB和D信息融合的人流量统计方法，其特征在于，包括如下步骤：

步骤5，使用深度图像卷积滤波算法DCCFA对Depth图像进行处理得到滤波图，基于滤波图得到人头区域候选框D2；

步骤6，利用人头区域候选框D1和D2，得到最终人头预测框D；

2.根据权利要求1所述的方法，其特征在于，步骤1包括如下步骤：

步骤1-1，使用摄像头对来往人流进行摄像，获取人流视频；

步骤1-3，对于RGB图像进行人头区域的标定框绘制，并保存标定框坐标，得到人头区域标记数据集L。

3.根据权利要求2所述的方法，其特征在于，步骤2中，根据标定的人头区域的标定框对数据集B1进行裁剪，该标定框为矩形框，将该矩形框中的部分裁剪出来作为正样本，赋予其样本标签1，不在该矩形框中的其他区域进行随机裁剪作为负样本，并为其赋予样本标签0，同时，将所有正负样本大小缩放到统一尺寸，设处理后所有的正负样本组成数据集Y。

4.根据权利要3所述的方法，其特征在于，步骤3中，提取数据集Y中所有正负样本的HOG特征向量，将HOG特征向量结合其对应的样本标签输入SVM分类器中进行训练，保存训练的结果为.txt文件，记为C。.

5.根据权利要求4所述的方法，其特征在于，步骤4中，用文件C处理新输入视频中的每一帧图像，使用多尺度的滑动窗口对整张图像进行判断，对于区域返回为真值true的确定为人头区域，然后给予这些获取的人头区域做NMS非极大值抑制操作，将最终的区域框大小进行微调后保存为人头区域候选框D1。

6.根据权利要求5所述的方法，其特征在于，步骤5中，通过深度图卷积滤波算法DCCFA对Depth图像进行卷积滤波处理：

dist(x,y)＝DCCFA(src(x,y))，

对于DCCFA算法，它的每一个卷积核内的计算原理如下：

c＝center(kernal)，

center(kernal)表示取c为卷积核中心点；

对当前范围内的所有点进行如下操作：

pixel(x,y)表示坐标(x,y)处的像素值，pixel(c)表示卷积核中心点c的像素值；将卷积处理后的图像记为depth_filter，然后设定一个阈值，基于阈值判断该区域是否为人头区域，当该区域的像素值大于阈值时，则判断为人头区域并将该区域作为候选框保存下来，从而得到人头区域候选框D2。

7.根据权利要求6所述的方法，其特征在于，步骤6中，将人头区域候选框D1和D2进行非最大值抑制操作，分别将两组候选框的重标记区域删除，获得删减后的两组候选框，对这两组候选框取交集，只有同时被RGB以及Depth图像检测出了是人头区域的区域才是最终算法预测的人头区域，从而得到最终人头预测框D。

8.根据权利要求7所述的方法，其特征在于，步骤7中，利用最终人头预测框D在图像depth_filter上进行KCF追踪，获取每个通过进出口的行人的运动轨迹J。

9.根据权利要求8所述的方法，其特征在于，步骤8中，利用步骤7得到的行人运动轨迹J，通过判断该行人运动轨迹的起点和终点的坐标信息判断该人的运动方向为进还是出，当该人离开检测区域时通过判断该行人的运动轨迹是否通过计数线，来决定本次统计中是否将这个人的进出信息添加。