CN106127137A

CN106127137A - 一种基于3d轨迹分析的目标检测识别算法

Info

Publication number: CN106127137A
Application number: CN201610452597.2A
Authority: CN
Inventors: 宋焕生; 孙士杰; 庞凤兰; 刘瑞芝; 李倩丽; 王璇; 张文涛
Original assignee: Changan University
Current assignee: Changan University
Priority date: 2016-06-21
Filing date: 2016-06-21
Publication date: 2016-11-16

Abstract

本发明公开了一种基于3D轨迹分析的目标检测识别算法，该方法利用安装在公交车后门上方的双目摄像头采集视频图像以进行目标检测识别，将同一乘客不同时刻的运动位置作为运动目标，通过视屏图像的深度图初步识别运动目标，然后祛除伪运动目标，最终实现对运动目标的精确检测识别。本发明利用3D轨迹分析进行目标识别检测，解决了传统的由于光照导致的轨迹跟踪过程中轨迹跟断，提高了目标识别检测的准确性。本发明不受硬件环境限制，能够进行实时检测，且检测精度高。本发明，将运动目标的图像二维轨迹转换为世界坐标系下的3D轨迹，解决了传统目标识别中最常见的目标被遮挡无法检测到的问题，提高了目标识别检测的准确性。

Description

一种基于3D轨迹分析的目标检测识别算法

技术领域

本发明属于视频检测领域，具体涉及一种基于3D轨迹分析的目标检测识别算法。

背景技术

当今时代，随着科技的发展，传感技术也逐步发展起来，这使得人们获取信息的手段更加的多元化，同时也带动了信息处理技术的发展。在多元化的信息获取手段中，视频监控系统以其使用方便、信息内容丰富、直观等特点，引起人们的广泛关注。传统的视频监控系统主要以“人工监控”为主，即主要依靠人对视频中的内容进行分析和判断，在实际生活中，即使是一个注意力非常集中的监控人员，也很难在长时间内对监控视频保持一定的注意力，尤其是在复杂场景下，无法满足实时监控的要求。因此，如何实现视频监控系统的智能化，克服“人工监控”的缺点，成为当前视频监控技术发展的必然趋势。

目前智能视频监控系统研究的重点就是如何从视频监控系统获取的视频图像中检测并识别出运动目标，运动目标检测识别技术不仅可以应用在商场、公交车、地铁等人员密集的复杂场景中进行人流量的统计，而且在城市安防、智能交通等方面也有重要的研究价值。

(1)人流量统计方面：通过摄像机实时采集视频图像数据，利用运动目标(行人)检测识别技术实现对行人的检测和识别，进而实现对人流量的实时统计。实时的人流量统计数据对于公交车、地铁、商场、博物馆等公共场所的管理和决策，起到了至关重要的作用，不仅可以实时监控了解各个场所的运行状况，而且可以帮助管理人员在运营过程中更加科学、有效的调度。

(2)城市安防方面：根据获取的视频图像数据，检测识别停车场、火车站等复杂场景中的运动目标，并对运动目标的轨迹进行分析，实现对异常行为的预警，保证个人及公共财产安全。

(3)智能交通方面：通过对道路上的视频图像处理，检测运动目标(车辆)并分析车辆行为，可以判断是否有交通事件发生以及得到当前某一路段的交通参数，实现交通智能化。

复杂场景中运动目标检测识别技术是当前智能监控系统研究的重要组成部分，已成为国内外众多学者研究的热点。因此，对复杂场景中运动目标检测识别技术进行研究具有广阔的应用前景和研究价值。

发明内容

针对上述现有技术中存在的问题或缺陷，本发明的目的在于，提供一种基于3D轨迹分析的目标检测识别算法。

为了实现上述目的，本发明采用如下技术方案：

一种基于3D轨迹分析的目标检测识别算法，该方法利用安装在公交车后门上方的双目摄像头采集视频图像以进行目标检测识别，具体包括以下步骤：

步骤一，初始化双目摄像头

(1-1)安装双目摄像头以后，利用双目摄像头采集同一时刻的视频图像，通过双目摄像头分别采集到的两帧视频图像标定双目摄像头以获取双目摄像头的内外参数，保存标定好的两帧视频图像以及双目摄像头内外参数；

(1-2)分别矫正标定后的两帧视频图像以消除图像的形变，对两帧视频图像进行立体匹配，得到时差图；

(1-3)利用透视投影关系，将得到的时差图转为深度图，然后建立空间映射表，通过空间映射表中的角度关系，将深度图转为俯视图；

步骤二，运动目标的识别

(2-1)乘客从公交车后门下车时，将双目摄像头拍摄到乘客在不同时刻的运动位置作为运动目标，则在步骤一得到的俯视图中运动目标和双目摄像头之间的距离即为深度值；

(2-2)通过深度值在视频图像中寻找乘客的人头位置，通过漫水填充算法锁定人头区域，最后利用人头区域形态特征实现对一部分伪目标的剔除；

(2-3)利用多帧图像平均法提取运动目标的背景，再利用背景差分法提取运动目标所在的区域，最后采用基于该运动区域的匹配方法进行运动目标的跟踪；

所述的匹配方法首先通过运用卡尔曼滤波器预测运动目标的位置及速度；其次，选用人头面积、位置偏移和深度差三个参数进行多特征加权匹配，以进一步消除伪目标，完成目标识别跟踪过程。

更优地，步骤二中进一步消除伪目标后，利用下面的方法对目标进行精确识别：

(2-4)对双目摄像头进行三维标定，将运动目标的二维轨迹转换为世界坐标系下的三维轨迹；所述的世界坐标系以公交车第一个台阶所在水平面为XY坐标平面，以双目摄像头所在位置向XY坐标平面做垂线即为Z坐标，垂足即为世界坐标系原点；

(2-5)用均值法计算得到拟合标准轨迹数据，然后提取轨迹点数、轨迹在Y方向上的跨度、轨迹在Z方向上的跨度、轨迹的平均人头大小、轨迹与拟合标准轨迹之间的欧式距离五个特征作为轨迹的属性；

(2-6)结合运动目标的3D轨迹的五个特征，采用基于AdaBoost分类的3D轨迹分析与目标识别算法，实现对目标的精确识别。

步骤二中所述的寻找人头位置，具体方法为：

(2-1-1)将视频图像划分成M*N个方块，方块的宽为W，计算每个方块的平均深度值，其中W的选择应遵循能被图像长和宽同时整除的规则；

(2-1-2)在M*N个方块中任选一块作为当前方块，将当前方块分别与其相邻的8个方块进行比较，每一次比较完成后，将深度值较大的一个方块作为新的当前方块，继续与下一个方块进行比较，直至8个方块都比较完成后得到的当前方块即为局部深度最大块。

步骤二中采用漫水填充算法锁定人头区域并对一部分为目标进行剔除的方法为：

(2-2-1)所述的局部深度最大块面积为W*W，该局部深度最大块的边缘点个数为W*W，任意选取其中一个边缘点；

(2-2-2)将选取的边缘点作为中心点，找到中心点8邻域内除自身的8个像素点，设定阈值，依次从8个像素点中取一个像素点，判断该像素点与中心点的深度值之差的绝对值是否小于阈值，如果小于阈值则将该像素点标记为新的边缘点，否则将其标记为已检测点；

(2-2-3)将新边缘点作为中心点，继续重复(2-2-2)步骤，直至所有新边缘点都被标记为已检测点；

(2-2-4)对局部深度最大块的W*W个边缘点中的每个边缘点都按照(2-2-2)和(2-2-3)的方法进行处理；

(2-2-5)找到上述所有被标记的边缘点中上下左右四个方向上最外侧的四个边缘点，分别以这四个边缘点为切点作对应方向上的切线，四条切线组合构成的区域即为目标人头区域边界。

步骤二中所述的多特征加权匹配的方法包括：

在基于区域匹配的跟踪过程中，选用了人头面积、位置偏移和深度差三个参数来进行目标匹配，将所述的三个参数代入代价函数中，对代价函数进行归一化处理，代价函数值越小，表示这两个目标的匹配度越高；代价函数公式如下：

T(i，j)＝aD(i，j)+bH(i，j)+cA(i，j)

D (i, j) = \sqrt{{(x_{t}^{i} - x_{t + 1}^{j})}^{2} + {(y_{t}^{i} - y_{t + 1}^{j})}^{2}}

H (i, j) = | G_{t}^{i} - G_{t + 1}^{j} |

A (i, j) = | S_{t}^{i} - S_{t + 1}^{j} |

其中表示第t帧图像中目标i在二维坐标系中X轴的坐标，表示第t帧图像中目标i在二维坐标系中Y轴的坐标，同理表示第t+1帧图像中目标i在二维坐标系中X轴的坐标，表示第t+1帧图像中目标i在二维坐标系中Y轴的坐标，D(i,j)表示第t帧图像中目标i与第t+1帧目标j中心位置的偏移大小，其值越小代表两个目标距离越近；H(i,j)表示第t帧图像中目标i与第t+1帧图像中目标j灰度的变化程度，即两个目标高度的变化程度，其值越小代表两个目标高度越相近；A(i,j)表示第t帧图像中目标i与第t+1帧图像中目标j区域面积差，反映了两个目标区域形状的变化程度，其值越小代表两个目标形状越相似，a、b、c表示干扰对运动目标匹配过程中的影响程度。

步骤二中将运动目标的二维轨迹转换为世界坐标系下的三维轨迹，其具体实现过程包括：

(2-4-1)通过标定架手动选择至少6个点，这6个点的世界坐标通过实际量取标定架的尺寸获得，利用双目摄像头拍摄标定架，这6个点的图像像素坐标通过拍摄图像获得；通过对双目摄像机进行三维标定，计算得到图像像素坐标系(u,v)与世界坐标系(X_W,Y_W,Z_W)之间的变换矩阵C；

(2-4-2)在上述6点中任意选取一点，通过深度图得到该点的深度值Z_W，通过图像得到该点的图像像素坐标(u,v)，通过Z_W和(u,v)计算得到世界坐标(X_W,Y_W,Z_W)中的另外两个坐标值。

所述步骤二中的三维轨迹，提取了五个特征作为轨迹的属性，这些属性具体为：

轨迹点数：在视频序列中一条轨迹跟踪到的人头个数；

轨迹在Y方向上的跨度：一条轨迹在Y方向上的跨越的长度；

轨迹在Z方向上的跨度：一条轨迹在Z方向上的跨越的长度；

轨迹的平均人头大小：在视频序列中一条轨迹中包含的所有人头大小(人头面积)的平均值；

轨迹与拟合标准轨迹之间的欧式距离：首先用均值法计算得到拟合标准轨迹数据，再根据拟合标准轨迹数据计算出轨迹与标准轨迹之间的欧式距离。

与现有技术相比，本发明具有以下技术效果：

1、本发明利用3D轨迹分析进行目标识别检测，解决了传统的由于光照导致的轨迹跟踪过程中轨迹跟断，使得目标在后续的识别检测中无法继续被正确识别的问题，本算法能够在轨迹跟踪跟断后再次正确识别目标，提高了目标识别检测的准确性。

2、本发明不受硬件环境限制，能够进行实时检测，且检测精度高。

3、本发明对相机进行3D标定，将疑似目标的图像二维轨迹转换为世界坐标系下的3D轨迹，很好的解决了传统目标识别中最常见的目标被遮挡无法检测到的问题，提高了目标识别检测的准确性。

本发明的方法对复杂环境下目标的识别检测具有实时高效的特点，具有广阔的应用前景。

附图说明

图1为本发明的算法流程图；

图2为寻找局部深度最大示意图；

图3为采用本发明方法的西安市某公交视频人头区域锁定结果图，其中(a)为拍摄的实景图像，(b)为转换成俯视图后的图像；

图4为伪目标剔除示意图，其中(a)为存在伪目标情况下拍摄的图像，(b)为剔除伪目标后的俯视图；

图5为轨迹跟踪示意图，其中(a)、(c)、(e)为乘客下车时不同时刻拍摄的图像，(b)、(d)、(f)为乘客下车时不同时刻的俯视图；

图6为3D世界坐标系建立示意图；

图7为实际场景3D标定图；

图8为上、下车乘客二维轨迹与3D轨迹对应图，其中(a)为上车乘客二维轨迹图，(b)为(a)的3D轨迹对应图，(c)为下车乘客二维轨迹图，(d)为(c)的3D轨迹对应图；

图9为正样本3D图，其中(a)为上车乘客的正样本3D图，(b)为下车乘客的正样本3D图；

图10为负样本3D图，其中(a)为上车乘客的负样本3D图，(b)为下车乘客的负样本3D图；

图11为基于AdaBoost的3D轨迹分析与目标识别算法测试结果。

具体实施方式

遵从上述技术方案，如图1所示，本发明的具体过程如下：

步骤一，初始化双目摄像头

(1-3)利用透视投影关系，将得到的时差图转为深度图，为避免拥挤、遮挡、阳光等干扰因素影响人头部位的锁定，然后建立空间映射表，通过空间映射表中的角度关系，将深度图转为俯视图；

步骤二，运动目标的识别

(2-1)乘客从公交车后门下车时，将双目摄像头拍摄到乘客在不同时刻的运动位置作为运动目标，在步骤一得到的俯视图中，可得到目标距离相机的距离L即为深度值，测量双目摄像头距离公交车后门台阶平面的高度为H，即可计算得到运动目标的高度G，G＝H-L，则运动目标在深度图中的深度与运动目标高度是相对应的，即运动目标的高度越高，在深度图中目标的深度值就越大；

(2-2)通过深度值在视频图像中寻找乘客的人头位置即局部最大值，通过漫水填充算法锁定人头区域，最后利用人头区域形态特征实现对一部分伪目标的剔除；

在俯视图下，图像中乘客的头部信息最不易被遮挡，在经过深度与高度对应关系转换后，在深度图中表现为物体距离地面高度越高，深度值越大，因此，采用寻找局部深度值最大(距离地面高度最高)的算法，提取乘客的人头信息；因此，寻找乘客人头位置的具体步骤为：

(2-2-1-1)将视频图像划分成M*N个方块，方块的宽为W，计算每个方块的平均深度值，其中W的选择应遵循能被图像长和宽同时整除的规则；

(2-2-1-2)在M*N个方块中任选一块作为当前方块，将当前方块分别与其相邻的8个方块进行比较，每一次比较完成后，将深度值较大的一个方块作为新的当前方块，继续与下一个方块进行比较，直至8个方块都比较完成后得到的当前方块即为局部深度最大块。图2给出了寻找局部深度最大块的一个实施例。

其中利用人头区域形态特征实现对一部分伪目标的剔除的实现过程为：

(2-2-2-1)所述的局部深度最大块面积为W*W，该局部深度最大块的边缘点个数为W*W，任意选取其中一个边缘点；

(2-2-2-2)将选取的边缘点作为中心点，找到中心点8邻域内除自身的8个像素点，设定阈值，依次从8个像素点中取一个像素点，判断该像素点与中心点的深度值之差的绝对值是否小于阈值，如果小于阈值则将该像素点标记为新的边缘点，否则将其标记为已检测点；

(2-2-2-3)将新边缘点作为中心点，继续重复(2-2-2)步骤，直至所有新边缘点都被标记为已检测点；

(2-2-2-4)对局部深度最大块的W*W个边缘点中的每个边缘点都按照(2-2-2-2)和(2-2-2-3)的方法进行处理；

(2-2-2-5))找到上述所有被标记的边缘点中上下左右四个方向上最外侧的四个边缘点，分别以这四个边缘点为切点作对应方向上的切线，四条切线组合构成的区域即为目标人头区域边界；

(2-2-2-6)更优地，判断上述步骤所得的运动目标的人头区域是否准确，还可利用通过对视频图像的观察，发现正确检测的人头大小基本集中在30*30个像素，波动范围很小，且形状大致为一个正方形，通过采用设定人头区域面积的基准值，以及波动阈值的方法，可以去除由于相机抖动产生的伪目标，计算当前检测到的目标区域面积与基准值的差是否满足在波动阈值范围内，如不满足则判断为伪目标做剔除处理。

图3给出了利用漫水填充法锁定运动目标的人头区域的一种实施例，该图是西安市某路段的实时视频图像，该视频的采样频率是25帧每秒，图像大小为320*240，块化大小为5*5，漫水填充法中当前像素点与局部最大块的深度值之差的绝对值阈值设为10；

图4为伪目标剔除的一种实施例，该图为伪目标剔除示意图，正确人头基准值采用30*30，阈值取值15；在去除人头和肩膀合并产生的伪目标过程中，计算初步检测目标人头区域的长宽比，如果长宽比<0.5或者长宽比>1.5，则判断为伪目标进行剔除处理；

所述的匹配方法首先通过运用卡尔曼滤波器预测运动目标的位置及速度；其次，选用人头面积、位置偏移和深度差三个参数进行多特征加权匹配，以进一步消除伪目标，完成目标识别跟踪过程；

所述的多特征加权匹配的方法包括：

T(i，j)＝aD(i，j)+bH(i，j)+cA(i，j)

D (i, j) = \sqrt{{(x_{t}^{i} - x_{t + 1}^{j})}^{2} + {(y_{t}^{i} - y_{t + 1}^{j})}^{2}}

H (i, j) = | G_{t}^{i} - G_{t + 1}^{j} |

A (i, j) = | S_{t}^{i} - S_{t + 1}^{j} |

图5给出了代价函数值与运动目标匹配度关系的一个示意图，在算法中，综合各因素对目标匹配过程中影响程度的大小，各因素权重分别取值a＝0.7,b＝0.2,c＝0.1；

(3-1)如图7所示，对双目摄像头进行三维标定，将运动目标的二维轨迹转换为世界坐标系下的三维轨迹；如图6所示，所述的世界坐标系以公交车第一个台阶所在水平面为XY坐标平面，以双目摄像头所在位置向XY坐标平面做垂线即为Z坐标，垂足即为世界坐标系原点；

其中将运动目标的二维轨迹转换为世界坐标系下的三维轨迹，其具体实现过程包括：

(3-1-1)通过标定架手动选择至少6个点，这6个点的世界坐标通过实际量取标定架的尺寸获得，利用双目摄像头拍摄标定架，这6个点的图像像素坐标通过拍摄图像获得；通过对双目摄像机进行三维标定，计算得到图像像素坐标系(u,v)与世界坐标系(X_W,Y_W,Z_W)之间的变换矩阵C；

(3-1-2)在上述6点中任意选取一点，通过深度图得到该点的深度值Z_W，通过图像得到该点的图像像素坐标(u,v)，通过Z_W和(u,v)计算得到世界坐标(X_W,Y_W,Z_W)中的另外两个坐标值。

(3-2)用均值法计算得到拟合标准轨迹数据，然后提取轨迹点数、轨迹在Y方向上的跨度、轨迹在Z方向上的跨度、轨迹的平均人头大小、轨迹与拟合标准轨迹之间的欧式距离五个特征作为轨迹的属性；

其中，所述的五个特征作为轨迹的属性，这些属性具体为：

轨迹点数：在视频序列中一条轨迹跟踪到的人头个数；

轨迹在Y方向上的跨度：一条轨迹在Y方向上的跨越的长度；

轨迹在Z方向上的跨度：一条轨迹在Z方向上的跨越的长度；

轨迹与拟合标准轨迹之间的欧式距离：首先用均值法计算得到拟合标准轨迹数据，再根据拟合标准轨迹数据计算出轨迹与标准轨迹之间的欧式距离AverDis,其计算过程为：

s \tan d a r d l i n e . Z [y] = \frac{1}{m} Σ_{i = 1}^{m} l i n e s [i] . Z [y]

其中，standardline.Z[y]为拟合标准轨迹中Y坐标值为y时，对应的Z坐标值，m为训练样本集中正样本的个数，lines[i].Z[y]为第i个训练样本Y坐标值为y时，对应的Z坐标值。然后对当前轨迹内部Y坐标对应Z坐标值为空的点，通过线性插值的方法进行插值，公式如下：

l i n e . Z [j] = l i n e . Z [s] + \frac{l i n e . Z [e] - l i n e . Z [s]}{e - s} * (j - s)

其中line.Z[j]为当前轨迹待插入点的z坐标值，j为该点最对应的y坐标值，且s＜j＜e。然后通过下面的公式计算当前轨迹与标准轨迹之间的欧式距离：

A v e r D i s = \frac{1}{n} Σ_{y = \min}^{\max} a b s (l i n e . Z [y] - s \tan d a r d l i n e . Z [y])

如果当前轨迹中z坐标值比对应标准轨迹的z坐标值大的点数，比当前轨迹中z坐标值比对应标准轨迹的z坐标值小的点数多，说明当前轨迹整体处于标准轨迹的上面，则AverDis＞0；反之，说明当前轨迹整体处于标准轨迹的下面，则AverDis＝-AverDis＜0。

(3-3)采用基于AdaBoost分类的3D轨迹分析与目标识别算法，根据AdaBoost分类算法的原理及流程，以目标的3D轨迹为样本，构造训练样本集并通过特征提取及筛选完成分类器的训练过程，利用AdaBoost分类器实现对目标的识别。

图11为基于AdaBoost的3D轨迹分析与目标识别算法的一个实施例，本方案中根据AdaBoost分类原理，训练生成一个强分类器，最大迭代次数设置为500次，当组合强分类器的分类误差小于0.05时，或者迭代次数大于500次时，则迭代终止。每一次迭代过程中自动选择一个误差最小阈值的作为最优弱分类器，迭代终止时，将每次迭代选择的最优弱分类器组合得到一个强分类器。

Claims

1.一种基于3D轨迹分析的目标检测识别算法，其特征在于，该方法利用安装在公交车后门上方的双目摄像头采集视频图像以进行目标检测识别，具体包括以下步骤：

步骤一，初始化双目摄像头

步骤二，运动目标的识别

2.如权利要求1所述的所述的基于3D轨迹分析的目标检测识别算法，其特征在于，步骤二中进一步消除伪目标后，利用下面的方法对目标进行精确识别：

(3-1)对双目摄像头进行三维标定，将运动目标的二维轨迹转换为世界坐标系下的三维轨迹；所述的世界坐标系以公交车第一个台阶所在水平面为XY坐标平面，以双目摄像头所在位置向XY坐标平面做垂线即为Z坐标，垂足即为世界坐标系原点；

(3-3)结合运动目标的3D轨迹的五个特征，采用基于AdaBoost分类的3D轨迹分析与目标识别算法，实现对目标的精确识别。

3.如权利要求1所述的所述的基于3D轨迹分析的目标检测识别算法，其特征在于，步骤二中所述的寻找人头位置，具体方法为：

4.如权利要求1所述的基于3D轨迹分析的目标检测识别算法，其特征在于，步骤二中采用漫水填充算法锁定人头区域并对一部分为目标进行剔除的方法为：

构成的区域即为运动目标的人头区域。

5.如权利要求1所述的基于3D轨迹分析的目标检测识别算法，其特征在于，步骤二中所述的多特征加权匹配的方法包括：

T(i，j)＝aD(i，j)+bH(i，j)+cA(i，j)

D (i, j) = \sqrt{{(x_{t}^{i} - x_{t + 1}^{j})}^{2} + {(y_{t}^{i} - y_{t + 1}^{j})}^{2}}

H (i, j) = | G_{t}^{i} - G_{t + 1}^{j} |

A (i, j) = | S_{t}^{i} - S_{t + 1}^{j} |

6.如权利要求1所述的基于3D轨迹分析的目标检测识别算法，其特征在于，步骤二中将运动目标的二维轨迹转换为世界坐标系下的三维轨迹，其具体实现过程包括：

7.如权利要求1所述的基于3D轨迹分析的目标检测识别算法，其特征在于，所述步骤二中的三维轨迹，提取了五个特征作为轨迹的属性，这些属性具体为：

轨迹点数：在视频序列中一条轨迹跟踪到的人头个数；

轨迹在Y方向上的跨度：一条轨迹在Y方向上的跨越的长度；

轨迹在Z方向上的跨度：一条轨迹在Z方向上的跨越的长度；