CN103735269B

CN103735269B - 一种基于视频多目标跟踪的高度测量方法

Info

Publication number: CN103735269B
Application number: CN201310578363.9A
Authority: CN
Inventors: 姜明新
Original assignee: Dalian Nationalities University
Current assignee: Dalian Minzu University
Priority date: 2013-11-14
Filing date: 2013-11-14
Publication date: 2015-10-28
Anticipated expiration: 2033-11-14
Also published as: CN103735269A

Abstract

本发明公开了一种基于视频多目标跟踪的高度测量方法，包括如下步骤：对摄像机采集的视频序列进行背景建模，利用背景减除法提取出前景图像；将每帧图像映射成一个无向网络图G＝＜V,E＞；建立能量函数；对所建立的能量函数最小化，得到当前帧图像的像素点属于不同目标和背景的标签值；将属于不同目标的像素点赋予不同的颜色，确定多目标的跟踪框；计算摄像机垂直于地平面方向的灭点V_y和地平面的灭线l；提取待测目标在每一帧图像中的头脚特征点；计算出每一帧图像中待测目标的高度；融合多帧视频序列的高度测量结果，确定待测目标的实际高度；本发明不需要对摄像机进行完全标定，只需要计算出灭点和地平面的灭线即可，降低了计算的复杂度。

Description

一种基于视频多目标跟踪的高度测量方法

技术领域

本发明属于图像处理领域，具体为一种基于视频多目标跟踪的高度测量方法。

背景技术

基于视频的人体高度测量技术是计算机视觉领域的一门新兴技术，在智能视频监控、三维重建和虚拟现实等领域都有着广泛的应用。人体高度是识别人的重要参数之一，因此，近年来基于视频的人体高度测量受到了越来越多国内外研究人员的关注。按照视频传感器的数量进行分类，基于视频的高度测量技术可以分为：单目测量、双目测量和多目测量；其中，双目测量和多目测量都涉及到图像间的配准问题，这一问题是计算机视觉领域的一个难题，至今没有得到彻底的解决，而单目测量只需要一台摄像机，结构简单，又避免了图像配准的问题，因此成为了研究的重点。现有的单目人体高度测量方法多数是基于单幅静止图像的，这些方法对测量环境和被测目标都有较高的要求，比如：被测量的人必须保持静止直立等，随着智能视频监控系统的广泛应用，基于静止图像的人体高度测量已经无法满足人们的实际需求。除此之外，现有的单目人体高度测量算法多数只能测量单个目标的高度，无法同时对多个目标的高度进行测量。

发明内容

本发明针对以上问题的提出，而研制一种基于视频多目标跟踪的高度测量方法。

本发明的技术手段如下：

一种基于视频多目标跟踪的高度测量方法，包括如下步骤：

步骤1：采用码本模型对摄像机采集的视频序列进行背景建模，利用背景减除法提取出前景图像，所述前景图像由包括不同目标的前景团块组成；

步骤2：将摄像机采集的视频序列中每帧图像映射成一个无向网络图G＝<V,E>，其中V是每帧图像的像素点的集合，E是每帧图像各像素点之间的边的集合；

步骤3：基于前一帧图像的目标跟踪结果和当前帧图像的前景团块建立当前帧图像的能量函数；

步骤4：采用最大流/最小化算法对所建立的能量函数最小化，得到当前帧图像的无向网络图中的像素点属于不同目标和背景的标签值；

步骤5：根据得到的当前帧图像的像素点属于不同目标和背景的标签值，将属于不同目标的像素点赋予不同的颜色，确定当前帧图像的多目标的跟踪框；

步骤6：将当前帧图像作为前一帧图像，将视频序列的下一帧图像作为当前帧图像，重复执行步骤3至步骤5直至当前帧图像为视频序列的最后一帧图像；

步骤7：计算摄像机垂直于地平面方向的灭点V_y和地平面的灭线l；

步骤8：提取待测目标在每一帧图像中的头脚特征点；

步骤9：根据公式计算出每一帧图像中待测目标的高度d(H₂,F₂)，其中s为待测目标H₁F₁投射到参考物体H₁F₁上的交点S在像平面上的投影点，d(H₁,F₁)为参考物体的高度，d(h₂,f₂)为待测目标的头部特征点h₂与脚部特征点f₂之间的距离，d(V_y,s)为垂直于地平面方向的灭点V_y与投影点s之间的距离，d(V_y,h₂)为垂直于地平面方向的灭点V_y与头部特征点h₂之间的距离，d(s,f₂)为投影点s与脚部特征点f₂之间的距离；

步骤10：融合多帧视频序列的高度测量结果，确定待测目标的实际高度：假设当前帧图像目标i的跟踪结果表示为矩阵，该矩阵的协方差矩阵为协方差矩阵垂直方向和水平方向的特征向量特征值分别为和令提取值最小所对应的高度测量结果；

进一步地，所述步骤1和步骤2之间还具有如下步骤：

对第一帧图像的前景图像中的不同目标的像素点和背景的像素点分别赋予不同的初始标签；

进一步地，步骤3包括如下步骤：

步骤31：基于前一帧图像的目标跟踪结果和目标运动信息得出当前帧图像的目标预测值；

步骤32：根据对当前帧图像的目标预测值和前一帧图像的目标跟踪结果生成当前帧图像的预测区域的似然函数l₁(p,f_p,t)，其中表示前一帧图像的目标i的像素点的概率分布，q_t-1(z_t(p))表示前一帧图像的背景的像素点的概率分布，f_p,t表示对当前帧图像的像素点p的标签的预测值，ob表示目标，bg表示背景；

步骤33：计算前一帧图像的目标跟踪结果与当前帧图像的前景团块之间的相似度d₂(j,f_p,t)，其中表示前一帧图像的目标i的像素点的概率分布和当前帧图像的前景团块j的像素点的概率分布之间的Kullback-lerbler距离，表示前一帧图像的背景的像素点的概率分布和当前帧图像的前景团块j的像素点的概率分布之间的Kullback-lerbler距离，f_p,t表示对当前帧图像的像素点p的标签的预测值，ob表示目标，bg表示背景，i为1、2、3、……、n，j为1、2、3、……、m；

步骤34：计算当前帧图像的能量函数的数据项其中

\underset{p &Element; V_{t}}{Σ} R_{p, t} (f_{p, t}) = \underset{p &Element; O_{t | t - 1}}{Σ} - \ln (l_{1} (p, f_{p, t})) + α Σ_{j = 1}^{m} d_{2} (j, f_{p, t}),

α是常数、具体为前景团块j的像素数目，p为像素点，V_t为当前帧图像的像素点的集合，O_t｜t-1为当前帧图像的目标预测值，m为当前帧图像的前景团块的个数，l₁(p,f_p,t)为当前帧图像的预测区域的似然函数，d₂(j,f_p,t)为前一帧图像的目标跟踪结果与当前帧图像的前景团块之间的相似度；

步骤35：计算当前帧图像的能量函数的平滑项B_{p,q},t，其中

B_{{p, q}, t} = \frac{1}{dist (p, q)} \exp (- \frac{{| | z_{t}^{C} (p) - z_{t}^{C} (q) | |}^{2}}{σ_{T}^{2}}), σ_{T} = 4 < {(z_{t}^{C} (p) - z_{t}^{C} (q))}^{2} >,

dist(p,q)表示当前帧图像的相邻像素p、q之间的距离，为像素点p的颜色信息，为像素点q的颜色信息，所述和均是一个YUV颜色空间的三维向量；

步骤36：根据计算出的数据项和平滑项B_{p,q},t建立能量函数E_t(L_t)，其中

E_{t} (L_{t}) = \underset{p &Element; V_{t}}{Σ} R_{p, t} (f_{p, t}) + \underset{p, q &Element; E_{t}}{Σ} B_{{p, q}, t} (1 - δ (f_{p, t,} f_{q, t})),

V_t为当前帧图像的像素点的集合，E_t为当前帧图像的能量，δ(f_p,t,f_q,t)为单位冲激函数、当相邻像素p、q分别对应的标签的预测值f_p,t和f_q,t相等时δ(f_p,t,f_q,t)取1、否则取0；

进一步地，所述步骤31具体包括如下步骤：

步骤311：设定前一帧图像的目标跟踪结果为，其中i表示任一目标，取值为1、2、3、……、n，t表示当前帧图像，t-1表示前一帧图像；

步骤312：利用光流法得出前一帧图像的任一目标i的像素点p的运动信息即光流向量

步骤313：确定当前帧图像的目标预测值其中表示前一帧图像的目标i中所有像素点光流向量的均值；

进一步地，所述步骤7为利用建筑物的信息计算摄像机垂直于地平面方向的灭点V_y和地平面的灭线l，具体包括如下步骤：

步骤7a：采用Canny算子提取图像中的边缘信息；

步骤7b：通过Hough变换从边缘信息中提取出垂直于地平面方向上的一组平行线在像平面中对应的线段；

步骤7c：利用公式

V_{y} = \arg \min Σ_{ϵ = 1}^{N} (\frac{| w_{ϵ}^{T} h_{ϵ} - b_{ϵ} |}{{(w_{ϵ}^{T} Σ h_{ϵ} w_{ϵ})}^{1 / 2}} + \frac{| w_{ϵ}^{T} f_{ϵ} - b_{ϵ} |}{{(w_{ϵ}^{T} Σ f_{ϵ} w_{ϵ})}^{1 / 2}})

计算出摄像机垂直于地平面方向的灭点V_y，其中w_ε为第ε条线段的中点坐标向量，h_ε、f_ε为第ε条线段的两个端点坐标向量，b_ε为第ε条线段的截距，ε为步骤7b所提取出的线段的索引，T表示向量的转置；同理，计算出摄像机在x方向上的灭点V_x和摄像机在z方向上的灭点V_z，地平面的灭线l即为连接灭点V_x和灭点V_z的直线；

进一步地，所述步骤7为利用标志物的信息计算摄像机垂直于地平面方向的灭点V_y和地平面的灭线l，具体包括如下步骤：

步骤7a′：预先在视频监控场景中放置四根垂直于地平面的标志物，所述标志物与地平面的接触点组成一矩形；

步骤7b′：采用Canny算子提取图像中的边缘信息；

步骤7c′：通过Hough变换从边缘信息中提取出垂直于地平面方向上的一组平行线在像平面中对应的线段；

步骤7d′：利用公式

V_{y} = \arg \min Σ_{ϵ = 1}^{N} (\frac{| w_{ϵ}^{T} h_{ϵ} - b_{ϵ} |}{{(w_{ϵ}^{T} Σ h_{ϵ} w_{ϵ})}^{1 / 2}} + \frac{| w_{ϵ}^{T} f_{ϵ} - b_{ϵ} |}{{(w_{ϵ}^{T} Σ f_{ϵ} w_{ϵ})}^{1 / 2}})

步骤7e′：撤除标志物；

进一步地，所述步骤8具体包括如下步骤：

步骤81：提取待测目标在每一帧图像中的头部特征点；

步骤82：连接每一帧图像中待测运动目标的头部特征点和垂直于地平面方向的灭点V_y，将头部特征点和灭点V_y之间的直线与多目标的跟踪框的交点作为待测运动目标的脚部特征点。

由于采用了上述技术方案，本发明提供的一种基于视频多目标跟踪的高度测量方法，不需要对摄像机进行完全标定，只需要计算出灭点和地平面的灭线即可，降低了计算的复杂度；利用图割算法实现对多目标的轮廓跟踪，降低了对目标检测的依赖度；融合多帧测量结果提高了算法的准确度。本发明对遮挡和目标运动状态的变化具有较强的鲁棒性，同时可以满足准确性和实时性的要求。

附图说明

图1是本发明前一帧图像的无向网络图；

图2是本发明当前帧图像的无向网络图；

图3是本发明所述多目标的跟踪框的示意图；

图4是摄像机的投影成像示意图；

图5是高度测量的3D空间几何关系示意图；

图6是高度测量的2D像平面几何关系示意图；

图7是垂直灭点和地平面灭线的几何示意图；

图8是利用建筑物计算灭点和灭线的示意图；

图9是利用标志物计算灭点和灭线的示意图；

图10是融合多帧视频序列的高度测量结果的示意图；

图11-a是双腿分开时的特征值计算的示意图；

图11-b是双腿闭合时的特征值计算的示意图；

图12是的变化曲线示意图。

图中：1、地平面，2、像平面，3、相机，4、平面π，5、垂直灭点，6、摄像机光心，7、平面的灭线。

具体实施方式

本发明所述一种基于视频多目标跟踪的高度测量方法采用图割理论对多目标进行跟踪，图割理论是图论中一类关于网络流的算法，本发明首先采用背景减除法进行运动目标检测，得到每帧图像的前景图像，背景减除法是比较常用的一种运动目标检测方法，基本思想是建立背景模型，将当前帧图像与背景图像进行差分实现对运动目标的检测，本发明采用码本模型对背景进行建模，码本模型是Kim K[13]提出，该模型根据每个像素点连续采样值的颜色距离和亮度范围为每个像素点生成一个码本，根据采样值的变化情况，每个码本包含的码字个数不同，训练背景得到码本背景模型后，运用减背景的运动目标检测技术，根据像素点的采样值与其码本中的各个码字的匹配情况来确定该像素是否为前景点，假定第一帧图像的多目标没有互相遮挡的情况，则第一帧图像得到的前景图像为包括多个目标的前景团块，对第一帧图像的背景的像素点和不同目标的像素点赋予不同的初始标签，比如将背景的像素点赋予标签0，目标1的像素点赋予标签1，目标2的像素点赋予标签2…。

之后对视频序列的每帧图像均映射成一个无向网络图，假设当前帧图像共有n个目标被跟踪，其中第i个目标采用表示，在视频图像中每个目标可以看做是多个像素组成的集合，假设当前帧图像共有m个前景团块，第j个前景团块采用表示，也是一些像素组成的集合,i为1、2、3、……、n，j为1、2、3、……、m；将摄像机采集的视频序列中每帧图像映射成一个无向网络图G＝＜V,E＞，其中V是每帧图像的像素点的集合，E是每帧图像各像素点之间的边的集合；如图1所示的前一帧图像的无向网络图的示例，其中白色像素点的标签值为目标，黑色像素点的标签值为背景，箭头表示目标的光流向量，基于前一帧图像的目标跟踪结果和目标运动信息得出当前帧图像的目标预测值，由于事先对第一帧图像的前景图像中的不同目标的像素点和背景的像素点分别赋予不同的初始标签，利用光流法可以得出前一帧图像的任一目标i的像素点p的运动信息即光流向量故能够根据第一帧图像的像素点的初始标签和像素点的运动信息得出第二帧图像的目标预测值，图2是本发明当前帧图像的无向网络图，其中和为当前帧图像的两个前景团块，分别包括了多个像素点，虚线框内的像素点是根据前一帧图像的目标跟踪结果和运动信息得到的当前帧图像的预测值

进一步地，需要通过建立能量函数并对能量函数最小化，以确定前景团块和以及预测值中的哪些像素点属于真正的目标；假设当前帧图像中的像素点p可以用特征向量z_t(p)来描述，其中，表示像素点的颜色信息，是一个YUV颜色空间的三维向量；表示像素点的运动信息，是一个二维的光流向量；针对目标i来说，图像中的像素点不属于该目标，则可以看作背景，我们用包含运动信息和颜色信息的概率分布来表示像素点属于目标还是背景，假设当前帧图像属于目标i的像素点的概率分布用来表示，对应的特征向量为由于运动信息和颜色信息是相互独立的，所以可以分解为（对应的特征向量为）和（对应的特征向量为），则属于目标i的像素点的概率分布的数学表达式为同理，当前帧图像属于背景的像素点的概率分布（对应的特征向量为）可以表示为目标跟踪的任务是根据前一帧图像的目标利用图割算法得到当前帧图像的目标若当前帧图像共有m_t个前景团块，第j个前景团块用表示，也可以看做是一些像素组成的集合，假设当前帧图像属于前景团块的像素点的概率分布用来表示，则可以用数学表达式表达为然后基于前一帧图像的目标跟踪结果和目标运动信息得出当前帧图像的目标预测值，具体为设定前一帧图像的目标跟踪结果为，其中i表示任一目标，取值为1、2、3、……、n，t表示当前帧图像，t-1表示前一帧图像，利用光流法得出前一帧图像的任一目标i的像素点p的运动信息即光流向量确定当前帧图像的目标预测值其中表示前一帧图像的目标i中所有像素点光流向量的均值；再根据对当前帧图像的目标预测值和前一帧图像的目标跟踪结果生成当前帧图像的预测区域的似然函数l₁(p,f_p,t)，其中表示前一帧图像的目标i的像素点的概率分布，q_t-1(z_t(p))表示前一帧图像的背景的像素点的概率分布，f_p,t表示对当前帧图像的像素点p的标签的预测值，ob表示目标，bg表示背景；然后计算前一帧图像的目标跟踪结果与当前帧图像的前景团块之间的相似度d₂(j,f_p,t)，其中表示前一帧图像的目标i的像素点的概率分布和当前帧图像的前景团块j的像素点的概率分布之间的Kullback-lerbler距离，表示前一帧图像的背景的像素点的概率分布和当前帧图像的前景团块j的像素点的概率分布之间的Kullback-lerbler距离，f_p,t表示对当前帧图像的像素点p的标签的预测值，ob表示目标，bg表示背景，i为1、2、3、……、n，j为1、2、3、……、m，计算当前帧图像的能量函数的数据项其中

\underset{p &Element; V_{t}}{Σ} R_{p, t} (f_{p, t}) = \underset{p &Element; O_{t | t - 1}}{Σ} - \ln (l_{1} (p, f_{p, t})) + α Σ_{j = 1}^{m} d_{2} (j, f_{p, t}),

α是常数，这个常数是控制前景团块对数据项的影响程度的，具体为前景团块j的像素数目，p为像素点，V_t为当前帧图像的像素点的集合，O_t｜t-1为当前帧图像的目标预测值，m为当前帧图像的前景团块的个数，l₁(p,f_p,t)为当前帧图像的预测区域的似然函数，d₂(j,f_p,t)为前一帧图像的目标跟踪结果与当前帧图像的前景团块之间的相似度；计算能量函数的平滑项B_{p,q},t，平滑项B_{p,q},t的设计是基于当前帧图像中的相邻像素点{p,q}的颜色梯度信息，具体为

B_{{p, q}, t} = \frac{1}{dist (p, q)} \exp (- \frac{{| | z_{t}^{C} (p) - z_{t}^{C} (q) | |}^{2}}{σ_{T}^{2}}),

σ_{T} = 4 < {(z_{t}^{C} (p) - z_{t}^{C} (q))}^{2} >,

dist(p,q)表示当前帧图像的相邻像素之间的距离，为像素点p的颜色信息，为像素点q的颜色信息，所述和均是一个YUV颜色空间的三维向量；根据计算出的数据项和平滑项B_{p,q},t建立能量函数E_t(L_t)，其中

E_{t} (L_{t}) = \underset{p &Element; V_{t}}{Σ} R_{p, t} (f_{p, t}) + \underset{p, q &Element; E_{t}}{Σ} B_{{p, q}, t} (1 - δ (f_{p, t,} f_{q, t})),

V_t为当前帧图像的像素点的集合，E_t为当前帧图像的能量，δ(f_p,t,f_q,t)为单位冲激函数、当相邻像素p、q分别对应的标签的预测值f_p,t和f_q,t相等时δ(f_p,t,f_q,t)取1、否则取0。

采用最大流/最小化算法对所建立的能量函数最小化，得到当前帧图像的无向网络图中的像素点属于不同目标和背景的标签值根据得到的当前帧图像的像素点属于不同目标和背景的标签值，将属于不同目标的像素点赋予不同的颜色，确定当前帧图像的多目标的跟踪框，图3示出了多目标的跟踪框的示意图，将当前帧图像作为前一帧图像，将视频序列的下一帧图像作为当前帧图像，重复执行步骤3至步骤5直至当前帧图像为视频序列的最后一帧图像，其中由于事先对第一帧图像的前景图像中的不同目标的像素点和背景的像素点分别赋予不同的初始标签，利用光流法可以得出前一帧图像的任一目标i的像素点p的运动信息即光流向量，故能够根据第一帧图像的像素点的初始标签和像素点的运动信息得出第二帧图像的目标预测值，进而通过上述步骤确定第二帧图像的目标跟踪结果，再对第三帧图像进行目标预测，直至视频序列的最后一帧确定目标跟踪结果，视频序列的每帧图像均得出多目标的跟踪框；本发明利用多目标的运动信息和颜色信息，建立一个关于多目标标签的能量函数，最后利用最大流/最小割算法实现能量函数的最小化，从而将不同的像素赋予不同的标签，实现基于单目视频序列的多目标轮廓跟踪。

图4示出了摄像机的投影成像示意图，摄像机的基本成像模型通常称为基本针孔模型，这种模型在数学上是三维空间到二维空间的中心投影，如图4所示，图中用大写字母表示三维空间中的点，相应的小写字母表示该点在像平面中的成像点，当一个人双腿闭合直立时，可以近似的看做一条垂直于地平面的线段，H表示被测量目标的头顶点，F表示该目标的脚在地平面上的特征点，连接H和F的线段记为HF，h和f分别表示H和F在像平面中的成像点，因此线段hf为HF在像平面中成的像，任意两点间距离用d(,)表示，图5示出了高度测量的3D空间几何关系示意图，图6示出了高度测量的2D像平面几何关系示意图，如图5所示，H₁F₁表示我们要测量的目标，H₂F₂表示我们预先选定的参考高度，参考高度很容易获得，比如可以在监控场景中建筑物上选定一个预先测量好高度的点，也可以选择任意已知高度的垂直于地面的物体，首先，将待测目标H₁F₁投射到参考高度H₂F₂上，从点H₁向H₂F₂引直线，使其平行于线段F₁F₂，交点为S，由于线段H₁F₁，H₂F₂均垂直于地平面，所以H₁F₁平行于H₂F₂，可知d(S,F₂)＝d(H₁,F₁)，该投射过程在像平面中相应的示意图如图6所示，图中V_y表示垂直于地平面方向的灭点，l表示地平面的灭线；连接f₁和f₂使其与灭线l相交于点u，连接h₁和u，与V_y、f₂相交于点s，根据摄影几何中4个共线点的交比（Cross Ratio）公式可得根据2D像平面和3D空间的对应关系可知又因为d(S,F₂)＝d(H₁,F₁)，可得，故h₁f₁和h₂f₂在空间中对应的直线是平行的，h₁s和f₁f₂在空间中对应的线段也是平行的，因此s为S在像平面上的投影点，这样便在像平面获得了4个共线点，分别是V_y,h₂,s,f₂，由此可以看出，只要计算出摄像机垂直于地平面方向的灭点V_y和地平面的灭线l，便可以通过公式计算出待测目标的高度d(H₂,F₂)。

图7示出了垂直灭点和地平面灭线的几何示意图，直线上无穷远点的图像称为该直线的灭点,由于平行直线与无穷远平面相交于同一个无穷远点，因此一组平行的直线有一个相同的灭点，即灭点只与直线的方向有关而与直线的位置无关,在摄影几何关系里，通过摄像机光心垂直于平面π的方向引直线，该直线和像平面的交点就是垂直方向的灭点；平面π上无穷远直线L_∞在像平面上的投影称为该平面的灭线在摄影几何关系里，平面π的灭线是平行于平面π且通过摄像机光心的平面与像平面的交线。

图8示出了利用建筑物计算灭点和灭线的示意图；如果视频监控场景中有建筑物的信息，可以利用建筑物信息来计算垂直方向的灭点V_y和地平面的灭线l，通过对灭点灭线概念的理解可知，空间中垂直于地平面方向上的一组平行线在像平面中的交点即为垂直方向上的灭点V_y，同理地平面上X方向的一组平行线在像平面中的交点即为X方向上的灭点V_x，Z方向的一组平行线在像平面中的交点即为Z方向上的的灭点V_z，连接V_x和V_z的直线，即为地平面的灭线l，利用建筑物的信息计算摄像机垂直于地平面方向的灭点V_y和地平面的灭线l，具体包括如下步骤：

步骤7a：采用Canny算子提取图像中的边缘信息；

步骤7c：利用公式

V_{y} = \arg \min Σ_{ϵ = 1}^{N} (\frac{| w_{ϵ}^{T} h_{ϵ} - b_{ϵ} |}{{(w_{ϵ}^{T} Σ h_{ϵ} w_{ϵ})}^{1 / 2}} + \frac{| w_{ϵ}^{T} f_{ϵ} - b_{ϵ} |}{{(w_{ϵ}^{T} Σ f_{ϵ} w_{ϵ})}^{1 / 2}})

计算出摄像机垂直于地平面方向的灭点V_y，其中w_ε为第ε条线段的中点坐标向量，h_ε、f_ε为第ε条线段的两个端点坐标向量，b_ε为第ε条线段的截距，ε为步骤7b所提取出的线段的索引，T表示向量的转置；同理，计算出摄像机在x方向上的灭点V_x和摄像机在z方向上的灭点V_z，地平面的灭线l即为连接灭点V_x和灭点V_z的直线。

图9是利用标志物计算灭点和灭线的示意图；如果视频监控场景中无法在建筑物信息中提取三个方向的平行线，则可以预先在视频监控场景中放置4根带底座的垂直于地面的标志物（杆子），让4个标志物与地的接触点组成一个矩形，如图9所示，利用标志物信息计算灭点和灭线，获得灭点和灭线后标志物即可撤除，不会影响后续的多目标高度测量，该方法简单易行，计算量小，同时，计算灭点和灭线的准确度高。

在计算摄像机垂直于地平面方向的灭点V_y和地平面的灭线l之后，需要提取待测目标在每一帧图像中的头脚特征点；首先，计算多目标的跟踪框的主轴，利用文献Lv F，Zhao T,and Nevatia R.Camera Calibration from Video of aWalking Human[J].IEEE Transactions on Pattern Analysis and MachineIntelligence,2006,28(9):1513-1518中的方法提取运动目标的头部特征点,且由于运动目标的头脚特征点和垂直方向的灭点应该在同一条直线上，因此取连接头部特征点和垂直方向灭点的直线与多目标的跟踪框的交点作为目标的脚部特征点，获得运动目标的头脚特征点后，就可以得到h₁f₁，再结合预先选好的参考高度h₂f₂，即可计算出每一帧中多目标的高度值。

图10示出了融合多帧视频序列的高度测量结果的示意图；监控视频中运动目标的高度是随着运动状态的改变而改变的，比如人在行走过程中双腿闭合和分开时，高度会随之发生变化。运动目标下蹲或者部分进入监控画面时的高度和实际身高的差距也较大，可以通过设置阈值将这部分测量结果作为外点排除掉；如图10所示，通常情况下，当双腿闭合时测得的高度值更接近目标的实际身高，故提取视频序列中目标双腿闭合时的视频帧，然后融合这些视频帧的测量结果来确定运动目标的实际高度。

图11-a示出了双腿分开时的特征值计算的示意图，图11-b示出了双腿闭合时的特征值计算的示意图，图12是的变化曲线示意图；如图11、图12所示，假设当前帧图像目标i的跟踪结果表示为矩阵，该矩阵的协方差矩阵为,协方差矩阵垂直方向和水平方向的特征向量特征值分别为和令人在行走过程中，双腿的闭合和分开是接近周期性变化的，在每个运动周期中的值最小时即是双腿闭合的状态，故提取值最小所对应的高度测量结果。

本发明提供的一种基于视频多目标跟踪的高度测量方法，不需要对摄像机进行完全标定，只需要计算出灭点和地平面的灭线即可，降低了计算的复杂度；利用图割算法实现对多目标的轮廓跟踪，降低了对目标检测的依赖度；融合多帧测量结果提高了算法的准确度。本发明对遮挡和目标运动状态的变化具有较强的鲁棒性，同时可以满足准确性和实时性的要求。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于视频多目标跟踪的高度测量方法，其特征在于包括如下步骤：

步骤8：提取待测目标在每一帧图像中的头脚特征点；

步骤9：根据公式

\frac{d (H_{2}, F_{2})}{d (H_{1}, F_{1})} = \frac{d (h_{2}, f_{2}) d (V_{y}, s)}{d (V_{y}, h_{2}) d (s, f_{2})}

计算出每一帧图像中待测目标的高度d(H₁,F₁)，其中s为待测目标H₁F₁投射到参考物体H₂F₂上的交点S在像平面上的投影点，d(H₂,F₂)为参考物体的高度，d(h₂,f₂)为待测目标的头部特征点h₂与脚部特征点f₂之间的距离，d(V_y,s)为垂直于地平面方向的灭点V_y与投影点s之间的距离，d(V_y,h₂)为垂直于地平面方向的灭点V_y与头部特征点h₂之间的距离，d(s,f₂)为投影点s与脚部特征点f₂之间的距离；

步骤10：融合多帧视频序列的高度测量结果，确定待测目标的实际高度：假设当前帧图像目标i的跟踪结果表示为矩阵该矩阵的协方差矩阵为协方差矩阵垂直方向和水平方向的特征向量特征值分别为和令提取值最小所对应的高度测量结果；

其中，步骤3包括如下步骤：

步骤32：根据对当前帧图像的目标预测值和前一帧图像的目标跟踪结果生成当前帧图像的预测区域的似然函数l₁(p,f_p，t)，其中表示前一帧图像的目标i的像素点的概率分布，q_t-1(z_t(p))表示前一帧图像的背景的像素点的概率分布，f_p,t表示对当前帧图像的像素点p的标签的预测值，ob表示目标，bg表示背景；

步骤33：计算前一帧图像的目标跟踪结果与当前帧图像的前景团块之间的相似度d₂(j,f_p,t)，其中表示前一帧图像的目标i的像素点的概率分布和当前帧图像的前景团块j的像素点的概率分布之间的Kullback-lerbler距离，表示前一帧图像的背景的像素点的概率分布和当前帧图像的前景团块j的像素点的概率分布之间的Kullback-lerbler距离，f_p,t表示对当前帧图像的像素点p的标签的预测值，ob表示目标，bg表示背景，i为1、2、3、……、n，j为1、2、3、……、m，n为被跟踪的目标个数，m为当前帧图像的前景团块的个数；

步骤34：计算当前帧图像的能量函数的数据项其中

\underset{p &Element; V_{t}}{Σ} R_{p, t} (f_{p, t}) = \underset{p &Element; O_{t | t - 1}}{Σ} - \ln (l_{1} (p, f_{p, t})) + α Σ_{j = 1}^{m} d_{2} (j, f_{p, t}),

α为前景团块j的像素数目，p为像素点，V_t为当前帧图像的像素点的集合，O_t|t-1为当前帧图像的目标预测值，m为当前帧图像的前景团块的个数，l₁(p,f_p,t)为当前帧图像的预测区域的似然函数，d₂(j,f_p,t)为前一帧图像的目标跟踪结果与当前帧图像的前景团块之间的相似度；

步骤35：计算当前帧图像的能量函数的平滑项B_{p,q},t，其中

B_{{p, q}, t} = \frac{1}{dist (p, q)} \exp (- \frac{{| | z_{t}^{C} (p) - z_{t}^{C} (q) | |}^{2}}{σ_{T}^{2}}), σ_{T} = 4 < {(z_{t}^{C} (p) - z_{t}^{C} (q))}^{2} >,

E_{t} (L_{t}) = \underset{p &Element; V_{t}}{Σ} R_{p, t} (f_{p, t}) + \underset{p, q &Element; E_{t}}{Σ} B_{{p, q}, t} (1 - δ (f_{p, t,} f_{q, t})),

V_t为当前帧图像的像素点的集合，E_t为当前帧图像的能量，L_t表示当前帧图像的像素点属于不同目标和背景的标签值，δ(f_p,t,f_q,t)为单位冲激函数、当相邻像素p、q分别对应的标签的预测值f_p,t和f_q,t相等时δ(f_p,t,f_q,t)取1、否则取0；

其中，所述步骤7为利用建筑物的信息计算摄像机垂直于地平面方向的灭点V_y和地平面的灭线l，具体包括如下步骤：

步骤7a：采用Canny算子提取图像中的边缘信息；

步骤7c：利用公式

V_{y} = \arg \min Σ_{ϵ = 1}^{N} (\frac{| w_{ϵ}^{T} h_{ϵ} - b_{ϵ} |}{{(w_{ϵ}^{T} Σ h_{ϵ} w_{ϵ})}^{1 / 2}} + \frac{| w_{ϵ}^{T} f_{ϵ} - b_{ϵ} |}{{(w_{ϵ}^{T} Σ f_{ϵ} w_{ϵ})}^{1 / 2}})

其中，所述步骤8具体包括如下步骤：

步骤81：提取待测目标在每一帧图像中的头部特征点；

2.根据权利要求1所述的一种基于视频多目标跟踪的高度测量方法，其特征在于所述步骤1和步骤2之间还具有如下步骤：

对第一帧图像的前景图像中的不同目标的像素点和背景的像素点分别赋予不同的初始标签。

3.根据权利要求1所述的一种基于视频多目标跟踪的高度测量方法，其特征在于所述步骤31具体包括如下步骤：

步骤311：设定前一帧图像的目标跟踪结果为其中i表示任一目标，取值为1、2、3、……、n，t表示当前帧图像，t-1表示前一帧图像，n为被跟踪的目标个数；

步骤313：确定当前帧图像的目标预测值其中表示前一帧图像的目标i中所有像素点光流向量的均值。

4.根据权利要求1所述的一种基于视频多目标跟踪的高度测量方法，其特征在于所述步骤7还可以为利用标志物的信息计算摄像机垂直于地平面方向的灭点V_y和地平面的灭线l，具体包括如下步骤：

步骤7b′：采用Canny算子提取图像中的边缘信息；

步骤7d′：利用公式

V_{y} = \arg \min Σ_{ϵ = 1}^{N} (\frac{| w_{ϵ}^{T} h_{ϵ} - b_{ϵ} |}{{(w_{ϵ}^{T} Σ h_{ϵ} w_{ϵ})}^{1 / 2}} + \frac{| w_{ϵ}^{T} f_{ϵ} - b_{ϵ} |}{{(w_{ϵ}^{T} Σ f_{ϵ} w_{ϵ})}^{1 / 2}})

步骤7e′：撤除标志物。