CN104240269B

CN104240269B - 一种基于空间约束编码的视频目标跟踪方法

Info

Publication number: CN104240269B
Application number: CN201410493741.8A
Authority: CN
Inventors: 田小林; 焦李成; 赵凡迪; 刘红英; 熊涛; 杨淑媛
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2014-09-24
Filing date: 2014-09-24
Publication date: 2017-02-15
Anticipated expiration: 2034-09-24
Also published as: CN104240269A

Abstract

本发明属于图像处理技术领域，具体公开了一种基于空间约束编码的视频目标跟踪方法，主要改善了视频目标跟踪过程中特征提取精度不高、应用范围不够广泛的现象。其实现过程主要是：1)获取正、负样本；2)计算搜索窗内像素SIFT特征；3)计算样本编码；4)计算样本像素的LLC编码值；5)训练分类器得到新的码本和分类器。本发明具有较强的视频目标跟踪能力，在特征提取时可以更加充分利用图像信息，精确描述像素信息，从而提取到准确图像特征，获得更高目标跟踪能力，正确跟踪目标。

Description

一种基于空间约束编码的视频目标跟踪方法

技术领域

本发明属于图像处理技术领域，涉及视频目标跟踪方法，具体是一种基于空间约束编码(SCC)的视频目标跟踪方法，可应用于视频图像目标的跟踪和识别等领域，是图像后续更高层次分析、处理的基础。

背景技术

目标跟踪是计算机视觉的一个重要问题，它的主要目的就是在视频图像的每一幅图像中确定出我们感兴趣的运动目标的位置，并把不同帧中同一目标对应起来。视频目标跟踪主要涉及到图像处理、计算机视觉、模式识别、人工智能等方面的科学知识，它的用途非常广泛，在民用和军事领域中都有着极大的应用前景，如安全监控，人机交互，医学成像等。

尽管目标跟踪发展至今已经有了阶段性的进展，但是由于待跟踪目标在动态场景下的运动过程中出现的姿势变化、光照变化、障碍物遮挡及运动模糊等因素，这一过程变得更加复杂。

根据目标跟踪的要求和原理，对待测样本图像块的特征提取是非常关键的一步。关于对目标图像块的特征提取，许多方法已经被提出。由Jinjun Wang等人在Locality-constrained Linear Coding for Image Classification，Computer Vision andPattern Recognition,(2010),pp 3360–3367这篇论文中提出了一种局部约束线性编码(LLC)方法。该方法改进了稀疏表示的目标式，把特征和每个码字的距离作为重新确定对信号重构时编码参数的方式，有效得获得了更好的局部光滑稀疏性，获得了对特征更好的重建效果。采取这种特征提取方式处理后的目标也得到了较好的跟踪效果。

但是，仅仅将特征与每个码字的距离作为特征提取的约束项过于简单，适用性不够广泛。在面对某些视频序列里出现的短时间内位移极大的姿势变化、迅速的光照变化、相近障碍物遮挡及较大的运动模糊等复杂情况时，目标跟踪的效果会有所影响，甚至无法正常跟踪到目标。因此，上述方法没有充分利用到待检测样本的图像信息，对某些特定情况下的目标跟踪精度和准确率有待提高。

发明内容

本发明的目的在于针对上述已有技术的不足，提供一种基于空间约束编码的视频目标跟踪方法，包括如下步骤：

(1)输入视频图像序列的第1帧，若该帧为灰度图，则直接进行步骤(2)，如果该帧为1幅RGB图像，将其处理为256级灰度图；

(2)对该幅256级灰度图，分别在目标窗周围取正样本和负样本，正样本和负样本个数均为49个；

(3)以目标为基准，分别向上下扩充图像宽度的四分之一，向左右扩充图像长度的四分之一，作为搜索窗，对该帧图像搜索窗内的像素点分别计算其SIFT特征；

(4)利用搜索窗内像素点的SIFT特征，得到初始的字典码本B0；

(5)利用步骤(4)得到的初始的字典码本B0，分别计算49个正样本和49个负样本中每个像素点的LLC编码值，其中约束项采用目标像素点周围8个相邻点与目标像素点的距离及该8个像素点的灰度值分别加权后求和；

(6)利用步骤(5)得到的LLC编码值，对分类器进行训练，得到初始分类器model0；

(7)输入视频序列图像的第2帧，如果该帧为1幅RGB图像，将其处理为256级灰度图；

(8)对该幅256级灰度图，以第1帧对初始目标取得正样本和负样本的点作为样本左上角点坐标并采取同样宽、高，进行取样，获得49+49＝98个样本，称为检测样本；

(9)分别计算98个检测样本各自区域内像素点的SIFT特征，；

(10)利用步骤(9)得到的98个检测样本各自区域内像素点的SIFT特征和步骤(4)得到的初始的字典码本B0分别计算98个检测样本中每个像素点的LLC编码值，其中约束项采用目标像素点周围8个相邻点与目标像素点的距离及该8个像素点的灰度值分别加权后求和；

(11)利用预测函数找到最符合第1帧目标位置的一个样本左上角点坐标，则认为该样本为第2帧追踪到的第1帧目标的本帧位置，并框出其位置；

(12)以步骤(11)得到的追踪目标位置作为第2帧的目标真实坐标位置，重复步骤(2)，取得正样本和负样本各49个；

(13)重复步骤(3)，得到第2帧搜索窗内像素点的SIFT特征；

(14)利用步骤(13)得到的SIFT特征，对初始的字典码本B0进行更新，得到更新后的字典码本B’；

(15)以步骤(12)得到的正样本和负样本各49个和步骤(14)得到的更新后字典码本B’分别计算49个正样本和49个负样本中每个像素点的LLC编码值，其中约束项采用目标像素点周围8个相邻点与目标像素点的距离及该8个像素点的灰度值分别加权后求和；

(16)利用步骤(14)得到的更新后字典码本B’及训练函数对步骤(6)得到的初始分类器model0，若帧数t＞2，则对前一帧的分类器model0进行更新，得到更新后的分类器model’；

(17)按帧序号增加的方式读取步骤(16)的下一帧视频图像，重复从步骤(7)到步骤(16)这10个步骤，直至视频图像序列最后1帧。

上述步骤(2)所述的在目标窗周围取正样本和负样本，通过如下步骤进行：

2a)以目标左上角点坐标分别向上下左右移动3个像素的位置，并分别以这(3+1+3)*(3+1+3)＝49个点为左上角坐标建立正样本，样本块的宽、高与目标块一致；

2b)分别设置内半径rin和外半径rout，在以目标左上角点坐标为圆心，以rin为半径的圆外，rout为半径的圆内的环形区域内随机寻找与正样本个数相同的49个点并以之作为左上角坐标建立负样本，样本块的宽、高与目标块一致。

对上述步骤(3)中所述的帧图像搜索窗内的像素点分别计算其SIFT特征，按照如下公式进行计算：

提取SIFT特征时，先找出图片块内每个关键点的梯度模值m(x,y)和方向H(x，y),其中(x,y)表示关键点的坐标，横坐标用x表示，纵坐标用y表示，这两个值由：

两式求出，式中：

其中，函数f_x(x,y)和f_y(x,y)分别为针对坐标x和y的傅里叶尺度函数，函数L(x+1,y),L(x-1,y)，L(x,y+1)以及L(x,y-1)分别为针对坐标为(x+1,y)，(x-1,y)，(x,y+1)以及(x,y-1)这四个点进行的拉普拉斯尺度函数；

以关键点为中心的邻域窗口内采用高斯函数给每个点不同的权重，越靠近关键点权重越大，经采样并用直方图统计邻域像素的梯度方向，取峰值为关键点主方向；

以关键点为中心取16*16个窗口，将窗口分为4*4个子区域，每个区域通过直方图统计8个方向，共产生4*4*8＝128个特征信息的特征向量，它与图像坐标、尺度信息、模值大小、方向组合在一起即为一个特征点的SIFT特征向量。

上述步骤(5)所述的得到初始的字典码本B₀，通过如下步骤进行；

设码本大小为n,由SIFT特征中随机选取n个点的值，即由所有SIFT特征向量组成的矩阵的其中n行，由于每个值都包含128个特征信息，因此聚类中心为n*128，分别计算邻域窗口内除去这n个点外的其他所有点与这n个聚类中心的欧氏距离，将每一次计算所涉及的这个点聚类到与其欧式距离最短的点中，最后得到初始的字典码本B₀；经过预先设定好的更新代数i次循环，每次都会动态更新码本的这n个值，保持码本B的准确度。

上述步骤(5)所述的计算49个正样本和49个负样本中每个像素点的LLC编码值，通过如下公式进行：

针对视频序列第1帧中样本里特征点i的LLC编码目标式为：

其中，X为该特征点的SIFT特征，C为该特征点的LLC编码值，C_i为特征点i的LLC编码值，B是初始码本，N表示该帧中特征点总个数。

上述步骤(6)所述的得到初始分类器model0，通过如下步骤进行：

使用C型分类器，在步骤(5)得到的LLC编码值中选取一个能够将98个编码完全分成两类的斜线的斜率w，从而得到初始分类器。

上述步骤(10)所述的分别计算98个检测样本中每个像素点的LLC编码值，按照以下公式进行：

当t＞2时，针对视频序列第t帧中样本里特征点i的LLC编码目标式为：

其中，C^t-1为第t-1帧中特征点i的LLC编码值，d_j为特征点i的近邻像素j与i的欧氏距离，f_j为特征点i的近邻像素j与i的灰度值之差，j∈[1,8]，为特征点i相邻的8个像素点的编码，具体编号方式为：点i左上角点为点1，依次逆时针编号从2至8；

λ、α、β均为权重值，分别为λ＝0.02，α＝0.01，β＝0.87。其中，λ为对LLC编码目标式中第二个约束项的加权，λ值越大，该项对编码值的影响越大。α为第二约束项中相对位置加权编码部分的加权，λ值越大，该项对整个约束项的影响越大。β为第二约束项中灰度差值加权编码的加权，λ值越大，该项对整个约束项的影响越大。

上述步骤(14)所述的对初始的字典码本B0进行更新，得到更新后的字典码本B’，通过如下公式进行：

更新过程分为两步：

1.计算利用步骤(13)得到的SIFT特征时得到的码本B，过程与步骤(4)相同；

2.得到B后，B'＝α·B+(1-α)·B₀，其中α是对于B和B₀的控制参数，α＝0.85。

本发明的有益效果：本发明使目标像素点的取值能够更加精确，从而提高帧与帧之间图像目标确定的精度，实现视频目标跟踪。与现有的技术相比具有以下优点：

1.本发明采用的利用目标像素点周围8个相邻点与目标像素点的距离及该8个像素点的灰度值分别加权后求和的值作为约束项来进行待检测目标图像特征提取的方式比起单一使用特征与每个码字的距离作为特征提取的约束项，可以更加精确的描述像素点的信息，从而可以提取到更加准确的图像特征，正确跟踪到目标的位置；

2.本发明在获得样本编码的过程中，可以有效地减少算法计算量，从而更加快速地对目标进行跟踪。

附图说明

图1是本发明的实现流程图。

具体实施方式

参照图1，本发明：一种基于空间约束编码(SCC)的视频目标跟踪方法的具体实施过程如下：

步骤1.输入视频图像序列的第1帧，若该帧为灰度图，则直接进行步骤2，如果该帧为1幅RGB图像，将其处理为256级灰度图；采用名为“rgb2gray”的函数，将RGB图像处理为256级灰度图。

步骤2.对该幅256级灰度图，分别在目标窗周围取正样本和负样本，样本个数均为49个：

2b)分别设置内外半径rin、rout，在以目标左上角点坐标为圆心，以rin为半径的圆外，rout为半径的圆内的环形区域内随机寻找与正样本个数相同的49个点并以之作为左上角坐标建立负样本，样本块的宽、高与目标块一致。

步骤3.以目标为基准，分别向上下左右扩充一定距离，作为搜索窗，对该帧图像搜索窗内的像素点分别计算其SIFT特征；

提取SIFT特征时，先找出图片块内每个关键点的梯度模值m(x,y)和方向H(x，y),其中(x,y)表示关键点的坐标，横坐标用x表示，纵坐标用y表示。这两个值由：

两式求出，式中：

其中，函数f_x(x,y)和f_y(x,y)分别为针对坐标x和y的傅里叶尺度函数，函数L(x+1,y),L(x-1,y)，L(x,y+1)以及L(x,y-1)分别为针对坐标为(x+1,y)，(x-1,y)，(x,y+1)以及(x,y-1)这四个点进行的拉普拉斯尺度函数，以关键点为中心的邻域窗口内采用高斯函数给每个点一定的权重，越靠近关键点权重越大。经采样并用直方图统计邻域像素的梯度方向，取峰值为关键点主方向。

步骤4.利用搜索窗内像素点的SIFT特征，得到初始的字典码本B₀；

设码本大小为n,由SIFT特征中随机选取n个点的值(即由所有SIFT特征向量组成的矩阵的其中n行)，由于每个值都包含128个特征信息，因此聚类中心为n*128。计算其余的点与这n个聚类中心的欧氏距离，将该点聚类到与其欧式距离最短的点中，最后得到初始的字典码本B₀。经过预先设定好的更新代数i次循环，每次都会动态更新码本的这n个值，保持码本B的准确度。

步骤5.利用步骤4得到的初始的字典码本B0，分别计算49个正样本和49个负样本中每个像素点的LLC编码值，其中约束项采用目标像素点周围8个相邻点与目标像素点的距离及该8个像素点的灰度值分别加权后求和；

针对视频序列第1帧中样本里特征点i的LLC编码目标式为：

其中，X为该特征点的SIFT特征，C为该特征点的LLC编码值。C_i为特征点i的LLC编码值，B是初始码本，N表示该帧中特征点总个数。

步骤6.利用步骤5得到的LLC编码值，对分类器进行训练，得到初始分类器model₀：

本方法中使用的分类器为C型分类器，在步骤5得到的LLC编码值中，选取一个最适合的斜率w，从而得到初始分类器。

步骤7.输入视频序列图像的第2帧，若该帧为1幅RGB图像，并将其处理为256级灰度图；

采用rgb2gray函数，将RGB图像处理为256级灰度图。

步骤8.对该幅256级灰度图，以第1帧对初始目标取得正样本和负样本的点作为样本左上角点坐标并采取同样宽、高，进行取样，获得49+49＝98个样本，称为检测样本；

同步骤2。

步骤9.分别计算98个检测样本各自区域内像素点的SIFT特征；

同步骤3。

步骤10.利用步骤9得到的98个检测样本各自区域内像素点的SIFT特征和步骤4得到的初始的字典码本B0分别计算98个检测样本中每个像素点的LLC编码值，其中约束项采用目标像素点周围8个相邻点与目标像素点的距离及该8个像素点的灰度值分别加权后求和；

针对视频序列第t帧(t＞2)中样本里特征点i的LLC编码目标式为：

其中，C^t-1为第t-1帧中特征点i的LLC编码值，d_j为特征点i的近邻像素j与i的欧氏距离，f_j为特征点i的近邻像素j与i的灰度值之差，j∈[1,8]，为特征点i相邻的8个像素点的编码，具体编号方式为：点i左上角点为点1，依次逆时针编号从2至8。

步骤11.利用预测函数找到最符合第1帧目标位置的一个样本左上角点坐标，则认为该样本为第2帧追踪到的第1帧目标在本帧的位置，并框出其位置；

经过此步骤后，目标位置相对于之前的位置更加精确，以此作为基础位置再次跟踪精度更高。

步骤12.以步骤11得到的追踪目标位置作为第2帧的目标真实坐标位置，重复步骤2，取得正样本和负样本各49个；

同步骤2。

步骤13.重复步骤3，得到第2帧搜索窗内像素点的SIFT特征；

同步骤3。

步骤14.利用步骤13得到的SIFT特征，对初始的字典码本B₀进行更新，得到更新后的字典码本B’；

更新过程分为两步：

2.计算利用步骤13得到的SIFT特征时得到的码本B，过程同步骤4；

3.得到B后，B'＝α·B+(1-α)·B₀。其中α是对于B和B₀的控制参数，α＝0.85。

步骤15.以步骤12得到的正样本和负样本各49个和步骤14得到的更新后字典码本B’分别计算49个正样本和49个负样本中每个像素点的LLC编码值，其中约束项采用目标像素点周围8个相邻点与目标像素点的距离及该8个像素点的灰度值分别加权后求和；

同步骤10。

步骤16.利用步骤14得到的更新后字典码本B’及训练函数对步骤6得到的初始分类器model₀(若帧数t＞2，则对前一帧的分类器model₀)进行更新，得到更新后的分类器model’；

同步骤6。

步骤17.视频图像帧数+1，重复步骤7—步骤16，直至视频图像序列最后1帧。

本发明的效果通过以下实验进一步说明：

1.实验条件：

本实验采用6个标准测试视频图像序列作为实验数据，实验环境为：MATLABR2010a，CPU intel Pentium Dual-Core E5300 2.60GHz，内存2G，Windows XP SP3。

2.实验内容：

利用本发明与现在广泛使用的5种视频目标跟踪算法(MILTrack,OAB,SemiB,Frag,l₁-track)分别追踪6个标准测试视频图像序列(Animal,biker,bird_2,girl,motor,panda)，通过对比中心偏移误差(Center location error，CLE)及成功率(Success rate，SR(％))这两个标准来判断各种方法的跟踪精度和准确率。

3.实验结果与分析：

表1和表2中，表现最好的数据用粗体标出，第二好的数据用斜体标出。可以看出，本发明与现有几种方法对6个视频序列的中心误差偏移(CLE)差距较大。在6次实验中，本发明有4次中心误差偏移最小(1次并列)；而在对比跟踪成功率方面，本发明在6次实验中成功率均为最高，其中2个视频更是达到了100％的跟踪成功率。

由于这六个视频具有不同方面的识别跟踪难点，因此，可以看出本发明在视频目标跟踪方面的广泛适用性。

表1 本发明与现有几种方法对6个视频序列的中心误差偏移(CLE)比较

表2 本发明与现有几种方法对6个视频序列的目标跟踪成功率(SR)比较

从上表中可以看出，与现有的5种视频目标跟踪方法相比，用本发明跟踪后的CLE值与SR值均有较大幅度的提高。

综上，本发明具有较强的视频目标跟踪能力，在特征提取时可以更加充分地利用图像信息，更加精确的描述像素点的信息，从而提取到更加准确的图像特征，获得更高的目标跟踪能力，正确跟踪到目标的位置。

本实施方式中没有详细叙述的部分属本行业的公知的常用手段，这里不一一叙述。以上例举仅仅是对本发明的举例说明，并不构成对本发明的保护范围的限制，凡是与本发明相同或相似的设计均属于本发明的保护范围之内。

Claims

1.一种基于空间约束编码的视频目标跟踪方法，其特征在于：包括以下步骤：

(4)利用搜索窗内像素点的SIFT特征，得到初始的字典码本B0；

(9)分别计算98个检测样本各自区域内像素点的SIFT特征；

(13)重复步骤(3)，得到第2帧搜索窗内像素点的SIFT特征；

2.根据权利要求1所述的一种基于空间约束编码的视频目标跟踪方法，其特征在于：其中步骤(2)所述的在目标窗周围取正样本和负样本，通过如下步骤进行：

3.根据权利要求1所述的一种基于空间约束编码的视频目标跟踪方法，其特征在于：对步骤(3)中所述的帧图像搜索窗内的像素点分别计算其SIFT特征，按照如下公式进行计算：

两式求出，式中：

其中，f(x,y)函数为傅里叶尺度函数，L(x,y)函数为拉普拉斯尺度函数，

4.根据权利要求1所述的一种基于空间约束编码的视频目标跟踪方法，其特征在于：其中步骤(5)所述的得到初始的字典码本B₀，通过如下步骤进行；

设码本大小为n,由SIFT特征中随机选取n个点的值，即由所有SIFT特征向量组成的矩阵的其中n行，由于每个值都包含128个特征信息，因此聚类中心为n*128，分别计算邻域窗口内除去这n个点外的其他所有点与这n个聚类中心的欧氏距离，将每一次计算所涉及的这个点聚类到与其欧式距离最短的点中，最后得到初始的字典码本 B₀；经过预先设定好的更新代数i次循环，每次都会动态更新码本的这n个值，保持码本B的准确度。

5.根据权利要求1所述的一种基于空间约束编码的视频目标跟踪方法，其特征在于：其中步骤(5)所述的计算49个正样本和49个负样本中每个像素点的LLC编码值，通过如下公式进行：

针对视频序列第1帧中样本里特征点i的LLC编码目标式为：

6.根据权利要求1所述的一种基于空间约束编码的视频目标跟踪方法，其特征在于：其中步骤(6)所述的得到初始分类器model0，通过如下步骤进行：

7.根据权利要求1所述的一种基于空间约束编码的视频目标跟踪方法，其特征在于：其中步骤(14)所述的对初始的字典码本B0进行更新，得到更新后的字典码本B’，通过如下公式进行：

更新过程分为两步：