CN104915677B

CN104915677B - 一种三维视频目标跟踪方法

Info

Publication number: CN104915677B
Application number: CN201510270168.9A
Authority: CN
Inventors: 邵枫; 胡镇浩; 李福翠
Original assignee: Ningbo University
Current assignee: Hefei Zhongzhi Software Co ltd
Priority date: 2015-05-25
Filing date: 2015-05-25
Publication date: 2018-01-05
Anticipated expiration: 2035-05-25
Also published as: CN104915677A

Abstract

本发明公开了一种三维视频目标跟踪方法，其首先选择前几帧彩色图像以及前几帧深度图像构成训练图像集，并计算得到训练图像集的每个聚类中心、每个聚类半径和每个聚类的置信值；对于任何一副待跟踪的彩色图像，通过计算彩色图像中的每个区域的R分量的颜色‑深度联合直方图、G分量的颜色‑深度联合直方图和B分量的颜色‑深度联合直方图，并融合得到用于反映三维视觉显著性的特征矢量，并根据训练图像集的最优聚类中心、最优聚类半径以及最优聚类的置信值，获取得到待跟踪的彩色图像的显著图，并通过搜索得到彩色图像的目标区域；优点是所获得的显著图符合三维视觉显著语义特征，具有较高的跟踪精度。

Description

一种三维视频目标跟踪方法

技术领域

本发明涉及一种视频信号的处理方法，尤其是涉及一种三维视频目标跟踪方法。

背景技术

在人类视觉接收与信息处理中，由于大脑资源有限以及外界环境信息重要性区别，因此在处理过程中人脑对外界环境信息并不是一视同仁的，而是表现出选择特征。人们在观看图像或者视频片段时注意力并非均匀分布到图像的每个区域，而是对某些显著区域关注度更高。如何将视频中视觉注意度高的显著区域检测并提取出来、如何对目标区域进行跟踪是计算机视觉领域的一个重要的研究内容。

在视频目标跟踪方法中，通常需要提取反映视频运动的视频显著语义信息。目前，通常采用视频分割、光流法、运动估计等方法来提取视频显著区域，然而这些方法并不能很好地应用于三维视频。针对三维视频目标跟踪，一方面，需要提取能够反映三维语义的视觉显著信息；另一方面，因计算能力局限，不能在跟踪过程中进行复杂的特征匹配操作而要保持较高的跟踪精度。因此，如何提取符合三维视频显著语义特征且保持较高跟踪精度，是三维视频目标跟踪需要研究解决的问题。

发明内容

本发明所要解决的技术问题是提供一种符合三维视频显著语义特征，且具有较高跟踪精度的三维视频目标跟踪方法。

本发明解决上述技术问题所采用的技术方案为：一种三维视频目标跟踪方法，其特征在于包括以下步骤：

①将待处理的原始三维视频序列定义为当前视频序列，假定当前视频序列中包含的彩色图像的总帧数和包含的深度图像的总帧数均为T，其中，T>1；

②将当前视频序列中的前P帧彩色图像及前P帧彩色图像各自对应的深度图像按序构成训练图像集，其中，1≤P<T；

③获取训练图像集的所有聚类中心、所有聚类半径以及所有聚类各自的置信值，将训练图像集的第m个聚类中心、第m个聚类半径以及第m个聚类的置信值对应记为g_m、r_m、，其中，m的初始值为1，1≤m≤K，K表示训练图像集的聚类的总个数，K≥1；

④手工标记当前视频序列中的第1帧彩色图像的目标区域，该目标区域包含场景中最主要的运动对象；然后将当前视频序列中当前待处理的第t帧彩色图像定义为当前彩色图像，记为I_t；并将当前视频序列中与I_t对应的深度图像定义为当前深度图像，记为D_t；其中，t的初始值为2，2≤t≤T；

⑤采用超像素分割技术将I_t分割成M个互不重叠的区域；然后根据训练图像集的最优聚类中心、最优聚类半径以及最优聚类的置信值，计算I_t中的每个区域的显著值；再将I_t中的每个区域的显著值作为该区域中的所有像素点的显著值，从而得到I_t的显著图，记为S_t；其中，M≥1；

⑥根据S_t获取I_t的目标区域，记为其中，表示I_t中与当前视频序列中的第t-1帧彩色图像I_t-1的目标区域的尺寸大小相同且形状相同的任一个区域，表示I_t中与当前视频序列中的第t-1帧彩色图像I_t-1的目标区域的尺寸大小相同且形状相同的所有区域的集合，S_t(x,y)表示S_t中坐标位置为(x,y)的像素点的像素值，1≤x≤W，1≤y≤H，W表示当前视频序列中的彩色图像和深度图像的宽，H表示当前视频序列中的彩色图像和深度图像的高，符号“||”为取绝对值符号，表示取使得的值最大的一个区域

⑦如果满足t≤P，则直接执行步骤⑧；如果满足t>P，则将I_t和D_t加入到训练图像集中，并删除训练图像集中的第1帧彩色图像和第1帧深度图像，得到更新后的训练图像集，然后采用与步骤③相同的操作，获取更新后的训练图像集的所有聚类中心、所有聚类半径以及所有聚类各自的置信值，再执行步骤⑧；

⑧令t＝t+1；然后将当前视频序列中的第t帧彩色图像作为当前彩色图像，记为I_t；并将当前视频序列中与I_t对应的深度图像定义为当前深度图像，记为D_t；再返回步骤⑤继续执行，直至当前视频序列中的所有彩色图像和深度图像处理完毕，得到当前视频序列中的每帧彩色图像的目标区域；其中，t＝t+1中的“＝”为赋值符号。

所述的步骤③的具体过程为：

③-1、手工标记训练图像集中的第1帧彩色图像I₁的目标区域，记为包含场景中最主要的运动对象；

③-2、将训练图像集中当前待处理的第t'帧彩色图像定义为当前彩色图像，记为I_t'；并将训练图像集中与I_t'对应的深度图像定义为当前深度图像，记为D_t'；其中，在此t'的初始值为2，2≤t'≤P；

③-3、在I_t'中确定一个圆形搜索区域，圆形搜索区域的中心像素点的坐标位置与的中心像素点的坐标位置相同，且圆形搜索区域的半径为10个像素点；然后在圆形搜索区域上搜索与匹配的最佳匹配区域，将与匹配的最佳匹配区域作为I_t'的目标区域，记为其中，表示训练图像集中的第t'-1帧彩色图像I_t'-1的目标区域，表示在圆形搜索区域上与匹配的任一个匹配区域，的中心像素点为圆形搜索区域上的任一个像素点，且的尺寸大小与的尺寸大小相同，的形状与的形状相同，表示在圆形搜索区域上与匹配的所有匹配区域的集合，1≤x≤W，1≤y≤H，1≤x'≤W，1≤y'≤H，W表示当前视频序列中的彩色图像和深度图像的宽，H表示当前视频序列中的彩色图像和深度图像的高，符号“||”为取绝对值符号，I_t'-1(x,y)表示训练图像集中的第t'-1帧彩色图像I_t'-1中坐标位置为(x,y)的像素点的像素值，I_t'(x',y')表示I_t'中坐标位置为(x',y')的像素点的像素值，表示取使得的值最小的一个匹配区域

③-4、令t'＝t'+1；然后将训练图像集中的第t'帧彩色图像作为当前彩色图像，记为I_t'；并将训练图像集中与I_t'对应的深度图像作为当前深度图像，记为D_t'；再返回步骤③-3继续执行，直至获得训练图像集中的每帧彩色图像的目标区域；其中，t'＝t'+1中的“＝”为赋值符号；

③-5、采用超像素分割技术将训练图像集中的每帧彩色图像分割成M个互不重叠的区域，将I_t'中的第h个区域记为SP_t',h；然后计算训练图像集中的每帧彩色图像中的每个区域的特征矢量，将SP_t',h的特征矢量记为f_t',h；其中，M≥1，在此t'的初始值为1，1≤t'≤P，h的初始值为1，1≤h≤M；

③-6、将由训练图像集中的所有彩色图像中的区域的特征矢量构成的集合定义为特征矢量集合；然后采用Mean-shift聚类方法对特征矢量集合进行聚类操作，得到特征矢量集合的K个聚类，同时得到特征矢量集合的每个聚类中心和每个聚类半径，将特征矢量集合的第m个聚类作为训练图像集的第m个聚类，将特征矢量集合的第m个聚类中心作为训练图像集的第m个聚类中心g_m，将特征矢量集合的第m个聚类半径作为训练图像集的第m个聚类半径r_m；接着将训练图像集中的所有彩色图像中属于同一聚类的区域归为一类，将训练图像集中的所有彩色图像中属于第m个聚类的区域构成的集合记为；其中，K表示特征矢量集合包含的聚类的总个数，K≥1，m的初始值为1，1≤m≤K；

③-7、计算训练图像集的每个聚类的置信值，训练图像集的第m个聚类的置信值为其中，如果满足且则令如果满足且则令

所述的步骤③-5中SP_t',h的特征矢量f_t',h的获取过程为：

a1、对SP_t',h中的每个像素点的R分量的颜色值、G分量的颜色值和B分量的颜色值分别进行量化，对应得到SP_t',h中的每个像素点的量化后的R分量的颜色值、量化后的G分量的颜色值和量化后的B分量的颜色值，将SP_t',h中坐标位置为(x_t',h,y_t',h)的像素点的量化后的R分量的颜色值、量化后的G分量的颜色值和量化后的B分量的颜色值对应记为和假设SP_t',h中坐标位置为(x_t',h,y_t',h)的像素点在I_t'中的坐标位置为(x,y)，则

并对D_t'中与SP_t',h对应的区域中的每个像素点的像素值进行量化，得到D_t'中与SP_t',h对应的区域中的每个像素点的量化后的像素值，将D_t'中与SP_t',h对应的区域中坐标位置为(x_t',h,y_t',h)的像素点的量化后的像素值记为假设D_t'中与SP_t',h对应的区域中坐标位置为(x_t',h,y_t',h)的像素点在D_t'中的坐标位置为(x,y)，则

其中，1≤x_t',h≤W_t',h,1≤y_t',h≤H_t',h，W_t',h表示SP_t',h的宽度，H_t',h表示SP_t',h的高度，R_t'(x,y)表示I_t'中坐标位置为(x,y)的像素点的R分量的颜色值，G_t'(x,y)表示I_t'中坐标位置为(x,y)的像素点的G分量的颜色值，B_t'(x,y)表示I_t'中坐标位置为(x,y)的像素点的B分量的颜色值，D_t'(x,y)表示D_t'中坐标位置为(x,y)的像素点的像素值，符号为向下取整符号；

a2、根据SP_t',h中的每个像素点的量化后的R分量的颜色值和D_t'中与SP_t',h对应的区域中的每个像素点的量化后的像素值，计算SP_t',h的R分量的颜色-深度联合直方图，记为其中，表示SP_t',h中属于第k种R分量的颜色-深度组合的所有像素点的个数，R分量的颜色-深度组合为SP_t',h中的像素点的量化后的R分量的颜色值和D_t'中与SP_t',h对应的区域中的像素点的量化后的像素值构成的组合；

同样，根据SP_t',h中的每个像素点的量化后的G分量的颜色值和D_t'中与SP_t',h对应的区域中的每个像素点的量化后的像素值，计算SP_t',h的G分量的颜色-深度联合直方图，记为其中，表示SP_t',h中属于第k种G分量的颜色-深度组合的所有像素点的个数，G分量的颜色-深度组合为SP_t',h中的像素点的量化后的G分量的颜色值和D_t'中与SP_t',h对应的区域中的像素点的量化后的像素值构成的组合；

根据SP_t',h中的每个像素点的量化后的B分量的颜色值和D_t'中与SP_t',h对应的区域中的每个像素点的量化后的像素值，计算SP_t',h的B分量的颜色-深度联合直方图，记为其中，表示SP_t',h中属于第k种B分量的颜色-深度组合的所有像素点的个数，B分量的颜色-深度组合为SP_t',h中的像素点的量化后的B分量的颜色值和D_t'中与SP_t',h对应的区域中的像素点的量化后的像素值构成的组合；

a3、对和分别进行归一化操作，对应得到SP_t',h的归一化后的R分量的颜色-深度联合直方图、SP_t',h的归一化后的G分量的颜色-深度联合直方图和SP_t',h的归一化后的B分量的颜色-深度联合直方图，对应记为和其中，

a4、将以向量形式表示为将以向量形式表示为将以向量形式表示为然后将和按顺序进行排列构成SP_t',h的特征矢量f_t',h，其中，此处符号“[]”为矢量表示符号，f_t',h的维数为768。

所述的步骤⑤的具体过程为：

⑤-1、采用超像素分割技术将I_t分割成M个互不重叠的区域，将I_t中的第h个区域记为SP_t,h，其中，M≥1，h的初始值为1，1≤h≤M；

⑤-2、采用与步骤③-5中计算SP_t',h的特征矢量f_t',h相同的过程，计算I_t中的每个区域的特征矢量，将SP_t,h的特征矢量记为f_t,h；

⑤-3、计算I_t中的每个区域的显著值，将SP_t,h的显著值记为S_t,h，其中，exp()为以自然基数e为底的指数函数，α为控制参数，符号“|| ||”为求欧氏距离符号，表示取使得exp(-||f_t,h-g_m||)的值最小的m值，表示训练图像集的第m^*个聚类中心，为训练图像集的最优聚类中心，表示训练图像集的第m^*个聚类半径，为训练图像集的最优聚类半径，表示训练图像集的第m^*个聚类的置信值，为训练图像集的最优聚类的置信值；

⑤-4、将I_t中的每个区域的显著值作为该区域中的所有像素点的显著值，从而得到I_t的显著图S_t。

与现有技术相比，本发明的优点在于：

1)本发明方法通过获取训练图像集的不同聚类中心、不同聚类半径和不同聚类的置信值，对于任意一副测试的彩色图像，只需要通过简单的搜索就能得到跟踪的目标区域，具有较高的跟踪精度。

2)本发明方法根据训练图像集的最优聚类中心、最优聚类半径以及最优聚类的置信值，计算得到测试图像的显著图，得到的显著图能很好地反映显著对象信息，符合三维视觉显著语义特征。

3)本发明方法同时考虑彩色图像中的每个区域的R分量的颜色-深度联合直方图、G分量的颜色-深度联合直方图和B分量的颜色-深度联合直方图，并融合得到彩色图像中的每个区域的用于反映三维视觉显著性的特征矢量，符合三维视觉显著语义特征。

附图说明

图1为本发明方法的总体实现框图；

图2a为“bear”三维视频序列中的第1帧彩色图像；

图2b为“bear”三维视频序列中的第1帧深度图像；

图2c为“bear”三维视频序列中的第10帧目标跟踪结果；

图2d为“bear”三维视频序列中的第50帧目标跟踪结果；

图2e为“bear”三维视频序列中的第100帧目标跟踪结果；

图2f为“bear”三维视频序列中的第150帧目标跟踪结果；

图3a为“dog”三维视频序列中的第1帧彩色图像；

图3b为“dog”三维视频序列中的第1帧深度图像；

图3c为“dog”三维视频序列中的第10帧目标跟踪结果；

图3d为“dog”三维视频序列中的第50帧目标跟踪结果；

图3e为“dog”三维视频序列中的第100帧目标跟踪结果；

图3f为“dog”三维视频序列中的第150帧目标跟踪结果；

图4a为“face”三维视频序列中的第1帧彩色图像；

图4b为“face”三维视频序列中的第1帧深度图像；

图4c为“face”三维视频序列中的第10帧目标跟踪结果；

图4d为“face”三维视频序列中的第50帧目标跟踪结果；

图4e为“face”三维视频序列中的第100帧目标跟踪结果；

图4f为“face”三维视频序列中的第150帧目标跟踪结果；

图5a为“zcup_move”三维视频序列中的第1帧彩色图像；

图5b为“zcup_move”三维视频序列中的第1帧深度图像；

图5c为“zcup_move”三维视频序列中的第10帧目标跟踪结果；

图5d为“zcup_move”三维视频序列中的第50帧目标跟踪结果；

图5e为“zcup_move”三维视频序列中的第100帧目标跟踪结果；

图5f为“zcup_move”三维视频序列中的第150帧目标跟踪结果。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种三维视频目标跟踪方法，其总体实现框图如图1所示，其包括以下步骤：

①将待处理的原始三维视频序列定义为当前视频序列，假定当前视频序列中包含的彩色图像的总帧数和包含的深度图像的总帧数均为T，其中，T>1，T的具体值根据处理的原始三维视频序列而定。

②将当前视频序列中的前P帧彩色图像及前P帧彩色图像各自对应的深度图像按序构成训练图像集，其中，1≤P<T，在本实施例中取P＝10。

③获取训练图像集的所有聚类中心、所有聚类半径以及所有聚类各自的置信值，将训练图像集的第m个聚类中心、第m个聚类半径以及第m个聚类的置信值对应记为g_m、r_m、其中，m的初始值为1，1≤m≤K，K表示训练图像集的聚类的总个数，K≥1，在本实施例中取K＝10。

在此具体实施例中，步骤③的具体过程为：

③-1、手工标记训练图像集中的第1帧彩色图像I₁的目标区域，记为包含场景中最主要的运动对象，其位置和大小并不是固定的，由用户标记。

③-2、将训练图像集中当前待处理的第t'帧彩色图像定义为当前彩色图像，记为I_t'；并将训练图像集中与I_t'对应的深度图像定义为当前深度图像，记为D_t'；其中，在此t'的初始值为2，2≤t'≤P。

③-3、在I_t'中确定一个圆形搜索区域，圆形搜索区域的中心像素点的坐标位置与的中心像素点的坐标位置相同，且圆形搜索区域的半径为10个像素点；然后在圆形搜索区域上搜索与匹配的最佳匹配区域，将与匹配的最佳匹配区域作为I_t'的目标区域，记为其中，表示训练图像集中的第t'-1帧彩色图像I_t'-1的目标区域，表示在圆形搜索区域上与匹配的任一个匹配区域，的中心像素点为圆形搜索区域上的任一个像素点，即圆形搜索区域包含的像素点的总个数为与匹配的匹配区域的总个数，且的尺寸大小与的尺寸大小相同，的形状与的形状相同，表示在圆形搜索区域上与匹配的所有匹配区域的集合，1≤x≤W，1≤y≤H，1≤x'≤W，1≤y'≤H，W表示当前视频序列中的彩色图像和深度图像的宽，H表示当前视频序列中的彩色图像和深度图像的高，符号“||”为取绝对值符号，I_t'-1(x,y)表示训练图像集中的第t'-1帧彩色图像I_t'-1中坐标位置为(x,y)的像素点的像素值，I_t'(x',y')表示I_t'中坐标位置为(x',y')的像素点的像素值，表示取使得的值最小的一个匹配区域

③-4、令t'＝t'+1；然后将训练图像集中的第t'帧彩色图像作为当前彩色图像，记为I_t'；并将训练图像集中与I_t'对应的深度图像作为当前深度图像，记为D_t'；再返回步骤③-3继续执行，直至获得训练图像集中的每帧彩色图像的目标区域；其中，t'＝t'+1中的“＝”为赋值符号。

③-5、采用现有的超像素分割技术将训练图像集中的每帧彩色图像分割成M个互不重叠的区域，将I_t'中的第h个区域记为SP_t',h；然后计算训练图像集中的每帧彩色图像中的每个区域的特征矢量，将SP_t',h的特征矢量记为f_t',h；其中，M≥1，在本实施例中取M＝200，在此t'的初始值为1，1≤t'≤P，h的初始值为1，1≤h≤M。

其中，SP_t',h的特征矢量f_t',h的获取过程为：

其中，1≤x_t',h≤W_t',h,1≤y_t',h≤H_t',h，W_t',h表示SP_t',h的宽度，H_t',h表示SP_t',h的高度，R_t'(x,y)表示I_t'中坐标位置为(x,y)的像素点的R分量的颜色值，G_t'(x,y)表示I_t'中坐标位置为(x,y)的像素点的G分量的颜色值，B_t'(x,y)表示I_t'中坐标位置为(x,y)的像素点的B分量的颜色值，D_t'(x,y)表示D_t'中坐标位置为(x,y)的像素点的像素值，符号为向下取整符号。

a2、根据SP_t',h中的每个像素点的量化后的R分量的颜色值和D_t'中与SP_t',h对应的区域中的每个像素点的量化后的像素值，计算SP_t',h的R分量的颜色-深度联合直方图，记为其中，表示SP_t',h中属于第k种R分量的颜色-深度组合的所有像素点的个数，R分量的颜色-深度组合为SP_t',h中的像素点的量化后的R分量的颜色值和D_t'中与SP_t',h对应的区域中的像素点的量化后的像素值构成的组合。

同样，根据SP_t',h中的每个像素点的量化后的G分量的颜色值和D_t'中与SP_t',h对应的区域中的每个像素点的量化后的像素值，计算SP_t',h的G分量的颜色-深度联合直方图，记为其中，表示SP_t',h中属于第k种G分量的颜色-深度组合的所有像素点的个数，G分量的颜色-深度组合为SP_t',h中的像素点的量化后的G分量的颜色值和D_t'中与SP_t',h对应的区域中的像素点的量化后的像素值构成的组合。

根据SP_t',h中的每个像素点的量化后的B分量的颜色值和D_t'中与SP_t',h对应的区域中的每个像素点的量化后的像素值，计算SP_t',h的B分量的颜色-深度联合直方图，记为其中，表示SP_t',h中属于第k种B分量的颜色-深度组合的所有像素点的个数，B分量的颜色-深度组合为SP_t',h中的像素点的量化后的B分量的颜色值和D_t'中与SP_t',h对应的区域中的像素点的量化后的像素值构成的组合。

③-6、将由训练图像集中的所有彩色图像中的区域的特征矢量构成的集合定义为特征矢量集合；然后采用现有的Mean-shift聚类方法对特征矢量集合进行聚类操作，得到特征矢量集合的K个聚类，同时得到特征矢量集合的每个聚类中心和每个聚类半径，将特征矢量集合的第m个聚类作为训练图像集的第m个聚类，将特征矢量集合的第m个聚类中心作为训练图像集的第m个聚类中心g_m，将特征矢量集合的第m个聚类半径作为训练图像集的第m个聚类半径r_m；接着将训练图像集中的所有彩色图像中属于同一聚类的区域归为一类，将训练图像集中的所有彩色图像中属于第m个聚类的区域构成的集合记为其中，K表示特征矢量集合包含的聚类的总个数，K≥1，在本实施例中取K＝10，m的初始值为1，1≤m≤K。

④手工标记当前视频序列中的第1帧彩色图像的目标区域，该目标区域包含场景中最主要的运动对象，其位置和大小并不是固定的，由用户标记；然后将当前视频序列中当前待处理的第t帧彩色图像定义为当前彩色图像，记为I_t；并将当前视频序列中与I_t对应的深度图像定义为当前深度图像，记为D_t；其中，t的初始值为2，2≤t≤T。

在本实施例中，第1帧彩色图像的目标区域是手工标记的，从第2帧彩色图像开始进行目标跟踪，因此t≥2。

⑤采用现有的超像素分割技术将I_t分割成M个互不重叠的区域；然后根据训练图像集的最优聚类中心、最优聚类半径以及最优聚类的置信值，计算I_t中的每个区域的显著值；再将I_t中的每个区域的显著值作为该区域中的所有像素点的显著值，从而得到I_t的显著图，记为S_t；其中，M≥1，在本实施例中取M＝200。

在此具体实施例中，步骤⑤的具体过程为：

⑤-1、采用现有的超像素分割技术将I_t分割成M个互不重叠的区域，将I_t中的第h个区域记为SP_t,h，其中，M≥1，h的初始值为1，1≤h≤M。

⑤-2、采用与步骤③-5中计算SP_t',h的特征矢量f_t',h相同的过程，计算I_t中的每个区域的特征矢量，将SP_t,h的特征矢量记为f_t,h。

⑤-3、计算I_t中的每个区域的显著值，将SP_t,h的显著值记为S_t,h，其中，exp()为以自然基数e为底的指数函数，α为控制参数，在本实施例中取α＝2，符号“|| ||”为求欧氏距离符号，表示取使得exp(-||f_t,h-g_m||)的值最小的m值，表示训练图像集的第m^*个聚类中心，为训练图像集的最优聚类中心，表示训练图像集的第m^*个聚类半径，为训练图像集的最优聚类半径，表示训练图像集的第m^*个聚类的置信值，为训练图像集的最优聚类的置信值。

⑤-4、将I_t中的每个区域的显著值作为该区域中的所有像素点的显著值，即SP_t,h的显著值S_t,h作为SP_t,h中的所有像素点的显著值，从而得到I_t的显著图S_t。

⑥根据S_t获取I_t的目标区域，记为其中，表示I_t中与当前视频序列中的第t-1帧彩色图像I_t-1的目标区域的尺寸大小相同且形状相同的任一个区域，表示I_t中与当前视频序列中的第t-1帧彩色图像I_t-1的目标区域的尺寸大小相同且形状相同的所有区域的集合，S_t(x,y)表示S_t中坐标位置为(x,y)的像素点的像素值，S_t(x,y)亦表示I_t中坐标位置为(x,y)的像素点的显著值，1≤x≤W，1≤y≤H，W表示当前视频序列中的彩色图像和深度图像的宽，H表示当前视频序列中的彩色图像和深度图像的高，符号“||”为取绝对值符号，表示取使得的值最大的一个区域

⑦如果满足t≤P，则直接执行步骤⑧；如果满足t>P，则将I_t和D_t加入到训练图像集中，并删除训练图像集中的第1帧彩色图像和第1帧深度图像，得到更新后的训练图像集，然后采用与步骤③相同的操作，获取更新后的训练图像集的所有聚类中心、所有聚类半径以及所有聚类各自的置信值，再执行步骤⑧。

以下就利用本发明方法对普林斯顿大学提供的RGBD视频跟踪数据库中“bear”、“dog”、“face”和“zcup_move”四个视频序列的目标进行跟踪。图2a给出了“bear”三维视频序列中的第1帧彩色图像，图2b给出了“bear”三维视频序列中的第1帧深度图像，图2c给出了“bear”三维视频序列中的第10帧目标跟踪结果，图2d给出了“bear”三维视频序列中的第50帧目标跟踪结果，图2e给出了“bear”三维视频序列中的第100帧目标跟踪结果，图2f给出了“bear”三维视频序列中的第150帧目标跟踪结果；图3a给出了“dog”三维视频序列中的第1帧彩色图像，图3b给出了“dog”三维视频序列中的第1帧深度图像，图3c给出了“dog”三维视频序列中的第10帧目标跟踪结果，图3d给出了“dog”三维视频序列中的第50帧目标跟踪结果，图3e给出了“dog”三维视频序列中的第100帧目标跟踪结果，图3f给出了“dog”三维视频序列中的第150帧目标跟踪结果；图4a给出了“face”三维视频序列中的第1帧彩色图像，图4b给出了“face”三维视频序列中的第1帧深度图像，图4c给出了“face”三维视频序列中的第10帧目标跟踪结果，图4d给出了“face”三维视频序列中的第50帧目标跟踪结果，图4e给出了“face”三维视频序列中的第100帧目标跟踪结果，图4f给出了“face”三维视频序列中的第150帧目标跟踪结果；图5a给出了“zcup_move”三维视频序列中的第1帧彩色图像，图5b给出了“zcup_move”三维视频序列中的第1帧深度图像，图5c给出了“zcup_move”三维视频序列中的第10帧目标跟踪结果，图5d给出了“zcup_move”三维视频序列中的第50帧目标跟踪结果，图5e给出了“zcup_move”三维视频序列中的第100帧目标跟踪结果，图5f给出了“zcup_move”三维视频序列中的第150帧目标跟踪结果。从图2a至图5f可以看出，采用本发明方法得到的目标跟踪结果具有较高的跟踪精度。

Claims

1.一种三维视频目标跟踪方法，其特征在于包括以下步骤：

③获取训练图像集的所有聚类中心、所有聚类半径以及所有聚类各自的置信值，将训练图像集的第m个聚类中心、第m个聚类半径以及第m个聚类的置信值对应记为g_m、r_m、其中，m的初始值为1，1≤m≤K，K表示训练图像集的聚类的总个数，K≥1；

⑥根据S_t获取I_t的目标区域，记为其中，表示I_t中与当前视频序列中的第t-1帧彩色图像I_t-1的目标区域的尺寸大小相同且形状相同的任一个区域，表示I_t中与当前视频序列中的第t-1帧彩色图像I_t-1的目标区域的尺寸大小相同且形状相同的所有区域的集合，S_t(x,y)表示S_t中坐标位置为(x,y)的像素点的像素值，1≤x≤W，1≤y≤H，W表示当前视频序列中的彩色图像和深度图像的宽，H表示当前视频序列中的彩色图像和深度图像的高，符号“| |”为取绝对值符号，表示取使得的值最大的一个区域

2.根据权利要求1所述的一种三维视频目标跟踪方法，其特征在于所述的步骤③的具体过程为：

③-3、在I_t'中确定一个圆形搜索区域，圆形搜索区域的中心像素点的坐标位置与的中心像素点的坐标位置相同，且圆形搜索区域的半径为10个像素点；然后在圆形搜索区域上搜索与匹配的最佳匹配区域，将与匹配的最佳匹配区域作为I_t'的目标区域，记为其中，表示训练图像集中的第t'-1帧彩色图像I_t'-1的目标区域，表示在圆形搜索区域上与匹配的任一个匹配区域，的中心像素点为圆形搜索区域上的任一个像素点，且的尺寸大小与的尺寸大小相同，的形状与的形状相同，表示在圆形搜索区域上与匹配的所有匹配区域的集合，1≤x≤W，1≤y≤H，1≤x'≤W，1≤y'≤H，W表示当前视频序列中的彩色图像和深度图像的宽，H表示当前视频序列中的彩色图像和深度图像的高，符号“| |”为取绝对值符号，I_t'-1(x,y)表示训练图像集中的第t'-1帧彩色图像I_t'-1中坐标位置为(x,y)的像素点的像素值，I_t'(x',y')表示I_t'中坐标位置为(x',y')的像素点的像素值，表示取使得的值最小的一个匹配区域

③-6、将由训练图像集中的所有彩色图像中的区域的特征矢量构成的集合定义为特征矢量集合；然后采用Mean-shift聚类方法对特征矢量集合进行聚类操作，得到特征矢量集合的K个聚类，同时得到特征矢量集合的每个聚类中心和每个聚类半径，将特征矢量集合的第m个聚类作为训练图像集的第m个聚类，将特征矢量集合的第m个聚类中心作为训练图像集的第m个聚类中心g_m，将特征矢量集合的第m个聚类半径作为训练图像集的第m个聚类半径r_m；接着将训练图像集中的所有彩色图像中属于同一聚类的区域归为一类，将训练图像集中的所有彩色图像中属于第m个聚类的区域构成的集合记为其中，K表示特征矢量集合包含的聚类的总个数，K≥1，m的初始值为1，1≤m≤K；

3.根据权利要求2所述的一种三维视频目标跟踪方法，其特征在于所述的步骤③-5中SP_t',h的特征矢量f_t',h的获取过程为：

4.根据权利要求2或3所述的一种三维视频目标跟踪方法，其特征在于所述的步骤⑤的具体过程为：

⑤-3、计算I_t中的每个区域的显著值，将SP_t,h的显著值记为S_t,h，其中，exp()为以自然基数e为底的指数函数，α为控制参数，符号“|| ||”为求欧氏距离符号，表示取使得exp(-||f_t,h-g_m||)的值最小的m值，表示训练图像集的第m^*个聚类中心，也即为训练图像集的最优聚类中心，表示训练图像集的第m^*个聚类半径，也即为训练图像集的最优聚类半径，表示训练图像集的第m^*个聚类的置信值，也即为训练图像集的最优聚类的置信值；