CN103679186B

CN103679186B - 检测和跟踪目标的方法和装置

Info

Publication number: CN103679186B
Application number: CN201210332178.7A
Authority: CN
Inventors: 刘佳; 周青; 杨杰
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2012-09-10
Filing date: 2012-09-10
Publication date: 2017-04-05
Anticipated expiration: 2032-09-10
Also published as: CN103679186A

Abstract

本发明提供了一种检测和跟踪目标的方法和装置，该方法包括：针对视频序列的训练样本的图像片，提取旋转不变二进制特征，并且利用旋转不变二进制特征训练分类器，训练样本包括正样本和负样本，正样本来源于目标的图像片，负样本来源于背景的图像片，分类器用于将视频序列中的图像片分类为目标和背景；针对视频序列中的当前帧的图像片，提取旋转不变二进制特征，并且根据当前帧的图像片的旋转不变二进制特征，利用分类器检测目标，以获得目标在当前帧中的检测框，旋转不变二进制特征在图像片旋转的情况下保持不变。本技术方案可以在目标跟踪过程中采用基于旋转不变二进制特征的分类器进行目标检测，从而保证目标在进行旋转时也能被有效检测到。

Description

检测和跟踪目标的方法和装置

技术领域

本发明涉及视频监控技术领域，尤其是涉及一种检测和跟踪目标的方法和装置。

背景技术

在视频监控技术中，通常需要通过对视频图像序列中的运动目标进行检测和跟踪，获得运动目标的运动参数(例如，目标的质心位置、速度、加速度等)以及运动轨迹，以便进行进一步的处理和分析，以完成更高一级的任务，例如，摄相机在拍摄移动的目标时，可以根据检测和跟踪得到的目标的运动参数以及运动轨迹调整摄相机的转动和焦距。

对运动目标的检测通常被看作是一种分类器问题，即通过对每帧视频图像的检测，将每帧视频图像中的图像片(image patch)分类为目标(即前景)和背景。通常采用目标的描述子，即目标描述特征，对目标进行描述。在目标检测时，分类器可以根据提取的图像片的目标描述特征，将图像片标记为目标或是背景。

目前，已经提出了一种2比特二进制模式(2bit Binary Patterns，2bitBP)的描述子，2bitBP描述子度量了在图像的一个特定区域内的梯度方向，将这个方向进行量化，并且输出4种可能的编码形式。

然而，在被跟踪的目标旋转时，基于2bitBP特征的检测器可能无法检测出目标，这样，基于检测的跟踪就可能失效。

发明内容

本发明的实施例提供了一种检测和跟踪目标的方法和装置，能够在被跟踪的目标旋转的情况下有效检测出目标。

第一方面，提供了一种检测和跟踪目标的方法，包括：针对视频序列的训练样本的图像片，提取旋转不变二进制特征，并且利用该训练样本的图像片的旋转不变二进制特征训练分类器，其中该训练样本包括正样本和负样本，该正样本来源于该视频序列中的目标的图像片，该负样本来源于该视频序列中的背景的图像片，该分类器用于将该视频序列中的图像片分类为目标和背景；针对该视频序列中的当前帧的图像片，提取旋转不变二进制特征，并且根据该当前帧的图像片的旋转不变二进制特征，利用该分类器检测该目标，以获得该目标在该当前帧中的检测框，其中该旋转不变二进制特征在该图像片旋转的情况下保持不变。

在第一种可能的实现方式中，上述提取旋转不变二进制特征，包括：在该图像片中确定至少两个圆；分别计算上述至少两个圆中的每个圆的圆周上的多个点的像素平均值，以得到至少两个像素平均值；将上述至少两个像素平均值的大小关系作为该图像片的旋转不变二进制特征。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，上述在该图像片中确定至少两个圆，包括：在该图像片中随机选择至少两个点，并且以该图像片的中心为圆点，以该圆点到上述至少两个点的距离为半径分别确定至少两个圆；或者以该图像片的中心为圆点，以不同的预设长度为半径分别确定至少两个圆。

结合第一方面的第一种可能的实现方式或第二种可能的实现方式，在第三种可能的实现方式中，上述每个圆的圆周上的多个点等分该圆周或者上述每个圆的圆周上的多个点的位置被预先设置。

结合上述任何一种可能的实现方式，在第四种可能的实现方式中，该分类器为随机森林分类器，该随机森林分类器包括多个树，上述多个树中的每个树包括多个节点，上述提取旋转不变二进制特征，包括：针对每个节点提取该图像片的旋转不变二进制特征，其中上述利用该训练样本的图像片的旋转不变二进制特征训练分类器，包括：利用针对上述每个节点提取该训练样本的图像片的旋转不变二进制特征训练该分类器。

结合上述任何一种可能的实现方式，在第五种可能的实现方式中，该方法还包括：在该视频序列的初始帧中，根据目标框选择的图像片获得该正样本，并且根据该目标框之外的图像片获得该负样本，并且将该正样本和部分该负样本作为正图像片和负图像片保存在目标模型中；根据该目标在该视频序列中的前一帧中的目标框，利用视频序列跟踪算法跟踪该目标在该当前帧中的轨迹，以确定该目标在该当前帧中的跟踪框；综合该目标在该当前帧中的跟踪框和该检测框，以基于该目标模型确定该目标在该当前帧中的目标框。

结合上述任何一种可能的实现方式，在第六种可能的实现方式中，该方法还包括：在该视频序列的初始帧中，将该初始帧中的该目标框内的图像保存为模板图像，并提取该模板图像的多个第一尺度不变特征转换特征点；在该当前帧中，提取该当前帧中的目标框中的图像的多个第二尺度不变特征转换特征点，并且将上述多个第一尺度不变特征转换特征点与上述多个第二尺度不变特征转换特征点进行匹配；通过上述多个第一尺度不变特征转换特征点与上述多个第二尺度不变特征转换特征点中相互匹配的尺度不变特征转换特征点，建立仿射变换方程；根据该仿射变换方程对该当前帧中的目标框进行仿射变换，以获得包含旋转角度信息的目标框。

结合第一方面中的第六种可能的实现方式，在第七种可能的实现方式中，在跟踪该目标成功后，利用该训练样本的结构性约束条件对该训练样本进行更新，其中上述提取旋转不变二进制特征，包括：提取所更新的训练样本的旋转不变二进制特征，上述利用该训练样本的图像片的旋转不变二进制特征训练分类器，包括：利用该更新的训练样本的旋转不变二进制特征训练该分类器。

结合第一方面的第六种可能的实现方式或第七种可能的实现方式，在第八种可能的实现方式中，在跟踪该目标失败后，针对该视频序列的每一帧的图像片，提取旋转不变二进制特征，并且根据上述每一帧的图像片的旋转不变二进制特征，利用该分类器检测该目标，以在该目标再次出现在特定帧时获得该目标的第二检测框；计算第二检测框中的图像与该模板图像的相似度，在该相似度大于预设的阈值的情况下，提取第二检测框中的第三尺度不变特征转换特征点；通过上述多个第三尺度不变特征转换特征点与上述多个第一尺度不变特征转换特征点中相互匹配的尺度不变特征转换特征点，建立第二仿射变换方程；根据第二仿射变换方程对第二检测框进行仿射变换，以获得包含旋转角度信息的第二检测框；在仿射变换后的第二检测框上选择适当比例大小的第二目标框，并且将第二目标框中的图像作为新的模板图像。

第三方面提供了一种检测和跟踪目标的装置，包括：提取模块，用于针对视频序列的训练样本的图像片，提取旋转不变二进制特征，并且针对该视频序列中的当前帧的图像片，提取旋转不变二进制特征；学习模块，用于利用该训练样本的图像片的旋转不变二进制特征训练分类器，其中该训练样本包括正样本和负样本，该正样本来源于该视频序列中的目标的图像片，该负样本来源于该视频序列中的背景的图像片，该分类器用于将该视频序列中的图像片分类为目标和背景；检测模块，根据该当前帧的图像片的旋转不变二进制特征，利用该分类器检测该目标，以获得该目标在该当前帧中的检测框，其中该旋转不变二进制特征在该图像片旋转的情况下保持不变。

在第一种可能的实现方式中，该提取模块在提取旋转不变二进制特征时，在该图像片中确定至少两个圆，分别计算上述至少两个圆中的每个圆的圆周上的多个点的像素平均值，以得到至少两个像素平均值，并且将上述至少两个像素平均值的大小关系作为该图像片的旋转不变二进制特征。

结合第二方面的第一种可能的实现方式，在第二种可能的实现方式中，该提取模块在确定上述至少两个圆时，在该图像片中随机选择至少两个点，并且以该图像片的中心为圆点，以该圆点到上述至少两个点的距离为半径分别确定至少两个圆；或者以该图像片的中心为圆点，以不同的预设长度为半径分别确定至少两个圆。

结合第二方面的第一种可能的实现方式或第二种可能的实现方式，在第三种可能的实现方式中，上述每个圆的圆周上的多个点等分该圆周或者上述每个圆的圆周上的多个点的位置被预先设置。

结合第二方面的上述任何一种可能的实现方式，在第四种可能的实现方式中，该分类器为随机森林分类器，该随机森林分类器包括多个树，上述多个树中的每个树包括多个节点，该提取模块针对每个节点提取该图像片的旋转不变二进制特征，该学习模块利用针对上述每个节点提取该训练样本的图像片的旋转不变二进制特征训练该分类器。

结合第二方面的上述任何一种可能的实现方式，在第五种可能的实现方式中，该检测模块还用于在该视频序列的初始帧中，根据目标框选择的图像片获得该正样本，并且根据该目标框之外的图像片获得该负样本，并且将该正样本和部分该负样本作为正图像片和负图像片保存在目标模型中，该装置还包括：跟踪模块，用于根据该目标在该视频序列中的前一帧中的目标框，利用视频序列跟踪算法跟踪该目标在该当前帧中的轨迹，以确定该目标在该当前帧中的跟踪框；综合模块，用于综合该目标在该当前帧中的跟踪框和该检测框，以基于该目标模型确定该目标在该当前帧中的目标框。

结合第二方面的第五种可能的实现方式，在第六种可能的实现方式中，还包括：验证估计模块，用于在该视频序列的初始帧中，将该初始帧中的该目标框内的图像保存为模板图像，并提取该模板图像的多个第一尺度不变特征转换特征点；在该当前帧中，提取该当前帧中的目标框中的图像的多个第二尺度不变特征转换特征点，并且将上述多个第一尺度不变特征转换特征点与上述多个第二尺度不变特征转换特征点进行匹配；通过上述多个第一尺度不变特征转换特征点与上述多个第二尺度不变特征转换特征点中相互匹配的尺度不变特征转换特征点，建立仿射变换方程；根据该仿射变换方程对该当前帧中的目标框进行仿射变换，以获得包含旋转角度信息的目标框。

结合第二方面的第六种可能的实现方式，在第七种可能的实现方式中，该学习模块还用于在跟踪该目标成功后，利用该训练样本的结构性约束条件对该训练样本进行更新，该提取模块提取所更新的训练样本的旋转不变二进制特征，该学习模块利用该更新的训练样本的旋转不变二进制特征训练该分类器。

结合第二方面的第六种可能的实现方式或第七种可能的实现方式，在第八种可能的实现方式中，该检测模块还用于在跟踪该目标失败后，针对该视频序列的每一帧的图像片，提取旋转不变二进制特征，并且根据上述每一帧的图像片的旋转不变二进制特征，利用该分类器检测该目标，以在该目标再次出现在特定帧时获得该目标的第二检测框；计算第二检测框中的图像与该模板图像的相似度，在该相似度大于预设的阈值的情况下，提取第二检测框中的第三尺度不变特征转换特征点；通过上述多个第三尺度不变特征转换特征点与上述多个第一尺度不变特征转换特征点中相互匹配的尺度不变特征转换特征点，建立第二仿射变换方程；根据第二仿射变换方程对第二检测框进行仿射变换，以获得包含旋转角度信息的第二检测框；在仿射变换后的第二检测框上选择适当比例大小的第二目标框，并且将第二目标框中的图像作为新的模板图像。

本技术方案可以在目标跟踪过程中采用基于旋转不变二进制特征的分类器进行目标检测，从而保证目标在进行旋转时也能被有效检测到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明一个实施例的检测和跟踪目标的方法的示意性流程图。

图2是根据本发明的一个实施例的提取旋转不变二进制特征的过程的示意图。

图3A是根据本发明的另一实施例的提取旋转不变二进制特征的方法的示意性流程图。

图3B是根据本发明的另一实施例的提取旋转不变二进制特征的方法的示意性流程图。

图4是根据本发明的另一实施例的TLDV系统框架的示意图。

图5是根据本发明的另一实施例的基于旋转不变二进制特征的随机森林分类器进行训练和检测的过程的示意图。

图6是根据本发明的另一实施例的实现旋转角度估计的过程的示意图。

图7是根据本发明的一个实施例的检测和跟踪的装置的示意性框图。

图8是根据本发明的另一实施例的检测和跟踪的装置的示意性框图。

图9是根据本发明的另一实施例的提取旋转不变二进制特征的装置的结构性示意图。

图10是根据本发明的另一实施例的检测和跟踪目标的装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在基于检测的跟踪方案中，为了在跟踪时更新检测器，需要对检测器进行重新训练(或学习)，包括对检测器中的分类器进行离线训练或在线训练。在目标检测过程中，可以利用分类器将视频序列的每帧图像的图像片标记为目标或是背景。一个目标通常在每帧图像中具有一定的位置，而目标在视频序列的每帧图像中的位置可以定义为轨迹。所有离轨迹很近(例如，距轨迹的距离小于预设的值)的图像片拥有正标记，即为正样本，而远离轨迹(例如，距轨迹的距离大于预设的值)的图像片拥有负标记，即为负样本。已被标记的样本称为训练样本，用于训练分类器，而当前帧中未被标的样本称为测试样本，用于经过检测器中的分类器分类后确定当前帧中的目标的位置，例如，在每帧图像中确定目标的目标框。在本发明的实施例中，跟踪框、检测框和目标框表示目标所在位置和尺度大小的目标边框，不同的是，跟踪框由跟踪器得到，检测框由检测器得到，而目标框用输入设备选中或者由检测器和跟踪器的结果综合确定。

跟踪学习检测器(Tracking learning Detector，TLD)算法是一种基于跟踪、学习和检测的长时跟踪算法，它将检测器与跟踪器结合在一起，并且能够在线对跟踪结果进行评估和学习。在TLD算法中，在跟踪前，可以在初始帧中用目标框(例如，矩形框)选择待跟踪的目标，并且将该目标框作为跟踪器和检测器的初始跟踪框或初始检测框。其后，跟踪器和检测并行工作，综合估计目标的位置。另外，还可以利用学习器实时更新跟踪器和检测器，使得跟踪器和检测器能够进行在线学习，从而获得更好的跟踪和检测效果。

已经提出了一种新的基于正负约束条件的半监督在线学习框架。该学习框架利用2bitBP特征训练检测器中的分类器，并且利用一些结构性约束来重新训练二类分类器。这种分类器和训练分类器的方法已被应用到视频跟踪领域。该方法具有较好的跟踪性能，但分类器采用的2bitBP特征不具有旋转不变性。因此，当目标旋转角度过大时，训练的分类器无法定位目标。同时该检测器仅仅给出了目标的位置信息，并没有给出目标的旋转角度和姿态的估计信息。

图1是根据本发明一个实施例的检测和跟踪目标的方法的示意性流程图。图1的方法包括如下内容。

110，针对视频序列的训练样本的图像片，提取旋转不变二进制特征，并且利用该训练样本的图像片的旋转不变二进制特征训练分类器，其中该训练样本包括正样本和负样本，该正样本来源于该视频序列中的目标的图像片，该负样本来源于该视频序列中的背景的图像片，该分类器用于将该视频序列中的图像片分类为目标和背景。

120，针对该视频序列中的当前帧的图像片，提取旋转不变二进制特征，并且根据该当前帧的图像片的旋转不变二进制特征，利用该分类器检测该目标，以获得该目标在该当前帧中的检测框，其中该旋转不变二进制特征在该图像片旋转的情况下保持不变。

例如，视频序列可以是各种视频设备(例如，摄相机)获得的连续多帧的图像。根据本发明的实施例的分类器可以是随机森林分类器，根据本发明的实施例并不限于此，也可以使用其它随机分类器。

例如，二进制特征是指该特征的值可以用1和0来表示。旋转不变二进制特征是指在图像片旋转之后，该图像片的二进制特征的值仍然为1或0。例如，由某个图像片的两个圆的圆周上的像素平均值的大小关系在图像片旋转之后保持不变，即该根据图像片的上述两个圆的圆周上的像素平均值的大小关系确定的二进制特征为旋转不变二进制特征。根据本发明的实施例并不限于此，也可以使用其它形式的旋转不变二进制特征。

根据本发明的实施例首先提取训练样本集中的图像片的旋转不变二进制特征，使用这些旋转不变二进制特征对分类器进行训练或学习，得到基于旋转不变二进制特征的分类器，并且使用这种分类器对当前帧中的图像片进行分类，以检测出目标框。由于该旋转不变二进制特征在该图像片旋转的情况下保持不变，因此，可以在目标旋转的情况下有效检测出目标。

根据本发明的实施例可以在目标跟踪过程中采用基于旋转不变二进制特征的分类器进行目标检测，从而保证目标在进行旋转时也能被有效检测到。

根据本发明的实施例，在提取旋转不变二进制特征时，可以在该图像片中确定至少两个圆；分别计算上述至少两个圆中的每个圆的圆周上的多个点的像素平均值，以得到至少两个像素平均值；将上述至少两个像素平均值的大小关系作为该图像片的旋转不变二进制特征。

例如，可以比较第一圆的圆周上的多个像素平均值与第二圆的圆周上的多个像素平均值的大小关系，并且比较结果得到具有取值1和0的旋转不变二进制特征。

根据本发明的实施例，在该图像片中确定至少两个圆时，可以在该图像片中随机选择至少两个点，并且以该图像片的中心为圆点，以该圆点到上述至少两个点的距离为半径分别确定至少两个圆。

例如，上述至少两个圆可以为同心圆，并且这些同心同的圆心可以为图像片的中心。根据本发明的实施例并不限于此，例如，上述至少两个圆的圆心可以为该图像片中的其它位置，只要能够使该二进制特征具有旋转不变的特性即可。

可选地，作为另一实施例，在该图像片中确定至少两个圆时，可以以该图像片的中心为圆点，以不同的预设长度为半径分别确定至少两个圆。

换句话说，上述至少两个圆的半径可以是随机选择的，也可以是预先设置的。

根据本发明的实施例，上述每个圆的圆周上的多个点等分该圆周或者上述每个圆的圆周上的多个点的位置被预先设置。

根据本发明的实施例，该分类器为随机森林分类器，该随机森林分类器包括多个树，在110中，可以针对每个节点提取该图像片的旋转不变二进制特征，并且利用针对上述每个节点提取的旋转不变二进制特征训练该分类器。

例如，可以针对多个树的每个节点提取同一图像片的旋转不变二进制特征，即不同的节点对应于不同的旋转不变二进制特征。例如，针对第一节点的旋转不变二进制特征的两个圆的半径可以不同于针对第二节点的两个圆的旋转不变二进制特征。

可选地，作为另一实施例，图1的方法还包括：在该视频序列的初始帧中，根据目标框选择的图像片获得该正样本，根据该目标框之外的图像片获得该负样本，并且将该正样本和部分该负样本作为正图像片和负图像片保存在目标模型中；根据该目标在该视频序列中的前一帧中的目标框，利用视频序列跟踪算法跟踪该目标在该当前帧中的轨迹，以确定该目标在该当前帧中的跟踪框；综合该目标在该当前帧中的跟踪框和该检测框，以基于该目标模型确定该目标在该当前帧中的目标框。

根据本发明的实施例，跟踪器可以采用光流估计跟踪算法(例如，Lucas-Kanade跟踪算法)实现对目标的跟踪。根据本发明的实施例并不限于此，根据本发明的跟踪器也可以采用其它跟踪算法，例如，粒子滤波算法、均值偏移算法(Mean Shift)算法等。

例如，负图像片可以根据常规的算法从负样本中选取。例如，在综合确定目标框时，可以将跟踪框和检测框中与目标模型中的正图像相似度最大者作为目标框。

可选地，作为另一实施例，图1的方法还包括：在该视频序列的初始帧中，将该初始帧中的该目标框内的图像保存为模板图像，并提取该模板图像的多个第一尺度不变特征转换(Scale-invariant feature transform，SIFT)特征点；在该当前帧中，提取该当前帧中的目标框中的图像的多个第二尺度不变特征转换特征点，并且将上述多个第一尺度不变特征转换特征点与上述多个第二尺度不变特征转换特征点进行匹配；通过上述多个第一尺度不变特征转换特征点与上述多个第二尺度不变特征转换特征点中相互匹配的尺度不变特征转换特征点，建立仿射变换方程；根据该仿射变换方程对该当前帧中的目标框进行仿射变换，以获得包含旋转角度信息的目标框。

可选地，作为另一实施例，图1的方法还包括：在跟踪该目标成功后，利用该训练样本的结构性约束条件对该训练样本进行更新，其中在110中，可以提取所更新的训练样本的旋转不变二进制特征，并且利用该更新的训练样本的旋转不变二进制特征训练该分类器。

上述跟踪成功可以指跟踪器跟踪到了目标，即输出了跟踪框。

上述结构性约束条件可以指在每个视频帧中，目标只可能出现在一个区域，而相邻视频帧之间目标区域是连续的，即构成了目标的运动轨迹。结构性约束条件包括：正样本的约束条件(简称正约束，Positive Constraint)和负样本的约束条件(简称为负约束，Negative Constraint)。正约束使得那些被检测器检测为背景但是与跟踪轨迹近的图像片重新标定为正样本，负约束将检测器检测为目标但是与跟踪轨迹远的图像片标定为负样本。例如，采用PN学习(PN learning)方法对分类器的分类结果进行评估，确定分类结果与结构性约束条件矛盾的样本，重新调整训练样本集，并进行重复迭代训练，直到某个条件满足，才停止分类器训练过程。

可选地，作为另一实施例，图1的方法还包括：在跟踪该目标失败后，针对该视频序列的每一帧的图像片，提取旋转不变二进制特征，并且根据上述每一帧的图像片的旋转不变二进制特征，利用该分类器检测该目标，以在该目标再次出现在特定帧时获得该目标的第二检测框；计算第二检测框中的图像与该模板图像的相似度，在该相似度大于预设的阈值的情况下，提取第二检测框中的第三尺度不变特征转换特征点；通过上述多个第三尺度不变特征转换特征点与上述多个第一尺度不变特征转换特征点中相互匹配的尺度不变特征转换特征点，建立第二仿射变换方程；根据第二仿射变换方程对第二检测框进行仿射变换，以获得包含旋转角度信息的第二检测框；在仿射变换后的第二检测框上选择适当比例大小的第二目标框，并且将第二目标框中的图像作为新的模板图像。

图2是根据本发明的一个实施例的提取旋转不变二进制特征的方法的流程图。图2的方法对应于图1的实施例中的提取旋转不变二进制特征的方法，在此不再赘述。图2的方法包括如下内容。

210，在图像片中确定至少两个圆。

220，分别计算上述至少两个圆中的每个圆的圆周上的多个点的像素平均值，以得到至少两个像素平均值。

230，将上述至少两个像素平均值的大小关系作为该图像片的旋转不变二进制特征。

根据本发明的实施例可以提取图像片的至少两个圆的像素平均值的大小关系作为分类器的二进制特征，由于这种大小关系可以在图像片旋转时保持不变，从而得到了一种具有旋转不变性的二进制特征。

在210中，可以在该图像片中随机选择至少两个点，并且以该图像片的中心为圆点，以该圆点到上述至少两个点的距离为半径分别确定至少两个圆。

可选地，作为另一实施例，可以以该图像片的中心为圆点，以不同的预设长度为半径分别确定至少两个圆。

图3A是根据本发明的另一实施例的提取旋转不变二进制特征的过程的示意图。

与2bitBP特征不同的是，本发明的实施例所提取的二进制特征是具有一定的旋转不变性的二进制特征。为了在目标检测过程中实现快速的特征提取，本发明的实施例采用旋转不变二进制特征作为随机森林FERN(蕨)分类器的特征。该旋转不变二进制特征的提取过程如下：

首先，在图像片300中随机选取两个特征点：特征点310和特征点320。在初始化时，这两个特征点是随机选取的，并且在根据本发明的实施例的分类器的训练过程中，特征点的位置保持不变。

其次，以图像片300的中心点为圆心，以这两个特征点到中心点的距离为半径画圆，取各个圆周上的12个平分点，分别计算各个圆周上12个平分点的像素平均值310和像素平均值320，如需提高检测准确率，可以增加圆周上提取的点数，例如，可以取圆周上的24个平分点的像素平均值。

最后，根据这两个像素平均值的关系，确定最终的旋转不变二进制特征f，例如，如果像素平均值310>像素平均值320，则f＝1，否则f＝0。可选地，如果像素平均值310<像素平均值320，则f＝1，否则f＝0。

图3B是根据本发明的另一实施例的提取旋转不变二进制特征的过程的示意图。与图3A的实施例不同的是，在提取旋转不变二进制特征时，选择的特征点的数目不同。

首先，在图像片300中随机选取三个特征点：特征点310、特征点320和特征点330。在初始化时，这三个特征点是随机选取的，并且在根据本发明的实施例的分类器的训练过程中，特征点的位置保持不变。

其次，以图像片300的中心点为圆心，以这三个特征点到中心点的距离为半径画圆，取各个圆周上的12个平分点，分别计算各个圆周上12个平分点的像素平均值310、像素平均值320和像素平均值330。如需提高检测准确率，可以增加圆周上提取的点数，例如，可以取圆周上的24个平分点的像素平均值。

最后，根据这三个像素平均值的关系，确定最终的旋转不变二进制特征f，例如，如果像素平均值310>像素平均值320且像素平均值320>像素平均值330，则f＝1，否则f＝0。可选地，如果像素平均值310<像素平均值320且像素平均值320<像素平均值330，则f＝1，否则f＝0。根据本发明的实施例并不限于此，可以采用更多的特征点，也可以基于更多的像素平均值的大小关系来确定旋转不变二进制特征。

当图像片300旋转一定的角度时，根据本发明的实施例的的像素平均值的大小关系保持不变，因此，由上述像素平均值的大小关系确定的特征具有一定的旋转不变性。根据本发明的实施例利用上述旋转不变二进制特征，使得不同角度下的目标都能被有效检测出。

与2bitBP特征相比，根据本发明的旋转不变二进制特征具有以下特点：

1)具有旋转不变性。本发明的实施例的二进制特征具有一定的旋转不变性，可以用于提高目标旋转一定角度下的检测率。

2)计算方法简单，空间复杂度低。与2bitBP特征每一个节点输出2比特信息相比，本发明的实施例的旋转不变二进制特征仅仅输出1比特信息。在对分类器进行训练时，随着随机森林的数目的增加或树(例如，FERN)的节点的数量增加，采用2bitBP特征比采用本发明的实施例的旋转不变二进制特征占用的空间更多。例如，如果FERN的个数为K，每个FERN的深度为d的话，一个2bitBP特征的输出具有4个可能值，每一个FERN的叶子节点输出的数目为4^d。而本发明的实施例的旋转不变二进制特征的输出为2个可能值，因此每一个FERN的叶子节点输出的数目为2^d。因此，采用根据本发明的实施例的旋转不变二进制特征可以节省存储空间，尤其在分类器的树或节点的数目较多时，可以节省大量的存储空间。

图4是根据本发明的另一实施例的TLDV系统框架的示意图。

根据本发明的实施例是在常规TLD在线跟踪框架的基础上改进的在线学习跟踪框架，即采用了旋转不变二进制特征进行分类器的训练，并且增加了旋转估计的功能，用于给出目标的仿射变换信息。根据本发明的实施例的检测和跟踪方法包含跟踪(Tracking)、学习(Learning)、检测(Detection)和验证(Validating)等功能，这里简称为TLDV在线跟踪框架。

在本实施例中，采用实时性较好的光流跟踪器进行目标跟踪，利用基于随机森林FERN的检测器进行目标检测，同时利用PN学习框架更新检测器。下面结合TLDV系统框架来说明检测和跟踪的基本流程。

1)初始化检测器430和跟踪器440。在TLDV系统框架正式工作之前，可以对检测器430和跟踪器440的各个参数进行初始化，例如，初始化扫描窗口的步长和扫描窗口的缩放因子等等。例如，扫描窗口的参数可以设置如下：垂直方向的步长设置为窗口高度的5％，水平方向步长设置为窗口宽度的5％，缩放因子设置为1.1。

2)在视频序列410的初始帧，使用初始目标框(例如，矩形框)选择目标，并且针对所选的目标，利用旋转不变特征提取器420提取旋转不变二进制特征。例如，视频设备的用户需要跟踪目标时，可以首先通过视频设备的输入设备选择该目标的目标框。

3)学习模块431基于上述旋转不变二进制特征对随机森林FERN分类器进行训练。具体的训练过程在图6的实施例中描述，在此不再赘述。

4)学习模块431将初始目标框中的图像片作为正图像片，将背景图像片作为负图像片保存在目标模型中。

5)针对初始目标框选择的初始目标位置，检测模块432提取目标的SIFT特征作为初始模板图像或者将目标框中的图像作为初始模板图像，并且提取SIFT特征。

6)在后续的视频帧中，利用检测模块432检测目标，以向综合器460输出检测框。具体而言，检测器430采用扫描窗口对每个视频帧进行扫描处理，每次扫描一个图像片(imagepatch)，并且使用上述随机森林分类器对每个图像片进行分类，以确定该图像片是否包含待检测的目标。换句话说，对每一帧图像进行全图搜索以检测或定位目标可能出现的区域。具体的检测过程在图6的实施例中描述，在此不再赘述。

进一步，还可以对将分类器得到的目标的图像片与目标模型进行比较，并且在两者的相似度大于某个阈值时，确定该图像片中包含目标。

7)在后续的视频帧中，同时利用跟踪器440跟踪目标，以输出跟踪框。具体而言，在当前帧，跟踪器440可以采用光法跟踪算法，根据上一帧图像中的目标框获得目标在当前帧的位置。例如，可以将目标框中的像素点作为初始特征点，并且利用光流法在相邻的两个视频帧中寻找上一帧的若干特征点在当前帧中的位置。

另外，跟踪器的信任度根据跟踪到的目标的图像片与初始帧选择的图像片之间的相似度来进行度量。当前帧上跟踪到的目标的图像与在初始帧选择的图像拥有大于80％的相似度时，目标在该帧中的轨迹被认为是正确或有效的。当这个轨迹被认为是有效时，将会触发P-N学习的结构性约束条件，从而开始利用数据的结构信息(例如，跟踪得到的轨迹)，进行检测器的更新和学习。

8)结合PN学习的结构性约束条件实现检测器430的更新。具体而言，检测器430检测出多个目标图像片和很多背景图像片，检测器得到的结果可能会有错误，所以需要利用PN约束来修正这些检测结果。例如，可以对检测器430检测出的负样本进行P约束，使得那些被检测器430检测为背景但是与跟踪器440的确定的跟踪轨迹近的图像片重新标定为正样本。N约束将检测器430检测为目标但是与跟踪轨迹远的图像片标定为负样本。按照分类盈余选择部分正样本和负样本加入到目标模型中，用以重新训练检测器430中的分类器，从而实现分类器的更新。

9)利用综合器460综合跟踪器440输出的跟踪框和检测器430输出的检测框，以输出目标框。具体而言，综合器460分析检测框与跟踪框，将与目标模型相比具有最大可能性的那个所在的位置，作为目标框。如果检测器未得到检测框且跟踪器未得到跟踪框，则综合器460认为被跟踪目标没有出现在当前帧中，跟踪失败。

10)在每一帧，利用验证估计器470，给出目标框旋转角度信息，并且根据目标框旋转角度信息对综合器460得到的目标框进行旋转，输出最终的目标框480。具体而言，可以针对该目标框内的图像提取SIFT特征，与上述模板图像提取的SIFT特征进行匹配，得到仿射矩阵，从而获取目标的旋转信息，即得到一个经过仿射变换的目标框，并且用当前帧的目标框内的图像取代初始模板图像。具体的验证估计过程参见对图6的实施例的描述，在此不再赘述。

由于本发明利用了检测器、跟踪器以及验证估计器，使得跟踪过程可以有效处理目标丢失后再出现的情况，对于这种情况而言，重要的是如何进行发现目标的初始化跟踪，具体过程如下：

1)当跟踪目标失败(即目标在摄像机的视野中丢失)后，在视频序列410的每一帧，利用检测器430对该帧进行目标检测。具体而言，可以针对该视频序列的每一帧的图像片，提取旋转不变二进制特征，并且根据该帧的图像片的旋转不变二进制特征，利用分类器检测该目标，以便在目标再次出现在特定帧时获得目标的检测框。

2)当检测器430检测到目标(即检测到检测框)时，利用检测器430计算检测到的检测框中的图像片与上述目标模型的相似度。如果该相似度大于预设的阈值，则提取该检测框中的SIFT特征点，利用验证估计器470得到修正后的检测框，即包含旋转角度信息的检测框。具体的验证估计过程参见对图6的实施例的描述，在此不再赘述。

3)在修正后的检测框上选择适当比例大小的初始目标框，并将初始目标框中的图像作为新的模板图像用于跟踪器440对目标进行跟踪。适当比例大小是指修正后的检测框大小(例如，长和宽的大小)比例与目标模型的大小(例如，正图像片的长和宽的大小)比例一致或接近一致。

4)基于更新后的模板图像和初始目标框，按照TLDV系统框架进行在线跟踪和检测。

图5是根据本发明的另一实施例的基于旋转不变二进制特征的随机森林分类器进行训练和检测的过程的示意图。图5给出了如何利用旋转不变特征进行随机森林分类器的训练和检测的过程。图中FERN分类器由三个FERN(FERN 1、FERN2和FERN3)构成，每个FERN有3个节点(例如，节点1、节点2和节点3)。在本发明的上述实施例中使用FERN分类器作为检测器，Fern分类器具有稳健的分类能力，能有效的处理目标检测问题，同时具有结构简单，计算效率高的特点。

参见图5，给定图像中特征点周围的图像片，检测的任务是将它赋予最可能的类别。设c_i，i＝1,…,H是类的标记集合。本发明的实施例只关心前景和背景，因此H＝2，f_j，j＝1,...N是二进制特征的集合，该二进制特征是在图像片上提取旋转不变特征得到的。检测的目标是将特征分类到后验概率最大的类别中：

其中C是表示类别的随机变量。根据贝叶斯公式：

假定先验P(C)服从均匀分布，因为分母是一个独立于类别的标量，问题变为求解下面的问题(使得类条件概率最大)：

在分类器的训练阶段，需要得到每一个FERN(记为F_m)和类别c_i的类条件概率P(F_m|C＝c_i)。对每一个FERN：

针对本发明实施例的跟踪问题，c₁表示背景，而c₂表示目标前景。其中，k为二进制特征(每一个FERN可以得到一个长度为d的二进制值，其中d为FERN的深度，即节点个数)对应的值。由此可知这些FERN的直方图一共有K＝2^d个取值，对其中的每一个值都要计算限制约束条件为最简单的方法是从训练样本中给出参数的最大似然估计，即：

其中，是类别为c_i的样本计算得到的FERN值为k的个数。是所有类别为c_i的样本个数。每一个FERN使用的特征的位置是预先随机产生的，并且在整个学习过程中保持不变。分布表示了分类器内在的参数，并且在学习过程中不断的递增。每一个叶子节点记录了正样本和负样本落到训练集中的个数。

在本发明的实施例的TLDV系统框架中，另一个重要的改进是引入了用于对目标的姿态进行验证和估计的验证估计器，能够给出变换后的目标框的位置以及角度，使得跟踪的最终结果更加精准。一般而言，假设目标的旋转可以用仿射变换来表征。本发明的实施例利用SIFT描述子的匹配关系，在跟踪过程中，通过当前帧的目标框中的SIFT特征点与初始帧的目标框中的SIFT特征点的匹配，估计出仿射变换矩阵，然后采用该仿射变换矩阵对综合跟踪器和检测器得到的目标框进行仿射变换，得到最终的目标框。验证估计器的具体工作流程如下。

610，在初始帧，根据目标框选择待跟踪的目标，并将目标框中的图像片保存为模板图像，并且计算模板图像的SIFT特征点，记为X’。

620，在当前帧，根据检测器和跟踪器的输出得到当前目标的位置(例如，目标框)，同时提取当前目标的图像片的SIFT特征点，记为X。

630，利用SIFT匹配算法，进行SIFT特征点的匹配。

640，通过SIFT特征点的匹配得到匹配的点对。例如，选取n(n>＝3)个匹配的点对，并将这些匹配的点对分别表示为Y’和Y。

650，根据仿射变换的定义，求解仿射变换矩阵参数，即根据下式计算：

其中，H_A是仿射变换矩阵，A是2*2的非奇异矩阵，t是二维平移矢量，平面仿射变换具有6个自由度，对应于6个矩阵元素，可以由3组匹配的点对得到。

660，基于上述仿射变换方程计算得到目标的旋转角度。

670，计算根据跟踪器和检测器的结果综合得到的当前目标框的四个顶点位置，并且根据上述旋转角度对这四个顶点位置变换得到四个新的顶点位置，这个四个新的顶点位置构成的目标框即为最终目标框，该最终目标框的位置即为当前目标的最终输出位置。

通过本发明的实施例的验证和估计的方法，可以有效估计出当前跟踪目标的旋转角度信息。而本发明的实施例的验证估计器简单、稳定、对图像预处理要求低，同时能够处理较大角度的旋转。

上面描述了根据本发明的实施例的检测和跟踪的方法，下面结合图7、图8和图9描述根据本发明的实施例的检测和跟踪的装置。

图7是根据本发明的一个实施例的检测和跟踪的装置700的示意性框图。图8的方法与图1的方法相对应，在此不再赘述。装置700包括提取模块710、学习模块720和检测模块730。

提取模块710针对视频序列的训练样本的图像片，提取旋转不变二进制特征，并且针对该视频序列中的当前帧的图像片，提取旋转不变二进制特征。学习模块720利用该训练样本的图像片的旋转不变二进制特征训练分类器，其中该训练样本包括正样本和负样本，该正样本来源于该视频序列中的目标的图像片，该负样本来源于该视频序列中的背景的图像片，该分类器用于将该视频序列中的图像片分类为目标和背景。检测模块730根据该当前帧的图像片的旋转不变二进制特征，利用该分类器检测该目标，以获得该目标在该当前帧中的检测框，其中该旋转不变二进制特征在该图像片旋转的情况下保持不变。

图8是根据本发明的另一实施例的检测和跟踪的装置800的示意性框图。图8的方法与图1的方法相对应，在此不再赘述。装置800包括提取模块810、学习模块820和检测模块830，与图7的装置700的提取模块710、学习模块720和检测模块730类似，在此适当省略详细的描述。

根据本发明的实施例，提取模块810在提取旋转不变二进制特征时，在该图像片中确定至少两个圆，分别计算上述至少两个圆中的每个圆的圆周上的多个点的像素平均值，以得到至少两个像素平均值，并且将上述至少两个像素平均值的大小关系作为该图像片的旋转不变二进制特征。

根据本发明的实施例，提取模块810在确定上述至少两个圆时，在该图像片中随机选择至少两个点，并且以该图像片的中心为圆点，以该圆点到上述至少两个点的距离为半径分别确定至少两个圆；或者以该图像片的中心为圆点，以不同的预设长度为半径分别确定至少两个圆。

根据本发明的实施例，该分类器为随机森林分类器，该随机森林分类器包括多个树，上述多个树中的每个树包括多个节点，提取模块810针对每个节点提取该图像片的旋转不变二进制特征，学习模块820利用针对上述每个节点提取该训练样本的图像片的旋转不变二进制特征训练该分类器。

可选地，作为另一实施例，检测模块830还用于在该视频序列的初始帧中，根据目标框选择的图像片获得该正样本，并且根据该目标框之外的图像片获得该负样本，并且将该正样本和部分该负样本作为正图像片和负图像片保存在目标模型中。

可选地，该装置还包括：跟踪模块840和综合模块850。

跟踪模块840根据该目标在该视频序列中的前一帧中的目标框，利用视频序列跟踪算法跟踪该目标在该当前帧中的轨迹，以确定该目标在该当前帧中的跟踪框。综合模块850综合该目标在该当前帧中的跟踪框和该检测框，以基于该目标模型确定该目标在该当前帧中的目标框。

可选地，作为另一实施例，装置800还包括：验证估计模块860。

验证估计模块960在该视频序列的初始帧中，将该初始帧中的该目标框内的图像保存为模板图像，并提取该模板图像的多个第一尺度不变特征转换特征点；在该当前帧中，提取该当前帧中的目标框中的图像的多个第二尺度不变特征转换特征点，并且将上述多个第一尺度不变特征转换特征点与上述多个第二尺度不变特征转换特征点进行匹配；通过上述多个第一尺度不变特征转换特征点与上述多个第二尺度不变特征转换特征点中相互匹配的尺度不变特征转换特征点，建立仿射变换方程；根据该仿射变换方程对该当前帧中的目标框进行仿射变换，以获得包含旋转角度信息的目标框。

可选地，作为另一实施例，学习模块820还用于在跟踪该目标成功后，利用该训练样本的结构性约束条件对该训练样本进行更新，提取模块810提取所更新的训练样本的旋转不变二进制特征，学习模块820利用该更新的训练样本的旋转不变二进制特征训练该分类器。

可选地，作为另一实施例，检测模块820还用于在跟踪该目标失败后，针对该视频序列的每一帧的图像片，提取旋转不变二进制特征，并且根据上述每一帧的图像片的旋转不变二进制特征，利用该分类器检测该目标，以在该目标再次出现在特定帧时获得该目标的第二检测框；计算第二检测框中的图像与该模板图像的相似度，在该相似度大于预设的阈值的情况下，提取第二检测框中的第三尺度不变特征转换特征点；通过上述多个第三尺度不变特征转换特征点与上述多个第一尺度不变特征转换特征点中相互匹配的尺度不变特征转换特征点，建立第二仿射变换方程；根据第二仿射变换方程对第二检测框进行仿射变换，以获得包含旋转角度信息的第二检测框；在仿射变换后的第二检测框上选择适当比例大小的第二目标框，并且将第二目标框中的图像作为新的模板图像。

图9是根据本发明的另一实施例的提取旋转不变二进制特征的装置900的结构性示意图。装置900与图2的方法相对应，在此再赘述。装置900包括：确定模块910和计算模块920。

确定模块910在图像片中确定至少两个圆。计算模块920分别计算上述至少两个圆中的每个圆的圆周上的多个点的像素平均值，以得到至少两个像素平均值，其中该确定模块将上述至少两个像素平均值的大小关系作为该图像片的旋转不变二进制特征。

根据本发明的实施例可以提取图像片的至少两个圆的像素平均值的大小关系作为二进制特征，由于这种大小关系可以在图像片旋转时保持不变，从而得到了一种具有旋转不变性的二进制特征。

根据本发明的实施例，确定模块910可以在该图像片中随机选择至少两个点，并且以该图像片的中心为圆点，以该圆点到上述至少两个点的距离为半径分别确定至少两个圆；或者以该图像片的中心为圆点，以不同的预设长度为半径分别确定至少两个圆。

根据本发明提出了一种改进的TLD系统框架，结合旋转不变特征以及仿射矩阵估计，达到了长时间的有效跟踪。同时，针对现有基于粒子滤波技术对仿射变换估计中速度过慢的问题，提出了简单快速的仿射变换估计方法，即基于SIFT特征点进行特征匹配从而估计出当前帧中目标的仿射矩阵，并将该方法应用于在线跟踪中。解决了目标被遮挡或移出视野后再出现时，如何进行有效的初始化的问题，同时给出一个放射变换的估计。

图10是根据本发明的另一实施例的检测和跟踪目标的装置1000的结构示意图。检测和跟踪目标的装置1000包括：至少一个处理器，例如，CPU1010；存储器1020；和至少一个通信总线，例如，通信总线1030，用于实现这些装置之间的连接通信。检测和跟踪目标的装置1000可选的包含用户接口1040，例如，显示器，键盘或者点击设备。存储器1020可能包含高速随机存取存储器(Random Access Memory，RAM)，也可能还包括非不稳定的存储器(non-volatile memory)，例如，至少一个磁盘存储器。在一些实施方式中，存储器1020存储了如下的元素，模块或者数据结构，或者他们的子集，或者他们的扩展集:

操作系统1050，包含各种程序，用于实现各种基础业务以及处理基于硬件的任务；

应用模块1060，包含如下模块之一或者组合:提取模块810、学习模块820和检测模块830，上述模块的功能可以参考图1的工作原理图的说明部分，也可以参考图8的说明部分，此处不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种检测和跟踪目标的方法，其特征在于，包括：

针对视频序列的训练样本的图像片，提取旋转不变二进制特征，并且利用所述训练样本的图像片的旋转不变二进制特征训练分类器，其中所述训练样本包括正样本和负样本，所述正样本来源于所述视频序列中的目标的图像片，所述负样本来源于所述视频序列中的背景的图像片，所述分类器用于将所述视频序列中的图像片分类为目标和背景；

针对所述视频序列中的当前帧的图像片，提取旋转不变二进制特征，并且根据所述当前帧的图像片的旋转不变二进制特征，利用所述分类器检测所述目标，以获得所述目标在所述当前帧中的检测框，其中所述旋转不变二进制特征在所述图像片旋转的情况下保持不变，

其中所述方法还包括：

在所述视频序列的初始帧中，根据目标框选择的图像片获得所述正样本，并且根据所述目标框之外的图像片获得所述负样本，并且将所述正样本和部分所述负样本作为正图像片和负图像片保存在目标模型中；

根据所述目标在所述视频序列中的前一帧中的目标框，利用视频序列跟踪算法跟踪所述目标在所述当前帧中的轨迹，以确定所述目标在所述当前帧中的跟踪框；

综合所述目标在所述当前帧中的跟踪框和所述检测框，以基于所述目标模型确定所述目标在所述当前帧中的目标框。

2.根据权利要求1所述的方法，其特征在于，所述提取旋转不变二进制特征，包括：

在所述图像片中确定至少两个圆；

分别计算所述至少两个圆中的每个圆的圆周上的多个点的像素平均值，以得到至少两个像素平均值；

将所述至少两个像素平均值的大小关系作为所述图像片的旋转不变二进制特征。

3.根据权利要求2所述的方法，其特征在于，所述在所述图像片中确定至少两个圆，包括：

在所述图像片中随机选择至少两个点，并且以所述图像片的中心为圆点，以所述圆点到所述至少两个点的距离为半径分别确定至少两个圆；或者，

以所述图像片的中心为圆点，以不同的预设长度为半径分别确定至少两个圆。

4.根据权利要求2所述的方法，其特征在于，所述每个圆的圆周上的多个点等分所述圆周或者所述每个圆的圆周上的多个点的位置被预先设置。

5.根据权利要求1至4中的任一项所述的方法，其特征在于，所述分类器为随机森林分类器，所述随机森林分类器包括多个树，所述多个树中的每个树包括多个节点，所述提取旋转不变二进制特征，包括：

针对每个节点提取所述图像片的旋转不变二进制特征，

其中所述利用所述训练样本的图像片的旋转不变二进制特征训练分类器，包括：

利用针对所述每个节点提取所述训练样本的图像片的旋转不变二进制特征训练所述分类器。

6.根据权利要求1至4中的任一项所述的方法，其特征在于，还包括：

在所述视频序列的初始帧中，将所述初始帧中的所述目标框内的图像保存为模板图像，并提取所述模板图像的多个第一尺度不变特征转换特征点；

在所述当前帧中，提取所述当前帧中的目标框中的图像的多个第二尺度不变特征转换特征点，并且将所述多个所述第一尺度不变特征转换特征点与所述多个第二尺度不变特征转换特征点进行匹配；

通过所述多个第一尺度不变特征转换特征点与所述多个第二尺度不变特征转换特征点中相互匹配的尺度不变特征转换特征点，建立仿射变换方程；

根据所述仿射变换方程对所述当前帧中的目标框进行仿射变换，以获得包含旋转角度信息的目标框。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

在跟踪所述目标成功后，利用所述训练样本的结构性约束条件对所述训练样本进行更新，

其中提取旋转不变二进制特征，包括：

提取所更新的训练样本的旋转不变二进制特征，

所述利用所述训练样本的图像片的旋转不变二进制特征训练分类器，包括：

利用所述更新的训练样本的旋转不变二进制特征训练所述分类器。

8.根据权利要求6所述的方法，其特征在于，还包括：

在跟踪所述目标失败后，针对所述视频序列的每一帧的图像片，提取旋转不变二进制特征，并且根据所述每一帧的图像片的旋转不变二进制特征，利用所述分类器检测所述目标，以在所述目标再次出现在特定帧时获得所述目标的第二检测框；

计算所述第二检测框中的图像与所述模板图像的相似度，在所述相似度大于预设的阈值的情况下，提取所述第二检测框中的第三尺度不变特征转换特征点；

通过所述多个第三尺度不变特征转换特征点与所述多个第一尺度不变特征转换特征点中相互匹配的尺度不变特征转换特征点，建立第二仿射变换方程；

根据所述第二仿射变换方程对所述第二检测框进行仿射变换，以获得包含旋转角度信息的第二检测框；

在仿射变换后的第二检测框上选择适当比例大小的第二目标框，并且将所述第二目标框中的图像作为新的模板图像。

9.一种检测和跟踪目标的装置，其特征在于，包括：

提取模块，用于针对视频序列的训练样本的图像片，提取旋转不变二进制特征，并且针对所述视频序列中的当前帧的图像片，提取旋转不变二进制特征；

学习模块，用于利用所述训练样本的图像片的旋转不变二进制特征训练分类器，其中所述训练样本包括正样本和负样本，所述正样本来源于所述视频序列中的目标的图像片，所述负样本来源于所述视频序列中的背景的图像片，所述分类器用于将所述视频序列中的图像片分类为目标和背景；

检测模块，根据所述当前帧的图像片的旋转不变二进制特征，利用所述分类器检测所述目标，以获得所述目标在所述当前帧中的检测框，其中所述旋转不变二进制特征在所述图像片旋转的情况下保持不变，

其中，所述检测模块还用于在所述视频序列的初始帧中，根据目标框选择的图像片获得所述正样本，并且根据所述目标框之外的图像片获得所述负样本，并且将所述正样本和部分所述负样本作为正图像片和负图像片保存在目标模型中，该装置还包括：

跟踪模块，用于根据所述目标在所述视频序列中的前一帧中的目标框，利用视频序列跟踪算法跟踪所述目标在所述当前帧中的轨迹，以确定所述目标在所述当前帧中的跟踪框；

综合模块，用于综合所述目标在所述当前帧中的跟踪框和所述检测框，以基于所述目标模型确定所述目标在所述当前帧中的目标框。

10.根据权利要求9所述的装置，其特征在于，所述提取模块在提取旋转不变二进制特征时，在所述图像片中确定至少两个圆，分别计算所述至少两个圆中的每个圆的圆周上的多个点的像素平均值，以得到至少两个像素平均值，并且将所述至少两个像素平均值的大小关系作为所述图像片的旋转不变二进制特征。

11.根据权利要求10所述的装置，其特征在于，所述提取模块在确定所述至少两个圆时，在所述图像片中随机选择至少两个点，并且以所述图像片的中心为圆点，以所述圆点到所述至少两个点的距离为半径分别确定至少两个圆；或者以所述图像片的中心为圆点，以不同的预设长度为半径分别确定至少两个圆。

12.根据权利要求10所述的装置，其特征在于，所述每个圆的圆周上的多个点等分所述圆周或者所述每个圆的圆周上的多个点的位置被预先设置。

13.根据权利要求9至12中的任一项所述的装置，其特征在于，所述分类器为随机森林分类器，所述随机森林分类器包括多个树，所述多个树中的每个树包括多个节点，所述提取模块针对每个节点提取所述图像片的旋转不变二进制特征，所述学习模块利用针对所述每个节点提取所述训练样本的图像片的旋转不变二进制特征训练所述分类器。

14.根据权利要求9至12中的任一项所述的装置，其特征在于，还包括：

验证估计模块，用于在所述视频序列的初始帧中，将所述初始帧中的所述目标框内的图像保存为模板图像，并提取所述模板图像的多个第一尺度不变特征转换特征点；在所述当前帧中，提取所述当前帧中的目标框中的图像的多个第二尺度不变特征转换特征点，并且将所述多个所述第一尺度不变特征转换特征点与所述多个第二尺度不变特征转换特征点进行匹配；通过所述多个第一尺度不变特征转换特征点与所述多个第二尺度不变特征转换特征点中相互匹配的尺度不变特征转换特征点，建立仿射变换方程；根据所述仿射变换方程对所述当前帧中的目标框进行仿射变换，以获得包含旋转角度信息的目标框。

15.根据权利要求14所述的装置，其特征在于，所述学习模块还用于在跟踪所述目标成功后，利用所述训练样本的结构性约束条件对所述训练样本进行更新，所述提取模块提取所更新的训练样本的旋转不变二进制特征，所述学习模块利用所述更新的训练样本的旋转不变二进制特征训练所述分类器。

16.根据权利要求14所述的装置，其特征在于，所述检测模块还用于在跟踪所述目标失败后，针对所述视频序列的每一帧的图像片，提取旋转不变二进制特征，并且根据所述每一帧的图像片的旋转不变二进制特征，利用所述分类器检测所述目标，以在所述目标再次出现在特定帧时获得所述目标的第二检测框；计算所述第二检测框中的图像与所述模板图像的相似度，在所述相似度大于预设的阈值的情况下，提取所述第二检测框中的第三尺度不变特征转换特征点；通过所述多个第三尺度不变特征转换特征点与所述多个第一尺度不变特征转换特征点中相互匹配的尺度不变特征转换特征点，建立第二仿射变换方程；根据所述第二仿射变换方程对所述第二检测框进行仿射变换，以获得包含旋转角度信息的第二检测框；在仿射变换后的第二检测框上选择适当比例大小的第二目标框，并且将所述第二目标框中的图像作为新的模板图像。