CN111241987A

CN111241987A - 基于代价敏感的三支决策的多目标模型视觉追踪方法

Info

Publication number: CN111241987A
Application number: CN202010017088.3A
Authority: CN
Inventors: 赵才荣; 孙添力
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2020-06-05
Anticipated expiration: 2040-01-08
Also published as: CN111241987B

Abstract

本发明涉及一种基于代价敏感的三支决策的多目标模型视觉追踪方法，包括以下步骤：1)在第i帧建立多目标模型Z_i；2)利用多目标模型Z_i在第(i+1)帧搜索到多目标集合x_i+1；3)根据多目标集合x_i+1中样本的位置重叠情况，分别求出正‑接受、正‑拒绝、负‑接受、负‑拒绝、中间‑接受、中间‑拒绝6种三支决策结果的代价值λ；4)基于代价敏感的三支决策方法，求得决策边界，将多目标集合x_i+1分为正样本

负样本

和中间样本

5)选择

中置信度最高的结果s_(i+1)1，作为暂时的追踪结果，并记录

的追踪结果备用；6)在第(i+2)帧，若

中存在s_(i+1)j可以提供更可靠的追踪结果，则将其替换s_(i+1)1提供的追踪结果。与现有技术相比，本发明具有快速准确、鲁棒性好等优点。

Description

基于代价敏感的三支决策的多目标模型视觉追踪方法

技术领域

本发明涉及监控视频智能分析领域，尤其是涉及一种基于代价敏感的三支决策的多目标模型视觉追踪方法。

背景技术

视觉追踪是指在一段短视频中(一般小于1000帧，且没有镜头切换)，针对任意类别的确定目标，在第一帧给出其位置和大小后，在后续帧在线监测其位置和大小的过程。这种算法与目标检测算法相比，一般具有速度快、准确率高等特点，主要应用在以下场景：(1)需要识别目标运动轨迹的场景；(2)辅助目标检测的候选框标注；(3)配合目标识别算法，提取候选目标，节省算力，实现高效、准确的识别。因此，视觉追踪已发展成为智能视频分析领域的关键组成部分。

从视觉追踪框架的角度出发，相关算法模型可以分为以下两类：(1)判别式模型；(2)生成式模型。判别式模型，通过使用一个分类器，将样本区分为前景(目标)和背景，以此来检测追踪目标；生成式模型，通过寻找与目标特征最相似的位置来检测追踪目标。目前较常用的是生成式模型，因为在相同准确率的前提下，其计算量相对较小。

另一方面，从对算力的需求角度出发，视觉追踪的算法可以分为以下两类：(1)传统的视觉追踪算法；(2)基于深度学习的视觉追踪算法。传统的视觉追踪算法大多利用低层次特征，例如颜色(颜色空间、直方图，主颜色等)与纹理(HoG等)，并且常常与相关滤波器方法结合使用；基于深度学习的视觉追踪算法主要利用卷积神经网络对目标进行特征提取，同时也可以与相关滤波器方法结合使用来进一步提高效率与准确性。总体来看，传统的视觉追踪算法效率高、运算量小，常用于对精度要求不高、硬件算力受限的工程实践中，而基于深度学习的视觉追踪算法常用于硬件算力高、精度要求高的领域，以及科研领域中。两种方法各有优劣，需要结合实际情况进行方案选择。

无论采用何种类型的追踪算法模型，对目标的特征表示是关键问题。这个问题又分为两个子问题，即目标的特征提取与目标的模型更新。目前来看，卷积神经网络是比较有效的特征提取方法，而目标的模型更新还没有十分合理的办法。目标模型更新的难点，在于其本身蕴含的矛盾：既要防止过多的非目标信息被更新到模型中，又要尽量及时更新目标模型以适应目标的外观形态变化。因此，有必要建立一种多目标模型的视觉追踪算法。

另一方面，在判别式模型中，传统的分类器只能输出0或1的二分类结果。如果能够通过引入额外信息，建立三支决策结构，就能提高分类的准确率，有选择地降低假阳性或假阴性结果。

专利CN109886996A提出了一种双模板的视觉追踪方法，并且提出了目标丢失因子，能够加权融合并逐帧更新，获得较准确的目标模板。然而由于双模板包含的信息量有限，并且使用的是传统二分类判别方式，使得追踪过程中鲁棒性不足。

专利CN109389137A提出了一种基于光谱特征的视觉追踪方法，将图像信息与光谱信息结合，使用的追踪方法是传统的CSK算法。虽然光谱信息的加入有助于追踪效果的提升，但是传统的方法不具备多特征、多决策类型的优势，准确性和鲁棒性不佳。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于代价敏感的三支决策的多目标模型视觉追踪方法。

本发明的目的可以通过以下技术方案来实现：

一种基于代价敏感的三支决策的多目标模型视觉追踪方法，包括以下步骤：

1)在第i帧建立更新策略不同的多个目标模型：逐帧更新、固定模型、逐帧更新与固定模型线性叠加、前k帧图像线性叠加，构成目标模型集合

提供给步骤2)；

2)利用

中的每个模型，在第(i+1)帧搜索到多个候选目标，构成候选目标集合

提供给步骤3)和步骤4)；

3)根据目标集合

中样本的位置重叠情况，分别求出正-接受、正-拒绝、负-接受、负-拒绝、中间-接受、中间-拒绝6种三支决策结果的代价值λ，提供给步骤4)；

4)基于代价敏感的三支决策方法，求得决策边界，根据

中每个目标的预测值，将其分为正样本

负样本

和中间样本

提供给步骤5)；

5)选择

中置信度最高的结果s_(i+1)1，作为暂时的追踪结果，并记录

的追踪结果，提供给步骤6)；

6)在第(i+2)帧追踪过程中，对比s_(i+1)1与

中结果的可靠性，若

中存在更可靠的结果s_(i+1)j，则将其替换s_(i+1)1，并以s_(i+1)j作为追踪的起点重新执行第(i+1)帧的追踪，将追踪结果作为第(i+2)帧追踪的起始位置。

所述的步骤1)中，在第i帧建立更新策略不同的多个目标模型:逐帧更新、固定模型、逐帧更新与固定模型线性叠加、前k帧图像线性叠加，构成目标模型集合

中包括以下4种模型：

其中，z_ij为第i帧的第j个模板，A_i为第i帧的图像，

为第1帧给定的目标候选框，

为第(i-1)帧追踪到的目标候选框，R(·)为通过候选框截取图像的操作。

所述的步骤2)中，在第(i+1)帧搜索多个候选目标的方法为相似性学习：

其中，

为第i帧的目标模型集合，A_i为第i帧的图像，F_pps(·)为相似性学习提取相似度最高目标的方法，

为提取的第(i+1)帧候选目标集合；之后再通过一个卷积神经网络判断

中每个元素作为追踪目标的置信度：

其中，

为卷积神经网络，w是其网络参数。

所述的步骤3)中，根据目标集合

中样本的位置重叠情况，分别求出正-接受、正-拒绝、负-接受、负-拒绝、中间-接受、中间-拒绝6种三支决策结果的代价值λ，具体算法为：

其中，IOU(s_ti,s_tj)为第t帧中第i个与第j个候选框的交叉比，η为判断为重叠的交叉比的阈值，

为指示函数，N_t为重叠样本的数量。求得N_t后，λ的计算方法为：

其中，ij∈{PP,PN,NP,NN,BP,BN}为三支决策理论中的6种情况，即正-接受、正-拒绝、负-接受、负-拒绝、中间-接受、中间-拒绝；

预先设定的是λ_ij的代价值字典，即对应重叠值在

情况下的代价值。

所述的步骤4)中，求得决策边界的方法为：

其中，α与β分别是三支决策的上边界和下边界。

所述的步骤5)中，选择

中置信度最高的结果s_(i+1)1，作为暂时的追踪结果，并记录

的追踪结果。虽然对于第(i+1)帧而言，追踪结果选出后即不可改变，但是对于记录在

中的可能存在的修正，可以影响第(i+2)帧的起始追踪位置，从而修正后续追踪结果。

所述的步骤6)中，在第(i+2)帧追踪过程中，若

与

中均不存在更可靠的结果，则对判定模型

进行更新。

与现有技术相比，本发明具有以下优点：

一、受三支决策理论启发，提取目标的长期特征与瞬时特征，并寻求二者之间的平衡点。本发明通过对多个可行的追踪结果进行三支决策分类，获得追踪结果。使用这一追踪框架，其中提取的目标长期与瞬时特征，对于光照变化、目标旋转、目标尺度变化等瞬时变化因素有较好的适应性和鲁棒性，并通过三支决策方法，在二者之间取得了较好的平衡；

二、本发明中的多目标集合表示方法，通过结合固定模型和非固定模型来解决目标模型更新中的矛盾，并训练卷积神经网络作为判别器，寻找最合适的追踪结果；

三、采用多目标追踪结果的重叠程度计算决策代价，再通过代价敏感方法得到三支决策的上下边界，提高三支决策的准确性；

四、基于连续帧之间目标的相似性，利用当前帧的多目标集合推理情况，对上一帧的追踪结果进行评价，然后从正样本集合和中间样本集合中选出最合适的追踪结果，从而作为当前帧的目标追踪起始位置，取得了更加准确和鲁棒的追踪效果。

附图说明

图1为本发明方法的系统流程图。

图2为本发明方法的追踪框架示意图。

图3为本发明算法和其他算法在OTB视觉追踪公开数据集上的一次性检验(OPE)结果，根据不同的IOU阈值，测定假阳性-假阴性变化，以及准确度变化。

图4为本发明算法和其他算法在OTB视觉追踪公开数据集上的一次性检验(OPE)、时间鲁棒性检验(TRE)和空间鲁棒性检验(SRE)结果。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例：

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，具体如图1所示算法流程图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，但并不限定本发明。

步骤一：建立更新策略不同的多个目标模型，具体描述如下：目标模型应该具有如下特征：保持被追踪目标的特征不改变、及时适应目标的外观变化、能够预测目标未来的外观变化。因此，本发明首先保存初始帧的目标外观，作为保持不变的目标特征；其次，将逐帧更新的目标外观，作为能够及时适应变化的目标特征；再次，将上述两个目标特征的平均值，以及前k帧的目标外观的平均值，作为2个可以拟合预测未来变化的目标特征；最后，在通过上述4个目标模型进行追踪，得到当前帧的追踪结果之后，作为补充，将上一帧的目标位置，也作为当前帧的一个追踪结果，目的是在上述4个目标模型的追踪都不准确时，提供一个相对准确的结果。

步骤二：搜索追踪目标并判断其置信度，具体描述如下：首先利用基于相似度学习的追踪方法，例如SiamFC，对步骤一中的多目标模型逐一追踪，得到多个候选框，即

其中

为第i帧的目标模型集合，A_i为第i帧的图像，F_pps(·)为SiamFC算法，

为提取的第(i+1)帧候选目标集合；然后将得到的追踪结果，输入卷积神经网络的判别器，例如MDNet，对追踪结果逐一推理，得到目标的置信度，即

其中，

为MDNet算法，w是其神经网络参数。

步骤三：求各个决策结果的代价值，具体描述如下：在上一步骤中，可以获得多个追踪目标的候选框。接下来，本发明方法采用计算候选框重叠率的方法判断不同决策结果的代价值。具体实施如下：

(1)根据设定的重叠交叉比阈值η＝0.7，计算重叠的候选框数量：

为指示函数。重叠样本的数量N_t属于区间

(其中p为追踪到的样本数)。最少的情况是没有任何两个候选框重叠，最多的情况是所有候选框两两重叠，即从p个样本中挑选2个样本的组合数。本示例中，存在5个候选框，则重叠的样本数量N_t的数量范围属于区间[0,10]。

(2)求得N_t后，λ的计算方法为：

预先设定的是λ_ij的代价值字典，即对应重叠样本的数量

时的代价值。候选框的重叠度与各个决策的代价值呈负相关关系。当候选框的重叠度高时，即使接受的追踪结果并非最优，其结果依然与最优结果差异较小，因此这时错误决策的代价较小；反之在重叠度低时，错误决策可能会导致结果与正确结果偏差较大，因此错误决策的代价也较大。6种代价值的预先设定条件如下表所示：

以正-拒绝(PN)为例，当N_t＝3时，λ_PN＝4。

步骤四：求得决策边界的方法，具体描述如下：

其中，α与β分别是三支决策的上边界和下边界。直接将上一步骤求得的代价值带入，即可求解。

步骤五：处理追踪结果，具体描述如下：选择

中置信度最高的结果s_(i+1)1，作为暂时的追踪结果，并记录保存

的追踪结果。例如在上下决策边界分别为0.6与0.4的情况下，5个候选框的置信度分别为0.8，0.7，0.5，0.3，0.2，则0.8为暂时追踪结果予以接受，0.5为中间结果予以保存，其他结果予以抛弃。

步骤六：判断追踪结果的可靠性，具体描述如下：根据上一步骤得到的预测结果，开始在下一帧进行预测，并得出

当

非空集时，继续追踪过程；当

为空集时，使用上一帧的中间结果作为追踪起点，重新追踪当前帧；当

都为空集时，则更新卷积神经网络判别器，重新追踪当前帧。

本发明具体实现步骤为：

图1是本发明算法实现流程图，具体实施方式如下：

1、建立更新策略不同的多个目标模型，组成集合

2、使用相似度学习模型追踪，获取多模型候选框s_ij，用于后续第3条和第6条的计算；

3、计算所有候选框两两重叠的数量N_t；

4、设定各个决策类型的代价字典，根据N_t计算决策代价；

5、基于代价敏感的三支决策理论，根据决策代价，计算三支决策的上下边界α、β；

6、根据上下边界α、β，对第2步中获取的候选框，使用卷积神经网络判别器进行三支决策分类；

7、将被分类为正样本的置信度最高的候选框作为追踪结果，同时保持中间决策结果备用；

8、输入下一帧，采用正样本作为追踪起点，重复上述第1～7步；

9、对三支决策结果进行判断：若存在正样本，则继续输入下一帧；若没有正样本，则更改第8步的追踪起点，采用第7步保存的中间结果作为追踪起点，重复上述第1～7步；若没有正样本且没有中间样本，则更新卷积神经网络判别器，重复上述第1～7步；

显然，上述示例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于代价敏感的三支决策的多目标模型视觉追踪方法，其特征在于，包括以下步骤：

1)在第i帧建立更新策略不同的多个目标模型，构成目标模型集合

2)利用

3)根据目标集合

中样本的位置重叠情况，分别求出正-接受、正-拒绝、负-接受、负-拒绝、中间-接受、中间-拒绝6种三支决策结果的代价值λ；

4)基于代价敏感的三支决策方法，根据样本代价值λ求得决策边界，根据

中每个目标的位置预测值，将其分为正样本

负样本

和中间样本

5)选择

中置信度最高的结果s_(i+1)1，作为暂时的追踪结果，并记录

的追踪结果；

6)在第(i+2)帧追踪过程中，对比s_(i+1)1与

中结果的可靠性，若

中存在更可靠的结果s_ij，则将其替换s_(i+1)1，并以s_ij作为追踪的起点重新执行第(i+1)帧的追踪，将追踪结果作为第(i+2)帧追踪的起始位置；根据三支决策理论，这里的正样本s_(i+1)1有较大可能为假阳性结果，而中间决策结果s_ij有较大可能为真阳性结果，可以作为更优的追踪结果。

2.根据权利要求1所述的一种基于代价敏感的三支决策的多目标模型视觉追踪方法，其特征在于，所述的步骤1)中，在第i帧建立更新策略不同的多个目标模型，构成目标模型集合

中包括以下4种模型：

1)以第一帧目标图像作为样本的模型；

2)以上一帧目标追踪结果的图像作为样本的模型；

3)以上述1)和2)两模型的平均值作为样本的模型；

4)以当前帧及其之前k帧图像的平均值作为样本的模型。

3.根据权利要求1所述的一种基于代价敏感的三支决策的多目标模型视觉追踪方法，其特征在于，所述的步骤2)中，在第(i+1)帧搜索多个候选目标的方法为相似性学习：

其中，

中每个元素作为追踪目标的置信度：

其中，

为卷积神经网络，w是其网络参数。

4.根据权利要求1所述的一种基于代价敏感的三支决策的多目标模型视觉追踪方法，其特征在于，所述的步骤3)中，根据目标集合

为指示函数，N_t为重叠样本的数量；求得N_t后，三支决策结果的代价值λ的计算方法为：

其中，ij∈{PN,BN,NP,BP}为三支决策理论中的6种情况，即正-接受、正-拒绝、负-接受、负-拒绝、中间-接受、中间-拒绝；

预先设定的是λ_ij的代价值字典，对应重叠样本的数量

时的代价值。

5.根据权利要求4所述的一种基于代价敏感的三支决策的多目标模型视觉追踪方法，其特征在于，所述的步骤4)中，求得决策边界的方法为：

其中，α与β分别是三支决策的上边界和下边界；λ_ij代表三支决策结果的代价值，ij∈{PN,BN,NP,BP}为三支决策理论中的6种情况，即正-接受、正-拒绝、负-接受、负-拒绝、中间-接受、中间-拒绝。

6.根据权利要求1所述的一种基于代价敏感的三支决策的多目标模型视觉追踪方法，其特征在于，所述的步骤5)中，选择

中置信度最高的结果s_(i+1)1，作为暂时的追踪结果，并记录

的追踪结果；虽然对于第(i+1)帧而言，追踪结果选出后即不可改变，但是对于记录在

7.根据权利要求1所述的一种基于代价敏感的三支决策的多目标模型视觉追踪方法，其特征在于，所述的步骤6)中，在第(i+2)帧追踪过程中，若

与

中均不存在更可靠的结果，则对判定模型

进行更新。

8.根据权利要求1所述的一种基于代价敏感的三支决策的多目标模型视觉追踪方法，其特征在于，不同的多个目标模型为：逐帧更新、固定模型、逐帧更新与固定模型线性叠加、前k帧图像线性叠加任意两种以上。