CN111241987A - 基于代价敏感的三支决策的多目标模型视觉追踪方法 - Google Patents
基于代价敏感的三支决策的多目标模型视觉追踪方法 Download PDFInfo
- Publication number
- CN111241987A CN111241987A CN202010017088.3A CN202010017088A CN111241987A CN 111241987 A CN111241987 A CN 111241987A CN 202010017088 A CN202010017088 A CN 202010017088A CN 111241987 A CN111241987 A CN 111241987A
- Authority
- CN
- China
- Prior art keywords
- frame
- tracking
- target
- decision
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于代价敏感的三支决策的多目标模型视觉追踪方法,包括以下步骤:1)在第i帧建立多目标模型Zi;2)利用多目标模型Zi在第(i+1)帧搜索到多目标集合xi+1;3)根据多目标集合xi+1中样本的位置重叠情况,分别求出正‑接受、正‑拒绝、负‑接受、负‑拒绝、中间‑接受、中间‑拒绝6种三支决策结果的代价值λ;4)基于代价敏感的三支决策方法,求得决策边界,将多目标集合xi+1分为正样本负样本和中间样本5)选择中置信度最高的结果s(i+1)1,作为暂时的追踪结果,并记录的追踪结果备用;6)在第(i+2)帧,若中存在s(i+1)j可以提供更可靠的追踪结果,则将其替换s(i+1)1提供的追踪结果。与现有技术相比,本发明具有快速准确、鲁棒性好等优点。
Description
技术领域
本发明涉及监控视频智能分析领域,尤其是涉及一种基于代价敏感的三支决策的多目标模型视觉追踪方法。
背景技术
视觉追踪是指在一段短视频中(一般小于1000帧,且没有镜头切换),针对任意类别的确定目标,在第一帧给出其位置和大小后,在后续帧在线监测其位置和大小的过程。这种算法与目标检测算法相比,一般具有速度快、准确率高等特点,主要应用在以下场景:(1)需要识别目标运动轨迹的场景;(2)辅助目标检测的候选框标注;(3)配合目标识别算法,提取候选目标,节省算力,实现高效、准确的识别。因此,视觉追踪已发展成为智能视频分析领域的关键组成部分。
从视觉追踪框架的角度出发,相关算法模型可以分为以下两类:(1)判别式模型;(2)生成式模型。判别式模型,通过使用一个分类器,将样本区分为前景(目标)和背景,以此来检测追踪目标;生成式模型,通过寻找与目标特征最相似的位置来检测追踪目标。目前较常用的是生成式模型,因为在相同准确率的前提下,其计算量相对较小。
另一方面,从对算力的需求角度出发,视觉追踪的算法可以分为以下两类:(1)传统的视觉追踪算法;(2)基于深度学习的视觉追踪算法。传统的视觉追踪算法大多利用低层次特征,例如颜色(颜色空间、直方图,主颜色等)与纹理(HoG等),并且常常与相关滤波器方法结合使用;基于深度学习的视觉追踪算法主要利用卷积神经网络对目标进行特征提取,同时也可以与相关滤波器方法结合使用来进一步提高效率与准确性。总体来看,传统的视觉追踪算法效率高、运算量小,常用于对精度要求不高、硬件算力受限的工程实践中,而基于深度学习的视觉追踪算法常用于硬件算力高、精度要求高的领域,以及科研领域中。两种方法各有优劣,需要结合实际情况进行方案选择。
无论采用何种类型的追踪算法模型,对目标的特征表示是关键问题。这个问题又分为两个子问题,即目标的特征提取与目标的模型更新。目前来看,卷积神经网络是比较有效的特征提取方法,而目标的模型更新还没有十分合理的办法。目标模型更新的难点,在于其本身蕴含的矛盾:既要防止过多的非目标信息被更新到模型中,又要尽量及时更新目标模型以适应目标的外观形态变化。因此,有必要建立一种多目标模型的视觉追踪算法。
另一方面,在判别式模型中,传统的分类器只能输出0或1的二分类结果。如果能够通过引入额外信息,建立三支决策结构,就能提高分类的准确率,有选择地降低假阳性或假阴性结果。
专利CN109886996A提出了一种双模板的视觉追踪方法,并且提出了目标丢失因子,能够加权融合并逐帧更新,获得较准确的目标模板。然而由于双模板包含的信息量有限,并且使用的是传统二分类判别方式,使得追踪过程中鲁棒性不足。
专利CN109389137A提出了一种基于光谱特征的视觉追踪方法,将图像信息与光谱信息结合,使用的追踪方法是传统的CSK算法。虽然光谱信息的加入有助于追踪效果的提升,但是传统的方法不具备多特征、多决策类型的优势,准确性和鲁棒性不佳。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于代价敏感的三支决策的多目标模型视觉追踪方法。
本发明的目的可以通过以下技术方案来实现:
一种基于代价敏感的三支决策的多目标模型视觉追踪方法,包括以下步骤:
6)在第(i+2)帧追踪过程中,对比s(i+1)1与中结果的可靠性,若中存在更可靠的结果s(i+1)j,则将其替换s(i+1)1,并以s(i+1)j作为追踪的起点重新执行第(i+1)帧的追踪,将追踪结果作为第(i+2)帧追踪的起始位置。
所述的步骤2)中,在第(i+1)帧搜索多个候选目标的方法为相似性学习:
其中,为第i帧的目标模型集合,Ai为第i帧的图像,Fpps(·)为相似性学习提取相似度最高目标的方法,为提取的第(i+1)帧候选目标集合;之后再通过一个卷积神经网络判断中每个元素作为追踪目标的置信度:
其中,ij∈{PP,PN,NP,NN,BP,BN}为三支决策理论中的6种情况,即正-接受、正-拒绝、负-接受、负-拒绝、中间-接受、中间-拒绝;预先设定的是λij的代价值字典,即对应重叠值在情况下的代价值。
所述的步骤4)中,求得决策边界的方法为:
其中,α与β分别是三支决策的上边界和下边界。
所述的步骤5)中,选择中置信度最高的结果s(i+1)1,作为暂时的追踪结果,并记录的追踪结果。虽然对于第(i+1)帧而言,追踪结果选出后即不可改变,但是对于记录在中的可能存在的修正,可以影响第(i+2)帧的起始追踪位置,从而修正后续追踪结果。
与现有技术相比,本发明具有以下优点:
一、受三支决策理论启发,提取目标的长期特征与瞬时特征,并寻求二者之间的平衡点。本发明通过对多个可行的追踪结果进行三支决策分类,获得追踪结果。使用这一追踪框架,其中提取的目标长期与瞬时特征,对于光照变化、目标旋转、目标尺度变化等瞬时变化因素有较好的适应性和鲁棒性,并通过三支决策方法,在二者之间取得了较好的平衡;
二、本发明中的多目标集合表示方法,通过结合固定模型和非固定模型来解决目标模型更新中的矛盾,并训练卷积神经网络作为判别器,寻找最合适的追踪结果;
三、采用多目标追踪结果的重叠程度计算决策代价,再通过代价敏感方法得到三支决策的上下边界,提高三支决策的准确性;
四、基于连续帧之间目标的相似性,利用当前帧的多目标集合推理情况,对上一帧的追踪结果进行评价,然后从正样本集合和中间样本集合中选出最合适的追踪结果,从而作为当前帧的目标追踪起始位置,取得了更加准确和鲁棒的追踪效果。
附图说明
图1为本发明方法的系统流程图。
图2为本发明方法的追踪框架示意图。
图3为本发明算法和其他算法在OTB视觉追踪公开数据集上的一次性检验(OPE)结果,根据不同的IOU阈值,测定假阳性-假阴性变化,以及准确度变化。
图4为本发明算法和其他算法在OTB视觉追踪公开数据集上的一次性检验(OPE)、时间鲁棒性检验(TRE)和空间鲁棒性检验(SRE)结果。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例:
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,具体如图1所示算法流程图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,但并不限定本发明。
步骤一:建立更新策略不同的多个目标模型,具体描述如下:目标模型应该具有如下特征:保持被追踪目标的特征不改变、及时适应目标的外观变化、能够预测目标未来的外观变化。因此,本发明首先保存初始帧的目标外观,作为保持不变的目标特征;其次,将逐帧更新的目标外观,作为能够及时适应变化的目标特征;再次,将上述两个目标特征的平均值,以及前k帧的目标外观的平均值,作为2个可以拟合预测未来变化的目标特征;最后,在通过上述4个目标模型进行追踪,得到当前帧的追踪结果之后,作为补充,将上一帧的目标位置,也作为当前帧的一个追踪结果,目的是在上述4个目标模型的追踪都不准确时,提供一个相对准确的结果。
步骤二:搜索追踪目标并判断其置信度,具体描述如下:首先利用基于相似度学习的追踪方法,例如SiamFC,对步骤一中的多目标模型逐一追踪,得到多个候选框,即其中为第i帧的目标模型集合,Ai为第i帧的图像,Fpps(·)为SiamFC算法,为提取的第(i+1)帧候选目标集合;然后将得到的追踪结果,输入卷积神经网络的判别器,例如MDNet,对追踪结果逐一推理,得到目标的置信度,即其中,为MDNet算法,w是其神经网络参数。
步骤三:求各个决策结果的代价值,具体描述如下:在上一步骤中,可以获得多个追踪目标的候选框。接下来,本发明方法采用计算候选框重叠率的方法判断不同决策结果的代价值。具体实施如下:
(1)根据设定的重叠交叉比阈值η=0.7,计算重叠的候选框数量:
其中,IOU(sti,stj)为第t帧中第i个与第j个候选框的交叉比,η为判断为重叠的交叉比的阈值,为指示函数。重叠样本的数量Nt属于区间(其中p为追踪到的样本数)。最少的情况是没有任何两个候选框重叠,最多的情况是所有候选框两两重叠,即从p个样本中挑选2个样本的组合数。本示例中,存在5个候选框,则重叠的样本数量Nt的数量范围属于区间[0,10]。
(2)求得Nt后,λ的计算方法为:
其中,ij∈{PP,PN,NP,NN,BP,BN}为三支决策理论中的6种情况,即正-接受、正-拒绝、负-接受、负-拒绝、中间-接受、中间-拒绝;预先设定的是λij的代价值字典,即对应重叠样本的数量时的代价值。候选框的重叠度与各个决策的代价值呈负相关关系。当候选框的重叠度高时,即使接受的追踪结果并非最优,其结果依然与最优结果差异较小,因此这时错误决策的代价较小;反之在重叠度低时,错误决策可能会导致结果与正确结果偏差较大,因此错误决策的代价也较大。6种代价值的预先设定条件如下表所示:
以正-拒绝(PN)为例,当Nt=3时,λPN=4。
步骤四:求得决策边界的方法,具体描述如下:
其中,α与β分别是三支决策的上边界和下边界。直接将上一步骤求得的代价值带入,即可求解。
步骤五:处理追踪结果,具体描述如下:选择中置信度最高的结果s(i+1)1,作为暂时的追踪结果,并记录保存的追踪结果。例如在上下决策边界分别为0.6与0.4的情况下,5个候选框的置信度分别为0.8,0.7,0.5,0.3,0.2,则0.8为暂时追踪结果予以接受,0.5为中间结果予以保存,其他结果予以抛弃。
步骤六:判断追踪结果的可靠性,具体描述如下:根据上一步骤得到的预测结果,开始在下一帧进行预测,并得出当非空集时,继续追踪过程;当为空集时,使用上一帧的中间结果作为追踪起点,重新追踪当前帧;当都为空集时,则更新卷积神经网络判别器,重新追踪当前帧。
本发明具体实现步骤为:
图1是本发明算法实现流程图,具体实施方式如下:
2、使用相似度学习模型追踪,获取多模型候选框sij,用于后续第3条和第6条的计算;
3、计算所有候选框两两重叠的数量Nt;
4、设定各个决策类型的代价字典,根据Nt计算决策代价;
5、基于代价敏感的三支决策理论,根据决策代价,计算三支决策的上下边界α、β;
6、根据上下边界α、β,对第2步中获取的候选框,使用卷积神经网络判别器进行三支决策分类;
7、将被分类为正样本的置信度最高的候选框作为追踪结果,同时保持中间决策结果备用;
8、输入下一帧,采用正样本作为追踪起点,重复上述第1~7步;
9、对三支决策结果进行判断:若存在正样本,则继续输入下一帧;若没有正样本,则更改第8步的追踪起点,采用第7步保存的中间结果作为追踪起点,重复上述第1~7步;若没有正样本且没有中间样本,则更新卷积神经网络判别器,重复上述第1~7步;
显然,上述示例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (8)
1.一种基于代价敏感的三支决策的多目标模型视觉追踪方法,其特征在于,包括以下步骤:
4.根据权利要求1所述的一种基于代价敏感的三支决策的多目标模型视觉追踪方法,其特征在于,所述的步骤3)中,根据目标集合中样本的位置重叠情况,分别求出正-接受、正-拒绝、负-接受、负-拒绝、中间-接受、中间-拒绝6种三支决策结果的代价值λ,具体算法为:
8.根据权利要求1所述的一种基于代价敏感的三支决策的多目标模型视觉追踪方法,其特征在于,不同的多个目标模型为:逐帧更新、固定模型、逐帧更新与固定模型线性叠加、前k帧图像线性叠加任意两种以上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010017088.3A CN111241987B (zh) | 2020-01-08 | 2020-01-08 | 基于代价敏感的三支决策的多目标模型视觉追踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010017088.3A CN111241987B (zh) | 2020-01-08 | 2020-01-08 | 基于代价敏感的三支决策的多目标模型视觉追踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241987A true CN111241987A (zh) | 2020-06-05 |
CN111241987B CN111241987B (zh) | 2022-05-13 |
Family
ID=70872419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010017088.3A Active CN111241987B (zh) | 2020-01-08 | 2020-01-08 | 基于代价敏感的三支决策的多目标模型视觉追踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241987B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580785A (zh) * | 2020-12-18 | 2021-03-30 | 河北工业大学 | 基于三支决策的神经网络拓扑结构优化方法 |
CN113065094A (zh) * | 2021-03-24 | 2021-07-02 | 南京航空航天大学 | 一种基于累积前景价值和三支决策的态势评估方法与系统 |
CN117132623A (zh) * | 2023-10-26 | 2023-11-28 | 湖南苏科智能科技有限公司 | 物品追踪方法、装置、电子设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070160289A1 (en) * | 2001-03-23 | 2007-07-12 | Objectvideo, Inc. | Video segmentation using statistical pixel modeling |
CN105930808A (zh) * | 2016-04-26 | 2016-09-07 | 南京信息工程大学 | 一种基于vector boosting模板更新的运动目标跟踪方法 |
US20160292533A1 (en) * | 2015-04-01 | 2016-10-06 | Canon Kabushiki Kaisha | Image processing apparatus for estimating three-dimensional position of object and method therefor |
CN107274438A (zh) * | 2017-06-28 | 2017-10-20 | 山东大学 | 支持移动虚拟现实应用的单Kinect多人跟踪系统及方法 |
CN108681774A (zh) * | 2018-05-11 | 2018-10-19 | 电子科技大学 | 基于生成对抗网络负样本增强的人体目标跟踪方法 |
CN108960086A (zh) * | 2018-06-20 | 2018-12-07 | 电子科技大学 | 基于生成对抗网络正样本增强的多姿态人体目标跟踪方法 |
CN109886356A (zh) * | 2019-03-08 | 2019-06-14 | 哈尔滨工程大学 | 一种基于三分支神经网络的目标追踪方法 |
CN110197472A (zh) * | 2018-02-26 | 2019-09-03 | 四川省人民医院 | 一种用于超声造影图像稳定定量分析的方法和系统 |
-
2020
- 2020-01-08 CN CN202010017088.3A patent/CN111241987B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070160289A1 (en) * | 2001-03-23 | 2007-07-12 | Objectvideo, Inc. | Video segmentation using statistical pixel modeling |
US20160292533A1 (en) * | 2015-04-01 | 2016-10-06 | Canon Kabushiki Kaisha | Image processing apparatus for estimating three-dimensional position of object and method therefor |
CN105930808A (zh) * | 2016-04-26 | 2016-09-07 | 南京信息工程大学 | 一种基于vector boosting模板更新的运动目标跟踪方法 |
CN107274438A (zh) * | 2017-06-28 | 2017-10-20 | 山东大学 | 支持移动虚拟现实应用的单Kinect多人跟踪系统及方法 |
CN110197472A (zh) * | 2018-02-26 | 2019-09-03 | 四川省人民医院 | 一种用于超声造影图像稳定定量分析的方法和系统 |
CN108681774A (zh) * | 2018-05-11 | 2018-10-19 | 电子科技大学 | 基于生成对抗网络负样本增强的人体目标跟踪方法 |
CN108960086A (zh) * | 2018-06-20 | 2018-12-07 | 电子科技大学 | 基于生成对抗网络正样本增强的多姿态人体目标跟踪方法 |
CN109886356A (zh) * | 2019-03-08 | 2019-06-14 | 哈尔滨工程大学 | 一种基于三分支神经网络的目标追踪方法 |
Non-Patent Citations (2)
Title |
---|
CHENGWEI LUO ET AL.: "Comparison of Different Level Fusion Schemes for Infrared-Visible Object Tracking: An Experimental Survey", 《2018 2ND INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION SCIENCES》 * |
张显才等: "基于位置预测的尺度自适应快速跟踪方法", 《解放军理工大学学报(自然科学版)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580785A (zh) * | 2020-12-18 | 2021-03-30 | 河北工业大学 | 基于三支决策的神经网络拓扑结构优化方法 |
CN112580785B (zh) * | 2020-12-18 | 2022-04-05 | 河北工业大学 | 基于三支决策的神经网络拓扑结构优化方法 |
CN113065094A (zh) * | 2021-03-24 | 2021-07-02 | 南京航空航天大学 | 一种基于累积前景价值和三支决策的态势评估方法与系统 |
CN117132623A (zh) * | 2023-10-26 | 2023-11-28 | 湖南苏科智能科技有限公司 | 物品追踪方法、装置、电子设备和存储介质 |
CN117132623B (zh) * | 2023-10-26 | 2024-02-23 | 湖南苏科智能科技有限公司 | 物品追踪方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111241987B (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN110807434B (zh) | 一种基于人体解析粗细粒度结合的行人重识别系统及方法 | |
CN107247956B (zh) | 一种基于网格判断的快速目标检测方法 | |
CN111241987B (zh) | 基于代价敏感的三支决策的多目标模型视觉追踪方法 | |
Lee et al. | Place recognition using straight lines for vision-based SLAM | |
CN111242064A (zh) | 基于摄像头风格迁移和单标注的行人重识别方法及系统 | |
CN110991321B (zh) | 一种基于标签更正与加权特征融合的视频行人再识别方法 | |
CN110298297A (zh) | 火焰识别方法和装置 | |
CN113239801B (zh) | 基于多尺度特征学习和多级域对齐的跨域动作识别方法 | |
CN110728216A (zh) | 一种基于行人属性自适应学习的无监督行人再识别方法 | |
CN112149538A (zh) | 一种基于多任务学习的行人重识别方法 | |
CN110008899B (zh) | 一种可见光遥感图像候选目标提取与分类方法 | |
CN111882586A (zh) | 一种面向剧场环境的多演员目标跟踪方法 | |
CN110858276A (zh) | 一种识别模型与验证模型相结合的行人重识别方法 | |
An | Anomalies detection and tracking using Siamese neural networks | |
CN113129336A (zh) | 一种端到端多车辆跟踪方法、系统及计算机可读介质 | |
Yang et al. | A Face Detection Method Based on Skin Color Model and Improved AdaBoost Algorithm. | |
CN108985216B (zh) | 一种基于多元logistic回归特征融合的行人头部检测方法 | |
CN116580333A (zh) | 基于YOLOv5和改进StrongSORT的粮库车辆追踪方法 | |
CN113158720B (zh) | 一种基于双模特征和注意力机制的视频摘要方法及装置 | |
Liu et al. | [Retracted] Mean Shift Fusion Color Histogram Algorithm for Nonrigid Complex Target Tracking in Sports Video | |
Jourdheuil et al. | Heterogeneous adaboost with real-time constraints-application to the detection of pedestrians by stereovision | |
Prabakaran et al. | Key frame extraction analysis based on optimized convolution neural network (ocnn) using intensity feature selection (ifs) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |