CN113870330B - 基于特定标签和损失函数的孪生视觉跟踪方法 - Google Patents

基于特定标签和损失函数的孪生视觉跟踪方法 Download PDF

Info

Publication number
CN113870330B
CN113870330B CN202111165323.2A CN202111165323A CN113870330B CN 113870330 B CN113870330 B CN 113870330B CN 202111165323 A CN202111165323 A CN 202111165323A CN 113870330 B CN113870330 B CN 113870330B
Authority
CN
China
Prior art keywords
twin
template
branch
search
vision tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111165323.2A
Other languages
English (en)
Other versions
CN113870330A (zh
Inventor
张轶
孟飞妤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202111165323.2A priority Critical patent/CN113870330B/zh
Publication of CN113870330A publication Critical patent/CN113870330A/zh
Application granted granted Critical
Publication of CN113870330B publication Critical patent/CN113870330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • G06T7/344Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于特定标签和损失函数的孪生视觉跟踪方法,涉及图像识别技术领域,包括S1获取训练样本,S2基于孪生网络建立孪生视觉跟踪模型,S3导入训练样本训练优化孪生视觉跟踪模型,S4将需要跟踪的视频导入优化后的孪生视觉跟踪模型进行跟踪;解决了传统孪生网络方法带来的语言模糊性,同时又将网络的重点导向更为重要的分辨能力,没有过分拟合值要求的大参数量;在超出大量跟踪器性能的基础上,速度也十分快;引入了新型的标签设计方法和损失函数,可以在不改变网络架构的基础上,在不同的跟踪器上进行使用,以提升性能。

Description

基于特定标签和损失函数的孪生视觉跟踪方法
技术领域
本发明涉及图像识别技术领域,尤其涉及一种基于特定标签和损失函数的孪生视觉跟踪方法。
背景技术
传统的相关滤波是解决目标跟踪问题的一大方向。相关滤波源于信号处理领域,相关性用于表示两个信号之间的相似程度,基于相关滤波的跟踪方法的基本思想就是,寻找一个滤波模板,让下一帧的图像与滤波模板做相关操作,响应最大的区域则是预测的目标。但随着近年来深度学习方法的兴起,传统方法逐渐显得落后。
深度学习方法中,孪生网络方法是目前目标跟踪的主流方向之一,但是它的分类置信度设置没有明确的解释,因为只有边界框的真实值,预测得分图没有相应的标签。预测置信度的值范围和特征在很大程度上取决于损失的选择和生成相应训练伪标签的策略。对有目标剧烈变换等问题的跟踪情景难以很好地处理。
以前的方法大致可以分为两类:二进制值或连续值。第一类将满足特定条件的所有阳性样本校准为一,忽略不同状态之间的差异。第二类采用高斯分布或PSS指标模拟置信值,部分缓解了二进制设置造成的模糊。然而,强制模型回归给定的置信指标需要大量的模型容量。这种方法迫使学习专注于复杂的值拟合,而不是获得最佳识别能力。
除此之外,有些方法不把跟踪问题分为分类和回归两个子问题,而是将视频帧输入到神经网络中,该网络依次输出每帧中被跟踪对象的位置。并且使用视频序列和图像对跟踪器进行完全离线的训练。通过离线训练程序,跟踪器学习了外观和运动之间的一般关系,可用于在测试时跟踪新对象,无需在线训练。
发明内容
本发明的目的就在于为了解决上述问题设计了一种基于特定标签和损失函数的孪生视觉跟踪方法。
本发明通过以下技术方案来实现上述目的:
基于特定标签和损失函数的孪生视觉跟踪方法,包括:
S1、获取训练样本,训练样本包括训练示例和推理示例,训练示例和推理示例为训练对;
S2、基于孪生网络建立孪生视觉跟踪模型,孪生视觉跟踪模型包括模板分支、搜索分支和特征转化模块,模板分支和搜索分支为两个完全相同的孪生网络,特征交换层位于模板分支和搜索分支的特征提取之后,特征交换层用于模板分支的回归结果和搜索分支的分类结果;
S3、导入训练样本训练优化孪生视觉跟踪模型;
S4、将需要跟踪的视频导入优化后的孪生视觉跟踪模型进行跟踪。
本发明的有益效果在于:解决了传统孪生网络方法带来的语言模糊性,同时又将网络的重点导向更为重要的分辨能力,没有过分拟合值要求的大参数量;在超出大量跟踪器性能的基础上,速度也十分快;引入了新型的标签设计方法和损失函数,可以在不改变网络架构的基础上,在不同的跟踪器上进行使用,以提升性能。
附图说明
图1是本发明的孪生视觉跟踪模型深度学习架构图;
图2是本发明与现有技术的跟踪结果对比示意图;
实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要理解的是,术语“上”、“下”、“内”、“外”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,“设置”、“连接”等术语应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接连接,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
下面结合附图,对本发明的具体实施方式进行详细说明。
基于特定标签和损失函数的孪生视觉跟踪方法,包括:
S1、获取训练样本,训练样本包括训练示例和推理示例,训练示例和推理示例为训练对,训练样本包括静态图片和长时跟踪视频,当使用静态图片进行训练时,通过增强技术生成用于训练的图像对,将图像对的训练图片分别裁剪为303*303和127*127大小,对图像对的推理图片进行随机缩放和平移处理;当使用一个视频进行训练时,随机选择一个视频作为推理示例,并在该视频中随机选择一对相差不过大的帧作为训练示例。
S2、基于孪生网络建立孪生视觉跟踪模型,孪生视觉跟踪模型包括模板分支、搜索分支和特征转化模块,模板分支和搜索分支为两个完全相同的孪生网络,特征交换层位于模板分支和搜索分支的特征提取之后,特征交换层用于模板分支的回归结果和搜索分支的分类结果。
S3、导入训练样本训练优化孪生视觉跟踪模型;
S31、模板分支提取训练示例的特征并进行卷积层处理得到模板分类结果和模板回归结果;搜索分支提取推理示例的特征并进行卷积层处理得到搜索分类结果和搜索回归结果;
S32、特征交换层交换模板回归结果和搜索分类结果;
S33、在孪生视觉跟踪模型的分类分支采用基于通道的相乘方法对模板分类结果和搜索分类结果进行相关计算得到得分图,在孪生视觉跟踪模型的回归分支采用基于通道的相乘方法对模板回归结果和搜索回归结果进行相关计算得到偏移量图;
S34、计算得分图的分类得分损失和偏移量图的回归损失;
S35、加权分类得分损失和回归损失对孪生视觉跟踪模型进行优化更新。
S4、将需要跟踪的视频导入优化后的孪生视觉跟踪模型进行跟踪。
从需要跟踪视频的第一帧中裁剪目标模板,模板分支提取目标模板的特征并缓存,需要跟踪视频进入搜索分支;当下帧根据前一帧的目标位置裁剪搜索块并提取特征,并使用余弦窗口和尺度变化惩罚来平滑目标的移动和变化,然后选择具有最佳分数的预测框,并通过线性插值与前一帧中的状态更新其大小,搜索分支在当下帧域进行预测跟踪得到得分图和偏移量图。
进行跟踪具体包括:
S41、在输入图像时按序裁剪,选取某张图像块为x,其图像序列为X,对于输入图像Cij=(Ci,Cj)点在置信度图中的对应位置为(i,j),置信度图中所有状态记为s={Cij|(i,j)∈置图信度},状态空间为S包含了所有的子状态s,对于某个图像xk,将yk记为该图像中待跟踪目标的外围框的中心点坐标;
S42、将输入图像和状态空间写为{X,S},置信度的预测就等同于最小化的损失函数,其中θ代表网络f的参数组,l和v分别代表损失函数以及标签函数;
S43、将该预测问题建模为椭圆形状的高斯函数,其中,其中w和h分别代表目标框的宽和高,yi和yj分别代目标框中心点的横纵坐标,σ为目标跟踪领域的经验值,与图像目标区域和图像裁剪范围有关;
S44、通过概率函数判断任意相邻两个图像xi比xj更接近于目标真实位置是否成立,概率函数为,其中xi和xj分别代表两个图像块,fi fj代表对应的置信度;若成立则表示排序正确;否则排序错误进行一次累加并交换排序;
S45、采用交叉熵表示损失函数为,H是一个0-1值,排序正确为1,否则为0;
S46、结合排序相关性表损失函数,具体包括:排序图像的计算为ri=r(xi),其中ri为正确排序情况下的标签;定义衰减函数为,并引入其标准化项;对g进行归一化项计算为;则损失函数表示
解决了传统孪生网络方法带来的语言模糊性,同时又将网络的重点导向更为重要的分辨能力,没有过分拟合值要求的大参数量;在超出大量跟踪器性能的基础上,速度也十分快;引入了新型的标签设计方法和损失函数,可以在不改变网络架构的基础上,在不同的跟踪器上进行使用,以提升性能。
本发明的技术方案不限于上述具体实施例的限制,凡是根据本发明的技术方案做出的技术变形,均落入本发明的保护范围之内。

Claims (3)

1.基于特定标签和损失函数的孪生视觉跟踪方法,其特征在于,包括:
S1、获取训练样本,训练样本包括训练示例和推理示例,训练示例和推理示例为训练对;
S2、基于孪生网络建立孪生视觉跟踪模型,孪生视觉跟踪模型包括模板分支、搜索分支和特征转化模块,模板分支和搜索分支为两个完全相同的孪生网络,特征交换层位于模板分支和搜索分支的特征提取之后,特征交换层用于模板分支的回归结果和搜索分支的分类结果;
S3、导入训练样本训练优化孪生视觉跟踪模型;具体包括:
S31、模板分支提取训练示例的特征并进行卷积层处理得到模板分类结果和模板回归结果;搜索分支提取推理示例的特征并进行卷积层处理得到搜索分类结果和搜索回归结果;
S32、特征交换层交换模板回归结果和搜索分类结果;
S33、在孪生视觉跟踪模型的分类分支对模板分类结果和搜索分类结果进行相关计算得到得分图,在孪生视觉跟踪模型的回归分支对模板回归结果和搜索回归结果进行相关计算得到偏移量图;
S34、计算得分图的分类得分损失和偏移量图的回归损失;
S35、加权分类得分损失和回归损失对孪生视觉跟踪模型进行优化更新;
S4、将需要跟踪的视频导入优化后的孪生视觉跟踪模型进行跟踪;具体包括:
S41、选取某张图像块为x,其图像序列为X,对于输入图像Cij=(Ci,Cj)点在置信度图中的对应位置为(i,j),置信度图中所有状态记为s={Cij|(i,j)ϵ置信度图},状态空间为S包含了所有的子状态s,对于某个图像xk,将yk记为该图像中待跟踪目标的外围框的中心点坐标;
S42、将输入图像和状态空间写为{X,S},置信度的预测就等同于最小化的损失函数,其中θ代表网络f的参数组,l和v分别代表损失函数以及标签函数;
S43、将该预测问题建模为椭圆形状的高斯函数,其中,其中w和h分别代表目标框的宽和高,yi和yj分别代目标框中心点的横纵坐标,σ为目标跟踪领域的经验值,与图像目标区域和图像裁剪范围有关;
S44、通过概率函数判断任意两个图像xi比xj更接近于目标真实位置是否成立,概率函数为,其中xi和xj分别代表两个图像块,fi和fj代表对应的置信度;若成立则表示排序正确;否则排序错误进行一次累加并交换排序;
S45、采用交叉熵表示损失函数为,H是一个0-1值,排序正确为1,否则为0;
S46、结合排序相关性表损失函数,具体包括:排序图像的计算为ri=r(xi),其中ri为正确排序情况下的标签;定义衰减函数为,并引入其标准化项;对g进行归一化项计算为;则损失函数表示
2.根据权利要求1所述的基于特定标签和损失函数的孪生视觉跟踪方法,其特征在于,在S1中,训练样本包括静态图片和长时跟踪视频,当使用静态图片进行训练时,将训练图片对分别裁剪为303*303和127*127大小,对推理图片进行随机缩放和平移处理;当使用一个视频进行训练时,随机选择一个视频作为推理示例,并在该视频中随机选择一对相差不大的帧作为训练示例。
3.根据权利要求1所述的基于特定标签和损失函数的孪生视觉跟踪方法,其特征在于,在S4中,从需要跟踪视频的第一帧中裁剪目标模板,模板分支提取目标模板的特征并缓存,需要跟踪视频进入搜索分支;当下帧根据前一帧的目标位置裁剪搜索块并提取特征,搜索分支在当下帧域进行预测跟踪得到得分图和偏移量图。
CN202111165323.2A 2021-09-30 2021-09-30 基于特定标签和损失函数的孪生视觉跟踪方法 Active CN113870330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111165323.2A CN113870330B (zh) 2021-09-30 2021-09-30 基于特定标签和损失函数的孪生视觉跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111165323.2A CN113870330B (zh) 2021-09-30 2021-09-30 基于特定标签和损失函数的孪生视觉跟踪方法

Publications (2)

Publication Number Publication Date
CN113870330A CN113870330A (zh) 2021-12-31
CN113870330B true CN113870330B (zh) 2023-05-12

Family

ID=79001551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111165323.2A Active CN113870330B (zh) 2021-09-30 2021-09-30 基于特定标签和损失函数的孪生视觉跟踪方法

Country Status (1)

Country Link
CN (1) CN113870330B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210551A (zh) * 2019-05-28 2019-09-06 北京工业大学 一种基于自适应主体敏感的视觉目标跟踪方法
CN111179307A (zh) * 2019-12-16 2020-05-19 浙江工业大学 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法
CN112509008A (zh) * 2020-12-15 2021-03-16 重庆邮电大学 一种基于交并比引导孪生网络的目标跟踪方法
CN112712546A (zh) * 2020-12-21 2021-04-27 吉林大学 一种基于孪生神经网络的目标跟踪方法
CN113129335A (zh) * 2021-03-25 2021-07-16 西安电子科技大学 一种基于孪生网络的视觉跟踪算法及多模板更新策略
CN113255611A (zh) * 2021-07-05 2021-08-13 浙江师范大学 基于动态标签分配的孪生网络目标跟踪方法及移动设备
CN113344976A (zh) * 2021-06-29 2021-09-03 常州工学院 一种基于目标物表征点估计的视觉跟踪方法
CN113870312A (zh) * 2021-09-30 2021-12-31 四川大学 基于孪生网络的单目标跟踪方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10902615B2 (en) * 2017-11-13 2021-01-26 Qualcomm Incorporated Hybrid and self-aware long-term object tracking
KR20200136961A (ko) * 2018-03-23 2020-12-08 아비질론 코포레이션 관심 대상에 대한 이미지 검색을 촉진하기 위해 사용자와 상호 작용하는 방법 및 시스템
CN110060274A (zh) * 2019-04-12 2019-07-26 北京影谱科技股份有限公司 基于深度稠密连接的神经网络的视觉目标跟踪方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210551A (zh) * 2019-05-28 2019-09-06 北京工业大学 一种基于自适应主体敏感的视觉目标跟踪方法
CN111179307A (zh) * 2019-12-16 2020-05-19 浙江工业大学 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法
CN112509008A (zh) * 2020-12-15 2021-03-16 重庆邮电大学 一种基于交并比引导孪生网络的目标跟踪方法
CN112712546A (zh) * 2020-12-21 2021-04-27 吉林大学 一种基于孪生神经网络的目标跟踪方法
CN113129335A (zh) * 2021-03-25 2021-07-16 西安电子科技大学 一种基于孪生网络的视觉跟踪算法及多模板更新策略
CN113344976A (zh) * 2021-06-29 2021-09-03 常州工学院 一种基于目标物表征点估计的视觉跟踪方法
CN113255611A (zh) * 2021-07-05 2021-08-13 浙江师范大学 基于动态标签分配的孪生网络目标跟踪方法及移动设备
CN113870312A (zh) * 2021-09-30 2021-12-31 四川大学 基于孪生网络的单目标跟踪方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Feiyu Meng等.RHL-track: visual object tracking based on recurrent historical localization.《Neural Computing and Applications》.2023,第1-15页. *
Hao Zou等.F-Siamese Tracker: A Frustum-based Double Siamese Network for 3D Single Object Tracking.《2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)》.2021,第8133-8139页. *
孟晓燕等.基于相关滤波的目标跟踪算法研究综述.《北京工业大学学报》.2020,第1393-1416页. *
费大胜等.基于多层特征增强的实时视觉跟踪.《计算机应用》.2020,第3301-3305页. *

Also Published As

Publication number Publication date
CN113870330A (zh) 2021-12-31

Similar Documents

Publication Publication Date Title
CN111354017B (zh) 一种基于孪生神经网络及平行注意力模块的目标跟踪方法
CN111462175B (zh) 时空卷积孪生匹配网络目标跟踪方法、装置、介质及设备
CN112560656B (zh) 一种联合注意力机制端到端训练的行人多目标跟踪方法
CN111340738B (zh) 一种基于多尺度渐进融合的图像去雨方法
CN112966691B (zh) 基于语义分割的多尺度文本检测方法、装置及电子设备
CN112132856B (zh) 一种基于自适应模板更新的孪生网络跟踪方法
CN110728694B (zh) 一种基于持续学习的长时视觉目标跟踪方法
CN110942471B (zh) 一种基于时空约束的长时目标跟踪方法
CN112801047B (zh) 缺陷检测方法、装置、电子设备及可读存储介质
Hou et al. Distilling knowledge from object classification to aesthetics assessment
Yang et al. Diffusion model as representation learner
CN115393396B (zh) 一种基于掩码预训练的无人机目标跟踪方法
CN115690152A (zh) 一种基于注意力机制的目标追踪方法
CN111462184B (zh) 基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法
CN116229112A (zh) 一种基于多重注意力的孪生网络目标跟踪方法
CN115761888A (zh) 基于nl-c3d模型的塔吊操作人员异常行为检测方法
Qi et al. TCNet: A novel triple-cooperative network for video object detection
CN112967227B (zh) 基于病灶感知建模的糖尿病视网膜病变自动评估系统
CN108428234B (zh) 基于图像分割结果评价的交互式分割性能优化方法
CN113870330B (zh) 基于特定标签和损失函数的孪生视觉跟踪方法
CN116402690A (zh) 一种基于多头自注意力机制的高分辨率遥感影像中道路提取方法、系统、设备及介质
CN116012299A (zh) 一种基于目标识别的复合绝缘子憎水性等级检测方法
CN115147457A (zh) 基于时空感知的记忆增强型自监督跟踪方法及装置
CN113570611A (zh) 基于多特征融合解码器的矿物实时分割方法
CN114120202A (zh) 一种基于多尺度目标模型和特征融合的半监督视频目标分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant