CN113793359A - 一种融合孪生网络与相关滤波的目标跟踪方法 - Google Patents

一种融合孪生网络与相关滤波的目标跟踪方法 Download PDF

Info

Publication number
CN113793359A
CN113793359A CN202110982258.6A CN202110982258A CN113793359A CN 113793359 A CN113793359 A CN 113793359A CN 202110982258 A CN202110982258 A CN 202110982258A CN 113793359 A CN113793359 A CN 113793359A
Authority
CN
China
Prior art keywords
target
network
scale
feature
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110982258.6A
Other languages
English (en)
Other versions
CN113793359B (zh
Inventor
胡秀华
陈媛
刘焕
惠燕
梁颖宇
吴玺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Technological University
Original Assignee
Xian Technological University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Technological University filed Critical Xian Technological University
Priority to CN202110982258.6A priority Critical patent/CN113793359B/zh
Publication of CN113793359A publication Critical patent/CN113793359A/zh
Application granted granted Critical
Publication of CN113793359B publication Critical patent/CN113793359B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种融合孪生网络与相关滤波的目标跟踪方法包括如下:步骤一、利用ResNet50网络提取图像特征;步骤二、通过注意力机制,将不同网络层次的特征进行融合,得到融合边缘与语义特性的判别性特征;步骤三、将自适应尺度与学习速率调整的背景感知相关滤波模型引入网络结构,设计更新策略,实现对目标模板信息进行有效更新;该方法能够通过利用注意力机制方法优化目标表观特征信息的描述,利用自适应尺度与学习速率调整的背景感知相关滤波模型设计模型更新策略,并通过相似性判定准则与置信图得到目标最佳位置,最终有效适应遮挡、尺度变化、快速运动、旋转形变及运动模糊等多种复杂因素的影响,实现准确的目标运动状态估计。

Description

一种融合孪生网络与相关滤波的目标跟踪方法
技术领域
本发明属于目标跟踪技术领域,具体涉及一种融合孪生网络与相关滤波的目标跟踪方法。
背景技术
随着深度学习技术的发展,诸多研究学者将深度学习技术应用于目标跟踪框架中,并且取得了较为优异的跟踪结果。现阶段基于深度学习理论的目标跟踪方法成为目标跟踪技术研究方案的主流,一般由于神经网络的卷积特征能够更为鲁棒性的描述目标外观信息变化,目标模型在应用中更具有广泛性。
有文献利用全卷积孪生神经网络结构学习目标相关特征,通过计算搜索区域与模板区域之间的相似性,得到目标区域的响应图,但是网络实现过程未考虑到跟踪过程中模板更新策略,面对复杂环境的影响,跟踪模型易产生漂移。有文献将深度神经网络与相关滤波相结合,提出端到端的目标跟踪框架,在相关滤波模型机制中利用深度特征对目标信息进行有效描述,从而提高了模型性能且模型实时性也存在保障。有文献通过融合浅层特征与深层特征构建目标外观模型,复杂环境下能够有效的区分被跟踪目标信息与背景信息。网络训练过程中引入光流信息,可以在一定程度上提高特征表达能力,同时加入了时空注意力机制充分利用目标的前景信息,从而达到精确定位。有文献将循环神经网络产生的深度特征作用于卷积神经网络构建的目标外观模型中,从而提高了外观模型的表达能力。有文献利用循环神经网络构建序列关联模型,完成信息之间的转换,将有遮挡的环境信息转换为无遮挡的环境信息,从而降低了跟踪过程中遮挡因素的影响。有文献基于目标检测思想将目标跟踪任务划分为两个阶段,即目标分类和目标评价,该方法实现过程中利用深度回归网络构建目标分类模块,以达到粗略的获取目标位置的目的,其中,目标估计网络中引入交并比最大化概念,从而使得矩形框与目标真实位置更加吻合。
为了更好地解决目标在具有遮挡、光照变化、形变、运动模糊等多种复杂环境下容易出现跟踪漂移的问题,本发明设计提出一种融合孪生网络与相关滤波的目标跟踪方法。首先,引入数据增强算法,通过旋转、光照变化等处理手段增强模型训练数据集,然后,引入相关滤波模型,将其视为网络模型中的一层,从而设计模型更新更新策略,最后,通过相似性判定准则得到和目标模板最相似的候选样本,通过响应图的置信度选择目标当前位置,实现目标的准确的跟踪。
发明内容
为了更好地解决目标在具有遮挡、光照变化、形变、运动模糊等多种复杂环境下容易出现跟踪漂移的问题,本发明设计提出一种融合孪生网络与相关滤波的目标跟踪方法。
首先,引入数据增强算法,通过旋转、光照变化等处理手段增强模型训练数据集,然后,引入相关滤波模型,将其视为网络模型中的一层,从而设计模型更新更新策略,最后,通过相似性判定准则得到和目标模板最相似的候选样本,通过响应图的置信度选择目标当前位置,实现目标的准确的跟踪。
如图1所示,一种融合孪生网络与相关滤波的目标跟踪方法,包括如下步骤:
步骤一、利用ResNet50网络提取图像特征;
步骤二、通过注意力机制,将不同网络层次的特征进行融合,得到融合边缘与语义特性的判别性特征;
步骤三、将自适应尺度与学习速率调整的背景感知相关滤波模型引入网络结构,设计更新策略,实现对目标模板信息进行有效更新。
进一步的,所述步骤一、利用ResNet50网络提取图像特征的具体过程是:
S201、输入图像经过7*7卷积层,步长为2,生成64通道图像;
S202、进行归一化及步长为2的池化处理;
S203、依次传入4个Bottleneck子网络,输出图像大小逐层递减至原始参数的1/32,通道数为2048;
S204、通过全连接层设计得到预期维度的目标特征。
进一步的,所述注意力机制包括通道注意力模块、空间注意力模块以及交叉注意力模块。
进一步的,如图2所示,所述通道注意力模块的处理过程是:
首先,利用全局平均池化操作对目标特征图
Figure BDA0003229574160000031
进行处理,将大小为w×h×n的特征图转换成大小为1×1×n的向量bk,即
Figure BDA0003229574160000032
其中,k为向量个数,k=1,2,3...n表示特征图通道数量,向量bk中各元素值每个通道内特征值的平均和;
其次,将向量bk作为全连接层的输入,利用激活函数ReLU进行激活操作,为将通道权重参数归一化,提高网络训练速度;
再次,连接全连接层并用激活函数sigmoid进行处理,使得通道权重位于[0,1],通过网络迭代训练得到通道权重系数ε,其中单个元素计算方式εk如下:
Figure BDA0003229574160000041
其中,σi和σj分别表示网络权重,对其赋予随机初始值;最后,将单个元素权重系数εk与目标特征图单个通道
Figure BDA0003229574160000042
进行点乘运算,获取通道注意力模块优化的特征图:
Figure BDA0003229574160000043
其中,·表示点乘。
进一步的,所述空间注意力模块的处理过程是:
首先,以目标特征图
Figure BDA0003229574160000044
作为输入,为提高空间注意力模块运算速度,模型设计中首先利用1×1尺寸卷积核对输入特征进行降维操作,其次利用不同残差块对降维特征
Figure BDA0003229574160000045
进行优化,如残差块1特征c1,残差块2特征c2,残差块3特征c3
Figure BDA0003229574160000046
其中,μ1、μ2、μ3表示不同的卷积核,卷积核大小依次为3×3,3×3,5×5;
将残差块2特征c2进行转置操作,同时与残差块1特征c1进行点乘操作,利用softmax激活函数对相似结果进行归一化处理;值得注意的是,计算过程中,i和j均取不同数值,同时a和b均取不同数值,从而获得大小与特征图等同的空间注意力图,其元素值表示特征图中不同位置的重要性程度,即
Figure BDA0003229574160000051
其中,T表示特征图的转置操作,Yi,j表示特征图中第i个与第j个位置的相关性;
将空间注意力图Yi,j与残差块3特征c3进行点乘操作,获取经空间注意力机制优化后的目标特征图,即
Figure BDA0003229574160000052
进一步的,如图3所示,所述交叉注意力模块的处理过程是:记搜索区域特征图为
Figure BDA0003229574160000053
利用全局平均池化操作降低搜索区域特征维度,从而获得通道特征向量v=[v1,v2,...vn],其中n表示特征图
Figure BDA0003229574160000054
的通道数量;进而传入全连接层,利用ReLu激活函数对其进行处理,并将激活后的特征图作为下一全连接层的输入,进而利用Sigmoid函数对其进行非线性处理获得权重向量;最终将搜索区域特征图
Figure BDA0003229574160000055
与通道权重系数ε进行相乘,获取最终的交叉注意力机制特征图
Figure BDA0003229574160000056
进一步的,所述融合边缘与语义特性的判别性特征为
Figure BDA0003229574160000057
其中,
Figure BDA0003229574160000058
表示通道注意力模块优化的特征,
Figure BDA0003229574160000059
表示空间注意力模块优化特征,
Figure BDA00032295741600000510
表示交叉注意力模块优化特征,ζ1,ζ2,ζ3分别表示各个模块权重,依次初始化为0.4,0.4,0.2。
进一步的,所述背步骤三、将自适应尺度与学习速率调整的背景感知相关滤波模型引入网络结构,设计更新策略,实现目标模板信息的有效更新的具体过程是:
首先,获得最佳尺度相关滤波器,估计目标尺度:
Figure BDA0003229574160000061
其中,wscale为尺度相关滤波器,λ为正则化系数,
其次,利用目标尺度变化调整搜索区域比例大小,从而有效调整目标搜索区域大小:
Figure BDA0003229574160000062
其中,init_tsz表示初始目标大小,featureR表示细胞单元大小,search_asold为上一帧目标的搜索区域比例,snew为当前帧对应的目标尺度,sold为上一帧对应的目标尺度;
为准确估计目标遮挡程度,由Gapce量化置信图整体波动情况:
Figure BDA0003229574160000063
其中:max(v(i)),min(v(i)),v(i)分别表示置信图中最大置信值、最小置信值和每一个位置的置信值;
再次,利用最大置信值与置信图的波动情况调整学习速率:
Figure BDA0003229574160000064
其中,a,b,α1和ζ为经验值,ηold为上一帧的学习速率,t为视频序列帧数;
最终,利用自适应学习速率更新背景感知相关滤波以及尺度滤波模型。
进一步的,所述更新策略的具体过程是:将模板分支特征图与搜索区域特征图进行卷积运算操作,计算目标模板与搜索区域的相似性,获得相似度置信图,其相关性计算公式为:
Figure BDA0003229574160000071
其中,
Figure BDA0003229574160000072
为利用图像特征学习的相关滤波模块;
为优化目标跟踪性能,自适应尺度与学习速率调整的背景感知相关滤波模型应与目标的期望响应yi实现最小化,即:
Figure BDA0003229574160000073
其中,wcx表示自适应尺度与学习速率调整的背景感知相关滤波模型参数;
引入拉格朗日对偶性求得网络中的最优解为
Figure BDA0003229574160000074
其中,x*表示复数共轭。
本发明的优点是:本发明提供这种融合孪生网络与相关滤波的目标跟踪方法,能够通过利用注意力机制方法优化目标表观特征信息的描述,利用自适应尺度与学习速率调整的背景感知相关滤波模型设计模型更新策略,并通过相似性判定准则与置信图得到目标最佳位置,最终有效适应遮挡、尺度变化、快速运动、旋转形变及运动模糊等多种复杂因素的影响,实现准确的目标运动状态估计。
下面结合附图和实施例对本发明做详细说明。
附图说明
图1是本发明方法实现原理框图。
图2是通道注意力模块和空间注意力模块设计框图。
图3是交叉注意力模块原理图。
图4不同方法对于典型视频序列中目标的部分时刻跟踪效果示意图。
图5a不同方法在典型测试序列集上的性能评价结果准确率示意图。
图5b不同方法在典型测试序列集上的性能评价结果成功率示意图。
具体实施方式
为进一步阐述本发明达成预定目的所采取的技术手段及功效,以下结合附图及实施例对本发明的具体实施方式、结构特征的功效,详细说明如下。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“垂直”、“水平”、“对齐”、“重叠”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征;在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
实施例1
为了更好地解决目标在具有遮挡、光照变化、形变、运动模糊等多种复杂环境下容易出现跟踪漂移的问题,本发明设计提出一种融合孪生网络与相关滤波的目标跟踪方法。
首先,引入数据增强算法,通过旋转、光照变化等处理手段增强模型训练数据集,然后,引入相关滤波模型,将其视为网络模型中的一层,从而设计模型更新更新策略,最后,通过相似性判定准则得到和目标模板最相似的候选样本,通过响应图的置信度选择目标当前位置,实现目标的准确的跟踪。
一种融合孪生网络与相关滤波的目标跟踪方法,包括如下步骤:
步骤一、利用ResNet50网络提取图像特征;
步骤二、通过注意力机制,将不同网络层次的特征进行融合,得到融合边缘与语义特性的判别性特征;
步骤三、将自适应尺度与学习速率调整的背景感知相关滤波模型引入网络结构,设计更新策略,实现对目标模板信息进行有效更新。
进一步的,所述步骤一、利用ResNet50网络提取图像特征中的ResNet50网络为提取图像特征的典型结构,在本实施例提取图像特征的具体过程是:
S201、输入图像经过7*7卷积层,步长为2,生成64通道图像;
S202、进行归一化及步长为2的池化处理;
S203、依次传入4个Bottleneck子网络,输出图像大小逐层递减至原始参数的1/32,通道数为2048;
S204、通过全连接层设计得到预期维度的目标特征。
进一步的,所述注意力机制包括通道注意力模块、空间注意力模块以及交叉注意力模块。
进一步的,所述通道注意力模块的处理过程是:
首先,利用全局平均池化操作对目标特征图
Figure BDA0003229574160000101
进行处理,将大小为w×h×n的特征图转换成大小为1×1×n的向量bk,即
Figure BDA0003229574160000102
其中,k为向量个数,k=1,2,3...n表示特征图通道数量,向量bk中各元素值为每个通道内特征值的平均和;
其次,将向量bk作为全连接层的输入,利用激活函数ReLU进行激活操作,为将通道权重参数归一化;
再次,连接全连接层并用激活函数sigmoid进行处理,使得通道权重位于[0,1],通过网络迭代训练得到通道权重系数ε,其中单个元素计算方式εk如下:
Figure BDA0003229574160000103
其中,σi和σj分别表示网络权重,对其赋予随机初始值;最后,将单个元素权重系数εk与目标特征图单个通道
Figure BDA0003229574160000104
进行点乘运算,获取通道注意力模块优化的特征图:
Figure BDA0003229574160000105
其中,·表示点乘。
进一步的,上述激活函数ReLU、激活函数sigmoid均为常用函数,激活函数ReLU定义式为f(x)=max(0,x);激活函数sigmoid的定义式为f(x)=1/(1+exp(-x))。
进一步的,所述空间注意力模块的处理过程是:
首先,以目标特征图
Figure BDA0003229574160000111
作为输入,为提高空间注意力模块运算速度,模型设计中首先利用1×1尺寸卷积核对输入特征进行降维操作,其次利用不同残差块对降维特征
Figure BDA0003229574160000112
进行优化,如残差块1特征c1,残差块2特征c2,残差块3特征c3
Figure BDA0003229574160000113
其中,μ1、μ2、μ3表示不同的卷积核,卷积核大小依次为3×3,3×3,5×5;
将残差块2特征c2进行转置操作,同时与残差块1特征c1进行点乘操作,利用softmax激活函数对相似结果进行归一化处理;计算过程中,i和j均取不同数值,同时a和b均取不同数值,从而获得大小与特征图等同的空间注意力图,其元素值表示特征图中不同位置的重要性程度,即
Figure BDA0003229574160000114
其中,T表示特征图的转置操作,Yi,j表示特征图中第i个与第j个位置的相关性;
将空间注意力图Yi,j与残差块3特征c3进行点乘操作,获取经空间注意力机制优化后的目标特征图,即
Figure BDA0003229574160000115
进一步的,softmax激活函数是常用函数,公式为
Figure BDA0003229574160000116
即在softmax的作用下会计算出相似结果的概率,加和为1。
进一步的,所述交叉注意力模块的处理过程是:记搜索区域特征图为
Figure BDA0003229574160000121
利用全局平均池化操作降低搜索区域特征维度,从而获得通道特征向量v=[v1,v2,...vn],其中n表示特征图
Figure BDA0003229574160000122
的通道数量;进而传入全连接层,利用ReLu激活函数对其进行处理,并将激活后的特征图作为下一全连接层的输入,进而利用Sigmoid函数对其进行非线性处理获得权重向量;最终将搜索区域特征图
Figure BDA0003229574160000123
与通道权重系数ε进行相乘,获取最终的交叉注意力机制特征图
Figure BDA0003229574160000124
进一步的,所述融合边缘与语义特性的判别性特征为
Figure BDA0003229574160000125
其中,
Figure BDA0003229574160000126
表示通道注意力模块优化的特征,
Figure BDA0003229574160000127
表示空间注意力模块优化特征,
Figure BDA0003229574160000128
表示交叉注意力模块优化特征,ζ1,ζ2,ζ3分别表示各个模块权重,依次初始化为0.4,0.4,0.2。
进一步的,所述背步骤三、将自适应尺度与学习速率调整的背景感知相关滤波模型引入网络结构,设计更新策略,实现目标模板信息的有效更新的具体过程是:
首先,获得最佳尺度相关滤波器,估计目标尺度:
Figure BDA0003229574160000129
其中,wscale为尺度相关滤波器,λ为正则化系数,
其次,利用目标尺度变化调整搜索区域比例大小,从而有效调整目标搜索区域大小:
Figure BDA00032295741600001210
其中,init_tsz表示初始目标大小,featureR表示细胞单元大小,search_asold为上一帧目标的搜索区域比例,snew为当前帧对应的目标尺度,sold为上一帧对应的目标尺度;
为准确估计目标遮挡程度,由Gapce量化置信图整体波动情况:
Figure BDA0003229574160000131
其中:max(v(i)),min(v(i)),v(i)分别表示置信图中最大置信值、最小置信值和每一个位置的置信值;
再次,利用最大置信值与置信图的波动情况调整学习速率:
Figure BDA0003229574160000132
其中,a,b,α1和ζ为经验值,ηold为上一帧的学习速率,t为视频序列帧数;
最终,利用自适应学习速率更新背景感知相关滤波以及尺度滤波模型。
进一步的,所述更新策略的具体过程是:将模板分支特征图与搜索区域特征图进行卷积运算操作,计算目标模板与搜索区域的相似性,获得相似度置信图,其相关性计算公式为:
Figure BDA0003229574160000133
其中,
Figure BDA0003229574160000134
为利用图像特征学习的相关滤波模块;
为优化目标跟踪性能,自适应尺度与学习速率调整的背景感知相关滤波模型应与目标的期望响应yi实现最小化,即:
Figure BDA0003229574160000141
其中,wcx表示自适应尺度与学习速率调整的背景感知相关滤波模型参数;
引入拉格朗日对偶性求得网络中的最优解为
Figure BDA0003229574160000142
其中,x*表示复数共轭。
实施例2
首先初始化训练模型参数,预训练网络模型,确定初始帧目标信息,实现目标位置预测,利用注意力机制融合多层特征,进而自适应目标外观信息变化,并结合自适应尺度与学习速率调整的背景感知相关滤波算法,将其视为网络中的一层,利用相似性计算预测目标位置。具体实现如下:
输入:第t(t>1)帧视频序列以及相应参数。
输出:目标位置。
目标跟踪模型预训练:
Step1.利用ImageNet数据集对结合注意力机制与相关滤波理论的目标跟踪算法进行预训练;
Step2.利用ResNet50网络对图像特征进行处理;
Step2.训练过程中迭代次数为20,每次迭代样本数量为50000;
Step3.采用SGD梯度下降方法对模型进行调整,学习速率为10-2~10-5
目标跟踪:
Step4.将模板区域与搜索区域作为输入数据,并提取两者特征;
Step5.分别利用公式(3)和公式(6)获取通道注意力优化特征和空间注意力优化特征,并利用公式(7)进行特征融合处理;
Step6.利用公式(14)求解相关滤波模型;
Step7.通过置信图获取目标位置。
实施例3
本方法的实现平台及参数:以PyTorch框架构建卷积神经网络,Matlab2017b,pycharm编译器,Ubuntu操作系统为开发环境。网络实现过程中,目标模板大小为127*127*3,候选区域大小为255*255*3,模型权重参数衰减率为0.00001,动量值设置为0.9,训练周期数设置为20,初始化学习速率为0.01,池化步长为2,相关滤波层学习速率初始值为0.006,正则化参数λ设置为0.0001,尺度参数s初始化为0.97,a为0.1,b为0.083,ζ为60。
在实验验证阶段,选择典型的OTB100数据集进行测试,为验证本设计方法的有效性,选取8种典型跟踪方法进行对比分析,包括未添加注意力机制的融合孪生网络与自适应尺度与学习速率调整的背景感知相关滤波算法(our1),全卷积孪生网络目标跟踪算法(SiamFC),孪生候选区域生成网络(SIAMRPN),深度特征处理的SRDCF模型(DeepSRDCF),端到端目标跟踪算法之第一层特征模型(CFNet1camera),端到端目标跟踪算法之第二层特征模型(CFNet2camera),端到端目标跟踪算法之第五层特征模型(CFNet5camera),改进的孪生候选区域生成网络(TADT)。选择8种具有多种复杂影响因素的典型测试序列定性分析实验结果,并采用中心位置误差、边界框重叠率与跟踪速度定量评价各跟踪算法性能。
定性分析
为了更加直观的描述不同方法的跟踪性能,选取并给出明显受尺度变化、遮挡干扰和形变等因素影响的Deer等8个测试序列依据不同跟踪方法得到的部分时刻跟踪效果,具体如图4所示。
从图4中(a)和(b)可以看出,Deer测试序列存在运动模糊、快速运动、背景干扰等,目标在跟踪视野内受到背景干扰以及快速运动等因素的影响,CFNet1camera方法利用第一层卷积特征进行目标外观描述,当目标受到复杂因素影响的时候产生明显的跟踪漂移现象,SiamFC及本发明方法能够完成整个视频的跟踪。Skating1测试序列受尺度变化、遮挡、形变、快速运动等影响,在目标受到的强烈光照变化因素影响时,CFNet1camera方法产生较为明显的跟踪误差,但是本发明方法和SIAMRPN等多种方法均能够准确跟踪目标,当目标受到相似物遮挡时,本发明方法能够比其他方法更为准确地跟踪目标。
从图4中(c)和(d)可以看出,Tiger1测试序列存在尺度变化、平面内旋转、平面外旋转、快速运动与遮挡等属性,当目标尺度发生明显变化,CFNet1camera和TADT方法产生较小的跟踪误差,当目标受到不同程度的遮挡因素以及尺度变化的影响时,CFNet2camera等多种方法均产生较为明显的跟踪误差,本发明方法利用不同层次的特征特点对图像信息进行描述,能够更加适应复杂环境变化。Singer1测试序列存在光照变化、尺度变化、平面外旋转等属性,在整个运动过程中,目标发生不同层次的尺度变化与强烈的光照变化,SIAMRPN等方法都产生了一定的跟踪误差,而利用交叉注意力模块结合目标特征以及搜索区域特征构建观测模型的本方法取得了更高的鲁棒性。
从图4中(e)和(f)可以看出,FaceOcc1测试序列存在明显的遮挡干扰,当目标受到更为严重的遮挡因素影响时,CFNet5camera方法与SiamFC方法产生明显的跟踪漂移现象,本发明方法利用交叉注意力模块处理搜索区域特征对模板特征的影响,使得跟踪模型能够准确的跟踪目标,直至整个跟踪序列。Sylvester测试序列存在尺度变化、遮挡、形变、快速运动等属性,当目标受到平面内旋转以及尺度变化因素的影响时,目标外观发生明显变化,SiamFC等方法发生明显的跟踪误差,本发明方法利用搜索区域特征对目标模板特征进行更新,能够准确的跟踪目标直至整个跟踪序列的完成。
从图4中(g)和(h)可以看出,Trellis序列存在光照变化、尺度变化、遮挡等属性,目标在光照变化因素的影响下,SiamFC算法产生较小的跟踪误差,当目标发生形变及尺寸变化时,CFNet1camera方法产生明显的跟踪漂移,CFNet2camera和本发明方法利用融合特征描述目标外观变化,能够更为鲁棒地跟踪目标。Skater2测试序列存在尺度变化、快速运动、运动模糊等属性,当目标受到尺度变化以及形变因素的影响时,CFNet5camera和CFNet1camera方法产生较为明显的跟踪漂移,而本发明方法能够较为准确地跟踪目标。
定量分析
为了验证本发明设计方法的跟踪性能,采用典型的跟踪性能评估方法(One-PassEvaluation,OPE)完成定量评价,针对不同方法数据集上各测试序列的跟踪结果绘制精确率和成功率曲线,具体如图5a、图5b所示。
由图5a、图5b可知,在整体准确率与成功率方面,本发明方法综合性能明显优于SiamFC等其他方法,相较于SiamFC方法在准确率方面至少提升16.2%,成功率方面至少提升16%。由此可见,该新发明方法利用注意力机制对图像特征进行优化处理,从而丰富了图像信息的判别性描述,为达到优化模型更新的目的,该方法引入自适应尺度与学习速率调整的背景感知相关滤波模型,从而实现有效的稳定跟踪。
综合以上定性定量评价结果可以得出,本发明新给出的一种融合孪生网络与相关滤波的目标跟踪方法能够通过利用注意力机制方法优化目标表观特征信息的描述,利用自适应尺度与学习速率调整的背景感知相关滤波模型设计模型更新策略,并通过相似性判定准则与置信图得到目标最佳位置,最终有效适应遮挡、尺度变化、快速运动、旋转形变及运动模糊等多种复杂因素的影响,实现准确的目标运动状态估计。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (9)

1.一种融合孪生网络与相关滤波的目标跟踪方法,其特征在于,包括如下步骤:
步骤一、利用ResNet50网络提取图像特征;
步骤二、通过注意力机制,将不同网络层次的特征进行融合,得到融合边缘与语义特性的判别性特征;
步骤三、将自适应尺度与学习速率调整的背景感知相关滤波模型引入网络结构,设计更新策略,实现对目标模板信息进行有效更新。
2.如权利要求1所述的一种融合孪生网络与相关滤波的目标跟踪方法,其特征在于:所述步骤一、利用ResNet50网络提取图像特征的具体过程是:
S201、输入图像经过7*7卷积层,步长为2,生成64通道图像;
S202、进行归一化及步长为2的池化处理;
S203、依次传入4个Bottleneck子网络,输出图像大小逐层递减至原始参数的1/32,通道数为2048;
S204、通过全连接层设计得到预期维度的目标特征。
3.如权利要求1所述的一种融合孪生网络与相关滤波的目标跟踪方法,其特征在于:所述注意力机制包括通道注意力模块、空间注意力模块以及交叉注意力模块。
4.如权利要求3所述的一种融合孪生网络与相关滤波的目标跟踪方法,其特征在于:所述通道注意力模块的处理过程是:
首先,利用全局平均池化操作对目标特征图
Figure FDA0003229574150000011
进行处理,将大小为w×h×n的特征图转换成大小为1×1×n的向量bk,即
Figure FDA0003229574150000012
其中,k为向量个数,k=1,2,3...n表示特征图通道数量,向量bk中各元素值为每个通道内特征值的平均和,n为特征图通道数量个数;
其次,将向量bk作为全连接层的输入,利用激活函数ReLU进行激活操作,为将通道权重参数归一化;
再次,连接全连接层并用激活函数sigmoid进行处理,使得通道权重位于[0,1],通过网络迭代训练得到通道权重系数ε,其中单个元素计算方式εk如下:
Figure FDA0003229574150000021
其中,σi和σj分别表示网络权重,对其赋予随机初始值;
最后,将单个元素权重系数εk与目标特征图单个通道
Figure FDA0003229574150000022
进行点乘运算,获取通道注意力模块优化的特征图:
Figure FDA0003229574150000023
其中,·表示点乘。
5.如权利要求3所述的一种融合孪生网络与相关滤波的目标跟踪方法,其特征在于:所述空间注意力模块的处理过程是:
首先,以目标特征图
Figure FDA0003229574150000024
作为输入,利用1×1尺寸卷积核对输入特征进行降维操作;
其次,利用不同残差块对降维特征
Figure FDA0003229574150000025
进行优化:
Figure FDA0003229574150000026
其中,μ1、μ2、μ3表示不同的卷积核,卷积核大小依次为3×3,3×3,5×5,残差块包括残差块1特征c1,残差块2特征c2,残差块3特征c3
再次,将残差块2特征c2进行转置操作,同时与残差块1特征c1进行点乘操作,利用softmax激活函数对相似结果进行归一化处理获得大小与特征图等同的空间注意力图;其中,i和j均取不同数值,同时a和b均取不同数值,其元素值表示特征图中不同位置的重要性程度,即
Figure FDA0003229574150000031
其中,T表示特征图的转置操作,Yi,j表示特征图中第i个与第j个位置的相关性;
最后,将空间注意力图Yi,j与残差块3特征c3进行点乘操作,获取经空间注意力机制优化后的目标特征图,即
Figure FDA0003229574150000032
6.如权利要求1所述的一种融合孪生网络与相关滤波的目标跟踪方法,其特征在于:所述交叉注意力模块的处理过程是:记搜索区域特征图为
Figure FDA0003229574150000033
利用全局平均池化操作降低搜索区域特征维度,从而获得通道特征向量v=[v1,v2,...vn],其中n表示特征图
Figure FDA0003229574150000034
的通道数量;进而传入全连接层,利用ReLu激活函数对其进行处理,并将激活后的特征图作为下一全连接层的输入,进而利用Sigmoid函数对其进行非线性处理获得权重向量;最终将搜索区域特征图
Figure FDA0003229574150000035
与通道权重系数ε进行相乘,获取最终的交叉注意力机制特征图
Figure FDA0003229574150000036
7.如权利要求1所述的一种融合孪生网络与相关滤波的目标跟踪方法,其特征在于:所述融合边缘与语义特性的判别性特征为
Figure FDA0003229574150000037
其中,
Figure FDA0003229574150000041
表示通道注意力模块优化的特征,
Figure FDA0003229574150000042
表示空间注意力模块优化特征,
Figure FDA0003229574150000043
表示交叉注意力模块优化特征,ζ1,ζ2,ζ3分别表示各个模块权重,依次初始化为0.4,0.4,0.2。
8.如权利要求1所述的一种融合孪生网络与相关滤波的目标跟踪方法,其特征在于:所述背步骤三、将自适应尺度与学习速率调整的背景感知相关滤波模型引入网络结构,设计更新策略,实现目标模板信息的有效更新的具体过程是:
首先,获得最佳尺度相关滤波器,估计目标尺度:
Figure FDA0003229574150000044
其中,wscale为尺度相关滤波器,λ为正则化系数,
其次,利用目标尺度变化调整搜索区域比例大小,从而有效调整目标搜索区域大小:
Figure FDA0003229574150000045
其中,init_tsz表示初始目标大小,featureR表示细胞单元大小,search_asold为上一帧目标的搜索区域比例,snew为当前帧对应的目标尺度,sold为上一帧对应的目标尺度;
为准确估计目标遮挡程度,由Gapce量化置信图整体波动情况:
Figure FDA0003229574150000046
其中:max(v(i)),min(v(i)),v(i)分别表示置信图中最大置信值、最小置信值和每一个位置的置信值;
再次,利用最大置信值与置信图的波动情况调整学习速率:
Figure FDA0003229574150000051
其中,a,b,α1和ζ为经验值,ηold为上一帧的学习速率,t为视频序列帧数;
最终,利用自适应学习速率更新背景感知相关滤波以及尺度滤波模型。
9.如权利要求8所述的一种融合孪生网络与相关滤波的目标跟踪方法,其特征在于:所述更新策略的具体过程是:将模板分支特征图与搜索区域特征图进行卷积运算操作,计算目标模板与搜索区域的相似性,获得相似度置信图,其相关性计算公式为:
Figure FDA0003229574150000052
其中,
Figure FDA0003229574150000053
为利用图像特征学习的相关滤波模块;
为优化目标跟踪性能,自适应尺度与学习速率调整的背景感知相关滤波模型应与目标的期望响应yi实现最小化,即:
Figure FDA0003229574150000054
其中,wcx表示自适应尺度与学习速率调整的背景感知相关滤波模型参数;
引入拉格朗日对偶性求得网络中的最优解为
Figure FDA0003229574150000055
其中,x*表示复数共轭。
CN202110982258.6A 2021-08-25 2021-08-25 一种融合孪生网络与相关滤波的目标跟踪方法 Active CN113793359B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110982258.6A CN113793359B (zh) 2021-08-25 2021-08-25 一种融合孪生网络与相关滤波的目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110982258.6A CN113793359B (zh) 2021-08-25 2021-08-25 一种融合孪生网络与相关滤波的目标跟踪方法

Publications (2)

Publication Number Publication Date
CN113793359A true CN113793359A (zh) 2021-12-14
CN113793359B CN113793359B (zh) 2024-04-05

Family

ID=79182283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110982258.6A Active CN113793359B (zh) 2021-08-25 2021-08-25 一种融合孪生网络与相关滤波的目标跟踪方法

Country Status (1)

Country Link
CN (1) CN113793359B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114049381A (zh) * 2021-12-21 2022-02-15 重庆大学 一种融合多层语义信息的孪生交叉目标跟踪方法
CN114519847A (zh) * 2022-01-13 2022-05-20 东南大学 一种适用于车路协同感知系统的目标一致性判别方法
CN114926498A (zh) * 2022-04-26 2022-08-19 电子科技大学 一种基于时空约束与可学习特征匹配的快速目标跟踪方法
CN117058190A (zh) * 2023-07-07 2023-11-14 国网江苏省电力有限公司南京供电分公司 基于三重注意力机制的孪生网络目标跟踪方法和系统
CN117876428A (zh) * 2024-03-12 2024-04-12 金锐同创(北京)科技股份有限公司 基于图像处理的目标跟踪方法、装置、计算机设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291679A (zh) * 2020-02-06 2020-06-16 厦门大学 一种基于孪生网络的目标特定响应注意力目标跟踪方法
CN112348849A (zh) * 2020-10-27 2021-02-09 南京邮电大学 一种孪生网络视频目标跟踪方法及装置
WO2021035807A1 (zh) * 2019-08-23 2021-03-04 深圳大学 一种融合光流信息和Siamese框架的目标跟踪方法及装置
WO2021108680A1 (en) * 2019-11-25 2021-06-03 Strong Force Iot Portfolio 2016, Llc Intelligent vibration digital twin systems and methods for industrial environments

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021035807A1 (zh) * 2019-08-23 2021-03-04 深圳大学 一种融合光流信息和Siamese框架的目标跟踪方法及装置
WO2021108680A1 (en) * 2019-11-25 2021-06-03 Strong Force Iot Portfolio 2016, Llc Intelligent vibration digital twin systems and methods for industrial environments
CN111291679A (zh) * 2020-02-06 2020-06-16 厦门大学 一种基于孪生网络的目标特定响应注意力目标跟踪方法
CN112348849A (zh) * 2020-10-27 2021-02-09 南京邮电大学 一种孪生网络视频目标跟踪方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周双双;宋慧慧;张开华;樊佳庆;: "基于增强语义与多注意力机制学习的深度相关跟踪", 计算机工程, no. 02 *
董吉富;刘畅;曹方伟;凌源;高翔;: "基于注意力机制的在线自适应孪生网络跟踪算法", 激光与光电子学进展, no. 02 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114049381A (zh) * 2021-12-21 2022-02-15 重庆大学 一种融合多层语义信息的孪生交叉目标跟踪方法
CN114519847A (zh) * 2022-01-13 2022-05-20 东南大学 一种适用于车路协同感知系统的目标一致性判别方法
CN114519847B (zh) * 2022-01-13 2024-10-01 东南大学 一种适用于车路协同感知系统的目标一致性判别方法
CN114926498A (zh) * 2022-04-26 2022-08-19 电子科技大学 一种基于时空约束与可学习特征匹配的快速目标跟踪方法
CN117058190A (zh) * 2023-07-07 2023-11-14 国网江苏省电力有限公司南京供电分公司 基于三重注意力机制的孪生网络目标跟踪方法和系统
CN117058190B (zh) * 2023-07-07 2024-09-03 国网江苏省电力有限公司南京供电分公司 基于三重注意力机制的孪生网络目标跟踪方法和系统
CN117876428A (zh) * 2024-03-12 2024-04-12 金锐同创(北京)科技股份有限公司 基于图像处理的目标跟踪方法、装置、计算机设备及介质
CN117876428B (zh) * 2024-03-12 2024-05-17 金锐同创(北京)科技股份有限公司 基于图像处理的目标跟踪方法、装置、计算机设备及介质

Also Published As

Publication number Publication date
CN113793359B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
CN113793359B (zh) 一种融合孪生网络与相关滤波的目标跟踪方法
CN112348849B (zh) 一种孪生网络视频目标跟踪方法及装置
CN108596053B (zh) 一种基于ssd和车辆姿态分类的车辆检测方法和系统
CN105243398B (zh) 基于线性判别分析准则的改进卷积神经网络性能的方法
KR102219346B1 (ko) 베이지안 최적화를 수행하기 위한 시스템 및 방법
CN107689052B (zh) 基于多模型融合和结构化深度特征的视觉目标跟踪方法
CN112329760B (zh) 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
Guo et al. A generalized and robust method towards practical gaze estimation on smart phone
CN113705769A (zh) 一种神经网络训练方法以及装置
WO2023061102A1 (zh) 视频行为识别方法、装置、计算机设备和存储介质
US20240257423A1 (en) Image processing method and apparatus, and computer readable storage medium
CN110047096B (zh) 一种基于深度条件随机场模型的多目标跟踪方法和系统
CN114863348B (zh) 基于自监督的视频目标分割方法
CN114913379B (zh) 基于多任务动态对比学习的遥感图像小样本场景分类方法
CN107945210A (zh) 基于深度学习和环境自适应的目标跟踪算法
CN106530330B (zh) 基于低秩稀疏的视频目标跟踪方法
Wu et al. Improvement of Mask-RCNN object segmentation algorithm
Yin et al. Pyramid tokens-to-token vision transformer for thyroid pathology image classification
CN117973568A (zh) 一种基于自监督知识蒸馏策略的多模态学习方法
CN112053386B (zh) 基于深度卷积特征自适应集成的目标跟踪方法
Durasov et al. Enabling Uncertainty Estimation in Iterative Neural Networks
CN117710728A (zh) Sar图像目标识别方法、装置、计算机设备和存储介质
CN111062406B (zh) 一种面向异构领域适应的半监督最优传输方法
CN112347965A (zh) 一种基于时空图的视频关系检测方法和系统
Lu et al. Learning discriminated features based on feature pyramid networks and attention for multi-scale object detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant