CN112750148B - 一种基于孪生网络的多尺度目标感知跟踪方法 - Google Patents
一种基于孪生网络的多尺度目标感知跟踪方法 Download PDFInfo
- Publication number
- CN112750148B CN112750148B CN202110043796.9A CN202110043796A CN112750148B CN 112750148 B CN112750148 B CN 112750148B CN 202110043796 A CN202110043796 A CN 202110043796A CN 112750148 B CN112750148 B CN 112750148B
- Authority
- CN
- China
- Prior art keywords
- target
- follows
- picture
- tracking
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000008447 perception Effects 0.000 title claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 27
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 11
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 241000364483 Lipeurus epsilon Species 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
一种基于孪生网络的多尺度目标感知跟踪方法,在第一帧会根据标注的目标包围框,在图片中裁切出一块作为模板图片,并输入ResNet网络提取其特征;在后续的跟踪过程中,首先会根据上一帧的目标位置信息在当前帧裁切出一定大小的搜索区域图片;其次输入相同的ResNet网络提取其特征,并与模板特征做像素级相关计算,获得具有两者的相似性信息的相关特征;然后将相关特征依次通过通道注意力模块、非局部注意力模块和无锚的预测模块,获得分类图和一致的边框回归结果;最后,找到分类图中正样本概率最高的位置,并以此找到对应的对象边框;当前帧目标的定位信息预测完毕,进入下一帧循环。
Description
技术领域
本发明属于图像处理领域,是一种基于孪生网络的多尺度目标感知跟踪方法。
背景技术
目标跟踪是计算机视觉领域的重要研究方向之一,在机器人、人机交互、军事侦查、智能交通、虚拟现实等军事、民用领域都有广泛的应用。近年来,许多学者在目标跟踪方面开展了大量工作,并取得了一定的进展。但是,在复杂环境中仍存在目标外观变形(目标纹理、形状、姿态变化等)、光照变化、快速运动和运动模糊、背景相似干扰、平面内外旋转、尺度变化、遮挡和出视野等难题,使得复杂环境下稳定实时的目标跟踪仍然是一个具有挑战性的问题。
基于孪生网络的跟踪器通过学习模板特征和搜索特征生成的相似性相关特征来预测目标在当前帧的位置信息,成功的将目标跟踪问题转换为相似性度量问题。SiamFC通过学习从基础相关(-correlation)获得的单通道相似响应图来预测目标的边界框,从而取得了开创性的工作。然而,单通道响应图难以包含多尺度空间信息,对精确跟踪具有一定的局限性。为了克服跟踪过程中由于物体或相机运动引起的尺度变化,SiamRPN采用更好的相关方法获取更多的空间信息,并引入区域建议网络(RPN),利用精心设计的锚盒(anchor)对不同尺度的目标进行预测。SiamRPN++通过使用深度相关方法将相关特征的通道数增加到了256,同时使用了不同深度的ResNet的特征进行目标跟踪,极大的提升了跟踪精度。近年来,学者们发现预先设计的锚盒无法应对跟踪过程中的极端情况。因此,设计了更健壮、更准确的无锚跟踪器。然而,尽管有一些方法来解决跟踪过程中尺度变化的挑战。我们发现还有一个关键问题没有得到多少关注。当跟踪过程需要预测不同宽高比的包围框时,固定的方形的感受野引入了过多的背景噪声,导致跟踪漂移。这限制于以往的特征相关方法。模板特征的固定尺寸将导致相关特征中的每个位置都有一个固定的感受野。之后,固定尺寸(正方形)的感受野会使相关特征难以匹配到不同形状的物体。
发明内容
为了克服现有技术的不足,本发明提供一种基于孪生网络的多尺度目标感知跟踪方法,能够有效的获取分割图像的多尺度信息,从而提高了图像分割的精度。
为了解决上述技术问题本发明提供如下的技术方案:
一种基于孪生网络的多尺度目标感知跟踪方法,所述方法包括以下步骤:
S1.精细的特征聚合,过程如下:
S1.1根据视频序列第一帧获得的图片I1和目标的包围框信息B1,进行切片和变形获得跟踪模板Z1,在后续跟踪过程中,根据上一帧的跟踪结果Bi-1,对输入的图片Ii,i∈[2,n]进行切片和变形获得搜索图片Xi;
S1.2将获得的跟踪模板Z1和搜索图片Xi输入预训练好的深度残差网络“ResNet-50”,获得深度特征和/>模型会收集深度残差网络后三层(CONV3,CONV4,CONV5)输出的特征获得模板特征/>l∈{3,4,5}和搜索特征/>l∈{3,4,5};
S1.3将模板特征分解成h×w个子卷积核/>i∈{1,...,hw}。然后,将每个子卷积核与搜索特征/>进行基础相关(/>-correlation)后按通道进行连结,数学表达式如下:
其中,*表示基础相关计算,最后,将获得的特征l∈{3,4,5}和/>l∈{3,4,5}两两进行像素级相关(pixel-wise correlation)后按通道连结;
S2.注意力处理过程如下:
S2.1将相关特征RC输入通道注意力模块SENet中,首先,将相关特征RC每一层的特征图通过全局平均池化层(global average pooling layer)压缩成一条向量。
其中H和W是相关特征RC高和宽,然后将向量输入一个两层的多层感知机(multi-layer perception),最后,使用sigmoid函数将通道注意力权重映射到0-1区间,数学表达式如下:
其中,和/>是两个全连接层,σ表示sigmoid激活函数,Ac是获得的通道注意力权值,将通道注意力权值AC与相关特征RC逐通道进行元素间的相乘:
其中⊙表示扩展的元素方式乘法(broadcasting element-wise multiplication);
S2.2利用非局部注意力(Non-Local attention)来聚合全局上下文信息,首先将特征输入三个并行1X1卷积层(θ,φ,g)降低特征通道数,获得三个特征Xθ,Xφ,Xg后进行变形操作获得/>最后,通过矩阵乘法和softmax函数计算特征不同位置之间的响应值,数学表达式如下:
其中,表示矩阵乘法,然后再将ANL与/>矩阵乘法后通过一个1X1层卷积层/>恢复通道数,最后原始特征/>相加完成非局部注意力的优化过程:
其中,表示元素间的求和。/>与/>的尺寸一直,r1和r2都设置为1;
S3多尺度对象感知,过程如下:
S3.1将相关特征RA并行输入三个相似的卷积模块Φa,b,(a,b)∈{(7,7),(7,13),(13,7)},然后将获得的三个特征Φa,b(RA),(a,b)∈{(7,7),(7,13),(13,7)}按比例线性相加;
其中,a和b表示该卷积模块的总卷积核尺寸,XMOP是聚合多尺度对象信息后的特征,αa,b是与网络一起训练的超参数;为了降低算力负担,分别使用串联的三个小卷积层(kernel size=(3,3),stride=1padding=(0,0))Φ7,7,串联的三个小卷积层(kernelsize=(3,5),stride=1,padding=(0,1))表示Φ7,13,串联的三个小卷积层(kernel size=(5,3),stride=1,padding=(1,1))表示Φ13,7,如此,这三个卷积模块分别具有不同的宽高比的卷积感受野;
S4无锚预测过程如下:
S4.1将XMOP分别输入分类分支和边框回归分支,获得分类预测结果预测的是搜索区域中固定位置(pi,pj)中包含目标的概率和不包含目标的概率;
其中wim,him和s分别表示搜索图片的宽和高以及ResNet的总步长,这里的w=h=25,wim=him=255,s=8,边框回归分支预测结果为预测的是固定区域中心点到四个边框的距离;
l=pi-x0,t=pj-y0,r=x1-pi,b=y1-,pj其中,(x0,y0)和(x1,y1)分别表示目标包围框的左上和右下两个角点的坐标;
S4.2找到PCls中最大的正样本响应位置后,去PReg中查找包围框结果,最终获得目标跟踪结果。
进一步,所述方法还包括以下步骤:
S5训练流程如下;
S5.1对训练数据集进行预处理,选取视频序列中间隔为T的两帧,根据标注信息,依照S1.1的方法裁切模板图片和搜索图片到127×127和255×255尺寸;
S5.2样本标签选取,依照大小不同的两个椭圆来分配正样本(1)、负样本(0)和忽视样本(-1),数学公式如下:
其中,(pi,pj)是搜索图中固定锚点的位置,表示搜索图中目标的中心点和宽高;
S5.3依次经过S1-S4.1后,分类损失LCls和回归损失LReg分别是交叉熵损失和线性IOU(lntersection over Union),其中LCls定义如下:
其中PCls是预测结果,LReg定义如下:
其中,是/>中的正样本标签,PReg和G分别是预测结果和目标的标注结果,最后总体的损失函数为:
L=LCls+LReg (5);
S5.4训练过程中,批处理大小为128,学习率从0.001下降到0.0005,使用随机梯度下降算法(Stochastic Gradient Descent,SGD)迭代训练20次并保存每次迭代结果,前十次迭代冻结ResNet的参数,后十次迭代以整体网络学习率的十分之一开始训练。
一种基于孪生网络的多尺度目标感知跟踪系统(SiamMOP),包括以下四个子模块:精细特征聚合模块、注意力模块(包括通道注意力模块和非局部力注意模块)、多尺度对象感知模块(MOP)和无锚模块,SiamMOP从共享的特征提取网络ResNet开始,通过精细特征聚合模块聚合模板块和搜索块之间的特征信息;然后注意力模块结合模板特征的关键局部信息和搜索特征的上下文背景信息对相关特征进行微调;MOP模块集成了不同长宽比的相似性信息,确保每个正样本位置都能匹配不同宽高比的对象信息;无锚预测会将输入的特征进行降维,获得通道数为2的分类图和通道数为4的边框回归结果。最终算法根据分类图和边框回归结果就可以定位跟踪目标。
本发明的有益效果为:能够有效的获取跟踪区域的多尺度信息,从而提高了目标跟踪的精度。
附图说明
图1是SiamMOP的整体网络框架图。
图2是第一帧裁切的模板图。
图3是当前帧裁切的搜索图。
图4是通道注意力模块的网络框架图。
图5是非局部注意力模块的网络框架图。
图6是多尺度对象感知模块的网络框架图。
图7是无锚的预测模块的网络框架图。
图8是一种基于孪生网络的多尺度目标感知跟踪方法的跟踪流程图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图7,一种基于孪生网络的多尺度目标感知跟踪方法,包括以下步骤:
S1.精细的特征聚合,过程如下:
S1.1根据视频序列第一帧获得的图片I1和目标的包围框信息B1,进行切片和变形获得跟踪模板Z1,如图2所示;在后续跟踪过程中,根据上一帧的跟踪结果Bi-1,对输入的图片Ii,i∈[2,n]进行切片和变形获得搜索图片Xi,如图3所示;
S1.2将获得的跟踪模板Z1和搜索图片Xi输入预训练好的深度残差网络“ResNet-50”,获得深度特征和/>模型会收集深度残差网络后三层(CONV3,CONV4,CONV5)输出的特征获得模板特征/>l∈{3,4,5}和搜索特征/>l∈{3,4,5};
S1.3将模板特征分解成h×w个子卷积核/>i∈{1,...,hw}。然后,将每个子卷积核与搜索特征/>进行基础相关(/>-correlation)后按通道进行连结,数学表达式如下:
其中,*表示基础相关计算,最后,将获得的特征l∈{3,4,5}和/>l∈{3,4,5}两两进行像素级相关(pixel-wise correlation)后按通道连结;
S2.注意力处理过程如下:
S2.1如图4所示是本发明的通道注意力模块网络图。将相关特征RC输入通道注意力模块SENet中,首先,将相关特征RC每一层的特征图通过全局平均池化层(globalaverage pooling layer)压缩成一条向量;
其中H和W是相关特征RC高和宽,然后将向量输入一个两层的多层感知机(multi-layer perception),最后,使用sigmoid函数将通道注意力权重映射到0-1区间,数学表达式如下:
其中,和/>是两个全连接层,σ表示sigmoid激活函数,Ac是获得的通道注意力权值,将通道注意力权值AC与相关特征RC逐通道进行元素间的相乘:
其中⊙表示扩展的元素方式乘法(broadcasting element-wise multiplication),
S2.2如图5所示是本发明的非局部注意力模块网络图,利用非局部注意力(Non-Local attention)来聚合全局上下文信息,首先将特征输入三个并行1×1卷积层(θ,φ,g)降低特征通道数,获得三个特征Xθ,Xφ,Xg后进行变形操作获得最后,通过矩阵乘法和softmax函数计算特征不同位置之间的响应值,数学表达式如下:
其中,表示矩阵乘法,然后再将ANL与/>矩阵乘法后通过一个1×1层卷积层/>恢复通道数,最后原始特征/>相加完成非局部注意力的优化过程:
其中,表示元素间的求和,/>与/>的尺寸一直,r1和r2都设置为1;
S3多尺度对象感知,过程如下:
S3.1如图6所示是本发明的多尺度对象感知模块网络图,将相关特征RA并行输入三个相似的卷积模块Φa,b,(a,b)∈{(7,7),(7,13),(13,7)},这三个卷积模块分别再图6中的上中下三个分支,然后将获得的三个特征Φa,b(RA),(a,b)∈{(7,7),(7,13),(13,7)}按比例线性相加;
其中,a和b表示该卷积模块的总卷积核尺寸,XMOP是聚合多尺度对象信息后的特征,αa,b是与网络一起训练的超参数,为了降低算力负担,分别使用串联的三个小卷积层(kernel size=(3,3),stride=1padding=(0,0))Φ7,7,串联的三个小卷积层(kernelsize=(3,5),stride=1,padding=(0,1))表示Φ7,13,串联的三个小卷积层(kernel size=(5,3),stride=1,padding=(1,1))表示Φ13,7。如此,这三个卷积模块分别具有不同的宽高比的卷积感受野;
S4无锚的预测,过程如下:
S4.1如图7所示是本发明的无锚的预测模块网络图,将XMOP分别输入分类分支和边框回归分支,获得分类预测结果预测的是搜索区域中固定位置(pi,pj)中包含目标的概率和不包含目标的概率;
其中wim,him和s分别表示搜索图片的宽和高以及ResNet的总步长,这里的w=h=25,wim=him=255,s=8,边框回归分支预测结果为预测的是固定区域中心点到四个边框的距离,
l=pi-x0,t=pj-y0,r=x1-pi,b=y1-,pj其中,(x0,y0)和(x1,y1)分别表示目标包围框的左上和右下两个角点的坐标,
S4.2找到PCls中最大的正样本响应位置后,去PReg中查找包围框结果,最终获得目标跟踪结果;
S5训练流程如下:
S5.1对训练数据集进行预处理,选取视频序列中间隔为T的两帧,根据标注信息,依照S1.1的方法裁切模板图片和搜索图片到127×127和255×255尺寸;
S5.2样本标签选取,依照大小不同的两个椭圆来分配正样本(1)、负样本(0)和忽视样本(-1),数学公式如下:
其中,(pi,pj)是搜索图中固定锚点的位置,表示搜索图中目标的中心点和宽高;
S5.3依次经过S1-S4.1后,分类损失LCls和回归损失LReg分别是交叉熵损失和线性IOU(lntersection over Union),其中LCls定义如下:
其中PCls是预测结果,LReg定义如下:
其中,是/>中的正样本标签,PReg和G分别是预测结果和目标的标注结果,最后总体的损失函数为:
L=LCls+LReg (5)
S5.4训练过程中,批处理大小为128,学习率从0.001下降到0.0005,使用随机梯度下降算法(Stochastic Gradient Descent,SGD)迭代训练20次并保存每次迭代结果,前十次迭代冻结ResNet的参数,后十次迭代以整体网络学习率的十分之一开始训练。
本实施例的基于孪生网络的多尺度目标感知跟踪系统(SiamMOP)包括以下四个子模块:精细特征聚合模块、注意力模块(包括通道注意力模块和非局部力注意模块)、多尺度对象感知模块(MOP)和无锚的预测模块,如图1所示,SiamMOP从共享的特征提取网络ResNet开始,通过精细特征聚合模块聚合模板块和搜索块之间的特征信息;然后注意力模块结合模板特征的关键局部信息和搜索特征的上下文背景信息对相关特征进行微调;此外,MOP模块集成了不同长宽比的相似性信息,确保每个正样本位置都能匹配不同宽高比的对象信息;无锚的预测模块会将输入的特征进行降维,获得通道数为2的分类图和通道数为4的边框回归结果。最终算法根据分类图和边框回归结果就可以定位跟踪目标。
如图8所示,本发明在第一帧会根据标注的目标包围框,在图片中裁切出一块作为模板图片,并输入ResNet网络提取其特征。在后续的跟踪过程中,首先会根据上一帧的目标位置信息在当前帧裁切出一定大小的搜索区域图片。其次输入相同的ResNet网络提取其特征,并与模板特征做像素级相关计算,获得具有两者的相似性信息的相关特征。然后将相关特征依次通过通道注意力模块、非局部注意力模块和无锚的预测模块,获得分类图和一致的边框回归结果。最后,找到分类图中正样本概率最高的位置,并以此找到对应的对象边框。当前帧目标的定位信息预测完毕,进入下一帧循环。
Claims (2)
1.一种基于孪生网络的多尺度目标感知跟踪方法,其特征在于,所述方法包括以下步骤:
S1.精细的特征聚合,过程如下:
S1.1根据视频序列第一帧获得的图片I1和目标的包围框信息B1,进行切片和变形获得跟踪模板Z1,在后续跟踪过程中,根据上一帧的跟踪结果Bi-1,对输入的图片Ii,i∈[2,n]进行切片和变形获得搜索图片Xi;
S1.2将获得的跟踪模板Z1和搜索图片Xi输入预训练好的深度残差网络“ResNet-50”,获得深度特征和/>模型会收集深度残差网络后三层CONV3,CONV4,CONV5输出的特征获得模板特征/> 和搜索特征/>
S1.3将模板特征分解成h×w个子卷积核/>然后,将每个子卷积核与搜索特征/>进行基础相关naive-correlation后按通道进行连结,数学表达式如下:
其中,*表示基础相关计算,最后,将获得的特征和/> 两两进行像素级相关pixel-wise correlation后按通道连结;
S2.注意力处理过程如下:
S2.1将相关特征RC输入通道注意力模块SENet中,首先,将相关特征RC每一层的特征图通过全局平均池化层压缩成一条向量;
其中H和W是相关特征RC高和宽,然后将向量输入一个两层的多层感知机,最后,使用sigmoid函数将通道注意力权重映射到0-1区间,数学表达式如下:
其中,和/>是两个全连接层,σ表示sigmoid激活函数,Ac是获得的通道注意力权值,将通道注意力权值AC与相关特征RC逐通道进行元素间的相乘:
其中⊙表示扩展的元素方式乘法;
S2.2利用非局部注意力Non-Local attention来聚合全局上下文信息,首先将特征输入三个并行1X1卷积层(θ,φ,g)降低特征通道数,获得三个特征Xθ,Xφ,Xg后进行变形操作获得/>最后,通过矩阵乘法和softmax函数计算特征不同位置之间的响应值,数学表达式如下:
其中,表示矩阵乘法,然后再将ANL与/>矩阵乘法后通过一个1X1层卷积层/>恢复通道数,最后原始特征/>相加完成非局部注意力的优化过程:
其中,表示元素间的求和,/>与/>的尺寸一直,r1和r2都设置为1;
S3多尺度对象感知,过程如下:
S3.1将相关特征RA并行输入三个相似的卷积模块Φa,b,(a,b)∈{(7,7),(7,13),(13,7)},然后将获得的三个特征Φa,b(RA),(a,b)∈{(7,7),(7,13),(13,7)}按比例线性相加;
其中,a和b表示该卷积模块的总卷积核尺寸,XMOP是聚合多尺度对象信息后的特征,αa,b是与网络一起训练的超参数;为了降低算力负担,分别使用串联的三个小卷积层kernelsize=(3,3),stride=1,padding=(0,0)表示Φ7,7,串联的三个小卷积层kernel size=(3,5),stride=1,padding=(0,1)表示Φ7,13,串联的三个小卷积层kernel size=(5,3),stride=1,padding=(1,1)表示Φ13,7,如此,这三个卷积模块分别具有不同的宽高比的卷积感受野;
S4无锚预测过程如下:
S4.1将XMOP分别输入分类分支和边框回归分支,获得分类预测结果 预测的是搜索区域中固定位置(pi,pj)中包含目标的概率和不包含目标的概率;
其中wim,him和s分别表示搜索图片的宽和高以及ResNet的总步长,这里的w=h=25,wim=him=255,s=8,边框回归分支预测结果为预测的是固定区域中心点到四个边框的距离;
l=pi-x0,t=pj-y0,r=x1-pi,b=y1-,pj
其中,(x0,y0)和(x1,y1)分别表示目标包围框的左上和右下两个角点的坐标;
S4.2找到pCls中最大的正样本响应位置后,去pReg中查找包围框结果,最终获得目标跟踪结果。
2.如权利要求1所述的一种基于孪生网络的多尺度目标感知跟踪方法,其特征在于,所述方法还包括以下步骤:
S5训练流程如下;
S5.1对训练数据集进行预处理,选取视频序列中间隔为T的两帧,根据标注信息,依照S1.1的方法裁切模板图片和搜索图片到127×127和255×255尺寸;
S5.2样本标签选取,依照大小不同的两个椭圆来分配正样本(1)、负样本(0)和忽视样本(-1),数学公式如下:
其中,(pi,pj)是搜索图中固定锚点的位置,表示搜索图中目标的中心点和宽高;
S5.3依次经过S1-S4.1后,分类损失LCls和回归损失LReg分别是交叉熵损失和线性IOU,其中LCls定义如下:
其中PCls是预测结果,LReg定义如下:
其中,是/>中的正样本标签,PReg和G分别是预测结果和目标的标注结果,最后总体的损失函数为:
L=LCls+LReg (5);
S5.4训练过程中,批处理大小为128,学习率从0.001下降到0.0005,使用随机梯度下降算法迭代训练20次并保存每次迭代结果,前十次迭代冻结ResNet的参数,后十次迭代以整体网络学习率的十分之一开始训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110043796.9A CN112750148B (zh) | 2021-01-13 | 2021-01-13 | 一种基于孪生网络的多尺度目标感知跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110043796.9A CN112750148B (zh) | 2021-01-13 | 2021-01-13 | 一种基于孪生网络的多尺度目标感知跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112750148A CN112750148A (zh) | 2021-05-04 |
CN112750148B true CN112750148B (zh) | 2024-03-22 |
Family
ID=75651206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110043796.9A Active CN112750148B (zh) | 2021-01-13 | 2021-01-13 | 一种基于孪生网络的多尺度目标感知跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112750148B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283584B (zh) * | 2021-05-21 | 2022-03-25 | 北京大学 | 一种基于孪生网络的知识追踪方法及系统 |
CN113297959B (zh) * | 2021-05-24 | 2024-07-09 | 南京邮电大学 | 一种基于角点注意力孪生网络的目标跟踪方法及系统 |
CN113792631B (zh) * | 2021-08-31 | 2023-01-10 | 电子科技大学 | 一种基于多尺度自适应与边域注意力的飞行器检测与跟踪方法 |
CN113808166B (zh) * | 2021-09-15 | 2023-04-18 | 西安电子科技大学 | 基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法 |
CN113591811A (zh) * | 2021-09-28 | 2021-11-02 | 湖南大学 | 零售货柜商品搜索识别方法、系统及计算机可读存储介质 |
CN113592915B (zh) * | 2021-10-08 | 2021-12-14 | 湖南大学 | 端到端旋转框目标搜索方法、系统及计算机可读存储介质 |
CN114820792A (zh) * | 2022-04-29 | 2022-07-29 | 西安理工大学 | 一种基于混合注意力的相机定位方法 |
CN117058190B (zh) * | 2023-07-07 | 2024-09-03 | 国网江苏省电力有限公司南京供电分公司 | 基于三重注意力机制的孪生网络目标跟踪方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179307A (zh) * | 2019-12-16 | 2020-05-19 | 浙江工业大学 | 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法 |
CN111291679A (zh) * | 2020-02-06 | 2020-06-16 | 厦门大学 | 一种基于孪生网络的目标特定响应注意力目标跟踪方法 |
CN111354017A (zh) * | 2020-03-04 | 2020-06-30 | 江南大学 | 一种基于孪生神经网络及平行注意力模块的目标跟踪方法 |
-
2021
- 2021-01-13 CN CN202110043796.9A patent/CN112750148B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179307A (zh) * | 2019-12-16 | 2020-05-19 | 浙江工业大学 | 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法 |
CN111291679A (zh) * | 2020-02-06 | 2020-06-16 | 厦门大学 | 一种基于孪生网络的目标特定响应注意力目标跟踪方法 |
CN111354017A (zh) * | 2020-03-04 | 2020-06-30 | 江南大学 | 一种基于孪生神经网络及平行注意力模块的目标跟踪方法 |
Non-Patent Citations (1)
Title |
---|
基于目标感知特征筛选的孪生网络跟踪算法;陈志旺;张忠新;宋娟;罗红福;彭勇;;光学学报(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112750148A (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112750148B (zh) | 一种基于孪生网络的多尺度目标感知跟踪方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN108154118B (zh) | 一种基于自适应组合滤波与多级检测的目标探测系统及方法 | |
CN111626176B (zh) | 一种基于动态注意力机制的遥感目标快速检测方法及系统 | |
CN110033473B (zh) | 基于模板匹配和深度分类网络的运动目标跟踪方法 | |
CN113065558A (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN111310861A (zh) | 一种基于深度神经网络的车牌识别和定位方法 | |
CN111507271A (zh) | 一种机载光电视频目标智能化检测与识别方法 | |
CN111242208A (zh) | 一种点云分类方法、分割方法及相关设备 | |
CN110796686A (zh) | 目标跟踪方法及设备、存储装置 | |
CN111738344A (zh) | 一种基于多尺度融合的快速目标检测方法 | |
CN110610210B (zh) | 一种多目标检测方法 | |
CN112884742A (zh) | 一种基于多算法融合的多目标实时检测、识别及跟踪方法 | |
CN111627050A (zh) | 一种目标跟踪模型的训练方法和装置 | |
CN112232134A (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN115375737B (zh) | 基于自适应时间与序列化时空特征的目标跟踪方法与系统 | |
CN112489088A (zh) | 一种基于记忆单元的孪生网络视觉跟踪方法 | |
CN116310852A (zh) | 双时相遥感影像无监督分类与变化检测方法及系统 | |
CN116740418A (zh) | 一种基于图重构网络的目标检测方法 | |
CN115239765A (zh) | 基于多尺度可形变注意力的红外图像目标跟踪系统及方法 | |
CN115049945A (zh) | 一种基于无人机图像的小麦倒伏面积提取方法和装置 | |
CN111008630A (zh) | 一种基于弱监督学习的目标定位方法 | |
CN113298850B (zh) | 一种基于注意力机制与特征融合的目标跟踪方法及系统 | |
CN112991394B (zh) | 基于三次样条插值和马尔科夫链的kcf目标跟踪方法 | |
CN107358625A (zh) | 基于SPP Net和感兴趣区域检测的高分辨SAR图像变化检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |