CN116645625A - 基于卷积Transformer联合的目标跟踪方法 - Google Patents
基于卷积Transformer联合的目标跟踪方法 Download PDFInfo
- Publication number
- CN116645625A CN116645625A CN202310250878.XA CN202310250878A CN116645625A CN 116645625 A CN116645625 A CN 116645625A CN 202310250878 A CN202310250878 A CN 202310250878A CN 116645625 A CN116645625 A CN 116645625A
- Authority
- CN
- China
- Prior art keywords
- layer
- tracking
- target
- network
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000004044 response Effects 0.000 claims abstract description 17
- 238000010586 diagram Methods 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000010276 construction Methods 0.000 claims abstract description 4
- 238000010606 normalization Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000002776 aggregation Effects 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000012856 packing Methods 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 25
- 230000000694 effects Effects 0.000 abstract description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010020751 Hypersensitivity Diseases 0.000 description 1
- 206010034719 Personality change Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于卷积Transformer联合的目标跟踪方法,包括以下步骤:S1:获取训练视频集和测试视频集;S2:构建CTFormer骨干网络,将视频送入构建网络中;S3:采用CAM模块对两分支特征进行增强;S4:自适应动态调整搜索区域的跟踪;S5:将特征响应图送入目标跟踪网络中,完成目标分类定位。本发明提取响应图中高于一定阈值的响应点,得到包含目标信息的候选图像,并放入训练好的回归模型进行位置预测,能够在不损失过多性能下降低算法复杂度,提升算法效率,同时还能提升目标位置准确性,能够获得更好的跟踪效果和更快的跟踪速度。
Description
技术领域
本发明属于模式识别与智能计算、图像处理的技术领域,特别涉及一种基于卷积Transformer联合的目标跟踪方法。
背景技术
视频目标跟踪是计算机视觉领域中一个重要的方向,在军事、医学、安防、无人驾驶等领域有广泛的应用。但是在实际工程中经常存在目标姿态变化、背景干扰、遮挡、尺度变化等情况影响跟踪效果。此外,算法是否满足实时性也是评价跟踪算法是否能够应用的重要指标。因此在满足实时性的前提下,提高算法在复杂场景中的跟踪精度具有重要意义。
近年来基于孪生网络的跟踪方法因其具有精度高、速度快的特点成为目标跟踪算法的主流方向。SiamFC全面完整地将孪生网络引入目标跟踪中,将目标跟踪看作为简单的相似性度量问题。使用浅层网络AlexNet提取特征,使用卷积度量两分支的相似性,为后续的发展提供了一个新的方向。SiamRPN将检测领域中的区域提议网络引入到跟踪算法中,一定程度上解决了SiamFC的尺度问题,跟踪精度和速度有了一定的提高,但是RPN的引入带来了部分超参,使得网络对于超参过于敏感。SiamRPN++和SiamDW通过深度分析孪生网络跟踪算法的特点,将骨干网络从浅层的AlexNet、GoogleNet等推广到了深层的ResNet,为后续的发展提供了扎实的基础。2020年同时期提出的SiamFC++和SiamCAR算法再一次将目标检测中的Anchor-Free的策略引入到跟踪领域中,缓解了超参敏感的问题,提升了跟踪精度。2021年流行的TransT、STARK、TrDiMP等方法在孪生网路上引入了Transformer进行特征的增强和融合,对算法的跟踪效果带来了较大幅度的提升。
然而,基于Siamese网络的跟踪算法仅仅考虑响应图中最大响应点,而忽略了其他响应点重要性,没有对其进行综合考虑,这样可能会降低对目标位置预测的精确性。同时在尺度方面,大多数算法只取几个不同的系数对目标尺度进行预测或借鉴R-CNN中的回归思想对目标周围截取大量图像进行回归预测来定位目标的精确位置。前者算法只是对目标尺度乘以不同的尺度系数,并找出响应值最高的尺度框作为目标的最终位置,当目标发生较大尺度变化时缺少相应的尺度系数,预测能力显著降低;后者算法在回归预测环节提取大量图像样本特征,增加算法的运算量,降低算法效率。
虽然当前基于Transformer的目标跟踪方法性能获得了极大的提高,但是目前为止其本质上只是简单使用Transformer进行特征的增强和融合,没有充分利用Transformer的长距离依赖属性,无法完全发挥出Transformer的优势。此外Transformer相对于卷积神经网络具有更高的计算量,导致相关算法的网络过于臃肿难以真正投入使用,而且因其长距离依赖属性导致在提取视觉特征时有天然的缺陷无法获取丰富的局部信息,而卷积神经网络恰好在此方面有一定优势。
发明内容
基于此,因此本发明的首要目地是提供一种基于卷积Transformer联合的目标跟踪方法,该方法能够获得更好的跟踪效果和更快的跟踪速度。
本发明的另一个目地在于提供一种人基于卷积Transformer联合的目标跟踪方法,该方法以卷积和窗口注意力串联的方式和层次化的结构构建了一个通用的目标跟踪骨干网络CTFormer,利用互注意力机制构建了特征互增强与聚合网络简化了网络结构,降低计算量并提高跟踪速度;同时,结合目标运动速度估计提出自适应调整搜索区域的跟踪策略,进一步提高跟踪精度。
为实现上述目的,本发明的技术方案为:
一种基于卷积Transformer联合的目标跟踪方法,其特征在于包括以下步骤:
S1:获取训练视频集和测试视频集;
S2:构建CTFormer骨干网络,将视频送入构建网络中;
S3:采用CAM模块对两分支特征进行增强;
S4:自适应动态调整搜索区域的跟踪;
S5:将特征响应图送入目标跟踪网络中,完成目标分类定位。
本发明采用一种基于区域建议的回归模型,提取响应图中高于一定阈值的响应点,得到包含目标信息的候选图像,并放入训练好的回归模型进行位置预测,能够在不损失过多性能下降低算法复杂度,提升算法效率,同时还能提升目标位置准确性,能够获得更好的跟踪效果和更快的跟踪速度。
其中,S1步骤中:获取训练视频集和测试视频集;所述训练视频集和测试视频集从无人机目标跟踪视频数据集中获得。
S2步骤中:构建CTFormer骨干网络,整个网络由浅层特征提取层、CTFromer模块、池化层组成,分为4个阶段,各个阶段的CTFromer模块数量设置为{2,2,8,2};其中浅层特征提取层直接使用EfficientNetV2网络的前三个阶段来提取底层特征,同时调整该层输出通道数为96,总步长为4,特征图分辨率降低4倍;池化层为简单的2倍下采样并调整输出通道数为输入的2倍。
其中,卷积Transformer结合的模块命名为CTFromer,所述CTFromer模块由归一化层(LN)、卷积层(Conv)、多层感知器层(MLP)、窗口注意力层(WMSA)组成,其中xl为第l层的输入,xl+1为第l+1层输入也为第l层的输出,xl+2为第l+1层输出;具体计算过程如下所示:
使用窗口注意力代替原Transformer中计算量庞大的全局自注意力。其中窗口注意力层仅在固定尺寸为8的窗口内计算局部注意力,相对于全局注意力具有更小的计算量,虽然无法像全局注意力一样建模全局特性,但使用局部注意力相对全局注意力在实际跟踪任务中仅有细微的精度损失。为了弥补精度的损失,在前端接入了一个同样以卷积代替全局注意力的类Transformer模块,二者串联成对出现组成CTFromer模块。
S3步骤中:采用CAM模块对两分支特征进行增强;所述CAM模块采用残差网络的思想结合多头互注意、归一化、前馈神经网络设计而成,整个CAM模块的计算过程可以描述为如下所示:
其中Xq为本分支的输入,Pq为Xq的空间位置编码,Xkv为另一分支的输入,Pkv为Xkv的空间位置编码,位置编码均由正弦函数生成。进而可以通过多头互注意力(MHCA)获得两分支的相似性后结合残差连接及归一化获得初步聚合增强后的本分支特征然后经过由两个线性变换和一个ReLU激活函数组成的前馈神经网络进行空间变换增加模型的表现能力、最终通过残差连接和归一化获得聚合增强后本分支特征XCAM。
CAM模块交叉使用,分别对两分支的特征进行增强,组成特征互增强与聚合网络。对其重复多次获取更具有判别性的特征,同时也可借助CAM模块度量两分支的相似性,获得相应图。
S4步骤中:自适应动态调整搜索区域的跟踪;
首先设置初始搜索区域放大倍数为3,进行跟踪获取连续5帧的目标中心点位置(xi,yi)、(xi+1,yi+1)、(xi+2,yi+2)、(xi+3,yi+3),计算相邻两帧的中心点偏差如下式所示:
(△x1,△y1)=(|xi+1-xi|,|yi+1-yi|)
(△x2,△y2)=(|xi+2-xi+1|,|yi+2-yi+1|)
(△x3,△y3)=(|xi+3-xi+2|,|yi+3-yi+2|)
(△x4,△y1)=(|xi+4-xi+2|,|yi+4-yi+3|)
并计算相对于x轴和y轴运动距离的最大值如下式所示:
d1=max(△x1,△y1);d2=max(△x2,△y2)
d3=max(△x3,△y3);d4=max(△x4,△y4)
根据4个相邻两帧运动距离的最大值d1,d2,d3,d4调整搜索区域的放大倍数s。设置搜索区域放大倍数s和d1,d2,d3,d4的关系如下式所示:
该策略相对于固定搜索区域放大倍数的策略具有更好的性能,而且能够减少大尺寸目标图像不必要的Padding操作,提高推理速度。
与现有技术相比,本发明的有益效果如下:
本发明充分利用卷积神经网络与Transfomer的特性,在特征提取方面,利用卷积丰富的局部信息和Transformer的长距离依赖属性,以卷积和窗口注意力串联的方式和层次化的结构构建了一个通用的目标跟踪骨干网络CTFormer;在特征融合方面,仅利用互注意力机制构建了特征互增强与聚合网络简化了网络结构,抛弃了繁琐的编码-解码过程,降低计算量并提高跟踪速度;在搜索区域选择方面,结合目标运动速度估计提出自适应调整搜索区域的跟踪策略,进一步提高跟踪精度。
实验表明本发明提高了特征提取的能力,增强了复杂环境下的跟踪效果,有效的提高了无人机跟踪准确率,具有良好的泛化能力和适用范围。
附图说明
图1为本发明实施例的基于卷积Transformer联合的目标跟踪算法方法的流程图。
图2为CTTrack网络结构的示意图。
图3为CTFormer网络的示意图。
图4为CAM模块的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明所实现的本发明基于卷积Transformer联合的目标跟踪算法方法,包括以下步骤:
S1:获取训练视频集和测试视频集;
训练视频集和测试视频集从无人机目标跟踪视频数据集中获得。
S2:构建CTFormer骨干网络,将视频送入构建网络中;
本发明为了充分结合卷积和Transformer优势,设计了卷积Transformer结合的模块命名为CTFromer。该模块由归一化层(LN)、卷积层(Conv)、多层感知器层(MLP)、窗口注意力层(WMSA)组成,其中xl为第l层的输入,xl+1为第l+1层输入也为第l层的输出,xl+2为第l+1层输出。具体计算过程如下所示:
使用窗口注意力代替原Transformer中计算量庞大的全局自注意力。其中窗口注意力层仅在固定尺寸为8的窗口内计算局部注意力,相对于全局注意力具有更小的计算量,虽然无法像全局注意力一样建模全局特性,但使用局部注意力相对全局注意力在实际跟踪任务中仅有细微的精度损失。为了弥补精度的损失,在前端接入了一个同样以卷积代替全局注意力的类Transformer模块,二者串联成对出现组成CTFromer模块。卷积的添加使不同的窗口间有了一定的信息交互,使得窗口注意力不单局限于某个窗口内,能够获得更加鲁棒的图像特征。
整个网络由浅层特征提取层、CTFromer模块、池化层组成,分为4个阶段,各个阶段的CTFromer模块数量设置为{2,2,8,2}。其中浅层特征提取层直接使用EfficientNetV2网络的前三个阶段来提取底层特征,同时调整该层输出通道数为96,总步长为4,特征图分辨率降低4倍。池化层为简单的2倍下采样并调整输出通道数为输入的2倍。这样便构成了典型的金字塔结构,特征图的分辨率随着不同阶段的深入逐渐减小,通道数逐渐增大。
S3:采用CAM模块对两分支特征进行增强;
CAM模块采用残差网络的思想结合多头互注意、归一化、前馈神经网络设计而成,整个CAM模块的计算过程可以描述为如下所示:
其中Xq为本分支的输入,Pq为Xq的空间位置编码,Xkv为另一分支的输入,Pkv为Xkv的空间位置编码,位置编码均由正弦函数生成。进而可以通过多头互注意力(MHCA)获得两分支的相似性后结合残差连接及归一化获得初步聚合增强后的本分支特征然后经过由两个线性变换和一个ReLU激活函数组成的前馈神经网络进行空间变换增加模型的表现能力、最终通过残差连接和归一化获得聚合增强后本分支特征XCAM。
CAM交叉使用,分别对两分支的特征进行增强,组成特征互增强与聚合网络。对其重复多次获取更具有判别性的特征,同时也可借助CAM模块度量两分支的相似性,获得相应图。使用此结构,相对于STARK、TrDiMP重复6次繁琐的编码-解码的结构有更低的计算量,不需要额外的计算各个分支自注意力进行自增强的过程,维持性能不降低的同时提高了跟踪速度。
S4:自适应动态调整搜索区域的跟踪;
固定放大倍数的搜索区域无法处理跟踪中的复杂情况,跟踪任务中目标的运动是不均匀的,而且存在较大的视角变化,搜索区域选择过大,搜索区域中可能包含过多干扰物导致跟踪漂移;搜索区域选择过小,当目标快速运动时,目标可能会离开视野无法跟踪。针对这一问题,本发明提出了一个简单的通过运动估计动态调整搜索区域的跟踪策略。首先设置初始搜索区域放大倍数为3,进行跟踪获取连续5帧的目标中心点位置(xi,yi)、(xi+1,yi+1)、(xi+2,yi+2)、(xi+3,yi+3),计算相邻两帧的中心点偏差如下式所示:
(△x1,△y1)=(|xi+1-xi|,|yi+1-yi|)
(△x2,△y2)=(|xi+2-xi+1|,|yi+2-yi+1|)
(△x3,△y3)=(|xi+3-xi+2|,|yi+3-yi+2|)
(△x4,△y1)=(|xi+4-xi+2|,|yi+4-yi+3|)
并计算相对于x轴和y轴运动距离的最大值如下式所示:
d1=max(△x1,△y1);d2=max(△x2,△y2)
d3=max(△x3,△y3);d4=max(△x4,△y4)
根据4个相邻两帧运动距离的最大值d1,d2,d3,d4调整搜索区域的放大倍数s。设置搜索区域放大倍数s和d1,d2,d3,d4的关系如下式所示:
该策略相对于固定搜索区域放大倍数的策略具有更好的性能,而且能够减少大尺寸目标图像不必要的Padding操作,提高推理速度。
S5:将特征响应图送入目标跟踪网络中,完成目标定位。
总之,本发明采用一种基于区域建议的回归模型,提取响应图中高于一定阈值的响应点,得到包含目标信息的候选图像,并放入训练好的回归模型进行位置预测,能够在不损失过多性能下降低算法复杂度,提升算法效率,同时还能提升目标位置准确性。
提取响应图中高于阈值的响应点作为待预测的目标中心点,根据上一帧的目标尺度大小得到每个中心点的目标框,之后把每个目标框内的图像送入回归模型进行预测,最终得到目标的精确位置信息。此模型与传统回归模型中在预测环节提取目标周围大量的样本图像相比,降低了预测环节中输入图像的数量,降低了算法的计算量,在不损失过多性能的条件下提升了算法效率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于卷积Transformer联合的目标跟踪方法,其特征在于包括以下步骤:
S1:获取训练视频集和测试视频集;
S2:构建CTFormer骨干网络,将视频送入构建网络中;
S3:采用CAM模块对两分支特征进行增强;
S4:自适应动态调整搜索区域的跟踪;
S5:将特征响应图送入目标跟踪网络中,完成目标分类定位。
2.如权利要求1所述的基于卷积Transformer联合的目标跟踪方法,其特征在于S1步骤中:获取训练视频集和测试视频集;所述训练视频集和测试视频集从无人机目标跟踪视频数据集中获得。
3.如权利要求1所述的基于卷积Transformer联合的目标跟踪方法,其特征在于S2步骤中:构建CTFormer骨干网络,整个网络由浅层特征提取层、CTFromer模块、池化层组成,分为4个阶段,各个阶段的CTFromer模块数量设置为{2,2,8,2};其中浅层特征提取层直接使用EfficientNetV2网络的前三个阶段来提取底层特征,同时调整该层输出通道数为96,总步长为4,特征图分辨率降低4倍;池化层为简单的2倍下采样并调整输出通道数为输入的2倍;
其中,卷积Transformer结合的模块命名为CTFromer,所述CTFromer模块由归一化层(LN)、卷积层(Conv)、多层感知器层(MLP)、窗口注意力层(WMSA)组成,其中xl为第l层的输入,xl+1为第l+1层输入也为第l层的输出,xl+2为第l+1层输出;具体计算过程如下所示:
使用窗口注意力代替原Transformer中计算量庞大的全局自注意力。
4.如权利要求3所述的基于卷积Transformer联合的目标跟踪方法,其特征在于为了弥补精度的损失,在前端接入了一个同样以卷积代替全局注意力的类Transformer模块,二者串联成对出现组成CTFromer模块。
5.如权利要求1所述的基于卷积Transformer联合的目标跟踪方法,其特征在于S3步骤中:采用CAM模块对两分支特征进行增强;所述CAM模块采用残差网络的思想结合多头互注意、归一化、前馈神经网络设计而成,CAM模块的计算过程可以描述为如下所示:
其中Xq为本分支的输入,Pq为Xq的空间位置编码,Xkv为另一分支的输入,Pkv为Xkv的空间位置编码,位置编码均由正弦函数生成;通过多头互注意力(MHCA)获得两分支的相似性后结合残差连接及归一化获得初步聚合增强后的本分支特征然后经过由两个线性变换和一个ReLU激活函数组成的前馈神经网络进行空间变换增加模型的表现能力、最终通过残差连接和归一化获得聚合增强后本分支特征XCAM。
6.如权利要求1所述的基于卷积Transformer联合的目标跟踪方法,其特征在于S4步骤中:自适应动态调整搜索区域的跟踪;
首先设置初始搜索区域放大倍数为3,进行跟踪获取连续5帧的目标中心点位置(xi,yi)、(xi+1,yi+1)、(xi+2,yi+2)、(xi+3,yi+3),计算相邻两帧的中心点偏差如下式所示:
(△x1,△y1)=(|xi+1-xi|,|yi+1-yi|)
(△x2,△y2)=(|xi+2-xi+1|,|yi+2-yi+1|)
(△x3,△y3)=(|xi+3-xi+2|,|yi+3-yi+2|)
(△x4,△y1)=(|xi+4-xi+2|,|yi+4-yi+3|)
并计算相对于x轴和y轴运动距离的最大值如下式所示:
d1=max(△x1,△y1);d2=max(△x2,△y2)
d3=max(△x3,△y3);d4=max(△x4,△y4)
根据4个相邻两帧运动距离的最大值d1,d2,d3,d4调整搜索区域的放大倍数s;
设置搜索区域放大倍数s和d1,d2,d3,d4的关系如下式所示:
该策略相对于固定搜索区域放大倍数的策略具有更好的性能,而且能够减少大尺寸目标图像不必要的Padding操作,提高推理速度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310250878.XA CN116645625A (zh) | 2023-03-16 | 2023-03-16 | 基于卷积Transformer联合的目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310250878.XA CN116645625A (zh) | 2023-03-16 | 2023-03-16 | 基于卷积Transformer联合的目标跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116645625A true CN116645625A (zh) | 2023-08-25 |
Family
ID=87614156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310250878.XA Pending CN116645625A (zh) | 2023-03-16 | 2023-03-16 | 基于卷积Transformer联合的目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116645625A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116945191A (zh) * | 2023-09-11 | 2023-10-27 | 重庆北睿星科技有限公司 | 一种基于人工智能的机器人控制方法 |
-
2023
- 2023-03-16 CN CN202310250878.XA patent/CN116645625A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116945191A (zh) * | 2023-09-11 | 2023-10-27 | 重庆北睿星科技有限公司 | 一种基于人工智能的机器人控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110335290B (zh) | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 | |
CN108090443B (zh) | 基于深度强化学习的场景文本检测方法及系统 | |
CN114565655B (zh) | 一种基于金字塔分割注意力的深度估计方法及装置 | |
CN115205730A (zh) | 一种结合特征增强与模板更新的目标跟踪方法 | |
CN114049381A (zh) | 一种融合多层语义信息的孪生交叉目标跟踪方法 | |
CN115393396B (zh) | 一种基于掩码预训练的无人机目标跟踪方法 | |
CN112446900B (zh) | 孪生神经网络目标跟踪方法及系统 | |
CN116645625A (zh) | 基于卷积Transformer联合的目标跟踪方法 | |
CN116342648A (zh) | 基于混合结构注意力引导的孪生网络目标跟踪方法 | |
CN110633706B (zh) | 一种基于金字塔网络的语义分割方法 | |
CN116091823A (zh) | 一种基于快速分组残差模块的单特征无锚框目标检测方法 | |
CN116912804A (zh) | 一种高效的无锚框3-d目标检测及跟踪方法及模型 | |
CN112926552B (zh) | 基于深度神经网络的遥感影像车辆目标识别模型及方法 | |
CN112862860B (zh) | 一种用于多模态目标跟踪的对象感知图像融合方法 | |
CN113763417B (zh) | 一种基于孪生网络和残差结构的目标跟踪方法 | |
CN113489958A (zh) | 一种基于视频编码数据多特征融合的动态手势识别方法及系统 | |
CN117011655A (zh) | 基于自适应区域选择特征融合方法、目标跟踪方法及系统 | |
Dai et al. | An investigation into performance factors of two-stream i3d networks | |
CN115496859A (zh) | 基于散乱点云交叉注意学习的三维场景运动趋势估计方法 | |
CN109815790B (zh) | 用于遥感目标检测的门控轴聚检测网络系统及方法 | |
Zhao | A facial expression recognition method using two-stream convolutional networks in natural scenes | |
Gu et al. | RTSformer: A Robust Toroidal Transformer With Spatiotemporal Features for Visual Tracking | |
Wei et al. | Attention-Based Transformer Thermal Infrared Tracker | |
CN116486203B (zh) | 一种基于孪生网络和在线模板更新的单目标跟踪方法 | |
CN116630845A (zh) | 结合层级编码器和并行注意力机制的目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |