CN116664624A - 基于解耦分类与回归特征的目标跟踪方法及跟踪器 - Google Patents
基于解耦分类与回归特征的目标跟踪方法及跟踪器 Download PDFInfo
- Publication number
- CN116664624A CN116664624A CN202310640583.3A CN202310640583A CN116664624A CN 116664624 A CN116664624 A CN 116664624A CN 202310640583 A CN202310640583 A CN 202310640583A CN 116664624 A CN116664624 A CN 116664624A
- Authority
- CN
- China
- Prior art keywords
- target
- decoupling
- classification
- level
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000007246 mechanism Effects 0.000 claims abstract description 26
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 82
- 230000004927 fusion Effects 0.000 claims description 29
- 239000002356 single layer Substances 0.000 claims description 18
- 239000010410 layer Substances 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Abstract
本发明公开了一种基于解耦分类与回归特征的目标跟踪方法及跟踪器,所述跟踪方法包括:根据视频序列中初始帧和当前帧划分目标模板区域和目标搜索区域;利用孪生深度残差卷积神经网络提取目标模板区域和目标搜索区域的深度学习表征特征;基于transformer交叉注意力机制和卷积操作融合目标模板区域深度表征特征和目标搜索区域深度表征特征得到跟踪器的解耦分类特征和解耦回归特征;基于transformer自注意力机制和卷积操作进一步编码解耦分类特征和解耦回归特征,并得到目标在当前帧的目标前背景二分类预测和目标边境框回归预测,从而实现目标跟踪器在视频序列中鲁棒准确地跟踪目标。
Description
技术领域
本发明属于视觉目标跟踪方法的技术领域,特别涉及基于孪生神经网络的视觉目标跟踪方法。
背景技术
视觉目标跟踪(VOT)即是在给定某视频序列初始帧的目标大小与位置的情况下,预测后续帧中该目标轨迹和/或状态的过程,其手段通常为:针对包含丰富视觉信息的视频序列,输入初始化目标框,并在下一帧中产生众多候选框,提取候选框的特征,并对候选框评分,以得分最高的候选框作为预测的目标,或进一步的,对多个候选框的预测结果进行融合得到更优的预测目标。
近来,在视觉目标跟踪方法领域研究较多的为基于孪生(Siamese)网络的目标跟踪器,该类目标跟踪器可将视觉跟踪任务表示为相似性匹配问题,通过目标分支和搜索分支之间的卷积特征互相关实现相似性学习,获得目标跟踪结果。但是,以上过程需要预先确定目标特征区域的大小,在互相关操作中会保留大量不利的背景信息或丢失大量的前景信息,匹配过程中还会损失目标结构等细微信息,导致跟踪结果的准确性会受到目标尺度变化和/或复杂背景区域干扰的局限,在复杂场景如跟踪目标存在旋转变化、尺度缩放、复杂形变等情况下实用性差,难以获得准确性高、稳健性好的跟踪结果。
发明内容
针对现有技术的缺陷,本发明的目的在于提出一种可适用于不同类型监控视频,特别是视频序列中背景区域复杂,跟踪目标存在的旋转变化、尺度放缩以及形变等复杂情形下的目标跟踪方法,实现在复杂场景中的高准确性和稳健性的目标跟踪。
本发明的技术方案如下:
基于解耦分类与回归特征的目标跟踪方法,其包括:
S1自视频序列的初始帧图像中划分得到目标模板区域图像T,自视频序列的当前帧图像中划分得到目标搜索区域图像X;
S2通过根据两个Resnet50网络即第一Resnet50网络和第二Resnet50网络构建的孪生神经网络对所述目标模板区域图像T和目标搜索区域图像X进行深度特征提取,根据两个Resnet50网络中不同残差模块获得多个不同级别的目标模板区域图像特征Ti和目标搜索区域图像特征Xi,其中i表示级别值;
S3对所得多个不同级别的目标模板区域图像特征Ti和目标搜索区域图像特征Xi按级别分别进行基于transformer多头交叉注意力机制的全局非线性融合,得到各级别第一融合特征,即各级别解耦分类特征ci;
S4将所得多个不同级别的目标模板区域图像特征Ti和目标搜索区域图像特征Xi按级别分别进行基于逐通道卷积的局部线性融合,得到各级别的第二融合特征,即各级别解耦回归特征ri;
S5对所述各级别解耦分类特征ci分别使用基于transformer多头自注意力机制的编码处理,得到各级别编码解耦分类特征c′i;
S6对所述各级别解耦回归特征ri分别进行基于残差卷积的编码处理,得到各级别编码解耦回归特征r′i;
S7通过sigmoid函数对所述各级别编码解耦分类特征c′i进行分类评分,得到各级编码解耦分类特征的分类得分图Ci,对各级编码解耦分类特征的分类得分图Ci进行自适应权重加和,得到预测分类得分图C;
S8将所述各级别编码解耦回归特征ri′分别进行卷积处理,得到各级别回归图Ri,将所得各级别回归图Ri进行自适应权重加和,得到目标边境框R,根据所述预测分类得分图C中得分最大位置处的级别值i及权重向量的序数j值,在目标边境框R内确定目标在当前帧的预测状态。
根据本发明的一些优选实施方式,所述S1进一步包括:
S11以视频序列中初始帧和当前帧图像的左上角为原点,以向下延伸方向为Y轴正方向,向右延伸方向为X轴正方向,分别建立初始帧和当前帧图像的二维坐标系;
S12在具有二维坐标系的初始帧图像中,以给定的初始跟踪目标中心为中心,裁剪出空间分辨率为128×128像素的图像,作为目标模板区域图像T;
S13在具有二维坐标系的当前帧图像中,以根据其上一帧图像预测得到的跟踪目标中心为中心,裁剪出空间分辨率为256×256像素的图像,作为目标搜索区域图像X。
根据本发明的一些优选实施方式,所述不同级别的目标模板区域图像特征Ti包括自第一ResNet50网络中第3个残差模块、第4个残差模块及第个5残差模块获得的目标模板区域图像特征fi(T),即Ti=fi(T),i=3,4,5;所述不同级别的目标搜索区域图像特征Xi包括自第二ResNet50网络中第3个残差模块、第4个残差模块及第个5残差模块获得的目标搜索区域图像特征fi(X),即Xi=fi(X),i=3,4,5。
根据本发明的一些优选实施方式,所述基于transformer多头交叉注意力机制的全局非线性融合包括:
S31使用多个第一单层全连接网络l1i()将不同级别的目标模板区域图像特征Ti分别线性映射为查询向量qi,即qi=l1i(Ti),i=3,4,5;
S32使用多个第二单层全连接网络l2i()将不同级别的目标搜索区域图像特征Xi分别线性映射为关键向量ki,即ki=l2i(Xi),i=3,4,5;
S33使用多个第三单层全连接网络l3i()将不同级别的目标搜索区域图像特征Xi分别线性映射为值向量vi,即vi=l3i(Xi),i=3,4,5;
S34对所得查询向量qi和关键向量ki分别进行正弦空间位置嵌入,得到位置向量qi'和ki';
S35将所得值向量vi、位置向量qi'和ki',使用基于transformer多头交叉注意力机制模型MultiHCi()进行全局非线性融合,得到的第一融合特征即所述各级别解耦分类特征ci,即ci=MultiHCi(qi',ki',vi),i=3,4,5。
根据本发明的一些优选实施方式,所述基于逐通道卷积的局部线性融合包括:
S41将所述多个不同级别的目标模板区域图像特征Ti分别使用多个第一卷积网络φ1i()进行线性映射,得到特征向量Ti',即Ti'=φ1i(Ti),i=3,4,5,其中,第一卷积网络φ1i()包括单一卷积层,其包含一个大小为1×1的卷积核;
S42将所述多个不同级别的目标搜索区域图像特征Xi分别使用多个第二卷积网络φ2i()进行线性映射,得到特征向量Xi',即Ti'=φ2i(Xi),i=3,4,5,其中,第二卷积网络φ2i()包括单一卷积层,其包含一个大小为1×1的卷积核;
S43将所得特征向量Ti'作为卷积核,对特征向量Xi'进行逐通道卷积,得到第二融合特征,即所述各级别解耦回归特征ri,i=3,4,5。
根据本发明的一些优选实施方式,所述S5进一步包括:
S51使用多个第四单层全连接网络L1i()将所述各级别解耦分类特征ci分别线性映射为查询向量Qi,即Qi=L1i(ci),i=3,4,5;
S52使用多个第五单层全连接网络L2i()将所述各级别解耦分类特征ci分别线性映射为关键向量Ki,即Ki=L2i(ci),i=3,4,5;
S53使用多个第六单层全连接网络L3i(ci)将所述各级别解耦分类特征ci分别线性映射为值向量Vi,即Vi=L3i(ci),i=3,4,5;
S54将所述查询向量Qi和关键向量Ki分别进行正弦空间位置嵌入,得到位置向量Qi'和Ki';
S55将所述位置向量Qi'、Ki和值向量Vi使用基于transformer多头自注意力机制模型MultiHSi()进行语义信息编码,得到权重向量Fci,即Fci=MultiHSi(Qi',Ki',Vi),i=3,4,5;
S56将所述权重向量Fci与所述各级别解耦分类特征ci相加,得到各级别各级别编码解耦分类特征c'i,即c'i=Fci+ci,i=3,4,5。
根据本发明的一些优选实施方式,所述S6进一步包括:
S61通过多个第一卷积残差模块ψi()对所述各级别解耦回归特征ri分别进行细粒度信息编码,得到各级别编码向量Fri,即Fri=ψi(ri),i=3,4,5,其中,第一卷积残差模块包括4个堆砌的卷积层,每个卷积层含有一个大小为3×3的卷积核;
S62通过多个含有一个大小为1×1的卷积核的卷积层对所述各级别编码向量Fri进行卷积处理,得到各级别编码解耦回归特征ri',i=3,4,5。
根据本发明的一些优选实施方式,所述S7进一步包括:
S71通过sigmoid函数对所述各级别编码解耦分类特征c′i进行0、1分类,得到各级别编码解耦分类特征的分类得分图Ci,i=3,4,5;
S72将长度为3的权重列表W1进行数值初始化,该权重列表中的任一位置权重W1j之和满足:初始化后使用softmax函数对W1中各位置权重进行分配,得到具有分配顺序的权重列表W′1;
S73将各级别编码解耦分类特征的分类得分图Ci与所述具有分配顺序的权重列表W′1进行向量相乘后相加,得到预测分类得分图C,即C=C3×W′10+Cg×W′11+C5×W′12。
根据本发明的一些优选实施方式,所述S8进一步包括:
S81使用含有一个大小为1×1的卷积核、通道数为4的单一卷积层对所述各级别编码解耦回归特征ri′分别进行卷积处理,以聚合编码解耦回归特征ri′中的特征信息,得到各级别回归图Ri,i=3,4,5;
S82将长度为3的权重列表W2进行数值初始化,该权重列表中的任一位置权重W2j之和满足:初始化后使用softmax函数对W2中各位置权重进行分配,得到具有分配顺序的权重列表W′2;
S83将所得分类得分图Ci与具有分配顺序的权重列表W′2进行向量相乘后相加,得到目标边境框R,即R=R3×W′20+R4×W′21+R55×W′22;
S84取所述预测分类得分图C中得分最大的位置处的i及j值,在目标边境框R内找到与(i,j)对应的值,获得目标在当前帧的预测状态。
根据以上目标跟踪方法,可进一步获得基于解耦分类与回归特征的目标跟踪器。
本发明的目标跟踪方法首先根据视频序列中初始帧和当前帧分别划分目标模板区域和目标搜索区域,其中初始帧和当前帧可具有不同的分辨率,其后利用孪生深度残差卷积神经网络分别提取目标模板区域和目标搜索区域的深度学习表征特征,再分别基于transformer交叉注意力机制和卷积操作融合目标模板区域深度表征特征和目标搜索区域深度表征特征,得到解耦分类特征和解耦回归特征,最后分别基于transformer自注意力机制和卷积操作进一步编码解耦分类特征和解耦回归特征,得到目标在当前帧的目标前背景二分类预测和目标边境框回归预测,从而实现稳健准确地跟踪目标。
本发明具备以下有益效果:
本发明采用基于transformer注意力机制与标准卷积操作机制的方式,并行获得跟踪器的解耦回归特征和解耦分类特征;其通过交叉注意力获得的解耦分类特征,使分类特征中语义信息更加集中;其通过标准卷积操作机制获得的解耦回归特征,含有丰富的细粒度信息,使跟踪器的分类预测更加鲁棒,回归预测更加准确;
不同于现有基于Siamese网络的目标跟踪方法,本发明采用一种与解耦跟踪器分类分支和回归分支的精确目标跟踪任务;其以初始帧目标模板区域与当前帧目标搜索区域作为孪生网络模型的输入模板图像和输入搜索图像;基于transformer注意力机制的交叉注意力与标准卷积操作机制的方式解耦跟踪器的融合特征,并采用基于transformer注意力的自注意力进一步编码解耦分类特征中的语义信息和标准卷积操作进一步编码融合回归特征,实现在监控视频序列准确稳健地跟踪目标。
附图说明
图1为本发明一种具体实施方式的流程框架图。
图2为本发明采用的一种深度残差卷积神经网络的结构示意图。
图3为本发明采用的一种基于transformer的多头交叉注意力机制示意图。
图4为本发明采用的一种基于transformer的自注意力机制示意图。
具体实施方式
以下结合实施例和附图对本发明进行详细描述,但需要理解的是,所述实施例和附图仅用于对本发明进行示例性的描述,而并不能对本发明的保护范围构成任何限制。所有包含在本发明的发明宗旨范围内的合理的变换和组合均落入本发明的保护范围。
参照附图1,本发明提出的基于解耦分类与回归特征的目标跟踪方法的一种具体实施方式包括以下步骤:
S1自视频序列的初始帧图像中划分得到目标模板区域图像T,自视频序列的当前帧图像中划分得到目标搜索区域图像X,其中,初始帧图像和当前帧图像可具有不同的分辨率。
在更具体的一些实施方式中,其可包括:
S11以视频序列中初始帧和当前帧图像的左上角为原点,以向下延伸方向为Y轴正方向,向右延伸方向为X轴正方向,分别建立初始帧和当前帧图像的二维坐标系;
S12在具有二维坐标系的初始帧图像中,以给定的初始跟踪目标中心为中心,裁剪出空间分辨率为128×128像素的图像,作为目标模板区域图像T;
S13在具有二维坐标系的当前帧图像中,以根据其上一帧图像预测得到的跟踪目标中心为中心,裁剪出空间分辨率为256×256像素的图像,作为目标搜索区域图像X。
S2通过基于Resnet50网络构建的孪生神经网络对所述目标模板区域图像T和目标搜索区域图像X分别进行深度特征提取,根据Restnet50网络中不同残差模块对应获得多个不同级别的目标模板区域图像特征Ti和目标搜索区域图像特征Xi,其中i表示级别值;
在更具体的一些实施方式中,参照附图2,所述ResNet50网络包括5个残差模块,即第1~第5残差模块。
在更具体的一些实施方式中,所述不同级别的目标模板区域图像特征Ti包括自ResNet50网络中后三个残差模块即第3、4、5残差模块区分并获得的目标模板区域图像特征fi(T),i=3,4,5,即Ti=fi(T),i=3,4,5。
在更具体的一些实施方式中,所述不同级别的目标搜索区域图像特征Xi包括自ResNet50网络中后三个残差模块即第3、4、5残差模块区分并获得的目标搜索区域图像特征fi(X),i=3,4,5,即Xi=fi(X),i=3,4,5。
S3对所得多个不同级别的目标模板区域图像特征Ti和目标搜索区域图像特征Xi按级别分别进行基于transformer多头交叉注意力机制的全局非线性融合,得到各级别第一融合特征,即目标跟踪器的各级别解耦分类特征ci。
在更具体的一些实施方式中,参照附图3,所述基于transformer多头交叉注意力机制的全局非线性融合包括:
S31使用多个第一单层全连接网络l1i()将不同级别的目标模板区域图像特征Ti分别线性映射为查询向量qi,即qi=l1i(Ti),i=3,4,5;
S32使用多个第二单层全连接网络l2i()将同级别的目标搜索区域图像特征Xi分别线性映射为关键向量ki,即ki=l2i(Xi),i=3,4,5;
S33使用多个第三单层全连接网络l3i()将不同级别的目标搜索区域图像特征Xi分别线性映射为值向量vi,即vi=l3i(Xi),i=3,4,5;
S34对所得查询向量qi和关键向量ki分别进行正弦空间位置嵌入,得到位置向量qi'和ki';
S35将所得值向量vi、位置向量qi'和ki',使用基于transformer多头交叉注意力机制模型MultiHCi()进行全局非线性融合,得到的融合特征即所述解耦分类特征ci,即ci=MultiHCi(qi',ki',vi),i=3,4,5。
S4将S2所得多个不同级别的目标模板区域图像特征Ti和目标搜索区域图像特征Xi按级别分别进行基于逐通道卷积的局部线性融合,得到各级别的第二融合特征,即目标跟踪器的各级别解耦回归特征ri。
在更具体的一些实施方式中,所述基于逐通道卷积的局部线性融合包括:
S41将所得多个不同级别的目标模板区域图像特征Ti分别使用多个第一卷积网络φ1i()进行线性映射,得到特征向量Ti',即Ti'=φ1i(Ti),i=3,4,5,其中,第一卷积网络φ1i()包括单一卷积层,其包含一个大小为1×1的卷积核;
S42将所得多个不同级别的目标搜索区域图像特征Xi分别使用多个第二卷积网络φ2i()进行线性映射,得到特征向量Xi',即Ti'=φ2i(Xi),i=3,4,5,其中,第二卷积网络φ2i()包括单一卷积层,其包含一个大小为1×1的卷积核;
S43将所得特征向量Ti'作为卷积核,对特征向量Xi'进行逐通道卷积,得到第二融合特征,即解耦回归特征ri,i=3,4,5。
S5对所述各级别解耦分类特征ci分别使用基于transformer多头自注意力机制的编码处理,得到各级别编码解耦分类特征c′i。
参照附图4,在更具体的一些实施方式中,其可包括:
S51使用多个第四单层全连接网络L1i()将所得解耦分类特征ci分别线性映射为查询向量Qi,即Qi=L1i(ci),i=3,4,5;
S52使用多个第五单层全连接网络L2i()将所得解耦分类特征ci分别线性映射为关键向量Ki,即Ki=L2i(ci),i=3,4,5;
S53使用多个第六单层全连接网络L3i(ci)将所得解耦分类特征ci分别线性映射为值向量Vi,即Vi=L3i(ci),i=3,4,5;
S54将所得查询向量Qi和关键向量Ki分别进行正弦空间位置嵌入,分别得到位置向量Q′i和K′i;
S55将所得位置向量向量Q′i、Ki和值向量Vi使用基于transformer多头自注意力机制模型MultiHSi()进行语义信息编码,得到权重向量Fci,即Fci=MultiHSi(Q′i,K′i,Vi),i=3,4,5;
S56将所得权重向量Fci与解耦分类特征ci相加,得到最终解耦分类特征c'i,即c'i=Fci+ci,i=3,4,5。
S6对所得各级别解耦回归特征ri分别进行基于残差卷积的编码处理,得到各级别编码解耦回归特征ri′。
在更具体的一些实施方式中,其可包括:
S61分别通过多个第一卷积残差模块ψi()对所得解耦回归特征ri进行细粒度信息编码,得到编码向量Fri,即Fri=ψi(ri),i=3,4,5,其中,第一卷积残差模块包括4个堆砌的卷积层,每个卷积层含有一个大小为3×3的卷积核;
S62分别通过多个一个卷积核大小为1×1的卷积层对编码向量进行卷积处理,以聚合向量Fri中的信息,得到编码解耦回归特征ri',i=3,4,5。
S7通过sigmoid函数对所得各级别编码解耦分类特征c′i进行分类评分,得到各级别编码解耦分类特征c'i的评分图Ci,并进行自适应权重相加,得到跟踪器的预测分类得分图C。
在更具体的一些实施方式中,其可包括:
S71通过sigmoid函数对各级别编码解耦分类特征c′i进行0、1分类,得到各级编码解耦分类特征的分类得分图Ci,i=3,4,5;
S72将长度为3的权重列表W1进行数值初始化,该权重列表中的任一位置权重W1j之和满足:初始化后使用softmax函数对W1中各位置权重进行分配,得到具有分配顺序的权重列表W′1;
S73将所得分类得分图Ci与具有分配顺序的权重列表W′1进行向量相乘后相加,得到预测分类得分图C,即C=C3×W′10+C4×W′11+C5×W′12。
S8将所述各级别编码解耦回归特征r′i进行卷积处理,得到其对应的各级别回归图Ri,将所得各级别回归图进行自适应权重相加,得到目标边境框R,根据所述预测分类得分图C中得分最大的位置处的i及j值,在目标边境框R内确定目标在当前帧的预测状态。
在更具体的一些实施方式中,其可包括:
S81使用含有一个大小为1×1的卷积核、通道数为4的单一卷积层对所述各级别编码解耦回归特征r′i分别进行卷积处理,以聚合编码解耦回归特征r′i中的特征信息,得到各级别回归图Ri,i=3,4,5;
S82将长度为3的权重列表W2进行数值初始化,该权重列表中的任一位置权重W2j之和满足:初始化后使用softmax函数对W2中各位置权重进行分配,得到具有分配顺序的权重列表W′2;
S83将所得分类得分图Ci与具有分配顺序的权重列表W′2进行向量相乘后相加,得到目标边境框R,即R=R3×W′20+R4×W′21+R5×W′22;
S84取所述预测分类得分图C中得分最大的位置处的i及j值,在目标边境框R内找到与(i,j)对应的值,获得目标在当前帧的预测状态。
以上实施例仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例。凡属于本发明思路下的技术方案均属于本发明的保护范围。应该指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下的改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.基于解耦分类与回归特征的目标跟踪方法,其特征在于,其包括:
S1自视频序列的初始帧图像中划分得到目标模板区域图像T,自视频序列的当前帧图像中划分得到目标搜索区域图像X;
S2通过根据两个Resnet50网络即第一Resnet50网络和第二Resnet50网络构建的孪生神经网络对所述目标模板区域图像T和目标搜索区域图像X分别进行深度特征提取,根据两个Resnet50网络中不同残差模块对应获得多个不同级别的目标模板区域图像特征Ti和目标搜索区域图像特征Xi,其中i表示级别值;
S3对所得多个不同级别的目标模板区域图像特征Ti和目标搜索区域图像特征Xi按级别分别进行基于transformer多头交叉注意力机制的全局非线性融合,得到各级别第一融合特征,即各级别解耦分类特征ci;
S4将所得多个不同级别的目标模板区域图像特征Ti和目标搜索区域图像特征Xi按级别分别进行基于逐通道卷积的局部线性融合,得到各级别的第二融合特征,即各级别解耦回归特征ri;
S5对所述各级别解耦分类特征ci分别使用基于transformer多头自注意力机制的编码处理,得到各级别编码解耦分类特征c′i;
S6对所述各级别解耦回归特征ri分别进行基于残差卷积的编码处理,得到各级别编码解耦回归特征r′i;
S7通过sigmoid函数对所述各级别编码解耦分类特征c′i进行分类评分,得到各级编码解耦分类特征的分类得分图Ci,对各级编码解耦分类特征的分类得分图Ci进行自适应权重加和,得到预测分类得分图C;
S8将所述各级别编码解耦回归特征r′i分别进行卷积处理,得到各级别回归图Ri,将所得各级别回归图Ri进行自适应权重加和,得到目标边境框R,根据所述预测分类得分图C中得分最大位置处的级别值i及权重向量的序数j值,在目标边境框R内确定目标在当前帧的预测状态。
2.根据权利要求1所述的目标跟踪方法,其特征在于,所述S1进一步包括:
S11以视频序列中初始帧和当前帧图像的左上角为原点,以向下延伸方向为Y轴正方向,向右延伸方向为X轴正方向,分别建立初始帧和当前帧图像的二维坐标系;
S12在具有二维坐标系的初始帧图像中,以给定的初始跟踪目标中心为中心,裁剪出空间分辨率为128×128像素的图像,作为目标模板区域图像T;
S13在具有二维坐标系的当前帧图像中,以根据其上一帧图像预测得到的跟踪目标中心为中心,裁剪出空间分辨率为256×256像素的图像,作为目标搜索区域图像X。
3.根据权利要求1所述的目标跟踪方法,其特征在于,所述不同级别的目标模板区域图像特征Ti包括自第一ResNet50网络中第3个残差模块、第4个残差模块及第个5残差模块获得的目标模板区域图像特征fi(T),即Ti=fi(T),i=3,4,5;所述不同级别的目标搜索区域图像特征Xi包括自第二ResNet50网络中第3个残差模块、第4个残差模块及第个5残差模块获得的目标搜索区域图像特征fi(X),即Xi=fi(X),i=3,4,5。
4.根据权利要求4所述的目标跟踪方法,其特征在于,所述基于transformer多头交叉注意力机制的全局非线性融合包括:
S31使用多个第一单层全连接网络l1i()将不同级别的目标模板区域图像特征Ti分别线性映射为查询向量qi,即qi=l1i(Ti),i=3,4,5;
S32使用多个第二单层全连接网络l2i()将不同级别的目标搜索区域图像特征Xi分别线性映射为关键向量ki,即ki=l2i(Xi),i=3,4,5;
S33使用多个第三单层全连接网络l3i()将不同级别的目标搜索区域图像特征Xi分别线性映射为值向量vi,即vi=l3i(Xi),i=3,4,5;
S34对所得查询向量qi和关键向量ki分别进行正弦空间位置嵌入,得到位置向量q′i和k′i;
S35将所得值向量vi、位置向量q′i和k′i,使用基于transformer多头交叉注意力机制模型MultiHCi()进行全局非线性融合,得到的第一融合特征即所述各级别解耦分类特征ci,即ci=MultiHCi(q′i,k′i,vi),i=3,4,5。
5.根据权利要求4所述的目标跟踪方法,其特征在于,所述基于逐通道卷积的局部线性融合包括:
S41将所述多个不同级别的目标模板区域图像特征Ti分别使用多个第一卷积网络φ1i()进行线性映射,得到特征向量Ti',即Ti'=φ1i(Ti),i=3,4,5,其中,第一卷积网络φ1i()包括单一卷积层,其包含一个大小为1×1的卷积核;
S42将所述多个不同级别的目标搜索区域图像特征Xi分别使用多个第二卷积网络φ2i()进行线性映射,得到特征向量X′i,即Ti'=φ2i(Xi),i=3,4,5,其中,第二卷积网络φ2i()包括单一卷积层,其包含一个大小为1×1的卷积核;
S43将所得特征向量Ti'作为卷积核,对特征向量X′i进行逐通道卷积,得到第二融合特征,即所述各级别解耦回归特征ri,i=3,4,5。
6.根据权利要求4所述的目标跟踪方法,其特征在于,其中,所述S5进一步包括:
S51使用多个第四单层全连接网络L1i()将所述各级别解耦分类特征ci分别线性映射为查询向量Qi,即Qi=L1i(ci),i=3,4,5;
S52使用多个第五单层全连接网络L2i()将所述各级别解耦分类特征ci分别线性映射为关键向量Ki,即Ki=L2i(ci),i=3,4,5;
S53使用多个第六单层全连接网络L3i(ci)将所述各级别解耦分类特征ci分别线性映射为值向量Vi,即Vi=L3i(ci),i=3,4,5;
S54将所述查询向量Qi和关键向量Ki分别进行正弦空间位置嵌入,得到位置向量Q′i和K′i;
S55将所述位置向量Q′i、Ki和值向量Vi使用基于transformer多头自注意力机制模型MultiHSi()进行语义信息编码,得到权重向量Fci,即Fci=MultiHSi(Q′i,K′i,Vi),i=3,4,5;
S56将所述权重向量Fci与所述各级别解耦分类特征ci相加,得到各级别各级别编码解耦分类特征c′i,即c′i=Fci+ci,i=3,4,5。
7.根据权利要求4所述的目标跟踪方法,其特征在于,所述S6进一步包括:
S61通过多个第一卷积残差模块ψi()对所述各级别解耦回归特征ri分别进行细粒度信息编码,得到各级别编码向量Fri,即Fri=ψi(ri),i=3,4,5,其中,第一卷积残差模块包括4个堆砌的卷积层,每个卷积层含有一个大小为3×3的卷积核;
S62通过多个含有一个大小为1×1的卷积核的卷积层对所述各级别编码向量Fri进行卷积处理,得到各级别编码解耦回归特征r′i,i=3,4,5。
8.根据权利要求4所述的目标跟踪方法,其特征在于,所述S7进一步包括:
S71通过sigmoid函数对所述各级别编码解耦分类特征c′i进行0、1分类,得到各级别编码解耦分类特征的分类得分图Ci,i=3,4,5;
S72将长度为3的权重列表W1进行数值初始化,该权重列表中的任一位置权重W1j之和满足:初始化后使用softmax函数对W1中各位置权重进行分配,得到具有分配顺序的权重列表W′1;
S73将各级别编码解耦分类特征的分类得分图Ci与所述具有分配顺序的权重列表W′1进行向量相乘后相加,得到预测分类得分图C,即C=C3×W′10+C4×W′11+C5×W′12。
9.根据权利要求4所述的目标跟踪方法,其特征在于,所述S8进一步包括:
S81使用含有一个大小为1×1的卷积核、通道数为4的单一卷积层对所述各级别编码解耦回归特征r′i分别进行卷积处理,以聚合编码解耦回归特征r′i中的特征信息,得到各级别回归图Ri,i=3,4,5;
S82将长度为3的权重列表W2进行数值初始化,该权重列表中的任一位置权重W2j之和满足:初始化后使用softmax函数对W2中各位置权重进行分配,得到具有分配顺序的权重列表W′2;
S83将所得分类得分图Ci与具有分配顺序的权重列表W′2进行向量相乘后相加,得到目标边境框R,即R=R3×W′20+R4×W′21+R5×W′22;
S84取所述预测分类得分图C中得分最大的位置处的i及j值,在目标边境框R内找到与(i,j)对应的值,获得目标在当前帧的预测状态。
10.基于解耦分类与回归特征的目标跟踪器,其应用权利要求1~9中任一项所述的目标跟踪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310640583.3A CN116664624B (zh) | 2023-06-01 | 2023-06-01 | 基于解耦分类与回归特征的目标跟踪方法及跟踪器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310640583.3A CN116664624B (zh) | 2023-06-01 | 2023-06-01 | 基于解耦分类与回归特征的目标跟踪方法及跟踪器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116664624A true CN116664624A (zh) | 2023-08-29 |
CN116664624B CN116664624B (zh) | 2023-10-27 |
Family
ID=87716732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310640583.3A Active CN116664624B (zh) | 2023-06-01 | 2023-06-01 | 基于解耦分类与回归特征的目标跟踪方法及跟踪器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116664624B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307995A (zh) * | 2020-11-05 | 2021-02-02 | 电子科技大学 | 一种基于特征解耦学习的半监督行人重识别方法 |
CN113221962A (zh) * | 2021-04-21 | 2021-08-06 | 哈尔滨工程大学 | 一种解耦分类与回归任务的三维点云单阶段目标检测方法 |
CN113297961A (zh) * | 2021-05-24 | 2021-08-24 | 南京邮电大学 | 一种基于边界特征融合孪生循环神经网络的目标跟踪方法 |
CN113706581A (zh) * | 2021-08-13 | 2021-11-26 | 河南大学 | 基于残差通道注意与多层次分类回归的目标跟踪方法 |
CN113705588A (zh) * | 2021-10-28 | 2021-11-26 | 南昌工程学院 | 基于卷积自注意力模块的孪生网络目标跟踪方法与系统 |
CN114049381A (zh) * | 2021-12-21 | 2022-02-15 | 重庆大学 | 一种融合多层语义信息的孪生交叉目标跟踪方法 |
CN115578418A (zh) * | 2022-10-19 | 2023-01-06 | 东南大学 | 一种基于双重注意力网络的单目标跟踪方法 |
CN115690152A (zh) * | 2022-10-18 | 2023-02-03 | 南京航空航天大学 | 一种基于注意力机制的目标追踪方法 |
WO2023030513A1 (zh) * | 2021-09-05 | 2023-03-09 | 汉熵通信有限公司 | 物联网系统 |
CN116030097A (zh) * | 2023-02-28 | 2023-04-28 | 南昌工程学院 | 基于双重注意力特征融合网络的目标跟踪方法与系统 |
-
2023
- 2023-06-01 CN CN202310640583.3A patent/CN116664624B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307995A (zh) * | 2020-11-05 | 2021-02-02 | 电子科技大学 | 一种基于特征解耦学习的半监督行人重识别方法 |
CN113221962A (zh) * | 2021-04-21 | 2021-08-06 | 哈尔滨工程大学 | 一种解耦分类与回归任务的三维点云单阶段目标检测方法 |
CN113297961A (zh) * | 2021-05-24 | 2021-08-24 | 南京邮电大学 | 一种基于边界特征融合孪生循环神经网络的目标跟踪方法 |
CN113706581A (zh) * | 2021-08-13 | 2021-11-26 | 河南大学 | 基于残差通道注意与多层次分类回归的目标跟踪方法 |
WO2023030513A1 (zh) * | 2021-09-05 | 2023-03-09 | 汉熵通信有限公司 | 物联网系统 |
CN113705588A (zh) * | 2021-10-28 | 2021-11-26 | 南昌工程学院 | 基于卷积自注意力模块的孪生网络目标跟踪方法与系统 |
CN114049381A (zh) * | 2021-12-21 | 2022-02-15 | 重庆大学 | 一种融合多层语义信息的孪生交叉目标跟踪方法 |
CN115690152A (zh) * | 2022-10-18 | 2023-02-03 | 南京航空航天大学 | 一种基于注意力机制的目标追踪方法 |
CN115578418A (zh) * | 2022-10-19 | 2023-01-06 | 东南大学 | 一种基于双重注意力网络的单目标跟踪方法 |
CN116030097A (zh) * | 2023-02-28 | 2023-04-28 | 南昌工程学院 | 基于双重注意力特征融合网络的目标跟踪方法与系统 |
Non-Patent Citations (2)
Title |
---|
"解耦 Siamese 网络特征的目标跟踪算法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 3, pages 1 - 41 * |
LUMING LI ET AL.: "Reinspecting Classification and Regression in the Sibling Head for Visual Tracking", 《IEEE INTERNATIONAL CONFERENCE ON INFORMATION TECHNOLOGY IN MEDICINE AND EDUCATION》, pages 81 - 85 * |
Also Published As
Publication number | Publication date |
---|---|
CN116664624B (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Matchformer: Interleaving attention in transformers for feature matching | |
Sheng et al. | Improving 3d object detection with channel-wise transformer | |
Zhou et al. | Specificity-preserving RGB-D saliency detection | |
Zhang et al. | Bilateral attention network for RGB-D salient object detection | |
Zhou et al. | Centerformer: Center-based transformer for 3d object detection | |
Ding et al. | Transmvsnet: Global context-aware multi-view stereo network with transformers | |
Tu et al. | Action-stage emphasized spatiotemporal VLAD for video action recognition | |
Huo et al. | Efficient context-guided stacked refinement network for RGB-T salient object detection | |
Chen et al. | Depth-quality-aware salient object detection | |
Yu et al. | Multi-attribute adaptive aggregation transformer for vehicle re-identification | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
Tang et al. | Multi-modal metric learning for vehicle re-identification in traffic surveillance environment | |
Germain et al. | S2dnet: Learning accurate correspondences for sparse-to-dense feature matching | |
Wary et al. | A review on robust video copy detection | |
Laskar et al. | Geometric image correspondence verification by dense pixel matching | |
Tian et al. | Robust joint learning network: improved deep representation learning for person re-identification | |
US20140133550A1 (en) | Method of encoding and decoding flows of digital video frames, related systems and computer program products | |
Ge et al. | WGI-Net: A weighted group integration network for RGB-D salient object detection | |
Qi et al. | FastVOD-Net: A real-time and high-accuracy video object detector | |
Zhang et al. | DHNet: Salient object detection with dynamic scale-aware learning and hard-sample refinement | |
Liu et al. | CenterTube: Tracking multiple 3D objects with 4D tubelets in dynamic point clouds | |
Zong et al. | A cascaded refined rgb-d salient object detection network based on the attention mechanism | |
Wang et al. | Transformer-based network for RGB-D saliency detection | |
CN116664624B (zh) | 基于解耦分类与回归特征的目标跟踪方法及跟踪器 | |
Tinchev et al. | $\mathbb {X} $ Resolution Correspondence Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |