CN116664624A - 基于解耦分类与回归特征的目标跟踪方法及跟踪器 - Google Patents

基于解耦分类与回归特征的目标跟踪方法及跟踪器 Download PDF

Info

Publication number
CN116664624A
CN116664624A CN202310640583.3A CN202310640583A CN116664624A CN 116664624 A CN116664624 A CN 116664624A CN 202310640583 A CN202310640583 A CN 202310640583A CN 116664624 A CN116664624 A CN 116664624A
Authority
CN
China
Prior art keywords
target
decoupling
classification
level
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310640583.3A
Other languages
English (en)
Other versions
CN116664624B (zh
Inventor
陈程立诏
李潞铭
宋梦柯
宋佳
胡诗语
卢博
赵一汎
王子铭
张明月
杨龙燕
崔爽锌
薛子玥
刘新宇
梁少峰
朱晓东
尹涵冰
张钰
袁千禧
刘伊凡
崔奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202310640583.3A priority Critical patent/CN116664624B/zh
Publication of CN116664624A publication Critical patent/CN116664624A/zh
Application granted granted Critical
Publication of CN116664624B publication Critical patent/CN116664624B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Abstract

本发明公开了一种基于解耦分类与回归特征的目标跟踪方法及跟踪器,所述跟踪方法包括:根据视频序列中初始帧和当前帧划分目标模板区域和目标搜索区域;利用孪生深度残差卷积神经网络提取目标模板区域和目标搜索区域的深度学习表征特征;基于transformer交叉注意力机制和卷积操作融合目标模板区域深度表征特征和目标搜索区域深度表征特征得到跟踪器的解耦分类特征和解耦回归特征;基于transformer自注意力机制和卷积操作进一步编码解耦分类特征和解耦回归特征,并得到目标在当前帧的目标前背景二分类预测和目标边境框回归预测,从而实现目标跟踪器在视频序列中鲁棒准确地跟踪目标。

Description

基于解耦分类与回归特征的目标跟踪方法及跟踪器
技术领域
本发明属于视觉目标跟踪方法的技术领域,特别涉及基于孪生神经网络的视觉目标跟踪方法。
背景技术
视觉目标跟踪(VOT)即是在给定某视频序列初始帧的目标大小与位置的情况下,预测后续帧中该目标轨迹和/或状态的过程,其手段通常为:针对包含丰富视觉信息的视频序列,输入初始化目标框,并在下一帧中产生众多候选框,提取候选框的特征,并对候选框评分,以得分最高的候选框作为预测的目标,或进一步的,对多个候选框的预测结果进行融合得到更优的预测目标。
近来,在视觉目标跟踪方法领域研究较多的为基于孪生(Siamese)网络的目标跟踪器,该类目标跟踪器可将视觉跟踪任务表示为相似性匹配问题,通过目标分支和搜索分支之间的卷积特征互相关实现相似性学习,获得目标跟踪结果。但是,以上过程需要预先确定目标特征区域的大小,在互相关操作中会保留大量不利的背景信息或丢失大量的前景信息,匹配过程中还会损失目标结构等细微信息,导致跟踪结果的准确性会受到目标尺度变化和/或复杂背景区域干扰的局限,在复杂场景如跟踪目标存在旋转变化、尺度缩放、复杂形变等情况下实用性差,难以获得准确性高、稳健性好的跟踪结果。
发明内容
针对现有技术的缺陷,本发明的目的在于提出一种可适用于不同类型监控视频,特别是视频序列中背景区域复杂,跟踪目标存在的旋转变化、尺度放缩以及形变等复杂情形下的目标跟踪方法,实现在复杂场景中的高准确性和稳健性的目标跟踪。
本发明的技术方案如下:
基于解耦分类与回归特征的目标跟踪方法,其包括:
S1自视频序列的初始帧图像中划分得到目标模板区域图像T,自视频序列的当前帧图像中划分得到目标搜索区域图像X;
S2通过根据两个Resnet50网络即第一Resnet50网络和第二Resnet50网络构建的孪生神经网络对所述目标模板区域图像T和目标搜索区域图像X进行深度特征提取,根据两个Resnet50网络中不同残差模块获得多个不同级别的目标模板区域图像特征Ti和目标搜索区域图像特征Xi,其中i表示级别值;
S3对所得多个不同级别的目标模板区域图像特征Ti和目标搜索区域图像特征Xi按级别分别进行基于transformer多头交叉注意力机制的全局非线性融合,得到各级别第一融合特征,即各级别解耦分类特征ci
S4将所得多个不同级别的目标模板区域图像特征Ti和目标搜索区域图像特征Xi按级别分别进行基于逐通道卷积的局部线性融合,得到各级别的第二融合特征,即各级别解耦回归特征ri
S5对所述各级别解耦分类特征ci分别使用基于transformer多头自注意力机制的编码处理,得到各级别编码解耦分类特征c′i
S6对所述各级别解耦回归特征ri分别进行基于残差卷积的编码处理,得到各级别编码解耦回归特征r′i
S7通过sigmoid函数对所述各级别编码解耦分类特征c′i进行分类评分,得到各级编码解耦分类特征的分类得分图Ci,对各级编码解耦分类特征的分类得分图Ci进行自适应权重加和,得到预测分类得分图C;
S8将所述各级别编码解耦回归特征ri′分别进行卷积处理,得到各级别回归图Ri,将所得各级别回归图Ri进行自适应权重加和,得到目标边境框R,根据所述预测分类得分图C中得分最大位置处的级别值i及权重向量的序数j值,在目标边境框R内确定目标在当前帧的预测状态。
根据本发明的一些优选实施方式,所述S1进一步包括:
S11以视频序列中初始帧和当前帧图像的左上角为原点,以向下延伸方向为Y轴正方向,向右延伸方向为X轴正方向,分别建立初始帧和当前帧图像的二维坐标系;
S12在具有二维坐标系的初始帧图像中,以给定的初始跟踪目标中心为中心,裁剪出空间分辨率为128×128像素的图像,作为目标模板区域图像T;
S13在具有二维坐标系的当前帧图像中,以根据其上一帧图像预测得到的跟踪目标中心为中心,裁剪出空间分辨率为256×256像素的图像,作为目标搜索区域图像X。
根据本发明的一些优选实施方式,所述不同级别的目标模板区域图像特征Ti包括自第一ResNet50网络中第3个残差模块、第4个残差模块及第个5残差模块获得的目标模板区域图像特征fi(T),即Ti=fi(T),i=3,4,5;所述不同级别的目标搜索区域图像特征Xi包括自第二ResNet50网络中第3个残差模块、第4个残差模块及第个5残差模块获得的目标搜索区域图像特征fi(X),即Xi=fi(X),i=3,4,5。
根据本发明的一些优选实施方式,所述基于transformer多头交叉注意力机制的全局非线性融合包括:
S31使用多个第一单层全连接网络l1i()将不同级别的目标模板区域图像特征Ti分别线性映射为查询向量qi,即qi=l1i(Ti),i=3,4,5;
S32使用多个第二单层全连接网络l2i()将不同级别的目标搜索区域图像特征Xi分别线性映射为关键向量ki,即ki=l2i(Xi),i=3,4,5;
S33使用多个第三单层全连接网络l3i()将不同级别的目标搜索区域图像特征Xi分别线性映射为值向量vi,即vi=l3i(Xi),i=3,4,5;
S34对所得查询向量qi和关键向量ki分别进行正弦空间位置嵌入,得到位置向量qi'和ki';
S35将所得值向量vi、位置向量qi'和ki',使用基于transformer多头交叉注意力机制模型MultiHCi()进行全局非线性融合,得到的第一融合特征即所述各级别解耦分类特征ci,即ci=MultiHCi(qi',ki',vi),i=3,4,5。
根据本发明的一些优选实施方式,所述基于逐通道卷积的局部线性融合包括:
S41将所述多个不同级别的目标模板区域图像特征Ti分别使用多个第一卷积网络φ1i()进行线性映射,得到特征向量Ti',即Ti'=φ1i(Ti),i=3,4,5,其中,第一卷积网络φ1i()包括单一卷积层,其包含一个大小为1×1的卷积核;
S42将所述多个不同级别的目标搜索区域图像特征Xi分别使用多个第二卷积网络φ2i()进行线性映射,得到特征向量Xi',即Ti'=φ2i(Xi),i=3,4,5,其中,第二卷积网络φ2i()包括单一卷积层,其包含一个大小为1×1的卷积核;
S43将所得特征向量Ti'作为卷积核,对特征向量Xi'进行逐通道卷积,得到第二融合特征,即所述各级别解耦回归特征ri,i=3,4,5。
根据本发明的一些优选实施方式,所述S5进一步包括:
S51使用多个第四单层全连接网络L1i()将所述各级别解耦分类特征ci分别线性映射为查询向量Qi,即Qi=L1i(ci),i=3,4,5;
S52使用多个第五单层全连接网络L2i()将所述各级别解耦分类特征ci分别线性映射为关键向量Ki,即Ki=L2i(ci),i=3,4,5;
S53使用多个第六单层全连接网络L3i(ci)将所述各级别解耦分类特征ci分别线性映射为值向量Vi,即Vi=L3i(ci),i=3,4,5;
S54将所述查询向量Qi和关键向量Ki分别进行正弦空间位置嵌入,得到位置向量Qi'和Ki';
S55将所述位置向量Qi'、Ki和值向量Vi使用基于transformer多头自注意力机制模型MultiHSi()进行语义信息编码,得到权重向量Fci,即Fci=MultiHSi(Qi',Ki',Vi),i=3,4,5;
S56将所述权重向量Fci与所述各级别解耦分类特征ci相加,得到各级别各级别编码解耦分类特征c'i,即c'i=Fci+ci,i=3,4,5。
根据本发明的一些优选实施方式,所述S6进一步包括:
S61通过多个第一卷积残差模块ψi()对所述各级别解耦回归特征ri分别进行细粒度信息编码,得到各级别编码向量Fri,即Fri=ψi(ri),i=3,4,5,其中,第一卷积残差模块包括4个堆砌的卷积层,每个卷积层含有一个大小为3×3的卷积核;
S62通过多个含有一个大小为1×1的卷积核的卷积层对所述各级别编码向量Fri进行卷积处理,得到各级别编码解耦回归特征ri',i=3,4,5。
根据本发明的一些优选实施方式,所述S7进一步包括:
S71通过sigmoid函数对所述各级别编码解耦分类特征c′i进行0、1分类,得到各级别编码解耦分类特征的分类得分图Ci,i=3,4,5;
S72将长度为3的权重列表W1进行数值初始化,该权重列表中的任一位置权重W1j之和满足:初始化后使用softmax函数对W1中各位置权重进行分配,得到具有分配顺序的权重列表W′1
S73将各级别编码解耦分类特征的分类得分图Ci与所述具有分配顺序的权重列表W′1进行向量相乘后相加,得到预测分类得分图C,即C=C3×W′10+Cg×W′11+C5×W′12
根据本发明的一些优选实施方式,所述S8进一步包括:
S81使用含有一个大小为1×1的卷积核、通道数为4的单一卷积层对所述各级别编码解耦回归特征ri′分别进行卷积处理,以聚合编码解耦回归特征ri′中的特征信息,得到各级别回归图Ri,i=3,4,5;
S82将长度为3的权重列表W2进行数值初始化,该权重列表中的任一位置权重W2j之和满足:初始化后使用softmax函数对W2中各位置权重进行分配,得到具有分配顺序的权重列表W′2
S83将所得分类得分图Ci与具有分配顺序的权重列表W′2进行向量相乘后相加,得到目标边境框R,即R=R3×W′20+R4×W′21+R55×W′22
S84取所述预测分类得分图C中得分最大的位置处的i及j值,在目标边境框R内找到与(i,j)对应的值,获得目标在当前帧的预测状态。
根据以上目标跟踪方法,可进一步获得基于解耦分类与回归特征的目标跟踪器。
本发明的目标跟踪方法首先根据视频序列中初始帧和当前帧分别划分目标模板区域和目标搜索区域,其中初始帧和当前帧可具有不同的分辨率,其后利用孪生深度残差卷积神经网络分别提取目标模板区域和目标搜索区域的深度学习表征特征,再分别基于transformer交叉注意力机制和卷积操作融合目标模板区域深度表征特征和目标搜索区域深度表征特征,得到解耦分类特征和解耦回归特征,最后分别基于transformer自注意力机制和卷积操作进一步编码解耦分类特征和解耦回归特征,得到目标在当前帧的目标前背景二分类预测和目标边境框回归预测,从而实现稳健准确地跟踪目标。
本发明具备以下有益效果:
本发明采用基于transformer注意力机制与标准卷积操作机制的方式,并行获得跟踪器的解耦回归特征和解耦分类特征;其通过交叉注意力获得的解耦分类特征,使分类特征中语义信息更加集中;其通过标准卷积操作机制获得的解耦回归特征,含有丰富的细粒度信息,使跟踪器的分类预测更加鲁棒,回归预测更加准确;
不同于现有基于Siamese网络的目标跟踪方法,本发明采用一种与解耦跟踪器分类分支和回归分支的精确目标跟踪任务;其以初始帧目标模板区域与当前帧目标搜索区域作为孪生网络模型的输入模板图像和输入搜索图像;基于transformer注意力机制的交叉注意力与标准卷积操作机制的方式解耦跟踪器的融合特征,并采用基于transformer注意力的自注意力进一步编码解耦分类特征中的语义信息和标准卷积操作进一步编码融合回归特征,实现在监控视频序列准确稳健地跟踪目标。
附图说明
图1为本发明一种具体实施方式的流程框架图。
图2为本发明采用的一种深度残差卷积神经网络的结构示意图。
图3为本发明采用的一种基于transformer的多头交叉注意力机制示意图。
图4为本发明采用的一种基于transformer的自注意力机制示意图。
具体实施方式
以下结合实施例和附图对本发明进行详细描述,但需要理解的是,所述实施例和附图仅用于对本发明进行示例性的描述,而并不能对本发明的保护范围构成任何限制。所有包含在本发明的发明宗旨范围内的合理的变换和组合均落入本发明的保护范围。
参照附图1,本发明提出的基于解耦分类与回归特征的目标跟踪方法的一种具体实施方式包括以下步骤:
S1自视频序列的初始帧图像中划分得到目标模板区域图像T,自视频序列的当前帧图像中划分得到目标搜索区域图像X,其中,初始帧图像和当前帧图像可具有不同的分辨率。
在更具体的一些实施方式中,其可包括:
S11以视频序列中初始帧和当前帧图像的左上角为原点,以向下延伸方向为Y轴正方向,向右延伸方向为X轴正方向,分别建立初始帧和当前帧图像的二维坐标系;
S12在具有二维坐标系的初始帧图像中,以给定的初始跟踪目标中心为中心,裁剪出空间分辨率为128×128像素的图像,作为目标模板区域图像T;
S13在具有二维坐标系的当前帧图像中,以根据其上一帧图像预测得到的跟踪目标中心为中心,裁剪出空间分辨率为256×256像素的图像,作为目标搜索区域图像X。
S2通过基于Resnet50网络构建的孪生神经网络对所述目标模板区域图像T和目标搜索区域图像X分别进行深度特征提取,根据Restnet50网络中不同残差模块对应获得多个不同级别的目标模板区域图像特征Ti和目标搜索区域图像特征Xi,其中i表示级别值;
在更具体的一些实施方式中,参照附图2,所述ResNet50网络包括5个残差模块,即第1~第5残差模块。
在更具体的一些实施方式中,所述不同级别的目标模板区域图像特征Ti包括自ResNet50网络中后三个残差模块即第3、4、5残差模块区分并获得的目标模板区域图像特征fi(T),i=3,4,5,即Ti=fi(T),i=3,4,5。
在更具体的一些实施方式中,所述不同级别的目标搜索区域图像特征Xi包括自ResNet50网络中后三个残差模块即第3、4、5残差模块区分并获得的目标搜索区域图像特征fi(X),i=3,4,5,即Xi=fi(X),i=3,4,5。
S3对所得多个不同级别的目标模板区域图像特征Ti和目标搜索区域图像特征Xi按级别分别进行基于transformer多头交叉注意力机制的全局非线性融合,得到各级别第一融合特征,即目标跟踪器的各级别解耦分类特征ci
在更具体的一些实施方式中,参照附图3,所述基于transformer多头交叉注意力机制的全局非线性融合包括:
S31使用多个第一单层全连接网络l1i()将不同级别的目标模板区域图像特征Ti分别线性映射为查询向量qi,即qi=l1i(Ti),i=3,4,5;
S32使用多个第二单层全连接网络l2i()将同级别的目标搜索区域图像特征Xi分别线性映射为关键向量ki,即ki=l2i(Xi),i=3,4,5;
S33使用多个第三单层全连接网络l3i()将不同级别的目标搜索区域图像特征Xi分别线性映射为值向量vi,即vi=l3i(Xi),i=3,4,5;
S34对所得查询向量qi和关键向量ki分别进行正弦空间位置嵌入,得到位置向量qi'和ki';
S35将所得值向量vi、位置向量qi'和ki',使用基于transformer多头交叉注意力机制模型MultiHCi()进行全局非线性融合,得到的融合特征即所述解耦分类特征ci,即ci=MultiHCi(qi',ki',vi),i=3,4,5。
S4将S2所得多个不同级别的目标模板区域图像特征Ti和目标搜索区域图像特征Xi按级别分别进行基于逐通道卷积的局部线性融合,得到各级别的第二融合特征,即目标跟踪器的各级别解耦回归特征ri
在更具体的一些实施方式中,所述基于逐通道卷积的局部线性融合包括:
S41将所得多个不同级别的目标模板区域图像特征Ti分别使用多个第一卷积网络φ1i()进行线性映射,得到特征向量Ti',即Ti'=φ1i(Ti),i=3,4,5,其中,第一卷积网络φ1i()包括单一卷积层,其包含一个大小为1×1的卷积核;
S42将所得多个不同级别的目标搜索区域图像特征Xi分别使用多个第二卷积网络φ2i()进行线性映射,得到特征向量Xi',即Ti'=φ2i(Xi),i=3,4,5,其中,第二卷积网络φ2i()包括单一卷积层,其包含一个大小为1×1的卷积核;
S43将所得特征向量Ti'作为卷积核,对特征向量Xi'进行逐通道卷积,得到第二融合特征,即解耦回归特征ri,i=3,4,5。
S5对所述各级别解耦分类特征ci分别使用基于transformer多头自注意力机制的编码处理,得到各级别编码解耦分类特征c′i
参照附图4,在更具体的一些实施方式中,其可包括:
S51使用多个第四单层全连接网络L1i()将所得解耦分类特征ci分别线性映射为查询向量Qi,即Qi=L1i(ci),i=3,4,5;
S52使用多个第五单层全连接网络L2i()将所得解耦分类特征ci分别线性映射为关键向量Ki,即Ki=L2i(ci),i=3,4,5;
S53使用多个第六单层全连接网络L3i(ci)将所得解耦分类特征ci分别线性映射为值向量Vi,即Vi=L3i(ci),i=3,4,5;
S54将所得查询向量Qi和关键向量Ki分别进行正弦空间位置嵌入,分别得到位置向量Q′i和K′i
S55将所得位置向量向量Q′i、Ki和值向量Vi使用基于transformer多头自注意力机制模型MultiHSi()进行语义信息编码,得到权重向量Fci,即Fci=MultiHSi(Q′i,K′i,Vi),i=3,4,5;
S56将所得权重向量Fci与解耦分类特征ci相加,得到最终解耦分类特征c'i,即c'i=Fci+ci,i=3,4,5。
S6对所得各级别解耦回归特征ri分别进行基于残差卷积的编码处理,得到各级别编码解耦回归特征ri′。
在更具体的一些实施方式中,其可包括:
S61分别通过多个第一卷积残差模块ψi()对所得解耦回归特征ri进行细粒度信息编码,得到编码向量Fri,即Fri=ψi(ri),i=3,4,5,其中,第一卷积残差模块包括4个堆砌的卷积层,每个卷积层含有一个大小为3×3的卷积核;
S62分别通过多个一个卷积核大小为1×1的卷积层对编码向量进行卷积处理,以聚合向量Fri中的信息,得到编码解耦回归特征ri',i=3,4,5。
S7通过sigmoid函数对所得各级别编码解耦分类特征c′i进行分类评分,得到各级别编码解耦分类特征c'i的评分图Ci,并进行自适应权重相加,得到跟踪器的预测分类得分图C。
在更具体的一些实施方式中,其可包括:
S71通过sigmoid函数对各级别编码解耦分类特征c′i进行0、1分类,得到各级编码解耦分类特征的分类得分图Ci,i=3,4,5;
S72将长度为3的权重列表W1进行数值初始化,该权重列表中的任一位置权重W1j之和满足:初始化后使用softmax函数对W1中各位置权重进行分配,得到具有分配顺序的权重列表W′1
S73将所得分类得分图Ci与具有分配顺序的权重列表W′1进行向量相乘后相加,得到预测分类得分图C,即C=C3×W′10+C4×W′11+C5×W′12
S8将所述各级别编码解耦回归特征r′i进行卷积处理,得到其对应的各级别回归图Ri,将所得各级别回归图进行自适应权重相加,得到目标边境框R,根据所述预测分类得分图C中得分最大的位置处的i及j值,在目标边境框R内确定目标在当前帧的预测状态。
在更具体的一些实施方式中,其可包括:
S81使用含有一个大小为1×1的卷积核、通道数为4的单一卷积层对所述各级别编码解耦回归特征r′i分别进行卷积处理,以聚合编码解耦回归特征r′i中的特征信息,得到各级别回归图Ri,i=3,4,5;
S82将长度为3的权重列表W2进行数值初始化,该权重列表中的任一位置权重W2j之和满足:初始化后使用softmax函数对W2中各位置权重进行分配,得到具有分配顺序的权重列表W′2
S83将所得分类得分图Ci与具有分配顺序的权重列表W′2进行向量相乘后相加,得到目标边境框R,即R=R3×W′20+R4×W′21+R5×W′22
S84取所述预测分类得分图C中得分最大的位置处的i及j值,在目标边境框R内找到与(i,j)对应的值,获得目标在当前帧的预测状态。
以上实施例仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例。凡属于本发明思路下的技术方案均属于本发明的保护范围。应该指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下的改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.基于解耦分类与回归特征的目标跟踪方法,其特征在于,其包括:
S1自视频序列的初始帧图像中划分得到目标模板区域图像T,自视频序列的当前帧图像中划分得到目标搜索区域图像X;
S2通过根据两个Resnet50网络即第一Resnet50网络和第二Resnet50网络构建的孪生神经网络对所述目标模板区域图像T和目标搜索区域图像X分别进行深度特征提取,根据两个Resnet50网络中不同残差模块对应获得多个不同级别的目标模板区域图像特征Ti和目标搜索区域图像特征Xi,其中i表示级别值;
S3对所得多个不同级别的目标模板区域图像特征Ti和目标搜索区域图像特征Xi按级别分别进行基于transformer多头交叉注意力机制的全局非线性融合,得到各级别第一融合特征,即各级别解耦分类特征ci
S4将所得多个不同级别的目标模板区域图像特征Ti和目标搜索区域图像特征Xi按级别分别进行基于逐通道卷积的局部线性融合,得到各级别的第二融合特征,即各级别解耦回归特征ri
S5对所述各级别解耦分类特征ci分别使用基于transformer多头自注意力机制的编码处理,得到各级别编码解耦分类特征c′i
S6对所述各级别解耦回归特征ri分别进行基于残差卷积的编码处理,得到各级别编码解耦回归特征r′i
S7通过sigmoid函数对所述各级别编码解耦分类特征c′i进行分类评分,得到各级编码解耦分类特征的分类得分图Ci,对各级编码解耦分类特征的分类得分图Ci进行自适应权重加和,得到预测分类得分图C;
S8将所述各级别编码解耦回归特征r′i分别进行卷积处理,得到各级别回归图Ri,将所得各级别回归图Ri进行自适应权重加和,得到目标边境框R,根据所述预测分类得分图C中得分最大位置处的级别值i及权重向量的序数j值,在目标边境框R内确定目标在当前帧的预测状态。
2.根据权利要求1所述的目标跟踪方法,其特征在于,所述S1进一步包括:
S11以视频序列中初始帧和当前帧图像的左上角为原点,以向下延伸方向为Y轴正方向,向右延伸方向为X轴正方向,分别建立初始帧和当前帧图像的二维坐标系;
S12在具有二维坐标系的初始帧图像中,以给定的初始跟踪目标中心为中心,裁剪出空间分辨率为128×128像素的图像,作为目标模板区域图像T;
S13在具有二维坐标系的当前帧图像中,以根据其上一帧图像预测得到的跟踪目标中心为中心,裁剪出空间分辨率为256×256像素的图像,作为目标搜索区域图像X。
3.根据权利要求1所述的目标跟踪方法,其特征在于,所述不同级别的目标模板区域图像特征Ti包括自第一ResNet50网络中第3个残差模块、第4个残差模块及第个5残差模块获得的目标模板区域图像特征fi(T),即Ti=fi(T),i=3,4,5;所述不同级别的目标搜索区域图像特征Xi包括自第二ResNet50网络中第3个残差模块、第4个残差模块及第个5残差模块获得的目标搜索区域图像特征fi(X),即Xi=fi(X),i=3,4,5。
4.根据权利要求4所述的目标跟踪方法,其特征在于,所述基于transformer多头交叉注意力机制的全局非线性融合包括:
S31使用多个第一单层全连接网络l1i()将不同级别的目标模板区域图像特征Ti分别线性映射为查询向量qi,即qi=l1i(Ti),i=3,4,5;
S32使用多个第二单层全连接网络l2i()将不同级别的目标搜索区域图像特征Xi分别线性映射为关键向量ki,即ki=l2i(Xi),i=3,4,5;
S33使用多个第三单层全连接网络l3i()将不同级别的目标搜索区域图像特征Xi分别线性映射为值向量vi,即vi=l3i(Xi),i=3,4,5;
S34对所得查询向量qi和关键向量ki分别进行正弦空间位置嵌入,得到位置向量q′i和k′i
S35将所得值向量vi、位置向量q′i和k′i,使用基于transformer多头交叉注意力机制模型MultiHCi()进行全局非线性融合,得到的第一融合特征即所述各级别解耦分类特征ci,即ci=MultiHCi(q′i,k′i,vi),i=3,4,5。
5.根据权利要求4所述的目标跟踪方法,其特征在于,所述基于逐通道卷积的局部线性融合包括:
S41将所述多个不同级别的目标模板区域图像特征Ti分别使用多个第一卷积网络φ1i()进行线性映射,得到特征向量Ti',即Ti'=φ1i(Ti),i=3,4,5,其中,第一卷积网络φ1i()包括单一卷积层,其包含一个大小为1×1的卷积核;
S42将所述多个不同级别的目标搜索区域图像特征Xi分别使用多个第二卷积网络φ2i()进行线性映射,得到特征向量X′i,即Ti'=φ2i(Xi),i=3,4,5,其中,第二卷积网络φ2i()包括单一卷积层,其包含一个大小为1×1的卷积核;
S43将所得特征向量Ti'作为卷积核,对特征向量X′i进行逐通道卷积,得到第二融合特征,即所述各级别解耦回归特征ri,i=3,4,5。
6.根据权利要求4所述的目标跟踪方法,其特征在于,其中,所述S5进一步包括:
S51使用多个第四单层全连接网络L1i()将所述各级别解耦分类特征ci分别线性映射为查询向量Qi,即Qi=L1i(ci),i=3,4,5;
S52使用多个第五单层全连接网络L2i()将所述各级别解耦分类特征ci分别线性映射为关键向量Ki,即Ki=L2i(ci),i=3,4,5;
S53使用多个第六单层全连接网络L3i(ci)将所述各级别解耦分类特征ci分别线性映射为值向量Vi,即Vi=L3i(ci),i=3,4,5;
S54将所述查询向量Qi和关键向量Ki分别进行正弦空间位置嵌入,得到位置向量Q′i和K′i
S55将所述位置向量Q′i、Ki和值向量Vi使用基于transformer多头自注意力机制模型MultiHSi()进行语义信息编码,得到权重向量Fci,即Fci=MultiHSi(Q′i,K′i,Vi),i=3,4,5;
S56将所述权重向量Fci与所述各级别解耦分类特征ci相加,得到各级别各级别编码解耦分类特征c′i,即c′i=Fci+ci,i=3,4,5。
7.根据权利要求4所述的目标跟踪方法,其特征在于,所述S6进一步包括:
S61通过多个第一卷积残差模块ψi()对所述各级别解耦回归特征ri分别进行细粒度信息编码,得到各级别编码向量Fri,即Fri=ψi(ri),i=3,4,5,其中,第一卷积残差模块包括4个堆砌的卷积层,每个卷积层含有一个大小为3×3的卷积核;
S62通过多个含有一个大小为1×1的卷积核的卷积层对所述各级别编码向量Fri进行卷积处理,得到各级别编码解耦回归特征r′i,i=3,4,5。
8.根据权利要求4所述的目标跟踪方法,其特征在于,所述S7进一步包括:
S71通过sigmoid函数对所述各级别编码解耦分类特征c′i进行0、1分类,得到各级别编码解耦分类特征的分类得分图Ci,i=3,4,5;
S72将长度为3的权重列表W1进行数值初始化,该权重列表中的任一位置权重W1j之和满足:初始化后使用softmax函数对W1中各位置权重进行分配,得到具有分配顺序的权重列表W′1
S73将各级别编码解耦分类特征的分类得分图Ci与所述具有分配顺序的权重列表W′1进行向量相乘后相加,得到预测分类得分图C,即C=C3×W′10+C4×W′11+C5×W′12
9.根据权利要求4所述的目标跟踪方法,其特征在于,所述S8进一步包括:
S81使用含有一个大小为1×1的卷积核、通道数为4的单一卷积层对所述各级别编码解耦回归特征r′i分别进行卷积处理,以聚合编码解耦回归特征r′i中的特征信息,得到各级别回归图Ri,i=3,4,5;
S82将长度为3的权重列表W2进行数值初始化,该权重列表中的任一位置权重W2j之和满足:初始化后使用softmax函数对W2中各位置权重进行分配,得到具有分配顺序的权重列表W′2
S83将所得分类得分图Ci与具有分配顺序的权重列表W′2进行向量相乘后相加,得到目标边境框R,即R=R3×W′20+R4×W′21+R5×W′22
S84取所述预测分类得分图C中得分最大的位置处的i及j值,在目标边境框R内找到与(i,j)对应的值,获得目标在当前帧的预测状态。
10.基于解耦分类与回归特征的目标跟踪器,其应用权利要求1~9中任一项所述的目标跟踪方法。
CN202310640583.3A 2023-06-01 2023-06-01 基于解耦分类与回归特征的目标跟踪方法及跟踪器 Active CN116664624B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310640583.3A CN116664624B (zh) 2023-06-01 2023-06-01 基于解耦分类与回归特征的目标跟踪方法及跟踪器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310640583.3A CN116664624B (zh) 2023-06-01 2023-06-01 基于解耦分类与回归特征的目标跟踪方法及跟踪器

Publications (2)

Publication Number Publication Date
CN116664624A true CN116664624A (zh) 2023-08-29
CN116664624B CN116664624B (zh) 2023-10-27

Family

ID=87716732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310640583.3A Active CN116664624B (zh) 2023-06-01 2023-06-01 基于解耦分类与回归特征的目标跟踪方法及跟踪器

Country Status (1)

Country Link
CN (1) CN116664624B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307995A (zh) * 2020-11-05 2021-02-02 电子科技大学 一种基于特征解耦学习的半监督行人重识别方法
CN113221962A (zh) * 2021-04-21 2021-08-06 哈尔滨工程大学 一种解耦分类与回归任务的三维点云单阶段目标检测方法
CN113297961A (zh) * 2021-05-24 2021-08-24 南京邮电大学 一种基于边界特征融合孪生循环神经网络的目标跟踪方法
CN113706581A (zh) * 2021-08-13 2021-11-26 河南大学 基于残差通道注意与多层次分类回归的目标跟踪方法
CN113705588A (zh) * 2021-10-28 2021-11-26 南昌工程学院 基于卷积自注意力模块的孪生网络目标跟踪方法与系统
CN114049381A (zh) * 2021-12-21 2022-02-15 重庆大学 一种融合多层语义信息的孪生交叉目标跟踪方法
CN115578418A (zh) * 2022-10-19 2023-01-06 东南大学 一种基于双重注意力网络的单目标跟踪方法
CN115690152A (zh) * 2022-10-18 2023-02-03 南京航空航天大学 一种基于注意力机制的目标追踪方法
WO2023030513A1 (zh) * 2021-09-05 2023-03-09 汉熵通信有限公司 物联网系统
CN116030097A (zh) * 2023-02-28 2023-04-28 南昌工程学院 基于双重注意力特征融合网络的目标跟踪方法与系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307995A (zh) * 2020-11-05 2021-02-02 电子科技大学 一种基于特征解耦学习的半监督行人重识别方法
CN113221962A (zh) * 2021-04-21 2021-08-06 哈尔滨工程大学 一种解耦分类与回归任务的三维点云单阶段目标检测方法
CN113297961A (zh) * 2021-05-24 2021-08-24 南京邮电大学 一种基于边界特征融合孪生循环神经网络的目标跟踪方法
CN113706581A (zh) * 2021-08-13 2021-11-26 河南大学 基于残差通道注意与多层次分类回归的目标跟踪方法
WO2023030513A1 (zh) * 2021-09-05 2023-03-09 汉熵通信有限公司 物联网系统
CN113705588A (zh) * 2021-10-28 2021-11-26 南昌工程学院 基于卷积自注意力模块的孪生网络目标跟踪方法与系统
CN114049381A (zh) * 2021-12-21 2022-02-15 重庆大学 一种融合多层语义信息的孪生交叉目标跟踪方法
CN115690152A (zh) * 2022-10-18 2023-02-03 南京航空航天大学 一种基于注意力机制的目标追踪方法
CN115578418A (zh) * 2022-10-19 2023-01-06 东南大学 一种基于双重注意力网络的单目标跟踪方法
CN116030097A (zh) * 2023-02-28 2023-04-28 南昌工程学院 基于双重注意力特征融合网络的目标跟踪方法与系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"解耦 Siamese 网络特征的目标跟踪算法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 3, pages 1 - 41 *
LUMING LI ET AL.: "Reinspecting Classification and Regression in the Sibling Head for Visual Tracking", 《IEEE INTERNATIONAL CONFERENCE ON INFORMATION TECHNOLOGY IN MEDICINE AND EDUCATION》, pages 81 - 85 *

Also Published As

Publication number Publication date
CN116664624B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
Wang et al. Matchformer: Interleaving attention in transformers for feature matching
Sheng et al. Improving 3d object detection with channel-wise transformer
Zhou et al. Specificity-preserving RGB-D saliency detection
Zhang et al. Bilateral attention network for RGB-D salient object detection
Zhou et al. Centerformer: Center-based transformer for 3d object detection
Ding et al. Transmvsnet: Global context-aware multi-view stereo network with transformers
Tu et al. Action-stage emphasized spatiotemporal VLAD for video action recognition
Huo et al. Efficient context-guided stacked refinement network for RGB-T salient object detection
Chen et al. Depth-quality-aware salient object detection
Yu et al. Multi-attribute adaptive aggregation transformer for vehicle re-identification
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
Tang et al. Multi-modal metric learning for vehicle re-identification in traffic surveillance environment
Germain et al. S2dnet: Learning accurate correspondences for sparse-to-dense feature matching
Wary et al. A review on robust video copy detection
Laskar et al. Geometric image correspondence verification by dense pixel matching
Tian et al. Robust joint learning network: improved deep representation learning for person re-identification
US20140133550A1 (en) Method of encoding and decoding flows of digital video frames, related systems and computer program products
Ge et al. WGI-Net: A weighted group integration network for RGB-D salient object detection
Qi et al. FastVOD-Net: A real-time and high-accuracy video object detector
Zhang et al. DHNet: Salient object detection with dynamic scale-aware learning and hard-sample refinement
Liu et al. CenterTube: Tracking multiple 3D objects with 4D tubelets in dynamic point clouds
Zong et al. A cascaded refined rgb-d salient object detection network based on the attention mechanism
Wang et al. Transformer-based network for RGB-D saliency detection
CN116664624B (zh) 基于解耦分类与回归特征的目标跟踪方法及跟踪器
Tinchev et al. $\mathbb {X} $ Resolution Correspondence Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant