CN116664624A

CN116664624A - 基于解耦分类与回归特征的目标跟踪方法及跟踪器

Info

Publication number: CN116664624A
Application number: CN202310640583.3A
Authority: CN
Inventors: 陈程立诏; 李潞铭; 宋梦柯; 宋佳; 胡诗语; 卢博; 赵一汎; 王子铭; 张明月; 杨龙燕; 崔爽锌; 薛子玥; 刘新宇; 梁少峰; 朱晓东; 尹涵冰; 张钰; 袁千禧; 刘伊凡; 崔奇
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2023-06-01
Filing date: 2023-06-01
Publication date: 2023-08-29
Anticipated expiration: 2043-06-01
Also published as: CN116664624B

Abstract

本发明公开了一种基于解耦分类与回归特征的目标跟踪方法及跟踪器，所述跟踪方法包括：根据视频序列中初始帧和当前帧划分目标模板区域和目标搜索区域；利用孪生深度残差卷积神经网络提取目标模板区域和目标搜索区域的深度学习表征特征；基于transformer交叉注意力机制和卷积操作融合目标模板区域深度表征特征和目标搜索区域深度表征特征得到跟踪器的解耦分类特征和解耦回归特征；基于transformer自注意力机制和卷积操作进一步编码解耦分类特征和解耦回归特征，并得到目标在当前帧的目标前背景二分类预测和目标边境框回归预测，从而实现目标跟踪器在视频序列中鲁棒准确地跟踪目标。

Description

基于解耦分类与回归特征的目标跟踪方法及跟踪器

技术领域

本发明属于视觉目标跟踪方法的技术领域，特别涉及基于孪生神经网络的视觉目标跟踪方法。

背景技术

视觉目标跟踪(VOT)即是在给定某视频序列初始帧的目标大小与位置的情况下，预测后续帧中该目标轨迹和/或状态的过程，其手段通常为：针对包含丰富视觉信息的视频序列，输入初始化目标框，并在下一帧中产生众多候选框，提取候选框的特征，并对候选框评分，以得分最高的候选框作为预测的目标，或进一步的，对多个候选框的预测结果进行融合得到更优的预测目标。

近来，在视觉目标跟踪方法领域研究较多的为基于孪生(Siamese)网络的目标跟踪器，该类目标跟踪器可将视觉跟踪任务表示为相似性匹配问题，通过目标分支和搜索分支之间的卷积特征互相关实现相似性学习，获得目标跟踪结果。但是，以上过程需要预先确定目标特征区域的大小，在互相关操作中会保留大量不利的背景信息或丢失大量的前景信息，匹配过程中还会损失目标结构等细微信息，导致跟踪结果的准确性会受到目标尺度变化和/或复杂背景区域干扰的局限，在复杂场景如跟踪目标存在旋转变化、尺度缩放、复杂形变等情况下实用性差，难以获得准确性高、稳健性好的跟踪结果。

发明内容

针对现有技术的缺陷，本发明的目的在于提出一种可适用于不同类型监控视频，特别是视频序列中背景区域复杂，跟踪目标存在的旋转变化、尺度放缩以及形变等复杂情形下的目标跟踪方法，实现在复杂场景中的高准确性和稳健性的目标跟踪。

本发明的技术方案如下：

基于解耦分类与回归特征的目标跟踪方法，其包括：

S1自视频序列的初始帧图像中划分得到目标模板区域图像T，自视频序列的当前帧图像中划分得到目标搜索区域图像X；

S2通过根据两个Resnet50网络即第一Resnet50网络和第二Resnet50网络构建的孪生神经网络对所述目标模板区域图像T和目标搜索区域图像X进行深度特征提取，根据两个Resnet50网络中不同残差模块获得多个不同级别的目标模板区域图像特征T_i和目标搜索区域图像特征X_i，其中i表示级别值；

S3对所得多个不同级别的目标模板区域图像特征T_i和目标搜索区域图像特征X_i按级别分别进行基于transformer多头交叉注意力机制的全局非线性融合，得到各级别第一融合特征，即各级别解耦分类特征c_i；

S4将所得多个不同级别的目标模板区域图像特征T_i和目标搜索区域图像特征X_i按级别分别进行基于逐通道卷积的局部线性融合，得到各级别的第二融合特征，即各级别解耦回归特征r_i；

S5对所述各级别解耦分类特征c_i分别使用基于transformer多头自注意力机制的编码处理,得到各级别编码解耦分类特征c′_i；

S6对所述各级别解耦回归特征r_i分别进行基于残差卷积的编码处理，得到各级别编码解耦回归特征r′_i；

S7通过sigmoid函数对所述各级别编码解耦分类特征c′_i进行分类评分，得到各级编码解耦分类特征的分类得分图C_i，对各级编码解耦分类特征的分类得分图C_i进行自适应权重加和，得到预测分类得分图C；

S8将所述各级别编码解耦回归特征r_i′分别进行卷积处理，得到各级别回归图R_i，将所得各级别回归图R_i进行自适应权重加和，得到目标边境框R，根据所述预测分类得分图C中得分最大位置处的级别值i及权重向量的序数j值，在目标边境框R内确定目标在当前帧的预测状态。

根据本发明的一些优选实施方式，所述S1进一步包括：

S11以视频序列中初始帧和当前帧图像的左上角为原点，以向下延伸方向为Y轴正方向，向右延伸方向为X轴正方向，分别建立初始帧和当前帧图像的二维坐标系；

S12在具有二维坐标系的初始帧图像中，以给定的初始跟踪目标中心为中心，裁剪出空间分辨率为128×128像素的图像，作为目标模板区域图像T；

S13在具有二维坐标系的当前帧图像中，以根据其上一帧图像预测得到的跟踪目标中心为中心，裁剪出空间分辨率为256×256像素的图像，作为目标搜索区域图像X。

根据本发明的一些优选实施方式，所述不同级别的目标模板区域图像特征T_i包括自第一ResNet50网络中第3个残差模块、第4个残差模块及第个5残差模块获得的目标模板区域图像特征f_i(T)，即T_i＝f_i(T)，i＝3,4,5；所述不同级别的目标搜索区域图像特征X_i包括自第二ResNet50网络中第3个残差模块、第4个残差模块及第个5残差模块获得的目标搜索区域图像特征f_i(X)，即X_i＝f_i(X)，i＝3,4,5。

根据本发明的一些优选实施方式，所述基于transformer多头交叉注意力机制的全局非线性融合包括：

S31使用多个第一单层全连接网络l_1i()将不同级别的目标模板区域图像特征T_i分别线性映射为查询向量q_i，即q_i＝l_1i(T_i)，i＝3,4,5；

S32使用多个第二单层全连接网络l_2i()将不同级别的目标搜索区域图像特征X_i分别线性映射为关键向量k_i，即k_i＝l_2i(X_i)，i＝3,4,5；

S33使用多个第三单层全连接网络l_3i()将不同级别的目标搜索区域图像特征X_i分别线性映射为值向量v_i，即v_i＝l_3i(X_i)，i＝3,4,5；

S34对所得查询向量qi和关键向量k_i分别进行正弦空间位置嵌入，得到位置向量q_i'和k_i'；

S35将所得值向量v_i、位置向量q_i'和k_i',使用基于transformer多头交叉注意力机制模型MultiHC_i()进行全局非线性融合，得到的第一融合特征即所述各级别解耦分类特征c_i，即c_i＝MultiHC_i(q_i',k_i',v_i)，i＝3,4,5。

根据本发明的一些优选实施方式，所述基于逐通道卷积的局部线性融合包括：

S41将所述多个不同级别的目标模板区域图像特征T_i分别使用多个第一卷积网络φ_1i()进行线性映射，得到特征向量T_i'，即T_i'＝φ_1i(T_i)，i＝3,4,5，其中，第一卷积网络φ_1i()包括单一卷积层，其包含一个大小为1×1的卷积核；

S42将所述多个不同级别的目标搜索区域图像特征X_i分别使用多个第二卷积网络φ_2i()进行线性映射，得到特征向量X_i'，即T_i'＝φ_2i(X_i)，i＝3,4,5，其中，第二卷积网络φ_2i()包括单一卷积层，其包含一个大小为1×1的卷积核；

S43将所得特征向量T_i'作为卷积核，对特征向量X_i'进行逐通道卷积，得到第二融合特征，即所述各级别解耦回归特征r_i，i＝3,4,5。

根据本发明的一些优选实施方式，所述S5进一步包括：

S51使用多个第四单层全连接网络L_1i()将所述各级别解耦分类特征c_i分别线性映射为查询向量Q_i，即Q_i＝L_1i(c_i)，i＝3,4,5；

S52使用多个第五单层全连接网络L_2i()将所述各级别解耦分类特征c_i分别线性映射为关键向量K_i，即K_i＝L_2i(c_i)，i＝3,4,5；

S53使用多个第六单层全连接网络L_3i(c_i)将所述各级别解耦分类特征c_i分别线性映射为值向量V_i，即V_i＝L_3i(c_i)，i＝3,4,5；

S54将所述查询向量Q_i和关键向量K_i分别进行正弦空间位置嵌入，得到位置向量Q_i'和K_i'；

S55将所述位置向量Q_i'、K_i和值向量V_i使用基于transformer多头自注意力机制模型MultiHS_i()进行语义信息编码，得到权重向量F_ci，即F_ci＝MultiHS_i(Q_i',K_i',V_i)，i＝3,4,5；

S56将所述权重向量F_ci与所述各级别解耦分类特征c_i相加，得到各级别各级别编码解耦分类特征c'_i，即c'_i＝F_ci+c_i，i＝3,4,5。

根据本发明的一些优选实施方式，所述S6进一步包括：

S61通过多个第一卷积残差模块ψ_i()对所述各级别解耦回归特征ri分别进行细粒度信息编码，得到各级别编码向量F_ri，即F_ri＝ψi(ri)，i＝3,4,5，其中，第一卷积残差模块包括4个堆砌的卷积层，每个卷积层含有一个大小为3×3的卷积核；

S62通过多个含有一个大小为1×1的卷积核的卷积层对所述各级别编码向量F_ri进行卷积处理，得到各级别编码解耦回归特征r_i'，i＝3,4,5。

根据本发明的一些优选实施方式，所述S7进一步包括：

S71通过sigmoid函数对所述各级别编码解耦分类特征c′_i进行0、1分类，得到各级别编码解耦分类特征的分类得分图C_i，i＝3,4,5；

S72将长度为3的权重列表W1进行数值初始化,该权重列表中的任一位置权重W_1j之和满足：初始化后使用softmax函数对W1中各位置权重进行分配，得到具有分配顺序的权重列表W′₁；

S73将各级别编码解耦分类特征的分类得分图C_i与所述具有分配顺序的权重列表W′₁进行向量相乘后相加，得到预测分类得分图C，即C＝C₃×W′₁₀+C_g×W′₁₁+C₅×W′₁₂。

根据本发明的一些优选实施方式，所述S8进一步包括：

S81使用含有一个大小为1×1的卷积核、通道数为4的单一卷积层对所述各级别编码解耦回归特征r_i′分别进行卷积处理，以聚合编码解耦回归特征r_i′中的特征信息，得到各级别回归图R_i，i＝3，4，5；

S82将长度为3的权重列表W2进行数值初始化,该权重列表中的任一位置权重W_2j之和满足：初始化后使用softmax函数对W2中各位置权重进行分配，得到具有分配顺序的权重列表W′₂；

S83将所得分类得分图C_i与具有分配顺序的权重列表W′₂进行向量相乘后相加，得到目标边境框R，即R＝R₃×W′₂₀+R₄×W′₂₁+R₅₅×W′₂₂；

S84取所述预测分类得分图C中得分最大的位置处的i及j值，在目标边境框R内找到与(i，j)对应的值，获得目标在当前帧的预测状态。

根据以上目标跟踪方法，可进一步获得基于解耦分类与回归特征的目标跟踪器。

本发明的目标跟踪方法首先根据视频序列中初始帧和当前帧分别划分目标模板区域和目标搜索区域，其中初始帧和当前帧可具有不同的分辨率，其后利用孪生深度残差卷积神经网络分别提取目标模板区域和目标搜索区域的深度学习表征特征，再分别基于transformer交叉注意力机制和卷积操作融合目标模板区域深度表征特征和目标搜索区域深度表征特征，得到解耦分类特征和解耦回归特征，最后分别基于transformer自注意力机制和卷积操作进一步编码解耦分类特征和解耦回归特征，得到目标在当前帧的目标前背景二分类预测和目标边境框回归预测，从而实现稳健准确地跟踪目标。

本发明具备以下有益效果：

本发明采用基于transformer注意力机制与标准卷积操作机制的方式，并行获得跟踪器的解耦回归特征和解耦分类特征；其通过交叉注意力获得的解耦分类特征,使分类特征中语义信息更加集中；其通过标准卷积操作机制获得的解耦回归特征，含有丰富的细粒度信息，使跟踪器的分类预测更加鲁棒，回归预测更加准确；

不同于现有基于Siamese网络的目标跟踪方法，本发明采用一种与解耦跟踪器分类分支和回归分支的精确目标跟踪任务；其以初始帧目标模板区域与当前帧目标搜索区域作为孪生网络模型的输入模板图像和输入搜索图像；基于transformer注意力机制的交叉注意力与标准卷积操作机制的方式解耦跟踪器的融合特征，并采用基于transformer注意力的自注意力进一步编码解耦分类特征中的语义信息和标准卷积操作进一步编码融合回归特征，实现在监控视频序列准确稳健地跟踪目标。

附图说明

图1为本发明一种具体实施方式的流程框架图。

图2为本发明采用的一种深度残差卷积神经网络的结构示意图。

图3为本发明采用的一种基于transformer的多头交叉注意力机制示意图。

图4为本发明采用的一种基于transformer的自注意力机制示意图。

具体实施方式

以下结合实施例和附图对本发明进行详细描述，但需要理解的是，所述实施例和附图仅用于对本发明进行示例性的描述，而并不能对本发明的保护范围构成任何限制。所有包含在本发明的发明宗旨范围内的合理的变换和组合均落入本发明的保护范围。

参照附图1，本发明提出的基于解耦分类与回归特征的目标跟踪方法的一种具体实施方式包括以下步骤：

S1自视频序列的初始帧图像中划分得到目标模板区域图像T，自视频序列的当前帧图像中划分得到目标搜索区域图像X，其中，初始帧图像和当前帧图像可具有不同的分辨率。

在更具体的一些实施方式中，其可包括：

S2通过基于Resnet50网络构建的孪生神经网络对所述目标模板区域图像T和目标搜索区域图像X分别进行深度特征提取，根据Restnet50网络中不同残差模块对应获得多个不同级别的目标模板区域图像特征T_i和目标搜索区域图像特征X_i，其中i表示级别值；

在更具体的一些实施方式中，参照附图2，所述ResNet50网络包括5个残差模块，即第1～第5残差模块。

在更具体的一些实施方式中，所述不同级别的目标模板区域图像特征T_i包括自ResNet50网络中后三个残差模块即第3、4、5残差模块区分并获得的目标模板区域图像特征f_i(T)，i＝3，4，5，即T_i＝f_i(T)，i＝3,4,5。

在更具体的一些实施方式中，所述不同级别的目标搜索区域图像特征X_i包括自ResNet50网络中后三个残差模块即第3、4、5残差模块区分并获得的目标搜索区域图像特征f_i(X)，i＝3，4，5，即X_i＝f_i(X)，i＝3,4,5。

S3对所得多个不同级别的目标模板区域图像特征T_i和目标搜索区域图像特征X_i按级别分别进行基于transformer多头交叉注意力机制的全局非线性融合，得到各级别第一融合特征，即目标跟踪器的各级别解耦分类特征c_i。

在更具体的一些实施方式中，参照附图3，所述基于transformer多头交叉注意力机制的全局非线性融合包括：

S32使用多个第二单层全连接网络l_2i()将同级别的目标搜索区域图像特征X_i分别线性映射为关键向量k_i，即k_i＝l_2i(X_i)，i＝3,4,5；

S35将所得值向量v_i、位置向量q_i'和k_i',使用基于transformer多头交叉注意力机制模型MultiHC_i()进行全局非线性融合，得到的融合特征即所述解耦分类特征c_i，即c_i＝MultiHC_i(q_i',k_i',v_i)，i＝3,4,5。

S4将S2所得多个不同级别的目标模板区域图像特征T_i和目标搜索区域图像特征X_i按级别分别进行基于逐通道卷积的局部线性融合，得到各级别的第二融合特征，即目标跟踪器的各级别解耦回归特征r_i。

在更具体的一些实施方式中，所述基于逐通道卷积的局部线性融合包括：

S41将所得多个不同级别的目标模板区域图像特征T_i分别使用多个第一卷积网络φ_1i()进行线性映射，得到特征向量T_i'，即T_i'＝φ_1i(T_i)，i＝3,4,5，其中，第一卷积网络φ_1i()包括单一卷积层，其包含一个大小为1×1的卷积核；

S42将所得多个不同级别的目标搜索区域图像特征X_i分别使用多个第二卷积网络φ_2i()进行线性映射，得到特征向量X_i'，即T_i'＝φ_2i(X_i)，i＝3,4,5，其中，第二卷积网络φ_2i()包括单一卷积层，其包含一个大小为1×1的卷积核；

S43将所得特征向量T_i'作为卷积核，对特征向量X_i'进行逐通道卷积，得到第二融合特征，即解耦回归特征r_i，i＝3,4,5。

S5对所述各级别解耦分类特征c_i分别使用基于transformer多头自注意力机制的编码处理,得到各级别编码解耦分类特征c′_i。

参照附图4，在更具体的一些实施方式中，其可包括：

S51使用多个第四单层全连接网络L_1i()将所得解耦分类特征c_i分别线性映射为查询向量Q_i，即Q_i＝L_1i(c_i)，i＝3,4,5；

S52使用多个第五单层全连接网络L_2i()将所得解耦分类特征c_i分别线性映射为关键向量K_i，即K_i＝L_2i(c_i)，i＝3,4,5；

S53使用多个第六单层全连接网络L_3i(c_i)将所得解耦分类特征c_i分别线性映射为值向量V_i，即V_i＝L_3i(c_i)，i＝3,4,5；

S54将所得查询向量Q_i和关键向量K_i分别进行正弦空间位置嵌入，分别得到位置向量Q′_i和K′_i；

S55将所得位置向量向量Q′_i、K_i和值向量V_i使用基于transformer多头自注意力机制模型MultiHS_i()进行语义信息编码，得到权重向量F_ci，即F_ci＝MultiHS_i(Q′_i,K′_i,V_i)，i＝3,4,5；

S56将所得权重向量F_ci与解耦分类特征c_i相加，得到最终解耦分类特征c'_i，即c'_i＝F_ci+c_i，i＝3,4,5。

S6对所得各级别解耦回归特征r_i分别进行基于残差卷积的编码处理，得到各级别编码解耦回归特征r_i′。

在更具体的一些实施方式中，其可包括：

S61分别通过多个第一卷积残差模块ψ_i()对所得解耦回归特征r_i进行细粒度信息编码，得到编码向量F_ri，即F_ri＝ψ_i(r_i)，i＝3,4,5，其中，第一卷积残差模块包括4个堆砌的卷积层，每个卷积层含有一个大小为3×3的卷积核；

S62分别通过多个一个卷积核大小为1×1的卷积层对编码向量进行卷积处理，以聚合向量F_ri中的信息，得到编码解耦回归特征r_i'，i＝3,4,5。

S7通过sigmoid函数对所得各级别编码解耦分类特征c′_i进行分类评分，得到各级别编码解耦分类特征c'_i的评分图C_i，并进行自适应权重相加，得到跟踪器的预测分类得分图C。

在更具体的一些实施方式中，其可包括：

S71通过sigmoid函数对各级别编码解耦分类特征c′_i进行0、1分类，得到各级编码解耦分类特征的分类得分图C_i，i＝3,4,5；

S72将长度为3的权重列表W₁进行数值初始化,该权重列表中的任一位置权重W_1j之和满足：初始化后使用softmax函数对W₁中各位置权重进行分配，得到具有分配顺序的权重列表W′₁；

S73将所得分类得分图C_i与具有分配顺序的权重列表W′₁进行向量相乘后相加，得到预测分类得分图C，即C＝C₃×W′₁₀+C₄×W′₁₁+C₅×W′₁₂。

S8将所述各级别编码解耦回归特征r′_i进行卷积处理，得到其对应的各级别回归图R_i，将所得各级别回归图进行自适应权重相加，得到目标边境框R，根据所述预测分类得分图C中得分最大的位置处的i及j值，在目标边境框R内确定目标在当前帧的预测状态。

在更具体的一些实施方式中，其可包括：

S81使用含有一个大小为1×1的卷积核、通道数为4的单一卷积层对所述各级别编码解耦回归特征r′_i分别进行卷积处理，以聚合编码解耦回归特征r′_i中的特征信息，得到各级别回归图R_i，i＝3，4，5；

S82将长度为3的权重列表W₂进行数值初始化,该权重列表中的任一位置权重W_2j之和满足：初始化后使用softmax函数对W₂中各位置权重进行分配，得到具有分配顺序的权重列表W′₂；

S83将所得分类得分图C_i与具有分配顺序的权重列表W′₂进行向量相乘后相加，得到目标边境框R，即R＝R₃×W′₂₀+R₄×W′₂₁+R₅×W′₂₂；

以上实施例仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例。凡属于本发明思路下的技术方案均属于本发明的保护范围。应该指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下的改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.基于解耦分类与回归特征的目标跟踪方法，其特征在于，其包括：

S2通过根据两个Resnet50网络即第一Resnet50网络和第二Resnet50网络构建的孪生神经网络对所述目标模板区域图像T和目标搜索区域图像X分别进行深度特征提取，根据两个Resnet50网络中不同残差模块对应获得多个不同级别的目标模板区域图像特征T_i和目标搜索区域图像特征X_i，其中i表示级别值；

S8将所述各级别编码解耦回归特征r′_i分别进行卷积处理，得到各级别回归图R_i，将所得各级别回归图R_i进行自适应权重加和，得到目标边境框R，根据所述预测分类得分图C中得分最大位置处的级别值i及权重向量的序数j值，在目标边境框R内确定目标在当前帧的预测状态。

2.根据权利要求1所述的目标跟踪方法，其特征在于，所述S1进一步包括：

3.根据权利要求1所述的目标跟踪方法，其特征在于，所述不同级别的目标模板区域图像特征T_i包括自第一ResNet50网络中第3个残差模块、第4个残差模块及第个5残差模块获得的目标模板区域图像特征f_i(T)，即T_i＝f_i(T)，i＝3,4,5；所述不同级别的目标搜索区域图像特征X_i包括自第二ResNet50网络中第3个残差模块、第4个残差模块及第个5残差模块获得的目标搜索区域图像特征f_i(X)，即X_i＝f_i(X)，i＝3,4,5。

4.根据权利要求4所述的目标跟踪方法，其特征在于，所述基于transformer多头交叉注意力机制的全局非线性融合包括：

S34对所得查询向量q_i和关键向量k_i分别进行正弦空间位置嵌入，得到位置向量q′_i和k′_i；

S35将所得值向量v_i、位置向量q′_i和k′_i,使用基于transformer多头交叉注意力机制模型MultiHC_i()进行全局非线性融合，得到的第一融合特征即所述各级别解耦分类特征c_i，即c_i＝MultiHC_i(q′_i,k′_i,v_i)，i＝3,4,5。

5.根据权利要求4所述的目标跟踪方法，其特征在于，所述基于逐通道卷积的局部线性融合包括：

S42将所述多个不同级别的目标搜索区域图像特征X_i分别使用多个第二卷积网络φ_2i()进行线性映射，得到特征向量X′_i，即T_i'＝φ_2i(X_i)，i＝3,4,5，其中，第二卷积网络φ_2i()包括单一卷积层，其包含一个大小为1×1的卷积核；

S43将所得特征向量T_i'作为卷积核，对特征向量X′_i进行逐通道卷积，得到第二融合特征，即所述各级别解耦回归特征r_i，i＝3,4,5。

6.根据权利要求4所述的目标跟踪方法，其特征在于，其中，所述S5进一步包括：

S54将所述查询向量Q_i和关键向量K_i分别进行正弦空间位置嵌入，得到位置向量Q′_i和K′_i；

S55将所述位置向量Q′_i、K_i和值向量V_i使用基于transformer多头自注意力机制模型MultiHS_i()进行语义信息编码，得到权重向量F_ci，即F_ci＝MultiHS_i(Q′_i,K′_i,V_i)，i＝3,4,5；

S56将所述权重向量F_ci与所述各级别解耦分类特征c_i相加，得到各级别各级别编码解耦分类特征c′_i，即c′_i＝F_ci+c_i，i＝3,4,5。

7.根据权利要求4所述的目标跟踪方法，其特征在于，所述S6进一步包括：

S61通过多个第一卷积残差模块ψ_i()对所述各级别解耦回归特征r_i分别进行细粒度信息编码，得到各级别编码向量F_ri，即F_ri＝ψ_i(r_i)，i＝3,4,5，其中，第一卷积残差模块包括4个堆砌的卷积层，每个卷积层含有一个大小为3×3的卷积核；

S62通过多个含有一个大小为1×1的卷积核的卷积层对所述各级别编码向量F_ri进行卷积处理，得到各级别编码解耦回归特征r′_i，i＝3,4,5。

8.根据权利要求4所述的目标跟踪方法，其特征在于，所述S7进一步包括：

S73将各级别编码解耦分类特征的分类得分图C_i与所述具有分配顺序的权重列表W′₁进行向量相乘后相加，得到预测分类得分图C，即C＝C₃×W′₁₀+C₄×W′₁₁+C₅×W′₁₂。

9.根据权利要求4所述的目标跟踪方法，其特征在于，所述S8进一步包括：

10.基于解耦分类与回归特征的目标跟踪器，其应用权利要求1～9中任一项所述的目标跟踪方法。