CN116524377A

CN116524377A - 一种基于tir图像的无人机目标跟踪识别方法

Info

Publication number: CN116524377A
Application number: CN202310357631.8A
Authority: CN
Inventors: 杨金明; 戴永东; 李勇; 汪冬亮; 丁珑; 吴超; 杨磊; 汤青; 李季; 董庆森; 陈子墨
Original assignee: Jiangsu Xiangtai Electric Power Industry Co ltd
Current assignee: Jiangsu Xiangtai Electric Power Industry Co ltd
Priority date: 2023-04-04
Filing date: 2023-04-04
Publication date: 2023-08-01

Abstract

本发明提出一种基于TIR图像的无人机目标跟踪识别方法，该方法通过在Siam R‑CNN的骨干网络中嵌套用于对所述骨干网络中卷积模块提取出的多尺度特征进行融合的特征交叉融合单元ARCM，得到无人机目标跟踪模型；通过无人机目标跟踪模型对输入的无人机TIR视频进行目标检测和跟踪，并在跟踪过程中采用结合时空约束的局部跟踪策略和全局运动检测的协作策略强化了在线跟踪方法，促进在线跟踪机制稳定性和准确性。

Description

一种基于TIR图像的无人机目标跟踪识别方法

技术领域

本发明涉及目标跟踪技术领域，具体涉及一种基于TIR图像的无人机目标跟踪识别方法。

背景技术

为了有效地对无人机进行检测、探测、识别，需要采集目标区域图像并进行无人机的检测与识别。然而，在实际操作过程中，为保证对无人机图像的有效捕捉，通常采用热红外图像采集技术采集目标区域的TIR图像，由于传感器自身成像质量低，导致目标物体图像中语义信息较差，而无人机的目标通常非常小，同时没有突出的纹理或固定的形状，这使得它们非常难以被区分。

发明内容

发明目的：为克服以上技术问题，本发明提出一种基于TIR图像的无人机目标跟踪识别方法、装置及可读介质。

发明内容；为实现上述目的，本公开实施例提出以下技术方案：

一种基于TIR图像的无人机目标跟踪识别方法，包括步骤：

(1)在Siam R-CNN的骨干网络中嵌套用于对所述骨干网络中卷积模块提取出的多尺度特征进行融合的特征交叉融合单元ARCM，得到无人机目标跟踪模型；

(2)通过所述无人机目标跟踪模型对输入的无人机TIR视频进行目标检测和跟踪，包括步骤：

(21)对所述无人机TIR视频中第一帧图像进行目标检测识别，提取初始目标检测框；

(22)创建所述初始目标的子跟踪轨迹序列a_i，初始化a_i＝[x_gt]，x_gt为初始目标的位置信息；

(23)对当前帧进行目标检测，并将检测结果与前一帧的检测结果进行相似度计算，根据所述相似度判断当前帧中所述初始目标是否丢失，若未丢失，则将当前帧中检测目标的位置信息录入所述子轨迹跟踪序列a_i；若初始目标丢失，则本段轨迹跟踪结束，此时通过所述无人机目标跟踪模型对剩下的视频段进行检测，建立新的初始目标检测框然后返回所述步骤(22)；

(3)对检测出的所有子轨迹跟踪序列按照检测目标进行合并，得到完整的轨迹跟踪序列。

作为所述无人机目标跟踪识别方法的一种可选实施方式，所述无人机目标跟踪模型包括模板分支网络、检测分支网络和重识别网络；

所述模板分支网络被配置用于从所述无人机TIR视频中提取所述初始目标检测框；

所述检测分支网络被配置为用于从当前帧中提取可能包含目标物体的候选检测框；

所述重识别网络被配置为用于从所述候选检测框中选取与所述初始目标检测框匹配度最高的检测框，作为当前帧的检测结果；以及用于计算当前帧的所述检测结果和前一帧的所述检测结果之间的相似度，并输出相似度计算结果。

作为所述无人机目标跟踪识别方法的一种可选实施方式，所述模板分支网络和所述检测分支网络的骨干网络为ResetNet18网络结构，所述特征交叉融合单元ARCM设置于所述ResetNet18网络结构中的FPN结构中的卷积模块中，对所述卷积模块后级联的残差模块单元所提取出的不同尺度的图像特征进行融合；所述特征交叉融合单元ARCM包括Top-Down特征融合分支结构、Bottom-Up特征融合分支结构和特征融合层；所述Top-Down特征融合分支结构用于对高级特征Y进行自上而下的逐层调制嵌入提取；所述Bottom-Up特征融合分支结构用于对低级特征X的每个空间位置的信道特征上下文进行单独聚合；所述特征融合层对所述Top-Down特征融合分支结构和素数Bottom-Up特征融合分支结构的输出特征进行特征融合，计算公式为：

其中，G(Y)表示Top-Down特征融合分支结构输出的特征，L(X)表示Bottom-Up特征融合分支结构输出的特征矩阵，Z表示融合特征矩阵，表示矩阵逐像素相乘符号。

作为所述无人机目标跟踪识别方法的一种可选实施方式，所述Top-Down特征融合分支结构包括依次级联的GAP层、第一FC层、ReLU层、第二FC层和Sigmoid层。

作为所述无人机目标跟踪识别方法的一种可选实施方式，所述Bottom-Up特征融合分支结构包括依次级联的第一卷积层、ReLU层、第二卷积层和Sigmoid层。

作为所述无人机目标跟踪识别方法的一种可选实施方式，其特征在于，所述步骤(3)中得到完整的轨迹跟踪序列的具体步骤为：

为每个跟踪目标构建一个跟踪轨迹质量评价分数：

spatial_eval(a_i,a_i+1)＝-|end_box(a_i)-start_box(a_i+1)|

其中，A表示轨迹跟踪序列，score(A)表示A的质量评价分数，similar_eval(a_i)是图像相似度计算函数，用于评估子轨迹跟踪序列a_i中各图像帧检测结果的相似性；spatial_eval(a_i,a_i+1)是相邻子轨迹跟踪序列之间的位置一致性评估函数；w_l,w_r为惩罚系数，N表示轨迹跟踪序列的个数，a_i,t表示子轨迹跟踪序列a_i中时刻t的图像帧对应的轨迹信息，a_i,start表示子轨迹跟踪序列a_i中开始时刻的图像帧对应的轨迹信息，i表示子轨迹跟踪序列的编号，end_a和start_a分别表示子轨迹跟踪序列a的开始时刻和结束时刻，box＝[x_norm，y_norm，w_norm，h_norm]，用于约束同一目标的轨迹的连续性，(x_norm,y_norm)表示box的中心位置坐标，w_norm表示box的宽度，h_norm表示box的高度；

通过在线动态规划方法在所有子轨迹跟踪序列中搜索能够使score(A)最大化的求解的子轨迹跟踪序列的集合，将求得的子轨迹跟踪序列合并，得到所述轨迹跟踪序列A。

作为所述无人机目标跟踪识别方法的一种可选实施方式，还包括步骤：

在所述步骤(3)完成后，若存在某一独立帧，则对所述独立帧采用结合时空约束的局部跟踪策略进行目标跟踪，所述局部跟踪策略包括步骤：

计算合并后的轨迹跟踪序列中检测目标的长宽比R的最大值R_max和最小值R_min，计算当轨迹跟踪序列中检测目标的尺寸的最大值S_max和最小值S_min；

将所述独立帧的前一帧中的检测目标的中心周围的局部邻域作为搜索区域，若所述独立帧中的检测目标出现在所述搜索区域内，且所述检测目标的尺寸S_c和长宽比R满足：

S_c∈[0.8*S_min,1.2*S_max],R_c∈[0.8*R_min,1.2*R_max]

则更新S_min、S_max、R_min、R_max：

S_min＝min(S_min,S_c),S_max＝max(S_max,S_c)

R_min＝min(R_min,R_c),R_max＝max(R_max,R_c)

并对所述独立帧c_new计算一个置信度分数：

其中，c_i,start表示所述合并后的轨迹跟踪序列的最开始状态量，c_N,end表示合并后的轨迹跟踪序列的结束位置状态量；IOU为目标检测框的交并比结果，用于计算目标位置的相关性；

若score(c_new)满足预设的阈值要求，则将c_new的对应的位置信息加入所述合并后的轨迹跟踪序列；否则，建立一个以c_new对应的位置信息为开始位置信息的新的轨迹跟踪序列。

有益效果：与现有技术相比，本发明具有以下优势：

本发明在Siam R-CNN网络的基础上，改进了backbone特征融合模块，通过在SiamR-CNN的骨干网络中嵌套种跨层特征融合的非对称上下文调制模块ARCM，实现了多层特征尺度融合，使得整个无人机目标跟踪模型能够适用于红外小目标特征的特征提取要求。

此外，本发明还通过结合时空约束的局部跟踪策略和全局运动检测的协作策略强化了在线跟踪方法，促进在线跟踪机制稳定性和准确性。

附图说明

图1为实施例涉及的无人机目标跟踪模型结构图；

图2为实施例涉及的加入了ARCM模块的红外特征提取融合网络结构图；

图3为实施例涉及的ARCM模块结构图。

具体实施方式

下面将结合附图和具体实施例对本发明作更进一步的说明。但应当理解的是，本发明可以以各种形式实施，以下在附图中出示并且在下文中描述的一些示例性和非限制性实施例，并不意图将本发明限制于所说明的具体实施例。

应当理解的是，在技术上可行的情况下，以上针对不同实施例所列举的技术特征可以相互组合，从而形成本发明范围内的另外的实施例。此外，本发明所述的特定示例和实施例是非限制性的，并且可以对以上所阐述的结构、步骤、顺序做出相应修改而不脱离本发明的保护范围。

本实施例提出基于TIR图像的无人机目标跟踪识别方法，该方法主要包括以下步骤：

S1、构建基于无人机目标跟踪模型

请参考图1，图1示意性地给出了一种无人机目标跟踪模型的具体结构。本实施例在Siam R-CNN的骨干网络中嵌套特征交叉融合单元ARCM(Asymmetric Robust ContextualModulation)，构成本实施例所述的无人机目标跟踪模型。

Siam R-CNN是亚琛工业大学和牛津大学联合提出一种基于重新检测的视觉跟踪算法。Siam R-CNN包括一个模板分支网络、一个检测分支网络和重检测网络。模板分支网络的输入通常是视频中包含目标物体的第一帧，也称为模板帧，检测分支网络的输入是检测帧，也就是视频中除了模板帧以外的其他图像帧。

模板分支网络包括骨干网络层backbone、目标检测头网络层head-DNN、ROI-align层。骨干网络层对模板帧进行多尺度特征提取，提取出的多尺度特征图像经过目标检测网络层进行语义特征融合，融合后的特征再经过ROI-align层处理后得到初始目标检测框，作为参考区域。

检测分支包括骨干网络层backbone、目标检测头网络层head-DNN、候选框推荐网络PRN、ROI-align层。骨干网络层backbone对检测帧进行多尺度特征提取，提取出的多尺度特征图像经过目标检测头网络层进行语义特征融合，候选框RPN网络基于提取出的多尺度特征图像输出若干个预测疑似目标物区域框数值，再执行ROI-align生成当前帧中的所有候选检测框boxes。

将当前帧的候选检测框boxes和初始目标检测框gt送入重检测网络中，通过FirstStage Re-Detection从当前帧的候选检测框boxes中选出与初始目标检测框gt相似的候选检测框，并通过级联RPN的方式回归，得到较好的boxes。计算得到的boxes与初始目标检测框gt之间的相似度，选择相似度最高的候选检测框作为当前帧的目标检测框。

将当前帧的目标检测框det与上一帧的目标检测框det-1送入重检测网络中的Second Stage Re-Detection网络，计算两个目标检测框之间的相似度，并根据相似度判断初始目标是否丢失，当前帧是否归入初始目标的跟踪轨迹序列中(由于无人机TIR视频中可能会出现目标跟丢的情况，因此某个初始无人机目标的轨迹可能由多个轨迹组成)。

本实施例中，采用ResetNet18网络结构作为BackBone网络层，在ResetNet18的FPN结构中融入ARCM模块进行不同尺度下语义特征融合，形成红外特征提取融合网络。请参考图2，在FPN结构的卷积模块之后依次连接3个标准的残差模块单元ResNetBlock1～3，用于进行不同尺度下图像特征的提取，本实施例在FPN结构的卷积模块之后增加ARCM模块，对相邻的残差模块单元提取出的不同尺度的图像特征进行融合，其中ARCM2融合ResNetBlock2和ResNetBlock3提取出的图像特征，融合后的特征送入ARCM1，与ResNetBlock1提取出的图像特征进行融合。为了减轻池化层对小目标的影响，网络中降采样操作可以仅在FPN结构的第一个模块CONV中使用。

请参考图3，图3示出了ARCM模块的具体结构，ARCM模块结合了Top-Down特征融合网络和Bottom-Up特征融合网络的优点，包含两个分支结构，第一个分支结构为Top-Down特征融合分支结构，包括依次级联的GAP层、第一FC层、ReLU层、第二FC层和Sigmoid层；第二个分支结构为Bottom-Up特征融合分支结构，包括依次级联的第一卷积层、ReLU层、第二卷积层和Sigmoid层。Top-Down特征融合分支结构用于对高级(语义)特征Y进行自上而下的逐层调制嵌入提取，Bottom-Up特征融合分支结构则使用通道和空间分离卷积模块Conv对低级特征X的每个空间位置的信道特征上下文进行单独聚合，最后我们通过特征融合，利用低级特征的空间细节来丰富高级特征，特征融合的计算公式为：其中，G(Y)表示Top-Down特征融合分支结构输出的特征，L(X)表示Bottom-Up特征融合分支结构输出的特征矩阵，Z表示融合特征矩阵，/>表示矩阵逐像素相乘符号。

传统方法是利用GAP(global average pooling)模块和FC(full connected)生成的高级特征后，能够提供目标的更准确的语义信息，其中全局通道间的上下文特征关联也是一个有效的特征量(全局最高响应值)有助于分辨目标。然而，随着网络不断加深，无人机目标等红外小目标在高层特征中容易被背景掩盖，自上而下的调制嵌入的语义信息虽然能缓解处理歧义，但前提仍是特征层面保留小目标特征。据此出发，为了突出深层红外小目标的细微细节，本实施例融合Top-Down和Bottom-Up融合特征优点，重新设计了如图3所示的具有跨层特征融合的ARCM模块，进一步加强自上而下的全局特征和自下而上的局部特征来交换多尺度上下文信息交互融合，以获得更丰富的语义信息和空间细节的编码。

S2、将待检测的TIR视频输入构建好的无人机目标跟踪模型，对TIR视频中出现的无人机进行在线跟踪。具体步骤如下：

S21、在得到初始目标检测框后，创建一个子轨迹跟踪序列a_i用于记录初始目标的跟踪轨迹，a_i中的每个元素表示对应图像帧的中检测目标的位置信息，用[bbox,score,RoIs]表示，其中bbox代表目标检测框的位置，用(x,y,w,h)表示，(x,y)表示目标检测框的中心位置坐标，w表示目标检测框的宽度，h表示目标检测框的高度；score表示目标检测框与初始目标检测框之间的相似度，ROIS表示目标检测框在对应的图像帧上的图像区域。初始化a_i＝[x_gt],x_gt表示初始目标的位置信息。

S22、根据当前帧与前一帧的重检测结果的相似度，判断当前检测帧中初始目标是否丢失，若未丢失，则将当前帧中检测目标的位置信息归入子轨迹跟踪序列a_i；若初始目标丢失，则本段轨迹跟踪结束，此时通过无人机目标跟踪模型对剩下的视频段进行检测，确定新的初始目标和子轨迹跟踪序列，在剩余视频段里对新的初始目标进行轨迹跟踪，然后返回步骤S21。

S3、在检测过程中，对不同的子轨迹跟踪序列进行合并，具体步骤为：

S31、为每个跟踪目标构建一个跟踪轨迹质量评价分数：

spatial_eval(a_i,a_i+1)＝-|end_box(a_i)-start_box(a_i+1)|

其中，A表示跟踪轨迹序列，score(A)表示跟踪轨迹质量评价分数，similar_eval(a_i)是图像相似度计算函数，用于评估轨迹跟踪序列a_i中各图像帧检测结果的相似性；spatial_eval(a_i,a_i+1)是相邻子轨迹之间的位置一致性评估函数；w_l,w_r为惩罚系数，N表示轨迹跟踪序列的个数，a_i,t表示轨迹跟踪序列a_i中时刻t的图像帧对应的轨迹信息，a_i,start表示轨迹跟踪序列a_i中开始时刻的图像帧对应的轨迹信息，i表示轨迹跟踪序列的编号，end_a和start_a分别表示轨迹跟踪序列a的开始时刻和结束时刻，box＝[x_norm，y_norm，w_norm，h_norm]，用于约束同一目标的轨迹的连续性，(x_norm,y_norm)表示box的中心位置坐标，w_norm表示box的宽度，h_norm表示box的高度。

S32、通过在线动态规划方法在所有子轨迹跟踪序列中搜索能够使score(A)最大化的求解的子轨迹跟踪序列的集合，将求得的子轨迹跟踪序列合并，得到跟踪轨迹序列A。其中有效的最大跟踪序列长度和最小跟踪序列长度可以根据业务场景自行设计。

在实际的TIR图像跟踪中，无人机的目标通常非常小，同时没有突出的纹理或固定的形状，这使得它们非常难以被区分。为了克服此问题，本实施例还采用了在局部邻域中的位置和长宽比约束的局部跟踪策略，以更好地区别潜在干扰物和真实目标物。

局部跟踪策略的具体内容为：

从空间变化角度出发，考虑目标物移动不存在剧烈的位置移动，在相邻帧间基于局部一致性可以完成较好探查目标物，因此，本实施例从时间维度引入一个在线记忆库存储高质量检测结果的历史形态。在轨迹跟踪序列合并之后，若出现一些独立帧(无法纳入任何合并后的轨迹跟踪序列的图像帧)，则可以采用结合时空约束的局部跟踪策略进行目标跟踪。具体步骤为：

将合并后的轨迹跟踪序列中的检测目标长宽比R的最大值和最小值分别表示为R_max和R_min，将合并后的轨迹跟踪序列中的检测目标的尺寸的最大值和最小值分别表示为S_max和S_min，以显性计算其目标潜在尺度变化范围。

指定该独立帧的前帧中的检索目标中心周围的局部邻域作为目标最有可能出现的搜索区域,若当前独立帧中的检测目标出现在所述搜索区域内，且所述检测目标的尺寸S_c和长宽比R满足：

S_c∈[0.8*S_min,1.2*S_max],R_c∈[0.8*R_min,1.2*R_max]

可认为当前检测目标结果可靠的且轨迹变换连续，则根据当前检测物体状态更新储存目标状态值：

为了提升目标跟踪的可辨识性，对每一个局部搜索成功跟踪检测框位置的独立帧c_new，计算一个置信度分数：

作为一种可选实施方式，在目标物发生遮挡时，为了减轻目标跟踪短期消失问题，可在局部跟踪算法的基础上，还可使用基于光流跟踪ORB特征点的全局跟踪算法用于跟踪移动目标。

作为一种可选实施方式，当背景为静态时或者缓慢运动，像素在时域满足正态分布，其相邻帧间的灰度变化小于一定阈值内的像素判断为背景，反之判断为移动前进目标。因此，当背景是静态时，还可以使用全局运动估计算法来定位目标，反之，使用相关跟踪器在目标最后出现的局部区域搜索目标。

本实施例还提出一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由处理器执行以完成上述实施例中的无人机目标跟踪识别方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CDROM)、磁带、软盘和光数据存储设备等。

本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括一条或多条程序代码，该程序代码存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，以完成上述实施例中提供的无人机目标跟踪识别方法的实现步骤。

本公开实施例还提出一种装置，包括处理器和存储器。存储器存储有计算机程序，而处理器执行所述计算机程序，以实现本公开实施例所述的无人机目标跟踪识别方法。

具体来说，存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块，如本申请实施例中的无人机目标跟踪模型的训练过程和无人机目标跟踪识别方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，可以实现本公开实施例中的无人机目标跟踪识别方法。存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)、硬件芯片或者其任意组合；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(ApplicationSpecificIntegratedCircut，ASIC)、可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(genericarray logic，GAL)或其任意组合。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于TIR图像的无人机目标跟踪识别方法，其特征在于，包括步骤：

2.根据权利要求1所述的无人机目标跟踪识别方法，其特征在于，所述无人机目标跟踪模型包括模板分支网络、检测分支网络和重识别网络；

3.根据权利要求2所述的无人机目标跟踪识别方法，其特征在于，所述模板分支网络和所述检测分支网络的骨干网络为ResetNet18网络结构，所述特征交叉融合单元ARCM设置于所述ResetNet18网络结构中的FPN结构中的卷积模块中，对所述卷积模块后级联的残差模块单元所提取出的不同尺度的图像特征进行融合；所述特征交叉融合单元ARCM包括Top-Down特征融合分支结构、Bottom-Up特征融合分支结构和特征融合层；所述Top-Down特征融合分支结构用于对高级特征Y进行自上而下的逐层调制嵌入提取；所述Bottom-Up特征融合分支结构用于对低级特征X的每个空间位置的信道特征上下文进行单独聚合；所述特征融合层对所述Top-Down特征融合分支结构和素数Bottom-Up特征融合分支结构的输出特征进行特征融合，计算公式为：

4.根据权利要求3所述的无人机目标跟踪识别方法，其特征在于，所述Top-Down特征融合分支结构包括依次级联的GAP层、第一FC层、ReLU层、第二FC层和Sigmoid层。

5.根据权利要求4所述的无人机目标跟踪识别方法，其特征在于，所述Bottom-Up特征融合分支结构包括依次级联的第一卷积层、ReLU层、第二卷积层和Sigmoid层。

6.根据权利要求1所述的无人机目标跟踪识别方法，其特征在于，所述步骤(3)中得到完整的轨迹跟踪序列的具体步骤为：

为每个跟踪目标构建一个跟踪轨迹质量评价分数：

spatial_eval(a_i,a_i+1)＝-|end_box(a_i)-start_box(a_i+1)|

7.根据权利要求6所述的无人机目标跟踪识别方法，其特征在于，还包括步骤：

S_c∈[0.8*S_min,1.2*S_max],R_c∈[0.8*R_min,1.2*R_max]

则更新S_min、S_max、R_min、R_max：

S_min＝min(S_min,S_c),S_max＝max(S_max,S_c)

R_min＝min(R_min,R_c),R_max＝max(R_max,R_c)

并对所述独立帧c_new计算一个置信度分数：

score(c_new)＝w_rsimilar_eval(c_new,gt)+