CN115909110A

CN115909110A - 一种基于Siamese网络的轻量级红外无人机目标跟踪方法

Info

Publication number: CN115909110A
Application number: CN202211627178.XA
Authority: CN
Inventors: 杨珊; 唐勋
Original assignee: Sichuan Zhongke Lanxing Photoelectric Technology Co ltd
Current assignee: Sichuan Zhongke Lanxing Photoelectric Technology Co ltd
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2023-04-04

Abstract

本发明公开了一种基于Siamese网络的轻量级红外无人机目标跟踪方法，涉及一种基于神经网络的无人机目标跟踪方法技术领域，轻量级的跟踪网络主要由五个部分组成：特征提取网络、像素级特征融合模块、动态模板更新模块、边界框回归网络和目标分类网络，特征提取网络采用神经网络搜索的轻量级卷积网络FBNet，从静态模板图像、动态模板图像和裁剪的搜索图像中生成特征映射，然后将静态和动态模板图像特征映射的线性插值作为跟踪模型模板特征表示，像素级特征融合模块有效地融合模板特征和搜索图像的特征，并输出至分类和回归子网络，边界框回归网络和目标分类网络分别对目标的位置和类别进行预测。动态模板更新模块不断更新跟踪模型的动态模板，可以在不增加模型复杂度的情况下动态学习目标外观及背景的变化，所述的轻量级目标跟踪方法具有较好的跟踪鲁棒性与实时性，对目标外观与背景的剧烈变化有较强的泛化性能，适用于红外无人机目标跟踪。

Description

一种基于Siamese网络的轻量级红外无人机目标跟踪方法

技术领域

本发明涉及一种基于神经网络的无人机目标跟踪方法技术领域，具体是一种基于Siamese网络的轻量级红外无人机目标跟踪方法。

背景技术

随着技术的发展，无人机等航空飞行器的机动性、可操控性不断增强，具有低空飞行、飞行速度慢、不易被侦测发现等特征、可搭载一定的重物，容易突破地面防空火力网，进而可能会威胁一些重要的地面目标，因此，防范处置无人机目标的干扰破坏，已经成为重大安保活动的世界性难题，突出表现为管控难、侦测难、处置难。

目前针对低空空域中飞行目标的探测手段多种多样，主要包括雷达探测、无线电探测和光电探测等，光电探测手段具有抗干扰性强、直观清晰、布站灵活等特点，因此可以在复杂城市环境下对无人机等目标的搜索发现发挥作用，但是光电探测技术受天气能见度、湿度等影响较大，同时实际场景中不可避免的存在诸多干扰或不确定因素，包括物体之间的相互遮挡、背景噪声、光线突变等，这使得光电探测中运动目标检测和跟踪的过程极具挑战性，因此研究目标跟踪算法具有重要意义。

目标跟踪指在图像序列中利用获取的感兴趣目标的部分特征、当前位置与运动趋势等信息，运用一定的匹配或统计学习方法，确定新一帧图片中目标的位置、运动轨迹等信息的过程，单目标跟踪算法的基本框架主要包括特征模型、运动模型、观测模型和在线更新机制四部分，特征模型旨在利用图像处理技术得到能够表征目标外观特点的信息，并服务于观测模型的构建，其中适用于目标跟踪的特征有：灰度特征、颜色特征、方向梯度直方图特征、深度特征等；运动模型主要根据目标的上下文信息，提供一组当前帧目标可能出现的候选状态；观测模型的作用是根据特征模型和运动模型提供的候选状态来预测目标的状态；在线更新机制能够让观测模型适应目标和背景变化并保证模型不退化。

随着相关滤波框架和深度学习框架的出现，基于分类和回归模型的判别式算法成为了目前目标跟踪领域的主流方法，其中深度学习的跟踪算法主要是基于Siamese神经网络的跟踪算法，基于深度学习的方法能够提取更高层次的语义特征，对目标运动过程中发生的变化具有更强的鲁棒性，但目前基于Siamese神经网络的跟踪算法虽然取得了不错的效果且具有较好的实时性，但是只靠离线训练的模型很难适应目标外观或背景的剧烈变化，如何高效地将Siamese网络模型与在线更新机制结合以更好地适应目标与背景的变化是当前基于Siamese网络的目标跟踪算法需解决的关键问题。

基于Siamese网络的目标跟踪算法对于复杂场景下的无人机目标具有良好的检测跟踪能力，对目标尺度变化、形变及复杂背景等具有较强的鲁棒性，本发明通过采用轻量级神经网络提取无人机目标特征，并采用像素级特征融合模块和动态模板更新模块，增强模型特征表达能力，不仅提升模型的实时性跟踪鲁棒性，同时更好地适应目标外观与背景的剧烈变化，本发明可操作性、可扩展性较强，适用于红外无人机目标跟踪。

发明内容

本发明的目的在于：为了解决现有技术模型特征表达能力较低，适应目标与背景的距离变化的性能较低的问题，提供一种基于Siamese网络的轻量级红外无人机目标跟踪方法。

为实现上述目的，本发明提供如下技术方案：一种基于Siamese网络的轻量级红外无人机目标跟踪方法，包括以下步骤：

步骤A：轻量级的跟踪网络由五个主要部分组成：特征提取网络、像素级特征融合模块、动态模板更新模块、边界框回归网络和目标分类网络，特征提取网络采用神经网络搜索的轻量级卷积网络FBNet，从静态模板图像、动态模板图像和裁剪的搜索图像中生成特征映射，然后将静态和动态模板图像特征映射的线性插值作为模板特征表示，像素级特征融合模块融合模板特征和搜索图像的特征，并输出至分类和回归子网络，边界框回归网络和目标分类网络分别对目标的位置和类别进行预测，动态模板更新模块不断更新跟踪模型的动态模板，可以在不增加模型复杂度的情况下动态学习目标外观及背景的变化。

作为本发明再进一步的方案：所述步骤B：边界框回归网络由两个简单的3*3conv-bn-relu块组成，以降低计算复杂度，分类网络采用与边界框回归网络相似的结构，网络预测一个16*16的得分图，其中每个像素表示搜索图像对应区域的目标置信度得分。

作为本发明再进一步的方案：所述步骤C：像素级特征融合模块引入逐像素融合模块，通过从搜索图像中提取的目标位置和外观信息进行逐像素相关操作，然后将计算得到的相关特征映射与搜索图像特征连接起来，并将结果通过一个1*1conv-bn-relu块进行聚合，可以有效地表征目标的位置和外观信息。

作为本发明再进一步的方案：所述步骤D：动态模板更新模块在模型训练时从视频序列中随机采样一个动态模板图像，以捕获目标外观等特征变化，将动态模板图像通过特征提取网络，得到的动态特征映射F_d然后通过一个可学习参数w与静态模板特征映射F_t进行线性插值F_t′:F_t′＝(1-w)F_t+wF_d将线性F_t′和搜索图像特征映射F_S传递给相似度模块，计算双模板和搜索图像嵌入特征的余弦相似度，在推理过程中，对每N帧选择余弦值最高的图像裁剪，用该帧预测的边界框更新动态模板，双模板表示模块使模型能够有效地编码时间信息以及对象外观和尺度变化，模型参数和FLOPs的增加很小，甚至可以忽略不计，使得它几乎是一个无成本的时间模块。

作为本发明再进一步的方案：所述步骤E：训练阶段首先采集各种复杂场景、各种无人机类型、各种飞行姿态等无人机红外视频图像数据集，对红外图像数据集进行清洗标注，并划分训练和验证数据集，选择相应的数据增强技术、超参数、优化器及损失函数等训练验证并保存跟踪模型，将跟踪模型转换并部署至嵌入式平台。

作为本发明再进一步的方案：所述步骤F：推理阶段，将视频的初始帧图像输入目标检测算法，得到视频初始帧图像中无人机目标的位置，给出目标框，即左上角像素坐标、目标框宽和高，以此初始框内无人机目标作为跟踪模型静态和动态模板输入，提取并融合模板的特征表示，网络模型跟踪后续红外图像中的无人机目标，输出无人机的目标框和置信度，根据相似度计算模型，计算每100帧的相似度得分，取最高分那一帧的无人机目标更新动态模板输入。

与现有技术相比，本发明的有益效果是：动态模板更新模块不断更新跟踪模型的动态模板，可以在不增加模型复杂度的情况下动态学习目标外观及背景的变化，所述的轻量级目标跟踪方法具有较好的跟踪鲁棒性与实时性，对目标外观与背景的剧烈变化有较强的泛化性能，适用于红外无人机目标跟踪。

附图说明

图1为本发明实现方法的跟踪模型的网络结构图；

图2为本发明实现方法的像素级特征融合模块图；

图3为本发明实现方法的动态模板更新模块图；

图4为本发明实现方法的算法流程图；

图5为本发明实现方法的跟踪效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“设置”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。下面根据本发明的整体结构，对其实施例进行说明。

请参阅图1～5，本发明实施例中，一种基于Siamese网络的轻量级红外无人机目标跟踪方法，轻量级的跟踪网络体系结构由五个主要部分组成：特征提取网络、像素级特征融合模块、动态模板更新模块、边界框回归头和目标分类头，特征提取网络采用神经网络搜索的轻量级卷积网络FBNet，从静态模板图像、动态模板图像和裁剪的搜索图像中生成特征映射，然后将静态和动态模板图像特征映射的线性插值作为模板特征表示，像素级特征融合模块有效地融合了模板特征和搜索图像的特征，并输出至分类和回归子网络，边界框回归头和目标分类头分别对目标的位置和类别进行预测。

边界框回归网络是由两个简单的3*3conv-bn-relu块组成，以降低计算复杂度，分类网络采用与边界框回归网络相似的结构，唯一的区别是在最后一个卷积块中使用一个核而不是四个，这个网络预测一个16*16的得分图，其中每个像素表示搜索图像对应区域的目标置信度得分。

如图2所示，像素级特征融合模块中交叉相关是融合模板特征和搜索图像特征的核心操作，引入逐像素融合模块，通过从搜索图像中提取的位置和外观信息进行逐像素相关以增强相似信息，然后将计算得到的相关特征映射与搜索图像特征连接起来，并将结果通过一个1*1conv-bn-relu块进行聚合，可以有效地表征目标的位置和外观信息。

如图3所示，动态模板更新模块，使跟踪模型在推理过程中获取目标对象的外观等特征变化，而不需要执行在线动态优化，除了主要的静态模板图像和裁剪搜索图像外，在模型训练时从视频序列中随机采样一个动态模板图像，以捕获目标外观等特征变化，将动态模板图像通过特征提取网络，得到的动态特征映射F_d然后通过一个可学习参数w与静态模板特征映射F_t进行线性插值F_t′:F_t′＝(1-w)F_t+wF_d将线性F_t′和搜索图像特征映射F_S传递给图3中相似度模块，计算双模板和搜索图像嵌入特征的余弦相似度，在推理过程中，对每N帧选择余弦值最高的图像裁剪，用该帧预测的边界框更新动态模板，双模板表示模块使模型能够有效地编码时间信息以及对象外观和尺度变化，模型参数和FLOPs的增加很小，甚至可以忽略不计，使得它几乎是一个无成本的时间模块。

算法流程如图4所示，分为训练阶段和推理阶段，训练阶段首先采集各种复杂场景、各种无人机类型、各种飞行姿态等无人机红外视频图像数据集，对红外图像数据集进行清洗标注，并划分训练和验证数据集，选择相应的数据增强技术、超参数、优化器及损失函数等训练验证并保存跟踪模型，将跟踪模型转换并部署至嵌入式平台。

推理阶段，将视频的初始帧图像输入目标检测算法，得到视频初始帧图像中无人机目标的位置，给出目标框，即左上角像素坐标、目标框宽和高，以此初始框内无人机目标作为跟踪模型静态和动态模板输入，提取并融合模板的特征表示，网络模型跟踪后续红外图像中的无人机目标，输出无人机的目标框和置信度，根据相似度计算模型，计算每100帧的相似度得分，取最高分那一帧的无人机目标更新动态模板输入。

以上所述的，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于Siamese网络的轻量级红外无人机目标跟踪方法，其特征在于，包括以下步骤：

步骤B：边界框回归网络由两个简单的3*3conv-bn-relu块组成，以降低计算复杂度，分类网络采用与边界框回归网络相似的结构，网络预测一个16*16的得分图，其中每个像素表示搜索图像对应区域的目标置信度得分。

步骤C：像素级特征融合模块引入逐像素融合模块，通过从搜索图像中提取的目标位置和外观信息进行逐像素相关操作，然后将计算得到的相关特征映射与搜索图像特征连接起来，并将结果通过一个1*1conv-bn-relu块进行聚合，可以有效地表征目标的位置和外观信息。

步骤D：动态模板更新模块在模型训练时从视频序列中随机采样一个动态模板图像，以捕获目标外观等特征变化，将动态模板图像通过特征提取网络，得到的动态特征映射F_d然后通过一个可学习参数w与静态模板特征映射F_t进行线性插值F_t′:

F_t′＝(1-w)F_t+wF_d

将线性F_t′和搜索图像特征映射F_S传递给相似度模块，计算双模板和搜索图像嵌入特征的余弦相似度，在推理过程中，对每N帧选择余弦值最高的图像裁剪，用该帧预测的边界框更新动态模板，双模板表示模块使模型能够有效地编码时间信息以及对象外观和尺度变化，模型参数和FLOPs的增加很小，甚至可以忽略不计，使得它几乎是一个无成本的时间模块。

步骤E：训练阶段首先采集各种复杂场景、各种无人机类型、各种飞行姿态等无人机红外视频图像数据集，对红外图像数据集进行清洗标注，并划分训练和验证数据集，选择相应的数据增强技术、超参数、优化器及损失函数等训练验证并保存跟踪模型，将跟踪模型转换并部署至嵌入式平台。

步骤F：推理阶段，将视频的初始帧图像输入目标检测算法，得到视频初始帧图像中无人机目标的位置，给出目标框，即左上角像素坐标、目标框宽和高，以此初始框内无人机目标作为跟踪模型静态和动态模板输入，提取并融合模板的特征表示，网络模型跟踪后续红外图像中的无人机目标，输出无人机的目标框和置信度，根据相似度计算模型，计算每100帧的相似度得分，取最高分那一帧的无人机目标更新动态模板输入。