CN113240708B - 一种用于跟踪无人机的双边流语义一致性方法 - Google Patents

一种用于跟踪无人机的双边流语义一致性方法 Download PDF

Info

Publication number
CN113240708B
CN113240708B CN202110437098.7A CN202110437098A CN113240708B CN 113240708 B CN113240708 B CN 113240708B CN 202110437098 A CN202110437098 A CN 202110437098A CN 113240708 B CN113240708 B CN 113240708B
Authority
CN
China
Prior art keywords
target
unmanned aerial
aerial vehicle
modulation
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110437098.7A
Other languages
English (en)
Other versions
CN113240708A (zh
Inventor
赵健
温志津
刘阳
鲍雁飞
雍婷
张清毅
胡凯
李晋徽
晋晓曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
32802 Troops Of People's Liberation Army Of China
Original Assignee
32802 Troops Of People's Liberation Army Of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 32802 Troops Of People's Liberation Army Of China filed Critical 32802 Troops Of People's Liberation Army Of China
Priority to CN202110437098.7A priority Critical patent/CN113240708B/zh
Publication of CN113240708A publication Critical patent/CN113240708A/zh
Application granted granted Critical
Publication of CN113240708B publication Critical patent/CN113240708B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于跟踪无人机的双边流语义一致性方法,采用双边流语义一致性跟踪网络来实现,双边流语义一致性跟踪网络包含特征提取模块、类别级语义调制模块、实例级语义调制模块,其具体步骤包括:构建用于训练和验证无人机跟踪性能的多模态基准数据集;在类别级语义调制阶段的跟踪器中,采用类级别的语义调制来搜索尽可能包含无人机的锚点框,同时联合使用跨视频序列的特征来搜索、筛选并输出包含无人机特征的候选框;最后利用细粒度的实例级功能来优化调整候选框与目标真值框间的差异。本方法融合目标在多模态下的信息并充分利用了目标跨不同视频序列的语义特征,提高了跟踪器的鲁棒性和辨别能力同时不会引入任何额外的推理时间。

Description

一种用于跟踪无人机的双边流语义一致性方法
技术领域
本发明属于计算机视觉领域,尤其涉及一种用于跟踪无人机的双边流语义一致性方法。
背景技术
近年来,由于商业和娱乐用途无人机(UAV)的普及性大大提高,无人机具有了很广泛的应用,例如地面场景航拍、自主着陆、目标检测和跟踪。然而在这些实际应用的背后,对无人机运行状态(包括位置和轨迹)的监视至关重要。目前提出的大多数目标跟踪器都是基于RGB图像信息的。但是,在光线不足的情况下,这类跟踪器可能无法找到目标有用的提示,从而导致其跟踪结果不可靠。为了解决这一问题,目前提出了采用红外图像进行目标跟踪的方法。然而,红外图像仍然存在分辨率较低的问题,无法为跟踪器提供目标足够的信息。
发明内容
针对光线不足的情况下无人机监视和跟踪问题,本发明将可见光和红外图像中的信息进行融合以实现无人机跟踪,利用多模式的信息学习实现无人机跟踪器。本发明公开了一种用于反无人机的多模态基准数据集(Anti-UAV)的构建方法,其中Anti-UAV数据集主要为可见光和红外的高清视频序列对,每个视频序列都包含表示目标对象是否存在的边界框、目标属性和目标标志。本发明还公开了一种用于跟踪无人机的网络模型,称为双边流语义一致性跟踪网络,其包含特征提取模块、类别级语义调制模块、实例级语义调制模块。由于多模态基准数据集中的所有不同的视频序列中的标记的对象仅为单目标的无人机,因此该网络可以充分利用目标跨不同视频序列的特征。
在类别级语义调制阶段的跟踪器中,采用类别级的语义调制来搜索并生成锚点框,同时联合使用跨视频序列的特征来搜索、筛选并输出包含无人机特征的候选框,以减少类内差异;最后利用细粒度的实例级功能来优化调整候选框与带有目标实例信息的真值框间的差异,提高目标检测与跟踪的精准度。本方法融合目标在多模态下的信息并充分利用了目标跨不同视频序列的语义特征,提高了跟踪器的鲁棒性和辨别能力。然而,由于双边流语义一致性方法仅在训练中起作用,因此不会影响推理时的算力和时间消耗。
本发明公开了一种用于跟踪无人机的双边流语义一致性方法,采用双边流语义一致性跟踪网络,简称跟踪器,来实现,双边流语义一致性跟踪网络包含特征提取模块、类别级语义调制模块、实例级语义调制模块,所述的三个模块依次连接,其具体步骤包括:
S1,构建用于训练和验证无人机跟踪性能的多模态基准数据集。采集若干个同时含有热红外和可见光的视频序列对。针对每个可见光和红外视频图像都进行无人机目标的边界框标注,再标注图像中的目标属性和无人机存在与否的标签,如果图像中存在目标,则该标签取值为1,否则该标签取值为0,目标属性包括目标是否飞离视线之外、目标是否被遮挡、目标是否快速移动、目标是否存在尺度变化、目标是否处于不同的亮度模式、是否存在热交叉、是否存在目标低分辨率等;将每张图像标注的内容保存到一个json格式的文件内,每张图像的标准内容对应一个文件。多模态基准数据集被划分为训练集、验证集和测试集,上述三种数据集划分数目的比例为5:2:3,其中训练集和验证集来自同一视频的非重叠片段,测试集采用的视频片段与训练集和验证集均不相同且其包含的目标属性比训练集更多。多模态基准数据集中视频的内容为在空中飞行的单目标无人机。为了增加无人机背景的多样性和目标检测的复杂性,在采集视频对数据时设计多种场景,包括目标飞离视线之外、目标被遮挡、目标快速移动、目标尺度变化、不同的亮度模式(白天和夜晚)、热交叉和目标低分辨率等。
所述的目标被遮挡,是指目标被建筑物、云彩或树木等引起部分或全部遮挡。
所述的目标快速移动,是指目标在两个相邻帧之间移动的位置超过60个像素。
所述的目标尺度变化,是指视频图像中第一帧和视频图像中某一帧的目标边界框大小比率取值范围超过[0.66,1.5]。
所述的不同亮度模式,是指在采集视频数据时,存在白天和夜晚两种模式,白天模式目标区域亮度高,夜晚模式目标区域亮度低。
所述的热交叉,是指采用热红外的方式采集视频数据,采集的视频里存在目标温度和其他物体或者环境温度相接近的状况,导致目标不易区分。
所述的目标低分辨率,是指图像的目标边界框内目标像素的数目小于400。
对于多模态基准数据集,其中的宽度为w、高度为h的无人机目标的尺度值s(w,h)的计算公式为:
Figure BDA0003033577330000031
依据所述的多模态基准数据集,对其中所有的无人机目标进行尺度值计算,设置无人机目标尺度值的上界和下界,根据无人机目标尺度值,对所有的无人机目标尺度值进行筛选,剔除目标尺度值大于上界或小于下界的无人机,以使训练集、验证集和测试集中的目标尺度值取值范围区间相似。在无人机目标跟踪过程中需要感知视频内无人机的存在状态,无人机的存在状态是指无人机是否存在以及标注的无人机边界框与其对应目标真值边界框之间的重叠面积,因此,需要计算无人机在视频图像内的存在状态的精度值SA(StateAccuracy):
Figure BDA0003033577330000032
式中,IOUt为t时刻正在被跟踪无人机目标被标注的边界框与其对应目标真值边界框之间的重叠度,T为该视频序列的总时长。vt为t时刻目标真值的存在标签值;pt为t时刻跟踪器对目标的预测值,其用于衡量目标状态的准确度。存在状态的精度值SA用于计算目标在每一个视频序列中存在状态的平均值。
S2,目标特征提取。所述的目标特征,包括无人机目标尺寸、形状、位置等。目标特征提取采用RCNN算法来实现,其具体包括,采用双支路网络分别对存在于不同模态视频图像内的无人机目标进行特征提取,并充分利用两支路间跨不同视频序列的语义信息进行目标跟踪。每一批次将两个不同的视频序列输入双边流语义一致性跟踪网络,然后采用Alexnet网络对图像中的无人机目标进行特征学习。Alexnet网络的特征提取部分采用了5个卷积层、2个全连接层,其中每个卷积层都含有一个池化层,最后一个卷积层中的池化层采用的神经元个数为9216,2个全连接层的神经元个数皆为4096。通过该Alexnet网络网络的训练,每个输入的无人机目标都得到一个4096维的特征向量。
S3,类别级语义调制。采用基于GlobalTrack目标跟踪模型的查询引导RegionProposal Network,RPN,的策略,该策略通过使用跨不同视频序列的特征查询方法来调制搜索的区域,输出Region Of Interest特征,简称ROI特征,跨不同视频序列的特征查询过程表示为:
Figure BDA0003033577330000041
式中,zi表示第i个视频序列查询的ROI(Region Of Interest)特征,xj表示第j个视频序列经过Alexnet网络对图像提取到的搜索区域特征,视频序列经过Alexnet网络对图像提取到的搜索区域即为目标候选框,fC为基于zi和xj的不同组合来联合对视频序列内和跨视频序列进行特征调制的调制器函数。
Figure BDA0003033577330000042
具有与图像特征xj相同的大小,表示用于生成候选信息的对第i和第j个视频序列的调制特征。fout为用于对齐
Figure BDA0003033577330000043
和xj对应的图像通道特征的函数,fz和fx为分别作用于zi和xj来得到投射特征的函数,
Figure BDA0003033577330000044
表示卷积操作。变量i和j的取值范围在0和批次总数n之间,当i和j不相等时,采用跨序列的图像调制法;当i和j相等时,采用的图像调制法为帧内序列相关方法,所述的帧内序列相关方法,其采用帧间差分法,对目标在时间上连续的五帧图像进行像素间的差分计算。在对双边流语义一致性跟踪网络进行训练过程中,针对类别级语义调制的分类和回归操作,采用的损失函数为:
Figure BDA0003033577330000045
其中,α是用于调整Lsame和Lcross之比的权重系数,Lsame为视频序列内调制后的PRN(Proposal Region Network)预测的损失函数,Lcross为跨序列调制后的RPN预测的损失函数,zj表示第j个视频序列查询的ROI(Region Of Interest)特征,xi表示第i个视频序列经过Alexnet网络对图像提取到的搜索区域特征,
Figure BDA0003033577330000051
为调制特征
Figure BDA0003033577330000052
时的RPN预测的损失函数。在对双边流语义一致性跟踪网络进行训练过程中,RPN预测的损失函数表示为:
Figure BDA0003033577330000053
其中,β为用于平衡类别级语义调制阶段分类操作和回归操作的损失函数的权值,Lcls(·)表示平衡类别级语义调制阶段分类操作的损失函数,Lreg(·)表示平衡类别级语义调制阶段回归操作的损失函数,su
Figure BDA0003033577330000054
分别表示对第u个目标预测的分类得分与对应目标真实值之间的分类得分,pu
Figure BDA0003033577330000055
分别为第u个目标候选框与对应真实目标的边界框位置,n0为目标总数,所述的候选框,是指对图像内的目标生成的所有锚点框进行筛选后输出的目标边界框。
S4,实例级语义调制。当已经完成了对当前目标特征所属视频序列的查询进行设置后,目标的候选框用于优化分类的准确度及目标候选框与目标真值框间的距离差值。针对在类别级语义调制步骤中查询图像获得的ROI特征z和已选出的第k个目标候选框x′k,其在实例级语义阶段经过调制得到ROI特征
Figure BDA0003033577330000056
的过程为:
Figure BDA0003033577330000057
其中,获取z的顺序与获取目标候选框的顺序相同。fI为用于将不同目标的实例信息调制为已选择的候选框的函数,fout′为用于将调制特征和候选框调整为相同维度变量的函数。fz′和fx′分别代表ROI特征和目标候选框的特征投射函数,⊙表示Hadamard积。
然后,对双边流语义一致性跟踪网络进行训练,将调制得到的第k个目标ROI特征
Figure BDA0003033577330000058
用于分类和回归,得到的无人机目标跟踪结果LI表示为:
Figure BDA0003033577330000059
其中,Npnum表示步骤S3中得到的目标候选框的数目。对于调制得到的第k个目标ROI特征
Figure BDA0003033577330000061
其采用的损失函数为:
Figure BDA0003033577330000062
其中,sn′和sn″分别代表双边流语义一致性跟踪网络对第n个目标跟踪的置信度和对应目标真实值的置信度,pn和pn″分别为第n个目标候选框及对应真实目标的边界框位置。
所述的特征提取模块用于完成步骤S2所述的目标特征提取,所述的类别级语义调制模块用于完成步骤S3所述的类别级语义调制,所述的实例级语义调制模块用于完成步骤S4所述的实例级语义调制。
本发明的有益效果为:
本发明可以为军事和民用的重大基础设施完成智能化无人机跟踪,例如机场的无人机和鸟群安全隐患排查,以此提供鸟类和无人机的跟踪检测任务、城市无人机“黑飞”的智能化跟踪识别等。在实施上,可以采用软硬件相结合的方式进行跟踪任务;也可以安装于后台服务器,提供大批量后台目标跟踪检测。与现有方法相比,本发明解决了过去由基于目标单一的可见光或红外图像信息引起的网络无法提取目标有用信息问题,导致跟踪检测任务失败。本方法融合目标在多模态下的信息并充分利用了目标跨不同视频序列的语义特征用于跟踪无人机,提高了跟踪器的鲁棒性和辨别能力同时不会引入任何额外的推理时间。
附图说明
图1为本发明方法所用的双边流语义一致性跟踪网络的网络模型图;
图2为本发明方法的实施流程图;
图3为本发明的多模态数据集中所采集的无人机类型;
图4为本发明的多模态数据集中无人机的位置和尺度分布图;
图5为本发明的多模态数据集中无人机存在的不同属性截图;
图6为本发明的视频序列中不同属性的数量。
具体实施方式
为了更好的了解本发明内容,这里给出一个实施例。
本发明公开了一种用于跟踪无人机的双边流语义一致性方法,采用双边流语义一致性跟踪网络,简称跟踪器,来实现,双边流语义一致性跟踪网络包含特征提取模块、类别级语义调制模块、实例级语义调制模块,所述的三个模块依次连接,图1为本发明方法所用的双边流语义一致性跟踪网络的网络模型图;图2为本发明方法的实施流程图;其具体步骤包括:
S1,构建用于训练和验证无人机跟踪性能的多模态基准数据集。采集若干个同时含有热红外和可见光的视频序列对,其中每个视频的帧率为25,保存的格式为MP4。针对每个可见光和红外视频图像都进行无人机目标的边界框标注,再标注图像中的目标属性和无人机存在与否的标签,如果图像中存在目标,则该标签取值为1,否则该标签取值为0,目标属性包括目标是否飞离视线之外、目标是否被遮挡、目标是否快速移动、目标是否存在尺度变化、目标是否处于不同的亮度模式、是否存在热交叉、是否存在目标低分辨率等;将每张图像标注的内容保存到一个json格式的文件内,每张图像的标准内容对应一个文件。多模态基准数据集被划分为训练集、验证集和测试集,上述三种数据集划分数目的比例为5:2:3,其中训练集和验证集来自同一视频的非重叠片段,测试集采用的视频片段与训练集和验证集均不相同且其包含的目标属性比训练集更多。多模态基准数据集中视频的内容为在空中飞行的单目标无人机,其无人机类型包含大、中、小三种类型无人机,如DJI-Inspire、DJI-Phantom4、DJI-Marvic-Air、DJI-Marvic-Pro、DJI-Spark和Parrot。图3为本发明的多模态数据集中所采集的无人机类型。为了增加无人机背景的多样性和目标检测的复杂性,在采集视频对数据时设计多种场景,包括目标飞离视线之外、目标被遮挡、目标快速移动、目标尺度变化、不同的亮度模式(白天和夜晚)、热交叉和目标低分辨率等。图4为本发明的多模态数据集中无人机的位置和尺度分布图;图5为本发明的多模态数据集中无人机存在的不同属性截图;图6为本发明的视频序列中不同属性的数量。
所述的目标被遮挡,是指目标被建筑物、云彩或树木等引起部分或全部遮挡。
所述的目标快速移动,是指目标在两个相邻帧之间移动的位置超过60个像素。
所述的目标尺度变化,是指视频图像中第一帧和视频图像中某一帧的目标边界框大小比率取值范围超过[0.66,1.5]。
所述的不同亮度模式,是指在采集视频数据时,存在白天和夜晚两种模式,白天模式目标区域亮度高,夜晚模式目标区域亮度低。
所述的热交叉,是指采用热红外的方式采集视频数据,采集的视频里存在目标温度和其他物体或者环境温度相接近的状况,导致目标不易区分。
所述的目标低分辨率,是指图像的目标边界框内目标像素的数目小于400。
对于多模态基准数据集,在采集时目标整体集中位于视频图像的中心区域,基于此标注完成的边界框也主要集中在图像的中心,其中的宽度为w、高度为h的无人机目标的尺度值s(w,h)的计算公式为:
Figure BDA0003033577330000081
依据所述的多模态基准数据集,对其中所有的无人机目标进行尺度值计算,设置无人机目标尺度值的上界和下界,根据无人机目标尺度值,对所有的无人机目标尺度值进行筛选,剔除目标尺度值大于上界或小于下界的无人机,以使训练集、验证集和测试集中的目标尺度值取值范围区间相似。在无人机目标跟踪过程中需要感知视频内无人机的存在状态,无人机的存在状态是指无人机是否存在以及标注的无人机边界框与其对应目标真值边界框之间的重叠面积,因此,需要计算无人机在视频图像内的存在状态的精度值SA(StateAccuracy):
Figure BDA0003033577330000082
式中,IOUt为t时刻正在被跟踪无人机目标被标注的边界框与其对应目标真值边界框之间的重叠度,T为该视频序列的总时长。vt为t时刻目标真值的存在标签值;pt为t时刻跟踪器对目标的预测值,其用于衡量目标状态的准确度。存在状态的精度值SA用于计算目标在每一个视频序列中存在状态的平均值。
S2,目标特征提取。由于不同的视频序列所包含的目标信息在帧前后存在相互关联,则跟踪器在训练过程中可以融合不同视频序列的特征。然而由于输入的可见光视频图像和红外视频图像大小不同,目标位置未对齐,不直接适用图像融合算法和权值共享的孪生网络算法,同时由于最初用于目标检测的RCNN算法结构上相对简单,因此可将其用作目标跟踪算法的主干网络。所述的目标特征,包括无人机目标尺寸、形状、位置等。目标特征提取采用RCNN算法来实现,其具体包括,采用双支路网络分别对存在于不同模态视频图像内的无人机目标进行特征提取,并充分利用两支路间跨不同视频序列的语义信息进行目标跟踪。每一批次将两个不同的视频序列输入双边流语义一致性跟踪网络,然后采用Alexnet网络对图像中的无人机目标进行特征学习。Alexnet网络的特征提取部分采用了5个卷积层、2个全连接层,其中每个卷积层都含有一个池化层,最后一个卷积层中的池化层采用的神经元个数为9216,2个全连接层的神经元个数皆为4096。通过该Alexnet网络网络的训练,每个输入的无人机目标都得到一个4096维的特征向量。
S3,类别级语义调制。该阶段主要用于寻找包含无人机目标的边界框,类似于目标检测中的锚点生成及目标框筛选问题。采用基于GlobalTrack目标跟踪模型的查询引导Region Proposal Network,RPN,的策略,该策略通过使用跨不同视频序列的特征查询方法来调制搜索的区域,输出ROI(Region Of Interest)特征,跨不同视频序列的特征查询过程表示为:
Figure BDA0003033577330000091
式中,zi表示第i个视频序列查询的ROI(Region Of Interest)特征,xj表示第j个视频序列经过Alexnet网络对图像提取到的搜索区域特征,视频序列经过Alexnet网络对图像提取到的搜索区域即为目标候选框,fC为基于zi和xj的不同组合来联合对视频序列内和跨视频序列进行特征调制的调制器函数。
Figure BDA0003033577330000092
具有与图像特征xj相同的大小,表示用于生成候选信息的对第i和第j个视频序列的调制特征。fout为用于对齐
Figure BDA0003033577330000093
和xj对应的图像通道特征的函数,fz和fx为分别作用于zi和xj来得到投射特征的函数,
Figure BDA0003033577330000094
表示卷积操作。变量i和j的取值范围在0和批次总数n之间,当i和j不相等时,采用跨序列的图像调制法;当i和j相等时,采用的图像调制法为帧内序列相关方法,所述的帧内序列相关方法,其采用帧间差分法,对目标在时间上连续的五帧图像进行像素间的差分计算。在对双边流语义一致性跟踪网络进行训练过程中,针对类别级语义调制的分类和回归操作,采用的损失函数为:
Figure BDA0003033577330000101
其中,α是用于调整Lsame和Lcross之比的权重系数,Lsame为视频序列内调制后的PRN(Proposal Region Network)预测的损失函数,Lcross为跨序列调制后的RPN预测的损失函数,zj表示第j个视频序列查询的ROI(Region Of Interest)特征,xi表示第i个视频序列经过Alexnet网络对图像提取到的搜索区域特征,
Figure BDA0003033577330000102
为调制特征
Figure BDA0003033577330000103
时的RPN预测的损失函数。在对双边流语义一致性跟踪网络进行训练过程中,RPN预测的损失函数表示为:
Figure BDA0003033577330000104
其中,β为用于平衡类别级语义调制阶段分类操作和回归操作的损失函数的权值,Lcls(·)表示平衡类别级语义调制阶段分类操作的损失函数,Lreg(·)表示平衡类别级语义调制阶段回归操作的损失函数,su
Figure BDA0003033577330000105
分别表示对第u个目标预测的分类得分与对应目标真实值之间的分类得分,pu
Figure BDA0003033577330000106
分别为第u个目标候选框与对应真实目标的边界框位置,n0为目标总数,所述的候选框,是指对图像内的目标生成的所有锚点框进行筛选后输出的目标边界框。
S4,实例级语义调制。上一阶段已完成对无人机目标候选框的选择。在接下来的实例级语义调制阶段,主要关注与目标实例相关的信息,从而将目标实例和具有目标相似的外观信息或复杂背景的实例区分开来。当已经完成了对当前目标特征所属视频序列的查询进行设置后,目标的候选框用于优化分类的准确度及目标候选框与目标真值框间的距离差值。针对在类别级语义调制步骤中查询图像获得的ROI特征z和已选出的第k个目标候选框x′k,其在实例级语义阶段经过调制得到ROI特征
Figure BDA0003033577330000107
的过程为:
Figure BDA0003033577330000108
其中,获取z的顺序与获取目标候选框的顺序相同。fI为用于将不同目标的实例信息调制为已选择的候选框的函数,fout′为用于将调制特征和候选框调整为相同维度变量的函数。fz′和fx′分别代表ROI特征和目标候选框的特征投射函数,⊙表示Hadamard积。
然后,对双边流语义一致性跟踪网络进行训练,将调制得到的第k个目标ROI特征
Figure BDA0003033577330000111
用于分类和回归,得到的无人机目标跟踪结果LI表示为:
Figure BDA0003033577330000112
其中,Npnum表示步骤S3中得到的目标候选框的数目。对于调制得到的第k个目标ROI特征
Figure BDA0003033577330000113
其采用的损失函数为:
Figure BDA0003033577330000114
其中,sn′和sn″分别代表双边流语义一致性跟踪网络对第n个目标跟踪的置信度和对应目标真实值的置信度,pn′和pn″分别为第n个目标候选框及对应真实目标的边界框位置。
所述的特征提取模块用于完成步骤S2所述的目标特征提取,所述的类别级语义调制模块用于完成步骤S3所述的类别级语义调制,所述的实例级语义调制模块用于完成步骤S4所述的实例级语义调制。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (3)

1.一种用于跟踪无人机的双边流语义一致性方法,其特征在于,采用双边流语义一致性跟踪网络,简称跟踪器,来实现,双边流语义一致性跟踪网络包含特征提取模块、类别级语义调制模块、实例级语义调制模块,所述的三个模块依次连接,其具体步骤包括:
S1,构建用于训练和验证无人机跟踪性能的多模态基准数据集;采集若干个同时含有热红外和可见光的视频序列对;针对每个可见光和红外视频图像都进行无人机目标的边界框标注,再标注图像中的目标属性和无人机存在与否的标签,如果图像中存在目标,则该标签取值为1,否则该标签取值为0,目标属性包括目标是否飞离视线之外、目标是否被遮挡、目标是否快速移动、目标是否存在尺度变化、目标是否处于不同的亮度模式、是否存在热交叉、是否存在目标低分辨率;将每张图像标注的内容保存到一个json格式的文件内,每张图像的标准内容对应一个文件;多模态基准数据集被划分为训练集、验证集和测试集,上述三种数据集划分数目的比例为5:2:3,其中训练集和验证集来自同一视频的非重叠片段,测试集采用的视频片段与训练集和验证集均不相同且其包含的目标属性比训练集更多;多模态基准数据集中视频的内容为在空中飞行的单目标无人机;为了增加无人机背景的多样性和目标检测的复杂性,在采集视频对数据时设计多种场景,包括目标飞离视线之外、目标被遮挡、目标快速移动、目标尺度变化、不同的亮度模式、热交叉和目标低分辨率;
对于多模态基准数据集,其中的宽度为w、高度为h的无人机目标的尺度值s(w,h)的计算公式为:
Figure FDA0003504353860000011
依据所述的多模态基准数据集,对其中所有的无人机目标进行尺度值计算,设置无人机目标尺度值的上界和下界,根据无人机目标尺度值,对所有的无人机目标尺度值进行筛选,剔除目标尺度值大于上界或小于下界的无人机,以使训练集、验证集和测试集中的目标尺度值取值范围区间相似;在无人机目标跟踪过程中需要感知视频内无人机的存在状态,无人机的存在状态是指无人机是否存在以及标注的无人机边界框与其对应目标真值边界框之间的重叠面积,因此,需要计算无人机在视频图像内的存在状态的精度值SA:
Figure FDA0003504353860000021
式中,IOUt为t时刻正在被跟踪无人机目标被标注的边界框与其对应目标真值边界框之间的重叠度,T为该视频序列的总时长;vt为t时刻目标真值的存在标签值;pt为t时刻跟踪器对目标的预测值,其用于衡量目标状态的准确度;存在状态的精度值SA用于计算目标在每一个视频序列中存在状态的平均值;
S2,目标特征提取;所述的目标特征,包括无人机目标尺寸、形状、位置;目标特征提取采用RCNN算法来实现,其具体包括,采用双支路网络分别对存在于不同模态视频图像内的无人机目标进行特征提取,并充分利用两支路间跨不同视频序列的语义信息进行目标跟踪;每一批次将两个不同的视频序列输入双边流语义一致性跟踪网络,然后采用Alexnet网络对图像中的无人机目标进行特征学习;Alexnet网络的特征提取部分采用了5个卷积层、2个全连接层,其中每个卷积层都含有一个池化层,最后一个卷积层中的池化层采用的神经元个数为9216,2个全连接层的神经元个数皆为4096;通过该Alexnet网络的训练,每个输入的无人机目标都得到一个4096维的特征向量;
S3,类别级语义调制;采用基于GlobalTrack目标跟踪模型的查询引导RegionProposal Network,RPN,的策略,该策略通过使用跨不同视频序列的特征查询方法来调制搜索的区域,输出Region Of Interest特征,简称ROI特征,跨不同视频序列的特征查询过程表示为:
Figure FDA0003504353860000022
式中,zi表示第i个视频序列查询的ROI特征,xj表示第j个视频序列经过Alexnet网络对图像提取到的搜索区域特征,视频序列经过Alexnet网络对图像提取到的搜索区域即为目标候选框,fC为基于zi和xj的不同组合来联合对视频序列内和跨视频序列进行特征调制的调制器函数;
Figure FDA0003504353860000023
具有与图像特征xj相同的大小,表示用于生成候选信息的对第i和第j个视频序列的调制特征;fout为用于对齐
Figure FDA0003504353860000031
和xj对应的图像通道特征的函数,fz和fx为分别作用于zi和xj来得到投射特征的函数,
Figure FDA0003504353860000032
表示卷积操作;变量i和j的取值范围在0和批次总数n之间,当i和j不相等时,采用跨序列的图像调制法;当i和j相等时,采用的图像调制法为帧内序列相关方法;在对双边流语义一致性跟踪网络进行训练过程中,针对类别级语义调制的分类和回归操作,采用的损失函数为:
Figure FDA0003504353860000033
其中,α是用于调整Lsame和Lcross之比的权重系数,Lsame为视频序列内调制后的ProposalRegion Network预测的损失函数,Proposal Region Network预测简称PRN预测,Lcross为跨序列调制后的RPN预测的损失函数,zj表示第j个视频序列查询的ROI特征,xi表示第i个视频序列经过Alexnet网络对图像提取到的搜索区域特征,
Figure FDA0003504353860000034
为调制特征
Figure FDA0003504353860000035
时的RPN预测的损失函数;在对双边流语义一致性跟踪网络进行训练过程中,RPN预测的损失函数表示为:
Figure FDA0003504353860000036
其中,β为用于平衡类别级语义调制阶段分类操作和回归操作的损失函数的权值,Lcls(·)表示平衡类别级语义调制阶段分类操作的损失函数,Lreg(·)表示平衡类别级语义调制阶段回归操作的损失函数,su
Figure FDA0003504353860000037
分别表示对第u个目标预测的分类得分与对应目标真实值之间的分类得分,pu
Figure FDA0003504353860000038
分别为第u个目标候选框与对应真实目标的边界框位置,n0为目标总数,所述的候选框,是指对图像内的目标生成的所有锚点框进行筛选后输出的目标边界框;
S4,实例级语义调制;当已经完成了对当前目标特征所属视频序列的查询进行设置后,目标的候选框用于优化分类的准确度及目标候选框与目标真值框间的距离差值;针对在类别级语义调制步骤中查询图像获得的ROI特征z和已选出的第k个目标候选框x′k,其在实例级语义阶段经过调制得到ROI特征
Figure FDA0003504353860000041
的过程为:
Figure FDA0003504353860000042
其中,获取z的顺序与获取目标候选框的顺序相同;fI为用于将不同目标的实例信息调制为已选择的候选框的函数,fout′为用于将调制特征和候选框调整为相同维度变量的函数;fz′和fx′分别代表ROI特征和目标候选框的特征投射函数,⊙表示Hadamard积;
然后,对双边流语义一致性跟踪网络进行训练,将调制得到的第k个目标ROI特征
Figure FDA0003504353860000043
用于分类和回归,得到的无人机目标跟踪结果LI表示为:
Figure FDA0003504353860000044
其中,Npnum表示步骤S3中得到的目标候选框的数目;对于调制得到的第k个目标ROI特征
Figure FDA0003504353860000045
其采用的损失函数为:
Figure FDA0003504353860000046
其中,sn′和sn″分别代表双边流语义一致性跟踪网络对第n个目标跟踪的置信度和对应目标真实值的置信度,pn′和pn″分别为第n个目标候选框及对应真实目标的边界框位置;
所述的特征提取模块用于完成步骤S2所述的目标特征提取,所述的类别级语义调制模块用于完成步骤S3所述的类别级语义调制,所述的实例级语义调制模块用于完成步骤S4所述的实例级语义调制。
2.如权利要求1所述的用于跟踪无人机的双边流语义一致性方法,其特征在于,步骤S1中,
所述的目标被遮挡,是指目标被建筑物、云彩或树木引起部分或全部遮挡;
所述的目标快速移动,是指目标在两个相邻帧之间移动的位置超过60个像素;
所述的目标尺度变化,是指视频图像中第一帧和视频图像中某一帧的目标边界框大小比率取值范围超过[0.66,1.5];
所述的不同亮度模式,是指在采集视频数据时,存在白天和夜晚两种模式,白天模式目标区域亮度高,夜晚模式目标区域亮度低;
所述的热交叉,是指采用热红外的方式采集视频数据,采集的视频里存在目标温度和其他物体或者环境温度相接近的状况,导致目标不易区分;
所述的目标低分辨率,是指图像的目标边界框内目标像素的数目小于400。
3.如权利要求1所述的用于跟踪无人机的双边流语义一致性方法,其特征在于,步骤S3中,所述的帧内序列相关方法,其采用帧间差分法,对目标在时间上连续的五帧图像进行像素间的差分计算。
CN202110437098.7A 2021-04-22 2021-04-22 一种用于跟踪无人机的双边流语义一致性方法 Active CN113240708B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110437098.7A CN113240708B (zh) 2021-04-22 2021-04-22 一种用于跟踪无人机的双边流语义一致性方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110437098.7A CN113240708B (zh) 2021-04-22 2021-04-22 一种用于跟踪无人机的双边流语义一致性方法

Publications (2)

Publication Number Publication Date
CN113240708A CN113240708A (zh) 2021-08-10
CN113240708B true CN113240708B (zh) 2022-03-25

Family

ID=77129639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110437098.7A Active CN113240708B (zh) 2021-04-22 2021-04-22 一种用于跟踪无人机的双边流语义一致性方法

Country Status (1)

Country Link
CN (1) CN113240708B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179314A (zh) * 2019-12-30 2020-05-19 北京工业大学 一种基于残差密集孪生网络的目标跟踪方法
CN111310631A (zh) * 2020-02-10 2020-06-19 湖南大学 一种旋翼作业飞行机器人目标跟踪方法及系统
CN112419368A (zh) * 2020-12-03 2021-02-26 腾讯科技(深圳)有限公司 运动目标的轨迹跟踪方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109544534B (zh) * 2018-11-26 2020-10-16 上海联影智能医疗科技有限公司 一种病灶图像检测装置、方法和计算机可读存储介质
CN109816695A (zh) * 2019-01-31 2019-05-28 中国人民解放军国防科技大学 一种复杂背景下的红外小型无人机目标检测与跟踪方法
CN112215080B (zh) * 2020-09-16 2022-05-03 电子科技大学 一种利用时序信息的目标跟踪方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179314A (zh) * 2019-12-30 2020-05-19 北京工业大学 一种基于残差密集孪生网络的目标跟踪方法
CN111310631A (zh) * 2020-02-10 2020-06-19 湖南大学 一种旋翼作业飞行机器人目标跟踪方法及系统
CN112419368A (zh) * 2020-12-03 2021-02-26 腾讯科技(深圳)有限公司 运动目标的轨迹跟踪方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Parameter sensing and object tracking using global positioning system;Arghya P. Saikia Thengal,and etc;《2016 Sixth International Symposium on Embedded Computing and System Design (ISED)》;20170713;第289-293页 *
改进的SSD航拍目标检测方法;裴伟等;《软件学报》;20191231;第30卷(第3期);第738-758页 *

Also Published As

Publication number Publication date
CN113240708A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN113449680B (zh) 一种基于知识蒸馏的多模小目标检测方法
Wu et al. Deep learning for unmanned aerial vehicle-based object detection and tracking: A survey
Mou et al. Relation matters: Relational context-aware fully convolutional network for semantic segmentation of high-resolution aerial images
Neubert et al. Appearance change prediction for long-term navigation across seasons
Liu et al. Multi-channel CNN-based object detection for enhanced situation awareness
CN103679674B (zh) 一种无人飞行器实时图像拼接方法及系统
Wang et al. YOLOv3-MT: A YOLOv3 using multi-target tracking for vehicle visual detection
Huang et al. Spatial-temproal based lane detection using deep learning
CN110569779A (zh) 基于行人局部和整体属性联合学习的行人属性识别方法
CN110532937A (zh) 基于识别模型与分类模型进行列车前向目标精准识别的方法
Cheng et al. SLBAF-Net: Super-Lightweight bimodal adaptive fusion network for UAV detection in low recognition environment
Zhang et al. Boosting transferability of physical attack against detectors by redistributing separable attention
CN113240708B (zh) 一种用于跟踪无人机的双边流语义一致性方法
Wu et al. Real-time vehicle color recognition based on yolo9000
Mou et al. Spatial relational reasoning in networks for improving semantic segmentation of aerial images
Koch et al. Estimating Object Perception Performance in Aerial Imagery Using a Bayesian Approach
CN117011722A (zh) 基于无人机实时监控视频的车牌识别方法及装置
Zhang et al. Spatial and temporal context information fusion based flying objects detection for autonomous sense and avoid
CN114550016A (zh) 一种基于上下文信息感知的无人机定位方法及系统
Luque et al. Spatio-temporal road detection from aerial imagery using CNNs
Sun et al. UAV-Ground Visual Tracking: A Unified Dataset and Collaborative Learning Approach
Namdev et al. Object Detection Techniques based on Deep Learning: A Review
Li et al. UAV Aerial Photography Target Detection and Tracking Based on Deep Learning
Xia et al. Application of Intelligent UAV Perception Technology in Air-Ground Unmanned Collaborative System
Fazlali et al. Cloud/haze detection in airborne videos using a convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant