CN113240708A - 一种用于跟踪无人机的双边流语义一致性方法 - Google Patents
一种用于跟踪无人机的双边流语义一致性方法 Download PDFInfo
- Publication number
- CN113240708A CN113240708A CN202110437098.7A CN202110437098A CN113240708A CN 113240708 A CN113240708 A CN 113240708A CN 202110437098 A CN202110437098 A CN 202110437098A CN 113240708 A CN113240708 A CN 113240708A
- Authority
- CN
- China
- Prior art keywords
- target
- unmanned aerial
- aerial vehicle
- modulation
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/254—Analysis of motion involving subtraction of images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种用于跟踪无人机的双边流语义一致性方法,采用双边流语义一致性跟踪网络来实现,双边流语义一致性跟踪网络包含特征提取模块、类别级语义调制模块、实例级语义调制模块,其具体步骤包括:构建用于训练和验证无人机跟踪性能的多模态基准数据集;在类别级语义调制阶段的跟踪器中,采用类级别的语义调制来搜索尽可能包含无人机的锚点框,同时联合使用跨视频序列的特征来搜索、筛选并输出包含无人机特征的候选框;最后利用细粒度的实例级功能来优化调整候选框与目标真值框间的差异。本方法融合目标在多模态下的信息并充分利用了目标跨不同视频序列的语义特征,提高了跟踪器的鲁棒性和辨别能力同时不会引入任何额外的推理时间。
Description
技术领域
本发明属于计算机视觉领域,尤其涉及一种用于跟踪无人机的双边流语义一致性方法。
背景技术
近年来,由于商业和娱乐用途无人机(UAV)的普及性大大提高,无人机具有了很广泛的应用,例如地面场景航拍、自主着陆、目标检测和跟踪。然而在这些实际应用的背后,对无人机运行状态(包括位置和轨迹)的监视至关重要。目前提出的大多数目标跟踪器都是基于RGB图像信息的。但是,在光线不足的情况下,这类跟踪器可能无法找到目标有用的提示,从而导致其跟踪结果不可靠。为了解决这一问题,目前提出了采用红外图像进行目标跟踪的方法。然而,红外图像仍然存在分辨率较低的问题,无法为跟踪器提供目标足够的信息。
发明内容
针对光线不足的情况下无人机监视和跟踪问题,本发明将可见光和红外图像中的信息进行融合以实现无人机跟踪,利用多模式的信息学习实现无人机跟踪器。本发明公开了一种用于反无人机的多模态基准数据集(Anti-UAV)的构建方法,其中Anti-UAV数据集主要为可见光和红外的高清视频序列对,每个视频序列都包含表示目标对象是否存在的边界框、目标属性和目标标志。本发明还公开了一种用于跟踪无人机的网络模型,称为双边流语义一致性跟踪网络,其包含特征提取模块、类别级语义调制模块、实例级语义调制模块。由于多模态基准数据集中的所有不同的视频序列中的标记的对象仅为单目标的无人机,因此该网络可以充分利用目标跨不同视频序列的特征。
在类别级语义调制阶段的跟踪器中,采用类别级的语义调制来搜索并生成锚点框,同时联合使用跨视频序列的特征来搜索、筛选并输出包含无人机特征的候选框,以减少类内差异;最后利用细粒度的实例级功能来优化调整候选框与带有目标实例信息的真值框间的差异,提高目标检测与跟踪的精准度。本方法融合目标在多模态下的信息并充分利用了目标跨不同视频序列的语义特征,提高了跟踪器的鲁棒性和辨别能力。然而,由于双边流语义一致性方法仅在训练中起作用,因此不会影响推理时的算力和时间消耗。
本发明公开了一种用于跟踪无人机的双边流语义一致性方法,采用双边流语义一致性跟踪网络,简称跟踪器,来实现,双边流语义一致性跟踪网络包含特征提取模块、类别级语义调制模块、实例级语义调制模块,所述的三个模块依次连接,其具体步骤包括:
S1,构建用于训练和验证无人机跟踪性能的多模态基准数据集。采集若干个同时含有热红外和可见光的视频序列对。针对每个可见光和红外视频图像都进行无人机目标的边界框标注,再标注图像中的目标属性和无人机存在与否的标签,如果图像中存在目标,则该标签取值为1,否则该标签取值为0,目标属性包括目标是否飞离视线之外、目标是否被遮挡、目标是否快速移动、目标是否存在尺度变化、目标是否处于不同的亮度模式、是否存在热交叉、是否存在目标低分辨率等;将每张图像标注的内容保存到一个json格式的文件内,每张图像的标准内容对应一个文件。多模态基准数据集被划分为训练集、验证集和测试集,上述三种数据集划分数目的比例为5:2:3,其中训练集和验证集来自同一视频的非重叠片段,测试集采用的视频片段与训练集和验证集均不相同且其包含的目标属性比训练集更多。多模态基准数据集中视频的内容为在空中飞行的单目标无人机。为了增加无人机背景的多样性和目标检测的复杂性,在采集视频对数据时设计多种场景,包括目标飞离视线之外、目标被遮挡、目标快速移动、目标尺度变化、不同的亮度模式(白天和夜晚)、热交叉和目标低分辨率等。
所述的目标被遮挡,是指目标被建筑物、云彩或树木等引起部分或全部遮挡。
所述的目标快速移动,是指目标在两个相邻帧之间移动的位置超过60个像素。
所述的目标尺度变化,是指视频图像中第一帧和视频图像中某一帧的目标边界框大小比率取值范围超过[0.66,1.5]。
所述的不同亮度模式,是指在采集视频数据时,存在白天和夜晚两种模式,白天模式目标区域亮度高,夜晚模式目标区域亮度低。
所述的热交叉,是指采用热红外的方式采集视频数据,采集的视频里存在目标温度和其他物体或者环境温度相接近的状况,导致目标不易区分。
所述的目标低分辨率,是指图像的目标边界框内目标像素的数目小于400。
对于多模态基准数据集,其中的宽度为w、高度为h的无人机目标的尺度值s(w,h)的计算公式为:
依据所述的多模态基准数据集,对其中所有的无人机目标进行尺度值计算,设置无人机目标尺度值的上界和下界,根据无人机目标尺度值,对所有的无人机目标尺度值进行筛选,剔除目标尺度值大于上界或小于下界的无人机,以使训练集、验证集和测试集中的目标尺度值取值范围区间相似。在无人机目标跟踪过程中需要感知视频内无人机的存在状态,无人机的存在状态是指无人机是否存在以及标注的无人机边界框与其对应目标真值边界框之间的重叠面积,因此,需要计算无人机在视频图像内的存在状态的精度值SA(StateAccuracy):
式中,IOUt为t时刻正在被跟踪无人机目标被标注的边界框与其对应目标真值边界框之间的重叠度,T为该视频序列的总时长。vt为t时刻目标真值的存在标签值;pt为t时刻跟踪器对目标的预测值,其用于衡量目标状态的准确度。存在状态的精度值SA用于计算目标在每一个视频序列中存在状态的平均值。
S2,目标特征提取。所述的目标特征,包括无人机目标尺寸、形状、位置等。目标特征提取采用RCNN算法来实现,其具体包括,采用双支路网络分别对存在于不同模态视频图像内的无人机目标进行特征提取,并充分利用两支路间跨不同视频序列的语义信息进行目标跟踪。每一批次将两个不同的视频序列输入双边流语义一致性跟踪网络,然后采用Alexnet网络对图像中的无人机目标进行特征学习。Alexnet网络的特征提取部分采用了5个卷积层、2个全连接层,其中每个卷积层都含有一个池化层,最后一个卷积层中的池化层采用的神经元个数为9216,2个全连接层的神经元个数皆为4096。通过该Alexnet网络网络的训练,每个输入的无人机目标都得到一个4096维的特征向量。
S3,类别级语义调制。采用基于GlobalTrack目标跟踪模型的查询引导RegionProposal Network,RPN,的策略,该策略通过使用跨不同视频序列的特征查询方法来调制搜索的区域,输出Region Of Interest特征,简称ROI特征,跨不同视频序列的特征查询过程表示为:
式中,zi表示第i个视频序列查询的ROI(Region Of Interest)特征,xj表示第j个视频序列经过Alexnet网络对图像提取到的搜索区域特征,视频序列经过Alexnet网络对图像提取到的搜索区域即为目标候选框,fC为基于zi和xj的不同组合来联合对视频序列内和跨视频序列进行特征调制的调制器函数。具有与图像特征xj相同的大小,表示用于生成候选信息的对第i和第j个视频序列的调制特征。fout为用于对齐和xj对应的图像通道特征的函数,fz和fx为分别作用于zi和xj来得到投射特征的函数,表示卷积操作。变量i和j的取值范围在0和批次总数n之间,当i和j不相等时,采用跨序列的图像调制法;当i和j相等时,采用的图像调制法为帧内序列相关方法,所述的帧内序列相关方法,其采用帧间差分法,对目标在时间上连续的五帧图像进行像素间的差分计算。在对双边流语义一致性跟踪网络进行训练过程中,针对类别级语义调制的分类和回归操作,采用的损失函数为:
其中,α是用于调整Lsame和Lcross之比的权重系数,Lsame为视频序列内调制后的PRN(Proposal Region Network)预测的损失函数,Lcross为跨序列调制后的RPN预测的损失函数,zj表示第j个视频序列查询的ROI(Region Of Interest)特征,xi表示第i个视频序列经过Alexnet网络对图像提取到的搜索区域特征,为调制特征时的RPN预测的损失函数。在对双边流语义一致性跟踪网络进行训练过程中,RPN预测的损失函数表示为:
其中,β为用于平衡类别级语义调制阶段分类操作和回归操作的损失函数的权值,Lcls(·)表示平衡类别级语义调制阶段分类操作的损失函数,Lreg(·)表示平衡类别级语义调制阶段回归操作的损失函数,su和分别表示对第u个目标预测的分类得分与对应目标真实值之间的分类得分,pu和分别为第u个目标候选框与对应真实目标的边界框位置,n0为目标总数,所述的候选框,是指对图像内的目标生成的所有锚点框进行筛选后输出的目标边界框。
S4,实例级语义调制。当已经完成了对当前目标特征所属视频序列的查询进行设置后,目标的候选框用于优化分类的准确度及目标候选框与目标真值框间的距离差值。针对在类别级语义调制步骤中查询图像获得的ROI特征z和已选出的第k个目标候选框x′k,其在实例级语义阶段经过调制得到ROI特征的过程为:
其中,获取z的顺序与获取目标候选框的顺序相同。fI为用于将不同目标的实例信息调制为已选择的候选框的函数,fout′为用于将调制特征和候选框调整为相同维度变量的函数。fz′和fx′分别代表ROI特征和目标候选框的特征投射函数,⊙表示Hadamard积。
其中,sn′和sn″分别代表双边流语义一致性跟踪网络对第n个目标跟踪的置信度和对应目标真实值的置信度,pn和pn″分别为第n个目标候选框及对应真实目标的边界框位置。
所述的特征提取模块用于完成步骤S2所述的目标特征提取,所述的类别级语义调制模块用于完成步骤S3所述的类别级语义调制,所述的实例级语义调制模块用于完成步骤S4所述的实例级语义调制。
本发明的有益效果为:
本发明可以为军事和民用的重大基础设施完成智能化无人机跟踪,例如机场的无人机和鸟群安全隐患排查,以此提供鸟类和无人机的跟踪检测任务、城市无人机“黑飞”的智能化跟踪识别等。在实施上,可以采用软硬件相结合的方式进行跟踪任务;也可以安装于后台服务器,提供大批量后台目标跟踪检测。与现有方法相比,本发明解决了过去由基于目标单一的可见光或红外图像信息引起的网络无法提取目标有用信息问题,导致跟踪检测任务失败。本方法融合目标在多模态下的信息并充分利用了目标跨不同视频序列的语义特征用于跟踪无人机,提高了跟踪器的鲁棒性和辨别能力同时不会引入任何额外的推理时间。
附图说明
图1为本发明方法所用的双边流语义一致性跟踪网络的网络模型图;
图2为本发明方法的实施流程图;
图3为本发明的多模态数据集中所采集的无人机类型;
图4为本发明的多模态数据集中无人机的位置和尺度分布图;
图5为本发明的多模态数据集中无人机存在的不同属性截图;
图6为本发明的视频序列中不同属性的数量。
具体实施方式
为了更好的了解本发明内容,这里给出一个实施例。
本发明公开了一种用于跟踪无人机的双边流语义一致性方法,采用双边流语义一致性跟踪网络,简称跟踪器,来实现,双边流语义一致性跟踪网络包含特征提取模块、类别级语义调制模块、实例级语义调制模块,所述的三个模块依次连接,图1为本发明方法所用的双边流语义一致性跟踪网络的网络模型图;图2为本发明方法的实施流程图;其具体步骤包括:
S1,构建用于训练和验证无人机跟踪性能的多模态基准数据集。采集若干个同时含有热红外和可见光的视频序列对,其中每个视频的帧率为25,保存的格式为MP4。针对每个可见光和红外视频图像都进行无人机目标的边界框标注,再标注图像中的目标属性和无人机存在与否的标签,如果图像中存在目标,则该标签取值为1,否则该标签取值为0,目标属性包括目标是否飞离视线之外、目标是否被遮挡、目标是否快速移动、目标是否存在尺度变化、目标是否处于不同的亮度模式、是否存在热交叉、是否存在目标低分辨率等;将每张图像标注的内容保存到一个json格式的文件内,每张图像的标准内容对应一个文件。多模态基准数据集被划分为训练集、验证集和测试集,上述三种数据集划分数目的比例为5:2:3,其中训练集和验证集来自同一视频的非重叠片段,测试集采用的视频片段与训练集和验证集均不相同且其包含的目标属性比训练集更多。多模态基准数据集中视频的内容为在空中飞行的单目标无人机,其无人机类型包含大、中、小三种类型无人机,如DJI-Inspire、DJI-Phantom4、DJI-Marvic-Air、DJI-Marvic-Pro、DJI-Spark和Parrot。图3为本发明的多模态数据集中所采集的无人机类型。为了增加无人机背景的多样性和目标检测的复杂性,在采集视频对数据时设计多种场景,包括目标飞离视线之外、目标被遮挡、目标快速移动、目标尺度变化、不同的亮度模式(白天和夜晚)、热交叉和目标低分辨率等。图4为本发明的多模态数据集中无人机的位置和尺度分布图;图5为本发明的多模态数据集中无人机存在的不同属性截图;图6为本发明的视频序列中不同属性的数量。
所述的目标被遮挡,是指目标被建筑物、云彩或树木等引起部分或全部遮挡。
所述的目标快速移动,是指目标在两个相邻帧之间移动的位置超过60个像素。
所述的目标尺度变化,是指视频图像中第一帧和视频图像中某一帧的目标边界框大小比率取值范围超过[0.66,1.5]。
所述的不同亮度模式,是指在采集视频数据时,存在白天和夜晚两种模式,白天模式目标区域亮度高,夜晚模式目标区域亮度低。
所述的热交叉,是指采用热红外的方式采集视频数据,采集的视频里存在目标温度和其他物体或者环境温度相接近的状况,导致目标不易区分。
所述的目标低分辨率,是指图像的目标边界框内目标像素的数目小于400。
对于多模态基准数据集,在采集时目标整体集中位于视频图像的中心区域,基于此标注完成的边界框也主要集中在图像的中心,其中的宽度为w、高度为h的无人机目标的尺度值s(w,h)的计算公式为:
依据所述的多模态基准数据集,对其中所有的无人机目标进行尺度值计算,设置无人机目标尺度值的上界和下界,根据无人机目标尺度值,对所有的无人机目标尺度值进行筛选,剔除目标尺度值大于上界或小于下界的无人机,以使训练集、验证集和测试集中的目标尺度值取值范围区间相似。在无人机目标跟踪过程中需要感知视频内无人机的存在状态,无人机的存在状态是指无人机是否存在以及标注的无人机边界框与其对应目标真值边界框之间的重叠面积,因此,需要计算无人机在视频图像内的存在状态的精度值SA(StateAccuracy):
式中,IOUt为t时刻正在被跟踪无人机目标被标注的边界框与其对应目标真值边界框之间的重叠度,T为该视频序列的总时长。vt为t时刻目标真值的存在标签值;pt为t时刻跟踪器对目标的预测值,其用于衡量目标状态的准确度。存在状态的精度值SA用于计算目标在每一个视频序列中存在状态的平均值。
S2,目标特征提取。由于不同的视频序列所包含的目标信息在帧前后存在相互关联,则跟踪器在训练过程中可以融合不同视频序列的特征。然而由于输入的可见光视频图像和红外视频图像大小不同,目标位置未对齐,不直接适用图像融合算法和权值共享的孪生网络算法,同时由于最初用于目标检测的RCNN算法结构上相对简单,因此可将其用作目标跟踪算法的主干网络。所述的目标特征,包括无人机目标尺寸、形状、位置等。目标特征提取采用RCNN算法来实现,其具体包括,采用双支路网络分别对存在于不同模态视频图像内的无人机目标进行特征提取,并充分利用两支路间跨不同视频序列的语义信息进行目标跟踪。每一批次将两个不同的视频序列输入双边流语义一致性跟踪网络,然后采用Alexnet网络对图像中的无人机目标进行特征学习。Alexnet网络的特征提取部分采用了5个卷积层、2个全连接层,其中每个卷积层都含有一个池化层,最后一个卷积层中的池化层采用的神经元个数为9216,2个全连接层的神经元个数皆为4096。通过该Alexnet网络网络的训练,每个输入的无人机目标都得到一个4096维的特征向量。
S3,类别级语义调制。该阶段主要用于寻找包含无人机目标的边界框,类似于目标检测中的锚点生成及目标框筛选问题。采用基于GlobalTrack目标跟踪模型的查询引导Region Proposal Network,RPN,的策略,该策略通过使用跨不同视频序列的特征查询方法来调制搜索的区域,输出ROI(Region Of Interest)特征,跨不同视频序列的特征查询过程表示为:
式中,zi表示第i个视频序列查询的ROI(Region Of Interest)特征,xj表示第j个视频序列经过Alexnet网络对图像提取到的搜索区域特征,视频序列经过Alexnet网络对图像提取到的搜索区域即为目标候选框,fC为基于zi和xj的不同组合来联合对视频序列内和跨视频序列进行特征调制的调制器函数。具有与图像特征xj相同的大小,表示用于生成候选信息的对第i和第j个视频序列的调制特征。fout为用于对齐和xj对应的图像通道特征的函数,fz和fx为分别作用于zi和xj来得到投射特征的函数,表示卷积操作。变量i和j的取值范围在0和批次总数n之间,当i和j不相等时,采用跨序列的图像调制法;当i和j相等时,采用的图像调制法为帧内序列相关方法,所述的帧内序列相关方法,其采用帧间差分法,对目标在时间上连续的五帧图像进行像素间的差分计算。在对双边流语义一致性跟踪网络进行训练过程中,针对类别级语义调制的分类和回归操作,采用的损失函数为:
其中,α是用于调整Lsame和Lcross之比的权重系数,Lsame为视频序列内调制后的PRN(Proposal Region Network)预测的损失函数,Lcross为跨序列调制后的RPN预测的损失函数,zj表示第j个视频序列查询的ROI(Region Of Interest)特征,xi表示第i个视频序列经过Alexnet网络对图像提取到的搜索区域特征,为调制特征时的RPN预测的损失函数。在对双边流语义一致性跟踪网络进行训练过程中,RPN预测的损失函数表示为:
其中,β为用于平衡类别级语义调制阶段分类操作和回归操作的损失函数的权值,Lcls(·)表示平衡类别级语义调制阶段分类操作的损失函数,Lreg(·)表示平衡类别级语义调制阶段回归操作的损失函数,su和分别表示对第u个目标预测的分类得分与对应目标真实值之间的分类得分,pu和分别为第u个目标候选框与对应真实目标的边界框位置,n0为目标总数,所述的候选框,是指对图像内的目标生成的所有锚点框进行筛选后输出的目标边界框。
S4,实例级语义调制。上一阶段已完成对无人机目标候选框的选择。在接下来的实例级语义调制阶段,主要关注与目标实例相关的信息,从而将目标实例和具有目标相似的外观信息或复杂背景的实例区分开来。当已经完成了对当前目标特征所属视频序列的查询进行设置后,目标的候选框用于优化分类的准确度及目标候选框与目标真值框间的距离差值。针对在类别级语义调制步骤中查询图像获得的ROI特征z和已选出的第k个目标候选框x′k,其在实例级语义阶段经过调制得到ROI特征的过程为:
其中,获取z的顺序与获取目标候选框的顺序相同。fI为用于将不同目标的实例信息调制为已选择的候选框的函数,fout′为用于将调制特征和候选框调整为相同维度变量的函数。fz′和fx′分别代表ROI特征和目标候选框的特征投射函数,⊙表示Hadamard积。
其中,sn′和sn″分别代表双边流语义一致性跟踪网络对第n个目标跟踪的置信度和对应目标真实值的置信度,pn′和pn″分别为第n个目标候选框及对应真实目标的边界框位置。
所述的特征提取模块用于完成步骤S2所述的目标特征提取,所述的类别级语义调制模块用于完成步骤S3所述的类别级语义调制,所述的实例级语义调制模块用于完成步骤S4所述的实例级语义调制。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (3)
1.一种用于跟踪无人机的双边流语义一致性方法,其特征在于,采用双边流语义一致性跟踪网络,简称跟踪器,来实现,双边流语义一致性跟踪网络包含特征提取模块、类别级语义调制模块、实例级语义调制模块,所述的三个模块依次连接,其具体步骤包括:
S1,构建用于训练和验证无人机跟踪性能的多模态基准数据集;采集若干个同时含有热红外和可见光的视频序列对;针对每个可见光和红外视频图像都进行无人机目标的边界框标注,再标注图像中的目标属性和无人机存在与否的标签,如果图像中存在目标,则该标签取值为1,否则该标签取值为0,目标属性包括目标是否飞离视线之外、目标是否被遮挡、目标是否快速移动、目标是否存在尺度变化、目标是否处于不同的亮度模式、是否存在热交叉、是否存在目标低分辨率;将每张图像标注的内容保存到一个json格式的文件内,每张图像的标准内容对应一个文件;多模态基准数据集被划分为训练集、验证集和测试集,上述三种数据集划分数目的比例为5:2:3,其中训练集和验证集来自同一视频的非重叠片段,测试集采用的视频片段与训练集和验证集均不相同且其包含的目标属性比训练集更多;多模态基准数据集中视频的内容为在空中飞行的单目标无人机;为了增加无人机背景的多样性和目标检测的复杂性,在采集视频对数据时设计多种场景,包括目标飞离视线之外、目标被遮挡、目标快速移动、目标尺度变化、不同的亮度模式、热交叉和目标低分辨率;
对于多模态基准数据集,其中的宽度为w、高度为h的无人机目标的尺度值s(w,h)的计算公式为:
依据所述的多模态基准数据集,对其中所有的无人机目标进行尺度值计算,设置无人机目标尺度值的上界和下界,根据无人机目标尺度值,对所有的无人机目标尺度值进行筛选,剔除目标尺度值大于上界或小于下界的无人机,以使训练集、验证集和测试集中的目标尺度值取值范围区间相似;在无人机目标跟踪过程中需要感知视频内无人机的存在状态,无人机的存在状态是指无人机是否存在以及标注的无人机边界框与其对应目标真值边界框之间的重叠面积,因此,需要计算无人机在视频图像内的存在状态的精度值SA:
式中,IOUt为t时刻正在被跟踪无人机目标被标注的边界框与其对应目标真值边界框之间的重叠度,T为该视频序列的总时长;vt为t时刻目标真值的存在标签值;pt为t时刻跟踪器对目标的预测值,其用于衡量目标状态的准确度;存在状态的精度值SA用于计算目标在每一个视频序列中存在状态的平均值;
S2,目标特征提取;所述的目标特征,包括无人机目标尺寸、形状、位置;目标特征提取采用RCNN算法来实现,其具体包括,采用双支路网络分别对存在于不同模态视频图像内的无人机目标进行特征提取,并充分利用两支路间跨不同视频序列的语义信息进行目标跟踪;每一批次将两个不同的视频序列输入双边流语义一致性跟踪网络,然后采用Alexnet网络对图像中的无人机目标进行特征学习;Alexnet网络的特征提取部分采用了5个卷积层、2个全连接层,其中每个卷积层都含有一个池化层,最后一个卷积层中的池化层采用的神经元个数为9216,2个全连接层的神经元个数皆为4096;通过该Alexnet网络网络的训练,每个输入的无人机目标都得到一个4096维的特征向量;
S3,类别级语义调制;采用基于GlobalTrack目标跟踪模型的查询引导RegionProposal Network,RPN,的策略,该策略通过使用跨不同视频序列的特征查询方法来调制搜索的区域,输出Region Of Interest特征,简称ROI特征,跨不同视频序列的特征查询过程表示为:
式中,zi表示第i个视频序列查询的ROI特征,xj表示第j个视频序列经过Alexnet网络对图像提取到的搜索区域特征,视频序列经过Alexnet网络对图像提取到的搜索区域即为目标候选框,fC为基于zi和xj的不同组合来联合对视频序列内和跨视频序列进行特征调制的调制器函数;具有与图像特征xj相同的大小,表示用于生成候选信息的对第i和第j个视频序列的调制特征;fout为用于对齐和xj对应的图像通道特征的函数,fz和fx为分别作用于zi和xj来得到投射特征的函数,表示卷积操作;变量i和j的取值范围在0和批次总数n之间,当i和j不相等时,采用跨序列的图像调制法;当i和j相等时,采用的图像调制法为帧内序列相关方法;在对双边流语义一致性跟踪网络进行训练过程中,针对类别级语义调制的分类和回归操作,采用的损失函数为:
其中,α是用于调整Lsame和Lcross之比的权重系数,Lsame为视频序列内调制后的ProposalRegion Network预测的损失函数,Proposal Region Network预测简称PRN预测,Lcross为跨序列调制后的RPN预测的损失函数,zj表示第j个视频序列查询的ROI特征,xi表示第i个视频序列经过Alexnet网络对图像提取到的搜索区域特征,为调制特征时的RPN预测的损失函数;在对双边流语义一致性跟踪网络进行训练过程中,RPN预测的损失函数表示为:
其中,β为用于平衡类别级语义调制阶段分类操作和回归操作的损失函数的权值,Lcls(·)表示平衡类别级语义调制阶段分类操作的损失函数,Lreg(·)表示平衡类别级语义调制阶段回归操作的损失函数,su和分别表示对第u个目标预测的分类得分与对应目标真实值之间的分类得分,pu和分别为第u个目标候选框与对应真实目标的边界框位置,n0为目标总数,所述的候选框,是指对图像内的目标生成的所有锚点框进行筛选后输出的目标边界框;
S4,实例级语义调制;当已经完成了对当前目标特征所属视频序列的查询进行设置后,目标的候选框用于优化分类的准确度及目标候选框与目标真值框间的距离差值;针对在类别级语义调制步骤中查询图像获得的ROI特征z和已选出的第k个目标候选框x′k,其在实例级语义阶段经过调制得到ROI特征的过程为:
其中,获取z的顺序与获取目标候选框的顺序相同;fI为用于将不同目标的实例信息调制为已选择的候选框的函数,fout′为用于将调制特征和候选框调整为相同维度变量的函数;fz′和fx′分别代表ROI特征和目标候选框的特征投射函数,⊙表示Hadamard积;
其中,sn′和sn″分别代表双边流语义一致性跟踪网络对第n个目标跟踪的置信度和对应目标真实值的置信度,pn′和pn″分别为第n个目标候选框及对应真实目标的边界框位置;
所述的特征提取模块用于完成步骤S2所述的目标特征提取,所述的类别级语义调制模块用于完成步骤S3所述的类别级语义调制,所述的实例级语义调制模块用于完成步骤S4所述的实例级语义调制。
2.如权利要求1所述的用于跟踪无人机的双边流语义一致性方法,其特征在于,步骤S1中,
所述的目标被遮挡,是指目标被建筑物、云彩或树木引起部分或全部遮挡;
所述的目标快速移动,是指目标在两个相邻帧之间移动的位置超过60个像素;
所述的目标尺度变化,是指视频图像中第一帧和视频图像中某一帧的目标边界框大小比率取值范围超过[0.66,1.5];
所述的不同亮度模式,是指在采集视频数据时,存在白天和夜晚两种模式,白天模式目标区域亮度高,夜晚模式目标区域亮度低;
所述的热交叉,是指采用热红外的方式采集视频数据,采集的视频里存在目标温度和其他物体或者环境温度相接近的状况,导致目标不易区分;
所述的目标低分辨率,是指图像的目标边界框内目标像素的数目小于400。
3.如权利要求1所述的用于跟踪无人机的双边流语义一致性方法,其特征在于,步骤S3中,所述的帧内序列相关方法,其采用帧间差分法,对目标在时间上连续的五帧图像进行像素间的差分计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110437098.7A CN113240708B (zh) | 2021-04-22 | 2021-04-22 | 一种用于跟踪无人机的双边流语义一致性方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110437098.7A CN113240708B (zh) | 2021-04-22 | 2021-04-22 | 一种用于跟踪无人机的双边流语义一致性方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113240708A true CN113240708A (zh) | 2021-08-10 |
CN113240708B CN113240708B (zh) | 2022-03-25 |
Family
ID=77129639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110437098.7A Active CN113240708B (zh) | 2021-04-22 | 2021-04-22 | 一种用于跟踪无人机的双边流语义一致性方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113240708B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109816695A (zh) * | 2019-01-31 | 2019-05-28 | 中国人民解放军国防科技大学 | 一种复杂背景下的红外小型无人机目标检测与跟踪方法 |
CN111179314A (zh) * | 2019-12-30 | 2020-05-19 | 北京工业大学 | 一种基于残差密集孪生网络的目标跟踪方法 |
US20200167586A1 (en) * | 2018-11-26 | 2020-05-28 | Shanghai United Imaging Intelligence Co., Ltd. | Systems and methods for detecting region of interset in image |
CN111310631A (zh) * | 2020-02-10 | 2020-06-19 | 湖南大学 | 一种旋翼作业飞行机器人目标跟踪方法及系统 |
CN112215080A (zh) * | 2020-09-16 | 2021-01-12 | 电子科技大学 | 一种利用时序信息的目标跟踪方法 |
CN112419368A (zh) * | 2020-12-03 | 2021-02-26 | 腾讯科技(深圳)有限公司 | 运动目标的轨迹跟踪方法、装置、设备及存储介质 |
-
2021
- 2021-04-22 CN CN202110437098.7A patent/CN113240708B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200167586A1 (en) * | 2018-11-26 | 2020-05-28 | Shanghai United Imaging Intelligence Co., Ltd. | Systems and methods for detecting region of interset in image |
CN109816695A (zh) * | 2019-01-31 | 2019-05-28 | 中国人民解放军国防科技大学 | 一种复杂背景下的红外小型无人机目标检测与跟踪方法 |
CN111179314A (zh) * | 2019-12-30 | 2020-05-19 | 北京工业大学 | 一种基于残差密集孪生网络的目标跟踪方法 |
CN111310631A (zh) * | 2020-02-10 | 2020-06-19 | 湖南大学 | 一种旋翼作业飞行机器人目标跟踪方法及系统 |
CN112215080A (zh) * | 2020-09-16 | 2021-01-12 | 电子科技大学 | 一种利用时序信息的目标跟踪方法 |
CN112419368A (zh) * | 2020-12-03 | 2021-02-26 | 腾讯科技(深圳)有限公司 | 运动目标的轨迹跟踪方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
ARGHYA P. SAIKIA THENGAL,AND ETC: "Parameter sensing and object tracking using global positioning system", 《2016 SIXTH INTERNATIONAL SYMPOSIUM ON EMBEDDED COMPUTING AND SYSTEM DESIGN (ISED)》 * |
裴伟等: "改进的SSD航拍目标检测方法", 《软件学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113240708B (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113449680B (zh) | 一种基于知识蒸馏的多模小目标检测方法 | |
Wu et al. | Deep learning for unmanned aerial vehicle-based object detection and tracking: A survey | |
Mou et al. | A relation-augmented fully convolutional network for semantic segmentation in aerial scenes | |
Neubert et al. | Appearance change prediction for long-term navigation across seasons | |
Liu et al. | Multi-channel CNN-based object detection for enhanced situation awareness | |
Wang et al. | YOLOv3-MT: A YOLOv3 using multi-target tracking for vehicle visual detection | |
CN103679674B (zh) | 一种无人飞行器实时图像拼接方法及系统 | |
CN110633632A (zh) | 一种基于循环指导的弱监督联合目标检测和语义分割方法 | |
Huang et al. | Spatial-temproal based lane detection using deep learning | |
Kim et al. | Season-invariant semantic segmentation with a deep multimodal network | |
CN110569779A (zh) | 基于行人局部和整体属性联合学习的行人属性识别方法 | |
CN115512251A (zh) | 基于双分支渐进式特征增强的无人机低照度目标跟踪方法 | |
CN110532937A (zh) | 基于识别模型与分类模型进行列车前向目标精准识别的方法 | |
CN117011722A (zh) | 基于无人机实时监控视频的车牌识别方法及装置 | |
CN113052108A (zh) | 基于深度神经网络的多尺度级联航拍目标检测方法和系统 | |
Cheng et al. | SLBAF-Net: Super-Lightweight bimodal adaptive fusion network for UAV detection in low recognition environment | |
Zhang et al. | Boosting transferability of physical attack against detectors by redistributing separable attention | |
CN116580324A (zh) | 一种基于YOLOv5的无人机对地目标检测方法 | |
CN111898427A (zh) | 一种基于特征融合深度神经网络的多光谱行人检测方法 | |
Shao et al. | Style alignment-based dynamic observation method for UAV-view geo-localization | |
CN117333807A (zh) | 空地一体化无人机群云边协同目标锁定系统 | |
CN117710874A (zh) | 目标区域的火灾识别方法、装置、设备及存储介质 | |
CN113240708B (zh) | 一种用于跟踪无人机的双边流语义一致性方法 | |
Wu et al. | Real-time vehicle color recognition based on yolo9000 | |
WO2024197762A1 (zh) | 基于目标感知融合策略的rgb-t多光谱行人检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |