CN117635664A - 无人机视频的单目标跟踪方法、装置、电子设备及存储介质 - Google Patents
无人机视频的单目标跟踪方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117635664A CN117635664A CN202311747149.1A CN202311747149A CN117635664A CN 117635664 A CN117635664 A CN 117635664A CN 202311747149 A CN202311747149 A CN 202311747149A CN 117635664 A CN117635664 A CN 117635664A
- Authority
- CN
- China
- Prior art keywords
- target
- network
- aerial vehicle
- unmanned aerial
- target tracking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000001514 detection method Methods 0.000 claims abstract description 52
- 238000012360 testing method Methods 0.000 claims description 19
- 238000004891 communication Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000005286 illumination Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种无人机视频的单目标跟踪方法、装置、电子设备及存储介质,涉及计算机视觉技术领域,该方法包括:获取第一无人机视频序列;将第一无人机视频序列分别输入预先训练好的用于进行目标跟踪的主网络、辅助网络和目标检测跟踪器,目标检测跟踪器为SiamRCNN网络;针对第一无人机视频序列中的每个第一视频帧,获得主网络输出的目标位置信息和得分、辅助网络输出的目标位置信息和得分,以及目标检测跟踪器输出的目标位置信息,并结合主网络的预设阈值以及辅助网络的预设阈值,确定目标在所有第一视频帧中的位置,得到目标跟踪结果。本发明可在主网络和辅助网络丢失目标时快速找回目标,该方法鲁棒性好,跟踪结果较为准确。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种无人机视频的单目标跟踪方法、装置、电子设备及存储介质。
背景技术
无人机视觉追踪是无人机监测的关键技术,可用于定位目标跟踪、环境监测以及指导无人机自主飞行系统等。单目标跟踪是选取某一感兴趣的目标并对其进行跟踪,获取其实时的动态。然而,无人机视频航拍场景复杂,再加上运动目标自身的不断变化,使得无人机航拍视频的目标跟踪成为具有挑战性的任务。
单目标跟踪深度神经网络框架往往是通过对第一帧输入进行特征提取,对待跟踪目标的特征进行初始化,构建目标模型,然后对当前帧进行特征提取,并与第一帧中跟踪目标的特征进行相似性判断,最后输出跟踪目标在当前帧中的位置估计。然而,在无人机自身抖动、目标自身变化剧烈或者被遮挡时容易产生跟踪漂移。当目标丢失时,如何找回目标是当前目标跟踪的一大研究热点。
现有技术中存在一种基于检测器和跟踪器相结合的无人机目标跟踪方法,该方法利用图像检测器检测到目标位置后,把目标位置提供给跟踪器,跟踪器在得到位置的定时更新后连续、快速的追踪目标,最后把位置信息反馈给无人机系统。该方法虽然结合了检测器与跟踪器,但结合的检测机制主要是对于无人机实时获取的图像进行缩放后送入检测器进行检测,得到目标窗口的位置,在检测过程中,利用非最大极值抑制算法消除重叠的目标。该方式虽然在某种程度上可以提高整体的跟踪精度,但是容易受到相似物体的干扰。
此外,现有技术中还有一种基于多重网络的单目标跟踪方法,该方法将模板图像和待搜索图像输入外观子网和语义子网,分别获得模板图像和待搜索图像的低层外观特征和高层语义特征,并进行特征融合,分别得到模板图像和待搜索图像的融合特征图;然后,基于模板图像和待搜索图像的融合特征图,使用相似性判别方法得到最终响应图。该方法利用不同的外观子网和语义子网两种网络进行特征融合后对目标进行跟踪,但是,当目标遮挡或者消失的时候,目标容易丢失。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种无人机视频的单目标跟踪方法。本发明要解决的技术问题通过以下技术方案实现:
第一方面,本发明提供一种无人机视频的单目标跟踪方法,包括:
获取第一无人机视频序列,所述第一无人机视频序列包括多个第一视频帧;
将所述第一无人机视频序列分别输入预先训练好的用于进行目标跟踪的主网络、辅助网络和目标检测跟踪器,所述目标检测跟踪器为SiamRCNN网络;
针对所述第一无人机视频序列中的每个第一视频帧,获得所述主网络输出的目标位置信息和得分、所述辅助网络输出的目标位置信息和得分,以及所述目标检测跟踪器输出的目标位置信息;
根据所述主网络和所述辅助网络针对每个第一视频帧输出的目标位置信息和得分、所述主网络的预设阈值、所述辅助网络的预设阈值以及所述目标检测跟踪器输出的目标位置信息,确定目标在所有第一视频帧中的位置,得到目标跟踪结果。
在本发明的一个实施例中,所述主网络的预设阈值和所述辅助网络的预设阈值按照如下步骤确定:
获取数据集,所述数据集包括多个测试样本,每个所述测试样本包括多个第二无人机视频序列以及每个第二无人机视频序列中逐个第二视频帧的目标位置标签;
对所述测试样本进行数据增强,获得预处理后的测试样本;
将预处理后的测试样本分别输入多个预先训练好的目标跟踪模型,得到每个目标跟踪模型输出的目标预测位置和预测得分;
以所述第二无人机视频序列的帧数为横轴、预测得分为纵轴,分别绘制各个目标跟踪模型对应的预测得分曲线图;
以所述第二无人机视频序列的帧数为横轴、目标预测位置与目标位置标签的交并比IoU为纵轴,分别绘制各个目标跟踪模型对应的IoU曲线图;
根据所述预测得分曲线图,选取跟踪效果最优的目标跟踪模型为主网络,选取其它目标跟踪模型为辅助网络;
根据所述IoU曲线图,分别确定所述主网络的预设阈值以及所述辅助网络的预设阈值。
在本发明的一个实施例中,根据所述IoU曲线图,分别确定所述主网络的预设阈值以及所述辅助网络的预设阈值的步骤,包括:
获取所述主网络对应的IoU曲线,设置使主网络的性能满足要求的预设阈值;
分别获取各个辅助网络对应的IoU曲线,计算IoU大于0.5的所有第二视频帧的IoU均值,得到各个辅助网络的预设阈值。
在本发明的一个实施例中,所述主网络为第一目标跟踪模型,所述辅助网络包括第二目标跟踪模型和第三目标跟踪模型,所述第一目标跟踪模型的预设阈值α为0.5。
在本发明的一个实施例中,所述第一目标跟踪模型为Dimp网络、所述第二目标跟踪模型为ATOM网络、所述第三目标为SiamRPN++网络。
在本发明的一个实施例中,针对所述第一无人机视频序列中的每个第一视频帧,获得所述主网络输出的目标位置信息和得分、所述辅助网络输出的目标位置信息和得分,以及所述目标检测跟踪器输出的目标位置信息的步骤,包括:
针对所述第一无人机视频序列中的每个第一视频帧,获得第一目标跟踪模型输出的第一目标位置信息和第一得分、第二目标跟踪模型输出的第二目标位置信息和第二得分、第三目标跟踪模型输出的第三目标位置信息和第三得分,以及所述目标检测跟踪器输出的第四目标位置信息。
在本发明的一个实施例中,根据所述主网络和所述辅助网络针对每个第一视频帧输出的目标位置信息和得分、所述主网络的预设阈值、所述辅助网络的预设阈值以及所述目标检测跟踪器输出的目标位置信息,确定目标在所有第一视频帧中的位置,得到目标跟踪结果的步骤,包括:
针对每个第一视频帧,比较其对应的所述第一得分与所述第一目标跟踪模型的预设阈值α;
当所述第一得分大于所述预设阈值α时,则根据第一目标位置信息确定目标在该第一视频帧中的位置;反之,则比较该第一视频帧对应的所述第二得分与第二目标跟踪模型的预设阈值β以及所述第三得分与第三目标跟踪模型的预设阈值θ;
当该第一视频帧对应的所述第二得分大于预设阈值β且大于预设阈值θ时,进一步比较第二得分与第三得分,并根据较高的得分对应的第二目标位置信息或第三目标位置信息确定目标在该第一视频帧中的位置;反之,则根据所述第四目标跟踪模型输出的第四目标位置信息确定目标在该第一视频帧中的位置;
直至遍历所有第一视频帧后,获得第一无人机视频序列的目标跟踪结果。
第二方面,本发明提供一种无人机视频的单目标跟踪装置,包括:
获取模块,用于获取第一无人机视频序列,所述第一无人机视频序列包括多个第一视频帧;
输入模块,用于将所述第一无人机视频序列分别输入预先训练好的用于进行目标跟踪的主网络、辅助网络和目标检测跟踪器,所述目标检测跟踪器为SiamRCNN网络;
输出模块,用于针对所述第一无人机视频序列中的每个第一视频帧,获得所述主网络输出的目标位置信息和得分、所述辅助网络输出的目标位置信息和得分,以及所述目标检测跟踪器输出的目标位置信息;
确定模块,用于根据所述主网络和所述辅助网络针对每个第一视频帧输出的目标位置信息和得分、所述主网络的预设阈值、所述辅助网络的预设阈值以及所述目标检测跟踪器输出的目标位置信息,确定目标在所有第一视频帧中的位置,得到目标跟踪结果。
第三方面,本发明提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面所述的方法步骤。
第四方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
与现有技术相比,本发明的有益效果在于:
本发明提供一种无人机视频的单目标跟踪方法、装置、电子设备及存储介质,该方法基于多重网络包括主网络、辅助网络和目标检测跟踪器实现单目标跟踪,由于目标检测跟踪器为SiamRCNN网络,这是一种基于检测器的跟踪器,因此可在主网络和辅助网络丢失目标时快速找回目标,该方法鲁棒性好,跟踪结果较为准确。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1是本发明实施例提供的无人机视频的单目标跟踪方法的一种流程图;
图2是本发明实施例提供的确定目标跟踪模型的预设阈值的一种流程图;
图3是本发明实施例提供的无人机视频的单目标跟踪方法的另一种流程图;
图4是本发明实施例提供的无人机视频的单目标跟踪装置的一种结构示意图;
图5是本发明实施例提供的电子设备的一种结构示意图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
图1是本发明实施例提供的无人机视频的单目标跟踪方法的一种流程图。
如图1所示,本发明实施例提供一种无人机视频的单目标跟踪方法,包括:
S101、获取第一无人机视频序列,第一无人机视频序列包括多个第一视频帧;
S102、将第一无人机视频序列分别输入预先训练好的用于进行目标跟踪的主网络、辅助网络和目标检测跟踪器,目标检测跟踪器为SiamRCNN网络;
S103、针对第一无人机视频序列中的每个第一视频帧,获得主网络输出的目标位置信息和得分、辅助网络输出的目标位置信息和得分,以及目标检测跟踪器输出的目标位置信息;
S104、根据主网络和辅助网络针对每个第一视频帧输出的目标位置信息和得分、主网络的预设阈值、辅助网络的预设阈值以及目标检测跟踪器输出的目标位置信息,确定目标在所有第一视频帧中的位置,得到目标跟踪结果。
本实施例中,在将第一无人机视频序列输入主网络、辅助网络和目标跟踪起之前,可以对其进行预处理如数据增强,具体地,采用系数截断法对第一视频帧进行增强,设置增强因子Ω=1.5,将第一视频帧的最大像素值记作max,那么将第一视频帧的像素值×Ω,然后将255~max×Ω之间的像素值置为255,这样可以增强图像中光线较暗的部分的光照,有效改善低光照场景,防止目标跟踪模型的预测结果受到光照影响。
本实施例利用多种单目标跟踪网络进行目标跟踪,各个单目标跟踪网络输出的结果需要基于自身阈值、以一定的知识规则加以融合。
为了确定主网络和辅助网络的预设阈值,本实施例预先利用训练集对上述多个目标跟踪网络进行测试和验证,进一步基于数据集自带的目标位置标签以及目标预测位置选取合适的阈值。
图2是本发明实施例提供的确定目标跟踪模型的预设阈值的一种流程图。可选地,如图2所示,主网络的预设阈值和辅助网络的预设阈值可以按照如下步骤确定:
S201、获取数据集,数据集包括多个测试样本,每个测试样本包括多个第二无人机视频序列以及每个第二无人机视频序列中逐个第二视频帧的目标位置标签;
S202、对测试样本进行数据增强,获得预处理后的测试样本;
S203、将预处理后的测试样本分别输入多个预先训练好的目标跟踪模型,得到每个目标跟踪模型输出的目标预测位置和预测得分;
S204、以第二无人机视频序列的帧数为横轴、预测得分为纵轴,分别绘制各个目标跟踪模型对应的预测得分曲线图;
S205、以第二无人机视频序列的帧数为横轴、目标预测位置与目标位置标签的交并比IoU为纵轴,分别绘制各个目标跟踪模型对应的IoU曲线图;
S206、根据预测得分曲线图,选取跟踪效果最优的目标跟踪模型为主网络,选取其它目标跟踪模型为辅助网络;
S207、根据IoU曲线图,分别确定主网络的预设阈值以及辅助网络的预设阈值。
具体而言,获取数据集VisDrone 2020,数据集包含167个第二无人机视频序列即测试样本,涵盖了具有遮挡、低光照、镜头晃动等不同情况的复杂场景,每个测试样本还包括第二无人机视频序列中每个第二视频帧的目标位置标签(x,y,w,h),x、y分别表示第二无人机视频序列中目标中心点的坐标,w、h分别表示第二视频帧中目标中心点在水平方向和竖直方向上与目标框的距离。类似地,在将第二无人机视频序列输入各个目标跟踪模型之前,也可以先对其进行数据增强以改善低光照。
步骤S203中,将经过数据增强处理的第二视频序列分别输入每个目标跟踪模型,以使每个目标跟踪模型输出目标预测位置和预测得分,然后分别绘制各目标跟踪模型对应的预测得分曲线图、IoU曲线图。
具体地,步骤S206中,根据IoU曲线图,分别确定主网络的预设阈值以及辅助网络的预设阈值的的步骤,包括:
获取主网络对应的IoU曲线,设置使主网络的性能满足要求的预设阈值;
分别获取各个辅助网络对应的IoU曲线,计算IoU大于0.5的所有第二视频帧的IoU均值,得到各个辅助网络的预设阈值。
以主网络包括第一目标跟踪模型、辅助网络包括第二目标跟踪模型和第三目标跟踪模型为例,将预处理后的测试样本分别输入第一目标跟踪模型、第二目标跟踪模型和第三目标跟踪模型,得到第一目标跟踪模型输出的第一目标预测位置和第一预测得分、第二目标跟踪模型输出的第二目标预测位置和第二预测得分,以及第三目标跟踪模型输出的第三目标预测位置和第三预测得分。接着,以第二视频帧的帧数为横轴、预测得分为纵轴,分别绘制第一、第二、第三目标跟踪模型对应的预测得分曲线图,再以第二视频帧的帧数为横轴、目标预测位置与目标位置标签的交并比IoU为纵轴,分别绘制第一、第二、第三目标跟踪模型对应的IoU曲线图。通过观预测得分曲线图,选取得分最高、性能最优的目标跟踪模型如第一目标跟踪模型为主网络,则第二目标跟踪模型与第三目标跟踪模型为辅助网络。
进一步地,获取主网络对应的IoU曲线,设置使第一目标跟踪模型的性能满足要求的预设阈值α,如α=0.5,然后根据第二目标跟踪模型对应的IoU曲线图,计算IoU大于0.5的所有第二视频帧的IoU均值,得到第二目标跟踪模型的预设阈值β,最后根据第三目标跟踪模型对应的IoU曲线图,计算IoU大于0.5的所有第二视频帧的IoU均值,得到第三目标跟踪模型的预设阈值θ。
需要说明的是,第一目标跟踪模型可选择性使用Dimp网络、第二目标跟踪模型可选择性使用ATOM网络、第三目标可选择性使用SiamRPN++网络,当然,在本申请的其他实施例中,也可以选取其它网络实现单目标跟踪,本申请对此不作限定。
应当理解,与Dimp网络、ATOM网络和SiamRPN++网络相比,SiamRCNN通过引入目标检测跟踪器,可以在视频序列中实时、连续地跟踪目标,并在目标出现遮挡、快速运动或外观变化的情况下保持稳定的跟踪性能;由于SiamRCNN是通过目标跟踪的引导,在目标跟踪的基础上进行目标检测,因此有利于提供更准确的目标边界框和类别预测。相比传统的目标检测算法,SiamRCNN减少了对整个图像进行检测的计算量,提高了检测的效率。SiamRCNN还具有良好的鲁棒性,能够适应不同目标的外观变化、尺度变化和姿态变化,这使得它在复杂的场景中具有较强的适应能力。可见,SiamRCNN在目标跟踪和目标检测领域融合了两种技术的优势,具有强大的跟踪能力、高效的检测性能、鲁棒性和实时性,并具有良好的可扩展性,与纯粹的目标检测跟踪器相比,较容易找到丢失目标。
仍以主网络包括第一目标跟踪模型、辅助网络包括第二目标跟踪模型和第三目标跟踪模型为例,步骤S103中,针对第一无人机视频序列中的每个第一视频帧,获得主网络输出的目标位置信息和得分、辅助网络输出的目标位置信息和得分,以及目标检测跟踪器输出的目标位置信息的步骤,包括:
针对第一无人机视频序列中的每个第一视频帧,获得第一目标跟踪模型输出的第一目标位置信息和第一得分、第二目标跟踪模型输出的第二目标位置信息和第二得分、第三目标跟踪模型输出的第三目标位置信息和第三得分,以及目标检测跟踪器输出的第四目标位置信息。
图3是本发明实施例提供的无人机视频的单目标跟踪方法的另一种流程图。如图3所示,步骤S104中,根据主网络和辅助网络针对每个第一视频帧输出的目标位置信息和得分、主网络的预设阈值、辅助网络的预设阈值以及目标检测跟踪器输出的目标位置信息,确定目标在所有第一视频帧中的位置,得到目标跟踪结果的步骤,包括:
针对每个第一视频帧,比较其对应的第一得分与第一目标跟踪模型的预设阈值α;
当第一得分大于预设阈值α时,则根据第一目标位置信息确定目标在该第一视频帧中的位置;反之,则比较该第一视频帧对应的第二得分与第二目标跟踪模型的预设阈值β以及第三得分与第三目标跟踪模型的预设阈值θ;
当该第一视频帧对应的第二得分大于预设阈值β且大于预设阈值θ时,进一步比较第二得分与第三得分,并根据较高的得分对应的第二目标位置信息或第三目标位置信息确定目标在该第一视频帧中的位置;反之,则表示第一目标跟踪模型、第二目标跟踪模型和第三目标跟踪模型丢失目标,因此根据第四目标跟踪模型输出的第四目标位置信息确定目标在该第一视频帧中的位置;
直至遍历所有第一视频帧后,获得第一无人机视频序列的目标跟踪结果。
图4是本发明实施例提供的无人机视频的单目标跟踪装置的一种结构示意图。如图4所示,本发明实施例还提供一种无人机视频的单目标跟踪装置,包括:
获取模块410,用于获取第一无人机视频序列,第一无人机视频序列包括多个第一视频帧;
输入模块420,用于将第一无人机视频序列分别输入预先训练好的用于进行目标跟踪的主网络、辅助网络和目标检测跟踪器,目标检测跟踪器为SiamRCNN网络;
输出模块430,用于针对第一无人机视频序列中的每个第一视频帧,获得主网络输出的目标位置信息和得分、辅助网络输出的目标位置信息和得分,以及目标检测跟踪器输出的目标位置信息;
确定模块440,用于根据主网络和辅助网络针对每个第一视频帧输出的目标位置信息和得分、主网络的预设阈值、辅助网络的预设阈值以及目标检测跟踪器输出的目标位置信息,确定目标在所有第一视频帧中的位置,得到目标跟踪结果。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现如下步骤:
获取第一无人机视频序列,所述第一无人机视频序列包括多个第一视频帧;
将所述第一无人机视频序列分别输入预先训练好的用于进行目标跟踪的主网络、辅助网络和目标检测跟踪器,所述目标检测跟踪器为SiamRCNN网络;
针对所述第一无人机视频序列中的每个第一视频帧,获得所述主网络输出的目标位置信息和得分、所述辅助网络输出的目标位置信息和得分,以及所述目标检测跟踪器输出的目标位置信息;
根据所述主网络和所述辅助网络针对每个第一视频帧输出的目标位置信息和得分、所述主网络的预设阈值、所述辅助网络的预设阈值以及所述目标检测跟踪器输出的目标位置信息,确定目标在所有第一视频帧中的位置,得到目标跟踪结果。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例提供的方法可以应用于电子设备。具体的,该电子设备可以为:台式计算机、便携式计算机、智能移动终端、服务器等。在此不作限定,任何可以实现本发明的电子设备,均属于本发明的保护范围。
对于装置/电子设备/存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,本发明实施例的装置、电子设备及存储介质分别是应用上述无人机视频的单目标跟踪方法的装置、电子设备及存储介质,则上述无人机视频的单目标跟踪方法的所有实施例均适用于该装置、电子设备及存储介质,且均能达到相同或相似的有益效果。
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
本领域技术人员应明白,本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式,这里将它们都统称为“模块”或“系统”。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机程序存储/分布在合适的介质中,与其它硬件一起提供或作为硬件的一部分,也可以采用其他分布形式,如通过Internet或其它有线或无线电信系统。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种无人机视频的单目标跟踪方法,其特征在于,包括:
获取第一无人机视频序列,所述第一无人机视频序列包括多个第一视频帧;
将所述第一无人机视频序列分别输入预先训练好的用于进行目标跟踪的主网络、辅助网络和目标检测跟踪器,所述目标检测跟踪器为SiamRCNN网络;
针对所述第一无人机视频序列中的每个第一视频帧,获得所述主网络输出的目标位置信息和得分、所述辅助网络输出的目标位置信息和得分,以及所述目标检测跟踪器输出的目标位置信息;
根据所述主网络和所述辅助网络针对每个第一视频帧输出的目标位置信息和得分、所述主网络的预设阈值、所述辅助网络的预设阈值以及所述目标检测跟踪器输出的目标位置信息,确定目标在所有第一视频帧中的位置,得到目标跟踪结果。
2.根据权利要求1所述的无人机视频的单目标跟踪方法,其特征在于,所述主网络的预设阈值和所述辅助网络的预设阈值按照如下步骤确定:
获取数据集,所述数据集包括多个测试样本,每个所述测试样本包括多个第二无人机视频序列以及每个第二无人机视频序列中逐个第二视频帧的目标位置标签;
对所述测试样本进行数据增强,获得预处理后的测试样本;
将预处理后的测试样本分别输入多个预先训练好的目标跟踪模型,得到每个目标跟踪模型输出的目标预测位置和预测得分;
以所述第二无人机视频序列的帧数为横轴、预测得分为纵轴,分别绘制各个目标跟踪模型对应的预测得分曲线图;
以所述第二无人机视频序列的帧数为横轴、目标预测位置与目标位置标签的交并比IoU为纵轴,分别绘制各个目标跟踪模型对应的IoU曲线图;
根据所述预测得分曲线图,选取跟踪效果最优的目标跟踪模型为主网络,选取其它目标跟踪模型为辅助网络;
根据所述IoU曲线图,分别确定所述主网络的预设阈值以及所述辅助网络的预设阈值。
3.根据权利要求2所述的无人机视频的单目标跟踪方法,其特征在于,根据所述IoU曲线图,分别确定所述主网络的预设阈值以及所述辅助网络的预设阈值的步骤,包括:
获取所述主网络对应的IoU曲线,设置使主网络的性能满足要求的预设阈值;
分别获取各个辅助网络对应的IoU曲线,计算IoU大于0.5的所有第二视频帧的IoU均值,得到各个辅助网络的预设阈值。
4.根据权利要求3所述的无人机视频的单目标跟踪方法,其特征在于,所述主网络为第一目标跟踪模型,所述辅助网络包括第二目标跟踪模型和第三目标跟踪模型,所述第一目标跟踪模型的预设阈值α为0.5。
5.根据权利要求4所述的无人机视频的单目标跟踪方法,其特征在于,所述第一目标跟踪模型为Dimp网络、所述第二目标跟踪模型为ATOM网络、所述第三目标为SiamRPN++网络。
6.根据权利要求5所述的无人机视频的单目标跟踪方法,其特征在于,针对所述第一无人机视频序列中的每个第一视频帧,获得所述主网络输出的目标位置信息和得分、所述辅助网络输出的目标位置信息和得分,以及所述目标检测跟踪器输出的目标位置信息的步骤,包括:
针对所述第一无人机视频序列中的每个第一视频帧,获得第一目标跟踪模型输出的第一目标位置信息和第一得分、第二目标跟踪模型输出的第二目标位置信息和第二得分、第三目标跟踪模型输出的第三目标位置信息和第三得分,以及所述目标检测跟踪器输出的第四目标位置信息。
7.根据权利要求6所述的无人机视频的单目标跟踪方法,其特征在于,根据所述主网络和所述辅助网络针对每个第一视频帧输出的目标位置信息和得分、所述主网络的预设阈值、所述辅助网络的预设阈值以及所述目标检测跟踪器输出的目标位置信息,确定目标在所有第一视频帧中的位置,得到目标跟踪结果的步骤,包括:
针对每个第一视频帧,比较其对应的所述第一得分与所述第一目标跟踪模型的预设阈值α;
当所述第一得分大于所述预设阈值α时,则根据第一目标位置信息确定目标在该第一视频帧中的位置;反之,则比较该第一视频帧对应的所述第二得分与第二目标跟踪模型的预设阈值β以及所述第三得分与第三目标跟踪模型的预设阈值θ;
当该第一视频帧对应的所述第二得分大于预设阈值β且大于预设阈值θ时,进一步比较第二得分与第三得分,并根据较高的得分对应的第二目标位置信息或第三目标位置信息确定目标在该第一视频帧中的位置;反之,则根据所述第四目标跟踪模型输出的第四目标位置信息确定目标在该第一视频帧中的位置;
直至遍历所有第一视频帧后,获得第一无人机视频序列的目标跟踪结果。
8.一种无人机视频的单目标跟踪装置,其特征在于,包括:
获取模块,用于获取第一无人机视频序列,所述第一无人机视频序列包括多个第一视频帧;
输入模块,用于将所述第一无人机视频序列分别输入预先训练好的用于进行目标跟踪的主网络、辅助网络和目标检测跟踪器,所述目标检测跟踪器为SiamRCNN网络;
输出模块,用于针对所述第一无人机视频序列中的每个第一视频帧,获得所述主网络输出的目标位置信息和得分、所述辅助网络输出的目标位置信息和得分,以及所述目标检测跟踪器输出的目标位置信息;
确定模块,用于根据所述主网络和所述辅助网络针对每个第一视频帧输出的目标位置信息和得分、所述主网络的预设阈值、所述辅助网络的预设阈值以及所述目标检测跟踪器输出的目标位置信息,确定目标在所有第一视频帧中的位置,得到目标跟踪结果。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311747149.1A CN117635664A (zh) | 2023-12-18 | 2023-12-18 | 无人机视频的单目标跟踪方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311747149.1A CN117635664A (zh) | 2023-12-18 | 2023-12-18 | 无人机视频的单目标跟踪方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117635664A true CN117635664A (zh) | 2024-03-01 |
Family
ID=90019935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311747149.1A Pending CN117635664A (zh) | 2023-12-18 | 2023-12-18 | 无人机视频的单目标跟踪方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117635664A (zh) |
-
2023
- 2023-12-18 CN CN202311747149.1A patent/CN117635664A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108985259B (zh) | 人体动作识别方法和装置 | |
CN109584276B (zh) | 关键点检测方法、装置、设备及可读介质 | |
CN113264066B (zh) | 障碍物轨迹预测方法、装置、自动驾驶车辆及路侧设备 | |
CN108388879B (zh) | 目标的检测方法、装置和存储介质 | |
CN109035304B (zh) | 目标跟踪方法、介质、计算设备和装置 | |
CN107808111B (zh) | 用于行人检测和姿态估计的方法和装置 | |
US11887318B2 (en) | Object tracking | |
CN109934065B (zh) | 一种用于手势识别的方法和装置 | |
CN113286194A (zh) | 视频处理方法、装置、电子设备及可读存储介质 | |
CN110033481A (zh) | 用于进行图像处理的方法和设备 | |
CN107886048A (zh) | 目标跟踪方法及系统、存储介质及电子终端 | |
CN109063549B (zh) | 基于深度神经网络的高分辨率航拍视频运动目标检测方法 | |
WO2021081808A1 (zh) | 基于人工神经网络的物体检测的系统及方法 | |
CN111931720B (zh) | 跟踪图像特征点的方法、装置、计算机设备和存储介质 | |
CN112926461B (zh) | 神经网络训练、行驶控制方法及装置 | |
CN108229281B (zh) | 神经网络的生成方法和人脸检测方法、装置及电子设备 | |
CN113065379B (zh) | 融合图像质量的图像检测方法、装置、电子设备 | |
CN115797735A (zh) | 目标检测方法、装置、设备和存储介质 | |
CN117372928A (zh) | 一种视频目标检测方法、装置及相关设备 | |
CN112085842B (zh) | 深度值确定方法及装置、电子设备和存储介质 | |
CN115104126A (zh) | 图像处理方法、设备、装置和介质 | |
CN107993247B (zh) | 追踪定位方法、系统、介质和计算设备 | |
CN111611836A (zh) | 基于背景消除法的船只检测模型训练及船只跟踪方法 | |
CN116012609A (zh) | 一种环视鱼眼多目标跟踪方法、装置、电子设备及介质 | |
CN116363628A (zh) | 标志检测方法、装置、非易失性存储介质及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |