CN110807795B - 一种基于MDnet的无人机遥感目标跟踪方法及装置 - Google Patents

一种基于MDnet的无人机遥感目标跟踪方法及装置 Download PDF

Info

Publication number
CN110807795B
CN110807795B CN201911053097.1A CN201911053097A CN110807795B CN 110807795 B CN110807795 B CN 110807795B CN 201911053097 A CN201911053097 A CN 201911053097A CN 110807795 B CN110807795 B CN 110807795B
Authority
CN
China
Prior art keywords
tracking
preset
target
score
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911053097.1A
Other languages
English (en)
Other versions
CN110807795A (zh
Inventor
毕福昆
孙嘉怡
雷明阳
孙晓迪
田雨萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing North Zhitu Information Technology Co ltd
Original Assignee
North China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China University of Technology filed Critical North China University of Technology
Priority to CN201911053097.1A priority Critical patent/CN110807795B/zh
Publication of CN110807795A publication Critical patent/CN110807795A/zh
Application granted granted Critical
Publication of CN110807795B publication Critical patent/CN110807795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供一种基于MDnet的无人机遥感目标跟踪方法及装置。所述方法包括将采集到的视频帧通过预设的跟踪模型,得到视频帧的目标边界框,以及对应的目标得分;其中,所述跟踪模型为基于MDnet神经网络模型构建;根据预设的更新策略,若确定跟踪失败,且所述目标得分位于预设的模糊区间,则根据预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新,本发明实施例通过构建基于MDnet的跟踪模型,来执行跟踪任务,并根据预设的更新策略,在目标得分位于预设的模糊区间时,采用预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新,从而加快了跟踪模型的更新速度和效率,更好地提高跟踪的鲁棒性及适应性。

Description

一种基于MDnet的无人机遥感目标跟踪方法及装置
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于MDnet的无人机遥感目标跟踪方法及装置。
背景技术
随着人工智能技术的快速发展,目标跟踪在许多领域得到了广泛的应用,无人机航拍视频中的遥感目标跟踪成为最重要的应用之一,无人机视角下的遥感目标跟踪在嫌犯追捕、军事侦察、土地监测等领域都具有重要意义。近年来,研究人员提出了大量的目标跟踪算法。然而,无人机航拍视频通常具有低分辨率,多个相似目标干扰和快速的视角变化等特点,这些算法大多复杂且耗时,难以在无人机平台中实现遥感目标的实时跟踪。因此,如何设计鲁棒性强的跟踪算法仍然面临严峻的挑战。
目前采用的主要技术包括相关滤波类的跟踪算法和基于深度学习的跟踪算法,前者的出现有效优化了跟踪算法效率,该类方法通过解决岭回归问题来完成对目标的判断。有人使用判别相关滤波器来估计检测跟踪失败的置信度。有人通过学习自适应多尺度相关滤波器来处理目标对象的尺度变化。但是,从无人机平台的角度来看,这些方法会产生许多由类似对象引起的可疑响应;后者的出现有效提升了跟踪算法精度,该类方法通常利用网络的深度结构设计对算法产生优化效果。有人提出了一个Siamese网络来计算先前目标和当前patch之间的相似性。还有人开发了一个简单的双层卷积神经网络,以获得跟踪器对象的特征映射,用于在线对象跟踪。有人提出了一种基于卷积神经网络的跟踪方法,以获得视觉跟踪的语义特征和判别信息。然而,这些方法通常导致跟踪效率受到较大的影响。
最近开发的一种基于CNN框架的跟踪算法——多域卷积神经网络(Multi-DomainNetworks,MDNet)能够以良好的性能处理大多数跟踪挑战。MDNet跟踪器使用不同的视频序列进行训练以获得通用模型表示并增强网络对不同目标的适应性。然而,由于从无人机平台的角度来看目标通常较小,因此它们很容易与背景混淆并且由于频繁的方向改变而变得模糊。从而导致在线跟踪过程中,MDNet会频繁进行网络更新,这在计算上是昂贵的,造成了大量的时间消耗和运算成本。
发明内容
由于现有方法存在上述问题,本发明实施例提供一种基于MDnet的无人机遥感目标跟踪方法及装置。
第一方面,本发明实施例提供了一种基于MDnet的无人机遥感目标跟踪方法,包括:
将采集到的视频帧通过预设的跟踪模型,得到所述视频帧的目标边界框,以及与所述目标边界框对应的目标得分;其中,所述跟踪模型为基于MDnet神经网络模型构建,并经过预先训练和初始化后得到的;
根据预设的更新策略,若确定对本次采集到的视频帧跟踪失败,且所述目标得分位于预设的模糊区间,则根据预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新。
进一步地,所述根据预设的更新策略,若确定对本次采集到的视频帧跟踪失败,且所述目标得分位于预设的模糊区间,则根据预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新,具体包括:
若所述目标得分小于等于预设的第一得分阈值,则确定对本次采集到的视频帧跟踪失败;
若所述目标得分小于等于所述第一得分阈值,且大于等于预设的第二得分阈值,则确定所述目标得分位于预设的模糊区间,并根据预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新;其中,所述第一得分阈值大于所述第二得分阈值;
若所述目标得分小于预设的第二得分阈值,则对所述跟踪模型执行预设的短期更新流程。
进一步地,所述根据预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新,具体包括:
在本次采集到的视频帧中,根据上一次采集到的视频帧对应的目标边界框,在周围3×3的区域中筛选出得分大于预设响应阈值的区域,并用于对所述跟踪模型进行更新。
进一步地,所述基于MDnet的无人机遥感目标跟踪方法还包括:
根据所述上一次采集到的视频帧对应的目标得分,得到所述响应阈值。
进一步地,所述基于MDnet的无人机遥感目标跟踪方法还包括:
根据预设的长更新周期,定期对所述跟踪模型执行长期更新流程。
进一步地,所述模糊区间具体为[-3.5,0.5]。
第二方面,本发明实施例提供了一种基于MDnet的无人机遥感目标跟踪装置,包括:
模型跟踪单元,用于将采集到的视频帧通过预设的跟踪模型,得到所述视频帧的目标边界框,以及与所述目标边界框对应的目标得分;其中,所述跟踪模型为基于MDnet神经网络模型构建,并经过预先训练和初始化后得到的;
模型更新单元,用于根据预设的更新策略,若确定对本次采集到的视频帧跟踪失败,且所述目标得分位于预设的模糊区间,则根据预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新。
进一步地,所述模型更新单元具体用于:
若所述目标得分小于等于预设的第一得分阈值,则确定对本次采集到的视频帧跟踪失败;
若所述目标得分小于等于所述第一得分阈值,且大于等于预设的第二得分阈值,则确定所述目标得分位于预设的模糊区间,并根据预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新;其中,所述第一得分阈值大于所述第二得分阈值;
若所述目标得分小于预设的第二得分阈值,则对所述跟踪模型执行预设的短期更新流程。
第三方面,本发明实施例还提供了一种电子设备,包括:
处理器、存储器、通信接口和通信总线;其中,
所述处理器、存储器、通信接口通过所述通信总线完成相互间的通信;
所述通信接口用于该电子设备的通信设备之间的信息传输;
所述存储器存储有可被所述处理器执行的计算机程序指令,所述处理器调用所述程序指令能够执行如下方法:
将采集到的视频帧通过预设的跟踪模型,得到所述视频帧的目标边界框,以及与所述目标边界框对应的目标得分;其中,所述跟踪模型为基于MDnet神经网络模型构建,并经过预先训练和初始化后得到的;
根据预设的更新策略,若确定对本次采集到的视频帧跟踪失败,且所述目标得分位于预设的模糊区间,则根据预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新。
第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如下方法:
将采集到的视频帧通过预设的跟踪模型,得到所述视频帧的目标边界框,以及与所述目标边界框对应的目标得分;其中,所述跟踪模型为基于MDnet神经网络模型构建,并经过预先训练和初始化后得到的;
根据预设的更新策略,若确定对本次采集到的视频帧跟踪失败,且所述目标得分位于预设的模糊区间,则根据预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新。
本发明实施例提供的基于MDnet的无人机遥感目标跟踪方法及装置,通过构建基于MDnet的跟踪模型,经过预先训练和初始化,来执行跟踪任务,并根据预设的更新策略,在目标得分位于预设的模糊区间时,采用预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新,从而加快了跟踪模型的更新速度和效率,更好地提高跟踪的鲁棒性及适应性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于MDnet的无人机遥感目标跟踪方法流程图;
图2为本发明实施例的另一基于MDnet的无人机遥感目标跟踪方法流程图;
图3为本发明实施例的基于MDnet的无人机遥感目标跟踪装置结构示意图;
图4示例了一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例的基于MDnet的无人机遥感目标跟踪方法流程图,如图1所示,所述方法包括:
步骤S01、将采集到的视频帧通过预设的跟踪模型,得到所述视频帧的目标边界框,以及与所述目标边界框对应的目标得分;其中,所述跟踪模型为基于MDnet神经网络模型构建,并经过预先训练和初始化后得到的。
无人机设置跟踪模型,所述跟踪模型基于MDnet神经网络模型构建,并根据预先获取的训练集对所述跟踪模型进行预先训练,所述训练集包括经过预先标注的大量训练视频。所述MDnet神经网络模型依次包括输入层,卷积层、全连接层、输出层,其中,输入层的输入可以设置为107x107的图像,所述卷积层具体可以设置为依次连接的三层fc1-fc3,所述全连接层具体可以设置为两层fc4和fc5,所述输出层为二分类层Domain-specificlayers,在训练过程中,每个训练视频分别对应于一个输出层。通过预先训练可以得到训练集中各个训练视频的共性,从而得到所述跟踪模型的通用表达式,即得到经过训练的fc1-fc5层。具体的训练过程举例如下:
1.数据准备:针对训练集中的中每一个训练视频的视频帧序列,首先将该视频帧序列中的视频帧顺序打乱,然后每当迭代至此训练视频时,依次提取此视频帧序列中的8帧视频帧。根据预先标注的交并比(Intersection over Union,IOU)的值,在这8帧视频帧的每一帧中提取4个正样本区域和12个负样本区域,其中,所述正样本区域的IOU≥0.7,所述负样本区域IOU≤0.5,然后在原图中按照与正样本区域和负样本区域对应的边界框截取图像再将其统一为107×107大小的RGB图像作为跟踪模型的输入层的输入。
2.基于随机梯度下降(stochastic gradient descent,SGD)的训练:使用训练集中的训练视频对跟踪模型进行训练,视频帧序列的正样本区域和负样本区域的边界框对应图像构成mini-batch。在每一次循环中进行迭代,依次使用相应的mini-batch通过SGD方法来进行训练。在训练中每个训练视频对应一个fc6层,每次训练时只有对应序列的fc6层被使用,前面的卷积层与全连接层都是共享的。通过上述的训练方式学习每个训练视频中目标的共性。
在每次执行跟踪任务开始时,在经过预先训练的跟踪模型基础上,所述跟踪模型通过采集到的第一个视频帧对与本次跟踪任务对应的fc6层进行初始化。具体的初始化过程举例如下:
首先采集第一个视频帧,确定第一个视频帧的真实位置(ground truth),再通过多维高斯分布生成1000个符合要求的候选区域,所述候选区域的IOU≥0.6,将这些候选区域输入到跟踪模型中,得到第三卷积层fc3的conv3特征,利用这些conv3特征结合groundtruth进行边界框回归训练。接下来针对第一个视频帧生成的500个正样本区域和5000个负样本区域,提取正负样本区域的conv3特征。然后对跟踪模型的进行迭代训练,每次迭代随机选取32个正样本区域的conv3特征和1024个负样本区域的conv3特征,构成一个mini-batch。将1024个负样本区域输入所述跟踪模型中,进行循环并计算得分,从这1024个负样本区域中挑选出96个得分最高的作为难例负样本区域。将其导入,分别计算正样本区域的得分和难例负样本区域的得分,前向传播计算损失,最后进行优化器优化以及更新参数等,得到初始化的fc6层。
所述无人机在得到经过预先训练和初始化的跟踪模型后,可执行后续的跟踪任务,通过跟踪模型从实时采集到的视频帧中获取到该视频帧的目标边界框,以及与该目标边界框对应的目标得分。具体的目标边界框和目标得分的获取方法举例如下:
首先根据上一次采集的视频帧的目标边界框,本次采集的视频帧中生成256个候选区域,通过前向传播计算这256个候选区域的得分,挑选出得分最高的5个候选区域,对这5个候选区域取平均生成本次采集的视频帧的目标边界框,并且计算这5个候选区域得分的平均值作为所述目标边界框的目标得分。
步骤S02、根据预设的更新策略,若确定对本次采集到的视频帧跟踪失败,且所述目标得分位于预设的模糊区间,则根据预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新。
在跟踪任务的执行过程中,为了保证对持续目标进行有效跟踪,需要对所述跟踪模型进行在线更新,以适应实际的应用环境,保证所述跟踪模型对采集到的视频帧的跟踪成功率。为此,预先为所述跟踪模型设置更新策略。根据得到的目标得分,判断所述跟踪模型对于本次采集到的视频帧的跟踪是否成功,并且在跟踪失败时,根据所述更新策略对所述跟踪模型进行更新。
其中,若所述目标得分位于预设的模糊区间,则基于本次采集到的视频帧,根据预设的自适应上下文感知相关滤波器RA-CACF,获取具有价值的局部上下文信息的区域,以此对所述跟踪模型进行更新。
本发明实施例通过构建基于MDnet的跟踪模型,经过预先训练和初始化,来执行跟踪任务,并根据预设的更新策略,在目标得分位于预设的模糊区间时,采用预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新,从而加快了跟踪模型的更新速度和效率,更好地提高跟踪的鲁棒性及适应性。
图2为本发明实施例的另一基于MDnet的无人机遥感目标跟踪方法流程图,如图2所示,所述步骤S02具体包括:
步骤S021、若所述目标得分小于等于预设的第一得分阈值,则确定对本次采集到的视频帧跟踪失败。
在通过所述跟踪模型得到本次采集到的视频帧的目标得分后,将所述目标得分与预设的第一得分阈值进行比较,若所述目标得分大于所述第一得分阈值,则判定所述跟踪模型对于本次采集到视频帧的跟踪成功;而若所述目标得分小于等于所述第一得分阈值,则判定所述跟踪模型对于本次采集到视频帧的跟踪失败。
步骤S022、若所述目标得分小于等于所述第一得分阈值,且大于等于第二得分阈值,则确定所述目标得分位于预设的模糊区间,并根据预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新;其中,所述第一得分阈值大于所述第二得分阈值。
在确定对本次采集到的视频帧跟踪失败后,进一步判断所述目标得分是否位于预设的模糊区间,所述模糊区间具体为:[第二得分阈值,第一得分阈值],即小于等于第一得分阈值,大于等于第二得分阈值。
进一步地,所述模糊区间具体为[-3.5,0.5]。
所述模糊区间的第一得分阈值和第二得分阈值可以根据实际的需要来进行设定,在此仅根据实际的应用过程中经验给出了一种举例说明,所述第一得分阈值为0.5,所述第二得分阈值为-3.5。
若所述目标得分位于所述模糊区间,则根据预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新。
步骤S023、若所述目标得分小于预设的第二得分阈值,则对所述跟踪模型执行预设的短期更新流程。
而若在确定对本次采集到的视频帧跟踪失败后,所述目标得分小于预设的第二得分阈值,则根据预设的更新策略,对所述跟踪模型执行预设的短期Short-term更新流程。所述短期更新流程具体为:选择最近采集到的与所述短期更新流程对应数量的视频帧,例如最近20帧视频帧,提取预先保存的20帧视频帧的正样本区域和负样本区域,来对所述跟踪模型进行迭代训练。
上述预先保存的视频帧的正样本区域和负样本区域是在确定对本次采集到的视频帧跟踪成功后,根据得到的目标边界框采集的正样本区域和负样本区域,并分别对这些正样本区域和负样本区域进行前向传播后,得到对应的conv3特征,并进行保存。
进一步地,所述方法还包括:
步骤S024、根据预设的长更新周期,定期对所述跟踪模型执行长期更新流程。
所述更新策略还设定了一种长期Long-term更新流程,根据预设的长期更新周期,例如,8帧、10帧等,定期对所述跟踪模型执行所述长期更新流程,在所述长期更新流程中选择最近采集到的与所述长期更新流程对应数量的视频帧的正样本区域和负样本区域用于对所述跟踪模型进行迭代训练。
本发明实施例通过预设的更新策略,根据所述目标得分,确定对应的更新流程,包括长期更新流程、短期更新流程和基于自适应上下文感知相关滤波器的更新流程,从而可以更加快速高效得对跟踪模型进行更新,提高所述跟踪模型的跟踪效率。
基于上述实施例,进一步地,所述根据预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新,具体包括:
在本次采集到的视频帧中,根据上一次采集到的视频帧对应的目标边界框,在周围3×3的区域中筛选出得分大于预设响应阈值的区域,并用于对所述跟踪模型进行更新。
由上述实施例可知,与长期更新流程和短期更新流程相比,自适应上下文感知相关滤波器的更新流程由于仅利用了本次采集到的视频帧,因此,更新的速度更快。
当无人机在执行跟踪任务时,由于常常会采集到具有短期遮挡,快速视角变化和包含多类混淆目标的低分辨率视频帧,因此,得到的目标得分极易在第一得分阈值上下波动,如果仅采用短期更新流程,对于更新的时间消耗是巨大的。为此,在目标得分位于模糊区间时,采用消耗更小的基于自适应上下文感知相关滤波器的更新流程,而仅在所述目标得分小于第二得分阈值时采用短期更新流程。
所述基于自适应上下文感知相关滤波器的更新流程举例如下:
基于上一次采集的视频帧的目标边界框,在本次采集到的视频帧中获取上一次采集的视频帧的目标边界框周围3×3的8个上下文区域patches,并分别计算各区域的得分。若得分超过预设的响应阈值,则判定该区域内的上下文信息很有价值,可用于进行跟踪模型的训练。
进一步地,所述方法还包括:
根据所述上一次采集到的视频帧对应的目标得分,得到所述响应阈值。
所述预设的响应阈值为根据上一次采集到的视频帧对应的目标得分计算得到的,例如,所述响应阈值可以为上一次采集到的视频帧对应的目标得分的0.3倍。
本发明实施例根据上一次采集到的视频帧的目标边界框和目标得分,筛选出本次采集到的视频帧中存在有价值上下文信息的区域,用于对所述跟踪模型进行更新,从而提高了在模糊区间内对所述跟踪模型更新效率。
图3为本发明实施例的基于MDnet的无人机遥感目标跟踪装置结构示意图,如图3所示,所述装置包括:模型跟踪单元10和模型更新单元11,其中,
所述模型跟踪单元10用于将采集到的视频帧通过预设的跟踪模型,得到所述视频帧的目标边界框,以及与所述目标边界框对应的目标得分;其中,所述跟踪模型为基于MDnet神经网络模型构建,并经过预先训练和初始化后得到的;所述模型更新单元11用于根据预设的更新策略,若确定对本次采集到的视频帧跟踪失败,且所述目标得分位于预设的模糊区间,则根据预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新。具体地:
模型跟踪单元10设置跟踪模型,所述跟踪模型基于MDnet神经网络模型构建,并根据预先获取的训练集对所述跟踪模型进行预先训练,所述训练集包括经过预先标注的大量训练视频。所述MDnet神经网络模型依次包括输入层,卷积层、全连接层、输出层,其中,输入层的输入可以设置为107x107的图像,所述卷积层具体可以设置为依次连接的三层fc1-fc3,所述全连接层具体可以设置为两层fc4和fc5,所述输出层为二分类层Domain-specific layers,在训练过程中,每个训练视频分别对应于一个输出层。所述模型跟踪单元10通过预先训练可以得到训练集中各个训练视频的共性,从而得到所述跟踪模型的通用表达式,即得到经过训练的fc1-fc5层。具体的训练过程举例如下:
1.数据准备:针对训练集中的中每一个训练视频的视频帧序列,首先将该视频帧序列中的视频帧顺序打乱,然后每当迭代至此训练视频时,依次提取此视频帧序列中的8帧视频帧。根据预先标注的交并比(Intersection over Union,IOU)的值,在这8帧视频帧的每一帧中提取4个正样本区域和12个负样本区域,其中,所述正样本区域的IOU≥0.7,所述负样本区域IOU≤0.5,然后在原图中按照与正样本区域和负样本区域对应的边界框截取图像再将其统一为107×107大小的RGB图像作为跟踪模型的输入层的输入。
2.基于随机梯度下降(stochastic gradient descent,SGD)的训练:使用训练集中的训练视频对跟踪模型进行训练,视频帧序列的正样本区域和负样本区域的边界框对应图像构成mini-batch。在每一次循环中进行迭代,依次使用相应的mini-batch通过SGD方法来进行训练。在训练中每个训练视频对应一个fc6层,每次训练时只有对应序列的fc6层被使用,前面的卷积层与全连接层都是共享的。通过上述的训练方式学习每个训练视频中目标的共性。
在每次执行跟踪任务开始时,所述模型跟踪单元10在经过预先训练的跟踪模型基础上,通过采集到的第一个视频帧对与本次跟踪任务对应的fc6层进行初始化。具体的初始化过程举例如下:
首先采集第一个视频帧,所述模型跟踪单元10确定第一个视频帧的真实位置(ground truth),再通过多维高斯分布生成1000个符合要求的候选区域,所述候选区域的IOU≥0.6,将这些候选区域输入到跟踪模型中,得到第三卷积层fc3的conv3特征,利用这些conv3特征结合ground truth进行边界框回归训练。接下来针对第一个视频帧生成的500个正样本区域和5000个负样本区域,提取正负样本区域的conv3特征。然后对跟踪模型的进行迭代训练,每次迭代随机选取32个正样本区域的conv3特征和1024个负样本区域的conv3特征,构成一个mini-batch。将1024个负样本区域输入所述跟踪模型中,进行循环并计算得分,从这1024个负样本区域中挑选出96个得分最高的作为难例负样本区域。将其导入,分别计算正样本区域的得分和难例负样本区域的得分,前向传播计算损失,最后进行优化器优化以及更新参数等,得到初始化的fc6层。
所述模型跟踪单元10在得到经过预先训练和初始化的跟踪模型后,可执行后续的跟踪任务,通过跟踪模型从实时采集到的视频帧中获取到该视频帧的目标边界框,以及与该目标边界框对应的目标得分。具体的目标边界框和目标得分的获取方法举例如下:
首先根据上一次采集的视频帧的目标边界框,本次采集的视频帧中生成256个候选区域,通过前向传播计算这256个候选区域的得分,挑选出得分最高的5个候选区域,对这5个候选区域取平均生成本次采集的视频帧的目标边界框,并且计算这5个候选区域得分的平均值作为所述目标边界框的目标得分。
在跟踪任务的执行过程中,为了保证对持续目标进行有效跟踪,需要对所述跟踪模型的fc4-fc6层进行在线更新,以适应实际的应用环境,保证所述跟踪模型对采集到的视频帧的跟踪成功率。为此,模型更新单元11预先为所述跟踪模型设置更新策略。根据由所述模型跟踪单元10得到的目标得分,模型更新单元11判断所述跟踪模型对于本次采集到的视频帧的跟踪是否成功,并且在跟踪失败时,根据所述更新策略对所述跟踪模型进行更新。
其中,若所述目标得分位于预设的模糊区间,则模型更新单元11基于本次采集到的视频帧,根据预设的自适应上下文感知相关滤波器RA-CACF,获取具有价值的局部上下文信息的区域,以此对所述跟踪模型进行更新。
本发明实施例提供的装置用于执行上述方法,其功能具体参考上述方法实施例,其具体方法流程在此处不再赘述。
本发明实施例通过构建基于MDnet的跟踪模型,经过预先训练和初始化,来执行跟踪任务,并根据预设的更新策略,在目标得分位于预设的模糊区间时,采用预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新,从而加快了跟踪模型的更新速度和效率,更好地提高跟踪的鲁棒性及适应性。
基于上述实施例,进一步地,所述模型更新单元具体用于:
若所述目标得分小于等于预设的第一得分阈值,则确定对本次采集到的视频帧跟踪失败;
若所述目标得分小于等于所述第一得分阈值,且大于等于预设的第二得分阈值,则确定所述目标得分位于预设的模糊区间,并根据预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新;其中,所述第一得分阈值大于所述第二得分阈值;
若所述目标得分小于预设的第二得分阈值,则对所述跟踪模型执行预设的短期更新流程。
在通过所述跟踪模型得到本次采集到的视频帧的目标得分后,所述模型更新单元将所述目标得分与预设的第一得分阈值进行比较,若所述目标得分大于所述第一得分阈值,则判定所述跟踪模型对于本次采集到视频帧的跟踪成功;而若所述目标得分小于等于所述第一得分阈值,则判定所述跟踪模型对于本次采集到视频帧的跟踪失败。
模型更新单元在确定对本次采集到的视频帧跟踪失败后,进一步判断所述目标得分是否位于预设的模糊区间,所述模糊区间具体为:[第二得分阈值,第一得分阈值],即小于等于第一得分阈值,大于等于第二得分阈值。
进一步地,所述模糊区间具体为[-3.5,0.5]。
所述模糊区间的第一得分阈值和第二得分阈值可以根据实际的需要来进行设定,在此仅根据实际的应用过程中经验给出了一种举例说明,所述第一得分阈值为0.5,所述第二得分阈值为-3.5。
若所述目标得分位于所述模糊区间,则模型更新单元根据预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新。
而若在确定对本次采集到的视频帧跟踪失败后,所述目标得分小于预设的第二得分阈值,则根据预设的更新策略,模型更新单元对所述跟踪模型执行预设的短期Short-term更新流程。所述短期更新流程具体为:选择最近采集到的与所述短期更新流程对应数量的视频帧,例如最近20帧视频帧,提取预先保存的20帧视频帧的正样本区域和负样本区域,来对所述跟踪模型进行迭代训练。
上述预先保存的视频帧的正样本区域和负样本区域是在模型更新单元确定对本次采集到的视频帧跟踪成功后,根据得到的目标边界框采集的正样本区域和负样本区域,并分别对这些正样本区域和负样本区域进行前向传播后,得到对应的conv3特征,并进行保存。
进一步地,所述模型更新单元还用于,根据预设的长更新周期,定期对所述跟踪模型执行长期更新流程。
所述更新策略还设定了一种长期Long-term更新流程,所述模型更新单元根据预设的长期更新周期,定期对所述跟踪模型执行所述长期更新流程,在所述长期更新流程中选择最近采集到的与所述长期更新流程对应数量,例如最近的100个视频帧的正样本区域和负样本区域用于对所述跟踪模型进行迭代训练。
本发明实施例提供的装置用于执行上述方法,其功能具体参考上述方法实施例,其具体方法流程在此处不再赘述。
本发明实施例通过预设的更新策略,根据所述目标得分,确定对应的更新流程,包括长期更新流程、短期更新流程和基于自适应上下文感知相关滤波器的更新流程,从而可以更加快速高效得对跟踪模型进行更新,提高所述跟踪模型的跟踪效率。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)401、通信接口(Communications Interface)403、存储器(memory)402和通信总线404,其中,处理器401,通信接口403,存储器402通过通信总线404完成相互间的通信。处理器401可以调用存储器402中的逻辑指令,以执行上述方法。
进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法。
进一步地,本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。
本领域普通技术人员可以理解:此外,上述的存储器402中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于MDnet的无人机遥感目标跟踪方法,其特征在于,包括:
将采集到的视频帧通过预设的跟踪模型,得到所述视频帧的目标边界框,以及与所述目标边界框对应的目标得分;其中,所述跟踪模型为基于MDnet神经网络模型构建,并经过预先训练和初始化后得到的;
根据预设的更新策略,若确定对本次采集到的视频帧跟踪失败,且所述目标得分位于预设的模糊区间,则根据预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新;
所述模糊区间具体为小于等于第一得分阈值同时大于等于第二得分阈值的区间。
2.根据权利要求1所述的基于MDnet的无人机遥感目标跟踪方法,其特征在于,所述根据预设的更新策略,若确定对本次采集到的视频帧跟踪失败,且所述目标得分位于预设的模糊区间,则根据预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新,具体包括:
若所述目标得分小于等于预设的第一得分阈值,则确定对本次采集到的视频帧跟踪失败;
若所述目标得分小于等于所述第一得分阈值,且大于等于预设的第二得分阈值,则确定所述目标得分位于预设的模糊区间,并根据预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新;其中,所述第一得分阈值大于所述第二得分阈值;
若所述目标得分小于预设的第二得分阈值,则对所述跟踪模型执行预设的短期更新流程。
3.根据权利要求2所述的基于MDnet的无人机遥感目标跟踪方法,其特征在于,所述根据预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新,具体包括:
在本次采集到的视频帧中,根据上一次采集到的视频帧对应的目标边界框,在周围3×3的区域中筛选出得分大于预设响应阈值的区域,并用于对所述跟踪模型进行更新。
4.根据权利要求3所述的基于MDnet的无人机遥感目标跟踪方法,其特征在于,所述基于MDnet的无人机遥感目标跟踪方法还包括:
根据所述上一次采集到的视频帧对应的目标得分,得到所述响应阈值。
5.根据权利要求2所述的基于MDnet的无人机遥感目标跟踪方法,其特征在于,所述基于MDnet的无人机遥感目标跟踪方法还包括:
根据预设的长更新周期,定期对所述跟踪模型执行长期更新流程。
6.根据权利要求1-5中任一所述的基于MDnet的无人机遥感目标跟踪方法,其特征在于,所述模糊区间具体为[-3.5,0.5]。
7.一种基于MDnet的无人机遥感目标跟踪装置,其特征在于,包括:
模型跟踪单元,用于将采集到的视频帧通过预设的跟踪模型,得到所述视频帧的目标边界框,以及与所述目标边界框对应的目标得分;其中,所述跟踪模型为基于MDnet神经网络模型构建,并经过预先训练和初始化后得到的;
模型更新单元,用于根据预设的更新策略,若确定对本次采集到的视频帧跟踪失败,且所述目标得分位于预设的模糊区间,则根据预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新。
8.根据权利要求7所述的基于MDnet的无人机遥感目标跟踪装置,其特征在于,所述模型更新单元具体用于:
若所述目标得分小于等于预设的第一得分阈值,则确定对本次采集到的视频帧跟踪失败;
若所述目标得分小于等于所述第一得分阈值,且大于等于预设的第二得分阈值,则确定所述目标得分位于预设的模糊区间,并根据预设的自适应上下文感知相关滤波器对所述跟踪模型进行更新;其中,所述第一得分阈值大于所述第二得分阈值;
若所述目标得分小于预设的第二得分阈值,则对所述跟踪模型执行预设的短期更新流程。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述的基于MDnet的无人机遥感目标跟踪方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述的基于MDnet的无人机遥感目标跟踪方法的步骤。
CN201911053097.1A 2019-10-31 2019-10-31 一种基于MDnet的无人机遥感目标跟踪方法及装置 Active CN110807795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911053097.1A CN110807795B (zh) 2019-10-31 2019-10-31 一种基于MDnet的无人机遥感目标跟踪方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911053097.1A CN110807795B (zh) 2019-10-31 2019-10-31 一种基于MDnet的无人机遥感目标跟踪方法及装置

Publications (2)

Publication Number Publication Date
CN110807795A CN110807795A (zh) 2020-02-18
CN110807795B true CN110807795B (zh) 2022-07-22

Family

ID=69489814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911053097.1A Active CN110807795B (zh) 2019-10-31 2019-10-31 一种基于MDnet的无人机遥感目标跟踪方法及装置

Country Status (1)

Country Link
CN (1) CN110807795B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015163830A1 (en) * 2014-04-22 2015-10-29 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Target localization and size estimation via multiple model learning in visual tracking
CN108681774A (zh) * 2018-05-11 2018-10-19 电子科技大学 基于生成对抗网络负样本增强的人体目标跟踪方法
CN110136162A (zh) * 2019-05-20 2019-08-16 北方工业大学 无人机视角遥感目标跟踪方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160286351A1 (en) * 2015-03-24 2016-09-29 Exactigo, Inc. Indoor navigation anomaly detection
CN106646410B (zh) * 2017-01-06 2019-06-14 天津大学 宽带认知被动雷达架构下的学习-感知-决策-响应方法
KR102275452B1 (ko) * 2017-03-16 2021-07-12 한국전자통신연구원 색상과 형태를 동시에 고려한 실시간 영상 추적 방법 및 이를 위한 장치
US10572723B2 (en) * 2017-12-07 2020-02-25 Futurewei Technologies, Inc. Activity detection by joint human and object detection and tracking
CN110189362B (zh) * 2019-05-28 2020-12-25 厦门大学 基于多分支自编码对抗网络的高效目标跟踪方法
CN110276321A (zh) * 2019-06-11 2019-09-24 北方工业大学 一种遥感视频目标跟踪方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015163830A1 (en) * 2014-04-22 2015-10-29 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Target localization and size estimation via multiple model learning in visual tracking
CN108681774A (zh) * 2018-05-11 2018-10-19 电子科技大学 基于生成对抗网络负样本增强的人体目标跟踪方法
CN110136162A (zh) * 2019-05-20 2019-08-16 北方工业大学 无人机视角遥感目标跟踪方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Remote Sensing Target Tracking in UAV Aerial;Mingyang Lei等;《IEEE Access》;20190606;第76731-76740页 *
基于核相关滤波器的无人机目标跟踪算法;邵博等;《信息技术》;20171130;第150-156页 *

Also Published As

Publication number Publication date
CN110807795A (zh) 2020-02-18

Similar Documents

Publication Publication Date Title
CN107529650B (zh) 闭环检测方法、装置及计算机设备
CN112597941B (zh) 一种人脸识别方法、装置及电子设备
JP6294615B2 (ja) 移動物体の検知および追跡のためのシステムおよび方法
JP2020524861A (ja) セマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体
CN110472594B (zh) 目标跟踪方法、信息插入方法及设备
US9111375B2 (en) Evaluation of three-dimensional scenes using two-dimensional representations
CN109685037B (zh) 一种实时动作识别方法、装置及电子设备
CN112418195B (zh) 一种人脸关键点检测方法、装置、电子设备及存储介质
CN113987236B (zh) 基于图卷积网络的视觉检索模型的无监督训练方法和装置
KR101563569B1 (ko) 학습형 다이내믹 시각 이미지 패턴 인식 시스템 및 방법
CN113838087B (zh) 一种抗遮挡目标跟踪方法及系统
US10643092B2 (en) Segmenting irregular shapes in images using deep region growing with an image pyramid
CN110807795B (zh) 一种基于MDnet的无人机遥感目标跟踪方法及装置
CN110110651B (zh) 基于时空重要性和3d cnn的视频中行为识别方法
CN111950635A (zh) 一种基于分层特征对齐的鲁棒特征学习方法
CN110956643A (zh) 一种基于MDNet的改进车辆跟踪方法及系统
US10776923B2 (en) Segmenting irregular shapes in images using deep region growing
WO2019243910A1 (en) Segmenting irregular shapes in images using deep region growing
CN112926596B (zh) 基于循环神经网络的实时超像素分割方法及系统
CN112836571A (zh) 遥感sar图像中的舰船目标检测识别方法、系统及终端
CN111695470A (zh) 一种基于深度特征正交分解的可见光-近红外行人再识别方法
Fang et al. Research on uav target recognition technology based on federated learning
CN114118303B (zh) 基于先验约束的人脸关键点检测方法及装置
US20240144444A1 (en) Apparatus and method for improving no-flash image quality using flash image
Wei et al. Generating Transferable Adversarial Patch by Simultaneously Optimizing its Position and Perturbations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231214

Address after: Room 801, 8th floor, No. 17, Shidai Huayuan South Road, Shijingshan District, Beijing 100043

Patentee after: Beijing North Zhitu Information Technology Co.,Ltd.

Address before: 100144 Beijing City, Shijingshan District Jin Yuan Zhuang Road No. 5

Patentee before: NORTH CHINA University OF TECHNOLOGY

TR01 Transfer of patent right