CN110874578A

CN110874578A - 一种基于强化学习的无人机视角车辆识别追踪方法

Info

Publication number: CN110874578A
Application number: CN201911119545.3A
Authority: CN
Inventors: 李帅; 宋文凤; 于洋; 石翔
Original assignee: Qingdao Research Institute Of Beihang University; Beihang University
Current assignee: Qingdao Research Institute Of Beihang University; Beihang University
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2020-03-10
Anticipated expiration: 2039-11-15
Also published as: CN110874578B

Abstract

本发明公开了一种基于强化学习的无人机视角车辆识别追踪方法，基于无人机视角场景理解，监控以及追踪，建立高效，自适应的全景视频管理，通过强化学习的迁移学习目标跟踪方法，可以使得无人机在非监督情况下进行自适应的快速运动的车辆跟踪。结合地面摄像头数据，协同处理，借用重识别信息和算法，实现跨视角跨方位的天地协同跟踪系统，使得交通分析不再关注重复大量的视频标注工作，解放手动监控的劳动力，能够依据软件预先提供的初始化目标车辆、快速高效准确的进行自动分析与监控应用。

Description

一种基于强化学习的无人机视角车辆识别追踪方法

技术领域

本发明涉及计算机视觉图像视频理解领域，涉及一种基于强化学习的无人机视角车辆识别追踪方法。

背景技术

基于无人机自动追踪技术可使用户突破空间、时间以及其他客观限制，在鸟瞰视角下进行全景的监控追踪等活动，可大幅提高安全监控以及高速物体追踪的性能，为高速车辆监控提供高效，快速精确的追踪算法。

现有车辆识别追踪算法包括如下步骤：手工标注无人机视角下的跟踪数据集，得到训练标注，并进行数据增强；在地面视角下的通用数据集上对神经网络进行预训练，以便后续在无人机视角进一步训练实现模型迁移；视频车辆追踪网络模型设计和构建，在无人机视角下进行训练，更新网络参数。

无人机追踪汽车等快速运动物体由于其速度运动速度快，场景复杂，特别是在无人机视角下，目标尺度小，与其他的相邻的车辆视觉差异小，目标分辨率低；另外，有其他的物体的遮挡，场景分布变化大，数据采集困难，且需要更多的数据集标注工作，而现有算法跟踪数据集需要手工标注耗时耗力，且进行模型迁移时没有考虑不同视角下的语义关系；训练过程中没有重点关注目标车辆周围的部分，训练效率低。

基于上述，提出一种能够支持无监督的高速车辆自动识别与追踪，为智能交通自动驾驶等领域提供有效突破高速运动物体的自动识别与追踪的技术门槛高、使用复杂、产品生成时间长等方面的瓶颈问题。

发明内容

针对现有技术中快速运动的机动车的数据集采集困难以及尺度太小难以固定，无人机视角的目标分辨率低，以及有高空遮挡物影响追踪物体的外观特征等问题，本发明提出一种基于强化学习的无人机视角车辆识别追踪方法，包括：

步骤(1)、无人机视角转换网络

通过循环对抗神经网络把地面视角的数据集进行转换到无人机视角；

步骤(2)、地面视角与无人机视角语义关系迁移：通过生成模型把地面视角的数据集进行转换到无人机视角以进行数据集的增强以及标注数据集的自动生成，利用两个阶段对抗生成网络的以及A3C强化学习网络结构进行语义关系的搜索模型建立；

步骤(3)、视频车辆追踪网络结构的构建：利用注意力机制设计并更新网络结构来关注车辆相关的部分，该网络关注跨数据集的任务，把不同物体在全连接层进行任务导向的训练过程，利用关系迁移方法中学习到的关系分布，进行网络的增强；

步骤(4)、时间步长设为1，进入下一个迭代周期，重复步骤(2)、(3)，实现模型动态更新。

进一步地，所述步骤(1)通过将行动空间简化为三个离散的行动空间确定需要生成的车辆与其周围物体的上下文关系，通过语义关系搜索网络进行上下文关系的动态搜索，以及通过上下文评论网络进行关系质量评价。

进一步地，所述语义关系搜索网络的输入是地面视角的车辆图像，通过softmax(多元逻辑斯蒂回归)层输具体的搜索行为，这些行为包括：扩大当前区域，缩小当前区域，保持当前区域大小不变。终止动作将终止当前的剧集，然后T-GAN(追踪-生成对抗网络)将生成要馈入A-GAN(注意力-生成对抗网络)的样本以进行进一步跟踪，否则，代理将继续搜索更多上下文线索，直到达到预设的最大迭代步骤。

进一步地，所述步骤(1)中循环对抗神经网络通过地面视角机动车辆的样本以及没有标注的无人机视角的样本进行相应的视角训练，训练的同时，设计基于交叉熵的损失函数对生成样本的质量进行控制。

进一步地，所述步骤(2)中利用搜索操作行为的输出作为图像的上下文的关系网络的输入，通过预备训练好的网络利用两次迭代的差对搜索关系行为操作结果进行评价。

进一步地，所述步骤1基于对抗生成网络结构中的生成器进行约束，并设计相应的损失函数来保证生成的无人机视角以及地面视角的图像效果，以地面视角图像I_d生成无人机视角图像的生成器记作G_du，以无人机视角的图像I_u生成地面视角图像的生成器记作G_ud，地面视角和无人机视角下的判别器分别记作D_ud和D_du，则无人机视角的判别器D_du的目标函数为:

其中E表示指定视角的数据分布下计算期望，I_u:p_u表示无人机视角的数据分布。

表示该追踪网络的损失函数，logD_du(I_u)是针对判别器估计的概率分布的对数函数。类似地，地面视角的判别器D_ud的目标函数为：

生成器的目标函数表示为：

与现有技术相比，本发明的优点和积极效果如下：

本发明提出了一种基于强化学习的无人机视角车辆识别追踪方法。针对现有视频追踪技术准确率低、速度慢，难以适应高速运动的车辆等突出问题，以强化学习技术为核心，依据展示类应用的实际需求开发最常用的核心功能，建立一个基于无人机视角视频的智能追踪应用平台，提供无人机视角下的高速运动车辆的自动识别与追踪，最大程度提供准确高效的追踪结果，使得交通分析不再关注重复大量的视频标注工作，解放手动监控的劳动力，能够依据软件预先提供的初始化目标车辆、快速高效准确的进行自动分析与监控应用。

附图说明

图1为本发明一种基于强化学习的无人机视角车辆识别追踪方法流程图；

图2为网络数据流示意图；

图3为本发明的网络结构示意图；

图4为本发明的视角转换生成网络示意图；

图5为追踪网络示意图；

图6为本发明提出的网络追踪结果。

具体实施方式

围绕无人机视角车辆的自动追踪在交通城市建设等领域的典型示范应用需求，本发明提出的以无人机视角的强化学习为核心的关键技术和应用系统研发，建立能够支持无监督的高速车辆自动识别与追踪，为智能交通自动驾驶等领域提供有效突破高速运动物体的自动识别与追踪的技术门槛高、使用复杂、产品生成时间长等方面的瓶颈问题。

针对深度学习网络缺少数据集的问题，提出一种基于强化学习的无人机数据集自动生成方法。协同无人驾驶数据集的车辆视角以及无人机采集的未标注的视频进行视角的转换，以适应在地面视角训练好的网络模型示，为具体无人机追踪网络的训练供数据集增强和自动标注的方法。

针对两个角度的车辆图像的差异问题，提出一种强化学习关系迁移的方式，打破时空限制，实现多空间、多时间维度的全方位迁移学习模型。在现有无人驾驶数据集的基础上，通过迁移学习模型的训练，实现跨地面与无人机的视角的模型迁移。提高训练效率，适用新场景的追踪应用。

针对准确率低，尺度小的问题，提出高速车辆自动追踪网络。该网络利用关系迁移方法中学习到的关系分布，进行网络的增强，从而能够使得网络自动学习到车辆与道路等环境的关系。以此为先验进行追踪。

下面结合图1及具体实施方式对本发明做进一步详细地说明。

1、无人机视角转换网络

无人机视角转换网络目的是将地面视角的车辆目标图像转化为无人机视角的图像。通过循环自动生成网络实现。

参考图2，无人机视角的图像转换为地面视角的图像首先确定需要生成的车辆与其周围物体的上下文关系。这并不简单，因为来自不同视图的训练数据具有不同的外观特征，例如照明变化，运动模糊，比例变化等。然而，多个目标实际上统一为单个目标，这可以提高跟踪性能。因此，本发明的方法将行动空间简化为三个离散的行动空间，其受到推迟奖励的约束，以使关系搜索过程有效。基于此关系来进行扩大了车辆目标范围的图像。本发明用强化学习网络进行上下文关系的动态搜索以及关系质量评价。首先提出了语义关系搜索网络，这个网络的输入是地面视角的车辆图像，通过softmax层输具体的搜索行为，这些行为包括：扩大当前区域，缩小当前区域，保持当前区域大小不变。终止动作将终止当前的剧集，然后T-GAN(跟踪引导的CycleGAN)将生成要馈入A-GAN的样本以进行进一步跟踪。否则，代理将继续搜索更多上下文线索，直到达到预设的最大迭代步骤。actor-critic代理的状态s_t表示为元组s_t＝(I_t,r_t,a_t)a_t。其中a_t存储动作及其相应的奖励，当前的RGB图像为I_t∈R^w×h3，奖励r_t从A-GAN嵌入式跟踪网络。

给定单个图像I在任意视图中，上下文搜索网络π(s_t；θ)应该确定动作a_t。之前的工作表明单个评论网络在多策略学习中已足够。因此，本发明将双视图上下文搜索简化为单个网络π(s_t；θ)，输出操作由上下文评论网络单独评估。更具体地说，上下文搜索网络π的体系结构显示在图.2的左侧。网络π使用Vanilla残余网络作为主干(蓝色部分)，并输出操作以搜索相关区域的范围。上下文搜索网络的最后一层是3路softmax。此外，通过交替训练两个视图并将交叉熵损失作为分类任务来处理网络的不稳定性。

参考图3，上下文评论网络旨在提高上下文搜索网络的性能。关键组件包括Q函数定义，上下文搜索网络的结构，其中上下文评论网络的Q函数定义是本发明的主要贡献。具体，本文提出了一种在线奖励机制。上下文评论网络V(s_t；θ_v)旨在根据代理选择动作后的目标跟踪结果的质量立即给出适当的奖励。本发明从Q函数中获取Q值，该函数充当上下文评论网络V(s_t；θ_v)。Q函数是根据网络的跟踪得分定义的T嵌入了无人机视图上下文的分布p(C_u|I_d)以地面视图图像I，s_t更新为条件分布相关状态s_t(I_t,r_t,a_t,p(C_u|I_d))(由A-GAN估算)。为了定义Q函数，本发明首先定义CRAC的奖励定义为：

这里奖励r_t独立于跟踪框标签，后者观察跟踪得分的增益，ε是判断性能增益与t-1时间相比是否足够的阈值或不。比例因子α和阈值ε根据经验设置为0.1和0.05。等式(1.1)表示当预测的动作改善了来自最后完全连接的层的跟踪分数时，代理接收到肯定的奖励，并且当它降低性能时接收惩罚。如果代理选择终止该过程，则最终的跟踪预测必须足够好，否则，它将受到很大的惩罚。如果网络增加了上下文行为w.r.t的概率，即没有上下文，它将反馈积极奖励，否则，它将反馈负面奖励。具体地说，给定一个图像I和从预测的动作，上下文评论网络V(s_t；θ_v)以使用Bellman方程学习，就像在序列中详述的Q-learning一样。

此外，本发明提出了基于强化学习的上下文搜索网络进行更准确的视角转换。本发明的方法将行动空间简化为三个离散的行动空间，其受到推迟奖励的约束，以使关系搜索过程有效。基于此关系来进行扩大了车辆目标范围的图像。

2、无人机视角与地面视角语义关系迁移

本步骤主要是把步骤一中的搜索关系行为操作结果通过奖励函数进行反馈。该奖励函数是针对无人机视角的车辆追踪行为进行的设计的。

首先通过卷积神经网络对地面视角的数据集进行训练，然后在概率关系图进行预训练网络的参数更新来适应无人机视角的数据集。通过生成模型把地面视角的数据集进行转换到无人机视角以进行数据集的增强以及标注数据集的自动生成。减少人工标注工作，提高训练效率，适用新场景的追踪应用。利用循环对抗生成深度网络结构，通过地面视角机动车辆的样本以及没有标注的无人机视角的样本进行相应的视角训练，训练的同时，设计基于交叉熵的损失函数对生成样本的质量进行控制。

参考图4，为实现自动追踪过程中的数据集自动生成方法，本发明提出一种基于强化学习的无人机数据集自动生成方法，该方法基于对抗生成网络结构进行视角特征的转换，并以其中一个视角的图像作为输入，生成另外一个视角的车辆，以进行协同无人驾驶数据集的车辆视角以及无人机采集的未标注的视频进行视角的转换，进而适应在地面视角训练好的网络模型。通过生成模型把地面视角的数据集进行转换到无人机视角以进行数据集的增强以及标注数据集的自动生成。减少人工标注工作，提高训练效率，适用新场景的追踪应用，利用两个阶段对抗生成网络的以及A3C强化学习网络结构进行语义关系的搜索模型建立。本发明基于对抗生成网络结构中的生成器进行约束，并设计相应的损失函数来保证生成的无人机视角以及地面视角的图像效果，以地面视角图像I_d生成无人机视角图像的生成器记作G_du，以无人机视角的图像I_u生成地面视角图像的生成器记作G_ud，地面视角和无人机视角下的判别器分别记作D_ud和D_du，则无人机视角的判别器D_du的目标函数为：

其中E表示指定视角的数据分布下计算期望，如I_u:p_u表示无人机视角的数据分布。类似地，地面视角的判别器D_ud的目标函数为：

生成器的目标函数表示为：

本发明实施搜索任务时，设时间t的搜索状态为s_t，策略函数Actor负责根据s_t给出搜索的动作a_t。如果采取动作将根据预先设定的规则得到即时奖励r_t，搜索状态也会变为s_t+1。评估函数Critic负责根据s_t给出一个当前搜索状态的评价，评估当前搜索状态的好坏，用于指导后续动作的生成。将Actor和Critic的分别记为π(s_t；θ)和V(s_t；θ_v)，其中θ和θ_v表示其网络参数。

搜索任务中，通过不断根据搜索状态采取搜索动作得到新的搜索状态，一次搜索过程的迭代可以表示为s₁,a₁,r₁,s₂,a₂,r₂,s₃,…,s_t,a_t,r_t,s_t+1,…，称作一次采样。算法优化的目标是进行多次采样，用采样的结果更新Actor和Critic的参数，更新后的Actor和Critic可以进一步获取新的采样用以更新参数，如此迭代直到优化完成。

考虑搜索状态为s_t时执行一步动作的情况，r_t+γV(s_t+1；θ_v)-V(s_t；θ_v)表示了采取动作a_t的收益，记作优势函数A(s_t)，其中γ为衰减因子，表示将来的收益由于不确定性等因素要予以折扣。考虑执行多步动作时得到更加准确的结果：

Actor利用优势函数进行参数更新的公式为：

θ＝θ+α▽_θlogπ(s_t；θ)A(s_t)+c▽_θH(π(s_t；θ))

其中▽_θ表示对θ求偏导，α为学习率，H为求熵函数，c为其系数。对应地，Critic利用优势函数进行参数更新的公式为：

其中β为Critic的学习率。

另外，本发明提出异步优势actor-critic(A3C)算法的变体，以优化本发明的CRAC框架。传统的强化学习方法通常采用单任务网络体系结构，相反，为了使其满足本发明的跨视图上下文搜索动作，上下文评论网络在单个网络中评估两个视图。本发明在公式1.2中r_t表示步骤t的即时奖励，然后累积奖励定义为

v(s_t；θ_v)是状态s_t下的输出值。这里k的范围从0到t_max(更新前的最大步数)。因此，代理的目标是最大化期望E的奖励：

这里γ是一个折扣因子，它可以长时间控制状态的影响，r_t是根据当前状态s_t，N是总操作数，t表示t-th回合。此外，上下文搜索网络的优化目标是最大化优势函数R_t-V(s_t；θ_v)和政策输出的熵L(π(s_t；θ))。交叉熵损失用于增加动作的多样性，这可以使代理学习灵活的策略。本发明使用时间差(TD)来计算政策梯度。

奖励函数设计利用搜索操作行为的输出作为图像的上下文的关系网络的输入，通过预备训练好的网络进行评价。评价方式通过两次迭代的差进行。保证其稳定性。

3、追踪网络设计与实现

本步骤提出一种基于生成样本的两阶段追踪网络模型。首先把地面视角的图像转化为无人机视角。以此为输入设计了两阶段的追踪模型，分别进行离线训练以及在线更新。离线训练过程中，以地面视角的视频序列为训练数据集，在训练过程中转化为无人机视角，然后在目标样本周围进行随机采样，生成正负样本，训练深度网络为二分类网络；在线更新过程，仅仅输入第一帧以及样本位置进行随机采样，并对离线模型进行更新。此过程中，在线模型更新的过程中，增加了注意力机制。利用该机制限定样本特征提取的网络增加对样本区域的权重。该机制通过增加网络在卷积层与后面的层次的连接实现。

参考图5，为了使生成的样本适应无人机视图环境，本发明提出了一个上下文关系关注网络来估计目标上下文关系的分布。具体地说，本发明通过双GAN生成关系。第一GAN生成保留局部判别特征的UAV视图样本，第二个GAN生成关注图以捕获用于跟踪的全局关键上下文关系。本发明首先介绍要转移的新环境，然后描述无人机视图适应方案：上下文生成和上下文关系注意。无人机环境旨在为上下文关系搜索代理提供奖励。它受跟踪性能的支配。

整体思路是环境通过预定义的奖励机制与提议的上下文搜索和上下文评论网络交互。不同于传统的强化学习框架，它以固定的奖励机制维护环境，本发明的环境包含对抗性学习机制，其中动态更新跟踪CNN)用于根据跟踪结果的性能增益提供奖励，其中表示CNN的迭代更新参数。在本发明的培训设置中，将使用新生成的代理上下文更新环境。此外，两组图像分别来自地面视图和UAV视图。

上下文生成旨在将一般UAV视图样本转移到UAV(无人机视角)视图样本以便于跟踪。首先，本发明引入跟踪性能奖励来指导CycleGAN(循环对抗网络)生成无人机视图图像，保留判别性外观特征和关系上下文特征。事实上，本发明的目标是生成具有以下特征的新样本：(1)车辆样本在不同视图中看起来像现实；(2)车辆规模大，分辨率高；(3)车辆在特定视图中具有遮挡，例如树木和建筑物。但是，本发明缺少满足三个条件的配对样本。同时，为了生成三个任务的样本，很难将这些任务嵌入到单个GAN中。考虑到巨大的地面视图数据集和未标记的无人机视图数据集，本发明在数据集级别的监督下，在迭代学习过程中使用CycleGAN生成无人机视图样本。的损失进一步定义为：

L(T)＝L_cyc(G_du+G_ud)+L_T(T(G_du),b) (0.3)

这里表示L2范数，这使得生成的样本收敛于跟踪任务，函数被应用于从地面视图集生成输入样本扩展的无人机视图集，尝试生成与地面视图数据集中的图像类似的图像,定义为：

这里的损失将三个要求简化为统一的要求，d表示地面视图数据集(例如，VOT)中跟踪目标的地面实况边界框。事实上，在视图转换之后，位置有点偏差。但是误差降低到最低，可以通过A-GAN的注意图进行修改。Loss使得将地面视图样本包装为无人机视图。两个客观损失交替训练，生成逼真的无人机视图样本以及与对象跟踪相关的关键外观特征。最后卷积用于生成目标相关上下文的高度条件分布的层，如图1所示。GAN网络的客观损失定义为：

L_att＝E_F,p[logD(p·F)]+E_F[log(1-D(G(F)·F))]+λE_p,F||G(F)-p||

(0.5)这里的点表示Hadamard内积操作函数。注意图仅包含一个频道，并且具有与相同的分辨率。因此，提供关系上下文的关键区域和进一步分类的目标。注意力图的大值同时表明该位置很可能成为目标的核心环境。

在目标的遥远部分提供全局线索的上下文关系实际上可以通过注意机制进一步编码为上下文关系的分布。为此，本发明建议Attention-GAN(A-GAN)估计目标与其上下文之间的上下文关系条件分布。另外卷积处理局部邻域中的信息，这对于对图像中的远程依赖性进行建模而言计算效率低。为了强制捕获跟踪任务特征的上下文关系注意图，本发明提出在高级特征图(由卷积层产生)和分类器之间添加A-GAN层，该分类器实际上是在完全卷积层之后的一个分支。

如图2-图6所示，为证明本方法在无人机视角机动车追踪的正确性，设计了自动汽车追踪系统图2表示输入图像以及处理的数据流，图2为网络数据流示意图；图3为本发明的网络结构示意图；图4为本发明的视角转换生成网络示意图；图5为追踪网络示意图；

示意图中颜色深浅代表不同方向的数据流。图6展示了不同条件下的追踪结果，包括，夜晚，小尺度，运动，尺度变化，有遮挡等情况，应用本发明方法具有很好的结果。

Claims

1.一种基于强化学习的无人机视角车辆识别追踪方法，其特征在于包括：

步骤(1)、无人机视角转换网络

2.根据权利要求1所述的基于强化学习的无人机视角车辆识别追踪方法，其特征在于：所述步骤(1)通过将行动空间简化为三个离散的行动空间确定需要生成的车辆与其周围物体的上下文关系，通过语义关系搜索网络进行上下文关系的动态搜索，以及通过上下文评论网络进行关系质量评价。

3.根据权利要求2所述的基于强化学习的无人机视角车辆识别追踪方法，其特征在于：所述语义关系搜索网络的输入是地面视角的车辆图像，通过softmax层输具体的搜索行为，这些行为包括：扩大当前区域，缩小当前区域，保持当前区域大小不变。终止动作将终止当前的剧集，然后T-GAN(追踪-对抗生成网络)将生成要馈入A-GAN(注意力-对抗生成网络)的样本以进行进一步跟踪，否则，代理将继续搜索更多上下文线索，直到达到预设的最大迭代步骤。

4.根据权利要求3所述的基于强化学习的无人机视角车辆识别追踪方法，其特征在于：所述步骤(1)中循环对抗神经网络通过地面视角机动车辆的样本以及没有标注的无人机视角的样本进行相应的视角训练，训练的同时，设计基于交叉熵的损失函数对生成样本的质量进行控制。

5.根据权利要求1所述的基于强化学习的无人机视角车辆识别追踪方法，其特征在于：所述步骤(2)中利用搜索操作行为的输出作为图像的上下文的关系网络的输入，通过预备训练好的网络利用两次迭代的差对搜索关系行为操作结果进行评价。

6.根据权利要求1所述的基于强化学习的无人机视角车辆识别追踪方法，其特征在于：

所述步骤1基于对抗生成网络结构中的生成器进行约束，并设计相应的损失函数来保证生成的无人机视角以及地面视角的图像效果，以地面视角图像I_d生成无人机视角图像的生成器记作G_du，以无人机视角的图像I_u生成地面视角图像的生成器记作G_ud，地面视角和无人机视角下的判别器分别记作D_ud和D_du，则无人机视角的判别器D_du的目标函数为：

生成器的目标函数表示为：