CN113359843B

CN113359843B - 一种无人机自主降落方法、装置、电子设备及存储介质

Info

Publication number: CN113359843B
Application number: CN202110747528.5A
Authority: CN
Inventors: 滕雨橦; 周俊琨; 吉翔
Original assignee: Chengdu Ruiyanxinchuang Technology Co ltd
Current assignee: Chengdu Ruiyanxinchuang Technology Co ltd
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2023-06-20
Anticipated expiration: 2041-07-02
Also published as: CN113359843A

Abstract

本申请提供一种无人机自主降落方法、装置、电子设备及存储介质，该方法包括：获取无人机的实时视频图像；计算实时视频图像与无人机预先存储的目标降落视频图像之间的相似度；通过强化学习策略网络根据相似度控制无人机的飞行方向和飞行速度，直到无人机成功降落至目标降落视频图像中的降落地点。通过使用强化学习策略网络根据实时视频图像与无人机预先存储的目标降落视频图像之间的相似度，来控制无人机的飞行方向和飞行速度，能够将实时视频中的连续图像相似度信息转换为无人机飞行方向和飞行速度的连续控制，有效地改善了无人机自主降落过程中飞行控制的连续性，从而提高了无人机自主降落的过程中飞行控制的稳定性。

Description

一种无人机自主降落方法、装置、电子设备及存储介质

技术领域

本申请涉及强化学习和无人机的技术领域，具体而言，涉及一种无人机自主降落方法、装置、电子设备及存储介质。

背景技术

无人机自主降落(Autonomous Landing of Unmanned Aerial Vehicle)，又被称为无人机自动回收，是指一种用于无人机自动返回目标指定地点，并降落至目标指定地点的过程。

目前，针对无人机进行自主降落的方法通常是使用基于红外线锁定(InfraredRay Lock，IR-Lock)装置和激光雷达的自主降落方法，首先，人工地在目标降落地点放置红外线锁定(Infrared Ray，IR)信息标签，然后，无人机就可以通过激光雷达来搜索IR信息标签所在的大体范围，最后，利用IR-Lock传感器和IR信息标签实现无人机的自主降落。然而在具体的实践过程中发现，通过激光雷达和IR-Lock传感器获取的目标降落位置点有一定的误差，这种误差导致无人机自主降落的过程中对飞行速度控制的稳定性变差。

发明内容

本申请实施例的目的在于提供一种无人机自主降落方法、装置、电子设备及存储介质，用于改善无人机自主降落的过程中对飞行速度控制的稳定性变差的问题。

本申请实施例提供了一种无人机自主降落方法，包括：获取无人机的实时视频图像；计算实时视频图像与无人机预先存储的目标降落视频图像之间的相似度；通过强化学习策略网络根据相似度控制无人机的飞行方向和飞行速度，直到无人机成功降落至目标降落视频图像中的降落地点。在上述的实现过程中，通过使用强化学习策略网络根据实时视频图像与无人机预先存储的目标降落视频图像之间的相似度，来控制无人机的飞行方向和飞行速度，能够将实时视频中的连续图像相似度信息转换为无人机飞行方向和飞行速度的连续控制，有效地改善了无人机自主降落过程中飞行控制的连续性，从而提高了无人机自主降落的过程中飞行控制的稳定性。

可选地，在本申请实施例中，在通过强化学习策略网络根据相似度控制无人机的飞行方向和飞行速度之前，还包括：获取无人机视角下的第一实时图像；使用强化学习策略网络预测第一实时图像对应的飞行控制命令，以使无人机根据飞行控制命令进行控制飞行；在无人机根据飞行控制命令进行控制飞行之后，获取无人机视角下的第二实时图像；计算第二实时图像与无人机预先存储的目标降落视频图像之间的相似度；将相似度确定为强化学习策略网络的奖励值，并迭代更新强化学习策略网络的权重参数，直到强化学习策略网络的训练条件结束。在上述的实现过程中，通过将相似度确定为强化学习策略网络的奖励值，并迭代更新强化学习策略网络的权重参数，直到强化学习策略网络的训练条件结束，从而对强化学习策略网络进行有效地训练，能够将实时视频中的连续图像相似度信息转换为无人机飞行方向和飞行速度的连续控制，有效地改善了无人机自主降落过程中飞行控制的连续性，从而提高了无人机自主降落的过程中飞行控制的稳定性。

可选地，在本申请实施例中，获取无人机视角下的第一实时图像，包括：使用模拟器来模拟生成无人机视角下的第一实时图像；获取无人机视角下的第二实时图像，包括：使用模拟器根据飞行控制命令来模拟生成无人机视角下的第二实时图像。在上述的实现过程中，通过使用模拟器来模拟生成无人机视角下的第一实时图像，并使用模拟器根据飞行控制命令来模拟生成无人机视角下的第二实时图像，从而改善了难以在实际的环境中对无人机中的强化学习策略网络进行训练的问题，有效地减少了强化学习策略网络训练的时间，提高了强化学习策略网络训练的效率。

可选地，在本申请实施例中，计算实时视频图像与无人机预先存储的目标降落视频图像之间的相似度，包括：使用特征提取网络模型提取实时视频图像的特征向量；计算实时视频图像的特征向量与目标降落视频图像的特征向量之间的相似度。在上述的实现过程中，通过使用特征提取网络模型提取实时视频图像的特征向量，并计算实时视频图像的特征向量与目标降落视频图像的特征向量之间的相似度，从而提高了使用特征向量计算相似度的准确度且减少了相似度计算的运算量，有效地减少了强化学习策略网络训练的时间，提高了强化学习策略网络的训练效率。

可选地，在本申请实施例中，在使用特征提取网络模型提取实时视频图像的特征向量之前，还包括：获取无人机在不同场景下的第一样本图像和第二样本图像，并对第一样本图像进行图像增强处理，获得增强图像；计算第一样本图像与第二样本图像之间的第一相似度，并计算第一样本图像与增强图像之间的第二相似度；根据第一相似度与第二相似度之间的损失值来对特征提取网络进行训练，获得特征提取网络模型。在上述的实现过程中，通过对第一样本图像进行图像增强处理，获得增强图像，并使用增强图像来对特征提取网络进行训练，有效地减少了获取特征提取网络的训练样本的时间，从而提高了特征提取网络的训练效率。

可选地，在本申请实施例中，特征提取网络模型，包括：特征向量输出层、至少一个瓶颈模块和至少一个卷积模块；使用特征提取网络模型提取实时视频图像的特征向量，包括：使用至少一个瓶颈模块和至少一个卷积模块对实时视频图像进行特征提取，获得实时视频图像的图像特征；使用特征向量输出层对实时视频图像的图像特征进行平均池化和全连接处理，获得实时视频图像的特征向量。

可选地，在本申请实施例中，通过强化学习策略网络根据相似度控制无人机的飞行方向和飞行速度，包括：将相似度确定为强化学习策略网络的奖励值；通过强化学习策略网络根据奖励值来生成飞行控制命令，并使用飞行控制命令控制无人机的飞行方向和飞行速度。在上述的实现过程中，通过使用强化学习策略网络根据奖励值来生成飞行控制命令，并使用飞行控制命令控制无人机的飞行方向和飞行速度，能够将实时视频中的连续图像相似度信息转换为无人机飞行方向和飞行速度的连续控制，有效地改善了无人机自主降落过程中飞行控制的连续性，从而提高了无人机自主降落的过程中飞行控制的稳定性。

本申请实施例还提供了一种无人机自主降落装置，包括：视频图像获取模块，用于获取无人机的实时视频图像；相似度值计算模块，用于计算实时视频图像与无人机预先存储的目标降落视频图像之间的相似度；强化学习控制模块，用于通过强化学习策略网络根据相似度控制无人机的飞行方向和飞行速度，直到无人机成功降落至目标降落视频图像中的降落地点。

可选地，在本申请实施例中，无人机自主降落装置，还包括：第一图像获取模块，用于获取无人机视角下的第一实时图像；命令预测控制模块，用于使用强化学习策略网络预测第一实时图像对应的飞行控制命令，以使无人机根据飞行控制命令进行控制飞行；第二图像获取模块，用于在无人机根据飞行控制命令进行控制飞行之后，获取无人机视角下的第二实时图像；图像相似计算模块，用于计算第二实时图像与无人机预先存储的目标降落视频图像之间的相似度；强化网络训练模块，用于将相似度确定为强化学习策略网络的奖励值，并迭代更新强化学习策略网络的权重参数，直到强化学习策略网络的训练条件结束。

可选地，在本申请实施例中，第一图像获取模块，具体用于使用模拟器来模拟生成无人机视角下的第一实时图像；第二图像获取模块，具体用于使用模拟器根据飞行控制命令来模拟生成无人机视角下的第二实时图像。

可选地，在本申请实施例中，相似度值计算模块，包括：特征向量提取模块，用于使用特征提取网络模型提取实时视频图像的特征向量；向量相似计算模块，用于计算实时视频图像的特征向量与目标降落视频图像的特征向量之间的相似度。

可选地，在本申请实施例中，相似度值计算模块，还包括：增强图像获得模块，用于获取无人机在不同场景下的第一样本图像和第二样本图像，并对第一样本图像进行图像增强处理，获得增强图像；样本相似计算模块，用于计算第一样本图像与第二样本图像之间的第一相似度，并计算第一样本图像与增强图像之间的第二相似度；提取网络训练模块，用于根据第一相似度与第二相似度之间的损失值来对特征提取网络进行训练，获得特征提取网络模型。

可选地，在本申请实施例中，特征提取网络模型，包括：特征向量输出层、至少一个瓶颈模块和至少一个卷积模块；特征向量提取模块，还包括：图像特征提取模块，用于使用至少一个瓶颈模块和至少一个卷积模块对实时视频图像进行特征提取，获得实时视频图像的图像特征；使用特征向量输出层对实时视频图像的图像特征进行平均池化和全连接处理，获得实时视频图像的特征向量。

可选地，在本申请实施例中，强化学习控制模块，包括：网络奖励确定模块，用于将相似度确定为强化学习策略网络的奖励值；命令控制飞行模块，用于通过强化学习策略网络根据奖励值来生成飞行控制命令，并使用飞行控制命令控制无人机的飞行方向和飞行速度。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上面描述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的无人机自主降落方法的流程示意图；

图2示出的本申请实施例提供的特征提取网络模型的结构示意图；

图3示出的本申请实施例提供的强化学习策略网络的强化学习过程示意图；

图4示出的本申请实施例提供的无人机自主降落装置的结构示意图；

图5示出的本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。

在介绍本申请实施例提供的无人机自主降落方法之前，先介绍本申请实施例中所涉及的一些概念：

监督式学习(Supervised Learning)，又被称为监督式训练，是机器学习的一种学习方式，可以由训练资料中学到或建立一个学习模式(learning model)或学习函数，并依此模式推测新的实例。

无监督学习(Unsupervised Learning)，又被称为无监督式训练，是指机器学习的一种方法学习方式，没有给定事先标记过的训练示例，自动对输入的数据进行分类或分群。

强化学习(Reinforcement Learning，RL)是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。在运筹学和控制文献中，强化学习被称为近似动态规划或神经动态规划；强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法，强化学习与监督学习不同的是，强化学习不需要带标签的输入输出对，同时也无需对非最优解的精确地纠正。

需要说明的是，本申请实施例提供的无人机自主降落方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端，设备终端例如：无人机的控制芯片、载物无人机和载人飞行器等；为了便于理解和说明，下面均以无人机(无人机的控制芯片或者载物无人机)为例进行详细地说明。

下面先介绍介绍该无人机自主降落方法适用的应用场景，这里的应用场景包括但不限于：使用该无人机自主降落方法控制无人机寻找目标降落地点，并实时控制该无人机自主降落的过程中的飞行方向和飞行速度，以提高无人机在自主降落的过程中对飞行速度控制的稳定性等。

请参见图1示出的本申请实施例提供的无人机自主降落方法的流程示意图；该无人机自主降落方法的主要思路是，通过使用强化学习策略网络根据实时视频图像与无人机预先存储的目标降落视频图像之间的相似度，来控制无人机的飞行方向和飞行速度，能够将实时视频中的连续图像相似度信息转换为无人机飞行方向和飞行速度的连续控制，有效地改善了无人机自主降落过程中飞行控制的连续性，从而提高了无人机自主降落的过程中飞行控制的稳定性；上述无人机自主降落方法可以包括：

步骤S110：获取无人机的实时视频图像。

上述步骤S110中实时视频图像的获取方式例如：第一种获取方式，使用无人机上事先安装的摄像机、录像机或彩色照相机等图像采集设备对目标对象进行拍摄，获取实时视频图像；然后该图像采集设备向电子设备发送实时视频图像，然后电子设备接收图像采集设备发送的实时视频图像，电子设备可以将实时视频图像存储至文件系统、数据库或移动存储设备中；第二种获取方式，获取无人机刚刚缓存的实时视频图像，具体例如：从文件系统中获取刚刚缓存的实时视频图像，或者从数据库中获取刚刚缓存的实时视频图像，或者从移动存储设备中获取刚刚缓存的实时视频图像。

在步骤S110之后，执行步骤S120：计算实时视频图像与无人机预先存储的目标降落视频图像之间的相似度。

上述步骤S120中的相似度计算方式有很多种，包括但不限于如下几种：

第一种相似度计算方式，先提取图像特征向量，然后计算图像特征向量之间的相似度，该实施方式可以包括：

步骤S121：使用特征提取网络模型提取实时视频图像的特征向量。

请参见图2示出的本申请实施例提供的特征提取网络模型的结构示意图；特征提取网络模型，是指提取实时视频图像的特征向量的神经网络模型。该特征提取网络模型可以自己从头开始搭建并训练神经网络模型，例如：使用特征向量输出层、至少一个瓶颈模块和至少一个卷积模块搭建出特征提取网络模型。

在具体的实施过程中，当然也可以直接使用现有的神经网络模型(例如：单点多盒检测器(Feature Fusion Single Shot Multibox Detector，FSSD)、LeNet网络、AlexNet网络、GoogLeNet网络、VGG网络、Resnet网络、Wide Resnet网络和Inception网络等)，下面以从头开始搭建并训练神经网络模型为例进行详细地说明。

可以理解的是，在使用特征提取网络模型之前，还需要训练特征提取网络模型，训练特征提取网络模型的实施方式例如：首先，获取无人机在不同场景下的第一样本图像和第二样本图像，其中，不同场景例如：在海面上飞行的场景、在陆地上空飞行或者自主着陆场景等等；然后，对第一样本图像进行图像增强处理，获得增强图像；其中，图像增强处理例如：随机裁剪、平移旋转、对比度调整、噪声添加、图像缩放和颜色变换等等。

然后，再计算第一样本图像与第二样本图像之间的第一相似度，并计算第一样本图像与增强图像之间的第二相似度；具体例如：使用神经网络模型分别对增强图像、第一样本图像和第二样本图像进行特征提取，分别获得增强图像的特征向量、第一样本图像的特征向量和第二样本图像的特征向量；再根据量化相似度指标来计算第一样本图像的特征向量与第二样本图像的特征向量之间的第一相似度，并根据量化相似度指标来计算第一样本图像的特征向量与增强图像的特征向量之间的第二相似度；其中，可以使用的量化相似度指标例如：余弦距离、欧氏距离(Euclidean Distance)、汉明距离(Hamming Distance)或信息熵(Information Entropy)等等；可以使用的神经网络模型包括但不限于：单点多盒检测器(Feature Fusion Single Shot Multibox Detector，FSSD)、LeNet网络、AlexNet网络、GoogLeNet网络、VGG网络、Resnet网络、Wide Resnet网络和Inception网络等。

最后，根据第一相似度与第二相似度之间的损失值来对特征提取网络进行训练，获得特征提取网络模型；具体过程例如：使用均方误差(Mean Square Error，MSE)损失函数或者交叉熵损失函数计算第一相似度与第二相似度之间的损失值，再根据该损失值更新特征提取网络的网络权重参数，直到损失值小于预设比例(即迭代至网络开始收敛)时，即可获得训练后的特征提取网络。其中，上述的预设阈值也可以根据具体情况进行设置，例如设置为100或者1000等等。

上述步骤S121的实施方式例如：使用图中的特征提取网络模型中的第一阶段、第二阶段、第三阶段、第四阶段和第五阶段依次对实时视频图像进行特征提取，获得实时视频图像的图像特征；其中，第一阶段包括：第一卷积模块(步长stride为1)和第二卷积模块(步长stride为2)；第二阶段包括：第一瓶颈模块和第三卷积模块(步长stride为2)，第三阶段包括：第二瓶颈模块和第四卷积模块(步长stride为2)；第四阶段包括：第三瓶颈模块和第五卷积模块(步长stride为2)；第五阶段包括：第四瓶颈模块和第六卷积模块(步长stride为2)。然后，使用特征向量输出层中的平均池化层对实时视频图像的图像特征进行平均池化处理，获得池化后的图像特征，最后，使用特征向量输出层中的全连接层对池化后的图像特征进行全连接处理，获得实时视频图像的特征向量。

在具体的实践过程中，当然，也可以使用传统的机器学习算法提取实时视频图像的特征向量，可以使用的机器学习算法包括但不限于：决策树、贝叶斯学习、基于实例的学习、遗传算法、规则学习、基于解释的学习和方向梯度直方图特征提取算法等。

步骤S122：计算实时视频图像的特征向量与目标降落视频图像的特征向量之间的相似度。

上述步骤S122的实施方式例如：计算实时视频图像的特征向量与目标降落视频图像的特征向量之间的余弦距离、欧氏距离(Euclidean Distance)、汉明距离(HammingDistance)或信息熵(Information Entropy)等等，并将余弦距离、欧氏距离、汉明距离或信息熵等等作为实时视频图像的特征向量与目标降落视频图像的特征向量之间的相似度。

第二种相似度计算方式，计算两个视频图像的哈希值，并计算两个视频图像的哈希值之间的汉明距离，最后，将汉明距离作为两个图片之间的相似度指标，该实施方式例如：

步骤S123：分别计算实时视频图像的哈希值与目标降落视频图像的哈希值。

上述步骤S123的实施方式例如：分别计算实时视频图像的哈希值与目标降落视频图像的哈希值，获得两个哈希值，这两个哈希值分别为889890c9cbcdc988和e896962b338ccce2；其中，889890c9cbcdc988为实时视频图像的哈希值，e896962b338ccce2为目标降落视频图像的哈希值。

步骤S124：计算实时视频图像的哈希值与目标降落视频图像的哈希值之间的汉明距离，并将该汉明距离作为实时视频图像与目标降落视频图像之间的相似度指标。

上述步骤S124的实施方式例如：计算实时视频图像的哈希值与目标降落视频图像的哈希值之间的汉明距离，即计算889890c9cbcdc988和e896962b338ccce2的汉明距离，获得该汉明距离为11，并将11作为实时视频图像与目标降落视频图像之间的相似度指标。

在步骤S120之后，执行步骤S130：通过强化学习策略网络根据相似度控制无人机的飞行方向和飞行速度，直到无人机成功降落至目标降落视频图像中的降落地点。

可以理解的是，在通过强化学习策略网络根据相似度控制无人机的飞行方向和飞行速度之前，还需要训练强化学习策略网络，训练强化学习策略网络的具体过程可以包括：

步骤S131：获取无人机视角下的第一实时图像。

上述步骤S131的实施方式例如：使用模拟器来模拟生成无人机视角下的第一实时图像；此处的模拟器可以理解为专门用于模拟无人机飞行训练的模拟器硬件(例如屏幕模拟出无人机的摄像头拍摄的画面，电机转动吹出顺风来模拟无人机的飞行环境等等)和模拟器软件(控制电机和屏幕等等软件)。

步骤S132：使用强化学习策略网络预测第一实时图像对应的飞行控制命令，以使无人机根据飞行控制命令进行控制飞行。

上述步骤S132的实施方式例如：使用强化学习策略网络预测第一实时图像对应的飞行控制命令，以使无人机根据飞行控制命令进行控制飞行。其中，此处的强化学习策略网络是指给定特定的输入后，通过学习给出一个确定输出的神经网络。

步骤S133：在无人机根据飞行控制命令进行控制飞行之后，获取无人机视角下的第二实时图像。

上述步骤S133的实施方式例如：在无人机根据飞行控制命令进行控制飞行之后，使用模拟器根据飞行控制命令来模拟生成无人机视角下的第二实时图像(例如模拟器接收到飞行控制命令之后，根据该飞行控制命令对无人机视角下的屏幕画面进行计算和刷新，从而模拟出无人机视角下的摄像头拍摄的第二实时图像画面)。

步骤S134：计算第二实时图像与无人机预先存储的目标降落视频图像之间的相似度。

上述步骤S134的实施方式例如：根据量化相似度指标来计算第二实时图像与无人机预先存储的目标降落视频图像之间的相似度；其中，可以使用的量化相似度指标例如：余弦距离、欧氏距离、汉明距离或信息熵等等。

步骤S135：将相似度确定为强化学习策略网络的奖励值，并迭代更新强化学习策略网络的权重参数，直到强化学习策略网络的训练条件结束。

上述步骤S135的实施方式例如：将执行飞行控制命令之后的第二实时图像与无人机预先存储的目标降落视频图像之间的相似度确定为强化学习策略网络的奖励值，并迭代更新强化学习策略网络的权重参数，直到强化学习策略网络的训练条件结束。

请参见图3示出的本申请实施例提供的强化学习策略网络的强化学习过程示意图；强化学习策略网络可以理解为智能代理体(Agent)，该智能代理体针对不同的环境(Environment)做出不同的动作(Action)，这些不同的动作会让该智能代理体的状态(Status)发生不同的改变，然后，根据当前环境下的目前状态与原来状态改变对智能代理体进行奖赏(Reward)或者惩罚(当奖赏值为负时就可以理解为惩罚)。

上述步骤S130的实施方式例如：在无人机自主降落的场景中，可以将相似度确定为强化学习策略网络的奖励值，即将实时视频图像与目标降落视频图像之间的相似度计算函数确定为强化学习策略网络的奖励函数，状态(Status)就是指无人机的当前姿态、飞行速度和视频图像特征向量等等，动作(Action)是指三维方向的速度，这里的三维方向可以理解为前后、左右和上下三个维度的速度，具体使用数值可以表示为[1，1，1]或者[-1，-1，-1]，其中，[1，1，1]表示前右下的速度方向，而[-1，-1，-1]表示后左上的方向。最后，通过强化学习策略网络根据奖励值来生成飞行控制命令，并使用飞行控制命令控制无人机的飞行方向和飞行速度。

在上述的实现过程中，首先，获取无人机的实时视频图像；然后，计算实时视频图像与无人机预先存储的目标降落视频图像之间的相似度；最后，通过强化学习策略网络根据相似度控制无人机的飞行方向和飞行速度，直到无人机成功降落至目标降落视频图像中的降落地点。也就是说，通过使用强化学习策略网络根据实时视频图像与无人机预先存储的目标降落视频图像之间的相似度，来控制无人机的飞行方向和飞行速度，能够将实时视频中的连续图像相似度信息转换为无人机飞行方向和飞行速度的连续控制，有效地改善了无人机自主降落过程中飞行控制的连续性，从而提高了无人机自主降落的过程中飞行控制的稳定性。

请参见图4示出的本申请实施例提供的无人机自主降落装置的结构示意图；本申请实施例提供了一种无人机自主降落装置200，包括：

视频图像获取模块210，用于获取无人机的实时视频图像。

相似度值计算模块220，用于计算实时视频图像与无人机预先存储的目标降落视频图像之间的相似度。

强化学习控制模块230，用于通过强化学习策略网络根据相似度控制无人机的飞行方向和飞行速度，直到无人机成功降落至目标降落视频图像中的降落地点。

可选地，在本申请实施例中，无人机自主降落装置，还包括：

第一图像获取模块，用于获取无人机视角下的第一实时图像。

命令预测控制模块，用于使用强化学习策略网络预测第一实时图像对应的飞行控制命令，以使无人机根据飞行控制命令进行控制飞行。

第二图像获取模块，用于在无人机根据飞行控制命令进行控制飞行之后，获取无人机视角下的第二实时图像。

图像相似计算模块，用于计算第二实时图像与无人机预先存储的目标降落视频图像之间的相似度。

强化网络训练模块，用于将相似度确定为强化学习策略网络的奖励值，并迭代更新强化学习策略网络的权重参数，直到强化学习策略网络的训练条件结束。

可选地，在本申请实施例中，第一图像获取模块，具体用于使用模拟器来模拟生成无人机视角下的第一实时图像。

第二图像获取模块，具体用于使用模拟器根据飞行控制命令来模拟生成无人机视角下的第二实时图像。

可选地，在本申请实施例中，相似度值计算模块，包括：

特征向量提取模块，用于使用特征提取网络模型提取实时视频图像的特征向量。

向量相似计算模块，用于计算实时视频图像的特征向量与目标降落视频图像的特征向量之间的相似度。

可选地，在本申请实施例中，相似度值计算模块，还包括：

增强图像获得模块，用于获取无人机在不同场景下的第一样本图像和第二样本图像，并对第一样本图像进行图像增强处理，获得增强图像。

样本相似计算模块，用于计算第一样本图像与第二样本图像之间的第一相似度，并计算第一样本图像与增强图像之间的第二相似度。

提取网络训练模块，用于根据第一相似度与第二相似度之间的损失值来对特征提取网络进行训练，获得特征提取网络模型。

可选地，在本申请实施例中，特征提取网络模型，包括：特征向量输出层、至少一个瓶颈模块和至少一个卷积模块；特征向量提取模块，还包括：

图像特征提取模块，用于使用至少一个瓶颈模块和至少一个卷积模块对实时视频图像进行特征提取，获得实时视频图像的图像特征。

使用特征向量输出层对实时视频图像的图像特征进行平均池化和全连接处理，获得实时视频图像的特征向量。

可选地，在本申请实施例中，强化学习控制模块，包括：

网络奖励确定模块，用于将相似度确定为强化学习策略网络的奖励值。

命令控制飞行模块，用于通过强化学习策略网络根据奖励值来生成飞行控制命令，并使用飞行控制命令控制无人机的飞行方向和飞行速度。

应理解的是，该装置与上述的无人机自主降落方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。

请参见图5示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备300，包括：处理器310和存储器320，存储器320存储有处理器310可执行的机器可读指令，机器可读指令被处理器310执行时执行如上的方法。

本申请实施例还提供了一种计算机可读存储介质330，该计算机可读存储介质330上存储有计算机程序，该计算机程序被处理器310运行时执行如上的方法。

其中，计算机可读存储介质330可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Read-Only Memory,简称PROM)，只读存储器(Read-Only Memory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请实施例提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这主要根据所涉及的功能而定。

另外，在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种无人机自主降落方法，其特征在于，包括：

获取无人机的实时视频图像；

计算所述实时视频图像与所述无人机预先存储的目标降落视频图像之间的相似度；

通过强化学习策略网络根据所述相似度控制所述无人机的飞行方向和飞行速度，直到所述无人机成功降落至所述目标降落视频图像中的降落地点；

其中，所述计算所述实时视频图像与所述无人机预先存储的目标降落视频图像之间的相似度，包括：获取所述无人机在不同场景下的第一样本图像和第二样本图像，并对所述第一样本图像进行图像增强处理，获得增强图像；计算所述第一样本图像与所述第二样本图像之间的第一相似度，并计算所述第一样本图像与所述增强图像之间的第二相似度；根据所述第一相似度与所述第二相似度之间的损失值来对特征提取网络进行训练，获得特征提取网络模型；使用特征提取网络模型提取所述实时视频图像的特征向量；计算所述实时视频图像的特征向量与所述目标降落视频图像的特征向量之间的相似度；其中，所述图像增强处理包括：随机裁剪、平移旋转、对比度调整、噪声添加、图像缩放和/或颜色变换；

所述通过强化学习策略网络根据所述相似度控制所述无人机的飞行方向和飞行速度，包括：将实时视频图像与目标降落视频图像之间的相似度计算函数确定为强化学习策略网络的奖励函数；通过所述强化学习策略网络根据所述奖励函数计算出的奖励值来生成飞行控制命令，并使用所述飞行控制命令控制所述无人机的飞行方向和飞行速度。

2.根据权利要求1所述的方法，其特征在于，在所述通过强化学习策略网络根据所述相似度控制所述无人机的飞行方向和飞行速度之前，还包括：

获取所述无人机视角下的第一实时图像；

使用所述强化学习策略网络预测所述第一实时图像对应的飞行控制命令，以使所述无人机根据所述飞行控制命令进行控制飞行；

在所述无人机根据所述飞行控制命令进行控制飞行之后，获取所述无人机视角下的第二实时图像；

计算所述第二实时图像与所述无人机预先存储的目标降落视频图像之间的相似度；

将所述相似度确定为所述强化学习策略网络的奖励值，并迭代更新所述强化学习策略网络的权重参数，直到所述强化学习策略网络的训练条件结束。

3.根据权利要求2所述的方法，其特征在于，所述获取所述无人机视角下的第一实时图像，包括：

使用模拟器来模拟生成所述无人机视角下的第一实时图像；

所述获取所述无人机视角下的第二实时图像，包括：

使用所述模拟器根据所述飞行控制命令来模拟生成所述无人机视角下的第二实时图像。

4.根据权利要求1所述的方法，其特征在于，所述特征提取网络模型，包括：特征向量输出层、至少一个瓶颈模块和至少一个卷积模块；所述使用特征提取网络模型提取所述实时视频图像的特征向量，包括：

使用所述至少一个瓶颈模块和所述至少一个卷积模块对所述实时视频图像进行特征提取，获得所述实时视频图像的图像特征；

使用所述特征向量输出层对所述实时视频图像的图像特征进行平均池化和全连接处理，获得所述实时视频图像的特征向量。

5.一种无人机自主降落装置，其特征在于，包括：

视频图像获取模块，用于获取无人机的实时视频图像；

相似度值计算模块，用于计算所述实时视频图像与所述无人机预先存储的目标降落视频图像之间的相似度；

强化学习控制模块，用于通过强化学习策略网络根据所述相似度控制所述无人机的飞行方向和飞行速度，直到所述无人机成功降落至所述目标降落视频图像中的降落地点；

6.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至4任一所述的方法。

7.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至4任一所述的方法。