CN112819253A

CN112819253A - 一种无人机避障和路径规划装置及方法

Info

Publication number: CN112819253A
Application number: CN202110228122.6A
Authority: CN
Inventors: 吕岳; 张浩然; 田应洪; 沈季玮
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2021-05-18

Abstract

本发明公开了一种无人机避障和路径规划装置及方法，所述装置包括：深度图采集模块，用于采集飞行环境深度图片；变分自编码器构建单元，用于构建变分自编码器，将采集的深度图片输入变分自编码器，对输入的深度图片降维，输出深度图的隐变量；因果强化学习模型构建单元，用于构建强化学习模型，使用DDPG作为强化学习模型框架，接收所述变分自编码器输出的隐变量因子以及无人机当前位置距离目标点的差值向量D(x,y)进行处理，输出动作控制量控制所述无人机飞行速度。

Description

一种无人机避障和路径规划装置及方法

技术领域

本发明涉及无人机及人工智能技术领域，特别是涉及一种基于因果强化学习算法的无人机(Unmanned Aerial Vehicle，UAV)避障和路径规划装置及方法。

背景技术

随着无人机技术的快速发展，无人机的应用也越来越深入到各行各业，并且在其中扮演着重要的角色。目前无人机的运动主要由飞手进行操控，而飞手的培训具有耗时长、成本昂贵、培训机构稀缺等缺点。因此在民用无人机领域，航拍价格昂贵且资源短缺，并不利于无人机在生活中的应用推广。而拥有自动避障及路径规划的功能的无人机，可以大大降低成为无人机飞手的培训时长和成本，增强了无人机操控的简便性，让无人机可以成为更加普及的民用工具，同时也可以将无人机运用在货物分拣、设备巡查、治安巡防等领域，实现相关领域的自动化，因此无人机的自主导航和路径规划问题具有重要的研究价值。

经过多年的发展，目前在无人机的避障和路径规划领域已经提出了多种解决算法，其中各有优缺点，并且在不同的环境条件下的表现也各不相同。传统的无人机路径规划和避障算法分成主要分成两类，一种是基于先验完全地图信息建立的全局路径优化和避障算法，另外一种是基于无人机本身传感器，对路径进行动态的实时的规划算法。对于全局的路径规划主要有搜索算法和图形学算法两种，搜索算法主要包括Dijkstra算法、A*算法等，图形学方法主要包括栅格法、C空间法、切线图法与Voronoi图法等，然而，由于全局路径规划必须获知先验完全地图信息，当需要无人机在陌生环境中完成自主导航及避障时，全局路径规划算法并不能满足需求，而动态局部路径规划算法由于可以根据环境的变化对路径规划和避障算法做出相应的改变从而使得机器人拥有在动态复杂环境中完成自主导航和避障功能，因而得到广泛应用。目前，局部路径规划主要包括人工势场法、蚁群算法、以及强化学习算法等。

人工势场法是将机器人看做在势力场中的质点，目标点对机器人产生“引力场”，而障碍点则对机器人产生“斥力场”，通过对场效应进行累加之后求出机器人的相应运动。但是该种算法容易陷入局部最优解的问题中，使得机器人可能永远到不了目的地。

蚁群算法是一种智能仿生学算法，通过模仿蚂蚁的觅食时的搜索和记录路径的策略，达到动态规划路径的目的。该算法利用迭代和存储的方式模拟蚂蚁觅食时的信息传递及探索，可以达到较好的全局优化的效果，但同时其也存在计算量较大且具有较差的实时性的缺点，也存在局部最优解的情况。

强化学习是机器学习的一种，其利用智能体(Agent)和环境(Environment)不断交互，通过不断的探索和试错学习到由环境到动作空间(Action Space)的映射。随着无人机技术和强化学习技术的发展，已经应用于无人机路径规划的强化学习算法有DQN(Deep Q-Learning)、PG(Policy Gradient)、PPO(Proximal Policy Optimization)、DDPG(DeepDeterministic Policy Gradient)等。DQN算法是使用神经网络代替Q-Learning中的Q价值函数表，但是该算法并不能够保证训练的模型结果一定会收敛，同时输出也只能是离散的数值，并不适用于机器人及无人机的连续的输入控制量；PG(Policy Gradient)算法在能够输出连续的输出的同时，也拥有比DQN更好的收敛特性，但是当PG的步长设置的过大时会出现无法收敛的情况，当步长设置的过小时收敛速度就会过慢；PPO是一种新型的PG(PolicyGradient)强化学习算法，提出了新的目标函数可以在多个训练步骤中实现小批量的更新，解决了PG中步长不好设置的问题，并且在连续控制的任务中表现得更加优秀，但是无法应对高维输入和比较大的动作空间；DDPG是基于PG的一种利用时序差分结合了值函数和策略函数的算法，采用了样本池和固定目标值网络这两项技术，同时在动作输出端采用网络来拟合策略函数，直接输出连续型动作，使得算法可以应对连续的及更大的动作空间。

但是在强化学习和模仿学习的训练过程中，随着环境复杂度的提升，往往会出现因果混杂的现象，从而导致泛化能力的降低。智能体错误地将随着真正原因变化的混杂因子学习为原因，当环境发生变化时，混杂因子表现出随机性，因此导致智能体在和其他环境发生交互时，并没有得到理想的表现。因此要提高智能体的泛化能力，在强化学习或者模仿学习的过程中消除混杂因子带来的误差，就需要对输入变量进行因果关系发现排除混杂因子，发现众多输入变量中影响回报的真正原因。传统的因果发现方法主要分成两类：第一类为基于独立性的方法，首先通过d-分离的方式从数据分布中确定所有的独立性或者条件独立性，然后利用干预工具确定可能的有向无环图结构，但是当因果结点过大时，结点之间的独立性测试将会使得搜索次数呈指数型增长，使得计算量变得十分巨大；第二种方法是加性噪声模型法，通过将需要进行因果关系发现的变量组成SCM(Spatial Channel Model)建立变量间的加性噪声模型，基于加性噪声模型的可识别性定义，即可识别变量之间的因果关系。然而，传统方法在进行多变量之间因果发现时，计算量会随着变量的增多而迅速增加，因此并不适用于多变量之间的因果发现，并且不能发现较好的发现间接因子导致识别率不高同时并不能反应因果强度，导致冗余。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种无人机避障和路径规划装置及方法，以基于因果强化学习算法实现无人机避障和路径规划的目的。

为达上述及其它目的，本发明提出一种无人机避障和路径规划装置，包括：

深度图采集模块，用于采集飞行环境深度图片；

变分自编码器构建单元，用于构建变分自编码器，将采集的深度图片输入变分自编码器，对输入的深度图片降维，输出深度图的隐变量；

因果强化学习模型构建单元，用于构建强化学习模型，使用DDPG作为强化学习模型框架，接收所述变分自编码器输出的隐变量因子以及无人机当前位置距离目标点的差值向量D(x,y)进行处理，输出动作控制量控制所述无人机飞行速度。

优选地，所述变分自编码器仅使用编码器模块，利用其编码功能对采集的深度图片进行降维，同时分离图片像素间的相关性输出相对独立的隐变量因子Z。

优选地，所述强化学习模型包括：

动作决策网络，根据输入的无人机当前状态S经过三层不同数量神经元的全连接网络最终输出相应动作决策a，并实时更新；

动作决策目标网络，与所述动作决策网络结构相同，利用经验回放池中采样的下一状态S′作为输入，输出最优下一动作a′为价值评估网络提供目标动作；

价值评估网络，根据输入无人机当前所处状态S以及所述动作决策网络输出的动作决策输出a，经过三层具有不同数量神经元的全连接网络对当前状态做出对应动作的策略的价值评估Q(S,a)，并实时更新；

目标价值网络，其输入为下一次无人机所处状态以及所述动作决策目标网络输出的下一次最佳动作a′，输出下一次动作及状态价值，将所述目标价值网络的输出作为下一次动作价值评估的真实回报，通过回报函数计算当前状态及动作真实回报作为所述动作决策目标网络的目标价值。

优选地，所述动作决策网络的更新梯度▽J(θ)为所述价值评估网络输出的该动作决策对当前状态映射关系的价值评估。

优选地，所述动作决策目标网络在所述动作决策网络和该动作决策目标网络时间差分达到预设阈值时用所述动作决策网络的参数对该动作决策目标网络进行参数更新。

优选地，所述价值评估网络的更新梯度为将所述目标价值网络对动作决策目标网络输出的最佳下次动作a′和下一步状态进行评估输出的目标价值y_i与该价值评估网络输出的价值Q(S,a)作差的差值。

优选地，所述目标价值网络在所述价值评估网络和该目标价值网络时间差分达到预设阈值时用所述价值评估网络的参数对该网络进行参数更新。

优选地，所述因果强化学习模型构建单元还构建因果发现算法，通过二值化因果图去除变分自编码器输出中的混杂因子和无关因子。

优选地，当所述强化学习模型训练达到较为收敛的结果时，保存模型参数，所述因果强化学习模型构建单元在所述强化学习模型中添加二值化因果关系矩阵滤除无关和混杂因子，通过Q-Learning的方式对二值化因果关系矩阵进行更新直到得到最终的二值化因果图，完成因果发现。

为达到上述目的，本发明还提供一种无人机避障和路径规划方法，包括如下步骤：

步骤S1，采集无人机飞行环境深度图片；

步骤S2，将采集的深度图片输入变分自编码器，对输入的深度图片降维，输出深度图片的隐变量；

步骤S3，构建强化学习模型，使用DDPG作为强化学习模型框架，获取所述变分自编码器输出的隐变量因子和无人机当前位置距离目标点的差值向量D(x,y)进行处理，输出动作控制量控制所述无人机飞行速度；

步骤S4，随机采样m个样本训练对构建的强化学习模型进行训练；

步骤S5，改变与无人机进行交互的外界环境，进行因果学习，从而达到对步骤S2中输入隐变量进行选择的效果，滤除无关变量，以增加智能体的泛化能力。

与现有技术相比，本发明一种无人机避障和路径规划装置及方法通过将采集的深度图片输入变分自编码器，对输入的深度图片降维，输出深度图片的隐变量，然后构建强化学习模型，使用DDPG作为强化学习模型框架，获取所述变分自编码器输出的隐变量因子和无人机当前位置距离目标点的差值向量D(x,y)进行处理，输出动作控制量控制所述无人机飞行速度，从而实现无人机避障和路径规划，通过因果学习增强了只使用强化学习进行训练的模型的泛化能力。

附图说明

图1为本发明一种无人机避障和路径规划装置的系统架构图；

图2为本发明具体实施例中变分自编码器的结构图；

图3为本发明具体实施例中强化学习模型的结构图；

图4为本发明一种无人机避障和路径规划方法的步骤流程图；

图5为本发明实施例中无人机动作空间示意图；

图6为本发明实施例中因果强化学习示意图；

图7为本发明实施例中模型训练流程图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种无人机避障和路径规划装置的系统架构图。如图1所示，本发明一种无人机避障和路径规划装置，应用于无人机，包括：

深度图采集模块10，用于采集飞行环境深度图片。

具体地，深度图采集模块10通过无人机自身搭载的双目相机采集飞行环境深度图片，也就是说，本发明所应用的无人机需包含搭载具有输出深度图功能的轻型相机设备，可以包含姿态感应模块、电机以及驱动模块、电机状态检测模块，由于这些都是目前无人机搭载的常规设备，在此不予赘述，需说明的是，这里所述的深度图片相对于RGB以及RGBD图形只拥有一个通道图像数据并包含了对无人机避障和路径导航至关重要的深度信息，去除了无关的彩色信息使得深度图让模型泛化能力得到了进一步的提高。

变分自编码器构建单元11，用于构建变分自编码器，将深度图片输入变分自编码器，对输入的深度图片降维，输出深度图的隐变量。

当使用深度图片作为强化学习模型的输入时，需要使用卷积网络对深度图片进行降维操作，该方法使得强化学习模型所学参数数量急剧提升，增加了训练时间和次数。所述变分自编码器可脱离智能体和环境交互条件，进行离线学习，在已收集完成的环境深度图数据集中学习到该环境深度图片的低纬度隐变量，从而实现与卷积网络相同的降维功能，使得强化学习模型在线训练次数大大降低。

变分自编码器11包括编码器(Encoder)模块和解码器(Decoder)模块，其中编码器模块通过卷积神经网络将输入图片信息转变成低维高斯分布参数，即对深度图进行解耦操作输出相对独立的隐变量，解码器模块则输入高斯分布参数经过反卷积网络输出重建图片，如图2所示，所述编码器模块包括5层卷积层和3层全连接层，所述解码器模块包括1层全连接层和6层反卷积层，每层网络使用ReLU作为激活函数。在本发明具体实施例中，变分自编码器11仅使用编码器模块，利用其编码功能对深度图进行降维，同时分离图片像素间的相关性输出相对独立的隐变量因子Z，对深度图进行解耦便于后续因果发现。

在本发明具体实施例中，变分自编码器使用β-VAE算法对深度图进行解耦，相对于传统的VAE算法，本发明采用的β-VAE算法在损失函数中的KL散度上乘以超参β，如下式(1)所示：

其中，x表示深度图像，z表示变分自编码网络输出隐变量，p表示先验概率，q表示后验概率。通过批量训练的方式使用上述损失函数对构建网络(变分自编码器网络)进行梯度优化，从而获得目标编码网络。

因果强化学习模型构建单元12，构建强化学习模型，使用DDPG(DeepDeterministic Policy Gradient)作为强化学习模型框架，接收所述变分自编码器输出的隐变量因子以及无人机(UAV)当前位置距离目标点的差值向量D(x,y)，输出动作控制量。所述无人机当前位置距离目标点的差值向量提供了UAV前进方向和距离，由强化学习模型对向量进行处理输出动作控制量，所述动作控制为无人机UAV在当前状态下，由强化学习模型动作决策网络输出在当前空间笛卡尔坐标系下平面X坐标轴与Y坐标轴上的速度分量组成的向量a(v_x,v_y)。

在本发明中，所述变分自编码器输出隐变量因子Z和UAV当前位置距离目标点的差值向量D(x,y)作为构建的强化学习模型输入，记为当前状态S:

S＝(Z,D(x,y)) (2)

在本发明具体实施例中，构建的强化学习模型包括四个网络模型，如图3所示，分别为动作决策网络(Actor Net)、动作决策目标网络(Actor Target)、价值评估网络(Critic Net)以及价值评估网络在未多次更新之前的目标价值网络(Critic Target)，其中动作决策网络根据输入的无人机当前状态经过三层不同数量神经元的全连接网络最终输出相应动作决策a，并实时更新，更新梯度

为价值评估网络输出的该动作决策对当前状态映射关系的价值评估，如式(3)：

其中，m为样本数，s_i为无人机当前状态，a_i为动作决策网络输出的动作决策，Q(s_i,a_i)为价值评估网络对当前状态做出对应动作的策略的价值评估Q(S,a),θ为动作决策网络(Actor Net)的网络参数，和状态s相关，因此写作θ(s)，π为输出动作的概率密度函数，无人机当前状态为深度图经变分自编码器降维后该深度图所含隐变量Z和差值向量D(x,y)。

动作决策目标网络(Actor Target)和动作决策网络结构相同(但动作决策目标网络没有随着训练次数的迭代及时更新的，而当前的动作决策网络是随着训练次数每次都更新的)，并且在动作决策网络(Actor Net)和该动作决策目标网络(Actor Target)时间差分达到一定阈值时用实时的动作决策网络(Actor Net)的参数对该动作决策目标网络(ActorTarget)进行参数更新。该动作决策目标网络(Actor Target)将经验回放池中采样的下一状态S′作为输入，输出最优下一动作a′为价值评估网络(Critic Net)提供目标动作。

价值评估网络(Critic Net)，根据输入无人机当前所处状态S以及动作决策网络(Actor Net)输出的动作决策输出a，同样经过三层具有不同数量神经元的全连接网络对当前状态做出对应动作的策略的价值评估Q(S,a)，并且实时更新，更新梯度为将目标价值网络(Critic Target)对动作决策目标网络(Actor Target)输出的最佳下次动作a′和下一步状态s’进行评估输出的下一个时刻的价值评估Q’与该价值评估网络(Critic Net)输出的当前时刻的价值Q(S,a)作差的差值，即式(4)的均方损失函数:

其中，A_j为动作决策网络(Actor Net)选择处于的最优动作，φ(S_j)为当前状态S_j的特征向量，ω为价值评估网络(Critic Net)的更新迭代参数。

目标价值网络(Critic Target)和价值评估网络(Critic Net)结构相同(但目标价值网络没有随着训练次数的迭代及时更新的，而价值评估网络是随着训练次数每次都更新的)，并且在价值评估网络(Critic Net)和该目标价值网络(Critic Target)时间差分达到一定阈值时用实时的价值评估网络(Critic Net)的参数对该网络进行参数更新。该目标价值网络(Critic Target)输入为下一个时刻的动作a’以及下一时刻状态s’，其输出为对下一个时刻的价值评估Q’，在本发明中，目标价值网络(Critic Target)通过如下式(5)来计算当前动作状态对(s,a)的真实价值评估，然后与该价值评估网络(Critic Net)输出的价值进行作差并且通过损失函数(loss function)求均方，如上式(4)，得出的均方误差作为该价值评估网络(Critic Net)的更新梯度：

y_i＝R+γQ′(S′,a′,ω) (5)

其中，R为当前时刻的奖励，R输入到损失函数(loss function)中计算由价值评估网络(Critic Net)计算出来的状态动作对价值和R值加上目标价值网络(Critic Target)计算出来的价值进行差分，并更新价值评估网络(Critic Net)。

在每次动作决策后，将当前状态、当前动作、下一次状态已经获得的回报存储到经验池中。当经验池增加一定数量的状态动作与回报组时，从经验回放池中随机采样m个样本，采样时抽取当前状态动作对以及该时刻的奖励，计算当前目标Q值y_i，使用上述公式(4)的均方损失函数更新所述价值评估网络(Critic Net)所有参数ω，使用

更新所述动作决策网络(Actor Net)所有参数θ，当迭代次数达到更新目标网络设定次数时，更新动作决策目标网络和目标价值网络(Actor Target与CriticTarget)参数。

本发明使用DDPG作为强化学习模型框架，可以输出连续的动作控制量以控制无人机的飞行速度，同时具有较好的收敛效果。

因果强化学习模型构建单元12还构建因果发现算法，通过二值化因果图去除变分自编码网络输出中的混杂因子和无关因子。具体地，当强化学习模型训练达到较为收敛的结果时，保存模型参数，因果强化学习模型构建单元12在强化模型结构中添加二值化因果关系矩阵滤除无关和混杂因子，通过Q-Learning的方式对二值化因果关系矩阵进行更新直到得到最终的二值化因果图，完成因果发现。对于存在n个独立隐变量的输入Z，其可能存在的二值化因果图共有2ⁿ种，将二值化因果图中每个元素分布设定为伯努利分布，通过迭代训练的方式增加或减少相应位置的元素为1的概率，从而学习出变分自编码网络输出的隐变量对应的二值化因果图G。

本发明将二值化因果图G参数化为伯努利分布数组，二值化因果图初始化为全1数组，该数组与变分编码器输出Z进行点乘，即

π_G(Z)＝f_φ([Z⊙G,G])，

其中⊙表示点乘，φ表示神经网络参数。本发明在强化学习模型并没有得到收敛结果之前不进行因果发现，当强化学习模型得到较为收敛的表现时，对输入强化学习模型的经过解耦的隐变量进行因果发现。

在本发明具体实施例中，通过假设线性能量模型E(G)＝＜ω,G＞+b来推测因果图分布p(G)，具体地，因果图分布为:

E(G)通过基于似然函数的线性回归求得，这种能量模型可以被看作是软Q-learning的一种。

可见，本发明通过二值化因果图去除变分自编码网络输出中的混杂因子和无关因子，以提高强化学习模型的泛化能力。

图4为本发明一种无人机避障和路径规划方法的步骤流程图。如图4所示，本发明一种无人机避障和路径规划方法，包括如下步骤：

步骤S1，采集无人机飞行环境深度图片。

具体地，通过无人机自身搭载的双目相机采集飞行环境深度图片，也就是说，本发明所应用的无人机需包含搭载具有输出深度图功能的轻型相机设备，可以包含姿态感应模块、电机以及驱动模块、电机状态检测模块，由于这些都是目前无人机搭载的常规设备，在此不予赘述，需说明的是，这里所述的深度图片相对于RGB以及RGBD图形只拥有一个通道图像数据并包含了对无人机避障和路径导航至关重要的深度信息，去除了无关的彩色信息使得深度图让模型泛化能力得到了进一步的提高。

步骤S2，将采集的深度图片输入变分自编码器，对输入的深度图片降维，输出深度图片的隐变量。

在本发明中，变分自编码器包括编码器(Encoder)模块和解码器(Decoder)模块，其中编码器模块通过卷积神经网络将输入图片信息转变成低维高斯分布参数，即对深度图进行解耦操作输出相对独立的隐变量，解码器模块则输入高斯分布参数经过反卷积网络输出重建图片。

在本发明具体实施例中，变分自编码器使用β-VAE算法对深度图进行解耦，相对于传统的VAE算法，本发明采用的β-VAE算法在损失函数中的KL散度上乘以超参β，损失函数如下式所示：

其中，x表示深度图像，z表示变分自编码网络输出隐变量，p表示先验概率，q表示后验概率。

在本发明中，可通过批量训练的方式使用上述损失函数对构建网络进行梯度优化，从而获得目标编码网络。

步骤S3，构建强化学习模型，使用DDPG(Deep Deterministic Policy Gradient)作为强化学习模型框架，获取所述变分自编码器输出的隐变量因子和无人机(UAV)当前位置距离目标点的差值向量D(x,y)，输出动作控制量。所述无人机当前位置距离目标点的差值向量提供了UAV前进方向和距离，由强化学习模型对向量进行处理输出动作控制量，所述动作控制为无人机UAV在当前状态下，由强化学习模型动作决策网络输出在当前空间笛卡尔坐标系下平面X坐标轴与Y坐标轴上的速度分量组成的向量a(v_x,v_y)。

S＝(Z,D(x,y))

本发明构建的强化学习模型包括动作决策网络和价值估计网络。所述动作决策网络根据输入无人机当前状态经过三层不同数量神经元的全连接网络最终输出相应动作决策a，并实时更新，更新梯度

为价值评估网络输出的该动作决策对当前状态映射关系的价值评估，如下式：

所述价值估计网络根据输入无人机当前所处状态S以及决策网络输出的动作决策输出a同样经过三层具有不同数量神经元的全连接网络对当前状态做出对应动作的策略的价值评估Q(S,a)，并且实时更新，更新梯度为将最佳下次动作和下一步状态进行评估输出的目标价值与该网络价值输出作差的差值：

构建动作决策网络及价值评估网络同时需构建分别与动作决策网络、状态价值评估网络结构相同的固定目标网络，即动作决策目标网络和目标价值网络，通过预测下一次动作a′下一次动作用于输入固定参数价值评估网络中生成下一次价值评估Q′，计算当前状态下动作状态真实价值：

y_i＝R+γQ′(S′,a′,ω)

在本发明中，当固定目标网络(动作决策目标网络和目标价值网络)和当前实时更新网络(动作决策网络和价值评估网络)时间差值达到一定阈值时，即对固定价值网络参数进行软更新，如下式：

ω←τω+(1-τ)ω′

θ′←τθ+(1-τ)θ′。

步骤S4，通过从经验回放池随机采样m样本训练对构建的强化学习模型进行训练。

在本发明中，在计算得到目标价值后，使用前述均方损失函数更新所述强化学习模型的价值评估网络的所有价值状态参数ω，使用

更新所述强化学习模型的动作决策网络所有网络参数θ，当迭代次数达到更新目标网络设定次数时，更新动作决策目标网络和目标价值网络的参数θ'、ω′。

优选地，当强化学习模型获得一个较为收敛的结果之后，对因果图的概率分布根据无人机与环境交互产生的奖励R_G进行修正，通过soft-Q-leraning学习因果图提高强化学习模型泛化能力。

步骤S5，改变与无人机进行交互的外界环境，进行因果学习，从而达到对步骤S2中输入隐变量进行选择的效果，滤除无关变量以增加智能体的泛化能力。

在本发明具体实施例中，通过二值化因果图去除变分自编码网络输出中的混杂因子和无关因子，对因果图的概率分布根据无人机与环境交互产生的奖励进行修正，通过soft-Q-leraning学习因果图提高模型泛化能力。具体地，当强化学习模型训练达到较为收敛的结果时，保存模型参数，在强化模型结构中添加二值化因果关系矩阵滤除无关和混杂因子，通过Q-Learning的方式对二值化因果关系矩阵进行更新直到得到最终的二值化因果图，完成因果发现。对于存在n个独立隐变量的输入Z，其可能存在的二值化因果图共有2ⁿ种，将二值化因果图中每个元素分布设定为伯努利分布，通过迭代训练的方式增加或减少相应位置的元素为1的概率，从而学习出变分自编码网络输出的隐变量对应的二值化因果图G。

π_G(Z)＝f_φ([Z⊙G,G])，

E(G)通过基于似然函数的线性回归求得，该能量模型可以被看做是软Q-learning的一种。

实施例

在本实施例中，一种无人机避障和路径规划方法，包括如下步骤：

步骤一，采集飞行环境深度图片，构建变分自编码器对深度图片进行预训练使得，编码器能够对深度图进行解耦操作输出相对独立的隐变量，解码器输出能够基本匹配原图像信息，其结构如图2所示。所述编码器包括5层卷积层和3层全连接层，解码器包括1层全连接层和6层反卷积层，每层网络使用ReLU作为激活函数。所述变分自编码器使用β-VAE算法对深度图进行解耦，相对于传统的VAE算法β-VAE在损失函数中的KL散度上乘以超参β，损失函数如下公式所示：

其中x表示深度图像z表示变分自编码网络输出隐变量，p表示先验概率，q表示后验概率。通过批量训练的方式使用上述损失函数对构建网络进行梯度优化，从而获得目标编码网络。

步骤二，设计无人机典型环境和奖励函数建模

针对无人机避障和路径规划问题，设计无人机空间控制量为v_x,v_y,v_z，分别代表大地笛卡尔坐标系下水平和竖直方向上的无人机运动速度，其中，v_x代表无人机前向运动速度，v_y代表无人机横向运动速度，v_z代表无人机竖直方向上运动速度，则合速度表示为

为了简便起见，设v_y＝0，则三维运动简

化为平面上的运动，在本实施例中，无人机通过GPS传感器获知目标位置和无人机当前位置，最大飞行速度为v_max，完整无人机飞行运动模型如图5所示。设计奖励函数如表1所示：

表1:奖励函数表

无人机控制器通过接受强化学习模型输出的速度控制量，实现对机体运动的控制，控制频率为2Hz。其每次控制奖励设置为与目标点距离插值向量的范数的负数乘以超参γ再和偏置相加，则当无人机距离目标点越近所获得奖励越大。撞击、偏离目标点距离过远所获奖励均为-4，当无人机到达目标点附近则得到正奖励4。

步骤三，构建基于因果强化学习模型，接收变分自编码网络输出并输出动作控制量，基于因果强化学习模型的整体结构图如图6所示。在本实施例中，所述基于因果强化学习主要包括强化学习模块(图3)与因果发现模块。

强化学习模型包括动作决策网络和状态价值估计网络。所述动作决策网络如图3中Actor Net和Actor_Target所示，根据输入无人机当前状态经过三层不同数量神经元的全连接网络最终输出相应动作决策a，并实时更新，更新梯度

所述状态价值网络如图3中Critic Net和Critic_Target所示，根据输入无人机当前所处状态S以及决策网络输出的动作决策输出a同样经过三层具有不同数量神经元的全连接网络对当前状态做出对应动作的策略的价值评估Q(S,a)，并且实时更新，更新梯度为将最佳下次动作和下一步状态进行评估输出的目标价值与该网络价值输出作差的差值，即价值状态估计网络损失函数：

构建动作决策网络及状态价值评估网络同时需构建分别与动作决策网络、状态价值评估网络结构相同的规定目标值网络如图3中当前网络和目标网络所示，通过预测下一次动作a′下一次动作用于输入固定参数价值评估网络中生成下一次价值评估Q′。计算当前状态下的真实奖励：

y_i＝R+γQ′(S′,a′,ω)

当固定目标网络和当前实时更新网络时间差值达到一定阈值时，即对固定价值网络参数进行软更新：

ω←τω+(1-τ)ω′ θ′←τθ+(1-τ)θ′

构建因果发现模块，将因果图参数化为伯努利分布数组，该数组与变分编码器输出进行点乘。二值化因果图初始化为全1数组，在强化学习并没有得到收敛结果之前不进行因果发现。当强化学习模块得到较为收敛的表现时，对输入因果强化学习的经过解耦的隐变量进行因果发现。在本实施例中，构建如下线性能量模型：

p(G)＝＜ω,G＞+b

按照概率分布，因果图按照伯努利分布采样生成，记录当前因果图下无人机与环境交互所得回报R_G，将因果图G和所获回报R_G并入集合D，在集合D中，对因果图G和回报R_G进行线性规划更新参数ω即因果图概率分布。

步骤四，因果强化学习模型训练。

在本实施例中，因果强化学习训练部分分成两部分进行，程序流程图如图7所示。第一部分为强化学习模块训练，使用Actor Net表示动作决策网络，Critic Net表示价值评估网络，Actor_Target表示动作决策目标网络，Critic_Target表示目标价值网络。所述各个网络参数分别为θ，ω，θ'，ω′，奖励衰减因子为γ，目标网络软更新系数τ，批量训练样本数m，目标网络参数更新频率C，最大迭代次数K_max，迭代次数K，经验池回放集合为B，Ornstein-Uhlenbeck噪声N，无人机与环境交互获得d当前状态S，动作决策网络产生的动作决策a，完成动作获得下一个状态S′，动作决策目标网络生成下一个动作a′，价值状态估计网络生成价值估计Q，目标状态价值网络生成价值估计Q′。

Step1:随机初始化参数θ,ω,θ′,ω′，其中θ′＝θ，ω′＝ω。清空经验池回放集合B。初始化因果图为全1数组G

Step2:从1至K，循环迭代以下步骤。

(1)无人机获取当前状态S，计算其特征向量φ(S)＝S⊙G

(2)Actor根据当前状态S，生成动作

(3)执行动作a＝(v_x,v_y)，获取下一次状态S′，根据是否终止、正常运动和到达终点计算获得奖励R，记终止信号为Terminal。

(4)在经验回放池中加入单个样本H＝(φ(S),a,R,φ(S'),Terminal)

(5)通过固定目标网络分别计算π_θ'(φ(S_i′))和Q′(φ(S_i′),π_θ'(φ(S_i′)),ω′)

(6)更新状态S＝S'

(7)当迭代次数K％m为0时，从经验回放池随机采样m样本，

其中i＝1,2,3,...,m。

(8)计算当前目标价值Q_true：

(9)计算价值状态估计网络损失函数：

并更新价值状态参数ω。

(10)计算动作决策网络损失函数:

以此来更新网络参数θ。

(11)如果K％C＝＝1则更新固定目标网络中的参数：

ω←τω+(1-τ)ω′ θ′←τθ+(1-τ)θ′

第二部分，因果发现：当强化学习模型获得一个较为收敛的结果之后，对因果图的概率分布根据无人机与环境交互产生的奖励R_G进行修正，通过soft-Q-leraning学习因果图提高模型泛化能力。

在本实施例中将分布参数表示为ω_G，线性空间表示为D_G，更新步骤如下：

Step1:将ω_G,D_G初始化为1和空集，G初始化为全1数组

Step2:迭代以下过程

(1)用因果图G和变分编码输出隐变量进行点乘操作输入强化学习模型:φ(S)＝S⊙G。

(2)获得该回合奖励总和R_sum

(3)将因果图和对应奖励并入线性空间集合D_G：

D_G←D_G∪{(G,R_G)}

(4)在线性空间集合D_G内对因果图G和奖励和R_sum进行线性回归更新参数ω_G：ω_G,_＝linear_regression(D_G)

(5)根据分布参数ω_G采样更新因果图G：

G＝sample(ω_G)

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种无人机避障和路径规划装置，包括：

深度图采集模块，用于采集飞行环境深度图片；

2.如权利要求1所述的一种无人机避障和路径规划装置，其特征在于：所述变分自编码器通过使用编码器，利用其编码功能对采集的深度图片进行降维，同时分离图片像素间的相关性输出相对独立的隐变量因子Z。

3.如权利要求2所述的一种无人机避障和路径规划装置，其特征在于，所述强化学习模型包括：

4.如权利要求3所述的一种无人机避障和路径规划装置，其特征在于：所述动作决策网络的更新梯度▽J(θ)为所述价值评估网络输出的该动作决策对当前状态映射关系的价值评估。

5.如权利要求4所述的一种无人机避障和路径规划装置，其特征在于：所述动作决策目标网络在所述动作决策网络和该动作决策目标网络时间差分达到预设阈值时用所述动作决策网络的参数对该动作决策目标网络进行参数更新。

6.如权利要求5所述的一种无人机避障和路径规划装置，其特征在于：所述价值评估网络的更新梯度为将所述目标价值网络对动作决策目标网络输出的最佳下次动作a′和下一步状态进行评估输出的目标价值y_i与该价值评估网络输出的价值Q(S,a)作差的差值。

7.如权利要求6所述的一种无人机避障和路径规划装置，其特征在于：所述目标价值网络在所述价值评估网络和该目标价值网络时间差分达到预设阈值时用所述价值评估网络的参数对该网络进行参数更新。

8.如权利要求7所述的一种无人机避障和路径规划装置，其特征在于：所述因果强化学习模型构建单元还构建因果发现算法，通过二值化因果图去除变分自编码器输出中的混杂因子和无关因子。

9.如权利要求8所述的一种无人机避障和路径规划装置，其特征在于：当所述强化学习模型训练达到较为收敛的结果时，保存模型参数，所述因果强化学习模型构建单元在所述强化学习模型中添加二值化因果关系矩阵滤除无关和混杂因子，通过Q-Learning的方式对二值化因果关系矩阵进行更新直到得到最终的二值化因果图，完成因果发现。

10.一种无人机避障和路径规划方法，包括如下步骤：

步骤S1，采集无人机飞行环境深度图片；