CN117387635B

CN117387635B - 一种基于深度强化学习和pid控制器的无人机导航方法

Info

Publication number: CN117387635B
Application number: CN202311707956.0A
Authority: CN
Inventors: 任璐; 冯士营; 柳文章; 孙长银
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2023-12-13
Filing date: 2023-12-13
Publication date: 2024-02-23
Anticipated expiration: 2043-12-13
Also published as: CN117387635A

Abstract

本发明涉及一种基于深度强化学习和PID控制器的无人机导航方法，包括：获取无人机执行导航任务时的无人机状态向量；构建深度强化学习网络，将无人机状态向量输入深度强化学习网络中获取原始经验并将原始经验存储进原始经验存储池中；将原始经验存储池中的原始经验输入经验扩展模块得到扩展经验，利用扩展经验更新深度强化学习网络得到训练后的深度强化学习模型；重新获取无人机状态向量，输入到训练后的深度强化学习网络中，输出控制命令指引无人机完成导航。本发明在包含真实动力学的无人机导航任务中高效规划无人机路径，并使用PID控制器控制高仿真无人机飞行，最终使无人机沿着高效路径安全、平稳、无碰撞地到达目标区域，实现避障导航全过程。

Description

一种基于深度强化学习和PID控制器的无人机导航方法

技术领域

本发明涉及无人机导航技术领域，尤其涉及一种基于深度强化学习和PID控制器的无人机导航方法。

背景技术

无人机技术的迅猛发展已经使其在各种应用领域中变得越来越重要，其中之一是无人机在导航任务中的应用。这些任务涵盖了广泛的应用领域，包括搜索与救援、农业、环境监测、交通监管和无人机配送等。在这些任务中，无人机需要根据环境中的感知信息和任务目标来做出决策，以实现精确的位置控制和轨迹跟踪。传统的比例-积分-微分Proportional-Integral-Derivative, PID控制方法在无人机导航中被广泛使用，它们通常能够提供稳定的性能。然而，PID控制方法无法很好地处理复杂的非线性系统，且通常需要手动调整参数，这在大规模应用中受到限制。

随着深度学习和强化学习的不断发展，逐渐衍生出一个新兴的交叉领域，即深度强化学习Deep Reinforcement Learning, DRL。深度强化学习为智能体提供了一种端到端学习策略的方式，具有可处理复杂非线性问题等优点，因此被广泛用于解决路径导航、路径规划等问题。然而，目前深度强化学习在无人机导航中应用仍存在一系列挑战。首先，深度强化学习方法需要大量的训练数据，而实际操控无人机进行大规模训练是不切实际的，因此通常需要先在模拟环境中训练，然后迁移至真实环境，但现有的工作往往不考虑真实的动力学模型，这将给实际应用带来极大限制。此外，深度强化学习的决策过程通常缺乏确定性保证，这使得在无人机执行关键任务时难以放心将深度强化学习作为主要的导航控制器。与此同时，深度强化学习模型在面临不确定性情况下可能做出危险的或不合实际的决策，这对无人机的可靠性构成潜在威胁。最后，现有工作大都通过设计精密具体的奖励函数引导训练，但实际场景中包含太多复杂因素，设计奖励函数十分困难且不利于迁移至其他任务。使用稀疏奖励方案虽然可以缓解这一问题，但同时也会给智能体的有效学习带来巨大挑战。

发明内容

针对现有技术的不足，本发明提供了一种基于深度强化学习和PID控制器的无人机导航方法，解决了传统无人机导航方法在深度强化学习的决策过程缺乏确定性保证以及现有工作大都通过奖励稀疏的设计较为困难且难收敛的问题，该无人机导航方法利用深度强化学习在稀疏奖励环境中进行自主路径规划，然后使用PID控制器控制高仿真无人机飞行，最终使无人机沿着高效路径安全、平稳、无碰撞地到达目标区域。

为解决上述技术问题，本发明提供了如下技术方案：一种基于深度强化学习和PID控制器的无人机导航方法，包括以下步骤：

S1、获取无人机执行导航任务时的无人机状态向量，所述无人机状态向量包括无人机状态信息和目标/>；

S2、构建深度强化学习网络，将无人机状态向量输入深度强化学习网络中，输出最优动作，获取无人机的目标状态，将目标状态输入PID控制器模块中，输出无人机的螺旋桨转速值以控制无人机飞行，进而获取原始经验并将原始经验存储进原始经验存储池中；

S3、将原始经验存储池中的原始经验输入经验扩展模块，得到扩展经验，并将扩展经验存储于经验回放池中，利用扩展经验更新深度强化学习网络得到训练后的深度强化学习模型；

S4、重新获取无人机状态向量，输入到训练后的深度强化学习网络中，得到无人机的最优动作，将最优动作处理为目标状态再次输入PID控制模块中，输出控制命令指引无人机完成导航。

进一步地，在步骤S1中，所述无人机状态信息；

其中，为t时刻无人机当前所在位置的x轴坐标，/>为t时刻无人机当前所在位置的y轴坐标，/>为t时刻无人机当前所在位置的z轴坐标，/>为t时刻无人机的滚转角，为t时刻无人机的俯仰角，/>为t时刻无人机的偏航角，/>为t时刻无人机在x轴上的线速度分量，/>为t时刻无人机在y轴上的线速度分量，/>为t时刻无人机在z轴上的线速度分量，/>为t时刻无人机的角速度，/>为无人机携带的雷达测距仪反馈的障碍物信息，/>为无人机已执行的动作次数；所述目标/>为无人机需要到达的位置坐标/>。

进一步地，在步骤S2中，所述深度强化学习网络包括动作网络、Q值网络、原始经验存储池、经验扩展模块、经验回放池，其依次连接构成；所述PID控制器模块包括位置控制器、姿态控制器。

进一步地，在步骤S2中，具体过程包括以下步骤：

S21、调用仿真环境自身初始化函数，随机选取某个目标点作为目标，并获取对应的无人机状态信息/>，将/>和/>进行向量拼接得到对应的无人机状态向量；

S22、将S21得到的无人机状态向量输入动作网络中，得到无人机参数向量；

S23、将S21得到无人机状态向量和S22得到的无人机参数向量输入Q值网络中，得到无人机的最优动作；

S24、根据最优动作计算得到无人机的目标状态，所述目标状态包括目标位置、目标姿态/>、目标线速度/>；

S25、将目标状态输入PID控制模块中，得到无人机的螺旋桨转速值，将螺旋桨转速值/>施加给无人机控制其运动，获取下一时刻无人机状态信息/>，并通过环境反馈获取即时奖励/>，将/>作为原始经验存储于原始经验存储池中；

S26、重复步骤S22-S25，直至无人机成功导航到目标区域内或执行的动作次数达到环境限制的最大次数。

进一步地，所述S23具体包括以下步骤：

S231、将S23中的无人机参数向量等价扩充为如下的矩阵/>，将S21中的无人机状态向量分别与矩阵/>的每一行拼接，输入到Q值网络中，得到状态动作值估计矩阵/>；其中，所述无人机参数向量/>中的每一个元素为t时刻无人机在水平方向上的加速度/>、t时刻无人机在垂直方向上的加速度/>或t时刻无人机的偏航角度/>；

S232、取出状态动作值估计矩阵的所有对角线元素构成动作估计Q值集合/>，根据动作估计Q值集合中最大的元素得到源动作/>；其中，所述源动作/>为t时刻无人机在水平方向移动/>、t时刻无人机在垂直方向移动转向/>或t时刻无人机的偏航角度/>；

S233、从S23中的无人机参数向量中取出源动作/>对应的参数/>，将/>与/>进行组合作为t时刻无人机需要执行的最优动作/>；其中，t为当前时刻，/>为源动作的个数，/>为源动作/>的索引，/>。

进一步地，所述S24具体包括：从所述无人机状态向量中得到无人机当前位置、当前姿态/>、当前线速度/>，并根据下式得到无人机目标状态：t时刻无人机需要到达的下一目标位置/>以及t时刻无人机需要到达下一位置时的目标线速度/>和t时刻无人机需要到达下一位置时的目标姿态/>：

；

其中，表示t时刻无人机在水平方向的加速度，/>表示t时刻无人机在垂直方向的加速度，/>表示t时刻无人机的偏航角度。

进一步地，在步骤S25中，具体过程包括以下步骤：

S251、从无人机状态向量中获取无人机的当前位置、当前线速度/>，根据S24的目标状态中获取无人机目标位置/>和目标线速度/>，将上述信息输入PID控制器模块中的位置控制器，输出无人机到达目标位置时所需的推力/>；

S252、从无人机状态向量中获取无人机的当前姿态，从S24的目标状态中获取无人机目标姿态/>，从S251中获取无人机到达目标位置时所需的推力/>，将上述信息输入PID控制器模块中的姿态控制器，输出无人机到达目标位置且实现目标姿态所需的螺旋桨控制命令/>；

S253、无人机根据PID控制模块输出的控制命令移动后，由仿真环境进行无人机已执行动作次数的更新；

S254、无人机根据控制命令移动后，判断无人机是否导航至目标区域，依据环境奖励函数反馈奖励值；

S255、通过奖励值判断无人机是否完成导航，若否，由仿真环境反馈无人机到达的下一时刻状态信息/>；否则结束当前步骤。

进一步地，在步骤S3中，所述将原始经验存储池中的原始经验输入经验扩展模块，得到扩展经验，并将扩展经验存储于经验回放池中，具体过程包括以下步骤：

S31、判断当前轨迹的中止状态类型，若是因与障碍物发生碰撞而结束，则将原始经验直接存储进经验回放池中；

S32、若是因到达最大步长限制超时而结束，则首先将原始经验中所有的/>替换为无人机最后时刻到达的三维坐标，然后按下述S33继续扩展经验；

S33、若因到达目标点而正常结束，则随机从原始经验存储池的原始经验中选取四个无人机已经历过的位置，输入到经验扩展模块中，分别将四个无人机已经历过位置的虚拟目标替换掉原始目标，再依据奖励函数重新计算奖励值/>，并将成功的扩展经验/>存储于经验回放池中，其中，/>为随机选取的无人机已经历过的位置。

进一步地，在步骤S3中，所述利用扩展经验更新深度强化学习网络得到训练后的深度强化学习模型，具体过程包括以下步骤：

S41、从经验回放池中抽取128个经验，基于损失函数采用最小化均方贝尔曼误差法更新深度强化学习网络中Q值网络参数/>；

S42、基于Q值网络累积的梯度，使用随机梯度下降法来更新深度强化学习网络中的动作网络/>，并软更新Q值网络的目标网络/>中的参数/>和动作网络的目标网络/>中的参数/>；

S43、基于更新后的深度强化学习网络重复S41- S42，直至达到最大训练回合数，完成对深度强化学习网络的训练。

由上述技术方案，本发明提供了一种基于深度强化学习和PID控制器的无人机导航方法，至少具备以下有益效果：

与现有技术相比，本发明基于深度强化学习和PID控制器的无人机导航方法，通过结合深度强化学习的适应性和PID控制算法的稳定性，高效、安全地解决了三维空间中包含真实动力学的无人机避障导航问题；本发明使用的深度强化学习算法联合无人机的状态向量和目标向量并将其作为神经网络输入，使无人机具备了识别目标的潜在能力；在此基础之上，本发明对原始算法中的经验扩展方式做出改进：对由于碰撞障碍物导致失败的经验不做额外扩展，保证其在网络训练中的警示作用；对由于达到最大步数限制的失败经验首先转换为虚拟的成功经验，再同成功到达目标点的经验一起进行扩展，极大增加了智能体可以学习的有效经验数量，从而缓解了奖励稀疏带来的难收敛问题，提高了导航系统的泛化能力；此外，本发明引入PID控制方法，通过将PID控制用作深度强化学习的辅助控制器，把强化学习方法成功应用到包含真实动力学的无人机导航任务中，使无人机可以安全平稳的躲避障碍物，到达目标区域，确保了系统在面对不确定性时具备更高的鲁棒性，相比于仅基于强化学习的方法可以更好的向真实场景中迁移；本发明有望为无人机导航问题带来创新性的解决方案，推动无人机技术在各种领域中的广泛应用，为社会和工业应用提供更多可能性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明基于深度强化学习和PID控制器的无人机导航方法的流程图；

图2为本发明更新深度强化学习模型的流程图；

图3为本发明考虑的包含真实动力学的无人机避障导航任务仿真环境示意图；

图4为本发明基于深度强化学习和PID控制器的无人机导航方法的仿真结果与现有技术的对比示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。借此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

请参照图1 -图4，示出了本实施例的一种具体实施方式，本实施例深度强化学习在稀疏奖励环境中进行自主路径规划，然后使用PID控制器控制高仿真无人机飞行，最终使无人机沿着高效路径安全、平稳、无碰撞地到达目标区域。

请参照图1，本实施例提出了一种基于深度强化学习和PID控制器的无人机导航方法，该方法包括以下步骤：

作为步骤S1的优选实施方式，所述无人机状态信息；

在本实施例中，本发明使用的深度强化学习算法联合无人机的状态向量和目标向量并将其作为神经网络输入，使无人机具备了识别目标的潜在能力。

作为步骤S2的优选实施方式，所述深度强化学习网络包括动作网络、Q值网络、原始经验存储池、经验扩展模块、经验回放池，其依次连接构成；所述PID控制器模块包括位置控制器、姿态控制器；

作为步骤S2的优选实施方式，具体过程包括以下步骤：

S21、在无人机导航过程中，存在起飞点和目标点，调用仿真环境自身初始化函数的方法，随机选取某个目标点作为目标，并获取对应的无人机状态信息/>，将/>和/>进行向量拼接得到对应的无人机状态向量；

S23、将S21得到无人机状态向量和S22得到的无人机参数向量输入Q值网络中，得到无人机的最优动作/>；

更为具体的是：所述S23具体包括以下步骤：

S232、取出状态动作值估计矩阵的所有对角线元素构成动作估计Q值集合/>，根据动作估计Q值集合中最大的元素得到源动作/>；其中，所述源动作为t时刻无人机在水平方向移动/>、t时刻无人机在垂直方向移动转向/>或t时刻无人机的偏航角度/>；当源动作为无人机水平移动/>时，对应的参数为无人机水平加速度/>，此时无人机垂直加速度/>，偏航角度/>；当源动作为无人机垂直移动/>时，对应的参数为无人机垂直加速度/>，此时无人机水平加速度/>，偏航角度/>；当源动作为无人机转向动作/>时，对应的参数为无人机偏航角度/>，此时无人机水平加速度/>，水平加速度/>；

S233、从S23中的无人机参数向量中取出源动作/>对应的参数/>，将/>与/>进行组合作为t时刻无人机需要执行的最优动作/>；其中，t为当前时刻，/>为源动作的个数，/>为源动作/>的索引，/>；

更为具体的是：所述S24具体包括：从所述无人机状态向量中得到无人机当前位置、当前姿态/>、当前线速度/>，并根据下式得到无人机目标状态：t时刻无人机需要到达的下一目标位置/>以及t时刻无人机需要到达下一位置时的目标线速度/>和t时刻无人机需要到达下一位置时的目标姿态/>：

；

其中，表示t时刻无人机在水平方向的加速度，/>表示t时刻无人机在垂直方向的加速度，/>表示t时刻无人机的偏航角度；

更为具体的是：所述S25具体包括以下步骤：

S251、从无人机状态向量中获取无人机的当前位置、当前线速度/>，根据S24的目标状态中获取无人机目标位置/>和目标线速度/>，将上述信息输入PID控制器模块中的位置控制器，输出无人机到达目标位置时所需的推力/>：

；

其中，表示t时刻无人机当前位置与目标位置的位置误差，/>表示t时刻无人机的位置积分误差，/>表示t时刻无人机当前线速度与目标线速度的线速度误差，PF表示位置控制比例系数，IF表示位置控制积分系数，DF表示位置控制微分系数，G表示重力；

S252、从无人机状态向量中获取无人机的当前姿态，从S24的目标状态中获取无人机目标姿态/>，从S251中获取无人机到达目标位置时所需的推力/>，将上述信息输入PID控制器模块中的姿态控制器，输出无人机到达目标位置且实现目标姿态所需的螺旋桨控制命令/>：

；

其中，表示t时刻无人机当前姿态与目标姿态的姿态误差，T表示矩阵的转置，/>表示t时刻无人机的姿态积分误差，/>表示t时刻无人机的欧拉角速率误差，/>表示无人机的目标扭矩，PT表示姿态控制比例系数，IT表示姿态控制积分系数，DT表示姿态控制微分系数，MM表示固定混合矩阵；

S253、无人机根据PID控制模块输出的控制命令移动后，由仿真环境进行无人机已执行动作次数的更新：

；

S254、无人机根据控制命令移动后，判断无人机是否导航至目标区域，依据环境奖励函数反馈奖励值：

；

S255、通过奖励值判断无人机是否完成导航，若否，由仿真环境反馈无人机到达的下一时刻状态信息/>；否则结束当前步骤；

在本实施例中，本发明引入PID控制方法，通过将PID控制用作深度强化学习的辅助控制器，把强化学习方法成功应用到包含真实动力学的无人机导航任务中，使无人机可以安全平稳的躲避障碍物，到达目标区域，确保了系统在面对不确定性时具备更高的鲁棒性，相比于仅基于强化学习的方法可以更好的向真实场景中迁移。

S3、将原始经验存储池中的原始经验输入经验扩展模块，得到扩展经验，并将扩展经验存储于经验回放池中，利用扩展经验更新深度强化学习网络得到训练后的深度强化学习模型，如图2所示；

作为步骤S3的优选实施方式，所述将原始经验存储池中的原始经验输入经验扩展模块，得到扩展经验，并将扩展经验存储于经验回放池中，具体过程包括以下步骤：

S32、若是因到达最大步长限制超时而结束，则首先将原始经验中所有的/>替换为无人机最后时刻到达的三维坐标，然后按下述S33继续扩展经验，如图2所示；

S33、若因到达目标点而正常结束，则随机从原始经验存储池的原始经验中选取四个无人机已经历过的位置，输入到经验扩展模块中，分别将四个无人机已经历过位置的虚拟目标替换掉原始目标，再依据奖励函数重新计算奖励值/>，并将成功的扩展经验/>存储于经验回放池中，其中，/>为随机选取的无人机已经历过的位置；

作为步骤S3的优选实施方式，所述利用扩展经验更新深度强化学习网络得到训练后的深度强化学习模型，具体过程包括以下步骤：

S41、从经验回放池中抽取128个经验，基于损失函数采用最小化均方贝尔曼误差法更新深度强化学习网络中Q值网络参数/>：

；

其中，为Q值网络，/>为Q值网络的参数，/>为动作网络，/>为动作网络的参数，/>表示由t时刻的状态信息和目标组成的无人机状态向量，/>为t时刻Q值网络输出的源动作，/>为Q值网络的输出需要拟合的目标值，，/>为t时刻环境反馈的即时奖励，/>为折扣因子，/>为使/>最大的源动作，/>为所有源动作组成的集合，/>为Q值网络的目标网络，/>为/>中的参数，/>为动作网络的目标网络，/>为/>中的参数，/>表示t+1时刻的无人机状态向量；

S42、基于Q值网络累积的梯度，使用随机梯度下降法来更新深度强化学习网络中的动作网络/>，并软更新Q值网络的目标网络/>中的参数/>和动作网络的目标网络/>中的参数/>：

；

其中，为软更新因子；

在本实施例中，本发明对原始算法中的经验扩展方式做出改进：对由于碰撞障碍物导致失败的经验不做额外扩展，保证其在网络训练中的警示作用；对由于达到最大步数限制的失败经验首先转换为虚拟的成功经验，再同成功到达目标点的经验一起进行扩展，极大增加了智能体可以学习的有效经验数量，从而缓解了奖励稀疏带来的难收敛问题，提高了导航系统的泛化能力。

本实施例给出了考虑三维空间无人机避障导航任务的仿真环境，如图3所示，该环境模拟了水平面积、高度/>的三维飞行空间，示意了无人机、目标区域的位置坐标；在该环境中无人机的目标是通过合理的动作选择在不与障碍物发生碰撞的前提下，在规定步数内安全、快速到达目标区域，无人机可选择的源动作有水平加速、垂直加速和转向，即/>，水平加速、垂直加速和转向三种源动作对应的参数取值范围均为[-1,1]；同时设置深度强化学习网络的模型参数：动作网络、Q值网络均由大小为256、128、64的全连接层组成，动作网络的学习率为10^-5，Q值网络的学习率为10^-3，Q值网络探索因子ε=0.05，Q值网络损失函数中的目标值计算所需的折扣因子γ=0.99，经验回放池大小为150000，批大小为128，无人机的最大步长为200，最大训练回合数为20000，Adam优化器衰减率β ₁=0.9、β ₂=0.999，网络更新频率为40；设置PID控制模块的参数：位置控制比例系数PF=[0.4, 0.4, 1.25]，位置控制积分系数IF=[0.05, 0.05, 0.05]，位置控制微分系数DF=[0.2, 0.2, 0.5]，姿态控制比例系数PT=[70000, 70000, 60000]，姿态控制积分系数IT=[0, 0, 500]，姿态控制微分系数DT=[20000, 20000, 12000]，混合矩阵MM=[[0.5, -0.5,-1], [0.5, 0.5, 1], [-0.5, 0.5, -1], [-0.5, -0.5, 1]]。

通过本发明基于事后优势经验重放的多通道参数化深度学习网络和PID控制器的无人机导航方法指引无人机避障导航，与HER-MPDQN事后经验重放的多通道参数化深度学习网络、HER-PDQN多通道参数化深度学习网络、MP-DQN事后经验重放的参数化深度学习网络的算法进行比较，结果如图4所示：本发明在初始回合到2500回合的训练过程中迅速学习到有效策略，无人机完成任务的成功率不断上升，此外阴影面积表示多个实验的平均结果，其大小可以反应算法面对随机情况的稳定性，相较于其他算法而言本发明具有更小的阴影面积，鲁棒性更强。本发明对事后经验重放算法中随机挑选目标的方式做出改进，有选择性的对原始经验进行扩展，使经验池中的经验具备更优的指导性，实现了更准确的网络更新，从而在学习速度和学习质量两个方面均优于其他算法。本发明引入PID控制器，将包含真实动力学的无人机飞行过程间接呈现给深度强化学习智能体，极大降低了真实飞行过程中各种复杂环境因素对深度强化学习算法造成的干扰，通过功能解耦重组，利用深度强化学习模块负责路径规划，PID模块负责飞行控制完成了真实导航任务。总体而言，本发明进一步考虑了真实应用环境，能够完成包含真实动力学模型的无人机导航任务，缩小了仿真到应用之间的缺口，且与现有算法相比，本发明具有更好的性能。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

以上实施方式对本发明进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度强化学习和PID控制器的无人机导航方法，其特征在于，包括以下步骤：

S1、获取无人机执行导航任务时的无人机状态向量，所述无人机状态向量包括无人机状态信息s_t和目标g；

S2、构建深度强化学习网络，将无人机状态向量输入深度强化学习网络中，输出最优动作，获取无人机的目标状态，将目标状态输入PID控制器模块中，输出无人机的螺旋桨转速值以控制无人机飞行，进而获取原始经验并将原始经验存储进原始经验存储池中；其具体过程包括以下步骤：

S21、调用仿真环境自身初始化函数，随机选取某个目标点作为目标g，并获取对应的无人机状态信息s_t，将s_t和g进行向量拼接得到对应的无人机状态向量；

S22、将S21得到的无人机状态向量输入动作网络中，得到无人机参数向量X_t；

S23、将S21得到无人机状态向量和S22得到的无人机参数向量X_t输入Q值网络中，得到无人机的最优动作

S24、根据最优动作计算得到无人机的目标状态，所述目标状态包括目标位置目标姿态/>目标线速度/>

S25、将目标状态输入PID控制模块中，得到无人机的螺旋桨转速值M_t，将螺旋桨转速值M_t施加给无人机控制其运动，获取下一时刻无人机状态信息s_t+1，并通过环境反馈获取即时奖励r_t，将s_t,r_t,s_t+1,g作为原始经验存储于原始经验存储池中；其具体过程包括以下步骤：

S251、从无人机状态向量中获取无人机的当前位置pos_t、当前线速度vel_t，根据S24的目标状态中获取无人机目标位置和目标线速度/>将上述信息输入PID控制器模块中的位置控制器，输出无人机到达目标位置时所需的推力TR_t；

S252、从无人机状态向量中获取无人机的当前姿态rpy_t，从S24的目标状态中获取无人机目标姿态从S251中获取无人机到达目标位置时所需的推力TR_t，将上述信息输入PID控制器模块中的姿态控制器，输出无人机到达目标位置且实现目标姿态所需的螺旋桨控制命令M_t；

S253、无人机根据PID控制模块输出的控制命令M_t移动后，由仿真环境进行无人机已执行动作次数的更新；

S254、无人机根据控制命令移动后，判断无人机是否导航至目标区域，依据环境奖励函数反馈奖励值r_t；

S255、通过奖励值r_t判断无人机是否完成导航，若否，由仿真环境反馈无人机到达的下一时刻状态信息s_t+1；否则结束当前步骤；

S26、重复步骤22-25，直至无人机成功导航到目标区域内或执行的动作次数达到环境限制的最大次数；

2.根据权利要求1所述的一种基于深度强化学习和PID控制器的无人机导航方法，其特征在于：在步骤S1中，所述无人机状态信息

其中，x_t为t时刻无人机当前所在位置的x轴坐标，y_t为t时刻无人机当前所在位置的y轴坐标，z_t为t时刻无人机当前所在位置的z轴坐标，roll_t为t时刻无人机的滚转角，pitch_t为t时刻无人机的俯仰角，yaw_t为t时刻无人机的偏航角，为t时刻无人机在x轴上的线速度分量，/>为t时刻无人机在y轴上的线速度分量，/>为t时刻无人机在z轴上的线速度分量，/>为t时刻无人机的角速度，radar_t为无人机携带的雷达测距仪反馈的障碍物信息，step_t为无人机已执行的动作次数；所述目标g为无人机需要到达的位置坐标g_x,g_y,g_z。

3.根据权利要求1所述的一种基于深度强化学习和PID控制器的无人机导航方法，其特征在于：在步骤S2中，所述深度强化学习网络包括动作网络、Q值网络、原始经验存储池、经验扩展模块、经验回放池，其依次连接构成；所述PID控制器模块包括位置控制器、姿态控制器。

4.根据权利要求1所述的一种基于深度强化学习和PID控制器的无人机导航方法，其特征在于：所述S23具体包括以下步骤：

S231、将S23中的无人机参数向量等价扩充为如下的矩阵将S21中的无人机状态向量分别与矩阵X'_t的每一行拼接，输入到Q值网络中，得到状态动作值估计矩阵Q；其中，所述无人机参数向量中的每一个元素为t时刻无人机在水平方向上的加速度/>t时刻无人机在垂直方向上的加速度/>或t时刻无人机的偏航角度/>

S232、取出状态动作值估计矩阵Q的所有对角线元素构成动作估计Q值集合{Q_ii}，根据动作估计Q值集合中最大的元素得到源动作其中，所述源动作/>为t时刻无人机在水平方向移动/>t时刻无人机在垂直方向移动转向/>或t时刻无人机的偏航角度/>

S233、从S23中的无人机参数向量X_t中取出源动作对应的参数/>将/>与/>进行组合作为t时刻无人机需要执行的最优动作/>其中，t为当前时刻，N为源动作的个数，i为源动作/>的索引，i∈[1,2,…,N]。

5.根据权利要求1所述的一种基于深度强化学习和PID控制器的无人机导航方法，其特征在于：所述S24具体包括：从所述无人机状态向量中得到无人机当前位置pos_t、当前姿态rpy_t、当前线速度并根据下式得到无人机目标状态：t时刻无人机需要到达的下一目标位置/>以及t时刻无人机需要到达下一位置时的目标线速度/>和t时刻无人机需要到达下一位置时的目标姿态/>

6.根据权利要求1所述的一种基于深度强化学习和PID控制器的无人机导航方法，其特征在于：在步骤S3中，所述将原始经验存储池中的原始经验输入经验扩展模块，得到扩展经验，并将扩展经验存储于经验回放池中，具体过程包括以下步骤：

S31、判断当前轨迹的中止状态类型，若是因与障碍物发生碰撞而结束，则将原始经验s_t,r_t,s_t+1,g直接存储进经验回放池中；

S32、若是因到达最大步长限制超时而结束，则首先将原始经验s_t,r_t,s_t+1,g中所有的g替换为无人机最后时刻到达的三维坐标，然后按下述S33继续扩展经验；

S33、若因到达目标点而正常结束，则随机从原始经验存储池的原始经验中选取四个无人机已经历过的位置，输入到经验扩展模块中，分别将四个无人机已经历过位置的虚拟目标替换掉原始目标g，再依据奖励函数重新计算奖励值r'_t，并将成功的扩展经验s_t,r'_t,s_t+1,ag存储于经验回放池中，其中，ag为随机选取的无人机已经历过的位置。

7.根据权利要求1所述的一种基于深度强化学习和PID控制器的无人机导航方法，其特征在于：在步骤S3中，所述利用扩展经验更新深度强化学习网络得到训练后的深度强化学习模型，具体过程包括以下步骤：

S41、从经验回放池中抽取128个经验，基于损失函数L(θ_Q)采用最小化均方贝尔曼误差法更新深度强化学习网络中Q值网络参数θ_Q；

S42、基于Q值网络累积的梯度，使用随机梯度下降法来更新深度强化学习网络中的动作网络/>并软更新Q值网络的目标网络/>中的参数θ'_Q和动作网络的目标网络/>中的参数θ'_x；

S43、基于更新后的深度强化学习网络重复S41-S42，直至达到最大训练回合数，完成对深度强化学习网络的训练。