CN112836852A

CN112836852A - 一种基于强化学习的无人平台路径规划方法及装置

Info

Publication number: CN112836852A
Application number: CN202011638903.4A
Authority: CN
Inventors: 吴宇航; 查文中; 孟祥瑞; 李康
Original assignee: CETC Information Science Research Institute
Current assignee: CETC Information Science Research Institute
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-25
Anticipated expiration: 2040-12-31
Also published as: CN112836852B

Abstract

本发明实施例公开了一种本发明实施例提供的基于强化学习的无人平台路径规划方法及装置，采用传统的全连接深度神经网络，无需地图先验知识，因此，可以适应完全未知的环境。并且，通与环境的不断交互学习，强化学习得到环境信息，使无人平台可以在未知环境中实现路径规划。同时，本发明实施例根据随机离散策略生成训练数据，利用该数据可训练深度神经网络，使无人平台由所在区域的任意初始位置出发到任意目标位置。

Description

一种基于强化学习的无人平台路径规划方法及装置

技术领域

本发明涉及无人平台技术领域，特别是涉及一种基于强化学习的无人平台路径规划方法及装置。

背景技术

近年来，随着人工智能和无线传输技术的迅速发展，无人应用逐渐在众多领域中得到重视，其中，无人汽车、无人飞机和无人探测器等无人平台，越来越多地应用于军事、工业交通以及探测等领域。

路径规划是无人平台实现自主控制的重要前提条件。通过路径规划，无人平台可在设定区域内找到一条从起点到终点的无碰撞安全路径。目前，无人平台的路径规划方法主要包括以下几个方面：1)基于马尔可夫过程的Q学习(Q-learning)算法；2)基于模拟退火的Q学习算法(SA-Q)；3)传统的控制率方法；4)基于竞争网络结构的改进深度双Q网络方法。

但是，上述路径规划的方法均具有不同程度的缺陷，其中，Q-learning算法的路径规划方法，对于高维状态的空间拟合效果较差，并且该方法需要具备先验知识，不能实现对未知环境的路径规划；基于模拟退火的Q学习算法，同样对于高维状态空间拟合效果较差，且缺乏起点到终点的中间状态，不利于模型学习；控制率方法应用范围受限，且该方法不具备学习功能，不能从环境中学习到路径规划的智能行为；改进深度双Q网络方法，需要具备环境的先验知识，并不能应用于未知环境。因此，亟需一种能够面向未知环境且可自主学习的路径规划方法。

发明内容

本发明实施例中提供了一种基于强化学习的无人平台路径规划方法及装置，以解决现有路径规划方法无法应用于未知环境，并且无法自主学习的问题。

为了解决上述技术问题，本发明实施例公开了如下技术方案：

一种基于强化学习的无人平台路径规划方法，包括：

建立路径规划的目标网络和训练网络，所述目标网络和训练网络均为深度神经网络，且目标网络与训练网络具有相同的结构和初始参数值；

根据目标网络和训练网络构建目标函数；

采用随机离散策略生成多组训练数据；

利用训练数据以及目标函数修正目标网络和训练网络的参数值；

根据修正后的训练网络生成路径规划模型；

获取无人平台的当前位置和目标位置；

利用路径规划模型获得无人平台从当前位置向目标位置运行的路径规划数据。

可选的，所述根据目标网络和训练网络构建目标函数，包括：

按照以下公式建立目标函数：

Loss＝(r+γmaxQ(a')-Q(a_i))²

其中，maxQ(a')为以目标网络为计算基础，所有行动方向对应总体收益中的最大值；

Q(a_i)为以训练网络为计算基础，行动方向为a_i时的总体收益；

γ为预设的常数；

r为无人平台本次行动获得的收益；

Loss为目标函数的函数值。

可选的，所述无人平台本次行动获得的收益r由以下公式计算得到：

其中，x_i为无人平台当前位置的横坐标；

y_i为当前位置的纵坐标；

x_goal为目标位置的横坐标；

y_goal为目标位置的纵坐标。

可选的，所述采用随机离散策略生成多组训练数据，包括：

将无人平台所在位置的地图进行网格化处理，其中，每个网格对应一个坐标(x，y)；

随机设定无人平台的初始位置(x0,y0)和目标位置(xgoal,ygoal)；

根据无人平台由初始位置(x0,y0)向目标位置(xgoal,ygoal)移动时所经过网格的坐标，获取训练数据(s,a_i,r,s')，所述训练数据为无人平台移动到相邻网格时产生的数据，其中，s为当前无人平台的状态：s＝[x_i,y_i,x_goal,y_goai]，i为无人平台移动的次数；a_i为随机选择出的行动方向；r为无人平台按照行动方向a_i行动后的收益；s'为无人平台按照行动方向a_i行动后的状态s'＝[x'_i,y'_i,x_goal,y_goal]。

可选的，所述利用训练数据和目标函数修正目标网络以及训练网络的参数值，包括：

随机选取一组训练数据(s,a_i,r,s')；

根据所述训练数据，获得训练网络计算行动方向为a_i时的总体收益Q(a_i)；

根据所述训练数据，获得目标网络计算所有行动方向对应总体收益的最大值maxQ(a')；

利用Q(a_i)和maxQ(a')计算目标函数值；

根据目标函数值更新训练网络中每个参数的参数值；

记录训练网络中参数更新次数S，以及参数复制标记N，N的值随着训练网络参数更新的次数增加；

判断参数复制标记N是否大于预设值，

如果是，将训练网络中每个参数的参数值复制给目标网络对应的参数，并使N＝0；重新执行随机选取一组训练数据(s,a_i,r,s')的步骤以及后续步骤，直到参数更新次数S大于预设更新次数；

如果否，重新执行随机选取一组训练数据(s,a_i,r,s')的步骤以及后续步骤，直到参数更新次数S大于预设更新次数。

可选的，所述根据目标函数值更新训练网络中每个参数的参数值，包括：

利用目标函数值计算训练网络中每个参数的梯度；

基于梯度下降算法，根据所述梯度更新训练网络中每个参数的参数值。

可选的，所述根据修正后的训练网络生成路径规划模型，包括：

判断参数更新次数S是否大于预设更新次数，

如果是，根据当前训练网络建立路径规划模型；

如果否，继续利用训练数据和目标函数修正目标网络以及训练网络的参数值。

可选的，所述利用路径规划模型获得无人平台从当前位置向目标位置运行的路径规划数据，包括：

将无人平台的当前位置和目标位置输入路径规划模型；

获取路径规划模型根据当前位置和目标位置输出的路径规划数据；

判断无人平台根据路径规划数据行动后是否到达目标位置，

如果否，更新无人平台的当前位置，并重新将无人平台的当前位置和目标位置输入路径规划模型，获取新的路径规划数据，直至无人平台到达目标位置；

如果是，停止路径规划。

一种基于强化学习的无人平台路径规划装置，包括：

网络建立单元，用于建立路径规划的目标网络和训练网络，所述目标网络和训练网络均为深度神经网络，且目标网络与训练网络具有相同的结构和初始参数值；

目标函数构建单元，用于根据目标网络和训练网络构建目标函数；

训练数据生成单元，用于采用随机离散策略生成多组训练数据；

参数值修正单元，用于利用训练数据以及目标函数修正目标网络和训练网络的参数值；

路径规划模型生成单元，用于根据修正后的训练网络生成路径规划模型；

位置获取单元，用于获取无人平台的当前位置和目标位置；

路径规划数据获取单元，用于利用路径规划模型获得无人平台从当前位置向目标位置运行的路径规划数据。

可选的，所述训练数据生成单元，包括：

地图网格化子单元，用于将无人平台所在位置的地图进行网格化处理，其中，每个网格对应一个坐标(x，y)；

位置随机设定子单元，用于随机设定无人平台的初始位置(x0,y0)和目标位置(xgoal,ygoal)；

训练数据获取子单元，用于根据无人平台由初始位置(x0,y0)向目标位置(xgoal,ygoal)移动时所经过网格的坐标，获取训练数据(s,a_i,r,s')，所述训练数据为无人平台移动到相邻网格时产生的数据，其中，s为当前无人平台的状态：s＝[x_i,y_i,x_goal,y_goal]，i为无人平台移动的次数；a_i为随机选择出的行动方向；r为无人平台按照行动方向a_i行动后的收益；s'为无人平台按照行动方向a_i行动后的状态s'＝[x'_i,y'_i,x_goal,y_goal]。

由以上技术方案可见，本发明实施例提供的基于强化学习的无人平台路径规划方法及装置，采用传统的全连接深度神经网络，无需地图先验知识，因此，可以适应完全未知的环境。并且，通与环境的不断交互学习，强化学习得到环境信息，使无人平台可以在未知环境中实现路径规划。同时，本发明实施例根据随机离散策略生成训练数据，利用该数据可训练深度神经网络，使无人平台由所在区域的任意初始位置出发到任意目标位置。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于强化学习的无人平台路径规划方法的流程示意图；

图2为本发明实施例提供的一种图1中步骤S103的流程示意图；

图3为本发明实施例提供的一种图1中步骤S104的流程示意图；

图4为本发明实施例提供的一种图1中步骤S107的流程示意图；

图5为本发明实施例提供的一种基于强化学习的无人平台路径规划装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

图1为本发明公开实施例提供的一种基于强化学习的无人平台路径规划方法的流程图，如图1所示，该方法包括以下步骤。

步骤S101：建立路径规划的目标网络和训练网络。

建立路径规划所需的目标网络和训练网络，其中训练网络的作用为：在实际应用中生成路径规划数据；目标网络的作用为：构建目标函数，以优化训练网络。

目标网络和训练网络均为深度神经网络，具有相同的结构和初始参数值，在本发明公开的实施例中，目标网络和训练网络采用全连接的普通深度神经网络即可，不需要事先具有地图数据作为先验知识。

在本发明公开的一个具体实施例中，可预先设定目标网络和训练网络的层级以及每一层的神经元数量。例如，目标网络和神经网络为五层结构，包含一个输入层、一个输出层以及三个隐含层，其中，输入层用于向隐含层输入数据，隐含层用于根据接收到的数据进行计算并生成计算结果发送给输出层，输出层用于将计算结果向外输出。

输入层的神经元数量为4个，分别对应无人平台路径规划中需要输入的当前位置坐标(x_i，y_i)和目标位置坐标(x_goal，y_goal)。输出层的神经元数量为4个，分别对应无人平台的四个运动方向：上、下、左、右。每一层隐含层的神经元数量可以设置为10。

每个神经元都具有权重和偏置：w_i,j，b_i,j，在后续更新训练网络和目标网络参数的步骤中，更新的参数即为权重和偏置。

其中：i为网络层数；j为神经元序列。

激活函数为sigmoid：

步骤S102：根据目标网络和训练网络构建目标函数。

目标函数约定了深度神经网络的学习目标，利用目标函数对深度神经网络进行评估，判定神经网络训练的优劣。在本发明公开的一个实施例中，按照以下公式建立目标函数：

Loss＝(r+γmaxQ(a')-Q(a_i))²

γ为预设的常数；

r为无人平台本次行动获得的收益；

Loss为目标函数的函数值。

为保证无人平台能够选择最优路线到达目标位置，需要计算每次行动后的收益r。每次行动后的收益与无人平台和目标位置之间的距离成反比，无人平台距离目标位置越近，本次行动的收益越高，以保证激励无人平台不断靠近目标位置。在本发明公开的一个具体实施例中，以无人平台本次行动后的当前位置坐标到目标位置坐标的欧拉距离的倒数作为本次行动的收益。

收益r可采用以下公式计算得到：

其中，x_i为无人平台当前位置的横坐标；

y_i为当前位置的纵坐标；

x_goal为目标位置的横坐标；

y_goal为目标位置的纵坐标。

如果无人平台进入障碍物位置，则设置r为负数，例如-1。如果无人平台到达目标位置，可设置r为一个较大的正数，这个正数大于1，例如10。

下面为收益的举例：

在本发明中，也可以采用其他方式计算收益r。

步骤S103：采用随机离散策略生成多组训练数据。

为保证训练网络有足够的数据进行训练，需要生成多组训练数据。通过充分利用训练数据，使强化学习得到收敛。在本发明公开的实施例中，采用随机离散策略生成多组训练数据(s,a_i,r,s')，其中，s为当前无人平台的状态，s＝[x_i,y_i,x_goal,y_goal]，i为无人平台移动的次数；a_i为无人平台的行动方向；r为无人平台按照行动方向a_i移动后的收益；s'为无人平台按照行动方向a_i移动后的状态，s'＝[x'_i,y'_i,x_goal,y_goal]。生成训练数据的具体方式将在后述实施例中说明。

步骤S104：利用训练数据以及目标函数修正目标网络和训练网络的参数值。

根据步骤S102中的方法，计算目标函数值，在本发明公开的一个实施例中，每次随机选取一组训练数据(s,a_i,r,s')计算出一个目标函数值，一个目标函数可修正一次训练网络的参数值，利用多组训练数据可计算出多个目标函数值，从而对训练网络的参数值进行多次修正。利用训练数据计算目标函数值的具体方法将在后述实施例中说明。

在本发明公开的实施例中，根据目标函数值计算训练网络中每个参数的梯度，并利用梯度下降算法更新训练网络的所有参数值。并且，在训练网络更新一定次数后，将目标网络中的所有参数值更新为训练网络中对应的参数值。通过目标函数值修正目标网络和训练网络的参数值，具体实现步骤可参照后述实施例。

步骤S105：根据修正后的训练网络生成路径规划模型。

训练网络的参数值更新到一定次数后，便不再进行修正，根据完成修正后的训练网络生成路径规划模型，通过该模型能够获得无人平台在当前位置分别向四个方向运行时的总体收益，并选取其中一个最大的总体收益所对应的运行方向作为路径规划数据发送至无人平台，指导无人平台前进。根据修正后的训练网络生成路径规划模型的具体方法将在后述实施例中说明。

步骤S106：获取无人平台的当前位置和目标位置。

获取无人平台当前位置坐标(x_i，y_i)和目标位置坐标(x_goal，y_goal)。

步骤S107：利用路径规划模型获得无人平台从当前位置向目标位置运行的路径规划数据。将无人平台的当前位置坐标和目标位置坐标输入路径规划模型后，路径规划模型能够获得无人平台从当前位置向目标位置运行的路径规划数据，其具体方法将在后述实施例中说明。

由于无人平台可能到达所在地图的每个位置，同时，目标位置可能根据任务需求而不同，因此，在本发明公开的实施例中，采用随机离散策略生成训练数据。在本发明提供的一个实施例中，前述步骤S103采用随机离散策略生成多组训练数据，如图2所示，可包括以下子步骤。

步骤S301：将无人平台所在位置的地图进行网格化处理。

对地图进行离散化处理，根据地图的大小，将地图网格化，即每个网格占据一个坐标(x，y)，无人平台通过上下左右的运动方式可以实现从一个网格到达相邻网格。

步骤S302：随机设定无人平台的初始位置(x₀,y₀)和目标位置(x_goal,y_goal)。

在本发明公开的实施例中，可采用随机算法，设定无人平台的初始位置和目标位置。步骤S303：根据无人平台由初始位置(x₀,y₀)向目标位置(x_goal,y_goal)移动时所经过网格的坐标，获取训练数据(s,a_i,r,s')。

无人平台移动的方向为上、下、左、右四种，并且每次只移动一个网格，即无人平台每次只移动到向其上、下、左或右方向上的相邻网格。训练数据为无人平台移动到相邻网格后产生的数据，例如，某个训练数据(s,a_i,r,s')为无人平台在其当前位置朝a_i方向移动一个网格后产生的数据。其中，s为当前无人平台的状态：s＝[x_i,y_i,x_goal,y_goal]，i为无人平台移动的次数；a_i为无人平台在第i次移动时，随机选择出的行动方向；r为无人平台按照行动方向a_i移动后的收益；s'为无人平台按照行动方向a_i移动后的状态s'＝[x'_i,y'_i,x_goal,y_goal]。记录无人平台由初始位置向目标位置移动时产生的每一组训练数据，即记录无人平台每一步的训练数据，从而能够获得大量随机离散的训练数据用于对训练网络进行训练。训练数据可以是无人平台由一个初始位置向目标位置移动时得到的，也可以是无人平台从多个初始位置向多个目标位置移动时得到的。在获取训练数据的过程中，无人平台的移动可以是真实移动，也可以是虚拟移动。

在本发明提供的一个实施例中，前述步骤S104利用训练数据和目标函数修正目标网络以及训练网络的参数值，如图3所示，可包括以下子步骤。

步骤S401：随机选取一组训练数据(s,a_i,r,s')。

在所有训练数据中，随机选取一组没有参与过计算的训练数据(s,a_i,r,s')，例如，训练数据(s,a₃,r,s')，s为当前无人平台的状态，s＝[5,5,100,100]，i为无人平台移动的次数，i＝3；a₃为无人平台在第3次移动时，随机选择出的行动方向，a₃为向上；r为无人平台按照行动方向a₃移动后的收益；s'为无人平台按照行动方向a₃移动后的状态s'＝[5,6，100,100]。

步骤S402：根据训练数据，获得训练网络计算行动方向为a_i时的总体收益Q(a_i)。

训练网络和目标网络输出的数据为无人平台分别向上、下、左和右方向行动后产生的总体收益。根据训练数据中的a_i，可以获得训练网络在s状态下，选择行动方向为a_i时的总体收益Q(a_i)。例如，根据训练数据(s,a_i,r,s')，可获得训练网络在s状态下，选择行动方向为a₃后的总体收益Q(a₃)。

步骤S403：根据训练数据，获得目标网络计算所有行动方向对应总体收益的最大值maxQ(a′)。

例如，根据训练数据(s,a_i,r,s')，可以分别获得目标网络在s'状态下，向上、下、左、右移动后的总体收益,并得知目标网络在s'状态下移动后最大的总体收益maxQ(a')。

步骤S404：根据Q(a_i)和maxQ(a')计算目标函数值。

根据前述实施例中目标函数的公式，计算目标函数值。

Loss＝(r+γmaxQ(a')-Q(a_i))²，Loss的值即为目标函数值。

步骤S405：根据目标函数值更新训练网络中每个参数的参数值。

利用目标函数值计算训练网络中每个参数的梯度，基于梯度下降算法，利用目标函数值对训练网络的某参数求偏导可以得到该参数的梯度值

其中y代表loss，x代表训练网络中的某参数。

利用梯度下降算法更新所有参数的参数值，即每一个参数减去对应的梯度值。通过参数这样不断地更新，最后Loss就可以收敛到最小值。

步骤S406：记录训练网络中参数更新次数S，以及参数复制标记N。

S和N的初始值为0，N的值随着训练网络参数更新的次数增加。每对训练网络中的参数更新一次，S和N的值均增加1，即，对训练网络的参数更新一次，S＝1，N＝1；对训练网络的参数更新两次，S＝2，N＝2。

步骤S407：判断参数复制标记N是否大于预设值。

预先设置一个预设值，例如100，判断N是否大于预设次数100。

如果N大于预设值，执行步骤S408：将训练网络中每个参数的参数值复制给目标网络对应的参数，并且使N＝0。

训练网络与目标网络的结构完全相同，若训练网络中参数更新的次数已经大于预设值，则将训练网络中各个参数的参数值复制给目标网络中的对应参数，使训练网络和目标网络的参数值再次完全一致。同时，将N的值重新归零，以便重新记录训练网络中参数更新的次数，以保证训练网络的参数值更新到一定次数后，便更新一次目标网络的参数值。例如，预设值为100，若N＝101，则将训练网络中各个参数的参数值复制给目标网络中的对应参数，同时，使N＝0。当训练网络再次更新参数值时，N＝1，重新统计训练网络更新的次数。

在将N清零后，继续执行步骤S401随机选取一组训练数据(s,a_i,r,s')以及后续步骤，直到参数更新次数S大于预设更新次数。

在本发明公开的实施例中，训练网络的参数值每更新一次，S的值增加1，而N的值会在达到预设值后归零，重新随着训练网络参数值的更新增加1。因此，S的值最终必然大于N。

判断参数更新次数S是否大于预设更新次数，例如，预设更新次数可以为1000。

如果S大于预设更新次数，则停止更新训练网络的参数值，并根据当前训练网络建立路径规划模型。

如果S不大于预设更新次数，则重新执行随机选取一组训练数据(s,a_i,r,s')的步骤以及后续步骤，直到参数更新次数S大于预设更新次数。

如果N不大于预设值，重新执行步骤S401随机选取一组训练数据(s,a_i,r,s')以及后续步骤，直到参数更新次数S大于预设更新次数。

若N不大于预设次数，则不更新目标网络中各参数的参数值。重新随机选取一组未经过运算的训练数据计算目标函数值，并且，根据新计算的目标函数值再一次更新训练网络中每个参数的参数值。重复上述步骤，直到N大于预设值，或者，参数更新次数S大于预设更新次数。

在本发明公开的一个实施例中，前述实施例中的步骤S105根据修正后的训练网络生成路径规划模型，包括以下步骤。

判断参数更新次数S是否大于预设更新次数，在本发明公开的实施例中，训练网络的参数值每更新一次，S的值增加1，而N的值会在达到预设值后归零，重新随着训练网络参数值的更新增加1。因此，S的值最终必然大于N。

如果S大于预设更新次数，根据当前训练网络建立路径规划模型。

训练网络的输出数据为无人平台分别在四个方向上的总体收益Q(a₁)、Q(a₂)、Q(a₃)和Q(a₄)，根据当前更新的训练网络建立的路径规划模型将在四个总体收益中，选取最大的一个所对应的方向作为路径规划数据，并将该数据发送至无人平台，指导无人平台向目标位置前进。

将无人平台的当前位置和目标位置输入至路径规划模型，路径规划模型生成一个路径规划数据，即四个方向中的一个，根据该数据无人平台运行一次。更新无人平台运行后的状态，将新的当前位置和目标位置输入至路径规划模型，不断重复上述步骤，直到无人平台到达目标位置位置，由此，路径规划模型可规划出无人平台从初始位置到目标位置之间的完整路径。

如果否，继续执行步骤S104利用训练数据和目标函数修正目标网络以及训练网络的参数值。

如果S不大于预设更新次数，则继续利用训练数据和目标函数修正目标网络以及训练网络的参数值，重新随机选取一组没有参与过运算的训练数据，计算目标函数值，并利用目标函数值修正训练网络的参数值，并在N达到预设值后，更新目标网络的参数值。

在本发明公开的一个实施例中，前述步骤S107利用路径规划模型获得无人平台从当前位置向目标位置运行的路径规划数据，如图4所示，可包括以下子步骤。

步骤S701：将无人平台的当前位置和目标位置输入路径规划模型。

获取无人平台的当前位置坐标(x₀,y₀)和目标位置坐标(x_goal,y_goal)并输入至路径规划模型。

步骤S702：获取路径规划模型根据当前位置和目标位置输出的路径规划数据。

路径规划模型中的训练网络根据输入的当前位置坐标和目标位置坐标，计算出无人平台在当前位置分别向四个方向运行的总体收益，路径规划模型在四个总体收益中选取一个最大的总体收益，并将该最大总体收益对应的方向作为路径规划数据发送至无人平台步骤S703：判断无人平台根据路径规划数据行动后是否到达目标位置。

无人平台根据路径规划数据移动一次后，判断无人平台的当前位置的坐标与目标位置的坐标是否相同。

如果无人平台根据路径规划数据移动一次后没有到达目标位置，重新执行步骤S701以及后续步骤。

更新无人平台的当前位置，并重新将无人平台的当前位置和目标位置输入路径规划模型，获取新的路径规划数据，直至无人平台到达目标位置。

如果无人平台根据路径规划数据行动后到达目标位置，则说明本层路径规划任务已经完成，停止路径规划。

图5为本发明公开的一种基于强化学习的无人平台路径规划装置的结构图，如图5所示，该装置包括：

网络建立单元11，被配置为建立路径规划的目标网络和训练网络，目标网络和训练网络均为深度神经网络，且目标网络与训练网络具有相同的结构和初始参数值；

目标函数构建单元12，被配置为根据目标网络和训练网络构建目标函数；

训练数据生成单元13，被配置为采用随机离散策略生成多组训练数据；

参数值修正单元14，被配置为利用训练数据以及目标函数修正目标网络和训练网络的参数值；

路径规划模型生成单元15，被配置为根据修正后的训练网络生成路径规划模型；

位置获取单元16，被配置为获取无人平台的当前位置和目标位置；

路径规划数据获取单元17，被配置为利用路径规划模型获得无人平台从当前位置向目标位置运行的路径规划数据。

在本发明公开的一个实施例中，前述实施例中的训练数据生成单元13，包括以下子单元。地图网格化子单元，被配置为将无人平台所在位置的地图进行网格化处理，其中，每个网格对应一个坐标(x，y)；

位置随机设定子单元，被配置为随机设定无人平台的初始位置(x0,y0)和目标位置(xgoal,ygoal)；

训练数据获取子单元，被配置为根据无人平台由初始位置(x0,y0)向目标位置(xgoal,ygoal)移动时所经过网格的坐标，获取训练数据(s,a_i,r,s')，训练数据为无人平台移动到相邻网格时产生的数据，其中，s为当前无人平台的状态：s＝[x_i,y_i,x_goal,y_goal]，i为无人平台移动的次数；a_i为随机选择出的行动方向；r为无人平台按照行动方向a_i行动后的收益；s'为无人平台按照行动方向a_i行动后的状态s'＝[x'_i,y'_i,x_goal,y_goal]。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于强化学习的无人平台路径规划方法，其特征在于，包括：

根据目标网络和训练网络构建目标函数；

采用随机离散策略生成多组训练数据；

根据修正后的训练网络生成路径规划模型；

获取无人平台的当前位置和目标位置；

2.根据权利要求1所述的方法，其特征在于，所述根据目标网络和训练网络构建目标函数，包括：

按照以下公式建立目标函数：

Loss＝(r+γmaxQ(a′)-Q(a_i))²

其中，maxQ(a′)为以目标网络为计算基础，所有行动方向对应总体收益中的最大值；

γ为预设的常数；

r为无人平台本次行动获得的收益；

Loss为目标函数的函数值。

3.根据权利要求2所述的方法，其特征在于，所述无人平台本次行动获得的收益r由以下公式计算得到：

其中，x_i为无人平台当前位置的横坐标；

y_i为当前位置的纵坐标；

x_goal为目标位置的横坐标；

y_goal为目标位置的纵坐标。

4.根据权利要求3所述的方法，其特征在于，所述采用随机离散策略生成多组训练数据，包括：

随机设定无人平台的初始位置(x₀，y₀)和目标位置(x_goa1，y_goal)；

根据无人平台由初始位置(x₀，y₀)向目标位置(x_goal，y_goal)移动时所经过网格的坐标，获取训练数据(s，a_i，r，s′)，所述训练数据为无人平台移动到相邻网格时产生的数据，其中，s为当前无人平台的状态：s＝[x_i，y_i，x_goal，y_goal]，i为无人平台移动的次数；a_i为随机选择出的行动方向；r为无人平台按照行动方向a_i行动后的收益；s′为无人平台按照行动方向a_i行动后的状态s′＝[x′_i，y′_i，x_goal，y_goal]。

5.根据权利要求4所述的方法，其特征在于，所述利用训练数据和目标函数修正目标网络以及训练网络的参数值，包括：

随机选取一组训练数据(s，a_i，r，s′)；

根据所述训练数据，获得目标网络计算所有行动方向对应总体收益的最大值maxQ(a′)；

利用Q(a_i)和maxQ(a′)计算目标函数值；

根据目标函数值更新训练网络中每个参数的参数值；

判断参数复制标记N是否大于预设值，

如果是，将训练网络中每个参数的参数值复制给目标网络对应的参数，并使N＝0；重新执行随机选取一组训练数据(s，a_i，r，s′)的步骤以及后续步骤，直到参数更新次数S大于预设更新次数；

如果否，重新执行随机选取一组训练数据(s，a_i，r，s′)的步骤以及后续步骤，直到参数更新次数S大于预设更新次数。

6.根据权利要求5所述的方法，其特征在于，所述根据目标函数值更新训练网络中每个参数的参数值，包括：

利用目标函数值计算训练网络中每个参数的梯度；

7.根据权利要求5所述的方法，其特征在于，所述根据修正后的训练网络生成路径规划模型，包括：

判断参数更新次数S是否大于预设更新次数，

如果是，根据当前训练网络建立路径规划模型；

8.根据权利要求1所述的方法，其特征在于，所述利用路径规划模型获得无人平台从当前位置向目标位置运行的路径规划数据，包括：

将无人平台的当前位置和目标位置输入路径规划模型；

判断无人平台根据路径规划数据行动后是否到达目标位置，

如果是，停止路径规划。

9.一种基于强化学习的无人平台路径规划装置，其特征在于，包括：

位置获取单元，用于获取无人平台的当前位置和目标位置；

10.根据权利要求9所述的装置，其特征在于，所述训练数据生成单元，包括：

位置随机设定子单元，用于随机设定无人平台的初始位置(x₀，y₀)和目标位置(x_goal，y_goal)；

训练数据获取子单元，用于根据无人平台由初始位置(x₀，y₀)向目标位置(x_goal，y_goal)移动时所经过网格的坐标，获取训练数据(s，a_i，r，s′)，所述训练数据为无人平台移动到相邻网格时产生的数据，其中，s为当前无人平台的状态：s＝[x_i，y_i，x_goal，y_goal]，i为无人平台移动的次数；a_i为随机选择出的行动方向；r为无人平台按照行动方向a_i行动后的收益；s′为无人平台按照行动方向a_i行动后的状态s′＝[x′_i，y′_i，x_goal，y_goal]。