CN112836852A - 一种基于强化学习的无人平台路径规划方法及装置 - Google Patents

一种基于强化学习的无人平台路径规划方法及装置 Download PDF

Info

Publication number
CN112836852A
CN112836852A CN202011638903.4A CN202011638903A CN112836852A CN 112836852 A CN112836852 A CN 112836852A CN 202011638903 A CN202011638903 A CN 202011638903A CN 112836852 A CN112836852 A CN 112836852A
Authority
CN
China
Prior art keywords
network
unmanned platform
training
path planning
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011638903.4A
Other languages
English (en)
Other versions
CN112836852B (zh
Inventor
吴宇航
查文中
孟祥瑞
李康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Information Science Research Institute
Original Assignee
CETC Information Science Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Information Science Research Institute filed Critical CETC Information Science Research Institute
Priority to CN202011638903.4A priority Critical patent/CN112836852B/zh
Publication of CN112836852A publication Critical patent/CN112836852A/zh
Application granted granted Critical
Publication of CN112836852B publication Critical patent/CN112836852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种本发明实施例提供的基于强化学习的无人平台路径规划方法及装置,采用传统的全连接深度神经网络,无需地图先验知识,因此,可以适应完全未知的环境。并且,通与环境的不断交互学习,强化学习得到环境信息,使无人平台可以在未知环境中实现路径规划。同时,本发明实施例根据随机离散策略生成训练数据,利用该数据可训练深度神经网络,使无人平台由所在区域的任意初始位置出发到任意目标位置。

Description

一种基于强化学习的无人平台路径规划方法及装置
技术领域
本发明涉及无人平台技术领域,特别是涉及一种基于强化学习的无人平台路径规划方法及装置。
背景技术
近年来,随着人工智能和无线传输技术的迅速发展,无人应用逐渐在众多领域中得到重视,其中,无人汽车、无人飞机和无人探测器等无人平台,越来越多地应用于军事、工业交通以及探测等领域。
路径规划是无人平台实现自主控制的重要前提条件。通过路径规划,无人平台可在设定区域内找到一条从起点到终点的无碰撞安全路径。目前,无人平台的路径规划方法主要包括以下几个方面:1)基于马尔可夫过程的Q学习(Q-learning)算法;2)基于模拟退火的Q学习算法(SA-Q);3)传统的控制率方法;4)基于竞争网络结构的改进深度双Q网络方法。
但是,上述路径规划的方法均具有不同程度的缺陷,其中,Q-learning算法的路径规划方法,对于高维状态的空间拟合效果较差,并且该方法需要具备先验知识,不能实现对未知环境的路径规划;基于模拟退火的Q学习算法,同样对于高维状态空间拟合效果较差,且缺乏起点到终点的中间状态,不利于模型学习;控制率方法应用范围受限,且该方法不具备学习功能,不能从环境中学习到路径规划的智能行为;改进深度双Q网络方法,需要具备环境的先验知识,并不能应用于未知环境。因此,亟需一种能够面向未知环境且可自主学习的路径规划方法。
发明内容
本发明实施例中提供了一种基于强化学习的无人平台路径规划方法及装置,以解决现有路径规划方法无法应用于未知环境,并且无法自主学习的问题。
为了解决上述技术问题,本发明实施例公开了如下技术方案:
一种基于强化学习的无人平台路径规划方法,包括:
建立路径规划的目标网络和训练网络,所述目标网络和训练网络均为深度神经网络,且目标网络与训练网络具有相同的结构和初始参数值;
根据目标网络和训练网络构建目标函数;
采用随机离散策略生成多组训练数据;
利用训练数据以及目标函数修正目标网络和训练网络的参数值;
根据修正后的训练网络生成路径规划模型;
获取无人平台的当前位置和目标位置;
利用路径规划模型获得无人平台从当前位置向目标位置运行的路径规划数据。
可选的,所述根据目标网络和训练网络构建目标函数,包括:
按照以下公式建立目标函数:
Loss=(r+γmaxQ(a')-Q(ai))2
其中,maxQ(a')为以目标网络为计算基础,所有行动方向对应总体收益中的最大值;
Q(ai)为以训练网络为计算基础,行动方向为ai时的总体收益;
γ为预设的常数;
r为无人平台本次行动获得的收益;
Loss为目标函数的函数值。
可选的,所述无人平台本次行动获得的收益r由以下公式计算得到:
Figure BDA0002879392320000021
其中,xi为无人平台当前位置的横坐标;
yi为当前位置的纵坐标;
xgoal为目标位置的横坐标;
ygoal为目标位置的纵坐标。
可选的,所述采用随机离散策略生成多组训练数据,包括:
将无人平台所在位置的地图进行网格化处理,其中,每个网格对应一个坐标(x,y);
随机设定无人平台的初始位置(x0,y0)和目标位置(xgoal,ygoal);
根据无人平台由初始位置(x0,y0)向目标位置(xgoal,ygoal)移动时所经过网格的坐标,获取训练数据(s,ai,r,s'),所述训练数据为无人平台移动到相邻网格时产生的数据,其中,s为当前无人平台的状态:s=[xi,yi,xgoal,ygoai],i为无人平台移动的次数;ai为随机选择出的行动方向;r为无人平台按照行动方向ai行动后的收益;s'为无人平台按照行动方向ai行动后的状态s'=[x'i,y'i,xgoal,ygoal]。
可选的,所述利用训练数据和目标函数修正目标网络以及训练网络的参数值,包括:
随机选取一组训练数据(s,ai,r,s');
根据所述训练数据,获得训练网络计算行动方向为ai时的总体收益Q(ai);
根据所述训练数据,获得目标网络计算所有行动方向对应总体收益的最大值maxQ(a');
利用Q(ai)和maxQ(a')计算目标函数值;
根据目标函数值更新训练网络中每个参数的参数值;
记录训练网络中参数更新次数S,以及参数复制标记N,N的值随着训练网络参数更新的次数增加;
判断参数复制标记N是否大于预设值,
如果是,将训练网络中每个参数的参数值复制给目标网络对应的参数,并使N=0;重新执行随机选取一组训练数据(s,ai,r,s')的步骤以及后续步骤,直到参数更新次数S大于预设更新次数;
如果否,重新执行随机选取一组训练数据(s,ai,r,s')的步骤以及后续步骤,直到参数更新次数S大于预设更新次数。
可选的,所述根据目标函数值更新训练网络中每个参数的参数值,包括:
利用目标函数值计算训练网络中每个参数的梯度;
基于梯度下降算法,根据所述梯度更新训练网络中每个参数的参数值。
可选的,所述根据修正后的训练网络生成路径规划模型,包括:
判断参数更新次数S是否大于预设更新次数,
如果是,根据当前训练网络建立路径规划模型;
如果否,继续利用训练数据和目标函数修正目标网络以及训练网络的参数值。
可选的,所述利用路径规划模型获得无人平台从当前位置向目标位置运行的路径规划数据,包括:
将无人平台的当前位置和目标位置输入路径规划模型;
获取路径规划模型根据当前位置和目标位置输出的路径规划数据;
判断无人平台根据路径规划数据行动后是否到达目标位置,
如果否,更新无人平台的当前位置,并重新将无人平台的当前位置和目标位置输入路径规划模型,获取新的路径规划数据,直至无人平台到达目标位置;
如果是,停止路径规划。
一种基于强化学习的无人平台路径规划装置,包括:
网络建立单元,用于建立路径规划的目标网络和训练网络,所述目标网络和训练网络均为深度神经网络,且目标网络与训练网络具有相同的结构和初始参数值;
目标函数构建单元,用于根据目标网络和训练网络构建目标函数;
训练数据生成单元,用于采用随机离散策略生成多组训练数据;
参数值修正单元,用于利用训练数据以及目标函数修正目标网络和训练网络的参数值;
路径规划模型生成单元,用于根据修正后的训练网络生成路径规划模型;
位置获取单元,用于获取无人平台的当前位置和目标位置;
路径规划数据获取单元,用于利用路径规划模型获得无人平台从当前位置向目标位置运行的路径规划数据。
可选的,所述训练数据生成单元,包括:
地图网格化子单元,用于将无人平台所在位置的地图进行网格化处理,其中,每个网格对应一个坐标(x,y);
位置随机设定子单元,用于随机设定无人平台的初始位置(x0,y0)和目标位置(xgoal,ygoal);
训练数据获取子单元,用于根据无人平台由初始位置(x0,y0)向目标位置(xgoal,ygoal)移动时所经过网格的坐标,获取训练数据(s,ai,r,s'),所述训练数据为无人平台移动到相邻网格时产生的数据,其中,s为当前无人平台的状态:s=[xi,yi,xgoal,ygoal],i为无人平台移动的次数;ai为随机选择出的行动方向;r为无人平台按照行动方向ai行动后的收益;s'为无人平台按照行动方向ai行动后的状态s'=[x'i,y'i,xgoal,ygoal]。
由以上技术方案可见,本发明实施例提供的基于强化学习的无人平台路径规划方法及装置,采用传统的全连接深度神经网络,无需地图先验知识,因此,可以适应完全未知的环境。并且,通与环境的不断交互学习,强化学习得到环境信息,使无人平台可以在未知环境中实现路径规划。同时,本发明实施例根据随机离散策略生成训练数据,利用该数据可训练深度神经网络,使无人平台由所在区域的任意初始位置出发到任意目标位置。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于强化学习的无人平台路径规划方法的流程示意图;
图2为本发明实施例提供的一种图1中步骤S103的流程示意图;
图3为本发明实施例提供的一种图1中步骤S104的流程示意图;
图4为本发明实施例提供的一种图1中步骤S107的流程示意图;
图5为本发明实施例提供的一种基于强化学习的无人平台路径规划装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
图1为本发明公开实施例提供的一种基于强化学习的无人平台路径规划方法的流程图,如图1所示,该方法包括以下步骤。
步骤S101:建立路径规划的目标网络和训练网络。
建立路径规划所需的目标网络和训练网络,其中训练网络的作用为:在实际应用中生成路径规划数据;目标网络的作用为:构建目标函数,以优化训练网络。
目标网络和训练网络均为深度神经网络,具有相同的结构和初始参数值,在本发明公开的实施例中,目标网络和训练网络采用全连接的普通深度神经网络即可,不需要事先具有地图数据作为先验知识。
在本发明公开的一个具体实施例中,可预先设定目标网络和训练网络的层级以及每一层的神经元数量。例如,目标网络和神经网络为五层结构,包含一个输入层、一个输出层以及三个隐含层,其中,输入层用于向隐含层输入数据,隐含层用于根据接收到的数据进行计算并生成计算结果发送给输出层,输出层用于将计算结果向外输出。
输入层的神经元数量为4个,分别对应无人平台路径规划中需要输入的当前位置坐标(xi,yi)和目标位置坐标(xgoal,ygoal)。输出层的神经元数量为4个,分别对应无人平台的四个运动方向:上、下、左、右。每一层隐含层的神经元数量可以设置为10。
每个神经元都具有权重和偏置:wi,j,bi,j,在后续更新训练网络和目标网络参数的步骤中,更新的参数即为权重和偏置。
其中:i为网络层数;j为神经元序列。
激活函数为sigmoid:
Figure BDA0002879392320000061
步骤S102:根据目标网络和训练网络构建目标函数。
目标函数约定了深度神经网络的学习目标,利用目标函数对深度神经网络进行评估,判定神经网络训练的优劣。在本发明公开的一个实施例中,按照以下公式建立目标函数:
Loss=(r+γmaxQ(a')-Q(ai))2
其中,maxQ(a')为以目标网络为计算基础,所有行动方向对应总体收益中的最大值;
Q(ai)为以训练网络为计算基础,行动方向为ai时的总体收益;
γ为预设的常数;
r为无人平台本次行动获得的收益;
Loss为目标函数的函数值。
为保证无人平台能够选择最优路线到达目标位置,需要计算每次行动后的收益r。每次行动后的收益与无人平台和目标位置之间的距离成反比,无人平台距离目标位置越近,本次行动的收益越高,以保证激励无人平台不断靠近目标位置。在本发明公开的一个具体实施例中,以无人平台本次行动后的当前位置坐标到目标位置坐标的欧拉距离的倒数作为本次行动的收益。
收益r可采用以下公式计算得到:
Figure BDA0002879392320000062
其中,xi为无人平台当前位置的横坐标;
yi为当前位置的纵坐标;
xgoal为目标位置的横坐标;
ygoal为目标位置的纵坐标。
如果无人平台进入障碍物位置,则设置r为负数,例如-1。如果无人平台到达目标位置,可设置r为一个较大的正数,这个正数大于1,例如10。
下面为收益的举例:
Figure BDA0002879392320000071
在本发明中,也可以采用其他方式计算收益r。
步骤S103:采用随机离散策略生成多组训练数据。
为保证训练网络有足够的数据进行训练,需要生成多组训练数据。通过充分利用训练数据,使强化学习得到收敛。在本发明公开的实施例中,采用随机离散策略生成多组训练数据(s,ai,r,s'),其中,s为当前无人平台的状态,s=[xi,yi,xgoal,ygoal],i为无人平台移动的次数;ai为无人平台的行动方向;r为无人平台按照行动方向ai移动后的收益;s'为无人平台按照行动方向ai移动后的状态,s'=[x'i,y'i,xgoal,ygoal]。生成训练数据的具体方式将在后述实施例中说明。
步骤S104:利用训练数据以及目标函数修正目标网络和训练网络的参数值。
根据步骤S102中的方法,计算目标函数值,在本发明公开的一个实施例中,每次随机选取一组训练数据(s,ai,r,s')计算出一个目标函数值,一个目标函数可修正一次训练网络的参数值,利用多组训练数据可计算出多个目标函数值,从而对训练网络的参数值进行多次修正。利用训练数据计算目标函数值的具体方法将在后述实施例中说明。
在本发明公开的实施例中,根据目标函数值计算训练网络中每个参数的梯度,并利用梯度下降算法更新训练网络的所有参数值。并且,在训练网络更新一定次数后,将目标网络中的所有参数值更新为训练网络中对应的参数值。通过目标函数值修正目标网络和训练网络的参数值,具体实现步骤可参照后述实施例。
步骤S105:根据修正后的训练网络生成路径规划模型。
训练网络的参数值更新到一定次数后,便不再进行修正,根据完成修正后的训练网络生成路径规划模型,通过该模型能够获得无人平台在当前位置分别向四个方向运行时的总体收益,并选取其中一个最大的总体收益所对应的运行方向作为路径规划数据发送至无人平台,指导无人平台前进。根据修正后的训练网络生成路径规划模型的具体方法将在后述实施例中说明。
步骤S106:获取无人平台的当前位置和目标位置。
获取无人平台当前位置坐标(xi,yi)和目标位置坐标(xgoal,ygoal)。
步骤S107:利用路径规划模型获得无人平台从当前位置向目标位置运行的路径规划数据。将无人平台的当前位置坐标和目标位置坐标输入路径规划模型后,路径规划模型能够获得无人平台从当前位置向目标位置运行的路径规划数据,其具体方法将在后述实施例中说明。
由于无人平台可能到达所在地图的每个位置,同时,目标位置可能根据任务需求而不同,因此,在本发明公开的实施例中,采用随机离散策略生成训练数据。在本发明提供的一个实施例中,前述步骤S103采用随机离散策略生成多组训练数据,如图2所示,可包括以下子步骤。
步骤S301:将无人平台所在位置的地图进行网格化处理。
对地图进行离散化处理,根据地图的大小,将地图网格化,即每个网格占据一个坐标(x,y),无人平台通过上下左右的运动方式可以实现从一个网格到达相邻网格。
步骤S302:随机设定无人平台的初始位置(x0,y0)和目标位置(xgoal,ygoal)。
在本发明公开的实施例中,可采用随机算法,设定无人平台的初始位置和目标位置。步骤S303:根据无人平台由初始位置(x0,y0)向目标位置(xgoal,ygoal)移动时所经过网格的坐标,获取训练数据(s,ai,r,s')。
无人平台移动的方向为上、下、左、右四种,并且每次只移动一个网格,即无人平台每次只移动到向其上、下、左或右方向上的相邻网格。训练数据为无人平台移动到相邻网格后产生的数据,例如,某个训练数据(s,ai,r,s')为无人平台在其当前位置朝ai方向移动一个网格后产生的数据。其中,s为当前无人平台的状态:s=[xi,yi,xgoal,ygoal],i为无人平台移动的次数;ai为无人平台在第i次移动时,随机选择出的行动方向;r为无人平台按照行动方向ai移动后的收益;s'为无人平台按照行动方向ai移动后的状态s'=[x'i,y'i,xgoal,ygoal]。记录无人平台由初始位置向目标位置移动时产生的每一组训练数据,即记录无人平台每一步的训练数据,从而能够获得大量随机离散的训练数据用于对训练网络进行训练。训练数据可以是无人平台由一个初始位置向目标位置移动时得到的,也可以是无人平台从多个初始位置向多个目标位置移动时得到的。在获取训练数据的过程中,无人平台的移动可以是真实移动,也可以是虚拟移动。
在本发明提供的一个实施例中,前述步骤S104利用训练数据和目标函数修正目标网络以及训练网络的参数值,如图3所示,可包括以下子步骤。
步骤S401:随机选取一组训练数据(s,ai,r,s')。
在所有训练数据中,随机选取一组没有参与过计算的训练数据(s,ai,r,s'),例如,训练数据(s,a3,r,s'),s为当前无人平台的状态,s=[5,5,100,100],i为无人平台移动的次数,i=3;a3为无人平台在第3次移动时,随机选择出的行动方向,a3为向上;r为无人平台按照行动方向a3移动后的收益;s'为无人平台按照行动方向a3移动后的状态s'=[5,6,100,100]。
步骤S402:根据训练数据,获得训练网络计算行动方向为ai时的总体收益Q(ai)。
训练网络和目标网络输出的数据为无人平台分别向上、下、左和右方向行动后产生的总体收益。根据训练数据中的ai,可以获得训练网络在s状态下,选择行动方向为ai时的总体收益Q(ai)。例如,根据训练数据(s,ai,r,s'),可获得训练网络在s状态下,选择行动方向为a3后的总体收益Q(a3)。
步骤S403:根据训练数据,获得目标网络计算所有行动方向对应总体收益的最大值maxQ(a′)。
例如,根据训练数据(s,ai,r,s'),可以分别获得目标网络在s'状态下,向上、下、左、右移动后的总体收益,并得知目标网络在s'状态下移动后最大的总体收益maxQ(a')。
步骤S404:根据Q(ai)和maxQ(a')计算目标函数值。
根据前述实施例中目标函数的公式,计算目标函数值。
Loss=(r+γmaxQ(a')-Q(ai))2,Loss的值即为目标函数值。
步骤S405:根据目标函数值更新训练网络中每个参数的参数值。
利用目标函数值计算训练网络中每个参数的梯度,基于梯度下降算法,利用目标函数值对训练网络的某参数求偏导可以得到该参数的梯度值
Figure BDA0002879392320000091
其中y代表loss,x代表训练网络中的某参数。
利用梯度下降算法更新所有参数的参数值,即每一个参数减去对应的梯度值。通过参数这样不断地更新,最后Loss就可以收敛到最小值。
步骤S406:记录训练网络中参数更新次数S,以及参数复制标记N。
S和N的初始值为0,N的值随着训练网络参数更新的次数增加。每对训练网络中的参数更新一次,S和N的值均增加1,即,对训练网络的参数更新一次,S=1,N=1;对训练网络的参数更新两次,S=2,N=2。
步骤S407:判断参数复制标记N是否大于预设值。
预先设置一个预设值,例如100,判断N是否大于预设次数100。
如果N大于预设值,执行步骤S408:将训练网络中每个参数的参数值复制给目标网络对应的参数,并且使N=0。
训练网络与目标网络的结构完全相同,若训练网络中参数更新的次数已经大于预设值,则将训练网络中各个参数的参数值复制给目标网络中的对应参数,使训练网络和目标网络的参数值再次完全一致。同时,将N的值重新归零,以便重新记录训练网络中参数更新的次数,以保证训练网络的参数值更新到一定次数后,便更新一次目标网络的参数值。例如,预设值为100,若N=101,则将训练网络中各个参数的参数值复制给目标网络中的对应参数,同时,使N=0。当训练网络再次更新参数值时,N=1,重新统计训练网络更新的次数。
在将N清零后,继续执行步骤S401随机选取一组训练数据(s,ai,r,s')以及后续步骤,直到参数更新次数S大于预设更新次数。
在本发明公开的实施例中,训练网络的参数值每更新一次,S的值增加1,而N的值会在达到预设值后归零,重新随着训练网络参数值的更新增加1。因此,S的值最终必然大于N。
判断参数更新次数S是否大于预设更新次数,例如,预设更新次数可以为1000。
如果S大于预设更新次数,则停止更新训练网络的参数值,并根据当前训练网络建立路径规划模型。
如果S不大于预设更新次数,则重新执行随机选取一组训练数据(s,ai,r,s')的步骤以及后续步骤,直到参数更新次数S大于预设更新次数。
如果N不大于预设值,重新执行步骤S401随机选取一组训练数据(s,ai,r,s')以及后续步骤,直到参数更新次数S大于预设更新次数。
若N不大于预设次数,则不更新目标网络中各参数的参数值。重新随机选取一组未经过运算的训练数据计算目标函数值,并且,根据新计算的目标函数值再一次更新训练网络中每个参数的参数值。重复上述步骤,直到N大于预设值,或者,参数更新次数S大于预设更新次数。
在本发明公开的一个实施例中,前述实施例中的步骤S105根据修正后的训练网络生成路径规划模型,包括以下步骤。
判断参数更新次数S是否大于预设更新次数,在本发明公开的实施例中,训练网络的参数值每更新一次,S的值增加1,而N的值会在达到预设值后归零,重新随着训练网络参数值的更新增加1。因此,S的值最终必然大于N。
判断参数更新次数S是否大于预设更新次数,例如,预设更新次数可以为1000。
如果S大于预设更新次数,根据当前训练网络建立路径规划模型。
训练网络的输出数据为无人平台分别在四个方向上的总体收益Q(a1)、Q(a2)、Q(a3)和Q(a4),根据当前更新的训练网络建立的路径规划模型将在四个总体收益中,选取最大的一个所对应的方向作为路径规划数据,并将该数据发送至无人平台,指导无人平台向目标位置前进。
将无人平台的当前位置和目标位置输入至路径规划模型,路径规划模型生成一个路径规划数据,即四个方向中的一个,根据该数据无人平台运行一次。更新无人平台运行后的状态,将新的当前位置和目标位置输入至路径规划模型,不断重复上述步骤,直到无人平台到达目标位置位置,由此,路径规划模型可规划出无人平台从初始位置到目标位置之间的完整路径。
如果否,继续执行步骤S104利用训练数据和目标函数修正目标网络以及训练网络的参数值。
如果S不大于预设更新次数,则继续利用训练数据和目标函数修正目标网络以及训练网络的参数值,重新随机选取一组没有参与过运算的训练数据,计算目标函数值,并利用目标函数值修正训练网络的参数值,并在N达到预设值后,更新目标网络的参数值。
在本发明公开的一个实施例中,前述步骤S107利用路径规划模型获得无人平台从当前位置向目标位置运行的路径规划数据,如图4所示,可包括以下子步骤。
步骤S701:将无人平台的当前位置和目标位置输入路径规划模型。
获取无人平台的当前位置坐标(x0,y0)和目标位置坐标(xgoal,ygoal)并输入至路径规划模型。
步骤S702:获取路径规划模型根据当前位置和目标位置输出的路径规划数据。
路径规划模型中的训练网络根据输入的当前位置坐标和目标位置坐标,计算出无人平台在当前位置分别向四个方向运行的总体收益,路径规划模型在四个总体收益中选取一个最大的总体收益,并将该最大总体收益对应的方向作为路径规划数据发送至无人平台步骤S703:判断无人平台根据路径规划数据行动后是否到达目标位置。
无人平台根据路径规划数据移动一次后,判断无人平台的当前位置的坐标与目标位置的坐标是否相同。
如果无人平台根据路径规划数据移动一次后没有到达目标位置,重新执行步骤S701以及后续步骤。
更新无人平台的当前位置,并重新将无人平台的当前位置和目标位置输入路径规划模型,获取新的路径规划数据,直至无人平台到达目标位置。
如果无人平台根据路径规划数据行动后到达目标位置,则说明本层路径规划任务已经完成,停止路径规划。
图5为本发明公开的一种基于强化学习的无人平台路径规划装置的结构图,如图5所示,该装置包括:
网络建立单元11,被配置为建立路径规划的目标网络和训练网络,目标网络和训练网络均为深度神经网络,且目标网络与训练网络具有相同的结构和初始参数值;
目标函数构建单元12,被配置为根据目标网络和训练网络构建目标函数;
训练数据生成单元13,被配置为采用随机离散策略生成多组训练数据;
参数值修正单元14,被配置为利用训练数据以及目标函数修正目标网络和训练网络的参数值;
路径规划模型生成单元15,被配置为根据修正后的训练网络生成路径规划模型;
位置获取单元16,被配置为获取无人平台的当前位置和目标位置;
路径规划数据获取单元17,被配置为利用路径规划模型获得无人平台从当前位置向目标位置运行的路径规划数据。
在本发明公开的一个实施例中,前述实施例中的训练数据生成单元13,包括以下子单元。地图网格化子单元,被配置为将无人平台所在位置的地图进行网格化处理,其中,每个网格对应一个坐标(x,y);
位置随机设定子单元,被配置为随机设定无人平台的初始位置(x0,y0)和目标位置(xgoal,ygoal);
训练数据获取子单元,被配置为根据无人平台由初始位置(x0,y0)向目标位置(xgoal,ygoal)移动时所经过网格的坐标,获取训练数据(s,ai,r,s'),训练数据为无人平台移动到相邻网格时产生的数据,其中,s为当前无人平台的状态:s=[xi,yi,xgoal,ygoal],i为无人平台移动的次数;ai为随机选择出的行动方向;r为无人平台按照行动方向ai行动后的收益;s'为无人平台按照行动方向ai行动后的状态s'=[x'i,y'i,xgoal,ygoal]。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于强化学习的无人平台路径规划方法,其特征在于,包括:
建立路径规划的目标网络和训练网络,所述目标网络和训练网络均为深度神经网络,且目标网络与训练网络具有相同的结构和初始参数值;
根据目标网络和训练网络构建目标函数;
采用随机离散策略生成多组训练数据;
利用训练数据以及目标函数修正目标网络和训练网络的参数值;
根据修正后的训练网络生成路径规划模型;
获取无人平台的当前位置和目标位置;
利用路径规划模型获得无人平台从当前位置向目标位置运行的路径规划数据。
2.根据权利要求1所述的方法,其特征在于,所述根据目标网络和训练网络构建目标函数,包括:
按照以下公式建立目标函数:
Loss=(r+γmaxQ(a′)-Q(ai))2
其中,maxQ(a′)为以目标网络为计算基础,所有行动方向对应总体收益中的最大值;
Q(ai)为以训练网络为计算基础,行动方向为ai时的总体收益;
γ为预设的常数;
r为无人平台本次行动获得的收益;
Loss为目标函数的函数值。
3.根据权利要求2所述的方法,其特征在于,所述无人平台本次行动获得的收益r由以下公式计算得到:
Figure FDA0002879392310000011
其中,xi为无人平台当前位置的横坐标;
yi为当前位置的纵坐标;
xgoal为目标位置的横坐标;
ygoal为目标位置的纵坐标。
4.根据权利要求3所述的方法,其特征在于,所述采用随机离散策略生成多组训练数据,包括:
将无人平台所在位置的地图进行网格化处理,其中,每个网格对应一个坐标(x,y);
随机设定无人平台的初始位置(x0,y0)和目标位置(xgoa1,ygoal);
根据无人平台由初始位置(x0,y0)向目标位置(xgoal,ygoal)移动时所经过网格的坐标,获取训练数据(s,ai,r,s′),所述训练数据为无人平台移动到相邻网格时产生的数据,其中,s为当前无人平台的状态:s=[xi,yi,xgoal,ygoal],i为无人平台移动的次数;ai为随机选择出的行动方向;r为无人平台按照行动方向ai行动后的收益;s′为无人平台按照行动方向ai行动后的状态s′=[x′i,y′i,xgoal,ygoal]。
5.根据权利要求4所述的方法,其特征在于,所述利用训练数据和目标函数修正目标网络以及训练网络的参数值,包括:
随机选取一组训练数据(s,ai,r,s′);
根据所述训练数据,获得训练网络计算行动方向为ai时的总体收益Q(ai);
根据所述训练数据,获得目标网络计算所有行动方向对应总体收益的最大值maxQ(a′);
利用Q(ai)和maxQ(a′)计算目标函数值;
根据目标函数值更新训练网络中每个参数的参数值;
记录训练网络中参数更新次数S,以及参数复制标记N,N的值随着训练网络参数更新的次数增加;
判断参数复制标记N是否大于预设值,
如果是,将训练网络中每个参数的参数值复制给目标网络对应的参数,并使N=0;重新执行随机选取一组训练数据(s,ai,r,s′)的步骤以及后续步骤,直到参数更新次数S大于预设更新次数;
如果否,重新执行随机选取一组训练数据(s,ai,r,s′)的步骤以及后续步骤,直到参数更新次数S大于预设更新次数。
6.根据权利要求5所述的方法,其特征在于,所述根据目标函数值更新训练网络中每个参数的参数值,包括:
利用目标函数值计算训练网络中每个参数的梯度;
基于梯度下降算法,根据所述梯度更新训练网络中每个参数的参数值。
7.根据权利要求5所述的方法,其特征在于,所述根据修正后的训练网络生成路径规划模型,包括:
判断参数更新次数S是否大于预设更新次数,
如果是,根据当前训练网络建立路径规划模型;
如果否,继续利用训练数据和目标函数修正目标网络以及训练网络的参数值。
8.根据权利要求1所述的方法,其特征在于,所述利用路径规划模型获得无人平台从当前位置向目标位置运行的路径规划数据,包括:
将无人平台的当前位置和目标位置输入路径规划模型;
获取路径规划模型根据当前位置和目标位置输出的路径规划数据;
判断无人平台根据路径规划数据行动后是否到达目标位置,
如果否,更新无人平台的当前位置,并重新将无人平台的当前位置和目标位置输入路径规划模型,获取新的路径规划数据,直至无人平台到达目标位置;
如果是,停止路径规划。
9.一种基于强化学习的无人平台路径规划装置,其特征在于,包括:
网络建立单元,用于建立路径规划的目标网络和训练网络,所述目标网络和训练网络均为深度神经网络,且目标网络与训练网络具有相同的结构和初始参数值;
目标函数构建单元,用于根据目标网络和训练网络构建目标函数;
训练数据生成单元,用于采用随机离散策略生成多组训练数据;
参数值修正单元,用于利用训练数据以及目标函数修正目标网络和训练网络的参数值;
路径规划模型生成单元,用于根据修正后的训练网络生成路径规划模型;
位置获取单元,用于获取无人平台的当前位置和目标位置;
路径规划数据获取单元,用于利用路径规划模型获得无人平台从当前位置向目标位置运行的路径规划数据。
10.根据权利要求9所述的装置,其特征在于,所述训练数据生成单元,包括:
地图网格化子单元,用于将无人平台所在位置的地图进行网格化处理,其中,每个网格对应一个坐标(x,y);
位置随机设定子单元,用于随机设定无人平台的初始位置(x0,y0)和目标位置(xgoal,ygoal);
训练数据获取子单元,用于根据无人平台由初始位置(x0,y0)向目标位置(xgoal,ygoal)移动时所经过网格的坐标,获取训练数据(s,ai,r,s′),所述训练数据为无人平台移动到相邻网格时产生的数据,其中,s为当前无人平台的状态:s=[xi,yi,xgoal,ygoal],i为无人平台移动的次数;ai为随机选择出的行动方向;r为无人平台按照行动方向ai行动后的收益;s′为无人平台按照行动方向ai行动后的状态s′=[x′i,y′i,xgoal,ygoal]。
CN202011638903.4A 2020-12-31 2020-12-31 一种基于强化学习的无人平台路径规划方法及装置 Active CN112836852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011638903.4A CN112836852B (zh) 2020-12-31 2020-12-31 一种基于强化学习的无人平台路径规划方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011638903.4A CN112836852B (zh) 2020-12-31 2020-12-31 一种基于强化学习的无人平台路径规划方法及装置

Publications (2)

Publication Number Publication Date
CN112836852A true CN112836852A (zh) 2021-05-25
CN112836852B CN112836852B (zh) 2024-05-31

Family

ID=75926806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011638903.4A Active CN112836852B (zh) 2020-12-31 2020-12-31 一种基于强化学习的无人平台路径规划方法及装置

Country Status (1)

Country Link
CN (1) CN112836852B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN110515303A (zh) * 2019-09-17 2019-11-29 余姚市浙江大学机器人研究中心 一种基于ddqn的自适应动态路径规划方法
CN110611619A (zh) * 2019-09-12 2019-12-24 西安电子科技大学 一种基于ddpg强化学习算法的智能化路由决策方法
CN110879610A (zh) * 2019-10-24 2020-03-13 北京航空航天大学 太阳能无人机自主寻优航迹规划的强化学习方法
WO2020068141A1 (en) * 2018-09-26 2020-04-02 Google Llc Predicted variables in programming
CN110977967A (zh) * 2019-11-29 2020-04-10 天津博诺智创机器人技术有限公司 一种基于深度强化学习的机器人路径规划方法
CN111061277A (zh) * 2019-12-31 2020-04-24 歌尔股份有限公司 一种无人车全局路径规划方法和装置
CN111240356A (zh) * 2020-01-14 2020-06-05 西北工业大学 一种基于深度强化学习的无人机集群会合方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
WO2020068141A1 (en) * 2018-09-26 2020-04-02 Google Llc Predicted variables in programming
CN110611619A (zh) * 2019-09-12 2019-12-24 西安电子科技大学 一种基于ddpg强化学习算法的智能化路由决策方法
CN110515303A (zh) * 2019-09-17 2019-11-29 余姚市浙江大学机器人研究中心 一种基于ddqn的自适应动态路径规划方法
CN110879610A (zh) * 2019-10-24 2020-03-13 北京航空航天大学 太阳能无人机自主寻优航迹规划的强化学习方法
CN110977967A (zh) * 2019-11-29 2020-04-10 天津博诺智创机器人技术有限公司 一种基于深度强化学习的机器人路径规划方法
CN111061277A (zh) * 2019-12-31 2020-04-24 歌尔股份有限公司 一种无人车全局路径规划方法和装置
CN111240356A (zh) * 2020-01-14 2020-06-05 西北工业大学 一种基于深度强化学习的无人机集群会合方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
何金;丁勇;高振龙;: "基于Double Deep Q Network的无人机隐蔽接敌策略", 电光与控制, no. 07, 3 April 2020 (2020-04-03), pages 52 - 57 *
何金等: "未知环境下基于PF-DQN的无人机路径规划", 《兵工自动化》, vol. 39, no. 9, pages 15 - 21 *
吴宇航等: "基于改进线性回归方法的任务自适应排序模型", 《华中科技大学学报(自然科学版)》, vol. 48, no. 01, 13 November 2019 (2019-11-13), pages 93 - 97 *
李辉: "基于深度强化学习的移动机器人路径规划方法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 7, pages 140 - 303 *
董培方: "无人作战移动平台控制系统及路径规划算法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 01, 15 January 2019 (2019-01-15), pages 140 - 2363 *
黄颖;余玉琴;: "一种基于稠密卷积网络和竞争架构的改进路径规划算法", 计算机与数字工程, no. 04, 20 April 2019 (2019-04-20), pages 81 - 88 *

Also Published As

Publication number Publication date
CN112836852B (zh) 2024-05-31

Similar Documents

Publication Publication Date Title
CN105137967B (zh) 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
CN112937564B (zh) 换道决策模型生成方法和无人车换道决策方法及装置
CN108873687B (zh) 一种基于深度q学习的智能水下机器人行为体系结规划方法
CN111141300A (zh) 基于深度强化学习的智能移动平台无地图自主导航方法
CN113110592A (zh) 一种无人机避障与路径规划方法
CN111580544B (zh) 一种基于强化学习ppo算法的无人机目标跟踪控制方法
CN110991972B (zh) 一种基于多智能体强化学习的货物运输系统
CN108115681A (zh) 机器人的模仿学习方法、装置、机器人及存储介质
CN111487864A (zh) 一种基于深度强化学习的机器人路径导航方法及系统
CN112550314B (zh) 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN110389591A (zh) 一种基于dbq算法的路径规划方法
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策系统
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN115016534A (zh) 一种基于记忆增强学习的无人机自主避障导航方法
CN116679711A (zh) 一种基于有模型与无模型强化学习的机器人避障方法
CN116069045A (zh) 一种基于移动机器人的辐射环境探测方法和系统
CN113232016A (zh) 一种强化学习与模糊避障融合的机械臂路径规划方法
CN116203973B (zh) 轨道ai巡检机器人智能控制系统
CN112836852A (zh) 一种基于强化学习的无人平台路径规划方法及装置
CN117007066A (zh) 多规划算法集成的无人驾驶轨迹规划方法及相关装置
CN116205272A (zh) 基于好奇心机制和优先经验回放机制的自适应控制方法
CN114153216B (zh) 基于深度强化学习和块规划的月面路径规划系统和方法
CN113959446B (zh) 一种基于神经网络的机器人自主物流运输导航方法
CN115562258A (zh) 基于神经网络的机器人社会自适应路径规划方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant