CN113515130B - 用于智能体路径规划的方法和存储介质 - Google Patents
用于智能体路径规划的方法和存储介质 Download PDFInfo
- Publication number
- CN113515130B CN113515130B CN202110985562.6A CN202110985562A CN113515130B CN 113515130 B CN113515130 B CN 113515130B CN 202110985562 A CN202110985562 A CN 202110985562A CN 113515130 B CN113515130 B CN 113515130B
- Authority
- CN
- China
- Prior art keywords
- agent
- memory
- intelligent
- nodes
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000003860 storage Methods 0.000 title claims description 10
- 238000001514 detection method Methods 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims abstract description 22
- 230000009471 action Effects 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 3
- 239000003795 chemical substances by application Substances 0.000 description 105
- 238000010586 diagram Methods 0.000 description 33
- 230000002787 reinforcement Effects 0.000 description 17
- 230000008901 benefit Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000011451 sequencing strategy Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种用于智能体路径规划的方法,包括:步骤S1:建立智能体工作环境地图,并初始化智能体位置;步骤S2:根据目标位置和智能体位置,对智能体的方向状态和探测状态进行离散化,并初始化Q值表;根据目标位置和智能体位置,确定若干记忆节点,智能体以记忆节点为目标导向,并在移动过程中根据探测信息添加其它记忆节点,根据若干记忆节点和其它记忆节点建立记忆池;智能体根据移动过程中获得的回报更新Q值表,直到智能体到达目标位置或者智能体尝试次数超过第一预设阈值;步骤S3:更新记忆池中的记忆节点,得到更新后记忆池;步骤S4:智能体根据更新后记忆池规划路径,到达目标位置。
Description
技术领域
本发明涉及多智能体路径规划技术领域,尤其涉及一种用于智能体路径规划的方法和存储介质。
背景技术
路径规划问题一直是机器人研究领域的热点,随着强化学习在各个领域的应用,强化学习与机器人路径规划问题也越来越紧密地联系起来。
强化学习解决的是序贯决策问题,在与环境交互的过程中会根据回报评估动作的好坏,提高使回报增加的动作概率,减小使回报减少的概率。强化学习是通过对环境不断地探索,在探索的过程中学习如何使下一步动作回报最大,不断地反复探索和迭代,使回报最大的动作序贯策略即为最优路径。
在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:传统强化学习和各种改进方法大多针对静态环境,对于动态的环境和复杂凹形障碍物无法取得理想结果,在动态环境中,机器人周围环境经常发生变化,因此无法利用传统的栅格表格法存储状态,传统强化学习在一个环境收敛后无法直接应用于另一个环境,仍然需要多次迭代尝试,泛化能力较差。
发明内容
本公开实施例提供了一种用于智能体路径规划的方法和存储介质,以解决现有技术中,对于动态环境,传统强化学习在一个环境收敛后无法直接应用于另一个环境,仍然需要多次迭代尝试,泛化能力较差的技术问题。
第一方面,提供了一种用于智能体路径规划的方法,该方法包括:步骤S1:建立智能体工作环境地图,并初始化智能体位置;步骤S2:根据目标位置和所述智能体位置,对智能体的方向状态和探测状态进行离散化,并初始化Q值表;根据目标位置和智能体位置,确定若干记忆节点,所述智能体以所述记忆节点为目标导向,并在移动过程中根据探测信息添加其它记忆节点,根据所述若干记忆节点和所述其它记忆节点建立记忆池;所述智能体根据移动过程中获得的回报更新所述Q值表,直到所述智能体到达所述目标位置或者所述智能体尝试次数超过第一预设阈值;步骤S3:根据离散后的方向状态、离散后的探测状态、所述Q值表和所述智能体的移动距离,更新所述记忆池中的记忆节点,得到更新后记忆池;步骤S4:所述智能体根据所述更新后记忆池规划路径,到达所述目标位置。
结合第一方面,在第一方面的第一种可能的实现方式中,所述步骤S2进一步包括:步骤S21:根据所述目标位置和所述智能体位置,得到智能体与所述目标位置之间的夹角后,将所述目标位置和所述智能体位置的相对方向离散化,得到离散化的方向状态;步骤S22:所述智能体探测到障碍物时,获取所述障碍物的类型和所述智能体与所述障碍物的距离,得到离散化的探测状态。
结合第一方面或者第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,通过人工势场初始化Q值表,对于动态障碍物设定斥力势场。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,通过以下公式计算得到斥力势场,斥力势场函数G’,
其中,ξ为斥力折扣因子,ξ∈[0,1],dnow为所述智能体在当前状态距离所述目标位置的欧氏距离,d0为动态障碍物斥力的影响范围,超出所述影响范围所述智能体不受斥力影响。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述步骤S2进一步包括:步骤S23:通过以下公式初始化Q值表,
其中,Q(s,a)为所述智能体在状态s时选择动作a的动作值函数,r为所述智能体在状态s时选择动作a移动到下一状态的立即回报,G为引力势场函数,ζ为引力折扣因子,ζ∈[0,1],dmax为所述智能体距离所述目标位置的最大距离。
结合第一方面的第三种可能的实现方式,在第一方面的第五种可能的实现方式中,所述步骤S2进一步包括:步骤S24:根据所述智能体位置确定起始记忆节点,根据所述目标位置确定最终记忆节点;所述智能体探测到障碍物时,沿所述障碍物两边探索至无障碍物,得到两个子节点,分别计算两个所述子节点与上一记忆节点和下一记忆节点的距离之和,所述距离之和较小的子节点作为记忆节点添加。
结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,所述步骤S2进一步包括:步骤S25:通过以下公式更新所述Q值表,
其中,α为学习率,γ为折扣因子,γ∈[0,1],maxaQ(s′,a′)为从下一状态s′选择最大动作值函数。
结合第一方面的第五种可能的实现方式,在第一方面的第七种可能的实现方式中,所述记忆池采用拓扑结构。
结合第一方面的第七种可能的实现方式,在第一方面的第八种可能的实现方式中,所述步骤S3进一步包括:步骤S31:顺序遍历所述记忆池中每一个记忆节点,初始化所述智能体位置为所述记忆节点的位置,以下一记忆节点为目标导向;步骤S32:获取所述智能体当前离散后的方向状态和探测状态后,根据动作选择策略得到动作并执行,进入下一状态;步骤S33:在移动过程中,判断是否需要添加其它记忆节点;步骤S34:到达所述下一记忆节点后,判断原记忆池中两记忆节点间距离是否大于本次两记忆节点间距离,若是,用本次移动过程中添加的记忆节点替代原记忆池中的记忆节点,否则,以记忆池中接续的记忆节点为目标导向,转入步骤S32,直到所述智能体到达最终记忆节点,得到所述更新后记忆池。
第二方面,提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行前述的用于智能体路径规划的方法。
本公开实施例提供的用于智能体路径规划的方法和存储介质,可以实现以下技术效果:
相对于传统的强化学习在收敛速度上有很大的提高,得到的规划路径也更加稳定和平滑,对于不同的应用环境表现出较强的泛化能力,在动态环境下也可以平滑地躲避障碍物并到达目标位置。
以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
附图说明
一个或多个实施例通过与之对应的附图进行示例性说,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:
图1是本公开实施例提供的用于智能体路径规划的方法流程示意图;
图2是本公开实施例提供的智能体和目标位置的状态示意图;
图3是本公开实施例提供的智能体探测信息的示意图;
图4是本公开实施例提供的记忆节点优化算法的流程示意图;
图5是本公开实施例提供的现有的强化学习方法运行10000回合后智能体移动路径收敛状态示意图和每回合智能体尝试步数示意图;
图6是采用本公开实施例提供的用于智能体路径规划的方法运行100回合后智能体移动路径收敛状态示意图和每回合智能体尝试步数示意图;
图7是采用本公开实施例提供的用于智能体路径规划的方法,加入动态障碍物后运行100回合后智能体移动路径收敛状态示意图和每回合智能体尝试步数示意图;
图8是采用本公开实施例提供的用于智能体路径规划的方法在E型障碍物、多重L型障碍物、复杂障碍物和动态障碍物下智能体移动路径收敛状态示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面对本公开实施例中所涉概念进行介绍,智能体,任何独立的能够思想并可以同环境交互的实体都可以抽象为智能体。
图1是本公开实施例提供的用于智能体路径规划的方法流程示意图。如图1所示,本公开实施例提供了用于智能体路径规划的方法,该方法包括:步骤S1:建立智能体工作环境地图,并初始化智能体位置;步骤S2:根据目标位置和智能体位置,对智能体的方向状态和探测状态进行离散化,并初始化Q值表;根据目标位置和智能体位置,确定若干记忆节点,智能体以记忆节点为目标导向,并在移动过程中根据探测信息添加其它记忆节点,根据若干记忆节点和其它记忆节点建立记忆池;智能体根据移动过程中获得的回报更新Q值表,直到智能体到达目标位置或者智能体尝试次数超过第一预设阈值;步骤S3:根据离散后的方向状态、离散后的探测状态、Q值表和智能体的移动距离,更新记忆池中的记忆节点,得到更新后记忆池;步骤S4:智能体根据更新后记忆池规划路径,到达目标位置。
本公开实施例提供的用于智能体路径规划的方法,可以实现以下技术效果:相对于传统的强化学习在收敛速度上有很大的提高,得到的规划路径也更加稳定和平滑,对于不同的应用环境表现出较强的泛化能力,在动态环境下也可以平滑地躲避障碍物并到达目标位置。
在一些实施例中,步骤S1中,建立智能体工作环境地图,进一步包括:步骤S11:建立地图,获取智能体位置和目标位置,并添加障碍物。
在一些实施例中,步骤S1中,初始化智能体位置,进一步包括:步骤S12:初始化智能体在地图中的位置,并将智能体位置信息发送至执行用于智能体路径规划的方法的设备。
在一些实施例中,步骤S2进一步包括:步骤S21:根据目标位置和智能体位置,得到智能体与目标位置之间的夹角后,将目标位置和智能体位置的相对方向离散化,得到离散化的方向状态;步骤S22:智能体探测到障碍物时,获取障碍物的类型和智能体与障碍物的距离,得到离散化的探测状态。图2是本公开实施例提供的智能体和目标位置的状态示意图。如图2所示,通过以下公式计算得到智能体与目标位置的相对方向,
α为智能体向下的单位向量,β为智能体到目标位置的向量。在得到智能体和目标位置之间的夹角后,将智能体和目标位置的相对方向离散化为八个方向,表示目标位置在智能体的上、下、左、右、左上、右上、左下和右下,智能体与目标位置之间夹角与方向编码的对应关系如表1所示。
表1
图3是本公开实施例提供的智能体探测信息的示意图。如图3所示,步骤S22中,智能体探测障碍物的探测范围为三个步长,智能体探测信息编码如表2所示,
表2
这样,获取智能体与目标位置之间的夹角结合智能体探测信息,可以得到智能体当前状态,即,智能体当前状态包括:离散化的方向状态和离散化的探测状态。这样,通过离散化状态,以方向-探测代替栅格法,可以解决动态环境传统强化学习的栅格表格法难以处理的问题。
在一些实施例中,通过人工势场初始化Q值表,对于动态障碍物设定斥力势场,对于静态障碍物不设定斥力势场。在传统的强化学习中,Q值表的值初始化为零,在智能体不断地尝试与环境交互的过程中,对Q值表进行更新,使得传统强化学习的收敛性较慢,本公开实施例中,使用人工势场中引力势场初始化状态表格,可以提高算法初期的收敛速度。
在一些实施例中,通过以下公式计算得到斥力势场,斥力势场函数G’,
其中,ξ为斥力折扣因子,ξ∈[0,1],dnow为智能体在当前状态距离目标位置的欧氏距离,d0为动态障碍物与智能体相对安全的距离,超出此距离智能体不受斥力影响。这样,对于无法直接跨越的障碍物,通过斥力势场躲避动态障碍物。
在一些实施例中,步骤S2进一步包括:步骤S23:通过以下公式初始化Q值表,
其中,Q(s,a)为智能体在状态s时选择动作a的动作值函数,r为智能体在状态s时选择动作a移动到下一状态的立即回报,G为引力势场函数,G’为斥力势场函数,ζ为引力折扣因子,ζ∈[0,1],dmax为智能体距离目标位置的最大距离。
在一些实施例中,引力势场函数
在一些实施例中,步骤S2进一步包括:步骤S24:根据智能体位置确定起始记忆节点,根据目标位置确定最终记忆节点;智能体探测到障碍物时,沿障碍物两边探索至无障碍物,得到两个子节点,分别计算两个子节点与上一记忆节点和下一记忆节点的距离之和,距离之和较小的子节点作为记忆节点添加。通过设置记忆节点,拟人化智能体,设置智能体记忆池,双向探索障碍物并记忆可跨越障碍物的最优节点。
在一些实施例中,步骤S2进一步包括:步骤S25:通过以下公式更新Q值表,
其中,α为学习率,γ为折扣因子,γ∈[0,1],maxaQ(s′,a′)为从下一状态s′选择最大动作值函数,α的值越大表明下一状态对当前状态的影响越大。这样,根据公式更新Q值表,不断地反复探索和迭代,使得累计回报不断增加最终收敛。
在一些实施例中,记忆池采用拓扑结构。采用拓扑结构保存记忆节点。
图4是本公开实施例提供的记忆节点优化算法的流程示意图,如图4所示,在一些实施例中,步骤S3进一步包括:步骤S31:顺序遍历记忆池中每一个记忆节点,初始化智能体位置为记忆节点的位置,以下一记忆节点为目标导向;步骤S32:获取智能体当前离散后的方向状态和探测状态后,根据动作选择策略得到动作并执行,进入下一状态;步骤S33:在移动过程中,判断是否需要添加其它记忆节点;步骤S34:到达下一记忆节点后,判断原记忆池中两记忆节点间距离是否大于本次两记忆节点间距离,若是,用本次移动过程中添加的记忆节点替代原记忆池中的记忆节点,否则,以记忆池中接续的记忆节点为目标导向,转入步骤S32,直到智能体到达最终记忆节点,得到更新后记忆池;未到达下一记忆节点,转入步骤S32。以目标位置为导向进行移动,很快可以得到一条到达目标位置的路径,但是,很可能加入了不必要的记忆节点,通过虚拟子目标对记忆节点进行优化,随着智能体的迭代收敛,记忆池中的记忆节点也可以不断优化,可以减少记忆节点的记忆冗余。
在一些实施例中,步骤S4进一步包括:步骤S41:智能体依次选择记忆池中的记忆节点作为目标导向点,根据Q值表选择最优动作移动一个步长,每到达一个记忆节点后都以记忆池中接续节点为目标导向点,得出最优路径,到达目标位置。
在一些实施例中,用于智能体路径规划的方法,还包括:步骤S5:实时记录智能体的移动轨迹,直至智能体到达目标位置。
图5是本公开实施例提供的现有的强化学习方法运行10000回合后智能体移动路径收敛状态示意图和每回合智能体尝试步数示意图。其中,图5中左半部分为现有的强化学习方法运行10000回合后智能体移动路径收敛状态示意图,图中的黑色圆点为智能体示意图,图中的方形条代表障碍物;图5中右半部分为现有的强化学习方法每回合智能体尝试步数示意图,横坐标代表尝试回合数,纵坐标代表每回合智能体尝试步数。
图6是采用本公开实施例提供的用于智能体路径规划的方法运行100回合后智能体移动路径收敛状态示意图和每回合智能体尝试步数示意图。其中,图6中左半部分为采用本公开实施例提供的用于智能体路径规划的方法运行100回合后智能体移动路径收敛状态示意图,图中的黑色圆点为智能体示意图,图中的方形条代表障碍物;图6中右半部分为采用本公开实施例提供的用于智能体路径规划的方法每回合智能体尝试步数示意图,横坐标代表尝试回合数,纵坐标代表每回合智能体尝试步数。
图7是采用本公开实施例提供的用于智能体路径规划的方法,加入动态障碍物后运行100回合后智能体移动路径收敛状态示意图和每回合智能体尝试步数示意图。其中,图7中左半部分为采用本公开实施例提供的用于智能体路径规划的方法,加入动态障碍物后运行100回合后智能体移动路径收敛状态示意图,图中的黑色圆点为智能体示意图,图中的方形条代表障碍物,图中的六边形代表动态障碍物;图7中右半部分为采用本公开实施例提供的用于智能体路径规划的方法每回合智能体尝试步数示意图,横坐标代表尝试回合数,纵坐标代表每回合智能体尝试步数。
图8是采用本公开实施例提供的用于智能体路径规划的方法在E型障碍物、多重L型障碍物、复杂障碍物和动态障碍物下智能体移动路径收敛状态示意图。图中的黑色圆点为智能体示意图,图中的方形条代表障碍物,图中的六边形代表动态障碍物。通过图8中智能体移动路径的收敛状态可以看出,本公开实施例提供的用于智能体路径规划的方法具有较好的泛化能力。
本公开实施例还提供了一种存储介质,存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时使处理器执行前述的用于智能体路径规划的方法。
本公开实施例提供的用于智能体路径规划的方法和存储介质,在收敛速度上较传统强化学习提高了98.2%,路径也更加稳定和平滑,更改目标点后仍然表现出较强的泛化能力,对于动态环境也可以平滑地躲避障碍并到达目标位置。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种用于智能体路径规划的方法,其特征在于,包括:
步骤S1:建立智能体工作环境地图,并初始化智能体位置;
步骤S2:根据目标位置和所述智能体位置,对智能体的方向状态和探测状态进行离散化,并初始化Q值表;
根据目标位置和智能体位置,确定若干记忆节点,所述智能体以所述记忆节点为目标导向,并在移动过程中根据探测信息添加其它记忆节点,根据所述若干记忆节点和所述其它记忆节点建立记忆池;
所述智能体根据移动过程中获得的回报更新所述Q值表,直到所述智能体到达所述目标位置或者所述智能体尝试次数超过第一预设阈值;
步骤S3:根据离散后的方向状态、离散后的探测状态、所述Q值表和所述智能体的移动距离,更新所述记忆池中的记忆节点,得到更新后记忆池;
步骤S4:所述智能体根据所述更新后记忆池规划路径,到达所述目标位置;
所述步骤S2进一步包括:
步骤S21:根据所述目标位置和所述智能体位置,得到智能体与所述目标位置之间的夹角后,将所述目标位置和所述智能体位置的相对方向离散化,得到离散化的方向状态;
步骤S22:所述智能体探测到障碍物时,获取所述障碍物的类型和所述智能体与所述障碍物的距离,得到离散化的探测状态;
通过人工势场初始化Q值表,对于动态障碍物设定斥力势场;
通过以下公式计算得到斥力势场,斥力势场函数G’,
其中,ξ为斥力折扣因子,ξ∈[0,1],dnow为所述智能体在当前状态距离所述目标位置的欧氏距离,d0为动态障碍物斥力的影响范围,超出所述影响范围所述智能体不受斥力影响;
所述步骤S2进一步包括:
步骤S23:通过以下公式初始化Q值表,
其中,Q(s,a)为所述智能体在状态s时选择动作a的动作值函数,r为所述智能体在状态s时选择动作a移动到下一状态的立即回报,G为引力势场函数,ζ为引力折扣因子,ζ∈[0,1],dmax为所述智能体距离所述目标位置的最大距离;
所述步骤S2进一步包括:
步骤S24:根据所述智能体位置确定起始记忆节点,根据所述目标位置确定最终记忆节点;
所述智能体探测到障碍物时,沿所述障碍物两边探索至无障碍物,得到两个子节点,分别计算两个所述子节点与上一记忆节点和下一记忆节点的距离之和,所述距离之和较小的子节点作为记忆节点添加;
所述步骤S2进一步包括:
步骤S25:通过以下公式更新所述Q值表,
其中,α为学习率,γ为折扣因子,γ∈[0,1],maxaQ(s′,a′)为从下一状态s′选择最大动作值函数;
所述记忆池采用拓扑结构。
2.根据权利要求1所述的方法,其特征在于,所述步骤S3进一步包括:
步骤S31:顺序遍历所述记忆池中每一个记忆节点,初始化所述智能体位置为所述记忆节点的位置,以下一记忆节点为目标导向;
步骤S32:获取所述智能体当前离散后的方向状态和探测状态后,根据动作选择策略得到动作并执行,进入下一状态;
步骤S33:在移动过程中,判断是否需要添加其它记忆节点;
步骤S34:到达所述下一记忆节点后,判断原记忆池中两记忆节点间距离是否大于本次两记忆节点间距离,若是,用本次移动过程中添加的记忆节点替代原记忆池中的记忆节点,否则,以记忆池中接续的记忆节点为目标导向,转入步骤S32,直到所述智能体到达最终记忆节点,得到所述更新后记忆池。
3.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1至2中任一项所述的用于智能体路径规划的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110985562.6A CN113515130B (zh) | 2021-08-26 | 2021-08-26 | 用于智能体路径规划的方法和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110985562.6A CN113515130B (zh) | 2021-08-26 | 2021-08-26 | 用于智能体路径规划的方法和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113515130A CN113515130A (zh) | 2021-10-19 |
CN113515130B true CN113515130B (zh) | 2024-02-02 |
Family
ID=78063199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110985562.6A Active CN113515130B (zh) | 2021-08-26 | 2021-08-26 | 用于智能体路径规划的方法和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113515130B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114460965B (zh) * | 2022-01-21 | 2023-08-29 | 上海应用技术大学 | 一种基于改进人工势场法的无人机三维避障方法 |
CN117899487B (zh) * | 2024-03-15 | 2024-05-31 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备、存储介质及程序产品 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104571113A (zh) * | 2015-01-20 | 2015-04-29 | 博康智能网络科技股份有限公司 | 移动机器人的路径规划方法 |
WO2018120739A1 (zh) * | 2016-12-30 | 2018-07-05 | 深圳光启合众科技有限公司 | 路径规划方法、装置及机器人 |
CN108762281A (zh) * | 2018-06-08 | 2018-11-06 | 哈尔滨工程大学 | 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法 |
CN109254584A (zh) * | 2018-09-13 | 2019-01-22 | 鲁东大学 | 基于多智能体的角色分配方法、装置、计算机设备及存储介质 |
CN111707270A (zh) * | 2020-06-23 | 2020-09-25 | 东南大学 | 一种基于分布估计和强化学习的无地图避障导航方法 |
CN111880564A (zh) * | 2020-07-22 | 2020-11-03 | 电子科技大学 | 一种基于协同增强学习的多智能体区域搜索方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635917B (zh) * | 2018-10-17 | 2020-08-25 | 北京大学 | 一种多智能体合作决策及训练方法 |
US11465617B2 (en) * | 2019-11-19 | 2022-10-11 | Ford Global Technologies, Llc | Vehicle path planning |
-
2021
- 2021-08-26 CN CN202110985562.6A patent/CN113515130B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104571113A (zh) * | 2015-01-20 | 2015-04-29 | 博康智能网络科技股份有限公司 | 移动机器人的路径规划方法 |
WO2018120739A1 (zh) * | 2016-12-30 | 2018-07-05 | 深圳光启合众科技有限公司 | 路径规划方法、装置及机器人 |
CN108762281A (zh) * | 2018-06-08 | 2018-11-06 | 哈尔滨工程大学 | 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法 |
CN109254584A (zh) * | 2018-09-13 | 2019-01-22 | 鲁东大学 | 基于多智能体的角色分配方法、装置、计算机设备及存储介质 |
CN111707270A (zh) * | 2020-06-23 | 2020-09-25 | 东南大学 | 一种基于分布估计和强化学习的无地图避障导航方法 |
CN111880564A (zh) * | 2020-07-22 | 2020-11-03 | 电子科技大学 | 一种基于协同增强学习的多智能体区域搜索方法 |
Non-Patent Citations (3)
Title |
---|
Yang,Y.optimal control of distributed multiagent systems with finite-time group flocking.International journal of intelligent systems.2020,第1-17页. * |
基于两层Q-Learning算法的多智能体协作方法研究;王帅;;煤矿机电(05);第74-76页 * |
基于领航者的多机器人系统编队控制研究;孙玉娇;鲁东大学学报;第36卷(第1期);第35-39页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113515130A (zh) | 2021-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113515130B (zh) | 用于智能体路径规划的方法和存储介质 | |
CN111413966B (zh) | 一种递进式模型预测无人驾驶规划跟踪协同控制方法 | |
Thabit et al. | Multi-robot path planning based on multi-objective particle swarm optimization | |
CN107234617B (zh) | 一种避障任务无关人工势场引导的避障路径规划方法 | |
Kala et al. | Fusion of probabilistic A* algorithm and fuzzy inference system for robotic path planning | |
CN110231824B (zh) | 基于直线偏离度方法的智能体路径规划方法 | |
CN108444489A (zh) | 一种改进rrt算法的路径规划方法 | |
Chen et al. | Path planning and control of soccer robot based on genetic algorithm | |
CN109542106A (zh) | 一种移动机器人多约束条件下的路径规划方法 | |
CN112013846A (zh) | 一种结合动态步长rrt*算法和势场法的路径规划方法 | |
CN112432648A (zh) | 一种移动型机器人安全运动轨迹的实时规划方法 | |
CN113435025B (zh) | 一种结合多级优化模型的机器人高性能轨迹自动生成方法 | |
CN114859911A (zh) | 一种基于drl的四足机器人路径规划方法 | |
CN112486178A (zh) | 一种基于有向d*算法的动态路径规划方法 | |
CN113534819B (zh) | 用于领航跟随型多智能体编队路径规划的方法和存储介质 | |
CN112859855A (zh) | 一种基于蝗虫优化算法的机器人多目标路径规划 | |
Li et al. | Navigation of mobile robots based on deep reinforcement learning: Reward function optimization and knowledge transfer | |
Huang | Path planning based on mixed algorithm of RRT and artificial potential field method | |
Seder et al. | Hierarchical path planning of mobile robots in complex indoor environments | |
CN116009527A (zh) | 基于动态场景结构膨胀感知的路径规划算法 | |
Bai et al. | Design and Simulation of a Collision-free Path Planning Algorithm for Mobile Robots Based on Improved Ant Colony Optimization. | |
CN116203975A (zh) | 一种机器人路径规划的方法 | |
Westbrook et al. | Anytime kinodynamic motion planning using region-guided search | |
CN113848911A (zh) | 基于Q-learning和RRT*的移动机器人全局路径规划方法 | |
CN116579372A (zh) | 一种基于深度强化学习的多智能体协同导航方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |