CN113515130B

CN113515130B - 用于智能体路径规划的方法和存储介质

Info

Publication number: CN113515130B
Application number: CN202110985562.6A
Authority: CN
Inventors: 杨洪勇; 宁新顺; 刘飞; 范之琳; 韩艺琳; 刘莉; 王丽丽; 张顺宁
Original assignee: Ludong University
Current assignee: Ludong University
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2024-02-02
Anticipated expiration: 2041-08-26
Also published as: CN113515130A

Abstract

本发明公开了一种用于智能体路径规划的方法，包括：步骤S1：建立智能体工作环境地图，并初始化智能体位置；步骤S2：根据目标位置和智能体位置，对智能体的方向状态和探测状态进行离散化，并初始化Q值表；根据目标位置和智能体位置，确定若干记忆节点，智能体以记忆节点为目标导向，并在移动过程中根据探测信息添加其它记忆节点，根据若干记忆节点和其它记忆节点建立记忆池；智能体根据移动过程中获得的回报更新Q值表，直到智能体到达目标位置或者智能体尝试次数超过第一预设阈值；步骤S3：更新记忆池中的记忆节点，得到更新后记忆池；步骤S4：智能体根据更新后记忆池规划路径，到达目标位置。

Description

用于智能体路径规划的方法和存储介质

技术领域

本发明涉及多智能体路径规划技术领域，尤其涉及一种用于智能体路径规划的方法和存储介质。

背景技术

路径规划问题一直是机器人研究领域的热点，随着强化学习在各个领域的应用，强化学习与机器人路径规划问题也越来越紧密地联系起来。

强化学习解决的是序贯决策问题，在与环境交互的过程中会根据回报评估动作的好坏，提高使回报增加的动作概率，减小使回报减少的概率。强化学习是通过对环境不断地探索，在探索的过程中学习如何使下一步动作回报最大，不断地反复探索和迭代，使回报最大的动作序贯策略即为最优路径。

在实现本公开实施例的过程中，发现相关技术中至少存在如下问题：传统强化学习和各种改进方法大多针对静态环境，对于动态的环境和复杂凹形障碍物无法取得理想结果，在动态环境中，机器人周围环境经常发生变化，因此无法利用传统的栅格表格法存储状态，传统强化学习在一个环境收敛后无法直接应用于另一个环境，仍然需要多次迭代尝试，泛化能力较差。

发明内容

本公开实施例提供了一种用于智能体路径规划的方法和存储介质，以解决现有技术中，对于动态环境，传统强化学习在一个环境收敛后无法直接应用于另一个环境，仍然需要多次迭代尝试，泛化能力较差的技术问题。

第一方面，提供了一种用于智能体路径规划的方法，该方法包括：步骤S1：建立智能体工作环境地图，并初始化智能体位置；步骤S2：根据目标位置和所述智能体位置，对智能体的方向状态和探测状态进行离散化，并初始化Q值表；根据目标位置和智能体位置，确定若干记忆节点，所述智能体以所述记忆节点为目标导向，并在移动过程中根据探测信息添加其它记忆节点，根据所述若干记忆节点和所述其它记忆节点建立记忆池；所述智能体根据移动过程中获得的回报更新所述Q值表，直到所述智能体到达所述目标位置或者所述智能体尝试次数超过第一预设阈值；步骤S3：根据离散后的方向状态、离散后的探测状态、所述Q值表和所述智能体的移动距离，更新所述记忆池中的记忆节点，得到更新后记忆池；步骤S4：所述智能体根据所述更新后记忆池规划路径，到达所述目标位置。

结合第一方面，在第一方面的第一种可能的实现方式中，所述步骤S2进一步包括：步骤S21：根据所述目标位置和所述智能体位置，得到智能体与所述目标位置之间的夹角后，将所述目标位置和所述智能体位置的相对方向离散化，得到离散化的方向状态；步骤S22：所述智能体探测到障碍物时，获取所述障碍物的类型和所述智能体与所述障碍物的距离，得到离散化的探测状态。

结合第一方面或者第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，通过人工势场初始化Q值表，对于动态障碍物设定斥力势场。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，通过以下公式计算得到斥力势场，斥力势场函数G’，

其中，ξ为斥力折扣因子，ξ∈[0,1],d_now为所述智能体在当前状态距离所述目标位置的欧氏距离，d₀为动态障碍物斥力的影响范围，超出所述影响范围所述智能体不受斥力影响。

结合第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，所述步骤S2进一步包括：步骤S23：通过以下公式初始化Q值表，

其中，Q(s,a)为所述智能体在状态s时选择动作a的动作值函数，r为所述智能体在状态s时选择动作a移动到下一状态的立即回报，G为引力势场函数，ζ为引力折扣因子,ζ∈[0,1]，d_max为所述智能体距离所述目标位置的最大距离。

结合第一方面的第三种可能的实现方式，在第一方面的第五种可能的实现方式中，所述步骤S2进一步包括：步骤S24：根据所述智能体位置确定起始记忆节点，根据所述目标位置确定最终记忆节点；所述智能体探测到障碍物时，沿所述障碍物两边探索至无障碍物，得到两个子节点，分别计算两个所述子节点与上一记忆节点和下一记忆节点的距离之和，所述距离之和较小的子节点作为记忆节点添加。

结合第一方面的第五种可能的实现方式，在第一方面的第六种可能的实现方式中，所述步骤S2进一步包括：步骤S25：通过以下公式更新所述Q值表，

其中，α为学习率，γ为折扣因子，γ∈[0,1]，max_aQ(s′,a′)为从下一状态s′选择最大动作值函数。

结合第一方面的第五种可能的实现方式，在第一方面的第七种可能的实现方式中，所述记忆池采用拓扑结构。

结合第一方面的第七种可能的实现方式，在第一方面的第八种可能的实现方式中，所述步骤S3进一步包括：步骤S31：顺序遍历所述记忆池中每一个记忆节点，初始化所述智能体位置为所述记忆节点的位置，以下一记忆节点为目标导向；步骤S32：获取所述智能体当前离散后的方向状态和探测状态后，根据动作选择策略得到动作并执行，进入下一状态；步骤S33：在移动过程中，判断是否需要添加其它记忆节点；步骤S34：到达所述下一记忆节点后，判断原记忆池中两记忆节点间距离是否大于本次两记忆节点间距离，若是，用本次移动过程中添加的记忆节点替代原记忆池中的记忆节点，否则，以记忆池中接续的记忆节点为目标导向，转入步骤S32，直到所述智能体到达最终记忆节点，得到所述更新后记忆池。

第二方面，提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行前述的用于智能体路径规划的方法。

本公开实施例提供的用于智能体路径规划的方法和存储介质，可以实现以下技术效果：

相对于传统的强化学习在收敛速度上有很大的提高，得到的规划路径也更加稳定和平滑，对于不同的应用环境表现出较强的泛化能力，在动态环境下也可以平滑地躲避障碍物并到达目标位置。

以上的总体描述和下文中的描述仅是示例性和解释性的，不用于限制本申请。

附图说明

一个或多个实施例通过与之对应的附图进行示例性说，这些示例性说明和附图并不构成对实施例的限定，附图中具有相同参考数字标号的元件示为类似的元件，附图不构成比例限制，并且其中：

图1是本公开实施例提供的用于智能体路径规划的方法流程示意图；

图2是本公开实施例提供的智能体和目标位置的状态示意图；

图3是本公开实施例提供的智能体探测信息的示意图；

图4是本公开实施例提供的记忆节点优化算法的流程示意图；

图5是本公开实施例提供的现有的强化学习方法运行10000回合后智能体移动路径收敛状态示意图和每回合智能体尝试步数示意图；

图6是采用本公开实施例提供的用于智能体路径规划的方法运行100回合后智能体移动路径收敛状态示意图和每回合智能体尝试步数示意图；

图7是采用本公开实施例提供的用于智能体路径规划的方法，加入动态障碍物后运行100回合后智能体移动路径收敛状态示意图和每回合智能体尝试步数示意图；

图8是采用本公开实施例提供的用于智能体路径规划的方法在E型障碍物、多重L型障碍物、复杂障碍物和动态障碍物下智能体移动路径收敛状态示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面对本公开实施例中所涉概念进行介绍，智能体，任何独立的能够思想并可以同环境交互的实体都可以抽象为智能体。

图1是本公开实施例提供的用于智能体路径规划的方法流程示意图。如图1所示，本公开实施例提供了用于智能体路径规划的方法，该方法包括：步骤S1：建立智能体工作环境地图，并初始化智能体位置；步骤S2：根据目标位置和智能体位置，对智能体的方向状态和探测状态进行离散化，并初始化Q值表；根据目标位置和智能体位置，确定若干记忆节点，智能体以记忆节点为目标导向，并在移动过程中根据探测信息添加其它记忆节点，根据若干记忆节点和其它记忆节点建立记忆池；智能体根据移动过程中获得的回报更新Q值表，直到智能体到达目标位置或者智能体尝试次数超过第一预设阈值；步骤S3：根据离散后的方向状态、离散后的探测状态、Q值表和智能体的移动距离，更新记忆池中的记忆节点，得到更新后记忆池；步骤S4：智能体根据更新后记忆池规划路径，到达目标位置。

本公开实施例提供的用于智能体路径规划的方法，可以实现以下技术效果：相对于传统的强化学习在收敛速度上有很大的提高，得到的规划路径也更加稳定和平滑，对于不同的应用环境表现出较强的泛化能力，在动态环境下也可以平滑地躲避障碍物并到达目标位置。

在一些实施例中，步骤S1中，建立智能体工作环境地图，进一步包括：步骤S11：建立地图，获取智能体位置和目标位置，并添加障碍物。

在一些实施例中，步骤S1中，初始化智能体位置，进一步包括：步骤S12：初始化智能体在地图中的位置，并将智能体位置信息发送至执行用于智能体路径规划的方法的设备。

在一些实施例中，步骤S2进一步包括：步骤S21：根据目标位置和智能体位置，得到智能体与目标位置之间的夹角后，将目标位置和智能体位置的相对方向离散化，得到离散化的方向状态；步骤S22：智能体探测到障碍物时，获取障碍物的类型和智能体与障碍物的距离，得到离散化的探测状态。图2是本公开实施例提供的智能体和目标位置的状态示意图。如图2所示，通过以下公式计算得到智能体与目标位置的相对方向，

α为智能体向下的单位向量，β为智能体到目标位置的向量。在得到智能体和目标位置之间的夹角后，将智能体和目标位置的相对方向离散化为八个方向，表示目标位置在智能体的上、下、左、右、左上、右上、左下和右下，智能体与目标位置之间夹角与方向编码的对应关系如表1所示。

表1

图3是本公开实施例提供的智能体探测信息的示意图。如图3所示，步骤S22中，智能体探测障碍物的探测范围为三个步长，智能体探测信息编码如表2所示，

表2

这样，获取智能体与目标位置之间的夹角结合智能体探测信息，可以得到智能体当前状态，即，智能体当前状态包括：离散化的方向状态和离散化的探测状态。这样，通过离散化状态，以方向-探测代替栅格法，可以解决动态环境传统强化学习的栅格表格法难以处理的问题。

在一些实施例中，通过人工势场初始化Q值表，对于动态障碍物设定斥力势场，对于静态障碍物不设定斥力势场。在传统的强化学习中，Q值表的值初始化为零，在智能体不断地尝试与环境交互的过程中，对Q值表进行更新,使得传统强化学习的收敛性较慢，本公开实施例中，使用人工势场中引力势场初始化状态表格，可以提高算法初期的收敛速度。

在一些实施例中，通过以下公式计算得到斥力势场，斥力势场函数G’，

其中，ξ为斥力折扣因子，ξ∈[0,1],d_now为智能体在当前状态距离目标位置的欧氏距离，d₀为动态障碍物与智能体相对安全的距离，超出此距离智能体不受斥力影响。这样，对于无法直接跨越的障碍物，通过斥力势场躲避动态障碍物。

在一些实施例中，步骤S2进一步包括：步骤S23：通过以下公式初始化Q值表，

其中，Q(s,a)为智能体在状态s时选择动作a的动作值函数，r为智能体在状态s时选择动作a移动到下一状态的立即回报，G为引力势场函数，G’为斥力势场函数，ζ为引力折扣因子,ζ∈[0,1]，d_max为智能体距离目标位置的最大距离。

在一些实施例中，引力势场函数

在一些实施例中，步骤S2进一步包括：步骤S24：根据智能体位置确定起始记忆节点，根据目标位置确定最终记忆节点；智能体探测到障碍物时，沿障碍物两边探索至无障碍物，得到两个子节点，分别计算两个子节点与上一记忆节点和下一记忆节点的距离之和，距离之和较小的子节点作为记忆节点添加。通过设置记忆节点，拟人化智能体，设置智能体记忆池，双向探索障碍物并记忆可跨越障碍物的最优节点。

在一些实施例中，步骤S2进一步包括：步骤S25：通过以下公式更新Q值表，

其中，α为学习率，γ为折扣因子，γ∈[0,1]，max_aQ(s′,a′)为从下一状态s′选择最大动作值函数，α的值越大表明下一状态对当前状态的影响越大。这样，根据公式更新Q值表，不断地反复探索和迭代，使得累计回报不断增加最终收敛。

在一些实施例中，记忆池采用拓扑结构。采用拓扑结构保存记忆节点。

图4是本公开实施例提供的记忆节点优化算法的流程示意图，如图4所示，在一些实施例中，步骤S3进一步包括：步骤S31：顺序遍历记忆池中每一个记忆节点，初始化智能体位置为记忆节点的位置，以下一记忆节点为目标导向；步骤S32：获取智能体当前离散后的方向状态和探测状态后，根据动作选择策略得到动作并执行，进入下一状态；步骤S33：在移动过程中，判断是否需要添加其它记忆节点；步骤S34：到达下一记忆节点后，判断原记忆池中两记忆节点间距离是否大于本次两记忆节点间距离，若是，用本次移动过程中添加的记忆节点替代原记忆池中的记忆节点，否则，以记忆池中接续的记忆节点为目标导向，转入步骤S32，直到智能体到达最终记忆节点，得到更新后记忆池；未到达下一记忆节点，转入步骤S32。以目标位置为导向进行移动，很快可以得到一条到达目标位置的路径，但是，很可能加入了不必要的记忆节点，通过虚拟子目标对记忆节点进行优化，随着智能体的迭代收敛，记忆池中的记忆节点也可以不断优化，可以减少记忆节点的记忆冗余。

在一些实施例中，步骤S4进一步包括：步骤S41：智能体依次选择记忆池中的记忆节点作为目标导向点，根据Q值表选择最优动作移动一个步长，每到达一个记忆节点后都以记忆池中接续节点为目标导向点，得出最优路径，到达目标位置。

在一些实施例中，用于智能体路径规划的方法，还包括：步骤S5：实时记录智能体的移动轨迹，直至智能体到达目标位置。

图5是本公开实施例提供的现有的强化学习方法运行10000回合后智能体移动路径收敛状态示意图和每回合智能体尝试步数示意图。其中，图5中左半部分为现有的强化学习方法运行10000回合后智能体移动路径收敛状态示意图，图中的黑色圆点为智能体示意图，图中的方形条代表障碍物；图5中右半部分为现有的强化学习方法每回合智能体尝试步数示意图，横坐标代表尝试回合数，纵坐标代表每回合智能体尝试步数。

图6是采用本公开实施例提供的用于智能体路径规划的方法运行100回合后智能体移动路径收敛状态示意图和每回合智能体尝试步数示意图。其中，图6中左半部分为采用本公开实施例提供的用于智能体路径规划的方法运行100回合后智能体移动路径收敛状态示意图，图中的黑色圆点为智能体示意图，图中的方形条代表障碍物；图6中右半部分为采用本公开实施例提供的用于智能体路径规划的方法每回合智能体尝试步数示意图，横坐标代表尝试回合数，纵坐标代表每回合智能体尝试步数。

图7是采用本公开实施例提供的用于智能体路径规划的方法，加入动态障碍物后运行100回合后智能体移动路径收敛状态示意图和每回合智能体尝试步数示意图。其中，图7中左半部分为采用本公开实施例提供的用于智能体路径规划的方法，加入动态障碍物后运行100回合后智能体移动路径收敛状态示意图，图中的黑色圆点为智能体示意图，图中的方形条代表障碍物，图中的六边形代表动态障碍物；图7中右半部分为采用本公开实施例提供的用于智能体路径规划的方法每回合智能体尝试步数示意图，横坐标代表尝试回合数，纵坐标代表每回合智能体尝试步数。

图8是采用本公开实施例提供的用于智能体路径规划的方法在E型障碍物、多重L型障碍物、复杂障碍物和动态障碍物下智能体移动路径收敛状态示意图。图中的黑色圆点为智能体示意图，图中的方形条代表障碍物，图中的六边形代表动态障碍物。通过图8中智能体移动路径的收敛状态可以看出，本公开实施例提供的用于智能体路径规划的方法具有较好的泛化能力。

本公开实施例还提供了一种存储介质，存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时使处理器执行前述的用于智能体路径规划的方法。

本公开实施例提供的用于智能体路径规划的方法和存储介质，在收敛速度上较传统强化学习提高了98.2％，路径也更加稳定和平滑，更改目标点后仍然表现出较强的泛化能力，对于动态环境也可以平滑地躲避障碍并到达目标位置。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于智能体路径规划的方法，其特征在于，包括：

步骤S1：建立智能体工作环境地图，并初始化智能体位置；

步骤S2：根据目标位置和所述智能体位置，对智能体的方向状态和探测状态进行离散化，并初始化Q值表；

根据目标位置和智能体位置，确定若干记忆节点，所述智能体以所述记忆节点为目标导向，并在移动过程中根据探测信息添加其它记忆节点，根据所述若干记忆节点和所述其它记忆节点建立记忆池；

所述智能体根据移动过程中获得的回报更新所述Q值表，直到所述智能体到达所述目标位置或者所述智能体尝试次数超过第一预设阈值；

步骤S3：根据离散后的方向状态、离散后的探测状态、所述Q值表和所述智能体的移动距离，更新所述记忆池中的记忆节点，得到更新后记忆池；

步骤S4：所述智能体根据所述更新后记忆池规划路径，到达所述目标位置；

所述步骤S2进一步包括：

步骤S21：根据所述目标位置和所述智能体位置，得到智能体与所述目标位置之间的夹角后，将所述目标位置和所述智能体位置的相对方向离散化，得到离散化的方向状态；

步骤S22：所述智能体探测到障碍物时，获取所述障碍物的类型和所述智能体与所述障碍物的距离，得到离散化的探测状态；

通过人工势场初始化Q值表，对于动态障碍物设定斥力势场；

通过以下公式计算得到斥力势场，斥力势场函数G’，

其中，ξ为斥力折扣因子，ξ∈[0,1],d_now为所述智能体在当前状态距离所述目标位置的欧氏距离，d₀为动态障碍物斥力的影响范围，超出所述影响范围所述智能体不受斥力影响；

所述步骤S2进一步包括：

步骤S23：通过以下公式初始化Q值表，

其中，Q(s,a)为所述智能体在状态s时选择动作a的动作值函数，r为所述智能体在状态s时选择动作a移动到下一状态的立即回报，G为引力势场函数，ζ为引力折扣因子,ζ∈[0,1]，d_max为所述智能体距离所述目标位置的最大距离；

所述步骤S2进一步包括：

步骤S24：根据所述智能体位置确定起始记忆节点，根据所述目标位置确定最终记忆节点；

所述智能体探测到障碍物时，沿所述障碍物两边探索至无障碍物，得到两个子节点，分别计算两个所述子节点与上一记忆节点和下一记忆节点的距离之和，所述距离之和较小的子节点作为记忆节点添加；

所述步骤S2进一步包括：

步骤S25：通过以下公式更新所述Q值表，

其中，α为学习率，γ为折扣因子，γ∈[0,1]，max_aQ(s^′,a^′)为从下一状态s^′选择最大动作值函数；

所述记忆池采用拓扑结构。

2.根据权利要求1所述的方法，其特征在于，所述步骤S3进一步包括：

步骤S31：顺序遍历所述记忆池中每一个记忆节点，初始化所述智能体位置为所述记忆节点的位置，以下一记忆节点为目标导向；

步骤S32：获取所述智能体当前离散后的方向状态和探测状态后，根据动作选择策略得到动作并执行，进入下一状态；

步骤S33：在移动过程中，判断是否需要添加其它记忆节点；

步骤S34：到达所述下一记忆节点后，判断原记忆池中两记忆节点间距离是否大于本次两记忆节点间距离，若是，用本次移动过程中添加的记忆节点替代原记忆池中的记忆节点，否则，以记忆池中接续的记忆节点为目标导向，转入步骤S32，直到所述智能体到达最终记忆节点，得到所述更新后记忆池。

3.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1至2中任一项所述的用于智能体路径规划的方法。