CN116339349A

CN116339349A - 路径规划方法、装置、电子设备及存储介质

Info

Publication number: CN116339349A
Application number: CN202310511488.3A
Authority: CN
Inventors: 张国林; 宋晓林; 姚叶旺
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-05-08
Filing date: 2023-05-08
Publication date: 2023-06-27

Abstract

本申请实施例提供一种路径规划方法、装置、电子设备及存储介质，涉及人工智能技术领域，所述方法包括：接收机器人从目标起点至目标终点的路径规划请求；根据所述路径规划请求，模拟所述机器人从所述目标起点移动至所述目标终点的行为，得到N个候选路径，在所述N个候选路径中确定所述机器人从目标起点至目标终点的目标路径。通过强化学习的方式对机器人进行路径规划，并将机器人的移动行为分解为避障行为和向目标终点的移动行为，分别计算对应的奖励函数，可以提升由于单一的奖励函数不能对机器人的移动进行准确的描述的机率，从而提升路径规划的效率和准确性。

Description

路径规划方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种路径规划方法、装置、电子设备及存储介质。

背景技术

为了更好地服务客户、提高服务效率，许多银行引入了智能服务机器人(后续简称机器人)，为避免机器人在移动过程中与障碍物发生碰撞，需要对机器人进行路径规划。

路径规划就是依据最短路径、最短规划时间等一些设定的评估标准，搜索一条从起始点到终点的最优或较优的无碰撞路径。传统的路径规划方法是使用数学模型或物理模型来构建机器人与行人的交互状态，然后结合传统的搜索算法如遗传算法等完成路径规划任务，对于陌生的场景泛化能力有限，路径规划的效率较低。

发明内容

本申请实施例提供一种路径规划方法、装置、电子设备及存储介质，可以提升路径规划的效率。

第一方面，本申请实施例提供一种路径规划方法，包括：

接收机器人从目标起点至目标终点的路径规划请求；

根据所述路径规划请求，模拟所述机器人从所述目标起点移动至所述目标终点的行为，得到N个候选路径，其中，N为正整数，所述N个候选路径为经过N次模拟过程生成的，每个所述候选路径由多个时刻的位置构成；在第M次模拟过程中，基于强化学习算法，根据所述机器人在t时刻与所述目标终点的距离和周边障碍物的距离更新所述机器人在t+1时刻的移动方向和移动位置；所述t大于或等于0，M小于或等于N；

在所述N个候选路径中确定所述机器人从目标起点至目标终点的目标路径。

可选的，所述基于强化学习算法，根据所述机器人在t时刻与所述目标终点的距离和周边障碍物的距离更新所述机器人在t+1时刻的移动方向和移动位置，包括：

根据所述机器人在t时刻的状态和t时刻的总奖励函数值，获取所述机器人在t+1时刻的移动方向和移动位置；所述t时刻的状态用于指示所述机器人在t时刻与目标终点位置之间的距离，以及，与周边障碍物的最短距离；

模拟所述机器人按照所述t+1时刻的移动方向和移动位置移动，并获取所述机器人在t+1时刻的状态；

根据所述t时刻的状态和所述t+1时刻的状态，获取所述机器人在所述t+1时刻的向目标终点移动行为对应的第一奖励函数值和避障行为对应的第二奖励函数值；

根据所述第一奖励函数值和所述第二奖励函数值，获取所述机器人在所述t+1时刻的总奖励函数值。

可选的，所述根据所述t时刻的状态和所述t+1时刻的状态，获取所述机器人在所述t+1时刻的向目标终点移动行为对应的第一奖励函数值和避障行为对应的第二奖励函数值，包括：

获取所述机器人在t时刻受到所述目标终点位置的引力U₁、受到所述障碍物的斥力U₃，以及，所述机器人在t+1时刻受到所述目标终点位置的引力U₂、受到所述障碍物的斥力U₄；

根据所述机器人在t+1时刻与所述目标终点位置之间的距离、所述U₁以及所述U₂，获取所述第一奖励函数值；

根据所述机器人在t+1时刻与障碍物之间的最短距离、所述U₃以及所述U₄，获取所述第二奖励函数值。

可选的，所述获取所述机器人在t时刻受到所述目标终点位置的引力U₁，包括：

若所述机器人在t时刻与所述目标终点位置之间的距离小于或等于预设距离阈值，则根据所述t时刻与所述目标终点位置之间的距离和引力增益系数，获取所述U₁；

若所述机器人在t时刻与所述目标终点位置之间的距离大于预设距离阈值，则根据所述预设距离阈值和所述引力增益系数，获取所述U₁。

可选的，所述根据所述机器人在t+1时刻与所述目标终点位置之间的距离、所述U₁以及所述U₂，获取所述第一奖励函数值，包括：

若所述机器人在t+1时刻与所述目标终点位置之间的距离未位于预设距离区间内，则根据所述U₁和所述U₂的差值，以及，第一奖励值调节系数获取所述第一奖励函数值；

若所述机器人在t+1时刻与所述目标终点位置之间的距离位于所述预设距离区间内，则将所述第一奖励函数值置为第一预设值。

可选的，所述获取所述机器人在t时刻受到所述障碍物的斥力U₃，包括：

若所述机器人在t时刻与所述障碍物之间的最短距离小于或等于预设安全距离，则根据所述机器人在t时刻与障碍物之间的最短距离、所述安全距离、斥力增益系数，获取所述U₃；

若所述机器人在t时刻与所述障碍物之间的最短距离大于预设安全距离，将所述U3置为第二预设值。

可选的，所述根据所述机器人在t+1时刻与障碍物之间的最短距离、所述U₃以及所述U₄，获取所述第二奖励函数值，包括：

若所述机器人在t+1时刻与所述障碍物之间的最短距离大于最小安全距离，且小于最大安全距离，则根据所述U₃和所述U₄的差值，以及，第二奖励值调节系数获取所述第二奖励函数值；

若所述机器人在t+1时刻与障碍物之间的最短距离大于或等于所述最大安全距离，则将所述第二奖励函数值置为第三预设值；

若所述机器人在t+1时刻与障碍物之间的最短距离小于或等于所述最小安全距离，则将所述第二奖励函数值置为第四预设值。

可选的，所述根据所述第一奖励函数值和所述第二奖励函数值，获取所述机器人在所述t+1时刻的总奖励函数值，包括：

获取所述第二奖励函数的权重；其中，所述权重取值与所述机器人与所述障碍物之间的最短距离负相关；

根据所述第二奖励函数的权重、所述第二奖励函数和所述第一奖励函数，得到所述总奖励函数。

第二方面，本申请实施例提供一种路径规划装置，包括：

接收模块，用于接收机器人从目标起点至目标终点的路径规划请求；

规划模块，用于根据所述路径规划请求，模拟所述机器人从所述目标起点移动至所述目标终点的行为，得到N个候选路径，其中，N为正整数，所述N个候选路径为经过N次模拟过程生成的，每个所述候选路径由多个时刻的位置构成；在第M次模拟过程中，基于强化学习算法，根据所述机器人在t时刻与所述目标终点的距离和周边障碍物的距离更新所述机器人在t+1时刻的移动方向和移动位置；所述t大于或等于0，M小于或等于N；

确定模块，用于在所述N个候选路径中确定所述机器人从目标起点至目标终点的目标路径。

第三方面，本申请提供一种电子设备，包括：存储器和处理器；

存储器用于存储计算机指令；处理器用于运行存储器存储的计算机指令实现第一方面中任一项的方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现第一方面中任一项的方法。

第五方面，本申请提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面中任一项的方法。

本申请实施例提供的路径规划方法、装置、电子设备及存储介质，通过接收机器人从目标起点至目标终点的路径规划请求；根据所述路径规划请求，模拟所述机器人从所述目标起点移动至所述目标终点的行为，得到N个候选路径，所述N个候选路径为经过N次模拟过程生成的，每个所述候选路径由多个时刻的位置构成；在第M次模拟过程中，基于强化学习算法，根据所述机器人在t时刻与所述目标终点的距离和周边障碍物的距离更新所述机器人在t+1时刻的移动方向和移动位置；在所述N个候选路径中确定所述机器人从目标起点至目标终点的目标路径。通过强化学习的方式对机器人进行路径规划，并将机器人的移动行为分解为避障行为和向目标终点的移动行为，分别计算对应的奖励函数，可以提升由于单一的奖励函数不能对机器人的移动进行准确的描述的机率，从而提升路径规划的效率和准确性。

附图说明

图1为本申请实施例提供的场景示意图；

图2为本申请实施例提供的路径规划方法的流程示意图一；

图3为本申请实施例提供的路径规划方法的流程示意图二；

图4为本申请实施例提供的路径规划装置的结构示意图；

图5为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分，并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本申请实施例中，“示例性的”或者“例如”等词用于表示例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

为了更好地服务客户、提高服务效率，许多银行引入了机器人(后续简称机器人，为避免机器人在移动过程中与障碍物发生碰撞，需要对机器人进行路径规划。路径规划就是依据最短路径、最短规划时间等一些设定的评估标准，搜索一条从起始点到终点的最优或较优的无碰撞路径。

传统的路径规划方法是使用数学模型或物理模型来构建机器人与行人的交互状态，然后结合传统的搜索算法如遗传算法等完成路径规划任务，对于陌生的场景泛化能力有限，路径规划的效率较低。

随着机器学习的发展，数据驱动方法成为行人环境下机器人路径规划的热门研究方向，例如，通过强化学习进行机器人的路径规划，极大地提升了场景适应性，但也面临着由于奖励函数单一无法准确描述机器人移动，导致路径规划的准确性较低的问题。

有鉴于此，本申请实施例提供一种路径规划方法、装置、电子设备和存储介质，基于强化学习来进行机器人路径规划，将移动机器人的移动行为进行分解，为不同行为分别设计不同的奖励函数，并将自适应人工势场法引入奖励函数设计，使得移动机器人在路径规划过程中更易避开斥力源，靠近引力源，从而提升路径规划的效率和准确性。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以独立实现，也可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图1为本申请实施例的应用场景示意图，如图1所示，包括目标起点101、目标终点102、多个障碍物103、机器人104和服务器105。

服务器105与机器人进行通信，接收机器人104发送的路径规划请求，服务器可以根据机器人104的目标起点101、目标终点102和多个障碍物103位置，模拟机器人从所述目标起点移动至所述目标终点的行为，得到多条机器人104的候选移动路径。

服务器105可以根据预设的路径规划条件在多条机器人104的候选移动路径中选择一条符合需求的路径作为机器人104移动的目标路径。

服务器105可以将选择的目标路径下发至机器人105，以使机器人105可以根据目标路径进行移动。

可选的，服务器105可以为本地服务器，也可以为部署于云端的服务器。服务器105也可以为具备计算能力的数据分析平台，本申请实施例对服务器105的类型不进行限制。

上面对本申请的应用场景进行了简单介绍，下面以应用于图1中的服务器为例，对本申请实施例提供的路径规划方法进行介绍。

图2为本申请实施例提供的路径规划方法的流程示意图一，如图2所示，包括如下步骤：

S201、接收机器人从目标起点至目标终点的路径规划请求。

本申请实施例中，路径规划请求中可以包括目标起点、目标终点以及机器人所处环境中的不同目标障碍物的位置坐标。

示例性的，机器人在需要从目标起点移动至目标终点时，可以通过自身的传感器获取所处环境中的不同目标障碍物的位置坐标。其中，目标起点和目标终点的位置坐标可以为机器人接收外部输入的，例如，用户通过电子设备将目标起点和目标终点的位置坐标发送至机器人。

可选的，在一种可能的实现方式中，目标起点、目标终点以及机器人所处环境中的不同目标障碍物的位置坐标也可以为外部输入至机器人。

服务器可以通过与机器人的交互获取机器人发送的路径规划请求。

S202、根据所述路径规划请求，模拟所述机器人从所述目标起点移动至所述目标终点的行为，得到N个候选路径。

本申请实施例中，所述N个候选路径为经过N次模拟过程生成的，每个所述候选路径由多个时刻的位置构成；在第M次模拟过程中，基于强化学习算法，根据所述机器人在t时刻与所述目标终点的距离和周边障碍物的距离更新所述机器人在t+1时刻的移动方向和移动位置；所述t大于或等于0，M小于或等于N。

示例性的，在模拟机器人移动过程中，服务器可以采用强化学习的方式从预设的执行动作库中获取机器人下一步的执行动作，并模拟机器人执行该动作后，获取执行该动作的奖励函数值。其中，强化学习可以采用Q-learning学习算法，简称Q学习算法。

示例性的，预设的执行动作库中包括了机器人可以执行的动作，该动作可以指示机器人的移动方向，包括上、下、左、右、右上、右下、左上和左下八个动作，选择一个动作即表示机器人向该方向进行移动。

在机器人移动过程的任一时刻，例如，t时刻，根据t时刻机器人的位置，获取与目标终点之间的欧式距离，以及，获取与周围障碍物之间的最短欧式距离，根据上述两个欧式距离获取机器人移动至t时刻所在位置的奖励函数值。其中，奖励函数可以为t时刻的向目标终点移动行为对应的奖励函数值和避障行为对应的奖励函数值的总奖励函数值。

根据奖励函数从预设的动作库中获取执行概率最大的执行动作，并模拟机器人执行所述概率最大的执行动作。其中，机器人的移动速度可以为恒定值，确定了移动方向时，即可以确定下一时刻的位置，即，更新机器人在t+1时刻的移动方向和移动位置。重复上述更新移动方向和移动位置的过程，直至到达目标终点，完成模拟一次机器人的移动过程，得到一个候选路径。

服务器重复进行N次模拟过程，可以得到N条候选路径。

可选的，在根据奖励函数从预设的动作库中获取执行概率最大的执行动作，可以通过玻尔兹曼分布概率进行获取。

S203、在所述N个候选路径中确定所述机器人从目标起点至目标终点的目标路径。

本申请实施例中，服务器可以根据预设的筛选条件从N条候选路径中确定机器人从目标起点至目标终点的目标路径。

示例性的，预设的筛选条件可以为路径最短、规划时间最短等，本申请实施例对预设的筛选条件不进行限制。

本申请实施例提供的路径规划方法，通过接收机器人从目标起点至目标终点的路径规划请求；根据所述路径规划请求，模拟所述机器人从所述目标起点移动至所述目标终点的行为，得到N个候选路径，所述N个候选路径为经过N次模拟过程生成的，每个所述候选路径由多个时刻的位置构成；在第M次模拟过程中，根据所述机器人在t时刻与所述目标终点的距离和周边障碍物的距离更新所述机器人在t+1时刻的移动方向和移动位置；在所述N个候选路径中确定所述机器人从目标起点至目标终点的目标路径。通过强化学习的方式对机器人进行路径规划，可以提升路径规划的效率；并将机器人的移动行为分解为避障行为和向终点的移动行为，分别计算对应的奖励函数，可以提升由于单一的奖励函数不能对机器人的移动进行准确的描述的机率，从而提升路径规划的准确性。

图3为本申请实施例提供的路径规划方法的流程示意图二，在图2所示实施例的基础上，对每次模拟过程中的路径规划的方法进行说明，如图3所示，包括如下所示步骤：

S301、初始化Q学习算法中各参数的值。

本申请实施例中，Q学习算法中各参数包括学习率τ，折扣因子γ，以及价值函数Q。

其中，学习率τ为Q学习算法中的调谐参数，该参数确定每次迭代中的步长，使损失函数收敛到最小值，τ∈[0,1]。折扣因子γ可以用于使Q学习算法中的价值函数收敛，γ∈[0,1]；价值函数Q可以用于评价机器人在某时刻状态下执行某动作的效果，以t时刻为例，价值函数Q可以表示为Q(s_t,a_t)，s_t为t时刻机器人的状态；a_t为t时刻机器人执行的动作。

S302、根据所述机器人在t时刻的状态和t时刻的总奖励函数值，确定机器人在t+1时刻的状态。

本申请实施例中，t时刻的状态用于指示所述机器人在t时刻与目标终点位置之间的距离，以及，与周边障碍物的最短距离。其中，本申请实施例中的距离均可以指欧式距离。在机器人的不同方向均可能存在障碍物，与周边障碍物的最短距离可以为最接近的障碍物之间的欧式距离。

t时刻的总奖励函数值可以用于描述机器人执行t时刻动作的效果，例如，执行t时刻动作后，机器人的位置是接近了目标终点，还是远离了目标终点，若接近了目标终点，则总奖励函数值可以相对较大，若远离了目标终点，则总奖励函数值可以相对较小。

任一时刻的总奖励函数值可以根据上一时刻机器人的状态、上一时刻的总奖励函数和当前时刻状态确定，以t时刻和t+1时刻为例，对t+1时刻总奖励函数值的获取过程进行说明。

示例性的，根据所述机器人在t时刻的状态和t时刻的总奖励函数值，获取所述机器人在t+1时刻的移动方向和移动位置；模拟所述机器人按照所述t+1时刻的移动方向和移动位置移动，并获取所述机器人在t+1时刻的状态；根据所述t时刻的状态和所述t+1时刻的状态，获取所述机器人在所述t+1时刻的向目标终点移动行为对应的第一奖励函数值和避障行为对应的第二奖励函数值；根据所述第一奖励函数值和所述第二奖励函数值，获取所述机器人在所述t+1时刻的总奖励函数值。

在t时刻，t时刻的状态和t时刻的总奖励函数值均已确定，根据t时刻的状态和t时刻的总奖励函数值可以从预设的动作库中选择t+1时刻机器人的待执行动作，即，获取所述机器人在t+1时刻的移动方向和移动位置。

示例性的，可以通过如下所示公式，获取预设的动作库A中每个动作的概率，并选择概率最大的一个动作作为待执行动作。

其中，Q(s,a_i)为机器人在当前时刻的状态执行动作a_i的价值函数值，T为温度系数，a_i∈A；

示例性的，动作库A中定义的可执行动作如下所示：

A＝{a_i,i＝1,2,3,4,5,6,7,8}＝{a_up,a_down,a_left,a_right,a_ur,a_dr,a_ul,a_dl}

其中，a_up,a_down,a_left,a_right,a_ur,a_dr,a_ul,a_dl分别表示移动机器人向上、下、左、右、右上、右下、左上和左下八个方向运动。

在确定机器人在t+1时刻的执行动作时，服务器可以模拟机器人执行该动作，根据t+1时刻的位置坐标获取t+1时刻的状态。

本申请实施例中，为准确描述机器人的移动行为，将机器人的从t时刻移动至t+1时刻的移动行为分解为避障行为和向目标终点移动行为。分别计算避障行为对应的第二奖励函数值和向目标终点移动行为对应的第一奖励函数值。通过第一奖励函数值和第二奖励函数值可以提升评价选择执行动作优劣的准确性，在后续选择的过程中，第一奖励函数值和第二奖励函数值较低的动作被选择的概率将会降低，从而提升路径规划的准确性。

本申请实施例中，将机器人的移动过程近似为在虚拟力场中的运动，即机器人分别受目标终点引力作用和障碍物斥力作用，在合力的作用下向目标点运动。因此，第一奖励函数值和第二奖励函数值可以根据机器人在t时刻和在t+1时刻受目标终点引力作用和障碍物斥力确定。

示例性的，获取所述机器人在t时刻受到所述目标终点位置的引力U₁、受到所述障碍物的斥力U₃，以及，所述机器人在t+1时刻受到所述目标终点位置的引力U₂、受到所述障碍物的斥力U₄；根据所述机器人在t+1时刻与所述目标终点位置之间的距离、所述U₁以及所述U₂，获取所述第一奖励函数值；根据所述机器人在t+1时刻与障碍物之间的最短距离、所述U₃以及所述U₄，获取所述第二奖励函数值。

本申请实施例中，t时刻受到所述目标终点位置的引力U₁、受到所述障碍物的斥力U₃、所述机器人在t+1时刻受到所述目标终点位置的引力U₂、受到所述障碍物的斥力U₄、第一奖励函数值和第二奖励函数值的具体计算过程可以参照后续步骤。

S303、获取所述机器人在t时刻受到所述目标终点位置的引力和受到所述障碍物的斥力。

本申请实施例中，机器人在t时刻受到所述目标终点位置的引力可以通过如下方式确定。

示例性的，若所述机器人在t时刻与所述目标终点位置之间的距离小于或等于预设距离阈值，则根据所述t时刻与所述目标终点位置之间的距离和引力增益系数，获取所述U₁。

示例性的，U₁满足如下所示公式：

其中：q_t为机器人在t时刻的坐标；q_goal为目标终点坐标位置；α＞0为引力增益系数；ρ(q_t,q_goal)为机器人与目标终点间的欧式距离；U₁(q_t)为机器人受到的目标终点的引力函数；d^*为预设距离阈值。

可选的，当ρ(q_t,q_goal)＞d^*时，U₁(q_t)为定值，可以避免机器人与目标终点距离较远导致引力过大的问题，通过设定d^*，实现了U₁(q_t)随着ρ(q_t,q_goal)的变化而进行自适应切换。

本申请实施例中，机器人在t时刻受到所述障碍物的斥力可以通过如下方式确定。

示例性的，若所述机器人在t时刻与所述障碍物之间的最短距离小于或等于预设安全距离，则根据所述机器人在t时刻与障碍物之间的最短距离、所述安全距离、斥力增益系数，获取所述U₃。

若所述机器人在t时刻与所述障碍物之间的最短欧式距离大于预设安全距离，将所述U₃置为第二预设值。

示例性的，U₃满足如下所示公式：

其中：β＞0为斥力增益系数；q_obs为障碍物位置坐标；ρ(q_t,q_obs)为机器人到障碍物的最小欧式距离；ρ₀为障碍物区域对机器人运动产生影响的最大距离，可称为预设安全距离；n为大于0的实数；U₃(q_t)为机器人受到障碍物斥力函数；k为大于0的实数。

可选的，若ρ(q_t,q_goal)ⁿ＞＞k，

则U₃满足如下所示公式：

当机器人距目标终点的距离远大于

时，U₃(q_t)与ρ(q_t,q_goal)无关，可以避免机器人与目标终点距离较远导致斥力过大的问题。

可选的，若

则U₃满足如下所示公式：

此时机器人距目标点距离远小于

因此不会产生斥力过大的问题。

S304、获取机器人在t+1时刻受到所述目标终点位置的引力和受到所述障碍物的斥力。

本申请实施例中，机器人在t+1时刻受到所述目标终点位置的引力和受到所述障碍物的斥力的具体实现方式与机器人在t时刻受到所述目标终点位置的引力和受到所述障碍物的斥力的具体实现方式类似。此处不再赘述。

S305、根据t时刻受到所述目标终点位置的引力和t+1时刻受到所述目标终点位置的引力，确定机器人在t+1时刻的向目标终点移动行为对应的第一奖励函数值。

本申请实施例中，服务器在确定t时刻受到所述目标终点位置的引力和t+1时刻受到所述目标终点位置的引力时，可以根据如下所示方式获取第一奖励函数值。

示例性的，若所述机器人在t+1时刻与所述目标终点位置之间的距离未位于预设距离区间内，则根据所述U₁和所述U₂的差值，以及，第一奖励值调节系数获取所述第一奖励函数值；

示例性的，第一奖励函数值可以满足如下所示公式：

其中：ε₁为第一奖励值调节系数；d_g(t+1)为t+1时刻移机器人与目标终点间的欧式距离；U₁(t)为t时刻机器人受到的引力大小；U₂(t+1)为t+1时刻机器人受到的引力大小。

服务器通过U₁(t)-U₂(t+1)的大小来判断机器人是在驶向目标点还是在驶离目标点，若引力越来越小则说明在靠近目标点。

S306、根据t时刻受到所述障碍物的斥力和t+1时刻受到所述障碍物的斥力，确定机器人在t+1时刻避障行为对应的第二奖励函数值。

本申请实施例中，服务器在确定t时刻受到所述障碍物的斥力和t+1时刻受到所述障碍物的斥力时，可以根据如下所示方式获取第二奖励函数值。

示例性的，若所述机器人在t+1时刻与所述障碍物之间的最短距离大于最小安全距离，且小于最大安全距离，则根据所述U₃和所述U₄的差值，以及，第二奖励值调节系数获取所述避障行为奖励函数。

若所述机器人在t+1时刻与障碍物之间的最短距离大于或等于所述最大安全距离，则所述避障行为奖励函数为第三预设值。

若所述机器人在t+1时刻与障碍物之间的最短距离小于或等于所述最小安全距离，则所述避障行为奖励函数为第四预设值。

示例性的，第二奖励函数值可以满足如下所示公式：

其中，ε₂为第二奖励值调节系数；d_max为最大安全距离；d_min为最小安全距离；d_o为机器人和障碍物间的最小欧式距离；d_o(t+1)为t+1时刻机器人与各障碍物点间的最小欧式距离；U₃(t)为t时刻机器人受到的斥力大小；U₄(t+1)为t+1时刻机器人受到的斥力大小。

服务器通过U₃(t)-U₄(t+1)的大小来判断移动机器人是在驶向障碍物还是在驶离障碍物，若斥力越来越小则说明在驶离障碍物。

本申请实施例中,通过设计第一奖励函数和第二奖励函数,可以使机器人在移动过程中,更易避开斥力源，靠近引力源，从而避免与障碍物碰撞，更高效的到达目标终点。

S307、根据第一奖励函数值和第二奖励函数值确定机器人在t+1时刻的总奖励函数，并更新对应的Q值。

本申请实施例中,总奖励函数可以为第一奖励函数和第二奖励函数的加权之和.

示例性的，获取所述第二奖励函数的权重；其中，所述权重取值与所述机器人与障碍物之间的最短距离负相关；根据所述第二奖励函数的权重、所述第二奖励函数和所述第一奖励函数，得到所述总奖励函数。

示例性的,总奖励函数可以满足如下所示公式；

r＝ξr_o+(1-ξ)r_g

其中，ξ∈[0,1]是第二奖励函数r_o的权重。

当ξ＝0时，表明机器人在路径规划时周围不存在障碍物，此时总奖赏值为r＝r_g。当ξ＝1时，表明移动机器人在路径规划时周围存在障碍物，且未达到目标点，此时总奖赏值为r＝r₀。当0<ξ<1时，表明避障行为奖赏和导向目标终点行为奖赏的比重。若越接近于0，表明避障行为被执行的优先级越高。若越接近于1，表明导向目标终点行为会被优先被执行。

在r₀函数中，由于避开障碍物先是首要任务，因此当移动机器人碰到障碍物时，该动作会受到一个比较大的惩罚值。受到惩罚后，该动作被选择的概率会越来越小，其余优秀动作的被选择的概率会慢慢加大。在r_g函数中，当移动机器人驶向目标点时，该行为受到的奖赏值较少，只有到达目标点后，才会获得比较大的奖赏值，当驶离目标点时，该行为会获得负奖赏值作为惩罚，以降低该动作被选择的概率。

在确定总奖励函数时，可以根据总奖励函数更新对应的Q值。

示例性的，更新的Q值，可以满足如下所示公式：

其中，τ∈[0,1]为学习率，控制学习速度；γ∈[0,1]为折扣因子；s_t为t时刻移动机器人的状态；a_t为t时刻移动机器人执行的动作；r_t为移动机器人在状态s_t下执行动作a_t状态转变为s_t+1后得到奖励值；Q(s_t,a_t)为在移动机器人状态s_t下执行动作a_t时的价值函数；

为从动作集合A中选择一个动作a使Q(s_t+1,a_t+1)的值最大。

S308、判断机器人在t+1时刻的位置是否为目标终点，若是，完成路径规划，若否，重复执行S302-S307所示的路径规划过程，直至机器人到达目标终点。

本申请实施例中，在更新Q值时，服务器可以通过t+1时刻的位置与目标终点之间的距离来确定当前位置是否为目标终点。

若是，则结束本次模拟，输出规划的候选路径。若否，则以更新后的Q值、t+1时刻的状态和总奖励函数，重新执行S302-S307所示的路径规划过程，直至机器人到达目标终点，输出规划的候选路径。

可选的，在一些实施例中，本申请提供的路径规划方法，还可以应用于机器人自身。机器人自身具备数据处理模块，在机器人确定到目标起点和目标终点时，可以依据自身的传感器获取行进过程中不同方向的障碍物的位置，通过上述S302-S307所示的路径规划方法，从目标起点移动至目标终点，实现在不确定的环境中的路径规划。

综上所述，本申请实施例提供的路径规划方法，基于强化学习算法的路径规划方法，将机器人的移动行为进行分解，为不同行为分别设计不同的奖励函数。并将机器人的移动过程近似为在虚拟力场中的运动，使得移动机器人在移动过程中更易避开斥力源，靠近引力源，从而避免与障碍物碰撞，更高效的到达目标终点，从而提高路径规划的效率和准确性。

本申请实施例还提供一种路径规划装置。

图4为本申请实施例提供的路径规划装置400的结构示意图，如图4所示，包括：

接收模块401，用于接收机器人从目标起点至目标终点的路径规划请求。

规划模块402，用于根据所述路径规划请求，模拟所述机器人从所述目标起点移动至所述目标终点的行为，得到N个候选路径，其中，N为正整数，所述N个候选路径为经过N次模拟过程生成的，每个所述候选路径由多个时刻的位置构成；在第M次模拟过程中，根据所述机器人在t时刻与所述目标终点的距离和周边障碍物的距离更新所述机器人在t+1时刻的移动方向和移动位置；所述t大于或等于0，M小于或等于N。

确定模块403，用于在所述N个候选路径中确定所述机器人从目标起点至目标终点的目标路径。

可选的，规划模块402，还用于根据所述机器人在t时刻的状态和t时刻的总奖励函数值，获取所述机器人在t+1时刻的移动方向和移动位置；所述t时刻的状态用于指示所述机器人在t时刻与目标终点位置之间的距离，以及，与周边障碍物的最短距离；模拟所述机器人按照所述t+1时刻的移动方向和移动位置移动，并获取所述机器人在t+1时刻的状态；根据所述t时刻的状态和所述t+1时刻的状态，获取所述机器人在所述t+1时刻的向目标终点移动行为对应的第一奖励函数值和避障行为对应的第二奖励函数值；根据所述第一奖励函数值和所述第二奖励函数值，获取所述机器人在所述t+1时刻的总奖励函数值。

可选的，规划模块402，还用于获取所述机器人在t时刻受到所述目标终点位置的引力U₁、受到所述障碍物的斥力U₃，以及，所述机器人在t+1时刻受到所述目标终点位置的引力U₂、受到所述障碍物的斥力U₄；根据所述机器人在t+1时刻与所述目标终点位置之间的距离、所述U₁以及所述U₂，获取所述第一奖励函数值；根据所述机器人在t+1时刻与障碍物之间的最短距离、所述U₃以及所述U₄，获取所述第二奖励函数值。

可选的，规划模块402，还用于若所述机器人在t时刻与所述目标终点位置之间的距离小于或等于预设距离阈值，则根据所述t时刻与所述目标终点位置之间的距离和引力增益系数，获取所述U₁；若所述机器人在t时刻与所述目标终点位置之间的距离大于预设距离阈值，则根据所述预设距离阈值和所述引力增益系数，获取所述U₁。

可选的，规划模块402，还用于若所述机器人在t+1时刻与所述目标终点位置之间的距离未位于预设距离区间内，则根据所述U₁和所述U₂的差值，以及，第一奖励值调节系数获取所述第一奖励函数值；若所述机器人在t+1时刻与所述目标终点位置之间的距离位于所述预设距离区间内，则将所述第一奖励函数值置为第一预设值。

可选的，规划模块402，还用于若所述机器人在t时刻与所述障碍物之间的最短距离小于或等于预设安全距离，则根据所述机器人在t时刻与障碍物之间的最短距离、所述安全距离、斥力增益系数，获取所述U₃；若所述机器人在t时刻与所述障碍物之间的最短欧式距离大于预设安全距离，将所述U3置为第二预设值。

可选的，规划模块402，还用于若所述机器人在t+1时刻与所述障碍物之间的最短距离大于最小安全距离，且小于最大安全距离，则根据所述U₃和所述U₄的差值，以及，第二奖励值调节系数获取所述避障行为奖励函数；若所述机器人在t+1时刻与障碍物之间的最小欧式距离大于或等于所述最大安全距离，则所述避障行为奖励函数为第三预设值；若所述机器人在t+1时刻与障碍物之间的最小欧式距离小于或等于所述最小安全距离，则所述避障行为奖励函数为第四预设值。

可选的，规划模块402，还用于获取所述第二奖励函数的权重；其中，所述权重取值与所述机器人与所述障碍物之间的最短距离负相关；根据所述第二奖励函数的权重、所述第二奖励函数和所述第一奖励函数，得到所述总奖励函数。

本申请实施例提供的路径规划装置可以执行上述任一实施例提供的路径规划方法，其原理和技术效果类似，此处不再赘述。

本申请实施例还提供一种电子设备。

图5为本申请实施例提供的电子设备500的结构示意图，如图5所示，该电子设备500可以包括：至少一个处理器501、存储器502

存储器502，用于存放程序。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。

存储器502可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器501用于执行存储器502存储的计算机执行指令，以实现前述方法实施例所描述的路径规划方法的动作。其中，处理器501可能是一个中央处理器(CentralProcessing Unit，简称为CPU)，或者是特定集成电路(Application Specific IntegratedCircuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

可选的，电子设备500还可以包括通信接口503。

在具体实现上，如果通信接口503、存储器502和处理器501独立实现，则通信接口503、存储器502和处理器501可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(Peripheral Component，简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果通信接口503、存储器502和处理器501集成在一块芯片上实现，则通信接口503、存储器502和处理器501可以通过内部接口完成通信。

本申请实施例中还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述路径规划方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

一种可能的实现方式中，计算机可读介质可以包括随机存取存储器(RandomAccess Memory，RAM)，只读存储器(Read-Only Memory，ROM)，只读光盘(compact discread-only memory，CD-ROM)或其它光盘存储器，磁盘存储器或其它磁存储设备，或目标于承载的任何其它介质或以指令或数据结构的形式存储所需的程序代码，并且可由计算机访问。而且，任何连接被适当地称为计算机可读介质。例如，如果使用同轴电缆，光纤电缆，双绞线，数字用户线(Digital Subscriber Line，DSL)或无线技术(如红外，无线电和微波)从网站，服务器或其它远程源传输软件，则同轴电缆，光纤电缆，双绞线，DSL或诸如红外，无线电和微波之类的无线技术包括在介质的定义中。如本文所使用的磁盘和光盘包括光盘，激光盘，光盘，数字通用光盘(Digital Versatile Disc，DVD)，软盘和蓝光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光光学地再现数据。上述的组合也应包括在计算机可读介质的范围内。

本申请实施例中还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述路径规划方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

在上述终端设备或者服务器的具体实现中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：ApplicationSpecific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

本领域技术人员可以理解，上述任一方法实施例的全部或部分步骤可以通过与程序指令相关的硬件来完成。前述的程序可以存储于计算机可读取存储介质中，该程序被执行时，执行上述方法实施例的全部或部分的步骤。

本申请技术方案如果以软件的形式实现并作为产品销售或使用时，可以存储在计算机可读取存储介质中。基于这样的理解，本申请的技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括计算机程序或者若干指令。该计算机软件产品使得计算机设备(可以是个人计算机、服务器、网络设备或者类似的电子设备)执行本申请实施例所述方法的全部或部分步骤。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种路径规划方法，其特征在于，包括：

接收机器人从目标起点至目标终点的路径规划请求；

2.根据权利要求1所述的方法，其特征在于，所述基于强化学习算法，根据所述机器人在t时刻与所述目标终点的距离和周边障碍物的距离更新所述机器人在t+1时刻的移动方向和移动位置，包括：

3.根据权利要求2所述的方法，其特征在于，所述获取所述机器人在所述t+1时刻的向目标终点移动行为对应的第一奖励函数值和避障行为对应的第二奖励函数值，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取所述机器人在t时刻受到所述目标终点位置的引力U₁，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述机器人在t+1时刻与所述目标终点位置之间的距离、所述U₁以及所述U₂，获取所述第一奖励函数值，包括：

6.根据权利要求3所述的方法，其特征在于，所述获取所述机器人在t时刻受到所述障碍物的斥力U₃，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述机器人在t+1时刻与障碍物之间的最短距离、所述U₃以及所述U₄，获取所述第二奖励函数值，包括：

8.根据权利要求2-7任一项所述的方法，其特征在于，所述根据所述第一奖励函数值和所述第二奖励函数值，获取所述机器人在所述t+1时刻的总奖励函数值，包括：

9.一种路径规划装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现权利要求1-8中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1-8中任一项所述的方法。