CN113467487B

CN113467487B - 路径规划模型的训练、路径规划方法、装置及电子设备

Info

Publication number: CN113467487B
Application number: CN202111035827.2A
Authority: CN
Inventors: 徐博; 成芳娟; 张鸿铭; 王燕娜
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2021-11-23
Anticipated expiration: 2041-09-06
Also published as: CN113467487A

Abstract

本发明实施例涉及强化学习技术领域，具体涉及路径规划模型的训练、路径规划方法、装置及电子设备，其中，所述训练方法包括：获取样本数据以及剩余决策次数，所述样本数据包括当前时刻的环境状态以及损失计算参数；将当前时刻的环境状态以及剩余决策次数输入路径规划模型，并利用剩余决策次数对路径规划模型预测结果中的非空动作进行约束，以输出当前时刻的执行动作并更新所述剩余决策次数，所述路径规划模型是基于强化学习模型建立的；根据当前时刻的执行动作以及损失计算参数进行损失函数的计算，并基于计算结果更新路径规划模型的参数，以确定目标路径规划模型。将决策次数作为约束条件，使得训练得到的目标路径规划模型能够应用在决策次数受限的场景下。

Description

路径规划模型的训练、路径规划方法、装置及电子设备

技术领域

本发明涉及强化学习技术领域，具体涉及路径规划模型的训练、路径规划方法、装置及电子设备。

背景技术

强化学习用于描述和解决目标体在与环境的交互过程中通过学习策略以达成累计回报最大化或实现特定目标的问题。强化学习的常见模型是标准的马尔科夫决策过程(MDP)，一个MDP定义为四元组(S，A，P，R)，其中S表示环境状态的集合；A为动作集合，即目标体的输出值域；P为转移概率，定义了环境根据动作的状态转移；R为奖励函数，定义了动作获得的奖励，MDP寻找最优动作策略以最大化累计奖赏。具体地，策略是指态势S到动作A的映射，策略常用符号π表示，指给定状态S时，动作集上的一个分布，强化学习就是找到最优的策略，即优化策略网络(输入为当前时刻状态，输出为动作集上的概率分布)，这里的最优是指获得的累计回报最大。

例如，在每个离散时刻t＝0，1，…，T，目标体和环境都发生交互，在每个时刻t，目标体根据观测到的环境状态s_t∈S，选择一个动作a_t∈A(s_t)，环境接收到动作转移到下一时刻的状态s_t+1，且返回动作对应的奖励值R_t∈R，如此反复直到最终的时刻T，从而形成一个序列或轨迹s₀，a₀，R₀，…，s_T，a_T，R_T。

由此可知，强化学习场景是每个时刻目标体与环境交互都会输出一个动作，例如，Actor-Critic网络，利用Actor网络决策当前时刻的动作，Critic网络计算执行该动作的状态值，并将状态值反馈给Actor网络进行损失函数计算，以更新网络参数。在Actor网络预测出下一个动作时，目标体就会执行该有效动作。然而，由于在决策次数受限的场景下，不是每个时刻目标体与环境交互都会正常输出有效的动作的，因此，这种方式对于决策次数限制的场景下并不适用。

发明内容

有鉴于此，本发明实施例提供了一种路径规划模型的训练、路径规划方法、装置及电子设备，以解决强化学习模型在决策次数受限场景下的应用问题。

根据第一方面，本发明实施例提供了一种路径规划模型的训练方法，包括：

获取样本数据以及剩余决策次数，所述样本数据包括当前时刻的环境状态以及损失计算参数，所述损失计算参数用于损失函数的计算；

将所述样本数据以及所述剩余决策次数输入路径规划模型，并利用所述剩余决策次数对所述路径规划模型的预测结果中的非空动作进行约束，以输出当前时刻的执行动作并更新所述剩余决策次数，所述路径规划模型是基于强化学习模型建立的；

根据所述当前时刻的执行动作以及所述损失计算参数进行损失函数的计算，并基于计算结果更新所述路径规划模型的参数，以确定目标路径规划模型。

本发明实施例提供的路径规划模型的训练方法，在训练过程中引入了剩余决策次数，且每输出一个决策动作均对剩余决策次数进行更新，即将决策次数作为路径规划模型训练的约束条件，使得训练得到的目标路径规划模型能够应用在决策次数受限的场景下。

结合第一方面，在第一方面第一实施方式中，所述路径规划模型包括策略网络以及价值网络，所述将所述当前时刻的环境状态以及所述剩余决策次数输入路径规划模型，并利用所述剩余决策次数对所述路径规划模型预测结果中的非空动作进行约束，以输出当前时刻的执行动作，包括：

将所述当前时刻的环境状态输入所述策略网络的第一全连接层进行非线性转换，得到预测结果，所述预测结果包括非空动作以及空动作；

将所述剩余决策次数与所述预测结果进行融合；

基于融合结果确定所述当前时刻的执行动作。

本发明实施例提供的路径规划模型的训练方法，将剩余决策次数与策略网络的预测结果进行融合，在融合的基础上再确定当前时刻的执行动作，即当前时刻的执行动作是结合剩余决策次数得出的，从而实现训练得到的路径规划模型能够适用于决策次数受限的场景中。

结合第一方面第一实施方式，在第一方面第二实施方式中，所述将所述剩余决策次数与所述预测结果进行融合，包括：

对所述剩余决策次数进行编码，得到决策约束特征；

将所述决策约束特征输入所述策略网络的第二全连接层进行非线性转换，并将所述第二全连接层的输出与所述非空动作的值相乘；

将相乘结果与所述空动作的值进行拼接，得到所述融合结果。

本发明实施例提供的路径规划模型的训练方法，将决策约束特征输入到决策中无偏置的第二全连接层中，在执行动作次数达到上限时，第二全连接层的输出与非空动作的值相乘结果为零，后续在拼接后只有空动作的值，最终经过网络后，输出概率最大的动作对应的即为空动作，这样达到限制动作次数的目的，即当动作执行次数达到上限后，后续时刻将不执行其他动作。

结合第一方面第二实施方式，在第一方面第三实施方式中，所述将所述当前时刻的环境状态输入所述策略网络的第一全连接层进行非线性转换，得到预测结果，包括：

利用所述第一全连接层中带偏置项的激活函数对所述当前时刻的环境状态进行计算，并将计算结果与预设值相加，以得到所述预测结果。

本发明实施例提供的路径规划模型的训练方法，由于带偏置项的激活函数以及大于0的预设值的引入，使得非空动作和空动作的值大于0。

结合第一方面第二实施方式或第一方面第三实施方式中，在第一方面第四实施方式中，所述将所述当前时刻的环境状态输入所述策略网络的第一全连接层进行非线性转换，得到预测结果，包括：

利用所述当前时刻的环境状态，计算目标体与障碍物的位置参数，所述位置参数包括相对距离与方位角；

将所述位置参数输入所述第一全连接层进行非线性转换，得到所述预测结果。

本发明实施例提供的路径规划模型的训练方法，由于实际物理性能的约束，目标体的动作空间与障碍物的距离与方位相关，先利用当前时刻的环境状态计算得到位置参数，利用位置参数作为策略网络的输入之一，可以提升训练效果。

结合第一方面，在第一方面第五实施方式中，所述获取样本数据，包括：

初始化预设路径规划模型，得到所述路径规划模型；

将初始环境状态以及决策次数输入所述路径规划模型中，输出当前状态的动作；

执行所述当前状态的动作确定更新后的初始环境状态，并获得对应的奖励值，并保存所述初始环境状态、所述当前状态的动作、所述奖励值以及所述更新后的初始环境状态，以确定所述样本数据。

本发明实施例提供的路径规划模型的训练方法，将决策次数嵌入到路径规划模型中，能够自动屏蔽掉非法动作，从而避免过多的无效样本，提高模型训练效率。

结合第一方面第五实施方式，在第一方面第六实施方式中，所述获得对应的奖励值，包括：

当目标体未到达目标点且未碰撞到障碍物，确定所述奖励值为零；

当所述目标体到达所述目标点且未碰撞到障碍物，确定所述奖励值为正向奖励；

当所述目标体碰撞到障碍物无法到达所述目标点，确定所述奖励值为负向奖励。

根据第二方面，本发明实施例还提供了一种路径规划方法，包括：

获取预设决策次数以及目标体的当前环境状态；

将所述预设决策次数以及所述当前环境状态输入目标路径规划模型中，并利用所述预设决策次数对所述目标路径规划模型的预测结果中的非空动作进行约束，以得到当前时刻的动作并更新所述预设决策次数，所述目标路径规划模型是基于强化学习模型建立的；

执行所述当前时刻的动作并更新所述目标体的当前环境状态，以控制所述目标体在所述预设决策次数内达到目标点。

本发明实施例提供的路径规划方法，在路径规划中引入了剩余决策次数，且每输出一个动作均对剩余决策次数进行更新，即将决策次数作为路径规划的约束条件，基于目标路径规划模型的路径规划方法能够应用在决策次数受限的场景下。

根据第三方面，本发明实施例还提供了一种路径规划模型的训练装置，包括：

第一获取模块，用于获取样本数据以及剩余决策次数，所述样本数据包括当前时刻的环境状态；

第一决策模块，用于将所述样本数据以及所述剩余决策次数输入路径规划模型中，并利用所述剩余决策次数对所述路径规划模型预测结果中的非空动作进行约束，以输出当前时刻的执行动作并更新所述剩余决策次数，所述路径规划模型是基于强化学习模型建立的；

更新模块，用于根据所述当前时刻的执行动作进行损失函数的计算，并基于计算结果更新所述路径规划模型的参数，以利用更新后的剩余决策次数以及所述当前时刻的执行动作对所述路径规划模型的参数进行再次更新，确定目标路径规划模型。

本发明实施例提供的路径规划模型的训练装置，在训练过程中引入了剩余决策次数，且每输出一个决策动作均对剩余决策次数进行更新，即将决策次数作为路径规划模型训练的约束条件，使得训练得到的目标路径规划模型能够应用在决策次数受限的场景下。

根据第四方面，本发明实施例还提供了一种路径规划装置，包括：

第二获取模块，用于获取预设决策次数以及目标体的当前环境状态；

第二决策模块，用于将所述预设决策次数以及所述当前环境状态输入目标路径规划模型中，并利用所述预设决策次数对所述目标路径规划模型预测结果中的非空动作进行约束，以得到当前时刻的动作并更新所述预设决策次数，所述目标路径规划模型是基于强化学习模型建立的；

执行模块，用于执行所述当前时刻的动作并更新所述目标体的当前环境状态，以控制所述目标体达到目标点。

本发明实施例提供的路径规划装置，在路径规划中引入了剩余决策次数，且每输出一个动作均对剩余决策次数进行更新，即将决策次数作为路径规划的约束条件，基于目标路径规划模型的路径规划方法能够应用在决策次数受限的场景下。

根据第五方面，本发明实施例提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第一方面或者第一方面的任意一种实施方式中所述的路径规划模型的训练方法，或执行第二方面所述的路径规划方法。

根据第六方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的路径规划模型的训练方法，或执行第二方面所述的路径规划方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例中路径规划场景的示意图；

图2是本发明实施例的路径规划模型的训练方法的流程图；

图3是本发明另一实施例的路径规划模型的训练方法的流程图；

图4是本发明实施例的路径规划模型的训练总体框架图；

图5是本发明实施例的策略网络的结构示意图；

图6是本发明实施例的价值网络的结构示意图；

图7是本发明另一实施例的路径规划模型的训练方法的流程图；

图8是本发明实施例的路径规划模型的训练框图；

图9是本发明实施例的路径规划方法的流程图；

图10是本发明实施例的路径规划模型的训练装置的结构框图；

图11是本发明实施例的路径规划装置的结构框图；

图12是本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

基于强化学习的路径规划，会将各个时刻的状态输入路径规划模型中进行对应时刻的动作求解，路径规划模型会根据每个时刻的状态输出对应的动作。基于此，本发明实施例提出的路径规划方法用于解决决策次数带约束的决策问题。

例如，如图1所示，在复杂场景下，需要通过控制目标体进行路径规划，目标体从起点出发，需要改变自己的路径尽量避开多个障碍物，之后前往目标点。其中，复杂场景的特点如下：目标体从起点达到目标点的整个决策部署的数量级远远大于有效决策次数的数量级；路径中存在多个障碍物，目标体需要规避；目标体的动作空间以及全程的决策次数有一定的约束。

由于受到实际的物理性能的约束，目标体全程可以改变路径的次数有一定的约束，不能超过上限阈值。这就导致了目标体虽然实时决策，但是由于具体问题约束，并不能允许每时每刻都进行有效动作决策的执行。基于此，在本发明实施例中，将目标体有效动作次数的约束加入路径规划模型的优化中。因此，本发明实施例中的路径规划模型的输入除了当前时刻的环境状态特征以外，还加入了约束特征，从而控制目标体的决策次数。

具体地，决策次数的嵌入通过门的结构来控制策略网络的输出，主要利用当前决策次数对路径规划模型预测结果中的非空动作进行约束来控制路径规划模型的输出，根据决策次数约束特征来调整路径规划模型执行动作的权重，进而控制动作输出，实现动作约束。另外，能否在次数限制内达到终点，是根据奖励值自动学习的，训练初期模型应该很难达到终点，然而当模型收敛后是可以实现目标的。其中，场景的约束次数必须设置合理，保证场景设定的问题可解，即目标体在次数限制内能够达到终点。关于约束次数的合理设置可以是根据经验值设置的，可以是通过实验确定的，但是需排除明显不能达到终点的次数，只需保证对目标体的动作次数有限制即可。

根据本发明实施例，提供了一种路径规划模型的训练方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种路径规划模型的训练方法，可用于电子设备，如电脑等能够支持编写神经网络的程序的电子设备。在本实施例中，以样本数据达到预设数量为例，其中，样本数据是存储在资源池中的。图2是根据本发明实施例的路径规划模型的训练方法的流程图，如图2所示，该训练方法可以包括如下步骤：

S11，获取样本数据以及剩余决策次数。

其中，所述样本数据包括当前时刻的环境状态以及损失计算参数，损失计算参数用于损失函数的计算。

具体地，当前时刻的环境状态用于表示目标体与障碍物之间的位置关系，例如，目标体的位置、障碍物的位置以及目标点的位置等等，在样本数据中记录有各个时刻点的相应数据；所述的损失计算参数用于后续计算损失函数的。具体需要记录哪些数据以及计算损失函数需要哪些参数可以根据实际所采用的路径规划模型确定。

例如，当路径规划模型为基于强化学习模型A建立的，其输入数据包括a1以及a2，那么样本数据中每个时刻点均需要记录有a1以及a2的数据；当路径规划模型为基于强化学习模型B建立的，其输入数据包括b1，那么样本数据中每个时刻点均需要记录有b1的数据。

所述的样本数据可以是在与环境交互过程中边训练边采集的，也可以是事先在其他设备中已经形成有资源池且资源池中样本数据的数量也满足预设条件，那么本发明实施例中用于实施该路径规划模型的训练方法的电子设备在需要对路径规划模型进行训练时可以从其他设备中获取到的。因此，在本实施例中对样本数据的来源并不做任何限定，具体可以根据实际需求进行相应的设置。

例如，总决策次数为5次，已经迭代过2次，那么剩余决策次数为3。

S12，将当前时刻的环境状态以及剩余决策次数输入路径规划模型，并利用剩余决策次数对路径规划模型预测结果中的非空动作进行约束，以输出当前时刻的执行动作并更新剩余决策次数。

其中，所述路径规划模型是基于强化学习模型建立的。

在本实施例中，上述路径规划模型例如可以是Q-learning模型，也可以是策略价值模型，或者也可以为其他强化学习模型，在此对其具体网络结构并不做任何限定，只需保证其是基于强化学习模型建立的即可。进一步地，路径规划模型的输入包括两部分的内容，其一为样本数据，其二为剩余决策次数。其中，样本数据包括当前时刻的环境状态以及损失计算参数，损失计算参数用于后续损失函数的计算。所述的剩余决策次数用于对路径规划模型的预测结果中的非空动作进行约束，以将动作次数限定在一定范围内。即，通过对路径规划模型进行优化，以便在有动作次数限定的场景内，输出符合要求的非空动作。将剩余决策次数与各个非空动作进行约束，以确定当前是否需要输出该非空动作。其中，非空动作表示当前时刻需要做动作，空动作表示当前时刻什么动作也不做。

例如，计算各个非空动作的值与剩余决策次数对应的权重，得到各个非空动作的概率值，将概率值与预设值进行比较，确定当前是否要输出该非空动作。或者，也可以是将剩余决策次数转换为编码特征表示，将编码特征与各个非空动作的值进行相乘，以实现对非空动作的约束，等等。

具体地，对剩余决策次数进行编码，将其转化为0，1的表示形式。在将样本数据输入到路径规划模型之后，利用路径规划模型预测当前时刻的动作的值，再将当前时刻的动作的值与剩余决策次数进行融合，最终输出当前时刻的执行动作。例如，如图5所示，将路径规划模型预测当前时刻的非空动作的值与剩余决策次数对应的特征对应相乘，再将相乘后的结果与路径规划模型预测当前时刻的空动作进行拼接，以输出当前时刻的执行动作。

进一步地，在输出当前时刻的执行动作之后，意味着电子设备需要执行该动作，即输出一次有效动作。在输出一次有效动作之后，更新剩余决策次数。例如，剩余决策次数为5，在输出一次有效动作之后，更新后的剩余决策次数为4。

关于该步骤具体将在下文中进行详细描述。

S13，根据当前时刻的执行动作以及损失计算参数进行损失函数的计算，并基于计算结果更新路径规划模型的参数，以确定目标路径规划模型。

电子设备在得到当前时刻的执行动作之后，基于路径规划模型所依赖的强化学习模型的训练方式以及损失计算参数，进行损失函数的计算。相应地，基于计算结果更新路径规划模型的参数。通过决策次数的约束，对路径规划模型中输出执行动作的权重进行调整，进而控制动作输出实现动作约束，最终确定出目标路径规划模型。

如上文所述，在本实施例中样本数据已达到预设数量。继续沿用上例，在本实施例的模型训练方法中，若剩余决策次数为5，输出一次有效动作之后，更新后的剩余决策次数为4，那么，将更新后的剩余决策次数以及执行有效动作后的环境状态输入参数更新后的路径规划模型中，以进行再次迭代，直至确定出目标路径规划模型。在训练过程中，还利用资源池存储环境的状态转换数据。

其中，关于具体的损失函数的计算以及具体参数的更新在此不再赘述，可以参见对应的强化学习模型的训练过程。

本实施例提供的路径规划模型的训练方法，在训练过程中引入了剩余决策次数，且每输出一个决策动作均对剩余决策次数进行更新，即将决策次数作为路径规划模型训练的约束条件，使得训练得到的目标路径规划模型能够应用在决策次数受限的场景下。

图3示出了根据本发明另一实施例的路径规划模型的训练方法，该训练方法可用于电子设备，如电脑等能够支持编写神经网络的程序的电子设备，本实施例中的训练方法可以包括如下步骤：

S21，获取样本数据以及剩余决策次数。

其中，所述样本数据包括当前时刻的环境状态以及损失计算参数，所述损失计算参数用于损失函数的计算。

详细请参见图2所示实施例的S11，在此不再赘述。

在本实施例中，所述的路径规划模型包括策略网络以及价值网络。相应地，损失计算参数包括奖励值以及下一时刻的环境状态。价值网络用于基于剩余决策次数以及当前时刻的环境状态确定状态值，并将状态值反馈给策略网络，策略网络基于剩余决策次数以及当前时刻的环境状态确定当前时刻的策略，后续依据概率分布选择当前时刻的执行动作a_t。具体地，策略网络包括第一全连接层以及第二全连接层。这两个全连接层分别对应路径规划模型的两个输入分支，即环境状态以及剩余决策次数。其中，第一全连接层的输入为环境状态，输出为预测的非空动作与空动作；第二全连接层的输入为剩余决策次数对应的决策约束特征，输出为非线性转化后的特征。当然，对于神经网络的层数以及每层的神经元个数没有限定，但是必须保证当剩余决策次数为0时，第二全连接层的输出为零向量。

S22，将当前时刻的环境状态输入策略网络的第一全连接层进行非线性转换，得到预测结果。

其中，预设结果包括非空动作以及空动作。

电子设备将当前时刻的环境状态输入第一全连接层，得到预测结果。其中，全连接层所采用的激活函数可以根据实际情况进行相应的设置，只需保证其能够对当前时刻的环境状态进行非线性转换即可，在此对其并不做任何限定。

可选地，利用第一全连接层中带偏置项的激活函数对当前时刻的环境状态进行计算，并将计算结果与预设值相加，以得到预测结果。其中，为了保证非空动作和空动作的值大于0，预设值大于零，且预设值很小，以实现例如sofmax等非线性转换，例如预设值可以小于0.5。

如图5所示，第一全连接层输出加上了relu激活函数和很小的正值ε(即所述的预设值)，由于relu和ε的引入，对应的非空动作和空动作的值大于0。其中，w为策略网络的权重，s为环境状态，b为策略网络的偏置，relu为激活函数。

如上文所述，样本数据包括当前时刻的环境状态，由于环境状态中包括有多个位置信息，而在路径规划过程中，最重要的是目标体与障碍物之间的位置关系，因此，电子设备需要基于当前时刻的环境状态确定出目标体与障碍物之间的位置参数，并将其与剩余决策次数一起输入到策略网络中，得到当前时刻的执行动作。

在本实施例的一些可选实施方式中，上述S22包括：

(1)利用当前时刻的环境状态，计算目标体与障碍物的位置参数，所述位置参数包括相对距离与方位角。

由于当前时刻的环境状态中包括有目标体的当前位置，障碍物的当前位置，通过两个位置坐标即可计算出目标体与障碍物之间的位置参数。

(2)将位置参数输入第一全连接层进行非线性转换，得到预测结果。

利用第一全连接层对输入的位置参数进行非线性转换，得到对应的非空动作以及空动作。

S23，将剩余决策次数与预测结果进行融合。

如上文所述，剩余决策次数是与当前时刻的环境状态一起输入到策略网络中的，那么，剩余决策次数是用于与第一全连接层的输出结果进行融合的，以对预测结果进行约束。

在将剩余决策次数输入策略网络之前，先对其进行编码，将其转化为0,1的表示形式。基于此，所述的融合可以是将编码后的剩余决策次数与预测结果进行相乘；也可以将预测结果的一部分数据与编码后的剩余决策次数相乘，另一部分数据与相乘后的结果再拼接，等等。具体可以根据实际需求进行相应的设置。

作为本实施例的一种可选实施方式，上述S23可以包括：

(1)对剩余决策次数进行编码，得到决策约束特征。

所述的编码可以是将剩余决策次数转换为二进制的表示形式，也可以是将其转换为向量的表示形式。其中，向量维度即为总的决策次数，所述元素的值为0或1。例如，总的决策次数为5，第一次决策时，所述决策约束特征表示为[1,1,1,1,1]，当策略网络输出一次非空动作后，剩余决策次数减1，即为4；那么第二次决策时，决策约束特征表示为[0,1,1,1,1]，当策略网络输出一次非空动作后，剩余决策次数减1，即为3；第三次决策时，决策约束特征表示为[0,0,1,1,1]；…；依次类推，直至决策约束特征表示为[0,0,0,0,0]。即，当策略网络输出一次非空动作后，剩余决策次数减1，否则剩余决策次数不变，决策约束特征的表示是根据剩余决策进行编码的。

(2)将决策约束特征输入策略网络中第二全连接层进行非线性转换，并将第二全连接层的输出与非空动作的值相乘。

第二全连接层用于对决策约束特征进行非线性转换，在此对非线性转换所用到的激活函数并不做任何限定，具体可以根据实际需求进行相应的设置。例如，如图5所示，决策约束特征输入第二全连接层中，其中，第二全连接层加入relu激活。当输入的决策约束特征s_t1＝[0,0,0,0,0]时，表示执行动作次数已达到上限，则输出也全部为0，再与非空动作相乘依然为0。

(3)将相乘结果与空动作的值进行拼接，得到融合结果。

电子设备再将相乘结果与空动作的值进行拼接，由于空动作的值大于0，则最终拼接后的向量前面的维度的数值均为0，最后一位对应于空动作的值。最终经过网络后，输出概率最大的动作对应的即为空动作。这样达到限制动作次数的目的，即当动作执行次数达到上限后，后续时刻将不执行其他动作。

此处需要说明的是，第二全连接层中加入的激活函数并不限于上文所述的relu激活，也可以采用其他激活函数实现，在此对其并不做任何限定，具体可以根据实际需求进行相应的设置。

具体地，策略网络和价值网络都是非线性转换，如果没有激活函数无论神经网络有多少层，输出都是输入的线性组合，那么网络的逼近能力就相当有限，因此引入非线性函数relu作为激活函数，使得模型几乎可以逼近任意函数。约束特征进行非线性转换是路径规划模型的一部分，而对于网络的层数以及神经元个数没有约束，只要无偏置就可以，其是用于特征提取的。

如图5所示，需要说明的是，将相乘结果与空动作的值进行拼接，输出为一个向量，两者就是直接拼接。约束特征进行非线性转换后的输出以及非空动作都是向量，两者的维度相同，对应相乘就是将两个向量中的元素一一对应相乘。

S24，基于融合结果确定当前时刻的执行动作。

如图5所示，策略网络基于融合结果输出为对应状态下动作的概率分布π(a|s_t)，即当前状态目标体当前时刻移动到哪个位置或者保持原路径不变。

由于实际物理性能的约束，目标体的动作空间与障碍物的距离与方位相关，先利用当前时刻的环境状态计算得到位置参数，利用位置参数作为策略网络的输入之一，可以提升训练效果。

S25，根据当前时刻的执行动作以及损失计算参数进行损失函数的计算，并基于计算结果更新路径规划模型的参数，以确定目标路径规划模型。

如图4所示，在对路径规划模型的参数进行更新时，电子设备计算价值网络的梯度，以更新价值网络的参数；计算策略网络的梯度，以更新策略网络的参数。图4中各个参数的含义如下所述：a_t为当前时刻的执行动作，s_t为当前时刻的环境状态，r_t为当前时刻的奖励值，s_t+1为下一时刻的环境状态，s′_t为剩余决策次数，s′_t+1为更新后的剩余决策次数。当需要进行路径规划模型的训练时，电子设备从资源池中提取样本数据。将提取出的样本数据分别作为策略网络与价值网络的输入，且两个网络还包括另一个输入，即决策约束特征。价值网络利用样本数据以及决策约束特征确定状态值，并计算价值网络的梯度值，利用该梯度值对价值网络的参数进行优化，并将确定出的状态值传递给策略网络。策略网络利用样本数据以及决策约束特征输出预测的当前时刻的预测动作π(a_t|s_t)以及各个预测的概率值，将概率值最大的预测动作确定为当前时刻的动作a_t。仿真引擎执行动作a_t后，将环境状态s_t+1反馈给策略网络，以进行下一次的预测。

如上文所述，路径规划模型包括策略网络以及价值网络。其中，将当前时刻的环境状态以及剩余决策次数输入价值网络中，得到状态值。具体地，如图6所示，价值网络的输入也分为两个部分，分别为决策约束特征s_t1以及当前时刻的环境状态s_t2。其中，价值网络为多层感知机神经网络，包括2层激活函数处理层。具体地，电子设备将决策约束特征以及当前时刻的环境特征均输入到价值网络中，得到状态值。所述的状态值用于对策略网络以及价值网络的参数进行更新。

其余详细请参见图2所示实施例S13，在此不再赘述。

本实施例提供的路径规划模型的训练方法，在路径规划模型中包括策略网络以及价值网络，利用单独的价值网络计算出状态值，以指导策略网络以及价值网络的训练，提高了训练效率。具体地，决策次数的嵌入通过门的结构来控制策略网络的输出，主要通过决策次数约束特征进行非线性转化后的输出和策略网络非空输出对应相乘来控制策略网络的输出，根据决策次数约束特征来调整策略网络执行动作的权重，进而控制动作输出，实现动作约束。

图7示出了根据本发明另一实施例的路径规划模型的训练方法，该训练方法可用于电子设备，如电脑等能够支持编写神经网络的程序的电子设备，本实施例中的训练方法可以包括如下步骤：

S31，初始化预设路径规划模型，得到路径规划模型。

预设路径规划模型是依据强化学习模型建立的，可以利用经验值对预设路径规划模型进行初始化，也可以对其参数进行随机初始化，在此对其并不做任何限定。在本实施例中将经过初始化的预设路径规划模型确定为路径规划模型。

结合图8所示，预设路径规划模型策略网络和价值网络。电子设备初始化策略网络u(s|θ^u)和价值网络V(s|θ^Q)。

S32，将初始环境状态以及决策次数输入路径规划模型中，并利用所述决策次数对所述路径规划模型非空动作进行约束，以输出当前状态的动作。

电子设备将初始环境状态以及决策次数输入到路径规划模型中，如图8所示，选取当前状态的动作a_t＝π(a|s_t)，其中π(a|s_t)表示策略网络的输出，按照概率分布选取动作，其中s_t为环境返回的状态特征和决策次数约束特征。即，通过路径规划模型的处理，输出当前状态的动作。

S33，执行当前状态的动作确定更新后的初始环境状态，并获得对应的奖励值，并保存初始环境状态、当前状态的动作、奖励值以及更新后的初始环境状态，以确定样本数据。

电子设备在执行当前状态的动作之后，由于目标体的位置发生了改变，相应的环境状态特征也发生了改变，即得到更新后的初始环境状态。相应地，目标体的动作会获得对应的额奖励值，具体地：

当目标体未到达目标点且未碰撞到障碍物，确定奖励值为零；

当目标体到达所目标点且未碰撞到障碍物，确定奖励值为正向奖励；

当目标体碰撞到障碍物无法到达目标点，确定奖励值为负向奖励。

具体地，如图4所示，在生成样本数据的过程中，策略网络选择动作，目标体执行该动作并带来当前环境状态的改变，其中，资源池用于存储环境的状态转换数据。目标体通过执行动作获得对应的奖励值，奖励值由环境返回计算得到，并且将转换过程数据(s_t，a_t，r_t，s_t+1)存入资源池。

S34，将样本数据以及剩余决策次数输入路径规划模型，并利用剩余决策次数对路径规划模型预测结果中的非空动作进行约束，以输出当前时刻的执行动作并更新剩余决策次数。

其中，所述路径规划模型是基于强化学习模型建立的。

详细请参见图3所示实施例的S22-S24，在此不再赘述。

S35，根据当前时刻的执行动作以及损失计算参数进行损失函数的计算，并基于计算结果更新路径规划模型的参数，以确定目标路径规划模型。

具体地，如图4和图8所示，当资源池的样本量达到一定数量后，进行模型的训练(随机从资源池中选取一批样本进行模型的训练)。

更新价值网络参数θ^Q，依据以下公式：

y_t＝R+γV(s_t+1)

更新策略网络参数θ^μ，依据以下公式：

其中，γ为折扣系数，R为常数，V(s_t+1)为概率分布对应的奖赏，

为策略网络对应的优势函数，所述优势函数可以由k阶回归和函数逼近估计，

为当前时刻的动作的概率分布，

为策略网络对应的目标函数。

其余详细请参见图2所示实施例的S13，在此不再赘述。

本实施例提供的路径规划模型的训练方法，将决策次数嵌入到路径规划模型中，即，决策次数的嵌入通过门的结构来控制策略网络的输出，主要通过决策次数约束特征进行非线性转化后的输出和策略网络非空输出对应相乘来屏蔽非法动作，从而避免过多的无效样本，提高模型训练效率。将约束条件转换为约束特征，具有一定的可解释性，如果剩余动作次数为0，策略网络一定输出合法动作，符合动作选择逻辑。

根据本发明实施例，提供了一种路径规划方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种路径规划方法，可用于目标体，如智能机器人、智能小车等，图9是根据本发明实施例的路径规划模型的训练方法的流程图，如图9所示，该流程包括如下步骤：

S41，获取预设决策次数以及目标体的当前环境状态。

结合图1所示，目标体当前处于起点，预设决策次数为决策次数的约束，具体可以根据实际需求进行设置。目标体的当前环境状态包括目标体的位置、障碍物的位置以及目标点的位置，等等。

S42，将预设决策次数以及当前环境状态输入目标路径规划模型中，并利用预设决策次数对目标路径规划模型预测结果中的非空动作进行约束，以得到当前时刻的动作并更新预设决策次数。

其中，所述目标路径规划模型是基于强化学习模型建立的。

目标体将获取到的预设决策次数以及当前环境状态输入目标路径规划模型中，该目标路径规划模型的输出为当前时刻的动作。其中，预设决策次数用于对目标路径规划模型预测结果中的非空动作进行约束。

可选地，关于目标路径规划模型的具体结构细节请参见上文实施例中所描述的路径规划模型的训练方法，在此不再赘述。

S43，执行当前时刻的动作并更新目标体的当前环境状态，以控制目标体在预设决策次数内达到目标点。

目标体执行目标路径规划模型输出的当前时刻的动作，其位置发生了改变，相应地，目标体的当前环境状态也会发生改变，此时就需要更新目标体的当前环境状态。通过路径规划模型的多次处理，最终控制目标体在预设决策次数内达到目标点。

本实施例提供的路径规划方法，在路径规划中引入了剩余决策次数，且每输出一个动作均对剩余决策次数进行更新，即将决策次数作为路径规划的约束条件，基于目标路径规划模型的路径规划方法能够应用在决策次数受限的场景下。

在发明本实施例中还提供了一种路径规划模型的训练装置以及路径规划装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种路径规划模型的训练装置，如图10所示，包括：

第一获取模块51，用于获取样本数据以及剩余决策次数，所述样本数据包括当前时刻的环境状态以及损失计算参数，参考图2所示的实施例中S11的描述，或参考图7所示实施例中S31-S33的描述；

第一决策模块52，用于将所述样本数据以及所述剩余决策次数输入路径规划模型中，并利用所述剩余决策次数对所述路径规划模型预测结果中的非空动作进行约束，以输出当前时刻的执行动作并更新所述剩余决策次数，所述路径规划模型是基于强化学习模型建立的，参考图2所示实施例的S12的描述，或参考图3所示实施例的S22-S24的描述；

更新模块53，用于根据所述当前时刻的执行动作以及损失计算参数进行损失函数的计算，并基于计算结果更新所述路径规划模型的参数，以利用更新后的剩余决策次数以及所述当前时刻的执行动作对所述路径规划模型的参数进行再次更新，确定目标路径规划模型，参考图2所示实施例的S13的描述。

本实施例提供的路径规划模型的训练装置，在训练过程中引入了剩余决策次数，且每输出一个决策动作均对剩余决策次数进行更新，即将决策次数作为路径规划模型训练的约束条件，使得训练得到的目标路径规划模型能够应用在决策次数受限的场景下。

本实施例还提供了一种路径规划装置，如图11所示，包括：

第二获取模块61，用于获取预设决策次数以及目标体的当前环境状态，参考图9所示实施例的S41的描述；

第二决策模块62，用于将所述预设决策次数以及所述当前环境状态输入目标路径规划模型中，并利用所述预设决策次数对所述目标路径规划模型预测结果中的非空动作进行约束，以得到当前时刻的动作并更新所述预设决策次数，所述目标路径规划模型是基于强化学习模型建立的，参考图9所示实施例的S42的描述；

执行模块63，用于执行所述当前时刻的动作并更新所述目标体的当前环境状态，以控制所述目标体达到目标点，参考图9所示实施例的S43的描述。

本实施例提供的路径规划装置，在路径规划中引入了剩余决策次数，且每输出一个动作均对剩余决策次数进行更新，即将决策次数作为路径规划的约束条件，基于目标路径规划模型的路径规划方法能够应用在决策次数受限的场景下。

本实施例中的路径规划模型的训练装置以及路径规划装置是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本发明实施例还提供一种电子设备，具有上述图10所示的路径规划模型的训练装置，或者具有上述图11所示的路径规划装置。

请参阅图12，图12是本发明可选实施例提供的一种终端的结构示意图，如图12所示，该终端可以包括：至少一个处理器71，例如CPU(Central Processing Unit，中央处理器)，至少一个通信接口73，存储器74，至少一个通信总线72。其中，通信总线72用于实现这些组件之间的连接通信。其中，通信接口73可以包括显示屏(Display)、键盘(Keyboard)，可选通信接口73还可以包括标准的有线接口、无线接口。存储器74可以是高速RAM存储器(Random Access Memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器74可选的还可以是至少一个位于远离前述处理器71的存储装置。其中处理器71可以结合图10或图11所描述的装置，存储器74中存储应用程序，且处理器71调用存储器74中存储的程序代码，以用于执行上述任一方法步骤。

其中，通信总线72可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。通信总线72可以分为地址总线、数据总线、控制总线等。为便于表示，图12中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器74可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)；存储器74还可以包括上述种类的存储器的组合。

其中，处理器71可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，处理器71还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic,缩写：GAL)或其任意组合。

可选地，存储器74还用于存储程序指令。处理器71可以调用程序指令，实现如本文图2、3、7实施例中所示的路径规划模型的训练方法，或实现如本文图9实施例中所示的路径规划方法。

本发明实施例还提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的路径规划模型的训练方法，或路径规划方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种路径规划模型的训练方法，其特征在于，包括：

将所述当前时刻的环境状态以及所述剩余决策次数输入路径规划模型，并利用所述剩余决策次数对所述路径规划模型预测结果中的非空动作进行约束，以输出当前时刻的执行动作并更新所述剩余决策次数，所述路径规划模型是基于强化学习模型建立的；

根据所述当前时刻的执行动作以及所述损失计算参数进行损失函数的计算，并基于计算结果更新所述路径规划模型的参数，以确定目标路径规划模型；

其中，所述路径规划模型包括策略网络以及价值网络，所述将所述当前时刻的环境状态以及所述剩余决策次数输入路径规划模型，并利用所述剩余决策次数对所述路径规划模型预测结果中的非空动作进行约束，以输出当前时刻的执行动作，包括：

将所述剩余决策次数与所述预测结果进行融合；

基于融合结果确定所述当前时刻的执行动作；

所述将所述剩余决策次数与所述预测结果进行融合，包括：

对所述剩余决策次数进行编码，得到决策约束特征；

2.根据权利要求1所述的训练方法，其特征在于，所述将所述当前时刻的环境状态输入所述策略网络的第一全连接层进行非线性转换，得到预测结果，包括：

3.根据权利要求1或2所述的训练方法，其特征在于，所述将所述当前时刻的环境状态输入所述策略网络的第一全连接层进行非线性转换，还得到预测结果，包括：

4.根据权利要求1所述的训练方法，其特征在于，所述获取样本数据，包括：

初始化预设路径规划模型，得到所述路径规划模型；

将初始环境状态以及决策次数输入所述路径规划模型中，并利用所述决策次数对所述路径规划模型非空动作进行约束，以输出当前状态的动作；

5.根据权利要求4所述的训练方法，其特征在于，所述获得对应的奖励值，包括：

6.一种路径规划方法，其特征在于，包括：

获取预设决策次数以及目标体的当前环境状态；

将所述预设决策次数以及所述当前环境状态输入目标路径规划模型中，并利用所述预设决策次数对所述目标路径规划模型预测结果中的非空动作进行约束，以得到当前时刻的动作并更新所述预设决策次数，所述目标路径规划模型是基于强化学习模型建立的；

执行所述当前时刻的动作并更新所述目标体的当前环境状态，以控制所述目标体在所述预设决策次数内达到目标点；

其中，所述目标路径规划模型包括策略网络以及价值网络，所述将所述预设决策次数以及所述当前环境状态输入目标路径规划模型中，并利用所述预设决策次数对所述目标路径规划模型预测结果中的非空动作进行约束，以得到当前时刻的动作并更新所述预设决策次数，包括：

将所述当前环境状态输入所述策略网络的第一全连接层进行非线性转换，得到预测结果，所述预测结果包括非空动作以及空动作；

将剩余决策次数与所述预测结果进行融合；

基于融合结果确定所述当前时刻的执行动作；

所述将所述剩余决策次数与所述预测结果进行融合，包括：

对所述剩余决策次数进行编码，得到决策约束特征；

7.一种路径规划模型的训练装置，其特征在于，包括：

第一获取模块，用于获取样本数据以及剩余决策次数，所述样本数据包括当前时刻的环境状态以及损失计算参数；

更新模块，用于根据所述当前时刻的执行动作进行损失函数的计算，并基于计算结果更新所述路径规划模型的参数，以确定目标路径规划模型；

将所述剩余决策次数与所述预测结果进行融合；

基于融合结果确定所述当前时刻的执行动作；

所述将所述剩余决策次数与所述预测结果进行融合，包括：

对所述剩余决策次数进行编码，得到决策约束特征；

8.一种路径规划装置，其特征在于，包括：

执行模块，用于执行所述当前时刻的动作并更新所述目标体的当前环境状态，以控制所述目标体在所述预设决策次数内达到目标点；

将剩余决策次数与所述预测结果进行融合；

基于融合结果确定所述当前时刻的执行动作；

所述将所述剩余决策次数与所述预测结果进行融合，包括：

对所述剩余决策次数进行编码，得到决策约束特征；

9.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1-5中任一项所述的路径规划模型的训练方法，或者执行权利要求6所述的路径规划方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使计算机执行权利要求1-5中任一项所述的路径规划模型的训练方法，或执行权利要求6所述的路径规划方法。