CN113110516B

CN113110516B - 一种深度强化学习的受限空间机器人作业规划方法

Info

Publication number: CN113110516B
Application number: CN202110553930.XA
Authority: CN
Inventors: 程良伦; 蔡明昕; 王涛
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2023-12-22
Anticipated expiration: 2041-05-20
Also published as: CN113110516A

Abstract

本发明公开了一种深度强化学习的受限空间机器人作业规划方法，包括：获取机器人的当前状态；将当前状态输入预设的最优行动网络模型，输出待执行动作；接收机器人执行待执行动作后返回的更新状态；将更新状态作为新的当前状态，跳转执行将当前状态输入预设的最优行动网络模型，输出待执行动作的步骤，直至机器人到达预设的目标位置。从而更为快速准确地为机器人的移动路径与执行动作进行规划。

Description

一种深度强化学习的受限空间机器人作业规划方法

技术领域

本发明涉及技术领域，尤其涉及一种深度强化学习的受限空间机器人作业规划方法。

背景技术

随着计算机技术、传感器技术和人工智能等技术的快速发展，机器人技术也变得日趋成熟，而其中的移动机器人类型应用最为广泛，在家用服务、航天、工业等众多的行业中扮演着越来越重要的角色，这些各种各样的机器人能够在特定环境下很好地完成工作。

当机器人在受限空间进行作业，而受限空间中环境复杂，存在多个障碍物时，需要机器人能够自主地从当前的位置快速无碰撞地运动到给定的位置。而现有的机器人移动位置规划方法通常是通过给定起始位置和终点位置，在机器人的工作空间中寻找到一条符合一定约束条件的路径，如：无碰撞，路径最短等。传统的路径规划算法有蚁群算法、人工势场法、遗传算法、栅格法等。首先需要对障碍物的空间进行精确的建模，然后才能在建模的空间中使用这些规划算法进行规划。

但在高维空间中建立精确的障碍物映射是非常复杂的，除此以外，上述算法在高维情况下的规划计算复杂度也呈指数型增长，难以进行实时规划，且由于规划计算复杂度的增加，所得到的路径准确度也较低。

发明内容

本发明提供了一种深度强化学习的受限空间机器人作业规划方法，解决了现有的路径规划算法在高维空间进行路径规划时，由于障碍物映射困难且算法计算复杂度较高所导致的实时性和准确性较低的技术问题。

本发明提供的一种深度强化学习的受限空间机器人作业规划方法，包括：

获取机器人的当前状态；

将所述当前状态输入预设的最优行动网络模型，输出待执行动作；

接收所述机器人执行所述待执行动作后返回的更新状态；

将所述更新状态作为新的当前状态，跳转执行所述将所述当前状态输入预设的最优行动网络模型，输出待执行动作的步骤，直至所述机器人到达预设的目标位置。

可选地，在所述获取机器人的当前状态的步骤之前，所述方法还包括：

构建训练数据集；

采用所述训练数据集训练预设的行动网络模型和预设的评估网络模型，得到所述最优行动网络模型和最优评估网络模型。

可选地，所述构建训练数据集的步骤，包括：

获取所述机器人的训练状态；

将所述训练状态输入到预设的行动网络模型，结合预设的噪声信号，输出训练动作；所述行动网络模型包括在线行动网络模型；

接收所述机器人执行所述训练动作后返回的环境反馈信息和训练更新状态；

采用所述训练状态、所述训练动作、所述环境反馈信息和所述训练更新状态，构建训练数据集。

可选地，所述行动网络模型还包括目标行动网络模型，所述评估网络模型包括在线评估网络模型和目标评估网络模型；所述采用所述训练数据集训练预设的行动网络模型和预设的评估网络模型，得到最优行动网络模型和最优评估网络模型的步骤，包括：

将所述训练状态和所述训练动作输入所述在线评估网络模型，得到第一服务因子；

将所述训练更新状态输入所述目标行动网络模型，输出训练更新动作；

将所述训练更新动作和所述训练更新状态输入所述目标评估网络模型，结合所述环境反馈信息，生成第二服务因子；

根据所述第一服务因子和所述第二服务因子构建损失函数，并对所述损失函数进行最小化，得到最优评估网络模型；

根据所述训练动作和所述第一服务因子，对所述在线行动网络模型和所述目标行动网络模型的模型参数进行更新，得到最优行动网络模型。

可选地，所述在线评估网络模型包括多个在线评估网络子模型；所述将所述训练状态和所述训练动作输入所述在线评估网络模型，得到第一服务因子的步骤，包括：

将所述训练状态和所述训练动作分别输入多个在线评估网络子模型，得到多个在线评估服务因子；

从多个所述在线评估服务因子去除最大在线评估服务因子与最小在线评估服务因子，计算余下的所述在线评估服务因子的平均值作为第一服务因子。

可选地，所述目标评估网络模型包括多个目标评估网络子模型；所述将所述训练更新动作和所述训练更新状态输入所述目标评估网络模型，结合所述环境反馈信息，生成第二服务因子的步骤，包括：

将所述训练更新动作和所述训练更新状态分别输入多个所述目标评估网络子模型，得到多个目标评估服务因子；

分别计算每个目标评估服务因子与预设衰减因子的乘积；

根据每个所述乘积分别与所述环境反馈信息的叠加值，得到多个叠加服务因子；

从多个所述叠加服务因子中去除最大叠加服务因子与最小叠加服务因子，计算余下的所述叠加服务因子的平均值，生成第二服务因子。

可选地，所述根据所述第一服务因子和所述第二服务因子构建损失函数，并对所述损失函数进行最小化，得到最优评估网络模型的步骤，包括：

采用所述第一服务因子、所述第二服务因子和多个所述叠加服务因子，构建损失函数；

通过预设优化器对所述损失函数进行最小化，并对各个所述在线评估网络子模型进行参数更新；

基于各个所述在线评估网络子模型更新后的模型参数，对各个所述目标评估网络子模型进行参数软更新，得到最优评估网络模型。

可选地，所述根据所述训练动作和所述第一服务因子，对所述在线行动网络模型和所述目标行动网络模型的模型参数进行更新，得到最优行动网络模型的步骤，包括：

根据所述第一服务因子和所述训练动作，确定所述在线行动网络模型对应的策略梯度；

按照所述策略梯度，对所述在线行动网络模型内的模型参数进行更新，并对所述目标行动网络模型进行参数软更新，得到最优行动网络模型。

可选地，所述方法还包括：

更新所述噪声信号；

将所述训练更新状态作为新的训练状态，并将新的所述训练状态输入到所述在线行动网络模型，结合更新后的所述噪声信号，输出新的训练动作；

跳转执行所述接收所述机器人执行所述训练动作后返回的环境反馈信息和训练更新状态的步骤，直至得到预定组数的所述训练更新状态。

可选地，所述更新所述噪声信号的步骤，包括：

基于所述第二服务因子和所述第一服务因子的差值的绝对值，确定所述机器人的学习程度；

根据所述学习程度与预设学习阈值的比较结果，更新所述噪声信号。

从以上技术方案可以看出，本发明具有以下优点：

本发明通过获取机器人的当前状态；将当前状态输入最优行动网络模型，输出待执行动作；接收机器人执行待执行动作后返回的更新状态；将更新状态作为新的当前状态，跳转执行将当前状态输入最优行动网络模型，输出待执行动作的步骤，直至机器人到达预设的目标位置。从而解决现有的路径规划算法在高维空间进行路径规划时，由于障碍物映射困难且算法计算复杂度较高所导致的实时性和准确性较低的技术问题，更为快速准确地为机器人的移动路径与执行动作进行规划。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例一提供的一种深度强化学习的受限空间机器人作业规划方法的步骤流程图；

图2为本发明实施例二提供的一种深度强化学习的受限空间机器人作业规划方法的步骤流程图；

图3为本发明实施例二中的训练动作的生成过程示意图；

图4为本发明实施例二的评估网络模型的数据流传输示意图；

图5为本发明实施例三提供的一种深度强化学习的受限空间机器人作业规划方法的训练过程示意图。

具体实施方式

本发明实施例提供了一种深度强化学习的受限空间机器人作业规划方法，用于解决现有的路径规划算法在高维空间进行路径规划时，由于障碍物映射困难且算法计算复杂度较高所导致的实时性和准确性较低的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例一提供的一种深度强化学习的受限空间机器人作业规划方法的步骤流程图。

步骤101，获取机器人的当前状态；

当机器人在受限空间内进行作业时，由于受限空间内可能存在多个障碍物与多种地形，通过人工根据机器人在受限空间内的不同场景进行控制时效率太低，同时存在操作不当导致机器人受损的风险。

在本发明实施例中，为确定机器人当前时刻在受限空间中所处的场景，以便于后续进行动作规划的过程，可以先获取机器人的当前状态。

值得一提的是，当前状态不仅包括机器人的空间坐标，还可以包括机器人的当前姿态与所处位置的倾斜角度等，具体可以通过在机器人上安装激光雷达、摄像机、水平仪和陀螺仪等设备收集数据，以获取到机器人的当前状态。

步骤102，将当前状态输入预设的最优行动网络模型，输出待执行动作；

最优行动网络模型指的是能够根据接收到的状态进行预测，以输出确定性动作的神经网络模型。

为提高动作更新的效率与机器人的运动流畅性，可以预先训练行动网络模型，以使行动网络模型能够根据机器人处于现有场景的不同位置所执行的动作，得到最优行动网络模型。在得到机器人的当前状态后，可以将当前状态输入到预设的最优行动网络模型，得到由当前状态预测得到的下一动作。

步骤103，接收机器人执行待执行动作后返回的更新状态；

更新状态指的是机器人或机器人的部件在执行待执行动作后，其所处的实际状态。

在得到待执行动作后，机器人或其部件可以按照其待执行动作进行动作执行后，机器人处于另一状态下，此时可以通过机器人搭载的相机或水平仪等设备获取到机器人的更新状态。

值得一提的是，在确定待执行动作前，为进一步提高机器人的安全性，还可以先对待执行动作的可行性进行审核，再控制机器人执行待执行动作。

步骤104，将更新状态作为新的当前状态，跳转执行将当前状态输入预设的最优行动网络模型，输出待执行动作的步骤，直至机器人到达预设的目标位置。

在具体实现中，在机器人执行待执行动作处于更新状态时，为得到机器人的下一待执行动作，将更新状态作为新的当前状态，重复执行步骤102-103，从而根据机器人不同的当前状态，实现对机器人下一步的待执行动作的不断更新，以使机器人能够快速流畅且无损地对受限空间进行探索，到达预设的目标位置。

在本发明实施例中，通过获取机器人的当前状态；将当前状态输入预设的最优行动网络模型，输出待执行动作；接收机器人执行待执行动作后返回的更新状态；将更新状态作为新的当前状态，跳转执行将当前状态输入预设的最优行动网络模型，输出待执行动作的步骤，直至机器人到达预设的目标位置。从而解决现有的路径规划算法在高维空间进行路径规划时，由于障碍物映射困难且算法计算复杂度较高所导致的实时性和准确性较低的技术问题，更为快速准确地为机器人的移动路径与执行动作进行规划。

请参阅图2，图2为本发明实施例二提供的一种深度强化学习的受限空间机器人作业规划方法的步骤流程图。

本发明提供的一种深度强化学习的受限空间机器人作业规划方法，最优评估网络模型包括多个评估子模型，包括：

步骤201，构建训练数据集；

可选地，步骤201可以包括以下子步骤S11-S14：

S11、获取机器人的训练状态；

在构建训练数据集的过程中，可以先将机器人放置到受限空间中进行训练数据的获取。为确定机器人当前时刻在受限空间中所处的动作状态或位置状态等信息，可以先获取机器人在当前时刻的训练状态。

值得一提的是，训练状态不仅包括机器人的空间坐标，还可以包括机器人的当前姿态与所处位置的倾斜角度等，具体可以通过在机器人上安装摄像机、水平仪和陀螺仪等设备进行收集。

S12、将训练状态输入到预设的行动网络模型，结合预设的噪声信号，输出训练动作；行动网络模型包括在线行动网络模型；

在本发明实施例中，为了使机器人能在连续状态和动作空间中进行连续控制，采用神经网络来输出策略，根据机器人所处的状态来输出对应的动作，可以将训练状态输入到在线行动网络模型，以得到确定性策略。而在得到确定性策略后，为减少采样的数据，提高算法处理效率且能够使机器人能够充分探索受限空间，可以采用确定性策略结合噪声信号的方式，得到训练动作。

在具体实现中，训练动作的确定过程可以通过以下公式实现：

a_i＝u(s_i|θ^u)+N_i

其中，u(s_i|θ^u)是在线行动网络模型输出的确定性策略，θ^u为在线行动网络模型的模型参数，s_i是在i时刻的训练状态，N_i是预设的噪声信号，a_i是i时刻的输出的训练动作。

参见图3，图3示出了本发明实施例二中的训练动作的生成过程示意图。

其中，在线行动网络模型通过输出确定性策略u(s_i|θ^u)，即u(s_i)，通过与噪声信号进行叠加后生成训练动作。当学习程度LC出现变化时，对噪声方差进行调整，以更新噪声信号。

S13、接收机器人执行训练动作后返回的环境反馈信息和训练更新状态；

环境信息指的是机器人执行待执行动作后，机器人的不同部件或位置变化后，与受限空间进行交互得到的反馈信号。

在得到待执行动作后，机器人按照其训练动作进行执行后，机器人也就处于另一状态下，此时可以获取到机器人的训练更新状态。同时，在机器人执行待执行动作后，由于机器人处于受限空间内，其动作执行必然会与受限空间产生交互，此时可以获取到由于上述交互所产生的环境反馈信息。

S14、采用训练状态、训练动作、环境反馈信息和训练更新状态，构建训练数据集。

在得到训练状态、训练动作、环境反馈信息和训练更新状态后，可以将上述数据信息作为一个机器人的移动过程存储在数据库或数据池，以构建得到训练数据集。

步骤202，采用训练数据集训练预设的行动网络模型和预设的评估网络模型，得到最优行动网络模型和最优评估网络模型。

可选地，行动网络模型包括目标行动网络模型，评估网络模型包括在线评估网络模型和目标评估网络模型；步骤202可以包括以下子步骤S21-S25：

S21、将训练状态和训练动作输入在线评估网络模型，得到第一服务因子；

进一步地，在线评估网络模型包括多个在线评估网络子模型；步骤S21可以包括以下子步骤S211-212：

S211、将训练状态和训练动作分别输入多个在线评估网络子模型，得到多个在线评估服务因子；

S212、从多个在线评估服务因子去除最大在线评估服务因子与最小在线评估服务因子，计算余下的在线评估服务因子的平均值作为第一服务因子。

在本发明实施例中，可以通过将训练状态和训练动作分别输入到多个在线评估网络子模型中，经由每个在线评估网络子模型分别对该动作进行评估，确定每个在线评估网络子模型对应的在线评估服务因子再从多个在线评估服务因子去除最大在线评估服务因子与最小在线评估服务因子，计算余下的在线评估服务因子的平均值作为在线评估网络模型对应的第一服务因子Q(s，a|θ^Q)。

其中，第一服务因子Q(s，a|θ^Q)的计算过程可以如下：

其中，Q(s,a|θ^Q)为在当前状态s_i采取待执行动作a_i的第一服务因子，m为在线评估网络模型中的在线评估网络子模型的数量，θ^Qj表示第j个在线评估网络子模型的模型参数，θ^Q表示在线评估网络模型的模型参数，表示第j个在线评估网络子模型所输出的在线评估服务因子。

S22、将训练更新状态输入目标行动网络模型，输出训练更新动作；

为了提高算法的稳定性和收敛速度，可以使用多个在线评估网络子模型和对应数量的目标评估网络子模型所输出的品质因子的平均值代替单个评估网络模型的输出，避免单个评估网络模型表现很差的情况发生，并且多个独立评估网络模型可以从受限空间中更广泛地学习。

S23、将训练更新动作和训练更新状态输入目标评估网络模型，结合环境反馈信息，生成第二服务因子；

在本发明的一个示例中，目标评估网络模型还包括多个目标评估网络子模型；步骤S23可以包括以下子步骤S231-234：

S231、将训练更新动作和训练更新状态分别输入多个目标评估网络子模型，得到多个目标评估服务因子；

S232、分别计算每个目标评估服务因子与预设衰减因子的乘积；

S233、根据每个乘积分别与环境反馈信息的叠加值，得到多个叠加服务因子；

在本发明实施例中，各个目标评估网络子模型对应的叠加服务因子可以通过以下过程进行计算：

其中，r_i是环境反馈信息，u′(s_i+1|θ^u′)是在训练更新状态s_i+1下使用目标行动网络子模型输出的训练更新动作，是第j个目标评估网络子模型对训练更新状态s_i+1所执行的训练更新动作u′(s_i+1|θ^u′)进行评估输出的目标评估服务因子；γ为预设衰减因子。

S234、从多个叠加服务因子中去除最大叠加服务因子与最小叠加服务因子，计算余下的叠加服务因子的平均值，生成第二服务因子。

在得到多个叠加服务因子后，再使用截尾算数平均值的方法，去掉多个叠加服务因子中的最大叠加服务因子与最小叠加服务因子，计算目标评估网络模型对应的第二服务因子y_i，计算过程如下：

其中，y_i为第二服务因子，为第j个目标评估网络子模型在i时刻对应的叠加服务因子。

值得一提的是，目标评估网络子模型的数量与在线评估网络子模型的数量相等且一一对应。

S24、根据第一服务因子和第二服务因子构建损失函数，并对损失函数进行最小化，得到最优评估网络模型；

在本发明的另一个示例中，步骤S24可以包括以下子步骤S241-S243：

S241、采用第一服务因子、第二服务因子和多个叠加服务因子构建损失函数；

S242、通过预设优化器对损失函数进行最小化，并对各个在线评估网络子模型进行参数更新；

S243、基于各个在线评估网络子模型更新后的模型参数，对各个目标评估网络子模型进行参数软更新，得到最优评估网络模型。

在具体实现中，当利用深度神经网络进行函数逼近时，强化学习算法常常不稳定。原因在于在训练深度神经网络时往往假设输入的数据是独立同分布的；然而强化学习的数据是顺序采集的，数据之间存在马尔科夫性，很显然这些数据并非独立同分布的。

为了打破数据之间的相关性，采用了两个技巧：经验回放和独立的目标网络。经验回放可以打破数据间的关联性，将数据存储到一个数据库中，再利用均匀随机采样的方法从数据库中抽取数据，然后利用抽取的数据训练神经网络。利用神经网络逼近值函数时，计算TD目标的动作值函数所用的网络参数，与梯度计算中要逼近的值函数所用的网络参数相同，这就容易导致数据间存在关联性，从而使训练不稳定。通过设置独立的目标网络来单独处理时间差分算法中的TD误差，来打破数据间的关联性。可以采用时间差分(TD)的方法，利用样本来估计值函数，通过最优评估网络模型计算第一目标品质因子并将其作为TD目标，计算当前状态下的TD偏差，来更新各在线评估网络子模型的参数，

在本发明实施例中，采用第一服务因子、第二服务因子和多个叠加服务因子构建损失函数；通过预设优化器对各个在线评估网络子模型进行参数更新；通过预设优化器对损失函数进行最小化，并对各个在线评估网络子模型进行参数更新；基于各个在线评估网络子模型更新后的模型参数，对各个目标评估网络子模型进行参数软更新，得到最优评估网络模型。

其中，构建的损失函数如下：

其中，N为训练数据集的训练状态数量，累加的范围为i＝1～N。

针对目标评估网络子模型，采用参数软更新的方式，即每次只更新一点点，通过控制预设置的调整梯度，保证目标网络不会每次更新都大换血，使目标网络的更新能够更加平滑稳定，对目标评估网络子模型内的参数进行参数软更新。对目标评估网络子模型进行参数软更新的过程可以如下：

其中，表示第j个目标评估网络子模型的模型参数，/>表示第j个在线评估网络子模型的模型参数，τ＜＜1。

请参见图4，图4示出了本发明实施例二的评估网络模型的数据流传输示意图。

在本发明实施例中，评估网络模型包括目标评估服务模型和在线评估网络模型，通过将训练更新状态输入到目标行动网络模型得到训练更新动作，将训练更新动作和训练更新状态输入到目标评估网络模型，以得到目标评估服务因子；计算目标评估服务因子与预设衰减因子的乘积，根据乘积与环境反馈信号的叠加得到第二服务因子；在线评估网络模型接收训练状态和训练动作，输出第一服务因子；通过优化器接收第一服务因子和第二服务因子以及多个叠加服务因子，进一步对在线评估网络模型的模型参数进行调整，再采用参数软更新的方式对目标评估网络模型的参数进行更新。

S25、根据训练动作和第一服务因子，对在线行动网络模型和目标行动网络模型的模型参数进行更新，得到最优行动网络模型。

在本发明可选实施例中，步骤S25可以包括以下子步骤S251-S252：

S251、根据第一服务因子和训练动作，确定在线行动网络模型对应的策略梯度；

S252、按照策略梯度，对在线行动网络模型内的模型参数进行更新，并对目标行动网络模型进行参数软更新，得到最优行动网络模型。

在本发明实施例中，通过将训练状态输入在线行动网络模型，输出确定性策略；根据第一服务因子和训练动作，确定目标行动网络模型对应的策略梯度；按照策略梯度，对在线行动网络模型内的模型参数进行更新，在执行固定次数的在线行动网络模型的模型参数更新后，对目标行动网络模型进行参数软更新，最终得到最优行动网络模型。

在具体实现中，策略梯度的确定过程可以如下：

其中，为对动作a的梯度，/>为对在线行动网络模型参数θ^u的更新梯度。

对目标行动网络模型进行参数软更新的软更新方式如下：

θ^u′←τθ^u+(1-τ)θ^u′

其中，θ^u′表示目标行动网络模型，θ^u表示在线行动网络模型，τ＜＜1。

可选地，方法还包括以下步骤S31-S33：

S31、更新噪声信号；

可选地，步骤S31可以包括以下子步骤S311-S312：

S311、基于第二服务因子和第一服务因子的差值的绝对值，确定机器人的学习程度；

在本发明实施例中，可以根据第一品质因子和第二品质因子的差值的绝对值，确定机器人的学习程度，具体过程如下：

Lc＝|y_i-Q(s_i，a_i|θ^Q)|

其中，y_i为目标评估网络模型的第一品质因子，Q(s_i，a_i|θ^Q)为在线评估网络模型的第二品质因子。

S312、根据学习程度与预设学习阈值的比较结果，更新噪声信号。

在本发明实施例中，若学习程度大于预设学习阈值，则按照预设梯度下调噪声信号的方差；若学习程度小于预设学习阈值，则按照预设梯度上调噪声信号的方差；若学习程度等于预设学习阈值，则保持噪声信号的方差，以对噪声信号进行更新，具体的调整方式可以如下：

其中α>1，如果Lc<ε,则增大噪声信号的方差σ，增强机器人对受限空间的探索能力，如果Lc>ε，则减小噪声信号的方差σ，降低机器人对受限空间的探索能力，如果Lc＝ε，则保持当前的噪声信号的方差σ。

S32、将训练更新状态作为新的训练状态，并将新的训练状态输入到在线行动网络模型，结合更新后的噪声信号，输出新的训练动作；

S33、跳转执行接收机器人执行训练动作后返回的环境反馈信息和训练更新状态的步骤，直至得到预定组数的训练更新状态。

在具体实现中，为进一步提高模型性能，可以对训练状态进行更新，作为新的训练状态；再将新的训练状态输入到在线行动网络模型，结合更新后的噪声信号输出新的训练动作。再次执行接收机器人执行训练动作后返回的环境反馈信息和训练更新状态的步骤，以获取到新的训练更新状态和新的训练更新动作，直至获取到预定组数的训练更新状态。

在具体的训练过程中，当机器人每输出一个动作时，可以将对应的训练状态、训练动作、环境反馈信息和训练更新状态作为一个数据组储存到数据集中。同时可以训练更新状态作为标识，当获取到预定组数的训练更新状态时，确定数据集已经达到最大容量，此时可以以按照存储的时间顺序对数据集内的数据组进行更新。而在训练过程中，可以从数据集中随机采样N个数据组进行训练，更新在线评估网络模型和在线行动网络模型。

步骤203，获取机器人的当前状态；

步骤204，将当前状态输入预设的最优行动网络模型，输出待执行动作；

步骤205，接收机器人执行待执行动作后返回的更新状态；

步骤206，将更新状态作为新的当前状态，跳转执行将当前状态输入预设的最优行动网络模型，输出待执行动作的步骤，直至机器人到达预设的目标位置。

在本发明实施例中，步骤203-206的具体实现过程可以参见本发明实施例一中的步骤101-104，在此不再赘述。

可选地，最优行动网络模型为神经网络模型。

神经网络模型指的是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统，它反映了人脑功能的许多基本特征，是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力，特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。

请参照图5，图5为本发明实施例三提供的一种深度强化学习的受限空间机器人作业规划方法的训练过程示意图。

其中，包括以下步骤：

1、在在线行动网络模型输出的确定性策略u(s_i|θ^u)基础上加入噪声信号N_i，用于随机探索，最终的输出训练动作a_i＝u(s_i|θ^u)+N_i，并控制机器人在受限空间中执行该动作a_i；

2、机器人通过动作a_i与周围环境进行交互，在动作a_i和环境的交互后，机器人会产生新的训练更新状态s_i+1，同时环境给出一个环境反馈信息r_i；

3、将这个转换过程：(s_i,a_i,r_i,s_i+1)储存到训练数据集中，以提供训练数据的数据源基础；

4、从训练数据集中随机采样N个转换过程，作为行动网络模型、评估网络模型的训练数据；

5、采用多个在线评估网络子模型对策略u(s_i|θ^u)进行评估，综合考虑所有评估结果生成第一服务因子，然后采用时间差分的方法，综合利用目标评估网络模型计算的第二服务因子跟目标评估网络子模型的叠加服务因子作为TD目标，计算当前状态下的TD偏差，以上述服务因子构建损失函数对在线评估网络子模型的模型参数进行更新；

6、通过学习程度LC来判断是否更新噪声信号的方差，定义学习程度Lc＝|y_i-Q(s_i，a_i|θ^Q)|，如果Lc<ε,则增大噪声信号的方差σ，增强DDPG对受限空间的探索能力，如果Lc>ε,则减小噪声信号的方差σ，降低DDPG对受限空间的探索能力，如果Lc＝ε，则保持当前的噪声信号的方差σ；

7、将策略参数化，用在线行动网络模型拟合策略，使用策略梯度寻找最优的参数，使强化学习的目标——累积回报的期望最大；

8、采用软更新的方式，通过控制更新的幅度，使目标网络的更新更加平滑稳定。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种深度强化学习的受限空间机器人作业规划方法，其特征在于，包括：

获取机器人的当前状态；

接收所述机器人执行所述待执行动作后返回的更新状态；

将所述更新状态作为新的当前状态，跳转执行所述将所述当前状态输入预设的最优行动网络模型，输出待执行动作的步骤，直至所述机器人到达预设的目标位置；

在所述获取机器人的当前状态的步骤之前，所述方法还包括：

构建训练数据集；

采用所述训练数据集训练预设的行动网络模型和预设的评估网络模型，得到所述最优行动网络模型和最优评估网络模型；

所述构建训练数据集的步骤，包括：

获取所述机器人的训练状态；

采用所述训练状态、所述训练动作、所述环境反馈信息和所述训练更新状态，构建训练数据集；

所述行动网络模型还包括目标行动网络模型，所述评估网络模型包括在线评估网络模型和目标评估网络模型；所述采用所述训练数据集训练预设的行动网络模型和预设的评估网络模型，得到最优行动网络模型和最优评估网络模型的步骤，包括：

根据所述训练动作和所述第一服务因子，对所述在线行动网络模型和所述目标行动网络模型的模型参数进行更新，得到最优行动网络模型；

所述损失函数为：

其中，y_i为第二服务因子，为第j个目标评估网络子模型在i时刻对应的叠加服务因子，N为训练数据集的训练状态数量，累加的范围为i＝1～N，Q(s,a|θ^Q)为在当前状态s_i采取待执行动作a_i的第一服务因子；

所述在线评估网络模型包括多个在线评估网络子模型；所述将所述训练状态和所述训练动作输入所述在线评估网络模型，得到第一服务因子的步骤，包括：

从多个所述在线评估服务因子去除最大在线评估服务因子与最小在线评估服务因子，计算余下的所述在线评估服务因子的平均值作为第一服务因子；

所述目标评估网络模型包括多个目标评估网络子模型；所述将所述训练更新动作和所述训练更新状态输入所述目标评估网络模型，结合所述环境反馈信息，生成第二服务因子的步骤，包括：

分别计算每个目标评估服务因子与预设衰减因子的乘积；

2.根据权利要求1所述的深度强化学习的受限空间机器人作业规划方法，其特征在于，所述根据所述第一服务因子和所述第二服务因子构建损失函数，并对所述损失函数进行最小化，得到最优评估网络模型的步骤，包括：

3.根据权利要求1所述的深度强化学习的受限空间机器人作业规划方法，其特征在于，所述根据所述训练动作和所述第一服务因子，对所述在线行动网络模型和所述目标行动网络模型的模型参数进行更新，得到最优行动网络模型的步骤，包括：

4.根据权利要求1所述的深度强化学习的受限空间机器人作业规划方法，其特征在于，所述方法还包括：

更新所述噪声信号；

5.根据权利要求4所述的深度强化学习的受限空间机器人作业规划方法，其特征在于，所述更新所述噪声信号的步骤，包括：