CN114872049B

CN114872049B - 一种基于环境交互的机器人实时控制方法

Info

Publication number: CN114872049B
Application number: CN202210610733.1A
Authority: CN
Inventors: 刘全; 吴光军; 朱斐
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2023-08-29
Anticipated expiration: 2042-05-31
Also published as: CN114872049A

Abstract

本发明公开的一种基于环境交互的机器人实时控制方法，包括初始化行动者网络参数，评论家网络为,目标网络行动者参数和目标评论家参数,经验缓冲池，各个阶段间隔时间步，使用K‑means对已有样本进行聚类学习至数据收敛；获取机器人初始状态s_t，判断机器人初始状态s_t所属类簇中心；通过摄像头采集的视频数据得出当前机器人的状态信息，然后将此信息通过以太网传输到后台服务器，得到机器人下一步该执行的动作a；执行动作a，获得立即奖赏，并获取机器人下一状态，将经验放入经验缓冲池；从经验缓冲池中随机采样小批量的n个经验转移样本；通过最小化损失函数更新评论家网络参数通过策略梯度方法更新行动者网络参数，更新目标网络参数。

Description

一种基于环境交互的机器人实时控制方法

技术领域

本发明涉及机器人控制领域，更具体的，涉及一种基于环境交互的机器人实时控制方法。

背景技术

强化学习是一种在环境中不断自主学习，寻找规律最大化未来累计奖赏，从而寻找到最优策略的方法。具体来说，强化学习是根据智能体的当前状态，寻找可执行的动作，使获得的收益最大化，因此强化学习适合解决序贯决策问题。在传统强化学习中，主要有基于值函数的SARSA和Q-Learning两种方法。在经典强化学习任务，如Cart-Pole和Mountain-Car等低维状态空间任务，基于值函数类的方法有不错的效果。但在高维动作空间环境表现却不尽如人意。随着深度学习的发展，深度神经网络有高效地识别高维数据的能力，因此将深度学习与强化学习相结合的深度强化学习方法能解决高维动作空间问题，并在自然语言处理、自动驾驶、推荐系统等复杂动作状态空间任务领域有着不错的效果。

深度确定性策略梯度方法使用深度神经网络表达确定性策略，采用确定性策略梯度来更新网络参数，能够有效应用于大规模或连续动作空间的强化学习任务中。深度确定性策略梯度方法的价值网络作为评论家，用于评估策略，学习Q函数，为策略网络提供梯度信息。策略网络作为行动者，利用评论家学习到的Q函数及梯度信息对策略进行改进，同时也增加了带噪声的探索机制和软更新方法。在深度确定性策略梯度方法中，动作的选取由行动者网络完成，该方法在小型连续动作空间任务上效果显著，且收敛较快。对于大型连续动作空间任务，效果却不尽如人意。这是因为深度确定性策略梯度方法在任务的整个状态空间中采用同一个行动者网络，而随着状态空间的增大，不同状态部分采用一个网络会导致单个行动者网络压力剧增难以学到优秀的目标策略。即使在耗费大量时间量时能学习到优秀的目标策略，训练过程也会存在巨大的波动，难以稳定收敛。

发明内容

为了解决上述至少一个技术问题，本发明提出了一种基于环境交互的机器人实时控制方法。

本发明第一方面提供了一种基于环境交互的机器人实时控制方法，包括如下步骤：

S1，初始化行动者网络参数为评论家网络为θ^Q,目标网络行动者参数为/>和目标评论家参数θ^Q′←θ^Q,经验缓冲池E₁，E₂，…，E_N，各个阶段间隔时间步M，(其中，强化学习中，时间步为基本的时间单位，间隔时间步表示从第一阶段到下一个阶段即第二个阶段经历的时间步数)使用K-means对已有样本进行聚类学习至数据收敛；

S2,获取机器人初始状态s_t，判断机器人初始状态s_t所属类簇中心；

S3，通过摄像头采集的视频数据得出当前机器人的状态信息，然后将此信息通过以太网传输到后台服务器，得到机器人下一步该执行的动作a；

S3，执行动作a，获得立即奖赏r_t+1，并获取机器人下一状态s_t+1，将经验(s_t，a_t，r_t+1，s_t+1)放入经验缓冲池E_k；其中经验缓冲池用于存储经验转移样本

S4，从经验缓冲池E_k中随机采样小批量的n个经验转移样本(s_i，a_i，r_i+1，s_i+1)，计算其中，经验转移样本指代的是智能体训练过程中产生的一系列变化样本，主要包括智能体当前的状态，执行的动作，执行该动作后从环境反馈得到的奖赏和执行动作后的状态。

S5，通过最小化损失函数更新评论家网络参数通过策略梯度方法更新行动者网络参数，更新目标网络参数；

S6，如果到达下一阶段，(即在当前的阶段经历一定的时间步后达到的下一个阶段。)则将K-means判别器的类簇中心个数加一，并重新聚类至收敛，且重置阶段步长C(阶段步长指代的就是当前阶段到达下一阶段需要的时间步数)，如果状态是终止状态并且该情节步数已达到最大，则转入S2。

进一步的，在强化学习中，训练是以情节为单位的，一个情节以游戏为例就是游戏开始到游戏结束。情节步数就是在该情节已经经历过的时间步数。

本发明一个较佳实施例中，通过k-means方法对初始状态进行判断，输出对应类别，就是将初始状态当做输入，在K-means中判断对应类别，并将其作为输出。

本发明一个较佳实施例中，S3中摄像头采集的视频数据通过TMS320C6670芯片进行分析。

本发明一个较佳实施例中，更新行动者目标网络和评论家目标网络参数，策略函数和价值函数均使用双网络架构，即分别设置预测网络和目标网络，使方法的学习过程更加稳定，收敛更快。

本发明一个较佳实施例中，S3中服务器处理数据得到机器人下一步该执行的动作，然后将动作控制信息通过以太网再传回给芯片，控制机器人的执行。

本发明一个较佳实施例中，S5中最小化损失函数来更新价值网络(评论家网络)参数w，

本发明一个较佳实施例中，S5中根据最大化目标函数来更新策略网络(行动者网络)参数θ：

本发明的上述技术方案相比现有技术具有以下优点：

(1)本申请结合了基于K-means聚类方法与深度确定性策略梯度方法，与未知环境的不断交互获取实时信息，通过平衡数据处理的可行性和正确性，准确高效地在线控制机器人，去完成任务。本申请将机器学习中经典的k均值聚类方法(K-means clustering)引入到深度确定性策略梯度方法中，对任务的整个状态空间通过K-means聚类方法进行聚类。

(2)行动者网络的个数与K-means聚类方法中的类簇中心个数相等，对一个状态先通过K-means找到该状态所属的类别，再采取对应的行动者网络进行动作的选取。此外，在智能体的训练过程中，随着时间步的增加，智能体所能到达的状态空间更广，为了契合训练过程，本申请还采取分阶段的方法逐渐引入新行动者网络。

(3)在训练第一个阶段采用一个行动者网络，达到第二个阶段采用两个行动者网络，对应为有两个聚类中心的K-means，在选取动作时，先对状态用K-means进行类别的判断，再使用对应行动者网络选取动作。解决了单个行动者网络学习压力大以及不同状态区间存在的耦合性等问题。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的一些附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明优选实施例中机器人控制方法流程图；

图2为本发明机器人控制方法网络模型输入与输出表。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

如图1-2所示，本发明提供了一种基于环境交互的机器人实时控制方法，包括如下步骤：

S1，初始化行动者网络参数为评论家网络为θ^Q,目标网络行动者参数为/>和目标评论家参数θ^Q′←θ^Q,经验缓冲池E₁，E₂，…，E_N，经验缓冲池用于存储经验转移样本，各个阶段间隔时间步M，使用K-means对已有样本进行聚类学习至数据收敛；

S3，执行动作a，获得立即奖赏r_t+1，并获取机器人下一状态s_t+1，将经验(s_t，a_t，r_t+1，s_t+1)放入经验缓冲池E_k；

S6，如果到达下一阶段，(指代的是在当前的阶段经历一定的时间步后达到的下一个阶段。)则将K-means判别器的类簇中心个数加一，并重新聚类至收敛，且重置阶段步长C，如果状态是终止状态并且该情节步数已达到最大，则转入S2。

进一步的，强化学习中，时间步为基本的时间单位，间隔时间步表示从第一阶段到下一个阶段即第二个阶段经历的时间步数。

根据本发明实施例，通过K-means方法对初始状态进行判断对应了类簇中心。

根据本发明实施例，S3中摄像头采集的视频数据通过TMS320C6670芯片进行分析。

根据本发明实施例，S3中服务器处理数据得到机器人下一步该执行的动作，然后将动作控制信息通过以太网再传回给芯片，控制机器人的执行。

根据本发明实施例，S5中小化损失函数

根据本发明实施例，S5中策略梯度方法计算公式如下：

进一步的，本申请根据最小化损失函数来更新价值网络(评论家网络)参数w。θ′和w′分别表示目标策略网络μ′和目标值网络Q′的权重。每次更新时，DDPG使用经验回放机制从样本池中抽取固定数量(如N个)的转移样本，并将由Q值函数关于动作的梯度信息从评论家网络传递到行动者网络。

方法中使用的双网络架构，为价值网络和策略网络分别引入了目标网络：

(1)预测价值网络Q(s,a,w)，用于更新w；

(2)目标价值网络Q′(s,a,w′)，用于更新w′；

(3)预测策略网络μ(s,a,θ)，用于更新θ；

(4)目标策略网络μ′(s,a,θ′)，用于更新θ′

每次完成小批量经验转移样本的训练之后，利用小批量梯度上升法(Mini-batchBGA，MBGA)更新预测策略网络参数，利用最大化目标函数法更新预测价值网络参数，然后通过软更新方法更新目标网络的参数，方法的网络模型，如图2所示。

本申请结合了基于K-means聚类方法与深度确定性策略梯度方法，与未知环境的不断交互获取实时信息，通过平衡数据处理的可行性和正确性，准确高效地在线控制机器人，去完成任务。本申请将机器学习中经典的k均值聚类方法(K-means clustering)引入到深度确定性策略梯度方法中，对任务的整个状态空间通过K-means聚类方法进行聚类。

行动者网络的个数与K-means聚类方法中的类簇中心个数相等，对一个状态先通过K-means找到该状态所属的类别，再采取对应的行动者网络进行动作的选取。此外，在智能体的训练过程中，随着时间步的增加，智能体所能到达的状态空间更广，为了契合训练过程，本申请还采取分阶段的方法逐渐引入新行动者网络。

在训练第一个阶段采用一个行动者网络，达到第二个阶段采用两个行动者网络，对应为有两个聚类中心的K-means，在选取动作时，先对状态用K-means进行类别的判断，再使用对应行动者网络选取动作。解决了单个行动者网络学习压力大以及不同状态区间存在的耦合性等问题。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对上述实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的上述实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于环境交互的机器人实时控制方法，其特征在于，包括如下步骤：

S1，初始化行动者网络参数为评论家网络为θ^Q,目标网络行动者参数为/>和目标评论家参数θ^Q′←θ^Q,经验缓冲池E₁，E₂，…，E_N，各个阶段间隔时间步M，使用K-means对已有样本进行聚类学习至数据收敛；

S2,获取机器人初始状态s_t，判断机器人初始状态s_t所属类别；

S3，执行动作a，获得立即奖赏r_t+1，并获取机器人下一状态s_t+1，将经验(s_t，a_t，r_t+1，s_t+1)放入经验缓冲池E_k，经验缓冲池用于存储经验转移样本；

S4，从经验缓冲池E_k中随机采样小批量的n个经验转移样本(s_i，a_i，r_i+1，s_i+1)，经验转移样本指代的是智能体训练过程中产生的一系列变化样本，主要包括智能体当前的状态，执行的动作，执行该动作后从环境反馈得到的奖赏和执行动作后的状态，计算式中r_i为从环境处得到的立即奖赏，γ为折扣因子；

S6，如果到达下一阶段，则将K-means判别器的类簇中心个数加一，并重新聚类至收敛，且重置阶段步长C，如果状态是终止状态并且该情节步数已达到最大，则转入S2。

2.根据权利要求1所述的一种基于环境交互的机器人实时控制方法，其特征在于，通过k-means方法对初始状态进行判断，输出对应类别。

3.根据权利要求1所述的一种基于环境交互的机器人实时控制方法，其特征在于，S3中摄像头采集的视频数据通过TMS320C6670芯片进行分析。

4.根据权利要求1所述的一种基于环境交互的机器人实时控制方法，其特征在于，更新行动者目标网络和评论家目标网络参数，策略函数和价值函数均使用双网络架构，即分别设置预测网络和目标网络。

5.根据权利要求4所述的一种基于环境交互的机器人实时控制方法，其特征在于，S3中服务器处理数据得到机器人下一步该执行的动作，然后将动作控制信息通过以太网再传回给芯片，控制机器人的执行。

6.根据权利要求1所述的一种基于环境交互的机器人实时控制方法，其特征在于，S5中最小化损失函数来更新价值网络参数w，式中N为采样情节数。

7.根据权利要求1所述的一种基于环境交互的机器人实时控制方法，其特征在于，S5中根据最大化目标函数来更新策略网络参数θ：式中N为采样情节数。