CN105690392B

CN105690392B - 基于行动者‑评论家方法的机器人运动控制方法和装置

Info

Publication number: CN105690392B
Application number: CN201610232236.7A
Authority: CN
Inventors: 刘全; 许丹; 朱斐
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2016-04-14
Filing date: 2016-04-14
Publication date: 2017-11-28
Anticipated expiration: 2036-04-14
Also published as: CN105690392A

Abstract

本发明公开了一种基于行动者‑评论家方法的机器人运动控制方法和装置，控制方法包括：采集视频数据，获得当前机器人的位置信息、障碍物分布信息，给定目的地信息；以机器人所在的位置作为机器人的状态，机器人的运动方向作为动作；进行状态迁移；计算离策略因子；更新近似平均奖赏值与近似平均平方奖赏值；计算当前的平均奖赏时间差分与平均平方奖赏时间差分；进行近似平均奖赏参数的迭代更新以及近似平均平方奖赏参数的迭代更新；进行近似平均奖赏的梯度的计算，近似平均平方奖赏的梯度的计算以及策略参数的更新；状态动作更替。重复以上步骤，直到策略参数收敛，实现机器人的运动控制。本发明实现了机器人的智能运动控制，控制结果稳定。

Description

基于行动者-评论家方法的机器人运动控制方法和装置

技术领域

本发明涉及一种机器人运动控制方法，属于机器学习领域，具体涉及一种方差相关的离策略行动者-评论家控制方法及装置。

背景技术

随着机器人研究的进展，如何对机器人的运动进行智能控制成为机器人进一步发展的一个关键技术问题。现有技术中，对机器人的运动控制包括人为控制和自动控制。

例如，中国发明专利申请CN105313129A公开了一种基于视频的机器人行走运动控制方法，机器人摄像头采集视频画面，在移动终端(PAD或手机)上查看机器人视频画面，通过手指在移动终端视频画面上进行滑动损伤，操控机器人的行走运动。该技术方案属于人为控制，虽然通过摄像头画面可以实现非可视距离内的控制，但并不能实现智能控制。

中国发明专利申请CN105487541A公开了一种配送机器人及其控制方法，在配送机器人的控制器中存储目标区域的导航地图，所述导航地图用于记录所述目标区域内的目标地点名称以及到达所述目标地点名称的导航路径，控制器在接收到包括所述目标地点名称的控制指令时，控制所述配送机器人沿所述目标地点名称的导航路径移动；移动时，控制器控制激光器进行实时扫描，激光器在扫描出配送机器人前方存在障碍物时，将所述障碍物的实时距离发送至所述控制器，所述控制器在检测出所述实时距离小于预设阈值时控制所述配送机器人停止移动。该技术方案可以实现机器人的自动控制，但是其智能性差，机器人只能根据预设的导航地图运动，当环境发生变化，预设路径上出现障碍物时，机器人只能停止移动，等待障碍物消失或者接收到新的导航路径，而不能自行寻找新的运动路径。

如果能够在给定目的地之后，机器人通过自我学习获得到达目的地的较快速的路径，对于机器人技术的发展将起到极大的推动作用。

作为机器学习的一个分支，强化学习通过不断地与环境进行交互以达到最大化目标函数的目的。在强化学习中目标函数有很多种形式，例如平均奖赏、长期累积回报等等。然而在风险敏感领域中，特别是过程控制领域，除了要考虑最大化目标函数，还要将解决问题的过程中可能出现的风险控制在可接受范围之内。因此，在解决风险敏感的强化学习问题时，应该将风险控制与传统的目标函数相结合，以达到共同控制的目的。方差可以作为风险的一种形式化表示方法，将方差相关的标准加入到目标函数中可以实现风险控制与目标函数相结合的目的。方差相关标准运用到强化学习框架中会使得方法复杂度大大提升，计算困难度增加。目前一种比较有效的降低复杂度的方法是运用策略梯度方法得到问题的局部最优解而非全局最优解。

策略梯度方法是强化学习中一类重要的方法，它直接通过策略参数来学习策略，其中策略参数根据目标函数的梯度方向不断地进行更新。行动者-评论家（AC）方法作为策略梯度方法中一类特殊方法，它不仅依靠策略参数，还需要依赖值函数进行策略的更新。AC方法因其良好的兼容性和高效性而被广泛应用于各种强化学习方法中。2012年提出的离策略AC方法是对以往AC方法的一个扩充。离策略的意思是智能体学习的策略（也就是评估策略）与智能体实际执行的策略（也就是行为策略）是两种独立的策略。离策略的机制可以有效地解决强化学习中探索与利用的平衡问题。

目前在强化学习中已经有一些基于策略梯度的方差相关方法。Tamar等人在2012年提出了两个带方差相关风险评估标准的策略梯度方法，并且证明了方法的收敛性。Prashanth和Ghavamzadeh在2013年提出了一种基于马尔科夫决策过程（MDP）模型的方差相关的在策略AC方法。然而对于近几年才提出的离策略AC方法，目前还没有关于其方差相关性方面的研究。

因此，如何将离策略AC方法与方差相关风险评估标准相结合，并应用于机器人，是机器人控制中的一个急需解决的问题。

发明内容

本发明的发明目的是提供一种基于行动者-评论家方法的机器人运动控制方法和装置，通过对控制问题中方差的有效控制，使得控制性能更稳定，收敛结果更好，以获得更高的平均奖赏，并实现对机器人运动路径的快速选择。

为达到上述发明目的，本发明采用的技术方案是：一种基于行动者-评论家方法的机器人运动控制方法，其特征在于，包括以下步骤：

(1)通过摄像头采集视频数据，对视频数据进行处理获得当前机器人的位置信息、障碍物分布信息，给定目的地信息；

(2)对通过视频数据的分析获得地图，以机器人所在的位置作为机器人的状态x，机器人的运动方向作为动作u；

(3)状态迁移：在当前状态x下选择对应的当前动作u，执行当前动作u得到相应奖赏r并且迁移到下一状态x’，再根据行为策略选择下一状态x’对应的下一动作u’；其中，行为策略初始状态采用完全随机策略，任一状态下所有动作的选择概率均相等且和为1；

(4)计算离策略因子：根据评估策略与行为策略计算得到离策略因子，其中，，为基函数，为策略参数，U为动作的集合；

(5)更新平均值：根据当前时间步下所得到的奖赏r更新近似平均奖赏值与近似平均平方奖赏值；

(6)计算时间差分：根据步骤一中得到的迁移知识，计算当前的平均奖赏时间差分与平均平方奖赏时间差分；

(7)更新评论家：根据步骤(3)至步骤(6)中学习到的信息，进行评论家部分的迭代更新，包括近似平均奖赏参数的迭代更新以及近似平均平方奖赏参数的迭代更新；

(8)更新行动者：根据步骤(3)至步骤(7)中学习到的信息，进行行动者部分的迭代更新，包括近似平均奖赏的梯度的计算，近似平均平方奖赏的梯度的计算以及策略参数的更新；

(9)状态动作更替：重设当前状态x的值为原下一状态x’，当前动作u的值为原下一动作u’，重复步骤(3)至步骤(9)，直到策略参数收敛，完成机器人的学习过程；

(10)根据机器人学习过程确定的到达目的地的运动策略，实现机器人的运动控制。

上述技术方案中，步骤(2)中，状态值是离散的或者连续的，动作值是离散的。所述步骤(4)中，因为加入离策略因子，使得原本基于行为策略的有偏估计变成无偏估计。所述步骤(5)中，采用迭代的方式更新近似平均奖赏与近似平均平方奖赏，所得的近似平均奖赏与近似平均平方奖赏分别是从开始时间步到当前时间步所得到的奖赏的平均值与平方的平均值。用这两个平均值来近似表示真实的平均值，随着时间步数的不断增加，这两个平均值将越来越接近真实的平均值。所述步骤(6)中，利用时间差分来评估当前更新得到的新策略较更新之前的策略相比是变得更好还是更差。因此时间差分被定义成当前状态动作对的值与之前时间步该状态动作对的值的差。如果该差值为正，表示当前更新有利于策略向更好的方向发展，应该有效利用该更新。相反，如果该差值为负，表示当前更新使得策略向不好的方向发展，不利于策略的改进，所以应该抑制该更新。所述步骤(7)中，评论家部分的更新主要是更新近似值函数和近似平方值函数所依赖的两组值函数参数和的值。当更新这两个参数的值后，相应的近似值函数与近似平方值函数就得以更新，于是整个评论者部分就得到更新。这里采用迭代方式，沿着值函数梯度方向更新参数值。所述步骤(9)中，状态更替的目的是使原采样得到的下一状态动作对在下一轮新的迭代过程中变成当前状态动作对，在此状态动作对下进行新的采样，以此来实现方法的在线实时学习特性。

上述技术方案中，步骤(5)中，近似平均奖赏值，近似平均平方奖赏值，其中，，t是当前时间步。

步骤(6)中，近似平均奖赏的时间差分，近似平均平方奖赏的时间差分，其中，是近似值函数，是近似平方值函数，是折扣因子，。

其中，值函数的计算采用线性函数近似的方式，

，

其中，与分别是近似值函数参数与近似平方值函数参数。

步骤(7)中，采用梯度下降方法更新参数值，更新形式为，

其中，与分别是两组参数更新时的步长参数。

步骤(8)中，近似平均奖赏的梯度，近似平均平方奖赏的梯度，策略参数，其中根据采用的方差风险标准确定。

优选的技术方案，方差风险标准采用，其中是惩罚因子，。优选地，＜0.1，更优选地，≤0.01。

为实现本发明的另一发明目的，提供一种基于行动者-评论家方法的机器人运动控制装置，机器人装配有摄像头和控制器，与机器人配合设有后台数据处理器，机器人中的控制器经无线网络与所述后台数据处理器连接，所述摄像头的输出信号连接至所述控制器，所述控制器中设有视频数据预处理模块，所述后台数据处理器中设有基于上述基于行动者-评论家方法的机器人运动控制方法的控制模块。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：

1、本发明采用摄像头获得的视频信号获取机器人当前位置、目的地信息及障碍物信息，利用机器学习的方法获得优选的机器人行动路径，实现了机器人的智能运动控制；

2、通过将方差的计算加入到传统的强化学习目标函数中，可以在最优化传统目标函数的同时有效控制方差在一定可接受的范围内，从而使得控制结果更稳定，方法收敛效果更好，方差更小。

附图说明

图1为本发明实施例的系统工作流程图；

图2为实施例中采用弹球模型的示意图；

图3为实施例与对比各方法累积奖赏概率分布图；

图4为各方法每个情节执行总步数概率分布图；

图5为本发明实施例的装置示意图。

具体实施方式

下面结合附图及实施例对本发明作进一步描述：

实施例一：一种机器人运动控制方法，通过摄像头采集视频数据，对视频数据进行处理获得当前机器人的位置信息、障碍物分布信息，给定目的地信息；对通过视频数据的分析获得地图，以机器人所在的位置作为机器人的状态x，机器人的运动方向作为动作u；如图1所示，具体的控制方法包括学习过程和运动控制。

所述学习过程包括以下步骤：

1 状态迁移

根据环境模型进行机器人状态的迁移，再依据行为策略选择新状态下应该执行的动作。行为策略采用完全随机策略，即任一状态下所有动作的选择概率均相等且和为1。

2 计算离策略因子

离策略因子，其中是评估策略，是行为策略。该行为策略即为步骤1中所述的行为策略。本发明中所采用的评估策略的形式为：，即用基函数与策略参数的内积值表示动作值，评估策略即为这一分式，分子为自然对数底的动作值次方，分母为分子对于所有动作的和。该评估策略满足在任意状态动作对处对策略参数是连续可导的，因此可以保证在任意状态动作对处梯度存在。

3 更新平均值

本发明中有两个近似平均值，一个是近似平均奖赏值，一个是近似平均平方奖赏值。用公式表示则为，，其中是，是当前时间步，就是当前获得的奖赏值。

4 计算时间差分

本发明中需要计算两个时间差分，分别是近似平均奖赏的时间差分与近似平均平方奖赏的时间差分，具体计算公式可以采用如下公式。具体形式为，，其中是近似值函数，是近似平方值函数，是一个折扣因子。值函数的计算采用线性函数近似的方式，也就是计算特征值与值函数参数的内积，即为该状态动作对的值。本发明中所用的近似线性函数如下：

其中与分别是近似值函数参数与近似平方值函数参数。这里采用的是伴随特征值，即基函数减去所有动作的基函数与动作概率乘积的和，使用伴随特征值的好处是可以得到无偏近似。

5 更新评论家

本发明采用梯度下降方法更新参数值。如上所述，由于采用的是线性函数近似，所以值函数的梯度就是伴随特征值，于是参数更新形式为

其中与分别是两组参数更新时的步长参数。这种迭代式的更新可以实时的更新值函数参数值，因此本发明可以实现方法的在线实时学习。

6 更新行动者

这一步骤中最核心的操作就是更新策略参数。本发明采用的更新方式是，其中与具体采用的方差相关风险标准有关。当采用标准时，其中是惩罚因子，则。

7 状态动作更替

该步骤最主要的目的是不断地更替状态动作对，使迭代一直进行下去，直到参数收敛。在强化学习中，参数收敛是指前后两轮更新后的参数值完全相同或者变化不大。

完成学习过程中，采用学习过程确定的参数进行运动控制。

为了说明方差相关的离策略行动者-评论家机器人控制方法的效果，选择弹球仿真模拟实验。图2为弹球示意图。弹球实验的目标是控制球进入右上角的洞中，中间多边形即为障碍物。当球撞击障碍物或边界时会发生弹性形变，所以可以选择避开这些障碍物，也可以选择利用障碍物的弹性形变加快到达目标的过程。弹球问题由于撞击时的弹性形变使得其状态发生剧烈变化，所以它比一般的控制问题更加复杂，也更具挑战性。因此以此仿真实验来进行比较，更能体现方法的优越性。

图3为本方法(VOPAC)与其他方法累积奖赏的概率分布图，横坐标为每个情节结束时的累积奖赏值，纵坐标为累积奖赏值的概率。曲线越窄越高表示累积奖赏值越集中在该范围，该方法的方差越小，控制越稳定。从该图可以直观地看出本方法的累积奖赏值更集中，也就是方差最小，控制效果最好。

图4为本方法与其他方法的每个情节执行总步数的概率分布图，横坐标为每个情节结束时的总时间步数，纵坐标为时间步数的概率。曲线越窄越高表示时间步数越集中在该范围，该方法的方差越小，控制越稳定。从该图也可以直观地看出本方法的总步数比其他方法小，步数值也更加集中，即方差更小。

表1具体给出了各方法的最少步数，平均步数，最大步数与方差值，其中，取0.01。从表1中可以看出本方法的方差比其他方法小很多，这与图1与图2的直观结果相一致。

表1 各方法方差对比图

方法	最少步数	平均步数	最大步数	方差×10⁴
					实施例(VOPAC)	269	912	3623	27.43
Off-PAC	224	1369	4878	71.23
					OPGTD2(λ)	240	1205	4036	69.36
SARSA	552	1944	5000	103.56

图5为本发明的装置图。机器人装配一个摄像头和TMS320C6670芯片，该芯片可以将摄像头采集的视频数据进行预处理后得到当前机器人的位置信息，然后将此位置信息通过无线以太网传输到后台数据处理器，数据处理器通过本发明提出的方差相关离策略AC方法对位置信息进行处理计算得到动作控制信息，然后将动作控制信息传回给处理芯片，控制机器人的运行。

为进一步确定本发明的效果，在学习完成后，利用固定策略控制机器人的运动，确定机器人到达目的地分别需要的平均步数。本发明与对比方法的平均步数如下：

本实施例 801.4

Off-PAC 1242.4

OPGTD2(λ) 1125.2

SARSA 1747.8

在本发明的方法中，改变不同的μ值得到的结果:

VOPAC	最少步数	平均步数	最大步数	方差×10⁴
					μ=0.01	269	912	3623	27.43
μ=0.001	137	898	2784	27.61
					μ=0.0001	269	2765	6828	370.38

Claims

1.一种基于行动者-评论家方法的机器人运动控制方法，其特征在于，包括以下步骤：

(5)更新平均值：根据当前时间步下所得到的奖赏r更新近似平均奖赏值与近似平均平方奖赏值；其中近似平均奖赏值，近似平均平方奖赏值，式中，，t是当前时间步；

(6)计算时间差分：根据步骤一中得到的迁移知识，计算当前的平均奖赏时间差分与平均平方奖赏时间差分；近似平均奖赏的时间差分，近似平均平方奖赏的时间差分，其中，是近似值函数，是近似平方值函数，是折扣因子，；值函数的计算采用线性函数近似的方式，

，

其中，与分别是近似值函数参数与近似平方值函数参数；

(7)更新评论家：根据步骤(3)至步骤(6)中学习到的信息，进行评论家部分的迭代更新，包括近似平均奖赏参数的迭代更新以及近似平均平方奖赏参数的迭代更新；采用梯度下降方法更新参数值，更新形式为，

其中，与分别是两组参数更新时的步长参数；

(8)更新行动者：根据步骤(3)至步骤(7)中学习到的信息，进行行动者部分的迭代更新，包括近似平均奖赏的梯度的计算，近似平均平方奖赏的梯度的计算以及策略参数的更新；近似平均奖赏的梯度，近似平均平方奖赏的梯度，策略参数，其中根据采用的方差风险标准确定；方差风险标准采用，其中是惩罚因子，；

2.一种基于行动者-评论家方法的机器人运动控制装置，其特征在于：机器人装配有摄像头和控制器，与机器人配合设有后台数据处理器，机器人中的控制器经无线网络与所述后台数据处理器连接，其特征在于：所述摄像头的输出信号连接至所述控制器，所述控制器中设有视频数据预处理模块，所述后台数据处理器中设有基于权利要求1中基于行动者-评论家方法的机器人运动控制方法的控制模块。