CN113967909A

CN113967909A - 基于方向奖励的机械臂智能控制方法

Info

Publication number: CN113967909A
Application number: CN202111070047.1A
Authority: CN
Inventors: 陈小前; 满桁宇; 熊丹; 黄奕勇; 韩伟; 刘红卫; 付康佳; 杨延杰
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2022-01-25
Anticipated expiration: 2041-09-13
Also published as: CN113967909B

Abstract

本发明公开了一种基于方向奖励的机械臂智能控制方法，该方法包括：S1：确定机械臂的初始姿态，获取预定的目标点位置；S2：通过强化学习算法控制机械臂移动，以使得机械臂的末端执行器移动至预定的目标点位置；在S2中，强化学习算法为DDPG算法，强化学习算法设置有控制机械臂移动的奖励函数，奖励函数的公式如下：R＝R_d+R_v+R_g。由此，本方法可以避免传统机械臂控制中的雅各比矩阵求逆问题和机械臂存在的奇异点问题，能够简化机械臂控制算法的设计。通过该方法驱动的机械臂具有较高的自主能力，而且机械臂控制系统可以在与环境交互的过程中自主到达预定的目标位置，能够增强机械臂控制的自主能力。

Description

基于方向奖励的机械臂智能控制方法

技术领域

本发明涉及自动控制技术领域，尤其涉及一种基于方向奖励的机械臂智能控制方法。

背景技术

当前，神经生理学家对生物的运动控制进行了深入的探索研究，他们的研究表明，运动控制与生物的神经细胞高度相关，运动首先以更抽象的、基于方向的形式进行计划编码。在部分研究中，研究人员通过设置简单的手臂到达实验，对恒河猴运动系统多个区域的神经细胞进行记录。研究结果表明，运动皮质细胞编码运动方向，朝着特定方向的运动需要激活相应的细胞。而且，通过进一步地研究表明，在手臂的到达运动控制中，人脑通过调整运动皮质细胞编码的预期运动方向使得其与实际的目标方向相匹配来完成任务，即通过方向偏差来控制手臂末端到达预定的目标位置。

强化学习是一种在交互中学习的计算性方法。控制系统通过执行动作与环境交互，以预期收益信号最大化为目标，实现了智能化的控制。DDPG是强化学习中针对连续行为的策略学习方法。其中，DDPG能够基于确定性行为策略的原理，通过对策略网络和Q值网络的训练，获得了一个确定性行为策略模型，从而实现了对连续行为的控制。

机械臂作为一种智能化机械设备，其主要功能是协助或替代人类完成一定的工作任务。因其适用性强，灵活性高，被广泛应用于各行各业。随着计算机科学技术的快速发展，有关控制机械臂的研究和应用得到了不断的发展。

在传统的机械臂控制方法中，为完成机械臂末端执行器到达预定目标的运动控制任务，控制系统首先要规划好末端执行器到达预定目标位置的运动轨迹，然后再一一求解运动轨迹各点对应的机械臂各关节的角度，从而实现对机械臂的控制，使其末端执行器到达预定的目标位置。然而，运动轨迹各点对应的机械臂各关节的角度的求解涉及到机械臂雅可比矩阵的求逆问题，由于一个末端位置可以由不同的机械臂姿态来达成，因而雅可比矩阵的逆解存在着一对多的情况；此外，当机械臂末端执行器位于奇异点时，一个末端位置会对应无限多组解，微小的位移变化量就会导致某些轴的角度产生剧烈变化，产生近似无限大的角速度，从而导致奇异性问题的产生；以上情况使得机械臂的雅可比矩阵的求逆问题变得十分复杂，这使得研究人员在机械臂传统控制方法的设计时耗费了大量的精力。

发明内容

为解决上述现有技术中存在的部分或全部技术问题，本发明提供一种基于方向奖励的机械臂智能控制方法。

本发明的技术方案如下：

一种基于方向奖励的机械臂智能控制方法，所述方法包括：

S1：确定机械臂的初始姿态，获取预定的目标点位置；

S2：通过强化学习算法控制所述机械臂移动，以使得所述机械臂的末端执行器移动至所述预定的目标点位置；

在所述S2中，所述强化学习算法为DDPG算法，所述强化学习算法设置有控制所述机械臂移动的奖励函数，所述奖励函数的公式如下：

R＝R_d+R_v+R_g

其中，R表示总奖励；R_d表示所述机械臂的末端执行器运动的速度方向与所述预定的目标点位置的目标方向的夹角取负后的值；R_v表示所述机械臂的末端执行器运动的速度绝对值取负后的值；表示所述机械臂的末端执行器是否到达所述预定的目标点位置范围内的奖励值，如果是，R_g＝1，如果不是，R_g＝0。

可选地，所述机械臂具有多个关节，在所述S2中，所述强化学习算法输出的动作值为所述关节运动的角速度，所述强化学习算法能够控制所述机械臂在预定的时间内移动。

可选地，在所述强化学习算法中，根据所述关节运动的角速度和所述预定的时间确定所述机械臂下一时刻的运动姿态。

可选地，在所述S2中，为提高所述机械臂的末端执行器移动至所述预定的目标点位置的成功率，当所述机械臂无法通过所述强化学习算法训练得到的策略完成移动时，切换至通过综合控制策略控制所述机械臂移动，之后再切换回通过所述强化学习算法训练得到的策略继续移动，

其中，所述综合控制策略包括第一随机策略和第二随机策略，所述第一随机策略是以通过所述强化学习算法训练得到的策略输出的动作值为均值来产生服从高斯分布的随机动作值，从而使得所述机械臂能够跳出无法完成移动的状态；所述第二随机策略是采用限定的动作值替代所述强化学习算法训练得到的策略输出的动作值，使得所述机械臂可以先暂时远离所述预定的目标点位置。

可选地，在所述S2中，当通过所述强化学习算法训练得到的策略控制所述机械臂执行的时长超过第一预定时长t1且没有完成任务时，通过所述第一随机策略控制所述机械臂移动，当通过所述第一随机策略控制所述机械臂执行的时长超过第一管控时长c1后，返回通过所述强化学习算法训练得到的策略控制所述机械臂移动；

当通过所述强化学习算法训练得到的策略控制所述机械臂执行的时长超过第二预定时长t2且没有完成任务时，通过所述第二随机策略控制所述机械臂移动，当通过所述第二随机策略控制所述机械臂执行的时长超过第二管控时长c2后，返回通过所述强化学习算法训练得到的策略控制所述机械臂移动。

本发明技术方案的主要优点如下：

本发明中的方法，基于人脑通过调整运动皮质细胞编码的预期运动方向为目标方向的原理，利用了强化学习算法中针对连续控制问题的DDPG算法，可以有效地实现对机械臂的实时控制，并能够让机械臂的末端执行器运动到预定的目标点位置。与现有技术相比，本方法可以避免传统机械臂控制中的雅各比矩阵求逆问题和机械臂存在的奇异点问题，能够简化机械臂控制算法的设计。通过该方法驱动的机械臂具有较高的自主能力，而且机械臂控制系统可以在与环境交互的过程中自主到达预定的目标位置，能够增强机械臂控制的自主能力。此外，不需要额外的轨迹规划算法，可以提高机械臂控制的智能化水平。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为根据本发明的一个实施方式中的基于方向奖励的机械臂智能控制方法的步骤示意图；

图2为根据本发明的一个实施方式中的基于方向奖励的机械臂智能控制方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合附图，详细说明本发明实施例提供的技术方案。

在根据本发明的一个实施方式中提供了一种基于方向奖励的机械臂智能控制方法，该方法从仿生的角度，模拟人脑通过调整运动皮质细胞编码的预期运动方向与实际目标方向相符来完成手臂到达运动任务的机理，结合强化学习中的连续控制方法，把运动方向与目标方向的偏差作为方向奖励，直接建立了机械臂当前的状态与机械臂的关节控制指令映射，再通过学习到的控制策略与随机策略的结合形成的综合策略，实现了机械臂末端执行器到达预定目标位置的运动控制。

如图1所示，本实施方式中的基于方向奖励的机械臂智能控制方法包括：

S1：确定机械臂的初始姿态，获取预定的目标点位置；

可以理解，本实施方式中提供的方法用于控制机械臂移动，可以让机械臂的末端执行器到达预订的目标点位置。在该方法中，控制系统可以提前确定机械臂的初始姿态，当控制系统获取预定的目标点位置之后，控制系统将会基于机械臂的初始姿态，采取强化学习算法来控制机械臂，逐步地控制机械臂移动以使得机械臂的末端执行器到达预定的目标点位置附近。

本方法中，采取的强化学习算法为DDPG(Deep Deterministic Policy Gradient)算法，该算法是一种针对连续行为控制并且较为成熟的强化学习算法。为了使机械臂的末端执行器移动至预定的目标点位置，在该强化学习算法中设置有控制机械臂移动的奖励函数。

该奖励函数的公式如下：

R＝R_d+R_v+R_g

其中，R表示总奖励；R_d表示所述机械臂的末端执行器运动的速度方向与所述预定的目标点位置的目标方向的夹角取负后的值；R_v表示所述机械臂的末端执行器运动的速度绝对值取负后的值；R_g表示所述机械臂的末端执行器是否到达所述预定的目标点位置范围内的奖励值，如果是，R_g＝1，如果不是，R_g＝0。

可以理解，本方法中的奖励函数采用了模拟人脑通过方向偏差来控制手臂末端到达预定目标位置的机理。在该方法中，采用机械臂的末端执行器的运动速度方向与目标点位置的目标方向的夹角变化(映射到0-1之间)作为负奖励；将机械臂的末端执行器的运动的速度绝对值变化(映射到0-1之间)作为负奖励，以便于让机械臂的末端执行器在到达目标点位置时能够稳定下来。此外，当机械臂的末端执行器到达预定的目标点位置范围内时，可使得机械臂将获得一个+1奖励。

进一步地，机械臂具有多个关节，在所述S2中，强化学习算法输出的动作值为关节运动的角速度，强化学习算法能够控制机械臂在预定的时间内移动。而且，在强化学习算法中，根据关节运动的角速度和预定的时间确定机械臂下一时刻的运动姿态。

可以理解，本方法中采用速度控制来保证机械臂控制的连续性，而且强化学习算法每次在预定的时间内控制机械臂移动，由此，关节运动的角速度乘以该预定的时间即可以得到关节下一时刻的关节角，从而确定机械臂下一时刻的运动姿态，以便于控制机械臂后续的运动。

本方法的控制原理是基于神经生物学家对生物运动控制的研究而得出来的。具体地，神经生物学家在对生物的运动控制的研究表明，人脑存在着编码预期运动方向的神经细胞，即运动皮质细胞，该类细胞的活动与手臂的预期的运动方向高度相关。神经生理学家把这种编码形成的预期运动方向成为场向量，人脑通过调整场向量方向与预定的目标方向相符，从而使手臂末端可以到达预定的目标位置。这说明，人脑中存在着基于方向偏差的运动控制机制，人脑通过产生的场向量方向与实际目标方向的偏差来不断调整场向量的指向，而场向量又时时刻刻对应着手臂末端预期的运动方向，这使得人脑可以通过方向偏差来控制手臂末端的运动方向，最终使得手臂末端坐标收敛到预定的目标位置上。

由此，根据上述手臂末端运动控制机理，为解决机械臂末端到达运动控制问题，在本方法中，基于DDPG的强化学习算法中，将机械臂的末端执行器的运动速度方向与目标点位置的方向之间的夹角作为负奖励值。本实施方式中的强化学习算法的目标是最大化预期收益，在机械臂的末端执行器到达目标点位置的控制过程中，末端执行器的运动速度方向与目标点位置的方向之间的夹角变化时刻影响着预期收益值。为了使得预期收益最大化，机械臂控制系统必须通过强化学习算法学习到一个使得末端执行器的运动速度方向与目标点位置的方向偏差变小的策略，通过该策略即可模拟人脑可以通过方向偏差来控制手臂末端的运动方向机制。

进一步地，在本方法的S2中，为提高机械臂的末端执行器移动至预定的目标点位置的成功率，当机械臂无法通过强化学习算法训练得到的策略完成移动时，切换至通过综合控制策略控制机械臂移动，之后再切换回通过强化学习算法训练得到的策略继续移动，

其中，综合控制策略包括第一随机策略和第二随机策略，第一随机策略是以通过强化学习算法训练得到的策略输出的动作值为均值来产生服从高斯分布的随机动作值，从而使得机械臂能够跳出无法完成移动的状态；第二随机策略是采用限定的动作值替代强化学习算法训练得到的策略输出的动作值，使得机械臂可以先暂时远离预定的目标点位置。

具体地，如图2所示，当通过所述强化学习算法训练得到的策略控制所述机械臂执行的时长超过第一预定时长t1且没有完成任务时，通过所述第一随机策略控制所述机械臂移动，当通过所述第一随机策略控制所述机械臂执行的时长超过第一管控时长c1后，返回通过所述强化学习算法训练得到的策略控制所述机械臂移动；

由此，在本方法中，除了采用基于DDPG强化学习算法训练得到的策略进行控制外，为保证机械臂完成末端执行器到达预定目标任务的成功率，本发明还采用了随机策略以保证一定的探索性，也就是说，在机械臂暂时无法通过学习到的策略完成任务时，机械臂的控制系统会先切换到随机策略以保证一定的探索，然后在切换回学习到的策略进行控制，使得机械臂末端执行器可以到达预定的目标位置。

本实施方式中的基于方向奖励的机械臂智能控制方法具有以下优点：

本实施方式中的方法，基于人脑通过调整运动皮质细胞编码的预期运动方向为目标方向的原理，利用了强化学习算法中针对连续控制问题的DDPG算法，有效地实现了对机械臂的实时控制，而且能够让机械臂的末端执行器运动到预定的目标点位置。与现有技术相比，本方法可以避免传统机械臂控制中的雅各比矩阵求逆问题和机械臂存在的奇异点问题，能够简化机械臂控制算法的设计。通过该方法驱动的机械臂具有较高的自主能力，而且机械臂控制系统可以在与环境交互的过程中自主到达预定的目标位置，能够增强机械臂控制的自主能力。此外，不需要额外的轨迹规划算法，可以提高机械臂控制的智能化水平。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外，本文中“前”、“后”、“左”、“右”、“上”、“下”均以附图中表示的放置状态为参照。

最后应说明的是：以上实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于方向奖励的机械臂智能控制方法，其特征在于，所述方法包括：

S1：确定机械臂的初始姿态，获取预定的目标点位置；

R＝R_d+R_v+R_g

2.根据权利要求1所述的基于方向奖励的机械臂智能控制方法，其特征在于，所述机械臂具有多个关节，在所述S2中，所述强化学习算法输出的动作值为所述关节运动的角速度，所述强化学习算法能够控制所述机械臂在预定的时间内移动。

3.根据权利要求2所述的基于方向奖励的机械臂智能控制方法，其特征在于，在所述强化学习算法中，根据所述关节运动的角速度和所述预定的时间确定所述机械臂下一时刻的运动姿态。

4.根据权利要求1所述的基于方向奖励的机械臂智能控制方法，其特征在于，在所述S2中，为提高所述机械臂的末端执行器移动至所述预定的目标点位置的成功率，当所述机械臂无法通过所述强化学习算法训练得到的策略完成移动时，切换至通过综合控制策略控制所述机械臂移动，之后再切换回通过所述强化学习算法训练得到的策略继续移动，

5.根据权利要求4所述的基于方向奖励的机械臂智能控制方法，其特征在于，在所述S2中，当通过所述强化学习算法训练得到的策略控制所述机械臂执行的时长超过第一预定时长t1且没有完成任务时，通过所述第一随机策略控制所述机械臂移动，当通过所述第一随机策略控制所述机械臂执行的时长超过第一管控时长c1后，返回通过所述强化学习算法训练得到的策略控制所述机械臂移动；