CN110977966B

CN110977966B - 一种基于虚拟场景训练的机器人避障方法

Info

Publication number: CN110977966B
Application number: CN201911183320.4A
Authority: CN
Inventors: 杜广龙; 吴鑫杰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2023-06-20
Anticipated expiration: 2039-11-27
Also published as: CN110977966A

Abstract

本发明公开了一种基于虚拟场景训练的机器人避障方法。所述方法包括以下步骤：S1、获取机器臂虚拟模型，在gazebo中搭建虚拟操作平台；基于S1构建的虚拟环境，采用域随机化算法，获取数据集；构建语义分割网络，采用步骤S2中获取的数据集对语义分割网络进行训练，得到用以分割机械臂，人体肢干，背景的语义分割模型；约束机械臂运动轨迹，构建奖励制度，结合Sarsa‑lamda算法构建强化学习模型，对机械臂进行避障训练；将语义分割模型和强化学习模型迁移到ur3机械臂和kinect构成系统上。本发明以构建虚拟环境的方式，在虚拟环境中采用域随机化得到充足的数据集，训练得到一个鲁棒性良好的语义分割网络，结合基于Sarsa‑lamda强化学习模型，实现机械臂轨迹重构以及有效避障。

Description

一种基于虚拟场景训练的机器人避障方法

技术领域

本发明涉及机器人避障领域，具体涉及一种基于虚拟场景训练的机器人避障方法。

背景技术

在工业4.0的今天，形形色色的机器人走入工厂，它们代替工人们完成精密的，费力的，亦或是危险的任务。显而易见的是，机器人们不会觉得疲倦，它们会严格地遵循着设计程序高效地运作。优良的性价比使得机器人们受到工业界的欢迎，很多工厂引进机器人，通过连接合适的传感器使得机器人能和环境交互，以此来完成对应的工业任务。

然而，随着工业机器人普及，人机安全问题也被频频提出。尽管工厂管理人员着力于对工人们进行人机安全培训，企图在主观能动方面控制人机安全问题。但在一些时候，由于各种各样的原因，机器运作会和人的运动发生碰撞冲突，危险总是难以意料地发生。通过提出一种碰撞检测的方法，让处于同一个工作空间的机器人能够在与工人发生碰撞前急停或规避，或者是与工人发生碰撞后尽快将危险降至最低，已经成为目前研究的热门课题。

目前机器人碰撞检测的主流技术主要有基于力反馈技术方案，基于柔性杆件或柔性关节技术方案，以及基于红外线或视觉传感器的技术方案。基于力反馈技术方案(刘家武,“六自由度串联式力反馈机械臂研发与应用研究”)，可实现通过机械臂关节处的力反馈装置，捕获来自外部的撞击，紧急制动，以达到避免二次伤害的目的。但这种方法存在缺陷。一是机械臂必须在碰撞后才能停止，二是紧急制动的同时也会停止当前指令，对机身和当前任务影响较大。柔性机械臂(许斌,"Two performance enhanced control of flexible-link manipulator with system uncertainty and disturbances",2017)很好地解决了部分问题，采用柔性杆件或柔性关节的柔性机械臂在收到撞击时展示出极为良好的缓冲效果，大大降低碰撞可能造成的伤害，但该方法也只能在碰撞后发挥作用。想要让机械臂能提前预知碰撞，甚至主动去规避碰撞，需采用第三种方法，给机械臂连接额外的传感器，如，红外线传感器，视觉传感器。哈佛商学院一项研究表明，视觉占人脑每天从外界获取到信息的83％。而同样道理通过视觉传感器，机器人能从外界获取更多的信息。运用视觉传感器来支撑机器人避障所需要的信息量具有极大的可行性。但此法极大地受限于传感器的工作参数和质量,尽管有很多方法(Koditschek,D.E.,Exact robot navigation by means ofpotential functions:Some topological considerations,In Proc.IEEEInt.Conf.Robotics Automation,1987，Zhu,X.Y.,Zhu,L.M.,Zhong,B.L.,Robotcollision-free path planning utilizing gauge function,Science in China,SeriesE,1997,40，Xiong,Y.L.,Ding,H.,General criterion and control strategy ofcollision-free movement for manipulators,Int.J.Robotics&Automation,1989,4)试图在算法决策上改善这一点。当受到外界光源，温度，物理撞击影响时，传感器对外界信息采集会受到一定的影响。而在多数情况下，视觉信息的微小变化可能导致基于视觉的模型产生极大的误差。我们的方法是在虚拟的环境中，使用域随机化算法，提升模型的鲁棒性，解决视觉传感器容易受到外界干扰的问题。当虚拟环境下训练的模型迁移到现实时，模型有更好的泛化能力，以提供给强化学习更为稳定，靠谱的视觉信息判定结果。

发明内容

本发明以构建虚拟环境的方式，在虚拟环境中采用域随机化得到充足的数据集，训练得到一个鲁棒性良好的语义分割网络，结合基于Sarsa-lamda强化学习模型，实现机械臂轨迹重构以及有效避障。

本发明的目至少通过如下技术方案之一实现。

一种基于虚拟场景训练的机器人避障方法，包括以下步骤：

S1、获取机器臂虚拟模型，在gazebo中搭建虚拟操作平台；

S2、基于S1构建的虚拟环境，采用域随机化算法，获取数据集；

S3、构建语义分割网络，采用步骤S2中获取的数据集对语义分割网络进行训练，得到用以分割机械臂，人体肢干，背景的语义分割模型；

S4、约束机械臂运动轨迹，构建奖励制度，结合Sarsa-lamda算法构建强化学习模型，对机械臂进行避障训练；

S5、将语义分割模型和强化学习模型迁移到ur3机械臂和kinect构成系统上。

进一步地，步骤S1包括以下步骤：

S1.1、获取现实环境中的实验平台、人体肢干、机械臂的大小与形状，在虚拟环境中一比一构建虚拟模型；

S1.2、将步骤S1.1构建的虚拟模型在gazebo虚拟环境中进行拼接，构建与现实环境相同的虚拟操作平台。

进一步地，步骤S2中包括以下步骤：

S2.1、在步骤S1得到的虚拟环境中，进行随机化；

S2.2、获取虚拟环境中摄像机镜头采集的RGB图片和深度信息；

S2.3、获取虚拟环境中人体肢体，机械臂，背景的掩模；

S2.4、将步骤S2.2中获取的RGB图片和深度信息作为数据，将步骤S2.3中获取的掩模作为标签，制作数据集。

进一步地，步骤S2.1中，采用域随机化算法进行以下的随机化：

S2.1.1、随机化摄像机镜头的俯仰角、方位角和偏移参数；

S2.1.2、随机化灯光的数量，强度；

S2.1.3、随机化深度信息的噪声；

S2.1.4、随机化人体肢干部，桌面，机器人的颜色。

进一步地，步骤S3中，语义分割网络采用图像分割(FCNs)技术，语义分割网络的构建包括以下步骤：

S3.1、采用图像分割(FCNs)技术，并对语义分割网络其中部分网络结构做了改变，删除最后一层池化层；因为在简单的少类别的分割情景中，低层网络学习到的特征已经足够胜任。同时，更少层的池化层和上采样次数将有效地减轻模型重量，减少运行时间。

S3.2、向语义分割网络输入图片I,得到的输出的第一个维度为Num_class，代表需要分割的种类，分别为人体肢干、机械臂和背景；第二个维度为输入原图片的宽度W；第三个维度为输入原图片的高度H；

S3.3、对于步骤S3.2中得到的输出，将每个通道同一位置的像素点的值组成向量，经过sofmax函数处理，选取概率值最大的像素点的值为代表，将特征图由C*H*W转化为H*W；损失函数L由下列式子构成：

其中，X_ij表示网络输出特征图位置为(i,j)的像素值，y_ij表示标签位置为(i,j)的像素值。

进一步地，步骤S3.1中，改进后的语义分割网络的结构如下：

Input_images(C*H*W)

->Pool(k_m*m,c_n1)->Pool(k_m*m,c_n2)->Pool(k_m*m,c_n3)->Pool3Map->Pool(k_m*m,c_n4)

->Upsample(X1)->Upsample1Map∑Pool3Map->Upsample(X2)

->Output(Num_class*H*W)；

其中，Input_images表示输入图像；C表示输入信息的维度，由彩色图像3个通道R,G,B,以及深度信息一个通道D构成；H为虚拟相机采集到的图像的高；W为虚拟相机采集到的图像的宽；Pool(k_m*m,c_n1)表示卷积核大小为m*m,输出通道为n的池化层；PooliMap表示经过第i次池化层得到的特征图；Upsample(X)表示上采样，对用以池化后的特征图进行上采样，以确保网络最终得到的特征图和输入图片尺度大小一致，X为经过上采样运算后特征图放大的倍数,经过第j次上采样得到的特征图为UpsamplejMap；Upsample(X)表示对特征图进行装置卷积，装置卷积后特征图的大小将为输入特征图的X倍；Output表示输出。

进一步地，步骤S4包括以下步骤：

S4.1、将整个空间分成有限个状态点，制定机械臂的动作集A，离散化机械臂的运动轨迹；

S4.2、制定机械臂的状态集S：穷举步骤S1中得到的有限个状态点，记录为状态集S；

S4.3、制定奖励制度：当机械臂在状态s_t下采用动作a_t到达状态s_t+1时，奖励R_t+1与机械臂和人体躯干距离L满足以下公式:

其中，α为比例系数，β为底数，L_min为距离阈值，当距离L不大于该阈值时，设置额外的罚函数u_max,并赋值给R_t+1；

S4.4、采用Sarsa-lamda算法对机械臂的避障进行训练，完成强化学习模型的构建。

进一步地，步骤S4.1具体包括以下步骤：

S4.1.1、以机械臂腕关节末端为基坐标点，建立球坐标系(r,θ,φ)；

S4.1.2、约束距离r：量化距离r、俯仰角θ、方位角φ，机械臂下一次运动可选择动作的数量将变得有限个；约束满足距离r为常量，俯仰角θ、方位角φ分别选取0、π/4、π/2、3π/4进行组合，将整个空间分成有限个状态点，状态点之间可以经过有限的动作选取序列后完成转换；

S4.1.3、将步骤S4.1.2中所述的有限个状态点穷举，记当前基坐标点到各个可选择点构成的向量集合为动作集A。

10、进一步地，步骤S4.4具体包括以下步骤：

S4.4.1、创建Watkins论文Learning from Delayed Reward提出的Q(s,a)函数并随机初始化；

S4.4.2、对于所有的s和a，初始化E(s,a)，s∈S，a∈A；根据机器人目前位置初始化状态S和动作A；

S4.4.3、在状态S采取动作A，到达状态S’，根据机械臂与人体肢干距离L得到奖励R_t+1；设置贪婪概率系数ε，表示有ε的概率在状态S下采用贪婪算法选取奖励值最大的动作A’，有1-ε的概率随机选取动作；依次执行以下流程：

δ＝R+γ*Q(S',A')-Q(S,A)

E(S,A)＝E(S,A)+1

Q(s,a)＝Q(s,a)+α*δ*E(s,a) for all s∈S,a∈A

E(s,a)＝γ*λ*E(s,a) for all s∈S,a∈A

其中，γ是衰减因子，表示Q(S’,A’)对Q(S,A)影响的衰减程度；λ的取值为0～1；更新状态S和动作A，若状态S到达终点，则结束一个回合的算法，回到步骤S4.4.2开始下一回合算法；若状态S显示未到达终点，则跳至步骤S4.4.3；

S4.4.4、算法经过多个回合迭代后，在空间有解的情况下，生成一条可行的新路径。

进一步地，步骤S5中，语义分割模型用以识别分割工作空间中出现的机器人，人体肢干，计算出机器人与人体肢干之间的距离L，判断是否可能发生碰撞，并根据步骤S4.3中函数式得到奖励R；利用步骤S4.4所述的强化学习模型，结合奖励R,当机器人发生碰撞时，重新规划机器人路径，达到避碰效果。

与现有技术相比，本发明具有以下优势：

(1)本发明实现了机械臂碰撞预警，并为机械臂重新规划新的目标轨迹，降低对当前任务的影响。

(2)本发明采用域随机算法获取了充足数据，深度学习模型具有很高的鲁棒性，这给强化学习提供了稳定的视觉信息判断。

(3)新轨迹规划过程强化学习的奖励随机械臂和人体躯干改变而调整，能够实时获取人体肢干位置，并及时规划新路径。新路径尚未规划完成前，机械臂可以处于静止状态。

附图说明

图1为本发明实施例中基于强化学习和域随机化深度学习模型的机器人避障方法的流程图。

图2为本发明实施例中语义分割网络结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合附图并举实施例，对本发明的具体实施进行详细说明。

一种基于虚拟场景训练的机器人避障方法，如图1所示，包括以下步骤：

S1、获取机器臂虚拟模型，在gazebo中搭建虚拟操作平台；包括以下步骤：

S2、基于S1构建的虚拟环境，采用域随机化算法，获取数据集；包括以下步骤：

S2.1、在步骤S1得到的虚拟环境中，进行随机化；采用域随机化算法进行以下的随机化：

S2.1.1、随机化摄像机镜头的俯仰角、方位角和偏移参数；

S2.1.2、随机化灯光的数量，强度；

S2.1.3、随机化深度信息的噪声；

S2.1.4、随机化人体肢干部，桌面，机器人的颜色。

S2.2、获取虚拟环境中摄像机镜头采集的RGB图片和深度信息；

S2.3、获取虚拟环境中人体肢体，机械臂，背景的掩模；

S3、构建语义分割网络，采用步骤S2中获取的数据集对语义分割网络进行训练，得到用以分割机械臂，人体肢干，背景的语义分割模型；语义分割网络采用图像分割(FCNs)技术，语义分割网络的构建包括以下步骤：

如图2所示，改进后的语义分割网络的结构如下：

Input_images(C*H*W)

->Pool(k_m*m,c_n1)->Pool(k_m*m,c_n2)->Pool(k_m*m,c_n3)->Pool3Map->Pool(k_m*m,c_n4)->Upsample(X1)->Upsample1Map∑Pool3Map->Upsample(X2)

->Output(Num_class*H*W)；

如图2所示，以网格的形式代表特征图，行、列的小网格数可代表特征图的宽和长，经过池化层后特征图的长宽变小，经过上采样层后特征图的长宽变大，并最终和输入图像大小一致。

S4、约束机械臂运动轨迹，构建奖励制度，结合Sarsa-lamda算法构建强化学习模型，对机械臂进行避障训练；包括以下步骤：

S4.1、将整个空间分成有限个状态点，制定机械臂的动作集A，离散化机械臂的运动轨迹；具体包括以下步骤：

S4.4、采用Sarsa-lamda算法对机械臂的避障进行训练，完成强化学习模型的构建；具体包括以下步骤：

δ＝R+γ*Q(S',A')-Q(S,A)

E(S,A)＝E(S,A)+1

Q(s,a)＝Q(s,a)+α*δ*E(s,a) for all s∈S,a∈A

E(s,a)＝γ*λ*E(s,a) forall s∈S,a∈A

S5、将语义分割模型和强化学习模型迁移到ur3机械臂和kinect构成系统上；语义分割模型用以识别分割工作空间中出现的机器人，人体肢干，计算出机器人与人体肢干之间的距离L，判断是否可能发生碰撞，并根据步骤S4.3中函数式得到奖励R；利用步骤S4.4所述的强化学习模型，结合奖励R,当机器人发生碰撞时，重新规划机器人路径，达到避碰效果。

本发明的实施方式并不受上述实施例的限制，其他任何未背离发明精神实质与原理下所做的改变，修饰，替代，组合，简化均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于虚拟场景训练的机器人避障方法，其特征在于，包括以下步骤：

S1、获取机器臂虚拟模型，在gazebo中搭建虚拟操作平台；具体包括以下步骤：

S1.2、将步骤S1.1构建的虚拟模型在gazebo虚拟环境中进行拼接，构建与现实环境相同的虚拟操作平台；

S2.1.1、随机化摄像机镜头的俯仰角、方位角和偏移参数；

S2.1.2、随机化灯光的数量，强度；

S2.1.3、随机化深度信息的噪声；

S2.1.4、随机化人体肢干部，桌面，机器人的颜色；

S2.2、获取虚拟环境中摄像机镜头采集的RGB图片和深度信息；

S2.3、获取虚拟环境中人体肢体，机械臂，背景的掩模；

S2.4、将步骤S2.2中获取的RGB图片和深度信息作为数据，将步骤S2.3中获取的掩模作为标签，制作数据集；

2.根据权利要求1所述的一种基于虚拟场景训练的机器人避障方法，其特征在于，

步骤S3中，语义分割网络采用图像分割(FCNs)技术，语义分割网络的构建包括以下步骤：

S3.1、采用图像分割技术，并对语义分割网络其中部分网络结构做了改变，删除最后一层池化层；

S3.3、对于步骤S3.2中得到的输出，将每个通道同一位置的像素点的值组成向量，经过

函数处理，选取概率值最大的像素点的值为代表，将特征图由

C*H*W转化为H*W；损失函数L由下列式子构成：

3.根据权利要求1所述的一种基于虚拟场景训练的机器人避障方法，其特征在于，步骤S3.1中，改进后的语义分割网络的结构如下：

Input_images(C*H*W)

->Upsample(X1)->Upsample1Map∑Pool3Map->Upsample(X2)

->Output(Num_class*H*W)；

4.根据权利要求1所述的一种基于虚拟场景训练的机器人避障方法，其特征在于，步骤S4包括以下步骤：

5.根据权利要求4所述的一种基于虚拟场景训练的机器人避障方法，其特征在于，步骤S4.1具体包括以下步骤：

6.根据权利要求5所述的一种基于虚拟场景训练的机器人避障方法，其特征在于，步骤S4.4具体包括以下步骤：

S4.4.1、创建Q(s,a)函数并随机初始化；

δ＝R+γ*Q(S',A')-Q(S,A)

E(S,A)＝E(S,A)+1

Q(s,a)＝Q(s,a)+α*δ*E(s,a) for all s∈S,a∈A

E(s,a)＝γ*λ*E(s,a) for all s∈S,a∈A

7.根据权利要求1所述的一种基于虚拟场景训练的机器人避障方法，其特征在于，步骤S5中，语义分割模型用以识别分割工作空间中出现的机器人，人体肢干，计算出机器人与人体肢干之间的距离L，判断是否可能发生碰撞，并根据步骤S4.3中函数式得到奖励R；利用步骤S4.4的强化学习模型，结合奖励R，当机器人发生碰撞时，重新规划机器人路径，达到避碰效果。