CN110977966B - 一种基于虚拟场景训练的机器人避障方法 - Google Patents

一种基于虚拟场景训练的机器人避障方法 Download PDF

Info

Publication number
CN110977966B
CN110977966B CN201911183320.4A CN201911183320A CN110977966B CN 110977966 B CN110977966 B CN 110977966B CN 201911183320 A CN201911183320 A CN 201911183320A CN 110977966 B CN110977966 B CN 110977966B
Authority
CN
China
Prior art keywords
mechanical arm
virtual
semantic segmentation
state
robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911183320.4A
Other languages
English (en)
Other versions
CN110977966A (zh
Inventor
杜广龙
吴鑫杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201911183320.4A priority Critical patent/CN110977966B/zh
Publication of CN110977966A publication Critical patent/CN110977966A/zh
Application granted granted Critical
Publication of CN110977966B publication Critical patent/CN110977966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • B25J9/1666Avoiding collision or forbidden zones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于虚拟场景训练的机器人避障方法。所述方法包括以下步骤:S1、获取机器臂虚拟模型,在gazebo中搭建虚拟操作平台;基于S1构建的虚拟环境,采用域随机化算法,获取数据集;构建语义分割网络,采用步骤S2中获取的数据集对语义分割网络进行训练,得到用以分割机械臂,人体肢干,背景的语义分割模型;约束机械臂运动轨迹,构建奖励制度,结合Sarsa‑lamda算法构建强化学习模型,对机械臂进行避障训练;将语义分割模型和强化学习模型迁移到ur3机械臂和kinect构成系统上。本发明以构建虚拟环境的方式,在虚拟环境中采用域随机化得到充足的数据集,训练得到一个鲁棒性良好的语义分割网络,结合基于Sarsa‑lamda强化学习模型,实现机械臂轨迹重构以及有效避障。

Description

一种基于虚拟场景训练的机器人避障方法
技术领域
本发明涉及机器人避障领域,具体涉及一种基于虚拟场景训练的机器人避障方法。
背景技术
在工业4.0的今天,形形色色的机器人走入工厂,它们代替工人们完成精密的,费力的,亦或是危险的任务。显而易见的是,机器人们不会觉得疲倦,它们会严格地遵循着设计程序高效地运作。优良的性价比使得机器人们受到工业界的欢迎,很多工厂引进机器人,通过连接合适的传感器使得机器人能和环境交互,以此来完成对应的工业任务。
然而,随着工业机器人普及,人机安全问题也被频频提出。尽管工厂管理人员着力于对工人们进行人机安全培训,企图在主观能动方面控制人机安全问题。但在一些时候,由于各种各样的原因,机器运作会和人的运动发生碰撞冲突,危险总是难以意料地发生。通过提出一种碰撞检测的方法,让处于同一个工作空间的机器人能够在与工人发生碰撞前急停或规避,或者是与工人发生碰撞后尽快将危险降至最低,已经成为目前研究的热门课题。
目前机器人碰撞检测的主流技术主要有基于力反馈技术方案,基于柔性杆件或柔性关节技术方案,以及基于红外线或视觉传感器的技术方案。基于力反馈技术方案(刘家武,“六自由度串联式力反馈机械臂研发与应用研究”),可实现通过机械臂关节处的力反馈装置,捕获来自外部的撞击,紧急制动,以达到避免二次伤害的目的。但这种方法存在缺陷。一是机械臂必须在碰撞后才能停止,二是紧急制动的同时也会停止当前指令,对机身和当前任务影响较大。柔性机械臂(许斌,"Two performance enhanced control of flexible-link manipulator with system uncertainty and disturbances",2017)很好地解决了部分问题,采用柔性杆件或柔性关节的柔性机械臂在收到撞击时展示出极为良好的缓冲效果,大大降低碰撞可能造成的伤害,但该方法也只能在碰撞后发挥作用。想要让机械臂能提前预知碰撞,甚至主动去规避碰撞,需采用第三种方法,给机械臂连接额外的传感器,如,红外线传感器,视觉传感器。哈佛商学院一项研究表明,视觉占人脑每天从外界获取到信息的83%。而同样道理通过视觉传感器,机器人能从外界获取更多的信息。运用视觉传感器来支撑机器人避障所需要的信息量具有极大的可行性。但此法极大地受限于传感器的工作参数和质量,尽管有很多方法(Koditschek,D.E.,Exact robot navigation by means ofpotential functions:Some topological considerations,In Proc.IEEEInt.Conf.Robotics Automation,1987,Zhu,X.Y.,Zhu,L.M.,Zhong,B.L.,Robotcollision-free path planning utilizing gauge function,Science in China,SeriesE,1997,40,Xiong,Y.L.,Ding,H.,General criterion and control strategy ofcollision-free movement for manipulators,Int.J.Robotics&Automation,1989,4)试图在算法决策上改善这一点。当受到外界光源,温度,物理撞击影响时,传感器对外界信息采集会受到一定的影响。而在多数情况下,视觉信息的微小变化可能导致基于视觉的模型产生极大的误差。我们的方法是在虚拟的环境中,使用域随机化算法,提升模型的鲁棒性,解决视觉传感器容易受到外界干扰的问题。当虚拟环境下训练的模型迁移到现实时,模型有更好的泛化能力,以提供给强化学习更为稳定,靠谱的视觉信息判定结果。
发明内容
本发明以构建虚拟环境的方式,在虚拟环境中采用域随机化得到充足的数据集,训练得到一个鲁棒性良好的语义分割网络,结合基于Sarsa-lamda强化学习模型,实现机械臂轨迹重构以及有效避障。
本发明的目至少通过如下技术方案之一实现。
一种基于虚拟场景训练的机器人避障方法,包括以下步骤:
S1、获取机器臂虚拟模型,在gazebo中搭建虚拟操作平台;
S2、基于S1构建的虚拟环境,采用域随机化算法,获取数据集;
S3、构建语义分割网络,采用步骤S2中获取的数据集对语义分割网络进行训练,得到用以分割机械臂,人体肢干,背景的语义分割模型;
S4、约束机械臂运动轨迹,构建奖励制度,结合Sarsa-lamda算法构建强化学习模型,对机械臂进行避障训练;
S5、将语义分割模型和强化学习模型迁移到ur3机械臂和kinect构成系统上。
进一步地,步骤S1包括以下步骤:
S1.1、获取现实环境中的实验平台、人体肢干、机械臂的大小与形状,在虚拟环境中一比一构建虚拟模型;
S1.2、将步骤S1.1构建的虚拟模型在gazebo虚拟环境中进行拼接,构建与现实环境相同的虚拟操作平台。
进一步地,步骤S2中包括以下步骤:
S2.1、在步骤S1得到的虚拟环境中,进行随机化;
S2.2、获取虚拟环境中摄像机镜头采集的RGB图片和深度信息;
S2.3、获取虚拟环境中人体肢体,机械臂,背景的掩模;
S2.4、将步骤S2.2中获取的RGB图片和深度信息作为数据,将步骤S2.3中获取的掩模作为标签,制作数据集。
进一步地,步骤S2.1中,采用域随机化算法进行以下的随机化:
S2.1.1、随机化摄像机镜头的俯仰角、方位角和偏移参数;
S2.1.2、随机化灯光的数量,强度;
S2.1.3、随机化深度信息的噪声;
S2.1.4、随机化人体肢干部,桌面,机器人的颜色。
进一步地,步骤S3中,语义分割网络采用图像分割(FCNs)技术,语义分割网络的构建包括以下步骤:
S3.1、采用图像分割(FCNs)技术,并对语义分割网络其中部分网络结构做了改变,删除最后一层池化层;因为在简单的少类别的分割情景中,低层网络学习到的特征已经足够胜任。同时,更少层的池化层和上采样次数将有效地减轻模型重量,减少运行时间。
S3.2、向语义分割网络输入图片I,得到的输出的第一个维度为Num_class,代表需要分割的种类,分别为人体肢干、机械臂和背景;第二个维度为输入原图片的宽度W;第三个维度为输入原图片的高度H;
S3.3、对于步骤S3.2中得到的输出,将每个通道同一位置的像素点的值组成向量,经过sofmax函数处理,选取概率值最大的像素点的值为代表,将特征图由C*H*W转化为H*W;损失函数L由下列式子构成:
Figure BDA0002291827700000031
其中,Xij表示网络输出特征图位置为(i,j)的像素值,yij表示标签位置为(i,j)的像素值。
进一步地,步骤S3.1中,改进后的语义分割网络的结构如下:
Input_images(C*H*W)
->Pool(km*m,cn1)->Pool(km*m,cn2)->Pool(km*m,cn3)->Pool3Map->Pool(km*m,cn4)
->Upsample(X1)->Upsample1Map∑Pool3Map->Upsample(X2)
->Output(Num_class*H*W);
其中,Input_images表示输入图像;C表示输入信息的维度,由彩色图像3个通道R,G,B,以及深度信息一个通道D构成;H为虚拟相机采集到的图像的高;W为虚拟相机采集到的图像的宽;Pool(km*m,cn1)表示卷积核大小为m*m,输出通道为n的池化层;PooliMap表示经过第i次池化层得到的特征图;Upsample(X)表示上采样,对用以池化后的特征图进行上采样,以确保网络最终得到的特征图和输入图片尺度大小一致,X为经过上采样运算后特征图放大的倍数,经过第j次上采样得到的特征图为UpsamplejMap;Upsample(X)表示对特征图进行装置卷积,装置卷积后特征图的大小将为输入特征图的X倍;Output表示输出。
进一步地,步骤S4包括以下步骤:
S4.1、将整个空间分成有限个状态点,制定机械臂的动作集A,离散化机械臂的运动轨迹;
S4.2、制定机械臂的状态集S:穷举步骤S1中得到的有限个状态点,记录为状态集S;
S4.3、制定奖励制度:当机械臂在状态st下采用动作at到达状态st+1时,奖励Rt+1与机械臂和人体躯干距离L满足以下公式:
Figure BDA0002291827700000041
其中,α为比例系数,β为底数,Lmin为距离阈值,当距离L不大于该阈值时,设置额外的罚函数umax,并赋值给Rt+1
S4.4、采用Sarsa-lamda算法对机械臂的避障进行训练,完成强化学习模型的构建。
进一步地,步骤S4.1具体包括以下步骤:
S4.1.1、以机械臂腕关节末端为基坐标点,建立球坐标系(r,θ,φ);
S4.1.2、约束距离r:量化距离r、俯仰角θ、方位角φ,机械臂下一次运动可选择动作的数量将变得有限个;约束满足距离r为常量,俯仰角θ、方位角φ分别选取0、π/4、π/2、3π/4进行组合,将整个空间分成有限个状态点,状态点之间可以经过有限的动作选取序列后完成转换;
S4.1.3、将步骤S4.1.2中所述的有限个状态点穷举,记当前基坐标点到各个可选择点构成的向量集合为动作集A。
10、进一步地,步骤S4.4具体包括以下步骤:
S4.4.1、创建Watkins论文Learning from Delayed Reward提出的Q(s,a)函数并随机初始化;
S4.4.2、对于所有的s和a,初始化E(s,a),s∈S,a∈A;根据机器人目前位置初始化状态S和动作A;
S4.4.3、在状态S采取动作A,到达状态S’,根据机械臂与人体肢干距离L得到奖励Rt+1;设置贪婪概率系数ε,表示有ε的概率在状态S下采用贪婪算法选取奖励值最大的动作A’,有1-ε的概率随机选取动作;依次执行以下流程:
δ=R+γ*Q(S',A')-Q(S,A)
E(S,A)=E(S,A)+1
Q(s,a)=Q(s,a)+α*δ*E(s,a) for all s∈S,a∈A
E(s,a)=γ*λ*E(s,a) for all s∈S,a∈A
其中,γ是衰减因子,表示Q(S’,A’)对Q(S,A)影响的衰减程度;λ的取值为0~1;更新状态S和动作A,若状态S到达终点,则结束一个回合的算法,回到步骤S4.4.2开始下一回合算法;若状态S显示未到达终点,则跳至步骤S4.4.3;
S4.4.4、算法经过多个回合迭代后,在空间有解的情况下,生成一条可行的新路径。
进一步地,步骤S5中,语义分割模型用以识别分割工作空间中出现的机器人,人体肢干,计算出机器人与人体肢干之间的距离L,判断是否可能发生碰撞,并根据步骤S4.3中函数式得到奖励R;利用步骤S4.4所述的强化学习模型,结合奖励R,当机器人发生碰撞时,重新规划机器人路径,达到避碰效果。
与现有技术相比,本发明具有以下优势:
(1)本发明实现了机械臂碰撞预警,并为机械臂重新规划新的目标轨迹,降低对当前任务的影响。
(2)本发明采用域随机算法获取了充足数据,深度学习模型具有很高的鲁棒性,这给强化学习提供了稳定的视觉信息判断。
(3)新轨迹规划过程强化学习的奖励随机械臂和人体躯干改变而调整,能够实时获取人体肢干位置,并及时规划新路径。新路径尚未规划完成前,机械臂可以处于静止状态。
附图说明
图1为本发明实施例中基于强化学习和域随机化深度学习模型的机器人避障方法的流程图。
图2为本发明实施例中语义分割网络结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合附图并举实施例,对本发明的具体实施进行详细说明。
一种基于虚拟场景训练的机器人避障方法,如图1所示,包括以下步骤:
S1、获取机器臂虚拟模型,在gazebo中搭建虚拟操作平台;包括以下步骤:
S1.1、获取现实环境中的实验平台、人体肢干、机械臂的大小与形状,在虚拟环境中一比一构建虚拟模型;
S1.2、将步骤S1.1构建的虚拟模型在gazebo虚拟环境中进行拼接,构建与现实环境相同的虚拟操作平台。
S2、基于S1构建的虚拟环境,采用域随机化算法,获取数据集;包括以下步骤:
S2.1、在步骤S1得到的虚拟环境中,进行随机化;采用域随机化算法进行以下的随机化:
S2.1.1、随机化摄像机镜头的俯仰角、方位角和偏移参数;
S2.1.2、随机化灯光的数量,强度;
S2.1.3、随机化深度信息的噪声;
S2.1.4、随机化人体肢干部,桌面,机器人的颜色。
S2.2、获取虚拟环境中摄像机镜头采集的RGB图片和深度信息;
S2.3、获取虚拟环境中人体肢体,机械臂,背景的掩模;
S2.4、将步骤S2.2中获取的RGB图片和深度信息作为数据,将步骤S2.3中获取的掩模作为标签,制作数据集。
S3、构建语义分割网络,采用步骤S2中获取的数据集对语义分割网络进行训练,得到用以分割机械臂,人体肢干,背景的语义分割模型;语义分割网络采用图像分割(FCNs)技术,语义分割网络的构建包括以下步骤:
S3.1、采用图像分割(FCNs)技术,并对语义分割网络其中部分网络结构做了改变,删除最后一层池化层;因为在简单的少类别的分割情景中,低层网络学习到的特征已经足够胜任。同时,更少层的池化层和上采样次数将有效地减轻模型重量,减少运行时间。
如图2所示,改进后的语义分割网络的结构如下:
Input_images(C*H*W)
->Pool(km*m,cn1)->Pool(km*m,cn2)->Pool(km*m,cn3)->Pool3Map->Pool(km*m,cn4)->Upsample(X1)->Upsample1Map∑Pool3Map->Upsample(X2)
->Output(Num_class*H*W);
其中,Input_images表示输入图像;C表示输入信息的维度,由彩色图像3个通道R,G,B,以及深度信息一个通道D构成;H为虚拟相机采集到的图像的高;W为虚拟相机采集到的图像的宽;Pool(km*m,cn1)表示卷积核大小为m*m,输出通道为n的池化层;PooliMap表示经过第i次池化层得到的特征图;Upsample(X)表示上采样,对用以池化后的特征图进行上采样,以确保网络最终得到的特征图和输入图片尺度大小一致,X为经过上采样运算后特征图放大的倍数,经过第j次上采样得到的特征图为UpsamplejMap;Upsample(X)表示对特征图进行装置卷积,装置卷积后特征图的大小将为输入特征图的X倍;Output表示输出。
如图2所示,以网格的形式代表特征图,行、列的小网格数可代表特征图的宽和长,经过池化层后特征图的长宽变小,经过上采样层后特征图的长宽变大,并最终和输入图像大小一致。
S3.2、向语义分割网络输入图片I,得到的输出的第一个维度为Num_class,代表需要分割的种类,分别为人体肢干、机械臂和背景;第二个维度为输入原图片的宽度W;第三个维度为输入原图片的高度H;
S3.3、对于步骤S3.2中得到的输出,将每个通道同一位置的像素点的值组成向量,经过sofmax函数处理,选取概率值最大的像素点的值为代表,将特征图由C*H*W转化为H*W;损失函数L由下列式子构成:
Figure BDA0002291827700000071
其中,Xij表示网络输出特征图位置为(i,j)的像素值,yij表示标签位置为(i,j)的像素值。
S4、约束机械臂运动轨迹,构建奖励制度,结合Sarsa-lamda算法构建强化学习模型,对机械臂进行避障训练;包括以下步骤:
S4.1、将整个空间分成有限个状态点,制定机械臂的动作集A,离散化机械臂的运动轨迹;具体包括以下步骤:
S4.1.1、以机械臂腕关节末端为基坐标点,建立球坐标系(r,θ,φ);
S4.1.2、约束距离r:量化距离r、俯仰角θ、方位角φ,机械臂下一次运动可选择动作的数量将变得有限个;约束满足距离r为常量,俯仰角θ、方位角φ分别选取0、π/4、π/2、3π/4进行组合,将整个空间分成有限个状态点,状态点之间可以经过有限的动作选取序列后完成转换;
S4.1.3、将步骤S4.1.2中所述的有限个状态点穷举,记当前基坐标点到各个可选择点构成的向量集合为动作集A。
S4.2、制定机械臂的状态集S:穷举步骤S1中得到的有限个状态点,记录为状态集S;
S4.3、制定奖励制度:当机械臂在状态st下采用动作at到达状态st+1时,奖励Rt+1与机械臂和人体躯干距离L满足以下公式:
Figure BDA0002291827700000081
其中,α为比例系数,β为底数,Lmin为距离阈值,当距离L不大于该阈值时,设置额外的罚函数umax,并赋值给Rt+1
S4.4、采用Sarsa-lamda算法对机械臂的避障进行训练,完成强化学习模型的构建;具体包括以下步骤:
S4.4.1、创建Watkins论文Learning from Delayed Reward提出的Q(s,a)函数并随机初始化;
S4.4.2、对于所有的s和a,初始化E(s,a),s∈S,a∈A;根据机器人目前位置初始化状态S和动作A;
S4.4.3、在状态S采取动作A,到达状态S’,根据机械臂与人体肢干距离L得到奖励Rt+1;设置贪婪概率系数ε,表示有ε的概率在状态S下采用贪婪算法选取奖励值最大的动作A’,有1-ε的概率随机选取动作;依次执行以下流程:
δ=R+γ*Q(S',A')-Q(S,A)
E(S,A)=E(S,A)+1
Q(s,a)=Q(s,a)+α*δ*E(s,a) for all s∈S,a∈A
E(s,a)=γ*λ*E(s,a) forall s∈S,a∈A
其中,γ是衰减因子,表示Q(S’,A’)对Q(S,A)影响的衰减程度;λ的取值为0~1;更新状态S和动作A,若状态S到达终点,则结束一个回合的算法,回到步骤S4.4.2开始下一回合算法;若状态S显示未到达终点,则跳至步骤S4.4.3;
S4.4.4、算法经过多个回合迭代后,在空间有解的情况下,生成一条可行的新路径。
S5、将语义分割模型和强化学习模型迁移到ur3机械臂和kinect构成系统上;语义分割模型用以识别分割工作空间中出现的机器人,人体肢干,计算出机器人与人体肢干之间的距离L,判断是否可能发生碰撞,并根据步骤S4.3中函数式得到奖励R;利用步骤S4.4所述的强化学习模型,结合奖励R,当机器人发生碰撞时,重新规划机器人路径,达到避碰效果。
本发明的实施方式并不受上述实施例的限制,其他任何未背离发明精神实质与原理下所做的改变,修饰,替代,组合,简化均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种基于虚拟场景训练的机器人避障方法,其特征在于,包括以下步骤:
S1、获取机器臂虚拟模型,在gazebo中搭建虚拟操作平台;具体包括以下步骤:
S1.1、获取现实环境中的实验平台、人体肢干、机械臂的大小与形状,在虚拟环境中一比一构建虚拟模型;
S1.2、将步骤S1.1构建的虚拟模型在gazebo虚拟环境中进行拼接,构建与现实环境相同的虚拟操作平台;
S2、基于S1构建的虚拟环境,采用域随机化算法,获取数据集;包括以下步骤:
S2.1、在步骤S1得到的虚拟环境中,进行随机化;采用域随机化算法进行以下的随机化:
S2.1.1、随机化摄像机镜头的俯仰角、方位角和偏移参数;
S2.1.2、随机化灯光的数量,强度;
S2.1.3、随机化深度信息的噪声;
S2.1.4、随机化人体肢干部,桌面,机器人的颜色;
S2.2、获取虚拟环境中摄像机镜头采集的RGB图片和深度信息;
S2.3、获取虚拟环境中人体肢体,机械臂,背景的掩模;
S2.4、将步骤S2.2中获取的RGB图片和深度信息作为数据,将步骤S2.3中获取的掩模作为标签,制作数据集;
S3、构建语义分割网络,采用步骤S2中获取的数据集对语义分割网络进行训练,得到用以分割机械臂,人体肢干,背景的语义分割模型;
S4、约束机械臂运动轨迹,构建奖励制度,结合Sarsa-lamda算法构建强化学习模型,对机械臂进行避障训练;
S5、将语义分割模型和强化学习模型迁移到ur3机械臂和kinect构成系统上。
2.根据权利要求1所述的一种基于虚拟场景训练的机器人避障方法,其特征在于,
步骤S3中,语义分割网络采用图像分割(FCNs)技术,语义分割网络的构建包括以下步骤:
S3.1、采用图像分割技术,并对语义分割网络其中部分网络结构做了改变,删除最后一层池化层;
S3.2、向语义分割网络输入图片I,得到的输出的第一个维度为Num_class,代表需要分割的种类,分别为人体肢干、机械臂和背景;第二个维度为输入原图片的宽度W;第三个维度为输入原图片的高度H;
S3.3、对于步骤S3.2中得到的输出,将每个通道同一位置的像素点的值组成向量,经过
Figure QLYQS_1
函数处理,选取概率值最大的像素点的值为代表,将特征图由
C*H*W转化为H*W;损失函数L由下列式子构成:
Figure QLYQS_2
其中,Xij表示网络输出特征图位置为(i,j)的像素值,yij表示标签位置为(i,j)的像素值。
3.根据权利要求1所述的一种基于虚拟场景训练的机器人避障方法,其特征在于,步骤S3.1中,改进后的语义分割网络的结构如下:
Input_images(C*H*W)
->Pool(km*m,cn1)->Pool(km*m,cn2)->Pool(km*m,cn3)->Pool3Map->Pool(km*m,cn4)
->Upsample(X1)->Upsample1Map∑Pool3Map->Upsample(X2)
->Output(Num_class*H*W);
其中,Input_images表示输入图像;C表示输入信息的维度,由彩色图像3个通道R,G,B,以及深度信息一个通道D构成;H为虚拟相机采集到的图像的高;W为虚拟相机采集到的图像的宽;Pool(km*m,cn1)表示卷积核大小为m*m,输出通道为n的池化层;PooliMap表示经过第i次池化层得到的特征图;Upsample(X)表示上采样,对用以池化后的特征图进行上采样,以确保网络最终得到的特征图和输入图片尺度大小一致,X为经过上采样运算后特征图放大的倍数,经过第j次上采样得到的特征图为UpsamplejMap;Upsample(X)表示对特征图进行装置卷积,装置卷积后特征图的大小将为输入特征图的X倍;Output表示输出。
4.根据权利要求1所述的一种基于虚拟场景训练的机器人避障方法,其特征在于,步骤S4包括以下步骤:
S4.1、将整个空间分成有限个状态点,制定机械臂的动作集A,离散化机械臂的运动轨迹;
S4.2、制定机械臂的状态集S:穷举步骤S1中得到的有限个状态点,记录为状态集S;
S4.3、制定奖励制度:当机械臂在状态st下采用动作at到达状态st+1时,奖励Rt+1与机械臂和人体躯干距离L满足以下公式:
Figure QLYQS_3
其中,α为比例系数,β为底数,Lmin为距离阈值,当距离L不大于该阈值时,设置额外的罚函数umax,并赋值给Rt+1
S4.4、采用Sarsa-lamda算法对机械臂的避障进行训练,完成强化学习模型的构建。
5.根据权利要求4所述的一种基于虚拟场景训练的机器人避障方法,其特征在于,步骤S4.1具体包括以下步骤:
S4.1.1、以机械臂腕关节末端为基坐标点,建立球坐标系(r,θ,φ);
S4.1.2、约束距离r:量化距离r、俯仰角θ、方位角φ,机械臂下一次运动可选择动作的数量将变得有限个;约束满足距离r为常量,俯仰角θ、方位角φ分别选取0、π/4、π/2、3π/4进行组合,将整个空间分成有限个状态点,状态点之间可以经过有限的动作选取序列后完成转换;
S4.1.3、将步骤S4.1.2中所述的有限个状态点穷举,记当前基坐标点到各个可选择点构成的向量集合为动作集A。
6.根据权利要求5所述的一种基于虚拟场景训练的机器人避障方法,其特征在于,步骤S4.4具体包括以下步骤:
S4.4.1、创建Q(s,a)函数并随机初始化;
S4.4.2、对于所有的s和a,初始化E(s,a),s∈S,a∈A;根据机器人目前位置初始化状态S和动作A;
S4.4.3、在状态S采取动作A,到达状态S’,根据机械臂与人体肢干距离L得到奖励Rt+1;设置贪婪概率系数ε,表示有ε的概率在状态S下采用贪婪算法选取奖励值最大的动作A’,有1-ε的概率随机选取动作;依次执行以下流程:
δ=R+γ*Q(S',A')-Q(S,A)
E(S,A)=E(S,A)+1
Q(s,a)=Q(s,a)+α*δ*E(s,a) for all s∈S,a∈A
E(s,a)=γ*λ*E(s,a) for all s∈S,a∈A
其中,γ是衰减因子,表示Q(S’,A’)对Q(S,A)影响的衰减程度;λ的取值为0~1;更新状态S和动作A,若状态S到达终点,则结束一个回合的算法,回到步骤S4.4.2开始下一回合算法;若状态S显示未到达终点,则跳至步骤S4.4.3;
S4.4.4、算法经过多个回合迭代后,在空间有解的情况下,生成一条可行的新路径。
7.根据权利要求1所述的一种基于虚拟场景训练的机器人避障方法,其特征在于,步骤S5中,语义分割模型用以识别分割工作空间中出现的机器人,人体肢干,计算出机器人与人体肢干之间的距离L,判断是否可能发生碰撞,并根据步骤S4.3中函数式得到奖励R;利用步骤S4.4的强化学习模型,结合奖励R,当机器人发生碰撞时,重新规划机器人路径,达到避碰效果。
CN201911183320.4A 2019-11-27 2019-11-27 一种基于虚拟场景训练的机器人避障方法 Active CN110977966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911183320.4A CN110977966B (zh) 2019-11-27 2019-11-27 一种基于虚拟场景训练的机器人避障方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911183320.4A CN110977966B (zh) 2019-11-27 2019-11-27 一种基于虚拟场景训练的机器人避障方法

Publications (2)

Publication Number Publication Date
CN110977966A CN110977966A (zh) 2020-04-10
CN110977966B true CN110977966B (zh) 2023-06-20

Family

ID=70087434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911183320.4A Active CN110977966B (zh) 2019-11-27 2019-11-27 一种基于虚拟场景训练的机器人避障方法

Country Status (1)

Country Link
CN (1) CN110977966B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528552A (zh) * 2020-10-23 2021-03-19 洛阳银杏科技有限公司 一种基于深度强化学习的机械臂控制模型构建方法
CN112248010B (zh) * 2020-10-27 2021-06-25 北京晶品特装科技股份有限公司 便携式侦察机器人操控模拟装置
CN112440281A (zh) * 2020-11-16 2021-03-05 浙江大学 一种基于数字孪生的机器人轨迹规划方法
CN117078923A (zh) * 2023-07-19 2023-11-17 苏州大学 面向自动驾驶环境的语义分割自动化方法、系统及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484522A (zh) * 2014-12-11 2015-04-01 西南科技大学 一种基于现实场景的机器人模拟演练系统的构建方法
DE102019202090A1 (de) * 2018-03-14 2019-09-19 Robert Bosch Gmbh Verfahren zum Erzeugen eines Trainingsdatensatzes zum Trainieren eines Künstlichen-Intelligenz-Moduls für eine Steuervorrichtung eines Roboters
CN110450153A (zh) * 2019-07-08 2019-11-15 清华大学 一种基于深度强化学习的机械臂物品主动拾取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3537867B1 (en) * 2016-11-08 2023-08-02 Dogtooth Technologies Limited A robotic fruit picking system
US11345030B2 (en) * 2019-05-28 2022-05-31 Intel Corporation Methods and apparatus for complex assembly via autonomous robots using reinforcement learning action primitives

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484522A (zh) * 2014-12-11 2015-04-01 西南科技大学 一种基于现实场景的机器人模拟演练系统的构建方法
DE102019202090A1 (de) * 2018-03-14 2019-09-19 Robert Bosch Gmbh Verfahren zum Erzeugen eines Trainingsdatensatzes zum Trainieren eines Künstlichen-Intelligenz-Moduls für eine Steuervorrichtung eines Roboters
CN110450153A (zh) * 2019-07-08 2019-11-15 清华大学 一种基于深度强化学习的机械臂物品主动拾取方法

Also Published As

Publication number Publication date
CN110977966A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110977966B (zh) 一种基于虚拟场景训练的机器人避障方法
CN111587408B (zh) 机器人导航和对象跟踪
KR101980603B1 (ko) 오브젝트(들)를 캡처하는 이미지(들)에 기초하는 그리고 환경에서의 미래 로봇 움직임에 대한 파라미터(들)에 기초하여 로봇 환경에서의 오브젝트(들)의 모션(들)을 예측하는 것과 관련된 머신 학습 방법들 및 장치
JP7048225B2 (ja) 建物領域抽出用の学習済みモデル
CN110363816B (zh) 一种基于深度学习的移动机器人环境语义建图方法
Balaji et al. Deepracer: Autonomous racing platform for experimentation with sim2real reinforcement learning
Liu et al. A digital twin-based sim-to-real transfer for deep reinforcement learning-enabled industrial robot grasping
JP7178396B2 (ja) 入力映像に含まれた客体の3次元ポーズの推定のためのデータを生成する方法およびコンピュータシステム
KR20220024517A (ko) 2차원 이미지들로부터의 3차원의 장면 재구성
CN114663502A (zh) 物体姿态估计、图像处理方法及相关设备
JP6901803B2 (ja) フォールトトレランス及びフラクチュエーションロバスト性のための複数のニューラルネットワークを使用して揺れるカメラにより生成されたビデオからジッタリングを取り除くための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置
JP2022547288A (ja) 画像処理を使用したシーン表示
JP2011179909A (ja) 位置姿勢計測装置、位置姿勢計測方法、プログラム
CN111489394A (zh) 物体姿态估计模型训练方法、系统、装置及介质
CN110260866A (zh) 一种基于视觉传感器的机器人定位与避障方法
KR20210047258A (ko) 로보트 제어장치, 및 그 제어 방법 및 프로그램
CN111667535A (zh) 一种针对遮挡场景下的六自由度位姿估计方法
CN115578460B (zh) 基于多模态特征提取与稠密预测的机器人抓取方法与系统
CN114387462A (zh) 一种基于双目相机的动态环境感知方法
Liu et al. Sim-and-real reinforcement learning for manipulation: A consensus-based approach
KR101844278B1 (ko) 관절식 객체의 자세를 추정하기 위한 파라미터 학습 방법 및 관절식 객체의 자세 추정 방법
Chappellet et al. Humanoid loco-manipulations using combined fast dense 3d tracking and slam with wide-angle depth-images
US11554496B2 (en) Feature detection by deep learning and vector field estimation
López et al. Attracted by light: vision-based steering virtual characters among dark and light obstacles
KR20190088093A (ko) 로봇을 위한 학습 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant