CN115990875A - 一种基于隐空间插值的柔性线缆状态预测与控制系统 - Google Patents
一种基于隐空间插值的柔性线缆状态预测与控制系统 Download PDFInfo
- Publication number
- CN115990875A CN115990875A CN202211402664.1A CN202211402664A CN115990875A CN 115990875 A CN115990875 A CN 115990875A CN 202211402664 A CN202211402664 A CN 202211402664A CN 115990875 A CN115990875 A CN 115990875A
- Authority
- CN
- China
- Prior art keywords
- cable state
- cable
- robot
- current
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009471 action Effects 0.000 claims abstract description 116
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000007781 pre-processing Methods 0.000 claims abstract description 29
- 230000008569 process Effects 0.000 claims abstract description 20
- 238000005520 cutting process Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 31
- 238000006073 displacement reaction Methods 0.000 claims description 29
- 238000012360 testing method Methods 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 11
- 238000012512 characterization method Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 230000006399 behavior Effects 0.000 abstract description 30
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000002787 reinforcement Effects 0.000 description 11
- 239000003795 chemical substances by application Substances 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000010367 cloning Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 108010052322 limitin Proteins 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种基于隐空间插值的柔性线缆状态预测与控制系统,包括:轨迹数据集采集模块,用于采集机器人操控柔性线缆过程的原始轨迹序列,包括每个时刻的线缆状态原始图像及机器人动作;状态图像预处理模块,用于对线缆状态原始图像进行裁剪、提取、膨胀等预处理,得到线缆状态图像;下一时刻线缆状态预测模块,利用变分自编码器学习线缆状态图像的隐空间,基于隐空间插值的方法生成下一时刻线缆状态图像;行为策略模块,根据当前时刻线缆状态图像及下一时刻线缆状态图像生成当前时刻机器人动作。本发明有利于机器人在真实场景中利用随机生成的轨迹数据进行柔性线缆控制技能的学习。
Description
技术领域
本发明涉及机器人装配的技术领域,尤其是指一种基于隐空间插值的柔性线缆状态预测与控制系统。
背景技术
在机器人市场规模不断扩大的背景下,智能机器人的应用前景广泛。工业机器人在自动化装配中承担着重要的角色。装配作为自动化生产制造的最后一个环节,目前已实现自动化或半自动化。目前自动化装配中涉及的物体一般为刚性物体。刚性物体在受控过程中不易产生形变,因此,在操控任务中一般只考虑其位姿状态,在仿真环境中容易对其进行建模。柔性线缆是具有非线性特性的柔性物体,在各电气系统间起着传递电力与信号的作用,其本身具有结构复杂、规格繁多、多品种、小批量、制造过程自动化程度低等特点。柔性线缆具有明显的非线性特征,在环境中与刚性体力学特征不同。通常在非线性因素较弱的系统中,可以对柔性线缆进行简化甚至忽略,然而,在追求高稳定和高可靠性的设备中,这种处理方式可能会引起较大的误差。目前线缆建模的常用方法有:基于质点弹簧模型的方法、基于弹性细杆力学模型的方法、有限元模型的方法等,但存在建模精度低或计算量大等缺点,因此建立柔性线缆的仿真环境较为困难。
传统的机器人装配技能学习主要采用示教器编程、离线编程等,这样学习到的技能单一,适用范围小,只能够完成预设好的特定任务,而且不能够与外界环境进行交互,不具备理解环境的能力和学习技能的能力。如果在装配任务中外部环境发生了变化,机器人的操作并不能做出相应的改变来完成新的任务,需要重新更改预设程序,导致程序的可复用性差。具备学习能力的智能机器人,通常称为“智能体”。在复杂可变的环境中,强化学习、模仿学习已经成为智能体学习技能的通用方法。强化学习方法一般可以分为在线强化学习、离线强化学习。在线强化学习需要智能体能与真实的环境进行互动并通过获取更高的奖励更新智能体的行为策略,在真实场景的操纵任务中进行探索可能会产生危险的行为,而在仿真环境中学习到的技能又难以迁移到真实场景中;离线强化学习需要大量智能体与环境互动的轨迹数据,智能体从轨迹数据中学习行为策略,但容易受到轨迹数据与真实环境分布差异的影响,对数据集质量要求高。模仿学习从专家的轨迹数据中学习,但不涉及奖励函数,通常可分为行为克隆和逆强化学习。行为克隆通过监督学习的方法学习直接学习专家技能,这种方法效率高,但存在误差累积、泛化性差等缺点;逆强化学习则先学习奖励函数,并使用学习到的奖励函数指导行为策略的学习,其泛化能力较强,但在训练过程中其效果难以收敛到最佳。
综上所述,若智能体在真实场景中通过在线强化学习获取操纵技能,在进行动作探索的过程中容易产生危险的行为,例如机械臂的碰撞等;而离线强化学习及模仿学习需要大量机器人较优轨迹数据或专家操纵机器人的演示数据,人为采集较优的轨迹数据或专家演示数据需要大量的时间成本;并且,同时操纵两个及以上的机械臂会给操纵者带来很大程度上的认知困难,所以当前难以获取多机械臂的专家示范数据。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于隐空间插值的柔性线缆状态预测与控制系统,该系统能够自动采集机器人执行随机动作的轨迹序列,克服了传统示教学习中需要采集专家示范数据的困难;基于变分自编码器,学习轨迹序列中线缆状态图像的隐空间,通过在隐空间进行插值来获得当前线缆状态和目标线缆状态之间的中间状态,作为下时刻的目标,避免了传统强化学习中轨迹的偏离;基于行为克隆的思想,通过监督学习对轨迹序列中的状态转移进行建模,得到行为策略模型;通过下时刻目标预测与行为策略模型,该系统提高了动作执行的效率和行为策略的泛化能力。
为实现上述目的,本发明所提供的技术方案为:一种基于隐空间插值的柔性线缆状态预测与控制系统,包括:
轨迹数据集采集模块,用于生成机器人动作,并记录机器人动作及执行动作前后的线缆状态原始图像,进而得到机器人操控柔性线缆过程的原始轨迹序列,包括每个时刻的线缆状态原始图像及机器人动作;
状态图像预处理模块,用于对线缆状态原始图像进行预处理,得到线缆状态图像;
下一时刻线缆状态预测模块,利用变分自编码器学习线缆状态图像的隐空间,通过Wasserstein距离对隐空间进行约束,基于隐空间插值的方法生成下一时刻线缆状态图像,并通过计算Wasserstein距离选取下一时刻线缆状态图像;
行为策略模块,利用卷积神经网络学习相邻时刻线缆状态图像间执行的机器人动作,根据当前时刻线缆状态图像及下一时刻线缆状态图像生成当前时刻机器人动作。
进一步,所述轨迹数据集采集模块包括动作生成子模块和轨迹记录子模块,具体情况如下:
在所述动作生成子模块中,随机生成机器人动作的运动方向数组,运动方向数组的长度为机器人动作的维度,数组中每个值的取值为-1或1,分别表示沿正方向或反方向;随机生成机器人动作的幅度数组,幅度数组的长度为机器人动作的维度,数组中每个值为非负数;将运动方向数组和幅度数组的每个索引值对应相乘,得到机器人动作;
所述动作生成子模块在采集原始轨迹序列的过程中,使用总相对位移数组记录机器人的机械臂相对初始位置的总相对位移,使用总相对位移阈值对总相对位移数组中每个值的上、下限进行约束;在时间步T=0时刻,将总相对位移数组初始化为0,然后,随机生成机器人动作的运动方向数组及幅度数组,将运动方向数组和幅度数组的每个索引值对应相乘,得到机器人动作;在每个时刻,若总相对位移数组与机器人动作对应索引值之和均在总相对位移阈值的范围内,视为动作有效,机器人执行该动作,更新时间步T,更新总相对位移数组,更新机器人动作幅度数组,使用上时刻的动作方向数组及更新后的幅度数组对应索引值相乘,得到新时刻的机器人动作;否则,视为该动作无效,同时更新动作方向数组及幅度数组,将其对应索引值相乘来重新选取机器人动作,直至生成的机器人动作有效;
所述轨迹记录子模块记录在采集原始轨迹序列的过程中,将每个时刻摄像头拍摄的线缆状态原始图像保存为jpg格式,将所述动作生成子模块生成的每个时刻机器人动作写入文件中,得到机器人在操控柔性线缆过程中的原始轨迹序列。
进一步,所述状态图像预处理模块具体执行以下操作:
裁剪:根据柔性线缆在线缆状态原始图像中的位置,将线缆状态原始图像进行裁剪;
提取:基于线缆及背景的颜色特征,过滤图像中的背景信息得到线缆状态掩码图像;
膨胀:使用大小为h×h的窗口进行图像膨胀,两个h分别代表窗口的像素高度及宽度,得到的结果即为线缆状态图像。
进一步,所述下一时刻线缆状态预测模块为变分自编码器结构,包含编码器和解码器,具体情况如下:
所述编码器和解码器均由4个卷积块、2个残差卷积块及1个全连接层构成;所述卷积块由2个卷积核大小为3×3的卷积层、2个BatchNorm层和2个LeakyReLU激活层构成;所述残差卷积块在卷积块的基础上增加了一个残差分支;
在所述下一时刻线缆状态预测模块的训练阶段,在轨迹数据集采集模块得到的原始轨迹序列基础上,使用状态图像预处理模块处理原始轨迹序列中的线缆状态原始图像,将处理后的轨迹序列记为τ={s0,a0,s1,a1,s2,a2,…,st,at,st+1},其中st为时间步T=t时刻的线缆状态图像,at为时间步T=t时刻执行的机器人动作,st+1为时间步T=t+1时刻的线缆状态图像;在所述下一时刻线缆状态预测模块的训练阶段,将轨迹序列τ中的所有线缆状态图像视为下一时刻线缆状态预测模块的训练集,从中随机取出线缆状态图像s,将其分辨率缩放至128×128并输入到编码器中,经4个卷积块、2个残差卷积块以及1个全连接层,得到均值向量μ及标准差向量σ,然后,服从高斯分布N(μ,σ)采样得到线缆状态图像在隐空间的低维表征z;所述解码器输入低维表征z,经1个全连接层、2个残差卷积块及4个卷积块,得到重建的线缆状态图像所述下一时刻线缆状态预测模块的损失函数表示如下:
其中,DKL(N(μ,σ)||N(0,1))表示分布N(μ,σ)与分布N(0,1)的KL散度;
在所述下一时刻线缆状态预测模块的训练阶段,每遍历一遍训练集视为训练的一轮,保留每一轮的模型权重文件用于测试阶段;
在所述下一时刻线缆状态预测模块的测试阶段,对于每一轮的模型权重,加载到模型中,接着,取轨迹序列τ中的任意两个线缆状态图像,分别视其为当前时刻线缆状态图像scurrent及目标线缆状态图像sgoal,分别输入到编码器中得到隐空间的均值向量μcurrent、μgoal和标准差向量σcurrent、σgoal,然后基于均值向量和标准差向量采样得到隐空间的低维表征zcurrent、zgoal,根据以下公式,对zcurrent、zgoal进行线性插值,得到N个均匀插值后的隐空间低维表征zi:
式中,zi为第i个隐空间插值的低维表征;隐空间低维表征集合{zi}={zi|i=1,2,...,N},已知量为N、zcurrent和zgoal;
在所述下一时刻线缆状态预测模块的测试阶段,对于隐空间低维表征集合{zi},输入到解码器中得到图像集合{si}={si|i=1,2,...,N},计算状态scurrent与sgoal、scurrent与{si}、sgoal与{si}的Wasserstein距离dcg、{dci}={dci|i=1,2,...,N}、{dgi}={dgi|i=1,2,...,N};当满足以下条件:随着i的增大,dci从0逐渐增大并收敛至dcg、dgi从dcg逐渐减小并收敛至0时,视为变分自编码器的模型权重得到的隐空间满足约束,选取此轮模型权重作为所述下一时刻线缆状态预测模块的最佳模型权重。
进一步,测试后的下一时刻线缆状态预测模块,针对状态图像预处理模块得到的当前时刻线缆状态图像scurrent及目标线缆状态图像sgoal,输入到编码器中得到隐空间的均值向量μcurrent、μgoal和标准差向量σcurrent、σgoal,然后基于均值向量和标准差向量采样得到隐空间的低维表征zcurrent、zgoal,根据以下公式,对zcurrent、zgoal进行随机线性插值得到隐空间的低维表征zm:
zm=αzcurrent+(1-α)zgoal
式中,α为(0,1)区间上的随机值;zcurrent、zgoal为已知量;
将zm输入到解码器中得到线缆状态图像sm,计算scurrent与sgoal、sm与sgoal之间的Wasserstein距离dcg、dmg,引入εdistance进行约束:当dcg<εdistance时,将sgoal作为下一时刻线缆状态snext,即snext=sgoal;否则,当dcg-dmg>εdistance时,视为sm有效,将sm作为下一时刻线缆状态snext,即snext=sm;若以上条件均不满足,更新α的值,重新计算zm并输入到所述解码器中得到线缆状态图像sm,直至满足dcg-dmg>εdistance或zm的计算次数达到上限
进一步,所述行为策略模块由1个卷积核大小7×7的卷积块、3个卷积核大小为3×3的卷积块、1个自适应平均池化层及1个全连接层构成,其中,第2和第3、第3和第4、第4和第5个卷积块之间各有一个最大池化层;所述卷积块由1个卷积层、1个BatchNorm层和1个ReLU激活层组成;所述最大池化层的池化窗口大小为2×2,边缘填充大小为1;
在所述行为策略模块的训练阶段,在轨迹数据集采集模块得到的原始轨迹序列基础上,使用状态图像预处理模块处理原始轨迹序列中的线缆状态原始图像,将处理后的轨迹序列记为τ={s0,a0,s1,a1,s2,a2,…,st,at,st+1},其中st为时间步T=t时刻的线缆状态图像,at为时间步T=t时刻执行的机器人动作,st+1为时间步T=t+1时刻的线缆状态图像;在所述行为策略模块的训练阶段,在轨迹序列τ={s0,a0,s1,a1,s2,a2,…,st,at,st+1}中采样相邻线缆状态图像及之间的动作,得到元组(st,at,st+1),将时间步T=t时刻的线缆状态图像st及时间步T=t+1时刻的线缆状态图像st+1的分辨率缩放到224×224,拼接后输入到所述行为策略模块中,输出机器人动作所述行为策略模块的损失函数表示如下:
进一步,训练后的行为策略模块,将当前时刻线缆状态图像scurrent和下一时刻线缆状态图像snext缩至224×224并进行拼接,输入到所述行为策略模块中,输出当前时刻机器人动作acurrent;执行机器人动作acurrent后,使用所述状态图像预处理模块处理摄像头读取的线缆状态原始图像,得到更新后的当前线缆状态图像scurrent’;计算acurrent的欧几里得度量值ρa,当ρa小于动作幅度阈值P时,认为已经达到目标线缆状态图像sgoal,任务停止;否则,通过下一时刻线缆状态预测模块更新下一时刻线缆状态图像snext’,由行为策略模块输出机器人动作acurrent’,直到满足任务停止条件。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明在真实环境中机器人执行的随机动作轨迹上学习智能体行为策略,减少了收集专家示范轨迹、制作高质量示范数据集带来的成本。
2、本发明提出了针对柔性线缆状态图像预处理方法,预处理中裁剪、对背景的剔除减少了无关特征的学习,而膨胀步骤使得线缆的形状特征变得更为明显,能够快速提高隐空间学习的效率,而得到的隐空间也更为合理,为低维表征间的插值提供可用性。
3、本发明提出了一种柔性线缆状态隐空间合理性测试方案,重点关注在隐空间低维表征之间进行插值后生成的图像的合理性,而不仅仅关注隐空间低维表征的重建效果。
4、本发明利用变分自编码器学习线缆状态的隐空间,对下一时刻线缆状态进行约束,从而进一步对智能体执行的动作进行约束,避免智能体在动作空间过度探索,降低了由于真实环境与训练环境的分布误差导致的动作偏离的可能性,实现了动作执行的高效性。
5、本发明利用机器人在真实环境中的交互感知,通过神经网络捕获线缆受机器人操控前后的形变效果对机器人动作进行预测,降低了对线缆进行建模带来的额外误差。
6、本发明的各个模块化部分,可以更改网络的结构、机器人动作维度,可以与其它领域如实例分割、激光雷达探测相结合,有利于迁移到复杂的场景和应用中去。
附图说明
图1为本发明系统的训练阶段示意图。
图2为本发明系统的部署阶段示意图。
图3为状态图像预处理模块的流程图。
图4为状态图像预处理模块的结果示意图。
图5为下一时刻线缆状态预测模块的原理图。
图6为下一时刻线缆状态预测模块的结构图。
图7为下一时刻线缆状态预测模块的测试结果图。
图8为行为策略模块的结构图。
图9为行为策略模块的训练损失曲线图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本实施例公开了一种基于隐空间插值的柔性线缆状态预测与控制系统,采用ABBYuMi双臂机器人、分辨率为1920×1080的RGB摄像头、柔性线缆搭建应用场景,其包括以下功能模块:
轨迹数据集采集模块,用于生成机器人动作,并记录机器人动作及执行动作前后的线缆状态原始图像,进而得到机器人操控柔性线缆过程的原始轨迹序列,包括每个时刻的线缆状态原始图像及机器人动作;
状态图像预处理模块,用于对线缆状态原始图像进行预处理,得到线缆状态图像;
下一时刻线缆状态预测模块,利用变分自编码器学习线缆状态图像的隐空间,通过Wasserstein距离对隐空间进行约束,基于隐空间插值的方法生成下一时刻线缆状态图像,并通过计算Wasserstein距离选取下一时刻线缆状态图像;
行为策略模块,利用卷积神经网络学习相邻时刻线缆状态图像间执行的机器人动作,根据当前时刻线缆状态图像及下一时刻线缆状态图像生成当前时刻机器人动作。
本实例提及的机器人动作维度为4,分别表示机器人左臂在x轴的位移、左臂在y轴的位移、右臂在x轴上的位移、右臂在y轴上的位移,机器人动作取值范围为[-20,20],单位为毫米,取值大于0表示沿正方向移动,取值小于0表示沿反方向移动。
如图1和图2所示,所述轨迹数据集采集模块仅用于系统的训练阶段,负责采集机器人操控柔性线缆过程中的原始轨迹序列,轨迹序列中包括线缆状态原始图像及机器人动作,为实现上述功能,模块分为动作生成子模块及轨迹记录子模块。在所述动作生成子模块中,动作生成子模块中,随机生成机器人动作的运动方向数组,运动方向数组的长度为机器人动作的维度,数组中每个值的取值为-1或1,分别表示沿正方向或反方向;随机生成机器人动作的幅度数组,幅度数组的长度为机器人动作的维度,数组中每个值取值范围为[0,20];将运动方向数组和幅度数组的每个索引值对应相乘,得到机器人动作;
所述动作生成子模块在进行轨迹数据集采集的过程中,用总相对位移数组记录机械臂每个自由度相对初始位置移动距离及方向,并使用总相对位移阈值对总位移数组进行约束,本实例中,总相对位移阈值上限为[100,150,100,150],下限为[-50,-150,-50,-150]。在时间步T=0时刻,将总相对位移向量的4个维度初始化为0,然后,随机生成机器人动作的运动方向数组及幅度数组,将运动方向数组和幅度数组的每个索引值对应相乘,得到机器人动作;在每个时刻,若总相对位移数组与机器人动作对应索引值之和均在总相对位移阈值的范围内,视为动作有效,机器人执行该动作,更新时间步T,更新总相对位移数组,更新机器人动作幅度数组,使用上时刻的动作方向数组及更新后的幅度数组对应索引值相乘,得到新时刻的机器人动作;否则,视为该动作无效,同时更新动作方向数组及幅度数组,将其对应索引值相乘来重新选取机器人动作,直至生成的机器人动作有效;
所述轨迹记录子模块记录每个时刻摄像头拍摄的分辨率为1920×1080的线缆状态原始图像,保存为jpg文件格式中,将所述动作生成子模块生成的机器人动作写入至txt文件,得到机器人在操控柔性线缆过程中的原始轨迹序列,本实例共采集了3001张线缆状态原始图像及3000个机器人动作。
如图3和图4所示,所述状态图像预处理模块首先将分辨率为1920×1080的线缆状态原始图像裁剪为分辨率为270×270的图像,然后基于颜色特征过滤图像中的背景信息得到线缆状态掩码图像,最后使用大小为5×5的窗口进行图像膨胀,最终所得的线缆状态图像作为所述状态图像预处理模块的结果。
所述状态图像预处理模块处理原始轨迹序列中的线缆状态原始图像,将处理后的轨迹序列记为τ={s0,a0,s1,a1,s2,a2,…,st,at,st+1},其中st为时间步T=t时刻的线缆状态图像,at为时间步T=t时刻执行的机器人动作,st+1为时间步T=t+1时刻的线缆状态图像。
如图5所示,所述下一时刻线缆状态预测模块由编码器和解码器组成。如图6所示,所述编码器和解码器均由4个卷积块、2个残差卷积块及1个全连接层构成。所述卷积块由2个卷积核大小为3×3的卷积层、2个BatchNorm层和2个LeakyReLU激活层构成;所述残差卷积块在卷积块的基础上增加了一个残差分支。
在所述下一时刻线缆状态预测模块的训练阶段,将轨迹序列τ中的所有线缆状态图像{st}视为训练集,从训练集中随机采样线缆状态图像并缩放至128×128并输入到编码器中,经4个卷积块、2个残差卷积块以及1个全连接层,得到维度为32的均值向量μ及维度为32标准差向量σ,然后,服从高斯分布N(μ,σ)采样得到线缆状态图像在隐空间的低维表征z,其维度为32。所述解码器输入低维表征z,经1个全连接层、2个残差卷积块及4个卷积块,得到重建的线缆状态图像其分辨率为128×128。所述下一时刻线缆状态预测模块的损失函数表示如下:
其中,DKL(N(μ,σ)||N(0,1))表示分布N(μ,σ)与分布N(0,1)的KL散度;
在所述下一时刻线缆状态预测模块的训练阶段,每遍历一遍训练集视为训练的一轮,保留每一轮的模型权重文件用于测试阶段。本实例共保存了200轮模型权重的文件。
在所述下一时刻线缆状态预测模块的测试阶段,对于每一轮的模型权重,加载到模型中,接着,取轨迹序列τ中的任意两个线缆状态图像,分别视其为当前时刻线缆状态图像scurrent及目标线缆状态图像sgoal,分别输入到编码器中得到隐空间的均值向量μcurrent、μgoal和标准差向量σcurrent、σgoal,然后基于均值向量和标准差向量采样得到隐空间的低维表征zcurrent、zgoal,根据以下公式,对zcurrent、zgoal进行线性插值,得到N个均匀插值后的隐空间低维表征zi:
式中,zi为第i个隐空间插值的低维表征;隐空间低维表征集合{zi}={zi|i=1,2,…,N},在本实例中,取N值为100,如图7所示,在所述下一时刻线缆状态预测模块的测试阶段,对于隐空间低维表征集合{zi},输入到解码器中得到图像集合{si}={si|i=1,2,...,N},计算状态scurrent与sgoal、scurrent与{si}、sgoal与{si}的Wasserstein距离dcg、{dci}={dci|i=1,2,...,N}、{dgi}={dgi|i=1,2,...,N};当满足以下条件:随着i的增大,dci从0逐渐增大并收敛至dcg、dgi从dcg逐渐减小并收敛至0时,视为变分自编码器的模型权重得到的隐空间满足约束,选取此轮模型权重作为所述下一时刻线缆状态预测模块的最佳模型权重。经上述测试过程,本实例选取了第36轮训练的模型权重文件。
如图8所示,所述行为策略模块由1个卷积核大小7×7的卷积块、3个卷积核大小为3×3的卷积块、1个自适应平均池化层及1个全连接层构成,其中,第2和第3、第3和第4、第4和第5个卷积块之间各有一个最大池化层;所述卷积块由1个卷积层、1个BatchNorm层和1个ReLU激活层组成;所述最大池化层的池化窗口大小为2×2,边缘填充大小为1;网络的输入大小为2×224×224,输出大小为机器人动作维度为4。
在所述行为策略模块的训练阶段,在轨迹序列τ={s0,a0,s1,a1,s2,a2,…,st,at,st+1}中采样相邻线缆状态图像及其间的动作,即元组(st,at,st+1)。如图8所示,将时间步T=t时刻的线缆状态图像st及时间步T=t+1时刻的线缆状态图像的分辨率缩放到224×224,拼接后输入到行为策略模块中,输出维度为4的动作所述行为策略模块的损失函数公式如下,其损失曲线如图9所示:
如图1所示,在本系统的部署阶段,将状态图像预处理模块、经训练及测试的下一时刻线缆状态预测模块、训练后的行为策略模块进行整合,搭建柔性线缆状态预测与控制系统,完成柔性线缆控制任务。
在时间步T=0时刻,向系统输入目标线缆状态原始图像,通过状态图像预处理模块得到目标线缆状态图像sgoal。
在每个时刻,通过摄像头读取当前时刻线缆状态原始图像并输入到状态图像预处理模块中,得到当前时刻线缆状态图像scurrent。
测试后的下一时刻线缆状态预测模块,对于当前时刻线缆状态图像scurrent及目标线缆状态图像sgoal,首先将图像缩放至128×128,然后分别输入到编码器中得到嵌入空间的均值向量μcurrent、μgoal和标准差向量σcurrent、σgoal,然后基于均值向量和标准差向量采样得到隐空间的低维表征zcurrent、zgoal,根据以下公式,对zcurrent、zgoal进行随机线性插值得到隐空间的低维表征zm:
zm=αzcurrent+(1-α)zgoal
式中:α为(0,1)区间上的随机值。
将zm输入到解码器中得到预测的下一时刻线缆状态图像sm,计算scurrent与sgoal、sm与sgoal之间的Wasserstein距离dcg、dmg,引入εdistance进行约束:当dcg<εdistance时,将sgoal作为下一时刻线缆状态snext,即snext=sgoal;否则,当dcg-dmg>εdistance时,视为sm有效,将sm作为下一时刻线缆状态snext,即snext=sm;若以上条件均不满足,更新α的值,重新计算zm并输入到所述解码器中得到线缆状态图像sm,直至满足dcg-dmg>εdistance或zm的计算次数达到上限本实例中,εdistance=2,
训练后的行为策略模块,将当前时刻线缆状态图像scurrent和下一时刻线缆状态预测模块得到的snext缩放至224×224,将scurrent及snext拼接后输入到网络中,输出当前时刻机器人动作acurrent。机器人执行动作acurrent后,使用所述状态图像预处理模块更新当前线缆状态图像scurrent’。计算acurrent的欧几里得度量值ρa,当ρa小于动作幅度阈值P时,认为已经达到目标线缆状态,否则,通过下一时刻线缆状态预测模块更新下一时刻线缆状态图像snext’,由行为策略模块输出机器人动作,直到满足任务停止条件。本实例中,设定的动作幅度阈值P=4。
综上所述,本发明能够让智能体在随机生成的轨迹中学习柔性线缆的控制技能,避免在学习行为策略的过程中智能体直接在真实场景中与环境进行交互。在本发明中,通过预测下时刻的线缆状态来对智能体执行的动作进行约束,保证了动作执行的高效性及控制过程的稳定性。本发明具有广泛的研究和实际应用价值,值得推广。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (7)
1.一种基于隐空间插值的柔性线缆状态预测与控制系统,其特征在于,包括:
轨迹数据集采集模块,用于生成机器人动作,并记录机器人动作及执行动作前后的线缆状态原始图像,进而得到机器人操控柔性线缆过程的原始轨迹序列,包括每个时刻的线缆状态原始图像及机器人动作;
状态图像预处理模块,用于对线缆状态原始图像进行预处理,得到线缆状态图像;
下一时刻线缆状态预测模块,利用变分自编码器学习线缆状态图像的隐空间,通过Wasserstein距离对隐空间进行约束,基于隐空间插值的方法生成下一时刻线缆状态图像,并通过计算Wasserstein距离选取下一时刻线缆状态图像;
行为策略模块,利用卷积神经网络学习相邻时刻线缆状态图像间执行的机器人动作,根据当前时刻线缆状态图像及下一时刻线缆状态图像生成当前时刻机器人动作。
2.根据权利要求1所述的一种基于隐空间插值的柔性线缆状态预测与控制系统,其特征在于,所述轨迹数据集采集模块包括动作生成子模块和轨迹记录子模块,具体情况如下:
在所述动作生成子模块中,随机生成机器人动作的运动方向数组,运动方向数组的长度为机器人动作的维度,数组中每个值的取值为-1或1,分别表示沿正方向或反方向;随机生成机器人动作的幅度数组,幅度数组的长度为机器人动作的维度,数组中每个值为非负数;将运动方向数组和幅度数组的每个索引值对应相乘,得到机器人动作;
所述动作生成子模块在采集原始轨迹序列的过程中,使用总相对位移数组记录机器人的机械臂相对初始位置的总相对位移,使用总相对位移阈值对总相对位移数组中每个值的上、下限进行约束;在时间步T=0时刻,将总相对位移数组初始化为0,然后,随机生成机器人动作的运动方向数组及幅度数组,将运动方向数组和幅度数组的每个索引值对应相乘,得到机器人动作;在每个时刻,若总相对位移数组与机器人动作对应索引值之和均在总相对位移阈值的范围内,视为动作有效,机器人执行该动作,更新时间步T,更新总相对位移数组,更新机器人动作幅度数组,使用上时刻的动作方向数组及更新后的幅度数组对应索引值相乘,得到新时刻的机器人动作;否则,视为该动作无效,同时更新动作方向数组及幅度数组,将其对应索引值相乘来重新选取机器人动作,直至生成的机器人动作有效;
所述轨迹记录子模块记录在采集原始轨迹序列的过程中,将每个时刻摄像头拍摄的线缆状态原始图像保存为jpg格式,将所述动作生成子模块生成的每个时刻机器人动作写入文件中,得到机器人在操控柔性线缆过程中的原始轨迹序列。
3.根据权利要求1所述的一种基于隐空间插值的柔性线缆状态预测与控制系统,其特征在于,所述状态图像预处理模块具体执行以下操作:
裁剪:根据柔性线缆在线缆状态原始图像中的位置,将线缆状态原始图像进行裁剪;
提取:基于线缆及背景的颜色特征,过滤图像中的背景信息得到线缆状态掩码图像;
膨胀:使用大小为h×h的窗口进行图像膨胀,两个h分别代表窗口的像素高度及宽度,得到的结果即为线缆状态图像。
4.根据权利要求1所述的一种基于隐空间插值的柔性线缆状态预测与控制系统,其特征在于,所述下一时刻线缆状态预测模块为变分自编码器结构,包含编码器和解码器,具体情况如下:
所述编码器和解码器均由4个卷积块、2个残差卷积块及1个全连接层构成;所述卷积块由2个卷积核大小为3×3的卷积层、2个BatchNorm层和2个LeakyReLU激活层构成;所述残差卷积块在卷积块的基础上增加了一个残差分支;
在所述下一时刻线缆状态预测模块的训练阶段,在轨迹数据集采集模块得到的原始轨迹序列基础上,使用状态图像预处理模块处理原始轨迹序列中的线缆状态原始图像,将处理后的轨迹序列记为τ={s0,a0,s1,a1,s2,a2,…,st,at,st+1},其中st为时间步T=t时刻的线缆状态图像,at为时间步T=t时刻执行的机器人动作,st+1为时间步T=t+1时刻的线缆状态图像;在所述下一时刻线缆状态预测模块的训练阶段,将轨迹序列τ中的所有线缆状态图像视为下一时刻线缆状态预测模块的训练集,从中随机取出线缆状态图像s,将其分辨率缩放至128×128并输入到编码器中,经4个卷积块、2个残差卷积块以及1个全连接层,得到均值向量μ及标准差向量σ,然后,服从高斯分布N(μ,σ)采样得到线缆状态图像在隐空间的低维表征z;所述解码器输入低维表征z,经1个全连接层、2个残差卷积块及4个卷积块,得到重建的线缆状态图像所述下一时刻线缆状态预测模块的损失函数表示如下:
式中,DKL(N(μ,σ)||N(0,1))表示分布N(μ,σ)与分布N(0,1)的KL散度;
在所述下一时刻线缆状态预测模块的训练阶段,每遍历一遍训练集视为训练的一轮,保留每一轮的模型权重文件用于测试阶段;
在所述下一时刻线缆状态预测模块的测试阶段,对于每一轮的模型权重,加载到模型中,接着,取轨迹序列τ中的任意两个线缆状态图像,分别视其为当前时刻线缆状态图像scurrent及目标线缆状态图像sgoal,分别输入到编码器中得到隐空间的均值向量μcurrent、μgoal和标准差向量σcurrent、σgoal,然后基于均值向量和标准差向量采样得到隐空间的低维表征zcurrent、zgoal,根据以下公式,对zcurrent、zgoal进行线性插值,得到N个均匀插值后的隐空间低维表征zi:
式中,zi为第i个隐空间插值的低维表征;隐空间低维表征集合{zi}={zi|i=1,2,...,N},已知量为N、zcurrent和zgoal;
在所述下一时刻线缆状态预测模块的测试阶段,对于隐空间低维表征集合{zi},输入到解码器中得到图像集合{si}={si|i=1,2,...,N},计算状态scurrent与sgoal、scurrent与{si}、sgoal与{si}的Wasserstein距离dcg、{dci}={dci|i=1,2,...,N}、{dgi}={dgi|i=1,2,...,N};当满足以下条件:随着i的增大,dci从0逐渐增大并收敛至dcg、dgi从dcg逐渐减小并收敛至0时,视为变分自编码器的模型权重得到的隐空间满足约束,选取此轮模型权重作为所述下一时刻线缆状态预测模块的最佳模型权重。
5.根据权利要求4所述的一种基于隐空间插值的柔性线缆状态预测与控制系统,其特征在于,测试后的下一时刻线缆状态预测模块,针对状态图像预处理模块得到的当前时刻线缆状态图像scurrent及目标线缆状态图像sgoal,输入到编码器中得到隐空间的均值向量μcurrent、μgoal和标准差向量σcurrent、σgoal,然后基于均值向量和标准差向量采样得到隐空间的低维表征zcurrent、zgoal,根据以下公式,对zcurrent、zgoal进行随机线性插值得到隐空间的低维表征zm:
zm=αzcurrent+(1-α)zgoal
式中,α为(0,1)区间上的随机值;zcurrent、zgoal为已知量;
6.根据权利要求1所述的一种基于隐空间插值的柔性线缆状态预测与控制系统,其特征在于,所述行为策略模块由1个卷积核大小7×7的卷积块、3个卷积核大小为3×3的卷积块、1个自适应平均池化层及1个全连接层构成,其中,第2和第3、第3和第4、第4和第5个卷积块之间各有一个最大池化层;所述卷积块由1个卷积层、1个BatchNorm层和1个ReLU激活层组成;所述最大池化层的池化窗口大小为2×2,边缘填充大小为1;
在所述行为策略模块的训练阶段,在轨迹数据集采集模块得到的原始轨迹序列基础上,使用状态图像预处理模块处理原始轨迹序列中的线缆状态原始图像,将处理后的轨迹序列记为τ={s0,a0,s1,a1,s2,a2,…,st,at,st+1},其中st为时间步T=t时刻的线缆状态图像,at为时间步T=t时刻执行的机器人动作,st+1为时间步T=t+1时刻的线缆状态图像;在所述行为策略模块的训练阶段,在轨迹序列τ={s0,a0,s1,a1,s2,a2,…,st,at,st+1}中采样相邻线缆状态图像及之间的动作,得到元组(st,at,st+1),将时间步T=t时刻的线缆状态图像st及时间步T=t+1时刻的线缆状态图像st+1的分辨率缩放到224×224,拼接后输入到所述行为策略模块中,输出机器人动作所述行为策略模块的损失函数表示如下:
7.根据权利要求6所述的一种基于隐空间插值的柔性线缆状态预测与控制系统,其特征在于,训练后的行为策略模块,将当前时刻线缆状态图像scurrent和下一时刻线缆状态图像snext缩至224×224并进行拼接,输入到所述行为策略模块中,输出当前时刻机器人动作acurrent;执行机器人动作acurrent后,使用所述状态图像预处理模块处理摄像头读取的线缆状态原始图像,得到更新后的当前线缆状态图像scurrent’;计算acurrent的欧几里得度量值ρa,当ρa小于动作幅度阈值P时,认为已经达到目标线缆状态图像sgoal,任务停止;否则,通过下一时刻线缆状态预测模块更新下一时刻线缆状态图像snext’,由行为策略模块输出机器人动作acurrent’,直到满足任务停止条件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211402664.1A CN115990875B (zh) | 2022-11-10 | 2022-11-10 | 一种基于隐空间插值的柔性线缆状态预测与控制系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211402664.1A CN115990875B (zh) | 2022-11-10 | 2022-11-10 | 一种基于隐空间插值的柔性线缆状态预测与控制系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115990875A true CN115990875A (zh) | 2023-04-21 |
CN115990875B CN115990875B (zh) | 2024-05-07 |
Family
ID=85991014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211402664.1A Active CN115990875B (zh) | 2022-11-10 | 2022-11-10 | 一种基于隐空间插值的柔性线缆状态预测与控制系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115990875B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116587276A (zh) * | 2023-05-30 | 2023-08-15 | 同济大学 | 一种基于大模型的机器人线缆操作方法、装置及存储介质 |
CN117113722A (zh) * | 2023-09-20 | 2023-11-24 | 广东省水利水电第三工程局有限公司 | 一种大型混泥土模具吊装bim仿真方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110919668A (zh) * | 2019-12-05 | 2020-03-27 | 戴斐 | 智能语音控制管道及风管视频检测设备和机器人系统 |
CN111906765A (zh) * | 2020-07-31 | 2020-11-10 | 平安科技(深圳)有限公司 | 应用于路径规划的空间采样方法、装置、设备及介质 |
CN111950722A (zh) * | 2019-05-15 | 2020-11-17 | 天津科技大学 | 一种基于环境预测模型的强化学习方法 |
CN112541944A (zh) * | 2020-12-10 | 2021-03-23 | 山东师范大学 | 基于条件变分编码器的概率孪生目标跟踪方法及系统 |
WO2022105635A1 (zh) * | 2020-11-19 | 2022-05-27 | 广东省科学院智能制造研究所 | 一种机器人运动技能学习方法及系统 |
CN115212549A (zh) * | 2022-06-01 | 2022-10-21 | 中国人民解放军军事科学院战略评估咨询中心 | 一种对抗场景下的对手模型构建方法及存储介质 |
-
2022
- 2022-11-10 CN CN202211402664.1A patent/CN115990875B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220317699A1 (en) * | 2019-05-12 | 2022-10-06 | Advanlink Inc | Intelligent Voice Controlled Pipeline and Air Duct Video Inspection Robotic System |
CN111950722A (zh) * | 2019-05-15 | 2020-11-17 | 天津科技大学 | 一种基于环境预测模型的强化学习方法 |
CN110919668A (zh) * | 2019-12-05 | 2020-03-27 | 戴斐 | 智能语音控制管道及风管视频检测设备和机器人系统 |
CN111906765A (zh) * | 2020-07-31 | 2020-11-10 | 平安科技(深圳)有限公司 | 应用于路径规划的空间采样方法、装置、设备及介质 |
WO2022105635A1 (zh) * | 2020-11-19 | 2022-05-27 | 广东省科学院智能制造研究所 | 一种机器人运动技能学习方法及系统 |
CN112541944A (zh) * | 2020-12-10 | 2021-03-23 | 山东师范大学 | 基于条件变分编码器的概率孪生目标跟踪方法及系统 |
CN115212549A (zh) * | 2022-06-01 | 2022-10-21 | 中国人民解放军军事科学院战略评估咨询中心 | 一种对抗场景下的对手模型构建方法及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116587276A (zh) * | 2023-05-30 | 2023-08-15 | 同济大学 | 一种基于大模型的机器人线缆操作方法、装置及存储介质 |
CN117113722A (zh) * | 2023-09-20 | 2023-11-24 | 广东省水利水电第三工程局有限公司 | 一种大型混泥土模具吊装bim仿真方法及系统 |
CN117113722B (zh) * | 2023-09-20 | 2024-03-15 | 广东省水利水电第三工程局有限公司 | 一种大型混泥土模具吊装bim仿真方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115990875B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111515961B (zh) | 一种适用于移动机械臂的强化学习奖励方法 | |
CN115990875B (zh) | 一种基于隐空间插值的柔性线缆状态预测与控制系统 | |
CN111881772B (zh) | 基于深度强化学习的多机械臂协同装配方法和系统 | |
CN111983922A (zh) | 一种基于元模仿学习的机器人演示示教方法 | |
CN112819253A (zh) | 一种无人机避障和路径规划装置及方法 | |
CN110991027A (zh) | 一种基于虚拟场景训练的机器人模仿学习方法 | |
CN112605973B (zh) | 一种机器人运动技能学习方法及系统 | |
CN110111289B (zh) | 一种图像处理方法及装置 | |
WO2019086760A1 (en) | Generation of a control system for a target system | |
CN115990891A (zh) | 一种基于视觉示教和虚实迁移的机器人强化学习装配的方法 | |
CN115860107B (zh) | 一种基于多智能体深度强化学习的多机探寻方法及系统 | |
CN111625457A (zh) | 基于改进的dqn算法的虚拟自动驾驶测试优化方法 | |
CN114290339B (zh) | 基于强化学习和残差建模的机器人现实迁移方法 | |
CN105955921B (zh) | 基于自动发现抽象动作的机器人分层强化学习初始化方法 | |
CN117260730A (zh) | 一种人机物品交递意图预测方法 | |
CN116394264A (zh) | 基于群体编码脉冲神经网络的多机械臂协同运动规划方法 | |
CN116352700A (zh) | 基于随机网络预测误差的专家数据扩增方法和装置 | |
Xiao et al. | One-shot sim-to-real transfer policy for robotic assembly via reinforcement learning with visual demonstration | |
Nematollahi et al. | T3VIP: Transformation-based $3\mathrm {D} $ Video Prediction | |
Tian et al. | View-Invariant Policy Learning via Zero-Shot Novel View Synthesis | |
CN114518751B (zh) | 基于最小二乘截断时域差分学习的路径规划决策优化方法 | |
CN118393973B (zh) | 一种自动驾驶控制方法、装置、系统、设备及存储介质 | |
CN116989800B (zh) | 一种基于脉冲强化学习的移动机器人视觉导航决策方法 | |
Lötzsch et al. | Training a deep policy gradient-based neural network with asynchronous learners on a simulated robotic problem | |
CN113012291B (zh) | 基于机械手参数重建对象三维模型的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |