CN114660934A - 一种基于视觉-触觉融合的机械臂自主操作策略学习方法 - Google Patents
一种基于视觉-触觉融合的机械臂自主操作策略学习方法 Download PDFInfo
- Publication number
- CN114660934A CN114660934A CN202210201770.7A CN202210201770A CN114660934A CN 114660934 A CN114660934 A CN 114660934A CN 202210201770 A CN202210201770 A CN 202210201770A CN 114660934 A CN114660934 A CN 114660934A
- Authority
- CN
- China
- Prior art keywords
- information
- fusion
- theta
- tactile
- visual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000013486 operation strategy Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 32
- 230000000007 visual effect Effects 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 14
- 230000002787 reinforcement Effects 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 37
- 238000011156 evaluation Methods 0.000 claims description 15
- 230000009471 action Effects 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 11
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000007704 transition Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000008447 perception Effects 0.000 abstract description 8
- 238000013461 design Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种一种基于视觉‑触觉融合的机械臂自主操作策略学习方法,包括以下步骤:步骤1、对视觉信息、触觉信息和本体信息的融合编码模型进行构建;步骤2、对视觉信息、触觉信息和本体信息解码模型进行重构建,联合解码和编码过程进行训练,获得优化后的融合编码模型;步骤3、利用融合编码融合的表征作为状态向量,通过深度强化学习方法,训练机械臂生成自主操作策略。其解决了现有的视触融合感知辅助机器人操控中,视触觉信息的处理和利用依赖于对任务的理解和精确的模型进行明确设计,导致多模态信息之间的融合关系简单有限,并且一种操控方法所能解决的问题单一、泛性差的问题。
Description
技术领域
本发明属于机器人控制技术领域,具体涉及一种基于视觉-触觉融合的机械臂自主操作策略学习方法。
背景技术
机械臂作为一种应用广泛的机器人形态,在工业自动化、智能服务、空天探测等领域发挥着重要作用。如今,得益于传感器技术和计算机技术的迅速发展,机器人的感知单元与计算单元也快速升级,也为机械臂的感知、理解、操作能力提供了更大的潜力空间。
视觉和触觉信息的混合利用有助于提高信息丰富度,综合视觉和触觉信息的机械臂感知和辅助操作,主要分为两类,即协同控制和信息融合,并在机器自动材质识别、装配、机械臂抓取感知等领域发挥出良好的效用。
在机器人感知与应用领域,视触觉信息的融合方式从传统的特征处理转而进行视觉和触觉的深度神经网络编码方式,融合层级逐渐从决策级走向特征级别和更小粒度。借鉴人工智能领域对多模态数据,主要是在多媒体数据模态融合方面的研究,使用变分推理机制进行的多模态数据融合,能够为挖掘跨模态数据间的潜在联系和联合表征提供有效方法。
深度学习和强化学习的发展使得设计机器人行为建模对精确模型的依赖大大降低。强化学习提供了机器人学习环境反馈生成优化策略的方法,深度学习能够使用通用神经网络的特征来拟合处理复杂的传感器输入和模型表示。二者的结合使得机器人能够直接从现实世界中的经验和交互中自动学习,有效提高机器人的理解和行为能力。
发明内容
本发明的目的是提供一种基于视觉-触觉融合的机械臂自主操作策略学习方法,以解决现有的视触融合感知辅助机器人操控中,视触觉信息的处理和利用依赖于对任务的理解和精确的模型进行明确设计,导致多模态信息之间的融合关系简单有限,并且一种操控方法所能解决的问题单一、泛性差的问题。
本发明采用以下技术方案:一种基于视觉-触觉融合的机械臂自主操作策略学习方法,包括以下步骤:
步骤1、对视觉信息、触觉信息和本体信息的融合编码模型进行构建;
步骤2、对视觉信息、触觉信息和本体信息解码模型进行重构建,联合解码和编码过程进行训练,获得优化后的融合编码模型;
步骤3、利用融合编码融合的表征作为状态向量,通过深度强化学习方法,训练机械臂生成自主操作策略。
进一步的,步骤1的具体方法为:
步骤1.1、对所述视觉信息采用CNN进行神经网络编码,通过参数为θp的图像编码器将输入的图像P转换为2个d维的特征向量[mp,σp]T;
步骤1.2、对所述触觉信息采用MLP进行编码,将三自由度力信息时间序列F经过参数为θf的触觉信息编码器,转化为2个d维的特征向量[mf,σf]T;
步骤1.3、所述本体信息包括本体六自由度位置和姿态信息向量,对所述本体信息采用两层MLP进行编码,通过参数为θx的位姿信息编码器转化为2个d维的特征向量[mx,σx]T;
步骤1.4、将所述视觉信息、所述触觉信息和所述本体信息的融合信息特征进行串联,形成6个d维特征向量组成的联合特征,对联合特征进行两层MLP编码,通过参数为θs的联合特征编码器输出2个d维特征向量[ms,σs]T,并生成最终的表示向量s:
s=ms+Ns·exp(σs) (7)
其中Ns为白噪声;
步骤1.5、由上述步骤中的图像信息编码器、触觉信息编码器、位姿信息编码器和联合信息编码器组成了融合编码模型。
进一步的,步骤2的具体方法为:
步骤2.1、对表示向量s使用神经网络上采样,经过图像解码器Dp(θp′)恢复图像为p′;
步骤2.2、对表示向量s使用多层MLP,经过位姿解码器来恢复本体位姿为x’;
步骤2.3、对表示向量s使用多层MLP,经过触觉信息解码器来恢复触觉信息为f’;
步骤2.4、将各个模态转换的似然概率均建模为常数方差的多元高斯函数,则使用重建模态与输入模态之间的均方误差作为第一类损失函数,将KL散度作为第二类损失函数,通过加权合成总的损失函数;通过样本数据训练融合编码模型,直到总损失函数收敛,获得优化的融合编码模型。
进一步的,步骤2.4的具体内容为:
步骤2.4.1、对于图像模态,将误差建模为图像均方差,即对于像素为n*n维的原始图像P和重构图像P’,对其中的某一位置坐标(i,j)的像素点,在分别表示为pixVi,j和pixVi,j’,计算该点的均方差并求全图像素的均方差损失函数Lp:
步骤2.4.2、对于位姿以及触觉信息,采用各自由度分量均方差对误差进行建模获得位姿均方差损失函数Lx和触觉信息均方差损失函数Lf;
步骤2.4.3、定义简化的KL散度的损失函数Lkl:
步骤2.4.4、将上述误差进行加权融合,将加权量作为总的损失函数L:
其中αi(i∈{p,x,f,kl})为每个子损失函数的权重;
步骤2.4.5、利用样本基于上述模融合和重构框架进行训练,采用梯度下降方法最小化的总的损失函数L,使用Adam优化器在训练过程中对网络参数进行更新,最终得到训练后的优化网络参数θ={θp,θf,θx,θs},即得到优化后的融合编码模型。
进一步的,步骤3中的DDPG算法的具体流程包括:
步骤3.1、对机械臂的行为-环境参数建模为一个四元组(X,A,R,P),其中S为输入状态空间,A为输出动作,R为采取动作后的奖励,P为状态转移概率,每个状态-动作都可以表示为(χt,at,rt,st+1),其中t表示某一个时间步;
步骤3.2、随机初始化在线策略网络和在线评价网络的参数θμ和θQ;
步骤3.3、将在在线策略网络和在线评价网络的参数拷贝给目标策略网络μ和目标评价网络的参数θμ′和θQ′;
θQ′←θQ (11)
θμ′←θμ (12)
步骤3.4、初始化经验池;
步骤3.5、在每个回合按照如下步骤进行训练,首先初始化噪声分布Nt和初始状态st,然后,设定T时间步,对每个时间步t(t初值为0,t<T)进行训练;
步骤3.6、完成一回合的学习后,重复3.4的步骤直到所有回合训练结束,即得到优化后的网络参数θμ和θQ,其中在线策略网络即可为机械臂生成自主操作策略。
本发明的有益效果是:本发明的方法采用神经网络编码方法处理多模态信息,利用高维网络对数据进行降维和特征提取以及特征融合,通过编码-解码器模型代替了人为理解和表示视觉和触觉信息耦合和关联性的工作,降低了对实际的多模态问题进行明确理解和特征分析的需求;本方法利用无模型深度强化学习方法,既降低了对实际操作中对环境感知建模的精度要求,也提高了机械臂自主学习能力、通过学习的方式而扩展了任务泛性。
附图说明
图1为本发明方法中多模数据融合表征网络结构图的结构示意图;
图2为本发明方法中DDPG网络训练结构图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明提供了一种一种基于视觉-触觉融合的机械臂自主操作策略学习方法,如图1所示,包括以下步骤:
步骤1、对视觉信息、触觉信息和本体信息的融合编码模型进行构建;
步骤2、对视觉信息、触觉信息和本体信息解码模型进行重构建,联合解码和编码过程进行训练,获得优化后的融合编码模型;
步骤3、利用融合编码融合的表征作为状态向量,通过深度强化学习方法,训练机械臂生成自主操作策略。
DDPG算法采用确定性行为策略,利用一个卷积神经网络对策略函数进行模拟,采用随机性行为策略提高确定性策略的随机性。同时对行为策略网络和评价网络进行训练。求解最大化行动收益的策略,就是寻找μ策略网络参数θμ的最优解的过程,使用SGA方法进行;对评价网络进行训练,就是求解具备最小化的价值网络损失函数,寻找Q价值网络参数θQ的最优解的过程,使用SGD算法进行。
对机械臂的行为-环境参数建模为一个四元组(X,A,R,P),其中S为输入状态空间,A为输出动作,R为采取动作后的奖励,P为状态转移概率。
在一些实施例中,步骤1的具体方法为:
步骤1.1、对所述视觉信息采用CNN进行神经网络编码,通过图像编码器Ep(θp)将输入的图像P转换为2个d维的特征向量[mp,σp]T;
步骤1.2、对所述触觉信息采用MLP进行编码,将三自由度力信息时间序列F经过触觉信息编码器Ef(θf),转化为2个d维的特征向量[mf,σf]T;
步骤1.3、所述本体信息包括本体六自由度位置和姿态信息向量X,对所述本体信息采用两层MLP进行编码,通过位姿信息编码器Ex(θx)转化为2个d维的特征向量[mx,σx]T;
步骤1.4、将所述视觉信息、所述触觉信息和所述本体信息的融合信息特征进行串联,形成6个d维特征向量组成的联合特征S,对联合特征S进行两层MLP编码,通过联合特征编码器Es(θs)输出2个d维特征向量[ms,σs]T,并生成最终的表示向量s:
s=ms+Ns·eXp(σs) (13)
其中Ns为白噪声;
步骤1.5、由上述步骤中的图像信息编码器Ep(θp)、触觉信息编码器Ef(θf)、位姿信息编码器Ex(θx)和联合信息编码器Es(θs)组成了融合编码模型E(θ)。
在一些实施例中,如图2所示,步骤2的具体方法为:
步骤2.1、对表示向量s使用神经网络上采样,经过图像解码器Dp(θp′)恢复图像为P′;
步骤2.2、对表示向量s使用多层MLP,经过位姿解码器Dx(θx′)来恢复本体位姿为x’;
步骤2.3、对表示向量s使用多层MLP,经过触觉信息解码器Df(θf′)来恢复触觉信息为f’;
步骤2.4、将各个模态转换的似然概率均建模为常数方差的多元高斯函数,则使用重建模态与输入模态之间的均方误差作为第一类损失函数,将KL散度作为第二类损失函数,通过加权合成总的损失函数;通过样本数据训练融合编码模型,直到总损失函数收敛,获得优化的融合编码模型。
在一些实施例中,步骤2.4的具体内容为:
步骤2.4.1、对于图像模态,将误差建模为图像均方差,即对于n*n维的原始图像P和重构图像P’,对于其中的每一相同位置像素点值pixV和pixV’计算方差并求全图像素的均方差
步骤2.4.2、对于位姿以及触觉信息,采用各自由度分量均方差对误差进行建模获得Lx和Lf;
步骤2.4.3、定义简化的KL散度的损失函数LKL
步骤2.4.4、将上述误差进行加权融合,将加权量作为总的损失函数L,其中αi(i∈{p,x,f,kl}),为每个子损失函数的权重;
步骤2.4.5、利用样本基于上述模融合和重构框架进行训练,采用梯度下降方法最小化的总的损失函数L,使用Adam优化器在训练过程中对网络参数进行更新,最终得到训练后的优化网络参数θ={θp,θf,θx,θs},即得到优化后的融合编码模型E(θ)。
在一些实施例中,步骤3中的DDPG算法的具体流程包括:
步骤3.1、对机械臂的行为-环境参数建模为一个四元组(X,A,R,P),其中S为输入状态空间,A为输出动作,R为采取动作后的奖励,P为状态转移概率,每个状态-动作都可以表示为(χt,at,rt,χt+1),其中t表示某一个时间步;
步骤3.2、随机初始化在线策略网络μ(θμ)和在线评价网络Q(θQ)的参数θμ和θQ;
步骤3.3、将在在线策略网络和在线评价网络的参数拷贝给目标策略网络μ′(θμ′)和目标评价网络μ′(θμ′)的参数θμ′和θQ′;
θQ′←θ (17)
θμ′←θ (18)
步骤3.4、初始化经验池;
步骤3.5、在每个回合按照如下步骤进行训练,首先初始化噪声分布Nt和初始状态st,然后,设定T时间步,对每个时间步t(t初值为0,t<T)进行训练;
步骤3.6、完成一回合的学习后,重复3.4的步骤直到所有回合训练结束,即得到优化后的网络参数θμ和θQ,其中在线策略网络μ(θμ)即可为机械臂生成自主操作策略。
其中,步骤3.5中的算法的具体训练过程如下:
步骤3.5.1、根据噪声分布Nt和初始状态χi,通过在线策略网络选择下一个动作at:
at=μ(χt|θμ)+Nt (19)步骤3.5.2、机械臂执行动作后,环境返回新的奖励rt和新的状态χi+1;
步骤3.5.3、动作将这个状态转换过程存入经验池;
步骤3.5.4、从经验池中随机采样N个数据(χt,at,rt,χt+1),作为在线策略网络和在线价值网络的一个小型经验池,使用(χi,ai,ri,χi+1)表示小型经验池中的单个训练数据;
步骤3.5.5、计算在线评价网络的监督网络的梯度:
定义损失函数为:
其中yi可以看做“标签”,其计算公式如下:
yi=ri+γQ′(χi+1,μ′(χi+1|θμ′)|θQ′) (21)
步骤3.5.6采用Adam优化器更新在线评价网络的参数θQ;
其中ρβ为状态采样空间。
从经验池中回放随机采样获得的数据,利用蒙特卡洛方法,将数据代入梯度计算公式中进行梯度估计,将策略梯度公式改写为:
步骤3.5.8采用Adam优化器更新在线评价网络中的参数θμ′;
步骤3.5.9软更新目标网络参数,即
θQ′←τθQ+(1-τ)θQ (24)
θμ′←τθμ+(1-τ)θμ′ (25)
其中τ为软更新系数。
步骤3.5.10在下一个时间步中继续重复执行步骤3.5.1~3.5.9,直到回合结束。
本发明的关键在于,通过变分自动编码器将多维、跨模态的机械臂视觉、触觉及本体信息,转化为了统一的低维的融合信息;利用深度强化学习方法,机械臂能够充分利用融合信息,通过训练的评价网络和策略生成网络,在机械臂与环境交互过程中生成运动策略,指导机械臂自主完成接触作业。其中,在第一步骤中,采用了包括图像、触觉等在内的多模态数据,并利用编码器设计进行数据降维和融合处理;在第二步骤中,创新设计了在训练编码器时使用的损失函数;在第三步骤中,使用由编码器编码的融合表示向量作为在深度强化学习中的状态输入。
本发明的方法采用神经网络编码方法处理多模态信息,利用高维网络对数据进行降维和特征提取以及特征融合,通过编码-解码器模型代替了人为理解和表示视觉和触觉信息耦合和关联性的工作,降低了对实际的多模态问题进行明确理解和特征分析的需求;本方法利用无模型深度强化学习方法,既降低了对实际操作中对环境感知建模的精度要求,也提高了机械臂自主学习能力、通过学习的方式而扩展了任务泛性。
Claims (5)
1.一种基于视觉-触觉融合的机械臂自主操作策略学习方法,其特征在于,包括以下步骤:
步骤1、对视觉信息、触觉信息和本体信息的融合编码模型进行构建;
步骤2、对视觉信息、触觉信息和本体信息解码模型进行重构建,联合解码和编码过程进行训练,获得优化后的融合编码模型;
步骤3、利用融合编码融合的表征作为状态向量,通过深度强化学习方法,训练机械臂生成自主操作策略。
2.如权利要求1所述的一种基于视觉-触觉融合的机械臂自主操作策略学习方法,其特征在于,所述步骤1的具体方法为:
步骤1.1、对所述视觉信息采用CNN进行神经网络编码,通过参数为θp的图像编码器将输入的图像P转换为2个d维的特征向量[mp,σp]T;
步骤1.2、对所述触觉信息采用MLP进行编码,将三自由度力信息时间序列F经过参数为θf的触觉信息编码器,转化为2个d维的特征向量[mf,σf]T;
步骤1.3、所述本体信息包括本体六自由度位置和姿态信息向量,对所述本体信息采用两层MLP进行编码,通过参数为θx的位姿信息编码器转化为2个d维的特征向量[mx,σx]T;
步骤1.4、将所述视觉信息、所述触觉信息和所述本体信息的融合信息特征进行串联,形成6个d维特征向量组成的联合特征,对联合特征进行两层MLP编码,通过参数为θs的联合特征编码器输出2个d维特征向量[ms,σs]T,并生成最终的表示向量s:
s=ms+Ns·exp(σs) (1)
其中Ns为白噪声;
步骤1.5、由上述步骤中的图像信息编码器、触觉信息编码器、位姿信息编码器和联合信息编码器组成了融合编码模型。
3.如权利要求1或2所述的一种基于视觉-触觉融合的机械臂自主操作策略学习方法,其特征在于,所述步骤2的具体方法为:
步骤2.1、对表示向量s使用神经网络上采样,经过图像解码器Dp(θp′)恢复图像为P′;
步骤2.2、对表示向量s使用多层MLP,经过位姿解码器来恢复本体位姿为x’;
步骤2.3、对表示向量s使用多层MLP,经过触觉信息解码器来恢复触觉信息为f’;
步骤2.4、将各个模态转换的似然概率均建模为常数方差的多元高斯函数,则使用重建模态与输入模态之间的均方误差作为第一类损失函数,将KL散度作为第二类损失函数,通过加权合成总的损失函数;通过样本数据训练融合编码模型,直到总损失函数收敛,获得优化的融合编码模型。
4.如权利要求3所述的一种基于视觉-触觉融合的机械臂自主操作策略学习方法,其特征在于,所述步骤2.4的具体内容为:
步骤2.4.1、对于图像模态,将误差建模为图像均方差,即对于像素为n*n维的原始图像P和重构图像P′,对其中的某一位置坐标(i,j)的像素点,在分别表示为pixVi,j和pixVi,j′,计算该点的均方差并求全图像素的均方差损失函数Lp:
步骤2.4.2、对于位姿以及触觉信息,采用各自由度分量均方差对误差进行建模获得位姿均方差损失函数Lx和触觉信息均方差损失函数Lf;
步骤2.4.3、定义简化的KL散度的损失函数Lkl:
步骤2.4.4、将上述误差进行加权融合,将加权量作为总的损失函数L:
其中αi(i∈{p,x,f,kl})为每个子损失函数的权重;
步骤2.4.5、利用样本基于上述模融合和重构框架进行训练,采用梯度下降方法最小化的总的损失函数L,使用Adam优化器在训练过程中对网络参数进行更新,最终得到训练后的优化网络参数θ={θp,θf,θx,θs},即得到优化后的融合编码模型。
5.如权利要求4所述的一种基于视觉-触觉融合的机械臂自主操作策略学习方法,其特征在于,所述步骤3中的DDPG算法的具体流程包括:
步骤3.1、对机械臂的行为-环境参数建模为一个四元组(X,A,R,P),其中S为输入状态空间,A为输出动作,R为采取动作后的奖励,P为状态转移概率,每个状态-动作都可以表示为(χt,at,rt,st+1),其中t表示某一个时间步;
步骤3.2、随机初始化在线策略网络和在线评价网络的参数θμ和θQ;
步骤3.3、将在在线策略网络和在线评价网络的参数拷贝给目标策略网络μ和目标评价网络的参数θμ′和θQ′;
θQ′←θQ (5)
θμ′←θμ (6)
步骤3.4、初始化经验池;
步骤3.5、在每个回合按照如下步骤进行训练,首先初始化噪声分布Nt和初始状态st,然后,设定T时间步,对每个时间步t(t初值为0,t<T)进行训练;
步骤3.6、完成一回合的学习后,重复3.4的步骤直到所有回合训练结束,即得到优化后的网络参数θμ和θQ,其中在线策略网络即可为机械臂生成自主操作策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210201770.7A CN114660934B (zh) | 2022-03-03 | 2022-03-03 | 一种基于视觉-触觉融合的机械臂自主操作策略学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210201770.7A CN114660934B (zh) | 2022-03-03 | 2022-03-03 | 一种基于视觉-触觉融合的机械臂自主操作策略学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114660934A true CN114660934A (zh) | 2022-06-24 |
CN114660934B CN114660934B (zh) | 2024-03-01 |
Family
ID=82028192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210201770.7A Active CN114660934B (zh) | 2022-03-03 | 2022-03-03 | 一种基于视觉-触觉融合的机械臂自主操作策略学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114660934B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114860893A (zh) * | 2022-07-06 | 2022-08-05 | 中国人民解放军国防科技大学 | 基于多模态数据融合与强化学习的智能决策方法及装置 |
CN115617036A (zh) * | 2022-09-13 | 2023-01-17 | 中国电子科技集团公司电子科学研究院 | 一种多模态信息融合的机器人运动规划方法及设备 |
CN116911079A (zh) * | 2023-09-13 | 2023-10-20 | 江苏云幕智造科技有限公司 | 一种不完备模型的自演化建模方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378325A (zh) * | 2019-06-20 | 2019-10-25 | 西北工业大学 | 一种机器人抓取过程中的目标位姿识别方法 |
CN111204476A (zh) * | 2019-12-25 | 2020-05-29 | 上海航天控制技术研究所 | 一种基于强化学习的视触融合精细操作方法 |
CN111444954A (zh) * | 2020-03-24 | 2020-07-24 | 广东省智能制造研究所 | 一种基于多模态感知与学习的机器人自主装配方法 |
CN111633647A (zh) * | 2020-05-26 | 2020-09-08 | 山东大学 | 一种基于深度强化学习的多模融合机器人缝制方法及系统 |
CN112418421A (zh) * | 2020-11-06 | 2021-02-26 | 常州大学 | 一种基于图注意力自编码模型的路侧端行人轨迹预测算法 |
CN112633466A (zh) * | 2020-10-28 | 2021-04-09 | 华南理工大学 | 一种面向困难探索环境的记忆保持课程学习方法 |
CN113642604A (zh) * | 2021-07-09 | 2021-11-12 | 南京邮电大学 | 一种基于云边协同的音视频辅助触觉信号重建方法 |
CN113674281A (zh) * | 2021-10-25 | 2021-11-19 | 之江实验室 | 一种基于深度形状学习的肝脏ct自动分割方法 |
-
2022
- 2022-03-03 CN CN202210201770.7A patent/CN114660934B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378325A (zh) * | 2019-06-20 | 2019-10-25 | 西北工业大学 | 一种机器人抓取过程中的目标位姿识别方法 |
CN111204476A (zh) * | 2019-12-25 | 2020-05-29 | 上海航天控制技术研究所 | 一种基于强化学习的视触融合精细操作方法 |
CN111444954A (zh) * | 2020-03-24 | 2020-07-24 | 广东省智能制造研究所 | 一种基于多模态感知与学习的机器人自主装配方法 |
CN111633647A (zh) * | 2020-05-26 | 2020-09-08 | 山东大学 | 一种基于深度强化学习的多模融合机器人缝制方法及系统 |
CN112633466A (zh) * | 2020-10-28 | 2021-04-09 | 华南理工大学 | 一种面向困难探索环境的记忆保持课程学习方法 |
CN112418421A (zh) * | 2020-11-06 | 2021-02-26 | 常州大学 | 一种基于图注意力自编码模型的路侧端行人轨迹预测算法 |
CN113642604A (zh) * | 2021-07-09 | 2021-11-12 | 南京邮电大学 | 一种基于云边协同的音视频辅助触觉信号重建方法 |
CN113674281A (zh) * | 2021-10-25 | 2021-11-19 | 之江实验室 | 一种基于深度形状学习的肝脏ct自动分割方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114860893A (zh) * | 2022-07-06 | 2022-08-05 | 中国人民解放军国防科技大学 | 基于多模态数据融合与强化学习的智能决策方法及装置 |
CN114860893B (zh) * | 2022-07-06 | 2022-09-06 | 中国人民解放军国防科技大学 | 基于多模态数据融合与强化学习的智能决策方法及装置 |
CN115617036A (zh) * | 2022-09-13 | 2023-01-17 | 中国电子科技集团公司电子科学研究院 | 一种多模态信息融合的机器人运动规划方法及设备 |
CN115617036B (zh) * | 2022-09-13 | 2024-05-28 | 中国电子科技集团公司电子科学研究院 | 一种多模态信息融合的机器人运动规划方法及设备 |
CN116911079A (zh) * | 2023-09-13 | 2023-10-20 | 江苏云幕智造科技有限公司 | 一种不完备模型的自演化建模方法及系统 |
CN116911079B (zh) * | 2023-09-13 | 2024-02-09 | 江苏云幕智造科技有限公司 | 一种不完备模型的自演化建模方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114660934B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114660934B (zh) | 一种基于视觉-触觉融合的机械臂自主操作策略学习方法 | |
CN110188598B (zh) | 一种基于MobileNet-v2的实时手部姿态估计方法 | |
CN109086869B (zh) | 一种基于注意力机制的人体动作预测方法 | |
Kidziński et al. | Artificial intelligence for prosthetics: Challenge solutions | |
CN112561064B (zh) | 基于owkbc模型的知识库补全方法 | |
CN111204476B (zh) | 一种基于强化学习的视触融合精细操作方法 | |
CN113239897B (zh) | 基于时空特征组合回归的人体动作评价方法 | |
Zhong et al. | Chatabl: Abductive learning via natural language interaction with chatgpt | |
CN112668543B (zh) | 一种手模型感知的孤立词手语识别方法 | |
Huangpu et al. | Efficient model compression and knowledge distillation on llama 2: Achieving high performance with reduced computational cost | |
CN114386582B (zh) | 一种基于对抗训练注意力机制的人体动作预测方法 | |
CN116932722A (zh) | 一种基于跨模态数据融合的医学视觉问答方法及系统 | |
CN115659275A (zh) | 非结构化人机交互环境中的实时准确轨迹预测方法及系统 | |
Takano | Annotation generation from IMU-based human whole-body motions in daily life behavior | |
CN114429122A (zh) | 一种基于循环注意力的方面级情感分析系统和方法 | |
Ren et al. | Insactor: Instruction-driven physics-based characters | |
CN115564049B (zh) | 一种双向编码的知识图谱嵌入方法 | |
CN117037216A (zh) | 一种面向人体骨架的羽毛球运动预测方法和装置 | |
Sun et al. | Digital-Twin-Assisted Skill Learning for 3C Assembly Tasks | |
CN115512214A (zh) | 一种基于因果注意力的室内视觉导航方法 | |
Torres-Figueroa et al. | A novel general inverse kinematics optimization-based solution for legged robots in dynamic walking by a heuristic approach | |
CN114683287A (zh) | 一种基于元动作分层泛化的机械臂模仿学习方法 | |
Bai et al. | Bionic Hand Motion Control Method Based on Imitation of Human Hand Movements and Reinforcement Learning | |
Li et al. | Auxiliary Reward Generation with Transition Distance Representation Learning | |
CN114770523B (zh) | 一种基于离线环境交互的机器人控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |