CN113534678B - 一种操作问答任务的仿真到物理系统的迁移方法 - Google Patents
一种操作问答任务的仿真到物理系统的迁移方法 Download PDFInfo
- Publication number
- CN113534678B CN113534678B CN202110618613.1A CN202110618613A CN113534678B CN 113534678 B CN113534678 B CN 113534678B CN 202110618613 A CN202110618613 A CN 202110618613A CN 113534678 B CN113534678 B CN 113534678B
- Authority
- CN
- China
- Prior art keywords
- image
- simulation
- answering
- size
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004088 simulation Methods 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013508 migration Methods 0.000 title claims abstract description 43
- 230000005012 migration Effects 0.000 title claims abstract description 43
- 230000006870 function Effects 0.000 claims abstract description 34
- 230000009471 action Effects 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 230000000007 visual effect Effects 0.000 claims abstract description 12
- 238000001514 detection method Methods 0.000 claims abstract description 10
- 238000011176 pooling Methods 0.000 claims abstract description 9
- 230000004913 activation Effects 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 2
- 238000007499 fusion processing Methods 0.000 claims description 2
- 230000006855 networking Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 230000003993 interaction Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000013509 system migration Methods 0.000 description 1
- 238000003466 welding Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B17/00—Systems involving the use of models or simulators of said systems
- G05B17/02—Systems involving the use of models or simulators of said systems electric
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Processing Or Creating Images (AREA)
- Manipulator (AREA)
Abstract
本发明属于机器人控制技术领域,尤其涉及一种操作问答任务的仿真到物理系统的迁移方法。本方法利用深度视觉传感器分别获取仿真环境和现实世界任务场景的图像组,构建循环生成对抗网络模型,结合物理系统和仿真环境的状态图片进行联合训练,生成风格迁移图;利用视觉和物理参数随机化特征方法拟合真实实验状态,获取图像和文本的细粒度特征进行双线性因子化池化融合;将融合的特征作为马尔可夫决策过程的状态中训练,根据奖励得出机械臂动作序列,控制机械臂的运动;添加目标检测器在计算中心中协助目标检测,增加目标检测提高任务正确率,完成操作任务问答过程。改方法实现了机械臂的智能探索,人机交互等功能,有效的展现了机械臂的智能化特性。
Description
技术领域
本发明属于机器人控制技术领域,尤其涉及一种操作问答任务的仿真到物理系统的迁移方法。
背景技术
当今社会,随着现代化工业技术的发展,机械臂自动化技术已经广泛应用于各行各业的生产生活中,如自动分拣、自动装配、自动焊接、协同手术等,而且根据具体任务的不同需求,机械臂系统能自主完成不同类型的动作协作任务的完成,这些智能化机操作技术都极大的改善了人们的日常工作、学习、生活方式,创造了更加智能的生活工作环境。但是,对于复杂的现实环境,机器人收集数据的成本很高,不仅耗费大量的时间,而且安全性能也难以保障,因此目前的机器人智能化技术大多都是通过在仿真环境中对机器人的各项能力采用机器学习的方式进行大量的训练和学习,在巨大的数据堆叠下,才使得机械臂系统产生了智能,能够完成一系列的智能化操作。而目前的基于视觉操作问答任务则是对智能化设备探索的象征,控制的机械臂操作系统主要通过视觉传感器作为机械臂系统感知外部环境的保证,通过提出的问题进行理解从而进行视觉探索寻找答案,当观察到关注的区域,机械臂系统根据问题的内容执行相应操作,探索环境获取最终答案。现有的3D仿真环境更加贴合当下动态复杂的任务需求,科技工作者可以通过仿真环境模拟现实任务场景,利用任务场景中获取到的图像数据和文本数据经过深度学习和强化学习的联合训练,把最终生成的端对端的模型应用到整个系统中。
对于机器人在仿真环境进行各项模拟实验来说,通过各项设备的理想性大大的避免了数据的收集成本以及保证了整个机器人实验的稳定性,因此有助于整个实验过程的顺利,但是对于真实世界的机器人学习探索来说,存在巨大的物理限制,数据收集过程不仅耗时耗力,也难以保证整个环境的安全,因此绝大数实验都是在仿环境中进行训练模型,在实际机器人进行应用。而现有技术在模型迁移过程中,往往因为仿真环境和虚拟环境的细微差异而可能导致整个任务结果产生巨大的偏差,而且对于图像获取的特征往往是全局特征,对于细粒度的信息捕捉能力不足,也会导致具有推理性问题的适用性差。
发明内容
本发明的目的是提出一种操作问答任务的仿真到物理系统的迁移方法,以提高问题回答正确率,实现视觉问答的机械臂操作系统,并且能够有效的将模型迁移到真实环境中。
本发明提出的操作问答任务从仿真到物理系统的迁移方法,包括:
利用深度视觉传感器分别获取仿真环境和现实世界任务场景的图像组,构建循环生成对抗网络模型,结合物理系统的状态图片和仿真环境的状态图片进行联合训练,生成风格迁移图;利用视觉随机化特征方法和物理参数随机化方法拟合真实实验状态,获取图像细粒度特征和文本的细粒度特征进行双线性因子化池化融合;将融合的特征作为马尔可夫决策过程的状态中训练,根据奖励得出机械臂动作序列,控制机械臂的运动;添加目标检测器在计算中心中协助目标检测,增加目标检测提高任务正确率,完成操作任务问答过程。
本发明提出的一种操作问答任务的仿真到物理系统的迁移方法,其优点是:
1、本发明提供的基于现实环境的机械臂操作方法,通过引入循环生成对抗网络的方式,将不成对的虚拟环境图和现实图组进行有效的风格迁移,实现了在虚拟环境中保留现实环境图像信息的能力,并且添加域随机化技术,随机化实验环境参数和物理状态,使得在3D仿真环境下训练得到的模型能够迁移到现实物理环境下,加强了整个系统模型的泛化能力,在动态的适应在杂乱场景、物体遮挡的环境下,也能够正确的合理探索环境,加强机械臂的智能化操作能力。
2、本发明通过视觉传感器不仅可以提取RGB图,而且可以提取物体到视觉传感器的深度图片信息,不再局限于图片的全局特征,而是再通过对两种图片的细粒度特征提取,与文本特征进行双线性特征融合,能够高效的组合多模态特征,更加关注图像和文本的对应特征,提高整个系统的问答准确率。
3、本发明通过Ros分布式平台进行运作,引入目标检测器加强对现实环境的检索能力,实现机械臂对杂乱环境的自主探索,高效的实现人机交互,在未来复杂动态的工业环境下有着广泛的应用前景。
附图说明
图1是本方法的流程框图。
图2为循环神经网络架构示意图。
图3为生成器和判别器示意图。
图4为本发明操作网络架构示意图。
图5为本发明方法涉及的物理系统的结构框图。
具体实施方式
本发明提出的操作问答任务从仿真到物理系统的迁移方法,包括:
利用深度视觉传感器分别获取仿真环境和现实世界任务场景的图像组,构建循环生成对抗网络模型,结合物理系统的状态图片和仿真环境的状态图片进行联合训练,生成风格迁移图;利用视觉随机化特征方法和物理参数随机化方法拟合真实实验状态,获取图像细粒度特征和文本的细粒度特征进行双线性因子化池化融合;将融合的特征作为马尔可夫决策过程的状态中训练,根据奖励得出机械臂动作序列,控制机械臂的运动;添加目标检测器在计算中心中协助目标检测,增加目标检测提高任务正确率,完成操作任务问答过程。
上述操作问答任务从仿真到物理系统的迁移方法,流程框图如图1所示,具体过程包括以下步骤:
(1)收集物理系统的状态图片和仿真环境的状态图片,采用数据增强方法,对物理系统状态图片和仿真环境状态图片进行随机裁剪、旋转、变形、缩放和添加颜色扰动,得到增强后的图像组;将图像组中的图像分别裁剪成分辨率为256*256的图像,并将裁剪后的图像的矩阵值进行归一化,得到一个矩阵值归一化的图像集,作为生成对抗模型的监督数据集;
(2)构建一个循环生成对抗网络模型,循环生成对抗网络模型的架构如图2所示,利用该循环生成对抗网络模型,分别得到步骤(1)的物理系统状态图片和仿真环境状态图片的物理风格迁移图和仿真风格迁移图,具体过程如下:
(2-1)构建一个生成器,生成器的架构如图3(a)所示,该生成器由编码器、转换器和解码器组成;
(2-1-1)所述的编码器由三个卷积核组成,分别为7*7步长为1的64通道卷积核、3*3步长为2的128通道卷积核和3*3步长为2的256通道数的卷积核,编码器的输入图像的尺寸为(256,256,3);向编码器输入步骤(1)的图像集,卷积网络输出得到尺寸为(64,64,256)的图像集特征,以增加图像的通道数,并压缩图像的特征表示形式;
(2-1-2)所述的转换器由连续的6个结构相同的残差网络组成,每个残差网络由三组尺寸为3*3、步长为2、通道数为256的卷积核、批量归一化网络、激活函数层(以下简称ReLU)以及一条残差边组成,向转换器输入图像集特征,转换器输出得到转换图像特征;
(2-1-3)所述的解码器为一个反卷积网络,反卷积网络由大小为3*3、步长为2的128通道反卷积核,大小为3*3、步长为2的64通道反卷积核以及大小为7*7、步长为1的3通道反卷积核组成,向解码器输入转换图像特征,解码器输出得到解码图像特征,从而得到步骤(1)的物理系统状态图片和仿真环境状态图片的物理风格迁移图和仿真风格迁移图;即将图像特征增加到原来的尺寸大小。
(2-2)构建一个判别器,判别器的架构如图3(b)所示,判别器由四个卷积核和一个单通道卷积核组成,分别为:大小为4*4、步长为2的64通道卷积核及ReLU激活函数层、大小为4*4、步长为2的128通道卷积核及ReLU激活函数层、大小为4*4、步长为2的256通道卷积核及ReLU激活函数层,以及大小为4*4、步长为2的512通道卷积核及ReLU激活函数层,单通道卷积核的大小为4*4、步长为2及sigmoid激活函数层;向判别器输入物理风格迁移图和仿真风格迁移图,判别器分别输出步骤(1)的物理系统状态图片与物理风格迁移图之间的拟合概率,以及仿真环境状态图片与仿真风格迁移图之间的拟合概率;
(2-3)上述步骤((2-1)的生成器和步骤(2-2)的判别器组成一个循环生成对抗网络模型;
(3)构建一个步骤(2)的循环生成对抗网络模型的损失函数,包括以下步骤:
(3-1)循环生成对抗的模型损失函数包括对抗性损失Lossadv(G,Dy,X,Y)和循环一致性损失Lossadv(F,Dx,Y,X),其中对抗性损失为:
其中,X表示仿真环境的状态图片,Y表示物理系统的状态图片,m为步骤(1)图像集总数,G(x)和F(y)分别为由步骤(1)的物理系统的状态图片到仿真环境状态图片的映射,以及由仿真环境的状态图片到物理系统状态图片的映射关系,Dy和Dx分别为步骤(1)的仿真环境状态图片与步骤(2-1-3)生成的仿真风格迁移图的区别和物理环境状态图片与步骤(2-1-3)生成的物理风格迁移图的区别,;
(3-2)为了映射G和F不相互矛盾,定义一个循环一致性损失函数Losscyc(G,F,X,Y):
利用下式,计算最终损失函数,最终损失函数包括对抗损失和循环一致性损失:
L(G,F,Dx,Dy)=Ladv(G,Dy,X,Y)+Ladv(F,Dx,Y,X)+λLcyc(G,F,X,Y)
其中,λ表示相对重要性系数,λ的取值范围(0,20),本发明的一个实施例中,λ的取值为10;
循环生成对抗网络模型的损失函数的训练目标为:
该训练目标为使生成器最小化步骤(1)的仿真环境状态图片与步骤(2-1-3)生成的仿真风格迁移图的差异和物理环境状态图片与步骤(2-1-3)生成的物理风格迁移图的差异,使得判别器最大化判别出图片来自步骤(1)的图片集还是步骤(2-1-3)生成的风格迁移图;
(4)根据步骤(3)的损失函数的训练目标,对循环生成对抗网络模型进行从零开始训练,设置学习率为0.0002,初始化时,利用高斯分布N(0,0.02)设置循环生成对抗网络模型的初始权重,设置迭代次数200次,得到完成训练后循环生成对抗网络模型;
(5)获取与操作问答任务相关的RGB图、深度图和操作问答文本,根据步骤(4)的循环生成对抗网络模型,生成得到与RGB图相对应的仿真风格迁移图,采用视觉域随机化方法,对仿真风格迁移图进行域随机化处理,即利用对仿真环境中的RGB图和深度图进行处理,对RGB图的三个颜色通道的值随机化,根据高斯噪声N(0,1)分布,在深度图中添加噪声,以模拟采集过程产生的误差,得到处理后的RGB图和深度图;
(6)构建一个操作问答模型,操作问答模型的架构如图4所示,将操作问答模型中图像特征提取模块设置为细粒度特征提取,即在操作问答模型中构建一个1*1的卷积层、ReLU激活函数层和Softmax激活函数层,用于将图像特征网络化,并利用ReLU激活函数和Softmax激活函数对图像特征进行归一化,得到细粒度特征;以预测图像特征在网格中的位置的注意力权重,通过空间网格位置向量的加权来获得带有注意力的细粒度图像特征。
(7)将步骤(5)的RGB图、深度图和操作问答文本输入到步骤(6)的操作问答模型中,操作问答模型输出得到RGB图、深度图和操作问答文本的细粒度特征,将RGB图、深度图和操作问答文本的细粒度特征输入双线性因子分解池化模型中,双线性因子分解池化模型能够实现多模态特征融合,即不同模态的特征利用多层感知机投射到相同的维度,再利用Hadmard对投射后的向量进行相乘,双线性因子分解池化模型输出得到融合特征;
(8)构建一个动态操作模型,整个操作行为表示为马尔可夫决策过程,将步骤(7)的融合特征作为马尔可夫决策过程的初始状态st,设定马尔可夫决策过程的动作空间A为一个推动物体的动作,推动的距离为与操作问答任务相关的RGB图像宽度的1/5,设定一个奖励系数R,若推动成功,则使奖励系数R+1,利用下式,计算得到马尔可夫策略为:
根据该马尔可夫策略,产生一个对目标物体的动作;
其中,t为动作时间;
(9)为了成功适应现实环境的物理设备动作,在训练时可以添加足够的模拟可变性,需要在步骤8中随机化物理参数对奖励函数,通过随机扰动环境,强制网络学习图像的基本特征,增强模型泛化能力,包括随机化图像噪声类型、场景光源数量、动作之间的时间步长、动作响应延迟等,可以设定一个随机化物理参数μ,从而有意影响到整个奖励,贴合实际情况。利用下式,计算得到随机奖励系数Reward:
Reward=βR+μ β∈[0,1],μ∈[-1,0]
β为折扣因子,本发明的一个实施例中,μ的取值为0.5,β的其中为0.5;
(10)根据当前RGB图的图像特征,利用目标检测器(简称MASK-RCNN),对目标物体进行检测,若操作问答任务场景中无目标物体,则返回步骤(8),若检测到目标物体,则输出检测结果;
(11)遍历动作空间中的所有动作,重复步骤(8)-步骤(10),实现操作问答任务从仿真到物理系统的迁移方法。
本发明利用vrep仿真操作环境进行整个仿真环境的训练,使得训练好的模型迁移到现实物理环境中。在现实物理环境中搭载的系统架构如图5所示,整个设备由深度视觉传感器、UR5机械臂以及PC机组成,依靠ROS框架使得各个设备相互之间完成通信。本发明通过深度视觉传感器采集RGB图像和深度图像的信息,向计算中心中发布RGB图像话题和深度图像话题,PC机可以订阅两个话题获取图像信息,计算中心经过获取的图像信息进行图像风格迁移化,使得生成的风格迁移图和文本信息作为动作选择器的输入,经过细粒度特征提取和多模态融合,生成一组输出动作指令发布到动作执行话题中,机械臂可以订阅动作话题,执行相应的动作序列。执行完动作之后,机械臂系统发布动作完成信号话题,当深度视觉传感器捕捉到动作完成信号话题之后,保存当前图像信息,送入到目标检测器中,完成任务回答过程。本方法可以极大程度的在物理环境下实施问答操作过程,具有较好的任务性能和广泛的应用前景。
Claims (1)
1.一种操作问答任务的仿真到物理系统的迁移方法,其特征在于,包括:
利用深度视觉传感器分别获取仿真环境和现实世界任务场景的图像组,构建循环生成对抗网络模型,结合物理系统的状态图片和仿真环境的状态图片进行联合训练,生成风格迁移图;利用视觉随机化特征方法和物理参数随机化方法拟合真实实验状态,获取图像细粒度特征和文本的细粒度特征进行双线性因子化池化融合;将融合的特征作为马尔可夫决策过程的状态中训练,根据奖励得出机械臂动作序列,控制机械臂的运动;添加目标检测器在计算中心中协助目标检测,增加目标检测提高任务正确率,完成操作任务问答过程;
具体过程包括以下步骤:
(1)收集物理系统的状态图片和仿真环境的状态图片,采用数据增强方法,对物理系统状态图片和仿真环境状态图片进行随机裁剪、旋转、变形、缩放和添加颜色扰动,得到增强后的图像组;将图像组中的图像分别裁剪成分辨率为256*256的图像,并将裁剪后的图像的矩阵值进行归一化,得到一个矩阵值归一化的图像集;
(2)构建一个循环生成对抗网络模型,利用该循环生成对抗网络模型,分别得到步骤(1)的物理系统状态图片和仿真环境状态图片的物理风格迁移图和仿真风格迁移图,具体过程如下:
(2-1)构建一个生成器,该生成器由编码器、转换器和解码器组成;
(2-1-1)所述的编码器由三个卷积核组成,分别为7*7步长为1的64通道卷积核、3*3步长为2的128通道卷积核和3*3步长为2的256通道数的卷积核,编码器的输入图像的尺寸为256*256*3;向编码器输入步骤(1)的图像集,卷积网络输出得到尺寸为64*64*256的图像集特征;
(2-1-2)所述的转换器由连续的6个结构相同的残差网络组成,每个残差网络由三组尺寸为3*3、步长为2、通道数为256的卷积核、批量归一化网络、激活函数层以及一条残差边组成,向转换器输入图像集特征,转换器输出得到转换图像特征;
(2-1-3)所述的解码器为一个反卷积网络,反卷积网络由大小为3*3、步长为2的128通道反卷积核,大小为3*3、步长为2的64通道反卷积核以及大小为7*7、步长为1的3通道反卷积核组成,向解码器输入转换图像特征,解码器输出得到解码图像特征,从而得到步骤(1)的物理系统状态图片和仿真环境状态图片的物理风格迁移图和仿真风格迁移图;
(2-2)构建一个判别器,判别器由四个卷积核和一个单通道卷积核组成,分别为:大小为4*4、步长为2的64通道卷积核及ReLU激活函数层、大小为4*4、步长为2的128通道卷积核及ReLU激活函数层、大小为4*4、步长为2的256通道卷积核及ReLU激活函数层,以及大小为4*4、步长为2的512通道卷积核及ReLU激活函数层,单通道卷积核的大小为4*4、步长为2及sigmoid激活函数层;向判别器输入物理风格迁移图和仿真风格迁移图,判别器分别输出步骤(1)的物理系统状态图片与物理风格迁移图之间的拟合概率,以及仿真环境状态图片与仿真风格迁移图之间的拟合概率;
(2-3)上述步骤(2-1)的生成器和步骤(2-2)的判别器组成一个循环生成对抗网络模型;
(3)构建一个步骤(2)的循环生成对抗网络模型的损失函数,包括以下步骤:
(3-1)循环生成对抗的模型损失函数包括对抗性损失Lossadv(G,Dy,X,Y)和Lossadv(F,Dx,Y,X),其中对抗性损失为:
其中,X表示仿真环境的状态图片,Y表示物理系统的状态图片,m为步骤(1)图像集总数,G(x)和F(y)分别为由步骤(1)的物理系统的状态图片到仿真环境状态图片的映射,以及由仿真环境的状态图片到物理系统状态图片的映射关系,Dy和Dx分别为步骤(1)的仿真环境状态图片与步骤(2-1-3)生成的仿真风格迁移图的区别和物理环境状态图片与步骤(2-1-3)生成的物理风格迁移图的区别;
(3-2)定义一个循环一致性损失函数Losscyc(G,F,X,Y):
利用下式,计算最终损失函数,最终损失函数包括对抗损失和循环一致性损失:
L(G,F,Dx,Dy)=Lossadv(G,Dy,X,Y)+Lossadv(F,Dx,Y,X)+λLosscyc(G,F,X,Y)
其中,λ表示相对重要性系数,λ的取值范围(0,20);
循环生成对抗网络模型的损失函数的训练目标为:
(4)根据步骤(3)的损失函数的训练目标,对循环生成对抗网络模型进行从零开始训练,设置学习率为0.0002,初始化时,利用高斯分布N(0,0.02)设置循环生成对抗网络模型的初始权重,设置迭代次数200次,得到完成训练后循环生成对抗网络模型;
(5)获取与操作问答任务相关的RGB图、深度图和操作问答文本,根据步骤(4)的循环生成对抗网络模型,生成得到与RGB图相对应的仿真风格迁移图,采用视觉域随机化方法,对仿真风格迁移图进行域随机化处理,即对RGB图的三个颜色通道的值随机化,根据高斯噪声N(0,1)分布,在深度图中添加噪声,得到处理后的RGB图和深度图;
(6)构建一个操作问答模型,将操作问答模型中图像特征提取模块设置为细粒度特征提取,即在操作问答模型中构建一个1*1的卷积层、ReLU激活函数层和Softmax激活函数层,用于将图像特征网络化,并利用ReLU激活函数和Softmax激活函数对图像特征进行归一化,得到细粒度特征;
(7)将步骤(5)的RGB图、深度图和操作问答文本输入到步骤(6)的操作问答模型中,操作问答模型输出得到RGB图、深度图和操作问答文本的细粒度特征,将RGB图、深度图和操作问答文本的细粒度特征输入双线性因子分解池化模型中,双线性因子分解池化模型输出得到融合特征;
(8)构建一个动态马尔可夫决策过程的操作模型,将步骤(7)的融合特征作为马尔可夫决策过程的初始状态st,设定马尔可夫决策过程的动作空间A为一个推动物体的动作,推动的距离为与操作问答任务相关的RGB图像宽度的1/5,设定一个奖励系数R,若推动成功,则使奖励系数R+1,利用下式,计算得到马尔可夫策略为:
根据该马尔可夫策略,产生一个对目标物体的动作;
其中,t为动作时间;
(9)设定一个随机化物理参数μ,利用下式,计算得到随机奖励系数Reward:
Reward=βR+μβ∈[0,1],μ∈[-1,0]
其中,β为折扣因子;
(10)根据当前RGB图的图像特征,利用目标检测器,对目标物体进行检测,若操作问答任务场景中无目标物体,则返回步骤(8),若检测到目标物体,则输出检测结果;
(11)遍历动作空间中的所有动作,重复步骤(8)-步骤(10),实现操作问答任务从仿真到物理系统的迁移方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110618613.1A CN113534678B (zh) | 2021-06-03 | 2021-06-03 | 一种操作问答任务的仿真到物理系统的迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110618613.1A CN113534678B (zh) | 2021-06-03 | 2021-06-03 | 一种操作问答任务的仿真到物理系统的迁移方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113534678A CN113534678A (zh) | 2021-10-22 |
CN113534678B true CN113534678B (zh) | 2023-05-30 |
Family
ID=78095502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110618613.1A Active CN113534678B (zh) | 2021-06-03 | 2021-06-03 | 一种操作问答任务的仿真到物理系统的迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113534678B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114029963B (zh) * | 2022-01-12 | 2022-03-29 | 北京具身智能科技有限公司 | 一种基于视觉听觉融合的机器人操作方法 |
CN114882168B (zh) * | 2022-04-08 | 2023-04-18 | 清华大学 | 一种基于视觉的触觉传感器的数字孪生方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112102405A (zh) * | 2020-08-26 | 2020-12-18 | 东南大学 | 基于深度强化学习的机器人搅动-抓取组合方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106296692A (zh) * | 2016-08-11 | 2017-01-04 | 深圳市未来媒体技术研究院 | 基于对抗网络的图像显著性检测方法 |
CN110471444B (zh) * | 2019-08-19 | 2022-07-12 | 西安微电子技术研究所 | 基于自主学习的无人机智能避障方法 |
CN110472691A (zh) * | 2019-08-20 | 2019-11-19 | 中国科学技术大学 | 目标定位模块训练方法、装置、机器人及存储介质 |
CN112613478B (zh) * | 2021-01-04 | 2022-08-09 | 大连理工大学 | 一种面向机器人抓取的数据主动式选择方法 |
CN114029963B (zh) * | 2022-01-12 | 2022-03-29 | 北京具身智能科技有限公司 | 一种基于视觉听觉融合的机器人操作方法 |
CN114918918B (zh) * | 2022-05-26 | 2023-07-25 | 东南大学 | 一种含领域自适应的机器人乱序目标推抓方法 |
-
2021
- 2021-06-03 CN CN202110618613.1A patent/CN113534678B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112102405A (zh) * | 2020-08-26 | 2020-12-18 | 东南大学 | 基于深度强化学习的机器人搅动-抓取组合方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113534678A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112232490B (zh) | 一种基于视觉的深度模仿强化学习驾驶策略训练方法 | |
CN110222760B (zh) | 一种基于winograd算法的快速图像处理方法 | |
CN113534678B (zh) | 一种操作问答任务的仿真到物理系统的迁移方法 | |
CN109102000B (zh) | 一种基于分层特征提取与多层脉冲神经网络的图像识别方法 | |
CN111681178B (zh) | 一种基于知识蒸馏的图像去雾方法 | |
Sim et al. | Internet-based teleoperation of an intelligent robot with optimal two-layer fuzzy controller | |
KR102011788B1 (ko) | 계층적 시각 특징을 이용한 시각 질의 응답 장치 및 방법 | |
Wei et al. | Learning motion rules from real data: Neural network for crowd simulation | |
CN116382267B (zh) | 一种基于多模态脉冲神经网络的机器人动态避障方法 | |
Kortvelesy et al. | ModGNN: Expert policy approximation in multi-agent systems with a modular graph neural network architecture | |
CN110599443A (zh) | 一种使用双向长短期记忆网络的视觉显著性检测方法 | |
WO2022132407A1 (en) | Event camera based navigation control | |
Vemprala et al. | Representation learning for event-based visuomotor policies | |
Cao et al. | Real-time gesture recognition based on feature recalibration network with multi-scale information | |
Sanaullah et al. | Exploring spiking neural networks: a comprehensive analysis of mathematical models and applications | |
CN113988164A (zh) | 一种面向代表点自注意力机制的轻量级点云目标检测方法 | |
Xu et al. | Tackling small data challenges in visual fire detection: a deep convolutional generative adversarial network approach | |
Che et al. | Auto-spikformer: Spikformer architecture search | |
CN115690592B (zh) | 图像处理方法和模型训练方法 | |
CN115994576A (zh) | 一种社交场景中人类注意力机制模仿学习方法 | |
Lehman et al. | An anarchy of methods: Current trends in how intelligence is abstracted in ai | |
CN115860113A (zh) | 一种自对抗神经网络模型的训练方法及相关装置 | |
CN109635942B (zh) | 一种仿脑兴奋态和抑制态工作状态神经网络电路结构及方法 | |
Guerrero et al. | Event-Based Regression with Spiking Networks | |
Izumi et al. | Mass game simulator: an entertainment application of multiagent control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |