CN111204476B - 一种基于强化学习的视触融合精细操作方法 - Google Patents

一种基于强化学习的视触融合精细操作方法 Download PDF

Info

Publication number
CN111204476B
CN111204476B CN201911357369.7A CN201911357369A CN111204476B CN 111204476 B CN111204476 B CN 111204476B CN 201911357369 A CN201911357369 A CN 201911357369A CN 111204476 B CN111204476 B CN 111204476B
Authority
CN
China
Prior art keywords
network
visual
sequence
value
touch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911357369.7A
Other languages
English (en)
Other versions
CN111204476A (zh
Inventor
孙俊
武海雷
孙玥
楚中毅
韩飞
朱文山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Aerospace Control Technology Institute
Original Assignee
Shanghai Aerospace Control Technology Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Aerospace Control Technology Institute filed Critical Shanghai Aerospace Control Technology Institute
Priority to CN201911357369.7A priority Critical patent/CN111204476B/zh
Publication of CN111204476A publication Critical patent/CN111204476A/zh
Application granted granted Critical
Publication of CN111204476B publication Critical patent/CN111204476B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64GCOSMONAUTICS; VEHICLES OR EQUIPMENT THEREFOR
    • B64G1/00Cosmonautic vehicles
    • B64G1/22Parts of, or equipment specially adapted for fitting in or to, cosmonautic vehicles
    • B64G1/24Guiding or controlling apparatus, e.g. for attitude control
    • B64G1/242Orbits and trajectories
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Remote Sensing (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于强化学习的视触融合精细操作方法,包含:通过卷积神经网络对视觉信号进行处理,得到视觉表征的特征向量;通过对触觉序列的分段、特征提取和聚类处理,得到触觉表征的特征向量;利用联合核稀疏编码,获得视触融合信息;基于视触融合信息,采用DDPG算法,训练策略网络生成下一步的运动轨迹,并训练值函数网络来评价当前运动轨迹的优劣;通过与环境的接触交互,获取指定任务的控制策略,实现动作序列的优化。本发明使机器人能够获得更加全面的外界信息,提高机器人的信息感知和精细操作精度以及任务决策的正确率等,为失效目标的在轨模块更换、帆板辅助展开等操作任务提供了技术支撑。

Description

一种基于强化学习的视触融合精细操作方法
技术领域
本发明涉及航天器轨道控制方法,特别涉及一种基于强化学习的视触融合精细操作方法。
背景技术
传统的在轨精细操作是基于手眼相机的视觉信号和压力传感器的压力信号实现对操作部位的插拔和切割等精细操作,视觉信号和触觉信息的分离导致信息的不完备,同时末端操作器的精细操控难以应对操作部位尺寸、形状等场景变化的空间操作任务,执行效率低、鲁棒性差、精度不足。
因此,针对失效目标的在轨操作任务,提供一种基于强化学习的视触融合精细操作方法实为必要,用以解决视触融合和基于强化学习的精细操作问题。
发明内容
本发明的目的在于提供一种基于强化学习的视触融合精细操作方法,将视觉信号和触觉信号等不同模态的信号进行表征,实现视触信息融合,并基于视触融合信息开展基于强化学习精细操作技术研究,建立状态-动作对的映射关系,寻找得到操控目标的最优动作序列,提高在轨操控的控制精度和柔顺性,使操控平台具备一定的自主操作能力,实现对目标的精细操作。
一种基于强化学习的视触融合精细操作方法,该方法包含以下步骤:
S1、通过卷积神经网络对视觉信号进行处理,得到视觉表征的特征向量;
S2、通过对触觉序列的分段、特征提取和聚类处理,得到触觉表征的特征向量;
S3、基于视觉表征的特征向量和触觉表征的特征向量,并利用联合核稀疏编码,获得视触融合信息;
S4、基于所述视触融合信息,采用DDPG算法,训练策略网络生成下一步的运动轨迹,训练价值网络来评价当前运动轨迹的优劣;通过与空间机器人操作系统环境的接触交互,获取指定任务的控制策略,实现动作序列的优化。
优选地,所述步骤S2中,进一步包含:
所述卷积神经网络是以原始图像数据作为输入,采用AlexNet网络模型中的结构参数,所述卷积神经网络包含卷积层、池化层和全连接层;
所述卷积层通过卷积核对输入层进行特征提取,所述卷积核对卷积神经网络的输入层进行扫描,对于每一个位置,输入层与卷积核的对应元素进行点积运算,得到该区域的局部特征,其中,卷积核对输入层每完成一遍扫描,完成一次卷积操作,得到一张特征图谱,多个卷积核分别将每次卷积操作得到的特征图谱依次排列,输出一个三维的卷积特征图谱,最终得到视觉图像的特征表示。
优选地,所述步骤S2中,进一步包含:
所述触觉序列的分段是指在得到触觉序列化的动态数据的基础上,对其进行整体建模,在时间维度将触觉序列进行切分建模,将触觉序列划分为一系列子触觉序列。
优选地,所述触觉序列的特征提取进一步包含:
基于线性动态系统的方法对每组子触觉序列进行特征提取,线性动态系统的表达式如下:
x(t+1)=Ax(t)+Bv(t)
y(t)=Cx(t)+w(t)
其中,x(t)∈Rp为t时刻的隐状态序列;y(t)为t时刻的系统实际输出值;A∈Rn×n为隐状态动态矩阵;C∈Rp×n为系统的隐状态输出矩阵;w(t)~N(0,R)表示估计值,服从均值为0,方差为R的正态分布;Bv(t)~N(0,Q)表示状态噪声,服从均值为0,方差为Q的正态分布;观测矩阵元组(A,C)分别刻画系统的动态性和空间形态,将其作为输入触觉序列的特征描述子,在求得特征描述子后使用马丁距离作为度量计算动态特征(A,C)之间的距离。
优选地,所述触觉序列的聚类处理进一步包含:
在求得特征描述子后使用马丁距离作为度量计算动态特征(A,C)之间的距离后,使用K-Medoid算法进行聚类,计算出特征描述子与各自聚类中心之间的最小距离,在此基础上进行分组,将多个聚类中心和分组构建为码书,每组特征描述子(A,C)被称为码词;
使用码书对触觉序列表征得到系统包模型,由特征词频率算法统计码词在码书中的分布特点,并形成特征向量;
假设在第i组触觉序列,第j组码词出现的次数为cij次,则有:
Figure GDA0003121598060000031
其中,m为触觉序列个数;k为聚类中心点个数;hij表示在第i组触觉序列第j组码词出现的频率;hi=[hi1 hi2 ... him]为第i组触觉序列的特征向量。
优选地,所述步骤S3中进一步包含:
深度稀疏编码方法挖掘不同模态的潜在子空间描述形式,并建立联合核稀疏编码来对多模态信息进行联合建模,融合不同模态信息的相容部分,并剔除不相容部分;
核稀疏编码通过建立一个高维特征空间,取代原来的空间,以便从字典中捕捉信号的非线性结构,具体如下:
假设编码之前有M个模态信息,Nm是训练样本的个数,Mm代表第m个模态数据特征描述,m=1,2,…M;
用映射函数将训练样本映射到一个更高维空间,将φm(·):Mm→Hm作为从Mm映射到高维积空间Hm的隐式非线性映射,则φm(Om)称为高维空间的字典,其中,φm(·)中的“·”表示任意训练样本;采用组联合核稀疏编码,该方法不需要稀疏向量相同,数据之间通过组配对而不是样本配对,要求对应同一个组内的元素被同时激活。
优选地,所述步骤S4中的DDPG算法包含策略网络和价值网络,所述策略网络包括策略估计网络和策略现实网络,所述策略估计网络用于输出实时的动作,供所述策略现实网络使用,所述策略现实网络用于更新价值网络;
所述价值网络包括价值估计网络和价值现实网络,均是用于输出当前状态的价值,所述价值估计网络的输入是当前策略施加动作;
所述策略估计网络和所述价值估计网络用于产生训练数据集,所述策略现实网络和所述价值现实网络用于训练优化网络参数。
与现有技术相比,本发明的有益效果在于:本发明利用触觉和视觉的多模态信息之间的冗余性和互补性,使得机器人能够获得更加全面的外界信息,并基于强化学习进行柔性灵巧手的精细操作训练,提高机器人的信息感知和精细操作精度以及任务决策的正确率等,为失效目标的在轨模块更换、帆板辅助展开等操作任务提供了技术支撑。
附图说明
图1为本发明的视触融合状态感知流程图;
图2为本发明的基于强化学习的精细操作任务流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-图2结合所示,本发明提供了一种基于强化学习的视触融合精细操作方法,主要包括视触融合和基于强化学习的视触融合精细操作,包括如下步骤:
S1、通过卷积神经网络对视觉信号进行处理,得到视觉表征的特征向量。
所述步骤S1中,所述卷积神经网络包含卷积层、池化层和全连接层。示例地,所述卷积神经网络的结构采用AlexNet网络模型中的结构参数,包含五层卷积层、三层池化层和两层全连接层。
具体地,卷积层通过卷积核对输入层进行特征提取,卷积核对神经网络输入层进行扫描,对于每一个位置,输入层与卷积核的对应元素进行点积运算,得到该区域的局部特征。卷积核对输入层每完成一遍扫描,即完成一次卷积操作,得到一张特征图谱;对于多个卷积核,将每次卷积操作得到的特征图谱依次排列,输出一个三维的卷积特征图谱。分别在第1、2和5层卷积层后加入步长为2的最大值池化层,通过对输入信号进行抽象,以求在不损失有用信号的前提下逐渐减小信号规模,降低参数数量,加快运算速度,并避免过拟合现象的产生;最后,在第五层卷积层后连接两层全连接层及输出层,全连接层与普通神经网络一样,其中的每一个神经元都与输入层的每一个神经元相连。由以上可以看出,卷积神经网络以原始图像和雷达数据作为输入,利用卷积核得到每个输入层的局部特征,再对原始信息的特征逐层进行抽象,最终可自动学习得到视觉图像的特征表示。
S2、通过对触觉序列的分段、特征提取和聚类处理,得到触觉表征的特征向量。
所述步骤S2中,触觉信息通过多阵列电子皮肤采集,可得到各种不同材质、形状目标物的触觉数据,是序列化的动态数据,需要对其进行整体建模而不仅针对单触觉帧。同时,由于物体的表面材质、物体形状、抓取姿态等不同,触觉序列在空间维度上各具特点。本发明在时间维度拟将触觉序列进行切分建模,将触觉序列划分为一系列子触觉序列,基于线性动态系统的方法对每组子触觉序列进行特征提取。线性动态系统的表达式如下:
x(t+1)=Ax(t)+Bv(t)
y(t)=Cx(t)+w(t)
其中,x(t)∈Rp为t时刻的隐状态序列;y(t)为t时刻的系统实际输出值;A∈Rn×n为隐状态动态矩阵;C∈Rp×n为系统的隐状态输出矩阵;w(t)~N(0,R)表示估计值,服从均值为0,方差为R的正态分布;Bv(t)~N(0,Q)表示状态噪声,服从均值为0,方差为Q的正态分布;观测矩阵元组(A,C)分别刻画了系统的动态性和空间形态,因而将其作为输入触觉序列的特征描述子。在求得特征描述子之后使用马丁距离作为度量计算动态特征(A,C)之间的距离,并使用K-Medoid算法进行聚类,计算出特征描述子与各自聚类中心之间的最小距离,在此基础上进行分组,将多个聚类中心和其分组构建为码书,每组特征描述子(A,C)被称为码词。最后使用码书对触觉序列表征得到系统包模型,由特征词频率(TF,TermFrequency)算法统计码词在码书中的分布特点,并形成特征向量。
假设在第i组触觉序列,第j组码词出现的次数为cij次,则有:
Figure GDA0003121598060000061
其中,m为触觉序列个数;k为聚类中心点个数;hij表示在第i组触觉序列第j组码词出现的频率,hi=[hi1 hi2 ... him]为第i组触觉序列的特征向量。
由上可知,基于线性动态系统的建模方法可以有效提取触觉时空序列的特征,并通过K-Medoid算法衡量特征之间的马丁距离实现对特征的聚类,结合特征词频率算法计算触觉特征向量。
S3、通过联合核稀疏编码,获得视触融合信息,如图1所示。
所述步骤S3中,进一步包含:采用深度稀疏编码方法挖掘不同模态的潜在子空间描述形式,并建立联合核稀疏编码来对多模态信息进行联合建模,有效地融合不同模态信息的相容部分,并剔除不相容部分。核稀疏编码通过建立一个高维特征空间,取代原来的空间,以便更有效地从字典中捕捉信号的非线性结构。
假设编码之前有M个模态信息,Nm是训练样本的个数,Mm代表第m个模态数据特征描述,m=1,2,…M。需用正确的映射函数将训练样本映射到一个更高维空间,因此将φm(·):Mm→Hm作为从Mm映射到高维积空间Hm的隐式非线性映射,则φm(Om)称为高维空间的字典,其中,φm(·)中的“·”表示任意训练样本;采用组联合核稀疏编码,该方法不需要稀疏向量相同,数据之间通过组配对而不是样本配对,只要求对应同一个组内的元素被同时激活即可,减弱联合核稀疏编码对样本的要求。
S4、基于空间机器人视触融合信息,采用DDPG(Deep Deterministic PolicyGradient)算法,训练策略网络生成下一步的运动轨迹,并训练值函数网络来评价当前轨迹的优劣。通过与环境的接触交互,获取指定任务的控制策略,实现动作序列的优化,如图2所示。
所述步骤S4中,进一步包含:
DDPG算法包含策略网络和价值网络:策略网络包括策略估计网络和策略现实网络,其中策略估计网络用来输出实时的动作,供策略现实网络使用,而策略现实网络用来更新价值网络系统。价值网络包括价值估计网络和价值现实网络,都在输出当前状态的价值,但价值估计网络的输入是当前策略施加动作。其中策略估计网络和价值估计网络主要用于产生训练数据集,而策略现实网络和价值现实网络主要训练优化网络参数。
DDPG算法流程如下:
1)分别初始化策略估计网络参数θμ和价值估计网络参数θQ
2)分别将策略估计网络参数θμ和价值估计网络参数θQ拷贝给对应的策略现实网络参数θμ′和价值现实网络参数θQ′
θμ′←θμ,θQ′←θQ
3)初始化经验回放数据库R;
4)对于每一个训练回合,执行下列任务:
(1)初始化奥恩斯坦-乌伦贝克(Ornstein-Uhlenbeck,OU)随机过程,该OU过程表示为一个存在随机噪声的均值回归。
(2)对于每一个时间步长,执行下列任务:
①策略网络根据当前的视触融合状态st,基于估计策略μ和OU随机过程生成的噪声,选择一个动作at,at=μ(stμ)+Nt,通过空间机器人操作系统来执行at,返回奖励γt和新的视触融合状态st+1
②重复过程①得到多组数据(st,att,st+1),并把它们存入R中,作为训练网络的数据集;
③在R中随机选择N组数据,作为策略估计网络、价值估计网络的最小批的训练数据,用(si,aii,si+1)(i=1,2…N)表示最小批中的单组数据;
④采用均方误差确定价值网络的损失函数
Figure GDA0003121598060000081
,其中yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′),基于反向传播方法计算价值估计网络的梯度
Figure GDA0003121598060000082
⑤采用Adam(一种梯度下降法)优化器更新价值估计网络θQ
⑥计算策略网络的策略梯度,表示为
Figure GDA0003121598060000083
⑦采用Adam优化器更新策略估计网络θμ
⑧更新策略现实网络θμ′和价值现实网络θQ′
Figure GDA0003121598060000084
式中τ=0.001。
⑨当时间步长小于最大步长T时,转到①,否则退出循环,该训练回合结束。
(3)当训练回合数小于最大训练回合数N时,转到(1),否则退出循环,训练过程结束。
基于上述DDPG方法,在输入的视触融合信息中实时的学习适合操作目标物的动作序列,实现模块更换和帆板辅助展开等精细操作任务。
综上所述,本发明的基于强化学习的视触融合精细操作方法是基于末端操作工具的手眼相机和触觉传感器分别获得视觉信息和触觉信息,通过联合核稀疏编码获得视触融合信息,并基于视触融合信息和强化学习方法,实现末端精细操作。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (3)

1.一种基于强化学习的视触融合精细操作方法,其特征在于,该方法包含以下步骤:
S1、通过卷积神经网络对视觉信号进行处理,得到视觉表征的特征向量;
S2、通过对触觉序列的分段、特征提取和聚类处理,得到触觉表征的特征向量;
S3、基于视觉表征的特征向量和触觉表征的特征向量,并利用联合核稀疏编码,获得视触融合信息;
S4、基于所述视触融合信息,采用DDPG算法,训练策略网络生成下一步的运动轨迹,训练价值网络来评价当前运动轨迹的优劣;通过与空间机器人操作系统环境的接触交互,获取指定任务的控制策略,实现动作序列的优化;
所述步骤S2中,包含:
所述触觉序列的分段是指在得到触觉序列化的动态数据的基础上,对其进行整体建模,在时间维度将触觉序列进行切分建模,将触觉序列划分为一系列子触觉序列;
所述触觉序列的特征提取包含:
基于线性动态系统的方法对每组子触觉序列进行特征提取,线性动态系统的表达式如下:
x(t+1)=Ax(t)+Bv(t)
y(t)=Cx(t)+w(t)
其中,x(t)∈Rp为t时刻的隐状态序列;y(t)为t时刻的系统实际输出值;A∈Rn×n为隐状态动态矩阵,C∈Rp×n为系统的隐状态输出矩阵,w(t)~N(0,R)表示估计值,服从均值为0,方差为R的正态分布;Bv(t)~N(0,Q)表示状态噪声,服从均值为0,方差为Q的正态分布;观测矩阵元组(A,C)分别刻画系统的动态性和空间形态,将其作为输入触觉序列的特征描述子,在求得特征描述子后使用马丁距离作为度量计算动态特征(A,C)之间的距离;
所述触觉序列的聚类处理包含:
在求得特征描述子后使用马丁距离作为度量计算动态特征(A,C)之间的距离后,使用K-Medoid算法进行聚类,计算出特征描述子与各自聚类中心之间的最小距离,在此基础上进行分组,将多个聚类中心和分组构建为码书,每组特征描述子(A,C)被称为码词;
使用码书对触觉序列表征得到系统包模型,由特征词频率算法统计码词在码书中的分布特点,并形成特征向量;
假设在第i组触觉序列第j组码词出现的次数为cij次,则有:
Figure FDA0003121598050000021
其中,m为触觉序列个数;k为聚类中心点个数;hij表示在第i组触觉序列第j组码词出现的频率;hi=[hi1 hi2...him]为第i组触觉序列的特征向量;
所述步骤S3中包含:
深度稀疏编码方法挖掘不同模态的潜在子空间描述形式,并建立联合核稀疏编码来对多模态信息进行联合建模,融合不同模态信息的相容部分,并剔除不相容部分;
核稀疏编码通过建立一个高维特征空间,取代原来的空间,以便从字典中捕捉信号的非线性结构,具体如下:
假设编码之前有M个模态信息,Nm是训练样本的个数,Mm代表第m个模态数据特征描述,m=1,2,…M;
用映射函数将训练样本映射到一个更高维空间,将φm(·):Mm→Hm作为从Mm映射到高维积空间Hm的隐式非线性映射,则φm(Om)称为高维空间的字典,其中,φm(·)中的“·”表示任意训练样本;采用组联合核稀疏编码,该方法不需要稀疏向量相同,数据之间通过组配对而不是样本配对,要求对应同一个组内的元素被同时激活。
2.如权利要求1所述的基于强化学习的视触融合精细操作方法,其特征在于,
所述步骤S2中,进一步包含:
所述卷积神经网络是以原始图像数据作为输入,采用AlexNet网络模型中的结构参数,所述卷积神经网络包含卷积层、池化层和全连接层;
所述卷积层通过卷积核对输入层进行特征提取,所述卷积核对卷积神经网络的输入层进行扫描,对于每一个位置,输入层与卷积核的对应元素进行点积运算,得到该区域的局部特征,其中,卷积核对输入层每完成一遍扫描,完成一次卷积操作,得到一张特征图谱,多个卷积核分别将每次卷积操作得到的特征图谱依次排列,输出一个三维的卷积特征图谱,最终得到视觉图像的特征表示。
3.如权利要求1所述的基于强化学习的视触融合精细操作方法,其特征在于,
所述步骤S4中的DDPG算法包含策略网络和价值网络,所述策略网络包括策略估计网络和策略现实网络,所述策略估计网络用于输出实时的动作,供所述策略现实网络使用,所述策略现实网络用于更新价值网络;
所述价值网络包括价值估计网络和价值现实网络,均是用于输出当前状态的价值,所述价值估计网络的输入是当前策略施加动作;
所述策略估计网络和所述价值估计网络用于产生训练数据集,所述策略现实网络和所述价值现实网络用于训练优化网络参数。
CN201911357369.7A 2019-12-25 2019-12-25 一种基于强化学习的视触融合精细操作方法 Active CN111204476B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911357369.7A CN111204476B (zh) 2019-12-25 2019-12-25 一种基于强化学习的视触融合精细操作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911357369.7A CN111204476B (zh) 2019-12-25 2019-12-25 一种基于强化学习的视触融合精细操作方法

Publications (2)

Publication Number Publication Date
CN111204476A CN111204476A (zh) 2020-05-29
CN111204476B true CN111204476B (zh) 2021-10-29

Family

ID=70784312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911357369.7A Active CN111204476B (zh) 2019-12-25 2019-12-25 一种基于强化学习的视触融合精细操作方法

Country Status (1)

Country Link
CN (1) CN111204476B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111844034B (zh) * 2020-07-17 2022-03-04 北京控制工程研究所 基于深度强化学习的端到端在轨自主加注控制系统及方法
CN113537335B (zh) * 2021-07-09 2024-02-23 北京航空航天大学 一种人手装配技能解析的方法及系统
CN113894779B (zh) * 2021-09-10 2023-10-17 人工智能与数字经济广东省实验室(广州) 一种应用于机器人交互的多模态数据处理方法
CN113780460A (zh) * 2021-09-18 2021-12-10 广东人工智能与先进计算研究院 一种材质识别方法、装置、机器人、电子设备及存储介质
CN114660934B (zh) * 2022-03-03 2024-03-01 西北工业大学 一种基于视觉-触觉融合的机械臂自主操作策略学习方法
CN114841098B (zh) * 2022-04-13 2023-04-18 广东工业大学 基于稀疏表示驱动的深度强化学习北斗导航芯片设计方法
CN116911079B (zh) * 2023-09-13 2024-02-09 江苏云幕智造科技有限公司 一种不完备模型的自演化建模方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7646917B2 (en) * 2004-11-26 2010-01-12 Samsung Electronics Co., Ltd. Method and apparatus for detecting corner
CN105956351A (zh) * 2016-07-05 2016-09-21 上海航天控制技术研究所 一种基于机器学习的触觉信息分类计算建模方法
CN109215015A (zh) * 2018-07-24 2019-01-15 北京工业大学 一种基于卷积神经网络的蚕茧在线视觉检测方法
CN109459043A (zh) * 2018-12-12 2019-03-12 上海航天控制技术研究所 一种基于生成式重构图像的航天器相对导航方法
CN109760852A (zh) * 2018-12-11 2019-05-17 上海航天控制技术研究所 一种微卫星集群在轨自主组装的大规模飞行器及使用方法
CN110428465A (zh) * 2019-07-12 2019-11-08 中国科学院自动化研究所 基于视觉和触觉的机械臂抓取方法、系统、装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7646917B2 (en) * 2004-11-26 2010-01-12 Samsung Electronics Co., Ltd. Method and apparatus for detecting corner
CN105956351A (zh) * 2016-07-05 2016-09-21 上海航天控制技术研究所 一种基于机器学习的触觉信息分类计算建模方法
CN109215015A (zh) * 2018-07-24 2019-01-15 北京工业大学 一种基于卷积神经网络的蚕茧在线视觉检测方法
CN109760852A (zh) * 2018-12-11 2019-05-17 上海航天控制技术研究所 一种微卫星集群在轨自主组装的大规模飞行器及使用方法
CN109459043A (zh) * 2018-12-12 2019-03-12 上海航天控制技术研究所 一种基于生成式重构图像的航天器相对导航方法
CN110428465A (zh) * 2019-07-12 2019-11-08 中国科学院自动化研究所 基于视觉和触觉的机械臂抓取方法、系统、装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
触觉信息表征技术与分类感知试验;侯月阳等;《上海航天》;20191023;第36卷(第5期);第83-86页 *

Also Published As

Publication number Publication date
CN111204476A (zh) 2020-05-29

Similar Documents

Publication Publication Date Title
CN111204476B (zh) 一种基于强化学习的视触融合精细操作方法
Gomez-Donoso et al. Lonchanet: A sliced-based cnn architecture for real-time 3d object recognition
CN109919245B (zh) 深度学习模型训练方法及装置、训练设备及存储介质
JP3560670B2 (ja) 適応的認識システム
CN108764107B (zh) 基于人体骨架序列的行为与身份联合识别方法及装置
CN110222580B (zh) 一种基于三维点云的人手三维姿态估计方法和装置
Yan et al. A factorization-based approach for articulated nonrigid shape, motion and kinematic chain recovery from video
CN105469041A (zh) 基于多任务正则化与逐层监督神经网络的人脸点检测系统
CN113239897A (zh) 基于时空特征组合回归的人体动作评价方法
CN114387513A (zh) 机器人抓取方法、装置、电子设备及存储介质
Ong et al. Tracking hybrid 2D-3D human models from multiple views
CN113888697A (zh) 一种双手交互状态下的三维重建方法
CN113034592B (zh) 基于自然语言描述的三维场景目标检测建模及检测方法
Van der Merwe et al. Integrated object deformation and contact patch estimation from visuo-tactile feedback
CN110781968B (zh) 一种基于塑性卷积神经网络的可扩展类别的图像识别方法
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
CN116880688A (zh) 基于多通道信息融合的手势识别方法及其系统
CN111158476A (zh) 一种虚拟键盘的按键识别方法、系统、设备及存储介质
CN116079727A (zh) 基于3d人体姿态估计的人形机器人动作模仿方法及装置
CN113592021A (zh) 一种基于可变形和深度可分离卷积的立体匹配方法
CN113609999A (zh) 基于姿态识别的人体模型建立方法
CN113065321A (zh) 基于lstm模型和超图的用户行为预测方法及系统
CN112507940A (zh) 一种基于差分指导表示学习网络的骨骼动作识别方法
CN116911079B (zh) 一种不完备模型的自演化建模方法及系统
CN116434339B (zh) 基于骨架数据时空特征差异性和相关性的行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant