CN114415507A - 基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法 - Google Patents

基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法 Download PDF

Info

Publication number
CN114415507A
CN114415507A CN202210017100.XA CN202210017100A CN114415507A CN 114415507 A CN114415507 A CN 114415507A CN 202210017100 A CN202210017100 A CN 202210017100A CN 114415507 A CN114415507 A CN 114415507A
Authority
CN
China
Prior art keywords
state
dexterous hand
training
model
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210017100.XA
Other languages
English (en)
Other versions
CN114415507B (zh
Inventor
周锦瑜
盛士能
王壮
祝雯豪
俞冰清
鲍官军
胥芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202210017100.XA priority Critical patent/CN114415507B/zh
Publication of CN114415507A publication Critical patent/CN114415507A/zh
Application granted granted Critical
Publication of CN114415507B publication Critical patent/CN114415507B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Automation & Control Theory (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,包括步骤1:灵巧手使用SAC算法策略
Figure DEST_PATH_IMAGE001
在环境内同抓持物体交互并训练,采集系统状态转移数据并放入样本缓存区;步骤2:设定模糊聚类的类别个数并对样本缓存区内状态转移数据进行模糊聚类;步骤3:搭建包含状态增量方向概率子网络模型
Figure 28301DEST_PATH_IMAGE002
与状态增量增幅子网络模型
Figure DEST_PATH_IMAGE003
的灵巧手动力学模型f;步骤4:对模糊聚类的各类别依据隶属度生成样本采样概率,进行采样得到训练样本;步骤5:灵巧手动力学模型训练,并进行环境系统状态预测。本发明提高了动力学模型的精准度,减小了在动力学模型训练过程中局部过拟合现象,减小了动力学模型预测误差、提高了稳定性。

Description

基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练 方法
技术领域
本发明属于灵巧手强化学习控制领域,尤其涉及一种基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法。
背景技术
由于灵巧手的高自由度,如何既要提升灵巧手强化学习控制算法的控制效果,又要提升训练样本数据的利用率成为灵巧手强化学习控制算法领域的难点。当前,强化学习控制算法按智能体(Agent)是否理解环境与自身的动态模型可分为无模型强化学习算法与基于模型的强化学习算法。通过强化学习算法,智能体可针对特定的任务自主同环境进行交互试错,并在过程中获取环境反馈奖励,从而改变智能体的行为使得在下一次与环境交互过程中,环境反馈奖励最大化。
目前可应用于灵巧手控制主流的无模型强化学习控制算法例如有:DeepDeterministic Policy Gradient(DDPG)、Soft Actor Critic(SAC)、Proximal PolicyOptimization(PPO)等,无模型强化学习控制算法有较好的控制性能,然而对数据的样本利用率低,需要收集大量的样本数量,这需要大量的时间成本并在现实中往往难以应用。而基于模型的强化学习控制算法的优点是对样本数据的利用率。目前主流的基于模型的强化学习控制算法例如有:AlphaZero、Imagination-Augmented Agents(I2A)、MBMF等。这些算法或需要领域专家根据专业知识提供系统动力学模型或需要从环境的交互过程中学习系统动力学。然而,由灵巧手-被抓持物体所构成的系统由于碰撞场景多,难以事先给定系统动力学模型,需要通过监督式学习得到近似的系统动力学模型。常用的监督式学习动力学模型方法例如有:Sparse Identification of Nonlinear Dynamics(SINDy)、动力学参数识别、神经网络拟合动力学模型等。SINDy及相关方法需要给定一个泛函字典集,因而存在应用难度大的缺点。动力学参数识别需要提前给定系统动力学模型框架,在富含碰撞的灵巧手-被抓持物体构成的系统中并不适用。而目前采用神经网络拟合动力学模型方法则存在着稳定性差、易产生过拟合现象等问题。
发明内容
本发明目的在于提供一种基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,以解决目前系统无法给定动力学模型、给定泛函字典集难度高、神经网络拟合动力学模型稳定性差,易产生过拟合现象的技术问题。
为解决上述技术问题,本发明的一种基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法的具体技术方案如下:
一种基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,包括如下步骤:
步骤1:灵巧手使用SAC算法策略πθ在环境内同抓持物体交互并训练,采集系统状态转移数据并放入样本缓存区;
步骤2:设定模糊聚类的类别个数并对样本缓存区内状态转移数据进行模糊聚类;
步骤3:搭建包含状态增量方向概率子网络模型fd与状态增量增幅子网络模型fa的灵巧手动力学模型f;
步骤4:对模糊聚类的各类别依据隶属度生成样本采样概率,进行采样得到训练样本;
步骤5:灵巧手动力学模型训练,并进行环境系统状态预测。
进一步地,步骤1使用MuJoCo物理仿真引擎对灵巧手与被抓持物体进行抓持过程仿真,仿真环境不断产生呈高斯分布的外力与扭矩噪声施加在被抓持物体的质心与灵巧手关节转矩上,以模拟现实场景下随机的外力干扰;随着仿真器内部时间推移,灵巧手与被抓持物体的状态会发生变化,整个过程符合马尔可夫决策过程,用五元组<S,A,P,R,γ>表示,其中S表示灵巧手与被抓持物体构成的系统状态空间,A表示灵巧手关节动作空间,P表示状态转移概率,R表示奖励空间,γ表示奖励折扣系数。
进一步地,步骤1使用无模型强化学习算法SAC的Actor网络作为灵巧手控制策略πθ,将系统目标g设定为抓持物体至随机方位,若被抓持物体掉落则视为本次仿真结束并重置仿真环境,在仿真器中记录灵巧手与被抓持物体状态转移数据(s,a,s′,r),其中s为当前时刻系统状态,a为当前时刻系统输入动作,s′为系统下一时刻状态,r为根据抓持目标计算得到的奖励值,保存状态转移数据,得到数据集Data:
Data={(s1,a1,s2,r1),(s2,a2,s3,r2),...,(sn-1,an-1,sn,rn-1)};
并使用Data训练Actor与Critic网络。
进一步地,步骤2包括如下具体步骤:
对数据集Data进行模糊聚类,随机设置模糊聚类中心集C={c1,c2,...,ck},其中聚类中心c包含元素个数与系统状态s相同;计算数据集Data内每个状态s与每个聚类中心c的欧式距离d得到距离矩阵
Figure BDA0003460167260000031
其中dij=‖si-cj‖表示第i个状态与第j个聚类中心的欧式距离值;调整模糊聚类中心集C,使得距离矩阵Dt各元素平方和最小;计算数据集Data内状态s对聚类类别隶属度u得到隶属度矩阵
Figure BDA0003460167260000032
其中
Figure BDA0003460167260000033
表示第i个状态对第j个聚类类别的隶属度。
进一步地,步骤3包括如下具体步骤:
使用Pytorch深度神经网络框架搭建状态增量方向概率子网络模型fd,与状态增量增幅子网络模型fa;fd与fa的输入包含灵巧手与被抓持物体系统的状态s与灵巧手关节输入动作a,并由三层线性层、两层ReLu层、两层正负极性通道层构成,fd在网络尾部另设置有一层Sigmoid层;fd与fa的输出分别为系统状态变化量Δs的方向与绝对值。
进一步地,步骤4包括如下具体步骤:
对每个聚类类别进行动力学模型训练样本采样;根据隶属度矩阵U计算数据集Data状态s在每个类别中被采样概率p得到概率矩阵
Figure BDA0003460167260000041
其中
Figure BDA0003460167260000042
表示第i个状态在第j个聚类类别中被采样的概率,若状态si被采得,则(si,ai,s′i)作为一个训练样本。
进一步地,步骤5包括如下具体步骤:
对fd进行训练,设定损失函数为:
Jtrand(α)=E(s,a,s′)~Date(P)[(fd(s,a)-g(s′-s))2]+0.0005‖α‖2
其中
Figure BDA0003460167260000043
α为fd所有参数;
使用梯度下降法,优化器使用Adam;
对fa进行训练,设定损失函数为:
Jtrana(β)=E(s,a,s′)~Date(P)[(fa(s,a)-|s′-s|)2]+0.0005‖β‖2
其中β为fa所有参数;
使用梯度下降法,优化器使用Adam;
进一步地,步骤5使用包含状态增量方向概率子网络模型fd与状态增量增幅子网络模型fa的灵巧手动力学模型f,将当前灵巧手与被抓持物体的状态s与灵巧手关节输入动作a输入fd与fa,得到状态增量方向概率值与状态增量增幅值,从而得到下一时刻状态预测值
Figure BDA0003460167260000051
Figure BDA0003460167260000052
其中dir~fd(s,a)。
本发明的一种基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法具有以下优点:本发明通过设计一个包含状态增量方向概率子网络模型与状态增量增幅子网络模型的深度神经网络动力学模型,用上述两个子深度网络模型分别预测系统状态增量方向与系统状态增量增幅,提高了动力学模型的精准度。同时通过对数据样本进行模糊聚类,对训练样本进行预处理,从而减小在动力学模型训练过程中局部过拟合现象。进而减小动力学模型预测误差、提高稳定性,并在控制算法层面提升控制效果。
附图说明
图1是本发明中灵巧手抓持过程结构框图;
图2是本发明中模糊聚类流程图;
图3是本发明中fd模型结构图;
图4是本发明中fa模型结构图;
图5是本发明中灵巧手动力学模型f使用框架图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法做进一步详细的描述。
一种基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,在真实环境中收集灵巧手-被抓持物体所构成的系统状态转移数据,对系统状态转移数据进行模糊聚类预处理,并采样预处理后的数据得到动力学模型训练样本,训练灵巧手动力学模型,并用于预测灵巧手-被抓持物体构成的系统下一时刻的状态。
包括如下步骤:(1)灵巧手使用SAC算法策略πθ在环境内同抓持物体交互并训练,采集系统状态转移数据并放入样本缓存区;(2)设定模糊聚类的类别个数并对样本缓存区内状态转移数据进行模糊聚类;(3)搭建包含状态增量方向概率子网络模型fd与状态增量增幅子网络模型fa的灵巧手动力学模型f;(4)对模糊聚类的各类别依据隶属度生成样本采样概率,进行采样得到训练样本。(5)灵巧手动力学模型训练,并进行环境系统状态预测。
优先的使用MuJoCo物理仿真引擎对灵巧手与被抓持物体进行抓持过程仿真。仿真环境会不断产生呈高斯分布的外力与扭矩噪声施加在被抓持物体的质心与灵巧手关节转矩上,模拟现实场景下随机的外力干扰。随着仿真器内部时间推移,灵巧手与被抓持物体的状态会发生变化,整个过程符合马尔可夫决策过程(MDP),可用五元组<S,A,P,R,γ>表示。其中S表示灵巧手与被抓持物体构成的系统状态空间,A表示灵巧手关节动作空间,P表示状态转移概率,R表示奖励空间,γ表示奖励折扣系数。
优先的使用无模型强化学习算法SAC的Actor网络作为灵巧手控制策略πθ,将系统目标g设定为抓持物体至随机方位,若被抓持物体掉落则视为本次仿真结束并重置仿真环境。在仿真器中记录灵巧手与被抓持物体状态转移数据(s,a,s′,r),其中s为当前时刻系统状态,a为当前时刻系统输入动作,s′为系统下一时刻状态,r为根据抓持目标计算得到的奖励值。保存状态转移数据,得到数据集Data:
Data={(s1,a1,s2,r1),(s2,a2,s3,r2),...,(sn-1,an-1,sn,rn-1)}。
并使用Data训练Actor与Critic网络。
优先的对数据集Data进行模糊聚类,随机设置模糊聚类中心集C={c1,c2,...,ck},其中聚类中心c包含元素个数与系统状态s相同。计算数据集Data内每个状态s与每个聚类中心c的欧式距离d得到距离矩阵
Figure BDA0003460167260000071
其中dij=‖si-cj‖表示第i个状态与第j个聚类中心的欧式距离值。调整模糊聚类中心集C,使得距离矩阵Dt各元素平方和最小。计算数据集Data内状态s对聚类类别隶属度u得到隶属度矩阵
Figure BDA0003460167260000072
Figure BDA0003460167260000073
其中
Figure BDA0003460167260000074
表示第i个状态对第j个聚类类别的隶属度。
优先的对每个聚类类别进行动力学模型训练样本采样。根据隶属度矩阵U计算数据集Data状态s在每个类别中被采样概率p得到概率矩阵
Figure BDA0003460167260000075
其中
Figure BDA0003460167260000076
表示第i个状态在第j个聚类类别中被采样的概率,若状态si被采得,则(si,ai,s′i)作为一个训练样本。
优先的使用Pytorch深度神经网络框架搭建状态增量方向概率子网络模型fd,与状态增量增幅子网络模型fa。fd与fd的输入包含灵巧手与被抓持物体系统的状态s与灵巧手关节输入动作a,并由三层线性层、两层ReLu层、两层正负极性通道层构成,fd在网络尾部另设置有一层Sigmoid层。fd与fd的输出分别为系统状态变化量Δs的方向与绝对值。
对fd进行训练,设定损失函数为:
Jtrand(α)=E(s,a,s′)~Date(P)[(fd(s,a)-g(s′-s))2]+0.0005‖α‖2
其中
Figure BDA0003460167260000077
α为fd所有参数。
使用梯度下降法,优化器使用Adam。
对fa进行训练,设定损失函数为:
Jtrana(β)=E(s,a,s′)~Date(P)[(fa(s,a)-|s′-s|)2]+0.0005‖β‖2
其中β为fa所有参数。
使用梯度下降法,优化器使用Adam。
优先的使用包含状态增量方向概率子网络模型fd与状态增量增幅子网络模型fa的灵巧手动力学模型f,将当前灵巧手与被抓持物体的状态s与灵巧手关节输入动作a输入fd与fa,得到状态增量方向概率值与状态增量增幅值,从而得到下一时刻状态预测值
Figure BDA0003460167260000081
其中dir~fd(s,a)。
下面结合具体实施例,进一步阐明本发明。
本发明设计了一种基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,用于灵巧手强化学习抓持物体,抓持过程结构框图如图1。
步骤1:根据灵巧手三维模型与被抓持物体三维模型与动力学参数在MuJoCo仿真器中搭建仿真环境。设置灵巧手关节驱动器与关节角度、角速度、转矩传感器,灵巧手指尖触觉传感器,被抓持物体位置、速度传感器。设置呈高斯分布的外力噪声,施加于灵巧手关节与被抓持物体质心模拟真实环境中不可预测噪声干扰。系统状态s包含灵巧手关节角度、角速度、转矩、被抓持物体位置、速度、灵巧手指尖接触力。系统输入动作a包含灵巧手关节驱动器输出值。
步骤2:使用策略πθ,在MuJoCo仿真环境中根据当前系统状态s生成灵巧手关节驱动器动作a并进行仿真,得到下一时刻系统的状态s′、根据抓持目标计算得到当前奖励值r,状态转移概率P设置为1,即确定型环境,奖励折扣系数γ设为0.99。其中仿真时间步长为0.02秒。MDP数据保存在样本缓存区。根据样本缓存区内的数据训练Actor与Critic模型,采用SAC算法。
步骤3:对样本缓存区内的数据进行模糊聚类,首先确定模糊聚类的类别中心点个数,并随机化类别中心。再如图2计算样本与类别中心的欧式距离,并根绝总欧式距离平方值更新类别中心直至收敛。最后根据样本与类别中心的欧式距离计算对应类别隶属度,再根据隶属度求得该样本在该类别中被采样的概率。
步骤4:使用Pytorch深度神经网络框架搭建状态增量方向概率子网络模型fd,与状态增量增幅子网络模型fa。fd结构如图3,fa结构如图4。fd与fa的输入包含灵巧手与被抓持物体系统的状态s与灵巧手关节输入动作a,并由三层线性层、两层ReLu层、两层正负极性通道层构成,fd在网络尾部另设置有一层Sigmoid层。fd与fa的输出分别为系统状态变化量Δs的方向与绝对值。在步骤3中每个类别进行训练样本采样得到训练样本,并分别训练fd与fa
步骤5:使用包含状态增量方向概率子网络模型fd与状态增量增幅子网络模型fa的灵巧手动力学模型f。如图5所示,对样本缓存区采样得到状态s,再根据当前策略πθ生成动作a。将采样得到的状态s与动作a输入fd与fa,得到状态增量方向概率值与状态增量增幅值,进而得到下一时刻状态预测值
Figure BDA0003460167260000091
其中dir~fd(s,a)。再根据所设定的抓持目标计算得到奖励值
Figure BDA0003460167260000092
使用
Figure BDA0003460167260000093
训练Actor与Critic网络。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims (8)

1.一种基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,其特征在于,包括如下步骤:
步骤1:灵巧手使用SAC算法策略πθ在环境内同抓持物体交互并训练,采集系统状态转移数据并放入样本缓存区;
步骤2:设定模糊聚类的类别个数并对样本缓存区内状态转移数据进行模糊聚类;
步骤3:搭建包含状态增量方向概率子网络模型fd与状态增量增幅子网络模型fa的灵巧手动力学模型f;
步骤4:对模糊聚类的各类别依据隶属度生成样本采样概率,进行采样得到训练样本;
步骤5:灵巧手动力学模型训练,并进行环境系统状态预测。
2.根据权利要求1所述的基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,其特征在于,步骤1使用MuJoCo物理仿真引擎对灵巧手与被抓持物体进行抓持过程仿真,仿真环境不断产生呈高斯分布的外力与扭矩噪声施加在被抓持物体的质心与灵巧手关节转矩上,以模拟现实场景下随机的外力干扰;随着仿真器内部时间推移,灵巧手与被抓持物体的状态会发生变化,整个过程符合马尔可夫决策过程,用五元组<S,A,P,R,γ>表示,其中S表示灵巧手与被抓持物体构成的系统状态空间,A表示灵巧手关节动作空间,P表示状态转移概率,R表示奖励空间,γ表示奖励折扣系数。
3.根据权利要求1所述的基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,其特征在于,步骤1使用无模型强化学习算法SAC的Actor网络作为灵巧手控制策略πθ,将系统目标g设定为抓持物体至随机方位,若被抓持物体掉落则视为本次仿真结束并重置仿真环境,在仿真器中记录灵巧手与被抓持物体状态转移数据(s,a,s′,r),其中s为当前时刻系统状态,a为当前时刻系统输入动作,s′为系统下一时刻状态,r为根据抓持目标计算得到的奖励值,保存状态转移数据,得到数据集Data:
Data={(s1,a1,s2,r1),(s2,a2,s3,r2),...,(sn-1,an-1,sn,rn-1)};
并使用Data训练Actor与Critic网络。
4.根据权利要求3所述的基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,其特征在于,步骤2包括如下具体步骤:
对数据集Data进行模糊聚类,随机设置模糊聚类中心集C={c1,c2,...,ck},其中聚类中心c包含元素个数与系统状态s相同;计算数据集Data内每个状态s与每个聚类中心c的欧式距离d得到距离矩阵
Figure FDA0003460167250000021
其中dij=‖si-cj‖表示第i个状态与第j个聚类中心的欧式距离值;调整模糊聚类中心集C,使得距离矩阵Dt各元素平方和最小;计算数据集Data内状态s对聚类类别隶属度u得到隶属度矩阵
Figure FDA0003460167250000022
其中
Figure FDA0003460167250000023
表示第i个状态对第j个聚类类别的隶属度。
5.根据权利要求4所述的基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,其特征在于,步骤3包括如下具体步骤:
使用Pytorch深度神经网络框架搭建状态增量方向概率子网络模型fd,与状态增量增幅子网络模型fa;fd与fa的输入包含灵巧手与被抓持物体系统的状态s与灵巧手关节输入动作a,并由三层线性层、两层ReLu层、两层正负极性通道层构成,fd在网络尾部另设置有一层Sigmoid层;fd与fa的输出分别为系统状态变化量Δs的方向与绝对值。
6.根据权利要求3所述的基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,其特征在于,步骤4包括如下具体步骤:
对每个聚类类别进行动力学模型训练样本采样;根据隶属度矩阵U计算数据集Data状态s在每个类别中被采样概率p得到概率矩阵
Figure FDA0003460167250000031
其中
Figure FDA0003460167250000032
表示第i个状态在第j个聚类类别中被采样的概率,若状态si被采得,则(si,ai,s′i)作为一个训练样本。
7.根据权利要求6所述的基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,其特征在于,步骤5包括如下具体步骤:
对fd进行训练,设定损失函数为:
Jtrand(α)=E(s,a,s′)~Date(P)[(fd(s,a)-g(s′-s))2]+0.0005‖α‖2
其中
Figure FDA0003460167250000033
α为fd所有参数;
使用梯度下降法,优化器使用Adam;
对fa进行训练,设定损失函数为:
Jtrana(β)=E(s,a,s′)~Date(P)[(fa(s,a)-|s′-s|)2]+0.0005‖β‖2
其中β为fa所有参数;
使用梯度下降法,优化器使用Adam。
8.根据权利要求7所述的基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,其特征在于,步骤5使用包含状态增量方向概率子网络模型fd与状态增量增幅子网络模型fa的灵巧手动力学模型模型f,将当前灵巧手与被抓持物体的状态s与灵巧手关节输入动作a输入fd与fa,得到状态增量方向概率值与状态增量增幅值,从而得到下一时刻状态预测值
Figure FDA0003460167250000041
其中dir~fd(s,a)。
CN202210017100.XA 2022-01-07 2022-01-07 基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法 Active CN114415507B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210017100.XA CN114415507B (zh) 2022-01-07 2022-01-07 基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210017100.XA CN114415507B (zh) 2022-01-07 2022-01-07 基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法

Publications (2)

Publication Number Publication Date
CN114415507A true CN114415507A (zh) 2022-04-29
CN114415507B CN114415507B (zh) 2024-05-28

Family

ID=81272280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210017100.XA Active CN114415507B (zh) 2022-01-07 2022-01-07 基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法

Country Status (1)

Country Link
CN (1) CN114415507B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115816466A (zh) * 2023-02-02 2023-03-21 中国科学技术大学 一种提升视觉观测机器人控制稳定性的方法
CN116088307A (zh) * 2022-12-28 2023-05-09 中南大学 基于误差触发自适应稀疏辨识的多工况工业过程预测控制方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101317794A (zh) * 2008-03-11 2008-12-10 清华大学 多指多自由度假手用肌电控制能力检测训练方法
CN103592932A (zh) * 2013-12-02 2014-02-19 哈尔滨工业大学 具有多种感知功能的多指肌电假手模块化嵌入式控制系统
CN107030694A (zh) * 2017-04-20 2017-08-11 南京航空航天大学 腱驱动机械手腱张力约束末端力位操作控制方法和装置
CN109657706A (zh) * 2018-12-03 2019-04-19 浙江工业大学 基于高斯混合模型贝叶斯算法的柔性零件装配过程接触状态识别方法
CN110298886A (zh) * 2019-07-01 2019-10-01 中国科学技术大学 一种基于四级卷积神经网络的灵巧手抓取规划方法
CN112668190A (zh) * 2020-12-30 2021-04-16 长安大学 一种三指灵巧手控制器构建方法、系统、设备及存储介质
CN113657533A (zh) * 2021-08-24 2021-11-16 河海大学 一种面向时空场景构建的多元时间序列分割聚类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101317794A (zh) * 2008-03-11 2008-12-10 清华大学 多指多自由度假手用肌电控制能力检测训练方法
CN103592932A (zh) * 2013-12-02 2014-02-19 哈尔滨工业大学 具有多种感知功能的多指肌电假手模块化嵌入式控制系统
CN107030694A (zh) * 2017-04-20 2017-08-11 南京航空航天大学 腱驱动机械手腱张力约束末端力位操作控制方法和装置
CN109657706A (zh) * 2018-12-03 2019-04-19 浙江工业大学 基于高斯混合模型贝叶斯算法的柔性零件装配过程接触状态识别方法
CN110298886A (zh) * 2019-07-01 2019-10-01 中国科学技术大学 一种基于四级卷积神经网络的灵巧手抓取规划方法
CN112668190A (zh) * 2020-12-30 2021-04-16 长安大学 一种三指灵巧手控制器构建方法、系统、设备及存储介质
CN113657533A (zh) * 2021-08-24 2021-11-16 河海大学 一种面向时空场景构建的多元时间序列分割聚类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YUTAKA YOSHIDA 等: ""Neural and genetic basis of dexterous hand movements"", 《ELSEVIER LTD》, 24 April 2018 (2018-04-24) *
张凌峰 等: ""面向软体多指手的指尖接触力学建模"", 《高技术通讯》, vol. 30, no. 4, 30 April 2020 (2020-04-30), pages 391 - 401 *
蔡世波 等: ""机器人多指灵巧手的研究现状、趋势与挑战"", 《机械工程学报》, vol. 57, no. 15, 31 August 2021 (2021-08-31), pages 1 - 14 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116088307A (zh) * 2022-12-28 2023-05-09 中南大学 基于误差触发自适应稀疏辨识的多工况工业过程预测控制方法、装置、设备及介质
CN116088307B (zh) * 2022-12-28 2024-01-30 中南大学 基于误差触发自适应稀疏辨识的多工况工业过程预测控制方法、装置、设备及介质
CN115816466A (zh) * 2023-02-02 2023-03-21 中国科学技术大学 一种提升视觉观测机器人控制稳定性的方法

Also Published As

Publication number Publication date
CN114415507B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
Muratore et al. Data-efficient domain randomization with bayesian optimization
Peters et al. Reinforcement learning by reward-weighted regression for operational space control
CN111483468B (zh) 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统
WO2020207219A1 (zh) 一种利用环境预测优化非模型机器人多轴孔装配控制方法
Bhattacharyya et al. Simulating emergent properties of human driving behavior using multi-agent reward augmented imitation learning
CN110991027A (zh) 一种基于虚拟场景训练的机器人模仿学习方法
Leottau et al. Decentralized reinforcement learning of robot behaviors
CN112232490B (zh) 一种基于视觉的深度模仿强化学习驾驶策略训练方法
Billard et al. Discovering optimal imitation strategies
Rubies-Royo et al. A classification-based approach for approximate reachability
CN109702740B (zh) 机器人柔顺性控制方法、装置、设备及存储介质
CN114415507A (zh) 基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法
CN111260027A (zh) 一种基于强化学习的智能体自动决策方法
Yao et al. Direct policy transfer via hidden parameter markov decision processes
CN107633105B (zh) 一种基于改进混合蛙跳算法的四旋翼无人机参数辨识方法
Belmonte-Baeza et al. Meta reinforcement learning for optimal design of legged robots
CN113419424B (zh) 减少过估计的模型化强化学习机器人控制方法及系统
Xiao et al. A deep learning framework based on Koopman operator for data-driven modeling of vehicle dynamics
Kebria et al. Deep imitation learning: The impact of depth on policy performance
Liu et al. Active object detection based on a novel deep Q-learning network and long-term learning strategy for the service robot
CN114310888B (zh) 一种协作机器人可变刚度运动技能学习与调控方法及系统
CN115366099A (zh) 基于正向运动学的机械臂深度确定性策略梯度训练方法
Ma et al. An efficient robot precision assembly skill learning framework based on several demonstrations
Guo et al. Modeling, learning and prediction of longitudinal behaviors of human-driven vehicles by incorporating internal human DecisionMaking process using inverse model predictive control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant