CN112862885B - 一种基于深度强化学习的柔性物体展开方法 - Google Patents
一种基于深度强化学习的柔性物体展开方法 Download PDFInfo
- Publication number
- CN112862885B CN112862885B CN202110086148.1A CN202110086148A CN112862885B CN 112862885 B CN112862885 B CN 112862885B CN 202110086148 A CN202110086148 A CN 202110086148A CN 112862885 B CN112862885 B CN 112862885B
- Authority
- CN
- China
- Prior art keywords
- neural network
- network
- return
- flexible object
- actor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000002787 reinforcement Effects 0.000 title claims abstract description 14
- 230000009471 action Effects 0.000 claims abstract description 50
- 230000006870 function Effects 0.000 claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims description 65
- 230000006399 behavior Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000000877 morphologic effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/62—Analysis of geometric attributes of area, perimeter, diameter or volume
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Geometry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于深度强化学习的柔性物体展开方法。设置训练的智能体,设置柔性物体展开的回报r,将机械臂与柔性物体的距离设置为负回报,距离越近回报值越靠近0;将柔性物体展开好坏设置为正回报,展开的面积越大正回报的值越大。本发明采用深度强化学习DDPG,基于确定动作策略的Actor‑Critic算法框架,内部期望的求解就被避免,外部期望只需根据环境求期望即可,动作‑状态值函数Q只和环境有关系,可以使用off‑policy来更新值函数。DDPG通过”soft”target updates的方式来保证参数可以缓慢的更新,可以使柔性物体展开和挂进衣架达到好的效果。
Description
技术领域:
本发明属于深度强化学习技术领域,特别涉及一种基于深度强化学习的柔性物体展开方法。
背景技术:
柔性物体如衣物在挂进衣架之前需要将衣物展开,衣物展开的好坏直接影响衣物能否挂入衣架。现在的自动挂衣设备在展开衣物时,采用强化学习DQN来实现。强化学习DQN只能处理离散的、低维的动作空间。DQN不能直接处理连续的动作的原因是它依赖于在每一次最优迭代中寻找动作值函数的最大值(表现为在Q神经网络中输出每个动作的值函数),针对连续动作空间DQN没有办法输出每个动作的动作值函数,因此,衣物展开的效果并不好。
解决上述连续动作空间问题的一个简单方法是将动作空间离散化,但是动作空间是随着动作的自由度呈指数增长的,所以针对大部分任务来说这个方法是不现实的。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
发明内容:
本发明的目的在于提供一种基于深度强化学习的柔性物体展开方法,从而克服上述现有技术中的缺陷。
为实现上述目的,本发明提供了一种基于深度强化学习的柔性物体展开方法,其步骤为:(1)设置训练的智能体,设置柔性物体展开的回报r,将机械臂与柔性物体的距离设置为负回报,距离越近回报值越靠近0;将柔性物体展开好坏设置为正回报,展开的面积越大正回报的值越大;
(2)智能体基于确定动作策略的Actor-Critic构架,包括Current网络、Target网络,Current网络包括Actorμ神经网络、Critic Q神经网络,Target网络包括Actorμ'神经网络、Critic Q'神经网络;
(3)Current网络采用“soft”target updates的方式更新网络参数值,更新的网络参数值方程为:
θ′←τθ+(1-τ)θ′withτ<<1 ①
其中,τ为类似于γ的折扣率,决定了加入Current网络的网络参数的多少,而1-τ为保留Target网络参数的多少,θ’为Target网络的网络参数,θ为Current网络的网络参数;
(4)Current网络的Actorμ神经网络直接输出动作策略,Critic Q神经网络负责对输出的策略进行评分;对于Actorμ神经网络的训练,使用梯度上升法使评分最大,梯度上升法公式为:
其中,为使用梯度上升法训练出Actorμ神经网络中最好的参数θ,Eμ′为对Actorμ神经网络输出的动作值以及其Critic Q神经网络对该动作的评分值(Q(s,α|θ))的乘积取期望,/>为对状态为st时Actorμ神经网络输出的动作值与状态为st时Critic Q神经网络对该动作的评分值的乘积分别使用梯度上升法来训练更新网络参数θμ;
对于Critic Q神经网络的训练,借助Target网络的Actorμ'神经网络、Critic Q'神经网络,把下一个状态St+1输入到Actorμ神经网络和Critic Q神经网络得到下一个状态的动作策略αt+1以及评分Q,Critic Q神经网络学习方程为:
Qμ(st,at)=E[r(st,at)+γQμ(st+1,μ(st+1))] ③
其中,r(st,αt)函数表示环境在状态st执行行为αt后,返回的回报;γ为折扣率,Qμ(st+1,μ(st+1))函数表示在Actorμ神经网络中状态为st+1时基于动作策略αt+1得到的评分Q,E表示对回报与下一个状态评分的和求期望;
根据这个评分Q以及回报r跟当前网络得到的评分Q使用均方差损失函数进行训练,Critic Q神经网络对网络参数θ的更新采用TD error方式,均方差损失函数的方程为:
L(θQ)=Eμ'[(Q(st,at|θQ)-yt)2] ④
其中,Q(st,at|θQ)为Critic Q神经网络输出的动作策略的评分,yt为目标值,将当前输出的动作策略的评分与yt看齐,从而来训练当前的动作策略的评分;yt的求解为:
yt=r(st,at)+γQ(st+1,μ(st+1)|θQ) ⑤
其中yt也就是式③中回报与下一个状态评分的和;
(5)训练完成后的智能体使用时只会用到Actorμ神经网络,输入当前状态S就会输出当前状态S下对应的最好的动作策略A,得到的回报r最大化,将柔性物体展开。
优选地,技术方案中,在训练时,会设置一个经验池来存放数据,数据包括状态st,动作αt,回报r,下一个状态st+1,这些数据可以随机取一批来进行训练,来加快训练速度以及解决数据关联性太大的问题。
优选地,技术方案中,设置训练的智能体为两个,一个智能体负责将柔性物体展开,一个智能体负责将柔性物体挂在衣架上。
优选地,技术方案中,设置柔性物体挂在衣架程度的回报,将衣架分为对称的a、b两边,a边上设置有挂衣程度最好的A点,b边上设置有挂衣程度最好的B点,A点和B点对称设置;对于a边,将柔性物体的一端没有超过衣架的中间时得到的回报作为正回报,且柔性物体越靠近A点得到的正回报值越大,如果柔性物体的一端刚好在衣架的中间则回报值变为0,如果柔性物体的一端超过了衣架的中间则回报值变为负值;对于b边,回报值的变化与a边相同。
与现有技术相比,本发明具有如下有益效果:
采用深度强化学习DDPG,基于确定动作策略的Actor-Critic算法框架,内部期望的求解就被避免,外部期望只需根据环境求期望即可,动作-状态值函数Q只和环境有关系,可以使用off-policy来更新值函数。DDPG通过”soft”target updates的方式来保证参数可以缓慢的更新,可以使柔性物体展开和挂进衣架达到好的效果。
具体实施方式:
下面对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
一种基于深度强化学习的柔性物体展开方法,其步骤为:(1)设置两个训练的智能体,一个智能体负责将柔性物体展开,一个智能体负责将柔性物体挂在衣架上;设置柔性物体展开的回报r1,将机械臂与柔性物体的距离设置为负回报,距离越近回报值越靠近0;将柔性物体展开好坏设置为正回报,展开的面积越大正回报的值越大;设置柔性物体挂在衣架程度的回报r2,将衣架分为对称的a、b两边,a边上设置有挂衣程度最好的A点,b边上设置有挂衣程度最好的B点,A点和B点对称设置;对于a边,将柔性物体的一端没有超过衣架的中间时得到的回报作为正回报,且柔性物体越靠近A点得到的正回报值越大,如果柔性物体的一端刚好在衣架的中间则回报值变为0,如果柔性物体的一端超过了衣架的中间则回报值变为负值;对于b边,回报值的变化与a边相同;
(2)智能体基于确定动作策略的Actor-Critic构架,包括Current网络、Target网络,Current网络包括Actorμ神经网络、Critic Q神经网络,Target网络包括Actorμ'神经网络、Critic Q'神经网络;
(3)Current网络采用“soft”target updates的方式更新网络参数值,更新的网络参数值方程为:
θ′←τθ+(1-τ)θ′withτ<<1 ①
其中,τ为类似于γ的折扣率,决定了加入Current网络的网络参数的多少,而1-τ为保留Target网络参数的多少,θ’为Target网络的网络参数,θ为Current网络的网络参数;
(4)Current网络的Actorμ神经网络直接输出动作策略,Critic Q神经网络负责对输出的策略进行评分;对于Actorμ神经网络的训练,使用梯度上升法使评分最大,梯度上升法公式为:
其中,为使用梯度上升法训练出Actorμ神经网络中最好的参数θ,Eμ′为对Actorμ神经网络输出的动作值以及其Critic Q神经网络对该动作的评分值(Q(s,α|θ))的乘积取期望,/>为对状态为st时Actorμ神经网络输出的动作值与状态为st时Critic Q神经网络对该动作的评分值的乘积分别使用梯度上升法来训练更新网络参数θμ;
对于Critic Q神经网络的训练,借助Target网络的Actorμ'神经网络、Critic Q'神经网络,把下一个状态St+1输入到Actorμ神经网络和Critic Q神经网络得到下一个状态的动作策略αt+1以及评分Q,Critic Q神经网络学习方程为:
Qμ(st,at)=E[r(st,at)+γQμ(st+1,μ(st+1))] ③
其中,r(st,αt)函数表示环境在状态st执行行为αt后,返回的回报;γ为折扣率,Qμ(st+1,μ(st+1))函数表示在Actorμ神经网络中状态为st+1时基于动作策略αt+1得到的评分Q,E表示对回报与下一个状态评分的和求期望;
根据这个评分Q以及回报r跟当前网络得到的评分Q使用均方差损失函数进行训练,Critic Q神经网络对网络参数θ的更新采用TD error方式,均方差损失函数的方程为:
L(θQ)=Eμ'[(Q(st,at|θQ)-yt)2] ④
其中,Q(st,at|θQ)为Critic Q神经网络输出的动作策略的评分,yt为目标值,将当前输出的动作策略的评分与yt看齐,从而来训练当前的动作策略的评分;yt的求解为:
yt=r(st,at)+γQ(st+1,μ(st+1)|θQ) ⑤
其中yt也就是式③中回报与下一个状态评分的和;设置一个经验池来存放数据,数据包括状态st,动作αt,回报r,下一个状态st+1,这些数据可以随机取一批来进行训练,来加快训练速度以及解决数据关联性太大的问题;
(5)训练完成后的智能体使用时只会用到Actorμ神经网络,输入当前状态S就会输出当前状态S下对应的最好的动作策略A,得到的回报r最大化,将柔性物体展开。
表1为三种不同方法对柔性物体处理所需时间和效果的对比
方法1采用本专利申请方案进行柔性物体处理,根据柔性物体初始状态的不同维持在2-3分钟,挂进衣架维持在2分钟左右,共需4-5分钟时间,可以很好地完成柔性物体展开和挂进衣架的要求。
方法2采用深度学习相关算法对柔性物体处理,根据类别给出机器下一步要抓取的点位,不断进行调整至柔性物体展开并给出关键点给机器,机器将通过抓取关键点将柔性物体挂在衣架上,以上的关键点均通过深度学习相关算法给出,整个第一部分持续时间根据柔性物体的初始状态维持在1-5分钟不等。在第二部分不涉及算法直接根据人为定死的步骤将柔性物体挂在衣架上,因此第二部分时间较短,基本在1分钟左右。所以,整个过程时间维持在2-6分钟左右。最终效果根据第一部分展开阶段给出的点不同,深度学习算法给出点存在误差,存在不稳定的情况,有时候能成功,有时候不能。
方法3采用深度学习相关算法对柔性物体初始状态进行分类,并根据类别使用形态学相关算法给出要抓取的点位,不断进行调整至柔性物体展开并给出关键点给机器,机器将通过抓取关键点将柔性物体挂在衣架上,以上的关键点均通过形态学相关算法给出,整个第一部分持续时间根据柔性物体的初始状态维持在0.5-3分钟不等。在第二部分基本维持在1分钟左右。所以,整个过程时间维持在1.5-4分钟左右。最终效果根据第一部分展开阶段给出的点不同,形态学算法给出点存在误差,该误差比深度学习给出的误差还要大一点,存在不稳定的情况,即使挂进也只能挂进一小部分。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。
Claims (2)
1.一种基于深度强化学习的柔性物体展开方法,其特征在于:步骤为(1)设置训练的智能体,设置柔性物体展开的回报r,将机械臂与柔性物体的距离设置为负回报,距离越近回报值越靠近0;将柔性物体展开好坏设置为正回报,展开的面积越大正回报的值越大;设置训练的智能体为两个,一个智能体负责将柔性物体展开,一个智能体负责将柔性物体挂在衣架上;设置柔性物体挂在衣架程度的回报,将衣架分为对称的a、b两边,a边上设置有挂衣程度最好的A点,b边上设置有挂衣程度最好的B点,A点和B点对称设置;对于a边,将柔性物体的一端没有超过衣架的中间时得到的回报作为正回报,且柔性物体越靠近A点得到的正回报值越大,如果柔性物体的一端刚好在衣架的中间则回报值变为0,如果柔性物体的一端超过了衣架的中间则回报值变为负值;对于b边,回报值的变化与a边相同;
(2)智能体基于确定动作策略的Actor-Critic构架,包括Current网络、Target网络,Current网络包括Actorμ神经网络、Critic Q神经网络,Target网络包括Actorμ'神经网络、Critic Q'神经网络;
(3)Current网络采用“soft”target updates的方式更新网络参数值,更新的网络参数值方程为:
θ′←τθ+(1-τ)θ′withτ<<1 ①
其中,τ为类似于γ的折扣率,决定了加入Current网络的网络参数的多少,而1-τ为保留Target网络参数的多少,θ’为Target网络的网络参数,θ为Current网络的网络参数;
(4)Current网络的Actorμ神经网络直接输出动作策略,Critic Q神经网络负责对输出的策略进行评分;对于Actorμ神经网络的训练,使用梯度上升法使评分最大,梯度上升法公式为:
其中,为使用梯度上升法训练出Actorμ神经网络中最好的参数θ,Eμ′为对Actorμ神经网络输出的动作值以及其Critic Q神经网络对该动作的评分值(Q(s,α|θ))的乘积取期望,/>为对状态为st时Actorμ神经网络输出的动作值与状态为st时Critic Q神经网络对该动作的评分值的乘积分别使用梯度上升法来训练更新网络参数θμ;
对于Critic Q神经网络的训练,借助Target网络的Actorμ'神经网络、Critic Q'神经网络,把下一个状态St+1输入到Actorμ神经网络和Critic Q神经网络得到下一个状态的动作策略αt+1以及评分Q,Critic Q神经网络学习方程为:
Qμ(st,at)=E[r(st,at)+γQμ(st+1,μ(st+1))] ③
其中,r(st,αt)函数表示环境在状态st执行行为αt后,返回的回报;γ为折扣率,Qμ(st+1,μ(st+1))函数表示在Actorμ神经网络中状态为st+1时基于动作策略αt+1得到的评分Q,E表示对回报与下一个状态评分的和求期望;
根据这个评分Q以及回报r跟当前网络得到的评分Q使用均方差损失函数进行训练,Critic Q神经网络对网络参数θ的更新采用TD error方式,均方差损失函数的方程为:
L(θQ)=Eμ'[(Q(st,at|θQ)-yt)2] ④
其中,Q(st,at|θQ)为Critic Q神经网络输出的动作策略的评分,yt为目标值,将当前输出的动作策略的评分与yt看齐,从而来训练当前的动作策略的评分;yt的求解为:
yt=r(st,at)+γQ(st+1,μ(st+1)|θQ) ⑤
其中yt也就是式③中回报与下一个状态评分的和;
(5)训练完成后的智能体使用时只会用到Actorμ神经网络,输入当前状态S就会输出当前状态S下对应的最好的动作策略A,得到的回报r最大化,将柔性物体展开。
2.根据权利要求1所述的基于深度强化学习的柔性物体展开方法,其特征在于:步骤(4)中,在训练时,会设置一个经验池来存放数据,数据包括状态st,动作αt,回报r,下一个状态st+1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110086148.1A CN112862885B (zh) | 2021-01-22 | 2021-01-22 | 一种基于深度强化学习的柔性物体展开方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110086148.1A CN112862885B (zh) | 2021-01-22 | 2021-01-22 | 一种基于深度强化学习的柔性物体展开方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112862885A CN112862885A (zh) | 2021-05-28 |
CN112862885B true CN112862885B (zh) | 2023-07-21 |
Family
ID=76007833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110086148.1A Active CN112862885B (zh) | 2021-01-22 | 2021-01-22 | 一种基于深度强化学习的柔性物体展开方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112862885B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110399920A (zh) * | 2019-07-25 | 2019-11-01 | 哈尔滨工业大学(深圳) | 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质 |
WO2020056875A1 (zh) * | 2018-09-20 | 2020-03-26 | 初速度(苏州)科技有限公司 | 一种基于深度强化学习的停车策略 |
CN111008449A (zh) * | 2019-04-26 | 2020-04-14 | 成都蓉奥科技有限公司 | 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
PL2791931T3 (pl) * | 2011-12-13 | 2018-11-30 | Nexus Developments Limited | Sposób i urządzenie do rozkładania i utrzymywania przedmiotu podatnego |
US10860926B2 (en) * | 2018-05-18 | 2020-12-08 | Deepmind Technologies Limited | Meta-gradient updates for training return functions for reinforcement learning systems |
-
2021
- 2021-01-22 CN CN202110086148.1A patent/CN112862885B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020056875A1 (zh) * | 2018-09-20 | 2020-03-26 | 初速度(苏州)科技有限公司 | 一种基于深度强化学习的停车策略 |
CN111008449A (zh) * | 2019-04-26 | 2020-04-14 | 成都蓉奥科技有限公司 | 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法 |
CN110399920A (zh) * | 2019-07-25 | 2019-11-01 | 哈尔滨工业大学(深圳) | 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112862885A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sutton et al. | Online learning with random representations | |
CN112668235B (zh) | 基于离线模型预训练学习的ddpg算法的机器人控制方法 | |
Saltzman et al. | Skill acquisition and development: The roles of state-, parameter-, and graph-dynamics | |
Cho et al. | Improved learning of Gaussian-Bernoulli restricted Boltzmann machines | |
Torrey et al. | Relational macros for transfer in reinforcement learning | |
Munro | A dual back-propagation scheme for scalar reward learning | |
CN109345515B (zh) | 样本标签置信度计算方法、装置、设备及模型训练方法 | |
CN111695690A (zh) | 基于合作式强化学习与迁移学习的多智能体对抗决策方法 | |
JP3178393B2 (ja) | 行動生成装置、行動生成方法及び行動生成プログラム記録媒体 | |
CN111856925B (zh) | 基于状态轨迹的对抗式模仿学习方法及装置 | |
CN106846364A (zh) | 一种基于卷积神经网络的目标跟踪方法及装置 | |
CN113487039B (zh) | 基于深度强化学习的智能体自适应决策生成方法及系统 | |
CN111352419B (zh) | 基于时序差分更新经验回放缓存的路径规划方法及系统 | |
CN112862885B (zh) | 一种基于深度强化学习的柔性物体展开方法 | |
Dwivedi et al. | Emergence of clustering: Role of inhibition | |
CN109754057B (zh) | 一种结合速度扰动机制混沌蝗虫算法的减速器自重设计方法 | |
CN114137967B (zh) | 基于多网络联合学习的驾驶行为决策方法 | |
CN107798384B (zh) | 一种基于可进化脉冲神经网络的鸢尾花卉分类方法和装置 | |
CN118181285A (zh) | 一种基于演示增强深度确定性策略梯度的可变形物体机器人操作方法 | |
CN108453737A (zh) | 一种基于神经网络的机器人动作轨迹获取系统及方法 | |
CN116451557A (zh) | 用于控制机器狗行进的智能体强化学习方法与装置 | |
JPH10340192A (ja) | ファジー論理制御装置及びその非ファジー化方法 | |
Duan et al. | Recognising known configurations of garments for dual-arm robotic flattening | |
Su et al. | Incremental self-growing neural networks with the changing environment | |
Babes et al. | Q-learning in two-player two-action games |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |