CN111241952A - 一种离散制造场景中的强化学习奖励自学习方法 - Google Patents
一种离散制造场景中的强化学习奖励自学习方法 Download PDFInfo
- Publication number
- CN111241952A CN111241952A CN202010005909.1A CN202010005909A CN111241952A CN 111241952 A CN111241952 A CN 111241952A CN 202010005909 A CN202010005909 A CN 202010005909A CN 111241952 A CN111241952 A CN 111241952A
- Authority
- CN
- China
- Prior art keywords
- network
- state
- reward
- gpr
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2136—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种离散制造场景中的强化学习奖励自学习方法,包括如下步骤:对当前生产线的工序细化g∈G={g1,g2,…,gN},智能体到达预定目标g记录为一个交互序列episode,根据初始参数获得g1作为目标对应的多段episodes,将episodes中的状态动作以及状态的差值△作为训练数据集输入GPR模块,得到基于状态差分的系统状态转移模型;智能体Agent继续与环境进行交互,获得新的状态st,Reward网络输出r(st),Actor网络输出a(st),Critic网络输出V(st),GPR模块输出值函数Vg作为整体的更新方向;当|Vg‑V(st)|<ε时,则认为当前工序下的奖励函数学习完毕,并进行Reward网络的参数保存;继续进行交互,产生以下一个子目标gn+1作为更新方向的episodes,用于GPR的更新;当设定目标G={g1,g2,…,gN}全部依次实现时,完成生产线的工艺学习。
Description
技术领域
本发明涉及深度强化学习技术领域,更具体的,涉及一种离散制造场景中的强化学习奖励学习方法。
背景技术
制造业按其产品制造工艺过程特点总体上可以划分为流程制造和离散制造。相比于流程制造,离散制造的产品往往由多个零件经过一系列并不连续的工序加工装配而成,主要包括机械加工、机床等加工、组装性行业。
针对离散型制造企业的加工生产过程。整个工艺生产过程常常分解成很多个加工任务,而每一个加工任务需要的占用的加工资源不多,但零件从一个工作环节到另一个工作环节,之间常进行不同类型和要求的多种加工任务。又因离散型企业产品定制程度高,不同的订单有不同的工艺需求,导致了其零件加工工艺及设备使用过于灵活,使其品质控制上难度高。现有的MES(Manufacturing Execution System)是对整个车间制造过程的优化,而不是单一解决某个生产工序的加工设备控制问题,因此在每一个生产单元中,按目前的主流方案,当从生产A产品切换到生产B产品时,往往需要人工切换设备的制程工艺,生产过程中包括设备使用等多数情况下还是依赖于操作者的技术、经验,但是在此之前并没有将深度强化学习引入生产线的先例。
强化学习中的奖励是Agent与环境交互后由环境返回的标量信号,奖励为 Agent做出的决策提供评估性反馈,没有精心设计的奖励信号会让强化学习算法产生非常差的结果,因此设计合适的奖励一直是强化学习领域的研究热点。对于不同的应用场景,不同的控制目标,需要设计不同的奖励,常见的有如使用[-1,1] 区间的标量奖励信号,有偏好的评价上一个动作对于学习目标的好坏,或者是用一个正值代表达到目标,中间过程使用一个较小的负值作为奖励反馈。奖励的设计中还存在着一种情况就是,环境能够反馈奖励信号,但是最大化累计奖励的策略并不总能达到预期目标,例如OpenAI发布的平台Universe上的游戏 CoastRunners中,Agent也即是游戏中的船,目标一是完成比赛,二是收集环境中的得分目标,在训练中出现了Agent停留在一处不断的获取金币奖励,以另外一种不理想的策略获得更高的奖励。因此相同的框架,奖励函数设置的好坏,直接影响到Agent学习的结果。同时一个采用强化学习算法训练过的Agent,只能根据设计的奖励达到单次的训练目标
发明内容
本发明为了解决现有的离散制造生产线中,产品制造的各工序控制参数的调节,主要依靠工作人员的工作经验完成的问题,提供了一种离散制造场景中的强化学习奖励自学习方法,其采用深度强化学习的方法,实现生产线设备控制参数的学习。
为实现上述本发明目的,采用的技术方案如下:一种离散制造场景中的强化学习奖励自学习方法,包括如下步骤:
S1:对当前生产线的工序进行细化g∈G={g1,g2,…,gN},其中g为细化后当前工序需达到的目标所对应的状态,智能体Agent到达预定目标g记录为一个交互序列episodes,根据初始参数获得g1作为目标对应的多段episodes,进行GPR 模块的训练;
S3:根据智能体Agent获得的环境反馈状态st,将新的状态st同步输入GRP 模块、Reward网络、Actor网络、Critic网络中,则Reward网络输出r(st), Actor网络输出a(st),Critic网络输出V(st),所述的GPR模块根据S2中推导获得的状态转移模型最终输出值函数Vg并作为整体的更新方向;
S4:当|Vg-V(st)|<ε时,为了避免假阳性,人为判断是否完成当前目标下工序的学习,若完成,则认为实现该段工序的学习,即当前工序下的奖励函数也即Reward网络学习完毕,并进行Reward网络的参数保存;根据Reward网络的参数、Actor网络的参数、Critic网络的参数继续进行交互,产生以下一个子目标gn+1作为更新方向的episodes,用于GPR的更新;
S5:当设定目标G={g1,g2,…,gN}全部依次实现时,完成了生产线的工艺学习,并得到了能够进行动作评估的奖励函数,即Reward网络;
S6:然后移除GPR模块,根据现有网络参数,采用计算量低的强化学习算法在线运行。
优选地,步骤S2,得到系统状态转移模型st+1=f(st,at)的具体步骤如下:
S201:先构建状态差分模型,通过引入差分变量Δt=st+1-st+ε,
假设△t服从高斯分布,根据高斯分布自共轭,st同样服从高斯分布,即可表示为其中,μt+1=st+Ef[Δt+1],∑t+1=varf[Δt+1],st为t时刻环境反馈给智能体Agent的状态,可以是一个多维特征的输入,st+1为GPR模块预测的下一状态,at为智能体Agent采取的动作,对应于当前工序中的状态输入对应的各维控制参数向量;以特征为一维进行推导示例即
S203:采用核函数来衡量两个量的相似性,
S204:利用最小化负对数边缘似然对GPR模块进行训练:
其中K为指数平方核的协方差矩阵。
所预测的后验分布同为高斯分布,可表示为:
其中:
从而得到状态差分模型。
当输入状态特征为M维的情况:
相当于对每一维度进行一次以上的推导。
S207:根据状态转移模型推导后续状态分布p(st+1),可由下式推导得出:
均值μt+1=μt+μ△
方差∑t+1=∑t+∑△+cov(st,△)+cov(△,st)
所述的GPR模块根据步骤S207推导得出预测的p(st+1)。
进一步地,根据以上推导得出状态转移模型让GPR模块实现策略评估,即得到GPR模块的最终输出值函数Vg,并作为当前Reward网络、Critic网络的更新方向;其中所述的值函数表示如下:
再进一步地,根据得到值函数Vg,对Actor网络的参数采用基于梯度策略搜索方法进行更新:
再进一步地,所述的Reward网络以当前的状态、动作为输入,输出为奖励信号r(st),通过Critic网络的输出V(st)与GPR模块中预测的下一状态st+1对应的值函数的均方差,即作为损失函数,进行网络的更新。
本发明的有益效果如下:
1.本发明基于强化学习中的Actor-Critic框架,引入了GPR模块,对于离散制造场景中存在的工序多,奖励稀疏难设计的状况,实现奖励的自学习,对变化的场景更具有自适应性。通过对离散制造中生产线A各个工序进行学习,生成每个工序的Reward网络、Actor网络,对应于各工序中适用的奖励函数和设备不同状态输入下的控制参数。同样的框架可以重新应用于生产线B的工艺学习,达到多场景自适应的特点。
2.本发明通过引入了基于状态差分模型的高斯过程建模方法,利用过去成功交互的多段episodes进行值函数评估,进而给出更加合理的策略更新方向。对于离散制造场景定制程度高、多工序的特点,这种方法有更高的生产自适应性。
附图说明
图1是实施例1所述的强化学习奖励自学习方法的步骤流程图。
图2是实施例1所述的强化学习的示意图。
图3是实施例1所述的强化学习奖励自学习方法的处理框图。
图4是实施例1所述的Actor网络的示意图。
图5是实施例1所述的Reward网络的示意图。
图6是实施例1所述的Critic网络的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做详细描述。
实施例1
在强化学习中最核心的概念就是奖励函数,奖励函数向学习过程中的智能体Agent显示当前状态下采取不同动作的反馈结果,相当于我们通过奖励函数,对学习任务具体化。但是强化学习问题中面临着奖励需要针对不同的场景手动设置才能达到最佳效果的特点,导致了同一套算法对不同场景的适用性不强。
因此本实施例提出了一种离散制造场景中的强化学习奖励自学习方法,如图 1所示,其引入了基于模型的强化学习方法(即用已有的数据学习出环境的模型 p(st+1|st,at),对应于GPR部分,只不过GPR部分先学习出来是状态的差分,推导得出下一个状态st+1的分布),通过智能体Agent与环境的弱交互,以及观测者对初始交互序列的筛选,自动学习不同场景下的奖励函数,如图2所示,在训练的过程中智能体Agent与环境的交互信息只剩下状态xt和动作a(st),这里的xt对应于当前场景t时刻下的生产线上设备多维状态向量,a(st)对应于当前场景t 时刻下的多维状态所对应的多维控制参数。
该方法具体包括如下步骤:
S1:对当前生产线的工序进行细化g∈G={g1,g2,…,gN},其中g为细化后当前工序需达到的目标所对应的状态,智能体Agent到达预定目标g记录为一个交互序列episode,根据初始参数获得g1作为目标对应的多段episodes;
S2:如图3所示,引入基于模型的强化学习方法,通过智能体Agent与环境的弱交互,以及观测者对初始交互序列的筛选,自动学习不同场景下的奖励函数。在训练的过程中智能体Agent与环境的交互信息只剩下状态xt和动作a(st),这里的xt对应于当前场景t时刻下的生产线上设备多维状态向量,a(st)对应于当前场景t时刻下的多维状态所对应的多维控制参数。
其中,得到系统状态转移模型st+1=f(st,at)的具体步骤如下:
其中本实施例所述的高斯过程(Gaussian processes)是一个非参数模型,依赖于样本数据来进行预测估计,是机器学习领域里监督学习中的一种函数逼近方法,该方法的目的是利用样本数据来捕捉整个函数的分布,拟合现有数据较为方便,而且能给出不确定性范围,可用于对所生成数据的置信度进行判断。
由于本实施例目的是学习出一条生产线各工艺流程对应的奖励函数,而值函数是累积奖励的期望,这就导致如果用高斯过程直接根据单次输入进行直接的值函数预测效果将会不理想,因此本实施例采用高斯过程对状态的差分进行建模的方法构建基于状态差分的状态转移模型(即根据新的输入,得到预测状态差分△,最后推导得出p(st+1))。
S201:先构建状态差分模型,通过引入差分变量Δt=st+1-st+ε,
假设△t服从高斯分布,根据高斯分布自共轭,st同样服从高斯分布,即可表示为其中,μt+1=st+Ef[Δt+1],∑t+1=varf[Δt+1],st为t时刻环境反馈给智能体Agent的状态,可以是一个多维特征的输入,类似于从设备上采集到的工艺参数,所述的工艺参数包括位置,速度,角速度,温度,压强等,st+1为GPR模块预测的下一状态,at为智能体 Agent采取的动作,对应于当前工序中的状态输入对应的各维控制参数向量;以特征为一维进行推导示例即
S203:采用核函数来衡量两个量的相似性,所述核函数包括指数平方核,本实施例采用指数平方核来衡量两个量的相似性,
S204:利用最小化负对数边缘似然对GPR模块进行训练:
其中K为指数平方核的协方差矩阵;
所预测的后验分布同为高斯分布,可表示为:
其中:
从而得到状态差分模型。
当输入状态特征为M维的情况:
这里是从状态特征维数为1到状态特征维数为M的扩充,所述的状态特征为位置,速度,角速度,温度,压强时,M=5;
相当于对每一维度进行一次以上的推导。
S207:通过状态转移模型推导后续状态分布p(st+1),可由下式推导得出:
均值μt+1=μt+μ△
方差∑t+1=∑t+∑△+cov(st,△)+cov(△,st)
所述的GPR模块根据步骤S207推导得出预测的p(st+1)。
根据以上推导得出状态转移模型让GPR模块实现策略评估,即并通过同样的方法推导得出p(st+2)直到p(sT),从而得到GPR模块的最终输出值函数Vg,并作为当前Reward网络、Critic网络的更新方向;其中所述的值函数表示如下:
值函数Vg是概率分布p(st+1)到概率分布p(sT),分别关于c(st+1)到c(sT)求期望(∫c(st+1)p(st+1)dst+1),再求和的结果。
这里的st+1、st+2、sT都是通过训练过的GPR模型推出来的,是求取Vg的需要,并不是与真实环境交互获得的状态。
根据得到值函数Vg,对Actor网络的参数采用基于梯度策略搜索方法进行更新:
S3:根据智能体Agent获得的环境反馈状态st,将新的状态st同步输入GRP 模块、Reward网络、Actor网络、Critic网络中,则Reward网络输出r(st), Actor网络输出a(st),Critic网络输出V(st),所述的GPR模块根据S2中推导获得的状态转移模型最终输出值函数Vg并作为整体的更新方向;
S4:当|Vg-V(st)|<ε时,为了避免假阳性,人为判断是否完成当前目标下工序的学习,若完成,则认为实现该段工序的学习,即当前工序下的奖励函数也即Reward网络学习完毕,并进行Reward网络的参数保存;根据Reward网络的参数、Actor网络的参数、Critic网络的参数继续进行交互,产生以下一个子目标gn+1作为更新方向的episodes,用于GPR的更新;
S5:当设定目标G={g1,g2,…,gN}全部依次实现时,完成了生产线的工艺学习,并得到了能够进行动作评估的奖励函数,即Reward网络;
S6:此时可移除GPR模块,根据现有网络参数,采用计算量低的强化学习算法如PPO、DDPG等在线运行。
在一个具体的实施例中,如图4所示,所述的Actor网络根据当前采集的多维状态输入st进行动作的选取,Actor网络输出的a(st)为Agent在当前状态的各维特征到相应动作分布的映射,输出值分别对应为均值和方差。
在一个具体的实施例中,如图5所示,所述的Reward网络以当前的状态、动作为输入,输出为奖励信号r(st),通过Critic网络的输出V(st)与GPR模块中预测的下一状态st+1对应的值函数的均方差,即 作为损失函数,进行网络的更新。
根据GPR模块输出的值函数,依据的是已达到目标的episodes的状态转移分布,而且以子目标状态为优化方向,因此在奖励信号r(st)未知的情况下,采用相同的策略得出的Vg较于Critic输出的V(st+1)是当前更合理的更新方向。
本实施例对于Reward网络的更新方向,即目标值函数Vg的计算,本实施例并没有采用经验回放(Replay buffer)的方法打乱样本数据相关性用于训练神经网络(即每次将交互获得的数据分段成{s,a,r,s`}进行保存,在迭代更新参数时采样小批次(Mini-batch)的经验数据输入神经网络进行值函数预测)。原因是因为本实施例场景中奖励r(st)本身就是待估计的,因此最初是并不能对每次动作给出评价的,无法作为单次更新的依据,也正是因为这个原因,Actor网络也即策略的更新方式并没有直接采用经典Actor-Critic中用TD-error作为似然率的策略梯度更新方法相邻时间前后获得的观测样本具有较强的关联性,同样不适合采用神经网络进行拟合,又由于学习状态差分相比于直接学习值函数更具优势,预测波动更小,因此引入了基于差分的高斯过程建模方法,利用过去成功交互的多段episodes进行值函数评估,进而给出更加合理的策略更新方向。对于离散制造场景定制程度高、多工序的特点,这种方法有更高的生产自适应性。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (5)
1.一种离散制造场景中的强化学习奖励自学习方法,其特征在于:包括如下步骤:
S1:对当前生产线的工序进行细化g∈G={g1,g2,…,gN},其中g为细化后当前工序需达到的目标所对应的状态,智能体Agent到达预定目标g记录为一个交互序列episode,根据初始参数获得g1作为目标对应的多段episodes,进行GPR模块的训练;
S3:根据智能体Agent获得的环境反馈状态st,将新的状态st同步输入GRP模块、Reward网络、Actor网络、Critic网络中,则Reward网络输出r(st),Actor网络输出a(st),Critic网络输出V(st),所述的GPR模块根据S2中推导获得的状态转移模型最终输出值函数Vg并作为整体的更新方向;
S4:当|Vg-V(st)|<ε时,为了避免假阳性,人为判断是否完成当前目标下工序的学习,若完成,则认为实现该段工序的学习,即当前工序下的奖励函数也即Reward网络学习完毕,并进行Reward网络的参数保存;根据Reward网络的参数、Actor网络的参数、Critic网络的参数继续进行交互,产生以下一个子目标gn+1作为更新方向的episodes,用于GPR的更新;
S5:当设定目标G={g1,g2,…,gN}全部依次实现时,完成了生产线的工艺学习,并得到了能够进行动作评估的奖励函数,即Reward网络;
S6:然后移除GPR模块,根据现有网络参数,采用计算量低的强化学习算法在线运行。
2.根据权利要求1所述的离散制造场景中的强化学习奖励自学习方法,其特征在于:步骤S2,得到系统状态转移模型st+1=f(st,at)的具体步骤如下:
S201:先构建状态差分模型,通过引入差分变量Δt=st+1-st+ε,
假设△t服从高斯分布,根据高斯分布自共轭,st同样服从高斯分布,即可表示为其中,μt+1=st+Ef[Δt+1],∑t+1=varf[Δt+1],st为t时刻环境反馈给智能体Agent的状态,可以是一个多维特征的输入,st+1为GPR模块预测的下一状态,at为智能体Agent采取的动作,对应于当前工序中的状态输入对应的各维控制参数向量;以特征为一维进行推导示例即
S203:采用核函数来衡量两个量的相似性,
S204:利用最小化负对数边缘似然对GPR模块进行训练:
其中K为采用指数平方核的协方差矩阵。
所预测的后验分布同为高斯分布,可表示为:
其中:
从而得到状态差分模型。
当输入状态特征为M维的情况:
相当于对每一维度进行一次以上的推导。
S207:推导后续状态分布p(st+1),可由下式推导得出:
均值μt+1=μt+μ△
方差∑t+1=∑t+∑△+cov(st,△)+cov(△,st)
所述的GPR模块根据步骤S207推导得出预测的p(st+1)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010005909.1A CN111241952B (zh) | 2020-01-03 | 2020-01-03 | 一种离散制造场景中的强化学习奖励自学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010005909.1A CN111241952B (zh) | 2020-01-03 | 2020-01-03 | 一种离散制造场景中的强化学习奖励自学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241952A true CN111241952A (zh) | 2020-06-05 |
CN111241952B CN111241952B (zh) | 2020-11-10 |
Family
ID=70868314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010005909.1A Active CN111241952B (zh) | 2020-01-03 | 2020-01-03 | 一种离散制造场景中的强化学习奖励自学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241952B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695690A (zh) * | 2020-07-30 | 2020-09-22 | 航天欧华信息技术有限公司 | 基于合作式强化学习与迁移学习的多智能体对抗决策方法 |
CN112183762A (zh) * | 2020-09-15 | 2021-01-05 | 上海交通大学 | 一种基于混合行为空间的强化学习方法 |
CN112232478A (zh) * | 2020-09-03 | 2021-01-15 | 天津(滨海)人工智能军民融合创新中心 | 一种基于分层注意力机制的多智能体强化学习方法及系统 |
CN112488542A (zh) * | 2020-12-04 | 2021-03-12 | 深圳先进技术研究院 | 基于机器学习的智慧工地智能物料调度方法及系统 |
CN112800893A (zh) * | 2021-01-18 | 2021-05-14 | 南京航空航天大学 | 一种基于强化学习的人脸属性编辑方法 |
CN112975967A (zh) * | 2021-02-26 | 2021-06-18 | 同济大学 | 一种基于模仿学习的服务机器人定量倒水方法及存储介质 |
CN112989017A (zh) * | 2021-05-17 | 2021-06-18 | 南湖实验室 | 用于生成对话策略学习用高质量模拟经验的方法 |
CN113221390A (zh) * | 2021-06-24 | 2021-08-06 | 北京京东方技术开发有限公司 | 一种排产模型的训练方法和装置 |
CN113239639A (zh) * | 2021-06-29 | 2021-08-10 | 暨南大学 | 策略信息生成方法、装置、电子装置和存储介质 |
CN113359449A (zh) * | 2021-06-04 | 2021-09-07 | 西安交通大学 | 基于强化学习的航空发动机双参数指数劣化维护方法 |
CN113419424A (zh) * | 2021-07-05 | 2021-09-21 | 清华大学深圳国际研究生院 | 减少过估计的模型化强化学习机器人控制方法及系统 |
CN113435794A (zh) * | 2021-08-26 | 2021-09-24 | 山东大拇指喷雾设备有限公司 | 一种基于图像处理的喷嘴铸件后处理智能监测方法 |
CN113609755A (zh) * | 2021-07-07 | 2021-11-05 | 中国科学院国家空间科学中心 | 一种时序强化学习的星间激光干涉频率规划仿真验证系统 |
CN114002948A (zh) * | 2021-10-12 | 2022-02-01 | 同济大学 | 一种第三方数控机床接入服务平台的方法及装置 |
CN114454160A (zh) * | 2021-12-31 | 2022-05-10 | 中国人民解放军国防科技大学 | 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统 |
CN116594358A (zh) * | 2023-04-20 | 2023-08-15 | 暨南大学 | 基于强化学习的多层工厂车间调度方法 |
CN116859755A (zh) * | 2023-08-29 | 2023-10-10 | 南京邮电大学 | 无人车驾驶控制的最小化协方差强化学习训练加速方法 |
CN112800893B (zh) * | 2021-01-18 | 2024-05-28 | 南京航空航天大学 | 一种基于强化学习的人脸属性编辑方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218655A (zh) * | 2013-03-07 | 2013-07-24 | 西安理工大学 | 基于免疫耐受机制的强化学习算法 |
CN105959353A (zh) * | 2016-04-22 | 2016-09-21 | 广东石油化工学院 | 基于平均强化学习和高斯过程回归的云作业接入控制方法 |
CN106094813A (zh) * | 2016-05-26 | 2016-11-09 | 华南理工大学 | 基于模型相关强化学习的仿人机器人步态控制方法 |
WO2017091629A1 (en) * | 2015-11-25 | 2017-06-01 | Osaro, Inc. | Reinforcement learning using confidence scores |
EP3467718A1 (en) * | 2017-10-04 | 2019-04-10 | Prowler.io Limited | Machine learning system |
CN109858630A (zh) * | 2019-02-01 | 2019-06-07 | 清华大学 | 用于强化学习的方法和设备 |
US20190370219A1 (en) * | 2018-06-05 | 2019-12-05 | Chatterbox Labs Limited | Method and Device for Improved Classification |
-
2020
- 2020-01-03 CN CN202010005909.1A patent/CN111241952B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218655A (zh) * | 2013-03-07 | 2013-07-24 | 西安理工大学 | 基于免疫耐受机制的强化学习算法 |
WO2017091629A1 (en) * | 2015-11-25 | 2017-06-01 | Osaro, Inc. | Reinforcement learning using confidence scores |
CN105959353A (zh) * | 2016-04-22 | 2016-09-21 | 广东石油化工学院 | 基于平均强化学习和高斯过程回归的云作业接入控制方法 |
CN106094813A (zh) * | 2016-05-26 | 2016-11-09 | 华南理工大学 | 基于模型相关强化学习的仿人机器人步态控制方法 |
EP3467718A1 (en) * | 2017-10-04 | 2019-04-10 | Prowler.io Limited | Machine learning system |
US20190370219A1 (en) * | 2018-06-05 | 2019-12-05 | Chatterbox Labs Limited | Method and Device for Improved Classification |
CN109858630A (zh) * | 2019-02-01 | 2019-06-07 | 清华大学 | 用于强化学习的方法和设备 |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695690B (zh) * | 2020-07-30 | 2023-04-18 | 航天欧华信息技术有限公司 | 基于合作式强化学习与迁移学习的多智能体对抗决策方法 |
CN111695690A (zh) * | 2020-07-30 | 2020-09-22 | 航天欧华信息技术有限公司 | 基于合作式强化学习与迁移学习的多智能体对抗决策方法 |
CN112232478A (zh) * | 2020-09-03 | 2021-01-15 | 天津(滨海)人工智能军民融合创新中心 | 一种基于分层注意力机制的多智能体强化学习方法及系统 |
CN112232478B (zh) * | 2020-09-03 | 2023-11-17 | 天津(滨海)人工智能军民融合创新中心 | 一种基于分层注意力机制的多智能体强化学习方法及系统 |
CN112183762A (zh) * | 2020-09-15 | 2021-01-05 | 上海交通大学 | 一种基于混合行为空间的强化学习方法 |
CN112488542B (zh) * | 2020-12-04 | 2024-02-02 | 深圳市中科数建科技有限公司 | 基于机器学习的智慧工地智能物料调度方法及系统 |
CN112488542A (zh) * | 2020-12-04 | 2021-03-12 | 深圳先进技术研究院 | 基于机器学习的智慧工地智能物料调度方法及系统 |
CN112800893A (zh) * | 2021-01-18 | 2021-05-14 | 南京航空航天大学 | 一种基于强化学习的人脸属性编辑方法 |
CN112800893B (zh) * | 2021-01-18 | 2024-05-28 | 南京航空航天大学 | 一种基于强化学习的人脸属性编辑方法 |
CN112975967A (zh) * | 2021-02-26 | 2021-06-18 | 同济大学 | 一种基于模仿学习的服务机器人定量倒水方法及存储介质 |
CN112975967B (zh) * | 2021-02-26 | 2022-06-28 | 同济大学 | 一种基于模仿学习的服务机器人定量倒水方法及存储介质 |
CN112989017A (zh) * | 2021-05-17 | 2021-06-18 | 南湖实验室 | 用于生成对话策略学习用高质量模拟经验的方法 |
CN113359449A (zh) * | 2021-06-04 | 2021-09-07 | 西安交通大学 | 基于强化学习的航空发动机双参数指数劣化维护方法 |
CN113221390A (zh) * | 2021-06-24 | 2021-08-06 | 北京京东方技术开发有限公司 | 一种排产模型的训练方法和装置 |
CN113239639A (zh) * | 2021-06-29 | 2021-08-10 | 暨南大学 | 策略信息生成方法、装置、电子装置和存储介质 |
CN113419424A (zh) * | 2021-07-05 | 2021-09-21 | 清华大学深圳国际研究生院 | 减少过估计的模型化强化学习机器人控制方法及系统 |
CN113419424B (zh) * | 2021-07-05 | 2023-08-18 | 清华大学深圳国际研究生院 | 减少过估计的模型化强化学习机器人控制方法及系统 |
CN113609755B (zh) * | 2021-07-07 | 2022-02-22 | 中国科学院国家空间科学中心 | 一种时序强化学习的星间激光干涉频率规划仿真验证系统 |
CN113609755A (zh) * | 2021-07-07 | 2021-11-05 | 中国科学院国家空间科学中心 | 一种时序强化学习的星间激光干涉频率规划仿真验证系统 |
CN113435794A (zh) * | 2021-08-26 | 2021-09-24 | 山东大拇指喷雾设备有限公司 | 一种基于图像处理的喷嘴铸件后处理智能监测方法 |
CN114002948B (zh) * | 2021-10-12 | 2023-09-26 | 同济大学 | 一种第三方数控机床接入服务平台的方法及装置 |
CN114002948A (zh) * | 2021-10-12 | 2022-02-01 | 同济大学 | 一种第三方数控机床接入服务平台的方法及装置 |
CN114454160A (zh) * | 2021-12-31 | 2022-05-10 | 中国人民解放军国防科技大学 | 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统 |
CN114454160B (zh) * | 2021-12-31 | 2024-04-16 | 中国人民解放军国防科技大学 | 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统 |
CN116594358A (zh) * | 2023-04-20 | 2023-08-15 | 暨南大学 | 基于强化学习的多层工厂车间调度方法 |
CN116594358B (zh) * | 2023-04-20 | 2024-01-02 | 暨南大学 | 基于强化学习的多层工厂车间调度方法 |
CN116859755A (zh) * | 2023-08-29 | 2023-10-10 | 南京邮电大学 | 无人车驾驶控制的最小化协方差强化学习训练加速方法 |
CN116859755B (zh) * | 2023-08-29 | 2023-12-08 | 南京邮电大学 | 无人车驾驶控制的最小化协方差强化学习训练加速方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111241952B (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241952B (zh) | 一种离散制造场景中的强化学习奖励自学习方法 | |
Rangapuram et al. | Deep state space models for time series forecasting | |
CN111047085B (zh) | 一种基于元学习的混合动力车辆工况预测方法 | |
CN108520155B (zh) | 基于神经网络的车辆行为模拟方法 | |
CN109840595B (zh) | 一种基于群体学习行为特征的知识追踪方法 | |
CN108564326A (zh) | 订单的预测方法及装置、计算机可读介质、物流系统 | |
Lechevalier et al. | A neural network meta-model and its application for manufacturing | |
EP3502978A1 (en) | Meta-learning system | |
CN112146879A (zh) | 一种滚动轴承故障智能诊断方法及其系统 | |
CN114463596A (zh) | 一种超图神经网络的小样本图像识别方法、装置及设备 | |
CN117574721A (zh) | 一种工艺参数概率模型优化方法 | |
CN116817909A (zh) | 一种基于深度强化学习的无人机中继式导航方法 | |
Torabi et al. | DEALIO: Data-efficient adversarial learning for imitation from observation | |
CN113469262A (zh) | 一种基于Fisher信息矩阵的增量学习方法 | |
CN113988181B (zh) | 一种基于自适应前馈神经网络的目标分类方法 | |
CN113449817B (zh) | 基于幻影梯度的图像分类隐式模型加速训练方法 | |
CN113821012B (zh) | 一种用于变工况卫星姿态控制系统的故障诊断方法 | |
CN114612750B (zh) | 自适应学习率协同优化的目标识别方法、装置及电子设备 | |
Shao et al. | Learning from Hindsight Demonstrations | |
CN113094969A (zh) | 一种基于改进SeqGAN的数据生成方法及系统 | |
CN117975190A (zh) | 基于视觉预训练模型的模仿学习混合样本处理方法及装置 | |
CN117332814A (zh) | 一种基于模块化网络的合作智能体模型、学习方法和装置 | |
Wang et al. | Function approximation using robust fuzzy-GreyCMAC method | |
Balázs et al. | Comparative analysis of various evolutionary and memetic algorithms | |
CN115545116A (zh) | 一种基于carla神经网络的故障诊断方法、装置和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |