CN111241952A - 一种离散制造场景中的强化学习奖励自学习方法 - Google Patents

一种离散制造场景中的强化学习奖励自学习方法 Download PDF

Info

Publication number
CN111241952A
CN111241952A CN202010005909.1A CN202010005909A CN111241952A CN 111241952 A CN111241952 A CN 111241952A CN 202010005909 A CN202010005909 A CN 202010005909A CN 111241952 A CN111241952 A CN 111241952A
Authority
CN
China
Prior art keywords
network
state
reward
gpr
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010005909.1A
Other languages
English (en)
Other versions
CN111241952B (zh
Inventor
吴宗泽
赖家伦
刘亚强
梁泽逍
曾德宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202010005909.1A priority Critical patent/CN111241952B/zh
Publication of CN111241952A publication Critical patent/CN111241952A/zh
Application granted granted Critical
Publication of CN111241952B publication Critical patent/CN111241952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2136Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种离散制造场景中的强化学习奖励自学习方法,包括如下步骤:对当前生产线的工序细化g∈G={g1,g2,…,gN},智能体到达预定目标g记录为一个交互序列episode,根据初始参数获得g1作为目标对应的多段episodes,将episodes中的状态动作
Figure DDA0002355278930000011
以及状态的差值△作为训练数据集输入GPR模块,得到基于状态差分的系统状态转移模型;智能体Agent继续与环境进行交互,获得新的状态st,Reward网络输出r(st),Actor网络输出a(st),Critic网络输出V(st),GPR模块输出值函数Vg作为整体的更新方向;当|Vg‑V(st)|<ε时,则认为当前工序下的奖励函数学习完毕,并进行Reward网络的参数保存;继续进行交互,产生以下一个子目标gn+1作为更新方向的episodes,用于GPR的更新;当设定目标G={g1,g2,…,gN}全部依次实现时,完成生产线的工艺学习。

Description

一种离散制造场景中的强化学习奖励自学习方法
技术领域
本发明涉及深度强化学习技术领域,更具体的,涉及一种离散制造场景中的强化学习奖励学习方法。
背景技术
制造业按其产品制造工艺过程特点总体上可以划分为流程制造和离散制造。相比于流程制造,离散制造的产品往往由多个零件经过一系列并不连续的工序加工装配而成,主要包括机械加工、机床等加工、组装性行业。
针对离散型制造企业的加工生产过程。整个工艺生产过程常常分解成很多个加工任务,而每一个加工任务需要的占用的加工资源不多,但零件从一个工作环节到另一个工作环节,之间常进行不同类型和要求的多种加工任务。又因离散型企业产品定制程度高,不同的订单有不同的工艺需求,导致了其零件加工工艺及设备使用过于灵活,使其品质控制上难度高。现有的MES(Manufacturing Execution System)是对整个车间制造过程的优化,而不是单一解决某个生产工序的加工设备控制问题,因此在每一个生产单元中,按目前的主流方案,当从生产A产品切换到生产B产品时,往往需要人工切换设备的制程工艺,生产过程中包括设备使用等多数情况下还是依赖于操作者的技术、经验,但是在此之前并没有将深度强化学习引入生产线的先例。
强化学习中的奖励是Agent与环境交互后由环境返回的标量信号,奖励为 Agent做出的决策提供评估性反馈,没有精心设计的奖励信号会让强化学习算法产生非常差的结果,因此设计合适的奖励一直是强化学习领域的研究热点。对于不同的应用场景,不同的控制目标,需要设计不同的奖励,常见的有如使用[-1,1] 区间的标量奖励信号,有偏好的评价上一个动作对于学习目标的好坏,或者是用一个正值代表达到目标,中间过程使用一个较小的负值作为奖励反馈。奖励的设计中还存在着一种情况就是,环境能够反馈奖励信号,但是最大化累计奖励的策略并不总能达到预期目标,例如OpenAI发布的平台Universe上的游戏 CoastRunners中,Agent也即是游戏中的船,目标一是完成比赛,二是收集环境中的得分目标,在训练中出现了Agent停留在一处不断的获取金币奖励,以另外一种不理想的策略获得更高的奖励。因此相同的框架,奖励函数设置的好坏,直接影响到Agent学习的结果。同时一个采用强化学习算法训练过的Agent,只能根据设计的奖励达到单次的训练目标
发明内容
本发明为了解决现有的离散制造生产线中,产品制造的各工序控制参数的调节,主要依靠工作人员的工作经验完成的问题,提供了一种离散制造场景中的强化学习奖励自学习方法,其采用深度强化学习的方法,实现生产线设备控制参数的学习。
为实现上述本发明目的,采用的技术方案如下:一种离散制造场景中的强化学习奖励自学习方法,包括如下步骤:
S1:对当前生产线的工序进行细化g∈G={g1,g2,…,gN},其中g为细化后当前工序需达到的目标所对应的状态,智能体Agent到达预定目标g记录为一个交互序列episodes,根据初始参数获得g1作为目标对应的多段episodes,进行GPR 模块的训练;
S2:引入基于模型的强化学习方法,将episodes中的状态动作
Figure BDA0002355278910000021
以及状态的差值△作为训练数据集输入GPR模块,学习得到基于状态差分的系统状态转移模型st+1=f(st,at);
S3:根据智能体Agent获得的环境反馈状态st,将新的状态st同步输入GRP 模块、Reward网络、Actor网络、Critic网络中,则Reward网络输出r(st), Actor网络输出a(st),Critic网络输出V(st),所述的GPR模块根据S2中推导获得的状态转移模型最终输出值函数Vg并作为整体的更新方向;
S4:当|Vg-V(st)|<ε时,为了避免假阳性,人为判断是否完成当前目标下工序的学习,若完成,则认为实现该段工序的学习,即当前工序下的奖励函数也即Reward网络学习完毕,并进行Reward网络的参数保存;根据Reward网络的参数、Actor网络的参数、Critic网络的参数继续进行交互,产生以下一个子目标gn+1作为更新方向的episodes,用于GPR的更新;
S5:当设定目标G={g1,g2,…,gN}全部依次实现时,完成了生产线的工艺学习,并得到了能够进行动作评估的奖励函数,即Reward网络;
S6:然后移除GPR模块,根据现有网络参数,采用计算量低的强化学习算法在线运行。
优选地,步骤S2,得到系统状态转移模型st+1=f(st,at)的具体步骤如下:
S201:先构建状态差分模型,通过引入差分变量Δt=st+1-st+ε,
假设△t服从高斯分布,根据高斯分布自共轭,st同样服从高斯分布,即可表示为
Figure BDA0002355278910000031
其中,μt+1=st+Eft+1],∑t+1=varft+1],st为t时刻环境反馈给智能体Agent的状态,可以是一个多维特征的输入,st+1为GPR模块预测的下一状态,at为智能体Agent采取的动作,对应于当前工序中的状态输入对应的各维控制参数向量;以特征为一维进行推导示例即
Figure BDA0002355278910000032
S202令
Figure BDA0002355278910000033
以及状态的差值△作为训练数据集输入GPR模块,所述的训练数据集可表示为:
Figure BDA0002355278910000034
S203:采用核函数来衡量两个量的相似性,
Figure BDA0002355278910000035
其中,
Figure BDA0002355278910000036
中的
Figure BDA0002355278910000037
是数据集中任意不相同的两个量;
S204:利用最小化负对数边缘似然对GPR模块进行训练:
Figure BDA0002355278910000038
其中K为指数平方核的协方差矩阵。
S205:根据GPR模块的性质,数据的联合分布以及预测值
Figure BDA0002355278910000039
的分布如下:
Figure BDA00023552789100000310
Figure BDA00023552789100000311
其中,
Figure BDA00023552789100000312
与y对应于训练数据集
Figure BDA00023552789100000313
为待预测输入,
Figure BDA00023552789100000314
为待预测的输出差分;
所预测的后验分布同为高斯分布,可表示为:
Figure BDA00023552789100000315
其中:
Figure BDA0002355278910000041
Figure BDA0002355278910000042
其中Ef表示求均值,varf表示求方差;
Figure BDA0002355278910000043
表示高斯过程中均值函数,,
Figure BDA0002355278910000044
表示高斯过程中的协方差函数,其中下标f对应着模型f(st,at);
从而得到状态差分模型。
S206:根据每次输入状态与Actor网络动作输出的联合高斯分布
Figure BDA0002355278910000045
推导出当前状态的差分:
Figure BDA0002355278910000046
Figure BDA0002355278910000047
其中q=[q1,…,qn]T,n对应样本数,
Figure BDA0002355278910000048
当输入状态特征为M维的情况:
Figure BDA0002355278910000049
Figure BDA00023552789100000410
相当于对每一维度进行一次以上的推导。
S207:根据状态转移模型推导后续状态分布p(st+1),可由下式推导得出:
均值μt+1=μt
方差∑t+1=∑t+∑+cov(st,△)+cov(△,st)
所述的GPR模块根据步骤S207推导得出预测的p(st+1)。
进一步地,根据以上推导得出状态转移模型让GPR模块实现策略评估,即得到GPR模块的最终输出值函数Vg,并作为当前Reward网络、Critic网络的更新方向;其中所述的值函数表示如下:
Figure BDA00023552789100000411
其中,
Figure BDA00023552789100000412
为损失函数,采用类似高斯分布的形式描述损失,sT为当前工序的目标状态,将c(st+1)∈[0,1]之间的损失函数,作为目标逼近程度的度量。
再进一步地,根据得到值函数Vg,对Actor网络的参数采用基于梯度策略搜索方法进行更新:
Figure BDA0002355278910000051
Figure BDA0002355278910000052
Figure BDA0002355278910000053
其中,ωa指的是Actor的网络参数,
Figure BDA0002355278910000054
指的是梯度方法使
Figure BDA0002355278910000055
取得局部最小值的最优网络参数。
再进一步地,所述的Reward网络以当前的状态、动作为输入,输出为奖励信号r(st),通过Critic网络的输出V(st)与GPR模块中预测的下一状态st+1对应的值函数
Figure BDA0002355278910000056
的均方差,即
Figure BDA0002355278910000057
作为损失函数,进行网络的更新。
所述的Critic网络以当前的状态、动作以及Reward网络的输出r(st)作为输入,以贝尔曼方程的形式构造损失函数
Figure BDA0002355278910000058
其中γ是一个属于[0,1]区间的折扣率。
本发明的有益效果如下:
1.本发明基于强化学习中的Actor-Critic框架,引入了GPR模块,对于离散制造场景中存在的工序多,奖励稀疏难设计的状况,实现奖励的自学习,对变化的场景更具有自适应性。通过对离散制造中生产线A各个工序进行学习,生成每个工序的Reward网络、Actor网络,对应于各工序中适用的奖励函数和设备不同状态输入下的控制参数。同样的框架可以重新应用于生产线B的工艺学习,达到多场景自适应的特点。
2.本发明通过引入了基于状态差分模型的高斯过程建模方法,利用过去成功交互的多段episodes进行值函数评估,进而给出更加合理的策略更新方向。对于离散制造场景定制程度高、多工序的特点,这种方法有更高的生产自适应性。
附图说明
图1是实施例1所述的强化学习奖励自学习方法的步骤流程图。
图2是实施例1所述的强化学习的示意图。
图3是实施例1所述的强化学习奖励自学习方法的处理框图。
图4是实施例1所述的Actor网络的示意图。
图5是实施例1所述的Reward网络的示意图。
图6是实施例1所述的Critic网络的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做详细描述。
实施例1
在强化学习中最核心的概念就是奖励函数,奖励函数向学习过程中的智能体Agent显示当前状态下采取不同动作的反馈结果,相当于我们通过奖励函数,对学习任务具体化。但是强化学习问题中面临着奖励需要针对不同的场景手动设置才能达到最佳效果的特点,导致了同一套算法对不同场景的适用性不强。
因此本实施例提出了一种离散制造场景中的强化学习奖励自学习方法,如图 1所示,其引入了基于模型的强化学习方法(即用已有的数据学习出环境的模型 p(st+1|st,at),对应于GPR部分,只不过GPR部分先学习出来是状态的差分,推导得出下一个状态st+1的分布),通过智能体Agent与环境的弱交互,以及观测者对初始交互序列的筛选,自动学习不同场景下的奖励函数,如图2所示,在训练的过程中智能体Agent与环境的交互信息只剩下状态xt和动作a(st),这里的xt对应于当前场景t时刻下的生产线上设备多维状态向量,a(st)对应于当前场景t 时刻下的多维状态所对应的多维控制参数。
该方法具体包括如下步骤:
S1:对当前生产线的工序进行细化g∈G={g1,g2,…,gN},其中g为细化后当前工序需达到的目标所对应的状态,智能体Agent到达预定目标g记录为一个交互序列episode,根据初始参数获得g1作为目标对应的多段episodes;
S2:如图3所示,引入基于模型的强化学习方法,通过智能体Agent与环境的弱交互,以及观测者对初始交互序列的筛选,自动学习不同场景下的奖励函数。在训练的过程中智能体Agent与环境的交互信息只剩下状态xt和动作a(st),这里的xt对应于当前场景t时刻下的生产线上设备多维状态向量,a(st)对应于当前场景t时刻下的多维状态所对应的多维控制参数。
将episodes中的状态动作
Figure BDA0002355278910000061
以及状态的差值△作为训练数据集输入GPR模块,训练得到基于状态差分的系统状态转移模型st+1=f(st,at);
其中,得到系统状态转移模型st+1=f(st,at)的具体步骤如下:
其中本实施例所述的高斯过程(Gaussian processes)是一个非参数模型,依赖于样本数据来进行预测估计,是机器学习领域里监督学习中的一种函数逼近方法,该方法的目的是利用样本数据来捕捉整个函数的分布,拟合现有数据较为方便,而且能给出不确定性范围,可用于对所生成数据的置信度进行判断。
由于本实施例目的是学习出一条生产线各工艺流程对应的奖励函数,而值函数是累积奖励的期望,这就导致如果用高斯过程直接根据单次输入进行直接的值函数预测效果将会不理想,因此本实施例采用高斯过程对状态的差分进行建模的方法构建基于状态差分的状态转移模型(即根据新的
Figure 1
输入,得到预测状态差分△,最后推导得出p(st+1))。
S201:先构建状态差分模型,通过引入差分变量Δt=st+1-st+ε,
假设△t服从高斯分布,根据高斯分布自共轭,st同样服从高斯分布,即可表示为
Figure BDA0002355278910000079
其中,μt+1=st+Eft+1],∑t+1=varft+1],st为t时刻环境反馈给智能体Agent的状态,可以是一个多维特征的输入,类似于从设备上采集到的工艺参数,所述的工艺参数包括位置,速度,角速度,温度,压强等,st+1为GPR模块预测的下一状态,at为智能体 Agent采取的动作,对应于当前工序中的状态输入对应的各维控制参数向量;以特征为一维进行推导示例即
Figure BDA0002355278910000072
S202:令
Figure BDA0002355278910000073
及状态的差值△作为训练数据集输入GPR模块,将训练数据集表示如下:
Figure BDA0002355278910000074
S203:采用核函数来衡量两个量的相似性,所述核函数包括指数平方核,本实施例采用指数平方核来衡量两个量的相似性,
Figure BDA0002355278910000075
其中,
Figure BDA0002355278910000076
中的
Figure BDA0002355278910000077
是数据集中任意不相同的两个量;
S204:利用最小化负对数边缘似然对GPR模块进行训练:
Figure BDA0002355278910000078
其中K为指数平方核的协方差矩阵;
S205:根据GPR模块的性质,数据的联合分布以及预测值
Figure BDA0002355278910000081
的分布如下:
Figure BDA0002355278910000082
Figure BDA0002355278910000083
其中,
Figure BDA0002355278910000084
与y对应于训练数据集
Figure BDA0002355278910000085
为待预测输入,
Figure BDA0002355278910000086
为待预测的输出差分;
所预测的后验分布同为高斯分布,可表示为:
Figure BDA0002355278910000087
其中:
Figure BDA0002355278910000088
Figure BDA0002355278910000089
从而得到状态差分模型。
其中Ef表示求均值,varf表示求方差;
Figure BDA00023552789100000810
表示高斯过程中均值函数,
Figure BDA00023552789100000811
表示高斯过程中的协方差函数,其中下标f对应着模型f(st,at);
S206:根据已获得的系统状态差分模型后,应用到
Figure BDA00023552789100000812
的求取,根据每次输入状态与Actor网络动作输出的联合高斯分布
Figure BDA00023552789100000813
推导出当前状态的差分:
Figure BDA00023552789100000814
Figure BDA00023552789100000815
其中q=[q1,…,qn]T,n对应样本数,
Figure BDA00023552789100000816
当输入状态特征为M维的情况:
Figure BDA00023552789100000817
Figure BDA00023552789100000818
这里是从状态特征维数为1到状态特征维数为M的扩充,所述的状态特征为位置,速度,角速度,温度,压强时,M=5;
相当于对每一维度进行一次以上的推导。
S207:通过状态转移模型推导后续状态分布p(st+1),可由下式推导得出:
均值μt+1=μt
方差∑t+1=∑t+∑+cov(st,△)+cov(△,st)
所述的GPR模块根据步骤S207推导得出预测的p(st+1)。
根据以上推导得出状态转移模型让GPR模块实现策略评估,即并通过同样的方法推导得出p(st+2)直到p(sT),从而得到GPR模块的最终输出值函数Vg,并作为当前Reward网络、Critic网络的更新方向;其中所述的值函数表示如下:
Figure BDA0002355278910000091
其中,
Figure BDA0002355278910000092
为损失函数,采用类似高斯分布的形式描述损失,sT为当前工序的目标状态,将c(st+1)∈[0,1]之间的损失函数,作为目标逼近程度的度量。
值函数Vg是概率分布p(st+1)到概率分布p(sT),分别关于c(st+1)到c(sT)求期望(∫c(st+1)p(st+1)dst+1),再求和的结果。
这里的st+1、st+2、sT都是通过训练过的GPR模型推出来的,是求取Vg的需要,并不是与真实环境交互获得的状态。
根据得到值函数Vg,对Actor网络的参数采用基于梯度策略搜索方法进行更新:
Figure BDA0002355278910000093
Figure BDA0002355278910000094
Figure BDA0002355278910000095
其中,ωa指的是Actor的网络参数,
Figure BDA0002355278910000096
指的是梯度方法使
Figure BDA0002355278910000097
取得局部最小值的最优网络参数。
S3:根据智能体Agent获得的环境反馈状态st,将新的状态st同步输入GRP 模块、Reward网络、Actor网络、Critic网络中,则Reward网络输出r(st), Actor网络输出a(st),Critic网络输出V(st),所述的GPR模块根据S2中推导获得的状态转移模型最终输出值函数Vg并作为整体的更新方向;
S4:当|Vg-V(st)|<ε时,为了避免假阳性,人为判断是否完成当前目标下工序的学习,若完成,则认为实现该段工序的学习,即当前工序下的奖励函数也即Reward网络学习完毕,并进行Reward网络的参数保存;根据Reward网络的参数、Actor网络的参数、Critic网络的参数继续进行交互,产生以下一个子目标gn+1作为更新方向的episodes,用于GPR的更新;
S5:当设定目标G={g1,g2,…,gN}全部依次实现时,完成了生产线的工艺学习,并得到了能够进行动作评估的奖励函数,即Reward网络;
S6:此时可移除GPR模块,根据现有网络参数,采用计算量低的强化学习算法如PPO、DDPG等在线运行。
在一个具体的实施例中,如图4所示,所述的Actor网络根据当前采集的多维状态输入st进行动作的选取,Actor网络输出的a(st)为Agent在当前状态的各维特征到相应动作分布的映射,输出值分别对应为均值和方差。
在一个具体的实施例中,如图5所示,所述的Reward网络以当前的状态、动作为输入,输出为奖励信号r(st),通过Critic网络的输出V(st)与GPR模块中预测的下一状态st+1对应的值函数
Figure BDA0002355278910000101
的均方差,即
Figure BDA0002355278910000102
Figure BDA0002355278910000103
作为损失函数,进行网络的更新。
在一个具体的实施例中,如图6所示,所述的Critic网络以当前的状态、动作以及Reward网络的输出r(st)作为输入,以贝尔曼方程的形式构造损失函数
Figure BDA0002355278910000104
其中γ是一个属于[0,1]区间的折扣率。
根据GPR模块输出的值函数,依据的是已达到目标的episodes的状态转移分布,而且以子目标状态为优化方向,因此在奖励信号r(st)未知的情况下,采用相同的策略得出的Vg较于Critic输出的V(st+1)是当前更合理的更新方向。
本实施例对于Reward网络的更新方向,即目标值函数Vg的计算,本实施例并没有采用经验回放(Replay buffer)的方法打乱样本数据相关性用于训练神经网络(即每次将交互获得的数据分段成{s,a,r,s`}进行保存,在迭代更新参数时采样小批次(Mini-batch)的经验数据输入神经网络进行值函数预测)。原因是因为本实施例场景中奖励r(st)本身就是待估计的,因此最初是并不能对每次动作给出评价的,无法作为单次更新的依据,也正是因为这个原因,Actor网络也即策略的更新方式并没有直接采用经典Actor-Critic中用TD-error作为似然率的策略梯度更新方法
Figure BDA0002355278910000111
相邻时间前后获得的观测样本具有较强的关联性,同样不适合采用神经网络进行拟合,又由于学习状态差分相比于直接学习值函数更具优势,预测波动更小,因此引入了基于差分的高斯过程建模方法,利用过去成功交互的多段episodes进行值函数评估,进而给出更加合理的策略更新方向。对于离散制造场景定制程度高、多工序的特点,这种方法有更高的生产自适应性。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (5)

1.一种离散制造场景中的强化学习奖励自学习方法,其特征在于:包括如下步骤:
S1:对当前生产线的工序进行细化g∈G={g1,g2,…,gN},其中g为细化后当前工序需达到的目标所对应的状态,智能体Agent到达预定目标g记录为一个交互序列episode,根据初始参数获得g1作为目标对应的多段episodes,进行GPR模块的训练;
S2:引入基于模型的强化学习方法,将episodes中的状态动作
Figure FDA0002355278900000011
以及状态的差值△作为训练数据集输入GPR模块,训练得到基于状态差分的系统状态转移模型st+1=f(st,at);
S3:根据智能体Agent获得的环境反馈状态st,将新的状态st同步输入GRP模块、Reward网络、Actor网络、Critic网络中,则Reward网络输出r(st),Actor网络输出a(st),Critic网络输出V(st),所述的GPR模块根据S2中推导获得的状态转移模型最终输出值函数Vg并作为整体的更新方向;
S4:当|Vg-V(st)|<ε时,为了避免假阳性,人为判断是否完成当前目标下工序的学习,若完成,则认为实现该段工序的学习,即当前工序下的奖励函数也即Reward网络学习完毕,并进行Reward网络的参数保存;根据Reward网络的参数、Actor网络的参数、Critic网络的参数继续进行交互,产生以下一个子目标gn+1作为更新方向的episodes,用于GPR的更新;
S5:当设定目标G={g1,g2,…,gN}全部依次实现时,完成了生产线的工艺学习,并得到了能够进行动作评估的奖励函数,即Reward网络;
S6:然后移除GPR模块,根据现有网络参数,采用计算量低的强化学习算法在线运行。
2.根据权利要求1所述的离散制造场景中的强化学习奖励自学习方法,其特征在于:步骤S2,得到系统状态转移模型st+1=f(st,at)的具体步骤如下:
S201:先构建状态差分模型,通过引入差分变量Δt=st+1-st+ε,
假设△t服从高斯分布,根据高斯分布自共轭,st同样服从高斯分布,即可表示为
Figure FDA0002355278900000012
其中,μt+1=st+Eft+1],∑t+1=varft+1],st为t时刻环境反馈给智能体Agent的状态,可以是一个多维特征的输入,st+1为GPR模块预测的下一状态,at为智能体Agent采取的动作,对应于当前工序中的状态输入对应的各维控制参数向量;以特征为一维进行推导示例即
Figure FDA0002355278900000021
S202:令
Figure FDA0002355278900000022
以及状态的差值△作为训练数据集输入GPR模块,所述的训练数据集可表示为:
Figure FDA0002355278900000023
S203:采用核函数来衡量两个量的相似性,
Figure FDA0002355278900000024
其中,
Figure FDA0002355278900000025
中的
Figure FDA0002355278900000026
Figure FDA0002355278900000027
是数据集中任意不相同的两个量;
S204:利用最小化负对数边缘似然对GPR模块进行训练:
Figure FDA0002355278900000028
其中K为采用指数平方核的协方差矩阵。
S205:根据GPR模块的性质,数据的联合分布以及预测值
Figure FDA0002355278900000029
的分布如下:
Figure FDA00023552789000000210
Figure FDA00023552789000000211
其中,
Figure FDA00023552789000000212
与y对应于训练数据集
Figure FDA00023552789000000213
Figure FDA00023552789000000214
为待预测输入,
Figure FDA00023552789000000215
为待预测的输出差分;
所预测的后验分布同为高斯分布,可表示为:
Figure FDA00023552789000000216
其中:
Figure FDA00023552789000000217
Figure FDA00023552789000000218
其中Ef表示求均值,varf表示求方差;
Figure FDA00023552789000000219
表示高斯过程中均值函数,,
Figure FDA00023552789000000220
表示高斯过程中的协方差函数,其中下标f对应着模型f(st,at);
从而得到状态差分模型。
S206:根据每次输入状态与Actor网络动作输出的联合高斯分布
Figure FDA0002355278900000031
推导出当前状态的差分:
Figure FDA0002355278900000032
Figure FDA0002355278900000033
其中q=[q1,…,qn]T,n对应样本数,
Figure FDA0002355278900000034
当输入状态特征为M维的情况:
Figure FDA0002355278900000035
Figure FDA0002355278900000036
相当于对每一维度进行一次以上的推导。
S207:推导后续状态分布p(st+1),可由下式推导得出:
均值μt+1=μt
方差∑t+1=∑t+∑+cov(st,△)+cov(△,st)
所述的GPR模块根据步骤S207推导得出预测的p(st+1)。
3.根据权利要求2所述的离散制造场景中的强化学习奖励自学习方法,其特征在于:根据以上推导得出状态转移模型让GPR模块实现策略评估,即得到GPR模块的最终输出值函数Vg,并作为当前Reward网络、Critic网络的更新方向;其中所述的值函数表示如下:
Figure FDA0002355278900000037
其中,
Figure FDA0002355278900000038
为损失函数,sT为当前工序的目标状态,将c(st+1)∈[0,1]之间的损失函数,作为目标逼近程度的度量。
根据每次得到值函数Vg,对Actor网络的参数采用基于梯度策略搜索方法进行更新:
Figure FDA0002355278900000039
Figure FDA00023552789000000310
Figure FDA00023552789000000311
其中,ωa指的是Actor的网络参数,
Figure FDA0002355278900000041
指的是梯度方法使
Figure FDA0002355278900000042
取得局部最小值的最优网络参数。
4.根据权利要求3所述的离散制造场景中的强化学习奖励自学习方法,其特征在于:所述的Reward网络以当前的状态为输入,输出为奖励信号r(st),通过Critic网络的输出V(st)与GPR模块中预测的下一状态st+1对应的值函数
Figure FDA0002355278900000043
Figure FDA0002355278900000044
的均方差,即
Figure FDA0002355278900000045
作为损失函数,进行网络的更新。
5.根据权利要求4所述的离散制造场景中的强化学习奖励自学习方法,其特征在于:所述的Critic网络以当前的状态、动作以及Reward网络的输出r(st)作为输入,以贝尔曼方程的形式构造损失函数
Figure FDA0002355278900000046
Figure FDA0002355278900000047
其中γ是一个属于[0,1]区间的折扣率。
CN202010005909.1A 2020-01-03 2020-01-03 一种离散制造场景中的强化学习奖励自学习方法 Active CN111241952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010005909.1A CN111241952B (zh) 2020-01-03 2020-01-03 一种离散制造场景中的强化学习奖励自学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010005909.1A CN111241952B (zh) 2020-01-03 2020-01-03 一种离散制造场景中的强化学习奖励自学习方法

Publications (2)

Publication Number Publication Date
CN111241952A true CN111241952A (zh) 2020-06-05
CN111241952B CN111241952B (zh) 2020-11-10

Family

ID=70868314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010005909.1A Active CN111241952B (zh) 2020-01-03 2020-01-03 一种离散制造场景中的强化学习奖励自学习方法

Country Status (1)

Country Link
CN (1) CN111241952B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695690A (zh) * 2020-07-30 2020-09-22 航天欧华信息技术有限公司 基于合作式强化学习与迁移学习的多智能体对抗决策方法
CN112183762A (zh) * 2020-09-15 2021-01-05 上海交通大学 一种基于混合行为空间的强化学习方法
CN112232478A (zh) * 2020-09-03 2021-01-15 天津(滨海)人工智能军民融合创新中心 一种基于分层注意力机制的多智能体强化学习方法及系统
CN112488542A (zh) * 2020-12-04 2021-03-12 深圳先进技术研究院 基于机器学习的智慧工地智能物料调度方法及系统
CN112800893A (zh) * 2021-01-18 2021-05-14 南京航空航天大学 一种基于强化学习的人脸属性编辑方法
CN112975967A (zh) * 2021-02-26 2021-06-18 同济大学 一种基于模仿学习的服务机器人定量倒水方法及存储介质
CN112989017A (zh) * 2021-05-17 2021-06-18 南湖实验室 用于生成对话策略学习用高质量模拟经验的方法
CN113221390A (zh) * 2021-06-24 2021-08-06 北京京东方技术开发有限公司 一种排产模型的训练方法和装置
CN113239639A (zh) * 2021-06-29 2021-08-10 暨南大学 策略信息生成方法、装置、电子装置和存储介质
CN113359449A (zh) * 2021-06-04 2021-09-07 西安交通大学 基于强化学习的航空发动机双参数指数劣化维护方法
CN113419424A (zh) * 2021-07-05 2021-09-21 清华大学深圳国际研究生院 减少过估计的模型化强化学习机器人控制方法及系统
CN113435794A (zh) * 2021-08-26 2021-09-24 山东大拇指喷雾设备有限公司 一种基于图像处理的喷嘴铸件后处理智能监测方法
CN113609755A (zh) * 2021-07-07 2021-11-05 中国科学院国家空间科学中心 一种时序强化学习的星间激光干涉频率规划仿真验证系统
CN114002948A (zh) * 2021-10-12 2022-02-01 同济大学 一种第三方数控机床接入服务平台的方法及装置
CN114454160A (zh) * 2021-12-31 2022-05-10 中国人民解放军国防科技大学 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统
CN116594358A (zh) * 2023-04-20 2023-08-15 暨南大学 基于强化学习的多层工厂车间调度方法
CN116859755A (zh) * 2023-08-29 2023-10-10 南京邮电大学 无人车驾驶控制的最小化协方差强化学习训练加速方法
CN112800893B (zh) * 2021-01-18 2024-05-28 南京航空航天大学 一种基于强化学习的人脸属性编辑方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218655A (zh) * 2013-03-07 2013-07-24 西安理工大学 基于免疫耐受机制的强化学习算法
CN105959353A (zh) * 2016-04-22 2016-09-21 广东石油化工学院 基于平均强化学习和高斯过程回归的云作业接入控制方法
CN106094813A (zh) * 2016-05-26 2016-11-09 华南理工大学 基于模型相关强化学习的仿人机器人步态控制方法
WO2017091629A1 (en) * 2015-11-25 2017-06-01 Osaro, Inc. Reinforcement learning using confidence scores
EP3467718A1 (en) * 2017-10-04 2019-04-10 Prowler.io Limited Machine learning system
CN109858630A (zh) * 2019-02-01 2019-06-07 清华大学 用于强化学习的方法和设备
US20190370219A1 (en) * 2018-06-05 2019-12-05 Chatterbox Labs Limited Method and Device for Improved Classification

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218655A (zh) * 2013-03-07 2013-07-24 西安理工大学 基于免疫耐受机制的强化学习算法
WO2017091629A1 (en) * 2015-11-25 2017-06-01 Osaro, Inc. Reinforcement learning using confidence scores
CN105959353A (zh) * 2016-04-22 2016-09-21 广东石油化工学院 基于平均强化学习和高斯过程回归的云作业接入控制方法
CN106094813A (zh) * 2016-05-26 2016-11-09 华南理工大学 基于模型相关强化学习的仿人机器人步态控制方法
EP3467718A1 (en) * 2017-10-04 2019-04-10 Prowler.io Limited Machine learning system
US20190370219A1 (en) * 2018-06-05 2019-12-05 Chatterbox Labs Limited Method and Device for Improved Classification
CN109858630A (zh) * 2019-02-01 2019-06-07 清华大学 用于强化学习的方法和设备

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695690B (zh) * 2020-07-30 2023-04-18 航天欧华信息技术有限公司 基于合作式强化学习与迁移学习的多智能体对抗决策方法
CN111695690A (zh) * 2020-07-30 2020-09-22 航天欧华信息技术有限公司 基于合作式强化学习与迁移学习的多智能体对抗决策方法
CN112232478A (zh) * 2020-09-03 2021-01-15 天津(滨海)人工智能军民融合创新中心 一种基于分层注意力机制的多智能体强化学习方法及系统
CN112232478B (zh) * 2020-09-03 2023-11-17 天津(滨海)人工智能军民融合创新中心 一种基于分层注意力机制的多智能体强化学习方法及系统
CN112183762A (zh) * 2020-09-15 2021-01-05 上海交通大学 一种基于混合行为空间的强化学习方法
CN112488542B (zh) * 2020-12-04 2024-02-02 深圳市中科数建科技有限公司 基于机器学习的智慧工地智能物料调度方法及系统
CN112488542A (zh) * 2020-12-04 2021-03-12 深圳先进技术研究院 基于机器学习的智慧工地智能物料调度方法及系统
CN112800893A (zh) * 2021-01-18 2021-05-14 南京航空航天大学 一种基于强化学习的人脸属性编辑方法
CN112800893B (zh) * 2021-01-18 2024-05-28 南京航空航天大学 一种基于强化学习的人脸属性编辑方法
CN112975967A (zh) * 2021-02-26 2021-06-18 同济大学 一种基于模仿学习的服务机器人定量倒水方法及存储介质
CN112975967B (zh) * 2021-02-26 2022-06-28 同济大学 一种基于模仿学习的服务机器人定量倒水方法及存储介质
CN112989017A (zh) * 2021-05-17 2021-06-18 南湖实验室 用于生成对话策略学习用高质量模拟经验的方法
CN113359449A (zh) * 2021-06-04 2021-09-07 西安交通大学 基于强化学习的航空发动机双参数指数劣化维护方法
CN113221390A (zh) * 2021-06-24 2021-08-06 北京京东方技术开发有限公司 一种排产模型的训练方法和装置
CN113239639A (zh) * 2021-06-29 2021-08-10 暨南大学 策略信息生成方法、装置、电子装置和存储介质
CN113419424A (zh) * 2021-07-05 2021-09-21 清华大学深圳国际研究生院 减少过估计的模型化强化学习机器人控制方法及系统
CN113419424B (zh) * 2021-07-05 2023-08-18 清华大学深圳国际研究生院 减少过估计的模型化强化学习机器人控制方法及系统
CN113609755B (zh) * 2021-07-07 2022-02-22 中国科学院国家空间科学中心 一种时序强化学习的星间激光干涉频率规划仿真验证系统
CN113609755A (zh) * 2021-07-07 2021-11-05 中国科学院国家空间科学中心 一种时序强化学习的星间激光干涉频率规划仿真验证系统
CN113435794A (zh) * 2021-08-26 2021-09-24 山东大拇指喷雾设备有限公司 一种基于图像处理的喷嘴铸件后处理智能监测方法
CN114002948B (zh) * 2021-10-12 2023-09-26 同济大学 一种第三方数控机床接入服务平台的方法及装置
CN114002948A (zh) * 2021-10-12 2022-02-01 同济大学 一种第三方数控机床接入服务平台的方法及装置
CN114454160A (zh) * 2021-12-31 2022-05-10 中国人民解放军国防科技大学 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统
CN114454160B (zh) * 2021-12-31 2024-04-16 中国人民解放军国防科技大学 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统
CN116594358A (zh) * 2023-04-20 2023-08-15 暨南大学 基于强化学习的多层工厂车间调度方法
CN116594358B (zh) * 2023-04-20 2024-01-02 暨南大学 基于强化学习的多层工厂车间调度方法
CN116859755A (zh) * 2023-08-29 2023-10-10 南京邮电大学 无人车驾驶控制的最小化协方差强化学习训练加速方法
CN116859755B (zh) * 2023-08-29 2023-12-08 南京邮电大学 无人车驾驶控制的最小化协方差强化学习训练加速方法

Also Published As

Publication number Publication date
CN111241952B (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN111241952B (zh) 一种离散制造场景中的强化学习奖励自学习方法
Rangapuram et al. Deep state space models for time series forecasting
CN111047085B (zh) 一种基于元学习的混合动力车辆工况预测方法
CN108520155B (zh) 基于神经网络的车辆行为模拟方法
CN109840595B (zh) 一种基于群体学习行为特征的知识追踪方法
CN108564326A (zh) 订单的预测方法及装置、计算机可读介质、物流系统
Lechevalier et al. A neural network meta-model and its application for manufacturing
EP3502978A1 (en) Meta-learning system
CN112146879A (zh) 一种滚动轴承故障智能诊断方法及其系统
CN114463596A (zh) 一种超图神经网络的小样本图像识别方法、装置及设备
CN117574721A (zh) 一种工艺参数概率模型优化方法
CN116817909A (zh) 一种基于深度强化学习的无人机中继式导航方法
Torabi et al. DEALIO: Data-efficient adversarial learning for imitation from observation
CN113469262A (zh) 一种基于Fisher信息矩阵的增量学习方法
CN113988181B (zh) 一种基于自适应前馈神经网络的目标分类方法
CN113449817B (zh) 基于幻影梯度的图像分类隐式模型加速训练方法
CN113821012B (zh) 一种用于变工况卫星姿态控制系统的故障诊断方法
CN114612750B (zh) 自适应学习率协同优化的目标识别方法、装置及电子设备
Shao et al. Learning from Hindsight Demonstrations
CN113094969A (zh) 一种基于改进SeqGAN的数据生成方法及系统
CN117975190A (zh) 基于视觉预训练模型的模仿学习混合样本处理方法及装置
CN117332814A (zh) 一种基于模块化网络的合作智能体模型、学习方法和装置
Wang et al. Function approximation using robust fuzzy-GreyCMAC method
Balázs et al. Comparative analysis of various evolutionary and memetic algorithms
CN115545116A (zh) 一种基于carla神经网络的故障诊断方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant