CN109460890A - 一种基于强化学习与控制性能监测的智能自愈方法 - Google Patents

一种基于强化学习与控制性能监测的智能自愈方法 Download PDF

Info

Publication number
CN109460890A
CN109460890A CN201811110386.6A CN201811110386A CN109460890A CN 109460890 A CN109460890 A CN 109460890A CN 201811110386 A CN201811110386 A CN 201811110386A CN 109460890 A CN109460890 A CN 109460890A
Authority
CN
China
Prior art keywords
value
network
training
control
moment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811110386.6A
Other languages
English (en)
Other versions
CN109460890B (zh
Inventor
赵春晖
王婕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201811110386.6A priority Critical patent/CN109460890B/zh
Publication of CN109460890A publication Critical patent/CN109460890A/zh
Application granted granted Critical
Publication of CN109460890B publication Critical patent/CN109460890B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于强化学习与控制性能监测的智能自愈方法。本发明对待研究的生产制造过程建立动态模型,建立相应的奖励函数和目标函数,并结合神经网络,分别构造了值函数评价网络和设定值动作网络,解决了设定值难以连续调整的问题,在线地计算动态监测指标,对控制器的控制性能进行监测,并为自愈控制器提供变周期控制依据。该方法克服了重新建立精确过程动态模型的高成本问题,有效地解决了终端产品在线质量控制的问题通过改变控制周期可避免控制器的频繁调节带来的不稳定和过调等问题,保证了制造过程终端产品的质量,有助于提高产品质量稳定性及生产效率,从而提高了工业生产的经济效益。

Description

一种基于强化学习与控制性能监测的智能自愈方法
技术领域
本发明属于工业智能制造过程质量在线控制领域,特别是涉及一种基于强化学习与控制性能监测的智能自愈方法。
背景技术
近年来,随着人工智能与工业大数据的兴起,越来越多的传统制造过程开始转型升级为智能制造过程。对于智能生产制造过程来说,智能优化运行是控制问题的核心。然而,生产工况的变化和其他未知因素扰动的影响往往导致生产过程发生复杂而未知的变化,从而得到大量不合格的残次品,造成巨大的工业损失,更有甚者将影响生产过程的安全运行,导致各种生产事故。对于某些制造过程来说,容易影响生产过程运行的不是大型机器故障等可以预见的偶然性故障,而是微小故障(如机械故障、反应催化剂性能等)和未知干扰,所以如果对过程控制不及时不精准,容易导致运行退化,次优生产,机械故障,产品质量失控等不良后果。在工业生产中,生产安全和产品质量是人们最关心的两个问题,生产安全不过关将导致人身伤害,产品质量不合格将直接导致工厂的经济损失。
在工业控制领域中,由于工业生产过程中具有大量的不确定性、控制变量时变性等复杂特点,对工业过的在线控制困难重重,前人对此已从不同的角度做了相应的研究与探讨,提出了相应的控制方法,总体来说,主要包括基于解析模型的方法和基于数据驱动的方法。但目前很多工业过程仍然使用开环控制或分级反馈控制,一方面是缺少新型控制方法的突破,另一方面出于经济因素限制,控制性能受到限制。即传统的控制方法无法满足控制性能要求,复杂工业过程的控制问题正等待新技术的突破。
得益于互联网的发展与大数据的普及,人工智能在自动化、制造业、交通运输及农业等行业垂直领域都体现出了巨大的潜力,大量的社会资本和数据资源的汇集推动人工智能技术不断前进。特别地,对于工业发展来说,人工智能与工业大数据的结合无疑是解决复杂控制问题、提升工业制造智能化水平的利刃,在一些传统方法束手无策的工业过程控制问题上,人工智能将在大数据背景下为这些优化控制问题提供新的思路与方法。
基于以上控制现状和要求,本课题选用时下热门的智能算法,以解决制造过程生产批次智能运行优化大课题下质量在线控制和控制器性能监测的子问题,利用强化学习算法的自愈能力,力求系统在各种干扰和未知因素影响下仍能实时在线地进行自我调整某些变量设定值,保证产品质量符合生产者期望;利用SFA算法,对控制器进行在线监测并提供变控制周期依据,从而避免控制器频繁调节,提高过程稳定性及生产效率,降低生产成本,充分利用资源,提高经济效益,实现智能算法与现代工业过程的结合,为相关复杂控制问题提供一种具有可行性的思路。
发明内容
本发明基于Actor-Critic的强化学习方法提出了一种基于强化学习与控制性能监测的智能自愈方法,使控制器通过与实际工业过程的信息交互,实现了制造过程在受到扰动或其他影响因素时能够快速在线调节相关设定值的功能,从而达到优化产品质量的目的,同时,通过SFA对过程的在线监测结果,根据其动态指标改变控制器控制周期,避免了控制器的频繁操作、过度调节问题,提供了一套结合了质量在线控制器与控制器性能监测的方法。
本发明的目的通过以下技术方案实现:一种基于强化学习与控制性能监测的智能自愈方法,该方法包括以下步骤:
(1)获取待分析数据:设对一个生产制造过程选取J个过程变量,则在k时刻采样可以得到一个1×J的向量,称为过程向量x(k),一个批次过程结束,则可以得到一个K×J维的数据,其中K是一个批次中的采样次数,所述过程变量为运行过程中可被测量的状态参数;采集该批次的终端输出质量为y。
(2)利用历史批次的数据,对时刻k的过程向量x(k)和终端输出质量进行预测,终端输出质量的预测结果表示为
(3)定义奖励函数R(k)、目标函数J(k)及控制变量设定值u(k):
由于制造过程总是希望终端输出产品质量符合生产者期望,根据生产者期望设定奖励函数R(k),计算公式如下:
其中,y*是终端质量的期望值,是k时刻的质量预测值,Δ是容许质量误差值,构成了期望质量区间。R(k)越小,该批次产品的质量越符合期望。目标函数J(k)表示为从k时刻到批次结束时,每个采样时刻上预测质量误差平方的总和,定义为:
其中,γ∈[0,1]是折扣因子。
对目标函数进行化简,可将其分为两个部分,第一部分Ri(k)衡量了控制作用在当前时刻导致的质量偏差,第二部分γJ(k+1)衡量了控制作用在后续时刻对质量的影响,公式化简如下:
控制变量为根据非优原因诊断或相关过程知识选择的待控制的变量,其设定值表示为u(k),过程初始设定值根据生产经验自行设定。
(4)根据强化学习中的Actor-Critic结构,建立自愈算法的主要部分,即构造设定值动作网络和值函数评价网络,该步骤由以下子步骤实现:
(4.1)构建并训练值函数评价网络,该步骤由以下子步骤实现:
(4.1.1)以普通三层前馈神经网络为基本结构,输入层神经元为k时刻的J个过程向量x(k)及待控制的变量设定值u(k),输出为目标函数J(k)。
(4.1.2)在采样时刻k,根据神经网络中权值更新公式对评价网络权重系数Wc(k)进行更新:
Wc(k+1)=Wc(k)+ΔWc(k) (4)
其中,lc(k)为k时刻的学习率,Ec(k)为训练误差。
当训练误差小于训练阈值Tc,则表明目标函数已经能被准确预测和评价,训练停止,反之,表明评价网络需要继续训练。
(4.2)构建并训练设定值动作网络,该步骤由以下子步骤实现:
(4.2.1)以普通三层前馈神经网络为基本结构,输入层神经元为k时刻的J个过程变量x(k),输出为待控制的变量设定值u(k)。
(4.2.2)在采样时刻k,根据神经网络中权值更新公式对动作网络权重系数Wa(k)进行更新:
Wa(k+1)=Wa(k)+ΔWa(k) (7)
其中,la(k)为k时刻的学习率,Ea(k)为训练误差:
当训练误差小于训练阈值Ta,则表明当前变量的设定值已经满足期望要求,训练停止,反之,表明评价网络需要继续训练。
(5)利用SFA算法提取变量空间的快慢特征并计算动态监测指标,其中,SFA监测采样周期需要小于控制器的响应时间,该步骤由以下子步骤实现:
(5.1)离线建立SFA模型,该步骤由以下子步骤实现:
(5.1.1)训练数据获取:采样获取制造过程在正常工况下的一个批次的维数为K×J的过程变量X0作为输入数据。
(5.1.2)训练数据标准化:对输入数据按列进行标准化,公式如下:
其中,为x0中第i行第j列的数值xi,j标准化后的数值,为第j列的均值,sj为第j列的方差,标准化后得到训练数据X。
(5.1.3)训练数据白化:对训练数据进行白化以去除训练数据X中的相关性,使得提取出的特征值携带不同的信息,具体操作是对<xxT>t进行奇异值分解,生成白化矩阵Q,得到白化后的输入向量z,公式如下:
<xxT>t=UΛUT (11)
z=Λ-1/2UTx=Qx (12)
Q=Λ-1/2UT (13)
其中,<>t表示对时间进行积分;
(5.1.4)计算转换矩阵,得到m个慢特征s:可以证明,对进行奇异值分解后,得到正交矩阵P,能使目标函数值最小,并且得到的一系列奇异值ωj即为函数值表示特征的缓慢度Δ(sj),正交矩阵P、转换矩阵W、特征值矩阵Ω及慢特征的计算公式如下:
W=PQ=PΛ-1/2UT (15)
Ω=diag(ω12,…ωm) (16)
s=Wx (17)
(5.1.5)划分快慢特征:将通过奇异值分解得到的特征向量矩阵和特征值矩阵从小到大排列,根据以下公式划分前M个特征为慢特征,剩余的Me个特征为快特征。
M=m-Me (20)
其中,rji为矩阵R=W-1中第(j,i)个元素,q为分位数,可取0.1;card{·}表示集合{·}中元素个数。
通过上述准则,可将提取得到的特征s分为较慢特征sd和较快特征se,即s=[sdse]T,对应地,特征值矩阵也可分为两部分Ωd和Ωe
(5.1.6)计算动态监测指标:从输入数据的第一个采样点开始,在每个采样时刻k可得到一组动态监测指标(Sd 2,Se 2),计算公式如下:
其中,表示sd的一阶差分;
(5.1.7)计算动态监测指标的控制限:利用核密度估计的方法,先估计出动态监测指标Sd 2和Se 2的概率密度函数pd(x),pe(x),对于给定显著性水平α,Sd 2和Se 2的控制限计算公式如下:
(6)在采样时刻k,采集数据,按照步骤(5),利用SFA算法提取变量空间的快慢特征并计算动态监测指标,根据监测结果判断该时刻是否为控制决策时刻,若是,则进行自愈,若否,则不进行干预。当k=K时,表明该批次的控制已经结束,进行下一批次的控制。
所述的监测方法如下:
(6.1.1)获取在线测试数据及数据预处理:在采样时刻k采集前k时刻过程变量利用步骤(5.1.2)中计算得到的均值和方差sj对测试数据按公式(10)进行标准化处理,得到测试数据
(6.1.2)计算并划分快慢特征:根据步骤(5.1.4)中得到的转换矩阵W,对进行投影得到再根据步骤(5.1.5)中的划分准则,提取较慢特征和较快特征
(6.1.3)计算在线动态监测指标:根据建立的SFA模型以及步骤(5.1.6)中的计算方法,计算在线动态监测统计指标
(6.1.4)根据动态监测指标超限与否确定是否为控制决策时刻,如果动态指标超出控制限说明控制器仍在响应,系统还未稳定,则当前时刻k不是控制决策时刻;如果动态指标回到控制限内,说明控制器已响应完成,系统进入稳定状态,则在当前时刻k为控制决策时刻,需要进行自愈。
所述的自愈方法如下:
(6.2.1)在控制决策时刻k,将当前时刻过程变量x(k)和u(k)输入到步骤(4)中构建的值函数评价网络输出目标函数J(k),将过程变量x(k)输入到步骤(4)中构建的设定值动作网络,输出获得输出值u(k+1)。
(6.2.2)在新的设定值u(k+1)下,用步骤(2)中相同的预测方法得到新的过程变量值x(k+1),质量预测值
(6.2.3)将x(k+1)和u(k+1)作为值函数评价网络的输入值,利用三层前馈神经网络输出值函数预测值J(k+1),并根据公式(1)得到奖励信号R(k)
(6.2.4)根据公式(4)计算评价网络值函数评价网络的训练误差Ec(k),如果Ec(k)超出预先定义的训练阈值,则根据公式(5)(6)来训练值函数评价网络直到达到最大循环次数或者满足预先定义的训练误差。
(6.2.5)当值函数评价网络训练完成后,根据公式(7)来计算设定值动作网络的训练误差Ea(k);如果Ea(k)超出预先定义的范围,根据公式(8)(9)训练设定值动作网络直到达到最大循环次数或者满足预先定义的训练误差。
进一步地,为了防止其他系统微小干扰对动态监测指标的影响,当有连续n个采样时刻动态指标未超限,则下一个时刻为控制决策时刻,其中n的值应根据批次长度和采样时间自行设定。
进一步地,所述步骤二中的预测方法,包括但不限于NARX(nonlinearautoregressive network with exogenous inputs,NARX)、神经网络预测方法。
本发明的有益效果在于:本发明针对智能生产制造过程的质量在线控制问题提出了一种基于强化学习与控制性能监测的智能自愈方法。该方法在工业过程受到扰动或其他影响因素而使生产过程偏离原定的最优轨迹时,通过与过程的信息交互,并采取强化学习中的“试错”机制对交互信息进行学习,分别建立评价网络和动作网络,通过这两个网络的不断评估和决策,最终使控制器的输出能使过程稳定并且使输出符合期望。此外,该控制器具有变周期控制功能,当控制器响应周期大于采样周期时,在每个采样周期输出控制信号会产生过调和振荡,该方法利用SFA算法,对过程信息提取特征,进行在线的监测和分析,通过判断动态性能指标与控制限的关系实时地改变控制周期,有利于控制器的平稳控制,大大提高了质量在线控制的性能。该方法充分挖掘生产制造过程的潜在信息,有效地解决了制造过程质量在线控制困难的问题,提高了该工业过程对未知因素的抗干扰能力,有助于提高生产稳定性,从而保证了制造过程终端质量符合生产者的期望,同时达到了提高其生产效益的生产需求。
附图说明:
图1是本发明基于强化学习的产品质量智能自愈控制器网络结构,(a)为值函数评价网络结构,(b)为设定值动作网络结构。
图2是本发明利用SFA算法进行控制性能监测的过程流程图,(a)为SFA离线建模过程流程图,(b)为SFA在线监测过程流程图。
图3是本发明质量自愈控制器及控制性能评价算法流程图,(a)为整体算法流程图,(b)为自愈控制器算法流程图。
图4是本发明应用于注塑过程质量在线控制课题的仿真结果图,(a)为经结合自愈和SFA在线监测算法控制的设定值输出曲线,(b)为自愈控制器调节下的终端产品质量曲线,(c)为SFA在线监测动态指标曲线。
具体实施方式
下面结合附图及具体实例,对本发明做进一步说明。
作为一种智能制造过程,塑料加工业是一种新兴制造业和基础性民生产业,它被广泛应用于日常生活、工农业、建筑业、国防工业等各个领域,有着广阔的发展前景。注塑成型作为一种大批量注射兼模型的加工技术,是一种非常重要的加工手段。作为一种典型的多时段间歇生产过程,注塑成型一般由注射、保压、冷却三个阶段构成。具体地说,在注射阶段,液压系统推动螺杆将塑料粘流体注入模腔中,直至模腔被流体充满;在保压阶段,仍有少量的粘流体被高压挤进模腔中,以补偿塑料粘流体在冷却和塑化时造成的体积收缩,一直持续到模腔的浇口冻结;过程进入冷却塑化段,螺杆头部熔料逐渐增多,达到一定的注射量后,螺杆停止后退和转动,随着模腔中熔料继续冷却,塑件完全固化,模具打开,塑件被顶出,从而完成一个工作循环。其中,根据相关文献的研究成果确定保压段为质量控制关键阶段。
本发明是一种基于强化学习与控制性能监测的智能自愈方法,包括以下步骤:
(1)获取待分析数据:设对一个注塑生产过程选取J个过程变量,则在k时刻采样可以得到一个1×J的向量,称为过程向量x(k),本实例中,所述测量变量为运行过程中可被测量的状态参数,包括流量阀开度、压力阀开度、螺杆行程、注射速度、顶杆行程、注射压力。每个样本的批次长度为160,测量变量为6个:流量阀开度、压力阀开度、螺杆行程、注射速度、顶杆行程、注射压力;采集注塑过程终端输出产品的实际质量为y。
(2)利用历史批次的数据,对时刻k的过程向量x(k)和终端输出质量进行预测,终端输出质量的预测结果表示为本实施例中采用现有的NARX方法建模,该步骤通过以下子步骤实现:
(2.1)确定动态模型的输入变量和输出变量,为了尽可能精确模拟保压段过程,一般通过改变机筒温度、注射速度、保压压力等变量来模拟不同的工况,每个工况取L个批次数,选取合适数量的批次过程分别用来训练和测试。根据现有研究结果,在本实例中,选择保压段建模输入变量u(k-1),u(t-2),…,u(k-N2)为历史时刻的机筒温度、注射速度、保压压力的数值;其中选择保压压力为控制变量,y(k-1),y(k-2),…,y(k-N1)为历史时刻的产品质量值,输出变量为k时刻产品质量y(k),其中,N1为选择的质量数据的延时采样个数,N2为选择的控制变量数据的延时采样个数。共采集了270个样本,其中225个样本作为训练数据,45个正常批次样本用于测试本发明提出的保压段动态模型,即建模训练输入数据矩阵为X(225×6×160),测试输入数据矩阵为X(45×6×160)。
(2.2)在保压时段,利用NARX(nonlinear autoregressive network withexogenous inputs)进行建模,在本实例中,一共对九种不同的工况进行建模。
y(t)=f(y(k-1),y(k-2),…,y(k-N1),u(k-1),u(t-2),…,u(k-N2)) (1)
(3)定义奖励函数R(k)和目标函数J(k):
由于注塑过程总是希望终端输出产品质量符合生产者期望,根据生产者期望设定奖励函数,计算公式如下:
其中,y*是终端质量的期望值,是k时刻的质量预测值,Δ是容许质量误差值,构成了期望质量区间。R(k)越小,该批次产品的质量越符合期望。
目标函数J(k)表示为从k时刻到批次结束时,每个采样时刻上预测质量误差平方的总和,定义为:
其中,γ∈[0,1]是折扣因子。
对目标函数进行化简,可将其分为两个部分,第一部分Ri(k)衡量了控制作用在当前时刻导致的质量偏差,第二部分γJ(k+1)衡量了控制作用在后续时刻对质量的影响,公式化简如下:
(4)根据强化学习中的Actor-Critic结构,建立自愈算法的主要部分,即构造设定值动作网络和值函数评价网络,该步骤由以下子步骤实现:
(4.1)构建并训练值函数评价网络,该步骤由以下子步骤实现:
(4.1.1)以普通三层前馈神经网络为基本结构,输入层神经元为k时刻的J个过程变量x(k)及非优原因变量u(k),输出为目标函数J(k)。
(4.1.2)在采样时刻k,根据神经网络中权值更新公式对评价网络权重系数Wc(k)进行更新:
Wc(k+1)=Wc(k)+ΔWc(k) (5)
其中,lc(k)为k时刻的学习率,Ec(k)为训练误差。在本实例中,取初始学习率为0.8,随着学习次数的增加每次减少0.005,直到减少为0.01。
当训练误差小于训练阈值Tc,则表明目标函数已经能被准确预测和评价,训练停止,反之,表明评价网络需要继续训练。在本实例中,取Tc为0.01,最大迭代次数为100次。
(4.2)构建并训练设定值动作网络,该步骤由以下子步骤实现:
(4.2.1)以普通三层前馈神经网络为基本结构,输入层神经元为k时刻的J个过程变量x(k),输出为待控制的变量设定值ui(k)。
(4.2.2)在采样时刻k,根据神经网络中权值更新公式对动作网络权重系数Wa(k)进行更新:
Wa(k+1)=Wa(k)+ΔWa(k) (8)
其中,la(k)为k时刻的学习率,Ea(k)为训练误差;在本实例中,取初始学习率为0.8,随着学习次数的增加每次减少0.005,直到减少为0.01。
当训练误差小于训练阈值Ta,则表明当前变量的设定值已经满足期望要求,训练停止,反之,表明评价网络需要继续训练。在本实例中,取Tc为0.001,最大迭代次数为100次。
(5)利用SFA算法提取变量空间的快慢特征并计算动态监测指标,SFA监测采样周期需要满足小于控制器响应时间的要求,该步骤由以下子步骤实现:
(5.1)离线建立SFA模型,该步骤由以下子步骤实现:
(5.1.1)训练数据获取:采样获取制造过程在正常工况下一个批次的维数为K×J的过程变量X0作为输入数据。在本实例中,取X0(160×6)。
(5.1.2)训练数据标准化:对训练数据进行标准化,公式如下:
其中,为x0中第i行第j列的数值xi,j标准化后的数值,为第j列的均值,sj为第j列的方差,标准化后得到训练数据X。
(5.1.3)训练数据白化:对训练数据进行白化以去除训练数据x中的相关性,使得提取出的特征值携带不同的信息,具体操作是对<xxT>t进行奇异值分解,生成白化矩阵Q,得到白化后的输入向量z,公式如下:
<xxT>t=UΛUT (12)
z=Λ-1/2UTx=Qx (13)
Q=Λ-1/2UT (14)
其中,<>t表示对时间进行积分;
(5.1.4)计算转换矩阵,得到m个慢特征s:可以证明,对进行奇异值分解后,得到正交矩阵P,能使目标函数值最小,并且得到的一系列奇异值ωj即为函数值表示特征的缓慢度Δ(sj),正交矩阵P、转换矩阵W、特征值矩阵Ω及慢特征的计算公式如下:
W=PQ=PΛ-1/2UT (16)
Ω=diag(ω12,…ωm) (17)
s=Wx (18)
(5.1.5)划分快慢特征:将通过奇异值分解得到的特征向量矩阵和特征值矩阵从小到大排列,根据以下准则划分前M个特征为慢特征,剩余的Me个特征为快特征。
M=m-Me (21)
其中,rji为矩阵R=W-1中第(j,i)个元素,card{·}表示集合{·}中元素个数,q为分位数,在本实例中取0.1,计算得M=3。
通过上述准则,可将提取得到的特征s分为较慢特征sd和较快特征se,即s=[sdse]T,对应地,特征值矩阵也可分为两部分Ωde
(5.1.6)计算动态监测指标:从输入数据的第一个采样点开始,在每个采样时刻k可得到一组动态监测指标(Sd 2,Se 2),计算公式如下:
其中,表示sd的一阶差分;
(5.1.7)计算动态监测指标的控制限:利用核密度估计的方法,先估计出动态监测指标Sd 2和Se 2的概率密度函数pd(x),pe(x),对于给定显著性水平α,Sd 2和Se 2的控制限计算公式如下:
在本实例中,取α为0.01。
(6)在采样时刻k,采集数据,按照步骤(5),利用SFA算法提取变量空间的快慢特征并计算动态监测指标,根据监测结果判断该时刻是否为控制决策时刻,若是,则进行自愈,若否,则不进行干预。当k=K时,表明该批次的控制已经结束,进行下一批次的控制。
所述的监测方法如下:
(6.1.1)获取在线测试数据及数据预处理:在采样时刻k采集前k时刻过程变量利用步骤(5.1.2)中计算得到的均值和方差sj对测试数据按公式(10)进行标准化处理,得到测试数据
(6.1.2)计算并划分快慢特征:根据步骤(5.1.4)中得到的转换矩阵W,对进行投影得到再根据步骤(5.1.5)中的划分准则,提取较慢特征和较快特征
(6.1.3)计算在线动态监测指标:根据建立的SFA模型以及步骤(5.1.6)中的计算方法,计算在线动态监测统计指标
(6.1.4)根据动态监测指标超限与否确定是否为控制决策时刻,如果动态指标超出控制限说明控制器仍在响应,系统还未稳定,则当前时刻k不是控制决策时刻;如果动态指标回到控制限内,说明控制器已响应完成,系统进入稳定状态,则在当前时刻k为控制决策时刻,需要进行自愈。
作为优选的方案,当有连续n个采样时刻动态指标未超限,则下一个时刻为控制决策时刻,n一般为3~5,以防止其他系统微小干扰对动态监测指标的影响。
所述的自愈方法如下:
(6.2.1)在控制决策时刻k,将当前时刻过程变量x(k)和u(k)输入到步骤(4)中构建的值函数评价网络输出目标函数J(k),将过程变量x(k)输入到步骤(4)中构建的设定值动作网络,输出获得输出值u(k+1)。
(6.2.2)在新的设定值u(k+1)下,用步骤(2)中相同的预测方法得到新的过程变量值x(k+1),质量预测值
(6.2.3)将x(k+1)和u(k+1)作为值函数评价网络的输入值,利用三层前馈神经网络输出值函数预测值J(k+1),并根据公式(2)得到奖励信号R(k)
(6.2.4)根据公式(7)计算评价网络值函数评价网络的训练误差Ec(k),如果Ec(k)超出预先定义的训练阈值,则根据公式(5)(6)来训练值函数评价网络直到达到最大循环次数或者满足预先定义的训练误差。
(6.2.5)当值函数评价网络训练完成后,根据公式(10)来计算设定值动作网络的训练误差Ea(k);如果Ea(k)超出预先定义的范围,根据公式(8)(9)训练设定值动作网络直到达到最大循环次数或者满足预先定义的训练误差。
在生产过程偏离原定的最优轨迹时,通过在线质量预测模型与过程进行信息交互,利用强化学习的思想分别建立评价网络和动作网络,通过这两个网络的不断评估和决策,最终使控制器调节下的非优原因变量能找到新的稳定值,并且使终端质量符合期望,如图4(b)所示。该控制器具有变周期控制功能,如果在每个采样时刻进行控制决策,则会使控制器还未响应完毕就进入下一次调节,频繁的调节会影响系统的稳定性,而该方法利用SFA算法,在监测采样时间小于系统采样周期的条件下,对过程信息提取特征,进行在线的监测和分析,当动态性能指标超过控制限时,适当延长控制周期,有利于控制器的响应,当动态性能指标落回控制限时,适当缩短控制周期,使控制器继续通过自愈学习调整控制信号,从图4(c)可以看出,在第62个采样点以后,控制器已经达到了一个新的稳定工况,与单独的自愈控制器相比,更快速地使系统稳定下来,大大提高了质量在线控制的性能。该方法充分挖掘了制造过程的潜在信息,有效地解决了工业过程质量在线控制的问题,提高了过程对未知因素的抗干扰能力,有助于提高生产稳定性,从而保证了制造过程终端质量符合生产者的期望,同时达到了提高其生产效益的生产需求。

Claims (3)

1.一种基于强化学习与控制性能监测的智能自愈方法,其特征在于,该方法包括以下步骤:
(1)获取待分析数据:设对一个生产制造过程选取J个过程变量,则在k时刻采样可以得到一个1×J的向量,称为过程向量x(k),一个批次过程结束,则可以得到一个K×J维的数据,其中K是一个批次中的采样次数,所述过程变量为运行过程中可被测量的状态参数;采集该批次的终端输出质量为y。
(2)利用历史批次的数据,对时刻k的过程向量x(k)和终端输出质量进行预测,终端输出质量的预测结果表示为
(3)定义奖励函数R(k)、目标函数J(k)及控制变量设定值u(k):
由于制造过程总是希望终端输出产品质量符合生产者期望,根据生产者期望设定奖励函数R(k),计算公式如下:
其中,y*是终端质量的期望值,是k时刻的质量预测值,Δ是容许质量误差值,构成了期望质量区间。R(k)越小,该批次产品的质量越符合期望。
目标函数J(k)表示为从k时刻到批次结束时,每个采样时刻上预测质量误差平方的总和,定义为:
其中,γ∈[0,1]是折扣因子。
对目标函数进行化简,可将其分为两个部分,第一部分Ri(k)衡量了控制作用在当前时刻导致的质量偏差,第二部分γJ(k+1)衡量了控制作用在后续时刻对质量的影响,公式化简如下:
控制变量为根据非优原因诊断或相关过程知识选择的待控制的变量,其设定值表示为u(k),过程初始设定值根据生产经验自行设定。
(4)根据强化学习中的Actor-Critic结构,建立自愈算法的主要部分,即构造设定值动作网络和值函数评价网络,该步骤由以下子步骤实现:
(4.1)构建并训练值函数评价网络,该步骤由以下子步骤实现:
(4.1.1)以普通三层前馈神经网络为基本结构,输入层神经元为k时刻的J个过程向量x(k)及待控制的变量设定值u(k),输出为目标函数J(k)。
(4.1.2)在采样时刻k,根据神经网络中权值更新公式对评价网络权重系数Wc(k)进行更新:
Wc(k+1)=Wc(k)+ΔWc(k) (4)
其中,lc(k)为k时刻的学习率,Ec(k)为训练误差。
当训练误差小于训练阈值Tc,则表明目标函数已经能被准确预测和评价,训练停止,反之,表明评价网络需要继续训练。
(4.2)构建并训练设定值动作网络,该步骤由以下子步骤实现:
(4.2.1)以普通三层前馈神经网络为基本结构,输入层神经元为k时刻的J个过程变量x(k),输出为待控制的变量设定值u(k)。
(4.2.2)在采样时刻k,根据神经网络中权值更新公式对动作网络权重系数Wa(k)进行更新:
Wa(k+1)=Wa(k)+ΔWa(k) (7)
其中,la(k)为k时刻的学习率,Ea(k)为训练误差:
当训练误差小于训练阈值Ta,则表明当前变量的设定值已经满足期望要求,训练停止,反之,表明评价网络需要继续训练。
(5)利用SFA算法提取变量空间的快慢特征并计算动态监测指标,其中,SFA监测采样周期需要小于控制器的响应时间,该步骤由以下子步骤实现:
(5.1)离线建立SFA模型,该步骤由以下子步骤实现:
(5.1.1)训练数据获取:采样获取制造过程在正常工况下的一个批次的维数为K×J的过程变量X0作为输入数据。
(5.1.2)训练数据标准化:对输入数据按列进行标准化,公式如下:
其中,为X0中第i行第j列的数值xi,j标准化后的数值,为第j列的均值,sj为第j列的方差,标准化后得到训练数据X。
(5.1.3)训练数据白化:对训练数据进行白化以去除训练数据X中的相关性,使得提取出的特征值携带不同的信息,具体操作是对<xxT>t进行奇异值分解,生成白化矩阵Q,得到白化后的输入向量z,公式如下:
<xxT>t=UΛUT (11)
z=Λ-1/2UTx=Qx (12)
Q=Λ-1/2UT (13)
其中,<>t表示对时间进行积分;
(5.1.4)计算转换矩阵,得到m个慢特征s:可以证明,对进行奇异值分解后,得到正交矩阵P,能使目标函数值最小,并且得到的一系列奇异值ωj即为函数值表示特征的缓慢度Δ(sj),正交矩阵P、转换矩阵W、特征值矩阵Ω及慢特征的计算公式如下:
W=PQ=PΛ-1/2UT (15)
Ω=diag(ω12,…ωm) (16)
s=Wx (17)
(5.1.5)划分快慢特征:将通过奇异值分解得到的特征向量矩阵和特征值矩阵从小到大排列,根据以下公式划分前M个特征为慢特征,剩余的Me个特征为快特征。
M=m-Me (20)
其中,rji为矩阵R=W-1中第(j,i)个元素,q为分位数,可取0.1;card{·}表示集合{·}中元素个数。
通过上述准则,可将提取得到的特征s分为较慢特征sd和较快特征se,即s=[sd se]T,对应地,特征值矩阵也可分为两部分Ωd和Ωe
(5.1.6)计算动态监测指标:从输入数据的第一个采样点开始,在每个采样时刻k可得到一组动态监测指标(Sd 2,Se 2),计算公式如下:
其中,表示sd的一阶差分;
(5.1.7)计算动态监测指标的控制限:利用核密度估计的方法,先估计出动态监测指标Sd 2和Se 2的概率密度函数pd(x),pe(x),对于给定显著性水平α,Sd 2和Se 2的控制限 计算公式如下:
(6)在采样时刻k,采集数据,按照步骤(5),利用SFA算法提取变量空间的快慢特征并计算动态监测指标,根据监测结果判断该时刻是否为控制决策时刻,若是,则进行自愈,若否,则不进行干预。当k=K时,表明该批次的控制已经结束,进行下一批次的控制。
所述的监测方法如下:
(6.1.1)获取在线测试数据及数据预处理:在采样时刻k采集前k时刻过程变量利用步骤(5.1.2)中计算得到的均值和方差sj对测试数据按公式(10)进行标准化处理,得到测试数据
(6.1.2)计算并划分快慢特征:根据步骤(5.1.4)中得到的转换矩阵W,对进行投影得到再根据步骤(5.1.5)中的划分准则,提取较慢特征和较快特征
(6.1.3)计算在线动态监测指标:根据建立的SFA模型以及步骤(5.1.6)中的计算方法,计算在线动态监测统计指标
(6.1.4)根据动态监测指标超限与否确定是否为控制决策时刻,如果动态指标超出控制限 说明控制器仍在响应,系统还未稳定,则当前时刻k不是控制决策时刻;如果动态指标回到控制限内,说明控制器已响应完成,系统进入稳定状态,则在当前时刻k为控制决策时刻,需要进行自愈。
所述的自愈方法如下:
(6.2.1)在控制决策时刻k,将当前时刻过程变量x(k)和u(k)输入到步骤(4)中构建的值函数评价网络输出目标函数J(k),将过程变量x(k)输入到步骤(4)中构建的设定值动作网络,输出获得输出值u(k+1)。
(6.2.2)在新的设定值u(k+1)下,用步骤(2)中相同的预测方法得到新的过程变量值x(k+1),质量预测值
(6.2.3)将x(k+1)和u(k+1)作为值函数评价网络的输入值,利用三层前馈神经网络输出值函数预测值J(k+1),并根据公式(1)得到奖励信号R(k)
(6.2.4)根据公式(4)计算评价网络值函数评价网络的训练误差Ec(k),如果Ec(k)超出预先定义的训练阈值,则根据公式(5)(6)来训练值函数评价网络直到达到最大循环次数或者满足预先定义的训练误差。
(6.2.5)当值函数评价网络训练完成后,根据公式(7)来计算设定值动作网络的训练误差Ea(k);如果Ea(k)超出预先定义的范围,根据公式(8)(9)训练设定值动作网络直到达到最大循环次数或者满足预先定义的训练误差。
2.根据权利要求1所述的方法,其特征在于,为了防止其他系统微小干扰对动态监测指标的影响,当有连续n个采样时刻动态指标未超限,则下一个时刻为控制决策时刻。
3.根据权利要求1所述的方法,其特征在于,所述步骤二中的预测方法,包括但不限于NARX(nonlinear autoregressive network with exogenous inputs,NARX)、神经网络预测方法。
CN201811110386.6A 2018-09-21 2018-09-21 一种基于强化学习与控制性能监测的智能自愈方法 Active CN109460890B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811110386.6A CN109460890B (zh) 2018-09-21 2018-09-21 一种基于强化学习与控制性能监测的智能自愈方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811110386.6A CN109460890B (zh) 2018-09-21 2018-09-21 一种基于强化学习与控制性能监测的智能自愈方法

Publications (2)

Publication Number Publication Date
CN109460890A true CN109460890A (zh) 2019-03-12
CN109460890B CN109460890B (zh) 2021-08-06

Family

ID=65606869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811110386.6A Active CN109460890B (zh) 2018-09-21 2018-09-21 一种基于强化学习与控制性能监测的智能自愈方法

Country Status (1)

Country Link
CN (1) CN109460890B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992086A (zh) * 2019-04-14 2019-07-09 北京中大科慧科技发展有限公司 一种数据中心动力系统的状态测评方法及状态测评装置
CN110393954A (zh) * 2019-07-15 2019-11-01 北京科技大学 一种基于强化学习的浓密机在线控制方法
CN111860698A (zh) * 2020-08-05 2020-10-30 中国工商银行股份有限公司 确定学习模型的稳定性的方法和装置
CN112306808A (zh) * 2020-11-03 2021-02-02 平安科技(深圳)有限公司 性能监测评价方法、装置、计算机设备及可读存储介质
CN117009831B (zh) * 2023-10-07 2023-12-08 山东世纪阳光科技有限公司 一种精细化工事故风险预测评估方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080049630A1 (en) * 2006-08-22 2008-02-28 Kozisek Steven E System and method for monitoring and optimizing network performance to a wireless device
CN105023056A (zh) * 2015-06-26 2015-11-04 华南理工大学 基于群智能强化学习的电网最优碳能复合流获取方法
CN106296044A (zh) * 2016-10-08 2017-01-04 南方电网科学研究院有限责任公司 电力系统风险调度方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080049630A1 (en) * 2006-08-22 2008-02-28 Kozisek Steven E System and method for monitoring and optimizing network performance to a wireless device
CN105023056A (zh) * 2015-06-26 2015-11-04 华南理工大学 基于群智能强化学习的电网最优碳能复合流获取方法
CN106296044A (zh) * 2016-10-08 2017-01-04 南方电网科学研究院有限责任公司 电力系统风险调度方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高金吉: "人工自愈与机器自愈调控系统", 《机械工程学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992086A (zh) * 2019-04-14 2019-07-09 北京中大科慧科技发展有限公司 一种数据中心动力系统的状态测评方法及状态测评装置
CN109992086B (zh) * 2019-04-14 2020-10-20 北京中大科慧科技发展有限公司 一种数据中心动力系统的状态测评方法及状态测评装置
CN110393954A (zh) * 2019-07-15 2019-11-01 北京科技大学 一种基于强化学习的浓密机在线控制方法
CN110393954B (zh) * 2019-07-15 2020-05-12 北京科技大学 一种基于强化学习的浓密机在线控制方法
CN111860698A (zh) * 2020-08-05 2020-10-30 中国工商银行股份有限公司 确定学习模型的稳定性的方法和装置
CN111860698B (zh) * 2020-08-05 2023-08-11 中国工商银行股份有限公司 确定学习模型的稳定性的方法和装置
CN112306808A (zh) * 2020-11-03 2021-02-02 平安科技(深圳)有限公司 性能监测评价方法、装置、计算机设备及可读存储介质
CN112306808B (zh) * 2020-11-03 2022-08-16 平安科技(深圳)有限公司 性能监测评价方法、装置、计算机设备及可读存储介质
CN117009831B (zh) * 2023-10-07 2023-12-08 山东世纪阳光科技有限公司 一种精细化工事故风险预测评估方法

Also Published As

Publication number Publication date
CN109460890B (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN109460890A (zh) 一种基于强化学习与控制性能监测的智能自愈方法
CN102902203B (zh) 时间序列预测与智能控制结合的参数在线整定方法与系统
CN105751470B (zh) 一种注塑机温度实时控制方法
CN108803531B (zh) 基于动静特征协同分析和有序时段划分的闭环系统过程监测方法
CN103901773B (zh) 一种针对输入时滞的2d混杂控制器设计方法
CN110202768A (zh) 一种注塑机料筒温度控制方法
CN103116306A (zh) 一种自动的步进式有序时段划分方法
CN113325721A (zh) 一种工业系统无模型自适应控制方法及系统
CN112180739A (zh) 一种针对过热汽温控制系统的参数优化方法
CN108073077A (zh) 批次过程无穷时域优化的线性二次混杂容错控制方法
CN105108986A (zh) 一种注塑工艺监控及塑料件在线品质分拣的系统及方法
Wang et al. A novel sensing feature extraction based on mold temperature and melt pressure for plastic injection molding quality assessment
TW202025005A (zh) 基於模型之機器學習系統
Yang et al. Data-driven demand forecasting method for fused magnesium furnaces
CN111491773A (zh) 用于注射压机的成型参数处理方法
CN113885310A (zh) 一种用于真空干泵测试的智能控制系统
CN108447737B (zh) 一种基于单纯形搜索的继电器底座质量优化系统
Li et al. Final prediction of product quality in batch process based on bidirectional neural network algorithm
Zhang et al. Multimodal control by variable-structure neural network modeling for coagulant dosing in water purification process
Zou et al. Quality analysis and prediction for start-up process of injection molding processes
Li et al. A real‐time process optimization system for injection molding
Chen et al. An Improved Twin Support Vector Regression Machine Based on Adjusted Cosine Similarity for Load Prediction
Mun et al. Design and Analysis of Optimal Recipe Prediction Model Based on Deep Learning for Advanced Composite Material Injection Molding
Zhao et al. Slow feature analysis based quality prediction for slow time-varying batch processes
CN112100902A (zh) 一种基于流数据的锂离子电池寿命预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant