CN117057225A

CN117057225A - 自适应学习的燃气阀高速高频高精伺服与性能重构方法

Info

Publication number: CN117057225A
Application number: CN202310956655.5A
Authority: CN
Inventors: 付庄; 华佐豪; 刘浜; 张嘉正; 牛禄
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2023-11-14

Abstract

本发明提供自适应学习的燃气阀高速高频高精伺服与性能重构方法，包括：RV：对燃气阀进行输入输出均为阀芯运动速度的降维辨识，构建被训练燃气阀的低维状态空间；V：进行燃气阀伺服虚拟环境在线训练；VR：将在线训练的神经网络迁移至实物环境，建立上下位机的通讯；R：进行实物环境离线训练，同时引入故障诊断神经网络，实时诊断阀门性能状态。本发明在虚拟环境中输入与输出足够拟合真实环境，将动力学模型系统辨识为状态空间方程，反应真实系统响应并提升运算效率和训练速度；将虚拟环境训练模型迁移至实物环境中，将预训练模型面向真实系统进行训练，引入故障诊断模型，提升实物训练的安全可靠性与高速高频高精伺服控制系统的自适应性。

Description

自适应学习的燃气阀高速高频高精伺服与性能重构方法

技术领域

本发明涉及燃气阀门伺服系统的控制策略技术领域，具体为一种自适应学习的燃气阀高速高频高精伺服与性能重构方法

背景技术

随着控制理论的进步，当前燃气阀门伺服系统的控制策略研究主要集中在如何克服机械结构中间隙与摩擦以提高跟踪精度，如何动态调整指令以实现快速定位而不产生超调，以及如何自适应地调整负载大小以确保系统的控制刚度。人工智能在伺服控制领域的应用已成为一种趋势，其控制算法在未知和不确定环境中表现出从反馈中连续学习和主动适应复杂任务的特点，远远超过了现有的控制策略。

经检索，中国专利CN114167716A公布了一种基于流量控制的调节型电动执行方法，其需要建立伺服控制策略需要一个虚拟的训练环境，用来规避训练初期策略不稳定时可能造成的硬件损耗，以及提升效率。如果使用精细建模的仿真机械模型或动力学模型作为虚拟环境，若想在微观层面得到精确的分析，需要将电动、机械机构中各种非线性因素进行细微的建模，并不适用于多维的输入输出。

经检索，中国专利CN 114967426 A公布了一种基于DDPG强化学习的PID动态整定电机控制系统。其利用DDPG控制器对PID控制器的动作参数进行动态整定，能够让系统尽快向目标收敛，快速消除电机实际值与目标值之间的控制误差。由于工况的变化，PID在超调量、响应速度等方面不能满足实际需求，往往需要提前根据各种工况设置不同的参数，需要调试人员具备相应的调参经验。

经检索，中国专利CN108448978 A公布了一种有刷直流电机强化学习自适应控制方法。其首先建立有刷直流电机的数学模型，基于微分平坦设计前馈加反馈的二自由度控制结构，能够抑制扰动对电机低速控制的影响，提升转速跟踪精度；但其数学模型没有考虑所有的非线性因素。

训练神经网络需要让智能体和一个环境互动来获取奖励。当这个环境是实际物理环境时，训练速度受限于现实机械结构，在时间上效率并不高。而如果使用精细建模的仿真机械模型，虽然可以在微观层面得到精确的分析，但训练效率反而更低了。另一方面，在训练的初期，智能体的行为会有较高的随机性，四处探索以获得各种情况下各种动作会得到的结果。如果直接使用现实模型训练很容易得到极端的运动表现，例如频繁碰撞限位等。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种自适应学习的燃气阀高速高频高精伺服与性能重构方法，采用虚拟环境在线训练和实物环境离线训练神经网络，利用在线诊断神经网络实时重构阀门伺服性能，利用策略执行神经网络实现阀芯位置闭环。

根据本发明的一个方面，提供一种自适应学习的燃气阀高速高频高精伺服与性能重构方法，包括：

RV，对被训练的燃气阀进行输入输出均为阀芯运动速度的降维辨识，构建被训练燃气阀的低维状态空间，即状态辨识的燃气阀伺服虚拟环境；

V，进行所述燃气阀伺服虚拟环境在线训练，得到神经网络；

VR，将在线训练的所述神经网络迁移至实物环境中，建立上下位机的通讯；

R，进行燃气阀伺服实物环境离线训练，进一步更新神经网络，同时引入故障诊断神经网络，进行实时诊断阀门性能状态和重构。

优选地，所述步骤RV，对被训练的燃气阀进行输入输出均为阀芯运动速度的降维辨识，构建被训练燃气阀的低维状态空间，包括：

完成被控燃气阀的电流闭环和速度闭环，使得燃气阀在接收到速度指令后，阀芯在设定时间内达到规定的运动速度；

生成一组频率由低至高，幅值在设定范围内的正弦或余弦速度指令曲线；

基于所述电流闭环和速度闭环，将所述速度指令曲线发送给燃气阀，燃气阀生成一组实际阀芯运动速度曲线；

使用状态空间的辨识方法，将所述速度指令曲线作为输入，将所述实际阀芯运动速度曲线作为输出，辨识燃气阀速度闭环的状态空间模型，获得拟合输出曲线与真实输出曲线的拟合近似率；

从二维开始由低到高设置辨识维数，重复拟合近似率，得到不同拟合近似率的状态空间模型；

比较不同维度的状态空间模型的拟合近似率，选取最高且拟合近似率大于等于设定阈值的状态空间作为拟合模型，即使状态空间辨识出来的虚拟训练环境。

优选地，所述步骤V，进行所述燃气阀伺服虚拟环境在线训练，包括：

将阀芯目标位置P_target、阀芯实际位置P_real、阀芯运动速度v、电机电流I作为虚拟环境的状态state，并将历史数据存入阀芯重构状态向量；

基于所述当前的虚拟环境的状态state和阀芯重构状态向量，创建在线诊断神经网络，创建策略执行神经网络，创建价值评估神经网络；

设置位置偏差权重、距离逼近奖励、速度同步奖励、离散奖励函数；

构建经验存储池，反向传递误差，设置环境定义函数，搭建位置闭环训练的虚拟环境；

在线训练神经网络，更新网络各节点权重。

优选地，所述奖励函数设置为：

r_velocer＝|v^i-1-vⁱ|

if(K＜ε)&&(r_velocer)＜ε

bonus＝1

else:

bonus＝0

reward＝K×r_closer-(1-K)×r_velocer+bonus

r_closer为距离逼近奖励，用上一时刻的阀芯目标位置与阀芯实际位置/>差的绝对值减去当前时刻阀芯目标位置/>与阀芯实际位置/>差的绝对值，若r_closer大于零则代表当前时刻比上一时刻距离目标位置更近，即阀芯逐渐靠近目标位置，奖励为正；若r_closer小于零则代表当前时刻比上一时刻距离目标位置更远，即阀芯逐渐远离目标位置，奖励为负；

r_velocer为速度同步奖励，用上一时刻的阀芯运动速度v^i-1减去当前时刻阀芯运动速度vⁱ的绝对值，若r_velocer趋于零，则代表智能体的速度保持不变；若r_velocer越大，则代表智能体的加速度越大；

K为位置偏差权重，用tanh函数将阀芯目标位置与阀芯实际位置差的绝对值进行归一化处理，K的取值范围为0～1，当K趋于0，则代表阀芯目标位置与阀芯实际位置距离较近，此时应提高r_velocer的权重，奖励智能体控制阀芯速度不变；当K趋于1，则代表阀芯目标位置与阀芯实际位置距离较远，此时应提高r_closer的权重，奖励智能体控制阀芯追上目标位置；

bonus为离散奖励，当位置偏差与速度同步皆小于一个极小值时，此阀芯位置与目标位置一致，速度与目标速度也一致，给予智能体一个小奖励，鼓励智能体保持此策略，加速神经网络的收敛；

因此所述奖励函数可以让智能体动态保持距离逼近和速度同步。

优选地，所述步骤R，进行所述实物环境离线训练，包括：

配置伺服系统中的无刷直流电机速度闭环、电流闭环的PID参数；

设置监测器和传感器获得阀芯实际位置P_real、阀芯运动速度v、电机电流I；

将所述阀芯位置、运动速度、电机电流的历史数据存入所述阀芯重构状态向量，输入所述在线诊断神经网络，获得阀门实时性能状态；

基于所述阀门实时性能状态，利用所述策略执行神经网络输出阀芯运动速度指令，驱动电机使得阀芯到达计算的目标开度；

离线训练神经网络，更新网络各节点权重。

优选地，所述线训练和离线训练过程，虚拟环境下的在线训练的回合数应低于总训练回合数的40％。

优选地，所述获得阀门实时性能状态的过程，包括：

根据所述在线诊断神经网络建立阀门故障推理平台；

根据阀门位置伺服试验曲线采集阀门的性能数据，对所述性能数据进行归一化预处理；

将所述性能数据整理为阀芯重构状态向量并存入数据经验池，将有标签的数据作为训练数据集，无标签的数据作为测试数据集；

使用Pytorch在所述诊断神经网络中建立多层感知器模型，加入Dropout模块，并选择合适的优化器；

训练在线诊断神经网络，得到验证集和训练集的准确率曲线；

基于所述准确率曲线，判断是否过拟合，若是，返回使用Pytorch在所述诊断神经网络中建立多层感知器模型，若否，将在线诊断神经网络及数据经验池输出给阀门故障诊断模型，获得阀门故障程度及重构方法。

优选地，包含一种基于嵌入式高算力控制器的控制和通信架构，其中，所述控制器的系统架构为CPU-GPU复合控制，CPU作为控制器，GPU作为并行计算设备，系统通过网络接口与上下位机实现低延迟高带宽的通信。

根据本发明的第二个方面他，提供一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行所述的方法。

根据本发明的第三个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行所述的方法。

与现有技术相比，本发明具有如下的有益效果：

本发明实施例中的一种自适应学习的燃气阀高速高频高精伺服与性能重构方法，用于燃气阀门开度控制。其使用系统辨识的方法实现环境的虚拟化，克服了现有技术中直接使用实物环境训练过程因机械限位导致的频繁猛烈地碰撞引起损坏硬件的问题，提升了训练效率。该虚拟环境的建立，能够保证虚拟环境和真实环境在特定的输入与输出响应上足够相似，将复杂的传动机构抽象成矩阵运算，使环境的运算效率相比动力学模型提升一个数量级，且能反映真实系统的响应，可以起到节约时间、快速训练与迭代的作用。

传统伺服控制方法如比例、积分、微分PID控制，需要建立被控对象的数学模型，而当被控对象在物理上存在弹性变形、配合间隙、加工误差、滑动摩擦、转动负载时，相关的数学模型变得极为复杂，各种非线性因素导致工程师难以建立精准的数学模型，无法实现精准控制。本发明实施例采用自学习自适应的方法，通过实物环境的离线训练，让智能体在燃气阀实物的控制中进行自我试错和探索，能够将上述的种种非线性因素考虑在内，让神经网络在训练中自适应性提升，无需工程师建立数学模型，可以大大降低燃气阀门开度控制的技术门槛。

传统的控制方法往往因为硬件数值计算能力的欠缺，不能够采用较大规模的智能算法给出高频低延迟的响应，限制只能使用较为简单的传统算法比如PID，或者是在计算的过程中需要时刻与外界计算机等设备进行通信造成提高延迟，但是本发明实施例通过引入嵌入式的CPU-GPU混合架构控制器，在保证小体积低功耗的前提下为引入大型的智能算法创造了可能。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中的一种自适应学习的燃气阀高速高频高精伺服与性能重构方法过程图；

图2为本发明一优选实施例中的燃气阀门机械结构示意图；

图3为本发明一优选实施例中的速度指令曲线图；

图4为本发明一优选实施例中的实际速度曲线图；

图5为本发明一优选实施例中的策略网络结构图；

图6为本发明一优选实施例中的价值网络结构图；

图7为本发明一优选实施例中的获得阀门实时性能状态的步骤图；

图8为采用本发明和PID控制的电机对比例训练测试结果图；

图9为5HZ位置指令下采用本发明和PID控制的电机对比例(正弦放大)训练测试结果图；

图10为10HZ位置指令下采用本发明和PID控制的电机对比例(正弦放大)训练测试结果图；

图11为本发明一优选实施例中的用到的复合控制器架构图；

图12为本发明一优选实施例中神经网络算法结构过程图。

图中，1为燃气阀阀杆、2为凸轮、3为凸轮槽、4为凸轮销子、5为减速器、6诶电机。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明提供一种自适应学习的燃气阀高速高频高精伺服与性能重构方法，作用是在机电伺服的燃气阀门系统上实现阀芯高速高频高精度的位置控制，同时基于阀芯位置、运动速度、电机电流等历史数据实现阀芯性能的自适应重构。

基于上述发明构思，提供一个实施例，一种自适应学习的燃气阀高速高频高精伺服与性能重构方法，图1所示为方法步骤，具体为：

V，进行所述燃气阀伺服虚拟环境在线训练，得到神经网络；

此处的R指的是Real，意思是在实物环境的操作；RV指的是Real to Virtual，意思是实物到虚拟的操作；V指的是Virtual，意思是在虚拟环境的操作；VR指的是Virtual toReal，意思是虚拟到实物的操作。

本实施例，通过自适应自学习的实物离线训练方法，让智能体在燃气阀伺服控制中进行自我试错和探索，能够将弹性变形、配合间隙、加工误差、滑动摩擦、转动负载等影响因素考虑在内，在超调量、调节时间、抗干扰等效果上优于现有的燃气阀门机电伺服控制方法。

在本发明的一个优选实施例中，实施步骤RV：对被训练的燃气阀进行输入输出均为阀芯运动速度的降维辨识，构建被训练燃气阀的低维状态空间。系统辨识是根据系统的输入输出时间函数来确定描述系统行为的数学模型。本步骤需要辨识图2所示的燃气阀门速度闭环的状态空间，将图2中的燃气阀阀杆1、凸轮2、凸轮槽3、凸轮销子4、减速器5、电机6降维简化为矩阵(矩阵用于表达整个系统的速度指令输入和阀芯速度输出)，用于根据当前系统输入预测系统输出的未来演变。

具体的，构建被训练燃气阀的低维状态空间，包括以下过程：

RV_step1：完成被控燃气阀门的电流闭环和速度闭环，使得电机在接收到速度指令后，可以在一定时间内达到规定的转速；

RV_step2：如图3所示，生成一组频率由低至高，幅值适宜的正弦速度指令曲线；

RV_step3：将速度指令曲线发送给电机5，电机5将通过减速器5、凸轮销子4、凸轮槽3、凸轮2带动燃气阀阀杆1平移运动，并产生阀芯速度反馈曲线，如图3所示；

RV_step4：使用系统辨识将速度指令作为输入，将实际速度作为输出，辨识燃气阀门系统的能观标准型状态空间方程如式(1)，式(2)：

v＝Cx(t)+D_vcommand (2)

式中：x(t)为n维状态矢量，A为系统矩阵，B为控制矩阵，v_command为输入速度指令，C为输出矩阵，D为直接传递矩阵，v为输出速度。

一较佳实施例中，提供了状态空间模型的确认过程。具体的，包括：

首先，使用状态空间的辨识的方法，将速度指令作为输入，将实际速度作为输出，辨识燃气阀速度闭环的状态空间方程，获得拟合输出曲线与真实输出曲线的拟合近似率；

然后，从2维开始由低到高设置辨识维数，重复计算拟合近似率，得到不同拟合近似率的状态空间模型；

最后，比较不同维度的状态空间模型的拟合率，选取最高且拟合率大于等于98％的状态空间作为拟合模型。

真实的系统由于各种非线性因素影响，必然是一个高阶的非线性系统。本实施例中建立低维状态空间，是指采集用低维度的状态空间对高维度的真实系统进行拟合，以牺牲精确度的方法获得近似的低维状态空间。本实施例中，低维状态空间需要和真实环境在特定的输入与输出响应上足够相似，且计算的性能消耗应尽可能小，以起到节约时间、快速训练与迭代的作用。

在本发明的一个优选实施例中，提供步骤V，燃气阀伺服虚拟环境在线训练的优选过程，具体过程如下：

V_step1：将阀芯目标位置P_target、阀芯实际位置P_real、阀芯运动速度v、电机电流I作为虚拟环境的状态state，并将历史数据存入阀芯重构状态向量；

V_step2：创建在线诊断神经网络，创建策略执行神经网络，创建价值评估神经网络；

在线诊断神经网络是应用了pytorch的多层感知器模型。该神经网络的输入是“阀芯重构状态向量”，输出的是阀门的故障程度即阀门的实时性能状态。对于燃气阀门而言，容易出现烟气颗粒导致的卡滞，阻塞等现象，通过该网络能够进行实时的检测和诊断。

创建策略执行神经网络根据当前阀芯的state，获得完成阀芯位置闭环的伺服指令，该网络结构如图5所示，它由输入层、3个隐藏层、输出层组成，输入层即为上述state环境状态向量，通过一个全连接层连接到第一层隐藏层，第一层隐藏层通过第二个全连接层连接到第二层隐藏层，第二层隐藏层通过第三个全连接层连接到第三层隐藏层，最后第三层隐藏层通过第四个全连接层连接到的输出层，输出为动作向量v_command，即速度指令。

价值评估神经网络的输入为当前时刻的state，输出为状态价值；使得策略执行网络选择更具优势的动作。其结构如图6所示，状态向量通过一层全连接层连接到第一层隐藏层，第一层隐藏层再通过一个全连接层连接到第二层隐藏层。动作向量也通过一个全连接层连接到第三层隐藏层。上述第二层隐藏层和第三隐藏层在此合并拼接，接着再通过全连接层连接到第四层隐藏层，最后第四层隐藏层通过最后一个全连接层连接到输出层，输出为状态价值V(从某状态s出发，遵循某策略能够获得的期望回报)。

V_step3：设置位置偏差权重K、速度同步奖励r_velocer、距离逼近奖励r_closer、离散奖励bonus等函数；

r_velocer＝|v^i-1-vⁱ|

if(K＜ε)&&(r_velocer)＜ε

bonus＝1

else:

bonus＝0

reward＝K×r_closer-(1-K)×r_velocer+bonus

V_step4：构建经验存储池，反向传递误差，设置init、step、reset、reward等函数，搭建位置闭环训练的虚拟环境；

在init函数中定义环境的基础变量。如智能体的动作空间action_space，环境的观测空间observation_space、时间步长dt、每回合的步数episode、最大速度指令v_maxcommand、回合内计步stepcount等，将环境初始阀芯目标位置阀芯实际位置阀芯运动速度v⁰作为虚拟环境的初始状态state⁰，即/>

在step函数中定义与环境互动产生的结果。从外部获得当前时刻阀芯目标位置智能体的神经网络根据上一时刻的state^i-1推理出/>基于式(1)、式(2)计算出的阀芯运动速度vⁱ。将阀芯运动速度vⁱ乘以时间步长dt获得阀芯实际位置/>产生新的环境/>

在reset函数中刷新单回合结束后环境的变量。将state重置为初值state⁰。

V_step5：在线训练神经网络，更新网络各节点权重。在线训练是让智能体与虚拟环境互动一次后直接更新神经网络的权重。此时智能体动作与更新是时刻交替进行的，求神经网络在更新时，环境必须处于暂停状态，虚拟环境下进行在线训练可快速使得神经网络收敛。此处，智能体指的是更新神经网络的算法，智能体在更新网络的同时也在输出指令动作。训练好的智能体的物理存储形式就是神经网络。

一较佳实施例，提供了神经网络的输入输出以及更新过程，参见图12，策略执行神经网络根据环境状态s_t选择动作a_t并获得奖励r_t；价值评估神经网络对环境状态s_t和s_t+1进行评价，输出V_t和V_t+1，并计算得到td_error；在更新环节，td_error进行反向传播，更新价值网络，让打分更加准确，然后更新策略执行网络，让选择更具优势的动作。

在本发明的一个优选实施例中，提供步骤VR的优选过程。具体的，神经网络迁移是将上位机与下位机进行匹配连接，上位机中搭载强化学习训练模型，从下位机接收实物系统每步的状态信息，使用深度强化学习模型计算动作输出，并向下位机发出指令，并计算相应的奖励值，存入经验池，对深度强化学习模型进行训练。

下位机面向实物，从实物系统中的位移传感器获取位移值，向上位机反馈当前状态，接收上位机发来的指令，驱动无刷直流电机控制实物系统进行位置伺服。神经网络迁移首先要解决上位机与下位机的通讯问题，通讯可采用串口、网口、CAN总线等方式。上位机、下位机的程序编写完成后，便可开始进行实物训练。

在本发明的一个优选实施例中，提供步骤R的优选过程，具体的，实物环境离线训练，包括如下步骤：

R_step1：配置伺服系统中的无刷直流电机速度闭环、电流闭环的PID参数；

R_step2：设置监测器和传感器获得阀芯实际位置P_real、阀芯运动速度v、电机电流I；

R_step3：阀门的在线诊断流程如图7所示：

3.1：根据在线诊断神经网络建立阀门故障推理平台，该阀门故障推理平台能够实时获得阀门的性能状态即开度上下限。

3.2：根据阀门位置伺服试验曲线采集阀门的性能数据(阀芯目标位置P_target、阀芯实际位置P_real、阀芯运动速度v、电机电流I)，对数据进行归一化预处理；

3.3：将数据整理为阀芯重构状态向量并存入数据经验池，将有标签的数据作为训练数据集，无标签的数据作为测试数据集；

3.4：使用Pytorch在诊断神经网络中建立多层感知器模型，加入Dropout模块，并选择合适的优化器；

3.5：训练在线诊断神经网络，得到验证集和训练集的准确率曲线；

3.6：判断是否过拟合，若是返回3.4，若否进入3.7；

3.7：将在线诊断神经网络及数据经验池输出给阀门故障诊断模型(是依托了pytorch的多层感知器模型，其输入是阀芯重构状态向量，输出是阀门的故障程度及重构方法)；

3.8：获得阀门故障程度及重构方法；

R_step4：基于3.8得到的阀门故障程度及重构方法，利用策略执行神经网络输出阀芯运动速度指令，驱动电机使得阀芯精准且快速地到达计算的目标开度；比如：指令要求阀芯动到位置5，此时阀门的故障程度为零，开度上下限为0～8，因此阀门可以运动到5；若阀门发生局部损坏，开度上下限为0～4，此时若发出指令5，阀门将卡滞在4处，长时间卡滞将导致电机损坏，因此此时需要对控制指令进行重构，将指令5改为指令4.

R_step5：离线训练神经网络，更新网络各节点权重。离线训练是让智能体与环境互动一个回合后再批次抽取经验池中存储的数据更新神经网络的权重。

上述实施例，能够克服阀门机械结构中的间隙以提高跟踪精度，能够动态调整指令以实现无超调的快速定位，能够自适应调整负载大小以确保系统的控制刚度，能够根据阀芯运动历史数据实现性能重构。相较于现有伺服控制器，上述实施例无需人工调参，通过虚拟环境的预训练和实物环境的离线训练，神经网络将自动获取控制最优参数；价值评估神经网络，可对当前阀门的动作状态进行评估；在线诊断神经网络，可输出阀门的实时性能状态；策略执行神经网络，可输出阀芯位置伺服的最优速度指令。作为一种自适应学习的燃气阀高速高频高精伺服与性能重构方法，可广泛用于各种高速高频高精度燃气阀的伺服控制。

在本发明的另一个优选实施例中，参见图11，在系统中引入CPU-GPU告诉案例复合控制系统，以嵌入式一体化控制器的形式，利用符合控制器体积小、功率小的特性，在低能耗和低体积占用的基础上，结合神经网络需要大规模矩阵向量乘法并行计算的特点，实现在高频控制下的实时GPU推理和训练，同时基于Linux(Ubuntu)操作系统，实现高可移植性的程序开发和更新，通过网络接口和其他的通信协议接口，完成与其他设备的低延迟通信。

基于相同的发明构思，本发明的其他实施例中，提供一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行所述的方法。

基于相同的发明构思，本发明的其他实施例中，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行所述的方法。

在本发明的一个具体实施例中，分析使用本发明的方法的控制效果。

图8为利用本发明训练的位置闭环控制器与PID位置闭环控制器的控制效果对比图。

其中黄色曲线为指令，蓝色曲线为位置反馈，可以看出相较于PID位置闭环，本发明的位置闭环在控制超调具有很明显的优势。

图9、图10为利用本发明训练的位置闭环控制器与PID位置闭环控制器跟踪5HZ、10HZ正弦曲线指令下的效果对比，其中蓝色曲线为指令，黄色曲线为强化学习位置反馈，绿色曲线为PID位置反馈，可以看出相较于PID位置闭环，本发明的位置闭环在高频曲线跟踪和稳态误差控制方面具有很明显的优势。

由此可见，本具体实施例，没有建立被控对象的数学模型，没有基于模型进行控制，而是通过系统辨识降维创建了一个虚拟环境，并在虚拟环境中在线训练位置神经网络，进一步在实物环境中离线训练位置神经网络。该过程不依赖于数学模型，而且可以充分考虑机械结构中的各种非线性因素；通过实物的离线训练，控制算法产生的智能体克服机械结构中的间隙和摩擦，适应载荷大小，并在没有超调的情况下实现高频、快速、精准定位，提升控制效果。

本具体实施例没有采用现有技术中的PID的方法进行控制指令的计算和发出，而是采用神经网络直接推理得出控制指令，更加简单有效，且调试人员完全不用掌握调参技巧，甚至无需知道参数是什么，即可以完成电机的控制。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下，可以任意组合使用。

Claims

1.一种自适应学习的燃气阀高速高频高精伺服与性能重构方法，其特征在于，包括：

V，进行所述燃气阀伺服虚拟环境在线训练，得到神经网络；

R，进行燃气阀伺服实物环境离线训练，进一步更新所述神经网络，同时引入故障诊断神经网络，进行实时诊断阀门性能状态和重构。

2.根据权利要求1所述的一种自适应学习的燃气阀高速高频高精伺服与性能重构方法，其特征在于，所述步骤RV，对被训练的燃气阀进行输入输出均为阀芯运动速度的降维辨识，构建被训练燃气阀的低维状态空间，包括：

比较不同维度的状态空间模型的拟合近似率，选取最高且拟合近似率大于等于设定阈值的状态空间作为拟合模型，即为状态空间辨识出来的虚拟训练环境。

3.根据权利要求1所述的一种自适应学习的燃气阀高速高频高精伺服与性能重构方法，其特征在于，所述步骤V，进行所述燃气阀伺服虚拟环境在线训练，包括：

设置位置偏差权重K、距离逼近奖励r_closer、速度同步奖励r_velocer、离散奖励函数bonus；

在线训练神经网络，更新网络各节点权重。

4.根据权利要求3所述的一种自适应学习的燃气阀高速高频高精伺服与性能重构方法，其特征在于，所述奖励函数设置为：

r_velocer＝|v^i-1-vⁱ|

if(K＜ε)&&(r_velocer)＜ε

bonus＝1

else:

bonus＝0

reward＝K×r_closer-(1-K)×r_velocer+bonus

r_velocer为速度同步奖励，取上一时刻的阀芯运动速度v^i-1减去当前时刻阀芯运动速度vⁱ的绝对值，若r_velocer趋于零，则代表智能体的速度保持不变；若r_velocer越大，则代表智能体的加速度越大；

K为位置偏差权重，用tanh函数将阀芯目标位置与阀芯实际位置差的绝对值进行归一化处理，K的取值范围为0～1，当K趋于0，则代表阀芯目标位置与阀芯实际位置/>距离较近，此时应提高r_velocer的权重，奖励智能体控制阀芯速度不变；当K趋于1，则代表阀芯目标位置与阀芯实际位置距离较远，此时应提高r_closer的权重，奖励智能体控制阀芯加速追上目标位置；

bonus为离散奖励，当位置偏差与速度同步皆小于一个极小值时，此阀芯位置与目标位置一致，速度保持稳定时，给予智能体一个小奖励，鼓励智能体保持此策略，加速神经网络的收敛；

所述奖励函数能够让智能体动态保持距离逼近和速度同步。

5.根据权利要求3所述的一种自适应学习的燃气阀高速高频高精伺服与性能重构方法，其特征在于，所述步骤R，进行所述实物环境离线训练，包括：

设置监测器和传感器获得阀芯位置P_real、阀芯运动速度v、电机电流I；

基于所述阀门实时性能状态，利用所述策略执行神经网络输出阀芯运动速度指令，驱动电机使得阀芯到达目标位置；

离线训练神经网络，更新网络各节点权重。

6.根据权利要求5所述的一种自适应学习的燃气阀高速高频高精伺服与性能重构方法，其特征在于，所述线训练和离线训练过程，虚拟环境下的在线训练的回合数应低于总训练回合数的40％。

7.根据权利要求5所述的一种自适应学习的燃气阀高速高频高精伺服与性能重构方法，其特征在于，所述获得阀门实时性能状态的过程，包括：

根据所述在线诊断神经网络建立阀门故障推理平台；

8.根据权利要求1所述的一种自适应学习的燃气阀高速高频高精伺服与性能重构方法，其特征在于，包含一种基于嵌入式高算力控制器的控制和通信架构，其中，所述控制器的系统架构为CPU-GPU复合控制，CPU作为控制器，GPU作为并行计算设备，系统通过网络接口与上下位机实现低延迟高带宽的通信。

9.一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行权利要求1-8中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时可用于执行权利要求1-8中任一项所述的方法。