CN115356919B - 一种二氧化氯消毒机pid控制器自适应调整方法 - Google Patents

一种二氧化氯消毒机pid控制器自适应调整方法 Download PDF

Info

Publication number
CN115356919B
CN115356919B CN202211276697.6A CN202211276697A CN115356919B CN 115356919 B CN115356919 B CN 115356919B CN 202211276697 A CN202211276697 A CN 202211276697A CN 115356919 B CN115356919 B CN 115356919B
Authority
CN
China
Prior art keywords
value
chlorine dioxide
network
representing
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211276697.6A
Other languages
English (en)
Other versions
CN115356919A (zh
Inventor
孟渤恩
李志峰
李超
于银辉
田子玉
张浩远
李小文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin Baihao Technology Co ltd
Original Assignee
Jilin Baihao Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin Baihao Technology Co ltd filed Critical Jilin Baihao Technology Co ltd
Priority to CN202211276697.6A priority Critical patent/CN115356919B/zh
Publication of CN115356919A publication Critical patent/CN115356919A/zh
Application granted granted Critical
Publication of CN115356919B publication Critical patent/CN115356919B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B11/00Automatic controllers
    • G05B11/01Automatic controllers electric
    • G05B11/36Automatic controllers electric with provision for obtaining particular characteristics, e.g. proportional, integral, differential
    • G05B11/42Automatic controllers electric with provision for obtaining particular characteristics, e.g. proportional, integral, differential for obtaining a characteristic which is both proportional and time-dependent, e.g. P. I., P. I. D.

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Disinfection, Sterilisation Or Deodorisation Of Air (AREA)

Abstract

本发明公开了一种二氧化氯消毒机PID控制器自适应调整方法,包括:采集当前空气中的二氧化氯气体浓度值;将二氧化氯气体浓度值转换为对应电压值;将对应电压值与给定标准值进行比较,形成电压偏差值,通过PID控制形成控制量输入LED驱动中;给定标准值为预设室内适宜二氧化氯气体浓度值所对应的电压值;通过对LED驱动的功率控制将LED照射到凝胶上,控制二氧化氯消毒机的二氧化氯气体释放量。该方法可以高效实时迅速的使室内二氧化氯浓度达到设定目标值,同时尽可能减小二氧化氯浓度的波动范围。

Description

一种二氧化氯消毒机PID控制器自适应调整方法
技术领域
本发明涉及自动化控制技术领域,特别涉及一种二氧化氯消毒机PID控制器自适应调整方法。
背景技术
近年来,现代技术高速发展,反馈的概念已被广泛应用于自动控制理论中。反馈含有三个基本要素:测量,比较,执行。闭环控制系统又称反馈控制系统,是在闭环控制系统中,把输出量检测出来,经过物理量的转换,再反馈到输入端去与给定参考输入进行比较,并利用比较后的偏差信号,以一定的控制规律产生控制作用,抑制内部或外部扰动对输出量的影响,逐步减小以至消除这一偏差,从而实现要求的控制性能。
在过去的几十年里,反馈技术被广泛应用于各种实践场景中,其中,使用比例-积分-微分(PID)控制技术的发展是最为突出的。如今,在许多高级控制领域里,到处活跃着PID控制的身影。近年来,室内空气污染已成为多种疾病的诱因,是危害人类健康的“隐形杀手”,急需一种高效灭菌且安全健康的产品解决这一问题,高精度超低浓度二氧化氯空气消毒机应运而生。高精度超低浓度二氧化氯空气消毒机利用二氧化氯能够高效灭菌的同时,控制二氧化氯气体浓度维持在一个较低水平,避免危害人体健康。PID作为二氧化氯消毒机控制的主要技术,它可以控制调节二氧化氯气体浓度,将气体浓度保持在目标浓度附近。它的结构简单,鲁棒性和工作可靠性高且调整方便。但传统PID控制器的参数调节一般是人为调节,如何高效地调整和优化PID控制器的控制参数成为本领域技术人员亟需解决的问题。
发明内容
鉴于上述问题,本发明提出了一种至少解决上述部分技术问题的二氧化氯消毒机PID控制器自适应调整方法,该方法可高效实时迅速的使室内二氧化氯浓度达到设定目标值,同时尽可能减小二氧化氯浓度的波动范围。
本发明实施例提供一种二氧化氯消毒机PID控制器自适应调整方法,包括:
采集当前空气中的二氧化氯气体浓度值;将所述二氧化氯气体浓度值转换为对应电压值;
将所述对应电压值与给定标准值进行比较,形成电压偏差值,通过PID控制形成控制量输入LED驱动中;所述给定标准值为预设室内适宜二氧化氯气体浓度值所对应的电压值;
通过对所述LED驱动的功率控制将LED照射到凝胶上,控制二氧化氯消毒机的二氧化氯气体释放量。
进一步地,通过深度确定性策略梯度获得所述PID控制中控制参数的最佳取值;所述深度确定性策略梯度中策略网络和动作值网络分别具有各自的当前网络和目标网络。
进一步地,所述深度确定性策略梯度中策略网络的梯度计算表示为:
Figure 975294DEST_PATH_IMAGE001
上式中,J表示累计折扣奖励值;s表示状态;
Figure 609407DEST_PATH_IMAGE002
表示智能体的行为策略的分布函数;
Figure 267921DEST_PATH_IMAGE003
Figure 902165DEST_PATH_IMAGE004
分别表示策略网络和动作值网络的参数;
Figure 937117DEST_PATH_IMAGE005
表示在状态s下,按照μ策略选择动作a时,产生的动作价值函数值。
进一步地,通过深度确定性策略梯度获得所述PID控制中控制参数的最佳取值,具体包括:
建立马尔科夫决策模型,包含:状态空间、动作空间和奖励;所述状态空间由所述电压偏差值、所述电压偏差值的积分和所述电压偏差值的微分构成;所述动作空间为一组三维的向量;
通过如下公式计算控制量u(t):
Figure 973206DEST_PATH_IMAGE006
上式中,u(t)表示PID控制器输出的控制量;e(t)表示所述电压偏差值;r t 表示奖励值;
Figure 547495DEST_PATH_IMAGE007
表示PID控制器的控制参数;t表示第t时刻;
通过如下公式计算奖励函数:
Figure 403456DEST_PATH_IMAGE008
上式中,α和β表示奖励系数;e0表示期望误差;c表示高斯函数标准差;ε表示最大临界电压;e(t)表示所述电压偏差值;t表示第t时刻;
对所述PID控制器的控制参数进行自适应调整,以获得所述PID控制中控制参数的最佳取值。
进一步地,对所述PID控制器的控制参数进行自适应调整,包括:
从环境中获取状态信息st
初始化随机过程Ni,为行为添加探索噪声;
根据当前策略和探索噪声获得动作
Figure 507678DEST_PATH_IMAGE009
;其中,
Figure 132694DEST_PATH_IMAGE003
是策略网络的参数;
执行动作at获得奖励rt和下一状态st+1
将状态转换序列
Figure 398590DEST_PATH_IMAGE010
存储到经验回放池中,并利用回放记忆单元中的存储进行训练;
通过训练后的PID控制器对控制参数进行自适应调整。
进一步地,利用回放记忆单元中的存储进行训练,包括:
S101、从经验回放池中随机采样N个状态转换序列作为当前策略网络和当前动作值网络的一小批训练数据;
S102、使用梯度下降法,通过最小化损失函数
Figure 991115DEST_PATH_IMAGE011
对当前动作值网络进行更新:
Figure 633449DEST_PATH_IMAGE012
上式中,
Figure 378551DEST_PATH_IMAGE013
表示目标动作值网络的Q值;
Figure 815348DEST_PATH_IMAGE014
表示当前动作值网络的Q值;
Figure 645901DEST_PATH_IMAGE015
表示目标动作值网络参数;i表示第i个样本数据;
Figure 577079DEST_PATH_IMAGE016
表示单个状态转换序列;M表示样本数据总个数;γ表示折扣因子;
Figure 176688DEST_PATH_IMAGE017
表示目标策略网络参数;μ表示策略。
S103、采用确定性策略梯度法对当前策略网络进行如下更新:
Figure 49966DEST_PATH_IMAGE018
S104、采用滑动平均分别对目标策略网络和目标动作值网络参数进行更新:
Figure 102235DEST_PATH_IMAGE019
上式中,τ是学习目标滑动因子;
Figure 86372DEST_PATH_IMAGE003
Figure 540487DEST_PATH_IMAGE004
分别表示策略网络和动作值网络的参数;
重复所述步骤S101~S104,直至达到最大预设步数或满足预定义的停止条件;此时,完成训练。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明实施例提供的一种二氧化氯消毒机PID控制器自适应调整方法,包括:采集当前空气中的二氧化氯气体浓度值;将二氧化氯气体浓度值转换为对应电压值;将对应电压值与给定标准值进行比较,形成电压偏差值,通过PID控制形成控制量输入LED驱动中;给定标准值为预设室内适宜二氧化氯气体浓度值所对应的电压值;通过对LED驱动的功率控制将LED照射到凝胶上,控制二氧化氯消毒机的二氧化氯气体释放量。该方法可以高效实时迅速的使室内二氧化氯浓度达到设定目标值,同时尽可能减小二氧化氯浓度的波动范围。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的二氧化氯消毒机PID控制器自适应调整方法流程图;
图2为本发明实施例提供的PID控制器闭环控制原理框图;
图3为本发明实施例提供的DDPG算法流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供一种二氧化氯消毒机PID控制器自适应调整方法,参照图1所示,包括:
采集当前空气中的二氧化氯气体浓度值;将二氧化氯气体浓度值转换为对应电压值;
将对应电压值与给定标准值进行比较,形成电压偏差值,通过PID控制形成控制量输入LED驱动中;给定标准值为预设室内适宜二氧化氯气体浓度值所对应的电压值;
通过对LED驱动的功率控制将LED照射到凝胶上,控制二氧化氯消毒机的二氧化氯气体释放量。
本实施例提供的二氧化氯消毒机PID控制器自适应调整方法,可以高效实时迅速的使室内二氧化氯浓度达到目标值,同时尽可能减小二氧化氯浓度的波动范围。
下面具体对该二氧化氯消毒机PID控制器自适应调整方法进行详细阐述:
步骤一、建立PID控制器控制模型:
PID控制器是一种线性调节控制器,参照图2所示,它将给定标准值r(t)与实际输出值c(t)的偏差的比例(P)、积分(I)、微分(D)通过线性组合构成控制量,对控制对象进行控制。在PID控制器中,误差信号e(t)可表示为
Figure 833934DEST_PATH_IMAGE020
作为输入,由PID控制器调节,输出信号u(t)由下式计算:
Figure 373500DEST_PATH_IMAGE006
其中,
Figure 161327DEST_PATH_IMAGE007
分别称为比例、微分和积分。
步骤二、建立高精度超低浓度二氧化氯空气消毒机气体控制模型:
建立高精度超低浓度二氧化氯空气消毒机喷洒消毒场景,通过对当前空气中二氧化氯浓度的测量和基准值进行比较,进行反馈调节从而达到控制二氧化氯气体释放的效果。具体方法是:首先,通过二氧化氯传感器测量空气中二氧化氯气体浓度值,通过运算放大器以及AD(模数转换器)采集,将二氧化氯气体浓度值转换为对应电压值;其次,通过PID控制器将电压检测值与给定标准值进行比较,形成电压偏差值,按一定规律形成控制量输入到被控对象即LED驱动中;最后,通过对LED驱动的功率控制将LED照射到凝胶上以控制二氧化氯气体释放量。
具体地,本实施例环境为二氧化氯空气消毒机喷洒消毒场景,对于PID控制部分,给定标准值r(t)为设定室内二氧化氯气体浓度值所对应的电压值,实际输出值c(t)为二氧化氯传感器测定当前室内二氧化氯在空气中的浓度所对应的电压值,故误差值e(t)即为二者之差。采用深度强化学习的方法获得PID控制系统的三个参数
Figure 469949DEST_PATH_IMAGE007
的最佳取值,以使应用本二氧化氯空气消毒机可以尽可能迅速的让室内二氧化氯浓度达到目标值,同时尽可能减小二氧化氯浓度的波动范围。
步骤三、基于深度强化学习对PID控制器参数调优:
本实施例提供了一种深度确定性策略梯度(DDPG)的方法对PID控制器控制参数进行自适应调节,该方法是深度强化学习算法的一种,用于高维状态空间和连续动作空间。
强化学习是一种将环境状态映射到动作空间的自学习智能算法,它通过智能体的不断试错,得到最优的控制策略。强化学习的基本过程可以表示为处于状态st的智能体在任意时刻对环境采取动作at,环境会给予智能体一个奖励rt+1,并且智能体状态转变为st+ 1,未来的奖励值由折扣因子γ加权所得,因此在t时刻前的累计奖励可表示为
Figure 419450DEST_PATH_IMAGE021
深度强化学习是深度学习和强化学习的有效结合,智能体通过有限学习,使策略网络和动作值网络向最优策略函数和最优值函数逼近,提高了解决复杂强化学习任务的能力。参照图3所示,深度强化学习的框架可以描述为一个马尔可夫决策(MDP)过程,在DDPG算法中存在两个网络,即策略网络和动作值网络(Q网络),目标函数可以定义为累积奖励的期望值,即
Figure 197044DEST_PATH_IMAGE022
需要做的是找到使该期望值最大的策略,即
Figure 522984DEST_PATH_IMAGE023
在大多数强化学习任务中,策略函数的输出是动作的概率,agent需要从动作的概率分布函数中进行选择和执行。但在本实施例提出的DDPG算法中输出的是一个确定性动作,即
Figure 686112DEST_PATH_IMAGE024
。因此策略网络的梯度计算可表示为
Figure 72094DEST_PATH_IMAGE001
其中,J表示累计折扣奖励值;s表示状态,状态是基于智能体的行为策略产生的,它们的分布函数为
Figure 586252DEST_PATH_IMAGE002
Figure 965149DEST_PATH_IMAGE003
Figure 982784DEST_PATH_IMAGE004
分别是策略网络和动作值网络(Q网络)的参数;
Figure 539667DEST_PATH_IMAGE005
表示在状态s下,按照μ策略选择动作a时,能够产生的动作价值函数值,即Q值。
在本实施例采用的DDPG算法来自于DQN算法,也采用经验回放和双网络结构,即策略网络和Q网络分别具有各自的当前网络和目标网络。为了使训练数据相对独立,从而加快收敛速度,提高网络更新的稳定性,用于网络更新的数据不是之前通过决策获得的状态数据,而是M个从经验回放池中随机抽取的小批量样本数据。通过最小化损失函数,使用梯度下降法对当前的Q网络进行如下更新:
Figure 541121DEST_PATH_IMAGE012
其中,
Figure 208863DEST_PATH_IMAGE013
表示目标Q网络的Q值;
Figure 831736DEST_PATH_IMAGE014
表示当前Q网络的Q值;
Figure 825100DEST_PATH_IMAGE015
表示目标Q网络参数;i表示第i个样本数据。
采用确定性策略梯度法对当前策略网络进行如下更新:
Figure 48271DEST_PATH_IMAGE018
采用软更新的方法对目标Q网络和目标策略网络进行更新:
Figure 519704DEST_PATH_IMAGE019
其中τ是学习目标滑动因子。
重复上述过程,直到达到每一回合的最大步数T或满足预定义的停止条件。当训练达到预设期望的控制性能或达到最大回合数M时,训练结束。
具体地,首先,建立马尔科夫决策模型。马尔科夫决策模型包含三个部分:状态空间S、动作空间A和奖励R。在本实施例所提出的DDPG算法控制PID控制器的研究中,将状态空间定义为当前二氧化氯浓度值所对应的电压值与给定二氧化氯标准值所对应的电压值的差值e(t)、e(t)的积分
Figure 511930DEST_PATH_IMAGE025
、以及e(t)的微分
Figure 659884DEST_PATH_IMAGE026
构成。即,在第t时刻的状态由当前二氧化氯浓度值所对应的电压值与给定二氧化氯标准值所对应的电压值的差值e(t)、e(t)的积分
Figure 370351DEST_PATH_IMAGE025
、以及e(t)的微分
Figure 379895DEST_PATH_IMAGE026
构成,即
Figure 757787DEST_PATH_IMAGE027
;由于动作网络的输出维度是3,所以动作空间设置为一组三维的向量,即PID控制器的最终参数
Figure 561795DEST_PATH_IMAGE007
,第t时刻的动作可以表示为
Figure 770010DEST_PATH_IMAGE028
;并用下述公式计算控制量u(t):
Figure 317666DEST_PATH_IMAGE029
其中,u(t)为PID控制器输出的控制量。被控对象执行控制量所对应的动作,当前状态发生转移,得到改变后的状态st+1,并计算奖励值rt
具体奖励函数定义为:
Figure 550065DEST_PATH_IMAGE008
其中,α和β是奖励系数,e0是期望误差,c表示高斯函数标准差,ε表示最大临界电压。
st状态转移到st+1状态可表示为
Figure 524974DEST_PATH_IMAGE030
其次,采用DDPG算法实现PID控制器控制参数的自适应调整,智能体即二氧化氯传感器采集环境中的二氧化氯气体浓度,从环境中获取状态信息s t (即,在第t时刻的状态由当前二氧化氯浓度值所对应的电压值与给定二氧化氯标准值所对应的电压值的差值e(t)、e(t)的积分
Figure 210033DEST_PATH_IMAGE025
、以及e(t)的微分
Figure 217172DEST_PATH_IMAGE026
,初始化随机过程N以为行为添加噪声,然后根据当前策略和探索噪声获得动作
Figure 54809DEST_PATH_IMAGE009
,执行动作a t 获得奖励r t 和下一状态s t+1 ,将状态转换序列
Figure 200620DEST_PATH_IMAGE010
存储到经验回放池中,并利用回放记忆单元中的存储进行训练。
从经验回放池中随机采样N个转换序列作为当前策略网络和当前Q网络的一小批训练数据,
Figure 372975DEST_PATH_IMAGE016
表示单个转换序列。通过最小化损失函数,使用梯度下降法,即最小化损失函数L对当前的Q网络进行更新:
Figure 262434DEST_PATH_IMAGE012
其中,
Figure 469424DEST_PATH_IMAGE013
表示目标Q网络的Q值;
Figure 35404DEST_PATH_IMAGE014
表示当前Q网络的Q值;
Figure 695055DEST_PATH_IMAGE015
表示目标Q网络参数;i表示第i个样本数据。
采用确定性策略梯度法对当前策略网络进行如下更新:
Figure 388205DEST_PATH_IMAGE018
采用滑动平均(软更新)的方法对目标Q网络和目标策略网络参数进行更新:
Figure 449701DEST_PATH_IMAGE019
其中τ是学习目标滑动因子。
最后,重复上述过程,直到每一回合达到最大步数T或满足预定义的停止条件为止。当训练达到预设期望的控制性能或达到最大回合数M时训练结束。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (3)

1.一种二氧化氯消毒机PID控制器自适应调整方法,其特征在于,包括:
采集当前空气中的二氧化氯气体浓度值;将所述二氧化氯气体浓度值转换为对应电压值;
将所述对应电压值与给定标准值进行比较,形成电压偏差值,通过PID控制形成控制量输入LED驱动中;所述给定标准值为预设室内适宜二氧化氯气体浓度值所对应的电压值;
通过对所述LED驱动的功率控制将LED照射到凝胶上,控制二氧化氯消毒机的二氧化氯气体释放量;
通过深度确定性策略梯度获得所述PID控制中控制参数的最佳取值;所述深度确定性策略梯度中策略网络和动作值网络分别具有各自的当前网络和目标网络;
所述深度确定性策略梯度中策略网络的梯度计算表示为:
Figure FDA0003981321300000011
上式中,J表示累计折扣奖励值;S表示状态;ρβ表示智能体的行为策略的分布函数;θμ和θQ分别表示策略网络和动作值网络的参数;Q(s,a;θQ)表示在状态S下,按照μ策略选择动作a时,产生的动作价值函数值;
通过深度确定性策略梯度获得所述PID控制中控制参数的最佳取值,具体包括:
建立马尔科夫决策模型,包含:状态空间、动作空间和奖励;所述状态空间由所述电压偏差值、所述电压偏差值的积分和所述电压偏差值的微分构成;所述动作空间为一组三维的向量;
通过如下公式计算控制量u(t):
Figure FDA0003981321300000012
上式中,u(t)表示PID控制器输出的控制量;e(t)表示所述电压偏差值;rt表示奖励值;Kp,Ki,Kd表示PID控制器的控制参数;t表示第t时刻;
通过如下公式计算奖励函数:
r=αr1+βr2
Figure FDA0003981321300000021
Figure FDA0003981321300000022
上式中,α和β表示奖励系数;e0表示期望误差;c表示高斯函数标准差;ε表示最大临界电压;e(t)表示所述电压偏差值;t表示第t时刻;
对所述PID控制器的控制参数进行自适应调整,以获得所述PID控制中控制参数的最佳取值。
2.如权利要求1所述的一种二氧化氯消毒机PID控制器自适应调整方法,其特征在于,对所述PID控制器的控制参数进行自适应调整,包括:
从环境中获取状态信息St
初始化随机过程Ni,为行为添加探索噪声;
根据当前策略和探索噪声获得动作at=μ(stμ)+Ni;其中,θμ是策略网络的参数;
执行动作at获得奖励rt和下一状态St+1
将状态转换序列(st,at,rt,st+1)存储到经验回放池中,并利用回放记忆单元中的存储进行训练;
通过训练后的PID控制器对控制参数进行自适应调整。
3.如权利要求2所述的一种二氧化氯消毒机PID控制器自适应调整方法,其特征在于,利用回放记忆单元中的存储进行训练,包括:
S101、从经验回放池中随机采样N个状态转换序列作为当前策略网络和当前动作值网络的一小批训练数据;
S102、使用梯度下降法,通过最小化损失函数L对当前动作值网络进行更新:
Qtarget=ri+γQ′(si+1,μ(si+1μ′)|θQ′)
Figure FDA0003981321300000031
Figure FDA0003981321300000032
上式中,Qtarget表示目标动作值网络的Q值;Q(si,aiQ)表示当前动作值网络的Q值;θQ′表示目标动作值网络参数;i表示第i个样本数据;(si,ai,ri,si+1)表示单个状态转换序列;M表示样本数据总个数;γ表示折扣因子;θμ′表示目标策略网络参数;μ表示策略;
S103、采用确定性策略梯度法对当前策略网络进行如下更新:
Figure FDA0003981321300000033
S104、采用滑动平均分别对目标策略网络和目标动作值网络参数进行更新:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
上式中,τ是学习目标滑动因子;θμ和θQ分别表示策略网络和动作值网络的参数;
重复所述步骤S101~S104,直至达到最大预设步数或满足预定义的停止条件;此时,完成训练。
CN202211276697.6A 2022-10-19 2022-10-19 一种二氧化氯消毒机pid控制器自适应调整方法 Active CN115356919B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211276697.6A CN115356919B (zh) 2022-10-19 2022-10-19 一种二氧化氯消毒机pid控制器自适应调整方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211276697.6A CN115356919B (zh) 2022-10-19 2022-10-19 一种二氧化氯消毒机pid控制器自适应调整方法

Publications (2)

Publication Number Publication Date
CN115356919A CN115356919A (zh) 2022-11-18
CN115356919B true CN115356919B (zh) 2023-01-24

Family

ID=84008315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211276697.6A Active CN115356919B (zh) 2022-10-19 2022-10-19 一种二氧化氯消毒机pid控制器自适应调整方法

Country Status (1)

Country Link
CN (1) CN115356919B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115993771A (zh) * 2023-03-22 2023-04-21 吉林省百皓科技有限公司 一种基于模糊神经网络控制的空气消毒机控制方法
CN116019951B (zh) * 2023-03-29 2023-06-09 吉林省百皓科技有限公司 比例积分驱动控制电路及具有其的二氧化氯消毒机

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3160033U (ja) * 2010-03-29 2010-06-10 株式会社ノックスラボラトリーズ 除菌・消臭装置
CN102178968A (zh) * 2011-04-26 2011-09-14 中国人民解放军军事医学科学院卫生装备研究所 一种气体二氧化氯消毒装置
CN103964541A (zh) * 2014-05-08 2014-08-06 李宝华 一种紫外线自动消毒装置
CN110124079A (zh) * 2019-06-18 2019-08-16 中预联控(天津)科技有限公司 一种实现人机共存的动态空间消毒方法及装置
CN110323981A (zh) * 2019-05-14 2019-10-11 广东省智能制造研究所 一种控制永磁同步直线电机的方法及系统
CN210844470U (zh) * 2019-06-18 2020-06-26 中预联控(天津)科技有限公司 一种实现人机共存的动态空间消毒装置
WO2021252552A1 (en) * 2020-06-08 2021-12-16 Rader Richard S Systems, methods, and apparatuses for disinfection and decontamination
CN215490190U (zh) * 2020-12-14 2022-01-11 天津中新科炬生物制药股份有限公司 一种空间消毒仪
CN114484822A (zh) * 2022-02-10 2022-05-13 中国海洋大学 基于温度和硫化氢浓度控制的海洋平台通风系统控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766497B (zh) * 2021-01-29 2024-08-13 北京字节跳动网络技术有限公司 深度强化学习模型的训练方法、装置、介质及设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3160033U (ja) * 2010-03-29 2010-06-10 株式会社ノックスラボラトリーズ 除菌・消臭装置
CN102178968A (zh) * 2011-04-26 2011-09-14 中国人民解放军军事医学科学院卫生装备研究所 一种气体二氧化氯消毒装置
CN103964541A (zh) * 2014-05-08 2014-08-06 李宝华 一种紫外线自动消毒装置
CN110323981A (zh) * 2019-05-14 2019-10-11 广东省智能制造研究所 一种控制永磁同步直线电机的方法及系统
CN110124079A (zh) * 2019-06-18 2019-08-16 中预联控(天津)科技有限公司 一种实现人机共存的动态空间消毒方法及装置
CN210844470U (zh) * 2019-06-18 2020-06-26 中预联控(天津)科技有限公司 一种实现人机共存的动态空间消毒装置
WO2021252552A1 (en) * 2020-06-08 2021-12-16 Rader Richard S Systems, methods, and apparatuses for disinfection and decontamination
CN215490190U (zh) * 2020-12-14 2022-01-11 天津中新科炬生物制药股份有限公司 一种空间消毒仪
CN114484822A (zh) * 2022-02-10 2022-05-13 中国海洋大学 基于温度和硫化氢浓度控制的海洋平台通风系统控制方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Automation system gives Sterling Pulp Chemicals high performance for demanding water treatment;Dean D;《Control Solutions International》;20030601;第76卷(第6期);第22-23页 *
二氧化氯发生器计算机监控系统设计;宋进源 等;《计算机技术与自动化》;20061231(第4期);第137-140页 *
凝胶型缓释固载二氧化氯的制备及其释放速率的研究;王奎涛 等;《化工科技市场》;20061012(第10期);第19-22页 *

Also Published As

Publication number Publication date
CN115356919A (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
CN115356919B (zh) 一种二氧化氯消毒机pid控制器自适应调整方法
Dimeas et al. Reinforcement learning of variable admittance control for human-robot co-manipulation
CN111474965B (zh) 基于模糊神经网络的串联输水渠道水位预测与控制方法
JPH03164804A (ja) プロセス制御システム及び発電プラントプロセス制御システム
CN111829003A (zh) 一种电厂燃烧控制系统及控制方法
CN110134165A (zh) 一种用于环境监测与控制的强化学习方法及系统
CN114020079B (zh) 一种室内空间温度和湿度调控方法及装置
CN116520909A (zh) 哈里斯鹰算法优化模糊pid参数的高值耗材柜温度控制方法
CN110097929A (zh) 一种高炉铁水硅含量在线预测方法
CN113885328A (zh) 一种基于积分强化学习的核电功率跟踪控制方法
CN113868961A (zh) 一种基于自适应值迭代核电系统的功率跟踪控制方法
WO2020107693A1 (zh) 空氧混合器压力控制方法、装置、计算机设备和存储介质
CN114216256A (zh) 离线预训练-在线学习的通风系统风量控制方法
CN110986249A (zh) 空调的自调节控制方法、系统及空调器
CN113885324A (zh) 一种建筑智能用电控制方法及系统
CN115993771A (zh) 一种基于模糊神经网络控制的空气消毒机控制方法
CN116520703A (zh) 一种基于改进ac算法的强化学习间歇过程控制方法
CN117311422A (zh) 一种农作物种植的大棚内部环境的调控方法及系统
CN116719286A (zh) 一种基于强化学习的超超临界机组协调控制系统自抗扰控制器参数智能在线优化方法
CN115419908A (zh) 基于模糊神经网络的蒸汽-烟气换热器的控制方法
JP2024517487A (ja) 微生物培養濃度の予測方法及びシステム
Rudolf et al. ReACT: Reinforcement Learning for Controller Parametrization Using B-Spline Geometries
CN117450637B (zh) 海洋平台通风系统分层优化控制方法
Bougie et al. Data-Efficient Reinforcement Learning from Controller Guidance with Integrated Self-Supervision for Process Control
CN118466224B (zh) 用于电推进系统的流量控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant