CN113283156A

CN113283156A - 一种基于深度强化学习的地铁站空调系统节能控制方法

Info

Publication number: CN113283156A
Application number: CN202110333881.9A
Authority: CN
Inventors: 魏东; 焦焕炎; 冉义兵; 冯浩东
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-08-20
Anticipated expiration: 2041-03-29
Also published as: CN113283156B

Abstract

本发明提供了一种基于深度强化学习的地铁站空调系统节能控制方法，该方法通过采集地铁站空调系统数据参数；对采集的数据进行滑动平均滤波处理、归一化和反归一化处理并利用线性函数转换方法将数据转换成0‑1范围内的数值；利用神经网络和步骤获得的数据构建地铁站空调系统的神经网络模型；确定DDPG智能体的状态变量、动作变量、奖励信号以及结构；利用多步预测的DDPG算法求解最后的控制策略，本发明提出的控制方法具有很好的温度跟踪性能，与传统DDPG算法相比,智能体训练次数减少了86次，且能够在系统负荷变化的情况下使系统稳定运行,满足车站温度需求,同时与目前实际工程中的运行系统相比，节能17.908％。

Description

一种基于深度强化学习的地铁站空调系统节能控制方法

技术领域

本发明涉及地铁站空调节能领域，特别是一种基于深度强化学习的地铁站空调系统节能控制方法。

背景技术

地铁站作为实现城市轨道交通功能性的必要环节,对人们的日常生活具有重要意义.近年来,随着众多地铁站的快速建设、运营,其相应的能耗也迅速增长,能耗问题日益凸显.其中,暖通空调(Heating,ventilation and air conditioning,HVAC)系统是主要的能耗来源,约占车站总能耗的40％以上,仅次于列车牵引系统，地铁站空调系统的设备一般按照远期高峰小时运行情况进行配置,在运行初中期,客流及行车对数远没有达到设计水平,因此设备选型有较大的富余量,造成空调系统通常在低能效的低负荷段运行,造成能源浪费.此外,目前国内大部分地铁站仍然依赖用于低层设备的PID调节器,以及用于高层监控系统的基于规则的控制方案，PID控制方法存在参数整定和调试困难的问题,在空调系统负荷和工况发生变化时极易产生振荡,控制效果不佳。基于规则的控制方法是指根据地铁运行时刻表对各设备采取固定模式的变频技术,该方法存在无法根据实际负荷需求实时调整控制参数的问题,这不仅会消耗更多能源,还会使得夏季地铁站台温度偏低,造成人员舒适性差.另一方面,目前地铁站空调通常对风系统和水系统单独进行控制,而风系统与水系统之间存在耦合关系,单独控制难以实现系统精准节能,也很难保证人员舒适性要求。要降低地铁站空调系统的运行能耗,就必须在保证车站舒适度的前提下采取合理可行的节能控制方案。

已有研究表明,智能控制方法具有自适应、自学习和自协调能力,能够提升空调系统的性能和节能效果.其中,强化学习(Reinforcement learning,RL)中的智能体通过与环境之间的直接交互来最大化奖励信号,能够实现复杂系统的全局优化控制,是充分发挥空调系统节能潜力的有效方法之一，应用强化学习方法控制地铁站空调系统可以有效提升系统的节能效果.不过目前还有两个问题有待解决,其一是基于无模型的强化学习方法在线训练智能体的收敛时间较长,难以满足控制系统实时性要求。其次，地铁站空调系统的状态空间和动作空间都是多维连续的,然而目前大多数相关研究成果只能处理参数空间有限的问题,且只针对单个离散控制变量产生控制律,这限制了它们对复杂系统控制的适用性。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于深度强化学习的地铁站空调系统节能控制方法，该方法对地铁站空调风系统和水系统进行全局优化控制，可以适应多维连续动作空间的系统；为了提升算法的学习效率,本发明基于多步预测,使智能体择优更新参数，利用邻近训练过程中总奖励值的变化趋势设置了智能体训练终止条件,进一步减少了智能体训练时间，满足站台温度需求和降低系统整体能耗。

本发明的目的是通过以下技术方案来实现的：

一种基于深度强化学习的地铁站空调系统节能控制方法：通过以下步骤实现：

S1、采集地铁站空调系统数据参数；

S2、对采集的数据进行滑动平均滤波处理、归一化和反归一化处理并利用线性函数转换方法将数据转换成0-1范围内的数值；

S3、利用神经网络和步骤S2获得的数据构建地铁站空调系统的神经网络模型；

S4、确定DDPG智能体的状态变量、动作变量、奖励信号以及结构；

S5、利用DDPG算法求解最后的控制策略。

进一步的：所述地铁站空调系统数据具包括：

室外温度T_out[k]；

室外相对湿度RH_out[k]；

系统负荷L[k]；

系统能效比EER[k]；

站台温度T_in[k]；

冷冻水供水温度T_chws[k]；

冷冻水泵流量f_pumpch[k]；

冷却水泵流量f_pumpc[k]；

冷却塔风机电压f_t[k]；

末端风机频率f_fan[k]；

冷冻水阀开度d[k]；

其中：k表示当前时刻。

进一步的：所述神经网络具有一个输入层、一个隐含层和一个输出层，所述隐含层的节点数为10。

进一步的：所述输出层输出的为下一时刻系统能效比EER[k+1]和站台温度T_in[k+1]。

进一步的：

DDPG智能体的状态变量S＝[T_out,RH_out,L,EER,T_in]；

DDPG智能体的动作变量A＝[T_chws,f_pumpch,f_pumpc,f_t,f_fan,d]；

DDPG智能体的奖励信号：R＝-|T_in-T_{in_set}|+e^EER/100，其中，T_{in_set}代表站台温度设定值，e^EER表示系统能效比的指数函数；

DDPG智能体结构包括Actor网络和Critic网络，且Actor网络和Critic网络均由3层的全连接层网络构成。

进一步的：

所述DDPG算法包括Actor当前网络π(s,θ)、Critic当前网络q(s,a,w)、Actor目标网络π′(s,θ′)以及Critic目标网络q′(s,a,w′)，其中，具体算法如下：

step1:随机初始化参数θ、w、θ′＝θ、w′＝w；清空经验回放池D；

step2:初始化状态S；

step3:基于Actor当前网络π(s,θ)生成n组动作A_i＝π(S,θ)+ξ(i＝1,2,...,n)；

step4:利用系统模型,执行A_i(i＝1,2,...,n)，并向前预测p步,产生p个未来时刻的状态、动作和奖励值；

step5:计算每一组的总奖励值R_total(A_i)，共n个，令A＝argmax(R_total(A_i))；

step6：执行动作A,得到下一时刻状态S′和奖励R；

step7：将{S,A,R,S′}这个四元组存入经验回放池D；

step8：S←S′；

step9:从集合D中随机采样m个样本，{S_j,A_j,R_j,S_j′}j＝1,2,...,m，根据计算式y_j＝R_j+γq′(S′,π′(S′,θ′),w′)计算当前目标值y_j；

step10:根据计算式

计算计算均方差损失函数J(w)，更新w:

step11:根据计算式

计算计算损失函数J(θ)，更新θ：

step12:如果N％C＝1，根据计算式w′←τw+(1-τ)w′和θ′←τθ+(1-τ)θ′更新目标网络参数；

step13:若S是非终止状态,转step3；S不是非终止状态,转下一步；

step14:若迭代次数小于N,转step2,若不小于N,结束；

其中，θ为Actor当前网络参数；θ′为Actor目标网络参数；w为Critic当前网络参数；w′为Critic目标网络参数；A为智能体施加给环境的动作；ξ为随机高斯噪声；D为经验回放池集合；m为批量梯度下降的样本数；C为目标网络参数更新频率；N为最大迭代次数；步长α^θ＞0，α^w＞0；γ为折扣因子，τ为软更新系数；n为预测组数；p为预测步数。

本发明的有益效果是：本发明提出了基于多步预测的深度确定性策略梯度(Deepdeterministic policy gradient,DDPG)方法,对地铁站空调风系统和水系统进行全局优化控制，可以适应多维连续动作空间的系统，为了提升算法的学习效率,本发明对传统DDPG算法进行了改进,基于多步预测,使智能体择优更新参数，此外，本发明还利用邻近训练过程中总奖励值的变化趋势设置了智能体训练终止条件,进一步减少了智能体训练时间，仿真实验结果表明,本发明所提出的控制方法与传统DDPG算法相比,智能体训练次数减少了86次,且能够在系统负荷变化的情况下使系统稳定运行,满足车站温度需求,同时与目前实际工程中的运行系统相比,节能17.908％。

附图说明

图1为本发明地铁站空调系统的神经网络模型结构图；

图2为本发明实施例中站台温度滤波前后数据对比图；

图3为本发明实施例中温度预测误差图；

图4为本发明实施例中温度预测对比图；

图5为本发明实施例中EER预测误差图；

图6为本发明实施例中EER预测结果对比图；

图7为本发明实施例中强化学习控制系统结构图；

图8为本发明实施例中Actor网络示意图；

图9为本发明实施例中Critic网络示意图；

图10为本发明实验例中DDPG智能体训练流程图；

图11为本发明实验例中训练得分图；

图12为本发明实验例中训练过程中温度变化曲线图；

图13为本发明实验例中训练过程中EER变化曲线图；

图14为本发明实验例中训练过程中冷冻水供水温度变化曲线图；

图15为本发明实验例中训练过程中冷却塔风机电压变化曲线图；

图16为本发明实验例中训练过程中冷冻水泵流量变化曲线图；

图17为本发明实验例中训练过程中冷却水泵流量变化曲线图；

图18为本发明实验例中训练过程中末端风机频率变化曲线图；

图19为本发明实验例中训练过程中冷冻水阀开度变化曲线图；

图20为本发明实验例中设置终止条件后的训练过程得分图；

图21为本发明实验例中传统DDPG算法训练过程得分图；

图22为本发明实验例中DDPG智能体用于空调系统控制经过100次测试后站台温度的变化曲线图；

图23为本发明实验例中DDPG智能体用于空调系统控制经过100次测试后EER测试曲线图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

实施例1：

S1、采集地铁站空调系统数据参数；

S5、利用DDPG算法求解最后的控制策略。

以下对上述步骤S1-S3做进一步详细的说明：

为减少智能体的训练时间,首先需要对系统进行建模,构建与智能体交互的模拟环境.空调系统设备众多,设备型号、规格多样,且系统的状态参数与设备控制参数之间呈非线性关系,使用传统机理建模方法较为困难，相对于数据挖掘算法(人工神经网络-ANN、支持向量机-SVM)，由于经网络算法无需繁冗的建模过程,且模型精度较高，相比于其他方法,它在非线性系统建模方面更具优势，因此，本发明用神经网络获取系统模型，建立神经网络模型需要采集覆盖系统所有动态特性的丰富数据集,此时适当选择建模参数可以提高模型的可理解性、可扩展性和准确性，因此,需要合理选择模型参数。

由于控制目标是使系统在满足舒适性要求的前提下使EER(空调系统能效比，即冷水机组制备的冷量与空调系统各设备的运行功率总和之间的比值)尽可能大，因此神经网络模型输出应为站台温度和EER,输入量包括状态变量和控制变量。

地铁站一般位于地下,在实际运行工况中,影响空调系统能效的因素有很多,包括室外环境、客流量、列车产热、隧道换热和设备散热等，从理论角度而言,输入的参数越多,模型精度越高,但对于实际工程,大部分参数都难以测量,且输入参数越多,神经网络模型训练的时间越长,收敛速度慢.因此本发明选取影响地铁站空调系统温度和EER的主要状态变量包括室外温度、室外相对湿度和系统负荷。另一方面，系统能耗设备除冷水机组之外,包括冷冻水泵、冷却水泵、冷却塔风机和站台末端风机,水泵的控制变量是水泵流量,末端风机的控制变量是输出给相应变频器的频率信号,冷却塔风机的控制变量是控制电压信号.而冷水机组结构复杂,造价昂贵,且其内部有厂家设置好的控制器,不允许外部控制器对其进行控制,因此本发明选择冷冻水供水温度设定值作为冷水机组的控制变量,利用控制算法计算使系统优化目标达到最佳时的冷冻水供水温度设定值.当优化后的设定值传给冷水机组后,冷水机组会自动通过内部控制器,使其出水温度跟上冷冻水的设定值.另外,为了实现风水联动控制,本发明通过末端组合式空调上的冷冻水阀将大系统和水系统有机地结合起来,以实现整个系统的协调工作和动态水力平衡控制，因此，综上所述：本发明神经网络的输入参数具体包括：

室外温度T_out[k]；

室外相对湿度RH_out[k]；

系统负荷L[k]；

系统能效比EER[k]；

站台温度T_in[k]；

冷冻水供水温度T_chws[k]；

冷冻水泵流量f_pumpch[k]；

冷却水泵流量f_pumpc[k]；

冷却塔风机电压f_t[k]；

末端风机频率f_fan[k]；

冷冻水阀开度d[k]；

其中,k表示当前时刻，神经网络模型的输出为下一时刻系统能效比EER[k+1]和站台温度T_in[k+1]，神经网络模型结构如图1所示。

本发明选取夏季6月至9月系统实测样本数据进行系统建模，采样周期为5分钟,数据由某地铁站监控管理系统提供,部分数据如下表2所示：

进一步的，为了消除尖峰噪声和随机噪声,本实施例对数据进行了滑动平均滤波处理.滤波前后站台温度的对比如附图2所示.另一方面,在神经网络的训练过程中,由于模型各输入变量的量纲不同,并且数据值的大小及范围差异较大,会使网络训练速度变慢,甚至会出现最终无法收敛的情况.因此,本文对实测样本数据进行了归一化和反归一化处理.另外,神经网络常采用Sigmoid函数作为激活函数,归一化能够防止出现神经元净输入绝对值过大引起的输出饱和现象.本实施例在进行处理时,采用线性函数转换方法，将数据转换成0至1范围内的数值.

所有样本数据都被随机分成3个不同的数据集,用于对神经网络模型的训练、验证和测试,数据占比分别为70％、10％和20％。

请继续参阅附图1所示，本发明选用三层前馈神经网络(一个输入层、一个隐含层和一个输出层)建立系统模型,三层前馈神经网络已被证明能以高精度有效逼近任何一个非线性过程。网络隐层神经元数目对预测模型的性能有显著影响,然而并没有提出明确的解析函数来预先确定隐层神经元的数量,一般可通过基于

的试错法来计算得到隐层神经元数量，其中,n和l分别代表输入层和输出层节点数；m表示隐含层节点数；α是试凑常数,取值范围通常是[1,10]。

利用上述公式,本实施例计算得出系统模型的隐含层节点数取值范围是[5,13].为了确定隐含层神经元的最佳数量,必须进行实验试凑比较.综合考虑网络误差和网络泛化性能,通过实验测定,本实施例发现当隐含层节点数为10时,网络训练效果最佳,实验比较结果如下表所示：

本实施例利用所构建的系统模型进行测试，模型测试输出与所对应的目标输出之间的温度误差曲线如附图3所示.由附图3可以看出,温度误差大多在-0.5～0.5℃之间,平均绝对误差为0.161℃,平均相对误差为0.665％,均方差为0.086；模型测试输出与所对应的目标输出之间的比较结果如附图4所示，由附图4可以看出,模型测试输出与所对应的目标输出之间的拟合度良好,在受到环境因素等时变参数影响情况下,预测模型的值可以较好地跟随目标值.这表明本文所构建的空调系统模型可以以较高的精度反映系统输入输出样本数据对中固有的非线性映射关系；附图5和附图6是利用1000组数据对系统能效比进行测试的实验结果.所得到的测试误差曲线如附图5所示.由图可以看出,模型输出与所对应的目标输出之间误差值大部分都维持在-0.3～0.4之间,平均绝对误差为0.136,平均相对误差为2.861％,均方差为0.040.模型输出与所对应的目标输出之间的比较结果如附图10所示。

由以上结果可以看出,本实施例所构建的神经网络系统模型具有结构简单的特点,同时能够避免进行繁琐的计算过程,具有工程实用价值。

实施例2：

S1、采集地铁站空调系统数据参数；

S5、利用DDPG算法求解最后的控制策略。

以下对步骤S4-S5做进一步说明：

在DDPG智能体训练之前,控制策略首先要确定系统的状态、动作、奖励信号以及智能体的结构.智能体的状态就是系统模型的状态变量,动作就是系统的控制变量，此处智能体的状态和动作即为实施例1中系统模型的输入变量，具体的：

状态变量S＝[T_out,RH_out,L,EER,T_in]；

动作变量A＝[T_chws,f_pumpch,f_pumpc,f_t,f_fan,d]；

地铁站空调系统控制的目标是使站台温度实时跟踪设定值,同时使系统能效比最大,因此奖励信号R表示为：R＝-|T_in-T_{in_set}|+e^EER/100，其中，T_{in_set}代表站台温度设定值，e^EER表示系统能效比的指数函数。

本实施例根据地铁站环境控制要求，将地铁站台夏季的设计温度值定为24℃，即T_{in_set}＝24℃.式(10)中前一项-|T_in-T_{in_set}|表示当站台实际温度越接近设定值时奖励值越大,后一项e^EER表示系统能效比的指数函数,即能效比越大,奖励值越大,同时随着EER越来越大,奖励值的变化也越来越大,最后用该值除以100是为了防止奖励值过大,不利于计算。

DDPG智能体结构包括Actor网络和Critic网络，如附图7所示,Actor网络以系统状态为输入,控制动作为输出,Critic网络以系统状态和动作作为输入,动作价值函数q作为输出。本实施例设置DDPG智能体的每一个Actor网络和Critic网络都由3层的全连接层网络构成,具体的网络结构分别如附图8和附图9所示。

传统DDPG算法中智能体所有的数据都来自环境模型的反馈,智能体只利用过去的数据对当前的行为进行优化和提升,严重限制了智能体的学习速度和泛化能力。模型预测控制作为一种智能优化控制算法,采用了多步预测、滚动优化和反馈校正等策略.其中,滚动优化与传统的全局优化不同,滚动优化在每一时刻的优化性能指标只涉及从该时刻起到未来有限的时间内,而到下一时刻,这一优化时间同时向前推移,不断地进行在线优化,因此其采用的是滚动式的有限时域优化策略,具有鲁棒性强、对模型精确性要求不高等优点.滚动优化以多步预测为基础,在每一优化时刻,算法利用系统模型预测未来有限时间内的系统状态和动作,再求解优化性能指标。

对于强化学习智能体来说,为了使它不必局限于只从与环境模型的交互中获取数据,让智能体能够利用所预测的数据择优更新参数,本发明基于多步预测滚动优化的思想,提出了基于多步预测的DDPG算法,有效减少了智能体的训练次数,提升了算法的学习效率，其中，具体算法如下：

step2:初始化状态S；

step6：执行动作A,得到下一时刻状态S′和奖励R；

step7：将{S,A,R,S′}这个四元组存入经验回放池D；

step8：S←S′；

step9:从集合D中随机采样m个样本，{S_j,A_j,R_j,S_j′}j＝1,2,…,m，根据计算式y_j＝R_j+γq′(S′,π′(S′,θ′),w′)计算当前目标值y_j；

step10:根据计算式

计算计算均方差损失函数J(w)，更新w:

step11:根据计算式

计算计算损失函数J(θ)，更新θ：

step13:若S是非终止状态,转step3；S不是非终止状态,转下一步；

step14:若迭代次数小于N,转step2,若不小于N,结束；

其中，θ为Actor当前网络参数；θ′为Actor目标网络参数；w为Critic当前网络参数；w′为Critic目标网络参数；ξ为随机噪声；D为经验回放池集合；m为批量梯度下降的样本数；C为目标网络参数更新频率；N为最大迭代次数；步长α^θ＞0，α^w＞0；γ为折扣因子，τ为软更新系数；n为预测组数；p为预测步数。

具体的，Actor和Critic为两个神经网络,分别用π(s,θ)和q(s,a,w)来表示，即策略和价值。Actor网络将状态s映射到动作a，而Critic网络通过遵循当前状态对应的策略,来计算预期价值q。在DDPG算法中，Actor网络的输出策略就是系统的控制动作，即π(s,θ)＝a，算法随机初始化每个网络的权重θ和w，为提高算法训练的稳定性，DDPG算法中一共包含4个网络,除Actor和Critic当前网络之外,另两个网络分别为Actor和Critic的目标网络，π′(s,θ′)和q′(s,a,w′)，这两个网络用于在更新当前网络权值时计算目标值。目标网络的权值θ′和w′初始化为与当前网络相同，然后每隔一段时间,算法将当前网络参数复制到目标网络进行更新。

为了使Actor网络和Critic网络的训练具有鲁棒性,本算法中人为定义了一个有限的缓存区D作为经验回放池,用于将每次与环境交互得到的奖励与状态更新情况都保存起来.在每次更新网络、计算目标值时,算法不是使用在每个决策时刻立即收集的转换样本,而是从经验回放池D中随机抽取少量的转换样本,对网络进行训练.为了加快计算速度,经验回放池的内存大小是有限的,当它达到一定值时,最先存入的样本数据将被丢弃.在训练开始之前,算法需要将经验回放池清空。

为了使算法具有一定的在线探索性,避免错过其他较好的动作,使用的策略表示为：A＝π(S,θ)+ξ；

A表示智能体施加给环境的动作，ξ表示随机高斯噪声,将其添加到动作中的目的是确保探索性并防止算法收敛到局部最优解.传统DDPG算法在step3基于Actor网络生成一组动作A并添加一定的随机噪声,然后直接执行step6。本发明在step3这一步引入了多步预测的思想,即先基于Actor网络生成多组(n组)动作A_i(i＝1,2,...,n),并为每一组动作添加随机噪声,然后每组基于第一个动作利用模型向前预测p步,最终便产生了p个未来时刻的状态和动作,共有n组；接下来计算每一组的总奖励值,即预测的p步的奖励之和,这样便有了n个总奖励值,算法从中选择最大的一个值,那么该组的第一个动作就被作为step3的返回值,然后再执行step6.执行动作A后,系统得到下一时刻系统状态S′和奖励值R,并将{S,A,R,S′}这个四元组存入经验回放池。

更新网络参数时,智能体从经验回放池中随机采样m个样本{S_j,A_j,R_j,S_j′}j＝1,2,…,m,计算当前目标q值y_j：

y_j＝R_j+γq′(S′,π′(S′,θ′),w′)

其中，γ表示折扣因子,决定了未来奖励的比重，0≤γ≤1。

Critic网络的损失函数为：

它表示实施例1中式子

中的目标q值与Critic网络输出的期望价值之间的误差最小。

根据策略梯度法,Actor网络的损失函数为：

然后,本算法采用梯度下降法对Actor和Critic网络的权值进行更新。

最后,当满足目标网络更新频率C时,算法使用以下软更新公式更新目标网络参数：

w′←τw+(1-τ)w′；

θ′←τθ+(1-τ)θ′；

其中,τ表示软更新系数,这样可以避免损失值出现较大波动。

实验例：

为实现所提出的改进DDPG算法，本实验例使用Pycharm软件,基于Tensorflow框架根据算法1编写了算法程序,进行仿真实验,并使用第实施例1中建立的神经网络模型作为DDPG智能体的学习环境.具体流程如附图10所示。

附图11给出了基于多步预测的DDPG算法训练1000次过程中的得分(总奖励值).可以看出,在训练过程中，每次的奖励值是有波动的，造成这种现象的原因主要有两个,一是每次训练的初始环境不同,二是算法为每次策略探索添加了随机噪声.但是,从整体奖励值的变化趋势来看,在训练过程中,总奖励值呈稳步上升的趋势,并在大约第500次训练之后达到饱和值,总奖励值接近1200,这说明智能体已经训练完成.训练过程中的站台温度变化情况如附图12所示,可以看出,在第500次训练之前,温度波动较大,智能体在不断探索,寻求更大的奖励,之后温度趋于稳定,稳定在设定值24℃左右.训练过程中系统能效比的变化情况如图13所示,可以看出,在整个训练过程中,EER一直都在不断探索以获得较大值,并最终能达到接近6。

附图14-附图19分别给出了智能体训练过程中各控制变量的变化曲线.从图中可以看出,各控制变量均存在探索过程,冷却塔风机控制电压、冷冻水泵流量和冷却水泵流量均稳定在最大值处,而冷冻水供水温度稳定在10℃左右,末端风机控制信号稳定在约40％,这表明冷水机组和末端风机是耗能的主要设备,整个系统的节能主要是控制这两个设备进行优化.冷冻水阀开度稳定在约74％处,它可以实现系统风水联动协调控制。

从附图11中可以看出,在第约500次训练之后,智能体得分已接近饱和值,因此后几百次的训练是多余的,为了确定智能体训练完成的确切次数,避免人为设置训练次数过多,影响算法效率,本文每次训练结束之后增加了一个判断条件,通过观察图15的1000次训练结果发现,在回报值达到饱和之前,相隔100次的两次训练回报值之差都超过100,达到饱和之后,该差值低于50,故将第i次的判断条件设置为计算第i次与第i-100次的回报值之差,若连续3次该差值均小于50,则判定智能体训练结束。附图20给出了应用该终止条件后的训练结果图,可以看出,在第530次时训练结束,智能体得分达到饱和值1169.2,这大大缩减了智能体的训练时间,并取得了和之前同样的控制效果。

传统DDPG算法的训练得分过程如附图21所示，当训练次数达到616次时,智能体才训练结束,相比于本发明提供的基于多步预测的DDPG算法增加了86次,可见本发明所提出的改进算法提升了系统的学习效率.除减少了智能体的训练次数之外,二者在训练完成时对系统状态温度和EER取得了一样的控制效果。

为了评价所提出的基于多步预测的DDPG算法的性能,本实验例将训练完成的智能体用于空调系统控制,观察系统状态的输出结果。附图22所示为系统经过100次测试后站台温度的变化曲线,可以看出,温度能够从初始值约27℃很快到达设定值24℃，平均绝对误差为0.0137℃，且过程较为平稳,控制效果较佳。附图23所示为系统能效比EER的测试结果,从图中可看出,EER最大值能达到接近6左右,且较为稳定,通过计算,在应用本文所提出的策略后,EER平均值为5.7566,而原地铁站空调系统采用PID控制，且风系统和水系统分开控制,其实际运行EER平均值为4.8823，从这个角度而言,该强化学习控制方案可以节能约17.908％。

需要对以上实施例说明的是，本发明对空调系统节能控制方法，不仅限于以上实施例中涉及的地铁站，对需要进行空调节能控制的隐剧院、图书馆、候车室等需要进行温度节能控制的公共场所，本发明也同样适用。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于深度强化学习的地铁站空调系统节能控制方法，其特征在于：通过以下步骤实现：

S1、采集地铁站空调系统数据参数；

S5、利用多步预测的DDPG算法求解最后的控制策略。

2.根据权利要求1所述的一种基于深度强化学习的地铁站空调系统节能控制方法，其特征在于，所述地铁站空调系统数据具包括：

室外温度T_out[k]；

室外相对湿度RH_out[k]；

系统负荷L[k]；

系统能效比EER[k]；

站台温度T_in[k]；

冷冻水供水温度T_chws[k]；

冷冻水泵流量f_pumpch[k]；

冷却水泵流量f_pumpc[k]；

冷却塔风机电压f_t[k]；

末端风机频率f_fan[k]；

冷冻水阀开度d[k]；

其中：k表示当前时刻。

3.根据权利要求1所述的一种基于深度强化学习的地铁站空调系统节能控制方法，其特征在于：所述神经网络具有一个输入层、一个隐含层和一个输出层，所述隐含层的节点数为10。

4.根据权利要求2所述的一种基于深度强化学习的地铁站空调系统节能控制方法，其特征在于：所述输出层输出的为下一时刻系统能效比EER[k+1]和站台温度T_in[k+1]。

5.根据权利要求3所述的一种基于深度强化学习的地铁站空调系统节能控制方法，其特征在于：

所述DDPG智能体的状态变量S＝[T_out,RH_out,L,EER,T_in]；

DDPG智能体的动作变量A＝[T_chws,f_pumpch,f_pumpc,f_t,f_fan,d]；

6.根据权利要求4所述的一种基于深度强化学习的地铁站空调系统节能控制方法，其特征在于：所述多步预测的DDPG算法包括Actor当前网络π(s,θ)、Critic当前网络q(s,a,w)、Actor目标网络π′(s,θ′)以及Critic目标网络q′(s,a,w′)，其中，具体算法如下：

step2:初始化状态S；

step5:计算每一组的总奖励值R_total(A_i)，共n个，令A＝arg max(R_total(A_i))；

step6：执行动作A,得到下一时刻状态S′和奖励R；

step7：将{S,A,R,S′}这个四元组存入经验回放池D；

step8：S←S′；

step9:从集合D中随机采样m个样本，{S_j,A_j,R_j,S′_j}j＝1,2,…,m，根据计算式y_j＝R_j+γq′(S′,π′(S′,θ′),w′)计算当前目标值y_j；

step10:根据计算式

计算计算均方差损失函数J(w)，更新

step11:根据计算式

计算计算损失函数J(θ)，更新θ：

step13:若S是非终止状态,转step3；S不是非终止状态,转下一步；

step14:若迭代次数小于N,转step2,若不小于N,结束；