CN116070504A

CN116070504A - 一种高效制冷机房数字孪生仿真系统

Info

Publication number: CN116070504A
Application number: CN202211603589.5A
Authority: CN
Inventors: 王天逸; 宁德军; 陈逸君; 李佳佳; 汪德龙; 张宇航
Original assignee: Shanghai Carbon Soot Energy Service Co ltd
Current assignee: Shanghai Carbon Soot Energy Service Co ltd
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-05-05

Abstract

本发明属于制冷机房能效的技术领域，公开了一种高效制冷机房数字孪生仿真系统，其特征在于：包括能效优化机器人和仿真处理模块，所述能效优化机器人用于以仿真处理模块产生的下一状态信息和奖励值作为输入，以深度强化学习模型为处理核心，输出作用于制冷机房的当前动作值；所述仿真处理模块用于接收当前动作值，模拟输出对应制冷机房的下一状态信息和奖励值。本发明的仿真系统可以实现在只有部分真实数据或没有真实数据的情况下，实现高效制冷机房的能效优化模型的训练，满足工程级高效制冷机房能效优化应用的要求。

Description

一种高效制冷机房数字孪生仿真系统

技术领域

本发明涉及制冷机房能效的技术领域，尤其涉及一种高效制冷机房数字孪生仿真系统。

背景技术

近年来，数据孪生等数字化智能化智慧工厂解决方案的出现帮助高效制冷机房的能效调控工作和逻辑实现了跨越，然而，目前较为主流的控制方法和策略仍然是由人为手动调整和制定的，存在控制时效性和准确性的弊端，同时也会造成能效冗余的情形发生，如何利用智能化的控制策略来及时有效地对高效制冷机房系统进行调控一直是行业的主要痛点之一。

近年来，深度强化学习正成为一种领先的策略优化方法，各种深度强化学习算法如深度Q学习网络(DQN)、近端策略优化算法(PPO)、优势动作评价算法(A3C或A2C)等在众多任务上取得了令人惊喜的成果，尤其是在AI玩游戏、下围棋等领域，然而上述的深度强化学习算法研究一般会需要一种模拟仿真环境，该环境从深度强化学习算法接收动作指令a_t，返回仿真环境执行动作后的状态s_(t+1)和奖励值r_t，然后深度强化学习算法接收状态s_(t+1)和奖励值r_t之后，给出新的动作值a_(t+1)。

强化学习相关技术和成果自20世纪后期以来不断进入人们的视野，强化学习基于给定条件，让智能体在与环境交互的过程中通过学习策略以达到回报最大化或实现特定目标，智能体通过动作与环境交互获得的奖励与反馈更新自身的动作策略，以更新模型参数来获得更高的奖励。随着深度学习神经网络的出现和发展，强化学习与深度学习形成了有机的结合，深度强化学习将深度学习的感知能力和强化学习的决策能力相结合，目前，强化学习问题在信息论、博弈论、自动控制等领域用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统，可以在围棋和电子游戏中达到人类水平，例如前段时间击败世界顶级为其选手的围棋智能体Alpha Go。强化学习需要的训练环境较为复杂苛刻，目前在交通、能源、游戏等领域已经有成熟可用的仿真环境，但在高效制冷机房领域，由于真实数据收集困难、系统设备构造复杂、训练环境难以还原等因素限制，目前没有针对高效制冷机房的仿真环境。

当前，由于缺少上述深度强化学习模型训练所需的企业高效制冷机房的仿真环境，导致多数深度强化学习算法实际能效优化效果不佳，或者由于数据多样性无法满足算法训练需求，导致模型的实际优化收益不满足工程级应用要求，大大地制约了深度强化学习方法的推广和工程化。

发明内容

为了解决上述问题，本发明提出一种高效制冷机房数字孪生仿真系统，解决了现有制冷机房的仿真系统由于数据多样性无法满足算法训练需求，导致模型的实际优化收益不满足工程级应用要求等技术问题。

本发明可通过以下技术方案实现：

一种高效制冷机房数字孪生仿真系统，包括能效优化机器人和仿真处理模块，

所述能效优化机器人用于以仿真处理模块产生的下一状态信息和奖励值作为输入，以深度强化学习模型为处理核心，输出作用于制冷机房的当前动作值；

所述仿真处理模块用于接收当前动作值，模拟输出对应制冷机房的下一状态信息和奖励值。

进一步，所述仿真处理模块包括辅助变量生成模块、环境变量迭代模块、观测点模块和回报生成模块，

所述辅助变量生成模块用于计算生成与制冷系统内部设备传感数据无关的辅助变量；

所述环境变量迭代模块用于根据当前动作值、当前状态信息和辅助变量，模拟输出下一状态信息；

所述观测点模块用于从辅助变量、状态信息包含的变量中选取观测变量，供能效优化机器人观测采集；

所述回报生成模块用于根据当前动作值，模拟输出对应的奖励值。

进一步，利用如下方程式，计算奖励值r_t

r_t＝clip(-r_clip，(αδCOp_t:t+1+βΔCOP+γφ(s_t，a_t))，r_clip)

其中，r_t代表t时刻智能体获得的奖励值；clip、r_clip为组合出现的取值范围限定函数，限定了奖励值的最大和最小取值；α、β、γ是可以在不同情况下调节以获得更好训练结果的超参数；ΔCOP代表全局能效比差值，为当前时刻COP实际值与总COP目标值的差距；δCOp_t:t+1代表局部能效比差值，为上一时刻与当前时刻的COP实际值差距；φ(s_t，a_t)代表违规惩罚值，用来描述违反取值范围或系统要求的s_t和a_t取值出现，计算公式中的i和j分别代表所有出现过的s_t，a_t数据，和分别代表对应的i和j数据的规范取值阈值。

进一步，所述环境变量迭代模块采用基于物理模型机理和基于数据的时序深度神经网络结合的方法生成下一状态信息；

所述辅助变量生成模块用于采用自回归综合移动平均法ARIMA或者Xgboost算法绘制辅助变量曲线，再采用时序深度神经网络模型输出的具体数据结果。

本发明有益的技术效果在于：

1)开创了高效制冷机房用于深度强化学习所需的数字孪生仿真环境，用深度强化学习的方式取代传统的控制策略，应对复杂多变的现实情况；

2)提出全新的全局能效比、局部能效比、违规惩罚量结合的奖励机制，使复杂的动作可以均在与环境交互的过程中得到反馈，实现能效优化机器人的算法更加合理和快速地达到收敛；

3)提出基于物理模型机理和深度神经网络的环境参数迭代模块，通过设备机理公式和学习了过往历史数据特征的深度神经网络模型联合预测的未来时刻环境参数取值而实现，相比于传统的单纯基于机理的预测反馈模式，与真实系统的预测准确度提高10％以上，有效提高环境的工作质量；

4)提出基于自回归与深度模型的辅助变量生成模块，更加随机且合理化地生成和迭代系统以外的辅助变量参数数值，有利于能效优化机器人在复杂随机生成的条件之下获得综合的训练和测试；

5)数字孪生仿真环境可以通过调用算法库中的优化算法，模拟对比在当前情况下的不同仿真效果，在高效制冷机房智能控制场景下极大提高操作合理有效性和安全性。

附图说明

图1是本发明的仿真系统的框架示意图。

具体实施方式

下面结合附图及较佳实施例详细说明本发明的具体实施方式。

如图1所示，本发明提供了一种高效制冷机房数字孪生仿真系统，包括能效优化机器人和仿真处理模块，该能效优化机器人用于以仿真处理模块产生的下一状态信息和奖励值作为输入，以深度强化学习模型为处理核心，输出作用于制冷机房的当前动作值；该仿真处理模块用于接收当前动作值，模拟输出对应制冷机房的下一状态信息和奖励值。这样借助提出的创新奖励函数计算方法，考虑全局及局部的能效比优化情况，并且对违规和违法的行为定义了惩罚项，可以满足深度强化学习算法训练时的有效性，同时，采用基于数据与神经网络的内部系统仿真处理模块，不同于传统仿真平台单一基于设备机理的计算反馈方式，该模块将设备和系统运行的历史运行数据和深度神经网络与基础机理模型相结合，给出与真实环境中更为接近的参数反馈，提高仿真环境在训练过程中与真实系统及设备的相似程度，也为深度强化学习的训练环境提供后端基础，从而可以实现在只有部分真实数据或没有真实数据的情况下，通过整体时序数据流走势和历史经验预测下一时刻的环境参数来形成迭代，实现高效制冷机房的能效优化模型的训练，满足工程级高效制冷机房能效优化应用的要求。具体如下：

该能效优化机器人用于以仿真处理模块产生的下一状态信息和奖励值作为输入，以深度强化学习模型为处理核心，输出作用于制冷机房的当前动作值；

该仿真处理模块包括辅助变量生成模块、环境变量迭代模块、观测点模块和回报生成模块四大功能，用于执行能效优化机器人给出的动作指令，并根据数据驱动的能效模型或设备的机理模型，给出制冷机房执行动作之后的状态和获取的回报值，每一时刻的处理结果将作为输出给到下一时刻的能效优化机器人作为下一时刻的输入值被调用，如此循环往复形成迭代的训练过程，以模拟真实世界中随时间发生的变化进程；其中，

1)辅助变量生成模块，其用于计算与系统设备相关传感数据无关的重要变量，我们可以称之为辅助变量，在我们的环境中，辅助变量是我们的深度强化学习模型在t+1时采取行动所必需的一些需要预测的变量，包括干球温度、湿球温度、冷机系统的负载量等等。该模块的工作原理是根据当前的状态和时间来估计所有辅助变量的走势和具体数值，在此基础上，我们的辅助变量()模块应该能够自主地预测和生成辅助变量。因此，我们在该模块的底层实现逻辑中可以选择使用具有简单性和可解释性的回归模型来绘制温度序列曲线，如自回归综合移动平均法(ARIMA)、Xgboost等算法，通过拟合单一时序历史过往数据曲线生成相应的未发生数据曲线预测，另外还有时序深度神经网络方法等，输出的结果将被能效优化机器人观测并且在环境参数迭代()模块中被调用以计算下一时刻的状态参数值，辅助变量()模块在每次迭代过程中的行进逻辑如下所示：

1:

2：for v∈Vdo

3:

4:end for

2)环境变量迭代模块，其用于预测和模拟高效制冷机房内系统和设备相关参数的具体走势，是本环境中的核心模块之一。环境变量迭代模块将当前采取的行动与当前状态参数一起在模拟环境中进行计算，并输出下一时刻的新的状态，包括系统内所有的冷机、冷冻泵、冷却塔、冷却泵、一次侧、二次侧和用户侧相关参数。在我们的环境中，环境变量迭代函数应该在输入当前状态、行动和辅助变量后，模拟出每个设备或系统在下一时刻的反馈状态参数，其底层实现方法我们创新性地提出了基于物理模型机理和基于数据的时序深度神经网络结合的方法，在有物理模型机理作为基准的前提条件下，根据以往系统历史数据训练的深度神经网络会让模拟环境更加接近真实系统的真实运作情况，算法模型预测给出更加贴近真实系统的反馈值。时序深度神经网络与模型机理结合的算法在该模块后端根据历史的动作内容和状态内容，计算预测给出贴合真实系统的状态内容，将被下一时刻的能效优化机器人观测和调用，以计算出下一时刻它将要采取的动作。

3)观测点模块，其用于选取变量以供能效优化AI机器人观测，选取的变量与系统能效比具有强相关性，该选取的变量可能来自环境迭代产生的变量等等，便于能效优化机器人从中提取之前的动作所产生的效果和结果，从而学习其中的规律和特征，以让能效优化机器人有效地观测系统状态的变化情况，记录动作对环境造成的影响和改变，更好地理解每个动作的含义和作用，对全局和当前变化情况进行掌控。观测值将被能效优化AI机器人直接观测和调用，其中“观测”是一种形象化说法，用以描述智能体在训练过程中能够接触到和获得的数据。

4)回报生成模块，其用于计算当前时间点能效优化AI机器人应当获得的奖励值，奖励值是能效优化AI机器人在该环境内训练时的唯一指标，机器人的最终目的就是通过动作的学习获得更高的奖励值。本模块的奖励值的计算主要由全局能效比差值、局部能效比差值和违规惩罚值组成。具体如下：

r_t＝clip(-r_clip，(αδCOP_t:t+1+βΔCOP+γφ(s_t，a_t))，r_clip)

能效比是用以衡量系统控制表现的最终指标也是最重要的指标，为总制冷量与总耗电量的比值，其中全局能效比差值为当前能效比，用以代表现状表现与最终目标的差距，局部能效比差值为当前能效比表现与上一观测时刻的能效比进行差值计算，如果比上一观测时刻能效比高则获得更多奖励，如果比上一观测时刻能效比低则获得更少奖励，违规惩罚值用来检测机器人的动作是否违反了动作集的规定，以及动作引起的参数变化是否对系统造成了负面的影响，此类违规影响越严重，则会获得更多的惩罚值。其中违规惩罚函数具体定义为：

这三部分均会乘以一个不同的超参数系数，用以调整每一部分在整个奖励值模块的比重，以帮助机器人得到更合理的奖励值。计算出来的当前时刻的奖励值结果将被能效优化AI机器人直接调用作为上一时刻的动作反馈，以计算下一时刻它将要采取的动作。

技术人员应当理解，这些仅是举例说明，在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，因此，本发明的保护范围由所附权利要求书限定。

Claims

1.一种高效制冷机房数字孪生仿真系统，其特征在于：包括能效优化机器人和仿真处理模块，

2.根据权利要求1所述的高效制冷机房数字孪生仿真系统，其特征在于：所述仿真处理模块包括辅助变量生成模块、环境变量迭代模块、观测点模块和回报生成模块，

3.根据权利要求2所述的高效制冷机房数字孪生仿真系统，其特征在于：

利用如下方程式，计算奖励值r_t

r_t＝clip(-r_clip,(αδCOP_t:t+1+βΔCOP+γφ(s_t,a_t)),r_clip)

其中，r_t代表t时刻智能体获得的奖励值；clip、r_clip为组合出现的取值范围限定函数，限定了奖励值的最大和最小取值；α、β、γ是可以在不同情况下调节以获得更好训练结果的超参数；ΔCOP代表全局能效比差值，为当前时刻COP实际值与总COP目标值的差距；δCOP_t:t+1代表局部能效比差值，为上一时刻与当前时刻的COP实际值差距；φ(s_t，a_t)代表违规惩罚值，用来描述违反取值范围或系统要求的s_t和a_t取值出现，计算公式中的i和j分别代表所有出现过的s_t，a_t数据，

和

分别代表对应的i和j数据的规范取值阈值。

4.根据权利要求3所述的高效制冷机房数字孪生仿真系统，其特征在于：所述环境变量迭代模块采用基于物理模型机理和基于数据的时序深度神经网络结合的方法自动迭代计算生成下一状态信息；

所述辅助变量生成模块用于采用自回归综合移动平均法ARIMA或者Xgboost算法根据历史数据走势特征绘制辅助变量曲线，再采用时序深度神经网络模型输出的具体数据结果。