CN114912830A

CN114912830A - 供热系统优化调控的方法和装置

Info

Publication number: CN114912830A
Application number: CN202210629004.0A
Authority: CN
Inventors: 朱翔宇; 崔煦; 吴海超; 殷宏磊; 徐浩然; 张钧波; 郑宇�
Original assignee: Jingdong City Beijing Digital Technology Co Ltd
Current assignee: Jingdong City Beijing Digital Technology Co Ltd
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2022-08-16

Abstract

本发明公开了一种供热系统优化调控的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：基于供热系统动态模型和建立的奖励函数，利用模型预测控制框架构建供热系统调控模型，奖励函数是根据供热系统的调控目标建立的，所述供热系统动态模型是基于训练数据特征集进行模型训练得到的，且所述训练数据特征集包括不同时刻供热系统的特征对，所述特征对由状态特征和动作特征构成；将当前时刻供热系统的状态特征输入至供热系统调控模型以得到当前时刻的动作特征，并根据当前时刻的动作特征对供热系统进行调控。该实施方式能够降低建模难度，提升预测的准确度；利于热能有效利用率的提高。

Description

供热系统优化调控的方法和装置

技术领域

本发明涉及智能城市技术领域，尤其涉及产业数字化技术领域，具体涉及一种供热系统优化调控的方法和装置。

背景技术

目前，供热系统调控方法主要分为以下几类：基于运维人员操作经验的人工调节方式、简单的PID控制算法等传统控制方法；利用流体力学和传热学的机理方法建立真实管网系统的数字孪生模型，依据解析得到的系统运行状态参数进行供热系统的调控；基于大数据和人工智能技术，根据系统历史数据构建训练神经网络模型来预测未来控制量的开度。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

1、传统的人工调节方式和PID控制方式对专业知识的依赖性强，通用性与泛化能力很差；

2、基于机理建模的方法需要流体力学与传热学等学科知识，涉及的管网系统的参数较多，建模难度较大，导致控制调整的时延过大，难以做出及时精准的控制；

3、基于深度神经网络建模的方法大多围绕热源或热网各部分独立进行模型的定制，导致热源负荷与热网中各换热站负荷匹配精度低、匹配不及时，不利于热能有效利用率的提高。

发明内容

有鉴于此，本发明实施例提供一种供热系统优化调控的方法和装置，能够减少控制过程对专业知识的依赖，增强控制方法在供热系统中应用的通用性；充分利用供热系统的数据特征，依据供热系统各环节上下游衔接的特点进行神经网络模型的结构设计，降低建模难度，考虑供热系统的整体协同并提升动态模型预测的准确度；基于系统动态模型进行控制策略的寻优，获得的控制策略充分考虑供热系统全网的协同与站点之间的耦合性，实现端到端联动的一体化调控策略，利于热能有效利用率的提高，且可应用于碳中和。

为实现上述目的，根据本发明实施例的一个方面，提供了一种供热系统优化调控的方法，包括：

基于供热系统动态模型和建立的奖励函数，利用模型预测控制框架构建供热系统调控模型，所述奖励函数是根据供热系统的调控目标建立的，所述供热系统动态模型是基于训练数据特征集进行模型训练得到的，且所述训练数据特征集包括不同时刻供热系统的特征对，所述特征对由状态特征和动作特征构成；

将当前时刻供热系统的状态特征输入至所述供热系统调控模型以得到当前时刻的动作特征，并根据所述当前时刻的动作特征对供热系统进行调控。

可选地，所述供热系统动态模型是通过以下方式得到的：对供热系统的历史运行数据进行处理得到训练数据特征集；使用深度神经网络模型基于所述训练数据特征集进行模型训练，得到所述供热系统动态模型。

可选地，所述训练数据特征集包括不同时刻供热系统一次侧和二次侧的特征对；所述供热系统动态模型在结构上包括一次侧部分和二次侧部分，且所述二次侧部分是基于所述一次侧部分进行构建的；所述供热系统动态模型的损失函数，根据所述一次侧部分的第一损失函数和所述二次侧部分的第二损失函数来确定。。

可选地，对供热系统的历史运行数据进行处理得到训练数据特征集，包括：对供热系统的历史运行数据进行数据清洗；基于供热系统一次侧与二次侧的实际调控机理，对清洗后的历史运行数据进行特征提取得到训练数据特征集。

可选地，使用深度神经网络模型基于所述训练数据特征集进行模型训练，得到所述供热系统动态模型，包括：在供热系统一次侧，使用深度神经网络模型对所述一次侧的特征对进行学习，得到所述供热系统动态模型的一次侧部分；在供热系统二次侧，将所述二次侧的特征对和所述一次侧部分的输出进行特征维度的拼接，使用深度神经网络模型对拼接后的特征对进行学习，得到二次侧部分；由所述一次侧部分和所述二次侧部分构成供热系统动态模型。

可选地，所述供热系统的调控目标包括：各个换热站的目标负荷、用户侧的目标室温和调控动作特征的波动程度；所述奖励函数是通过以下方式建立的：基于各个换热站的目标负荷建立第一代价函数；基于用户侧的目标室温建立第二代价函数；基于调控动作特征的波动程度建立第三代价函数；根据所述第一代价函数、所述第二代价函数和所述第三代价函数建立奖励函数，所述奖励函数与所述第一代价函数、所述第二代价函数和所述第三代价函数负相关。

可选地，将当前时刻供热系统的状态特征输入至所述供热系统调控模型以得到当前时刻的动作特征，包括：将当前时刻供热系统的状态特征输入至所述供热系统调控模型，得到指定个数时刻的动作特征序列；将所述动作特征序列中的第一个动作特征作为当前时刻的动作特征。

可选地，将当前时刻供热系统的状态特征输入至所述供热系统调控模型以得到当前时刻的动作特征，包括：以供热系统当前时刻的状态特征为起点，采用随机采样的方法生成不少于一个独立的动作特征序列，其中每个动作特征序列的长度与指定的时刻个数相同；对于每个动作特征序列，基于所述供热系统动态模型，根据所述动作特征序列中每一时刻的动作特征，依次预测每一时刻的状态特征；根据所述每一时刻的状态特征计算所述动作特征序列中每一时刻的奖励函数；利用所述动作特征序列中每一时刻的奖励函数计算所述动作特征序列中每一时刻对应的奖励值，并求和得到所述动作特征序列对应的累计奖励值；基于每个动作特征序列的累计奖励值，和每个动作特征序列中每一时刻的动作特征得到最优动作特征序列；将所述最优动作特征序列中的第一个动作特征作为当前时刻的动作特征。。

根据本发明实施例的另一方面，提供了一种供热系统优化调控的装置，包括：

调控模型训练模块，用于基于供热系统动态模型和建立的奖励函数，利用模型预测控制框架构建供热系统调控模型，所述奖励函数是根据供热系统的调控目标建立的，所述供热系统动态模型是基于训练数据特征集进行模型训练得到的，且所述训练数据特征集包括不同时刻供热系统的特征对，所述特征对由状态特征和动作特征构成；动作特征计算模块，用于将当前时刻供热系统的状态特征输入至所述供热系统调控模型以得到当前时刻的动作特征，并根据所述当前时刻的动作特征对供热系统进行调控。

根据本发明实施例的又一方面，提供了一种供热系统优化调控的电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例所提供的供热系统优化调控的方法。

根据本发明实施例的再一方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例所提供的供热系统优化调控的方法。

上述发明中的一个实施例具有如下优点或有益效果：通过基于供热系统动态模型和建立的奖励函数，利用模型预测控制框架构建供热系统调控模型，奖励函数是根据供热系统的调控目标建立的，供热系统动态模型是基于训练数据特征集进行模型训练得到的，且训练数据特征集包括不同时刻供热系统的特征对，特征对由状态特征和动作特征构成；将当前时刻供热系统的状态特征输入至供热系统调控模型以得到当前时刻的动作特征，并根据当前时刻的动作特征对供热系统进行调控的技术方案，可以减少控制过程对专业知识的依赖，增强控制方法在供热系统中应用的通用性；充分利用供热系统的数据特征，依据供热系统各环节上下游衔接的特点进行神经网络模型的结构设计，降低建模难度，考虑供热系统的整体协同并提升动态模型预测的准确度；基于系统动态模型进行控制策略的寻优，获得的控制策略充分考虑供热系统全网的协同与站点之间的耦合性，实现端到端联动的一体化调控策略，利于热能有效利用率的提高，且可应用于碳中和。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的供热系统优化调控的方法的主要步骤示意图；

图2是本发明实施例的供热系统动态模型构建过程示意图；

图3是本发明实施例的供热系统优化调控的整体流程示意图；

图4是根据本发明实施例的供热系统优化调控的装置的主要模块示意图；

图5是本发明实施例可以应用于其中的示例性系统架构图；

图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

集中供热系统是城市中或部分区域生产、采暖和生活所需热量的主要供给方式，其通过热源厂(一般为热电联产机组或区域锅炉房)产生满足供热条件的高温热水，并经由一次管网传输至各个供热区域的换热站。从某一换热站到其所覆盖的各个热用户之间的管网为二次管网。在各个换热站中，一次网与二次网进行热量交换，换热后的一次侧供水会重新返回热源进行加热，而获得热量的二次侧供水会经由二次网向各个热用户进行供热。

在供热系统实际运行过程中，由于气象等因素的影响，热用户所需的热量会随着室外温度的变化而产生变化，于是对各个换热站的负荷需求产生影响，并最终影响热源的负荷生产需求。所以需要对供热系统的运行策略(如供水流量、温度的调节等)进行合理的调节控制，以避免热量供应过剩所造成的能源浪费和供热不足导致的用户体验不佳等问题。通过对供热系统实施精细化的调控，可保证热源安全稳定运行，使热源的热量供应与热用户的热量需求相适应，减少供热管网中的热量损耗，实现供热系统的优化运行、节能降耗。

集中供热系统通常结构复杂、换热站点数量众多，热网中热量传输具有大滞后性，各站点之间存在强耦合的特点。实现供热系统全链各环节的协同调节控制存在着很大的困难。随着工业物联网的产业化升级，传统的供热行业亟需智能化转型，探索人工智能、大数据分析等技术在供热系统综合控制中的应用，推动供热系统的实时智能调控，最终实现节能降耗、提升效率的目标。

据此，本发明提供了一种供热系统优化调控的方法，解决了以下技术问题：

1、减少控制过程对专业知识的依赖，增强控制方法在供热系统中应用的通用性；

2、充分利用供热系统的历史运行数据的数据特征，依据供热系统各环节上下游衔接的特点进行神经网络模型的结构设计，降低建模难度，考虑供热系统的整体协同并提升动态模型预测的准确度；

3、采用模型预测控制的方法，基于系统动态模型进行控制策略的寻优，获得的控制策略充分考虑供热系统全网的协同与站点之间的耦合性，实现端到端联动的一体化调控策略。

在实际供热系统中，一个热源会覆盖连接多个换热站，每个换热站对各自覆盖的区域进行供热，各个换热站相互影响，站点之间存在强耦合性。在本发明的实施例中，基于一个热源覆盖N个换热站的系统结构进行描述(N为大于或等于1的整数)。

图1是根据本发明实施例的供热系统优化调控的方法的主要步骤示意图。如图1所示，本发明实施例的供热系统优化调控的方法主要包括如下的步骤S101至步骤S102。

步骤S101：基于供热系统动态模型和建立的奖励函数，利用模型预测控制框架构建供热系统调控模型，所述奖励函数是根据供热系统的调控目标建立的，所述供热系统动态模型是基于训练数据特征集进行模型训练得到的，且所述训练数据特征集包括不同时刻供热系统的特征对，所述特征对由状态特征和动作特征构成。

根据本发明的一个实施例，所述供热系统动态模型是通过以下方式得到的：对供热系统的历史运行数据进行处理得到训练数据特征集；使用深度神经网络模型基于所述训练数据特征集进行模型训练，得到所述供热系统动态模型。

根据本发明的其中一个实施例，在对供热系统的历史运行数据进行处理得到训练数据特征集时，具体可以包括：对供热系统的历史运行数据进行数据清洗；基于供热系统一次侧与二次侧的实际调控机理，对清洗后的历史运行数据进行特征提取得到训练数据特征集。

从供热系统中收集所能收集到的包含热源、热网、换热站、热用户等在内的供热系统运行控制相关的历史运行数据，例如是热源、热网、换热站、热用户各环节运行过程中传感器所收集的相关数据。对收集的原始历史运行数据进行清洗，检测并去除离群样本，填补空缺数据并平滑数据噪声。由于获取的原始历史运行数据中可能包含大量的缺失值、噪音、异常点等，为提高数据质量，需要进行数据清洗，其步骤主要包括：数据分析，异常值处理，缺失值处理，噪音数据处理等。异常值也通常被称为“离群点”，发现离群样本的方法有：简单的统计分析，3σ原则，箱型图分析，基于聚类等；数据缺失的出现可能是由于某些传感器失灵或数据传输错误导致的数据丢失，缺失值处理的方法主要有使用平均值填充、K近邻法填充等；数据中的噪声指的是数据中出现的随机错误或偏差，处理的方法一般有人工检查、统计模型、分箱处理等。

在对原始的历史运行数据进行数据清洗之后，基于供热系统一次侧(包含热源、一次网)与二次侧(包含换热站、二次网、热用户等)的实际调控机理，挑选后续系统动态建模所需的特征，包括供热系统的状态特征与动作特征。此处，本发明将供热系统各环节构成一个上下游衔接的供热系统，作为供热系统运行调控系统的基础。

其中，供热系统的状态特征反映了供热系统运行中各环节状态指标的情况，主要包含了一次侧相关状态特征与二次侧相关状态特征。一次侧(包含热源、一次网)状态特征主要包括：热源负荷、一次网供水温度、一次网回水温度、一次网供水流量、一次网回水流量、一次网供水压力、一次网回水压力、各换热站的供热负荷；二次侧(包含所有换热站及其二次网部分)状态特征主要包括：二次网供水温度、二次网回水温度、二次网供水流量、二次网回水流量、二次网供水压力、二次网回水压力、用户侧相关室外气候特征(室外温度、室外湿度、风向、风速、光照、天气等)与室内特征(当前时刻的室温、湿度等)。

供热系统的动作特征为供热系统中可进行操作、用以调节供水情况的相关阀门等控制量，主要包含了一次侧可调节的动作特征与二次侧可调节的动作特征。其中一次侧相关动作特征为各一次侧电调阀开度，二次侧相关动作特征为各二次侧供水阀门开度。

通过对历史运行数据进行处理，包括：删除数据异常特征点、删除数据稀疏特征点、数据填充等，然后抽取供热系统的状态特征和动作特征，形成供热系统的训练数据特征集。在训练数据特征集中，数据按时间顺序排列，每两条相邻数据之间具有相同的时间间隔(一般为20秒)，每一条数据中包含当前时刻下供热系统的状态特征s与动作特征α的数值。

在对供热系统的历史运行数据进行处理得到训练数据特征集之后，将使用深度神经网络模型对所述训练数据特征集进行学习以进行模型训练，得到供热系统动态模型。在本发明的实施例中，训练数据特征集包括不同时刻供热系统一次侧和二次侧的特征对；供热系统动态模型在结构上包括一次侧部分和二次侧部分，且所述二次侧部分是基于所述一次侧部分进行构建的；所述供热系统动态模型的损失函数，根据所述一次侧部分的第一损失函数和所述二次侧部分的第二损失函数来确定。基于前述实施例中得到的训练数据特征集，使用深度神经网络模型进行供热系统动态模型的构建与训练。这里使用长短期记忆网络(LSTM)进行动态模型的构建，以考虑系统中热水传输热量的滞后性。同时，考虑热源、换热站、热用户间的协同运行，针对供热系统各环节构建一个上下游衔接的供热系统动态模型，充分考虑了供热系统的整体协同与换热站之间的耦合特性。该模型表示供热系统当前状态特征在动作特征的作用下，下一时刻系统状态特征的转移变化情况。

根据本发明的其中一个实施例，使用深度神经网络模型基于所述训练数据特征集进行模型训练，得到供热系统动态模型，具体可以包括：在供热系统一次侧，使用深度神经网络模型对所述一次侧的特征对进行学习，得到所述供热系统动态模型的一次侧部分；在供热系统二次侧，将所述二次侧的特征对和所述一次侧部分的输出进行特征维度的拼接，使用深度神经网络模型对拼接后的特征对进行学习，得到二次侧部分；由所述一次侧部分和所述二次侧部分构成供热系统动态模型。

图2是本发明实施例的供热系统动态模型构建过程示意图。图中将换热站的数量N设定为3并进行具体的结构展示，在实际应用中，N的取值为大于或等于1的整数。如图2所示，从模型整体来看，模型的输入为供热系统过去t个时刻的状态-动作特征对{(s₁，a₁)，(s₂，a₂)，...，(s_t，a_t)}，输出为供热系统在下一时刻(t+1时刻)的状态特征s_t+1，即该动态模型可表示为s_t+1＝f_m((s，a)_1～t)。为考虑供热系统的整体协同与换热站之间的耦合特性，本发明对动态模型结构进行了特别设计，以换热站为界，将一次侧与二次侧的动态变化进行分隔，同时一次侧的动态变化会影响二次侧的动态变化。以下针对动态模型的一次侧部分与二次侧部分分别进行描述：

(1)在动态模型一次侧部分，基于供热系统中热量传递的机制，模型顶部输入为一次侧的状态-动作特征对，即输入为供热系统一次侧过去t个时刻的状态-动作特征对{(s′₁，a′₁)，(s′₂，a′₂)，...，(s′_t，′_t)}，输入经过LSTM网络得到输出h′，h′经过多层全连接网络(FC)后输出在(t+1)时刻的一次侧状态特征s_t+1′。可选的，可令h′经过多层全连接网络(FC)后输出一次侧状态特征在(t+1)时刻相较于t时刻的变化值e′，则最终输出的在(t+1)时刻的一次侧状态特征s_t+1′＝s_t′+e′；

(2)在动态模型二次侧部分，基于热网中换热站的数量对二次侧部分的动态建模进行设计，图中将换热站的数量N设定为3以便绘图，实际中N的取值为大于或等于1的整数。这里以换热站1为例进行模型结构描述，其他换热站部分与换热站1类似。针对换热站1的二次侧部分，获取该换热站对应的二次侧的状态-动作特征对，即该换热站对应的二次侧过去t个时刻的状态-动作特征对{(s″₁，a″₁)，(s″₂，a″₂)，...，(s″_t，a″_t)}，将状态-动作特征对与一次侧LSTM网络输出的h′进行特征维度的拼接后输入LSTM网络，然后将LSTM网络输出经过多层全连接网络(FC)的处理后，获得该换热站对应的(t+1)时刻的二次侧状态特征s_t+1″。可选的，可令LSTM网络的输出在经过多层全连接网络(FC)后，输出该换热站对应的二次侧状态特征在(t+1)时刻相较于t时刻的变化值e″，则最终输出的该换热站对应的(t+1)时刻的二次侧状态特征s_t+1″＝s_t″+e″。

基于以上构建的动态模型与供热系统的训练数据特征集，可进行模型的训练学习。这里定义预测的一次侧状态特征与对应真实值之间的均方误差为loss*，预测的N个换热站的二次侧状态特征与对应真实值之间的均方误差分别为loss₁，loss₂…loss_N，定义模型训练的综合损失函数为：

对于系数α和β，可直接全部设置为1，也可以通过参数搜索得到最佳组合。基于离线数据集对以上模型进行训练，最终得到供热系统动态模型f_m。

根据前述介绍的内容即可得到供热系统动态模型，之后，将基于供热系统动态模型和建立的奖励函数，利用模型预测控制框架构建供热系统调控模型。在本发明的实施例中，使用模型预测控制框架(MPC)来构建供热系统调控模型，目标是基于训练得到的供热系统动态模型，通过最大化有限时域内的累积奖励，来寻找最优的供热系统调控策略

这里H为有限时域的长度，s_t，a_t分别t时刻下供热系统的状态特征与动作特征，r(s，a)表示奖励函数，策略π(s)表示从状态到动作的一个映射，A表示供热系统的动作空间，即前述供热系统的动作特征的集合。模型预测控制框架下构建供热系统调控模型，需要系统动态模型与奖励函数，在上一步骤中完成了供热系统动态模型的训练，以下主要进行奖励函数的定义。这里依据供热系统调控的优化目标，奖励函数的定义主要考虑需求热负荷的满足。

根据本发明的一个实施例，所述供热系统的调控目标包括：各个换热站的目标负荷、用户侧的目标室温和调控动作特征的波动程度；并且，所述奖励函数是通过以下方式建立的：基于各个换热站的目标负荷建立第一代价函数；基于用户侧的目标室温建立第二代价函数；基于调控动作特征的波动程度建立第三代价函数；根据所述第一代价函数、所述第二代价函数和所述第三代价函数建立奖励函数，所述奖励函数与所述第一代价函数、所述第二代价函数和所述第三代价函数负相关。

首先，要求系统调控策略能使得各个换热站的供热负荷能够尽可能接近对应的目标负荷，基于各个换热站的目标负荷定义第一代价函数为：

此处

为N个换热站各自的供热负荷代价函数，L_i为换热站i的供热负荷值，

为给定的换热站i的目标负荷值，g^l为给定常数，

为允许的供热负荷波动范围，

为常数，

其次，考虑用户侧的室温满足情况来定义第二代价函数如下：

此处

为N个换热站各自对应的用户侧室温代价函数，T_i为换热站i对应的用户侧平均室温值，

为给定的换热站i对应的用户侧平均目标室温值，g^t为给定常数，

为允许的平均室温波动范围，

为常数，

最后，定义调控动作特征的波动程度的第三代价函数为：

此处a_t-1，a_t分别表示(t-1)时刻和t时刻推荐的供热系统的动作特征，该第三代价函数用于控制调控动作特征的波动程度。

综上，综合的奖励函数定义如下：

此处，α，β，γ为给定的大于0的常数。基于供热系统动态模型与定义的奖励函数，利用有限时域模型预测控制框架构建供热系统调控模型如下：

s_t+1＝f_m(s_t，a_t)；

s₀＝s_init。

此处，f_m为供热系统动态模型，s₀＝s_init表示s₀为初始状态，该优化问题的解表示在满足供热系统动态模型的约束下，使得有限时域H内获得的累计奖励最大的策略。时域H指的是由时刻0至时刻(H-1)所构成的时刻集合。

步骤S102：将当前时刻供热系统的状态特征输入至所述供热系统调控模型以得到当前时刻的动作特征，并根据所述当前时刻的动作特征对供热系统进行调控。根据本发明的实施例，将当前时刻供热系统的状态特征输入至所述供热系统调控模型以得到当前时刻的动作特征，具体可以包括：将当前时刻供热系统的状态特征输入至所述供热系统调控模型，得到指定个数时刻的动作特征序列；将所述动作特征序列中的第一个动作特征作为当前时刻的动作特征。在进行供热系统的控制策略实时推荐时，在每一个时刻，通过求解构建的供热系统调控模型得到长度为H的最优控制动作特征序列

返回序列中的第一个动作

并执行，即为当前时刻推荐的供热系统最优控制的动作特征。

根据本发明的实施例，在将当前时刻供热系统的状态特征输入至所述供热系统调控模型以得到当前时刻的动作特征时，具体可以包括：

以供热系统当前时刻的状态特征为起点，采用随机采样的方法生成不少于一个独立的动作特征序列，其中每个动作特征序列的长度与指定的时刻个数相同；

对于每个动作特征序列，基于所述供热系统动态模型，根据所述动作特征序列中每一时刻的动作特征，依次预测每一时刻的状态特征；

根据所述每一时刻的状态特征计算所述动作特征序列中每一时刻的奖励函数；

利用所述动作特征序列中每一时刻的奖励函数计算所述动作特征序列中每一时刻对应的奖励值，并求和得到所述动作特征序列对应的累计奖励值；

基于每个动作特征序列的累计奖励值，和每个动作特征序列中每一时刻的动作特征得到最优动作特征序列；

将所述最优动作特征序列中的第一个动作特征作为当前时刻的动作特征。

想要直接求解构建的供热系统调控模型，得到问题的精确解是十分困难的，此处通过一种高效的免梯度的轨迹优化方法来进行优化动作特征序列的求解。具体的，在任一时刻，以供热系统当前的状态特征s为起点，采用随机采样的方法生成M条独立的随机动作特征序列{A₀...A_M}，M为大于0的整数，其中每一个动作特征序列

的长度为H，包含0时刻(当前时刻)到第(H-1)时刻中每一个时刻的动作特征值。然后基于供热系统动态模型，结合动作特征序列中每一时刻的动作特征，可按0到(H-1)时刻依次预测得到动作特征序列中每一时刻对应的状态特征，然后利用奖励函数计算得到动作特征序列中每一时刻对应的奖励值，进而求得每一条动作特征序列预测的累计奖励值

然后通过如下加权计算方式得到最优动作特征序列：

其中，

为动作特征序列A_i中第t时间步的动作，κ为权重因子，

为最优动作特征序列中第t时间步的动作特征。这样便得到了供热系统在当前状态s下的最优控制动作特征序列

并返回序列中第一个动作

作为当前的控制动作推荐量。根据控制动作推荐量去进行供热系统的控制，即使用推荐策略对供热系统进行优化控制。

图3是本发明实施例的供热系统优化调控的整体流程示意图。如图3所示，首先进行供热系统的历史运行数据的采集与处理得到供热系统训练数据特征集；然后基于深度神经网络模型和训练数据特征集构建并训练供热系统动态模型；之后，基于供热系统动态模型以及供热系统一次侧与二次侧的调控目标，构建供热系统调控模型；最后在运行阶段，针对供热系统实时的状态特征，基于供热系统调控模型进行系统控制策略的寻优，获得当前时刻下推荐的系统优化调控策略。

图4是根据本发明实施例的供热系统优化调控的装置的主要模块示意图。如图4所示，本发明实施例的供热系统优化调控的装置400主要包括调控模型训练模块401和动作特征计算模块402。

调控模型训练模块401，用于基于供热系统动态模型和建立的奖励函数，利用模型预测控制框架构建供热系统调控模型，所述奖励函数是根据供热系统的调控目标建立的，所述供热系统动态模型是基于训练数据特征集进行模型训练得到的，且所述训练数据特征集包括不同时刻供热系统的特征对，所述特征对由状态特征和动作特征构成；

动作特征计算模块402，用于将当前时刻供热系统的状态特征输入至所述供热系统调控模型以得到当前时刻的动作特征，并根据所述当前时刻的动作特征对供热系统进行调控。

根据本发明的一个实施例，供热系统优化调控的装置400还可以包括供热系统动态模型训练模块(图中未示出)，用于通过以下方式训练得到所述供热系统动态模型：对供热系统的历史运行数据进行处理得到训练数据特征集；使用深度神经网络模型基于所述训练数据特征集进行模型训练，得到所述供热系统动态模型。

根据本发明的一个实施例，所述训练数据特征集包括不同时刻供热系统一次侧和二次侧的特征对；所述供热系统动态模型在结构上包括一次侧部分和二次侧部分，且所述二次侧部分是基于所述一次侧部分进行构建的；所述供热系统动态模型的损失函数，根据所述一次侧部分的第一损失函数和所述二次侧部分的第二损失函数来确定。

根据本发明的另一个实施例，供热系统动态模型训练模块(图中未示出)还可以用于：对供热系统的历史运行数据进行数据清洗；基于供热系统一次侧与二次侧的实际调控机理，对清洗后的历史运行数据进行特征提取得到训练数据特征集。

根据本发明的又一个实施例，供热系统动态模型训练模块(图中未示出)还可以用于：在供热系统一次侧，使用深度神经网络模型对所述一次侧的特征对进行学习，得到所述供热系统动态模型的一次侧部分；在供热系统二次侧，将所述二次侧的特征对和所述一次侧部分的输出进行特征维度的拼接，使用深度神经网络模型对拼接后的特征对进行学习，得到二次侧部分；由所述一次侧部分和所述二次侧部分构成供热系统动态模型。

根据本发明的又一个实施例，所述供热系统的调控目标包括：各个换热站的目标负荷、用户侧的目标室温和调控动作特征的波动程度；所述奖励函数是通过以下方式建立的：基于各个换热站的目标负荷建立第一代价函数；基于用户侧的目标室温建立第二代价函数；基于调控动作特征的波动程度建立第三代价函数；根据所述第一代价函数、所述第二代价函数和所述第三代价函数建立奖励函数，所述奖励函数与所述第一代价函数、所述第二代价函数和所述第三代价函数负相关。

根据本发明的又一个实施例，动作特征计算模块404还可以用于：将当前时刻供热系统的状态特征输入至所述供热系统调控模型，得到指定个数时刻的动作特征序列；将所述动作特征序列中的第一个动作特征作为当前时刻的动作特征。

根据本发明的又一个实施例，动作特征计算模块404还可以用于：以供热系统当前时刻的状态特征为起点，采用随机采样的方法生成不少于一个独立的动作特征序列，其中每个动作特征序列的长度与指定的时刻个数相同；对于每个动作特征序列，基于所述供热系统动态模型，根据所述动作特征序列中每一时刻的动作特征，依次预测每一时刻的状态特征；根据所述每一时刻的状态特征计算所述动作特征序列中每一时刻的奖励函数；利用所述动作特征序列中每一时刻的奖励函数计算所述动作特征序列中每一时刻对应的奖励值，并求和得到所述动作特征序列对应的累计奖励值；基于每个动作特征序列的累计奖励值，和每个动作特征序列中每一时刻的动作特征得到最优动作特征序列；将所述最优动作特征序列中的第一个动作特征作为当前时刻的动作特征。

根据本发明实施例的技术方案，通过基于供热系统动态模型和建立的奖励函数，利用模型预测控制框架构建供热系统调控模型，奖励函数是根据供热系统的调控目标建立的，供热系统动态模型是基于训练数据特征集进行模型训练得到的，且训练数据特征集包括不同时刻供热系统的特征对，特征对由状态特征和动作特征构成；将当前时刻供热系统的状态特征输入至供热系统调控模型以得到当前时刻的动作特征，并根据当前时刻的动作特征对供热系统进行调控的技术方案，可以减少控制过程对专业知识的依赖，增强控制方法在供热系统中应用的通用性；充分利用供热系统的历史运行数据，依据供热系统各环节上下游衔接的特点进行神经网络模型的结构设计，降低建模难度，考虑供热系统的整体协同并提升动态模型预测的准确度；基于系统动态模型进行控制策略的寻优，获得的控制策略充分考虑供热系统全网的协同与站点之间的耦合性，实现端到端联动的一体化调控策略，利于热能有效利用率的提高，且可应用于碳中和。

图5示出了可以应用本发明实施例的供热系统优化调控的方法或供热系统优化调控的装置的示例性系统架构500。

如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用，例如数据采集类应用、数据处理应用、数据清洗应用、模型训练软件等(仅为示例)。

终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所浏览的模型训练网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的供热系统优化调控请求等数据进行基于供热系统动态模型和建立的奖励函数，利用模型预测控制框架构建供热系统调控模型，所述奖励函数是根据供热系统的调控目标建立的，所述供热系统动态模型是基于训练数据特征集进行模型训练得到的，且所述训练数据特征集包括不同时刻供热系统的特征对，所述特征对由状态特征和动作特征构成；将当前时刻供热系统的状态特征输入至所述供热系统调控模型以得到当前时刻的动作特征，并根据所述当前时刻的动作特征对供热系统进行调控等处理，并将处理结果(例如当前时刻的动作特征、调控结果--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的供热系统优化调控的方法一般由服务器505执行，相应地，供热系统优化调控的装置一般设置于服务器505中。

应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图6，其示出了适于用来实现本发明实施例的终端设备或服务器的计算机系统600的结构示意图。图6示出的终端设备或服务器仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括调控模型训练模块和动作特征计算模块。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，动作特征计算模块还可以被描述为“用于将当前时刻供热系统的状态特征输入至所述供热系统调控模型以得到当前时刻的动作特征，并根据所述当前时刻的动作特征对供热系统进行调控的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：基于供热系统动态模型和建立的奖励函数，利用模型预测控制框架构建供热系统调控模型，所述奖励函数是根据供热系统的调控目标建立的，所述供热系统动态模型是基于训练数据特征集进行模型训练得到的，且所述训练数据特征集包括不同时刻供热系统的特征对，所述特征对由状态特征和动作特征构成；将当前时刻供热系统的状态特征输入至所述供热系统调控模型以得到当前时刻的动作特征，并根据所述当前时刻的动作特征对供热系统进行调控。

根据本发明实施例的技术方案，通过基于供热系统动态模型和建立的奖励函数，利用模型预测控制框架构建供热系统调控模型，奖励函数是根据供热系统的调控目标建立的，供热系统动态模型是基于训练数据特征集进行模型训练得到的，且训练数据特征集包括不同时刻供热系统的特征对，特征对由状态特征和动作特征构成；将当前时刻供热系统的状态特征输入至供热系统调控模型以得到当前时刻的动作特征，并根据当前时刻的动作特征对供热系统进行调控的技术方案，可以减少控制过程对专业知识的依赖，增强控制方法在供热系统中应用的通用性；充分利用供热系统的数据特征，依据供热系统各环节上下游衔接的特点进行神经网络模型的结构设计，降低建模难度，考虑供热系统的整体协同并提升动态模型预测的准确度；基于系统动态模型进行控制策略的寻优，获得的控制策略充分考虑供热系统全网的协同与站点之间的耦合性，实现端到端联动的一体化调控策略，利于热能有效利用率的提高，且可应用于碳中和。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种供热系统优化调控的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述供热系统动态模型是通过以下方式得到的：

对供热系统的历史运行数据进行处理得到训练数据特征集；

使用深度神经网络模型基于所述训练数据特征集进行模型训练，得到所述供热系统动态模型。

3.根据权利要求1或2所述的方法，其特征在于，所述训练数据特征集包括不同时刻供热系统一次侧和二次侧的特征对；

所述供热系统动态模型在结构上包括一次侧部分和二次侧部分，且所述二次侧部分是基于所述一次侧部分进行构建的；

所述供热系统动态模型的损失函数，根据所述一次侧部分的第一损失函数和所述二次侧部分的第二损失函数来确定。

4.根据权利要求3所述的方法，其特征在于，对供热系统的历史运行数据进行处理得到训练数据特征集，包括：

对供热系统的历史运行数据进行数据清洗；

基于供热系统一次侧与二次侧的实际调控机理，对清洗后的历史运行数据进行特征提取得到训练数据特征集。

5.根据权利要求3所述的方法，其特征在于，使用深度神经网络模型基于所述训练数据特征集进行模型训练，得到所述供热系统动态模型，包括：

在供热系统一次侧，使用深度神经网络模型对所述一次侧的特征对进行学习，得到所述供热系统动态模型的一次侧部分；

在供热系统二次侧，将所述二次侧的特征对和所述一次侧部分的输出进行特征维度的拼接，使用深度神经网络模型对拼接后的特征对进行学习，得到二次侧部分；

由所述一次侧部分和所述二次侧部分构成供热系统动态模型。

6.根据权利要求1所述的方法，其特征在于，所述供热系统的调控目标包括：各个换热站的目标负荷、用户侧的目标室温和调控动作特征的波动程度；

所述奖励函数是通过以下方式建立的：

基于各个换热站的目标负荷建立第一代价函数；

基于用户侧的目标室温建立第二代价函数；

基于调控动作特征的波动程度建立第三代价函数；

根据所述第一代价函数、所述第二代价函数和所述第三代价函数建立奖励函数，所述奖励函数与所述第一代价函数、所述第二代价函数和所述第三代价函数负相关。

7.根据权利要求1所述的方法，其特征在于，将当前时刻供热系统的状态特征输入至所述供热系统调控模型以得到当前时刻的动作特征，包括：

将当前时刻供热系统的状态特征输入至所述供热系统调控模型，得到指定个数时刻的动作特征序列；

将所述动作特征序列中的第一个动作特征作为当前时刻的动作特征。

8.根据权利要求1或7所述的方法，其特征在于，将当前时刻供热系统的状态特征输入至所述供热系统调控模型以得到当前时刻的动作特征，包括：

9.一种供热系统优化调控的装置，其特征在于，包括：

调控模型训练模块，用于基于供热系统动态模型和建立的奖励函数，利用模型预测控制框架构建供热系统调控模型，所述奖励函数是根据供热系统的调控目标建立的，所述供热系统动态模型是基于训练数据特征集进行模型训练得到的，且所述训练数据特征集包括不同时刻供热系统的特征对，所述特征对由状态特征和动作特征构成；

动作特征计算模块，用于将当前时刻供热系统的状态特征输入至所述供热系统调控模型以得到当前时刻的动作特征，并根据所述当前时刻的动作特征对供热系统进行调控。

10.一种供热系统优化调控的电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。