CN111609534B

CN111609534B - 温度控制方法、装置及中央温度控制系统

Info

Publication number: CN111609534B
Application number: CN202010451625.5A
Authority: CN
Inventors: 代宝; 程建军; 易红艳
Original assignee: Ningbo Aux Electric Co Ltd; Zhuhai Tuoxin Technology Co Ltd
Current assignee: Ningbo Aux Electric Co Ltd
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2022-02-25
Anticipated expiration: 2040-05-25
Also published as: CN111609534A

Abstract

本发明实施例提供了一种温度控制方法、装置及中央温度控制系统，涉及温度控制技术领域。其中，上述温度控制方法包括将获得的实时环境数据输入估计网络模型；基于估计网络模型所对应的贪心概率，采用贪心策略从多个学习动作值中选出优选学习动作值；利用优选学习动作值所对应的控制输入量，控制中央温度控制系统进行温度调节。如此，减少不断尝试不同控制输入量所带来的能耗成本和避免产生温度波动。此外，能够确保使用不同精度的估计网络模型都能够最大可能的获得最优的控制输入量，提高中央温度控制系统提供的温度服务质量和用户的使用体验。兼顾节约能效和舒适控温的优点。

Description

温度控制方法、装置及中央温度控制系统

技术领域

本发明涉及温度控制技术领域，具体而言，涉及一种温度控制方法、装置及中央温度控制系统。

背景技术

中央型温度控制系统是一种控制集中、可为多个独立空间提供温度控制服务的系统。比如，地暖系统、中央空调等。目前控制中央型温度控制系统为所有空间提供温度控制服务，主要基于用户设置的控制参数。而用户配置的控制参数往往不能使中央型温度控制系统提供优质服务，还需用户盲目地常识改变控制参数以探索较佳的控制参数。这一过程不仅耗时耗能，还会造成温度波动，影响用户的使用体验。

发明内容

为解决如何兼顾得到最优控制输入量及避免尝试配置控制参数的成本的问题，本发明实施例提供了一种温度控制方法、装置及中央温度控制系统。

第一方面，本发明实施例提供一种温度控制方法，应用于中央温度控制系统，所述中央温度控制系统内存储有训练得到的估计网络模型；所述温度控制方法包括：将获得的实时环境数据输入所述估计网络模型，以的得到多个学习动作值；其中，一个所述学习动作值对应一个用于调节温度的控制输入量；基于所述估计网络模型所对应的贪心概率，采用贪心策略从所述多个学习动作值中选出优选学习动作值；其中，所述贪心概率与所述估计网络模型的迭代次数呈反比；利用所述优选学习动作值所对应的控制输入量，控制所述中央温度控制系统进行温度调节。本方案利用估计网络模型评估在当前的实时环境数据下不同控制输入量所对应的学习动作值，学习动作值一定程度上可以表征控制输入量的优质程度。然后，利用与估计网络模型的迭代次数呈反比的贪心概率，寻找最终用于控制中央温度控制系统的控制输入量。如此，减少不断尝试不同控制输入量所带来的能耗成本和避免影响温度的波动。并且能够确保使用不同精度的估计网络模型都能够最大可能的获得最优的控制输入量，提高中央温度控制系统提供的温度服务质量和用户的使用体验。

在可选的实施方式中，所述中央温度控制系统中预先存储有初始估计模型和初始目标模型；所述温度控制方法还包括：获取所述中央温度控制系统的历史温度调节数据及对应的历史环境数据；根据所述历史温度调节数据及对应的历史环境数据生成多个样本数据；其中，所述样本数据包括第一环境参数、样本控制输入量、第二环境参数及控制奖励值；所述控制奖励值用于表征样本执行过程的能耗成本及温度控制效果；所述样本执行过程为所述中央温度控制系统执行所述样本控制输入量将实时环境数据从所述第一环境参数调节至所述第二环境参数的过程；利用所述样本数据，结合初始目标模型，对所述初始估计模型进行训练，得到所述估计网络模型，并存储。从而得到能够从能耗成本及温度控制效果等角度评估控制输入量的估计网络模型。

在可选的实施方式中，所述利用所述样本数据，结合初始目标模型，对所述初始估计模型进行训练的步骤包括：将所述第一环境参数输入所述初始估计模型，以得到所述样本控制输入量所对应的估计动作值；将所述第二环境参数输入所述初始目标模型，以得到多个中间动作值；根据最大的所述中间动作值及所述控制奖励值，计算目标动作值；根据所述估计动作值与所述目标动作值之间的差异对所述初始估计模型的模型参数进行迭代，以得到所述估计网络模型。

在可选的实施方式中，所述利用所述样本数据，结合初始目标模型，对所述初始估计模型进行训练的步骤还包括：根据迭代后所述初始估计模型的模型参数，更新所述初始目标模型的模型参数。如此，有助于提高训练估计网络模型的准确性。

在可选的实施方式中，所述控制奖励值的生成方式包括：从所述历史温度调节数据中获取所述样本执行过程产生的所述能耗成本；从所述第二环境参数中获取所述中央温度控制系统所服务的每一个空间的实际室内温度；根据所述能耗成本、实际室内温度及预设的舒适温度区间，利用公式：

计算所述控制奖励值；其中，r代表所述控制奖励值；cost(a_t,s_t,s_t+1)代表所述能耗成本，z代表所述中央温度控制系统所服务的空间总数；

代表第i个空间的实际室内温度；

代表第i个空间所对应的舒适温度区间的上限值；

代表第i个空间所对应的舒适温度区间的下限值，λ代表预设的温度控制惩罚系数。使训练得到的模型对控制输入量的评估能够充分考虑到用电成本及所有空间的温度调节效果，避免选择能耗成本高或者大部分空间温度调节效果差的控制输入量。

在可选的实施方式中，在对所述初始估计模型进行训练之前，所述温度控制方法还包括：结合所述历史环境数据，分别对所述第一环境参数和所述第二环境参数进行放缩处理。如此，便于提高模型训练速度。

在可选的实施方式中，结合所述历史环境数据，对所述第一环境参数进行放缩处理的步骤包括：根据所述第一环境参数及所述历史环境数据，利用公式：

计算放缩处理后的所述第一环境参数；其中，所述s′₁代表放缩处理后的所述第一环境参数；s₁代表放缩处理前的所述第一环境参数；s_min代表所述历史环境数据中的最小值；s_max代表所述历史环境数据中的最大值。

在可选的实施方式中，所述第一环境参数包括室内温度、室外温度及阳光辐射量；结合所述历史环境数据，对所述第一环境参数进行放缩处理的步骤包括：结合所述历史环境数据，分别对所述第一环境参数对应的所述室内温度、所述室外温度及所述阳光辐射量进行放缩处理。充分考虑到多类影响温度调节效果的因素。

在可选的实施方式中，所述中央温度控制系统包括中央空调和地暖设备之一或之间的组合；所述估计网络模型包括空调估计网络模型和地暖估计网络模型；所述将获得的实时环境数据输入所述估计网络模型包括：当启用所述中央空调时，将所述实时环境数据输入所述空调估计网络模型；当启用所述地暖设备时，将所述实时环境数据输入所述地暖估计网络模型。实现中央空调和地暖设备的两联供。

在可选的实施方式中，所述温度控制方法还包括：当所述估计网络模型的迭代次数增加指定数量时，下调所述贪心概率，直至所述贪心概率达到预设的最低阈值。

第二方面，本发明实施例提供一种温度控制装置，应用于中央温度控制系统，所述中央温度控制系统内存储有训练得到的估计网络模型；所述温度控制装置包括：处理模块，用于将获得的实时环境数据输入所述估计网络模型，以的得到多个学习动作值；其中，一所述学习动作值对应一用于调节温度的控制输入量；选择模块，用于基于所述估计网络模型所对应的贪心概率，采用贪心策略从所述多个学习动作值中选出优选学习动作值；其中，所述贪心概率与所述估计网络模型的迭代次数呈反比；控制模块，用于利用所述优选学习动作值所对应的控制输入量，控制所述中央温度控制系统进行温度调节。

在可选的实施方式中，所述中央温度控制系统中预先存储有初始估计模型和初始目标模型；所述温度控制装置还包括：获取模块，用于获取所述中央温度控制系统的历史温度调节数据及对应的历史环境数据；生成模块，用于根据所述历史温度调节数据及对应的历史环境数据生成多个样本数据；其中，所述样本数据包括第一环境参数、样本控制输入量、第二环境参数及控制奖励值；所述控制奖励值用于表征样本执行过程的能耗成本及温度控制效果；所述样本执行过程为所述中央温度控制系统执行所述样本控制输入量将实时环境数据从所述第一环境参数调节至所述第二环境参数的过程；训练模块，用于利用所述样本数据，结合初始目标模型，对所述初始估计模型进行训练，得到所述估计网络模型，并存储。

第三方面，本发明实施例提供一种中央温度控制系统，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器可执行所述机器可执行指令以实现前述实施方式任一所述的方法。

在可选的实施方式中，所述中央温度控制系统为中央空调和地暖设备之一或之间的组合。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述实施方式中任一项所述的方法。

附图说明

图1为本发明实施例中提供的一种中央温度控制系统的示意图；

图2为本发明实施例中提供的一种温度控制方法的步骤流程图之一；

图3为本发明实施例中提供的一种温度控制方法的步骤流程图之二；

图4为图3中步骤S203的子步骤流程图之一；

图5为图3中步骤S203的子步骤流程图之二；

图6为本发明实施例中提供的一种温度控制装置的示意图。

附图标记说明：

1-中央温度控制系统；2-存储器；3-处理器；4-中央空调；5-地暖设备；6-温度控制装置；7-处理模块；8-选择模块；9-控制模块。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

本发明实施例提供了一种中央温度控制系统。上述中央温度控制系统可以实现对建筑物内多个空间提供温度控制服务。

在一些实施例中，上述中央温度控制系统可以是中央空调，通过控制室内机的空气流量和出风温度调节所服务的多个空间(或者说室内)的温度。

在一些实施例中，上述中央温度控制系统可以是地暖设备，通过控制水泵流量和出水温度调节所服务的多个空间的温度。

在一些实施例中，上述中央温度控制系统还可以是实现中央空调和地暖设备双联供的控制系统。需要说明的是，两联供的中央温度控制系统是典型非线性、多输入多输出系统，传统的经典控制策略例如采用继电器通断、PID控制，以其低控制成本被广泛使用，但是这些策略并不能发挥较好的性能，而且在控温度舒适性和能源节约方面都存在较大的优化空间。考虑到建筑物温度受到许多因素影响，如：室外环境温度、太阳辐射强度，室内人员辐射热量、照明系统和发热设备都会产生影响，其热动力学模型和异构的环境是非常复杂，并且温度变化通常是一个时变的随机模型。传统控制策略很大程度上取决于一个优秀的控制模型，而两联供家居中央空调系统具有时变的热动力学模型，直接采用了单一温度判定或是模型控制策略，是不够智能、准确和高效的。

如图1所示，上述中央温度控制系统1包括存储器2、处理器3、中央空调4及地暖设备5。所述存储器2、处理器3、中央空调4及地暖设备5等各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中，存储器2用于存储程序或者数据，比如，训练前的初始估计模型和初始目标模型和训练后得到的估计网络模型。所述存储器2可以是，但不限于，随机存取存储器2(Random Access Memory，RAM)，只读存储器2(Read Only Memory，ROM)，可编程只读存储器2(Programmable Read-Only Memory，PROM)，可擦除只读存储器2(Erasable ProgrammableRead-Only Memory，EPROM)，电可擦除只读存储器2(Electric Erasable ProgrammableRead-Only Memory，EEPROM)等。

处理器3用于读/写存储器2中存储的数据或程序，并执行相应地功能，比如，调用存储器2内存储的估计网络模型进行数据处理或者对存储器2内的初始估计模型进行训练。

在其他实施例中，比如所应用的中央温度控制系统1为中央空调4，那么存储器2和处理器3可以集成于中央空调4内，也可以是属于独立于中央空调4的控制设备。

在其他实施例中，比如所应用的中央温度控制系统1为地暖设备5，那么上述存储器2和处理器3可以是集成于地暖设备5内，也可以是属于独立于地暖设备5的控制设备。

请参考图2，图2示出了本发明实施例所提供的一种温度控制方法的步骤流程图。如图2所示，上述温度控制方法可以包括：

步骤S101，将获得的实时环境数据输入估计网络模型，以的得到多个学习动作值。

上述实时环境数据可以包括影响温度调节效果的因素，比如，可以是室内温度、室外温度及阳光辐射量等之一或之间的组合。上述实时环境数据可以包括中央温度控制系统1所服务的所有空间的实时的环境数据。

上述估计网络模型可以是强化学习Q_learning模型。上述估计网络模型的输入量是实时环境数据，输出量包括多个学习动作值，又称Q值。上述多个学习动作值是用于表征在该实时环境数据下选择不同控制输入量的优劣情况。换句话说，一个控制输入量便对应着一个学习动作值。原则上说，学习动作值越高，其所对应的控制输入量对于当前场景下的中央温度控制系统1便是越优的选择。

上述控制输入量是作用于中央空调4或者地暖设备5的控制量，用于实现对空间的温度调节。比如，针对中央空调4的控制输入量可以是用于调整室内机空气流量和出风温度的控制参数。针对地暖设备5的控制输入量可以是用于调整水泵流量和出水温度的控制参数。上述控制输入量也可以理解为中央温度控制系统1可执行的控制动作，换句话说，所谓控制动作从实现控制的角度看便是控制输入量。

对于中央空调4而言，可选择实现的空气流量Y∈A，可选择实现的出风温度T_y∈A。上述A表示中央空调4可执行的所有控制动作集合。Y是一个离散遍历组合{y₁,y₂,y₃...y_m}，上述y₁,y₂,y₃...y_m均为可选择的空气流量。T_y也是一个离散遍历组合{T₁,T₂,T₃...T_n}，上述T₁,T₂,T₃...T_n均为可选择的出风温度。组合Y中一个元素和组合T_y中一个元素之间的组合便是一个控制动作，所有的控制动作可以标识为{a₁,a₂,a₃...a_t}，a_t∈A，t＝m*n。

对于地暖设备5而言，可选择实现的水泵流量P∈A，可选择实现的出水温度T_p∈A。上述A表示地暖设备5可执行的所有控制动作集合。P是一个离散遍历组合{p₁,p₂,p₃...p_m}，上述p₁,p₂,p₃...p_m均为可选择实现的水泵流量。T_p也是一个离散遍历组合{T₁,T₂,T₃...T_n}，上述T₁,T₂,T₃...T_n均为可选择实现的出水温度。组合P中一个元素和组合T_p中一个元素之间的组合便是一个控制动作，所有的控制动作可以标识为{a₁,a₂,a₃...a_t}，a_t∈A，t＝m*n。

在一些实施例中，可以将采集到的实时环境数据输入估计网络模型，即可从估计网络模型的输出侧获取到多个学习动作值。每个学习动作值均对应着一个控制输入量。

在另外一些实施例中，还可以对实时环境数据进行放缩处理后，再输入估计网络模型。上述放缩处理可以理解为将实时环境数据进行归一化处理。放缩处理过程中还需结合历史环境数据进行，比如，根据实时环境参数及历史环境数据，利用公式：

计算放缩处理后的实时环境数据。其中，上述s′₂代表放缩处理后的实时环境数据，s₂代表放缩处理前的实时环境数据，s_min代表所述历史环境数据中的最小值；s_max代表所述历史环境数据中的最大值。此处需要说明的是，在实时环境参数包括多类数据时，分别对每类数据进行放缩处理。

可以理解地，利用估计网络模型近似评估当前的实时环境数据下，中央温度控制系统1选择不同控制输入量的优劣。相对于逐一尝试执行各个控制输入量，节约大量尝试成本(时间成本及能耗成本)，也不会引起空间内温度剧烈波动。此外，增大寻找大最优的控制输入量的可能。另外，相较于传统Q表格而言，能够避免维数灾难和内存使用危机的发生。

此外，在一些实施例中，考虑到估计网络模型输出的学习动作值的数量是有限的，面对可选的控制输入量是一个非常大的状态空间，可以利用估计网络模型得到所有学习动作值，然后将学习动作值按照从大到小的顺序排列，将排列于指定名次之前的学习动作值从估计网络模型的输出侧输出。

如前所述，上述中央温度控制系统1包括中央空调4和地暖设备5之一或之间的组合。因此，在中央温度控制系统1为中央空调4和地暖设备5的双联供控制系统的场景下，与之对应的估计网络模型也包括空调估计网络模型和地暖估计网络模型。如此，在一些实施例中，上述步骤S101可以包括：

(1)当启用中央空调4时，将实时环境数据输入空调估计网络模型。

(2)当启用所述地暖设备5时，将实时环境数据输入地暖估计网络模型。

可以理解地，空调估计网络模型和地暖估计网络模型是针对不同应用设备训练得到的模型，二者的使用原理和搭建原理都是相同的。为了方便描述，接下来的描述中主要以针对中央空调4的空调估计网络模型进行说明。

步骤S102，基于估计网络模型所对应的贪心概率，采用贪心策略从多个学习动作值中选出优选学习动作值。

上述贪心概率是从多个学习动作值中随机选择一个作为优选学习动作值的概率值，其取值不小于0且不大于1。在估计网络模型训练初期贪心概率是一个较大的值，随着训练次数的增加(即，估计网络模型的精度增加，贪心概率的取值逐渐减小)。也即，贪心概率与估计网络模型的迭代次数呈反比。此外，不同训练阶段的估计网络模型所对应的贪心概率也不同。

上述贪心策略可以是在满足贪心概率的情况下，使用随机的方式选择优选学习动作值；在不满足贪心概率的情况下，将值最大的学习动作值确定为优选学习动作值。比如，所使用的估计网络模型的贪心概率为80％。那么，在80％的概率下，从估计网络模型输出的多个学习动作值中随机选择出一个优选学习动作值。在20％的概率下，将值最大的学习动作值确定为优选学习动作值。

可以理解地，在估计网络模型精度不够的情况下，其评估出学习动作值最大的控制输入量可能并不是最优的，此时，贪心概率取值较大，故，大概率通过基于可选的学习动作值采用随机的方式搜索实际最优的控制输入量，小概率将学习动作值最大的控制输入量确定为实际最优的控制输入量。反之，在估计网络模型精度足够高的情况下，此时，贪心概率取值较小，故，大概率将学习动作值最大的控制输入量确定为实际最优的控制输入量。

步骤S103，利用优选学习动作值所对应的控制输入量，控制中央温度控制系统1进行温度调节。

在本发明实施例中，将优选学习动作值所对应的控制输入量作为优选控制参数，并基于该优选控制参数调整中央温度控制系统1的运行状态，实现温度调节。

在一些实施例中，如果是从空调估计网络模型输出的学习动作值中选出的优选学习动作值，那么利用优选学习动作值所对应的控制输入量控制中央空调4。

在一些实施例中，如果是从地暖估计网络模型输出的学习动作值中选出的优选学习动作值，那么利用优选学习动作值所对应的控制输入量控制地暖设备5。

在一些实施例中，所使用的估计网络模型也可以是通过训练得到的。故，如图3所示，上述温度控制方法还可以包括步骤：

步骤S201，获取中央温度控制系统1的历史温度调节数据及对应的历史环境数据。

上述历史温度调节数据和历史环境数据均是中央温度控制系统1使用期间记录下的数据。二者之间存在对应关系。上述历史环境数据包括经由中央温度控制系统1调控前后的实时环境数据。上述实时环境数据可以包括中央温度控制系统1所服务的各个空间的环境数据。

上述历史温度调节数据包括中央温度控制系统1调控温度过程中所使用的控制输入量和产生的能耗成本。

在一些实施例中，中央温度控制系统1每一次温度控制都会记录控制前后的实时环境数据，也会对应的记录执行过程中所用的控制输入量、所产生的能耗成本等，以便生成历史温度调节数据及对应的历史环境数据。

步骤S202，根据历史温度调节数据及对应的历史环境数据生成多个样本数据。

上述样本数据包括第一环境参数、样本控制输入量、第二环境参数及控制奖励值。可以理解地，为了实现通过控制内机风量或水泵流速等，将每个房间温度维持在舒适的温度范围内，构建估计网络模型可以是利用马尔可夫决策的原理。故，利用温度调整前后的环境参数、温度调节所用的控制输入量及控制奖励值(即，环境扰动)作为样本数据。

上述第一环境参数和第二环境参数都是特定时刻下采集到的实时环境数据，上述第二环境参数可以相较于第一环境参数而言，是第一环境参数的下一时间点所对应的实时环境数据。第一环境参数和第二环境参数所包含的数据类别也包括室内温度、室外温度及阳光辐射量。

上述控制奖励值用于表征样本执行过程的能耗成本及温度控制效果。上述控制奖励值的生成方式包括：

(1)从历史温度调节数据中获取样本执行过程产生的能耗成本。

(2)从第二环境参数中获取中央温度控制系统1所服务的每一个空间的实际室内温度。

(3)根据能耗成本、实际室内温度及预设的舒适温度区间，利用公式：

计算控制奖励值；其中，r代表所述控制奖励值；cost(a_t,s_t,s_t+1)代表能耗成本，z代表中央温度控制系统1所服务的空间总数；

代表第i个空间的实际室内温度；

代表第i个空间所对应的舒适温度区间的上限值；

代表第i个空间所对应的舒适温度区间的下限值，λ代表预设的温度控制惩罚系数。

可以理解地，利用上述方式计算得到控制奖励值训练得到的模型，能够兼顾到所有空间的温度调控及能耗成本。

上述样本执行过程可以是指中央温度控制系统1执行样本控制输入量将实时环境数据从第一环境参数调节至第二环境参数的过程。

简单地说，通过对历史温度调节数据及对应的历史环境数据的解析，创建样本数据。同一样本数据所包含的第一环境参数、样本控制输入量、第二环境参数及控制奖励值之间存在关联，以使样本数据可以表征中央温度控制系统1执行样本控制输入量将实时环境数据从第一环境参数调节至第二环境参数的过程及所对应的控制奖励值。

在一些实施例中，可以根据使用中央空调4产生的历史温度调节数据及对应的历史环境数据，生成多个与中央空调4相关的样本数据。还可以根据使用地暖设备5产生的历史温度调节数据及对应的历史环境数据，生成多个与地暖设备5相关的样本数据。

步骤S203，利用样本数据，结合初始目标模型，对初始估计模型进行训练，得到估计网络模型，并存储。

上述初始目标模型可以是用于配合训练创建的网络模型。上述初始目标模型和初始估计模型的模型结构相同。

在一些实施例中，为了避免传统的激活函数产生梯度消失问题，上述初始目标模型和初始估计模型的隐藏层采用使用整流线性单元作为隐藏层的激活函数。比如，隐藏层的神经元中设置的激活函数表示为f＝max(0,wx+b)，w是权重，b是偏置，x代表该神经元的输入参数。

在一些实施例中，可以利用与中央空调4相关的样本数据，结合初始目标模型，对初始估计模型进行训练，得到空调估计网络模型，并进行存储。

在一些实施例中，可以利用与地暖设备5相关的样本数据，结合初始目标模型，对初始估计模型进行训练，得到地暖估计网络模型，并进行存储。

需要说明的是，上述两种估计网络模型的训练原理都相同，区别仅在于使用的样本数据不同，因此，为了方便在描述，下面介绍训练过程时不作区分说明。

此外，为了方便训练，在每轮训练过程中，可以从所有样本数据中获取一定数量的样本数据进行训练，实现小批量数据训练。

另外，在中央温度控制系统1运行过中还可以根据产生的新的样本数据对估计网络模型进行训练。

如此，通过不断加入新的数据训练神网络，这也使得神经网络具有在线学习的能力，通过不断调整更新网络从而达到最好的估计效果。

在一些实施例中，如图4所示，上述步骤S203可以包括以下子步骤：

子步骤S203-1，将第一环境参数输入初始估计模型，以得到样本控制输入量所对应的估计动作值。

可以理解地，上述第一环境参数输入初始估计模型，可以得到多个动作值，并从中获取与样本控制输入量所对应的估计动作值。

子步骤S203-2，将第二环境参数输入初始目标模型，以得到多个中间动作值。

子步骤S203-3，根据最大的中间动作值及控制奖励值，计算目标动作值。

在一些实施例中，可以根据最大的中间动作值及控制奖励值，利用公式：

计算目标动作值。其中，

代表目标动作值；r_t+1代表控制奖励值；β代表预设的整数常量，

代表最大的中间动作值，γ是预设的温度控制惩罚系数。

需要说明的是，控制奖励值相较于

而言，是一个较大的数值，故本申请中引入一个整数常量β，这样做可以避免较大奖励值决定了整个损失函数生成较大的误差方差，从而加快神经网络训练速度。

子步骤S203-4，根据估计动作值与目标动作值之间的差异对初始估计模型的模型参数进行迭代，以得到估计网络模型。

在一些实施例中，可以是根据估计动作值与目标动作值之间的均方差对初始估计模型的模型参数进行迭代。比如，首先，将具有相同第一环境参数的多个样本数据所对应的估计动作值和目标动作值，利用公式：

得到损失函数。上述LF代表损失函数。上述K代表上述多个样本数据中样本控制输入量的种类数量。比如，上述多个样本数据中只有三类不同样本控制输入量，则K取值为3。

代表第i个样本控制输入量所对应的目标动作值。

代表第i个样本数据所对应的估计动作值。所得到的损失函数是一个可导函数，同时，由于初始目标模型和估计网络模型的神经元内的激活函数都是权重w(也即模型参数)的函数，因此，损失函数也是关于权重w的函数。

其次，利用损失函数更新模型参数。权重(也即，模型参数)采用梯度下降方式更新，激活函数的权值更新w₁＝w-αw′，w₁代表更新后的权重(也即模型参数)，w代表更新前的权重，α是神经网络的学习率，w′是损失函数LF关于权值w的偏导数。

在其他实施例中，还可以利用估计动作值与目标动作值之间差值对初始估计模型的模型参数进行迭代。

在本发明实施例中，如图5所示，上述步骤S203还可以包括：

子步骤S203-5，利用迭代后初始估计模型的模型参数，更新初始目标模型的模型参数。

可以理解地，上述初始估计模型和初始目标模型的模型结构是相同的，因此，在每次初始估计模型的模型参数更新后，将其更新后的模型参数赋予初始目标模型。从而，提升初始目标模型的精度，从而可以反助力于对初始估计模型的训练。

此外，为了提高训练的效率，在对所述初始估计模型进行训练之前，上述温度控制方法还包括：结合所述历史环境数据，分别对所述第一环境参数和所述第二环境参数进行放缩处理。

在一些实施例中，可以是根据第一环境参数及历史环境数据，利用公式：

计算放缩处理后的第一环境参数；其中，s′₁代表放缩处理后的第一环境参数；s₁代表放缩处理前的第一环境参数；s_min代表历史环境数据中的最小值；s_max代表历史环境数据中的最大值。

在一些实施例中，可以是根据第二环境参数及历史环境数据，利用公式：

计算放缩处理后的第二环境参数；其中，s′₃代表放缩处理后的第二环境参数；s₃代表放缩处理前的第二环境参数；s_min代表历史环境数据中的最小值；s_max代表历史环境数据中的最大值。

另外，需要说明的是，无论是第一环境参数还是第二环境参数均包括室内温度、室外温度及阳光辐射量等多个类别的数据，因此，在对第一环境参数还是第二环境参数进行放缩处理时，可以是结合历史环境数据，分别对第一环境参数对应的室内温度、室外温度及阳光辐射量进行放缩处理；以及结合历史环境数据，分别对第二环境参数对应的室内温度、室外温度及阳光辐射量进行放缩处理。

为了实现贪心概率随着模型精度变化，在一些实施例中，上述温度控制方法还可以包括：当估计网络模型的迭代次数增加指定数量时，下调贪心概率，直至贪心概率达到预设的最低阈值。比如，可以预先设置下调量Δε，每训练1轮，利用公式ε₁＝max(ε-Δε,ε_min)，确定下调后的贪心概率。上述ε₁为下调后的贪心概率。ε为下调前的贪心概率。ε_min为预设的最低阈值。

为了执行上述实施例及各个可能的方式中的相应步骤，下面给出一种温度控制装置6的实现方式，可选地，该温度控制装置6可以采用上述图1所示的中央温度控制系统1的器件结构。进一步地，请参阅图6，图6为本发明实施例提供的一种温度控制装置6的功能模块图。需要说明的是，本实施例所提供的温度控制装置6，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该温度控制装置6可以包括：处理模块7、选择模块8及控制模块9。

处理模块7，用于将获得的实时环境数据输入所述估计网络模型，以的得到多个学习动作值；其中，一个所述学习动作值对应一个用于调节温度的控制输入量。

在一些实施例中，上述步骤S101可以由处理模块7执行。

选择模块8，用于基于所述估计网络模型所对应的贪心概率，采用贪心策略从所述多个学习动作值中选出优选学习动作值；其中，所述贪心概率与所述估计网络模型的迭代次数呈反比。

在一些实施例中，上述步骤S102可以由选择模块8执行。

控制模块9，用于利用所述优选学习动作值所对应的控制输入量，控制所述中央温度控制系统1进行温度调节。

在一些实施例中，上述步骤S103可以由控制模块9执行。

优选地，上述中央温度控制系统1中预先存储有初始估计模型和初始目标模型；上述温度控制装置6还包括：

获取模块，用于获取所述中央温度控制系统1的历史温度调节数据及对应的历史环境数据。

生成模块，用于根据所述历史温度调节数据及对应的历史环境数据生成多个样本数据；其中，所述样本数据包括第一环境参数、样本控制输入量、第二环境参数及控制奖励值；所述控制奖励值用于表征样本执行过程的能耗成本及温度控制效果；所述样本执行过程为所述中央温度控制系统1执行所述样本控制输入量将实时环境数据从所述第一环境参数调节至所述第二环境参数的过程。

训练模块，用于利用所述样本数据，结合初始目标模型，对所述初始估计模型进行训练，得到所述估计网络模型，并存储。

在一些实施例中还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器3执行时实现前述实施例所提供的方法。

综上所述，本发明实施例提供了一种温度控制方法、装置及中央温度控制系统。其中，上述温度控制方法包括将获得的实时环境数据输入所述估计网络模型，以的得到多个学习动作值；其中，一个所述学习动作值对应一个用于调节温度的控制输入量；基于所述估计网络模型所对应的贪心概率，采用贪心策略从所述多个学习动作值中选出优选学习动作值；利用所述优选学习动作值所对应的控制输入量，控制所述中央温度控制系统进行温度调节。减少不断尝试不同控制输入量所带来的能耗成本和避免造成温度的波动。此外，能够确保使用不同精度的估计网络模型都能够最大可能的获得最优的控制输入量，提高中央温度控制系统提供的温度服务质量和用户的使用体验。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种温度控制方法，其特征在于，应用于中央温度控制系统(1)，所述中央温度控制系统(1)内存储有训练得到的估计网络模型、初始估计模型和初始目标模型；所述温度控制方法包括：

将获得的实时环境数据输入所述估计网络模型，以的得到多个学习动作值；其中，一个所述学习动作值对应一个用于调节温度的控制输入量；

基于所述估计网络模型所对应的贪心概率，采用贪心策略从所述多个学习动作值中选出优选学习动作值；其中，所述贪心概率与所述估计网络模型的迭代次数呈反比，所述贪心策略在满足所述贪心概率的情况下，使用随机的方式选择优选学习动作值；在不满足所述贪心概率的情况下，将值最大的学习动作值确定为优选学习动作值；

利用所述优选学习动作值所对应的控制输入量，控制所述中央温度控制系统(1)进行温度调节；所述温度控制方法还包括：

获取所述中央温度控制系统(1)的历史温度调节数据及对应的历史环境数据；

根据所述历史温度调节数据及对应的历史环境数据生成多个样本数据；其中，所述样本数据包括第一环境参数、样本控制输入量、第二环境参数及控制奖励值；所述控制奖励值用于表征样本执行过程的能耗成本及温度控制效果；所述样本执行过程为所述中央温度控制系统(1)执行所述样本控制输入量将实时环境数据从所述第一环境参数调节至所述第二环境参数的过程；

利用所述样本数据，结合初始目标模型，对所述初始估计模型进行训练，得到所述估计网络模型，并存储；

所述控制奖励值的生成方式包括：

从所述历史温度调节数据中获取所述样本执行过程产生的所述能耗成本；

从所述第二环境参数中获取所述中央温度控制系统(1)所服务的每一个空间的实际室内温度；

根据所述能耗成本、实际室内温度及预设的舒适温度区间，利用公式：

计算所述控制奖励值；其中，r代表所述控制奖励值；cost(a_t,s_t,s_t+1)代表所述能耗成本，z代表所述中央温度控制系统(1)所服务的空间总数；

代表第i个空间的实际室内温度；

代表第i个空间所对应的舒适温度区间的上限值；

2.根据权利要求1所述的温度控制方法，其特征在于，所述利用所述样本数据，结合初始目标模型，对所述初始估计模型进行训练的步骤包括：

将所述第一环境参数输入所述初始估计模型，以得到所述样本控制输入量所对应的估计动作值；

将所述第二环境参数输入所述初始目标模型，以得到多个中间动作值；

根据最大的所述中间动作值及所述控制奖励值，计算目标动作值；

根据所述估计动作值与所述目标动作值之间的差异对所述初始估计模型的模型参数进行迭代，以得到所述估计网络模型。

3.根据权利要求2所述的温度控制方法，其特征在于，所述利用所述样本数据，结合初始目标模型，对所述初始估计模型进行训练的步骤还包括：

根据迭代后所述初始估计模型的模型参数，更新所述初始目标模型的模型参数。

4.根据权利要求1所述的温度控制方法，其特征在于，在对所述初始估计模型进行训练之前，所述温度控制方法还包括：

结合所述历史环境数据，分别对所述第一环境参数和所述第二环境参数进行放缩处理。

5.根据权利要求4所述的温度控制方法，其特征在于，结合所述历史环境数据，对所述第一环境参数进行放缩处理的步骤包括：

根据所述第一环境参数及所述历史环境数据，利用公式：

计算放缩处理后的所述第一环境参数；其中，s′₁代表放缩处理后的所述第一环境参数；s₁代表放缩处理前的所述第一环境参数；s_min代表所述历史环境数据中的最小值；s_max代表所述历史环境数据中的最大值。

6.根据权利要求4或5所述的温度控制方法，其特征在于，所述第一环境参数包括室内温度、室外温度及阳光辐射量；结合所述历史环境数据，对所述第一环境参数进行放缩处理的步骤包括：

结合所述历史环境数据，分别对所述第一环境参数对应的所述室内温度、所述室外温度及所述阳光辐射量进行放缩处理。

7.根据权利要求1所述的温度控制方法，其特征在于，所述中央温度控制系统(1)包括中央空调(4)和地暖设备(5)之一或之间的组合；所述估计网络模型包括空调估计网络模型和地暖估计网络模型；

所述将获得的实时环境数据输入所述估计网络模型包括：当启用所述中央空调(4)时，将所述实时环境数据输入所述空调估计网络模型；当启用所述地暖设备(5)时，将所述实时环境数据输入所述地暖估计网络模型。

8.根据权利要求1所述的温度控制方法，其特征在于，所述温度控制方法还包括：

当所述估计网络模型的迭代次数增加指定数量时，下调所述贪心概率，直至所述贪心概率达到预设的最低阈值。

9.一种温度控制装置，其特征在于，应用于中央温度控制系统(1)，所述中央温度控制系统(1)内存储有训练得到的估计网络模型、初始估计模型和初始目标模型；所述温度控制装置(6)包括：

处理模块(7)，用于将获得的实时环境数据输入所述估计网络模型，以的得到多个学习动作值；其中，一个所述学习动作值对应一个用于调节温度的控制输入量；

选择模块(8)，用于基于所述估计网络模型所对应的贪心概率，采用贪心策略从所述多个学习动作值中选出优选学习动作值；其中，所述贪心概率与所述估计网络模型的迭代次数呈反比，所述贪心策略在满足所述贪心概率的情况下，使用随机的方式选择优选学习动作值；在不满足所述贪心概率的情况下，将值最大的学习动作值确定为优选学习动作值；

控制模块(9)，用于利用所述优选学习动作值所对应的控制输入量，控制所述中央温度控制系统(1)进行温度调节；

所述温度控制装置(6)还包括：

获取模块，用于获取所述中央温度控制系统(1)的历史温度调节数据及对应的历史环境数据；

生成模块，用于根据所述历史温度调节数据及对应的历史环境数据生成多个样本数据；其中，所述样本数据包括第一环境参数、样本控制输入量、第二环境参数及控制奖励值；所述控制奖励值用于表征样本执行过程的能耗成本及温度控制效果；所述样本执行过程为所述中央温度控制系统(1)执行所述样本控制输入量将实时环境数据从所述第一环境参数调节至所述第二环境参数的过程；所述控制奖励值的生成方式包括：从所述历史温度调节数据中获取所述样本执行过程产生的所述能耗成本；从所述第二环境参数中获取所述中央温度控制系统(1)所服务的每一个空间的实际室内温度；根据所述能耗成本、实际室内温度及预设的舒适温度区间，利用公式：

代表第i个空间的实际室内温度；

代表第i个空间所对应的舒适温度区间的上限值；

代表第i个空间所对应的舒适温度区间的下限值，λ代表预设的温度控制惩罚系数；

10.一种中央温度控制系统，其特征在于，包括处理器(3)和存储器(2)，所述存储器(2)存储有能够被所述处理器(3)执行的机器可执行指令，所述处理器(3)可执行所述机器可执行指令以实现权利要求1-8任一所述的方法。

11.根据权利要求10所述的中央温度控制系统，其特征在于，所述中央温度控制系统(1)为中央空调(4)和地暖设备(5)之一或之间的组合。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器(3)执行时实现权利要求1-8中任一项所述的方法。