CN116578134A

CN116578134A - 基于强化学习的通用基站温控方法和系统

Info

Publication number: CN116578134A
Application number: CN202310678767.9A
Authority: CN
Inventors: 徐占伯; 刘靓; 刘亚萍; 周睿璇; 吴江
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-08-11

Abstract

本发明公开了基于强化学习的通用基站温控方法和系统，该系统由信息感知系统、中央处理器、智能控制器、基站空调系统以及机房动环监控系统组成。该方法使用机房动环监控系统提供的数据作为方法的输入，并且可以部署在BBU中，无需过多额外硬件投入来获取输入信息和部署算法。该方法在数据质量好、数据源丰富的基站进行本地模型推理，构建模型库；对于数据少、数据准备度较差的基站，通过集成学习和迁移学习的技术手段，获得迁移模型和初始控制控制策略，实现在无数据积累和输入少量参数的情况下有效地从现有数据中学习，提升方法对于不同基站的可迁移性和泛化能力；后续通过强化学习的技术手段，利用收集的数据进行本地模型推理，优化控制策略。

Description

基于强化学习的通用基站温控方法和系统

技术领域

本发明属于通信系统基站节能技术领域，具体涉及一种基于强化学习的通用基站温控方法和系统。

背景技术

随着数据流量和信息业务的快速增长，移动通信正在进入第五代(5G)。与4G网络相比，5G网络具有更快的速率、更低的延迟、更大的容量、更高的可靠性等技术特点，是未来信息技术的主要发展方向。

与4G相比，5G网络由于其更大的带宽、更多的信道、复杂的设备结构以及更高的基站站点和天线密度，需要消耗更多的能量。此外，随着5G网络应用场景和配套设备的扩大，能源消耗预计将进一步增加。通信行业正在成为高耗能行业，预计到2025年将消耗全球20％的电力，而电力成本将成为移动网络运营商最高的运营费用，占总运营费用的15％以上。此外，全球电子可持续发展提出到2020年信息和通信行业的温室气体排放量将达到130亿吨。5G基站的能耗占系统总能耗的80％以上，因此，5G基站的节能降耗对通信技术的可持续发展具有重要意义。

由于基站内的设备向基站机房散热，基站的制冷系统需要消耗大量的能量进行热管理，以控制工作环境在一个可接受的温度范围内，因此基站制冷系统温控能耗带来相当可观的能量消耗与电费开销，占基站总能耗的40％以上。所以，基站温控具有巨大的节能潜力与空间。然而，目前业界基站节能手段主要聚焦于基站电信设备的硬件和主设备关断休眠方面，如优化硬件架构设计、符号关断、载波关断、时隙关断等技术，较少的研究工作关注于基站温控节能。现有的有关基站制冷系统的方法主要是协助或取代空调进行散热，如排风机、相变材料、热泵等，然而，这些方法的节能效果有限，且安装和运维的费用较高，不利于工程上应用与推广。

发明内容

为了解决上述问题，本发明提供了基于强化学习的通用基站温控方法和系统，能够满足设备安全性，提高基站能效并达到最小的运行成本。

一种基于强化学习的通用基站温控方法，包括以下步骤：

S1、利用符合要求的基站数据进行本地模型推理，得到本地模型，并利用本地模型的参数进行全局模型聚合得到模型库；

S2、判断基站是否为符合要求的基站：若该基站符合要求，执行S8和S10；否则跳转至S3；

S3、获取基站基础信息，将基站的基础信息与模型库进行基于聚类的匹配得到迁移模型；

S4、获取天气信息、动环监控系统反馈的数据，并构建数据集；

S5、根据数据集构建训练集进行训练，得到基站站点热环境模型；

S6、进行本地模型推理：利用数据集和基站站点热环境模型训练Q-table，得到本地模型，；

S7、判断本地模型是否优于迁移模型；若是则执行S8；否则，执行S9；

S8、根据本地模型推理得到的Q-Table选择动作；

S9、根据站点当前状态和迁移模型选择动作；

S10、得到S8或S9输出的动作，根据设定的空调温度设定点和动作之间的关系输出温度控制策略。

进一步的，步骤S1中，模型库通过以下步骤构建：

S1.1、对于每个符合要求的基站：获取站点已有的数据，所述数据包括站点基础信息、外界天气历史数据和动环监控系统历史数据，并构建站点基础信息向量；

S1.2、将获取的数据进行数据预处理，根据预处理后的数据构建数据集其中，/>为所有蓄电池在t时刻的表面温度，/>为第i组蓄电池在t时刻的温度，i＝1,…n_b，n_b为蓄电池的数量；/>为所有BBU在t时刻的入风温度，为第j个BBU在t时刻的入风温度,j＝1,…n_BBU，n_BBU为BBU的数量；/>为动环监控系统监测的室内温度；/>为室外温度特征；/>为空调功率特征；

S1.3、建立STGCN模型，处理S1.2得到的数据集得到训练集并训练STGCN，得到基站站点热环境模型；

S1.4、进利用数据集和基站站点热环境模型更新Q-Table，得到本地模型，本地模型包括Q-Table和站点基础信息向量；Q-Table以表格形式存储状态-动作对(s,a)的动作价值函数Q(s,a)；

S1.5、将本地模型上传至云平台进行全局模型聚合得到模型库。

进一步的，步骤S1.3包括以下步骤：

S1.3.1、选取蓄电池、BBU、空调、室内、室外五类节点构建图，即V_t是一个有限的节点集；空调节点AC由负载率表示；蓄电池节点b_i由其表面温度/>表示，i＝1,…n_b；BBU节点BBU_j由其入风温度/>表示，j＝1,…n_BBU；室内节点indoor定义为站点的中心点；室外节点outdoor定义为向阳面墙壁的中心；

S1.3.2、构建邻接矩阵W，满足其中，w_ij为组成W的元素，表示图中任意两个节点i和j之间的边的权重，d_i,j表示节点i和j之间的距离，σ²和l是用于控制邻接矩阵W分布和稀疏度的阈值；

S1.3.3构建STGCN模型M(G_t；θ)，其中θ代表待训练的模型参数；

S1.3.4、构建训练集其中分别为/>在时间段t＝n-1-r,...,n-1整合得到的张量，t代表第t时刻，r代表时间序列的长度，n代表当前时刻，分别为/>在t＝n时的值前六项代表输入特征，后三项代表标签特征，用训练集训练M(G_t；θ)，得到基站站点热环境模型。

进一步的，步骤S1.4包括以下步骤：

S1.4.1、设定循环次数Epoch,令epoch＝1；S1.4.2、方法的决策时间粒度为Δt，对于数据集中，每次取出时间间隔为Δt的两条数据/>和它们为智能体的动作a^t导致的环境的一次状态转移经过数据处理得到时刻t的状态/>t+Δt的状态和在时刻t的动作a^t，利用更新公式对价值函数进行更新；

S 1.4.3、将和a^t作为S1.3得到的基站站点热环境模型的输入，得到输出/>计算/>和s^t+Δt的差值/>若则执行S1.4.4,否则，跳转至S1.4.5；/>是设定的基站站点热环境模型最低精度要求的阈值；

S1.4.4、对于a∈A且a≠a^t的所有动作将/>和/>作为S1.3得到的基站站点热环境模型的输入，得到输出/>利用更新公式对价值函数进行更新；

S1.4.5、令epoch＝epoch+1,epoch<Epoch时跳至转S1.4.1，否则退出循环。

进一步的，步骤S3包括以下步骤：

S3.1、取出模型库中的基站基础信息{x₁,x₂,…,x_m-1}，用基站基础信息x_m和{x₁,x₂,…,x_m-1}构成样本集X＝{x₁,x₂,…,x_m}；

S3.2、设定降维后的维度k₁、聚类后的维度k₂、簇划分后x_m所在簇大小的阈值k，进行聚类，得到聚类后的簇划分；

S3.3、设x_m所在簇的样本为x₁,…,x_n；若n≥k，取出模型库中对应的Q表Q-Table＝{Q-Table₁,…,Q-Table_n}；否则取出模型库的所有Q-Table：Q-Table＝{Q-Table₁,…,Q-Table_m-1}；得到迁移模型，迁移模型包括和在聚类过程中得到的各x_i与x_m之间的相似度/>x_i为与Q-Table_i∈Q-Table,i＝1,...n_tb对应的基站基础信息向量，n_tb表示Q-Table包含的Q-Table的数量。

进一步的，步骤S4包括以下步骤：

S4.1、获取天气信息、动环监控系统反馈的数据，构建当前时刻t的基站状态表示为所有蓄电池在t时刻的表面温度，/>为第i组蓄电池在t时刻的温度，i＝1,…n_b，n_b为蓄电池的数量；/>为所有BBU在t时刻的入风温度，为第j个BBU在t时刻的入风温度,j＝1,…n_BBU，n_BBU为BBU的数量；/>为动环监控系统监测的室内温度；/>为室外温度特征；

S4.2、构建数据集为空调功率特征。

进一步的，步骤S7包括以下步骤：

S7.1、记录在每个历史时刻t分别根据迁移模型和本地模型选择的动作和

S7.2、设定评估阈值η，和窗口大小K，对于一段时间t_i∈[t_start,t_start+Δt,...,t_start+KΔt]，计算每个t_i过去一天根据迁移模型和本地模型分别获得的累计奖励和/>其中，/>为在状态s^t下根据迁移模型选择的动作，/>为状态s^t下根据本地模型选择的动作；当超过η*K的t_i满足/>时，本地模型优于迁移模型；否则迁移模型优于本地模型。

进一步的，步骤S8包括以下步骤：

S8.1、获取当前时刻t的基站状态表示为所有蓄电池在t时刻的表面温度，/>为第i组蓄电池在t时刻的温度，i＝1,…n_b，n_b为蓄电池的数量；/>为所有BBU在t时刻的入风温度，/>为第j个BBU在t时刻的入风温度,j＝1,…n_BBU，n_BBU为BBU的数量；/>为动环监控系统监测的室内温度；/>为室外温度特征；

S8.2、将s^t作为本地模型推理得到的Q-Table的状态输入，设定贪心阈值ε；以ε的概率选择Q值最大的动作以1-ε的概率随机选择一个动作a^t，输出动作a^t。

进一步的，步骤S9包括以下步骤：

S9.1、获取Q-Table和x_i与x_m之间的相似度以及当前时刻t的基站状态表示/>x_i为与Q-Table_i∈Q-Table,i＝1,...n_tb对应的基站基础信息向量，i＝1,…n_b，n_b为蓄电池的数量；

S9.2、对每个Q-Table_i∈Q-Table，将s^t作为状态输入选择Q值最大的动作，得到

即/>得到向量/>中/>对应的分量为1，其余分量为0；

S9.3、计算则/>输出动作a^t。

一种基于强化学习的通用基站温控系统，包括：

信息感知系统，用于收集基站基础信息、室外天气信息、分时电价信息以及由动环监控系统反馈的数据；

动环监控系统，用于监测包括BBU、传输设备、蓄电池等设备的温度和空调的功率数据，将信息感知系统收集到的数据输送到中央处理器；

中央处理器，集成在基带处理单元中，用于将接收的数据进行分析与处理，得到基站状态表示并更新数据集；将数据集作为优化算法的输入进行模型更新，生成实时温控策略，并将实时温控策略发送给智能控制器；

智能控制器，用于根据实时温控策略生成温控指令，以红外信号的形式发送给空调；

空调，用于根据温控指令产生相应的温控运行操作，带来基站机房环境的改变，动环监控系统实时监测、采集数据并输入至中央处理器，用以对优化算法和相关模型进行在线更新与修正。

与现有技术相比，本发明至少具有以下有益的技术效果：

由于站点的围护结构、地理位置、设备结构等具有较大的差异性，不存在一种普适的基站温控策略。现有的基站温控方案要求大量的输入参数和高质量的数据，这对于数据少、数据准备度较差的基站是难以满足的。如何在少量数据甚至没有数据的情况下设定基站站点的空调温控策略，称为冷启动问题。

本发明所述的方法通过集成学习和迁移学习的技术手段，实现在无数据积累和输入少量参数的情况下能够有效地从现有的其他基站站点数据中学习，获得一个初始的控制策略，提升了该方法对于不同基站的可迁移性和泛化能力；通过强化学习的技术手段，利用后续收集的数据进行本地模型推理，进一步优化控制策略，实现算法的智能化。

该方法在数据质量好、数据源丰富的基站进行本地模型推理，得到本地模型，将本地模型参数上传至云平台进行全局模型聚合，构建模型库。对于数据少、数据准备度较差的基站，将基站的基础信息与模型库进行基于聚类的匹配得到迁移模型，利用此迁移模型得到初始温控策略，并构建数据集；利用构建的数据集建立时空图卷积网络站点热环境模型；同时进行本地模型推理：利用数据集和站点热环境模型更新Q-Table；通过评价本地推理的模型与迁移模型的优劣，当本地推理的模型优于迁移模型时，利用本地模型得到温控策略，实现方法的自适应切换；本地模型推理完毕后，将本地模型参数上传至云平台再次进行全局模型聚合。

进一步的，该方法以站内空调为主要优化对象，具有巨大的节能潜力，可以降低基站的运行成本并保证设备在安全的温度范围内运行。

本发明所述的系统，使用机房环境监控系统提供的数据作为输入，并且可以部署在BBU中，无需过多额外硬件投入来获取输入信息和部署算法。

附图说明

图1为基于强化学习的通用基站温控系统示意图；

图2为一种基于强化学习的通用基站温控方法流程图；

图3为广东东莞四个基站基于上述方案优化前后的空调运行费用对比；

图4为广东东莞某基站在连续测试阶段的平均站点总运行成本和平均空调运行成本；

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于参数共识和迁移学习实现节能方案的可迁移性与通用性，同时保证方案的性能。

参照图1，本发明的实施例提供了该方法的5G基站温控系统，包括中央处理器、智能控制器(以下简称为控制器)、基站空调系统(以下简称为空调)、信息感知系统以及通信电源及机房环境监控系统(以下简称为动环监控系统)，该系统能够基于对基站的状态进行感知，根据当前基站状态设定最优的空调设定温度，使得用电成本最小化。

在本系统中：基于Q-Learning的优化算法和时空图卷积网络(STGCN)模型的软件及程序被部署在中央处理器，中央处理器集成在基带处理单元(BBU)中；信息感知系统收集基站基础信息、室外天气信息、分时电价信息以及由动环监控系统反馈的数据。其中基站基础信息从基站运营商公司获得或通过实地勘测获得，室外天气信息从网络获取，分时电价信息从当地电力部门官网获取。基站基础信息包括：网络架构(C-RAN/D-RAN)、室内站点/室外站点、机房的尺寸大小(小/中/大)、围护结构的材料、蓄电池类型(铅酸/锂电)、蓄电池数量、BBU数量、基站所在城市的年平均温度。天气信息包括室外温度与天气状况。动环监控系统是基站机房内的对机房的环境及动力环境进行监控的一套软、硬件，监测包括BBU、传输设备、蓄电池等设备的温度和空调的功率数据。将信息感知系统收集到的数据输送到中央处理器作为优化算法的必要输入参数并收集数据；中央处理器将接收的数据进行分析与处理，得到基站状态表示并更新数据集。将数据集作为优化算法的输入进行模型更新：训练站点热环境模型、基于Q-Learning训练得到Q-Table，生成实时温控策略；中央处理器将生成的实时温控策略以串口指令的形式发送给智能控制器，智能控制器自学习基站空调的红外码值并发送温控策略的红外码指令；空调接收到控制器发送的红外码指令继而自动调整空调温度设定点，产生相应的运行操作；空调运行的改变会影响整个基站的环境变化，动环监控系统动态感知这种变化，并实时采集设备温度、功率数据输入至中央处理器作为反馈信息，以在线更新及修正温控策略。

该系统接收云平台下发的模型库，将基站的基础信息与模型库进行基于聚类的匹配得到迁移模型，利用此迁移模型得到初始温控策略；在运行初始温控策略期间积累数据(包括室外天气信息、动环监控系统的反馈数据)并构建数据集，同时进行本地模型推理；自适应评价本地模型与迁移模型的优劣，当本地推理的模型优于迁移模型时，切换到利用本地模型得到温控策略；系统利用室外天气信息和动环监控系统的反馈数据构建基站的状态表示，将其作为模型的输入，在线输出最优温控策略；本地模型推理完毕后，将本地模型参数上传至云平台再次进行全局模型聚合。

中央处理器生成的实时温控策略，以串口形式发送给智能控制器。

智能控制器，用于根据实时温控策略生成温控指令，以红外信号的形式发送给空调。

对于数据质量好、数据源丰富的基站，系统直接进行本地模型推理，得到本地模型；对于数据少、数据准备度较差的基站，该系统将基站的基础信息与云平台的模型库进行基于聚类的匹配得到迁移模型，并进行本地模型推理；通过评价本地模型与迁移模型的优劣，实现方法的自适应切换；该系统可通过对基站的运行环境状态进行感知，在保证设备安全与稳定运行的前提下进行空调的优化控制，降低机房温控运行成本并实现节能减排的目标。

图2为根据本发明一个实施例的基站节能方法的流程示意图。具体包括如下步骤：

S1、利用数据质量好、数据源丰富的基站的数据，通过Q-Learning进行本地模型推理，得到本地模型，并将本地模型参数上传至云平台进行全局模型聚合得到模型库；

S2、判断该基站是否为数据质量好、数据源丰富的基站：若该基站为数据质量好、数据源丰富的基站，执行S8和S10；否则跳转至S3；

S5、根据数据集构建STGCN训练集进行训练，得到基站站点热环境模型,步骤同S1.3；

S6、进行本地模型推理：利用数据集和基站站点热环境模型训练Q-table，得到本地模型，步骤同S1.4；

S8、根据本地模型推理得到的Q-Table选择动作；

S9、根据站点当前状态和迁移模型选择动作；

S10、得到S8或S9输出的动作，根据设定的空调温度设定点和动作a之间的关系setPoint＝f(a,t)输出温度控制策略,其中setPoint空调温度设定点，t表示当前时间。

进一步的，S1中，模型库通过以下步骤构建：

S1.1、从数据完整性、唯一性、有效性、准确性等方面评估数据的质量，对于每个数据质量高、数据源丰富的基站：获取站点已有的数据，所述数据包括站点基础信息、外界天气历史数据和动环监控系统历史数据；站点基础信息包括：网络架构(C-RAN/D-RAN)、室内站点/室外站点、占地面积(小/中/大)、围护结构、蓄电池类型(铅酸/锂电)、蓄电池数量、BBU数量、站点所在城市年平均气温，并构建站点基础信息向量；

S1.2、将获取的数据进行数据预处理，数据预处理主要包括缺失数据填充、异常值处理；得到蓄电池温度特征其中，/>为所有蓄电池在t时刻的表面温度，为第i组蓄电池在t时刻的温度，i＝1,…n_b，n_b为蓄电池的数量；BBU温度特征为所有BBU在t时刻的入风温度，/>为第j个BBU在t时刻的入风温度,j＝1,…n_BBU，n_BBU为BBU的数量；室内温度特征/>为动环监控系统监测的室内温度；室外温度特征/>其中/>为室外空气温度，β为维护结构外表面对太阳辐射的吸收率，α_out为维护结构外表面的对流换热系数，I为太阳辐射强度；空调功率特征/>其中t代表第t时刻。构建数据集/>

S1.4、进行本地模型推理：利用数据集和基站站点热环境模型更新Q-Table，得到本地模型，本地模型包括Q-Table和站点基础信息向量；Q-Table以表格形式存储状态-动作对(s,a)的动作价值函数Q(s,a)；

进一步的，步骤S1.3包括以下步骤：

温度预测是一个典型的时间序列预测问题，即根据之前的测量结果预测下一时间步的温度，将基站室内环境的热过程定义在图上，各个观测点之间的结果不是独立的，而是由具有权重的配对节点在图中连接起来，并在图上视为一个图信号，t时刻的图可以表示为G_t＝(V_t,E,W)，V_t是一个有限的节点集，E是一个有限的边集，W为邻接矩阵。

S1.3.1、选取蓄电池、BBU、空调、室内、室外五类节点构建图，即每个节点由各自的特征表示：空调节点AC由负载率/>表示,其中/>和/>分别代表空在时间阶段t的功耗和空调制冷模式下的额定功率，τ代表每个时间阶段的持续时间；蓄电池节点b_i由其表面温度/>表示，i＝1,…n_b；BBU节点BBU_j由其入风温度/>表示，j＝1,…n_BBU；室内节点indoor定义为站点的中心点，由/>表示；室外节点outdoor定义为向阳面墙壁的中心，由/>表示；

S1.3.2、构建邻接矩阵W，满足其中w_ij为组成W的元素，表示的是图中任意两个节点i和j之间的边的权重，d_i,j表示节点i和j之间的距离，σ²和l是用于控制邻接矩阵W分布和稀疏度的阈值；

S1.3.3构建STGCN模型M(G_t；θ)，其中θ代表待训练的模型参数；

S1.3.4、构建训练集其中分别为/>在时间段t＝n-1-r,...,n-1整合得到的张量，t代表第t时刻，r代表时间序列的长度，n代表当前时刻，/>分别为/>在t＝n时的值前六项代表输入特征，后三项代表标签特征，用训练集训练M(G_t；θ)，得到基站站点热环境模型。

进一步的，步骤S1.4包括以下步骤：

强化学习包括两个主要部分：智能体和环境。RL问题是在马尔科夫决策过程(MDP)上定义的。一个MDP通常由状态空间、行动空间、状态转移概率函数、奖励函数、折扣因子等组成。在每个时刻，环境有一个状态s，状态空间S是所有可能状态的集合；行动a是智能体根据当前状态做出的决定，行动空间A是所有可能行动的集合；奖励r是智能体执行行动后，环境返回给智能体的一个数值；状态转移是智能体从当前t时刻的状态s移动到下一个时刻的状态s′的过程，状态转换概率函数用来描述状态转移，表示为p(s′|s,a)；折扣因子代表对于t时刻状态s^t而言，当前奖励r^t和未来奖励r^t+i的重要性。强化学习的目标就是得到一个策略π，在每个时刻根据观测到的状态做出决策，决策的依据是动作价值函数给定当前状态s^t,智能体应该执行A中动作价值最大的那个动作，即/>在强化学习中，学习过程通常是通过与environment的直接互动来实现的，动作价值函数需要在每次互动后根据以下公式进行更新：

其中，Q(s,a)代表智能体在状态s下采取行动a的价值；s′是下一个状态；r_ss′是表示智能体采取行动a从状态s过渡到状态s′时的奖励；α是学习参数；γ代表折扣因子。

t时刻的状态表示为动作表示为/>直接计算状态转移函数是一项非常具有挑战性的任务，所以通过神经网络训练来估计状态转移。基站站点的热过程是一个复杂的物理过程，它受到如太阳辐射、天气条件和网络流量负载等随时间变化的不确定因素的影响，所以它是随时间变化的。此外，基站站点的热过程主要涉及对流热交换，在能源节点之间存在能量和热传递，导致其在空间上的依赖性。因此，利用STGCN来捕捉时空依赖性，建立基站站点热环境模型，用于估计状态转移。奖励函数被定义为

R(s^t,a^t)＝-E^t+f(a^t)，

其中E^t和f(a^t)分别代表空调在时间阶段t的运行成本和惩罚函数。E^t表示为：其中c^t表示t阶段的分时电价。f(a^t)是一个分段函数：

其中和/>分别代表电池和BBU的工作温度红线；c和d是可调的斜率和截距。如果所有的电池和BBU都满足各自的温度红线，则f(a^t)＝0；否则，f(a^t)被设定为基于动作a^t的单调增函数。理由是，当至少有一个设备不满足红线温度约束时，智能体(即空调系统)应优先选择高负载率的动作，以提供更多的冷量。只要满足单调性，f(a^t)可以为一元线性函数外的各种形式。

S1.4.1、设定循环次数Epoch,令epoch＝1；

S1.4.2、方法的决策时间粒度为Δt，对于数据集中，每次取出时间间隔为Δt的两条数据/>和/>它们可以视为智能体的动作a^t导致的环境的一次状态转移/>经过数据处理得到时刻t的状态t+Δt的状态/>和在时刻t的动作a^t，利用更新公式/>对价值函数进行更新；

S1.4.3、将和a^t作为S1.3得到的基站站点热环境模型的输入，得到输出/>计算/>和s^t+Δt的差值/>若则执行S1.4.4,否则，跳转至S1.4.5。其中/>是设定的基站站点热环境模型最低精度要求的阈值；

S1.4.5、令epoch＝epoch+1,当epoch<Epoch时跳转至S1.4.1，否则退出循环。

进一步的，步骤S1和S2中：

数据质量好、数据源丰富的基站的判断标准为：

传感器部署数量多，数据缺失和异常值发生的情况少。具体地，传感器部署点位应包括：各墙壁、各组蓄电池、各BBU、室内外温度，数据缺失和异常值发生的概率应低于1％。

进一步的，步骤S3包括以下步骤：

采用谱聚类算法进行聚类。谱聚类算法的主要思想是把所有的样本看作空间中的点，这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低，而距离较近的两个点之间的边权重值较高，通过对所有数据点组成的图进行切图，让切图后不同的子图间边权重和尽可能的低，而子图内的边权重和尽可能的高，从而达到聚类的目的。

S3.2、设定降维后的维度k₁、聚类后的维度k₂、簇划分后x_m所在簇大小的阈值k，进行聚类，得到聚类后的簇划分。聚类过程如下：

1)采用全连接法构建样本的相似矩阵Φ，使用高斯核函数来定义两点之间边的权重，即其中φ_ij表示节点i和节点j之间的相似度，/>为x_i、x_j之间L2范数距离，σ²表示方差；

2)根据相似矩阵Φ构建邻接矩阵W，满足w_ij＝φ_ij，其中w_ij表示节点i和节点j之间边的权重；构建度矩阵D，度矩阵D中的元素d_i满足d_i表示节点i的度，即连接到该节点的边的个数；

3)计算拉普拉斯矩阵L＝D-W；

4)构建标准化后的拉普拉斯矩阵D^-1/2LD^-1/2；

5)计算D^-1/2LD^-1/2最小的k₁个特征值所各自对应的特征向量z；

6)将各自对应的特征向量z组成的矩阵按行标准化，最终组成m×k₁维的特征矩阵Z；

7)对Z中的每一行作为一个k₁维的样本，共m个样本，用K-Means进行聚类，聚类维数为k₂；

8)得到簇划分

S3.3、簇划分后，设x_m所在簇的样本为x₁,…,x_n；若n≥k，取出模型库中对应的Q表Q-Table＝{Q-Table₁,…,Q-Table_n}；否则取出模型库的所有Q-Table：Q-Table＝{Q-Table₁,…,Q-Table_m-1}；得到迁移模型，迁移模型包括和在聚类过程中得到的各x_i与x_m之间的相似度/>x_i为与Q-Table_i∈Q-Table,i＝1,...n_tb对应的基站基础信息向量，n_tb表示Q-Table包含的Q-Table的数量。

进一步的，步骤S4包括以下步骤：

S4.1、获取天气信息、动环监控系统反馈的数据，构建当前时刻t的基站状态表示

S4.2、构建数据集

进一步的，步骤S7包括以下步骤：

算法通过比较前一天使用迁移模型和本地模型指定空调运行策略产生运行成本来评估迁移模型和本地模型的性能。

S7.2、设定评估阈值η，和窗口大小K，对于一段时间t_i∈[t_start,t_start+Δt,...,t_start+KΔt]，计算每个t_i过去一天根据迁移模型和本地模型分别获得的累计奖励和/>其中，/>为在状态s^t下根据迁移模型选择的动作，/>为状态s^t下根据本地模型选择的动作。当超过η*K的t_i满足/>时，认为本地模型优于迁移模型；否则认为迁移模型优于本地模型；

进一步的，步骤S8包括以下步骤：

S8.1、获取步骤S4处理得到的当前时刻t的基站状态表示

S8.2、将s^t作为本地模型推理得到的Q-Table的状态输入，设定贪心阈值ε；以ε的概率选择Q值最大的动作以1-ε的概率随机选择一个动作a^t，输出动作a^t；

进一步的，步骤S9包括以下步骤：

S9.1、获取步骤S3得到的Q-Table和以及步骤S4处理得到的当前时刻t的基站状态表示/>

S9.2、对每个Q-Table_i∈Q-Table，将s^t作为状态输入选择Q值最大的动作，得到即/>得到向量/>中/>对应的分量为1，其余分量为0；

S9.3、计算则/>输出动作a^t。

图3为广东东莞四个差异测试基站基于上述方案的平均运行费用。由图4可以看出，各基站运用上述方案优化后基站的运行费用大幅下降，能够节省20％以上，即本方法在各种类型基站均有明显节电效果。

为了调查该方法演变的有效性，进行了一个为期三周的测试，分为三个为期一周的阶段。图4为广东东莞某基站在每个阶段测得的平均总运行成本和平均空调运行成本。可以看出，在阶段一中，使用迁移模型能够实现约4％的运行费用节省。随着数据的积累，节费效果会越来越好。

本发明的实施例提供一种基于强化学习的通用基站温控的运行优化装置，用于执行上述基于强化学习的通用基站温控优化方法。可以根据上述方法示例对优化计算模块进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

由于本发明实施例提供的基于强化学习的通用基站温控的运行优化装置可用于执行上述基于强化学习的通用基站温控优化方法，因此其所能获得的技术效果可参考上述方法实施例，本发明实施例在此不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

尽管在此结合各实施例对本发明进行了描述，然而，在实施所要求保护的本发明过程中，本领域技术人员通过查看附图、公开内容、以及所附权利要求书，可理解并实现公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

尽管结合具体特征及其实施例对本发明进行了描述，显而易见的，在不脱离本发明的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本发明的示例性说明，且视为已覆盖本发明范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.基于强化学习的通用基站温控方法，其特征在于，包括以下步骤：

S8、根据本地模型推理得到的Q-Table选择动作；

S9、根据站点当前状态和迁移模型选择动作；

2.根据权利要求1所述的基于强化学习的通用基站温控方法，其特征在于，所述步骤S1中，模型库通过以下步骤构建：

3.根据权利要求2所述的基于强化学习的通用基站温控方法，其特征在于，所述步骤S1.3包括以下步骤：

S1.3.3构建STGCN模型M(G_t；θ)，其中θ代表待训练的模型参数；

4.根据权利要求2所述的基于强化学习的通用基站温控方法，其特征在于，所述步骤S1.4包括以下步骤：

S1.4.1、设定循环次数Epoch,令epoch＝1；S1.4.2、方法的决策时间粒度为Δt，对于数据集中，每次取出时间间隔为Δt的两条数据/>和它们为智能体的动作a^t导致的环境的一次状态转移/>经过数据处理得到时刻t的状态/>t+Δt的状态和在时刻t的动作a^t，利用更新公式对价值函数进行更新；

S1.4.3、将和a^t作为S1.3得到的基站站点热环境模型的输入，得到输出/>计算/>和s^t+Δt的差值/>若/>则执行S1.4.4,否则，跳转至S1.4.5；/>是设定的基站站点热环境模型最低精度要求的阈值；

5.根据权利要求1所述的基于强化学习的通用基站温控方法，其特征在于，所述步骤S3包括以下步骤：

6.根据权利要求1所述的基于强化学习的通用基站温控方法，其特征在于，所述步骤S4包括以下步骤：

S4.2、构建数据集为空调功率特征。

7.根据权利要求1所述的基于强化学习的通用基站温控方法，其特征在于，所述步骤S7包括以下步骤：

S7.1、记录在每个历史时刻t分别根据迁移模型和本地模型选择的动作和/>

8.根据权利要求1所述的基于强化学习的通用基站温控方法，其特征在于，所述步骤S8包括以下步骤：

9.根据权利要求1所述的基于强化学习的通用基站温控系统，其特征在于，所述步骤S9包括以下步骤：

S9.2、对每个Q-Table_i∈Q-Table，将s^t作为状态输入选择Q值最大的动作，得到即得到向量/> 中/>对应的分量为1，其余分量为0；

S9.3、计算则/>输出动作a^t。

10.一种基于强化学习的通用基站温控系统，其特征在于，包括：