CN110781538B

CN110781538B - 基于实地监测的开窗仿真算法

Info

Publication number: CN110781538B
Application number: CN201910930650.9A
Authority: CN
Inventors: 刘俊杰; 齐悦
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2024-01-19
Anticipated expiration: 2039-09-29
Also published as: CN110781538A

Abstract

本发明公开了一种基于实地监测的开窗仿真算法。本发明基于对住宅建筑中卧室的窗户状态和相关参数长达一年的连续监测，筛选出开窗行为的显著性驱动因素，建立了开窗状态和其驱动因素的主成分Logistic模型。相比于传统的Logistic回归，该数学模型可有效消除数据的多重共线性，提高模型的稳定性和准确性。同时，考虑到实际住户开窗行为的随机性和多样性，采用了k‑means聚类方法对住户进行分类。根据聚类结果，针对每一类住户分别建立主成分Logistic模型，提高预测的准确率。

Description

基于实地监测的开窗仿真算法

技术领域

本发明属于建筑行为、建筑环境及能耗模拟领域，具体涉及一种基于k-means聚类和主成分Logistic模型的开窗仿真算法。

背景技术

我国住宅的自然通风主要通过开窗来实现，开窗行为是一种简单而有效的改善室内空气品质，调节人体热舒适的方式，同时也是建筑模拟软件一个重要的输入项。研究表明，开窗行为显著影响室内颗粒物、总挥发性有机化合物(TVOC)和二氧化碳浓度；开窗通风也会改变室内的温度、风速等热环境条件，从而影响人体的热舒适；同时，合适的开窗控制策略可实现17％_～47％的节能。

目前大部分建筑能耗模拟软件都采用固定的时间表来定义人的行为模式，但由于实际建筑中人行为的随机性和多样性，造成建筑模拟能耗和实际运行能耗会产生较大偏差，建立开窗行为模型对于建筑能耗模拟结果的准确性具有重要作用。

发明内容

本发明针对现有大部分建筑能耗模拟软件采用固定的时间表来定义人的行为模式，忽略实际建筑中人行为的随机性的多样性的现状，提出一种基于k-means聚类和主成分Logistic模型的开窗仿真算法。

本发明提出的技术方案如下：基于实地监测的开窗仿真算法，结合了k-means聚类和主成分Logistic回归模型，挖掘出行为数据背后的数学规律，为智能开窗控制方法提供依据。

对住宅建筑中卧室的窗户状态和相关参数(包括室内温湿度、CO₂浓度等室内环境数据和室外气象数据)进行长达一年的连续监测。

实施步骤如下：

步骤一：构建窗户状态及其驱动因素的原始数据集；

收集的数据中窗户状态视为目标变量，潜在驱动因素(室内外环境参数和时间)视为解释变量。因窗户状态为二分类变量，可将每种潜在驱动因素分别和窗户状态进行单因素Logistic回归，筛选出具有显著性影响的因子(p<0.05)，构建窗户状态及其驱动因素的原始数据集；

步骤二：采用欠采样的方法对不平衡的数据集进行处理；

欠采样可通过保存所有稀有类样本，并在丰富类别中随机选择与稀有类别样本相等数量的样本，重组为平衡的新数据集以进一步建模。

步骤三：多重共线性诊断

多重共线性关系常增大估计参数的标准误，从而降低模型的稳定性，有时还可出现与实际情况相悖的结果，所以，需要对变量进行多重共线性诊断，一般可根据相关系数、方差膨胀因子VIF(the variance inflation factor)、容许值TOL(Tolerance)诊断：

方差膨胀因子的表达式如下：

其中R_i为以变量x_i为因变量，其余x_j(j＝1,2,…,m)为自变量作回归分析的复相关系数。它是诊断多重共线性严重程度的常用指标之一。一般，学者建议当VIF≥5或VIF≥10时，可认为自变量间存在严重共线性。

步骤四：主成分分析

如果存在多重共线性，则采用主成分分析法提取出相互独立的主成分因子来代替原始变量，如果不存在，则直接进入下一步骤。主成分分析常常通过以下4步解决：

(1)对原来的p个指标进行标准化，以消除变量在数量极或量纲上的影响。

(2)根据标准化后的数据矩阵求出协方差或相关阵。

(3)求出协方差矩阵的特征根和特征向量。

(4)确定主成分，建立主成分得分函数。

步骤五：采用k-means聚类法对住户进行分类

考虑到住户开窗行为的多样性，采用k-means聚类方法将住户分为消极、中等、积极三类。

这是一种迭代求解的聚类分析算法，其步骤是随机选取k(k＝3)个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离

把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类，没有(或最小数目)聚类中心再发生变化，误差平方和局部最小。

步骤六：对每一类住户分别建立主成分Logistic模型。

p是窗户为开启状态的概率

F₁,…,F_p是主成分因子。

与现有技术相比，本发明的有益效果在于：

(1)相比于传统的Logistic回归，该数学模型可有效消除数据的多重共线性，提高模型的稳定性和准确性。

(2)考虑到实际住户开窗行为的随机性和多样性，采用了k-means聚类方法对住户进行分类，针对每一类住户分别建立主成分Logistic模型，提高预测的准确率。

附图说明

图1：原始数据集的构建流程图

图2：主成分Logistic模型的构建流程图

具体实施方式

以下结合附图和具体实施例来对本发明做进一步的说明。

本发明实施步骤如下：

步骤一：对住宅建筑中卧室的窗户状态和相关参数进行长达一年的连续监测；

采用小米公司的门窗传感器记录窗户状态。当卧室内所有的窗户关闭时，该房间窗户的状态被视为关闭；只要有一个窗户打开，该房间窗户的状态就被视为打开。

基于文献研究，对潜在的开窗驱动因素同时进行监测。室内环境参数采用了ikair公司开发的传感器进行监测，获取包括室内温湿度、CO₂浓度等室内环境数据；室外气象参数(温湿度、太阳辐射强度、风速、风向、降雨、PM2.5浓度等)可从附近的气象站点获取；

步骤二：构建窗户状态及其驱动因素的原始数据集；

步骤三：采用欠采样的方法对不平衡的数据集进行处理；

当遇到不平衡数据时，以总体分类准确率为学习目标的传统分类算法会过多地关注多数类，从而使得少数类样本的分类性能下降。本数据集也存在不平衡的问题，

步骤四：多重共线性诊断

多重共线性关系常增大估计参数的标准误，从而降低模型的稳定性，有时还可出现与实际情况相悖的结果。因此，为了合理地估计和解释一个回归模型，需要对变量进行多重共线性诊断，一般可根据相关系数、方差膨胀因子VIF(the variance inflationfactor)、容许值TOL(Tolerance)诊断：

方差膨胀因子首先由Marquardt于1960年引入的。其表达式如下：

其中R_i为以变量x_i为因变量，其余x_j(j＝1,2,…,m)为自变量作回归分析的复相关系数。它是诊断多重共线性严重程度的常用指标之一。如果x_i与其他m-1个自变量间无线性相关(即R_i＝0)，则VIF＝1；反之VIF大于1。VIF随着R_i的增大而增大，VIF的值愈大，说明变量间的多重共线性程度愈强。同自变量的相关系数指标一样，利用VIF来诊断多重共线性的问题，其临界值不易确定。一般，学者建议当VIF≥5或VIF≥10时，可认为自变量间存在严重共线性。

步骤五：主成分分析

(1)原始数据标准化

设有n个样本，每个样本有p项指标，则原始样本矩阵为：

X＝(X_ij)_n×p i＝1,2,…,n j＝1,2,…,p

为了消除变量在数量级或量纲上的影响，先将原变量标准化变换，标准化变换选择Z-score法，公式为：

X_j为指标j的均数，S_j为指标j的标准差。变换后的标准化矩阵为：

Z＝(ZX_ij)_n×p i＝1,2,…,n j＝1,2,…,p

(2)根据标准化后的数据矩阵求出相关矩阵R。

R＝(r_jk)_n×k j＝1,2,…,p k＝1,2,…,p

r_jk为指标j与指标k的相关系数，

(3)求出相关矩阵R的特征根、特征向量和方差贡献率。

由特征方程式|λI-R|＝0可以求得p个特征根λ_i(i＝1,2,…,p)，将其按按大小顺序排列为λ₁≥λ₂≥…≥λ_p≥0。λ_i等于第i个主成分的方差，反映了各主成分对原变量的权重。每一个特征根对应的特征向量根据以下公式计算：

C_ij为第i个主成分对应于第j个标准化变量的因子载荷。

(4)确定主成分，建立主成分得分函数。

主成分的个数由方差贡献率决定，选取尽量少的k个主成分(k<P)来进行综合评价，同时还要使损失的信息量尽可能少。

建立主成分得分函数：

F_i＝e_1izx₁+e_2izx₂+…+e_pizx_p(i＝1,2,…,p)

步骤六：采用k-means聚类法对住户进行分类

步骤七：对每一类住户分别建立主成分Logistic模型。

p是窗户为开启状态的概率

F₁,…,F_p是主成分因子。

Claims

1.基于实地监测的开窗仿真方法，其特征在于：结合k-means聚类和主成分Logistic回归模型；

步骤1)：构建窗户状态及其潜在驱动因素的原始数据集，窗户状态包括关闭状态、开启状态；

步骤2)：采用欠采样的方法对不平衡的原始数据集进行处理；

步骤3)：多重共线性诊断；

步骤4)：主成分分析：如果存在多重共线性，则采用主成分分析法提取出相互独立的主成分因子来代替原始变量，如果不存在多重共线性，则直接进入下一步骤；

步骤5)：采用k-means聚类法对住户进行分类；

步骤6)：对每一类住户分别建立主成分Logistic回归模型；

所述步骤1)具体为：

通过连续监测窗户状态和室内外环境参数进行数据收集，收集的数据中窗户状态视为目标变量，包括室内外环境参数和时间在内的潜在驱动因素视为解释变量；

将每种潜在驱动因素分别和窗户状态进行单因素Logistic回归，筛选出具有显著性影响的因子p<0.05，构建窗户状态及其潜在驱动因素的原始数据集；

所述步骤2)具体为：欠采样通过保存原始数据集中的所有稀有类别样本，并在原始数据集的丰富类别样本中随机选择与稀有类别样本相等数量的样本，重组为平衡的新数据集；

所述步骤3)具体为：对变量进行多重共线性诊断，根据相关系数、方差膨胀因子VIF、容许值TOL诊断：

方差膨胀因子的表达式如下：

其中R_i为以变量x_i为因变量，其余变量x_j(j＝1,2,…,m)为自变量作回归分析的复相关系数；所述步骤4)主成分分析主要步骤包括：

(1)共有n个样本，每个样本有q项指标，则原始样本矩阵为：

X＝(X_ij)_n×q i＝1,2,…,n j＝1,2,…,q

采用Z-score法对X_ij进行标准化变换，以消除在数量级或量纲上的影响，公式为：

其中，X_j为第j个指标的均数，S_j为第j个指标的标准差，变换后得到的标准化样本矩阵为：

Z＝(ZX_ij)_n×q i＝1,2,…,n j＝1,2,…,q

(2)根据标准化样本矩阵求出相关矩阵R；

R＝(r_jk)_n×k j＝1,2,…,q k＝1,2,…,q

r_jk为第j个指标与第k个指标的相关系数；

(3)求出相关矩阵R的特征根、特征向量和方差贡献率；

由特征方程式|λI-R|＝0求得q个特征根λ_i(i＝1,2,…,q)，将其按大小顺序排列为λ₁≥λ₂≥…≥λ_q≥0；λ_i为第i个主成分的方差，反映各主成分对原变量的权重；每一个特征根对应的特征向量根据以下公式计算：

C_ij为第i个主成分对应于第j个标准化变量的因子载荷；

(4)确定主成分，建立主成分得分函数，主成分的个数由方差贡献率决定；

所述步骤5)基于住户开窗行为的多样性，采用k-means聚类方法将住户分为消极、中等、积极三类；

迭代求解的聚类分析算法，其步骤是：

随机选取3个对象作为初始的聚类中心，所述对象为住户；

然后计算每个对象与各个聚类中心之间的距离

把每个对象分配给距离它最近的聚类中心；

聚类中心以及分配给它的对象就代表一个聚类，每分配一个对象，聚类的聚类中心会根据聚类中现有的对象被重新计算；

这个过程将不断重复直到满足终止条件；

终止条件为没有对象被重新分配给不同的聚类，或没有聚类中心发生变化，或误差平方和局部最小；

所述步骤6)：

P是窗户为开启状态的概率；

F₁,…,F_M是主成分因子。