数据处理方法、数据处理装置、空调系统和存储介质
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种数据处理方法、数据处理装置、空调系统和计算机可读存储介质。
背景技术
暖通空调系统往往具有复杂的系统结构,同时难以避免的涉及到外部环境扰动及很多大滞后不可控因素,例如温度,流量等。而相关技术中的建模方法往往采用数据拟合的方式,但采用拟合的方法,需要较为复杂的数据分析过程,首先需要根据数据的形态选择合适的基函数,同时也需要在不同的范围内建立多条曲线或曲面。对于高维数据,这样的过程会耗费大量的时间。同时,由于系统的多变性,通过拟合的方式建立的模型往往不具备较好的通用性,而且系统具有易变的特性,因此这样的方式无法满足系统实时性建模的需求。
为了解决以上问题,根据被控对象的不确定性,用多个模型来逼近被控对象的全局动态特性,进而基于多个模型,设计相应的控制器,通过合理的模型(控制器)调度策略实现对外界需求的快速响应。在数据信息充足的情况下,利用模糊建模、并利用模糊规则进行子区间划分是一种最常用、较有效的多模型建模方法,模糊模型在线建模方法即是根据输入/输出样本数据集合来提取和优化模糊规则集,并以形成的模糊规则集为模型基础的数据建模方法。
由于大量高维样本数据的存在,在缺乏足够的先验知识的情况下,为了达到模型的精度要求,最直接的方法就是不加挑选地使用所有样本数据作为模糊规则,而这样做就会导致模糊规则的冗余和模型的过度拟合问题,即在某一范围内精度过高、而在其它范围内精度又达不到要求的问题。于此同时,模型包含的模糊规则集会越来越庞大,给模糊推理及模糊模型的在线更新带来困难。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的一个方面在于提出了一种数据处理方法。
本发明的另一个方面在于提出了一种数据处理装置。
本发明的再一个方面在于提出了一种空调系统。
本发明的又一个方面在于提出了一种计算机可读存储介质。
有鉴于此,根据本发明的一个方面,提出了一种数据处理方法,包括:获取空调设备的运行数据;对运行数据进行聚合处理;根据聚合处理后的运行数据建立空调设备的模糊模型。
在样本数据充足的情况下,模糊模型集合冗余及过拟合产生的原因主要是其中包含的样本数据的信息存在重叠,即几条模糊前件和后件相似的样本数据都被加入到模糊模型集合中。因此,要实现模糊规则提取需要解决的关键问题就是如何在不确定模糊模型应该包含哪些工况的情形下,将样本数据按工况范围划分成几个样本集合,使同一个样本集合中的数据有尽量大的相似性,而不同样本集合间的数据有尽量大的相异性。在该技术方案中,对运行数据进行聚合处理,以及根据聚合处理后的运行数据建立空调设备的模糊模型,从而避免模糊规则的冗余和模型的过度拟合问题,以及避免模糊规则集越来越庞大而导致的模糊模型在线更新困难。
根据本发明的上述数据处理方法,还可以具有以下技术特征:
在上述技术方案中,运行数据包括第一运行输入数据和第二运行输入数据,对运行数据进行聚合处理的步骤,具体包括:对第一运行输入数据和第二运行输入数据进行聚合处理。
在该技术方案中,第一运行输入数据可以为多个已有运行输入数据,而第二运行输入数据可以为多个新增运行输入数据,以满足系统实时性建模的需求。将已有运行输入数据和新增运行输入数据一起进行聚合,划分成几个样本集合,使同一个样本集合中的数据有尽量大的相似性,而不同样本集合间的数据有尽量大的相异性。
在上述任一技术方案中,对第一运行输入数据和第二运行输入数据进行聚合处理的步骤,具体包括:计算第一运行输入数据的密度指标值;将第二运行输入数据作为聚合中心,按照第一预存半径阈值对第一运行输入数据和第二运行输入数据进行聚合;计算聚合剩余的第一运行输入数据的密度指标值,并获取聚合剩余的第一运行输入数据的密度指标值中的最大密度指标值;确定最大密度指标值大于预存指标阈值,将最大密度指标值对应的第一运行输入数据更新为聚合中心,按照第二预存半径阈值对聚合剩余的第一运行输入数据进行聚合,直至聚合剩余的第一运行输入数据的密度指标值中的最大密度指标值小于或等于预存指标阈值。
减法聚类算法核心思想是对邻域密度指标函数的处理,某个数据点周围的样本数据越多且越集中地靠近该点,那么该点的邻域密度指标值就越大。在算法执行的初期,各个样本数据都被看作可能的聚类中心,同时为各个样本点定义邻域密度指标函数;然后根据各数据点密度指标值的大小以迭代的方式逐个提取聚类中心,直到剩余数据点的密度指标值都小于给定阈值。
在该技术方案中,首先计算所有已有运行输入数据(第一运行输入数据)的初始密度指标值,对于新增运行输入数据(第二运行输入数据)可能存在如下两种情况:一种是已有运行输入数据中没有距离新增运行输入数据很近的点,此时新增运行数据(包括新增运行输入数据和新增运行输出数据)应该作为一条新的规则加入到模糊模型中;另外一种是当前模糊规则中已经有距离新增运行输入数据很近的点,由于新增运行输出数据中包含了最新的设备运行信息,因此应该用新增运行数据替换既有的聚类中心,因此,无论哪种情况新增运行数据都有必要作为一条新的模糊规则保留下来,即将新增运行输入数据赋予较大的初始密度指标值,使其作为第一个聚合中心,按照第一预存半径阈值对第一运行输入数据和第二运行输入数据进行聚合。计算聚合剩余的已有运行输入数据(即未聚合的已有运行输入数据)的密度指标值,继续按照第二预存半径阈值对未聚合的已有运行输入数据进行聚合,直到未聚合的已有运行输入数据的密度指标值都小于预存指标阈值,聚类终止。通过本发明的技术方案,避免模糊规则冗余。
在上述任一技术方案中,在计算第一运行输入数据的密度指标值之前,还包括:对第一运行输入数据和第二运行输入数据进行归一化处理。
在该技术方案中,为了使不同的运行输入数据拥有相同的权重值,在进行数据聚合之前,将所有运行输入数据的属性进行归一化。归一化公式如公式(1),公式(1)如下:
其中,ak,i为第i个运行输入数据Ii中的第k个聚类属性,pk,i表示ak,i归一化后的结果,max(ak)与min(ak)分别表示所有运行输入数据中第k个聚类属性的最大值与最小值。
在上述任一技术方案中,还包括:获取空调设备的当前运行输入数据;根据当前运行输入数据,利用空调设备的模糊模型输出当前运行输出数据。
在该技术方案中,建立出空调设备的模糊模型后,即提取出模糊规则后,即可通过模糊模型得到空调设备不同的当前运行输入数据下的预测运行输出数据。通过合理的模糊模型调度策略满足被控对象(空调设备的运行数据)的不确定性,实现对外界需求的快速响应。
根据本发明的另一个方面,提出了一种数据处理装置,包括:存储器,存储器被配置为存储有计算机程序;处理器,处理器被配置为执行计算机程序时实现:获取空调设备的运行数据;对运行数据进行聚合处理;根据聚合处理后的运行数据建立空调设备的模糊模型。
在样本数据充足的情况下,模糊模型集合冗余及过拟合产生的原因主要是其中包含的样本数据的信息存在重叠,即几条模糊前件和后件相似的样本数据都被加入到模糊模型集合中。因此,要实现模糊规则提取需要解决的关键问题就是如何在不确定模糊模型应该包含哪些工况的情形下,将样本数据按工况范围划分成几个样本集合,使同一个样本集合中的数据有尽量大的相似性,而不同样本集合间的数据有尽量大的相异性。在该技术方案中,对运行数据进行聚合处理,以及根据聚合处理后的运行数据建立空调设备的模糊模型,从而避免模糊规则的冗余和模型的过度拟合问题,以及避免模糊规则集越来越庞大而导致的模糊模型在线更新困难。
根据本发明的上述数据处理装置,还可以具有以下技术特征:
在上述技术方案中,运行数据包括第一运行输入数据和第二运行输入数据,处理器执行对运行数据进行聚合处理,具体包括:对第一运行输入数据和第二运行输入数据进行聚合处理。
在该技术方案中,第一运行输入数据可以为多个已有运行输入数据,而第二运行输入数据可以为多个新增运行输入数据,以满足系统实时性建模的需求。将已有运行输入数据和新增运行输入数据一起进行聚合,划分成几个样本集合,使同一个样本集合中的数据有尽量大的相似性,而不同样本集合间的数据有尽量大的相异性。
在上述任一技术方案中,处理器执行对第一运行输入数据和第二运行输入数据进行聚合处理,具体包括:计算第一运行输入数据的密度指标值;将第二运行输入数据作为聚合中心,按照第一预存半径阈值对第一运行输入数据和第二运行输入数据进行聚合;计算聚合剩余的第一运行输入数据的密度指标值,并获取聚合剩余的第一运行输入数据的密度指标值中的最大密度指标值;确定最大密度指标值大于预存指标阈值,将最大密度指标值对应的第一运行输入数据更新为聚合中心,按照第二预存半径阈值对聚合剩余的第一运行输入数据进行聚合,直至聚合剩余的第一运行输入数据的密度指标值中的最大密度指标值小于或等于预存指标阈值。
减法聚类算法核心思想是对邻域密度指标函数的处理,某个数据点周围的样本数据越多且越集中地靠近该点,那么该点的邻域密度指标值就越大。在算法执行的初期,各个样本数据都被看作可能的聚类中心,同时为各个样本点定义邻域密度指标函数;然后根据各数据点密度指标值的大小以迭代的方式逐个提取聚类中心,直到剩余数据点的密度指标值都小于给定阈值。
在该技术方案中,首先计算所有已有运行输入数据(第一运行输入数据)的初始密度指标值,对于新增运行输入数据(第二运行输入数据)可能存在如下两种情况:一种是已有运行输入数据中没有距离新增运行输入数据很近的点,此时新增运行数据(包括新增运行输入数据和新增运行输出数据)应该作为一条新的规则加入到模糊模型中;另外一种是当前模糊规则中已经有距离新增运行输入数据很近的点,由于新增运行输出数据中包含了最新的设备运行信息,因此应该用新增运行数据替换既有的聚类中心,因此,无论哪种情况新增运行数据都有必要作为一条新的模糊规则保留下来,即将新增运行输入数据赋予较大的初始密度指标值,使其作为第一个聚合中心,按照第一预存半径阈值对第一运行输入数据和第二运行输入数据进行聚合。计算聚合剩余的已有运行输入数据(即未聚合的已有运行输入数据)的密度指标值,继续按照第二预存半径阈值对未聚合的已有运行输入数据进行聚合,直到未聚合的已有运行输入数据的密度指标值都小于预存指标阈值,聚类终止。通过本发明的技术方案,避免模糊规则冗余。
在上述任一技术方案中,处理器执行计算机程序时还实现:对第一运行输入数据和第二运行输入数据进行归一化处理。
在该技术方案中,为了使不同的运行输入数据拥有相同的权重值,在进行数据聚合之前,将所有运行输入数据的属性进行归一化。归一化公式如公式(1),公式(1)如下:
其中,ak,i为第i个运行输入数据Ii中的第k个聚类属性,pk,i表示ak,i归一化后的结果,max(ak)与min(ak)分别表示所有运行输入数据中第k个聚类属性的最大值与最小值。
在上述任一技术方案中,处理器执行计算机程序时还实现:获取空调设备的当前运行输入数据;根据当前运行输入数据,利用空调设备的模糊模型输出当前运行输出数据。
在该技术方案中,建立出空调设备的模糊模型后,即提取出模糊规则后,即可通过模糊模型得到空调设备不同的当前运行输入数据下的预测运行输出数据。通过合理的模糊模型调度策略满足被控对象(空调设备的运行数据)的不确定性,实现对外界需求的快速响应。
根据本发明的再一个方面,提出了一种空调系统,包括:空调设备;以及如上述任一项的数据处理装置。
根据本发明的又一个方面,提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一技术方案的数据处理方法。
本发明提供的计算机可读存储介质,计算机程序被处理器执行时实现如上述任一技术方案的数据处理方法的步骤,因此该计算机可读存储介质包括上述任一技术方案的数据处理方法的全部有益效果。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本发明的一个实施例的数据处理方法的流程示意图;
图2示出了本发明的一个实施例的数据处理方法的流程示意图;
图3示出了本发明的一个实施例的数据处理方法的流程示意图;
图4示出了本发明一个具体实施例的建模方法的示意图;
图5示出了本发明一个具体实施例的模糊模型减法聚类在线建模方法的流程示意图;
图6所示为本发明一个具体实施例的水泵的模糊模型示意图;
图7所示为本发明一个具体实施例的冷却塔的模糊模型示意图;
图8示出了本发明的一个实施例的数据处理装置的示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不限于下面公开的具体实施例的限制。
本发明第一方面的实施例,提出一种数据处理方法,图1示出了本发明的一个实施例的数据处理方法的流程示意图。其中,该方法包括:
步骤102,获取空调设备的运行数据;
步骤104,对运行数据进行聚合处理;
步骤106,根据聚合处理后的运行数据建立空调设备的模糊模型。
在样本数据充足的情况下,模糊模型集合冗余及过拟合产生的原因主要是其中包含的样本数据的信息存在重叠,即几条模糊前件和后件相似的样本数据都被加入到模糊模型集合中。因此,要实现模糊规则提取需要解决的关键问题就是如何在不确定模糊模型应该包含哪些工况的情形下,将样本数据按工况范围划分成几个样本集合,使同一个样本集合中的数据有尽量大的相似性,而不同样本集合间的数据有尽量大的相异性。在该实施例中,对运行数据进行聚合处理,以及根据聚合处理后的运行数据建立空调设备的模糊模型,从而避免模糊规则的冗余和模型的过度拟合问题,以及避免模糊规则集越来越庞大而导致的模糊模型在线更新困难。
图2示出了本发明的一个实施例的数据处理方法的流程示意图。其中,该方法包括:
步骤202,获取空调设备的运行数据;
步骤204,对运行数据中的第一运行输入数据和第二运行输入数据进行聚合处理;
步骤206,根据聚合处理后的运行数据建立空调设备的模糊模型。
在该实施例中,第一运行输入数据可以为多个已有运行输入数据,而第二运行输入数据可以为多个新增运行输入数据,以满足系统实时性建模的需求。将已有运行输入数据和新增运行输入数据一起进行聚合,划分成几个样本集合,使同一个样本集合中的数据有尽量大的相似性,而不同样本集合间的数据有尽量大的相异性。
在上述任一实施例中,步骤204,对运行数据中的第一运行输入数据和第二运行输入数据进行聚合处理,具体包括:计算第一运行输入数据的密度指标值;将第二运行输入数据作为聚合中心,按照第一预存半径阈值对第一运行输入数据和第二运行输入数据进行聚合;计算聚合剩余的第一运行输入数据的密度指标值,并获取聚合剩余的第一运行输入数据的密度指标值中的最大密度指标值;确定最大密度指标值大于预存指标阈值,将最大密度指标值对应的第一运行输入数据更新为聚合中心,按照第二预存半径阈值对聚合剩余的第一运行输入数据进行聚合,直至聚合剩余的第一运行输入数据的密度指标值中的最大密度指标值小于或等于预存指标阈值。
减法聚类算法核心思想是对邻域密度指标函数的处理,某个数据点周围的样本数据越多且越集中地靠近该点,那么该点的邻域密度指标值就越大。在算法执行的初期,各个样本数据都被看作可能的聚类中心,同时为各个样本点定义邻域密度指标函数;然后根据各数据点密度指标值的大小以迭代的方式逐个提取聚类中心,直到剩余数据点的密度指标值都小于给定阈值。
在该实施例中,首先计算所有已有运行输入数据(第一运行输入数据)的初始密度指标值,对于新增运行输入数据(第二运行输入数据)可能存在如下两种情况:一种是已有运行输入数据中没有距离新增运行输入数据很近的点,此时新增运行数据(包括新增运行输入数据和新增运行输出数据)应该作为一条新的规则加入到模糊模型中;另外一种是当前模糊规则中已经有距离新增运行输入数据很近的点,由于新增运行输出数据中包含了最新的设备运行信息,因此应该用新增运行数据替换既有的聚类中心,因此,无论哪种情况新增运行数据都有必要作为一条新的模糊规则保留下来,即将新增运行输入数据赋予较大的初始密度指标值,使其作为第一个聚合中心,按照第一预存半径阈值对第一运行输入数据和第二运行输入数据进行聚合。计算聚合剩余的已有运行输入数据(即未聚合的已有运行输入数据)的密度指标值,继续按照第二预存半径阈值对未聚合的已有运行输入数据进行聚合,直到未聚合的已有运行输入数据的密度指标值都小于预存指标阈值,聚类终止。通过本发明的实施例,避免模糊规则冗余。
在上述任一实施例中,在计算第一运行输入数据的密度指标值的步骤之前,还包括:对第一运行输入数据和第二运行输入数据进行归一化处理。
在该实施例中,为了使不同的运行输入数据拥有相同的权重值,在进行数据聚合之前,将所有运行输入数据的属性进行归一化。归一化公式如公式(1),公式(1)如下:
其中,ak,i为第i个运行输入数据Ii中的第k个聚类属性,pk,i表示ak,i归一化后的结果,max(ak)与min(ak)分别表示所有运行输入数据中第k个聚类属性的最大值与最小值。
图3示出了本发明的一个实施例的数据处理方法的流程示意图。其中,该方法包括:
步骤302,获取空调设备的运行数据;
步骤304,对运行数据中的第一运行输入数据和第二运行输入数据进行聚合处理;
步骤306,根据聚合处理后的运行数据建立空调设备的模糊模型;
步骤308,获取空调设备的当前运行输入数据;根据当前运行输入数据,利用空调设备的模糊模型输出当前运行输出数据。
在该实施例中,建立出空调设备的模糊模型后,即提取出模糊规则后,即可通过模糊模型得到空调设备不同的当前运行输入数据下的预测运行输出数据。通过合理的模糊模型调度策略满足被控对象(空调设备的运行数据)的不确定性,实现对外界需求的快速响应。
在具体实施例中,以空调系统的冷冻站设备(如水泵)为例,如图4所示,首先获取水泵的扬程和转速比数据(采样数据集合),其次将水泵的扬程和转速比数据进行聚类(采样数据聚类),最后根据聚类后的数据建立模糊模型(模糊规则提取),其中H为水泵的扬程,w为转速比。以下对聚类部分和模糊模型及规则提取部分进行详细说明。
一、聚类部分
在聚类算法中,如K-means,模糊c-means,G-K聚类等需要事先给定初始聚类中心的数量及其大致的分布范围或初始位置,然后建立相应的目标函数并随着算法的迭代,对这些目标函数进行优化并调整初始聚类中心的位置直到算法收敛。而这些初始值的设定都会对聚类的结果造成影响,如果取值不当甚至会导致算法无法收敛。
不同于以上方法,邻域密度聚类算法是基于数据的邻域密度对数据集合进行自适应划分,若数据样本的邻域密度大于等于某个给定阈值时,就在它们中选取密度最大的作为一个聚类中心,直到最后剩余数据样本的密度指标都小于该给定阈值,该给定阈值即界定了某些相似数据是否值得独立成类。
基于邻域密度聚类算法不需要人为给定聚类中心的数目以及初始聚类中心位置,而是逐步提取各个分散簇类中的特征点作为聚类中心。随着样本数据的动态变化,选取的聚类中心的数目和位置也会相应变化,因而更适用于从动态产生的样本数据中提取模糊规则。减法聚类算法是一种具有代表性的邻域密度聚类算法,该算法实现简单,计算复杂度低,鲁棒性强,被广泛应用于模式识别领域。
减法聚类算法的核心思想是对邻域密度指标函数的处理,某个数据点周围的样本数据越多且越集中地靠近该点,那么该点的邻域密度指标值就越大。在算法执行的初期,各个样本数据都被看作可能的聚类中心,同时为各个样本点定义邻域密度指标函数;然后根据各数据点邻域密度指标值的大小以迭代的方式逐个提取聚类中心,直到剩余数据点的密度值都小于给定阈值。此时这些剩余数据点的分布要么远远偏离其他数据点,要么与某个既有聚类中心非常接近,因此,它们不应该作为新的聚类中心,聚类终止。
设由聚类中心组成的模糊前件集合为{I1,I2,I3,…,IK},模糊规则总数为K,其中每个前件向量是由m个聚类属性组成的m维特征向量Ii={a1,i,a2,i,a3,i,…,am,i},{O1,O2,O3,…,OK}为对应的模糊后件集合,其中Oi={b1,i,b2,i,b3,i,…,bn,i}是由n个输出值组成的n维特征向量,{Ia,Oa}表示新样本数据。此时减法聚类的输入向量集合为I={I1,I2,I3,…,IK,Ia},模糊模型减法聚类在线建模方法的流程图如图5所示,其中主要步骤包括:
步骤502,新样本数据聚类属性加入到现有聚类中心集合,并进行各属性归一化。为了使不同的属性拥有相同的权重值,应该将所有输入向量的属性进行归一化,归一化公式如公式(1),公式(1)如下:
其中,ak,i为第i个运行输入数据Ii中的第k个聚类属性,pk,i表示ak,i归一化后的结果,max(ak)与min(ak)分别表示所有运行输入数据中第k个聚类属性的最大值与最小值。
步骤504,计算集合中各个向量的密度指标,利用公式(2)计算密度指标Di。
其中,ra为预设距离(半径)。
步骤506,对新样本数据进行标记,并尽量使其替换旧的模糊规则。
步骤508,选择当前具有最大密度指标的向量作为下一个聚类中心。
在减法聚类过程中,Ia可能存在如下两种情况:一种是既有聚类中心中没有距离Ia很近的点,此时{Ia,Oa}应该作为一条新的规则加入到模糊模型中;另外一种是当前规则中已经有距离Ia很近的点,由于Oa中包含了最新的设备运行信息,因此应该用{Ia,Oa}替换既有的聚类中心。因此,无论哪种情况{Ia,Oa}都有必要作为一条新的模糊规则保留下来,而将Ia赋予较大的初始密度指标值可以很大概率满足这一要求。所以,利用公式(3)赋予新样本数据的输入向量Ia以较大的初始密度指标,并选取其作为第一个聚类中心,其密度值为Dc,1。
其中,max(Di)表示既有聚类中心初始密度指标中的最大值,λ为取值系数,当λ大于1时,Ia将作为第一个聚类中心保留下来。
步骤510,利用该聚类中心对剩余向量的密度指标进行修正。利用公式(4)修正每个剩余输入向量的密度值。
其中,Ic,k为第k个被选为聚类中心的输入向量,Dc,k为第k个被选为聚类中心的输入向量的密度值,rb为预设距离(半径)。
步骤512,判断是否满足收敛条件,若满足则停止聚类,若不满足则返回步骤508。选取修正后的密度值中的最大值对应的输入向量作为新的聚类中心点,如果该最大值小于阈值ξ0,则聚类结束。
减法聚类在线建模算法的时间复杂度主要由两部分组成,如果用x表示每个输入向量的维数,y表示输入向量个数,z表示算法迭代次数(z≤y),则有:计算各个数据的密度指标的时间复杂度为O(mp2);迭代中更新各个数据密度指标并选取聚类中心的时间复杂度为O(kmp),因此算法的时间复杂度T=O(mp2)+O(kmp)。可以看出随着输入向量维度的增加,T呈线性增长,而随着数据个数的增加,T呈平方增长。由于本实施例提出的算法每次只保留上一次的聚类结果,参与聚类计算的样本数量比输入全部历史数据时少了很多,从而使算法的时间复杂度显著减少。
二、模糊模型及规则提取部分
以水泵模糊模型的在线模糊建模为例进行论述。通常,在实时数据驱动下的在线建模方法中,用于建立模糊规则的参数(或变量)可以是不同工况下水泵的扬程和转速比,即
Ipmp={[H1,ω1],[H2,ω2],…,[Hi,ωi],…,[Hn,ωn]}
其中,H为水泵的扬程(单位为mH2O),w为转速比,Ipmp为水泵输入向量;i=1,2,…,n,n为数据样本数量。
由水泵的运行特性可知,每一组扬程和转速比都对应着水泵的一组功率和流量,这里以水泵的功率和流量作为输出向量,即有
Opmp={[P1,Q1],[P2,Q2],…,[Pi,Qi],…,[Pn,Qn]}
其中,P为水泵的功率(单位为kW或W),Q为流量(单位为m3/s),Opmp为水泵输出向量,i=1,2,…,n,n为数据样本数量。
则有变频水泵的模糊模型:
第k条模糊规则Rk为if Ipmp k then Opmp k
其中,k=1,2,…,m,m为水泵模糊规则的条数。
根据以上内容即可得到变频水泵模糊模型的模糊规则在线提取的基本思路,首先,在实际运行中,获取水泵上述输入向量Ipmp和输出向量Opmp的时间序列数据;其次,通过相应的在线学习方法,从时间序列数据中挑选出具有能够代表水泵在不同工况范围(子区间)下运行特性的数据模型,以作为提取水泵模糊模型(即模糊规则)的样本数据模型;最后,经在线学习后即可构建出水泵的模糊模型,如图6所示为水泵的模糊模型。
当提取出模糊规则后,即可通过模糊推理得到水泵在某工况(对应不同的扬程和转速比)下的预测输出值,即该工况下的水泵功率和流量。
在实际规则提取中,假设要提取的规则为R’,其前件为I’pmp,则I’pmp对既有规则Rk的前件Ipmp k的隶属度可用如下高斯分布隶属函数来描述
其中,rpmp为既有模糊规则在输入变量空间分布范围的当量半径;μk(I’pmp)为当前工况下变频水泵输入向量I’pmp对既有规则前件Ipmp k的隶属函数,其隶属度值反映了当前输入向量与各既有规则前件之间的距离大小。
上面公式(5)的物理意义是,当μk(I’pmp)→0时,说明当前输入向量I’pmp到既有规则Rk前件Ipmp k距离越来越大于当量半径rpmp,即当前工况距离既有规则所描述的工况越来越远,亦即现有规则无法描述当前工况,此时就应该新增规则来描述当前工况。反之,当μk(I’pmp)→1时,说明当前工况距离既有规则所描述的工况就越近,亦即现有规则就越能够描述当前工况,此时就没有必要新增规则。
若需要新增规则,则需要将“if I’pmp then O’pmp”作为一条新的规模加入模糊规则集中,即
R’pmp=Rpmp∪{I’pmp,O’pmp}
其中,Rpmp表示既有模糊规则集;R’pmp表示新增规则后所形成的模糊规则集。
另外,尽管上述模糊规则提取思路是以变频水泵为例来进行论述的,但其该思路也同样适用于冷冻站其它设备,例如,如图7所示为冷却塔的模糊模型。
本发明第二方面的实施例,提出一种数据处理装置,图8示出了本发明的一个实施例的数据处理装置600的示意框图。其中,该数据处理装置600包括:
存储器602,存储器602被配置为存储有计算机程序;
处理器604,处理器604被配置为执行计算机程序时实现:
获取空调设备的运行数据;对运行数据进行聚合处理;根据聚合处理后的运行数据建立空调设备的模糊模型。
在样本数据充足的情况下,模糊模型集合冗余及过拟合产生的原因主要是其中包含的样本数据的信息存在重叠,即几条模糊前件和后件相似的样本数据都被加入到模糊模型集合中。因此,要实现模糊规则提取需要解决的关键问题就是如何在不确定模糊模型应该包含哪些工况的情形下,将样本数据按工况范围划分成几个样本集合,使同一个样本集合中的数据有尽量大的相似性,而不同样本集合间的数据有尽量大的相异性。在该实施例中,对运行数据进行聚合处理,以及根据聚合处理后的运行数据建立空调设备的模糊模型,从而避免模糊规则的冗余和模型的过度拟合问题,以及避免模糊规则集越来越庞大而导致的模糊模型在线更新困难。
在上述实施例中,运行数据包括第一运行输入数据和第二运行输入数据,处理器604执行对运行数据进行聚合处理,具体包括:对第一运行输入数据和第二运行输入数据进行聚合处理。
在该实施例中,第一运行输入数据可以为多个已有运行输入数据,而第二运行输入数据可以为多个新增运行输入数据,以满足系统实时性建模的需求。将已有运行输入数据和新增运行输入数据一起进行聚合,划分成几个样本集合,使同一个样本集合中的数据有尽量大的相似性,而不同样本集合间的数据有尽量大的相异性。
在上述任一实施例中,处理器604执行对第一运行输入数据和第二运行输入数据进行聚合处理,具体包括:计算第一运行输入数据的密度指标值;将第二运行输入数据作为聚合中心,按照第一预存半径阈值对第一运行输入数据和第二运行输入数据进行聚合;计算聚合剩余的第一运行输入数据的密度指标值,并获取聚合剩余的第一运行输入数据的密度指标值中的最大密度指标值;确定最大密度指标值大于预存指标阈值,将最大密度指标值对应的第一运行输入数据更新为聚合中心,按照第二预存半径阈值对聚合剩余的第一运行输入数据进行聚合,直至聚合剩余的第一运行输入数据的密度指标值中的最大密度指标值小于或等于预存指标阈值。
减法聚类算法核心思想是对邻域密度指标函数的处理,某个数据点周围的样本数据越多且越集中地靠近该点,那么该点的邻域密度指标值就越大。在算法执行的初期,各个样本数据都被看作可能的聚类中心,同时为各个样本点定义邻域密度指标函数;然后根据各数据点密度指标值的大小以迭代的方式逐个提取聚类中心,直到剩余数据点的密度指标值都小于给定阈值。
在该实施例中,首先计算所有已有运行输入数据(第一运行输入数据)的初始密度指标值,对于新增运行输入数据(第二运行输入数据)可能存在如下两种情况:一种是已有运行输入数据中没有距离新增运行输入数据很近的点,此时新增运行数据(包括新增运行输入数据和新增运行输出数据)应该作为一条新的规则加入到模糊模型中;另外一种是当前模糊规则中已经有距离新增运行输入数据很近的点,由于新增运行输出数据中包含了最新的设备运行信息,因此应该用新增运行数据替换既有的聚类中心,因此,无论哪种情况新增运行数据都有必要作为一条新的模糊规则保留下来,即将新增运行输入数据赋予较大的初始密度指标值,使其作为第一个聚合中心,按照第一预存半径阈值对第一运行输入数据和第二运行输入数据进行聚合。计算聚合剩余的已有运行输入数据(即未聚合的已有运行输入数据)的密度指标值,继续按照第二预存半径阈值对未聚合的已有运行输入数据进行聚合,直到未聚合的已有运行输入数据的密度指标值都小于预存指标阈值,聚类终止。通过本发明的实施例,避免模糊规则冗余。
在上述任一实施例中,处理器604执行计算机程序时还实现:对第一运行输入数据和第二运行输入数据进行归一化处理。
在该实施例中,为了使不同的运行输入数据拥有相同的权重值,在进行数据聚合之前,将所有运行输入数据的属性进行归一化。归一化公式如公式(1),公式(1)如下:
其中,ak,i为第i个运行输入数据Ii中的第k个聚类属性,pk,i表示ak,i归一化后的结果,max(ak)与min(ak)分别表示所有运行输入数据中第k个聚类属性的最大值与最小值。
在上述任一实施例中,处理器604执行计算机程序时还实现:获取空调设备的当前运行输入数据;根据当前运行输入数据,利用空调设备的模糊模型输出当前运行输出数据。
在该实施例中,建立出空调设备的模糊模型后,即提取出模糊规则后,即可通过模糊模型得到空调设备不同的当前运行输入数据下的预测运行输出数据。通过合理的模糊模型调度策略满足被控对象(空调设备的运行数据)的不确定性,实现对外界需求的快速响应。
本发明第三方面的实施例,提出了一种空调系统,包括:空调设备;以及如上述任一项的数据处理装置。
本发明第四方面的实施例,提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一实施例的数据处理方法。
本发明提供的计算机可读存储介质,计算机程序被处理器执行时实现如上述任一实施例的数据处理方法的步骤,因此该计算机可读存储介质包括上述任一实施例的数据处理方法的全部有益效果。
在本说明书的描述中,术语“第一”、“第二”仅用于描述的目的,而不能理解为指示或暗示相对重要性,除非另有明确的规定和限定;术语“连接”、“安装”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。