火电机组的数据筛选方法、装置以及计算机设备
技术领域
本发明涉及火电工业数据检查技术,特别涉及一种火电机组的数据筛选方法、装置以及计算机设备。
背景技术
随着数字化控制技术的发展,DCS、PLC和SIS等系统已广泛应用于火电机组实际运行过程中,存储了海量的运行数据。这些数据中包含了机组系统设备的状态信息、故障信息、生产指标等重要信息,对工业生产过程的深度挖掘分析具有重要价值意义。而异常数据通常是由于系统或设备故障引起的数据异常,其变化机理复杂多变,筛选检测相对难度较大。
传统技术中存在如下技术问题:
传统技术中常用的火电机组工业数据的筛选检测方法,主要有人工筛选方法和机器学习分析方法。人工筛选方法主要依赖专家经验,存在误判或漏判的风险,效率较低,而机器学习分析方法将数据聚类成不同的簇,将偏离其他簇的小簇作为异常点群。但该技术生成簇的数量、模型参数选择方面存在不确定性,难以保障簇的质量。因此,传统技术未能完全满足对火电机组海量数据的筛选和检测。
发明内容
本发明的目的在于针对传统技术中的不足,提供一种火电机组的数据筛选方法、装置以及系统。
本发明实施例提供了一种火电机组的数据筛选方法,包括:
计算工况段数据集合中第一特征向量分别与各聚类工况数据集合中第二特征向量之间的第一距离;以及各第一距离的距离总和;
分别计算各第一距离占距离总和的比重;
根据各比重计算第一特征向量对应的工况段数据集合的信息熵;
计算由各信息熵构成的信息熵集合的均方差;
基于各信息熵、均方差以及预定判定系数,得到各信息熵的概率分布曲线和在概率分布曲线上的判定区间;
筛选超出判定区间对应的信息熵,并将筛选出的信息熵对应的工况段数据集合作为异常数据集合。
在其中一个实施例中,工况段数据集合为火电机组的待筛选数据样本集合中时间点相邻且属于同一预设工况的数据样本的子集;
数据筛选方法还包括:
在计算第一距离之前,根据各预设工况,基于k-means聚类算法将待筛选数据样本集合分割为各工况段数据集合。
在其中一个实施例中,聚类工况数据集合为在工况段数据集合之间的工况相似度大于或等于预设工况相似度时合并得到的集合;
数据筛选方法还包括:
在计算第一距离之前,根据预设工况相似度,基于DBSCAN聚类分析算法在工况段数据集合之间的工况相似度大于或等于预设工况相似度时进行合并,得到聚类工况数据集合。
在其中一个实施例中,数据筛选方法还包括:
在将待筛选数据样本集合分割为各工况段数据集合之后,将工况段数据集合中的聚类中心作为第一特征向量。
在其中一个实施例中,数据筛选方法还包括:
在得到聚类工况数据集合之后,将聚类工况数据集合中的聚类中心作为第二特征向量。
在其中一个实施例中,数据筛选方法还包括:
在计算第一距离之前,根据预设的数据样本个数和时间范围,获取火电机组的原始数据样本集合;
对原始数据样本集合进行预处理得到待筛选数据样本集合;预处理包括缺失值处理以及噪声处理。
在其中一个实施例中,预设工况的参数包括火电机组的运行负荷、煤热值、煤硫分、煤的挥发分、热电比以及环境温度。
在其中一个实施例中,比重基于以下公式得到:
其中,p(Li)表示第i个工况段数据集合中第一特征向量对应的比重;Li表示第i个工况段数据集合中的第一特征向量;表示第j个聚类工况数据集合中的第二特征向量;表示第i个工况段数据集合的第一特征向量与第j个聚类工况数据集合的第二特征向量的第一距离;表示第k个聚类工况数据集合的第二特征向量;表示第i个工况段数据集合的第一特征向量分别与各聚类工况数据集合的第二特征向量之间的第一距离的距离总和;m表示聚类工况数据集合的个数;o表示由各第二特征向量构成的集合。
另一方面,在一个实施例中,本发明还提供了一种火电机组的数据检测装置,包括:
距离计算模块,用于计算工况段数据集合中第一特征向量分别与各聚类工况数据集合中第二特征向量之间的第一距离;以及各第一距离的距离总和;
比重换算模块,用于分别计算各第一距离占距离总和的比重;
信息熵换算模块,用于根据各比重计算第一特征向量对应的工况段数据集合的信息熵;
均方差换算模块,用于计算由各信息熵构成的信息熵集合的均方差;
判定条件获取模块,用于基于各信息熵、均方差以及预定判定系数,得到各信息熵的概率分布曲线和在概率分布曲线上的判定区间;
筛选模块,用于筛选超出判定区间对应的信息熵,并将筛选出的信息熵对应的工况段数据集合作为异常数据集合。
另一方面,在一个实施例中,本发明还提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现火电机组的数据筛选方法。
上述技术方案中的一个技术方案具有如下优点和有益效果:
本发明的火电机组的数据筛选方法、装置以及计算机设备,基于工况段数据集合中第一特征向量与各聚类工况数据集合中第二特征向量之间的第一距离,以及各第一距离的距离总和,得到各第一距离占距离总和的比重,即获取到对应的工况段数据集合分别与各聚类工况数据集合的相似度和密集程度。进一步地,可根据比重计算出对应的工况段数据集合的信息熵,并基于各信息熵的概率分布曲线实现对信息熵的筛选,以确定出异常的工况段数据集合。本发明各实施例能够根据信息熵对火电机组的待筛选数据样本集合进行分析,快速有效地衡量出数据的确定性,并智能高效地筛选出火电机组的异常数据信息。同时,优化了对火电机组海量数据的处理和筛选过程,进一步地降低了选取难度、时间成本以及筛选精度。
附图说明
图1为本发明的一个实施方式提供的火电机组的数据筛选方法的流程示意图;
图2为本发明的一个实施方式提供的火电机组的数据筛选方法中各信息熵的概率分布曲线示意图;
图3为本发明的一个实施方式提供的火电机组的数据筛选方法中预处理的流程示意图;
图4为本发明的一个实施方式提供的火电机组的数据筛选方法的具体流程示意图;
图5为本发明的一个实施方式提供的火电机组的数据检测装置结构示意图;
图6为本发明的一个实施方式提供的计算机设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图结合实施例,对本发明进一步详细说明。
参见图1,本发明实施例提供了一种火电机组的数据筛选方法,包括:
步骤S110:计算工况段数据集合中第一特征向量分别与各聚类工况数据集合中第二特征向量之间的第一距离;以及各所述第一距离的距离总和。
具体而言,火电机组的工业数据在时间上是连续的,同时,随时间的变化机组的运行负荷、煤热值、煤硫分、煤发挥分、热电比以及环境温度也随之变化,因此,可根据运行负荷、煤热值、煤硫分、煤发挥分、电热比的大小以及环境温度的高低划分多个工况。进一步地,可根据应用需求,在指定的时间段内采集火电机组产生的相应数据样本作为待筛选数据样本集合,并将该待筛选数据样本集合进行分段,其分段原则为时间点相邻且属于同一工况的数据样本的子集作为工况段数据集合。进一步地,将各工况段数据集合进行分组合并,因为时间不相邻的工况段数据集合存在相似工况的情况,因此将高度相似的工况段数据集合进行合并作为聚类工况数据集合。其中,可采用DBCSAN聚类算法,将高度相似的工况段数据集合进行聚类合并,得到聚类工况数据集合,其工况相似度可根据需求预先设定。
进一步地,工况段数据集合为高维度数据集合,其中,第一特征向量为用于表示所在工况段数据集合的特征信息,是具有代表性的数据点,包括火电机组在工业生产过程中生成的如温度、压力、流量、液位、风量以及氧量等参数点。第二特征向量为用于表示聚类工况数据集合的特征信息。进一步地,第一距离和距离总和可以但不局限于为欧式距离或cos(Cosine Distance)余弦距离。
步骤S120:分别计算各第一距离占距离总和的比重。
具体而言,工况段数据集合的第一特征向量与聚类工况数据集合的第二特征向量越相似,则该第一特征向量和对应的聚类工况数据集合的第二特征向量的距离越小,进而表示该第一特征向量对应的工况段数据集合与对应的聚类工况数据集合越密集,对应的第一距离越小,即该第一距离占距离总和的比重越小。反之,若工况段数据集合的第一特征向量与对应的聚类工况数据集合的第二特征向量越不相似,则该第一特征向量和对应的聚类工况数据集合的第二特征向量的距离越大,进而表示该第一特征向量对应的工况段数据集合与对应的聚类工况数据集合越稀疏,对应的第一距离越大,即该第一距离占距离总和的比重越大。
本发明实施例的火电机组的数据筛选方法,基于第一距离和距离总和可得到第一特征向量与第二特征向量的相似度,以及对应的工况段数据集合与各聚类工况数据集合的密集程度,有助于计算对应的信息熵,得到工况段数据集合的确定性。本发明实施例能够提升对火电机组数据进行检测的效率和自动化程度,同时可减小误判的风险从而提高检测精度。
步骤S130:根据各比重计算第一特征向量对应的工况段数据集合的信息熵。
具体而言,信息熵对随机事件具有不确定性度量的特点,可衡量火电机组的待筛选数据样本的确定性。确定性越高,则信息熵越小,发生的概率越大,即数据就越有可能属于正常运行模式,即为正常工况数据。确定性越低,则信息熵越大,发生的概率越小,即数据偏离正常工况的运行模式,即为异常数据。其中,信息熵相当于所有可能发生事件带来的信息量的期望,基于以下公式得到:
p(Li)表示第i个工况段数据集合的第一特征向量对应的比重即作为可能发生的事件的概率,其中,可能发生的事件相当于上述步骤S120中第一特征向量对应的各第一距离,距离总和相当于所有可能发生事件的总和;Li表示第i个工况段数据集合的第一特征向量,logp(i)表示第i个工况段数据集合中p(Li)对应的可能发生事件的信息量,n表示第一距离的数目即可能发生事件的个数,ei表示第i个工况段数据集合的信息熵。
步骤S140:计算由各信息熵构成的信息熵集合的均方差。
例如,各信息熵构成的信息熵集合可表示如下为:E={e1,e2,e3……ej}。其中,ej表示为工况段数据集合对应的信息熵,j表示工况段数据集合的个数。
步骤S150:基于各信息熵、均方差以及预定判定系数,得到各信息熵的概率分布曲线和在概率分布曲线上的判定区间。
具体而言,根据大量样本数据信息熵的分析统计,火电机组的各工况段数据集合的信息熵数据的概率分布曲线符合正态分布。进而根据信息熵、均方差以及预定判定系数得到的信息熵集合的概率分布曲线可为正态分布曲线。如图2所示,σ表示均方差,μ表示各信息熵构成的信息熵集合的均值。其中,预定判定系数较优地可取2或3,表示在该概率分布曲线上判定区间以信息熵集合均值对应所在位置为对称中心往两边,并距离信息熵集合均值为2个均方差位置或3个均方差位置。在本实施例中,在信息熵数据的概率分布曲线上,工况段数据集合越趋向于正常其信息熵对应的位置越接近于信息熵集合均值对应的所在位置,反之,工况段数据集合越趋向于异常其信息熵对应的位置越远离信息熵集合的均值对应所在位置。
本发明实施例的火电机组的数据筛选方法,通过信息熵、均方差以及判定系数,得到符合信息熵集合的概率分布曲线和判定区间,进而可确定出远离信息熵集合均值对应的所在位置的信息熵对应的工况段数据集合。
步骤S160:筛选超出判定区间对应的信息熵,并将筛选出的信息熵对应的工况段数据集合作为异常数据集合。
具体而言,如图2所示,基于上述步骤S150的概率分布曲线,越往两端分布的点表示该点对应的事件发生的概率越小,越往中间靠近的点表示该点对应的事件发生的概率较大。基于此,对于火电机组在工业生产过程产生的数据而言,异常的工况段数据集合的不确定性较大信息熵较大即发生的概率较小。例如如图2,在信息熵集合的概率分布曲线上,信息熵对应的点不在判定区间内时,则将超出该判定区间如(-2σ,2σ)或(-3σ,3σ)对应的信息熵筛选出,将筛选出的信息熵对应的工况段数据集合作为异常数据集合。
本发明实施例的火电机组的数据筛选方法,可通过信息熵的概率分布曲线,实现对异常的工况段数据集合的筛选,准确度高,可很大程度防止漏选或误选的情况发生。
本发明的火电机组的数据筛选方法,基于工况段数据集合中第一特征向量与各聚类工况数据集合中第二特征向量的第一距离,以及各第一距离的距离总和,得到各第一距离占距离总和的比重,即获取到对应的工况段数据集合分别与各聚类工况数据集合的相似度和密集程度。进一步地,可根据比重计算出对应的工况段数据集合的信息熵,并基于各信息熵的概率分布曲线实现对信息熵的筛选,以确定出异常的工况段数据集合。本发明实施例能够根据信息熵对火电机组的待筛选数据样本集合进行分析,快速有效地衡量出数据的确定性,并智能高效地筛选出火电机组的异常数据信息。同时,优化了对火电机组海量数据的处理和筛选过程,进一步地降低了选取难度、时间成本以及检测精度。
在一个具体的实施例中,工况段数据集合为火电机组的待筛选数据样本集合中时间点相邻且属于同一预设工况的数据样本的子集;
数据筛选方法还包括:
在计算第一距离之前,根据各预设工况,基于k-means聚类算法将待筛选数据样本集合分割为各工况段数据集合。
具体而言,k-means聚类算法是应用于连续性数据的一种算法,可将数据划分成不同区间。在本发明实施例中,火电机组的待筛选数据样本集合为在时间上连续的数据,为按照预设工况将该待筛选数据样本集合分为多个子集,以反映出随时间变化火电机组在工业生产过程中工况的变化,因此,可通过k-means自动聚类划分,并采用组内平方和误差的方式确定出每一子集中数据样本的数目,将待筛选数据样本集合按照预设工况分割成多段子集。
本发明实施例的火电机组的数据筛选方法,其k-means算法简单且运算快,可将火电机组的待筛选数据样本集合按照预设工况自动分割成多个工况段数据集合。进而通过划分的各工况段数据集合可准确反映出工况在不同时间段的变化,同时能够保证生成集合的质量,有助于提高异常数据集合的筛选精度。
在一个具体的实施例中,聚类工况数据集合为在工况段数据集合之间的工况相似度大于或等于预设工况相似度时合并得到的集合;
数据筛选方法还包括:
在计算第一距离之前,根据预设工况相似度,基于DBSCAN聚类分析算法在工况段数据集合之间的工况相似度大于或等于预设工况相似度时进行合并,得到聚类工况数据集合。
具体而言,DBSCAN聚类分析算法是基于密度的聚类算法,通过数据集合是否紧密相连来判断数据集合之间是否属于同一簇。因此,基于DBSCAN聚类分析算法,相似度越高的数据集之间的距离越近,其密集程度越高,由此可将密度高的数据集合归为一簇。本发明实施例的各工况段数据集合为高维度的数据集合,因此可基于计算第一特征向量之间的距离得到工况段数据集合之间的工况相似度。因此,根据各预设工况相似度,并基于DBSCAN聚类分析算法将相互之间工况相似度大于或等于预设工况相似度的工况段数据集合进行合并,得到聚类工况数据集合。
本发明实施例的火电工业的数据筛选方法,其DBSCAN聚类分析算法能够将具有足够高密度的区域划分为一簇,可根据预设工况相似度将各工况段数据集合自动合并成各聚类工况数据集合。本发明实施例自动化程度高,优化了对火电机组海量数据的处理过程,同时有助于提高对异常数据集合筛选的精度。
在一个具体的实施例中,数据筛选方法还包括:
在将待筛选数据样本集合分割为各工况段数据集合之后,将工况段数据集合中的聚类中心作为第一特征向量。
具体而言,本实施例的聚类中心为通过k-means聚类后最终得到的工况段数据集合中的各数据样本的均值。聚类中心是高维度的工况段数据集合中具有代表性的数据点,其能够反映出所在工况段数据集合的基本信息。
本发明实施例的火电机组的数据筛选方法,可通过k-means聚类完成对火电机组的待筛选数据集合分割成各工况段数据集合后,得到能够反映对应工况段数据集合特征的聚类中心并作为第一特征向量,可便于对信息熵的换算提供依据,提高对火电机组异常数据筛选的效率。
在一个具体的实施例中,数据筛选方法还包括:
在得到聚类工况数据集合之后,将聚类工况数据集合中的聚类中心作为第二特征向量。
具体而言,本实施例的聚类中心为通过DBSCAN聚类分析算法最终得到的聚类工况数据集合中各数据样本的均值。聚类中心是高维度的聚类工况数据集合中具有代表性的数据点,其能够反映出所在聚类工况数据集合的基本信息。
本发明实施例的火电机组的数据筛选方法,可通过DBSCAN聚类分析算法完成对各工况段数据集合的合并得到各聚类工况数据集合后,得到反映聚类工况数据集合的聚类中心并作为第二特征向量。可便于对判断数据集合的相似度和信息熵的换算提供依据,提高对火电机组异常数据筛选的效率。
参见图3,在一个具体的实施例中数据筛选方法还包括:
步骤S210:在计算第一距离之前,根据预设的数据样本个数和时间范围,获取火电机组的原始数据样本集合。
具体而言,火电机组包括锅炉侧、汽机侧等设备侧,对每一设备侧建模进行数据分析时所需的数据样本个数和时间范围不同,如锅炉侧系统建模需要2016年的20个数据样本,如汽机侧系统建模需要2017年的30个数据样本。其中,每个数据样本为一个数据采样点且包括的参数有温度、压力、流量、液位、风量以及氧量等。因此,为确保数据正确性从而得到准确的模型,在建模前对所需数据样本进行筛选。进而,如需获取对应火电机组设备侧的原始数据样本集合,可根据时间范围以及数据样本个数得到。
步骤S220:对原始数据样本集合进行预处理得到待筛选数据样本集合;预处理包括缺失值处理以及噪声处理。
具体而言,火电机组在工业过程生产中生成的数据存在数据缺失、噪声不一致等问题,导致原始数据样本不完整。由此,可对原始数据样本进行缺失值处理以及噪声处理等以得到完整的待筛选数据样本集合。其中,缺失值处理的方法包括临近值平均法、插值法等,以填补缺失数据。
本发明实施例的火电机组的数据筛选方法,可对火电机组的原始数据样本集合进行预处理以得到完整的待筛选数据样本集合,从而减少对异常数据集合进行处理筛选时造成的误差。
在一个具体的实施例中,比重基于以下公式得到:
其中,p(Li)表示第i个工况段数据集合的第一特征向量对应的比重;Li表示第i个工况段数据集合中第一特征向量;表示第j个聚类工况数据集合中的第二特征向量;表示第i个工况段数据集合的第一特征向量与第j个聚类工况数据集合的第二特征向量的第一距离;表示第k个聚类工况数据集合的第二特征向量;表示第i个工况段数据集合的第一特征向量分别与各聚类工况数据集合的第二特征向量之间的第一距离的距离总和;m表示聚类工况数据集合的个数;o表示由各第二特征向量构成的集合。
本发明实施例的火电机组的数据筛选方法,基于第一距离和距离总和可得到第一特征向量与第二特征向量的相似度,以及对应的工况段数据集合与各聚类工况数据集合的密集程度,有助于计算对应的信息熵,得到工况段数据集合的确定性。本发明实施例能够提升对火电机组数据进行检测的效率和自动化程度,同时可减小误判的风险从而提高检测精度。
在一个具体的实施例中,预设工况的参数包括火电机组的运行负荷、煤热值、煤硫分、煤的挥发分、热电比以及环境温度。
本发明实施例的火电机组的数据筛选方法,火电机组在工业生产过程中的工况包括运行负荷、煤热值、煤硫分、煤的挥发分、热电比以及环境温度等参数,为便于分析火电机组在不同时间段的工况变化情况,从而更加准确的对数据进行处理筛选,可根据运行负荷、煤热值、煤硫分、煤发挥分、电热比的大小以及环境温度的高低划分多个工况并预先设定。本发明实施例通过预设工况能够快速将火电机组的待筛选数据样本集合进行分段,可提高数据处理的效率。
参见图4,作为一优选的实施例,本发明实施例的火电机组的数据筛选方法,包括:
步骤S310:火电机组的原始数据样本集合采集。
具体而言,确定数据样本类型和时间范围,从数据库中采集所需数据样本,其中数据库可以为DCS数据库、SIS数据等。
步骤S320:原始数据样本集合预处理,得到待筛选数据样本集合。
具体而言,对原始数据样本的预处理包括缺失值处理和噪声处理。其中,待筛选数据样本集合可标记为:D={D1,D2,D3,D4,Di……Dq},(1≤i≤q),Di表示对应时间范围内相应时间点的多维数据样本,q表示数据样本即采样点的数目。
步骤S330:对待筛选数据样本集合利用k-means聚类算法进行自动分割,得到各工况段数据集合。
具体而言,可标记为:其中,为由各工况段数据集合构成的集合,jm为工况段数据集合的个数。
步骤S340:工况段数据集合的特征信息提取。
具体而言,在各工况段数据集合中提取聚类中心作为第一特征向量表示对应工况段数据集合的特征信息,标记为Li=(X1,X2,X3,Xj……Xt)T,其中,Li表示对应的工况段数据集合的聚类中心即第一特征向量,t为数据样本即该聚类中心包含的参数点个数,Xj为数据样本即该聚类中心中的参数点。
步骤S350:将各工况段数据集合利用DBCSAN聚类算法进行合并,得到聚类工况数据集合。
具体而言,可标记为:O={C1,C2,C3,Ck……Cjn},(1≤k≤jm),其中O为各聚类工况数据集合构成的集合,Cjn为聚类工况数据集合,jn为聚类工况数据集合的个数。
步骤S360:聚类工况数据集合的特征信提取。
具体而言,在各聚类工况数据集合中提取聚类中心作为第二特征向量,表示对应聚类工况数据集合的特征信息。标记为(1≤a≤z),其中,表示对应的聚类工况数据集合的聚类中心即第二特征向量,z为数据样本即该聚类中心包含的参数点个数,为数据样本即该聚类中心的参数点。
步骤S370:信息熵的计算。
具体而言,按照信息熵的计算公式计算每个工况段数据集对应的信息熵。信息熵的计算公式如下:
其中,
其中,p(Li)表示第i个工况段数据集合的第一特征向量对应的比重;Li表示第i个工况段数据集合中第一特征向量;表示第j个聚类工况数据集合中的第二特征向量;表示第i个工况段数据集合的第一特征向量与第j个聚类工况数据集合的第二特征向量的第一距离;表示第k个聚类工况数据集合的第二特征向量;表示第i个工况段数据集合的第一特征向量分别与各聚类工况数据集合的第二特征向量之间的第一距离的距离总和;m表示聚类工况数据集合的个数;o表示由各第二特征向量构成的集合。
步骤S380:异常数据集合筛选。
具体而言,基于上述步骤S370得到信息熵数据集合E={e1,e2,e3……ej}。其中,ej表示为工况段数据集合对应的信息熵,j表示工况段数据集合的个数。经统计分析,各工况段的信息熵符合正态分布,计算信息熵数据集合的均值以及均方差,采用kσ判定准则筛选出异常数据集合,其中,k可取2或3,σ为均方差。其中,kσ为在信息熵数据集合的概率分布曲线上的判定区间,若信息熵对应的点在该判定区间内,则该判定区间内信息熵对应的工况段数据集合为正常数据集合,若信息熵对应的点超出该判定区间,则该判定区间外信息熵对应的工况段数据集合为异常的数据集合。
本发明实施例的火电机组的数据筛选方法,基于信息熵集合的概率分布曲线实现对信息熵的筛选,以确定出异常的工况段数据集合。优化了对火电机组海量数据的处理和筛选过程,进一步地降低了选取难度、时间成本以及筛选精度。
应该理解的是,虽然图1、图3、图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1、图3、图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
参见图5,在一个实施例中,本发明还提供了一种火电机组的数据筛选装置,包括:
距离计算模块410,用于计算工况段数据集合中第一特征向量分别与各聚类工况数据集合中第二特征向量之间的第一距离;以及各第一距离的距离总和;
比重换算模块420,用于分别计算各第一距离占距离总和的比重;
信息熵换算模块430,用于根据各比重计算第一特征向量对应的工况段数据集合的信息熵;
均方差换算模块440,用于计算由各信息熵构成的信息熵集合的均方差;
判定条件获取模块450,用于基于各信息熵、均方差以及预定判定系数,得到各信息熵的概率分布曲线和在概率分布曲线上的判定区间;
筛选模块460,用于筛选超出判定区间对应的信息熵,并将筛选出的信息熵对应的工况段数据集合作为异常数据集合。
本发明实施例的火电机组的数据筛选装置,基于工况段数据集合中第一特征向量与各聚类工况数据集合中第二特征向量的第一距离,以及各第一距离的距离总和,得到各第一距离占距离总和的比重,即获取到对应的工况段数据集合分别与各聚类工况数据集合的相似度和密集程度。进一步地,可根据比重计算出对应的工况段数据集合的信息熵,并基于各信息熵的概率分布曲线实现对信息熵的筛选,以确定出异常的工况段数据集合。本发明实施例能够根据信息熵对火电机组的待筛选数据样本集合进行分析,快速有效地衡量出数据的确定性,并智能高效地筛选出火电机组的异常数据信息。同时,优化了对火电机组海量数据的处理和筛选过程,进一步地降低了选取难度、时间成本以及检测精度。
在一个具体的实施例中,工况段数据集合为火电机组的待筛选数据样本集合中时间点相邻且属于同一预设工况的数据样本的子集;
还包括:分割模块,用于在计算第一距离之前,根据各预设工况,基于k-means聚类算法将待筛选数据样本集合分割为各工况段数据集合。
本发明实施例的火电机组的数据筛选装置,其k-means算法简单且运算快,可将火电机组的待筛选数据样本集合按照预设工况分割自动分割成多个工况段数据集合。进而通过划分的各工况段数据集合可准确反映出工况在不同时间段的变化和运行状态,同时能够保证生成集合的质量,有助于提高异常数据集合的筛选精度。
在一个具体的实施例中,聚类工况数据集合为在工况段数据集合之间的工况相似度大于或等于预设工况相似度时合并得到的集合;
还包括合并模块,用于在计算第一距离之前,根据预设工况相似度,基于DBSCAN聚类分析算法在工况段数据集合之间的工况相似度大于或等于预设工况相似度时进行合并,得到聚类工况数据集合。
本发明实施例的火电工业的数据筛选装置,其DBSCAN聚类分析算法能够将具有足够高密度的区域划分为一簇,可根据预设工况相似度将各工况段数据集合自动合并成各聚类工况数据集合。本发明实施例自动化程度高,优化了对火电机组海量数据的处理过程,同时有助于提高对异常数据集合筛选的精度。
在一个具体的实施例中,还包括第一特征向量确定模块,用于在将待筛选数据样本集合分割为各工况段数据集合之后,将工况段数据集合中的聚类中心作为第一特征向量。
本发明实施例的火电机组的数据筛选装置,可通过k-means聚类完成对火电机组的待筛选数据集合分割成各工况段数据集合后,得到能够反映对应工况段数据集合特征的聚类中心并作为第一特征向量,可便于对信息熵的换算提供依据,提高对火电机组异常数据筛选的效率。
在一个具体的实施例中,还包括第二特征向量确定模块,用于在得到聚类工况数据集合之后,将聚类工况数据集合中的聚类中心作为第二特征向量。
本发明实施例的火电机组的数据筛选装置,可通过DBSCAN聚类分析算法完成对各工况段数据集合的合并得到各聚类工况数据集合后,得到反映聚类工况数据集合的聚类中心并作为第二特征向量。可便于对判断数据集合的相似度和信息熵的换算提供依据,提高对火电机组异常数据筛选的效率。
在一个具体的实施例中,还包括:
原始数据获取模块,用于在计算第一距离之前,根据预设的数据样本个数和时间范围,获取火电机组的原始数据样本集合。
预处理模块,用于对原始数据样本集合进行预处理得到待筛选数据样本集合;预处理包括缺失值处理以及噪声处理。
本发明实施例的火电机组的数据筛选装置,可对火电机组的原始数据样本集合进行预处理以得到完整的待筛选数据样本集合,从而减少对异常数据集合进行处理筛选时造成的误差。
关于火电机组的数据筛选装置的具体限定可以参见上文中对于火电机组的数据筛选方法的限定,在此不再赘述。上述火电机组的数据筛选装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
参见图6,在一个实施例中,本发明还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现火电机组的数据筛选方法。
该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种火电机组的数据筛选方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现火电机组的数据筛选方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。