发明内容
本发明的目的是提供一种火电机组数据获取方法及系统,能够更准确地选取出火电站机组的参数变量数据。本发明还提供一种火电机组数据处理方法。
为实现上述目的,本发明提供如下技术方案:
一种火电机组数据获取方法,包括:
选取火电机组的多个参数变量;
获取火电机组的各个所述参数变量的数据,对获得数据统计分析,根据分析结果从多个所述参数变量中选取出相关度满足预设要求的预设数量个目标参数变量;
获取火电机组的各个所述目标参数变量的数据,将获得数据建成数据集。
优选的,根据分析结果从多个所述参数变量中选取出相关度满足预设要求的预设数量个目标参数变量包括:根据以下公式选取:
目标为:/>
其中,β0表示初始的回归系数,βj表示第j参数变量的回归系数,xij表示第j参数变量对应的向量,s≥0表示调节参数,Y1=Xβ1,X表示由各个参数变量对应的向量构成的矩阵,p表示p个参数变量,n表示n个参数变量。
优选的,获取火电机组的各个所述目标参数变量的数据,将获得数据建成数据集包括:获取火电机组的各个所述目标参数变量的数据,对获得数据进行聚类分析,将聚类得到的数据建成数据集。
优选的,对获得数据进行聚类分析使用的目标函数包括误差平方和准则函数,表示为:
其中,Y为n×d矩阵,n表示样本数量,d表示特征数量,A表示权向量,bi表示任意给定的大于零的常数。
优选的,对获得数据进行聚类分析包括:
获取火电机组的各个所述目标参数变量的数据,将获得数据划分为多个分区;
对于每一分区内数据,按照距离最小原则划分类别;
对于每一分区,根据本分区包含的数据数量,按照预设规则确定本分区的聚类中心的数量,并进入下一次迭代;
在第一次迭代之后的每一次迭代中,对于每一分区,当本分区的聚类中心相对于本分区上一次迭代的聚类中心的变化满足要求时停止迭代。
优选的,可使用的距离函数包括:
欧式距离:
或者闵氏距离:
或者曼哈顿距离:d(xi,xj)=|xi1-xj1|+|xi2-xj2|+…+|xir-xjr|;
其中,(xi1,…,xir)、(xj1,…,xjr)分别表示两个不同点的坐标。
优选的,对获得数据统计分析之前还包括:对获取的火电机组的各个所述参数变量的数据进行标准化处理。
优选的,标准化处理方法包括:x′=(x-minA)/(maxA-minA);
其中,x表示属性A的初始数据,x′表示属性A经处理后的数据,minA、maxA分别表示属性A的最小值和最大值。
一种火电机组数据获取系统,用于执行以上所述的火电机组数据获取方法。
一种火电机组数据处理方法,对数据集的数据进行处理,所述数据集为采用以上所述的火电机组数据获取方法获得。
由上述技术方案可知,本发明所提供的一种火电机组数据获取方法及系统,首先选取火电机组的多个参数变量,获取火电机组的各个参数变量的数据,对获得数据统计分析,根据分析结果从多个参数变量中选取出相关度满足预设要求的预设数量个目标参数变量,进一步获取火电机组的各个目标参数变量的数据,将获得数据建成数据集。
本发明的火电机组数据获取方法及系统,通过对机组各个参数变量的数据统计分析以分析各个参数变量之间的相关度,根据相关度从中选取出目标参数变量,进而使用目标参数变量的数据建成火电机组的数据集,与现有技术由人工根据经验选取的方法相比,能够更准确地选取出火电机组的参数变量以获得火电机组数据。
本发明提供的一种火电机组数据处理方法,能够达到上述有益效果。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
请参考图1,图1为本发明实施例提供的一种火电机组数据获取方法的流程图,由图可知,所述火电机组数据获取方法包括以下步骤:
S10:选取火电机组的多个参数变量。
在实际应用中,对于火力发电机组,可以根据现场经验或者相关资料分析得到所需的火电机组的多个参数变量,确定所选取参数变量的数量。可选的,火电机组的参数变量可以是但不限于过量空气系数、二次风分配、一次风煤粉气流初温、燃烧器摆角、煤粉分配、煤粉细度或者煤质等。
S11:获取火电机组的各个所述参数变量的数据,对获得数据统计分析,根据分析结果从多个所述参数变量中选取出相关度满足预设要求的预设数量个目标参数变量。
根据选取确定的多个参数变量,可以从火电机组的历史数据中获取数据,可以获取火电机组不同工况时的各个参数变量的数据。
利用获取到的火电机组各个参数变量的数据,对获得数据进行统计分析,分析各个参数变量之间的相关度,具体可以对各个参数变量的数据进行回归分析,从数据提取特征进行分析。分析各个参数变量数据之间的相关度。
具体的,可根据对各个参数变量的相关度分析结果,从中选出相关度较高的若干个参数变量。优选可根据以下公式从多个参数变量中选取出预设数量个目标参数变量:
目标为:/>
其中,β0表示初始的回归系数,βj表示第j参数变量的回归系数,xij表示第j参数变量对应的向量,s≥0表示调节参数,Y1=Xβ1,X表示由各个参数变量对应的向量构成的矩阵,p表示p个参数变量,n表示n个参数变量,p≤n。
根据上述分析方法,会将变量系数率先被压缩为0的参数变量先删除,最终留下所需数量的参数变量,上述分析方法可以准确地选取出相关度较高的变量并剔除相关度较低的变量。在本发明其它实施例中也可采用其它方法通过对火电机组的各个参数变量数据进行统计分析,从中选出相关度满足预设要求的目标参数变量,也都在本发明保护范围内。
在实际的对获得的火电机组各个参数变量数据的处理过程中,由于各个参数变量数据之间的量纲不同,并且不同参数变量数据之间可能相差很多数量级,如果直接使用原始数据进行分析,不容易获得各个参数变量间的关系。因此优选的,在对获得数据分析之前,需要对获取的火电机组的各个参数变量的数据分别进行标准化处理,使得各个参数变量数据的数量级接近,便于数据分析。可选的,可采用Min-max标准化处理方法对数据进行标准化处理,Min-max标准化处理方法属于线性变换的一种,表示为:x′=(x-minA)/(maxA-minA);其中,x表示属性A的初始数据,x′表示属性A经处理后的数据,minA、maxA分别表示属性A的最小值和最大值。另外需要说明书的是,本发明方法不限于采用上述标准化方法,也可以采用其它标准化方法对数据进行标准化处理,都在本发明保护范围内。
S12:获取火电机组的各个所述目标参数变量的数据,将获得数据建成数据集。
根据确定的目标参数变量,可以获取火电机组不同工况的各个目标参数变量的数据,将获得数据建成数据集。建立的数据集可以用于火电机组的各种数据处理应用中。
本实施例的火电站机组数据获取方法,通过对机组各个参数变量的数据统计分析以分析各个参数变量之间的相关度,根据相关度从中选取出目标参数变量,进而使用目标参数变量的数据建成火电机组的数据集,与现有技术由人工根据经验选取的方法相比,能够更准确地选取出火电机组的参数变量以及获得火电机组数据。
进一步优选的,本实施例方法中在获取火电机组的各个目标参数变量的数据,将获得数据建成数据集包括:获取火电机组的各个所述目标参数变量的数据,对获得数据进行聚类分析,将聚类得到的数据建成数据集。对于火电机组的各个参数变量数据,具有维数高、数量大、比较复杂的性质,而在对数据的处理应用时有些应用要求输入数据具有确定性,或者要求数据输入顺序与预设顺序一致,或者需要输入数据具有很高的聚类质量的特点,因此本实施例方法对获取到的火电机组各个目标参数变量的数据进行聚类分析,筛选出其中具有代表性的数据,来构建数据集,有助于提高后续数据处理的效率和准确性。
具体请参考图2,图2为本实施例中对获得数据聚类分析的方法流程图,可根据以下过程对获得数据聚类分析,包括以下步骤:
S120:获取火电机组的各个目标参数变量的数据,将获得数据划分为多个分区。
S121:对于每一分区内数据,按照距离最小原则划分类别。
将距离函数作为聚类运算相似性度量的评价指标,按照距离最小原则将数据划分类别。可选的,距离函数可以使用欧式距离函数、闵氏距离函数或者曼哈顿距离函数,具体如下:
欧式距离:
闵氏距离:
曼哈顿距离:d(xi,xj)=|xi1-xj1|+|xi2-xj2|+…+|xir-xjr|;
其中,(xi1,…,xir)、(xj1,…,xjr)分别表示两个不同点的坐标。其中可以看出,当式中的t=2时,闵氏距离就变成了欧式距离。因此可以将欧氏距离看成闵氏距离的一个特殊应用形式。
优选的,本步骤中可适当添加邻域归属信息度量来对数据的划分给予指导作用,从而提高算法的准确度。
S122:对于每一分区,根据本分区包含的数据数量,按照预设规则确定本分区的聚类中心的数量,并进入下一次迭代。
预设规则为预先设定的聚类中心的数量与本分区包含的数据数量的比例。在实际应用中,可以根据经验法综合考虑后续利用数据集预测建模的精度与速度对本次聚类的要求,设定聚类中心的数量与本分区包含的数据数量的比例,进而根据这一预设的比例以及本分区包含的数据数量确定出聚类中心的数量。示例性的,预设规则中设定聚类中心的数量与本分区包含的数据数量的比例为1:100。
本方法中由于没有初始的聚类中心,在第一次获取聚类中心时,不选择读取聚类中心。
S123:在第一次迭代之后的每一次迭代中,对于每一分区,当本分区的聚类中心相对于本分区上一次迭代的聚类中心的变化满足要求时停止迭代。示例性的,可设置当本分区的聚类中心相对于本分区上一次迭代的聚类中心的变化小于初始聚类中心最小距离的2%时停止迭代。
可选的,本实施例中对获得数据进行聚类分析使用的目标函数可以是误差平方和准则函数,表示为:
其中,Y为n×d矩阵,n表示样本数量,d表示特征数量,A表示权向量,bi表示任意给定的大于零的常数。该函数在每次的迭代过程中都会考察样本分类的正确性。
在实际应用中,可以根据确定的目标参数变量,获取火电机组不同工况的各个目标参数变量的数据,通过对获得数据聚类分析,获得火电机组不同工况的各个目标参数变量代表性的数据,其中可包括在不同工况下火电机组处于最佳运行状态时的各个目标参数变量数据,从而构建成数据集。
因此本实施例的火电机组数据获取方法,对于通过相关度分析选取出的目标参数变量,进一步对目标参数变量的数据进行聚类分析,挖掘出更具有代表性的数据来构建数据集,降低了数据集的数据量,获得数据更精简且更具有代表性,可以使得后续利用数据集的应用中提高运算速度,提高运算精度。
相应的,本发明实施例还提供一种火电机组数据获取系统,用于执行以上所述的火电机组数据获取方法。
本实施例的火电站机组数据获取系统,通过对机组各个参数变量的数据统计分析以分析各个参数变量之间的相关度,根据相关度从中选取出目标参数变量,进而使用目标参数变量的数据建成火电机组的数据集,与现有技术由人工根据经验选取的方法相比,能够更准确地选取出火电机组的参数变量以获得火电机组数据。
相应的,本发明实施例还提供一种火电机组数据处理方法,对数据集的数据进行处理,所述数据集为采用以上所述的火电机组数据获取方法获得。
本实施例的火电机组数据处理方法,所使用的数据集是通过对机组各个参数变量的数据统计分析以分析各个参数变量之间的相关度,根据相关度从中选取出目标参数变量,进而使用目标参数变量的数据建成火电机组的数据集,与现有技术由人工根据经验选取的方法相比,数据集包含的数据更准确,有助于提高火电机组数据处理的效率和准确性。
可选的,本实施例的火电机组数据处理方法可以是利用建成的数据集中数据训练模型,所训练的模型可以是针对火电机组的预测模型。
以上对本发明所提供的一种火电机组数据获取方法、系统及数据处理方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。