CN113378978B

CN113378978B - 一种基于数据挖掘的试验数据智能分析方法

Info

Publication number: CN113378978B
Application number: CN202110747468.7A
Authority: CN
Inventors: 赵超; 文屹; 吕黔苏; 张迅; 黄军凯; 范强; 陈沛龙; 李欣; 吴建蓉
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2023-11-24
Anticipated expiration: 2041-07-02
Also published as: CN113378978A

Abstract

本发明公开了一种基于数据挖掘的试验数据智能分析方法，该方法为：基于标准试验数据库，结合回归分析，聚类，关联分析算法，对省电网公司的所有试验设备的试验报告数据进行相互比对与聚类分析，全局性地分析计划与试验报告的问题，按地市、按单位、按设备、按试验类型研究试验数据共性规律，提升专业人员研究数据与处理方案的效率及质量。本发明通过基于数据挖掘的试验数据智能分析关键技术研究，实现全省所有试验设备的试验结果数据的深度分析，给相应人员及时了解数据情况与趋势，及时了解设备的综合信息与共性规律问题，为后续的决策分析做辅助支撑，更方便有效的责任追踪与策略制定。

Description

一种基于数据挖掘的试验数据智能分析方法

技术领域

本发明涉及试验数据智能分析技术领域，具体涉及一种基于数据挖掘的试验数据智能分析方法。

背景技术

电力设备预防性试验是电力设备运行和维护工作中一个重要环节,是保证电力设备安全运行的有效手段之一。多年来,电力企业的高压电力设备基本上都是按照标准DL/T596—1996《电力设备预防性试验规程》的要求进行试验的,目前南网已发布最新新的《电力设备检修试验规程》CSG-2017006，它能够准确地诊断出电气设备的运行状况,对及时发现、诊断设备风险起到重要作用。

由于目前6+1生产管理系统的作业指导书模块需要的数据分析时，存在分析不精确，无法为后期的决策提供精确指导。

发明内容

本发明要解决的技术问题是：提供一种基于数据挖掘的试验数据智能分析方法，以解决现有技术中存在的技术问题。

本发明采取的技术方案为：一种基于数据挖掘的试验数据智能分析方法，该方法为：基于构建的标准试验数据库，结合回归分析，聚类，关联分析算法，对省电网公司的所有试验设备的试验报告数据进行相互比对与聚类分析，全局性地分析计划与试验报告的问题，按地市、按单位、按设备、按试验类型研究试验数据共性规律。

上述标准试验数据库的构建方法为：提取文本要素数据特征，结合并行计算技术，基于各类设备建立标准数据结构模型，形成数据标准体系，构建新的标准试验数据库。

上述标准试验数据库的构建方法包括以下具体步骤：

步骤1：从生产管理系统获取试验数据结构体系模型：梳理所有设备在做预防性试验相关的作业指导书，从生产系统获取梳理出来的作业指导书模板和预防性试验数据；

步骤2：构建基于统一标准的试验数据结构体系模型：从生产系统获取的作业指导书模板和预防性试验数据，构成作业指导书模板；分析从生产系统获取的作业指导书模板，并根据实际需要对模板进行完善，形成统一标准模板；同时对于设备出厂交接的试验数据模板，从厂商获取试验数据模板并在系统中生成交接试验版本模板，最终由作业指导书模板、统一标准模板和试验数据模板构建基于统一标准的试验数据结构体系模型。

步骤3：试验数据补录：对于外部系统缺失的试验数据需要在试验数据挖掘智能作业管控系统中进行补录，补录是在基于统一标准的试验数据结构体系模型中选择相应的作业指导书模板，根据已定制的模板在系统中实现试验数据补录功能。

上述文本数据特征提取方法为：从基于统一标准的试验数据机构体系模型中通过数据接口获取文本数据，采用文档频数特征选择算法技术，找到出现次数较多的字段，形成数据标准体系。

上述文档频数特征选择算法为：在训练文本集中对每个特征计算它的文档频数,若该项的DF 值小于某个阈值则将其删除,若其DF值大于某个阈值也将其去掉。

上述一种基于数据挖掘的试验数据智能分析方法包括以下具体步骤：

步骤1），试验设备对应的试验报告版本确定：以试验设备为维度，找出每个试验设备对应该的试验报告，并分析这些试验报告的版本，最后确定试验设备共有几个试验版本；

步骤2），试验报告中的试验项目确定：在试验设备对应的试验报告版本确定后（比如主变压器总共有3个预防性试验报告），可以根据每个试验报告来分析试验报告中的具体试验项目，通过智能分析可以得到试验项目的交集，假设500kV电压等级主变压器所对应的下所有预防性试验报告中都有6个项目；

步骤3），试验项目中的试验参数确定：根据步骤2）中确定的试验项目，通过智能分析可以得到每个试验项目中试验参数的交集，假设500kV电压等级主变压器所对应的下所有预防性试验报告中的500kV油浸式电力变压器预防性试验（电气部分）项目-测量电容型套管的电容量及tan&有相同60个试验参数，就可以确定此试验项目中的试验参数的交集为60个试验参数；

步骤4），试验项目中的试验参数合并配置：根据步骤3）中确定的试验参数，可以对这些试验参数进行合并配置，只有进行合并配置的参数才可以进行相互对比和聚类分析；

步骤5），合并的试验参数进行分析：根据步骤4）中确定的合并配置参数，从二个维度（合格的试验报告，合格的试验报告与不合格的试验报告）出发，通过智能算法，可以对这些配置参数进行相互对比和聚类分析，并可视化展示这些相互对比的数据；

步骤6），试验计划与试验报告的全局性分析和展示：全局性地分析试验计划与试验报告的问题，按地市、按单位、按设备、按试验类型研究试验数据共性规律，并对这些共性规律进行可视化展示；

步骤7），在线监测数据分析和展示：以设备为单位，展示列表或趋势图的形式展示在线监测数据。

本发明的有益效果：与现有技术相比，本发明通过基于数据挖掘的试验数据智能分析，实现全省所有试验设备的试验结果数据的深度分析，给相应人员及时了解数据情况与趋势，及时了解设备的综合信息与共性规律问题，为后续的决策分析做辅助支撑，更方便有效的责任追踪与策略制定。

附图说明

图1是本发明的流程图；

图2是标准试验数据库的构建方法流程图。

具体实施方式

下面结合具体的实施例对本发明进行进一步介绍。

实施例1：一种基于数据挖掘的试验数据智能分析方法，该方法为：基于构建的标准试验数据库，结合回归分析，聚类，关联分析算法，对省电网公司的所有试验设备的试验报告数据进行相互比对与聚类分析，全局性地分析计划与试验报告的问题，按地市、按单位、按设备、按试验类型研究试验数据共性规律。

上述标准试验数据库的构建方法包括以下具体步骤：

回归分析算法技术：

回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。在大数据分析中，它是一种预测性的建模技术，它研究的是因变量y（目标）和影响它的自变量x（预测器）之间的回归模型，从而预测因变量y的发展趋向。当有多个自变量时，可以研究每个自变量x对因变量y的影响强度。

1）Linear Regression线性回归

线性回归也被称为最小二乘回归，通常是人们在学习预测模型时首选的技术之一。在这种技术中，因变量是连续的，自变量可以是连续的也可以是离散的，回归线的性质是线性的。

2）Polynomial Regression多项式回归

在分析数据的时候，我们会遇到不同的数据分布情况，当数据点呈现带状分布的时候我们会选择线性回归的方法去拟合，但是如何数据点是一条曲线的时候使用线性回归的方法去拟合效果就不是那么好了，这个时候我们可以使用多项式回归的方法。多项式回归模型就是利用多项式对数据进行拟合得到的回归模型。

3）Stepwise Regression逐步回归

在处理多个自变量时，我们可以使用这种形式的回归。这种建模技术的目的是使用最少的预测变量数来最大化预测能力。逐步回归法选择变量的过程包含两个基本步骤：一是从回归模型中剔出经检验不显著的变量，二是引入新变量到回归模型中，常用的逐步回归方法有向前法和向后法。

4）Ridge Regression岭回归

岭回归是线性回归的重要改进，增加了误差容忍度。如果数据集合矩阵存在多重共线性（数学上称为病态矩阵），那么线性回归对输入变量中的噪声非常的敏感，如果输入变量x有一个微小的变动，其反应在输出结果上也会变得非常大，其解会极为不稳定。为了解决这个问题，就有了优化算法——岭回归。岭回归通过对系数的大小施加惩罚来解决线性回归的一些问题。

5）Lasso Regression套索回归

套索回归与岭回归类似，会对回归系数的绝对值添加一个罚值。此外，它能降低偏差并提高线性回归模型的精度。与岭回归有一点不同，它在惩罚部分使用的是绝对值，而不是平方值。这导致惩罚（即用以约束估计的绝对值之和）值使一些参数估计结果等于零。使用的惩罚值越大，估计值会越趋近于零。

6）ElasticNet Regression 弹性网络回归

ElasticNet是Lasso和Ridge回归技术的混合体。岭回归是使用二范数（平方项）来对代价函数进行有偏分析。Lasson回归则是使用一范数（绝对值项）对代价函数进行有偏分析。而ElasticNet是将二者结合，即使用平方项又使用绝对值项。

7）Bayesian Regression贝叶斯回归

贝叶斯回归可以用于在预估阶段的参数正则化：正则化参数的选择不是通过人为的选择，而是通过手动调节数据值来实现。

8）Robust Regression稳健回归

当最小二乘法遇到数据样本点存在异常点的时候，Robust回归可用于代替最小二乘法。当然，Robust回归还可以用于异常点检测，或者是找出那些对模型影响最大的样本点。

9）RandomForestRegressor随机森林回归

随机森林可以应用在分类和回归问题上。实现这一点，取决于随机森林的每颗cart树是分类树还是回归树。如果是回归树，则cart树是回归树，采用的原则是最小均方差。

10）SVR支持向量回归

SVR回归，就是找到一个回归平面，让一个集合的所有数据到该平面的距离最近。由于数据不可能都在回归平面上，距离之和还是挺大，因此所有数据到回归平面的距离可以给定一个容忍值防止过拟合。该参数是经验参数，需要人工给定。

11）Decision Tree Regressor决策树回归

决策树模型是运用于分类以及回归的一种树结构。决策树由节点和有向边组成，一般一棵决策树包含一个根节点、若干内部节点和若干叶节点。决策树的决策过程需要从决策树的根节点开始，待测数据与决策树中的特征节点进行比较，并按照比较结果选择选择下一比较分支，直到叶子节点作为最终的决策结果。

12）Poisson Regression泊松回归

泊松回归用于描述单位时间、单位面积或者单位容积内某事件发现的频数分布情况，通常用于描述稀有事件（即小概率）事件发生数的分布。

聚类分析算法技术：

聚类（Clustering）分析有一个通俗的解释和比喻，那就是“物以类聚，人以群分”。针对几个特定的业务指标，可以将观察对象的群体按照相似性和相异性进行不同群组的划分。经过划分后，每个群组内部个对象间的相似度会很高，而在不同群组之间的对象彼此间将具有很高的相异度。

聚类技术一方面本身就是一种模型技术，通过有效聚类后的结果常常可以直接指导落地应用实践；另一方面聚类技术又常常作为数据分析过程中前期进行数据摸底和数据清洗、数据整理（数据转换）的工具，在实践应用中有多样性、多元性等特点。

1）聚类分析的典型应用场景

可以说，聚类分析的典型应用场景是非常普遍的，业务团队几乎每天都要碰到。比如说，把付费用户按照几个特定的唯独，如利率贡献率、用户年龄、续费次数等进行聚类分析，得到不同特征的群体。

举个例子：在将付费用户进行聚类分析后，其中一个群体所占的付费人数是40%，其特征的用户年龄是25岁左右，利润贡献不大，但是续费次数多；另外一个群体，占总付费用人数的15%，而该特征的群体是用户年龄咋40岁以上，利润贡献比较大，但是续费次数不多。

2）主要聚类算法分类

划分的方法（Partitioning Method）;

层次的方法（Hierarchical Method）;

基于密度的方法（Density-based Method）;

基于网格的方法（Grid-based Method）;

基于模型的方法（Model-based Method）

（1）划分的方法（Partitioning Method）

当给定m个对象的数据集，以及希望生成的细分群体数量K后，即可采用这种方法将这些对象分为K组（要求K不超过m），使得每个组内对象时想死的，而组建是相异的。最常用的方法是K-Means方法，其具体原理是：

step1: 随机选择K个对象，并且所选择的每个对象都代表一个组的初始均值或初始组中心值；

step2: 对剩余的每个对象，根据其余各个组初始均值或初始中心值得距离远近，将他们分配给最近的（最相似）小组；

step3: 重新计算每个小组新的均值；

Step4：这个过程不断重复，直到所有的对象在K组分布中都找到离自己最近的组。

（2）层次的方法（Hierarchical Method）

指依次让最相似的数据对象两两合并，这样不断的合并，最终就形成了一个聚类数。

关联分析算法技术：

关联分析是一种简单、实用的分析技术，就是发现存在于大量数据集中的关联性或相关性，从而描述了一个事物中某些属性同时出现的规律和模式。

关联分析是从大量数据中发现项集之间有趣的关联和相关联系。关联分析的一个典型例子是购物篮分析。该过程通过发现顾客放入其购物篮中的不同商品之间的联系，分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买，这种关联的发现可以帮助零售商制定营销策略。其他的应用还包括价目表设计、商品促销、商品的排放和基于购买模式的顾客划分。

可从数据库中关联分析出形如“由于某些事件的发生而引起另外一些事件的发生”之类的规则。如“67%的顾客在购买啤酒的同时也会购买尿布”，因此通过合理的啤酒和尿布的货架摆放或捆绑销售可提高超市的服务质量和效益。又如“‘C语言’课程优秀的同学，在学习‘数据结构’时为优秀的可能性达88%”，那么就可以通过强化“C语言”的学习来提高教学效果。

1）Apriori算法：

Apriori算法是挖掘产生布尔关联规则所需频繁项集的基本算法，也是最著名的关联规则挖掘算法之一。Apriori算法就是根据有关频繁项集特性的先验知识而命名的。它使用一种称作逐层搜索的迭代方法，k—项集用于探索（k+1）—项集。首先，找出频繁1—项集的集合．记做L1，L1用于找出频繁2—项集的集合L2，再用于找出L3，如此下去，直到不能找到频繁k—项集。找每个Lk需要扫描一次数据库。

为提高按层次搜索并产生相应频繁项集的处理效率，Apriori算法利用了一个重要性质，并应用Apriori性质来帮助有效缩小频繁项集的搜索空间。

Apriori性质：一个频繁项集的任一子集也应该是频繁项集。证明根据定义，若一个项集I不满足最小支持度阈值min_sup，则I不是频繁的，即P（I）<min_sup。若增加一个项A到项集I中，则结果新项集（I∪A）也不是频繁的，在整个事务数据库中所出现的次数也不可能多于原项集I出现的次数，因此P（I∪A）<min_sup，即（I∪A）也不是频繁的。这样就可以根据逆反公理很容易地确定Apriori性质成立。

针对Apriori算法的不足，对其进行优化：

（1）基于划分的方法。该算法先把数据库从逻辑上分成几个互不相交的块，每次单独考虑一个分块并对它生成所有的频繁项集，然后把产生的频繁项集合并，用来生成所有可能的频繁项集，最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存，每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频繁项集至少在某一个分块中是频繁项集保证的。

上面所讨论的算法是可以高度并行的。可以把每一分块分别分配给某一个处理器生成频繁项集。产生频繁项集的每一个循环结束后．处理器之间进行通信来产生全局的候选是一项集。通常这里的通信过程是算法执行时间的主要瓶颈。而另一方面，每个独立的处理器生成频繁项集的时间也是一个瓶颈。其他的方法还有在多处理器之间共享一个杂凑树来产生频繁项集，更多关于生成频繁项集的并行化方法可以在其中找到。

（2）基于Hash的方法。Park等人提出了一个高效地产生频繁项集的基于杂凑（Hash）的算法。通过实验可以发现，寻找频繁项集的主要计算是在生成频繁2—项集Lk上，Park等就是利用这个性质引入杂凑技术来改进产生频繁2—项集的方法。

（3）基于采样的方法。基于前一遍扫描得到的信息，对它详细地做组合分析，可以得到一个改进的算法，其基本思想是：先使用从数据库中抽取出来的采样得到一些在整个数据库中可能成立的规则，然后对数据库的剩余部分验证这个结果。这个算法相当简单并显著地减少了FO代价，但是一个很大的缺点就是产生的结果不精确，即存在所谓的数据扭曲（Dataskew）。分布在同一页面上的数据时常是高度相关的，不能表示整个数据库中模式的分布，由此而导致的是采样5%的交易数据所花费的代价同扫描一遍数据库相近。

（4）减少交易个数。减少用于未来扫描事务集的大小，基本原理就是当一个事务不包含长度为志的大项集时，则必然不包含长度为走k+1的大项集。从而可以将这些事务删除，在下一遍扫描中就可以减少要进行扫描的事务集的个数。这就是AprioriTid的基本思想。

2）FP-growth算法：

由于Apriori方法的固有缺陷．即使进行了优化，其效率也仍然不能令人满意。2000年，Han Jiawei等人提出了基于频繁模式树（Frequent Pattern Tree，简称为FP-tree）的发现频繁模式的算法FP-growth。在FP-growth算法中，通过两次扫描事务数据库，把每个事务所包含的频繁项目按其支持度降序压缩存储到FP—tree中。在以后发现频繁模式的过程中，不需要再扫描事务数据库，而仅在FP-Tree中进行查找即可，并通过递归调用FP-growth的方法来直接产生频繁模式，因此在整个发现过程中也不需产生候选模式。该算法克服了Apriori算法中存在的问颢．在执行效率上也明显好于Apriori算法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内，因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于数据挖掘的试验数据智能分析方法，其特征在于：该方法为：基于构建的标准试验数据库，结合回归分析，聚类，关联分析算法，对省电网公司的所有试验设备的试验报告数据进行相互比对与聚类分析，全局性地分析计划与试验报告的问题，按地市、按单位、按设备、按试验类型研究试验数据共性规律；标准试验数据库的构建方法为：提取文本要素数据特征，结合并行计算技术，基于各类设备建立标准数据结构模型，形成数据标准体系，构建新的标准试验数据库；标准试验数据库的构建方法包括以下具体步骤：

步骤2：构建基于统一标准的试验数据结构体系模型：从生产系统获取的作业指导书模板和预防性试验数据，构成作业指导书模板；分析从生产系统获取的作业指导书模板，并根据实际需要对模板进行完善，形成统一标准模板；同时对于设备出厂交接的试验数据模板，从厂商获取试验数据模板并在系统中生成交接试验版本模板，最终由作业指导书模板、统一标准模板和试验数据模板构建基于统一标准的试验数据结构体系模型；

步骤3：试验数据补录：对于外部系统缺失的试验数据需要在试验数据挖掘智能作业管控系统中进行补录，补录是在基于统一标准的试验数据结构体系模型中选择相应的作业指导书模板，根据已定制的模板在系统中实现试验数据补录功能；

文本数据特征提取方法为：从基于统一标准的试验数据机构体系模型中通过数据接口获取文本数据，采用文档频数特征选择算法技术，找到出现次数较多的字段，形成数据标准体系；文档频数特征选择算法为：在训练文本集中对每个特征计算它的文档频数,若文档频数的DF值小于某个阈值则将其删除,若其DF值大于某个阈值也将其去掉。

2.根据权利要求1所述的一种基于数据挖掘的试验数据智能分析方法，其特征在于：该方法包括以下具体步骤：

步骤2），试验报告中的试验项目确定：在试验设备对应的试验报告版本确定后，根据每个试验报告来分析试验报告中的具体试验项目，通过智能分析得到试验项目的交集；

步骤3），试验项目中的试验参数确定：根据步骤2）中确定的试验项目，通过智能分析得到每个试验项目中试验参数的交集；

步骤4），试验项目中的试验参数合并配置：根据步骤3）中确定的试验参数，对这些试验参数进行合并配置，进行合并配置的参数进行相互对比和聚类分析；

步骤5），合并的试验参数进行分析：根据步骤4）中确定的合并配置参数，从合格的试验报告和合格的试验报告与不合格的试验报告二个维度出发，通过回归分析，聚类，关联分析的智能算法，对这些配置参数进行相互对比和聚类分析，并可视化展示这些相互对比的数据；

3.根据权利要求1所述的一种基于数据挖掘的试验数据智能分析方法，其特征在于：回归分析算法采用线性回归算法、多项式回归算法、逐步回归算法、岭回归算法、套索回归算法、弹性网络回归算法、贝叶斯回归算法、稳健回归算法、随机森林回归或SVR支持向量回归算法。

4.根据权利要求1所述的一种基于数据挖掘的试验数据智能分析方法，其特征在于：聚类分析算法采用划分的方法、层次的方法、基于密度的方法、基于网格的方法或基于模型的方法。

5.根据权利要求1所述的一种基于数据挖掘的试验数据智能分析方法，其特征在于：关联分析算法采用Apriori算法或FP-growth算法。