CN106022477A

CN106022477A - 智能分析决策系统及方法

Info

Publication number: CN106022477A
Application number: CN201610329444.9A
Authority: CN
Inventors: 许元斌; 王继业; 曾楠; 陈宏�; 邹保平; 黄文思; 郝悍勇; 罗义旺; 李金湖; 李云; 余仰淇; 林燊; 刘燕秋; 骆伟艺; 罗文甜; 张欢; 林翰; 吴少平; 陈智鹏; 刘彩
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Jiangsu Electric Power Co Ltd
Priority date: 2016-05-18
Filing date: 2016-05-18
Publication date: 2016-10-12

Abstract

本发明公开一种智能分析决策系统及方法，包括数据加载模块、数据预处理模块、描述性统计模块、数据挖掘算法模块、模型评估模块、分析模型管理模块，所述分析模型管理模块分别与数据预处理模块、描述性统计模块、数据挖掘算法模块、模型评估模块连接，调入描述性统计模块、数据挖掘算法模块、模型评估模块的信息，数据预处理模块将信息输入，最终提供分析模型的规范化管理。实现业务信息的可观察、可判断、可预测、可决策，相互支撑，回溯改进,促进各大业务应用的智能化发展，满足当前各业务应用对信息的高级应用要求，促进信息化建设工作的快速健康开展。

Description

智能分析决策系统及方法

技术领域

本发明涉及一种智能分析决策系统及方法。

背景技术

国家电网公司在“十二五”规划中提出建设战略决策层的智能分析与辅助决策应用、完善经营管理层的智能分析与辅助决策应用的新任务，需要建立公司智能分析决策体系，建立统一的分析决策平台，快速构建各类分析决策应用，促进分析决策应用建设的规范化。

发明内容

本发明的目的在于提供一种智能分析决策系统及方法。

本发明的目的通过如下技术方案实现：智能分析决策系统包括数据加载模块：提供访问外部分析数据的驱动及访问配置管理，用于访问分析数据源；

数据预处理模块：与数据加载模块连接，接受数据加载模块的数据，对数据进行处理，以满足挖掘算法的数据输入要求；

描述性统计模块：与数据加载模块连接，接受数据加载模块的数据，对离散变量统计与连续变量统计；

数据挖掘算法模块：预置结构化数据的挖掘算法，满足分类、聚类、关联、回归等挖掘需求；

模型评估模块：提供挖掘算法运行结果的评估方法，用于表示模型结果的好坏；分析模型管理模块：分别与数据预处理模块、描述性统计模块、数据挖掘算法模块、模型评估模块连接，调入描述性统计模块、数据挖掘算法模块、模型评估模块的信息，数据预处理模块将信息输入，最终提供分析模型的规范化管理。

智能分析决策方法，包括以下步骤：

数据加载：从数据库中分析数据或从文件中访问读取数据，之后将数据输出；

描述性统计：接受数据加载输出的数据，对数据进行统计分析处；

数据预处理：接受数据加载输出的数据，对数据进行预处理；

数据挖掘算法：以满足分类、聚类、关联、回归，挖掘需求，预置结构化数据的挖掘算法；

模型评估：提供挖掘算法运行结果的评估方法，以表示模型结果的好坏；

分析模型管理：将调用描述性统计的结果以及数据预处理的结果、数据挖掘算法的结果、模型评估的结果，提供分析模型的规范化管理。

其中，数据加载包括数据项配置，关系型数据库，Excel/CSV。

其中，描述性统计包括对离散变量统计与连续变量统计。

其中，数据预处理包括数据清洗、数据转换、数据集成、数据计算、数据抽样、数据分隔。

其中，数据挖掘算法包括分类算法、聚类算法、回归算法、关联规则算法中的一种或多种。

其中，模型评估包括针对准确率、绝对误差、平方根误差、kappa、混淆矩阵因素的评估。

其中，分析模型管理包括模型管理、流程建模设计器、结果展现、模型运行。

较之现有技术而言，本发明的优点在于：是在SG186工程全面建设的基础上，进一步建设的高级决策分析和信息的综合展现能力。通过对业务的全面监控、分析和预测，有效支持科学决策，从而支撑各类业务的管理和发展需要，帮助公司洞悉当前，掌控未来，随需而变。建立统一的基于SG-UAP的智能分析决策套件旨在建设一个符合电力行业特色与需求的分析决策类应用支撑平台，提供统计分析、模拟、预测分析、数据挖掘及丰富展现的能力。通过该套件，来支撑各大业务应用的分析决策需求，提升分析质量与效果；且套件化的统一建设模式有利于使各类分析决策工作规范化，避免分散建设、重复建设、再次形成信息孤岛；套件能够为各业务应用提供局部的分析决策功能支撑，并可通过结果发布等方式，向各业务应用共享分析结果，实现分析决策向业务应用的反馈；最终实现业务信息的可观察、可判断、可预测、可决策，相互支撑，回溯改进,促进各大业务应用的智能化发展，满足当前各业务应用对信息的高级应用要求，促进信息化建设工作的快速健康开展。

附图说明

图1是本发明各模块的连接关系示意图。

图2是本发明的整体图。

具体实施方式

下面结合说明书附图和实施例对本发明内容进行详细说明：

如图1和2所示为本发明提供的的实施例示意图，智能分析决策系统包括数据加载模块：提供访问外部分析数据的驱动及访问配置管理，用于访问分析数据源；

智能分析决策方法，包括以下步骤，数据加载：从数据库中分析数据或从文件中访问读取数据，之后将数据输出；

数据加载：包括提供访问外部分析数据的驱动及访问配置管理。通过该功能，访问分析数据源。具体包括数据项配置，关系型数据库，Excel/CSV；

描述性统计：包括对离散变量统计与连续变量统计。离散变量统计包括统计频数和频率，连续变量统计包括统计平均数，中位数，众数，方差，标准差等参数。

数据预处理：包括提供数据操作方法，对数据进行处理，以满足挖掘算法的数据输入要求。具体包括数据清洗、数据转换、数据集成、数据计算、数据抽样、数据分隔；

其中数据清洗，是指发现并纠正数据文件中可识别的错误的一道操作，处理流程包括检查数据一致性，处理无效值和缺失值等。数据清洗的任务是过滤那些不符合要求的数据。括类型检查、缺值处理、空值域约束、记录去重；

数据转换，是将数据从一种表示形式变为另一种表现形式的过程，是将数据转换或归并以构成一个适合数据挖掘的描述形式。数据转换包括Case when、类型转换、数值区间化、规范化、归一化。其中Case when是指支持类似SQL方式的Case when语句；类型转换是指根据转换的数据类型定义，对输入数据进行数据类型转换；数值区间化按数值将指定字段值区间化为N个区间，每个区间数据取值范围相等，并为该字段按不同区间设置特定值；数据规范化是指将被挖掘对象的属性数据按比例缩放，使其落入一个小的特定区间(如[-1,1]或[0,1])；归一化对指定字段按该字段的均值和标准偏差，进行zscore归一化。

数据集成是将多个数据源中的数据结合在一起并形成一个统一的数据集合。数据集成包括Join、Append、Union。其中Join是指根据连接配置，对两个不同的数据集进行左连接、右连接、内连接、全外连接等连接操作；Append是指将一个集合中的列字段与数据追加到另一个集合的列后面；Union是指对两个数据集进行类似SQL的UNION操作，将两个集合进行合并操作。

数据计算是指对数据集合进行数学计算与统计操作。数据计算包括数学计算、Group By统计、日期计算、条件判断。数学计算是指通过对现有多字段混合计算生成的新字段；GroupBy统计是对指定的属性按照某几个字段进行汇总统计，汇总统计的操作包括：平均值、计数、最大值、求和、中位数、方差、标准差；日期计算是指对日期进行计算，包括两个日期求差操作、计算前一天日期、计算后一天日期等；条件判断是指根据配置条件判断，计算生成响应条件下的数值。

数据抽样是对从数据集中抽取部分个体作为样本。数据抽样包括随机抽样、分层抽样。随机抽样是集合中每个部分都有同等被抽中的可能，是一种完全依照机会均等的原则进行的抽样调查；分层抽样是将数据集分成互不交叉的层，然后按一定的比例，从各层次独立地抽取一定数量的个体，将各层次取出的个体合在一起作为样本。

数据分割是将数据集按照一定规则分为若干份。数据分隔包括线性分隔、分层分隔。线性分隔是将数据集按比例顺序截取成N份；分层分隔是将数据集分割为互不交叉的层。

模型评估：提供挖掘算法运行结果的评估方法，用于表示模型结果的好坏。主要考虑针对准确率、绝对误差、平方根误差、kappa、混淆矩阵等因素考虑。准确率，是用来同时表示测量结果中系统误差和随机误差大小的程度，多次测量值的平均值与真值的接近程度，常用于分类模型评估；绝对误差是指预测值-实际值，常用于数值预测模型评估；平方根误差常用于数值预测模型评估，具体公式为(平均绝对误差)提升图是将预测分类按照概率大小进行10等分，评估每类预测正确的效益；Kappa统计是比较两个或多个观测者对同一事物，或观测者对同一事物的两次或多次观测结果是否一致，以由于机遇造成的一致性和实际观测的一致性之间的差别大小作为评价基础的统计指标。Kappa统计量和加权Kappa统计量不仅可以用于无序和有序分类的一致性、重现性检验，而且能给出一个反映一致性大小的“量”值。混淆矩阵主要用于比较分类结果和实际测得值，可以把分类结果的精度显示在一个混淆矩阵里面。

分析模型管理：提供分析模型的规范化管理功能，包括模型分类管理、模型定义管理、流程建模设计器、模型运行。模型管理对分析模型分类、基本信息信息及其逻辑配置进行统一的管理；流程建模设计器，提供可视化的流程建模功能，用于实现业务分析逻辑配置实现。基于数据加载、数据预处理、数据挖掘算法、模型评估等功能提供的方法，流程建模设计器提供其方法可视化的操作界面，用于其输入参数设置、方法间数据流转配置；结果展现：提供模型结果的可视化展现功能，包括文本展现、二维表展现、图形展现等多种方式；模型模型运行是指模型运行解析引擎，解析分析模型逻辑配置内容，获取相应的操作节点及节点间数据流转，调用对应的数据处理方法，处理数据，返回结果。

数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。为了创建模型，算法将首先分析您提供的数据，并查找特定类型的模式和趋势。算法使用此分析的结果来定义用于创建挖掘模型的最佳参数。然后，这些参数应用于整个数据集，以便提取可行模式和详细统计信息。算法根据其挖掘结果模式的不同，可分为分类、聚类、回归、关联规则以及时间序列等类型。

分类是在已有数据的基础上学会一个分类函数或构造一个分类模型(也称“分类器”),而且该函数或模型能够把数据库中的数据记录映射到给定类别中的某一个,从而可以应用于数据预测；若要构造分类模型,则需要有一个训练样本数据集作为输入,该训练样本数据集由一组数据库记录或元组构成,其一个具体的样本记录形式可以表示为(V1,V2,…,Vn,C),其中,Vi表示样本的属性值,C表示类别。

常用的分类算法有K-NN、Naive Bayes、ID3、决策树、神经网络、随机森林等算法。

K-NN(k-NearestNeighbor),K最近邻分类算法。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

K-NN算法的输入参数包括K值设置、以及样本距离计算方法。样本距离计算方法，包括欧式距离法、堪培拉距离、切比雪夫距离法。

Naive Bayes，朴素贝叶斯模型，贝叶斯分类器的分类原理是通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。

Naive Bayes算法的输入参数，包括是否进行拉普拉斯修正、评估模式、粒度、最小宽度等。

ID3算法是以信息论为基础，以信息熵和信息增益度为衡量标准，从而实现对数据的归纳分类。信息熵就是一组数据包含的信息，概率的度量。一组数据越有序信息熵也就越低，极端时如果一组数据中只有一个非0，其它都是0，那么熵等于0，因为只有可能是这个非0的情况发生，它给人们的信息已经确定了，或者说不含有任何信息了，因为信息熵含量为0。一组数据越无序信息熵也就越高，极端时如果一组数据均匀分布，那么它的熵最大，因为我们不知道那种情况发生的概率大些。假如一组数据由{d1,d2,…,dn}构成，其和是sum,求信息熵的公式是

ID3算法的输入参数包括划分标准、最小划分大小、叶子最少节点数、增益最小值。

决策树(C4.5)，是基于ID3算法进行改进后的一种算法，相比于ID3算法，改进要点包括：1)。用信息增益率来选择属性。2)在决策树构造过程中进行剪枝，因为某些具有很少元素的结点可能会使构造的决策树过适应(Overfitting)，如果不考虑这些结点可能会更好。3)对非离散数据也能处理。其中，信息增益率计算公式具体如下：

按照类标签对训练数据集D的属性集A进行划分，得到信息熵：

\inf o (D) = - Σ_{i = 1}^{m} p_{i} \log_{2} (p_{i})

按照属性集A中每个属性进行划分，得到一组信息熵：

{info}_{A} (D) = Σ_{j = 1}^{v} \frac{| D_{j} |}{| D |} \inf o (D_{j})

然后计算信息增益，即前者对后者做差，得到属性集合A一组信息增益：

gain(A)＝in fo(D)-in fo_A(D)

决策树算法的输入参数包括：分类标准、最小划分大小、最小叶子大小、最小增益、最大深度、置信度、是否预修剪、是否修剪。

神经网络，是一种运算模型，由大量的节点(或称“神经元”，或“单元”)和之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。

神经网络的输入参数包括：隐藏层数、训练周期、学习比率、momentum、错误评估等。

随机森林，是用随机的方式建立一个森林，森林里面有很多决策树组成，随机森林的每一棵决策树之间时没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，判断这个样本应该属于哪一类，然后统计哪一类被选择最多，就预测这个样本为那一类。

随机森林算法的输入参数包括决策树数量、分类标准、最小划分大小、最小叶子大小、最小增益、最大深度、置信度、是否预修剪、是否修剪。

聚类是数理统计中研究“物以类聚”的一种方法，是把一组个体按照相似性归成若干类,其目的是使得属于同一个类别数据之间的相似性尽可能大，而不同类别的数据之间的相似性尽可能小。它与分类分析不同，聚类分析输入的是一组未分类的记录，并且这些记录应分成几类事先也不知道。聚类分析就是首先通过分析数据库中的数据，合理地来划分记录，然后再确定每个记录所在类别。

常用的聚类算法有K-Means、DBSCAN、K-Medoids。

K-means算法是硬聚类算法，是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。

K-means算法的输入参数包括：聚类K值、最大计算次数、最大优化步数。

DBSCAN是一个基于密度的聚类算法，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇。

DBSCAN算法的输入参数，包括Ε领域、核心对象、测量方法等。

K-medoids和K-means是有区别的，不一样的地方在于中心点的选取，在K-means中，将中心点取为当前cluster中所有数据点的平均值，在K-medoids算法中，我们将从当前cluster中选取这样一个点——它到其他所有(当前cluster中的)点的距离之和最小——作为中心点。

K-medoids算法的输入参数包括聚类K值、最大计算次数、最大优化步数。

回归分析，是确定两种或两种以上变量间相互依赖的定量关系的一种分析方法。，回归分析按照涉及的自变量的多少，可分为一元回归分析和多元回归分析；按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。如果在回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。

常用的回归分析算法包括：线性回归、逻辑回归、局部多项式线性回归。

线性回归，假设“特征”和“结果”都满足线性，即不超过一次。线性回归都可以通过最小二乘法求出其方程。

逻辑回归采用最大似然估计法，对齐回归参数进行估计。最大似然估计是利用总体的分布密度或概率分布的表达式及其样本所提供信息建立起求未知参数估计量的一种方法。

局部多项式回归是对两维散点图进行平滑的常用方法，它结合了传统线性回归的简洁性和非线性回归的灵活性。当要估计某个响应变量值时，先从其预测变量附近取一个数据子集，然后对该子集进行线性回归或二次回归，回归时采用加权最小二乘法，即越靠近估计点的值其权重越大，最后利用得到的局部回归模型来估计响应变量的值。

关联规则算法

假设I＝{I₁，I₂，…，I_m}是项的集合。给定一个数据集D，其中每个事务(Transaction)t是I的非空子集，即，每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比，即概率；置信度(confidence)是D中事务已经包含X的情况下，包含Y的百分比，即条件概率。如果满足最小支持度阈值和最小置信度阈值，则认为关联规则是有效的。

常用的关联规则算法包括：FP-Growth。

FP(Frequent Pattern)，在算法中使用了一种称为频繁模式树(FrequentPattern Tree)的数据结构。FP-tree是一种特殊的前缀树，由频繁项头表和项前缀树构成。FP-Growth算法基于以上的结构加快整个挖掘过程。

FP-Growth算法的输入参数包括：发现频繁集最小值，频繁集最小值、重试最大次数、集合最大项数。

Claims

1.一种智能分析决策系统，其特征在于：

包括数据加载模块：提供访问外部分析数据的驱动及访问配置管理，用于访问分析数据源；

数据挖掘算法模块：预置结构化数据的挖掘算法，满足分类、聚类、关联、回归的挖掘需求；

模型评估模块：提供挖掘算法运行结果的评估方法，用于表示模型结果的好坏；

分析模型管理模块：分别与数据预处理模块、描述性统计模块、数据挖掘算法模块、模型评估模块连接，调入描述性统计模块、数据挖掘算法模块、模型评估模块的信息，数据预处理模块将信息输入，最终提供分析模型的规范化管理。

2.权利要求1所述的智能分析决策方法，其特征在于：包括如下步骤：

描述性统计：接受数据加载输出的数据，对数据进行统计分析；

3.根据权利要求2所述的智能分析决策方法，其特征在于：数据加载包括数据项配置，关系型数据库，Excel/CSV。

4.根据权利要求2所述的智能分析决策方法，其特征在于：描述性统计包括对离散变量统计与连续变量统计。

5.根据权利要求2所述的智能分析决策方法，其特征在于：数据预处理包括数据清洗、数据转换、数据集成、数据计算、数据抽样、数据分隔。

6.根据权利要求2所述的智能分析决策方法，其特征在于：所述的数据挖掘算法包括分类算法、聚类算法、回归算法、关联规则算法中的一种或多种。

7.根据权利要求2所述的智能分析决策方法，其特征在于：模型评估包括针对准确率、绝对误差、平方根误差、kappa、混淆矩阵因素的评估。

8.根据权利要求2所述的智能分析决策方法，其特征在于：分析模型管理包括模型管理、流程建模设计器、结果展现、模型运行。