CN106022477A - 智能分析决策系统及方法 - Google Patents
智能分析决策系统及方法 Download PDFInfo
- Publication number
- CN106022477A CN106022477A CN201610329444.9A CN201610329444A CN106022477A CN 106022477 A CN106022477 A CN 106022477A CN 201610329444 A CN201610329444 A CN 201610329444A CN 106022477 A CN106022477 A CN 106022477A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- model
- algorithm
- mining algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000004458 analytical method Methods 0.000 title claims abstract description 54
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 80
- 238000007418 data mining Methods 0.000 claims abstract description 22
- 238000011156 evaluation Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000005065 mining Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000010354 integration Effects 0.000 claims description 5
- 238000013479 data entry Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 4
- 238000000547 structure data Methods 0.000 claims description 4
- 238000009412 basement excavation Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract description 7
- 238000011161 development Methods 0.000 abstract description 3
- 230000006872 improvement Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 14
- 238000003066 decision tree Methods 0.000 description 10
- 238000012417 linear regression Methods 0.000 description 7
- 238000000611 regression analysis Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012729 kappa analysis Methods 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004899 motility Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Operations Research (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种智能分析决策系统及方法,包括数据加载模块、数据预处理模块、描述性统计模块、数据挖掘算法模块、模型评估模块、分析模型管理模块,所述分析模型管理模块分别与数据预处理模块、描述性统计模块、数据挖掘算法模块、模型评估模块连接,调入描述性统计模块、数据挖掘算法模块、模型评估模块的信息,数据预处理模块将信息输入,最终提供分析模型的规范化管理。实现业务信息的可观察、可判断、可预测、可决策,相互支撑,回溯改进,促进各大业务应用的智能化发展,满足当前各业务应用对信息的高级应用要求,促进信息化建设工作的快速健康开展。
Description
技术领域
本发明涉及一种智能分析决策系统及方法。
背景技术
国家电网公司在“十二五”规划中提出建设战略决策层的智能分析与辅助决策应用、完善经营管理层的智能分析与辅助决策应用的新任务,需要建立公司智能分析决策体系,建立统一的分析决策平台,快速构建各类分析决策应用,促进分析决策应用建设的规范化。
发明内容
本发明的目的在于提供一种智能分析决策系统及方法。
本发明的目的通过如下技术方案实现:智能分析决策系统包括数据加载模块:提供访问外部分析数据的驱动及访问配置管理,用于访问分析数据源;
数据预处理模块:与数据加载模块连接,接受数据加载模块的数据,对数据进行处理,以满足挖掘算法的数据输入要求;
描述性统计模块:与数据加载模块连接,接受数据加载模块的数据,对离散变量统计与连续变量统计;
数据挖掘算法模块:预置结构化数据的挖掘算法,满足分类、聚类、关联、回归等挖掘需求;
模型评估模块:提供挖掘算法运行结果的评估方法,用于表示模型结果的好坏;分析模型管理模块:分别与数据预处理模块、描述性统计模块、数据挖掘算法模块、模型评估模块连接,调入描述性统计模块、数据挖掘算法模块、模型评估模块的信息,数据预处理模块将信息输入,最终提供分析模型的规范化管理。
智能分析决策方法,包括以下步骤:
数据加载:从数据库中分析数据或从文件中访问读取数据,之后将数据输出;
描述性统计:接受数据加载输出的数据,对数据进行统计分析处;
数据预处理:接受数据加载输出的数据,对数据进行预处理;
数据挖掘算法:以满足分类、聚类、关联、回归,挖掘需求,预置结构化数据的挖掘算法;
模型评估:提供挖掘算法运行结果的评估方法,以表示模型结果的好坏;
分析模型管理:将调用描述性统计的结果以及数据预处理的结果、数据挖掘算法的结果、模型评估的结果,提供分析模型的规范化管理。
其中,数据加载包括数据项配置,关系型数据库,Excel/CSV。
其中,描述性统计包括对离散变量统计与连续变量统计。
其中,数据预处理包括数据清洗、数据转换、数据集成、数据计算、数据抽样、数据分隔。
其中,数据挖掘算法包括分类算法、聚类算法、回归算法、关联规则算法中的一种或多种。
其中,模型评估包括针对准确率、绝对误差、平方根误差、kappa、混淆矩阵因素的评估。
其中,分析模型管理包括模型管理、流程建模设计器、结果展现、模型运行。
较之现有技术而言,本发明的优点在于:是在SG186工程全面建设的基础上,进一步建设的高级决策分析和信息的综合展现能力。通过对业务的全面监控、分析和预测,有效支持科学决策,从而支撑各类业务的管理和发展需要,帮助公司洞悉当前,掌控未来,随需而变。建立统一的基于SG-UAP的智能分析决策套件旨在建设一个符合电力行业特色与需求的分析决策类应用支撑平台,提供统计分析、模拟、预测分析、数据挖掘及丰富展现的能力。通过该套件,来支撑各大业务应用的分析决策需求,提升分析质量与效果;且套件化的统一建设模式有利于使各类分析决策工作规范化,避免分散建设、重复建设、再次形成信息孤岛;套件能够为各业务应用提供局部的分析决策功能支撑,并可通过结果发布等方式,向各业务应用共享分析结果,实现分析决策向业务应用的反馈;最终实现业务信息的可观察、可判断、可预测、可决策,相互支撑,回溯改进,促进各大业务应用的智能化发展,满足当前各业务应用对信息的高级应用要求,促进信息化建设工作的快速健康开展。
附图说明
图1是本发明各模块的连接关系示意图。
图2是本发明的整体图。
具体实施方式
下面结合说明书附图和实施例对本发明内容进行详细说明:
如图1和2所示为本发明提供的的实施例示意图,智能分析决策系统包括数据加载模块:提供访问外部分析数据的驱动及访问配置管理,用于访问分析数据源;
数据预处理模块:与数据加载模块连接,接受数据加载模块的数据,对数据进行处理,以满足挖掘算法的数据输入要求;
描述性统计模块:与数据加载模块连接,接受数据加载模块的数据,对离散变量统计与连续变量统计;
数据挖掘算法模块:预置结构化数据的挖掘算法,满足分类、聚类、关联、回归等挖掘需求;
模型评估模块:提供挖掘算法运行结果的评估方法,用于表示模型结果的好坏;分析模型管理模块:分别与数据预处理模块、描述性统计模块、数据挖掘算法模块、模型评估模块连接,调入描述性统计模块、数据挖掘算法模块、模型评估模块的信息,数据预处理模块将信息输入,最终提供分析模型的规范化管理。
智能分析决策方法,包括以下步骤,数据加载:从数据库中分析数据或从文件中访问读取数据,之后将数据输出;
描述性统计:接受数据加载输出的数据,对数据进行统计分析处;
数据预处理:接受数据加载输出的数据,对数据进行预处理;
数据挖掘算法:以满足分类、聚类、关联、回归,挖掘需求,预置结构化数据的挖掘算法;
模型评估:提供挖掘算法运行结果的评估方法,以表示模型结果的好坏;
分析模型管理:将调用描述性统计的结果以及数据预处理的结果、数据挖掘算法的结果、模型评估的结果,提供分析模型的规范化管理。
数据加载:包括提供访问外部分析数据的驱动及访问配置管理。通过该功能,访问分析数据源。具体包括数据项配置,关系型数据库,Excel/CSV;
描述性统计:包括对离散变量统计与连续变量统计。离散变量统计包括统计频数和频率,连续变量统计包括统计平均数,中位数,众数,方差,标准差等参数。
数据预处理:包括提供数据操作方法,对数据进行处理,以满足挖掘算法的数据输入要求。具体包括数据清洗、数据转换、数据集成、数据计算、数据抽样、数据分隔;
其中数据清洗,是指发现并纠正数据文件中可识别的错误的一道操作,处理流程包括检查数据一致性,处理无效值和缺失值等。数据清洗的任务是过滤那些不符合要求的数据。括类型检查、缺值处理、空值域约束、记录去重;
数据转换,是将数据从一种表示形式变为另一种表现形式的过程,是将数据转换或归并以构成一个适合数据挖掘的描述形式。数据转换包括Case when、类型转换、数值区间化、规范化、归一化。其中Case when是指支持类似SQL方式的Case when语句;类型转换是指根据转换的数据类型定义,对输入数据进行数据类型转换;数值区间化按数值将指定字段值区间化为N个区间,每个区间数据取值范围相等,并为该字段按不同区间设置特定值;数据规范化是指将被挖掘对象的属性数据按比例缩放,使其落入一个小的特定区间(如[-1,1]或[0,1]);归一化对指定字段按该字段的均值和标准偏差,进行zscore归一化。
数据集成是将多个数据源中的数据结合在一起并形成一个统一的数据集合。数据集成包括Join、Append、Union。其中Join是指根据连接配置,对两个不同的数据集进行左连接、右连接、内连接、全外连接等连接操作;Append是指将一个集合中的列字段与数据追加到另一个集合的列后面;Union是指对两个数据集进行类似SQL的UNION操作,将两个集合进行合并操作。
数据计算是指对数据集合进行数学计算与统计操作。数据计算包括数学计算、Group By统计、日期计算、条件判断。数学计算是指通过对现有多字段混合计算生成的新字段;GroupBy统计是对指定的属性按照某几个字段进行汇总统计,汇总统计的操作包括:平均值、计数、最大值、求和、中位数、方差、标准差;日期计算是指对日期进行计算,包括两个日期求差操作、计算前一天日期、计算后一天日期等;条件判断是指根据配置条件判断,计算生成响应条件下的数值。
数据抽样是对从数据集中抽取部分个体作为样本。数据抽样包括随机抽样、分层抽样。随机抽样是集合中每个部分都有同等被抽中的可能,是一种完全依照机会均等的原则进行的抽样调查;分层抽样是将数据集分成互不交叉的层,然后按一定的比例,从各层次独立地抽取一定数量的个体,将各层次取出的个体合在一起作为样本。
数据分割是将数据集按照一定规则分为若干份。数据分隔包括线性分隔、分层分隔。线性分隔是将数据集按比例顺序截取成N份;分层分隔是将数据集分割为互不交叉的层。
模型评估:提供挖掘算法运行结果的评估方法,用于表示模型结果的好坏。主要考虑针对准确率、绝对误差、平方根误差、kappa、混淆矩阵等因素考虑。准确率,是用来同时表示测量结果中系统误差和随机误差大小的程度,多次测量值的平均值与真值的接近程度,常用于分类模型评估;绝对误差是指预测值-实际值,常用于数值预测模型评估;平方根误差常用于数值预测模型评估,具体公式为(平均绝对误差)提升图是将预测分类按照概率大小进行10等分,评估每类预测正确的效益;Kappa统计是比较两个或多个观测者对同一事物,或观测者对同一事物的两次或多次观测结果是否一致,以由于机遇造成的一致性和实际观测的一致性之间的差别大小作为评价基础的统计指标。Kappa统计量和加权Kappa统计量不仅可以用于无序和有序分类的一致性、重现性检验,而且能给出一个反映一致性大小的“量”值。混淆矩阵主要用于比较分类结果和实际测得值,可以把分类结果的精度显示在一个混淆矩阵里面。
分析模型管理:提供分析模型的规范化管理功能,包括模型分类管理、模型定义管理、流程建模设计器、模型运行。模型管理对分析模型分类、基本信息信息及其逻辑配置进行统一的管理;流程建模设计器,提供可视化的流程建模功能,用于实现业务分析逻辑配置实现。基于数据加载、数据预处理、数据挖掘算法、模型评估等功能提供的方法,流程建模设计器提供其方法可视化的操作界面,用于其输入参数设置、方法间数据流转配置;结果展现:提供模型结果的可视化展现功能,包括文本展现、二维表展现、图形展现等多种方式;模型模型运行是指模型运行解析引擎,解析分析模型逻辑配置内容,获取相应的操作节点及节点间数据流转,调用对应的数据处理方法,处理数据,返回结果。
数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。为了创建模型,算法将首先分析您提供的数据,并查找特定类型的模式和趋势。算法使用此分析的结果来定义用于创建挖掘模型的最佳参数。然后,这些参数应用于整个数据集,以便提取可行模式和详细统计信息。算法根据其挖掘结果模式的不同,可分为分类、聚类、回归、关联规则以及时间序列等类型。
分类是在已有数据的基础上学会一个分类函数或构造一个分类模型(也称“分类器”),而且该函数或模型能够把数据库中的数据记录映射到给定类别中的某一个,从而可以应用于数据预测;若要构造分类模型,则需要有一个训练样本数据集作为输入,该训练样本数据集由一组数据库记录或元组构成,其一个具体的样本记录形式可以表示为(V1,V2,…,Vn,C),其中,Vi表示样本的属性值,C表示类别。
常用的分类算法有K-NN、Naive Bayes、ID3、决策树、神经网络、随机森林等算法。
K-NN(k-NearestNeighbor),K最近邻分类算法。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
K-NN算法的输入参数包括K值设置、以及样本距离计算方法。样本距离计算方法,包括欧式距离法、堪培拉距离、切比雪夫距离法。
Naive Bayes,朴素贝叶斯模型,贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。
Naive Bayes算法的输入参数,包括是否进行拉普拉斯修正、评估模式、粒度、最小宽度等。
ID3算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。信息熵就是一组数据包含的信息,概率的度量。一组数据越有序信息熵也就越低,极端时如果一组数据中只有一个非0,其它都是0,那么熵等于0,因为只有可能是这个非0的情况发生,它给人们的信息已经确定了,或者说不含有任何信息了,因为信息熵含量为0。一组数据越无序信息熵也就越高,极端时如果一组数据均匀分布,那么它的熵最大,因为我们不知道那种情况发生的概率大些。假如一组数据由{d1,d2,…,dn}构成,其和是sum,求信息熵的公式是
ID3算法的输入参数包括划分标准、最小划分大小、叶子最少节点数、增益最小值。
决策树(C4.5),是基于ID3算法进行改进后的一种算法,相比于ID3算法,改进要点包括:1)。用信息增益率来选择属性。2)在决策树构造过程中进行剪枝,因为某些具有很少元素的结点可能会使构造的决策树过适应(Overfitting),如果不考虑这些结点可能会更好。3)对非离散数据也能处理。其中,信息增益率计算公式具体如下:
按照类标签对训练数据集D的属性集A进行划分,得到信息熵:
按照属性集A中每个属性进行划分,得到一组信息熵:
然后计算信息增益,即前者对后者做差,得到属性集合A一组信息增益:
gain(A)=in fo(D)-in foA(D)
决策树算法的输入参数包括:分类标准、最小划分大小、最小叶子大小、最小增益、最大深度、置信度、是否预修剪、是否修剪。
神经网络,是一种运算模型,由大量的节点(或称“神经元”,或“单元”)和之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。
神经网络的输入参数包括:隐藏层数、训练周期、学习比率、momentum、错误评估等。
随机森林,是用随机的方式建立一个森林,森林里面有很多决策树组成,随机森林的每一棵决策树之间时没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,判断这个样本应该属于哪一类,然后统计哪一类被选择最多,就预测这个样本为那一类。
随机森林算法的输入参数包括决策树数量、分类标准、最小划分大小、最小叶子大小、最小增益、最大深度、置信度、是否预修剪、是否修剪。
聚类是数理统计中研究“物以类聚”的一种方法,是把一组个体按照相似性归成若干类,其目的是使得属于同一个类别数据之间的相似性尽可能大,而不同类别的数据之间的相似性尽可能小。它与分类分析不同,聚类分析输入的是一组未分类的记录,并且这些记录应分成几类事先也不知道。聚类分析就是首先通过分析数据库中的数据,合理地来划分记录,然后再确定每个记录所在类别。
常用的聚类算法有K-Means、DBSCAN、K-Medoids。
K-means算法是硬聚类算法,是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。
K-means算法的输入参数包括:聚类K值、最大计算次数、最大优化步数。
DBSCAN是一个基于密度的聚类算法,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇。
DBSCAN算法的输入参数,包括Ε领域、核心对象、测量方法等。
K-medoids和K-means是有区别的,不一样的地方在于中心点的选取,在K-means中,将中心点取为当前cluster中所有数据点的平均值,在K-medoids算法中,我们将从当前cluster中选取这样一个点——它到其他所有(当前cluster中的)点的距离之和最小——作为中心点。
K-medoids算法的输入参数包括聚类K值、最大计算次数、最大优化步数。
回归分析,是确定两种或两种以上变量间相互依赖的定量关系的一种分析方法。,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
常用的回归分析算法包括:线性回归、逻辑回归、局部多项式线性回归。
线性回归,假设“特征”和“结果”都满足线性,即不超过一次。线性回归都可以通过最小二乘法求出其方程。
逻辑回归采用最大似然估计法,对齐回归参数进行估计。最大似然估计是利用总体的分布密度或概率分布的表达式及其样本所提供信息建立起求未知参数估计量的一种方法。
局部多项式回归是对两维散点图进行平滑的常用方法,它结合了传统线性回归的简洁性和非线性回归的灵活性。当要估计某个响应变量值时,先从其预测变量附近取一个数据子集,然后对该子集进行线性回归或二次回归,回归时采用加权最小二乘法,即越靠近估计点的值其权重越大,最后利用得到的局部回归模型来估计响应变量的值。
关联规则算法
假设I={I1,I2,…,Im}是项的集合。给定一个数据集D,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是D中事务已经包含X的情况下,包含Y的百分比,即条件概率。如果满足最小支持度阈值和最小置信度阈值,则认为关联规则是有效的。
常用的关联规则算法包括:FP-Growth。
FP(Frequent Pattern),在算法中使用了一种称为频繁模式树(FrequentPattern Tree)的数据结构。FP-tree是一种特殊的前缀树,由频繁项头表和项前缀树构成。FP-Growth算法基于以上的结构加快整个挖掘过程。
FP-Growth算法的输入参数包括:发现频繁集最小值,频繁集最小值、重试最大次数、集合最大项数。
Claims (8)
1.一种智能分析决策系统,其特征在于:
包括数据加载模块:提供访问外部分析数据的驱动及访问配置管理,用于访问分析数据源;
数据预处理模块:与数据加载模块连接,接受数据加载模块的数据,对数据进行处理,以满足挖掘算法的数据输入要求;
描述性统计模块:与数据加载模块连接,接受数据加载模块的数据,对离散变量统计与连续变量统计;
数据挖掘算法模块:预置结构化数据的挖掘算法,满足分类、聚类、关联、回归的挖掘需求;
模型评估模块:提供挖掘算法运行结果的评估方法,用于表示模型结果的好坏;
分析模型管理模块:分别与数据预处理模块、描述性统计模块、数据挖掘算法模块、模型评估模块连接,调入描述性统计模块、数据挖掘算法模块、模型评估模块的信息,数据预处理模块将信息输入,最终提供分析模型的规范化管理。
2.权利要求1所述的智能分析决策方法,其特征在于:包括如下步骤:
数据加载:从数据库中分析数据或从文件中访问读取数据,之后将数据输出;
描述性统计:接受数据加载输出的数据,对数据进行统计分析;
数据预处理:接受数据加载输出的数据,对数据进行预处理;
数据挖掘算法:以满足分类、聚类、关联、回归,挖掘需求,预置结构化数据的挖掘算法;
模型评估:提供挖掘算法运行结果的评估方法,以表示模型结果的好坏;
分析模型管理:将调用描述性统计的结果以及数据预处理的结果、数据挖掘算法的结果、模型评估的结果,提供分析模型的规范化管理。
3.根据权利要求2所述的智能分析决策方法,其特征在于:数据加载包括数据项配置,关系型数据库,Excel/CSV。
4.根据权利要求2所述的智能分析决策方法,其特征在于:描述性统计包括对离散变量统计与连续变量统计。
5.根据权利要求2所述的智能分析决策方法,其特征在于:数据预处理包括数据清洗、数据转换、数据集成、数据计算、数据抽样、数据分隔。
6.根据权利要求2所述的智能分析决策方法,其特征在于:所述的数据挖掘算法包括分类算法、聚类算法、回归算法、关联规则算法中的一种或多种。
7.根据权利要求2所述的智能分析决策方法,其特征在于:模型评估包括针对准确率、绝对误差、平方根误差、kappa、混淆矩阵因素的评估。
8.根据权利要求2所述的智能分析决策方法,其特征在于:分析模型管理包括模型管理、流程建模设计器、结果展现、模型运行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610329444.9A CN106022477A (zh) | 2016-05-18 | 2016-05-18 | 智能分析决策系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610329444.9A CN106022477A (zh) | 2016-05-18 | 2016-05-18 | 智能分析决策系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106022477A true CN106022477A (zh) | 2016-10-12 |
Family
ID=57098660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610329444.9A Pending CN106022477A (zh) | 2016-05-18 | 2016-05-18 | 智能分析决策系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106022477A (zh) |
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106484914A (zh) * | 2016-10-26 | 2017-03-08 | 国云科技股份有限公司 | 一种快速实现数据挖掘分析的模块组件化方法 |
CN106503273A (zh) * | 2016-12-19 | 2017-03-15 | 四川长虹电器股份有限公司 | 一种iOS设备数据分析系统 |
CN107103050A (zh) * | 2017-03-31 | 2017-08-29 | 海通安恒(大连)大数据科技有限公司 | 一种大数据建模平台及方法 |
CN107302451A (zh) * | 2017-06-13 | 2017-10-27 | 国网江西省电力公司信息通信分公司 | 一种信息通信运行主动辅助决策的方法 |
CN107578104A (zh) * | 2017-08-31 | 2018-01-12 | 江苏康缘药业股份有限公司 | 一种中药生产过程知识系统 |
CN107730173A (zh) * | 2017-10-13 | 2018-02-23 | 郑州云海信息技术有限公司 | 一种基于数据分析的小型超市自动采购方法及系统 |
CN108074022A (zh) * | 2016-11-10 | 2018-05-25 | 中国电力科学研究院 | 一种基于集中运维的硬件资源分析与评估方法 |
CN108170770A (zh) * | 2017-12-26 | 2018-06-15 | 山东联科云计算股份有限公司 | 一种基于大数据的分析训练平台 |
CN108230039A (zh) * | 2018-01-17 | 2018-06-29 | 平安好房(上海)电子商务有限公司 | 潜在成交房源筛选方法、装置、设备及可读存储介质 |
CN108269000A (zh) * | 2017-12-22 | 2018-07-10 | 武汉烽火众智数字技术有限责任公司 | 基于警情大数据时空分析的智能警力部署方法及系统 |
CN108520039A (zh) * | 2018-04-02 | 2018-09-11 | 河南大学 | 一种大数据优化分析方法 |
CN108805342A (zh) * | 2018-05-29 | 2018-11-13 | 万洲电气股份有限公司 | 一种基于聚合分析管控方法的智能优化节能系统 |
CN109118079A (zh) * | 2018-08-07 | 2019-01-01 | 山东纬横数据科技有限公司 | 一种制造业产品质量数据关联分析方法 |
CN109800962A (zh) * | 2018-12-27 | 2019-05-24 | 四川华迪信息技术有限公司 | 一种就业数据的定量分析方法及系统 |
CN110413431A (zh) * | 2019-08-05 | 2019-11-05 | 吉林吉大通信设计院股份有限公司 | 一种针对于大数据平台故障的智能识别预警装置及方法 |
CN110427398A (zh) * | 2018-04-28 | 2019-11-08 | 北京资采信息技术有限公司 | 一种基于数据挖掘与分析的模型管理工具 |
CN110674265A (zh) * | 2019-08-06 | 2020-01-10 | 上海孚典智能科技有限公司 | 面向非结构化信息的特征判别与信息推荐系统 |
CN110909970A (zh) * | 2018-09-17 | 2020-03-24 | 北京京东金融科技控股有限公司 | 信用评分方法和装置 |
CN110968620A (zh) * | 2019-12-10 | 2020-04-07 | 国网信通亿力科技有限责任公司 | 一种敏捷数据分析方法 |
CN110990384A (zh) * | 2019-11-04 | 2020-04-10 | 武汉中卫慧通科技有限公司 | 一种大数据平台bi分析方法 |
CN111079809A (zh) * | 2019-12-06 | 2020-04-28 | 上海精密计量测试研究所 | 电连接器智能统型方法 |
CN111177227A (zh) * | 2020-01-17 | 2020-05-19 | 国网福建省电力有限公司 | 一种电力数据自助式分析系统及决策应用类迁移方法 |
CN111708815A (zh) * | 2020-05-11 | 2020-09-25 | 中国石油集团工程股份有限公司 | 一种基于大数据算法的机泵选型及分析技术 |
CN112214524A (zh) * | 2020-08-27 | 2021-01-12 | 优学汇信息科技(广东)有限公司 | 一种基于深度数据挖掘的数据评估系统及评估方法 |
CN112347152A (zh) * | 2020-09-22 | 2021-02-09 | 国网辽宁省电力有限公司电力科学研究院 | 基于大数据技术的安全可监测无接口的数据分析服务方法 |
CN112543852A (zh) * | 2018-01-19 | 2021-03-23 | 罗伯特·博世有限公司 | 用于使用基于聚类的规则挖掘方法来优化结构的能量使用的系统和方法 |
CN113076370A (zh) * | 2021-04-23 | 2021-07-06 | 上海寒光信息科技有限公司 | 一种互联网数据天眼代理bi系统 |
CN113379345A (zh) * | 2021-05-27 | 2021-09-10 | 芜湖锋珉信息科技有限公司 | 一种基于轨迹追踪的智能物流处理方法和系统 |
CN113407182A (zh) * | 2021-06-15 | 2021-09-17 | 国网冀北电力有限公司工程管理分公司 | 一种工程建设管理数据分析决策系统平台 |
CN113742315A (zh) * | 2021-08-17 | 2021-12-03 | 广州工业智能研究院 | 一种制造大数据处理平台及方法 |
CN113892939A (zh) * | 2021-09-26 | 2022-01-07 | 燕山大学 | 一种基于多特征融合的人体静息状态下呼吸频率监测方法 |
CN114219213A (zh) * | 2021-11-12 | 2022-03-22 | 国网辽宁省电力有限公司葫芦岛供电公司 | 一种基于大数据的企业数据中台业务需求智能决策方法 |
CN114943312A (zh) * | 2022-07-22 | 2022-08-26 | 广州市零脉信息科技有限公司 | 一种用于电网电力设备的信息化数据评估方法 |
CN115048465A (zh) * | 2021-03-09 | 2022-09-13 | 中核武汉核电运行技术股份有限公司 | 一种基于核电厂PaaS平台的数据分类聚合方法及系统 |
CN115630839A (zh) * | 2022-11-01 | 2023-01-20 | 苏州泽达兴邦医药科技有限公司 | 一种基于数据挖掘的生产智能反馈调控系统 |
CN116521689A (zh) * | 2023-07-05 | 2023-08-01 | 北京力码科技有限公司 | 一种金融数据的存储系统及方法 |
CN116629709A (zh) * | 2023-07-21 | 2023-08-22 | 国网山东省电力公司青岛市即墨区供电公司 | 一种供电指标的智能化分析报警系统 |
CN116755908A (zh) * | 2023-08-21 | 2023-09-15 | 中招联合信息股份有限公司 | 基于信息数据传输的通知提示系统 |
-
2016
- 2016-05-18 CN CN201610329444.9A patent/CN106022477A/zh active Pending
Cited By (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106484914A (zh) * | 2016-10-26 | 2017-03-08 | 国云科技股份有限公司 | 一种快速实现数据挖掘分析的模块组件化方法 |
CN108074022A (zh) * | 2016-11-10 | 2018-05-25 | 中国电力科学研究院 | 一种基于集中运维的硬件资源分析与评估方法 |
CN106503273A (zh) * | 2016-12-19 | 2017-03-15 | 四川长虹电器股份有限公司 | 一种iOS设备数据分析系统 |
CN107103050A (zh) * | 2017-03-31 | 2017-08-29 | 海通安恒(大连)大数据科技有限公司 | 一种大数据建模平台及方法 |
CN107302451A (zh) * | 2017-06-13 | 2017-10-27 | 国网江西省电力公司信息通信分公司 | 一种信息通信运行主动辅助决策的方法 |
CN107578104A (zh) * | 2017-08-31 | 2018-01-12 | 江苏康缘药业股份有限公司 | 一种中药生产过程知识系统 |
CN107578104B (zh) * | 2017-08-31 | 2018-11-06 | 江苏康缘药业股份有限公司 | 一种中药生产过程知识系统 |
CN107730173A (zh) * | 2017-10-13 | 2018-02-23 | 郑州云海信息技术有限公司 | 一种基于数据分析的小型超市自动采购方法及系统 |
CN108269000A (zh) * | 2017-12-22 | 2018-07-10 | 武汉烽火众智数字技术有限责任公司 | 基于警情大数据时空分析的智能警力部署方法及系统 |
CN108170770A (zh) * | 2017-12-26 | 2018-06-15 | 山东联科云计算股份有限公司 | 一种基于大数据的分析训练平台 |
CN108230039A (zh) * | 2018-01-17 | 2018-06-29 | 平安好房(上海)电子商务有限公司 | 潜在成交房源筛选方法、装置、设备及可读存储介质 |
CN112543852A (zh) * | 2018-01-19 | 2021-03-23 | 罗伯特·博世有限公司 | 用于使用基于聚类的规则挖掘方法来优化结构的能量使用的系统和方法 |
US11519628B2 (en) | 2018-01-19 | 2022-12-06 | Robert Bosch Gmbh | System and method for optimizing energy use of a structure using a clustering-based rule-mining approach |
CN108520039A (zh) * | 2018-04-02 | 2018-09-11 | 河南大学 | 一种大数据优化分析方法 |
CN110427398A (zh) * | 2018-04-28 | 2019-11-08 | 北京资采信息技术有限公司 | 一种基于数据挖掘与分析的模型管理工具 |
CN108805342A (zh) * | 2018-05-29 | 2018-11-13 | 万洲电气股份有限公司 | 一种基于聚合分析管控方法的智能优化节能系统 |
CN109118079A (zh) * | 2018-08-07 | 2019-01-01 | 山东纬横数据科技有限公司 | 一种制造业产品质量数据关联分析方法 |
CN110909970A (zh) * | 2018-09-17 | 2020-03-24 | 北京京东金融科技控股有限公司 | 信用评分方法和装置 |
CN109800962A (zh) * | 2018-12-27 | 2019-05-24 | 四川华迪信息技术有限公司 | 一种就业数据的定量分析方法及系统 |
CN110413431A (zh) * | 2019-08-05 | 2019-11-05 | 吉林吉大通信设计院股份有限公司 | 一种针对于大数据平台故障的智能识别预警装置及方法 |
CN110674265A (zh) * | 2019-08-06 | 2020-01-10 | 上海孚典智能科技有限公司 | 面向非结构化信息的特征判别与信息推荐系统 |
CN110990384A (zh) * | 2019-11-04 | 2020-04-10 | 武汉中卫慧通科技有限公司 | 一种大数据平台bi分析方法 |
CN110990384B (zh) * | 2019-11-04 | 2023-08-22 | 武汉中卫慧通科技有限公司 | 一种大数据平台bi分析方法 |
CN111079809A (zh) * | 2019-12-06 | 2020-04-28 | 上海精密计量测试研究所 | 电连接器智能统型方法 |
CN111079809B (zh) * | 2019-12-06 | 2023-08-29 | 上海精密计量测试研究所 | 电连接器智能统型方法 |
CN110968620A (zh) * | 2019-12-10 | 2020-04-07 | 国网信通亿力科技有限责任公司 | 一种敏捷数据分析方法 |
CN111177227A (zh) * | 2020-01-17 | 2020-05-19 | 国网福建省电力有限公司 | 一种电力数据自助式分析系统及决策应用类迁移方法 |
CN111708815B (zh) * | 2020-05-11 | 2023-04-18 | 中国石油集团工程股份有限公司 | 一种基于大数据算法的机泵选型及分析方法 |
CN111708815A (zh) * | 2020-05-11 | 2020-09-25 | 中国石油集团工程股份有限公司 | 一种基于大数据算法的机泵选型及分析技术 |
CN112214524A (zh) * | 2020-08-27 | 2021-01-12 | 优学汇信息科技(广东)有限公司 | 一种基于深度数据挖掘的数据评估系统及评估方法 |
CN112347152A (zh) * | 2020-09-22 | 2021-02-09 | 国网辽宁省电力有限公司电力科学研究院 | 基于大数据技术的安全可监测无接口的数据分析服务方法 |
CN115048465A (zh) * | 2021-03-09 | 2022-09-13 | 中核武汉核电运行技术股份有限公司 | 一种基于核电厂PaaS平台的数据分类聚合方法及系统 |
CN113076370A (zh) * | 2021-04-23 | 2021-07-06 | 上海寒光信息科技有限公司 | 一种互联网数据天眼代理bi系统 |
CN113379345A (zh) * | 2021-05-27 | 2021-09-10 | 芜湖锋珉信息科技有限公司 | 一种基于轨迹追踪的智能物流处理方法和系统 |
CN113407182A (zh) * | 2021-06-15 | 2021-09-17 | 国网冀北电力有限公司工程管理分公司 | 一种工程建设管理数据分析决策系统平台 |
CN113407182B (zh) * | 2021-06-15 | 2024-04-12 | 国网冀北电力有限公司工程管理分公司 | 一种工程建设管理数据分析决策系统平台 |
CN113742315A (zh) * | 2021-08-17 | 2021-12-03 | 广州工业智能研究院 | 一种制造大数据处理平台及方法 |
CN113742315B (zh) * | 2021-08-17 | 2024-07-09 | 广州工业智能研究院 | 一种制造大数据处理平台及方法 |
CN113892939A (zh) * | 2021-09-26 | 2022-01-07 | 燕山大学 | 一种基于多特征融合的人体静息状态下呼吸频率监测方法 |
CN114219213A (zh) * | 2021-11-12 | 2022-03-22 | 国网辽宁省电力有限公司葫芦岛供电公司 | 一种基于大数据的企业数据中台业务需求智能决策方法 |
CN114943312A (zh) * | 2022-07-22 | 2022-08-26 | 广州市零脉信息科技有限公司 | 一种用于电网电力设备的信息化数据评估方法 |
CN115630839B (zh) * | 2022-11-01 | 2023-11-10 | 苍南县求是中医药创新研究院 | 一种基于数据挖掘的生产智能反馈调控系统 |
CN115630839A (zh) * | 2022-11-01 | 2023-01-20 | 苏州泽达兴邦医药科技有限公司 | 一种基于数据挖掘的生产智能反馈调控系统 |
CN116521689A (zh) * | 2023-07-05 | 2023-08-01 | 北京力码科技有限公司 | 一种金融数据的存储系统及方法 |
CN116629709A (zh) * | 2023-07-21 | 2023-08-22 | 国网山东省电力公司青岛市即墨区供电公司 | 一种供电指标的智能化分析报警系统 |
CN116629709B (zh) * | 2023-07-21 | 2023-10-20 | 国网山东省电力公司青岛市即墨区供电公司 | 一种供电指标的智能化分析报警系统 |
CN116755908A (zh) * | 2023-08-21 | 2023-09-15 | 中招联合信息股份有限公司 | 基于信息数据传输的通知提示系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106022477A (zh) | 智能分析决策系统及方法 | |
CN111199343B (zh) | 一种多模型融合的烟草市场监管异常数据挖掘方法 | |
Barak et al. | Evaluation and selection of clustering methods using a hybrid group MCDM | |
CN109101632A (zh) | 基于制造大数据的产品质量异常数据追溯分析方法 | |
CN110956273A (zh) | 融合多种机器学习模型的征信评分方法及系统 | |
CN108170769A (zh) | 一种基于决策树算法的装配制造质量数据处理方法 | |
CN106503086A (zh) | 分布式局部离群点的检测方法 | |
CN110990718B (zh) | 一种公司形象提升系统的社会网络模型构建模块 | |
CN116681176B (zh) | 一种基于聚类和异构图神经网络的交通流预测方法 | |
Ding et al. | Student behavior clustering method based on campus big data | |
CN111222847A (zh) | 基于深度学习与非监督聚类的开源社区开发者推荐方法 | |
CN117453764A (zh) | 一种数据挖掘分析方法 | |
Wang | Higher education management and student achievement assessment method based on clustering algorithm | |
Shankar et al. | Analyzing attrition and performance of an employee using machine learning techniques | |
CN113705679A (zh) | 一种基于超图神经网络的学生成绩预测方法 | |
Wang et al. | Digital Management Mode of Enterprise Human Resources under the Background of Digital Transformation | |
Ansari et al. | Analysis of Suitable Approaches for Data Mining Algorithms | |
Gao et al. | Statistics and Analysis of Targeted Poverty Alleviation Information Integrated with Big Data Mining Algorithm | |
Nadinta et al. | A clustering-based approach for reorganizing bus route on bus rapid transit system | |
Liu et al. | Inventory Management of Automobile After-sales Parts Based on Data Mining | |
Gao et al. | Classification decision tree algorithm in predicting students’ course preference | |
Cheng et al. | A K-means algorithm for construction of enterprise innovation system based on data mining technology | |
Sadi-Nezhad et al. | A new fuzzy clustering algorithm based on multi-objective mathematical programming | |
Saritha et al. | Prediction with partitioning: Big data analytics using regression techniques | |
Mentari et al. | Comparative Analysis of Naïve Bayes Algorithm, K-Nearest Neighbours, Neural Network, Decision Tree, and Random Forest to Classify Data Mining in Predicting Heart Disease |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20161012 |