CN105335752A - 一种基于主成分分析多变量决策树的接线方式识别方法 - Google Patents
一种基于主成分分析多变量决策树的接线方式识别方法 Download PDFInfo
- Publication number
- CN105335752A CN105335752A CN201510594873.4A CN201510594873A CN105335752A CN 105335752 A CN105335752 A CN 105335752A CN 201510594873 A CN201510594873 A CN 201510594873A CN 105335752 A CN105335752 A CN 105335752A
- Authority
- CN
- China
- Prior art keywords
- model
- decision
- mode
- data
- decision tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000513 principal component analysis Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012795 verification Methods 0.000 claims abstract description 16
- 238000002360 preparation method Methods 0.000 claims abstract description 7
- 238000003066 decision tree Methods 0.000 claims description 75
- 238000012549 training Methods 0.000 claims description 30
- 238000013138 pruning Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 15
- 238000013459 approach Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000002790 cross-validation Methods 0.000 claims description 6
- 238000013499 data model Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000005284 basis set Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000011282 treatment Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 239000003795 chemical substances by application Substances 0.000 claims description 2
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 238000005192 partition Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 abstract description 2
- 241000196324 Embryophyta Species 0.000 description 2
- 244000287680 Garcinia dulcis Species 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及电力系统中的接线方式识别检测技术,具体涉及一种基于主成分分析多变量决策树的接线方式识别方法;其包括有数据准备、决策分析、决策预测、模型解释和校验四个步骤;本发明基于主成分分析的多变量构建接线方式特征模型,并采用决策树的思想训练接线方式特征模型样本,生成分类器,实现了未知情况下的接线方式识别。
Description
技术领域
本发明涉及电力系统中的接线方式识别检测技术,具体涉及一种基于主成分分析多变量决策树的接线方式识别方法。
背景技术
目前,电力系统中接线方式的识别主要是通过人工识别和程序判据条件两种方式实现的。人工识别的缺点在于:当面对大量的一次接线图时,效率十分低下;程序判据条件方式主要是根据接线方式的电网模型特征来设置判定条件,通过逐步判断条件来识别接线方式,其缺点在于:判定条件固定,理论上合理,但是与现实的各种作图和数据模型存在偏差,识别判据十分不灵活,没有很好的归类和反馈,接线方式识别的鲁棒性不好,容易出现无法识别,甚至是误判和漏判,针对重复出现的问题图形和特殊图形,往往涉及到修改程序扩充和修改判据条件,这种方式对于一些特殊接线或新的接线无法识别,并且后期维护成本较高。
发明内容
本发明针对现有技术下存在的上述问题,研发了一种基于主成分分析多变量决策树的接线方式识别方法。
本发明是通过如下技术方案实现的:
一种基于主成分分析多变量决策树的接线方式识别方法,其主要包括如下步骤:
S1、数据准备阶段:获取电网数据建立基础电网模型,根据电网模型建立设备台账;
S2、决策分析阶段:即构建决策树、修剪决策树;
S3、决策预测阶段:即模型学习并生成分类器;
S4、模型解释和校验阶段:即进行决策树模型效果验证。
其中,在数据准备阶段具体包括如下:
a、构建接线方式基础特征电网模型:首先根据CIME电网模型文件构建电网模型,建立结构化设备树形台账,然后从设备台账中查找连接关系设备集合API实现重要设备的统计,并搜索统计电网特征的接口,构建接线方式基础特征电网模型;
b、建立原始数据集的属性特征:在建立的模型基础上,训练样本抽样,对于抽样之后的电网模型进行校验,校验属性处理,采用数据清洗规则处理缺失数据、去除重复数据、去除噪声数据、处理异常的数据,从而保证数据的完整性、唯一性、精确性;对标准抽样模型导出相应的原始数据集的属性特征模型;样本数据中包含常见的样本模型,样本过少则补充相关样本,补充样本采用直接构造的方式实现;
c、原始数据集的属性特征转换:获取原始数据集的属性特征,考察已有原始数据集的属性特征中必要的信息,自动地进行模型数据集属性特征构造,通过设置特征条件、设置设备特征配比、设置设备连接特征条件构造接线方式属性特征,进行新旧属性特征转换;
d、模型数据集属性特征主成分分析优化:本步骤主要训练模型优化,建立模型维度。在模型维度选取的时候,维度的选取分析过程采用特征向量,正交矩阵等分析方法,利用主成分分析法的思想,将n维特征映射到k维上(k<n),这k维是全新的正交特征,这k维特征称为主元,是重新构造出来的k维特征,简单地从n维特征中去除其余n-k维特征,找到最大方差理论、最小错误理论和坐标轴相关度理论,寻找出各维度因素线性无关的标准正交特征向量,选取最优特征,优化接线方式特征模型;
e、模型数据集属性特征分类:在筛选模型特征的时候,主成分分析会形成数据模型标准化与归一化,会形成连续数据区间(0,1)和无量纲的数据。但是由于决策树采用二分离散化的方法处理连续属性的,在现实中假定分类与属性取值存在几何分布概率的情况并不通用,会大大降低分类精度,为了更好的反映数据分类与属性值的关系,本方案利用基于属性变换的多区间离散化方法将连续数值属性转换为类别的概率属性,把决策树环节按照信息增益率划分的指标转换成寻找最大概率的指标,在一个变化的区间之内寻找最大的概率的指标,实现模型特征多区间离散化。
在决策分析阶段具体如下:
f、构建决策树:针对以上步骤建立的模型,新增”接线名称”一列并将其设置为结果标签列,标签列用作决策树分类时的最终离散输出值,此列在训练时作为预测变量列,在样本训练环节按照经验录入,其余属性或者维度特征设置常规列。所有的常规列及其属性值划分是决策树的决策和预测依据实现的方式,作为决策树节点;
g、决策树修剪:决策树构造过程中,需要对决策树进行修剪,以提高未知样本数据集其预测能力,主要采用两种方法,预修剪和后修剪。
在决策预测阶段具体如下:
h、模型学习:通过决策树模型学习相关信息,输入预测模型,根据模型中样本数据进行预测,并将其记录,反复学习,构建决策模式;
i、生成分类器:根据模型学习构建的决策模式和接线方式决策树模型以IF—Then形式形成分类规则,组成规则集,并沿着给定路径上的每个“属性——值”形成IF部分的一个合取项,叶节点包含的类预测,形成Then后的部分,将规则存入规则库,生成接线方式模型特征分类器,实现决策预测。
在模型解释与校验阶段具体如下:
j、模型解释和校验:决策树算法的执行结果是一棵表明哪些因素影响接线方式流失的决策树。为了得到最有价值的结果,本方案采用K一折交叉确认方法进行模型解释和校验,K一折交叉确认方法将数据分成K份,然后用K-1份(训练集)去训练模型,剩下的一份(测试集)去测试模型的效果;
k、决策树模型效果验证:由训练数据集生成决策树模型后,使用测试数据集进行验证。
本发明的有益效果在于:其基于主成分分析的多变量构建接线方式特征模型,并采用决策树的思想训练接线方式特征模型样本,生成分类器,实现了未知情况下的接线方式识别;其能够不断进行接线方式特征模型学习,对新出现的接线方式给出恰当、正确的分类,具有维护成本低、鲁棒性好的优势。
附图说明
下面结合附图对本发明作进一步的说明。
图1为本发明的流程示意图。
图2为决策树正确识别率统计表。
具体实施方式
下面结合具体实施例对本发明作进一步地说明。
本发明如图1所述,其包括如下步骤:
S1、数据准备阶段:获取电网数据建立基础电网模型,根据电网模型建立设备台账;
S2、决策分析阶段:即构建决策树、修剪决策树;
S3、决策预测阶段:即模型学习并生成分类器;
S4、模型解释和校验阶段:即进行决策树模型效果验证。
进一步,在s1中,所述数据准备阶段具体包括如下:
a、构建接线方式基础特征电网模型:首先根据CIME电网模型文件构建电网模型,建立结构化设备树形台账,然后从设备台账中查找连接关系设备集合API实现重要设备的统计,并搜索统计电网特征的接口,构建接线方式基础特征电网模型;
b、建立原始数据集的属性特征:在建立的模型基础上,训练样本抽样,对于抽样之后的电网模型进行校验,校验属性处理,采用数据清洗规则处理缺失数据、去除重复数据、去除噪声数据、处理异常的数据,从而保证数据的完整性、唯一性、精确性。对标准抽样模型导出相应的原始数据集的属性特征模型。样本数据中包含常见的样本模型,样本过少则补充相关样本,补充样本采用直接构造的方式实现;
c、原始数据集的属性特征转换:获取原始数据集的属性特征,考察已有原始数据集的属性特征中必要的信息,自动地进行模型数据集属性特征构造,通过设置特征条件、设置设备特征配比、设置设备连接特征条件构造接线方式属性特征,进行新旧属性特征转换;
d、模型数据集属性特征主成分分析优化:本步骤主要训练模型优化,建立模型维度;在模型维度选取的时候,维度的选取分析过程采用特征向量,正交矩阵等分析方法,利用主成分分析法的思想,将n维特征映射到k维上(k<n),这k维是全新的正交特征,这k维特征称为主元,是重新构造出来的k维特征,简单地从n维特征中去除其余n-k维特征,找到最大方差理论、最小错误理论和坐标轴相关度理论,寻找出各维度因素线性无关的标准正交特征向量,选取最优特征,优化接线方式特征模型;
e、模型数据集属性特征分类:在筛选模型特征的时候,主成分分析会形成数据模型标准化与归一化,会形成连续数据区间(0,1)和无量纲的数据。但是由于决策树采用二分离散化的方法处理连续属性的,在现实中假定分类与属性取值存在几何分布概率的情况并不通用,会大大降低分类精度,为了更好的反映数据分类与属性值的关系,本方案利用基于属性变换的多区间离散化方法将连续数值属性转换为类别的概率属性,把决策树环节按照信息增益率划分的指标转换成寻找最大概率的指标,在一个变化的区间之内寻找最大的概率的指标,实现模型特征多区间离散化。
更进一步,d中,在主成分分析时,采用接线方式协方差矩阵计算不同维度之间中每一维度与平均值的偏离程度,确定接线方式对属性之间支持程度,具体步骤如下:
Ⅰ、根据模型样例特征数据构建矩阵,求取模型样例均值及模型特征的标准差;
Ⅱ、对接线方式协方差矩阵进行特征值分解,得到的前k大特征值对应的特征向量就是最佳的k维新特征,而且这k维新特征是正交的,得到前k个样例均值,通过变换得到新的样本;
Ⅲ、通过降维简化模型,选取最大的k个样例均值,使得方差较小的特征被丢弃。
进一步,在s2中,所述决策分析阶段具体如下:
f、构建决策树:针对以上步骤建立的模型,新增”接线名称”一列并将其设置为结果标签列,标签列用作决策树分类时的最终离散输出值,此列在训练时作为预测变量列,在样本训练环节按照经验录入,其余属性或者维度特征设置常规列;所有的常规列及其属性值划分是决策树的决策和预测依据实现的方式,作为决策树节点;
g、决策树修剪:决策树构造过程中,需要对决策树进行修剪,以提高未知样本数据集其预测能力,主要采用两种方法,预修剪和后修剪。
更进一步,在f中,决策树采用算法C4.5建立,其根据能够提供最大信息增益的字段划分样本,对第一次划分出来的子样本递归的划分,直到不能再分为止,最后重新检查最底层的划分,去掉那些贡献不大的分支,得到最终的模型,决策树由算法划分样本直接产生,每个叶子节点表示一个特定的训练数据子集,训练数据集中的每个样本只属于一个叶子节点;其中,所述C4.5算法的具体运算步骤如下:
Ⅰ、输入:训练数据集D、特征集A、阈值e;
Ⅱ、输出:决策树T;
Ⅱ-Ⅰ、如果D中所有实例属于同一类Ck,则T为单结点树;
Ⅱ-Ⅱ、如果A=空集,则T单结点树,并将D中实例数最大的类为该节点的类;
Ⅱ-Ⅲ、按公式计算A中各个特征对D的信息增益比,选择增益比最大的特征Ag;
Ⅱ-Ⅳ、如果Ag的信息增益比小于阈值e,则T单结点树,并将D中实例数最大的类为该节点的类;
Ⅱ-Ⅴ、否则,对Ag的每一个可能值ai,依Ag=ai将D分割为子集若干非空Di将并将Di中实例数最大的类作为标记,构建子树;
Ⅱ-Ⅵ、对结点I,以Di为训练集,以A-AG为特征集,递归地调用Ⅱ-Ⅰ~Ⅱ-Ⅴ,得到子树Ti,返回T。
更进一步,在g中,所述预修剪具体是:在构造节点时,若该节点的信息增益小于0.1%时舍弃该节点;若该节点下的记录数在所有记录数中的比例小于0.2%时,则停止该子树的生长;没有属性可以再用于对数据进行分割时,则停止该子树的生长;利用ID3算法判断不同流失接线方式的群组,当所有递归子集的运行状态均为流失或不流失时,则停止树的生长;所述后修剪具体是:用期望错误率最小原则:对树中的内部节点计算其剪枝/不剪枝可能出现的期望错误率,若错误率小于0.2%,则剪掉该树枝。
进一步,在s3中,所述决策预测阶段具体如下:
h、模型学习:通过决策树模型学习相关信息,输入预测模型,根据模型中样本数据进行预测,并将其记录,反复学习,构建决策模式;
i、生成分类器:根据模型学习构建的决策模式和接线方式决策树模型以IF—Then形式形成分类规则,组成规则集,并沿着给定路径上的每个“属性——值”形成IF部分的一个合取项,叶节点包含的类预测,形成Then后的部分,将规则存入规则库,生成接线方式模型特征分类器,实现决策预测。
进一步,在s4中,所述模型解释与校验阶段具体如下:
j、模型解释和校验:决策树算法的执行结果是一棵表明哪些因素影响接线方式流失的决策树。为了得到最有价值的结果,本方案采用K一折交叉确认方法进行模型解释和校验,K一折交叉确认方法将数据分成K份,然后用K-1份(训练集)去训练模型,剩下的一份(测试集)去测试模型的效果;
k、决策树模型效果验证:由训练数据集生成决策树模型后,使用测试数据集进行验证,并得图2所示决策树正确识别率统计表。
Claims (8)
1.一种基于主成分分析多变量决策树的接线方式识别方法,其特征在于:包括如下步骤:
S1、数据准备阶段:获取电网数据建立基础电网模型,根据电网模型建立设备台账;
S2、决策分析阶段:即构建决策树、修剪决策树;
S3、决策预测阶段:即模型学习并生成分类器;
S4、模型解释和校验阶段:即进行决策树模型效果验证。
2.根据权利要求1所述基于主成分分析多变量决策树的接线方式识别方法,其特征在于:s1中,所述数据准备阶段具体包括如下:
a、构建接线方式基础特征电网模型:首先根据CIME电网模型文件构建电网模型,建立结构化设备树形台账,然后从设备台账中查找连接关系设备集合API实现重要设备的统计,并搜索统计电网特征的接口,构建接线方式基础特征电网模型;
b、建立原始数据集的属性特征:在建立的模型基础上,训练样本抽样,对于抽样之后的电网模型进行校验,校验属性处理,采用数据清洗规则处理缺失数据、去除重复数据、去除噪声数据、处理异常的数据,从而保证数据的完整性、唯一性、精确性;对标准抽样模型导出相应的原始数据集的属性特征模型;样本数据中包含常见的样本模型,样本过少则补充相关样本,补充样本采用直接构造的方式实现;
c、原始数据集的属性特征转换:获取原始数据集的属性特征,考察已有原始数据集的属性特征中必要的信息,自动地进行模型数据集属性特征构造,通过设置特征条件、设置设备特征配比、设置设备连接特征条件构造接线方式属性特征,进行新旧属性特征转换;
d、模型数据集属性特征主成分分析优化:本步骤主要训练模型优化,建立模型维度;在模型维度选取的时候,维度的选取分析过程采用特征向量,正交矩阵等分析方法,利用主成分分析法的思想,将n维特征映射到k维上(k<n),这k维是全新的正交特征,这k维特征称为主元,是重新构造出来的k维特征,简单地从n维特征中去除其余n-k维特征,找到最大方差理论、最小错误理论和坐标轴相关度理论,寻找出各维度因素线性无关的标准正交特征向量,选取最优特征,优化接线方式特征模型;
e、模型数据集属性特征分类:在筛选模型特征的时候,主成分分析会形成数据模型标准化与归一化,会形成连续数据区间(0,1)和无量纲的数据;但是由于决策树采用二分离散化的方法处理连续属性的,在现实中假定分类与属性取值存在几何分布概率的情况并不通用,会大大降低分类精度,为了更好的反映数据分类与属性值的关系,本方案利用基于属性变换的多区间离散化方法将连续数值属性转换为类别的概率属性,把决策树环节按照信息增益率划分的指标转换成寻找最大概率的指标,在一个变化的区间之内寻找最大的概率的指标,实现模型特征多区间离散化。
3.根据权利要求1所述基于主成分分析多变量决策树的接线方式识别方法,其特征在于:s2中,所述决策分析阶段具体如下:
f、构建决策树:针对以上步骤建立的模型,新增”接线名称”一列并将其设置为结果标签列,标签列用作决策树分类时的最终离散输出值,此列在训练时作为预测变量列,在样本训练环节按照经验录入,其余属性或者维度特征设置常规列;所有的常规列及其属性值划分是决策树的决策和预测依据实现的方式,作为决策树节点;
g、决策树修剪:决策树构造过程中,需要对决策树进行修剪,以提高未知样本数据集其预测能力,主要采用两种方法,预修剪和后修剪。
4.根据权利要求1所述基于主成分分析多变量决策树的接线方式识别方法,其特征在于:s3中,所述决策预测阶段具体如下:
h、模型学习:通过决策树模型学习相关信息,输入预测模型,根据模型中样本数据进行预测,并将其记录,反复学习,构建决策模式;
i、生成分类器:根据模型学习构建的决策模式和接线方式决策树模型以IF—Then形式形成分类规则,组成规则集,并沿着给定路径上的每个“属性——值”形成IF部分的一个合取项,叶节点包含的类预测,形成Then后的部分,将规则存入规则库,生成接线方式模型特征分类器,实现决策预测。
5.根据权利要求1所述基于主成分分析多变量决策树的接线方式识别方法,其特征在于:s4中,所述模型解释与校验阶段具体如下:
j、模型解释和校验:决策树算法的执行结果是一棵表明哪些因素影响接线方式流失的决策树;为了得到最有价值的结果,本方案采用K一折交叉确认方法进行模型解释和校验,K一折交叉确认方法将数据分成K份,然后用K-1份(训练集)去训练模型,剩下的一份(测试集)去测试模型的效果;
k、决策树模型效果验证:由训练数据集生成决策树模型后,使用测试数据集进行验证。
6.根据权利要求2所述基于主成分分析多变量决策树的接线方式识别方法,其特征在于:d中,在主成分分析时,采用接线方式协方差矩阵计算不同维度之间中每一维度与平均值的偏离程度,确定接线方式对属性之间支持程度,具体步骤如下:
Ⅰ、根据模型样例特征数据构建矩阵,求取模型样例均值及模型特征的标准差;
Ⅱ、对接线方式协方差矩阵进行特征值分解,得到的前k大特征值对应的特征向量就是最佳的k维新特征,而且这k维新特征是正交的,得到前k个样例均值,通过变换得到新的样本;
Ⅲ、通过降维简化模型,选取最大的k个样例均值,使得方差较小的特征被丢弃。
7.根据权利要求3所述基于主成分分析多变量决策树的接线方式识别方法,其特征在于:f中,决策树采用算法C4.5建立,其根据能够提供最大信息增益的字段划分样本,对第一次划分出来的子样本递归的划分,直到不能再分为止,最后重新检查最底层的划分,去掉那些贡献不大的分支,得到最终的模型,决策树由算法划分样本直接产生,每个叶子节点表示一个特定的训练数据子集,训练数据集中的每个样本只属于一个叶子节点;所述C4.5算法的具体运算步骤如下:
Ⅰ、输入:训练数据集D、特征集A、阈值e;
Ⅱ、输出:决策树T;
Ⅱ-Ⅰ、如果D中所有实例属于同一类Ck,则T为单结点树;
Ⅱ-Ⅱ、如果A=空集,则T单结点树,并将D中实例数最大的类为该节点的类;
Ⅱ-Ⅲ、按公式计算A中各个特征对D的信息增益比,选择增益比最大的特征Ag;
Ⅱ-Ⅳ、如果Ag的信息增益比小于阈值e,则T单结点树,并将D中实例数最大的类为该节点的类;
Ⅱ-Ⅴ、否则,对Ag的每一个可能值ai,依Ag=ai将D分割为子集若干非空Di将并将Di中实例数最大的类作为标记,构建子树;
Ⅱ-Ⅵ、对结点I,以Di为训练集,以A-AG为特征集,递归地调用Ⅱ-Ⅰ~Ⅱ-Ⅴ,得到子树Ti,返回T。
8.根据权利要求3所述基于主成分分析多变量决策树的接线方式识别方法,其特征在于:g中,所述预修剪具体是:在构造节点时,若该节点的信息增益小于0.1%时舍弃该节点;若该节点下的记录数在所有记录数中的比例小于0.2%时,则停止该子树的生长;没有属性可以再用于对数据进行分割时,则停止该子树的生长;利用ID3算法判断不同流失接线方式的群组,当所有递归子集的运行状态均为流失或不流失时,则停止树的生长;所述后修剪具体是:用期望错误率最小原则:对树中的内部节点计算其剪枝/不剪枝可能出现的期望错误率,若错误率小于0.2%,则剪掉该树枝。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510594873.4A CN105335752A (zh) | 2015-09-18 | 2015-09-18 | 一种基于主成分分析多变量决策树的接线方式识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510594873.4A CN105335752A (zh) | 2015-09-18 | 2015-09-18 | 一种基于主成分分析多变量决策树的接线方式识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105335752A true CN105335752A (zh) | 2016-02-17 |
Family
ID=55286267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510594873.4A Pending CN105335752A (zh) | 2015-09-18 | 2015-09-18 | 一种基于主成分分析多变量决策树的接线方式识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105335752A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106094745A (zh) * | 2016-06-07 | 2016-11-09 | 蓝星(北京)技术中心有限公司 | 连续化工生产过程多变量动态在线监测方法和装置 |
CN106407706A (zh) * | 2016-09-29 | 2017-02-15 | 北京理工大学 | 基于boruta算法的多层次老年人体能状态量化等级计算方法 |
CN106656357A (zh) * | 2016-09-14 | 2017-05-10 | 国网江苏省电力公司泰州供电公司 | 一种工频通信信道状态评估系统和方法 |
CN107038453A (zh) * | 2017-03-06 | 2017-08-11 | 辽宁大唐国际新能源有限公司 | 一种风电机组的故障预警系统及判断方法 |
CN107132268A (zh) * | 2017-06-21 | 2017-09-05 | 佛山科学技术学院 | 一种用于识别肺癌组织的数据处理装置及系统 |
CN107132267A (zh) * | 2017-06-21 | 2017-09-05 | 佛山科学技术学院 | 一种基于随机森林的茶叶分类方法及系统 |
CN107301296A (zh) * | 2017-06-27 | 2017-10-27 | 西安电子科技大学 | 基于数据的断路器故障影响因素定性分析方法 |
CN107561997A (zh) * | 2017-08-22 | 2018-01-09 | 电子科技大学 | 一种基于大数据决策树的电力设备状态监测方法 |
CN107609708A (zh) * | 2017-09-25 | 2018-01-19 | 广州赫炎大数据科技有限公司 | 一种基于手机游戏商店的用户流失预测方法及系统 |
CN107943537A (zh) * | 2017-11-14 | 2018-04-20 | 广东欧珀移动通信有限公司 | 应用清理方法、装置、存储介质及电子设备 |
CN108897763A (zh) * | 2018-05-23 | 2018-11-27 | 闫俊杰 | 一种区块链数据转化系统 |
CN109035763A (zh) * | 2018-07-02 | 2018-12-18 | 东南大学 | 基于c4.5的高速公路事故主次因分析及事故类型判断方法 |
CN110051328A (zh) * | 2019-04-19 | 2019-07-26 | 中国联合网络通信集团有限公司 | 一种采血后的自动按压方法和系统 |
CN110930038A (zh) * | 2019-11-28 | 2020-03-27 | 中国建设银行股份有限公司 | 一种贷款需求识别方法、装置、终端及存储介质 |
CN111079809A (zh) * | 2019-12-06 | 2020-04-28 | 上海精密计量测试研究所 | 电连接器智能统型方法 |
CN111199314A (zh) * | 2019-12-30 | 2020-05-26 | 成都康赛信息技术有限公司 | 基于c4.5算法分析影响中学生成绩的因素的方法 |
CN111401570A (zh) * | 2020-04-10 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 针对隐私树模型的解释方法和装置 |
CN111414698A (zh) * | 2020-03-25 | 2020-07-14 | 青岛理工大学 | 一种地铁隧道开挖地表沉降成因的对应分析方法 |
WO2020211833A1 (zh) * | 2019-04-18 | 2020-10-22 | 南京邮电大学 | 一种基于机器学习的ap自适应优化选择方法 |
CN113420733A (zh) * | 2021-08-23 | 2021-09-21 | 北京黑马企服科技有限公司 | 一种高效分布式大数据数据采集实现方法及系统 |
CN114153721A (zh) * | 2021-11-16 | 2022-03-08 | 大连理工大学 | 一种基于决策树算法的api误用检测方法 |
CN116258282A (zh) * | 2023-05-12 | 2023-06-13 | 国网浙江省电力有限公司金华供电公司 | 一种基于云平台的智能电网资源调度分配方法 |
CN117271375A (zh) * | 2023-11-21 | 2023-12-22 | 中国电力科学研究院有限公司 | 电网图模数测试样本生成、维护及管理方法和相关装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101414300A (zh) * | 2008-11-28 | 2009-04-22 | 电子科技大学 | 一种互联网舆情信息的分类处理方法 |
CN103618638A (zh) * | 2013-10-29 | 2014-03-05 | 国家电网公司 | 评估电力通信网检修方案的方法 |
CN103876734A (zh) * | 2014-03-24 | 2014-06-25 | 北京工业大学 | 一种基于决策树的脑电信号特征选择方法 |
CN104732279A (zh) * | 2015-03-25 | 2015-06-24 | 武汉大学 | 基于地理信息系统的改进元胞自动机交通流模拟分析方法 |
-
2015
- 2015-09-18 CN CN201510594873.4A patent/CN105335752A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101414300A (zh) * | 2008-11-28 | 2009-04-22 | 电子科技大学 | 一种互联网舆情信息的分类处理方法 |
CN103618638A (zh) * | 2013-10-29 | 2014-03-05 | 国家电网公司 | 评估电力通信网检修方案的方法 |
CN103876734A (zh) * | 2014-03-24 | 2014-06-25 | 北京工业大学 | 一种基于决策树的脑电信号特征选择方法 |
CN104732279A (zh) * | 2015-03-25 | 2015-06-24 | 武汉大学 | 基于地理信息系统的改进元胞自动机交通流模拟分析方法 |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106094745B (zh) * | 2016-06-07 | 2018-11-16 | 蓝星(北京)技术中心有限公司 | 连续化工生产过程多变量动态在线监测方法和装置 |
CN106094745A (zh) * | 2016-06-07 | 2016-11-09 | 蓝星(北京)技术中心有限公司 | 连续化工生产过程多变量动态在线监测方法和装置 |
CN106656357A (zh) * | 2016-09-14 | 2017-05-10 | 国网江苏省电力公司泰州供电公司 | 一种工频通信信道状态评估系统和方法 |
CN106656357B (zh) * | 2016-09-14 | 2020-02-11 | 国网江苏省电力公司泰州供电公司 | 一种工频通信信道状态评估系统和方法 |
CN106407706A (zh) * | 2016-09-29 | 2017-02-15 | 北京理工大学 | 基于boruta算法的多层次老年人体能状态量化等级计算方法 |
CN107038453A (zh) * | 2017-03-06 | 2017-08-11 | 辽宁大唐国际新能源有限公司 | 一种风电机组的故障预警系统及判断方法 |
CN107132268A (zh) * | 2017-06-21 | 2017-09-05 | 佛山科学技术学院 | 一种用于识别肺癌组织的数据处理装置及系统 |
CN107132267A (zh) * | 2017-06-21 | 2017-09-05 | 佛山科学技术学院 | 一种基于随机森林的茶叶分类方法及系统 |
CN107301296A (zh) * | 2017-06-27 | 2017-10-27 | 西安电子科技大学 | 基于数据的断路器故障影响因素定性分析方法 |
CN107561997B (zh) * | 2017-08-22 | 2019-09-24 | 电子科技大学 | 一种基于大数据决策树的电力设备状态监测方法 |
CN107561997A (zh) * | 2017-08-22 | 2018-01-09 | 电子科技大学 | 一种基于大数据决策树的电力设备状态监测方法 |
CN107609708A (zh) * | 2017-09-25 | 2018-01-19 | 广州赫炎大数据科技有限公司 | 一种基于手机游戏商店的用户流失预测方法及系统 |
CN107609708B (zh) * | 2017-09-25 | 2021-03-26 | 广州赫炎大数据科技有限公司 | 一种基于手机游戏商店的用户流失预测方法及系统 |
CN107943537A (zh) * | 2017-11-14 | 2018-04-20 | 广东欧珀移动通信有限公司 | 应用清理方法、装置、存储介质及电子设备 |
CN107943537B (zh) * | 2017-11-14 | 2020-01-14 | Oppo广东移动通信有限公司 | 应用清理方法、装置、存储介质及电子设备 |
CN108897763A (zh) * | 2018-05-23 | 2018-11-27 | 闫俊杰 | 一种区块链数据转化系统 |
CN109035763A (zh) * | 2018-07-02 | 2018-12-18 | 东南大学 | 基于c4.5的高速公路事故主次因分析及事故类型判断方法 |
WO2020211833A1 (zh) * | 2019-04-18 | 2020-10-22 | 南京邮电大学 | 一种基于机器学习的ap自适应优化选择方法 |
CN110051328B (zh) * | 2019-04-19 | 2021-12-03 | 中国联合网络通信集团有限公司 | 一种采血后的自动按压方法和系统 |
CN110051328A (zh) * | 2019-04-19 | 2019-07-26 | 中国联合网络通信集团有限公司 | 一种采血后的自动按压方法和系统 |
CN110930038A (zh) * | 2019-11-28 | 2020-03-27 | 中国建设银行股份有限公司 | 一种贷款需求识别方法、装置、终端及存储介质 |
CN111079809A (zh) * | 2019-12-06 | 2020-04-28 | 上海精密计量测试研究所 | 电连接器智能统型方法 |
CN111079809B (zh) * | 2019-12-06 | 2023-08-29 | 上海精密计量测试研究所 | 电连接器智能统型方法 |
CN111199314A (zh) * | 2019-12-30 | 2020-05-26 | 成都康赛信息技术有限公司 | 基于c4.5算法分析影响中学生成绩的因素的方法 |
CN111414698A (zh) * | 2020-03-25 | 2020-07-14 | 青岛理工大学 | 一种地铁隧道开挖地表沉降成因的对应分析方法 |
CN111401570A (zh) * | 2020-04-10 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 针对隐私树模型的解释方法和装置 |
CN113420733A (zh) * | 2021-08-23 | 2021-09-21 | 北京黑马企服科技有限公司 | 一种高效分布式大数据数据采集实现方法及系统 |
CN114153721A (zh) * | 2021-11-16 | 2022-03-08 | 大连理工大学 | 一种基于决策树算法的api误用检测方法 |
CN116258282A (zh) * | 2023-05-12 | 2023-06-13 | 国网浙江省电力有限公司金华供电公司 | 一种基于云平台的智能电网资源调度分配方法 |
CN117271375A (zh) * | 2023-11-21 | 2023-12-22 | 中国电力科学研究院有限公司 | 电网图模数测试样本生成、维护及管理方法和相关装置 |
CN117271375B (zh) * | 2023-11-21 | 2024-02-13 | 中国电力科学研究院有限公司 | 电网图模数测试样本生成、维护及管理方法和相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105335752A (zh) | 一种基于主成分分析多变量决策树的接线方式识别方法 | |
CN110609759B (zh) | 一种故障根因分析的方法及装置 | |
CN101093559B (zh) | 一种基于知识发现的专家系统构造方法 | |
CN108985380B (zh) | 一种基于聚类集成的转辙机故障识别方法 | |
CN101620619B (zh) | 一种基于聚类方法的测量数据粗大误差处理系统及处理方法 | |
CN106022477A (zh) | 智能分析决策系统及方法 | |
CN106485089B (zh) | 谐波用户典型工况的区间参数获取方法 | |
CN117828539B (zh) | 数据智能融合分析系统及方法 | |
CN111507504A (zh) | 基于数据重采样的Adaboost集成学习电网故障诊断系统及方法 | |
CN112181706A (zh) | 一种基于对数区间隔离的电力调度数据异常检测方法 | |
CN112149922A (zh) | 高速公路隧道下行线出入口区域事故严重程度预测方法 | |
CN113743453A (zh) | 一种基于随机森林的人口数量预测方法 | |
CN115481841A (zh) | 基于特征提取和改进随机森林的物资需求预测方法 | |
CN114880584B (zh) | 一种基于社区发现的发电机组故障分析方法 | |
CN111428821A (zh) | 一种基于决策树的资产分类方法 | |
CN113496255B (zh) | 基于深度学习与决策树驱动的配电网混合观测布点方法 | |
CN113326882A (zh) | 一种基于分类和回归算法的模型集成方法、装置 | |
CN113689036A (zh) | 一种基于决策树c4.5算法的热像仪质量问题原因预测方法 | |
CN109934489B (zh) | 一种电力设备状态评价方法 | |
Supardi et al. | An evolutionary stream clustering technique for outlier detection | |
CN117113045B (zh) | 一种自动驾驶的定位系统有效性评估方法 | |
CN114943304B (zh) | 一种基于贝叶斯的3c电子产品装配误差传递方法 | |
Sun et al. | Short-term traffic flow forecasting based on clustering and feature selection | |
CN114816979B (zh) | 一种基于聚类分析和决策树算法的软件缺陷预测方法 | |
Wang et al. | Construction of Decision Analysis System Based on Improved Decision Tree Pruning Algorithm and Rough Set Classification Theory [A] |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160217 |
|
RJ01 | Rejection of invention patent application after publication |