CN106251241A

CN106251241A - 一种基于特征选择改进的LR‑Bagging算法

Info

Publication number: CN106251241A
Application number: CN201610623647.9A
Authority: CN
Inventors: 吴漾; 朱州; 谭驰; 曾路; 王鹏宇; 王玮; 罗念华; 吴忠; 张克贤; 郭仁超; 杨箴; 方继宇; 龙娜; 钱俊凤; 王倩冰; 陆岫昶
Original assignee: Information Center of Guizhou Power Grid Co Ltd
Current assignee: Information Center of Guizhou Power Grid Co Ltd
Priority date: 2016-08-02
Filing date: 2016-08-02
Publication date: 2016-12-21

Abstract

本发明公开了一种基于特征选择改进的LR‑Bagging算法，包括以下步骤：首先从原始数据中确定初始数据集，要求自变量与因变量的相关程度不能过低；其次，对初始数据集中的离散型自变量进行WEO编码；然后利用随机抽样获得一定数目的记录和特征字段组成训练例，将训练例进行LR((LogisticRegression)模型训练并做系数的正态显著性检验，若不显著，则剔除,反之，加入组合模型。进行循环迭代，直到组合模型较优。最后，则可以采用较优组合模型做预测与分群。该算法可提升分类结果的多样性，变量信息的提取度与预测结果的准确率，也能有效减少基LR模型由于变量过多而导致多重共线与“过拟合”的可能性。

Description

一种基于特征选择改进的LR-Bagging算法

技术领域

本发明涉及电力风险概率分类与预测领域，具体涉及基于特征选择改进的LR-Bagging算法。

背景技术

我国电力体制的深化改革为电力行业引入了市场机制，在有效实现电力资源优化配置，提高电力资源生产和传输的效率的同时，也带给电力企业更大的市场风险，而客户欠费而产生的电费回收风险一直是电力营销中存在的重大风险之一。电费作为电力企业实现资金回笼的有效方式，维系着电力系统供、产、销的经济链条的正常运转，但拖欠电费的现象却层出不穷。客户欠费风险的切实防范和规避对电力企业十分重要。

国内学术界专业人士对于电力欠费问题的研究起步较晚，主要集中于对电费回收风险的现状、影响因素、评价、有效性措施等内容的理论研究，缺乏以现实数据为基础量化模型支撑；虽然也有许多文献通过对电力客户信用等级建模对其欠费风险进行预测，但模型不够直接；随着大数据挖掘行业的蓬勃发展，近几年出现了基于逻辑回归、决策树的数据挖掘算法的电力客户欠费违约概率预测模型，但前者选取特征均为二分类变量，适用性较低，变量的个数也较少；后者选择的模型变量虽较为多样性，但模型的预测结果差强人意。而在实际应用中，影响电力客户的影响因素很多，如何借助电力客户属性数据和历史行为特征数据，尽可能挖掘每一个变量与欠费风险的相关信息，建立一个更为准确、使用范围更广的客户欠费风险预测模型是十分重要的。

发明内容

本发明要解决的技术问题是：提出一种改进的LR-Bagging算法，通过特征选择与循环迭代来提升变量信息的提取度与预测分类结果的准确性。

本发明所要解决的技术问题是根据众多的影响因素，进行概率风险群体的预测与分类。因此，本发明的基于特征选择改进的LR-Bagging(即以LR为基分类器的Bagging集成学习)方法的思路是，首先从原始数据中确定初始数据集，要求自变量与因变量的相关程度不能过低；其次，对初始数据集中的离散型自变量进行WEO编码；然后利用随机抽样获得一定数目的记录和特征字段组成训练例，将训练例进行LR((Logistic Regression)模型训练并做系数的正态显著性检验，若不显著，则剔除，反之，加入组合模型。进行循环迭代，直到组合模型较优。最后，则可以采用较优组合模型做预测与分群。

具体的，本发明采用的技术方案是构建一个基于特征选择改进的LR-Bagging组合模型，利用该组合模型做预测与分类。因此，本发明的基于特征选择改进的LR-Bagging(即以LR为基分类器的Bagging集成学习)方法包括以下步骤：

步骤1：从原始数据中确定初始数据集，自变量与因变量的相关程度不能过低；

步骤2：对离散型自变量进行WEO编码；

步骤3：基LR模型的训练与检验，集成组合模型；

步骤4：进行步骤三的循环迭代，直到组合模型较优；

步骤5：利用较优组合模型的预测与分群。

其中，步骤1中初始数据集的确定，是需要自变量与因变量相关性的大小进行特征的初步筛选来提高循环过程获得显著LR分类器的效率，具体方式为：对于连续型自变量，采用非参数统计量spearman相关系数，对于离散型变量，则采用卡方检验。表示第i个含有j个特征变量的自变量样本，即S包含n个记录p个特征字段。

其中，步骤2中对离散型自变量的WEO编码的计算公式为：

{WEO}_{i} = l n (\frac{P_{b i}}{P_{g i}}) * 100

其中，P_bi和P_gi分别表示离散变量取第i个类值时，二分类因变量中“坏”样本占比和“好”样本占比。

进一步的，步骤3中基LR模型的训练与检验，并集成组合模型的过程包含以下四个步骤：

(1)利用随机抽样获得一定数目的记录和特征字段组成训练例

(2)基于极大似然法采用训练例进行LR模型训练；

(3)模型系数的正态显著性检验，若不显著，则剔除,反之，加入组合模型；

(4)组合模型是每一个显著的LR模型相同权重的线性相加，即若假设h₁，h₂，……，h_t为t个显著的LR模型，有：

H = \frac{1}{t} Σ_{i = 1}^{t} h_{t}

更进一步的，步骤4中较优组合模型的确定是根据AUC统计量的变化程度来决定的，即对比加入新的显著的LR模型的组合模型与未加入时的组合模型的分类评价标准——AUC变化比率，即当满足：

\frac{{AUC}_{t} - {AUC}_{t - 1}}{{AUC}_{t - 1}} \leq ϵ ({AUC}_{t} > {AUC}_{t - 1})

时，认为组合模型t较优，而组合模型t的AUC_t为预测初始数据集S分类结果的ROC曲线的面积。

本发明具有如下有益效果：

本发明的算法可提升分类结果的多样性，变量信息的提取度与预测结果的准确率，也能有效减少基LR模型由于变量过多而导致多重共线与“过拟合”的可能性，为较多影响因素的风险概率预测与分群提供一种技术手段。

附图说明

图1是本发明的方法步骤示意图；

图2是基于特征选择改进的LR-Bagging算法流程图；

图3是本发明模型与传统单一逐步逻辑回归的ROC曲线比较图；

图4是本发明模型与传统单一逐步逻辑回归的提升度曲线比较图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。

如图1所示，本发明的技术方案，首先从原始数据中确定初始数据集(步骤1)，其次，对初始数据集中的离散型自变量进行WEO编码(步骤2)，然后利用随机抽样获得一定数目的记录和特征字段组成训练例(步骤3)，将训练例进行LR((Logistic Regression)模型训练并做系数的正态显著性检验，若不显著，则剔除,反之，加入组合模型(步骤4)。进行循环迭代，直到组合模型较优(步骤5)。最后，则可以采用较优组合模型做预测与分群(步骤6)。

实施例1：

本实施例为基于本说明改进算法对贵阳电力欠费高风险居民客户做出预测，结合图2的模型建立与求解过程，具体步骤如下：

步骤2：对离散型自变量进行WEO编码；

步骤3：基LR模型的训练与检验，集成组合模型；

步骤4：进行步骤三的循环迭代，直到组合模型较优；

步骤5：利用较优组合模型的预测与评价。

其中，步骤1具体说明如下：

本发明涉及的应用数据来源于2015年8月至2015年9月广州省贵阳市电网居民客户欠费数据，共包含包括客户性别、年龄、合同容量等基本属性与欠费金额、欠费时长等历史行为属性在内的30多个变量2000000多万条数据。本过程在对原始数据的探索分析的基础上，发现与分析目标无关或模型需要处理的数据，并针对此类数据进行数据清洗、数据集成和数据变换等处理；同时初步筛选出与电力客户欠费风险相关程度的较高的变量集合，最终得到完整的，无噪音的，适合改进算法的初始样本集。整个子过程可以表述为：

S1.1：数据预处理。对于含有NA值的记录，由于所占的样本比例不及整体数据的0.01％，不影响整体数据规模，可直接删除；对于噪声数据，采用3倍标准差进行检测，即当满足|x_i-u|≥3σ时，认为x_i在变量x中是异常的。由于数量较少，也采取直接删除处理的方式。

S1.2：无关变量处理，例如，家庭住址，电话号码等信息，直接删除。

S1.3：特征变量的初步筛选，是根据其与因变量“是否为欠费风险客户”的相关程度展开的，对于连续型自变量，采用非参数统计量spearman相关系数，保留其值大于0.5的变量；对于离散型变量，则采用卡方检验，在显著性水平为0.05的条件下，保留通过变量。

S1.4：随机抽取1％的记录与S1.3中初步筛选的变量组成初始数据集

步骤2具体说明如下：

对离散型自变量做WEO编码，主要是为了克服逻辑回归模型对分类变量的解释能力较差的缺点；且相对于哑变量的处理方法，本步骤也解决了特征选择过程中哑变量被部分剔除而无法保证其自身完整性的问题。若WEO_i表示离散变量的第i个类值的证据权重，则有：

{WEO}_{i} = l n (\frac{P_{b i}}{P_{g i}}) * 100

其中，P_bi和P_gi分别表示离散变量取第i个类值时，风险样本占比和非风险样本的占比。例如，变量“城乡标志”有如下取值：

则变量“城乡标志”为1时，有：

{WEO}_{1} = l n (\frac{a / a + b}{b / a + b}) * 100

将WEO_i代替初始数据集中该离散变量的第i个类值，用于建模。

步骤3具体说明如下：

步骤2为基LR模型的训练过程，其子步骤可以表述为：

S2.1：从初始数据集中随机抽取包含m条记录k个特征字段的训练例

S2.2：利用训练例训练LR模型；

S2.3：模型系数的显著性检验，采用标准正态分布统计量：

z = \frac{{\hat{β}}_{i}}{S E ({\hat{β}}_{i})}

其中为的渐进标准差，任意不通过0.05的显著水平，则直接删除该模型。

S2.4：重复上述过程，通过权重相同的加权平均得到显著模型组合，即若假设h₁，h₂，……，h_t为t个显著的LR模型，则组合模型H为每一个基LR分类器的线性相加，有：

H = \frac{1}{t} Σ_{i = 1}^{t} h_{t}

步骤4具体说明如下：

较优组合模型的确定是根据AUC统计量的变化程度来决定的，即对比加入新的显著的LR模型的组合模型与未加入时的组合模型的分类评价标准——AUC变化比率，即当满足：

\frac{{AUC}_{t} - {AUC}_{t - 1}}{{AUC}_{t - 1}} \leq ϵ ({AUC}_{t} > {AUC}_{t - 1})

步骤5具体说明如下：

利用步骤三与步骤四过程得到的较优组合模型对初始数据集S做欠费风险预测，并从利用ROC曲线与提升度曲线衡量模型的分类效果的准确性与有效性，验证改进算法的优越性。

ROC曲线是衡量一个分类模型分类效果高低的标准，一般情况下，ROC曲线包含的面积越大，准确性越高；提升度是指对问题(客户识别等)判断效率的提升幅度。在本算法中，设R_i-1,i为预测的概率风险在前百分之i-1到前百分之i的居民客户中“坏客户”的提升度，则R_i-1,i的计算公式为：

R_{i - 1, i} = \frac{\frac{n_{i - 1, i}}{N_{i - 1, i}}}{r}

r为全量居民样本中风险客户的原始比例，n_i-1,i和N_i-1,i分别表示概率风险在前百分之i-1到前百分之i的居民客户记录总数与风险客户的个数。本发明施行方案的具体结果如下图3，图4，表1所示。

表1算法提升度比较

图3，图4中本发明算法所代表的ROC曲线与提升度曲线均为列单一逐步LR算法的上方，证明了其准确定与有效性较优。

综合以上分析，本发明中基于LR分类器的Bagging算法得到的组合模型，一方面，能预测出具体的概率值，最终分类结果能更为多样化，另一方面循环迭代过程也提高了变量信息的提取度与预测结果的准确率。同时，特征选择这一改进，不仅能有效减少每个基LR模型由于变量过多而导致多重共线与“过拟合”的可能性，保障了每一个基分类器的有效性，也提高了基分类器的多样性。模型的提升度和准确性优于单一的LR模型。

当然，以上只是本发明的具体应用范例，本发明还有其他的实施方式，凡采用等同替换或等效变换形成的技术方案，均落在本发明所要求的保护范围之内。

Claims

1.一种基于特征选择改进的LR-Bagging算法，其特征在于包括以下步骤：

步骤2：对离散型自变量进行WEO编码；

步骤3：基LR模型的训练与检验，集成组合模型；

步骤4：进行步骤三的循环迭代，直到组合模型较优；

步骤5：利用较优组合模型的预测与分群。

2.根据权利要求1所述的基于特征选择改进的LR-Bagging算法，其特征在于：步骤1中初始数据集的确定，具体方式为：对于连续型自变量，采用非参数统计量spearman相关系数，对于离散型变量，则采用卡方检验；其中：表示第i个含有j个特征变量的自变量样本。

3.根据权利要求1所述的基于特征选择改进的LR-Bagging算法，其特征在于：步骤2中对离散型自变量的WEO编码的计算公式为：

{WEO}_{i} = l n (\frac{P_{b i}}{P_{g i}}) * 100

4.根据权利要求1所述的基于特征选择改进的LR-Bagging算法，其特征在于：步骤3中基LR模型的训练与检验，并集成组合模型的过程包含以下四个步骤：

(1)利用随机抽样获得一定数目的记录和特征字段组成训练例

(2)基于极大似然法采用训练例进行LR模型训练；

(3)模型系数的正态显著性检验，若不显著，则剔除，反之，加入组合模型；

H = \frac{1}{t} Σ_{i = 1}^{t} h_{t} .

5.根据权利要求1所述的基于特征选择改进的LR-Bagging算法，其特征在于：步骤4中较优组合模型的确定是根据AUC统计量的变化程度来决定的，即对比加入新的显著的LR模型的组合模型与未加入时的组合模型的分类评价标准——AUC变化比率，即当满足：

\frac{{AUC}_{t} - {AUC}_{t - 1}}{{AUC}_{t - 1}} \leq ϵ ({AUC}_{t} > {AUC}_{t - 1})