CN107480839A

CN107480839A - 基于主成分分析和随机森林的高危污染源的分类预测方法

Info

Publication number: CN107480839A
Application number: CN201710951078.5A
Authority: CN
Inventors: 康庆; 罗艳; 唐文超; 庞东博; 王登优
Original assignee: "SHENZHEN POWERDATA INFORMATION TECHNOLOGY Co LTD"
Current assignee: "SHENZHEN POWERDATA INFORMATION TECHNOLOGY Co LTD"
Priority date: 2017-10-13
Filing date: 2017-10-13
Publication date: 2017-12-15

Abstract

本发明公开了一种基于主成分分析和随机森林的高危污染源的分类预测方法，包括：采集企业的污染源环境行为数据并整合形成初选指标，筛选出影响污染源违法的污染源行为指标作为高危污染源指标体系；对污染源环境行为数据进行数据清洗和数据归一化处理；找出高危污染源指标体系与污染源是否违法之间的函数关系，建立随机森林模型；进行模型训练，并在训练结束后评估随机森林模型的精度；对污染源行为指标的重要性程度进行排序；进行主成分分析获得主成分，利用主成分进行加权，计算出综合得分；根据综合得分判断各个企业发生违法行为的风险得分系数，将风险得分系数自动排名，生成TOP企业名单。本发明能降低操作复杂度、提高预测精度和结果质量。

Description

基于主成分分析和随机森林的高危污染源的分类预测方法

技术领域

本发明涉及高危污染源预测领域，特别涉及一种基于主成分分析和随机森林的高危污染源的分类预测方法。

背景技术

经过近年来环境信息化的发展，各级环保部门建立了大量的环境业务应用系统，但是环境信息化建设却存在严重的部门化、局部化问题、环境大数据分布散乱等现状，迫切需要一套高效、科学、清晰的管理机制。污染源数据是环境管理的核心基础，提前预测可能引起环境污染风险和产生违法行为的高危污染源，对更加有针对性地进行污染治理具有重要意义。

高危污染源预测本质上是一个预测分类问题，应用于预测分类问题的模型方法非常多，包括逻辑回归模型，判别分析模型等传统统计学方法，也包括如神经网络、支持向量机、遗传算法等数据挖掘的新方法，并获得了较理想的结果。但分类问题从理论上讲是一个复杂的函数延拓问题，因此不存在一种分类模型方法适用于所有不同的情况，尽管至今仍有许多分类方法陆续出现，但主要存在的问题如下：目前在数据分析领域，可用的分类预测方法虽多，但是很少有将其应用到企业高危污染源预测领域的。随着人工智能大量分类算法的问世，其高度的非线性映射能力克服了许多传统统计分类算法存在的缺点，但是在实际应用中，很多忽视了输入变量之间存在相关性，且在实际建模时，输入变量过多，也会导致建模效率下降。

通常情况下，建模者对同一分类问题在不同假设条件下，采用不同的单项分类方法建立多种分类模型，然后按照分类精度大小从多个分类方法中选择结果最好的一个，而排除其他单项分类方法，但这并不能有效提高分类精度。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种能降低操作复杂度、提高预测精度和结果质量的基于主成分分析和随机森林的高危污染源的分类预测方法。

本发明解决其技术问题所采用的技术方案是：构造一种基于主成分分析和随机森林的高危污染源的分类预测方法，包括如下步骤：

A)从污染源各业务数据库中采集收录的企业的各种污染源环境行为数据，对所述污染源环境行为数据进行整合形成初选指标，从所述初选指标中筛选出影响污染源违法的污染源行为指标作为高危污染源指标体系，所述高危污染源指标体系构成指标数据集；

B)对所述高危污染源指标体系中的污染源环境行为数据进行数据清洗和数据归一化处理；

C)找出所述高危污染源指标体系与污染源是否违法之间的函数关系，建立随机森林模型；

D)对所述随机森林模型进行训练，并在训练结束后通过所述随机森林模型在所述指标数据集上的分类准确率，对所述随机森林模型的精度进行评估；

E)使用所述随机森林模型预测未来会发生违法行为的企业名单，并对所述污染源行为指标的重要性程度进行排序；

F)对所述污染源行为指标进行主成分分析获得主成分，利用所述主成分进行加权，计算出综合得分；

G)根据所述综合得分判断未来各个企业会发生违法行为的风险得分系数，并将每个所述风险得分系数按照危险系数从高到低的顺序进行自动排名，生成TOP企业名单。

在本发明所述的基于主成分分析和随机森林的高危污染源的分类预测方法中，所述污染源行为指标包括排污废水超量倍数、排污污染物超标数、缴费超时时长、在线报警次数、行政处罚次数、现场执法次数和处罚金额。

在本发明所述的基于主成分分析和随机森林的高危污染源的分类预测方法中，所述数据清洗为检查所述高危污染源指标体系的字段是否规范，以及是否存在脏数据、不完整数据或重复数据。

在本发明所述的基于主成分分析和随机森林的高危污染源的分类预测方法中，所述数据归一化处理使用min-max标准化的方法，转换公式为：

其中，x_i为所述高危污染源指标体系中待归一化的数据，x_min和x_max分别为所述高危污染源指标体系中待归一化的数据的最小值和最大值，x_i'为归一化后的结果。

在本发明所述的基于主成分分析和随机森林的高危污染源的分类预测方法中，所述步骤C)进一步包括：

C1)将所述指标数据集中的指定比例部分作为训练集，将剩余的部分作为测试集；

C2)使用SMOTE(Synthetic Minority Over-sampling Technique)算法对所述训练集中的数据进行抽样平衡化处理，对多数类样本进行欠抽样，对少数类样本进行过抽样；

C3)将所述排污废水超量倍数、排污污染物超标数、缴费超时时长、在线报警次数、行政处罚次数、现场执法次数和处罚金额组成特征空间，将污染源是否违法数据组成结果空间，通过所述抽样平衡化处理后的训练集训练所述结果空间与所述特征空间之间的模型关系，得到所述随机森林模型。

在本发明所述的基于主成分分析和随机森林的高危污染源的分类预测方法中，所述指定比例部分为75％。

在本发明所述的基于主成分分析和随机森林的高危污染源的分类预测方法中，所述随机森林模型包含抽取变量时的抽样数目和森林中决策树的数目。

在本发明所述的基于主成分分析和随机森林的高危污染源的分类预测方法中，所述抽取变量时的抽样数目为2、4、6或8。

在本发明所述的基于主成分分析和随机森林的高危污染源的分类预测方法中，所述步骤D)进一步包括：

D1)将所述训练集中的训练数据代入所述随机森林模型中，评估所述随机森林模型在所述训练集上的表现精度；

D2)将所述测试集中的测试数据代入所述随机森林模型中，评估所述随机森林模型在所述测试集上的表现精度。

在本发明所述的基于主成分分析和随机森林的高危污染源的分类预测方法中，所述步骤F)进一步包括：

F1)从所述排污废水超量倍数、排污污染物超标数、缴费超时时长、在线报警次数、行政处罚次数、现场执法次数和处罚金额中选择使得累积贡献额达到80％以上的污染源行为指标作为主成分；

F2)计算每个所述主成分与其权重的乘积，并将每个乘积相加得到所述综合得分。

实施本发明的基于主成分分析和随机森林的高危污染源的分类预测方法，具有以下有益效果：由于对高危污染源指标体系中的污染源环境行为数据进行数据清洗和数据归一化处理，减少输入指标因子数，同时使输入因子彼此不相关，却能保留数据的主要信息，降低模型的复杂度，提高模型的训练速度，得到较高的精度，本发明能得到高危污染源的预测名单及其综合排名，从而可以有重点的实现污染源管理工作，解决环境管理中难以预防的难题，因此能降低操作复杂度、提高预测精度和结果质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于主成分分析和随机森林的高危污染源的分类预测方法一个实施例中的流程图；

图2为所述实施例中找出高危污染源指标体系与污染源是否违法之间的函数关系，建立随机森林模型的具体流程图；

图3为所述实施例中对随机森林模型进行训练，并在训练结束后通过随机森林模型在数据集上的分类准确率，对随机森林模型的精度进行评估的具体流程图；

图4为所述实施例中对污染源行为指标进行主成分分析获得主成分，利用主成分进行加权，计算出综合得分的具体流程图；

图5为所述实施例中初选指标一部分的示意图；

图6为所述实施例中初选指标另一部分的示意图；

图7为所述实施例中污染源基本数据的示意图；

图8为所述实施例中排污申报数据的示意图；

图9为所述实施例中许可证信息数据的示意图；

图10为所述实施例中排污收费数据的示意图；

图11为所述实施例中在线监控数据的示意图；

图12为所述实施例中行政处罚数据的示意图；

图13为所述实施例中模型指标的示意图；

图14为所述实施例中模型训练结果的示意图；

图15为所述实施例中随机森林模型的精确度、准确率和命中率的示意图；

图16为所述实施例中模型预测的示意图；

图17为所述实施例中综合得分结果的示意图；

图18为所述实施例中TOP企业名单的示意图；

图19为所述实施例中七个污染源行为指标的示意图；

图20为所述实施例中污染源环境行为数据标准化结果的示意图；

图21为所述实施例中数据分布情况的示意图；

图22为所述实施例中随机森林模型的准确率的示意图；

图23为所述实施例中变量重要性排序示意图；

图24为所述实施例中训练集上的第二类错判率的示意图；

图25为所述实施例中测试集上的第二类错判率的示意图；

图26为所述实施例中污染源的综合得分的结果的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明基于主成分分析和随机森林的高危污染源的分类预测方法实施例中，该基于主成分分析和随机森林的高危污染源的分类预测方法的流程图如图1所示。图1中，该基于主成分分析和随机森林的高危污染源的分类预测方法包括如下步骤：

步骤S01从污染源各业务数据库中采集收录的企业的各种污染源环境行为数据，对污染源环境行为数据进行整合形成初选指标，从初选指标中筛选出影响污染源违法的污染源行为指标作为高危污染源指标体系，高危污染源指标体系构成指标数据集：本步骤中，从污染源各业务数据库中采集收录的企业的各种污染源环境行为数据，对污染源环境行为数据进行整合形成初选指标，图5为本实施例中初选指标一部分的示意图；图6为本实施例中初选指标另一部分的示意图，从初选指标中筛选出影响污染源违法的污染源行为指标作为高危污染源指标体系，该高危污染源指标体系构成指标数据集。具体的，从数据中心及相关业务系统中采集收录的企业监管数据，对收录的各类监管数据的指标进行分析，包括各企业许可证持有情况、企业存在的环境问题(或风险隐患)、企业突发环境事件预案编制和备案情况、处罚次数及金额、排污超标情况、在线监测超标异常报警次数、未验收项目情况、排污费是否按时缴纳、企业诚信数据等等，综合企业各类相关环境管理行为数据对污染源是否违法的影响程度，有选择性的建立高危污染源指标体系。

具体到实际应用中，例如：从深圳污染源各业务数据库获取原始数据，该原始数据包括污染源基本数据、排污申报数据、许可证信息数据、排污收费数据、在线监控数据和行政处罚数据，该原始数据相当于污染源环境行为数据。

图7为本实施例中污染源基本数据的示意图；污染源基础数据包括污染源名称、污染源类型、行业类型、行政区域、地址和管理属性。图8为本实施例中排污申报数据的示意图；排污申报数据包括污染源名称、申报时间、污水排放量、污染物和污染物排放量。图9为本实施例中许可证信息数据的示意图；许可证信息数据包括污染源名称、发证时间、许可证有效期、允许年排放量、允许日排放量和许可证是否过期。图10为本实施例中排污收费数据的示意图；排污收费数据包括污染源名称、收费起始时间、收费截止时间、缴费终止日期、缴费日期、应交金额和缴费金额。图11为本实施例中在线监控数据的示意图；在线监控数据包括污染源名称、监测时间、超标因子名称和因子浓度。图12为本实施例中行政处罚数据的示意图；行政处罚数据包括污染源编号、污染源名称、立案时间、处罚类型和处罚金额。

然后对污染源环境行为数据进行梳理，整理统计出影响污染源违法的因素作为模型指标，即高危污染源指标，其示意图如图13所示。

步骤S02对高危污染源指标体系中的污染源环境行为数据进行数据清洗和数据归一化处理：本步骤中，对高危污染源指标体系中的污染源环境行为数据进行数据清洗和数据归一化处理等预处理工作。

步骤S03找出高危污染源指标体系与污染源是否违法之间的函数关系，建立随机森林模型：本步骤中，找出高危污染源指标体系与污染源是否违法之间的函数关系，建立随机森林模型。

步骤S04对随机森林模型进行训练，并在训练结束后通过随机森林模型在指标数据集上的分类准确率，对随机森林模型的精度进行评估：对随机森林模型进行训练，并在训练结束后通过随机森林模型在指标数据集上的分类准确率，对随机森林模型的精度进行评估。模型训练结果的示意图如图14所示，随机森林模型的精确度、准确率和命中率的示意图如图15所示。

步骤S05使用随机森林模型预测未来会发生违法行为的企业名单，并对污染源行为指标的重要性程度进行排序：经评估，随机森林模型的精度可以达到预期，即可将其投入运用进行模型预测，其示意图如图16所示。具体的，本步骤中，使用随机森林模型预测未来会发生违法行为的企业名单，并对污染源行为指标的重要性程度进行排序。提醒环保部门与污染源企业有针对性地做出相应处理措施。

步骤S06对污染源行为指标进行主成分分析获得主成分，利用主成分进行加权，计算出综合得分：本步骤中，对污染源行为指标进行主成分分析获得主成分，利用主成分进行加权，计算出综合得分，该综合得分的结果如图17所示。

具体的，主成分分析最早是在1901年由Karl Parson引入到生物理论研究中，后来该理论被Hotelling推广应用于心理学研究，Karhunen等则对此实现了进一步的完善。主成分分析的原理是设法将原有变量重新组合成一组新的互相不相关的几个综合变量代替原有变量，同时根据实际需求从中选取几个较少的综合变量尽可能地反映原来变量的信息。主成分分析的本质就是“降维”，将高维数据有效地转化为低维数据来处理，揭示变量之间的内在联系，进而分析解决实际问题。

伴随主成分分析的过程，在获得主成分的同时，将会自动生成各主成分的权重，这在很大程度上避免了在评价过程中人为因素的干扰，因此以主成分为基础的综合评价理论能够较好地保证评价结果的客观性，如实地反映实际问题。主成分综合评价能提供科学而客观的评价方法，完善综合评价理论体系，为管理和决策提供了客观依据。

步骤S07根据综合得分判断未来各个企业会发生违法行为的风险得分系数，并将每个风险得分系数按照危险系数从高到低的顺序进行自动排名，生成TOP企业名单：本步骤中，根据综合得分判断未来各个企业会发生违法行为的风险得分系数，并将每个风险得分系数按照危险系数从高到低的顺序进行自动排名，生成TOP企业名单，也就是说，对于风险得分系数进行自动排名，危险系数高的排在前面，从而生成TOP企业名单，其示意图如图18所示。为排查出下一年度或时间段内的重点监管对象，有针对性监察，有效提升执法效率。

由于对高危污染源指标体系中的污染源环境行为数据进行数据清洗和数据归一化处理，减少输入指标因子数，同时使输入因子彼此不相关，却能保留数据的主要信息，降低模型的复杂度，提高模型的训练速度，得到较高的精度，本发明能得到高危污染源的预测名单及其综合排名，从而可以有重点的实现污染源管理工作，解决环境管理中难以预防的难题，因此能降低操作复杂度、提高预测精度和结果质量。

值得一提的是，上述污染源行为指标包括排污废水超量倍数、排污污染物超标数、缴费超时时长、在线报警次数、行政处罚次数、现场执法次数和处罚金额，这七个污染源行为指标用于随机森林模型指标体系的构建，其示意图如图19所示。图19中，wry为污染源，fsclbs为排污废水超量倍数，wrwcb为排污污染物超标数，jfcs为缴费超时时长，zxbj为在线报警次数，xzcf为行政处罚次数，cfje为处罚金额，zfcs为现场执法次数。

对于上述步骤S02来说，其中的数据清洗为检查高危污染源指标体系的字段是否规范，以及检查高危污染源指标体系是否存在脏数据、不完整数据或重复数据。其中，不完整数据和重复数据最为常见。指标数据集在进行技术统计之前，便已经做过去重处理。而对于指标数据集中的缺失数据，并不是简单使用删除处理，因为此指标数据集本身的数据量就不大，减少了可用的样本，这也将导致统计效力的降低。此指标数据集在清洗缺失数据时采用零值进行补充。

各个污染源行为指标之间往往具有不同的数量级差异，为了消除由此产生的量纲影响，需要对各个污染源行为指标进行归一化、标准化处理。

本实施例中，数据归一化处理使用min-max标准化的方法，转换公式为：

其中，x_i为高危污染源指标体系中待归一化的数据，x_min和x_max分别为高危污染源指标体系中待归一化的数据的最小值和最大值，x′_i为归一化后的结果。经过该方式处理，所有的变量数据都被约束在在[0,1]之间，此即变量的标准化。污染源环境行为数据标准化结果如图20所示。

对于本实施例而言，上述步骤S03还可进一步细化，其细化后的流程图如图2所示。图2中，上述步骤S03进一步包括：

步骤S31将指标数据集中的指定比例部分作为训练集，将剩余的部分作为测试集：建模之前，为了能够对所建的随机森林模型的效果进行评估，便于精度调优，需要将指标数据集进行划分。本步骤中，将指标数据集中的指定比例部分作为训练集，将剩余的部分作为测试集，该指定比例部分为75％。也就是说，将指标数据集中的75％作为模型的训练数据，这些训练数据构成训练集，25％作为测试数据，这些测试数据构成测试集。例如：指标数据集来自污染源数据库基本信息表中的554家污染源，其中包含违法污染源30家，非违法污染源524家，经数据划分后，数据分布情况如图21所示。

步骤S32使用SMOTE算法对训练集中的数据进行抽样平衡化处理，对多数类样本进行欠抽样，对少数类样本进行过抽样：训练集占比严重不平衡，而训指标数据集中目标变量的取值比例不均衡，将导致建立的分类器会倾向于预测数据较多的一类。因此为了使得数据达到平衡，本步骤中，对训练集中的数据处理如下：通过SMOTE算法对训练集中的数据进行处理，对多数类样本进行欠抽样，对少数类样本进行过抽样，结果得出违法与非违法污染源数据分别为138、138，数据达到平衡。这样就解决了污染源违法数据不平衡问题。

具体的，SMOTE是由Chawla等人提出的一种过抽样技术，基本思想是在相距非常近的少数类实例之间插入“人造数据”来扩充少数类实例的数目。这样既不会出现对重复数据的过拟合也不会因为删除多数类实例x＝(x₁,x₂,…x_k)都寻找K个近邻，然后随机选取这K个最近邻中的某一个设为接着在该实例x和它的近邻x^*中进行随机线性插值，形成新的少数类实例，这些实例x_syn的计算方法为：x_syn＝x+rand(0,1)×diff(x^*-x)，其中，rand(0,1)表示在(0,1)范围内的一个随机数，diff(x^*-x)表示两个实例之间的距离。重复上述步骤就可以得到多个的人造样本。当指标数据集包含的样本点过多或者不平衡现象非常严重时，SMOTE抽样需要扩充很多个少数类样本才能使两类数据达到平衡。

步骤S33将排污废水超量倍数、排污污染物超标数、缴费超时时长、在线报警次数、行政处罚次数、现场执法次数和处罚金额组成特征空间，将污染源是否违法数据组成结果空间，通过抽样平衡化处理后的训练集训练结果空间与特征空间之间的模型关系，得到随机森林模型：随机森林是最常用的人工智能集成模型，由Ho(1995)最先提出。随机森林是许多分类或回归树的集合，该集合具有准确的预测能力而不会出现过拟合。该方法将bagging和随机变量选择组合起来，对决策树添加额外的多样性，在树的集成产生之后，将随机森林模型使用投票的方式来组合预测结果。

定义样本空间D＝{(x₁,y₁),…,(x_N,y_N)}。随机森林的目标是找到一个函数：F:X→Y，其中X代表特征空间，Y代表的是结果空间。此外，令M代表特征数量。随机森林算法可以表述为：1)有放回地从空间样本D中随机抽取n个观测构成boostrap样本；2)若存在M个特征，从其中选择m个(m＜＜M)特征用于回归树的生长。重复该步骤，在每个节点处，m个特征都是随机抽取的，并且这m个节点都是根据最小误差平方和划分的，因而都是最佳划分；3)重复以上步骤直到所有的树都被训练生长起来。

利用随机森林模型进行污染源违法分类预测的优点是可以处理噪声和缺失值，只选择最重要的特征，避免了决策树的过拟合问题，且模型的稳健性和准确性都可以得到一定程度的提升。随机森林模型与决策树不同，该随机森林模型不容易解释。

R语言中的randomForest包可以实施随机森林算法，本步骤中，将排污废水超量倍数、排污污染物超标数、缴费超时时长、在线报警次数、行政处罚次数、现场执法次数和处罚金额组成特征空间X，将污染源是否违法数据组成结果空间Y，通过抽样平衡化处理后的训练集训练结果空间Y与特征空间X之间的模型关系，得到随机森林模型。

该随机森林模型的重要参数有两个，一个是mtry，表示在抽取变量时的抽样数目为M，另一个是迭代次数，即森林中决策树的数目是ntree，一般缺省的mtry是全部变量数的开方数，ntree是500，即创建一个500棵树的集合，此处使用大数量的目的是使得每一个特征都有机会在多个随机森林模型中被充分训练。该随机森林模型中唯一需要调整确定的是mtry，一般情况下，取全部变量数的开方数，但是为了是模型尽量准确，利用枚举法对参数mtry进行参数最优选择，寻优范围设定为(2,4,6,8)。经过反复调优，参数最后设定为2时，该随机森林模型得到最佳准确率。也就是说，当抽取变量时的抽样数目为2时，该随机森林模型得到最佳准确率，图22是该随机森林模型的准确率的示意图。

值得一提的是，该随机森林模型可以根据置换划分变量对分类误差的影响，来判断哪些变量是比较重要的。randomForest包中的importance函数能返回各变量的重要程度，varImportance函数可以用图形的方式加以展现，变量重要性排序如图23所示。从图23可以看出，影响判断结果的特征从强至弱的排序为：废水超量倍数、污染物排放超标次数、缴费超时天数、在线报警次数、现场执法次数、处罚金额、行政处罚次数，也就是废水超量倍数对随机森林模型的分类结果影响最大，因此，环保部门与污染源企业应着重对待废水超量排放的相关问题。

对于本实施例而言，上述步骤S04还进一步细化，其细化后的流程图如图3所示，图3中，该步骤S04进一步包括：

步骤S41将训练集中的训练数据代入随机森林模型中，评估随机森林模型在训练集上的表现精度：当随机森林模型建立之后，接着就是评估该随机森林模型在训练集和测试集上的表现效果。对随机森林模型的分类效果进行评估的方法中，最常用的就是分类精度和AUC面积。先对所建的随机森林模型进行评估，具体的，本步骤中，将训练集中的训练数据代入随机森林模型中，评估随机森林模型在训练集上的表现精度。结果显示训练集上的准确率达到89.18％，总体来说随机森林模型的预测效果是较好。

但是，通常情况下，在污染源环境行为领域，将污染源“违法”漏判为“非违法”的代价远远高于将“非违法”误判为“违法”的代价。因此，对违法污染源的分类精度是一个更为重要的指标，通常用“第二类错判率”来度量。图24为本实施例中训练集上的第二类错判率的示意图，从图24中可计算出训练集上的第二类错判率为3/(3+20)＝13.04％，是比较低的。

步骤S41将测试集中的测试数据代入随机森林模型中，评估随机森林模型在测试集上的表现精度：建立随机森林模型(高危污染源随机森林模型)的最终目的是为了预测污染源的未来行为，也即建模样本外预测，这就要求该随机森林模型具有一定的稳健性(泛化能力)，故应该关注该随机森林模型在测试集上的表现效果。本步骤中，将测试集中的测试数据代入随机森林模型(参数已是最优)中，评估随机森林模型在测试集上的表现精度。结果显示测试集上的准确率达到84.17％，总体来说该随机森林模型的预测效果是较好的，但是测试集上的第二类错判率过高，也即对测试集上的“违法”污染源具有较差的分类能力。图25为本实施例中测试集上的第二类错判率的示意图。

由此可见，该随机森林模型的稳健性不佳。由于前面在模型参数部分的选择已经是在精度指导下进行调节的最优参数，因此有理由猜测，该随机森林模型的效果不够好是由于样本不足导致的，554家污染源中，“违法”污染源仅30家，该随机森林模型未能学习到“违法”污染源的真正行为特征，因此该随机森林模型的第二类误判率低是可以理解的。

对于本实施例而言，上述步骤S06还可进一步细化，其细化后的流程图如图4所示。图4中，该步骤S06进一步包括：

步骤S61从排污废水超量倍数、排污污染物超标数、缴费超时时长、在线报警次数、行政处罚次数、现场执法次数和处罚金额中选择使得累积贡献额达到80％以上的污染源行为指标作为主成分：本步骤中，分别计算排污废水超量倍数、排污污染物超标数、缴费超时时长、在线报警次数、行政处罚次数、现场执法次数和处罚金额的贡献额，从从排污废水超量倍数、排污污染物超标数、缴费超时时长、在线报警次数、行政处罚次数、现场执法次数和处罚金额中选择使得累积贡献额达到80％以上的污染源行为指标作为主成分。前4个主成分的累积贡献率为68％，前5个主成分的累积贡献率为83％，则应选择前5个主成分。

第一主成分F1、第二主成分F2、第三主成分F3、第四主成分F4和第五主成分F5分别为：

F1＝-0.02fsclbs+0.18wrwcb+0.03jfcs+0.03zxbj+0.94xzcf+0.93cfje+0.06zfcs；

F2＝0.02fsclbs+0.08wrwcb+0.99jfcs+0.05zxbj+0.05xzcf+0.00cfje+0.07zfcs；

F3＝0.01fsclbs+0.98wrwcb+0.08jfcs+0.03zxbj+0.12xzcf+0.14cfje+0.06zfcs；

F4＝0.05fsclbs+0.06wrwcb+0.07jfcs+0.03zxbj+0.05xzcf+0.03cfje+0.99zfcs；

F5＝-0.05fsclbs+0.063wrwcb+0.05jfcs+zxbj+0.03xzcf+0.01cfje+0.03zfcs。

步骤S62计算每个主成分与其权重的乘积，并将每个乘积相加得到综合得分：计算每个主成分与其权重的乘积，并将每个乘积相加得到综合得分，具体如下：S＝26％F1+14％F2+14％F3+14％F4+14％F5，其中，S为综合得分，F1为第一主成分，F2为第二主成分，F3为第三主成分，F4为第四主成分，F5为第五主成分。污染源的综合得分的结果如图26所示。

总之，污染源环境行为数据是不平衡的，由于高危污染源在大多数情况下都不会出现，因此想要达到良好的识别效果，普通的分类算法还远远不够，故本发明将在随机森林模型建立之前对不平衡数据进行处理。另外，本发明将传统统计算法与人工智能集成模型以组合的方式应用到污染源监管领域，能降低操作复杂度，提高预测精度和结果质量。不仅实现高危污染源预测功能，还能获得风险TOP排名，一举两得。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于主成分分析和随机森林的高危污染源的分类预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于主成分分析和随机森林的高危污染源的分类预测方法，其特征在于，所述污染源行为指标包括排污废水超量倍数、排污污染物超标数、缴费超时时长、在线报警次数、行政处罚次数、现场执法次数和处罚金额。

3.根据权利要求2所述的基于主成分分析和随机森林的高危污染源的分类预测方法，其特征在于，所述数据清洗为检查所述高危污染源指标体系的字段是否规范，以及是否存在脏数据、不完整数据或重复数据。

4.根据权利要求3所述的基于主成分分析和随机森林的高危污染源的分类预测方法，其特征在于，所述数据归一化处理使用min-max标准化的方法，转换公式为：

<mrow> <msubsup> <mi>x</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>=</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>min</mi> </msub> </mrow> <mrow> <msub> <mi>x</mi> <mi>max</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>min</mi> </msub> </mrow> </mfrac> </mrow>

其中，x_i为所述高危污染源指标体系中待归一化的数据，x_min和x_max分别为所述高危污染源指标体系中待归一化的数据的最小值和最大值，x′_i为归一化后的结果。

5.根据权利要求2至4任意一项所述的基于主成分分析和随机森林的高危污染源的分类预测方法，其特征在于，所述步骤C)进一步包括：

C2)使用SMOTE算法对所述训练集中的数据进行抽样平衡化处理，对多数类样本进行欠抽样，对少数类样本进行过抽样；

6.根据权利要求5所述的基于主成分分析和随机森林的高危污染源的分类预测方法，其特征在于，所述指定比例部分为75％。

7.根据权利要求6所述的基于主成分分析和随机森林的高危污染源的分类预测方法，其特征在于，所述随机森林模型包含抽取变量时的抽样数目和森林中决策树的数目。

8.根据权利要求7所述的基于主成分分析和随机森林的高危污染源的分类预测方法，其特征在于，所述抽取变量时的抽样数目为2、4、6或8。

9.根据权利要求5所述的基于主成分分析和随机森林的高危污染源的分类预测方法，其特征在于，所述步骤D)进一步包括：

10.根据权利要求5所述的基于主成分分析和随机森林的高危污染源的分类预测方法，其特征在于，所述步骤F)进一步包括：