CN114723311B

CN114723311B - 一种基于数据挖掘驱动的城市固废时空管控效能评价方法

Info

Publication number: CN114723311B
Application number: CN202210419029.8A
Authority: CN
Inventors: 赵锐; 俞阳; 蒋硕匀; 胡建华; 付兴佳; 代雅姗; 秦笑彦
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2023-04-07
Anticipated expiration: 2042-04-20
Also published as: CN114723311A

Abstract

本发明公开了一种基于数据挖掘驱动的城市固废时空管控效能评价方法，包括以下步骤：S1：获取固体废物的管理数据；S2：对固体废物的管理数据进行清洗和预处理，筛选效能标签，并计算评价指标量值；S3：构建TOPSIS评分模型，确定评价指标在各个时空状态的综合评分；S4：绘制动态热力图，进行可视化展示，完成城市固废时空管控效能评价。本发明利用网络爬虫技术从网络大数据中挖掘和补充管理大数据缺乏的标签信息，从而丰富数据源以及细化数据粒度，为城市固废区域管控效能评价的时空耦合和多效益测算提供数据支撑，再通过构建耦合碳排放量和环境风险多效益评价模型对城市固废时空管控效能进行综合性评价。

Description

一种基于数据挖掘驱动的城市固废时空管控效能评价方法

技术领域

本发明属于固废评价技术领域，具体涉及一种基于数据挖掘驱动的城市固废时空管控效能评价方法。

背景技术

随着城市化和工业化的快速发展，城市固废产生量日益增加，已成为目前较为严重的环境问题之一，妥善处理城市固废愈发重要。根据国家统计局数据，我国2020年一般工业固废产生量13.8亿吨，工业危废产生量4498.9万吨，医疗废物产生量84.3万吨，城市生活垃圾产生量23560.2万吨。在城市固废的处理方式中，我国以卫生填埋的应用最广，所占收运量的比例也最高。这种处理方式在收集、运输、存储和填埋过程中不仅会排放大量的温室气体，加剧全球变暖；同时给周边环境带来潜在的环境风险，影响人们生活质量。城市固废的精准管控是当今固废治理的“主阵地”，是城市综合管理水平的直接体现，是推进无废城市建设的重要途径。城市固废区域管控效能评价需要大量的时空数据支持，现有的城市固废管理数据主要来源于企业产废申报登记，数据粒度粗糙，数据源单一，缺少对固废时空信息的挖掘融合，难以为城市固废的精准管控提供有效的数据支撑。

城市固废源头广、数量大、代谢路径复杂，开展城市固废的时空管控效能评价是促进区域实现低碳可持续发展的前提。现有城市固废管控效能评价方法有:①基于固废管理系统服务器收集的产废单位、运输单位和经营单位发送的固废转移、入库和出库量数据，固废管理部门在管理端进行固废收集、运输效率等效能指标的实时分析；②通过企业产废申报登记，各级政府对本年度各行政区域的固废产生量、处理量等信息进行分析汇总，再发布《固体废物污染环境防治年报》等地区阶段性报表。上述评价方法存在以下不足：①忽视了城市固废的时空变化，缺乏对城市固废管控效能在时间和空间两个维度上的系统评价；②评价过程中仅考虑固废产生量、处理量和贮存量等自身数量流动指标，忽视了碳排放、环境风险等次生环境因素。

发明内容

本发明为了解决上述问题，提出了一种基于数据挖掘驱动的城市固废时空管控效能评价方法。

本发明的技术方案是：一种基于数据挖掘驱动的城市固废时空管控效能评价方法包括以下步骤：

S1：获取固体废物的管理数据；

S2：对固体废物的管理数据进行清洗和预处理，筛选效能标签，并计算评价指标量值；

S3：基于评价指标量值，构建TOPSIS评分模型，确定评价指标在各个时空状态的综合评分；

S4：根据评价指标在各个时空状态的综合评分绘制动态热力图，进行可视化展示，完成城市固废时空管控效能评价。

进一步地，步骤S2包括以下子步骤：

S21：识别管理数据中的错误数据，并将错误数据替换为空缺数据；

S22：对管理数据中含有空缺值的空缺数据和替换错误数据的空缺数据进行处理；

S23：根据管理数据的碳排放量和环境风险，确定效能标签；

S24：判断经过处理的管理数据中是否缺少效能标签，若是则利用re模块返回缺少的效能标签，并进行多元数据的融合，计算评价指标量值，否则直接计算评价指标量值。

进一步地，步骤S21中，处理错误数据的具体方法为：计算管理数据中上四分位与下四分位的差值，根据上四分位与下四分位的差值确定错误数据的判定区间，将不属于判定区间的管理数据作为错误数据，并将错误数据替换为空缺数据，其中，错误数据的判定区间的上界为U+1.5*IQR，下界为L-1.5*IQR，U表示上四分位，L表示下四分位，IQR表示上四分位和下四分位的差值。

进一步地，步骤S22中，处理空缺数据的具体方法为：利用Pandas模块的insull函数确定空缺数据的数量，若空缺数据的数量不超过管理数据总量的10％，则利用Pandas模块的dropna函数删除空缺数据，若空缺数据的数量超过管理数据总量的10％，则利用Pandas模块的fillna函数将除空缺数据外的其他管理数据的平均值替换空缺数据。

进一步地，步骤S24中，利用re模块的findall函数查找经过处理的管理数据中是否缺少效能标签，若是利用网络爬虫方法对缺少效能标签的管理数据进行分类整合，并根据分类整好的管理数据计算评价指标量值。

进一步地，步骤S24中，评价指标量值包括碳排放量c和环境风险值R，其计算公式分别为：

其中，w_t表示运输排放因子，D表示总运输距离，q_t表示固体废物的运输总量，w_k表示处理处置排放因子，q_k表示第k种固体废物的处理处置量，v_t表示固废运输发生事故带来的间接经济损失，P_t表示运输风险概率密度，C_k表示自处理单位质量的第k种固废的处理成本，P_hk表示自处理风险概率密度，S_k表示第k种固体废物的贮存量，M_k表示第k种固体废物的贮存时间，P_sk表示贮存风险概率密度，v_ek表示第k种固废处理及贮存发生事故带来的间接经济损失，K表示固体废物的种类总数。

进一步地，步骤S3包括以下子步骤：

S31：根据评价指标量值，构建指标值矩阵，并对指标值矩阵依次进行正向化处理和标准化处理，得到评分矩阵；

S32：根据评分矩阵，构建理想最优解向量和理想最劣解向量；

S33：根据理想最优解向量和理想最劣解向量，计算评价指标的各个时空状态分别与理想最优解向量和理想最劣解向量的距离，并确定各个时空状态的综合评分，完成TOPSIS评分模型构建。

进一步地，步骤S31中，指标值矩阵X的表达式为：

其中，x_i,j表示指标值矩阵中第i个时空状态的第j个评价指标，n表示时空状态个数，m表示评价指标个数；

对指标值矩阵进行正向化处理的具体方法为：确定评价指标的类型，若第j个评价指标为极小型指标，则进行正向化处理的计算公式为：

其中，

表示极小型指标经过正向化处理的指标值，x_{i,j_max}表示指标值矩阵中第j个评价指标的最大指标值；

若第j个评价指标为中间型指标，则进行正向化处理的计算公式为：

其中，

表示中间型指标经过正向化处理的指标值，x_{i,j_best}表示指标值矩阵中第j个评价指标的最优指标值，M₁表示该评价指标中所有指标值与最优指标值的最大距离；

若第j个评价指标为区间型指标，则进行正向化处理的计算公式为：

其中，

表示区间型指标经过正向化处理的指标值，a表示指标的最优区间的下界，b表示指标的最优区间的上界，M₂表示该评价指标中所有指标值与最优区间边界的最大距离；

步骤S31中，对正向化处理后的指标值矩阵进行标准化处理的计算公式为：

其中，z_ij表示评分矩阵中第i个时空状态的第j个评价指标，

表示经过正向化处理的指标值。

进一步地，步骤S32中，构建理想最优解向量的具体方法为：在评分矩阵中确定每列评价指标的最大值，构成理想最优解向量z_max，其计算公式为：

z_max＝[z_{1_max},z_{2_max},…,z_{m_max}]

＝[max{z_1,1,z_2,1,…,z_n,1},max{z_1,2,z_2,2,…,z_n,2},…,max{z_1,m,z_2,m,…,z_n,m}]

其中，z_{1_max},z_{2_max},…,z_{m_max}表示每列评价指标的最大值，z_1,1,…,z_n,m表示评分矩阵中的评价指标；

构建理想最劣解向量的具体方法为：在评分矩阵中确定每列评价指标的最小值，构成理想最劣解向量z_min，其计算公式为：

z_min＝[z_{1_min},z_{2_min},…,z_{m_min}]

＝[min{z_1,1,z_2,1,…,z_n,1},min{z_1,2,z_2,2,…,z_n,2},…,min{z_1,m,z_2,m,…,z_n,m}]

其中，z_{1_min},z_{2_min},…,z_{m_min}表示每列评价指标的最小值。

进一步地，步骤S33中，第i个时空状态与理想最优解向量的距离d_i ⁺的计算公式为：

其中，m表示评价指标个数，z_{i,j_max}表示评分矩阵中第j个评价指标的最大指标值，z_ij表示评分矩阵中第i个时空状态的第j个评价指标；

第i个时空状态与理想最劣解向量的距离d_i ^-的计算公式为：

其中，z_{i,j_min}表示评分矩阵中第j个评价指标的最小指标值；

第i个时空状态的综合评分S_i的计算公式为：

本发明的有益效果是：

(1)本发明利用网络爬虫技术从网络大数据中挖掘和补充管理大数据缺乏的标签信息，从而丰富数据源以及细化数据粒度，为城市固废区域管控效能评价的时空耦合和多效益测算提供数据支撑，再通过构建耦合碳排放量和环境风险多效益评价模型对城市固废时空管控效能进行综合性评价。

(2)本发明引入大数据挖掘技术，实现了对海量、繁杂的固废数据的高效率清洗与处理；同时结合Python网络爬虫技术，从网络数据源爬取管理数据缺少的效能标签，有效解决现有固废管控数据粒度粗糙、数据源单一的问题，为后续多效能时空耦合评价提供数据支撑。

(3)在评价模型方面，本发明引入具有强扩展特性的TOPSIS评分模型实现了对于具有时空状态的多效益评价指标的有效兼容。同时，TOPSIS评分机制，允许通过外加管理信息对中间指标赋以权值，保证其结果能更加灵活地反映不同时期、地区的管控情况，使专利更具普适性。评价结果的交互性可视化表达可满足不同维度的评价需求，便于管理决策的制定，保证了专利的实用性。

(4)效益选择方面，不同于现有的单一经济效益指标，本发明通过构建碳排放量与环境风险同城市固废处理和转运量之间的量化关系，将间接环境效益和潜在环境风险纳入评价体系，使得对于城市固废的系统管控效能评价能够从社会、经济、环境多效益角度开展，评价结果更具有科学性和代表性。

附图说明

图1为城市固废时空管控效能评价方法的流程图。

具体实施方式

下面结合附图对本发明的实施例作进一步的说明。

在描述本发明的具体实施例之前，为使本发明的方案更加清楚完整，首先对本发明中出现的缩略语和关键术语定义进行说明：

上四分位和下四分位：通过四分位数统计描述分析方法描述数据时，偏态数据的离散程度，即将全部数据从小到大排列，正好排列在下1/4位置上的数就叫做下四分位数，排在上1/4位置上的数就叫上四分位数。

Pandas模块：Pandas纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。

re模块：re模块是Python独有的匹配字符串的模块，该模块中提供的很多功能是基于正则表达式实现的，而正则表达式是对字符串进行模糊匹配，提取自己需要的字符串部分的逻辑公式。

网络爬虫方法：网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

TOPSIS评分模型：TOPSIS评分模型是一种逼近理想解的排序方法，其基本思想是把综合评价的问题转化为求各个评价对象之间的差异。

如图1所示，本发明提供了一种基于数据挖掘驱动的城市固废时空管控效能评价方法，包括以下步骤：

S1：获取固体废物的管理数据；

在本发明实施例中，管理数据源选取是建立两级固体废物管理数据源索引系统(评价范围：34个省级行政区划，333个地级行政区划及2847个县级行政区划；评价对象：工业固废、农业固废、生活垃圾、建筑垃圾、危险废物等城市固废)，通过依次向索引系统输入该次评价的评价范围、评价对象，得到管理数据源的选取结果。

在本发明实施例中，步骤S2包括以下子步骤：

S23：根据管理数据的碳排放量和环境风险，确定效能标签；

在本发明实施例中，数据清洗和预处理是对海量的管理数据源进行清洗，筛选出用于测算评价指标量值的效能标签。效能标签包含申报单位所属行政区、固废种类、申报年份、单位自处理量、委托处置量和运输距离等，如表1所示。完成清洗和筛选后，利用正则表达式识别管理数据是否满足评价指标测算所需的效能标签。

表1

在本发明实施例中，步骤S21中，处理错误数据的具体方法为：计算管理数据中上四分位与下四分位的差值，根据上四分位与下四分位的差值确定错误数据的判定区间，将不属于判定区间的管理数据作为错误数据，并将错误数据替换为空缺数据，其中，错误数据的判定区间的上界为U+1.5*IQR，下界为L-1.5*IQR，U表示上四分位，L表示下四分位，IQR表示上四分位和下四分位的差值。

在本发明实施例中，步骤S22中，处理空缺数据的具体方法为：利用Pandas模块的insull函数确定空缺数据的数量，若空缺数据的数量不超过管理数据总量的10％，则利用Pandas模块的dropna函数删除空缺数据，若空缺数据的数量超过管理数据总量的10％，则利用Pandas模块的fillna函数将除空缺数据外的其他管理数据的平均值替换空缺数据。

最后处理重复数据。所有值均相同的多条数据为重复数据，应用Pandas模块的drop_duplicates函数保留重复数据中的第一项，去除其余重复项。

在本发明实施例中，步骤S24中，利用re模块的findall函数查找经过处理的管理数据中是否缺少效能标签，若是利用网络爬虫方法对缺少效能标签的管理数据进行分类整合，并根据分类整好的管理数据计算评价指标量值。

根据评价指标的计算公式，确定用于计算评价指标量值的效能标签，如表2所示。基于Python计算机语言查找并定位管理数据源中的此类标签，筛选完成后获得对应信息值。

表2

若需要将其他指标(例如经济效益、分类状况等)纳入多效益综合评价指标体系，仅需添加效能标签、评价指标-效能标签对应关系和评价指标计算公式即可。

多元数据融合依据前述步骤返回的效能标签名称字符串基于Python计算机语言使用网络爬虫技术从网络数据源中爬取缺少的数据，并基于Python计算机语言的Pandas模块将经清洗和预处理后的管理大数据和通过网络爬虫技术爬取的网络大数据按照时间(时间跨度取决于原始数据粒度，可为每年、每月、每日)、地域(行政区划)进行分类整合，最后运用整理好的管理数据和网络数据计算评价指标量值。

在本发明实施例中，步骤S24中，评价指标量值包括碳排放量c和环境风险值R，其计算公式分别为：

其中，w_t表示运输排放因子(常量，表示单位量固废在单位距离上进行运输产生的碳排放量)，D表示总运输距离(变量)，q_t表示固体废物的运输总量(变量)，w_k表示处理处置排放因子(常量，表示单位量第k种固废在处理处置过程中所产生的碳排放量)，q_k表示第k种固体废物的处理处置量(变量)，v_t表示固废运输发生事故带来的间接经济损失(常量)，P_t表示运输风险概率密度(常量，表示单辆运输车行驶单位距离发生交通事故的概率)，C_k表示自处理单位质量的第k种固废的处理成本(变量)，P_hk表示自处理风险概率密度(常量，每进行单位CNY产值的第k种固废处理发生生产安全事故的概率)，S_k表示第k种固体废物的贮存量(变量)，M_k表示第k种固体废物的贮存时间(变量)，P_sk表示贮存风险概率密度(常量，单位质量的第k种固体废物贮存单位时间发生安全事故的概率)，v_ek表示第k种固废处理及贮存发生事故带来的间接经济损失(常量)，K表示固体废物的种类总数。

在本发明实施例中，步骤S3包括以下子步骤：

基于TOPSIS法的管控效能评价是基于计算的评价指标量值，采用TOPSIS评分模型，从碳排放量与环境风险两个方面开展时空动态下的城市固废管控效能评分。

在本发明实施例中，步骤S31中，由于一个时空状态具有多个评价指标，因此可以用向量x_i来表达第i个时空状态。假设有n个时空状态，m个评价指标，则x_i＝[x_i1,x_i2,…,x_im]。指标值矩阵X的表达式为：

其中，

其中，

其中，

表3为常见指标类型及其特性。

表3

其中，z_ij表示评分矩阵中第i个时空状态的第j个评价指标，

表示经过正向化处理的指标值。

在本发明实施例中，步骤S32中，经正向化和标准化处理后，评分矩阵Z中的元素全部是极大型指标。构建理想最优解向量的具体方法为：在评分矩阵中确定每列评价指标的最大值，构成理想最优解向量z_max，其计算公式为：

z_max＝[z_{1_max},z_{2_max},…,z_{m_max}]

z_min＝[z_{1_min},z_{2_min},…,z_{m_min}]

在本发明实施例中，步骤S33中，第i个时空状态与理想最优解向量的距离d_i ⁺的计算公式为：

第i个时空状态与理想最劣解向量的距离d_i ^-的计算公式为：

第i个时空状态的综合评分S_i的计算公式为：

0<S_i<1，若d_i ⁺→0，表明该时空状态与最优解的距离越小时，S_i越大；若d_i ^-→0，表明该方案与最劣解的距离越小时，S_i越小。

本发明的工作原理及过程为：本发明从城市固废大数据采集、预处理、融合、分析与可视化表达出发，通过评价范围和评价对象两级管理数据索引选定固体废物管理数据源；采用Python计算机语言的Pandas模块和网络爬虫技术爬取所需网络大数据，并使之与企业和政府发布的管理大数据融合，实现对固废时空信息的挖掘融合；构建耦合碳排放量和环境风险的TOPSIS评分模型，实现管控效能评价；并利用Python计算机语言的pyecharts模块对结果进行可视化表达，形成城市固废时空管控效能评价成套技术方法。

评价分数可视化表达是利用Python计算机语言中的pyecharts模块将区域内城市固废的时空管控效能综合评分绘制成动态热力图，呈现出直观、可交互的评价结果。

管理数据源是指企业申报登记、由政府记录汇总的工业、医疗、农业等各方面的固体废物的产生时间、产生单位、处理单位、产生量、处理量等文字信息或者数字信息。

数据的筛选和清洗是指对数据按照时间、地域或者固废种类等标准进行分类，将杂乱存储的数据工整排列，纠正错误的数据，删除重复的、无法用于计算评价指标的数据。

效能标签是指通过索引所确定的管理数据源中，需要用来计算城市固废区域管控效能评价指标量值的数据标签，引入效能标签便于数据工整化、表格化，方便后续计算评价指标时使用。

TOPSIS评分模型是一种能充分利用原始数据，其量化结果能充分反应各方案之间差距的评价方法。该方法基于归一化后的原始数据矩阵，找出有限方案中的最优方案和最劣方案，通过计算各评价对象与最优解、最劣解之间的距离，获得各方案与最优方案的相似程度，以此作为评价优劣的依据。

数据可视化是借助Python计算机语言绘制具有时间轴的动态热力图。采用可交互方式，展示不同时空状态下城市固废的管控效能情况，为城市固废管理机构提供决策依据。

本发明的有益效果为：

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于数据挖掘驱动的城市固废时空管控效能评价方法，其特征在于，包括以下步骤：

S1：获取固体废物的管理数据；

S4：根据评价指标在各个时空状态的综合评分绘制动态热力图，进行可视化展示，完成城市固废时空管控效能评价；

所述步骤S2包括以下子步骤：

S23：根据管理数据的碳排放量和环境风险，确定效能标签；

S24：判断经过处理的管理数据中是否缺少效能标签，若是则利用re模块返回缺少的效能标签，并进行多元数据的融合，计算评价指标量值，否则直接计算评价指标量值；

步骤S24中，利用re模块的findall函数查找经过处理的管理数据中是否缺少效能标签，若是利用网络爬虫方法对缺少效能标签的管理数据进行分类整合，并根据分类整好的管理数据计算评价指标量值；

所述步骤S24中，评价指标量值包括碳排放量c和环境风险值R，其计算公式分别为：

2.根据权利要求1所述的基于数据挖掘驱动的城市固废时空管控效能评价方法，其特征在于，所述步骤S21中，处理错误数据的具体方法为：计算管理数据中上四分位与下四分位的差值，根据上四分位与下四分位的差值确定错误数据的判定区间，将不属于判定区间的管理数据作为错误数据，并将错误数据替换为空缺数据，其中，错误数据的判定区间的上界为U+1.5*IQR，下界为L-1.5*IQR，U表示上四分位，L表示下四分位，IQR表示上四分位和下四分位的差值。

3.根据权利要求1所述的基于数据挖掘驱动的城市固废时空管控效能评价方法，其特征在于，所述步骤S22中，处理空缺数据的具体方法为：利用Pandas模块的insull函数确定空缺数据的数量，若空缺数据的数量不超过管理数据总量的10％，则利用Pandas模块的dropna函数删除空缺数据，若空缺数据的数量超过管理数据总量的10％，则利用Pandas模块的fillna函数将除空缺数据外的其他管理数据的平均值替换空缺数据。

4.根据权利要求1所述的基于数据挖掘驱动的城市固废时空管控效能评价方法，其特征在于，所述步骤S3包括以下子步骤：

5.根据权利要求4所述的基于数据挖掘驱动的城市固废时空管控效能评价方法，其特征在于，所述步骤S31中，指标值矩阵X的表达式为：