CN114969143A - 基于数据挖掘的城市间大气污染物时空关联特征分析方法 - Google Patents

基于数据挖掘的城市间大气污染物时空关联特征分析方法 Download PDF

Info

Publication number
CN114969143A
CN114969143A CN202210370266.XA CN202210370266A CN114969143A CN 114969143 A CN114969143 A CN 114969143A CN 202210370266 A CN202210370266 A CN 202210370266A CN 114969143 A CN114969143 A CN 114969143A
Authority
CN
China
Prior art keywords
city
sequence
pollution
analysis method
inter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210370266.XA
Other languages
English (en)
Inventor
杨光飞
钱翔宇
关晓微
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Lingkong Data Technology Co ltd
Dalian Institute Of Artificial Intelligence Dalian University Of Technology
Original Assignee
Dalian Lingkong Data Technology Co ltd
Dalian Institute Of Artificial Intelligence Dalian University Of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Lingkong Data Technology Co ltd, Dalian Institute Of Artificial Intelligence Dalian University Of Technology filed Critical Dalian Lingkong Data Technology Co ltd
Priority to CN202210370266.XA priority Critical patent/CN114969143A/zh
Publication of CN114969143A publication Critical patent/CN114969143A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A50/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather
    • Y02A50/20Air quality improvement or preservation, e.g. vehicle emission control or emission reduction by using catalytic converters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了基于数据挖掘的城市间大气污染物时空关联特征分析方法,涉及大气污染治理技术领域,旨在解决现有的方法中存在整体性弱、实用性差和鲁棒性低的问题,采用的技术方案是,利用数据挖掘中的序列模式挖掘技术作为城市间大气污染物时空关联特征的识别方法,然后基于复杂网络模型构建城市间污染物时空关联网络进行整体与要素特征量化;挖掘大气污染物数据,得到城市间的污染时空关联特征,基于数据挖掘的方法不需要额外的气象、地理数据,对大气污染物数据分布没有要求,对数据的缺失和异常不敏感;具有资源占用少、可解释性强、鲁棒性高等优势。

Description

基于数据挖掘的城市间大气污染物时空关联特征分析方法
技术领域
本发明涉及大气污染治理技术领域,具体为基于数据挖掘的城市间大气污染物时空关联特征分析方法。
背景技术
由于大气污染物易于扩散且输送距离较远,具有一定的区域性和时空关联特征,因此,大气污染的治理政策应由单一辖区治理转为区域城市间的联防联控、协同治理。科学合理地识别城市间污染的时空关联特征是协同治理的关键,目前常用的区域大气污染时空关联特性分析方法包括基于莫兰指数的空间自相关分析、基于皮尔逊相关系数的空间关联性分析和基于CMAx、CMAQ等空气质量模型的污染传输特性分析。
目前,基于城市间的欧氏距离倒数表示空间权重矩阵,采用莫兰指数计算京津冀地区的PM2.5空间分布状态,分析该区域的PM2.5污染空间集聚特征,并得出了城市间距离与PM2.5污染的相互影响关系,涉及方法的核心思想是相近区域PM2.5的关联性更紧密,即相邻城市的空间权重更大。这种方法难以捕获相距较远城市间的PM2.5关联特征,并且莫兰指数简单分析了PM2.5污染的空间溢出效应,将城市间PM2.5复杂的依赖关系简化为单一的统计量,会导致部分区域PM2.5集聚信息丢失,缺乏整体性和系统性,导致研究结论出现偏差。
目前,以城市间PM2.5日均浓度皮尔逊相关系数均值为阈值计算出邻接矩阵,构建京津冀31个城市的PM2.5污染无向加权网络,通过网络的聚类系数、中心性和演化特征等指标分析区域内城市间PM2.5污染的时空关联性。其研究存在两个方面的局限性:一是构建的PM2.5时空关联网络为无向网络,无法分析城市间的相互作用关系,丢失了部分PM2.5关联信息;二是皮尔逊相关系数与引力模型构建的权重矩阵,会受到数据异常值、数据的高维度以及数据分布等问题的影响,难以发现隐藏在数据中的关联规则以及城市间的内在联系。
目前,基于CAMx-PSAT空气质量模型,对区域大气污染及相互输送特征进行定量模拟,建立区域城市间污染物传输矩阵,通过对区域的污染物传输情况进行数值模拟分析区域污染的时空关联性。这种方法优势在于可以较为精准地模拟大气污染物传播效果,但是空气质量模型是以污染源的排放清单为基础数据,资料收集难度较大且更新较慢,同时该模型也不能计算区域整体的污染特征,缺乏对区域内城市的系统性考量。。
中国专利CN201910930648.1公开了城市间大气污染传输矩阵的构建方法,采用的技术方案是,结合WRF和CALPUFF模式模拟北风和南风两种气象条件下某区域不同城市大气污染的扩散过程,计算各城市的污染源对其他受体城市大气污染的贡献率,得到城市间的污染物传输矩阵,进而分析城市间大气污染相互影响的规律。通过分析扩散模式模拟得到的城市间污染物传输状况,构建城市间大气污染的传输矩阵,分析城市间大气污染相互影响的规律。
中国专利CN202010745364.8公开了建立定量化不同尺度区域间大气污染联防联控方案的方法,采用的技术方案是,包括建立城市及不同尺度区域间大气污染联合防治联合控制方案体系的新方法所需的特征变量数据库;采用聚类分析和网络关联模型等大数据挖掘方法对数据库中的特征变量进行机器学习和数据挖掘;对于不同污染物,不同污染时段、不同污染水平和不同尺度区域或城市的污染实况设计关联性阈值和对应的联防联控城市组或不同尺度区域组。本发明可为不同区域的城市间或不同尺度区域间大气污染实现更加精准化的联防联控,更加高效地实现不同城市及不同尺度区域的空气质量改善,尽快实现空气质量达标,以保护人民的健康。
中国专利CN201910678017.5公开了一种基于空气质量数据的时空模式可视分析系统及方法,采用的技术方案是,包括数据预处理模块、数据分析模块和可视化模块,可视分析主要从单个城市时序变化探索,及地理空间上相邻城市群不同模式的时序变化和模式内城市间空间关联性展开,通过多视图联动协调分析结果;通过设计交互视图表征具有特定数据分布特征模式,探索时空特征中的规则模式、异常模式,进一步分析这些模式以提取有价值的信息,能够帮助分析者直观、全面地分析空气质量数据的常规模式,发掘隐式数据模式探索模式分布特征,探索时变趋势,为分析人员提供决策支持为空气污染治理政策的制定提供科学依据。
科学合理地识别城市间大气污染物的时空关联特征是保障区域协同治理的前提,现有方法存在的以下问题:整体性弱,现有的方法从单一的从集聚、关联、传输等方面对区域内的污染时空关联特征进行分析,无法将多种特征整合在一起,缺乏对区域内城市的系统性考量;实用性差,现有的方法需要海量的大气污染数据和地理数据,建立复杂的仿真模型,对计算和存储资源都有较高要求;鲁棒性低,现有的方法会受到数据异常值、数据的高维度以及数据分布等问题的影响,会使算法结果缺乏稳健性和可靠性。
发明内容
鉴于现有技术中所存在的问题,本发明公开了基于数据挖掘的城市间大气污染物时空关联特征分析方法,包括以下步骤:
步骤1,建立城市大气污染序列数据库;
步骤2,根据建立的大气污染序列数据库,挖掘城市间大气污染频繁序列模式;
步骤3,根据城市间序列模式的支持度,构建邻接矩阵,建立区域大气污染时空关联网络;
步骤4,根据建立的区域大气污染时空关联网络,分析城市间大气污染的时空关联特征。
作为本发明的一种优选技术方案,所述步骤1包括以下步骤:
步骤11,定义污染物城市,基于采集自中国环境监测总站发布的实时空气污染物数据,根据大气污染物等级划分,若某一城市的某一大气污染物APi浓度超过轻度污染等级,则定义为该APi污染城市;
步骤12,生成污染城市序列模式,将t时刻的APi污染城市集作为前项,t+τ时刻的APi污染城市集作为后项,生成一条序列模式SPj
步骤13,生成污染城市序列模式数据库,将t+1时刻的APi污染城市集作为前项,t+1+τ时刻的APi污染城市集作为后项,生成一条序列模式SPj+1,然后递归地生成序列模式,将所有序列模式整合建立城市污染物APi序列数据库SDB。
作为本发明的一种优选技术方案,所述步骤2包括以下步骤:
步骤21,设置序列模式挖掘参数;
步骤22,采用序列模式挖掘算法,挖掘污染物APi序列数据库中的频繁序列模式;
步骤23,对频繁序列模式支持度进行归一化处理。
作为本发明的一种优选技术方案,所述步骤21中,FP为序列模式,序列模式支持度的计算公式为:
Figure BDA0003588144950000041
其中,SPi是组成序列数据库SDB的序列,|SDB|是序列数据库中序列的数量。
作为本发明的一种优选技术方案,所述步骤22中,挑选出挖掘序列数据库中的频繁序列模式FS中前项与后项,且均只有一个城市的频繁序列模式 FSm,n,计算其支持度,即城市m对城市n的污染关联强度,频繁序列模式FSm,n的支持度计算公式为:
Figure BDA0003588144950000042
其中,sup(FSm,n)表示城市 m→n的支持度,即城市m对城市n的关联强度,|supportm,n|为频繁序列模式 FSm,n支持的序列数量,|SDB|为序列数据库中的序列总数。
作为本发明的一种优选技术方案,所述步骤23中,归一化计算公式为:
Figure BDA0003588144950000043
其中,supmin为序列模式SPm,n中支持度最小的值,supmax为序列模式SPm,n中支持度最大的值。
作为本发明的一种优选技术方案,所述步骤3中,城市污染的关联性公式为:am,n=sup(FSm,n)其中,FSm,n表示算法挖掘得到的由两座城市组成的频繁序列模式,sup(FSm,n)表示该序列模式的支持度,am,n表示网络中两座城市的权重,根据城市污染的关联性公式,建立城市APi污染的时空关联网络,并建立网络邻接矩阵。
作为本发明的一种优选技术方案,所述步骤4中包括整体特征分析方法和要素特征分析方法对城市间APi污染关联特征进行量化。
作为本发明的一种优选技术方案,所述整体特征分析方法包括网络密度 ND、平均路径长度NE和网络互异性;所述网络密度ND的计算公式为: ND=M/N(N-1),其中M表示城市的个数,N表示污染关联加权有向网络的个数;所述平均路径长度NE的计算公式为:
Figure BDA0003588144950000051
其中, hij为路径长度dij的倒数(i≠j);所述网络互异为双向连接的边数与总边数的比值。
作为本发明的一种优选技术方案,所述要素特征分析方法包括特征向量中心性、介数中心性、接近中心性和出入度差值;所述介数中心性的计算公式为:
Figure BDA0003588144950000052
其中,N为网络节点数,gst为节点s到节点t的最短路径的数目,
Figure BDA0003588144950000053
为从节点s到节点t的gst条最路径中经过节点i的最短路径的数目;所述接近中心性CCi的计算公式为:
Figure BDA0003588144950000054
其中,dij是节点i 到节点j的距离。
本发明的有益效果:方法无数据的分布限制,能克服数据异常、数据维度高等问题,分析结果更为准确,具有更好的鲁棒性;不需要借助空气治理仿真软件来建立复杂的数学模型。方法结构简洁、处理高效,不需要大量的计算资源;只需要挖掘城市大气污染数据,不需要海量的地理和气象数据辅助算法的实现;基于序列模式挖掘算法建立的污染关联网络,能从集聚、传输、关联等多个角度,系统地量化污染的时空关联特征,分析结果更具整体性。
进一步的,本发明利用序列模式挖掘算法挖掘城市间的污染模式,然后基于污染模式的支持度构建城市间污染时空关联网络,最后从整体与要素两个角度量化区域内城市污染的时空关联特征,具有算法复杂度低、系统性强、准确率高、资源占用率低、鲁棒性好等优势。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明中的环渤海地区47个城市分布图;
图2为本发明中的环渤海地区PM2.5时空关联网络图a;
图3为本发明中的环渤海地区PM2.5时空关联网络图b;
图4为本发明中的环渤海地区PM2.5时空关联网络图c;
图5为本发明中的环渤海地区PM2.5时空关联网络图d;
图6为本发明中的环渤海地区城市节点特征图a;
图7为本发明中的环渤海地区城市节点特征图b;
图8为本发明中的环渤海地区城市节点特征图c;
图9为本发明中的环渤海地区城市节点特征图d;
具体实施方式
实施例1
如图1至图9所示,本发明公开了基于数据挖掘的城市间大气污染物时空关联特征分析方法,包括以下步骤:
步骤1,建立城市大气污染序列数据库;
首先基于采集自中国环境监测总站发布的实时空气污染物数据,根据大气污染物等级划分,若某一城市的某一大气污染物APi浓度超过轻度污染等级,则定义为该APi污染城市。
然后将t时刻的APi污染城市集作为前项,t+τ时刻的APi污染城市集作为后项,生成一条序列模式SPj。递归地,将t+1时刻的APi污染城市集作为前项,t+1+τ时刻的APi污染城市集作为后项,生成一条序列模式SPj+1。最后将所有序列模式整合建立城市污染物APi序列数据库SDB。
假设C1、C2、C3、C4、C5为城市,污染物为PM2.5,时间间隔τ为10小时,得到的城市PM2.5污染序列数据库如表1所示。
表1城市PM2.5污染序列数据库
序号 前项时间 后项时间 序列模式
1 00:00 10:00 <(C1,C2,C3),(C2,C3,C4,C5)>
2 01:00 11:00 <(C1),(C2,C4)>
3 02:00 12:00 <(C3),(C4,C5)>
4 03:00 13:00 <(C5),(C2,C3,C4,C5)>
5 04:00 14:00 <(C1,C2),(C4,C5)>
6 05:00 15:00 <(C4),(C5)>
步骤2,根据建立的的大气污染序列数据库,挖掘城市间大气污染频繁序列模式;
首先设置序列模式挖掘算法的最小支持度,序列模式挖掘算法是一种数据挖掘技术,用于发现数据之间的先后顺序,挖掘出现频率较高的序列模式。支持度 (sup)是表示某一项集同时出现在序列数据库中的频繁程度的参数,最小支持度(minsup),即确定城市具有污染序列关系的最小关联程度。假设SP为序列模式,其序列模式SP的支持度计算公式为:
Figure BDA0003588144950000071
其中,SPi是组成序列数据库SDB的序列,|SDB|是序列数据库中序列的数量。如果一个序列模式为频繁序列模式,那么它的支持度不小于用户指定的最小支持度。
然后采用序列模式挖掘算法,挖掘序列数据库中的频繁序列模式FS,挑选出FS 中前项与后项均只有一个城市的频繁序列模式FSm,n,计算其支持度,即城市m 对城市n的污染关联强度。对于频繁序列模式FSm,n,其频繁序列模式FSm,n的支持度计算公式为:
Figure BDA0003588144950000081
其中,sup(FSm,n)表示城市 m→n的支持度,即城市m对城市n的关联强度,|supportm,n|为频繁序列模式 FSm,n支持的序列数量,|SDB|为序列数据库中的序列总数。
考虑到不同时间分辨率τ下得出的序列模式支持度差异较大,为了便于表征与可视化,对同一时间分辨率下的序列模式支持度进行归一化处理,保留序列模式支持度的相对大小关系。归一化的计算公式为:
Figure BDA0003588144950000082
其中,supmin为序列模式FSm,n中支持度最小的值,supmax为序列模式SPm,n中支持度最大的值。
步骤3,根据城市间序列模式的支持度,构建邻接矩阵,建立区域大气污染时空关联网络;
根据序列模式挖掘算法得出的两个城市之间频繁序列模式的支持度,计算城市污染时空关联网络的权重。在本发明中,假设Cm,Cn为两个城市,则城市污染的关联性公式为:amn=sup(FSmn),其中,FSmn表示算法挖掘得到的由城市CmCn组成的频繁序列模式,sup(FSmn)表示该序列模式的支持度,amn表示网络中城市CmCn的权重。根据城市污染的关联性公式,建立城市APi污染的时空关联网络,假设C1、C2、C3、C4、C5为城市,则网络邻接矩阵为:
Figure BDA0003588144950000083
步骤4,根据建立的区域大气污染时空关联网络,分析城市间大气污染的时空关联特征;时空关联特征分析方法分为整体特征分析方法与要素特征分析方法两类,共7个指标;
整体特征分析方法
第一个指标:网络密度,衡量城市间污染相互作用能力的强弱,在包含M个城市,N个关联的污染关联加权有向网络中,网络密度ND的计算公式为:ND=M/N(N-1)。
第二个指标:平均路径长度,表示网络中所有相连节点间最短路径的均值,反映城市间污染的传播效率,平均路径长度值越高,传播效率越高。若为hij路径长度dij的倒数(i≠j),平均路径长度NE的计算公式为:
Figure BDA0003588144950000091
第三个指标:网络互易性,污染关联网络中双向连接的边数与总边数的比值,反映城市间污染关联的稳定性。
要素特征分析方法
第四个指标:特征向量中心性,特征向量中心性不仅取决于节点的重要性,也考虑到了其邻居节点的重要性,相较于度中心性有更加准确,特征向量中心性越高,意味着该城市的污染与网络中其他城市的关联越紧密,越接近区域污染治理的核心城市。
第五个指标:介数中心性,衡量节点对整个网络的控制能力,即污染关联网络中所有最短路径经过某个节点的数量占比,介数中心性越高,越接近主要的传输通道,意味着该城市对其他城市污染传输影响越大。若N为网络节点数,gst为节点s到节点t的最短路径的数目,
Figure BDA0003588144950000092
为从节点s到节点t的gst条最路径中经过节点i的最短路径的数目,则介数中心性的计算公式为:
Figure BDA0003588144950000093
第六个指标:接近中心性,接近中心性是网络中节点到其他节点距离均值的倒数,即节点到网络中其他节点的距离越小,CC值越高,节点的独立性越高,即反应了某一城市污染不受其他城市控制的程度。若dij是节点i到节点j的距离,则接近中心性的计算公式为:
Figure BDA0003588144950000094
第七个指标:出入度差值,节点加权出度减节点加权入度,城市的出入度差值为正,则该城市可能为区域内潜在的污染源,反之意味着该城市受其他城市污染的影响更明显。
以中国环渤海地区47个城市的PM2.5大气污染为例,构建环渤海地区城市PM2.5大气污染时空关联网络。
第一步,建立城市PM2.5污染序列数据库;
采集环渤海地区47个城市(图1)2015年1月1日至2021年2月28日每日的PM2.5浓度,采用线性插值方法对原始数据中的缺失值进行预处理。若城市 PM2.5小时浓度大于75ug/m3,则定义为污染城市,以时间分辨率τ为10h— 100h十个场景,进行序列数据库的构建,则环渤海地区PM2.5污染序列数据库如表2所示:
表2序列数据库(τ=10h)
Figure BDA0003588144950000101
第二步,根据构建的PM2.5污染序列数据库,挖掘环渤海地区城市间PM2.5污染序列模式;
采用CM-SPAM序列模式挖掘算法,设置最小支持度为0.2,挖掘环渤海地区PM2.5污染的频繁序列模式。挑选前项与后项均只有一个城市的频繁序列模式,计算其的支持度并进行归一化处理,结果如表3所示。
表3频繁序列模式(τ=10h)
Figure BDA0003588144950000102
Figure BDA0003588144950000111
第三步,根据城市间序列模式的支持度,构建邻接矩阵,建立环渤海地区 PM2.5污染时空关联网络;
当τ=10h时,构建的邻接矩阵如下:
Figure BDA0003588144950000112
建立的环渤海地区PM2.5污染时空关联网络如图2至图5所示。
第四步,根据建立的区域大气污染时空关联网络,分析城市间大气污染的时空关联特征;
整体特征
整体特征分析包括网络密度、平均路径长度以及网络互易性三种分析方法,10h—100h十个场景的分析结果如下表4所示。
表4不同时间分辨率下环渤海地区PM2.5污染网络整体特征
Figure BDA0003588144950000113
从10h到100h,PM2.5污染关联网络密度从0.63下降到0.49,这说明随着时间的推移,城市关联的复杂程度下降,城市间PM2.5污染连通性降低,网络的节点数量和连边数量也呈减少趋势,但是网络的核心节点并未发生改变。河北省的保定、石家庄、邯郸和邢台以及山东省的菏泽、聊城和枣庄7市始终是环渤海地区PM2.5污染网络的核心节点,说明这7个城市是环渤海地区PM2.5污染协同治理的关键城市节点。平均路径长度呈现出先升高再降低的趋势,在40 小时最高。表明污染发生后,PM2.5在40小时内不断扩散,造成了网络的平均路径长度变大,随后受到污染的城市开始相互影响并产生关联性,网络的平均路径长度又开始降低。虽然城市关联的复杂程度下降,但网络互易性整体保持在较高水平,10个时间场景下均在0.8以上,即存在污染关联的城市中,80%以上的城市都在互相影响,网络结构较为稳定,反映出环渤海地区PM2.5污染存在较强的时空关联性,并且关联性较为稳定,不会随着时间的推移而减弱。
要素特征
要素特征分析包括特征向量中心性、介数中心性、接近中心性以及出入度差值三种分析方法,10h—100h十个场景的分析结果如图6至图9所示。
在特征向量中心性方面,河北省的保定、石家庄、邢台、邯郸4市与山东省枣庄、聊城、菏泽3市具有较高的特征向量中心性,在关联网络中属于较为重要的城市节点;在介数中心性方面,石家庄与邢台2市数值较大,意味着其在环渤海地区PM2.5污染关联网络中起到了枢纽作用;在接近中心性方面,除了石家庄、邢台2市外,核心7市余下5个城市的接近中心性相对较低,说明保定、邯郸、枣庄、聊城和菏泽5市的本地PM2.5污染较强,但相比石家庄和邢台,对其他城市的影响较小;在出入度差值方面,保定、石家庄和邢台3市的值较大,出度明显大于入度,反映出这个3个城市向区域内其他城市输出的污染大于区域内其他城市输入的污染,表明该3市可能是环渤海地区潜在的PM2.5污染源。临沂、枣庄、济南、济宁和菏泽5市的出度小于入度,意味着受其他城市的影响更为明显,其他城市的污染输入加剧了这5个城市的PM2.5污染。
本发明可挖掘不同区域城市间大气污染物的时空关联特征,实施例中分析的PM2.5时空关联特征也可推广至分析其他大气污染物或空气质量指数 (AQI)的时空关联特征。算法除了以小时为分辨率构建序列数据库外,还可以计算24小时浓度均值,以天为分辨率构建序列数据库,按照季节将序列数据库划分,分析不同季节场景下区域城市间的时空关联特征。算法涉及的城市间时空关联特征分析方法不局限于上述七种,凝聚系数、网络效率或节点强度等复杂网络分析方法都适用于本发明,可以依据区域的污染特征选择不同的分析方法。
本文中未详细说明的部件为现有技术。
上述虽然对本发明的具体实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化,而不具备创造性劳动的修改或变形仍在本发明的保护范围以内。

Claims (10)

1.基于数据挖掘的城市间大气污染物时空关联特征分析方法,其特征在于包括以下步骤:
步骤1,建立城市大气污染序列数据库;
步骤2,根据建立的大气污染序列数据库,挖掘城市间大气污染频繁序列模式;
步骤3,根据城市间序列模式的支持度,构建邻接矩阵,建立区域大气污染时空关联网络;
步骤4,根据建立的区域大气污染时空关联网络,分析城市间大气污染的时空关联特征。
2.根据权利要求1所述的基于数据挖掘的城市间大气污染物时空关联特征分析方法,其特征在于,所述步骤1包括以下步骤:
步骤11,定义污染物城市,基于采集自中国环境监测总站发布的实时空气污染物数据,根据大气污染物等级划分,若某一城市的某一大气污染物APi浓度超过轻度污染等级,则定义为该APi污染城市;
步骤12,生成污染城市序列模式,将t时刻的APi污染城市集作为前项,t+τ时刻的APi污染城市集作为后项,生成一条序列模式SPj
步骤13,生成污染城市序列模式数据库,将t+1时刻的APi污染城市集作为前项,t+1+τ时刻的APi污染城市集作为后项,生成一条序列模式SPj+1,然后递归地生成序列模式,将所有序列模式整合建立城市污染物APi序列数据库SDB。
3.根据权利要求1所述的基于数据挖掘的城市间大气污染物时空关联特征分析方法,其特征在于,所述步骤2包括以下步骤:
步骤21,设置序列模式挖掘参数;
步骤22,采用序列模式挖掘算法,挖掘污染物APi序列数据库中的频繁序列模式;
步骤23,对频繁序列模式支持度进行归一化处理。
4.根据权利要求3所述的基于数据挖掘的城市间大气污染物时空关联特征分析方法,其特征在于:所述步骤21中,SP为序列模式,序列模式支持度的计算公式为:
Figure FDA0003588144940000021
其中,SPi是组成序列数据库SDB的序列,|SDB|是序列数据库中序列的数量。
5.根据权利要求3所述的基于数据挖掘的城市间大气污染物时空关联特征分析方法,其特征在于:所述步骤22中,挑选出挖掘序列数据库中的频繁序列模式FS中前项与后项,且均只有一个城市的频繁序列模式FSm,n,计算其支持度,即城市m对城市n的污染关联强度,频繁序列模式FSm,n的支持度计算公式为:
Figure FDA0003588144940000022
其中,sup(FSm,n)表示城市m→n的支持度,即城市m对城市n的关联强度,|supportm,n|为频繁序列模式FSm,n支持的序列数量,|SDB|为序列数据库中的序列总数。
6.根据权利要求3所述的基于数据挖掘的城市间大气污染物时空关联特征分析方法,其特征在于:所述步骤23中,归一化计算公式为:
Figure FDA0003588144940000023
Figure FDA0003588144940000024
其中,supmin为序列模式SPm,n中支持度最小的值,supmax为序列模式SPm,n中支持度最大的值。
7.根据权利要求1所述的基于数据挖掘的城市间大气污染物时空关联特征分析方法,其特征在于:所述步骤3中,城市污染的关联性公式为:am,n=sup(FSm,n)其中,FSm,n表示算法挖掘得到的由两座城市组成的频繁序列模式,sup(FSm,n)表示该序列模式的支持度,am,n表示网络中两座城市的权重,根据城市污染的关联性公式,建立城市APi污染的时空关联网络,并建立网络邻接矩阵。
8.根据权利要求1所述的基于数据挖掘的城市间大气污染物时空关联特征分析方法,其特征在于:所述步骤4中包括整体特征分析方法和要素特征分析方法对城市间APi污染关联特征进行量化。
9.根据权利要求8所述的基于数据挖掘的城市间大气污染物时空关联特征分析方法,其特征在于:所述整体特征分析方法包括网络密度ND、平均路径长度NE和网络互异性;所述网络密度ND的计算公式为:ND=M/N(N-1),其中M表示城市的个数,N表示污染关联加权有向网络的个数;所述平均路径长度NE的计算公式为:
Figure FDA0003588144940000031
其中,hij为路径长度dij的倒数(i≠j);所述网络互异为双向连接的边数与总边数的比值。
10.根据权利要求8所述的基于数据挖掘的城市间大气污染物时空关联特征分析方法,其特征在于:所述要素特征分析方法包括特征向量中心性、介数中心性、接近中心性和出入度差值;所述介数中心性的计算公式为:
Figure FDA0003588144940000032
Figure FDA0003588144940000033
其中,N为网络节点数,gst为节点s到节点t的最短路径的数目,
Figure FDA0003588144940000034
为从节点s到节点t的gst条最路径中经过节点i的最短路径的数目;所述接近中心性CCi的计算公式为:
Figure FDA0003588144940000035
其中,dij是节点i到节点j的距离。
CN202210370266.XA 2022-04-09 2022-04-09 基于数据挖掘的城市间大气污染物时空关联特征分析方法 Pending CN114969143A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210370266.XA CN114969143A (zh) 2022-04-09 2022-04-09 基于数据挖掘的城市间大气污染物时空关联特征分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210370266.XA CN114969143A (zh) 2022-04-09 2022-04-09 基于数据挖掘的城市间大气污染物时空关联特征分析方法

Publications (1)

Publication Number Publication Date
CN114969143A true CN114969143A (zh) 2022-08-30

Family

ID=82978002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210370266.XA Pending CN114969143A (zh) 2022-04-09 2022-04-09 基于数据挖掘的城市间大气污染物时空关联特征分析方法

Country Status (1)

Country Link
CN (1) CN114969143A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115758711A (zh) * 2022-11-11 2023-03-07 中国环境科学研究院 一种基于污染传输路径的大气污染新型溯源方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115758711A (zh) * 2022-11-11 2023-03-07 中国环境科学研究院 一种基于污染传输路径的大气污染新型溯源方法
CN115758711B (zh) * 2022-11-11 2023-05-30 中国环境科学研究院 一种基于污染传输路径的大气污染溯源方法

Similar Documents

Publication Publication Date Title
AU2018101946A4 (en) Geographical multivariate flow data spatio-temporal autocorrelation analysis method based on cellular automaton
CN108763319B (zh) 融合用户行为和文本信息的社交机器人检测方法和系统
CN111008337B (zh) 一种基于三元特征的深度注意力谣言鉴别方法及装置
WO2023168781A1 (zh) 一种基于时空交互关系的土壤镉风险预测方法
CN109857457B (zh) 一种在双曲空间中学习源代码中的函数层次嵌入表示方法
CN117236199B (zh) 城市水网区域河湖水质提升与水安全保障方法及系统
CN108960488A (zh) 一种基于深度学习与多源信息融合的饱和负荷空间分布精准预测方法
CN110990718A (zh) 一种公司形象提升系统的社会网络模型构建模块
CN116681176B (zh) 一种基于聚类和异构图神经网络的交通流预测方法
CN112087316B (zh) 基于异常数据分析的网络异常根源定位方法
CN109686402A (zh) 基于动态加权相互作用网络中关键蛋白质识别方法
CN115015486B (zh) 一种基于回归树模型的碳排放量测算方法
CN112149922A (zh) 高速公路隧道下行线出入口区域事故严重程度预测方法
CN110716998B (zh) 一种精细尺度人口数据空间化方法
CN114969143A (zh) 基于数据挖掘的城市间大气污染物时空关联特征分析方法
CN112765313B (zh) 一种基于原文和评论信息分析算法的虚假信息检测方法
CN112508726B (zh) 一种基于信息传播特点的虚假舆论识别系统及其处理方法
CN113254580A (zh) 一种特殊群体搜索方法及系统
CN106816871B (zh) 一种电力系统状态相似性分析方法
CN114265954B (zh) 基于位置与结构信息的图表示学习方法
CN116070385A (zh) 一种境外矿产资源供应链风险自动识别方法及系统
CN115273645A (zh) 一种室内面要素自动聚类的地图制图方法
CN112488805B (zh) 基于多元回归时间序列分析的长租市场预警方法
CN105808715B (zh) 一种位置一张图的构建方法
CN113919415A (zh) 一种基于无监督算法的异常群组检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination