CN117633661B

CN117633661B - 一种基于进化图自监督学习的运渣车高危污染源分类方法

Info

Publication number: CN117633661B
Application number: CN202410112277.7A
Authority: CN
Inventors: 韩科; 喻磊
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2024-01-26
Filing date: 2024-01-26
Publication date: 2024-04-02
Anticipated expiration: 2044-01-26
Also published as: CN117633661A

Abstract

本发明公开了一种基于进化图自监督学习的运渣车高危污染源分类方法，涉及污染源分类技术领域。该方法包括获取扬尘污染源数据；以扬尘污染源为节点，以运渣车转移线路为边，构建扬尘污染源的动态离散图；根据扬尘污染源的动态离散图，采用多任务自监督学习方法预测其它特征节点的目标标签，得到运渣车高危污染源分类结果。本发明提高了拓扑结构的利用效率并减少了对标签的依赖，提高运渣车扬尘污染源的预测精度。

Description

一种基于进化图自监督学习的运渣车高危污染源分类方法

技术领域

本发明涉及污染源分类技术领域，具体涉及一种基于进化图自监督学习的运渣车高危污染源分类方法。

背景技术

在城市环境管理中，扬尘污染源的识别和分类是一项重要的任务。已有技术通常基于遥感数据、传感器技术等数据，人工监测和识别扬尘污染源，或者利用传统的机器学习模型识别扬尘污染源类型。这些技术在取得了一定的成就，但也存在一些缺点和挑战。

a.人工排查方法的缺陷：传统方法过度依赖于人工排查，排查成本高。并且过度依赖于固定的监测设备，这些设备在城市各处分布不均匀，无法实时全面地监测扬尘污染源。数据的准确性与时效性也会严重影响识别效率。

b.传统机器学习模型的缺陷：传统机器学习模型比人工排查的效率更高，但是传统的机器学习忽略了扬尘污染源之间的运渣车转移，即忽略了动态图结构拓朴信息，导致样本特征信息丢失。并且扬尘污染源点位的标签较少，也会极大的影响预测进度，传统分类模型一般忽略了此限制。

因此，迫切需要一种创新性方法，提供高质量、准确的预测结果。

发明内容

针对现有技术中的上述不足，本发明提供了一种基于进化图自监督学习的运渣车高危污染源分类方法。

为了达到上述发明目的，本发明采用的技术方案为：

一种基于进化图自监督学习的运渣车高危污染源分类方法，包括以下步骤：

获取扬尘污染源数据；

以扬尘污染源为节点，以运渣车转移线路为边，构建扬尘污染源的动态离散图；

根据扬尘污染源的动态离散图，采用多任务自监督学习方法预测其它特征节点的目标标签，得到运渣车高危污染源分类结果。

作为优选地，扬尘污染源数据包括：

城市已知污染源数据，城市POI数据，城市土地覆盖数据，运渣车停驻点和高危污染区域数据。

作为优选地，根据扬尘污染源的动态离散图，采用多任务自监督学习方法预测其它特征节点的目标标签，得到运渣车高危污染源分类结果，包括以下步骤：

将扬尘污染源的动态离散图输入两层Evolve-GCN编码器，生成节点表示向量；

将节点表示向量输入执行预训练多任务的节点嵌入层，采用第一损失函数进行训练，得到训练后的节点表示向量；

将训练后的节点表示向量输入SoftMax层预测目标标签，并采用第二损失函数训练进行模型训练，得到最终的运渣车高危污染源分类结果。

作为优选地，预训练多任务包括：

图结构任务，图语义任务和对比学习任务；

其中图结构任务包括度预测任务和上下文预测任务；

图语义任务通过计算扬尘污染源的动态离散图中节点的基尼重要性，并将基尼重要性排序top-k的节点特征作为伪标签，构建预测任务。

作为优选地，计算扬尘污染源的动态离散图中节点的基尼重要性，包括以下步骤：

根据获取的扬尘污染源数据计算节点特征；

根据节点特征计算扬尘污染源的动态离散图中节点特征的基尼重要性。

作为优选地，节点特征包括：

地理特征，土地覆盖特征，POI特征和车流特征。

作为优选地，根据节点特征计算扬尘污染源的动态离散图中节点特征的基尼重要性，包括以下步骤：

根据各个节点构建随机森林模型，计算每个节点的基尼不纯度；

根据随机森林模型中节点的样本数量计算节点特征的分裂节点概率；

根据每个节点的基尼不纯度和节点特征的分裂节点概率，计算节点特征在每个节点的基尼重要性；

将每个节点特征在所有决策树上的基尼重要性进行平均，得到最终的节点特征的基尼重要性。

作为优选地，计算扬尘污染源的动态离散图中节点特征的基尼重要性，还包括：

将节点的坐标与城市已知污染源数据的坐标进行匹配，使得部分节点匹配已知标签。

作为优选地，第一损失函数包括：

度预测任务中节点真实的度与预测的度之间的均方误差损失，上下文预测任务中节点真实的邻居标签与预测的邻居标签之间的均方误差损失，图语义任务中各个节点特征的真实值与预测值之间的均方误差损失和对比学习任务中噪声对比损失。

作为优选地，第二损失函数包括：交叉熵损失函数。

本发明具有以下有益效果：

本发明通过构建扬尘污染源的动态离散图，有助于更好地处理复杂的节点间关系和事件演化过程；并且采用自监督学习框架，使得无标签的扬尘污染源得以有效利用，从而提高了拓扑结构的利用效率并减少了对标签的依赖，提高运渣车扬尘污染源的预测精度。

附图说明

图1为一种基于进化图自监督学习的运渣车高危污染源分类方法的流程示意图；

图2为扬尘污染源的动态离散图示意图；

图3为进化图自监督学习框架示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，本发明实施例提供了一种基于进化图自监督学习的运渣车高危污染源分类方法，包括以下步骤S1至S4：

S1、获取扬尘污染源数据；

在本发明的一个可选实施例中，本实施例获取的扬尘污染源数据包括：

其中城市已知污染源数据包括施工工地、工厂（砂石场和商混站）、重型停车场三种污染源的信息，通过线下排查获得。

城市POI（PointofInterest，兴趣点）数据包括餐饮服务、道路附属设施、风景名胜、公共设施、公司企业、购物服务、交通设施服务、金融保险服务、科教文化服务、汽车服务、汽车维修、商务住宅、生活服务、体育休闲服务、医疗保健服务、政府机构及社会团队、住宿服务等17类POI数据；城市POI数据是一种描述地理实体空间位置和属性信息的数据，通常包含名称、地址、坐标、类别等信息。在城市中，POI数据可以包括各种与人们生活密切相关的地标建筑和地理实体，如学校、医院、商场、公园等，可以通过互联网采集获得。

城市土地覆盖数据包括分辨率为1m的全国土地覆盖数据，从公开数据集获取。

运渣车停驻点基于运渣车GPS轨迹数据，经过数据清洗算法，筛选出运渣车停驻点。

高危污染区域数据基于运渣车停驻点，通过二次DBSCAN聚类算法识别，得出高危污染区域数据。

S2、以扬尘污染源为节点，以运渣车转移线路为边，构建扬尘污染源的动态离散图；

在本发明的一个可选实施例中，本实施例将高危污染区域定义为节点，将运渣车转移线路定义为边，构建扬尘污染源的动态离散图，表示为；/>为节点集合；/>为边集合；/>为特征矩阵；/>为工作时，定义每12h为一个工作时（8：00-20：00和20:00-8:00），如图2所示，T1...Tn表示各个工作时。

S3、根据扬尘污染源的动态离散图，采用多任务自监督学习方法预测其它特征节点的目标标签，得到运渣车高危污染源分类结果。

在本发明的一个可选实施例中，自监督学习的重要一步是生成与目标标签（工地、工厂、重型停车场）高度相关的伪标签。一般通过一些人工的先验知识确定伪标签，由于人工线下排查成本很高，城市已知污染源数量很少，导致大量的节点没有标签。本实施例通过计算特征的基尼重要性评估每个特征在模型的性能中的贡献程度，取重要性前top-k的特征作为伪标签。

本实施例根据扬尘污染源的动态离散图，采用多任务自监督学习方法预测其它特征节点的目标标签，得到运渣车高危污染源分类结果，包括以下步骤S31至S33：

S31、将扬尘污染源的动态离散图输入两层Evolve-GCN编码器，生成节点表示向量；

S32、将节点表示向量输入执行预训练多任务的节点嵌入层，采用第一损失函数进行训练，得到训练后的节点表示向量；

在本实施例中，预训练多任务包括：

图结构任务，图语义任务和对比学习任务；

其中图结构任务包括度预测任务和上下文预测任务；

计算扬尘污染源的动态离散图中节点的基尼重要性，包括以下步骤：

根据获取的扬尘污染源数据计算节点特征；

节点特征包括：

地理特征，土地覆盖特征，POI特征和车流特征。

根据节点特征计算扬尘污染源的动态离散图中节点特征的基尼重要性，包括以下步骤：

计算扬尘污染源的动态离散图中节点特征的基尼重要性，还包括：

第一损失函数包括：

S33、将训练后的节点表示向量输入SoftMax层预测目标标签，并采用第二损失函数训练进行模型训练，得到最终的运渣车高危污染源分类结果。

在本实施例中，第二损失函数包括：交叉熵损失函数。

示例性地，本实施例基于进化图卷积神经网路（Evlove-GCN），结合自监督学习的方法来提高分类准确率；其中Evolve-GCN是一种用于处理动态图结构的编码器模型。它使用RNN来演化GCN参数，以便在演化的网络参数中捕获动态信息，处理动态图序列，使得模型能够更好地处理和理解动态图结构，提高模型的预测准确性和处理复杂动态图的能力。本实施例构建了一个进化图自监督学习框架（EGSS），模型框架如图3所示。首先将动态离散图输入两层(layer1,layer2)Evolve-GCN编码器/>生成节点表示向量/>，表示为：

然后将节点表示向量Z经过展平层（Flatten）后输入执行3类预训练任务的节点嵌入层（Node Embedding），共6个子任务来训练两层Evolve-GCN编码器已得到高质量的节点表示向量Z。3类任务分别是图结构任务(Graph Structure Task)、图语义任务(GraphSemantics Task)、对比学习任务(Contrastive Learning Task)，分别包含2、3、1个子任务。

图结构任务包括度预测任务（Degree）和上下文预测（Context）。

在动态离散图中，节点的度是区别节点类型的重要判别特征。例如，城市中重型停车场较少，往往有多个在工地和工厂作业的运渣车停留，度一般偏大。度预测任务的目标是使节点/>真实的度与预测的度之间的均方误差(MSE)损失/>最小化，表示为：

其中，表示节点/>的真实的度；/>表示线性回归，预测节点的度；/>表示节点i的表示向量；/>表示节点总数。

在动态离散图中，邻居节点的类型是区别节点类型的重要判别特征。例如，工地的运渣车会转移到工地、工厂、重型停车场。工厂的运渣车往往不会转移到工厂，重型停车场的运渣车往往不会转移到重型停车场。上下文预测任务的目标是使节点/>真实的邻居标签与预测的邻居标签之间的均方误差(MSE)损失/>最小化，表示为：

定义为节点/>的第/>类邻居的比例，表示为：

其中，表示节点/>的邻居节点总数；/>表示节点/>的第/>类邻居节点的总数，；/>表示两层多层感知机（MLP），用来预测各类邻居节点的比例。

图语义任务是通过将重要性排序top-k的特征作为伪标签，以学习节点的高质量表示。

本实施例计算扬尘污染源的动态离散图中节点的基尼重要性，包括以下步骤S321和S322：

S321、根据获取的扬尘污染源数据计算节点特征；

在本实施例中，节点特征包括地理特征，土地覆盖特征，POI特征和车流特征。

其中地理特征为每一个节点（即高危污染区域）的地理信息，包括节点形状、、节点大小/>和节点距市中心的距离/>；节点形状/>、/>分别表示节点左右边界的距离和节点上下边界的距离，i表示单个节点；节点大小/>表示节点包含的网格的数量；节点距市中心的距离/>表示节点的中心投影坐标/>距离设定区域中心投影坐标/>的欧氏距离，定义为/>，计算式为：

其中，为节点总数。

土地覆盖特征包括交通线路、树木、草地、农田、建筑、稀疏植被、水域、苔藓地衣八种类型，分别定义为，计算式为：

其中，为节点/>的土地覆盖类型/>的总面积，/>为第/>个节点的大小值。

POI特征分别定义为，计算式为：

其中，第/>个节点的第/>p类POI特征值，/>定义为判别函数/>，判别函数判别成立时取值为1，判别函数判别不成立时取值为0；kp为POI数据的类别；/>为第kp类POI数据的总数，/>为第kp类POI数据的序号。

车流特征是描述运渣车运行的动态特征，包括入流量值、出流量值、入度值、出度值、标准工作时间值和工作时间稳定性值。

本实施例计算车流特征的流程如下：

首先根据运渣车GPS轨迹数据确定运渣车的OD数据。运渣车的一次OD指的是运渣车从一个污染源（起点O）到另一个污染源（终点D）的一次行程。将运渣车GPS轨迹数据中的运渣车停驻点与节点位置相匹配，再将匹配上的运渣车停驻点数据集按照“车牌号、时间”排序，然后遍历运渣车停驻点数据集，记录经过某个节点的第一次出现时间和最后一次出现时间，相邻两个节点即为一次OD数据，从而确定运渣车的OD数据。

然后根据运渣车的OD数据确定每个节点的入流量值、出流量值、入度值和出度值。具体地，入流量值为时间内进入某个节点的总流量，定义为/>，出流量值为时间/>内离开某个节点的总流量，定义为/>，其中流量定义为一段时间内通过节点的总车次数，时间t取一个小时。节点的度是与该节点直接相连的边的数量，入度值为指向该节点的边的数量，定义为/>，出度值为从该节点出发的边的数量，定义为/>。

然后根据运渣车的OD数据计算标准工作时间值。工作时间定义为某一辆车从进入节点到从当前节点离开的间隔时间。各车次的工作时间均值定义为标准工作时间，用符号表示，计算式为：

其中：为运渣车经过第/>个节点的标准工作时间值，/>为经过第/>个节点的总运渣车次数，/>为第/>辆运渣车经过第/>个节点，/>为第/>辆运渣车进入第/>个节点的时刻，为第/>辆运渣车离开第/>个节点的时刻。

各车次的工作时间标准差定义为工作时间稳定性，用符号表示，计算式为：

其中：为运渣车经过第/>个节点的工作时间稳定性值。

S322、根据节点特征计算扬尘污染源的动态离散图中节点特征的基尼重要性。

在本实施例中，步骤S322根据节点特征计算扬尘污染源的动态离散图中节点特征的基尼重要性，包括以下步骤S3221至S3224：

S3221、根据各个节点构建随机森林模型，计算每个节点的基尼不纯度，计算式为：

其中，表示在节点i中属于类别k的数据点的比例，i表示节点或分裂点，K=3表示类别的数量。

本实施例通过将节点的坐标与城市已知污染源数据的坐标进行匹配，使得部分节点匹配已知标签（工地、工厂、重型停车场）。

S3222、根据随机森林模型中节点的样本数量计算节点特征的分裂节点概率；节点特征的分裂节点概率/>可以通过节点的样本数除以总样本数来计算。

S3223、根据每个节点的基尼不纯度和节点特征的分裂节点概率，计算节点特征在每个节点的基尼重要性，计算式为：

S3224、将每个节点特征在所有决策树上的基尼重要性进行平均，得到最终的节点特征的基尼重要性。

本实施例通过计算的节点的基尼重要性，将基尼重要性排名前三的三个特征作为伪标签，以节点与市中心的距离(d)、晚高峰节点出流量()和标准工作时间(MT)为例，构建预测任务。

节点与市中心的距离是区分节点类型的重要特征，在特征重要性中排名第一，因为工厂和重型停车场往往远离市中心，工地则遍布研究区域。该预测任务的目标是使节点真实d与预测的d的均方误差(MSE)损失/>最小化，表示为：

其中，表示线性回归，预测节点与市中心的距离。

晚高峰节点出流量是区分节点类型的重要特征，在特征重要性中排名第二，因为工厂和工地在晚高峰有较大的出流量而停车场出流量很小。本预测任务的目标是使节点真实晚高峰节点出流量与预测的晚高峰节点出流量的均方误差(MSE)损失/>最小化，表示为：

其中，表示线性回归，预测晚高峰节点出流量。

标准工作时间是区分节点类型的重要特征，在特征重要性中排名第三，因为重型停车厂的车辆有时会停留一整个工作时，工地、工厂的标准工作时间与装卸条件相关。本预测任务的目标是使节点真实标准工作时间与预测工作时间的均方误差(MSE)损失/>最小化，表示为：

其中，表示线性回归，预测标准工作时间。

对比学习任务(Contrastive Learning Task)中，对于相邻两个白天工作时（或者夜间工作时）的两张图，例如与/>，是同一个城市已知污染源的节点对定义为正对，反之定义为负对。对比学习任务(CL)的目标是使正对的表示向量相似，首先使用一个非线性投影函数将表示矩阵映射到另一个潜在空间进行损失计算，即，其中/>表示节点表示向量在非线性空间的映射，/>表示非线性映射函数，/>表示节点表示向量；然后在潜在空间中，采用infoNCE损失最小化正对表示向量的差异，表示为：

其中，表示准则函数，/>表示时间/>的正对tp的表示向量在非线性空间的映射，/>表示正对的节点编号；/>表示余弦相似度；/>表示超参数；表示正对tp的损失；/>表示时间/>的负对fp的表示向量在非线性空间的映射；/>表示负对的节点编号；/>表示对比学习的损失；/>表示正对的节点总数；/>表示正对的节点编号。

最后，定义损失函数，表示为：

以总损失最小为目标，训练两层Evolve-GCN编码器/>。

模型训练好之后，将训练好的表示矩阵Z（WHILE Node Embedding done）作为输入，经过一个SoftMax层输出预测概率，得到预测目标标签(Target Task)，包括工地（Site）、工厂（Factory）、重型停车场（Parking）；模型使用交叉熵损失训练参数，表示为：

其中，为SoftMax层参数，/>为类别数，/>为节点/>的预测类别，/>为节点/>的真实类别。

综上所述，本发明相较于现有技术拥有以下优点：

充分利用了运渣车扬尘污染源的拓扑结构信息：本发明首先将污染源定义为节点，运渣车的转移视为边，构建扬尘污染源的图拓扑结构，再将动态图数据进行离散化，定义为动态图。然后采用进化图自监督学习，结合循环神经网络（RNN）的设计，更好地捕捉动态图的时序性和结构性，并且对于以上场景进行了丰富的特征提取工作。从而提高了节点间关系和事件演化的准确性。

数据标记成本降低：本发明采用自监督学习框架，允许在标签数据大量缺失的情况下进行预测，从而显著降低对已知标签的依赖。这降低了标签数据获取成本，特别适用于标签数据获取困难的领域。

多任务学习的结合：本发明巧妙结合多任务学习方法，将任务分为三大类，通过不同的预训练任务来提高模型的泛化性能，提高运渣车高危污染源的预测精度。

这些优点有助于提高运渣车扬尘污染源的预测精度并且降低人工成本。除此之外，还提高了节点分类、图结构分析等相关预测任务的准确性，并降低了数据标记成本，使其适用于多个应用领域。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于进化图自监督学习的运渣车高危污染源分类方法，其特征在于，包括以下步骤：

获取扬尘污染源数据；

根据扬尘污染源的动态离散图，采用多任务自监督学习方法预测其它特征节点的目标标签，得到运渣车高危污染源分类结果，包括以下步骤：

预训练多任务包括：

图结构任务，图语义任务和对比学习任务；

其中图结构任务包括度预测任务和上下文预测任务；

图语义任务通过计算扬尘污染源的动态离散图中节点的基尼重要性，并将基尼重要性排序top-k的节点特征作为伪标签，构建预测任务；

上下文预测任务是预测邻居节点的标签；

2.根据权利要求1所述的一种基于进化图自监督学习的运渣车高危污染源分类方法，其特征在于，扬尘污染源数据包括：

3.根据权利要求1所述的一种基于进化图自监督学习的运渣车高危污染源分类方法，其特征在于，计算扬尘污染源的动态离散图中节点的基尼重要性，包括以下步骤：

根据获取的扬尘污染源数据计算节点特征；

4.根据权利要求3所述的一种基于进化图自监督学习的运渣车高危污染源分类方法，其特征在于，节点特征包括：

地理特征，土地覆盖特征，POI特征和车流特征。

5.根据权利要求3所述的一种基于进化图自监督学习的运渣车高危污染源分类方法，其特征在于，根据节点特征计算扬尘污染源的动态离散图中节点特征的基尼重要性，包括以下步骤：

6.根据权利要求1所述的一种基于进化图自监督学习的运渣车高危污染源分类方法，其特征在于，计算扬尘污染源的动态离散图中节点特征的基尼重要性，还包括：

7.根据权利要求1所述的一种基于进化图自监督学习的运渣车高危污染源分类方法，其特征在于，第一损失函数包括：

8.根据权利要求1所述的一种基于进化图自监督学习的运渣车高危污染源分类方法，其特征在于，第二损失函数包括：交叉熵损失函数。