CN117370813A

CN117370813A - 一种基于k线模式匹配算法的大气污染深度学习预测方法

Info

Publication number: CN117370813A
Application number: CN202311313109.6A
Authority: CN
Inventors: 李建; 许睿; 沈世铭; 吴文杰
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2023-10-11
Filing date: 2023-10-11
Publication date: 2024-01-09

Abstract

本发明公开了一种基于K线模式匹配算法的大气污染深度学习预测方法，属于大气环境技术领域。包括预测地区的实验数据进行划分，并对污染物浓度数据进行预处理；生成组合连续的PM2.5浓度变化烛台图；根据每组烛台图中展现出的组合形态特征，构建污染物浓度序列局部组合K线，捕捉K线反转信号，提取相关特征向量，将此特征向量应用于模式相似度函数进行模式匹配，构建基于组合烛台图的模式匹配模型CPM；构建多步PM2.5浓度预测组合测模型并优化训练，利用训练优化后的浓度预测模型对未来不同时间步的PM2.5浓度值进行预测。本发明的方法能够避免突变点预测不准确和多步预测误差迭代的问题，增加大气污染预测的准确性。

Description

一种基于K线模式匹配算法的大气污染深度学习预测方法

技术领域

本发明属于大气环境技术领域，具体涉及一种基于K线模式匹配算法的大气污染深度学习预测方法。

背景技术

当今世界大气污染状况十分严峻，精准、实时的预测是研究者对大气污染防治的必要研究；是管理者对环境治理、环境决策的重要理论参考；严重污染事件来临之前的提前预警，不光为居民的出行活动提供建议，还对区域联动治理具有关键指导作用。

关于大气污染物浓度预测的主要方法包括：数值模型、统计学习方法、机器学习方法和深度学习方法。目前，广泛使用深度学习技术作为时序数据预测的主要方法，该方法通过变换非线性函数，由简到繁、由抽象到具体的提取数据多维特征，以此来达到特征学习的目的，从而实现较高的预测性能。

尽管在预测精度方面，深度学习预测方法比传统的时序数据预测方法展示出更高的准确率，但使用深度学习技术对时序型大气污染物进行特征提取和预测的研究还存在一些问题。比如，未能充分利用历史连续数据，从突发的局部改变信号中捕捉到对污染物短期变化方向及程度的影响，也无法从特定的扩散模式中提取出对污染物全局走势的影响；另外，现有的时序数据深度学习预测模型多使用单一循环神经网络建模，一定程度上捕获了时间依赖信息，但未能融入不同变化机理对未来趋势的指导信息，在时序数据预测中，突变点预测不准确和多步预测误差迭代问题一直是尚未被有效解决的难点。基于数值分析的建模过程通常难以融入数据本身的物理机理，以及模型滞后性导致的局部、全局信息捕获困难等方面仍然有待提高。以大气污染时序数据为例，污染物传输、扩散是极其复杂的非线性过程。其稀释和分散变化中，除各污染因子之间会发生理化反应外，气象、地形以及下垫面情况也是重要影响因素。不同条件下的大气扩散过程会呈现出不同的变化模式，给准确预测大气质量带来非常大的困难。

发明内容

本发明克服了上述技术问题的缺点，提供了一种基于K线模式匹配算法的大气污染深度学习预测方法。将数据K线化、模式匹配、局部和全局相关性建模、时间相关性建模、模型预测及评估相结合，综合考虑污染物浓度数据、气象数据和地形地势数据，相对于传统预测方法能够避免突变点预测不准确和多步预测误差迭代的问题，增加大气污染预测的准确性。

为解决上述技术问题，本发明采用的技术方案为：

一种基于K线模式匹配算法的大气污染深度学习预测方法，该方法包括如下步骤：

步骤1、根据被预测地区的实际情况，将选择的实验数据进行划分，包括污染物浓度数据、气象数据和地形地势数据，并对污染物浓度数据进行预处理；

步骤2、将预处理后的污染物浓度数据按时间序列进行排序得到历史污染物浓度序列，将历史污染物浓度序列作为输入参数，输入烛台图的图库产生器中，生成组合连续的PM2.5浓度变化烛台图；

步骤3、根据每组烛台图中展现出的组合形态特征，提取若干个不同意义的特征向量，并将所述特征向量与污染物传输扩散机理相对应，构建污染物浓度序列局部组合K线，捕捉K线反转信号，提取相关特征向量，将此特征向量应用于模式相似度函数进行模式匹配，构建基于组合烛台图的模式匹配模型CPM；

步骤4、构建多步PM2.5浓度预测组合测模型，所述多步PM2.5浓度预测组合测模型包括VGG16网络模型和GRU网络模型，利用训练数据对多步PM2.5浓度预测组合测模型进行训练及优化；

步骤5、将匹配后的含有全局趋势信息的烛台图进行特征增强处理，并代入到VGG16网络模型中进行全局趋势信号特征的提取，通过全局池化技术降维后提取关键特征；将匹配后的模式特征结合历史PM2.5浓度、相关污染物浓度以及气象参数代入到GRU网络模型中，进行不同时间步的PM2.5浓度预测。

进一步的，所述步骤3中，提取5个特征向量表征烛台图，包括形状类别Type、实体长短BodyLen、上影线长度HighLen、下影线长度LowLen、浓度变化DensityChange；以“天”为时间粒度的浓度烛台图特征向量表示为：CCV_i＝<Type_i,BodyLen_i,HighLen_i,LowLen_i,DensityChange_i>。

进一步的，所述步骤3中，模式匹配的具体方法为：

将污染物传输扩散模式P用一系列浓度烛台特征向量表示：P＝<CCV₁,CCV₂,…,CCV_K>，k代表周期循环的长度。其中CCV_i表示一个污染物浓度烛台特征向量<Type_i,BodyLen_i,HighLen_i,LowLen_i,DensityChange_i>，为了简便计算，将CCV_i简化表示为<f_i1,f_i2,…,f_i5>，i＝1,…,5。结合距离最近的烛台图在预测下一个浓度水平时最具价值信息的特点，通过从后向前的顺序比较两个相似模式，浓度模式P₁＝<CCV₁,CCV₂,…,CCV_K>和模式P₂＝<CCV₁′,CCV₂′,…,CCV_k′>以匹配率ρ作为参数进行部分匹配，则对应位置将有最多ρ*k个元素匹配成功；而每两个浓度烛台特征向量CCV_i和CCV_i'的匹配度可以通过两者之间的特征距离进行衡量，当距离低于某一个设定阈值时，则视为匹配成功，距离公式如(1)所示：

式中，w₁,…,w₅是和为1的权重因子，使用权重分析法(AHP)确定权重值，w₁通常被分配最大权重，因为最近烛台图通常包含最有用信，D(f_i1,f'_i1)表示对应位置特征值之间的距离，通过历史数据包含的模式特征进行匹配，从而找到与之精确匹配的形状，对于表征类别特征值距离计算公式为：

对于另外四个烛台图特征向量，通过归一化处理将其特征值映射到[0,1]中，然后对其差值作为距离，此特征值距离计算公式如(3)所示：

D(f_ij,f'_ij)＝|f_ij－f'_ij|,j＝2,...,5 (3)

进一步的，所述步骤4中，利用训练数据对浓度预测模型进行训练及优化的具体方法为：

首先，融合历史PM2.5浓度数据、相关污染物浓度、相关气象因子、全局模式特征形成多源数据集；

其次，为推进算法学习的速度，确保迭代过程的鲁棒性，借助MBGD算法将训练集样本划分成小批次；

然后，以epoch的完成情况作为判定条件决定下一步的选择分路；若该次epoch未完成则调整Dropout的保留参数ρ，通过实验调整其值为0.5，并选用L2算法约束损失函数，使用Adam优化器优化逼近函数；若该次epoch已完成，则以早停机制的满足情况作为判定条件决定下一步的选择分路；若该次早停标准已满足，则输出最佳参数；若未满足该次早停标准，则以epoch最大迭代值的到达情况作为判定条件决定下一步的选择分路，若已达到该次epoch设置的最大值，则暂停继续迭代，输出最佳参数；若未达到该次epoch设置的最大值，则跳转到MBGD算法计算的下一个批次，如此往复。

与现有技术相比，本发明具有以下有益效果：

本发明的一种基于K线模式匹配算法的大气污染深度学习预测方法，预测结果精确。针对一般深度学习预测方法在突变点预测不准确以及多步预测误差迭代的问题，本发明采用局部、全局趋势信息的时序数据组合预测方法，并根据大气污染类时序数据特点融入理化扩散机理；通过K线模式匹配技术与局部K线组合从历史数据中搜寻相同变化模式，使用改进的VGG16网络提取局部改变信号、全局趋势相关性信息，并使用构建的GRU网络捕获连续长时间相关性，提升了模型对时间依赖特征的提取能力。本发明具有优秀的预测性能和较强的可移植性，可以应用于不同地区的各类空气污染物浓度预测任务，从而有效防范高浓度空气污染物对人类的危害。

本发明提出了一种浓度K线化和技术指标分析数据的方法。从传统深度学习算法对突变信号不敏感的角度出发，首先，调研区域污染物传输扩散水平、分析影响污染物波动的潜在性因素；其次，采用K线发生器对样本数据构建基础周期烛台图；最后，使用K线分析法研究区域中污染物扩散的模式，并与烛台图基本形态相对应，捕捉反转信号。组合烛台图对局部变化信号敏感，能够及时捕获改变方向及幅度等信息，可在一定程度上指导突变点准确预测。

本发明设计了一种相似度量函数搜寻相似历史变化模式的方法，并完成了首次将K线分析应用于模式匹配技术中。从模型迭代训练导致的多步预测误差累积的问题出发，首先，根据烛台图形态特征提取出5个具有不同意义的特征向量。其次，以距离匹配公式作为相似性度量规则，从全局历史数据中搜寻具有相同PM2.5浓度变化的模式。实验结果显示：模式匹配方法引入历史相似变化过程的后验信息，可以有效缓解多步预测误差迭代累积。

本发明构建了提取局部、全局变化信息的改进VGG16网络模型，也是首次将模式匹配技术与深度学习算法相结合应用于大气污染特征提取。首先，针对匹配后的相似模式像素点少以至于特征不明显的问题，进行图像数据特征增强的处理；其次，将增强后图像作为特征提取模型的输入，设计一种基于VGG16模型的特征提取改进方法；最后，面对传统VGG16网络模型参数量大导致训练收敛速度过慢的情况，使用全局池化块代替三层全连接的方法对模型进行剪枝、对特征图做降维处理。改进VGG16网络模型在特征提取过程聚焦主要特征，参数量减少了71％，极大的加快了模型训练和收敛的速度。

本发明构建了捕获连续长时间多因素依赖特征的GRU网络模型。针对单因素信息表征不全面的问题，融合全局K线图模式特征、相关污染物数据以及气象因子后，代入到GRU网络模型中，学习大气质量时间序列的长期依赖特征。通过批次训练分别对模型参数、神经元层数和节点个数、滑动窗口等进行优化改进。该GRU网络模型在多源数据融合的过程充分考虑了污染物扩散的影响因素，融入理化扩散机理，对不同时间步大气污染时序数据预测时充分捕获了连续长时间依赖特征。

附图说明

图1是本发明一种基于K线模式匹配算法的大气污染深度学习预测方法的流程图；

图2是本发明实施例中PM2.5片段序列与K线对应图；

图3为烛台图的12种基本形态图；

图4为本发明模式匹配模型CPM的结构示意图；

图5为在污染平稳变化状况下的PM2.5拟合结果图；

图6为新污染急剧突发时的PM2.5拟合结果图；

图7不同模型预测结果比较图

图8为各个模型详细预测结果比较图；

图9为多源时序相关性模型的训练流程图；

具体实施方式

下面结合附图与实施例对本发明作进一步说明。需要说明的是，本发明的具体实施例只是为了能更清楚的描述技术方案，而不能作为本发明保护范围的一种限制。

请参阅图1-图9，一种基于K线模式匹配算法的大气污染深度学习预测方法，该方法包括如下步骤：

步骤1、根据被预测地区的实际情况，将选择的实验数据进行划分，包括污染物浓度数据、气象数据和地形地势数据，并对污染物浓度数据进行预处理；其中，表征大气状态的气象因子主要有：温度、湿度、风速、垂直速度梯度、风向、气压、太阳张角、地面或太阳辐射和能见度等；地形因素中，主要是通过地表的下垫面呈现的特征差异对污染物传输扩散进行影响。

步骤2、将预处理后的污染物浓度数据按时间序列进行排序得到历史污染物浓度序列，将历史污染物浓度序列作为输入参数，输入烛台图的图库产生器中，生成组合连续的PM2.5浓度变化烛台图；首先使用最高值、最低值绘制浓度波动区间线；然后，使用起始值、终止值绘制实体矩形图，并用红色填充上升实体，绿色填充下降实体。发明实施例中通过图库产生器对桂林市大气监测站2000-2020年间的PM2.5浓度值进行绘制，以此作为数据对象研究PM2.5传输扩散机制。截取连续时间内PM2.5浓度水平变化折线图对应的烛台图情况如图2所示。显然，折线图可以模拟污染物扩散的整体概况，烛台图有利于捕捉当天中污染物改变的局部特征；

充分了解大气污染的传输扩散机理是使用K线图进行技术面分析的前提。大气监测站中记录的数据以时间单元作为单位进行分类，包括分钟、小时、日、周、月、年等。若将此类数据用K线来表示，可以直观的看到日K线、周K线、月K、年K线等，不仅能够清晰的观察到各个周期低谷，峰值，以及均值数据，还可以准确模拟大气污染物浓度的扩散变化过程，充分融入了大气污染物的扩散机理。如图3所示的1、3、5、7烛台图表征当天污染物浓度呈上升趋势，2、4、6、8烛台图表征当天污染物浓度呈下降趋势，9-12烛台图表征当天污染物浓度整体趋势维持不变。反转信号是准确实现烛台图模式匹配的重要信息，使用污染物浓度K线图分析时序数据最大的好处就是方便及时捕捉带有趋势反转的信号。根据以往的K线图分析方法，最直观的表征趋势反转的经验是：当数据在较长一段时间上升或下降，此时出现反转信号，那么数据在未来一段时间，将持续下降或上升。依据所研究数据PM2.5此类细颗粒物的周期特性，选取小时浓度作为研究单位进行分析。

每一个烛台图都可通过5个特征来表征，以描述每一天中污染物浓度的整体波动信息。这些具有不同意义的特征信息构成浓度烛台图特征向量CCV。所述步骤3中，提取5个特征向量表征烛台图，包括形状类别Type、实体长短BodyLen、上影线长度HighLen、下影线长度LowLen、浓度变化DensityChange；以“天”为时间粒度的浓度烛台图特征向量表示为：CCV_i＝<Type_i,BodyLen_i,HighLen_i,LowLen_i,DensityChange_i>。下面将对这5个特征依次进行详细介绍。

(1)形状类别Type：通过增减压烛台图、是否有实体、是否有上影线、是否有下影线等属性，可将烛台图分成如图3所示的12种基本类别。

(2)实体长短BodyLen：烛台图中真实矩形的长短代表PM2.5浓度增加/减少的强度，具有较大实体的烛台图显示出猛烈的增加/减少趋势。其中，实体长短的计算公式如下：

BodyLen_i＝|C_i,close-C_i,open|

(3)上影线长度HighLen：HighLen表示上影线的长度，此信息在确定污染物扩散转折点时至关重要。通常，具有较长上阴影的烛台图表征污染物浓度降低信号强烈，浓度在下一个时间点更可能发生下降。其中，上影线长度计算公式如下：

HighLen_i＝C_i,high-max(C_i,open,C_i,close)

(4)下影线长度LowLen：LowLen表示下影线的长度，此信息在确定污染物扩散转折点时同样至关重要。通常，具有较长下阴影的烛台图表征污染物浓度增加强度占主导地位，浓度在下一个时间点更可能发生回升。其中，上影线长度计算公式如下：

LowLen_i＝min(C_i,open,C_i,close)-C_i,low

(5)浓度变化DensityChange：两个相邻烛台图之间的相对位置包含着较多浓度变化趋势信息，此信息非常有利于找到浓度改变模式。平均浓度变化信息总结了一天中污染物变化的总体水平，可以类比为浓度烛台图的中心点。因此选取当日和前一日的平均浓度为中心研究此项特征，其计算公式如下：

DensityChange_i＝C_i,avg-C_i-1,avg

进一步的，所述步骤3中，模式匹配的具体方法为：

D(f_ij,f'_ij)＝|f_ij－f'_ij|,j＝2,...,5 (3)

为了通过局部数据搜寻历史相似全局模式特征，构建基于组合烛台图的模式匹配模型CPM。如图4所示。首先，将历史PM2.5浓度序列代入到K线发生器，生成浓度K线图；其次，提取出5种具有不同意义的特征构成浓度烛台图特征向量(形状类别Type、实体长短BodyLen、上影线长度HighLen、下影线长度LowLen、浓度变化DensityChange)；然后，根据研究区域污染物扩散情况，结合K线技术面理论的以往经验，捕获并归纳反转信号；随后，通过从当前时刻向前回溯，找到最近的浓度山峰或山谷，将一系列连续的烛台图表定义为当前浓度改变模式；最后，通过距离匹配公式，鉴于最近烛台图将包含更有意义的信息，从后向前进行模式匹配。并通过反转信号建立索引，以此来加快匹配进程。

在步骤4中，构建VGG16网络模型时，局部感受野和参数计算量是CNN网络提取特征的两个重要因素，局部感受野不光影响提取图片特征的大小和丰富度，还影响权重的更新；参数计算量更是较大的影响着模型的计算复杂程度、过拟合情况、训练以及收敛速度。经过HE处理后的数据为3通道224×224大小图片，该尺寸图片经过原VGG16网络各层输出特征图情况如表1所示。易知，在原VGG16网络中，第五个卷积模块输出特征图维度可达25088(7×7×512)，随后的三个全连接层为实现降维要增加102765544(25088×4096+4096+1000)的参数量，占整个网络总共参数量的72％以上，这将极大的降低模型提取特征的速度，还会出现过拟合现象。

为解决该问题，改进VGG16网络模型时剔除三个全连接层，并使用全局池化块对模型进行剪枝和降维处理。全局池化技术的本质思想是只通过一个处理值来保留每个特征通道的重要信息，来强化通道特征和类别之间的联系，从而使输入形状更加灵活，进而达到抑制参数过于复杂和模型过于拟合的目的。全局池化技术主要分为全局平均池化(GlobalAverage Pooling,GAP)和全局最大池化(Global Max Pooling,GMP)两种，本发明采用GAP作为处理方法，将第五个卷积块得到的7×7×512维度特征图作为GAP的输入，将GAP中卷积核尺寸(ker_size)设置为7×7，步长(stride)设为1，以此全局平均池化对此特征图进行特征降维和模型剪枝处理。经过GAP后，输出特征图尺寸为1×1×512，参数量减少了71％。既保留了主要特征信息，又较大的提高了模型计算和收敛速度。

表1原VGG16网络各层特征图维度表

本发明对浓度预测模型进行训练及优化实验从PM2.5浓度预测任务出发，通过模型本身不断学习，然后进行一些参数的优化，来完成最终参数的设定。参考Tanaka等人对不同时间粒度预测对结果影响的分析，并通过多次实验决定，将滑动窗口设置为9、18，即采取历史9天实验数据预测未来1-21天污染物浓度值以及历史18天实验数据预测未来1-36天污染物浓度。为更好的优化模型参数，本研究借助小批量梯度下降(Mini-Batch GradientDescent,MBGD)、提前停止法(Early Stopping Method,ESM)、丢弃法(Dropout)等算法对模型进行性能调优。相关训练参数如表2所示。

表2多源时序相关性模型的参数设置表

请参阅图9，在所述步骤4中，利用训练数据对浓度预测模型进行训练及优化的具体方法为：

然后，以epoch的完成情况作为判定条件决定下一步的选择分路；若该次epoch未完成则调整Dropout的保留参数ρ，通过实验调整其值为0.5，并选用L2算法约束损失函数，使用Adam优化器优化逼近函数；若该次epoch已完成，则以早停机制的满足情况作为判定条件决定下一步的选择分路；若该次早停标准已满足，则输出最佳参数；若未满足该次早停标准，则以epoch最大迭代值的到达情况作为判定条件决定下一步的选择分路，本发明将epoch的最大迭代值设置为20；若已达到该次epoch设置的最大值，则暂停继续迭代，输出最佳参数；若未达到该次epoch设置的最大值，则跳转到MBGD算法计算的下一个批次，如此往复。

本发明还对的多步PM2.5预测的组合时空模型进行验证。首先，针对实验目标构建本研究选取验证领域的数据工程，包括数据分析、数据集划分、数据集预处理等；然后，根据性能目标选取三组用于评估所设计模型性能的评价标准，包括训练阶段模型的泛化能力、验证阶段模型的预测准确性、测试阶段模型的预报能力；最后，根据功能目标设计多组对照实验，分别对不同状况下模型预测性能分析、不同指标下不同模型对比分析、不同预测步长下不同模型对比分析。

测试区域-桂林市以多发生在秋冬季的大气细颗粒物作为主要污染物，严重影响人们的日常生活。研究发现，受特殊的气象及地形因素影响，细颗粒物通常随山谷湍流传输、扩散。而相较于春夏季，秋冬季常表现干燥，逆温层的形成也使污染物极易堆积。另外，桂林以著名的山水闻名天下，与此同时带来的弊端是：东、北、西三面环山的地形，加之低速北风为主的天气，自然形成山谷环流。因此，充分捕捉到污染物传输过程中的这些物理机理，并融入到深度学习的模型中，可以及时捕获局部改变信号和全局趋势特征信息，极大的提高预测精度。

本发明试验使用的数据均来自于桂林市的环境空气质量监测站，该在线系统中总共包含61个站点的实时监控信息。在线系统将各个站点以最小5分钟为时间粒度纪录下包含污染物浓度以及气象参数数据，此次研究是通过Hadoop引擎管理该系统，提取出2000年至2020年间的大气数据作为研究对象。针对数据信息如表3中所述。

表3数据集总体信息表

	大气因子	污染物因子
			年份	2000/5/1-2020/4/30	2000/5/1-2020/4/30
站点数量	61	61
			特征维度	6	7
时间间隔	每天/时/分	每天/时/分
			实例总数	12557902	13235583

为了统一量纲，均采用同一年份、同一站点、同一时间间隔的数据，数据集总共包含气象因子以及污染物因子两大类数据，其中，气象因子含有数据12557902条，包括温度、湿度、降水、风速、风向、空气压力；污染物因子含有数据13235583条，包括PM2.5、PM₁₀、SO₂、O₃、NO₂、OC、O₃_8H。其基本情况在表4中列出。

表4数据集基本内容表

研究发现，研究区域内多见季节性细颗粒物尺度污染，污染物传输扩散规律性受相关因素正向或负向影响。如，大气压力、PM₁₀、NO₂、CO、SO₂正向影响PM2.5浓度变化；温度、湿度、风向、风速、降雨、O₃等负向影响PM2.5浓度。鉴于季节性的规律是污染物研究中常被考虑的重要因素，因此，结合桂林市区域特征，在选取数据集时间范围时，划分每年5月初起始，转年4月底结束的数据作为一个周期的数据集，本研究以2000年5月1日至2016年4月30日的数据作为模型的训练集和验证集，以2016年5月1日至2020年4月30日的数据作为模型的测试集。

观察所获PM2.5数据，将异常种类划分为以下三种情况：突发的异常偏离值、部分时间缺失值、整体时间缺失值等。在使用数据进行实验前，为尽量消除异常导致的结果偏差，本文采取业务法、3σ原则、箱线图法等多种方法组合对异常数据进行识别，并使用以下方法对异常数据进行了处理：

(1)对于突发的异常偏离值：处理此类数据的关键在于检测和判断，通过人为统计后设定数据的分级阈值波动范围，当偏离此范围，则被检测为异常。一般对此类数据的处理是直接删除后并使用插值的方法进行填充。

(2)对于部分时间缺失值：当出现局部数据量缺失时，通常采用平滑插值填充法进行填充，具体实现方式有拉格朗日插值法、线性插值法等。本研究采用拉格朗日插值法进行缺失值填充，通过找到唯一满足条件且次数不超过n的多项式进行插值。

(3)对于整体时间缺失值：对于此类大面积的数据丢失情况，比如数据量丢失情况超过单位的20％，考虑到前后文信息丢失不利于插值的实施，为尽可能避免数据偏离对模型预测结果的影响，采取直接丢弃的原则对此类数据进行处理。

在对异常值数据处理完成后，为消除变量间的量纲关系，还需对所有数据进行标准化处理。

本项研究使用三组用于评估所提出预测模型性能的评价标准，第一组是训练阶段用来评估模型泛化能力的训练损失(Training loss)、验证损失(Validate loss)、测试损失(Test loss)，第二组是验证阶段用来评估模型预测的准确性及误差的均方根误差(RootMean Square Error，RMSE)、平均绝对误差(Mean Absolute Error，MAE)、皮尔逊相关系数(Pearson Correlation Coefficient)。其具体计算过程如下所示：

式中，表示t时刻PM2.5的预测浓度值，y_t表示t时刻PM2.5的真实浓度值，样本总数据量为n。RMSE是通过预测浓度值和真实浓度值偏离数值的平方均值再开平方根来表示，并以此来表征模型对PM2.5预测能力的离散程度。MAE是通过计算预测浓度值和真实浓度值偏离数值的绝对值均值来实现，并以此来表征模型对PM2.5预测能力的实际误差情况。ρ是通过衡量预测浓度值和真实浓度值的相关性来表征预测模型的有效性。

第三组是测试阶段用来评估模型预报能力的临界成功指数(Critical SuccessIndex，CSI)、命中率(Probability OfDetection，POD)、误报率(FalseAlarm Ratio，FAR)。

通过国家规定PM2.5为优的标准为24小时平均浓度小于75μg/m³。式中，A表征预测值为真且真实值为真的情况，即预测值大于其阈值75μg/m³，真实值也大于其阈值75μg/m³；B表征预测值为假且真实值为真的情况，即预测值小于其阈值75μg/m³，真实值大于其阈值75μg/m³；C表征预测值为假且真实值为假的情况，即预测值大于其阈值75μg/m³，真实值小于其阈值75μg/m³

为了评估CPM-VGG-GRU模型在污染物产生后的拟合能力，本研究选取不同时间段分别展示所提出模型在污染稳定变化中及新污染急剧突发后扩散能力的预测情况。如图，图5所示为2016年2月至2016年8月，PM2.5呈平稳扩散时的预测结果；图6所示为2017年1月至2017年7月，PM2.5呈急剧突发后的预测结果。CPM-VGG-GRU在两段变化情况下均预测效果极佳，这表明，模型在新污染发生时，有效捕获了该极值信号的改变强度和方向信息，学习到了污染物的模式改变情况，为下一个水平预测提供了正确指引。在平稳大气环境下，正确模拟了稳定状态下区域的传输扩散水平，从而精准预测下一时刻污染物的维持水平。

不同指标下不同模型对比分析

单一深度学习时间序列预测方法通常着眼于数据集本身，忽略研究数据变化过程的理化机理，而模式匹配方法可保证以局部变化信号正确推演全局趋势信息，组合模型的方法加强了各个单一模型各自的优势和特征，从而避免单一深度学习模型在模拟非线性问题上的局限性。本研究选取各类经典模型与CPM-VGG-GRU模型进行对比分析，选取模型代表如表5所示。

表5对比模型及其特点描述表

根据4.2.2中数据集划分，基于模式匹配后融入当前3天变化和未来3天趋势的特征信息，融合相关污染物和气象因子对桂林市61个站点的时序数据做标准化处理，再代入到组合深度学习模型中对PM2.5浓度值进行预测。选取日污染变化、气象变化最明显的时间段，对所提出模型的总体性能进行评估，各模型在数据集上3天预测结果如表6所示。

表不同模型性能比较

由表可知，相较于ARIMA、MLP、LSTM、GRU、CPM-VGG-LSTM，所提出CPM-VGG-GRU模型的预测性能最好，不光在污染物稳定扩散时拟合较好，面对污染物急剧突变时模型也能给出准确预测。可见皮尔逊相关系数的分值，由低到高依次进行排序为：ARIMA(0.6201)、MLP(0.7429)、LSTM(0.8593)、GRU(0.8619)、CPM-VGG-LSTM(0.9221)、CPM-VGG-GRU(0.9768)，表明本文所提出方法皮尔逊相关系数线性相关性最强，预测最准确。相较于表现性能最差的线性模型ARIMA、简单神经网络MLP，本研究RMSE分别降低了47.52％、41.57％，他们只能单独访问当前节点，不能联系连续长时间上的节点信息，这说明了所提出方法在捕获连续较长时间依赖特征上的有效性；将CPM-VGG-LSTM与LSTM，CPM-VGG-GRU与GRU进行比较，CPM-VGG-LSTM、CPM-VGG-GRU命中率高达88.73％、89.03％，且MAE、RMSE均有较大下降，体现了模式匹配后特征提取在全局趋势信息指导模型预测中的有效性；将CPM-VGG-GRU与CPM-VGG-LSTM相比较，所提出模型在各项指标中表现效果均是最佳，且更容易收敛，这说明所提出模型在模型组合选择中的合理性。

为了横向对比模型表现性能，将各模型预测结果展示在图7中，易见，ARIMA模型在PM2.5浓度的预测上与真实值的偏离最大，在拟合此类复杂非线性问题上效果较差，但基于多层感知机制的MLP模型有了一定程度的改善，但面对非平稳变化序列误差仍然较大。LSTM、GRU等预测模型整体预测水平良好，但在某些极端条件时偏差较大，这表明单一时序型深度学习模型在突变值预测时具有滞后性。CPM-VGG-LSTM以及本研究所提出的方法皮尔逊残差最弱，CPM-VGG-GRU更为集中，表明本研究采用的方法在捕捉局部改变信号上的有效性。为了更加直观展示出预测值和真实值的实际分布情况，将每种模型的详细预测结果展示在以下图8中。

如图所示，真实值数据使用绿色虚线表征，其余各个模型的预测结果使用红色虚线表示。显然，ARIMA的真实值和预测值几乎不一致；MLP的预测性能有一定提升；而LSTM、GRU在污染源呈稳定趋势时，预测性能较好。当污染源发生急剧改变时，预测值通常不能及时跟上真实值的变化，这也说明改进前的循环神经网络在捕捉局部改变信号上的困难性；CPM-VGG-LSTM以及本文所提出算法在突变发生时也能拟合精准，这表明本研究基于K线图模式匹配的方法有效解决了模型的滞后性问题。

不同预测步长下不同模型对比分析

在大气污染物浓度预测研究中，短期预测通常不能满足人们的需求，在更长时间粒度上拟合PM2.5变化水平将更有现实意义。对于长时间预测通常采用多步预测的方法，多步预测的好处是可以通过使用n个滑动窗口来直接预测多步。但是，单一时序型深度学习模型虽然在短期预测时性能不错，长期预测时通常会由于误差累计表现出预测效果不佳的问题。因此，本研究设计K线模式匹配算法引入全局后验特征作为模型输入的一部分，避免长时间步预测时模型的滞后性问题。本小节重点展示并分析各个模型在预测不同时间步长的预测性能。各个方法在PM2.5浓度值预测上的RMSE、POD表现结果如4-5、4-6所示。

表4-5不同时间尺度下模型性能比较(RMSE)

表4-6不同时间尺度下模型性能比较(POD)

由上表可知，MLP、ARIM的预测精度均会随着时间步的增加而明显衰减，可见能够捕获全局后验特征在多步预测中的重要性。而本研究所提出的方法，在多个时间步上预测RMSE、POD上表现效果最佳，CPM-VGG-LSTM表现次之，可见GRU在长时间序列预测上更为稳定；该方法明显优于单GRU模型，说明模式匹配后特征的提取对模型起着正向引导的作用；虽然当预测难度增加时，CPM-VGG-GRU的预测误差有所上升、命中率也有相应的下降，但在15天时间步的预测上，本研究所提出的模型命中率比GRU提高了约20.75％，这表明从局部变化信息中匹配全局趋势能够更好的实现多步预测，从而减少误差叠加。在3天时间步的预测中，本研究所提出模型的命中率可高达89.03％，均方根误差也仅在11.01左右，这表明将K线图应用于模式匹配的方法可以准确把握浓度发生变化的信号，从而指引预测结果。

上述说明是针对本发明较佳可行实施例的详细说明，但实施例并非用以限定本发明的专利申请范围，凡本发明所提示的技术精神下所完成的同等变化或修饰变更，均应属于本发明所涵盖专利范围。

Claims

1.一种基于K线模式匹配算法的大气污染深度学习预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于K线模式匹配算法的大气污染深度学习预测方法，其特征在于，所述步骤3中，提取5个特征向量表征烛台图，包括形状类别Type、实体长短BodyLen、上影线长度HighLen、下影线长度LowLen、浓度变化DensityChange；以“天”为时间粒度的浓度烛台图特征向量表示为：CCV_i＝<Type_i,BodyLen_i,HighLen_i,LowLen_i,DensityChange_i>。

3.根据权利要求2所述的一种基于K线模式匹配算法的大气污染深度学习预测方法，其特征在于，所述步骤3中，模式匹配的具体方法为：

将污染物传输扩散模式P用一系列浓度烛台特征向量表示：P＝<CCV₁,CCV₂,…,CCV_K>，k代表周期循环的长度，其中CCV_i表示一个污染物浓度烛台特征向量<Type_i,BodyLen_i,HighLen_i,LowLen_i,DensityChange_i>，为了简便计算，将CCV_i简化表示为<f_i1,f_i2,…,f_i5>，i＝1,…,5。结合距离最近的烛台图在预测下一个浓度水平时最具价值信息的特点，通过从后向前的顺序比较两个相似模式，浓度模式P₁＝<CCV₁,CCV₂,…,CCV_K>和模式P₂＝<CCV₁′,CCV₂′,…,CCV_k′>以匹配率ρ作为参数进行部分匹配，则对应位置将有最多ρ*k个元素匹配成功；而每两个浓度烛台特征向量CCV_i和CCV_i'的匹配度可以通过两者之间的特征距离进行衡量，当距离低于某一个设定阈值时，则视为匹配成功，距离公式如(1)所示：

式中，w₁,…,w₅是和为1的权重因子，使用权重分析法(AHP)确定权重值，w₁通常被分配最大权重，因为最近烛台图通常包含最有用信，D(f_i1,f_i'₁)表示对应位置特征值之间的距离，通过历史数据包含的模式特征进行匹配，从而找到与之精确匹配的形状，对于表征类别特征值距离计算公式为：

D(f_ij,f′_ij)＝|f_ij－f′_ij|,j＝2,...,5 (3)

4.根据权利要求1所述的一种基于K线模式匹配算法的大气污染深度学习预测方法，其特征在于，所述步骤4中，利用训练数据对浓度预测模型进行训练及优化的具体方法为：