CN107292417B

CN107292417B - 基于重污染序列案例库的区域重污染判别预报方法及装置

Info

Publication number: CN107292417B
Application number: CN201710321134.7A
Authority: CN
Inventors: 程念亮; 孙峰; 郇宁; 张大伟; 李云婷; 毛书帅
Original assignee: Beijing Municipal Environmental Monitoring Center
Current assignee: Beijing Municipal Environmental Monitoring Center
Priority date: 2017-05-09
Filing date: 2017-05-09
Publication date: 2020-03-17
Anticipated expiration: 2037-05-09
Also published as: CN107292417A

Abstract

本发明公开了一种基于重污染序列案例库的区域重污染判别预报方法及装置，属于大气重污染预报技术领域。所述基于重污染序列案例库的区域重污染判别预报方法包括：根据收集的目标区域各监测站点监测到的污染指标数据和气象要素数据，建立目标区域的历史重污染序列案例库，所述案例库中的序列由气象要素数据组成；根据预报的目标区域未来某时段内的气象要素数据，获取未来该时段的序列；将获取的未来该时段的序列与所述历史重污染序列案例库中的序列进行相似度对比，判别目标区域未来该时段的重污染情况。本发明能够提高预报目标区域未来选定时段是否有重污染且准确率高。

Description

基于重污染序列案例库的区域重污染判别预报方法及装置

技术领域

本发明涉及大气重污染预报技术领域，具体涉及一种基于重污染序列案例库的区域重污染判别预报方法及装置。

背景技术

近年来随着社会经济的快速发展和工业化、城市化进程的加速，复合型大气污染问题日益突出，严重威胁人民群众的身体健康和生态安全，已成为社会各界高度关注和亟待解决的重大环境问题。我国城市空气污染严重，全国约五分之一的城市空气污染严重。2014年在第一批实施新标准的74个城市中，空气质量达标的城市数量仅为8个。城市空气污染开始由煤烟型向煤烟型和机动车尾气型污染相复合转变。此外，灰霾等区域性大气污染频发，在夏秋季节频繁发生光化学烟雾污染，大气臭氧浓度以全球最快速度增长，远远超过国家环境空气质量标准，超过欧盟警报值的事件也时有发生。

在空气质量预报方面，自2013年新空气质量标准(AQI)实施以来，全国环保形势发生了日新月异的变化，公众对于空气质量信息的诉求日益提升，我国环保监测系统、气象局、部分科研院所均陆续开展了空气质量预报研究。在已经开展空气质量业务预报的业务中，采用的技术架构普遍有数值预报、统计预报和专家预报三种方法，数值预报则主要以WRF或MM5驱动的美国CMAQ、CAMx、WRF-chem以及中科院大气所的NAQPMS等模式为主，很多地方集成了不止一个数值模式。空气质量波动较小的地区，模式预报的可采纳程度较高；空气质量短期大幅变化的地区，如华北平原，对污染过程的趋势性和程度预测是预报难点之一。而各机构数值模型采用的物理化学机制各异，在华北区域不同重污染过程预报中互有所长，但预报结果波动较大，难以实现优势互补。统计预报方法采用时间序列分析(如ARMA、ARIMA、SVM、ANN等模型)训练出历史上污染与天气条件的演化规律，预报未来空气质量，其应用广泛，准确率和计算效率较高，但对历史资料的依赖性较大，并且无法整体考虑区域性的重污染过程，缺乏一定的物理意义。专家预报主要是预报专家综合污染和气象的条件，进行人工识别，但是这种方法过分依赖专家的个人判断，大部分情况下专家仅仅能够提供粗略的干黏性的判断依据，并不是非常准确。

为进一步对区域典型重污染过程时期的各类大气污染物浓度、天气形势类型、气象要素等因子进行综合分析研判，全面评估区域重污染过程的影响范围、持续时间、输送扩散以及可能原因，急需建立区域典型重污染的案例库，建立重污染与上述各因子之间的相关关系与概念模型，对未来可能发生的区域性重污染过程进行研判，以支持大气重污染应急管理决策。

发明内容

本发明要解决的技术问题是提供一种基于重污染序列案例库的区域重污染判别预报方法及装置，其能够提高预报目标区域未来选定时段是否有重污染且准确率高。

为解决上述技术问题，本发明提供技术方案如下：

一种基于重污染序列案例库的区域重污染判别预报方法，包括：

步骤1：根据收集的目标区域各监测站点监测到的污染指标数据和气象要素数据，建立目标区域的历史重污染序列案例库，该案例库中的序列由气象要素数据组成；

步骤2：根据预报的目标区域未来某时段内的气象要素数据，获取未来该时段的序列；

步骤3：将获取的未来该时段的序列与所述历史重污染序列案例库中的序列进行相似度对比，判别目标区域未来该时段的重污染情况。

进一步的，所述步骤1包括：

步骤11：收集目标区域各监测站点监测到的污染指标数据和气象要素数据；

步骤12：根据所述污染指标数据，选取污染条件下的气象要素数据；

步骤13：对选取的气象要素数据进行归一化处理，建立目标区域所有的历史污染序列；

步骤14：计算任意两个历史污染序列之间的相似度并得出所有历史污染序列中两两历史污染序列之间的相似度组成的相似度矩阵；

步骤15：根据所述相似度矩阵计算得出任一历史污染序列相对于其他所有历史污染序列的相似性值；

步骤16：选取前k个最大的相似性值所对应的历史污染序列为聚类序列，作为表征重污染程度的核序列，并且把这k个相似性值中最小的相似性值设为阈值τ，从而完成建立所述历史重污染序列案例库。

进一步的，所述步骤14包括：

步骤141：首先取两个历史污染序列，设为P＝(p₁，p₂，…，p_n)和Q＝(q₁，q₂，…，q_m)，长度分别为n和m，利用动态规划与递归的方式计算得到序列P与序列Q之间的距离dist(n，m)；

步骤142：计算序列P与序列Q之间的相似度s：

其中，α为归一化系数，|P|和|Q|分别为序列P和Q的长度；

由此得到所有历史污染序列中两两历史污染序列之间的相似度组成的相似度矩阵A，

其中，s_ij为历史污染序列i与历史污染序列j之间的相似度，h为历史污染序列的数量，1≤i≤h，1≤j≤h。

进一步的，所述步骤3进一步为：计算未来该时段的序列与所述历史重污染序列案例库中的每个序列之间的相似度并判断该相似度与所述阈值τ之间的大小关系，若其中只要有一个相似度大于所述阈值τ，则判别未来该时段会有重污染，否则判别没有。

进一步的，所述步骤1中，污染指标包括PM2.5和PM10，气象要素包括温度、湿度、风速、气压、边界层高度和逆温。

进一步的，所述步骤13包括：

采用归一化处理建立目标区域所有的历史污染序列时，首先所有历史污染序列中的气象要素的顺序保持一致，之后各个监测站点的顺序按空间上从北往南，从西向东的经纬度坐标排序，最后按时间顺序排序。

进一步的，所述步骤3之后还包括：

步骤4：一段时间后，当所述历史重污染序列案例库新增的重污染序列的数目大于所述历史重污染序列案例库中的序列的五分之一时，则按照所述步骤1的方法更新历史重污染序列案例库。

进一步的，所述步骤3中，将获取的未来该时段的序列与所述历史重污染序列案例库中的序列进行相似度对比时，对各气象要素均赋予权重系数；

所述步骤2之后步骤3之前还包括：

步骤21：获取用户对各气象要素的关注程度；

步骤22：采用sigmoid函数变形根据用户对各气象要素的关注程度调整各气象要素的权重系数。

进一步的，所述步骤21进一步为：获取用户对未来某时段与历史重污染过程相匹配的各气象要素及其次数的选择、用户对相匹配的各气象要素的对比及对比次数的选择。

一种基于重污染序列案例库的区域重污染判别预报装置，包括：

历史重污染序列案例库建立模块：用于根据收集的目标区域各监测站点监测到的污染指标数据和气象要素数据，建立目标区域的历史重污染序列案例库，所述案例库中的序列由气象要素数据组成；

获取模块：用于根据预报的目标区域未来某时段内的气象要素数据获取未来该时段的序列；

判别模块：用于将获取的未来该时段的序列与所述历史重污染序列案例库中的序列进行相似度对比，判别目标区域未来该时段的重污染情况。

本发明具有以下有益效果：

与现有技术相比，本发明的基于重污染序列案例库的区域重污染判别预报方法及装置根据收集的目标区域各监测点监测到的污染指标数据和气象要素数据建立该区域的历史重污染序列案例库，然后根据预报的该区域未来某时段内的气象要素获取未来该时段的序列并将其与历史重污染序列案例库中的序列进行相似度的比较，由此判别该区域未来该时段是否具有重污染情况。由于区域重污染过程的空间尺度相对较大，局地扰动气象预测的不准确性影响较小，并且随着观测手段的不断进步以及数据共享的程度进一步深入，本发明充分利用好已有的监测站点检测的污染指标数据和气象要素数据建立目标区域的历史重污染序列案例库，可形成判别准确率较高的新型的基于历史重污染案例的重污染预判技术，与数值预报、统计预报和专家预报技术相比，本发明是对现行重污染预报技术体系的一个很有利的补充。

本发明基于多来源数据的目标区域的历史重污染过程建立重污染序列案例库，集成各类与重污染过程相关的气象数据和污染数据，可以准确的预报未来某时段是否有重污染，从而可以方便决策部门提前指定应对措施。通过辅助识别区域重污染的发生概率，快速分析重污染发生原因及各类预案效果评估，支撑重污染期间的快速决策，可以为北京及近周边地区各地大气污染的预报预警工作提供有利的技术支撑，为公众和社会提供重要的环境质量预报信息服务。

附图说明

图1为本发明的基于重污染序列案例库的区域重污染判别预报方法的流程示意图；

图2为本发明的基于重污染序列案例库的区域重污染判别预报装置的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

一方面，本发明提供一种基于重污染序列案例库的区域重污染判别预报方法，如图1所示，包括：

步骤S1：根据收集的目标区域各监测站点监测到的污染指标数据和气象要素数据，建立目标区域的历史重污染序列案例库，该案例库中的序列由气象要素数据组成；

本步骤中，设目标区域的监测站点有J个，气象要素有M个，对于一个重污染过程，总共持续了T个小时，通过把这T个小时内J个监测站点监测的M个气象要素的数据拼接起来，即可形成该历史重污染过程的序列。设目标区域历史上总共有h个重污染序列，在h个重污染序列中找出最具有代表特征的k个重污染序列形成目标区域的历史重污染序列案例库。

步骤S2：根据预报的目标区域未来某时段内的气象要素数据，获取未来该时段的序列；

本步骤中，目标区域未来某时段内的气象要素数据根据现有的预报技术即可得到，此处不再赘述；根据预报的气象要素数据获取未来某时段的序列与步骤1中获取历史重污然序列的原理相同。

步骤S3：将获取的未来该时段的序列与历史重污染序列案例库中的序列进行相似度对比，判别目标区域未来该时段的重污染情况。

本步骤中，可以预先设定一个阈值，当未来该时段的序列与历史重污染序列案例库中的序列之间的相似度值大于该阈值时，则判定目标区域未来该时段具有重污染，否则判别没有重污染。

本发明的基于重污染序列案例库的区域重污染判别预报方法根据收集的目标区域各监测点监测到的污染指标数据和气象要素数据建立该区域的历史重污染序列案例库，然后根据预报的该区域未来某时段内的气象要素获取未来该时段的序列并将其与历史重污染序列案例库中的序列进行相似度的比较，由此判别该区域未来该时段是否具有重污染情况。由于区域重污染过程的空间尺度相对较大，局地扰动气象预测的不准确性影响较小，并且随着观测手段的不断进步以及数据共享的程度进一步深入，本发明充分利用好已有的监测站点检测的污染指标数据和气象要素数据建立目标区域的历史重污染序列案例库，可形成判别准确率较高的新型的基于历史重污染案例的重污染预判技术，提供的预报结果也将拓展到除地面观测以外的其他要素方面，与数值预报、统计预报和专家预报技术相比，本发明是对现行重污染预报技术体系的一个很有利的补充。

作为本发明的一种改进，步骤S1优选包括：

步骤S11：收集目标区域各监测站点监测到的污染指标数据和气象要素数据；

步骤S12：根据污染指标数据，选取污染条件下的气象要素数据；

步骤S13：对选取的气象要素数据进行归一化处理，建立目标区域所有的历史污染序列；

本步骤中，对于选取的每个气象要素数据都可以归一化到0～1的值，即用公式y＝(x-MinValue)/(MaxValue-MinValue)进行归一化处理；

其中，y为对选取的气象要素归一化处理后的值，x为选取的气象要素数据的原始值，MinValue为各个监测站点监测到的同一个选取的气象要素数据中的最小值，MaxValue为各个监测站点监测到同一个选取的气象要素数据中的最大值。

步骤S14：计算任意两个历史污染序列之间的相似度并得出所有历史污染序列中两两历史污染序列之间的相似度组成的相似度矩阵；

本步骤中，设相似度矩阵A为：

其中，s_ij为历史污染序列i与历史污染序列j之间的相似度，h为历史污染序列的总个数。

步骤S15：根据相似度矩阵计算得出任一历史污染序列相对于其他所有历史污染序列的相似性值；

本步骤中，历史污染序列i相对于其他所有历史污染序列的相似性值为γ：

其中，i≠j。

步骤S16：选取前k个最大的相似性值所对应的历史污染序列为聚类序列，作为表征重污染程度的核序列，并且把这k个相似性值中最小的相似性值设为阈值τ，从而完成建立历史重污染序列案例库。

优选的，步骤S14可以包括：

步骤S141：首先取两个历史污染序列，设为P＝(p₁，p₂，…，p_n)和Q＝(q₁，q₂，…，q_m)，长度分别为n和m，利用动态规划与递归的方式计算得到序列P与序列Q之间的距离dist(n，m)；

本步骤中，首先构建序列P内任一点p_i与序列Q内任一点q_j之间的距离矩阵D：

其中，d(p_i，q_j)为序列P中的点p_i与序列Q中的点q_j之间的距离，1≤i≤n，1≤j≤m，d(p_i，q_j)＝|p_i-q_j|。

然后设相似度序列W＝(w₁，w₂，…，w_r)，其中w_r＝d(p_i，q_j)，对于任意两个相邻元素w_r＝d(p_i，q_j)和w_r’‘＝d(p_i’，q_j’)，满足条件i≤i’≤i+1，j≤j’≤j+1且(i+j)<(i’+j’)。

W的长度即序列P和序列Q之间的距离dist(n，m)计算公式为：

dist(n，m)＝∑_1≤r≤Rw_r

而W的长度可以采用动态规划与递归的方式进行求解，其中递归公式如下：

其中，dist(i，j)表示从D_1，1到D_i，j的定义长度。

步骤S142：计算序列P与序列Q之间的相似度s：

其中，α为归一化系数，|P|和|Q|分别为序列P和Q的长度；

进一步的，步骤S3进一步优选为：计算未来该时段的序列与历史重污染序列案例库中的每个序列之间的相似度并判断该相似度与所述阈值τ之间的大小关系，若其中只要有一个相似度大于所述阈值τ，则判别未来该时段会有重污染，否则判别没有。

本步骤中，历史重污染案例库中的序列由k个，则根据步骤1中计算两两序列之间的相似度的方法分别计算这k个历史重污染序列与未来该时段的序列之间的相似度，并将计算得到的k个相似度均与阈值τ进行对比，若其中只要有一个相似度大于该阈值τ，则判别未来该时段会有重污染，否则判别没有重污染。

优选的，本发明中提到的污染指标可以包括PM2.5和PM10，气象要素可以包括温度、湿度、风速、气压、边界层高度和逆温等。

进一步的，步骤S13还可以包括：

采用归一化处理建立目标区域所有的历史污染序列时，首先所有历史污染序列中的气象要素的顺序保持一致，之后各个监测站点的顺序按空间上从北往南，从西向东的经纬度坐标排序，最后按时间顺序排序。这种排序方式考虑了时间连续属性，没有简单的通过求平均值来忽略时间内部特征名同时按特定空间顺序排序目标区域的各监测站点，也考虑了监测站点的空间特征，没有简单的通过求所有监测站点的平均值来简化问题，使得后续计算更加准确。

由于历史重污染序列案例库建立完成后在使用期间，若判别未来某时段为重污染时，则未来该时段的序列将被保存在历史重污染序列案例库中。因此，随着时间的推移，历史重污染序列案例库中的序列是不断增加的。为了使历史重污染序列案例库一直保持在较新的状态，步骤S3之后还可以包括：

步骤S4：历史重污染序列案例库在经过一段时间的使用后，当历史重污染序列案例库中新增的重污染序列的数目大于历史重污染序列案例库中的序列的五分之一时，则可以按照上述步骤S1的方法更新该历史重污染序列案例库。

本发明以北京地区为例，采用北京的包括国控站和市控站在内的35个空气质量常规监测站点收集2015年-2016年过去两年的污染指标和气象要素数据建立历史重污染案例库，其中考虑的气象要素有温度、湿度、风速、气压、边界层高度和逆温参数共6个。通过收集2015-2016年两年的污染指标PM2.5和PM10的数据以及气象要素数据，判断北京总共发生了45次重污染，其中重污染过程持续时间最短的是2016年12月2日开始的重污染，总共持续了11小时；重污染过程持续时间最长的是2015年12月19日开始的重污染，总共持续了192小时。根据这45次重污染过程中的污染指标PM2.5和PM10的数据选取污染条件下的气象要素数据。

现采用本发明的建立历史重污染案例库的方法基于这45次重污染过程建立北京地区2015年-2016年的历史重污染案例库，具体步骤如下：

第一步，对于上述45次历史重污染过程，对每次历史重污染过程中35个空气质量常规监测站点收集的气象要素数据进行归一化处理，并将归一化处理后的气象要素数据拼接起来，形成该历史重污染过程的序列。对于这45次重污染过程的序列，所有序列中的气象要素的顺序保持一致，35个空气质量常规监测站点的顺序按空间上从北往南，从西向东的经纬度坐标排序，最后按时间顺序排序。

第二步，计算这45个历史重污染序列中两两之间的相似度：

首先选取其中两个历史重污染序列，设为P和Q，其中P＝(0.8，0.7，0.6，…，0.9)，长度为100，Q＝(0.6，0.5，0.4，…，0.7)，长度为80；并构建序列P内任一点与序列Q内任一点之间的距离矩阵D：

然后设相似度序列W＝(w₁，w₂，…，w_r)，其中w_r＝d(p_i，q_j)，从距离矩阵D的左下角d(p₁，q₁)＝0.2开始，用动态规划与递归的方法计算相似序列W，这里w₁＝0.2，从d(p₁，q₁)的位置分别向上、向斜上和向右寻找，w₂＝min{0.3，0.2，0.1}，0.1最小，则w₂＝0.1。此时的位置在d(p₂，q₁)＝0.1处，则w₃＝min{0.2，0.1，0}，则w₃＝0。依次按上面的步骤递归，最后可计算出：

dist(100，80)＝∑_1≤r≤Rw_r＝70

由此可计算出序列P和Q之间的相似度为s：

进而可计算出45个重污染序列中两两历史污染序列之间的相似度组成的相似度矩阵A，

并根据公式

计算出序列i相对其他44个重污染序列的相似性值；

最后，选取前10个最大的相似性值所对应的历史污染序列为聚类序列，作为表征重污染程度的核序列，并将最小的相似性值设为阈值τ，从而完成建立历史重污染序列案例库，本实施例中，τ＝0.80。

本实施例中选取需要判别和预报的未来时段为2017年1月2日至2017年1月4日，采用上述相同的方法计算得到该时段的序列与历史重污染序列案例库中的10个序列的相似度值为0.88，该值大于阈值τ，则判别2017年1月2日至2017年1月4日为重污染。而实际情况是2017年1月2日至2017年1月4日发生了重污染，共持续了54小时，与判别结果一致，由此说明本发明的基于重污染序列案例库的区域重污染判别预报方法切实有效。

作为本发明的另一种改进，为了集成专家经验以提高目标区域未来某时段与相似的历史重污染案例匹配结果的准确率和实用性，本发明可以通过获取专家的使用行为偏好特征等交互方式结合专家认知，自适应学习来提升本发明对未来某时段与相似的历史重污染案例匹配的准确度，以及未来某时段污染过程精确识别的准确度。在步骤S3中，将获取的未来该时段的序列与历史重污染序列案例库中的序列进行相似度对比时，优选对各气象要素均赋予权重系数；

而各气象要素的权重系数根据以下方式获取，即步骤S2之后步骤S3之前还可以包括：

步骤S21：获取用户对各气象要素的关注程度；

本步骤中，用户对各气象要素的关注程度通过用户对未来某时段与历史重污染过程相匹配的气象要素及其次数的选择、用户对相匹配的气象要素的对比及对比次数的选择来体现。

在用户对未来某时段与相似的历史重污染案例进行对比时，用户先选择要匹配的气象要素如地面风速、地面风向、地面温度等进行匹配，若用户浏览气象要素对比后浏览相似历史过程，则匹配效果标注为准确；若用户浏览气象要素对比后没有浏览相似历史过程，则匹配效果标注为不准确；若用户没有浏览气象要素对比，则匹配效果标注为不确定。通过上述匹配效果即可获取用户对各气象要素的关注程度。

步骤S22：采用sigmoid函数变形根据用户对各气象要素的关注程度调整各气象要素的权重系数。

由于每个季节的气压场、温度场、湿度场等差异较大，对环境污染浓度的影响及相关性差别也较大。而本步骤中，根据不同季节的特点和专家经验判断后，对不同的气象要素赋予不同的权重系数，有利于减少误差和提高预报的准确度，同时还能够提高重污染判别和预报的效率。

另一方面，本发明还提供一种基于重污染序列案例库的区域重污染判别预报装置，如图2所示，包括：

历史重污染序列案例库建立模块11：用于根据收集的目标区域各监测站点监测到的污染指标数据和气象要素数据，建立目标区域的历史重污染序列案例库，案例库中的序列由气象要素数据组成；

第一获取模块12：用于根据预报的目标区域未来某时段内的气象要素数据获取未来该时段的序列；

判别模块13：用于将获取的未来该时段的序列与历史重污染序列案例库中的序列进行相似度对比，判别目标区域未来该时段的重污染情况。

本发明的基于重污染序列案例库的区域重污染判别预报装置根据收集的目标区域各监测点监测到的污染指标数据和气象要素数据建立该区域的历史重污染序列案例库，然后根据预报的该区域未来某时段内的气象要素获取未来该时段的序列并将其与历史重污染序列案例库中的序列进行相似度的比较，由此判别该区域未来该时段是否具有重污染情况。由于区域重污染过程的空间尺度相对较大，局地扰动气象预测的不准确性影响较小，并且随着观测手段的不断进步以及数据共享的程度进一步深入，本发明充分利用好已有的监测站点检测的污染指标数据和气象要素数据建立目标区域的历史重污染序列案例库，可形成判别准确率较高的新型的基于历史重污染案例的重污染预判技术，提供的预报结果也将拓展到除地面观测以外的其他要素方面，与数值预报、统计预报和专家预报技术相比，本发明是对现行重污染预报技术体系的一个很有利的补充。

作为本发明的一种改进，历史重污染序列案例库建立模块101优选包括：

收集模块11-1：用于收集目标区域各监测站点监测到的污染指标数据和气象要素数据；

气象要素选取模块11-2：用于根据污染指标数据，选取污染条件下的气象要素数据；

历史污染序列建立模块11-3：用于对选取的气象要素数据进行归一化处理，建立目标区域所有的历史污染序列；

在历史污染序列建立模块11-3中，对于选取的每个气象要素数据都可以归一化到0～1的值，即用公式y＝(x-MinValue)/(MaxValue-MinValue)进行归一化处理，

相似度矩阵计算模块11-4：用于计算任意两个历史污染序列之间的相似度并得出所有历史污染序列中两两历史污染序列之间的相似度组成的相似度矩阵；

在相似度矩阵计算模块11-4中，相似度矩阵A为：

相似性值计算模块11-5：用于根据相似度矩阵计算得出任一历史污染序列相对于其他所有历史污染序列的相似性值；

在相似性值计算模块11-5中，历史污染序列i相对于其他所有历史污染序列的相似性值为γ：

其中，i≠j。

核序列选取模块11-6：用于选取前k个最大的相似性值所对应的历史污染序列为聚类序列，作为表征重污染程度的核序列，并且把这k个相似性值中最小的相似性值设为阈值τ，从而完成建立历史重污染序列案例库。

优选的，相似度矩阵计算模块11-4可以包括：

距离计算模块11-41：用于首先取两个历史污染序列，设为P＝(p₁，p₂，…，p_n)和Q＝(q₁，q₂，…，q_m)，长度分别为n和m，利用动态规划与递归的方式计算得到序列P与序列Q之间的距离dist(n，m)；

在距离计算模块11-41中，首先构建序列P内任一点p_i与序列Q内任一点q_j之间的距离矩阵D：

W的长度即序列P和序列Q之间的距离dist(n，m)计算公式为：

dist(n，m)＝∑_1≤r≤Rw_r

其中，dist(i，j)表示从d(p₁，q₁)到d(p_i，q_j)的定义长度。

相似度计算模块11-42：用于计算序列P与序列Q之间的相似度s：

其中，α为归一化系数，|P|和|Q|分别为序列P和Q的长度；

进一步的，判别模块13进一步优选为：用于计算未来该时段的序列与历史重污染序列案例库中的每个序列之间的相似度并判断该相似度与所述阈值τ之间的大小关系，若其中只要有一个相似度大于所述阈值τ，则判别未来该时段会有重污染，否则判别没有。

在判别模块13中，历史重污染案例库中的序列由k个，则根据步骤1中计算两两序列之间的相似度的方法分别计算这k个历史重污染序列与未来该时段的序列之间的相似度，并将计算得到的k个相似度均与阈值τ进行对比，若其中只要有一个相似度大于该阈值τ，则判别未来该时段会有重污染，否则判别没有重污染。

优选的，本发明中提到的污染指标可以包括PM2.5和PM10，气象要素可以包括温度、湿度、风速和气压等。

进一步的，历史污染序列建立模块11-3还可以包括：

用于采用归一化处理建立目标区域所有的历史污染序列时，首先所有历史污染序列中的气象要素的顺序保持一致，之后各个监测站点的顺序按空间上从北往南，从西向东的经纬度坐标排序，最后按时间顺序排序。这种排序方式考虑了时间连续属性，没有简单的通过求平均值来忽略时间内部特征名同时按特定空间顺序排序目标区域的各监测站点，也考虑了监测站点的空间特征，没有简单的通过求所有监测站点的平均值来简化问题，使得后续计算更加准确。

由于历史重污染序列案例库建立完成后在使用期间，若判别未来某时段为重污染时，则未来该时段的序列将被保存在历史重污染序列案例库中，因此，随着时间的推移，历史重污染序列案例库中的序列是不断增加的。为了使历史重污染序列案例库一直保持在较新的状态，判别模块13之后还优选包括：

更新模块14：用于历史重污染序列案例库在经过一段时间的使用后，当历史重污染序列案例库中新增的重污染序列的数目大于历史重污染序列案例库中的序列的五分之一时，则可以在历史重污染序列案例库建立模块11中更新该历史重污染序列案例库。

现采用本发明的建立历史重污染案例库的装置基于这45次重污染过程建立北京地区2015年-2016年的历史重污染案例库，具体步骤如下：

第一步，对于上述45次历史重污染过程，历史污染序列建立模块11-3对每次历史重污染过程中35个空气质量常规监测站点收集的气象要素数据进行归一化处理，并将归一化处理后的气象要素数据拼接起来，形成该历史重污染过程的序列。对于这45次重污染过程的序列，所有序列中的气象要素的顺序保持一致，35个空气质量常规监测站点的顺序按空间上从北往南，从西向东的经纬度坐标排序，最后按时间顺序排序。

第二步，相似度计算模块11-4计算这45个历史重污染序列中两两之间的相似度：

首先距离计算模块11-41选取其中两个历史重污染序列，设为P和Q，其中P＝(0.8，0.7，0.6，…，0.9)，长度为100，Q＝(0.6，0.5，0.4，…，0.7)，长度为80；并构建序列P内任一点与序列Q内任一点之间的距离矩阵D：

dist(100，80)＝∑_1≤r≤Rw_r＝70

由此相似度计算模块11-42可计算出序列P和Q之间的相似度为s：

第三步，相似性值计算模块11-5根据公式

计算出序列i相对其他44个重污染序列的相似性值；

最后，核序列选取模块11-6选取前10个最大的相似性值所对应的历史污染序列为聚类序列，作为表征重污染程度的核序列，并将最小的相似性值设为阈值τ，本实施例中，τ＝0.80，从而完成建立历史重污染序列案例库。

本实施例中选取需要判别和预报的未来时段为2017年1月2日至2017年1月4日，采用上述相同的方法计算得到该时段的序列与历史重污染序列案例库中的10个序列的相似度值为0.88，该值大于阈值τ，则判别2017年1月2日至2017年1月4日为重污染。而实际情况是2017年1月2日至2017年1月4日发生了重污染，共持续了54小时，与判别结果一致，由此说明本发明的基于重污染序列案例库的区域重污染判别预报装置切实有效。

作为本发明的另一种改进，为了集成专家经验以提高目标区域未来某时段与相似的历史重污染案例匹配结果的准确率和实用性，本发明可以通过获取专家的使用行为偏好特征等交互方式结合专家认知，自适应学习来提升本发明对未来某时段与相似的历史重污染案例匹配的准确度，以及未来某时段污染过程精确识别的准确度。在判别模块13中，用于将获取的未来该时段的序列与历史重污染序列案例库中的序列进行相似度对比时，优选对各气象要素均赋予权重系数；

而各气象要素的权重系数在以下模块中获取，即第一获取模块12之后判别模块13之前还可以包括：

第二获取模块121：用于获取用户对各气象要素的关注程度；

在第二获取模块121中，用户对各气象要素的关注程度通过用户对未来某时段与历史重污染过程相匹配的气象要素及其次数的选择、用户对相匹配的气象要素的对比及对比次数的选择来体现。

调整模块122：用于采用sigmoid函数变形根据用户对各气象要素的关注程度调整各气象要素的权重系数。

由于每个季节的气压场、温度场、湿度场等差异较大，对环境污染浓度的影响及相关性差别也较大。而调整模块122，根据不同季节的特点和专家经验判断后，对不同的气象要素赋予不同的权重系数，有利于减少误差和提高预报的准确度，同时还能够提高重污染判别和预报的效率。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于重污染序列案例库的区域重污染判别预报方法，其特征在于，包括：

步骤3：将获取的未来该时段的序列与所述历史重污染序列案例库中的序列进行相似度对比，判别目标区域未来该时段的重污染情况；

所述步骤1包括：

步骤16：选取前k个最大的相似性值所对应的历史污染序列为聚类序列，作为表征重污染程度的核序列，并且把这k个相似性值中最小的相似性值设为阈值τ，从而完成建立所述历史重污染序列案例库，所述历史重污染序列案例库由核序列构成。

2.根据权利要求1所述的基于重污染序列案例库的区域重污染判别预报方法，其特征在于，所述步骤14包括：

步骤142：计算序列P与序列Q之间的相似度s：

其中，α为归一化系数，|P|和|Q|分别为序列P和Q的长度；

3.根据权利要求1所述的基于重污染序列案例库的区域重污染判别预报方法，其特征在于，所述步骤3进一步为：计算未来该时段的序列与所述历史重污染序列案例库中的每个序列之间的相似度并判断该相似度与所述阈值τ之间的大小关系，若其中只要有一个相似度大于所述阈值τ，则判别未来该时段会有重污染，否则判别没有。

4.根据权利要求1所述的基于重污染序列案例库的区域重污染判别预报方法，其特征在于，所述步骤1中，污染指标包括PM2.5和PM10，气象要素包括温度、湿度、风速、气压、边界层高度和逆温。

5.根据权利要求1所述的基于重污染序列案例库的区域重污染判别预报方法，其特征在于，所述步骤13包括：

6.根据权利要求1至5中任一所述的基于重污染序列案例库的区域重污染判别预报方法，其特征在于，所述步骤3之后还包括：

7.根据权利要求1至5中任一所述的基于重污染序列案例库的区域重污染判别预报方法，其特征在于，所述步骤3中，将获取的未来该时段的序列与所述历史重污染序列案例库中的序列进行相似度对比时，对各气象要素均赋予权重系数；

所述步骤2之后步骤3之前还包括：

步骤21：获取用户对各气象要素的关注程度；

8.根据权利要求7所述的基于重污染序列案例库的区域重污染判别预报方法，其特征在于，所述步骤21进一步为：获取用户对未来某时段与历史重污染过程相匹配的各气象要素及其次数的选择、用户对相匹配的各气象要素的对比及对比次数的选择。

9.一种基于重污染序列案例库的区域重污染判别预报装置，其特征在于，包括：

第一获取模块：用于根据预报的目标区域未来某时段内的气象要素数据获取未来该时段的序列；

判别模块：用于将获取的未来该时段的序列与所述历史重污染序列案例库中的序列进行相似度对比，判别目标区域未来该时段的重污染情况；

所述历史重污染序列案例库建立模块包括：

收集模块：用于收集目标区域各监测站点监测到的污染指标数据和气象要素数据；

气象要素选取模块：用于根据所述污染指标数据，选取污染条件下的气象要素数据；

历史污染序列建立模块：用于对选取的气象要素数据进行归一化处理，建立目标区域所有的历史污染序列；

相似度矩阵计算模块：用于计算任意两个历史污染序列之间的相似度并得出所有历史污染序列中两两历史污染序列之间的相似度组成的相似度矩阵；

相似性值计算模块：用于根据所述相似度矩阵计算得出任一历史污染序列相对于其他所有历史污染序列的相似性值；

核序列选取模块：用于选取前k个最大的相似性值所对应的历史污染序列为聚类序列，作为表征重污染程度的核序列，并且把这k个相似性值中最小的相似性值设为阈值τ，从而完成建立所述历史重污染序列案例库，所述历史重污染序列案例库由核序列构成。