CN106778838A

CN106778838A - 一种预测空气质量的方法

Info

Publication number: CN106778838A
Application number: CN201611076083.8A
Authority: CN
Inventors: 王玲; 肖希元; 孟建瑶
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2016-11-29
Filing date: 2016-11-29
Publication date: 2017-05-31

Abstract

本发明提供一种预测空气质量的方法，能够自动确定HMM模型的隐状态数。所述方法包括：获取观测序列；利用FCM聚类算法对获取的所述观测序列进行聚类，得到最优聚类数及其相应的聚类结果；根据聚类结果，为每一类建立一个HMM模型，再通过FCM聚类算法确定每一类的最佳聚类数；将确定的每一类的最佳聚类数作为建立的HMM模型的隐状态数；根据所述聚类结果，对建立的HMM模型进行训练，基于训练后的HMM模型，对空气质量进行预测。本发明适用于环境检测技术领域。

Description

一种预测空气质量的方法

技术领域

本发明涉及环境检测技术领域，特别是指一种预测空气质量的方法。

背景技术

空气质量的好坏一方面是由污染源决定的，另一方面是由当地当时的气象因子决定的。在相同的污染源的情况下，不同的气象因子所造成的地面污染物的浓度相差很大。可以看出空气质量与气象因子有着紧密的联系，为了改善区域空气质量，研究区域空气质量时间序列与气象因子的关系开始变得越来越重要。

近年来，针对空气质量时间序列的非线性、随机性、时序性、动态性及不确定性的特点，国内外已经提出很多预测方法，其中隐性马尔科夫(Hidden Markov Model，HMM)预测方法是其中的一种重要预测方法，此方法能够在考虑预测变量自身序列和影响因子的多维序列的结构的前提下识别和预测空气质量的演化状态，使得模型具有可解释性。

HMM是在马尔科夫过程的基础上发展起来的。由于实际问题比马尔科夫过程所描述的更为复杂，观察到的观测向量不是与状态一一对应的，而是通过一组概率分布相联系的，这样的模型就称为HMM。所以，它是一个双重的随机过程，一个是马尔科夫过程，这是基本随机过程，它是用来描述状态的转移，另一个随机过程描述状态和观察到的观测向量之间的统计对应关系。大多数的HMM模型是采用人为确定隐状态数来对时间序列的特定情形进行预测，预测的结果带有了一定的主观性。

发明内容

本发明要解决的技术问题是提供一种预测空气质量的方法，以解决现有技术所存在的人为确定HMM模型的隐状态数带有主观性的问题。

为解决上述技术问题，本发明实施例提供一种预测空气质量的方法，包括：

获取观测序列；

利用FCM聚类算法对获取的所述观测序列进行聚类，得到最优聚类数及其相应的聚类结果；

根据聚类结果，为每一类建立一个HMM模型，通过FCM聚类算法确定每一类的最佳聚类数；

将确定的每一类的最佳聚类数作为建立的HMM模型的隐状态数；

根据所述聚类结果，对建立的HMM模型进行训练，基于训练后的HMM模型，对空气质量进行预测。

进一步地，所述利用FCM聚类算法对获取的所述观测序列进行聚类，得到最优聚类数及其相应的聚类结果前，所述方法还包括：

对获取的所述观测序列进行归一化处理。

进一步地，所述观测序列为多维时间序列；

所述对获取的所述观测序列进行归一化处理后，所述方法还包括：

采用主成分分析法对归一化处理后的多维时间序列进行降维处理。

进一步地，所述采用主成分分析法对归一化处理后的多维时间序列进行降维处理包括：

确定归一化处理后的观测序列的相关系数矩阵；

计算所述相关系数矩阵的特征值λ_i与对应于特征值λ_i的特征向量e_ij，其中，i＝1,2,...,p，j＝1,2,...,m，p个特征值满足：λ₁≥λ₂≥...≥λ_p≥0；

计算主成分贡献率及累计贡献率

将累计贡献率超过预设的贡献率阈值时对应的成分作为主成分进行分析，得到新的观测序列。

进一步地，所述利用FCM聚类算法对获取的所述观测序列进行聚类，得到最优聚类数及其相应的聚类结果包括：

S11，对聚类数、幂指数和模糊隶属度矩阵进行初始化；

S12，根据所述观测序列，计算第l步的聚类中心V^(l)；

S13，更新第l步的模糊隶属度矩阵U^(l)；

S14，计算目标函数J^(l)；

S15，比较当前目标函数的值与前一次的目标函数的值，如果二者的绝对差值小于预设的终止迭代阈值，则停止迭代，执行S16；否则，令l＝l+1，返回S12，继续迭代；

S16，计算不同聚类数时的FCM聚类算法的运行时间和有效性指标，当所述运行时间最短且所述有效性指标最小时的聚类数为最优聚类数。

进一步地，所述第l步的聚类中心V^(l)表示为：

所述第l步的模糊隶属度矩阵U^(l)表示为：

所述目标函数J^(l)表示为：

其中，表示第l步的聚类中心，表示第l步的模糊隶属度矩阵中的第i行第k列元素，d_ik ^(l)＝||x_k-v_i ^(l)||，x_k为第k样本，n为样本数，c为聚类数，m表示幂指数。

进一步地，所述有效性指标表示为：

其中，inter＝min(||v_i-v_j||²),i＝1,2,...,c-1j＝i+1,...,c，x为样本值，c为聚类数，C_i为第i个聚类，v_i,v_j为聚类中心，n为样本数。

进一步地，所述HMM模型的数目与最优聚类数相同，设最优聚类数为ko_pt，所述HMM模型的数目为k_opt；

所述对空气质量进行预测前，所述方法还包括：

将所述观测序列输入到训练后的k_opt个HMM模型中；

利用前后向算法计算每个HMM模型对每一个观测序列产生的对数似然值，其中，每一个观测序列的对数似然值的个数为k_opt；

对每个观测序列的k_opt个对数似然值进行分析，得到每个观测序列的最大对数似然值，其中，每个观测序列的最大对数似然值对应的HMM模型的类为所述观测序列属于的类；

将所述观测序列划分到所述观测序列的最大对数似然值对应的类中，得到FCM-HMM聚类结果。

进一步地，所述根据所述聚类结果，对建立的HMM模型进行训练，基于训练后的HMM模型，对空气质量进行预测包括：

若给定预测样本观测序列，则根据得到的FCM-HMM聚类结果，确定每个类的模糊规则的前件参数；

根据每个类中的样本的观测序列，使用最小二乘法确定每个类的模糊规则的后件参数；

根据确定的每个类的模糊规则，对所述给定的预测样本观测序列进行预测；其中，所述每个类的模糊规则形式表示为：

R_i:

if x₁ is A_i1,x₂ is A_i2,...,x_j is A_ij,

then

y_i(t)＝P_i0+P_i1x₁+...+P_ijx_j

其中，x₁,x₂,...,x_j表示构成模糊规则前件的变量，P_i0,P_i1,...,P_ij是后件参数，A_ij是前件参数，A_ij表示样本第j维对于第i条模糊规则的隶属度，分别表示第i类的第j维的均值和方差值，x_j表示样本的第j维，P_ij是第i条模糊规则的第j维的后件参数。

若未给定预测样本观测序列，则根据得到的FCM-HMM聚类结果，计算出多步预测值O_t+h，所述多步预测值O_t+h表示为：

其中，N为状态数，h为多步预测的步数，A^h表示由t时刻转移到t+h时刻的状态转移概率矩阵，即t时刻的状态为q_t＝s_i转移到t+h时刻q_t+h＝s_j的概率为A^h(i,j)，A表示单步转移概率矩阵，E(b_j(v_k))为对概率分布为b_j(v_k)的期望值，b_j(v_k)是在第j个状态s_j下，第k个预测样本观测序列v_k的观测概率密度。

本发明的上述技术方案的有益效果如下：

上述方案中，由于观测序列具有不确定性，利用自动确定聚类数的FCM聚类对观测序列进行聚类，确定观测序列的初始聚类结果，然后，根据聚类结果，为每一类建立一个HMM模型，接着，利用自动确定聚类数的FCM确定每一类的最佳聚类数作为HMM模型的隐状态数，根据所述聚类结果，对建立的HMM模型进行训练，基于训练后的HMM模型，对空气质量进行预测。

附图说明

图1为本发明实施例提供的预测空气质量的方法的流程示意图；

图2为本发明实施例提供的FCM聚类算法的流程示意图；

图3为本发明实施例提供的基于FCM-HMM聚类算法的流程示意图；

图4为本发明实施例提供的预测空气质量的流程示意图；

图5为本发明实施例提供的基于FCM-HMM聚类结果的模糊推理多模型框架示意图；

图6为本发明实施例提供的观测序列的预测值与实际值的对比示意图；

图7为本发明实施例提供的基于FCM-HMM聚类结果的多步预测流程示意图；

图8(a)为本发明实施例提供的步长和自相关系数的关系示意图；

图8(b)为本发明实施例提供的步长和偏自相关系数的关系示意图；

图9为本发明实施例提供的多步预测模型的状态转移概率图；

图10为本发明实施例提供的多步预测模型的预测结果示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的人为确定HMM模型的隐状态数带有主观性的问题，提供一种预测空气质量的方法。

参看图1所示，本发明实施例提供的预测空气质量的方法，包括：

步骤101，获取观测序列；

步骤102，利用FCM聚类算法对获取的所述观测序列进行聚类，得到最优聚类数及其相应的聚类结果；

步骤103，根据聚类结果，为每一类建立一个HMM模型，通过FCM聚类算法再次确定每一类的最佳聚类数；

步骤104，将确定的每一类的最佳聚类数作为建立的HMM模型的隐状态数；

步骤105，根据所述聚类结果，对建立的HMM模型进行训练，基于训练后的HMM模型，对空气质量进行预测。

本发明实施例所述的预测空气质量的方法，由于观测序列具有不确定性，利用自动确定聚类数的FCM聚类对观测序列进行聚类，确定观测序列的初始聚类结果，然后，根据聚类结果，为每一类建立一个HMM模型，接着，利用自动确定聚类数的FCM确定每一类的最佳聚类数作为HMM模型隐状态数，根据所述聚类结果，对建立的HMM模型进行训练，基于训练后的HMM模型，对空气质量进行预测。

本实施例中，在预测空气质量时，所述观测序列为空气质量时间序列/空气质量时间序列数据集，所述数据集包括多个样本，每个样本对应一个观测序列，所述观测序列为多维所述观测序列。

在前述预测空气质量的方法的具体实施方式中，进一步地，所述利用FCM聚类算法对获取的所述观测序列进行聚类，得到最优聚类数及其相应的聚类结果前，所述方法还包括：

对获取的所述观测序列进行归一化处理。

本实施例中，在建立预测模型之前，需获取预测模型的输入数据，所述输入数据具体可以为：观测序列，为了消除变量之间由于量纲造成的影响，需对所述观测序列进行归一化处理，例如，可以采用min-max归一化方法对所述观测序列进行归一化处理，其中，所述min-max数据归一化方法的表达式表示为：

其中，x_ip和x_ip'分别表示归一化前后第i个样本的第p维数据，min(x_.p)表示第p维数据的最小值，max(x_.p)表示第p维数据的最大值。

在前述预测空气质量的方法的具体实施方式中，进一步地，所述观测序列为多维时间序列；

本实施例中，在建立预测模型之前，还需确定预测模型的输入变量、输出变量，为了更清楚的理解基于隐性马尔科夫空气质量预测模型的构建，可以选取某地区2013年到2015年的样本共计700个样本对空气质量中的PM_2.5进行预测建模，所考虑的气象因子有温度、风速、露点、rehum共计4个影响因素，同时考虑到其他污染物对空气质量的影响，把NO、NO₂、CO、SO₂这4个变量也作为输入变量；即：建模需要的输入变量是(温度、风速、露点、rehum、NO、NO2、CO、SO2)，为一个8维向量，输出变量为PM_2.5的值。

本实施例中，可以利用Pearson相关系数分析空气质量的影响变量之间的相关性，其中，所述Pearson相关系数表示为：

其中，X,Y为两个变量，σ_X,σ_Y为标准差，cov(X,Y)为协方差，μ_X,μ_Y为均值，E(X-μ_X)(Y-μ_Y)表示期望。

本实施例中，由于所述观测序列为多维时间序列，变量较多，在完成观测序列的相关性分析后，可以采用主成分分析来对归一化处理后的多维时间序列进行降维处理。

在前述预测空气质量的方法的具体实施方式中，进一步地，所述采用主成分分析法对归一化处理后的多维时间序列进行降维处理包括：

确定归一化处理后的观测序列的相关系数矩阵；

计算主成分贡献率及累计贡献率

本实施例中，采用主成分分析法对归一化处理后的多维时间序列进行降维处理，得到新的多维互不相关的观测序列，其中，所述采用主成分分析法对归一化处理后的多维时间序列进行降维处理具体可以包括：

D1、将归一化处理后的观测序列转化为标准化阵，对所述标准化阵求相关系数矩阵，其中，所述相关系数矩阵表示为：

其中，为变量x_i与x_j的相关系数，所述相关系数采用Person相关系数。由于R是实对称矩阵(即r_ij＝r_ji)，所以只需计算其上三角元素或下三角元素即可，n表示变量x_i、x_j的样本数，分别为变量x_i、x_j的样本均值，x_ki表示第k个样本的第i个变量值，x_kj表示第k个样本的第j个变量值。

D2、计算所述相关系数矩阵R的特征值与特征向量：具体的，求解所述相关系数矩阵R的特征方程，得p个特征值，并使其按大小顺序排列求解，即λ₁≥λ₂≥...≥λ_p≥0，然后分别求出对应于特征值λ_i的特征向量e_ij，其中，i＝1,2,...,p，j＝1,2,...,m；

D3、计算主成分贡献率及累计贡献率：一般取累计贡献率达到85％以上的特征值及其对应的第一主成分、第二主成分、...、第m主成分；

所述主成分贡献率表示为：

所述累计贡献率表示为：

本实施例中，执行D3后，例如，得到主成分贡献率为fai＝[0.0094,0.0159,0.0409,0.0673,0.0791,0.1364,0.2041,0.4469]；

D4、计算主成分负荷，所述主成分负荷表示为：

D5、根据D4，得到主成分Z，其中，所述主成分Z表示为：

本实施例中，执行D5后，例如，后5个成分的累计贡献率达到93.38％，选取后5个成分作为主成分进行分析，根据主成分分析的特征向量生成新的5维的观测序列，即PM_2.5和5维观测序列组成一个6维的数据集。

在前述预测空气质量的方法的具体实施方式中，进一步地，所述利用FCM聚类算法对获取的所述观测序列进行聚类，得到最优聚类数及其相应的聚类结果包括：

S11，对聚类数、幂指数和模糊隶属度矩阵进行初始化；

S12，根据所述观测序列，计算第l步的聚类中心；

S13，更新第l步的模糊隶属度矩阵；

S14，计算目标函数J^(l)；

本实施例中，如图2所示，利用FCM聚类算法对获取的所述观测序列进行聚类，具体的，利用FCM聚类算法对降维后的观测序列进行聚类，得到最优聚类数及其相应的聚类结果可以包括：

F1、对聚类参数进行初始化，具体的，确定聚类数c＝2，幂指数m和模糊隶属度矩阵此时迭代步数l＝1，c满足n表示样本数，m满足m>1；

F2、计算第l步的聚类中心V^(l)，其中，所述第l步的聚类中心V^(l)定义如下：

F3、更新第l步的模糊隶属度矩阵U^(l)，计算目标函数J^(l)；

所述第l步的模糊隶属度矩阵U^(l)表示为：

所述目标函数J^(l)表示为：

F4、比较当前目标函数的值与前一次的目标函数的值，如果二者的绝对差值小于预设的终止迭代阈值ε(其中，ε是大于0的极小值)：|J^(l)-J^(l-1)|<ε，停止迭代，执行步骤F5；否则，令l＝l+1，返回步骤F2，继续迭代；

F5、停止迭代时，假设c＝8，则计算聚类数c＝2～8时FCM聚类算法的运行时间和有效性指标，其中，所述有效性指标表示为：

本实施例中，当聚类数为2的时候，FCM聚类算法所需的运行时间最短，且聚类的有效性指标最小，所以最优聚类数ko_pt＝2，从而将观测序列划分为两类。

本实施例中，根据聚类结果，为每一类建立HMM模型，然后，通过FCM聚类算法确定每一类中PM_2.5的最佳聚类数/最佳划分/最佳隐状态数，得到的结果为：两类的PM_2.5的最佳聚类数分别为2、3；将确定的每一类的最佳聚类数作为建立的HMM模型的隐状态数，得到，类1对应的HMM模型为隐状态数为2的HMM模型，类2对应的HMM模型为隐状态数为3的HMM模型。

本实施例中，步骤F5中的最优聚类数ko_pt＝2，HMM模型的个数是步骤F5中的最佳聚类个数，HMM模型的数目为2，将FCM最优聚类结果作为训练数据输入相应的HMM模型并进行训练，得到2个HMM模型。这样，将FCM最优聚类结果作为训练数据输入相应的HMM模型并进行训练，很大程度上能提高类内的相似度以及类间的相异性，提高了HMM模型训练的准确度。

在前述预测空气质量的方法的具体实施方式中，进一步地，如图3所示，所述HMM模型的数目与最优聚类数相同，设最优聚类数为ko_pt，所述HMM模型的数目为ko_pt；

所述对空气质量进行预测前，所述方法还包括：

将所述观测序列输入到训练后的ko_pt个HMM模型中；

本实施例中，还可以根据训练之后的HMM模型对样本进行二次聚类，定性地识别和预测空气质量的演化状态/演化规律，将之前的FCM聚类算法和所述二次聚类称为FCM-HMM的聚类算法。

本实施例中，所述根据训练之后的HMM模型对样本进行二次聚类具体可以包括：

将所有观测序列(每条观测序列对应一个样本)输入到训练之后的k_opt个HMM模型中，利用前后向(Forward-backwad)算法计算每个HMM模型对每一个样本产生的对数似然值，其中，每一个样本的对数似然值的个数是步骤F5中的最优聚类数k_opt，所述对数似然值可以表现出样本的观测序列对训练之后的HMM模型的适应性，产生的对数似然值越大，样本与训练之后的HMM模型间的距离越小；每个样本的最大对数似然值对应的HMM模型的类为所述样本属于的类，将所述样本重新划分到所述样本的最大对数似然值对应的类中，得到的新的聚类结果，所述新的聚类结果，由于是通过FCM-HMM聚类算法得到的，因此，所述新的聚类结果也称为FCM-HMM聚类结果。

本实施例中，根据每个观测序列由k_opt个HMM模型产生的对数似然值大小对观测序列进行二次聚类，有效地提高聚类的精度，定性地识别和预测了空气质量样本数据的演化状态。

在前述预测空气质量的方法的具体实施方式中，进一步地，所述根据所述聚类结果，对建立的HMM模型进行训练，基于训练后的HMM模型，对空气质量进行预测包括：

R_i:

if x₁ is A_i1,x₂ is A_i2,...,x_j is A_ij,

then

y_i(t)＝P_i0+P_i1x₁+...+P_ijx_j

本实施例中，如图4所示，在给定预测样本观测序列时，可以根据得到的FCM-HMM聚类结果建立模糊推理多模型，得到空气质量的趋势变化和未来一段时间的空气质量的预测值；在未给定预测样本观测序列时，可以根据得到的FCM-HMM聚类结果建立多步预测模型，得到空气质量的趋势变化和未来一段时间的空气质量的预测值。

本实施例中，如图5所示，若给定预测样本观测序列，则根据得到的FCM-HMM聚类结果，在该聚类结果的基础上，与模糊推理多模型结合，对这k_opt个类分别提取每一类的模糊规则，建立多个模糊推理规则，将HMM模型预测的空气质量的状态值转换为空气质量的具体预测值，得到空气质量的趋势变化，其中，提取模糊规则的步骤可以包括：

K1、根据得到的FCM-HMM聚类结果，计算每个类的模糊规则的前件参数；

K2、根据每个类中的样本的观测序列，使用最小二乘法确定每个类的模糊规则的后件参数；具体的：根据最小二乘法对每个HMM模型的后件参数进行辨识，最终将各个HMM模型输出值的加权和作为预测值输出。假定输入的样本集/观测序列为Z，当样本集经过FCM-HMM聚类算法被划分成k_opt个类时，就可以用提取的k_opt个模糊规则模型{R(1)，R(2)，...，R(k_opt)}来表示，最终经过各个HMM模型输出值的加权和得到预测值的输出，其中，以R(1)为例，R(1)可以简写为R₁。

本实施例中，根据得到的FCM-HMM聚类结果，将所有的k_opt个模糊规则的隶属函数的平均值、方差准确的固定。所以该HMM模型能够更准确的进行预测。建立k_opt个模糊规则，根据这些模糊规则就可以对给定预测样本的观测序列进行预测。

本实施例中，例如，根据得到的FCM-HMM聚类结果，对所述新的聚类结果的两个类提取模糊规则，用u₁，u₂，u₃，u₄，u₅表示模型的五个输入多维观测序列，A_ij(1≤i≤2，1≤j≤5)为样本第j维对于第i个模糊规则的隶属度，一类模糊规则为：

R₁：

if u₁ is A₁₁，u₂ is A₁₂，...，u₅ is A₁₅，

then

y₁(t)＝-0.1305+0.4055u₁-0.0125u₂+...-0.0128u₅

另一类模糊规则为：

R₂：

if u₁ is A₂₁，u₂ is A₂₂，...，u₅ is A₂₅，

then

y₂(t)＝0.0110+0.0285u₁-0.0263u₂+...-0.0031u₅

采用上述2个模糊规则模型R₁、R₂进行预测，并与实际的的数据值进行对比得到如图6的结果，可以看出HMM模型的拟合效果较好，本实施例中，模糊规则模型R₁、R₂的部分参数如表1所示：

表1模糊规则模型R₁、R₂的部分参数

表1中，(0.1305,0.4055,0.0125,-0.0270,-0.0052,0.0128)中的0.1305是常数项，0.4055、0.0125、-0.0270、-0.0052、0.0128分别是五个输入变量的后件参数。

本实施例中，所述模糊推理多模型不能在未给定预测样本观测序列时进行空气质量预测，在未给定预测样本观测序列的前提下，建立了另外一种预测模型，即基于FCM-HMM的多步预测模型，对未来时间的空气质量值进行预测。

为了实现多步预测，根据聚类的结果计算样本的状态转移概率和观测概率密度B，利用状态转移概率和观测概率密度B这两个参数建立基于FCM-HMM的多步预测模型，对未来一段时间的空气质量的值进行预测。

本实施例中，b_j(v_k)与观测概率密度B之间的关系为：

其中，N表示预测样本的数目。

本实施例中，如图7所示，若未给定预测样本观测序列，则根据得到的FCM-HMM聚类结果，对每个样本标注类标号，计算时间序列样本类之间的转移概率，即得到时间序列的状态转移概率矩阵；同时根据得到的FCM-HMM聚类结果，设定每个类所对应的混合高斯数为k_k，对每一类建立k_k个混合高斯分布模型，求出观测序列服从概率分布b_j(v_k)，一般将k_k的值设定为与隐状态的数值一致；样本的状态转移服从单步转移概率矩阵为A的马尔科夫过程，显然由t时刻转移到t+h时刻的状态转移矩阵为即t时刻的状态为q_t＝s_i转移到t+h时刻q_t+h＝s_j的概率为A^h(i,j)，根据A^h(i,j)和b_j(v_k)建立多步预测模型，根据建立的多步预测模型，得到h步预测值O_t+h，其中，所述h步预测值O_t+h表示为：

其中，N为状态数，h为多步预测的步数，E(b_j(v_k))为对概率分布的b_j(v_k)的期望值，样本的状态转移服从单步转移概率矩阵为A的马尔科夫过程，显然由t时刻转移到t+h时刻的转移矩阵为即t时刻的状态为q_t＝s_i转移到t+h时刻q_t+h＝s_j的概率为A^h(i,j)。

本实施例中，在未给定预测样本观测序列的情况下，建立多步预测模型。根据相关性分析中的自相关系数和偏自相关系数，得到了如图8(a)、图8(b)的结果。由图8(a)、图8(b)可以看出在滞后第9步时有一定的截尾性，所以取前8步为选定的步长值。接着，根据得到的FCM-HMM聚类结果，计算出状态转移概率A和观测概率b_j(v_k)，计算得到的A的状态转移概率图，如图9所示，空气污染处于状态1的时候，PM_2.5的状态最有可能由自身状态转入自身状态，不需要采取过多的治理措施，空气污染会维持在自身水平，当空气污染处于状态2的时候，采取相关措施来治理空气污染，空气污染维持在自身水平的概率要大于空气转好的概率。从该模型可以很清楚的看出空气污染状态演化的规律。观测概率密度是由每一类的混合成分的均值、方差计算得到的，由于结果较多，不在此进行列举。根据以上参数得到的多步预测结果如图10所示。

综上所述，本发明提供的预测空气质量的方法，针对HMM模型的输入观测序列为互不相关的多维序列的要求，首先利用Person相关系数对所述观测序列的相关性进行分析，并进一步采用主成分分分析对气象变量进行约简，得到互不相关的多个主要影响因素，从而建立适合HMM模型的多维观测序列。其次，利用自动确定聚类数的模糊C均值聚类(FCM)算法对观测序列进行初始聚类。然后对每一类建立HMM，并采用自动确定聚类数的FCM算法来确定HMM模型的隐状态数。在此基础上，计算每一个样本输出的对数似然值，更新原有样本的聚类，定性的表达空气质量样本数据的演化规律。最后针对HMM模型只能识别出样本的状态值的问题，提出了模糊推理多模型和多步预测模型，实现状态值到预测值的转换。一种是给定预测样本观测序列的情况下，建立基于FCM-HMM的模糊推理多模型，对每一类提取模糊规则，建立多个模糊推理规则，得到空气质量样本的趋势变化。另一种是在未给定预测样本观测序列的情况下，建立基于FCM-HMM的多步预测模型，对未来一段时间的空气质量的值进行预测。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种预测空气质量的方法，其特征在于，包括：

获取观测序列；

2.根据权利要求1所述的预测空气质量的方法，其特征在于，所述利用FCM聚类算法对获取的所述观测序列进行聚类，得到最优聚类数及其相应的聚类结果前，所述方法还包括：

对获取的所述观测序列进行归一化处理。

3.根据权利要求2所述的预测空气质量的方法，其特征在于，所述观测序列为多维时间序列；

4.根据权利要求3所述的预测空气质量的方法，其特征在于，所述采用主成分分析法对归一化处理后的多维时间序列进行降维处理包括：

确定归一化处理后的观测序列的相关系数矩阵；

计算主成分贡献率及累计贡献率

5.根据权利要求1-4任一项所述的预测空气质量的方法，其特征在于，所述利用FCM聚类算法对获取的所述观测序列进行聚类，得到最优聚类数及其相应的聚类结果包括：

S11，对聚类数、幂指数和模糊隶属度矩阵进行初始化；

S12，根据所述观测序列，计算第l步的聚类中心V^(l)；

S13，更新第l步的模糊隶属度矩阵U^(l)；

S14，计算目标函数J^(l)；

6.根据权利要求5所述的预测空气质量的方法，其特征在于，所述第l步的聚类中心V^(l)表示为：

v_{i}^{l} = \frac{Σ_{k = 1}^{n} {(u_{i k}^{(l - 1)})}^{m} x_{k}}{Σ_{k = 1}^{n} {(u_{i k}^{(l - 1)})}^{m}}, i = 1, 2, ..., c

所述第l步的模糊隶属度矩阵U^(l)表示为：

u_{i k}^{(l)} = \frac{1}{Σ_{j = 1}^{c} {(\frac{d_{i k}^{l}}{d_{j k}^{l}})}^{\frac{2}{m - 1}}}, i = 1, 2, ..., c; k = 1, 2, ..., n

所述目标函数J^(l)表示为：

J^{(l)} (U^{(l)}, V^{(l)}) = Σ_{k = 1}^{n} Σ_{i = 1}^{c} {(u_{i k}^{(l)})}^{m} {(d_{i k}^{(l)})}^{2}

7.根据权利要求5所述的预测空气质量的方法，其特征在于，所述有效性指标表示为：

其中，inter＝min(||v_i-v_j||²)，i＝1，2，...，c-1 j＝i+1，...，c，x为样本值，c为聚类数，C_i为第i个聚类，v_i,v_j为聚类中心，n为样本数。

8.根据权利要求1所述的预测空气质量的方法，其特征在于，所述HMM模型的数目与最优聚类数相同，设最优聚类数为k_opt，所述HMM模型的数目为k_opt；

所述对空气质量进行预测前，所述方法还包括：

将所述观测序列输入到训练后的k_opt个HMM模型中；

9.根据权利要求8所述的预测空气质量的方法，其特征在于，所述根据所述聚类结果，对建立的HMM模型进行训练，基于训练后的HMM模型，对空气质量进行预测包括：

R_i:

if x₁ is A_i1,x₂ is A_i2,...,x_j is A_ij,

then

y_i(t)＝P_i0+P_i1x₁+...+P_ijx_j

10.根据权利要求8所述的预测空气质量的方法，其特征在于，所述根据所述聚类结果，对建立的HMM模型进行训练，基于训练后的HMM模型，对空气质量进行预测包括：

O_{t + h} = Σ_{j = 1}^{N} A^{h} (i, j) E (b_{j} (v_{k}))