CN106778838A - 一种预测空气质量的方法 - Google Patents

一种预测空气质量的方法 Download PDF

Info

Publication number
CN106778838A
CN106778838A CN201611076083.8A CN201611076083A CN106778838A CN 106778838 A CN106778838 A CN 106778838A CN 201611076083 A CN201611076083 A CN 201611076083A CN 106778838 A CN106778838 A CN 106778838A
Authority
CN
China
Prior art keywords
observation sequence
cluster
class
air quality
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611076083.8A
Other languages
English (en)
Inventor
王玲
肖希元
孟建瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN201611076083.8A priority Critical patent/CN106778838A/zh
Publication of CN106778838A publication Critical patent/CN106778838A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23211Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种预测空气质量的方法,能够自动确定HMM模型的隐状态数。所述方法包括:获取观测序列;利用FCM聚类算法对获取的所述观测序列进行聚类,得到最优聚类数及其相应的聚类结果;根据聚类结果,为每一类建立一个HMM模型,再通过FCM聚类算法确定每一类的最佳聚类数;将确定的每一类的最佳聚类数作为建立的HMM模型的隐状态数;根据所述聚类结果,对建立的HMM模型进行训练,基于训练后的HMM模型,对空气质量进行预测。本发明适用于环境检测技术领域。

Description

一种预测空气质量的方法
技术领域
本发明涉及环境检测技术领域,特别是指一种预测空气质量的方法。
背景技术
空气质量的好坏一方面是由污染源决定的,另一方面是由当地当时的气象因子决定的。在相同的污染源的情况下,不同的气象因子所造成的地面污染物的浓度相差很大。可以看出空气质量与气象因子有着紧密的联系,为了改善区域空气质量,研究区域空气质量时间序列与气象因子的关系开始变得越来越重要。
近年来,针对空气质量时间序列的非线性、随机性、时序性、动态性及不确定性的特点,国内外已经提出很多预测方法,其中隐性马尔科夫(Hidden Markov Model,HMM)预测方法是其中的一种重要预测方法,此方法能够在考虑预测变量自身序列和影响因子的多维序列的结构的前提下识别和预测空气质量的演化状态,使得模型具有可解释性。
HMM是在马尔科夫过程的基础上发展起来的。由于实际问题比马尔科夫过程所描述的更为复杂,观察到的观测向量不是与状态一一对应的,而是通过一组概率分布相联系的,这样的模型就称为HMM。所以,它是一个双重的随机过程,一个是马尔科夫过程,这是基本随机过程,它是用来描述状态的转移,另一个随机过程描述状态和观察到的观测向量之间的统计对应关系。大多数的HMM模型是采用人为确定隐状态数来对时间序列的特定情形进行预测,预测的结果带有了一定的主观性。
发明内容
本发明要解决的技术问题是提供一种预测空气质量的方法,以解决现有技术所存在的人为确定HMM模型的隐状态数带有主观性的问题。
为解决上述技术问题,本发明实施例提供一种预测空气质量的方法,包括:
获取观测序列;
利用FCM聚类算法对获取的所述观测序列进行聚类,得到最优聚类数及其相应的聚类结果;
根据聚类结果,为每一类建立一个HMM模型,通过FCM聚类算法确定每一类的最佳聚类数;
将确定的每一类的最佳聚类数作为建立的HMM模型的隐状态数;
根据所述聚类结果,对建立的HMM模型进行训练,基于训练后的HMM模型,对空气质量进行预测。
进一步地,所述利用FCM聚类算法对获取的所述观测序列进行聚类,得到最优聚类数及其相应的聚类结果前,所述方法还包括:
对获取的所述观测序列进行归一化处理。
进一步地,所述观测序列为多维时间序列;
所述对获取的所述观测序列进行归一化处理后,所述方法还包括:
采用主成分分析法对归一化处理后的多维时间序列进行降维处理。
进一步地,所述采用主成分分析法对归一化处理后的多维时间序列进行降维处理包括:
确定归一化处理后的观测序列的相关系数矩阵;
计算所述相关系数矩阵的特征值λi与对应于特征值λi的特征向量eij,其中,i=1,2,...,p,j=1,2,...,m,p个特征值满足:λ1≥λ2≥...≥λp≥0;
计算主成分贡献率及累计贡献率
将累计贡献率超过预设的贡献率阈值时对应的成分作为主成分进行分析,得到新的观测序列。
进一步地,所述利用FCM聚类算法对获取的所述观测序列进行聚类,得到最优聚类数及其相应的聚类结果包括:
S11,对聚类数、幂指数和模糊隶属度矩阵进行初始化;
S12,根据所述观测序列,计算第l步的聚类中心V(l)
S13,更新第l步的模糊隶属度矩阵U(l)
S14,计算目标函数J(l)
S15,比较当前目标函数的值与前一次的目标函数的值,如果二者的绝对差值小于预设的终止迭代阈值,则停止迭代,执行S16;否则,令l=l+1,返回S12,继续迭代;
S16,计算不同聚类数时的FCM聚类算法的运行时间和有效性指标,当所述运行时间最短且所述有效性指标最小时的聚类数为最优聚类数。
进一步地,所述第l步的聚类中心V(l)表示为:
所述第l步的模糊隶属度矩阵U(l)表示为:
所述目标函数J(l)表示为:
其中,表示第l步的聚类中心,表示第l步的模糊隶属度矩阵中的第i行第k列元素,dik (l)=||xk-vi (l)||,xk为第k样本,n为样本数,c为聚类数,m表示幂指数。
进一步地,所述有效性指标表示为:
其中,inter=min(||vi-vj||2),i=1,2,...,c-1j=i+1,...,c,x为样本值,c为聚类数,Ci为第i个聚类,vi,vj为聚类中心,n为样本数。
进一步地,所述HMM模型的数目与最优聚类数相同,设最优聚类数为kopt,所述HMM模型的数目为kopt
所述对空气质量进行预测前,所述方法还包括:
将所述观测序列输入到训练后的kopt个HMM模型中;
利用前后向算法计算每个HMM模型对每一个观测序列产生的对数似然值,其中,每一个观测序列的对数似然值的个数为kopt
对每个观测序列的kopt个对数似然值进行分析,得到每个观测序列的最大对数似然值,其中,每个观测序列的最大对数似然值对应的HMM模型的类为所述观测序列属于的类;
将所述观测序列划分到所述观测序列的最大对数似然值对应的类中,得到FCM-HMM聚类结果。
进一步地,所述根据所述聚类结果,对建立的HMM模型进行训练,基于训练后的HMM模型,对空气质量进行预测包括:
若给定预测样本观测序列,则根据得到的FCM-HMM聚类结果,确定每个类的模糊规则的前件参数;
根据每个类中的样本的观测序列,使用最小二乘法确定每个类的模糊规则的后件参数;
根据确定的每个类的模糊规则,对所述给定的预测样本观测序列进行预测;其中,所述每个类的模糊规则形式表示为:
Ri:
if x1 is Ai1,x2 is Ai2,...,xj is Aij,
then
yi(t)=Pi0+Pi1x1+...+Pijxj
其中,x1,x2,...,xj表示构成模糊规则前件的变量,Pi0,Pi1,...,Pij是后件参数,Aij是前件参数,Aij表示样本第j维对于第i条模糊规则的隶属度, 分别表示第i类的第j维的均值和方差值,xj表示样本的第j维,Pij是第i条模糊规则的第j维的后件参数。
进一步地,所述根据所述聚类结果,对建立的HMM模型进行训练,基于训练后的HMM模型,对空气质量进行预测包括:
若未给定预测样本观测序列,则根据得到的FCM-HMM聚类结果,计算出多步预测值Ot+h,所述多步预测值Ot+h表示为:
其中,N为状态数,h为多步预测的步数,Ah表示由t时刻转移到t+h时刻的状态转移概率矩阵,即t时刻的状态为qt=si转移到t+h时刻qt+h=sj的概率为Ah(i,j),A表示单步转移概率矩阵,E(bj(vk))为对概率分布为bj(vk)的期望值,bj(vk)是在第j个状态sj下,第k个预测样本观测序列vk的观测概率密度。
本发明的上述技术方案的有益效果如下:
上述方案中,由于观测序列具有不确定性,利用自动确定聚类数的FCM聚类对观测序列进行聚类,确定观测序列的初始聚类结果,然后,根据聚类结果,为每一类建立一个HMM模型,接着,利用自动确定聚类数的FCM确定每一类的最佳聚类数作为HMM模型的隐状态数,根据所述聚类结果,对建立的HMM模型进行训练,基于训练后的HMM模型,对空气质量进行预测。
附图说明
图1为本发明实施例提供的预测空气质量的方法的流程示意图;
图2为本发明实施例提供的FCM聚类算法的流程示意图;
图3为本发明实施例提供的基于FCM-HMM聚类算法的流程示意图;
图4为本发明实施例提供的预测空气质量的流程示意图;
图5为本发明实施例提供的基于FCM-HMM聚类结果的模糊推理多模型框架示意图;
图6为本发明实施例提供的观测序列的预测值与实际值的对比示意图;
图7为本发明实施例提供的基于FCM-HMM聚类结果的多步预测流程示意图;
图8(a)为本发明实施例提供的步长和自相关系数的关系示意图;
图8(b)为本发明实施例提供的步长和偏自相关系数的关系示意图;
图9为本发明实施例提供的多步预测模型的状态转移概率图;
图10为本发明实施例提供的多步预测模型的预测结果示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的人为确定HMM模型的隐状态数带有主观性的问题,提供一种预测空气质量的方法。
参看图1所示,本发明实施例提供的预测空气质量的方法,包括:
步骤101,获取观测序列;
步骤102,利用FCM聚类算法对获取的所述观测序列进行聚类,得到最优聚类数及其相应的聚类结果;
步骤103,根据聚类结果,为每一类建立一个HMM模型,通过FCM聚类算法再次确定每一类的最佳聚类数;
步骤104,将确定的每一类的最佳聚类数作为建立的HMM模型的隐状态数;
步骤105,根据所述聚类结果,对建立的HMM模型进行训练,基于训练后的HMM模型,对空气质量进行预测。
本发明实施例所述的预测空气质量的方法,由于观测序列具有不确定性,利用自动确定聚类数的FCM聚类对观测序列进行聚类,确定观测序列的初始聚类结果,然后,根据聚类结果,为每一类建立一个HMM模型,接着,利用自动确定聚类数的FCM确定每一类的最佳聚类数作为HMM模型隐状态数,根据所述聚类结果,对建立的HMM模型进行训练,基于训练后的HMM模型,对空气质量进行预测。
本实施例中,在预测空气质量时,所述观测序列为空气质量时间序列/空气质量时间序列数据集,所述数据集包括多个样本,每个样本对应一个观测序列,所述观测序列为多维所述观测序列。
在前述预测空气质量的方法的具体实施方式中,进一步地,所述利用FCM聚类算法对获取的所述观测序列进行聚类,得到最优聚类数及其相应的聚类结果前,所述方法还包括:
对获取的所述观测序列进行归一化处理。
本实施例中,在建立预测模型之前,需获取预测模型的输入数据,所述输入数据具体可以为:观测序列,为了消除变量之间由于量纲造成的影响,需对所述观测序列进行归一化处理,例如,可以采用min-max归一化方法对所述观测序列进行归一化处理,其中,所述min-max数据归一化方法的表达式表示为:
其中,xip和xip'分别表示归一化前后第i个样本的第p维数据,min(x.p)表示第p维数据的最小值,max(x.p)表示第p维数据的最大值。
在前述预测空气质量的方法的具体实施方式中,进一步地,所述观测序列为多维时间序列;
所述对获取的所述观测序列进行归一化处理后,所述方法还包括:
采用主成分分析法对归一化处理后的多维时间序列进行降维处理。
本实施例中,在建立预测模型之前,还需确定预测模型的输入变量、输出变量,为了更清楚的理解基于隐性马尔科夫空气质量预测模型的构建,可以选取某地区2013年到2015年的样本共计700个样本对空气质量中的PM2.5进行预测建模,所考虑的气象因子有温度、风速、露点、rehum共计4个影响因素,同时考虑到其他污染物对空气质量的影响,把NO、NO2、CO、SO2这4个变量也作为输入变量;即:建模需要的输入变量是(温度、风速、露点、rehum、NO、NO2、CO、SO2),为一个8维向量,输出变量为PM2.5的值。
本实施例中,可以利用Pearson相关系数分析空气质量的影响变量之间的相关性,其中,所述Pearson相关系数表示为:
其中,X,Y为两个变量,σXY为标准差,cov(X,Y)为协方差,μXY为均值,E(X-μX)(Y-μY)表示期望。
本实施例中,由于所述观测序列为多维时间序列,变量较多,在完成观测序列的相关性分析后,可以采用主成分分析来对归一化处理后的多维时间序列进行降维处理。
在前述预测空气质量的方法的具体实施方式中,进一步地,所述采用主成分分析法对归一化处理后的多维时间序列进行降维处理包括:
确定归一化处理后的观测序列的相关系数矩阵;
计算所述相关系数矩阵的特征值λi与对应于特征值λi的特征向量eij,其中,i=1,2,...,p,j=1,2,...,m,p个特征值满足:λ1≥λ2≥...≥λp≥0;
计算主成分贡献率及累计贡献率
将累计贡献率超过预设的贡献率阈值时对应的成分作为主成分进行分析,得到新的观测序列。
本实施例中,采用主成分分析法对归一化处理后的多维时间序列进行降维处理,得到新的多维互不相关的观测序列,其中,所述采用主成分分析法对归一化处理后的多维时间序列进行降维处理具体可以包括:
D1、将归一化处理后的观测序列转化为标准化阵,对所述标准化阵求相关系数矩阵,其中,所述相关系数矩阵表示为:
其中,为变量xi与xj的相关系数,所述相关系数采用Person相关系数。由于R是实对称矩阵(即rij=rji),所以只需计算其上三角元素或下三角元素即可,n表示变量xi、xj的样本数,分别为变量xi、xj的样本均值,xki表示第k个样本的第i个变量值,xkj表示第k个样本的第j个变量值。
D2、计算所述相关系数矩阵R的特征值与特征向量:具体的,求解所述相关系数矩阵R的特征方程,得p个特征值,并使其按大小顺序排列求解,即λ1≥λ2≥...≥λp≥0,然后分别求出对应于特征值λi的特征向量eij,其中,i=1,2,...,p,j=1,2,...,m;
D3、计算主成分贡献率及累计贡献率:一般取累计贡献率达到85%以上的特征值及其对应的第一主成分、第二主成分、...、第m主成分;
所述主成分贡献率表示为:
所述累计贡献率表示为:
本实施例中,执行D3后,例如,得到主成分贡献率为fai=[0.0094,0.0159,0.0409,0.0673,0.0791,0.1364,0.2041,0.4469];
D4、计算主成分负荷,所述主成分负荷表示为:
D5、根据D4,得到主成分Z,其中,所述主成分Z表示为:
本实施例中,执行D5后,例如,后5个成分的累计贡献率达到93.38%,选取后5个成分作为主成分进行分析,根据主成分分析的特征向量生成新的5维的观测序列,即PM2.5和5维观测序列组成一个6维的数据集。
在前述预测空气质量的方法的具体实施方式中,进一步地,所述利用FCM聚类算法对获取的所述观测序列进行聚类,得到最优聚类数及其相应的聚类结果包括:
S11,对聚类数、幂指数和模糊隶属度矩阵进行初始化;
S12,根据所述观测序列,计算第l步的聚类中心;
S13,更新第l步的模糊隶属度矩阵;
S14,计算目标函数J(l)
S15,比较当前目标函数的值与前一次的目标函数的值,如果二者的绝对差值小于预设的终止迭代阈值,则停止迭代,执行S16;否则,令l=l+1,返回S12,继续迭代;
S16,计算不同聚类数时的FCM聚类算法的运行时间和有效性指标,当所述运行时间最短且所述有效性指标最小时的聚类数为最优聚类数。
本实施例中,如图2所示,利用FCM聚类算法对获取的所述观测序列进行聚类,具体的,利用FCM聚类算法对降维后的观测序列进行聚类,得到最优聚类数及其相应的聚类结果可以包括:
F1、对聚类参数进行初始化,具体的,确定聚类数c=2,幂指数m和模糊隶属度矩阵此时迭代步数l=1,c满足n表示样本数,m满足m>1;
F2、计算第l步的聚类中心V(l),其中,所述第l步的聚类中心V(l)定义如下:
F3、更新第l步的模糊隶属度矩阵U(l),计算目标函数J(l)
所述第l步的模糊隶属度矩阵U(l)表示为:
所述目标函数J(l)表示为:
其中,表示第l步的聚类中心,表示第l步的模糊隶属度矩阵中的第i行第k列元素,dik (l)=||xk-vi (l)||,xk为第k样本,n为样本数,c为聚类数,m表示幂指数。
F4、比较当前目标函数的值与前一次的目标函数的值,如果二者的绝对差值小于预设的终止迭代阈值ε(其中,ε是大于0的极小值):|J(l)-J(l-1)|<ε,停止迭代,执行步骤F5;否则,令l=l+1,返回步骤F2,继续迭代;
F5、停止迭代时,假设c=8,则计算聚类数c=2~8时FCM聚类算法的运行时间和有效性指标,其中,所述有效性指标表示为:
其中,inter=min(||vi-vj||2),i=1,2,...,c-1j=i+1,...,c,x为样本值,c为聚类数,Ci为第i个聚类,vi,vj为聚类中心,n为样本数。
本实施例中,当聚类数为2的时候,FCM聚类算法所需的运行时间最短,且聚类的有效性指标最小,所以最优聚类数kopt=2,从而将观测序列划分为两类。
本实施例中,根据聚类结果,为每一类建立HMM模型,然后,通过FCM聚类算法确定每一类中PM2.5的最佳聚类数/最佳划分/最佳隐状态数,得到的结果为:两类的PM2.5的最佳聚类数分别为2、3;将确定的每一类的最佳聚类数作为建立的HMM模型的隐状态数,得到,类1对应的HMM模型为隐状态数为2的HMM模型,类2对应的HMM模型为隐状态数为3的HMM模型。
本实施例中,步骤F5中的最优聚类数kopt=2,HMM模型的个数是步骤F5中的最佳聚类个数,HMM模型的数目为2,将FCM最优聚类结果作为训练数据输入相应的HMM模型并进行训练,得到2个HMM模型。这样,将FCM最优聚类结果作为训练数据输入相应的HMM模型并进行训练,很大程度上能提高类内的相似度以及类间的相异性,提高了HMM模型训练的准确度。
在前述预测空气质量的方法的具体实施方式中,进一步地,如图3所示,所述HMM模型的数目与最优聚类数相同,设最优聚类数为kopt,所述HMM模型的数目为kopt
所述对空气质量进行预测前,所述方法还包括:
将所述观测序列输入到训练后的kopt个HMM模型中;
利用前后向算法计算每个HMM模型对每一个观测序列产生的对数似然值,其中,每一个观测序列的对数似然值的个数为kopt
对每个观测序列的kopt个对数似然值进行分析,得到每个观测序列的最大对数似然值,其中,每个观测序列的最大对数似然值对应的HMM模型的类为所述观测序列属于的类;
将所述观测序列划分到所述观测序列的最大对数似然值对应的类中,得到FCM-HMM聚类结果。
本实施例中,还可以根据训练之后的HMM模型对样本进行二次聚类,定性地识别和预测空气质量的演化状态/演化规律,将之前的FCM聚类算法和所述二次聚类称为FCM-HMM的聚类算法。
本实施例中,所述根据训练之后的HMM模型对样本进行二次聚类具体可以包括:
将所有观测序列(每条观测序列对应一个样本)输入到训练之后的kopt个HMM模型中,利用前后向(Forward-backwad)算法计算每个HMM模型对每一个样本产生的对数似然值,其中,每一个样本的对数似然值的个数是步骤F5中的最优聚类数kopt,所述对数似然值可以表现出样本的观测序列对训练之后的HMM模型的适应性,产生的对数似然值越大,样本与训练之后的HMM模型间的距离越小;每个样本的最大对数似然值对应的HMM模型的类为所述样本属于的类,将所述样本重新划分到所述样本的最大对数似然值对应的类中,得到的新的聚类结果,所述新的聚类结果,由于是通过FCM-HMM聚类算法得到的,因此,所述新的聚类结果也称为FCM-HMM聚类结果。
本实施例中,根据每个观测序列由kopt个HMM模型产生的对数似然值大小对观测序列进行二次聚类,有效地提高聚类的精度,定性地识别和预测了空气质量样本数据的演化状态。
在前述预测空气质量的方法的具体实施方式中,进一步地,所述根据所述聚类结果,对建立的HMM模型进行训练,基于训练后的HMM模型,对空气质量进行预测包括:
若给定预测样本观测序列,则根据得到的FCM-HMM聚类结果,确定每个类的模糊规则的前件参数;
根据每个类中的样本的观测序列,使用最小二乘法确定每个类的模糊规则的后件参数;
根据确定的每个类的模糊规则,对所述给定的预测样本观测序列进行预测;其中,所述每个类的模糊规则形式表示为:
Ri:
if x1 is Ai1,x2 is Ai2,...,xj is Aij,
then
yi(t)=Pi0+Pi1x1+...+Pijxj
其中,x1,x2,...,xj表示构成模糊规则前件的变量,Pi0,Pi1,...,Pij是后件参数,Aij是前件参数,Aij表示样本第j维对于第i条模糊规则的隶属度, 分别表示第i类的第j维的均值和方差值,xj表示样本的第j维,Pij是第i条模糊规则的第j维的后件参数。
本实施例中,如图4所示,在给定预测样本观测序列时,可以根据得到的FCM-HMM聚类结果建立模糊推理多模型,得到空气质量的趋势变化和未来一段时间的空气质量的预测值;在未给定预测样本观测序列时,可以根据得到的FCM-HMM聚类结果建立多步预测模型,得到空气质量的趋势变化和未来一段时间的空气质量的预测值。
本实施例中,如图5所示,若给定预测样本观测序列,则根据得到的FCM-HMM聚类结果,在该聚类结果的基础上,与模糊推理多模型结合,对这kopt个类分别提取每一类的模糊规则,建立多个模糊推理规则,将HMM模型预测的空气质量的状态值转换为空气质量的具体预测值,得到空气质量的趋势变化,其中,提取模糊规则的步骤可以包括:
K1、根据得到的FCM-HMM聚类结果,计算每个类的模糊规则的前件参数;
K2、根据每个类中的样本的观测序列,使用最小二乘法确定每个类的模糊规则的后件参数;具体的:根据最小二乘法对每个HMM模型的后件参数进行辨识,最终将各个HMM模型输出值的加权和作为预测值输出。假定输入的样本集/观测序列为Z,当样本集经过FCM-HMM聚类算法被划分成kopt个类时,就可以用提取的kopt个模糊规则模型{R(1),R(2),...,R(kopt)}来表示,最终经过各个HMM模型输出值的加权和得到预测值的输出,其中,以R(1)为例,R(1)可以简写为R1
本实施例中,根据得到的FCM-HMM聚类结果,将所有的kopt个模糊规则的隶属函数的平均值、方差准确的固定。所以该HMM模型能够更准确的进行预测。建立kopt个模糊规则,根据这些模糊规则就可以对给定预测样本的观测序列进行预测。
本实施例中,例如,根据得到的FCM-HMM聚类结果,对所述新的聚类结果的两个类提取模糊规则,用u1,u2,u3,u4,u5表示模型的五个输入多维观测序列,Aij(1≤i≤2,1≤j≤5)为样本第j维对于第i个模糊规则的隶属度,一类模糊规则为:
R1
if u1 is A11,u2 is A12,...,u5 is A15
then
y1(t)=-0.1305+0.4055u1-0.0125u2+...-0.0128u5
另一类模糊规则为:
R2
if u1 is A21,u2 is A22,...,u5 is A25
then
y2(t)=0.0110+0.0285u1-0.0263u2+...-0.0031u5
采用上述2个模糊规则模型R1、R2进行预测,并与实际的的数据值进行对比得到如图6的结果,可以看出HMM模型的拟合效果较好,本实施例中,模糊规则模型R1、R2的部分参数如表1所示:
表1模糊规则模型R1、R2的部分参数
表1中,(0.1305,0.4055,0.0125,-0.0270,-0.0052,0.0128)中的0.1305是常数项,0.4055、0.0125、-0.0270、-0.0052、0.0128分别是五个输入变量的后件参数。
本实施例中,所述模糊推理多模型不能在未给定预测样本观测序列时进行空气质量预测,在未给定预测样本观测序列的前提下,建立了另外一种预测模型,即基于FCM-HMM的多步预测模型,对未来时间的空气质量值进行预测。
为了实现多步预测,根据聚类的结果计算样本的状态转移概率和观测概率密度B,利用状态转移概率和观测概率密度B这两个参数建立基于FCM-HMM的多步预测模型,对未来一段时间的空气质量的值进行预测。
在前述预测空气质量的方法的具体实施方式中,进一步地,所述根据所述聚类结果,对建立的HMM模型进行训练,基于训练后的HMM模型,对空气质量进行预测包括:
若未给定预测样本观测序列,则根据得到的FCM-HMM聚类结果,计算出多步预测值Ot+h,所述多步预测值Ot+h表示为:
其中,N为状态数,h为多步预测的步数,Ah表示由t时刻转移到t+h时刻的状态转移概率矩阵,即t时刻的状态为qt=si转移到t+h时刻qt+h=sj的概率为Ah(i,j),A表示单步转移概率矩阵,E(bj(vk))为对概率分布为bj(vk)的期望值,bj(vk)是在第j个状态sj下,第k个预测样本观测序列vk的观测概率密度。
本实施例中,bj(vk)与观测概率密度B之间的关系为:
其中,N表示预测样本的数目。
本实施例中,如图7所示,若未给定预测样本观测序列,则根据得到的FCM-HMM聚类结果,对每个样本标注类标号,计算时间序列样本类之间的转移概率,即得到时间序列的状态转移概率矩阵;同时根据得到的FCM-HMM聚类结果,设定每个类所对应的混合高斯数为kk,对每一类建立kk个混合高斯分布模型,求出观测序列服从概率分布bj(vk),一般将kk的值设定为与隐状态的数值一致;样本的状态转移服从单步转移概率矩阵为A的马尔科夫过程,显然由t时刻转移到t+h时刻的状态转移矩阵为即t时刻的状态为qt=si转移到t+h时刻qt+h=sj的概率为Ah(i,j),根据Ah(i,j)和bj(vk)建立多步预测模型,根据建立的多步预测模型,得到h步预测值Ot+h,其中,所述h步预测值Ot+h表示为:
其中,N为状态数,h为多步预测的步数,E(bj(vk))为对概率分布的bj(vk)的期望值,样本的状态转移服从单步转移概率矩阵为A的马尔科夫过程,显然由t时刻转移到t+h时刻的转移矩阵为即t时刻的状态为qt=si转移到t+h时刻qt+h=sj的概率为Ah(i,j)。
本实施例中,在未给定预测样本观测序列的情况下,建立多步预测模型。根据相关性分析中的自相关系数和偏自相关系数,得到了如图8(a)、图8(b)的结果。由图8(a)、图8(b)可以看出在滞后第9步时有一定的截尾性,所以取前8步为选定的步长值。接着,根据得到的FCM-HMM聚类结果,计算出状态转移概率A和观测概率bj(vk),计算得到的A的状态转移概率图,如图9所示,空气污染处于状态1的时候,PM2.5的状态最有可能由自身状态转入自身状态,不需要采取过多的治理措施,空气污染会维持在自身水平,当空气污染处于状态2的时候,采取相关措施来治理空气污染,空气污染维持在自身水平的概率要大于空气转好的概率。从该模型可以很清楚的看出空气污染状态演化的规律。观测概率密度是由每一类的混合成分的均值、方差计算得到的,由于结果较多,不在此进行列举。根据以上参数得到的多步预测结果如图10所示。
综上所述,本发明提供的预测空气质量的方法,针对HMM模型的输入观测序列为互不相关的多维序列的要求,首先利用Person相关系数对所述观测序列的相关性进行分析,并进一步采用主成分分分析对气象变量进行约简,得到互不相关的多个主要影响因素,从而建立适合HMM模型的多维观测序列。其次,利用自动确定聚类数的模糊C均值聚类(FCM)算法对观测序列进行初始聚类。然后对每一类建立HMM,并采用自动确定聚类数的FCM算法来确定HMM模型的隐状态数。在此基础上,计算每一个样本输出的对数似然值,更新原有样本的聚类,定性的表达空气质量样本数据的演化规律。最后针对HMM模型只能识别出样本的状态值的问题,提出了模糊推理多模型和多步预测模型,实现状态值到预测值的转换。一种是给定预测样本观测序列的情况下,建立基于FCM-HMM的模糊推理多模型,对每一类提取模糊规则,建立多个模糊推理规则,得到空气质量样本的趋势变化。另一种是在未给定预测样本观测序列的情况下,建立基于FCM-HMM的多步预测模型,对未来一段时间的空气质量的值进行预测。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种预测空气质量的方法,其特征在于,包括:
获取观测序列;
利用FCM聚类算法对获取的所述观测序列进行聚类,得到最优聚类数及其相应的聚类结果;
根据聚类结果,为每一类建立一个HMM模型,通过FCM聚类算法确定每一类的最佳聚类数;
将确定的每一类的最佳聚类数作为建立的HMM模型的隐状态数;
根据所述聚类结果,对建立的HMM模型进行训练,基于训练后的HMM模型,对空气质量进行预测。
2.根据权利要求1所述的预测空气质量的方法,其特征在于,所述利用FCM聚类算法对获取的所述观测序列进行聚类,得到最优聚类数及其相应的聚类结果前,所述方法还包括:
对获取的所述观测序列进行归一化处理。
3.根据权利要求2所述的预测空气质量的方法,其特征在于,所述观测序列为多维时间序列;
所述对获取的所述观测序列进行归一化处理后,所述方法还包括:
采用主成分分析法对归一化处理后的多维时间序列进行降维处理。
4.根据权利要求3所述的预测空气质量的方法,其特征在于,所述采用主成分分析法对归一化处理后的多维时间序列进行降维处理包括:
确定归一化处理后的观测序列的相关系数矩阵;
计算所述相关系数矩阵的特征值λi与对应于特征值λi的特征向量eij,其中,i=1,2,...,p,j=1,2,...,m,p个特征值满足:λ1≥λ2≥...≥λp≥0;
计算主成分贡献率及累计贡献率
将累计贡献率超过预设的贡献率阈值时对应的成分作为主成分进行分析,得到新的观测序列。
5.根据权利要求1-4任一项所述的预测空气质量的方法,其特征在于,所述利用FCM聚类算法对获取的所述观测序列进行聚类,得到最优聚类数及其相应的聚类结果包括:
S11,对聚类数、幂指数和模糊隶属度矩阵进行初始化;
S12,根据所述观测序列,计算第l步的聚类中心V(l)
S13,更新第l步的模糊隶属度矩阵U(l)
S14,计算目标函数J(l)
S15,比较当前目标函数的值与前一次的目标函数的值,如果二者的绝对差值小于预设的终止迭代阈值,则停止迭代,执行S16;否则,令l=l+1,返回S12,继续迭代;
S16,计算不同聚类数时的FCM聚类算法的运行时间和有效性指标,当所述运行时间最短且所述有效性指标最小时的聚类数为最优聚类数。
6.根据权利要求5所述的预测空气质量的方法,其特征在于,所述第l步的聚类中心V(l)表示为:
v i l = &Sigma; k = 1 n ( u i k ( l - 1 ) ) m x k &Sigma; k = 1 n ( u i k ( l - 1 ) ) m , i = 1 , 2 , ... , c
所述第l步的模糊隶属度矩阵U(l)表示为:
u i k ( l ) = 1 &Sigma; j = 1 c ( d i k l d j k l ) 2 m - 1 , i = 1 , 2 , ... , c ; k = 1 , 2 , ... , n
所述目标函数J(l)表示为:
J ( l ) ( U ( l ) , V ( l ) ) = &Sigma; k = 1 n &Sigma; i = 1 c ( u i k ( l ) ) m ( d i k ( l ) ) 2
其中,表示第l步的聚类中心,表示第l步的模糊隶属度矩阵中的第i行第k列元素,dik (l)=||xk-vi (l)||,xk为第k样本,n为样本数,c为聚类数,m表示幂指数。
7.根据权利要求5所述的预测空气质量的方法,其特征在于,所述有效性指标表示为:
其中,inter=min(||vi-vj||2),i=1,2,...,c-1 j=i+1,...,c,x为样本值,c为聚类数,Ci为第i个聚类,vi,vj为聚类中心,n为样本数。
8.根据权利要求1所述的预测空气质量的方法,其特征在于,所述HMM模型的数目与最优聚类数相同,设最优聚类数为kopt,所述HMM模型的数目为kopt
所述对空气质量进行预测前,所述方法还包括:
将所述观测序列输入到训练后的kopt个HMM模型中;
利用前后向算法计算每个HMM模型对每一个观测序列产生的对数似然值,其中,每一个观测序列的对数似然值的个数为kopt
对每个观测序列的kopt个对数似然值进行分析,得到每个观测序列的最大对数似然值,其中,每个观测序列的最大对数似然值对应的HMM模型的类为所述观测序列属于的类;
将所述观测序列划分到所述观测序列的最大对数似然值对应的类中,得到FCM-HMM聚类结果。
9.根据权利要求8所述的预测空气质量的方法,其特征在于,所述根据所述聚类结果,对建立的HMM模型进行训练,基于训练后的HMM模型,对空气质量进行预测包括:
若给定预测样本观测序列,则根据得到的FCM-HMM聚类结果,确定每个类的模糊规则的前件参数;
根据每个类中的样本的观测序列,使用最小二乘法确定每个类的模糊规则的后件参数;
根据确定的每个类的模糊规则,对所述给定的预测样本观测序列进行预测;其中,所述每个类的模糊规则形式表示为:
Ri:
if x1 is Ai1,x2 is Ai2,...,xj is Aij,
then
yi(t)=Pi0+Pi1x1+...+Pijxj
其中,x1,x2,...,xj表示构成模糊规则前件的变量,Pi0,Pi1,...,Pij是后件参数,Aij是前件参数,Aij表示样本第j维对于第i条模糊规则的隶属度, 分别表示第i类的第j维的均值和方差值,xj表示样本的第j维,Pij是第i条模糊规则的第j维的后件参数。
10.根据权利要求8所述的预测空气质量的方法,其特征在于,所述根据所述聚类结果,对建立的HMM模型进行训练,基于训练后的HMM模型,对空气质量进行预测包括:
若未给定预测样本观测序列,则根据得到的FCM-HMM聚类结果,计算出多步预测值Ot+h,所述多步预测值Ot+h表示为:
O t + h = &Sigma; j = 1 N A h ( i , j ) E ( b j ( v k ) )
其中,N为状态数,h为多步预测的步数,Ah表示由t时刻转移到t+h时刻的状态转移概率矩阵,即t时刻的状态为qt=si转移到t+h时刻qt+h=sj的概率为Ah(i,j),A表示单步转移概率矩阵,E(bj(vk))为对概率分布为bj(vk)的期望值,bj(vk)是在第j个状态sj下,第k个预测样本观测序列vk的观测概率密度。
CN201611076083.8A 2016-11-29 2016-11-29 一种预测空气质量的方法 Pending CN106778838A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611076083.8A CN106778838A (zh) 2016-11-29 2016-11-29 一种预测空气质量的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611076083.8A CN106778838A (zh) 2016-11-29 2016-11-29 一种预测空气质量的方法

Publications (1)

Publication Number Publication Date
CN106778838A true CN106778838A (zh) 2017-05-31

Family

ID=58901008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611076083.8A Pending CN106778838A (zh) 2016-11-29 2016-11-29 一种预测空气质量的方法

Country Status (1)

Country Link
CN (1) CN106778838A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564110A (zh) * 2018-03-26 2018-09-21 上海电力学院 一种基于聚类算法的空气质量预测方法
CN110276409A (zh) * 2019-06-27 2019-09-24 腾讯科技(深圳)有限公司 一种时间序列异常检测方法、装置、服务器和存储介质
CN110321906A (zh) * 2018-03-28 2019-10-11 霍尼韦尔环境自控产品(天津)有限公司 用于提醒更换空气净化器的滤网的方法以及提醒装置
CN110333325A (zh) * 2019-08-02 2019-10-15 中南大学 一种大气污染环境下列车运行防护方法及系统
WO2019214455A1 (zh) * 2018-05-10 2019-11-14 华为技术有限公司 一种数据序列预测方法及计算设备
CN111401605A (zh) * 2020-02-17 2020-07-10 北京石油化工学院 大气污染的可解释预测方法
CN111898820A (zh) * 2020-07-27 2020-11-06 重庆市规划设计研究院 基于趋势聚类和集成树的pm2.5小时浓度组合预测方法及系统
CN116091779A (zh) * 2023-04-07 2023-05-09 湖北一方科技发展有限责任公司 一种基于水文数据进行预测的方法及系统
CN116485418A (zh) * 2023-06-21 2023-07-25 福建基茶生物科技有限公司 一种茶叶精制生产溯源方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870845A (zh) * 2014-04-08 2014-06-18 重庆理工大学 点云聚类去噪过程中新的k值优化方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870845A (zh) * 2014-04-08 2014-06-18 重庆理工大学 点云聚类去噪过程中新的k值优化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LING WANG 等: "Prediction of Air Pollution Based on FCM-HMM Multi-model", 《PROCEEDINGS OF THE 35TH CHINESE CONTROL CONFERENCE》 *
张冬青 等: "考虑影响因素的隐马尔可夫模型在经济预测中的应用", 《中国管理科学》 *
顾绍红 等: "主成分分析模型在数据处理中的应用", 《测绘科学技术学报》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564110A (zh) * 2018-03-26 2018-09-21 上海电力学院 一种基于聚类算法的空气质量预测方法
CN108564110B (zh) * 2018-03-26 2021-07-20 上海电力学院 一种基于聚类算法的空气质量预测方法
CN110321906A (zh) * 2018-03-28 2019-10-11 霍尼韦尔环境自控产品(天津)有限公司 用于提醒更换空气净化器的滤网的方法以及提醒装置
WO2019214455A1 (zh) * 2018-05-10 2019-11-14 华为技术有限公司 一种数据序列预测方法及计算设备
CN110276409A (zh) * 2019-06-27 2019-09-24 腾讯科技(深圳)有限公司 一种时间序列异常检测方法、装置、服务器和存储介质
CN110333325A (zh) * 2019-08-02 2019-10-15 中南大学 一种大气污染环境下列车运行防护方法及系统
CN111401605A (zh) * 2020-02-17 2020-07-10 北京石油化工学院 大气污染的可解释预测方法
CN111401605B (zh) * 2020-02-17 2023-05-02 北京石油化工学院 大气污染的可解释预测方法
CN111898820A (zh) * 2020-07-27 2020-11-06 重庆市规划设计研究院 基于趋势聚类和集成树的pm2.5小时浓度组合预测方法及系统
CN116091779A (zh) * 2023-04-07 2023-05-09 湖北一方科技发展有限责任公司 一种基于水文数据进行预测的方法及系统
CN116485418A (zh) * 2023-06-21 2023-07-25 福建基茶生物科技有限公司 一种茶叶精制生产溯源方法及系统
CN116485418B (zh) * 2023-06-21 2023-09-05 福建基茶生物科技有限公司 一种茶叶精制生产溯源方法及系统

Similar Documents

Publication Publication Date Title
CN106778838A (zh) 一种预测空气质量的方法
CN111148118B (zh) 基于时间序列的流量预测和载波关断方法和系统
CN106600059B (zh) 基于改进rbf神经网络的智能电网短期负荷预测方法
CN108320016B (zh) 一种建筑能耗短期预测方法
CN109063911B (zh) 一种基于门控循环单元网络的负荷聚合体分组预测方法
Wang et al. Data-driven mode identification and unsupervised fault detection for nonlinear multimode processes
CN109101584B (zh) 一种将深度学习与数学分析相结合的句子分类改进方法
Wang et al. Correlation aware multi-step ahead wind speed forecasting with heteroscedastic multi-kernel learning
CN108764460A (zh) 一种基于时间卷积和lstm的时间序列预测方法
CN108022001A (zh) 基于pca和分位数回归森林的短期负荷概率密度预测方法
CN110059852A (zh) 一种基于改进随机森林算法的股票收益率预测方法
CN109165819B (zh) 一种基于改进AdaBoost.M1-SVM的有源配电网可靠性快速评估方法
CN107798426A (zh) 基于原子分解和交互式模糊满意度的风功率区间预测方法
CN109583565A (zh) 基于注意力模型长短时记忆网络的洪水预测方法
CN111626785A (zh) 一种基于结合注意力的cnn-lstm网络基金价格预测方法
CN109492748B (zh) 一种基于卷积神经网络的电力系统的中长期负荷预测模型建立方法
CN113344288B (zh) 梯级水电站群水位预测方法、装置及计算机可读存储介质
CN110348608A (zh) 一种基于模糊聚类算法改进lstm的预测方法
Abramova Design of neuro-fuzzy decision trees
CN112434848A (zh) 基于深度信念网络的非线性加权组合风电功率预测方法
CN112418476A (zh) 一种超短期电力负荷预测方法
Tembusai et al. K-nearest neighbor with k-fold cross validation and analytic hierarchy process on data classification
Salam et al. A comparison of activation functions in multilayer neural network for predicting the production and consumption of electricity power
CN115358437A (zh) 基于卷积神经网络的供电负荷预测方法
CN114117852B (zh) 一种基于有限差分工作域划分的区域热负荷滚动预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531