CN113379148A - 基于多种机器学习算法融合的污染物浓度反演方法 - Google Patents

基于多种机器学习算法融合的污染物浓度反演方法 Download PDF

Info

Publication number
CN113379148A
CN113379148A CN202110704245.2A CN202110704245A CN113379148A CN 113379148 A CN113379148 A CN 113379148A CN 202110704245 A CN202110704245 A CN 202110704245A CN 113379148 A CN113379148 A CN 113379148A
Authority
CN
China
Prior art keywords
function
model
data
inversion result
inversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110704245.2A
Other languages
English (en)
Inventor
胡俊涛
陈一源
方勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intelligent Manufacturing Institute of Hefei University Technology
Original Assignee
Intelligent Manufacturing Institute of Hefei University Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intelligent Manufacturing Institute of Hefei University Technology filed Critical Intelligent Manufacturing Institute of Hefei University Technology
Priority to CN202110704245.2A priority Critical patent/CN113379148A/zh
Publication of CN113379148A publication Critical patent/CN113379148A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于多种机器学习算法融合的污染物浓度反演方法,该方法融合了CNN、SVM、XGBoost三种机器学习算法,保留了各算法的优势,CNN可以提取具有代表性的特征,SVM算法具有非线性映射和小样本学习的优势,XGBoost算法加入正则化项,可避免过拟合,提高算法效率以及污染物浓度反演的精度。CNN部分作为模型结构的上层,通过卷积层和池化层提取并筛选出数据的主要特征,再经过全连接层展平后输入到模型结构的下层。SVM、XGBoost部分作为模型结构的下层,得到两部分算法的反演结果后,采用模糊逻辑算法进行权重分配,得到最终结果。

Description

基于多种机器学习算法融合的污染物浓度反演方法
技术领域
本发明涉及基于机器学习算法的环境数据反演方法领域,具体是一种基于多种机器学习算法融合的污染物浓度反演方法。
背景技术
气体污染物中,排放的二氧化硫会刺激人体的呼吸道,诱发各种呼吸道疾病,同时会对植被等造成危害,排放的氮氧化物会与其它污染物结合,产生光化学烟雾污染。国家目前用来评价环境空气质量的指标主要是基于六种污染物的浓度,分别是臭氧(O3)、二氧化氮(NO2)、二氧化硫(SO2)、一氧化碳(CO)、细颗粒物(PM2.5)、可吸入颗粒物(PM10)。
近年来,空气污染问题愈发严重,已经成为全球性问题。空气质量监测是应对空气污染的重要手段。国家建立了多个空气监测站点来实时监测空气污染状况,其数据准确度较高,但成本高昂,由政府部门统筹规划,部署较为稀疏。因此,通常使用较低成本的微型监测传感器设备构建大型传感器网络,实现密集化的区域监测。然而,由于受到温湿度、交叉干扰和传感器老化等因素的影响,微型传感器设备读数会和标准浓度之间存在一定的偏差。为确保网络中传感器的数据质量,需要对这些微型传感器数据进行浓度反演。
目前,常用的反演算法包括XGBoost、SVM、RNN等,它们在实际使用时存在容易出现过拟合、依托大样本学习、特征冗余等缺点。本专利将CNN、XGBoost、SVM三种算法结合,既具有非线性映射和小样本学习的优势又可避免过拟合,在提高浓度反演精度的同时也提高了模型的计算效率。
发明内容
本发明的目的是提供一种基于多种机器学习算法融合的污染物浓度反演方法,以解决现有技术存在的容易出现过拟合、依托大样本、计算效率低、精度达不到要求的问题。
为了达到上述目的,本发明所采用的技术方案为:
基于多种机器学习算法融合的污染物浓度反演方法,包括以下步骤:
步骤1、获取空气微站测得的空气污染物数据,以此构建数据集,并对所述数据集进行预处理;
空气微站中测得的数据包括多种空气污染物浓度值、温度、湿度、风速风向、气压值,本发明以空气微站测得的这些数据构建数据集。
步骤2、构建卷积神经网络,并调整卷积神经网络直至卷积神经网络的参数为最优参数;
步骤3、将步骤1预处理后的数据集中的数据输入至步骤2调整后的卷积神经网络中,由卷积神经网络提取数据的抽象特征;
步骤4、构建XGBoost模型,将步骤3得到的所述抽象特征输入至XGBoost模型,并对XGBoost模型进行训练,训练过程中计算XGBoost模型的结点损失以选择增益损失最大的叶子结点,由此通过训练得到XGBoost模型的最优参数,并通过最优参数时的XGBoost模型输出浓度反演结果;
步骤5、构建SVM模型,将步骤3得到的所述抽象特征输入至SVM模型,并对SVM模型进行训练,训练过程中利用网格搜索法得到SVM模型的最佳惩罚系数C及松弛变量,由此通过训练得到SVM模型的的最优参数,并通过最优参数时的SVM模型输出浓度反演结果;
步骤6、将步骤3中XGBoost模型、步骤4中SVM模型输出的浓度反演结果通过模糊逻辑算法进行权重分配,得到污染物浓度最终反演结果。
进一步的,步骤1中采用线性插值法对数据集中的数据进行预处理,以将数据集中数据的缺失值补齐。
进一步的,步骤2中构建的卷积神经网络中的卷积层采用局部连接方式,使用同一个卷积核对目标进行卷积操作。
进一步的,步骤2中构建的卷积神经网络的全连接层中,每个神经元分别与前一层的神经元逐个相连。
进一步的,步骤3中,将步骤1预处理后的数据集中的数据,按时间滑动窗口构造连续特征图后,再输入至步骤2调整后的卷积神经网络中,
进一步的,步骤4中,XGBoost模型中采用的树模型为CART回归树模型,所述XGBoost模型的公式为:
Figure BDA0003131548720000021
其中:n为树的数目;ft()为函数空间F中的一个函数;
Figure BDA0003131548720000031
为反演结果,xi为输入的第i个抽象特征,i为大于或等于1的自然数;F为所有可能的CART集合;
XGBoost模型的迭代采用加法训练的方式以进一步最小化目标函数,迭代过程为:
Figure BDA0003131548720000032
其中,
Figure BDA0003131548720000033
为t=0时刻的反演结果,
Figure BDA0003131548720000034
为t=1时刻的反演结果,ft(xi)为输入第i个数据时函数值,
Figure BDA0003131548720000035
的定义为t时刻的反演结果,
Figure BDA0003131548720000036
的定义为t-1时刻的反演结果,xi为输入的第i个抽象特征。
XGBoost模型目标函数如下所示:
Figure BDA0003131548720000037
其中:其中,l()是损失函数,
Figure BDA0003131548720000038
用来表示反演结果和真实值的差值,
Figure BDA0003131548720000039
是正则化项,T为叶子结点的个数;ωj为叶子节点的分数;γ的用途为控制叶子结点的个数;λ保证叶子节点的分数不至于太大。
为了找到能够最小化目标函数的ft(),将目标函数近似为:
Figure BDA00031315487200000310
其中,hi为损失函数
Figure BDA00031315487200000311
的二阶导数,
Figure BDA00031315487200000312
的定义为t-1时刻的反演结果,Ω(ft)是正则化项,ft(xi)为输入第i个数据时函数值,yi为当前时刻的真实值,xi为输入的第i个抽象特征。
进一步的,在步骤4中,将目标函数的近似函数每个数据的损失函数值加起来,过程如下所示:
Figure BDA00031315487200000313
其中,Xobj为目标函数,
Figure BDA00031315487200000314
为损失函数的一阶导数,
Figure BDA00031315487200000315
Figure BDA00031315487200000316
为损失函数的二阶导数,Ω(ft)是正则化项,ft(xi)为输入第i个数据时函数值,yi为当前时刻的真实值,λ保证叶子节点的分数不至于太大,T为叶子结点的个数,ωj为叶子节点的分数,xi为输入的第i个抽象特征。
将上式改写为关于叶子结点分数的一元二次函数,求解所得的最优
Figure BDA0003131548720000041
和目标函数值分别如下所示:
Figure BDA0003131548720000042
其中,
Figure BDA0003131548720000043
Figure BDA0003131548720000044
gi为损失函数的一阶导数,hi为损失函数的二阶导数,λ保证叶子节点的分数不至于太大,T为叶子结点的个数。
进一步的,步骤5所述的SVM模型中支持向量机的估计函数为:
Figure BDA0003131548720000045
其中,ω为法向量,b为常数,
Figure BDA0003131548720000046
为映射函数。
目标函数为:
Figure BDA0003131548720000047
其中:ω为法向量,b为常数,
Figure BDA0003131548720000048
为映射函数,ε为不敏感损失函数,yi为真实值,C为惩罚系数,
Figure BDA0003131548720000049
为映射函数,f(xi)为估计函数值,xi为输入的第i个抽象特征;
引入松弛变量和拉格朗日函数,将目标函数转化为:
Figure BDA00031315487200000410
其中:αi、αj
Figure BDA00031315487200000411
Figure BDA00031315487200000412
是拉格朗日系数,K(xi,xj)为核函数,C为惩罚系数,ε为不敏感损失函数,yi为真实值,max为目标函数最大值;
求解αi值,得回归函数式:
Figure BDA00031315487200000413
其中:αi
Figure BDA00031315487200000414
是拉格朗日系数,K(xi,x)为核函数,b为常数,xi为输入的第i个抽象特征。
进一步的,步骤6中,将XGBoost模型、SVM模型输出的浓度反演结果通过模糊逻辑算法进行权重分配,最终反演结果表达式为:
Figure BDA0003131548720000051
其中:ω1j为XGBoost模型的权值,YjXGB(j)为XGBoost模型的反演结果,ω2j为SVM模型的权值,ω2j为SVM模型的反演结果,Y为最终的反演结果。
令K1j=|YjXGB-Yj-1|,K2j=|YjSVM-Yj-1|,其中,YjXGB(j)为XGBoost模型当前时刻的反演结果,YjSVM为SVM模型当前时刻的反演结果,Yj-1为上一时刻污染物浓度的反演结果。
ω1j、ω2j由以下函数式决定:
Figure BDA0003131548720000052
ω2j=1-ω1j
其中:K1j=|YjXGB-Yj-1|,K2j=|YjSVM-Yj-1|,xj为输入的抽向特征。
由此得到权重分配后的最终污染物浓度反演结果。
本发明中,卷积神经网络提取并筛选出输入数据的主要特征,再由SVM模型、XGBoost模型反演出所测污染物浓度值,最后通过模糊逻辑算法进行权重分配,将两种模型的结果融合。该方法保留了三种算法的优势,提高算法效率的基础上进一步提升了污染物浓度反演精度。
与现有技术相比,本发明的优点为:
本发明方法融合了CNN、SVM、XGBoost三种机器学习算法,保留了各算法的优势,CNN可以提取具有代表性的特征,SVM算法具有非线性映射和小样本学习的优势,XGBoost算法加入正则化项,可避免过拟合,提高算法效率以及污染物浓度反演的精度。CNN部分作为模型结构的上层,通过卷积层和池化层提取并筛选出数据的主要特征,再经过全连接层展平后输入到模型结构的下层。SVM、XGBoost部分作为模型结构的下层,得到两部分算法的反演结果后,采用模糊逻辑算法进行权重分配,得到最终结果。CNN可以提取具有代表性的特征,SVM算法具有非线性映射和小样本学习的优势,XGBoost算法加入正则化项,可避免过拟合,提高算法效率。
附图说明
图1为本发明方法流程框图。
图2为本发明卷积神经网络特征提取流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,本发明基于多种机器学习算法融合的污染物浓度反演方法包括以下步骤:
步骤1:获取空气微站测得的空气污染物数据,以此构建数据集,并对所述数据集进行预处理。
在空气微站采集到的信息中,数据集为7650条数据,以气体污染物NO2浓度反演为例,在步骤1中,对数据集进行预处理,数据的缺失值通过线性插值法补全。
步骤2:构建卷积神经网络(CNN),并调整卷积神经网络直至卷积神经网络的参数为最优参数。
如图2所示,本发明中的卷积神经网络主要由输入层、卷积层、激活函数层、池化层、全连接层构成。卷积层和池化层是数据处理层,作用是对输入数据进行过滤并提取有用的信息。激活层使输出的特征具有非线性映射。池化层对特征进行筛选,提取最有代表的特征,降低特征的维度。全连接层将学习到的特征进行汇总,并将映射特征输出。
卷积神经网络的卷积层的卷积操作过程中,采用了局部连接的方式,即使用同一个卷积核对目标进行卷积操作,降低了模型过拟合的风险并且可以减少程序运行所需的内存,卷积操作过程为:
Figure BDA0003131548720000061
其中,yl为经过l层卷积操作后的输出,g()为激活函数,
Figure BDA0003131548720000062
为是第l层第m部分卷积区域的输入,
Figure BDA0003131548720000063
为第l层第m部分的权重,*为卷积运算,
Figure BDA0003131548720000064
为第l层的偏置项。卷积层利用卷积核在输入数据上滑动做局部卷积操作,将卷积运算得到的特征经过激活函数处理,从而得到最终特征。卷积核是一个权重矩阵,也可称为滤波器,矩阵中的各参数通过训练CNN得到。
卷积神经网络池化层中没有需要训练的参数,指定池化类型、池化操作的核尺寸及移动步长即可,池化操作过程为:
Figure BDA0003131548720000071
其中:
Figure BDA0003131548720000072
为第l层第m个数组的池化结果,
Figure BDA0003131548720000073
为第l层第m个数组区域中第p个数值,h()为池化函数。
卷积神经网络全连接层中每个神经元与前一层的神经元逐个相连,全连接层的计算公式为:
Figure BDA0003131548720000074
其中:dl为第l层全连接层的输出,l()为激活函数,
Figure BDA0003131548720000075
为第l层数据输入,
Figure BDA0003131548720000076
为第l层的权重系数,
Figure BDA0003131548720000077
为偏置参数。全连接层将学习到的特征进行汇总,并映射成二维特征输出。
本发明在步骤2中,构建卷积神经网络后,初始化网络参数,经过多次实验调整,最终确定卷积神经网络最优参数。卷积核的个数设置为10,大小为1×1,池化层的大小设置为1,为防止过拟合,在全连接层引入Dropout,参数设置为0.1,学习率设0.001,batch_size为64,激活函数为ReLU。
步骤3:将步骤1预处理后的数据集中的数据输入至步骤2调整后的卷积神经网络中,由卷积神经网络提取数据的抽象特征。
在步骤3中,将采集的数据按时间滑动窗口构造连续特征图作为卷积神经网络的输入,用CNN提取数据中的抽象特征。由于区间连续,因此当区间发生变化时,可以通过旧有的计算结果对搜索空间进行剪枝,这样便减少了重复计算,降低了时间复杂度,卷积神经网络特征提取流程图如图2所示。
步骤4:构建XGBoost模型,将步骤3得到的抽象特征输入至XGBoost模型,并对XGBoost模型进行训练,训练过程中计算XGBoost模型的结点损失以选择增益损失最大的叶子结点,由此通过训练得到XGBoost模型的最优参数,并通过最优参数时的XGBoost模型输出浓度反演结果。
步骤4中,XGBoost模型中采用的树模型为CART回归树模型,所述XGBoost模型的公式为:
Figure BDA0003131548720000078
其中:n为树的数目;ft()为函数空间F中的一个函数;
Figure BDA0003131548720000081
为反演结果,xi为输入的第i个抽象特征,i为大于或等于1的自然数,F为所有可能的CART集合;
XGBoost模型的迭代采用加法训练的方式以进一步最小化目标函数,迭代过程为:
Figure BDA0003131548720000082
其中:
Figure BDA0003131548720000083
为t=0时刻的反演结果,
Figure BDA0003131548720000084
为t=1时刻的反演结果,ft(xi)为输入第i个数据时函数值,
Figure BDA0003131548720000085
的定义为t时刻的反演结果,
Figure BDA0003131548720000086
的定义为t-1时刻的反演结果,xi为输入的第i个抽象特征。
XGBoost模型目标函数如下所示:
Figure BDA0003131548720000087
其中:l()是损失函数,
Figure BDA0003131548720000088
用来表示反演结果和真实值的差值,
Figure BDA0003131548720000089
是正则化项,T为叶子结点的个数;ωj为叶子节点的分数;γ的用途为控制叶子结点的个数;λ保证叶子节点的分数不至于太大。为了找到能够最小化目标函数的ft(),将目标函数近似为:
Figure BDA00031315487200000810
其中:hi为损失函数
Figure BDA00031315487200000811
的二阶导数,
Figure BDA00031315487200000812
的定义为t-1时刻的反演结果,Ω(ft)是正则化项,ft(xi)为输入第i个数据时函数值,yi为当前时刻的真实值,xi为输入的第i个抽象特征。
将目标函数的近似函数每个数据的损失函数值加起来,过程如下所示:
Figure BDA00031315487200000813
其中:Xobj为目标函数,
Figure BDA00031315487200000814
为损失函数的一阶导数,
Figure BDA00031315487200000815
Figure BDA00031315487200000816
为损失函数的二阶导数,Ω(ft)是正则化项,ft(xi)为输入第i个数据时函数值,yi为当前时刻的真实值,λ保证叶子节点的分数不至于太大,T为叶子结点的个数,ωj为叶子节点的分数;
将上式改写为关于叶子结点分数的一元二次函数,求解所得的最优
Figure BDA0003131548720000091
和目标函数值分别如下所示:
Figure BDA0003131548720000092
其中:
Figure BDA0003131548720000093
Figure BDA0003131548720000094
gi为损失函数的一阶导数,hi为损失函数的二阶导数,λ保证叶子节点的分数不至于太大,T为叶子结点的个数。
本发明步骤4中,XGBoost模型预测时需要确定3种参数:通用参数、辅助参数和任务参数。上升过程中上升模型类型由通用参数确定,常采用树或线性模型;辅助参数由所选的上升模型确定;任务参数指定学习任务和相应的学习目标。首先对XGBoost模型进行参数初始化,初始化值分别如表1所示:
表1 XGBoost模型参数初始化
参数名 初始化值
迭代次数 500
叶子最小权重 0.8
采样比率 0.8
学习率 0.05
改变树的最大高度比较测试数据的误差,结果如表2所示:
表2不同树高度的MAPE
树最大高度 MAPE
1 0.912
3 0.957
5 0.803
7 0.132
由表2得,树的最大高度为5时,测试数据的误差最小。在确定树的最大高度后,给出其他参数组合范围,以搜索遍历方法得出其他参数的最佳组合。其中学习率范围设置为0.01-0.1;迭代次数范围设置为100-1000;随机采样比例范围设置为0.1-0.9。通过搜索遍历,最终确定本发明用的XGBoost模型树的最佳参数设置,如表3所示:
表3 XGBoost模型树的最佳参数设置
参数名 参数设置
迭代次数 300
叶子最小权重 0.7
采样比率 0.3
学习率 0.01
选择提升器 gbtree
任务函数 Gramma
步骤5:构建SVM模型,将步骤3得到的所述抽象特征输入至SVM模型,并对SVM模型进行训练,训练过程中利用网格搜索法得到SVM模型的最佳惩罚系数及松弛变量,由此通过训练得到SVM模型的最优参数,并通过最优参数时的SVM模型输出浓度反演结果。
步骤5所述的SVM模型中支持向量机的估计函数为:
Figure BDA0003131548720000101
其中,ω为法向量,b为常数,
Figure BDA0003131548720000102
为映射函数。
目标函数为:
Figure BDA0003131548720000103
其中:ω为法向量,b为常数,
Figure BDA0003131548720000104
为映射函数,ε为不敏感损失函数,yi为真实值,C为惩罚系数,
Figure BDA0003131548720000105
为映射函数,f(xi)为估计函数值,xi为输入的第i个抽象特征;
Figure BDA0003131548720000106
其中:αi、αj
Figure BDA0003131548720000107
Figure BDA0003131548720000108
是拉格朗日系数,K(xi,xj)为核函数,C为惩罚系数,ε为不敏感损失函数,yi为真实值,max为目标函数最大值;
求解αi值,得回归函数式:
Figure BDA0003131548720000111
其中:αi
Figure BDA0003131548720000112
是拉格朗日系数,K(xi,x)为核函数,b为常数,xi为输入的第i个抽象特征。
本发明步骤5中,为了更好的表达传感器数据特征之间的联系,采用非线性映射能力较强的径向基函数作为SVM模型的核函数,在训练过程中主要有两个超参数需要优化,松弛变量和惩罚系数,松弛变量的引入给模型增加了容错性,惩罚系数表示模型对离群样本带来损失的重视程度,通过网格搜索法确定松弛变量和惩罚系数(C)的最优值分别为0.0136、300。
步骤6:将步骤3中XGBoost模型、步骤4中SVM模型输出的浓度反演结果通过模糊逻辑算法进行权重分配,得到污染物浓度最终反演结果如下:
Figure BDA0003131548720000113
其中,ω1j为XGBoost模型的权值,YjXGB(j)为XGBoost模型的反演结果,ω2j为SVM模型的权值,ω2j为SVM模型的反演结果,Y为最终的反演结果。
令K1j=|YjXGB-Yj-1|,K2j=|YjSVM-Yj-1|,其中,YjXGB(j)为XGBoost模型当前时刻的反演结果,YjSVM为SVM模型当前时刻的反演结果,Yj-1为上一时刻污染物浓度的反演结果。
ω1j、ω2j由以下函数式决定:
Figure BDA0003131548720000114
ω2j=1-ω1j
其中,K1j=|YjXGB-Yj-1|,K2j=|YjSVM-Yj-1|,xj为输入的抽向特征。
由此得到权重分配后的最终污染物浓度反演结果。
本发明反演方法的评价指标为MAE、RMSE、R2,计算公式分别为:
Figure BDA0003131548720000115
其中,
Figure BDA0003131548720000116
为测试集的真实值,
Figure BDA0003131548720000117
为本发明反演方法的反演结果,m由测试集大小确定。
Figure BDA0003131548720000121
其中,
Figure BDA0003131548720000122
为测试集的真实值,
Figure BDA0003131548720000123
为本发明反演方法的反演结果,m由测试集大小确定。
Figure BDA0003131548720000124
其中,y(i)为测试集的真实值,
Figure BDA0003131548720000125
为本发明反演方法的反演结果,
Figure BDA0003131548720000126
为真实值的平均值,i为大于或等于1的自然数。
本发明与现有技术不同算法的浓度反演结果对比如表4所示:
表4为不同算法浓度反演结果对比
模型 MAE RMSE R<sup>2</sup>
SVM 1.348 1.285 0.536
XGBoost 1.236 1.197 0.665
CNN+SVM 1.014 1.001 0.617
CNN+XGBoost 0.986 0.954 0.746
CNN+XGBoost+SVM 0.318 0.4495 0.932
由表4以看出,本发明所提出的污染物浓度反演算法精度优于其他方法,该方法融合了CNN、SVM、XGBoost三种机器学习算法,保留了各算法的优势,CNN可以提取具有代表性的特征,SVM算法具有非线性映射和小样本学习的优势,XGBoost算法加入正则化项,可避免过拟合,提高算法效率以及污染物浓度反演的精度。CNN可以提取具有代表性的特征,SVM算法具有非线性映射和小样本学习的优势,XGBoost算法加入正则化项,可避免过拟合,提高算法准确度。
上面结合附图对本发明进行了示例性描述,显然本发明具体实现不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种改进,或未经过该进直接应用于其他场合,均在本发明的保护范围之内。

Claims (9)

1.基于多种机器学习算法融合的污染物浓度反演方法,其特征在于,包括以下步骤:
步骤1、获取空气微站测得的空气污染物数据,以此构建数据集,并对所述数据集进行预处理;
步骤2、构建卷积神经网络,并调整卷积神经网络直至卷积神经网络的参数为最优参数;
步骤3、将步骤1预处理后的数据集中的数据输入至步骤2调整后的卷积神经网络中,由卷积神经网络提取数据的抽象特征;
步骤4、构建XGBoost模型,将步骤3得到的所述抽象特征输入至XGBoost模型,并对XGBoost模型进行训练,训练过程中计算XGBoost模型的结点损失以选择增益损失最大的叶子结点,由此通过训练得到XGBoost模型的最优参数,并通过最优参数时的XGBoost模型输出浓度反演结果;
步骤5、构建SVM模型,将步骤3得到的所述抽象特征输入至SVM模型,并对SVM模型进行训练,训练过程中利用网格搜索法得到SVM模型的最佳惩罚系数C及松弛变量,由此通过训练得到SVM模型的的最优参数,并通过最优参数时的SVM模型输出浓度反演结果;
步骤6、将步骤3中XGBoost模型、步骤4中SVM模型输出的浓度反演结果通过模糊逻辑算法进行权重分配,得到污染物浓度最终反演结果。
2.根据权利要求1所述的基于多种机器学习算法融合的污染物浓度反演方法,其特征在于,步骤1中采用线性插值法对数据集中的数据进行预处理,以将数据集中数据的缺失值补齐。
3.根据权利要求1所述的基于多种机器学习算法融合的污染物浓度反演方法,其特征在于,步骤2中构建的卷积神经网络中的卷积层采用局部连接方式,使用同一个卷积核对目标进行卷积操作。
4.根据权利要求1所述的基于多种机器学习算法融合的污染物浓度反演方法,其特征在于,步骤2中构建的卷积神经网络的全连接层中,每个神经元分别与前一层的神经元逐个相连。
5.根据权利要求1所述的基于多种机器学习算法融合的污染物浓度反演方法,其特征在于,步骤3中,将步骤1预处理后的数据集中的数据,按时间滑动窗口构造连续特征图后,再输入至步骤2调整后的卷积神经网络中。
6.根据权利要求1所述的基于多种机器学习算法融合的污染物浓度反演方法,其特征在于,步骤4中,XGBoost模型中采用的树模型为CART回归树模型,所述XGBoost模型的公式为:
Figure FDA0003131548710000021
其中:n为树的数目;ft()为函数空间F中的一个函数;
Figure FDA0003131548710000022
为反演结果,xi为输入的第i个抽象特征,i为大于或等于1的自然数,F为所有可能的CART集合;
XGBoost模型的迭代采用加法训练的方式以进一步最小化目标函数,迭代过程为:
Figure FDA0003131548710000023
其中:
Figure FDA0003131548710000024
为t=0时刻的反演结果,
Figure FDA0003131548710000025
为t=1时刻的反演结果,ft(xi)为输入第i个数据时函数值,
Figure FDA0003131548710000026
的定义为t时刻的反演结果,
Figure FDA0003131548710000027
的定义为t-1时刻的反演结果,i为大于或等于1的自然数,xi为输入的第i个抽象特征;
XGBoost模型目标函数如下所示:
Figure FDA0003131548710000028
其中:l()是损失函数,
Figure FDA0003131548710000029
用来表示反演结果和真实值的差值,
Figure FDA00031315487100000210
是正则化项,T为叶子结点的个数;ωj为叶子节点的分数;γ的用途为控制叶子结点的个数;λ保证叶子节点的分数不至于太大;
为了找到能够最小化目标函数的ft(),将目标函数近似为:
Figure FDA00031315487100000211
其中:hi为损失函数
Figure FDA00031315487100000212
的二阶导数,
Figure FDA00031315487100000213
的定义为t-1时刻的反演结果,Ω(ft)是正则化项,xi为输入的第i个抽象特征,ft(xi)为输入第i个数据时函数值,yi为当前时刻的真实值。
7.根据权利要求6所述的基于多种机器学习算法融合的污染物浓度反演方法,其特征在于,在步骤4中,将目标函数的近似函数每个数据的损失函数值加起来,过程如下所示:
Figure FDA0003131548710000031
其中:Xobj为目标函数,
Figure FDA0003131548710000032
为损失函数的一阶导数,
Figure FDA0003131548710000033
Figure FDA0003131548710000034
为损失函数的二阶导数,Ω(ft)是正则化项,ft(xi)为输入第i个数据时函数值,xi为输入的第i个抽象特征,yi为当前时刻的真实值,λ保证叶子节点的分数不至于太大,T为叶子结点的个数,ωj为叶子节点的分数;
将上式改写为关于叶子结点分数的一元二次函数,求解所得的最优
Figure FDA0003131548710000035
和目标函数值分别如下所示:
Figure FDA0003131548710000036
其中:
Figure FDA0003131548710000037
gi为损失函数的一阶导数,hi为损失函数的二阶导数,λ保证叶子节点的分数不至于太大,T为叶子结点的个数。
8.根据权利要求1所述的基于多种机器学习算法融合的污染物浓度反演方法,其特征在于,步骤5所述的SVM模型中支持向量机的估计函数为:
Figure FDA0003131548710000038
其中:ω为法向量,b为常数,
Figure FDA0003131548710000039
为映射函数;
目标函数为:
Figure FDA00031315487100000310
其中:ω为法向量,b为常数,
Figure FDA00031315487100000311
为映射函数,ε为不敏感损失函数,yi为真实值,C为惩罚系数,
Figure FDA00031315487100000312
为映射函数,f(xi)为估计函数值,xi为抽象特征;
引入松弛变量和拉格朗日函数,将目标函数转化为:
Figure FDA00031315487100000313
其中:αi、αj
Figure FDA0003131548710000041
是拉格朗日系数,K(xi,xj)为核函数,C为惩罚系数,ε为不敏感损失函数,yi为真实值,max为目标函数最大值;
求解αi值,得回归函数式:
Figure FDA0003131548710000042
其中:αi
Figure FDA0003131548710000043
是拉格朗日系数,K(xi,x)为核函数,b为常数,xi为抽象特征。
9.根据权利要求1所述的基于多种机器学习算法融合的污染物浓度反演方法,其特征在于,步骤6中,将XGBoost模型、SVM模型输出的浓度反演结果通过模糊逻辑算法进行权重分配,最终反演结果表达式为:
Figure FDA0003131548710000044
其中,ω1j为XGBoost模型的权值,YjXGB(j)为XGBoost模型的反演结果,ω2j为SVM模型的权值,ω2j为SVM模型的反演结果,Y为最终的反演结果;
其中,每种模型反演结果的权值为ω1j、ω2j
令K1j=|YjXGB-Yj-1|,K2j=|YjSVM-Yj-1|,其中,YjXGB(j)为XGBoost模型当前时刻的反演结果,YjSVM为SVM模型当前时刻的反演结果,Yj-1为上一时刻污染物浓度的反演结果;
ω1j、ω2j由以下函数式决定:
Figure FDA0003131548710000045
ω2j=1-ω1j
其中:K1j=|YjXGB-Yj-1|,K2j=|YjSVM-Yj-1|,xj为输入的抽向特征,
由此得到权重分配后的最终污染物浓度反演结果。
CN202110704245.2A 2021-06-24 2021-06-24 基于多种机器学习算法融合的污染物浓度反演方法 Pending CN113379148A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110704245.2A CN113379148A (zh) 2021-06-24 2021-06-24 基于多种机器学习算法融合的污染物浓度反演方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110704245.2A CN113379148A (zh) 2021-06-24 2021-06-24 基于多种机器学习算法融合的污染物浓度反演方法

Publications (1)

Publication Number Publication Date
CN113379148A true CN113379148A (zh) 2021-09-10

Family

ID=77578897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110704245.2A Pending CN113379148A (zh) 2021-06-24 2021-06-24 基于多种机器学习算法融合的污染物浓度反演方法

Country Status (1)

Country Link
CN (1) CN113379148A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115048875A (zh) * 2022-08-16 2022-09-13 武汉科技大学 基于机动车排放数据的城市大气环境指标预警方法及系统
CN116307292A (zh) * 2023-05-22 2023-06-23 安徽中科蓝壹信息科技有限公司 一种基于机器学习和集成学习的空气质量预报优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754002A (zh) * 2018-12-24 2019-05-14 上海大学 一种基于深度学习的隐写分析混合集成方法
CN110619049A (zh) * 2019-09-25 2019-12-27 北京工业大学 一种基于深度学习的报文异常检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754002A (zh) * 2018-12-24 2019-05-14 上海大学 一种基于深度学习的隐写分析混合集成方法
CN110619049A (zh) * 2019-09-25 2019-12-27 北京工业大学 一种基于深度学习的报文异常检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
亓晓燕 等: "融合LSTM和SVM的钢铁企业电力负荷短期预测", 山东大学学报 *
李龙 等: "基于特征向量的最小二乘支持向量机 PM2.5浓度预测模型", 计算机应用 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115048875A (zh) * 2022-08-16 2022-09-13 武汉科技大学 基于机动车排放数据的城市大气环境指标预警方法及系统
CN116307292A (zh) * 2023-05-22 2023-06-23 安徽中科蓝壹信息科技有限公司 一种基于机器学习和集成学习的空气质量预报优化方法

Similar Documents

Publication Publication Date Title
CN111798051B (zh) 基于长短期记忆神经网络的空气质量时空预测方法
CN109492822B (zh) 空气污染物浓度时空域关联预测方法
CN113919448B (zh) 一种任意时空位置二氧化碳浓度预测影响因素分析方法
CN109492830B (zh) 一种基于时空深度学习的移动污染源排放浓度预测方法
CN110533631B (zh) 基于金字塔池化孪生网络的sar图像变化检测方法
CN111832814A (zh) 一种基于图注意力机制的空气污染物浓度预测方法
CN111340292B (zh) 一种基于聚类的集成神经网络pm2.5预测方法
CN113379148A (zh) 基于多种机器学习算法融合的污染物浓度反演方法
CN109190665A (zh) 一种基于半监督生成对抗网络的通用图像分类方法和装置
CN111639719A (zh) 基于时空运动和特征融合的足迹图像检索方法
CN110880369A (zh) 基于径向基函数神经网络的气体标志物检测方法及应用
CN111340132B (zh) 一种基于da-svm的机器嗅觉模式识别方法
CN112433028B (zh) 基于忆阻细胞神经网络的电子鼻气体分类方法
CN112766283B (zh) 一种基于多尺度卷积网络的两相流流型识别方法
CN111046961A (zh) 基于双向长短时记忆单元和胶囊网络的故障分类方法
Kadir et al. Wheat yield prediction: Artificial neural network based approach
CN115689008A (zh) 基于集合经验模态分解的CNN-BiLSTM短期光伏功率预测方法及其系统
CN113379146A (zh) 一种基于多特征选择算法的污染物浓度反演方法
CN115169742A (zh) 一种短期风力发电功率预测方法
CN111932091A (zh) 一种基于梯度生存提升树的生存分析风险函数预测方法
CN111292121A (zh) 一种基于园区画像的园区负荷预测方法及系统
CN110110785B (zh) 一种快件物流过程状态检测分类方法
Sari et al. Daily rainfall prediction using one dimensional convolutional neural networks
Pasini et al. Short-range visibility forecast by means of neural-network modelling: a case-study
CN116843074A (zh) 一种基于cnn-lstm模型的台风灾害损失预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination