CN113379148A - 基于多种机器学习算法融合的污染物浓度反演方法 - Google Patents
基于多种机器学习算法融合的污染物浓度反演方法 Download PDFInfo
- Publication number
- CN113379148A CN113379148A CN202110704245.2A CN202110704245A CN113379148A CN 113379148 A CN113379148 A CN 113379148A CN 202110704245 A CN202110704245 A CN 202110704245A CN 113379148 A CN113379148 A CN 113379148A
- Authority
- CN
- China
- Prior art keywords
- function
- model
- data
- inversion result
- inversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 239000003344 environmental pollutant Substances 0.000 title claims abstract description 35
- 231100000719 pollutant Toxicity 0.000 title claims abstract description 35
- 238000010801 machine learning Methods 0.000 title claims abstract description 20
- 230000004927 fusion Effects 0.000 title claims abstract description 16
- 238000013507 mapping Methods 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 110
- 238000013527 convolutional neural network Methods 0.000 claims description 43
- 238000012549 training Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 17
- 239000000809 air pollutant Substances 0.000 claims description 7
- 231100001243 air pollutant Toxicity 0.000 claims description 7
- 210000002569 neuron Anatomy 0.000 claims description 6
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012887 quadratic function Methods 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 abstract description 12
- 239000000284 extract Substances 0.000 abstract description 8
- 239000003570 air Substances 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- RAHZWNYVWXNFOC-UHFFFAOYSA-N Sulphur dioxide Chemical compound O=S=O RAHZWNYVWXNFOC-UHFFFAOYSA-N 0.000 description 5
- 102100035932 Cocaine- and amphetamine-regulated transcript protein Human genes 0.000 description 4
- 101000715592 Homo sapiens Cocaine- and amphetamine-regulated transcript protein Proteins 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- MWUXSHHQAYIFBG-UHFFFAOYSA-N Nitric oxide Chemical compound O=[N] MWUXSHHQAYIFBG-UHFFFAOYSA-N 0.000 description 3
- 238000003915 air pollution Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- MGWGWNFMUOTEHG-UHFFFAOYSA-N 4-(3,5-dimethylphenyl)-1,3-thiazol-2-amine Chemical compound CC1=CC(C)=CC(C=2N=C(N)SC=2)=C1 MGWGWNFMUOTEHG-UHFFFAOYSA-N 0.000 description 2
- UGFAIRIUMAVXCW-UHFFFAOYSA-N Carbon monoxide Chemical compound [O+]#[C-] UGFAIRIUMAVXCW-UHFFFAOYSA-N 0.000 description 2
- 101001095088 Homo sapiens Melanoma antigen preferentially expressed in tumors Proteins 0.000 description 2
- 102100037020 Melanoma antigen preferentially expressed in tumors Human genes 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 229910002091 carbon monoxide Inorganic materials 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000007789 gas Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- JCXJVPUVTGWSNB-UHFFFAOYSA-N nitrogen dioxide Inorganic materials O=[N]=O JCXJVPUVTGWSNB-UHFFFAOYSA-N 0.000 description 2
- 239000013618 particulate matter Substances 0.000 description 2
- 238000005086 pumping Methods 0.000 description 2
- 241000448472 Gramma Species 0.000 description 1
- CBENFWSGALASAD-UHFFFAOYSA-N Ozone Chemical compound [O-][O+]=O CBENFWSGALASAD-UHFFFAOYSA-N 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 239000012080 ambient air Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 210000002345 respiratory system Anatomy 0.000 description 1
- 208000023504 respiratory system disease Diseases 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Mathematical Physics (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Software Systems (AREA)
- Computational Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于多种机器学习算法融合的污染物浓度反演方法,该方法融合了CNN、SVM、XGBoost三种机器学习算法,保留了各算法的优势,CNN可以提取具有代表性的特征,SVM算法具有非线性映射和小样本学习的优势,XGBoost算法加入正则化项,可避免过拟合,提高算法效率以及污染物浓度反演的精度。CNN部分作为模型结构的上层,通过卷积层和池化层提取并筛选出数据的主要特征,再经过全连接层展平后输入到模型结构的下层。SVM、XGBoost部分作为模型结构的下层,得到两部分算法的反演结果后,采用模糊逻辑算法进行权重分配,得到最终结果。
Description
技术领域
本发明涉及基于机器学习算法的环境数据反演方法领域,具体是一种基于多种机器学习算法融合的污染物浓度反演方法。
背景技术
气体污染物中,排放的二氧化硫会刺激人体的呼吸道,诱发各种呼吸道疾病,同时会对植被等造成危害,排放的氮氧化物会与其它污染物结合,产生光化学烟雾污染。国家目前用来评价环境空气质量的指标主要是基于六种污染物的浓度,分别是臭氧(O3)、二氧化氮(NO2)、二氧化硫(SO2)、一氧化碳(CO)、细颗粒物(PM2.5)、可吸入颗粒物(PM10)。
近年来,空气污染问题愈发严重,已经成为全球性问题。空气质量监测是应对空气污染的重要手段。国家建立了多个空气监测站点来实时监测空气污染状况,其数据准确度较高,但成本高昂,由政府部门统筹规划,部署较为稀疏。因此,通常使用较低成本的微型监测传感器设备构建大型传感器网络,实现密集化的区域监测。然而,由于受到温湿度、交叉干扰和传感器老化等因素的影响,微型传感器设备读数会和标准浓度之间存在一定的偏差。为确保网络中传感器的数据质量,需要对这些微型传感器数据进行浓度反演。
目前,常用的反演算法包括XGBoost、SVM、RNN等,它们在实际使用时存在容易出现过拟合、依托大样本学习、特征冗余等缺点。本专利将CNN、XGBoost、SVM三种算法结合,既具有非线性映射和小样本学习的优势又可避免过拟合,在提高浓度反演精度的同时也提高了模型的计算效率。
发明内容
本发明的目的是提供一种基于多种机器学习算法融合的污染物浓度反演方法,以解决现有技术存在的容易出现过拟合、依托大样本、计算效率低、精度达不到要求的问题。
为了达到上述目的,本发明所采用的技术方案为:
基于多种机器学习算法融合的污染物浓度反演方法,包括以下步骤:
步骤1、获取空气微站测得的空气污染物数据,以此构建数据集,并对所述数据集进行预处理;
空气微站中测得的数据包括多种空气污染物浓度值、温度、湿度、风速风向、气压值,本发明以空气微站测得的这些数据构建数据集。
步骤2、构建卷积神经网络,并调整卷积神经网络直至卷积神经网络的参数为最优参数;
步骤3、将步骤1预处理后的数据集中的数据输入至步骤2调整后的卷积神经网络中,由卷积神经网络提取数据的抽象特征;
步骤4、构建XGBoost模型,将步骤3得到的所述抽象特征输入至XGBoost模型,并对XGBoost模型进行训练,训练过程中计算XGBoost模型的结点损失以选择增益损失最大的叶子结点,由此通过训练得到XGBoost模型的最优参数,并通过最优参数时的XGBoost模型输出浓度反演结果;
步骤5、构建SVM模型,将步骤3得到的所述抽象特征输入至SVM模型,并对SVM模型进行训练,训练过程中利用网格搜索法得到SVM模型的最佳惩罚系数C及松弛变量,由此通过训练得到SVM模型的的最优参数,并通过最优参数时的SVM模型输出浓度反演结果;
步骤6、将步骤3中XGBoost模型、步骤4中SVM模型输出的浓度反演结果通过模糊逻辑算法进行权重分配,得到污染物浓度最终反演结果。
进一步的,步骤1中采用线性插值法对数据集中的数据进行预处理,以将数据集中数据的缺失值补齐。
进一步的,步骤2中构建的卷积神经网络中的卷积层采用局部连接方式,使用同一个卷积核对目标进行卷积操作。
进一步的,步骤2中构建的卷积神经网络的全连接层中,每个神经元分别与前一层的神经元逐个相连。
进一步的,步骤3中,将步骤1预处理后的数据集中的数据,按时间滑动窗口构造连续特征图后,再输入至步骤2调整后的卷积神经网络中,
进一步的,步骤4中,XGBoost模型中采用的树模型为CART回归树模型,所述XGBoost模型的公式为:
XGBoost模型的迭代采用加法训练的方式以进一步最小化目标函数,迭代过程为:
XGBoost模型目标函数如下所示:
为了找到能够最小化目标函数的ft(),将目标函数近似为:
进一步的,在步骤4中,将目标函数的近似函数每个数据的损失函数值加起来,过程如下所示:
其中,Xobj为目标函数,为损失函数的一阶导数, 为损失函数的二阶导数,Ω(ft)是正则化项,ft(xi)为输入第i个数据时函数值,yi为当前时刻的真实值,λ保证叶子节点的分数不至于太大,T为叶子结点的个数,ωj为叶子节点的分数,xi为输入的第i个抽象特征。
进一步的,步骤5所述的SVM模型中支持向量机的估计函数为:
目标函数为:
引入松弛变量和拉格朗日函数,将目标函数转化为:
求解αi值,得回归函数式:
进一步的,步骤6中,将XGBoost模型、SVM模型输出的浓度反演结果通过模糊逻辑算法进行权重分配,最终反演结果表达式为:
其中:ω1j为XGBoost模型的权值,YjXGB(j)为XGBoost模型的反演结果,ω2j为SVM模型的权值,ω2j为SVM模型的反演结果,Y为最终的反演结果。
令K1j=|YjXGB-Yj-1|,K2j=|YjSVM-Yj-1|,其中,YjXGB(j)为XGBoost模型当前时刻的反演结果,YjSVM为SVM模型当前时刻的反演结果,Yj-1为上一时刻污染物浓度的反演结果。
ω1j、ω2j由以下函数式决定:
ω2j=1-ω1j,
其中:K1j=|YjXGB-Yj-1|,K2j=|YjSVM-Yj-1|,xj为输入的抽向特征。
由此得到权重分配后的最终污染物浓度反演结果。
本发明中,卷积神经网络提取并筛选出输入数据的主要特征,再由SVM模型、XGBoost模型反演出所测污染物浓度值,最后通过模糊逻辑算法进行权重分配,将两种模型的结果融合。该方法保留了三种算法的优势,提高算法效率的基础上进一步提升了污染物浓度反演精度。
与现有技术相比,本发明的优点为:
本发明方法融合了CNN、SVM、XGBoost三种机器学习算法,保留了各算法的优势,CNN可以提取具有代表性的特征,SVM算法具有非线性映射和小样本学习的优势,XGBoost算法加入正则化项,可避免过拟合,提高算法效率以及污染物浓度反演的精度。CNN部分作为模型结构的上层,通过卷积层和池化层提取并筛选出数据的主要特征,再经过全连接层展平后输入到模型结构的下层。SVM、XGBoost部分作为模型结构的下层,得到两部分算法的反演结果后,采用模糊逻辑算法进行权重分配,得到最终结果。CNN可以提取具有代表性的特征,SVM算法具有非线性映射和小样本学习的优势,XGBoost算法加入正则化项,可避免过拟合,提高算法效率。
附图说明
图1为本发明方法流程框图。
图2为本发明卷积神经网络特征提取流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,本发明基于多种机器学习算法融合的污染物浓度反演方法包括以下步骤:
步骤1:获取空气微站测得的空气污染物数据,以此构建数据集,并对所述数据集进行预处理。
在空气微站采集到的信息中,数据集为7650条数据,以气体污染物NO2浓度反演为例,在步骤1中,对数据集进行预处理,数据的缺失值通过线性插值法补全。
步骤2:构建卷积神经网络(CNN),并调整卷积神经网络直至卷积神经网络的参数为最优参数。
如图2所示,本发明中的卷积神经网络主要由输入层、卷积层、激活函数层、池化层、全连接层构成。卷积层和池化层是数据处理层,作用是对输入数据进行过滤并提取有用的信息。激活层使输出的特征具有非线性映射。池化层对特征进行筛选,提取最有代表的特征,降低特征的维度。全连接层将学习到的特征进行汇总,并将映射特征输出。
卷积神经网络的卷积层的卷积操作过程中,采用了局部连接的方式,即使用同一个卷积核对目标进行卷积操作,降低了模型过拟合的风险并且可以减少程序运行所需的内存,卷积操作过程为:
其中,yl为经过l层卷积操作后的输出,g()为激活函数,为是第l层第m部分卷积区域的输入,为第l层第m部分的权重,*为卷积运算,为第l层的偏置项。卷积层利用卷积核在输入数据上滑动做局部卷积操作,将卷积运算得到的特征经过激活函数处理,从而得到最终特征。卷积核是一个权重矩阵,也可称为滤波器,矩阵中的各参数通过训练CNN得到。
卷积神经网络池化层中没有需要训练的参数,指定池化类型、池化操作的核尺寸及移动步长即可,池化操作过程为:
卷积神经网络全连接层中每个神经元与前一层的神经元逐个相连,全连接层的计算公式为:
本发明在步骤2中,构建卷积神经网络后,初始化网络参数,经过多次实验调整,最终确定卷积神经网络最优参数。卷积核的个数设置为10,大小为1×1,池化层的大小设置为1,为防止过拟合,在全连接层引入Dropout,参数设置为0.1,学习率设0.001,batch_size为64,激活函数为ReLU。
步骤3:将步骤1预处理后的数据集中的数据输入至步骤2调整后的卷积神经网络中,由卷积神经网络提取数据的抽象特征。
在步骤3中,将采集的数据按时间滑动窗口构造连续特征图作为卷积神经网络的输入,用CNN提取数据中的抽象特征。由于区间连续,因此当区间发生变化时,可以通过旧有的计算结果对搜索空间进行剪枝,这样便减少了重复计算,降低了时间复杂度,卷积神经网络特征提取流程图如图2所示。
步骤4:构建XGBoost模型,将步骤3得到的抽象特征输入至XGBoost模型,并对XGBoost模型进行训练,训练过程中计算XGBoost模型的结点损失以选择增益损失最大的叶子结点,由此通过训练得到XGBoost模型的最优参数,并通过最优参数时的XGBoost模型输出浓度反演结果。
步骤4中,XGBoost模型中采用的树模型为CART回归树模型,所述XGBoost模型的公式为:
XGBoost模型的迭代采用加法训练的方式以进一步最小化目标函数,迭代过程为:
XGBoost模型目标函数如下所示:
其中:l()是损失函数,用来表示反演结果和真实值的差值,是正则化项,T为叶子结点的个数;ωj为叶子节点的分数;γ的用途为控制叶子结点的个数;λ保证叶子节点的分数不至于太大。为了找到能够最小化目标函数的ft(),将目标函数近似为:
将目标函数的近似函数每个数据的损失函数值加起来,过程如下所示:
其中:Xobj为目标函数,为损失函数的一阶导数, 为损失函数的二阶导数,Ω(ft)是正则化项,ft(xi)为输入第i个数据时函数值,yi为当前时刻的真实值,λ保证叶子节点的分数不至于太大,T为叶子结点的个数,ωj为叶子节点的分数;
本发明步骤4中,XGBoost模型预测时需要确定3种参数:通用参数、辅助参数和任务参数。上升过程中上升模型类型由通用参数确定,常采用树或线性模型;辅助参数由所选的上升模型确定;任务参数指定学习任务和相应的学习目标。首先对XGBoost模型进行参数初始化,初始化值分别如表1所示:
表1 XGBoost模型参数初始化
参数名 | 初始化值 |
迭代次数 | 500 |
叶子最小权重 | 0.8 |
采样比率 | 0.8 |
学习率 | 0.05 |
改变树的最大高度比较测试数据的误差,结果如表2所示:
表2不同树高度的MAPE
树最大高度 | MAPE |
1 | 0.912 |
3 | 0.957 |
5 | 0.803 |
7 | 0.132 |
由表2得,树的最大高度为5时,测试数据的误差最小。在确定树的最大高度后,给出其他参数组合范围,以搜索遍历方法得出其他参数的最佳组合。其中学习率范围设置为0.01-0.1;迭代次数范围设置为100-1000;随机采样比例范围设置为0.1-0.9。通过搜索遍历,最终确定本发明用的XGBoost模型树的最佳参数设置,如表3所示:
表3 XGBoost模型树的最佳参数设置
参数名 | 参数设置 |
迭代次数 | 300 |
叶子最小权重 | 0.7 |
采样比率 | 0.3 |
学习率 | 0.01 |
选择提升器 | gbtree |
任务函数 | Gramma |
步骤5:构建SVM模型,将步骤3得到的所述抽象特征输入至SVM模型,并对SVM模型进行训练,训练过程中利用网格搜索法得到SVM模型的最佳惩罚系数及松弛变量,由此通过训练得到SVM模型的最优参数,并通过最优参数时的SVM模型输出浓度反演结果。
步骤5所述的SVM模型中支持向量机的估计函数为:
目标函数为:
求解αi值,得回归函数式:
本发明步骤5中,为了更好的表达传感器数据特征之间的联系,采用非线性映射能力较强的径向基函数作为SVM模型的核函数,在训练过程中主要有两个超参数需要优化,松弛变量和惩罚系数,松弛变量的引入给模型增加了容错性,惩罚系数表示模型对离群样本带来损失的重视程度,通过网格搜索法确定松弛变量和惩罚系数(C)的最优值分别为0.0136、300。
步骤6:将步骤3中XGBoost模型、步骤4中SVM模型输出的浓度反演结果通过模糊逻辑算法进行权重分配,得到污染物浓度最终反演结果如下:
其中,ω1j为XGBoost模型的权值,YjXGB(j)为XGBoost模型的反演结果,ω2j为SVM模型的权值,ω2j为SVM模型的反演结果,Y为最终的反演结果。
令K1j=|YjXGB-Yj-1|,K2j=|YjSVM-Yj-1|,其中,YjXGB(j)为XGBoost模型当前时刻的反演结果,YjSVM为SVM模型当前时刻的反演结果,Yj-1为上一时刻污染物浓度的反演结果。
ω1j、ω2j由以下函数式决定:
ω2j=1-ω1j,
其中,K1j=|YjXGB-Yj-1|,K2j=|YjSVM-Yj-1|,xj为输入的抽向特征。
由此得到权重分配后的最终污染物浓度反演结果。
本发明反演方法的评价指标为MAE、RMSE、R2,计算公式分别为:
本发明与现有技术不同算法的浓度反演结果对比如表4所示:
表4为不同算法浓度反演结果对比
模型 | MAE | RMSE | R<sup>2</sup> |
SVM | 1.348 | 1.285 | 0.536 |
XGBoost | 1.236 | 1.197 | 0.665 |
CNN+SVM | 1.014 | 1.001 | 0.617 |
CNN+XGBoost | 0.986 | 0.954 | 0.746 |
CNN+XGBoost+SVM | 0.318 | 0.4495 | 0.932 |
由表4以看出,本发明所提出的污染物浓度反演算法精度优于其他方法,该方法融合了CNN、SVM、XGBoost三种机器学习算法,保留了各算法的优势,CNN可以提取具有代表性的特征,SVM算法具有非线性映射和小样本学习的优势,XGBoost算法加入正则化项,可避免过拟合,提高算法效率以及污染物浓度反演的精度。CNN可以提取具有代表性的特征,SVM算法具有非线性映射和小样本学习的优势,XGBoost算法加入正则化项,可避免过拟合,提高算法准确度。
上面结合附图对本发明进行了示例性描述,显然本发明具体实现不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种改进,或未经过该进直接应用于其他场合,均在本发明的保护范围之内。
Claims (9)
1.基于多种机器学习算法融合的污染物浓度反演方法,其特征在于,包括以下步骤:
步骤1、获取空气微站测得的空气污染物数据,以此构建数据集,并对所述数据集进行预处理;
步骤2、构建卷积神经网络,并调整卷积神经网络直至卷积神经网络的参数为最优参数;
步骤3、将步骤1预处理后的数据集中的数据输入至步骤2调整后的卷积神经网络中,由卷积神经网络提取数据的抽象特征;
步骤4、构建XGBoost模型,将步骤3得到的所述抽象特征输入至XGBoost模型,并对XGBoost模型进行训练,训练过程中计算XGBoost模型的结点损失以选择增益损失最大的叶子结点,由此通过训练得到XGBoost模型的最优参数,并通过最优参数时的XGBoost模型输出浓度反演结果;
步骤5、构建SVM模型,将步骤3得到的所述抽象特征输入至SVM模型,并对SVM模型进行训练,训练过程中利用网格搜索法得到SVM模型的最佳惩罚系数C及松弛变量,由此通过训练得到SVM模型的的最优参数,并通过最优参数时的SVM模型输出浓度反演结果;
步骤6、将步骤3中XGBoost模型、步骤4中SVM模型输出的浓度反演结果通过模糊逻辑算法进行权重分配,得到污染物浓度最终反演结果。
2.根据权利要求1所述的基于多种机器学习算法融合的污染物浓度反演方法,其特征在于,步骤1中采用线性插值法对数据集中的数据进行预处理,以将数据集中数据的缺失值补齐。
3.根据权利要求1所述的基于多种机器学习算法融合的污染物浓度反演方法,其特征在于,步骤2中构建的卷积神经网络中的卷积层采用局部连接方式,使用同一个卷积核对目标进行卷积操作。
4.根据权利要求1所述的基于多种机器学习算法融合的污染物浓度反演方法,其特征在于,步骤2中构建的卷积神经网络的全连接层中,每个神经元分别与前一层的神经元逐个相连。
5.根据权利要求1所述的基于多种机器学习算法融合的污染物浓度反演方法,其特征在于,步骤3中,将步骤1预处理后的数据集中的数据,按时间滑动窗口构造连续特征图后,再输入至步骤2调整后的卷积神经网络中。
6.根据权利要求1所述的基于多种机器学习算法融合的污染物浓度反演方法,其特征在于,步骤4中,XGBoost模型中采用的树模型为CART回归树模型,所述XGBoost模型的公式为:
XGBoost模型的迭代采用加法训练的方式以进一步最小化目标函数,迭代过程为:
其中:为t=0时刻的反演结果,为t=1时刻的反演结果,ft(xi)为输入第i个数据时函数值,的定义为t时刻的反演结果,的定义为t-1时刻的反演结果,i为大于或等于1的自然数,xi为输入的第i个抽象特征;
XGBoost模型目标函数如下所示:
为了找到能够最小化目标函数的ft(),将目标函数近似为:
7.根据权利要求6所述的基于多种机器学习算法融合的污染物浓度反演方法,其特征在于,在步骤4中,将目标函数的近似函数每个数据的损失函数值加起来,过程如下所示:
其中:Xobj为目标函数,为损失函数的一阶导数, 为损失函数的二阶导数,Ω(ft)是正则化项,ft(xi)为输入第i个数据时函数值,xi为输入的第i个抽象特征,yi为当前时刻的真实值,λ保证叶子节点的分数不至于太大,T为叶子结点的个数,ωj为叶子节点的分数;
8.根据权利要求1所述的基于多种机器学习算法融合的污染物浓度反演方法,其特征在于,步骤5所述的SVM模型中支持向量机的估计函数为:
目标函数为:
引入松弛变量和拉格朗日函数,将目标函数转化为:
求解αi值,得回归函数式:
9.根据权利要求1所述的基于多种机器学习算法融合的污染物浓度反演方法,其特征在于,步骤6中,将XGBoost模型、SVM模型输出的浓度反演结果通过模糊逻辑算法进行权重分配,最终反演结果表达式为:
其中,ω1j为XGBoost模型的权值,YjXGB(j)为XGBoost模型的反演结果,ω2j为SVM模型的权值,ω2j为SVM模型的反演结果,Y为最终的反演结果;
其中,每种模型反演结果的权值为ω1j、ω2j;
令K1j=|YjXGB-Yj-1|,K2j=|YjSVM-Yj-1|,其中,YjXGB(j)为XGBoost模型当前时刻的反演结果,YjSVM为SVM模型当前时刻的反演结果,Yj-1为上一时刻污染物浓度的反演结果;
ω1j、ω2j由以下函数式决定:
ω2j=1-ω1j,
其中:K1j=|YjXGB-Yj-1|,K2j=|YjSVM-Yj-1|,xj为输入的抽向特征,
由此得到权重分配后的最终污染物浓度反演结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110704245.2A CN113379148A (zh) | 2021-06-24 | 2021-06-24 | 基于多种机器学习算法融合的污染物浓度反演方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110704245.2A CN113379148A (zh) | 2021-06-24 | 2021-06-24 | 基于多种机器学习算法融合的污染物浓度反演方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113379148A true CN113379148A (zh) | 2021-09-10 |
Family
ID=77578897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110704245.2A Pending CN113379148A (zh) | 2021-06-24 | 2021-06-24 | 基于多种机器学习算法融合的污染物浓度反演方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113379148A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115048875A (zh) * | 2022-08-16 | 2022-09-13 | 武汉科技大学 | 基于机动车排放数据的城市大气环境指标预警方法及系统 |
CN116307292A (zh) * | 2023-05-22 | 2023-06-23 | 安徽中科蓝壹信息科技有限公司 | 一种基于机器学习和集成学习的空气质量预报优化方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109754002A (zh) * | 2018-12-24 | 2019-05-14 | 上海大学 | 一种基于深度学习的隐写分析混合集成方法 |
CN110619049A (zh) * | 2019-09-25 | 2019-12-27 | 北京工业大学 | 一种基于深度学习的报文异常检测方法 |
-
2021
- 2021-06-24 CN CN202110704245.2A patent/CN113379148A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109754002A (zh) * | 2018-12-24 | 2019-05-14 | 上海大学 | 一种基于深度学习的隐写分析混合集成方法 |
CN110619049A (zh) * | 2019-09-25 | 2019-12-27 | 北京工业大学 | 一种基于深度学习的报文异常检测方法 |
Non-Patent Citations (2)
Title |
---|
亓晓燕 等: "融合LSTM和SVM的钢铁企业电力负荷短期预测", 山东大学学报 * |
李龙 等: "基于特征向量的最小二乘支持向量机 PM2.5浓度预测模型", 计算机应用 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115048875A (zh) * | 2022-08-16 | 2022-09-13 | 武汉科技大学 | 基于机动车排放数据的城市大气环境指标预警方法及系统 |
CN116307292A (zh) * | 2023-05-22 | 2023-06-23 | 安徽中科蓝壹信息科技有限公司 | 一种基于机器学习和集成学习的空气质量预报优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111798051B (zh) | 基于长短期记忆神经网络的空气质量时空预测方法 | |
CN109492822B (zh) | 空气污染物浓度时空域关联预测方法 | |
CN113919448B (zh) | 一种任意时空位置二氧化碳浓度预测影响因素分析方法 | |
CN109492830B (zh) | 一种基于时空深度学习的移动污染源排放浓度预测方法 | |
CN110533631B (zh) | 基于金字塔池化孪生网络的sar图像变化检测方法 | |
CN111832814A (zh) | 一种基于图注意力机制的空气污染物浓度预测方法 | |
CN111340292B (zh) | 一种基于聚类的集成神经网络pm2.5预测方法 | |
CN113379148A (zh) | 基于多种机器学习算法融合的污染物浓度反演方法 | |
CN109190665A (zh) | 一种基于半监督生成对抗网络的通用图像分类方法和装置 | |
CN111639719A (zh) | 基于时空运动和特征融合的足迹图像检索方法 | |
CN110880369A (zh) | 基于径向基函数神经网络的气体标志物检测方法及应用 | |
CN111340132B (zh) | 一种基于da-svm的机器嗅觉模式识别方法 | |
CN112433028B (zh) | 基于忆阻细胞神经网络的电子鼻气体分类方法 | |
CN112766283B (zh) | 一种基于多尺度卷积网络的两相流流型识别方法 | |
CN111046961A (zh) | 基于双向长短时记忆单元和胶囊网络的故障分类方法 | |
Kadir et al. | Wheat yield prediction: Artificial neural network based approach | |
CN115689008A (zh) | 基于集合经验模态分解的CNN-BiLSTM短期光伏功率预测方法及其系统 | |
CN113379146A (zh) | 一种基于多特征选择算法的污染物浓度反演方法 | |
CN115169742A (zh) | 一种短期风力发电功率预测方法 | |
CN111932091A (zh) | 一种基于梯度生存提升树的生存分析风险函数预测方法 | |
CN111292121A (zh) | 一种基于园区画像的园区负荷预测方法及系统 | |
CN110110785B (zh) | 一种快件物流过程状态检测分类方法 | |
Sari et al. | Daily rainfall prediction using one dimensional convolutional neural networks | |
Pasini et al. | Short-range visibility forecast by means of neural-network modelling: a case-study | |
CN116843074A (zh) | 一种基于cnn-lstm模型的台风灾害损失预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |