CN113744083A - 一种基于环境不平衡数据的水质预测方法 - Google Patents

一种基于环境不平衡数据的水质预测方法 Download PDF

Info

Publication number
CN113744083A
CN113744083A CN202110992226.4A CN202110992226A CN113744083A CN 113744083 A CN113744083 A CN 113744083A CN 202110992226 A CN202110992226 A CN 202110992226A CN 113744083 A CN113744083 A CN 113744083A
Authority
CN
China
Prior art keywords
model
water quality
feature
data
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110992226.4A
Other languages
English (en)
Other versions
CN113744083B (zh
Inventor
陈达
邓永锋
陈兴国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202110992226.4A priority Critical patent/CN113744083B/zh
Publication of CN113744083A publication Critical patent/CN113744083A/zh
Application granted granted Critical
Publication of CN113744083B publication Critical patent/CN113744083B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Water Supply & Treatment (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于环境不平衡数据的水质预测方法,该方法包括:特征预处理步骤:对环境原始不平衡数据集进行去除标签信息缺失的样本数据,对环境原始不平衡数据的特征进行标准化得到多组原始训练集;特征扩增步骤:对每组原始训练集中的原始特征进行深度特征提取和标准化得到多组扩增训练集;模型筛选步骤:利用贪心算法筛选监督集成学习训练模型;待测预处理步骤:根据最佳特征组合进行采集数据得到待测原始数据;对待测原始数据进行特征扩增和标准化得到待测输入数据;水质预测步骤:利用水质预测模型进行判断水质是否合格。该方法通过特征扩增和特征选择来提升监督集成模型对环境不平衡数据的预测能力,对环境质量预测具有参考价值。

Description

一种基于环境不平衡数据的水质预测方法
技术领域
本发明涉及环境质量监测和预测技术领域,尤其涉及一种基于环境不平衡数据的水质预测方法。
背景技术
虽然人工智能技术在环境监测和预报领域中的应用是目前环境领域研究热点之一,但是环境质量预测具有一个共同的特点即就是环境数据集是典型的不平衡数据集,如根据环保部2020年的数据,我国2020年不合格的地表水质和空气质量仅占总情况的17.6%和13%,所以不合格的地表水质和空气质量属于小概率事件,是少数类样本。
而目前对小数类的样本预测是人工智能研究领域的难点。集成监督模型能很好的学习特征和标签之间的关系,使用集成监督模型能够在一定程度上预测这些不平衡的环境数据。尽管使用重采样和欠采样能够在一定程度上缓解数据集的不平衡性,但是同样也会产生更多的噪音数据或者造成特征丢失的后果。
迄今为止还未有利用不同非监督模型来增强监督集成模型预测环境质量的案例,更未有综合利用非监督模型、监督集成模型和贪心算法来预测环境不平衡数据的先例。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供了一种基于环境不平衡数据的水质预测方法,该方法综合利用了非监督模型来深度提取新的特征信息,进而强化监督模型,接着使用贪心算法来探索最佳预测能力和特征组合,该方法能够进一步提升监督集成模型预测环境不平衡数据能力,具有推广到多种环境质量预测领域的潜力。
为了达到上述目的,本发明采用以下技术方案:
一种基于环境不平衡数据的水质预测方法,包括以下步骤:
特征预处理步骤:对环境原始不平衡数据集进行去除标签信息缺失的样本数据,对环境原始不平衡数据的特征进行标准化,得到多组原始训练集;
特征扩增步骤:对每组原始训练集中的原始特征进行深度特征提取和标准化得到多组扩增训练集;
模型筛选步骤:利用贪心算法筛选监督集成学习训练模型,通过贪心算法比较不同特征组合预测结果,选择预测准确度最高的监督集成学习训练模型作为水质预测模型;
待测预处理步骤:根据最佳特征组合进行采集输入特征所需的水质数据、大气数据,从而得到待测原始数据,所述最佳特征组合为水质预测模型所对应的特征组合;
对待测原始数据进行特征扩增和标准化得到待测输入数据;
水质预测步骤:将待测输入数据输入至水质预测模型进行判断水质是否合格。
作为优选的技术方案,还包括评价步骤,所述评价步骤具体为执行完水质预测步骤后,利用F1-score对水质预测模型的预测性能进行评价。
作为优选的技术方案,所述特征扩增步骤具体步骤为基于特征扩增模型对每组原始训练集中的原始特征进行深度特征提取和标准化,所述特征扩增模型为非监督模型,所述特征扩增模型具体选择主成分分析模型、局部异常因子检测模型、最小协方差行列式检测模型、基于直方图的离群值检测模型中的一种或任意多种组合的模型。
作为优选的技术方案,所述模型筛选步骤,具体步骤包括:
基于原始数据的特征划分多组特征组合,依次选择每组特征组合调整扩增训练集中的数据得到多个特征组合训练集;
根据每个特征组合训练集建立多个监督集成学习训练模型,对每个监督集成学习训练模型,以特征组合中的特征元素作为输入数据,以水质合格信息作为标签信息,所述水质合格信息用于判断水质是否合格;
多个监督集成学习训练模型训练完后,选择预测准确度最高的监督集成学习训练模型作为水质预测模型,选择该水质预测模型所对应的特征组合作为输入特征。
作为优选的技术方案,所述多个监督集成学习训练模型采用随机森林、完全收敛随机森林、深度级联森林中的一种或任意多种组合形式。
作为优选的技术方案,所述通过贪心算法比较不同特征组合预测结果,具体包括:
初始化步骤:
输入样本矩阵X,设置循环轮次数值t为0,初始化第0轮的已选择特征集
Figure BDA0003232724610000031
设置第0轮的未选择特征集S0={X1,X2,...,Xp},其中特征采样矩阵X=X1,X2,…,Xp,第i个特征Xi=(xi1,xi2,…,xn)Y,i=1,2,…,p,其中,p为初始特征维度,n为样本个数;
循环步骤:
设置模型最佳预测能力比较参数Δ=0,Δ用于表示模型最佳预测能力之差;
计算第t-1轮时最佳特征
Figure BDA0003232724610000032
其中Q(*)为模型预测能力值,*用于表示输入参数;
设置第t轮时最佳特征集合At=At-1∪{Xbest};
设置第t轮时除去最佳特征集合以外的剩余特征St=St-1/{Xbest};
计算第t轮与第t-1轮的模型最佳预测能力比较参数Δ=Q(At)-Q(At-1),
Q(At)为第t轮模型预测能力值,Q(At-1)为第t-1轮模型预测能力值;
当Δ≤0时,退出循环步骤,输出Q值最高的已选择特征集作为特征组合。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明提出的基于环境不平衡数据的水质预测方法通过综合利用非监督模型来深度提取新的特征信息来强化监督模型,并利用贪心算法来探索最佳预测能力和特征组合,该方法通过特征扩增和特征选择来提升监督集成模型对环境不平衡数据的预测能力,进而进一步提高监督集成模型的预测能力,具有推广到多种环境质量预测领域的潜力。
(2)与传统学习模型LR、SVM、SVM等相比,本发明提出的基于环境不平衡数据的水质预测方法通过贪心算法能够显著提升寻找最佳预测能力和最佳特征组合的效率,能够显著提升对环境污染等突发事件的准确性,该方法的这一优势对环境质量预测极为重要,特别对于环境突发事件中的应用具有较高的参考价值;在本发明中,非监督模型能在最佳特征的基础上进一步挖掘少数类和多数类样本特征信息,具有进一步提高集成监督模型预测环境不平衡数据能力。
(3)本发明提出的基于环境不平衡数据的水质预测方法通过深度挖掘新的特征,能够节省在新的环境质量因子和参数的检测费用,本领域技术人员基于该方法可以建立一个高度灵敏的环境介质预警系统,以供环保监测和管理部门应用于水质预警,从而保障生态环境安全。
附图说明
图1为本发明实施例1中一种基于环境不平衡数据的水质预测方法的步骤流程图;
图2为本发明实施例1中采用的深度级联森林模型的结构示意图。
具体实施方式
在本公开的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本公开和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本公开的限制。
此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。同样,“一个”、“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在该词前面的元素或者物件涵盖出现在该词后面列举的元素或者物件及其等同,而不排除其他元素或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
在本公开的描述中,需要说明的是,除非另有明确的规定和限定,否则术语“安装”、“相连”、“连接”应做广义理解。例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本公开中的具体含义。此外,下面所描述的本公开不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
实施例1
如图1所示,本实施例提供了一种基于环境不平衡数据的水质预测方法,该方法包括以下步骤:
特征预处理步骤:对所有环境原始不平衡数据集进行去除标签信息缺失的样本数据,对环境原始不平衡数据的特征进行标准化,进而得到多组原始训练集。实际应用时,环境原始不平衡数据为水质参数、大气质量参数中的一种或任意多种参数进行组合的特征数据,其中水质参数具体包括pH、温度、浊度、电导率、重金属、氯化物、硫酸盐、溶解性氧,大气质量参数具体包括PM2.5、PM10、臭氧、二氧化硫、二氧化氮;
特征扩增步骤:对每组原始训练集中的原始特征进行深度特征提取和标准化,通过提取新特征实现特征扩增,进而得到多组扩增训练集。实际应用时,基于特征扩增模型对每组原始训练集中的原始特征进行深度特征提取和标准化,其中特征扩增模型为非监督模型,具体通过选择主成分分析模型(Principal component analysis,PCA)、局部异常因子检测模型(Local outlier factor,LOF)、最小协方差行列式检测模型(Minimumcovariance determinant,MCD)、基于直方图的离群值检测模型(Histogram-basedoutlier score,HBOS)中的一种或任意多种组合的模型实现特征扩增。
模型筛选步骤:利用贪心算法筛选监督集成学习训练模型,通过贪心算法比较不同特征组合预测结果,选择预测准确度最高的监督集成学习训练模型作为水质预测模型;
待测预处理步骤:根据最佳特征组合进行采集输入特征所需的水质数据、大气数据,从而得到待测原始数据,最佳特征组合为水质预测模型所对应的特征组合;
对待测原始数据进行特征扩增和标准化,以提取新特征,进而得到待测输入数据;
水质预测步骤:将待测输入数据输入至水质预测模型进行判断水质是否合格;
实际应用时,执行完水质预测步骤后,本实施例利用F1-score对水质预测模型的预测性能进行评价。
在本实施例中,模型筛选步骤,具体步骤包括:
基于原始数据的特征划分多组特征组合,依次选择每组特征组合调整扩增训练集中的数据得到多个特征组合训练集;
根据每个特征组合训练集建立多个监督集成学习训练模型,对每个监督集成学习训练模型,以其特征组合中的特征元素作为输入数据,以水质合格信息作为标签信息,水质合格信息用于判断水质是否合格;
多个监督集成学习训练模型训练完后,选择预测准确度最高的监督集成学习训练模型作为水质预测模型,选择该水质预测模型所对应的特征组合作为输入特征;
多个监督集成学习训练模型采用随机森林、完全收敛随机森林、深度级联森林中的一种或任意多种组合形式的模型。
在本实施例中,通过贪心算法比较不同特征组合预测结果,具体包括:
初始化步骤:
输入样本矩阵X,设置循环轮次数值t为0,初始化第0轮的已选择特征集
Figure BDA0003232724610000081
设置第0轮的未选择特征集S0={X1,X2,...,Xp},其中特征采样矩阵X=X1,X2,…,Xp,第i个特征Xi=(xi1,xi2,…,xn)Y,i=1,2,…,p,其中,p为初始特征维度,n为样本个数;
循环步骤:
设置模型最佳预测能力比较参数Δ=0,Δ用于表示模型最佳预测能力之差;
计算第t-1轮时最佳特征
Figure BDA0003232724610000082
其中Q(*)为模型预测能力值,*用于表示输入参数。
设置第t轮时最佳特征集合At=At-1∪{Xbest};
设置第t轮时除去最佳特征集合以外的剩余特征St=St-1/{Xbest};
计算第t轮与第t-1轮的模型最佳预测能力比较参数Δ=Q(At)-Q(At-1);
当Δ≤0时,退出循环步骤,输出Q值最高的已选择特征集作为特征组合。
如图2所示,本实施例以监督集成学习训练模型中采用深度级联森林模型为例进行说明:该深度级联森林模型由特征预处理模块、N级联森林联结层以及输出处理层构成,特征预处理模块用于对输入的初始特征进行预处理得到输入特征向量,N级联森林联结层以输入特征向量作为输入并输出预测向量,输出处理层利用1级森林联结层进行平滑处理和筛选预测向量的最大值,进而获得预测结果。其中N级联森林联结层中的每层设有相同数量的估计器,N为联森林联结层的层数,每层设有多个估计器,每个估计器包括多个树。
实施例2
下面结合具体案例对本发明作进一步详细说明,但是不作为对本发明的限定。在下面的例子中,模型运行平台为Python V.3.6.,模型评价指标为F1-score。实际饮用水水质数据集来自德国某水务集团。
实际饮用水数据经过前处理后具有133212条样本,其中不合格水质样本比较仅为0.18%,为极端不平衡数据。每条样本中包含pH,电导率(Cond),浊度(Turb),光谱吸收系数(SAC),温度(Tp),和脉冲频率调制值(PFM),其中前四个参数发生变化则为不合格饮用水。
首先对原始环境不平衡数据(饮用水水质数据集)中6个特征进行质检并通过计算Z值来标准化各特征。
选择PCA、LOF、MCD、HBOS四种模型进行深度特征提取,从而达到特征扩增的效果。
在本实施例中,PCA模型分别进行PCA原始特征提取和PCA异常值特征提取。通过原始样本矩阵X与投影矩阵W相乘得到PCA原始特征矩阵FPCA,即:
FPCA=X·W;
令原始样本矩阵X的协方差矩阵为S,(λ1,e1),(λ2,e2),…,(λp,ep)为协方差矩阵S的特征-特征值向量对,其中λ1≥λ2≥…λp≥0,投影矩阵W为根据特征值对应的特征构成,具体根据特征值按数值大小取前K个;原始样本矩阵X的大小是n×p维,投影矩阵W的大小是p×k维,PCA原始特征矩阵FPCA的大小是n×k维。
在本实施例中,PCA异常值特征矩阵FODPCA为通过所有样本在对应特征向量方向的偏差构成,PCA异常值特征矩阵FODPCA具体表示为:
Figure BDA0003232724610000091
在本实施例中,特征向量反映了原始数据方差的不同方向,
Figure BDA0003232724610000101
表示第1个样本在第1个特征向量方向的偏差,
Figure BDA0003232724610000102
表示第1个样本在第p个特征向量方向的偏差,
Figure BDA0003232724610000103
表示第n个样本在第p个特征向量方向的偏差。
在本实施例中,LOF异常值特征矩阵FLOF为根据所有样本的LOF异常值构成,LOF异常值特征矩阵FLOF具体表示为:
FLOF=(LOFk(x1),LOFk(x2),…,LOFk(xn))T
式中T为转置矩阵的标识,LOFk(xi)为第i个样本的LOF异常值,i=1,2,…,n。
在本实施例中,MCD异常值特征矩阵FMCD为根据所有样本分别与MCD参考点的Mahalanobis距离值构成,MCD异常值特征矩阵FMCD具体表示为:
FMCD=(d1,d2,…,dn)T
式中T为转置矩阵的标识,di(i=1,2,…,n)表示为第i个样本与MCD参考点TMCD的Mahalanobi s距离值。
在本实施例中,HBOS异常值特征FHBOS为根据各个样本在多维数据中的HBOS异常值构成,HBOS异常值特征FHBOS具体表示为:
FHBOS=(HBOS(x1),HBOS(x2),…,HBOS(xn))T
式中T为转置矩阵的标识,xi(i=1,2,…,n)表示为第i个样本,HBOS(xi)表示第i个样本在多维数据中的HBOS异常值。
实际应用时,HBOS异常值具体采用静态跨度的柱状图或动态宽度柱状图进行计算。
在本实施例中,以监督集成学习训练模型采用深度级联森林为例进行进一步说明,在深度级联森林中,最大层数为10层,每层有4个估计器,每个估计器有200个树组成。其中主要超参Penalty设置为L2,C设置为1,Solver设置为L-BFGS,Griterion设置为Gini。
依次输入不同特征和运行贪心算法后,经分析,利用实施例1中基于环境不平衡数据的水质预测方法筛选的深度级联森林的最佳预测F1-socre为95.08±1.57%,高于单独使用深度级联森林的预测能力(91.75±4.09%)。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (6)

1.一种基于环境不平衡数据的水质预测方法,其特征在于,包括以下步骤:
特征预处理步骤:对环境原始不平衡数据集进行去除标签信息缺失的样本数据,对环境原始不平衡数据的特征进行标准化,得到多组原始训练集;
特征扩增步骤:对每组原始训练集中的原始特征进行深度特征提取和标准化得到多组扩增训练集;
模型筛选步骤:利用贪心算法筛选监督集成学习训练模型,通过贪心算法比较不同特征组合预测结果,选择预测准确度最高的监督集成学习训练模型作为水质预测模型;
待测预处理步骤:根据最佳特征组合进行采集输入特征所需的水质数据、大气数据,从而得到待测原始数据,所述最佳特征组合为水质预测模型所对应的特征组合;
对待测原始数据进行特征扩增和标准化得到待测输入数据;
水质预测步骤:将待测输入数据输入至水质预测模型进行判断水质是否合格。
2.根据权利要求1所述的基于环境不平衡数据的水质预测方法,其特征在于,还包括评价步骤,所述评价步骤具体为执行完水质预测步骤后,利用F1-score对水质预测模型的预测性能进行评价。
3.根据权利要求1或2所述的基于环境不平衡数据的水质预测方法,其特征在于,所述特征扩增步骤具体步骤为基于特征扩增模型对每组原始训练集中的原始特征进行深度特征提取和标准化,所述特征扩增模型为非监督模型,所述特征扩增模型具体选择主成分分析模型、局部异常因子检测模型、最小协方差行列式检测模型、基于直方图的离群值检测模型中的一种或任意多种组合的模型。
4.根据权利要求1所述的基于环境不平衡数据的水质预测方法,其特征在于,所述模型筛选步骤,具体步骤包括:
基于原始数据的特征划分多组特征组合,依次选择每组特征组合调整扩增训练集中的数据得到多个特征组合训练集;
根据每个特征组合训练集建立多个监督集成学习训练模型,对每个监督集成学习训练模型,以特征组合中的特征元素作为输入数据,以水质合格信息作为标签信息,所述水质合格信息用于判断水质是否合格;
多个监督集成学习训练模型训练完后,选择预测准确度最高的监督集成学习训练模型作为水质预测模型,选择该水质预测模型所对应的特征组合作为输入特征。
5.根据权利要求4所述的基于环境不平衡数据的水质预测方法,其特征在于,所述多个监督集成学习训练模型采用随机森林、完全收敛随机森林、深度级联森林中的一种或任意多种组合形式。
6.根据权利要求1所述的基于环境不平衡数据的水质预测方法,其特征在于,所述通过贪心算法比较不同特征组合预测结果,具体包括:
初始化步骤:
输入样本矩阵X,设置循环轮次数值t为0,初始化第0轮的已选择特征集
Figure FDA0003232724600000021
设置第0轮的未选择特征集S0={X1,X2,...,Xp},其中特征采样矩阵X=X1,X2,…,Xp,第i个特征Xi=(xi1,xi2,…,xn)T,i=1,2,…,p,其中,p为初始特征维度,n为样本个数;
循环步骤:
设置模型最佳预测能力比较参数Δ=0,Δ用于表示模型最佳预测能力之差;
计算第t-1轮时最佳特征
Figure FDA0003232724600000022
Xi∈St-1,其中Q(*)为模型预测能力值,*用于表示输入参数;
设置第t轮时最佳特征集合At=At-1∪{Xbest};
设置第t轮时除去最佳特征集合以外的剩余特征St=St-1/{Xbest};
计算第t轮与第t-1轮的模型最佳预测能力比较参数Δ=Q(At)-Q(At-1),Q(At)为第t轮模型预测能力值,Q(At-1)为第t-1轮模型预测能力值;
当Δ≤0时,退出循环步骤,输出Q值最高的已选择特征集作为特征组合。
CN202110992226.4A 2021-08-27 2021-08-27 一种基于环境不平衡数据的水质预测方法 Active CN113744083B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110992226.4A CN113744083B (zh) 2021-08-27 2021-08-27 一种基于环境不平衡数据的水质预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110992226.4A CN113744083B (zh) 2021-08-27 2021-08-27 一种基于环境不平衡数据的水质预测方法

Publications (2)

Publication Number Publication Date
CN113744083A true CN113744083A (zh) 2021-12-03
CN113744083B CN113744083B (zh) 2024-04-23

Family

ID=78733197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110992226.4A Active CN113744083B (zh) 2021-08-27 2021-08-27 一种基于环境不平衡数据的水质预测方法

Country Status (1)

Country Link
CN (1) CN113744083B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522248A (zh) * 2023-03-22 2023-08-01 新疆维吾尔自治区疾病预防控制中心 基于机器学习的核酸异常数据智能研判系统
CN117350601A (zh) * 2023-12-06 2024-01-05 北京英视睿达科技股份有限公司 水质预测方法、装置、电子设备及存储介质
CN117388457A (zh) * 2023-10-16 2024-01-12 中山大学 一种耦合水力停留时间提高污水厂出水预测精度的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320677A (zh) * 2014-07-10 2016-02-10 香港中文大学深圳研究院 一种训练流式不平衡数据的方法及设备
CN110070144A (zh) * 2019-04-30 2019-07-30 云南师范大学 一种湖泊水质预测方法及系统
CN112070125A (zh) * 2020-08-19 2020-12-11 西安理工大学 一种基于孤立森林学习的不平衡数据集的预测方法
CN112836735A (zh) * 2021-01-27 2021-05-25 中山大学 一种优化的随机森林处理不平衡数据集的方法
CN113095501A (zh) * 2021-05-08 2021-07-09 重庆大学 一种基于深度强化学习的不平衡分类决策树生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320677A (zh) * 2014-07-10 2016-02-10 香港中文大学深圳研究院 一种训练流式不平衡数据的方法及设备
CN110070144A (zh) * 2019-04-30 2019-07-30 云南师范大学 一种湖泊水质预测方法及系统
CN112070125A (zh) * 2020-08-19 2020-12-11 西安理工大学 一种基于孤立森林学习的不平衡数据集的预测方法
CN112836735A (zh) * 2021-01-27 2021-05-25 中山大学 一种优化的随机森林处理不平衡数据集的方法
CN113095501A (zh) * 2021-05-08 2021-07-09 重庆大学 一种基于深度强化学习的不平衡分类决策树生成方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522248A (zh) * 2023-03-22 2023-08-01 新疆维吾尔自治区疾病预防控制中心 基于机器学习的核酸异常数据智能研判系统
CN116522248B (zh) * 2023-03-22 2023-12-15 新疆维吾尔自治区疾病预防控制中心 基于机器学习的核酸异常数据智能研判系统
CN117388457A (zh) * 2023-10-16 2024-01-12 中山大学 一种耦合水力停留时间提高污水厂出水预测精度的方法
CN117388457B (zh) * 2023-10-16 2024-05-31 中山大学 一种耦合水力停留时间提高污水厂出水预测精度的方法
CN117350601A (zh) * 2023-12-06 2024-01-05 北京英视睿达科技股份有限公司 水质预测方法、装置、电子设备及存储介质
CN117350601B (zh) * 2023-12-06 2024-04-16 北京英视睿达科技股份有限公司 水质预测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113744083B (zh) 2024-04-23

Similar Documents

Publication Publication Date Title
CN113744083A (zh) 一种基于环境不平衡数据的水质预测方法
WO2021257128A2 (en) Quantum computing based deep learning for detection, diagnosis and other applications
CN104573669A (zh) 图像物体检测方法
CN102176698A (zh) 一种基于迁移学习的用户异常行为检测方法
CN113283547B (zh) 一种基于多任务深度学习的最优潮流计算方法
CN111935747B (zh) 一种采用gru预测无线传感器网络链路质量的方法
Rousseeuw et al. Hybrid hidden Markov model for marine environment monitoring
CN111046961B (zh) 基于双向长短时记忆单元和胶囊网络的故障分类方法
CN110826642B (zh) 一种针对传感器数据的无监督异常检测方法
CN113139594B (zh) 一种机载图像无人机目标自适应检测方法
CN117237733A (zh) 一种结合自监督和弱监督学习的乳腺癌全切片图像分类方法
CN113314188B (zh) 图结构增强的小样本学习方法、系统、设备及存储介质
CN117349583A (zh) 用于低温液体储罐的智能检测方法及系统
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN116661410A (zh) 基于加权有向图的大规模工业过程故障检测及诊断方法
CN112183624A (zh) 一种基于集成学习的大坝监测数据异常检测方法
Sehly et al. Comparative analysis of classification models for pima dataset
CN114879628A (zh) 基于对抗局部最大均值差异的多模态工业过程故障诊断方法
CN113658109A (zh) 一种基于领域损失预测主动学习的玻璃缺陷检测方法
CN115734274A (zh) 一种基于深度学习和知识图谱的蜂窝网络故障诊断方法
Yang Big Data Analyzing Techniques in Mathematical House Price Prediction Model
Liu et al. Structured collaborative sparse dictionary learning for monitoring of multimode processes
Sun et al. Caae: A novel wireless spectrum anomaly detection method with multiple scoring criterion
Li et al. Multi-Label Zero-Shot Learning for Industrial Fault Diagnosis
Jenifer et al. An ensemble based machine learning approach for traffic prediction in smart city

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant