CN113744083A - 一种基于环境不平衡数据的水质预测方法 - Google Patents
一种基于环境不平衡数据的水质预测方法 Download PDFInfo
- Publication number
- CN113744083A CN113744083A CN202110992226.4A CN202110992226A CN113744083A CN 113744083 A CN113744083 A CN 113744083A CN 202110992226 A CN202110992226 A CN 202110992226A CN 113744083 A CN113744083 A CN 113744083A
- Authority
- CN
- China
- Prior art keywords
- model
- water quality
- feature
- data
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 65
- 230000007613 environmental effect Effects 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 48
- 230000003321 amplification Effects 0.000 claims abstract description 27
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 27
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 238000012216 screening Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims description 25
- 238000000513 principal component analysis Methods 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 7
- 238000012797 qualification Methods 0.000 claims description 6
- 238000007637 random forest analysis Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013450 outlier detection Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 abstract description 4
- 230000010354 integration Effects 0.000 abstract description 3
- 239000013598 vector Substances 0.000 description 7
- 239000003651 drinking water Substances 0.000 description 4
- 235000020188 drinking water Nutrition 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- RAHZWNYVWXNFOC-UHFFFAOYSA-N Sulphur dioxide Chemical compound O=S=O RAHZWNYVWXNFOC-UHFFFAOYSA-N 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 239000002352 surface water Substances 0.000 description 2
- BXLICFUSUZPSHT-UHFFFAOYSA-N 1-(4-chlorophenyl)-3-fluoropropan-2-amine Chemical compound FCC(N)CC1=CC=C(Cl)C=C1 BXLICFUSUZPSHT-UHFFFAOYSA-N 0.000 description 1
- MGWGWNFMUOTEHG-UHFFFAOYSA-N 4-(3,5-dimethylphenyl)-1,3-thiazol-2-amine Chemical compound CC1=CC(C)=CC(C=2N=C(N)SC=2)=C1 MGWGWNFMUOTEHG-UHFFFAOYSA-N 0.000 description 1
- CBENFWSGALASAD-UHFFFAOYSA-N Ozone Chemical compound [O-][O+]=O CBENFWSGALASAD-UHFFFAOYSA-N 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 150000001805 chlorine compounds Chemical class 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 229910001385 heavy metal Inorganic materials 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- JCXJVPUVTGWSNB-UHFFFAOYSA-N nitrogen dioxide Inorganic materials O=[N]=O JCXJVPUVTGWSNB-UHFFFAOYSA-N 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 150000003467 sulfuric acid derivatives Chemical class 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A20/00—Water conservation; Efficient water supply; Efficient water use
- Y02A20/152—Water filtration
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Water Supply & Treatment (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于环境不平衡数据的水质预测方法,该方法包括:特征预处理步骤:对环境原始不平衡数据集进行去除标签信息缺失的样本数据,对环境原始不平衡数据的特征进行标准化得到多组原始训练集;特征扩增步骤:对每组原始训练集中的原始特征进行深度特征提取和标准化得到多组扩增训练集;模型筛选步骤:利用贪心算法筛选监督集成学习训练模型;待测预处理步骤:根据最佳特征组合进行采集数据得到待测原始数据;对待测原始数据进行特征扩增和标准化得到待测输入数据;水质预测步骤:利用水质预测模型进行判断水质是否合格。该方法通过特征扩增和特征选择来提升监督集成模型对环境不平衡数据的预测能力,对环境质量预测具有参考价值。
Description
技术领域
本发明涉及环境质量监测和预测技术领域,尤其涉及一种基于环境不平衡数据的水质预测方法。
背景技术
虽然人工智能技术在环境监测和预报领域中的应用是目前环境领域研究热点之一,但是环境质量预测具有一个共同的特点即就是环境数据集是典型的不平衡数据集,如根据环保部2020年的数据,我国2020年不合格的地表水质和空气质量仅占总情况的17.6%和13%,所以不合格的地表水质和空气质量属于小概率事件,是少数类样本。
而目前对小数类的样本预测是人工智能研究领域的难点。集成监督模型能很好的学习特征和标签之间的关系,使用集成监督模型能够在一定程度上预测这些不平衡的环境数据。尽管使用重采样和欠采样能够在一定程度上缓解数据集的不平衡性,但是同样也会产生更多的噪音数据或者造成特征丢失的后果。
迄今为止还未有利用不同非监督模型来增强监督集成模型预测环境质量的案例,更未有综合利用非监督模型、监督集成模型和贪心算法来预测环境不平衡数据的先例。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供了一种基于环境不平衡数据的水质预测方法,该方法综合利用了非监督模型来深度提取新的特征信息,进而强化监督模型,接着使用贪心算法来探索最佳预测能力和特征组合,该方法能够进一步提升监督集成模型预测环境不平衡数据能力,具有推广到多种环境质量预测领域的潜力。
为了达到上述目的,本发明采用以下技术方案:
一种基于环境不平衡数据的水质预测方法,包括以下步骤:
特征预处理步骤:对环境原始不平衡数据集进行去除标签信息缺失的样本数据,对环境原始不平衡数据的特征进行标准化,得到多组原始训练集;
特征扩增步骤:对每组原始训练集中的原始特征进行深度特征提取和标准化得到多组扩增训练集;
模型筛选步骤:利用贪心算法筛选监督集成学习训练模型,通过贪心算法比较不同特征组合预测结果,选择预测准确度最高的监督集成学习训练模型作为水质预测模型;
待测预处理步骤:根据最佳特征组合进行采集输入特征所需的水质数据、大气数据,从而得到待测原始数据,所述最佳特征组合为水质预测模型所对应的特征组合;
对待测原始数据进行特征扩增和标准化得到待测输入数据;
水质预测步骤:将待测输入数据输入至水质预测模型进行判断水质是否合格。
作为优选的技术方案,还包括评价步骤,所述评价步骤具体为执行完水质预测步骤后,利用F1-score对水质预测模型的预测性能进行评价。
作为优选的技术方案,所述特征扩增步骤具体步骤为基于特征扩增模型对每组原始训练集中的原始特征进行深度特征提取和标准化,所述特征扩增模型为非监督模型,所述特征扩增模型具体选择主成分分析模型、局部异常因子检测模型、最小协方差行列式检测模型、基于直方图的离群值检测模型中的一种或任意多种组合的模型。
作为优选的技术方案,所述模型筛选步骤,具体步骤包括:
基于原始数据的特征划分多组特征组合,依次选择每组特征组合调整扩增训练集中的数据得到多个特征组合训练集;
根据每个特征组合训练集建立多个监督集成学习训练模型,对每个监督集成学习训练模型,以特征组合中的特征元素作为输入数据,以水质合格信息作为标签信息,所述水质合格信息用于判断水质是否合格;
多个监督集成学习训练模型训练完后,选择预测准确度最高的监督集成学习训练模型作为水质预测模型,选择该水质预测模型所对应的特征组合作为输入特征。
作为优选的技术方案,所述多个监督集成学习训练模型采用随机森林、完全收敛随机森林、深度级联森林中的一种或任意多种组合形式。
作为优选的技术方案,所述通过贪心算法比较不同特征组合预测结果,具体包括:
初始化步骤:
输入样本矩阵X,设置循环轮次数值t为0,初始化第0轮的已选择特征集设置第0轮的未选择特征集S0={X1,X2,...,Xp},其中特征采样矩阵X=X1,X2,…,Xp,第i个特征Xi=(xi1,xi2,…,xn)Y,i=1,2,…,p,其中,p为初始特征维度,n为样本个数;
循环步骤:
设置模型最佳预测能力比较参数Δ=0,Δ用于表示模型最佳预测能力之差;
设置第t轮时最佳特征集合At=At-1∪{Xbest};
设置第t轮时除去最佳特征集合以外的剩余特征St=St-1/{Xbest};
计算第t轮与第t-1轮的模型最佳预测能力比较参数Δ=Q(At)-Q(At-1),
Q(At)为第t轮模型预测能力值,Q(At-1)为第t-1轮模型预测能力值;
当Δ≤0时,退出循环步骤,输出Q值最高的已选择特征集作为特征组合。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明提出的基于环境不平衡数据的水质预测方法通过综合利用非监督模型来深度提取新的特征信息来强化监督模型,并利用贪心算法来探索最佳预测能力和特征组合,该方法通过特征扩增和特征选择来提升监督集成模型对环境不平衡数据的预测能力,进而进一步提高监督集成模型的预测能力,具有推广到多种环境质量预测领域的潜力。
(2)与传统学习模型LR、SVM、SVM等相比,本发明提出的基于环境不平衡数据的水质预测方法通过贪心算法能够显著提升寻找最佳预测能力和最佳特征组合的效率,能够显著提升对环境污染等突发事件的准确性,该方法的这一优势对环境质量预测极为重要,特别对于环境突发事件中的应用具有较高的参考价值;在本发明中,非监督模型能在最佳特征的基础上进一步挖掘少数类和多数类样本特征信息,具有进一步提高集成监督模型预测环境不平衡数据能力。
(3)本发明提出的基于环境不平衡数据的水质预测方法通过深度挖掘新的特征,能够节省在新的环境质量因子和参数的检测费用,本领域技术人员基于该方法可以建立一个高度灵敏的环境介质预警系统,以供环保监测和管理部门应用于水质预警,从而保障生态环境安全。
附图说明
图1为本发明实施例1中一种基于环境不平衡数据的水质预测方法的步骤流程图;
图2为本发明实施例1中采用的深度级联森林模型的结构示意图。
具体实施方式
在本公开的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本公开和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本公开的限制。
此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。同样,“一个”、“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在该词前面的元素或者物件涵盖出现在该词后面列举的元素或者物件及其等同,而不排除其他元素或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
在本公开的描述中,需要说明的是,除非另有明确的规定和限定,否则术语“安装”、“相连”、“连接”应做广义理解。例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本公开中的具体含义。此外,下面所描述的本公开不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
实施例1
如图1所示,本实施例提供了一种基于环境不平衡数据的水质预测方法,该方法包括以下步骤:
特征预处理步骤:对所有环境原始不平衡数据集进行去除标签信息缺失的样本数据,对环境原始不平衡数据的特征进行标准化,进而得到多组原始训练集。实际应用时,环境原始不平衡数据为水质参数、大气质量参数中的一种或任意多种参数进行组合的特征数据,其中水质参数具体包括pH、温度、浊度、电导率、重金属、氯化物、硫酸盐、溶解性氧,大气质量参数具体包括PM2.5、PM10、臭氧、二氧化硫、二氧化氮;
特征扩增步骤:对每组原始训练集中的原始特征进行深度特征提取和标准化,通过提取新特征实现特征扩增,进而得到多组扩增训练集。实际应用时,基于特征扩增模型对每组原始训练集中的原始特征进行深度特征提取和标准化,其中特征扩增模型为非监督模型,具体通过选择主成分分析模型(Principal component analysis,PCA)、局部异常因子检测模型(Local outlier factor,LOF)、最小协方差行列式检测模型(Minimumcovariance determinant,MCD)、基于直方图的离群值检测模型(Histogram-basedoutlier score,HBOS)中的一种或任意多种组合的模型实现特征扩增。
模型筛选步骤:利用贪心算法筛选监督集成学习训练模型,通过贪心算法比较不同特征组合预测结果,选择预测准确度最高的监督集成学习训练模型作为水质预测模型;
待测预处理步骤:根据最佳特征组合进行采集输入特征所需的水质数据、大气数据,从而得到待测原始数据,最佳特征组合为水质预测模型所对应的特征组合;
对待测原始数据进行特征扩增和标准化,以提取新特征,进而得到待测输入数据;
水质预测步骤:将待测输入数据输入至水质预测模型进行判断水质是否合格;
实际应用时,执行完水质预测步骤后,本实施例利用F1-score对水质预测模型的预测性能进行评价。
在本实施例中,模型筛选步骤,具体步骤包括:
基于原始数据的特征划分多组特征组合,依次选择每组特征组合调整扩增训练集中的数据得到多个特征组合训练集;
根据每个特征组合训练集建立多个监督集成学习训练模型,对每个监督集成学习训练模型,以其特征组合中的特征元素作为输入数据,以水质合格信息作为标签信息,水质合格信息用于判断水质是否合格;
多个监督集成学习训练模型训练完后,选择预测准确度最高的监督集成学习训练模型作为水质预测模型,选择该水质预测模型所对应的特征组合作为输入特征;
多个监督集成学习训练模型采用随机森林、完全收敛随机森林、深度级联森林中的一种或任意多种组合形式的模型。
在本实施例中,通过贪心算法比较不同特征组合预测结果,具体包括:
初始化步骤:
输入样本矩阵X,设置循环轮次数值t为0,初始化第0轮的已选择特征集设置第0轮的未选择特征集S0={X1,X2,...,Xp},其中特征采样矩阵X=X1,X2,…,Xp,第i个特征Xi=(xi1,xi2,…,xn)Y,i=1,2,…,p,其中,p为初始特征维度,n为样本个数;
循环步骤:
设置模型最佳预测能力比较参数Δ=0,Δ用于表示模型最佳预测能力之差;
设置第t轮时最佳特征集合At=At-1∪{Xbest};
设置第t轮时除去最佳特征集合以外的剩余特征St=St-1/{Xbest};
计算第t轮与第t-1轮的模型最佳预测能力比较参数Δ=Q(At)-Q(At-1);
当Δ≤0时,退出循环步骤,输出Q值最高的已选择特征集作为特征组合。
如图2所示,本实施例以监督集成学习训练模型中采用深度级联森林模型为例进行说明:该深度级联森林模型由特征预处理模块、N级联森林联结层以及输出处理层构成,特征预处理模块用于对输入的初始特征进行预处理得到输入特征向量,N级联森林联结层以输入特征向量作为输入并输出预测向量,输出处理层利用1级森林联结层进行平滑处理和筛选预测向量的最大值,进而获得预测结果。其中N级联森林联结层中的每层设有相同数量的估计器,N为联森林联结层的层数,每层设有多个估计器,每个估计器包括多个树。
实施例2
下面结合具体案例对本发明作进一步详细说明,但是不作为对本发明的限定。在下面的例子中,模型运行平台为Python V.3.6.,模型评价指标为F1-score。实际饮用水水质数据集来自德国某水务集团。
实际饮用水数据经过前处理后具有133212条样本,其中不合格水质样本比较仅为0.18%,为极端不平衡数据。每条样本中包含pH,电导率(Cond),浊度(Turb),光谱吸收系数(SAC),温度(Tp),和脉冲频率调制值(PFM),其中前四个参数发生变化则为不合格饮用水。
首先对原始环境不平衡数据(饮用水水质数据集)中6个特征进行质检并通过计算Z值来标准化各特征。
选择PCA、LOF、MCD、HBOS四种模型进行深度特征提取,从而达到特征扩增的效果。
在本实施例中,PCA模型分别进行PCA原始特征提取和PCA异常值特征提取。通过原始样本矩阵X与投影矩阵W相乘得到PCA原始特征矩阵FPCA,即:
FPCA=X·W;
令原始样本矩阵X的协方差矩阵为S,(λ1,e1),(λ2,e2),…,(λp,ep)为协方差矩阵S的特征-特征值向量对,其中λ1≥λ2≥…λp≥0,投影矩阵W为根据特征值对应的特征构成,具体根据特征值按数值大小取前K个;原始样本矩阵X的大小是n×p维,投影矩阵W的大小是p×k维,PCA原始特征矩阵FPCA的大小是n×k维。
在本实施例中,PCA异常值特征矩阵FODPCA为通过所有样本在对应特征向量方向的偏差构成,PCA异常值特征矩阵FODPCA具体表示为:
在本实施例中,LOF异常值特征矩阵FLOF为根据所有样本的LOF异常值构成,LOF异常值特征矩阵FLOF具体表示为:
FLOF=(LOFk(x1),LOFk(x2),…,LOFk(xn))T
式中T为转置矩阵的标识,LOFk(xi)为第i个样本的LOF异常值,i=1,2,…,n。
在本实施例中,MCD异常值特征矩阵FMCD为根据所有样本分别与MCD参考点的Mahalanobis距离值构成,MCD异常值特征矩阵FMCD具体表示为:
FMCD=(d1,d2,…,dn)T
式中T为转置矩阵的标识,di(i=1,2,…,n)表示为第i个样本与MCD参考点TMCD的Mahalanobi s距离值。
在本实施例中,HBOS异常值特征FHBOS为根据各个样本在多维数据中的HBOS异常值构成,HBOS异常值特征FHBOS具体表示为:
FHBOS=(HBOS(x1),HBOS(x2),…,HBOS(xn))T
式中T为转置矩阵的标识,xi(i=1,2,…,n)表示为第i个样本,HBOS(xi)表示第i个样本在多维数据中的HBOS异常值。
实际应用时,HBOS异常值具体采用静态跨度的柱状图或动态宽度柱状图进行计算。
在本实施例中,以监督集成学习训练模型采用深度级联森林为例进行进一步说明,在深度级联森林中,最大层数为10层,每层有4个估计器,每个估计器有200个树组成。其中主要超参Penalty设置为L2,C设置为1,Solver设置为L-BFGS,Griterion设置为Gini。
依次输入不同特征和运行贪心算法后,经分析,利用实施例1中基于环境不平衡数据的水质预测方法筛选的深度级联森林的最佳预测F1-socre为95.08±1.57%,高于单独使用深度级联森林的预测能力(91.75±4.09%)。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.一种基于环境不平衡数据的水质预测方法,其特征在于,包括以下步骤:
特征预处理步骤:对环境原始不平衡数据集进行去除标签信息缺失的样本数据,对环境原始不平衡数据的特征进行标准化,得到多组原始训练集;
特征扩增步骤:对每组原始训练集中的原始特征进行深度特征提取和标准化得到多组扩增训练集;
模型筛选步骤:利用贪心算法筛选监督集成学习训练模型,通过贪心算法比较不同特征组合预测结果,选择预测准确度最高的监督集成学习训练模型作为水质预测模型;
待测预处理步骤:根据最佳特征组合进行采集输入特征所需的水质数据、大气数据,从而得到待测原始数据,所述最佳特征组合为水质预测模型所对应的特征组合;
对待测原始数据进行特征扩增和标准化得到待测输入数据;
水质预测步骤:将待测输入数据输入至水质预测模型进行判断水质是否合格。
2.根据权利要求1所述的基于环境不平衡数据的水质预测方法,其特征在于,还包括评价步骤,所述评价步骤具体为执行完水质预测步骤后,利用F1-score对水质预测模型的预测性能进行评价。
3.根据权利要求1或2所述的基于环境不平衡数据的水质预测方法,其特征在于,所述特征扩增步骤具体步骤为基于特征扩增模型对每组原始训练集中的原始特征进行深度特征提取和标准化,所述特征扩增模型为非监督模型,所述特征扩增模型具体选择主成分分析模型、局部异常因子检测模型、最小协方差行列式检测模型、基于直方图的离群值检测模型中的一种或任意多种组合的模型。
4.根据权利要求1所述的基于环境不平衡数据的水质预测方法,其特征在于,所述模型筛选步骤,具体步骤包括:
基于原始数据的特征划分多组特征组合,依次选择每组特征组合调整扩增训练集中的数据得到多个特征组合训练集;
根据每个特征组合训练集建立多个监督集成学习训练模型,对每个监督集成学习训练模型,以特征组合中的特征元素作为输入数据,以水质合格信息作为标签信息,所述水质合格信息用于判断水质是否合格;
多个监督集成学习训练模型训练完后,选择预测准确度最高的监督集成学习训练模型作为水质预测模型,选择该水质预测模型所对应的特征组合作为输入特征。
5.根据权利要求4所述的基于环境不平衡数据的水质预测方法,其特征在于,所述多个监督集成学习训练模型采用随机森林、完全收敛随机森林、深度级联森林中的一种或任意多种组合形式。
6.根据权利要求1所述的基于环境不平衡数据的水质预测方法,其特征在于,所述通过贪心算法比较不同特征组合预测结果,具体包括:
初始化步骤:
输入样本矩阵X,设置循环轮次数值t为0,初始化第0轮的已选择特征集设置第0轮的未选择特征集S0={X1,X2,...,Xp},其中特征采样矩阵X=X1,X2,…,Xp,第i个特征Xi=(xi1,xi2,…,xn)T,i=1,2,…,p,其中,p为初始特征维度,n为样本个数;
循环步骤:
设置模型最佳预测能力比较参数Δ=0,Δ用于表示模型最佳预测能力之差;
设置第t轮时最佳特征集合At=At-1∪{Xbest};
设置第t轮时除去最佳特征集合以外的剩余特征St=St-1/{Xbest};
计算第t轮与第t-1轮的模型最佳预测能力比较参数Δ=Q(At)-Q(At-1),Q(At)为第t轮模型预测能力值,Q(At-1)为第t-1轮模型预测能力值;
当Δ≤0时,退出循环步骤,输出Q值最高的已选择特征集作为特征组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110992226.4A CN113744083B (zh) | 2021-08-27 | 2021-08-27 | 一种基于环境不平衡数据的水质预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110992226.4A CN113744083B (zh) | 2021-08-27 | 2021-08-27 | 一种基于环境不平衡数据的水质预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113744083A true CN113744083A (zh) | 2021-12-03 |
CN113744083B CN113744083B (zh) | 2024-04-23 |
Family
ID=78733197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110992226.4A Active CN113744083B (zh) | 2021-08-27 | 2021-08-27 | 一种基于环境不平衡数据的水质预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113744083B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522248A (zh) * | 2023-03-22 | 2023-08-01 | 新疆维吾尔自治区疾病预防控制中心 | 基于机器学习的核酸异常数据智能研判系统 |
CN117350601A (zh) * | 2023-12-06 | 2024-01-05 | 北京英视睿达科技股份有限公司 | 水质预测方法、装置、电子设备及存储介质 |
CN117388457A (zh) * | 2023-10-16 | 2024-01-12 | 中山大学 | 一种耦合水力停留时间提高污水厂出水预测精度的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105320677A (zh) * | 2014-07-10 | 2016-02-10 | 香港中文大学深圳研究院 | 一种训练流式不平衡数据的方法及设备 |
CN110070144A (zh) * | 2019-04-30 | 2019-07-30 | 云南师范大学 | 一种湖泊水质预测方法及系统 |
CN112070125A (zh) * | 2020-08-19 | 2020-12-11 | 西安理工大学 | 一种基于孤立森林学习的不平衡数据集的预测方法 |
CN112836735A (zh) * | 2021-01-27 | 2021-05-25 | 中山大学 | 一种优化的随机森林处理不平衡数据集的方法 |
CN113095501A (zh) * | 2021-05-08 | 2021-07-09 | 重庆大学 | 一种基于深度强化学习的不平衡分类决策树生成方法 |
-
2021
- 2021-08-27 CN CN202110992226.4A patent/CN113744083B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105320677A (zh) * | 2014-07-10 | 2016-02-10 | 香港中文大学深圳研究院 | 一种训练流式不平衡数据的方法及设备 |
CN110070144A (zh) * | 2019-04-30 | 2019-07-30 | 云南师范大学 | 一种湖泊水质预测方法及系统 |
CN112070125A (zh) * | 2020-08-19 | 2020-12-11 | 西安理工大学 | 一种基于孤立森林学习的不平衡数据集的预测方法 |
CN112836735A (zh) * | 2021-01-27 | 2021-05-25 | 中山大学 | 一种优化的随机森林处理不平衡数据集的方法 |
CN113095501A (zh) * | 2021-05-08 | 2021-07-09 | 重庆大学 | 一种基于深度强化学习的不平衡分类决策树生成方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522248A (zh) * | 2023-03-22 | 2023-08-01 | 新疆维吾尔自治区疾病预防控制中心 | 基于机器学习的核酸异常数据智能研判系统 |
CN116522248B (zh) * | 2023-03-22 | 2023-12-15 | 新疆维吾尔自治区疾病预防控制中心 | 基于机器学习的核酸异常数据智能研判系统 |
CN117388457A (zh) * | 2023-10-16 | 2024-01-12 | 中山大学 | 一种耦合水力停留时间提高污水厂出水预测精度的方法 |
CN117388457B (zh) * | 2023-10-16 | 2024-05-31 | 中山大学 | 一种耦合水力停留时间提高污水厂出水预测精度的方法 |
CN117350601A (zh) * | 2023-12-06 | 2024-01-05 | 北京英视睿达科技股份有限公司 | 水质预测方法、装置、电子设备及存储介质 |
CN117350601B (zh) * | 2023-12-06 | 2024-04-16 | 北京英视睿达科技股份有限公司 | 水质预测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113744083B (zh) | 2024-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113744083A (zh) | 一种基于环境不平衡数据的水质预测方法 | |
WO2021257128A2 (en) | Quantum computing based deep learning for detection, diagnosis and other applications | |
CN104573669A (zh) | 图像物体检测方法 | |
CN102176698A (zh) | 一种基于迁移学习的用户异常行为检测方法 | |
CN113283547B (zh) | 一种基于多任务深度学习的最优潮流计算方法 | |
CN111935747B (zh) | 一种采用gru预测无线传感器网络链路质量的方法 | |
Rousseeuw et al. | Hybrid hidden Markov model for marine environment monitoring | |
CN111046961B (zh) | 基于双向长短时记忆单元和胶囊网络的故障分类方法 | |
CN110826642B (zh) | 一种针对传感器数据的无监督异常检测方法 | |
CN113139594B (zh) | 一种机载图像无人机目标自适应检测方法 | |
CN117237733A (zh) | 一种结合自监督和弱监督学习的乳腺癌全切片图像分类方法 | |
CN113314188B (zh) | 图结构增强的小样本学习方法、系统、设备及存储介质 | |
CN117349583A (zh) | 用于低温液体储罐的智能检测方法及系统 | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
CN116661410A (zh) | 基于加权有向图的大规模工业过程故障检测及诊断方法 | |
CN112183624A (zh) | 一种基于集成学习的大坝监测数据异常检测方法 | |
Sehly et al. | Comparative analysis of classification models for pima dataset | |
CN114879628A (zh) | 基于对抗局部最大均值差异的多模态工业过程故障诊断方法 | |
CN113658109A (zh) | 一种基于领域损失预测主动学习的玻璃缺陷检测方法 | |
CN115734274A (zh) | 一种基于深度学习和知识图谱的蜂窝网络故障诊断方法 | |
Yang | Big Data Analyzing Techniques in Mathematical House Price Prediction Model | |
Liu et al. | Structured collaborative sparse dictionary learning for monitoring of multimode processes | |
Sun et al. | Caae: A novel wireless spectrum anomaly detection method with multiple scoring criterion | |
Li et al. | Multi-Label Zero-Shot Learning for Industrial Fault Diagnosis | |
Jenifer et al. | An ensemble based machine learning approach for traffic prediction in smart city |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |