CN112861989A - 一种基于密度筛选的深度神经网络回归模型 - Google Patents

一种基于密度筛选的深度神经网络回归模型 Download PDF

Info

Publication number
CN112861989A
CN112861989A CN202110240746.XA CN202110240746A CN112861989A CN 112861989 A CN112861989 A CN 112861989A CN 202110240746 A CN202110240746 A CN 202110240746A CN 112861989 A CN112861989 A CN 112861989A
Authority
CN
China
Prior art keywords
neural network
data
density
points
deep neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110240746.XA
Other languages
English (en)
Inventor
张潮
范宇楠
詹全忠
钱峰
杨非
沈智镔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ministry Of Water Resources Information Center
Original Assignee
Ministry Of Water Resources Information Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ministry Of Water Resources Information Center filed Critical Ministry Of Water Resources Information Center
Priority to CN202110240746.XA priority Critical patent/CN112861989A/zh
Publication of CN112861989A publication Critical patent/CN112861989A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

一种基于密度筛选的深度神经网络回归模型,其属于水位预估的技术领域。该方法中基于正常数据点的数据密度高于异常点的数据密度,将异常数据进行筛除,得到有效的样本集,从大量的数据中筛选出有用的数据。将样本集进行标准化处理,消除了不同数据之间数量上的差异,进而避免深度学习模型学习的困难,提高效率。构建深度学生的神经网络模型,通过历史数据对神经网络模型进行不断的训练,训练后的神经网络模型可用于水位的预测。

Description

一种基于密度筛选的深度神经网络回归模型
技术领域
本发明涉及一种基于密度筛选的深度神经网络回归模型,其属于水位预估的技术领域。
背景技术
水文监测系统适用于水文部门对江、河、湖泊、水库、渠道和地下水等水文参数进行实时监测,监测内容包括:水位、流量、流速、降雨(雪)、蒸发、泥沙、冰凌、墒情、水质等。水文监测系统采用无线通讯方式实时传送监测数据,可以大大提高水文部门的工作效率。经过多年的建设管理水利行业各部门积累了大量数据信息,这些数据通过逐年累月的积累,最终形成水利大数据集;此外,新媒体与传感技术的日益发展,非传统类型的水利数据越来越多,不仅仅有水力、生态、水文、气象方面的数据,还包括地理数据、排水设施数据、地形地势以及河流分布数据等。因此,如何利用水利数据为国民经济的发展和水利的产业的更好推进服务,成为需要解决的问题。
发明内容
为解决现有技术中存在的问题,本发明提供一种基于密度筛选的深度神经网络回归模型。
本发明采用的技术方案为:一种基于密度筛选的深度神经网络回归模型,包括以下步骤:
S1、根据数据密度筛选数据:
假设正常数据点的数据密度高于异常点的数据密度,点p的局部可达密度为点p的第k邻域内的点到p的平均可达距离的倒数,表示为:
Figure BDA0002962050890000011
其中,点p的第k距离邻域Nk(p)就是p的第k距离以内的所有点;
对于点p的第k距离dk(p)定义为:dk(p)=d(p,o),并且满足:
a)在数据集中至少有不包括p在内的k个点o′∈D\{p},满足d{p,o′}≤d{p,o};
b)在数据集中至多有不包括p在内的k-1个点o′∈D\{p},满足d{p,o′}<d{p,o};
d(p,o)是两点p和o之间的距离;
对于给定的正数k,对象o相对于对象p的可达距离reach-disk(p,o)=max{k-dis(o),d(p,o)};
局部可达密度越高,认为越可能属于同一簇,密度越低,越可能是离群点;
如果p和周围邻域点是同一簇,那么可达距离越可能为较小的dk(o),导致可达距离之和较小,密度值较高;如果p和周围邻居点较远,可达距离可能都会取较大值d(p,o),导致密度较小,越可能是离群点;
局部离群因子表示为:
Figure BDA0002962050890000021
以lofactor函数计算LOF算法中的局部离群因子,取k=N/10,筛除局部离群因子最大的前N/10个数据
作为异常值,剩余数值作为训练样本;N为原始样本中的样本值;
S2、数据的标准化处理:
用于将特征向量和输出值处理为均值附近的值,用于消除不同数据之间数量上的差异;通过计算样本中每个特征值和输出值的均值和方差,然后用均值和方差对对应的特征值进行标准化,训练样本中一个样本有一个特征向量和对应的输出值构成,即:(xi,yi);
S3、通过样本获取Yi=F(Xi)中的非线性变换函数F,根据输入的X获取对应的预测输出结果;采用深度神经网络中的回归分析方法来学习变换函数F;
S4、构建深度神经网络回归模型,对水位特征构建一个两层神经网络,用于获取水位的变化趋势,以及对预测水位的影响,第一层的隐藏节点数根据需要设定;神经网络模型对降雨量、当前水位的神经网络输出值连接到输出节点,节点采用tanh函数进行非线性化;
S5、深度神经网络回归模型的训练和实时预测:采用标准化处理后的历时数据训练深度神经网络回归模型,并进行处理获得有效样本;采用Adam最优化方法,训练时将所有的样本都通过预处理标准化后;然后将输入特征向量X和真实输出值Y分别输入到深度神经网络回归模型;然后不断迭代,实现模型的训练;
S6、训练好的深度神经网络回归模型的参数,导入模型参数,自动获取当前时刻的历时数据,输入特征向量,即可得到预测的输出结果。
本发明的有益效果为:该方法中基于正常数据点的数据密度高于异常点的数据密度,将异常数据进行筛除,得到有效的样本集,从大量的数据中筛选出有用的数据。将样本集进行标准化处理,消除了不同数据之间数量上的差异,进而避免深度学习模型学习的困难,提高效率。构建深度学生的神经网络模型,通过历史数据对神经网络模型进行不断的训练,训练后的神经网络模型可用于水位的预测。
具体实施方式
具体实施方式仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。
一种基于密度筛选的深度神经网络回归模型,包括以下步骤:
S1、根据数据密度筛选数据:
假设正常数据点的数据密度高于异常点的数据密度,点p的局部可达密度为点p的第k邻域内的点到p的平均可达距离的倒数,表示为:
Figure BDA0002962050890000041
其中,点p的第k距离邻域Nk(p)就是p的第k距离以内的所有点;
对于点p的第k距离dk(p)定义为:dk(p)=d(p,o),并且满足:
a)在数据集中至少有不包括p在内的k个点o′∈D\{p},满足d{p,o′}≤d{p,o};
b)在数据集中至多有不包括p在内的k-1个点o′∈D\{p},满足d{p,o′}<d{p,o};
d(p,o)是两点p和o之间的距离;
对于给定的正数k,对象o相对于对象p的可达距离reach-disk(p,o)=max{k-dis(o),d(p,o)};
局部可达密度越高,认为越可能属于同一簇,密度越低,越可能是离群点;
如果p和周围邻域点是同一簇,那么可达距离越可能为较小的dk(o),导致可达距离之和较小,密度值较高;如果p和周围邻居点较远,可达距离可能都会取较大值d(p,o),导致密度较小,越可能是离群点;
局部离群因子表示为:
Figure BDA0002962050890000042
以lofactor函数计算LOF算法中的局部离群因子,取k=N/10,筛除局部离群因子最大的前N/10个数据
作为异常值,剩余数值作为训练样本;N为原始样本中的样本值;
S2、数据的标准化处理:
用于将特征向量和输出值处理为均值附近的值,用于消除不同数据之间数量上的差异;通过计算样本中每个特征值和输出值的均值和方差,然后用均值和方差对对应的特征值进行标准化,训练样本中一个样本有一个特征向量和对应的输出值构成,即:(xi,yi);
S3、通过样本获取Yi=F(Xi)中的非线性变换函数F,根据输入的X获取对应的预测输出结果;采用深度神经网络中的回归分析方法来学习变换函数F;
S4、构建深度神经网络回归模型,对水位特征构建一个两层神经网络,用于获取水位的变化趋势,以及对预测水位的影响,第一层的隐藏节点数根据需要设定;神经网络模型对降雨量、当前水位的神经网络输出值连接到输出节点,节点采用tanh函数进行非线性化;
S5、深度神经网络回归模型的训练和实时预测:采用标准化处理后的历时数据训练深度神经网络回归模型,并进行处理获得有效样本;采用Adam最优化方法,训练时将所有的样本都通过预处理标准化后;然后将输入特征向量X和真实输出值Y分别输入到深度神经网络回归模型;然后不断迭代,实现模型的训练;
S6、训练好的深度神经网络回归模型的参数,导入模型参数,自动获取当前时刻的历时数据,输入特征向量,即可得到预测的输出结果。

Claims (1)

1.一种基于密度筛选的深度神经网络回归模型,其特征在于,包括以下步骤:
S1、根据数据密度筛选数据:
假设正常数据点的数据密度高于异常点的数据密度,点p的局部可达密度为点p的第k邻域内的点到p的平均可达距离的倒数,表示为:
Figure FDA0002962050880000011
其中,点p的第k距离邻域Nk(p)就是p的第k距离以内的所有点;
对于点p的第k距离dk(p)定义为:dk(p)=d(p,o),并且满足:
a)在数据集中至少有不包括p在内的k个点o′∈D\{p},满足d{p,o′}≤d{p,o};
b)在数据集中至多有不包括p在内的k-1个点o′∈D\{p},满足d{p,o′}<d{p,o};
d(p,o)是两点p和o之间的距离;
对于给定的正数k,对象o相对于对象p的可达距离reach-disk(p,o)=max{k-dis(o),d(p,o)};
局部可达密度越高,认为越可能属于同一簇,密度越低,越可能是离群点;
如果p和周围邻域点是同一簇,那么可达距离越可能为较小的dk(o),导致可达距离之和较小,密度值较高;如果p和周围邻居点较远,可达距离可能都会取较大值d(p,o),导致密度较小,越可能是离群点;
局部离群因子表示为:
Figure FDA0002962050880000012
以lofactor函数计算LOF算法中的局部离群因子,取k=N/10,筛除局部离群因子最大的前N/10个数据
作为异常值,剩余数值作为训练样本;N为原始样本中的样本值;
S2、数据的标准化处理:
用于将特征向量和输出值处理为均值附近的值,用于消除不同数据之间数量上的差异;通过计算样本中每个特征值和输出值的均值和方差,然后用均值和方差对对应的特征值进行标准化,训练样本中一个样本有一个特征向量和对应的输出值构成,即:(xi,yi);
S3、通过样本获取Yi=F(Xi)中的非线性变换函数F,根据输入的X获取对应的预测输出结果;采用深度神经网络中的回归分析方法来学习变换函数F;
S4、构建深度神经网络回归模型,对水位特征构建一个两层神经网络,用于获取水位的变化趋势,以及对预测水位的影响,第一层的隐藏节点数根据需要设定;神经网络模型对降雨量、当前水位的神经网络输出值连接到输出节点,节点采用tanh函数进行非线性化;
S5、深度神经网络回归模型的训练和实时预测:采用标准化处理后的历时数据训练深度神经网络回归模型,并进行处理获得有效样本;采用Adam最优化方法,训练时将所有的样本都通过预处理标准化后;然后将输入特征向量X和真实输出值Y分别输入到深度神经网络回归模型;然后不断迭代,实现模型的训练;
S6、训练好的深度神经网络回归模型的参数,导入模型参数,自动获取当前时刻的历时数据,输入特征向量,即可得到预测的输出结果。
CN202110240746.XA 2021-03-04 2021-03-04 一种基于密度筛选的深度神经网络回归模型 Pending CN112861989A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110240746.XA CN112861989A (zh) 2021-03-04 2021-03-04 一种基于密度筛选的深度神经网络回归模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110240746.XA CN112861989A (zh) 2021-03-04 2021-03-04 一种基于密度筛选的深度神经网络回归模型

Publications (1)

Publication Number Publication Date
CN112861989A true CN112861989A (zh) 2021-05-28

Family

ID=75991718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110240746.XA Pending CN112861989A (zh) 2021-03-04 2021-03-04 一种基于密度筛选的深度神经网络回归模型

Country Status (1)

Country Link
CN (1) CN112861989A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010217795A (ja) * 2009-03-18 2010-09-30 Ricoh Co Ltd 画像形成装置、画像形成方法およびプログラム
CN108875161A (zh) * 2018-05-31 2018-11-23 长江勘测规划设计研究有限责任公司 基于卷积神经网络深度学习的流量等级预测方法
CN109615146A (zh) * 2018-12-27 2019-04-12 东北大学 一种基于深度学习的超短时风功率预测方法
CN109948724A (zh) * 2019-03-28 2019-06-28 山东浪潮云信息技术有限公司 一种基于改进lof算法的电商刷单行为检测方法
CN109978235A (zh) * 2019-03-04 2019-07-05 宁波市气象服务中心 一种基于样本学习的积涝水位预测方法
CN110263846A (zh) * 2019-06-18 2019-09-20 华北电力大学 基于故障数据深度挖掘及学习的故障诊断方法
WO2019237492A1 (zh) * 2018-06-13 2019-12-19 山东科技大学 一种基于半监督学习的异常用电用户检测方法
CN111310968A (zh) * 2019-12-20 2020-06-19 西安电子科技大学 一种基于互信息的lstm神经网络循环水文预报方法
CN111598165A (zh) * 2020-05-15 2020-08-28 杭州电子科技大学 一种基于极限学习机的密度聚类离群点检测方法
CN112163602A (zh) * 2020-09-14 2021-01-01 湖北工业大学 一种基于深度神经网络的目标检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010217795A (ja) * 2009-03-18 2010-09-30 Ricoh Co Ltd 画像形成装置、画像形成方法およびプログラム
CN108875161A (zh) * 2018-05-31 2018-11-23 长江勘测规划设计研究有限责任公司 基于卷积神经网络深度学习的流量等级预测方法
WO2019237492A1 (zh) * 2018-06-13 2019-12-19 山东科技大学 一种基于半监督学习的异常用电用户检测方法
CN109615146A (zh) * 2018-12-27 2019-04-12 东北大学 一种基于深度学习的超短时风功率预测方法
CN109978235A (zh) * 2019-03-04 2019-07-05 宁波市气象服务中心 一种基于样本学习的积涝水位预测方法
CN109948724A (zh) * 2019-03-28 2019-06-28 山东浪潮云信息技术有限公司 一种基于改进lof算法的电商刷单行为检测方法
CN110263846A (zh) * 2019-06-18 2019-09-20 华北电力大学 基于故障数据深度挖掘及学习的故障诊断方法
CN111310968A (zh) * 2019-12-20 2020-06-19 西安电子科技大学 一种基于互信息的lstm神经网络循环水文预报方法
CN111598165A (zh) * 2020-05-15 2020-08-28 杭州电子科技大学 一种基于极限学习机的密度聚类离群点检测方法
CN112163602A (zh) * 2020-09-14 2021-01-01 湖北工业大学 一种基于深度神经网络的目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李蓟涛: "密度聚类算法及其在海洋中尺度现象中的应用研究", 中国博士学位论文全文数据库(基础科学辑), no. 2020, pages 010 - 2 *

Similar Documents

Publication Publication Date Title
CN111222698B (zh) 面向物联网的基于长短时记忆网络的积水水位预测方法
CN107423546B (zh) 基于Copula函数的多变量水文不确定性处理方法
CN106650767B (zh) 基于聚类分析和实时校正的洪水预报方法
CN109978235B (zh) 一种基于样本学习的积涝水位预测方法
Chang et al. Applying fuzzy theory and genetic algorithm to interpolate precipitation
Zhang et al. Calibration and uncertainty analysis of the SWAT model using Genetic Algorithms and Bayesian Model Averaging
Belayneh et al. Standard precipitation index drought forecasting using neural networks, wavelet neural networks, and support vector regression
Lin et al. A hybrid neural network model for typhoon-rainfall forecasting
CN116070971B (zh) 河湖水系有序流动调控方法和系统
Khu et al. Incorporating multiple observations for distributed hydrologic model calibration: An approach using a multi-objective evolutionary algorithm and clustering
Bayatvarkeshi et al. Modeling soil temperature using air temperature features in diverse climatic conditions with complementary machine learning models
CN110728409B (zh) 一种洪水过程类型相似性挖掘与快速预测方法
Fathabadi et al. Comparison of Bayesian, k-Nearest Neighbor and Gaussian process regression methods for quantifying uncertainty of suspended sediment concentration prediction
CN110276477B (zh) 一种基于分层贝叶斯网络和增量学习的洪水预报方法
CN111652425A (zh) 一种基于粗糙集和长短期记忆网络的河流水质预测方法
Hamamin et al. Supervised committee fuzzy logic model to assess groundwater intrinsic vulnerability in multiple aquifer systems
Hemati et al. Water allocation using game theory under climate change impact (case study: Zarinehrood)
Dehghanian et al. Evaluation of coupled ANN-GA model to prioritize flood source areas in ungauged watersheds
Ouyang Input optimization of ANFIS typhoon inundation forecast models using a Multi-Objective Genetic Algorithm
CN117236673B (zh) 城市水网多尺度防洪排涝联合优化调度方法和系统
Nazeri-Tahroudi et al. Estimation of dew point temperature in different climates of Iran using support vector regression
CN112861989A (zh) 一种基于密度筛选的深度神经网络回归模型
Chang et al. Multistep‐ahead flood forecasts by neuro‐fuzzy networks with effective rainfall–run‐off patterns
Ghose et al. Performance Evaluation of hybrid ANFIS model for Flood Prediction
CN116523189A (zh) 一种考虑水文特征的墒情站点规划方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination