CN112861989A - 一种基于密度筛选的深度神经网络回归模型 - Google Patents
一种基于密度筛选的深度神经网络回归模型 Download PDFInfo
- Publication number
- CN112861989A CN112861989A CN202110240746.XA CN202110240746A CN112861989A CN 112861989 A CN112861989 A CN 112861989A CN 202110240746 A CN202110240746 A CN 202110240746A CN 112861989 A CN112861989 A CN 112861989A
- Authority
- CN
- China
- Prior art keywords
- neural network
- data
- density
- points
- deep neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 32
- 238000012216 screening Methods 0.000 title claims abstract description 14
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000003062 neural network model Methods 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000002159 abnormal effect Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000000611 regression analysis Methods 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 abstract description 2
- 238000012544 monitoring process Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000009430 construction management Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008020 evaporation Effects 0.000 description 1
- 238000001704 evaporation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
Abstract
一种基于密度筛选的深度神经网络回归模型,其属于水位预估的技术领域。该方法中基于正常数据点的数据密度高于异常点的数据密度,将异常数据进行筛除,得到有效的样本集,从大量的数据中筛选出有用的数据。将样本集进行标准化处理,消除了不同数据之间数量上的差异,进而避免深度学习模型学习的困难,提高效率。构建深度学生的神经网络模型,通过历史数据对神经网络模型进行不断的训练,训练后的神经网络模型可用于水位的预测。
Description
技术领域
本发明涉及一种基于密度筛选的深度神经网络回归模型,其属于水位预估的技术领域。
背景技术
水文监测系统适用于水文部门对江、河、湖泊、水库、渠道和地下水等水文参数进行实时监测,监测内容包括:水位、流量、流速、降雨(雪)、蒸发、泥沙、冰凌、墒情、水质等。水文监测系统采用无线通讯方式实时传送监测数据,可以大大提高水文部门的工作效率。经过多年的建设管理水利行业各部门积累了大量数据信息,这些数据通过逐年累月的积累,最终形成水利大数据集;此外,新媒体与传感技术的日益发展,非传统类型的水利数据越来越多,不仅仅有水力、生态、水文、气象方面的数据,还包括地理数据、排水设施数据、地形地势以及河流分布数据等。因此,如何利用水利数据为国民经济的发展和水利的产业的更好推进服务,成为需要解决的问题。
发明内容
为解决现有技术中存在的问题,本发明提供一种基于密度筛选的深度神经网络回归模型。
本发明采用的技术方案为:一种基于密度筛选的深度神经网络回归模型,包括以下步骤:
S1、根据数据密度筛选数据:
假设正常数据点的数据密度高于异常点的数据密度,点p的局部可达密度为点p的第k邻域内的点到p的平均可达距离的倒数,表示为:
其中,点p的第k距离邻域Nk(p)就是p的第k距离以内的所有点;
对于点p的第k距离dk(p)定义为:dk(p)=d(p,o),并且满足:
a)在数据集中至少有不包括p在内的k个点o′∈D\{p},满足d{p,o′}≤d{p,o};
b)在数据集中至多有不包括p在内的k-1个点o′∈D\{p},满足d{p,o′}<d{p,o};
d(p,o)是两点p和o之间的距离;
对于给定的正数k,对象o相对于对象p的可达距离reach-disk(p,o)=max{k-dis(o),d(p,o)};
局部可达密度越高,认为越可能属于同一簇,密度越低,越可能是离群点;
如果p和周围邻域点是同一簇,那么可达距离越可能为较小的dk(o),导致可达距离之和较小,密度值较高;如果p和周围邻居点较远,可达距离可能都会取较大值d(p,o),导致密度较小,越可能是离群点;
局部离群因子表示为:
以lofactor函数计算LOF算法中的局部离群因子,取k=N/10,筛除局部离群因子最大的前N/10个数据
作为异常值,剩余数值作为训练样本;N为原始样本中的样本值;
S2、数据的标准化处理:
用于将特征向量和输出值处理为均值附近的值,用于消除不同数据之间数量上的差异;通过计算样本中每个特征值和输出值的均值和方差,然后用均值和方差对对应的特征值进行标准化,训练样本中一个样本有一个特征向量和对应的输出值构成,即:(xi,yi);
S3、通过样本获取Yi=F(Xi)中的非线性变换函数F,根据输入的X获取对应的预测输出结果;采用深度神经网络中的回归分析方法来学习变换函数F;
S4、构建深度神经网络回归模型,对水位特征构建一个两层神经网络,用于获取水位的变化趋势,以及对预测水位的影响,第一层的隐藏节点数根据需要设定;神经网络模型对降雨量、当前水位的神经网络输出值连接到输出节点,节点采用tanh函数进行非线性化;
S5、深度神经网络回归模型的训练和实时预测:采用标准化处理后的历时数据训练深度神经网络回归模型,并进行处理获得有效样本;采用Adam最优化方法,训练时将所有的样本都通过预处理标准化后;然后将输入特征向量X和真实输出值Y分别输入到深度神经网络回归模型;然后不断迭代,实现模型的训练;
S6、训练好的深度神经网络回归模型的参数,导入模型参数,自动获取当前时刻的历时数据,输入特征向量,即可得到预测的输出结果。
本发明的有益效果为:该方法中基于正常数据点的数据密度高于异常点的数据密度,将异常数据进行筛除,得到有效的样本集,从大量的数据中筛选出有用的数据。将样本集进行标准化处理,消除了不同数据之间数量上的差异,进而避免深度学习模型学习的困难,提高效率。构建深度学生的神经网络模型,通过历史数据对神经网络模型进行不断的训练,训练后的神经网络模型可用于水位的预测。
具体实施方式
具体实施方式仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。
一种基于密度筛选的深度神经网络回归模型,包括以下步骤:
S1、根据数据密度筛选数据:
假设正常数据点的数据密度高于异常点的数据密度,点p的局部可达密度为点p的第k邻域内的点到p的平均可达距离的倒数,表示为:
其中,点p的第k距离邻域Nk(p)就是p的第k距离以内的所有点;
对于点p的第k距离dk(p)定义为:dk(p)=d(p,o),并且满足:
a)在数据集中至少有不包括p在内的k个点o′∈D\{p},满足d{p,o′}≤d{p,o};
b)在数据集中至多有不包括p在内的k-1个点o′∈D\{p},满足d{p,o′}<d{p,o};
d(p,o)是两点p和o之间的距离;
对于给定的正数k,对象o相对于对象p的可达距离reach-disk(p,o)=max{k-dis(o),d(p,o)};
局部可达密度越高,认为越可能属于同一簇,密度越低,越可能是离群点;
如果p和周围邻域点是同一簇,那么可达距离越可能为较小的dk(o),导致可达距离之和较小,密度值较高;如果p和周围邻居点较远,可达距离可能都会取较大值d(p,o),导致密度较小,越可能是离群点;
局部离群因子表示为:
以lofactor函数计算LOF算法中的局部离群因子,取k=N/10,筛除局部离群因子最大的前N/10个数据
作为异常值,剩余数值作为训练样本;N为原始样本中的样本值;
S2、数据的标准化处理:
用于将特征向量和输出值处理为均值附近的值,用于消除不同数据之间数量上的差异;通过计算样本中每个特征值和输出值的均值和方差,然后用均值和方差对对应的特征值进行标准化,训练样本中一个样本有一个特征向量和对应的输出值构成,即:(xi,yi);
S3、通过样本获取Yi=F(Xi)中的非线性变换函数F,根据输入的X获取对应的预测输出结果;采用深度神经网络中的回归分析方法来学习变换函数F;
S4、构建深度神经网络回归模型,对水位特征构建一个两层神经网络,用于获取水位的变化趋势,以及对预测水位的影响,第一层的隐藏节点数根据需要设定;神经网络模型对降雨量、当前水位的神经网络输出值连接到输出节点,节点采用tanh函数进行非线性化;
S5、深度神经网络回归模型的训练和实时预测:采用标准化处理后的历时数据训练深度神经网络回归模型,并进行处理获得有效样本;采用Adam最优化方法,训练时将所有的样本都通过预处理标准化后;然后将输入特征向量X和真实输出值Y分别输入到深度神经网络回归模型;然后不断迭代,实现模型的训练;
S6、训练好的深度神经网络回归模型的参数,导入模型参数,自动获取当前时刻的历时数据,输入特征向量,即可得到预测的输出结果。
Claims (1)
1.一种基于密度筛选的深度神经网络回归模型,其特征在于,包括以下步骤:
S1、根据数据密度筛选数据:
假设正常数据点的数据密度高于异常点的数据密度,点p的局部可达密度为点p的第k邻域内的点到p的平均可达距离的倒数,表示为:
其中,点p的第k距离邻域Nk(p)就是p的第k距离以内的所有点;
对于点p的第k距离dk(p)定义为:dk(p)=d(p,o),并且满足:
a)在数据集中至少有不包括p在内的k个点o′∈D\{p},满足d{p,o′}≤d{p,o};
b)在数据集中至多有不包括p在内的k-1个点o′∈D\{p},满足d{p,o′}<d{p,o};
d(p,o)是两点p和o之间的距离;
对于给定的正数k,对象o相对于对象p的可达距离reach-disk(p,o)=max{k-dis(o),d(p,o)};
局部可达密度越高,认为越可能属于同一簇,密度越低,越可能是离群点;
如果p和周围邻域点是同一簇,那么可达距离越可能为较小的dk(o),导致可达距离之和较小,密度值较高;如果p和周围邻居点较远,可达距离可能都会取较大值d(p,o),导致密度较小,越可能是离群点;
局部离群因子表示为:
以lofactor函数计算LOF算法中的局部离群因子,取k=N/10,筛除局部离群因子最大的前N/10个数据
作为异常值,剩余数值作为训练样本;N为原始样本中的样本值;
S2、数据的标准化处理:
用于将特征向量和输出值处理为均值附近的值,用于消除不同数据之间数量上的差异;通过计算样本中每个特征值和输出值的均值和方差,然后用均值和方差对对应的特征值进行标准化,训练样本中一个样本有一个特征向量和对应的输出值构成,即:(xi,yi);
S3、通过样本获取Yi=F(Xi)中的非线性变换函数F,根据输入的X获取对应的预测输出结果;采用深度神经网络中的回归分析方法来学习变换函数F;
S4、构建深度神经网络回归模型,对水位特征构建一个两层神经网络,用于获取水位的变化趋势,以及对预测水位的影响,第一层的隐藏节点数根据需要设定;神经网络模型对降雨量、当前水位的神经网络输出值连接到输出节点,节点采用tanh函数进行非线性化;
S5、深度神经网络回归模型的训练和实时预测:采用标准化处理后的历时数据训练深度神经网络回归模型,并进行处理获得有效样本;采用Adam最优化方法,训练时将所有的样本都通过预处理标准化后;然后将输入特征向量X和真实输出值Y分别输入到深度神经网络回归模型;然后不断迭代,实现模型的训练;
S6、训练好的深度神经网络回归模型的参数,导入模型参数,自动获取当前时刻的历时数据,输入特征向量,即可得到预测的输出结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110240746.XA CN112861989A (zh) | 2021-03-04 | 2021-03-04 | 一种基于密度筛选的深度神经网络回归模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110240746.XA CN112861989A (zh) | 2021-03-04 | 2021-03-04 | 一种基于密度筛选的深度神经网络回归模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112861989A true CN112861989A (zh) | 2021-05-28 |
Family
ID=75991718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110240746.XA Pending CN112861989A (zh) | 2021-03-04 | 2021-03-04 | 一种基于密度筛选的深度神经网络回归模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861989A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010217795A (ja) * | 2009-03-18 | 2010-09-30 | Ricoh Co Ltd | 画像形成装置、画像形成方法およびプログラム |
CN108875161A (zh) * | 2018-05-31 | 2018-11-23 | 长江勘测规划设计研究有限责任公司 | 基于卷积神经网络深度学习的流量等级预测方法 |
CN109615146A (zh) * | 2018-12-27 | 2019-04-12 | 东北大学 | 一种基于深度学习的超短时风功率预测方法 |
CN109948724A (zh) * | 2019-03-28 | 2019-06-28 | 山东浪潮云信息技术有限公司 | 一种基于改进lof算法的电商刷单行为检测方法 |
CN109978235A (zh) * | 2019-03-04 | 2019-07-05 | 宁波市气象服务中心 | 一种基于样本学习的积涝水位预测方法 |
CN110263846A (zh) * | 2019-06-18 | 2019-09-20 | 华北电力大学 | 基于故障数据深度挖掘及学习的故障诊断方法 |
WO2019237492A1 (zh) * | 2018-06-13 | 2019-12-19 | 山东科技大学 | 一种基于半监督学习的异常用电用户检测方法 |
CN111310968A (zh) * | 2019-12-20 | 2020-06-19 | 西安电子科技大学 | 一种基于互信息的lstm神经网络循环水文预报方法 |
CN111598165A (zh) * | 2020-05-15 | 2020-08-28 | 杭州电子科技大学 | 一种基于极限学习机的密度聚类离群点检测方法 |
CN112163602A (zh) * | 2020-09-14 | 2021-01-01 | 湖北工业大学 | 一种基于深度神经网络的目标检测方法 |
-
2021
- 2021-03-04 CN CN202110240746.XA patent/CN112861989A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010217795A (ja) * | 2009-03-18 | 2010-09-30 | Ricoh Co Ltd | 画像形成装置、画像形成方法およびプログラム |
CN108875161A (zh) * | 2018-05-31 | 2018-11-23 | 长江勘测规划设计研究有限责任公司 | 基于卷积神经网络深度学习的流量等级预测方法 |
WO2019237492A1 (zh) * | 2018-06-13 | 2019-12-19 | 山东科技大学 | 一种基于半监督学习的异常用电用户检测方法 |
CN109615146A (zh) * | 2018-12-27 | 2019-04-12 | 东北大学 | 一种基于深度学习的超短时风功率预测方法 |
CN109978235A (zh) * | 2019-03-04 | 2019-07-05 | 宁波市气象服务中心 | 一种基于样本学习的积涝水位预测方法 |
CN109948724A (zh) * | 2019-03-28 | 2019-06-28 | 山东浪潮云信息技术有限公司 | 一种基于改进lof算法的电商刷单行为检测方法 |
CN110263846A (zh) * | 2019-06-18 | 2019-09-20 | 华北电力大学 | 基于故障数据深度挖掘及学习的故障诊断方法 |
CN111310968A (zh) * | 2019-12-20 | 2020-06-19 | 西安电子科技大学 | 一种基于互信息的lstm神经网络循环水文预报方法 |
CN111598165A (zh) * | 2020-05-15 | 2020-08-28 | 杭州电子科技大学 | 一种基于极限学习机的密度聚类离群点检测方法 |
CN112163602A (zh) * | 2020-09-14 | 2021-01-01 | 湖北工业大学 | 一种基于深度神经网络的目标检测方法 |
Non-Patent Citations (1)
Title |
---|
李蓟涛: "密度聚类算法及其在海洋中尺度现象中的应用研究", 中国博士学位论文全文数据库(基础科学辑), no. 2020, pages 010 - 2 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111222698B (zh) | 面向物联网的基于长短时记忆网络的积水水位预测方法 | |
CN107423546B (zh) | 基于Copula函数的多变量水文不确定性处理方法 | |
CN106650767B (zh) | 基于聚类分析和实时校正的洪水预报方法 | |
CN109978235B (zh) | 一种基于样本学习的积涝水位预测方法 | |
Chang et al. | Applying fuzzy theory and genetic algorithm to interpolate precipitation | |
Zhang et al. | Calibration and uncertainty analysis of the SWAT model using Genetic Algorithms and Bayesian Model Averaging | |
Belayneh et al. | Standard precipitation index drought forecasting using neural networks, wavelet neural networks, and support vector regression | |
Lin et al. | A hybrid neural network model for typhoon-rainfall forecasting | |
CN116070971B (zh) | 河湖水系有序流动调控方法和系统 | |
Khu et al. | Incorporating multiple observations for distributed hydrologic model calibration: An approach using a multi-objective evolutionary algorithm and clustering | |
Bayatvarkeshi et al. | Modeling soil temperature using air temperature features in diverse climatic conditions with complementary machine learning models | |
CN110728409B (zh) | 一种洪水过程类型相似性挖掘与快速预测方法 | |
Fathabadi et al. | Comparison of Bayesian, k-Nearest Neighbor and Gaussian process regression methods for quantifying uncertainty of suspended sediment concentration prediction | |
CN110276477B (zh) | 一种基于分层贝叶斯网络和增量学习的洪水预报方法 | |
CN111652425A (zh) | 一种基于粗糙集和长短期记忆网络的河流水质预测方法 | |
Hamamin et al. | Supervised committee fuzzy logic model to assess groundwater intrinsic vulnerability in multiple aquifer systems | |
Hemati et al. | Water allocation using game theory under climate change impact (case study: Zarinehrood) | |
Dehghanian et al. | Evaluation of coupled ANN-GA model to prioritize flood source areas in ungauged watersheds | |
Ouyang | Input optimization of ANFIS typhoon inundation forecast models using a Multi-Objective Genetic Algorithm | |
CN117236673B (zh) | 城市水网多尺度防洪排涝联合优化调度方法和系统 | |
Nazeri-Tahroudi et al. | Estimation of dew point temperature in different climates of Iran using support vector regression | |
CN112861989A (zh) | 一种基于密度筛选的深度神经网络回归模型 | |
Chang et al. | Multistep‐ahead flood forecasts by neuro‐fuzzy networks with effective rainfall–run‐off patterns | |
Ghose et al. | Performance Evaluation of hybrid ANFIS model for Flood Prediction | |
CN116523189A (zh) | 一种考虑水文特征的墒情站点规划方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |