CN112861989A

CN112861989A - 一种基于密度筛选的深度神经网络回归模型

Info

Publication number: CN112861989A
Application number: CN202110240746.XA
Authority: CN
Inventors: 张潮; 范宇楠; 詹全忠; 钱峰; 杨非; 沈智镔
Original assignee: Ministry Of Water Resources Information Center
Current assignee: Ministry Of Water Resources Information Center
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2021-05-28

Abstract

一种基于密度筛选的深度神经网络回归模型，其属于水位预估的技术领域。该方法中基于正常数据点的数据密度高于异常点的数据密度，将异常数据进行筛除，得到有效的样本集，从大量的数据中筛选出有用的数据。将样本集进行标准化处理，消除了不同数据之间数量上的差异,进而避免深度学习模型学习的困难，提高效率。构建深度学生的神经网络模型，通过历史数据对神经网络模型进行不断的训练，训练后的神经网络模型可用于水位的预测。

Description

一种基于密度筛选的深度神经网络回归模型

技术领域

本发明涉及一种基于密度筛选的深度神经网络回归模型，其属于水位预估的技术领域。

背景技术

水文监测系统适用于水文部门对江、河、湖泊、水库、渠道和地下水等水文参数进行实时监测，监测内容包括：水位、流量、流速、降雨(雪)、蒸发、泥沙、冰凌、墒情、水质等。水文监测系统采用无线通讯方式实时传送监测数据，可以大大提高水文部门的工作效率。经过多年的建设管理水利行业各部门积累了大量数据信息，这些数据通过逐年累月的积累，最终形成水利大数据集；此外，新媒体与传感技术的日益发展，非传统类型的水利数据越来越多，不仅仅有水力、生态、水文、气象方面的数据，还包括地理数据、排水设施数据、地形地势以及河流分布数据等。因此，如何利用水利数据为国民经济的发展和水利的产业的更好推进服务，成为需要解决的问题。

发明内容

为解决现有技术中存在的问题，本发明提供一种基于密度筛选的深度神经网络回归模型。

本发明采用的技术方案为：一种基于密度筛选的深度神经网络回归模型，包括以下步骤：

S1、根据数据密度筛选数据：

假设正常数据点的数据密度高于异常点的数据密度，点p的局部可达密度为点p的第k邻域内的点到p的平均可达距离的倒数，表示为：

其中，点p的第k距离邻域N_k(p)就是p的第k距离以内的所有点；

对于点p的第k距离dk(p)定义为：dk(p)＝d(p,o)，并且满足：

a)在数据集中至少有不包括p在内的k个点o′∈D\{p}，满足d{p,o′}≤d{p,o}；

b)在数据集中至多有不包括p在内的k-1个点o′∈D\{p}，满足d{p,o′}<d{p,o}；

d(p,o)是两点p和o之间的距离；

对于给定的正数k，对象o相对于对象p的可达距离reach-disk(p,o)＝max{k-dis(o),d(p,o)}；

局部可达密度越高，认为越可能属于同一簇，密度越低，越可能是离群点；

如果p和周围邻域点是同一簇，那么可达距离越可能为较小的dk(o)，导致可达距离之和较小，密度值较高；如果p和周围邻居点较远，可达距离可能都会取较大值d(p,o)，导致密度较小，越可能是离群点；

局部离群因子表示为：

以lofactor函数计算LOF算法中的局部离群因子，取k＝N/10，筛除局部离群因子最大的前N/10个数据

作为异常值，剩余数值作为训练样本；N为原始样本中的样本值；

S2、数据的标准化处理：

用于将特征向量和输出值处理为均值附近的值，用于消除不同数据之间数量上的差异；通过计算样本中每个特征值和输出值的均值和方差,然后用均值和方差对对应的特征值进行标准化，训练样本中一个样本有一个特征向量和对应的输出值构成，即：(x_i，y_i)；

S3、通过样本获取Y_i＝F(X_i)中的非线性变换函数F，根据输入的X获取对应的预测输出结果；采用深度神经网络中的回归分析方法来学习变换函数F；

S4、构建深度神经网络回归模型，对水位特征构建一个两层神经网络，用于获取水位的变化趋势，以及对预测水位的影响，第一层的隐藏节点数根据需要设定；神经网络模型对降雨量、当前水位的神经网络输出值连接到输出节点，节点采用tanh函数进行非线性化；

S5、深度神经网络回归模型的训练和实时预测：采用标准化处理后的历时数据训练深度神经网络回归模型，并进行处理获得有效样本；采用Adam最优化方法，训练时将所有的样本都通过预处理标准化后；然后将输入特征向量X和真实输出值Y分别输入到深度神经网络回归模型；然后不断迭代，实现模型的训练；

S6、训练好的深度神经网络回归模型的参数，导入模型参数，自动获取当前时刻的历时数据，输入特征向量，即可得到预测的输出结果。

本发明的有益效果为：该方法中基于正常数据点的数据密度高于异常点的数据密度，将异常数据进行筛除，得到有效的样本集，从大量的数据中筛选出有用的数据。将样本集进行标准化处理，消除了不同数据之间数量上的差异,进而避免深度学习模型学习的困难，提高效率。构建深度学生的神经网络模型，通过历史数据对神经网络模型进行不断的训练，训练后的神经网络模型可用于水位的预测。

具体实施方式

具体实施方式仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

一种基于密度筛选的深度神经网络回归模型，包括以下步骤：

S1、根据数据密度筛选数据：

其中，点p的第k距离邻域N_k(p)就是p的第k距离以内的所有点；

对于点p的第k距离dk(p)定义为：dk(p)＝d(p,o)，并且满足：

d(p,o)是两点p和o之间的距离；

局部离群因子表示为：

S2、数据的标准化处理：

Claims

1.一种基于密度筛选的深度神经网络回归模型，其特征在于，包括以下步骤：

S1、根据数据密度筛选数据：

其中，点p的第k距离邻域N_k(p)就是p的第k距离以内的所有点；

对于点p的第k距离dk(p)定义为：dk(p)＝d(p，o)，并且满足：

a)在数据集中至少有不包括p在内的k个点o′∈D\{p}，满足d{p，o′}≤d{p，o}；

b)在数据集中至多有不包括p在内的k-1个点o′∈D\{p}，满足d{p，o′}＜d{p，o}；

d(p，o)是两点p和o之间的距离；

对于给定的正数k，对象o相对于对象p的可达距离reach-disk(p，o)＝max{k-dis(o)，d(p，o)}；

如果p和周围邻域点是同一簇，那么可达距离越可能为较小的dk(o)，导致可达距离之和较小，密度值较高；如果p和周围邻居点较远，可达距离可能都会取较大值d(p，o)，导致密度较小，越可能是离群点；

局部离群因子表示为：

S2、数据的标准化处理：

用于将特征向量和输出值处理为均值附近的值，用于消除不同数据之间数量上的差异；通过计算样本中每个特征值和输出值的均值和方差，然后用均值和方差对对应的特征值进行标准化，训练样本中一个样本有一个特征向量和对应的输出值构成，即：(x_i，y_i)；