CN118296311A - 水文水质缺失数据的插补方法、装置和电子设备 - Google Patents

水文水质缺失数据的插补方法、装置和电子设备 Download PDF

Info

Publication number
CN118296311A
CN118296311A CN202410696395.7A CN202410696395A CN118296311A CN 118296311 A CN118296311 A CN 118296311A CN 202410696395 A CN202410696395 A CN 202410696395A CN 118296311 A CN118296311 A CN 118296311A
Authority
CN
China
Prior art keywords
data
interpolation
missing
theoretical
deletion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410696395.7A
Other languages
English (en)
Inventor
陈昂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gezhouba Electric Power Rest House
China Three Gorges Corp
Original Assignee
Beijing Gezhouba Electric Power Rest House
China Three Gorges Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gezhouba Electric Power Rest House, China Three Gorges Corp filed Critical Beijing Gezhouba Electric Power Rest House
Priority to CN202410696395.7A priority Critical patent/CN118296311A/zh
Publication of CN118296311A publication Critical patent/CN118296311A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本公开涉及数据处理技术领域,尤其涉及一种水文水质缺失数据的插补方法、装置和电子设备,用于解决如何保证水文水质数据的完整性的问题。该方法包括:基于缺失场景,确定缺失场景对应的插补模型;将缺失数据片段输入至对应的插补模型进行数据插补,得到缺失数据片段对应的理论插补数据;采用层次分析法对每个插补模型进行分析,确定每个插补模型对应的权重值;基于理论插补数据和理论插补数据对应的插补模型的权重值,确定理论插补数据对应实际插补数据;基于至少一个实际插补数据对水文水质缺失数据进行数据插补,得到插补后的水文水质缺失数据。

Description

水文水质缺失数据的插补方法、装置和电子设备
技术领域
本公开涉及数据处理技术领域,尤其涉及一种水文水质缺失数据的插补方法、装置和电子设备。
背景技术
水文水质数据是水资源管理的重要基础条件,世界上许多国家都建立了全国性的水文水质数据监测网络,作为系统管理国家水资源的基础,水文水质监测和数据管理已成为水资源管理、水污染控制和治理的重要决策支撑,对于保障水资源、水环境和水安全至关重要。数据分析技术的进步、计算机技术和计算能力的提高及数据存储成本的降低,已使得水文水质数据管理从依赖于管理人员专业知识向系统的、数据驱动的人工智能转变。然而,由于历史条件限制、仪器设备故障、人工处理错误等原因,水文水质数据不可避免地存在缺失值,数据缺失已成为水文水质数据的常见问题。
因此,如何保证水文水质数据的完整性成为了一个亟待解决的问题。
发明内容
为了解决上述技术问题,本公开提供了一种水文水质缺失数据的插补方法、装置和电子设备。
为达到上述目的,本公开采用如下技术方案:
第一方面,本公开提供了一种水文水质缺失数据的插补方法,包括:获取水文水质缺失数据;其中,水文水质缺失数据包括至少一个缺失数据片段;对每个缺失数据片段执行如下操作:对缺失数据片段进行数据分析,确定缺失数据片段对应的缺失信息;基于缺失信息,确定缺失信息对应的缺失场景;基于缺失场景,确定缺失场景对应的插补模型;将缺失数据片段输入至对应的插补模型进行数据插补,得到缺失数据片段对应的理论插补数据;其中,不同的缺失场景对应的插补模型不同;采用层次分析法对每个插补模型进行分析,确定每个插补模型对应的权重值;基于理论插补数据和理论插补数据对应的插补模型的权重值,确定理论插补数据对应实际插补数据;基于至少一个实际插补数据对水文水质缺失数据进行数据插补,得到插补后的水文水质缺失数据。
第二方面,本公开提供了一种水文水质缺失数据的插补装置,包括:获取单元,用于获取水文水质缺失数据;其中,水文水质缺失数据包括至少一个缺失数据片段;处理单元,用于对获取单元获取的每个缺失数据片段执行如下操作:对缺失数据片段进行数据分析,确定缺失数据片段对应的缺失信息;基于缺失信息,确定缺失信息对应的缺失场景;基于缺失场景,确定缺失场景对应的插补模型;将缺失数据片段输入至对应的插补模型进行数据插补,得到缺失数据片段对应的理论插补数据;其中,不同的缺失场景对应的插补模型不同;处理单元,还用于采用层次分析法对每个插补模型进行分析,确定每个插补模型对应的权重值;基于理论插补数据和理论插补数据对应的插补模型的权重值,确定理论插补数据对应实际插补数据;处理单元,还用于基于至少一个实际插补数据对获取单元获取的水文水质缺失数据进行数据插补,得到插补后的水文水质缺失数据。
第三方面,本公开提供一种电子设备,包括:存储器和处理器,存储器用于存储计算机程序;处理器用于在执行计算机程序时,使得电子设备实现如上述第一方面提供的水文水质缺失数据的插补方法。
第四方面,本公开提供一种计算机可读存储介质,包括:计算机可读存储介质上存储有计算机程序,当计算机程序被计算设备执行时,使得计算设备实现如上述第一方面提供的水文水质缺失数据的插补方法。
在本公开中,上述水文水质缺失数据的插补装置的名字对设备或功能模块本身不构成限定,在实际实现中,这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本公开类似,属于本公开提供的技术方案及其等同技术的范围之内。
本公开的这些方面或其他方面在以下的描述中会更加简明易懂。
本公开提供的技术方案与现有技术相比具有如下优点:
本公开提供的水文水质缺失数据的插补方法,通过为不同的缺失数据片段配置不同的插补模型,从而通过对水文水质缺失数据中的每个缺失数据片段执行如下操作:对缺失数据片段进行数据分析,确定缺失数据片段对应的缺失信息;基于缺失信息,确定缺失信息对应的缺失场景;基于缺失场景,确定缺失场景对应的插补模型;将缺失数据片段输入至对应的插补模型进行数据插补,得到缺失数据片段对应的理论插补数据。之后,采用层次分析法对每个插补模型进行分析,确定每个插补模型对应的权重值;基于理论插补数据和理论插补数据对应的插补模型的权重值,确定理论插补数据对应实际插补数据;基于至少一个实际插补数据对水文水质缺失数据进行数据插补,得到插补后的水文水质缺失数据,如此可以对水文水质缺失数据进行数据插补,以保证水文水质数据的完整性,解决了如何保证水文水质数据的完整性的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种水文水质缺失数据的插补方法的流程示意图之一;
图2为本公开实施例提供的一种水文水质缺失数据的插补方法的场景示意图之一;
图3为本公开实施例提供的一种水文水质缺失数据的插补方法的流程示意图之二;
图4为本公开实施例提供的一种水文水质缺失数据的插补方法的流程示意图之三;
图5为本公开实施例提供的一种水文水质缺失数据的插补方法的流程示意图之四;
图6为本公开实施例提供的一种水文水质缺失数据的插补方法的场景示意图之二;
图7为本公开实施例提供的一种水文水质缺失数据的插补方法的流程示意图之五;
图8为本公开实施例提供的一种水文水质缺失数据的插补方法的流程示意图之六;
图9为本公开实施例提供的一种水文水质缺失数据的插补装置的结构示意图;
图10为本公开实施例提供的一种服务器的结构示意图;
图11为本公开实施例提供的一种水文水质缺失数据的插补方法的计算机程序产品的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如图1所示,本公开实施例提供的水文水质缺失数据的插补方法包括以下步骤S11-S15的内容:
S11、获取水文水质缺失数据。其中,水文水质缺失数据包括至少一个缺失数据片段。
在一些示例中,通常水文水质数据是连续的,但是由于种种原因近场会出现数据缺失的情况,导致实际的水文水质数据存在缺失,如:对目标区域的河流,在2020年11月1日至2021年12月31日,每隔一小时收集一个数据,得到水文水质缺失数据。但是,由于其它的原因,导致2020年11月2日17:00:00-2020年11月2日18:00:00、以及2020年11月3日19:00:00-2020年11月3日20:00:00这两个时刻未采集到数据。其中,2020年11月2日17:00:00-2020年11月2日18:00:00缺失的数据对应一个缺失数据片段,2020年11月3日19:00:00-2020年11月3日20:00:00缺失的数据对应一个缺失数据片段。
S12、对每个缺失数据片段执行如下操作:对缺失数据片段进行数据分析,确定缺失数据片段对应的缺失信息;基于缺失信息,确定缺失信息对应的缺失场景;基于缺失场景,确定缺失场景对应的插补模型;将缺失数据片段输入至对应的插补模型进行数据插补,得到缺失数据片段对应的理论插补数据。其中,不同的缺失场景对应的插补模型不同。
在一些示例中,缺失信息包括:缺失率、缺失间隙和缺失机制。其中,缺失率是数据集中缺失值所占的比例,是影响插补精度的主要因素之一。研究表明,随着缺失率的增加,输入精度趋于降低,缺失值的插补精度逐渐降低。随着数据量的增加,可用于插补模型的信息减少。当缺失率较低时,可采用统计学方法等简单插补方法;随着缺失率增加,需要多重插补或机器学习等高级插补方法。
示例性的,以水文水质缺失数据中预设数据(如:水温)在2020年11月1日至2021年11月1日,每隔一小时收集一次,最终得到的水文水质缺失数据中缺少了2020年11月1日17:00:00-2020年11月1日19:00:00、以及2020年11月1日9:00:00-2020年11月1日10:00:00的水温数据。其中,2020年11月1日17:00:00-2020年11月1日19:00:00缺失的水温数据对应一个缺失数据片段(如缺失数据片段1),2020年11月1日 9:00:00-2020年11月1日10:00:00的水温数据对应一个缺失数据片段(如缺失数据片段2)。
缺失数据片段1对应的包含的缺失值的总数为3,分别为2020 年11月1日17:00:00对应的水温数据、2020年11月1日18:00:00对应的水温数据和2020年11月1日19:00:00对应的水温数据;由于水温数据每隔一个小时收集一次,因此水文水质缺失数据中包含的水温的数据值的总数为24,即缺失率为12.5%。
缺失间隙是指连续缺失值的长度。一般由于监测设备断电等原因导致多个传感器在一段时间内丢失数据,数据是连续缺失的状态,通过插补方法补充数据集相对困难。
示例性的,结合上述缺失率的示例,由于缺失数据片段1对应的包含的缺失值的总数为3,分别为2020年11月1日17:00:00对应的水温数据、2020年11月1日18:00:00对应的水温数据和2020年11月119:00:00对应的水温数据,因此缺失数据片段1对应的缺失间隙等于缺失值的总数,即缺失间隙为3。
缺失机制通常分为完全随机缺失(Missing Completely at Random, MCAR)、随机缺失(Missing at Random,MAR)和非随机缺失(Not Missing at Random,MNAR)等三种类型,不同的缺失机制可能导致不同的缺失值模式,对应不同的数据插补方法。由于缺失一般是完全随机的,缺失数据与观测数据集中的任何特定特征或值无关,一般缺失机制均可认为是完全随机缺失,任何依赖观察数据的插补方法均可用于插补缺失值,而不会引入任何偏差。为了确保随机缺失或非随机缺失机制下的无偏结果,本发明将随机缺失也作为考虑的一种缺失机制。
其中,MCAR是指数据的缺失与不完全变量以及完全变量都是无关的,MAR是指数据的缺失仅仅依赖于完全变量,MNAR是指不完全变量中数据的缺失依赖于不完全变量本身,这种缺失是不可忽略的。
具体的,数据集中不含缺失值的变量(属性)称为完全变量,数据集中含有缺失值的变量称为不完全变量。
在一些示例中,插补模型的训练过程如下:包括S1收集数据、S2设置缺失数据、S3缺失数据插补的插补模型。其中,S1收集数据包括:S101数据收集与整理和S102缺失场景识别;S2设置缺失数据包括:S201主动引入缺失值和S202设置缺失场景。S3缺失数据插补的插补模型包括:S301单模型插补缺失数据、S302单模型插补缺失数据的准确性评估和S303多模型与多缺失场景函数关系构建。其中,
S101数据收集与整理,包括:
根据工作目的从现实环境中收集数据,并按照时间等序列格式整理成结构化数据集。
本发明以某河流为研究对象,如:河流长度AAA公里,流域面积BBB平方公里,为CCC万人供水。由于过去几十年人口的快速增长和城市化导致了严重的水质退化,为了持续监测水质情况、管理非点污染源,河流沿岸安装了水质监测系统。
本发明主要是收集河流水质数据。水质数据中包含的数据类型包括水温、pH值、电导率(EC)、溶解氧(DO)、浊度、流速、降雨量、总氮(T-N)、总磷(T-P)、总有机碳(TOC)。
在一些示例中,水温、pH值、电导率(EC)、溶解氧(DO)、浊度、流速和降雨量等数据资料均为自动化监测仪监测获得。
在一些示例中,总氮(T-N)和总磷(T-P)等数据资料采用自动化热氧化法进行在线监测。
在一些示例中,总有机碳(TOC)采用自动化标准污染物测试方法进行量化。
示例性的,以本发明收集水质数据的数据时间序列为2020年11月1日至2021年12月31日,每隔一小时收集一个数据,按照时间等序列格式整理成结构化数据集,每个指标参数有N(如:10224)个数据点,水质数据如表1所示。
表1
S102缺失场景识别,包括:
插补模型的准确性可能由于缺失率、缺失间隙长度和缺失机制等缺失信息的不同而不同,因此合适的插补方法需要在识别水质数据的缺失信息的特性基础上进行插补。
本发明为了了解数据缺失信息,根据实际数据缺失情况,确定影响缺失场景,识别影响数据插补准确性的特定属性或因素,为后续选择适当的插补方法做准备。如:主动引入缺失值、设置缺失场景等。
S201主动引入缺失值,包括:
根据S102识别的缺失信息,以及影响数据插补准确性的特定属性或因素,手动删除部分数据,从数据序列中移除部分数据信息,为后续模拟数据缺失情况做准备。
S202设置缺失场景,包括:
本发明主要考虑缺失率、缺失间隙和缺失机制等三类数据缺失属性,然后根据不同缺失属性的组合设置不同缺失场景。
本发明缺失率按照10%,20%,30%,40%,50%等不同大小设置,缺失间隙按照10,15,20,25,30等不同长度设置,缺失机制按照MCAR和MAR等两种类型设置,最后根据三种不同缺失信息的组合设置不同的缺失场景。
示例性的,以缺失率为10%,缺失间隙为10,15,20,25,30,缺失机制包含MCAR和MAR为例,不同缺失信息的组合与缺失场景的对应关系如表2所示。
表2
可以看出,当缺失率为10%,缺失间隙为10,15,20,25,30,缺失机制包含MCAR和MAR时,此时可以模拟出10种缺失场景,由于不同的缺失场景所采用的插补方式不同,因此需要为每种缺失场景分配一个缺失模型。
S301单模型插补缺失数据,包括:
根据S202设置的不同缺失场景,采用单一模型对缺失场景进行缺失数据的插补。
通过对所有变量的相关性分析,从S101收集的数据中选取目标变量。为了确保对不同插补方法插补效果评估的公平性,本发明采用其他变量相关性较低的单一变量作为目标变量,其余变量作为输入变量,以此建立输入变量和目标变量的回归关系,进行数据集插补。
根据构建的回归关系,对S201主动设置的缺失值和S202不同缺失场景进行插补。
本发明中由于电导率与其他变量之间的相关性最低,因此本发明将电导率作为训练我们提出的插补模型的目标变量,其他参数作为输入变量。在主动引入缺失值时,本发明将缺失值引入电导率数据集五次,用于不同缺失场景。
本发明针对主动引入缺失值的数据集,采用统计学方法、递归神经网络方法和生成模型方法等三类10种方法进行单模型插补,具体包括。
(一)统计学方法
统计学方法可有效地处理简单的缺失场景,本发明主要采用四种统计学方法。
(1)平均值:用非缺失数据的全局平均值替换缺失值。
(2)随机森林链式方程多重插补:通过一系列迭代的预测模型插补数据集中的缺失数据。在每将使用数据集中的其他变量来估算数据集中的每个指定的变量,这些迭代持续运行,直到满足收敛为止。
(3)矩阵补充:通过找到一个矩阵X,使其与观测到的矩阵M的差异尽量小,同时保持矩阵X的秩最小来实现。
(4)k-最邻近算法:将采用k-最邻近算法获得的k个邻近值的加权平均值作为缺失值。
(二)递归神经网络方法
递归神经网络方法在时间序列数据分析表现优异,特别是对缺失数据插补。递归神经网络方法通过利用递归神经网络捕获时间序列数据中观测值之间的顺序关系进行缺失数据的插补,对于连续数据插补的效果较好,但是对于复杂数据的插补效果较差。
(1)多分辨率小波网络(MRNN):使用多方向的小波网络在时间序列数据中获得缺失值。
(2)时间序列的双向循环计算方法(BRITS):将数据序列转换为双向神经网络,采用双向动态循环估算缺失值。
(3)变换模型(Transformer):基于自注意力机制的神经网络模型,对序列中的每个元素进行全局建模,并在各个元素之间建立联系进行插补。
(4)基于自注意力的时间序列插补方法(SAITS):用联合优化方法从两个对角自注意力块的加权组合中插补缺失值。
(3)生成模型方法
目前,生成模型方法已经成为填补缺失数据的有效方法,能够学习和生成反映原始数据集固有结构和分布的数据。生成模型方法能够捕捉变量之间的复杂关系,特别是在缺失值非完全随机时的复杂关系,能够实现相对精确的插补。
(1)生成对抗网络插补(GAIN):使用生成对抗网络,通过从观察数据中学习数据分布并将缺失值视为潜在变量估计缺失值。
(2)去噪自动编码器的多重插补(MIDAS):使用去噪自动编码器,通过破坏和重建数据子集降低维度,同时将缺失值视为部分观测数据的额外部分进行插补。
S302单模型插补缺失数据的准确性评估,包括:
通过多种不同的模型对缺失数据进行插补的模拟,评估不同插补模型在不同缺失情况下进行插补的准确性。
本发明采用纳什效率系数和均方根误差评估各插补模型的准确性,将插补值和实测值进行对比计算两个评估指标。
在一些示例中,纳什效率系数满足如下公式:
其中,表示纳什效率系数,表示实测值,为模拟值,为实测值的平均值。
在一些示例中,均方根误差满足如下公式:
其中,表示均方根误差。
S303多模型与多缺失场景函数关系构建,包括:
根据S302单模型插补缺失数据的准确性评估结果,构建不同缺失场景与不同插补模型准确性之间的函数关系。
本发明根据准确性评估结果,采用非参数方法构建非线性回归函数关系,采用层次分析法为每个插补模型在S202确定的各种缺失场景的权重值。
本发明采用CatBoost算法估计非线性回归函数,CatBoost算法各参数保持默认设置,使用S302中的评估结果训练回归函数,将缺失场景和插补模型的类型作为自变量,相应插补精度作为因变量,经过训练后,可以有效地估计特定缺失场景下每个插补模型的准确性。
示例性的,缺失场景、插补模型与模型权重之间对应的关系如图2所示。
S13、采用层次分析法对每个插补模型进行分析,确定每个插补模型对应的权重值。
在一些示例中,同一个水文水质缺失数据中包含的所有缺失数据片段的插补模型对应的权重值之和等于1。
S14、基于理论插补数据和理论插补数据对应的插补模型的权重值,确定理论插补数据对应实际插补数据。
S15、基于至少一个实际插补数据对水文水质缺失数据进行数据插补,得到插补后的水文水质缺失数据。
在一些示例中,在得到每个缺失数据片段对应的实际插补数据后,将该实际插补数据插补至对应的缺失数据片段,从而得到插补后的水文水质缺失数据。
示例性的,以水文水质缺失数据包含2个缺失数据片段,分别为缺失数据片段1和缺失数据片段2为例,当缺失数据片段1对应的实际插补数据为实际插补数据1,缺失数据片段2对的实际插补数据为实际插补数据2。此时,仅需将实际插补数据1插补至对应的缺失数据片段1,将实际插补数据2插补至对应的缺失数据片段2,从而得到了插补后的水文水质缺失数据。
本公开实施例提供的水文水质缺失数据的插补方法,通过为不同的缺失数据片段配置不同的插补模型,从而通过对水文水质缺失数据中的每个缺失数据片段执行如下操作:对缺失数据片段进行数据分析,确定缺失数据片段对应的缺失信息;基于缺失信息,确定缺失信息对应的缺失场景;基于缺失场景,确定缺失场景对应的插补模型;将缺失数据片段输入至对应的插补模型进行数据插补,得到缺失数据片段对应的理论插补数据。之后,采用层次分析法对每个插补模型进行分析,确定每个插补模型对应的权重值;基于理论插补数据和理论插补数据对应的插补模型的权重值,确定理论插补数据对应实际插补数据;基于至少一个实际插补数据对水文水质缺失数据进行数据插补,得到插补后的水文水质缺失数据,如此可以对水文水质缺失数据进行数据插补,以保证水文水质数据的完整性。
在一些可实施的示例中,缺失信息包括:缺失率、缺失间隙和缺失机制;结合图1,如图3所示,上述S12具体可以通过下述S120-122实现。
S120、对每个缺失数据片段执行如下操作:对缺失数据片段进行数据分析,确定缺失率等于缺失数据片段包含的缺失值的总数与水文水质缺失数据中包含的数据值的总数的比值。
S121、对缺失数据片段进行数据分析,确定缺失间隙等于缺失数据片段包含的缺失值的总数。
S122、对缺失数据片段进行数据分析,确定造成缺失数据片段的缺失机制;基于缺失信息,确定缺失信息对应的缺失场景;基于缺失场景,确定缺失场景对应的插补模型;将缺失数据片段输入至对应的插补模型进行数据插补,得到缺失数据片段对应的理论插补数据。其中,缺失机制包括完全随机缺失、随机缺失和非随机缺失中的任一项。
在一些可实施的示例中,缺失信息包括:缺失率、缺失间隙和缺失机制;结合图1,如图4所示,上述S12具体可以通过下述S123实现。
S123、对每个缺失数据片段执行如下操作:对缺失数据片段进行数据分析,确定缺失数据片段对应的缺失信息;基于缺失信息中的缺失率、缺失间隙和缺失机制,查询预先配置的组合关系,确定缺失信息对应的缺失场景;基于缺失场景,确定缺失场景对应的插补模型;将缺失数据片段输入至对应的插补模型进行数据插补,得到缺失数据片段对应的理论插补数据。其中,组合关系包括缺失率、缺失间隙和缺失机制三者与缺失场景的对应关系。
在一些可实施的示例中,结合图1,如图5所示,上述S14具体可以通过下述S140-S142实现。
S140、对理论插补数据对应的插补模型的权重值与目标阈值进行比对,得到比对权重。其中,比对权重等于0或者1。
在一些示例中,目标阈值可以是0.6,当权重值>0.6时,此时比对权重的取值为0;当权重值≤0.6时,此时比对权重的取值为1。
S141、基于至少一个理论插补数据对应的插补模型的权重值和理论插补数据对应的比对权重,确定理论插补数据的最终权重。
S142、基于理论插补数据和理论插补数据的最终权重,确定理论插补数据对应实际插补数据。
在一些示例中,以水文水质缺失数据中包含10个缺失数据片段为例,对缺失数据片段执行本发明实施例提供的水文水质缺失数据的插补方法,得到对应的实际插补数据的流程如图6所示。
在一些可实施的示例中,结合图5,如图7所示,上述S141具体可以通过下述S1410实现。
S1410、将至少一个理论插补数据对应的插补模型的权重值和理论插补数据对应的比对权重带入权重公式,得到理论插补数据的最终权重;其中,权重公式包括:
其中,表示第i个理论插补数据的最终权重,表示第i个理论插补数据的比对权重,表示第i个理论插补数据对应的插补模型的权重值。
在一些可实施的示例中,结合图5,如图8所示,上述S142具体可以通过下述S1420实现。
S1420、将理论插补数据和理论插补数据的最终权重,确定实际插补数据带入插补公式,确定理论插补数据对应的实际插补数据;其中,插补公式包括:
其中,表示第i个理论插补数据对应的实际插补数据,表示第i个理论插补数据对应的理论插补数据,表示第i个理论插补数据对应的最终权重。
上述主要从方法的角度对本公开实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每种特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
本公开实施例可以根据上述方法示例分别对水文水质缺失数据的插补装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本公开实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
如图9所示,为本公开实施例提供的一种水文水质缺失数据的插补装置10的结构示意图。包括获取单元101和处理单元102。
获取单元101,用于获取水文水质缺失数据;其中,水文水质缺失数据包括至少一个缺失数据片段;处理单元102,用于对获取单元101获取的每个缺失数据片段执行如下操作:对缺失数据片段进行数据分析,确定缺失数据片段对应的缺失信息;基于缺失信息,确定缺失信息对应的缺失场景;基于缺失场景,确定缺失场景对应的插补模型;将缺失数据片段输入至对应的插补模型进行数据插补,得到缺失数据片段对应的理论插补数据;其中,不同的缺失场景对应的插补模型不同;处理单元102,还用于采用层次分析法对每个插补模型进行分析,确定每个插补模型对应的权重值;基于理论插补数据和理论插补数据对应的插补模型的权重值,确定理论插补数据对应实际插补数据;处理单元102,还用于基于至少一个实际插补数据对获取单元101获取的水文水质缺失数据进行数据插补,得到插补后的水文水质缺失数据。
在一些可实施的示例中,缺失信息包括:缺失率、缺失间隙和缺失机制;处理单元102,具体用于对获取单元101获取的缺失数据片段进行数据分析,确定缺失率等于缺失数据片段包含的缺失值的总数与水文水质缺失数据中包含的数据值的总数的比值;处理单元102,具体用于对获取单元101获取的缺失数据片段进行数据分析,确定缺失间隙等于缺失数据片段包含的缺失值的总数;处理单元102,具体用于对获取单元101获取的缺失数据片段进行数据分析,确定造成缺失数据片段的缺失机制;其中,缺失机制包括完全随机缺失、随机缺失和非随机缺失中的任一项。
在一些可实施的示例中,缺失信息包括:缺失率、缺失间隙和缺失机制;处理单元102,具体用于基于缺失信息中的缺失率、缺失间隙和缺失机制,查询预先配置的组合关系,确定缺失信息对应的缺失场景;其中,组合关系包括缺失率、缺失间隙和缺失机制三者与缺失场景的对应关系。
在一些可实施的示例中,处理单元102,具体用于对理论插补数据对应的插补模型的权重值与目标阈值进行比对,得到比对权重;其中,比对权重等于0或者1;处理单元102,具体用于基于至少一个理论插补数据对应的插补模型的权重值和理论插补数据对应的比对权重,确定理论插补数据的最终权重;处理单元102,具体用于基于理论插补数据和理论插补数据的最终权重,确定理论插补数据对应实际插补数据。
在一些可实施的示例中,处理单元102,具体用于将至少一个理论插补数据对应的插补模型的权重值和理论插补数据对应的比对权重带入权重公式,得到理论插补数据的最终权重;其中,权重公式包括:
其中,表示第i个理论插补数据的最终权重,表示第i个理论插补数据的比对权重,表示第i个理论插补数据对应的插补模型的权重值。
在一些可实施的示例中,处理单元102,具体用于将理论插补数据和理论插补数据的最终权重,确定实际插补数据带入插补公式,确定理论插补数据对应的实际插补数据;其中,插补公式包括:
其中,表示第i个理论插补数据对应的实际插补数据,表示第i个理论插补数据对应的理论插补数据,表示第i个理论插补数据对应的最终权重。
其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,其作用在此不再赘述。
当然,本公开实施例提供的水文水质缺失数据的插补装置10包括但不限于上述模块,例如水文水质缺失数据的插补装置10还可以包括存储单元103。存储单元103可以用于存储该水文水质缺失数据的插补装置10的程序代码,还可以用于存储水文水质缺失数据的插补装置10在运行过程中生成的数据,如写请求中的数据等。
图10为本公开实施例提供的一种服务器的结构示意图,如图10所示,该服务器可以包括:至少一个处理器51、存储器52、通信接口53和通信总线54。
下面结合图10对服务器的各个构成部件进行具体的介绍:
其中,处理器51是服务器的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,处理器51是一个中央处理器(Central Processing Unit,CPU),也可以是特定集成电路(Application Specific Integrated Circuit,ASIC),或者是被配置成实施本公开实施例的一个或多个集成电路,例如:一个或多个DSP,或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)。
在具体的实现中,作为一种实施例,处理器51可以包括一个或多个CPU,例如图10中所示的CPU0和CPU1。且,作为一种实施例,电子设备可以包括多个处理器,例如图10中所示的处理器51和处理器55。这些处理器中的每一个可以是一个单核处理器(Single-CPU),也可以是一个多核处理器(Multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
存储器52可以是只读存储器(Read-Only Memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(Random Access Memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器52可以是独立存在,通过通信总线54与处理器51相连接。存储器52也可以和处理器51集成在一起。
在具体的实现中,存储器52,用于存储本公开中的数据和执行本公开的软件程序。处理器51可以通过运行或执行存储在存储器52内的软件程序,以及调用存储在存储器52内的数据,执行空调器的各种功能。
通信接口53,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如无线接入网(Radio Access Network,RAN),无线局域网(Wireless Local Area Networks,WLAN)、终端、云端等。通信接口53可以包括获取单元,以实现获取功能。
通信总线54,可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component Interconnect,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
为一个示例,结合图9,水文水质缺失数据的插补装置10中的获取单元101实现的功能与图10中的通信接口53的功能相同,水文水质缺失数据的插补装置10中的处理单元102实现的功能与图10中的处理器51的功能相同,水文水质缺失数据的插补装置10中的存储单元103实现的功能与图10中的存储器52的功能相同。
本公开另一实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当计算机程序被计算设备执行时,使得计算设备执行上述方法实施例所示的模式切换方法。
在一些实施例中,所公开的方法可以实施为以机器可读格式被编码在计算机可读存储介质上的或者被编码在其它非瞬时性介质或者制品上的计算机程序指令。
图11示意性地示出本公开实施例提供的计算机程序产品的概念性局部视图,所述计算机程序产品包括用于在计算设备上执行计算机进程的计算机程序。
在一个实施例中,计算机程序产品是使用信号承载介质410来提供的。所述信号承载介质410可以包括一个或多个程序指令,其当被一个或多个处理器运行时可以提供以上针对图1描述的功能或者部分功能。因此,例如,参考图1中所示的实施例,S11-S14的一个或多个特征可以由与信号承载介质410相关联的一个或多个指令来承担。此外,图11中的程序指令也描述示例指令。
在一些示例中,信号承载介质410可以包含计算机可读介质411,诸如但不限于,硬盘驱动器、紧密盘(CD)、数字视频光盘(DVD)、数字磁带、存储器、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(random access memory,RAM)等等。
在一些实施方式中,信号承载介质410可以包含计算机可记录介质412,诸如但不限于,存储器、读/写(R/W)CD、R/W DVD、等等。
在一些实施方式中,信号承载介质410可以包含通信介质413,诸如但不限于,数字和/或模拟通信介质(例如,光纤电缆、波导、有线通信链路、无线通信链路、等等)。
信号承载介质410可以由无线形式的通信介质413(例如,遵守IEEE 802.41标准或者其它传输协议的无线通信介质)来传达。一个或多个程序指令可以是,例如,计算设备可执行指令或者逻辑实施指令。
在一些示例中,诸如针对图11描述的水文水质缺失数据的插补装置10可以被配置为,响应于通过计算机可读介质411、计算机可记录介质412、和/或通信介质413中的一个或多个程序指令,提供各种操作、功能、或者动作。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本公开所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本公开实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种水文水质缺失数据的插补方法,其特征在于,包括:
获取水文水质缺失数据;其中,所述水文水质缺失数据包括至少一个缺失数据片段;
对每个所述缺失数据片段执行如下操作:对所述缺失数据片段进行数据分析,确定所述缺失数据片段对应的缺失信息;基于所述缺失信息,确定所述缺失信息对应的缺失场景;基于所述缺失场景,确定所述缺失场景对应的插补模型;将所述缺失数据片段输入至对应的插补模型进行数据插补,得到所述缺失数据片段对应的理论插补数据;其中,不同的缺失场景对应的插补模型不同;
采用层次分析法对每个所述插补模型进行分析,确定每个所述插补模型对应的权重值;
基于所述理论插补数据和所述理论插补数据对应的插补模型的权重值,确定所述理论插补数据对应实际插补数据;
基于至少一个所述实际插补数据对所述水文水质缺失数据进行数据插补,得到插补后的水文水质缺失数据。
2.根据权利要求1所述的水文水质缺失数据的插补方法,其特征在于,所述缺失信息包括:缺失率、缺失间隙和缺失机制;
所述对所述缺失数据片段进行数据分析,确定所述缺失数据片段对应的缺失信息,包括:
对所述缺失数据片段进行数据分析,确定缺失率等于所述缺失数据片段包含的缺失值的总数与所述水文水质缺失数据中包含的数据值的总数的比值;
对所述缺失数据片段进行数据分析,确定缺失间隙等于所述缺失数据片段包含的缺失值的总数;
对所述缺失数据片段进行数据分析,确定造成所述缺失数据片段的缺失机制;其中,所述缺失机制包括完全随机缺失、随机缺失和非随机缺失中的任一项。
3.根据权利要求1所述的水文水质缺失数据的插补方法,其特征在于,所述缺失信息包括:缺失率、缺失间隙和缺失机制;
所述基于所述缺失信息,确定所述缺失信息对应的缺失场景,包括:
基于所述缺失信息中的缺失率、缺失间隙和缺失机制,查询预先配置的组合关系,确定所述缺失信息对应的缺失场景;其中,所述组合关系包括缺失率、缺失间隙和缺失机制三者与缺失场景的对应关系。
4.根据权利要求1所述的水文水质缺失数据的插补方法,其特征在于,所述基于所述理论插补数据和所述理论插补数据对应的插补模型的权重值,确定所述理论插补数据对应实际插补数据,包括:
对所述理论插补数据对应的插补模型的权重值与目标阈值进行比对,得到比对权重;其中,所述比对权重等于0或者1;
基于至少一个理论插补数据对应的插补模型的权重值和所述理论插补数据对应的比对权重,确定所述理论插补数据的最终权重;
基于所述理论插补数据和所述理论插补数据的最终权重,确定所述理论插补数据对应实际插补数据。
5.根据权利要求4所述的水文水质缺失数据的插补方法,其特征在于,所述基于至少一个理论插补数据对应的插补模型的权重值和所述理论插补数据对应的比对权重,确定所述理论插补数据的最终权重,包括:
将至少一个理论插补数据对应的插补模型的权重值和所述理论插补数据对应的比对权重带入权重公式,得到所述理论插补数据的最终权重;其中,所述权重公式包括:
其中,表示第i个理论插补数据的最终权重,表示第i个理论插补数据的比对权重,表示第i个理论插补数据对应的插补模型的权重值。
6.根据权利要求4所述的水文水质缺失数据的插补方法,其特征在于,所述基于所述理论插补数据和所述理论插补数据的最终权重,确定所述理论插补数据对应实际插补数据,包括:
将所述理论插补数据和所述理论插补数据的最终权重,确定实际插补数据带入插补公式,确定所述理论插补数据对应的实际插补数据;其中,所述插补公式包括:
其中,表示第i个理论插补数据对应的实际插补数据,表示第i个理论插补数据对应的理论插补数据,表示第i个理论插补数据对应的最终权重。
7.一种水文水质缺失数据的插补装置,其特征在于,包括:
获取单元,用于获取水文水质缺失数据;其中,所述水文水质缺失数据包括至少一个缺失数据片段;
处理单元,用于对所述获取单元获取的每个所述缺失数据片段执行如下操作:对所述缺失数据片段进行数据分析,确定所述缺失数据片段对应的缺失信息;基于所述缺失信息,确定所述缺失信息对应的缺失场景;基于所述缺失场景,确定所述缺失场景对应的插补模型;将所述缺失数据片段输入至对应的插补模型进行数据插补,得到所述缺失数据片段对应的理论插补数据;其中,不同的缺失场景对应的插补模型不同;
所述处理单元,还用于采用层次分析法对每个所述插补模型进行分析,确定每个所述插补模型对应的权重值;
基于所述理论插补数据和所述理论插补数据对应的插补模型的权重值,确定所述理论插补数据对应实际插补数据;
所述处理单元,还用于基于至少一个所述实际插补数据对所述获取单元获取的所述水文水质缺失数据进行数据插补,得到插补后的水文水质缺失数据。
8.根据权利要求7所述的水文水质缺失数据的插补装置,其特征在于,所述缺失信息包括:缺失率、缺失间隙和缺失机制;
所述处理单元,具体用于对所述获取单元获取的所述缺失数据片段进行数据分析,确定缺失率等于所述缺失数据片段包含的缺失值的总数与所述水文水质缺失数据中包含的数据值的总数的比值;
所述处理单元,具体用于对所述获取单元获取的所述缺失数据片段进行数据分析,确定缺失间隙等于所述缺失数据片段包含的缺失值的总数;
所述处理单元,具体用于对所述获取单元获取的所述缺失数据片段进行数据分析,确定造成所述缺失数据片段的缺失机制;其中,所述缺失机制包括完全随机缺失、随机缺失和非随机缺失中的任一项。
9.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器用于存储计算机程序;所述处理器用于在执行计算机程序时,使得所述电子设备实现权利要求1-6任一项所述的水文水质缺失数据的插补方法。
10.一种计算机可读存储介质,其特征在于,包括:所述计算机可读存储介质上存储有计算机程序,当所述计算机程序被计算设备执行时,使得所述计算设备实现权利要求1-6任一项所述的水文水质缺失数据的插补方法。
CN202410696395.7A 2024-05-31 2024-05-31 水文水质缺失数据的插补方法、装置和电子设备 Pending CN118296311A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410696395.7A CN118296311A (zh) 2024-05-31 2024-05-31 水文水质缺失数据的插补方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410696395.7A CN118296311A (zh) 2024-05-31 2024-05-31 水文水质缺失数据的插补方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN118296311A true CN118296311A (zh) 2024-07-05

Family

ID=91687551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410696395.7A Pending CN118296311A (zh) 2024-05-31 2024-05-31 水文水质缺失数据的插补方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN118296311A (zh)

Similar Documents

Publication Publication Date Title
CN115578015B (zh) 基于物联网的污水处理全过程监管方法、系统及存储介质
CN111459700B (zh) 设备故障的诊断方法、诊断装置、诊断设备及存储介质
CN115034278A (zh) 性能指标异常检测方法、装置、电子设备和存储介质
CN116862081B (zh) 一种污染治理设备运维方法及系统
CN116702992A (zh) 一种发电功率预测方法、装置、电子设备及存储介质
CN112215398A (zh) 电力用户负荷预测模型建立方法、装置、设备及存储介质
CN115576267A (zh) 一种基于数字孪生的轮毂机加工尺寸误差修正方法
CN115438897A (zh) 一种基于blstm神经网络的工业过程产品质量预测方法
CN116860562B (zh) 一种用于数据中台数据质量的监控方法及系统
Wu et al. Unsupervised Bayesian change-point detection approach for reliable prognostics and health management of complex mechanical systems
CN113705074A (zh) 一种化工事故风险预测方法及装置
CN116662307A (zh) 一种基于多源数据融合的智能预警方法、系统及设备
CN118296311A (zh) 水文水质缺失数据的插补方法、装置和电子设备
CN114339859B (zh) 识别全屋无线网络WiFi潜在用户的方法、装置及电子设备
CN113487085B (zh) 基于联合学习框架的设备使用寿命的预测方法、装置、计算机设备及计算机可读存储介质
WO2022156743A1 (zh) 特征构建方法和装置、模型训练方法和装置、设备、介质
CN116541252B (zh) 一种机房故障日志数据处理方法及装置
CN117851953B (zh) 用水异常检测方法、装置、电子设备及存储介质
CN115473343B (zh) 一种智能网关多主站并行接入测试方法
CN118034999A (zh) 一种基于机器学习的时空数据修复与功率预测方法
CN117725508A (zh) 一种基于em算法的工业数据风险预测方法、设备及介质
CN116402160A (zh) 配电网电压预测模型的训练方法及配电网电压的预测方法
CN118332318A (zh) 一种风机齿轮箱轴承故障定位方法、装置、介质及设备
CN117390362A (zh) 一种空调能耗预测方法、装置、设备及存储介质
CN115330083A (zh) 一种考虑不确定性的电网运行方式调整方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination