CN116166642A - 基于引导信息的时空数据填补方法、系统、设备及介质 - Google Patents

基于引导信息的时空数据填补方法、系统、设备及介质 Download PDF

Info

Publication number
CN116166642A
CN116166642A CN202211504030.7A CN202211504030A CN116166642A CN 116166642 A CN116166642 A CN 116166642A CN 202211504030 A CN202211504030 A CN 202211504030A CN 116166642 A CN116166642 A CN 116166642A
Authority
CN
China
Prior art keywords
space
data
time
information
time data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211504030.7A
Other languages
English (en)
Inventor
杜博文
孙磊磊
刘铭喆
黄涵
他旭翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202211504030.7A priority Critical patent/CN116166642A/zh
Publication of CN116166642A publication Critical patent/CN116166642A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于引导信息的时空数据填补方法、系统、设备及介质,涉及智能交通应用与时空数据挖掘交叉技术领域,该方法包括对存在缺失值的待填补时空数据进行插值,根据插值信息训练时空依赖学习神经网络,构建时空数据填补所需的引导信息,并利用引导信息与待填补时空数据训练基于扩散模型的时空填补模型,训练后的时空填补模型能够生成待填补的时空数据中缺失部分的估计值。由于在填补过程中充分考虑了时空特征关联与地理空间关系,且有效的建模并利用引导信息引导了带噪信息的时空依赖学习过程,因此采用上述时空填补模型即使面对不同领域时空数据的多种缺失模式填补时也能够有很高的填补精度。

Description

基于引导信息的时空数据填补方法、系统、设备及介质
技术领域
本发明涉及智能交通应用与时空数据挖掘交叉技术领域,特别是涉及一种基于引导信息的时空数据填补方法、系统、电子设备及计算机可读存储介质。
背景技术
随着世界经济的蓬勃发展,越来越多的领域迈入了信息化建设的阶段,如空气质量监测、智能交通系统、城市用电监测等等,监测站、传感器等基础设施保证了数据在时间和空间上的充分采集,这类数据均可广义的建模为时空数据,用于时空模式分析、异常检测、性态预测等任务。然而受到传感器故障或人为错误等外在因素的影响,时空数据中的缺失是一种常见的问题,其会导致对相关场景时空模式的分析出现偏差,进而影响下游任务。因此,迫切需要设计一种合理且准确的方法,以对时空数据进行空间上和时间上的精确填补。
近年来,随着计算机科学的飞速发展,越来越多的研究开始关注时空填补,其挑战在于从不完整的数据中挖掘可以利用的时空模式信息,建模时空关联并填补缺失数据。在现有的可用于时空数据填补的方法中,一类典型的自回归方法主要利用时间关联填补缺失值,其以循环神经网络作为核心,通过可用观测数据递归更新缺失部分的隐藏状态。但这种自回归的填补方法在数据稀疏时,不可避免的会受到误差累积问题的影响。近年来利用名为扩散模型的深度生成模型进行填补的工作在多元时间序列填补领域取得了优秀的表现,但其仍存在两个问题:一是其在模型学习中混合输入了带噪信息与观测值,这导致模型训练过程中带噪信息影响时空依赖的学习,缺乏足够完整正确的时空信息引导噪声分布映射到缺失值真实分布;二是现有的填补方法都没有充分考虑空间关联性,其不应局限于地理邻近关系或特征关联。
发明内容
本发明的目的是提供一种基于引导信息的时空数据填补方法、系统、电子设备及计算机可读存储介质,以解决传统自回归方法与现有生成方法在面对高度稀疏数据时,预测精度低的问题。
为实现上述目的,本发明提供了如下方案:
第一方面,本实施例提供了一种基于引导信息的时空数据填补方法,包括:
获取待填补时空数据;
将所述待填补时空数据输入到训练后的时空数据填补模型中,得到所述待填补时空数据的缺失值,并根据所述缺失值对所述待填补时空数据进行填补;
其中,所述时空数据填补模型的训练过程为:
根据原始时空数据确定样本数据,并对所述样本数据进行划分,得到第一样本数据和第二样本数据;所述原始时空数据为存在缺失值的待填补时空样本数据;所述样本数据为对处理后的原始时空数据进行遮挡后得到的数据;
对所述第一样本数据进行处理,得到插值信息;
利用所述插值信息中的时间全局特征关联、空间全局特征关联与地理空间关系,构建时空数据填补模型训练时所需的引导信息;
对所述第二样本数据中的观测值删除得到训练数据,并通过条件扩散模型中的扩散过程向训练数据中的待填补部分添加噪声信息,得到带噪信息的样本数据;
将插值信息和带噪信息的样本数据进行张量拼接,得到逆过程输入数据;
根据引导信息、逆过程输入数据和噪声信息训练时空依赖学习神经网络,得到训练后的时空数据填补模型。
第二方面,本发明提供了一种基于引导信息的时空数据填补系统,包括:
数据获取模块,用于获取待填补时空数据;
缺失值补充模块,用于将所述待填补时空数据输入到训练后的时空数据填补模型中,得到所述待填补时空数据的缺失值,并根据所述缺失值对所述待填补时空数据进行填补;
其中,所述时空数据填补模型的训练过程为:
根据原始时空数据确定样本数据,并对所述样本数据进行划分,得到第一样本数据和第二样本数据;所述原始时空数据为存在缺失值的待填补时空样本数据;所述样本数据为对处理后的原始时空数据进行遮挡后得到的数据;
对所述第一样本数据进行处理,得到插值信息;
利用所述插值信息中的时间全局特征关联、空间全局特征关联与地理空间关系,构建时空数据填补模型训练时所需的引导信息;
对所述第二样本数据中的观测值删除得到训练数据,并通过条件扩散模型中的扩散过程向训练数据中的待填补部分添加噪声信息,得到带噪信息的样本数据;
将插值信息和带噪信息的样本数据进行张量拼接,得到逆过程输入数据;
根据引导信息、逆过程输入数据和噪声信息训练时空依赖学习神经网络,得到训练后的时空数据填补模型。
第三方面,本发明提供了一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行根据第一方面所述的基于引导信息的时空数据填补方法。
第四方面,本发明提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的基于引导信息的时空数据填补方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明能够对不同领域的时空数据的多种缺失模式进行填补,其对所述存在缺失值的待填补时空数据进行插值,根据插值信息训练时空依赖学习神经网络,构建时空数据填补所需的引导信息,并利用引导信息与待填补时空数据训练基于扩散模型的时空填补模型,训练后的时空填补模型能够生成待填补的时空数据中缺失部分的估计值。由于在填补过程中充分考虑了时空特征关联与地理空间关系,且有效的建模并利用引导信息引导了带噪信息的时空依赖学习过程,因此采用上述时空填补模型即使面对不同领域时空数据的多种缺失模式填补时也能够有很高的填补精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的基于引导信息的时空数据填补方法流程图;
图2为本发明基于条件扩散模型构建时空数据填补模型的原理图;
图3为本发明时空依赖学习模块的原理图;
图4为本发明所提供的一种基于引导信息的时空数据填补系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
图1为本发明所提供的基于引导信息的时空数据填补方法流程图,如图1所示,本实施例提供的一种基于引导信息的时空数据填补方法,包括:
步骤100:获取待填补时空数据;
步骤200:将所述待填补时空数据输入到训练后的时空数据填补模型中,得到所述待填补时空数据的缺失值,并根据所述缺失值对所述待填补时空数据进行填补。
其中,所述时空数据填补模型的训练过程为:
根据原始时空数据确定样本数据,并对所述样本数据进行划分,得到第一样本数据和第二样本数据;所述原始时空数据为存在缺失值的待填补时空样本数据;所述样本数据为对处理后的原始时空数据进行遮挡后得到的数据。
对所述第一样本数据进行处理,得到插值信息。
利用所述插值信息中的时间全局特征关联、空间全局特征关联与地理空间关系,构建时空数据填补模型训练时所需的引导信息。
对所述第二样本数据中的观测值删除得到训练数据,并通过条件扩散模型中的扩散过程向训练数据中的待填补部分添加噪声信息,得到带噪信息的样本数据。
将插值信息和带噪信息的样本数据进行张量拼接,得到逆过程输入数据。
根据引导信息、逆过程输入数据和噪声信息训练时空依赖学习神经网络,得到训练后的时空数据填补模型。
进一步地,所述根据原始时空数据确定样本数据,具体包括:
将原始时空数据整理为形状为N×d的多个节点的连续时间序列数值,得到处理后的待填补时空数据,然后对处理后的待填补时空数据进行人工遮盖,得到样本数据。
进一步地,所述对所述第一样本数据进行处理,得到插值信息,具体包括:
根据处理后的待填补时空数据,构建用于描述缺失模式形状为N×d的0-1矩阵,其中0代表数据缺失,1代表数据未缺失;然后根据0-1矩阵,采用时间维度上的线性插值算法对所述第一样本数据进行插值处理,生成用于时空数据填补模型训练时的插值信息。
进一步地,所述利用所述插值信息中的时间全局特征关联、空间全局特征关联与地理空间关系,构建时空数据填补模型训练时所需的引导信息,具体包括:
将所述插值信息转换为原始高维隐藏状态;所述原始高维隐藏状态为一个N×L× d的张量数据,其中,N为时空数据中传感器或监测站节点的数量,L为时间窗口的长度,d为高维隐藏状态数据的维度。
将原始高维隐藏状态组织为沿时间维度L分布的张量数据,送入时间注意力模块,得到聚合时间全局特征的高维隐藏状态。
将原始高维隐藏状态组织为沿空间维度N分布的张量数据,送入空间注意力模块,得到聚合空间全局特征的高维隐藏状态。
将原始高维隐藏状态组织为沿时间维度N分布的张量数据,送入图卷积神经网络,得到聚合地理空间关联的高维隐藏状态。其中,对所述的插值信息,利用地理信息,通过图卷积网络模型学习数据的地理空间关系。
将聚合时间全局特征的高维隐藏状态、聚合空间全局特征的高维隐藏状态和聚合地理空间关联的高维隐藏状态通过残差连接和标准化进行聚合,并送入多层感知机,得到聚合时空全局特征与地理空间关联的高维隐藏状态。
所述聚合时空全局特征与地理空间关联的高维隐藏状态为时空数据填补模型训练时所需的引导信息。
进一步地,对所述待填补时空数据,为了应对可能出现的多种缺失情况,在模型训练时根据特定的遮盖策略从观测值中删除部分数值作为训练阶段的填补目标,剩余的观测值用于建模时空模式信息;对所述时空填补模型,通过扩散过程向填补目标的干净数据分布中添加噪声信息,再通过逆过程基于所述的引导信息进行去噪;对所述的逆过程,在每个训练步骤采样填补目标、高斯噪音和扩散步骤,并根据除填补目标外剩余的观测值构建所述的引导信息,实现带噪信息向缺失部分真实值的转换;对所述的带噪信息向缺失部分真实值的转换,将时空注意力分数计算的过程与噪音信号学习时空分布的过程进行分离,使噪音信号充分参与了时空依赖学习过程,且保护有效信息不受噪音信号干扰。
进一步地,所述根据引导信息、逆过程输入数据和噪声信息训练时空依赖学习神经网络,得到训练后的时空数据填补模型,具体包括:
利用引导信息计算时间注意力权重,并根据时间注意力权重更新时间注意力模块,然后将逆过程输入数据送入更新后的时间注意力模块,得到聚合时间全局特征的带噪信息。
利用引导信息计算空间注意力权重,并根据空间注意力权重更新空间注意力模块,然后将聚合时间全局特征的带噪信息送入更新后的空间注意力模块,得到聚合空间全局特征的带噪信息。
将逆过程输入数据组织为沿时间维度N分布的张量数据,送入图卷积神经网络,得到聚合地理空间关联的高维隐藏状态。
将聚合时间全局特征的带噪信息、聚合空间全局特征的带噪信息和聚合地理空间关联的高维隐藏状态通过残差连接和标准化进行聚合,并送入多层感知机,得到聚合时空全局特征与地理空间关联的带噪信息。
将聚合时空全局特征与地理空间关联的带噪信息作为模块输入,通过门控激活单元得到残差连接和跳跃连接;每层的残差连接作为下一层的输入,每层的跳跃连接相加并通过多个多层感知机,输出为预测的噪声信息。
根据预测的噪声信息和插入的噪声信息计算损失值,更新模型参数,获得训练后的时空填补模型。
本发明适用于各种时空数据的填补任务,如城市空气质量PM2.5数值、高速公路网车辆流速等,待填补的数据为不同领域各种缺失模式下的时空数据。通过对原始时空数据的筛选、插值和特征提取,基于条件扩散模型的深度生成模型可以学习到时空数据的全局时空依赖关系与不同传感器或监测站之间的地理空间关联,以对存在缺失值的时空数据进行精确的填补。
实施例二
图2为基于条件扩散模型构建时空数据填补模型的原理图,如图2所示,条件扩散模型是一种向样本数据中添加噪音并学习去噪过程的深度生成模型,其具有高度灵活的建模方式,并且可以生成样本数据的概率分布,十分适合时空概率插补任务。基于条件扩散模型构建时空数据填补模型的运行流程可以表示为以下步骤:
步骤1.1:对原始时空数据进行处理;所述原始时空数据为存在缺失值的待填补时空数据;其处理过程为:将原始时空数据整理为形状为N×d的多个节点的连续时间序列数值,得到处理后的待填补时空数据,并根据处理后的待填补时空数据,构建用于描述缺失模式形状为N×d的0-1矩阵,其中0代表数据缺失,1代表数据未缺失。
步骤1.2:对处理后的待填补时空数据进行人工遮盖,得到模型训练时的时空数据,即样本数据,供模型充分学习;人工遮盖的方式取决于数据的类型及缺失模式,包括随机遮盖、连续遮盖、混合遮盖等多种模式。
步骤1.3:对所述样本数据进行划分,将一部分样本数据用于确定插值信息,将另一部分样本数据的观测值删除得到处理后的样本数据,即训练数据,并将删除的观测值作为训练阶段的填补目标,通过条件扩散模型中的扩散过程向训练数据中的待填补部分添加噪声信息,得到带噪信息的样本数据,具体来说,扩散过程是一个马尔科夫过程,添加的噪声信息符合高斯随机分布,在每一个马尔科夫步骤中按照预先设定的超参数采样定量的噪声信息,并最终达到近似于随机正态分布的样本。
步骤1.4:采用时间维度上的线性插值算法对一部分样本数据进行插值处理,生成用于时空数据填补模型训练时的插值信息;具体来说,对于一部分样本数据,若当前时间窗口内的缺失部分前后存在观测值,则根据观测值与时间步长,利用线性插值方式,填充缺失值;如果缺失部分有一端不存在观测值,则缺失部分采用存在的观测值进行填充。
步骤1.5:利用所述插值信息中的时间全局特征关联、空间全局特征关联与地理空间关系,构建时空数据填补模型训练时所需的引导信息。
采用图3中描述的时空依赖学习模块提取时空特征以得到训练时空数据填补模型所需的引导信息,包括:通过时间注意力模型学习插值信息的时间全局特征关联,通过空间注意力模型学习插值信息的空间特征关联;对所述的插值信息,利用地理信息,通过图卷积网络模型学习数据的地理空间关系。
所述时空依赖学习模块的构建步骤为:
步骤A:处理的待填补时空数据在模型中以高维隐藏状态的形式不断更新,将其组织成一个N×L×d的张量H,其中N为时空数据中传感器或监测站节点的数量,L为时间窗口的长度,d为高维隐藏状态的维,其为训练完成后的模型度。
步骤B:将高维隐藏状态组织为沿时间维度L分布的张量,送入时间注意力模块,得到聚合了时间全局特征的高维隐藏状态。
步骤C:将高维隐藏状态组织为沿空间维度N分布的张量,送入空间注意力模块,得到聚合了空间全局特征的高维隐藏状态。
步骤D:将高维隐藏状态组织为沿时间维度N分布的张量,送入图卷积神经网络,得到聚合了地理空间关联的高维隐藏状态。
步骤E:将聚合了时间全局特征、空间全局特征和地理空间关联的高维隐藏状态通过残差连接和标准化进行聚合,并送入多层感知机,得到聚合了时空全局特征与地理空间关联的隐藏状态。
步骤1.6:将插值信息和带噪信息的样本数据进行张量拼接,以作为模块输入数据。
步骤1.7:根据引导信息和模块输入数据训练时空依赖学习神经网络,得到训练后的时空数据填补模型,具体包括:
通过逆过程,基于所述引导信息进行去噪,具体来说,对所述的逆过程,在每个训练步骤采样填补目标、高斯噪音和扩散步骤,并根据除填补目标外剩余的观测值构建所述的引导信息,实现带噪信息向缺失部分真实值的转换,实现输入数据向正态分布噪声的预测任务。
其中,利用引导信息预测正态分布噪声的任务是:将时空注意力分数计算的过程与噪音信号学习时空分布的过程进行分离,使噪音信号充分参与了时空依赖学习过程,且保护有效信息不受噪音信号干扰。其步骤具体如下:
步骤(1):利用引导信息计算时间注意力权重,并通过步骤B得到聚合了时间全局特征的带噪信息。
步骤(2):将步骤(2)得到的聚合了时间全局特征的带噪信息作为模块输入,利用引导信息计算空间注意力权重,并通过步骤C得到聚合空间全局特征的带噪信息,再通过步骤D和步骤E得到聚合了时空全局特征和地理空间关系的带噪信息;
步骤(3):将步骤(2)得到的聚合了时空全局特征和地理空间关系的带噪信息作为模块输入,通过门控激活单元得到残差连接和跳跃连接;
步骤(4):将步骤(1)-(3)堆叠多层,每层的残差连接作为下一层步骤(1)的输入,每层的跳跃连接相加并通过多个多层感知机,输出为预测的噪声信息。根据预测的噪声信息和插入的噪声信息计算损失值,更新模型参数,获得训练后的时空填补模型。
利用训练后的时空填补模型生成待填补的时空数据中缺失部分的估计值,具体如下:
步骤1):对所述训练后的时空填补模型,其数据的缺失模式是已知的,设置其填补目标为时空数据中的全部缺失值。
步骤2):根据待填补数据的全部观测值构建插值信息和引导信息,通过上述的逆过程,利用多步的马尔科夫过程基于随机高斯噪声生成待填补部分时空数据的真实值。具体来说,对于待填补数据,先构建对应的插值信息,并通过插值信息构建对应的引导信息;待填补部分初始为随机高斯噪声,之后通过上述的逆过程,将随机高斯噪声通过多步马尔科夫过程逐步转化为缺失值真值。
本发明基于计算机科学和多种机器学习算法,实施需要一定编程和机器学习、深度学习基础,本发明基于Python编程语言和开源机器学习库PyTorch实现。为验证图2和图3所示的基于引导信息的时空数据填补模型,利用采集于某城市的空气质量数据与某城市的高速公路车辆速度数据进行实验。为了评估模型的填补能力,使用了平均绝对误差(MAE)、均方根绝对误差(RMSE)和连续概率分布分数(CRPS)三个评估指标,平均绝对误差和方根绝对误差用于衡量待填补数据的估计值和真实值之间的误差,连续概率分布分数用于计算填补结果的概率分布与待填补数据的真实值的相容性。为了验证本发明表现比其他模型更好,使用其他常用的预测模型如向量自回归、线性插值和K近邻等以及多种近年来先进的深度学习填补模型进行了对比实验,实验证明本发明的填补误差最低。
实施例三
为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供一种基于引导信息的时空数据填补系统。
如图4所示,该系统包括:
数据获取模块1,用于获取待填补时空数据;
缺失值补充模块2,用于将所述待填补时空数据输入到训练后的时空数据填补模型中,得到所述待填补时空数据的缺失值,并根据所述缺失值对所述待填补时空数据进行填补;
其中,所述时空数据填补模型的训练过程为:
根据原始时空数据确定样本数据,并对所述样本数据进行划分,得到第一样本数据和第二样本数据;所述原始时空数据为存在缺失值的待填补时空样本数据;所述样本数据为对处理后的原始时空数据进行遮挡后得到的数据;
对所述第一样本数据进行处理,得到插值信息;
利用所述插值信息中的时间全局特征关联、空间全局特征关联与地理空间关系,构建时空数据填补模型训练时所需的引导信息;
对所述第二样本数据中的观测值删除得到训练数据,并通过条件扩散模型中的扩散过程向训练数据中的待填补部分添加噪声信息,得到带噪信息的样本数据;
将插值信息和带噪信息的样本数据进行张量拼接,得到逆过程输入数据;
根据引导信息、逆过程输入数据和噪声信息训练时空依赖学习神经网络,得到训练后的时空数据填补模型。
实施例四
本发明实施例提供一种电子设备包括存储器及处理器,该存储器用于存储计算机程序,该处理器运行计算机程序以使电子设备执行实施例一的一种基于引导信息的时空数据填补方法。
可选地,上述电子设备可以是服务器。
另外,本发明实施例还提供一种计算机可读存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现实施例一的一种基于引导信息的时空数据填补方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种基于引导信息的时空数据填补方法,其特征在于,包括:
获取待填补时空数据;
将所述待填补时空数据输入到训练后的时空数据填补模型中,得到所述待填补时空数据的缺失值,并根据所述缺失值对所述待填补时空数据进行填补;
其中,所述时空数据填补模型的训练过程为:
根据原始时空数据确定样本数据,并对所述样本数据进行划分,得到第一样本数据和第二样本数据;所述原始时空数据为存在缺失值的待填补时空样本数据;所述样本数据为对处理后的原始时空数据进行遮挡后得到的数据;
对所述第一样本数据进行处理,得到插值信息;
利用所述插值信息中的时间全局特征关联、空间全局特征关联与地理空间关系,构建时空数据填补模型训练时所需的引导信息;
对所述第二样本数据中的观测值删除得到训练数据,并通过条件扩散模型中的扩散过程向训练数据中的待填补部分添加噪声信息,得到带噪信息的样本数据;
将插值信息和带噪信息的样本数据进行张量拼接,得到逆过程输入数据;
根据引导信息、逆过程输入数据和噪声信息训练时空依赖学习神经网络,得到训练后的时空数据填补模型。
2.根据权利要求1所述的一种基于引导信息的时空数据填补方法,其特征在于,所述根据原始时空数据确定样本数据,具体包括:
将原始时空数据整理为形状为N×d的多个节点的连续时间序列数值,得到处理后的待填补时空数据;
对处理后的待填补时空数据进行人工遮盖,得到样本数据。
3.根据权利要求2所述的一种基于引导信息的时空数据填补方法,其特征在于,所述对所述第一样本数据进行处理,得到插值信息,具体包括:
根据处理后的待填补时空数据,构建用于描述缺失模式形状为N×d的0-1矩阵,其中0代表数据缺失,1代表数据未缺失;
根据0-1矩阵,采用时间维度上的线性插值算法对所述第一样本数据进行插值处理,生成用于时空数据填补模型训练时的插值信息。
4.根据权利要求1所述的一种基于引导信息的时空数据填补方法,其特征在于,所述利用所述插值信息中的时间全局特征关联、空间全局特征关联与地理空间关系,构建时空数据填补模型训练时所需的引导信息,具体包括:
将所述插值信息转换为原始高维隐藏状态;所述原始高维隐藏状态为一个N×L×d的张量数据,其中,N为时空数据中传感器或监测站节点的数量,L为时间窗口的长度,d为高维隐藏状态数据的维度;
将原始高维隐藏状态组织为沿时间维度L分布的张量数据,送入时间注意力模块,得到聚合时间全局特征的高维隐藏状态;
将原始高维隐藏状态组织为沿空间维度N分布的张量数据,送入空间注意力模块,得到聚合空间全局特征的高维隐藏状态;
将原始高维隐藏状态组织为沿时间维度N分布的张量数据,送入图卷积神经网络,得到聚合地理空间关联的高维隐藏状态;
将聚合时间全局特征的高维隐藏状态、聚合空间全局特征的高维隐藏状态和聚合地理空间关联的高维隐藏状态通过残差连接和标准化进行聚合,并送入多层感知机,得到聚合时空全局特征与地理空间关联的高维隐藏状态;
所述聚合时空全局特征与地理空间关联的高维隐藏状态为时空数据填补模型训练时所需的引导信息。
5.根据权利要求1所述的一种基于引导信息的时空数据填补方法,其特征在于,所述根据引导信息、逆过程输入数据和噪声信息训练时空依赖学习神经网络,得到训练后的时空数据填补模型,具体包括:
利用引导信息计算时间注意力权重,并根据时间注意力权重更新时间注意力模块,然后将逆过程输入数据送入更新后的时间注意力模块,得到聚合时间全局特征的带噪信息;
利用引导信息计算空间注意力权重,并根据空间注意力权重更新空间注意力模块,然后将聚合时间全局特征的带噪信息送入更新后的空间注意力模块,得到聚合空间全局特征的带噪信息;
将逆过程输入数据组织为沿时间维度N分布的张量数据,送入图卷积神经网络,得到聚合地理空间关联的高维隐藏状态;
将聚合时间全局特征的带噪信息、聚合空间全局特征的带噪信息和聚合地理空间关联的高维隐藏状态通过残差连接和标准化进行聚合,并送入多层感知机,得到聚合时空全局特征与地理空间关联的带噪信息;
将聚合时空全局特征与地理空间关联的带噪信息作为模块输入,通过门控激活单元得到残差连接和跳跃连接;每层的残差连接作为下一层的输入,每层的跳跃连接相加并通过多个多层感知机,输出为预测的噪声信息;
根据预测的噪声信息和插入的噪声信息计算损失值,更新模型参数,获得训练后的时空填补模型。
6.一种基于引导信息的时空数据填补系统,其特征在于,包括:
数据获取模块,用于获取待填补时空数据;
缺失值补充模块,用于将所述待填补时空数据输入到训练后的时空数据填补模型中,得到所述待填补时空数据的缺失值,并根据所述缺失值对所述待填补时空数据进行填补;
其中,所述时空数据填补模型的训练过程为:
根据原始时空数据确定样本数据,并对所述样本数据进行划分,得到第一样本数据和第二样本数据;所述原始时空数据为存在缺失值的待填补时空样本数据;所述样本数据为对处理后的原始时空数据进行遮挡后得到的数据;
对所述第一样本数据进行处理,得到插值信息;
利用所述插值信息中的时间全局特征关联、空间全局特征关联与地理空间关系,构建时空数据填补模型训练时所需的引导信息;
对所述第二样本数据中的观测值删除得到训练数据,并通过条件扩散模型中的扩散过程向训练数据中的待填补部分添加噪声信息,得到带噪信息的样本数据;
将插值信息和带噪信息的样本数据进行张量拼接,得到逆过程输入数据;
根据引导信息、逆过程输入数据和噪声信息训练时空依赖学习神经网络,得到训练后的时空数据填补模型。
7.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1至5中任一项所述的基于引导信息的时空数据填补方法。
8.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于引导信息的时空数据填补方法。
CN202211504030.7A 2022-11-29 2022-11-29 基于引导信息的时空数据填补方法、系统、设备及介质 Pending CN116166642A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211504030.7A CN116166642A (zh) 2022-11-29 2022-11-29 基于引导信息的时空数据填补方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211504030.7A CN116166642A (zh) 2022-11-29 2022-11-29 基于引导信息的时空数据填补方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN116166642A true CN116166642A (zh) 2023-05-26

Family

ID=86420817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211504030.7A Pending CN116166642A (zh) 2022-11-29 2022-11-29 基于引导信息的时空数据填补方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN116166642A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665065A (zh) * 2023-07-28 2023-08-29 山东建筑大学 基于十字交叉注意力的高分辨率遥感影像变化检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665065A (zh) * 2023-07-28 2023-08-29 山东建筑大学 基于十字交叉注意力的高分辨率遥感影像变化检测方法
CN116665065B (zh) * 2023-07-28 2023-10-17 山东建筑大学 基于十字交叉注意力的高分辨率遥感影像变化检测方法

Similar Documents

Publication Publication Date Title
CN109754605B (zh) 一种基于注意力时态图卷积网络的交通预测方法
CN109947086B (zh) 基于对抗学习的机械故障迁移诊断方法及系统
CN109492830B (zh) 一种基于时空深度学习的移动污染源排放浓度预测方法
CN113313947B (zh) 短期交通预测图卷积网络的路况评估方法
CN114802296A (zh) 一种基于动态交互图卷积的车辆轨迹预测方法
CN112187554A (zh) 一种基于蒙特卡洛树搜索的运维系统故障定位方法和系统
CN115690153A (zh) 一种智能体轨迹预测方法及系统
CN115730684A (zh) 一种基于lstm-cnn模型的空气质量检测系统
CN116307152A (zh) 时空交互式动态图注意力网络的交通预测方法
James Citywide estimation of travel time distributions with Bayesian deep graph learning
CN114360239A (zh) 一种多层时空交通知识图谱重建的交通预测方法及系统
CN116166642A (zh) 基于引导信息的时空数据填补方法、系统、设备及介质
CN115099328A (zh) 基于对抗网络的交通流量预测方法、系统、设备及存储介质
CN117407797B (zh) 基于增量学习的设备故障诊断方法及模型的构建方法
CN113627676A (zh) 一种基于多注意力因果关系的交通预测方法及系统
CN113379156A (zh) 速度预测方法、装置、设备及存储介质
CN115563888B (zh) 一种航天器剩余寿命预测方法、系统、电子设备及介质
CN116737943A (zh) 面向新闻领域的时序知识图谱链路预测方法
CN115356599A (zh) 一种多模态城市电网故障诊断方法及系统
CN114566048A (zh) 一种基于多视角自适应时空图网络的交通控制方法
CN114676887A (zh) 一种基于图卷积stg-lstm的河流水质预测方法
CN111882124A (zh) 一种基于生成对抗模仿学习的同质平台发展效应预测方法
CN117271959B (zh) 一种pm2.5浓度预测结果的不确定性评估方法及设备
CN115049022B (zh) 基于时间差分的数据处理方法及装置
CN117152692B (zh) 基于视频监控的交通目标检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination