CN118036667A

CN118036667A - 一种多源异构流数据预测方法

Info

Publication number: CN118036667A
Application number: CN202410442022.7A
Authority: CN
Inventors: 亓晋; 叶洪江; 孙莹; 徐飞易; 孙雁飞; 董振江; 韩敏
Original assignee: Jiangsu Tuoyou Information Intelligent Technology Research Institute Co ltd; Nanjing University of Posts and Telecommunications
Current assignee: Jiangsu Tuoyou Information Intelligent Technology Research Institute Co ltd; Nanjing University of Posts and Telecommunications
Priority date: 2024-04-12
Filing date: 2024-04-12
Publication date: 2024-05-14
Anticipated expiration: 2044-04-12
Also published as: CN118036667B

Abstract

本发明公开了一种多源异构流数据预测方法，属于多源异构流数据技术领域；方法为：获取各数据源的数据流；对获取到的数据流进行预处理，获得预处理后的数据流；将预处理后的数据流构建为异构图；构建多源异构数据预测模型，并进行训练；将异构图输入到预训练好的多源异构数据预测模型中进行预测，获得预测结果。本发明通过异构图结构对预处理过的数据进行建模，并使用改进后的Transformer模块作为基础输入进行异构数据流聚合，Transformer模块捕获数据流之间的复杂关系，使用LSTM捕获数据流的时间依赖性，提高多源异构数据流的预测准确率和效率。

Description

一种多源异构流数据预测方法

技术领域

本发明属于多源异构流数据技术领域，具体涉及一种多源异构流数据预测方法。

背景技术

多源异构数据流是指来自各种不同来源和类型的数据流，这些数据可能在结构、格式、速率和语义上存在差异。这一概念涉及到从传感器、社交媒体、网络日志、金融交易等多元数据源中实时产生的数据。多源异构数据流在预测方面的应用尤为引人关注。通过整合来自不同来源的实时数据流，系统能够更准确地进行未来事件的预测和分析。这种预测能力对于各个领域都具有重要意义。

传统的多源异构流数据预测方法主要分为三类：统计方法、机器学习方法和时间序列分析方法。统计方法通过对历史数据的统计规律进行预测，机器学习方法则通过训练模型学习数据的模式，而时间序列分析方法则专注于挖掘数据的时间依赖性。统计方法常使用平均值、方差等指标进行预测，机器学习方法涉及特征提取和模型训练，而时间序列分析方法通常使用滑动窗口等技术捕捉数据的时间趋势。

然而，传统方法在处理多源异构数据流时存在一些问题。首先，难以处理数据之间的复杂关联关系，因为无法捕捉高度非线性和动态变化。其次，整合不同数据源时可能导致信息丢失或失真，尤其是在异构数据特性不同的情况下。最后，当面临大规模、高维度的数据时，传统方法可能面临计算复杂度高和性能下降的挑战。总体而言，传统多源异构数据流预测方法在应对复杂数据关系、信息整合和大规模数据方面存在一系列挑战，需要更先进的技术来提高准确性和适应性。

（申请号为：2023110729430）一种基于图神经网络和Transformer的多元时间序列预测方法，其方法主要为：使用Transformer自动编码器模块以自注意的方式处理时态表示，捕获不同时态特征之间的远程依赖关系和交互；然后使用图卷积神经网络模块处理时态表示，捕获以图形形式组织的时间特征之间的空间依赖关系和相互作用最后模型输出预测结果。

（申请号为：2022101455954）一种基于增量式演化LSTM的流数据预测方法及装置，其方法主要为：先基于历史数据的构建初始LSTM预测模型；然后基于流数据使用增量式演化计算方法持续更新LSTM预测模型；使用适应性粒子滤波算法持续优化LSTM预测模型。

专利一种基于图神经网络和Transformer的多元时间序列预测方法，基于同构数据进行预测，然而多源异构数据流节点数据类型多样，且数据流之间可能存在不同的关系，无法使用简单的同构图神经网络来进行建模。

专利一种基于增量式演化LSTM的流数据预测方法及装置，没有明确的考虑到多源且异构的流数据，缺乏对多源异构数据流之间的复杂关系的建模，因此无法应用到多源异构数据流中。

因此，如何解决多源异构数据源复杂关系和数据的时间依赖性问题，从而提高多源异构数据流的预测准确率是本发明着重解决的技术问题。

发明内容

本发明的目的在于提供一种多源异构流数据预测方法，以解决上述背景技术中提出的问题。

本发明目的是这样实现的：一种多源异构流数据预测方法，其特征在于：

步骤S1：获取各数据源的数据流；

所述多源地传染病数据获取途径符合相关法律和规定，将多源地传染病数据作为数据源，获取数据流；

步骤S2：对获取到的数据流进行预处理，获得预处理后的数据流；

步骤S3：将预处理后的数据流构建为异构图；

步骤S4：构建多源异构数据预测模型，并进行训练；

步骤S5：将异构图输入到预训练好的多源异构数据预测模型中进行预测，获得预测结果。

优选的，所述步骤S2中将获取到的流数据进行预处理，具体为：

步骤S2-1：对数据流进行数据清洗；

包括对数据流的缺失值进行填补，对数据流的重复值进行删除；

步骤S2-2：数据整理；使用时间窗口对数据进行划分；

步骤S2-3：对不同数据流进行嵌入，具体为：

定义多源异构数据流为，则；；其中，，表示数据流类型的数量，表示类型数据中的数量，表示时间戳的最大长度；

嵌入过程如下：

；

其中，为类型数据流的集合；为权重值训练参数；为偏置值训练参数；进行数据流嵌入后，将嵌入后的数据构建异构图。

优选的，所述步骤S3中将预处理后的数据流构建为异构图，具体为：

将每个节点作为数据流，节点的特征是当前滑动窗口的所有时间戳，每个边表示两个数据流之间的复杂关系；

步骤S3-1：使用有向图表示异构图，表示如下：

；

其中，为节点集和边集，为节点类型集和边类型集；，并且每个节点和每条边，映射函数为和；

步骤S3-2：将源节点链接到目标节点的边用元关系表示，表示为：

；

其中，源节点的类型，为目标节点的类型，为源节点与目标节点之间连接边的类型。

优选的，所述多源异构数据预测模型包括预处理模块、聚合模块以及预测模块，预处理模块包括全连接层，对节点进行嵌入；

所述聚合模块包括Transformer模块，使用Transformer模块执行节点聚合并学习节点表示；Transformer模块包括注意力计算模块、消息计算模块、残差连接模块以及长短期记忆模块；

所述预测模块包括多层感知机模块，使用多层感知机模块来对数据流进行预测，多层感知机模块由两层全连接层构成。

优选的，所述步骤S5中将异构图输入到预训练好的多源异构数据预测模型中进行预测，获得预测结果，具体为：

步骤S5-1：通过注意力计算模块捕获多源数据流之间相关性，通过消息计算模块获取源节点的信息，并基于异构图使用数据流之间的相关性和源节点的信息进行节点聚合；

步骤S5-2：使用LSTM层捕获数据流中的长期依赖性，并输出最终的节点结果。

优选的，所述步骤S5-1中通过注意力计算模块捕获多源数据流之间相关性，通过消息计算模块获取源节点的信息，并基于异构图使用数据流之间的相关性和源节点的信息进行节点聚合，具体为：

步骤S5-1-1：将目标节点特征映射到查询向量，并将源节点特征映射到键向量，通过计算查询向量与键向量的点积，计算公式为：

；

其中，为查询向量权重训练参数；为键向量权重训练参数；为注意力得分权重训练参数；为查询向量偏置项训练参数；为键向量偏置项训练参数；为多头注意力值；为先验张量；是激活函数，是堆叠操作；

步骤S5-1-2：对于一对节点，先提取源节点基于不同元关系的多头信息特征；

多头信息特征表示为：

；

其中，为键向量权重训练参数；为键向量偏置项训练参数；为信息特征权重训练参数；为多头信息特征；

步骤S5-1-3：计算了多头注意力向量和基于不同关系的邻接节点的信息后，将多头注意力值和邻接节点的多头信息进行聚合，作为目标节点的新的节点表示；

聚合后的目标节点为：

；

其中，为聚合后的目标节点；

步骤S5-1-4：利用残差连接模块输出最终的目标节点信息；

；

其中，为最终的目标节点信息；

步骤S5-1-4：利用长短期记忆模块获取节点的时间信息；

；

其中，为数据流最终的特征，包含了节点经过聚合后的丰富时间信息。

优选的，所述步骤S5-2中使用LSTM层捕获数据流中的长期依赖性，并输出最终的节点结果，具体为：

使用由两层全连接层构成的多层感知机作为预测层，基于包含丰富的信息的预测节点的下时间戳的信息，使用MLP作为多源异构数据预测模型的预测层：

；

其中，是激活函数，是多层感知机，是多源异构数据流的下一个时间戳的值；

使用端到端的方式对多源异构数据预测模型进行训练，损失函数如下所示：

；

其中，表示预测值与真实值之间的损失；是L2正则化子；是折衷参数。

优选的，所述步骤S5-1中基于异构图使用数据流之间的相关性和源节点的信息进行节点聚合，所述节点聚合需要进行两次。

与现有技术相比，本发明具有如下改进及优点：

1、通过异构图结构对预处理过的数据进行建模，并使用改进后的Transformer模块作为基础输入进行异构数据流聚合，Transformer模块捕获数据流之间的复杂关系，使用LSTM捕获数据流的时间依赖性，提高多源异构数据流的预测准确率和效率。

2、通过使用元关系计算每种类型节点的相互注意力，还添加了一个先验张量作为每个元关系对注意力的自适应缩放，提高捕获不同的复杂关系的准确性；同时，对数据进行两次聚合，提高数据流长期依赖性的准确性，进一步提高多源异构数据流的预测准确率。

附图说明

图1为本发明方法的整体流程图。

图2为多源异构数据预测模型架构示意图。

图3为本发明方法的整体架构示意图。

图4为非图方法处理多源异构数据流的对比图。

图5为消融实验的对比图。

具体实施方式

以下结合附图对本发明做进一步概述。

如图1、3所示，一种多源异构数据流预测方法，

步骤S1：获取各数据源的数据流；

利用真实数据集病例情况收集多源异构数据流，确保数据的质量和一致性；本发明采用多源地传染病的病例情况数据作为数据源，获取多源异构数据流；

考虑到多源异构数据流的特性，需要对数据进行标准化、归一化或其他预处理操作，其他预处理操作具体为：

步骤S2-1：对数据流进行数据清洗；

包括对流数据的缺失值进行填补，对流数据的重复值进行删除；

步骤S2-2：数据整理；使用时间窗口对数据进行划分；

步骤S2-3：对不同数据流进行嵌入，具体为：

嵌入过程如下：

；

步骤S3：将预处理后的数据流构建为异构图；

具体为：

步骤S3-1：使用有向图表示异构图，表示如下：

；

给定一个关系类型，目标节点基于元关系的邻居定义为。

步骤S4：构建多源异构数据预测模型，并进行训练；

如图2所示，多源异构数据预测模型包括预处理模块、聚合模块以及预测模块，预处理模块包括全连接层，对节点进行嵌入；

聚合模块包括Transformer模块，使用Transformer模块执行节点聚合并学习节点表示；Transformer模块包括注意力计算模块、消息计算模块、残差连接模块以及长短期记忆模块；

预测模块包括多层感知机模块，使用多层感知机模块来对数据流进行预测，多层感知机模块由两层全连接层构成。

基于Transformer模块对节点之间不同的复杂关系进行聚合，并捕获节点本身和邻接节点的流特征。

将全连接层和Transformer模块的输出结果连接起来，输入到长短期记忆模块中，长短期记忆模块用于捕获流数据的长期时间信息。

将长短期记忆模块的输出输入到全连接层中，全连接层用于预测数据流的值，输出最终的预测结果。

进一步，多源异构数据预测模型训练与优化：

数据划分：将数据集划分为训练集、验证集和测试集，按照时间顺序划分，确保模型在未来时间段的预测能力。

模型训练：使用训练集进行模型的训练，通过最小化预测值与实际销售值之间的损失函数来优化模型参数。

超参数调整：在验证集上进行模型性能评估，调整模型的超参数，如隐藏单元数等，以优化模型的泛化能力。

步骤S5：将异构图输入到预训练好的多源异构数据预测模型中进行预测，获得预测结果；

具体为：

步骤S5-1-1：将目标节点特征映射到查询向量，并将源节点特征映射到键向量，计算查询向量与键向量的点积，计算公式为：

；

多头信息特征表示为：

；

聚合后的目标节点为：

；

其中，为聚合后的目标节点；

步骤S5-1-4：利用残差连接模块输出最终的目标节点信息；

；

其中，为最终的目标节点信息；

步骤S5-1-4：利用长短期记忆模块获取节点的时间信息；

；

将步骤S5-1-1至步骤S5-1-4进行两次。

；

为了证明本发明方法的有效性，采用实验进行验证，具体如下：

在多源地传染病的病例情况数据集上进行实验，病例情况数据集提供州和县两级新病例、确诊病例、死亡病例和康复病例的每日报告。数据集包含两种节点类型（州和县）和三种关系类型（州-包含-县、州-靠近-州、县-靠近-县），时间跨度为2020年1月5日至2021年2月28日。

如表1：

我们使用8:1:1的比例将每个数据集划分为训练集、验证集和测试集。

对比方法：不基于图的方法：

LSTM：LSTM（Long Short-Term Memory）引入了细胞状态和门控机制，允许信息在不同的时间步长之间传递。

基于同构图的方法：

GCN：GCN（Graph Convolution Network，图卷积网络）通过图卷积运算有效地学习图中节点的特征表示。

GAT： GAT（Graph Attention Network，图注意力网络）通过引入自注意力机制，允许节点将注意力集中在图中具有不同权重的相邻节点上。

对于那些不基于图的方法，将这些方法分别应用于需要预测的序列。对于基于同构图的方法，将整个图输入到方法中，忽略其异构性。使用Adam优化器，学习率为5e-3，权重衰减为5e-4。激活函数使用ReLU。所有模型都使用500个epoch进行训练，并采用了耐心为50的早停策略。对所有模型进行了五次训练，并报告了测试性能的平均值和标准偏差。对于其他参数，我们将隐藏嵌入维度设置为16。实验使用Python 3.9.18、PyTorch 1.13.0和DeepGraph Library 1.1.2实现了所有比较方法。实验在一台i9-13900 CPU、RTX 4090 GPU和64GB RAM的机器上运行。

如图4所示，以8:1:1的比例将病例情况数据集拆分为三部分。具体而言，训练集为2020年1月5日至2020年12月30日，验证集为2020年底12月31日至2021年1月29日，测试集为2021年底1月30日至2021年底2月28日。实验的目标是进行州级每日新增病例预测。此任务中所有模型的时间窗口大小都设置为7。我们使用平均绝对误差（MAE）和均方根误差（RMSE）来估计州级的每日新病例预测任务。实验结果，包括平均性能和标准偏差，如表2所示。通过对结果的分析，我们得出以下结论：

如表2：

非图方法不会显式地为变量对之间的依赖关系建模。因此，图学习方法表现得更好。同质和异质图形模型产生了令人满意的结果，表明这些模型所描述的时空依赖性有助于多源异构数据流预测。本发明提出的方法的性能优于同构图方法，展示了基于异构图的多源异构数据流预测的优势。本发明申请提出的方法在病例情况数据集的所有指标上都优于其他方法。

消融实验

提出的方法包括两个重要组成部分：基于元关系的异构图聚合和时间属性捕获。为了评估这一设计，使用这两个重要组件构建了三种HGTAE变体方法进行比较。在数据集上测试了三种变体方法的性能。这三种变体包括去掉聚合层、去掉LSTM，调整两个模块顺序。

如图5所示，图5中描述了消融实验的结果。显示了具有所有组件的方法取得了组好的结果，证明了每个组件都对方法有贡献。然而，因为去掉聚合层的变体方法不考虑异构性，它将比所有其他方法都更糟糕，证明了将多源异构数据流建模为异构图的优势。在考虑异质性后，去掉LSTM的变体方法和调整两个模块顺序的变体方法的结果接近最好的效果。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种多源异构流数据预测方法，通过整合多源地传染病的实时数据流，进行未来事件的预测和分析；其特征在于：

步骤S1：获取各数据源的数据流；

步骤S3：将预处理后的数据流构建为异构图；

步骤S4：构建多源异构数据预测模型，并进行训练；

2.根据权利要求1所述的一种多源异构流数据预测方法，其特征在于：所述步骤S2中将获取到的数据流进行预处理，具体为：

步骤S2-1：对数据流进行数据清洗；

步骤S2-2：数据整理；使用时间窗口对数据进行划分；

步骤S2-3：对不同数据流进行嵌入，具体为：

定义多源异构数据流为，则/>；/>；其中/>，，/>表示数据流类型的数量，/>表示/>类型数据中的数量，/>表示时间戳的最大长度；

嵌入过程如下：

；

其中，为类型数据流的集合；/>为权重值训练参数；/>为偏置值训练参数；进行数据流嵌入后，将嵌入后的数据构建异构图。

3.根据权利要求1所述的一种多源异构流数据预测方法，其特征在于：所述步骤S3中将预处理后的数据流构建为异构图，具体为：

步骤S3-1：使用有向图表示异构图，表示如下：

；

其中，为节点集和边集，/>为节点类型集和边类型集； />，并且每个节点/>和每条边/>，映射函数为/>和/>；

步骤S3-2：将源节点链接到目标节点/>的边用元关系表示，表示为：

；

其中，源节点的类型，/>为目标节点的类型，/>为源节点与目标节点之间连接边的类型。

4.根据权利要求1所述的一种多源异构流数据预测方法，其特征在于：所述多源异构数据预测模型包括预处理模块、聚合模块以及预测模块，预处理模块包括全连接层，对节点进行嵌入；

5.根据权利要求1所述的一种多源异构流数据预测方法，其特征在于：所述步骤S5中将异构图输入到预训练好的多源异构数据预测模型中进行预测，获得预测结果，具体为：

6.根据权利要求5所述的一种多源异构流数据预测方法，其特征在于：所述步骤S5-1中通过注意力计算模块捕获多源数据流之间相关性，通过消息计算模块获取源节点的信息，并基于异构图使用数据流之间的相关性和源节点的信息进行节点聚合，具体为：

步骤S5-1-1：将目标节点特征/>映射到查询向量/>，并将源节点/>特征/>映射到键向量/>，计算查询向量/>与键向量/>的点积，计算公式为：

；

其中，为查询向量权重训练参数；/>为键向量权重训练参数；/>为注意力得分权重训练参数；/>为查询向量偏置项训练参数；/>为键向量偏置项训练参数；/>为多头注意力值；/>为先验张量；/>是激活函数，/>是堆叠操作；

多头信息特征表示为：

；

其中，为键向量权重训练参数；/>为键向量偏置项训练参数；/>为信息特征权重训练参数；/>为多头信息特征；

聚合后的目标节点为：

；

其中，为聚合后的目标节点；

步骤S5-1-4：利用残差连接模块输出最终的目标节点信息；

；

其中，为最终的目标节点信息；

步骤S5-1-4：利用长短期记忆模块获取节点的时间信息；

；

其中，为数据流最终的特征，包含了节点/>经过聚合后的丰富时间信息。

7.根据权利要求5所述的一种多源异构流数据预测方法，其特征在于：所述步骤S5-2中使用LSTM层捕获数据流中的长期依赖性，并输出最终的节点结果，具体为：

使用由两层全连接层构成的多层感知机作为预测层，基于包含丰富的信息的预测节点/>的下时间戳的信息，使用MLP作为多源异构数据预测模型的预测层：

；

其中，是激活函数，/>是多层感知机，/>是多源异构数据流的下一个时间戳的值；

；

其中，表示预测值/>与真实值/>之间的损失；/>是L2正则化子；/>是折衷参数。

8.根据权利要求5所述的一种多源异构流数据预测方法，其特征在于：所述步骤S5-1中基于异构图使用数据流之间的相关性和源节点的信息进行节点聚合，所述节点聚合需要进行两次。