CN116615736A

CN116615736A - 经由光卷积进行的动态图节点嵌入

Info

Publication number: CN116615736A
Application number: CN202180062269.0A
Authority: CN
Inventors: 孙嘉锐; M·顾; 王俊朋; 武延宏; 王亮; 张维
Original assignee: Visa International Service Association
Current assignee: Visa International Service Association
Priority date: 2020-09-18
Filing date: 2021-09-17
Publication date: 2023-08-18
Also published as: US20230351215A1; WO2022061170A1

Abstract

一种方法包括由分析计算机使用图结构学习模块从多个图快照中提取多个第一数据集。然后，分析计算机可以跨越所述多个图快照使用时间卷积模块从所述多个第一数据集中提取多个第二数据集。然后，分析计算机可以利用所述多个第二数据集来执行图上下文预测。

Description

经由光卷积进行的动态图节点嵌入

相关申请交叉引用

本申请是要求于2020年9月18日提交的第63/080,559号美国临时申请的优先权的PCT申请，所述美国临时申请以引用的方式并入本文中。

背景技术

学习图中节点的隐性表示(例如，嵌入)是一项重要且普遍的任务，具有广泛应用，例如链接预测、节点分类和可视化。然而，绝大多数现实世界图都是动态的，且随着时间推移而演变，例如电子邮件通信、协作和交互图。尽管神经图表示学习最近获得了成功，但几乎所有现有方法都集中在静态图上，而忽略时间动态。

在一些情况下，当考虑图的时间动态时，可以确定在第一时间步骤的嵌入，然后可以基于第一时间步骤的第一嵌入来确定在第二时间步骤的嵌入。例如，使用时间正则化器来加强来自邻近时间步骤的嵌入的平滑度。

然而，通过这样做，需要按顺序为每个时间步骤确定嵌入，因为嵌入彼此依赖。另外，由于这种对先前嵌入的依赖，任何错误、偏差等都将通过每个后续嵌入传播。

本发明的实施例单独地以及共同地解决了这些问题和其它问题。

发明内容

一个实施例涉及一种方法，包括：由分析计算机使用图结构学习模块从多个图快照中提取多个第一数据集；由分析计算机跨越多个第一数据集使用时间卷积模块从多个第一数据集中提取多个第二数据集；以及由分析计算机利用多个第二数据集来执行图上下文预测。

另一实施例涉及一种分析计算机，包括：处理器；以及计算机可读介质，其耦合到处理器，计算机可读介质包括可由处理器执行以用于实施方法的代码，所述方法包括：使用图结构学习模块从多个图快照中提取多个第一数据集；跨越多个第一数据集使用时间卷积模块从多个第一数据集中提取多个第二数据集；和利用多个第二数据集来执行图上下文预测。

有关本发明的实施例的更多详细信息可见于具体实施方式和附图。

附图说明

图1示出根据一些实施例的动态图表示学习系统的框图。

图2示出根据一些实施例的分析计算机的框图。

图3示出根据一些实施例的图嵌入的实例的图。

图4示出了示出根据一些实施例的结构自注意力方法的流程图。

图5示出了示出根据一些实施例的深度时间卷积方法的流程图。

图6示出了示出根据一些实施例的轻量级时间卷积方法的流程图。

图7示出了示出根据一些实施例的具有额外模块过程的时间序列学习方法的流程图。

图8示出了示出根据一些实施例的DyCLN架构的流程图。

图9示出了示出根据一些实施例的动态图表示学习过程的流程图。

图10示出根据一些实施例的针对第一基准数据集的性能比较。

图11示出根据一些实施例的针对第二基准数据集的性能比较。

具体实施方式

在描述本公开的实施例之前，可以详细地描述一些术语。

“机器学习模型”可以包括人工智能的应用，它向系统提供了从经验中自动地学习和改进而无需明确地被编程的能力。机器学习模型可以包括一组软件例程和参数，它们可以基于“特征向量”或其它输入数据预测过程的输出(例如，计算机网络攻击者的标识、计算机的认证、基于用户搜索查询的合适推荐等)。可以在训练过程中确定软件例程的结构(例如，子例程的数目和它们之间的关系)和/或参数的值，所述训练过程可以使用正被建模的过程的实际结果，例如，不同类的输入数据的标识。机器学习模型的实例包括：支持向量机(SVM)；模型，其通过在不同分类的输入之间建立间隙或边界来对数据进行分类；以及神经网络，其是通过响应于输入而激活来执行函数的人工“神经元”的集合。在一些实施例中，神经网络可以包括卷积神经网络、递归神经网络等。

“模型数据库”可以包括可以存储机器学习模型的数据库。机器学习模型可以以各种形式存储在模型数据库中，所述形式是例如定义机器学习模型的参数或其它值的集合。模型数据库中的模型可以与传达所述模型的某个方面的关键字相关联地存储。例如，用于评估新闻文章的模型可以与关键字“新闻”、“宣传”和“信息”相关联地存储在模型数据库中。分析计算机可以访问模型数据库并从模型数据库检取模型，修改模型数据库中的模型，从模型数据库删除模型，或将新模型添加到模型数据库。

“特征向量”可以包括表示某个对象或实体的一组可测量属性(或“特征”)。特征向量可以包括以数组或向量结构形式用数字表示的数据的集合。特征向量还可以包括可以被表示为数学向量的数据的集合，可以对所述数学向量执行例如标量积的向量运算。可以从输入数据确定或生成特征向量。特征向量可以用作机器学习模型的输入，使得机器学习模型产生某种输出或分类。基于输入数据的性质，可以各种方式实现特征向量的构造。例如，对于将单词分类为正确拼写或错误拼写的机器学习分类器，对应于例如“LOVE”的单词的特征向量可以被表示为向量(12，15，22，5)，它对应于输入数据字中的每个字母的字顺索引。对于更复杂的“输入”，例如人类实体，示例性特征向量可以包括例如人的年龄、身高、体重、相对幸福的数值表示等的特征。可以在特征存储区中以电子方式表示和存储特征向量。此外，可以将特征向量归一化，即，使特征向量具有单位量值。例如，可以将对应于“LOVE”的特征向量(12，15，22，5)归一化为大约(0.40，0.51，0.74，0.17)。

“交互”可以包括互惠作用或影响。“交互”可以包括各方、各装置和/或各实体之间的通信、联系或交换。示例交互包括两方之间的交易和两个装置之间的数据交换。在一些实施例中，交互可以包括用户请求访问安全数据、安全网页、安全位置等。在其它实施例中，交互可以包括支付交易，在所述支付交易中，两个装置可以交互以促进支付。

“拓扑图”可以包括由边缘连接的不同顶点的平面中的图的表示。拓扑图中的不同顶点可以被称为“节点”。每个节点可以表示事件的特定信息，或者可以表示实体或对象的简档的特定信息。可以由一组边缘E使节点彼此相关。“边缘”可以被描述为由作为图G＝(V,E)的子集的两个节点构成的无序对，其中G是包括由一组边缘E连接的一组顶点(节点)V的图。例如，拓扑图可以表示交易网络，在所述交易网络中，表示交易的节点可以由边缘连接到与交易相关的一个或多个节点，例如表示装置、用户、交易类型等的信息的节点。边缘可以与被称为“权重”的数值相关联，所述数值可以被分配给两个节点之间的成对连接。边缘权重可以被标识为两个节点之间的连接强度和/或可以与成本或距离相关，因为它常常表示从一个节点移动到下一个节点所需的量。在一些实施例中，图可以是动态图，其可以随时间推移而变化。例如，节点和/或边缘可以添加到图和/或从图中去除。

“子图(subgraph或sub-graph)”可以包括由较大图的元素的子集形成的图。元素可包括顶点和连接边缘，并且子集可以是在较大图的节点和边缘的整个集合当中选择的节点和边缘的集合。例如，多个子图可以通过对图数据随机采样来形成，其中每个随机样本都可以是子图。每个子图可以与由相同的较大图形成的另一个子图重叠。

“社区”可以包括图中的在群组内密集连接的一组节点。社区可以是子图或其部分/衍生物，且子图可以是也可以不是社区和/或包括一个或多个社区。可以使用图学习算法从图标识社区，所述图学习算法例如是用于绘制蛋白质复合物的图学习算法。使用历史数据标识出的社区可以用于对新数据进行分类，以进行预测。例如，标识社区可以用作机器学习过程的一部分，在此部分中可以基于信息元素彼此的关系来对信息元素进行预测。

术语“节点”可以包括表示指定信息的离散数据点。节点可以通过边缘在拓扑图中彼此连接，所述边缘可以被分配被称为边缘权重的值，以便描述两个节点之间的连接强度。例如，第一节点可以是表示网络中的第一装置的数据点，且第一节点可以在图中连接到表示网络中的第二装置的第二节点。连接强度可以由边缘权重定义，所述边缘权重对应于可以在两个节点之间快速且容易地发送信息的程度。边缘权重还可以用于表达从一个状态或节点移动到下一个状态或节点所需的成本或距离。例如，第一节点可以是表示机器的第一位置的数据点，且第一节点可以在图中连接到用于机器的第二位置的第二节点。边缘权重可以是从第一位置移动到第二位置所需的能量。

“图数据”可以包括表示为拓扑图的数据。例如，图数据可以包括由多个节点和边缘表示的数据。图数据可以包括任何合适的数据(例如，交互数据、通信数据、审查数据、网络数据等)。

“图快照”可以包括在时间范围内的图数据。例如，图快照可以包括在3天、1周、2个月等时间段期间发生的图数据。

“图上下文预测”可以包括基于图数据的任何合适的预测。在一些实施例中，预测可以与图或图数据的至少一部分的上下文有关。例如，如果图数据由天气数据形成，则预测可涉及预测特定位置的天气。在一些实施例中，可以通过使用最终节点表示(也称为节点的最终向量表示)形成的机器学习模型进行图上下文预测，所述最终节点表示可以对应于来自第二数据集的数据。在一些实施例中，图上下文预测可以是通过机器学习模型对一些输入数据的分类。

“向量表示”可以用包括表示某事的向量。在一些实施例中，向量表示可以包括表示来自向量空间中的图数据的节点的向量。在一些实施例中，向量表示可以包括嵌入。

“数据集”可以包括相关信息集的集合，所述信息集可以由单独的要素构成，但可以作为一单元由计算机操控。在一些实施例中，数据集可以包括多个向量。例如，在一些实施例中，第一数据集可以包括多个中间向量表示，并且第二数据集可以包括多个最终节点表示。

“内核”可以包括一组值。内核可以具有任何合适的长度，例如两个值、三个值、四个值、五个值或任何其它合适数目的值的长度。在一些实施例中，内核可以包括一系列权重参数值，其可以被归一化。可以使用历史数据和机器学习过程来训练权重参数值。在一些实施例中，内核对于向量的特定特征维度是唯一的。在其它实施例中，内核可用于向量的多个特征维度。

“服务器计算机”可以包括功能强大的计算机或计算机集群。例如，服务器计算机可以是大型主机、小型计算机集群，或者像单元一样工作的一组服务器。在一个示例中，服务器计算机可以是耦合到网络服务器的数据库服务器。服务器计算机可包括一个或多个计算设备，并且可使用各种计算结构、布置和编译中的任一种来服务来自一个或多个客户端计算机的请求。

“存储器”可包括可存储电子数据的任何合适的一个或多个装置。合适的存储器可以包括非瞬态计算机可读介质，其存储可由处理器执行以实施所要方法的指令。存储器的示例可以包括一个或多个存储器芯片、磁盘驱动器等。此类存储器可以使用任何合适的电气、光学和/或磁性操作模式来操作。

“处理器”可以包括任何合适的一个或多个数据计算装置。处理器可包括一起工作以实现所要函数的训练更有效率吗一个或多个微处理器。处理器可以包括CPU，所述CPU包括至少一个高速数据处理器，所述高速数据处理器足以执行用于执行用户和/或系统生成的请求的程序组件。该CPU可以是微处理器，诸如AMD的速龙(Athlon)、钻龙(Duron)和/或皓龙(Opteron)；IBM和/或摩托罗拉(Motorola)的PowerPC；IBM和索尼(Sony)的Cell处理器；英特尔(Intel)的赛扬(Celeron)、安腾(Itanium)、奔腾(Pentium)、至强(Xeon)和/或XScale；和/或类似处理器。

I.引言

在一些情况下，本公开的实施例也称为动态图光卷积网络(DGLC)，可对动态图进行操作并学习捕获结构特征和时间演变模式两者的节点表示。实施例可以允许分析计算机首先采用图结构学习层来有效地捕获结构相邻信息，然后采用时间卷积层来高效地捕获图序列的时间演变，从而计算节点表示。与现有技术相比，实施例的时间卷积可以使得能够以细粒度节点级粒度来学习自适应时间演变模式。进一步的时间卷积可以通过利用在时间内核窗口内对输入特征的单个维度的关注来实现处理效率，并避免不必要的计算成本

由于在生物学(Grover和Leskovec，2016)、社交媒体(Perozzi等人，2014)和知识库(Wang等人，2014)等各种领域中的广泛使用，学习图中节点的隐性表示(或嵌入)已认为是基本的学习问题。所述想法是将节点的相邻者的结构特性(和可能的属性)编码为低维度向量。此类低维度表示可有益于大批的图分析任务，例如节点分类、链接预测和图可视化(Perozzi等人，2014；Grover和Leskovec，2016；Wang等人，2016；Tang等人，2015)。

先前关于图表示学习的工作主要集中在静态图上，所述静态图包含一组固定的节点和边缘。然而，现实世界应用中的许多图本质上是动态的，其中图结构可以随时间推移而演变。动态图可以表示为来自不同时间步骤的图快照序列(Leskovec等人，2007)。实例包括：学术合著网络，其中作者可以定期改变他们的协作行为；以及电子邮件通信网络，其结构可能因突然事件而发生急剧变化。在此类情境中，建模时间演变模式在准确预测节点特性和未来链接时可能是重要的。

由于复杂的时变图结构，因此与静态设置相比，学习动态节点表示具有挑战性。例如，节点可以显现和离开，链接(例如，边缘)可以出现和消失，并且社区可以合并和分割。这可能需要习得的嵌入不仅保持节点的结构接近度，而且还共同捕获随时间推移的时间依赖性。尽管近期的一些工作尝试学习动态网络中的节点表示，但它们主要施加时间正则化器以加强来自邻近快照的节点表示的平滑度，参见(Zhu等人，2016；Li等人，2017；Zhou等人，2018)。然而，当节点表现出显著不同的演变行为时，这些方法失败。Trivedi等人(2017)在多关系知识图中采用递归神经结构以进行时间推理。然而，这种方法通过仅关注连锁水平演变而忽略局部图相邻者的结构来学习时间节点表示。

注意力机制最近在许多顺序学习任务中取得了巨大成功，所述任务例如机器翻译(Bahdanau等人，2015)和阅读理解(Yu等人，2018)。注意力机制的基本原理可以是学习聚合可变大小的输入的函数，同时关注与特定上下文最相关的部分。当注意力机制使用单个序列作为输入和上下文两者时，它通常被称为自注意力。尽管注意力机制最初旨在促进递归神经网络(RNN)捕获长期依赖性，但(Vaswani等人，(2017))最近的工作表明，完全自注意网络本身可以在机器翻译任务中实现最先进的性能。(Velickovic等人，(2018))通过使每个节点能够关注其邻近者而扩展图上的自注意力，从而在静态图中实现半监督节点分类任务的最先进的结果。

最近提出了一些工作来学习动态图上的节点表示。为了捕获演变模式，这些方法主要利用两类技术：递归神经网络(RNN)[Goyalet等人，2020；Pareja等人，2020]和注意力机制[Sankar等人，2020；Xu等人，2020]。基于RNN的模型将图快照或一组图神经网络(GNN)权重作为每个时间步骤的输入，使得其隐藏状态被优化以总结并学习历史图变化。另一方面，基于注意力的方法通过在不同时间步骤中对每个图快照的结构信息进行加权和聚合来建模时间信息。然而，这两种类型的模型的训练过程可能是耗时的，特别是在建模具有长时间序列的图时。具体地说，基于RNN的模型需要按顺序处理图快照中的每一个，而基于注意力的模型计算整个图序列的权重系数。此外，这两种类型的模型都对硬件内存需求提出了重大挑战。这些挑战阻止了现有动态图表示学习方法应用于存在具有许多时间步骤的大型动态图的领域。

相比之下，本公开的实施例提供新颖的神经架构以高效地学习动态图上的节点表示。具体地说，实施例可以针对结构相邻者和时间动态采用自注意力。实施例可以采用图结构学习层来有效地捕获结构相邻信息，然后采用时间卷积层来高效地捕获图序列的时间演变。例如，实施例可以允许分析计算机通过考虑节点的相邻者遵循自注意策略且接着节点的历史表示遵循时间卷积策略来生成节点表示。与完全关注保持结构接近度的静态图嵌入方法不同，实施例可以学习动态节点表示，所述动态节点表示反映变化数目的历史快照上的图结构的时间演变。实施例能够准确地捕获结构特性和时间演变模式两者。与基于时间平滑度的方法相反，实施例可以细粒度节点级粒度来学习捕获时间依赖性的注意力权重。

与过去的方法相比，实施例可以在捕获图序列的时间演变时实现更好的处理效率。首先，每个轻量级卷积内核可能在时间内核窗口内仅关注输入特征的单个维度。这是可以接受的，因为已经从结构层捕获了交叉维度特征交互。因此，实施例避免了不必要的计算，且由此改进了模型优化。另外，实施例可以跨越某些特征维度共享权重(例如，内核)，且由此可以减少参数的数目。这既正则化了模型，又降低了计算成本。这些优点使得本发明的实施例强大且高效，特别是在建模具有长时间序列的动态图时。

A.系统概要

图1示出根据一些实施例的包括多个组件的系统100的框图。系统100包括分析计算机102、图数据数据库104、模型数据库106和请求客户端108。分析计算机102可以与图数据数据库104、模型数据库106和请求客户端108(例如，远程计算机)进行操作通信。

为了简单说明起见，在图1中示出一定数目的组件。然而，应理解，本公开的实施例可包括多于一个的每种组件。另外，本公开的一些实施例可包括比图1中所示的所有组件少或多的组件。

图1中的系统100的装置之间的消息可以使用安全通信协议来发送，所述安全通信协议例如但不限于：文件传输协议(FTP)；超文本传输协议(HTTP)；安全超文本传输协议(HTTPS)、SSL、ISO(例如，ISO 8583)等。通信网络可以包括以下中的任一个和/或组合：直接互连；互联网；局域网(LAN)；城域网(MAN)；作为互联网上节点的运行任务(OMNI)；安全定制连接；广域网(WAN)；无线网络(例如，采用例如但不限于无线应用协议(WAP)、I-模式等等的协议)；等等。通信网络可以使用任何合适的通信协议以生成一个或多个安全通信信道。在一些实例中，通信信道可以包括安全通信信道，安全通信信道可以任何已知方式建立，例如通过使用相互认证和会话密钥，以及建立安全套接层(SSL)会话。

图数据数据库104可以安全地存储图数据。图数据数据库104可以存储图数据(例如，拓扑图数据)。在一些实施例中，图数据数据库104可以存储动态图的多个图快照。

模型数据库106可以安全地存储模型。例如，分析计算机102可以创建模型(例如，机器学习模型)，并且可以将所述模型存储在模型数据库106中。在一些实施例中，图数据数据库104和模型数据库106可以是常规的、容错的、关系式的、可扩展的、安全的数据库，例如可购自Oracle^TM、Sybase^TM等的那些数据库。

分析计算机102能够经由如本文中所描述的自注意力网络和轻量级卷积来执行动态图表示学习。分析计算机102能够从图数据数据库104检取图数据。在一些实施例中，分析计算机102能够从图数据数据库104检取图快照。

分析计算机102能够使用图结构学习模块从多个图快照中提取多个第一数据集。然后，分析计算机102能够跨越多个图快照使用时间卷积模块从多个第一数据集中提取至少第二数据集。多个第一数据集和第二数据集的提取在本文中进一步详细描述。分析计算机102还能够利用至少第二数据集来执行图上下文预测。

请求客户端108可以包括分析计算机102外部的任何合适的装置。在一些实施例中，请求客户端108可以接收由分析计算机102作出的输出和/或决策。在其它实施例中，请求客户端108可以将请求(例如，预测请求)发送到分析计算机102。请求可以包括有关模型的请求数据。请求客户端108可以请求分析计算机102运行模型，以例如预测图数据的两个节点是否将在未来图快照中经由边缘连接。在接收到包括请求数据的请求之后，分析计算机102可以确定输出数据。例如，分析计算机102可以将请求数据输入到模型中，以确定由模型输出的输出数据。然后，分析计算机102可以将输出数据提供到请求客户端108。

例如，在一些实施例中，分析计算机102可以从请求客户端108接收预测请求。预测请求可以包括例如对由预测协作图数据中的第一节点表示的第一作者是否将在未来时间点连接到由第二节点表示的第二作者(例如，与所述第二作者执行研究)的请求。

然后，分析计算机102可以至少基于利用至少第二数据集执行图上下文预测来确定预测。例如，分析计算机102可以使用如本文中所描述创建的模型来预测第一作者和第二作者未来是否将在给定时间步骤就研究论文进行协作。例如，分析计算机102可以确定预测两个作者有90％的可能性在明年内就研究论文进行协作。

在确定预测之后，分析计算机102可以基于预测执行任何合适的动作。例如，动作可以包括将至少包括预测的预测响应消息发送到请求客户端108。例如，分析计算机102可以发送提供两个作者有可能在明年内协作的预测的消息。在另一实例中，分析计算机可以发送咨询通知，表明交易有可能发生，或正在尝试的当前交易不太可能发生且因此可能是欺诈性的。

B.分析计算机

图2示出根据实施例的分析计算机200的框图。示例性分析计算机200可以包括处理器204。处理器204可以耦合到存储器202、网络接口206、输入元件210、输出元件212和计算机可读介质208。计算机可读介质208可以包括图结构学习模块208A、时间卷积模块208B和上下文预测模块208C。

存储器202可以用于存储数据和代码。存储器202可以在内部或在外部耦合到处理器204(例如，基于云的数据存储装置)，并且可以包括例如RAM、DRAM、ROM、闪存或任何其它合适的存储器装置之类的易失性和/或非易失性存储器的任何组合。例如，存储器202可以存储图数据、向量、数据集等。

计算机可读介质208可以包括代码，所述代码可由处理器204执行以用于执行方法，所述方法包括：由分析计算机使用图结构学习模块从多个图快照中提取多个第一数据集；由分析计算机跨越多个图快照使用时间卷积模块从多个第一数据集中提取至少第二数据集；以及由分析计算机利用至少第二数据集来执行图上下文预测。

图结构学习模块208A可以包括代码或软件，所述代码或软件可由处理器204执行以用于执行图结构学习，例如结构自注意力。图结构学习模块208A结合处理器204可以关注特定节点(例如，节点v)的紧邻节点。例如，图结构学习模块208A结合处理器204可以通过确定随输入节点而变的注意力权重(例如，在注意神经网络中)来关注紧邻节点。在一些实施例中，图结构学习模块208A结合处理器204可以使用等式(1)来确定多个图快照中的每个快照的每个节点的中间向量表示，下文将进一步详细描述。图结构学习模块208A结合处理器204可以独立于其它图快照而确定每个图快照的中间向量表示。

例如，图结构学习模块208A结合处理器204可以接收图数据的第一图快照(例如，动态图)。图数据可以是通信数据，其包括特定用户(例如，表示为节点)和用户之间的通信(例如，表示为边缘)。图结构学习模块208A结合处理器204可以首先确定什么节点连接到第一节点(例如，通信网络中的第一用户)。(经由边缘)连接到第一用户的节点可以是相邻节点。当确定嵌入第一节点时，可以使用第一节点的相邻节点。以此方式，当确定第一节点的向量表示时，可以关注第一节点的相邻节点，从而捕获图数据中的结构模式。

时间卷积模块208B可以包括代码或软件，所述代码或软件可由处理器204执行以用于执行时间卷积。时间卷积模块208B结合处理器204可以捕获多个图快照上的图数据中的时间演变模式。时间卷积模块208B的输入可以包括由结构卷积模块208A结合处理器204确定的中间向量表示。例如，时间卷积模块208B结合处理器204可以至少接受来自每个图快照的第一节点的向量表示作为输入。第一节点的向量表示可以构成第一节点周围的局部结构的编码。在一些实施例中，时间卷积模块208B结合处理器204可以使用等式(2)跨越多个图快照从多个第一数据集中提取至少第二数据集，如下文进一步详细描述。

例如，图结构学习模块208A结合处理器204可以确定第一节点的中间向量表示。多个中间向量表示可以包括在每个图快照处第一节点的中间向量表示。然后，时间卷积模块208B结合处理器204可以接收第一节点的多个中间向量表示。时间卷积模块208B结合处理器204可以利用多个中间向量表示以在第一节点的历史表示上卷积(例如，使用轻量级卷积)，从而将来自第一节点的中间向量表示的信息压印到彼此上(例如，在特定时间窗口内)。因此，时间卷积模块208B结合处理器204可以确定图数据的第一节点的一个或多个最终节点表示。最终节点表示可以是表示中间向量表示随时间推移(例如，在特定时间窗口内)的变化的向量。因此，最终节点表示可以对关于图的结构以及结构随时间推移的变化的数据进行编码。

例如，第一节点的最终节点表示可以表示第一用户的通信习惯以及它们随时间推移而演变的方式。第一节点可以在一部分时间内与特定节点群组通信，然后漂移到与不同节点群组通信。第一节点的最终节点表示可以形成为使得它们指示或反映第一用户的通信变化。

在一些实施例中，分析计算机可以至少使用第二数据集来创建任何合适类型的模型，例如，所述模型可以包括机器学习模型(例如，支持向量机(SVM)、人工神经网络、决策树、贝叶斯网络、遗传算法等)。在一些实施例中，模型可以包括系统或流程的数学描述，以协助计算和预测(例如，欺诈模型、异常检测模型等)。

例如，分析计算机200可以创建模型，所述模型可以是统计模型，其可用于根据已知信息预测未知信息。例如，分析计算机200可以包括用于根据训练数据生成回归线(监督学习)的一组指令，或用于基于数据点之间的相似度、连接性和/或距离将数据分组成不同分类的数据的群集(无监督学习)的一组指令。接着，回归线或数据群集可用作用于根据已知信息预测未知信息的模型。

一旦分析计算机已经根据至少第二数据集构建了模型，所述模型就可用于由上下文预测模块208C结合处理器204根据请求生成预测输出。上下文预测模块208C可以包括代码或软件，所述代码或软件可由处理器204执行以用于执行上下文预测。例如，所接收请求可以是对与呈现的数据相关联的预测的请求。例如，请求可以是对将交易分类为欺诈性或非欺诈性的请求，或者是对用户建议的请求。

图上下文预测模块208C结合处理器204可以基于图数据的上下文来执行任何合适的预测。例如，分析计算机200可以确定与图数据有关的预测。在一些实施例中，预测可以与与图数据相关联的图的上下文有关。分析计算机200可以例如执行图上下文预测以确定资源提供商和用户是否将在下周的某个点交易的预测。作为说明性实例，由时间卷积模块208B结合处理器204确定的第二数据集可以用作机器学习模型，例如回归模型或分类模型的输入，以作出预测，例如两个节点是否将被链接或节点将属于的类别。在一些实施例中，第二数据集可用于训练神经网络。例如，第二数据集可以对应于包括经由交互连接的资源提供商和用户的图数据。可以利用包括向量的第二数据集以任何合适的方式训练神经网络。在一些实施例中，训练神经网络可以被训练为将输入向量分类为例如欺诈或非欺诈。作为另一实例，神经网络可被训练为预测两个节点是否将在未来的图快照中经由边缘连接(例如，特定资源提供商和用户交易)、与此类快照相关联的时间，和/或边缘是否将表示批准或拒绝的交易。

网络接口206可以包括可以允许分析计算机200与外部计算机通信的接口。网络接口206可以使得分析计算机200能够与另一装置(例如，请求客户端等)进行数据通信。网络接口206的一些实例可以包括调制解调器、物理网络接口(例如以太网卡或其它网络接口卡(NIC))、虚拟网络接口、通信端口、个人计算机存储卡国际协会(PCMCIA)插槽和卡，等等。由网络接口206启用的无线协议可以包括Wi-Fi^TM。经由网络接口206传送的数据可以呈信号的形式，所述信号可以是电信号、电磁信号、光信号，或者能够由外部通信接口接收的任何其它信号(统称为“电子信号”或“电子消息”)。可以包括数据或指令的这些电子消息可以经由通信路径或信道在网络接口206与其它装置之间提供。如上所述，可以使用任何合适的通信路径或信道，例如电线或电缆、光纤、电话线、蜂窝链路、射频(RF)链路、WAN或LAN网络、互联网，或任何其它合适的介质。

II.相关工作

实施例可以涉及关于静态图、动态图、自注意力机制等的表示学习技术。

关于无监督图表示学习的早期研究利用图的各种矩阵表示(例如，Laplacian等)的光谱特性来执行维度减少(Belkin和Niyogi，2001；Tenenbaum等人，2000)。为了提高大型图的可扩展性，受自然语言处理成功的启发，最近对图嵌入进行的工作已经确立了随机游走方法的有效性。例如，Deepwalk(Perozzi等人，2014)通过将在随机游走中出现在窗口内的节点的共发生概率最大化来学习节点嵌入。Node2vec(Grover和Leskovec，2016)在同源性和结构等效性之间扩展所述模型的灵活性。近年来，基于卷积的推广的若干图神经网络架构已经取得了巨大的成功，其中绝大多数是为监督或半监督学习而设计的(Niepert等人，2016；Defferrard等人，2016；Kipf和Welling，2017；Sankar等人，2017；Velickovic等人，2018)。此外，Hamilton等人(2017)通过可训练相邻聚合函数来扩展图卷积方法，以提出适用于无监督表示学习的通用框架。然而，这些方法并不设计成建模动态图中的时间演变行为。

大多数技术采用时间平滑度正则化，以确保跨越连续时间步骤的嵌入稳定性(Zhu等人，2016；Li等人，2017)。Zhou等人(2018)另外使用三元闭包(Kossinets和Watts，2006)作为指导，从而产生显著改进。神经方法最近由Trivedi等人(2017)在知识图域中探索，Trivedi等人采用递归神经结构进行时间推理。然而，他们的模型限于跟踪链接演变，但在计算节点表示时忽略局部相邻者。Goyal等人(2017)通过先前时间步骤的初始化来学习增量节点嵌入，然而，这可能不足建模对历史时间变化。与先前的方法不同，实施例可以通过自注意架构以节点级粒度来学习自适应时间演变模式。

动态图通常可以按其表示分类为离散图和连续图。离散图使用的图快照的有序序列，其中每个快照表示固定时间间隔内的聚合动态信息。另一方面，连续图保留详细的时间信息，并且与离散图相比，建模起来通常很复杂。在此工作中，重点是离散图设置和从图快照序列中学习节点表示。

对于离散动态图学习，许多现有的利用递归模型将时间动态捕获到隐藏状态中。一些工作使用单独的GNN来建模个别图快照，并且使用RNN来学习时间动态[Seo等人，2018；Manessi等，2020]；一些其它工作将GNN和RNN一起集成为一个层，旨在同时学习空间和时间信息[Pareja等人，2020；Chen等人，2018]。然而，递归结构在训练期间引入顺序依赖性，当对长输入序列进行建模时，所述顺序依赖性具有可扩展性问题。Sankar等人[Sankar等人，2020]沿着动态图的空间维度和时间维度两者来使用自注意力机制，从而显示出与利用RNN方法的GNN相比更好的性能。然而，当建模具有长输入序列的动态图时，RNN单元和注意力机制两者都可能变得低效。

关于连续动态图的现有工作包括基于RNN的方法和基于时间随机游走的方法，以及基于时间点过程的方法。基于RNN的方法在细粒度时间戳处通过递归模型执行表示更新[Kumar等人，2019]，并且其它两个类别通过时间随机游走和参数化时间点过程并入时间依赖性[Nguyen等人，2018；Trivedi等人，2019]。然而，这些方法不适用于没有详细事件时间戳的动态图。

许多自然语言处理(NLP)任务的最新进展表明了自注意力在实现最先进性能方面的优势(Vaswani等人，2017；Lin等人，2017；Tan等人，2018；Shen等人，2018；Shaw等人，2018)。在本公开的实施例中，可以通过关注动态节点的邻近者以及先前的历史表示来采用自注意力计算动态节点表示。一些实施例的方法可以包括在邻近者上使用自注意力，并且可以与图注意力网络(GAT)(Velickovic等人，2018)有关，所述GAT采用相邻注意力来在静态图中进行半监督节点分类。

III.动态图光卷积网络架构

在一些实施例中，分析计算机可以被配置成确定图数据的嵌入。例如，分析计算机可以确定最终节点表示，其可以是最终嵌入。然后，图表示可用于图上下文预测。为了确定图表示，分析计算机可以从图数据数据库检取图数据。在一些实施例中，在检取图数据之后，分析计算机可以从图数据确定多个图快照。在其它实施例中，图数据可以作为多个图快照存储在图数据数据库中，在这种情况下，分析计算机可以在图数据数据库中检取多个图快照。

然后，分析计算机可以使用图结构学习模块从多个图快照中提取多个第一数据集。多个第一数据集可以包括例如多个图快照中的每个快照的每个节点的中间向量表示。中间向量表示可以是表示图快照的节点的向量。例如，中间向量表示可以在向量空间中，所述向量空间可以表示图数据的特性。例如，如果图快照的两个节点类似(例如，共享多个属性)，则表示两个节点的向量可以在向量空间中类似。

作为说明性实例，图数据可以包括交互数据(例如，交易数据等)。图数据可以是包括多个图快照的动态图。每个图快照可以包括任何合适数目的节点和边缘。图数据的节点可以表示资源提供商和用户。当资源提供商和用户已执行交易时，边缘可以将资源提供商节点连接到用户节点。分析计算机可以从每个图快照确定第一数据集。例如，对于每个节点，分析计算机可以基于节点的相邻节点(例如，局部结构)来确定向量(例如，中间向量表示)。中间向量表示可以通过自注意神经网络确定，其中分析计算机基于节点的相邻节点对节点的影响来确定给予相邻节点多少注意力(例如，权重)。

例如，在自注意过程期间，分析计算机可以确定第一用户节点的中间向量表示。分析计算机可以确定表示可放在第一用户节点与连接第一用户节点的每个资源提供商节点之间的链接上的注意力的值。例如，第一用户节点可以经由边缘连接到三个资源提供商节点，所述三个资源提供商节点包括位于旧金山且提供杂货资源的第一资源提供商、位于旧金山且提供电子装置资源的第二资源提供商，以及位于纽约且提供数字图书资源的第三资源提供商。分析计算机可以关注节点以确定第一用户节点的中间向量表示。例如，第一用户节点可以与旧金山的位置相关联，并且作为电子社区群体的一部分相关联。分析计算机可以使用自注意神经网络来确定值，其中输入可以包括第一用户节点和相邻节点，如本文中进一步详细描述。神经网络的输出可以包括向量，所述向量包括表示第一用户节点与每个输入节点的关系密切程度的值。例如，在一些实施例中，第一用户节点可能与它自己最密切相关，因为它共享自己的所有特性。然后，第一用户节点可以按相似程度的降序与第二资源提供商(旧金山、电子)、第一资源提供商(旧金山、杂货)和第三资源提供商(纽约、数字图书)相关，因为第一用户节点与旧金山和电子相关联。

然后，分析计算机可以跨越多个图快照使用时间卷积模块从多个第一数据集中提取至少第二数据集。第二数据集可以包括例如包括多个图快照的图的多个最终节点表示(也称为节点的最终向量表示)。多个最终节点表示可以是进一步表示节点结构随时间推移(例如，在由内核大小定义的某一时间窗口内)的变化的向量。例如，最终节点表示可以在向量空间中，所述向量空间可以表示图数据的特性。例如，如果中间向量表示的向量随时间推移是类似的，则它们可以由在最终向量空间中彼此靠近的最终节点表示来表示。

例如，如果表示资源提供商的两个节点描绘随时间推移的类似特性(例如，两个资源提供商都在夏季与许多用户交易，但接着在冬季不执行许多交易)，则表示这两个资源提供商的最终节点表示可以彼此靠近(例如，向量具有类似的量值和方向)。例如，上文描述的第一用户节点可以与中间向量表示相关联，所述中间向量表示描述第一用户节点周围的局部结构(例如，包括描述第一用户节点与每个相邻节点之间的关系的权重)。在第一图快照与第二图快照之间，第一用户节点周围的局部结构可以变化。时间卷积过程可以确定第一用户节点的中间向量表示在整个图快照中如何变化。以此方式，可以确定时间模式并将其编码成一组最终节点表示，所述一组最终节点表示可以表示随时间推移(例如，预定义时间窗口内)第一用户节点的局部结构。

在提取第二数据集(例如，一组最终节点表示)之后，分析计算机可以利用至少第二数据集来执行图上下文预测。作为说明性实例，第二数据集可以用作机器学习模型，例如回归模型或分类模型的输入，以作出预测，例如两个节点是否将被链接或节点将属于的类别。在一些实施例中，图上下文预测可以包括确定第一节点未来是否将与第二节点交互。例如，分析计算机可以使用最终节点表示(也称为节点的最终向量表示)来训练任何合适的机器学习模型。分析计算机可以训练例如能够确定两个节点是否将在未来图快照中经由边缘连接的前馈神经网络。

说明性地，分析计算机可以确定表示资源提供商的第一节点是否将在下周、下个月、下两个月等时间内与表示用户(例如，消费者)的第二节点交易。分析计算机还可以执行动作，例如发送通知资源提供商关于预测交易的消息。

A.问题定义

离散时间动态图可以包括一系列观察到的快照其中T可以是多个时间步骤。每个快照/>可以是加权无向图，其包括共享节点集/>链接(例如，边缘)集ε^t和权重/>从而描绘在时间t的图结构。图快照/>的对应加权邻接矩阵可以由/>表示。与假设动态图仅随时间推移而增长的一些先前工作不同，本公开的实施例可以允许链接(例如，边缘)的添加和删除两者。实施例可以允许分析计算机学习每个节点在时间步骤t＝1,2,…,T的隐性表示/>使得所述表示/>既保持节点v周围的局部结构，又建模随时间推移的局部结构演变。隐性表示/>可以是最终节点表示。

图3示出根据实施例的图嵌入的实例。分析计算机可以学习节点的隐性向量空间表示，使得图数据的两个结构类似的节点可以类似地嵌入在向量空间中。图3包括图302的快照，所述快照包括节点和连接节点的边缘。图3还包括图302的向量空间304的表示。尽管在向量空间304中示出两个维度，但应理解，向量空间304可以是多维度的。

在一些实施例中，嵌入可以是离散或分类变量到连续编号的向量的映射。在神经网络的上下文中，嵌入可以是离散变量的低维度的、习得的连续向量表示。神经网络嵌入可以很有用，因为它们可以缩减分类变量的维度，并有意义地表示变换空间中的类别。在一些实施例中，可以使用神经网络来确定可以表示节点的向量。

分析计算机可以确定图302中的每个节点的向量表示。向量空间304可以示出对应于每个节点的每个向量在向量空间中的位置。例如，图302的编号为13的节点可以作为向量[1.1,-1.0]嵌入在向量空间304中嵌入。

例如，图302可以是表示(例如，经由边缘)彼此通信的用户(例如，节点)的通信网络。节点8和节点2可以表示例如具有类似通信习惯的用户。由节点2表示的用户可以与其他用户通信(例如，通过电子邮件、电话、文本等)，如由图302的其它节点的边缘所指示。由节点8表示的用户可以与节点2所通信的许多相同用户通信。因此，节点2和节点8可具有类似特性。

分析计算机可以确定图302的节点的嵌入。分析计算机可以确定图302的每个节点的向量表示。例如，分析计算机可以确定在向量空间304中节点2的向量为[0.75,-0.81]，而节点8的向量为[0.80,-0.82]。由于节点2和8具有类似的特性，分析计算机可以针对节点2和8确定类似的向量。

B.模型概要

在本节中，将描述实施例的架构。实施例可以高效地生成代表性节点嵌入，以跟踪动态图的时间演变。图结构学习模块可以捕获每个图快照的结构信息。时间序列学习模块可以高效地融合从历史时间步骤习得的结构信息。这两个模块可用于无监督方法。

在一些实施例中，图结构学习块之后可以是时间卷积块，如下文描述的图8中所示，其中每个块可以包含相应类型的多个堆叠层。图结构学习块可以使用自注意力来通过自注意力聚合从局部相邻者中(例如，节点周围)提取特征，以计算每个图快照的中间向量表示。这些表示可以作为输入馈送到时间卷积块，所述时间卷积块可以针对每个向量的每个特征在多个时间步骤上卷积，从而捕获向量中的时间变化。时间卷积过程的输出可以包括可用于训练机器学习模型和执行图上下文预测的最终节点表示(也称为节点的最终向量表示)。

C.图结构学习

图4示出说明根据一些实施例的通过结构自注意力进行图结构学习的方法的流程图。图4的结构自注意力方法可以接受三个输入x_u(Q)、x_v(K)、x_v(V)和。注意力函数可以被描述为将查询Q和一组键-值对(例如，分别为K和V)映射到输出，其中查询、键、值和输出都可以是向量，或在一些实施例中是矩阵。输出可以计算为值的加权总和，其中分配给每个值的权重由查询与对应键的兼容性函数计算。

图结构学习过程可以通过聚合来自每个节点的紧邻者的信息来学习图快照的结构特性。例如，图结构学习层的输入可以是：图快照/>其中/>可以是动态图(例如，图数据)；以及一组输入节点表示/> 其中D可以是输入嵌入的维度。图结构学习层可以输出具有维度的F一组新的节点表示/>例如，图结构学习层可以输出表示节点的中间向量表示。

图结构学习层可以关注节点v在时间t的相邻者，方式为计算作为输入节点嵌入的函数的注意力权重。在一些实施例中，结构注意力层可以是应用于图快照的GAT的加权变量(Velickovic等人，2018)：

在上文的等式(1)中，可以是图快照中的节点v的一组紧邻者，/>可以是应用于图快照中的每个节点的共享权重变换。根据图4，分析计算机可以在步骤402、404和406分别将不同的线性变换应用于查询Q、键K和值V。线性变换可以是应用于查询Q、键K和值V的任何合适的线性变换。在等式(1)中，线性变换可以例如由共享权重变换/>应用。/>可以是参数化实施为前馈层的注意力函数的权重向量。

在步骤408，分析计算机可以将线性变换的查询Q和键K级联成矩阵或向量。在一些实施例中，在步骤410，可以将额外的线性变换应用于级联矩阵。例如，在等式(1)中，||可以是级联操作，其可以级联线性变换的查询Q和键K。

A_uv可以是当前图快照中链接(u,v)的权重。由softmax在每个节点的相邻者上获得(例如，在步骤412)的一组习得系数α_uv可以指示节点u对当前图快照中的节点v的重要性或贡献。在一些实施例中，分析计算机可以利用稀疏矩阵来在邻近节点上实施掩码自注意力。

在步骤414，分析计算机可以对线性变换的值V(来自步骤406)以及步骤412的输出执行Matmul过程(例如，矩阵乘法)。例如，分析计算机可以将习得系数、共享权重变换和相邻节点的对应输入节点表示相乘(例如，α_uvW^sx_u)，以确定节点v的一组紧邻节点中的每一个的值。分析计算机可以确定这些值的总和，其可以指示每个相邻节点对节点v影响的权重。然后，分析计算机可以将激活函数应用于总和值。例如，在等式(1)中，σ(·)可以是非线性激活函数。例如，在人工神经网络中，给定一个输入或一组输入，节点的激活函数可以定义所述节点的输出。例如，激活函数的输出可以包括范围为0到1的值。

例如，就将句子从一种语言翻译成另一种语言的自注意力机制而言，查询Q可以是可以翻译的输入句子。键K可以是隐藏编码器状态。例如，键K可以是与输入查询Q句子有关的单词(呈向量格式)。然后，值V可以是由键K和给予每个键K的注意力得分确定的值。在一些实施例中，查询Q可以包括图快照中的特定节点。键K可以包括查询Q节点的相邻节点(例如，经由边缘连接的节点)。值V可以是查询的节点Q与键K的相邻节点之间的连接的注意力得分。

作为另一实例，可以创建查询向量、键向量和值向量。这些向量可以通过将嵌入乘以例如在训练过程期间训练的三个矩阵来创建。在一些实施例中，可以通过首先获取查询和每个键并计算两者之间的相似度以获得权重来执行计算注意力。分析计算机可以利用任何合适的相似度函数，例如点积、拼接、检测器等。然后，分析计算机可以使用softmax函数来归一化这些权重，并且可以结合对应值对这些权重加权并获得最终注意力。

在一些实施例中，分析计算机可以另外采用多头注意力(Vaswani等人，2017)来共同关注每个输入处的不同子空间，从而产生模型容量的飞跃。实施例可以在图结构学习层中使用多个注意力头，随后是级联，如下文所总结：

在以上等式中，h可以是注意力头的数目。可以是结构多头注意力的输出。结构注意力可以应用于单个快照。

多头注意力过程可以计算多个注意力加权总和，而不是忽略值的单个注意力。为了学习多样化的表示，多头注意力可以针对注意力的每个头将不同线性变换应用于值、键和查询。单个注意力头可以将唯一线性变换应用于其输入查询、键和值。然后，可以计算每个查询与键之间的注意力得分，且接着使用所述注意力得分对值进行加权和求和。然后，可以针对所执行的注意力的每个头来级联注意力过程的输出。

关于图4的另外细节可见于[Ashish Vaswani等人，见于神经信息处理系统30的进展：2017年神经信息处理系统年度会议(Advances in Neural Information ProcessingSystems 30:Annual Conference on Neural Information Processing Systems 2017)，2017年12月4日-9日，美国加利福尼亚州长滩，第6000页-第6010页，2017年。]，所述文献出于所有目的以引用的方式并入本文中。

D.时间卷积

由结构块计算的节点表示可以输入到时间卷积层，所述时间卷积层可以在具有不同时间窗口的一系列时间步骤中(例如，在不同系列的图快照上)针对每个节点v独立地计算一个或多个时间卷积。在一些实施例中，时间卷积层可以表征某一时间点的节点，以及所述节点与在其它时间点(例如，在某一时间窗口内)的其自身的相关程度。

时间卷积模块208B可以更一般地被称为时间序列学习模块，其旨在捕获动态图的时间演变。所述模块可以利用轻量级卷积[Wu等人，2019]，其将每个历史图快照的习得的结构信息总结为统一的代表性嵌入。应用轻量级卷积的主要优点是效率。轻量级卷积是深度卷积的一种形式，仅从时间角度聚合信息，且由此避免已经由图结构学习模块良好执行的不必要的更高阶特征交互。另外，轻量级卷积跨越某些信道共享权重，且由此进一步减少参数的数目，这降低计算成本并使模型正则化。

对于每个节点v，时间卷积层的输入可以是来自图结构学习模块的输出。例如，对于每个节点v，输入可以是来自一组中间向量表示的每个特定维度的值，其中T可以是时间步骤(例如，图快照)的数目，并且D可以表示输入向量表示的特定维度。其中l-1指示这些是在时间卷积发生之前的值。

时间卷积层的输出可以是每个节点v在每个时间步骤处的一组新的向量表示(例如，最终节点表示)(例如，具有维度D的其中l指示这些是在时间卷积发生之后的值)。v的输入嵌入表示在所有图快照中打包在一起，可以由矩阵/>表示。v的输出嵌入表示在所有图快照中打包在一起，分别由矩阵表示。

时间卷积层的目标可以是捕获图结构在多个时间步骤中的时间变化。节点v在时间步骤t处的输入向量表示可以构成周围v当前局部结构的编码。/>可以与其时间相邻表示(例如，/>等)卷积，从而允许/>周围的局部时间相邻者对/>有影响。因此，时间卷积促进学习节点在不同时间步骤中的各种表示之间的依赖性。

I.深度卷积

图5示出了示出根据一些实施例的深度时间卷积方法的流程图。如上文所论述，输入可以是由结构块计算的节点表示(例如，每个节点的中间向量表示)。通常，每个节点将个别地利用其自身的不同快照向量版本进行处理和卷积。图5中的图示示出单个节点嵌入的时间卷积的过程。可以针对每个节点嵌入执行这个过程。

在步骤S510，可以由例如分析计算机200的时间卷积模块208B接收待卷积的数据。所述数据可以包括多个不同时间快照，其中每个快照包括由结构块确定的多个节点表示。如上文所论述，这些可以是每个节点的中间向量表示。

在步骤S512，可以从具有多个节点嵌入的数据集内检取单个特定节点嵌入的信息。单个节点嵌入的数据可以包括节点嵌入跨越不同的时间快照(例如，t₁、t₂、…、t_k)的各种版本(例如，节点的中间向量表示)。在每个时间快照处，节点嵌入可以由一组特征维度值描述。图5中的实例示出三个特征维度：F₁、F₂和F₃。每个时间快照处每个特征维度的值由图中的方框表示。因此，第一节点由跨越一组时间戳的每个特征维度的第一组特征值描述。这些特征值可被称为第一特征值，因为卷积过程将跨越设置的时间戳针对每个特征维度提供一组新的第二特征值。

在步骤S514，可以分开和隔离多个特征维度中的每一个的特征值。例如，可以检取第一特征维度F₁的一组时间戳特定特征值(例如，在t₁、t₂、…、t_k时F₁的值)，可以检取第二特征维度F₂的一组时间戳特定特征值(例如，在t₁、t₂、…、t_k时F₂的值)，可以检取第三特征维度F₃的一组时间戳特定特征值(例如，在t₁、t₂、…、t_k时F₃的值).

在步骤S516，可以针对多个特征维度中的每个特征维度单独地执行时间卷积(此外，对每个节点单独地进行时间卷积)。可以使用分开的特征维度值和来自多个卷积内核的对应卷积内核来执行时间卷积。如图所示，可以存在多个卷积内核，并且每个特征维度可以与来自多个卷积内核的不同对应卷积内核相关联。特征维度F₁可以使用内核K₁卷积，特征维度F₂可以使用内核K₂卷积，并且特征维度F₃可以使用内核K₃卷积。

每个内核可以具有特定的预定义长度(或值数目)。在此实例中，每个内核具有三个值(例如，为三的窗口或长度)。例如，第一内核K₁具有值w₁、w₂和w₃，第二内核K₂具有值w₄、w₅和w₆，并且第三内核K₃具有值w₇、w₈和w₉。然而，实施例允许内核具有任何合适的长度或值数目(例如，2、3、4、5、6、7、8、9或10个值)。内核值可以是可在训练过程(例如，机器学习过程)期间训练的归一化可训练权重参数，如下文更详细地描述。

内核值可以反映先前快照处某些特征维度的值对当前快照处的所述特征维度的影响，且因此可以是用于关注来自某些先前快照的特征维度的某些值的工具。因此，内核的长度可以确定在变换当前快照的当前特征维度时应考虑多少个最近快照。

为了执行深度卷积，可以将内核应用于对应特征维度的特征值。内核可以多次应用，每次应用于特征值的不同子集，特征值的每个子集是连续的(例如，属于连续的时间戳)。例如，可以使用内核权重参数值和特征维度值(例如，特征维度的第一特征值)执行一系列点积计算。每个点积计算可以利用特征值的子集。使用第一特征维度F₁作为实例，可以使用内核K₁和特征维度F₁的三个连续特征值的第一子集(例如，前三个连续时间戳t₁、t₂和t₃的F₁值)来计算点积。这产生作为单个标量值的结果。所述结果可以用作特定时间戳的时间卷积特征值(也称为第二特征值或最终特征值)，在一些实施例中，所述时间戳可以是连续输入时间戳中的最后一个(或最右边的一个)(例如，t₃)。可以使用内核K₁和特征维度F₁的三个连续特征值的第二子集(例如，第二连续时间戳t₂、第三连续时间戳t₃和第四连续时间戳t₄的F₁值)来计算第二点积。这产生另一个标量值结果。在一些实施例中，此第二结果可用作下一个时间戳(例如，t₄)的时间卷积值(也称为第二特征值或最终特征值)。可以使用内核K₁和特征维度F₁的三个连续特征值的第三子集(例如，第三连续时间戳t₃、第四连续时间戳t₄和第五连续时间戳t₅的F₁值)来计算第三点积。这产生作为第三标量值的第三结果，在一些实施例中，所述第三结果可用作后续快照(例如，t₅)的时间卷积值(也称为第二特征值或最终特征值)。

点积计算可以以这种方式继续，直到在最后时间快照t_k处第一特征维度F₁的特征值的末尾。作为此过程的视觉表示，在图5中，内核K₁可以覆盖在特征维度F₁上。点积可以在内核K₁与特征维度F₁的被覆盖的特征值子集之间获取。然后，内核K₁可以将一个值滑动到特征维度F₁的右侧，并且可以利用所述特征值子集获取另一点积。内核K₁可以继续向右滑动直到特征维度F₁末尾。当级联时，所述结果提供跨越一组时间戳的特征维度F₁的一组新的特征值。新值可被称为特征维度F₁的第二特征值或最终特征值。总而言之，跨越时间戳的第二特征值包括特征维度F₁(例如，对于第一节点)的时间卷积版本。

在一些实施例中，特征维度F₁可以在开始时(例如，在时间t₁之前)用一个或多个空值填充。这样做可以确保特征维度F₁的时间卷积版本与原始特征维度F₁具有相同的长度或值数目。例如，如果点积结果用作该点积的最后输入快照的卷积值，则内核K₁在特征维度F₁上的第一覆盖产生第三时间快照t₃的卷积值。为了产生第一和第二时间快照的卷积值，内核向左滑动到没有特征维度值的区域中。因此，可以将空值(例如，零)填充到左侧，使得仍然可以利用内核获取点积。这可以产生第一和第二时间快照的卷积值，且由此维持与总卷积特征维度F₁相同的值数目。

如图5中所示，可以针对每个特征维度及其对应内核执行这种用于深度卷积的内核点积过程。

在步骤S518，可以重新组合卷积特征维度数据以重新创建节点嵌入的不同时间戳特定版本，但现在节点嵌入是时间卷积的。每个不同的特征维度值可以根据与其相关联的时间戳(也称为时间快照或时间步骤)进行组合。例如，可以将在第一时间戳t₁处特征维度F₁的新特征值(也称为第二特征值或最终特征值)、在第一时间戳t₁处特征维度F₂的新特征值以及在第一时间戳t₁处特征维度F₃的新特征值进行组合以针对第一时间戳t₁创建第一节点的时间卷积嵌入(也称为向量表示)。因此，创建表示节点的局部结构随时间推移(例如，在与内核长度相同的时间步骤数目上)的变化的输出向量。这可被称为节点在该时间戳(例如，第一时间戳t₁)处的最终向量表示。可以针对每个时间戳组合最终向量表示，从而创建第一节点的一组最终向量表示，每个向量表示对应于不同的时间戳。因此，针对第一节点产生最终向量表示。

可以针对每个节点嵌入执行这个过程。在数学上，可以通过以下公式描述在每个节点上利用每个内核的总深度卷积过程：

一旦完成，节点嵌入信息可以包括结构信息和时间信息两者。例如，学术合著网络可以包括定期改变协作行为的多位作者。节点嵌入可以包括每个时间步骤快照的结构信息。结构信息可以根据作者当时的行为(例如，作者合作过的行为)并入作者交互和作者特性。时间信息可以指示作者行为的演变模式。例如，如果时间卷积使用长度为3的内核，则可以基于作者嵌入的前两个时间步骤快照版本的卷积来变换所述作者在特定时间步骤处的嵌入，且由此跟踪行为的演变模式。

包括结构信息和时间信息两者的节点嵌入信息对于预测未来事件是有用的，所述预测例如两个作者是否将在未来时间协作(例如，边缘是否将连接其两个节点)。下文更详细地论述预测过程。

II.轻量级卷积

根据一些实施例，可以利用额外的和替代的卷积方法。例如，轻量级卷积是深度卷积的一种特定类型，其中一些内核权重可以在特定特征维度之间共享。在图5中，深度卷积过程针对每个特征维度使用不同的内核。相比之下，轻量级卷积可以跨越多个特征维度利用特定内核。将内核重新用于多个特征维度可以减少数据处理负载，因为减少了待通过机器学习过程确定的内核权重参数的数目。

在步骤S610，可以接收待卷积的数据集，所述步骤可以与图5中的步骤S510相同或类似。所述数据可以包括多个不同时间快照，其中每个快照包括由结构块确定的多个节点表示。

在步骤S612，可以从具有多个节点嵌入的数据集内检取单个特定节点嵌入的信息，所述步骤可以与图5中的步骤S512相同或类似。在此实例中，节点嵌入具有九个特征维度：F₁、F₂、F₃、F₄、F₅、F₆、F₇、F₈和F₉。

在步骤S614，可以分开每个特征维度的值，所述步骤可以与图5中的步骤S514类似。代替隔离每个特征维度，可以形成特征维度的子组。例如，第一子组可以包括特征维度F₁、F₂和F₃，第二子组可以包括特征维度F₄、F₅和F₆，并且第三子组可以包括特征维度F₇、F₈和F₉。

在步骤S616，可以基于分开的特征维度值和对应的内核针对每个特征维度单独地执行时间卷积，所述步骤可以与图5中的步骤S516类似。类似于图5中的步骤S516，可以个别地卷积每个特征维度。与图5中的步骤S516不同，特定内核可用于多于一个特征维度。例如，第一内核K₁可用于卷积第一子组(例如，特征维度F₁、F₂和F₃)中的每一个，第二内核K₂可用于卷积第一子组(例如，特征维度F₄、F₅和F₆)中的每一个，并且第三内核K₃可用于卷积第三特征子组(例如，特征维度F₇、F₈和F₉)中的每一个。

在此实例中，内核再次示出为具有为三的长度或值。然而，实施例允许内核具有任何合适的长度或值数目。内核值可以是可在训练过程(例如，机器学习过程)期间训练的归一化可训练权重参数。内核值可以通过关注来自相邻时间快照的同一节点的不同中间向量表示的特征维度来确定。因此，内核参数值可以指示特征维度的先前快照值的相关性。内核长度确定考虑的先前快照的数目。内核长度可以被认为是超参数，并且可以通过实验来选择。例如，较大的内核可以捕获更长期的时间关系，并且因此可以在图快照的数目较大时提供更准确的结果。然而，较大的内核也增加了模型的计算复杂性。下文论述关于最优内核大小的测试的实验，所述最优内核大小捕获足够的时间信息而没有逾期的计算复杂性。

在步骤S618，可以重新组合卷积特征维度数据以重新创建节点嵌入，所述节点嵌入现在是时间卷积的，所述步骤可以与图5中的步骤S518相同或类似。每个不同的特征维度值可以根据与其相关联的时间快照进行组合。例如，可以将在第一时间快照t_l处来自第一子组的特征维度F₁、F₂和F₃的值、在第一时间快照t_l处来自第二子组的特征维度F₄、F₅和F₆的值，以及在第一时间快照t_l处来自第三子组的特征维度F₇、F₈和F₉的值进行组合以针对第一时间快照t_l创建第一节点的时间卷积嵌入。

可以针对每个节点嵌入执行这个过程。在数学上，轻量级卷积过程可以被描述为深度卷积公式的修改：

其中softmax函数用于归一化权重参数，并且可以采用以下形式：

一旦完成，时间卷积节点嵌入信息就可用于预测未来事件，如下文更详细地论述。

III.额外模块

在一些实施例中，时间序列学习可以包括与卷积(例如，深度或轻量级)组合使用的额外处理函数。例如，可以使用门控线性单元、前馈层、残差连接、softmax归一化操作和/或任何其它合适的工具来改进时间卷积过程。

图7示出了示出根据一些实施例的具有额外模块过程的时间序列学习方法的流程图。如上文所论述，输入可以是由结构块计算的节点表示。通常，每个节点将个别地利用其自身的不同快照向量版本进行处理和卷积。在被卷积之前(如由l-1指示)，可以包括单个节点v在时间步骤t处的所有特征维度值(例如，如由结构块提供)。/>可以表示相同节点嵌入的值，但在比/>早一个时间步骤(t-1)处。类似地，/>可以比/>早两个时间步骤。

在一些实施例中，除了卷积之外，门控线性单元(GLU)[Dauphin等人，2017]还可用于增强模型的预测能力。GLU可以有利地过滤掉无信息的维度和时间步骤。例如，在一些实施例中，在步骤S710，可以首先将输入值馈送到GLU中，所述GLU可以采用以下形式：

在以上等式中，是可学习参数，σ_glu是S形函数，并且/>是Hadamard积。

在步骤S712，可以针对卷积过程使用来自步骤S710的GLU的输出。例如，可以跨越时间步骤单独地聚合特征维度值F₁、F₂和F₃，然后使用对应内核(例如，如上文关于图5和6所论述)单独地处理所述特征维度值。

如上文所论述，实施例可以利用深度卷积。在数学术语中，深度卷积可以涉及使用权重矩阵来变换输入数据(例如，来自步骤S710的输出)。输入数据可以表示为具有由快照数目和每个快照中节点的特征维度数目定义的维度的矩阵：

权重矩阵可以表示为具有由内核的长度和每个快照中节点的特征维度数目定义的维度的矩阵(例如，由于针对每个特征维度使用不同的内核)：

其中K是卷积内核长度(例如，不同内核参数值的数目)。对于时间步骤t和输出维度c，这可以产生与输入矩阵具有相同维度的深度卷积输出矩阵输出：

总体而言，对从GLU过程接收的数据执行的深度卷积可以表示为输入数据矩阵和权重矩阵的点积：

实施例可以通过在I^l的第一行之前填充K-1行的全零向量来包括填充的输入矩阵。与将卷积内核定位在目标索引的中间的传统深度卷积不同，实施例可以利用右对准的内核。这可以按防止吸收未来信息以用于当前预测的方式对时间次序进行编码。因此，右对准的内核可以将历史信息吸收到当前时间步骤中，并且可以避免使相对未来数据反射回到当前时间步骤中。填充的输入矩阵可以表示为：

如上文所论述，实施例可以利用轻量级卷积。轻量级卷积[Wu等人，2019]是深度卷积的一种特定类型，其在特定信道上共享权重。这可进一步降低模块的空间复杂性。轻量级卷积的输出可以表示为：

总体而言，对从GLU过程接收的数据执行的轻量级卷积可以表示为：

其中H^L表示卷积内核的数目，其将参数的数目减少因子相比之下，对于[Wu等人，2019]中提出的原始轻量级卷积，一些实施例可以排除softmax归一化，以便保持原始权重。另外，实施例可以排除添加位置编码，因为位置信息可以编码在卷积层中。[Islam等人，2020]。

在一些实施例中，除了卷积之外，残差连接还可用于增强模型的预测能力。例如，在一些实施例中，在步骤S714，可以将来自步骤S712的卷积的输出重新组合为单个向量，从而有效地将来自先前时间步骤的信息向前馈送到正进行卷积的当前时间步骤中。然后可以将卷积值输入到残差连接中，所述残差连接可以采取以下形式：

其中是节点在不同时间步骤v处的嵌入表示的最终输出矩阵，其中σ_fc是ReLU激活函数。权重矩阵可以表示为：

在一些实施例中，时间卷积嵌入表示可以被反馈到时间卷积模块的开始并再次进行处理。可以对相同嵌入数据执行任何合适次数(例如，1次、2次、3次等)的时间卷积过程。这可以有效地将更多的时间步骤并入卷积中。例如，如果第一卷积使用长度3的内核，则使用两个先前时间步骤来通过卷积修改当前时间步骤。如果每个时间步骤被第二次卷积，则正用于卷积当前时间步骤的两个先前时间步骤现在已经被更早的时间步骤(例如，早四个和五个时间步骤)修改，并且那些更早的时间步骤现在可以对当前时间步骤产生影响。

根据实施例的神经架构可以使用上述定义的图结构学习层和时间卷积层作为模块。图8示出了示出根据一些实施例的DyCLN架构的流程图。如图8中所示，实施例可以从上到下具有三个模块：(1)结构注意力块(例如，包括810-834)，(2)时间卷积块(例如，包括840、852、862和872)，以及(3)图上下文预测(例如，包括854、864和874)。分析计算机可以接受T图快照的集合作为输入，并且可以在每个时间步骤处生成输出隐性节点表示(例如，中间向量表示)。

图结构学习块模块可以包括多个堆叠结构自注意力层，以从不同距离处的节点提取特征。每个层可以在具有共享参数的不同快照处独立地应用，如图8中所示，以在每个时间步骤(例如，图快照)处捕获节点周围的局部相邻结构。然而，由于图可以随时间推移而变化，输入到层的值可以跨越不同图快照潜在地不同。由结构注意力块输出的向量表示可以表示为其可以作为输入馈送到时间注意力块。

例如，图8示出三个图快照，包括第一图快照810、第二图快照820和第三图快照830。第一图快照810可以是动态图在时间1的部分。在一些实施例中，时间1可以是时间范围(例如，8/11/2021到8/17/2021)。第二图快照820可以是动态图在时间2的部分。第三图快照830可以是动态图在时间T的部分。动态图可包括可以是例如通信图数据的图数据。例如，第一图快照810的每个节点可以表示用户的电子邮件地址。连接第一图快照810中的节点的边缘可以指示两个电子邮件地址的用户之间的通信。在第一图快照810中，节点V可以经由边缘连接到节点2和3。这可以对应于接收节点V的电子邮件地址进行接收和/或从与节点2和3相关联的电子邮件地址发电子邮件的情况。

随时间推移，如后续图快照中所指示，动态图的结构可以变化。例如，当先前不通信的两个电子邮件地址彼此通信时，可以创建新边缘，并且可以在创建新电子邮件地址时创建新节点。此外，当电子邮件地址被停用时以及当两个电子邮件地址停止通信时，可以去除节点和边缘。

每个图快照的每个节点可以与一个或多个特性相关联。例如，指示用户的电子邮箱地址的节点可以具有本地部分、域、字符长度、子地址等的特性。例如，节点2的特性可以由特性812示出，并且可以与节点V的特性不同。类似地，第三图快照830中的节点V可以具有相邻节点3和4，当确定时间T的中间向量表示时可以考虑所述相邻节点。

虚线箭头(例如，箭头813)可以指示对给定节点执行自注意力过程时可以考虑哪些节点(例如，相邻节点)。例如，第一图快照810中的节点V可以具有相邻节点2和3，当确定节点V的中间向量表示时可以考虑所述相邻节点。

分析计算机可以使用如本文中所描述的图结构学习模块从多个图快照中提取多个第一数据集。多个第一数据集可以包括多个图快照(例如，第一图快照810、第二图快照820和第三图快照830)中的每个快照的每个节点的中间向量表示814、824和834。多个第一数据集中的每个数据集可以包括多个向量。在一些实施例中，中间向量表示814可包括任何合适数目的向量。在一些实施例中，对应图快照的每个节点可以有一个向量。

例如，分析计算机可以确定第一图快照810的第一中间向量表示814(表示为)。第一中间向量表示814可以通过使用自注意神经网络嵌入第一图快照810的节点来确定。例如，分析计算机可以分析第一图快照810的节点V。分析计算机可以使用上述等式(1)来确定表示节点V以及相邻节点2和3的向量。在一些实施例中，向量可以具有比节点V更少的维度。例如，节点V和相邻节点可以被输入到嵌入自注意神经网络中，以确定表示节点V以及周围邻近节点2和3的结构的输出(例如，中间向量表示)。

分析计算机可以单独地确定对应于每个图快照的中间向量表示。分析计算机可以确定任何合适数目的图快照的中间向量表示。例如，分析计算机可以根据已经记录和/或测量且接着存储在图数据数据库中的每个图快照来确定中间向量表示。在一些实施例中，分析计算机可能预先确定了中间向量表示，在这种情况下，分析计算机可以从数据库检取中间向量表示。

在一些实施例中，在从第一图快照810中提取第一中间向量表示814之后，分析计算机可以将位置嵌入应用于中间向量表示，以便为中间向量表示配备有序感。例如，模块可以通过位置嵌入配备有序感(Gehring等人，2017)，其可以嵌入每个快照的绝对时间位置。然后，位置嵌入可以与结构注意力块的输出组合以获得节点v的跨越多个时间步骤的输入表示：/>输入表示被输入到时间轻量级卷积模块840。

接下来，将论述步骤840，其中将数据输入到时间轻量级卷积模块。根据一些实施例，时间轻量级卷积模块可以执行上文关于图7描述的一些或全部过程。例如，在一些实施例中，图7可以表示时间轻量级卷积模块。这个块还可以遵循具有多个堆叠时间卷积层的类似结构。时间轻量级卷积模块840。

例如，在步骤840，分析计算机可以跨越多个图快照使用时间卷积学习模块从多个第一数据集中提取至少多个第二数据集。多个第二数据集可以包括例如多个图快照的最终节点表示。多个第二数据集可以与多个第一数据集包括相同数目的图快照。最终节点表示可以包括节点的任何合适数目的向量表示。在一些实施例中，最终节点表示可以包括等于节点数目的多个向量。

例如，分析计算机可以将从先前执行的结构自注意力神经网络确定的第一数据集(例如，中间向量表示)输入到第二卷积神经网络中，以确定最终向量表示的第二数据集。第一数据集可以包括从每个先前和当前图快照确定的中间向量表示。例如，在时间T＝2，第一数据集可以包括来自第一图快照810和第二图快照820的中间向量表示。例如，由第一图快照810中的节点V产生的第一中间向量表示可以连同由第二图快照820中的节点V产生的第二中间向量表示一起输入到神经网络中。

对于节点V，输入可以是例如其中/>可以是节点V在图快照1处的中间向量表示(例如，810)，并且其中/>可以是节点V在图快照2处的中间向量表示(例如，820)。尽管论述了一个节点，但应理解，分析计算机可以确定每个图快照的每个节点的中间向量表示。节点V的这种输入表示可以构成节点V周围的局部结构的编码。/>的值可以是卷积过程的查询输入，并且可用于在节点V的历史表示上卷积，从而跟踪/>的值随时间推移的演变。

例如，在第一图快照810与第二图快照820之间，在通信网络中表示电子邮件地址的节点V可以开始与由节点4表示的新电子邮件地址通信。由于分析计算机确定表示节点V的局部结构的中间向量表示，因此可以分析局部结构随时间推移的变化。

时间轻量级卷积模块840可以经由训练过程(例如，神经网络学习)确定指示给定输入的一部分与输入的其余部分的相关程度的权重。例如，分析计算机可以确定指示第一节点的第一中间向量表示与第一节点的对应于后续时间快照的多个其它中间向量表示的相关程度的权重。然后，这些权重可以在卷积内核中，以卷积中间向量表示并产生最终向量表示。

例如，表示第一电子邮件地址的第一节点可以对应于三个确定的中间向量表示。每个中间向量表示指示第一节点周围的图数据的局部结构。例如，第一中间向量表示可以指示在第一周期间第一节点周围的结构(例如，基于在第一周期间发生的电子邮件交互)。第二中间向量表示可以指示在第二周期间第一节点周围的结构(例如，基于在第二周期间发生的电子邮件交互)。第三中间向量表示可以指示第三周期间第一节点周围的结构(例如，基于在第三周期间发生的电子邮件交互)。

分析计算机可以通过关注输入的其余部分(例如，第二和第三中间向量表示)来确定指示输入的一部分(例如，第一中间向量表示)的相似度的权重。例如，第一周可能具有与第二周类似的局部结构，因为用户可能从第一周开始继续电子邮件对话。第一周可能具有与第三周不同的局部结构，因为第一周的电子邮件对话可能已完成。新的电子邮件对话可能在第二周就已开始，且可能延续到第三周，因此第二周可能具有与第三周和第一周类似的局部结构，即使第一周和第三周的结构不同。因此，分析计算机可以确定第二周相对于第三周具有比第一周更高的权重值。

这样，分析计算机可以确定第一周和第二周的电子邮件行为与第三周的相关程度。例如，分析计算机可以确定，当考虑第三周时，第一周的行为具有0.1的权重值，并且第二周的行为具有0.3的权重值。还可以为第三周分配0.6的相对权重，其可以指示第三周的行为与前两周的独立程度。

这些基于周的权重作为概念性介绍给出。如上文所论述，实际上可以针对一周的每个特征维度确定不同的权重，而不是针对该周的节点确定单个权重。例如，可以针对第一特征维度(例如，电子邮件长度)来确定第一周、第二周和第三周的第一组三个权重，可以针对第二特征维度(例如，当天的电子邮件时间)来确定第一周、第二周和第三周的第二组三个权重，并且可以针对第三特征维度(例如，电子邮件主题)来确定第一周、第二周和第三周的第三组三个权重。各种特征维度特定权重可用作卷积过程中不同特征维度内核的内核值。任何合适的训练过程，例如经由神经网络的机器学习，可以用于确定这些内核权重参数。

作为额外实例，表示资源提供商的第一节点可以对应于五个确定的中间向量表示。每个中间向量表示指示第一节点周围的图数据的局部结构。例如，第一中间向量表示可以指示在夏季期间第一节点周围的结构(例如，图快照的时间在夏季)。第二、第三、第四和第五中间向量表示可以指示在秋季、冬季、春季和随后的夏季期间第一节点周围的结构。

分析计算机可以确定指示输入值(例如，第一中间向量表示)与输入的其余部分(例如，第二、第三、第四和第五中间向量表示)的相似度的权重。在此实例中，由于在夏季期间第一节点周围的类似局部结构，分析计算机可以确定第一中间向量表示与第五中间向量表示之间的较大权重。例如，由第一节点表示的资源提供商可以在夏季期间与类似数目和群组的用户组交易，而局部结构可以在秋季、冬季和春季期间减少(或以任何合适的方式变化)。

以此方式，分析计算机可以确定第一夏季、秋季、冬季和春季的交易行为与第二夏季的相关程度。例如，分析计算机可以确定，当考虑第二夏季时，第一夏季的行为具有0.2的权重值，秋季的行为具有0.15的权重值，冬季的行为具有0.1的权重值，并且春季的行为具有0.15的权重值。还可以为第二夏季分配0.4的相对权重，其可以指示第二夏季的行为与前四个季节的独立程度。

这些基于季节的权重作为概念性介绍给出。如上文所论述，实际上可以针对季节的每个特征维度确定不同的权重，而不是针对该周的节点确定单个权重。例如，可以针对第一特征维度(例如，交易金额)来确定第一夏季、秋季、冬季、春季和第二夏季的第一组五个权重，可以针对第二特征维度(例如，交易位置)来确定第一夏季、秋季、冬季、春季和第二夏季的第二组五个权重，并且可以针对第三特征维度(例如，购买的物品类型)来确定第一夏季、秋季、冬季、春季和第二夏季的第三组五个权重。各种特征维度特定权重可用作卷积过程中不同特征维度内核的内核值。任何合适的训练过程，例如经由神经网络的机器学习，可以用于确定这些内核权重参数。

分析计算机可以在步骤840确定每个节点在每个时间步骤处的最终节点表示。例如，分析计算机可以基于由卷积神经网络确定的权重来确定第一时间步骤的第一组最终节点表示852(例如，)、第二时间步骤的第二组最终节点表示862(例如，/>)和最近时间步骤的第三组最终节点表示872(例如，/>)。

可以通过例如使用具有内核权重参数的维度特征特定内核对中间向量表示执行卷积操作来确定最终节点表示。然后，可以汇编每个时间步骤的最终节点表示，以创建第二数据集。

例如，为了确定第一节点在时间步骤3处的第一特征维度值的最终值，可以将该特征维度的内核应用于来自时间步骤1、2和3的该特征维度的中间值(例如，如果内核具有3的长度)。这可以包括利用三个内核权重计算三个中间值的点积。例如，第一特征维度是以字符为单位的电子邮件长度。对于第一时间步骤、第二时间步骤和第三时间步骤，该特征维度的中间值分别为400个字符、200个字符和300个字符，并且内核权重为0.1、0.2和0.7。然后，点积产物将产生290个字符的最终值。此最终值将用作第三时间步骤的最终特征维度(例如，替换300个字符的中间值)。可以在每个时间步骤处针对每个节点的特征维度执行此卷积过程。因此，中间节点表示可以通过在逐特征加权的基础上与同一节点表示的一组先前版本组合而变换。

在概念上，执行此卷积以将中间节点表示变换为最终节点表示可视为类似于执行利用来自最近时间步骤的值(例如，当内核为长度3时利用来自两个先前时间步骤的值)来影响当前时间步骤的任务。中间节点表示可以仅基于在该时间帧(例如，该周、季节等)内发生的活动和交互。通过卷积以提供最终节点表示，考虑来自先前时间帧的过去活动和交互，并将其并入到当前时间帧中，即使过去活动和交互被赋予较少权重(例如，取决于内核权重值)。中间节点表示与先前中间节点表示有些类似，或在向量空间中朝向先前中间节点表示移动。这有效地使向量朝向先前版本移回，或者可被视为随着时间的推移减少或减慢向量朝向新位置的移动。朝向先前版本的中间节点表示变换和移动的量值(例如，过去的相关性)由内核权重值给出。因此，可以基于包括具有不同局部结构的多个快照的较长时间帧来创建最终节点表示，并且可以基于内核权重值使不同快照产生不同的影响量。

因此，最终节点表示可以是表示节点局部结构随时间推移的变化的向量，时间量基于每个时间步骤的长度和卷积内核的长度。例如，对应于节点V的最终节点表示可以包括指示在第二图快照820处与节点4的通信的添加和在第三图快照830处节点2的去除的向量。

在一些实施例中，分析计算机可以确定多个快照的多个最终节点表示。每个快照的每个最终节点表示可以对应于图数据的节点。然后，这些向量可用于任何合适的局部图上下文预测过程。例如，在一些实施例中，分析计算机可以使用最终节点表示训练神经网络、SVM等。分析计算机可以训练本领域技术人员已知的机器学习模型。

接下来，将论述图上下文预测。在一些实施例中，为了确保习得的表示捕获结构信息和时间信息两者，实施例可以定义跨越多个时间步骤保持节点周围的局部结构的目标函数。

实施例可以使用节点v在时间步骤t处的动态表示(例如，)来预测出现在时间t时在节点v周围的局部相邻者的节点的发生。例如，在一些实施例中，分析计算机可以在每个时间步骤处使用二元交叉熵损失函数来促进在固定长度随机游走中共发生的节点具有类似的向量表示。例如，由以下等式给出：

在以上等式中，σ可以是S形函数，可以是在时间t时的图快照处与节点v在固定长度随机游走时共发生的一组节点。/>可以是图快照/>的负采样分布，并且Q可以是负采样比。负采样比可以是可调整超参数，以平衡正样本和负样本。

在步骤854、864和874，分析计算机可以确定关于在未来时间(例如，在未来图快照中)的一个或多个节点的预测。这可以使用分类和/或回归模型来完成。例如，分析计算机可以基于在最终节点表示上训练的模型来确定两个节点是否将经由边缘彼此连接。步骤854、864和874可以一起表示将来自每个步骤的最终节点表示/>组合到第二数据集中，并使用第二数据集进行预测(例如，使用分类和/或回归模型)。

所述模型可以包括任何合适的机器学习模型。分析计算机可以基于图数据的上下文执行任何合适的预测。例如，分析计算机可以使用在最终节点表示上训练的训练过的神经网络来执行图上下文预测。作为说明性实例，第二数据集可以用作机器学习模型，例如回归模型或分类模型的输入，以作出预测，例如两个节点是否将被链接或节点将属于的类别。

例如，第二数据集可以对应于包括表示电子邮件地址的节点的图数据。图数据可以包括三个图快照，每个图快照包括一周内的电子邮件交互数据。第一节点(例如，对于第一电子邮件地址)的最终节点表示可以表示最近时间步骤中图结构的演变。例如，第一节点在第三时间步骤处的最终节点表示可以表示前两个时间步骤中的演变。这可表示用户通过第一电子邮件地址进行的开始、待决和完成电子邮件对话的演变，如上文所描述。

然后，分析计算机可以确定关于第一电子邮件地址的预测。例如，分析计算机可以确定第一电子邮件地址是否将在第四周(例如，第四图快照)中与第二电子邮件地址通信(例如，连接到第二电子邮件地址)。在此实例中，分析计算机可以预测第一电子邮件地址将在第四图快照中连接到第二电子邮件地址，这是因为在先前图快照中第一电子邮件地址与第二电子邮件地址之间的连接用于正在进行的电子邮件对话，并且对话将在第四图快照之前完成的概率较低。

在一些实施例中，可以使用两个节点的最终向量表示来计算两个节点(例如，电子邮件地址、作者等)是否将在未来时间图快照中交互(例如，由边缘连接)的预测。例如，分析计算机可以使用以下两个向量计算Hadamard积：第一节点的第一最终向量表示和第二节点的第二最终向量表示(例如，对应于最新快照的向量)。Hadamard积可以用作表示两个节点之间的潜在链接的向量。然后，分析计算机可以将潜在链接向量输入到逻辑回归分类器中以计算链接存在的概率。也可以基于训练数据来训练此逻辑回归分类器的参数。

然后，分析计算机可以执行额外处理，例如但不限于执行基于预测的动作。所述动作可以包括将预测消息发送到另一装置、确定与预测相关联的概率值(由机器学习模型确定)是否超过预定概率阈值，和/或对预测的任何其它合适的处理。在一个实例中，分析计算机可以发送咨询通知，表明交易有可能发生，或正在尝试的当前交易不太可能发生且因此可能是欺诈性的。

图9示出了示出根据一些实施例的动态图表示学习过程的流程图。将在分析计算机分析通信图数据的上下文中描述图9中所示的方法。然而，应理解，本发明可以应用于其它情况(例如，分析其它类型的图数据等)。在一些实施例中，多个图快照中的每个图快照可以包括多个节点。多个图快照中的每个图快照可以包括与时间戳相关联的图数据。

在步骤902，分析计算机可以使用图结构学习模块从多个图快照中提取多个第一数据集。多个第一数据集可以包括多个图快照中的每个快照的每个节点的中间向量表示。在一些实施例中，提取多个第一数据集还可以包括针对多个图快照中的每个图快照，基于习得的系数和对应于相邻节点的中间向量表示来确定每个节点的中间向量表示。

在步骤904，分析计算机可以跨越多个图快照使用时间卷积模块从多个第一数据集中提取多个第二数据集。多个第二数据集可以包括多个图快照中的每个快照的每个节点的最终向量表示。在一些实施例中，提取多个第二数据集还可以包括基于在不同快照处对应于同一节点的中间向量表示的卷积来确定每个节点的最终向量表示。不同的快照可以是紧邻在当前快照之前的快照序列。在一些实施例中，在每个快照处每个节点的中间向量表示和最终向量表示可以是表示多个节点的特性的向量空间中的每个节点的嵌入。

在步骤906，分析计算机可以利用至少多个第二数据集来执行图上下文预测。例如，分析计算机可以使用至少多个第二数据集来训练机器学习模型。然后，分析计算机可以使用机器学习模型确定预测，例如，两个节点是否将在未来图快照中由边缘连接。

在步骤906，分析计算机可以执行额外处理，例如但不限于执行基于预测的动作。所述动作可以包括将预测消息发送到另一装置、确定与预测相关联的概率值(由机器学习模型确定)是否超过预定概率阈值，和/或对预测的任何其它合适的处理。在一个实例中，分析计算机可以发送咨询通知，表明交易有可能发生，或正在尝试的当前交易不太可能发生且因此可能是欺诈性的。

本发明的实施例可以有利地生成节点嵌入表示，所述节点嵌入表示包括局部结构信息和时间演变信息两者。此外，实施例可以通过高效且可扩展的过程来实现这些结果。例如，时间卷积可以相对于输入图快照的数目具有线性复杂性(例如，与t成比例)。这相比于其它时间分析方法，例如时间自注意力(例如，其中每个时间步骤关注每一其它时间步骤且使用整个图动态历史)提供显著改进，所述时间分析方法相对于输入图快照的数目具有二次复杂性(例如，与t²成比例)。具有线性复杂性的方法可以比具有二次复杂性的方法更高效地处理较长的图快照序列(例如，更少的处理功率、存储器和处理时间)。

本发明的实施例可以通过并入特定卷积技术来进一步提高效率。例如，深度卷积可以将特征维度复杂性从F²(如通过图注意力网络(GAT)建模而产生)降低到F。另外，轻量级卷积可以通过在多个特征维度之间共享内核参数来进一步降低空间复杂性。

下表(表1)将根据本发明的实施例的动态图光卷积网络(DGLC)的空间和时间复杂性与DySAT和DybAERNN的空间和时间复杂性进行比较，所述DySAT和DybAERNN是基于RNN和基于注意力而非基于卷积的用于动态图建模的替代模型。表1：

模型类型	每层空间复杂性	每层时间复杂性	顺序操作
				DGLC	O(F²+NTF+ET+HK)	O(NTF²+ETF+NTFK)	O(1)
DySAT	O(F²+NTF+ET+NT²)	O(NTF²+ETF+NT²F)	O(1)
				DynAERNN	O(NTF+ET+TF²)	O(ETF+TF²)	O(T)

空间复杂性分析：根据一些实施例，DGLC的总体空间复杂性为O(F²+NTF+ET+HK)，其中N是单个图快照中的节点数目，E是对应的边缘数目，F是特征维度，T是时间步骤的数目，H是卷积内核的数目。表1中描述了选定模型之间的空间复杂性比较以及选定模型，并且在下文对它们进行更详细的描述。应注意，在具有长动态演变历史的图中(在许多实际设置中通常是这种情况)，DynAERNN由O(NTF+TF²)主导，并且DySAT由O(NT²)主导。在实践中，当在N和T较大时，存储器空间是DynAERNN和DySAT两者的限制因子，这将在下文更详细地论述。

时间复杂性分析：类似地，DGLC实施例实现了O(NTF²+ETF+NTFK)的总体时间复杂性，其中当内核大小K较小时，主导项为O(NTF²)。DySAT的时间复杂性可以表示为O(NTF²+ETF+NT²F)，其包括使得在建模具有大T的动态图时效率低下的T²项。作为基于RNN的模型，DynAERNN具有顺序操作依赖性，这使得并行处理不可行，并且使得其实际训练时间明显慢于基于注意力的方法和基于卷积的方法两者。在下文更详细地论述相对复杂性。

IV.实验

在本节中，与五个最先进基线相比，针对六个现实世界数据集上的链接预测任务来评估DGLC的有效性。以下实验旨在回答以下研究问题：

(RQ₁)与其它最先进的方法相比，DGLC如何执行链接预测任务？

(RQ2)当与代表性的基于RNN和基于注意力的动态图表示学习方法进行比较时，训练更高效吗？

(RQ₃)DGLC的每个组件在建模动态图演变时的有效性和鲁棒性如何？

A.数据集

使用四个不同的现实世界动态图数据集来进行实验，所述实验包括三个通信网络和一个评级网络。表3总结了这些数据集的详细统计数据。具体地说，Enron和Radoslaw包含员工之间的电子邮件交互，其中节点表示员工，并且链接表示交换的电子邮件；UCI包括在线社区用户之间的消息交互；并且ML-10M为二分网络，描述不同用户随时间推移标记的电影。关于数据集的更多细节可见于下文。

B.实验设置

选择五个最先进的图学习算法来进行评估，其中两个是静态图学习方法。这些算法代表了图表示学习中常用的一组多样化的技术。特别选择node2vec[Grover和Leskovec，2016]、GraphSAGE[Hamilton等人，2017]、DynGEM[Goyal等人，2018]、DynAERNN[Goya等人，2020]、DySAT[Sankar等人，2020]。关于基线方法的更多细节可见于下文。

使用PyTorch[Paszke等人，2019]来实施DGLC。对于两个Enron数据集，实验过程采用由16个注意力头组成的一个结构注意力层，其中每个头独立地计算8个特征，总共128个特征。所有其它数据集利用具有16个和8个注意力头的两个结构注意力层进行评估，所述注意力头每个头计算16个特征，总共256个和128个特征。实验过程还进行网格搜索以确定时间序列学习模块的每个层处的最优卷积内核大小和内核数目。将Adam[Kingma和Ba，2015]用作将权重衰减作为正则化的优化器，以在所有实验中训练DGLC达具有256批次大小的200个轮次。对于每个模型，实验过程使用三个不同的随机种子来执行训练和评估，并且报告平均结果以及对应的标准偏差。关于DGLC以及其它基线的超参数设置的更多细节在下文进一步给出。

C.链接预测实验(RQ 1)

在本节中，实验过程描述了对未来链接预测任务进行的实验，并且报告结果以及观察到的见解。

任务描述。实验过程选择未来链接预测作为用以评估与其它基线相比DGLC有效性的任务，因为它被广泛应用于动态图表示学习评估中[Sanker等人，2020]。特别地，实验过程使用图快照序列来训练DGLC和其它基线。任务是通过使用针对/>从最新快照最新习得的节点表示/>来预测链接存在/>对于每个数据集，实验过程通过使用多达t的图快照训练个别模型而在每一时间步骤t+1处评估模型，对于每个图快照，t＝K,…,T-1，而K表示用于评估的初始时间步骤(图快照)数目，出于多样性目的，所述数目在不同数据集之间有所不同。实验过程呈现了表3中不同数据集中使用的K。

实验设置。每个数据集被分割成离散图快照序列，其中每个快照对应于包含足够数目的链接的固定时间间隔。在每组实验中，使用前t个快照进行模型训练。在获得习得的节点表示之后，对于任何两个节点u和v，实验过程将/>的概率定义为：

其中f是将两个节点嵌入作为输入的评分函数。在实验中，将逻辑回归用作分类器。具体地说，基于从等采样的链接和未链接节点对来训练分类器。对于链接集E^t+1，实验过程随机选择20％用于训练，20％用于验证，并且60％用于测试。

评估度量。鉴于链接预测可被视为二元分类问题，实验过程选择接收器运行特性曲线下面积(Area Under the Receiver Operating Characteristic Curve，AUC)度量，以衡量遵循动态图表示学习中的现有工作的相同实践的不同模型的性能[Sankar等人，2020；Kumar等人，2020]。实验过程使用宏观AUC得分和微观AUC得分两者进行评估。当实验过程在每个第(t+1)图快照上评估模型时，对于每个模型，实验过程通过对跨越在其上评估模型的所有图快照而获得的AUC得分进行平均来计算模型的最终度量得分。特别地，宏观AUC通过平等地对待来自所有时间步骤的性能来计算，而微观AUC基于评估链接的数目来考虑各个时间步骤的个体贡献。

结果和讨论。实验过程示出表2中的宏观AUC结果和表4中的微观AUC结果。观察包括：

·DGLC在大多数数据集上实现卓越的性能。具体地说，与其它基线相比，DGLC平均具有2.66％的宏观AUC改进。这指示与其它方法相比，DGLC可以更好地捕获结构图动态和时间图动态两者。另外，DGLC还倾向于保持较小差异，这表明DGLC对于随机权重初始化更为鲁棒。这可归因于由轻量级卷积提供的正则化能力和从GLU获得的细粒度控制。

·一些动态基线，例如DynGEM和DynAERNN，在某些数据集上具有较差的性能。如下文更详细地描述的超参数搜索和分析的结果进一步指示这些方法的性能可能对超参数值敏感，特别是对β敏感。较小的β可能会减慢嵌入优化过程并降低模型性能。

·静态方法可取决于在不同数据集上使用聚合图或非聚合图而具有不同的性能。例如，在聚合图上训练的模型在Enron-II上表现更好，而在非聚合图上训练的模型在Radoslaw上表现更好。这还表明，使用时间信息来指导动态图表示学习是当务之急。

下文，在表2中：链接预测宏观AUC结果。呈现了静态方法评估的两个版本：具有或不具有信息聚合。GraphSAGE结果示出了最佳性能聚合器：*为GCN，*为平均值，为平均池化，并且/>为最大池化。

D.效率比较(RQ 2)

在本节中，实验过程凭经验表明了根据实施例的DGLC的效率优势。具体地说，实验过程将DGLC模型与DySAT和DynAERNN在不同时间步骤处关于每个轮次的平均训练时间进行比较。实验过程选择DySAT，因为它不仅与其它动态基线相比表现更好，而且与基于RNN的模型相比，它的时间自注意力优势具有更好的扩展性。为了充分评估这两个模型在长时程动态图上的可扩展性，实验过程使用雅虎(Yahoo)员工消息数据集YHM，并且以一千次步骤对动态图序列进行采样。实验设置的细节可进一步见于下文。

效率比较在图11中示出。结果是预期的，因为训练时间与时间步骤的数目成线性比例关系，而DySAT由于自注意力机制而描述随着时间步骤增加的二次复杂性模式。更重要的是，随着时间步骤增加，DySAT快速填充大多数GPU存储器，因此由于第4.4节中论述的O(NT²)存储器要求，几乎无法扩展到较长序列或多层设置。相比之下，DGLC即使在最大时间步骤上占用的存储器也要少得多，并且线性地缩放到时间步骤的数目T。该实证结果验证了理论复杂性分析，从而证明了DGLC具有更好效率，即，DGLC在建模具有长时间序列的动态曲线图数据集方面是强大的。

图10和图11在DGLC与其它动态基线方法DGLC、DySAT和DynAERNN之间比较每个轮次的平均训练时间。对于额外效率研究，如图5中所示，DynAERNN随着时间推移而扩展性变差，以致其立即展现指数增长模式，即使对于具有有限数目的时间步骤的数据集也是如此。结果证实了DGLC的卷积时间建模相对于基于RNN的方法的效率优势。

E.消融研究(RQ 3)

实验过程进行消融研究以研究DGLC的不同组件可如何影响其时间动态建模能力。具体地说，实验过程在时间序列学习模块中选择四个组件：1)GLU；2)前馈层；3)残差连接；和4)轻量级卷积中的加权softmax归一化，并且观察不同组件的启用和禁用可如何影响模型性能。实验过程选择两个数据集(Enron-I和Radoslaw)以覆盖具有不同时间步骤长度的动态图。详细实验设置和结果可进一步见于下文。观察总结如下：

·GLU和残差连接在时间动态建模中至关重要。实验过程观察到，与两个数据集上的其它变体相比，具有GLU和残差连接组件两者的模型具有一致的更好性能。这可以表明，逐维门控和集成原始时间序列信号可以帮助更好地捕获动态图中的时间演变模式。

·DGLC在启用或禁用轻量级卷积中的加权softmax归一化方面是鲁棒的。原始轻量级卷积[Wu等人，2019]在深度卷积后添加加权softmax归一化；结果显示，具有或不具有该归一化运算符的模型在两个数据集上具有相当的性能，并且为进一步简化轻量级卷积提供了线索。

·与仅GLU模型或仅FC模型等几种变体相比，仅应用轻量级卷积而不使用其它组件表现出具有竞争力的性能。这不仅指示了轻量级卷积的鲁棒性，还表明了将不同组件组合在一起可比使用任何单一技术更强大。

F.结论

本发明的实施例提供DGLC，一种新颖的GNN框架，其有效且高效地学习离散动态图上的节点表示。具体地说，实施例提供一种图结构学习模块，包括用以学习每个图快照的结构信息的图注意力块的多个堆叠层，以及组合GLU、轻量级卷积和残差连接以捕获时间信息的演变模式的时间序列学习模块。实验结果表明，有关具有最佳训练效率的真实世界数据集，DGLC相对于最先进基线具有显著的性能增益。

V.算法

本发明的实施例可以用以下算法实施。算法输入可以是：所有图快照 L_s为图结构学习层数目，L_t为图时间学习层数目。算法输出可以是：在捕获动态图的演变模式的每个时间步骤t处针对所有v∈V习得的节点嵌入/>算法可以采用以下形式：/>

VI.超参数设置

在本节中，论述了DGLC以及其它基线的超参数设置细节。如上文所示，在DGLC中采用的损失函数尝试促进附近节点在不同时间具有类似的表示[Hamilton等人，2017]。附近节点从随机游走中检取，针对每个节点对上下文窗口大小为10且长度为40的10次游走进行采样。对于每个时间步骤，基于平滑参数为0.75的节点度，将10个负样本与负采样分布一起使用。对于除Enron之外的数据集，采用两个结构层，其中16个和8个注意力头每个头计算16个特征，总共256个和128个特征，而对于Enron，使用一个结构层，其中16个注意力头每个头计算8个特征，总共128个特征。使用权重衰减参数为5×10^-4的Adam优化器进行训练，而结构学习模块的丢失率为0.1。所述模型训练达批次大小为256的200个轮次。对于时间序列学习模块，采用两个轻量级卷积层。使用验证集性能，用网格搜索自{10^-4,10^-3,5×10^-3,10^-2}调整学习速率，自{1,0.1,0.01}调整负采样率，自{3,5,7}调整层内核大小，并且自{4,8,16,32}调整卷积内核数目。

所有基线的超参数都是按照它们的建议来调整。对于node2vec，按照本文的建议，采用上下文窗口大小为10且长度为80的10次游走，自{0.25,0.50,1,2,4}调整输入-输出和返回超参数p、q并且自{1,10}调整训练轮次。对于GraphSAGE，遵循原始论文设置，采用样本大小分别为25和10的两层模型，并基于验证结果从{10,50,100}中选择表现最好的聚合器和训练轮次。

DynAERNN遵循本文的建议指南进行调整。自{0.1,1,2,5,8}调整缩放和归一化超参数β，自{10^-4,10^-6}调整ν₁并且自{10^-3,10^-6}调整ν₂。类似地调整DynGEM，自{10^-5,10^-6}调整缩放和归一化超参数α，自{0.01,0.05,0.1,1,2,5,8}调整β，自{10^-4,10^-6}调整ν₁并且自{10^-3,10^-6}调整ν₂。对于DySAT，保留了与DGLC相同的结构学习模块、优化器和损失函数设置，因为它们提供了最佳性能。按照建议使用时间丢失为0.5的16个时间注意力头，并且自{1，0.1，0.01}调整负采样率，且自{1,2}调整时间层数目。对于所有方法，旨在学习的节点嵌入为128。

VII.数据集

本节提供额外数据集细节。为了获得作为图快照序列的动态图，基于原始数据中提供的连续时间戳在固定时间间隔期间将所有数据集分割成包含信息的快照，同时确保每个快照包含节点之间的足够交互/链接¹。链接的权重由特定快照中对应节点之间的交互次数决定。

下表3：数据集统计数据：节点数目(|V|)；边缘数目(|E|)；时间步骤数目(T)；评估的初始时间步骤(K)。

在具有固定时间间隔的时间点获得图快照，使得每个快照包括足够数量的链接。对于Enron和UCI，应用两个时间分割策略，从而获得不同粒度的图快照序列，以在多样化场景中更好地将DGLC与其它基线进行比较。在实验中，节点ID的独热编码(one-hotencoding)用作这些数据集的节点特征。然而，DGLC也被设计成支持包括节点属性的数据集。用于处理数据集的脚本以及所有处理的数据将公开。

Enron。原始Enron数据集可在https://www.cs.cmu.edu/～./enron/获得，而Enron员工之间的交互主要集中在她身上。从Enron获得两个版本的动态图。包含16个图快照的Enron-1使用2个月作为时间间隔获得，并且具有92个快照的Enron-2使用10天作为时间间隔获得。

UCI。原始UCI数据集见可在http://networkrepository.com/opsahl_ucsocial.php获得。此数据集跟踪加利福尼亚州大学尔湾分校在线社区的用户之间的消息交互。与Enron类似，从UCI获得两个版本的动态图。包含13个图快照的UCI-1使用10天作为时间间隔获得，并且具有129个快照的UCI-2使用1天作为时间间隔获得。

Radioslaw。原始Radoslaw数据集可在http://networkrepository.com/ia-radoslaw-email.php获得。此数据集包含制造公司员工之间的内部电子邮件通信。100个图快照通过使用2.6天的时间间隔创建。

ML-10M。原始ML-10M数据集可在http://networkrepository.com/ia-movielens-user2tags-10m.php获得。此数据集跟踪MovieLen用户的标记行为，该链接表示由用户应用于电影的标记，并且节点对应于用户和电影。13个图快照通过使用3个月的时间间隔创建。

YHM。原始YHM数据集可在http://networkrepository.com/ia-yahoo-messages.php获得。此数据集跟踪雅虎员工之间发送的消息。由于原始数据集太大，导致大多数方法的资源耗竭问题，因此采用节点采样技术来提取具有最高度的852个节点，然后利用3,024细粒度时间步骤的时间间隔来创建1,000个图快照。

VIII.链接预测实验

A.实验设置

对于静态图表示学习方法，为了确保公平比较，使用两种策略来转换动态图以使训练和推理成为可行的。一种策略是仅使用最新图快照来训练模型，以便它们可以学习最新的图信息。另一种策略构造用于训练的聚合超级图，同时将链接权重设置为与链接发生时间无关的累积权重。这使得模型能够访问图快照的整个历史记录，并获得所有图序列信息的概要。

·node2vec[Grover和Leskovec，2016]：一种静态图嵌入算法，其通过相邻上下文预测和偏置随机游走采样学习节点表示。

·GraphSAGE[Hamilton等人，2017]：一种空间静态图表示学习算法，其通过节点采样和相邻聚合学习节点嵌入。

·DynGEM[Goyal等人，2018]：一种动态图学习算法，其通过深度自动编码器逐渐学习节点嵌入。

·DynAERNN[Goyal等人，2020]：一种动态图学习算法，其利用密集自动编码器和递归单元两者来捕获时间图动态。

·DySAT[Sankar等人，2020]：一种动态图学习算法，其通过将图快照上的结构自注意力机制和时间自注意力机制解耦来学习节点表示。

B.实验结果

下文所示的表4呈现了上文实验章节中描述的链接预测实验的微AUC结果。

IX.复杂性分析

A.空间复杂性

在DGLC中，图结构学习模块的图注意力层的空间复杂性为O(F²+NTF+ET)，其中N是单个图快照的节点数目，E是对应的边缘数目，并且F是特征维度。对于时间序列学习模块的轻量级卷积层，空间复杂性为O(NTF+HK+F²)。因此，DGLC的总体空间复杂性为O(F²+NTF+ET+HK)。另一方面，DySAT采用与具有O(F²+NTF+ET)的DGLC相同的结构空间复杂性。利用来自时间自注意力层的O(F ²+NTF+NT²)，DySAT产生O(F²+NTF+ET+NT²)的总空间复杂性。对于DynAERNN，由于其利用完全连接的编码器来捕获节点相邻者在时间上的低维度表示，因此总空间复杂性为O(TF²+NTF+F²)。

B.时间复杂性

图结构学习模块的单个图注意力层的时间复杂性为O(NF²+EF)。应注意，结构学习在时间上独立，因此可以并行化。时间序列学习模块的单层的时间复杂性为O(TKF)，其中T是时间步骤的数目，并且K是内核大小。当添加GLU和完全连接的层时，时间复杂性变为O(TFK+TF²)。由于时间计算在节点之间是独立的，因此它也可以并行化以进一步改进时间复杂性。当两个模块都仅具有一个单层时，无并行化的图序列中的所有节点的DGLC的时间复杂性为O(NTF²+ETF+NTFK)，其中当K较小时，主导项为NTF²。

如上文所描述，选择两个最先进的模型：在本实验中作为基线的DynAERNN和DySAT可以视为代表两个主要类别的动态图表示学习方法：即，基于RNN的模型和基于注意力的模型。对于DySAT，时间自注意力的每层时间复杂性为O(T²F)，因为DySAT需要每个时间步骤关注序列的每个其它时间步骤。当采用与结构学习模块相同的图注意力层时，图序列中的所有节点的具有一个结构注意力层和一个时间注意力层而没有并行化的DySAT的总时间复杂性为O(NTF²+ETF+NT²F)。应注意，DySAT在其总时间复杂性中包括T²项，所述项使得在建模具有大T的动态图时效率低下。

DynAERNN的每个时间层包括作为输入编码器的完全连接层和作为递归单元的LSTM单元，所述LSTM单元在处理T图快照时具有时间复杂性O(ETF+TF²)。然而，由于递归层具有顺序依赖性，无法并行处理，因此其实际训练时间明显慢于基于注意力的方法。应用基于卷积的解决方案，DGLC对历史处理和在T中线性的时间复杂性没有顺序依赖性，这使得它对于建模具有长时间序列的动态图是强大的。详细比较可见于表1。

X.效率比较

A.实验设置

在本节中，提供了用于效率研究的实验细节。为了确保公平，在保持所有常见设置(即，批次大小)的同时，实验过程对于DGLC和DySAT采用相同的结构学习模块设置，并且使用相同的时间层数目。两个模型都经由PyTorch实施，并且实验过程计算在YHM数据集上从100到800的每100个时间步骤的在10个轮次之中平均的每个轮次使用的训练时间，从而在64个CPU核心的Nvidia Tesla V100上运行。

实验过程还包括通过将DGLC与DynAERNN比较进行的额外效率研究，以凭经验证明DGLC相对于基于RNN的动态图学习方法的效率优势。类似于先前的研究，实验过程在不同时间步骤处将DGLC与DynAERNN关于每个轮次的平均训练时间进行比较，其中两者都利用完整的动态图快照序列。实验过程使用基于TensorFlow的原始DynAERNN实施方案，并且通过在具有48个CPU核心的Nvidia Tesla P100上运行两个模型，针对UCI-I数据集上从2到13的每个时间步骤计算平均轮次训练时间。

B.实验结果

图4和图5在DGLC与其它动态基线方法DySAT和DynAERNN之间比较每个轮次的平均训练时间。对于两个图，x轴表示时间步骤，而y轴表示当在对应时间步骤训练对应图快照时每个轮次花费的平均时间。实验过程还使用蓝色来指示DGLC，并使用橙色来指示基线模型。对于额外效率研究，如图5中所示，DynAERNN随着时间推移而扩展性变差，以致其立即展现指数增长模式，即使对于具有有限数目的时间步骤的数据集也是如此。结果证实了DGLC的卷积时间建模相对于基于RNN的方法的效率优势。

下表4：链接预测实验微AUC结果。呈现了静态方法评估的两个版本：具有或不具有信息聚合。GraphSAGE结果示出了最佳性能聚合器：*为GCN，★为平均值，为平均池化，并且为最大池化。每个数据集的最佳结果用粗体突出显示。/>

XI.消融研究

如第5.5节中所描述，被选择以在消融研究中进行分析的四个组件为：1)轻量级卷积操作器中的加权softmax归一化；2)GLU；3)具有ReLU激活的前馈层；以及4)残差连接。实验过程对用以构造2⁴＝16个模型变体的所有可能组合进行详尽的搜索，并且比较其在表5(宏观AUC)和表6(微观AUC)中的性能，其中√符号指示对应组件的存在，并且×符号指示对应组件不存在。实验过程选择两个数据集(Enron-I和Radoslaw)，因为它们可以被认为是具有不同时间步骤长度的动态图代表。类似于链接预测实验(第5.3节)，实验过程使用三个不同的随机种子来训练DGLC达具有512批次大小的200个轮次。所述实验使用具有48个CPU核心的Nvidia Tesla P100进行。

在下表5中：关于DGLC时间模块组件组合的消融研究，在Enron-I和Radoslaw数据集上利用具有标准偏差的宏观AUC进行评估。应注意，标准偏差针对每种设置在时间步骤之间进行平均。

在下表6中：关于DGLC时间模块组件组合的消融研究，在Enron-I和Radoslaw数据集上利用具有标准偏差的微观AUC进行评估。应注意，标准偏差针对每种设置在时间步骤之间进行平均。

/>

本申请中描述的任何软件组件或函数可实施为使用例如Java、C、C++、C#、Objective-C、Swift的任何合适的计算机语言或例如Perl或Python的脚本语言使用例如常规的或面向对象的技术由处理器执行的软件代码。该软件代码可以作为一系列指令或命令存储在计算机可读介质上以供存储和/或发送，合适的介质包括随机存取存储器(RAM)、只读存储器(ROM)、磁性介质(例如硬盘驱动器或软盘)，或者光学介质(例如光盘(CD)或数字通用光盘(DVD))、闪存存储器，等等。计算机可读介质可以是此类存储装置或传输装置的任何组合。

此类程序还可以使用适合于经由包括互联网在内的符合多种协议的有线网络、光学网络和/或无线网络进行发送的载波信号来编码和发送。因此，根据本发明的一个实施例的计算机可读介质可以使用以此类程序编码的数据信号来创建。以程序代码编码的计算机可读介质可以与兼容装置一起封装或者与其它装置分开提供(例如，经由互联网下载)。任何此类计算机可读介质可以驻存在单个计算机产品(例如，硬盘驱动器，CD或整个计算机系统)之上或其内部，并且可以存在于系统或网络内的不同计算机产品上或其内部。计算机系统可以包括监视器、打印机，或者用于向用户提供本文所提及的任何结果的其它合适的显示器。

以上描述是说明性的且不是限制性的。在阅读了本公开之后，本发明的许多变型形式对于本领域的技术人员将变得显而易见。因此，本发明的范围不应当参考上面的描述来确定，而是应当参考未决的权利要求连同其完整范围或等同物来确定。

在不偏离本发明范围的情况下，来自任何实施例的一个或多个特征可以与任何其他实施例的一个或多个特征组合。

如本文中所使用，除非明确指示有相反的意思，否则使用“一个”、“一种”或“所述”旨在意指“至少一个”。

XII.参考文献

[Bruna等人，2014]Joan Bruna、Wojciech Zaremba、Arthur Szlam和Yann LeCun。图上的光谱网络和局部连接网络(Spectral networks and locally connected networkson graphs)。在ICLR中，2014年。

[Chen等人，2018]Jinyin Chen、Xuanheng Xu、Yangyang Wu和Haibin Zheng。GC-LSTM：用于动态链接预测的图卷积嵌入式LSTM(GC-LSTM:graph convolution embeddedLSTM for dynamic link prediction)。CoRR，abs/1812.04206，2018年。

[Dauphin等人，2017]Yann N.Dauphin、Angela Fan、Michael Auli和DavidGrangier。利用门控卷积网络的语言建模(Language modeling with gatedconvolutional networks)。在ICLR中，第70卷，第933页–第941页，2017年。

[Deferrard等人，2016]Michae¨l Defferrard、Xavier Bresson和PierreVandergheynst。具有快速局部光谱过滤的图上的卷积神经网络(Convolutional neuralnetworks on graphs with fast localized spectral filtering)。在NeurIPS中，第3837页–第3845页，2016年。

[Goyal等人，2018]Palash Goyal、Nitin Kamra、Xinran He和Yan Liu。Dyngem：用于动态图的深度嵌入方法(Dyngem:Deep embedding method for dynamic graphs)。CoRR，abs/1805.11273，2018年。

[Goyal等人，2020]Palash Goyal、Sujit Rokka Chetri和Arquimedes Canedo。dyngraph2vec：使用动态图表示学习捕获网络动态(dyngraph2vec:Capturing networkdynamics using dynamic graph representation learning)。知识库系统，187，2020年。

[Grover和Leskovec，2016]Aditya Grover和Jure Leskovec。node2vec：网络的可扩展特征学习(node2vec:Scalable feature learning for networks)。在KDD中，第855页–第864页，2016年。

[Hamilton等人，2017]William L.Hamilton、Zhitao Ying和Jure Leskovec。大型图上的归纳表示学习(Inductive representation learning on large graphs)。在NeurIPS中，第1024页–第1034页，2017年。

[He等人，2016]Kiming He、Xiangyu Zhang、Shaoqing Ren和Jian Sun。用于图像识别的深度残差学习(Deep residual learning for image recognition)。在CVPR中，第770页-第778页，2016年。

[Islam等人，2020]Md.Amirul Islam、Sen Jia和Neil

D.B.Bruce。卷积神经网络编码多少位置信息？(How much position informationdo convolutional neural networks encode？)。在ICLR中，2020年。

[Kingma和Ba，2015]Diederik P.Kingma和Jimmy Ba。Adam：一种随机优化的方法(Adam:Amethod for stochastic optimization)。在ICLR中，2015年。

[Kipf和Welling，2017]Thomas N.Kipf和Max Welling。利用图卷积网络的半监督分类(Semi-supervised classification with graph convolutional networks)。在ICLR中，2017年。

[Kumar等人，2019]Srijan Kumar、Xikun Zhang和Jure Leskovec。预测时间交互网络中的动态嵌入轨迹(Predicting dynamic embedding trajectory in temporalinteraction networks)。在KDD中，第1269页–第1278页，2019年。

[Levie等人，2019]Ron Levie、Federico Monti、Xavier Bresson和MichaelM.Bronstein。Cayleynets：具有复杂有理谱滤波器的图卷积神经网络(Cayleynets:Graphconvolutional neural networks with complex rational spectral filters)。IEEE交易信号处理，第67卷，第1期，第97页–第109页，2019年。

[Manessi等人，2020]Franco Manessi、Alessandro Rozza和Mario Manzo。动态图卷积网络(Dynamic graph convolutional networks)。模式识别，第97卷，2020年。

[Nguyen等人，2018]Giang Hoang Nguyen、John Boaz Lee、Ryan A.Rossi、Nesreen K.Ahmed、Eunyee Koh和Sungchul Kim。连续时间动态网络嵌入(Continuous-timedynamic network embeddings)。在WWW中，第969页–第976页，2018年。

[Pareja等人，2020]Aldo Pareja、Giacomo Domenici、Jie Chen、Tengfei Ma、Toyotaro Suzumura、Hiroki Kanezashi、Tim Kaler、Tao B.Schardl和CharlesE.Leiserson。Evolvegcn：动态图的演变图卷积网络(Evolvegcn:Evolving graphconvolutional networks for dynamic graphs)。在AAI中，第5363页–5370页，2020年。

[Paszke等人，2019]Adam Paszke、Sam Gross、Francisco Massa、Adam Lerer、James Bradbury、Gregory Chanan、Trevor Killeen、Zeming Lin、Natalia Gimelshein、Luca Antiga、Alban Desmaison、Andreas Ko¨pf、Edward Yang、Zach DeVito、MartinRaison、Alykhan Tejani、Sasank Chilamkurthy、Benoit Steiner、Lu Fang、Junjie Bai和Soumith Chintala。Pytorch：一种命令式、高性能深度学习库(Pytorch:An imperativestyle,high-performance deep learning library)。CoRR，abs/1912.01703，2019年。

[Perozzi等人，2014]Bryan Perozzi、Rami Al-Rfou和Steven Skiena。Deepwalk：社会表示的在线学习(Deepwalk:online learning of social representations)。在KDD中，第701页–第710页，2014年。

[Sankar等人，2020]Aravind Sankar、Yanhong Wu、Liang Gou、Wei Zhang和HaoYang。Dysat：经由自注意力网络在动态图上进行的深度神经表示学习(Dysat:Deep neuralrepresentation learning on dynamic graphs via self-attention networks)。在WSDM中，第519页–第527页，2020年。

[Seo等人，2018]Youngjoo Seo、Michae¨l Defferrard、Pierre Vandergheynst和Xavier Bresson。利用图卷积递归网络的结构化序列建模(Structured sequencemodeling with graph convolutional recurrent networks)。在ICONIP中，第11301卷，第362页–第373页，2018年。

[Trivedi等人，2019]Rakshit Trivedi、Mehrdad Farajtabar、PrasenjeetBiswal和Hongyuan Zha。Dyrep：基于动态图的学习表示(Dyrep:Learningrepresentations over dynamic graphs)。在ICLR中，2019年。

[Velickovic等人，2018]Petar Velickovic、Guillem Cucurull、ArantxaCasanova、Adriana Romero、Pietro Lio`和Yoshua Bengio。图注意力网络(Graphattention networks)。在ICLR中，2018年。

[Wu等人，2019]Felix Wu、Angela Fan、Alexei Baevski、Yann N.Dauphin和Michael Auli。减少对轻量级和动态卷积的关注(Pay less attentionwith lightweightand dynamic convolutions)。在ICLR中，2019年。

[Xu等人，2019]Keyulu Xu、Weihua Hu、Jure Leskovec和Stefanie Jegelka。图神经网络有多强大？(How powerful are graph neural networks？)。在ICLR中，2019年。

[Xu等人，2020]Da Xu、Chuanwei Ruan、Evren Ko¨rpeoglu、Sushant Kumar和Kannan Achan。时间图上的归纳表示学习(Inductive representation learning ontemporal graphs)。在ICLR中，2020年。

[Ying等人，2018]Rex Ying、Ruining He、Kaifeng Chen、Pong Eksombatchai、William L.Hamilton和Jure Leskovec。用于网络规模推荐系统的图卷积神经网络(Graphconvolutional neural networks for webscale recommender systems)。在KDD中，第974页–第983页，2018年。

[Zitnik等人，2018]Marinka Zitnik、Monica Agrawal和Jure Leskovec。利用图卷积网络对多药副作用建模(Modeling polypharmacy side effects with graphconvolutional networks)。生物信息学，第34卷第13期：第i457页–第i466页，2018年。

Claims

1.一种方法，包括：

由分析计算机使用图结构学习模块从多个图快照中提取多个第一数据集；

由所述分析计算机跨越所述多个第一数据集使用时间卷积模块从所述多个第一数据集中提取多个第二数据集；

由所述分析计算机基于所述多个第二数据集来执行图上下文预测；以及

由所述分析计算机基于所述图上下文预测来执行动作。

2.根据权利要求1所述的方法，其中所述多个图快照中的每个图快照包括表示实体的多个节点和表示所述实体之间的交互的多个边缘，所述多个节点中的每个节点通过所述多个边缘中的一个或多个边缘连接到所述多个节点中的相邻节点。

3.根据权利要求2所述的方法，其中所述多个第一数据集包括所述多个图快照中的每个快照的每个节点的中间向量表示，所述中间向量表示各自包括对应于多个特征维度的第一多个特征值。

4.根据权利要求3所述的方法，其中所述多个第二数据集包括所述多个图快照中的每个图快照的每个节点的最终向量表示，所述最终向量表示各自包括对应于所述多个特征维度的第二多个特征值，其中所述中间向量表示和所述最终向量表示是表示所述多个节点的特性的向量空间中的每个节点的嵌入。

5.根据权利要求4所述的方法，其中提取所述多个第二数据集还包括：

确定多个卷积内核，所述多个卷积内核中的每一个对应于所述多个特征维度中的至少一个特征维度；以及

使用所述多个卷积内核对所述中间向量表示中的每一个执行时间卷积以产生所述最终向量表示。

6.根据权利要求5所述的方法，其中所述多个图快照中的每个图快照包括与时间戳相关联的图数据。

7.根据权利要求6所述的方法，其中所述多个节点中的每一个被单独地进行时间卷积，并且每个节点的每个特征维度被单独地进行时间卷积。

8.根据权利要求7所述的方法，其中执行时间卷积包括：针对每个节点的每个特征维度，将来自所述多个卷积内核的对应卷积内核应用于所述特征维度的第一特征值的子集，所述第一特征值的子集对应于连续时间戳的子集。

9.根据权利要求8所述的方法，其中应用所述对应卷积内核提供结果，并且所述结果用作所述连续时间戳的子集中最后一个时间戳处的所述特征维度的第二特征值。

10.根据权利要求8所述的方法，其中每个卷积内核具有预定义长度，并且其中所述第一特征值的子集中的第一特征值的数目等于所述卷积内核的所述预定义长度。

11.根据权利要求1所述的方法，其中所述时间卷积模块利用深度卷积或轻量级卷积。

12.根据权利要求3所述的方法，其中提取所述多个第一数据集还包括：

针对所述多个图快照中的每个图快照，基于习得的系数和对应于相邻节点的中间向量表示来确定每个节点的中间向量表示。

13.一种分析计算机，包括：

处理器；以及

计算机可读介质，其耦合到所述处理器，所述计算机可读介质包括能由所述处理器执行以用于实施方法的代码，所述方法包括：

使用图结构学习模块从多个图快照中提取多个第一数据集；

跨越所述多个第一数据集使用时间卷积模块从所述多个第一数据集中提取多个第二数据集；

基于所述多个第二数据集来执行图上下文预测；和

基于所述图上下文预测来执行动作。

14.根据权利要求13所述的分析计算机，还包括：

耦合到所述处理器的所述图结构学习模块；以及

耦合到所述处理器的所述时间卷积模块。

15.根据权利要求13所述的分析计算机，其中所述方法还包括：

从请求客户端接收预测请求；

至少根据基于所述多个第二数据集执行图上下文预测来确定预测；以及

向所述请求客户端发送包括所述预测的预测响应。

16.根据权利要求13所述的分析计算机，还包括：

至少使用所述多个第二数据集来训练机器学习模型。

17.根据权利要求16所述的分析计算机，其中所述图上下文预测是使用所述多个第二数据集和所述机器学习模型执行的。

18.根据权利要求16所述的分析计算机，其中所述机器学习模型是SVM或神经网络。

19.根据权利要求13所述的分析计算机，其中所述多个图快照中的每个图快照包括表示实体的多个节点，其中所述多个第一数据集包括所述多个图快照中的每个快照的每个节点的中间向量表示，所述中间向量表示各自包括对应于多个特征维度的第一多个值，其中所述多个第二数据集包括所述多个图快照中的每个图快照的每个节点的最终向量表示，所述最终向量表示各自包括对应于所述多个特征维度的第二多个值。

20.根据权利要求19所述的分析计算机，其中提取所述多个第二数据集还包括：

基于所述中间向量表示来确定多个卷积内核，所述多个卷积内核中的每一个对应于所述多个特征维度中的至少一个特征维度；

使用所述多个卷积内核对所述中间向量表示中的每一个执行时间卷积；以及

基于所述时间卷积来确定所述最终向量表示。