CN114493856A

CN114493856A - 用于处理数据的方法、系统、装置和介质

Info

Publication number: CN114493856A
Application number: CN202210370949.5A
Authority: CN
Inventors: 唐坤; 易鹏
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-05-13

Abstract

公开了一种处理数据的方法。该方法包括获取最新周期的新增数据，生成增量图，将该增量图划分到多个计算节点以生成最新版本的部分增量图，从持久存储加载先前版本的部分增量图并对最新版本和先前版本的部分增量图执行处理。还公开了处理资金流转数据的方法、相应的系统、装置和介质。

Description

用于处理数据的方法、系统、装置和介质

技术领域

本申请涉及图模型，尤其涉及用于使用图模型来处理数据的方法、系统、装置和介质。

背景技术

如今，图模型已经得到了广泛的利用。例如，图模型已被应用于用户行为理解、智能客服、信贷理财、资金流动跟踪等等各种应用场景。图通常由顶点和边组成，其中顶点和边分别表示实体和实体间的关系。一些实体和边可能具有属性。

在一些应用场景中，图模型随时间增长。例如，资金网络可被表示为图模型，而随着新的资金流动，资金网络的规模将会变大。利用图模型对资金网络进行分析可被用于反洗钱、贷后资金管控等金融风控场景。对于许多支付平台等金融平台而言，每天的资金流动行为数量巨大，对应的图模型的规模快速增长。这对系统的IO资源、内存资源、处理器资源、网络资源、系统容量等带来了巨大挑战。

在其它类型的随时间增长的图模型中同样存在类似问题。

因此，需要能够以较少的资源高效地处理增长数据的方案。

发明内容

为了克服现有技术的缺陷，本说明书的一个或多个实施例通过使用内存和持久存储双窗口能够高效地处理新增数据，减少资源消耗。

本说明书的一个或多个实施例通过以下技术方案来实现其上述目的。

在一个方面，提供了一种处理数据的方法，包括：

获取最新周期的增量数据；

基于所述增量数据生成最新版本的增量图；

将所述增量图划分到多个计算节点，其中所述多个计算节点的每个计算节点的内存中存储所述增量图的一部分，以生成最新版本的部分增量图；

从相应计算节点的持久存储读取多个先前版本的部分增量图，所述最新版本和所述多个先前版本共同构成活跃版本；以及

在相应计算节点处使用图策略算法对所述活跃版本执行处理。

优选地，其中将所述增量图划分到多个计算节点包括采用邻居表的方式将所述增量图划分到所述多个计算节点的内存中。

优选地，其中从相应计算节点的持久存储读取多个先前版本的部分增量图包括采用延迟载入的方式执行所述读取。

优选地，其中使用图策略算法对所述活跃版本执行处理包括执行所述活跃版本中的时序路径的新增、删除和更新中的一者或多者。

优选地，其中使用图策略算法对所述活跃版本执行处理包括采用基于顶点编程的遍历算法对所述最新版本的部分增量图中的顶点执行遍历。

优选地，该方法进一步包括：

对被遍历到的每个顶点：

获取该顶点的时间有序出边集合；以及

依次遍历所述时间有序出边集合中的每条出边，并对该遍历到的出边调用图策略算法来执行处理。

优选地，其中对所述活跃版本中的顶点执行遍历包括：

判断是否满足终止条件，且在满足终止条件时停止遍历。

优选地，该方法进一步包括：

将经处理的所述活跃版本存储到所述持久存储。

优选地，该方法进一步包括：

以先进先出的次序，按滑动窗口方式将所述最新版本更新到所述持久存储。

优选地，进一步包括：

使用KKV存储引擎来在所述持久存储中执行存储，其中在所述KKV存储引擎中第一主键K1为顶点ID，第二主键K2为版本，值V为路径数据。

在另一方面，公开了一种用于处理资金流转数据的方法，包括：

接收最新周期的资金流转数据，所述资金流转数据包括多个资金池实体以及所述多个资金池实体之间的资金流转关系；

基于所述资金流转数据生成最新版本的增量图；

优选地，该方法进一步包括：

在又一方面，提供了一种处理数据的系统，包括：

数据获取节点，用于获取最新周期的增量数据；

增量图生成节点，用于：

基于所述增量数据生成最新版本的增量图；以及

将所述增量图划分到计算节点集群中的多个计算节点；以及

所述计算节点集群，所述计算节点集群中的每个计算节点：

在内存中存储所述增量图的一部分，以生成最新版本的部分增量图；

从其持久存储读取多个先前版本的部分增量图，所述最新版本和所述多个先前版本共同构成活跃版本；以及

使用图策略算法对所述活跃版本执行处理。

优选地，其中所述增量图生成节点采用邻居表的方式将所述增量图划分到所述多个计算节点的内存中。

优选地，其中所述计算节点采用延迟载入的方式读取所述多个先前版本的部分增量图。

优选地，该系统进一步包括：

在又另一方面中，提供了一种处理数据的装置，包括：存储器；以及处理器，所述处理器被配置成执行如上文任一项所述的方法。

在又另一方面中，提供了一种存储指令的计算机可读存储介质，该指令当被计算机执行时，使所述计算机执行上述方法。

与现有技术相比，本说明书的一个或多个实施例能够实现以下技术效果中的一者或多者：

能够高效地处理新增数据；

能够减少处理所需的IO资源；

能够减少处理所需的内存资源；

能够提升处理速度；和/或

能够提升系统的处理容量。

附图说明

以上发明内容以及下面的具体实施方式在结合附图阅读时会得到更好的理解。需要说明的是，附图仅作为所请求保护的发明的示例。在附图中，相同的附图标记代表相同或类似的元素。

图1示出根据本说明书实施例的示例资金网络的示意图。

图2示出根据本说明书实施例的示例资金时序路径切分结果的示意图。

图3示出根据本说明书实施例的用于处理资金流转数据的示例方法的示意流程图。

图4示出根据本说明书实施例所处理的数据的变化过程的示意图。

图5示出根据本说明书实施例的资金流转数据的示例处理过程的示意图。

图6示出根据本说明书实施例的用于处理数据的示例方法的示意流程图。

图7示出根据本说明书实施例的用于处理数据的示例系统的示意框图。

图8示出用于实现根据本说明书一个或多个实施例的方法的装置的示意框图。

具体实施方式

以下具体实施方式的内容足以使任何本领域技术人员了解本说明书的一个或多个实施例的技术内容并据以实施，且根据本说明书所揭露的说明书、权利要求及附图，本领域技术人员可轻易地理解本说明书的一个或多个实施例相关的目的及优点。

如今，图模型已经得到了广泛的利用。例如，图模型被广泛应用于用户行为理解、智能客服、信贷理财、资金流动跟踪等等。图模型通常由顶点和边组成，其中顶点和边可分别表示实体和实体间的关系。一些实体和边可能具有属性。

在一些应用场景中，图模型随时间增长。例如，资金网络可被表示为图模型。

存款、消费、转账等事件，会引起资金在不同时间点在不同资金池间进行流转。比如，用户A通过扫码支付使支付平台余额中的一笔资金流转到用户B的支付平台余额。通过记录用户的资金的流转关系，能够得到资金网络，该资金网络随着时间增长，从而导致相应的图模型的增长。

利用图模型来分析资金的时序路径，即对资金网络中的资金流转进行分析，在反洗钱、资金贷后管控等金融风控场景有着广泛的应用。例如，通过分析某一笔网络贷款最终是否流转到房地产等相关资金池，可发现违反房地产贷款政策的行为。

比如资金网络等图模型，随着时间的推移规模增长迅速，对图模型中的时序路径分析可能需要大量的IO资源、处理资源、内存资源、时间资源。因此，需要开发能够减少资源利用、提升处理效率的方案。

在下文中，以资金网络为例来进行描述。但应领会，本说明书实施例的方案并不限于资金网络，而是可应用于随时间增长的任何图模型。

参见图1，其示出根据本说明书实施例的示例资金网络100的示意图。

如图1所示，该资金网络可以用属性图模型来表示用户的资金池实体及其之间的资金流转关系，其中资金池实体可对应于图的顶点，资金流转关系可对应于资金图的边。

资金池实体可表示用户的资金所在的账户。例如，如图1中的圆所表示的顶点所示，示出了资金池实体102“用户A借呗”、106“用户A余额”、110“用户B银行卡”、114“用户C余额”等。

一个用户可具有一个或多个资金池实体。例如，在图1中，用户A具有“借呗”、“余额”两个资金池实体。

资金池实体可具有一个或多个属性值，例如资金池实体标识符、所属用户、建立时间、资金池归属（例如“内部平台”、“外部银行”等）、资金池类型（例如“借呗”、“余额”等等）。例如，资金池实体102可具有资金池归属“内部平台”、资金池类型“借呗”等。

在本说明书实施例中，每个资金池实体可具有全局唯一的资金池实体标识符（或称“资金池实体ID”）。该资金池实体标识符可用各种方式来表示。

优选地，可基于资金池实体的一个或多个属性来生成资金池实体标识符。例如，优选地，该资金池实体标识符可用“用户标识符+资金池类型”来表示。用户标识符例如可为该用户在本说明书的系统中的用户标识符。资金池类型通常是在系统中预定义的。通常，不同资金池类型对应于不同资金服务，如借呗、花呗、余额、不同投资账户、不同银行卡账户等等。由于通常一个用户在一个资金池类型中仅具有一个资金池，因此这种方式可以获得系统中全局唯一的资金池实体标识符。例如，资金池实体“用户A借呗”的资金池实体标识符可被表示为“用户A的ID_jiebei”。

也可以按照其它适当方式来表示资金池实体。例如，可使用用户标识符的某种编码和资金池类型的某种编码的组合来生成资金池实体标识符、可使用GUID等任何全局唯一标识符生成算法来生成全局唯一的资金池实体标识符等等。

资金流转关系表示资金在不同资金池实体间的流转事件（因此也可称为“资金流转事件”）。例如，如图1中的有向箭头所表示的有向边所示，示出了以下资金流转关系：资金流转关系104：2000元资金从“用户A借呗”流转到“用户A余额”；资金流转关系108：1000元资金从“用户A余额”流转到“用户B银行卡”；资金流转关系112：1000元资金从“用户A余额”流转到“用户C余额”。

资金流转关系可具有一个或多个属性值，例如资金流转事件标识符、流转时间、流转金额、流转场景等等。例如，资金流转关系104可具有资金流转事件标识符：xxxx（仅为示意）；流转时间：2021.1.2 12:33:56；流转金额：2000元；流转场景：借款等等。

在本说明书实施例中，每个资金流转关系可具有全局唯一的资金流转关系标识符（或称“资金流转事件标识符”、“资金流转关系ID”、“资金流转事件ID”等等）。该资金流转关系标识符可用各种方式来表示。

优选地，可基于资金流转关系的一个或多个属性值来生成该资金流转关系标识符。例如，可通过该资金流转事件的起点资金池实体标识符、终点资金池实体标识符以及资金流转事件的时间来生成资金流转关系标识符。

也可以按照其它适当方式来表示资金池实体。例如，可使用资金流转关系的属性值的其它组合来生成资金流转关系标识符、可使用GUID等任何全局唯一标识符生成算法来生成资金流转关系标识符等等。

在一些示例中，资金流转关系还可表示同一资金池实体中资金的变化，这些变化例如可以是由于获得利息、获得投资收益/损失、扣除管理费等带来的。

参见图2，其示出根据本说明书实施例的示例资金时序路径切分结果200的示意图。该资金时序路径切分结果是对图1的资金网络进行切分来得到的。

对资金网络进行分析的过程可以抽象为将复杂资金网络切分成多个资金时序路径的过程，该切分可根据具体需要选择具体的图策略算法来执行，如下文中将详细描述的。

时序路径可以指在每条边按照单调递增的方式组成的路径。

每个资金时序路径可以对应于一个具体的资金行为意图。如图2所示，图1的资金网络100被切分为两个资金时序路径202和204。资金时序路径202包括资金池实体102-资金流转关系104-资金池实体106-资金流转关系108-资金池实体110，其代表了用户A从借呗借款并向用户B转账的资金行为意图。资金时序路径204包括资金池实体102-资金流转关系104-资金池实体106-资金流转关系112-资金池实体114，其代表了用户A从借呗借款并向用户C转账以消费的资金行为意图。

资金时序路径可具有一个或多个属性值。属性值的示例可包括资金时序路径标识符（也可称为“路径标识符”、“路径ID”等）、时间、场景、金额等等。例如，资金时序路径202可具有以下属性值：路径ID：xxxx（仅为示意）；场景：借款->转账；金额：1000元；时间：2021.1.2 12:33:56->2021.1.2 13:21:10等等。

优选地，每条资金时序路径可具有全局唯一的资金时序路径。

优选地，可基于该资金时序路径的一个或多个属性值来生成资金时序路径的路径标识符。例如，可使用该资金时序路径所涉及的资金池实体标识符和资金流转关系标识符的组合来生成该路径标识符。替代地，可通过该资金时序路径的属性值的其它任何组合来生成该路径标识符、可使用GUID等任何全局唯一标识符生成算法来生成全局唯一的资金池实体标识符等等。

优选地，资金时序路径标识符根据时间顺序单调递增地生成。按照时间顺序单调递增地生成资金时序路径标识符，能够提升后续处理时的效率。

通过上面的介绍，可以理解资金网络、资金时序路径等相关概念。可以理解，通过分析出正确的资金时序路径，能够更好地理解资金流转中所体现的资金意图，从而能够促进反洗钱、贷后资金管控的效率。在下面，将介绍根据本说明书实施例的用于处理资金流转数据的示例方法。

参见图3，其示出根据本说明书实施例的用于处理资金流转数据的示例方法300的示意流程图。对方法300的描述将参考图4和图5进行。图4示出根据本说明书实施例所处理的数据的变化过程400的示意图。图5示出根据本说明书实施例的资金流转数据的示例处理过程500的示意图。

方法300可包括：在操作302，可接收最新周期的资金流转数据。所述资金流转数据可包括多个资金池实体以及所述多个资金池实体之间的资金流转关系。资金池实体和资金流转关系的介绍可参考上文参考图1和图2的描述。

在本说明书的实施例中，通常以一天为周期。但应领会，可根据具体情况（例如数据量、时效性等）选择其他时间周期，例如1小时、3天、1周、1个月等等。

最新周期通常是指当前周期，例如在以一天为周期时最近周期可为当天。替代地，最新周期可指最新产生数据的周期，例如在以一天为周期时产生数据的最近一天。或者，最新周期是指最新执行数据获取的周期或可采取其它定义。

资金流转数据例如可以是由转账、借债、消费等资金流转事件所产生的涉及资金流转的数据。从该资金流转数据中，可提取出所涉及的资金池实体（例如资金从其转出的起点资金池实体，资金向其转入的终点资金池实体）以及资金流转关系（即该资金流转事件对应的资金流转行为）。还可从该资金流转数据获取所涉及的资金池实体的属性值以及资金流转关系的属性值，如前文所介绍的。

例如，参见图5，可由数据获取节点502来获得该资金流转数据。该资金流转数据可从任何合适数据源获得。例如，该资金流转数据可从借债、交易、转账等发生资金流转事件的服务器实时直接获得。替代地，该资金流转数据可从存储资金流转数据的数据存储获得。该数据源可以是内部数据源、外部数据源或其组合。

在必要时，在获取资金流转数据之后，可对该资金流转数据执行预处理，以标识出该资金流转数据所涉及的资金池实体、资金流转关系以及其属性值。

方法300可包括：在操作304，可基于所述资金流转数据，生成最新版本的增量图。可以理解，基于最新周期的资金流转数据生成的增量图为最新版本的增量图。

例如，所述资金池实体对应于所述增量图的顶点，所述资金流转关系为所述增量图的边。

通常，所述边为有向边，资金流出的顶点为其起点顶点，而资金流入的顶点为其终点顶点。

增量图是指在一周期内新增数据（也可称为“增量数据”）所导致的图的变化。例如，在资金网络的场景中，增量图是指最近一天的资金流转数据带来的图的变化。

例如，参见图4，其在左侧示出了三天的增量图。在图4中，颜色较深的线条涉及先前的数据，而颜色较浅的线条涉及增量数据。

在402处，示出了2021年1月1日的新增数据导致的增量图，该增量图可包括资金流转关系A-C和B-C。例如，该增量图可以是由于在2021年1月1日C从A和B的收款行为导致的。该增量图可包括顶点（资金池实体）和/或边（资金流转关系）的属性值。例如，A-C可具有属性值日期（date）20210101以及金额（amt）10，B-C可具有属性值日期（date）20210101以及金额（amt）10。

由于该日为该图（或该图的一部分）刚刚建立的图，因此该增量图为整个图。

在406处，示出了2021年1月2日的新增数据导致的增量图（颜色较浅部分），该增量图可包括新增的资金流转关系C-D。C-D可具有属性值日期（date）20210102以及金额（amt）5。注意，在该图中仅最新周期（在此处为2021年1月2日）新增的数据导致的图的变化，即406处颜色较浅的部分（C-D），而非406处的整个图。

在410处，示出了2021年1月3日的新增数据导致的增量图（颜色较浅部分），该增量图可包括新增的资金流转关系C-E。C-E可具有属性值日期（date）20210103以及金额（amt）5。注意，在该图中仅最新周期（在此处为2021年1月3日）新增的数据导致的图的变化，即410处颜色较浅的部分（C-E），而非410处的整个图。

如图5所示，生成增量图的操作可通过专门的增量图生成节点504来执行。该增量图生成节点504可生成增量图DeltaGraph。在本说明书实施例中，可按照从新到旧按照从小到大的次序来命名增量图的版本。例如，该最新周期的增量图DeltaGraph可被称为v00版本的增量图。可使用其他任何适当方式来命名增量图的版本。

可以理解，有些资金时序路径能够反映出资金行为意图，而有些资金时序路径则不能反映资金行为意图。例如，在406的图中，用户C可能想将从A收到的5元资金转账给D，而不是想将从B收到的5元资金转账给D。因此，需要采用一些算法来执行处理，以便筛选出能够反映资金行为意图的资金时序路径。这些算法可采用图策略算法。使用图策略算法来筛选资金时序路径的更多细节将在下文描述。

然而，对于大的平台（例如支付平台、交易平台、金融平台等），每周期（例如每天）新增的数据的量也非常大，靠单个计算节点可能无法实现。因此，可能需要利用多个计算节点来分布式地执行计算。

方法300可包括：在操作306，可将所述增量图划分到多个计算节点。优选地，所述多个计算节点的每个计算节点的内存中存储所述增量图的一部分，以生成最新版本的部分增量图。例如，参见图5，示出了包括多个计算节点的计算节点集群506，其可包括：图计算节点1、图计算节点2和图计算节点3。应理解，图5中的计算节点数量仅仅是示例，可根据需求选择适当数量的计算节点。

计算节点可指具有计算能力的实体计算设备或虚拟计算设备。实体计算设备的示例可包括但不限于大型机、小型机、个人计算机等等。虚拟计算设备的示例可包括各种类型的虚拟机（例如vmware虚拟机或virtualbox虚拟机等）或虚拟容器（例如docker等虚拟容器）。

可基于各种图划分算法来将较大的图（例如整个增量图）划分为较小的图。

优选地，可采用邻居表的方式将所述增量图划分到所述多个计算节点的内存中。邻居表是指图中与顶点相邻的边集的集合。通过邻居表，能够确保有关联的顶点和边被放入同一计算节点来处理。

有些顶点的邻居表可能过大，此时一个顶点的邻居表的一些部分（例如较远部分）可被划分到其它计算节点，当顶点的邻居表被划分到多个计算节点时，这些计算节点可存在数据通信（图5中未示出），从而使得虽有关联但被划分到不同计算节点的顶点和边的数据也可被访问，从而能够执行全面的遍历分析。有些顶点的邻居表可能过小，此时可将多个顶点的邻居表放入相同计算节点。本领域技术人员可采用邻居表的概念利用任何适当的具体策略来执行划分。

例如，可通过划分顶点的方式来划分增量图。具体而言，可采用以下方式来划分将图中的顶点划分到图：求顶点ID的哈希值，然后将该哈希值针对计算节点的数量取模，即可得到该顶点被划分到的计算节点。通过这种方式，可以均衡地将增量图的数据划分到计算节点来处理。随后，将该计算节点的邻居表所涉及的数据全部传送至该计算节点，以由该计算节点执行处理。

可采用其它适当的替代算法来执行上述划分操作。例如，可采用基于优先级的算法来执行划分操作。对于某些高优先级顶点，可划分到资源丰富的计算节点；而对于某些低优先级顶点，可划分到资源相对较少的计算节点。

参见图5，通过这种方式，在每个计算节点处获得了最新版本的增量图（DeltaGraph v00）的一部分，即获得了最新版本的部分增量图。例如，在图5的图计算节点1、图计算节点2和图计算节点3处，各自获得了部分增量图的v00版本。所有计算节点处的部分增量图的v00版本组合起来，可获得最新版本的总增量图（即DeltaGraph v00）。

在本说明书实施例中，由于此时最新版本的部分增量图v00被存储在内存中，因此其也可被称为内存图窗口（MemGraphWindow），以与以下介绍的磁盘图窗口（DiskGraphWindow）相区分。

通过仅将最新版本的部分增量图放入图计算节点的内存（以及随后视情况从持久存储读取先前版本的部分增量图），本说明书实施例能够允许处理大量增量图数据，从而提升了对内存的利用率。

方法300可包括：在操作308，从相应的计算节点的持久存储读取多个先前版本的部分增量图。所读取的先前版本的最大数量例如可由开发人员指定。例如，开发人员可根据具体情形（例如数据量、时效性、处理效率等）来指定先前版本的最大数量。

持久存储的示例可包括但不限于：磁盘（如硬盘）、软盘、磁带、或其他任何适用的非易失性存储器。通常，一计算节点的相对应的持久存储为该计算节点的本地存储。但本说明书的实施例不限于本地存储，也可包括存储池、群集存储、云存储、块存储等。

在本说明书的附图5的示例中，该最大数量为60。例如，在图5的图计算节点1处，可从与图计算节点1相对应的持久存储获得对应的部分增量图的先前版本v01-v60。类似地，可在图计算节点2处从与图计算节点2相对应的持久存储获得对应的部分增量图的先前版本v01-v60，可在图计算节点3处从与图计算节点3相对应的持久存储获得对应的部分增量图的先前版本v01-v60，等等。如图5所示，这些先前版本原先存储在磁盘等持久存储中，因此在本说明书实施例中将这些从持久存储读取的先前版本的部分增量图称为磁盘图窗口（DiskGraphWindow）。

优选地，从相应计算节点的持久存储读取指定数量的先前版本的部分增量图包括采用延迟载入的方式执行所述读取。延迟载入又可被称为懒载入、lazyload，是指仅在实际需要数据时才执行对该数据的载入操作。

例如，仅在实际需要某个版本的部分增量图时，才载入该版本的部分增量图，否则将不载入该版本的部分增量图。例如，在图5中，对于图计算节点1，可能仅需处理并更新v01-v05版本的数据，此时可仅将v01-v05读取到内存中来执行处理和更新，而不读取v06-v60（图5中未示出）。这种处理方式能够大幅减少IO读写量，提升数据动态更新的效率。

该先前版本可以是经过新增、删除、更新的版本，如下文所介绍的。

所述最新版本和所述多个先前版本可共同构成活跃版本。活跃版本是指在图策略算法执行时所使用的版本。

方法300可包括：在操作310，可使用图策略算法对所述活跃版本执行处理。

如图5所示，图策略算法（在资金网络的具体应用中为资金图策略算法，如图5所示）可从MemGraphWindow获得最新版本的部分增量图（如v00），还可从DiskGraphWindow获得先前版本的部分增量图（如v01-v60），两者共同构成了活跃版本，以供图策略算法进行处理。在处理过程中，图策略算法可能会对活跃版本中的部分增量图（包括最新版本v00和任何先前版本v01-v60）执行新增、删除和/或更新等操作。因此，如图5中所示，图策略算法可对MemGraphWindow执行读写（如v00 r/w所示），也可对DiskGraphWindow执行读写（如v01-v60 r/w所示）。

此外，由于DiskGraphWindow有向持久存储写入最新版本的部分增量图的需求，因此DiskGraphWindow可从MemWindowGraph执行同步（如v00 sync所示）操作。

在本说明书实施例中，优选地可采用基于顶点编程的遍历算法对最新版本的部分增量图中的顶点执行遍历。基于顶点编程的遍历算法是指逐个顶点地对图执行遍历的遍历算法。可用于实现基于顶点编程的遍历算法的算法引擎的示例可包括但不限于Geaflow、Spark GraphX等。

替代地，可采用其他类型的图策略引擎。例如，可采用基于边编程的遍历算法或顶点和边相结合的遍历算法等等。

优选地，对所述最新版本的部分增量图中的顶点执行遍历可通过以下方式来执行：遍历最新版本中的每个顶点，且对被遍历到的顶点执行以下操作：

首先，可获取该顶点的出边集合。例如，该出边集合可被表示为outEdgeSet，其包括该顶点的所有出边（outEdge）。优选地，按时间从早到晚的次序来排列该出边集合中的出边。也就是说，获取该顶点的时间有序的出边集合。也就是说，可获得该顶点的邻居表。

随后，可遍历出边集合中的每条出边，并对该遍历到的出边调用图策略算法来执行处理。优选地，可按时间次序从早到晚地遍历该出边集合中的每条出边。在时间有序出边集合的情况下，可依次遍历该时间有序出边集合中的每条出边。

对于遍历到的每条出边，遍历其活跃窗口中的每个版本，即遍历其在v00-v60中的每个版本，并获取其时序路径。随后，可对时序路径调用图策略算法来执行处理。如前文所述，该图策略算法可对相应时序路径进行更新（例如更新路径长度、更新路径属性（例如资金金额）等等），例如在相应时序路径中增加顶点和边等等。此外，该图策略算法还可根据需要新增或删除时序路径。例如当该图策略算法根据新信息确定一时序路径不是反映资金行为意图的时序路径或存在路径变动时，可删除该时序路径。此外，如果根据新信息发现了新的时序路径，则可新增时序路径。这些对时序路径的更新、新增和/或删除将被写入到相应的时序版本（v00以及v01-v60），如图5中的资金图策略对MemGraphWindow和DiskGraphWindow的写入（w）权限所示出的。

以上过程可参考图4来理解。如图4所示，在404处，在日期2021年1月1日，基于402处的图，获得仅两条时序路径A-C和B-C，其位于20210101版本中。

在408处，在日期2021年1月2日，基于增量图C-D，通过图策略算法的执行，确定C-D中的资金来自A-C而非B-C，因此获得新增路径A-C-D，同时由于其金额变化（由10变为5）也产生新增路径A-C，即20210102版本中出现两条新增路径A-C-D和A-C。同时，20210101版本中金额为10的路径A-C已全部体现在20210102版本中的A-C-D和A-C中，所以从20210101版本中删除路径A-C（金额10）。

在412处，在日期2021年1月3日，基于增量图C-E，通过图策略算法的执行，确定C-E的金额15中有5来自路径A-C，另外10来自路径B-C，因此在版本20210103中获得新增路径A-C-E和B-C-E。同理，由于B-C的10元已全部被体现在路径B-C-E中，所以从20210101中删除路径B-C；同理，20210102中的路径A-C的5元已全部体现在A-C-E中，所以从20210102中删除路径A-C。这也可从412处的B-C和A-C被标记为删除（MarkDel）可以看出。

在遍历出边的时序路径的过程中，可检查是否满足终止条件。如果满足终止条件，则可终止遍历。

例如，随着遍历，时序路径的深度会不断增加。如果时序路径增加到一定深度，则可终止该时序路径的遍历。时序路径的深度可反映两次资金流转事件的时间跨度，可以理解，如果该时间跨度很长，则其反映同一行为意图的可能性变小。因此，为提升效率，可在超过阈值时序路径深度时结束遍历。

此外，新增的顶点（资金池实体）可能位于平台外部，导致无法对该顶点的资金流转进行后续跟踪，此时也应该终止遍历。

还可根据需求构想其它终止遍历的条件。

为了便于理解上述过程，可参考以下示例伪代码，其示出对于被遍历的顶点的出边集合outEdgeSet中的每条出边outEdge所要执行的操作：

void computeEvolvingPaths(Edge outEdge, VertexContext ctx) {

//1. 遍历活跃窗口时间版本（activeWindowVersions），即v00-v60

for (version:activedWindowVersions)

//2. 获取被遍历到的版本的时序路径

currentPaths=getMultiVersionPaths(ctx -> getVertexID(),version);

//3. 调用策略来针对该出边的该时序路径进行处理，

//并按照策略来更新路径、新增路径、删除路径等

callStrategy(currentPaths, outEdge.getProperty(),newPaths, delPaths);

addMultiVersionPaths(newPaths);

deleteMultiVersionPaths(delPaths);

//4. 若满足终止条件，则提前终止

if (isHalt(ctx -->getVertexProperty())){

break;

}

在上文中提及了图策略算法，但并未被图策略算法的细节进行进一步描述，这是该图策略算法并非本说明书实施例的重点，而是可根据需要采用各种图策略算法。如上文所述，在callStrategy函数中可实现任何期望的图策略算法，以适应于各种场景和需求。

以下仅简单介绍图策略算法的一个示例：

图策略算法的一个示例是基于时间关系的图策略算法。例如在上文示例中，“通过图策略算法的执行，确定C-D中的资金来自A-C而非B-C，因此获得新增路径A-C-D”可以是通过以下方式判断的：如果资金时序路径C-D的时间属性值中所指示的该事件的发生时间与资金时序路径A-C的更接近而与B-C更远，则C-D与A-C相关联的可能性更大，因此确定C-D中的资金来自A-C而不是B-C。

也可采用其它策略，例如基于历史资金流转纪录的策略、基于用户关系的策略等。例如，可基于历史上C经常把来自A的资金转给D来确定C-D中的资金来自A-C；或者基于A和D存在亲友关系而确定C-D中的资金来自A-D……等等。

可以理解，可采取更加复杂的图策略算法，例如基于上述考虑因素的组合、基于人工智能的算法等等。

可选地，方法300还可包括：将经处理的活跃版本存储到所述持久存储（图3中未示出）。如图5中所示，图计算节点将数据写入到其对应的持久存储508。此时，值得注意的是，此时写入的最新版本的部分增量图以及先前版本的部分增量图都是经过由计算节点处理（例如更新、删除和/或新增等）后的版本，其包括了由图策略算法得到的时序路径，如图4中所示。

在本说明书实施例中，优选地，以先进先出的次序，按滑动窗口方式来将所述最新版本的部分增量图更新到所述持久存储。例如，可将经处理的最新版本（v00）在持久存储中存储为v01，并将经处理的v01版本存储为v02，将经处理的v02版本存储为v03，以此类推。最终，经处理的v59版本被存储为v60，而原v60版本则将被移动到滑动窗口外。由于过于久远的数据对于增量数据的分析作用并不大，因此这种处理将提升效率。

滑动窗口外的数据例如可被丢弃，或者可被存储到二级存储、或者可被存储到云存储等等。

在本说明书实施例中，优选地，使用KKV存储引擎来在所述持久存储中执行存储。通常，KKV存储引擎包括两个主键：第一主键K1和第二主键K2，以及值V。在所述KKV存储引擎中第一主键K1为顶点标识符，第二主键K2为版本，值V为时序路径数据。可以理解，这种存储方式配合如上文所述的算法，可高效地对顶点执行遍历，同时在处理顶点时对版本执行遍历，以获得时序路径数据。

优选地，该KKV存储引擎为rocksdb引擎。该引擎可基于磁盘进行KKV数据存储。也可采用其它任何适当的KKV存储引擎。

当然，本说明书实施例不限于KKV存储引擎，而是可采取任何适当的存储引擎。

通过上文描述的方法，本说明书实施例能够显著减少处理所需的IO资源、内存资源、处理器资源、网络资源等的使用，提升处理速度，并提升系统的处理容量。根据实验，与先前的系统相比，根据本说明书的实施例所能处理的容量可为之前的10倍或更多。

可以领会，上文针对资金流转数据所描述的使用图模型来处理数据的方法可同样适用于其它类型的数据。例如，数据流量数据、物流数据、用户浏览数据、社交网络数据等同样可使用该方法来处理。因此，只需要将上文中的“资金”相关内容用其它数据来取代，即可实现相应的方法。

参考图6，其示出根据本说明书实施例的用于处理数据的示例方法600的示意流程图。

如图6所示，方法600可包括：在操作602，可获取最新周期的增量数据。

方法600还可包括：在操作604，可基于所述增量数据生成最新版本的增量图。

方法600还可包括：在操作606，可将所述增量图划分到多个计算节点，其中所述多个计算节点的每个计算节点的内存中存储所述增量图的一部分，以生成最新版本的部分增量图。优选地，可采用邻居表的方式将所述增量图划分到所述多个计算节点的内存中。

方法600还可包括：在操作608，可从相应计算节点的持久存储读取多个先前版本的部分增量图，所述最新版本和所述多个先前版本共同构成活跃版本。优选地，可采用延迟载入的方式执行所述读取。

方法600还可包括：在操作610，可在相应计算节点处使用图策略算法对所述活跃版本执行处理。例如，可执行所述活跃版本中的时序路径的新增、删除和更新中的一者或多者。

优选地，使用图策略算法对所述活跃版本执行处理包括采用基于顶点编程的遍历算法对所述最新版本的部分增量图中的顶点执行遍历。具体而言，可通过以下方式来执行遍历：对被遍历到的每个顶点：可获取该顶点的时间有序出边集合；以及可依次遍历所述时间有序出边集合中的每条出边，并可对该遍历到的出边调用图策略算法来执行处理。此外，可判断是否满足终止条件，且在满足终止条件时停止遍历。

方法600还可包括：可将经处理的所述活跃版本存储到所述持久存储（图6中未示出）。优选地，可以先进先出的次序，按滑动窗口方式将所述最新版本更新到所述持久存储。优选地，可使用KKV存储引擎来在所述持久存储中执行存储，其中在所述KKV存储引擎中第一主键K1为顶点ID，第二主键K2为版本，值V为路径数据。

应当领会，上文所描述的细节（尤其是针对图3中描述的细节）均可应用于图6的方法，在此不再赘述。

参见图7，其示出根据本说明书实施例的用于处理数据的示例系统700的示意框图。图7可参考图5来查看。

如图7所示，系统700可包括数据获取节点702，其可用于获取最新周期的增量数据。该节点的具体操作可参考上文针对数据获取节点502以及操作302、502等的描述。

系统700还可包括增量图生成节点704，其用于基于所述增量数据生成最新版本的增量图；以及将所述增量图划分到计算节点集群中的多个计算节点。例如，可采用邻居表的方式将所述增量图划分到所述多个计算节点的内存中。该节点的具体操作可参考上文针对增量图生成节点504以及操作304-306、504-506等的描述。

系统700还可包括计算节点集群706，其中每个计算节点可在内存中存储所述增量图的一部分，以生成最新版本的部分增量图。每个计算节点还可从其持久存储读取多个先前版本的部分增量图，所述最新版本和所述多个先前版本共同构成活跃版本。每个计算节点还可使用图策略算法对所述活跃版本执行处理。优选地，可采用延迟载入的方式读取所述多个先前版本的部分增量图。优选地，可以先进先出的次序，按滑动窗口方式将所述最新版本更新到所述持久存储。其具体操作可参考上文计算节点集群506和持久存储508以及操作306-310、506-510等的描述。

应当领会，虽然在图5和图7中将上述各节点或节点集群示出为独立的节点，但在具体实现中，其中一个或多个节点或节点集群可在同一计算节点或节点集群处实现，或者一个节点或节点集群的操作可由多个节点或节点集群来执行。

图8示出用于实现根据本说明书一个或多个实施例的方法的装置800的示意框图。该装置可用于实现例如本文描述的方法（例如方法300和600）中的任一者。该装置还可被实现为本文描述的任何计算节点或计算节点集群（例如通过虚拟化等），例如节点502、504、506或者702、704、706中的任一者。该装置可包括处理器810以及存储器1015，该处理器被配置成执行如上所述的任何方法。该存储器可包括内存和/或持久存储，以利用如上文所述的方式存储最新版本和先前版本的部分增量图。该存储器还可用于存储在方法的执行过程中可使用的任何指令、变量、中间数据等等。

该装置800可包括网络连接元件825，例如可包括通过有线连接或无线连接来连接到其它设备的网络连接设备。该无线连接例如可以为WiFi连接、蓝牙连接、3G/4G/5G网络连接等。例如，可通过该网络连接元件连接到网络以获取数据（如新增数据）及其它各种数据。还可经由网络连接元件接收用户从其它设备所进行的输入或者将数据传送到其它设备以供显示。

该装置还可选地包括其它外围元件820，例如输入装置（如键盘、鼠标）、输出装置（如显示器）等。例如，在基于用户输入的方法中，用户可经由输入装置执行输入操作。还可经由输出装置向用户输出相应的信息。

这些模块中的每一者可彼此直接或间接通信，例如，经由一条或多条总线（例如总线805）。

而且，本申请还公开了一种包括存储于其上的计算机可执行指令的计算机可读存储介质，所述计算机可执行指令在被处理器执行时使得所述处理器执行本文所述的各实施例的方法。

此外，本申请还公开了一种装置，该装置包括处理器以及存储有计算机可执行指令的存储器，所述计算机可执行指令在被处理器执行时使得所述处理器执行本文所述的各实施例的方法。

此外，本申请还公开了一种系统，该系统包括用于实现本文所述的各实施例的方法的装置。

可以理解，根据本说明书的一个或多个实施例的方法可以用软件、固件或其组合来实现。

应该理解，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参考即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参考方法实施例的部分说明即可。

应该理解，上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

应该理解，本文用单数形式描述或者在附图中仅显示一个的元件并不代表将该元件的数量限于一个。此外，本文中被描述或示出为分开的模块或元件可被组合为单个模块或元件，且本文中被描述或示出为单个的模块或元件可被拆分为多个模块或元件。

还应理解，本文采用的术语和表述方式只是用于描述，本说明书的一个或多个实施例并不应局限于这些术语和表述。使用这些术语和表述并不意味着排除任何示意和描述（或其中部分）的等效特征，应认识到可能存在的各种修改也应包含在权利要求范围内。其他修改、变化和替换也可能存在。相应的，权利要求应视为覆盖所有这些等效物。

同样，需要指出的是，虽然已参考当前的具体实施例来描述，但是本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本说明书的一个或多个实施例，在没有脱离本发明精神的情况下还可做出各种等效的变化或替换，因此，只要在本发明的实质精神范围内对上述实施例的变化、变型都将落在本申请的权利要求书的范围内。

Claims

1.一种处理数据的方法，包括：

获取最新周期的增量数据；

基于所述增量数据生成最新版本的增量图；

2.如权利要求1所述的方法，其中将所述增量图划分到多个计算节点包括采用邻居表的方式将所述增量图划分到所述多个计算节点的内存中。

3.如权利要求1所述的方法，其中从相应计算节点的持久存储读取多个先前版本的部分增量图包括采用延迟载入的方式执行所述读取。

4.如权利要求1所述的方法，其中使用图策略算法对所述活跃版本执行处理包括执行所述活跃版本中的时序路径的新增、删除和更新中的一者或多者。

5.如权利要求1所述的方法，其中使用图策略算法对所述活跃版本执行处理包括采用基于顶点编程的遍历算法对所述最新版本的部分增量图中的顶点执行遍历。

6.如权利要求5所述的方法，进一步包括：

对被遍历到的每个顶点：

获取该顶点的时间有序出边集合；以及

7.如权利要求6所述的方法，其中对所述活跃版本中的顶点执行遍历包括：

判断是否满足终止条件，且在满足终止条件时停止遍历。

8.如权利要求1所述的方法，进一步包括：

将经处理的所述活跃版本存储到所述持久存储。

9.如权利要求1所述的方法，进一步包括：

10.如权利要求1所述的方法，进一步包括：

11.一种用于处理资金流转数据的方法，包括：

基于所述资金流转数据生成最新版本的增量图；

12.如权利要求11所述的方法，其中将所述增量图划分到多个计算节点包括采用邻居表的方式将所述增量图划分到所述多个计算节点的内存中。

13.如权利要求11所述的方法，其中从相应计算节点的持久存储读取多个先前版本的部分增量图包括采用延迟载入的方式执行所述读取。

14.如权利要求11所述的方法，进一步包括：

15.一种处理数据的系统，包括：

数据获取节点，用于获取最新周期的增量数据；

增量图生成节点，用于：

基于所述增量数据生成最新版本的增量图；以及

将所述增量图划分到计算节点集群中的多个计算节点；以及

所述计算节点集群，所述计算节点集群中的每个计算节点：

使用图策略算法对所述活跃版本执行处理。

16.如权利要求15所述的系统，其中所述增量图生成节点采用邻居表的方式将所述增量图划分到所述多个计算节点的内存中。

17.如权利要求15所述的系统，其中所述计算节点采用延迟载入的方式读取所述多个先前版本的部分增量图。

18.如权利要求15所述的系统，进一步包括：

19.一种用于处理数据的装置，包括：

存储器；以及

处理器，所述处理器被配置成执行如权利要求1-14中任一项所述的方法。

20.一种存储指令的计算机可读存储介质，所述指令当被计算机执行时，使所述计算机执行如权利要求1-14中任一项所述的方法。