CN115640337A - 针对符号图网络的异常数据预测方法、系统及相关设备 - Google Patents

针对符号图网络的异常数据预测方法、系统及相关设备 Download PDF

Info

Publication number
CN115640337A
CN115640337A CN202211653135.9A CN202211653135A CN115640337A CN 115640337 A CN115640337 A CN 115640337A CN 202211653135 A CN202211653135 A CN 202211653135A CN 115640337 A CN115640337 A CN 115640337A
Authority
CN
China
Prior art keywords
node
symbolic
network
time
graph network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211653135.9A
Other languages
English (en)
Other versions
CN115640337B (zh
Inventor
李松
齐逸岩
刘力铭
幺宝刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Digital Economy Academy IDEA
Original Assignee
International Digital Economy Academy IDEA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Digital Economy Academy IDEA filed Critical International Digital Economy Academy IDEA
Priority to CN202211653135.9A priority Critical patent/CN115640337B/zh
Publication of CN115640337A publication Critical patent/CN115640337A/zh
Application granted granted Critical
Publication of CN115640337B publication Critical patent/CN115640337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种针对符号图网络的异常数据预测方法、系统及相关设备,方法包括:获取预设时间段内的网络数据,按照预设时间窗长度分割成不同子时间段的符号图网络并构成符号图网络集合;获取各符号图网络的邻接矩阵,根据符号图网络对应的邻接矩阵分别获取各个节点对应的第一节点表示;根据多种预设模体结构对各符号图网络进行模体结构统计以获得各符号图网络的模体矩阵,根据模体矩阵获取各个节点对应的第二节点表示,进而获取各个节点对应的综合节点表示;根据综合节点表示获得各节点对应的终止时刻动态节点表示;根据终止时刻动态节点表示和已训练的逻辑回归模型获取目标预测时刻的异常数据。本发明有利于提高异常数据预测的准确性。

Description

针对符号图网络的异常数据预测方法、系统及相关设备
技术领域
本发明涉及人工智能技术领域,尤其涉及的是一种针对符号图网络的异常数据预测方法、系统及相关设备。
背景技术
随着科学技术的发展和信息时代的到来,对于数据的分析、预测和分类越来越受到重视。数据预测是指根据已知的数据信息预测获取未知的数据信息,从而可以达到根据预测结果提前进行控制的目的。例如,根据已知的数据可以进行异常数据预测,如预测下一时刻哪些数据可能出现异常,从而预先安排对应的举措。具体例如,在金融安全领域,可以根据已知的数据预测下一时刻哪些数据可能出现异常(如出现欺诈交易的风险),从而及时进行防范和应对。
现有技术中,通常建立数据与时间之间的关系,例如预先针对采集的大量数据时间序列进行训练,分析数据(包括正常数据和异常数据)随时间变化的规律,从而确定数据变化趋势,实现根据历史数据对未来时刻的数据(尤其是异常数据)进行预测。现有技术的问题在于,仅建立数据与时间之间的关系,只能根据数据变化趋势来进行异常数据的预测,不利于提高异常数据预测的准确性。
因此,现有技术还有待改进和发展。
发明内容
本发明的主要目的在于提供一种针对符号图网络的异常数据预测方法、系统及相关设备,旨在解决现有技术中仅建立数据与时间之间的关系,只能根据数据变化趋势来进行异常数据的预测,不利于提高异常数据预测的准确性的问题。
为了实现上述目的,本发明第一方面提供一种针对符号图网络的异常数据预测方法,其中,上述针对符号图网络的异常数据预测方法包括:
获取预设时间段内的网络数据,按照预设时间窗长度分割成不同子时间段的符号图网络并构成符号图网络集合,其中,一个上述符号图网络中包括多个节点和至少一条边,最后一个上述子时间段的终止时刻为上述网络数据的终止时刻;
分别获取各上述符号图网络对应的邻接矩阵,对于每一个上述符号图网络,根据该符号图网络对应的邻接矩阵分别获取该符号图网络中各个节点对应的第一节点表示;
根据多种预设模体结构分别对各上述符号图网络进行模体结构统计以分别获得各上述符号图网络对应的模体矩阵,对于每一个上述符号图网络,根据该符号图网络对应的模体矩阵分别获取该符号图网络中各个节点对应的第二节点表示;
对于每一个上述符号图网络,分别获取该符号图网络中各个节点对应的综合节点表示,其中,一个符号图网络中一个节点对应的综合节点表示由该符号图网络中该节点对应的第一节点表示和第二节点表示拼接获得;
根据上述符号图网络集合中相同节点对应的所有综合节点表示,分别获得上述符号图网络集合中各上述节点对应的终止时刻动态节点表示;
根据上述符号图网络集合中各上述节点对应的终止时刻动态节点表示和已训练的逻辑回归模型获取目标预测时刻的异常数据,其中,上述异常数据包括各上述节点在目标预测时刻的异常概率或各上述节点对应的边在目标预测时刻的异常概率,上述目标预测时刻是上述网络数据的终止时刻的后一个时刻。
可选的,上述网络数据包括多个目标对象、上述目标对象之间的交互关系以及上述交互关系的生成时刻。
可选的,上述符号图网络中的一个节点代表一个目标对象,一条边用于连接两个节点且代表连接的两个节点之间的交互关系,上述获取预设时间段内的网络数据,按照预设时间窗长度分割成不同子时间段的符号图网络并构成符号图网络集合,包括:
获取预设时间段内的网络数据,根据上述预设时间窗长度将上述预设时间段划分为多个子时间段;
根据上述目标对象、上述交互关系以及各上述交互关系的生成时刻分别获取各上述子时间段对应的符号图网络,其中,一个子时间段对应的符号图网络中的边分别代表生成时刻属于该子时间段的交互关系;
根据所有上述子时间段对应的符号图网络获得上述符号图网络集合。
可选的,上述网络数据为交易数据,上述目标对象为交易账户,上述交互关系为交易关系。
可选的,上述异常数据包括各上述交易账户在目标预测时刻进行欺诈交易的概率或各上述交易关系在目标预测时刻为欺诈交易的概率。
可选的,上述分别获取各上述符号图网络对应的邻接矩阵,对于每一个上述符号图网络,根据该符号图网络对应的邻接矩阵分别获取该符号图网络中各个节点对应的第一节点表示,包括:
分别获取各上述符号图网络对应的邻接矩阵;
对于每一个上述符号图网络,根据该符号图网络对应的邻接矩阵,通过预设的图神经网络模型获取该符号图网络中各个节点对应的第一节点表示。
可选的,上述根据多种预设模体结构分别对各上述符号图网络进行模体结构统计以分别获得各上述符号图网络对应的模体矩阵,对于每一个上述符号图网络,根据该符号图网络对应的模体矩阵分别获取该符号图网络中各个节点对应的第二节点表示,包括:
根据多种预设模体结构分别对各上述符号图网络进行模体结构统计以分别获得各上述符号图网络对应的模体矩阵,其中,一个符号图网络的模体矩阵根据该符号图网络对应的多个模体统计矩阵求和获得,一个模体统计矩阵与一种预设模体结构对应,且一个模体统计矩阵中的各个元素分别代表对应的符号图网络中各个边上与该模体统计矩阵对应的预设模体结构的数目;
对于每一个上述符号图网络,根据该符号图网络对应的模体矩阵,通过预设的图神经网络模型获取该符号图网络中各个节点对应的第二节点表示。
可选的,上述根据上述符号图网络集合中相同节点对应的所有综合节点表示,分别获得上述符号图网络集合中各上述节点对应的终止时刻动态节点表示,包括:
将上述符号图网络集合中相同节点对应的所有综合节点表示进行加权平均,分别获得上述符号图网络集合中各上述节点对应的终止时刻动态节点表示。
可选的,上述逻辑回归模型根据如下步骤进行预先训练:
将训练数据中的训练时刻动态节点表示输入上述逻辑回归模型,通过上述逻辑回归模型生成上述训练时刻动态节点表示对应的预测时刻异常数据,其中,上述训练数据包括多组训练信息组,每一组训练信息组包括训练时刻动态节点表示和预测时刻标注异常数据,预测时刻是训练时刻的后一个时刻;
根据上述预测时刻标注异常数据和上述预测时刻异常数据,对上述逻辑回归模型的模型参数进行调整,并继续执行上述将训练数据中的训练时刻动态节点表示输入上述逻辑回归模型的步骤,直至满足预设训练条件,以得到已训练的逻辑回归模型。
可选的,上述逻辑回归模型在训练过程中使用交叉熵损失函数计算上述预测时刻标注异常数据和上述预测时刻异常数据之间的损失值。
可选的,在上述根据上述符号图网络集合中各上述节点对应的终止时刻动态节点表示和已训练的逻辑回归模型获取目标预测时刻的异常数据之后,上述方法还包括:
获取异常概率阈值,根据上述异常数据和上述异常概率阈值获取目标异常节点或目标异常边。
本发明第二方面提供一种针对符号图网络的异常数据预测系统,其中,上述针对符号图网络的异常数据预测系统包括:
数据获取模块,用于获取预设时间段内的网络数据,按照预设时间窗长度分割成不同子时间段的符号图网络并构成符号图网络集合,其中,一个上述符号图网络中包括多个节点和至少一条边,最后一个上述子时间段的终止时刻为上述网络数据的终止时刻;
第一节点表示获取模块,用于分别获取各上述符号图网络对应的邻接矩阵,对于每一个上述符号图网络,根据该符号图网络对应的邻接矩阵分别获取该符号图网络中各个节点对应的第一节点表示;
第二节点表示获取模块,用于根据多种预设模体结构分别对各上述符号图网络进行模体结构统计以分别获得各上述符号图网络对应的模体矩阵,对于每一个上述符号图网络,根据该符号图网络对应的模体矩阵分别获取该符号图网络中各个节点对应的第二节点表示;
综合节点表示获取模块,用于对于每一个上述符号图网络,分别获取该符号图网络中各个节点对应的综合节点表示,其中,一个符号图网络中一个节点对应的综合节点表示由该符号图网络中该节点对应的第一节点表示和第二节点表示拼接获得;
动态节点表示获取模块,用于根据上述符号图网络集合中相同节点对应的所有综合节点表示,分别获得上述符号图网络集合中各上述节点对应的终止时刻动态节点表示;
异常数据获取模块,用于根据上述符号图网络集合中各上述节点对应的终止时刻动态节点表示和已训练的逻辑回归模型获取目标预测时刻的异常数据,其中,上述异常数据包括各上述节点在目标预测时刻的异常概率或各上述节点对应的边在目标预测时刻的异常概率,上述目标预测时刻是上述网络数据的终止时刻的后一个时刻。
本发明第三方面提供一种智能终端,上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的针对符号图网络的异常数据预测程序,上述针对符号图网络的异常数据预测程序被上述处理器执行时实现上述任意一种针对符号图网络的异常数据预测方法的步骤。
本发明第四方面提供一种计算机可读存储介质,上述计算机可读存储介质上存储有针对符号图网络的异常数据预测程序,上述针对符号图网络的异常数据预测程序被处理器执行时实现上述任意一种针对符号图网络的异常数据预测方法的步骤。
由上可见,本发明方案中,获取预设时间段内的网络数据,按照预设时间窗长度分割成不同子时间段的符号图网络并构成符号图网络集合,其中,一个上述符号图网络中包括多个节点和至少一条边,最后一个上述子时间段的终止时刻为上述网络数据的终止时刻;分别获取各上述符号图网络对应的邻接矩阵,对于每一个上述符号图网络,根据该符号图网络对应的邻接矩阵分别获取该符号图网络中各个节点对应的第一节点表示;根据多种预设模体结构分别对各上述符号图网络进行模体结构统计以分别获得各上述符号图网络对应的模体矩阵,对于每一个上述符号图网络,根据该符号图网络对应的模体矩阵分别获取该符号图网络中各个节点对应的第二节点表示;对于每一个上述符号图网络,分别获取该符号图网络中各个节点对应的综合节点表示,其中,一个符号图网络中一个节点对应的综合节点表示由该符号图网络中该节点对应的第一节点表示和第二节点表示拼接获得;根据上述符号图网络集合中相同节点对应的所有综合节点表示,分别获得上述符号图网络集合中各上述节点对应的终止时刻动态节点表示;根据上述符号图网络集合中各上述节点对应的终止时刻动态节点表示和已训练的逻辑回归模型获取目标预测时刻的异常数据,其中,上述异常数据包括各上述节点在目标预测时刻的异常概率或各上述节点对应的边在目标预测时刻的异常概率,上述目标预测时刻是上述网络数据的终止时刻的后一个时刻。
与现有技术中相比,本发明方案中并不仅仅根据数据随时间变化的趋势进行异常数据预测,而是在获取符号图网络集合之后,获取体现符号图网络中符号信息的第一节点表示和体现符号图网络中局部拓扑结构信息的第二节点表示,综合两者获取各个符号图网络对应的综合节点表示(即综合节点表示中包含符号信息和局部拓扑结构信息)。同时,根据各个子时间段的符号图网络的综合节点表示,获取其中各个节点对应的终止时刻动态节点表示,终止时刻动态节点表示不仅包含上述符号信息和局部拓扑结构信息,还包括由各个子时间段体现的时序信息。因此,根据终止时刻动态节点表示进行异常数据预测时,综合了符号信息、局部拓扑结构信息和时序信息,有利于提高异常数据预测的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种针对符号图网络的异常数据预测方法的流程示意图;
图2是本发明实施例提供的预设模体结构示意图;
图3是本发明实施例提供的一种平衡三角形结构与非平衡三角形结构的示意图;
图4是本发明实施例提供的一种符号聚合方式的示意图;
图5是本发明实施例提供的一种GCN模型的结构示意图;
图6是本发明实施例提供的一种模体聚合方式的示意图;
图7是本发明实施例提供的一种针对符号图网络的异常数据预测方法的具体流程示意图;
图8是本发明实施例提供的一种逻辑回归模型具体训练流程示意图;
图9是本发明实施例提供的一种针对符号图网络的异常数据预测系统的结构示意图;
图10是本发明实施例提供的一种智能终端的内部结构原理框图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况下,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
随着科学技术的发展和信息时代的到来,对于数据的分析、预测和分类越来越受到重视。数据预测是指根据已知的数据信息预测获取未知的数据信息,从而可以达到根据预测结果提前进行控制的目的。例如,根据已知的数据可以进行异常数据预测,如预测下一时刻哪些数据可能出现异常,从而预先安排对应的举措。具体例如,在金融安全领域,可以根据已知的数据预测下一时刻哪些数据可能出现异常(如出现欺诈交易的风险),从而及时进行防范和应对。
现有技术中,通常建立数据与时间之间的关系,例如预先针对采集的大量数据时间序列进行训练,分析数据(包括正常数据和异常数据)随时间变化的规律,从而确定数据变化趋势,实现根据历史数据对未来时刻的数据(尤其是异常数据)进行预测。现有技术的问题在于,仅建立数据与时间之间的关系,只能根据数据变化趋势来进行异常数据的预测,不能考虑多种因素的影响,不利于提高异常数据预测的准确性。
在一种应用场景中,可以基于图神经网络(GNN,Graph Neural Networks)进行图数据处理,图神经网络可以通过信息传播捕捉节点之间的依赖。进一步的,GCN的变种也可以用于处理节点分类、图表示学习、图分类、推荐系统等任务,例如图卷积网络(GCN,GraphConvolution Networks)、图注意力网络(GAT,Graph Attention Network)、图循环网络(GRN,Graph Recurrent Network)等。但上述各种图神经网络模型不能用来处理动态图(特征和节点随时间变化)。因此在另一种应用场景中,可以使用动态图网络模型(或时序图神经网络模型)处理动态图数据,例如temporal GNN模型。已有的时序图神经网络模型可以被分为连续时间GNN模型和离散时间GNN模型。连续时间GNN模型使用类似常微分方程(ODE)的方法来刻画连续时间依赖;对于离散GNN模型来说,可以将一批带有时间戳的时序图数据分割成多个离散图快照,并且使用一个记忆模块来建模前后依赖信息。
现有技术中的部分时序图神经网络模型(例如EvolveGCN)使用离散图神经网络在不同时间戳上利用RNN来实现GCN的参数更新。但也只利用了时序信息,不利于提高异常数据预测的准确性。
为了解决上述多个问题中的至少一个问题,本发明方案中,获取预设时间段内的网络数据,按照预设时间窗长度分割成不同子时间段的符号图网络并构成符号图网络集合,其中,一个上述符号图网络中包括多个节点和至少一条边,最后一个上述子时间段的终止时刻为上述网络数据的终止时刻;分别获取各上述符号图网络对应的邻接矩阵,对于每一个上述符号图网络,根据该符号图网络对应的邻接矩阵分别获取该符号图网络中各个节点对应的第一节点表示;根据多种预设模体结构分别对各上述符号图网络进行模体结构统计以分别获得各上述符号图网络对应的模体矩阵,对于每一个上述符号图网络,根据该符号图网络对应的模体矩阵分别获取该符号图网络中各个节点对应的第二节点表示;对于每一个上述符号图网络,分别获取该符号图网络中各个节点对应的综合节点表示,其中,一个符号图网络中一个节点对应的综合节点表示由该符号图网络中该节点对应的第一节点表示和第二节点表示拼接获得;根据上述符号图网络集合中相同节点对应的所有综合节点表示,分别获得上述符号图网络集合中各上述节点对应的终止时刻动态节点表示;根据上述符号图网络集合中各上述节点对应的终止时刻动态节点表示和已训练的逻辑回归模型获取目标预测时刻的异常数据,其中,上述异常数据包括各上述节点在目标预测时刻的异常概率或各上述节点对应的边在目标预测时刻的异常概率,上述目标预测时刻是上述网络数据的终止时刻的后一个时刻。
与现有技术中相比,本发明方案中并不仅仅根据数据随时间变化的趋势进行异常数据预测,而是在获取符号图网络集合之后,获取体现符号图网络中符号信息的第一节点表示和体现符号图网络中局部拓扑结构信息的第二节点表示,综合两者获取各个符号图网络对应的综合节点表示(即综合节点表示中包含符号信息和局部拓扑结构信息)。同时,根据各个子时间段的符号图网络的综合节点表示,获取其中各个节点对应的终止时刻动态节点表示,终止时刻动态节点表示不仅包含上述符号信息和局部拓扑结构信息,还包括由各个子时间段体现的时序信息。因此,根据终止时刻动态节点表示进行异常数据预测时,综合了符号信息、局部拓扑结构信息和时序信息,有利于提高异常数据预测的准确性。
示例性方法
如图1所示,本发明实施例提供一种针对符号图网络的异常数据预测方法,具体的,上述方法包括如下步骤:
步骤S100,获取预设时间段内的网络数据,按照预设时间窗长度分割成不同子时间段的符号图网络并构成符号图网络集合,其中,一个上述符号图网络中包括多个节点和至少一条边,最后一个上述子时间段的终止时刻为上述网络数据的终止时刻。
本实施例中提供的上述针对符号网络的异常数据预测方法是一种基于图计算模型在动态符号图网络中进行节点(或边)的分类预测的方法,可以用于解决在动态图网络节点和边随时间变化的场景下节点或者边分类预测的任务,即预测下一个时刻节点或边的类别,从而确定下一个时刻节点或者边是否存在异常。需要说明的是,节点对应的异常数据预测和边对应的异常数据预测是两个任务,本实施例中提供的针对符号网络的异常数据预测方法可以用于执行上述两种任务中的任意一种。
其中,上述预设时间段是预先设置的进行数据采集的时间段,数据采集的起始时刻可以根据实际需求进行设置和调整,而数据采集一直到网络数据的终止时刻为止。
具体的,上述网络数据包括多个目标对象、上述目标对象之间的交互关系以及上述交互关系的生成时刻。进一步的,上述网络数据还可以包括各个目标对象的异常状态和各个交互关系的异常状态,即各个目标对象以及各个交互关系是正常还是异常。例如,当上述网络数据是交易网络数据时,目标对象正常代表账户正常,目标对象异常代表账户存在欺诈交易风险,交互关系正常代表是正常交易,交易关系异常代表是欺诈交易。
本实施例中,上述网络数据的终止时刻为当前时刻,对应的预设时间段是包括当前时刻在内的一个历史时间段。例如,需要采集一周的交易数据时,上述预设时间段是包括当前时刻在内的过去一周的交易数据,且根据交易数据可以构成对应的交易数据图。实际应用过程中,上述网络数据的终止时刻也可以是当前时刻之前的任意一个时刻,在此不作具体限定。
对应的,对上述预设时间段进行划分,可以获得多个子时间段,从而确定各个子时间段对应的符号图网络。一个符号图网络中包括多个目标节点和至少一条边,上述符号图网络中的一个节点代表一个目标对象,一条边用于连接两个节点且代表连接的两个节点之间的交互关系。
进一步的,上述获取预设时间段内的网络数据,按照预设时间窗长度分割成不同子时间段的符号图网络并构成符号图网络集合,包括:获取预设时间段内的网络数据,根据上述预设时间窗长度将所述预设时间段划分为多个子时间段;根据上述目标对象、上述交互关系以及各上述交互关系的生成时刻分别获取各上述子时间段对应的符号图网络,其中,一个子时间段对应的符号图网络中的边分别代表生成时刻属于该子时间段的交互关系;根据所有上述子时间段对应的符号图网络获得上述符号图网络集合。
其中,上述预设时间窗长度是预先设置的时间长度,根据该长度对预设时间段进行划分,具体的时间长度可以根据实际需求进行设置和调整,在此不作具体限定。本实施例中,上述预设时间窗长度用L代表,L的取值可以根据实际需求设置和调整。在划分后的符号图网络中,一条边连接的两个节点代表在该符号图网络中存在交互关系的两个节点。需要说明的是,一个符号图网络中,可以只包括在该符号图网络对应的子时间段内生成的边所对应的节点,也可以还包括在此之前生成的所有节点,在此不作具体限定。在一种应用场景中,各个符号图网络中的节点可以是固定的(即交易账户是固定的),不会产生新的节点,只是节点的异常状态可变,某一时刻可能发生欺诈交易等。在另一种应用场景中,节点也是可以随着时间变化而新增或减少的,在此不作具体限定。
具体的,本实施例中,将网络数据
Figure 502103DEST_PATH_IMAGE001
按照预设时间窗长度L分割成不同的时间戳图(即符号图网络),即划分为
Figure 49627DEST_PATH_IMAGE002
,分割时根据时间进行分割,具体的分割规则可以根据实际需求设置,例如根据时间窗长度进行均分,在此不作具体限定。本实施例中,
Figure 967905DEST_PATH_IMAGE003
代表由划分获得的第2个子时间段内的所有的边及其对应的节点构成的图。在一种应用场景中,
Figure 478652DEST_PATH_IMAGE004
代表发生在第
Figure 165985DEST_PATH_IMAGE005
个子时间段内的所有的边及其对应的节点构成的符号图网络,边所代表的交易关系的发生时间根据边对应的生成时刻确定。在另一种应用场景中,
Figure 618832DEST_PATH_IMAGE004
代表发生在第
Figure 758826DEST_PATH_IMAGE005
个划分时刻(例如
Figure 338843DEST_PATH_IMAGE006
)到第
Figure 270896DEST_PATH_IMAGE007
个划分时刻(例如
Figure 504431DEST_PATH_IMAGE008
)之间的边及其对应的节点构成的符号图网络。如此,通过对网络数据的划分获得多个符号图网络,能够在综合考虑时序信息的同时提高处理效率。
本实施例中,上述网络数据为交易数据,上述目标对象为交易账户,上述交互关系为交易关系。具体的,在一种应用场景中,网络数据是点和边构成的数据。以金融交易场景为例,原始文件的每一行包括转出账户和转入账户,转账金额和转账时间。根据这些信息可以构成一个转出账户与转入账户之间连边得到的交易图,每一条边上有一个时间戳(即该边对应的生成时刻),每一个边上的时间戳可能相同也可能不同。
对应的,最终获得的异常数据包括各上述交易账户在目标预测时刻进行欺诈交易的概率或各上述交易关系在目标预测时刻为欺诈交易的概率。如此,可以根据历史的交易数据对未来时刻各个账户或各个交易关系对应的欺诈交易概率进行预测,及时进行监听或防范,减小损失。
例如,在金融交易的场景中,在银行账户交易过程中,节点为账户,边为账户之间的交易。在真实世界中,随着时间的演变,新的节点和边不断产生。本实施例中针对节点和边所构成的结构随时间的演变进行建模,并对未来时刻节点或边的异常状态进行预测。其中,节点是一个实体,边是实体之间的关系。在一种具体应用场景中,预设时间段内的网络数据可以是过去一周的交易数据,构成一周的交易数据图,然后用第一天的数据形成第一个快照(即符号图网络),第二天的数据形成第二个快照,以此类推。在计算节点表示时,也可以设置节点表示更新的窗口长度,例如每两天滑动一个窗口,则第三天的节点表示根据第一天、第二天以及第三天的节点表示进行加权平均进行更新。
需要说明的是,对于本实施例中使用到的模型,其对应的训练过程与模型的使用过程是相似的,在此不一一赘述。
步骤S200,分别获取各上述符号图网络对应的邻接矩阵,对于每一个上述符号图网络,根据该符号图网络对应的邻接矩阵分别获取该符号图网络中各个节点对应的第一节点表示。
其中,一个节点的节点表示是该节点对应的用于表示该节点信息的向量,例如,可以通过GCN编码获得各个节点的节点表示。本实施例中,计算节点表示时,针对各个符号图网络进行相同的操作,本实施例中以对一个符号图网络的操作为例进行具体说明。
其中,上述邻接矩阵是用于表示节点之间相邻关系的矩阵,在GNN模型中,信息流按照邻接矩阵进行聚合。假设邻接矩阵为
Figure 131722DEST_PATH_IMAGE009
,则
Figure 249851DEST_PATH_IMAGE010
代表节点
Figure 380618DEST_PATH_IMAGE011
和节点
Figure 706426DEST_PATH_IMAGE012
之间有连边。根据各个符号图网络中节点之间的连接关系可以获取各个符号图网络的邻接矩阵。
具体的,本实施例中,上述分别获取各上述符号图网络对应的邻接矩阵,对于每一个上述符号图网络,根据该符号图网络对应的邻接矩阵分别获取该符号图网络中各个节点对应的第一节点表示,包括:分别获取各上述符号图网络对应的邻接矩阵;对于每一个上述符号图网络,根据该符号图网络对应的邻接矩阵,通过预设的图神经网络模型获取该符号图网络中各个节点对应的第一节点表示。
其中,上述预设的图神经网络模型是预先训练好的用于计算节点表示的GCN模型。
步骤S300,根据多种预设模体结构分别对各上述符号图网络进行模体结构统计以分别获得各上述符号图网络对应的模体矩阵,对于每一个上述符号图网络,根据该符号图网络对应的模体矩阵分别获取该符号图网络中各个节点对应的第二节点表示。
其中,上述多种预设模体结构是预先设置的多种模体结构。在图网络数据中,模体(motif)是常见的结构特征,是一个网络最基本的组成部分。图2是本发明实施例提供的预设模体结构示意图,如图2所示,本实施例中,预先设置8种预设模体结构,对于每一个符号图网络,分别对图2中每一种预设模体结构进行数量统计,获得符号图网络对应的模体矩阵。
具体的,上述根据多种预设模体结构分别对各上述符号图网络进行模体结构统计以分别获得各上述符号图网络对应的模体矩阵,对于每一个上述符号图网络,根据该符号图网络对应的模体矩阵分别获取该符号图网络中各个节点对应的第二节点表示,包括:根据多种预设模体结构分别对各上述符号图网络进行模体结构统计以分别获得各上述符号图网络对应的模体矩阵,其中,一个符号图网络的模体矩阵根据该符号图网络对应的多个模体统计矩阵求和获得,一个模体统计矩阵与一种预设模体结构对应,且一个模体统计矩阵中的各个元素分别代表对应的符号图网络中各个边上与该模体统计矩阵对应的预设模体结构的数目;对于每一个上述符号图网络,根据该符号图网络对应的模体矩阵,通过预设的图神经网络模型获取该符号图网络中各个节点对应的第二节点表示。
其中,一个符号图网络对应的模体矩阵中一个元素代表该符号图网络中对应的一条边上包括的上述预设模体结构的种类数,即该边上包括几种模体结构。具体的,一个符号图网络对应的模体矩阵是根据该符号图网络对应的8个模体统计矩阵加权求和获得,权重值可以根据实际需求进行设置和调整,也可以通过训练过程进行学习以确定最佳的取值,本实施例中以权重值都为1为例进行说明,即直接将8个模体统计矩阵相加获得符号图网络对应的模体矩阵。
具体的,对于某一个符号图网络,统计其每一条边上不同的预设模体结构的数量,当一条边作为一种预设模体结构的组成部分时,认为该边上有对应的预设模体结构。得到8种预设模体结构对应的8个模体统计矩阵,符号图网络
Figure 696378DEST_PATH_IMAGE013
对应的模体统计矩包括
Figure 742832DEST_PATH_IMAGE014
,其中,
Figure 728105DEST_PATH_IMAGE015
中的元素
Figure 693656DEST_PATH_IMAGE016
代表边
Figure 295539DEST_PATH_IMAGE016
上第
Figure 489891DEST_PATH_IMAGE017
种预设模体结构的数目,
Figure 126409DEST_PATH_IMAGE017
是1到8的整数,
Figure 280439DEST_PATH_IMAGE011
Figure 369618DEST_PATH_IMAGE012
各代表一个节点。符号图网络
Figure 367661DEST_PATH_IMAGE013
对应的模体矩阵
Figure 248898DEST_PATH_IMAGE018
,其中,
Figure 697197DEST_PATH_IMAGE019
Figure 617879DEST_PATH_IMAGE020
代表对应的权重值,其取值在此不作具体限定。
在一种应用场景中,使用PGD方法进行模体结构的统计,实际使用过程中,还可以使用其它方法,在此不作具体限定。
具体的,本实施例中,在获得各个符号图网络对应的模体矩阵之后,使用模体矩阵代替GCN模型需要的邻接矩阵,根据模体矩阵通过对应的GCN模型计算获得各个节点对应的第二节点表示。如此,在模型训练(和使用)过程中融入子图局部结构信息,可以提高异常数据预测的准确性。
进一步的,本实施例中,还结合平衡理论指导训练过程,平衡理论是一种在社交网络中刻画态度变化的一种理论,主要观点可以表述为:朋友的朋友是朋友、敌人的朋友是敌人、敌人的朋友是敌人、敌人的敌人是朋友。图3是本发明实施例提供的一种平衡三角形结构与非平衡三角形结构的示意图,图3中,左侧两个三角形(即虚线框中的三角形)是平衡三角形,右侧两个三角形是非平衡三角形。平衡关系对于下游任务有很好的指导意义,例如在建模中在不同关系下使用不同的信息流。具体的,图3中标记为符号+的代表正常的边,标记为符号-的代表异常的边,
Figure 544247DEST_PATH_IMAGE011
Figure 14411DEST_PATH_IMAGE021
Figure 102453DEST_PATH_IMAGE022
则分别代表一个节点,本实施例中,对于一个结构,如果其具有奇数条正常边则代表结构正常(即平衡),反之则代表结构异常。本实施例中,结合平衡理论,可以结合网络中的预设模体结构融合平衡理论进行建模,以建立正常的结构为目标,同时还可以融合时间偏移,将每个时间戳获得的节点表示信息进行时间维度上的聚合,提高预测的准确性。具体的,本实施例中提供一种同时考虑动态图演变、局部motif结构和符号网络中平衡信息的异常数据预测方法,有利于提高异常数据预测的准确性和预测效果。
在本实施例中的GCN模型(即预设的图神经网络模型)的训练或使用过程中,输入图结构数据(即符号图网络),在一个时间戳对应的符号图网络
Figure 307169DEST_PATH_IMAGE013
上,基于符号聚合的方式获得第一节点表示,基于模体聚合的方式获得第二节点表示。
图4是本发明实施例提供的一种符号聚合方式的示意图,如图4所示,根据平衡理论,令每一个节点均有一个正节点表示和一个负节点表示,并使用GCN模型根据边的符号(正或者负)进行正边聚合和负边聚合,具体的聚合方式可以参照图4,当边的符号为正时,邻居节点的正节点表示会对应用于更新当前节点的正节点表示,邻居节点的负节点表示会对应更新当前节点的负节点表示。当边的符号为负时,邻居节点的正节点表示会交叉更新当前节点的负节点表示,邻居节点的负节点表示会交叉更新当前节点的正节点表示。最终,获得符号图网络
Figure 37228DEST_PATH_IMAGE023
上所有节点的正节点向量表示矩阵和负节点向量表示矩阵。其中,一个节点表示是一个向量,一个符号图网络中,所有节点的正节点表示构成一个向量矩阵,即正节点向量表示矩阵,同样的,所有节点的负节点表示也构成一个向量矩阵,即负节点向量表示矩阵。
具体的,在训练集中,对边进行标记,边的符号为正时代表这笔交易正常。使用上述方法进行边的异常数据预测时,知晓预设时间段内的边的表示(即向量),预测下一时刻边的表示,并确定是否异常。使用上述方法进行点的异常数据预测时,知晓预设时间段内的点的表示,预测下一时刻点的表示。需要说明的是,本实施例中节点的表示或边的表示代表节点对应的向量或边对应的向量。本实施例中,节点对应的第一节点表示包括该节点对应的正节点表示和负节点表示,而第二节点表示则不分正负。
需要说明的是,在基于符号聚合的方式获得第一节点表示和基于模体聚合的方式获得第二节点表示的过程中,可以使用同一个GCN模型,也可以使用两个分别训练的GCN模型,本实施例中以使用同一个GCN模型为例进行具体介绍,但不作具体限定。
图5是本发明实施例提供的一种GCN模型的结构示意图,如图5所示,上述GCN模型具有多个隐层,X是输入数据,每一层根据图5中所示公式进行计算,其中,
Figure 361899DEST_PATH_IMAGE024
代表层数,
Figure 620842DEST_PATH_IMAGE025
代表加入自循环的邻接矩阵
Figure 781696DEST_PATH_IMAGE026
代表激活函数(具体应用过程中可以选用
Figure 49866DEST_PATH_IMAGE027
函数),
Figure 838831DEST_PATH_IMAGE028
代表第
Figure 924467DEST_PATH_IMAGE029
层的输出,
Figure 697251DEST_PATH_IMAGE030
代表第
Figure 644479DEST_PATH_IMAGE024
层的权重矩阵。基于图5所示的GCN模型,根据如下公式(1)和(2)获得符号图网络
Figure 943742DEST_PATH_IMAGE023
对应的正节点向量表示矩阵和负节点向量表示矩阵:
Figure 810067DEST_PATH_IMAGE031
Figure 804568DEST_PATH_IMAGE032
需要说明的是,上述GCN模型结合邻接矩阵和符号矩阵计算获得各个节点对应的正节点表示和负节点表示(一个节点的第一节点表示包括该节点的正节点表示和负节点表示),并构成对应的节点表表示矩阵。其中,
Figure 289907DEST_PATH_IMAGE033
代表正节点向量表示矩阵,
Figure 319043DEST_PATH_IMAGE034
代表负节点向量表示矩阵,
Figure 480903DEST_PATH_IMAGE027
代表激活函数,
Figure 962699DEST_PATH_IMAGE035
代表
Figure 251729DEST_PATH_IMAGE036
时刻的符号矩阵,
Figure 400951DEST_PATH_IMAGE037
代表
Figure 999292DEST_PATH_IMAGE036
时刻符号矩阵中的正元素矩阵,
Figure 968385DEST_PATH_IMAGE038
代表
Figure 795526DEST_PATH_IMAGE036
时刻符号矩阵中的负元素矩阵,
Figure 533675DEST_PATH_IMAGE039
代表
Figure 308776DEST_PATH_IMAGE036
时刻的邻接矩阵,
Figure 765165DEST_PATH_IMAGE040
代表
Figure 255053DEST_PATH_IMAGE036
时刻该符号图网络的正边数,
Figure 723074DEST_PATH_IMAGE041
代表
Figure 194376DEST_PATH_IMAGE036
时刻该符号图网络的负边数,
Figure 138061DEST_PATH_IMAGE042
代表正聚合权重,
Figure 572584DEST_PATH_IMAGE043
代表负聚合权重,
Figure 19746DEST_PATH_IMAGE044
代表正偏移项,
Figure 865211DEST_PATH_IMAGE045
代表负偏移项。其中,上述正聚合权重、负聚合权重、正偏移项和负偏移项可以根据实际需求设置和调整,在此不作具体限定。
图6是本发明实施例提供的一种模体聚合方式的示意图,如图6所示,根据模体聚合方式,可以进行聚合并统计确定各条边在模体矩阵中对应的元素的值。需要说明的是,在GCN模型中,使用邻接矩阵可以进行邻居信息聚合,从而获得对应的第一节点表示。而本实施例中,在获得模体矩阵之后,使用模体矩阵代替上述邻接矩阵,输入到上述GCN模型中,引入模体信息(即拓扑结构信息),结合模体矩阵,通过GCN模型获取第二节点表示。本实施例中,模体矩阵
Figure 296193DEST_PATH_IMAGE046
,而
Figure 127882DEST_PATH_IMAGE036
时刻符号图网络所对应的所有节点的第二节点表示所构成的模体表示矩阵
Figure 836075DEST_PATH_IMAGE047
则根据如下公式(3)计算获得:
Figure 383600DEST_PATH_IMAGE048
其中,
Figure 301878DEST_PATH_IMAGE049
代表特征矩阵,
Figure 78204DEST_PATH_IMAGE050
代表第1层的权重矩阵,
Figure 499958DEST_PATH_IMAGE051
代表第二层权重矩阵。
步骤S400,对于每一个上述符号图网络,分别获取该符号图网络中各个节点对应的综合节点表示,其中,一个符号图网络中一个节点对应的综合节点表示由该符号图网络中该节点对应的第一节点表示和第二节点表示拼接获得。
本实施例中,将第一节点表示和第二节点表示拼接获得综合节点表示,使得节点表示的信息相融合。
步骤S500,根据上述符号图网络集合中相同节点对应的所有综合节点表示,分别获得上述符号图网络集合中各上述节点对应的终止时刻动态节点表示。
具体的,对于任意一个节点,结合其在不同时间戳下对应的符号图网络中的综合节点表示融入时序信息,并最终获得各个节点在网络数据的终止时刻对应的终止时刻动态节点表示。在一种应用场景中,只计算最后一个符号图网络中各个节点对应的终止时刻动态节点表示,以获得更好的预测效果。在另一种应用场景中,可以认为从第一个符号图网络开始,在各个符号图网络中会保留所有的节点,因此,最后一个符号图网络中包括所有的节点,针对最后一个符号图网络中的节点进行终止时刻动态节点表示的计算相当于计算所有符号图网络中所有节点的终止时刻动态节点表示。需要说明的是,可以根据节点对应的ID确定不同符号图网络中的节点是否为相同节点,并且对于相同节点,计算后获得相同的终止时刻动态节点表示。
进一步的,在进行终止时刻动态节点表示的计算时,可以计算该节点对应的所有综合节点表示的均值(或加权平均值),以综合考虑获得的所有时序信息、模体结构信息和符号信息计算获得终止时刻动态节点表示。在一种应用场景中,也可以仅根据其中部分综合节点表示进行加权平均,例如只取当前时刻对应的综合节点表示以及距离当前时刻最近的若干个综合节点表示计算平均值,以避免选用了过早的信息而降低预测准确性。
本实施例中,上述根据上述符号图网络集合中相同节点对应的所有综合节点表示,分别获得上述符号图网络集合中各上述节点对应的终止时刻动态节点表示,包括:将上述符号图网络集合中相同节点对应的所有综合节点表示进行加权平均,分别获得上述符号图网络集合中各上述节点对应的终止时刻动态节点表示。
具体的,对于上述符号图网络集合(或最后一个符号图网络)中的任意一个节点,获取所有与其相同的节点所对应的综合节点表示,然后加权平均获得对应的终止时刻动态节点表示。
图7是本发明实施例提供的一种针对符号图网络的异常数据预测方法的具体流程示意图,如图7所示,本实施例中,获取每个离散时间戳对应的符号图网络,然后获取其中各个节点对应的综合节点表示。图7中,①代表基于邻接矩阵和符号矩阵获得第一节点表示,②代表基于模体矩阵获得第二节点表示,将两者拼接可以获得节点对应的综合节点表示。然后使用窗口加权平均的方式将历史的综合节点表示与当前的综合节点表示相融合(当前时间戳与一定时间窗口内的历史时间戳上的综合节点表示进行加权平均)来融入时序依赖信息。具体的,在获取每个时间戳的节点表示过程中,我们使用平衡理论和局部拓扑信息来指导信息流的传播,最终获得的终止时刻动态节点表示同时具有网络符号信息、时序信息和局部拓扑信息,可以根据终止时刻动态节点表示执行后续的异常预测任务,获得更好的预测效果。
图7中,
Figure 687226DEST_PATH_IMAGE052
Figure 827220DEST_PATH_IMAGE053
Figure 266292DEST_PATH_IMAGE036
代表不同时间点,在每个时间点上有一个静态图网络(即符号图网络)。时间窗口等于2表示将前两个时间戳得到的综合节点表示与当前的综合节点表示加权平均,时间窗口的具体值可以根据实际需求设置和调整,在此不作具体限定。①和②代表两种不同的聚合方式,符号聚合和模体结构聚合,这两种聚合方式都通过GCN模型实现。最后一个时间戳
Figure 683498DEST_PATH_IMAGE054
的终止时刻动态节点表示用于对下一个时间点
Figure 182612DEST_PATH_IMAGE053
进行预测。
本实施例中,获得的终止时刻动态节点表示由正动态节点表示和负动态节点表示拼接获得,具体的,根据如下公式(4)、(5)和(6)进行计算:
Figure 465695DEST_PATH_IMAGE056
Figure 583823DEST_PATH_IMAGE058
Figure 714590DEST_PATH_IMAGE059
其中,
Figure 509240DEST_PATH_IMAGE060
是时间戳
Figure 623827DEST_PATH_IMAGE036
对应的符号图网络中各节点对应的正动态节点表示所构成的正动态表示矩阵,
Figure 139122DEST_PATH_IMAGE061
是时间戳
Figure 530920DEST_PATH_IMAGE036
对应的符号图网络中各节点对应的负动态节点表示所构成的负动态表示矩阵,
Figure 371837DEST_PATH_IMAGE062
是权重矩阵,
Figure 629512DEST_PATH_IMAGE063
是调节motif影响程度的参数,可以根据实际需求设置和调整。
Figure 89443DEST_PATH_IMAGE047
是时间戳
Figure 194802DEST_PATH_IMAGE036
对应的符号图网络的模体表示矩阵,
Figure 590974DEST_PATH_IMAGE064
是时间戳
Figure 148995DEST_PATH_IMAGE053
对应的符号图网络中各节点对应的正动态节点表示所构成的正动态表示矩阵,
Figure 412617DEST_PATH_IMAGE065
是时间戳
Figure 372482DEST_PATH_IMAGE053
对应的符号图网络中各节点对应的负动态节点表示所构成的负动态表示矩阵。
Figure 555202DEST_PATH_IMAGE066
是时间戳
Figure 990732DEST_PATH_IMAGE036
对应的符号图网络中各节点对应的终止时刻动态节点表示所构成的终止时刻动态节点表示矩阵,
Figure 323624DEST_PATH_IMAGE067
代表拼接。对应的,
Figure 669155DEST_PATH_IMAGE068
是时间戳
Figure 147409DEST_PATH_IMAGE036
对应的符号图网络中节点
Figure 945601DEST_PATH_IMAGE069
对应的终止时刻动态节点表示。根据上述公式(4)、(5)和(6),可以对逐个符号图网络中的节点的表示进行更新并最终获得时间戳
Figure 410080DEST_PATH_IMAGE036
对应的符号图网络中各个节点对应的终止时刻动态节点表示。
步骤S600,根据上述符号图网络集合中各上述节点对应的终止时刻动态节点表示和已训练的逻辑回归模型获取目标预测时刻的异常数据,其中,上述异常数据包括各上述节点在目标预测时刻的异常概率或各上述节点对应的边在目标预测时刻的异常概率,上述目标预测时刻是上述网络数据的终止时刻的后一个时刻。
本实施例中,以一个时刻代表一个时间戳,两个相邻的时间戳(如
Figure 219905DEST_PATH_IMAGE036
Figure 10006DEST_PATH_IMAGE070
)之间相隔一个时刻为例进行说明,其中
Figure 420128DEST_PATH_IMAGE036
为当前时刻(即网络数据的终止时刻),
Figure 688298DEST_PATH_IMAGE070
为目标预测时刻。则可以将
Figure 883787DEST_PATH_IMAGE036
时刻对应的终止时刻动态节点表示输入到已训练的逻辑回归模型中进行分类,确定节点(或边)是否异常。上述逻辑回归模型中使用softmax函数进行分类并获取异常概率。具体的,对
Figure 969424DEST_PATH_IMAGE070
时刻进行预测时,使用
Figure 476628DEST_PATH_IMAGE036
时刻产生的终止时刻动态节点表示利用softmax进行节点分类任务(如果是边分类任务,则将边上相邻的两个节点连接起来作为边的表示向量)。
具体的,上述逻辑回归模型根据如下步骤进行预先训练:将训练数据中的训练时刻动态节点表示输入上述逻辑回归模型,通过上述逻辑回归模型生成上述训练时刻动态节点表示对应的预测时刻异常数据,其中,上述训练数据包括多组训练信息组,每一组训练信息组包括训练时刻动态节点表示和预测时刻标注异常数据,预测时刻是训练时刻的后一个时刻;根据上述预测时刻标注异常数据和上述预测时刻异常数据,对上述逻辑回归模型的模型参数进行调整,并继续执行上述将训练数据中的训练时刻动态节点表示输入上述逻辑回归模型的步骤,直至满足预设训练条件,以得到已训练的逻辑回归模型。
其中,上述预测时刻标注异常数据包括边的异常概率或节点的异常概率。上述逻辑回归模型在训练过程中使用交叉熵损失函数计算上述预测时刻标注异常数据和上述预测时刻异常数据之间的损失值。
图8是本发明实施例提供的一种逻辑回归模型具体训练流程示意图,如图8所示,在对逻辑回归模型进行训练时,也基于本实施例提供的针对符号图网络的异常数据预测方法先处理获得训练数据,具体的,先针对图数据(即网络数据)进行数据划分获得各个分时图数据(即各个符号图网络),然后根据符号聚合的方式获得第一节点表示,根据motif聚合的方式获得第二节点表示,将两者聚合获得综合节点表示,并进行节点表示时序更新获得对应训练时刻动态节点表示。如此,融入时序信息建模前后时间戳节点表示的时序依赖。将训练时刻动态节点表示输入到逻辑回归模型中,通过softmax函数计算异常概率,然后通过loss反向传播的方式进行模型训练。具体的,如下公式(7)和(8)所示:
Figure 282910DEST_PATH_IMAGE071
Figure 332906DEST_PATH_IMAGE072
其中,
Figure 199231DEST_PATH_IMAGE073
代表根据
Figure 318365DEST_PATH_IMAGE036
时刻的符号图网络对应的终止时刻动态节点表示矩阵预测获得的异常概率所构成的矩阵。
Figure 928338DEST_PATH_IMAGE074
代表预测时刻标注异常数据,
Figure 363999DEST_PATH_IMAGE075
Figure 525859DEST_PATH_IMAGE076
代表计算获得的交叉熵损失。
Figure 476497DEST_PATH_IMAGE077
代表预测的节点或者边的总数本实施例中以边为例进行具体说明,则
Figure 14795DEST_PATH_IMAGE078
代表预测时刻标注异常数据中第
Figure 39383DEST_PATH_IMAGE069
条边的异常概率,
Figure 174741DEST_PATH_IMAGE079
代表第
Figure 143834DEST_PATH_IMAGE011
Figure 970976DEST_PATH_IMAGE069
条边对应的预测出的异常概率。
进一步的,在上述根据上述符号图网络集合中各上述节点对应的终止时刻动态节点表示和已训练的逻辑回归模型获取目标预测时刻的异常数据之后,上述方法还包括:获取异常概率阈值,根据上述异常数据和上述异常概率阈值获取目标异常节点或目标异常边。
其中,上述异常概率阈值可以预先设置或根据实际需求进行调整,在此不作具体限定。
本实施例中,在计算节点表示的过程中,同时考虑节点的符号信息(边的正负号带来的信息,可以影响信息的流动)、局部拓扑结构信息和时序信息,使得最终的动态节点表示信息量更丰富,使得最终的预测更加准确。从而在下游的分类任务重,相比现有技术中的其它方式可以获得更好的分类效果,例如,可以使得AUC(Area under curve)指标提升百分之二十,提高分类准确性。
由上可见,本实施例方案中,并不仅仅根据数据随时间变化的趋势进行异常数据预测,而是在获取符号图网络集合之后,获取体现符号图网络中符号信息的第一节点表示和体现符号图网络中局部拓扑结构信息的第二节点表示,综合两者获取各个符号图网络对应的综合节点表示(即综合节点表示中包含符号信息和局部拓扑结构信息)。同时,根据各个子时间段的符号图网络的综合节点表示,获取其中各个节点对应的终止时刻动态节点表示,终止时刻动态节点表示不仅包含上述符号信息和局部拓扑结构信息,还包括由各个子时间段体现的时序信息。因此,根据终止时刻动态节点表示进行异常数据预测时,综合了符号信息、局部拓扑结构信息和时序信息,有利于提高异常数据预测的准确性。
示例性设备
如图9中所示,对应于上述针对符号图网络的异常数据预测方法,本发明实施例还提供一种针对符号图网络的异常数据预测系统,上述针对符号图网络的异常数据预测系统包括:
数据获取模块710,用于获取预设时间段内的网络数据,按照预设时间窗长度分割成不同子时间段的符号图网络并构成符号图网络集合,其中,一个上述符号图网络中包括多个节点和至少一条边,最后一个上述子时间段的终止时刻为上述网络数据的终止时刻;
第一节点表示获取模块720,用于分别获取各上述符号图网络对应的邻接矩阵,对于每一个上述符号图网络,根据该符号图网络对应的邻接矩阵分别获取该符号图网络中各个节点对应的第一节点表示;
第二节点表示获取模块730,用于根据多种预设模体结构分别对各上述符号图网络进行模体结构统计以分别获得各上述符号图网络对应的模体矩阵,对于每一个上述符号图网络,根据该符号图网络对应的模体矩阵分别获取该符号图网络中各个节点对应的第二节点表示;
综合节点表示获取模块740,用于对于每一个上述符号图网络,分别获取该符号图网络中各个节点对应的综合节点表示,其中,一个符号图网络中一个节点对应的综合节点表示由该符号图网络中该节点对应的第一节点表示和第二节点表示拼接获得;
动态节点表示获取模块750,用于根据上述符号图网络集合中相同节点对应的所有综合节点表示,分别获得上述符号图网络集合中各上述节点对应的终止时刻动态节点表示;
异常数据获取模块760,用于根据上述符号图网络集合中各上述节点对应的终止时刻动态节点表示和已训练的逻辑回归模型获取目标预测时刻的异常数据,其中,上述异常数据包括各上述节点在目标预测时刻的异常概率或各上述节点对应的边在目标预测时刻的异常概率,上述目标预测时刻是上述网络数据的终止时刻的后一个时刻。
具体的,本实施例中,上述针对符号图网络的异常数据预测系统及其各模块的具体功能可以参照上述针对符号图网络的异常数据预测方法中的对应描述,在此不再赘述。
需要说明的是,上述针对符号图网络的异常数据预测系统的各个模块的划分方式并不唯一,在此也不作为具体限定。
基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图10所示。上述智能终端包括处理器及存储器。该智能终端的存储器包括针对符号图网络的异常数据预测程序,存储器为针对符号图网络的异常数据预测程序的运行提供环境。该针对符号图网络的异常数据预测程序被处理器执行时实现上述任意一种针对符号图网络的异常数据预测方法的步骤。需要说明的是,上述智能终端还可以包括其它功能模块或单元,在此不作具体限定。
本领域技术人员可以理解,图10中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体地智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本发明实施例还提供一种计算机可读存储介质,上述计算机可读存储介质上存储有针对符号图网络的异常数据预测程序,上述针对符号图网络的异常数据预测程序被处理器执行时实现本发明实施例提供的任意一种针对符号图网络的异常数据预测方法的步骤。
应理解,上述实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述系统的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的系统/智能终端和方法,可以通过其它的方式实现。例如,以上所描述的系统/智能终端实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以由另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不是相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (14)

1.一种针对符号图网络的异常数据预测方法,其特征在于,所述方法包括:
获取预设时间段内的网络数据,按照预设时间窗长度分割成不同子时间段的符号图网络并构成符号图网络集合,其中,一个所述符号图网络中包括多个节点和至少一条边,最后一个所述子时间段的终止时刻为所述网络数据的终止时刻;
分别获取各所述符号图网络对应的邻接矩阵,对于每一个所述符号图网络,根据该符号图网络对应的邻接矩阵分别获取该符号图网络中各个节点对应的第一节点表示;
根据多种预设模体结构分别对各所述符号图网络进行模体结构统计以分别获得各所述符号图网络对应的模体矩阵,对于每一个所述符号图网络,根据该符号图网络对应的模体矩阵分别获取该符号图网络中各个节点对应的第二节点表示;
对于每一个所述符号图网络,分别获取该符号图网络中各个节点对应的综合节点表示,其中,一个符号图网络中一个节点对应的综合节点表示由该符号图网络中该节点对应的第一节点表示和第二节点表示拼接获得;
根据所述符号图网络集合中相同节点对应的所有综合节点表示,分别获得所述符号图网络集合中各所述节点对应的终止时刻动态节点表示;
根据所述符号图网络集合中各所述节点对应的终止时刻动态节点表示和已训练的逻辑回归模型获取目标预测时刻的异常数据,其中,所述异常数据包括各所述节点在目标预测时刻的异常概率或各所述节点对应的边在目标预测时刻的异常概率,所述目标预测时刻是所述网络数据的终止时刻的后一个时刻。
2.根据权利要求1所述的针对符号图网络的异常数据预测方法,其特征在于,所述网络数据包括多个目标对象、所述目标对象之间的交互关系以及所述交互关系的生成时刻。
3.根据权利要求2所述的针对符号图网络的异常数据预测方法,其特征在于,所述符号图网络中的一个节点代表一个目标对象,一条边用于连接两个节点且代表连接的两个节点之间的交互关系,所述获取预设时间段内的网络数据,按照预设时间窗长度分割成不同子时间段的符号图网络并构成符号图网络集合,包括:
获取预设时间段内的网络数据,根据所述预设时间窗长度将所述预设时间段划分为多个子时间段;
根据所述目标对象、所述交互关系以及各所述交互关系的生成时刻分别获取各所述子时间段对应的符号图网络,其中,一个子时间段对应的符号图网络中的边分别代表生成时刻属于该子时间段的交互关系;
根据所有所述子时间段对应的符号图网络获得所述符号图网络集合。
4.根据权利要求2或3所述的针对符号图网络的异常数据预测方法,其特征在于,所述网络数据为交易数据,所述目标对象为交易账户,所述交互关系为交易关系。
5.根据权利要求4所述的针对符号图网络的异常数据预测方法,其特征在于,所述异常数据包括各所述交易账户在目标预测时刻进行欺诈交易的概率或各所述交易关系在目标预测时刻为欺诈交易的概率。
6.根据权利要求1所述的针对符号图网络的异常数据预测方法,其特征在于,所述分别获取各所述符号图网络对应的邻接矩阵,对于每一个所述符号图网络,根据该符号图网络对应的邻接矩阵分别获取该符号图网络中各个节点对应的第一节点表示,包括:
分别获取各所述符号图网络对应的邻接矩阵;
对于每一个所述符号图网络,根据该符号图网络对应的邻接矩阵,通过预设的图神经网络模型获取该符号图网络中各个节点对应的第一节点表示。
7.根据权利要求1所述的针对符号图网络的异常数据预测方法,其特征在于,所述根据多种预设模体结构分别对各所述符号图网络进行模体结构统计以分别获得各所述符号图网络对应的模体矩阵,对于每一个所述符号图网络,根据该符号图网络对应的模体矩阵分别获取该符号图网络中各个节点对应的第二节点表示,包括:
根据多种预设模体结构分别对各所述符号图网络进行模体结构统计以分别获得各所述符号图网络对应的模体矩阵,其中,一个符号图网络的模体矩阵根据该符号图网络对应的多个模体统计矩阵求和获得,一个模体统计矩阵与一种预设模体结构对应,且一个模体统计矩阵中的各个元素分别代表对应的符号图网络中各个边上与该模体统计矩阵对应的预设模体结构的数目;
对于每一个所述符号图网络,根据该符号图网络对应的模体矩阵,通过预设的图神经网络模型获取该符号图网络中各个节点对应的第二节点表示。
8.根据权利要求1所述的针对符号图网络的异常数据预测方法,其特征在于,所述根据所述符号图网络集合中相同节点对应的所有综合节点表示,分别获得所述符号图网络集合中各所述节点对应的终止时刻动态节点表示,包括:
将所述符号图网络集合中相同节点对应的所有综合节点表示进行加权平均,分别获得所述符号图网络集合中各所述节点对应的终止时刻动态节点表示。
9.根据权利要求1所述的针对符号图网络的异常数据预测方法,其特征在于,所述逻辑回归模型根据如下步骤进行预先训练:
将训练数据中的训练时刻动态节点表示输入所述逻辑回归模型,通过所述逻辑回归模型生成所述训练时刻动态节点表示对应的预测时刻异常数据,其中,所述训练数据包括多组训练信息组,每一组训练信息组包括训练时刻动态节点表示和预测时刻标注异常数据,预测时刻是训练时刻的后一个时刻;
根据所述预测时刻标注异常数据和所述预测时刻异常数据,对所述逻辑回归模型的模型参数进行调整,并继续执行所述将训练数据中的训练时刻动态节点表示输入所述逻辑回归模型的步骤,直至满足预设训练条件,以得到已训练的逻辑回归模型。
10.根据权利要求9所述的针对符号图网络的异常数据预测方法,其特征在于,所述逻辑回归模型在训练过程中使用交叉熵损失函数计算所述预测时刻标注异常数据和所述预测时刻异常数据之间的损失值。
11.根据权利要求1所述的针对符号图网络的异常数据预测方法,其特征在于,在所述根据所述符号图网络集合中各所述节点对应的终止时刻动态节点表示和已训练的逻辑回归模型获取目标预测时刻的异常数据之后,所述方法还包括:
获取异常概率阈值,根据所述异常数据和所述异常概率阈值获取目标异常节点或目标异常边。
12.一种针对符号图网络的异常数据预测系统,其特征在于,所述系统包括:
数据获取模块,用于获取预设时间段内的网络数据,按照预设时间窗长度分割成不同子时间段的符号图网络并构成符号图网络集合,其中,一个所述符号图网络中包括多个节点和至少一条边,最后一个所述子时间段的终止时刻为所述网络数据的终止时刻;
第一节点表示获取模块,用于分别获取各所述符号图网络对应的邻接矩阵,对于每一个所述符号图网络,根据该符号图网络对应的邻接矩阵分别获取该符号图网络中各个节点对应的第一节点表示;
第二节点表示获取模块,用于根据多种预设模体结构分别对各所述符号图网络进行模体结构统计以分别获得各所述符号图网络对应的模体矩阵,对于每一个所述符号图网络,根据该符号图网络对应的模体矩阵分别获取该符号图网络中各个节点对应的第二节点表示;
综合节点表示获取模块,用于对于每一个所述符号图网络,分别获取该符号图网络中各个节点对应的综合节点表示,其中,一个符号图网络中一个节点对应的综合节点表示由该符号图网络中该节点对应的第一节点表示和第二节点表示拼接获得;
动态节点表示获取模块,用于根据所述符号图网络集合中相同节点对应的所有综合节点表示,分别获得所述符号图网络集合中各所述节点对应的终止时刻动态节点表示;
异常数据获取模块,用于根据所述符号图网络集合中各所述节点对应的终止时刻动态节点表示和已训练的逻辑回归模型获取目标预测时刻的异常数据,其中,所述异常数据包括各所述节点在目标预测时刻的异常概率或各所述节点对应的边在目标预测时刻的异常概率,所述目标预测时刻是所述网络数据的终止时刻的后一个时刻。
13.一种智能终端,其特征在于,所述智能终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的针对符号图网络的异常数据预测程序,所述针对符号图网络的异常数据预测程序被所述处理器执行时实现如权利要求1-11任意一项所述针对符号图网络的异常数据预测方法的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有针对符号图网络的异常数据预测程序,所述针对符号图网络的异常数据预测程序被处理器执行时实现如权利要求1-11任意一项所述针对符号图网络的异常数据预测方法的步骤。
CN202211653135.9A 2022-12-22 2022-12-22 针对符号图网络的异常数据预测方法、系统及相关设备 Active CN115640337B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211653135.9A CN115640337B (zh) 2022-12-22 2022-12-22 针对符号图网络的异常数据预测方法、系统及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211653135.9A CN115640337B (zh) 2022-12-22 2022-12-22 针对符号图网络的异常数据预测方法、系统及相关设备

Publications (2)

Publication Number Publication Date
CN115640337A true CN115640337A (zh) 2023-01-24
CN115640337B CN115640337B (zh) 2023-03-14

Family

ID=84947933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211653135.9A Active CN115640337B (zh) 2022-12-22 2022-12-22 针对符号图网络的异常数据预测方法、系统及相关设备

Country Status (1)

Country Link
CN (1) CN115640337B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117391125A (zh) * 2023-12-08 2024-01-12 成都星幔长庚科技有限公司 一种基于神经网络的数据处理方法及系统
CN117828536A (zh) * 2024-03-04 2024-04-05 粤港澳大湾区数字经济研究院(福田) 节点交互的预测方法、模型、终端及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944613A (zh) * 2017-11-17 2018-04-20 湖南大学 一种基于符号网络的灾变预测方法
CN110365583A (zh) * 2019-07-17 2019-10-22 南京航空航天大学 一种基于桥接域迁移学习的符号预测方法及系统
CN111079931A (zh) * 2019-12-27 2020-04-28 浙江大学 一种基于图神经网络的状态空间概率性多时间序列预测方法
CN111859384A (zh) * 2020-07-23 2020-10-30 平安证券股份有限公司 异常事件监控方法、装置、计算机设备及存储介质
EP3832487A1 (en) * 2019-12-06 2021-06-09 Accenture Global Solutions Limited Systems and methods driven by link-specific numeric information for predicting associations based on predicate types
CA3131843A1 (en) * 2020-09-25 2022-03-25 Royal Bank Of Canada System and method for structure learning for graph neural networks
CN114548002A (zh) * 2021-12-08 2022-05-27 国网河北省电力有限公司培训中心 一种保护原理图动作时序仿真分析计算方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944613A (zh) * 2017-11-17 2018-04-20 湖南大学 一种基于符号网络的灾变预测方法
CN110365583A (zh) * 2019-07-17 2019-10-22 南京航空航天大学 一种基于桥接域迁移学习的符号预测方法及系统
EP3832487A1 (en) * 2019-12-06 2021-06-09 Accenture Global Solutions Limited Systems and methods driven by link-specific numeric information for predicting associations based on predicate types
CN111079931A (zh) * 2019-12-27 2020-04-28 浙江大学 一种基于图神经网络的状态空间概率性多时间序列预测方法
CN111859384A (zh) * 2020-07-23 2020-10-30 平安证券股份有限公司 异常事件监控方法、装置、计算机设备及存储介质
CA3131843A1 (en) * 2020-09-25 2022-03-25 Royal Bank Of Canada System and method for structure learning for graph neural networks
CN114548002A (zh) * 2021-12-08 2022-05-27 国网河北省电力有限公司培训中心 一种保护原理图动作时序仿真分析计算方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117391125A (zh) * 2023-12-08 2024-01-12 成都星幔长庚科技有限公司 一种基于神经网络的数据处理方法及系统
CN117391125B (zh) * 2023-12-08 2024-03-01 成都星幔长庚科技有限公司 一种基于神经网络的数据处理方法及系统
CN117828536A (zh) * 2024-03-04 2024-04-05 粤港澳大湾区数字经济研究院(福田) 节点交互的预测方法、模型、终端及介质
CN117828536B (zh) * 2024-03-04 2024-06-11 粤港澳大湾区数字经济研究院(福田) 节点交互的预测方法、模型、终端及介质

Also Published As

Publication number Publication date
CN115640337B (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
CN115640337B (zh) 针对符号图网络的异常数据预测方法、系统及相关设备
CN112270545A (zh) 基于迁移样本筛选的金融风险预测方法、装置和电子设备
CN111598143B (zh) 基于信用评估的面向联邦学习中毒攻击的防御方法
CN111737546B (zh) 确定实体业务属性的方法及装置
US11283991B2 (en) Method and system for tuning a camera image signal processor for computer vision tasks
CN105989441A (zh) 模型参数调整方法和装置
CN110942248B (zh) 交易风控网络的训练方法及装置、交易风险检测方法
CN116010684A (zh) 物品推荐方法、装置及存储介质
CN110264270A (zh) 一种行为预测方法、装置、设备和存储介质
CN113609345B (zh) 目标对象关联方法和装置、计算设备以及存储介质
CN116402352A (zh) 一种企业风险预测方法、装置、电子设备及介质
CN117041017A (zh) 数据中心的智能运维管理方法及系统
CN110610415B (zh) 一种模型更新的方法和装置
CN110674181A (zh) 信息推荐方法、装置、电子设备及计算机可读存储介质
CN115049397A (zh) 识别社交网络中的风险账户的方法及装置
CN115018212B (zh) 发电用水量预测分析方法、系统及云平台
CN113297310B (zh) 一种物联网中区块链分片验证者选取的方法
CN116912016A (zh) 一种账单稽核方法和装置
CN115510948A (zh) 一种基于鲁棒图分类的区块链钓鱼检测方法
CN114154415A (zh) 设备寿命的预测方法及装置
CN114358186A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN111951015A (zh) 交易对手信用风险评估方法及装置
CN111079992A (zh) 数据处理方法、装置和存储介质
CN116192650B (zh) 一种基于子图特征的链路预测方法
CN111815442B (zh) 一种链接预测的方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant