CN115086144A - 基于时序关联网络的分析方法、装置及计算机可读存储介质 - Google Patents
基于时序关联网络的分析方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN115086144A CN115086144A CN202210547949.8A CN202210547949A CN115086144A CN 115086144 A CN115086144 A CN 115086144A CN 202210547949 A CN202210547949 A CN 202210547949A CN 115086144 A CN115086144 A CN 115086144A
- Authority
- CN
- China
- Prior art keywords
- time
- time sequence
- correlation
- network
- channels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 53
- 238000003860 storage Methods 0.000 title claims abstract description 24
- 108091006146 Channels Proteins 0.000 claims abstract description 97
- 238000000034 method Methods 0.000 claims abstract description 50
- 230000002452 interceptive effect Effects 0.000 claims abstract description 14
- 230000004931 aggregating effect Effects 0.000 claims abstract description 9
- 230000006399 behavior Effects 0.000 claims description 30
- 230000000875 corresponding effect Effects 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 11
- 230000003993 interaction Effects 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 9
- 230000002596 correlated effect Effects 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims 1
- 230000005012 migration Effects 0.000 abstract description 17
- 238000013508 migration Methods 0.000 abstract description 17
- 238000010586 diagram Methods 0.000 description 25
- 230000008901 benefit Effects 0.000 description 8
- 230000002776 aggregation Effects 0.000 description 6
- 238000004220 aggregation Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000283690 Bos taurus Species 0.000 description 1
- 238000012351 Integrated analysis Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/064—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于时序关联网络的分析方法、装置及计算机可读存储介质,该方法包括:根据多个对象之间的交互行为轨迹构建时序关联网络;根据时序关联网络的多条边生成多条时间序列通道,将多条时间序列通道并行聚合至同一时间轴;基于预设时间宽度将时间轴切分为多段时间窗口,每段时间窗口包括对应于多条时间序列通道的多段时间序列段;基于相邻时间窗口之间的多组时间序列段的相似关联度在多条时间序列通道中游走,确定最优关联游走路径;基于最优关联游走路径对时序关联网络进行精细化分析。利用上述方法,能够对复杂网络进行精细化分析,挖掘出隐藏的团伙信息。
Description
技术领域
本发明属于数据分析领域,具体涉及一种基于时序关联网络的分析方法、装置及计算机可读存储介质。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
当前金融支付领域黑产反欺诈手段不断更新迭代,对于云手机、注入式攻击等团伙化、批量化的欺诈用户的行为识别难度加大。传统基于时间序列分析的方法,对于团伙行为的分析刻画存在较大不足,对于设备侧、用户侧的单点攻击识别,以及团伙攻击分润模式的挖掘均存在较大不足。
因此,如何从大规模交互网络对团伙行为进行精细化分析是一个亟待解决的问题。
发明内容
针对上述现有技术中存在的问题,提出了一种基于时序关联网络的分析方法、装置及计算机可读存储介质,利用这种方法、装置及计算机可读存储介质,能够解决上述问题。
本发明提供了以下方案。
第一方面,提供一种基于时序关联网络的分析方法,包括:根据多个对象之间的交互行为轨迹构建时序关联网络,根据时序关联网络的多条边生成多条时间序列通道;将多条时间序列通道并行聚合至同一时间轴,基于预设时间宽度将时间轴切分为多段时间窗口,每段时间窗口包括对应于多条时间序列通道的多段时间序列段;基于相邻时间窗口之间的多组时间序列段的相似关联度在多条时间序列通道中游走,确定最优关联游走路径;基于最优关联游走路径对时序关联网络进行精细化分析。
在一种可能的实施方式中,还包括:构建关联网络,其中根据对象构建关联网络的节点,根据对象之间的交互行为轨迹构建关联网络的边;对关联网络进行连通性划分,得到时序关联网络。
在一种可能的实施方式中,还包括:根据任意两个对象之间的交互行为轨迹构建时间序列数据;基于时间序列数据构建任意两个对象对应节点的连边。
在一种可能的实施方式中,还包括:以各个通道的时间最小值为起点,以各个通道的时间最大值为终点,构建时间轴;根据时间将多个时间序列通道并行聚合至时间轴。
在一种可能的实施方式中,还包括:计算各个时间序列通道在每段时间窗口中的信号值,作为对应时间序列段的值。
在一种可能的实施方式中,还包括:以第一段时间窗口中存在信号的第一时间序列段为初始的当前游走节点;重复以下步骤,依次游走至最后一段时间窗口:计算当前游走节点与下一段时间窗口中的多个时间序列段之间的相似关联度;游走至相似关联度最优的下一时间序列段并将其作为当前游走起点。
在一种可能的实施方式中,还包括:拼接各时间窗口下游走途径的时间序列段,形成完整时间轴下的最优关联游走路径。
在一种可能的实施方式中,还包括:基于最优关联游走路径对时序关联网络进行精细化分析,包括:基于最优关联游走路径确定互相关联的多个时间序列通道;基于互相关联的多个时间序列通道确定时序关联网络中的关联边和关联实体;基于关联边和关联实体对时序关联网络进行精细化分析。
在一种可能的实施方式中,还包括:利用以下相似度函数确定相邻时间窗口之间的任意两组时间序列段的相似关联度:S(ij_k,gh_k+1)=||MNij_k|-|MNgh_k+1||,|d(MNij_k)/dt|t=T1-k-|d(MNgh_k+1)/dt|t=T1-k;其中,MNij_k为时序关联网络中节点i和节点j之间的边对应的时间序列通道在第k段时间窗口中的时间序列段,MNgh_k+1为时序关联网络中节点g和节点h之间的边对应的时间序列通道在第k+1段时间窗口中的时间序列段,T1为时间轴的时间终点。
在一种可能的实施方式中,还包括:当相似关联度低于预设阈值时终止当前游走,并选择未游走途径的时间序列段为当前游走节点重新发起游走。
在一种可能的实施方式中,还包括:利用相邻时间窗口之间的任意两组时间序列段的以下一种或多种相似关联变量确定相似关联度:信号方差、信号距离、信号边界导数。
第二方面,提供一种基于时序关联网络的分析装置,包括:网络构建模块,用于根据多个对象之间的交互行为轨迹构建时序关联网络;通道构建模块,用于根据时序关联网络的多条边生成多条时间序列通道,用于将多条时间序列通道并行聚合至同一时间轴;窗口构建模块,用于基于预设时间宽度将时间轴切分为多段时间窗口,每段时间窗口包括对应于多条时间序列通道的多段时间序列段;关联游走模块,用于基于相邻时间窗口之间的多组时间序列段的相似关联度在多条时间序列通道中游走,确定最优关联游走路径;精细化分析模块,用于基于最优关联游走路径对时序关联网络进行精细化分析。
第三方面,提供一种基于时序关联网络的分析装置,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行:如第一方面的方法。
第四方面,提供一种计算机可读存储介质,计算机可读存储介质存储有程序,当程序被多核处理器执行时,使得多核处理器执行如第一方面的方法。
上述实施方式的优点之一,通过从信息离散的时序关联网络中寻找最优关联游走路径,能够针对分布分散、信息离散的网络进行整合分析,挖掘离散信息价值,实现更为精细化的关联分析。
本发明的其他优点将配合以下的说明和附图进行更详细的解说。
应当理解,上述说明仅是本发明技术方案的概述,以便能够更清楚地了解本发明的技术手段,从而可依照说明书的内容予以实施。为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举例说明本发明的具体实施方式。
附图说明
通过阅读下文的示例性实施方式的详细描述,本领域普通技术人员将明白本文的优点和益处以及其他优点和益处。附图仅用于示出示例性实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的标号表示相同的部件。在附图中:
图1为根据本发明一实施方式的基于时序关联网络的分析设备的结构示意图;
图2为根据本发明一实施方式的基于时序关联网络的分析方法的流程示意图;
图3为根据本发明一实施方式的A用户和B商户间交易流水数据的金额-时间信号波动图;
图4为根据本发明一实施方式的时序关联网络G的示意图。
图5为根据本发明一实施方式的时序关联网络G1和G2的示意图。
图6示出了将图5生成的时序关联网络G1转换成时间序列通道的示意图。
图7示出了对图6的时间序列通道切分为多段时间序列段的示意图;
图8示出了在图7的多通道的时间序列通道中进行游走的示意图;
图9示出了基于图8的游走得到的最优关联游走路径的示意图;
图10示出了基于图9的最优关联游走路径进行精细化分析的示意图;
图11示出了本申请一应用示例中的时间序列通道的示意图;
图12示出了对图11的时间序列通道进行时间窗口切分的示意图;
图13示出了基于图12游走得到最优关联路径的示意图;
图14示出了基于图13的最优关联路径进行群组划分的示意图;
图15为根据本发明一实施方式的基于时序关联网络的分析装置的结构示意图;
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在本申请实施方式的描述中,应理解,诸如“包括”或“具有”等术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不旨在排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在的可能性。
除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施方式的描述中,除非另有说明,“多个”的含义是两个或两个以上。
为清楚阐述本申请实施方式,首先将介绍一些后续实施方式中可能会出现的概念。
下面将参考附图并结合实施方式来详细说明本发明。
首先参见图1,其示意性示出了其中可以使用根据本公开的示例性实现方式的环境100的示意图。
图1示出了根据本公开的实施方式的计算设备100的示例的示意图。需要说明的是,图1即可为基于时序关联网络的分析方法的硬件运行环境的结构示意图。本发明实施方式基于时序关联网络的分析设备可以是PC,便携计算机等终端设备。
如图1所示,该基于时序关联网络的分析设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的基于时序关联网络的分析设备结构并不构成对时序关联网络的分析设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于时序关联网络的分析程序。其中,操作系统是管理和控制XX设备硬件和软件资源的程序,支持时序关联网络的分析程序以及其它软件或程序的运行。
在图1所示的基于时序关联网络的分析设备中,用户接口1003主要用于接收第一终端、第二终端和监管终端发送的请求、数据等;网络接口1004主要用于连接后台服务器与后台服务器进行数据通信;而处理器1001可以用于调用存储器1005中存储的XX程序,并执行以下操作:
根据多个对象之间的交互行为轨迹构建时序关联网络;根据时序关联网络的多条边生成多条时间序列通道,将多条时间序列通道并行聚合至同一时间轴;基于预设时间宽度将时间轴切分为多段时间窗口,每段时间窗口包括对应于多条时间序列通道的多段时间序列段;基于相邻时间窗口之间的多组时间序列段的相似关联度在多条时间序列通道中游走,确定最优关联游走路径;基于最优关联游走路径对时序关联网络进行精细化分析。
由此,能够从复杂的交互网络挖掘出隐藏关联关系,进而可以进行更为精细化的数据分析。
图2示出了根据本公开的实施方式的用于执行基于时序关联网络的分析方法的流程图。该方法例如可以由如图1所示的计算设备100来执行。应当理解的是,方法200还可以包括未示出的附加框和/或可以省略所示出的框,本公开的范围在此方面不受限制。
步骤210、根据多个对象之间的交互行为轨迹构建时序关联网络;
可选地,上述对象可以是交易实体,比如交易付款人、收款人,消费支付人、收单商户等。上述多个对象之间的交互行为轨迹可以是多个交易实体之间的交易流水数据,其可以按照时间进行排序形成交易流水时间序列。
可选地,上述对象可以是设备实体,比如具有唯一标识的手机终端等。上述多个对象之间的交互行为轨迹可以是多个设备实体之间的行为轨迹数据,例如,某IP终端对另一IP终端的网络攻击行为,其可以按照时间进行排序形成网络攻击时间序列。
可以理解,上述交互行为轨迹是时间相关的,可以按照时间排序形成为时间序列数据。
本实施例可以应用于诸如交易场景、网络攻击场景等多种涉及团伙化网络交互的场景中,下文中,以交易场景为例进行阐述,然而本申请对实施场景不作具体限制。
例如,如A用户和B商户间交互行为轨迹(交易流水数据)如下表所示:
交易金额(元) | 交易时间(T) |
100 | 0s |
102 | 5s |
97 | 10s |
98 | 15s |
进一步地,可以形成如图3所示的金额-时间信号波动图。
在一种可能的实施方式中,为了生成该时序关联网络,上述步骤210具体可以包括:根据对象构建时序关联网络的节点,根据对象之间的交互行为轨迹构建时序关联网络的边。
图4示出一种可能的时序关联网络G,其中包括两类节点Mi、Nj,比如,Mi可以表示商户i,Nj可以表示用户j,网络中的边是根据节点间交互行为轨迹生成的具有时间序列特性的序列数据,比如,边MNij代表节点Mi和节点Nj之间的交互行为轨迹生成的时间序列数据,进一步可以定义边MNij涉及时间序列数据的起始时间为边T0ij,终了时间为T1ij。
在一种可能的实施方式中,为了提高该时序关联网络中的节点关联性,上述步骤210可以进一步包括:将时序关联网络划分成互不连通的多个子网络,以子网络作为更新的时序关联网络。具体地,将大规模的时序关联网络划分成互不连通的一个或多个子网络,由此更新后的时序关联网络中的每个节点均存在直接或间接的连接关系,提高了节点关联性。如图5所示,将图4中生成的时序关联网络G划分成互不连通的两个子网络G1和G2,进一步可以将子网络G1和G2作为更新后的时序关联网络各自执行后续的步骤。
步骤220、根据时序关联网络的多条边生成多条时间序列通道,将多条时间序列通道并行聚合至同一时间轴;
如上文,时序关联网络中的每条边均可以看作是时间序列数据,由此,可以根据时间顺序对时序关联网络中的全部边有序聚合成多通道,时序关联网络Gi内每一条边将作为一个时间序列通道。
在一种可能的实施方式中,为了实现各个时间序列通道的有序聚合,可以以各个通道的时间最小值为起点,以各个通道的时间最大值为终点,构建该时间轴;根据时间将多个时间序列通道并行聚合至时间轴。也即,聚合后各通道的起始时间和终了时间也将统一聚合,聚合后的起始时间为各通道时间的最小值T0={T0ij}min,终了时间为各通道时间的最大值T1={T1ij}max。
图6示出了将图5生成的时间序列数据G1中的3条边转换成了通道1、2、3。可以理解,该通道的横轴为时间轴,纵轴为信号值,该信号值可以根据诸如交易金额、攻击次数等交互行为参数确定。
例如,假设A用户与B商户交易集中在0-15秒,C用户与B商户交易集中在10-20秒,其对应的交互行为轨迹(交易流水数据)如下:
A-B交易金额(元) | C-B交易金额(元) | 交易时间(T) |
100 | - | 0s |
102 | - | 5s |
97 | 55 | 10s |
98 | 68 | 15s |
- | 72 | 20s |
在聚合后,统一的时间轴的时间跨度为0-20秒,A用户与B商户之间的边对应于图7中的通道1,C用户与B商户之间的边对应于通道2。
步骤230,基于预设时间宽度将时间轴切分为多段时间窗口,每段时间窗口包括对应于多条时间序列通道的多段时间序列段;
具体地,可以基于聚合形成的多个时间序列通道,以将整个时间轴T0-T1切分为多段具有预设时间宽度的时间窗口,每段时间窗口中包括每个时间序列通道对应的时间序列段。可以理解,由于时间序列通道可能是断续信号,因此并非每个时间序列段都一定存在实际信号。将时序关联网络中的边MNij对应的时间序列通道在第k段时间窗口下的时间序列段标记为MNij_k,其值为信号变量值。
如图7所示,假设预设时间宽度为5s,可以将图7中示出的时间轴切分至四个时间窗口,分别为0-5s、5-10s、10-15s和15-20s。
在一种可能的实施方式中,计算各个时间序列通道在每段时间窗口中的信号值,作为对应时间序列段的值。可以理解,任何可以表示时间序列段内信号状态的值均可作为该信号值。例如,可以将信号强度均值作为该时间序列段的值,还可以将信号强度变量值作为该时间序列段的值,本申请对此不做具体限定。
步骤240,基于相邻时间窗口之间的多组时间序列段的相似关联度在多条时间序列通道中游走,确定最优关联游走路径;
在一种可能的实施方式中,为了实现完整时间轴下的最强关联拼接序列,找到网络中的隐藏关联关系,在步骤240中,可以以第一段时间窗口中存在信号值的第一时间序列段为初始的当前游走节点;进一步地,重复以下步骤,依次游走至最后一段时间窗口:计算当前游走节点与下一段时间窗口中的多个时间序列段之间的相似关联度;游走至相似关联度最优的下一时间序列段并将其作为当前游走起点。
例如,可以采用如下具体操作步骤:(1)以第一段时间窗口下的某时间序列段MNij_1为起始的当前游走节点,计算其与第二段时间窗口下的全部时间序列段的相似关联度,得到与时间序列段MNij_1相似度最高的下一时间序列段,并游走至该下一时间序列段。例如,可以定义相似度计算函数S(ij_k,gh_k+1)用于计算边MNij对应通道和边MNgh对应通道在相邻两个时间窗口的相似度,其值可以定义为信号的方差、距离、边界导数等相似关联变量。(2)以此类推,对于第二段时间窗口及以后各段时间窗口,以当前游走至的时间序列段为当前游走节点,继续计算其与下一相邻窗口的各个时间序列段的相似关联度,进行下一步的路径游走,直至游走至最后一段时间窗口完成路径游走,获取最优关联游走路径。
参考图8和图9,首先在第一时间窗口下确定存在信号的通道3为起点,基于相邻窗口的时间序列段的逐段进行关联相似度计算,可以确定如图9所示的最优关联游走路径,即通道3-通道1-通道3-通道3。
在一种可能的实施方式中,可以利用以下相似度函数确定相邻时间窗口之间的任意两组时间序列段的相似关联度:S(ij_k,gh_k+1)=||MNij_k|-|MNgh_k+1||,|d(MNij_k)/dt|t=T1-k-|d(MNgh_k+1)/dt|t=T1-k
其中,MNij_k为时序关联网络中节点i和节点j之间的边对应的时间序列通道在第k段时间窗口中的时间序列段,MNgh_k+1为时序关联网络中节点g和节点h之间的边对应的时间序列通道在第k+1段时间窗口中的时间序列段,T1为时间轴的时间终点。
在一种可能的实施方式中,可以利用相邻时间窗口之间的任意两组时间序列段的以下一种或多种相似关联变量确定相似关联度:信号方差、信号距离、信号边界导数。
在一种可能的实施方式中,为提高最优关联游走路径中的相似关联度,还可以当相似关联度低于预设阈值时终止当前游走,并选择未游走途径的时间序列段为当前游走节点重新发起游走。例如,假设第二时间窗口中通道1的时间序列段与第三时间窗口中的3个通道包含的时间序列段的相似度均小于某一阈值,则可以终止该游走,进而选择第二时间窗口中未途径的通道2为初始的当前游走起点,执行下一次的游走。可以理解,在大规模的网络中,可能存在多个团伙,利用该方法可以挖掘出更多的团伙。可选地,可以选择当前未途径的多个时间序列段中处于最早时间的一个作为该初始的当前游走起点,以避免遗漏。
在一种可能的实施方式中,确定最优关联游走路径,还包括:拼接各时间窗口下游走途径的时间序列段,形成完整时间轴下的最优关联游走路径。也即,可以回溯最优关联游走路径途径的各个时间序列通道,即可对应至时序关联网络的多个边,进而发现存在隐藏关联关系的多个实体和多个边,可以基于该关联实体和关联边进一步进行精细社区及模式划分,对庞大社群进行精细划分分析和核心时间序列聚合分析。
步骤250,基于最优关联游走路径对时序关联网络进行精细化分析。
在一种可能的实施方式中,可以基于最优关联游走路径确定互相关联的多个时间序列通道;基于互相关联的多个时间序列通道确定时序关联网络中的关联边和关联实体;基于关联边和关联实体对时序关联网络进行精细化分析。
如图10所示,针对图9中游走获取的最优关联游走路径,可以进一步分析得到通道1和通道3强关联,进一步可以将通道1和通道3拼接在一起,可以分析拼接后通道的隐藏信息,可以进一步进行精细化分析和分析。
以下示出本申请的若干具体应用示例。本申请可用于黑产团伙欺诈多类团伙、手段混杂的欺诈行为侦测之中,对于团伙的精细化划分、其行为轨迹的完整链路挖掘有较好的效果。同时基于最短路径算法的时序拼接,可以对行为模式进行精细化的分析。
在黑产众包跑分平台中,通常存在一批固定的欺诈用户,其每天执行多项黑产黄牛套利、电信网络诈骗等相关任务,多项欺诈套利交易并行过程中将形成复杂的交易、行为关联网络,从而无法区分不同类型欺诈,对于团伙行为的手段分析存在较大困难,亟需对庞大的交易网络进行进一步的精细化分析和挖掘。
利用上述实施例采用的方法,可以获取大量持卡人、用户、商户之间的交易流水并构建网络,针对每个持卡人-持卡人、持卡人-商户,均将形成一个交易流水数据构成的时间序列通道。
图11示出为部分时间序列通道的示例,可以发现,该时间序列通道的表现形式较为离散,其中涉及A、B、C、D、E、F用户彼此之间交易关联复杂,亦难以进一步归类分析。可以首先将不同时间序列通道统一至同一时间轴下,并基于预设时间宽度对不同通道进行时间窗口切分,如图12所示。
进一步地,按照时间顺序,从最初有信号的通道A出发,根据相邻时间窗口之间的时间序列段的相似性进行游走。其中,设定相似关联函数S,从当前游走节点游走至下一时间窗口中相似关联度最高的时间序列段。其中,设定阈值X,当关联相似度低于阈值X时,终止当前游走,并选择未途径过的时间序列段发起新的游走。最终可以挖掘出一个或多个最优关联游走路径,如图13中路径1和路径2。
参考图14,基于上述最优关联游走路径,可以将原有的群体划分为两个子社群:ABDFC用户群组和ABDE用户群组,并可以对两条最优关联游走路径进行拼接,可以获得两个具有较强高频周期性特点的时间序列,表明了两个团伙内部参与成员序列整体上具有较强的行为模式特点。其中ABD用户同时参与了两个团伙的交易。
通过该方法可以较好的聚合个体交易之间离散的序列信息,基于关联相似性的最优路径算法拼接时间序列,对庞大的社群进行进一步划分,并且拼接的序列信息具有较强的可解释性。
在本说明书的描述中,参考术语“一些可能的实施方式”、“一些实施方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式或示例以及不同实施方式或示例的特征进行结合和组合。
关于本申请实施方式的方法流程图,将某些操作描述为以一定顺序执行的不同的步骤。这样的流程图属于说明性的而非限制性的。可以将在本文中所描述的某些步骤分组在一起并且在单个操作中执行、可以将某些步骤分割成多个子步骤、并且可以以不同于在本文中所示出的顺序来执行某些步骤。可以由任何电路结构和/或有形机制(例如,由在计算机设备上运行的软件、硬件(例如,处理器或芯片实现的逻辑功能)等、和/或其任何组合)以任何方式来实现在流程图中所示出的各个步骤。
基于相同的技术构思,本发明实施方式还提供一种基于时序关联网络的分析装置,用于执行上述任一实施方式所提供的基于时序关联网络的分析方法。图15为本发明实施方式提供的一种基于时序关联网络的分析装置结构示意图。
如图15所示,装置150包括:
网络构建模块151,用于根据多个对象之间的交互行为轨迹构建时序关联网络;
通道构建模块152,用于根据时序关联网络的多条边生成多条时间序列通道,用于将多条时间序列通道并行聚合至同一时间轴;
窗口构建模块153,用于基于预设时间宽度将时间轴切分为多段时间窗口,每段时间窗口包括对应于多条时间序列通道的多段时间序列段;
关联游走模块154,用于基于相邻时间窗口之间的多组时间序列段的相似关联度在多条时间序列通道中游走,确定最优关联游走路径;
精细化分析模块155,用于基于最优关联游走路径对时序关联网络进行精细化分析。
需要说明的是,本申请实施方式中的装置可以实现前述方法的实施方式的各个过程,并达到相同的效果和功能,这里不再赘述。
根据本申请的一些实施方式,提供了基于时序关联网络的分析方法的非易失性计算机存储介质,其上存储有计算机可执行指令,该计算机可执行指令设置为在由处理器运行时执行:上述实施方式的方法。
本申请中的各个实施方式均采用递进的方式描述,各个实施方式之间相同相似的部分互相参见即可,每个实施方式重点说明的都是与其他实施方式的不同之处。尤其,对于装置、设备和计算机可读存储介质实施方式而言,由于其基本相似于方法实施方式,所以其描述进行了简化,相关之处可参见方法实施方式的部分说明即可。
本申请实施方式提供的装置、设备和计算机可读存储介质与方法是一一对应的,因此,装置、设备和计算机可读存储介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述装置、设备和计算机可读存储介质的有益技术效果。
本领域内的技术人员应明白,本发明的实施方式可提供为方法、装置(设备或系统)、或计算机可读存储介质。因此,本发明可采用完全硬件实施方式、完全软件实施方式、或结合软件和硬件方面的实施方式的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机可读存储介质的形式。
本发明是参照根据本发明实施方式的方法、装置(设备或系统)、和计算机可读存储介质的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (14)
1.一种基于时序关联网络的分析方法,其特征在于,包括:
根据多个对象之间的交互行为轨迹构建时序关联网络;
根据所述时序关联网络的多条边生成多条时间序列通道,将所述多条时间序列通道并行聚合至同一时间轴;
基于预设时间宽度将所述时间轴切分为多段时间窗口,每段时间窗口包括对应于所述多条时间序列通道的多段时间序列段;
基于相邻时间窗口之间的多组时间序列段的相似关联度在所述多条时间序列通道中游走,确定最优关联游走路径;
基于所述最优关联游走路径对所述时序关联网络进行精细化分析。
2.根据权利要求1所述的方法,其特征在于,根据多个对象之间的交互行为轨迹构建时序关联网络,还包括:
根据所述对象构建所述时序关联网络的节点,根据所述对象之间的所述交互行为轨迹构建所述时序关联网络的边。
3.根据权利要求1所述的方法,其特征在于,还包括:
将所述时序关联网络划分成互不连通的多个子网络,以所述子网络作为更新的所述时序关联网络。
4.根据权利要求1所述的方法,其特征在于,将所述多条时间序列通道并行聚合至同一时间轴,还包括:
以各个通道的时间最小值为起点,以各个通道的时间最大值为终点,构建所述时间轴;
根据时间将多个所述时间序列通道并行聚合至所述时间轴。
5.根据权利要求1所述的方法,其特征在于,还包括:
计算各个时间序列通道在每段时间窗口中的信号值,作为对应时间序列段的值。
6.根据权利要求1所述的方法,其特征在于,基于相邻时间窗口之间的多组时间序列段的相似关联度在所述多条时间序列通道中游走,包括:
以第一段时间窗口中存在信号值的第一时间序列段为初始的当前游走节点;
重复以下步骤,依次游走至最后一段时间窗口:
计算所述当前游走节点与下一段时间窗口中的多个时间序列段之间的相似关联度;
游走至相似关联度最优的下一时间序列段并将其作为当前游走起点。
7.根据权利要求6所述的方法,其特征在于,确定最优关联游走路径,还包括:
拼接各时间窗口下游走途径的时间序列段,形成完整时间轴下的所述最优关联游走路径。
8.根据权利要求1所述的方法,其特征在于,基于所述最优关联游走路径对所述时序关联网络进行精细化分析,包括:
基于所述最优关联游走路径确定互相关联的多个所述时间序列通道;
基于互相关联的多个所述时间序列通道确定所述时序关联网络中的关联边和关联实体;
基于所述关联边和所述关联实体对所述时序关联网络进行精细化分析。
9.根据权利要求1所述的方法,其特征在于,还包括:
利用以下相似度函数确定相邻时间窗口之间的任意两组时间序列段的相似关联度:
S(ij_k,gh_k+1)=||MNij_k|-|MNgh_k+1||,|d(MNij_k)/dt|t=T1-k-|d(MNgh_k+1)/dt|t=T1-k
其中,MNij_k为所述时序关联网络中节点i和节点j之间的边对应的时间序列通道在第k段时间窗口中的时间序列段,MNgh_k+1为所述时序关联网络中节点g和节点h之间的边对应的时间序列通道在第k+1段时间窗口中的时间序列段,所述T1为所述时间轴的时间终点。
10.根据权利要求1所述的方法,其特征在于,还包括:
当相似关联度低于预设阈值时终止当前游走,并选择未游走途径的时间序列段为当前游走节点重新发起游走。
11.根据权利要求1所述的方法,其特征在于,还包括:
利用相邻时间窗口之间的任意两组时间序列段的以下一种或多种相似关联变量确定所述相似关联度:信号方差、信号距离、信号边界导数。
12.一种基于时序关联网络的分析装置,其特征在于,包括:
网络构建模块,用于根据多个对象之间的交互行为轨迹构建时序关联网络;
通道构建模块,用于根据所述时序关联网络的多条边生成多条时间序列通道,用于将所述多条时间序列通道并行聚合至同一时间轴;
窗口构建模块,用于基于预设时间宽度将所述时间轴切分为多段时间窗口,每段时间窗口包括对应于所述多条时间序列通道的多段时间序列段;
关联游走模块,用于基于相邻时间窗口之间的多组时间序列段的相似关联度在所述多条时间序列通道中游走,确定最优关联游走路径;
精细化分析模块,用于基于所述最优关联游走路径对所述时序关联网络进行精细化分析。
13.一种基于时序关联网络的分析装置,其特征在于,包括:
至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行:如权利要求1-11中任一项所述的方法。
14.一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被多核处理器执行时,使得所述多核处理器执行如权利要求1-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210547949.8A CN115086144A (zh) | 2022-05-18 | 2022-05-18 | 基于时序关联网络的分析方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210547949.8A CN115086144A (zh) | 2022-05-18 | 2022-05-18 | 基于时序关联网络的分析方法、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115086144A true CN115086144A (zh) | 2022-09-20 |
Family
ID=83248527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210547949.8A Pending CN115086144A (zh) | 2022-05-18 | 2022-05-18 | 基于时序关联网络的分析方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115086144A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090222369A1 (en) * | 2008-02-29 | 2009-09-03 | Scott Zoldi | Fraud Detection System For The Faster Payments System |
US20180077175A1 (en) * | 2016-09-13 | 2018-03-15 | Accenture Global Solutions Limited | Malicious threat detection through time series graph analysis |
US20180183819A1 (en) * | 2016-12-27 | 2018-06-28 | General Electric Company | System to detect machine-initiated events in time series data |
CN110390585A (zh) * | 2019-07-25 | 2019-10-29 | 中国银联股份有限公司 | 一种识别异常对象的方法及装置 |
KR20200052424A (ko) * | 2018-10-25 | 2020-05-15 | 삼성에스디에스 주식회사 | 시계열 데이터 세그먼테이션 방법 및 그 장치 |
CN112148767A (zh) * | 2020-09-11 | 2020-12-29 | 支付宝(杭州)信息技术有限公司 | 团伙挖掘方法、异常团伙的识别方法、装置及电子设备 |
CN113344562A (zh) * | 2021-08-09 | 2021-09-03 | 四川大学 | 基于深度神经网络的以太坊钓鱼诈骗账户检测方法与装置 |
US20210349979A1 (en) * | 2020-05-07 | 2021-11-11 | Microsoft Technology Licensing, Llc | Detection of slow brute force attacks based on user-level time series analysis |
US20210357431A1 (en) * | 2020-05-12 | 2021-11-18 | International Business Machines Corporation | Classification of time series data |
CN113704326A (zh) * | 2021-08-30 | 2021-11-26 | 中国银联股份有限公司 | 基于知识图谱的异常结构挖掘方法、装置及可读存储介质 |
-
2022
- 2022-05-18 CN CN202210547949.8A patent/CN115086144A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090222369A1 (en) * | 2008-02-29 | 2009-09-03 | Scott Zoldi | Fraud Detection System For The Faster Payments System |
US20180077175A1 (en) * | 2016-09-13 | 2018-03-15 | Accenture Global Solutions Limited | Malicious threat detection through time series graph analysis |
US20180183819A1 (en) * | 2016-12-27 | 2018-06-28 | General Electric Company | System to detect machine-initiated events in time series data |
KR20200052424A (ko) * | 2018-10-25 | 2020-05-15 | 삼성에스디에스 주식회사 | 시계열 데이터 세그먼테이션 방법 및 그 장치 |
CN110390585A (zh) * | 2019-07-25 | 2019-10-29 | 中国银联股份有限公司 | 一种识别异常对象的方法及装置 |
US20210349979A1 (en) * | 2020-05-07 | 2021-11-11 | Microsoft Technology Licensing, Llc | Detection of slow brute force attacks based on user-level time series analysis |
US20210357431A1 (en) * | 2020-05-12 | 2021-11-18 | International Business Machines Corporation | Classification of time series data |
CN112148767A (zh) * | 2020-09-11 | 2020-12-29 | 支付宝(杭州)信息技术有限公司 | 团伙挖掘方法、异常团伙的识别方法、装置及电子设备 |
CN113344562A (zh) * | 2021-08-09 | 2021-09-03 | 四川大学 | 基于深度神经网络的以太坊钓鱼诈骗账户检测方法与装置 |
CN113704326A (zh) * | 2021-08-30 | 2021-11-26 | 中国银联股份有限公司 | 基于知识图谱的异常结构挖掘方法、装置及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhuang et al. | DynaMo: Dynamic community detection by incrementally maximizing modularity | |
van der Aalst et al. | Finding structure in unstructured processes: The case for process mining | |
US20220318945A1 (en) | Optimizing compilation of shaders | |
US9836695B2 (en) | Automated decision support provenance and simulation | |
CN109543891A (zh) | 容量预测模型的建立方法、设备及计算机可读存储介质 | |
CN104391879A (zh) | 层次聚类的方法及装置 | |
CN109213801A (zh) | 基于关联关系的数据挖掘方法和装置 | |
TW201732655A (zh) | 目標特徵資料的挖掘方法和其裝置 | |
JP2015508918A (ja) | 冗長な消費者トランザクションルールのフィルタリング | |
CN110689124A (zh) | 一种构建神经网络模型的方法及系统 | |
CN104182422A (zh) | 统一通讯录信息处理方法和系统 | |
Naveed et al. | Assessing deep generative models on time series network data | |
CN113704326B (zh) | 基于知识图谱的异常结构挖掘方法、装置及可读存储介质 | |
CN109859066A (zh) | 一种确定工艺参数的方法和装置 | |
US20170220336A1 (en) | System and method for automatic api candidate generation | |
CN115086144A (zh) | 基于时序关联网络的分析方法、装置及计算机可读存储介质 | |
CN111488494A (zh) | 账户资金转账网络图着色方法及装置 | |
CN107392220A (zh) | 数据流的聚类方法和装置 | |
WO2023142490A1 (zh) | 基于分布式图嵌入的联邦图聚类方法、装置及可读存储介质 | |
CN115796228B (zh) | 算子融合方法、装置、设备以及存储介质 | |
KR102351300B1 (ko) | 공공기관 인증 플랫폼 제공 방법 및 시스템 | |
CN113282839B (zh) | 一种互联网数据推送处理方法及系统 | |
CN113407763A (zh) | 热点音乐挖掘方法及电子设备和计算机可读存储介质 | |
US11436533B2 (en) | Techniques for parallel model training | |
CN114818843A (zh) | 数据分析的方法、装置和计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |