CN117216736A - 异常账号的识别方法、数据调度平台及图计算平台 - Google Patents
异常账号的识别方法、数据调度平台及图计算平台 Download PDFInfo
- Publication number
- CN117216736A CN117216736A CN202211542262.1A CN202211542262A CN117216736A CN 117216736 A CN117216736 A CN 117216736A CN 202211542262 A CN202211542262 A CN 202211542262A CN 117216736 A CN117216736 A CN 117216736A
- Authority
- CN
- China
- Prior art keywords
- account
- identified
- sub
- node
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 116
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000003860 storage Methods 0.000 claims abstract description 156
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 238000010586 diagram Methods 0.000 claims description 205
- 239000013598 vector Substances 0.000 claims description 96
- 230000008569 process Effects 0.000 claims description 41
- 238000012545 processing Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 24
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 8
- 230000004931 aggregating effect Effects 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000012549 training Methods 0.000 description 16
- 238000012546 transfer Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 239000012141 concentrate Substances 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000000547 structure data Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000007789 sealing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 210000003169 central nervous system Anatomy 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004900 laundering Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请实施例提供了一种异常账号的识别方法、数据调度平台、图计算平台、电子设备及计算机可读存储介质,涉及云技术领域。该方法包括:获得至少一个关系图;对于各关系图中每个节点对应的待识别账号,基于待识别账号对应节点、以及以节点为起始节点的预设跳数内的邻居节点,获得待识别账号的子关系图;将各待识别账号的子关系图存储至分布式存储平台,以使得分布式的图计算平台从分布式存储平台获得各待识别账号的子关系图,利用预先训练的异常账号识别模型,得到识别结果。本申请实施例提高了识别异常账号的识别效率。
Description
技术领域
本申请涉及大数据安全技术领域,具体而言,本申请涉及一种异常账号的识别方法、数据调度平台、图计算平台、电子设备、存储介质及计算机程序产品。
背景技术
随着互联网技术的蓬勃发展,越来越多的用户通过电商平台或者金融平台进行交易,给用户带来了极大地便利。但是,随之也出现了诸多异常交易的情况,例如不法分子通过恶意交易,盗刷银行卡套取卡内资金,谋取非法利益,给用户造成了经济损失。
相关技术中,在识别异常交易的账号(也即异常账号)的过程中,通常基于neo4j图数据库构建,而neo4j免费版本只能应用于单机系统,另外在采用图神经网络识别异常账号时,通常使用GraphSage构建同构图,缺乏对不同支付关系的表达,导致识别效率和识别精度较低。
发明内容
本申请实施例提供了一种异常账号的识别方法、数据调度平台、图计算平台、电子设备、计算机可读存储介质及计算机程序产品,可以解决现有技术的上述问题。所述技术方案如下:
根据本申请实施例的第一个方面,提供了一种异常账号的识别方法,应用于数据调度平台,该方法包括:
获得至少一个关系图,所述关系图中的每个节点表征一个待识别账号的账号描述信息,所述账号描述信息包括至少一个子描述信息,任意两个节点之间的连边表征对应的两个待识别账号具有的相同的子描述信息;
对于各关系图中每个节点对应的待识别账号,基于所述待识别账号对应节点、以及以所述节点为起始节点的预设跳数内的邻居节点,获得所述待识别账号的子关系图;
将各待识别账号的子关系图存储至分布式存储平台,以使得分布式的图计算平台从所述分布式存储平台获得各待识别账号的子关系图,利用预先训练的异常账号识别模型,得到各待识别账号的识别结果,所述识别结果用于指示相应账号是否为异常账号。
作为一种可选的实施例,基于所述待识别账号对应节点所在的关系图,获得所述待识别账号的子关系图,包括:
将各关系图划分为至少两个分组,每个分组包括至少一个关系图,各组包括的关系图中的数量均处于预设范围;
根据分组数创建相应数量的处理进程,通过各处理进程确定相应分组的关系图中,每个节点对应的待识别账号的子关系图。
作为一种可选的实施例,基于所述待识别账号对应节点所在的关系图,获得所述待识别账号的子关系图,之前还包括:
对于每个关系图,若确定具有同一个子描述信息的待识别账号的总数超过预设阈值,则将所述具有同一个子描述信息的待识别账号作为待处理账号;
将关系图中两两待处理账号对应的节点之间的连线删除。
作为一种可选的实施例,将各待识别账号对应的子关系图存储至分布式存储平台,之后还包括:
在所述分布式存储平台中更新第一状态信息,所述第一状态信息用于指示数据调度平台已在所述分布式存储平台中存储各待识别账号的子关系图,以使得所述图计算平台在查询到所述第一状态信息更新时,根据所述分布式存储平台中的各待识别账号的子关系图,利用预先训练的异常账号识别模型,得到各待识别账号的识别结果。
作为一种可选的实施例,在所述分布式存储平台中更新第一状态信息,之后还包括:
当确定所述分布式存储平台中的第二状态信息更新时,从所述分布式存储平台中获得各待识别账号的识别结果,所述第二状态信息用于指示图计算平台已在所述分布式存储平台中存储各待识别账号的识别结果。
根据本申请实施例的第二个方面,提供一种异常账号的识别方法,应用于图计算平台,所述方法包括:
从分布式存储平台中获得各待识别账号的子关系图,所述子关系图是基于待识别账号对应节点所在的关系图确定的,所述关系图中的每个节点表征一个待识别账号的账号描述信息,所述账号描述信息包括至少一个子描述信息,任意两个节点之间的连边表征对应的两个待识别账号具有的相同的子描述信息,所述子关系图中的节点包括待识别账号对应的起始节点以及所述起始节点预设跳数内的邻居节点;
根据各待识别账号对应的子关系图,利用预先训练的异常账号识别模型,得到各待识别账号的识别结果,所述识别结果用于指示相应账号是否为异常账号。
作为一种可选的实施例,根据各待识别账号对应的子关系图,利用预先训练的异常账号识别模型,得到各待识别账号的识别结果,包括:
根据所述子关系图中最后一跳节点表征的账号描述信息,获得最后一跳节点的初始特征向量,根据每条边表征的对应两个待识别账号具有的相同的子描述信息,获得边的边特征;
通过融合所述子关系图中最后一跳节点的初始特征向量以及各边的边特征,获得所述子关系图中起始节点的目标特征向量;
根据所述子关系图中起始节点的目标特征向量,获得所述起始节点对应的待识别账号的识别结果。
作为一种可选的实施例,通过融合所述子关系图中最后一跳节点的初始特征向量以及各边的边特征,获得所述子关系图中起始节点的目标特征向量,包括:
从所述子关系图中倒数第二跳的节点开始,采用以下操作逐跳向起始节点遍历,直至获得所述起始节点的中间特征向量,并作为目标特征向量,所述操作包括:
对于当前跳数的每个节点的每个参考节点,所述参考节点为当前跳数的下一跳数中该节点的邻居节点,根据该参考节点的中间特征向量以及该节点和该参考节点对应的边特征,获得该参考节点的参考特征向量,当当前跳数为倒数第二跳时,该参考节点的中间特征向量为初始特征向量;
对于当前跳数的每个节点,对该节点的各参考节点的参考特征向量进行聚合,获得该节点的中间特征向量。
作为一种可选的实施例,从分布式存储平台中获得各待识别账号的子关系图,包括:
当确定所述分布式存储平台中的第一状态信息更新时,所述第一状态信息用于指示数据调度平台已在所述分布式存储平台中存储各待识别账号的子关系图,从所述分布式存储平台中获得各待识别账号的子关系图。
作为一种可选的实施例,得到各待识别账号的识别结果,之后还包括:
在所述分布式存储平台中存储各待识别账号的识别结果,在所述分布式存储平台中更新第二状态信息,所述第二状态信息用于指示图计算平台已在所述分布式存储平台中存储各待识别账号的识别结果,以使得数据调度平台在在查询到所述第二状态信息更新时,获得所述分布式存储平台中各待识别账号的识别结果。
根据本申请实施例的第三个方面,提供了一种数据调度平台,该平台包括:
关系图获得模块,用于获得至少一个关系图,所述关系图中的每个节点表征一个待识别账号的账号描述信息,所述账号描述信息包括至少一个子描述信息,任意两个节点之间的连边表征对应的两个待识别账号具有的相同的子描述信息;
子关系图获得模块,用于对于各关系图中每个节点对应的待识别账号,基于所述待识别账号对应节点、以及以所述节点为起始节点的预设跳数内的邻居节点,获得所述待识别账号的子关系图;
图存储模块,用于将各待识别账号的子关系图存储至分布式存储平台,以使得分布式的图计算平台从所述分布式存储平台获得各待识别账号的子关系图,利用预先训练的异常账号识别模型,得到各待识别账号的识别结果,所述识别结果用于指示相应账号是否为异常账号。
作为一种可选的实施方式,子关系图获得模块包括:
分组单元,用于将各关系图划分为至少两个分组,每个分组包括至少一个关系图,各组包括的关系图中的数量均处于预设范围;
进程创建模块,用于根据分组数创建相应数量的处理进程,通过各处理进程确定相应分组的关系图中,每个节点对应的待识别账号的子关系图。
作为一种可选的实施方式,数据调度平台还包括:
关系图调整模块,用于在获得所述待识别账号的子关系图之前,对于每个关系图,若确定具有同一个子描述信息的待识别账号的总数超过预设阈值,则将所述具有同一个子描述信息的待识别账号作为待处理账号;将关系图中两两待处理账号对应的节点之间的连线删除。
作为一种可选的实施方式,数据调度平台还包括:
第一状态更新模块,用于在将各待识别账号对应的子关系图存储至分布式存储平台之后,在所述分布式存储平台中更新第一状态信息,所述第一状态信息用于指示数据调度平台已在所述分布式存储平台中存储各待识别账号的子关系图,以使得所述图计算平台在查询到所述第一状态信息更新时,根据所述分布式存储平台中的各待识别账号的子关系图,利用预先训练的异常账号识别模型,得到各待识别账号的识别结果。
作为一种可选的实施方式,数据调度平台还包括:
第二状态信息查询模块,用于当确定所述分布式存储平台中的第二状态信息更新时,从所述分布式存储平台中获得各待识别账号的识别结果,所述第二状态信息用于指示图计算平台已在所述分布式存储平台中存储各待识别账号的识别结果。
根据本申请实施例的第四个方面,提供了一种图计算平台,包括:
图获取模块,用于从分布式存储平台中获得各待识别账号的子关系图,所述子关系图是基于待识别账号对应节点所在的关系图确定的,所述关系图中的每个节点表征一个待识别账号的账号描述信息,所述账号描述信息包括至少一个子描述信息,任意两个节点之间的连边表征对应的两个待识别账号具有的相同的子描述信息,所述子关系图中的节点包括待识别账号对应的起始节点以及所述起始节点预设跳数内的邻居节点;
账号识别模块,用于根据各待识别账号对应的子关系图,利用预先训练的异常账号识别模型,得到各待识别账号的识别结果,所述识别结果用于指示相应账号是否为异常账号。
作为一种可选的实施方式,账号识别模块包括:
特征获得子模块,用于根据所述子关系图中最后一跳节点表征的账号描述信息,获得最后一跳节点的初始特征向量,根据每条边表征的对应两个待识别账号具有的相同的子描述信息,获得边的边特征;
起始特征获得子模块,用于通过融合所述子关系图中最后一跳节点的初始特征向量以及各边的边特征,获得所述子关系图中起始节点的目标特征向量;
预测子模块,用于根据所述子关系图中起始节点的目标特征向量,获得所述起始节点对应的待识别账号的识别结果。
作为一种可选的实施方式,起始特征获得模块从所述子关系图中倒数第二跳的节点开始,采用以下操作逐跳向起始节点遍历,直至获得所述起始节点的中间特征向量,并作为目标特征向量,所述操作包括:
对于当前跳数的每个节点的每个参考节点,所述参考节点为当前跳数的下一跳数中该节点的邻居节点,根据该参考节点的中间特征向量以及该节点和该参考节点对应的边特征,获得该参考节点的参考特征向量,当当前跳数为倒数第二跳时,该参考节点的中间特征向量为初始特征向量;
对于当前跳数的每个节点,对该节点的各参考节点的参考特征向量进行聚合,获得该节点的中间特征向量。
作为一种可选的实施方式,图获取模块具体用于:
当确定所述分布式存储平台中的第一状态信息更新时,所述第一状态信息用于指示数据调度平台已在所述分布式存储平台中存储各待识别账号的子关系图,从所述分布式存储平台中获得各待识别账号的子关系图。
作为一种可选的实施方式,图计算平台还包括:
第二状态信息更新模块,用于在所述分布式存储平台中存储各待识别账号的识别结果,在所述分布式存储平台中更新第二状态信息,所述第二状态信息用于指示图计算平台已在所述分布式存储平台中存储各待识别账号的识别结果,以使得数据调度平台在在查询到所述第二状态信息更新时,获得所述分布式存储平台中各待识别账号的识别结果。根据本申请实施例的第五个方面,提供了一种电子设备,该电子设备包括:存储器、处理器及存储在存储器上的计算机程序,处理器执行计算机程序以实现第一或第二方面的异常账号的识别方法的步骤。
根据本申请实施例的第六个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现第一或第二方面的异常账号的识别方法的步骤。
根据本申请实施例的第七个方面,提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现第一或第二方面的异常账号的识别方法的步骤。
本申请实施例提供的技术方案带来的有益效果是:
通过获得至少一个关系图,关系图中的节点的连边表征对应的两个待识别账号具有的相同的子描述信息,使得连边的类型不再仅有一种,也即本申请获得固定关系图为异构关系图,进一步从关系图中获得每个节点的子关系图,后续图计算平台可以专注于对子关系图的处理,提高了处理效率,并且利用子关系图中连边所表征的更丰富的节点关联关系,可以更准确地获得待识别账号的识别结果。并且,本申请通过将异常账号的识别过程解耦为子关系图的生成过程和对子关系图的图计算过程,两个平台各自的运行和优化不受另一侧的干扰,增加了系统架构的灵活性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的实现异常账号的识别方法的系统架构示意图;
图2为本申请实施例提供的一种异常账号的识别方法的流程示意图;
图3为本申请实施例提供的一种关系图和子关系图的示意图;
图4为本申请实施例提供的一种对账号描述信息的处理流程示意图;
图5为本申请实施例提供的一种对关系图打乱的示意图;
图6为本申请实施例提供的一种数据调度平台、分布式存储平台以及图计算平台的交互示意图;
图7为本申请实施例提供的一种异常账号的识别方法的流程示意图;
图8为本申请实施例提供的场景实施例的示意图;
图9为本申请实施例提供的一种数据调度平台的结构示意图;
图10为本申请实施例提供的一种图计算平台的结构示意图;
图11为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”可以实现为“A”,或者实现为“B”,或者实现为“A和B”。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先对本申请涉及的几个名词进行介绍和解释:
分布式存储平台(distributed system):分布式存储平台是一组电脑,透过网络相互连接传递消息与通信后并协调它们的行为而形成的系统。组件之间彼此进行交互以实现一个共同的目标。这种系统拥有很好的扩展性和并行计算的能力,能处理海量的数据,是大数据技术的基石。
支付网络:基于电子终端设备进行的支付行为,可以构建一个交易网络,这个网络包含了自然人、设备、账号、交易方式、额度等信息,是一种非结构化的数据结构。
人工神经网络:在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。神经网络由大量的人工神经元联结进行计算。可以通过反向传播来训练网络达到解决问题的能力。
图神经网络(Graph Neural Network,GNN)是指使用神经网络来学习图结构数据,提取和发掘图结构数据中的特征和模式,满足聚类、分类、预测、分割、生成等图学习任务需求的算法总称。
恶意率:用来衡量账号是否由骗子使用的概率,恶意率越高说明是骗子的可能性越大。
Hadoop Distributed File System,简称HDFS:HDFS是一种适合运行在通用硬件上的分布式文件系统,是一个高度容错性的系统,适合部署在廉价的机器上,同时能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
SPARK:Apache Spark是一个开源集群运算框架,相对于Hadoop的MapReduce会在执行完工作后将中介资料存放到磁盘中,Spark使用了存储器内运算技术,能在资料尚未写入硬盘时即在存储器内分析运算。Spark在存储器内执行程序的运算速度能做到比HadoopMapReduce的运算速度快上100倍,即便是执行程序于硬盘时,Spark也能快上10倍速度。Spark允许用户将资料加载至集群存储器,并多次对其进行查询,非常适合用于机器学习算法。
JSON:一种轻量级的数据交换格式。采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得JSON成为理想的数据交换语言。易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。
Libsvm文件:一种数据格式,原来为SVM模型设计,后来变为机器学习常用的数据格式,拥有灵活且通用的数据表达方式,可以为各种模型设计专门的Libsvm文件。
Embedx:一种分布式图神经网络系统。利用三种分布式的节点服务来构建整个计算系统。
同构图:图结构只有一种节点和一种边。
本申请提供的异常账号的识别方法、装置、电子设备、计算机可读存储介质以及计算机程序产品,旨在解决现有技术的如上技术问题。
下面通过对几个示例性实施方式的描述,对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
图1为本申请实施例提供的实现异常账号的识别方法的系统架构示意图,如图1所示,系统可以包括终端101、第一服务器102、第二服务器103以及数据库104。第一服务器102及终端101可以通过无线通信方式进行直接或间接地连接,本申请在此不做特殊限制。
第一服务器102及终端101之间可以通过目标协议链路传输数据,目标协议链路可以包括基于运输层协议的链路,例如传输控制协议(TCP,Transmission ControlProtocol)链路或者用户数据报协议(UDP,User Datagram Protocol)链路传输以及其他运输层协议。
第一服务器102和第二服务器103可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
本申请实施例的一种实施方式中,第一服务器102和第二服务器103为云服务器,第一服务器和第二服务器可以提供人工智能云服务,例如提供账号安全服务(MMORPG)的人工智能云服务。所谓人工智能云服务,一般也被称作是AIaaS(AI as a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。例如,第一服务器和第二服务器可以提供异常账号的识别服务。
终端101可以是任意的设备,本申请实施例的一种实施方式中终端101是可以运行支付程序的客户端的终端,该客户端在运行支付程序时首先需要登录账号,在通过支付程序转账时需要输入转账金额以及转账对象的账号,终端101可以统计该账号的账号描述信息发送至第一服务器102。
第一服务器102通过统计多个终端发送的账号描述信息,将统计的各账号的账号描述信息生成关系图,关系图中的每个节点表征一个待识别账号的账号描述信息,所述账号描述信息包括至少一个子描述信息,任意两个节点之间的连边表征对应的两个待识别账号具有的相同的子描述信息,再由关系图获得每个待识别账号的子关系图,子关系图是以一个待识别账号为起始节点在关系图上进行随机游走生成的,子关系图中还包括起始节点的预设跳数内的邻居节点;第一服务器102将各待识别账号的子关系图存储至数据库104中。
第二服务器103从数据库104中获得各待识别账号对应的子关系图,利用预先训练的异常账号识别模型,得到各待识别账号的识别结果,所述识别结果用于指示相应账号是否为异常账号。
本申请实施例中提供了一种异常账号的识别方法,如图2所示,该方法应用于数据调度平台,该方法包括:
S101、获得至少一个关系图,所述关系图中的每个节点表征一个待识别账号的账号描述信息,所述账号描述信息包括至少一个子描述信息,任意两个节点之间的连边表征对应的两个待识别账号具有的相同的子描述信息。
本申请实施例的关系图可以是基于各个待识别账号的账号描述信息,通过图特征提取的方式构建的,其中各个待识别账号的账号描述信息的信息源可以是银行、网络支付平台等具有金融信息管理功能的信息源,即待识别账号可以是银行的信用卡、储蓄卡等账号,也可以是其他具有金融统计功能的对象的账号,比如第三方支付平台的交易账号等等。
另外,本申请实施例用户对账户进行是否为异常账号的识别,该异常账号可以为存在信用卡套现风险的账号,也可以为其他涉及相关交易特征的账户,例如洗钱账号、诈骗账号等,此处以诈骗账号的识别为例进行说明,并不做限定。
本申请实施例的账号描述信息,包括至少一个子描述信息,例如账号的所有者的身份证号、账号登录的设备的设备标识、交易方式、交易金额、交易对象的对象标识等。
本申请实施例获得的关系图中包括节点和边,每个节点用于表征一个待识别账号的账号描述信息,每条边与两个节点连接,当两个节点之间存在边连接时,说明这两个节点对应的待识别账号至少具有一个相同的子描述信息,比如两个待识别账号的所有者的身份证号是相同的,则两个待识别账号的节点之间存在一条边。
相比现有技术中的关系图的连边仅表征对应的两个待识别账号具有相同的子描述信息,也即关系图中只有一种连边,这种关系图也称之为同构关系图。而本申请实施例的连边则用于表征两个待识别账号具有的相同的子描述信息,也即当两个待识别账号具有的相同的子描述信息不同时,边也存在区别,从而使本申请实施例的关系图属于异构关系图。
在一个实施例中,本申请实施例的子描述信息至少有3种,包括:账号持有人、设备标识以及大额交易,以上述3种子描述信息为例,可以组合出7种关联关系,见表1。
关联关系 | 意义 |
同设备 | 一机多号 |
同持有人 | 一人多号 |
有大额交易 | 有大额交易 |
同设备、同持有人 | 一人一设备多号 |
同设备、大额交易 | 可能是诈骗转移大额资金 |
同持有人、大额交易 | 一人多账号转移大额资金 |
同设备、同持有人、大额交易 | 一人一设备不同账号转移大额资金 |
表1
通过表1可知,当出现同设备、不同持有人的账号发送大额交易时,可能是诈骗转移大额资金的情况,所以可以通过对满足这种关联关系的节点进行游走,挖掘出更多的异常账号。
需要注意的是,本申请实施例中不同的关系图一般情况下是独立的,也即任意两个不同关系图中的节点之间没有边连接,当存在关系图中节点较多时,也可以将一个关系图拆分成多个关系图,拆分后的关系图之间存在连边。
S102、对于各关系图中每个节点对应的待识别账号,基于所述待识别账号对应节点、以及以所述节点为起始节点的预设跳数内的邻居节点,获得所述待识别账号的子关系图。
本申请实施例对于任意一个待识别账号,基于该待识别账号对应节点所在的关系图,获得所述待识别账号的子关系图,子关系图中的节点包括待识别账号对应的起始节点以及所述起始节点预设跳数内的邻居节点。应当理解的是,子关系图是关系图的一部分,所以子关系图中仍然保留了关系图中连边,因此子关系图也是异构关系图,后续在通过子关系图提取待识别账号的特征时,相比通过关系图可以识别出更丰富的信息,从而提升识别准确性。
请参见图3,其示例性地示出了本申请实施例的关系图和子关系图的示意图,如图所示,该关系图中包括9个节点,分别为节点0至节点8,以节点0为例,若预设跳数为2跳,首先可确定该节点0的一跳节点为节点1和节点3,再从节点1开始,又可以获得二跳节点:节点2,以及从节点3开始,又可以获得二跳节点:节点4,所以节点0的子关系图中包括节点0-4。
本申请实施例由数据调度平台提前将关系图分解为每个待识别账号的子关系图,使后续图计算平台可直接以每个待识别账号的子关系图获得识别结果,使得图计算平台只需关注对于子关系图的特征识别(也包括对模型的训练),可提升图计算平台的处理效率。
S103、将各待识别账号的子关系图存储至分布式存储平台,以使得图计算平台从所述分布式存储平台获得各待识别账号的子关系图,利用预先训练的异常账号识别模型,得到各待识别账号的识别结果,所述识别结果用于指示相应账号是否为异常账号。
本申请实施例将各待识别账号的子关系图存储至分布式存储平台,在满足存储需求的同事,还利用分布式存储带来的灵活性和扩展性的优势,更符合对海量异常账号的识别场景,经验证,本申请实施例支持处理亿级的图节点和超高维度的特征。
在一个实施例中,数据调度平台可以基于SPARK集群运算框架实现的分布式系统,也即数据调度平台是由多个数据调度单元通过通信线路互联而构成的松散耦合的分布式系统。数据调度平台利用SPARK允许将数据(也即子关系图)加载至集群存储器(也即本申请实施例的分布式存储平台)的特性,可方便图计算平台从分布式存储平台多次进行查询,非常适合与机器学习相结合。
本申请实施例可以将子关系图转换为Libsvm文件格式,该格式是机器学习用的数据格式,拥有灵活且通用的数据表达方式,可方便图计算平台直接基于子关系图进行模型的训练和应用,提升识别效率。
本申请实施例的异常账号的识别方法,应用于数据调度平台,通过获得至少一个关系图,关系图中的节点的连边表征对应的两个待识别账号具有的相同的子描述信息,使得连边的类型不再仅有一种,也即本申请获得固定关系图为异构关系图,进一步从关系图中获得每个节点的子关系图,后续图计算平台可以专注于对子关系图的处理,提高了处理效率,并且利用子关系图中连边所表征的更丰富的节点间的关联关系,从而更准确地获得待识别账号的识别结果。并且,本申请通过将异常账号的识别过程解耦为子关系图的生成过程和对子关系图的图计算过程,两个平台各自的运行和优化不受另一侧的干扰,增加了系统架构的灵活性。
在上述各实施例的基础上,本申请实施例的图计算平台训练异常账号识别模型所需的训练数据也需要由数据调度平台生成并存储至分布式存储平台,具体地,数据调度平台获得至少一个样本关系图,样本关系图中的每个节点表征一个已识别账号的账号描述信息,任意两个节点之间的连边表征对应的两个待识别账号具有的相同的子描述信息;对于各样本关系图中每个节点对应的已识别账号,基于所述已识别账号对应节点、以及以节点为起始节点的预设跳数内的邻居节点,获得所述已识别账号的样本子关系图;将各已识别账号的样本子关系图以及识别结果存储至分布式存储平台,以使得图计算平台从所述分布式存储平台获得各已识别账号的子关系图和识别结果,并以已识别账号的子关系图为训练样本,以已识别账号的识别结果为训练标签,对初始模型进行训练,将训练完成的初始模型作为异常账号识别模型。
请参见图4,其示例性地示出了本申请对账号描述信息的处理流程示意图,如图所示,本申请实施例基于各账号的账号描述信息,可以获得任意两个账号之间的关联信息(也即两个账号具有的相同的子描述信息),应当理解的是,本申请实施例可以包括模型训练和模型应用两个阶段,并且先执行模型训练,再基于训练好的模型进行应用,相应地账号可以分为待识别账号和已识别账号(即已识别出是否为异常账号的账号)两类,首先基于各已识别账号的关联信息构建样本关系图,通过对样本关系图进行游走采样,获得各个已识别账号的样本子关系图,将样本子关系图转为Libsvm文件,通过分布式的图计算平台——EmbedX,对初始模型进行训练,获得异常账号识别模型,之后针对未识别账号,基于各待识别账号的关联信息构建关系图,通过对关系图进行游走采样,获得各个待识别账号的子关系图,同样将子关系图转为Libsvm文件,通过分布式的图计算平台——EmbedX,利用异常账号识别模型获得各待识别账号的识别结果。
一般情况下,游走出来的子关系图的规模方差极大,有的二跳(即跳数为2)的子图只有十几个节点,而有的子图则包括几百个节点,这种图结构数据的天然结构,带来的数据倾斜问题。为了克服该问题,本申请实施例启用更多的线程和均匀的shuffle可以比较好的解决这种天然的倾斜问题。
在上述各实施例的基础上,作为一种可选实施例,基于所述待识别账号对应节点所在的关系图,获得所述待识别账号的子关系图,包括:
S201、将各关系图划分为至少两个分组,每个分组包括至少一个关系图,各组包括的关系图中的数量均处于预设范围;
S202、根据分组数创建相应数量的处理进程,通过各处理进程确定相应分组的关系图中,每个节点对应的待识别账号的子关系图。
本申请实施例可以将各关系图进行shuffle处理,也即将所有关系图进行随机地打散,然后划分为至少两个分组,基于分组数量创建相应数量的处理进程,这样可使得各个处理进程处理的子关系图的数量大致相同,且整体的数据量也大致相同。
请参见图5,其示例性地示出了本申请实施例对关系图打乱的示意图,如图所示,对于获得的关系图,有的进程可能处理总计10N个节点的多个关系图,有的进程处理总共包含4N个节点的多个关系图,而有的进程可能仅处理总共包含N个节点的多个关系图,N为正整数,如果只是按关系图获得的顺序分配给数据调度平台上的各个数据调度单元(也可以是进程),很可能出现有的进程异常忙碌,而有的进程很空闲的情况,所以本申请实施例对关系图的顺序进行shuffle打乱,并且增加了更多的数据调度单元对关系图进行处理,由于关系图已经被打乱,所以每个数据调度单元处理的关系图的数据量大概是相等的,基本上都是总计3N个节点的多个关系图。
在上述各实施例的基础上,作为一种可选实施例,基于所述待识别账号对应节点所在的关系图,获得所述待识别账号的子关系图,之前还包括:
对于每个关系图,若确定具有同一个子描述信息的待识别账号的总数超过预设阈值,则将所述具有同一个子描述信息的待识别账号作为待处理账号,将关系图中两两待处理账号对应的节点之间的连线删除。
超级节点,即具有非常多连边的节点,超级节点容易造成子关系图的数据量达到指数级的增长,进而资源开销相应达到指数级增长,导致数据处理非常困难。
当某一账号登录的设备为公共设备,比如网吧电脑时,关系图中就存在大量使用该公共设备的账号对应的节点之间存在连边,一般来说,当一个公共设备对应的待识别账号达到预设数量,比如100个时,该公共设备和电信诈骗有关系的可能性很低,因为一个用于诈骗的终端不会存在如此多的账号。因此本申请对于每个关系图,若确定具有同一个子描述信息的待识别账号的总数超过预设阈值,则将所述具有同一个子描述信息的待识别账号作为待处理账号,然后将关系图中两两待处理账号对应节点恨自己的连线删除,从而有效限制关系图和子关系图的规模。
在一个实施例中,本申请实施例的子描述信息包括交易金额,本申请实施例可以叫交易金额设置为一个较高的阈值,也即仅当两个待识别账号存储大额交易时,才会认为两个待识别账号具有相同的子描述信息——交易金额。
本申请实施例的异常账号识别方法的数据调度平台和图计算平台没有直接交互,而是通过分别写入/读取分布式存储平台进行交互,这样可使得本方案的适用范围更广,不需要考虑数据调度平台和图计算平台间任务传递的适配问题,为了使得图计算平台能够及时获得待处理的子关系图,本申请实施例在分布式存储平台上维护状态信息,作为消息传递的中介,数据调度平台和图计算平台共同维护状态信息保证状态的统一,实现整个流程的畅通。具体地,数据调度平台在将各待识别账号对应的子关系图存储至分布式存储平台,之后还包括:
在所述分布式存储平台中更新第一状态信息,本申请实施例的第一状态信息可以为JSON config文件,JSON是一致轻量级的数据交换格式,可以让编程人员很容易地进行阅读和编写,同时也方便了机器进行解析和生成。第一状态信息用于指示数据调度平台已在所述分布式存储平台中存储各待识别账号的子关系图,图计算平台定时或不定时地检查分布式存储平台中的第一状态信息是否更新,在查询到所述第一状态信息更新时,根据所述分布式存储平台中的各待识别账号的子关系图,利用预先训练的异常账号识别模型,得到各待识别账号的识别结果。
在一个实施例中,当数据调度平台将已识别账号的子关系图存储至分布式存储平台时,数据调度平台可以在分布式存储平台中更新第三状态信息,第三状态信息用于指示数据调度平台已在分布式存储平台中存储各已识别账号的子关系图,图计算平台还用于定时或不定时检查第三状态信息,并在检测到第三状态信息更新时,基于已识别账号的子关系图,训练(包括优化)异常账号识别模型。
请参见图6,其示例性地示出了本申请实施例的数据调度平台、分布式存储平台以及图计算平台的交互示意图,如图所示,数据调度平台获得各已识别账号的账号描述信息以及各待识别账号的账号描述信息,针对各已识别账号的账号描述信息生成Libsvm格式的样本关系图,针对各待识别账号的账号描述信息生成Libsvm格式的关系图,在样本关系图中以各已识别账号为起始节点进行游走,获得各已识别账号的样本子关系图,在关系图中以各待识别账号为起始节点进行游走,获得各待识别账号的子关系图,样本子关系图和子关系图也都是Libsvm格式,当把各已识别账号的样本子关系图存储至分布式存储平台后,在分布式存储平台上更新第三状态信息,当把各待识别账号的样本子关系图存储至分布式存储平台后,在分布式存储平台上更新第一状态信息。
图计算平台当检查到第三状态信息更新时,从分布式存储平台上获得各已识别账号的样本子关系图,基于各已识别账号的样本子关系图进行异常账号识别模型的训练,当检查到第一状态信息更新时,从分布式存储平台上获得各待识别账号的子关系图,基于训练完成的异常账号识别模型预测各待识别账号的识别结果。
在上述各实施例的基础上,作为一种可选实施例,数据调度平台在分布式存储平台中更新第一状态信息,之后还包括:
当确定所述分布式存储平台中的第二状态信息更新时,从分布式存储平台中获得各待识别账号的识别结果,第二状态信息用于指示图计算平台已在所述分布式存储平台中存储各待识别账号的识别结果。
本申请实施例的图计算平台在通过异常账号识别模型预测得到待识别账号的识别结果后,还将识别结果存储至分布式存储平台上,并且在分布式存储平台上更新第二状态信息,数据调度平台定期或不定期查询第二状态信息是否更新,若更新,则从分布式存储平台上获得各待识别账号的识别结果,数据调度平台针对异常账号可以进行处理,例如封号、停止异常账号的收付款功能,向异常账号的转账账号发出提示信息等等。
本申请实施例还提供一种异常账号的识别方法,应用于图计算平台,,如图7所示,该方法包括:
S301、从分布式存储平台中获得各待识别账号的子关系图,所述子关系图是基于待识别账号对应节点所在的关系图确定的,所述关系图中的每个节点表征一个待识别账号的账号描述信息,所述账号描述信息包括至少一个子描述信息,任意两个节点之间的连边表征对应的两个待识别账号具有的相同的子描述信息,所述子关系图中的节点包括待识别账号对应的起始节点以及所述起始节点预设跳数内的邻居节点;
S302、根据各待识别账号对应的子关系图,利用预先训练的异常账号识别模型,得到各待识别账号的识别结果,所述识别结果用于指示相应账号是否为异常账号。
本申请实施例的图计算平台,通过从分布式存储平台获得各待识别账号的子关系图,利用预先寻路段异常账号识别模型得到各待识别账号的识别结果,图计算平台专注于对账号的识别,而无需关注数据的来源,实现了异常账号识别过程的解耦,并且本申请实施例的异常账号识别模型采用图神经网络对(子关系)图进行学习,子关系图中的连边更具体地表整理对应的两个待识别账号具有的相同的子描述信息,使得子关系图中包含了更丰富的关系信息,异常账号识别模型可以更有效地确定各账号之间的关系,提升异常账号的识别效率。
在一个实施例中,异常账号识别模型可以是图计算平台训练而成的,具体地,图计算平台从分布式存储平台获得各已识别账号的样本子关系图,样本子关系图是基于已识别账号对应节点所在的样本关系图确定的,样本关系图中的每个节点表征一个已识别账号的账号描述信息,任意两个节点之间的连边表征对应的两个已识别账号具有的相同的子描述信息,子关系图中的节点包括已识别账号对应的起始节点以及所述起始节点预设跳数内的邻居节点,根据各已识别账号对应的子关系图以及各已识别账号是否为异常账号的结果,对初始模型进行训练,将训练完成的初始模型作为异常账号识别模型。
在一个实施例中,分布式的图计算平台可以是分布式系统,也即由多个图计算单元通过通信线路互联而构成的松散耦合的系统。
在上述各实施例的基础上,作为一种可选实施例,根据各待识别账号对应的子关系图,利用预先训练的异常账号识别模型,得到各待识别账号的识别结果,包括:
S401、根据子关系图中最后一跳节点表征的账号描述信息,获得最后一跳节点的初始特征向量,根据每条边表征的对应两个待识别账号具有的相同的子描述信息,获得边的边特征;
S402、通过融合所述子关系图中最后一跳节点的初始特征向量以及各边的边特征,获得所述子关系图中起始节点的目标特征向量;
S403、根据所述子关系图中起始节点的目标特征向量,获得所述起始节点对应的待识别账号的识别结果。
本申请在确定识别结果时,利用最后一跳节点的初始特征向量,以及各连边的边特征,获得起始节点对应的待识别账号的识别结果。相比于现有的GraphSage模型只实现对同构关系图的学习,即仅获取关系图中邻居节点的特征向量进行运算,本申请实施例增加了对连边信息,也即节点和节点之间相同的子描述信息的聚合,可更准确地对账号的账号描述信息进行表征,从而获得更准确的识别结果。
在一个实施例中,还提供一种异常账号识别模型的训练方法,包括:
将样本子关系图以及样本子关系图中起始节点的真实结果(即该起始节点对应的已识别账号为异常账号或者不为异常账号)输入初始模型;
初始模型根据样本子关系图中最后一跳节点表征的账号描述信息,获得最后一跳节点的初始特征向量,根据每条边表征的对应两个已识别账号具有的相同的子描述信息,获得边的边特征;
通过融合样本子关系图中最后一跳节点的初始特征向量以及各边的边特征,获得样本子关系图中起始节点的目标特征向量;
根据样本子关系图中起始节点的目标特征向量,获得所述起始节点对应的待识别账号的预测结果,根据预测结果与起始节点的真实结果,调整初始模型的模型参数并继续训练,直至满足训练停止条件时结束训练。
在上述各实施例的基础上,作为一种可选实施例,通过融合所述子关系图中最后一跳节点的初始特征向量以及各边的边特征,获得所述子关系图中起始节点的目标特征向量,包括:
从子关系图中倒数第二跳的节点开始,采用以下操作逐跳向起始节点遍历,直至获得所述起始节点的中间特征向量,并作为目标特征向量,所述操作包括:
对于当前跳数的每个节点的每个参考节点,参考节点为当前跳数的下一跳数中该节点的邻居节点,根据该参考节点的中间特征向量以及该节点和该参考节点对应的边特征,获得该参考节点的参考特征向量,当当前跳数为倒数第二跳时,该参考节点的中间特征向量为初始特征向量;
对于当前跳数的每个节点,对该节点的各参考节点的参考特征向量进行聚合,获得该节点的中间特征向量。
本申请实施例从倒数第二跳的邻居节点开始,向起始节点逐跳遍历,在遍历当前跳数的节点时,根据该节点的参考节点的中间特征向量和该节点与参考节点的边特征,获得该参考节点的参考特征向量,由于参考节点是指当前跳数的下一跳数中该节点的邻居节点,也就是说,每个节点的中间特征向量都是基于下一跳的邻居节点的信息——中间特征向量和边特征获得的,从而实现向起始节点遍历。在获得一个节点的所有参考节点的中间特征向量后,通过对所有参考节点的参考特征向量进行聚合,即可获得该节点的中间特征向量。
下面结合一个具体的子关系图说明本申请实施例获得起始节点的目标特征向量的流程,该实施例中,子关系图的起始节点为节点1,节点1有两个一跳节点,分别为节点2和节点3,节点1通过节点2与二跳节点4连接,节点1通过节点3与二跳节点5连接。由于本申请实施例的倒数第二跳节点也即一跳节点,也即节点2和节点3。对于节点2来说,节点2的参考节点为节点4,由于节点4为最后一条节点,所以节点4的中间特征向量为初始特征向量,也即根据节点4的待识别账号的账号描述信息获得,节点4的初始特征向量结合节点4和节点2之间连边的边特征,可以获得节点4的参考特征向量,由于节点2只有一个参考节点,所以节点2只需要对节点4的参考特征向量进行聚合,获得节点2的中间特征向量,同理,可获得节点3的中间特征向量。
进一步根据节点2的中间特征向量以及节点1和节点2之间连边的边特征,可获得节点2的参考特征向量,同理,可获得节点3的参考特征向量。进一步对节点2和几点3的参考特征向量进行聚合,即可获得节点1的中间特征向量,由于节点1是起始节点,所以节点1的中间特征向量也即目标特征向量。
在上述各实施例的基础上,作为一种可选实施例,图计算平台从分布式存储平台中获得各待识别账号的子关系图,包括:
当确定所述分布式存储平台中的第一状态信息更新时,所述第一状态信息用于指示数据调度平台已在所述分布式存储平台中存储各待识别账号的子关系图,从所述分布式存储平台中获得各待识别账号的子关系图。
数据调度平台在所述分布式存储平台中更新第一状态信息,本申请实施例的第一状态信息可以为JSON config文件,JSON是一致轻量级的数据交换格式,可以让编程人员很容易地进行阅读和编写,同时也方便了机器进行解析和生成。第一状态信息用于指示数据调度平台已在所述分布式存储平台中存储各待识别账号的子关系图,图计算平台定时或不定时地检查分布式存储平台中的第一状态信息是否更新,当查询到所述第一状态信息更新时,根据所述分布式存储平台中的各待识别账号的子关系图,利用预先训练的异常账号识别模型,得到各待识别账号的识别结果。
在一个实施例中,当数据调度平台将已识别账号的子关系图存储至分布式存储平台时,数据调度平台可以在分布式存储平台中更新第三状态信息,第三状态信息用于指示数据调度平台已在分布式存储平台中存储各已识别账号的子关系图,图计算平台还用于定时或不定时检查第三状态信息,并在检测到第三状态信息更新时,基于已识别账号的子关系图,训练(包括优化)异常账号识别模型。
在一个可选实施例中,图计算平台得到各待识别账号的识别结果,之后还包括:
在所述分布式存储平台中存储各待识别账号的识别结果,在所述分布式存储平台中更新第二状态信息,所述第二状态信息用于指示图计算平台已在所述分布式存储平台中存储各待识别账号的识别结果,以使得数据调度平台在在查询到所述第二状态信息更新时,获得所述分布式存储平台中各待识别账号的识别结果。
申请实施例的图计算平台在通过异常账号识别模型预测得到待识别账号的识别结果后,还将识别结果存储至分布式存储平台上,并且在分布式存储平台上更新第二状态信息,数据调度平台定期或不定期查询第二状态信息是否更新,若更新,则从分布式存储平台上获得各待识别账号的识别结果,数据调度平台针对异常账号可以进行处理,例如封号、停止异常账号的收付款功能,向异常账号的转账账号发出提示信息等等。
请参见图9,其示例性地示出了本申请的场景实施例的示意图,如图所示,该场景包括终端、聊天服务器、数据调度平台、图计算平台、分布式存储平台,终端上运行有某款聊天类应用程序,用户可通过该应用程序实现与其他账号的用户的聊天,该应用程序还具有转账功能,用户可以通过该应用程序提供的转帐功能向其他账号转账,可以理解的是,多个终端的聊天和转账可以通过聊天服务器完成,聊天服务器会记录每个账号的账号描述信息,可以理解的是,涉及到某些用户数据时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
聊天服务器保存各账号的账号描述信息,并通过人工的方式确定一部分账号是否为异常账号,将人工确定是否异常的账号作为已识别账号,对于人工没有确定是否异常的账号作为待识别账号,聊天服务器分别将已识别账号的账号描述信息和待识别账号的账号描述信息发送至数据调度平台。
数据调度平台获得至少一个关系图,关系图包括样本关系图和待识别关系图,待识别关系图中的每个节点表征一个待识别账号的账号描述信息,样本关系图中的每个节点表征一个已识别账号的账号描述信息,所述账号描述信息包括至少一个子描述信息,任意两个节点之间的连边表征对应的两个账号具有的相同的子描述信息;对于各关系图中每个节点对应的账号,基于所述账号对应的节点以及以所述节点为起始节点的预设跳数内的邻居节点,获得所述账号的子关系图;
数据调度平台将各账号的子关系图存储至分布式存储平台,图计算平台从所述分布式存储平台获得各账号的子关系图,利用各已识别账号的子关系图训练异常账号识别模型,以及根据所述异常账号识别模型对各待识别账号的子关系图进行预测,得到各待识别账号的识别结果,所述识别结果用于指示相应账号是否为异常账号。
图计算平台将各待识别账号的识别结果存至分布式存储平台,数据调度平台从分布式存储平台获得异常账号,并将异常账号反馈至聊天服务器,聊天服务器对异常账号进行处理,例如当用户正在向异常账号转账时,向用户发送提示信息并禁用转账功能。
本申请实施例提供了一种数据调度平台,如图9所示,该分布式的数据调度平台,可以包括:关系图获得模块110、子关系图获得模块120以及图存储模块130,其中,
关系图获得模块110,用于获得至少一个关系图,所述关系图中的每个节点表征一个待识别账号的账号描述信息,所述账号描述信息包括至少一个子描述信息,任意两个节点之间的连边表征对应的两个待识别账号具有的相同的子描述信息;
子关系图获得模块120,用于对于各关系图中每个节点对应的待识别账号,基于所述待识别账号对应节点、以及以所述节点为起始节点的预设跳数内的邻居节点,获得所述待识别账号的子关系图;
图存储模块130,用于将各待识别账号的子关系图存储至分布式存储平台,以使得图计算平台从所述分布式存储平台获得各待识别账号的子关系图,利用预先训练的异常账号识别模型,得到各待识别账号的识别结果,所述识别结果用于指示相应账号是否为异常账号。
本申请实施例的数据调度平台可执行本申请实施例所提供的数据调度平台执行的异常账号的识别方法,其实现原理相类似,本申请各实施例的数据调度平台中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于数据调度平台的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
作为一种可选的实施方式,子关系图获得模块包括:
分组单元,用于将各关系图划分为至少两个分组,每个分组包括至少一个关系图,各组包括的关系图中的数量均处于预设范围;
进程创建模块,用于根据分组数创建相应数量的处理进程,通过各处理进程确定相应分组的关系图中,每个节点对应的待识别账号的子关系图。
作为一种可选的实施方式,数据调度平台还包括:
关系图调整模块,用于在获得所述待识别账号的子关系图之前,对于每个关系图,若确定具有同一个子描述信息的待识别账号的总数超过预设阈值,则将所述具有同一个子描述信息的待识别账号作为待处理账号;将关系图中两两待处理账号对应的节点之间的连线删除。
作为一种可选的实施方式,数据调度平台还包括:
第一状态更新模块,用于在将各待识别账号对应的子关系图存储至分布式存储平台之后,在所述分布式存储平台中更新第一状态信息,所述第一状态信息用于指示数据调度平台已在所述分布式存储平台中存储各待识别账号的子关系图,以使得所述图计算平台在查询到所述第一状态信息更新时,根据所述分布式存储平台中的各待识别账号的子关系图,利用预先训练的异常账号识别模型,得到各待识别账号的识别结果。
作为一种可选的实施方式,数据调度平台还包括:
第二状态信息查询模块,用于当确定所述分布式存储平台中的第二状态信息更新时,从所述分布式存储平台中获得各待识别账号的识别结果,所述第二状态信息用于指示图计算平台已在所述分布式存储平台中存储各待识别账号的识别结果。
本申请实施例提供了一种图计算平台,如图10所示,该数据调度平台,可以包括:图获取模块210以及账号识别模块220,其中,
图获取模块210,用于从分布式存储平台中获得各待识别账号的子关系图,所述子关系图是基于待识别账号对应节点所在的关系图确定的,所述关系图中的每个节点表征一个待识别账号的账号描述信息,所述账号描述信息包括至少一个子描述信息,任意两个节点之间的连边表征对应的两个待识别账号具有的相同的子描述信息,所述子关系图中的节点包括待识别账号对应的起始节点以及所述起始节点预设跳数内的邻居节点;
账号识别模块220,用于根据各待识别账号对应的子关系图,利用预先训练的异常账号识别模型,得到各待识别账号的识别结果,所述识别结果用于指示相应账号是否为异常账号。
本申请实施例的图计算平台可执行本申请实施例所提供的图计算平台执行的异常账号的识别方法,其实现原理相类似,本申请各实施例的数据调度平台中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于图计算平台的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
作为一种可选的实施方式,账号识别模块包括:
特征获得子模块,用于根据所述子关系图中最后一跳节点表征的账号描述信息,获得最后一跳节点的初始特征向量,根据每条边表征的对应两个待识别账号具有的相同的子描述信息,获得边的边特征;
起始特征获得子模块,用于通过融合所述子关系图中最后一跳节点的初始特征向量以及各边的边特征,获得所述子关系图中起始节点的目标特征向量;
预测子模块,用于根据所述子关系图中起始节点的目标特征向量,获得所述起始节点对应的待识别账号的识别结果。
作为一种可选的实施方式,起始特征获得模块从所述子关系图中倒数第二跳的节点开始,采用以下操作逐跳向起始节点遍历,直至获得所述起始节点的中间特征向量,并作为目标特征向量,所述操作包括:
对于当前跳数的每个节点的每个参考节点,所述参考节点为当前跳数的下一跳数中该节点的邻居节点,根据该参考节点的中间特征向量以及该节点和该参考节点对应的边特征,获得该参考节点的参考特征向量,当当前跳数为倒数第二跳时,该参考节点的中间特征向量为初始特征向量;
对于当前跳数的每个节点,对该节点的各参考节点的参考特征向量进行聚合,获得该节点的中间特征向量。
作为一种可选的实施方式,图获取模块具体用于:
当确定所述分布式存储平台中的第一状态信息更新时,所述第一状态信息用于指示数据调度平台已在所述分布式存储平台中存储各待识别账号的子关系图,从所述分布式存储平台中获得各待识别账号的子关系图。
作为一种可选的实施方式,图计算平台还包括:
第二状态信息更新模块,用于在所述分布式存储平台中存储各待识别账号的识别结果,在所述分布式存储平台中更新第二状态信息,所述第二状态信息用于指示图计算平台已在所述分布式存储平台中存储各待识别账号的识别结果,以使得数据调度平台在在查询到所述第二状态信息更新时,获得所述分布式存储平台中各待识别账号的识别结果。
本申请实施例中提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现异常账号的识别方法的步骤,与相关技术相比可实现:通过获得至少一个关系图,关系图中的节点的连边表征对应的两个待识别账号具有的相同的子描述信息,使得连边的类型不再仅有一种,也即本申请获得固定关系图为异构关系图,进一步从关系图中获得每个节点的子关系图,后续图计算平台可以专注于对子关系图的处理,提高了处理效率,并且利用子关系图中连边所表征的更丰富的节点关联关系,可以更准确地获得待识别账号的识别结果。并且,本申请通过将异常账号的识别过程解耦为子关系图的生成过程和对子关系图的图计算过程,两个平台各自的运行和优化不受另一侧的干扰,增加了系统架构的灵活性。
在一个可选实施例中提供了一种电子设备,如图11所示,图11所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器4003用于存储执行本申请实施例的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的步骤。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除图示或文子描述以外的顺序实施。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。
Claims (15)
1.一种异常账号的识别方法,其特征在于,应用于数据调度平台,所述方法包括:
获得至少一个关系图,所述关系图中的每个节点表征一个待识别账号的账号描述信息,所述账号描述信息包括至少一个子描述信息,任意两个节点之间的连边表征对应的两个待识别账号具有的相同的子描述信息;
对于各关系图中每个节点对应的待识别账号,基于所述待识别账号对应节点、以及以所述节点为起始节点的预设跳数内的邻居节点,获得所述待识别账号的子关系图;
将各待识别账号的子关系图存储至分布式存储平台,以使得分布式的图计算平台从所述分布式存储平台获得各待识别账号的子关系图,利用预先训练的异常账号识别模型,得到各待识别账号的识别结果,所述识别结果用于指示相应账号是否为异常账号。
2.根据权利要求1所述的方法,其特征在于,所述基于所述待识别账号对应节点所在的关系图,获得所述待识别账号的子关系图,包括:
将各关系图划分为至少两个分组,每个分组包括至少一个关系图,各组包括的关系图中的数量均处于预设范围;
根据分组数创建相应数量的处理进程,通过各处理进程确定相应分组的关系图中,每个节点对应的待识别账号的子关系图。
3.根据权利要求1所述的识别方法,其特征在于,所述基于所述待识别账号对应节点所在的关系图,获得所述待识别账号的子关系图,之前还包括:
对于每个关系图,若确定具有同一个子描述信息的待识别账号的总数超过预设阈值,则将所述具有同一个子描述信息的待识别账号作为待处理账号;
将关系图中两两待处理账号对应的节点之间的连线删除。
4.根据权利要求1所述的方法,其特征在于,所述将各待识别账号对应的子关系图存储至分布式存储平台,之后还包括:
在所述分布式存储平台中更新第一状态信息,所述第一状态信息用于指示数据调度平台已在所述分布式存储平台中存储各待识别账号的子关系图,以使得所述图计算平台在查询到所述第一状态信息更新时,根据所述分布式存储平台中的各待识别账号的子关系图,利用预先训练的异常账号识别模型,得到各待识别账号的识别结果。
5.根据权利要求4所述的方法,其特征在于,所述在所述分布式存储平台中更新第一状态信息,之后还包括:
当确定所述分布式存储平台中的第二状态信息更新时,从所述分布式存储平台中获得各待识别账号的识别结果,所述第二状态信息用于指示图计算平台已在所述分布式存储平台中存储各待识别账号的识别结果。
6.一种异常账号的识别方法,其特征在于,应用于图计算平台,所述方法包括:
从分布式存储平台中获得各待识别账号的子关系图,所述子关系图是基于待识别账号对应节点所在的关系图确定的,所述关系图中的每个节点表征一个待识别账号的账号描述信息,所述账号描述信息包括至少一个子描述信息,任意两个节点之间的连边表征对应的两个待识别账号具有的相同的子描述信息,所述子关系图中的节点包括待识别账号对应的起始节点以及所述起始节点预设跳数内的邻居节点;
根据各待识别账号对应的子关系图,利用预先训练的异常账号识别模型,得到各待识别账号的识别结果,所述识别结果用于指示相应账号是否为异常账号。
7.根据权利要求6所述的方法,其特征在于,所述根据各待识别账号对应的子关系图,利用预先训练的异常账号识别模型,得到各待识别账号的识别结果,包括:
根据所述子关系图中最后一跳节点表征的账号描述信息,获得最后一跳节点的初始特征向量,根据每条边表征的对应两个待识别账号具有的相同的子描述信息,获得边的边特征;
通过融合所述子关系图中最后一跳节点的初始特征向量以及各边的边特征,获得所述子关系图中起始节点的目标特征向量;
根据所述子关系图中起始节点的目标特征向量,获得所述起始节点对应的待识别账号的识别结果。
8.根据权利要求7所述的方法,其特征在于,所述通过融合所述子关系图中最后一跳节点的初始特征向量以及各边的边特征,获得所述子关系图中起始节点的目标特征向量,包括:
从所述子关系图中倒数第二跳的节点开始,采用以下操作逐跳向起始节点遍历,直至获得所述起始节点的中间特征向量,并作为目标特征向量,所述操作包括:
对于当前跳数的每个节点的每个参考节点,所述参考节点为当前跳数的下一跳数中该节点的邻居节点,根据该参考节点的中间特征向量以及该节点和该参考节点对应的边特征,获得该参考节点的参考特征向量,当当前跳数为倒数第二跳时,该参考节点的中间特征向量为初始特征向量;
对于当前跳数的每个节点,对该节点的各参考节点的参考特征向量进行聚合,获得该节点的中间特征向量。
9.根据权利要求6所述的方法,其特征在于,所述从分布式存储平台中获得各待识别账号的子关系图,包括:
当确定所述分布式存储平台中的第一状态信息更新时,所述第一状态信息用于指示数据调度平台已在所述分布式存储平台中存储各待识别账号的子关系图,从所述分布式存储平台中获得各待识别账号的子关系图。
10.根据权利要求6所述的方法,其特征在于,所述得到各待识别账号的识别结果,之后还包括:
在所述分布式存储平台中存储各待识别账号的识别结果,在所述分布式存储平台中更新第二状态信息,所述第二状态信息用于指示图计算平台已在所述分布式存储平台中存储各待识别账号的识别结果,以使得数据调度平台在在查询到所述第二状态信息更新时,获得所述分布式存储平台中各待识别账号的识别结果。
11.一种数据调度平台,其特征在于,包括:
关系图获得模块,用于获得至少一个关系图,所述关系图中的每个节点表征一个待识别账号的账号描述信息,所述账号描述信息包括至少一个子描述信息,任意两个节点之间的连边表征对应的两个待识别账号具有的相同的子描述信息;
子关系图获得模块,用于对于各关系图中每个节点对应的待识别账号,基于所述待识别账号对应节点、以及以所述节点为起始节点的预设跳数内的邻居节点,获得所述待识别账号的子关系图;
图存储模块,用于将各待识别账号的子关系图存储至分布式存储平台,以使得分布式的图计算平台从所述分布式存储平台获得各待识别账号的子关系图,利用预先训练的异常账号识别模型,得到各待识别账号的识别结果,所述识别结果用于指示相应账号是否为异常账号。
12.一种图计算平台,其特征在于,包括:
图获取模块,用于从分布式存储平台中获得各待识别账号的子关系图,所述子关系图是基于待识别账号对应节点所在的关系图确定的,所述关系图中的每个节点表征一个待识别账号的账号描述信息,所述账号描述信息包括至少一个子描述信息,任意两个节点之间的连边表征对应的两个待识别账号具有的相同的子描述信息,所述子关系图中的节点包括待识别账号对应的起始节点以及所述起始节点预设跳数内的邻居节点;
账号识别模块,用于根据各待识别账号对应的子关系图,利用预先训练的异常账号识别模型,得到各待识别账号的识别结果,所述识别结果用于指示相应账号是否为异常账号。
13.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-10任一项所述异常账号的识别方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-10任一项所述的异常账号的识别方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-10任一项所述的异常账号的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211542262.1A CN117216736A (zh) | 2022-12-02 | 2022-12-02 | 异常账号的识别方法、数据调度平台及图计算平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211542262.1A CN117216736A (zh) | 2022-12-02 | 2022-12-02 | 异常账号的识别方法、数据调度平台及图计算平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117216736A true CN117216736A (zh) | 2023-12-12 |
Family
ID=89046781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211542262.1A Pending CN117216736A (zh) | 2022-12-02 | 2022-12-02 | 异常账号的识别方法、数据调度平台及图计算平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117216736A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117520927A (zh) * | 2024-01-04 | 2024-02-06 | 支付宝(杭州)信息技术有限公司 | 检测异常账户的方法和装置 |
-
2022
- 2022-12-02 CN CN202211542262.1A patent/CN117216736A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117520927A (zh) * | 2024-01-04 | 2024-02-06 | 支付宝(杭州)信息技术有限公司 | 检测异常账户的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11694093B2 (en) | Generation of training data to train a classifier to identify distinct physical user devices in a cross-device context | |
US9330416B1 (en) | Visualization of fraud patterns | |
CN107563757B (zh) | 数据风险识别的方法及装置 | |
CN110309840A (zh) | 风险交易识别方法、装置、服务器及存储介质 | |
CN111371767B (zh) | 恶意账号识别方法、恶意账号识别装置、介质及电子设备 | |
CN110070359A (zh) | 基于区块链的数据核对系统、方法、计算设备及存储介质 | |
US20230099864A1 (en) | User profiling based on transaction data associated with a user | |
CN111681091A (zh) | 基于时间域信息的金融风险预测方法、装置及存储介质 | |
CN106529953B (zh) | 一种对业务属性进行风险识别的方法及装置 | |
US20200394448A1 (en) | Methods for more effectively moderating one or more images and devices thereof | |
CN117216736A (zh) | 异常账号的识别方法、数据调度平台及图计算平台 | |
CN106874371A (zh) | 一种数据处理方法及装置 | |
CN115859187A (zh) | 对象识别方法、装置、电子设备及存储介质 | |
CN106101117B (zh) | 一种钓鱼网站阻断方法、装置和系统 | |
CN111639916A (zh) | 一种基于区块链技术及深度学习的在线审计方法、系统和可读存储介质 | |
CN112541765A (zh) | 用于检测可疑交易的方法和装置 | |
CN113935738B (zh) | 交易数据处理方法、装置、存储介质及设备 | |
CN113630476A (zh) | 应用于计算机集群的通信方法及通信装置 | |
US9183595B1 (en) | Using link strength in knowledge-based authentication | |
CN111860655A (zh) | 用户的处理方法、装置和设备 | |
CN111985979A (zh) | 用于广告业务中的无效流量信息处理的方法和装置 | |
CN111967671A (zh) | 基于支持向量数据域描述的跨境活跃用户识别方法及装置 | |
CN113313505B (zh) | 异常定位方法、装置及计算设备 | |
CN110400219B (zh) | 业务处理方法及系统、交易监控方法及系统 | |
Devi et al. | IoT Device Security for Smart Card Fraud Detection for Credit Cards |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |