CN111291229A - 一种稠密多部子图的检测方法及系统 - Google Patents

一种稠密多部子图的检测方法及系统 Download PDF

Info

Publication number
CN111291229A
CN111291229A CN202010071390.7A CN202010071390A CN111291229A CN 111291229 A CN111291229 A CN 111291229A CN 202010071390 A CN202010071390 A CN 202010071390A CN 111291229 A CN111291229 A CN 111291229A
Authority
CN
China
Prior art keywords
node
subset
degree
account
dense
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010071390.7A
Other languages
English (en)
Other versions
CN111291229B (zh
Inventor
刘盛华
石川
程学旗
李香峰
沈华伟
刘财政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202010071390.7A priority Critical patent/CN111291229B/zh
Publication of CN111291229A publication Critical patent/CN111291229A/zh
Application granted granted Critical
Publication of CN111291229B publication Critical patent/CN111291229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出一种基于稠密多部子图的检测方法及系统,包括:步骤1、根据链式特征中的信息流动,构建交易网络的多部图,根据预设的账户间信息流动阈值筛选该多部图,得到该多部图中的稠密子图;步骤2、以固定账户存在超阈值的信息流且在中间账户中保留低于阈值的权重为约束条件,生成该稠密子图中节点子集的异常值;步骤3、根据该异常值,输出该多部图中存在异常行为的节点子集作为异常行为检测结果。本发明通过具有有效性和鲁棒性和良好的可扩展性。

Description

一种稠密多部子图的检测方法及系统
技术领域
本发明涉及数据挖掘领域,特别涉及一种稠密多部子图的检测方法及系统。
背景技术
随着互联网的发展,互联网应用获得了飞速发展,社交媒体也获得了飞速 发展,目前社交媒体已超越搜索引擎,成为互联网第一大流量来源,二者占比 分别为46%和40%。而随着技术的发展,恶意话题操作以及洗钱等也成为了 不法分子的谋取暴力的工具。恶意话题炒作是一些团伙通过相互转发信息来炒 作某个话题,从而获得舆论影响力、宣传推广等目的;互洗钱是将从非法来源 获得的资金转化为合法资金的过程。图成为一种常见数据应用到许多科学和工 程中,图可以表示成这样一种结构,即图G=(V,E)是一对集合:一组顶点 V表示实体和一组边E表示实体之间的关系或连接。在计算机科学中,网络包含节点和边缘;而在社会科学中,相应的术语则是行为者和关系,在本文中这 两个术语具有同等意义。如果用图中的顶点表示参与活动的人,用边表示消息 或者人与人之间的关联。那么当发起媒体炒作或者洗钱行为时,会在特定时间 或者特定常见下,参与活动的人之间产生一个多部稠密子图。用户之间的相互 关注关系就构成了社交网络图,其常见的存储格式是邻接矩阵或者拉普拉斯矩 阵,邻接矩阵如图1所示,当两个节点之间右边相连时,对应的位置置为1, 如果两个节点之间无边相连,对应的位置置为0,如果是有权图,对应位置置 为权值,无边相连对应位置置为极大的值,但是其特征几乎相同。
图2显示了一个洗钱的案例,包含从源账户到中间账户到目标账户的两步 资金转移流程。为了隐藏资金的真实来源和去向,洗钱者往往通过多层中间账 户(可以是银行内或银行间转账)隐秘的将脏钱从源账户转移到目的账户。银 行转账日志中只记录了自己银行中的账户的交易记录,包括从外部账户转入、 从银行账户转出和银行账户之间的转账记录。由于不太可能从每个银行得到转 账日志,因此洗钱检测问题通常集中在如何利用单个银行的转账日志上。实际 上,现有的度量和算法通常足以使用单个银行的交易记录或者来自多个银行的 联合交易记录来进行洗钱检测。下文使用“银行”来代指进行洗钱检测的银行 或者多个银行集合。一般而言,洗钱流程包括三步:a)在银行开户若干中间 账户;b)从其他银行开户的源账户转账到中间账户;c)将钱从中间账户汇集 到若干不同的目的地账户。洗钱行为具有两个主要特征,第一个特征是密集转 账。洗钱者创建了一个密集的高容量转账子图,无论是在资金流入银行还是流 出银行的时候。这是因为欺诈账户的数量有限,并且需要在短时间内将大量资 金转入银行并转出银行,从而产生了密集的高容量转账子图。第二个特征是中 间账户的账户余额基本为零。中间账户在洗钱过程中充当了资金桥的作用:大 部分流入的资金都将被转出,从而使得流入流出资金基本相等,账户余额为零。这是因为洗钱者留在中间账户中的钱会有被检测和冻结的风险。因此,欺诈者 往往在中间账户中留下尽可能少的钱。
当前对于多部稠密子图检测的方法包括:
第一是是基于规则的分类。这些规则基于本体的专家系统来检测可疑交易; 使用基于规则设计的贝叶斯网络来评估客户的交易行为的风险指数。
第二是基于机器学习算法来检测。这些方法包括SVM、决策树、RBF神经 网络等。
第三是通用的基于图的异常检测算法。这些检测方法主要基于图来检测洗 钱行为。具体包括研究特征向量中的模式,基于消息传播以及基于稠密子图等。
以上这些方法都没有捕捉洗钱行为中的异常信息或者活动链,也不提供理 论保证,更容易被犯罪分子攻击,同时受到类不平衡问题的影响,适应性有限。 此外,大多数现有的检测方法忽略了这些行为中的链式特征,也忽略了账户之 间的复杂依赖关系,导致较低的检测准确率,容易被犯罪分子规避。稠密子图 和密度子张量检测算法已被应用于图欺诈检测,但这些算法只考虑了一跳交易 上的密度。尽管可以处理链式交易,但它需要大量的真实标记数据来完成模型 的训练,而这种标记数据很少,并且使用特定标记数据可能使模型发生过拟合 而降低了鲁棒性。
发明内容
针对现有技术的不足,本发明提出一种基于稠密多部子图的检测方法,其 中包括:
步骤1、根据链式特征中的信息流动,构建交易网络的多部图,根据预设 的账户间信息流动阈值筛选该多部图,得到该多部图中的稠密子图;
步骤2、以固定账户存在超阈值的信息流且在中间账户中保留低于阈值的 权重为约束条件,生成该稠密子图中节点子集的异常值;
步骤3、根据该异常值,输出该多部图中存在异常行为的节点子集作为异 常行为检测结果。
所述的稠密多部子图的检测方法,其中步骤1中该多部图
Figure BDA0002377379290000031
Figure BDA0002377379290000032
其中
Figure BDA0002377379290000039
是银行或者消息炒作团体的内部账户的集合,
Figure BDA00023773792900000310
Figure BDA00023773792900000311
是银 行或者消息炒作团体的外部的集合,其中
Figure BDA00023773792900000312
是对银行净转入的账户集合或者 是发布消息的团体集合,
Figure BDA00023773792900000313
是接受银行净转出的账户集合或者最终转发消息的 集合,三部图中的边对应于从
Figure BDA00023773792900000314
Figure BDA00023773792900000315
以及从
Figure BDA00023773792900000316
Figure BDA00023773792900000317
的权重,对于i,j∈v,边(i,j)∈ε 表示账户i将钱或者信息转给j。
所述的稠密多部子图的检测方法,其中该稠密子图的节点子集
Figure BDA0002377379290000033
其中
Figure BDA0002377379290000034
所述的稠密多部子图的检测方法,其中该步骤2具体为:
根据该节点子集中为从vi到vj的总权重eij,权重可以使用转账金额或者消息 转发的数量来衡量,得到节点
Figure BDA00023773792900000318
关于节点子集
Figure BDA00023773792900000319
的总入度和出度值:
Figure BDA0002377379290000035
得到一个中间账户关于节点子集
Figure BDA00023773792900000320
的总加权出度和入度的最小值和最大值:
Figure BDA0002377379290000036
Figure BDA0002377379290000037
其中
Figure BDA00023773792900000321
分别表示节点自身的度,节点的出度和入度;
从节点子集
Figure BDA00023773792900000322
通过中间账户子集
Figure BDA00023773792900000323
转账到另一个子集
Figure BDA00023773792900000324
的资金流或者信息 流的异常值为:
Figure BDA0002377379290000038
其中λ≥0,且λ为资金转入转出不平衡的损失,
Figure BDA00023773792900000325
表示节点的出度 和入度的最小值和最大值,
Figure BDA0002377379290000041
公式二中的
Figure BDA00023773792900000410
是从源账户子集
Figure BDA00023773792900000411
到目的 账户子集
Figure BDA00023773792900000412
所能够通过中间账户
Figure BDA00023773792900000413
的最大可能流量(权重),
Figure BDA00023773792900000414
为完 成转账后vi节点中的账户余额或者转发信息后的权重,异常度量
Figure BDA00023773792900000415
为子集
Figure BDA00023773792900000416
中 的每个账户在洗钱的过程获得的利润或者转发获得的收益。
所述的稠密多部子图的检测方法,其中该步骤3包括:
步骤31、为
Figure BDA00023773792900000417
中的所有节点构建优先级树
Figure BDA00023773792900000419
来寻找最大化公式(4)中目 标函数的
Figure BDA00023773792900000418
对应的子集
Figure BDA0002377379290000042
定义分配给节点vi的优先级为:
Figure BDA0002377379290000043
其中
Figure BDA00023773792900000420
节点本身的出度或者入度;
步骤32、从子集
Figure BDA0002377379290000044
开始,从优先级树
Figure BDA0002377379290000045
中权重最小的节点 v,在集合
Figure BDA00023773792900000421
中删除对应的节点v,在优先级树中更新以v为邻居节点的权重wi, 根据公式四或者公式五得到
Figure BDA00023773792900000435
步骤33、重复步骤31和32,直到
Figure BDA00023773792900000423
中至少有一个为空,输出
Figure BDA00023773792900000424
最 大时的集合
Figure BDA00023773792900000436
作为该异常行为检测结果。
本发明还提出了一种基于稠密多部子图的检测系统,其中包括:
模块1、根据链式特征中的信息流动,构建交易网络的多部图,根据预设 的账户间信息流动阈值筛选该多部图,得到该多部图中的稠密子图;
模块2、以固定账户存在超阈值的信息流且在中间账户中保留低于阈值的 权重为约束条件,生成该稠密子图中节点子集的异常值;
模块3、根据该异常值,输出该多部图中存在异常行为的节点子集作为异 常行为检测结果。
所述的稠密多部子图的检测系统,其中模块1中该多部图
Figure BDA0002377379290000046
Figure BDA0002377379290000047
其中
Figure BDA00023773792900000426
是银行或者消息炒作团体的内部账户的集合,
Figure BDA00023773792900000427
Figure BDA00023773792900000428
是银 行或者消息炒作团体的外部的集合,其中
Figure BDA00023773792900000429
是对银行净转入的账户集合或者 是发布消息的团体集合,
Figure BDA00023773792900000430
是接受银行净转出的账户集合或者最终转发消息的 集合,三部图中的边对应于从
Figure BDA00023773792900000431
Figure BDA00023773792900000432
以及从
Figure BDA00023773792900000433
Figure BDA00023773792900000434
的权重,对于i,j∈v,边(i,j)∈ε 表示账户i将钱或者信息转给j。
所述的稠密多部子图的检测系统,其中该稠密子图的节点子集
Figure BDA0002377379290000048
其中
Figure BDA0002377379290000049
所述的稠密多部子图的检测系统,其中该模块2具体为:
根据该节点子集中为从vi到vj的总权重eij,权重可以使用转账金额或者消息 转发的数量来衡量,得到节点
Figure BDA0002377379290000059
关于节点子集
Figure BDA00023773792900000510
的总入度和出度值:
Figure BDA0002377379290000051
得到一个中间账户关于节点子集
Figure BDA00023773792900000511
的总加权出度和入度的最小值和最大值:
Figure BDA0002377379290000052
Figure BDA0002377379290000053
其中
Figure BDA00023773792900000512
分别表示节点自身的度,节点的出度和入度;
从节点子集
Figure BDA00023773792900000513
通过中间账户子集
Figure BDA00023773792900000514
转账到另一个子集
Figure BDA00023773792900000515
的资金流或者信息 流的异常值为:
Figure BDA0002377379290000054
其中λ≥0,且λ为资金转入转出不平衡的损失,
Figure BDA00023773792900000516
表示节点的出度 和入度的最小值和最大值,
Figure BDA0002377379290000055
公式二中的
Figure BDA00023773792900000517
是从源账户子集
Figure BDA00023773792900000518
到目的 账户子集
Figure BDA00023773792900000519
所能够通过中间账户
Figure BDA00023773792900000520
的最大可能流量(权重),
Figure BDA00023773792900000521
为完 成转账后vi节点中的账户余额或者转发信息后的权重,异常度量
Figure BDA00023773792900000522
为子集
Figure BDA00023773792900000523
中 的每个账户在洗钱的过程获得的利润或者转发获得的收益。
所述的稠密多部子图的检测系统,其中该模块3包括:
模块31、为
Figure BDA00023773792900000524
中的所有节点构建优先级树
Figure BDA00023773792900000532
来寻找最大化公式(4)中目 标函数的
Figure BDA00023773792900000525
对应的子集
Figure BDA00023773792900000534
定义分配给节点vi的优先级为:
Figure BDA0002377379290000056
其中
Figure BDA00023773792900000527
节点本身的出度或者入度;
模块32、从子集
Figure BDA0002377379290000057
开始,从优先级树
Figure BDA00023773792900000533
中权重最小的节点 v,在集合
Figure BDA00023773792900000528
中删除对应的节点v,在优先级树中更新以v为邻居节点的权重wi, 根据公式四或者公式五得到
Figure BDA0002377379290000058
模块33、重复模块31和32,直到
Figure BDA00023773792900000529
中至少有一个为空,输出
Figure BDA00023773792900000530
最 大时的集合
Figure BDA00023773792900000535
作为该异常行为检测结果。
本发明与现有技术相比的优点在于:
(1)本发明提出了多部子图行为的新异常度量:本发明提出了一种新的 度量来检测密集的多步流量异常,并验证了其检测多部子图的有效性;同时能 够提供理论保证。
(2)本发明具有有效性和鲁棒性:本发明在各种多部图的拓扑结构下的 性能优于最先进的算法,当使用更多欺诈性账户,更长的传输链时,本发明仍 然可以有效检测对抗性的异常行为。
(3)本发明具有良好的可扩展性:本发明的算法复杂度和图中边的数量 成近似线性的关系(即转账记录数),有良好的可扩展性,因此非常适合银行 快速增长的业务。
附图说明
图1是无权图的邻接矩阵图。
图2是洗钱的案例示意图。
图3是系统工作流程图。
具体实施方式
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并 配合说明书附图作详细说明如下。
本文所提出的一种稠密多部子图的检测方法和装置。在应用到洗钱行为检 测时,具体包括:我们使用多部图来建模银行中的资金流动,并为转账行为定 义新的异常度量。较高的度量值表明通过图中存在通过若干固定账户的大量资 金流,而且不会在中间账户中留下太多资金。相反,正常(即诚实)账户并不 总是一致地将钱转移到特定账户,也不会立即清空中间账户的余额,因此具有 较低的度量值。本方法通过优化所设计的度量值来搜索欺诈性账户,同时近似 贪心的优化源,中间和目的账户的子集。此外,本方法为检测结果的近似最 优性提供理论保证,给出了欺诈者可以在不被检测到洗钱行为的情况下能够转移金额的上限。
本发明具体实施例如下:
(1)本发明中关于实施实例中图的定义。用图
Figure BDA0002377379290000062
是表示交易网络的 三部图。定义
Figure BDA0002377379290000061
其中
Figure BDA0002377379290000063
是银行的内部账户的集合,
Figure BDA0002377379290000064
Figure BDA0002377379290000065
是银行外 部账户的集合,其中
Figure BDA0002377379290000079
是对银行净转入的账户集合,
Figure BDA00023773792900000710
是接受银行净转出的账 户集合。三部图中的边对应于从
Figure BDA00023773792900000711
Figure BDA00023773792900000712
以及从
Figure BDA00023773792900000713
Figure BDA00023773792900000714
的资金转账。对于i,j∈v,边 (i,j)∈ε表示账户i将钱转给j。由于许多转账可能发生在一条边上,因此每条 边可以代表多次转账。eij是从vi到vj的转账总金额。
(2)少数账户中的大量资金流动构成了这个三部图中的一个稠密子图, 本方法要评估由节点子集
Figure BDA00023773792900000715
构成的稠密子图的异常值,其中
Figure BDA0002377379290000071
Figure BDA0002377379290000072
)以便检测大量的资金转移行为。
定义eij为从vi到vj的总转账金额,并定义节点
Figure BDA00023773792900000716
关于节点子集
Figure BDA00023773792900000717
的总(加 权)入度和出度值:
Figure BDA0002377379290000073
定义一个中间账户关于节点子集
Figure BDA00023773792900000718
的总加权出度和入度的最小值和最大值:
Figure BDA0002377379290000074
Figure BDA0002377379290000075
其中
Figure BDA00023773792900000719
分别表示节点自身的度,节点的出度和入度。
定义洗钱的异常值:从节点子集
Figure BDA00023773792900000720
通过中间账户子集
Figure BDA00023773792900000721
转账到另一个子集
Figure BDA00023773792900000722
的资金流的异常值是:
Figure BDA0002377379290000076
其中λ≥0是常系数,将λ定义为资金转入转出不平衡的损失,用于量化洗 钱者因单位的盈余或赤字(伪装成本)而遭受的损失程度,可以通过经验得到 或者有专家给出。
Figure BDA00023773792900000723
表示节点的出度和入度的最小值和最大值,
Figure BDA0002377379290000077
公式二中的
Figure BDA00023773792900000724
是从源账户子集
Figure BDA00023773792900000725
到目的账户子集
Figure BDA00023773792900000726
所能够通过中间账户
Figure BDA00023773792900000727
的最大可能流量。
Figure BDA00023773792900000728
为完成转账后vi节点中的“账户余额”,可以看做 是洗钱的损耗,因为洗钱者更希望将中间账户的账户余额清零。“剩余金额” 是中间账户的盈余或赤字(即通过和子集
Figure BDA0002377379290000078
Figure BDA00023773792900000729
之外的账户交易所产生的),这 些“剩余金额”可以看作洗钱者为了逃避检测的所进行的对抗伪装行为。λ的 解释和我们的度量:我们将λ定义为资金转入转出不平衡的损失,这是一个常 数系数,用于量化洗钱者因单位的盈余或赤字(伪装成本)而遭受的损失程度。 现在我们的异常度量
Figure BDA0002377379290000087
可以被解释为子集
Figure BDA0002377379290000088
中的每个账户可以在洗钱的过程 获得的利润(收益减去成本)。
(3)本方法提出了一种近似贪婪的算法,通过为
Figure BDA0002377379290000089
中的所有节点构建优先 级树来寻找最大化公式(4)中目标函数的
Figure BDA00023773792900000810
对应的子集
Figure BDA00023773792900000830
定义分配给节点vi的权重(即优先级)为:
Figure BDA0002377379290000081
其中
Figure BDA00023773792900000812
节点本身的出度或者入度。我们还可以将节点的先验异常值添加 到权重
Figure BDA00023773792900000813
中。
(4)本发明的输入是一个三部图,用图
Figure BDA00023773792900000814
表示交易网络的三部图。 定义
Figure BDA0002377379290000082
其中
Figure BDA00023773792900000815
是银行的内部账户的集合,
Figure BDA00023773792900000816
Figure BDA00023773792900000817
是银行外部账户的 集合,其中
Figure BDA00023773792900000818
是对银行净转入的账户集合,
Figure BDA00023773792900000819
是接受银行净转出的账户集合。 三部图中的边对应于从
Figure BDA00023773792900000820
Figure BDA00023773792900000821
以及从
Figure BDA00023773792900000822
Figure BDA00023773792900000823
的资金转账。本发明的输出是最有可 能涉嫌洗钱的节点子集。
(5)少数账户中的大量资金流动构成了这个三部图中的一个稠密子图, 在本小节中给出本方法所使用的定义。本方法要评估由节点子集
Figure BDA00023773792900000824
构成的稠密子图的异常值,其中
Figure BDA0002377379290000083
)以便检测大量的资金转 移行为。
(6)根据公式六,计算图中节点的权重wi,根据节点的权重构造优先级 树
Figure BDA0002377379290000084
(7)算法从子集
Figure BDA0002377379290000085
开始,从优先级树
Figure BDA00023773792900000829
中权重最小的节点 v,在集合
Figure BDA00023773792900000825
中删除对应的节点v,在优先级树中更新以v为邻居节点的权重wi, 根据公式四或者公式五计算
Figure BDA0002377379290000086
(8)重复步骤(6)和(7),直到
Figure BDA00023773792900000826
中最少有一个为空。
(9)得到使
Figure BDA00023773792900000827
最大的集合
Figure BDA00023773792900000831
本方法结束。在步骤(7)中删除使优先树 权重最小的节点,剩下的节点就可以保证g(s)最大。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方 式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有 效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细 节也可应用在上述实施方式中。
本发明还提出了一种基于稠密多部子图的检测系统,其中包括:
模块1、根据链式特征中的信息流动,构建交易网络的多部图,根据预设 的账户间信息流动阈值筛选该多部图,得到该多部图中的稠密子图;
模块2、以固定账户存在超阈值的信息流且在中间账户中保留低于阈值的 权重为约束条件,生成该稠密子图中节点子集的异常值;
模块3、根据该异常值,输出该多部图中存在异常行为的节点子集作为异 常行为检测结果。
所述的稠密多部子图的检测系统,其中模块1中该多部图
Figure BDA0002377379290000091
Figure BDA0002377379290000092
其中
Figure BDA00023773792900000910
是银行或者消息炒作团体的内部账户的集合,
Figure BDA00023773792900000911
Figure BDA00023773792900000912
是银 行或者消息炒作团体的外部的集合,其中
Figure BDA00023773792900000913
是对银行净转入的账户集合或者 是发布消息的团体集合,
Figure BDA00023773792900000914
是接受银行净转出的账户集合或者最终转发消息的 集合,三部图中的边对应于从
Figure BDA00023773792900000915
Figure BDA00023773792900000916
以及从
Figure BDA00023773792900000917
Figure BDA00023773792900000918
的权重,对于i,j∈v,边(i,j)∈ε 表示账户i将钱或者信息转给j。
所述的稠密多部子图的检测系统,其中该稠密子图的节点子集
Figure BDA0002377379290000093
其中
Figure BDA0002377379290000094
所述的稠密多部子图的检测系统,其中该模块2具体为:
根据该节点子集中为从vi到vj的总权重eij,权重可以使用转账金额或者消息 转发的数量来衡量,得到节点
Figure BDA00023773792900000919
关于节点子集
Figure BDA00023773792900000920
的总入度和出度值:
Figure BDA0002377379290000095
得到一个中间账户关于节点子集
Figure BDA00023773792900000921
的总加权出度和入度的最小值和最大值:
Figure BDA0002377379290000096
Figure BDA0002377379290000097
其中
Figure BDA00023773792900000922
分别表示节点自身的度,节点的出度和入度;
从节点子集
Figure BDA00023773792900000923
通过中间账户子集
Figure BDA00023773792900000924
转账到另一个子集
Figure BDA00023773792900000925
的资金流或者信息 流的异常值为:
Figure BDA0002377379290000098
其中λ≥0,且λ为资金转入转出不平衡的损失,
Figure BDA00023773792900000926
表示节点的出度 和入度的最小值和最大值,
Figure BDA0002377379290000099
公式二中的
Figure BDA00023773792900000927
是从源账户子集
Figure BDA00023773792900000928
到目的 账户子集
Figure BDA0002377379290000105
所能够通过中间账户
Figure BDA0002377379290000106
的最大可能流量(权重),
Figure BDA0002377379290000107
为完 成转账后vi节点中的账户余额或者转发信息后的权重,异常度量
Figure BDA0002377379290000108
为子集
Figure BDA0002377379290000109
中 的每个账户在洗钱的过程获得的利润或者转发获得的收益。
所述的稠密多部子图的检测系统,其中该模块3包括:
模块31、为
Figure BDA00023773792900001010
中的所有节点构建优先级树
Figure BDA00023773792900001018
来寻找最大化公式(4)中目 标函数的
Figure BDA00023773792900001011
对应的子集
Figure BDA00023773792900001019
定义分配给节点vi的优先级为:
Figure BDA0002377379290000101
其中
Figure BDA00023773792900001013
节点本身的出度或者入度;
模块32、从子集
Figure BDA0002377379290000102
开始,从优先级树
Figure BDA0002377379290000103
中权重最小的节点 v,在集合
Figure BDA00023773792900001014
中删除对应的节点v,在优先级树中更新以v为邻居节点的权重wi, 根据公式四或者公式五得到
Figure BDA0002377379290000104
模块33、重复模块31和32,直到
Figure BDA00023773792900001015
中至少有一个为空,输出
Figure BDA00023773792900001016
最 大时的集合
Figure BDA00023773792900001020
作为该异常行为检测结果。以上所述,仅为本发明部分具体实 施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的人员在本发明 揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围 之内。

Claims (10)

1.一种基于稠密多部子图的检测方法,其特征在于,包括:
步骤1、根据链式特征中的信息流动,构建交易网络的多部图,根据预设的账户间信息流动阈值筛选该多部图,得到该多部图中的稠密子图;
步骤2、以固定账户存在超阈值的信息流且在中间账户中保留低于阈值的权重为约束条件,生成该稠密子图中节点子集的异常值;
步骤3、根据该异常值,输出该多部图中存在异常行为的节点子集作为异常行为检测结果。
2.如权利要求1所述的稠密多部子图的检测方法,其特征在于,步骤1中该多部图
Figure FDA00023773792800000115
其中
Figure FDA00023773792800000116
是银行或者消息炒作团体的内部账户的集合,
Figure FDA00023773792800000117
Figure FDA00023773792800000118
是银行或者消息炒作团体的外部的集合,其中
Figure FDA00023773792800000119
是对银行净转入的账户集合或者是发布消息的团体集合,
Figure FDA00023773792800000120
是接受银行净转出的账户集合或者最终转发消息的集合,三部图中的边对应于从
Figure FDA00023773792800000121
Figure FDA00023773792800000122
以及从
Figure FDA00023773792800000123
Figure FDA00023773792800000124
的权重,对于
Figure FDA00023773792800000125
边(i,j)∈ε表示账户i将钱或者信息转给j。
3.如权利要求2所述的稠密多部子图的检测方法,其特征在于,该稠密子图的节点子集
Figure FDA0002377379280000012
其中
Figure FDA0002377379280000013
4.如权利要求3所述的稠密多部子图的检测方法,其特征在于,该步骤2具体为:
根据该节点子集中为从vi到vj的总权重eij,权重可以使用转账金额或者消息转发的数量来衡量,得到节点
Figure FDA0002377379280000014
关于节点子集
Figure FDA0002377379280000015
的总入度和出度值:
Figure FDA0002377379280000016
得到一个中间账户关于节点子集
Figure FDA0002377379280000017
的总加权出度和入度的最小值和最大值:
Figure FDA0002377379280000018
Figure FDA0002377379280000019
其中di
Figure FDA00023773792800000110
分别表示节点自身的度,节点的出度和入度;
从节点子集
Figure FDA00023773792800000111
通过中间账户子集
Figure FDA00023773792800000112
转账到另一个子集
Figure FDA00023773792800000113
的资金流或者信息流的异常值为:
Figure FDA00023773792800000114
Figure FDA0002377379280000021
其中λ≥0,且λ为资金转入转出不平衡的损失,
Figure FDA0002377379280000022
表示节点的出度和入度的最小值和最大值,
Figure FDA0002377379280000023
公式二中的
Figure FDA0002377379280000024
是从源账户子集
Figure FDA0002377379280000025
到目的账户子集
Figure FDA0002377379280000026
所能够通过中间账户
Figure FDA0002377379280000027
的最大可能流量(权重),
Figure FDA0002377379280000028
为完成转账后vi节点中的账户余额或者转发信息后的权重,异常度量
Figure FDA0002377379280000029
为子集
Figure FDA00023773792800000210
中的每个账户在洗钱的过程获得的利润或者转发获得的收益。
5.如权利要求4所述的稠密多部子图的检测方法,其特征在于,该步骤3包括:
步骤31、为
Figure FDA00023773792800000211
中的所有节点构建优先级树
Figure FDA00023773792800000212
来寻找最大化公式(4)中目标函数的
Figure FDA00023773792800000213
对应的子集
Figure FDA00023773792800000214
定义分配给节点vi的优先级为:
Figure FDA00023773792800000215
其中
Figure FDA00023773792800000216
节点本身的出度或者入度;
步骤32、从子集
Figure FDA00023773792800000217
开始,从优先级树
Figure FDA00023773792800000218
中权重最小的节点v,在集合
Figure FDA00023773792800000219
中删除对应的节点v,在优先级树中更新以v为邻居节点的权重wi,根据公式四或者公式五得到
Figure FDA00023773792800000220
步骤33、重复步骤31和32,直到
Figure FDA00023773792800000221
中至少有一个为空,输出
Figure FDA00023773792800000222
最大时的集合
Figure FDA00023773792800000223
作为该异常行为检测结果。
6.一种基于稠密多部子图的检测系统,其特征在于,包括:
模块1、根据链式特征中的信息流动,构建交易网络的多部图,根据预设的账户间信息流动阈值筛选该多部图,得到该多部图中的稠密子图;
模块2、以固定账户存在超阈值的信息流且在中间账户中保留低于阈值的权重为约束条件,生成该稠密子图中节点子集的异常值;
模块3、根据该异常值,输出该多部图中存在异常行为的节点子集作为异常行为检测结果。
7.如权利要求6所述的稠密多部子图的检测系统,其特征在于,模块1中该多部图
Figure FDA00023773792800000224
其中
Figure FDA00023773792800000225
是银行或者消息炒作团体的内部账户的集合,
Figure FDA00023773792800000226
Figure FDA00023773792800000227
是银行或者消息炒作团体的外部的集合,其中
Figure FDA00023773792800000228
是对银行净转入的账户集合或者是发布消息的团体集合,
Figure FDA00023773792800000229
是接受银行净转出的账户集合或者最终转发消息的集合,三部图中的边对应于从
Figure FDA00023773792800000230
Figure FDA00023773792800000231
以及从
Figure FDA00023773792800000232
Figure FDA00023773792800000233
的权重,对于
Figure FDA00023773792800000332
边(i,j)∈ε表示账户i将钱或者信息转给j。
8.如权利要求7所述的稠密多部子图的检测系统,其特征在于,该稠密子图的节点子集
Figure FDA0002377379280000031
其中
Figure FDA0002377379280000032
9.如权利要求8所述的稠密多部子图的检测系统,其特征在于,该模块2具体为:
根据该节点子集中为从vi到vj的总权重eij,权重可以使用转账金额或者消息转发的数量来衡量,得到节点
Figure FDA0002377379280000033
关于节点子集
Figure FDA0002377379280000034
的总入度和出度值:
Figure FDA0002377379280000035
得到一个中间账户关于节点子集
Figure FDA0002377379280000036
的总加权出度和入度的最小值和最大值:
Figure FDA0002377379280000037
Figure FDA0002377379280000038
其中di
Figure FDA0002377379280000039
分别表示节点自身的度,节点的出度和入度;
从节点子集
Figure FDA00023773792800000310
通过中间账户子集
Figure FDA00023773792800000311
转账到另一个子集
Figure FDA00023773792800000312
的资金流或者信息流的异常值为:
Figure FDA00023773792800000313
Figure FDA00023773792800000314
其中λ≥0,且λ为资金转入转出不平衡的损失,
Figure FDA00023773792800000315
表示节点的出度和入度的最小值和最大值,
Figure FDA00023773792800000316
公式二中的
Figure FDA00023773792800000317
是从源账户子集
Figure FDA00023773792800000318
到目的账户子集
Figure FDA00023773792800000319
所能够通过中间账户
Figure FDA00023773792800000320
的最大可能流量(权重),
Figure FDA00023773792800000321
为完成转账后vi节点中的账户余额或者转发信息后的权重,异常度量
Figure FDA00023773792800000322
为子集
Figure FDA00023773792800000323
中的每个账户在洗钱的过程获得的利润或者转发获得的收益。
10.如权利要求9所述的稠密多部子图的检测系统,其特征在于,该模块3包括:
模块31、为
Figure FDA00023773792800000324
中的所有节点构建优先级树
Figure FDA00023773792800000325
来寻找最大化公式(4)中目标函数的
Figure FDA00023773792800000326
对应的子集
Figure FDA00023773792800000327
定义分配给节点vi的优先级为:
Figure FDA00023773792800000328
其中
Figure FDA00023773792800000329
节点本身的出度或者入度;
模块32、从子集
Figure FDA00023773792800000330
开始,从优先级树
Figure FDA00023773792800000331
中权重最小的节点v,在集合
Figure FDA0002377379280000041
中删除对应的节点v,在优先级树中更新以v为邻居节点的权重wi,根据公式四或者公式五得到
Figure FDA0002377379280000042
模块33、重复模块31和32,直到
Figure FDA0002377379280000043
中至少有一个为空,输出
Figure FDA0002377379280000044
最大时的集合
Figure FDA0002377379280000045
作为该异常行为检测结果。
CN202010071390.7A 2020-01-21 2020-01-21 一种稠密多部子图的检测方法及系统 Active CN111291229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010071390.7A CN111291229B (zh) 2020-01-21 2020-01-21 一种稠密多部子图的检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010071390.7A CN111291229B (zh) 2020-01-21 2020-01-21 一种稠密多部子图的检测方法及系统

Publications (2)

Publication Number Publication Date
CN111291229A true CN111291229A (zh) 2020-06-16
CN111291229B CN111291229B (zh) 2023-10-31

Family

ID=71021432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010071390.7A Active CN111291229B (zh) 2020-01-21 2020-01-21 一种稠密多部子图的检测方法及系统

Country Status (1)

Country Link
CN (1) CN111291229B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112650968A (zh) * 2020-11-18 2021-04-13 天津大学 一种多网络基于异常对齐模型的异常子图检测方法
CN113298345A (zh) * 2021-04-06 2021-08-24 杭州未名信科科技有限公司 异常行为的检测方法、装置、电子设备及介质
CN113722546A (zh) * 2021-08-19 2021-11-30 北京达佳互联信息技术有限公司 异常用户账户获取方法及装置、电子设备、存储介质
CN113935832A (zh) * 2021-09-29 2022-01-14 光大科技有限公司 一种异常行为检测处理方法及装置
WO2024007565A1 (en) * 2022-07-07 2024-01-11 Hsbc Software Development (Guangdong) Limited Network analysis using optical quantum computing

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170149814A1 (en) * 2015-04-16 2017-05-25 Nec Laboratories America, Inc. Real-Time Detection of Abnormal Network Connections in Streaming Data
US9787640B1 (en) * 2014-02-11 2017-10-10 DataVisor Inc. Using hypergraphs to determine suspicious user activities
CN107832964A (zh) * 2017-11-21 2018-03-23 江苏神威云数据科技有限公司 银行客户关系圈分析方法及系统
CN109710754A (zh) * 2018-11-12 2019-05-03 中国科学院信息工程研究所 一种基于深度结构学习的群体异常行为检测方法
CN109753797A (zh) * 2018-12-10 2019-05-14 中国科学院计算技术研究所 针对流式图的密集子图检测方法及系统
CN109947814A (zh) * 2018-08-21 2019-06-28 慧安金科(北京)科技有限公司 用于检测数据集合中的异常数据组的方法和设备
CN110400220A (zh) * 2019-07-23 2019-11-01 上海氪信信息技术有限公司 一种基于半监督图神经网络的智能可疑交易监测方法
CN110490730A (zh) * 2019-08-21 2019-11-22 北京顶象技术有限公司 异常资金聚集行为检测方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9787640B1 (en) * 2014-02-11 2017-10-10 DataVisor Inc. Using hypergraphs to determine suspicious user activities
US20170149814A1 (en) * 2015-04-16 2017-05-25 Nec Laboratories America, Inc. Real-Time Detection of Abnormal Network Connections in Streaming Data
CN107832964A (zh) * 2017-11-21 2018-03-23 江苏神威云数据科技有限公司 银行客户关系圈分析方法及系统
CN109947814A (zh) * 2018-08-21 2019-06-28 慧安金科(北京)科技有限公司 用于检测数据集合中的异常数据组的方法和设备
CN109710754A (zh) * 2018-11-12 2019-05-03 中国科学院信息工程研究所 一种基于深度结构学习的群体异常行为检测方法
CN109753797A (zh) * 2018-12-10 2019-05-14 中国科学院计算技术研究所 针对流式图的密集子图检测方法及系统
CN110400220A (zh) * 2019-07-23 2019-11-01 上海氪信信息技术有限公司 一种基于半监督图神经网络的智能可疑交易监测方法
CN110490730A (zh) * 2019-08-21 2019-11-22 北京顶象技术有限公司 异常资金聚集行为检测方法、装置、设备及存储介质

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
P. DICKINSON; H. BUNKE; A. DADEJ; M. KRAETZL: "Median graphs and anomalous change detection in communication networks", 《FINAL PROGRAM AND ABSTRACTS ON INFORMATION, DECISION AND CONTROL》, pages 20 - 25 *
官赛萍、靳小龙、贾岩涛、王元卓、程学旗: "面向知识图谱的知识推理研究进展", 《软件学报》 *
官赛萍、靳小龙、贾岩涛、王元卓、程学旗: "面向知识图谱的知识推理研究进展", 《软件学报》, 8 February 2018 (2018-02-08), pages 2966 - 2994 *
杨冬梅等: "金融网络中洗钱资金异常转移路径的经济成本模型", 《系统工程理论与实践》 *
杨冬梅等: "金融网络中洗钱资金异常转移路径的经济成本模型", 《系统工程理论与实践》, no. 05, 25 May 2006 (2006-05-25), pages 25 - 31 *
杨莉、薛耀文、高慧敏: "金融网络中资金异常流动监测的可视化支持研究", 《计算机技术与发展》, pages 192 - 198 *
郑剑、周艳丽、刘聪: "面向IaaS云平台的用户异常行为检测方法", 《江西理工大学学报》 *
郑剑、周艳丽、刘聪: "面向IaaS云平台的用户异常行为检测方法", 《江西理工大学学报》, 28 February 2016 (2016-02-28), pages 68 - 73 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112650968A (zh) * 2020-11-18 2021-04-13 天津大学 一种多网络基于异常对齐模型的异常子图检测方法
CN113298345A (zh) * 2021-04-06 2021-08-24 杭州未名信科科技有限公司 异常行为的检测方法、装置、电子设备及介质
CN113298345B (zh) * 2021-04-06 2022-11-18 杭州未名信科科技有限公司 异常行为的检测方法、装置、电子设备及介质
CN113722546A (zh) * 2021-08-19 2021-11-30 北京达佳互联信息技术有限公司 异常用户账户获取方法及装置、电子设备、存储介质
CN113722546B (zh) * 2021-08-19 2024-03-12 北京达佳互联信息技术有限公司 异常用户账户获取方法及装置、电子设备、存储介质
CN113935832A (zh) * 2021-09-29 2022-01-14 光大科技有限公司 一种异常行为检测处理方法及装置
WO2024007565A1 (en) * 2022-07-07 2024-01-11 Hsbc Software Development (Guangdong) Limited Network analysis using optical quantum computing

Also Published As

Publication number Publication date
CN111291229B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN111291229B (zh) 一种稠密多部子图的检测方法及系统
Pourhabibi et al. Fraud detection: A systematic literature review of graph-based anomaly detection approaches
Taghavinejad et al. Intrusion detection in IoT-based smart grid using hybrid decision tree
WO2021076457A1 (en) Continuous vulnerability management system for blockchain smart contract based digital asset using sandbox and artificial intelligence
CN111652732A (zh) 一种基于交易图匹配的比特币异常交易实体识别方法
CN114547415A (zh) 工业物联网中基于网络威胁情报的攻击模拟方法
Duan et al. Automated security assessment for the internet of things
Salau et al. Data cooperatives for neighborhood watch
Pocher et al. Detecting anomalous cryptocurrency transactions: An AML/CFT application of machine learning-based forensics
Liu et al. Improving fraud detection via hierarchical attention-based graph neural network
Lata et al. A comprehensive survey of fraud detection techniques
Du et al. Malicious transaction identification in digital currency via federated graph deep learning
Luo et al. Ai-powered fraud detection in decentralized finance: A project life cycle perspective
Shirazi et al. A combined anomaly base intrusion detection using memetic algorithm and Bayesian networks
Pocher et al. Detecting anomalous cryptocurrency transactions: an aml/cft application of machine learning-based forensics
Kumar et al. Preserving Security of Crypto Transactions with Machine Learning Methodologies
CN115438751A (zh) 一种基于图神经网络的区块链钓鱼诈骗识别的方法
Dou Robust Graph Learning for Misbehavior Detection
Zhao et al. Improving Address Clustering in Bitcoin by Proposing Heuristics
Karim et al. Catch me if you can: Semi-supervised graph learning for spotting money laundering
Zhuo et al. Partitioning Message Passing for Graph Fraud Detection
Lin et al. RiskProp: Account Risk Rating on Ethereum via De-anonymous Score and Network Propagation
CN115545189B (zh) 训练图生成网络、训练图神经网络的方法及装置
Ampel et al. Disrupting Ransomware Actors on the Bitcoin Blockchain: A Graph Embedding Approach
Jeyakumar et al. Visualizing Blockchain Transaction Behavioural Pattern: A Graph-based Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant