CN111882446A - 一种基于图卷积网络的异常账户检测方法 - Google Patents

一种基于图卷积网络的异常账户检测方法 Download PDF

Info

Publication number
CN111882446A
CN111882446A CN202010738675.1A CN202010738675A CN111882446A CN 111882446 A CN111882446 A CN 111882446A CN 202010738675 A CN202010738675 A CN 202010738675A CN 111882446 A CN111882446 A CN 111882446A
Authority
CN
China
Prior art keywords
transaction
account
data
abnormal
consumption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010738675.1A
Other languages
English (en)
Other versions
CN111882446B (zh
Inventor
孙留倩
魏玉良
王佰玲
王巍
黄俊恒
辛国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weihai Tianzhiwei Network Space Safety Technology Co ltd
Harbin Institute of Technology Weihai
Original Assignee
Weihai Tianzhiwei Network Space Safety Technology Co ltd
Harbin Institute of Technology Weihai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weihai Tianzhiwei Network Space Safety Technology Co ltd, Harbin Institute of Technology Weihai filed Critical Weihai Tianzhiwei Network Space Safety Technology Co ltd
Priority to CN202010738675.1A priority Critical patent/CN111882446B/zh
Publication of CN111882446A publication Critical patent/CN111882446A/zh
Application granted granted Critical
Publication of CN111882446B publication Critical patent/CN111882446B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Finance (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种基于图卷积网络的异常账户检测方法,属于网络安全技术领域,通过对账户交易数据进行预处理,得到真正需要的有效数据。然后对交易数据按照一定标准进行聚类,得到高中低三种不同的消费能力人群,根据消费情况对人员分组来识别账户异常情况。分组处理后,构建金融网络,采用GCN对异常账户进行分类。分类处理后,得到异常账户和正常账户,应用KNN对异常账户进行识别,找到与该异常账户异常情况最为相似的现有异常账户,通过比对进行风险分析,确定异常情况和异常原因。能够快速、准确的识别出拥有异常交易行为的账户,并为之匹配异常行为最为相似的现有样本,帮助工作人员锁定目标,迅速判断账户风险。

Description

一种基于图卷积网络的异常账户检测方法
技术领域
本发明涉及一种基于图卷积网络的异常账户检测方法,属于网络安全技术领域。
背景技术
非法传销在二十多年前流入中国,在极短的时间内迅速扩张,在国内一直是一个屡禁不止的毒瘤。随着我国对传销打击力度的不断加大,传销犯罪活动开始由公众视野转向地下,隐蔽性更强。面对大数据时代的机遇与挑战,随着经济改革的深入推进以及人、物、财、信息等社会资源流动的加剧,传销犯罪活动更是层出不穷,犯罪手段与规模的发展演变迅速,社会影响恶劣,损害人民的财产安全,造成人民的经济损失。那么快速准确的识别并锁定出异常的交易账户,对其进行风险分析,减少人民的经济财产损失,就显得尤为重要。
工作人员侦破传销案件大多都是通过逐条分析银行的金融数据来开展工作的,这种形式虽然具有一定的准确率,但是,金融交易数据巨大,耗费的人力成本和时间成本太多。随着人工智能的快速发展,公安局等有关部门希望能与深度学习进行有效融合,借助人工智能算法自动地从金融数据中找到具有欺诈风险的异常的金融账户,从而节省人力,提高办事效率。
从国内外目前的研究看,金融数据异常检测主要分为基于统计学的方法和基于数据挖掘的方法两大类。传统的异常检测方法主要是基于统计学的模型法,如ARMA、ARCH模型。这些模型是在坚实的数学理论和假设基础上,通过演绎推理的方法建立起来的。近年来,随着信息技术的发展,数据挖掘技术开始应用到金融数据异常检测中。数据挖掘是一种基于归纳的方法,如聚类算法,神经网络等,它们可以处理大规模的高频金融数据,将成为未来异常检测的发展方向。
现有的大多数欺诈检测方法只是从大量的交易数据中,获取自身的历史行为交易模型,去学习合法交易和欺诈交易的复杂边界,给出阈值,预测风险程度,以此来确定账户类别。但是不能解释为什么交易具有风险,这不足以让调查人员做出准确的决定,他们必须花更多的时间回溯,以便根据自己的经验找到有价值的信息。由于庞大交易数据的产生,需要投入大量的人力,可行性不高,能为工作人员提供的帮助有限,所以可行性不高。
发明内容
针对现有技术的不足,本发明提供一种基于图卷积网络的异常账户检测方法,通过对账户交易数据进行预处理,得到真正需要的有效数据。然后对交易数据按照一定标准进行聚类,得到高中低三种不同的消费能力人群,根据消费情况对人员分组来识别账户异常情况。分组处理后,构建金融网络,采用GCN对异常账户进行分类。分类处理后,得到异常账户和正常账户,应用KNN对异常账户进行识别,找到与该异常账户异常情况最为相似的现有账户,通过比对进行风险分析,确定异常情况和异常原因。能够快速、准确的识别出拥有异常交易行为的账户,并为之匹配异常行为最为相似的现有样本,帮助工作人员锁定目标,迅速判断账户风险。
本发明的技术方案如下:
一种基于图卷积网络的异常账户检测方法,包括步骤如下:
1、收集金融数据集,对数据进行预处理,金融数据包括交易流水数据,预处理包括数据去噪和数据补全;
数据预处理的目标就是构建一个金融网络。由于原有数据存在重复值、异常值和缺失值等情况,影响后期建模的准确率,所以需要进行数据预处理。
数据去噪为去除在交易流水数据中的不可用的交易流水记录;所述交易流水记录内容包括:(1)交易双方卡号,即交易发起方的卡号,交易接受方的卡号;(2)交易金额;(3)交易时间;(4)交易明细;(5)交易类型。所述不可用的交易流水记录为不完全包含以上5个内容的交易流水记录,需要在数据去噪阶段从数据中去除掉。
数据去噪的规则是剔除不可用的交易流水记录。如果在一条交易流水记录中,所关注的所有字段的格式都是合法的,则此条交易流水记录是可用的。反之,这条交易流水记录是不可用的。
数据补全是指在数据集中对每条交易流水中的交易双方的数据进行一次补全;金融数据本身是以交易的发起方为关键字,逐条地从银行的交易流水数据中查询得到。在构建网络时,每条交易记录的发起方和接收方都作为一个节点存在于网络中。对于每一个节点,不论该节点在金融数据中是作为交易的发起方或是接收方出现,都要保存该节点的所有交易信息。此时,需要针对网络做一个信息补全,确保对每一个账户节点作分析时,不会有信息的缺失。
数据补全通过使用多维字典作为金融网络的数据结构,逐条扫描金融数据,将每一条数据的信息存入金融网络中,对于扫描到的每条数据,在金融网络中找到交易的发起方和接收方,将该条数据补充进他们的交易数据列表。
2、人员分组,提取特征
由于传销金额的特殊性,不同金额代表不同消费人群,也对应着传销组织中的不同层级。将交易金额定义为高消费、中消费、低消费三档,将交易发起方人员按照交易流水中不同档位交易额占比情况分为高消费等级、中消费等级和低消费等级,该人员在交易流水中所有消费在不同档为中占比最多的即为该档位等级;
根据历史交易记录,用聚类根据交易金额特征分成高消费等级人群、中消费等级人群和低消费等级人群三组,每个组根据组内账户近一年的交易金额、交易次数、交易时间、交易频率、交易类型特征来训练一个分类器;分组金额占比参考表如表1所示。同一组的账户行为具有相似性。组内的成员可以很好的解决数据稀疏问题,同组成员反应的将来可能会发生但是现在没有发生,不能在自身交易记录中所获得的交易行为。
要想得到提取到最能表达交易节点行为的特征,一方面要关注账户本身的交易频率、交易时间、交易类型、交易方式信息,另一方面关注与其交易的资金往来对象的交易频率、交易时间、交易类型、交易方式,分析得到结果后,进行人员分组工作。
表1分组金额占比参考表
Figure BDA0002606033650000031
3、步骤2为步骤3的输入,采用GCN对步骤2中建立的不同的分组分别构建网络,也就是后面构建了高中低三个不同的GCN网络。
本发明的目的是对交易账户进行分类,即确定是异常交易账户还是正常交易账户,那么可以转化为有向图上的带属性的节点和边的分类问题。这里将每个交易账户都视为一个节点,每条交易记录是一条边,方向代表资金流动的方向。根据步骤2中的分组分别构建高中低三个不同的金融网络。对于每个金融网络图上的两个交易节点,除了要查看节点本身的包含的持有者、开户银行、所在地的信息,还要对交易节点之间组成的边包含的交易金额、交易时间、交易频率、交易方式的信息进行分析,每条交易节点形成的边的重要程度用权值来表示,权值大小即为交易金额的大小。
利用GCN模型对已有确定的异常账户数据训练得到训练集,作为组合子层。可以采用整批训练策略,也可以采用小批训练策略。因为整批训练在一次迭代中会更新所有账户,会消耗大量的时间,所以对于大量的数据是不切实际的,可行性差。考虑到金融网络图的规模,小批量训练策略更合适。
把金融账户的交易金额、交易次数、交易时间、交易频率所形成的交互信息构建成一个异质神经网络,输入步骤2中得到的分类后的数据,通过神经网络得到数据中每个账户是否为异常账户的结论。用网络学习出用户的特征表示,得到各个节点的低纬向量表示(embedding),提取图的低纬表示形式(graph embedding)。通过注意力机制(Attention机制)把交易节点的属性信息、其邻居节点的特征信息、交易边的特征信息融合起来,形成包含交易节点本身、其他邻居节点、与其他节点互相交易特征的图网络。每个节点都是账户,节点特征信息由上面的所有特征组成:包括交易金额、交易次数、交易时间、交易频率、交易类型,边的特征就是指的交易金额,图网络具有很强的语义可视化能力,在异常交易账户识别中,GCN可在将某个账户判断为异常账户后,进一步展示该账户的局部子图。
4、采用KNN识别账户风险
假如只是简单的获得账户所属类别,知悉是异常账户,还不足以让工作人员作出准确的判定,需要根据自己的经验去寻找有价值的信息。本发明在提供账户类别以外,还努力提供一些更加有用的交易信息。
对步骤1中预处理后得到的数据,将现有数据中已经确定为涉案人员标签为异常的金融账户形成样本库,在经过步骤3后获得异常账户,采用KNN方法对异常账户进行进一步的分析。发明识别账户风险部分基于KNN的思想,为步骤3获得的异常账户根据交易金额、交易次数、交易时间、交易频率特征提供最相似的现有异常交易账户样本,当与现有异常交易账户样本的相似度达到80%以上判定为最相似。这些相似样本就可以帮助工作人员分析相关账户,提高检测的精度,降低干扰率,提高办事效率。
通过步骤3判断出账户所属的类别,确定出是正常账户还是异常账户,真实的案件处理中,只知道是异常账户是不够的,还要去确定到底是什么异常。根据给定数据中已确定为异常的账户的特征,利用KNN算法找到相似的样本,这样就可以分析出到底是什么样子的异常,能够帮助更快的进行账户的分析。
优选的,步骤2中,高消费为单笔交易金额≥3000元,低消费为单笔交易金额≤1000元,中消费为单笔交易金额在1000元-3000元之中。
优选的,步骤3中,建立训练集时,对于待提取的每个交易账户节点,对其固定的2个邻居进行抽样,以形成一个小型的批处理反馈矩阵,若其邻居节点少于2个则不进行抽样工作,由待提取节点及其邻居节点构建训练集。进行邻居抽样得到的训练集中有异常账户且也可能存在部分正常账户,不同于已有方法的随机抽样策略,利用账户之间的交易信息,提出了一个与交易相关的抽样,更能代表全局交易特性。
本发明的有益效果在于:
本发明提出的一种基于图卷积网络的异常账户检测方法可以根据账户的交易记录有效检测存在的异常的交易账户,以便工作人员及时发现异常情况,尽快对异常情况进行处理,减少人民的经济损失。不管是对有关部门的工作人员还是对于广大人民群众,都会带来便利,产生积极的影响。(1)对公安局、银行等从事打击传销工作的机关部门提供更专业的方案和措施;(2)对一线打击传销组织的工作人员提供更为便捷、更为有效的检测方法;(3)有效帮助广大人民群众减少损失,保护财产安全。
附图说明
图1为账户交易网络图;
图2为抽样方法表示图;
图3为识别账户风险分析图。
具体实施方式
下面通过实施例并结合附图对本发明做进一步说明,但不限于此。
实施例1:
一种基于图卷积网络的异常账户检测方法,包括步骤如下:
1、收集金融数据集,对数据进行预处理,金融数据包括交易流水数据,预处理包括数据去噪和数据补全;
数据预处理的目标就是构建一个金融网络。由于原有数据存在重复值、异常值和缺失值等情况,影响后期建模的准确率,所以需要进行数据预处理。
数据去噪为去除在交易流水数据中的不可用的交易流水记录;所述交易流水记录内容包括:(1)交易双方卡号,即交易发起方的卡号,交易接受方的卡号;(2)交易金额;(3)交易时间;(4)交易明细;(5)交易类型。所述不可用的交易流水记录为不完全包含以上5个内容的交易流水记录,需要在数据去噪阶段从数据中去除掉。
数据去噪的规则是剔除不可用的交易流水记录。如果在一条交易流水记录中,所关注的所有字段的格式都是合法的,则此条交易流水记录是可用的。反之,这条交易流水记录是不可用的。
数据补全是指在数据集中对每条交易流水中的交易双方的数据进行一次补全;金融数据本身是以交易的发起方为关键字,逐条地从银行的交易流水数据中查询得到。在构建网络时,每条交易记录的发起方和接收方都作为一个节点存在于网络中。对于每一个节点,不论该节点在金融数据中是作为交易的发起方或是接收方出现,都要保存该节点的所有交易信息。此时,需要针对网络做一个信息补全,确保对每一个账户节点作分析时,不会有信息的缺失。
数据补全通过使用多维字典作为金融网络的数据结构,逐条扫描金融数据,将每一条数据的信息存入金融网络中,对于扫描到的每条数据,在金融网络中找到交易的发起方和接收方,将该条数据补充进他们的交易数据列表。
2、人员分组,提取特征
由于传销金额的特殊性,不同金额代表不同消费人群,也对应着传销组织中的不同层级。将交易金额定义为高消费、中消费、低消费三档,高消费为单笔交易金额≥3000元,低消费为单笔交易金额≤1000元,中消费为单笔交易金额在1000元-3000元之中。
将交易发起方人员按照交易流水中不同档位交易额占比情况分为高消费等级、中消费等级和低消费等级,该人员在交易流水中所有消费在不同档为中占比最多的即为该档位等级;
根据历史交易记录,用聚类根据交易金额特征分成高消费等级人群、中消费等级人群和低消费等级人群三组,每个组根据组内账户近一年的交易金额、交易次数、交易时间、交易频率、交易类型特征来训练一个分类器;分组金额占比参考表如表1所示。同一组的账户行为具有相似性。组内的成员可以很好的解决数据稀疏问题,同组成员反应的将来可能会发生但是现在没有发生,不能在自身交易记录中所获得的交易行为。
要想得到提取到最能表达交易节点行为的特征,一方面要关注账户本身的交易频率、交易时间、交易类型、交易方式信息,另一方面关注与其交易的资金往来对象的交易频率、交易时间、交易类型、交易方式,分析得到结果后,进行人员分组工作。
表1分组金额占比参考表
Figure BDA0002606033650000061
3、步骤2为步骤3的输入,采用GCN对步骤2中建立的不同的分组分别构建网络,也就是后面构建了高中低三个不同的GCN网络。
本发明的目的是对交易账户进行分类,即确定是异常交易账户还是正常交易账户,那么可以转化为有向图上的带属性的节点和边的分类问题。这里将每个交易账户都视为一个节点,每条交易记录是一条边,方向代表资金流动的方向。根据步骤2中的分组分别构建高中低三个不同的金融网络。账户交易网络图如图1所示,其中白色圈代表的是正常账户,黑色圈代表的是异常账户,两节点之间边上数字代表两账户间的交易金额。对于每个金融网络图上的两个交易节点,除了要查看节点本身的包含的持有者、开户银行、所在地的信息,还要对交易节点之间组成的边包含的交易金额、交易时间、交易频率、交易方式的信息进行分析,每条交易节点形成的边的重要程度用权值来表示,权值大小即为交易金额的大小。
利用GCN模型对已有确定的异常账户数据训练得到训练集,作为组合子层。可以采用整批训练策略,也可以采用小批训练策略。因为整批训练在一次迭代中会更新所有账户,会消耗大量的时间,所以对于大量的数据是不切实际的,可行性差。考虑到金融网络图的规模,小批量训练策略更合适。
把金融账户的交易金额、交易次数、交易时间、交易频率所形成的交互信息构建成一个异质神经网络,输入步骤2中得到的分类后的数据,通过神经网络得到数据中每个账户是否为异常账户的结论。用网络学习出用户的特征表示,得到各个节点的低纬向量表示(embedding),提取图的低纬表示形式(graph embedding)。通过注意力机制(Attention机制)把交易节点的属性信息、其邻居节点的特征信息、交易边的特征信息融合起来,形成包含交易节点本身、其他邻居节点、与其他节点互相交易特征的图网络。每个节点都是账户,节点特征信息由上面的所有特征组成:包括交易金额、交易次数、交易时间、交易频率、交易类型,边的特征就是指的交易金额,图网络具有很强的语义可视化能力,在异常交易账户识别中,GCN可在将某个账户判断为异常账户后,进一步展示该账户的局部子图。
4、采用KNN识别账户风险
假如只是简单的获得账户所属类别,知悉是异常账户,还不足以让工作人员作出准确的判定,需要根据自己的经验去寻找有价值的信息。本发明在提供账户类别以外,还努力提供一些更加有用的交易信息。
对步骤1中预处理后得到的数据,将现有数据中已经确定为涉案人员标签为异常的金融账户形成样本库(样本库中全部都是异常账户),在经过步骤3后获得异常账户,采用KNN方法对异常账户进行进一步的分析。发明识别账户风险部分基于KNN的思想,为步骤3获得的异常账户根据交易金额、交易次数、交易时间、交易频率特征提供最相似的现有异常交易账户样本,当与现有异常交易账户样本的相似度达到80%以上判定为最相似,识别账户风险分析图如图3所示。这些相似样本就可以帮助工作人员分析相关账户,提高检测的精度,降低干扰率,提高办事效率。
通过步骤3判断出账户所属的类别,确定出是正常账户还是异常账户,真实的案件处理中,只知道是异常账户是不够的,还要去确定到底是什么异常。根据给定数据中已确定为异常的账户的特征,利用KNN算法找到相似的样本,这样就可以分析出到底是什么样子的异常,能够帮助更快的进行账户的分析。
实施例2:
一种基于图卷积网络的异常账户检测方法,其步骤如实施例1所述,所不同的是,步骤3中,建立训练集时,对于待提取的每个交易账户节点,对其固定的2个邻居进行抽样,以形成一个小型的批处理反馈矩阵,若其邻居节点少于2个则不进行抽样工作,由待提取节点及其邻居节点构建训练集。进行邻居抽样得到的训练集中有异常账户且也可能存在部分正常账户,不同于已有方法的随机抽样策略,利用账户之间的交易信息,提出了一个与交易相关的抽样,更能代表全局交易特性。抽样表示如图2所示,待抽取样本为B样本时,B样本为异常账户,其邻居节点为D、E账户,虽为正常账户仍可一并抽取进训练集中。

Claims (3)

1.一种基于图卷积网络的异常账户检测方法,其特征在于,包括步骤如下:
1、收集金融数据集,对数据进行预处理,金融数据包括交易流水数据,预处理包括数据去噪和数据补全;
数据去噪为去除在交易流水数据中的不可用的交易流水记录;所述交易流水记录内容包括:(1)交易双方卡号;(2)交易金额;(3)交易时间;(4)交易明细;(5)交易类型;所述不可用的交易流水记录为不完全包含以上5个内容的交易流水记录;
数据补全是指在数据集中对每条交易流水中的交易双方的数据进行一次补全;
数据补全通过使用多维字典作为金融网络的数据结构,逐条扫描金融数据,将每一条数据的信息存入金融网络中,对于扫描到的每条数据,在金融网络中找到交易的发起方和接收方,将该条数据补充进他们的交易数据列表;
2、人员分组,提取特征
将交易金额定义为高消费、中消费、低消费三档,将交易发起方人员按照交易流水中不同档位交易额占比情况分为高消费等级、中消费等级和低消费等级,该人员在交易流水中所有消费在不同档为中占比最多的即为该档位等级;
根据历史交易记录,用聚类根据交易金额特征分成高消费等级人群、中消费等级人群和低消费等级人群三组,每个组根据组内账户近一年的交易金额、交易次数、交易时间、交易频率、交易类型特征来训练一个分类器;
3、步骤2为步骤3的输入,采用GCN对步骤2中建立的不同的分组分别构建网络,将每个交易账户都视为一个节点,每条交易记录是一条边,方向代表资金流动的方向;根据步骤2中的分组分别构建高中低三个不同的金融网络;对于每个金融网络图上的两个交易节点,每条交易节点形成的边的重要程度用权值来表示,权值大小即为交易金额的大小;
利用GCN模型对已有的异常账户数据训练得到训练集,作为组合子层;
把金融账户的交易金额、交易次数、交易时间、交易频率所形成的交互信息构建成一个异质神经网络,输入步骤2中得到的分类后的数据,通过神经网络得到数据中每个账户是否为异常账户的结论;
4、采用KNN识别账户风险
对步骤1中预处理后得到的数据,将现有数据中已经确定为涉案人员标签为异常的金融账户形成样本库,在经过步骤3后获得异常账户,采用KNN方法对异常账户进行进一步的分析,基于KNN,为步骤3获得的异常账户根据交易金额、交易次数、交易时间、交易频率特征提供最相似的现有异常交易账户样本,当与现有异常交易账户样本的相似度达到80%以上判定为最相似。
2.根据权利要求1所述的基于图卷积网络的异常账户检测方法,其特征在于,步骤2中,高消费为单笔交易金额≥3000元,低消费为单笔交易金额≤1000元,中消费为单笔交易金额在1000元-3000元之中。
3.根据权利要求1所述的基于图卷积网络的异常账户检测方法,其特征在于,步骤3中,建立训练集时,对于待提取的每个交易账户节点,对其固定的2个邻居进行抽样,若其邻居节点少于2个则不进行抽样工作,由待提取节点及其邻居节点构建训练集。
CN202010738675.1A 2020-07-28 2020-07-28 一种基于图卷积网络的异常账户检测方法 Active CN111882446B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010738675.1A CN111882446B (zh) 2020-07-28 2020-07-28 一种基于图卷积网络的异常账户检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010738675.1A CN111882446B (zh) 2020-07-28 2020-07-28 一种基于图卷积网络的异常账户检测方法

Publications (2)

Publication Number Publication Date
CN111882446A true CN111882446A (zh) 2020-11-03
CN111882446B CN111882446B (zh) 2023-05-16

Family

ID=73200894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010738675.1A Active CN111882446B (zh) 2020-07-28 2020-07-28 一种基于图卷积网络的异常账户检测方法

Country Status (1)

Country Link
CN (1) CN111882446B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381544A (zh) * 2020-11-16 2021-02-19 支付宝(杭州)信息技术有限公司 子图确定方法、装置和电子设备
CN112396513A (zh) * 2020-11-27 2021-02-23 中国银联股份有限公司 一种数据处理的方法及装置
CN112700332A (zh) * 2021-01-11 2021-04-23 北京金色大数据有限公司 一种基于图计算的比特币账户聚类方法
CN113240524A (zh) * 2021-05-10 2021-08-10 深圳前海微众银行股份有限公司 联邦学习系统中账户的异常检测方法、装置及电子设备
CN113378899A (zh) * 2021-05-28 2021-09-10 百果园技术(新加坡)有限公司 非正常账号识别方法、装置、设备和存储介质
CN113393244A (zh) * 2021-05-25 2021-09-14 中国银联股份有限公司 异常帐户识别方法、装置、设备及介质
CN113420190A (zh) * 2021-08-23 2021-09-21 连连(杭州)信息技术有限公司 一种商户风险识别方法、装置、设备及存储介质
CN113469808A (zh) * 2021-05-21 2021-10-01 中国工商银行股份有限公司 模型结构、模型训练方法、交易处理方法、设备、介质
CN113554099A (zh) * 2021-07-27 2021-10-26 中国银联股份有限公司 一种识别异常商户的方法及装置
CN113572679A (zh) * 2021-06-30 2021-10-29 北京百度网讯科技有限公司 账户亲密度的生成方法、装置、电子设备和存储介质
CN114358147A (zh) * 2021-12-17 2022-04-15 建信金融科技有限责任公司 异常账户识别模型的训练方法、识别方法、装置及设备
CN114612235A (zh) * 2022-03-09 2022-06-10 烟台大学 一种基于图嵌入的区块链异常行为检测方法
CN114818999A (zh) * 2022-06-29 2022-07-29 山东省计算中心(国家超级计算济南中心) 基于自编码器和生成对抗网络的账户识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160379309A1 (en) * 2015-06-24 2016-12-29 IGATE Global Solutions Ltd. Insurance Fraud Detection and Prevention System
CN106372938A (zh) * 2015-07-21 2017-02-01 华为技术有限公司 异常账号识别方法及系统
US20170103203A1 (en) * 2015-10-13 2017-04-13 Paypal, Inc. Applying Multi-Level Clustering at Scale to Unlabeled Data For Anomaly Detection and Security
CN108184148A (zh) * 2018-01-08 2018-06-19 武汉斗鱼网络科技有限公司 一种用于识别用户的方法、装置及计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160379309A1 (en) * 2015-06-24 2016-12-29 IGATE Global Solutions Ltd. Insurance Fraud Detection and Prevention System
CN106372938A (zh) * 2015-07-21 2017-02-01 华为技术有限公司 异常账号识别方法及系统
US20170103203A1 (en) * 2015-10-13 2017-04-13 Paypal, Inc. Applying Multi-Level Clustering at Scale to Unlabeled Data For Anomaly Detection and Security
CN108184148A (zh) * 2018-01-08 2018-06-19 武汉斗鱼网络科技有限公司 一种用于识别用户的方法、装置及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吕芳 等: "面向非平衡数据集的金融欺诈账户检测研究" *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381544B (zh) * 2020-11-16 2022-09-02 支付宝(杭州)信息技术有限公司 子图确定方法、装置和电子设备
CN112381544A (zh) * 2020-11-16 2021-02-19 支付宝(杭州)信息技术有限公司 子图确定方法、装置和电子设备
CN112396513A (zh) * 2020-11-27 2021-02-23 中国银联股份有限公司 一种数据处理的方法及装置
CN112396513B (zh) * 2020-11-27 2024-02-20 中国银联股份有限公司 一种数据处理的方法及装置
CN112700332A (zh) * 2021-01-11 2021-04-23 北京金色大数据有限公司 一种基于图计算的比特币账户聚类方法
CN113240524B (zh) * 2021-05-10 2024-05-14 深圳前海微众银行股份有限公司 联邦学习系统中账户的异常检测方法、装置及电子设备
CN113240524A (zh) * 2021-05-10 2021-08-10 深圳前海微众银行股份有限公司 联邦学习系统中账户的异常检测方法、装置及电子设备
CN113469808A (zh) * 2021-05-21 2021-10-01 中国工商银行股份有限公司 模型结构、模型训练方法、交易处理方法、设备、介质
CN113393244A (zh) * 2021-05-25 2021-09-14 中国银联股份有限公司 异常帐户识别方法、装置、设备及介质
CN113378899B (zh) * 2021-05-28 2024-05-28 百果园技术(新加坡)有限公司 非正常账号识别方法、装置、设备和存储介质
CN113378899A (zh) * 2021-05-28 2021-09-10 百果园技术(新加坡)有限公司 非正常账号识别方法、装置、设备和存储介质
WO2022247955A1 (zh) * 2021-05-28 2022-12-01 百果园技术(新加坡)有限公司 非正常账号识别方法、装置、设备和存储介质
CN113572679A (zh) * 2021-06-30 2021-10-29 北京百度网讯科技有限公司 账户亲密度的生成方法、装置、电子设备和存储介质
CN113554099A (zh) * 2021-07-27 2021-10-26 中国银联股份有限公司 一种识别异常商户的方法及装置
CN113420190A (zh) * 2021-08-23 2021-09-21 连连(杭州)信息技术有限公司 一种商户风险识别方法、装置、设备及存储介质
CN114358147A (zh) * 2021-12-17 2022-04-15 建信金融科技有限责任公司 异常账户识别模型的训练方法、识别方法、装置及设备
CN114612235A (zh) * 2022-03-09 2022-06-10 烟台大学 一种基于图嵌入的区块链异常行为检测方法
CN114818999A (zh) * 2022-06-29 2022-07-29 山东省计算中心(国家超级计算济南中心) 基于自编码器和生成对抗网络的账户识别方法及系统

Also Published As

Publication number Publication date
CN111882446B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN111882446A (zh) 一种基于图卷积网络的异常账户检测方法
CN110223168B (zh) 一种基于企业关系图谱的标签传播反欺诈检测方法及系统
CN108960833B (zh) 一种基于异构金融特征的异常交易识别方法,设备及存储介质
CN110852856B (zh) 一种基于动态网络表征的发票虚开识别方法
Dreżewski et al. System supporting money laundering detection
CN110866819A (zh) 一种基于元学习的自动化信贷评分卡生成方法
CN109918505B (zh) 一种基于文本处理的网络安全事件可视化方法
CN105426441B (zh) 一种时间序列自动预处理方法
CN113837859B (zh) 一种小微企业画像构建方法
CN112116168B (zh) 一种用户行为的预测方法、装置及电子设备
CN111737477A (zh) 一种基于知识产权大数据的情报调查方法、系统和存储介质
CN111047428B (zh) 基于少量欺诈样本的银行高风险欺诈客户识别方法
Jonnalagadda et al. Credit card fraud detection using Random Forest Algorithm
CN115794803A (zh) 一种基于大数据ai技术的工程审计问题监测方法与系统
CN116861924A (zh) 基于人工智能的项目风险预警方法及系统
Chu et al. Co-training based on semi-supervised ensemble classification approach for multi-label data stream
CN114385775A (zh) 一种基于大数据的敏感词识别方法
CN116628584A (zh) 电力敏感数据处理方法、装置、电子设备及存储介质
CN117372144A (zh) 应用于小样本场景的风控策略智能化方法及系统
CN117349786A (zh) 基于数据均衡的证据融合变压器故障诊断方法
CN111209955A (zh) 基于深度神经网络和随机森林的飞机电源系统故障识别方法
Widad et al. Quality Anomaly Detection Using Predictive Techniques: An Extensive Big Data Quality Framework for Reliable Data Analysis
CN115618926A (zh) 一种面向纳税人企业分类的重要因子提取方法及装置
CN115296851A (zh) 一种基于互信息与灰狼提升算法的网络入侵检测方法
CN113379211A (zh) 基于区块链的物流信息平台违约风险管控系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant