CN111882446A

CN111882446A - 一种基于图卷积网络的异常账户检测方法

Info

Publication number: CN111882446A
Application number: CN202010738675.1A
Authority: CN
Inventors: 孙留倩; 魏玉良; 王佰玲; 王巍; 黄俊恒; 辛国栋
Original assignee: Weihai Tianzhiwei Network Space Safety Technology Co ltd; Harbin Institute of Technology Weihai
Current assignee: Weihai Tianzhiwei Network Space Safety Technology Co ltd; Harbin Institute of Technology Weihai
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-11-03
Anticipated expiration: 2040-07-28
Also published as: CN111882446B

Abstract

本发明涉及一种基于图卷积网络的异常账户检测方法，属于网络安全技术领域，通过对账户交易数据进行预处理，得到真正需要的有效数据。然后对交易数据按照一定标准进行聚类，得到高中低三种不同的消费能力人群，根据消费情况对人员分组来识别账户异常情况。分组处理后，构建金融网络，采用GCN对异常账户进行分类。分类处理后，得到异常账户和正常账户，应用KNN对异常账户进行识别，找到与该异常账户异常情况最为相似的现有异常账户，通过比对进行风险分析，确定异常情况和异常原因。能够快速、准确的识别出拥有异常交易行为的账户，并为之匹配异常行为最为相似的现有样本，帮助工作人员锁定目标，迅速判断账户风险。

Description

一种基于图卷积网络的异常账户检测方法

技术领域

本发明涉及一种基于图卷积网络的异常账户检测方法，属于网络安全技术领域。

背景技术

非法传销在二十多年前流入中国，在极短的时间内迅速扩张，在国内一直是一个屡禁不止的毒瘤。随着我国对传销打击力度的不断加大，传销犯罪活动开始由公众视野转向地下，隐蔽性更强。面对大数据时代的机遇与挑战,随着经济改革的深入推进以及人、物、财、信息等社会资源流动的加剧,传销犯罪活动更是层出不穷,犯罪手段与规模的发展演变迅速,社会影响恶劣，损害人民的财产安全，造成人民的经济损失。那么快速准确的识别并锁定出异常的交易账户，对其进行风险分析，减少人民的经济财产损失，就显得尤为重要。

工作人员侦破传销案件大多都是通过逐条分析银行的金融数据来开展工作的，这种形式虽然具有一定的准确率，但是，金融交易数据巨大，耗费的人力成本和时间成本太多。随着人工智能的快速发展，公安局等有关部门希望能与深度学习进行有效融合，借助人工智能算法自动地从金融数据中找到具有欺诈风险的异常的金融账户，从而节省人力，提高办事效率。

从国内外目前的研究看，金融数据异常检测主要分为基于统计学的方法和基于数据挖掘的方法两大类。传统的异常检测方法主要是基于统计学的模型法，如ARMA、ARCH模型。这些模型是在坚实的数学理论和假设基础上，通过演绎推理的方法建立起来的。近年来，随着信息技术的发展，数据挖掘技术开始应用到金融数据异常检测中。数据挖掘是一种基于归纳的方法，如聚类算法，神经网络等，它们可以处理大规模的高频金融数据，将成为未来异常检测的发展方向。

现有的大多数欺诈检测方法只是从大量的交易数据中，获取自身的历史行为交易模型，去学习合法交易和欺诈交易的复杂边界，给出阈值，预测风险程度，以此来确定账户类别。但是不能解释为什么交易具有风险，这不足以让调查人员做出准确的决定，他们必须花更多的时间回溯，以便根据自己的经验找到有价值的信息。由于庞大交易数据的产生，需要投入大量的人力，可行性不高，能为工作人员提供的帮助有限，所以可行性不高。

发明内容

针对现有技术的不足，本发明提供一种基于图卷积网络的异常账户检测方法，通过对账户交易数据进行预处理，得到真正需要的有效数据。然后对交易数据按照一定标准进行聚类，得到高中低三种不同的消费能力人群，根据消费情况对人员分组来识别账户异常情况。分组处理后，构建金融网络，采用GCN对异常账户进行分类。分类处理后，得到异常账户和正常账户，应用KNN对异常账户进行识别，找到与该异常账户异常情况最为相似的现有账户，通过比对进行风险分析，确定异常情况和异常原因。能够快速、准确的识别出拥有异常交易行为的账户，并为之匹配异常行为最为相似的现有样本，帮助工作人员锁定目标，迅速判断账户风险。

本发明的技术方案如下：

一种基于图卷积网络的异常账户检测方法，包括步骤如下：

1、收集金融数据集，对数据进行预处理，金融数据包括交易流水数据，预处理包括数据去噪和数据补全；

数据预处理的目标就是构建一个金融网络。由于原有数据存在重复值、异常值和缺失值等情况，影响后期建模的准确率，所以需要进行数据预处理。

数据去噪为去除在交易流水数据中的不可用的交易流水记录；所述交易流水记录内容包括：(1)交易双方卡号，即交易发起方的卡号，交易接受方的卡号；(2)交易金额；(3)交易时间；(4)交易明细；(5)交易类型。所述不可用的交易流水记录为不完全包含以上5个内容的交易流水记录，需要在数据去噪阶段从数据中去除掉。

数据去噪的规则是剔除不可用的交易流水记录。如果在一条交易流水记录中，所关注的所有字段的格式都是合法的，则此条交易流水记录是可用的。反之，这条交易流水记录是不可用的。

数据补全是指在数据集中对每条交易流水中的交易双方的数据进行一次补全；金融数据本身是以交易的发起方为关键字，逐条地从银行的交易流水数据中查询得到。在构建网络时，每条交易记录的发起方和接收方都作为一个节点存在于网络中。对于每一个节点，不论该节点在金融数据中是作为交易的发起方或是接收方出现，都要保存该节点的所有交易信息。此时，需要针对网络做一个信息补全，确保对每一个账户节点作分析时，不会有信息的缺失。

数据补全通过使用多维字典作为金融网络的数据结构，逐条扫描金融数据，将每一条数据的信息存入金融网络中，对于扫描到的每条数据，在金融网络中找到交易的发起方和接收方，将该条数据补充进他们的交易数据列表。

2、人员分组，提取特征

由于传销金额的特殊性，不同金额代表不同消费人群，也对应着传销组织中的不同层级。将交易金额定义为高消费、中消费、低消费三档，将交易发起方人员按照交易流水中不同档位交易额占比情况分为高消费等级、中消费等级和低消费等级，该人员在交易流水中所有消费在不同档为中占比最多的即为该档位等级；

根据历史交易记录，用聚类根据交易金额特征分成高消费等级人群、中消费等级人群和低消费等级人群三组，每个组根据组内账户近一年的交易金额、交易次数、交易时间、交易频率、交易类型特征来训练一个分类器；分组金额占比参考表如表1所示。同一组的账户行为具有相似性。组内的成员可以很好的解决数据稀疏问题，同组成员反应的将来可能会发生但是现在没有发生，不能在自身交易记录中所获得的交易行为。

要想得到提取到最能表达交易节点行为的特征，一方面要关注账户本身的交易频率、交易时间、交易类型、交易方式信息，另一方面关注与其交易的资金往来对象的交易频率、交易时间、交易类型、交易方式，分析得到结果后，进行人员分组工作。

表1分组金额占比参考表

3、步骤2为步骤3的输入，采用GCN对步骤2中建立的不同的分组分别构建网络，也就是后面构建了高中低三个不同的GCN网络。

本发明的目的是对交易账户进行分类，即确定是异常交易账户还是正常交易账户，那么可以转化为有向图上的带属性的节点和边的分类问题。这里将每个交易账户都视为一个节点，每条交易记录是一条边，方向代表资金流动的方向。根据步骤2中的分组分别构建高中低三个不同的金融网络。对于每个金融网络图上的两个交易节点，除了要查看节点本身的包含的持有者、开户银行、所在地的信息，还要对交易节点之间组成的边包含的交易金额、交易时间、交易频率、交易方式的信息进行分析，每条交易节点形成的边的重要程度用权值来表示，权值大小即为交易金额的大小。

利用GCN模型对已有确定的异常账户数据训练得到训练集，作为组合子层。可以采用整批训练策略，也可以采用小批训练策略。因为整批训练在一次迭代中会更新所有账户，会消耗大量的时间，所以对于大量的数据是不切实际的，可行性差。考虑到金融网络图的规模，小批量训练策略更合适。

把金融账户的交易金额、交易次数、交易时间、交易频率所形成的交互信息构建成一个异质神经网络，输入步骤2中得到的分类后的数据，通过神经网络得到数据中每个账户是否为异常账户的结论。用网络学习出用户的特征表示，得到各个节点的低纬向量表示(embedding)，提取图的低纬表示形式(graph embedding)。通过注意力机制(Attention机制)把交易节点的属性信息、其邻居节点的特征信息、交易边的特征信息融合起来，形成包含交易节点本身、其他邻居节点、与其他节点互相交易特征的图网络。每个节点都是账户，节点特征信息由上面的所有特征组成：包括交易金额、交易次数、交易时间、交易频率、交易类型，边的特征就是指的交易金额，图网络具有很强的语义可视化能力，在异常交易账户识别中，GCN可在将某个账户判断为异常账户后，进一步展示该账户的局部子图。

4、采用KNN识别账户风险

假如只是简单的获得账户所属类别，知悉是异常账户，还不足以让工作人员作出准确的判定，需要根据自己的经验去寻找有价值的信息。本发明在提供账户类别以外，还努力提供一些更加有用的交易信息。

对步骤1中预处理后得到的数据，将现有数据中已经确定为涉案人员标签为异常的金融账户形成样本库，在经过步骤3后获得异常账户，采用KNN方法对异常账户进行进一步的分析。发明识别账户风险部分基于KNN的思想，为步骤3获得的异常账户根据交易金额、交易次数、交易时间、交易频率特征提供最相似的现有异常交易账户样本，当与现有异常交易账户样本的相似度达到80％以上判定为最相似。这些相似样本就可以帮助工作人员分析相关账户，提高检测的精度，降低干扰率，提高办事效率。

通过步骤3判断出账户所属的类别，确定出是正常账户还是异常账户，真实的案件处理中，只知道是异常账户是不够的，还要去确定到底是什么异常。根据给定数据中已确定为异常的账户的特征，利用KNN算法找到相似的样本，这样就可以分析出到底是什么样子的异常，能够帮助更快的进行账户的分析。

优选的，步骤2中，高消费为单笔交易金额≥3000元，低消费为单笔交易金额≤1000元，中消费为单笔交易金额在1000元-3000元之中。

优选的，步骤3中，建立训练集时，对于待提取的每个交易账户节点，对其固定的2个邻居进行抽样，以形成一个小型的批处理反馈矩阵，若其邻居节点少于2个则不进行抽样工作，由待提取节点及其邻居节点构建训练集。进行邻居抽样得到的训练集中有异常账户且也可能存在部分正常账户，不同于已有方法的随机抽样策略，利用账户之间的交易信息，提出了一个与交易相关的抽样，更能代表全局交易特性。

本发明的有益效果在于：

本发明提出的一种基于图卷积网络的异常账户检测方法可以根据账户的交易记录有效检测存在的异常的交易账户，以便工作人员及时发现异常情况，尽快对异常情况进行处理，减少人民的经济损失。不管是对有关部门的工作人员还是对于广大人民群众，都会带来便利，产生积极的影响。(1)对公安局、银行等从事打击传销工作的机关部门提供更专业的方案和措施；(2)对一线打击传销组织的工作人员提供更为便捷、更为有效的检测方法；(3)有效帮助广大人民群众减少损失，保护财产安全。

附图说明

图1为账户交易网络图；

图2为抽样方法表示图；

图3为识别账户风险分析图。

具体实施方式

下面通过实施例并结合附图对本发明做进一步说明，但不限于此。

实施例1：

一种基于图卷积网络的异常账户检测方法，包括步骤如下：

2、人员分组，提取特征

由于传销金额的特殊性，不同金额代表不同消费人群，也对应着传销组织中的不同层级。将交易金额定义为高消费、中消费、低消费三档，高消费为单笔交易金额≥3000元，低消费为单笔交易金额≤1000元，中消费为单笔交易金额在1000元-3000元之中。

将交易发起方人员按照交易流水中不同档位交易额占比情况分为高消费等级、中消费等级和低消费等级，该人员在交易流水中所有消费在不同档为中占比最多的即为该档位等级；

表1分组金额占比参考表

本发明的目的是对交易账户进行分类，即确定是异常交易账户还是正常交易账户，那么可以转化为有向图上的带属性的节点和边的分类问题。这里将每个交易账户都视为一个节点，每条交易记录是一条边，方向代表资金流动的方向。根据步骤2中的分组分别构建高中低三个不同的金融网络。账户交易网络图如图1所示，其中白色圈代表的是正常账户，黑色圈代表的是异常账户，两节点之间边上数字代表两账户间的交易金额。对于每个金融网络图上的两个交易节点，除了要查看节点本身的包含的持有者、开户银行、所在地的信息，还要对交易节点之间组成的边包含的交易金额、交易时间、交易频率、交易方式的信息进行分析，每条交易节点形成的边的重要程度用权值来表示，权值大小即为交易金额的大小。

4、采用KNN识别账户风险

对步骤1中预处理后得到的数据，将现有数据中已经确定为涉案人员标签为异常的金融账户形成样本库(样本库中全部都是异常账户)，在经过步骤3后获得异常账户，采用KNN方法对异常账户进行进一步的分析。发明识别账户风险部分基于KNN的思想，为步骤3获得的异常账户根据交易金额、交易次数、交易时间、交易频率特征提供最相似的现有异常交易账户样本，当与现有异常交易账户样本的相似度达到80％以上判定为最相似，识别账户风险分析图如图3所示。这些相似样本就可以帮助工作人员分析相关账户，提高检测的精度，降低干扰率，提高办事效率。

实施例2：

一种基于图卷积网络的异常账户检测方法，其步骤如实施例1所述，所不同的是，步骤3中，建立训练集时，对于待提取的每个交易账户节点，对其固定的2个邻居进行抽样，以形成一个小型的批处理反馈矩阵，若其邻居节点少于2个则不进行抽样工作，由待提取节点及其邻居节点构建训练集。进行邻居抽样得到的训练集中有异常账户且也可能存在部分正常账户，不同于已有方法的随机抽样策略，利用账户之间的交易信息，提出了一个与交易相关的抽样，更能代表全局交易特性。抽样表示如图2所示，待抽取样本为B样本时，B样本为异常账户，其邻居节点为D、E账户，虽为正常账户仍可一并抽取进训练集中。

Claims

1.一种基于图卷积网络的异常账户检测方法，其特征在于，包括步骤如下：

数据去噪为去除在交易流水数据中的不可用的交易流水记录；所述交易流水记录内容包括：(1)交易双方卡号；(2)交易金额；(3)交易时间；(4)交易明细；(5)交易类型；所述不可用的交易流水记录为不完全包含以上5个内容的交易流水记录；

数据补全是指在数据集中对每条交易流水中的交易双方的数据进行一次补全；

数据补全通过使用多维字典作为金融网络的数据结构，逐条扫描金融数据，将每一条数据的信息存入金融网络中，对于扫描到的每条数据，在金融网络中找到交易的发起方和接收方，将该条数据补充进他们的交易数据列表；

2、人员分组，提取特征

将交易金额定义为高消费、中消费、低消费三档，将交易发起方人员按照交易流水中不同档位交易额占比情况分为高消费等级、中消费等级和低消费等级，该人员在交易流水中所有消费在不同档为中占比最多的即为该档位等级；

根据历史交易记录，用聚类根据交易金额特征分成高消费等级人群、中消费等级人群和低消费等级人群三组，每个组根据组内账户近一年的交易金额、交易次数、交易时间、交易频率、交易类型特征来训练一个分类器；

3、步骤2为步骤3的输入，采用GCN对步骤2中建立的不同的分组分别构建网络，将每个交易账户都视为一个节点，每条交易记录是一条边，方向代表资金流动的方向；根据步骤2中的分组分别构建高中低三个不同的金融网络；对于每个金融网络图上的两个交易节点，每条交易节点形成的边的重要程度用权值来表示，权值大小即为交易金额的大小；

利用GCN模型对已有的异常账户数据训练得到训练集，作为组合子层；

把金融账户的交易金额、交易次数、交易时间、交易频率所形成的交互信息构建成一个异质神经网络，输入步骤2中得到的分类后的数据，通过神经网络得到数据中每个账户是否为异常账户的结论；

4、采用KNN识别账户风险

对步骤1中预处理后得到的数据，将现有数据中已经确定为涉案人员标签为异常的金融账户形成样本库，在经过步骤3后获得异常账户，采用KNN方法对异常账户进行进一步的分析，基于KNN，为步骤3获得的异常账户根据交易金额、交易次数、交易时间、交易频率特征提供最相似的现有异常交易账户样本，当与现有异常交易账户样本的相似度达到80％以上判定为最相似。

2.根据权利要求1所述的基于图卷积网络的异常账户检测方法，其特征在于，步骤2中，高消费为单笔交易金额≥3000元，低消费为单笔交易金额≤1000元，中消费为单笔交易金额在1000元-3000元之中。

3.根据权利要求1所述的基于图卷积网络的异常账户检测方法，其特征在于，步骤3中，建立训练集时，对于待提取的每个交易账户节点，对其固定的2个邻居进行抽样，若其邻居节点少于2个则不进行抽样工作，由待提取节点及其邻居节点构建训练集。