CN111695597A - 基于改进式孤立森林算法的信贷欺诈团伙识别方法和系统 - Google Patents
基于改进式孤立森林算法的信贷欺诈团伙识别方法和系统 Download PDFInfo
- Publication number
- CN111695597A CN111695597A CN202010378811.0A CN202010378811A CN111695597A CN 111695597 A CN111695597 A CN 111695597A CN 202010378811 A CN202010378811 A CN 202010378811A CN 111695597 A CN111695597 A CN 111695597A
- Authority
- CN
- China
- Prior art keywords
- fraud
- forest algorithm
- group
- data
- improved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/259—Fusion by voting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于改进式孤立森林算法的信贷欺诈团伙识别方法和系统,其中识别方法包括:对原始用户数据进行整合清洗、数据分析和变量筛选的数据加工;利用随机森林算法模型对加工后的数据进行预测,得到每个用户的欺诈概率;利用改进式孤立森林算法对加工后的数据进行识别,得到用户中的欺诈团伙;以改进式孤立森林算法为无监督模型,以每个用户的欺诈概率作为权重,对欺诈团伙进行感染,以输出欺诈团伙成员。通过本发明的技术方案,能够利用用户数据的特征识别欺诈团伙成员,预测效率高、执行效率快且简单易实施。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种基于改进式孤立森林算法的信贷欺诈团伙识别方法和一种基于改进式孤立森林算法的信贷欺诈团伙识别系统。
背景技术
近年来,随着国内经济水平的快速提升和互联网技术的飞速发展,中国的消费信贷市场逐步展现出惊人的潜力,信贷业务迎来了全新的发展机遇,与此同时也带来了前所未有的风险挑战,其中以非法获利、恶意诈骗为目的的信贷欺诈行为成为信贷业务风险管理的核心,也是触发或放大信用风险、市场风险的重要因素之一。随着不同信贷产品的推出,以及信贷客群的不断普及和覆盖,新的信贷欺诈手段也层出不穷,以中介为中心或者自发组织的欺诈团伙识别成为风险防范的难点之一。欺诈团伙的特征具备多样性和多变性,多样性是指不同的欺诈团伙具备的欺诈特征不一样,多变性是指同一欺诈团伙在不同时间和事件中表现出的欺诈特征不一样。传统的信贷欺诈防范方法无法有效且全面的覆盖各类欺诈行为。综上所述,信贷业务风险管理中,我们应综合应用大数据机器学习算法,深入挖掘客户的共性行为,识别出欺诈团伙群体,构建“有思想”的反欺诈模型,在欺诈发生前提早预警,做到防患于未然。
目前学者们已经开始试图将机器学习方法应用于信贷反欺诈领域。文献“LIU,CHENGWEI,ET AL.Financial fraud detection model:based on random forest[J].International Journal of Economics and Finance(2015)”在金融欺诈数据集上使用了随机森林算法,并与逻辑回归、决策树以及支持向量机算法进行了比较,结果表明随机森林算法拥有最高的准确度以及良好的可解释性。但是该方法属于有监督算法,强烈依赖于已被准确标记是否欺诈的数据集,对于没有标签的场景将无法直接利用这类方法。文献“周聪宇.基于医保数据的智能审核研究与应用[C].电子科技大学(2019)”针对医疗保险欺诈骗保事件,利用K-means算法对医保数据进行聚类分析,并且对K-means的迭代搜索算法进行了优化,进而提高了医保无标签样本的划分纯度和聚类效果。由于K-means算法是基于密度的算法,时间复杂度过高,高维数据间的距离计算所需时间开销过大,对实时检测应用来说无法满足需求。文献“SENSAMA DEBAJIT,SAMAR SEN SARMA.A survey on differentgraph based anomaly detection techniques[J].Indian Journal of Science andTechnology(2015)”利用社交网络上的各种属性,如中心度、社区凝聚力等特征来检测异常用户,该方法是基于结构异常的静态图检测。但是图模型对人工解读的要求更高,且对于维度单一的数据,图模型的识别效果有限。
现实信贷场景中,欺诈数据样本中的正负样本比例存在失衡现象,样本分布过于倾斜,目标人群即欺诈者数据过少,大部分模型应用时会出现可学习的数据特征有限甚至被淹没,而孤立森林算法的本质是检测异常点,即样本中的少数离群点,符合信贷欺诈问题的本质,同时孤立森林算法作为无监督的机器学习方法,无需已经标记好的数据样本,同时相比较于图特征、社交网络等算法,它的算法运行效率高,较易实施。但是该算法的定义是寻找分布稀疏且离密度高的群体较远点,无法直接用来寻找信贷场景中的欺诈团伙。另外孤立森林算法没有对应的评价指标,无法直接衡量和保证其欺诈团伙识别的能力。
基于欺诈团伙,在信贷场景下,其数据包括以下特征:
1)异质性:异常用户或用户群体必然与非异常用户之间存在差异,且异常用户或用户群体内部也存在差异。因此,基于异常检测的识别逻辑优于基于规则查找的识别逻辑;
2)同质性:群体之间虽有差异,但是群体内部存在一致性,因此可以被识别为团伙;
3)多变性:欺诈与反欺诈之间存在动态交互关系,基于静态规则的反欺诈策略容易被欺诈团伙识别。因此,基于异质性、同质性的识别策略是更符合动态关系识别的。
发明内容
针对上述问题中的至少之一,本发明提供了一种基于改进式孤立森林算法的信贷欺诈团伙识别方法和系统,通过将加工后的数据利用随机森林算法模型预测每个用户的欺诈概率,利用改进式孤立森林算法识别出用户中的欺诈团伙,再以改进式孤立森林算法为无监督模型以欺诈概率为权重,由欺诈团伙中感染得到欺诈团伙成员,利用欺诈团伙的用户数据的特征识别欺诈团伙成员,预测效率高、执行效率快且简单易实施。
为实现上述目的,本发明提供了一种基于改进式孤立森林算法的信贷欺诈团伙识别方法,包括:对原始用户数据进行整合清洗、数据分析和变量筛选的数据加工;利用随机森林算法模型对加工后的数据进行预测,得到每个用户的欺诈概率;利用改进式孤立森林算法对加工后的数据进行识别,得到用户中的欺诈团伙;以所述改进式孤立森林算法为无监督模型,以每个用户的欺诈概率作为权重,对所述欺诈团伙进行感染,以输出欺诈团伙成员。
在上述技术方案中,优选地,基于改进式孤立森林算法的信贷欺诈团伙识别方法还包括:分析所述欺诈团伙成员的共性特征,沉淀形成反欺诈识别规则,优化对欺诈团伙成员的识别。
在上述技术方案中,优选地,所述随机森林算法模型的训练方法为:由加工处理得到的数据中使用Bootstraping方法抽取训练样本,进行k轮抽取以生成k个训练集;对k个所述训练集训练得到k个决策树;对于单个所述决策树根据基尼指数进行分裂,直至当前节点的所有训练样本为同一类别;将训练得到的所述决策树组成随机森林,按照所述决策树的投票表决确定每个所述训练样本的欺诈概率。
在上述技术方案中,优选地,所述改进式孤立森林算法中,将现有孤立森林算法中二叉树分裂结束的条件修改为叶子节点包含训练样本的数量具有预设上限,并去除现有孤立森林算法中的矫正项,使得二叉树分类的结果为群体,从而得到欺诈团伙。
在上述技术方案中,优选地,所述以所述改进式孤立森林算法为无监督模型,以每个用户的欺诈概率作为权重,对所述欺诈团伙进行感染,以输出欺诈团伙成员具体包括:所述改进式孤立森林算法得到的每个二叉树输出一个矩阵;根据每个用户的欺诈概率对输出矩阵中的欺诈团伙进行感染;将不同二叉树矩阵中被感染的叶子节点中多次出现样本的异常值累加;将欺诈团伙中异常值大于等于预设阈值且筛选后成员数量大于预设数量的团伙成员作为欺诈团伙成员输出。
在上述技术方案中,优选地,所述改进式孤立森林算法输出所述欺诈团伙,根据每个用户的欺诈概率获得所述欺诈团伙中欺诈概率最高的前预设数量个用户作为欺诈团伙成员。
在上述技术方案中,优选地,所述原始用户数据的变量包括用户号、时间、身份证号码、手机号码和网络IP;所述数据分析为检查数据的缺失值情况、异常值情况和数据正负样本分布统计;所述变量筛选为对变量间的相关性进行验证并剔除与其他变量具有强相关关系的变量。
在上述技术方案中,优选地,在对所述原始用户数据进行加工过程中,采用上采样和下采样相结合的方法对原始用户数据进行采样,作为训练样本。
在上述技术方案中,优选地,所述欺诈团伙成员的共性特征包括IP结构相似、IP号段相同、近七天无行为记录和操作时间为特定时段。
本发明还提出一种基于改进式孤立森林算法的信贷欺诈团伙识别系统,应用如上述技术方案中任一项提出的基于改进式孤立森林算法的信贷欺诈团伙识别方法,包括:数据加工模块、随机森林算法模型、改进式孤立森林算法模型、欺诈团伙识别模块和特征分析模块;所述数据加工模块用于对原始用户数据进行整合清洗、数据分析和变量筛选;所述随机森林算法模型用于对加工后的数据进行预测,得到每个用户的欺诈概率;所述改进式孤立森林算法模型用于对加工后的数据进行识别,得到用户中的欺诈团伙;所述欺诈团伙识别模块用于以所述改进式孤立森林算法为无监督模型,以每个用户的欺诈概率作为权重,对所述欺诈团伙进行感染,以输出欺诈团伙成员;所述特征分析模块用于分析所述欺诈团伙成员的共性特征,沉淀形成反欺诈识别规则,优化对欺诈团伙成员的识别。
与现有技术相比,本发明的有益效果为:通过将加工后的数据利用随机森林算法模型预测每个用户的欺诈概率,利用改进式孤立森林算法识别出用户中的欺诈团伙,再以改进式孤立森林算法为无监督模型以欺诈概率为权重,由欺诈团伙中感染得到欺诈团伙成员,利用欺诈团伙的用户数据的特征识别欺诈团伙成员,预测效率高、执行效率快且简单易实施。
附图说明
图1为本发明一种实施例公开的基于改进式孤立森林算法的信贷欺诈团伙识别方法的流程示意图;
图2为本发明一种实施例公开的随机森林算法的原理示意图;
图3为本发明一种实施例公开的随机森林算法的评估结果示意图;
图4为本发明一种实施例公开的改进式孤立森林算法的二叉树算法流程示意图;
图5为本发明一种实施例公开的欺诈团伙的感染原理示意图;
图6为本发明一种实施例公开的基于改进式孤立森林算法的信贷欺诈团伙识别系统的示意框图。
图中,各组件与附图标记之间的对应关系为:
1.数据加工模块,2.随机森林算法模型,3.改进式孤立森林算法模型,4.欺诈团伙识别模块,5.特征分析模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1所示,根据本发明提供的一种基于改进式孤立森林算法的信贷欺诈团伙识别方法,包括:对原始用户数据进行整合清洗、数据分析和变量筛选的数据加工;利用随机森林算法模型对加工后的数据进行预测,得到每个用户的欺诈概率;利用改进式孤立森林算法对加工后的数据进行识别,得到用户中的欺诈团伙;以改进式孤立森林算法为无监督模型,以每个用户的欺诈概率作为权重,对欺诈团伙进行感染,以输出欺诈团伙成员。
在该实施例中,通过将加工后的数据利用随机森林算法模型预测每个用户的欺诈概率,利用改进式孤立森林算法识别出用户中的欺诈团伙,再以改进式孤立森林算法为无监督模型以欺诈概率为权重,由欺诈团伙中感染得到欺诈团伙成员,利用欺诈团伙的用户数据的特征识别欺诈团伙成员,预测效率高、执行效率快且简单易实施。
在上述实施例中,优选地,利用数据加工,对原始用户数据进行整合清洗、数据分析与变量筛选,此外由于样本中的正样本量过少,优选地对样本进行采样以得到较均衡的训练数据。具体地,原始用户数据的变量主要涉及用户的注册及登录行为,包括用户号、时间、身份证号码、手机号码和网络IP等,其中涉及个人信息的变量均进行了脱敏处理。数据加工阶段是整个工作流程中最耗时的部分,并且数据质量的好坏对于模型的开发来说也是关键性的一点。
具体地,数据分析的目的主要是为了了解数据本身的分布特点,用于检查数据的缺失值情况、异常值情况和数据正负样本分布统计;变量筛选为对变量间的相关性进行验证并剔除与其他变量具有强相关关系的变量。在加工和筛选变量时,以测试集可利用信息为标准,主要参考以下几个方向:身份信息解析、窗口期内的操作事件统计分析、身份证/手机号/IP的集中度等,以上所有数据统一以客户号为主键。
在上述实施例中,优选地,在对原始用户数据进行加工过程中,采用上采样和下采样相结合的方法对原始用户数据进行采样,作为训练样本。由于样本中的正样本量(坏客户)过少,为防止模型学习过程中欺诈特征被淹没,对数据进行采样处理,以解决信贷欺诈数据样本中正负样本比例失衡、样本分布过于倾斜的问题,实现样本比例的均衡。
具体地,上采样是指从少数类的样本中随机复制增加新的样本,而下采样是指从多数类样本中随机选择少量样本,再合并原有少数类样本作为新的训练数据集。由于本发明使用的训练样本比例过于倾斜,若单纯使用上采样,训练出的模型会出现过拟合;若单纯使用下采样,会丢失大部分的训练数据,模型只能学到数据的一部分特征。最终采取两者结合的方法,将坏客户数据有放回重复抽取100次,然后再按照1:10的比例从好客户数据中抽样,最后将两部分的数据合在一起构成最终的训练样本。
在上述实施例中,优选地,基于改进式孤立森林算法的信贷欺诈团伙识别方法还包括:分析欺诈团伙成员的共性特征,沉淀形成反欺诈识别规则,优化对欺诈团伙成员的识别,便于后续增加人工审核功能。
由于欺诈团伙的用户数据存在异质性、同质性和多变性,欺诈团伙成员的共性特征包括IP结构相似、IP号段相同、近七天无行为记录和操作时间为特定时段等。根据识别出的欺诈团伙成员的用户数据,结合业务含义,提炼其共性特征,沉淀总结为反欺诈识别规则,落地应用,能够在有效防止团伙欺诈发生的同时保证了算法的可解释性。
如图2所示,在上述实施例中,优选地,随机森林算法模型的训练方法为:由加工处理得到的数据中使用Bootstraping方法有放回采样抽取n个训练样本,进行k轮抽取以生成k个训练集;对k个训练集训练得到k个决策树;对于单个决策树,假设训练样本特征的个数为a,那么每次分裂时根据基尼指数来选择最好的特征进行分裂,每棵树按照不同特征继续分裂下去,直至当前节点的所有训练样本为同一类别;将训练得到的决策树组成随机森林,按照决策树的投票表决获得最终分类结果,确定每个训练样本的欺诈概率。
其中,随机森林作为目前机器学习中比较流行的一种算法,对于回归和分类问题均具有很好的效果。随机森林的决策结果依赖于多颗决策树的结果,是一种集成学习的思想。Bootstraping方法为自助抽样,是一种有放回的抽样方法。
在上述实施例的随机森林算法模型训练结束以后,从训练数据中随机抽取比例为30%的数据作为测试数据,对模型进行评估,结果如图3所示,其中AUC(Area Under Curve)为99.34%,准确率为96.68%,召回率为99.02%,F1为97.83%。其中,AUC是机器学习算法的一种评价指标,被定义为ROC曲线下的面积,AUC越接近1,算法拟合结果越接近真实情况。召回率又叫查全率,是机器学习算法的一种评价指标,含义为实际为正的样本中被预测为正样本的概率,召回率越高,代表实际坏客户被预测出来的概率越高。F1是精确率和召回率的调和平均数,最大为1,最小为0,数值越大,表明算法的实现越理想。
在上述实施例中,优选地,改进式孤立森林算法中,将现有孤立森林算法中二叉树分裂结束的条件修改为叶子节点包含训练样本的数量具有预设上限,并去除现有孤立森林算法中的矫正项,使得二叉树分类的结果为群体,从而得到欺诈团伙。
其中,现有孤立式森林算法与其他通过距离、密度等量化指标来刻画样本间疏离程度的异常检测算法不同,它是通过对样本点的孤立来进行异常值检测的,其思想是由于异常值的数量较少且与大部分样本具有疏离性。因此,异常值会被更早的孤立出来,即异常值会距离根节点更近。由于该方法不需要距离或者密度的计算,能较好的适应在线异常检测高效率分析处理的需求。但是该方法目的是检测单个异常值,而我们需要对欺诈团伙群体进行识别,为此本发明对现有孤立式森林算法进行了改进,分别是二叉树分裂的停止条件改变和异常值计算方法的改变。
具体地,本发明中改进式孤立森林二叉树的算法流程如图4所示,设存在数据集X,存在一颗描述数据的二叉树T,其有节点集N,且每一节点Nijr或Nijl的数据为X的子集,其中i表示树的层数,j表示上一层中从左到右的第j个节点,r和l用于区分同层的右节点和左节点。特别地N0表示根节点,包含的数据集为总数据X。
对于某层所包含的数据集Xij,随机选择样本属性q及其值域的空间取值p来划分X(i+1)jr与X(i+1)jl,对应节点N(i+1)jr与N(i+1)jl,小于或等于p的数据划分到N(i+1)jl节点中,大于p的数据则划分到N(i+1)jr节点中。对于数据集有:
X(i+1)jl∪X(i+1)jr=Xij (1)
基于业务经验,当节点Nij包含的样本数小于等于e或树的深度达到限定值(其中e为叶节点所含样本数的最小限定值),得到完整的二叉树,则划分结束。
孤立森林中异常值计算是通过二叉树叶子结点长度来进行衡量的,现有孤立森林算法异常值的计算如公式(3)所示:
其中,h(x)为该样本所在叶子结点的层数,c(n)为样本异常值的矫正项。由于原算法中二叉树叶分裂结束的标志是Nij包含的样本数为1,或二叉树的深度达到预定值,存在样本点还未被孤立出来,二叉树就停止生长的情况,为此加入了公式(4)作为修正项,对样本的异常值进行矫正:
c(n)=2H(n-1)-(2(n-1)/n) (4)
但是将二叉树分裂停止条件修改后,希望叶子结点的样本数至少为e,而公式(4)内容是基于叶子节点样本数为1,路径长度最多为(n-1)情况进行设定的,不符合现有异常值计算逻辑,为此在异常值的计算公式中去掉了该矫正项,同时采用以下公式对h(x)进行了标准化:
在上述实施例中,优选地,以改进式孤立森林算法为无监督模型,以每个用户的欺诈概率作为权重,对欺诈团伙进行感染,以输出欺诈团伙成员具体包括:改进式孤立森林算法得到的每个二叉树输出一个矩阵;根据每个用户的欺诈概率对输出矩阵中的欺诈团伙进行感染;将不同二叉树矩阵中被感染的叶子节点中多次出现样本的异常值累加;将欺诈团伙中异常值大于等于预设阈值且筛选后成员数量大于预设数量的团伙成员作为欺诈团伙成员输出。
具体地,改进式孤立森林算法能够识别出异常群体,基于欺诈团伙特征的分析,需要进一步提高欺诈团体的浓度。改进式孤立森林算法输出欺诈团伙,根据每个用户的欺诈概率获得欺诈团伙中欺诈概率最高的前h个用户,对欺诈团伙进行感染、扩散,进而提高欺诈团伙的浓度。具体实现方法如图5所示:
首先,通过改进式孤立森林算法,得到n个二叉树,每棵二叉树输出1个矩阵,矩阵的第一列为叶结点序号,每个叶结点下至少有e个样本数据,每个二叉树的叶节点数量可能不同,分别为{m1,m2,…,mn};然后,利用随机森林算法模型得到的欺诈概率对欺诈团伙进行感染,图5以预测欺诈概率最高的一个样本来进行说明,具体实现时采用了h个类似样本进行感染。图中标黑的样本为感染样本,每个二叉树的输出矩阵中,该样本的叶子节点可能不同,所在叶子节点的其他样本也可能不同,如tree1中所在叶子节点序号为1,该节点的样本数据为tree2中感染样本所在叶子节点序号为2,该节点的样本数据为需要说明的是,样本数据的下标仅代表位置序号,x1,2和x2,2可能是同一个样本,也可能不同。最后,将不同二叉树被感染的叶子节点数据样本进行整合,整合的规则是多次出现的样本将其异常值累加作为该样本的异常值,最终根据经验,优选地将群体中异常值大于等于10,且筛选后样本数量大于等于3的团伙样本作为欺诈团伙。
如图6所示,本发明还提出一种基于改进式孤立森林算法的信贷欺诈团伙识别系统,应用如上述实施例中任一项提出的基于改进式孤立森林算法的信贷欺诈团伙识别方法,包括:数据加工模块1、随机森林算法模型2、改进式孤立森林算法模型3、欺诈团伙识别模块4和特征分析模块5;数据加工模块1用于对原始用户数据进行整合清洗、数据分析和变量筛选的数据加工;随机森林算法模型2用于对加工后的数据进行预测,得到每个用户的欺诈概率;改进式孤立森林算法模型3用于对加工后的数据进行识别,得到用户中的欺诈团伙;欺诈团伙识别模块4用于以改进式孤立森林算法为无监督模型,以每个用户的欺诈概率作为权重,对欺诈团伙进行感染,以输出欺诈团伙成员;特征分析模块5用于分析欺诈团伙成员的共性特征,沉淀形成反欺诈识别规则,优化对欺诈团伙成员的识别。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于改进式孤立森林算法的信贷欺诈团伙识别方法,其特征在于,包括:
对原始用户数据进行整合清洗、数据分析和变量筛选的数据加工;
利用随机森林算法模型对加工后的数据进行预测,得到每个用户的欺诈概率;
利用改进式孤立森林算法对加工后的数据进行识别,得到用户中的欺诈团伙;
以所述改进式孤立森林算法为无监督模型,以每个用户的欺诈概率作为权重,对所述欺诈团伙进行感染,以输出欺诈团伙成员。
2.根据权利要求1所述的基于改进式孤立森林算法的信贷欺诈团伙识别方法,其特征在于,还包括:
分析所述欺诈团伙成员的共性特征,沉淀形成反欺诈识别规则,优化对欺诈团伙成员的识别。
3.根据权利要求1所述的基于改进式孤立森林算法的信贷欺诈团伙识别方法,其特征在于,所述随机森林算法模型的训练方法为:
由加工处理得到的数据中使用Bootstraping方法抽取训练样本,进行k轮抽取以生成k个训练集;
对k个所述训练集训练得到k个决策树;
对于单个所述决策树根据基尼指数进行分裂,直至当前节点的所有训练样本为同一类别;
将训练得到的所述决策树组成随机森林,按照所述决策树的投票表决确定每个所述训练样本的欺诈概率。
4.根据权利要求3所述的基于改进式孤立森林算法的信贷欺诈团伙识别方法,其特征在于,所述改进式孤立森林算法中,将现有孤立森林算法中二叉树分裂结束的条件修改为叶子节点包含训练样本的数量具有预设上限,并去除现有孤立森林算法中的矫正项,使得二叉树分类的结果为群体,从而得到欺诈团伙。
5.根据权利要求4所述的基于改进式孤立森林算法的信贷欺诈团伙识别方法,其特征在于,所述以所述改进式孤立森林算法为无监督模型,以每个用户的欺诈概率作为权重,对所述欺诈团伙进行感染,以输出欺诈团伙成员具体包括:
所述改进式孤立森林算法得到的每个二叉树输出一个矩阵;
根据每个用户的欺诈概率对输出矩阵中的欺诈团伙进行感染;
将不同二叉树矩阵中被感染的叶子节点中多次出现样本的异常值累加;
将欺诈团伙中异常值大于等于预设阈值且筛选后成员数量大于预设数量的团伙成员作为欺诈团伙成员输出。
6.根据权利要求5所述的基于改进式孤立森林算法的信贷欺诈团伙识别方法,其特征在于,所述改进式孤立森林算法输出所述欺诈团伙,根据每个用户的欺诈概率获得所述欺诈团伙中欺诈概率最高的前预设数量个用户作为欺诈团伙成员。
7.根据权利要求1所述的基于改进式孤立森林算法的信贷欺诈团伙识别方法,其特征在于,所述原始用户数据的变量包括用户号、时间、身份证号码、手机号码和网络IP;
所述数据分析为检查数据的缺失值情况、异常值情况和数据正负样本分布统计;
所述变量筛选为对变量间的相关性进行验证并剔除与其他变量具有强相关关系的变量。
8.根据权利要求7所述的基于改进式孤立森林算法的信贷欺诈团伙识别方法,其特征在于,在对所述原始用户数据进行加工过程中,采用上采样和下采样相结合的方法对原始用户数据进行采样,作为训练样本。
9.根据权利要求2所述的基于改进式孤立森林算法的信贷欺诈团伙识别方法,其特征在于,所述欺诈团伙成员的共性特征包括IP结构相似、IP号段相同、近七天无行为记录和操作时间为特定时段。
10.一种基于改进式孤立森林算法的信贷欺诈团伙识别系统,应用如权利要求1至9中任一项提出的基于改进式孤立森林算法的信贷欺诈团伙识别方法,其特征在于,包括:数据加工模块、随机森林算法模型、改进式孤立森林算法模型、欺诈团伙识别模块和特征分析模块;
所述数据加工模块用于对原始用户数据进行整合清洗、数据分析和变量筛选;
所述随机森林算法模型用于对加工后的数据进行预测,得到每个用户的欺诈概率;
所述改进式孤立森林算法模型用于对加工后的数据进行识别,得到用户中的欺诈团伙;
所述欺诈团伙识别模块用于以所述改进式孤立森林算法为无监督模型,以每个用户的欺诈概率作为权重,对所述欺诈团伙进行感染,以输出欺诈团伙成员;
所述特征分析模块用于分析所述欺诈团伙成员的共性特征,沉淀形成反欺诈识别规则,优化对欺诈团伙成员的识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010378811.0A CN111695597B (zh) | 2020-05-07 | 2020-05-07 | 基于改进式孤立森林算法的信贷欺诈团伙识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010378811.0A CN111695597B (zh) | 2020-05-07 | 2020-05-07 | 基于改进式孤立森林算法的信贷欺诈团伙识别方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111695597A true CN111695597A (zh) | 2020-09-22 |
CN111695597B CN111695597B (zh) | 2023-05-02 |
Family
ID=72476627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010378811.0A Active CN111695597B (zh) | 2020-05-07 | 2020-05-07 | 基于改进式孤立森林算法的信贷欺诈团伙识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111695597B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112887325A (zh) * | 2021-02-19 | 2021-06-01 | 浙江警察学院 | 一种基于网络流量的电信网络诈骗犯罪欺诈识别方法 |
CN113011971A (zh) * | 2021-03-31 | 2021-06-22 | 深圳前海微众银行股份有限公司 | 风险测度方法、装置、系统与计算机存储介质 |
CN113283901A (zh) * | 2021-04-19 | 2021-08-20 | 河南大学 | 一种面向区块链平台的基于字节码的诈骗合约检测方法 |
CN113284027A (zh) * | 2021-06-10 | 2021-08-20 | 支付宝(杭州)信息技术有限公司 | 团伙识别模型的训练方法、异常团伙识别方法及装置 |
CN113810341A (zh) * | 2020-06-12 | 2021-12-17 | 武汉斗鱼鱼乐网络科技有限公司 | 一种识别目标网络团体的方法及系统、存储介质、设备 |
CN114861746A (zh) * | 2021-12-15 | 2022-08-05 | 平安科技(深圳)有限公司 | 基于大数据的反欺诈识别方法、装置及相关设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038700A (zh) * | 2017-12-22 | 2018-05-15 | 上海前隆信息科技有限公司 | 一种反欺诈数据分析方法与系统 |
WO2020005263A1 (en) * | 2018-06-28 | 2020-01-02 | Visa International Service Association | Systems and methods to secure api platforms |
CN110807488A (zh) * | 2019-11-01 | 2020-02-18 | 北京芯盾时代科技有限公司 | 一种基于用户对等组的异常检测方法及装置 |
-
2020
- 2020-05-07 CN CN202010378811.0A patent/CN111695597B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038700A (zh) * | 2017-12-22 | 2018-05-15 | 上海前隆信息科技有限公司 | 一种反欺诈数据分析方法与系统 |
WO2020005263A1 (en) * | 2018-06-28 | 2020-01-02 | Visa International Service Association | Systems and methods to secure api platforms |
CN110807488A (zh) * | 2019-11-01 | 2020-02-18 | 北京芯盾时代科技有限公司 | 一种基于用户对等组的异常检测方法及装置 |
Non-Patent Citations (3)
Title |
---|
REMI DOMINGUES ET AL.: "《A comparative evaluation of outlier detection algorithms: Experiments and analyses》", 《PATTERN RECOGNITION》 * |
侯泳旭等: "《基于Isolation Forest的并行化异常探测设计》", 《计算机工程与科学》 * |
王岩俊: "《基于MRBBO-iForest的软件行为异常检测方法研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113810341A (zh) * | 2020-06-12 | 2021-12-17 | 武汉斗鱼鱼乐网络科技有限公司 | 一种识别目标网络团体的方法及系统、存储介质、设备 |
CN113810341B (zh) * | 2020-06-12 | 2023-08-22 | 武汉斗鱼鱼乐网络科技有限公司 | 一种识别目标网络团体的方法及系统、存储介质、设备 |
CN112887325A (zh) * | 2021-02-19 | 2021-06-01 | 浙江警察学院 | 一种基于网络流量的电信网络诈骗犯罪欺诈识别方法 |
CN112887325B (zh) * | 2021-02-19 | 2022-04-01 | 浙江警察学院 | 一种基于网络流量的电信网络诈骗犯罪欺诈识别方法 |
CN113011971A (zh) * | 2021-03-31 | 2021-06-22 | 深圳前海微众银行股份有限公司 | 风险测度方法、装置、系统与计算机存储介质 |
CN113011971B (zh) * | 2021-03-31 | 2024-05-10 | 深圳前海微众银行股份有限公司 | 风险测度方法、装置、系统与计算机存储介质 |
CN113283901A (zh) * | 2021-04-19 | 2021-08-20 | 河南大学 | 一种面向区块链平台的基于字节码的诈骗合约检测方法 |
CN113284027A (zh) * | 2021-06-10 | 2021-08-20 | 支付宝(杭州)信息技术有限公司 | 团伙识别模型的训练方法、异常团伙识别方法及装置 |
CN113284027B (zh) * | 2021-06-10 | 2023-05-09 | 支付宝(杭州)信息技术有限公司 | 团伙识别模型的训练方法、异常团伙识别方法及装置 |
CN114861746A (zh) * | 2021-12-15 | 2022-08-05 | 平安科技(深圳)有限公司 | 基于大数据的反欺诈识别方法、装置及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111695597B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111695597B (zh) | 基于改进式孤立森林算法的信贷欺诈团伙识别方法和系统 | |
CN110084610B (zh) | 一种基于孪生神经网络的网络交易欺诈检测系统 | |
CN112053221A (zh) | 一种基于知识图谱的互联网金融团伙欺诈行为检测方法 | |
CN111461216B (zh) | 一种基于机器学习的案件风险识别方法 | |
CN111614690A (zh) | 一种异常行为检测方法及装置 | |
CN114172748A (zh) | 一种加密恶意流量检测方法 | |
CN112132233A (zh) | 一种基于有效影响因子的服刑人员危险行为预测方法及系统 | |
CN109309675A (zh) | 一种基于卷积神经网络的网络入侵检测方法 | |
CN113011889B (zh) | 账号异常识别方法、系统、装置、设备及介质 | |
CN109034194A (zh) | 基于特征分化的交易欺诈行为深度检测方法 | |
CN104899508A (zh) | 一种多阶段钓鱼网站检测方法与系统 | |
CN107145778B (zh) | 一种入侵检测方法及装置 | |
CN111556016A (zh) | 一种基于自动编码器的网络流量异常行为识别方法 | |
CN111866196B (zh) | 一种域名流量特征提取方法、装置、设备及可读存储介质 | |
CN111325248A (zh) | 降低贷前业务风险的方法及系统 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN108268886A (zh) | 用于识别外挂操作的方法及系统 | |
CN111507385A (zh) | 一种可扩展的网络攻击行为分类方法 | |
CN115242441A (zh) | 一种基于特征选择和深度神经网络的网络入侵检测方法 | |
CN115577357A (zh) | 一种基于堆叠集成技术的Android恶意软件检测方法 | |
CN115277159B (zh) | 一种基于改进随机森林的工业互联网安全态势评估方法 | |
CN117118718A (zh) | 一种基于多生成器gan数据增强的入侵检测方法及系统 | |
CN116821759A (zh) | 类别标签的识别预测方法、装置和处理器及电子设备 | |
CN116805245A (zh) | 基于图神经网络与解耦表示学习的欺诈检测方法及系统 | |
US20230164162A1 (en) | Valuable alert screening method efficiently detecting malicious threat |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |