CN114707571A - 基于增强隔离森林的信用数据异常检测方法 - Google Patents
基于增强隔离森林的信用数据异常检测方法 Download PDFInfo
- Publication number
- CN114707571A CN114707571A CN202210172971.9A CN202210172971A CN114707571A CN 114707571 A CN114707571 A CN 114707571A CN 202210172971 A CN202210172971 A CN 202210172971A CN 114707571 A CN114707571 A CN 114707571A
- Authority
- CN
- China
- Prior art keywords
- credit
- data
- model
- samples
- attributes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002955 isolation Methods 0.000 title claims abstract description 38
- 238000001514 detection method Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 52
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 33
- 238000011156 evaluation Methods 0.000 claims abstract description 30
- 238000013210 evaluation model Methods 0.000 claims abstract description 25
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 230000002159 abnormal effect Effects 0.000 claims description 37
- 238000000034 method Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 12
- 238000013145 classification model Methods 0.000 claims description 9
- 238000005242 forging Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 230000005856 abnormality Effects 0.000 claims 2
- 238000002474 experimental method Methods 0.000 abstract description 6
- 238000012545 processing Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000013450 outlier detection Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000209202 Bromus secalinus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012803 optimization experiment Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000011425 standardization method Methods 0.000 description 1
- 230000008719 thickening Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于增强隔离森林的信用数据异常检测方法,采用EIF模型对信用评估模型做出优化,EIF模型使用EasyEnsemble算法的思想构建平衡数据集,利用平衡数据集训练隔离森林模型进行异常点检测,将检测中得到的异常点作为异常数据处理,在UCI的German数据集上根据相关系数进行伪造,构建含伪造数据的测试集,使用EIF模型与其他异常点检测方法进行对比,在常见的信用评估模型上实验测试,结果表明EIF模型优化后的信用评估在F1分数与代价敏感错误率上均有较好表现。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及基于增强隔离森林的信用数据异常检测方法。
背景技术
经济高速发展推动了社会大众的消费观念不断改变,提前消费、预付消费等消费形式也因此催动了信贷行业的快速发展。信贷业务的核心,就是使用信用评价技术对客户的信用进行可靠地评估,对业务中产生的风险进行控制。在信用评估的过程中,虽然各机构根据收集到的数据能够对客户信用进行准确的评价,但是信用的评估仍然基于大量可信数据。如果存在虚假、错误异常数据会对信用评估产生巨大影响。因此检测处理异常数据,成为信用评估技术中关注的重点。
信用评估的原理是根据被评价个体的各项信息数据建立信用评估模型,找到信用良好与不良的个体特征,根据该模型对未来客户的信用进行评估。最初的信用评估工作大量基于从业人员的自身经验对客户信用进行评估,成本高,不利于大规模使用。于是伴随大数据技术的发展,机器学习方法更多被应用于信用评估工作,但因为信用评估工作的严肃性,多数采用有较强可解释性的模型。使用线型判别分析(linear discriminantanalysis,LDA)和逻辑回归(logistic regression,LR)模型进行信用评估工作,并解释了由于简单易用且具有较强的可解释性,这两种模型在银行信用评估工作中得到广泛应用;研究针对小微企业的信用风险,使用了随机森林(Random Forest,RF) 模型进行信用评估,对有数据缺失的样本进行了多维度分析。此类模型还有决策树(decision tree,DT)、朴素贝叶斯(naive Bayes,NB)、支持向量机 (support vector machine,SVM)等。神经网络(neural network)也在信用评估方面取得较好的结果,但是因为神经网络模型可解释性较差,并没有广泛实际应用。
异常点检测(Anomaly Detection),也有文献称为离群点检测(OutlierDetection)。异常点检测方法假设异常点的某种特征与正常点不同,作为判断指标检测异常点。基于距离的异常点检测算法假设正常点分布密集,异常点分布稀疏,通过样本与近邻点之间的距离计算各种指标作为判断指标来检测样本是否异常点,使用KNN方法对网络行为进行异常检测预处理,得到高质量的数据集供给传统模型训练。基于密度的算法是基于距离的算法的变种,计算样本与近邻点的密度差别判断是否属于异常点,对具有代表性的基于距离与密度的异常点检测方法性能进行综合比较,基于局部密度的LOF(LocalOutlier Factor)算法在此类算法中具有最好的性能。基于分类的算法则使用传统分类模型,正常数据训练一个单分类模型,将不属于正常类的判断为异常点。隔离森林(isolationforest,iForest)算法随机选取属性与数值递归划分数据集构建树结构,异常点更有可能被隔离在靠近树根部的地方,正常点则在隔离树的更深处。隔离森林具有线性时间复杂度,计算不受样本维数的影响,在中高维度的表现优秀。
信用数据在具体使用中存在两种问题:一方面,由于信贷行业在业务过程中会进行人工筛选,明显信用评价低、信用不良的样本会被拒绝,导致不良样本相对较少,同时也导致对信用不良的特征描述不够全面,产生了标签不均衡问题。另一方面,实际工作中将信用不良样本误判为信用良好样本产生的损失远大于将信用良好样本判断为信用不良样本,产生了代价不均衡问题。样本标签不均衡问题通常使用采样方法解决:欠采样方法对多数样本随机丢弃,可能存在重要特征丢失的情况;过采样方法对少数类样本多次复制采样,会导致过拟合。
发明内容
本发明的目的在于提供基于增强隔离森林的信用数据异常检测方法,利用各属性与信用的相关性,生成能够欺骗信用评估模型的异常样本点,使用这些异常样本点模拟现实工作中存在的虚假、错误样本。在异常点检测中,使用EasyEnsemble思想,构造了平衡数据集;使用平衡数据集通过训练样本扰动与输入属性扰动方法训练得到更优秀的iForest模型,称为EIF模型,对新产生的伪造的信用数据进行检测,提高了传统信用评估模型的性能,可以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
基于增强隔离森林的信用数据异常检测方法,包括如下步骤:
步骤1、构建EIF模型:
A.输入样本扰动:将整个训练集分为多数类集N与少数类集P,从N 中随机抽取与P中样本数相同数量的样本,与P一起构成平衡训练集D,独立重复进行k次,就得到了k个平衡训练集用于训练。这样既避免了对多数类欠采样导致的特征缺失,也能保证样本标签平衡,基分类器能够更好学习到少数类样本的特征;
B.输入属性扰动:在每棵隔离树训练过程中,不使用全部属性的训练集,只使用随机抽取的部分属性完成一次训练,输入属性扰动在保证每棵隔离树性能下,尽量构建分类依据不同的隔离树,增强集成后隔离森林的性能;
步骤2、异常样本生成:
使用属性与信用间相关性模拟针对信用评估时的刻意造假,对测试数据集进行伪造,筛选对信用评价影响大的属性,根据属性与信用的线性关系调整样本的值,用简单模型确认会发生误判情况;
步骤3、EIF模型异常检测
含有EIF模型的信用评估将含数据集首先通过EIF模型判断是否存在异常,判断为正常的样本进入下一步信用评估模型,检测结果为异常的样本的被标记为信用不良。
进一步地,步骤2中异常样本生成的过程如下:
测试集伪造后产生信用不良样本和信用良好样本,信用不良样本产生后修改特征,并进行简单判别模型,得到伪造样本,最后得到伪造数据集。
进一步地,步骤2中计算数据集的各属性{A1,A2,…,An}与信用C之间的皮尔逊相关系数,如下式:
根据各属性相关系数生成伪造方式字典作为伪造规则,C=0代表信用良好, C=1代表信用不良时,伪造字典F={f1,f2,…,fn}生成规则如下式:
随机抽取一定量的信用不良样本,对抽取得到的每一个样本随机选择k 个属性,根据伪造方式字典对这k个属性的值进行更新,最后使用以全体训练集预先训练好的判别模型对伪造后的样本进行预测,预测结果信用良好的样本视为伪造成功,对测试集中伪造成功的样本进行修改,得到含伪造样本的数据集。
进一步地,步骤2的数据集为UCI公开数据库中的German数据集,描述了1000条贷款申请记录,700条为“信用良好”样本,300条为“信用不良”样本。
进一步地,数据集的原始数据由19条不同属性表示,使用独热编码给出数值化后的german-numeric文件,将类别转化为虚拟变量,每条记录由24 个属性描述。
进一步地,对于信用数据伪造算法的影响能力采用准确率值评估,使用 F1分数与代价敏感错误率作为异常点检测加强后算法性能的评估指标。
进一步地,F1分数为精确率与召回率的调和平均,计算方法如下式:
F1分数同时考虑精确率和召回率,作为二分类问题中模型性能评价的指标。
进一步地,不考虑信用评估相关系数较低的属性,属性与C正相关则调整至最小值,反之则调整至最大值。
进一步地,所述输入样本扰动之前还包括:
基于信用向量机,建立信用分类模型;其中,
所述信用向量机基于信用数据的信用属性构建,信用分类时信用数据的属性值越高,信用向量越大;
获取信用数据,并将所述信用数据导入所述信用分类模型进行数据分类,确定不同信用属性的信用分类数据;
计算分类后每类信用数据的隶属度,并将所述隶属度作为每类信用数据的信用标签:
根据所述信用标签,对每类信用数据分别建立训练集。
进一步地,所述数据分类还包括:
步骤1:根据所述信用数据,分别构建每个信用数据的特征函数:
其中,L表示信用数据的特征函数;W表示信用数据的极小值;ai表示第 i个数据字符的信用向量;xi表示第i个数据字符的信用属性;b表示信用数据的数据量;i∈n,i为正整数;n表示数据字符的个数;
步骤2:根据所述特征函数计算不同信用数据之间的数据距离:
其中,D(Lj,Lk)表示第j和第k个信用函数的信用特征之间的数据距离;j,k∈m,且,均为正整数;m表示信用数据的总数量;
步骤3:根据所述数据距离,验证统一信用属性的信用分类数据是否划分正确。
与现有技术相比,本发明的有益效果是:
1、本发明根据信用数据实际使用过程中存在新数据会针对现有评估模型进行伪造这一问题,提出了使用基于隔离森林与EasyEnsemble思想的异常点检测模型EIF对伪造数据进行清理的方法。EIF模型对训练集多数类独立多次欠采样,少数类全部情况下训练子模型,全局没有遗漏数据,规避了信用数据标签不平衡问题。使用相关性生成针对评估模型的异常数据,模拟信用数据中的异常情况。将EIF模型添加进常用信用评估模型,使用F1分数与代价敏感错误率验证在误判代价不平衡情况下的信用评估模型性能。结果显示,使用EIF算法处理后有效提高各种常用信用评估模型的性能,在与其他异常检测算法处理的对比实验中EIF模型也具有良好的表现,提高了传统信用评估模型的性能。
2、本发明中检测出的异常样本直接划分为信用不良样本。在未来的工作中应该针对这些异常样本进行分析,进一步提高模型能力,从信用评估角度上分析伪造出现的原因与伪造样本的真实情况还原。
附图说明
图1为本发明的EIF模型训练流程图;
图2为本发明的异常样本生成过程图;
图3为本发明的含EIF模型的信用评估过程图;
图4为本发明的不同伪造比例下模型F1分数与代价敏感错误率的变化图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明所涉及的隔离森林(Isolation Forest,以下简称iForest)是由 Liu等在2012年提出的异常检测算法,定义隔离树的节点为T,T分为外部节点与内部节点:没有子节点的节点被称为外部节点,其余节点被称为内部节点。内部节点由属性q、属性q的分割值p与两个子节点(TI,Tr)构成。p 为属性q最大值与最小值之间的一个随机值。q与p作为节点的分隔条件,通过比较属性q与分割值p的大小决定样本点属于T/还是Tr。
在d维数据集X={x1,x2,...,xn}上对隔离树进行训练时,对X进行大小为ψ的抽样,得到使用X′构建单棵隔离树。隔离树随机选择属性q 以及分割值p递归地分割X′,直到节点只包含单一样本或者节点内所有样本都具有相同的值。对数据集进行n次抽样,分别训练不同的隔离树,所有不同的隔离树共同构成了隔离森林。
定义样本x的路径长度h(x)为从隔离树的根节点到含有x的外部节点的路径中包含的边的数量。相较于正常样本,异常点在树中通常具有较短的路径长度。样本x在森林中的平均高度E(h(x)),x的异常分数计算方法如式(1)。
式中H(i)是调和数,计算中通常使用In(i)与欧拉常数(0.5772156649) 的和来估算;c(ψ)为抽样数为ψ的隔离树到叶节点的平均路径长度,计算公式如式(2)。
EasyEnsemble算法用于处理标签不平衡问题的一种欠采样方法,适用于集成模型的训练。EasyEnsemble算法将得到的数据划分为多数类数据集N与少数类数据集P。对N进行多次独立欠采样,得到N的k个子集N1,N2,...,Nk。每次训练使用Ni(1≤i≤k)与全部P训练每一个基分类器。得到的每个基分类器训练中使用了平衡训练集,从集成模型角度考虑,训练中仍然使用了全部数据,不会丢失多数类的特征。
信用评估工作中,存在伪造数据欺骗已有信用评估模型的现象出现,这部分数据不被已有模型识别,为信用评估工作结果的使用造成严重损失。本发明提出基于EasyEnsemble思想的iForest模型——EIF模型,并根据实际经验设计虚假数据生成算法。
基于增强隔离森林的信用数据异常检测方法,集成学习中,为保证集成分类器效果优秀,基分类器要做到“好而不同”,每个基分类器有一定分类能力时,对总体数据有着不同的学习角度。本发明采取以下手段保证基分类器之间的差异,包括如下步骤:
步骤1、构建EIF模型,EIF模型的结构如图1所示:
C.输入样本扰动:将整个训练集分为多数类集N与少数类集P,从N 中随机抽取与P中样本数相同数量的样本,与P一起构成平衡训练集D,独立重复进行k次,就得到了k个平衡训练集用于训练。这样既避免了对多数类欠采样导致的特征缺失,也能保证样本标签平衡,基分类器能够更好学习到少数类样本的特征;
D.输入属性扰动:在每棵隔离树训练过程中,不使用全部属性的训练集,只使用随机抽取的部分属性完成一次训练,输入属性扰动在保证每棵隔离树性能下,尽量构建分类依据不同的隔离树,增强集成后隔离森林的性能;
步骤2、异常样本生成:
现实生活中,存在恶意修改数据获得良好信用评价的现象。研究使用属性与信用间相关性模拟针对信用评估时的刻意造假,对测试数据集进行伪造。伪造思路是筛选对信用评价影响大的属性,根据属性与信用的线性关系调整样本的值,用简单模型确认会发生误判情况。异常样本生成过程如图2所示;
计算数据集的各属性{A1,A2,...,An}与信用C之间的皮尔逊相关系数,如下式:
根据各属性相关系数生成伪造方式字典作为伪造规则。本发明中C=0代表信用良好,C=1代表信用不良时,伪造字典F={f1,f2,...,fn}生成规则如式 (4)。不考虑信用评估相关系数较低的属性,属性与C正相关则调整至最小值,反之则调整至最大值:
随机抽取一定量的信用不良样本,对抽取得到的每一个样本随机选择k 个属性,根据伪造方式字典对这k个属性的值进行更新。最后使用以全体训练集预先训练好的判别模型对伪造后的样本进行预测,预测结果信用良好的样本视为伪造成功。对测试集中伪造成功的样本进行修改,得到含伪造样本的数据集。
步骤3、EIF模型异常检测
信用评估模型对混杂有异常的数据集评估时,性能会出现明显下降。含有EIF模型的信用评估将含数据集首先通过EIF模型判断是否存在异常,判断为正常的样本才能进入下一步信用评估模型。本发明中检测结果为异常的样本的被标记为信用不良,这些异常样本可以通过进一步分析探寻其价值,但不在本发明讨论范围内。具体工作过程如图3所示。
EIF模型与信用数据伪造算法在Windows 10系统下基于Spyder开发,使用python编程,硬件环境为:(AMD Ryzen 7 5800H@3.20GHz with 16Gbytes of RAM),实验在相同环境下进行。
本发明使用数据集为UCI公开数据库中的German数据集,描述了1000 条贷款申请记录,700条为“信用良好”样本,300条为“信用不良”样本。原始数据由19条不同属性表示,原文使用独热编码给出了数值化后的 german-numeric文件,将类别转化为虚拟变量,此时每条记录由24个属性描述。本发明采用数值化的german-numeric文件进行实验。为方便后续公式理解与评价指标计算,将信用良好标签设置为0,信用不良标签设置为1。
不同属性存在量纲差异,在距离计算中会导致不同属性对距离有着不同的影响。本发明包含许多基于距离的算法,需要使用归一化方法消除量纲不同带来的影响。本发明采用最小最大标准化方法进行归一化处理。
本发明使用准确率(Accuracy)值评估伪造算法对模型的影响能力,使用 F1分数(F1-score)与代价敏感错误率作为异常点检测加强后算法性能的评估指标。
为计算这些指标,首先确定TP,TN,FP和FN的定义,如下表1所示:
表1分类结果混淆矩阵
准确率为预测正确样本在全体中的比例,即Accuracy= (TP+TN)/(TP+FP+TN+FN)。在测试伪造算法性能时,使用样本全部为实际信用不良样本,故Accuracy=TP/(TP+FN)。
精确率(precision)为所有预测结果为信用不良的样本中预测结果正确的比例,即Precision=TP/(FP+TP)。召回率(recall)为所有实际信用不良的样本中预测结果正确的比例,即Recall=TP/(FN+TP)。
F1分数为精确率与召回率的调和平均。计算方法如式(5):
F1分数同时考虑精确率和召回率,常作为二分类问题中模型性能评价的指标。
为了解决两种误判代价不等问题,引入了代价敏感错误率。代价敏感错误率依赖于代价矩阵进行定义,本发明代价矩阵如下表2所示:
表2分类结果代价矩阵
cost01代表样本实际信用良好,却被误判为信用不良的代价,cost10代表样本实际信用不良,被误判为良好的代价。代价敏感错误率计算公式如下:
式中f为模型,D={(x1,y1),(x2,y2),…,(xm,ym)}为数据集,D+为信用不良样本集,D-为信用良好样本集,cost为代价矩阵。
本发明中使用的常用信用评估模型与常用异常点检测算法如表3所示:
表3信用评估模型与异常点检测算法
验证伪造数据集效果,对伪造算法进行测试。伪造算法中使用逻辑回归模型作为判别模型。使用五折交叉验证,将数据集划分为五份,每次取一份作为测试集。取出测试集里全部信用不良样本,分别进行不同伪造属性数的伪造,构造完全伪造的测试集。再使用其余四份数据构成训练集训练得到的常用信用评估模型,在这些信用评估模型上测试能否正确。反复进行五次,取准确率的均值,结果如表4所示:
表4不同伪造属性数准确率对比
可以从上表中看出,本发明使用的伪造算法得到的样本在常用信用评估算法中难以识别,与信用良好样本相似。据此认为本发明中伪造算法具有将信用不良样本伪造为信用良好样本的能力。
取伪造属性数k=3,重新对测试集中不同比例的信用不良样本进行伪造,分别使用信用评估模型与加入EIF处理后的信用评估模型进行预测。结果如表5所示,图4绘制了随伪造比率上升模型性能变化趋势。经过调优实验中设置EIF参数:抽取10个平衡训练集,每个平衡训练集训练10棵隔离树,每棵树在平衡训练集中抽取256条数据与80%的属性训练,EIF模型共由100 棵隔离树组成。
表5原始模型与使用EIF处理后对不同伪造比例下的测试集的性能对比
使用代价敏感错误率可以在误判代价不同的情况下考察模型的性能。本发明使用基于原始数据集给出的代价矩阵,cost01=1,cost10=5。实验结果如图4所示:
随着伪造数据占比上升,经过EIF处理后的模型F1分数上升,代价敏感错误率下降。EIF对模型性能提升随伪造比例上升。加入EIF模型对信用评估模型增强了伪造数据分辨能力,提高了模型整体的性能。
下一步实验中分别使用各种经典异常点检测算法代替EIF模型,辅助信用评估模型工作。结果与含有EIF模型的信用评估模型能力从F1分数与代价敏感错误率两方面进行对比。结果如表6所示:
表6不同异常检测算法对模型效果对比
每个信用评估模型评估指标加粗标出最优结果。可以看出在EIF处理后大部分模型都得到了最优的F1分数,同时与代价敏感错误率最优的算法相比差距很小。证明了EIF模型对数据集中的异常数据具有很好的识别能力,保证模型泛化能力的同时,对代价敏感问题也具有良好的表现。
综上所述,在使用信用数据的工作环境中,尤其是在新出现针对现有信用评估模型的异常数据情况下,EIF作为异常检测模型能够很好地提高已有信用评估模型性能。
进一步地,所述输入样本扰动之前还包括:
基于信用向量机,建立信用分类模型;其中,
所述信用向量机基于信用数据的信用属性构建,信用分类时信用数据的属性值越高,信用向量越大;
获取信用数据,并将所述信用数据导入所述信用分类模型进行数据分类,确定不同信用属性的信用分类数据;
计算分类后每类信用数据的隶属度,并将所述隶属度作为每类信用数据的信用标签;
根据所述信用标签,对每类信用数据分别建立训练集。
对于本发明来说,因为起始步骤就是对样本进行训练,所以如何得到正确,更加值得信任的训练数据属于对本发明打地基。在现有技术中,很少有对训练集进行处理的技术方案,现有技术的大部分方案最多是就是对数据集合进行一个筛选,所以通过数据集合构成的训练集,想要是否是一个好的合格的训练集只有一个很浅显的标准。在上述技术方案中,本发明针对这类问题进行了一个处理,也就是通过信用向量机,构建一个信用数据的分类模型。信用向量机本发明提出是通过属性构建,主要是通过信用属性构建;例如按时履约的数据,就是信用比较高的数据,而经常违约的信用数据就是信用比较低的数据。本发明基于信用向量机的分类,首先就对数据进行了一个最佳等级划分。而隶属度,本发明是为了判定这个信用数据是属于信用数据的隶属度。也就是说,本发明在分类之后。还会基于这个隶属度,判断数据是不是弄错了,存在一些非信用数据。通过这个方式,首先能保证得到的数据信用属性划分清晰,其次,样本数据集中不会存在非信用数据,进而在训练过程中得到的训练结果就更加精确。而信用标签,是为了在训练的时候,更加快速的确定每个信用数据属于什么类型,信用度是多少。
进一步地,所述数据分类还包括:
步骤1:根据所述信用数据,分别构建每个信用数据的特征函数:
其中,L表示信用数据的特征函数;W表示信用数据的极小值;ai表示第 i个数据字符的信用向量;xi表示第i个数据字符的信用属性;b表示信用数据的数据量;i∈n,i为正整数;n表示数据字符的个数;
本发明在数据分类的时候,为了防止不同属性的信用数据划分的不清楚,本发明采用了基于特征距离的方式,却判断不同的信用数据之间的距离,从而判定出在信用数据划分的时候,划分的到底是正确还是错误。
本发明在进行数据分类的时候采用了函数的形式,来体现信用数据的特点,首先本发明主要是对信用数据的数据特征进行计算,我们建立信用数据的特征函数是为了体现出每个信用数据具体表现得含义。
步骤2:根据所述特征函数计算不同信用数据之间的数据距离:
其中,D(Lj,Lk)表示第j和第k个信用函数的信用特征之间的数据距离;j,k∈m,且,均为正整数;m表示信用数据的总数量;l表示迭代参数;
在计算不同信用数据的距离方面,本发明采用了距离函数这是本发明在进行信用计算的时候,必定是存在一定的范围的。相对于曼哈顿距离和马氏距离来说,本发明需要计算的信用数据更加的复杂,而曼哈顿距离存在降低复杂度,同样对于距离的计算也弱化了,本发明采用的方式更加优越。
步骤3:根据所述数据距离,验证统一信用属性的信用分类数据是否划分正确。在步骤3中,本发明主要是为了判断分类是否正确,而在切尔雪夫距离确定了之后,可以通过具体的数值去判断分类是否正确,正确分类时,两者之间没有距离。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (8)
1.基于增强隔离森林的信用数据异常检测方法,其特征在于,包括如下步骤:
步骤1、构建EIF模型:
A.输入样本扰动:将整个训练集分为多数类集N与少数类集P,从N中随机抽取与P中样本数相同数量的样本,与P一起构成平衡训练集D,独立重复进行k次,得到k个平衡训练集用于训练;
B.输入属性扰动:在每棵隔离树训练过程中,不使用全部属性的训练集,只使用随机抽取的部分属性完成一次训练,输入属性扰动在保证每棵隔离树性能下,构建分类依据不同的隔离树;
步骤2、异常样本生成:
使用属性与信用间相关性模拟针对信用评估时的刻意造假,对测试数据集进行伪造,筛选对信用评价影响大的属性,根据属性与信用的线性关系调整样本的值,用简单模型确认会发生误判情况;
步骤3、EIF模型异常检测
含有EIF模型的信用评估将含数据集首先通过EIF模型判断是否存在异常,判断为正常的样本进入下一步信用评估模型,检测结果为异常的样本的被标记为信用不良。
2.如权利要求1所述的基于增强隔离森林的信用数据异常检测方法,其特征在于,步骤2中异常样本生成的过程如下:
测试集伪造后产生信用不良样本和信用良好样本,信用不良样本产生后修改特征,并进行简单判别模型,得到伪造样本,最后得到伪造数据集。
4.如权利要求1所述的基于增强隔离森林的信用数据异常检测方法,其特征在于,步骤2的数据集为UCI公开数据库中的German数据集,描述1000条贷款申请记录,700条为信用良好样本,300条为信用不良样本,数据集的原始数据由19条不同属性表示,使用独热编码给出数值化后的german-numeric文件,将类别转化为虚拟变量,每条记录由24个属性描述。
5.如权利要求4所述的基于增强隔离森林的信用数据异常检测方法,其特征在于,对于信用数据伪造算法的影响能力采用准确率值评估,使用F1分数与代价敏感错误率作为异常点检测加强后算法性能的评估指标。
7.如权利要求1所述的基于增强隔离森林的信用数据异常检测方法,其特征在于,所述输入样本扰动之前还包括:
基于信用向量机,建立信用分类模型;其中,
所述信用向量机基于信用数据的信用属性构建,信用分类时信用数据的属性值越高,信用向量越大;
获取信用数据,并将所述信用数据导入所述信用分类模型进行数据分类,确定不同信用属性的信用分类数据;
计算分类后每类信用数据的隶属度,并将所述隶属度作为每类信用数据的信用标签;
根据所述信用标签,对每类信用数据分别建立训练集。
8.如权利要求1所述的基于增强隔离森林的信用数据异常检测方法,其特征在于,所述数据分类还包括:
步骤1:根据所述信用数据,分别构建每个信用数据的特征函数:
其中,L表示信用数据的特征函数;W表示信用数据的极小值;ai表示第i个数据字符的信用向量;xi表示第i个数据字符的信用属性;b表示信用数据的数据量;i∈n,i为正整数;n表示数据字符的个数;
步骤2:根据所述特征函数计算不同信用数据之间的数据距离:
其中,D(Lj,Lk)表示第j和第k个信用函数的信用特征之间的数据距离;j,k∈m,且,均为正整数;m表示信用数据的总数量;
步骤3:根据所述数据距离,验证统一信用属性的信用分类数据是否划分正确。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210172971.9A CN114707571B (zh) | 2022-02-24 | 2022-02-24 | 基于增强隔离森林的信用数据异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210172971.9A CN114707571B (zh) | 2022-02-24 | 2022-02-24 | 基于增强隔离森林的信用数据异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114707571A true CN114707571A (zh) | 2022-07-05 |
CN114707571B CN114707571B (zh) | 2024-05-07 |
Family
ID=82167470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210172971.9A Active CN114707571B (zh) | 2022-02-24 | 2022-02-24 | 基于增强隔离森林的信用数据异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114707571B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116561689A (zh) * | 2023-05-10 | 2023-08-08 | 盐城工学院 | 一种高维数据异常检测方法 |
CN117150232A (zh) * | 2023-10-27 | 2023-12-01 | 南京邮电大学 | 一种大模型非时序训练数据质量评价方法 |
CN117151768A (zh) * | 2023-10-30 | 2023-12-01 | 国网浙江省电力有限公司营销服务中心 | 一种生成式营销事件风控规则库的构建方法及系统 |
CN117874653A (zh) * | 2024-03-11 | 2024-04-12 | 武汉佳华创新电气有限公司 | 一种基于多源数据的电力系统安全监测方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110536258A (zh) * | 2019-08-09 | 2019-12-03 | 大连理工大学 | 一种UASNs中基于孤立森林的信任模型 |
US20200349169A1 (en) * | 2019-05-03 | 2020-11-05 | Accenture Global Solutions Limited | Artificial intelligence (ai) based automatic data remediation |
US20200374720A1 (en) * | 2018-06-04 | 2020-11-26 | Jiangnan University | Method for Detecting Abnormal Data in Sensor Network |
CN112053167A (zh) * | 2020-08-25 | 2020-12-08 | 大连理工大学 | 基于改进的EasyEnsemble算法的供应商信用评价方法、系统及存储介质 |
CN112070125A (zh) * | 2020-08-19 | 2020-12-11 | 西安理工大学 | 一种基于孤立森林学习的不平衡数据集的预测方法 |
US20200410403A1 (en) * | 2019-06-27 | 2020-12-31 | Royal Bank Of Canada | System and method for detecting data drift |
US20210248611A1 (en) * | 2020-02-12 | 2021-08-12 | Kbc Groep Nv | Method, Use Thereof, Computer Program Product and System for Fraud Detection |
-
2022
- 2022-02-24 CN CN202210172971.9A patent/CN114707571B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200374720A1 (en) * | 2018-06-04 | 2020-11-26 | Jiangnan University | Method for Detecting Abnormal Data in Sensor Network |
US20200349169A1 (en) * | 2019-05-03 | 2020-11-05 | Accenture Global Solutions Limited | Artificial intelligence (ai) based automatic data remediation |
US20200410403A1 (en) * | 2019-06-27 | 2020-12-31 | Royal Bank Of Canada | System and method for detecting data drift |
CN110536258A (zh) * | 2019-08-09 | 2019-12-03 | 大连理工大学 | 一种UASNs中基于孤立森林的信任模型 |
US20210248611A1 (en) * | 2020-02-12 | 2021-08-12 | Kbc Groep Nv | Method, Use Thereof, Computer Program Product and System for Fraud Detection |
CN112070125A (zh) * | 2020-08-19 | 2020-12-11 | 西安理工大学 | 一种基于孤立森林学习的不平衡数据集的预测方法 |
CN112053167A (zh) * | 2020-08-25 | 2020-12-08 | 大连理工大学 | 基于改进的EasyEnsemble算法的供应商信用评价方法、系统及存储介质 |
Non-Patent Citations (2)
Title |
---|
YUE ZHAO,ET AL: "XGBOD:Improving Supervised Outlier Detection with Unsupervised Representation Learning", 2018IJCNN, 14 October 2018 (2018-10-14) * |
黎承旭: "基于大数据的异常用电行为检测算法及应用", 信息科技, no. 3, 15 March 2020 (2020-03-15) * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116561689A (zh) * | 2023-05-10 | 2023-08-08 | 盐城工学院 | 一种高维数据异常检测方法 |
CN116561689B (zh) * | 2023-05-10 | 2023-11-14 | 盐城工学院 | 一种高维数据异常检测方法 |
CN117150232A (zh) * | 2023-10-27 | 2023-12-01 | 南京邮电大学 | 一种大模型非时序训练数据质量评价方法 |
CN117150232B (zh) * | 2023-10-27 | 2024-02-06 | 南京邮电大学 | 一种大模型非时序训练数据质量评价方法 |
CN117151768A (zh) * | 2023-10-30 | 2023-12-01 | 国网浙江省电力有限公司营销服务中心 | 一种生成式营销事件风控规则库的构建方法及系统 |
CN117874653A (zh) * | 2024-03-11 | 2024-04-12 | 武汉佳华创新电气有限公司 | 一种基于多源数据的电力系统安全监测方法及系统 |
CN117874653B (zh) * | 2024-03-11 | 2024-05-31 | 武汉佳华创新电气有限公司 | 一种基于多源数据的电力系统安全监测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114707571B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gao et al. | An adaptive ensemble machine learning model for intrusion detection | |
CN114707571A (zh) | 基于增强隔离森林的信用数据异常检测方法 | |
Tang et al. | A pruning neural network model in credit classification analysis | |
CN111882446B (zh) | 一种基于图卷积网络的异常账户检测方法 | |
CN109034194B (zh) | 基于特征分化的交易欺诈行为深度检测方法 | |
CN110381079B (zh) | 结合gru和svdd进行网络日志异常检测方法 | |
CN110084610A (zh) | 一种基于孪生神经网络的网络交易欺诈检测系统 | |
CN105897517A (zh) | 一种基于svm的网络流量异常检测方法 | |
CN112560596B (zh) | 一种雷达干扰类别识别方法及系统 | |
CN114844840B (zh) | 一种基于计算似然比的分布外网络流量数据检测方法 | |
CN112738092A (zh) | 一种日志数据增强方法、分类检测方法及系统 | |
CN104850868A (zh) | 一种基于k-means和神经网络聚类的客户细分方法 | |
Shi et al. | An improved agglomerative hierarchical clustering anomaly detection method for scientific data | |
Wang et al. | Mushroom toxicity recognition based on multigrained cascade forest | |
Chu et al. | Co-training based on semi-supervised ensemble classification approach for multi-label data stream | |
CN112949954B (zh) | 基于识别学习建立财务欺诈识别模型的方法 | |
CN110956543A (zh) | 异常交易检测的方法 | |
CN113343123A (zh) | 一种生成对抗多关系图网络的训练方法和检测方法 | |
CN111292182A (zh) | 一种信贷欺诈检测方法及系统 | |
CN106991171A (zh) | 基于智慧校园信息服务平台的话题发现方法 | |
Işık et al. | Detection of fraudulent transactions using artificial neural networks and decision tree methods | |
CN113010673A (zh) | 一种基于熵优化支持向量机的漏洞自动分类方法 | |
Tressa et al. | Credit Card Fraud Detection Using Machine Learning | |
Zhang et al. | Anomaly credit data detection based on enhanced Isolation Forest | |
Calma | Active Learning with Uncertain Annotators: Towards Dedicated Collaborative Interactive Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |