CN112560921A - 一种基于模糊c-均值的互联网金融平台申请欺诈行为检测方法 - Google Patents

一种基于模糊c-均值的互联网金融平台申请欺诈行为检测方法 Download PDF

Info

Publication number
CN112560921A
CN112560921A CN202011434807.8A CN202011434807A CN112560921A CN 112560921 A CN112560921 A CN 112560921A CN 202011434807 A CN202011434807 A CN 202011434807A CN 112560921 A CN112560921 A CN 112560921A
Authority
CN
China
Prior art keywords
fuzzy
clustering
application
matrix
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011434807.8A
Other languages
English (en)
Inventor
江远强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baiweijinke Shanghai Information Technology Co ltd
Original Assignee
Baiweijinke Shanghai Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baiweijinke Shanghai Information Technology Co ltd filed Critical Baiweijinke Shanghai Information Technology Co ltd
Priority to CN202011434807.8A priority Critical patent/CN112560921A/zh
Publication of CN112560921A publication Critical patent/CN112560921A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Probability & Statistics with Applications (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种基于模糊C‑均值算法的互联网金融平台欺诈行为检测方法,通过对采集互联网平台客户账户注册时的信息获取实时测点数据进行Z‑score归一化和降维标准处理,划分训练集和验证集,初始化模糊C‑均值的参数,采用模糊聚类有效性函数自动优选初始聚类数,由目标函数得到模糊C‑均值聚类模型,并根据训练集确定分类决策规则,将验证集进行分类并与用户的申请行为和贷后表现优化模型,将优化后的模糊C‑均值模型部署至互联网金融平台后端对客户的申请行为进行在线异常检测监控,对疑似异常状态的申请发出系统预警,进行人工审批环节或拒绝申请;本发明实现预警结果准确率高,欺诈识别能力强,降低了金融欺诈风险。

Description

一种基于模糊C-均值的互联网金融平台申请欺诈行为检测 方法
技术领域
本发明属于互联网金融平台行业的风控技术领域,具体利用模糊C-均值算法提供一种检测互联网金融平台申请是否存在欺诈行为的方法。
背景技术
在互联网金融平台反欺诈中,传统的反欺诈检测方法主要是依赖先验知识制定的基于预先定义的反欺诈规则和有监督的机器学习算法,所检测的数据级别通常是原始属性或是细粒度级别的数据。而在当今大数据时代,金融风险维度通常是成百上千个且异常复杂,很难从单个或几个属性的制定有效反欺诈规则,而有监督的机器学习又需要积累大量表现样本来训练模型,不能及时识别出新型欺诈类型。针对这种问题,基于海量数据构建正常行为模型的异常检测技术被广泛采用。虽然目前针对于异常检测的方法有很多,但是各种方法多数并不能获得全局最优解,且误报率仍然有待于改善。
模糊C-均值(Fuzzy C-Means,FCM)算法是一种基于划分的模糊聚类算法,它的思想就是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。它通过优化目标函数得到每个样本点对所有类中心的隶属度,以极小化所有数据点与各聚类中心的欧式距离及模糊隶属度的加权和为目标,不断修正聚类中心和分类矩阵到符合终止准则,将具有类似特征的数据样本聚为一类。模糊C-均值聚类算法由于速度快、思想简单,得到广泛的使用,且非常适用于互金平台异常行为检测识别。
但传统的模糊C-均值算法应用时存在两个缺陷:一是初始聚类数c值只能依靠经验人为选取,不能自动优选初始聚类数;二是模糊C-均值算法对于样本中的孤立点、噪音数据比较敏感,易陷入局部最优,导致分类出现偏差,进而影响其异常检测的准确率和稳定性。
发明内容
为了解决上述技术问题,本发明中披露了一种基于模糊C-均值算法的互联网金融平台申请欺诈行为检测方法,本发明的技术方案是这样实施的:
一种基于模糊C-均值算法的互联网金融平台欺诈行为检测方法,包括以下步骤:
步骤1:数据采集,从互联网平台后端采集客户账户注册时的个人基本信息及历史行为数据,以及监测软件中获取实时测点数据;
步骤2:对采集的数据Z-score归一化和主成分分析降维,划分训练集和验证集;
步骤3:初始化模糊C-均值的参数,采用模糊聚类有效性函数确定聚类数;
步骤4:根据初始隶属度计算聚类中心,并更新隶属度,根据目标函数收敛得到模糊C-均值聚类模型;
步骤5:根据训练集确定分类决策规则,将验证集进行分类结合用户的申请行为和贷后表现优化模型;
步骤6:异常在线检测,将优化后的模糊C-均值模型部署至互联网金融平台后端对客户的申请行为进行在线异常检测监控,对疑似异常状态的申请发出系统预警,进行人工审批环节或拒绝申请。
进一步地,所述步骤1中,账户个人基本信息及注册申请节点数据,个人基本信息包括:性别、年龄、居住情况、婚姻状态、工作状态,注册申请数据包括账户注册手机号、绑定银行卡号、GPS位置、申请贷款类型、贷款年限、还款计划,用户操作行为数据包括操作行为和设备信息,其中操作行为埋点数据包括:登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时;设备信息包括:手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度,并对账户信贷、消费、提现行为数据中提取进行数字化处理。
进一步地,所述的步骤2中,由于模糊C-均值聚类算法对孤立点、噪音数据比较敏感,因此需要对原始数据集标准化处理,包括Z-score标准化和主成分分析法(PrincipalComponentAnalysis,PCA)降维,Z-score标准化可以统一量纲,主成分分析法可处理样本中的孤立点、噪音数据,消除特征间的自关联性,降维也可以降低计算量,便于处理高维数据,方法如下:
步骤2-1:将采集的n个样本的特征数据构成空间特征数据集X(n×m)={x1,x2,…,xi,…,xn},其中每个样本测得m个变量的数据,这n×m个数据构成一个空间特征数据集分析矩阵X:
Figure BDA0002828067620000031
可知xij(i=1,2,…,n;j=1,2,…,m)为第i条样本的第j个特征变量的取值。
步骤2-2:计算每个申请行为样本各个特征的均值和标准差:
Figure BDA0002828067620000041
步骤2-3:利用Z-score归一化得到标准化矩阵Z=(zij)n×m,计算公式如下:
Figure BDA0002828067620000042
步骤2-4:求解相关系数矩阵R=(rjk)m×m,计算公式如下:
Figure BDA0002828067620000043
步骤2-5:求解特征值及特征向量:由特征方程|λE-R|=0(其中E为单位向量)求出相关系数矩阵R的特征值由大到小排序λ1>λ2>…>λm及对应特征向量为l1,l2,…,lm
步骤2-6:降维:按累计方差贡献率
Figure BDA0002828067620000044
的原则确定k值,从而通过取前k个主成分,得到主成分矩阵(Fij)n×k,主成分降维后的矩阵计算公式如下:
Figure BDA0002828067620000045
由原始数据X(n×m)降维主成分矩阵(Fij)n×k得到从原始m维降至k维,矩阵中的各个列向量Fv(v=1,2,…,k)即为所有申请样本的第v主成分值。
进一步地,所述的步骤3包括以下步骤:
步骤3-1:模糊C-均值的参数初始化,设定聚类数
Figure BDA0002828067620000051
和模糊因子m∈(1,+∝)(m决定隶属度矩阵的模糊程度,一般情况下m取值为2),收敛精度ε(ε>0,为常数),初始迭代次数t=0。
步骤3-2:初始化一个隶属度隶属度:对给定数据集X的聚类就是要产生X的c个模糊子类X1,X2,…,Xc划分,隶属度uij表示第i个样本属于第j类的隶属度,满足:
uik∈[0,1]且
Figure BDA0002828067620000052
即隶属度矩阵U使用[0,1]之间的随机数来进行初始化,U=(uij)为n×c维隶属度函数,表达式如下:
Figure BDA0002828067620000053
其中,i=1,2,…,n为样本个数,j=1,2,…,c是聚类数;
步骤3-3:使用模糊聚类有效性函数确定聚类数c,模糊聚类有效性函数如下:
Figure BDA0002828067620000054
得到聚类中心矩阵V={v1,v2,…,vj,…,vc};
步骤3-4,使用模糊聚类有效性函数确定聚类数c,计算公式如下:
Figure BDA0002828067620000055
其中,i=1,2,…,n为样本个数,j=1,2,…,c是聚类数,m是模糊因子,uij是隶属矩阵U矩阵中的元素,vi、vj分别是聚类中心矩阵V中的第i、j行。
Vxb是类内紧凑度和类间分离度的比例,其中
Figure BDA0002828067620000061
为度量类内紧密性,其值越小,则该类越紧凑,min||vi-vj||2为度量类间的分离性,其值越大,分离度越大,Vxb在类内紧凑度和类问分离度之间找一个平衡点,使其达到最小,从而获得最好的聚类效果。
根据函数Vxb确定类数c,步骤如下:
(1)经过学者研究,经验性给定聚类数c的范围是
Figure BDA0002828067620000062
(2)取
Figure BDA0002828067620000063
时c的每个整数值及带入模糊聚类有效性函数计算所对应的Vxb值;
(3)比较各Vxb的值,取Vxb最小时所对应的c值,所获得聚类的效果最好。
进一步地,所述的步骤4包括以下步骤:
步骤4-1:根据步骤3-3聚类中心求出新的隶属度矩阵U,隶属度公式如下:
Figure BDA0002828067620000064
由更新的隶属度矩阵U(t)得到此时的目标函数J(t)
Figure BDA0002828067620000065
其中,c表示通过模糊聚类有效性函数确定聚类数,m是模糊因子(一般情况下m取值为2),dik=||xi-vk||、dij=||xi-vj||分别表示第i个样本与第k个、第j个聚类中心之间的欧式距离,i=1,2,…,n、k=1,2,…,n均是样本数,j=1,2,…,c是聚类数;
步骤4-2:如果|J(t)-J(t-1)|≤ε(优选收敛精度ε为隶属度矩阵U范数值的1%),则迭代结束,否则迭代次数t=t+1,转步骤3-3、4-1、4-2继续迭代直至收敛。
模糊C-均值聚类算法的整体步骤如下:首先需要确定聚类数目c、模糊指数m和收敛精度ε的值,初始迭代次数t=0。根据约束条件随机初始化一个隶属度矩阵,计算此时的聚类中心,由此得到目标函数J(t),并与上次目标函数J(t-1)改变量小于收敛精度ε,即|J(t)-J(t-1)|<ε则迭代结束,否则迭代次数t=t+1,继续迭代。
进一步地,所述的步骤5中,当训练集聚类簇完成后,可将所有的聚类按其中包含的实例数量大小进行排序,根据训练集或实际业务的欺诈率设定阈值,确定分类决策规则,对于大于的聚类簇即认为是正常行为,否则即为异常。
然后将上述训练集训练的模糊C-均值模型在验证集分类,计算验证集属于正常或异常的概率,结合用户的申请行为和贷后表现作为分类标签和模糊C-均值模型的分类结果进行比对,判定分类的准确性,也通过选用其他距离度量方式,如曼哈顿距离,或根据其他实际业务确定的分类决策规则,进一步调整优化模型。
进一步地,所述步骤6中,将优化后的模糊C-均值模型部署至互联网金融平台后端对客户的申请行为进行在线异常检测监控,通过训练好的模糊C-均值聚类模板库匹配出在线申请样本属于异常的概率,若达到异常申请状态的阈值,对疑似异常状态的申请发出系统预警,进行人工审批或直接拒绝申请。
与现有技术相比,本发明具有以下有益的技术效果:
(1)对原始数据通主成分分析处理去除了孤立点、噪音数据影响,应用模糊聚类有效性函数自动优选初始聚类数c,根据经验法确定模糊指数m=2和收敛精度ε为隶属度矩阵U范数值的1%,减少了人为主观因素,提高了模糊C-均值算法的异常检测准确率和稳定性;
(2)基于构建好的模糊C-均值计算匹配度进行申请行为异常检测,对实时进军申请行为数据计算已有模糊模型的匹配度,降低了数据处理过程中的计算量,能够自动快速且有效地实现互联网金融平台申请行为监测,保证互联网金融平台申请行为检测设别实时性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一种实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于模糊C-均值算法的互联网金融平台欺诈行为检测方法,包括以下步骤:
步骤1:数据采集,从互联网平台后端采集客户账户注册时的个人基本信息及历史行为数据,以及监测软件中获取实时测点数据;
步骤2:对采集的数据Z-score归一化和主成分分析降维,划分训练集和验证集;
步骤3:初始化模糊C-均值的参数,采用模糊聚类有效性函数确定聚类数;
步骤4:根据初始隶属度计算聚类中心,并更新隶属度,根据目标函数收敛得到模糊C-均值聚类模型;
步骤5:根据训练集确定分类决策规则,将验证集进行分类结合用户的申请行为和贷后表现优化模型;
步骤6:异常在线检测,将优化后的模糊C-均值模型部署至互联网金融平台后端对客户的申请行为进行在线异常检测监控,对疑似异常状态的申请发出系统预警,进行人工审批环节或拒绝申请。
在一种优选的实施方式中,结合图1所示,步骤2中所述的归一化处理是采用Z-score标准化,统一了量纲,使数据满足标准的高斯分布分布,避免了放大某些数量级较大的值的影响,从而使分类结果更加准确。
在一种优选的实施方式中,结合图1所示,步骤3和4采用欧式距离作为距离度量方式计算第i个样本与它的第j个聚类中心的欧式距离的公式如下:
Figure BDA0002828067620000091
作为模型优化,也可以采用曼哈顿距离
Figure BDA0002828067620000092
代替欧式距离作为距离度量方式,可进一步优化模糊C-均值模型。
为实现上述发明目的,本申请一方面提供了一种基于模糊C-均值算法的互联网金融平台欺诈行为在线检测自动识别模型,所述自动识别模型包括以下几个模块:
数据采集模块:从互联网金融平台后端采集客户账户注册时的个人基本信息及历史行为数据,以及监测软件中获取实时测点数据;
数据预处理模块:对样本数据采用Z-score归一化和主成分分析降维,提取倒谱特征作为特征参数;
训练模块,用于利用特征参数来训练模糊聚类模板库;
模型部署及在线检测:将优化后的模糊C-均值模型部署至互联网金融平台后端对客户的申请行为进行在线异常检测监控,通过模糊聚类模板库匹配出待检测申请行为分类的最优模板,对疑似异常状态的申请发出系统预警,进行人工审批流程或拒绝申请。
需要指出的是,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于模糊C-均值算法的互联网金融平台欺诈行为检测方法,其特征在于,包括以下步骤:
步骤1:数据采集,从互联网平台后端采集客户账户注册时的个人基本信息及历史行为数据,以及监测软件中获取实时测点数据;
步骤2:对采集的数据Z-score归一化和主成分分析降维,划分训练集和验证集;
步骤3:初始化模糊C-均值的参数,采用模糊聚类有效性函数自动优选初始聚类数;
步骤4:根据初始隶属度计算聚类中心,并更新隶属度,根据目标函数收敛得到模糊C-均值聚类模型;
步骤5:根据训练集确定分类决策规则,将验证集进行分类并结合用户的申请行为和贷后表现优化模型;
步骤6:异常在线检测,将优化后的模糊C-均值模型部署至互联网金融平台后端对客户的申请行为进行在线异常检测监控,对疑似异常状态的申请发出系统预警,进行人工审批环节或拒绝申请。
2.根据权利要求1所述的一种基于模糊C-均值算法的互联网金融平台欺诈行为检测方法,其特征在于,所述步骤1中,账户个人基本信息及注册申请节点数据,个人基本信息包括:性别、年龄、居住情况、婚姻状态、工作状态;注册申请数据包括账户注册手机号、绑定银行卡号、GPS位置、申请贷款类型、贷款年限、还款计划;用户操作行为数据包括操作行为和设备信息,其中操作行为埋点数据包括:登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时;设备信息包括:手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度;并对账户信贷、消费、提现行为数据中提取进行数字化处理。
3.根据权利要求1所述的一种基于模糊C-均值算法的互联网金融平台欺诈行为检测方法,其特征在于,所述的步骤2中由于模糊C-均值聚类算法对孤立点、噪音数据比较敏感,因此需要对原始数据集标准化处理,包括Z-score标准化和主成分分析法(PrincipalComponent Analysis,PCA)降维,Z-score标准化可以统一量纲,主成分分析法可处理样本中的孤立点、噪音数据,消除特征间的自关联性,降维也可以降低计算量,便于处理高维数据,方法如下:
步骤2-1:将采集的n个样本的特征数据构成空间特征数据集X={x1,x2,…,xi,…,xn}∈Rn×m,其中每个样本测得m个变量的数据,这n×m个数据构成一个空间特征数据集分析矩阵X如下:
Figure FDA0002828067610000021
可知xij(i=1,2,…,n;j=1,2,…,m)为第i条样本的第j个特征变量的取值。
步骤2-2:计算每个申请行为样本各个特征的均值
Figure FDA0002828067610000022
和标准差sj
Figure FDA0002828067610000023
步骤2-3:利用Z-score归一化得到标准化矩阵Z=(zij)n×m,计算公式如下:
Figure FDA0002828067610000024
步骤2-4:求解相关系数矩阵R=(rjk)m×m,计算公式如下:
Figure FDA0002828067610000031
步骤2-5:求解特征值及特征向量:由特征方程|λE-R|=0(其中E为单位向量)求出相关系数矩阵R的特征值由大到小排序λ1>λ2>…>λm以及对应特征向量为l1,l2,…,lm
步骤2-6:降维:按累计方差贡献率
Figure FDA0002828067610000032
的原则,确定k,从而通过取前k个主成分,得到主成分矩阵(Fij)n×k,主成分降维后的矩阵计算公式如下:
Figure FDA0002828067610000033
由原始数据X(n×m)降维至主成分矩阵(Fij)n×k,即从原始m维降至k维,矩阵中的各个列向量Fv(v=1,2,…,k)即为所有申请样本的第v主成分值。
4.根据权利要求1所述的一种基于模糊C-均值算法的互联网金融平台欺诈行为检测方法,其特征在于,所述的步骤3包括以下步骤:
步骤3-1:模糊C均值的参数初始化:设定聚类数
Figure FDA0002828067610000034
和模糊因子m∈(1,+∝)(m决定隶属度矩阵的模糊程度,一般情况下m取值为2),收敛精度ε(ε>0,为常数),初始迭代次数t=0;
步骤3-2:初始化一个隶属度隶属度:对给定数据集X的聚类就是要产生X的c个模糊子类X1,X2,…,Xc划分,隶属度uij表示第i个样本属于第j类的隶属度,满足:
uik∈[0,1]且
Figure FDA0002828067610000035
即隶属度矩阵U使用[0,1]之间的随机数来进行初始化,U=(uij)为n×c维隶属度函数,表达式如下:
Figure FDA0002828067610000041
其中:i=1,2,…,n为样本个数,j=1,2,…,c是聚类数;
步骤3-3:根据隶属度计算聚类中心vj(j=1,2,…,c),公式如下:
Figure FDA0002828067610000042
得到聚类中心矩阵V={v1,v2,…,vj,…,vc};
步骤3-4,使用模糊聚类有效性函数确定聚类数c,模糊聚类有效性函数Vxb计算公式如下:
Figure FDA0002828067610000043
其中,i=1,2,…,n为样本个数,j=1,2,…,c是聚类数,m是模糊因子,uij是隶属矩阵U矩阵中的元素,vi、vj分别是聚类中心矩阵V中的第i、j行。
Vxb是类内紧凑度和类间分离度的比例,其中
Figure FDA0002828067610000044
为度量类内紧密性,其值越小,则该类越紧凑,min||vi-vj||2为度量类间的分离性,其值越大,分离度越大,Vxb在类内紧凑度和类问分离度之间找一个平衡点,使其达到最小,从而获得最好的聚类效果。
根据函数Vxb确定类数c,步骤如下:
(1)经过学者研究,经验性给定聚类数c的取值范围为
Figure FDA0002828067610000051
(2)
Figure FDA0002828067610000052
时,遍历计算每个整数c所对应的Vxb值;
(3)比较各Vxb的值,取Vxb最小时所对应的c值,所获得的聚类效果最好。
5.根据权利要求1所述的一种基于模糊C-均值算法的互联网金融平台欺诈行为检测方法,其特征在于,所述的步骤4包括以下步骤:
步骤4-1:根据步骤3-3聚类中心求出新的隶属度矩阵U,隶属度公式如下:
Figure FDA0002828067610000053
由更新的隶属度矩阵U(t)得到此时的目标函数J(t)
Figure FDA0002828067610000054
其中,c表示通过模糊聚类有效性函数确定聚类数,m是模糊因子(一般情况下m取值为2),dik=||xi-vk||、dij=||xi-vj||分别表示第i个样本与第k个、第j个聚类中心之间的欧式距离,i、k=1,2,…,n是样本数,j=1,2,…,c是聚类数;
步骤4-2:优选收敛精度ε为隶属度矩阵U范数值的1%,如果|J(t)-J(t-1)|≤ε,则迭代结束,否则迭代次数t=t+1,转步骤3-3、4-1、4-2继续迭代直至收敛;
模糊C-均值聚类算法的整体步骤如下:首先需要确定聚类数目c、模糊指数m和收敛精度ε的值,初始迭代次数t=0。根据约束条件随机初始化一个隶属度矩阵,计算此时的聚类中心,由此得到目标函数J(t),并与上次目标函数J(t-1)改变量小于收敛精度ε,即|J(t)-J(t-1)|<ε则迭代结束,否则迭代次数t=t+1,继续迭代。
6.根据权利要求1所述的一种基于模糊C-均值算法的互联网金融平台欺诈行为检测方法,其特征在于,所述的步骤5中,当训练集聚类簇完成后,可将所有的聚类按其中包含的实例数量大小进行排序,根据训练集的欺诈占比设定阈值,确定分类决策规则,对于大于的聚类簇即认为是正常行为,否则即为异常;
将上述训练集训练的模糊C-均值模型在验证集分类,计算验证集属于正常或异常的概率,结合用户的申请行为和贷后表现作为分类标签和模糊C-均值模型的分类结果进行比对,判定分类的准确性,也可通过选用其他距离度量方式,如曼哈顿距离,或根据业务的具体情况确定分类决策规则,进一步调整优化模型。
7.根据权利要求1所述的一种基于模糊C-均值算法的互联网金融平台欺诈行为检测方法,其特征在于,所述步骤6中,将优化后的模糊C-均值模型部署至互联网金融平台后端对客户的申请行为进行在线异常检测监控,通过训练好的模糊C-均值聚类模板库匹配出在线申请样本属于异常的概率,若达到异常申请状态的阈值,对疑似异常状态的申请发出系统预警,进行人工审批或直接拒绝。
CN202011434807.8A 2020-12-10 2020-12-10 一种基于模糊c-均值的互联网金融平台申请欺诈行为检测方法 Pending CN112560921A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011434807.8A CN112560921A (zh) 2020-12-10 2020-12-10 一种基于模糊c-均值的互联网金融平台申请欺诈行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011434807.8A CN112560921A (zh) 2020-12-10 2020-12-10 一种基于模糊c-均值的互联网金融平台申请欺诈行为检测方法

Publications (1)

Publication Number Publication Date
CN112560921A true CN112560921A (zh) 2021-03-26

Family

ID=75060335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011434807.8A Pending CN112560921A (zh) 2020-12-10 2020-12-10 一种基于模糊c-均值的互联网金融平台申请欺诈行为检测方法

Country Status (1)

Country Link
CN (1) CN112560921A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313579A (zh) * 2021-06-17 2021-08-27 广东工业大学 一种中小微企业信贷风险评级方法及相关装置
CN113436027A (zh) * 2021-06-30 2021-09-24 山大地纬软件股份有限公司 医保报销异常数据检测方法及系统
CN113487264A (zh) * 2021-07-20 2021-10-08 中南大学 一种基于异构多无人机的物流配送方法及系统
CN113487225A (zh) * 2021-07-23 2021-10-08 北京云从科技有限公司 一种风险控制方法、系统、设备及介质
CN113569910A (zh) * 2021-06-25 2021-10-29 石化盈科信息技术有限责任公司 账户类型识别方法、装置、计算机设备及存储介质
CN113808129A (zh) * 2021-10-27 2021-12-17 常州微亿智造科技有限公司 易混淆缺陷的有效检测方法
CN114281994A (zh) * 2021-12-27 2022-04-05 盐城工学院 一种基于三层加权模型的文本聚类集成方法及系统
CN114549026A (zh) * 2022-04-26 2022-05-27 浙江鹏信信息科技股份有限公司 基于算法组件库分析的未知诈骗的识别方法及系统
CN115358647A (zh) * 2022-10-24 2022-11-18 齐鲁云商数字科技股份有限公司 基于大数据的氢能产业链风险监测系统及监测方法
CN115578841A (zh) * 2022-09-29 2023-01-06 中铁一局集团有限公司 基于Z-score模型的盾构异常数据检测方法及系统
CN115859059A (zh) * 2022-08-25 2023-03-28 广东工业大学 一种模糊信息的可重复标注方法、系统及装置
CN116612310A (zh) * 2023-07-17 2023-08-18 长春医学高等专科学校(长春职工医科大学长春市医学情报所) 基于多媒体舞蹈动作图像分解处理方法
CN117078359A (zh) * 2023-10-16 2023-11-17 山东大学 基于用户群分类的产品推荐方法、系统、设备及介质
CN117112871A (zh) * 2023-10-19 2023-11-24 南京华飞数据技术有限公司 基于fcm聚类算法模型的数据实时高效融合处理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203478A (zh) * 2016-06-27 2016-12-07 南昌大学 一种用于智能电表大数据的负荷曲线聚类方法
WO2018107488A1 (zh) * 2016-12-16 2018-06-21 深圳大学 基于提升直觉模糊树的目标跟踪方法及装置
CN109242026A (zh) * 2018-09-17 2019-01-18 湖北工业大学 一种基于杂交水稻算法优化的模糊c均值聚类方法及系统
CN111833175A (zh) * 2020-06-03 2020-10-27 百维金科(上海)信息科技有限公司 基于knn算法的互联网金融平台申请欺诈行为检测方法
CN111915418A (zh) * 2020-05-25 2020-11-10 百维金科(上海)信息科技有限公司 一种互联网金融欺诈行为在线检测方法及其装置
CN112053223A (zh) * 2020-08-14 2020-12-08 百维金科(上海)信息科技有限公司 一种基于ga-svm算法的互联网金融欺诈行为检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203478A (zh) * 2016-06-27 2016-12-07 南昌大学 一种用于智能电表大数据的负荷曲线聚类方法
WO2018107488A1 (zh) * 2016-12-16 2018-06-21 深圳大学 基于提升直觉模糊树的目标跟踪方法及装置
CN109242026A (zh) * 2018-09-17 2019-01-18 湖北工业大学 一种基于杂交水稻算法优化的模糊c均值聚类方法及系统
CN111915418A (zh) * 2020-05-25 2020-11-10 百维金科(上海)信息科技有限公司 一种互联网金融欺诈行为在线检测方法及其装置
CN111833175A (zh) * 2020-06-03 2020-10-27 百维金科(上海)信息科技有限公司 基于knn算法的互联网金融平台申请欺诈行为检测方法
CN112053223A (zh) * 2020-08-14 2020-12-08 百维金科(上海)信息科技有限公司 一种基于ga-svm算法的互联网金融欺诈行为检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
罗琪等: "入侵检测中模糊聚类的有效性评价研究", 《科技信息》 *
耿嘉艺等: "新模糊聚类有效性指标", 《计算机应用研究》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313579A (zh) * 2021-06-17 2021-08-27 广东工业大学 一种中小微企业信贷风险评级方法及相关装置
CN113569910A (zh) * 2021-06-25 2021-10-29 石化盈科信息技术有限责任公司 账户类型识别方法、装置、计算机设备及存储介质
CN113436027A (zh) * 2021-06-30 2021-09-24 山大地纬软件股份有限公司 医保报销异常数据检测方法及系统
CN113487264A (zh) * 2021-07-20 2021-10-08 中南大学 一种基于异构多无人机的物流配送方法及系统
CN113487264B (zh) * 2021-07-20 2022-09-02 中南大学 一种基于异构多无人机的物流配送方法及系统
CN113487225A (zh) * 2021-07-23 2021-10-08 北京云从科技有限公司 一种风险控制方法、系统、设备及介质
CN113487225B (zh) * 2021-07-23 2024-05-24 北京云从科技有限公司 一种风险控制方法、系统、设备及介质
CN113808129A (zh) * 2021-10-27 2021-12-17 常州微亿智造科技有限公司 易混淆缺陷的有效检测方法
CN114281994A (zh) * 2021-12-27 2022-04-05 盐城工学院 一种基于三层加权模型的文本聚类集成方法及系统
CN114549026A (zh) * 2022-04-26 2022-05-27 浙江鹏信信息科技股份有限公司 基于算法组件库分析的未知诈骗的识别方法及系统
CN115859059B (zh) * 2022-08-25 2024-03-22 广东工业大学 一种模糊信息的可重复标注方法、系统及装置
CN115859059A (zh) * 2022-08-25 2023-03-28 广东工业大学 一种模糊信息的可重复标注方法、系统及装置
CN115578841A (zh) * 2022-09-29 2023-01-06 中铁一局集团有限公司 基于Z-score模型的盾构异常数据检测方法及系统
CN115358647A (zh) * 2022-10-24 2022-11-18 齐鲁云商数字科技股份有限公司 基于大数据的氢能产业链风险监测系统及监测方法
CN116612310B (zh) * 2023-07-17 2023-09-26 长春医学高等专科学校(长春职工医科大学长春市医学情报所) 基于多媒体舞蹈动作图像分解处理方法
CN116612310A (zh) * 2023-07-17 2023-08-18 长春医学高等专科学校(长春职工医科大学长春市医学情报所) 基于多媒体舞蹈动作图像分解处理方法
CN117078359A (zh) * 2023-10-16 2023-11-17 山东大学 基于用户群分类的产品推荐方法、系统、设备及介质
CN117078359B (zh) * 2023-10-16 2024-01-12 山东大学 基于用户群分类的产品推荐方法、系统、设备及介质
CN117112871A (zh) * 2023-10-19 2023-11-24 南京华飞数据技术有限公司 基于fcm聚类算法模型的数据实时高效融合处理方法
CN117112871B (zh) * 2023-10-19 2024-01-05 南京华飞数据技术有限公司 基于fcm聚类算法模型的数据实时高效融合处理方法

Similar Documents

Publication Publication Date Title
CN112560921A (zh) 一种基于模糊c-均值的互联网金融平台申请欺诈行为检测方法
US20170083920A1 (en) Hybrid method of decision tree and clustering technology
CN112037012A (zh) 一种基于pso-bp神经网络的互联网金融信用评价方法
CN112001788B (zh) 一种基于rf-dbscan算法的信用卡违约欺诈识别方法
Verma et al. Analysis of supervised machine learning algorithms in the context of fraud detection
CN111915418A (zh) 一种互联网金融欺诈行为在线检测方法及其装置
CN112053223A (zh) 一种基于ga-svm算法的互联网金融欺诈行为检测方法
CN111833175A (zh) 基于knn算法的互联网金融平台申请欺诈行为检测方法
CN112288561A (zh) 基于dbscan算法的互联网金融欺诈行为检测方法
CN114298176A (zh) 一种欺诈用户检测方法、装置、介质及电子设备
US8145585B2 (en) Automated methods and systems for the detection and identification of money service business transactions
CN113269647A (zh) 基于图的交易异常关联用户检测方法
CN114202336A (zh) 一种金融场景下的风险行为监测方法及系统
CN109190698A (zh) 一种网络数字虚拟资产的分类识别系统及方法
Pugazhenthi et al. Selection of optimal number of clusters and centroids for k-means and fuzzy c-means clustering: A review
CN116380438A (zh) 一种故障诊断方法、装置、电子设备及存储介质
CN111639688B (zh) 一种基于线性核svm的物联网智能模型的局部解释方法
CN116821759A (zh) 类别标签的识别预测方法、装置和处理器及电子设备
CN116485185A (zh) 基于比对数据的企业风险分析系统及方法
IMBALANCE Ensemble Adaboost in classification and regression trees to overcome class imbalance in credit status of bank customers
CN112926989B (zh) 一种基于多视图集成学习的银行贷款风险评估方法及设备
CN115994776A (zh) 潜客识别方法及系统
Li et al. CUS-RF-Based Credit Card Fraud Detection with Imbalanced Data
CN118411183B (zh) 一种基于kmeans与iForest决策异常行为的识别方法
CN115953166B (zh) 基于大数据智能匹配的客户信息管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210326

RJ01 Rejection of invention patent application after publication