CN111461855A - 基于欠采样的信用卡欺诈检测方法及系统、介质、设备 - Google Patents

基于欠采样的信用卡欺诈检测方法及系统、介质、设备 Download PDF

Info

Publication number
CN111461855A
CN111461855A CN201910046954.9A CN201910046954A CN111461855A CN 111461855 A CN111461855 A CN 111461855A CN 201910046954 A CN201910046954 A CN 201910046954A CN 111461855 A CN111461855 A CN 111461855A
Authority
CN
China
Prior art keywords
samples
credit card
training
gaussian mixture
mixture model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910046954.9A
Other languages
English (en)
Other versions
CN111461855B (zh
Inventor
蒋昌俊
闫春钢
丁志军
刘关俊
张亚英
张冯君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201910046954.9A priority Critical patent/CN111461855B/zh
Publication of CN111461855A publication Critical patent/CN111461855A/zh
Application granted granted Critical
Publication of CN111461855B publication Critical patent/CN111461855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于欠采样的信用卡欺诈检测方法及系统、介质、设备,包括:使用高斯混合模型拟合数据集中训练集的多数类样本;使用拟合好的高斯混合模型预测训练集内少数类样本的概率密度值,并选择该概率密度值中最大值作为两类样本的交叉边缘;以该交叉边缘为中心,从交叉边缘向上和向下延伸设置采样上界和下界,以此进行欠采样获取欠采样数据集,将欠采样数据集与少数类样本集合并成均衡训练集;依据均衡训练集训练机器学习分类器;使用训练完成的机器学习分类器检测信用卡交易数据集。本发明运用高斯混合模型抓取两类样本分布交叉边缘的样本,对两类样本的识别提供了更多的有用信息,提高分类器在针对信用卡欺诈检测领域内的识别准确率。

Description

基于欠采样的信用卡欺诈检测方法及系统、介质、设备
技术领域
本发明涉及一种信用卡欺诈检测方法,特别是涉及一种基于欠采样的信用卡欺诈检测方法及系统、介质、设备。
背景技术
近年来,随着互联网和移动互联网的普及,电子商务高速发展,业务变得越来越多元与便捷,在线交易量的急剧增加,在为广大用户提供丰富的电子交易服务的同时,也带来了新的风险。针对电子交易平台的漏洞或采用一定手段进行电子交易欺诈的事件频发,电子交易安全不断受到威胁,严重危害了国家以及公民的财产安全,如果安全问题不得到解决,将会严重影响用户对电子交易的信任,从而阻碍互联网以及电子交易在中国的发展,因此检测电子交易欺诈行为构建安全可信的电子交易平台十分必要。
为解决日益严峻的电子商务欺诈问题,许多机器学习的解决方案被提出。然而电子交易领域存在的类别不均衡问题严重影响了传统机器学习算法对欺诈检测的识别。类别不均衡问题就是在用户交易行为记录中欺诈交易的数量远远小于正常交易的数量,这导致了以类别均衡分布为前提的传统机器学习算法为了提高总体交易识别率,会更加注重对正常交易样本的训练,从而忽略大量欺样本的有效信息,导致对欺诈样本的识别率下降。
为解决类别不均衡问题,研究者们提出了很多数据层面和算法层面的解决技术,如数据重采样技术,代价敏感技术,集成学习技术和单类技术等。其中,数据层面主要是通过数据预处理,达到训练集不同类别的均衡分布,该层面独立于分类器,可以轻易和不同分类器进行集成从而提高少数类样本的识别率,代表的技术有上采样与欠采样,上采样对少数类样本进行构造增加少数类样本数量,欠采样对多数类样本进行挑选减少多数类样本数量。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于欠采样的信用卡欺诈检测方法及系统、介质、设备,用于解决现有技术中传统欠采样技术对多数类样本挑选的盲目性的问题。
为实现上述目的及其他相关目的,本发明提供一种基于欠采样的信用卡欺诈检测方法,所述检测方法包括以下步骤:使用高斯混合模型拟合数据集中训练集的多数类样本;使用拟合好的高斯混合模型预测训练集内少数类样本的概率密度值,并选择该概率密度值中最大值作为两类样本的交叉边缘;以该交叉边缘为中心,从交叉边缘向上和向下延伸设置采样上界和下界,以此进行欠采样获取欠采样数据集,将欠采样数据集与少数类样本集合并成均衡训练集;依据均衡训练集训练机器学习分类器;使用训练完成的机器学习分类器检测信用卡交易数据集。
于本发明的一实施例中,所述使用高斯混合模型拟合数据集中训练集的多数类样本具体包括:
使用高斯混合模型拟合训练集的多数类样本,采用最大期望算法进行迭代优化求解;
估计高斯混合模型中每个成分生成数据的概率值和每个混合成分的参数,直至最大化对数似然函数的值收敛。
于本发明的一实施例中,所述的估计高斯混合模型中每个混合成分的参数使用贝叶斯信息标准确定。
于本发明的一实施例中,所述的概率值由以下公式计算获得:
Figure BDA0001949527840000021
其中,μ为均值向量;
Σ为协防差矩阵;
k为高斯模型的个数;
πk为第k个高斯模型的权重。
于本发明的一实施例中,所述协方差矩阵的类型包括球面协方差矩阵、对角协方差矩阵、相同的完全协方差矩阵和完全协方差矩阵。
本发明还提供了一种基于欠采样的信用卡欺诈检测系统,所述信用卡欺诈检测系统包括:样本模块,用于抽取训练集的多数类样本或少数类样本、测试集、或信用卡交易数据集;第一训练模块,用于使用高斯混合模型拟合训练集的多数类样本;第二训练模块,用于使用所述第一训练模块中拟合完成的高斯混合模型预测训练集内少数类样本的概率密度值,并选择该概率密度值中最大值作为两类样本的交叉边缘;采样模块,用于以该交叉边缘为中心,从交叉边缘向上和向下延伸设置采样上界和下界,以此进行欠采样获取欠采样数据集,将欠采样数据集与少数类样本集合并成均衡训练集;分类模块,用于依据均衡训练集训练机器学习分类器,并使用以训练后的机器学习分类器检测信用卡交易数据集。
于本发明的一实施例中,所述训练样本模块还包括计算模块,该计算模块用于使用高斯混合模型拟合训练集的多数类样本,通过最大期望算法进行迭代优化求解,并估计高斯混合模型中每个成分生成数据的概率值和每个混合成分的参数,直至最大化对数似然函数的值收敛。
于本发明的一实施例中,所述训练样本模块还包括标准调用模块,用于存放贝叶斯信息标准,使用贝叶斯信息标准确定该所述的估计高斯混合模型中每个混合成分的参数。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述基于欠采样的信用卡欺诈检测方法的步骤。
本发明还提供了一种基于欠采样的信用卡欺诈检测设备,包括:处理器及存储器;所述存储器存储有计算机程序,所述处理器用于运行所述存储器存储的计算机程序,以实现所述基于欠采样的信用卡欺诈检测方法中的步骤。
如上所述,本发明的基于欠采样的信用卡欺诈检测方法及系统、介质、设备,具有以下有益效果:
(1)实现数据预处理,弥补传统的数据不均衡处理技术的缺陷。
(2)运用高斯混合模型抓取两类样本分布交叉边缘的样本,这些样本为分类器对两类样本的识别提供了更多的有用信息,同时过滤掉多数类样本的大量冗余样本达到训练集样本类别均衡分布,并运用于信用卡欺诈检测领域提高了分类器的识别准确率。
附图说明
图1显示为本发明的基于欠采样的信用卡欺诈检测方法的流程示意图。
图2显示为验证本发明建立的高斯混合模型所使用的公开数据集的基本信息。
图3显示为公开数据集上对AUC实验结果。
图4显示为haberman数据集上验证11个不同分类器的实验效果。
图5显示为信用卡交易数据集的基本信息。
图6显示为应用高斯混合模型欠采样的信用卡交易数据集分类效果。
图7显示为本发明的基于欠采样的信用卡欺诈检测系统模块示意图。
元件标号说明
1 样本模块
2 第一训练模块
3 第二训练模块
4 采样模块
5 分类模块
S1~S5 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1,本发明提供一种基于欠采样的信用卡欺诈检测方法,该信用卡欺诈检测方法主要由以下步骤实现:
步骤S1,使用高斯混合模型拟合数据集中训练集的多数类样本,其中,使用贝叶斯信息标准优化模型参数。其中,该训练集隶属于一数据集,该数据集为具有高度类别不均衡比(IR)的数据集,在本实施例中,将数据集根据原始不均衡比划分为训练集和测试集,其中训练集占总样本的80%和剩下20%样本作为测试集,其中将正常交易样本为多数类样本,欺诈样本为少数类样本。高斯混合模型对数据的高拟合能力和快速的训练速度为该本发明提供了模型基础。
进一步地,所述步骤S1具体包括:
步骤S100,使用高斯混合模型拟合训练集的多数类样本,用EM算法(最大期望算法,Expectation Maximization Algorithm)进行迭代优化求解。
步骤S110,估计高斯混合模型中每个成分生成数据的概率值γ,对于第i个样本xi来说,它由第k个高斯模型生成的概率值γ,采用公式(1)计算获得:
Figure BDA0001949527840000041
其中,μ为均值向量;
Σ为协防差矩阵;
k为高斯模型的个数;
πk为第k个高斯模型的权重。
在设置欠采样技术的具体算法时,协方差矩阵类型包括:spherical(球面协方差矩阵,每个分量分布有各自不同的简单方差矩阵),diagonal(对角协方差矩阵,每个分量分布有各自不同对角协方差矩阵),tied(相同的完全协方差矩阵,所有分量分布有相同的标准协方差矩阵),和full(完全协方差矩阵,每个分量分布有各自不同的标准协方差矩阵)。
步骤S120,估计每个混合成分的参数μk和Σk,具体采用公式(2)和公式(3)计算获得:
Figure BDA0001949527840000051
Figure BDA0001949527840000052
其中,μ为均值向量;
k为高斯模型的个数。
步骤S130,重复步骤S101和步骤S102直至最大化对数似然函数的值收敛。
在执行步骤S120的同时,使用贝叶斯信息标准(BIC)确定高斯混合模型的重要参数,在本实施例中其重要参数为混合成分数量和协方差矩阵类型,采用公式(4)获得:
BIC=kln(n)-2ln(L) (4)
其中,n为样本数量;
k为高斯模型的个数;
L为似然函数。
贝叶斯信息标准(BIC)在模型复杂性和描述数据的能力之间寻求最佳平衡,与对数据的拟合程度成反比。BIC值越低,其高斯混合模型越适合数据,因此选择具有最低BIC值的模型参数作为高斯混合模型的最佳参数,即最佳的混合成分数量和协方差矩阵类型。
步骤S2,使用拟合好的高斯混合模型预测训练集内少数类样本的概率密度值并选择该概率密度值中最大值作为两类样本的交叉边缘。由于高斯混合分布存在大部分数据集中分布在概率最大值附近的特点,少数类样本的最大值可以更好地代表少数类样本的集中分布。
步骤S3,以该交叉边缘为中心,从交叉边缘向上和向下延伸设置采样上界和下界,以此进行欠采样获取欠采样数据集,将欠采样数据集与少数类样本集合并成均衡训练集。保证了采样样本的有效性同时过滤掉大多数冗余样本,提升了分类性能。
在本实施例中,欠采样过程中,结合数据集的不均衡程度设置欠采样上界和欠采样下界,在边界中间区域进行欠采样,从交叉边缘以上和以下各采样欠采样数量一半的样本,其中,欠采样数量为多数类样本总数量与欠采样比率的乘积,该欠采样比率确保了类别分布更加平衡。欠采样比率(pro)可根据公式(5)计算获得,IR是数据集的不均衡比即多数类样本和少数类样本数量的比值。
Figure BDA0001949527840000061
在实际运用过程中,不同的数据集的特征空间不同,因此在分布拟合高斯混合模型的最大似然函数不尽相同,从而最终获取的均衡训练集也不同。
步骤S4,依据均衡训练集训练机器学习分类器,同时采用测试集测试该机器学习分类器的分类性能。
步骤5,使用机器学习分类器检测信用卡交易数据集。
采用16个公开数据集和一个真实的信用卡交易数据集对本实施例中建立的高斯混合模型进行实验验证,其公开数据集的基本信息如图2,实验数据来源于KEEL公开数据集网站上提供的各方向研究数据,其中根据数据不均衡比高低分类,本实施例从中选取了16个数据集测试提出的训练后机器学习分类器分类性能,例如其中的haberman数据集,该数据集包含1958年至1970年间在芝加哥大学比林斯医院进行的一项研究案例,该研究涉及接受过乳腺癌手术的患者的生存情况,另外真实的信用卡交易数据集来源于某银行的信用卡交易数据,其中包括2,258,036条交易记录。每条数据代表一个用户的一条信用卡交易数据,从原始数据进行数据预处理,得到交易用户,交易ID,交易时间,交易金额,交易IP地址,MAC地址,验签方式等信息。
在验证过程中,将高斯混合欠采样与四种主流欠采样(RUS,Cluster Centroids,Tomeklinks,ENN)进行了对比。分类器选择了在不均衡领域表现良好的C4.5单分类器和基于C4.5的Bagging集成学习器。
验证中所使用的实验环境配置包括:
硬件:CPU:72核Intel(R)Xeon(R)CPU E5-2697v4@2.30GHz
内存:128G;
软件:操作系统:Ubuntu 16.04
Python:python-3.6;
对于类别不均衡领域的模型评价指标,将首先根据分类算法的结果,计算得到其混淆矩阵,如表1所示。
表1:二分类任务的混淆矩阵
Figure BDA0001949527840000071
然后依据表1,计算得到召回率(Recall)、精确率(Precision)以及两者的加权平均值(F1),分别通过下列公式(6)~(8)召回率(Recall)计算获得。
Figure BDA0001949527840000072
Figure BDA0001949527840000073
Figure BDA0001949527840000074
另外本发明的检测技术也选取AUC值作为另一个重要评价指标,在公开数据集上对AUC实验结果如图3所示,从图3上可知高斯混合欠采样在大多数数据集上都有更好的表现,对AUC值,在haberman和glass1数据集增加了9.36%和5.58%。当将高斯混合欠采样与不经过数据预处理在AUC上进行比较时,每个数据集的性能都得到了显着提升。例如,在数据集flare-F上观察到27.48%的增强。同时,本发明检测技术在haberman数据集上验证了11个不同分类器的实验效果,如图4所示。
另外,本发明的检测技术在真实的信用卡交易数据集上也进行了实验,该数据集基本信息如图5所示。数据集中的每个样本代表一张真实的脱敏后的信用卡交易记录。避免交易行为的时序混淆问题。将前面月份的数据作为训练集,将后面月的数据作为测试集,该数据集包含2,258,036个样本,具有42个特征,不平衡比率高达43.83。实验运行时间约40分钟,结果如图6所示,高斯混合欠采样的结果更好,比ENN增加1.66%。这证明了本发明的检测技术可以应用于信用卡欺诈检测领域,提高欺诈样本的识别率。
请参阅图7,显示为发明的一种基于欠采样的信用卡欺诈检测系统模块示意图,如图7所示,一种基于欠采样的信用卡欺诈检测系统包括:样本模块1,用于抽取训练集的多数类样本或少数类样本、测试集、或信用卡交易数据集;第一训练模块2,用于使用高斯混合模型拟合训练集的多数类样本;第二训练模块3,用于使用所述第一训练模块2中拟合完成的高斯混合模型预测训练集内少数类样本的概率密度值,并选择该概率密度值中最大值作为两类样本的交叉边缘;采样模块4,用于以该交叉边缘为中心,从交叉边缘向上和向下延伸设置采样上界和下界,以此进行欠采样获取欠采样数据集,将欠采样数据集与少数类样本集合并成均衡训练集;分类模块5,用于依据均衡训练集训练机器学习分类器,并使用以训练后的机器学习分类器检测信用卡交易数据集。
进一步地,所述训练样本模块1还包括计算模块,该计算模块用于使用高斯混合模型拟合训练集的多数类样本,通过最大期望算法进行迭代优化求解,并估计高斯混合模型中每个成分生成数据的概率值和每个混合成分的参数,直至最大化对数似然函数的值收敛。所述训练样本模块1还包括标准调用模块,用于存放贝叶斯信息标准,使用贝叶斯信息标准确定该所述的估计高斯混合模型中每个混合成分的参数。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述基于欠采样的信用卡欺诈检测方法的步骤。,本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本发明还提供了一种基于欠采样的信用卡欺诈检测设备,包括:处理器及存储器;所述存储器存储有计算机程序,所述处理器用于运行所述存储器存储的计算机程序,以实现所述基于欠采样的信用卡欺诈检测方法中的步骤。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件
综上所述,本发明提供的基于欠采样的信用卡欺诈检测方法及系统、介质、设备具有以下有益效果:从抓取有用信息的角度来实现数据预处理,弥补传统的数据不均衡处理技术的缺陷。运用高斯混合模型抓取两类样本分布交叉边缘的样本,这些样本为分类器对两类样本的识别提供了更多的有用信息,同时过滤掉多数类样本的大量冗余样本达到训练集样本类别均衡分布,并运用于信用卡欺诈检测领域提高了分类器的识别准确率。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种基于欠采样的信用卡欺诈检测方法,其特征在于,所述检测方法包括以下步骤:
使用高斯混合模型拟合数据集中训练集的多数类样本;
使用拟合好的高斯混合模型预测训练集内少数类样本的概率密度值,并选择该概率密度值中最大值作为两类样本的交叉边缘;
以该交叉边缘为中心,从交叉边缘向上和向下延伸设置采样上界和下界,以此进行欠采样获取欠采样数据集,将欠采样数据集与少数类样本集合并成均衡训练集;
依据均衡训练集训练机器学习分类器;
使用训练完成的机器学习分类器检测信用卡交易数据集。
2.根据权利要求1所述的基于欠采样的信用卡欺诈检测方法,其特征在于:所述使用高斯混合模型拟合数据集中训练集的多数类样本具体包括:
使用高斯混合模型拟合训练集的多数类样本,采用最大期望算法进行迭代优化求解;
估计高斯混合模型中每个成分生成数据的概率值和每个混合成分的参数,直至最大化对数似然函数的值收敛。
3.根据权利要求2所述的基于欠采样的信用卡欺诈检测方法,其特征在于:所述的估计高斯混合模型中每个混合成分的参数使用贝叶斯信息标准确定。
4.根据权利要求2所述的基于欠采样的信用卡欺诈检测方法,其特征在于:所述的概率值由以下公式计算获得:
Figure FDA0001949527830000011
其中,μ为均值向量;
Σ为协防差矩阵;
k为高斯模型的个数;
πk为第k个高斯模型的权重。
5.根据权利要求4所述的基于欠采样的信用卡欺诈检测方法,其特征在于:所述协方差矩阵的类型包括球面协方差矩阵、对角协方差矩阵、相同的完全协方差矩阵和完全协方差矩阵。
6.一种基于欠采样的信用卡欺诈检测系统,其特征在于,所述信用卡欺诈检测系统包括:
样本模块,用于抽取训练集的多数类样本或少数类样本、测试集、或信用卡交易数据集;
第一训练模块,用于使用高斯混合模型拟合训练集的多数类样本;
第二训练模块,用于使用所述第一训练模块中拟合完成的高斯混合模型预测训练集内少数类样本的概率密度值,并选择该概率密度值中最大值作为两类样本的交叉边缘;
采样模块,用于以该交叉边缘为中心,从交叉边缘向上和向下延伸设置采样上界和下界,以此进行欠采样获取欠采样数据集,将欠采样数据集与少数类样本集合并成均衡训练集;
分类模块,用于依据均衡训练集训练机器学习分类器,并使用以训练后的机器学习分类器检测信用卡交易数据集。
7.根据权利要求6所述的基于欠采样的信用卡欺诈检测系统,其特征在于:所述训练样本模块还包括计算模块,该计算模块用于使用高斯混合模型拟合训练集的多数类样本,通过最大期望算法进行迭代优化求解,并估计高斯混合模型中每个成分生成数据的概率值和每个混合成分的参数,直至最大化对数似然函数的值收敛。
8.根据权利要求7所述的基于欠采样的信用卡欺诈检测系统,其特征在于:所述训练样本模块还包括标准调用模块,用于存放贝叶斯信息标准,使用贝叶斯信息标准确定该所述的估计高斯混合模型中每个混合成分的参数。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至5所述基于欠采样的信用卡欺诈检测方法的步骤。
10.一种基于欠采样的信用卡欺诈检测设备,其特征在于,包括:处理器及存储器;
所述存储器存储有计算机程序,所述处理器用于运行所述存储器存储的计算机程序,以实现如1~5任一项所述基于欠采样的信用卡欺诈检测方法中的步骤。
CN201910046954.9A 2019-01-18 2019-01-18 基于欠采样的信用卡欺诈检测方法及系统、介质、设备 Active CN111461855B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910046954.9A CN111461855B (zh) 2019-01-18 2019-01-18 基于欠采样的信用卡欺诈检测方法及系统、介质、设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910046954.9A CN111461855B (zh) 2019-01-18 2019-01-18 基于欠采样的信用卡欺诈检测方法及系统、介质、设备

Publications (2)

Publication Number Publication Date
CN111461855A true CN111461855A (zh) 2020-07-28
CN111461855B CN111461855B (zh) 2023-07-28

Family

ID=71679750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910046954.9A Active CN111461855B (zh) 2019-01-18 2019-01-18 基于欠采样的信用卡欺诈检测方法及系统、介质、设备

Country Status (1)

Country Link
CN (1) CN111461855B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171271A (zh) * 2018-01-11 2018-06-15 湖南大唐先科技有限公司 一种设备劣化早期预警方法和系统
CN112272147A (zh) * 2020-10-23 2021-01-26 中国科学院信息工程研究所 一种基于代价敏感和梯度提升算法的不均衡网络流量分类方法和装置
CN112541536A (zh) * 2020-12-09 2021-03-23 长沙理工大学 用于信用评分的欠采样分类集成方法、设备及存储介质
CN112738034A (zh) * 2020-12-17 2021-04-30 杭州趣链科技有限公司 一种基于垂直联邦学习的区块链钓鱼节点检测方法
CN113435997A (zh) * 2021-06-08 2021-09-24 成都熵焓科技有限公司 基于深度学习的高斯混合模型银行交易数据模拟生成算法
CN113469251A (zh) * 2021-07-02 2021-10-01 南京邮电大学 不平衡数据的分类方法
CN115048988A (zh) * 2022-05-25 2022-09-13 河海大学 基于高斯混合模型的不平衡数据集分类融合方法
CN115618238A (zh) * 2022-12-14 2023-01-17 湖南工商大学 基于参数偏移修正集成学习的信用卡欺诈检测方法
CN116188834A (zh) * 2022-12-08 2023-05-30 赛维森(广州)医疗科技服务有限公司 基于自适应训练模型的全切片图像分类方法及装置
CN117195061A (zh) * 2023-11-07 2023-12-08 腾讯科技(深圳)有限公司 事件响应预测模型处理方法、装置和计算机设备
CN117934139A (zh) * 2024-01-29 2024-04-26 中国人民警察大学(公安部国际执法合作学院、中国维和警察培训中心) 基于Stacking融合算法的银行卡诈骗预测方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298646A (zh) * 2011-09-21 2011-12-28 苏州大学 一种主观文本和客观文本分类方法及装置
CN104766098A (zh) * 2015-04-30 2015-07-08 哈尔滨工业大学 一种分类器的构建方法
CN105474166A (zh) * 2013-03-15 2016-04-06 先进元素科技公司 用于有目的计算的方法和系统
CN105913091A (zh) * 2016-04-19 2016-08-31 华东理工大学 基于类心间距的模糊带负类样本的支持向量数据描述方法
CN105975993A (zh) * 2016-05-18 2016-09-28 天津大学 一种基于边界升采样的不平衡数据分类方法
US20160342903A1 (en) * 2015-05-21 2016-11-24 Software Ag Usa, Inc. Systems and/or methods for dynamic anomaly detection in machine sensor data
CN107784312A (zh) * 2016-08-24 2018-03-09 腾讯征信有限公司 机器学习模型训练方法及装置
CN108038701A (zh) * 2018-03-20 2018-05-15 杭州恩牛网络技术有限公司 一种集成学习反欺诈测试方法及系统
US20180144352A1 (en) * 2016-03-08 2018-05-24 Arizona Board Of Regents On Behalf Of The University Of Arizona Predicting student retention using smartcard transactions
CN108091397A (zh) * 2018-01-24 2018-05-29 浙江大学 一种基于提升-重采样和特征关联分析的缺血性心脏病患者的出血事件预测方法
CN108388913A (zh) * 2018-02-04 2018-08-10 信阳师范学院 一种基于约束投影的多决策树信用卡欺诈检测方法及系统
CN108492173A (zh) * 2018-03-23 2018-09-04 上海氪信信息技术有限公司 一种基于双模网络图挖掘算法的信用卡反欺诈预测方法
CN108596199A (zh) * 2017-12-29 2018-09-28 北京交通大学 基于EasyEnsemble算法和SMOTE算法的不均衡数据分类方法
CN109033976A (zh) * 2018-06-27 2018-12-18 北京中科天合科技有限公司 过采样处理方法和系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298646A (zh) * 2011-09-21 2011-12-28 苏州大学 一种主观文本和客观文本分类方法及装置
CN105474166A (zh) * 2013-03-15 2016-04-06 先进元素科技公司 用于有目的计算的方法和系统
CN104766098A (zh) * 2015-04-30 2015-07-08 哈尔滨工业大学 一种分类器的构建方法
US20160342903A1 (en) * 2015-05-21 2016-11-24 Software Ag Usa, Inc. Systems and/or methods for dynamic anomaly detection in machine sensor data
US20180144352A1 (en) * 2016-03-08 2018-05-24 Arizona Board Of Regents On Behalf Of The University Of Arizona Predicting student retention using smartcard transactions
CN105913091A (zh) * 2016-04-19 2016-08-31 华东理工大学 基于类心间距的模糊带负类样本的支持向量数据描述方法
CN105975993A (zh) * 2016-05-18 2016-09-28 天津大学 一种基于边界升采样的不平衡数据分类方法
CN107784312A (zh) * 2016-08-24 2018-03-09 腾讯征信有限公司 机器学习模型训练方法及装置
CN108596199A (zh) * 2017-12-29 2018-09-28 北京交通大学 基于EasyEnsemble算法和SMOTE算法的不均衡数据分类方法
CN108091397A (zh) * 2018-01-24 2018-05-29 浙江大学 一种基于提升-重采样和特征关联分析的缺血性心脏病患者的出血事件预测方法
CN108388913A (zh) * 2018-02-04 2018-08-10 信阳师范学院 一种基于约束投影的多决策树信用卡欺诈检测方法及系统
CN108038701A (zh) * 2018-03-20 2018-05-15 杭州恩牛网络技术有限公司 一种集成学习反欺诈测试方法及系统
CN108492173A (zh) * 2018-03-23 2018-09-04 上海氪信信息技术有限公司 一种基于双模网络图挖掘算法的信用卡反欺诈预测方法
CN109033976A (zh) * 2018-06-27 2018-12-18 北京中科天合科技有限公司 过采样处理方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JON ANDER GÓMEZ: "End-to-end neural network architecture for fraud scoring in card payments", 《PATTERN RECOGNITION LETTERS》, pages 175 - 181 *
王一明: "不均衡数据情况下信用卡欺诈识别", 《通讯世界》, pages 219 - 220 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171271A (zh) * 2018-01-11 2018-06-15 湖南大唐先科技有限公司 一种设备劣化早期预警方法和系统
CN108171271B (zh) * 2018-01-11 2022-04-29 湖南大唐先一科技有限公司 一种设备劣化早期预警方法和系统
CN112272147A (zh) * 2020-10-23 2021-01-26 中国科学院信息工程研究所 一种基于代价敏感和梯度提升算法的不均衡网络流量分类方法和装置
CN112541536A (zh) * 2020-12-09 2021-03-23 长沙理工大学 用于信用评分的欠采样分类集成方法、设备及存储介质
CN112738034A (zh) * 2020-12-17 2021-04-30 杭州趣链科技有限公司 一种基于垂直联邦学习的区块链钓鱼节点检测方法
CN112738034B (zh) * 2020-12-17 2022-04-29 杭州趣链科技有限公司 一种基于垂直联邦学习的区块链钓鱼节点检测方法
CN113435997A (zh) * 2021-06-08 2021-09-24 成都熵焓科技有限公司 基于深度学习的高斯混合模型银行交易数据模拟生成算法
CN113469251A (zh) * 2021-07-02 2021-10-01 南京邮电大学 不平衡数据的分类方法
CN115048988A (zh) * 2022-05-25 2022-09-13 河海大学 基于高斯混合模型的不平衡数据集分类融合方法
CN115048988B (zh) * 2022-05-25 2024-06-18 河海大学 基于高斯混合模型的不平衡数据集分类融合方法
CN116188834A (zh) * 2022-12-08 2023-05-30 赛维森(广州)医疗科技服务有限公司 基于自适应训练模型的全切片图像分类方法及装置
CN116188834B (zh) * 2022-12-08 2023-10-20 赛维森(广州)医疗科技服务有限公司 基于自适应训练模型的全切片图像分类方法及装置
CN115618238A (zh) * 2022-12-14 2023-01-17 湖南工商大学 基于参数偏移修正集成学习的信用卡欺诈检测方法
CN117195061A (zh) * 2023-11-07 2023-12-08 腾讯科技(深圳)有限公司 事件响应预测模型处理方法、装置和计算机设备
CN117195061B (zh) * 2023-11-07 2024-03-29 腾讯科技(深圳)有限公司 事件响应预测模型处理方法、装置和计算机设备
CN117934139A (zh) * 2024-01-29 2024-04-26 中国人民警察大学(公安部国际执法合作学院、中国维和警察培训中心) 基于Stacking融合算法的银行卡诈骗预测方法

Also Published As

Publication number Publication date
CN111461855B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN111461855A (zh) 基于欠采样的信用卡欺诈检测方法及系统、介质、设备
CN109615020A (zh) 基于机器学习模型的特征分析方法、装置、设备及介质
WO2020215571A1 (zh) 一种识别敏感数据的方法、装置、存储介质及计算机设备
CN108229298A (zh) 神经网络的训练和人脸识别方法及装置、设备、存储介质
WO2019179403A1 (zh) 基于序列宽深学习的欺诈交易检测方法
CN108229580A (zh) 一种基于注意力机制及特征融合的眼底图中糖网特征分级装置
CN111539733B (zh) 基于全中心损失函数的欺诈交易识别方法、系统、装置
CN106503873A (zh) 一种预测用户守约概率的方法、装置和计算设备
CN106651373A (zh) 一种混合欺诈交易检测分类器建立方法及装置
CN105975993A (zh) 一种基于边界升采样的不平衡数据分类方法
CN110533116A (zh) 基于欧式距离的自适应集成的不平衡数据分类方法
CN110930218B (zh) 一种识别欺诈客户的方法、装置及电子设备
CN112633337A (zh) 一种基于聚类和边界点的不平衡数据处理方法
CN106992965A (zh) 一种基于网络行为的木马检测方法
CN110335144B (zh) 个人电子银行账户安全检测方法及装置
CN108564238A (zh) 数据评估方法和装置、服务器、存储介质
CN110930038A (zh) 一种贷款需求识别方法、装置、终端及存储介质
CN109871901A (zh) 一种基于混合采样和机器学习的不平衡数据分类方法
CN110503566A (zh) 风控模型建立方法、装置、计算机设备及存储介质
CN110245714A (zh) 图像识别方法、装置及电子设备
CN110490582A (zh) 一种信用卡交易异常检测方法及装置
CN110084609A (zh) 一种基于表征学习的交易欺诈行为深度检测方法
CN113191359A (zh) 基于支持与查询样本的小样本目标检测方法与系统
CN109614982A (zh) 产品分析方法、装置、计算机设备以及存储介质
CN111753299A (zh) 一种基于分组集成的不平衡恶意软件检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant