CN114463014A - 基于SVM-Xgboost的移动支付风险预警方法 - Google Patents

基于SVM-Xgboost的移动支付风险预警方法 Download PDF

Info

Publication number
CN114463014A
CN114463014A CN202210168007.9A CN202210168007A CN114463014A CN 114463014 A CN114463014 A CN 114463014A CN 202210168007 A CN202210168007 A CN 202210168007A CN 114463014 A CN114463014 A CN 114463014A
Authority
CN
China
Prior art keywords
model
svm
xgboost
function
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210168007.9A
Other languages
English (en)
Other versions
CN114463014B (zh
Inventor
李培峦
李沛谕
张雨祺
高蓉
栗莹
李保安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Science and Technology
Original Assignee
Henan University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Science and Technology filed Critical Henan University of Science and Technology
Priority to CN202210168007.9A priority Critical patent/CN114463014B/zh
Publication of CN114463014A publication Critical patent/CN114463014A/zh
Application granted granted Critical
Publication of CN114463014B publication Critical patent/CN114463014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/389Keeping log of transactions for guaranteeing non-repudiation of a transaction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Computer Security & Cryptography (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于SVM‑Xgboost的移动支付风险预警方法,该模型使用贝叶斯优化分别对SVM和Xgboost的参数组合进行寻优,再将优化好的两模型使用堆叠法进行组合,SVM‑Xgboost模型可用于移动支付领域交易风险的侦测,在性能提升提升的同时,能够准确地对移动支付交易记录进行风险侦测,可以根据交易类型、交易金额、交易前本金、交易后本金等变量来推测出该笔交易是否存在风险,对用户进行风险预警,提高用户警惕性,以减少移动支付风险给用户带来的经济损失。

Description

基于SVM-Xgboost的移动支付风险预警方法
技术领域
本发明涉及移动支付技术领域,具体涉及基于SVM-Xgboost的移动支付风险预警方法。
背景技术
近年来,随着智能手机的推广与普及,移动支付行业迅猛发展。作为互联网信息技术所衍生的新兴产物,移动支付具有高效、快捷、便携、便利等优势,已成为人们生活中不可或缺的一部分,一方面它给人们的生活带来了便捷,另一方面,这个行业的高速发展也推动着社会经济和其他行业的进步。但同时,移动支付的发展过程中也产生了政策和法律风险、资金安全风险等诸多问题,这些问题均可能对用户产生资金损失,受到社会的广泛关注,因此,寻找一种能够对移动支付交易记录进行风险侦测的方法至关重要。
对于移动支付风险研究多是从移动支付本身存在的风险因素进行的研究分析,而对于移动支付交易记录存在的风险侦测相关研究较少。Xgboost算法属于Boosting集成,是由陈天奇设计的基于传统梯度提升算法的改进,具有防止过拟合效果好,运算速度快、效率高等优势,近年来运用广泛发展良好,不少学者对其进行了改进,大部分对于Xgboost算法的改进是使用不同的优化算法对其寻参调整的改进,且仍存在一定的不足,如在利用遗传算法和随机森林对Xgboost 算法改进时,使用遗传算法对两模型权重进行优化的过程中,以均方误差为目标函数,未兼顾到其他评价指标,使用代价敏感激活函数对Xgboost进行改进用于处理不平衡数据分类方法时,对误分类代价的设置过程进行了简化,但导致了模型性能的下降。
发明内容
有鉴于此,本发明提供一种基于SVM-Xgboost的移动支付风险预警方法,该SVM-Xgboost模型用于移动支付交易记录风险侦测,使用贝叶斯优化分别对SVM和Xgboost的参数组合进行寻优,再将优化好的两模型使用堆叠法进行组合,在性能提升提升的同时,能够准确地对移动支付交易记录进行风险侦测。
为了达到上述目的,本发明所采用的技术方案是:基于 SVM-Xgboost的移动支付风险预警方法,包括以下步骤:
S1、建立SVM模型;
S2、随机选择一组参数,将训练数据集带入该模型进行训练,并使用贝叶斯优化算法进行参数调整,得到基于贝叶斯优化的SVM模型;
S3、建立Xgboost模型;
S4、随机选择一组参数,将训练数据集及代入该模型进行训练,并使用贝叶斯优化算法进行参数调整,得到基于贝叶斯优化的 Xgboost模型;
S5、采用堆叠法将两模型进行融合,建立基于SVM-Xgboost组合模型,将训练数据集代入模型进行训练后,代入测试数据集,得到最终预测结果;
S51、将优化后的SVM模型和Xgboost模型在训练数据集上所产生的结果作为新的训练集,使用逻辑回归模型对其进行训练,将上述两模型的答案作为特征输入,通过逻辑回归给上述两个模型的答案分配权重;
S52、将测试数据集导入上述两个模型,分别得到预测类别概率值,作为新的测试集;
S53、使用步骤S51训练好的逻辑回归模型,将步骤S52得到的特征值代入该逻辑回归模型,进行预测,得出最终测试集上的预测类别或概率;
S6、将测试数据集代入建立好的基于贝叶斯优化的SVM-Xgboost 模型中,进行检验。
进一步的,所述步骤S1包括以下步骤:
S11、将数据集分为训练数据集和测试数据集;
S12、训练数据样本为(xi,yi),共m个样本,其中xi为第i个样本的属性集,yi为类别标号,设存在一个超平面可将样本分开,该平面可表示为:w·x+b=0,w和b为模型参数,使用特征空间的φ(x)代替 x,则可表示为w·φ(x)+b=0;
S13、使训练样本和该平面距离最大化,应满足: yi(w·φ(xi)+b)-1≥0,而最大边缘化决策边界应使目标函数
Figure BDA0003517348130000031
最小化,引入拉格朗日乘子λi将最优超平面求解问题转化为其对偶优化问题求解,使用径向基核函数来代替内积:
Figure BDA0003517348130000032
其中,σ表示径向基宽度参数;
其对偶优化问题为:
Figure BDA0003517348130000041
Figure 2
S14、对该对偶优化问题求解,得最优超平面的w和b,即可得到支持向量机决策函数为:f(x)=w·φ(x)+b。
进一步的,所述步骤S2包括以下步骤:
S21、选择树结构概率密度估计(TPE)作为概率代理模型进行贝叶斯优化:
Figure BDA0003517348130000043
p(c|q)即模型损失函数为q的时候超参数为c的条件概率,即后验概率;
首先,我们根据已有的数据选取一个损失函数的阈值c*,然后,对大于阈值和小于阈值的数据,分别学习两个概率密度估计t(c)和 u(c);
S22、选择预期改进(EI)作为采样函数进行概率密度估计,并计算先验数据集中每个超参数的后验分布:
Figure BDA0003517348130000044
其中,q*=min{(c1,f(c1)),...,(ci,f(ci))},P(c)为c的先验概率,P (q|c)为c的似然概率;
S23、构造α=p(q<q*)和p(c)=∫Rp(c∣q)p(q)dq=αt(c)+(1-α)u(c),
对最大化采集函数EI进行化简,得:
Figure BDA0003517348130000051
最大化采集函数(EI),则u(c)/t(c)最小时,得到一个新的超参数值c**,将该值重新代入SVM模型中,再次拟合t(c)和u(c),再次选出最大EI值对应的超参数值,直到迭代结束,最终选择迭代中 SVM准确率最高的参数组合;
S24、将寻找到的最优参数组合记录下来,代入SVM模型中,可得到基于贝叶斯优化的SVM模型。
进一步的,所述步骤S3包括以下步骤:
S31、确定Xgboost模型迭代训练的目标函数为:
Figure BDA0003517348130000052
其中,
Figure BDA0003517348130000053
为模型损失函数,
Figure BDA0003517348130000054
为正则项,用于控制总模型复杂度,这里重新定义函数fk(x)表示每次迭代时新加入的第k 棵决策树所表示的函数;
由于处理数据为分类数据,选取交叉熵损失为:
Figure BDA0003517348130000055
其中,yi为第i条数据实际类别标签,
Figure BDA0003517348130000056
为第i条数据预测类别标签,m为数据数量;
第k棵树的模型复杂度:
Figure BDA0003517348130000057
其中,T为所建决策树的叶子数量,ω为所建决策树第j个叶子节点上的预测分数,也称作叶子权重,并对参数取值γ、λ为惩罚系数,人为定义,默认γ=0、λ=1;
S32、训练模型,每一次迭代,就在目标函数中加入一个新函数;
第t轮,则加入新函数ft(xi),使得目标函数降低最多,故第t 轮的目标函数为:
Figure BDA0003517348130000061
对第t轮目标函数进行化简,用泰勒公式展开取前三项并进行化简,最终化简结果为:
Figure BDA0003517348130000062
其中,
Figure BDA0003517348130000063
Ij表示落在第j个叶子节点的所有样本的集合,二者分别为t-1次迭代时,第j个叶子节点上所有样本的一阶导数之和和二阶导数之和,其中,
Figure BDA0003517348130000064
Figure BDA0003517348130000065
Figure BDA0003517348130000066
求一阶偏导,
Figure BDA0003517348130000067
Figure BDA0003517348130000068
Figure BDA0003517348130000069
求二阶偏导。
S33、求目标函数最小值,即对目标函数求偏导使其等于0,求出ωj表达式,并将其代入目标函数中,得目标函数表达式为:
Figure BDA00035173481300000610
根据表达式直接探索到最优树结构,即能够使目标函数降低最多的函数ft(xi),并可求出最小值;
S34、求得最终样本数据的预测值,即每次迭代所得预测结果之和:
Figure BDA0003517348130000071
由于采用逻辑回归的损失函数,故最终预测结果表示分类概率,为[0,1]之间的任意一个数。
进一步的,还包括:采用随机欠采样的方式对数据进行采样预处理。
进一步的,所述数据集70%作为训练集,30%作为测试集。
进一步的,所述步骤S23设置迭代次数为100次,
进一步的,所述步骤S6中检验指标为:
Figure BDA0003517348130000072
Figure BDA0003517348130000073
ROC曲线及AUC值;
其中,TP为实际为正样本且预测为正样本的样本数;TN为实际为负样本且预测为负样本的样本数;FP为实际为正样本但预测为负样本的样本数;FN为实际为负样本但预测为正样本的样本数;AUC值为ROC曲线与X轴和Y轴在右下方围成的面积。
与现有技术相比,本发明的有益效果是:
本发明中建立移动支付风险侦测模型,对移动支付交易记录是否存在风险进行分类,可以对移动支付交易记录进行风险的识别,对用户进行风险预警,提高用户警惕性,以减少移动支付风险给用户带来的经济损失;
本发明所使用的贝叶斯优化相较于传统的网格搜索和随机搜索效率更高,且具有不容易陷入局部最优的特点;Xgboost算法相较于传统的GBDT算法运行效率更高,且泛化能力更强,且具有良好的防止过拟合效果;支持向量机是基于统计学习理论的通用算法,使用核技术,使其处理非线性问题功能强大,其算法结构简单,易于操作,三者进行结合,建立基于贝叶斯优化的SVM-Xgboost能够使三者的优势进行融合,得到更好的移动支付风险侦测模型,可以进一步改善预测效果;
本发明中进一步提高了该分类任务的预测精准度,性能均有所提升,进行改进后的SVM-Xgboost组合模型与原始单个模型相比,在准确率、召回率、AUC值上分别都有所提升,该模型预测结果准确率为0.973,预测结果较好,是一种有效的移动支付风险侦测模型。
附图说明
图1是本发明基于SVM-Xgboost的移动支付风险预警方法的流程示意图;
图2是实施例中SVM-Xgboost模型的ROC曲线。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
具体实施方式:
实施例1:
基于SVM-Xgboost的移动支付风险预警方法,其特征在于,包括以下步骤:
S1、建立SVM模型,采用随机欠采样的方式对数据进行采样预处理;
S11、将数据集分为训练数据集和测试数据集;
S12、训练数据样本为(xi,yi),共m个样本,其中xi为第i个样本的属性集,yi为类别标号,设存在一个超平面可将样本分开,该平面可表示为:w·x+b=0,w和b为模型参数,使用特征空间的φ(x)代替 x,则可表示为w·φ(x)+b=0;
S13、使训练样本和该平面距离最大化,应满足: yi(w·φ(xi)+b)-1≥0,而最大边缘化决策边界应使目标函数
Figure BDA0003517348130000091
最小化,引入拉格朗日乘子λi将最优超平面求解问题转化为其对偶优化问题求解,使用径向基核函数来代替内积:
Figure BDA0003517348130000092
其中,σ表示径向基宽度参数;
其对偶优化问题为:
Figure BDA0003517348130000093
Figure 3
S14、对该对偶优化问题求解,得最优超平面的w和b,即可得到支持向量机决策函数为:f(x)=w·φ(x)+b。
S2、随机选择一组参数,将训练数据集带入该模型进行训练,并使用贝叶斯优化算法进行参数调整,得到基于贝叶斯优化的SVM模型;
S21、选择树结构概率密度估计(TPE)作为概率代理模型进行贝叶斯优化:
Figure BDA0003517348130000101
p(c|q)即模型损失函数为q的时候超参数为c的条件概率,即后验概率;
首先,我们根据已有的数据选取一个损失函数的阈值c*,然后,对大于阈值和小于阈值的数据,分别学习两个概率密度估计t(c)和 u(c);
S22、选择预期改进(EI)作为采样函数进行概率密度估计,并计算先验数据集中每个超参数的后验分布:
Figure BDA0003517348130000102
其中,q*=min{(c1,f(c1)),...,(ci,f(ci))},P(c)为c的先验概率,P (q|c)为c的似然概率;
S23、构造α=p(q<q*)和p(c)=∫Rp(c∣q)p(q)dq=αt(c)+(1-α)u(c),
对最大化采集函数EI进行化简,得:
Figure BDA0003517348130000103
最大化采集函数(EI),则u(c)/t(c)最小时,得到一个新的超参数值c**,将该值重新代入SVM模型中,再次拟合t(c)和u(c),再次选出最大EI值对应的超参数值,直到迭代结束,最终选择迭代中 SVM准确率最高的参数组合,设置迭代次数为100次;
S24、将寻找到的最优参数组合记录下来,代入SVM模型中,可得到基于贝叶斯优化的SVM模型。
S3、建立Xgboost模型;
S31、确定Xgboost模型迭代训练的目标函数为:
Figure BDA0003517348130000111
由于处理数据为分类数据,选取交叉熵损失为:
Figure BDA0003517348130000112
第k棵树的模型复杂度:
Figure BDA0003517348130000113
其中,
Figure BDA0003517348130000114
为模型损失函数,
Figure BDA0003517348130000115
为正则项,用于控制总模型复杂度;yi为第i条数据实际类别标签,
Figure BDA0003517348130000116
为第i条数据预测类别标签,m为数据数量;T为所建决策树的叶子数量,ω为所建决策树第j个叶子节点上的预测分数,也称作叶子权重,并对参数取值γ、λ为惩罚系数,人为定义,默认γ=0、λ=1;
S32、训练模型,每一次迭代,就在目标函数中加入一个新函数;
第t轮,则加入新函数ft(xi),使得目标函数降低最多,故第t 轮的目标函数为:
Figure BDA0003517348130000117
对第t轮目标函数进行化简,用泰勒公式展开取前三项并进行化简,最终化简结果为:
Figure BDA0003517348130000118
其中,
Figure BDA0003517348130000121
Ij表示落在第j个叶子节点的所有样本的集合,二者分别为t-1次迭代时,第j个叶子节点上所有样本的一阶导数之和和二阶导数之和,其中,
Figure BDA0003517348130000122
Figure BDA0003517348130000123
Figure BDA0003517348130000124
求一阶偏导,
Figure BDA0003517348130000125
Figure BDA0003517348130000126
Figure BDA0003517348130000127
求二阶偏导;
S33、求目标函数最小值,即对目标函数求偏导使其等于0,求出ωj表达式,并将其代入目标函数中,得目标函数表达式为:
Figure BDA0003517348130000128
根据表达式直接探索到最优树结构,即能够使目标函数降低最多的函数ft(xi),并可求出最小值;
S34、求得最终样本数据的预测值,即每次迭代所得预测结果之和:
Figure BDA0003517348130000129
由于采用逻辑回归的损失函数,故最终预测结果表示分类概率,为[0,1]之间的任意一个数。
S4、随机选择一组参数,将训练数据集及代入该模型进行训练,并使用贝叶斯优化算法进行参数调整,得到基于贝叶斯优化的Xgboost模型;
S5、采用堆叠法将两模型进行融合,建立基于SVM-Xgboost组合模型,将训练数据集代入模型进行训练后,代入测试数据集,得到最终预测结果;
S51、将优化后的SVM模型和Xgboost模型在训练数据集上所产生的结果作为新的训练集,使用逻辑回归模型对其进行训练,将上述两模型的答案作为输入,通过逻辑回归给上述两个模型的答案分配权重;
S52、将测试数据集导入上述两个模型,分别得到预测类别概率值,作为新的测试集;
S53、使用步骤S51训练好的逻辑回归模型,将步骤S52得到的特征值代入该逻辑回归模型,进行预测,得出最终测试集上的预测类别或概率。
S6、将测试数据集代入建立好的基于贝叶斯优化的SVM-Xgboost 模型中,进行检验。
实施例2
首先,收集移动支付交易数据,其中共有1048575条数据,其中有1142条数据有风险,即类别标签为1,其余为无风险数据,类别标签为0,由此可知,该数据集比例极不平衡,但这与现实生活相符,因为移动支付风险交易为一类“小概率大风险”的事件;
该数据集包含10个属性列,1个标签列,属性列包括时间、交易类型(X1)、交易金额(X2)、交易发起方姓名、交易前本金(X3)、交易后本金(X4)、交易的接收方ID、交易前接收方本金(X5)、交易后接收方本金(X6),单次交易是否超过20万(X7)、预测变量为交易风险(Y),具体类别型变量及含义如表1所示。
表1变量说明
Figure BDA0003517348130000131
Figure BDA0003517348130000141
其次,对数据进行预处理,该数据集不存在缺失值和重复值,删除无关变量如:时间、交易发起方姓名、交易发起方ID;由于该数据集中数据量充足但出现风险的数据过少,数据极不平衡,故采用随机欠采样的方式对数据进行采样预处理,即随机删除大样本数据量,保留小样本数据,使得两类数据达到平衡,并将数据集70%作为训练集, 30%作为测试集。
第三,建立SVM-Xgboost模型:
将处理好的训练数据集代入步骤S1中,训练SVM模型,之后再进行贝叶斯优化选择参数,即执行步骤S2,接着将该数据代入步骤S3 中,训练Xgboost模型,再次使用贝叶斯优化对其进行参数调整,即执行步骤S4,最后将优化后的两个模型使用迭代法进行融合,即执行步骤S5,建立得到基于贝叶斯优化的SVM-Xgboost模型,具体建立过程见图1。
第四、进行实验评价指标:
将测试数据集代入建立好的基于贝叶斯优化的SVM-Xgboost模型中,进行检验,选择检验指标为:
Figure BDA0003517348130000142
ROC曲线及AUC值;
其中,TP为实际为正样本且预测为正样本的样本数;TN为实际为负样本且预测为负样本的样本数;FP为实际为正样本但预测为负样本的样本数;FN为实际为负样本但预测为正样本的样本数。ROC曲线是用于检验模型对样本识别能力的常用综合指标,其纵坐标代表灵敏度,该指标越高代表诊断的准确率越高;横坐标代表特异度,该指标越低就代表误判率越低,而AUC值为ROC曲线与X轴和Y轴在右下方围成的面积。
最后,实验结果对比与分析,分别运用训练好的未改进的SVM、未改进的Xgboost、贝叶斯优化的SVM、贝叶斯优化的Xgboost和贝叶斯优化的SVM-Xgboost对测试数据集进行预测,预测结果如表2所示。
表2模型结果对比
Figure BDA0003517348130000151
ROC曲线如图2所示,曲线越靠近左上角则模型性能越好,由图可知,紫色线表示的基于贝叶斯优化的SVM-Xgboost模型ROC曲线更靠近左上角,性能更好。
准确率表示预测正确的样本数占总样本数中的比例,召回率表示模型正确预测的交易记录存在风险的样本数占所有实际交易记录存在风险的样本数,AUC值为ROC曲线与X轴和Y轴在右下方围成的面积,该值越大则模型预测性能越好,根据表1可知,基于贝叶斯优化的SVM-Xgboost模型较单个模型在准确率上分别提升17.3%、0.8%,召回率分别提升52.8%、3%,AUC值分别提升40.6%、0.8%,可见基于贝叶斯优化的SVM-Xgboost模型对于移动支付风险侦测具有良好性能。
本发明的SVM-Xgboost模型可用于移动支付领域交易风险的侦测,可以根据交易类型、交易金额、交易前本金、交易后本金等变量来推测出该笔交易是否存在风险,可以及时给予用户反馈提醒,提高用户警惕,及时追回支付金额,减少用户经济损失。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.基于SVM-Xgboost的移动支付风险预警方法,其特征在于,包括以下步骤:
S1、建立SVM模型;
S2、随机选择一组参数,将训练数据集带入该模型进行训练,并使用贝叶斯优化算法进行参数调整,得到基于贝叶斯优化的SVM模型;
S3、建立Xgboost模型;
S4、随机选择一组参数,将训练数据集及代入该模型进行训练,并使用贝叶斯优化算法进行参数调整,得到基于贝叶斯优化的Xgboost模型;
S5、采用堆叠法将两模型进行融合,建立基于SVM-Xgboost组合模型,将训练数据集代入模型进行训练后,代入测试数据集,得到最终预测结果;
S51、将优化后的SVM模型和Xgboost模型在训练数据集上所产生的结果作为新的训练集,使用逻辑回归模型对其进行训练,将上述两模型的答案作为特征输入,通过逻辑回归给上述两个模型的答案分配权重;
S52、将测试数据集导入上述两个模型,分别得到预测类别概率值,作为新的测试集;
S53、使用步骤S51训练好的逻辑回归模型,将步骤S52得到的特征值代入该逻辑回归模型,进行预测,得出最终测试集上的预测类别或概率;
S6、将测试数据集代入建立好的基于贝叶斯优化的SVM-Xgboost 模型中,进行检验。
2.如权利要求1所述的基于SVM-Xgboost的移动支付风险预警方法,其特征在于,所述步骤S1包括以下步骤:
S11、将数据集分为训练数据集和测试数据集;
S12、训练数据样本为(xi,yi),共m个样本,其中xi为第i个样本的属性集,yi为类别标号,设存在一个超平面可将样本分开,该平面可表示为:w·x+b=0,w和b为模型参数,使用特征空间的φ(x)代替x,则可表示为w·φ(x)+b=0;
S13、使训练样本和该平面距离最大化,应满足:yi(w·φ(xi)+b)-1≥0,而最大边缘化决策边界应使目标函数
Figure RE-FDA0003563580560000021
最小化,引入拉格朗日乘子λi将最优超平面求解问题转化为其对偶优化问题求解,使用径向基核函数来代替内积:
Figure RE-FDA0003563580560000022
其中,σ表示径向基宽度参数;
其对偶优化问题为:
Figure RE-FDA0003563580560000023
Figure 1
S14、对该对偶优化问题求解,得最优超平面的w和b,即可得到支持向量机决策函数为:f(x)=w·φ(x)+b。
3.如权利要求2所述的基于SVM-Xgboost的移动支付风险预警方法,其特征在于,所述步骤S2包括以下步骤:
S21、选择树结构概率密度估计(TPE)作为概率代理模型进行贝叶斯优化:
Figure RE-FDA0003563580560000031
p(c|q)即模型损失函数为q的时候超参数为c的条件概率,即后验概率;
首先,我们根据已有的数据选取一个损失函数的阈值c*,然后,对大于阈值和小于阈值的数据,分别学习两个概率密度估计t(c)和u(c);
S22、选择预期改进(EI)作为采样函数进行概率密度估计,并计算先验数据集中每个超参数的后验分布:
Figure RE-FDA0003563580560000032
其中,q*=min{(c1,f(c1)),...,(ci,f(ci))},P(c)为c的先验概率,P(q|c)为c的似然概率;
S23、构造α=p(q<q*)和p(c)=∫Rp(c∣q)p(q)dq=αt(c)+(1-α)u(c),
对最大化采集函数EI进行化简,得:
Figure RE-FDA0003563580560000033
最大化采集函数(EI),则u(c)/t(c)最小时,得到一个新的超参数值c**,将该值重新代入SVM模型中,再次拟合t(c)和u(c),再次选出最大EI值对应的超参数值,直到迭代结束,最终选择迭代中SVM准确率最高的参数组合;
S24、将寻找到的最优参数组合记录下来,代入SVM模型中,可得到基于贝叶斯优化的SVM模型。
4.如权利要求1所述的基于SVM-Xgboost的移动支付风险预警方法,其特征在于,所述步骤S3包括以下步骤:
S31、确定Xgboost模型迭代训练的目标函数为:
Figure RE-FDA0003563580560000041
其中,
Figure RE-FDA0003563580560000042
为模型损失函数,
Figure RE-FDA0003563580560000043
为正则项,用于控制总模型复杂度,这里重新定义函数fk(x)表示每次迭代时新加入的第k棵决策树所表示的函数;
由于处理数据为分类数据,选取交叉熵损失为:
Figure RE-FDA0003563580560000044
其中,yi为第i条数据实际类别标签,
Figure RE-FDA0003563580560000045
为第i条数据预测类别标签,m为数据数量;
第k棵树的模型复杂度:
Figure RE-FDA0003563580560000046
其中,T为所建决策树的叶子数量,ω为所建决策树第j个叶子节点上的预测分数,也称作叶子权重,并对参数取值γ、λ为惩罚系数,人为定义,默认γ=0、λ=1;
S32、训练模型,每一次迭代,就在目标函数中加入一个新函数;
第t轮,则加入新函数ft(xi),使得目标函数降低最多,故第t 轮的目标函数为:
Figure RE-FDA0003563580560000051
对第t轮目标函数进行化简,用泰勒公式展开取前三项并进行化简,最终化简结果为:
Figure RE-FDA0003563580560000052
其中,
Figure RE-FDA0003563580560000053
Ij表示落在第j个叶子节点的所有样本的集合,二者分别为t-1次迭代时,第j个叶子节点上所有样本的一阶导数之和和二阶导数之和,其中,
Figure RE-FDA0003563580560000054
Figure RE-FDA0003563580560000055
Figure RE-FDA0003563580560000056
求一阶偏导,
Figure RE-FDA0003563580560000057
Figure RE-FDA0003563580560000058
Figure RE-FDA0003563580560000059
求二阶偏导;
S33、求目标函数最小值,即对目标函数求偏导使其等于0,求出ωj表达式,并将其代入目标函数中,得目标函数表达式为:
Figure RE-FDA00035635805600000510
根据表达式直接探索到最优树结构,即能够使目标函数降低最多的函数ft(xi),并可求出最小值;
S34、求得最终样本数据的预测值,即每次迭代所得预测结果之和:
Figure RE-FDA00035635805600000511
由于采用逻辑回归的损失函数,故最终预测结果表示分类概率,为[0,1]之间的任意一个数。
5.如权利要求1所述的基于SVM-Xgboost的移动支付风险预警方法,其特征在于,包括:采用随机欠采样的方式对数据进行采样预处理。
6.如权利要求4所述的基于SVM-Xgboost的移动支付风险预警方法,其特征在于,所述数据集70%作为训练集,30%作为测试集。
7.如权利要求1所述的基于SVM-Xgboost的移动支付风险预警方法,其特征在于,所述步骤S23中设置迭代次数为100次。
8.如权利要求1所述的基于SVM-Xgboost的移动支付风险预警方法,其特征在于,所述步骤S6中检验指标为:
Figure RE-FDA0003563580560000061
Figure RE-FDA0003563580560000062
ROC曲线及AUC值;
其中,TP为实际为正样本且预测为正样本的样本数;TN为实际为负样本且预测为负样本的样本数;FP为实际为正样本但预测为负样本的样本数;FN为实际为负样本但预测为正样本的样本数;AUC值为ROC曲线与X轴和Y轴在右下方围成的面积。
CN202210168007.9A 2022-02-23 2022-02-23 基于SVM-Xgboost的移动支付风险预警方法 Active CN114463014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210168007.9A CN114463014B (zh) 2022-02-23 2022-02-23 基于SVM-Xgboost的移动支付风险预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210168007.9A CN114463014B (zh) 2022-02-23 2022-02-23 基于SVM-Xgboost的移动支付风险预警方法

Publications (2)

Publication Number Publication Date
CN114463014A true CN114463014A (zh) 2022-05-10
CN114463014B CN114463014B (zh) 2023-07-07

Family

ID=81416008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210168007.9A Active CN114463014B (zh) 2022-02-23 2022-02-23 基于SVM-Xgboost的移动支付风险预警方法

Country Status (1)

Country Link
CN (1) CN114463014B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116295620A (zh) * 2023-02-17 2023-06-23 南通科瑞环境科技有限公司 一种环境监测采集检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109256207A (zh) * 2018-08-29 2019-01-22 王雁 一种基于XGBoost+SVM混合机器学习诊断圆锥角膜病例的方法
CN110555989A (zh) * 2019-08-16 2019-12-10 华南理工大学 一种基于Xgboost算法的交通量预测方法
CN110852158A (zh) * 2019-09-30 2020-02-28 西安电子科技大学 一种基于模型融合的雷达人体运动状态分类算法及系统
CN110969304A (zh) * 2019-12-04 2020-04-07 汇鼎数据科技(上海)有限公司 数字工厂生产产能预测方法、系统、装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109256207A (zh) * 2018-08-29 2019-01-22 王雁 一种基于XGBoost+SVM混合机器学习诊断圆锥角膜病例的方法
CN110555989A (zh) * 2019-08-16 2019-12-10 华南理工大学 一种基于Xgboost算法的交通量预测方法
CN110852158A (zh) * 2019-09-30 2020-02-28 西安电子科技大学 一种基于模型融合的雷达人体运动状态分类算法及系统
CN110969304A (zh) * 2019-12-04 2020-04-07 汇鼎数据科技(上海)有限公司 数字工厂生产产能预测方法、系统、装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘庆芳: "基于Stacking模型融合的短时交通流预测", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》, no. 1 *
白鹏飞;安琪;NICOLAAS FRANSDE ROOIJ;李楠;周国富;: "基于多模型融合的互联网信贷个人信用评估方法", 华南师范大学学报(自然科学版), no. 06, pages 124 - 128 *
郝柯羡: "基于PSO-SVM的电子商务移动支付风险预测", 《电子设计工程》, no. 15, pages 79 - 82 *
龚雪娇: "基于贝叶斯优化XGBoost的短期峰值负荷预测", 《电子工程技术》, vol. 39, no. 6, pages 76 - 80 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116295620A (zh) * 2023-02-17 2023-06-23 南通科瑞环境科技有限公司 一种环境监测采集检测方法

Also Published As

Publication number Publication date
CN114463014B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
Huang et al. Naive Bayes classification algorithm based on small sample set
CN111275113B (zh) 基于代价敏感混合网络的偏斜类时间序列异常检测方法
Dutta et al. Fake job recruitment detection using machine learning approach
CN110930219B (zh) 一种基于多特征融合的个性化电商推荐方法
CN109191276B (zh) 一种基于强化学习的p2p网络借贷机构风险评估方法
CN111783841A (zh) 基于迁移学习和模型融合的垃圾分类方法、系统及介质
WO2020091919A1 (en) Computer architecture for multiplier-less machine learning
Pambudi et al. Improving money laundering detection using optimized support vector machine
Feng Ensemble learning in credit card fraud detection using boosting methods
CN114942974A (zh) 电商平台商品用户评价情感倾向分类方法
Poongodi et al. Support vector machine with information gain based classification for credit card fraud detection system.
CN114463014B (zh) 基于SVM-Xgboost的移动支付风险预警方法
CN114943034A (zh) 基于细粒度方面特征的智能新闻推荐方法和系统
Wu et al. Investigations on classification methods for loan application based on machine learning
Muslim et al. An improved light gradient boosting machine algorithm based on swarm algorithms for predicting loan default of peer-to-peer lending
CN114119191A (zh) 风控方法、逾期预测方法、模型训练方法及相关设备
Singh Yadav et al. Unsupervised learning for financial statement fraud detection using manta ray foraging based convolutional neural network
CN111523604A (zh) 一种用户分类的方法和相关装置
Li et al. An improved genetic-XGBoost classifier for customer consumption behavior prediction
CN114511345B (zh) 基于“政策-舆论-购买”双阶深度学习的销量预测方法
CN114238758B (zh) 一种基于多源跨界数据融合的用户画像预测方法
CN115688101A (zh) 一种基于深度学习的文件分类方法及装置
CN114722941A (zh) 信贷违约识别方法、装置、设备和介质
CN111666410A (zh) 商品用户评论文本的情感分类方法及系统
Zhu et al. Hierarchical Multi-label Classification Method for Maritime Distress Safety Information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant