CN114463014A

CN114463014A - 基于SVM-Xgboost的移动支付风险预警方法

Info

Publication number: CN114463014A
Application number: CN202210168007.9A
Authority: CN
Inventors: 李培峦; 李沛谕; 张雨祺; 高蓉; 栗莹; 李保安
Original assignee: Henan University of Science and Technology
Current assignee: Henan University of Science and Technology
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-05-10
Anticipated expiration: 2042-02-23
Also published as: CN114463014B

Abstract

本发明提供一种基于SVM‑Xgboost的移动支付风险预警方法，该模型使用贝叶斯优化分别对SVM和Xgboost的参数组合进行寻优，再将优化好的两模型使用堆叠法进行组合，SVM‑Xgboost模型可用于移动支付领域交易风险的侦测，在性能提升提升的同时，能够准确地对移动支付交易记录进行风险侦测，可以根据交易类型、交易金额、交易前本金、交易后本金等变量来推测出该笔交易是否存在风险，对用户进行风险预警，提高用户警惕性，以减少移动支付风险给用户带来的经济损失。

Description

基于SVM-Xgboost的移动支付风险预警方法

技术领域

本发明涉及移动支付技术领域，具体涉及基于SVM-Xgboost的移动支付风险预警方法。

背景技术

近年来，随着智能手机的推广与普及，移动支付行业迅猛发展。作为互联网信息技术所衍生的新兴产物，移动支付具有高效、快捷、便携、便利等优势，已成为人们生活中不可或缺的一部分，一方面它给人们的生活带来了便捷，另一方面，这个行业的高速发展也推动着社会经济和其他行业的进步。但同时，移动支付的发展过程中也产生了政策和法律风险、资金安全风险等诸多问题，这些问题均可能对用户产生资金损失，受到社会的广泛关注，因此，寻找一种能够对移动支付交易记录进行风险侦测的方法至关重要。

对于移动支付风险研究多是从移动支付本身存在的风险因素进行的研究分析，而对于移动支付交易记录存在的风险侦测相关研究较少。Xgboost算法属于Boosting集成，是由陈天奇设计的基于传统梯度提升算法的改进，具有防止过拟合效果好，运算速度快、效率高等优势，近年来运用广泛发展良好，不少学者对其进行了改进，大部分对于Xgboost算法的改进是使用不同的优化算法对其寻参调整的改进，且仍存在一定的不足，如在利用遗传算法和随机森林对Xgboost 算法改进时，使用遗传算法对两模型权重进行优化的过程中,以均方误差为目标函数，未兼顾到其他评价指标，使用代价敏感激活函数对Xgboost进行改进用于处理不平衡数据分类方法时，对误分类代价的设置过程进行了简化，但导致了模型性能的下降。

发明内容

有鉴于此，本发明提供一种基于SVM-Xgboost的移动支付风险预警方法，该SVM-Xgboost模型用于移动支付交易记录风险侦测，使用贝叶斯优化分别对SVM和Xgboost的参数组合进行寻优，再将优化好的两模型使用堆叠法进行组合，在性能提升提升的同时，能够准确地对移动支付交易记录进行风险侦测。

为了达到上述目的，本发明所采用的技术方案是：基于 SVM-Xgboost的移动支付风险预警方法，包括以下步骤：

S1、建立SVM模型；

S2、随机选择一组参数，将训练数据集带入该模型进行训练，并使用贝叶斯优化算法进行参数调整，得到基于贝叶斯优化的SVM模型；

S3、建立Xgboost模型；

S4、随机选择一组参数，将训练数据集及代入该模型进行训练，并使用贝叶斯优化算法进行参数调整，得到基于贝叶斯优化的 Xgboost模型；

S5、采用堆叠法将两模型进行融合，建立基于SVM-Xgboost组合模型，将训练数据集代入模型进行训练后，代入测试数据集，得到最终预测结果；

S51、将优化后的SVM模型和Xgboost模型在训练数据集上所产生的结果作为新的训练集,使用逻辑回归模型对其进行训练,将上述两模型的答案作为特征输入，通过逻辑回归给上述两个模型的答案分配权重；

S52、将测试数据集导入上述两个模型，分别得到预测类别概率值，作为新的测试集；

S53、使用步骤S51训练好的逻辑回归模型，将步骤S52得到的特征值代入该逻辑回归模型，进行预测，得出最终测试集上的预测类别或概率；

S6、将测试数据集代入建立好的基于贝叶斯优化的SVM-Xgboost 模型中，进行检验。

进一步的，所述步骤S1包括以下步骤：

S11、将数据集分为训练数据集和测试数据集；

S12、训练数据样本为(x_i,y_i)，共m个样本，其中x_i为第i个样本的属性集，y_i为类别标号，设存在一个超平面可将样本分开，该平面可表示为：w·x+b＝0，w和b为模型参数，使用特征空间的φ(x)代替 x，则可表示为w·φ(x)+b＝0；

S13、使训练样本和该平面距离最大化，应满足： y_i(w·φ(x_i)+b)-1≥0，而最大边缘化决策边界应使目标函数

最小化，引入拉格朗日乘子λ_i将最优超平面求解问题转化为其对偶优化问题求解，使用径向基核函数来代替内积：

其中，σ表示径向基宽度参数；

其对偶优化问题为：

S14、对该对偶优化问题求解，得最优超平面的w和b,即可得到支持向量机决策函数为：f(x)＝w·φ(x)+b。

进一步的，所述步骤S2包括以下步骤：

S21、选择树结构概率密度估计(TPE)作为概率代理模型进行贝叶斯优化:

p(c|q)即模型损失函数为q的时候超参数为c的条件概率，即后验概率；

首先，我们根据已有的数据选取一个损失函数的阈值c*，然后，对大于阈值和小于阈值的数据，分别学习两个概率密度估计t(c)和 u(c)；

S22、选择预期改进(EI)作为采样函数进行概率密度估计，并计算先验数据集中每个超参数的后验分布：

其中，q^*＝min{(c₁,f(c₁)),...,(c_i,f(c_i))}，P(c)为c的先验概率，P (q|c)为c的似然概率；

S23、构造α＝p(q＜q^*)和p(c)＝∫_Rp(c∣q)p(q)dq＝αt(c)+(1-α)u(c)，

对最大化采集函数EI进行化简，得：

最大化采集函数(EI)，则u(c)/t(c)最小时，得到一个新的超参数值c**，将该值重新代入SVM模型中，再次拟合t(c)和u(c),再次选出最大EI值对应的超参数值，直到迭代结束，最终选择迭代中 SVM准确率最高的参数组合；

S24、将寻找到的最优参数组合记录下来，代入SVM模型中，可得到基于贝叶斯优化的SVM模型。

进一步的，所述步骤S3包括以下步骤:

S31、确定Xgboost模型迭代训练的目标函数为：

其中，

为模型损失函数，

为正则项，用于控制总模型复杂度，这里重新定义函数f_k(x)表示每次迭代时新加入的第k 棵决策树所表示的函数；

由于处理数据为分类数据，选取交叉熵损失为：

其中，y_i为第i条数据实际类别标签，

为第i条数据预测类别标签，m为数据数量；

第k棵树的模型复杂度：

其中，T为所建决策树的叶子数量，ω为所建决策树第j个叶子节点上的预测分数，也称作叶子权重，并对参数取值γ、λ为惩罚系数，人为定义，默认γ＝0、λ＝1；

S32、训练模型，每一次迭代，就在目标函数中加入一个新函数；

第t轮，则加入新函数f_t(x_i)，使得目标函数降低最多，故第t 轮的目标函数为：

对第t轮目标函数进行化简，用泰勒公式展开取前三项并进行化简，最终化简结果为：

其中，

I_j表示落在第j个叶子节点的所有样本的集合，二者分别为t-1次迭代时，第j个叶子节点上所有样本的一阶导数之和和二阶导数之和，其中，

为

对

求一阶偏导，

为

对

求二阶偏导。

S33、求目标函数最小值，即对目标函数求偏导使其等于0，求出ω_j表达式，并将其代入目标函数中，得目标函数表达式为：

根据表达式直接探索到最优树结构，即能够使目标函数降低最多的函数f_t(x_i)，并可求出最小值；

S34、求得最终样本数据的预测值，即每次迭代所得预测结果之和：

由于采用逻辑回归的损失函数，故最终预测结果表示分类概率，为[0，1]之间的任意一个数。

进一步的，还包括：采用随机欠采样的方式对数据进行采样预处理。

进一步的，所述数据集70％作为训练集，30％作为测试集。

进一步的，所述步骤S23设置迭代次数为100次，

进一步的，所述步骤S6中检验指标为：

ROC曲线及AUC值；

其中，TP为实际为正样本且预测为正样本的样本数；TN为实际为负样本且预测为负样本的样本数；FP为实际为正样本但预测为负样本的样本数；FN为实际为负样本但预测为正样本的样本数；AUC值为ROC曲线与X轴和Y轴在右下方围成的面积。

与现有技术相比，本发明的有益效果是：

本发明中建立移动支付风险侦测模型，对移动支付交易记录是否存在风险进行分类，可以对移动支付交易记录进行风险的识别，对用户进行风险预警，提高用户警惕性，以减少移动支付风险给用户带来的经济损失；

本发明所使用的贝叶斯优化相较于传统的网格搜索和随机搜索效率更高，且具有不容易陷入局部最优的特点；Xgboost算法相较于传统的GBDT算法运行效率更高，且泛化能力更强，且具有良好的防止过拟合效果；支持向量机是基于统计学习理论的通用算法，使用核技术，使其处理非线性问题功能强大，其算法结构简单，易于操作，三者进行结合，建立基于贝叶斯优化的SVM－Xgboost能够使三者的优势进行融合，得到更好的移动支付风险侦测模型，可以进一步改善预测效果；

本发明中进一步提高了该分类任务的预测精准度，性能均有所提升，进行改进后的SVM-Xgboost组合模型与原始单个模型相比，在准确率、召回率、AUC值上分别都有所提升，该模型预测结果准确率为0.973，预测结果较好，是一种有效的移动支付风险侦测模型。

附图说明

图1是本发明基于SVM-Xgboost的移动支付风险预警方法的流程示意图；

图2是实施例中SVM-Xgboost模型的ROC曲线。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

具体实施方式：

实施例1：

基于SVM-Xgboost的移动支付风险预警方法，其特征在于，包括以下步骤：

S1、建立SVM模型，采用随机欠采样的方式对数据进行采样预处理；

S11、将数据集分为训练数据集和测试数据集；

其中，σ表示径向基宽度参数；

其对偶优化问题为：

S23、构造α＝p(q＜q^*)和p(c)＝∫_Rp(c∣q)p(q)dq＝αt(c)+(1-α)u(c)，

对最大化采集函数EI进行化简，得：

最大化采集函数(EI)，则u(c)/t(c)最小时，得到一个新的超参数值c**，将该值重新代入SVM模型中，再次拟合t(c)和u(c),再次选出最大EI值对应的超参数值，直到迭代结束，最终选择迭代中 SVM准确率最高的参数组合，设置迭代次数为100次；

S3、建立Xgboost模型；

S31、确定Xgboost模型迭代训练的目标函数为：

由于处理数据为分类数据，选取交叉熵损失为：

第k棵树的模型复杂度：

其中，

为模型损失函数，

为正则项，用于控制总模型复杂度；y_i为第i条数据实际类别标签，

为第i条数据预测类别标签，m为数据数量；T为所建决策树的叶子数量，ω为所建决策树第j个叶子节点上的预测分数，也称作叶子权重，并对参数取值γ、λ为惩罚系数，人为定义，默认γ＝0、λ＝1；

其中，

为

对

求一阶偏导，

为

对

求二阶偏导；

S4、随机选择一组参数，将训练数据集及代入该模型进行训练，并使用贝叶斯优化算法进行参数调整，得到基于贝叶斯优化的Xgboost模型；

S51、将优化后的SVM模型和Xgboost模型在训练数据集上所产生的结果作为新的训练集,使用逻辑回归模型对其进行训练,将上述两模型的答案作为输入，通过逻辑回归给上述两个模型的答案分配权重；

S53、使用步骤S51训练好的逻辑回归模型，将步骤S52得到的特征值代入该逻辑回归模型，进行预测，得出最终测试集上的预测类别或概率。

实施例2

首先，收集移动支付交易数据，其中共有1048575条数据，其中有1142条数据有风险，即类别标签为1，其余为无风险数据，类别标签为0，由此可知，该数据集比例极不平衡，但这与现实生活相符，因为移动支付风险交易为一类“小概率大风险”的事件；

该数据集包含10个属性列，1个标签列，属性列包括时间、交易类型(X1)、交易金额(X2)、交易发起方姓名、交易前本金(X3)、交易后本金(X4)、交易的接收方ID、交易前接收方本金(X5)、交易后接收方本金(X6)，单次交易是否超过20万(X7)、预测变量为交易风险(Y)，具体类别型变量及含义如表1所示。

表1变量说明

其次，对数据进行预处理，该数据集不存在缺失值和重复值，删除无关变量如：时间、交易发起方姓名、交易发起方ID；由于该数据集中数据量充足但出现风险的数据过少，数据极不平衡，故采用随机欠采样的方式对数据进行采样预处理，即随机删除大样本数据量，保留小样本数据，使得两类数据达到平衡，并将数据集70％作为训练集， 30％作为测试集。

第三，建立SVM-Xgboost模型：

将处理好的训练数据集代入步骤S1中，训练SVM模型，之后再进行贝叶斯优化选择参数，即执行步骤S2，接着将该数据代入步骤S3 中，训练Xgboost模型，再次使用贝叶斯优化对其进行参数调整，即执行步骤S4，最后将优化后的两个模型使用迭代法进行融合，即执行步骤S5，建立得到基于贝叶斯优化的SVM-Xgboost模型，具体建立过程见图1。

第四、进行实验评价指标：

将测试数据集代入建立好的基于贝叶斯优化的SVM-Xgboost模型中，进行检验，选择检验指标为：

ROC曲线及AUC值；

其中，TP为实际为正样本且预测为正样本的样本数；TN为实际为负样本且预测为负样本的样本数；FP为实际为正样本但预测为负样本的样本数；FN为实际为负样本但预测为正样本的样本数。ROC曲线是用于检验模型对样本识别能力的常用综合指标，其纵坐标代表灵敏度，该指标越高代表诊断的准确率越高；横坐标代表特异度，该指标越低就代表误判率越低，而AUC值为ROC曲线与X轴和Y轴在右下方围成的面积。

最后，实验结果对比与分析，分别运用训练好的未改进的SVM、未改进的Xgboost、贝叶斯优化的SVM、贝叶斯优化的Xgboost和贝叶斯优化的SVM-Xgboost对测试数据集进行预测，预测结果如表2所示。

表2模型结果对比

ROC曲线如图2所示，曲线越靠近左上角则模型性能越好，由图可知，紫色线表示的基于贝叶斯优化的SVM-Xgboost模型ROC曲线更靠近左上角，性能更好。

准确率表示预测正确的样本数占总样本数中的比例，召回率表示模型正确预测的交易记录存在风险的样本数占所有实际交易记录存在风险的样本数，AUC值为ROC曲线与X轴和Y轴在右下方围成的面积，该值越大则模型预测性能越好，根据表1可知，基于贝叶斯优化的SVM-Xgboost模型较单个模型在准确率上分别提升17.3％、0.8％，召回率分别提升52.8％、3％，AUC值分别提升40.6％、0.8％，可见基于贝叶斯优化的SVM-Xgboost模型对于移动支付风险侦测具有良好性能。

本发明的SVM-Xgboost模型可用于移动支付领域交易风险的侦测，可以根据交易类型、交易金额、交易前本金、交易后本金等变量来推测出该笔交易是否存在风险，可以及时给予用户反馈提醒，提高用户警惕，及时追回支付金额，减少用户经济损失。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。