CN111652713B

CN111652713B - 权益风控建模方法和装置

Info

Publication number: CN111652713B
Application number: CN202010618802.4A
Authority: CN
Inventors: 沈之芳; 周宝琛; 肖慧闵
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2024-02-27
Anticipated expiration: 2040-07-01
Also published as: CN111652713A

Abstract

本发明提供了一种权益风控建模方法和装置，该方法包括：获取历史数据信息和特征向量数据；所述特征向量数据随时间进行更新；对历史数据信息进行处理，确定特征向量；利用线性SVM算法对特征向量训练，确定SVM分类模型和支持向量集；利用SVM分类模型评估特征向量数据，确定风控评估准确率；在风控评估准确率低于设定阈值时，根据设定时间间隔对特征向量数据加权，将加权后的特征向量数据和支持向量集作为训练样本，输入到SVM分类模型进行迭代训练，直至风控评估准确率达到设定阈值时停止迭代，确定权益风控模型。在迭代更新的过程中根据设定时间间隔对特征向量数据加权，实现对SVM分类模型更新校正，有效提高权益风控模型的准确率。

Description

权益风控建模方法和装置

技术领域

本发明涉及数据建模技术领域，尤其涉及一种权益风控建模方法和装置。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着金融行业的发展，客户权益(如优惠券、兑换券等)在银行企业获客和增加客户粘性等方面具有重要意义。然而，银行企业在开展此类营销活动的同时，也必须对活动的风险进行防范，避免活动的利益被大量的“羊毛党”获取，而失去营销活动原本的意义。

对于这类风险的智能防范，现有的方案是利用收集的海量样本数据，利用传统模式识别方法训练模型，并利用模型识别每次营销活动中薅羊毛的风险。具体而言，会利用历史数据来做训练样本，把已知薅羊毛的特征数据和已知正常行为的特征数据标记为两类标签，然后把这些特征数据及对应的标签作为样本输入，通过贝叶斯、逻辑回归等模式识别算法训练出风控模型，并根据模型对用户请求的特征数据进行识别，以此作为识别薅羊毛行为的风险评估辅助手段。

然而，如今羊毛党的手段五花八门、层出不穷，如不断的变化网络IP、收获地址等，过去营销活动积累的数据价值性越来越小，影响模型的准确度。如果单纯的利用新样本加入到训练样本中训练模型，则凸显不出新样本数据更高的价值性，过多的样本数据也会让算法计算的复杂度更高。

因此，如何提供一种新的方案，其能够解决上述技术问题是本领域亟待解决的技术难题。

发明内容

本发明实施例提供一种权益风控建模方法，提高了权益风控模型的准确率，该方法包括：

获取历史数据信息和特征向量数据；所述特征向量数据随时间进行更新；

对历史数据信息进行处理，确定特征向量；

利用线性SVM算法对特征向量训练，确定SVM分类模型和支持向量集；

利用SVM分类模型评估特征向量数据，确定风控评估准确率；

在风控评估准确率低于设定阈值时，根据设定时间间隔对特征向量数据加权，将加权后的特征向量数据和支持向量集作为训练样本，输入到SVM分类模型进行迭代训练，直至风控评估准确率达到设定阈值时停止迭代，确定权益风控模型；

对历史数据信息进行处理，确定特征向量，包括：对历史数据信息进行数据清洗转换加载，抽取出多维数据；所述多维数据包括：设备IP、交易频率、交易时间、同一IP账户数、身份证、姓名；对多维数据中的每一维数据转化为均值为0，方差为1的值，得到特征向量；

所述支持向量机在每次迭代更新时，剔除不影响SVM分类模型的样本数据。

本发明实施例还提供一种权益风控建模装置，包括：

数据获取模块，用于获取历史数据信息和特征向量数据；所述特征向量数据随时间进行更新；

特征向量确定模块，用于对历史数据信息进行处理，确定特征向量；

SVM分类模型和支持向量集确定模块，用于利用线性SVM算法对特征向量训练，确定SVM分类模型和支持向量集；

风控评估准确率确定模块，用于利用SVM分类模型评估特征向量数据，确定风控评估准确率；

权益风控模型确定模块，用于在风控评估准确率低于设定阈值时，根据设定时间间隔对特征向量数据加权，将加权后的特征向量数据和支持向量集作为训练样本，输入到SVM分类模型进行迭代训练，直至风控评估准确率达到设定阈值时停止迭代，确定权益风控模型；

特征向量确定模块，具体用于：对历史数据信息进行数据清洗转换加载，抽取出多维数据；所述多维数据包括：设备IP、交易频率、交易时间、同一IP账户数、身份证、姓名；对多维数据中的每一维数据转化为均值为0、方差为1的值，确定特征向量；

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述权益风控建模方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行实现上述权益风控建模方法的计算机程序。

本发明实施例提供的一种权益风控建模方法和装置，首先获取历史数据信息和特征向量数据，其中，特征向量数据是随着时间持续更新的；然后对历史数据信息进行处理，确定特征向量；接着利用线性SVM算法对特征向量训练，确定SVM分类模型和支持向量集，下一步利用SVM分类模型评估特征向量数据，确定风控评估准确率；最后在风控评估准确率低于设定阈值时，根据设定时间间隔对特征向量数据加权，将加权后的特征向量数据和支持向量集作为训练样本，输入到SVM分类模型进行迭代训练，直至风控评估准确率达到设定阈值时停止迭代，确定权益风控模型。本发明实施例使用历史数据信息建立SVM分类模型，同时考虑到随时间不断更新的特征向量数据对SVM分类模型的价值度，在迭代更新的过程中根据设定时间间隔对特征向量数据加权，实现对SVM分类模型的更新校正，实现对风控模型的不断优化，可以有效提高权益风控模型的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例一种权益风控建模方法示意图。

图2为本发明实施例一种权益风控建模方法流程图。

图3为本发明实施例一种权益风控建模方法的线性SVM算法分类决策函数示意图。

图4为运行本发明实施的一种权益风控建模方法的计算机装置示意图。

图5为本发明实施例一种权益风控建模装置示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

在本发明实施例中，涉及的专业名词解释如下：

标签：根据一次用户请求所对应的特征数据(如ip地址、手机号等)进行分类识别后对应的标签。将被识别为薅羊毛行为的特征数据标记为正标签(+1)；相反，被识别为正常行为的特征数据标记为负标签(-1)。

支持向量机(Support Vector Machine,SVM)：是建立在风险最小及统计学理论的VC维理论基础上的，利用有限的样本数据在模型复杂性(对所有参与训练样本数据的学习精度)及学习能力(即准确识别出样本数据的能力)之间的一个最佳折中，已得到最大的推广能力；

支持向量(Support Vector,SV)：能够正确分类训练集的特征向量。

图1为本发明实施例一种权益风控建模方法示意图，如图1所示，本发明实施例提供一种权益风控建模方法，提高了权益风控模型的准确率，该方法包括：

步骤101：获取历史数据信息和特征向量数据；所述特征向量数据随时间进行更新；

步骤102：对历史数据信息进行处理，确定特征向量；

步骤103：利用线性SVM算法对特征向量训练，确定SVM分类模型和支持向量集；

步骤104：利用SVM分类模型评估特征向量数据，确定风控评估准确率；

步骤105：在风控评估准确率低于设定阈值时，根据设定时间间隔对特征向量数据加权，将加权后的特征向量数据和支持向量集作为训练样本，输入到SVM分类模型进行迭代训练，直至风控评估准确率达到设定阈值时停止迭代，确定权益风控模型。

本发明实施例提供的一种权益风控建模方法，首先获取历史数据信息和特征向量数据，其中，特征向量数据是随着时间持续更新的；然后对历史数据信息进行处理，确定特征向量；接着利用线性SVM算法对特征向量训练，确定SVM分类模型和支持向量集，下一步利用SVM分类模型评估特征向量数据，确定风控评估准确率；最后在风控评估准确率低于设定阈值时，根据设定时间间隔对特征向量数据加权，将加权后的特征向量数据和支持向量集作为训练样本，输入到SVM分类模型进行迭代训练，直至风控评估准确率达到设定阈值时停止迭代，确定权益风控模型。本发明实施例使用历史数据信息建立SVM分类模型，同时考虑到随时间不断更新的特征向量数据对SVM分类模型的价值度，在迭代更新的过程中根据设定时间间隔对特征向量数据加权，实现对SVM分类模型的更新校正，实现对风控模型的不断优化，可以有效提高权益风控模型的准确率。

本发明实施例的一种权益风控建模方法，实施例中可以包括：

获取历史数据信息和特征向量数据；所述特征向量数据随时间进行更新；对历史数据信息进行处理，确定特征向量；利用线性SVM算法对特征向量训练，确定SVM分类模型和支持向量集；利用SVM分类模型评估特征向量数据，确定风控评估准确率；在风控评估准确率低于设定阈值时，根据设定时间间隔对特征向量数据加权，将加权后的特征向量数据和支持向量集作为训练样本，输入到SVM分类模型进行迭代训练，直至风控评估准确率达到设定阈值时停止迭代，确定权益风控模型。

具体实施本发明实施例提供的一种权益风控建模方法时，一个实施例中，获取历史数据信息，包括：从数据库中获取历史权益活动过程中产生的历史数据信息；其中，所述历史数据信息包括：已识别的薅羊毛行为数据和已识别的正常获取权益行为数据。

实施例中，针对手机银行推出的营销活动，采集多个系统(平台)在营销活动过程中产生的数据信息(客户信息、登录信息、订单信息、交易信息、产品信息)，其中包括薅羊毛样本数据及正常样本数据。把已知薅羊毛的特征数据和已知正常行为的特征数据标记为两类标签，例如薅羊毛的行为数据标记为正标签(+1)，相反正常行为数据标记为负标签(-1)。

具体实施本发明实施例提供的一种权益风控建模方法时，一个实施例中，对历史数据信息进行处理，确定特征向量，包括：

对历史数据信息进行数据清洗转换加载，抽取出多维数据；

对多维数据中的每一维数据转化为均值为0、方差为1的值，确定特征向量。

实施例中，对历史数据信息进行数据清洗转换加载，抽取出多维数据；所述多维数据包括：设备IP、交易频率、交易时间、同一IP账户数、身份证、姓名等多维数据；对每一维数据转化为均值为0，方差为1的值，得到特征向量。

具体实施本发明实施例提供的一种权益风控建模方法时，一个实施例中，利用线性SVM算法对特征向量训练，确定SVM分类模型和支持向量集，包括：

利用线性SVM算法对特征向量进行划分，确定超平面；所述超平面为特征向量中所有数据到超平面的距离最大的平面；

实施例中，利用线性SVM算法，找到空间中一个能够将所有样本数据划分的超平面，使得所有数据到这个超平面距离最大，对提取到特征向量进行训练，得到支持向量集，并找到一个最优的决策边界，即SVM分类模型。

利用超平面对特征向量进行训练，获得SVM分类模型和支持向量集。

具体实施本发明实施例提供的一种权益风控建模方法时，一个实施例中，所述支持向量机在每次迭代更新时，剔除不影响SVM分类模型的样本数据。

支持向量机算法其主要思想是通过找到空间中一个能够将所有样本数据划分的超平面，使得所有数据到这个超平面距离最大。该问题是为了解决凸二次规划问题，如下：

0≤α_i≤Ci＝1,…,l

其中，x＝{x_i,…,x_l}为为输入样本数据，y＝{y_i,…,y_l}为学习目标，y∈{-1,1}为负标签和正标签，C为惩罚参数，α为拉格朗日乘子，最优解为为支持向量。

其中，如图3本发明实施例一种权益风控建模方法的线性SVM算法分类决策函数示意图所示，在线性情况时的分类决策函数为：

对于非线性的情况，主要是把输入空间中非线性学习器的问题转换为特征空间中线性学习器的学习问题，通过核函数将上述在线性情况时的分类决策函数转化为：

0≤α_i≤C i＝1,…,l

求得最优解

选取α^*一个正分量计算/>

通过上述推导，可以得出非线性情况分类决策函数为：

一般情况下，支持向量集只占所有样本的小部分，但是包含了所有样本数据的分类信息。利用这一点，在每次更新模型的时候，可剔除不影响模型的样本数据，即非支持向量集。如图3所示，在虚线w·x+b＝1上的灰色圆点和在虚线w·x+b＝-1上的灰色圆圈为支持向量集，其他剩余的黑色圆点和黑色圆圈为非支持向量集。因此，每次训练模型的训练样本减少，算法计算的复杂度降低。另一方面，根据实际的应用场景，可知越新的样本数据，具有较高的研究价值，对样本数据进行有效的加权重，在一定程度上提高模型的准确率和闭合速度。

前述提到的分类决策函数的表达式为举例说明，本领域技术人员可以理解，在实施时还可以根据需要对上述公式进行一定形式的变形和添加其它的参数或数据，或者提供其它的具体公式，这些变化例均应落入本发明的保护范围。

图2为本发明实施例一种权益风控建模方法流程图，如图2所示，本发明实施例还提供一种应用一种权益风控建模方法的实例，具体包括：

步骤1、令t＝0，采集多个系统(平台)中的历史数据信息(客户信息、登录信息、订单信息、交易信息、产品信息)，其中包括有已识别为薅羊毛行为的数据(正标签)，及正常行为产生的数据(负标签)；

步骤2、对步骤1中的数据进行数据清洗转换加载，抽取出设备IP、交易频率、交易时间、同一IP账户数、身份证、姓名等多维数据，且对每一维数据转化为均值为0，方差为1的值，得到特征向量A^t；

步骤3、利用线性SVM算法(其主要思想是通过找到空间中一个能够将所有样本数据划分的超平面，使得所有数据到这个超平面距离最大)，对提取到A^t进行训练，得到支持向量并找到一个最优的决策边界，即模型T^t；

步骤4、根据步骤3的风控模型评估在线客户请求的特征向量数据B^t，如果评估出的准确率达到预设阈值，则停止更新模型，得到风控模型T^t，否则转步骤5；

步骤5、根据时间间隔对B^t加权得到B^t＝γB^t，特征数据越新，权重γ越大。把特征向量数据B^t和支持向量集作为训练样本，/>t＝t+1，使得A^t＝C，转步骤3。

上述本发明实施例一种权益风控建模方法，在迭代更新过程中，为了适应业务场景，通过特征数据加权的手段，来赋予样本数据不同的研究价值；在迭代更新过程中，为了解决训练样本越来越多影响算法计算的复杂度，通过剔除不影响模型分类的样本数据的手段，来降低算法计算的复杂度。本发明提出的一种基于增量支持向量机的银行客户权益风控建模的方法，在一定程度上解决了上述问题，根据时间间隔，对每个样本数据特别处理，数据越新权值越大，越能影响分类模型，并剔除部分数据，只取占所有样本数据部分的支持向量集，不断去迭代优化模型，从而，在一定的训练效率下，保证模型长期适用性。

图4为运行本发明实施的一种权益风控建模方法的计算机装置示意图。如图4所示，本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述权益风控建模方法。

本发明实施例中还提供了一种权益风控建模装置，如下面的实施例所述。由于该装置解决问题的原理与一种权益风控建模方法相似，因此该装置的实施可以参见一种权益风控建模方法的实施，重复之处不再赘述。

图5为本发明实施例一种权益风控建模装置示意图。如图5所示，本发明实施例还提供一种权益风控建模装置，可以包括：

数据获取模块501，用于获取历史数据信息和特征向量数据；所述特征向量数据随时间进行更新；

特征向量确定模块502，用于对历史数据信息进行处理，确定特征向量；

SVM分类模型和支持向量集确定模块503，用于利用线性SVM算法对特征向量训练，确定SVM分类模型和支持向量集；

风控评估准确率确定模块504，用于利用SVM分类模型评估特征向量数据，确定风控评估准确率；

权益风控模型确定模块505，用于在风控评估准确率低于设定阈值时，根据设定时间间隔对特征向量数据加权，将加权后的特征向量数据和支持向量集作为训练样本，输入到SVM分类模型进行迭代训练，直至风控评估准确率达到设定阈值时停止迭代，确定权益风控模型。

具体实施本发明实施例提供的一种权益风控建模装置时，一个实施例中，数据获取模块，具体用于：从数据库中获取历史权益活动过程中产生的历史数据信息；其中，所述历史数据信息包括：已识别的薅羊毛行为数据和已识别的正常获取权益行为数据。

具体实施本发明实施例提供的一种权益风控建模装置时，一个实施例中，特征向量确定模块，具体用于：

对历史数据信息进行数据清洗转换加载，抽取出多维数据；

具体实施本发明实施例提供的一种权益风控建模装置时，一个实施例中，SVM分类模型和支持向量集确定模块，具体用于：

具体实施本发明实施例提供的一种权益风控建模装置时，一个实施例中，所述支持向量机在每次迭代更新时，剔除不影响SVM分类模型的样本数据。

综上，本发明实施例提供的一种权益风控建模方法和装置，首先获取历史数据信息和特征向量数据，其中，特征向量数据是随着时间持续更新的；然后对历史数据信息进行处理，确定特征向量；接着利用线性SVM算法对特征向量训练，确定SVM分类模型和支持向量集，下一步利用SVM分类模型评估特征向量数据，确定风控评估准确率；最后在风控评估准确率低于设定阈值时，根据设定时间间隔对特征向量数据加权，将加权后的特征向量数据和支持向量集作为训练样本，输入到SVM分类模型进行迭代训练，直至风控评估准确率达到设定阈值时停止迭代，确定权益风控模型。本发明实施例使用历史数据信息建立SVM分类模型，同时考虑到随时间不断更新的特征向量数据对SVM分类模型的价值度，在迭代更新的过程中根据设定时间间隔对特征向量数据加权，实现对SVM分类模型的更新校正，实现对风控模型的不断优化，可以有效提高权益风控模型的准确率。在迭代更新过程中，为了解决训练样本越来越多影响算法计算的复杂度，通过剔除不影响模型分类的样本数据的手段，只取占所有样本数据部分的支持向量集，来降低算法计算的复杂度，从而，在一定的训练效率下，保证模型长期适用性。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种权益风控建模方法，其特征在于，包括：

对历史数据信息进行处理，确定特征向量；

利用SVM分类模型评估特征向量数据，确定风控评估准确率；

支持向量机在每次迭代更新时，剔除不影响SVM分类模型的样本数据。

2.如权利要求1所述的方法，其特征在于，获取历史数据信息，包括：从数据库中获取历史权益活动过程中产生的历史数据信息；其中，所述历史数据信息包括：已识别的薅羊毛行为数据和已识别的正常获取权益行为数据。

3.如权利要求1所述的方法，其特征在于，利用线性SVM算法对特征向量训练，确定SVM分类模型和支持向量集，包括：

4.一种权益风控建模装置，其特征在于，包括：

5.如权利要求4所述的装置，其特征在于，数据获取模块，具体用于：从数据库中获取历史权益活动过程中产生的历史数据信息；其中，所述历史数据信息包括：已识别的薅羊毛行为数据和已识别的正常获取权益行为数据。

6.如权利要求4所述的装置，其特征在于，SVM分类模型和支持向量集确定模块，具体用于：

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至3任一项所述权益风控建模方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有执行实现权利要求1至3任一项所述权益风控建模方法的计算机程序。