CN105590261A

CN105590261A - 商户风险估算方法及系统

Info

Publication number: CN105590261A
Application number: CN201410848679.XA
Authority: CN
Inventors: 赵金涛; 杨阳
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2014-12-31
Filing date: 2014-12-31
Publication date: 2016-05-18

Abstract

本发明提供商户风险估算方法，所述方法包括建立用于对商户进行风险评估的多个模型，每个模型对应设定时期内的一种欺诈行为；将待评估商户在该设定时期的交易数据输入到各模型中，以获得各模型的估算结果；对各模型的估算结果做加权平均，以获得该待评估商户的风险估算结果。还提供商户风险估算系统。

Description

商户风险估算方法及系统

技术领域

本发明涉及数据处理，更为具体地，涉及基于商户的历史交易数据估算商户风险。

背景技术

在传统的商户风险评分方法中，通常采用评分卡、决策树等方法进行商户风险评分，这些方法在一定程度上可满足商户风险评分工作的需求。但是这些方法存在以下缺点：

通过规则方法进行商户风险评分，通常要求技术人员对业务具有很专业的认识，而人们无法总结所有的欺诈规则，因此传统的商户风险评分只能依据已知的欺诈规则对商户进行评分，无法利用未知的规则及规律，具有一定的局限性。

商户的交易行为在不断变化，可能在过去一段时间商户具有欺诈行为，但经过规范教育之后，不再有欺诈行为；同样，也存着“正常”商户发生过欺诈行为，但没有检测到的情况，因此未能对其进行处理。

发明内容

有鉴于此，本发明提供商户风险估算方法，该方法包括：

a.建立用于对商户进行风险评估的多个模型，每个模型对应设定时期内的一种欺诈行为；

b.将待评估商户在该设定时期的交易数据输入到各模型中，以获得各模型的估算结果；

c.对各模型的估算结果做加权平均，以获得该待评估商户的风险估算结果。

根据本发明所述的商户风险估算方法，其中，所述步骤a包括：

为每一种欺诈行为按照a1到a13的步骤建立相对应的模型：

a1.从所述设定时间内的历史交易数据中提取样本数据，所述样本数据包括发生过欺诈行为的商户的所有数据以及没有发生过欺诈行为的商户的所有数据；

a2.从所述样本数据中提取多个风险指标变量；

a3.根据如下的公式计算多个风险指标变量中各两个变量之间的相关性，其中，r为相关性系数，x与y分别代表各两个变量中的一个，x_i表示变量x的观测值，y_i表示变量y的观测值，表示从x₁到x_n的平均值，表示从y₁到y_n的平均值，1≤i≤n且－1≤r≤1：

r = Σ_{i = 1}^{n} (x_{i} - \overset{&OverBar;}{x}) (y_{i} - \overset{&OverBar;}{y}) / \sqrt{Σ_{i = 1}^{n} {(x_{i} - \overset{&OverBar;}{x})}^{2} Σ_{i = 1}^{n} {(y_{i} - \overset{&OverBar;}{y})}^{2}};

a4.根据所计算的r值筛选出第一数目个风险指标变量；

a5.设定用于区分正常商户与高风险商户的条件；

a6.根据所设定的条件从a1中已提取的样本数据中再次提取样本数据，包括发生过欺诈行为的商户的所有数据以及没有发生过欺诈行为的商户的所有数据；

a7.对a6中提取的样本数据进行标记，标记为正常商户或高风险商户；

a8.按照1:1的比例从所标记的正常商户与高风险商户中提取样本，通过C4.5决策树模型进行学习训练以获得训练好的模型；

a9.将在步骤a1中提取的样本数据输入到所获得的训练好的C4.5决策树模型中，从而计算出新的风险指标变量，换言之，新的风险指标变量是样本数据输入C4.5决策树所获得的计算结果；

a10.对步骤a9中计算出的风险指标变量进行归一化处理；

a11.通过逻辑回归训练模型对在步骤a6中再次提取的样本数据中的一部分进行训练，获得逻辑回归方程

\log (\frac{p}{1 - p}) = β_{0} + β_{1} x_{1} + . . . β_{m} x_{m}

其中，m＝第一数目+1，p为高风险商户的概率，β₀,β₁,...,β_m为回归系数，x₁,x₂,...,x_m为风险指标变量；

a12.以在步骤a6中再次提取的样本数据中未在步骤a11中进行训练的剩余部分，对所述逻辑回归模型进行测试，测试结果中p>0.6的商户为高风险商户，反之为正常商户；

a13.将a12中的计算结果与商户的实际情况进行比较，在确认a12中所计算的高风险商户的确为高风险商户的情况下，确定该逻辑回归模型可用。

根据本发明所述的商户风险估算方法，其中，所述方法还包括按照设定的时间间隔更新步骤a中建立的多个模型中的每一个，并基于更新的模型执行步骤b与步骤c。

根据本发明所述的商户风险估算方法，其中，按照设定的时间间隔更新步骤a中建立的多个模型中的每一个是基于按照设定的时间间隔对所述设定时期进行更新以更新该设定时期内的历史数据来进行的。

本发明还提供一种商户风险估算系统，其中，所属系统包括：模型建立模块，用于建立对商户进行风险评估的多个模型，每个模型对应设定时期内的一种欺诈行为；输入模块，用于将待评估商户在该设定时期的交易数据输入到各模型中，以获得各模型的估算结果；加权计算模块，用于对各模型的估算结果做加权平均，以获得该待评估商户的风险估算结果。

根据本发明提供的商户风险估算系统，其中，所述模型建立模块为每一种欺诈行为建立相对应的模型，所述模型建立模块包括：第一单元，其用于从所述设定时间内的历史交易数据中提取样本数据，所述样本数据包括发生过欺诈行为的商户的所有数据以及没有发生过欺诈行为的商户的所有数据；

第二单元，其用于从所述样本数据中提取多个风险指标变量；

第三单元，其用于根据如下的公式计算多个风险指标变量中各两个变量之间的相关性，其中，r为相关性系数，x与y分别代表各两个变量中的一个，x_i表示变量x的观测值，y_i表示变量y的观测值，表示从x₁到x_n的平均值，表示从y₁到y_n的平均值，1≤i≤n且－1≤r≤1：

r = Σ_{i = 1}^{n} (x_{i} - \overset{&OverBar;}{x}) (y_{i} - \overset{&OverBar;}{y}) / \sqrt{Σ_{i = 1}^{n} {(x_{i} - \overset{&OverBar;}{x})}^{2} Σ_{i = 1}^{n} {(y_{i} - \overset{&OverBar;}{y})}^{2}};

第四单元，其用于根据所计算的r的值筛选出第一数目个风险指标变量；

第五单元，其用于设定用于区分正常商户与高风险商户的条件；

第六单元，其用于根据所设定的条件从第一单元中已提取的样本数据中再次提取样本数据，包括发生过欺诈行为的商户的所有数据以及没有发生过欺诈行为的商户的所有数据；

第七单元，其用于对第六单元中提取的样本数据进行标记，标记为正常商户或高风险商户；

第八单元，其用于按照1:1的比例从所标记的正常商户与高风险商户中提取样本，通过C4.5决策树模型进行学习训练以获得训练好的模型；

第九单元，其用于将在第一单元中所提取的样本数据输入到所获得的训练好的C4.5决策树模型中，从而计算出新的风险指标变量；换言之，新的风险指标变量是样本数据输入C4.5决策树模型所获得的计算结果；

第十单元，其用于对第九单元中计算出的风险指标变量进行归一化处理；

第十一单元，其用于通过逻辑回归训练模型对所述第六单元再次提取的样本数据中一部分进行训练，获得逻辑回归方程

\log (\frac{p}{1 - p}) = β_{0} + β_{1} x_{1} + . . . β_{m} x_{m}

第十二单元，其用于以在第六单元中再次提取的样本数据中未被第十一单元来进行训练的剩余数据，对所述逻辑回归模型进行测试，测试结果中p>0.6的商户为高风险商户，反之为正常商户；

第十三单元，其用于将在第十二单元中的计算结果与商户的实际情况进行比较，在确认第十二单元中所计算的高风险商户的确为高风险账户的情况下，确定该逻辑回归模型可用；

根据本发明所述的商户风险估算系统，其还包括更新模块，其用于按照设定间隔更新第一模块所建立的多个模型中的每一个。

根据本发明所述的商户风险估算系统，其中，所述更新模块按照设定间隔更新步骤a中建立的多个模型中的每一个是基于按照设定间隔对所述设定时期进行更新以更新该设定时期内的历史数据来进行的。

附图说明

图1是根据本发明示例的商户风险评估算法的流程图。

图2是图1中所示的步骤10的流程图。

图3是根据本发明示例的商户风险估算系统的结构示意图。

图4是模型建立模块20的结构示意图。

具体实施方式

现在参照附图描述本发明的示意性示例，相同的附图标号表示相同的元件。下文描述的各实施例有助于本领域技术人员透彻理解本发明，且意在示例而非限制。除非另有限定，文中使用的术语(包括科学、技术和行业术语)具有与本发明所属领域的技术人员普遍理解的含义相同的含义。

图1是根据本发明示例的商户风险评估算法的流程图。根据图1所示的方法，在步骤10，建立用于对商户进行风险评估的多个模型，每个模型对应设定时期内的一种欺诈行为。对商户进行风险评估在本申请中指的是根据本申请所述的商户风险评估算法来评定商户进行欺诈行为的可能性。在此欺诈行为示例但非限制地包括套现、伪卡、伪卡集中使用点等。根据本发明的示例，从已经历的一段时期内的历史数据，比如2013年的数据中选取商户样本，然后针对每种欺诈行为建立模型。

在步骤12，将待评估商户在该设定时期的交易数据输入到所建立的各模型中，从而获得各模型的估算结果。继续以步骤10中的示例进行说明，设定时期为2013年，因此将待评估商户在2013年的历史数据输入到各个模型中，亦即，输入到针对不同欺诈行为建立的每个模型中，从而获得各模型的输出。根据本发明的示例，各模型的数据是该待评估商户进行各模型对应的欺诈行为的概率大小。

在步骤14，对各模型的估算结果做加权平均，以获得该评估商户的风险估算结果。

假设存在三种欺诈行为，分别是行为A、B与C，基于2013年商户的历史数据建立(步骤10)针对欺诈行为A的模型为f_A(x)、针对行为B的模型为f_B(x)、针对行为C的模型为f_C(x)。将待评估商户D在2013年的交易数据分别输入到f_A(x)、f_B(x)及f_C(x)中，得到商户D存在欺诈行为A、B与C的概率分别是P₁、P₂与P₃，参见步骤12。随后，继续步骤103，对P₁、P₂与P₃做加权平均，可按照公式(1)求商户风险评估值P：

P＝(w₁p₁+w₂p₂+,...,+w_vp_v)*1000(1)

其中，P的变化范围在0到1000之间，P值越大，则商户进行欺诈行为的可能性越高，或说该商户风险越高，W_i是加权因子，i从1到V，V与模型数量相等。

图2是图1中所示的步骤10的流程图。图2所示的流程用于为一种欺诈行为尽力对应的模型，针对其它欺诈行为的模型同样是执行图2所示的过程。

如图2所示，在步骤100，从设定时间内的历史交易数据中提取样本数据，样本数据包括发生过欺诈行为的商户的所有数据以及没有发生过欺诈行为的商户的所有数据。在如下的示例中，依然以2013年作为设定时间，依然参照上文结合图1的示例。从2013年数据中，任意选取有欺诈行为A的商户若干个作为第一类样本，同时选取正常商户(即没有任何欺诈行为的商户)若干个作为第二类样本。将第一类样本在2013年的所有数据与第二类样本在2013年的所有数据用作样本数据。

在步骤102，从步骤100选择的样本数据中提取多个风险指标变量。所提取的风险指标变量例如包括信用卡大额整数交易次数、套现卡片大额交易次数等，这里的大额例如是5000元以上。在该步骤中，可能基于样本数据提取了几十个或更多个风险指标变量。

在步骤104，根据公式(2)计算在步骤102中提取的风险指标变量中的每两个变量之间的相关性：

r = \frac{Σ_{i = 1}^{n} (x_{i} - \overset{&OverBar;}{x}) (y_{i} - \overset{&OverBar;}{y})}{\sqrt{Σ_{i = 1}^{n} {(x_{i} - \overset{&OverBar;}{x})}^{2} Σ_{i = 1}^{n} {(y_{i} - \overset{&OverBar;}{y})}^{2}}} - - - (2)

其中，r为相关性系数，x与y分别代表各两个变量中的一个，x_i表示变量x的观测值，y_i表示变量y的观测值，表示从x1到xn的平均值，表示从y1到yn的平均值，1≤i≤n且－1≤r≤1。

在步骤106，根据在步骤104中计算的r值，选择出数个风险变量，所选择的风险变量的数量为第一数目。r越靠近1，则相应的x与y的相关性越高。当相关性r大于0.7时，只在相应的x与y中选择一个作为风险变量。

在步骤108，设定用于区分正常商户与高风险商户的条件。

在步骤110，根据设定的条件，从步骤100中已经选取的样本数据中再选取样本数据，同样，再次选取的样本数据包括发生过欺诈行为的商户的所有数据以及没有发生过欺诈行为的商户的所有数据。

在步骤112，对步骤110中再次提取的样本数据进行标记，标记为正常商户或高风险商户。

在步骤114，按照1:1的比例从在步骤112中所标记的正常商户与高风险商户中提取样本，通过C4.5决策树模型进行学习训练以获得训练好的模型。也就是提取数量相同的正常商户与高风险商户作为样本数据。其中，C4.5决策树算法或决策模型是本领域技术人员已知，不再赘述。

在步骤116，将在步骤100中所提取的样本数据输入到所获得的训练好的C4.5决策树模型中，从而计算出新的风险指标变量。也可以说，新的风险指标变量是样本数据输入C4.5决策树模型所获得的计算结果。

在步骤118，对步骤116中计算出的风险指标变量进行归一化处理。

在步骤120，通过逻辑回归训练模型对在步骤110中再次提取的样本数据中一部分进行训练，获得逻辑回归方程(3)

\log (\frac{p}{1 - p}) = β_{0} + β_{1} x_{1} + . . . β_{m} x_{m} - - - (3)

其中，m＝第一数目+1，p为高风险商户的概率，β₀,β₁,...,β_m为回归系数，x₁,x₂,...,x_m为风险指标变量。

在步骤122，以在步骤110中再次提取的样本数据中未在步骤120中进行训练的剩余部分，对所述逻辑回归模型进行测试，测试结果中p>0.6的商户为高风险商户，反之为正常商户。

在步骤124，将在步骤122中的计算结果与商户的实际情况进行比较，在确认步骤122中所计算的高风险商户的确为高风险账户的情况下，确定该逻辑回归模型可用。

经过如上的步骤100到124确定了针对一种欺诈行为，例如欺诈行为A的模型。如上的步骤100到124适用于针对各欺诈行为建立相应的模型。

根据图1所示商户风险估算方法，还包括按照设定的时间间隔更新步骤10中建立的多个模型中的每一个，并基于更新的模型执行步骤12与步骤14。其中，按照设定的时间间隔更新步骤10中建立的多个模型的每一个是基于按照设定的时间间隔对所述设定时期进行更新以更新设定时期内的历史数据来进行的；例如将设定时期从2013年更新为2013年的2月到2014年的2月，由此将原本是基于2013年的历史数据的数据更为为基于2013年2月到2014年2月这段时间内的历史数据的数据。

根据本发明的示例，还提供一种商户风险估算系统。图3是根据本发明示例的商户风险估算系统的结构示意图。该系统包括模型建立模块20、输入模块22、加权计算模块24。模型建立模块20用于对商户进行风险评估的多个模型，每个模型对应设定时期内的一种欺诈行为。输入模块22用于将待评估商户在该设定时期的交易数据输入到各模型中，以获得各模型的估算结果。加权计算模块24用于对各模型的估算结果做加权平均，以获得该待评估商户的风险估算结果。

作为示例，如图4所示，模型建立模块20包括第一单元200、第二单元202、第三单元204、第四单元206、第五单元208、第六单元210、第七单元212、第八单元214、第九单元216、第十单元218、第十一单元220、第十二单元222以及第十三单元224。

第一单元200用于从所述设定时间内的历史交易数据中提取样本数据，所述样本数据包括发生过欺诈行为的商户的所有数据以及没有发生过欺诈行为的商户的所有数据。在如下的示例中，依然以2013年作为设定时间，依然参照上文结合图1的示例。从2013年数据中，任意选取有欺诈行为A的商户若干个作为第一类样本，同时选取正常商户(即没有任何欺诈行为的商户)若干个作为第二类样本。将第一类样本在2013年的所有数据与第二类样本在2013年的所有数据用作样本数据。

第二单元202从第一单元200选择的样本数据中提取多个风险指标变量。所提取的风险指标变量例如包括信用卡大额整数交易次数、套现卡片大额交易次数等，这里的大额例如是5000元以上。在此，可能基于样本数据提取了几十个或更多个风险指标变量。

第三单元204根据公式(2)计第二单元202提取的风险指标变量中的每两个变量之间的相关性。

第四单元206根据第三单元204中计算的r值，选择出数个风险变量，所选择的风险变量的数量为第一数目。r越靠近1，则相应的x与y的相关性越高。当相关性r大于0.7时，只在相应的x与y中选择一个作为风险变量。

第五单元208设定用于区分正常商户与高风险商户的条件。

第六单元210根据设定的条件，从第一单元200已经选取的样本数据中再选取样本数据，同样，再次选取的样本数据包括发生过欺诈行为的商户的所有数据以及没有发生过欺诈行为的商户的所有数据。

第七单元212，对第六单元210再次提取的样本数据进行标记，标记为正常商户或高风险商户。

第八单元214，按照1:1的比例从第七单元212中所标记的正常商户与高风险商户中提取样本，通过C4.5决策树模型进行学习训练以获得训练好的模型。也就是提取数量相同的正常商户与高风险商户作为样本数据。其中，C4.5决策树算法或决策模型是本领域技术人员已知，不再赘述。

第九单元216将在第一单元200中所提取的样本数据输入到所获得的训练好的C4.5决策树模型中，从而计算出新的风险指标变量。也可以说，新的风险指标变量是样本数据输入C4.5决策树模型所获得的计算结果。

第十单元218对第九单元216中计算出的风险指标变量进行归一化处理。

第十一单元220通过逻辑回归训练模型对第六单元210再次提取的样本数据中一部分进行训练，获得逻辑回归方程(3)。

第十二单元222，以第六单元210再次提取的样本数据中未在第十一单元220中进行训练的剩余部分，对所述逻辑回归模型进行测试，测试结果中p>0.6的商户为高风险商户，反之为正常商户。

第十三单元224，将第十二单元222中的计算结果与商户的实际情况进行比较，在确认第十二单元222中所计算的高风险商户的确为高风险账户的情况下，确定该逻辑回归模型可用。

经过如上的第一单元200到第十三单元224确定了针对一种欺诈行为，例如欺诈行为A的模型，但同样适用于针对各欺诈行为建立相应的模型。

采用图3所示商户风险估算系统，还包括按照设定的时间间隔更新模型建立模块20建立的多个模型中的每一个。其中，按照设定的时间间隔更新模型建立模块20建立的多个模型的每一个是基于按照设定的时间间隔对所述设定时期进行更新以更新设定时期内的历史数据来进行的；例如将设定时期从2013年更新为2013年的2月到2014年的2月，由此将原本是基于2013年的历史数据的数据更为为基于2013年2月到2014年2月这段时间内的历史数据的数据。

执行如本发明所述的商户风险估算方法或采用如本发明所述的商户风险估算系统，可首先对发生过一类欺诈交易的商户进行特征行为分析(例如信用卡大额整数交易次数等)，提取风险指标变量，去除相关性高的变量，定义正常商户与高风险商户规则，按规则重新提取高风险商户与正常商户样本；随后采用决策树模型进行训练，通过训练好的决策树模型计算所有样本变量的输出，作为新的风险指标变量；然后，采用逻辑回归算法训练模型，最终获得可用的训练模型。将商户样本数据分别输入到各个模型，进行加权平均，得到商户的风险估算结果。本发明充分考虑欺诈商户可能不再表现欺诈特征以及正常商户存在漏检测的情况，重新对欺诈商户进行特征行为分析并进行高风险商户及正常商户定义，从而提高参与训练及测试样本的准确性；通过采用决策树模型的输出作为逻辑回归模型的输入，可以兼顾商户欺诈交易规律性，同时也可以将未知的商户欺诈规律考虑进来，防止欺诈规则模型对规则的过拟合；通过按商户欺诈类型分别建立评分模型，进行加权评分，可以防止各种欺诈交易之间的相互干扰或相互抵消，进而得到良好的商户风险评分效果；提高商户风险评分的时效性：每天定时将新的交易数据补充到商户样本中，重新训练模型并自动计算商户的风险评分，保证商户风险评分的时效性。

Claims

1.一种商户风险估算方法，其特征在于，所述方法包括：

2.如权利要求1所述的商户风险估算方法，其特征在于，所述步骤a包括：

为每一种欺诈行为按照a1到a13的步骤建立相对应的模型：

a2.从所述样本数据中提取多个风险指标变量；

a4.根据所计算的r值筛选出第一数目个风险指标变量；

a5.设定用于区分正常商户与高风险商户的条件；

a9.将在步骤a1中提取的样本数据输入到所获得的训练好的C4.5决策树模型中，从而计算出新的风险指标变量；

a10.对步骤a9中计算出的风险指标变量进行归一化处理；

3.如权利要求1或2所述的商户风险估算方法，其特征在于，所述方法还包括：

按照设定的时间间隔更新步骤a中建立的多个模型中的每一个，并基于更新的模型执行步骤b与步骤c。

4.如权利要求4所述的商户风险估算方法，其特征在于，按照设定的时间间隔更新步骤a中建立的多个模型中的每一个是基于按照设定的时间间隔对所述设定时期进行更新以更新该设定时期内的历史数据来进行的。

5.一种商户风险估算系统，其特征在于，所属系统包括：

模型建立模块，用于建立对商户进行风险评估的多个模型，每个模型对应设定时期内的一种欺诈行为；

输入模块，用于将待评估商户在该设定时期的交易数据输入到各模型中，以获得各模型的估算结果；

加权计算模块，用于对各模型的估算结果做加权平均，以获得该待评估商户的风险估算结果。

6.如权利要求5所述的商户风险估算系统，其特征在于，所属模型建立模块为每一种欺诈行为建立相对应的模型，所述模型建立模块包括：

第一单元，其用于从所述设定时间内的历史交易数据中提取样本数据，所述样本数据包括发生过欺诈行为的商户的所有数据以及没有发生过欺诈行为的商户的所有数据；

第九单元，其用于将在第一单元中所提取的样本数据输入到所获得的训练好的C4.5决策树模型中，从而计算出新的风险指标变量；

第十三单元，其用于将在第十二单元中的计算结果与商户的实际情况进行比较，在确认第十二单元中所计算的高风险商户的确为高风险账户的情况下，确定该逻辑回归模型可用。

7.如权利要求5或6所述的商户风险估算系统，其特征在于，还包括：

更新模块，其用于按照设定间隔更新第一模块所建立的多个模型中的每一个。

8.如权利要求7所述的商户风险估算系统，其特征在于，所述更新模块按照设定间隔更新步骤a中建立的多个模型中的每一个是基于按照设定间隔对所属设定时期进行更新以更新该设定时期内的历史数据来进行的。