CN106408423A

CN106408423A - 用于风险评估的方法、系统及构建风险评估系统的方法

Info

Publication number: CN106408423A
Application number: CN201611066880.8A
Authority: CN
Inventors: 吕晓星; 陈京京
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2016-11-25
Filing date: 2016-11-25
Publication date: 2017-02-15

Abstract

本申请公开一种用于风险评估的方法、系统及构建风险评估系统的方法。该方法包括：基于大数据样本构建多个评分卡模型，并获取每个评分卡模型对应的评分卡权重；根据所述多个评分卡模型以及所述每个评分卡模型的评分卡权重，计算目标对象出现预定事件的绝对分数；利用所述绝对分数计算所述目标对象出现预定事件的相对分数。通过多个评分卡模型进行风险评分，避免了单一的评分卡模型造成的风险评估不精准的问题，提高了风险评估的精准度。

Description

用于风险评估的方法、系统及构建风险评估系统的方法

技术领域

本发明涉及计算机科学技术领域，具体而言，涉及一种用于风险评估的方法、系统及构建风险评估系统的方法。

背景技术

随着社会经济的不断发展，人们越来越意识到保险的重要性。保险是指投保人根据合同约定，向保险人支付保险费，保险人对于合同约定的可能发生的风险所造成的损失承担赔偿保险金的行为。因此，保险人对于保险业务的风险评估极为重要。

现有技术中的核保核赔等保险业务审核及风险控制，通常是利用既往经验，通过设定包括地区、人群、客户年龄、保险金额、保险费等维度的组合判断标准与规则，进行日常投保、理赔业务的自动审核和人工审核的筛选。

因此，需要一种新的用于风险评估的方法、系统及构建风险评估系统的方法。

在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本发明提供一种用于用于风险评估的方法、系统及构建风险评估系统的方法，能够通过多个评分卡模型进行风险评分，提高了风险评估的精准度。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明的一方面，提供一种用于风险评估的方法，所述方法包括：

基于大数据样本构建多个评分卡模型，并获取每个评分卡模型对应的评分卡权重；

根据所述多个评分卡模型以及所述每个评分卡模型的评分卡权重，计算目标对象出现预定事件的绝对分数；

利用所述绝对分数计算所述目标对象出现预定事件的相对分数。

在本发明的一种示例性实施例中，所述基于大数据样本构建多个评分卡模型，并获取每个评分卡模型对应的评分卡权重，包括：

重复执行以下操作，直到构建的多个评分卡模型的组合模型的AUC系数满足预设条件：

根据所述大数据样本的权重，通过logistic算法构建当前权重对应的评分卡模型；

根据所述评分卡模型计算每个样本出现预定事件的概率；

根据所述概率以及所述每个样本出现预定事件的实际值，更新所述大数据样本的权重，并获取所述评分卡模型对应的评分卡权重。

在本发明的一种示例性实施例中，所述方法还包括：预设所述大数据样本的初始权重。

在本发明的一种示例性实施例中，所述获取所述评分卡模型的评分卡权重，包括：

根据所述每个样本出现预定事件的概率获取每个样本出现预定事件的预测值；

根据所述预测值以及所述每个样本出现预定事件的实际值，计算所述评分卡模型的错误率；

根据所述评分卡模型的错误率获取所述评分卡模型的评分卡权重。

在本发明的一种示例性实施例中，所述根据所述评分卡模型的错误率获取所述评分卡模型的评分卡权重，包括：

通过以下公式获取所述评分卡模型的评分卡权重：

其中，α_m表示第m个评分卡模型的评分卡权重，ε_m表示第m个评分卡模型的错误率，m为大于或者等于1的整数。

在本发明的一种示例性实施例中，所述预设条件包括：所述多个评分卡模型的组合模型的AUC系数，与下一次更新所述大数据样本的权重构建的评分卡模型所组成的多个评分卡模型的组合模型的AUC系数的差值在预设范围之内。

在本发明的一种示例性实施例中，所述根据所述多个评分卡模型以及所述每个评分卡模型的评分卡权重，计算目标对象出现预定事件的绝对分数，包括：

通过以下公式计算所述目标对象出现预定事件的绝对分数：

其中，S_m,j表示目标对象出现预定事件的绝对分数，α_m表示第m个评分卡模型的评分卡权重，P_m,j表示目标对象在第m个评分卡出现预定事件的概率。

在本发明的一种示例性实施例中，所述利用所述绝对分数计算所述目标对象出现预定事件的的相对分数，还包括：

在预设的映射表中查找所述绝对分数，获取所述绝对分数对应的所述目标对象出现预定事件的的相对分数。

根据本发明的另一方面，提供一种用于构建风险评估系统的方法，所述方法包括：

重复执行以下操作，直到构建的多个评分卡模型的组合模型的AUC系数满足预设条件，利用所述多个评分卡模型的组合模型构建风险评估系统：

根据所述评分卡模型计算每个样本出现预定事件的概率；

通过以下公式获取所述评分卡模型的评分卡权重：

根据本发明的另一方面，提供一种用于风险评估的系统，所述系统包括：

构建模块，用于基于大数据样本构建多个评分卡模型，并获取每个评分卡模型对应的评分卡权重；

第一计算模块，用于根据所述多个评分卡模型以及所述每个评分卡模型的评分卡权重，计算目标对象出现预定事件的绝对分数；

第二计算模块，用于利用所述绝对分数计算所述目标对象出现预定事件的相对分数。

在本发明的一种示例性实施例中，所述构建模块，配置为用于重复执行以下操作，直到构建的多个评分卡模型的组合模型的AUC系数满足预设条件：

根据所述评分卡模型计算每个样本出现预定事件的概率；

本发明实施例中，基于大数据样本构建多个评分卡模型，并获取每个评分卡模型对应的评分卡权重；根据所述多个评分卡模型以及所述每个评分卡模型的评分卡权重，计算目标对象出现预定事件的绝对分数；利用所述绝对分数计算所述目标对象出现预定事件的相对分数。通过多个评分卡模型进行风险评分，避免了单一的评分卡模型造成的风险评估不精准的问题，提高了风险评估的精准度。

附图说明

通过参照附图详细描述其示例实施例，本发明的上述和其它目标、特征及优点将变得更加显而易见。

图1是根据一示例性实施例示出的用于风险评估的方法的流程图。

图2是根据一示例性实施例示出的ROC曲线的示意图。

图3是根据一示例性实施例示出的用于构建风险评估系统的方法的流程图。

图4是根据一示例性实施例示出的一种用于风险评估的系统的结构图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本发明将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

需要说明的是，现有技术的技术方案中，在风险评估的精准程度和对经验数据的深度挖掘方面仍有较大的改善空间，而且评分系统在模型构建的过程中如果样本信息量很少，造成风险评估不精准。

如图1所示，在S102中，基于大数据样本构建多个评分卡模型，并获取每个评分卡模型对应的评分卡权重。

需要说明的是，本发明实施例中提供的用于风险评估的方法可以用于多种场景，例如：对保险业务进行风险评估，对信用进行信用评估，对安全系数进行评估，对电话接通情况进行评估等。本发明实施例中以对保险业务进行风险评估为例，则预定事件可以为出险，出现概率可以为出险概率。

根据示例实施例，可以重复执行以下操作，直到构建的多个评分卡模型CARD的组合模型的AUC系数满足预设条件，获取多个评分卡模型CARD。

需要说明的是，重复执行一次S1021-S1023，就是一次循环迭代。根据示例实施例，需要为所有大数据样本预设初始权重，例如，大数据样本的总数为N，实际没有出险的样本的个数为a,实际出险的样本个数为b为例，预设实际不会出险的样本的初始权重为1，实际出险的样本的初始权重设置为a/b。从而使实际出险和实际不出险的总体权重相等。

S1021、根据大数据样本的权重，通过logistic算法构建当前权重对应的评分卡模型。

需要说明的是，可以通过logistic利用极大似然估计得到当前大数据样本的权重对应的评分卡模型，例如，在SAS里可以通过proc logistic过程步得到。

评分卡模型给出了各维度因素的估计值，例如，以保险业务的出险概率为例，评分卡模型可以表示维度因素(如，性别和婚姻状况)的估计值，如表1所示，为本发明实施例提供的一种评分卡模型。

维度因素	观测值	估计值
			截距		0
性别	男	1
			性别	女	0
婚姻状况	已婚	1
			婚姻状况	未婚	0

表1

需要说明的是，表1所示的评分卡模型中的观测值是指样本的每个维度因素的实际值，可以通过样本直接得到。

对于每个样本，通过评分卡模型，可以查找其各维度因素的观测值对应的估计值。

S1022、根据该评分卡模型计算每个样本出现预定事件的概率。

可以通过如下公式计算每个样本出险预定事件的概率。

P_m,j表示根据第m个评分卡模型得到的第j个样本的出险概率，β_m0为第m个评分卡模型的截距(intercept)，x_i,j(i＝0，1，2…)为第j个样本的第i个维度因素对应的观测值，β_m,i(i＝0，1，2…)为第j个样本的第m个评分卡中第i个维度因素对应的估计值。

例如，以表1的评分卡模型为例，假设样本的性别为男，而且未婚，则出险概率计算为

这里β₀对应截距取值为0，由于第1个维度因素x₁对应的取值为男，表1中β₁对应的取值为1，由于第2个维度因素x₂对应的取值为未婚，表1中β₂对应的取值为0。

S1023、根据上述概率以及每个样本出现预定事件的实际值，更新大数据样本的权重，并获取上述评分卡模型对应的评分卡权重。

当计算出每个评分卡模型的出险概率后，根据每个样本出现预定事件的概率获取每个样本出现预定事件的预测值。

评分卡模型可以看作一个分类器，传统的2分类模型(譬如决策树)，得出的预测结果是样本是否会出现预定事件(也就是结果只有0或1两种情况)。本发明实施例中，通过logistic算法构建的每个评分卡模型出现预定事件的概率位于0至1之间。此时，通过设定概率阈值，将计算出的概率大于该阈值的样本，预测会出现预定事件。将计算出的概率小于或者等于该阈值的样本，预测不会出现预定事件。

例如，本发明上述实施例中，由于实际没有出险的样本的个数为a,实际出险的样本个数为b，预设实际不会出险的样本的初始权重为1，实际出险的样本的初始权重设置为a/b。从而使实际出险和实际不出险的总体权重都为a，因此可以选取预设概率阈值为0.5。

进一步的，将计算出的每个样本的出险概率与0.5比较，大于0.5的样本为预测为会出险的样本，设置预测值为1。小于或者等于0.5的样本为预测不会出险的样本，设置预测值为0。

对应设置每个样本是否出险的实际值(对于实际出险的样本，设置实际值为1，对于实际没有出险的样本，设置实际值为0)。

根据每个样本的预测值以及实际值，更新样本的权重可以包括多种方式，本发明实施例中示例性提供一种方式。

根据每个样本的预测值以及实际值，计算该评分卡模型的错误率，根据该评分卡模型的错误率获取所述评分卡模型的评分卡权重。

计算评分卡模型的错误率可以通过如下公式：

ε_m表示第m个评分卡模型的错误率，y_j为第j个样本的实际值，为第j个样本的第m个评分卡模型的预测值，ω_m,j表示第j个样本的第m个评分卡模型对应的权重，N表示样本的总数。

进一步的，通过以下公式获取该评分卡模型的评分卡权重：

更进一步的，可以根据如下公式更新样本的权重。

其中，

ω_m+1,j表示第j个样本更新的权重，α_m表示第m个评分卡模型的评分卡权重。如果第j个样本的第m个评分卡模型的预测值与该样本的实际值相同，则y_m(X_j)等于1。如果第j个样本的第m个评分卡模型的预测值与该样本的实际值不相同，则y_m(X_j)等于-1。通过公式(4)可以增加训练错误的样本权重，减少训练正确的样本权重，从而加快了获取样本的多个评分卡模型的速率。

y_j为第j个样本的实际值，为第j个样本的第m个评分卡模型获取的预测值，ω_m,j表示第j个样本的第m个评分卡模型对应的权重，N表示样本的总数。

需要说明的是，根据概率以及每个样本出现预定事件的实际值，获取该评分卡模型对应的评分卡权重的方法请参见上文，此处不再赘述。

通过重复执行S1021-S1023，获取到多个评分卡模型，以及每个评分卡模型对应的评分卡权重。当构建的多个评分卡模型的组合模型的AUC系数满足预设条件，跳出上述循环迭代。

该预设条件包括：上述多个评分卡模型的组合模型的AUC系数，与下一次更新上述大数据样本的权重构建的评分卡模型所组成的多个评分卡模型的组合模型的AUC系数的差值在预设范围之内。例如，该预设条件可以用以下公式表示：

AUC_m+1＜＝AUC_m+Z (6)

Z表示预设范围，本发明实施提供一个经验值0.005。

需要说明的是，获取上述多个评分卡模型的组合模型的AUC系数可以有多种方式，本发明实施例示例性提供一种方式。

计算每个样本在每个评分卡模型的出险概率以及每个评分卡模型对应的评分卡权重后，计算每个样本在多个评分卡模型的绝对分数，将所有样本(N个)的绝对分数取值从小到大分100等份，取每一份的最大值作为一个阈值(相当于每百分位数设定为一个阈值，共设定100个阈值)，将大于这个阈值而又实际出险的预设样本占所有出险样本的比值设为Y轴取值，将大于这个阈值而又实际没有出险的预定样本占所有未出险样本的比值设为X轴取值，得到当前阈值对应的点，这样形成了100个点，这些点依次连起来就形成了ROC(Receiver Operating Characteristic)曲线。

图2是根据一示例性实施例示出的ROC曲线的示意图，ROC的主要分析工具是一个画在二维平面上的曲线——ROC curve。平面的横坐标是false positive rate(FPR)，纵坐标是true positive rate(TPR)。对某个分类器而言，我们可以根据其在测试样本上的表现得到一个TPR和FPR点对。这样，此分类器就可以映射成ROC平面上的一个点。调整这个分类器分类时候使用的阈值，我们就可以得到一个经过(0，0)，(1，1)的曲线，这就是此分类器的ROC曲线。

AUC系数就是处于ROC curve下方的那部分面积的大小。通常，AUC的值介于0.5到1.0之间，模型具有越大的AUC系数代表了模型的好坏样本的区分度越好，模型的精准程度越高。

当构建的多个评分卡模型的组合模型的AUC系数满足预设条件，这多个评分卡模型为构建风险评估系统的多个评分卡模型。

在S104中，根据上述多个评分卡模型以及每个评分卡模型的评分卡权重，计算目标对象出现预定事件的绝对分数。

根据示例实施例，可以通过以下公式计算所述目标对象出现预定事件的绝对分数：

在S106中，利用上述绝对分数计算目标对象出现预定事件的相对分数。

根据示例实施例，在预设的映射表中查找所述该绝对分数，获取所述该绝对分数对应的所述该目标对象出现预定事件的的相对分数。例如，通过将S102中的N个样本的绝对分数划分为连续的100个区间，每一所述区间对应一个相对值分数，因此将可以将绝对分数转换为相对分数。例如，将1000万个样本的绝对分数划分为100个连续的区间，每个区间10万个数据，将这1000万个样本的绝对分数按照大小划分到这100个区间内，如，绝对分数最低的10万个数据划分到第1个区间，这个区间内绝对分数的最大值为0.5，则当目标对象的绝对分数小于或者等于0.5时，对应的相对分数为1。

但本发明不限于此，例如，将大量样本的绝对分数划分为连续的10个或50个或1000个区间，每一区间对应一个相对分数，因此可以进行其他精度的评分，本示例实施方式中对此不做特殊限定。

图3是根据一示例性实施例示出的用于构建风险评估系统的方法的流程图，包括：

S302、根据大数据样本的权重，通过logistic算法构建当前权重对应的评分卡模型；

根据示例实施例，预设大数据样本的初始权重。

S304、根据所述评分卡模型计算每个样本出现预定事件的概率；

S306、根据所述概率以及所述每个样本出现预定事件的实际值，更新所述大数据样本的权重，并获取所述评分卡模型对应的评分卡权重。

根据示例实施例，根据所述预测值以及所述每个样本出现预定事件的实际值，计算所述评分卡模型的错误率，根据所述评分卡模型的错误率获取所述评分卡模型的评分卡权重。

根据示例实施例，通过以下公式获取所述评分卡模型的评分卡权重：

所述预设条件包括：所述多个评分卡模型的组合模型的AUC系数，与下一次更新所述大数据样本的权重构建的评分卡模型所组成的多个评分卡模型的组合模型的AUC系数的差值在预设范围之内。

本发明实施例中，利用多个评分卡模型构建风险评估系统，避免了单一的评分卡模型造成的风险评估不精准的问题，提高了风险评估的精准度。

下述为本发明系统实施例，可以用于执行本发明方法实施例。在下文对系统的描述中，与前述方法相同的部分，将不再赘述。

如图4所示，该系统40包括：

构建模块410，用于基于大数据样本构建多个评分卡模型，并获取每个评分卡模型对应的评分卡权重；

第一计算模块420，用于根据所述多个评分卡模型以及所述每个评分卡模型的评分卡权重，计算目标对象出现预定事件的绝对分数；

第二计算模块430，用于利用所述绝对分数计算所述目标对象出现预定事件的相对分数。

根据示例实施例，所述构建模块410，配置为用于重复执行以下操作，直到构建的多个评分卡模型的组合模型的AUC系数满足预设条件：

根据所述评分卡模型计算每个样本出现预定事件的概率；

以上具体地示出和描述了本发明的示例性实施例。应可理解的是，本发明不限于这里描述的详细结构、设置方式或实现方法；相反，本发明意图涵盖包含所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种用于风险评估的方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述基于大数据样本构建多个评分卡模型，并获取每个评分卡模型对应的评分卡权重，包括：

根据所述评分卡模型计算每个样本出现预定事件的概率；

3.如权利要求2所述的方法，其特征在于，所述方法还包括：预设所述大数据样本的初始权重。

4.如权利要求3所述的方法，其特征在于，所述获取所述评分卡模型的评分卡权重，包括：

5.如权利要求4所述的方法，其特征在于，所述根据所述评分卡模型的错误率获取所述评分卡模型的评分卡权重，包括：

通过以下公式获取所述评分卡模型的评分卡权重：

α_{m} = l o g \frac{1 - ϵ_{m}}{ϵ_{m}}

6.如权利要求2所述的方法，其特征在于，所述预设条件包括：所述多个评分卡模型的组合模型的AUC系数，与下一次更新所述大数据样本的权重构建的评分卡模型所组成的多个评分卡模型的组合模型的AUC系数的差值在预设范围之内。

7.如权利要求1所述的方法，其特征在于，所述根据所述多个评分卡模型以及所述每个评分卡模型的评分卡权重，计算目标对象出现预定事件的绝对分数，包括：

通过以下公式计算所述目标对象出现预定事件的绝对分数：

S_{m, j} = Σ_{j = 1}^{m} α_{m} P_{m, j}

8.如权利要求1所述的方法，其特征在于，所述利用所述绝对分数计算所述目标对象出现预定事件的的相对分数，还包括：

9.一种用于构建风险评估系统的方法，其特征在于，所述方法包括：

根据大数据样本的权重，通过logistic算法构建当前权重对应的评分卡模型；

根据所述评分卡模型计算每个样本出现预定事件的概率；

10.如权利要求9所述的方法，其特征在于，所述方法还包括：预设所述大数据样本的初始权重。

11.如权利要求10所述的方法，其特征在于，所述获取所述评分卡模型的评分卡权重，包括：

12.如权利要求11所述的方法，其特征在于，所述根据所述评分卡模型的错误率获取所述评分卡模型的评分卡权重，包括：

通过以下公式获取所述评分卡模型的评分卡权重：

α_{m} = l o g \frac{1 - ϵ_{m}}{ϵ_{m}}

13.如权利要求9所述的方法，其特征在于，所述预设条件包括：所述多个评分卡模型的组合模型的AUC系数，与下一次更新所述大数据样本的权重构建的评分卡模型所组成的多个评分卡模型的组合模型的AUC系数的差值在预设范围之内。

14.一种用于风险评估的系统，其特征在于，所述系统包括：

15.如权利要求14所述的系统，其特征在于，所述构建模块，配置为用于重复执行以下操作，直到构建的多个评分卡模型的组合模型的AUC系数满足预设条件：

根据所述评分卡模型计算每个样本出现预定事件的概率；