CN107025596B

CN107025596B - 一种风险评估方法和系统

Info

Publication number: CN107025596B
Application number: CN201610070616.5A
Authority: CN
Inventors: 刘江
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-02-01
Filing date: 2016-02-01
Publication date: 2021-07-16
Anticipated expiration: 2036-02-01
Also published as: EP3413221A1; US20180308160A1; JP6771751B2; KR102061987B1; JP2018538587A; CN107025596A; WO2017133492A1; KR20180041174A; EP3413221A4

Abstract

一种风险评估方法和系统，通过挖掘有价值的弱变量加入风险评估模型，使风险评估的考量因素更全面，解释性和稳定性更强，有助于提高风险评估的准确性，并保证风险评估的客观性。一些可行的实施方式中，方法包括：根据数据源与目标变量的相关性和/或数据源与用户信息的相关性，进行变量分组，得到至少一个第一类变量组和至少一个第二类变量组；针对所述至少一个第二类变量组分别构建风险评估模型，得到每个第二类变量组的风险评估模型的模型结果；将每个第二类变量组的模型结果作为一个变量，与所述至少一个第一类变量组中的全部全量合并，组成第三类变量组；针对所述第三类变量组构建风险评估综合模型。

Description

一种风险评估方法和系统

技术领域

本发明涉及基于计算机技术的风险评估技术领域，具体涉及一种风险评估方法和系统。

背景技术

风险评估是对信息所面临的威胁、存在的弱点、造成的影响等所带来风险的可能性的评估。常用的风险评估方法有模型法和专家法两种。

模型法是指利用逻辑回归、决策树、随机森林等机器学习方法构建风险评估模型，基于模型结果进行风险评估的方法。实践发现，有些弱变量可能在业务上非常有意义，但是，模型法中，弱变量不能入选模型，导致模型法不能反映某些变量的作用，难以反映业务发展的未来趋势。

专家法是指根据专家意见，确定评估的考量因素，进行风险评估的方法。专家法可以解决弱变量无法入选模型的问题，但是，专家法是一种有较大的主观性的方法，没有充分挖掘和利用数据的价值。

发明内容

本发明实施例提供一种风险评估方法，通过挖掘有价值的弱变量加入风险评估模型，使风险评估的考量因素更全面，解释性和稳定性更强，有助于提高风险评估的准确性，并保证风险评估的客观性。

本发明第一方面提供一种风险评估方法，包括：根据数据源与目标变量的相关性和/或数据源与用户信息的相关性，进行变量分组，得到至少一个第一类变量组和至少一个第二类变量组；针对所述至少一个第二类变量组分别构建风险评估模型，得到每个第二类变量组的风险评估模型的模型结果；将每个第二类变量组的模型结果作为一个变量，与所述至少一个第一类变量组中的全部全量合并，组成第三类变量组；针对所述第三类变量组构建风险评估综合模型。

本发明第二方面提供一种风险评估系统，包括：预处理模块，用于根据数据源与目标变量的相关性和/或数据源与用户信息的相关性，进行变量分组，得到至少一个第一类变量组和至少一个第二类变量组；第一构建模块，用于针对所述至少一个第二类变量组分别构建风险评估模型，得到每个第二类变量组的风险评估模型的模型结果；变量组合模块，用于将每个第二类变量组的模型结果分别作为一个变量，与所述至少一个第一类变量组中的全部全量合并，组成第三类变量组；第二构建模块，用于针对所述第三类变量组构建风险评估综合模型。

由上可见，在本发明的一些可行的实施方式中，采用对变量分组，得到两类变量组，针对其中第二类变量组中的每个变量组分别构建风险评估模型，将该类的每个变量组的模型结果作为一个变量，与第一类变量组中的变量合并，组成第三类变量组，最后针对该第三类变量组构建风险评估综合模型的技术方案，取得了以下技术效果：

该方法充分的挖掘和利用了第二类变量组的数据价值，各个第二类变量组中的各个变量反映在最终构建的综合模型中，从而使风险评估考量因素更全面，解释性更强，模型稳定性更强，模型结果尽量客观和准确，应用中也更具鲁棒性，有助于提高风险评估效果，有助于反映业务发展的未来趋势。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明一个实施例提供的一种风险评估方法的流程示意图；

图2是采用传统模型方法构建模型的过程示意图；

图3是采用本发明实施例风险评估方法构建模型的过程示意图；

图4是本发明一个实施例提供的一种风险评估系统的结构示意图；

图5是本发明一个实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明实施例技术方案涉及基于计算机系统的风险评估方法。下面首先对风险评估方法涉及到的一些术语进行简单说明。

贯穿本说明书，术语“风险评分卡”是指：一种风险评估模型，例如用于评估用户信用风险高低的风险评估模型，通常有监督学习和半监督学习(如果有拒绝推断的话)两种。监督目标(即目标变量)通常是用户在一段时间内是否违约，比如用户在发放贷款后6个月内是否发生90天以上逾期。构建风险评分卡的方法通常分为两类：模型法和专家法。

术语“弱变量”是指：在统计上不显著，即显著性假设检验的P值(P-Value，Probability，Pr)大于或等于设定标准例如0.05，按此统计标准无法入选风险评估模型的变量。相对的，术语“强变量”是指：在统计上比较显著，即显著性假设检验的P值小于设定标准例如0.05，满足显著性统计标准的变量。需要说明的是，设定标准也可以是0.05以外的值，例如0.01等，本文对此不予限定。值得说明的是，假设检验是推断统计中的一项重要内容。用专业统计软件进行假设检验时，P值是进行检验决策的一个依据。P值即概率，反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P值，一般可以P<0.05为显著，其含义是样本间的差异由抽样误差所致的概率小于0.05。

术语“变量组”是指：数据源相同的一组变量，术语“强变量组”是指：与目标变量的相关性较高和/或与用户信息的相关性较高的变量组，“弱变量组”是指目标变量的相关性较低和/或与用户信息的相关性较低的变量组。其中，相关性可以用相关系数例如P值来表达，可以计算变量组中所有变量的P值的平均值，平均值大于阈值时，认为该变量组与目标变量的相关性较高，不大于阈值时，认为该变量组与目标变量的相关性较低。

术语“专家评分卡”是指：基于行业专家经验设计的风险评分卡。专家评分法即是基于专家评分卡进行风险评估的方法。

术语“逻辑回归(logistic regression，LR)”是指:目前应用比较成熟、广泛的用于开发风险评分卡的一种方法，是一种广义的线性回归方法。

术语“决策树”是指：一种逼近离散函数值的方法。决策树是一种典型的分类方法，也可以用来构建预测模型。首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策树对新数据进行分析。本质上，决策树是通过一系列规则对数据进行分类的过程。决策树的典型算法有ID3，C4.5，CART(Classification And Regression Tree，分类回归树算法)等。

术语“层次分析法”是指：是将与决策总是有关的元素分解成目标、准则、方案等层次，在此基础之上进行定性和定量分析的决策方法。

术语“变量归一化”是指：变量标准化处理的一种操作，目的是为了使具有不同量纲的变量具有可比性。归一化有不同的方法，本文可以采用最小-最大规范化方法，变量处理后的取值区间均为[0，1]。

术语“模型鲁棒性(Robustness)”是指：指模型从开发到实施过程中的稳定性，鲁棒性高的模型实施效果更理想。

术语“KS(Kolmogorov Smirnov)”是指：一种衡量评分模型效果好坏的常用指标，Kolmogorov和Smirnov两位前苏联数学家的名字，KS是处于0-100之间，值越大代表模型效果越好。通常情况下KS＝25左右是金融机构对风险评估的接受标准。

下面，简单介绍模型法。

模型法是最为常用的一种风险评估方法，模型法构建的风险评估模型(一种逻辑模型)可称为风险评分卡。构建风险评分卡的传统方法有很多，比如逻辑回归法、决策树、随机森林等。其中，逻辑回归/逐步回归法(logistic/stepwise)是目前应用最为广泛、最成熟的方法之一。下面以逻辑回归法为例，介绍风险评分卡的基本建模过程包括：

首先，准备好一张归一化的建模宽表如表1，表1中变量x的数量一般至少会在数百以上。假设表1中共10000个用户样本和300个属性(即变量)。表1中总共包含数据源不同的三类变量：支付、即时通信和社交。假设这三类变量每类分别有100个变量，总共300个变量。表1中第二列的Y即是监督目标或者说目标变量，具体可以是指用户在发放贷款后1年内是否发生90天以上逾期。表中每个变量的值都是归一化后的值，因此值均落在[0，1]之间。

需要说明的是，本发明实施例中所说的变量均来自于合法的数据源，如包括用户数据或者公众可查询的数据，且用户数据是经过用户授权使用的数据。

表1建模宽表

容易理解，三类变量中，支付类变量与金融直接相关，相关性较高，可认为是强变量组，即时通信和社交类变量与金融的相关性较低，可认为是弱变量组。

假设表1中，第1-15个变量属于强变量组中的强变量，第16-30个属于弱变量组中的强变量。经过一系列变量分析和变量筛选后，正常的结果可能是，强变量组的前15个强变量和弱变量组的第16-18个强变量进入了最终的逻辑回归模型。得到的逻辑回归模型结果如式(1)和(2)：

Probability＝exp(Logodds₁₅)/(1+exp(Logodds₁₅)) (2)

其中，Logodds是逻辑回归模型的输出结果(简称模型结果)，Probability是概率参数，Probability表示所述模型结果Logodds变坏的概率。

可见，弱变量组中只有x16、x17和x18等3个变量入选模型，其余变量未进入模型。虽然可通过降低select in/out(选择输入/输出)筛选标准，或者强行加入(force in)的方法，把弱变量组中的其他强变量(比如x19-x30)放入模型，但是其对模型的贡献并不能效地反映出来，或者说弱变量组在风险评分卡中的权重过低。这种做法还有一个显著的缺点是，这些通过放低标准新入选的弱变量组的变量可能很不稳定。

下面，简单介绍专家法。

专家评分卡是基于行业专家经验设计形成的评分逻辑模型。专家评分卡在业务开展初期非常有用，另外，在一些用户量相对较少的对公业务中也经常被用到。传统的专家评分卡会事先搜集专家意见，确定制订评分的考量因素，即所用变量范围，然后再确定每个变量的权重，最终得到业务上所需要的专家评分卡。数据和变量假设同模型法中的表1完全一样，则专家评分卡如表2：

表2专家评分卡

专家评分卡解决了模型法对于弱变量组的大部分变量无法入选模型的问题，并且理解和实施起来都比较容易。但是专家评分卡有一个致命的缺陷：没有充分挖掘和利用数据的价值，有比较大的主观性。比如，该方法未考虑变量的协相关性及协同作用，而且变量值在未来可能波动比较大，从而导致模型不太稳定。

如上文所述，现有风险评分卡构建方法主要分专家法和模型法两类。这两类方法在行业应用中都比较成熟，但它们的缺陷也是非常明显的，模型法的缺陷主要是弱变量无法入选，不能反映业务发展趋势的问题；专家法的缺陷主要是，方法带有较大的主观性，不能最大化地挖掘和利用数据的价值。

为此，本发明实施例提供一种风险评估方法和系统，下面分别进行介绍。

(实施例一、)

请参考图1，本发明第一实施例提供一种风险评估方法，该方法可以包括：

110、根据数据源与目标变量的相关性和/或数据源与用户信息的相关性，进行变量分组，得到至少一个第一类变量组和至少一个第二类变量组。

随着互联网快速发展，信息和数据越来越多，风险评估方法所用到的数据源也越来越广泛，有些和信用风险相关性比较强，有些比较弱。本文中，首先根据数据源对变量进行分组，将来源相同的一类变量视为一个变量组，例如，来源自支付、即时通信、社交的三类变量可视为三个变量组。本文中，还对变量组进行分类，将所有的变量组分为强变量组和弱变量组两类。有些变量和用户信息例如资金直接相关，和用户信用风险具有较强的相关性，这类变量可被称之为强变量组，比如用户理财、储蓄、消费、支付等；而有些变量和金融并不直接相关，只是反映出用户的一些社交和行为习惯，因此和信用风险的相关性较小，这类变量可称之为弱变量组，比如即时通信、社交、游戏等。

变量组分类的因素可以包括但不限于以下两种：

一、数据源与目标变量(例如是否违约)的相关性。

相关性分析一般可用皮尔逊(Pearson Correlation Coefficient，Pearson)相关系数，其计算方法这里不再赘述。相关性强弱的标准一般可以是：0.6以上是强相关，0.4-0.6中等相关，0.2-0.4弱相关，0.2以下极弱相关或无相关。但是金融界实际应用的标准与之相差比较远，相关性强弱的标准一般要低得多，因为相关系数在0.4以上的变量极其少见。也就是说，可以根据需要自行定义相关性强弱的标准，举例来说，针对支付类的变量可以定义0.1以上是强相关，0.1以下以弱相关，等。

二、数据源与用户信息(例如资金)的相关性。

相关性大小和变量类别的关系也非常大，通常和用户资金等信息距离比较近的变量的相关性比较大，如贷款、理财和支付等；而距离用户资金距离比较远的变量的相关系数也比较小，如即时通信、社交等变量。应用中，可以用重要程度值表示数据源与用户信息的相关性，例如，强、中、弱等。

本文中可以根据上述两个标准，即根据数据源与目标变量的相关性和/或数据源与用户信息的距离，进行变量组分类，分为强变量组和弱变量组。强变量组即是所述的第一类变量组，弱变量组即是所述的第二类变量组。

一些实施例中，变量组分类的具体方法可以包括：

a0、根据数据源的不同，将所有变量分为多个变量组；

a1、根据数据源与目标变量的相关性，计算任一个变量与目标变量的相关系数，并计算所述多个变量组中每个变量组的平均相关系数；所说的相关系数可以是上文提到的P值。

a2、根据数据源与用户信息的相关性，确定所述多个变量组中每个变量组的重要程度值；

a3、根据所述多个变量组的平均相关系数和/或重要程度值进行变量组分类，将所述平均相关系数大于阈值和/或重要程度值最高的变量组分类为第一类变量组，即强变量组，将其它变量组分类为第二类变量组，即弱变量组。

可见，强变量组是指与目标变量的相关性较高和/或与用户信息的相关性较高的变量组，弱变量组是指目标变量的相关性较低和/或与用户信息的相关性较低的变量组。

如表3所示，是一个应用场景例中变量组分类的示意图。每类变量的相关性强弱标准也不相同，结合实际经验设定的相关性强弱标准的阈值例如可以是：支付类为0.1，即时通信类为0.05，社交类为0.06。大于阈值的认为是强变量，小于阈值的认为是弱变量。支付类变量中，较强的变量有反映用户还款能力的信用卡还款，以及反映用户还款能力的资金规模等；较弱的变量有用户交易的频率、用户电话卡充值等。即时通信类变量中，较强的变量有反映用户稳定性的常用登陆城市个数等，较弱的变量有收发信息条数等。社交类变量中，较强的变量有粘性较高的好友数量、好友质量等，较弱的变量有好友的个数、收发信息量等。

为了表述方便，把这三类变量的变量名和表1对应起来，具体见表3的第3行和第4行。按上述变量强弱标准的阈值，每类变量的强变量和弱变量个数分别是：支付变量为15和85，即时通信变量为8和92，社交为7和93。

表3变量分组

由表3可见，可以按照数据源的不同将来源于支付、即时通信和社交的三类变量分为三组，即变量组A、B和C，其中，变量组A的平均相关系数最高且重要程度值最高，因此变量组A为强变量组，变量组B、C为弱变量组。

值得说明的是，弱变量组不同于弱变量。弱变量组中也可能有强变量，只不过和目标变量的相关性并不是很高。同样地，强变量组中也可能含有弱变量。当然，弱变量更容易出现弱变量组中，强变量更容易出现在强变量组中。虽然弱变量组中的很多变量在统计上是显著的，但是，当把它们和强变量组放在一起建模时，弱变量组中的变量通常只有少数能进入模型，弱变量组的作用会被大大稀释，无法发挥应有的作用。

120、针对至少一个第二类变量组分别构建风险评估模型，分别得到每个第二类变量组的风险评估模型的模型结果。

本步骤中，将针对上一步骤得到的至少一个第二类变量组或者说弱变量组，分别构建风险评估模型，分别得到每个弱变量组的风险评估模型的模型结果。假设用逻辑回归方法针对弱变量组分别进行建模。考虑到是弱变量组，可以适当放宽变量入选标准。

例如，即时通信对应的弱变量组B的建模结果如下：

公式(3)中，Logodds_B为模型结果，f(x_B)表示对变量组B建模，x_Bi表示变量组B的第i个变量，i为正整数，a₀为截距项/常数项，a_i表示变量x_Bi的权重。

考虑表3中变量名的对应关系，式(3)可以写成：

公式(4)中，Logodds_B为模型结果，f(x_B)表示对变量组B建模，a₀为截距项/常数项，a_i表示变量x_i的权重，i为正整数。

同理，可以得到社交对应的弱变量组C的建模结果：

公式(5)中，Logodds_C为模型结果，f(x_C)表示对变量组C建模，x_Ci表示变量组C中的第i个变量，i为正整数，a₀为截距项/常数项，a_i表示变量x_Ci的权重。

公式(6)中，Logodds_C为模型结果，f(x_C)表示对变量组C建模，a₀为截距项/常数项，a_i表示变量x_i的权重，i为正整数。

需要说明的是，以上公式表示的风险评估模型仅为示例，并不用于限制本发明。

130、将每个第二类变量组的模型结果分别作为一个变量，与至少一个第一类变量组中的全部全量合并，组成第三类变量组；针对所述第三类变量组构建风险评估综合模型。

本步骤中，将每一个弱变量组的模型结果作为一个变量，将所有强变量组中的所有变量和所有模型结果变量合并，组成第三类变量组，本文中也将第三类变量组称为联合变量组。假设记至少一个弱变量组中的任一弱变量组X_j的风险评估模型的模型结果为Logodds_j，并将Logodds_j作为一个变量，记至少一个强变量组中的任一变量为x_i，可将所有变量Logodds_j与x_i合并组成联合变量组；其中，i和j均为正整数。联合变量组可表示为[x₁,x₂......x_i......x_n......Logodds_j......Logodds_m]，其中，n为变量x_i的个数，m为变量Logodds_j的个数，n和m均为正整数。

本步骤中，针对该联合变量组构建风险评估综合模型：

其中，a₀为截距项/常数项，a_i表示变量x_i的权重，a_j表示变量Logodds_j的权重。

假设变量Logodds_j有两个，即上一步骤得到的Logodds_B和Logodds_C，则公式(7)表示的综合模型可写为：

进一步的，还可以基于上述综合模型的模型结果Logodds计算概率参数Probability，公式如下：

Probability＝exp(Logodds)/(1+exp(Logodds)) (9)

其中，exp()是以自然常数e为底的指数函数，Probability表示所述模型结果变坏的概率。假设计算得到Probability等于0.1，则说明模型结果有百分之十的概率变坏。

由上可见，本发明实例技术方案中，从方法论上来解决现有技术的问题：

(1)首先根据数据源及其与目标变量(例如金融风险)的相关性，与用户信息(例如资金信息)的相关性，把变量进行分组和分类，得到强变量组和弱变量组，比如1个强变量组和2个弱变量组；

(2)对弱变量组分别建模，例如针对2个弱变量组构建2个模型；

(3)把两个弱变量组的建模结果作为两个变量，和强变量组的变量放在一起，构建最终的风险评估综合模型。

通过这种方法，弱变量组中会有较多变量进入模型，从而保证了弱变量组的贡献；并且，模型在业务上具有更强可解释性，在实践应用中也更具鲁棒性。

为便于更好的理解本发明实施例提供的技术方案，下面结合附图说明风险评分卡的整个建模过程。如图2所示，是采用传统模型法例如逻辑回归法构建模型的过程。如图3所示，是采用本发明实施例风险评估方法构建模型的过程。从图2和图3中可以看出，本发明实施例的建模过程增加了“变量分组”和“弱变量组建模”两个过程。

实践中，本发明发明人对逻辑回归法、专家评分卡方法和本发明方法三种方法的结果进行了验证对比，对比结果如表3所示。

表4验证结果对比

KS是最常用到的用来衡量模型好坏的指标之一，模型在实施中的效果则是考量模型好坏的终极标准。表4显示，本发明实施例方法的模型训练效果和实施效果上都要略好于逻辑回归法，更优于专家评分卡。

可以理解，本发明实施例上述方案例如可以在计算机设备具体实施。

由上可见，在本发明的一些可行的实施方式中，提供了一种风险评估方法，采用对变量分组和分类，得到强变量组和弱变量组，针对得到的每个弱变量组分别构建风险评估模型，将每个弱变量组的模型结果作为一个变量，与得到的强变量组合并，组成联合变量组，最后针对该联合变量组构建风险评估综合模型的技术方案，取得了以下技术效果：

该方法充分的挖掘和利用了弱变量组的数据价值，各个弱变量组中的各个变量可以通过所对应的模型结果变量反映在最终构建的综合模型中，使得综合模型的模型结果能够体现各个弱变量组中的各个变量的作用，从而使风险评估考量因素更全面，解释性更强，模型稳定性更强，模型结果尽量客观，应用中也更具鲁棒性，有助于提高风险评估效果，有助于反映业务发展的未来趋势。

(实施例二、)为了更好的实施本发明实施例的上述方案，下面还提供用于配合实施上述方案的相关装置。

请参考图4，本发明实施例提供一种风险评估系统400，可包括：

预处理模块410，用于根据数据源与目标变量的相关性和/或数据源与用户信息的相关性，进行变量分组，得到至少一个第一类变量组和至少一个第二类变量组；

第一构建模块420，用于针对所述至少一个第二类变量组分别构建风险评估模型，分别得到每个第二类变量组的风险评估模型的模型结果；

变量组合模块430，用于将每个第二类变量组的模型结果作为一个变量，与所述至少一个第一类变量组中的全部全量合并，组成第三类变量组；

第二构建模块440，用于针对所述联合变量组构建风险评估综合模型。

在一些实施例中，所述预处理模块410包括：

分组单元4101，用于根据数据源的不同，将所有变量分为多个变量组；

计算单元4102，用于根据数据源与目标变量的相关性，计算任一个变量与目标变量的相关系数，并计算所述多个变量组的平均相关系数；

确定单元4103，用于根据数据源与用户信息的相关性，确定所述多个变量组的重要程度值；

分类单元4104，用于根据所述多个变量组的平均相关系数和/或重要程度值进行变量分类，将所述平均相关系数大于阈值和/或重要程度值最高的变量组分类为强变量组，将其它变量组分类为弱变量组。

在一些实施例中，所述变量组合模块430，具体用于：记所述至少一个第二类变量组中的任一变量组X_j的风险评估模型的模型结果为Logodds_j，并将Logodds_j作为一个变量，记所述至少一个第一类变量组中的任一变量为x_i，将所有Logodds_j与x_i合并组成第三类变量组；其中，i和j均为正整数。

在一些实施例中，所述第二构建模块440，具体用于：针对所述联合变量组构建如下风险评估综合模型：

其中，n为变量x_i的个数，m为变量Logodds_j的个数，a₀为截距项/常数项，a_i表示变量x_i的权重，a_j表示变量Logodds_j的权重。

在一些实施例中，系统400还包括：计算模块450，用于根据所述第二逻辑模型的模型结果Logodds计算概率参数Probability，

Probability＝exp(Logodds)/(1+exp(Logodds))

其中，Probability表示所述模型结果变坏的概率。

可以理解，本发明实施例的系统的各个功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可参照上述方法实施例中的相关描述，此处不再赘述。

由上可见，在本发明的一些可行的实施方式中，提供了一种风险评估系统，采用对变量分组和分类，得到强变量组和弱变量组，针对得到的每个弱变量组分别构建风险评估模型，将每个弱变量组的模型结果作为一个变量，与得到的强变量组合并，组成联合变量组，最后针对该联合变量组构建风险评估综合模型的技术方案，取得了以下技术效果：

(实施例三、)本发明实施例还提供一种计算机存储介质，该计算机存储介质可存储有程序，该程序被包括处理器的计算机设备执行时，使所述计算机设备执行如上述方法实施例中记载的风险评估方法的部分或全部步骤。

(实施例四、)请参考图5，本发明一个实施例还提供一种计算机设备500；

所述计算机设备500包括处理器501、存储器502、总线503和通信接口504；所述存储器502用于存储程序505，所述程序505包括计算机执行指令，所述处理器501与所述存储器502通过所述总线503连接，当所述计算机设备500运行时，所述处理器501执行所述存储器502存储的所述程序505，以使所述计算机设备500执行如上述方法实施例中记载的风险评估方法。

具体的，所述通信接口504可以接收数据，接收到的数据包括所有变量，所述存储器502可以存储接收到的变量，所述处理器501可以通过执行程序505执行以下步骤：根据数据源与目标变量的相关性和/或数据源与用户信息的相关性，进行变量分组，得到至少一个第一类变量组和至少一个第二类变量组；针对所述至少一个第二类变量组分别构建风险评估模型，得到每个第二类变量组的风险评估模型的模型结果；将每个第二类变量组的模型结果作为一个变量，与所述至少一个第一类变量组中的全部全量合并，组成第三类变量组；针对所述第三类变量组构建风险评估综合模型。

其中，所述总线503可以是工业标准体系结构(Industry StandardArchitecture，简称为ISA)总线或外部设备互连(Peripheral Component，简称为PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线中的一种或多种。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

所述存储器502可以包含高速RAM(Ramdom Access Memory)存储器。可选地，所述存储器502还可以还包括非易失性存储器(non-volatile memory)。例如所述存储器502可以包括磁盘存储器。

所述处理器501可以是一个中央处理器(Central Processing Unit，简称为CPU)，或者所述处理器501可以是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者所述处理器501可以是被配置成实施本发明实施例的一个或多个集成电路。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

以上对本发明实施例所提供的风险评估方法和系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种风险评估方法，其特征在于，包括：

计算机设备根据数据源与目标变量的相关性和/或数据源与用户信息的相关性，进行变量分组，得到至少一个第一类变量组和至少一个第二类变量组；所述数据源包括支付、即时通信和社交中的至少两种，当所述数据源为支付时，所述变量包括信用卡还款信息、资金规模、用户交易的频率和用户电话卡充值中的至少一种；当所述数据源为即时通信时，所述变量包括常用登陆城市个数和收发信息条数中的至少一种；当所述数据源为社交时，所述变量包括粘性较高的好友数量、好友质量、好友的个数和收发信息量中的至少一种；所述目标变量包括违约信息，所述用户信息包括资金信息；所述第一类变量组为与所述目标变量的相关性较高和/或与所述用户信息的相关性较高的强变量组；所述第二类变量组为与所述目标变量的相关性较低和/或与所述用户信息的相关性较低的弱变量组；

所述计算机设备针对所述至少一个第二类变量组分别构建风险评估模型，得到每个第二类变量组的风险评估模型的模型结果；

所述计算机设备将每个第二类变量组的模型结果作为一个变量，与所述至少一个第一类变量组中的全部全量合并，组成第三类变量组；

所述计算机设备针对所述第三类变量组构建风险评估综合模型。

2.根据权利要求1所述的方法，其特征在于，所述计算机设备根据数据源与目标变量的相关性和/或数据源与用户信息的相关性，进行变量组分组，得到至少一个第一类变量组和至少一个第二类变量组包括：

所述计算机设备根据数据源的不同，将所有变量分为多个变量组；

所述计算机设备根据数据源与目标变量的相关性，计算任一个变量与目标变量的相关系数，并计算所述多个变量组中每个变量组的平均相关系数；

所述计算机设备根据数据源与用户信息的相关性，确定所述多个变量组中每个变量组的重要程度值；

所述计算机设备根据所述多个变量组的平均相关系数和/或重要程度值进行变量组分类，将所述平均相关系数大于阈值和/或重要程度值最高的变量组分类为第一类变量组，将其它变量组分类为第二类变量组。

3.根据权利要求1或2所述的方法，其特征在于，所述计算机设备将每个第二类变量组的模型结果作为一个变量，与所述至少一个第一类变量组中的全部全量合并，组成第三类变量组包括：

所述计算机设备记所述至少一个第二类变量组中的任一变量组X_j的风险评估模型的模型结果为Logodds_j，并将Logodds_j作为一个变量，记所述至少一个第一类变量组中的任一变量为x_i，将所有Logodds_j与x_i合并组成第三类变量组；其中，i和j均为正整数。

4.根据权利要求3所述的方法，其特征在于，所述计算机设备针对所述第三类变量组构建风险评估综合模型包括：

计算机设备针对所述第三类变量组构建如下风险评估综合模型：

5.根据权利要求4所述的方法，其特征在于，还包括：

计算机设备根据所述风险评估综合模型的模型结果Logodds计算概率参数Probability，

Probability＝exp(Logodds)/(1+exp(Logodds))

其中，Probability表示所述风险评估综合模型的模型结果变坏的概率。

6.一种风险评估系统，其特征在于，所述系统设置于计算机设备，包括：

预处理模块，用于根据数据源与目标变量的相关性和/或数据源与用户信息的相关性，进行变量分组，得到至少一个第一类变量组和至少一个第二类变量组；所述数据源包括支付、即时通信和社交中的至少两种，当所述数据源为支付时，所述变量包括信用卡还款信息、资金规模、用户交易的频率和用户电话卡充值中的至少一种；当所述数据源为即时通信时，所述变量包括常用登陆城市个数和收发信息条数中的至少一种；当所述数据源为社交时，所述变量包括粘性较高的好友数量、好友质量、好友的个数和收发信息量中的至少一种；所述目标变量包括违约信息，所述用户信息包括资金信息；所述第一类变量组为与所述目标变量的相关性较高和/或与所述用户信息的相关性较高的强变量组；所述第二类变量组为与所述目标变量的相关性较低和/或与所述用户信息的相关性较低的弱变量组；

第一构建模块，用于针对所述至少一个第二类变量组分别构建风险评估模型，得到每个第二类变量组的风险评估模型的模型结果；

变量组合模块，用于将每个第二类变量组的模型结果作为一个变量，与所述至少一个第一类变量组中的全部全量合并，组成第三类变量组；

第二构建模块，用于针对所述第三类变量组构建风险评估综合模型。

7.根据权利要求6所述的系统，其特征在于，所述预处理模块包括：

分组单元，用于根据数据源的不同，将所有变量分为多个变量组；

计算单元，用于根据数据源与目标变量的相关性，计算任一个变量与目标变量的相关系数，并计算所述多个变量组的平均相关系数；

确定单元，用于根据数据源与用户信息的相关性，确定所述多个变量组的重要程度值；

分类单元，用于根据所述多个变量组的平均相关系数和/或重要程度值进行变量分类，将所述平均相关系数大于阈值和/或重要程度值最高的变量组分类为强变量组，将其它变量组分类为弱变量组。

8.根据权利要求6或7所述的系统，其特征在于，

所述变量组合模块，具体用于：记所述至少一个第二类变量组中的任一变量组X_j的风险评估模型的模型结果为Logodds_j，并将Logodds_j作为一个变量，记所述至少一个第一类变量组中的任一变量为x_i，将所有Logodds_j与x_i合并组成第三类变量组；其中，i和j均为正整数。

9.根据权利要求8所述的系统，其特征在于，

所述第二构建模块，具体用于：针对所述第三类变量组构建如下风险评估综合模型：

10.根据权利要求9所述的系统，其特征在于，还包括：

计算模块，用于根据所述风险评估综合模型的模型结果Logodds计算概率参数Probability，

Probability＝exp(Logodds)/(1+exp(Logodds))

其中，Probability表示所述模型结果变坏的概率。

11.一种存储介质，其特征在于，所述存储介质中存储有程序，所述程序由处理器加载并执行以实现如权利要求1至5任一所述的风险评估方法。

12.一种计算机设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现如权利要求1至5任一所述的风险评估方法。