CN110544155A

CN110544155A - 用户信用评分的获取方法、获取装置、服务器及存储介质

Info

Publication number: CN110544155A
Application number: CN201910824429.5A
Authority: CN
Inventors: 王久君; 王湾湾; 姚明
Original assignee: China Integrity Information Co Ltd
Current assignee: China Integrity Information Co Ltd
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2019-12-06
Anticipated expiration: 2039-09-02
Also published as: CN110544155B

Abstract

本发明实施例提供了一种用户信用的评分获取方法，所述方法包括：确定目标用户；获取所述目标用户数据，所述目标用户数据中包含用户个人信息和行为信息；按预设的数据类型，对所述用户个人信息和行为信息进行分类，获得各个数据类型的数据集合；获得非空的数据集合对应的当前数据类型；从预设的多个用户信用评分模型中确定与所述当前数据类型匹配的用户信用评分模型；将所述目标用户数据输入所述匹配的用户信用评分模型中，获取所述目标用户的信用评分。多个用户信用评分模型使得用户的信用评分更加准确。

Description

用户信用评分的获取方法、获取装置、服务器及存储介质

技术领域

本发明涉及数据获取技术领域，特别是涉及用户信用评分的获取方法及获取装置、服务器及存储介质。

背景技术

现有网络应用中，各类应用程序需要获得用户的信用评分，在用户授权之后通过服务器采集目标用户的信息，目标用户的信息包括用户个人基本信息和用户行为信息；从目标用户的信息中提取学历信息、电商信息、金融画像三个类型数据；再将提取的目标用户的三个类型的数据输入预先设置的通用信用评分模型；获得通用信用评分模型输出的目标用户的违约概率，最后对目标用户的违约概率进行评分转换得到目标用户的用户信用评分。

其中，通用信用评分模型是基于多个用户所有类型的样本数据训练获得的，在通用信用评分模型训练之前，需要对样本数据中各个类型数据的变量进行筛选，每种类型的数据可能包括多个变量，根据各个变量的覆盖度、相关性、共线性、显著性等度量指标对各种类型数据的变量进行筛选，用变量筛选后的所有类型的样本数据进行模型训练。

目前，应用最广泛的信用评分模型包括：线性概率模型、逻辑(logic)模型、概率(probit)模型和线性辨别模型等。

以逻辑回归模型作为通用信用评分模型的初始模型为例，将变量筛选后的所有类型的样本数据根据保留下的每个变量的变量值进行分箱处理，每个变量的任意一个变量值都对应到一个箱子中，将计算获得的每箱中违约样本占比与正常样本占比的比值的自然对数，作为该箱对应的变量值的编码，获得变量筛选后的样本数据的每个变量的变量值的编码样本集，将编码样本集输入逻辑回归模型，采用极大似然估计法和梯度下降法求解逻辑回归模型的参数θ，从而确定通用信用评分模型。

然而，并不是所有用户的所有类型数据都会被采集到，有些用户只能采集到部分类型数据，因此，所有用户都采用通用信用评分模型进行评分使得用户信用评分的准确度不高。

发明内容

本发明实施例的目的在于提供一种用户信用的评分获取方法及评分获取装置，以提高用户信用评分的准确度。具体技术方案如下：

一种用户信用的评分获取方法，所述方法包括：

确定目标用户；

获取所述目标用户数据，所述目标用户数据中包含用户个人信息和行为信息；

按预设的数据类型，对所述用户个人信息和行为信息进行分类，获得各个数据类型的数据集合；

获得非空的数据集合对应的当前数据类型；

从预设的多个用户信用评分模型中确定与所述当前数据类型匹配的用户信用评分模型；所述预设的多个用户信用评分模型为：预先根据组合公式对所述预设的数据类型进行组合，针对每种组合训练一个用户信用评分模型；其中，n为预设数据类型的个数，m＝1～n；

将所述目标用户数据输入所述匹配的用户信用评分模型中，获取所述目标用户的信用评分。

可选的，所述预设的数据类型，包括：

学历信息类型、电商信息类型和金融画像信息类型。

可选的，所述将所述目标用户数据输入所述匹配的用户信用评分模型中，获取所述目标用户的信用评分，包括：

将所述目标用户数据输入所述匹配的用户信用评分模型中，通过用户信用评分模型计算所述目标用户的违约概率；

对所述违约概率进行评分转换，得到所述目标用户的信用评分。

可选的，所述预设的多个用户信用评分模型均为基于下列计算公式的逻辑回归模型：

h_θ(X)＝1/(1+exp(-θ^TX))；

其中，θ^TX＝θ₀+θ₁x₁+θ₂x₂+…+θ_jx_j，0≤j≤k，k为模型的变量个数,x_j为变量值的编码、x₀为常数1，θ为模型的参数，θ₀是模型的截距项，θ_j是模型系数，预设每个用户信用评分模型对应一组模型参数θ。

可选的，所述预设的多个用户信用评分模型，采用如下步骤训练获得：

获取多个样本数据；一个样本数据包含：一个用户的用户数据；

根据组合公式对所述预设的数据类型进行组合，确定多个数据类型组合对应的多个预设初始模型，其中，n为所述预设数据类型的个数，m＝1～n；

针对所述多个预设的初始模型，从样本数据中获得分别与所述多个预设的初始模型对应的多个样本集；其中，每个样本集中包括违约样本和正常样本；

对所述多个样本集中的变量分别进行筛选，获得每个初始模型对应的变量筛选后的筛选后样本集；

对于每个筛选后样本集，根据每个变量的变量值进行分箱处理，每个变量的任意一个变量值都对应对一个箱子中；将计算获得的每箱中违约样本占比与正常样本占比的比值的自然对数，作为该箱对应的变量值的编码，获得该筛选后样本集对应的编码样本集；所述编码样本集中包含该筛选后样本集中所有样本中的变量的变量值的编码；其中，所述违约样本占比为每个箱子中的违约样本数与样本集中违约样本总数的比值，所述正常样本占比为每个箱子中正常样本数与样本集中正常样本总数的比值；

将各个编码样本集，分别输入对应的逻辑回归模型，采用极大似然估计法和梯度下降法分别求解所述每个逻辑回归模型的模型参数θ。

可选的，在将各个编码样本集，分别输入对应的逻辑回归模型，采用极大似然估计法和梯度下降法分别求解所述每个逻辑回归模型的模型参数θ的步骤前，还包括：

将每个编码样本集中包含的每个变量各个变量值与编码的对应关系，保存为该编码样本集对应的用户信用评分模型的编码数据字典；

在所述将所述目标用户数据输入所述匹配的用户信用评分模型中，通过用户信用评分模型计算所述目标用户的违约概率的步骤之前，包括：

基于所述匹配的用户信用评分模型对应的编码数据字典，获得所述目标用户数据中各个变量的变量值的编码；

所述将所述目标用户数据输入所述匹配的用户信用评分模型中，通过用户信用评分模型计算所述目标用户的违约概率的步骤，包括：

将所述目标用户数据中各个变量的变量值的编码输入所述匹配的用户信用评分模型中，使得所述匹配的用户信用评分模型用所述目标用户数据中每个变量的每个变量值的编码、该用户信用评分模型的模型参数θ和所述计算公式，计算所述目标用户的违约概率。

本发明还提供了一种用户信用的评分获取装置，所述装置包括：

目标用户确定模块，用于确定目标用户；

目标用户数据获取模块，用于获取所述目标用户数据，所述目标用户数据中包含用户个人信息和行为信息；

分类模块，用于按预设的数据类型对所述用户个人信息和行为信息进行分类，获得各个数据类型的数据集合；

当前数据类型获取模块，用于获取非空的数据集合对应的当前数据类型；

模型匹配模块，用于从预设的多个用户信用评分模型中确定与所述当前数据类型匹配的用户信用评分模型；所述预设的多个用户信用评分模型为：预先根据组合公式对所述预设的数据类型进行组合，针对每种组合训练一个用户信用评分模型；其中，n为预设数据类型的个数，m＝1～n；

信用评分获取模块，用于将所述目标用户数据输入所述匹配的用户信用评分模型中，获取所述目标用户的信用评分。

可选的，所述分类模块中预设的数据类型，包括：

学历信息类型、电商信息类型和金融画像信息类型。

可选的，所述信用评分获取模块，包括：

第一计算子模块，用于将所述目标用户数据输入所述匹配的用户信用评分模型中，通过用户信用评分模型计算所述目标用户的违约概率；

评分转换子模块，用于对所述违约概率进行评分转换，得到所述目标用户的信用评分。

可选的，所述装置中所述预设的多个用户信用评分模型均为基于下列计算公式的逻辑回归模型：

h_θ(X)＝1/(1+exp(-θ^TX))；

其中，θ^TX＝θ₀+θ₁x₁+θ₂x₂+…+θ_jx_j，0≤j≤k，k为模型的变量个数,x_j为变量值的编码、x₀为常数1，θ为模型的参数，θ₀是模型的截距项，θ_j是模型系数，预设的每个用户信用评分模型对应一组模型参数θ。

可选的，所述装置中，还包括模型训练模块；所述模型训练模块，包括：

样本数据获取子模块，用于获取多个样本数据；一个样本数据包含：一个用户的用户数据；

初始模型确定子模块，用于根据组合公式对所述预设的数据类型进行组合，确定多个数据类型组合对应的多个预设初始模型，其中，n为所述预设数据类型的个数，m＝1～n；

样本集获取子模块，针对所述多个预设的初始模型，从样本数据中获得与分别所述多个预设的初始模型对应的多个样本集；其中，每个样本集中包括违约样本和正常样本；

筛选子模块，用于对所述多个样本集中的变量分别进行筛选，获得每个初始模型对应的多个变量筛选后的筛选后样本集；

分箱处理子模块，用于对于每个筛选后样本集，根据每个变量的变量值进行分箱处理，每个变量的任意一个变量值都对应到一个箱子中；将计算获得的每箱中违约样本占比与正常样本占比的比值的自然对数，作为该箱对应的变量值的编码，获得该筛选后样本集对应的编码样本集；所述编码样本集中包含该筛选后样本集中所有样本中的变量的变量值的编码；其中，所述违约样本占比为每个箱子中违约样本数与样本集中违约样本总数的比值，所述正常样本占比为每个箱子中正常样本数与样本集中正常样本总数的比值；

求解参数子模块，用于将各个编码样本集，分别输入对应的逻辑回归模型，采用极大似然估计法和梯度下降法分别求解所述每个逻辑回归模型的模型参数θ。

可选的，所述装置中，还包括：

保存编码数据字典模块，用于在所述求解参数子模块将各个编码样本集，分别输入对应的逻辑回归模型，采用极大似然估计法和梯度下降法分别求解所述每个逻辑回归模型的模型参数θ之前，将每个编码样本集中包含的每个变量各个变量值与编码的对应关系，保存为该编码样本集对应的用户信用评分模型的编码数据字典；

匹配编码模块，用于所述第一计算子模块在所述将所述目标用户数据输入所述匹配的用户信用评分模型中，用户信用评分模型输出所述目标用户的违约概率之前，基于所述匹配的用户信用评分模型对应的编码数据字典，获得所述目标用户数据中各个变量的变量值的编码；

所述第一计算子模块，具体用于将所述目标用户数据中各个变量的变量值的编码输入所述匹配的用户信用评分模型中，使得所述匹配的用户信用评分模型用所述目标用户数据中每个变量的每个变量值的编码、该用户信用评分模型的模型参数θ和所述计算公式，计算所述目标用户的违约概率。

本发明还提供了一种服务器，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述方案中任一项所述的方法步骤。

本发明还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述方案中任一项所述的方法步骤。

本发明还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述方案中任一项所述的方法步骤。

本发明实施例提供的用户信用评分的获取方法、获取装置、服务器及存储介质，获取目标用户的用户数据，将目标用户数据根据预设数据类型分类，得到目标用户的当前数据类型，不同的目标用户可能具有不同的数据类型，根据不同的目标用户的不同的数据类型组合匹配到最合适的用户信用评分模型，得到目标用户信用评分更加准确，提升目标用户评分对数据覆盖度的鲁棒性。

当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种用户信用评分的获取方法的流程示意图；

图2为本发明实施例中的多个数据类型匹配的用户信用评分模型示意图

图3为本发明实施例所中的目标用户数据类型匹配的用户信用评分模型示意图；

图4为图1所示实施例中步骤S106的具体流程示意图；

图5为本发明实施例中多个用户信用评分模型训练过程流程示意图；

图6为本发明实施例中多个类型样本数据得到的多个样本数据集合组合的示意图；

图7为本发明实施例所提供的一种用户信用评分的获取装置的示意图；

图8为本发明实施例所提供的服务器的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了提高用户信用评分的准确度，本发明实施例提供了一种用户信用评分的获取方法，该方法可以应用于进行用户信用评分的服务器。

图1为本发明实施例所提供的一种用户信用评分的获取方法的一种流程示意图，可以包括以下步骤：

S101:确定目标用户；

在互联网时代，一些应用程序因为用户提出的某些业务需求，需要第三方金融机构对该用户的个人信用进行评分，首先将某个用户确定为目标用户，例如：用户在某个金融软件上提出小额贷款的请求，那么就先确定该用户为目标用户。

S102:获取所述目标用户数据；

需要说明的是，所述目标用户数据中包含用户个人信息和行为信息；经过目标用户授权后，可以由第三方金融机构的服务器采集目标用户的用户数据。

用户个人信息可以包括：姓名、籍贯、婚姻状况、身份证号码、学历、毕业时间、家庭住址和联系方式等；

用户行为信息可以包括：电商信息和金融画像等。电商信息，可以包括：消费金额和消费笔数等；金融画像主要包含用户的入账和出账金额。

S103:按预设的数据类型，对所述用户个人信息和行为信息进行分类，获得各个数据类型的数据集合；

具体的，根据预设的数据类型，对目标用户数据进行分类。在一些实施例中，预设数据类型包括：学历信息、电商信息和金融画像信息。本步骤中，分类的结果可以如表一所示。表一中包含对用户甲、乙和丙的用户数据进行分类的结果。

表一

S104:获得非空的数据集合对应的当前数据类型；

具体的，如表一所示，若目标用户是丙，丙的用户数据只有：消费3000元、消费40笔、入账金额10000元和出账金额5000元。就是说目标用户的学历信息数据集合为空；目标用户的电商信息数据集合包括：消费3000元、消费40笔；目标用户的金融画像信息数据集合包括：入账金额10000元和出账金额5000元。非空的数据集合为电商信息数据集合和金融画像信息数据集合，确定电商信息和金融画像信息为目标用户丙的当前数据类型；同理可以得到甲、乙、丁的当前数据类型。

S105:从预设的多个用户信用评分模型中确定与所述当前数据类型匹配的用户信用评分模型；

其中，所述预设的多个用户信用评分模型为：预先根据组合公式对所述预设的数据类型进行组合，针对每种组合训练一个用户信用评分模型；其中，n为预设数据类型的个数，m＝1～n；

具体的，预设的数据类型包括：学历信息、电商信息和金融画像信息。即预设数据类型的个数n为3。根据组合公式即为得到7个数据类型组合，m为每种数据类型组合包括的数据类型个数，每种数据类型组合预设一个对应的用户信用评分模型与之匹配。如图2所示，基于多个数据类型组合建立预设的多个用户评分模型的过程，可以包括：首先，为每个数据类型分别建立一个用户评分模型：为学历信息建立模型D，为电商信息建立模型F，为金融画像建立模型G；然后，两两数据类型组合分别建立一个评分模型：为学历信息和电商信息的数据类型建立模型B，为学历信息和金融画像信息的数据类型建立模型C，为电商信息和金融画像信息建立模型E；最后，三个数据类型组合建立一个评分模型：为学历信息、电商信息和金融画像信息建立模型A。

引用上面的例子，如图3所示为目标用户数据类型匹配的用户信用评分模型示意图。

若目标用户为用户甲，由表一可知用户甲有学历信息和电商信息，无金融画像信息，因此，学历信息和电商信息为甲的当前数据类型，匹配的用户评分模型是模型B；若目标用户为用户乙，由表一可知用户乙有学历信息和金融画像信息，无电商信息，学历信息和金融画像信息为乙的当前数据类型，匹配的用户评分模型是模型C；目标用户丙由表一可知用户丙有电商信息和金融画像信息，无学历信息，电商信息和金融画像信息为丙的当前数据类型，匹配的用户评分模型为模型E。若某用户三种类型数据中任何一类的数据都没有，属于信息不足，没有匹配的模型；如表一中的目标用户戊。

S106:将所述目标用户数据输入所述匹配的用户信用评分模型中，获取所述目标用户的信用评分。

根据上一步骤确定的匹配的用户信用评分模型，将目标用户数据输入匹配的用户信用评分模型中，通过模型计算得到目标用户的信用评分。

其中，如图4所示，步骤S106具体可以包括以下步骤：

S401:基于所述匹配的用户信用评分模型对应的编码数据字典，获得所述目标用户数据中各个变量的变量值的编码；

这个编码数据字典，是在匹配模型生成的过程中对数据进行处理时生成并保存下来的，每个模型都有一个对应的编码数据字典。其中，模型生成过程中生成并保存编码数据字典的具体过程详见步骤S505和S506；

S402：将所述目标用户数据中各个变量的变量值的编码输入所述匹配的用户信用评分模型中，使得所述匹配的用户信用评分模型用所述目标用户数据中每个变量的每个变量值的编码、该用户信用评分模型的模型参数θ和所述计算公式，计算所述目标用户的违约概率。

下面举一个具体的示例进行详细说明。

例如：一个目标用户的原始数据包括：硕士学历，毕业4年，消费金额2000元，入账金额50000元，出账笔数10笔；基于这5个变量计算违约概率。

匹配的模型中硕士学历对应的WOE值为-0.5665，毕业4年对应的WOE值为-0.3134，消费金额2000元对应的WOE值为-0.2121，入账金额50000元对应的WOE值为-0.5800，出账笔数10笔对应的WOE值为0.4405。模型参数θ为：截距项的值为-1.2023，学历对应的模型系数为0.4994，毕业年限对应的模型系数为0.2245，消费金额对应的模型系数为0.51110，入账金额对应的模型系数为0.2987，出账笔数对应的模型系数为0.3379。

通过逻辑回归模型的公式(1)计算用户违约概率，计算过程如下，

h_θ(X)＝1/(1+exp(-θ^TX)) (1)；

其中，θ^TX＝θ₀+θ₁x₁+θ₂x₂+…+θ_jx_j，0≤j≤k，k为模型的变量个数,x_j为变量值的编码、x₀为常数1，θ为模型的参数，θ₀是模型的截距项，θ_j是模型系数。

h_θ(X)＝1/(1+e-(-1.2023+0.4994*(-0.5665)+0.2245*(-0.3134)+0.5111*(-0.2121)+0.2987*(-0.5800)+0.3379*(0.4405)))

＝0.1560。

该目标用户的违约概率为0.1560。

S403：对所述违约概率进行评分转换，得到所述目标用户的信用评分。

得到违约概率值h_θ(X)之后，对违约概率进行评分转换可得到用户的信用评分，评分转换公式(2)如下：

score＝A-B*log(h_θ(X)/(1-h_θ(X))) (2)；

score是最终的信用评分。A，B都为常数。A称为补偿分数，B称为刻度，它们可以通过两个已知或者假设的分值代入计算得到。

目前，应用最广泛的信用评分模型包括：线性概率模型、逻辑(logic)模型、概率(probit)模型和线性辨别模型等。以上模型都适用于本发明实施例的信用评分模型。

本发明实施例中，获取目标用户的用户数据，将目标用户数据根据预设数据类型分类，得到目标用户的当前数据类型，不同的目标用户可能具有不同的数据类型，根据不同的目标用户的不同的数据类型组合匹配到最合适的用户信用评分模型，得到目标用户信用评分更加准确，提升目标用户评分对数据覆盖度的鲁棒性。

本发明实施例中，上述预设多个用户信用评分模型均可以为基于下列计算公式的逻辑回归模型：

h_θ(X)＝1/(1+exp(-θ^TX))；

预设多个用户信用评分模型可以采用如图5所示流程训练获得。图5为多个用户信用评分模型训练过程示意图，包括如下步骤：

S501：获取多个样本数据；

其中，一个样本数据包含：一个用户的用户数据。

S502：根据组合公式对所述预设的数据类型进行组合，确定多个数据类型组合对应的多个预设初始模型；

其中，n为所述预设数据类型的个数，m＝1～n；

具体的，预设的数据类型包括：学历信息、电商信息、金融画像信息。预设数据类型的个数n为3，根据组合公式即为得到7个数据类型组合，m为不同数据类型组合包括的数据类型个数，m＝1～3，根据得到只有一个数据类型的数据类型组合，第1个数据类型组合：只有学历信息的数据；第2个数据类型组合：只有电商信息的数据；第3个数据类型组合：只有金融画像信息的数据；根据得到有两个数据类型的数据类型组合，第4个数据类型组合：有学历信息和电商信息两种数据类型的数据组合；第5个数据类型组合：有学历信息和金融画像信息两种数据类型的数据组合；第6个数据类型组合：有电商信息和金融画像信息两种数据类型的数据组合；根据得到有三个数据类型的数据类型组合，第7个数据类型组合：有学历信息、电商信息和金融画像信息三种数据类型的数据组合。

然后，根据图2基于多个数据类型组合确定多个数据类型组合对应的多个预设初始模型。

S503:针对所述多个预设的初始模型，从样本数据中获得分别与所述多个预设的初始模型对应的多个样本集；其中，每个样本集中包括违约样本和正常样本；

具体的，预设的数据类型包括：学历信息、电商信息、金融画像信息。如上述提到的根据3个预设数据类型可以得到7个预设的初始模型，然后需要从多个样本数据中获得与7个预设初始模型对应的7个样本集。以10万个经过授权的样本数据为例，如图6所示为多个样本数据分出多个样本集的示意图，10万样本数据分类后的数据组合，其中学历信息数据集合共4万个，金融画像信息数据集合共5万个，电商信息数据集合共6万个。同时有学历信息、金融画像信息与电商信息的样本数据为1万，仅查得学历信息的样本数据为1万，仅查得电商信息的样本数据为2万，仅查得金融画像的样本数据为1万，仅查得电商与学历的样本数据为1万，仅查得电商与金融画像的样本数据为2万，仅查得学历与金融画像的样本数据为1万。

10万个样本数据可以分为7个样本集，每个样本集对应一个预设初始模型。每个样本集都有违约样本和正常样本，例如同时有学历信息、金融画像信息与电商信息的样本集，该样本集有1万的样本数据，其中9500个用户按时履行约定义务，这些用户的数据作为正常样本数据；另外500个用户并没有履行约定义务，这些用户的数据作为违约样本数据。每个样本数据包括：用户个人信息和行为信息。

S504：对所述多个样本集中的变量分别进行筛选，获得每个初始模型对应的变量筛选后的筛选后样本集；

具体的，对多个样本集中的样本数据进行分类，例如样本集A中有3个样本数据，第1个样本数据包括：最近1年的电商消费3000元；第2个样本数据包括：最近6个月的电商消费为A档和最近1年入账50000元；第3个样本数据包括：最近1年出账2100元。

预设的数据类型包括：学历信息、电商信息、金融画像信息。将上面3个样本数据分类，获得2个数据类型的数据集合，电商信息的数据集合包括：最近1年电商消费3000元和最近6个月的电商消费为A档；金融画像信息的数据集合包括：最近1年出账2100元、最近1年的入账50000元。

每种类型的数据中包括多种变量，例如电商信息的变量包括：最近1年电商消费消费(1-1000元、1000-3000元、3000-7000元、7000-10000元)等、最近6个月电商消费档次(A档、B档、C档、D档)等；金融画像信息的变量包括：最近1年入账(0-5000元、5000-10000元等)、最近1年出账(0-5000元、5000-10000元等)等，其中具体的数值为变量的变量值，例如第一个样本数据的电商信息中最近1年电商消费是变量，该变量的变量值包括1-1000元、1000-3000元、3000-7000元、7000-10000元等。

然后根据变量的覆盖率、相关性、共线性、显著性等度量指标对分类后的多个样本集进行变量筛选，保留重要变量建立评分模型。

具体地，以包含上述三种预设类型数据的模型为例，包含有三种类型变量，每种类型的变量有多个，如表二为变量筛选前的变量表，电商变量2“最近12个月电商消费金额”和电商变量3“最近12个月电商消费笔数”，与金融画像变量1的“最近12个月出账金额”和金融画像变量3“最近12个月出账笔数”具有一定的相关性，当电商信息与金融画像信息两种类型数据集合组合一起建立模型时，电商变量“最近12个月电商消费金额”和“最近12个月电商消费笔数”可能被剔除，表三为变量筛选后的变量表，但当只用电商信息的数据单独建立模型时，该变量会保留。就是说，不同样本集筛选的变量可能不同，保留下的变量可能不同。

表二

表三

当用较少的数据类型数据集合组合建立的用户信用评分模型时，某些变量没有因为相关性被剔除，和现有的通用信用评分模型相比，保留了更多变量，对违约概率的预测更加准确。

S505：对于每个筛选后样本集，根据每个变量的变量值进行分箱处理，每个变量的任意一个变量值都对应到一个箱子中；将计算获得的每箱中违约样本占比与正常样本占比的比值的自然对数，作为该箱对应的变量值的编码，获得该筛选后样本集对应的编码样本集；

所述编码样本集中包含该筛选后样本集中所有样本中的变量的变量值的编码；其中，所述违约样本占比为每个箱子中违约样本数与样本集中违约样本总数的比值，所述正常样本占比为每个箱子中正常样本数与样本集中正常样本总数的比值；

例如：变量筛选后的一个样本集只有学历信息的类型数据，学历信息中有学历等级、毕业年限、学校排名和专业类型4个变量，学历等级这个变量有4个变量值，高中、大专、本科、硕士及以上。如表四所示为模型中获得的学历等级变量的5个变量值对应的变量值编码，每个变量值对应一个总样本数，总样本数中包括违约样本和正常样本，该变量值的编码由ln(违约样本占比/正常样本占比)计算得到。同理，得到这个样本集的所有变量的变量值的编码。

根据以上得到一个样本集所有变量的变量值的编码的方法，分别获得每个变量筛选后的样本集对应的逻辑回归模型的每个变量值的编码。

表四

S506：将每个编码样本集中包含的每个变量各个变量值与编码的对应关系，保存为该编码样本集对应的用户信用评分模型的编码数据字典；

每个模型对应一个编码数据字典，此编码数据字典用于以后目标用户数据计算目标用户的变量值编码，再将变量值编码输入匹配的模型最终得到目标用户信用评分。

S507：将各个编码样本集，分别输入对应的逻辑回归模型，采用极大似然估计法和梯度下降法分别求解所述每个逻辑回归模型的模型参数θ。

逻辑回归模型多用于解决二分类问题，如用户是否违约，事件结果y＝1是违约，y＝0是正常，逻辑回归模型的公式(1)为:

h_θ(X)＝1/(1+exp(-θ^TX))；

其中θ是模型参数，h_θ(X)作为事件结果y＝1的概率取值，接下来就可以通过极大似然估计方法求θ，极大似然估计法是在总体分布类型已知的情况下的一种常用的参数θ估计方法，求出一组θ值，使得这组θ值可以很好的模拟出样本数据的类值。

首先写出似然函数，由于二值分类很像二项分布，把单一样本的类值假设为发生概率，则概率一般公式(3)为：

P(y|x；θ)＝h_θ(x)^y(1-h_θ(x))^1-y (3)；

这里，y有两个值，1或者0。

似然函数公式(4)为：

为了方便参数θ求解，对似然函数公式(4)取对数，可得对数似然函数，然后，使用梯度下降方法求导，对参数θ进行更新，求导后的公式(5)为：

最后，通过扫描样本，迭代下述公式(6)可求得参数θ：

θ_j:＝θ_j-α(y⁽ⁱ⁾-h_θ(x⁽ⁱ⁾))x_j ⁽ⁱ⁾ (6)；

其中，0≤j≤k，x₀为常数1，k为模型的变量个数，1≤i≤z，z为样本数据的个数，α表示学习率。

上面是一个样本集对应逻辑回归模型的参数θ求解过程，其他样本集计算出的对应的逻辑回归模型的参数θ不同，但是求解模型参数θ的过程是相同的。

对应于图1所示的方法实施例，本发明实施例还提供了一种用户信用的评分获取装置，如图7所示，包括：目标用户确定模块701、目标用户数据获取模块702、分类模块703、当前数据类型获取模块704、模型匹配模块705和信用评分获取模块706；其中，

目标用户确定模块701，用于确定目标用户；

目标用户数据获取模块702，用于获取所述目标用户数据，所述目标用户数据中包含用户个人信息和行为信息；

分类模块703，用于按预设的数据类型对所述用户个人信息和行为信息进行分类，获得各个数据类型的数据集合；

当前数据类型获取模块704，用于获取非空的数据集合对应的当前数据类型；

模型匹配模块705，用于从预设的多个用户信用评分模型中确定与所述当前数据类型匹配的用户信用评分模型；所述预设的多个用户信用评分模型为：预先根据组合公式对所述预设的数据类型进行组合，针对每种组合训练一个用户信用评分模型；其中，n为预设数据类型的个数，m＝1～n；

信用评分获取模块706，用于将所述目标用户数据输入所述匹配的用户信用评分模型中，获取所述目标用户的信用评分。

所述信用评分获取模块，包括：

其中，所述信用评分获取模块，还包括：

匹配编码模块，用于所述第一计算子模块在所述将所述目标用户数据输入所述匹配的用户信用评分模型中，通过用户信用评分模型计算所述目标用户的违约概率之前，基于所述匹配的用户信用评分模型对应的编码数据字典，获得所述目标用户数据中各个变量的变量值的编码；

所述第一计算子模块，用于将所述目标用户数据中各个变量的变量值的编码输入所述匹配的用户信用评分模型中，使得所述匹配的用户信用评分模型用所述目标用户数据中每个变量的每个变量值的编码、该用户信用评分模型的模型参数θ和所述计算公式，计算所述目标用户的违约概率。

在图7所示实施例的基础上，所述分类模块703中预设的数据类型，包括：

学历信息类型、电商信息类型和金融画像信息类型。

所述用户信用的评分获取装置，还包括：模型训练模块；所述模型训练模块，包括：

样本集获取子模块，针对所述多个预设的初始模型，从样本数据中获得分别与所述多个预设的初始模型对应的多个样本集；其中，每个样本集中包括违约样本和正常样本；

分箱处理子模块，用于对于每个筛选后样本集，根据每个变量的变量值进行分箱处理，每个变量的任意一个变量值都对应到一个箱子中；将计算获得的每箱中违约样本占比与正常样本占比的比值的自然对数，作为该箱对应的变量值的编码，获得该筛选后样本集对应的编码样本集；所述编码样本集中包含该筛选后样本集中所有样本中的变量的变量值的编码；其中，所述违约样本占比为每个分箱中违约样本数与样本集中违约样本总数的比值，所述正常样本占比为每个分箱中正常样本数与样本集中正常样本总数的比值；

保存编码数据字典模块，用于将每个编码样本集中包含的每个变量各个变量值与编码的对应关系，保存为该编码样本集对应的用户信用评分模型的编码数据字典；每个模型对应一个编码数据字典，此编码数据字典用于以后目标用户数据计算目标用户的变量值编码，再将变量值编码输入匹配的模型最终得到目标用户信用评分；

对于系统或装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种服务器，如图8所示，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信，

存储器803，用于存放计算机程序；

处理器801，用于执行存储器803上所存放的程序时，实现本发明实施例所提供的方法。

本发明实施例提供的一种服务器，获取用户的用户数据，然后，根据确定的目标用户的用户数据的数据类型找到匹配的用户信用评分模型，将目标用户的用户数据输入对应的用户信用评分模型，不同的目标用户可能具有不同的数据类型，根据不同的目标用户的不同的数据类型组合匹配到最合适的用户信用评分模型，得到目标用户信用评分更加准确。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的一种用户信用评分的获取方法，以获取相同的技术效果。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的的一种用户信用评分的获取方法，以获取相同的技术效果。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种用户信用的评分获取方法，其特征在于，所述方法包括：

确定目标用户；

获得非空的数据集合对应的当前数据类型；

从预设的多个用户信用评分模型中确定与所述当前数据类型匹配的用户信用评分模型；所述预设的多个用户信用评分模型为：预先根据组合公式对所述预设的数据类型进行组合，针对每种组合训练的一个用户信用评分模型；其中，n为预设数据类型的个数，m＝1～n；

2.根据权利要求1所述的方法，其特征在于，所述预设的数据类型，包括：学历信息类型、电商信息类型和金融画像信息类型。

3.根据权利要求1所述的方法，其特征在于，所述将所述目标用户数据输入所述匹配的用户信用评分模型中，获取所述目标用户的信用评分，包括：

4.根据权利要求3所述的方法，其特征在于，所述预设的多个用户信用评分模型均为基于下列计算公式的逻辑回归模型：

h_θ(X)＝1/(1+exp(-θ^TX))；

其中，θ^TX＝θ₀+θ₁x₁+θ₂x₂+…+θ_jx_j，0≤j≤k，k为模型的变量个数,x_j为变量值的编码，x₀为常数1，θ为模型的参数，θ₀是模型的截距项，θ_j是模型系数；其中，预设的每个用户信用评分模型对应一组模型参数θ。

5.根据权利要求4所述预设的多个用户信用评分模型，采用如下步骤训练获得：

对于每个筛选后样本集，根据每个变量的变量值进行分箱处理，每个变量的任意一个变量值都对应到一个箱子中；将计算获得的每箱中违约样本占比与正常样本占比的比值的自然对数，作为该箱对应的变量值的编码，获得该筛选后样本集对应的编码样本集；所述编码样本集中包含该筛选后样本集中所有样本中的变量的变量值的编码；其中，所述违约样本占比为每个箱子中违约样本数与样本集中违约样本总数的比值，所述正常样本占比为每个箱子中正常样本数与样本集中正常样本总数的比值；

6.根据权利要求5所述的方法，其特征在于，

在将各个编码样本集，分别输入对应的逻辑回归模型，采用极大似然估计法和梯度下降法分别求解所述每个逻辑回归模型的模型参数θ的步骤前，还包括：

7.一种用户信用的评分获取装置，其特征在于，所述装置包括：

目标用户确定模块，用于确定目标用户；

8.根据权利要求7所述的装置，其特征在于，所述分类模块中预设的数据类型，包括：学历信息类型、电商信息类型和金融画像信息类型。

9.根据权利要求7所述的装置，其特征在于，所述信用评分获取模块，包括：

10.根据权利要求9所述的装置，其特征在于，所述预设的多个用户信用评分模型均为基于下列计算公式的逻辑回归模型：

h_θ(X)＝1/(1+exp(-θ^TX))；

11.根据权利要求10所述的装置，其特征在于，还包括：模型训练模块；所述模型训练模块，包括：

12.根据权利要求10所述的装置，其特征在于，还包括：

13.一种服务器，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法步骤。