CN111079992A

CN111079992A - 数据处理方法、装置和存储介质

Info

Publication number: CN111079992A
Application number: CN201911213412.2A
Authority: CN
Inventors: 张瞳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2020-04-28

Abstract

本发明实施例公开了一种数据处理方法、装置和存储介质，其中，通过获取用户样本集，用户样本集包括多个用户样本；根据预先训练的信用评分模型对每一用户样本进行信用评分，得到每一用户样本的信用分值；根据每一用户样本的信用分值，将用户样本集划分为对应不同信用分值区间的多个子用户样本集；预测每一子用户样本集对应贷款产品的月还款数据，并根据预设融合策略将多个子用户样本集对应的月还款数据融合为用户样本集对应的目标月还款数据。本发明在预测过程中增加了对用户的信用评分以及分级，由此预测得到的月还款数据将更贴近真实放款质量，相较于现有技术具有更高的准确度。

Description

数据处理方法、装置和存储介质

技术领域

本发明涉及计算机技术领域，具体涉及一种数据处理方法、装置和存储介质。

背景技术

随着金融市场大环境的不断变化，通过评估不确定性来预测贷款产品的还款数据，对保障贷款产品各方的利益至关重要。

目前在进行还款数据预测时，直接利用资产方提供的历史样本整体迁徙率来预测贷款产品在放款后的月还款数据。

在对现有技术的研究和实践过程中，本发明的发明人发现，由于贷款客户的质量受多种因素影响，且随时间迁移，将会影响对还款数据预测的准确度。

发明内容

本发明实施例提供一种数据处理方法、装置和存储介质，能够提高还款数据预测的准确度。

本发明实施例提供一种数据处理方法，包括：

获取用户样本集，所述用户样本集包括多个用户样本；

根据预先训练的信用评分模型对每一用户样本进行信用评分，得到每一用户样本的信用分值；

根据每一用户样本的信用分值，将所述用户样本集划分为对应不同信用分值区间的多个子用户样本集；

预测每一子用户样本集对应贷款产品的月还款数据，并根据预设融合策略将所述多个子用户样本集对应的月还款数据融合为所述用户样本集对应的目标月还款数据。

本发明实施例还提供一种数据处理装置，包括：

样本获取模块，用于获取用户样本集，所述用户样本集包括多个用户样本；

信用评分模块，用于根据预先训练的信用评分模型对每一用户样本进行信用评分，得到每一用户样本的信用分值；

样本划分模块，用于根据每一用户样本的信用分值，将所述用户样本集划分为对应不同信用分值区间的多个子用户样本集；

数据预测模块，用于预测每一子用户样本集对应贷款产品的月还款数据，并根据预设融合策略将所述多个子用户样本集对应的月还款数据融合为所述用户样本集对应的目标月还款数据。

在一实施例中，在根据预设融合策略将所述多个子用户样本集对应的月还款数据融合为所述用户样本集对应的目标月还款数据时，所述数据预测模块用于：

将每一子用户样本集占所述用户样本集的比例作为其对应的权重；

根据每一子用户样本集对应的权重以及月还款数据进行加权处理，得到加权结果；

将所述加权结果作为所述目标月还款数据。

在一实施例中，在根据预设融合策略将所述多个子用户样本集对应的月还款数据融合为所述用户样本集对应的目标月还款数据之后，所述数据预测模块还用于：

根据所述目标月还款数据预测月放款数据；

计算所述目标月还款数据与其对应的月放款数据的差值；

累加各月目标月还款数据与其对应的月放款数据之间的差值，得到总差值，以及累加各月偿付给所述贷款产品的资产方的偿付数据，得到总偿付数据；

计算所述总差值与所述总偿付数据的比值。

在一实施例中，数据处理装置还包括模型训练模块，在所述样本获取模块获取用户样本集之前，用于：

从所述贷款产品对应的资产方终端获取历史用户样本集，所述历史用户样本集包括多个历史用户样本；

将所述历史用户样本集中的历史用户样本划分为正用户样本、负用户样本以及灰用户样本；

构建基础模型，并根据所述正用户样本和所述负用户样本对所述基础模型进行训练，直至满足预设训练停止条件；

根据所述灰用户样本对满足预设训练停止条件的基础模型进行测试；

当测试通过时，将所述满足预设训练停止条件的基础模型作为所述信用评分模型。

在一实施例中，在根据预先训练的信用评分模型对每一用户样本进行信用评分，得到每一用户样本的信用分值时，所述信用评分模块用于：

将所述用户样本输入所述信用评分模型进行计算，得到所述用户样本为正用户样本的概率；

将所述用户样本为正用户样本的概率作为其信用分值。

在一实施例中，信用评分模型按照如下公式进行计算：

Y＝ln((1-xbeta)/xbeta)；

beta＝a0+a1*X1+a2*X2+a3*X3+…+an*Xn；

xbeta＝exp(beta)/(1+exp(beta))；

其中，Y表示所述信用评分模型的输出值，[a0，a1，……an]表示所述信用评分模型的参数，[X1，X2，……，Xn]表示所述用户样本的n维用户特征。

在一实施例中，在预测每一子用户样本集对应贷款产品的月还款数据时，所述数据预测模块用于：

根据所述信用评分模型对所述历史用户样本集进行信用评分，得到每一历史用户样本的信用分值；

根据每一历史用户的信用分值，将所述历史用户样本集划分为对应所述不同信用分值区间的多个历史子用户样本集；

根据所述历史子用户样本集的历史月还款数据计算逾期数据的月迁徙率；

根据所述月迁徙率计算对应所述历史子用户样本集的子用户样本集的月逾期损失率；

根据所述月逾期损失率计算对应所述历史子用户样本集的子用户样本集的月还款数据。

在一实施例中，数据处理装置还包括数据储存模块，在根据预设融合策略将所述多个子用户样本集对应的月还款数据融合为所述用户样本集对应的目标月还款数据之后，用于：

将所述目标月还款数据存储至分布式系统中。

此外，本发明实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一种数据处理方法中的步骤。

本发明实施例通过获取用户样本集，用户样本集包括多个用户样本；根据预先训练的信用评分模型对每一用户样本进行信用评分，得到每一用户样本的信用分值；根据每一用户样本的信用分值，将用户样本集划分为对应不同信用分值区间的多个子用户样本集；预测每一子用户样本集对应贷款产品的月还款数据，并根据预设融合策略将多个子用户样本集对应的月还款数据融合为用户样本集对应的目标月还款数据。本发明在预测过程中增加了对用户的信用评分以及分级，由此预测得到的月还款数据将更贴近真实放款质量，相较于现有技术具有更高的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的数据处理方法的场景示意图；

图2是本发明实施例提供的数据处理方法的一流程示意图；

图3是本发明实施例中将用户样本集划分为四个子用户样本集的；

图4是本发明实施例中涉及的分布式系统的结构示意图；

图5是本发明实施例中区块结构的示意图；

图6是本发明实施例提供的数据处理方法的一流程示意图；

图7是本发明实施例提供的数据处理装置的一结构示意图；

图8是本发明实施例提供的网络设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

本发明实施例提供的方案涉及人工智能的机器学习技术，具体通过如下实施例进行说明:

本发明实施例提供一种数据处理方法、数据处理装置、存储介质和网络设备。

请参阅图1，图1为本发明实施例所提供的数据处理方法的场景示意图，该数据处理方法可以应用于数据处理装置，该数据处理装置具体可以集成在具备储存器并安装有处理器而具有运算能力的网络设备(比如台式电脑、服务器等)中，例如，该网络设备可以在接收到预测请求(可由外部输入，也可由网络设备自动周期产生)时，获取到包括多个用户样本的用户样本集；然后，根据预先采用机器学习方法训练得到的信用评分模型对用户样本集中的每一用户样本进行信用评分，得到每一用户样本的信用分值；然后，根据每一用户样本的信用分值，将用户样本集划分为对应不同信用分值区间的多个子用户样本集，比如，按照信用分值的高低，将信用分值划分为四个区间，分别为差、中、良、优，从而根据信用分值将用户样本归于对应的信用分值区间，实现子用户样本集的划分；然后，分别预测每一子用户样本集对应贷款产品的月还款数据，并进一步根据预设融合策略将多个子用户样本集对应的月还款数据融合为用户样本集对应的月还款数据，记为目标月还款数据。

需要说明的是，图1所示的数据处理方法的场景示意图仅仅是一个示例，本发明实施例描述的数据处理方法的场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着数据处理方法的演变和新业务场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

以下分别进行详细说明。

一种数据处理方法，包括：获取用户样本集，用户样本集包括多个用户样本；根据预先训练的信用评分模型对每一用户样本进行信用评分，得到每一用户样本的信用分值；根据每一用户样本的信用分值，将用户样本集划分为对应不同信用分值区间的多个子用户样本集；预测每一子用户样本集对应贷款产品的月还款数据，并根据每一子用户样本集占用户样本集的比例，将多个子用户样本集对应的月还款数据融合为用户样本集对应的目标月还款数据。

请参阅图2，图2是本发明实施例提供的数据处理方法的流程示意图。在本实施例中，将从网络设备的角度进行描述，该数据处理方法可以包括：

在201中，获取用户样本集，用户样本集包括多个用户样本。

其中，用户样本包括用户的多维用户特征，包括但不限于性别、年龄、执业、收入等。

比如，本发明实施例中，可以获取到资产证券化过程中对应每笔放款的用户的多维特征，由同一用户的多维特征组成一个用户样本，从而得到多个用户样本，由这多个用户样本构成用户样本集。

应当说明的是，资产证券化是指以基础资产未来所产生的现金流为偿付支持，通过结构化设计进行信用增级，在此基础上发行资产支持证券。资产支持证券是由受托机构发行的、代表特定目的信托的信托受益权份额。受托机构以信托财产为限向投资机构承担支付资产支持证券收益的义务。其支付基本来源于支持证券的资产池产生的现金流。项下的资产通常是金融资产，如贷款或信用应收款，根据它们的条款规定，支付是有规律的。资产支持证券支付本金的时间常依赖于涉及资产本金回收的时间，这种本金回收的时间和相应的资产支持证券相关本金支付时间的固有的不可预见性，是资产支持证券区别于其他债券的一个主要特征，是固定收益证券当中的主要一种。可以用作资产支持证券抵押品的资产分为两类：现存的资产或应收款，将来发生的资产或应收款。前者称为“现有资产的证券化”，后者称为“将来现金流的证券化”。

在202中，根据预先训练的信用评分模型对每一用户样本进行信用评分，得到每一用户样本的信用分值。

应当说明的是，本发明实施例中还预先采用机器学习算法训练有信用评分模型，用于对用户样本进行评分，得到反映其信用的信用分值。

相应的，本发明实施例中，在获取到用户样本之后，首先根据预先训练的信用评分模型对用户样本集中的每一用户样本进行信用评分，得到用户样本集中每一用户样本的信用分值。

其中，信用分值越大，反映对应用户的信用越高。

在203中，根据每一用户样本的信用分值，将用户样本集划分为对应不同信用分值区间的多个子用户样本集。

在完成对用户样本集的信用评分，并得到用户样本集中每一用户样本的信用分值之后，进一步根据每一用户样本的信用分值将用户样本集划分为对应不同信用分值区间的多个子用户样本集。本领域普通技术人员可以理解的是，由于信用分值的大小反映了用户的信用高低，根据用户样本的信用分值将用户样本集划分为对应不同信用分值区间的多个子用户样本集，也即是对用户的信用进行信用评级。对应相同信用分值区间的用户具有相同的信用评级。

示例性的，假设按照信用分值的高低，划分有四个信用分值区间，分别信用分值区间A、信用分值区间B、信用分值区间C以及信用分值区间D，相应的，在完成对用户样本集的信用评分，并得到用户样本集中每一用户样本的信用分值之后，将信用分值位于信用分值区间A之中的用户样本归为一类，得到对应信用等级“差”的子用户样本集1，将信用分值位于信用分值区间B之中的用户样本归为一类，得到对应信用等级“中”的子用户样本集2，将信用分值位于信用分值区间C之中的用户样本归为一类，得到对应信用等级“良”的子用户样本集3，将信用分值位于信用分值区间D之中的用户样本归为一类，得到对应信用等级“优”的子用户样本集4，如图3所示。

应当说明的是，本发明实施例中对应信用分值区间两端的端点值不做具体限制，可由本领域普通技术人员根据实际需要进行取值。

在204中，预测每一子用户样本集对应贷款产品的月还款数据，并根据预设融合策略将多个子用户样本集对应的月还款数据融合为用户样本集对应的目标月还款数据。

其中，贷款产品即利用资产方的资产向用户放贷的产品。

本发明实施例中，在将用户样本集划分为对应不同信用分值区间的多个子用户样本集之后，对于每一子用户样本集，分别按照预设还款数据预测策略进行预测，得到每一子用户样本集对应贷款产品的月还款数据(包括贷款周期内各月的还款金额，由本金和利息构成)，或称还款曲线。

然后，根据预设融合策略将多个子用户样本集对应的月还款数据然后为用户样本集整体对应的月还款数据，记为目标月还款数据。

应当说明的是，本发明实施例中对于预设融合策略的设置不做具体限制，可由本领域普通技术人员根据实际需要进行设置。

在一实施例中，“根据预设融合策略将多个子用户样本集对应的月还款数据融合为用户样本集对应的目标月还款数据”，包括：

(1)将每一子用户样本集占用户样本集的比例作为其对应的权重；

(2)根据每一子用户样本集对应的权重以及月还款数据进行加权处理，得到加权结果；

(3)将加权结果作为目标月还款数据。

此处进一步提供一种可选的预设融合策略的配置方式。其中，根据每一子用户样本集占用户样本集的比例，将多个子用户样本集对应的月还款数据融合为用户样本集对应的目标月还款数据。

具体的，直接将每一子用户样本集占用户样本集的比例作为其对应的权重，然后根据每一子用户样本集对应的权重以及月还款数据进行加权求和，得到加权结果，即加权和值，将该加权和值作为对应用户样本集的目标月还款数据。

示例性的，假设共将用户样本集划分为图3所示的四个子用户样本集，分别为对应信用等级“差”的子用户样本集1、对应信用等级“中”的子用户样本集2、对应信用等级“良”的子用户样本集3以及对应信用等级“优”的子用户样本集4，则根据子用户样本集1、2、3、4各自对应的月还款数据融合得到用户样本集的目标月还款数据可以表示为：

Re＝w₁*Re₁+w₂*Re₂+w₃*Re₃+w₄*Re₄；

其中，Re表示用户样本集对应的目标月还款数据，w₁表示子用户样本集1对应的权重，Re₁表示子用户样本集1的月还款数据，w₂表示子用户样本集2对应的权重，Re₂表示子用户样本集2的月还款数据，w₃表示子用户样本集3对应的权重，Re₃表示子用户样本集3的月还款数据，w₄表示子用户样本集4对应的权重，Re₄表示子用户样本集4的月还款数据。

应当说明的是，在其它实施例中，本领域普通技术人员还可以根据实际需要对预设融合策略进行配置，比如，可以求取多个子用户样本集对应的月还款数据的平均值，作为用户样本集整体对应的目标还款数据。

在一实施例中，“根据预设融合策略将多个子用户样本集对应的月还款数据融合为用户样本集对应的目标月还款数据”之后，还包括：

(1)根据目标月还款数据预测月放款数据；

(2)计算目标月还款数据与其对应的月放款数据之间的差值；

(3)累加各月目标月还款数据与其对应的月放款数据之间的差值，得到总差值，以及累加各月偿付给贷款产品的资产方的偿付数据，得到总偿付数据；

(4)计算前述差值与前述总偿付数据的比值。

其中，当月的月放款数据根据上月的目标月还款数据预测得到，可以表示为：

Lo＝Re’*(1-b)-Pa’；

其中，Lo表示当月的月放款数据(用于描述放款的金额)，Re’表示上月的目标月还款数据，b表示资金空转损失率，Pa表示上月偿付资产方的偿付数据(用于描述偿付的金额)，b和Pa取实际值。

如上，可以计算得到各月的目标月还款数据以及月放款数据之间的差值，然后累加各月的目标月还款数据与月放款数据之间的差值，得到总差值，以及累加各月的偿付数据，得到总偿付数据，最后计算总差值与总偿付数据之间的比值，也即是贷款产品的总体本息覆盖占比。

在一实施例中，“获取用户样本集”之前，还包括：

(1)从贷款产品对应的资产方终端获取历史用户样本集，历史用户样本集包括多个历史用户样本；

(2)将历史用户样本集中的历史用户样本划分为正用户样本、负用户样本以及灰用户样本；

(3)构建基础模型，并根据正用户样本和负用户样本对基础模型进行训练，直至满足预设训练停止条件；

(4)根据灰用户样本对满足预设训练停止条件的基础模型进行测试；

(5)当测试通过时，将满足预设训练停止条件的基础模型作为信用评分模型。

本发明实施例中，还提供一种可选的训练的信用评分模型的训练方案。

其中，首先从贷款产品对应的的资产方终端获取历史用户样本集，该历史用户样本集包括多个历史用户样本。相较于用户样本，该历史用户样本除了包括对应用户的多维特征之外，还包括用户的历史月还款数据以及对应的月应还款数据。

然后，对于历史用户样本集中的每一历史用户样本，对其进行分类。其中，以某历史用户样本为例，可以根据该历史用户样本中的历史月还款数据以及其对应的月应还款数据，识别出该用户是否逾期，以及逾期的天数，并根据该用户是否逾期，以及逾期的天数对其进行分类。

比如，将放款后6个月内出现30天以上逾期的历史用户样本记为负用户样本，将放款后6个月内出现1至29天逾期的历史用户样本记为灰用户样本，将放款后6个月内未出现逾期的用户记为正用户样本。

然后，构建用于模型训练的基础模型，并根据正用户样本和负用户样本对构建的基础模型进行训练，直至满足预设训练停止条件。其中，可由本领域普通技术人员根据实际需要选取用于模型训练的基础模型，包括但不限于逻辑回归模型、决策树模型、随机森林模型以及XGBoost模型等。比如，本发明实施例中采用逻辑回归模型作为模型训练的基础模型，表示为：

Y＝ln((1-xbeta)/xbeta)；

beta＝a0+a1*X1+a2*X2+a3*X3+…+an*Xn；

xbeta＝exp(beta)/(1+exp(beta))；

其中，Y表示逻辑回归模型的输出值，取值范围为[0，1]，[a0，a1，……an]表示基参数，[X1，X2，……，Xn]表示用于训练的正用户样本/负用户样本的n维用户特征。

相应的，对该基础模型的训练过程，也即是确定其参数[a0，a1，……an]的过程，以使得其对应正用户样本的输出值为“1”，对应负用户样本的输出为值“0”。

应当说明的是，本发明实施例中，在构建基础模型之外，还构建有对应该基础模型的损失函数，具体可由本领域普通技术人员根据实际需要预先设置构建损失函数的类型，比如，本发明实施例中采用交叉熵损失函数。

在根据正用户样本和负用户样本对基础模型进行训练时，为正用户样本分配标签值“1”，为负用户样本分配标签值“0”，然后，可以将正/负用户样本输入基础模型进行计算，得到对应的预测值，然后将该预测值以及对应的标签值代入损失函数计算得到损失值，根据该损失值对基础模型的参数进行调整，也即是求解损失函数的最小值。比如，可以利用梯度下降算法来迭代基础模型的参数，从而得到最小化的损失值和对应的参数。

其中，对于采用何种梯度下降算法，本发明实施例中不做具体限制，可由本领域普通技术人员根据实际需要选择。示例性的，本发明实施例中采用Adam梯度下降算法来求解损失函数，相应的，还预先设置对应的批次大小，该批次大小用于描述迭代一次参数所需的正/负用户样本的数量，可由本领域普通技术人员根据实际需要进行设置，比如，本发明实施例中设置批次大小为64。

应当说明的是，预设训练停止条件用于描述在何时停止对构建的基础模型的训练，可由本领域普通技术人员根据实际需要进行设置。比如，可以设置预设训练停止条件为：对构建的基础模型参数的迭代次数达到预设迭代次数(可由本领域普通技术人员根据实际需要取经验值，比如900)；还可以设置预设训练停止条件为：基础模型的损失值小于预设损失值(可由本领域普通技术人员根据实际需要取经验值)。

相应的，在每次调整基础模型的参数后，即判断是否满足预设训练停止条件，若不满足则继续对基础模型进行训练，直至满足预设训练停止条件。

当满足预设训练停止条件时，进一步根据灰用户样本对满足预设训练停止条件的基础模型进行测试，当测试通过时，将满足预设训练停止条件的基础模型作为用于进行信用评分的信用评分模型。

示例性的，可以将灰用户样本输入满足预设训练停止条件的基础模型进行计算，以逾期天数越长的灰用户样本对应的计算值越小，以逾期天数越短的灰用户样本对应的计数值越大为约束，可由本领域普通技术人员根据实际需要配置测试通过条件，本发明实施例对此不做限制。

在一实施例中，“根据预先训练的信用评分模型对每一用户样本进行信用评分，得到每一用户样本的信用分值”，包括：

(1)将用户样本输入信用评分模型进行计算，得到用户样本为正用户样本的概率；

(2)将用户样本为正用户样本的概率作为其信用分值。

本发明实施例中，由于信用评分模型的输出区间为[0,1]，可以将信用评分模型对用户样本的输出作为用户样本为正用户样本的概率。

相应的，在根据预先训练的信用评分模型对每一用户样本进行评分，得到每一用户样本的信用分值时，可以将用户样本输入信用评分模型进行计算，得到用户样本为正用户样本的概率，将用户样本为正用户样本的概率作为其信用分值。

其中，信用评分模型按照如下公式进行计算：

Y＝ln((1-xbeta)/xbeta)；

beta＝a0+a1*X1+a2*X2+a3*X3+…+an*Xn；

xbeta＝exp(beta)/(1+exp(beta))；

其中，Y表示信用评分模型的输出值，[a0，a1，……an]表示信用评分模型的参数，在训练过程中确定，[X1，X2，……，Xn]表示用户样本的n维用户特征。

在一实施例中，“预测每一子用户样本集对应贷款产品的月还款数据”，包括：

(1)根据信用评分模型对历史用户样本集进行信用评分，得到每一历史用户样本的信用分值；

(2)根据每一历史用户的信用分值，将历史用户样本集划分为对应不同信用分值区间的多个历史子用户样本集；

(3)根据历史子用户样本集的历史月还款数据计算逾期数据的月迁徙率；

(4)根据月迁徙率计算对应历史子用户样本集的子用户样本集的月逾期损失率；

(5)根据月逾期损失率计算对应历史子用户样本集的子用户样本集的月还款数据。

本发明实施例中，在训练得到信用评分模型之后，还根据信用评分模型对历史用户样本集中的历史用户样本进行信用评分，得到每一历史用户样本的信用分值，并按照对用户样本集相同的划分方式，根据每一历史用户的信用分值将历史用户样本集划分为对于不同信用分值期间的多个子用户样本集。

然后，根据历史子用户样本集的历史月还款数据计算逾期数据的月迁徙率，包括M0到M1的迁徙率、M1到M2的迁徙率、M2到M3的迁徙率以及M3到M4的迁徙率(本发明实施例中假设M3以上为坏账)等，表示为：

M0_M1迁徙率＝当月M1余额/上月M0余额；

M1_M2迁徙率＝当月M2余额/上月M1余额；

M2_M3迁徙率＝当月M3余额/上月M2余额；

M3_M4迁徙率＝当月M4余额/上月M3余额。

比如，按照对用户样本集的划分方式，同样将历史用户样本集划分为对应信用等级“差”的历史子用户样本集1、对应信用等级“中”的历史子用户样本集2、对应信用等级“良”的历史子用户样本集3以及对应信用等级“优”的历史样本集4。然后，按照如上方式计算得到历史子用户样本集1对应的月迁徙率(也即是信用等级“差”对应的月迁徙率)，计算得到历史子用户样本集2对应的月迁徙率(也即是信用等级“中”对应的月迁徙率)，计算得到历史子用户样本集3对应的月迁徙率(也即是信用等级“良”对应的月迁徙率)，以及计算得到历史子用户样本集4对应的月迁徙率(也即是信用等级“优”对应的月迁徙率)，如表1所示。

迁徙率	信用等级“优”	信用等级“良”	信用等级“中”	信用等级“差”
					M0_M1	1.87％	2.13％	2.24％	3.07％
M1_M2	39.81％	41.55％	42.31％	47.79％
					M2_M3	63.90％	69.98％	70.11％	76.91％
M3_M4	95.61％	96.23％	98.25％	98.56％

表1

如上表所示，信用等级“优”的用户资质最好，利用其对应的历史子用户样本集1计算出的迁徙率最低。

本发明实施例中，在计算得到每一历史子用户样本集对应的月迁徙率之后，对于每一历史子用户样本集，分别计算其对应的子用户样本集的月逾期损失率。其中，将历史子用户样本集对应的月迁徙率作为与其信用等级相同的子用户样本集的月迁徙率，从而计算得到该子用户样本集的月逾期损失率。

比如，请参照表2，对于某子用户样本集，其对应的月迁徙率包括：

M0_M1迁徙率＝2.3％；

M1_M2迁徙率＝42.78％；

M2_M3迁徙率＝68.93％；

M3_M4迁徙率＝100％；

请参照表2，“月”列表示不同月，“M0余额”列可直接看做对应月的放款数据，M1余额表示M0余额迁徙到M1的余额，M2余额表示M1余额迁徙到M2的余额，以此类推。

以第一月为例，放款数据为100，根据M0_M1迁徙率可得第二月M1余额为100*2.3％＝2.3，第三月M2余额为2.3*42.78％＝0.9833，第四月M3余额为0.9833*68.93％＝0.6867，得到逾期损失率为0.69％，以此类推。

表2

在计算得到一历史子用户样本集相同信用等级的子用户样本集的月逾期损失率之后，根据该月逾期损失率计算其月还款数据，可以表示为：

Re＝Re”*(1+a)*(1-lost)；

其中，Re表示当月的还款数据，Re”表示当月的应还款数据，a表示当月的早偿率，取实际值，lost表示当月的逾期损失率。

在一实施例中，在根据预设融合策略将多个子用户样本集对应的月还款数据融合为用户样本集对应的目标月还款数据之后，还包括：

将目标月还款数据存储至分布式系统中。

以分布式系统为区块链系统为例，请参照图4，图4是本发明实施例提供的分布式系统100应用于区块链的一个可选的结构示意图，其由多个节点(本发明以上实施例提及的网络设备、其它网络设备)和客户端形成，节点之间形成组成的点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission Control Protocol)协议之上的应用层协议。节点包括硬件层、中间层、操作系统层和应用层。

参照图4示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

例如，应用实现的业务包括：

2.1)钱包，用于提供进行电子货币的交易的功能，包括发起交易(即，将当前交易的交易记录发送给区块链系统中的其他节点，其他节点验证成功后，作为承认交易有效的响应，将交易的记录数据存入区块链的临时区块中；当然，钱包还支持查询电子货币地址中剩余的电子货币；

2.2)共享账本，用于提供账目数据的存储、查询和修改等操作的功能，将对账目数据的操作的记录数据发送到区块链系统中的其他节点，其他节点验证有效后，作为承认账目数据有效的响应，将记录数据存入临时区块中，还可以向发起操作的节点发送确认。

2.3)智能合约，计算机化的协议，可以执行某个合约的条款，通过部署在共享账本上的用于在满足一定条件时而执行的代码实现，根据实际的业务需求代码用于完成自动化的交易，例如查询买家所购买商品的物流状态，在买家签收货物后将买家的电子货币转移到商户的地址；当然，智能合约不仅限于执行用于交易的合约，还可以执行对接收的信息进行处理的合约。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

参照图5，图5是本发明实施例提供的区块结构(Block Structure)一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

本发明实施例中，在根据预设融合策略将多个子用户样本集对应的月还款数据融合为用户样本集对应的目标月还款数据之后，还可以将该数据预测结果存储至网络设备所在的分布式系统中，以作记录。

在其它实施例中，还可以将预测过程中的过程数据存储至网络设备所在的分布式系统中，包括但不限于获取到的用户样本集，划分得到的子用户样本集，评分得到的信用分值等。

由上可知，本发明通过获取用户样本集，用户样本集包括多个用户样本；根据预先训练的信用评分模型对每一用户样本进行信用评分，得到每一用户样本的信用分值；根据每一用户样本的信用分值，将用户样本集划分为对应不同信用分值区间的多个子用户样本集；预测每一子用户样本集对应贷款产品的月还款数据，并根据预设融合策略将多个子用户样本集对应的月还款数据融合为用户样本集对应的目标月还款数据；根据目标月还款数据进行还款数据预测，得到数据预测结果。本发明在预测过程中增加了对用户的信用评分以及分级，由此预测得到的月还款数据将更贴近真实放款质量，相较于现有技术具有更高的准确度。

实施例二、

请参阅图6，本发明实施例提供的数据处理方法的流程还可以包括：

在301中，网络设备从贷款产品对应的资产方终端获取历史用户样本集，历史用户样本集包括多个历史用户样本。

其中，网络设备首先从贷款产品对应的的资产方终端获取历史用户样本集，该历史用户样本集包括多个历史用户样本。其中，历史用户样本包括用户的多维用户特征(包括但不限于性别、年龄、执业、收入等)以及历史月还款数据以及对应的月应还款数据。

在302中，网络设备将历史用户样本集中的历史用户样本划分为正用户样本、负用户样本以及灰用户样本。

对于历史用户样本集中的每一历史用户样本，网络设备对其进行分类。其中，以某历史用户样本为例，网络设备可以根据该历史用户样本中的历史月还款数据以及其对应的月应还款数据，识别出该用户是否逾期，以及逾期的天数，并根据该用户是否逾期，以及逾期的天数对其进行分类。

在303中，网络设备构建逻辑回归模型，并根据正用户样本和负用户样本对逻辑回归模型进行训练，直至满足预设训练停止条件。

在完成历史用户样本的划分之后，网络设备构建逻辑回归模型作为模型训练的基础模型，并根据正用户样本和负用户样本对逻辑回归模型进行训练，直至满足预设训练停止条件。

示例性的，构建逻辑回归模型表示为：

Y＝ln((1-xbeta)/xbeta)；

beta＝a0+a1*X1+a2*X2+a3*X3+…+an*Xn；

xbeta＝exp(beta)/(1+exp(beta))；

其中，Y表示逻辑回归模型的输出值，取值范围为[0，1]，[a0，a1，……an]表示参数，通过训练过程确定，[X1，X2，……，Xn]表示用于训练的正用户样本/负用户样本的n维用户特征。

相应的，对该逻辑回归模型的训练过程，也即是确定其参数[a0，a1，……an]的过程，以使得其对应正用户样本的输出值为“1”，对应负用户样本的输出为值“0”。

应当说明的是，本发明实施例中，在构建逻辑回归模型之外，还构建有对应该逻辑回归模型的损失函数，具体可由本领域普通技术人员根据实际需要预先设置构建损失函数的类型，比如，本发明实施例中采用交叉熵损失函数。

在根据正用户样本和负用户样本对逻辑回归模型进行训练时，为正用户样本分配标签值“1”，为负用户样本分配标签值“0”，然后，可以将正/负用户样本输入逻辑回归模型进行计算，得到对应的预测值，然后将该预测值以及对应的标签值代入损失函数计算得到损失值，根据该损失值对逻辑回归模型的参数进行调整，也即是求解损失函数的最小值。比如，可以利用梯度下降算法来迭代逻辑回归模型的参数，从而得到最小化的损失值和对应的参数。

应当说明的是，预设训练停止条件用于描述在何时停止对构建的逻辑回归模型的训练，可由本领域普通技术人员根据实际需要进行设置。比如，可以设置预设训练停止条件为：对构建的逻辑回归模型参数的迭代次数达到预设迭代次数(可由本领域普通技术人员根据实际需要取经验值，比如900)；还可以设置预设训练停止条件为：逻辑回归模型的损失值小于预设损失值(可由本领域普通技术人员根据实际需要取经验值)。

相应的，在每次调整逻辑回归模型的参数后，即判断是否满足预设训练停止条件，若不满足则继续对逻辑回归模型进行训练，直至满足预设训练停止条件。

在304中，网络设备根据灰用户样本对满足预设训练停止条件的逻辑回归模型进行测试。

当满足预设训练停止条件时，网络设备进一步根据灰用户样本对满足预设训练停止条件的逻辑回归模型进行测试，当测试通过时，将满足预设训练停止条件的逻辑回归模型作为用于进行信用评分的信用评分模型。

示例性的，可以将灰用户样本输入满足预设训练停止条件的逻辑回归模型进行计算，以逾期天数越长的灰用户样本对应的计算值越小，以逾期天数越短的灰用户样本对应的计数值越大为约束，可由本领域普通技术人员根据实际需要配置测试通过条件，本发明实施例对此不做限制。

在305中，当测试通过时，网络设备将满足预设训练停止条件的逻辑回归模型作为信用评分模型。

其中，当对满足预设训练停止条件的逻辑回归模型的测试通过时，网络设备将其作为用于信用评分的信用评分模型。

在306中，网络设备获取用户样本集，用户样本集包括多个用户样本。

在307中，网络设备将用户样本输入信用评分模型进行计算，得到用户样本为正用户样本的概率，作为其信用分值。

相应的，网络设备可以将用户样本输入信用评分模型进行计算，得到用户样本为正用户样本的概率，将用户样本为正用户样本的概率作为其信用分值。

其中，信用评分模型按照如下公式进行计算：

Y＝ln((1-xbeta)/xbeta)；

beta＝a0+a1*X1+a2*X2+a3*X3+…+an*Xn；

xbeta＝exp(beta)/(1+exp(beta))；

在308中，网络设备根据每一用户样本的信用分值，将用户样本集划分为对应不同信用分值区间的多个子用户样本集。

在完成对用户样本集的信用评分，并得到用户样本集中每一用户样本的信用分值之后，网络设备进一步根据每一用户样本的信用分值将用户样本集划分为对应不同信用分值区间的多个子用户样本集。本领域普通技术人员可以理解的是，由于信用分值的大小反映了用户的信用高低，根据用户样本的信用分值将用户样本集划分为对应不同信用分值区间的多个子用户样本集，也即是对用户的信用进行信用评级。对应相同信用分值区间的用户具有相同的信用评级。

在309中，网络设备预测每一子用户样本集对应贷款产品的月还款数据，并根据每一子用户样本集占用户样本集的比例，将多个子用户样本集对应的月还款数据融合为用户样本集对应的目标月还款数据。

本发明实施例中，在将用户样本集划分为对应不同信用分值区间的多个子用户样本集之后，对于每一子用户样本集，网络设备分别按照预设还款数据预测策略进行预测，得到每一子用户样本集对应贷款产品的月还款数据(包括贷款周期内各月的还款数据)，或称还款曲线。

然后，网络设备再根据每一子用户样本集占用户样本集的比例，将多个子用户样本集对应的月还款数据融合为用户样本集对应的目标月还款数据。

其中，网络设备直接将每一子用户样本集占用户样本集的比例作为其对应的权重，然后根据每一子用户样本集对应的权重以及月还款数据进行加权求和，得到加权结果，即加权和值，将该加权和值作为对应用户样本集的目标月还款数据。

Re＝w₁*Re₁+w₂*Re₂+w₃*Re₃+w₄*Re₄；

实施例三、

为了更好地实施以上数据处理方法，本发明实施例还提供一种数据处理装置，该数据处理装置具体可以集成在网络设备中。

例如，如图7所示，该数据处理装置可以包括样本获取模块401、信用评分模块402、样本划分模块403、数据预测模块404以及第二预测模块405，如下：

样本获取模块401，用于获取用户样本集，用户样本集包括多个用户样本；

信用评分模块402，用于根据预先训练的信用评分模型对每一用户样本进行信用评分，得到每一用户样本的信用分值；

样本划分模块403，用于根据每一用户样本的信用分值，将用户样本集划分为对应不同信用分值区间的多个子用户样本集；

数据预测模块404，用于预测每一子用户样本集对应贷款产品的月还款数据，并根据预设融合策略将多个子用户样本集对应的月还款数据融合为用户样本集对应的目标月还款数据。

在一实施例中，在根据预设融合策略将多个子用户样本集对应的月还款数据融合为用户样本集对应的目标月还款数据时，数据预测模块404用于：

将每一子用户样本集占用户样本集的比例作为其对应的权重；

将加权结果作为目标月还款数据。

在一实施例中，在根据预设融合策略将多个子用户样本集对应的月还款数据融合为用户样本集对应的目标月还款数据之后，数据预测模块404还用于：

根据目标月还款数据预测月放款数据；

计算目标月还款数据与其对应的月放款数据之间的差值；

累加各月目标月还款数据与其对应的月放款数据之间的差值，得到总差值，以及累加各月偿付给贷款产品的资产方的偿付数据，得到总偿付数据；

计算前述差值与前述总偿付数据的比值。

在一实施例中，数据处理装置还包括模型训练模块，在样本获取模块401获取用户样本集之前，用于：

从贷款产品对应的资产方终端获取历史用户样本集，历史用户样本集包括多个历史用户样本；

将历史用户样本集中的历史用户样本划分为正用户样本、负用户样本以及灰用户样本；

构建基础模型，并根据正用户样本和负用户样本对基础模型进行训练，直至满足预设训练停止条件；

根据灰用户样本对满足预设训练停止条件的基础模型进行测试；

当测试通过时，将满足预设训练停止条件的基础模型作为信用评分模型。

在一实施例中，在根据预先训练的信用评分模型对每一用户样本进行信用评分，得到每一用户样本的信用分值时，信用评分模块402用于：

将用户样本输入信用评分模型进行计算，得到用户样本为正用户样本的概率；

将用户样本为正用户样本的概率作为其信用分值。

在一实施例中，信用评分模型按照如下公式进行计算：

Y＝ln((1-xbeta)/xbeta)；

beta＝a0+a1*X1+a2*X2+a3*X3+…+an*Xn；

xbeta＝exp(beta)/(1+exp(beta))；

其中，Y表示信用评分模型的输出值，[a0，a1，……an]表示信用评分模型的参数，[X1，X2，……，Xn]表示用户样本的多维用户特征。

在一实施例中，在预测每一子用户样本集对应贷款产品的月还款数据时，数据预测模块404用于：

根据信用评分模型对历史用户样本集进行信用评分，得到每一历史用户样本的信用分值；

根据每一历史用户的信用分值，将历史用户样本集划分为对应不同信用分值区间的多个历史子用户样本集；

根据历史子用户样本集的历史月还款数据计算逾期数据的月迁徙率；

根据月迁徙率计算对应历史子用户样本集的子用户样本集的月逾期损失率；

根据月逾期损失率计算对应历史子用户样本集的子用户样本集的月还款数据。

在一实施例中，数据处理装置还包括数据储存模块，在根据预设融合策略将多个子用户样本集对应的月还款数据融合为用户样本集对应的目标月还款数据之后，用于：

将目标月还款数据存储至分布式系统中。

应当说明的是，本发明实施例提供的数据处理装置与上文实施例中的数据处理方法属于同一构思，在数据处理装置上可以运行数据处理方法实施例中提供的任一方法，其具体实现过程详见以上实施例，此处不再赘述。

实施例四、

本发明实施例还提供一种网络设备，如图8所示，其示出了本发明实施例所涉及的网络设备的结构示意图，具体来讲：

该网络设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解，图8中示出的网络设备结构并不构成对网络设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器601是该网络设备的控制中心，利用各种接口和线路连接整个网络设备的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行网络设备的各种功能和处理数据。

存储器602可用于存储软件程序以及模块，处理器601通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器601对存储器602的访问。

网络设备还包括给各个部件供电的电源603，优选的，电源603可以通过电源管理系统与处理器601逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

该网络设备还可包括输入单元604，该输入单元604可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，网络设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，网络设备中的处理器601会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器601来运行存储在存储器602中的应用程序，从而实现各种功能，如下：

获取用户样本集，用户样本集包括多个用户样本；

根据每一用户样本的信用分值，将用户样本集划分为对应不同信用分值区间的多个子用户样本集；

预测每一子用户样本集对应贷款产品的月还款数据，并根据预设融合策略将多个子用户样本集对应的月还款数据融合为用户样本集对应的目标月还款数据。

应当说明的是，本发明实施例提供的网络设备与上文实施例中的适用于网络设备的数据处理方法属于同一构思，其具体实现过程详见以上方法实施例，此处不再赘述。

实施例六、

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有计算机程序，该计算机程序包括的多条指令能够被网络设备的处理器进行加载，以执行本发明实施例所提供的适用于网络设备的数据处理方法，例如：

获取用户样本集，用户样本集包括多个用户样本；

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

本发明实施例所提供的存储介质能够实现本发明实施例所提供的对应数据处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种数据处理方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据处理方法，其特征在于，所述数据处理方法包括：

获取用户样本集，所述用户样本集包括多个用户样本；

2.根据权利要求1所述的数据处理方法，其特征在于，所述根据预设融合策略将所述多个子用户样本集对应的月还款数据融合为所述用户样本集对应的目标月还款数据的步骤，包括：

将所述加权结果作为所述目标月还款数据。

3.根据权利要求1或2所述的数据处理方法，其特征在于，所述根据预设融合策略将所述多个子用户样本集对应的月还款数据融合为所述用户样本集对应的目标月还款数据的步骤之后，还包括：

根据所述目标月还款数据预测月放款数据；

计算所述目标月还款数据与其对应的月放款数据的差值；

计算所述总差值与所述总偿付数据的比值。

4.根据权利要求1或2所述的数据处理方法，其特征在于，所述获取用户样本集的步骤之前，还包括：

5.根据权利要求4所述的数据处理方法，其特征在于，所述根据预先训练的信用评分模型对每一用户样本进行信用评分，得到每一用户样本的信用分值的步骤，包括：

将所述用户样本为正用户样本的概率作为其信用分值。

6.根据权利要求4所述的数据处理方法，其特征在于，所述信用评分模型按照如下公式进行计算：

Y＝ln((1-xbeta)/xbeta)；

beta＝a0+a1*X1+a2*X2+a3*X3+…+an*Xn；

xbeta＝exp(beta)/(1+exp(beta))；

7.根据权利要求4所述的数据处理方法，其特征在于，所述预测每一子用户样本集对应贷款产品的月还款数据的步骤，包括：

8.根据权利要求1或2所述的数据处理方法，其特征在于，所述根据预设融合策略将所述多个子用户样本集对应的月还款数据融合为所述用户样本集对应的目标月还款数据之后，还包括：

将所述目标月还款数据存储至分布式系统中。

9.一种数据处理装置，其特征在于，包括：

10.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行如权利要求1至8任一项所述的数据处理方法。