CN110135467A

CN110135467A - 一种基于数据拼接的模型训练方法、装置、系统和记录介质

Info

Publication number: CN110135467A
Application number: CN201910330935.9A
Authority: CN
Inventors: 姜润洲; 苏绥绥; 常富洋
Original assignee: Beijing Qilu Information Technology Co Ltd
Current assignee: Beijing Qilu Information Technology Co Ltd
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-08-16

Abstract

本发明公开了基于数据拼接的模型训练方法、装置、系统和计算机可读介质。所述方法包括获取用户数据，所述用户数据由多个标签数据构成，所述标签数据包括标签名及标签值，根据所述用户数据的至少一个标签数据进行分箱，获得分箱标签数据，将所述分箱标签数据与未分箱的其他标签数据进行拼接后输入信贷评分模型进行训练，对训练后的所述信贷评分模型进行离线模拟，根据模拟结果对标签数据进行调整。本发明能够自动地、高效地进行数据分箱，减少人工工作量，并且利用数据拼接方法对信贷评分模型进行训练后，模型准确性、稳定性高。

Description

一种基于数据拼接的模型训练方法、装置、系统和记录介质

技术领域

本发明属于数据处理技术领域，具体涉及用于商业、金融等目的的数据处理系统和方法，特别是基于数据拼接的模型训练方法、装置、系统和计算机刻度介质。

背景技术

互联网金融网贷平台种类多样、名目繁多，通过网贷平台申请贷款的信贷模式长足发展。相比于传统的信贷模式，网上申请贷款给人们带来便利性的同时，由于网络用户申请贷款的门槛低，个人信息不完善，网贷用户出现无法偿还贷款的情况时有发生，为信贷业务部门带来了欺诈骗贷风险，为了降低信贷风险，可以直接利用现有的信贷评分模型对信贷申请人进行评分，根据评分来量化借贷申请人的总体信用可靠度。

但是，现有技术建立的信贷评分模型在进行训练时需要手工分箱用户的样本数据，工作量大且效率低，并且在优化模型的过程中缺省大量未分箱的其他样本数据，这使得当前的模型训练方法不能准确、高效地进行对信贷申请人进行信用评估，导致信贷风险评估不准确。

发明内容

本发明所要解决的技术问题是信贷评分模型在训练过程中效率低，准确率低的问题。

为解决上述技术问题，本发明的第一方面提出一种基于数据拼接的模型训练方法，包括如下步骤：获取用户数据，所述用户数据由多个标签数据构成，所述标签数据包括标签名及标签值；根据所述用户数据的至少一个标签数据进行分箱，获得分箱标签数据；将所述分箱标签数据与未分箱的其他标签数据进行拼接后输入信贷评分模型进行训练；对训练后的所述信贷评分模型进行离线模拟，根据模拟结果对标签数据进行调整。

根据本发明的一种优选实施方式，所述用户数据，包括在线产生的数据、预先生成并存储的数据、通过输入装置或传输媒介而从外部接收的数据中的至少一种。

根据本发明的一种优选实施方式，所述标签名包括性别、城市、年龄、职业、住房状况、供养人数、小孩数、信用卡、借贷额、借贷期限中的至少一个。

根据本发明的一种优选实施方式，在根据所述用户数据的至少一个标签数据进行分箱，获得分箱标签数据之前，还包括对用户数据的清洗。

根据本发明的一种优选实施方式，所述清洗过程包括：缺失值分析处理、单变量异常分析。

根据本发明的一种优选实施方式，所述分箱步骤为：根据预定的规则对标签数据进行自动分箱。

根据本发明的一种优选实施方式，所述信贷评分模型为xgboost模型。

根据本发明的一种优选实施方式，将所述分箱标签数据与未分箱的其他标签数据进行拼接后输入信贷评分模型进行训练包括：将所述分箱标签数据与未分箱的其他标签数据进行拼接后输入信贷评分模型进行定期或不定期训练。

根据本发明的一种优选实施方式，所述对标签数据进行调整的步骤包括：根据标签对信贷评分的影响程度进行排序，将影响程度低于预设阈值的标签数据从所述用户数据中进行剔除。

本发明的第二方面提出一种基于数据拼接的模型训练装置，包括：数据获取模块，用于获取用户数据，所述用户数据由多个标签数据构成，所述标签数据包括标签名及标签值；数据分箱模块，用于根据所述用户数据的至少一个标签数据进行分箱，获得分箱标签数据；数据拼接模块，用于将所述分箱标签数据与未分箱的其他标签数据进行拼接后输入信贷评分模型；信贷评分模块，用于接收所述数据拼接模块输出的数据，并利用信贷评分模型进行评分计算，获得用户信贷评分；训练模块，用于根据所述用户信贷评分对所述信贷评分模型进行训练；离线模拟模块，用于对训练后的信贷评分模型进行离线模拟，获得模拟结果。

根据本发明的一种优选实施方式，还包括数据清洗模块，用于对用户数据进行清洗。

根据本发明的一种优选实施方式，所述对用户数据进行清洗，采用的方法包括：缺失值分析处理或单变量异常分析方法。

根据本发明的一种优选实施方式，所述分箱包括：根据预定的规则对标签数据进行自动分箱。

根据本发明的一种优选实施方式，还包括响应模块，用于根据所述模拟结果对标签数据进行调整，具体为，根据标签对信贷评分的影响程度进行排序，将影响程度低于预设阈值的标签数据从所述用户数据中进行剔除。

本发明的第三方面提出一种基于数据拼接的模型训练系统，包括：存储器，用于存储计算机可执行程序；数据处理装置，用于读取所述存储器中的计算机可执行程序，以执行所述的基于数据拼接的模型训练方法。

本发明的第四方面提出一种计算机可读介质，用于存储计算机可读程序，所述计算机可读程序用于执行所述的基于数据拼接的模型训练方法。

本发明采用自动分箱，能够自动地、高效地进行数据分箱，减少人工工作量。

本发明利用数据拼接方法对信贷评分模型进行训练，将分箱后的样本数据与未分箱的其他样本数据，能够准确、高效地进行对信贷申请人进行信用评估，降低信贷风险。

附图说明

图1是本发明的基于数据拼接的模型训练方法的流程示意图；

图2是本发明的基于数据拼接的模型训练装置的模块架构示意图；

图3是本发明的基于数据拼接的模型训练系统的结构框架示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

图1是本发明基于数据拼接的模型训练方法的流程示意图。如图1所示，本发明的方法具有如下步骤：

S1：获取用户数据，其中，用户数据由多个标签数据构成，标签数据包括标签名及标签值。所谓“标签”指的是模型的变量，标签值即变量值。“标签”有时也称为特征。

作为示例，获取100个用户数据，用户数据来源于在线产生的数据、预先生成并存储的数据、通过输入装置或传输媒介而从外部接收的数据中的至少一种，其中，每个用户数据由2000多个特征构成。其中标签名包括：性别、年龄、职业、住房状况、供养人数、小孩数、信用卡、借贷额、借贷期限等，或者通过已知特征自造新特征，比如已知用户特征中A特征是当月负债、B是当月收入，自造A/B特征、自造B/A特征等。特征值可以用二进制离散向量表示，比如手机注册的城市，比如几百个城市，就是几百维度，比如性别，男特征值为01，女特征值为10。

大量的用户数据要真正进入模型，必须经过数据清洗。在数据清洗时应注意检查数据的逻辑性、区分“数据缺失”和“0”、根据逻辑推断某些值、寻找反常数据、评估是否真实。应用过程中可以通过求最小值、最大值和平均值的方法，初步验证抽样数据是否随机、是否具有代表性。常用清理过程包含：缺失值分析处理、单变量异常分析(LOF分析处理或聚类分析)。用户数据经过数据清洗之后进入后续处理。

S2：根据用户数据的至少一个标签数据进行分箱，获得分箱标签数据。

作为示例，用户数据的2000多个特征，其特征组合有13000多种，那分箱模式可选地有13000种，选取其中一种分箱模式作为预定的分箱模式，根据预定的分箱模式对清洗后的用户数据进行自动分箱，获得分箱特征数据，比如，将用户的城市和性别的特征组合作为预定的分箱模式，计算机程序会根据该预定的分箱模式自动获得分箱特征数据。

S3：将分箱标签数据与未分箱的其他标签数据进行拼接后输入信贷评分模型进行训练。

作为示例，将根据城市和性别分箱后的数据与未分箱的年龄、收入等其他数据进行拼接后输入xgboost模型。xgboost模型计算出用户的信贷评分，xgboost模型计算出的用户的信贷评分与xgboost模型中已保存的用户的信贷评分存在差异，通过调整xgboost模型中各标签或特征的权重对xgboost模型进行优化，以得到更准确的评分。训练后的xgboost模型由于用户数据更新不及时或用户数据取样不合理会存在诸多问题，可以选择对信贷评分模型进行定期或不定期训练。

S4：对训练后的信贷评分模型进行离线模拟，根据模拟结果对标签数据进行调整。

作为示例，对训练后的xgboost模型通过离线数据进行模拟。其中，离线数据一般可以为T-1或T-7的数据，即前一日的数据，或前后的数据。使用xgboost模型自身提供的信息价值F(feature importance)函数输出，信息价值F的值反映特征重要性，特征重要性的级别越高，表示该特征对改善模型预测的贡献越大，反之，模型反馈尾部的特征对模型的影响和改善最小。根据特征对信贷评分的影响程度进行排序，将影响程度低于预设阈值的特征数据从用户数据中进行剔除。作为示例，我们可以将影响程度在尾部10％的特征剔除除或取整。

最后，将调整后的用户数据采用其他的分箱模式进行自动分箱，获得分箱数据。即调整分箱的特征组合，比如，根据城市和收入的特征组合获得分箱数据，再重新拼接、模型训练、离线模拟输出反馈结果，直到模型稳定。

本发明对信贷评分模型进行训练，用于提高对信贷用户信用可靠度的判断，降低信贷部门应对该信贷用户的信贷风险。

图2是本发明的基于数据拼接的模型训练装置的模块架构示意图。如图2所示，该装置包括：数据获取模块，用于获取用户数据，用户数据由多个标签数据构成，标签数据包括标签名及标签值。所谓“标签”指的是模型的变量，标签值即变量值。“标签”有时也称为特征。数据分箱模块，用于根据用户数据的至少一个标签数据进行分箱，获得分箱标签数据；数据拼接模块，用于将分箱标签数据与未分箱的其他标签数据进行拼接后输入信贷评分模型；信贷评分模块，用于接收数据拼接模块输出的数据，并利用信贷评分模型进行评分计算，获得用户信贷评分；训练模块，用于根据所述用户信贷评分对所述信贷评分模型进行训练；离线模拟模块，用于对训练后的信贷评分模型进行离线模拟，获得模拟结果。

数据获取模块，获取100个用户数据，用户数据来源于在线产生的数据、预先生成并存储的数据、通过输入装置或传输媒介而从外部接收的数据中的至少一种，其中，每个用户数据由2000多个特征构成。其中标签名包括：性别、城市、年龄、职业、住房状况、供养人数、小孩数、信用卡、借贷额、借贷期限等，或者通过已知特征自造新特征，比如已知用户特征中A特征是当月负债、B是当月收入，自造A/B特征、自造B/A特征等。特征值可以用二进制离散向量表示，比如手机注册的城市，比如几百个城市，就是几百维度，比如性别，男特征值为01，女特征值为10。

本发明的基于数据拼接的模型训练装置，还包括数据清洗模块，用于对用户数据进行清洗。大量的用户数据要真正进入模型，必须经过数据清洗。在数据清洗时应注意检查数据的逻辑性、区分“数据缺失”和“0”、根据逻辑推断某些值、寻找反常数据、评估是否真实。应用过程中可以通过求最小值、最大值和平均值的方法，初步验证抽样数据是否随机、是否具有代表性。常用清理过程包含：缺失值分析处理、单变量异常分析(LOF分析处理或聚类分析)。用户数据经过数据清洗之后进入后续处理。

数据分箱模块，用于根据所述用户数据的至少一个标签数据进行分箱，获得分箱标签数据。作为示例，用户数据的2000多个特征，其特征组合有13000多种，那分箱模式可选地有13000种，数据分箱模块选取其中一种分箱模式作为预定的分箱模式，根据预定的分箱模式对清洗后的用户数据进行自动分箱，获得分箱特征数据，比如，将用户的城市和性别的特征组合作为预定的分箱模式，计算机程序会根据该预定的分箱模式自动获得分箱特征数据。

数据拼接模块，用于将所述分箱标签数据与未分箱的其他标签数据进行拼接后输入信贷评分模型。

信贷评分模块，用于接收所述数据拼接模块输出的数据，并利用信贷评分模型进行评分计算，获得用户信贷评分。

训练模块，用于根据所述用户信贷评分对所述信贷评分模型进行训练。

作为示例，数据拼接模块将根据城市和性别分箱后的数据与未分箱的年龄、收入等其他数据在数据拼接模块进行拼接后输入xgboost模型。xgboost模型计算出用户的信贷评分，xgboost模型计算出的用户的信贷评分与xgboost模型中已保存的用户的信贷评分存在差异，通过调整xgboost模型中各标签或特征的权重对xgboost模型进行优化，以得到更准确的评分。训练后的xgboost模型由于用户数据更新不及时或用户数据取样不合理会存在诸多问题，可以选择对信贷评分模型进行定期或不定期训练。

作为示例，对训练后的xgboost模型通过离线数据进行模拟。其中，离线数据一般可以为T-1或T-7的数据，即前一日的数据，或前后的数据。使用xgboost模型自身提供的信息价值F(feature importance)函数输出，信息价值F的值反映特征重要性，特征重要性的级别越高，表示该特征对改善模型预测的贡献越大，反之，模型反馈尾部的特征对模型的影响和改善最小。根据特征对信贷评分的影响程度进行排序，将影响程度低于预设阈值的特征数据从用户数据中进行剔除。作为示例，我们可以将影响度在尾部10％的特征剔除或取整。

最后，将剔除或取整后的用户数据采用其他的分箱模式进行自动分箱，获得分箱数据。即调整分箱的特征组合，比如，不再根据城市和性别的特征组合进行分箱，而是根据年龄和职业的特征组合获得分箱数据，再重新拼接、模型训练、离线模拟输出反馈结果，直到模型稳定。

本发明的基于数据拼接的模型训练装置能够实现基于数据拼接的模型训练方法，采用自动分箱，能够自动地、高效地进行数据分箱，减少人工工作量。

本发明的基于数据拼接的模型训练装置能够实现基于数据拼接的模型训练方法，利用数据拼接方法对信贷评分模型进行训练，将分箱后的样本数据与未分箱的其他样本数据，能够准确、高效地进行对信贷申请人进行信用评估，降低信贷风险。

此外，本发明还提出基于数据拼接的模型训练系统。图3是本发明的基于数据拼接的模型训练系统的结构框架示意图，如图3所示，该系统包括存储器和数据处理装置，存储器用于存储计算机可执行程序，数据处理装置，用于读取所述存储器中的计算机可执行程序，以执行基于数据拼接的模型训练方法。本发明中系统可以是本地系统，也可以是分布式系统。本发明的存储器可以是本地存储器，也可以是分布式存储系统，例如云存储系统。而数据处理器则包括至少一个具人数字信息处理能力的装置，例如CPU、GPU、多处理器系统或云处理器。

再者，本发明还提出计算机可读介质，用于存储计算机可读程序，所述计算机可读程序用于执行基于数据拼接的模型训练方法。

应当理解，为了精简本发明并帮助本领域的技术人员理解本发明的各个方面，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时在单个实施例中进行描述，或者参照单个图进行描述。但是，不应将本发明解释成示例性实施例中包括的特征均为本专利权利要求的必要技术特征。

应当理解，可以对本发明的一个实施例的设备中包括的模块、单元、组件等进行自适应性地改变以把它们设置在与该实施例不同的设备中。可以把实施例的设备包括的不同模块、单元或组件组合成一个模块、单元或组件，也可以把它们分成多个子模块、子单元或子组件。本发明的实施例中的模块、单元或组件可以以硬件方式实现，也可以以一个或者多个处理器上运行的软件方式实现，或者以它们的组合实现。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于数据拼接的模型训练方法，包括如下步骤：

获取用户数据，所述用户数据由多个标签数据构成，所述标签数据包括标签名及标签值；

根据所述用户数据的至少一个标签数据进行分箱，获得分箱标签数据；

将所述分箱标签数据与未分箱的其他标签数据进行拼接后输入信贷评分模型进行训练；

对训练后的所述信贷评分模型进行离线模拟，根据模拟结果对标签数据进行调整。

2.如权利要求1所述的基于数据拼接的模型训练方法，其特征在于：所述用户数据，包括在线产生的数据、预先生成并存储的数据、通过输入装置或传输媒介而从外部接收的数据中的至少一种。

3.如权利要求1所述的基于数据拼接的模型训练方法，其特征在于：在根据所述用户数据的至少一个标签数据进行分箱，获得分箱标签数据之前，还包括对用户数据的清洗。

4.如权利要求3所述的基于数据拼接的模型训练方法，其特征在于：所述清洗过程包括：缺失值分析处理、单变量异常分析。

5.如权利要求1所述的基于数据拼接的模型训练方法，其特征在于：所述分箱步骤为：根据预定的规则对标签数据进行自动分箱。

6.如权利要求1所述的基于数据拼接的模型训练方法，其特征在于：所述信贷评分模型为xgboost模型。

7.如权利要求1所述的基于数据拼接的模型训练方法，其特征在于：所述对标签数据进行调整的步骤包括：根据标签对信贷评分的影响程度进行排序，将影响程度低于预设阈值的标签数据从所述用户数据中进行剔除。

8.一种基于数据拼接的模型训练装置，包括：

数据获取模块，用于获取用户数据，所述用户数据由多个标签数据构成，所述标签数据包括标签名及标签值；

数据分箱模块，用于根据所述用户数据的至少一个标签数据进行分箱，获得分箱标签数据；

数据拼接模块，用于将所述分箱标签数据与未分箱的其他标签数据进行拼接后输入信贷评分模型；

信贷评分模块，用于接收所述数据拼接模块输出的数据，并利用信贷评分模型进行评分计算，获得用户信贷评分；

训练模块，用于根据所述用户信贷评分对所述信贷评分模型进行训练；

离线模拟模块，用于对训练后的信贷评分模型进行离线模拟，获得模拟结果。

9.一种基于数据拼接的模型训练系统，其特征在于，包括：

存储器，用于存储计算机可执行程序；

数据处理装置，用于读取所述存储器中的计算机可执行程序，以执行权利要求1至7中任一项所述的基于数据拼接的模型训练方法。

10.一种计算机可读介质，用于存储计算机可读程序，其特征在于，所述计算机可读程序用于执行权利要求1至7中任一项所述的基于数据拼接的模型训练方法。