CN114078050A

CN114078050A - 贷款逾期预测方法、装置、电子设备及计算机可读介质

Info

Publication number: CN114078050A
Application number: CN202111365258.8A
Authority: CN
Inventors: 杨旸; 曾桂平; 陈芷君
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-02-22

Abstract

本发明公开了贷款逾期预测方法、装置、电子设备及计算机可读介质，涉及人工智能识别分类技术领域。该方法的一具体实施方式包括：根据设定的分类策略，对历史贷款客户的贷款数据进行分类，得到分类结果，之后对分类结果中至少一个类别的分类数据进行特征衍生，得到相应的衍生特征数据；根据设定的数据筛选规则和预定义的好坏标签，对衍生特征数据进行筛选和打标，得到样本数据，对样本数据进行划分，得到训练集；构建贷款逾期预测模型，基于训练集对贷款逾期预测模型进行训练，以使用训练好的贷款逾期预测模型对目标贷款客户进行贷款逾期预测。该实施方式能够充分挖掘贷款数据的价值，实现对贷中逾期风险的全面预测。

Description

贷款逾期预测方法、装置、电子设备及计算机可读介质

技术领域

本发明涉及人工智能识别分类技术领域，尤其涉及一种贷款逾期预测方法、装置、电子设备及计算机可读介质。

背景技术

目前，大多数人会通过向金融机构申请住房贷款来满足自身购房需求。为了为贷款业务提供更好的风控服务，降低客户的违约风险，现有技术中会利用房贷数据对客户的贷款逾期风险进行预测。但是由于房贷数据的特殊性，导致难以从房贷数据中抽取出有用信息，无法对客户的贷款逾期风险进行全面评估。

特别是针对使用公积金贷款的客户，由于这部分客户的客户质量较好，逾期水平较低，使用现有方式进行贷款逾期预测的准确率低，无法涵盖贷中风险；同时现有的贷款逾期预测方式无法全面挖掘公积金贷款数据中的有用信息，无法全面评估客户的贷款逾期风险。

发明内容

有鉴于此，本发明实施例提供贷款逾期预测方法、装置、电子设备及计算机可读介质，该方法在贷款数据的基础上衍生出具有业务含义的新特征，进而对包括新特征的衍生特征数据进行筛选、打标，生成训练集并训练贷款逾期预测模型，以使用该模型对目标贷款客户的贷款逾期预测，能够充分挖掘贷款数据的价值，实现对贷中逾期风险的全面预测。

为实现上述目的，根据本发明实施例的一个方面，提供了一种贷款逾期预测方法。

本发明实施例的一种贷款逾期预测方法，包括：根据设定的分类策略，对历史贷款客户的贷款数据进行分类，得到分类结果，之后对所述分类结果中至少一个类别的分类数据进行特征衍生，得到相应的衍生特征数据；其中，所述贷款数据包括所述历史贷款客户在贷中阶段所产生的行为数据；根据设定的数据筛选规则和预定义的好坏标签，对所述衍生特征数据进行筛选和打标，得到样本数据，对所述样本数据进行划分，得到训练集；其中，所述好坏标签根据所述行为数据定义；构建贷款逾期预测模型，基于所述训练集对所述贷款逾期预测模型进行训练，以使用训练好的贷款逾期预测模型对目标贷款客户进行贷款逾期预测。

可选地，所述对所述分类结果中至少一个类别的分类数据进行特征衍生，得到相应的衍生特征数据，包括：根据客户行为、行为原因、贷款变量中的任意一个或者多个维度，从所述分类结果中至少一个类别的分类数据中提取基础特征；根据所述基础特征，构造归属于设定时间窗的中间特征，以通过聚合函数，把所述中间特征聚合到所述历史贷款客户上，得到相应的衍生特征数据。

可选地，所述方法还包括：对所述贷款数据进行vintage分析，得到分析结果，根据所述分析结果确定观察期和表现期；根据所述历史贷款客户在所述表现期的逾期情况，定义所述好坏标签；其中，所述好坏标签包括好客户和坏客户。

可选地，所述数据筛选规则用于从所述衍生特征数据中删除满足以下任意一项或者多项的历史贷款客户：证件类型或者证件号码异常，贷款账龄小于设定账龄阈值或者贷款账龄异常，贷款状态为结清或者核销，在所述观察期的观察点已逾期，不存在所述表现期，在所述表现期内贷款状态为结清或者核销。

可选地，所述坏客户定义为所述表现期内存在至少一笔贷款的逾期天数大于等于设定逾期天数阈值，或者连续逾期期数大于等于设定逾期期数阈值；所述好客户定义为所述表现期内全部贷款未逾期，或者逾期天数小于所述逾期天数阈值，且连续逾期期数小于所述逾期期数阈值。

可选地，所述对所述样本数据进行划分，得到训练集，包括：按照设定的划分比例，对所述样本数据进行划分，得到初始训练集，提取所述初始训练集中位于设定观察点的样本数据作为中间训练集；统计所述中间训练集中标签为坏客户的第一样本数量，按照设定的好坏比和所述第一样本数量，计算所述标签为好客户的第二样本数量；采用分层抽样方法，保留所述中间训练集中标签为坏客户的样本数据，并按照所述第二样本数量从所述中间训练集中抽取标签为好客户的样本数据；将保留的标签为坏客户的样本数据，以及抽取的标签为好客户的样本数据添加到训练集。

可选地，所述对所述样本数据进行划分，包括：按照设定的划分比例，对所述样本数据进行划分，得到所述训练集、测试集和验证集；所述方法还包括：使用所述验证集和所述测试集，对所述贷款逾期预测模型进行验证和性能评估。

可选地，所述方法还包括：按照设定的特征选择规则，对所述训练集进行特征选择；其中，所述特征选择规则包括以下任意一项或者多项：特征缺失值占比大于设定占比阈值，特征信息量小于设定信息量阈值，特征相关性大于设定相关性阈值，特征种群稳定性指数大于设定稳定性阈值，特征集中度大于设定集中度阈值，特征重要性小于设定重要性阈值。

可选地，在所述特征选择规则为特征重要性小于设定重要性阈值的情况下，所述对所述训练集进行特征选择，包括：使用分类器，对所述训练集进行拟合，得到满足所述特征选择规则的特征。

可选地，所述方法还包括：按照设定的时间长度，把时间序列划分为多个所述时间窗。

可选地，所述贷款数据为公积金贷款数据。

为实现上述目的，根据本发明实施例的另一方面，提供了一种贷款逾期预测装置。

本发明实施例的一种贷款逾期预测装置，包括：特征衍生模块，用于根据设定的分类策略，对历史贷款客户的贷款数据进行分类，得到分类结果，之后对所述分类结果中至少一个类别的分类数据进行特征衍生，得到相应的衍生特征数据；其中，所述贷款数据包括所述历史贷款客户在贷中阶段所产生的行为数据；样本构建模块，用于根据设定的数据筛选规则和预定义的好坏标签，对所述衍生特征数据进行筛选和打标，得到样本数据，对所述样本数据进行划分，得到训练集；其中，所述好坏标签根据所述行为数据定义；模型预测模块，用于构建贷款逾期预测模型，基于所述训练集对所述贷款逾期预测模型进行训练，以使用训练好的贷款逾期预测模型对目标贷款客户进行贷款逾期预测。

可选地，所述特征衍生模块，还用于根据客户行为、行为原因、贷款变量中的任意一个或者多个维度，从所述分类结果中至少一个类别的分类数据中提取基础特征；根据所述基础特征，构造归属于设定时间窗的中间特征，以通过聚合函数，把所述中间特征聚合到所述历史贷款客户上，得到相应的衍生特征数据。

可选地，所述装置还包括：分析定义模块，用于对所述贷款数据进行vintage分析，得到分析结果，根据所述分析结果确定观察期和表现期；根据所述历史贷款客户在所述表现期的逾期情况，定义所述好坏标签；其中，所述好坏标签包括好客户和坏客户。

可选地，所述样本构建模块，还用于按照设定的划分比例，对所述样本数据进行划分，得到初始训练集，提取所述初始训练集中位于设定观察点的样本数据作为中间训练集；统计所述中间训练集中标签为坏客户的第一样本数量，按照设定的好坏比和所述第一样本数量，计算所述标签为好客户的第二样本数量；采用分层抽样方法，保留所述中间训练集中标签为坏客户的样本数据，并按照所述第二样本数量从所述中间训练集中抽取标签为好客户的样本数据；将保留的标签为坏客户的样本数据，以及抽取的标签为好客户的样本数据添加到训练集。

可选地，所述样本构建模块，还用于按照设定的划分比例，对所述样本数据进行划分，得到所述训练集、测试集和验证集；所述装置还包括：模型评估模块，用于使用所述验证集和所述测试集，对所述贷款逾期预测模型进行验证和性能评估。

可选地，所述装置还包括：特征选择模块，用于按照设定的特征选择规则，对所述训练集进行特征选择；其中，所述特征选择规则包括以下任意一项或者多项：特征缺失值占比大于设定占比阈值，特征信息量小于设定信息量阈值，特征相关性大于设定相关性阈值，特征种群稳定性指数大于设定稳定性阈值，特征集中度大于设定集中度阈值，特征重要性小于设定重要性阈值。

可选地，在所述特征选择规则为特征重要性小于设定重要性阈值的情况下，所述特征选择模块，还用于使用分类器，对所述训练集进行拟合，得到满足所述特征选择规则的特征。

可选地，所述装置还包括：时间窗确定模块，用于按照设定的时间长度，把时间序列划分为多个所述时间窗。

可选地，所述贷款数据为公积金贷款数据。

为实现上述目的，根据本发明实施例的再一方面，提供了一种电子设备。

本发明实施例的一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例的一种贷款逾期预测方法。

为实现上述目的，根据本发明实施例的再一方面，提供了一种计算机可读介质。

本发明实施例的一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例的一种贷款逾期预测方法。

为实现上述目的，根据本发明实施例的又一方面，提供了一种计算机程序产品。

本发明实施例的一种计算机程序产品，包括计算机程序，所述程序被处理器执行时实现本发明实施例的一种贷款逾期预测方法。

上述发明中的一个实施例具有如下优点或有益效果：在贷款数据的基础上衍生出具有业务含义的新特征，进而对包括新特征的衍生特征数据进行筛选、打标，生成训练集并训练贷款逾期预测模型，以使用该模型对目标贷款客户的贷款逾期预测，能够充分挖掘贷款数据的价值，实现了对贷中逾期风险的全面预测。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的贷款逾期预测方法的主要步骤的示意图；

图2是根据本发明实施例的贷款逾期预测方法的主要流程的示意图；

图3是本发明实施例的个人缴存的衍生特征示意图；

图4是本发明实施例的对历史贷款客户的行为数据进行vintage分析所得的vintage曲线示意图；

图5是根据本发明实施例的贷款逾期预测装置的主要模块的示意图；

图6是本发明实施例可以应用于其中的示例性系统架构图；

图7是适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

图1是根据本发明实施例的贷款逾期预测方法的主要步骤的示意图。如图1所示，本发明实施例的贷款逾期预测方法，主要包括如下步骤：

步骤S101：根据设定的分类策略，对历史贷款客户的贷款数据进行分类，得到分类结果，之后对所述分类结果中至少一个类别的分类数据进行特征衍生，得到相应的衍生特征数据。其中，贷款数据包括历史贷款客户的客户信息、在贷中阶段所产生的行为数据。分类策略中设置有对贷款数据进行分类的维度，比如将贷款数据中的客户信息分类为个人信息、单位信息、个人贷款等类别，将行为数据分类为逾期行为、还款行为等。

按照上述维度，对贷款数据进行分类后，可以得到包括多个类别的分类结果。之后对每个分类数据分别进行特征衍生，以为各分类数据衍生出具有业务含义的新特征。实施例中，在进行特征衍生时，可以根据客户行为、行为原因、贷款变量中的任意一个或者多个维度，从分类数据中提取基础特征，之后根据基础特征，构造归属于设定时间窗的中间特征，进而通过聚合函数，把中间特征聚合到历史贷款客户上，即可得到该分类数据的衍生特征数据。

步骤S102：根据设定的数据筛选规则和预定义的好坏标签，对所述衍生特征数据进行筛选和打标，得到样本数据，对所述样本数据进行划分，得到训练集。其中，数据筛选规则用于从衍生特征数据中筛选出需要的历史贷款客户。实施例中，数据筛选规则可以自定义，比如删除证件类型或者证件号码异常的历史贷款客户，删除贷款账龄小于设定账龄阈值或者贷款账龄异常的历史贷款客户等。

好坏标签可以根据行为数据进行定义，包括好客户和坏客户。比如可以定义坏客户为：表现期内存在至少一笔贷款的逾期天数大于等于设定逾期天数阈值，或者连续逾期期数大于等于设定逾期期数阈值；定义好客户为：表现期内全部贷款未逾期，或者逾期天数小于逾期天数阈值，且连续逾期期数小于逾期期数阈值。通过上述筛选和打标处理后，得到样本数据，之后按照设定比例对样本数据进行划分，可以得到训练集。

步骤S103：构建贷款逾期预测模型，基于所述训练集对所述贷款逾期预测模型进行训练，以使用训练好的贷款逾期预测模型对目标贷款客户进行贷款逾期预测。该贷款逾期预测模型属于深度学习模型，比如可以是决策树模型。

初始化贷款逾期预测模型的参数，并构建损失函数，使用训练集对贷款逾期预测模型进行迭代训练，直至损失函数最小时，结束训练，得到训练好的贷款逾期预测模型。将目标贷款客户的贷款数据输入该训练好的贷款逾期预测模型，即可输出目标贷款客户的逾期概率。其中，目标贷款客户是指待进行贷款逾期预测的客户。

上述实施例，通过步骤S101至步骤S102，实现了对贷款数据的特征提取以及训练集构建，通过步骤S103实现了模型训练以及贷款逾期预测，能够充分挖掘贷款数据的价值，实现了对贷中逾期风险的全面预测。

金融机构通常会提供多种贷款方式，不同贷款方式的客户群、数据源通常存在差异，使用常规逾期预测模型进行贷款逾期预测时，会产生预测不准确的问题。比如，对于贷款方式为公积金贷款的客户，该客户群质量较好，逾期水平较低，使用常规逾期预测模型进行贷款逾期预测时，会由于客群基本特征不一致产生预测不准确的问题。

另外，公积金数据源包括个人和单位的基本信息，存款账户信息和个人贷款的账户信息、变动信息，涵盖了存贷款基本的数据结构。但是公积金数据与银行的存贷款数据存在一些差异，也会导致常规的逾期预测模型无法准确预测公积金贷款逾期情况。

比如，公积金数据包含全面的单位信息和单位缴存信息，可以从中识别出个人所属企业的经营情况、规模、稳定性等特征，银行的存贷款数据不具备的该信息。其次，公积金贷款的个人缴存变动信息一般具有规律性，从而可以通过发掘异常情况，识别风险。

基于上述原因，本实施例提供了一种贷款逾期预测方法，通过特征衍生，确定观察期、表现期，定义好坏标签，进而得到样本数据，划分样本数据后，运用GBDT(GradientBoosting Decision Tree，梯度下降决策树)分类器对训练集样本进行训练，并用测试集和验证集样本做验证，评估模型结果并调参，该方法能够对公积金贷款的贷中风险进行分析和预测，具体实现如下。

图2是根据本发明实施例的贷款逾期预测方法的主要流程的示意图。如图2所示，本发明实施例的贷款逾期预测方法，主包括如下步骤：

步骤S201：根据设定的分类策略，对历史贷款客户的贷款数据进行分类，得到分类结果。首先，对历史贷款客户的原始贷款数据进行预处理，其中，原始贷款数据是历史贷款客户通过公积金贷款所形成的。由于原始贷款数据可能存在许多数据问题，比如证件号码异常、时间字段异常(比如贷款发放日期早于公积金贷款开设时间或者晚于当前时间，贷款发放日期大于借款合同到期日期)、时间字段格式不统一等，因此需对原始贷款数据进行数据清洗，保证数据质量。

具体地，对原始贷款数据的数据清洗操作主要包括以下几个方面：剔除不符合规范的证件号码；规范时间字段格式，并剔除时间异常值；统一数值型字段的单位，比如金额类型统一单位为元，比例类型统一单位为百分比；对数值型变量取绝对值，避免数值型变量出现负值；清洗分类型变量，将异常值转化为缺失。

对原始贷款数据进行数据清洗后，即可得到贷款数据。为了开发符合模型应用的特征集，需要对贷款数据进行重新分类。实施例中将贷款数据分为11类，具体可以包括个人信息、个人缴存、个人贷款、还款行为、逾期行为、共同借款、单位信息、单位缴存、报税信息、担保信息及政策信息。每个分类涉及多张数据表。

步骤S202：对分类结果中至少一个类别的分类数据进行特征衍生，得到相应的衍生特征数据。基于分类结果，可以从多个维度对数据进行衍生。该特征衍生处理能够从贷款数据中充分挖掘有用数据，保证后续训练出的贷款逾期预测模型能够全面评估客户的贷款逾期风险。

图3是本发明实施例的个人缴存的衍生特征示意图。如图3所示，公积金的个人缴存存在多种客户行为，比如补缴、汇缴、缓缴、提取等，此客户行为的分类可作为第一细分类型。此外，提取行为可以有多种行为原因，比如租房提取、购买住房、离退休等，此行为原因的分类可作为第二细分类型。客户贷款存在一些变化的数据字段(即贷款变量)，比如贷款笔数、贷款金额、标志灯，此贷款变量分类可作为第三细分类型。

可以理解的是，细分类型可以在细颗粒度的基础上进行合并，比如合并为：保留补缴、汇缴、缴存(补缴+汇缴)三个类型。实施例中，可以根据客户行为、行为原因、贷款变量中的任意一个或者多个维度，从个人缴存的分类数据中提取基础特征。

另外，由于客户行为会动态变化，故可以按照设定的时间长度，把时间序列划分为多个时间窗，以根据基础特征，构造每个时间窗的中间特征。最后通过聚合函数，把中间特征聚合到历史贷款客户上，即可得到个人缴存的衍生特征数据。实施例中，时间长度比如设定为3、6、12、24或36个月等。聚合函数可用于实现取最小值、最大值、总和或者变异系数等功能。

个人缴存的衍生特征可以用如下公式表示：

衍生特征＝客户行为*行为原因*贷款变量*时间窗*聚合函数

公式1由上述公式可知，决定衍生特征的数据维度有5个，分别为客户行为、行为原因、贷款变量、时间窗和聚合函数，每个数据维度存在多种取值，比如，客户行为维度的取值为补缴、汇缴、缓缴等。衍生特征为从每个数据维度任取一个取值进行组合所得到的全部结果。假设客户行为有m种，行为原因为n种，贷款变量为j个，时间窗为k个，聚合函数为v个，则最终的衍生特征数量为m*n*j*k*v。

按照上述特征衍生方式，可以对分类结果中每个类别的分类数据进行设计并开发衍生代码，最终生成衍生特征924个。各类别的分类数据中衍生特征的分布以及涉及的数据表如表1所示。

表1

在一优选的实施例中，为了解决特征异常值的问题，在对分类数据进行特征衍生后，需要衍生结果进行特征清洗，得到最终的衍生特征数据。具体地，确定特征的正常取值范围，并将异常值替换为null或最大值或最小值。特征清洗统计结果见表2。

实施例中，对于人数类特征，需统计观察数据分布，确定特征的正常取值范围，替换异常值；对于时间区间类特征，如果出现负值或大于99分位数，则替换为null；对于比例类特征，统一为百分数，比如记录值为50，其实际意义为百分之五十；对于利率类(比如贷款利率和借款合同利率)特征，若大于20％，则处理成20％；对于数值类特征，如果大于99分位数，则替换为99分位数，出现负值则替换为0。

表2

步骤S203：对贷款数据进行vintage分析，得到分析结果，根据分析结果确定观察期和表现期。其中，vintage分析的核心思想是以账龄(month on book，MOB)为主轴，观察贷后N个月的逾期率。观察期是一个滚动窗口，以保证贷款“好”、“坏”的行为可以充分观察。表现期是对观察点存续贷款在未来进行表现监控的时间周期。根据贷款在表现期内的表现，将其分别标识为“好”、“不确定”和“坏”。表现期必须足够长，从而保证样本好坏情况得以充分体现。

图4是本发明实施例的对历史贷款客户的行为数据进行vintage分析所得的vintage曲线示意图。mobN是指放款后第N个完整月份。比如，mob4是指放款后第4个完整月份。如图4所示，历史贷款客户的逾期率在2017年左右骤升，导致2017年以前的逾期累计趋势难以分析。

观察2017年及以后的贷款发现，逾期行为需要24-48个月才趋于成熟。根据数据的可获取性分析，最短的特征数据源时间段为2019年4月-2020年8月。因此，若为观察期留出至少6个月，滚动窗口留出4个月，则表现期最长设定为8个月。实施例中，以201910、201911、201912、202001月末为滚动观察点，观察期为各观察点之前36个月，部分特征的观察期为6个月。由于数据时间限制和易解释性，最终将表现期设定为6个月。

步骤S204：根据历史贷款客户在表现期的逾期情况，定义好坏标签。根据历史贷款客户在表现期的逾期情况，通过滚动率分析确定最终的坏客户标签和好客户标签。具体地，首先确定截取201911与201912两个时间点为表现时间结点；然后，分别计算截至这两个时间点客户的连续逾期天数，并根据连续逾期天数加工逾期标签。

其中，逾期标签的取值如下：m0：逾期1-29天；m1：逾期30-59天；m2：逾期60-89天；m3：逾期90-119天；m4：逾期120-149天；m5：逾期150-179天；m6：逾期180-209天；m7+：逾期210天及以上。其中，：m0、m1、m2、m3、m4、m5、m6、m7+均代表一个逾期状态。表3为逾期状态之间的转化率分析表。

表3

逾期状态	转化率
		M0→M1	37.79％
M1→M2	51.52％
		M2→M3	63.81％
M3→M4	75.48％
		M4→M5	79.96％
M5→M6	83.73％
		M6→M7	88.43％

由表3可知，逾期天数需达到M6+(180天及以上)转化率才超过85％。基于数据可获取性限制以及提早预警的考虑，需定义一个更短的逾期天数作为坏客户标签，用以能够尽可能覆盖M6+的坏客户，提高转化率，并将预警时间提前。

最终，可以定义坏客户为：表现期内存在至少一笔贷款的逾期天数大于等于设定逾期天数阈值(比如M3+(90天及以上))，或者连续逾期期数大于等于设定逾期期数阈值(比如3期)。上述坏客户标签可覆盖M6+客户达79％。

定义好客户为：表现期内全部贷款未逾期，或者逾期天数小于逾期天数阈值(比如M3+)，且连续逾期期数小于逾期期数阈值(比如3期)。即好客户包括两种情况，情况一为表现期内全部贷款未逾期，情况二为表现期内存在逾期贷款，但是逾期天数小于逾期天数阈值，且连续逾期期数小于逾期期数阈值。

步骤S205：根据设定的数据筛选规则和好坏标签，对衍生特征数据进行筛选和打标，得到样本数据。为了使模型开发所使用的样本数据具有群体代表性，且具有准确的预测信息和表现信息，从而保证模型的准确性、抗干扰性和可应用性，在确定样本数据时，需要排除数据不正常的客户、行为无法预测的客户，以及在观察点已经逾期的客户。

实施例中，数据筛选规则用于从衍生特征数据中删除满足以下任意一项或者多项的历史贷款客户：(1)证件类型或者证件号码异常；(2)贷款账龄小于设定账龄阈值(比如6个月)或者贷款账龄异常；(3)贷款状态为结清或者核销；(4)在观察期的观察点已逾期；(5)不存在表现期；(6)在表现期内贷款状态为结清或者核销。其中，(1)-(4)属于基于观察点对客户(或者账户)进行排除；(5)-(6)属于基于表现期对客户(或者账户)进行排除。

上述规则中，规则(1)用于保留证件类型为身份证且证件号码正常的客户；规则(2)用于保留贷款账龄大于等于账龄阈值，且贷款发放日期晚于公积金贷款开设时间(1990年1月1日)的贷款账户；规则(4)用于删除所有在观察点有一笔及以上逾期贷款的客户。

按照数据筛选规则，对衍生特征数据进行筛选后，可以按照步骤S204定义的好坏标签对数据进行打标，得到样本数据。

步骤S206：对样本数据进行划分，构造训练集、测试集和验证集。为了更好的验证模型效果，可以按照设定比例，比如7:2:1，将样本数据随机划分为初始训练集、初始测试集和初始验证集。对初始训练集、初始测试集和初始验证集分别进行抽样，得到相应的训练集、测试集和验证集。其中，训练集用于进行模型的训练拟合；测试集用于测试模型对新样本的判别能力，评估模型的泛化能力；验证集则用于调整模型的超参数，验证在外推样本中模型的效果表现与稳定性等。

实施例中，基于个人信息表和个人账户信息表，选取了201910、201911、201912和202001这四个观察点的整体样本数据用于构建模型，并以客户身份证号加观察点作为主键定义样本数据的唯一标识。

在构造训练集时，先提取初始训练集中位于设定观察点的样本数据作为中间训练集；之后统计中间训练集中标签为坏客户的第一样本数量，并按照设定的好坏比和第一样本数量，计算标签为好客户的第二样本数量；然后采用分层抽样方法，保留中间训练集中标签为坏客户的样本数据，并按照第二样本数量从中间训练集中抽取标签为好客户的样本数据；最后将保留的标签为坏客户的样本数据，以及抽取的标签为好客户的样本数据添加到训练集。其中，好坏比是指样本中好客户和坏客户的比值。

实施例中，以2019年10月31日以及2019年11月30日为观察点，从初始训练集提取相应的样本数据作为中间训练集；之后采用分层抽样方法，保留所有标签为坏客户的样本数据，并按照好坏比(比如9：1)从中间训练集中抽取标签为好客户的样本数据。保留的标签为坏客户的样本数据，和抽取的标签为好客户的样本数据构成训练集。表4为实施例的初始训练集抽样前后的样本描述，具体抽样结果见表4。

表4

测试集的构造过程与训练集的构造过程相同，此处不再赘述。验证集的构造过程可以是：以2019年12月31日以及2020年01月31日为观察点，从初始验证集提取相应的样本数据作为最终的验证集。表5为实施例的初始验证集抽样后的样本描述。表6为训练集、测试集和验证集的样本划分统计。

表5

表6

在一可选的实施例中，也可以按照设定比例，将样本数据划分为初始训练测试集和初始验证集。之后对初始训练测试集按照训练集的构造方式进行抽样，得到训练测试集。之后再按照设定比例(比如7:3)对训练测试集进行随机抽样，得到训练集和测试集。验证集的构造方式仍旧沿用表5对应的构造过程。

步骤S207：按照设定的特征选择规则，对训练集进行特征选择。特征选择规则包括以下任意一项或者多项：(1)特征缺失值占比大于设定占比阈值(比如90％)；(2)特征信息量(Information Value，IV)小于设定信息量阈值(比如0.01)；(3)特征相关性大于设定相关性阈值(比如0.7)；(4)特征种群稳定性指数(Population Stability Index，PSI)大于设定稳定性阈值(比如0.1)；(5)特征集中度大于设定集中度阈值(比如0.95)；(6)特征重要性小于设定重要性阈值(比如99％)。

规则(1)-(5)对应的特征选择为第一阶段，属于指标筛选。其中，规则(1)用于剔除掉缺失值占比大于90％的特征，防止其限制模型的进行区分的能力；规则(2)用于剔除IV小于0.01的特征，以挑选出解释力强的特征；规则(3)用于保留相关性大于0.7的特征，使入模特征更多元；规则(4)用于排除与最新数据相比分布变化太大的特征；规则(5)用于排除区分能力不足的变量。

实施例中，可以以2020年7月31日为观察点，抽取全量样本的5％构建PSI集，进而基于PSI集，计算PSI值。表7为实施例的PSI集样本描述。

表7

经规则(1)-规则(5)筛选后，924个特征保留为388个。规则(6)为特征选择的第二阶段，属于模型筛选。具体为输入以上保留的388个特征，用分类器对训练集进行拟合，挑选出累计特征重要性在99％以内的特征。经过规则(6)的筛选，特征保留个数为90个。其中，分类器选择二分类器，比如梯度提升树(GBT)分类器。

步骤S208：使用特征选择后的训练集和预构建的损失函数，对预构建的贷款逾期预测模型进行训练，并使用测试集和验证集进行验证和调参。实施例中，贷款逾期预测模型可以是GBDT模型、Xgboost模型等。GBDT模型通过反复迭代训练决策树来最小化损失函数，支持二分类以及回归的随机森林算法，适用于连续特征以及类别特征。其中，二分类表示分类任务中仅有两个类别，是或不是。当训练一个分类器时，输入相关特征向量，输出结果仅可用y＝0或1表示。

在一次迭代中，GBDT模型会使用训练集训练出一个基学习器，用于对每个训练实例的类别进行预测，之后将预测结果与真实的标签值进行比较，通过调整预测错误样本的权重，使分类错误的样本在下次迭代过程中得到更多关注，从而对错误进行修正。通过不断重复迭代过程可以得到多棵决策树，最终在达到设定条件后，对所有决策树的预测结果进行加权结合即可得到模型的最终结果。

在一实施例中，在得到样本所属的类别概率(即属于好客户还是坏客户)后，可以将概率转化为具有业务含义的信用评分等级，并对各等级上好客户和坏客户的分布合理性进行评估。

步骤S209：使用训练好的贷款逾期预测模型对目标贷款客户进行贷款逾期预测。使用训练好的贷款逾期预测模型，预测公积金贷款客户贷中逾期的可能性。

上述实施例针对缴存公积金的客户，利用全国住房公积金数据平台上的相关数据，充分考虑了数据质量、客户性质，基于客户群特点构建了贷款逾期模型，该模型具有分类效果好、不易过拟合的优点，模型在训练集，测试集，验证集的表现没有显著性差异，可识别并降低客户贷中的违约风险，为公积金贷款业务提供更好的风控服务。

图5是根据本发明实施例的贷款逾期预测装置的主要模块的示意图。如图5所示，本发明实施例的贷款逾期预测装置500，主要包括：

特征衍生模块501，用于根据设定的分类策略，对历史贷款客户的贷款数据进行分类，得到分类结果，之后对所述分类结果中至少一个类别的分类数据进行特征衍生，得到相应的衍生特征数据。其中，贷款数据包括历史贷款客户的客户信息、在贷中阶段所产生的行为数据。分类策略中设置有对贷款数据进行分类的维度，比如将贷款数据中的客户信息分类为个人信息、单位信息、个人贷款等类别，将行为数据分类为逾期行为、还款行为等。

样本构建模块502，用于根据设定的数据筛选规则和预定义的好坏标签，对所述衍生特征数据进行筛选和打标，得到样本数据，对所述样本数据进行划分，得到训练集。其中，数据筛选规则用于从衍生特征数据中筛选出需要的历史贷款客户。实施例中，数据筛选规则可以自定义，比如删除证件类型或者证件号码异常的历史贷款客户，删除贷款账龄小于设定账龄阈值或者贷款账龄异常的历史贷款客户等。

模型预测模块503，用于构建贷款逾期预测模型，基于所述训练集对所述贷款逾期预测模型进行训练，以使用训练好的贷款逾期预测模型对目标贷款客户进行贷款逾期预测。该贷款逾期预测模型属于深度学习模型，比如可以是决策树模型。

另外，本发明实施例的贷款逾期预测装置500还可以包括：分析定义模块、模型评估模块、特征选择模块和时间窗确定模块(图5中未示出)。其中，分析定义模块，用于对所述贷款数据进行vintage分析，得到分析结果，根据所述分析结果确定观察期和表现期；根据所述历史贷款客户在所述表现期的逾期情况，定义所述好坏标签；其中，所述好坏标签包括好客户和坏客户。

模型评估模块，用于使用所述验证集和所述测试集，对所述贷款逾期预测模型进行验证和性能评估。

特征选择模块，用于按照设定的特征选择规则，对所述训练集进行特征选择；其中，所述特征选择规则包括以下任意一项或者多项：特征缺失值占比大于设定占比阈值，特征信息量小于设定信息量阈值，特征相关性大于设定相关性阈值，特征种群稳定性指数大于设定稳定性阈值，特征集中度大于设定集中度阈值，特征重要性小于设定重要性阈值。

时间窗确定模块，用于按照设定的时间长度，把时间序列划分为多个所述时间窗。

从以上描述可以看出，在贷款数据的基础上衍生出具有业务含义的新特征，进而对包括新特征的衍生特征数据进行筛选、打标，生成训练集并训练贷款逾期预测模型，以使用该模型对目标贷款客户的贷款逾期预测，能够充分挖掘贷款数据的价值，实现了对贷中逾期风险的全面预测。

图6示出了可以应用本发明实施例的贷款逾期预测方法或贷款逾期预测装置的示例性系统架构600。

如图6所示，系统架构600可以包括终端设备601、602、603，网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备601、602、603通过网络604与服务器605交互，以接收或发送消息等。终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器605可以是提供各种服务的服务器，例如对管理员利用终端设备601、602、603所发送逾期预测指令进行处理的后台管理服务器。后台管理服务器可以根据历史贷款客户的贷款数据，对贷款数据分类、特征衍生、筛选、打标、样本划分等处理，以构建贷款逾期预测模型，并使用贷款逾期预测模型预测目标贷款客户存在贷款逾期的概率，并将处理结果(例如逾期概率)反馈给终端设备。

需要说明的是，本发明实施例所提供的贷款逾期预测方法一般由服务器605执行，相应地，贷款逾期预测装置一般设置于服务器605中。

应该理解，图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

根据本发明的实施例，本发明还提供了一种电子设备、一种计算机可读介质和一种计算机程序产品。

本发明的电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例的一种贷款逾期预测方法。

本发明的计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例的一种贷款逾期预测方法。

本发明的计算机程序产品，包括计算机程序，所述程序被处理器执行时实现本发明实施例的一种贷款逾期预测方法。

下面参考图7，其示出了适于用来实现本发明实施例的电子设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括特征衍生模块、样本构建模块和模型预测模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，特征衍生模块还可以被描述为“根据设定的分类策略，对历史贷款客户的贷款数据进行分类，得到分类结果，之后对所述分类结果中至少一个类别的分类数据进行特征衍生，得到相应的衍生特征数据的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：根据设定的分类策略，对历史贷款客户的贷款数据进行分类，得到分类结果，之后对所述分类结果中至少一个类别的分类数据进行特征衍生，得到相应的衍生特征数据；其中，所述贷款数据包括所述历史贷款客户在贷中阶段所产生的行为数据；根据设定的数据筛选规则和预定义的好坏标签，对所述衍生特征数据进行筛选和打标，得到样本数据，对所述样本数据进行划分，得到训练集；其中，所述好坏标签根据所述行为数据定义；构建贷款逾期预测模型，基于所述训练集对所述贷款逾期预测模型进行训练，以使用训练好的贷款逾期预测模型对目标贷款客户进行贷款逾期预测。

根据本发明实施例的技术方案，在贷款数据的基础上衍生出具有业务含义的新特征，进而对包括新特征的衍生特征数据进行筛选、打标，生成训练集并训练贷款逾期预测模型，以使用该模型对目标贷款客户的贷款逾期预测，能够充分挖掘贷款数据的价值，实现了对贷中逾期风险的全面预测。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种贷款逾期预测方法，其特征在于，包括：

根据设定的分类策略，对历史贷款客户的贷款数据进行分类，得到分类结果，之后对所述分类结果中至少一个类别的分类数据进行特征衍生，得到相应的衍生特征数据；其中，所述贷款数据包括所述历史贷款客户在贷中阶段所产生的行为数据；

根据设定的数据筛选规则和预定义的好坏标签，对所述衍生特征数据进行筛选和打标，得到样本数据，对所述样本数据进行划分，得到训练集；其中，所述好坏标签根据所述行为数据定义；

构建贷款逾期预测模型，基于所述训练集对所述贷款逾期预测模型进行训练，以使用训练好的贷款逾期预测模型对目标贷款客户进行贷款逾期预测。

2.根据权利要求1所述的方法，其特征在于，所述对所述分类结果中至少一个类别的分类数据进行特征衍生，得到相应的衍生特征数据，包括：

根据客户行为、行为原因、贷款变量中的任意一个或者多个维度，从所述分类结果中至少一个类别的分类数据中提取基础特征；

根据所述基础特征，构造归属于设定时间窗的中间特征，以通过聚合函数，把所述中间特征聚合到所述历史贷款客户上，得到相应的衍生特征数据。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述贷款数据进行vintage分析，得到分析结果，根据所述分析结果确定观察期和表现期；

根据所述历史贷款客户在所述表现期的逾期情况，定义所述好坏标签；其中，所述好坏标签包括好客户和坏客户。

4.根据权利要求3所述的方法，其特征在于，所述数据筛选规则用于从所述衍生特征数据中删除满足以下任意一项或者多项的历史贷款客户：

证件类型或者证件号码异常，贷款账龄小于设定账龄阈值或者贷款账龄异常，贷款状态为结清或者核销，在所述观察期的观察点已逾期，不存在所述表现期，在所述表现期内贷款状态为结清或者核销。

5.根据权利要求3所述的方法，其特征在于，所述坏客户定义为所述表现期内存在至少一笔贷款的逾期天数大于等于设定逾期天数阈值，或者连续逾期期数大于等于设定逾期期数阈值；

所述好客户定义为所述表现期内全部贷款未逾期，或者逾期天数小于所述逾期天数阈值，且连续逾期期数小于所述逾期期数阈值。

6.根据权利要求1所述的方法，其特征在于，所述对所述样本数据进行划分，得到训练集，包括：

按照设定的划分比例，对所述样本数据进行划分，得到初始训练集，提取所述初始训练集中位于设定观察点的样本数据作为中间训练集；

统计所述中间训练集中标签为坏客户的第一样本数量，按照设定的好坏比和所述第一样本数量，计算所述标签为好客户的第二样本数量；

采用分层抽样方法，保留所述中间训练集中标签为坏客户的样本数据，并按照所述第二样本数量从所述中间训练集中抽取标签为好客户的样本数据；

将保留的标签为坏客户的样本数据，以及抽取的标签为好客户的样本数据添加到训练集。

7.根据权利要求1所述的方法，其特征在于，所述对所述样本数据进行划分，包括：

按照设定的划分比例，对所述样本数据进行划分，得到所述训练集、测试集和验证集；

所述方法还包括：使用所述验证集和所述测试集，对所述贷款逾期预测模型进行验证和性能评估。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

按照设定的特征选择规则，对所述训练集进行特征选择；其中，所述特征选择规则包括以下任意一项或者多项：特征缺失值占比大于设定占比阈值，特征信息量小于设定信息量阈值，特征相关性大于设定相关性阈值，特征种群稳定性指数大于设定稳定性阈值，特征集中度大于设定集中度阈值，特征重要性小于设定重要性阈值。

9.根据权利要求8所述的方法，其特征在于，在所述特征选择规则为特征重要性小于设定重要性阈值的情况下，所述对所述训练集进行特征选择，包括：

使用分类器，对所述训练集进行拟合，得到满足所述特征选择规则的特征。

10.根据权利要求2所述的方法，其特征在于，所述方法还包括：

按照设定的时间长度，把时间序列划分为多个所述时间窗。

11.根据权利要求1至10的任一项所述的方法，其特征在于，所述贷款数据为公积金贷款数据。

12.一种贷款逾期预测装置，其特征在于，包括：

特征衍生模块，用于根据设定的分类策略，对历史贷款客户的贷款数据进行分类，得到分类结果，之后对所述分类结果中至少一个类别的分类数据进行特征衍生，得到相应的衍生特征数据；其中，所述贷款数据包括所述历史贷款客户在贷中阶段所产生的行为数据；

样本构建模块，用于根据设定的数据筛选规则和预定义的好坏标签，对所述衍生特征数据进行筛选和打标，得到样本数据，对所述样本数据进行划分，得到训练集；其中，所述好坏标签根据所述行为数据定义；

模型预测模块，用于构建贷款逾期预测模型，基于所述训练集对所述贷款逾期预测模型进行训练，以使用训练好的贷款逾期预测模型对目标贷款客户进行贷款逾期预测。

13.根据权利要求12所述的装置，其特征在于，所述特征衍生模块，还用于

根据客户行为、行为原因、贷款变量中的任意一个或者多个维度，从所述分类结果中至少一个类别的分类数据中提取基础特征；以及

14.根据权利要求12所述的装置，其特征在于，所述装置还包括：分析定义模块，用于

对所述贷款数据进行vintage分析，得到分析结果，根据所述分析结果确定观察期和表现期；以及

15.根据权利要求14所述的装置，其特征在于，所述数据筛选规则用于从所述衍生特征数据中删除满足以下任意一项或者多项的历史贷款客户：

16.根据权利要求14所述的装置，其特征在于，所述坏客户定义为所述表现期内存在至少一笔贷款的逾期天数大于等于设定逾期天数阈值，或者连续逾期期数大于等于设定逾期期数阈值；

17.根据权利要求12所述的装置，其特征在于，所述样本构建模块，还用于

采用分层抽样方法，保留所述中间训练集中标签为坏客户的样本数据，并按照所述第二样本数量从所述中间训练集中抽取标签为好客户的样本数据；以及

18.根据权利要求12所述的装置，其特征在于，所述样本构建模块，还用于

所述装置还包括：模型评估模块，用于使用所述验证集和所述测试集，对所述贷款逾期预测模型进行验证和性能评估。

19.根据权利要求12所述的装置，其特征在于，所述装置还包括：特征选择模块，用于

20.根据权利要求19所述的装置，其特征在于，在所述特征选择规则为特征重要性小于设定重要性阈值的情况下，所述特征选择模块，还用于

21.根据权利要求13所述的装置，其特征在于，所述装置还包括：时间窗确定模块，用于

按照设定的时间长度，把时间序列划分为多个所述时间窗。

22.根据权利要求12至21的任一项所述的装置，其特征在于，所述贷款数据为公积金贷款数据。

23.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-11中任一所述的方法。

24.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-11中任一所述的方法。

25.一种计算机程序产品，包括计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-11中任一所述的方法。