CN113052677A

CN113052677A - 基于机器学习的两阶段贷款预测模型的构建方法和装置

Info

Publication number: CN113052677A
Application number: CN202110336954.XA
Authority: CN
Inventors: 徐英浩; 尚朝; 姚峥洁
Original assignee: Beijing Dingxiang Technology Co ltd
Current assignee: Beijing Dingxiang Technology Co ltd
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-06-29
Anticipated expiration: 2041-03-29
Also published as: CN113052677B

Abstract

一种基于机器学习的两阶段贷款预测模型的构建方法和装置，涉及计算机应用技术领域，该方法包括：首先利用预先训练好的静态模型对待预测的样本进行预测，生成第一预测结果，然后根据该第一预测结果定义动态目标变量；再基于动态目标变量和加工后的客户动态数据特征，对预先建立的动态模型进行训练；最后利用预先训练好的动态模型对贷款需求集合进行预测，生成第二预测结果；第二预测结果包括有贷款需求的客户及其贷款概率。通过该方法可以动态预测客户的贷款需求，克服了基于用户画像进行贷款预测的滞后性，提高了筛选目标贷款用户的效果。

Description

基于机器学习的两阶段贷款预测模型的构建方法和装置

技术领域

本发明涉及计算机应用技术领域，尤其是涉及一种基于机器学习的两阶段贷款预测模型的构建方法和装置。

背景技术

随着商业银行、金融机构业务的不断发展，大量的业务数据被积累起来，而从这些海量数据中提取出有价值的信息，为商业银行挖掘出有贷款需求的潜在贷款客户至关重要。目前大多数银行都是基于客户画像来进行营销人群的筛选，但是客户对于贷款的需求是会随着时间而发生变化的，因此，在现有的基于客户画像等静态数据对贷款客户进行的筛选方法中，存在滞后性较高、筛选效果较差的问题。

发明内容

本发明的目的在于提供一种基于机器学习的两阶段贷款预测模型的构建方法和装置，以缓解现有技术中存在的滞后性较高、筛选效果较差的技术问题。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种基于机器学习的两阶段贷款预测模型的构建方法，包括：利用预先训练好的静态模型对待预测的样本进行预测，生成第一预测结果；上述待预测的样本包括客户特征清单，上述第一预测结果包括贷款需求集合；根据上述第一预测结果定义动态目标变量；上述动态目标变量包括正样本和负样本，上述正样本为当前时刻之后第一时间段内有贷款需求的客户，上述负样本为当前时刻之后第一时间段内没有贷款需求的客户；基于上述动态目标变量和加工后的客户动态数据特征，对预先建立的动态模型进行训练；利用预先训练好的动态模型对上述贷款需求集合进行预测，生成第二预测结果；上述第二预测结果包括有贷款需求的客户及其贷款概率。

在一些可能的实施方式中，还包括：采集客户的静态数据和动态数据；上述静态数据为上述客户在第一时间段内不会变化的数据，上述动态数据为上述客户在上述第一时间段内发生变化的数据；基于上述静态数据，确定静态目标变量；上述静态目标变量包括静态正样本和静态负样本，上述静态正样本为上述客户存在贷款申请历史记录，上述静态负样本为上述客户不存在贷款申请历史记录；基于上述静态数据和上述动态数据，对上述静态目标变量进行数据清洗。

在一些可能的实施方式中，还包括：对上述静态数据进行特征衍生，生成衍生静态数据；对上述衍生静态数据进行特征选择，确定训练样本。

在一些可能的实施方式中，对上述衍生静态数据进行特征选择，确定训练样本的步骤，包括：在第一特征集合中确定第一选定集；上述第一选定集为上述第一特征集合中的最优特征子集；在上述第一选定集中添加第二特征，构建新的特征候选子集；在上述新的特征候选子集中确定第二选定集；上述第二选定集为上述新的特征候选子集中的最优特征子集；利用分类器对上述第一选定集和上述第二选定集进行评估，确定最终特征子集；基于上述最终特征子集，确定训练样本；上述训练样本包括特征和标签。

在一些可能的实施方式中，还包括：基于上述训练样本，对上述静态模型进行训练；上述静态模型的损失函数为交叉熵损失函数。

在一些可能的实施方式中，上述客户动态数据特征包括：账户额度变化数据和用户登录日志。

在一些可能的实施方式中，上述预先训练好的动态模型为LSTM模型。

第二方面，本发明实施例提供了一种基于机器学习的两阶段贷款预测模型的构建装置，包括：第一结果生成模块，用于利用预先训练好的静态模型对待预测的样本进行预测，生成第一预测结果；上述待预测的样本包括客户特征清单，上述第一预测结果包括贷款需求集合；动态目标变量定义模块，用于根据上述第一预测结果定义动态目标变量；上述动态目标变量包括正样本和负样本，上述正样本为当前时刻之后第一时间段内有贷款需求的客户，上述负样本为当前时刻之后第一时间段内没有贷款需求的客户；动态模型训练模块，用于基于上述动态目标变量和加工后的客户动态数据特征，对预先建立的动态模型进行训练；第二结果生成模块，用于利用预先训练好的动态模型对上述贷款需求集合进行预测，生成第二预测结果；上述第二预测结果包括有贷款需求的客户及其贷款概率。

第三方面，本发明实施例提供了一种电子设备，包括存储器、处理器，上述存储器中存储有可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现上述第一方面任一项上述的方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，上述计算机可读存储介质存储有机器可运行指令，上述计算机可运行指令在被处理器调用和运行时，上述计算机可运行指令促使上述处理器运行上述第一方面任一项上述的方法。

本发明提供了一种基于机器学习的两阶段贷款预测模型的构建方法和装置，该方法包括：首先利用预先训练好的静态模型对待预测的样本进行预测，生成第一预测结果；然后根据第一预测结果定义动态目标变量；再基于动态目标变量和加工后的客户动态数据特征，对预先建立的动态模型进行训练；最后利用预先训练好的动态模型对贷款需求集合进行预测，生成第二预测结果；第二预测结果包括有贷款需求的客户及其贷款概率。通过该方法可以动态预测客户的贷款需求，克服了基于用户画像进行贷款预测的滞后性，提高了筛选目标贷款用户的效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于机器学习的两阶段贷款预测模型的构建方法的流程示意图；

图2为本发明实施例提供的一种基于机器学习的两阶段贷款预测模型的构建方法中训练样本的获取方法的流程示意图；

图3为本发明实施例提供的一种基于机器学习的两阶段贷款预测模型的构建装置的结构示意图；

图4为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着商业银行、金融机构业务的不断发展，大量的业务数据被积累起来，而从这些海量数据中提取出有价值的信息，为商业银行挖掘出有贷款需求的潜在贷款客户至关重要。目前大多数银行都是基于客户画像来进行营销人群的筛选，其本质上也是一种规则模型，营销人群的召回率较低，并且客户对于贷款的需求是会随着时间而发生变化的，因此，在现有的基于客户画像等静态数据对贷款客户进行的筛选方法中，存在滞后性较高、筛选效果较差的问题。

基于此，本发明实施例提供了一种基于机器学习的两阶段贷款预测模型的构建方法和装置。为便于对本实施例进行理解，首先对本发明实施例所公开的一种基于机器学习的两阶段贷款预测模型的构建方法进行详细介绍，参见图1所示的一种基于机器学习的两阶段贷款预测模型的构建方法的流程示意图，该方法可以由电子设备执行，主要包括以下步骤S110至步骤S140：

S110：利用预先训练好的静态模型对待预测的样本进行预测，生成第一预测结果；

其中，待预测的样本包括客户特征清单，第一预测结果包括贷款需求集合。在此步骤S110之前，首先需要采集用户的动态数据和静态数据，用户的静态数据一般指用户在某一个时间段内信息基本不会发生变化的数据，如客户的姓名、职业、手机号、性别、婚姻状况等；用户的动态数据一般指用户在某一个时间段内信息会随着时间的变化而进行变化的数据，如客户账户余额、客户登陆手机银行数据、信用卡余额、理财账户余额、贷款合同在贷余额等。

S120：根据第一预测结果定义动态目标变量；

其中，动态目标变量包括正样本和负样本，正样本为当前时刻之后第一时间段内有贷款需求的客户，负样本为当前时刻之后第一时间段内没有贷款需求的客户；

S130：基于动态目标变量和加工后的客户动态数据特征，对预先建立的动态模型进行训练；

作为一个具体的示例，客户动态数据特征可以包括：账户额度变化数据和用户登录日志。账户额度变化数据包括：当前信用卡账户额度变化情况、当前储蓄账户额度变化情况、当前理财账户额度变化情况、当前保险账户额度变化情况等；用户登录日志中的URL的word2vec词向量表示。该部分特征属于文本特征同时其URL的点击顺序也能反映用户行为的变化过程。因此对于这部分URL文本特征，首先使用窗口函数统计每个用户在过去一段时间内的点击的URL，得到URL点击列表，然后将每个文本URL看成一个词，一个用户的所有点击行为构成了行为序列。然后通过word2vec将词表示成维度为d的词向量，然后将行为序列中每个单词的词向量取平均得到用户的行为特征表示向量。Word2vec是一个语言模型，其输入是字符串序列，输出是字符串中每个单词的d维的词向量表示。

S140：利用预先训练好的动态模型对贷款需求集合进行预测，生成第二预测结果；第二预测结果包括有贷款需求的客户及其贷款概率。

其中，预先训练好的静态模型的训练包括：基于训练样本，对静态模型进行训练；静态模型的损失函数为交叉熵损失函数。

作为一个具体的实例，参照图2，训练样本的获取包括以下步骤：

S210：采集客户的静态数据和动态数据；静态数据为客户在第一时间段内不会变化的数据，动态数据为客户在第一时间段内发生变化的数据；

其中，第一时间段可以是一周、一个月、一个季度等等。

S220：基于静态数据，确定静态目标变量；

静态目标变量包括静态正样本和静态负样本，静态正样本为客户存在贷款申请历史记录，静态负样本为客户不存在贷款申请历史记录；

S230：基于静态数据和动态数据，对静态目标变量进行数据清洗；

S240：对静态数据进行特征衍生，生成衍生静态数据；

S250：对衍生静态数据进行特征选择，确定训练样本。

其中，上述步骤S250包括：首先在第一特征集合中确定第一选定集；第一选定集为第一特征集合中的最优特征子集；在第一选定集中添加第二特征，构建新的特征候选子集；在新的特征候选子集中确定第二选定集；第二选定集为新的特征候选子集中的最优特征子集；利用分类器对第一选定集和第二选定集进行评估，确定最终特征子集；基于最终特征子集，确定训练样本；训练样本包括特征和标签。

本发明提供了一种基于机器学习的两阶段贷款预测模型的构建方法该方法包括：首先利用预先训练好的静态模型对待预测的样本进行预测，生成第一预测结果；然后根据第一预测结果定义动态目标变量；再基于动态目标变量和加工后的客户动态数据特征，对预先建立的动态模型进行训练；最后利用预先训练好的动态模型对贷款需求集合进行预测，生成第二预测结果；第二预测结果包括有贷款需求的客户及其贷款概率。通过该方法可以动态预测客户的贷款需求，克服了基于用户画像进行贷款预测的滞后性，提高了筛选目标贷款用户的效果。

本申请提供了一种机器学习的两阶段贷款预测模型的构建方法的具体示例：

(1)使用数据采集装置进行数据采集，采集用户的动态数据和静态数据。

用户的静态数据一般指用户在某一个时间段内信息基本不会发生变化的数据，如客户的姓名、职业、手机号、性别、婚姻状况等；用户的动态数据一般指用户在某一个时间段内信息会随着时间的变化而进行变化的数据，如客户账户余额、客户登陆手机银行数据、信用卡余额、理财账户余额、贷款合同在贷余额等。采集到的每个数据源都需要建立主键，一般是以客户号或者客户的身份证号作为唯一标识，以便于后续进行数据源的合并。

(2)确定静态模型的目标变量。

静态模型的目标变量也就是模型最后需要拟合的Y值，其定义为客户在本机构是否有过贷款申请历史记录。如果该客户有过贷款申请历史记录，则将该客户作为正样本标记为1，如果该客户没有过贷款申请历史记录，则将该客户作为负样本标记为0，从而完成静态目标变量的定义。

(3)数据探索分析EDA(Exploratory Data Analysis)。

进行数据探索分析的主要目的是了解数据的整体情况，例如每个字段的缺失值情况、异常值情况、平均值、中位数、最大值、最小值、分布情况等，以便制定合理的数据预处理方案。

(4)数据清洗。

对原始数据中脏数据、缺失值、异常值进行处理。对于缺失值的处理方法一般是删除缺失率超过给定阈值的变量列，对于缺失率少于阈值的可以通过将缺失样本作为预测值，使用随机森林来预测该值进行填充，也可直接对缺失值进行填充；对于异常值的处理可以将异常值作为一种状态使用特殊的标识进行填充，也可以将异常值直接剔除。

(5)对静态模型的特征进行处理。

静态模型特征的处理主要包括特征衍生和特征选择两部分，先进行特征衍生然后进行特征选择。衍生的特征主要由以下几种静态数据构成：

1)客户基本信息：用户性别、职业、婚姻状况、家庭成员数量等；2)客户财务类信息:客户房产数量、房产总价值、车辆数量、车辆总额、负债率等；3)客户交易信息：信用卡刷卡次数、信用卡刷卡总额度、信用卡刷卡平均额度等；4)客户登陆日志信息：登陆手机银行次数、客户在各个小时的登陆次数等。

特征选择可以通过包裹式选择(wrapper)的特征选择方法来完成。特征选择的步骤包括特征子集的搜索和特征子集的评价。

首先是特征子集的搜索，给定一个特征集合[a1,a2,a3,...,an],首先选择一个最好的特征子集(如a1)作为第一轮的选定集，然后在此基础上加入一个特征，构建包含两个特征的候选子集，选择最优的双特征子集作为第二轮选定子集，依次类推，直到找不到更优的特征子集停止。

其次是特征子集的评价，通过将选出的特征子集输入到一个分类器A中，分类器以某个评估指标作为衡量模型性能好坏，如模型准确率(ACC)，其计算公式如下所示：

其中，公式中各个变量的解释如下：TP：实际为正样本且模型判断为正样本；TN：实际为负样本且模型判断为负样本；FP：实际为负样本但模型判断为正样本；FN：实际为正样本但模型判断为负样本。

因此每个选出的特征子集都会得到分类器A输出的准确率，在每一轮特征子集的选择中选择准确率最高的那组特征子集。

(6)静态模型训练。

可以使用LightGBM模型进行训练，模型的输入数据是上述(5)中加工后的特征和标签，模型的损失函数为交叉熵损失函数L，公式如下所示：

其中n表示样本总量，y表示第i个样本的真实标签值，

表示第i个样本的模型预测值。

模型的训练目标为将上述损失函数最小化，模型训练结束后得到训练好的静态模型A。

(7)使用静态模型模型A对待预测的样本进行预测，取预测标签为1的客户作为有贷款需求样本Sample1。

(8)确定动态模型的目标变量。

动态模型的目标变量的定义为在当前时刻T之后一段时间(如，一个月)内是否有贷款需求。将当前时刻T之后一段时间内有贷款需求的作为正样本赋值为1，当前时刻T之后一段时间内没有贷款需求的作为负样本赋值为0。

(9)对动态模型的特征进行处理。

对动态模型的特征进行处理的关键点在于加工特征的数据源都是动态数据，这部分数据能反映客户需求的动态变化过程。

加工的主要特征有账户额度变化数据和用户登录日志两类。其中，账户额度变化数据可以包括：当前信用卡账户额度变化情况、当前储蓄账户额度变化情况、当前理财账户额度变化情况、当前保险账户额度变化情况等；用户登录日志则是指用户登录日志中统一资源定位器URL(Uniform Resource Locator)的词向量产生模型word2vec词向量表示。该部分特征属于文本特征同时其URL的点击顺序也能反映用户行为的变化过程。因此对于这部分URL文本特征，首先使用窗口函数统计每个用户在过去一段时间内的点击的URL，得到URL点击列表，然后将每个文本URL看成一个词，一个用户的所有点击行为构成了行为序列。然后通过word2vec将词表示成维度为d的词向量，然后将行为序列中每个单词的词向量取平均得到用户的行为特征表示向量。Word2vec是一个语言模型，其输入是字符串序列，输出是字符串中每个单词的d维的词向量表示。

(10)训练动态模型。

其中具体的动态模型为LSTM模型，模型结构如图所示。将(8)中定义好的动态模型的目标变量以及(9)中加工好的特征输入到LSTM模型进行训练，训练模型时使用的损失函数也可以为交叉熵损失函数，模型训练完毕后得到动态模型B。

(11)使用动态模型B对(7)中的静态Sample1集合进行预测，取预测概率最高的前N个客户作为最后的营销名单。

基于上述实施例提供的一种基于机器学习的两阶段贷款预测模型的构建方法，能够捕捉到有贷款需求的客户在未来的一段时间内是否有贷款需求；通过模型预测获取贷款概率较高的客户作为营销名单，降低了金融机构或者银行的营销成本，提升了营销成功率。

本发明实施例还提供了一种基于机器学习的两阶段贷款预测模型的构建装置，参见图3，该装置包括：

第一结果生成模块310，用于利用预先训练好的静态模型对待预测的样本进行预测，生成第一预测结果；待预测的样本包括客户特征清单，第一预测结果包括贷款需求集合；

动态目标变量定义模块320，用于根据第一预测结果定义动态目标变量；动态目标变量包括正样本和负样本，正样本为当前时刻之后第一时间段内有贷款需求的客户，负样本为当前时刻之后第一时间段内没有贷款需求的客户；

动态模型训练模块330，用于基于动态目标变量和加工后的客户动态数据特征，对预先建立的动态模型进行训练；

第二结果生成模块340，用于利用预先训练好的动态模型对贷款需求集合进行预测，生成第二预测结果；第二预测结果包括有贷款需求的客户及其贷款概率。

本申请实施例所提供的基于机器学习的两阶段贷款预测模型的构建装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。本申请实施例提供的基于机器学习的两阶段贷款预测模型的构建装置与上述实施例提供的基于机器学习的两阶段贷款预测模型的构建方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

本申请实施例还提供了一种电子设备，具体的，该电子设备包括处理器和存储装置；存储装置上存储有计算机程序，计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。

图4为本申请实施例提供的一种电子设备的结构示意图，该电子设备400包括：处理器40，存储器41，总线42和通信接口43，所述处理器40、通信接口43和存储器41通过总线42连接；处理器40用于执行存储器41中存储的可执行模块，例如计算机程序。

其中，存储器41可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线42可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器41用于存储程序，所述处理器40在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器40中，或者由处理器40实现。

处理器40可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器40中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器40可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41，处理器40读取存储器41中的信息，结合其硬件完成上述方法的步骤。

对应于上述方法，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行上述方法的步骤。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于机器学习的两阶段贷款预测模型的构建方法，其特征在于，包括：

利用预先训练好的静态模型对待预测的样本进行预测，生成第一预测结果；所述待预测的样本包括客户特征清单，所述第一预测结果包括贷款需求集合；

根据所述第一预测结果定义动态目标变量；所述动态目标变量包括正样本和负样本，所述正样本为当前时刻之后第一时间段内有贷款需求的客户，所述负样本为当前时刻之后第一时间段内没有贷款需求的客户；

基于所述动态目标变量和加工后的客户动态数据特征，对预先建立的动态模型进行训练；

利用预先训练好的动态模型对所述贷款需求集合进行预测，生成第二预测结果；所述第二预测结果包括有贷款需求的客户及其贷款概率。

2.根据权利要求1所述的基于机器学习的两阶段贷款预测模型的构建方法，其特征在于，还包括：

采集客户的静态数据和动态数据；所述静态数据为所述客户在第一时间段内不会变化的数据，所述动态数据为所述客户在所述第一时间段内发生变化的数据；

基于所述静态数据，确定静态目标变量；所述静态目标变量包括静态正样本和静态负样本，所述静态正样本为所述客户存在贷款申请历史记录，所述静态负样本为所述客户不存在贷款申请历史记录；

基于所述静态数据和所述动态数据，对所述静态目标变量进行数据清洗。

3.根据权利要求2所述的基于机器学习的两阶段贷款预测模型的构建方法，其特征在于，还包括：

对所述静态数据进行特征衍生，生成衍生静态数据；

对所述衍生静态数据进行特征选择，确定训练样本。

4.根据权利要求3所述的基于机器学习的两阶段贷款预测模型的构建方法，其特征在于，对所述衍生静态数据进行特征选择，确定训练样本的步骤，包括：

在第一特征集合中确定第一选定集；所述第一选定集为所述第一特征集合中的最优特征子集；

在所述第一选定集中添加第二特征，构建新的特征候选子集；

在所述新的特征候选子集中确定第二选定集；所述第二选定集为所述新的特征候选子集中的最优特征子集；

利用分类器对所述第一选定集和所述第二选定集进行评估，确定最终特征子集；

基于所述最终特征子集，确定训练样本；所述训练样本包括特征和标签。

5.根据权利要求4所述的基于机器学习的两阶段贷款预测模型的构建方法，其特征在于，还包括：

基于所述训练样本，对所述静态模型进行训练；所述静态模型的损失函数为交叉熵损失函数。

6.根据权利要求1所述的基于机器学习的两阶段贷款预测模型的构建方法，其特征在于，所述客户动态数据特征包括：账户额度变化数据和用户登录日志。

7.根据权利要求1所述的基于机器学习的两阶段贷款预测模型的构建方法，其特征在于，所述预先训练好的动态模型为LSTM模型。

8.一种基于机器学习的两阶段贷款预测模型的构建装置，其特征在于，包括：

第一结果生成模块，用于利用预先训练好的静态模型对待预测的样本进行预测，生成第一预测结果；所述待预测的样本包括客户特征清单，所述第一预测结果包括贷款需求集合；

动态目标变量定义模块，用于根据所述第一预测结果定义动态目标变量；所述动态目标变量包括正样本和负样本，所述正样本为当前时刻之后第一时间段内有贷款需求的客户，所述负样本为当前时刻之后第一时间段内没有贷款需求的客户；

动态模型训练模块，用于基于所述动态目标变量和加工后的客户动态数据特征，对预先建立的动态模型进行训练；

第二结果生成模块，用于利用预先训练好的动态模型对所述贷款需求集合进行预测，生成第二预测结果；所述第二预测结果包括有贷款需求的客户及其贷款概率。

9.一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行所述权利要求1至7任一项所述的方法。