CN107992982B

CN107992982B - 一种基于深度学习的非结构化数据的违约概率预测方法

Info

Publication number: CN107992982B
Application number: CN201711460225.5A
Authority: CN
Inventors: 唐正阳; 周春英; 朱明杰; 朱敏; 魏岩
Original assignee: Shanghai Krypton Information Technology Co Ltd
Current assignee: Shanghai Krypton Information Technology Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2019-05-21
Anticipated expiration: 2037-12-28
Also published as: CN107992982A

Abstract

本发明涉及到一种基于深度学习的非结构化数据的违约概率预测方法，该方法包括有：集成和清洗信贷主体人包括文本数据和时序数据在内的非结构化数据；将非结构化数据变换为深度学习模型可识别的数据格式；基于深度学习模型框架，提取数据特征作为样本数据；针对提取出来的样本数据，利用复杂机器学习分类算法‑集成树模型构建信用风险模型，输出违约概率预测。本发明的方法通过挖掘文本和时序等非结构化数据，基于深度学习和大数据技术捕捉信贷主体人潜在的风险行为模式，在此之上进行高维数据信用风险建模，实现了对信贷主体人自动、全面、流程化的定量信用风险分析以提升金融风控能力和降低信贷风险。

Description

一种基于深度学习的非结构化数据的违约概率预测方法

技术领域

本发明涉及金融风控领域，具体涉及一种基于深度学习的非结构化数据的违约概率预测方法。

背景技术

在移动互联网快速普及的当下，用户的金融行为习惯正发生巨大的变化，大部分人在生活中正愈发习惯于通过互联网来安排一天的吃穿住行。受此影响，用户的电商数据、行为数据、社交数据等非结构化数据在数据体量和丰富性上较过去几年都有了一个飞跃提升。这些数据一方面具有被动数据的特点，更加真实难伪造，能够客观描述一个人长期的金融行为习惯；另一方面，也具有触手可及，获取成本较低的优点。因此，整个金融体系都在全力挖掘非结构化数据，在广告营销、用户运营等领域也都得到了率先应用。

对于信贷风控场景而言，目前对此类非结构化数据的理解和使用依然存在较高的门槛，具体难点分解如下：

1.数据清洗繁重：由于非结构化数据诸如文本、时序数据天然具有体量大、难加工的特性，简单的处理方法不仅消耗计算资源多，且远远难以达到可供加工的程度。

2.数据变换复杂：为了能够利用深度学习模型提取全量数据的价值，需要将非结构化数据变换为张量形式，传统的变换方式存在矩阵稀疏，损失信息过多等缺点。

3.特征提取困难：传统针对向量化后的数据，往往会通过人工提取特征，或者直接在原始数据上硬编码正则表达式等方式提取特征，然而此类方法存在较大局限，不仅提取价值有限，而且难以适应线上风险环境的快速演变。

4.风险建模困难：由于非结构化数据所能提取的特征经常是上千甚至上万维度，远远超出传统评分卡模型所能处理的范围，金融机构需要更前沿的机器学习算法来完成建模以及一系列评估和自动输出违约概率预测的方法。

因此，整个金融风控领域都急需一套更加合理的基于深度学习的非结构化数据的违约概率预测方法，来实现从数据的接入、清洗、变换、到特征加工、风险建模与迭代的闭环解决方案。

发明内容

本发明的目的在于克服上述现有技术中存在的不足，设计一种基于深度学习的非结构化数据的违约概率预测方法。本发明专利的方法通过对信贷主体人进行定量信用风险分析，利用非结构化数据进行判断以提升金融风控能力和降低信贷风险

为了达到上述发明目的，本发明专利提供的技术方案如下：

一种基于深度学习的非结构化数据的违约概率预测方法，其特征在于，具体包括以下步骤：

步骤1：集成和清洗信贷主体人包括文本数据和时序数据在内的非结构化数据，；

步骤2：非结构化数据变换，将非结构化数据变换为深度学习模型可识别的数据格式，针对文本型数据，基于词在文档、语料库中出现的次数以及词与词在特定长度窗口中共现的次数，将文本输入无监督算法转换为向量表达式；针对时序型数据，基于不同时序维度将原始的时间序列数据聚合计算为不同的时序向量表达式；

步骤3：基于深度学习模型框架提取数据特征作为样本数据供上层分类判别模型使用，提取数据特征具体包括定义神经网络结构，将上述向量表达式和用户违约标签作为样本进行神经网络模型训练，抽取隐层特征作为样本数据；

步骤4：利用复杂机器学习分类算法-集成树模型进行信用风险建模，通过构建的信用风险模型输出作为违约概率预测的数据。

在本发明基于深度学习的非结构化数据的违约概率预测方法中，所述步骤1中集成和清洗信贷主体人的非结构化数据具体包括有：

首先，从主流数据平台获取同一信贷主体人的各类身份原始数据；其次，集成包括文本数据和时序数据在内的非结构化数据；

然后，针对不同的类型的数据进行相应清洗：针对文本型数据，清洗步骤包括文本拼接、去除非中文字符、去除非大小写英文字符、去除非数字字符以及去除针对金融风控场景的停词和低频词；针对时序型数据，基于不同时序维度进行重采样加工，不同时序维度包括周、日和小时。

在本发明基于深度学习的非结构化数据的违约概率预测方法中，所述步骤2中将非结构化数据变换为深度学习模型可识别的数据格式的具体步骤为：

判断非结构化数据的数据类型，所述数据类型包括文本型数据和时序型数据；

当数据为文本型数据时，基于无监督算法，具体的可选择算法包括有CountVectorizer、TfidfVectorizer、Word2vec和Glove算法，算法的基本思想是基于文本中某个特定词在语料库中出现的次数，某个特定词在文档中出现的次数，以及某个特定词与其它词在上下文特定长度窗口中共现的次数，将文本输入上述任一算法变换为向量表达式，并且通过最大化词与词共现的概率为目标以优化向量表达式，形成深度学习可识别的文本数据格式；

当所述数据为时序型数据时，基于不同时序维度，具体包括小时、日、周，将时间序列数据聚合计算为不同的向量表达式，所述聚合计算的可选择算法包括有Max、Min、Mean、Median和Quantile。

在本发明基于深度学习的非结构化数据的违约概率预测方法中，出于修改或扩充原始数据的目的，还采用了两种加工向量表达式的方法，具体包括Rescale和Random Crop两种算法：Rescale算法是根据定义的向量大小，将向量缩放至同一维度；Random Crop算法是随机抛弃有限个数的向量行或向量列，形成同一维度大小的向量

在本发明基于深度学习的非结构化数据的违约概率预测方法中，所述步骤3中基于深度学习模型框架提取数据特征作为样本数据，其具体步骤为：

首先，定义循环神经网络结构、卷积神经网络结构作为深度学习模型框架；

其次，将变换后的向量表达式和用户是否违约的好坏标签作为样本直接进行深度学习模型的端到端训练；

然后，提取神经网络隐层特征，即抽取神经网络倒数第二层的数值作为数据特征，最终形成可供上层分类判别模型使用的样本数据。

在本发明基于深度学习的非结构化数据的违约概率预测方法中，更进一步地，所述深度学习模型的训练过程有三种参数优化算法可供择一使用,具体包括：（1）GradientDescent with Momentum算法：基于指数加权平滑模型，对传统模型训练所用的梯度下降算法进行了优化，可有效减少训练过程中的震荡问题，大大加速了损失函数的收敛速度；（2）RMSprop算法：基于指数加权平滑模型，通过考虑参数在不同方向上的收敛速度，可以使得训练过程在效果不变的情况下变得更加激进，加速训练速度；（3）Adam算法：兼顾了上述Gradient Descent with Momentum和RMSprop的优点，使得超参数设置可以变得更加激进，训练速度提升的同时，效果上也得到了进一步的提高。

在本发明基于深度学习的非结构化数据的违约概率预测方法中，所述步骤4中利用复杂机器学习分类算法-集成树模型构建信用风险模型输出违约概率的具体步骤为：

首先，将上述样本数据进行训练集、测试集划分；

其次，基于数据量和特征分布情况，预设模型超参数空间；

然后，采用最佳超参数搜索算法根据机器学习分类算法-集成树模型的标准性能指标（AUC）进行模型超参数选择；

最后，拟合模型并输出可预测违约概率的数据。

上述所用的机器学习分类算法-集成树模型具体是指LightGBM集成树模型,由于该模型超参数较多且相互依赖，为了降低建模人员对算法原理的理解要求，在该模型之上的最佳模型超参数搜索算法具体采用了Hyperopt/skopt搜索算法。

基于上述技术方案，本发明专利用于金融风控的基于深度学习的违约概率预测方法取得了如下技术效果：

1.本发明的基于深度学习的违约概率预测方法，通过挖掘传统金融风控未充分利用的文本、时序等非结构化数据，基于深度学习和大数据技术捕捉信贷主体人潜在的风险行为模式，在此之上进行高维数据信用风险建模，从而解决了金融风控领域非结构化数据无法得到高效、充分使用的难题，实现了对信贷主体人自动、全面、流程化的定量信用风险分析以提升金融风控能力和降低信贷风险。

2.本发明针对金融领域非结构化数据具体加工的问题，提供了一种集成自动整合清洗、数据变换、特征自动提取、高维风险建模的完整解决方案，不同于现有人工根据数据和业务经验进行手动的特征加工方法，而是利用深度学习技术对非结构化数据进行自动特征提取构成特征向量，极大提升了对高维、稀疏、低饱和数据的处理和风险建模能力。

附图说明

图1是本发明一种基于深度学习的非结构化数据的违约概率预测方法的流程示意图。

图2是本发明一种基于深度学习的非结构化数据的违约概率预测方法中步骤1处理流程示意图。

图3是本发明一种基于深度学习的非结构化数据的违约概率预测方法中步骤2处理流程示意图。

图4是本发明一种基于深度学习的非结构化数据的违约概率预测方法中步骤3处理流程示意图。

图5是本发明一种基于深度学习的非结构化数据的违约概率预测方法中步骤4处理流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图中示出的具体实施例来描述本发明。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

结合图1说明本实施方式，本发明的基于深度学习的非结构化数据的违约概率预测方法，通过挖掘传统金融风控未充分利用的文本、时序等非结构化数据，基于深度学习和大数据技术捕捉信贷主体人潜在的风险行为模式，在此之上进行高维数据信用风险建模，从而解决了金融风控领域非结构化数据无法得到高效、充分使用的难题。

具体包括以下步骤：

步骤1：集成和清洗信贷主体人包括文本数据和时序数据在内的非结构化数据。

具体地，首先，从主流数据平台获取同一信贷主体人的各类身份原始数据；其次，集成包括文本数据和时序数据在内的非结构化数据；然后，针对不同的类型的数据进行相应清洗。

针对文本型数据，清洗步骤包括文本拼接、去除非中文字符、去除非大小写英文字符、去除非数字字符以及去除针对金融风控场景的停词和低频词；针对时序型数据，基于不同时序维度进行重采样加工，不同时序维度包括周、日和小时。

步骤2：非结构化数据变换，将非结构化数据变换为深度学习模型可识别的数据格式。

具体地，判断非结构化数据的数据类型，所述数据类型包括文本型数据和时序型数据；当所述数据为文本型数据时，基于无监督算法，具体包括CountVectorizer、TfidfVectorizer、Word2vec、Glove算法，算法的基本思想是基于文本中某个特定词在语料库中出现的次数，某个特定词在文档中出现的次数，以及某个特定词与其它词在上下文特定长度窗口中共现的次数，将文本输入上述任一算法变换为向量表达式，并且通过最大化词与词共现的概率为目标以优化向量表达式，形成深度学习可识别的文本数据格式；当所述数据为时序型数据时，基于不同时序维度，具体包括小时、日、周，将时间序列数据聚合计算为不同的向量表达式，所述聚合计算的方法具体包括Max、Min、Mean、Median、Quantile等。

此外，出于修改或扩充原始数据的目的，本申请中还采用了两种加工向量表达式的方法，具体包括Rescale、Random Crop两种算法。

Rescale：根据定义的向量大小，将向量缩放至同一维度。

Random Crop：随机抛弃有限个数的向量行或向量列，形成同一维度大小的向量。

步骤3：基于深度学习模型框架提取数据特征作为样本数据，供上层分类判别模型使用。

具体地，首先定义循环神经网络结构、卷积神经网络结构作为深度学习模型框架；

然后，提取神经网络隐层特征，即抽取神经网络倒数第二层的数值作为数据特征，最终形成样本数据供上层分类判别模型使用。

由于金融领域数据量相对经典深度学习任务所用数据量相对偏少，且神经网络模型复杂度较高，因此容易产生过拟合和预测结果较差的问题，所述深度学习模型训练过程提供三种更先进的参数优化算法，任选其一即可,具体包括：

Gradient Descent with Momentum算法：基于指数加权平滑模型，对传统模型训练所用的梯度下降算法进行了优化，可有效减少训练过程中的震荡问题，大大加速了损失函数的收敛速度。

RMSprop算法：基于指数加权平滑模型，通过考虑参数在不同方向上的收敛速度，可以使得训练过程在效果不变的情况下变得更加激进，加速训练速度。

Adam算法：兼顾了上述Gradient Descent with Momentum和RMSprop的优点，使得超参数设置可以变得更加激进，训练速度提升的同时，效果上也得到了进一步的提高。

步骤4：利用复杂机器学习分类算法-集成树模型构建信用风险模型输出违约概率预测。

具体地，首先将上述样本数据进行训练集、测试集划分；其次，基于数据量和特征分布情况，预设模型超参数空间；然后，采用最佳超参数搜索算法根据机器学习分类算法-集成树模型的标准性能指标（AUC）进行模型超参数选择；然后，拟合模型并输出违约概率预测。

LightGBM集成树模型：一种基于决策树算法的分布式、高性能的梯度boosting框架，目前广泛应用于排序、分类等机器学习任务。Hyperopt/skopt算法：基本思想是利用算法对优化目标与参数之间进行拟合，基于贝叶斯编程思想，根据每一轮的拟合结果预测下一轮能使优化目标最大化的最佳参数，迭代进行N轮直到优化目标达到收敛。

本发明是一种基于金融非结构化数据的违约概率预测方法，通过挖掘传统金融风控未充分利用的文本、时序等非结构化数据，基于深度学习和大数据技术捕捉信贷主体人潜在的风险行为模式，在此之上进行高维数据信用风险建模，从而解决了金融风控领域非结构化数据无法得到高效、充分使用的难题，实现了对信贷主体人自动、全面、流程化的定量信用风险分析以提升金融风控能力和降低信贷风险。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解；依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

Claims

1.一种基于深度学习的非结构化数据的违约概率预测方法，其特征在于，具体包括以下步骤：

步骤1：集成和清洗信贷主体人包括文本数据和时序数据在内的非结构化数据，首先，从主流数据平台获取同一信贷主体人的各类身份原始数据；其次，集成包括文本数据和时序数据在内的非结构化数据；然后，针对不同的类型的数据进行相应清洗：针对文本型数据，清洗步骤包括文本拼接、去除非中文字符、去除非大小写英文字符、去除非数字字符以及去除针对金融风控场景的停词和低频词；针对时序型数据，基于不同时序维度进行重采样加工，不同时序维度包括周、日和小时；

步骤3：基于深度学习模型框架提取数据特征作为样本数据供上层分类判别模型使用，提取数据特征具体包括定义神经网络结构，将上述向量表达式和用户违约标签作为样本进行神经网络模型训练，抽取隐层特征作为样本数据；基于深度学习模型框架提取数据特征作为样本数据的具体步骤为：首先，定义循环神经网络结构、卷积神经网络结构作为深度学习模型框架；其次，将变换后的向量表达式和用户是否违约的好坏标签作为样本直接进行深度学习模型的端到端训练；然后，提取神经网络隐层特征，即抽取神经网络倒数第二层的数值作为数据特征，最终形成可供上层分类判别模型使用的样本数据；

步骤4：利用复杂机器学习分类算法-集成树模型进行信用风险建模，通过构建的信用风险模型输出作为违约概率预测的数据，具体步骤为：首先，将上述样本数据进行训练集、测试集划分；其次，基于数据量和特征分布情况，预设模型超参数空间；然后，采用最佳超参数搜索算法根据机器学习分类算法-集成树模型的标准性能指标进行模型超参数选择；最后，拟合模型并输出可预测违约概率的数据。

2.根据权利要求1所述的一种基于深度学习的非结构化数据的违约概率预测方法，其特征在于，所述步骤2中将非结构化数据变换为深度学习模型可识别的数据格式的具体步骤为：

3.根据权利要求2所述的一种基于深度学习的非结构化数据的违约概率预测方法，其特征在于，出于修改或扩充原始数据的目的，还采用了两种加工向量表达式的方法，具体包括Rescale和Random Crop两种算法：Rescale算法是根据定义的向量大小，将向量缩放至同一维度；Random Crop算法是随机抛弃有限个数的向量行或向量列，形成同一维度大小的向量。

4.根据权利要求1所述的一种基于深度学习的非结构化数据的违约概率预测方法，其特征在于，所述深度学习模型的训练过程有三种参数优化算法可供择一使用,具体包括：

（1）Gradient Descent with Momentum算法：基于指数加权平滑模型，对传统模型训练所用的梯度下降算法进行了优化，可有效减少训练过程中的震荡问题，大大加速了损失函数的收敛速度；

（2）RMSprop算法：基于指数加权平滑模型，通过考虑参数在不同方向上的收敛速度，可以使得训练过程在效果不变的情况下变得更加激进，加速训练速度；

（3）Adam算法：兼顾了上述Gradient Descent with Momentum和RMSprop的优点，使得超参数设置可以变得更加激进，训练速度提升的同时，效果上也得到了进一步的提高。

5.根据权利要求1所述的一种基于深度学习的非结构化数据的违约概率预测方法，其特征在于，所述步骤4中最佳模型超参数搜索算法具体采用了Hyperopt/skopt搜索算法，Hyperopt/skopt算法是利用算法对优化目标与参数之间进行拟合，基于贝叶斯编程思想，根据每一轮的拟合结果预测下一轮能使优化目标最大化的最佳参数，迭代进行N轮直到优化目标达到收敛。