一种基于大数据的互联网金融用户贷款逾期预测方法
技术领域
本发明属于机器学习、大数据处理、深度学习、人工智能技术领域,尤其互联网金融用户贷款逾期预测数据划分方法、数据扩展、特征构建、模型设计、人工规则等。
背景技术
随着互联网的快速发展,随着越来越多的实体经济进行“互联网+”,以及互联网原生业态的蓬勃发展,大量的资金和业务依托互联网而实现,同时保障这些资金和业务流转的技术也日渐成熟,作为常态金融需求之一的借贷行为,也就很自然地出现在网络经济之中。传统银行的困境:传统银行体系已无法充分解决居民在借贷领域的需求和困境,2015年我国网络借贷行业交易规模突破8000亿人民币,较上一年增长248.2%。未来几年内,网络借贷行业仍将保持一定规模的增长,至2019年前后,网络借贷行业交易规模有望突破达到3.7万亿人民币。
网络借贷平台以互联网金融模式的创新为依托,基于大数据等新兴技术的互联网征信体系,可以更好的打造网络借贷行业的风险识别与定价能力,弥合因时间和空间的距离而产生的金融安全风险,使互联网生态的优势可以更好地与传统金融相融合。
目前国内违约用户风险预测采取人工审批作业形式,效率低而又面临很大的违约风险,无法进行风险分级管理,影响风险控制的能力及灵活度。
本方案使用大数据和人工智能前沿技术,建立违约用户风险预测机器学习模型,对目标客户的基本信息,历史信用记录等数据分析、特征提取,预测用户的违约概率,为企业提供稳定可靠的解决方案。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种实现互联网金融风险机构由传统“事后堵截”的手段转变为“预先识别”,识别高违约用户的方法。本发明的技术方案如下:
一种基于大数据的互联网金融用户贷款逾期预测方法,其包括以下步骤:
101、数据预处理操作,根据用户行为、用户基本信息、信用评分数据进行数据预处理操作;
102、根据七折交叉验证法对数据进行划分操作;
103、根据对抗网络生成模型扩展训练集;
104、根据用户行为、用户基本信息、信用评分数据进行特征工程构建操作,通过卷积神经网络获取用户基本信息局部特征、时序特征及用户行为特征;
105、建立4个机器学习模型,并进行线性回归模型融合操作;
106、通过步骤105已建立的机器学习模型,根据用户基本信息设置人工阈值规则预测用户是否违约,识别高违约用户。
进一步的,所述步骤101数据预处理操作包括:对基础字段下用户行为、用户基本信息、信用评分数据,具体处理包括:
(1)近似空缺填充:在完整数据集中找到相似用户属性值进行填充,用户相似通过皮尔逊相关系数得到,其中,E为数学期望,D为方差,X、Y分别代表两个样本,两个用户之间的皮尔逊相关性为ρXY,皮尔逊相关性计算如下:
(2)原始用户行为表用户id含有重复的样本,按照时间去重,保留用户距离预测日期最近行为发生样本,减少信息冗余。
进一步的,所述步骤102根据七折交叉验证法对数据进行划分操作,具体包括:
为了在构建模型过程中对模型进行评估,使用七折交叉验证,其中1份作为验证集,剩下6份作为训练集,将七折交叉AUC的均值作为验证集结果,其中,k为交叉验证折数,k=7,AUCi为每一折交叉验证结果,AUCave为七交叉验证均值。
进一步的,,所述步骤103根据对抗网络生成模型扩展训练集,具体包括:随机生成与真实数据同规模数据传入生成网络G,真实数据和生成网络G输出结果采样后输入判别网络D计算损失,反向更新优化模型,使G学习到原始数据的分布,从而达到扩展训练集的目的。
进一步的,所述步骤104通过卷积神经网络获取用户基本信息局部特征具体包括:
卷积神经网络获取用户基本信息局部特征:用户基本信息非连续性属性和连续性属性构造为矩阵matrix作为输入层,用户基本信息通过矩阵matrix传入卷积神经网络中卷积层,卷积核在输入层上通过逐一滑动窗口局部感知,权值W共享降低了参数数量,也提供了对用户隐藏信息拟合能力,然后更高层次对局部进行综合操作,从用户信息数据得到全局信息特征;将卷积层结果feature map矩阵展开为一维向量,对应连接相应的用户id,作为机器学习特征,卷积神经网络获取用户基本信息局部特征。
进一步的,所述步骤104通过卷积神经网络获取用户基本信息时序特征具体包括:按照不同时间粒度提取用户特征。划分不同时间窗口大小,统计一个时间窗口用户申请贷款总次数、贷款金额、支付方式,每天申请贷款金额;
同一时间窗口的每天权值不一样,按照距离预测目标越近,其权重越大,其中,X为时间粒度为t天用户贷款总次数,w1、w2、w3……wt为时间粒度为t天每天权值,x1、x2、x3……xt为时间粒度为t天用户每天贷款次数。wi权重和用户在时间粒度为t天贷款总次数按公式表述如下:
X=x1*w1+x2*w2+…+xt*wt公式(5)。
进一步的,所述步骤104通过卷积神经网络获取用户行为特征,具体包括:从业务层面分析用户行为,分析用户是否违约与历史行为关系,其用户行为特征有申请贷款金额、支付方式、借贷前/后购买次数、借贷前购买最大值、借贷前购买最小值。
进一步的,所述步骤105建立4个机器学习模型,并进行线性回归融合操作,具体包括:
使用Factorization Machines(因子分解机FM)、CatBoost、LightGBM、Adaboost算法对训练集七折交叉验证,得到不同的机器学习模型,Y为验证集真实标签,x1、x2、x3、x4为Factorization Machines(FM)、CatBoost、LightGBM、Adaboost对模型进行训练集七折交叉验证预测结果,线性回归拟合验证集真实标签,求得各个模型的参数w;
Y=x1*w1+x2*w2+x3*w3+x4*w4公式(6)
对于测试集使用Factorization Machines(FM)、CatBoost、LightGBM、Adaboost预测结果为X1、X2、X3、X4,将其预测结果分别乘以各个模型权重w,得到最终的预测结果;
P=X1*w1+X2*w2+X3*w3+X4*w4公式(7)。
进一步的,所述步骤106的人工阈值R为用户基本信息完善率,其中,ftotal为用户信息表全部字段数,fmiss为某用户缺失字段数,R为用户信息完善率,公式如下
用户信息完善程度反映一个用户可靠性,设置人工规则阈值R>=0.68,R<0.68对应用户仍为违约用户。
本发明的优点及有益效果如下:
本发明主要是通过对用户行为、用户基本信息、信用评分数据进行分析,运用大数据实现互联网金融用户贷款逾期预测;
本发明103提出一种对抗网络生成模型扩展训练集,通过扩展数据集,更好寻找用户行为习惯,提高模型精确度。
本发明104通过卷积神经网络获取用户基本信息局部特征,传统机器学习通过特征提取不能挖掘隐藏用户基本信息,本发明通过将用户基本信息通过矩阵传入卷积神经网络卷积层,在卷积核感知用户局部特征,从而获取全局特征。
本发明106随后建立4个机器学习模型并进行线性回归模型融合,在模型融合基础上,提出一种基于用户基本信息设置人工阈值规则预测用户是否违约的方法(人工阈值R为用户基本信息完善率),采用规则为辅,模型为主,将规则和模型结合,模型的的预测效果将会更加精准。
附图说明
图1是本发明提供优选实施例提供一种基于大数据的互联网金融用户贷款逾期预测方法的流程图;
图2为本发明实施例提供一种基于大数据的互联网金融用户贷款逾期预测方法中对抗网络扩展训练集示意图;
图3为本发明实施例提供一种基于大数据的互联网金融用户贷款逾期预测方法中特征工程示意图;
图4为本发明实施例提供一种基于大数据的互联网金融用户贷款逾期预测方法中卷积神经网络获取用户基本信息局部特征示意图;
图5为本发明实施例提供一种基于大数据的互联网金融用户贷款逾期预测方法中线性回归模型融合图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明解决上述技术问题的技术方案是:如图1所示,一种基于大数据的互联网金融用户贷款逾期预测方法,其包括以下步骤:
101、数据预处理操作,根据用户行为、用户基本信息、信用评分数据进行数据预处理操作;
102、根据七折交叉验证法对数据进行划分操作;
103、根据对抗网络生成模型扩展训练集;
104、根据用户行为、用户基本信息、信用评分数据进行特征工程构建操作;
105、建立4个机器学习模型,并进行线性回归模型融合操作;
106、通过已建立模型基础,根据用户基本信息设置人工阈值规则预测用户是否违约。
如图2所示,随机生成与真实数据同规模数据传入生成网络G,真实数据和生成网络G输出结果采样后输入判别网络D计算损失,反向更新优化模型,进而使G学习到原始数据的分布,从而达到扩展训练集的目的。
如图3所示,通过七折交叉验证将数据划分为训练集和测试集,根据提取用户行为(时间粒度)特征群、用户信用评分(时间粒度)特征群、用户基本信息(时间粒度)特征群
如图4所示,用户基本信息通过矩阵matrix传入卷积神经网络中卷积层,卷积核感知用户局部特征;将卷积层结果feature map矩阵展开为一维向量。
如图5所示,特征构造数据集建立FM、CatBoost、LightGBM、Adaboost机器学习模型,线性回归进行模型融合,设置人工规则阈值R预测用户是否违约。
(1)数据预处理
近似空缺填充:在金融领域,并非所有用户信息完整,属性值缺失的情况经常发生甚至是不可避免,为了充分利用数据得到用户行为习惯,在完整数据集中找到相似用户属性值进行填充,用户相似通过皮尔逊相关系数得到;原始用户行为表用户id含有重复的样本,按照时间去重,保留用户距离预测日期最近行为发生样本,减少信息冗余。
(2)数据划分
采用七折交叉验证法对数据进行划分。为了在构建模型过程中对模型进行评估,使用七折交叉验证,其中1份作为验证集,剩下6份作为训练集,将七折交叉AUC的均值作为验证集结果,其中,k为交叉验证折数(k=7),AUCi为每一折交叉验证结果,AUCave为七交叉验证均值
(3)扩展训练集
根据对抗网络生成模型扩展训练集:随机生成与真实数据同规模数据传入生成网络G,真实数据和生成网络G输出结果采样后输入判别网络D计算损失,反向更新优化模型,进而使G学习到原始数据的分布,从而达到扩展训练集的目的。
(4)特征工程
根据用户行为、用户基本信息、信用评分数据进行特征工程构建操作,通过卷积神经网络获取用户基本信息局部特征,时序特征,用户行为特征。
(1)卷积神经网络获取用户基本信息局部特征:用户基本信息非连续性属性one_hot(独热编码)离散同连续性属性构造为矩阵matrix作为输入层,用户基本信息通过矩阵matrix传入卷积神经网络中卷积层,卷积核在输入层上通过逐一滑动窗口局部感知,权值W共享降低了参数数量,也提供了对用户隐鲹信息拟合能力,然后更高层次对局部进行综合操作,从用户信息数据得到全局信息特征;将卷积层结果feature map矩阵展开为一维向量,对应连接相应的用户id,作为机器学习特征。如图4所示,x代表输入层数据,将用户基本信息构造为矩阵matrix;W为网络共享权重参数,b为网络偏移量,训练前随机初始化;hW,b(x)为经过卷积神经网络输出层结果,其卷积过程公式表述如下:
hW,b(x)=f(WTx)=f(Wx+b)公式(3)
(2)时序特征:用户申请贷款时间上是有一定的周期性、规律性等,故可以按照不同时间粒度提取用户特征。划分不同时间窗口大小(最近一周、一个月、三个月),统计一个时间窗口用户申请贷款总次数、贷款金额、支付方式,每天申请贷款金额;
同一时间窗口的每天权值不一样,按照距离预测目标越近,其权重越大。其中,X为时间粒度为t天用户贷款总次数,w1、w2、w3……wt为时间粒度为t天每天权值,x1、x2、x3……xt为时间粒度为t天用户每天贷款次数。wi权重和用户在时间粒度为t天贷款总次数按公式表述如下:
X=x1*w1+x2*w2+…+xt*wt公式(5)
(3)用户行为特征:从业务层面分析用户行为,分析用户是否违约与历史行为关系,其用户行为特征有申请贷款金额、支付方式、借贷前/后购买次数、借贷前购买最大值、借贷前购买最小值。
(5)建立模型
建立4个机器学习模型,并进行线性回归融合操作。
使用Factorization Machines(FM)、CatBoost、LightGBM、Adaboost对训练集七折交叉验证,得到不同的机器学习模型,Y为验证集真实标签,x1、x2、x3、x4为FactorizationMachines(FM)、CatBoost、LightGBM、Adaboost对模型进行训练集七折交叉验证预测结果。线性回归拟合验证集真实标签,求得各个模型的参数w。
Y=x1*w1+x2*w2+x3*w3+x4*w4公式(6)
对于测试集使用Factorization Machines(FM)、CatBoost、LightGBM、Adaboost预测结果为X1、X2、X3、X4,将其预测结果分别乘以各个模型权重w,得到最终的预测结果。
P=X1*w1+X2*w2+X3*w3+X4*w4公式(7)
在模型融合基础上,提出一种基于用户基本信息设置人工阈值规则预测用户是否违约的方法。人工阈值R为用户基本信息完善率,其中,ftotal为用户信息表全部字段数,fmiss为某用户缺失字段数,R为用户信息完善率(即设置人工阈值),公式如下
用户信息完善程度反映一个用户可靠性,设置人工规则阈值R>=0.68,R<0.68对应用户仍为违约用户,规则为辅,模型为主,将规则和模型结合,模型的的预测效果将会更加精准。
表1为本发明实施例中数据字段示意表。
表1
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。