CN109034658A - 一种基于大数据金融的违约用户风险预测方法 - Google Patents

一种基于大数据金融的违约用户风险预测方法 Download PDF

Info

Publication number
CN109034658A
CN109034658A CN201810960445.2A CN201810960445A CN109034658A CN 109034658 A CN109034658 A CN 109034658A CN 201810960445 A CN201810960445 A CN 201810960445A CN 109034658 A CN109034658 A CN 109034658A
Authority
CN
China
Prior art keywords
feature
data
user
model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810960445.2A
Other languages
English (en)
Inventor
王进
余薇
孙开伟
欧阳卫华
邓欣
陈乔松
李智星
胡峰
雷大江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201810960445.2A priority Critical patent/CN109034658A/zh
Publication of CN109034658A publication Critical patent/CN109034658A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Technology Law (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于大数据金融的违约用户风险预测方法,包括:101对用户的历史行为数据进行预处理操作;102根据历史行为划分训练集数据、验证集数据;103对用户历史数据进行特征工程操作;104对构建特征完成的样本集进行特征选择;105建立多个机器学习模型,并进行模型融合操作;106通过建立的模型,根据用户历史行为数据对用户在未来一个月是否会逾期还款进行预测。本发明主要是通过对用户历史数据进行预处理和分析,提取特征,特征选择工作,建立多个机器学习模型,根据用户互联网消费行为数据对用户在未来一个月是否会逾期还款进行预测,为金融领域细分人群提供更为精准的风控服务。

Description

一种基于大数据金融的违约用户风险预测方法
技术领域
本发明涉及机器学习、大数据处理技术领域,尤其是基于多模型融合金融违约用户风险预测。
背景技术
近年来,互联网金融已经是当今社会上的一个金融发展趋势。在金融领域,无论是投资理财还是借贷放款,风险控制永远是业务的核心基础。对于消费金融来说,其主要服务对象的特点是:额度小、人群大、周期短,这个特性导致其被公认为是风险最高的细分领域。
以借贷为例,相比于传统的金融行业需要用户自己提供的资产资料的较单一途径,互联网金融更能将用户线下的资产情况,以及线上的网络消费行为进行资料整合,来进行综合分析,以便为用户提供更好的服务体验,为金融商家提供用户更全面的了解和评估。
随着人工智能和大数据等技术不断渗透,依靠金融科技主动收集、分析、整理各类金融数据,为细分人群提供更为精准的风控服务,成为解决消费金融风控问题的有效途径。简言之,如何区别违约风险用户,成为金融领域提供更为精准的风控服务的关键。
发明内容
为了解决上述问题,本发明提供了一种基于大数据金融的违约用户风险预测方法,旨在根据用户互联网消费行为数据对用户在未来一个月是否会逾期还款进行预测,进而为金融领域细分人群提供更为精准的风控服务,解决消费金融风控问题,具有一定的现实意义。
为此,本发明采用的技术方案是:一种基于大数据金融的违约用户风险预测方法,包括以下步骤:
步骤101、对用户的历史行为数据进行预处理操作,包括异常值处理、缺失值的多维度处理、离群点剔除、空格符处理和城市名处理。
步骤102、根据历史行为数据划分训练集数据和验证集数据。
步骤103、对用户历史数据进行特征工程操作,包括构建基础特征、时序特征、业务特征、组合特征和GBDT离散特征。
步骤104、对构建特征完成的样本集,采用基于学习模型的特征排序方法进行特征选择。
步骤105、建立若干机器学习模型,并进行模型融合。
步骤106、通过建立的模型,根据用户历史行为数据对用户在未来一个月是否会逾期还款进行预测。
具体地,步骤101所述异常值处理为:针对数据中存在未知的异常值,采取直接过滤的方法进行处理会减少训练样本数量,从这里出发,将异常值置空,并选取一年为一个时间周期,按公式(1)计算的值进行填充;首先将样本按升序排序,N为数据总数,x(i)表示样本值大小排序为i的值,M为数据集中该缺失值的填充值:
所述缺失值的多维度处理:在征信领域,用户信息的完善程度可能会影响该用户的信用评级。一个信息完善程度为100%的用户比起完善程度为50%的用户,会更加容易审核通过并得到借款。从这一点出发,对缺失值进行了多维度的分析和处理。按列(属性)统计缺失值个数,进一步得到各列的缺失比率,按公式(2)对数据进行多维度处理,其中xi为数据集中某属性列缺失值个数,Count为样本集总数,MissRatei为数据集中该属性列缺失率:
所述离群点剔除:考虑到离群点的异常特征可能是多维度的组合,通过分析样本属性的缺失值个数,剔除了极少量的离群点。按行统计每个样本的属性缺失值个数,将缺失值个数从大到小排序,缺失值个数排序top5%的这部分样本被认定为离群点,将离群点剔除。
所述空格符处理:删除属于同一种取值中的空格符,某些属性取值包含了空格字符,如“货到付款”和“货到付款”,它们明显是同一种取值,需要将空格符去除。
城市名处理:包含有“重庆”、“重庆市”等取值,它们实际上是同一个城市,需要把字符中的“市”全部去掉。去掉类似于“市”的冗余之后,城市数目大大减少。
进一步,所述步骤102根据历史行为数据划分训练集数据和验证集数据具体步骤为:对违约用户风险预测是一个长期且累积的过程,采取传统的按训练和测试集对应时间段滑窗法划分数据集不是最佳方案,从这里出发,将历史用户过去一年为周期的数据全部用于训练集,更好的训练用户行为习惯,其中,验证集的构建采取9折交叉验证的方式,其中8份作为训练数据,1份作为验证数据。
进一步,步骤103所述基础特征:在用户历史消费数据中用户信誉等级、用户贷款额度、用户个人信息特征,其中连续型的属性首先直接作为特征处理;而对于不连续的属性,采取独热编码,编码后的特征,由于独热编码离散后产生特征维数庞大,且存在习稀疏性,因此将独热编码后的特征矩阵使用csr_matrix的稀疏存储方式,不影响特征性能的情况下降低特征维数。
所述时序特征:业务量总体是在增长的,而违约数量一开始也是缓慢增长,考虑到违约率跟时间周期有关,针对时间的字段,直接将其当做连续值特征,统计当前时间与用户注册时间、生日时间、贷款时间、消费时间、浏览时间差值;或另一种是离散化处理构建特征,每10天作为一个区间,按公式(3)进行离散处理,其中,Datei表示第i天的日期离散值,i取值为0-30:
所述业务特征:业务特征主要增强用户的业务表现,在用户历史消费数据中用户贷款次数、订单金额、订单计数(按早中晚、工作日和周末、半夜、星期的粒度分别提取)、用户贷款信用级别、用户贷款额度、用户贷款比率。
所述组合特征:xgboost模型训练完成后可以输出特征的重要性,featureimportance越大,即判别性越高,使用其中top50特征构建了组合特征:将特征两两相除得到2000个特征,然后使用xgboost对这2000多个特征单独训练模型,训练完成后得到特征重要性的排序,将这500个特征添加到原始特征体系中;此外,还组合了乘法特征(取对数),见公式(4),筛选出乘法特征中的240维特征(是一个调和最优的特征维数,也可以根据通过算法调参在240维左右浮动),加入到原有特征体系中,其中Fi和Fj为数据集不同属性列,i和j代表特征列的数目,n为特征总维数,0≤i,j≤n,F_newi则为新生成的第i维的组合乘法特征:
F_newi=log(Fi*Fj) (4)
所述GBDT离散特征:用已有特征训练GBDT模型,然后利用GBDT模型学习到的树来构造新特征,最后把这些新特征加入原有特征一起训练训练XGB、RF算法基模型;构造的新特征向量是取值0或1的,向量每个元素对应于GBDT模型中树的叶子结点;新特征向量的长度等于GBDT模型里所有树包含的叶子结点数之和;最终生成需要的GBDT离散特征。
所述步骤104对构建特征完成的样本集进行特征选择具体步骤为:
在步骤103特征工程部分,构建了一系列基础特征、时序特征、业务特征、组合特征和GBDT离散特征,所有特征加起来高达数千维,高维特征一方面可能会导致维数灾难,另一方面很容易导致过拟合。从这一点出发,通过特征选择来降低特征维度。比较高效的是基于学习模型的特征排序方法,可以达到目的:模型学习的过程和特征选择的过程是同时进行的,因此我们采用这种方法,基于xgboost来做特征选择,xgboost模型训练完成后可以输出特征的重要性,据此我们可以保留top 800个特征;再使用皮尔森相关系数计算相关性最高的top800个特征,选取两部分特征交集作为最终的模型的特征,即同时考察特征重要性和特征相关性,从而达到特征选择的目的。
步骤105所述模型融合包括:
基于xgboost模型的bagging融合:通过参数扰动生成30个不同xgb模型,对同一数据集进行训练产生结果。受bagging思想的启发,对单模型xgb_origin做了进一步的改进,xgb_origin确定了一组AUC(Area Under Curve,中文含义:ROC曲线下方的面积大小。)评分达到0.85的参数,其中subsample参数取值为0.75,迭代次数1000,min_child_weight为18,colsample_bytree为0.8。让这些参数在一定的小范围内随机波动,模型subsample参数在(0.7,0.8)之间随机取值,迭代次数控制在(800,1200),min_child_weight在(15,24)之间选取,colsample_bytree在(0.75,0.85)随机取值。xgb_origin所用到的特征为数千维,而子xgb模型则随机抽样部分特征进行训练。最终通过参数扰动和特征扰动训练出30个子xgb模型。这种方法在参数和特征上都引入了多样性(差异性),使得最后bagging的效果有很大的提升。
多模型blending:基于用户长期行为导致的还款行为习惯,这里选择blendingensemble的ensemble方式,主要是为了穿插不同推荐模型的结果,以确保根据用户历史长期的消费行为获取还款行为的稳定性,保证结果的多样性,根据单模型结果,选择融合效果较好3个树模型:xgboost>gbdt>RandomForest。Blending过程主要根据9-cv过程将训练集数据拆分成子训练集和子验证集,通过每次对子训练集进行训练分别对子验证集和验证集数据集进行预测,得到子训练验证预测结果和验证预测结果,将每个模型cv产生的子训练验证预测结果拼接训练预测结果,对验证预测结果取平均生成验证预测均值结果,上层模型这里选用不同于基模型的LogisticRegression对每个模型产生的训练预测结果与训练标签进行训练,对验证预测均值结果进行预测生成答案。
随着人工智能和大数据等技术不断渗透,依靠金融科技主动收集、分析、整理各类金融数据,为细分人群提供更为精准的风控服务至关重要。而本发明一种基于大数据金融的违约用户风险预测方法,成为解决消费金融风控问题的有效途径,可以应用到任意金融风控问题上,甚至是应用到电商平台或是互联网通信软件上用于区分各类用户。
一种基于大数据金融的违约用户风险预测方法,以下步骤都是本发明创新的内容:1、特征工程部分:对于个人信息属性,其中不连续的属性,采取独热编码,将独热编码后的特征矩阵使用csr_matrix的稀疏存储方式;2、特征工程部分:用已有特征训练GBDT模型,然后利用GBDT模型学习到的树来构造新特征,最后把这些新特征加入原有特征一起训练;3、特征工程部分:利用已有组合得到乘法特征;4、模型融合部分:采用多模型融合方式,选用的是1/rank加权融合(按score降序),为了让每个将进行融合的模型都起到一定作用,而不受个别效果突出模型影响过大,这里首先对wi/ranki的值取对数进行平滑,再求和作为模型最终结果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种基于大数据金融的违约用户风险预测方法的流程图;
图2为本发明实施例一提供的一种基于大数据金融的违约用户风险预测方法中违约数量和未违约数量跟时间周期的关系变化图;
图3为本发明实施例一提供的一种基于大数据金融的违约用户风险预测方法中xgboost模型训练完成后输出特征top20的重要性,feature importance降序排序;
图4为本发明实施例一提供的一种基于大数据金融的违约用户风险预测方法中xgboost模型bagging模型流程图;
图5为本发明实施例一提供的一种基于大数据金融的违约用户风险预测方法中多模型blending流程图;
图6为本发明实施例一提供的一种基于大数据金融的违约用户风险预测方法中模型融合总框架。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本发明实施例一提供一种基于大数据金融的违约用户风险预测方法的流程图,具体包括:
101.对用户的历史行为数据进行预处理操作,具体如下:1011.异常值处理:将异常值置空,并选取一年为一个时间周期,按如下公式(1)计算的值进行填充;1012.缺失值的多维度处理:按列(属性)统计缺失值个数,进一步得到各列的缺失比率。1013.离群点剔除:按行统计每个样本的属性缺失值个数,将缺失值个数从大到小排序,缺失值个数排序top5%的这部分样本被认定为离群点,将离群点剔除;1014.其他处理:空格符处理,某些属性取值包含了空格字符,如“货到付款”和“货到付款”,它们明显是同一种取值,需要将空格符去除,大大减少异常字符对特征的误导。
102.根据历史行为数据划分训练集数据和验证集数据,具体如下:将历史行为数据全部用于训练集,其中,验证集的构建采取9折交叉验证的方式。测试集即需要预测的所有数据。
103.对用户历史数据进行特征工程操作,具体如下:对用户历史行为数据构建基础特征、时序特征、业务特征、组合特征和GBDT离散特征,如下:
1031.基础特征:在用户历史消费数据中用户基本信息特征,对于不连续的属性,采取独热编码,将独热编码后的特征矩阵使用csr_matrix的稀疏存储方式。
1032.时序特征:业务量总体是在增长的,而违约数量一开始也是缓慢增长,考虑到违约率跟时间周期有关(见图2,图中count_0和count_1分别代表历史区间逾期和未逾期的用户的数量统计值),针对时间的字段,直接将其当做连续值特征,统计当前时间与用户注册时间、生日时间、贷款时间、消费时间、浏览时间差值。另一种是离散化处理构建特征,每10天作为一个区间离散。
1033.业务特征:业务特征主要增强用户的业务表现,在用户历史消费数据中用户贷款次数、订单金额、订单计数(按早中晚、工作日和周末、半夜、星期的粒度分别提取)、用户贷款信用级别、用户贷款额度、用户贷款比率。
1034.组合特征:xgboost模型训练完成后可以输出特征的重要性,featureimportance越大(见图3),即判别性越高,使用top50特征构建了组合特征:将特征两两相除得到2000个特征,然后使用xgboost对这2000多个特征单独训练模型,训练完成后得到特征重要性的排序,将这500个特征添加到原始特征体系中;此外,还组合了乘法特征(取对数)。
1035.GBDT离散特征:用已有特征训练GBDT模型,然后利用GBDT模型学习到的树来构造新特征,最后把这些新特征加入原有特征一起训练模型。
104.对构建特征完成的样本集进行特征选择,具体如下:基于xgboost来做特征选择,xgboost模型训练完成后可以输出特征的重要性(见图3),据此选取保留top 800个特征,再使用皮尔森相关系数计算相关性最高的top800个特征,选取两部分特征交集作为最终的模型的特征,从而达到特征选择的目的。
105.建立多个机器学习模型,并进行模型融合,具体如下:
1051.xgboost模型bagging:xgb_origin确定了一组AUC评分达到0.85的参数,其中subsample参数取值为0.75,迭代次数1000,min_child_weight为18,colsample_bytree为0.8。让这些参数在一定的小范围内随机波动,模型subsample参数在(0.7,0.8)之间随机取值,迭代次数控制在(800,1200),min_child_weight在(15,24)之间选取,colsample_bytree在(0.75,0.85)随机取值。这种方法在参数和特征上都引入了多样性(差异性),使得最后bagging的效果有很大的提升,该模型框图见图4。
1052.多模型blending:选择blending ensemble的ensemble方式,主要融合效果较好3个树模型:xgboost>gbdt>RandomForest。
106.通过建立的模型,根据用户历史行为数据对用户在未来一个月是否会逾期还款进行预测,整体方案架构参见图6,具体如下:
构建的框架主要实现2层的多模型融合,基于3个方案结果的融合:方案1:baggingxboost,通过参数扰动生成不同30个xgb模型,对同一数据集进行训练产生结果,采用均值融合产生M1结果,参见图4;方案2:多模型Blending,通过不同模型对同一数据集进行训练产生结果作为元特征继续训练,上层采用LR对输出的特征进行权重训练学习克服手工选择权重的问题,产生M2模型,参见图5;方案3:单模型,根据线下9-CV验证,调试出2个不同版本的最优单模型,S_XGB_1,S_XGB_2,分别为xgboost不同参数版本的模型,生成不同的单模型结果。
最上层的融合方式采用均值融合,最终选用的是线下效果最好的1/rank加权融合(按score降序),见公式(5),其中ranki为第i个模型的rank排序,wi为第i个模型AUC值所占权重,n为待进行模型融合的单模型总数。为了让每个将进行融合的模型都起到一定作用,而不受个别效果突出模型影响过大,这里首先对的值取对数进行平滑,再将各模型求和得到的score为最终AUC最终得分。预测结果即是用户逾期还款的概率。
当score大于一定值(0.9~0.95)的时候,说明该条测试数据对应的用户很大可能是违约用户,会逾期还款,为金融领域细分这部分违约人群提供更为精准的风控服务,成为解决消费金融风控问题的有效途径。

Claims (8)

1.一种基于大数据金融的违约用户风险预测方法,其特征在于,包括以下步骤:
步骤101、对用户的历史行为数据进行预处理操作,包括异常值处理、缺失值的多维度处理、离群点剔除、空格符处理和城市名处理;
步骤102、根据历史行为数据划分训练集数据和验证集数据;
步骤103、对用户历史数据进行特征工程操作,包括构建基础特征、时序特征、业务特征、组合特征和GBDT离散特征;
步骤104、对构建特征完成的样本集,采用基于学习模型的特征排序方法进行特征选择;
步骤105、建立若干机器学习模型,并进行模型融合;
步骤106、通过建立的模型,根据用户历史行为数据对用户在未来一个月是否会逾期还款进行预测。
2.根据权利要求1所述一种基于大数据金融的违约用户风险预测方法,其特征在于:步骤101所述异常值处理为将异常值置空,并选取一年为一个时间周期,按公式(1)计算的值进行填充;首先将样本按升序排序,N为数据总数,x(i)表示样本值大小排序为i的值,M为数据集中该缺失值的填充值:
所述缺失值的多维度处理:按属性列统计缺失值个数,进一步得到各列的缺失比率,按公式(2)对数据进行多维度处理,其中xi为数据集中某属性列缺失值个数,Count为样本集总数,MissRatei为数据集中该属性列缺失率:
所述离群点剔除:按行统计每个样本的属性缺失值个数,将缺失值个数从大到小排序,缺失值个数排序top5%的这部分样本被认定为离群点,将离群点剔除;
所述空格符处理:删除属于同一种取值中的空格符。
3.根据权利要求1所述一种基于大数据金融的违约用户风险预测方法,其特征在于:步骤103所述基础特征:在用户历史消费数据中用户信誉等级、用户贷款额度、用户个人信息特征,其中连续型的属性首先直接作为特征处理;而对于不连续的属性,采取独热编码,将独热编码后的特征矩阵使用csr_matrix的稀疏存储方式,不影响特征性能的情况下降低特征维数;
所述时序特征:针对时间的字段,直接将其当做连续值特征,统计当前时间与用户注册时间、生日时间、贷款时间、消费时间、浏览时间差值;或另一种是离散化处理构建特征,每10天作为一个区间,按公式(3)进行离散处理,其中,Datei表示第i天的日期离散值,i取值为0-30:
所述业务特征:在用户历史消费数据中用户贷款次数、订单金额、订单计数、用户贷款信用级别、用户贷款额度、用户贷款比率;
所述组合特征:xgboost模型训练完成后输出特征的重要性,使用其中top50特征构建组合特征;
所述GBDT离散特征:用已有特征训练GBDT模型,然后利用GBDT模型学习到的树来构造新特征,最后把这些新特征加入原有特征一起训练XGB、RF算法基模型;构造的新特征向量是取值0或1的,向量每个元素对应于GBDT模型中树的叶子结点;新特征向量的长度等于GBDT模型里所有树包含的叶子结点数之和;最终生成需要的GBDT离散特征。
4.根据权利要求3所述一种基于大数据金融的违约用户风险预测方法,其特征在于:所述订单计数包括按早中晚、工作日和周末、半夜、星期的粒度分别提取。
5.根据权利要求3所述一种基于大数据金融的违约用户风险预测方法,其特征在于:所述使用xgboost模型输出的top50特征构建组合特征包括:将特征两两相除得到2000个特征,然后使用xgboost对这2000个特征单独训练模型,训练完成后得到特征重要性的排序,将这500个特征添加到原始特征体系中。
6.根据权利要求5所述一种基于大数据金融的违约用户风险预测方法,其特征在于:所述组合特征中还组合了乘法特征,见公式(4),筛选出乘法特征中的240维特征,加入到原有特征体系中,其中Fi和Fj为数据集不同属性列,i和j代表特征列的数目,n为特征总维数,0≤i,j≤n,F_newi则为新生成的第i维的组合乘法特征:
F_newi=log(Fi*Fj) (4)。
7.根据权利要求1所述一种基于大数据金融的违约用户风险预测方法,其特征在于:步骤105所述模型融合包括:
基于xgboost模型的bagging融合:通过参数扰动生成30个不同xgb模型,对同一数据集进行训练产生结果;
多模型blending:选择blending ensemble的ensemble方式,根据单模型结果,选择融合效果较好3个树模型:xgboost>gbdt>RandomForest;Blending过程根据9-cv过程将训练集数据拆分成子训练集和子验证集,通过每次对子训练集进行训练分别对子验证集和验证集数据进行预测,得到子训练验证预测结果和验证预测结果,将每个模型cv产生的子训练验证预测结果拼接训练预测结果,对验证预测结果取平均生成验证预测均值结果,上层模型这里选用不同于基模型的LogisticRegression对每个模型产生的训练预测结果与训练标签进行训练,对验证预测均值结果进行预测生成答案。
8.根据权利要求7所述一种基于大数据金融的违约用户风险预测方法,其特征在于:所述通过参数扰动生成30个不同xgb模型的过程为:模型subsample参数在(0.7,0.8)之间随机取值,迭代次数控制在(800,1200),min_child_weight在(15,24)之间选取,colsample_bytree在(0.75,0.85)随机取值;xgb_origin所用到的特征为数千维,而子xgb模型则随机抽样部分特征进行训练;最终通过参数扰动和特征扰动训练出30个子xgb模型。
CN201810960445.2A 2018-08-22 2018-08-22 一种基于大数据金融的违约用户风险预测方法 Pending CN109034658A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810960445.2A CN109034658A (zh) 2018-08-22 2018-08-22 一种基于大数据金融的违约用户风险预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810960445.2A CN109034658A (zh) 2018-08-22 2018-08-22 一种基于大数据金融的违约用户风险预测方法

Publications (1)

Publication Number Publication Date
CN109034658A true CN109034658A (zh) 2018-12-18

Family

ID=64626866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810960445.2A Pending CN109034658A (zh) 2018-08-22 2018-08-22 一种基于大数据金融的违约用户风险预测方法

Country Status (1)

Country Link
CN (1) CN109034658A (zh)

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635118A (zh) * 2019-01-10 2019-04-16 博拉网络股份有限公司 一种基于大数据的用户搜索匹配方法
CN109685583A (zh) * 2019-01-10 2019-04-26 博拉网络股份有限公司 一种基于大数据的供应链需求预测方法
CN109740764A (zh) * 2019-01-10 2019-05-10 博拉网络股份有限公司 一种基于大数据的小型企业失信预测方法
CN109741114A (zh) * 2019-01-10 2019-05-10 博拉网络股份有限公司 一种大数据金融场景下的用户购买预测方法
CN109784979A (zh) * 2018-12-19 2019-05-21 重庆邮电大学 一种大数据驱动的供应链需求预测方法
CN109858679A (zh) * 2018-12-30 2019-06-07 国网浙江省电力有限公司 一种结合人机物的反窃电稽查监控系统及其工作方法
CN109919436A (zh) * 2019-01-29 2019-06-21 华融融通(北京)科技有限公司 一种基于稀疏特征嵌入的违约用户概率预测方法
CN109949148A (zh) * 2019-02-27 2019-06-28 四川享宇金信金融科技有限公司 一种用于金融信贷业务的自动化风控配置系统及方法
CN110084412A (zh) * 2019-04-12 2019-08-02 重庆邮电大学 一种基于特征转换多标签学习的光伏发电大数据预测方法
CN110111139A (zh) * 2019-04-23 2019-08-09 上海淇玥信息技术有限公司 行为预估模型生成方法、装置、电子设备及可读介质
CN110135626A (zh) * 2019-04-17 2019-08-16 平安科技(深圳)有限公司 信贷管理方法及装置、电子设备、存储介质
CN110135628A (zh) * 2019-04-23 2019-08-16 上海淇玥信息技术有限公司 一种金融策略自动生成方法、装置、系统和记录介质
CN110134948A (zh) * 2019-04-23 2019-08-16 北京淇瑀信息科技有限公司 一种基于文本数据的金融风险控制方法、装置和电子设备
CN110210913A (zh) * 2019-06-14 2019-09-06 重庆邮电大学 一种基于大数据的商家回头客预测方法
CN110222873A (zh) * 2019-05-14 2019-09-10 重庆邮电大学 一种基于大数据的地铁站客流量预测方法
CN110276677A (zh) * 2019-04-24 2019-09-24 武汉众邦银行股份有限公司 基于大数据平台的还款预测方法、装置、设备及存储介质
CN110322142A (zh) * 2019-07-01 2019-10-11 百维金科(上海)信息科技有限公司 一种大数据风控模型及线上系统配置技术
CN110322150A (zh) * 2019-07-04 2019-10-11 优估(上海)信息科技有限公司 一种信息审核方法、装置及服务器
CN110348722A (zh) * 2019-07-01 2019-10-18 百维金科(上海)信息科技有限公司 一种基于XGBoost的互联网金融风控模型
CN110349000A (zh) * 2019-06-29 2019-10-18 上海淇毓信息科技有限公司 基于用户分群的提额策略确定方法、装置和电子设备
CN110414716A (zh) * 2019-07-03 2019-11-05 北京科技大学 一种基于LightGBM的企业失信概率预测方法及系统
CN110415086A (zh) * 2019-08-01 2019-11-05 信雅达系统工程股份有限公司 基于用户连续行为序列特征的智能理财推荐方法
CN110443304A (zh) * 2019-08-06 2019-11-12 民生科技有限责任公司 一种基于机器学习模型的企业风险评估方法
CN110675241A (zh) * 2019-08-15 2020-01-10 上海新颜人工智能科技有限公司 标签标定系统及方法
CN110717182A (zh) * 2019-10-14 2020-01-21 杭州安恒信息技术股份有限公司 一种网页木马检测方法、装置、设备及可读存储介质
CN110827138A (zh) * 2019-10-31 2020-02-21 北京芯盾时代科技有限公司 一种推送信息确定方法及装置
CN110941963A (zh) * 2019-11-29 2020-03-31 福州大学 一种基于句子情感属性的文本属性生成观点摘要方法与系统
CN111062518A (zh) * 2019-11-22 2020-04-24 成都铂锡金融信息技术有限公司 基于人工智能的处理催收业务的方法、装置及存储介质
CN111199469A (zh) * 2019-12-12 2020-05-26 北京淇瑀信息科技有限公司 用户还款模型生成方法、装置及电子设备
CN111210332A (zh) * 2019-12-12 2020-05-29 北京淇瑀信息科技有限公司 贷后管理策略生成方法、装置及电子设备
CN111242779A (zh) * 2020-01-03 2020-06-05 湖南工商大学 金融数据特征选择和预测方法、装置、设备及存储介质
WO2020125106A1 (zh) * 2018-12-21 2020-06-25 苏宁易购集团股份有限公司 基于相似度模型的数据处理方法及系统
CN111402028A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 一种信息处理方法、装置及设备
CN111583014A (zh) * 2020-04-09 2020-08-25 上海淇毓信息科技有限公司 一种基于gbst的金融风险管理方法、装置和电子设备
CN111898879A (zh) * 2020-07-15 2020-11-06 北京海恩炼鑫台信息技术有限责任公司 一种ai智能风控建模方法
CN111950624A (zh) * 2020-08-10 2020-11-17 中国平安人寿保险股份有限公司 客户风险评估模型构建方法、装置、存储介质及终端设备
CN111967973A (zh) * 2020-08-18 2020-11-20 中国银行股份有限公司 银行客户数据处理方法及装置
CN111984842A (zh) * 2020-08-18 2020-11-24 中国银行股份有限公司 银行客户数据处理方法及装置
CN112116454A (zh) * 2020-09-28 2020-12-22 中国建设银行股份有限公司 信用评估方法及装置
CN112561538A (zh) * 2020-12-23 2021-03-26 平安银行股份有限公司 风险模型创制方法、装置、计算机设备及可读存储介质
CN112951332A (zh) * 2021-02-25 2021-06-11 北京博富瑞基因诊断技术有限公司 一种基于aGVHD biomarker的重度肠道aGVHD模型的方法
CN113011624A (zh) * 2019-12-18 2021-06-22 中移(上海)信息通信科技有限公司 用户违约预测方法、装置、设备及介质
CN113139876A (zh) * 2021-04-22 2021-07-20 平安壹钱包电子商务有限公司 风险模型训练方法、装置、计算机设备及可读存储介质
CN113159933A (zh) * 2021-05-20 2021-07-23 中国工商银行股份有限公司 一种风险控制方法、系统、设备及介质
CN113379457A (zh) * 2021-06-04 2021-09-10 浙江杭州余杭农村商业银行股份有限公司 面向金融领域的智能营销方法
CN113535800A (zh) * 2021-06-03 2021-10-22 同盾科技有限公司 信贷场景下的特征表示方法、电子设备和存储介质
CN113610354A (zh) * 2021-07-15 2021-11-05 北京淇瑀信息科技有限公司 第三方平台用户的策略分配方法、装置及电子设备
CN113610366A (zh) * 2021-07-23 2021-11-05 上海淇玥信息技术有限公司 风险警告生成方法、装置及电子设备
CN113642253A (zh) * 2021-08-30 2021-11-12 佛山众陶联供应链服务有限公司 一种陶瓷砖半成品在加工中的损耗判断方法和系统
CN113673866A (zh) * 2021-08-20 2021-11-19 上海寻梦信息技术有限公司 农作物决策方法、模型训练方法以及相关设备
CN113704756A (zh) * 2021-07-19 2021-11-26 广州大学 基于集成策略的挖矿型恶意代码鲁棒性检测方法、系统及介质
CN114707883A (zh) * 2022-04-18 2022-07-05 工银瑞信基金管理有限公司 基于时序特征的债券违约预测方法、装置、设备和介质
CN115357629A (zh) * 2022-10-20 2022-11-18 成都宽邦科技有限公司 用于金融数据流的处理方法、系统、电子装置及存储介质
CN116579842A (zh) * 2023-07-13 2023-08-11 南开大学 基于用户行为数据的信用数据分析方法及系统
CN117391836A (zh) * 2023-07-26 2024-01-12 人上融融(江苏)科技有限公司 一种基于不同标签的异质集成进行逾期概率建模的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4320361B1 (ja) * 2008-12-08 2009-08-26 株式会社 金融工学研究所 将来財務予測システム、将来財務予測方法及び将来財務予測プログラム
CN107194803A (zh) * 2017-05-19 2017-09-22 南京工业大学 一种p2p网贷借款人信用风险评估的装置
CN107301562A (zh) * 2017-05-16 2017-10-27 重庆邮电大学 一种o2o优惠券使用大数据预测方法
CN107644375A (zh) * 2016-07-22 2018-01-30 花生米浙江数据信息服务股份有限公司 一种专家模型与机器学习模型融合的小商户信用评估方法
CN107909433A (zh) * 2017-11-14 2018-04-13 重庆邮电大学 一种基于大数据移动电子商务的商品推荐方法
CN108154430A (zh) * 2017-12-28 2018-06-12 上海氪信信息技术有限公司 一种基于机器学习和大数据技术的信用评分构建方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4320361B1 (ja) * 2008-12-08 2009-08-26 株式会社 金融工学研究所 将来財務予測システム、将来財務予測方法及び将来財務予測プログラム
CN107644375A (zh) * 2016-07-22 2018-01-30 花生米浙江数据信息服务股份有限公司 一种专家模型与机器学习模型融合的小商户信用评估方法
CN107301562A (zh) * 2017-05-16 2017-10-27 重庆邮电大学 一种o2o优惠券使用大数据预测方法
CN107194803A (zh) * 2017-05-19 2017-09-22 南京工业大学 一种p2p网贷借款人信用风险评估的装置
CN107909433A (zh) * 2017-11-14 2018-04-13 重庆邮电大学 一种基于大数据移动电子商务的商品推荐方法
CN108154430A (zh) * 2017-12-28 2018-06-12 上海氪信信息技术有限公司 一种基于机器学习和大数据技术的信用评分构建方法

Cited By (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784979A (zh) * 2018-12-19 2019-05-21 重庆邮电大学 一种大数据驱动的供应链需求预测方法
WO2020125106A1 (zh) * 2018-12-21 2020-06-25 苏宁易购集团股份有限公司 基于相似度模型的数据处理方法及系统
CN109858679A (zh) * 2018-12-30 2019-06-07 国网浙江省电力有限公司 一种结合人机物的反窃电稽查监控系统及其工作方法
CN111402028A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 一种信息处理方法、装置及设备
CN109635118A (zh) * 2019-01-10 2019-04-16 博拉网络股份有限公司 一种基于大数据的用户搜索匹配方法
CN109685583A (zh) * 2019-01-10 2019-04-26 博拉网络股份有限公司 一种基于大数据的供应链需求预测方法
CN109740764A (zh) * 2019-01-10 2019-05-10 博拉网络股份有限公司 一种基于大数据的小型企业失信预测方法
CN109741114A (zh) * 2019-01-10 2019-05-10 博拉网络股份有限公司 一种大数据金融场景下的用户购买预测方法
CN109919436A (zh) * 2019-01-29 2019-06-21 华融融通(北京)科技有限公司 一种基于稀疏特征嵌入的违约用户概率预测方法
CN109949148A (zh) * 2019-02-27 2019-06-28 四川享宇金信金融科技有限公司 一种用于金融信贷业务的自动化风控配置系统及方法
CN110084412A (zh) * 2019-04-12 2019-08-02 重庆邮电大学 一种基于特征转换多标签学习的光伏发电大数据预测方法
CN110135626A (zh) * 2019-04-17 2019-08-16 平安科技(深圳)有限公司 信贷管理方法及装置、电子设备、存储介质
CN110134948A (zh) * 2019-04-23 2019-08-16 北京淇瑀信息科技有限公司 一种基于文本数据的金融风险控制方法、装置和电子设备
CN110135628A (zh) * 2019-04-23 2019-08-16 上海淇玥信息技术有限公司 一种金融策略自动生成方法、装置、系统和记录介质
CN110111139B (zh) * 2019-04-23 2021-09-24 上海淇玥信息技术有限公司 行为预估模型生成方法、装置、电子设备及可读介质
CN110111139A (zh) * 2019-04-23 2019-08-09 上海淇玥信息技术有限公司 行为预估模型生成方法、装置、电子设备及可读介质
CN110276677A (zh) * 2019-04-24 2019-09-24 武汉众邦银行股份有限公司 基于大数据平台的还款预测方法、装置、设备及存储介质
CN110222873A (zh) * 2019-05-14 2019-09-10 重庆邮电大学 一种基于大数据的地铁站客流量预测方法
CN110222873B (zh) * 2019-05-14 2023-10-31 北京城建智控科技股份有限公司 一种基于大数据的地铁站客流量预测方法
CN110210913A (zh) * 2019-06-14 2019-09-06 重庆邮电大学 一种基于大数据的商家回头客预测方法
CN110349000A (zh) * 2019-06-29 2019-10-18 上海淇毓信息科技有限公司 基于用户分群的提额策略确定方法、装置和电子设备
CN110322142A (zh) * 2019-07-01 2019-10-11 百维金科(上海)信息科技有限公司 一种大数据风控模型及线上系统配置技术
CN110348722A (zh) * 2019-07-01 2019-10-18 百维金科(上海)信息科技有限公司 一种基于XGBoost的互联网金融风控模型
CN110414716A (zh) * 2019-07-03 2019-11-05 北京科技大学 一种基于LightGBM的企业失信概率预测方法及系统
CN110322150A (zh) * 2019-07-04 2019-10-11 优估(上海)信息科技有限公司 一种信息审核方法、装置及服务器
CN110322150B (zh) * 2019-07-04 2023-04-18 优估(上海)信息科技有限公司 一种信息审核方法、装置及服务器
CN110415086A (zh) * 2019-08-01 2019-11-05 信雅达系统工程股份有限公司 基于用户连续行为序列特征的智能理财推荐方法
CN110443304A (zh) * 2019-08-06 2019-11-12 民生科技有限责任公司 一种基于机器学习模型的企业风险评估方法
CN110675241A (zh) * 2019-08-15 2020-01-10 上海新颜人工智能科技有限公司 标签标定系统及方法
CN110717182A (zh) * 2019-10-14 2020-01-21 杭州安恒信息技术股份有限公司 一种网页木马检测方法、装置、设备及可读存储介质
CN110827138B (zh) * 2019-10-31 2022-07-05 北京芯盾时代科技有限公司 一种推送信息确定方法及装置
CN110827138A (zh) * 2019-10-31 2020-02-21 北京芯盾时代科技有限公司 一种推送信息确定方法及装置
CN111062518A (zh) * 2019-11-22 2020-04-24 成都铂锡金融信息技术有限公司 基于人工智能的处理催收业务的方法、装置及存储介质
CN110941963A (zh) * 2019-11-29 2020-03-31 福州大学 一种基于句子情感属性的文本属性生成观点摘要方法与系统
CN111210332A (zh) * 2019-12-12 2020-05-29 北京淇瑀信息科技有限公司 贷后管理策略生成方法、装置及电子设备
CN111199469A (zh) * 2019-12-12 2020-05-26 北京淇瑀信息科技有限公司 用户还款模型生成方法、装置及电子设备
CN113011624A (zh) * 2019-12-18 2021-06-22 中移(上海)信息通信科技有限公司 用户违约预测方法、装置、设备及介质
CN111242779A (zh) * 2020-01-03 2020-06-05 湖南工商大学 金融数据特征选择和预测方法、装置、设备及存储介质
CN111242779B (zh) * 2020-01-03 2023-08-18 湖南工商大学 金融数据特征选择和预测方法、装置、设备及存储介质
CN111583014A (zh) * 2020-04-09 2020-08-25 上海淇毓信息科技有限公司 一种基于gbst的金融风险管理方法、装置和电子设备
CN111898879A (zh) * 2020-07-15 2020-11-06 北京海恩炼鑫台信息技术有限责任公司 一种ai智能风控建模方法
CN111950624A (zh) * 2020-08-10 2020-11-17 中国平安人寿保险股份有限公司 客户风险评估模型构建方法、装置、存储介质及终端设备
CN111984842B (zh) * 2020-08-18 2024-02-27 中国银行股份有限公司 银行客户数据处理方法及装置
CN111984842A (zh) * 2020-08-18 2020-11-24 中国银行股份有限公司 银行客户数据处理方法及装置
CN111967973A (zh) * 2020-08-18 2020-11-20 中国银行股份有限公司 银行客户数据处理方法及装置
CN112116454A (zh) * 2020-09-28 2020-12-22 中国建设银行股份有限公司 信用评估方法及装置
CN112561538A (zh) * 2020-12-23 2021-03-26 平安银行股份有限公司 风险模型创制方法、装置、计算机设备及可读存储介质
CN112561538B (zh) * 2020-12-23 2024-06-07 平安银行股份有限公司 风险模型创制方法、装置、计算机设备及可读存储介质
CN112951332A (zh) * 2021-02-25 2021-06-11 北京博富瑞基因诊断技术有限公司 一种基于aGVHD biomarker的重度肠道aGVHD模型的方法
CN113139876A (zh) * 2021-04-22 2021-07-20 平安壹钱包电子商务有限公司 风险模型训练方法、装置、计算机设备及可读存储介质
CN113159933A (zh) * 2021-05-20 2021-07-23 中国工商银行股份有限公司 一种风险控制方法、系统、设备及介质
CN113535800A (zh) * 2021-06-03 2021-10-22 同盾科技有限公司 信贷场景下的特征表示方法、电子设备和存储介质
CN113379457A (zh) * 2021-06-04 2021-09-10 浙江杭州余杭农村商业银行股份有限公司 面向金融领域的智能营销方法
CN113610354A (zh) * 2021-07-15 2021-11-05 北京淇瑀信息科技有限公司 第三方平台用户的策略分配方法、装置及电子设备
CN113704756A (zh) * 2021-07-19 2021-11-26 广州大学 基于集成策略的挖矿型恶意代码鲁棒性检测方法、系统及介质
CN113610366A (zh) * 2021-07-23 2021-11-05 上海淇玥信息技术有限公司 风险警告生成方法、装置及电子设备
CN113673866A (zh) * 2021-08-20 2021-11-19 上海寻梦信息技术有限公司 农作物决策方法、模型训练方法以及相关设备
CN113642253A (zh) * 2021-08-30 2021-11-12 佛山众陶联供应链服务有限公司 一种陶瓷砖半成品在加工中的损耗判断方法和系统
CN113642253B (zh) * 2021-08-30 2024-04-02 佛山众陶联供应链服务有限公司 一种陶瓷砖半成品在加工中的损耗判断方法和系统
CN114707883A (zh) * 2022-04-18 2022-07-05 工银瑞信基金管理有限公司 基于时序特征的债券违约预测方法、装置、设备和介质
CN115357629A (zh) * 2022-10-20 2022-11-18 成都宽邦科技有限公司 用于金融数据流的处理方法、系统、电子装置及存储介质
CN116579842B (zh) * 2023-07-13 2023-10-03 南开大学 基于用户行为数据的信用数据分析方法及系统
CN116579842A (zh) * 2023-07-13 2023-08-11 南开大学 基于用户行为数据的信用数据分析方法及系统
CN117391836A (zh) * 2023-07-26 2024-01-12 人上融融(江苏)科技有限公司 一种基于不同标签的异质集成进行逾期概率建模的方法

Similar Documents

Publication Publication Date Title
CN109034658A (zh) 一种基于大数据金融的违约用户风险预测方法
CN112785397B (zh) 一种产品推荐方法、装置及存储介质
CN106021364B (zh) 图片搜索相关性预测模型的建立、图片搜索方法和装置
CN107423442A (zh) 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备
CN112131480B (zh) 基于多层异质属性网络表征学习的个性化商品推荐方法及系统
CN110532479A (zh) 一种信息推荐方法、装置及设备
CN109977151A (zh) 一种数据分析方法及系统
CN107992531A (zh) 基于深度学习的新闻个性化智能推荐方法与系统
CN109255506A (zh) 一种基于大数据的互联网金融用户贷款逾期预测方法
CN109934721A (zh) 理财产品推荐方法、装置、设备及存储介质
CN101819572A (zh) 一种用户兴趣模型的建立方法
CN103729359A (zh) 一种推荐搜索词的方法及系统
CN108073659A (zh) 一种婚恋对象推荐方法及装置
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN106168980A (zh) 多媒体资源推荐排序方法及装置
CN108388955A (zh) 基于随机森林和逻辑回归的客户服务策略制定方法、装置
CN106951471A (zh) 一种基于svm的标签发展趋势预测模型的构建方法
CN110197404A (zh) 可降低流行度偏差的个性化长尾商品推荐方法和系统
CN105931082A (zh) 一种商品类目关键词提取方法和装置
CN114741519A (zh) 一种基于图卷积神经网络和知识库的论文相关性分析方法
CN109857952A (zh) 一种具有分类显示的搜索引擎及快速检索方法
CN114580707A (zh) 一种多特征融合产品的情感趋势预测模型、建立方法及预测方法
CN116228368A (zh) 一种基于深度多行为网络的广告点击率预测方法
CN115329215A (zh) 异构网络中基于自适应动态知识图谱的推荐方法及系统
Zhao et al. What is market talking about? Market-oriented prospect analysis for entrepreneur fundraising

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181218

RJ01 Rejection of invention patent application after publication