CN114529053A - 用于逾期金额预测的神经网络模型构建方法及预测系统 - Google Patents
用于逾期金额预测的神经网络模型构建方法及预测系统 Download PDFInfo
- Publication number
- CN114529053A CN114529053A CN202210062007.0A CN202210062007A CN114529053A CN 114529053 A CN114529053 A CN 114529053A CN 202210062007 A CN202210062007 A CN 202210062007A CN 114529053 A CN114529053 A CN 114529053A
- Authority
- CN
- China
- Prior art keywords
- client
- characteristic
- customer
- information
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Technology Law (AREA)
- Bioinformatics & Computational Biology (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了用于逾期金额预测的神经网络模型构建方法及预测系统,所述方法包括获取贷款客户名单,筛选出同一表现期内发生逾期的客户名单A和未发生逾期的客户名单B,所述客户名单A中的客户数量和客户名单B中的客户数量相同;依据客户名单A和客户名单B采集贷款客户样本数据,得到样本数据集;对样本数据集进行特征工程处理,获得特征数据集中每个特征数据D(x,y)的客户特征画像x;其中x为对应贷款客户的客户特征画像,所述客户特征画像x为客户的静态特征画像和动态特征画像直接的关联特征;y为贷款客户产生逾期金额;步骤4、利用特征数据集对预设的BiLSTM神经网络模型进行训练,训练完成后得到逾期金额预测模型。本发明使最终被构建的模型能够达到理想的效果。
Description
技术领域
本发明属于互联网金融技术领域,尤其涉及一种用于逾期金额预测的神经网络模型构建方法及预测系统。
背景技术
目前现有的金融系统中有很多贷款风险预测模型,目前现有的风险预测模型主要是判断客户是否会发生逾期,缺乏准确预测逾期金额的模型,另外,目前现有风险预测模型在构建时,是直接的将客户特征提取出来进行使用,没有进一步的进行特征演化,这样特征量如果过大,会导致训练模型变得难以控制,容易将一些特征丢失或被过滤,这导致使用太多的特征作为输入,最终不能获得理想的效果。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种用于逾期金额预测的神经网络模型构建方法及预测系统,在构建模型时,能够根据大量的客户特征进一步的演化,降低最终用于训练模型时的特征量,提升了特征的质量,使最终被构建的模型能够达到理想的效果。
本发明第一方面公开了一种用于逾期金额预测的神经网络模型构建方法,包括以下步骤:
步骤1、获取贷款客户名单,筛选出同一表现期内发生逾期的客户名单A和未发生逾期的客户名单B,所述客户名单A中的客户数量和客户名单B中的客户数量相同;
步骤2、依据客户名单A和客户名单B采集贷款客户样本数据,得到样本数据集;
步骤3、对样本数据集进行特征工程处理,获得特征数据集中每个特征数据D(x,y)的客户特征画像x;所述客户特征画像x为客户的静态特征画像和动态特征画像直接的关联特征;所述静态特征画像用于对客户的定性特征进行刻画,所述动态特征画像用于对客户的变性特征进行刻画;y为贷款客户产生逾期金额;
步骤4、利用特征数据集对预设的BiLSTM神经网络模型进行训练,训练完成后得到逾期金额预测模型。
上述用于逾期金额预测的神经网络模型构建方法,所述基本特征画像包括客户工作信息、客户资产信息、客户信用信息、客户收入信息和客户贷款信息;所述交易特征画像包括客户交易流水信息。
上述用于逾期金额预测的神经网络模型构建方法,所述步骤3中进行特征工程处理包括以下步骤:
步骤3-1、对客户工作信息和客户资产信息进行简易热编码处理,整合客户工作信息、客户资产信息、客户信用信息、客户收入信息和客户贷款信息,生成客户画像信息值,以时间为横轴,客户画像信息值为纵轴建立特征矩阵,对特征矩阵进行降维处理,生成基本特征集;
步骤3-2、对客户交易流水信息以时间为横轴,交易额为纵轴建立特征矩阵,对特征矩阵进行降维处理,生成交易特征集;
步骤3-3、用基本特征集作为输入集,交易特征集作为真实值集训练LSTM神经网络模型;
步骤3-4、将训练好的LSTM神经网络模型的每个节点hi的权重softmax函数映射到[0,1]之间;再将每个节点hi映射后的权重与LSTM神经网络模型隐藏层的输出结果进行加和汇总,获得客户特征画像x。
本发明第二方面公开了一种基于上述用于逾期金额预测的神经网络模型构建方法构建的逾期金额预测模型的逾期金额预测系统,包括用户端和服务端;
所述用户端,用于获取授权,采集目标客户样本数据;
所述服务端,用于对客户样本数据执行步骤3所述的特征工程处理,获取客户特征画像x;还用于将获取到的客户特征画像x输入预置的逾期金额预测模型,将预测得到的预测逾期金额返回用户端。
本发明与现有技术相比具有以下优点:本发明通过特征工程处理获得的客户特征画像x,反映了客户的静态特征画像和动态特征画像直接的关联特征,不用再使用庞杂的静态特征画像和动态特征画像直接去训练复杂的机器学习模型,而是通过利用简单LSTM神经网络模型获得静态特征画像和动态特征画像的关联特征,具体通过通过注意力机制权重进行关联特征反映;再使用客户特征画像x去训练复杂的BiLSTM神经网络模型,可以降低训练难度,并且保证了训练出的模型准确率和效率高,满足风控需求。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明神经网络模型构建方法流程图。
具体实施方式
实施例1
如图1所示,一种用于逾期金额预测的神经网络模型构建方法,包括以下步骤:
步骤1、获取贷款客户名单,筛选出同一表现期内发生逾期的客户名单A和未发生逾期的客户名单B,所述客户名单A中的客户数量和客户名单B中的客户数量相同;
需要说明的是,筛选客户名单时,取一个时间点为观察点,将观察点之前的一段时期设定为观察期,将观察点之后的一段时期设定为表现期;在表现期内贷后还款数据中历史逾期天数大于预定天数的客户定为发生逾期的客户名单;
步骤2、依据客户名单A和客户名单B采集贷款客户样本数据,得到样本数据集;
具体的,在筛选客户并采集样本时,考虑原始样本数据集中少数类和潜在噪声的基本分布,采用MSMOTE技术抽样;
步骤3、对样本数据集进行特征工程处理,获得特征数据集中每个特征数据D(x,y)的客户特征画像x;所述客户特征画像x为客户的静态特征画像和动态特征画像直接的关联特征;所述静态特征画像用于对客户的定性特征进行刻画,所述动态特征画像用于对客户的变性特征进行刻画;y为贷款客户产生逾期金额;
步骤4、利用特征数据集对预设的BiLSTM神经网络模型进行训练,训练完成后得到逾期金额预测模型。
需要说明的是,设计BiLSTM神经网络结构,隐藏层在传递到下个迭代之前,经过一个控制结构,根据时间间隔和数据波动水平,自适应调整隐藏层ht-1保留的信息到设置循环神经网络的循环次数epoch=200,GRU部分输入长度为m=30,隐藏层单元数目为128,输出层使用一个网络单元数为64的linear层,linear层上的dropout设置为0.2,设定网络允许误差θ;
得到用于建模的数据时,将第一中间数据输入至预设的BiLSTM神经网络模型中,将这些数据特征化,然后在神经网络中进行处理,以对该BiLSTM神经网络进行训练,输出层输出最终的欺诈概率;在训练完成该BiLSTM神经网络之后,得到训练完成该BiLSTM神经网络后对应的逾期金额预测模型。
其中,在训练BiLSTM神经网络时,若检测到该BiLSTM神经网络满足训练停止条件,则停止训练该BiLSTM神经网络,该BiLSTM神经网络训练完成,从而得到构建完成的逾期金额预测模型。
若所述训练次数大于最大训练次数或者所述网络误差小于预设阈值,则所述BiLSTM神经网络满足训练停止条件,得到训练完成所述BiLSTM神经网络后对应的金融反欺诈模型。
利用BiLSTM神经网络对特征数据集D进行建模不仅可以充分捕捉特征数据集D中包含的关键信息,而且某些操作在业务经验上可以有对应解释。
本实施例中,所述基本特征画像包括客户工作信息、客户资产信息、客户信用信息、客户收入信息和客户贷款信息;所述交易特征画像包括客户交易流水信息。
本领域技术人员应当理解,此处所述基本特征画像还可以包括如有无贷款、旧款期限、借款金额、月还款额与月收入占比和担保方式等信息。
本实施例中,所述步骤3中进行特征工程处理包括以下步骤:
步骤3-1、对客户工作信息和客户资产信息进行简易热编码处理,整合客户工作信息、客户资产信息、客户信用信息、客户收入信息和客户贷款信息,生成客户画像信息值,以时间为横轴,客户画像信息值为纵轴建立特征矩阵,对特征矩阵进行降维处理,生成基本特征集;
步骤3-2、对客户交易流水信息以时间为横轴,交易额为纵轴建立特征矩阵,对特征矩阵进行降维处理,生成交易特征集;
需要说明的是,步骤3-1和步骤3-2中的时间为横轴选取的时间段相同;根据时间的推移,在矩阵的纵向量表示各个时间用户所有的特征数据这势必具有一定的序列性。进行矩阵转化后,可近似为多变量序列数据,由于模型选取的特征范围广,维度高,当以时间节点为横轴建立矩阵时,必定在某个时间点上,有大量的行为数据为零,使得每一时刻的用户特征向量近似于one-hot编码;这并不利于高维度特征以及大数据场景,所以将其通过嵌入层(Embedding层),将每个特征向量映射到一个低维空间。
步骤3-3、用基本特征集作为输入集,交易特征集作为真实值集训练LSTM神经网络模型;
LSTM是序列预测常用模型,善于挖掘数据的整体序列特征;同时,引入深度学习中的注意力机制,注意力机制可以对信息的输入和输出之间的相关性进行重要性计算,得到更加关键有效的信息。
步骤3-4、将训练好的LSTM神经网络模型的每个节点hi的权重softmax函数映射到[0,1]之间;再将每个节点hi映射后的权重与LSTM神经网络模型隐藏层的输出结果进行加和汇总,获得客户特征画像x。
实施例2
一种基于实施例1中所述用于逾期金额预测的神经网络模型构建方法构建的逾期金额预测模型的逾期金额预测系统,包括用户端和服务端;
所述用户端,用于获取授权,采集目标客户样本数据;具体的,采集目标客户样本数据是从银行系统中直接采集;
所述服务端,用于对客户样本数据执行步骤3所述的特征工程处理,获取客户特征画像x;还用于将获取到的客户特征画像x输入预置的逾期金额预测模型,将预测得到的预测逾期金额返回用户端。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化,均仍属于本发明技术方案的保护范围内。
Claims (4)
1.一种用于逾期金额预测的神经网络模型构建方法,其特征在于,包括以下步骤:
步骤1、获取贷款客户名单,筛选出同一表现期内发生逾期的客户名单A和未发生逾期的客户名单B,所述客户名单A中的客户数量和客户名单B中的客户数量相同;
步骤2、依据客户名单A和客户名单B采集贷款客户样本数据,得到样本数据集;
步骤3、对样本数据集进行特征工程处理,获得特征数据集中每个特征数据D(x,y)的客户特征画像x;所述客户特征画像x为客户的静态特征画像和动态特征画像直接的关联特征;所述静态特征画像用于对客户的定性特征进行刻画,所述动态特征画像用于对客户的变性特征进行刻画;y为贷款客户产生逾期金额;
步骤4、利用特征数据集对预设的BiLSTM神经网络模型进行训练,训练完成后得到逾期金额预测模型。
2.按照权利要求1所述的一种用于逾期金额预测的神经网络模型构建方法,其特征在于,所述基本特征画像包括客户工作信息、客户资产信息、客户信用信息、客户收入信息和客户贷款信息;所述交易特征画像包括客户交易流水信息。
3.按照权利要求2所述的一种用于逾期金额预测的神经网络模型构建方法,其特征在于,所述步骤3中进行特征工程处理包括以下步骤:
步骤3-1、对客户工作信息和客户资产信息进行简易热编码处理,整合客户工作信息、客户资产信息、客户信用信息、客户收入信息和客户贷款信息,生成客户画像信息值,以时间为横轴,客户画像信息值为纵轴建立特征矩阵,对特征矩阵进行降维处理,生成基本特征集;
步骤3-2、对客户交易流水信息以时间为横轴,交易额为纵轴建立特征矩阵,对特征矩阵进行降维处理,生成交易特征集;
步骤3-3、用基本特征集作为输入集,交易特征集作为真实值集训练LSTM神经网络模型;
步骤3-4、将训练好的LSTM神经网络模型的每个节点hi的权重softmax函数映射到[0,1]之间;再将每个节点hi映射后的权重与LSTM神经网络模型隐藏层的输出结果进行加和汇总,获得客户特征画像x。
4.一种基于如权利要求3所述用于逾期金额预测的神经网络模型构建方法构建的逾期金额预测模型的逾期金额预测系统,其特征在于,包括用户端和服务端;
所述用户端,用于获取授权,采集目标客户样本数据;
所述服务端,用于对客户样本数据执行步骤3所述的特征工程处理,获取客户特征画像x;还用于将获取到的客户特征画像x输入预置的逾期金额预测模型,将预测得到的预测逾期金额返回用户端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210062007.0A CN114529053A (zh) | 2022-01-19 | 2022-01-19 | 用于逾期金额预测的神经网络模型构建方法及预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210062007.0A CN114529053A (zh) | 2022-01-19 | 2022-01-19 | 用于逾期金额预测的神经网络模型构建方法及预测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114529053A true CN114529053A (zh) | 2022-05-24 |
Family
ID=81620583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210062007.0A Withdrawn CN114529053A (zh) | 2022-01-19 | 2022-01-19 | 用于逾期金额预测的神经网络模型构建方法及预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114529053A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116629456A (zh) * | 2023-07-20 | 2023-08-22 | 杭银消费金融股份有限公司 | 业务逾期风险预测方法、系统与存储介质 |
-
2022
- 2022-01-19 CN CN202210062007.0A patent/CN114529053A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116629456A (zh) * | 2023-07-20 | 2023-08-22 | 杭银消费金融股份有限公司 | 业务逾期风险预测方法、系统与存储介质 |
CN116629456B (zh) * | 2023-07-20 | 2023-10-13 | 杭银消费金融股份有限公司 | 业务逾期风险预测方法、系统与存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255506B (zh) | 一种基于大数据的互联网金融用户贷款逾期预测方法 | |
CN111652710B (zh) | 一种基于集成树特征提取和Logistic回归的个人信用风险评估方法 | |
CN112561598B (zh) | 基于客户画像的客户流失预测及挽回方法和系统 | |
KR102009309B1 (ko) | 금융상품 관리자동화 시스템 및 관리자동화 방법 | |
CN113362160A (zh) | 一种用于信用卡反欺诈的联邦学习方法和装置 | |
CN112581265A (zh) | 一种基于AdaBoost的互联网金融客户申请欺诈检测方法 | |
CN114048436A (zh) | 一种预测企业财务数据模型构建方法及构建装置 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN108734567A (zh) | 一种基于大数据人工智能风控的资产管理系统及其评估方法 | |
US20090327036A1 (en) | Decision support systems using multi-scale customer and transaction clustering and visualization | |
CN109829721A (zh) | 基于异质网络表征学习的线上交易多主体行为建模方法 | |
CN112950347A (zh) | 资源数据处理的优化方法及装置、存储介质、终端 | |
CN116777591A (zh) | 还款能力预测模型的训练方法、还款能力预测方法及装置 | |
CN114529053A (zh) | 用于逾期金额预测的神经网络模型构建方法及预测系统 | |
CN115018190A (zh) | 逾期行为预测方法及装置、存储介质及电子设备 | |
CN117557361B (zh) | 基于数据分析的用户信用风险评估方法及系统 | |
Zhu et al. | Loan default prediction based on convolutional neural network and LightGBM | |
CN111951099B (zh) | 一种信用卡发卡模型及其运用方法 | |
CN112766814A (zh) | 一种信用风险压力测试模型的训练方法、装置及设备 | |
CN111275447A (zh) | 基于自动化特征工程的在线网络支付欺诈检测系统 | |
CN117252677A (zh) | 信贷额度确定方法和装置、电子设备及存储介质 | |
Staum | Monte Carlo computation in finance | |
CN111179070A (zh) | 一种基于lstm的借贷风险时效性预测系统及方法 | |
CN117522562A (zh) | 一种基于核密度估计的信贷规模预测模型 | |
CN117971511B (zh) | 一种协作式可视化仿真平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220524 |