CN112819604A - 基于融合神经网络特征挖掘的个人信用评估方法与系统 - Google Patents

基于融合神经网络特征挖掘的个人信用评估方法与系统 Download PDF

Info

Publication number
CN112819604A
CN112819604A CN202110072423.4A CN202110072423A CN112819604A CN 112819604 A CN112819604 A CN 112819604A CN 202110072423 A CN202110072423 A CN 202110072423A CN 112819604 A CN112819604 A CN 112819604A
Authority
CN
China
Prior art keywords
data
layer
vector
behavior
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110072423.4A
Other languages
English (en)
Inventor
杨明
周雪海
黄丽丽
许睿
张钱东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Rural Credit Union
Original Assignee
Zhejiang Rural Credit Union
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Rural Credit Union filed Critical Zhejiang Rural Credit Union
Priority to CN202110072423.4A priority Critical patent/CN112819604A/zh
Publication of CN112819604A publication Critical patent/CN112819604A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Accounting & Taxation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及信用评估技术,旨在提供一种基于融合神经网络特征挖掘的个人信用评估方法与系统。该方法包括:对个人用户的行为数据进行预处理和检验操作后进行矩阵化,所得数据同时作为LSTM模型和CNN模型的输入;在LSTM模型中,依次经过嵌入层、双向长短期记忆神经网络和注意力机制层的处理,输出从数据中提取的时序行为特征向量;在卷积神经网络模型中,依次经过卷积层和池化层的处理,输出从数据中提取的局部行为特征向量;将两类特征向量进行向量拼接后作为XGBoost分类器的输入并进行训练,最终得到个人信用评估结果。与现有技术相比,本发明指标覆盖全面、加工指标来源广泛、建模方式先进、模型拓展灵活、特征提炼完整有效、结果精确的特点。

Description

基于融合神经网络特征挖掘的个人信用评估方法与系统
技术领域
本发明涉及基于大数据的信用评估技术,特别涉及基于融合神经网络特征挖掘的个人信用评估方法与系统。
背景技术
当前,伴随着金融科技的逐渐兴起以及互联网金融的成熟稳定,个人征信业务在整个金融领域的重要程度日益凸显。然而,目前国内的征信行业尚处在初级阶段,具有征信机构数量较少、规模普遍较小的问题。传统的个人信用风险评估方法已经无法适应环境的变化,不能满足金融行业的发展需要。因此,在这样的背景下,迫切需要构建一套智能的个人信用评估体系。
随着互联网金融的迅速发展,征信业务扮演着越来越重要的角色。个人信用评估一直是金融领域的热点问题,备受关注。对个人信用进行有效评估可缓解个人与银行之间信息不对称的问题,使得银行能更全面地了解个人财务和信用情况。然而国内的征信行业尚处于初级阶段,信用评估模型发展的起步晚,还存在不少缺陷。因此建立完善的个人信用评估体系是具有强烈的现实意义的,既有利于完善平台建设,又能降低信用安全风险,促进征信业务发展。因此,信用评估模型作为根据用户的行为数据计算用户的信用评分的数据模型,对互联网金融的信用评估具有重要意义,迫切需要构建一套智能的信用评估模型,进而帮助金融机构进行高质量高效决策。
在这种情况下,基于融合神经网络特征挖掘的个人信用评估方法与系统被提出。主要的想法是基于银行的客户数据,建立一套智能的信用评估模型。摒弃传统方法中采用人工特征提取的方法进行建模的方法,融合长短期记忆神经网络(LSTM)和卷积神经网络(CNN),通过从客户原始行为数据中提取客户信息的序列特征和局部特征,帮助挖掘更加全面的客户信息。通过实验验证本发明提出的信用评估模型具有可行性,并且达到性能更好的信用风险评估效果,极大提升了个人信用评估的准确率。
目前国内的信用体系暂无统一的数据来源和计算的方法,各个平台大多都是利用自身数据进行粗略评估。在信用评估方面,较为成熟的就是芝麻信用评估系统。芝麻信用评估系统拥有较为丰富的评估数据来源,其评估指标也非常多样,主要包括基本信息、消费偏好、支付和资金、人脉关系、黑名单信息等五大类。
目前关于个人以及企业信用分的研究成果颇多,采用的方法也很广泛。与本发明最相近似的实现方案如:中国发明专利申请“一种基于云平台的信用评分系统”(CN201711081909.4)、中国发明专利申请“一种用户信用分计算方法和系统”(CN201811508001.1)、中国发明专利申请“使用科技型企业数据生成企业信用分级实时评价的方法”(CN2002010581987.6),等等。以上都是特定应用场景下的信用评估的方法,但是由于信用评估是关于信用好坏的二元分类问题,而不同的分类算法有不同的使用场景,因此在不同数据集上不能展现出理想的分类效果,因此以上发明中提出的分类方法并不具有普遍性,无法适用一般情况;其次,以上发明使用的都是传统的人工特征提取的方法进行建模,依靠人工进行的基础特征抽取和特征组合会产生衍生效率低、计算成本高、特征不全面等问题。
发明内容
本发明要解决的技术问题是,克服现有技术中的不足,提供一种基于融合神经网络特征挖掘的个人信用评估方法与系统。
为解决上述技术问题,本发明采用的解决方案是:
提供一种基于融合神经网络特征挖掘的个人信用评估方法,包括以下步骤:对个人用户的行为数据进行预处理和检验操作后进行矩阵化,所得数据同时作为LSTM模型和CNN模型的输入;在LSTM模型中,依次经过嵌入层、双向长短期记忆神经网络(BiLSTM) 和注意力机制层的处理,输出从数据中提取的时序行为特征向量;在卷积神经网络模型中,依次经过卷积层和池化层的处理,输出从数据中提取的局部行为特征向量;将两类特征向量进行向量拼接后作为XGBoost分类器的输入并进行训练,最终得到个人信用评估结果。
本发明中,所述个人用户行为数据的来源包括银行内部的不同信息系统和银行外部的多个行政部门、机构及渠道;行为数据的类型包括动态数据和静态数据,前者是指反映个人用户随时间动态变化的数据,后者是指反映个人用户基本特征的数据。
本发明中,所述对个人用户的行为数据进行预处理,具体包括:对个人用户行为数据的字段类型、长度、输入输出格式进行检查;将不同来源的数据进行纵向拼接,形成完整的宽表;对拼接后的数据进行数据检查,统计字段缺失率,剔除缺失率高于限定值或无明显业务含义的字段;合并共有字段、统一字段类型并重新定义新字段属性;
所述的检验操作是指对经过预处理的数据样本的正确性进行校验,包括:提取样本数据中的身份证号码字段,与数据库中已存储信息进行校验;根据校验结果对各样本数据进行更正,剔除非身份证数据导致的无法校验样本,纠正与已存储信息不匹配样本的出生日期和性别数据;完成出生日期校验后创建年龄字段,更新系统指标库。
本发明中,所述矩阵化是指,采用矩阵化的方式对个人用户的行为数据进行编码,以时间为轴将用户行为特征根据时间点进行排列;针对数据的稀疏性,按照时间切片对用户行为数据进行重采样,将用户汇总数据按照时间先后进行排列,无记录的情况统一填充为固定值,用户不同行为的序列按照时间进行对齐;通过上述方式实现不同个人用户数据之间的统一,并以矩阵代表用户在不同时间点的所有行为特征。
本发明中,在使用LSTM模型进行数据处理时,具体包括:
(1)利用嵌入层将近似为多变量序列数据中的每个行为向量映射到维度更低的空间,并且将其输出结果作为BiLSTM网络的输入;以BiLSTM网络作为序列预测模型,捕获不同序列方向更多的用户特征信息;在得出正反层两组特征向量后进行拼接,作为 BiLSTM网络隐藏层的结果;
(2)以BiLSTM网络隐藏层的结果作为注意力机制层的输入向量,对BiLSTM网络输出的各节点进行重要度计算;利用softmax函数的归一性将每个节点的权重映射到 [0,1]之间,最后将权重向量与隐藏层的输出结果进行加和汇总,得到一维化的时序行为特征向量。
本发明中,所述注意力机制层的重要度计算过程包括:
(1)以BiLSTM网络的隐藏层结果[h1,h2,h3....ht]为注意力层的输入向量,其中,hi代表在i时刻BiLSTM的输出值,t表示整个时间点的个数;
(2)设置一个初始参数b,将hi和b进行向量拼接成为一个维度更高的向量,然后求出向量矩阵W与该更高维向量的乘积,得到一个新的向量;再利用tanh函数的数据压缩功能作用于该向量的每个元素上,使各个元素压缩到-1到1之间;
(3)矩阵W是一个参数,需要不断地从训练中进行学习更新;将所有的时间点数据全部训练之后得到重要度向量[g1,g2,g3......gt],重要度计算公式为gi=tanh(Whi+b);然后对重要度向量进行softmax变换,得出各个时刻不同特征的权重分布,权重 wi=softmax(gi);wi是一个1×m的特征向量,m代表特征的总个数;各时刻各特征的重要性通过其权重表示,各时刻权重都大于0且相加等于1;
(4)对基于计算完成后的事件序列的重要度以及权重进行加和汇总,
Figure 1
s是一个1×m的特征向量;经过注意力机制层的操作,s特征向量中包含了m个值,其大小代表相应特征在序列数据中的重要性分布;
上式中,各符号或代号的含义:s表示BiLSTM网络各个时间点输出的加权合计, wi表示第i个时间点的特征权重,hi表示BLSTM网络第i个时间点输出,gi为第i个时间点添加注意力机制后的重要度。
本发明中,在使用CNN模型进行数据处理时,具体包括:
(1)将矩阵化后的用户数据输入卷积层;卷积层由多个特征图组成,特征图中有多个神经元,每个神经元通过卷积核与上层特征图进行局部连接,并进行卷积操作,经过非线性的激励函数X(l)=f(WX(l-1)+bl)提取上一层的局部特征;
上式中各符号或代号的含义:X(l)表示l层神经元活性,X(l-1)表示l-1层神经元活性, W表示卷积核,b表示偏置项;
(2)CNN模型包括两个卷积层和两个池化层,且彼此间隔设置;在第一个卷积层,选择大小为1×k的卷积核,提取用户每一种行为在不同时间点上的特征;卷积之后采用最大池化,把语义上相似的特征进行合并,进行二次特征提取,以进一步降低神经网络的参数数量和网络复杂度;在第二个卷积层设置大小为p×p的卷积核,进一步提取每一种行为在不同时间点的特征,并且有效提取在同一时间点用户的不同行为特征,激活函数采用修正线性单元;在经过第二个池化层特征提取后,将结果进行一维化处理,最终得到局部特征挖掘后的局部行为特征向量。
本发明中,在使用XGBoost分类器进行训练时,具体包括:
(1)假设LSTM模型和CNN模型各自输出的一维的特征向量分别为s和n,通过向量拼接得到特征融合结果
Figure BDA0002904440540000041
以所得的新特征向量作为XGBoost分类器的输入;
(2)在XGBoost分类器的训练过程中,对目标函数
Figure BDA0002904440540000042
应用二阶泰勒展开,得到单棵树的目标函数改进
Figure BDA0002904440540000043
Figure BDA0002904440540000044
其中
Figure BDA0002904440540000045
以上各式中各符号或代号的含义:
Figure BDA0002904440540000046
表示矩阵拼接,yi是xi的实际值,
Figure BDA0002904440540000047
是xi的预测值:∑kΩ(fk)代表每棵树的复杂度的和,通过将K棵树的复杂度求和,作为目标函数中的正则项;t代表第t颗树,t-1代表第t颗树的上一颗树;gi和hi分别为损失函数l关于
Figure BDA0002904440540000048
的一阶偏导数和二阶偏导数。
本发明中,进一步提供了基于融合神经网络特征挖掘的个人信用评估系统,包括数据预处理模块、数据矩阵化模块、LSTM模型、CNN模型和XGBoost分类器,其中LSTM 模型包括依次连接的嵌入层、BiLSTM网络和注意力机制层,CNN模型包括卷积层和池化层;所述数据预处理模块的输出端与数据矩阵化模块的输入端相连,数据矩阵化模块的输出端分别连接LSTM模型和CNN模型的输入端,LSTM模型和CNN模型的输出端均连接至XGBoost分类器的输入端。
与现有技术相比,本发明的技术效果是:
1、指标覆盖全面。本发明选取的刻画客户风险特征的指标涵盖了六大维度,相比于传统银行信用模型以及芝麻信用模型,指标覆盖率更为全面。
2、加工指标来源广泛。本发明所用数据来源于银行内部不同信息系统,以及银行外部不同部门、机构及渠道。因此,总体数据蕴含丰富的信息。
3、建模方式先进。本发明基于银行现有数据基础以及业务特征,引入深度学习算法,通过对用户数据特征改造,在标准的LSTM模型上增加注意力分支以抽取重要的时序行为特征,同时利用CNN有效提取局部特征特点以抽取局部行为特征。将数据的局部行为特征和时序行为特征有机融合可有效挖掘用户数据的序列信息和局部特征;添加的注意力机制充分表现其可解释性的优势,清晰地展现序列数据的重要性分布;最后利用金融领域表现优异的XGBoost分类器,实现信用评估结果预测。该建模方式有效地提高信用风险评估的准确性,同时相较于传统深度学习的类似黑盒操作,具备解释性强的优势,更加契合真实信用评估场景的业务需求。
4、模型拓展灵活。本发明在建立一套完善的信用评分指标库的基础上,结合指标衍生机制,搭建了短中期内模型发展路径,为模型扩展提供了灵活的方案。
5、现有技术中的解决方案大多局限于传统银行方式,指标不够全面,数据来源不够广泛,建模形式单调,并没有很好地利用深度学习等成熟的算法去契合银行对于信用评估的要求;或者,解决方案所使用模型不能从大量且复杂的数据集中高效捕捉有用的特征信息,对于数据的浪费程度较高。本发明集成了多个软件功能模块,能够利用银行的数据业务优势,指标全面、数据来源广泛,具有特征提炼完整有效、结果精确的特点。
附图说明
图1为信用模型总体建模过程示意图。
图2为数据矩阵化样式图。
图3为基于注意力机制的长短期记忆神经网络的流程图。
图4为经过注意力机制处理的特征向量获取流程图。
图5为注意力机制层对重要度计算的示意图。
图6为卷积神经网络模型流程图。
具体实施方式
首先需要说明的是,本发明涉及大数据处理技术,是计算机技术在大数据领域的一种应用。在本发明的实现过程中,会涉及到多个软件功能模块的应用。申请人认为,如在仔细阅读申请文件、准确理解本发明的实现原理和发明目的以后,在结合现有公知技术的情况下,本领域技术人员完全可以运用其掌握的软件编程技能实现本发明。前述软件功能模块包括但不限于:数据预处理模块、数据矩阵化模块、LSTM模型、CNN模型、 XGBoost分类器,嵌入层、BiLSTM网络、注意力机制层、卷积层和池化层,等等,凡本发明申请文件提及的均属此范畴,申请人不再一一列举。
本发明提出的基于融合神经网络特征挖掘的个人信用评估方法,其执行过程可以划分为:数据预处理阶段、模型训练阶段、模型测试阶段、模型部署阶段。
区别于传统的方法中采用人工特征提取的方式进行建模,为解决现有技术中人工基础特征抽取不全面、特征组合效率低、计算成本高等问题,本发明设计了基于融合神经网络特征挖掘的个人信用评估系统,包括数据预处理模块、数据矩阵化模块、LSTM模型、CNN模型和XGBoost分类器,其中LSTM模型包括依次连接的嵌入层、BiLSTM 网络和注意力机制层,CNN模型包括卷积层和池化层;所述数据预处理模块的输出端与数据矩阵化模块的输入端相连,数据矩阵化模块的输出端分别连接LSTM模型和CNN 模型的输入端,LSTM模型和CNN模型的输出端均连接至XGBoost分类器的输入端。
下面结合附图,对本发明的具体实施方式进行详细描述。
本发明立足于金融领域,基于银行现有数据业务优势,提出基于注意力机制的LSTM和CNN网络相结合的特征处理模式。通过有LSTM和CNN产生的向量进行拼接,得到新的特征向量,使用信用评估领域效果优异的XGBoost模型进行最终预测。本发明的整体建模过程如下:将银行内部个贷数据、信用卡数据以及其他来源的数据进行纵向拼接,完成数据预处理以及检验操作;再将数据进行矩阵化,分别进行LSTM和 CNN建模,将经过Embedding、BiLSTM网络以及注意力机制层得到的特征向量与经过卷积和池化后的特征向量进行向量拼接;最后作为XGBoost分类器的输入特征,训练完成后得到最终的信用评估结果。
总体建模过程如图1所示。数据矩阵化模块负责对纵向拼接且预处理和检测完成后的原始数据进行矩阵化,是数据参与后期建模的基础操作;模型训练建立在矩阵化数据基础之上,由于矩阵化后的数据一定程度上较为稀疏,所以通过嵌入层(Embedding层) 将其映射到一个低维度空间,LSTM模块负责对数据的序列特征进行挖掘,融合注意力机制获取更多关键特征信息,提高模型可解释性;CNN模块通过卷积层以及池化层,挖掘数据矩阵中的局部特征,包括用户同一行为在不同时间点的局部特征以及在用户同一时间点在不同行为的局部特征;将两种特征挖掘模型得到的特征向量进行拼接,作为输入数据输入XGBoost分类器中,完成信用评估操作。
1、对个人用户的行为数据进行预处理和检验操作:
本发明所用数据来源于银行内部不同信息系统,以及银行外部不同部门、机构及渠道,总体数据蕴含丰富的信息。银行内部信息指银行内部信息系统存储的数据,如核心系统、信贷系统、ODS等;银行外部数据指从其他部门、机构中提取的数据;动态数据指反映客户信贷、消费、收入、投资、理财行为等随时间动态变化的数据;静态数据指反映客户基本特征的数据,如性别、最高学历、行业、婚姻状况等数据。
为消除数据错误、类型不匹配、数据缺失等问题对后期建模的影响,首先对数据(如信用卡以及个贷数据表)进行检查,检查内容包括字段类型、长度、输入输出格式等;检查完毕后进行不同数据之间的纵向拼接,形成完整宽表;对拼接后数据进行数据检查,统计字段缺失率,剔除缺失率过高或无明显业务含义的字段;合并共有字段、统一字段类型并重新定义新字段属性。
对各数据样本的正确性进行校验,例如:将样本数据中的身份证号码字段数据提取出来,与数据中存储的性别和出生日期进行校验;根据校验结果对各样本数据进行更正,剔除因非身份证数据导致无法校验样本,纠正身份证信息与储存数据不匹配样本的出生日期和性别数据;完成出生日期校验后创建年龄字段,更新系统指标库。
2、对数据进行矩阵化处理:
数据表中的数据除了用户基础身份数据外,大多是历史行为数据,包括在银行的流水记录、信用卡消费记录等。为了在建模过程中更好地挖掘出数据表中的序列信息,采用矩阵化的方式,对每个用户的个人数据进行编码;例如,以时间为轴,将用户行为特征根据时间点进行排列,以借款日期为切片的基准时间点,从而完成不同用户之间的统一;矩阵代表了每个用户在不同时间点的所有行为特征,针对数据的稀疏性,采用重采样的方式对数据汇总补齐,数据矩阵化样式图如图2所示。
3、利用LSTM模型进行处理:
编码后的矩阵包括时间维度和行为维度,即根据时间的推移,在矩阵的纵向量表示各个时间用户所有的行为数据这势必具有一定的序列性。LSTM是序列预测常用模型,其是对传统RNN模型的改进,设计了一种特殊的结构单元和特殊的“门”结构,可以对单元的信息进行选择性地增加或减少,实现对单元信息的筛选,善于挖掘数据的整体序列特征;同时,引入深度学习中的注意力机制,注意力机制可以对信息的输入和输出之间的相关性进行重要性计算,得到更加关键有效的信息。
基于注意力机制的LSTM的流程如图3所示。用户信息进行矩阵转化后,可近似为多变量序列数据,由于模型选取的特征范围广,维度高,当以时间节点为横轴建立矩阵时,必定在某个时间点上,有大量的行为数据为零,使得每一时刻的用户行为向量近似于one-hot编码;这并不利于高维度特征以及大数据场景,所以第一步将其通过嵌入层 (Embedding层),将每个行为向量映射到一个低维空间,并且以嵌入层的输出结果作为LSTM的输入,利用信息处理能力更强的BiLSTM网络作为序列预测模型,捕获不同序列方向更多的用户特征信息;用户行为数据经过BiLSTM网络后会得出正反层两组特征向量,将向量进行拼接后,作为BiLSTM网络的隐藏层结果,具体流程图如图3所示。
BiLSTM网络的隐藏层结果[h1,h2,h3....ht]为注意力层的输入向量,hi代表在i时刻 BiLSTM的输出值,t表示整个时间点的个数。整个注意力层的作用是BiLSTM网络输出的各节点进行重要度计算,再利用softmax函数的归一性将每个节点hi的权重映射到 [0,1]之间,最后将权重向量与隐藏层的输出结果进行加和汇总,即可得到一个经过注意力机制处理的时序行为特征向量。具体流程图如图4所示。
注意力机制层对于[h1,h2,h3....ht]重要度计算的示意图如图5所示。首先设置一个初始参数b,将hi和b进行向量拼接成为一个维度更高的向量,然后求出向量矩阵W与这个更高维向量的乘积,得到一个新的向量;之后将tanh作用于该向量的每个元素上,使各个元素压缩到-1到1之间;矩阵W是一个参数,需要不断地从训练中进行学习更新。将所有的时间点数据全部训练之后会得到一个重要度向量[g1,g2,g3....gt],具体的计算公式为重要度计算gi=tanh(Whi+b)。对此,下一步的计算需要重要度向量进行一个 softmax变换,得出各个时刻不同特征的权重分布,权重wi=soffmax(gi);wi是一个1×m 的特征向量,m代表特征的总个数,各时刻各特征的重要性通过其权重表示,各时刻权重都大于0且相加等于1。最后,基于计算完成后的事件序列的重要度以及权重,对其进行加和汇总
Figure BDA0002904440540000081
s是一个1×m的特征向量,经过注意力层的操作,s特征向量中包含了m个值,值的大小代表相应特征在序列数据中的重要性分布,体现了注意力机制可解释性的优势。
4、利用CNN模型进行处理:
LSTM过于关注数据的序列特征,而对数据的局部特征往往捉襟见肘,往往会错过较多局部关键信息,为此,利用在局部特征提取方面优势明显的CNN算法再次建模,通过卷积层和池化层来学习输入的局部特征以及提取重要的特征信息;用户信息矩阵化将得到时间维度和行为维度两个维度,采用2D CNN进行建模,2D CNN可以从两个不同维度提取出有意义的特征;CNN模型流程图如图6所示,用户数据矩阵化后输入卷积层,卷积层由多个特征图组成,特征图中有多个神经元,每个神经元通过卷积核与上层特征图进行局部连接,并进行卷积操作,经过非线性的激励函数X(l)=f(WX(l-1)+bl) 提取上一层的局部特征;在第一个卷积层,选择大小为1×k的卷积核,有效提取用户每一种行为在不同时间点上的特征;卷积之后采用最大池化,把语义上相似的特征进行合并,进行二次特征提取,可进一步降低神经网络的参数数量和网络复杂度;在第二个卷积层设置大小为p×p的卷积核,进一步提取每一种行为在不同时间点的特征,并且有效提取在同一时间点用户的不同行为特征,激活函数采用修正线性单元(RELU);在经过第二个池化层特征提取后,将结果进行一维化处理;最终,用户行为数据经过矩阵化后,通过2D CNN模型得到局部特征挖掘后的局部行为特征向量。
5、拼接两类特征向量并由XGBoost分类器进行处理:
通过基于注意力机制的LSTM和CNN分别对用户数据的序列特征以及局部特征进行挖掘,两种模型最终将分别得到一组一维的特征向量,假设分别为s和n,通过向量拼接得到特征融合结果
Figure BDA0002904440540000091
特征融合后,新的特征向量替代了原始的数据特征,该特征经过筛选过滤,包含着原始数据中大部分有效信息以及较少的干扰信息,适合最终的模型分类模型;将新的特征向量作为输入,使用金融领域表现优异的XGBoost模型进行最终的预测操作,XGBoost对目标函数
Figure BDA0002904440540000092
应用二阶泰勒展开,得到单棵树的目标函数改进
Figure BDA0002904440540000093
其中
Figure BDA0002904440540000094
由上述描述可以看出,本发明提出的基于注意力机制的LSTM结合CNN的信用评估方法,很好地利用了银行数据的时序性特点,能够融合局部行为特征实现准确的信贷评估,使模型具有时间、空间的特征表达能力。并且,本发明通过引入注意力机制提取重要的时序行为特征,增加模型可解释性;通过注意力机制权重判断各用户特征对于信贷风险影响的重要性,获得序列特征的重要程度差异性;从而,很好的契合了信用评估场景的需求。

Claims (9)

1.一种基于融合神经网络特征挖掘的个人信用评估方法,其特征在于,包括以下步骤:对个人用户的行为数据进行预处理和检验操作后进行矩阵化,所得数据同时作为长短期记忆神经网络模型和卷积神经网络模型的输入;在LSTM模型中,依次经过嵌入层、双向长短期记忆神经网络和注意力机制层的处理,输出从数据中提取的时序行为特征向量;在CNN模型中,依次经过卷积层和池化层的处理,输出从数据中提取的局部行为特征向量;将两类特征向量进行向量拼接后作为XGBoost分类器的输入并进行训练,最终得到个人信用评估结果。
2.根据权利要求1所述的方法,其特征在于,所述个人用户行为数据的来源包括银行内部的不同信息系统和银行外部的多个行政部门、机构及渠道;行为数据的类型包括动态数据和静态数据,前者是指反映个人用户随时间动态变化的数据,后者是指反映个人用户基本特征的数据。
3.根据权利要求1所述的方法,其特征在于,所述对个人用户的行为数据进行预处理,具体包括:对个人用户行为数据的字段类型、长度、输入输出格式进行检查;将不同来源的数据进行纵向拼接,形成完整的宽表;对拼接后的数据进行数据检查,统计字段缺失率,剔除缺失率高于限定值或无明显业务含义的字段;合并共有字段、统一字段类型并重新定义新字段属性;
所述的检验操作是指对经过预处理的数据样本的正确性进行校验,包括:提取样本数据中的身份证号码字段,与数据库中已存储信息进行校验;根据校验结果对各样本数据进行更正,剔除非身份证数据导致的无法校验样本,纠正与已存储信息不匹配样本的出生日期和性别数据;完成出生日期校验后创建年龄字段,更新系统指标库。
4.根据权利要求1所述的方法,其特征在于,所述矩阵化是指,采用矩阵化的方式对个人用户的行为数据进行编码,以时间为轴将用户行为特征根据时间点进行排列;针对数据的稀疏性,按照时间切片对用户行为数据进行重采样,将用户汇总数据按照时间先后进行排列,无记录的情况统一填充为固定值,用户不同行为的序列按照时间进行对齐;通过上述方式实现不同个人用户数据之间的统一,并以矩阵代表用户在不同时间点的所有行为特征。
5.根据权利要求1所述的方法,其特征在于,在使用长短期记忆神经网络模型进行数据处理时,具体包括:
(1)利用嵌入层将近似为多变量序列数据中的每个行为向量映射到维度更低的空间,并且将其输出结果作为BiLSTM网络的输入;以BiLSTM网络作为序列预测模型,捕获不同序列方向更多的用户特征信息;在得出正反层两组特征向量后进行拼接,作为BiLSTM网络隐藏层的结果;
(2)以BiLSTM网络隐藏层的结果作为注意力机制层的输入向量,对BiLSTM网络输出的各节点进行重要度计算;利用softmax函数的归一性将每个节点的权重映射到[0,1]之间,最后将权重向量与隐藏层的输出结果进行加和汇总,得到一维化的时序行为特征向量。
6.根据权利要求5所述的方法,其特征在于,所述注意力机制层的重要度计算过程包括:
(1)以BiLSTM网络的隐藏层结果[h1,h2,h3....ht]为注意力层的输入向量,其中,hi代表在i时刻BiLSTM网络的输出值,t表示整个时间点的个数;
(2)设置一个初始参数b,将hi和b进行向量拼接成为一个维度更高的向量,然后求出向量矩阵W与该更高维向量的乘积,得到一个新的向量;再利用tanh函数的数据压缩功能作用于该向量的每个元素上,使各个元素压缩到-1到1之间;
(3)矩阵W是一个参数,需要不断地从训练中进行学习更新;将所有的时间点数据全部训练之后得到重要度向量[g1,g2,g3....gt],重要度计算公式为gi=tanh(Whi+b);然后对重要度向量进行softmax变换,得出各个时刻不同特征的权重分布,权重wi=softmax(gi);wi是一个1×m的特征向量,m代表特征的总个数;各时刻各特征的重要性通过其权重表示,各时刻权重都大于0且相加等于1;
(4)对基于计算完成后的事件序列的重要度以及权重进行加和汇总,
Figure FDA0002904440530000021
s是一个1×m的特征向量;经过注意力机制层的操作,s特征向量中包含了m个值,其大小代表相应特征在序列数据中的重要性分布;
上式中各符号或代号的含义:s表示BiLSTM网络各个时间点输出的加权合计,wi表示第i个时间点的特征权重,hi表示BLSTM网络第i个时间点输出,gi为第i个时间点添加注意力机制后的重要度。
7.根据权利要求1所述的方法,其特征在于,在使用CNN模型进行数据处理时,具体包括:
(1)将矩阵化后的用户数据输入卷积层;卷积层由多个特征图组成,特征图中有多个神经元,每个神经元通过卷积核与上层特征图进行局部连接,并进行卷积操作,经过非线性的激励函数X(l)=f(WX(l-1)+bl)提取上一层的局部特征;
上式中各符号或代号的含义:X(l)表示l层神经元活性,X(l-1)表示l-1层神经元活性,W表示卷积核,b表示偏置项;
(2)CNN模型包括两个卷积层和两个池化层,且彼此间隔设置;在第一个卷积层,选择大小为1×k的卷积核,提取用户每一种行为在不同时间点上的特征;卷积之后采用最大池化,把语义上相似的特征进行合并,进行二次特征提取,以进一步降低神经网络的参数数量和网络复杂度;在第二个卷积层设置大小为p×p的卷积核,进一步提取每一种行为在不同时间点的特征,并且有效提取在同一时间点用户的不同行为特征,激活函数采用修正线性单元;在经过第二个池化层特征提取后,将结果进行一维化处理,最终得到局部特征挖掘后的局部行为特征向量。
8.根据权利要求1所述的方法,其特征在于,在使用XGBoost分类器进行训练时,具体包括:
(1)假设LSTM模型和CNN模型各自输出的一维的特征向量分别为s和n,通过向量拼接得到特征融合结果
Figure FDA0002904440530000039
以所得的新特征向量作为XGBoost分类器的输入;
(2)在XGBoost分类器的训练过程中,对目标函数
Figure FDA0002904440530000031
业用二阶泰勒展开,得到单棵树的目标函数改进
Figure FDA0002904440530000032
Figure FDA0002904440530000033
其中
Figure FDA0002904440530000034
),
Figure FDA0002904440530000035
以上各式中各符号或代号的含义:
Figure FDA0002904440530000036
表示矩阵拼接,yi是xi的实际值,
Figure FDA0002904440530000037
是xi的预测值;∑kΩ(fk)代表每棵树的复杂度的和,通过将K棵树的复杂度求和,作为目标函数中的正则项;t代表第t颗树,t-1代表第t颗树的上一颗树;gi和hi分别为损失函数l关于
Figure FDA0002904440530000038
的一阶偏导数和二阶偏导数。
9.一种基于融合神经网络特征挖掘的个人信用评估系统,其特征在于,包括数据预处理模块、数据矩阵化模块、LSTM模型、CNN模型和XGBoost分类器,其中LSTM模型包括依次连接的嵌入层、BiLSTM网络和注意力机制层,CNN模型包括卷积层和池化层;所述数据预处理模块的输出端与数据矩阵化模块的输入端相连,数据矩阵化模块的输出端分别连接LSTM模型和CNN模型的输入端,LSTM模型和CNN模型的输出端均连接至XGBoost分类器的输入端。
CN202110072423.4A 2021-01-19 2021-01-19 基于融合神经网络特征挖掘的个人信用评估方法与系统 Pending CN112819604A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110072423.4A CN112819604A (zh) 2021-01-19 2021-01-19 基于融合神经网络特征挖掘的个人信用评估方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110072423.4A CN112819604A (zh) 2021-01-19 2021-01-19 基于融合神经网络特征挖掘的个人信用评估方法与系统

Publications (1)

Publication Number Publication Date
CN112819604A true CN112819604A (zh) 2021-05-18

Family

ID=75870116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110072423.4A Pending CN112819604A (zh) 2021-01-19 2021-01-19 基于融合神经网络特征挖掘的个人信用评估方法与系统

Country Status (1)

Country Link
CN (1) CN112819604A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113362159A (zh) * 2021-06-07 2021-09-07 中国工商银行股份有限公司 一种用户信用度的确定方法、装置和设备
CN113409157A (zh) * 2021-05-19 2021-09-17 桂林电子科技大学 一种跨社交网络用户对齐方法以及装置
CN113535800A (zh) * 2021-06-03 2021-10-22 同盾科技有限公司 信贷场景下的特征表示方法、电子设备和存储介质
CN113537560A (zh) * 2021-06-07 2021-10-22 同盾科技有限公司 用户投保意愿预测的方法、系统、电子装置和存储介质
CN113537297A (zh) * 2021-06-22 2021-10-22 同盾科技有限公司 一种行为数据预测方法及装置
CN113793060A (zh) * 2021-09-27 2021-12-14 武汉众邦银行股份有限公司 一种基于客户交易数据的客户评级方法、装置及存储介质
CN114722950A (zh) * 2022-04-14 2022-07-08 武汉大学 一种多模态的多变量时间序列自动分类方法及装置
CN115204901A (zh) * 2022-09-09 2022-10-18 中国人民解放军国防科技大学 基于多特征融合的信用卡欺诈检测方法、装置及介质
CN115563113A (zh) * 2022-09-29 2023-01-03 黄恋雅 基于人工智能的数据库索引建立方法及系统
CN115562029A (zh) * 2022-10-17 2023-01-03 杭州天然气有限公司 一种天然气透平膨胀发电机组的智能控制方法及其系统
CN116503872A (zh) * 2023-06-26 2023-07-28 四川集鲜数智供应链科技有限公司 一种基于机器学习的授信客户挖掘方法
CN117892224A (zh) * 2024-03-14 2024-04-16 电子科技大学 一种具备唤醒机制的混合特征神经网络信号处理硬件电路
CN117892224B (zh) * 2024-03-14 2024-05-31 电子科技大学 一种具备唤醒机制的混合特征神经网络信号处理硬件电路

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280757A (zh) * 2017-02-13 2018-07-13 腾讯科技(深圳)有限公司 用户信用评估方法及装置
CN109284506A (zh) * 2018-11-29 2019-01-29 重庆邮电大学 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN109636181A (zh) * 2018-12-11 2019-04-16 北京首汽智行科技有限公司 一种用户信用分计算方法及系统
CN110472817A (zh) * 2019-07-03 2019-11-19 西北大学 一种结合深度神经网络的XGBoost集成信用评价系统及其方法
CN111652701A (zh) * 2020-05-29 2020-09-11 蚌埠学院 一种基于融合神经网络的个人信用评估方法及系统
CN112069831A (zh) * 2020-08-21 2020-12-11 三峡大学 基于bert模型和增强混合神经网络的不实信息检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280757A (zh) * 2017-02-13 2018-07-13 腾讯科技(深圳)有限公司 用户信用评估方法及装置
CN109284506A (zh) * 2018-11-29 2019-01-29 重庆邮电大学 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN109636181A (zh) * 2018-12-11 2019-04-16 北京首汽智行科技有限公司 一种用户信用分计算方法及系统
CN110472817A (zh) * 2019-07-03 2019-11-19 西北大学 一种结合深度神经网络的XGBoost集成信用评价系统及其方法
CN111652701A (zh) * 2020-05-29 2020-09-11 蚌埠学院 一种基于融合神经网络的个人信用评估方法及系统
CN112069831A (zh) * 2020-08-21 2020-12-11 三峡大学 基于bert模型和增强混合神经网络的不实信息检测方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409157A (zh) * 2021-05-19 2021-09-17 桂林电子科技大学 一种跨社交网络用户对齐方法以及装置
CN113409157B (zh) * 2021-05-19 2022-06-28 桂林电子科技大学 一种跨社交网络用户对齐方法以及装置
CN113535800A (zh) * 2021-06-03 2021-10-22 同盾科技有限公司 信贷场景下的特征表示方法、电子设备和存储介质
CN113537560A (zh) * 2021-06-07 2021-10-22 同盾科技有限公司 用户投保意愿预测的方法、系统、电子装置和存储介质
CN113362159A (zh) * 2021-06-07 2021-09-07 中国工商银行股份有限公司 一种用户信用度的确定方法、装置和设备
CN113537297A (zh) * 2021-06-22 2021-10-22 同盾科技有限公司 一种行为数据预测方法及装置
CN113793060A (zh) * 2021-09-27 2021-12-14 武汉众邦银行股份有限公司 一种基于客户交易数据的客户评级方法、装置及存储介质
CN114722950B (zh) * 2022-04-14 2023-11-07 武汉大学 一种多模态的多变量时间序列自动分类方法及装置
CN114722950A (zh) * 2022-04-14 2022-07-08 武汉大学 一种多模态的多变量时间序列自动分类方法及装置
CN115204901A (zh) * 2022-09-09 2022-10-18 中国人民解放军国防科技大学 基于多特征融合的信用卡欺诈检测方法、装置及介质
CN115204901B (zh) * 2022-09-09 2022-12-06 中国人民解放军国防科技大学 基于多特征融合的信用卡欺诈检测方法、装置及介质
CN115563113A (zh) * 2022-09-29 2023-01-03 黄恋雅 基于人工智能的数据库索引建立方法及系统
CN115563113B (zh) * 2022-09-29 2023-08-22 北京信智特科技有限公司 基于人工智能的数据库索引建立方法及系统
CN115562029A (zh) * 2022-10-17 2023-01-03 杭州天然气有限公司 一种天然气透平膨胀发电机组的智能控制方法及其系统
CN115562029B (zh) * 2022-10-17 2023-06-16 杭州天然气有限公司 一种天然气透平膨胀发电机组的智能控制方法及其系统
CN116503872A (zh) * 2023-06-26 2023-07-28 四川集鲜数智供应链科技有限公司 一种基于机器学习的授信客户挖掘方法
CN116503872B (zh) * 2023-06-26 2023-09-05 四川集鲜数智供应链科技有限公司 一种基于机器学习的授信客户挖掘方法
CN117892224A (zh) * 2024-03-14 2024-04-16 电子科技大学 一种具备唤醒机制的混合特征神经网络信号处理硬件电路
CN117892224B (zh) * 2024-03-14 2024-05-31 电子科技大学 一种具备唤醒机制的混合特征神经网络信号处理硬件电路

Similar Documents

Publication Publication Date Title
CN112819604A (zh) 基于融合神经网络特征挖掘的个人信用评估方法与系统
CN110956273A (zh) 融合多种机器学习模型的征信评分方法及系统
CN112800053B (zh) 数据模型的生成方法、调用方法、装置、设备及存储介质
CN111127146A (zh) 基于卷积神经网络与降噪自编码器的信息推荐方法及系统
Voican Credit Card Fraud Detection using Deep Learning Techniques.
CN113011895A (zh) 关联账户样本筛选方法、装置和设备及计算机存储介质
Wu et al. Optimized deep learning framework for water distribution data-driven modeling
Li et al. Stock trading strategies based on deep reinforcement learning
Jiang et al. An intelligent recommendation approach for online advertising based on hybrid deep neural network and parallel computing
Zhu et al. Loan default prediction based on convolutional neural network and LightGBM
CN116503158A (zh) 基于数据驱动的企业破产风险预警方法、系统及装置
CN113821571B (zh) 基于bert和改进pcnn的食品安全关系抽取方法
CN114969511A (zh) 基于分片的内容推荐方法、设备及介质
CN114266653A (zh) 集成学习的客户贷款风险预估方法
CN113781056A (zh) 预测用户欺诈行为的方法及装置
CN112837161A (zh) 基于多任务学习和多指数协同注意力机制的股市预测方法
Song et al. Dynamic adjustment of stock position based on hybrid deep neural network
Wang et al. Risk assessment of customer churn in telco using FCLCNN-LSTM model
CN111143533A (zh) 一种基于用户行为数据的客服方法及系统
Zhang et al. A Multi-view Mask Contrastive Learning Graph Convolutional Neural Network for Age Estimation
CN117455518B (zh) 一种欺诈交易检测方法和装置
CN116258579B (zh) 用户信用评分模型的训练方法及用户信用评分方法
Liu et al. Attention-based BiLSTM model for stock price prediction
CN117196842A (zh) 基于因果关系图神经网络的股票特征分析系统及方法
CHAPARRO PORTILLO A DEEP LEARNING STATE-BASED MARKET MICROSTRUCTURE APPROACH FOR THE PRICE MOVEMENT PREDICTION TASK

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination