CN113449819A - 一种基于胶囊网络的信用评估模型方法及其存储介质 - Google Patents

一种基于胶囊网络的信用评估模型方法及其存储介质 Download PDF

Info

Publication number
CN113449819A
CN113449819A CN202110993455.8A CN202110993455A CN113449819A CN 113449819 A CN113449819 A CN 113449819A CN 202110993455 A CN202110993455 A CN 202110993455A CN 113449819 A CN113449819 A CN 113449819A
Authority
CN
China
Prior art keywords
capsule
user
layer
credit
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110993455.8A
Other languages
English (en)
Inventor
刘晓东
张福浩
孙浩
石丽红
陶坤旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Academy of Surveying and Mapping
Original Assignee
Chinese Academy of Surveying and Mapping
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Academy of Surveying and Mapping filed Critical Chinese Academy of Surveying and Mapping
Priority to CN202110993455.8A priority Critical patent/CN113449819A/zh
Publication of CN113449819A publication Critical patent/CN113449819A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种基于胶囊网络的信用评估模型方法及其存储介质,该方法包括处理用户数据,将用户数据各指标进行成像,构建胶囊网络体系结构,训练胶囊网络对用户信用特征成像图分类,利用训练后的胶囊网络计算用户违约概率值。本发明将用户信息利用图像的形式进行呈现,将所对应的特征转换形成相应的灰度图,利用构建的胶囊网络能够更好地提取图片特征从而优化模型评估,提高模型可靠性和准确性;把注意力机制层引入胶囊网络,构建后的胶囊网络能够更深层次的提取成像图的全局和局部特征,提高模型可靠性和准确性,还可以提取更多有效的特征信息从而实现更高的准确率。

Description

一种基于胶囊网络的信用评估模型方法及其存储介质
技术领域
本发明涉及信用评估技术领域,具体的,涉及一种风险用户的信用评估模型方法及存储介质。
背景技术
随着人类社会的不断进步,征信业信用评估发展的重要性越来越被人们所认识。依法设立的个人征信机构是对个人信用信息进行采集和加工,根据用户要求提供个人信用信息查询和凭借服务。征信体系是由与征信活动有关的法律规章、组织机构、市场管理、文化建设、宣传教育等共同构成的一个体系。基于征信业的信用风险评估也是金融机构正确制定政策和商业战略的关键。
信用评估是评估机构利用专家判断或数学模型,结合用户所提供的财务状况、经营状况、诸如电话费、水费等各种公共类事务的完成情况,以及各类涉及个人信用的信息,对用户还款、参与各类公共事务的完成能力和意愿进行评价,并按照其违约概率的大小通过等级或分数的形式给出评估结论的行为。
随着社会大数据的深入,在单位用人、个人求职、职务晋升、志愿者招募等各方面都对于个人的诚信提出更高的要求,因此,如何能够针对个人在社会各项事务中留下的数据痕迹,对个人信用进行评估,准确评判相应用户参与公共事务并圆满完成的可能性,成为现有技术亟需解决的技术问题。
发明内容
本发明的目的在于提出一种基于胶囊网络的信用评估模型的方法,利用胶囊网络构建客户信用模型,提高对于用户参与社会各类事务诚信因素的预测。
为达此目的,本发明采用以下技术方案:
一种基于胶囊网络的信用评估模型方法,其特征在于,包括如下步骤:
用户数据处理步骤S110:
获取用户信用数据,包括好用户数据和坏用户数据,其中坏客户表示在两年内存在违约记录的用户,反之则为好客户,对所述用户信息数据进行预处理,过滤掉缺失,异常的信息,对数据做清洗和预处理,并利用数字的方式进行赋值,以用于后续的步骤;
指标成像处理步骤S120:
按照数据中每个指标变量的数值对应图像中一个像素点的原则,将步骤S110处理过的指标变量根据反映客户特征信息的不同方面重组聚合成一定的用户信用指标特征矩阵,并且在不足的像素区域使用零代替,并将用户信用指标特征矩阵转换为用户的信用特征成像图;
构建胶囊网络体系结构步骤S130:
构建胶囊网络体系结构,依次包括:输入层、注意力机制层、主胶囊层、数字胶囊层和输出层,
其中,所述输入层用于输入所述用户信息经过成像处理得到的用户的信用特征成像图;
注意力机制层,用于强调和选择目标处理对象的重要信息,并且抑制无关的细节信息,选择聚焦位置,产生更具分辨性的特征表示;
主胶囊层,用于对成像图特征进一步提炼并整合,主胶囊层通过一定数量的卷积核进行特征提取,单个卷积核进行普通卷积操作后进行封装,得到一定数量的主胶囊;
数字胶囊层,用于通过每个胶囊活动向量的长度即胶囊向量的模预测其属于某个用户类别的概率,其中每个胶囊表示一种预测用户的类型,在数字胶囊层的每层中含有2个胶囊,其中每个胶囊表示一种用户类型,两种用户类型包括好客户类型与坏客户类型;
输出层,用于计算数字胶囊层的预测概率,输出客户好坏类别结果,将特征空间的数据映射到相应客户类别,并输出用户类别的预测概率,即为用户的违约概率值;
训练胶囊网络对用户信用特征成像图分类步骤S140:
将步骤S120的用户信用特征成像图作为胶囊网络的输入,利用构建的胶囊网络进行图像分类处理,所述胶囊网络用户信用特征成像图分为两类,包括好用户信用特征成像图与坏用户信用特征成像图,所述胶囊网络对输入的用户信用特征成像图进行以好用户信用特征成像图与坏用户信用特征成像图的类别进行预测分类,将用户信用特征成像图数据分为80%训练集和20%测试集,通过训练集对胶囊网络进行训练,得到分类器,测试集数据对分类器的准确性进行验证;
计算用户违约概率值S150:
对于训练后的胶囊网络,将用户信息经过成像处理后得到的用户信用特征成像图经输入层进入胶囊网络,利用胶囊网络进行计算,最终通过输出层,输出客户好坏类别结果,将特征空间的数据映射到相应客户类别,并输出用户类别的预测概率,即为用户的违约概率值。
可选的,所述数据清洗处理步骤S110中,要进行缺失值的处理,处理方法包括直接删除含有缺失值的样本数据、根据样本数据之间的相似性,使用能代表变量中心趋势的值进行填补和根据变量之间的相关关系填补缺失值。
可选的,所述数据清洗处理步骤S110中,所述数据预处理步骤中还包括异常值检测,找出对于明显偏离大多数抽样数据的数值,异常值检测采用离群值检测的方法,包括单变量离群值检测、局部离群值因子检测和基于聚类方法的离群值检测等或者利用箱型图的方式查看异常值并进行相应剔除处理。
可选的,在指标成像处理步骤S120中,在所述用户信用指标特征矩阵的取值时,将用户信用指标特征的取值对应乘以255以得到对应像素点的亮度,然后对数据表中的数据形式进行转换,对于x个单列指标变量,需要转化为d﹡d的用户信用特征指标变量矩阵:
Figure 354699DEST_PATH_IMAGE001
第一列为1~d
第二列为d+1~2d
第三列为2d+1~3d
⋯⋯
其中
Figure 386109DEST_PATH_IMAGE002
表示向上取整。
可选的,在指标成像处理步骤S120中,使用转化的用户信用特征指标变量矩阵来形成d﹡d像素的灰度图,即为用户的信用特征成像图。
可选的,在构建胶囊网络体系结构步骤S130中,
所述注意力机制层由多个注意力模块堆叠而成,每个注意力模块又分为掩膜分支(mask brunch)和主干分支(trunk branch),主干分支通过多次卷积提取所述用户信用特征成像图的张量特征,掩膜分支是注意力模块的核心部件,包括buttom-up和top-down的结构;
其中buttom-up部分执行下采样,多次进行最大池化操作扩大接受域,直到达到最低分辨率,其作用效果是产生低分辨率、强语义信息的特征图,从而收集整个用户信用特征成像图的全局信息,top-down部分执行上采样线性插值,直到特征图尺寸与输入时相等,其作用效果是扩展bottom-up所产生的特征图,使其尺寸与输入bottom-up前的特征图大小相同,从而对输入的用户信用特征成像图的每个像素进行推理选择。
可选的,在构建胶囊网络体系结构步骤S130中,
所述主胶囊层和数字胶囊层均为多层的结构,所述主胶囊层和数字胶囊层的多层彼此互相堆叠,在互相堆叠的主胶囊层和数字胶囊层之间采用动态路由算法对其进一步编码或者更新,动态路由算法用于计算深浅两层隐藏层中每个胶囊之间的关系,其预测向量由胶囊网络的输出向量与权重矩阵相乘获得,比较预测向量与父节点输出,若为较小的量值,则升高其他父节点的耦合系数,降低该父节点的耦合系数;若为较大的量值,则降低其他父节点的耦合系数,升高该父节点的耦合系数,即胶囊增加了对该父节点的贡献。
可选的,所述动态路由算法规则具体为:
下层胶囊由上层胶囊计算得出,每个上层胶囊i连接到相邻的下层胶囊j的概率为:
Figure 275568DEST_PATH_IMAGE003
其中,
Figure 92345DEST_PATH_IMAGE004
为耦合系数,是下层胶囊i激活上层胶囊j的概率,
Figure 674636DEST_PATH_IMAGE005
是胶囊i连接到胶囊j的先验概率,初始值设置为0,根据耦合系数
Figure 881758DEST_PATH_IMAGE006
计算加权求和得输入向量
Figure 902803DEST_PATH_IMAGE007
下层胶囊i对上层胶囊j输出的预测向量
Figure 433142DEST_PATH_IMAGE008
是由该胶囊的输出
Figure 61700DEST_PATH_IMAGE009
乘权值转化矩阵
Figure 943069DEST_PATH_IMAGE010
得到的,而上层胶囊j的输入
Figure 564543DEST_PATH_IMAGE011
是由所有下层胶囊的预测向量加权得到的,i、j值的大小网络会根据输入的特征图维度确定,
Figure 480546DEST_PATH_IMAGE012
其中,
Figure 748848DEST_PATH_IMAGE009
为上层胶囊的输出,
Figure 117512DEST_PATH_IMAGE008
为上层胶囊预测向量,
Figure 277098DEST_PATH_IMAGE010
为网络中相邻两层的权值转化矩阵,其中胶囊网络在运行过程中会提取特征自动调节权值转化矩阵,
Figure 47608DEST_PATH_IMAGE013
为输入向量,由用户的信用特征成像图矩阵的方式储存,然后转化成向量进行输入,输出向量
Figure 746531DEST_PATH_IMAGE014
可表示为:
Figure 602491DEST_PATH_IMAGE015
其中,
Figure 565768DEST_PATH_IMAGE014
为输出向量,
Figure 925205DEST_PATH_IMAGE013
为输入向量,
接下来为路由更新,通过输出向量
Figure 66468DEST_PATH_IMAGE014
与上层胶囊预测向量
Figure 144145DEST_PATH_IMAGE008
相乘进行更新
Figure 176692DEST_PATH_IMAGE005
Figure 656215DEST_PATH_IMAGE005
的更新计算公式如下:
Figure 968379DEST_PATH_IMAGE016
本发明进一步公开了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行上述的基于胶囊网络的信用评估模型方法。
本发明具有如下的优点:
1、将用户信息利用图像的形式进行呈现,转化用户信息的呈现形式。依据客户信用数据的特征,将所对应的特征转换形成相应的灰度图,利用构建的胶囊网络能够更好地提取图片特征从而优化模型评估,提高模型可靠性和准确性。
2、把注意力机制层引入胶囊网络,构建后的胶囊网络能够更深层次的提取成像图的全局和局部特征,提高模型可靠性和准确性,还可以提取更多有效的特征信息从而实现更高的准确率。
附图说明
图1是本发明具体实施例的基于胶囊网络的信用评估模型方法的流程图;
图2是应用在本发明具体实施例中的信用评估模型方法中的胶囊网络的示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明主要在于,将个人信用相关数据进行图像化处理,转化用户信息的呈现形式成为图像,利用胶囊网络对用户信用图像进行处理,从而进行评分,其中还利用注意力机制优化成像图的全局和局部特征,提高对于用户参与社会各类事务诚信因素的预测。
具体的,参见图1,示出了根据本发明具体实施例的基于胶囊网络的信用评估模型方法的流程图,包括如下步骤:
用户数据处理步骤S110:
获取用户信用数据,包括好用户数据和坏用户数据,其中坏客户表示在两年内存在违约记录的用户,反之则为好客户,对所述用户信息数据进行预处理,过滤掉缺失,异常的信息,对数据做清洗和预处理,并利用数字的方式进行赋值,以用于后续的步骤。
在本发明中,所述用户信用数据,例如年龄、月收入等,形式有可能为数值;也有部分用户数据,例如学历、公共事务参与程度、也有可能不是数值,则对于用户数据用数值的方式进行赋值主要指的是对于非数值的用户数据使得其数值化。例如,采用0-5分别表示不同的学历程度,其它数值依次类推。应当注意,本发明仅仅是示例性的说明了数值化的例子,并非局限于该示例。
在本步骤中,用户信用数据可以用数据表的形式进行存储。
具体的,所述用户信用数据包括但不限于:年龄、学历、月收入、单位、职务、信贷数量、负债率、可用额度比值、逾期30-59天笔数、固定资产贷款量、公共事务参与程度、公共事务中是否存在失信情况或者受表彰情况等。
进一步的,所述数据清洗处理步骤S110中,由于样本数据表中一般都含有缺失值,这会影响模型训练的准确度,所以首先要进行缺失值的处理,处理方法主要包括直接删除含有缺失值的样本数据、根据样本数据之间的相似性,使用能代表变量中心趋势的值如平均值、中位数、众数等进行填补和根据变量之间的相关关系填补缺失值。
具体的,当缺失值所占样本数据比例很小时,采用直接删除的方法剔除缺失样本数据。当缺失值所占样本数据比例较大时,采用根据样本数据之间的相似性填补缺失值和根据变量之间的相关关系填补缺失值的方法。根据样本之间的相似性填补缺失值是指用这些缺失值最可能的值来填补它们,通常使用能代表变量中心趋势的值如平均值、中位数、众数等进行填补,因为代表变量中心趋势的值反映了变量分布的最常见值。根据变量之间的相关关系填补缺失值通常是考虑样本数据的属性进行缺失值填补,通过计算最相近样本数据的中位数并用这个中位数来填补缺失值,如果缺失值是名义变量,则使用最近相似数据的加权平均值进行填补,权重大小随着距离待填补缺失值样本的距离增大而减小。
更进一步的,所述数据预处理步骤中还包括异常值检测,找出对于明显偏离大多数抽样数据的数值,异常值检测采用离群值检测的方法,包括单变量离群值检测、局部离群值因子检测和基于聚类方法的离群值检测等或者利用箱型图的方式查看异常值并进行相应剔除处理。
指标成像处理步骤S120:
由于本发明采用了胶囊神经网络模型进行信用评估,因此,而胶囊神经网络模型要求输入数据为图像,因此需要对指标进行成像处理,具体如下:
按照数据中每个指标变量的数值对应图像中一个像素点的原则,将步骤S110处理过的数据表中的指标变量根据反映客户特征信息的不同方面重组聚合成一定的用户信用指标特征矩阵,并且在不足的像素区域使用零代替,并将用户信用指标特征矩阵转换为用户的信用特征成像图。
具体的,在所述用户信用指标特征矩阵的取值时,将用户信用指标特征的取值对应乘以255以得到对应像素点的亮度,然后对数据表中的数据形式进行转换,对于x个单列指标变量,需要转化为d﹡d的用户信用特征指标变量矩阵:
Figure 861248DEST_PATH_IMAGE001
第一列为1~d
第二列为d+1~2d
第三列为2d+1~3d
⋯⋯
其中
Figure 41694DEST_PATH_IMAGE002
表示向上取整。
进一步的,使用转化的用户信用特征指标变量矩阵来形成d﹡d像素的灰度图,即为用户的信用特征成像图。
构建胶囊网络体系结构步骤S130:
在本步骤中,主要采用胶囊网络,并且为了进一步提高胶囊模型的特征提取能力,实现用户信用特征成像图的深度表示,在所述胶囊网络中进一步引入注意力机制层。
因此,构建胶囊网络体系结构,依次包括:输入层、注意力机制层、主胶囊层、数字胶囊层和输出层,
其中,所述输入层用于输入所述用户信息经过成像处理得到的用户的信用特征成像图;
注意力机制层,用于强调和选择目标处理对象的重要信息,并且抑制无关的细节信息,选择聚焦位置,产生更具分辨性的特征表示。注意力机制层由大量的注意力模块(Attention Module)组成,能产生注意力感知的(attention-aware)特征,并且不同模块的特征随着注意力机制层网络的加深会产生适应性改变。
主胶囊层,用于对成像图特征进一步提炼并整合,主胶囊层通过一定数量的卷积核进行特征提取,单个卷积核进行普通卷积操作后进行封装,得到一定数量的主胶囊。
数字胶囊层,用于通过每个胶囊活动向量的长度即胶囊向量的模预测其属于某个用户类别的概率,其中每个胶囊表示一种预测用户的类型,在数字胶囊层的每层中含有2个胶囊,其中每个胶囊表示一种用户类型,两种用户类型包括好客户类型与坏客户类型。
输出层,用于计算数字胶囊层的预测概率,输出客户好坏类别结果,将特征空间的数据映射到相应客户类别,并输出用户类别的预测概率,即为用户的违约概率值。
具体的,所述注意力机制层由多个注意力模块堆叠而成,每个注意力模块又分为掩膜分支(mask brunch)和主干分支(trunk branch)。主干分支通过多次卷积提取所述用户信用特征成像图的张量特征,掩膜分支是注意力模块的核心部件,包括buttom-up和top-down的结构。其中buttom-up部分执行下采样,多次进行最大池化操作扩大接受域,直到达到最低分辨率。其作用效果是产生低分辨率、强语义信息的特征图,从而收集整个用户信用特征成像图的全局信息。top-down部分执行上采样线性插值,直到特征图尺寸与输入时相等。其作用效果是扩展bottom-up所产生的特征图,使其尺寸与输入bottom-up前的特征图大小相同,从而对输入的用户信用特征成像图的每个像素进行推理选择。主干分支是正常卷积结构。掩膜分支是先经过最大池化操作,以便迅速获得更大的感受野,再通过双线性插值等归一化,再与Trunk Branch进行融合。
所述主胶囊层和数字胶囊层均为多层的结构,所述主胶囊层和数字胶囊层的多层彼此互相堆叠,在互相堆叠的主胶囊层和数字胶囊层之间采用动态路由算法对其进一步编码或者更新,动态路由算法用于计算深浅两层隐藏层中每个胶囊之间的关系,其预测向量由胶囊网络的输出向量与权重矩阵相乘获得,比较预测向量与父节点输出,若为较小的量值,则升高其他父节点的耦合系数,降低该父节点的耦合系数;若为较大的量值,则降低其他父节点的耦合系数,升高该父节点的耦合系数,即胶囊增加了对该父节点的贡献。
具体的,在动态路由算法规则中,下层胶囊由上层胶囊计算得出。每个上层胶囊i连接到相邻的下层胶囊j的概率为:
Figure 251090DEST_PATH_IMAGE003
其中,
Figure 124368DEST_PATH_IMAGE017
为耦合系数,是下层胶囊i激活上层胶囊j的概率,
Figure 35692DEST_PATH_IMAGE018
是胶囊i连接到胶囊j的先验概率,初始值设置为0。根据耦合系数
Figure 754249DEST_PATH_IMAGE017
计算加权求和得输入向量
Figure 83730DEST_PATH_IMAGE019
如第l层胶囊用i表示,而它的上层胶囊层,即l+1层用j表示,则下层胶囊i对上层胶囊j输出的预测向量
Figure 862331DEST_PATH_IMAGE008
是由该胶囊的输出
Figure 526530DEST_PATH_IMAGE009
乘权值转化矩阵
Figure 48778DEST_PATH_IMAGE010
得到的,而上层胶囊j的输入
Figure 232766DEST_PATH_IMAGE019
是由所有下层胶囊的预测向量加权得到的,i、j值的大小网络会根据输入的特征图维度确定。
Figure 182268DEST_PATH_IMAGE012
其中,
Figure 68184DEST_PATH_IMAGE009
为上层胶囊的输出,
Figure 394123DEST_PATH_IMAGE008
为上层胶囊预测向量,
Figure 432617DEST_PATH_IMAGE010
为网络中相邻两层的权值转化矩阵,其中胶囊网络在运行过程中会提取特征自动调节权值转化矩阵,
Figure 553020DEST_PATH_IMAGE019
为输入向量,由用户的信用特征成像图矩阵的方式储存,然后转化成向量进行输入,输出向量
Figure 191812DEST_PATH_IMAGE014
可表示为:
Figure 55863DEST_PATH_IMAGE015
其中,
Figure 948863DEST_PATH_IMAGE014
为输出向量,
Figure 505747DEST_PATH_IMAGE019
为输入向量。
接下来为路由更新,通过输出向量
Figure 38359DEST_PATH_IMAGE014
与上层胶囊预测向量
Figure 830735DEST_PATH_IMAGE008
相乘进行更新
Figure 702876DEST_PATH_IMAGE005
Figure 300167DEST_PATH_IMAGE020
的更新计算公式如下:
Figure 523338DEST_PATH_IMAGE021
本发明通过深浅两层动态连接,胶囊网络模型可以自动地筛选更有效的胶囊,提高模型分类效率,提高了整个网络的鲁棒性。
训练胶囊网络对用户信用特征成像图分类步骤S140:
将步骤S120的用户信用特征成像图作为胶囊网络的输入,利用构建的胶囊网络进行图像分类处理,所述胶囊网络用户信用特征成像图分为两类,包括好用户信用特征成像图与坏用户信用特征成像图。所述胶囊网络对输入的用户信用特征成像图进行以好用户信用特征成像图与坏用户信用特征成像图的类别进行预测分类,将用户信用特征成像图数据分为80%训练集和20%测试集,通过训练集对胶囊网络进行训练,得到分类器,测试集数据对分类器的准确性进行验证。
计算用户违约概率值S150:
对于训练后的胶囊网络,将用户信息经过成像处理后得到的用户信用特征成像图经输入层进入胶囊网络,利用胶囊网络进行计算,最终通过输出层,输出客户好坏类别结果,将特征空间的数据映射到相应客户类别,并输出用户类别的预测概率,即为用户的违约概率值。
本发明具有如下的优点:
1、将用户信息利用图像的形式进行呈现,转化用户信息的呈现形式。依据客户信用数据的特征,将所对应的特征转换形成相应的灰度图,利用构建的胶囊网络能够更好地提取图片特征从而优化模型评估,提高模型可靠性和准确性。
2、把注意力机制层引入胶囊网络,构建后的胶囊网络能够更深层次的提取成像图的全局和局部特征,提高模型可靠性和准确性,还可以提取更多有效的特征信息从而实现更高的准确率。
进一步的,本发明还公开了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行上述的基于胶囊网络的信用评估模型方法。
显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims (9)

1.一种基于胶囊网络的信用评估模型方法,其特征在于,包括如下步骤:
用户数据处理步骤S110:
获取用户信用数据,包括好用户数据和坏用户数据,其中坏客户表示在两年内存在违约记录的用户,反之则为好客户,对所述用户信息数据进行预处理,过滤掉缺失,异常的信息,对数据做清洗和预处理,并利用数字的方式进行赋值,以用于后续的步骤;
指标成像处理步骤S120:
按照数据中每个指标变量的数值对应图像中一个像素点的原则,将步骤S110处理过的指标变量根据反映客户特征信息的不同方面重组聚合成一定的用户信用指标特征矩阵,并且在不足的像素区域使用零代替,并将用户信用指标特征矩阵转换为用户的信用特征成像图;
构建胶囊网络体系结构步骤S130:
构建胶囊网络体系结构,依次包括:输入层、注意力机制层、主胶囊层、数字胶囊层和输出层,
其中,所述输入层用于输入所述用户信息经过成像处理得到的用户的信用特征成像图;
注意力机制层,用于强调和选择目标处理对象的重要信息,并且抑制无关的细节信息,选择聚焦位置,产生更具分辨性的特征表示;
主胶囊层,用于对成像图特征进一步提炼并整合,主胶囊层通过一定数量的卷积核进行特征提取,单个卷积核进行普通卷积操作后进行封装,得到一定数量的主胶囊;
数字胶囊层,用于通过每个胶囊活动向量的长度即胶囊向量的模预测其属于某个用户类别的概率,其中每个胶囊表示一种预测用户的类型,在数字胶囊层的每层中含有2个胶囊,其中每个胶囊表示一种用户类型,两种用户类型包括好客户类型与坏客户类型;
输出层,用于计算数字胶囊层的预测概率,输出客户好坏类别结果,将特征空间的数据映射到相应客户类别,并输出用户类别的预测概率,即为用户的违约概率值;
训练胶囊网络对用户信用特征成像图分类步骤S140:
将步骤S120的用户信用特征成像图作为胶囊网络的输入,利用构建的胶囊网络进行图像分类处理,所述胶囊网络用户信用特征成像图分为两类,包括好用户信用特征成像图与坏用户信用特征成像图,所述胶囊网络对输入的用户信用特征成像图进行以好用户信用特征成像图与坏用户信用特征成像图的类别进行预测分类,将用户信用特征成像图数据分为80%训练集和20%测试集,通过训练集对胶囊网络进行训练,得到分类器,测试集数据对分类器的准确性进行验证;
计算用户违约概率值S150:
对于训练后的胶囊网络,将用户信息经过成像处理后得到的用户信用特征成像图经输入层进入胶囊网络,利用胶囊网络进行计算,最终通过输出层,输出客户好坏类别结果,将特征空间的数据映射到相应客户类别,并输出用户类别的预测概率,即为用户的违约概率值。
2.根据权利要求1所述的基于胶囊网络的信用评估模型方法,其特征在于,
所述数据清洗处理步骤S110中,要进行缺失值的处理,处理方法包括直接删除含有缺失值的样本数据、根据样本数据之间的相似性,使用能代表变量中心趋势的值进行填补和根据变量之间的相关关系填补缺失值。
3.根据权利要求2所述的基于胶囊网络的信用评估模型方法,其特征在于,
所述数据清洗处理步骤S110中,所述数据预处理步骤中还包括异常值检测,找出对于明显偏离大多数抽样数据的数值,异常值检测采用离群值检测的方法,包括单变量离群值检测、局部离群值因子检测和基于聚类方法的离群值检测等或者利用箱型图的方式查看异常值并进行相应剔除处理。
4.根据权利要求1所述的基于胶囊网络的信用评估模型方法,其特征在于,
在指标成像处理步骤S120中,在所述用户信用指标特征矩阵的取值时,将用户信用指标特征的取值对应乘以255以得到对应像素点的亮度,然后对数据表中的数据形式进行转换,对于x个单列指标变量,需要转化为d﹡d的用户信用特征指标变量矩阵:
Figure 921978DEST_PATH_IMAGE001
第一列为1~d
第二列为d+1~2d
第三列为2d+1~3d
⋯⋯
其中
Figure 432594DEST_PATH_IMAGE002
表示向上取整。
5.根据权利要求4所述的基于胶囊网络的信用评估模型方法,其特征在于,
在指标成像处理步骤S120中,使用转化的用户信用特征指标变量矩阵来形成d*d像素的灰度图,即为用户的信用特征成像图。
6.根据权利要求1所述的基于胶囊网络的信用评估模型方法,其特征在于,
在构建胶囊网络体系结构步骤S130中,
所述注意力机制层由多个注意力模块堆叠而成,每个注意力模块又分为掩膜分支(mask brunch)和主干分支(trunk branch),主干分支通过多次卷积提取所述用户信用特征成像图的张量特征,掩膜分支是注意力模块的核心部件,包括buttom-up和top-down的结构;
其中buttom-up部分执行下采样,多次进行最大池化操作扩大接受域,直到达到最低分辨率,其作用效果是产生低分辨率、强语义信息的特征图,从而收集整个用户信用特征成像图的全局信息,top-down部分执行上采样线性插值,直到特征图尺寸与输入时相等,其作用效果是扩展bottom-up所产生的特征图,使其尺寸与输入bottom-up前的特征图大小相同,从而对输入的用户信用特征成像图的每个像素进行推理选择。
7.根据权利要求6所述的基于胶囊网络的信用评估模型方法,其特征在于,
在构建胶囊网络体系结构步骤S130中,
所述主胶囊层和数字胶囊层均为多层的结构,所述主胶囊层和数字胶囊层的多层彼此互相堆叠,在互相堆叠的主胶囊层和数字胶囊层之间采用动态路由算法对其进一步编码或者更新,动态路由算法用于计算深浅两层隐藏层中每个胶囊之间的关系,其预测向量由胶囊网络的输出向量与权重矩阵相乘获得,比较预测向量与父节点输出,若为较小的量值,则升高其他父节点的耦合系数,降低该父节点的耦合系数;若为较大的量值,则降低其他父节点的耦合系数,升高该父节点的耦合系数,即胶囊增加了对该父节点的贡献。
8.根据权利要求7所述的基于胶囊网络的信用评估模型方法,其特征在于,
所述动态路由算法规则具体为:
下层胶囊由上层胶囊计算得出,每个上层胶囊i连接到相邻的下层胶囊j的概率为:
Figure 681173DEST_PATH_IMAGE003
其中,
Figure 420590DEST_PATH_IMAGE004
为耦合系数,是下层胶囊i激活上层胶囊j的概率,
Figure 969383DEST_PATH_IMAGE005
是胶囊i连接到胶囊j的先验概率,初始值设置为0,根据耦合系数
Figure 119741DEST_PATH_IMAGE004
计算加权求和得输入向量
Figure 855616DEST_PATH_IMAGE006
下层胶囊i对上层胶囊j输出的预测向量
Figure 392865DEST_PATH_IMAGE007
是由该胶囊的输出
Figure 530585DEST_PATH_IMAGE008
乘权值转化矩阵
Figure 117424DEST_PATH_IMAGE009
得到的,而上层胶囊j的输入
Figure 340595DEST_PATH_IMAGE010
是由所有下层胶囊的预测向量加权得到的,i、j值的大小网络会根据输入的特征图维度确定,
Figure 421815DEST_PATH_IMAGE011
其中,
Figure 414041DEST_PATH_IMAGE008
为上层胶囊的输出,
Figure 437361DEST_PATH_IMAGE007
为上层胶囊预测向量,
Figure 147828DEST_PATH_IMAGE009
为网络中相邻两层的权值转化矩阵,其中胶囊网络在运行过程中会提取特征自动调节权值转化矩阵,
Figure 767159DEST_PATH_IMAGE010
为输入向量,由用户的信用特征成像图矩阵的方式储存,然后转化成向量进行输入,输出向量
Figure 879472DEST_PATH_IMAGE012
可表示为:
Figure 808114DEST_PATH_IMAGE013
其中,
Figure 5877DEST_PATH_IMAGE012
为输出向量,
Figure 428899DEST_PATH_IMAGE010
为输入向量,
接下来为路由更新,通过输出向量
Figure 395718DEST_PATH_IMAGE012
与上层胶囊预测向量
Figure 432944DEST_PATH_IMAGE007
相乘进行更新
Figure 977058DEST_PATH_IMAGE014
Figure 328405DEST_PATH_IMAGE014
的更新计算公式如下:
Figure 25097DEST_PATH_IMAGE015
9.一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行权利要求1-8中任意一项所述的基于胶囊网络的信用评估模型方法。
CN202110993455.8A 2021-08-27 2021-08-27 一种基于胶囊网络的信用评估模型方法及其存储介质 Pending CN113449819A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110993455.8A CN113449819A (zh) 2021-08-27 2021-08-27 一种基于胶囊网络的信用评估模型方法及其存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110993455.8A CN113449819A (zh) 2021-08-27 2021-08-27 一种基于胶囊网络的信用评估模型方法及其存储介质

Publications (1)

Publication Number Publication Date
CN113449819A true CN113449819A (zh) 2021-09-28

Family

ID=77818814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110993455.8A Pending CN113449819A (zh) 2021-08-27 2021-08-27 一种基于胶囊网络的信用评估模型方法及其存储介质

Country Status (1)

Country Link
CN (1) CN113449819A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452007A (zh) * 2023-06-15 2023-07-18 深圳市迪博企业风险管理技术有限公司 一种基于胶囊网络的企业税收合规风险评估方法
CN116866089A (zh) * 2023-09-05 2023-10-10 鹏城实验室 基于孪生胶囊网络的网络流量检测方法及其装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018090657A1 (zh) * 2016-11-18 2018-05-24 同济大学 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统
CN111080168A (zh) * 2019-12-30 2020-04-28 国网江苏省电力有限公司信息通信分公司 一种基于胶囊网络的电力通信网络设备可靠性评估方法
CN111460818A (zh) * 2020-03-31 2020-07-28 中国测绘科学研究院 一种基于增强胶囊网络的网页文本分类方法及存储介质
CN112017025A (zh) * 2020-08-26 2020-12-01 天元大数据信用管理有限公司 一种基于深度学习与逻辑回归相融合的企业信用评估方法
CN112699215A (zh) * 2020-12-24 2021-04-23 齐鲁工业大学 基于胶囊网络与交互注意力机制的评级预测方法及系统
CN113177839A (zh) * 2021-05-20 2021-07-27 中国建设银行股份有限公司 一种信用风险评估方法、装置、存储介质和设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018090657A1 (zh) * 2016-11-18 2018-05-24 同济大学 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统
CN111080168A (zh) * 2019-12-30 2020-04-28 国网江苏省电力有限公司信息通信分公司 一种基于胶囊网络的电力通信网络设备可靠性评估方法
CN111460818A (zh) * 2020-03-31 2020-07-28 中国测绘科学研究院 一种基于增强胶囊网络的网页文本分类方法及存储介质
CN112017025A (zh) * 2020-08-26 2020-12-01 天元大数据信用管理有限公司 一种基于深度学习与逻辑回归相融合的企业信用评估方法
CN112699215A (zh) * 2020-12-24 2021-04-23 齐鲁工业大学 基于胶囊网络与交互注意力机制的评级预测方法及系统
CN113177839A (zh) * 2021-05-20 2021-07-27 中国建设银行股份有限公司 一种信用风险评估方法、装置、存储介质和设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452007A (zh) * 2023-06-15 2023-07-18 深圳市迪博企业风险管理技术有限公司 一种基于胶囊网络的企业税收合规风险评估方法
CN116452007B (zh) * 2023-06-15 2023-09-19 深圳市迪博企业风险管理技术有限公司 一种基于胶囊网络的企业税收合规风险评估方法
CN116866089A (zh) * 2023-09-05 2023-10-10 鹏城实验室 基于孪生胶囊网络的网络流量检测方法及其装置
CN116866089B (zh) * 2023-09-05 2024-01-30 鹏城实验室 基于孪生胶囊网络的网络流量检测方法及其装置

Similar Documents

Publication Publication Date Title
US11526765B2 (en) Systems and methods for a supra-fusion graph attention model for multi-layered embeddings and deep learning applications
CN108960833B (zh) 一种基于异构金融特征的异常交易识别方法,设备及存储介质
WO2017129076A1 (en) System and method for prediction using synthetic features and gradient boosted decision tree
US8160982B2 (en) Method for detecting people of interest from information sources
CN112150298B (zh) 数据处理方法、系统、设备及可读介质
US20090276368A1 (en) Systems and methods for providing personalized recommendations of products and services based on explicit and implicit user data and feedback
CN113449819A (zh) 一种基于胶囊网络的信用评估模型方法及其存储介质
CN111435357B (zh) 加油站客户流失预测方法、装置、电子设备及存储介质
CN110634060A (zh) 一种用户信用风险的评估方法、系统、装置及存储介质
CN112786160A (zh) 基于图神经网络的多图片输入的多标签胃镜图片分类方法
CN114782161A (zh) 识别风险用户的方法、装置、存储介质及电子装置
CN111506798A (zh) 用户筛选方法、装置、设备及存储介质
CN113378609B (zh) 代理商代签名的识别方法及装置
CN116993490A (zh) 一种基于人工智能的银行场景自动处理方法及系统
CN115965468A (zh) 基于交易数据的异常行为检测方法、装置、设备及介质
CN115457568A (zh) 一种基于生成对抗网络的历史文档图像降噪方法及系统
CN115906937A (zh) 一种可解释的cnn分类模型的模型剪枝方法
CN114170000A (zh) 信用卡用户风险类别识别方法、装置、计算机设备和介质
CN111291838B (zh) 实体对象分类结果的解释方法和装置
CN116258579B (zh) 用户信用评分模型的训练方法及用户信用评分方法
CN113569293B (zh) 一种相似用户的获取方法、系统、电子设备及介质
Høgtun Automated Detection of Front Companies: Exploring Machine Learning Potentials and Limitations
CN116522918A (zh) 模型训练方法、地址分类方法、装置、设备及存储介质
CN115393060A (zh) 一种基于实时流数据的在线金融风控模型
Andersson et al. Probability of Default Machine Learning Modeling: A Stress Testing Evaluation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination