CN113177840A - 一种客户风险的识别方法及装置 - Google Patents
一种客户风险的识别方法及装置 Download PDFInfo
- Publication number
- CN113177840A CN113177840A CN202110551355.XA CN202110551355A CN113177840A CN 113177840 A CN113177840 A CN 113177840A CN 202110551355 A CN202110551355 A CN 202110551355A CN 113177840 A CN113177840 A CN 113177840A
- Authority
- CN
- China
- Prior art keywords
- default
- model
- sample
- default loan
- clients
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 94
- 230000000694 effects Effects 0.000 claims abstract description 13
- 238000012795 verification Methods 0.000 claims description 47
- 238000004140 cleaning Methods 0.000 claims description 31
- 238000000605 extraction Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 10
- 238000010200 validation analysis Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000010187 selection method Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请公开了一种客户风险的识别方法及装置,其中,所述方法包括:根据多个客户间的担保关系,构建多个客户对应的担保圈网络;获取与多个客户的违约风险相关的预设类型原始特征变量;利用与预先训练好的目标违约贷款模型对应的图自编码器,提取出担保圈网络中的隐变量;其中,目标违约贷款模型为从预先训练好的两个违约贷款模型中选取出的预测效果较优的模型;两个违约贷款模型分别采用多个样本客户对应的原始特征变量,和对应的图自编码器从多个样本客户对应的担保圈网络中提取出的隐变量所组成的训练集进行训练得到;将原始特征变量以及担保圈网络中的隐变量输入目标违约贷款模型中,通过目标违约贷款模型计算得到每个客户的违约概率。
Description
技术领域
本申请涉及风险识别技术领域,特别涉及一种客户风险的识别方法及装置。
背景技术
在贷款业务中,客户因为没有偿还能力,而出现违约时不仅会给担保人带来损失,也可能会给银行带来较大的风险,所以银行在开展贷款业务时,都会对客户风险进行识别,因此准确的客户风险识别是支持银行贷款业务健康发展的重要基石。
现有对客户风险的评估方式主要是基于客户的历史贷款数据、信用状况数据以及资产数据等个人信息,通过人工或者模型进行客户的这些个人信息进行处理,从而预测客户的风险,进而确定是否为客户进行贷款。
但是客户风险是具有较强的传染性的,一旦借款方无法偿还贷款,那么提供担保的客户必须承担还款责任,而另一方面如果提供担保的客户出现风险,其就无法承担有效担保了,那么借款方必然需要自己偿还贷款。并且提供担保的客户可能也进行了贷款,所以一个客户出现风险,会对其他的客户造成不同程度的影响。因此,客户的违约风险不仅取决于自身的情况,还取决于其所在担保圈内有关联的其他客户情况。所以仅是基于客户的个人信息对客户进行风险评估,所得到的结果的准确性是相对较低的。
发明内容
基于上述现有技术的不足,本申请提供了一种客户风险的识别方法及装置,以解决现有技术中对客户风险识别的准确性较低的问题。
为了实现上述目的,本申请提供了以下技术方案:
本申请第一方面提供了一种客户风险的识别方法,包括:
根据多个客户间的担保关系,构建所述多个客户对应的担保圈网络;其中,所述担保圈网络中的每个节点对应一个所述客户;所述担保圈网络中有向边表征所述客户间的担保关系;
获取与所述多个客户的违约风险相关的预设类型的原始特征变量;
利用与预先训练好的目标违约贷款模型对应的图自编码器,提取出所述担保圈网络中的隐变量;其中,所述目标违约贷款模型为从预先训练好的两个违约贷款模型中选取出的预测效果较优的模型;两个所述违约贷款模型分别采用多个样本客户对应的原始特征变量,和对应的图自编码器从所述多个样本客户对应的担保圈网络中提取出的隐变量所组成的训练集进行训练得到;两个所述违约贷款模型对应的图自编码器不相同;
将所述原始特征变量以及所述担保圈网络中的隐变量输入所述目标违约贷款模型中,利用所述目标违约贷款模型对所述原始特征变量以及所述担保圈网络中的隐变量进行计算,得到每个所述客户的违约概率。
可选地,在上述的方法中,所述获取与所述多个客户的违约风险相关的预设类型的原始特征变量之后,还包括:
利用预设清洗规则,对所述原始特征向量进行清洗。
可选地,在上述的方法中,两个所述违约贷款模型的训练方法,包括:
根据所述多个样本客户间的担保关系,构建所述多个样本客户对应的担保圈网络;其中,所述多个样本客户为在设定的观察期内存在担保关系的贷款客户;
获取与所述多个样本客户的违约风险相关的预设类型的原始特征变量,得到所述多个样本客户对应的原始特征变量;
利用预设清洗规则,对所述多个样本客户对应的原始特征变量进行清洗;
利用第一图自编码器对所述多个样本客户对应的担保圈网络进行隐变量提取,得到第一隐变量,以及利用第二图自编码器对所述多个样本客户对应的担保圈网络进行隐变量提取,得到第二隐变量;
根据表现期内各个所述样本客户的还款信息,生成每个所述样本客户对应的客户标签;其中,所述客户标签包括违约标签以及未违约标签;
将清洗后的所述多个样本客户对应的原始特征变量、所述第一隐变量以及各个所述样本客户对应的客户标签组成第一数据集,以及将清洗后的所述多个样本客户对应的原始特征变量、所述第二隐变量以及各个所述样本客户对应的客户标签组成第二数据集;
利用第一数据集对第一初始违约贷款模型进行训练,得到第一违约贷款模型,以及利用所述第二数据集对第二初始违约贷款模型进行训练,得到第二违约贷款模型;其中,所述第一初始违约贷款模型和所述第二初始违约贷款模型为相同类型的模型;所述第一违约贷款模型对应所述第一图自编码器;所述第二违约贷款模型对应所述第二图自编码器。
可选地,在上述的方法中,所述将清洗后的所述多个样本客户对应的原始特征变量、所述第一隐变量以及各个所述样本客户对应的客户标签组成第一数据集,以及将清洗后的所述多个样本客户对应的原始特征变量、所述第二隐变量以及各个所述样本客户对应的客户标签组成第二数据集之后,还包括:
将所述第一数据集划分为第一训练集、第一测试集以及第一验证集,以及将所述第二数据集划分为第二训练集、第二测试集以及第二验证集;
其中,所述利用第一数据集对第一初始违约贷款模型进行训练,得到第一违约贷款模型,以及利用所述第二数据集对第二初始违约贷款模型进行训练,得到第二违约贷款模型,包括:
利用所述第一训练集对第一初始违约贷款模型进行训练,得到第一违约贷款模型,以及利用所述第二训练集对第二初始违约贷款模型进行训练,得到第二违约贷款模型。
可选地,在上述的方法中,所述目标违约贷款模型选取方法,包括:
分别计算所述第一验证集以及所述第二验证集对应的AUC值;
若所述第一验证集对应的AUC值大于所述第二验证集对应的AUC值,则选取所述第一违约贷款模型作为所述目标违约贷款模型;
若所述第一验证集对应的AUC值小于所述第二验证集对应的AUC值,则选取所述第二违约贷款模型作为所述目标违约贷款模型。
本申请第二方面提供了一种客户风险的识别装置,包括:
第一构建单元,用于根据多个客户间的担保关系,构建所述多个客户对应的担保圈网络;其中,所述担保圈网络中的每个节点对应一个所述客户;所述担保圈网络中有向边表征所述客户间的担保关系;
第一获取单元,用于获取与所述多个客户的违约风险相关的预设类型的原始特征变量;
第一提取单元,用于利用与预先训练好的目标违约贷款模型对应的图自编码器,提取出所述担保圈网络中的隐变量;其中,所述目标违约贷款模型为从预先训练好的两个违约贷款模型中选取出的预测效果较优的模型;两个所述违约贷款模型分别采用多个样本客户对应的原始特征变量,和对应的图自编码器从所述多个样本客户对应的担保圈网络中提取出的隐变量所组成的训练集进行训练得到;两个所述违约贷款模型对应的图自编码器不相同;
识别单元,用于将所述原始特征变量以及所述担保圈网络中的隐变量输入所述目标违约贷款模型中,利用所述目标违约贷款模型对所述原始特征变量以及所述担保圈网络中的隐变量进行计算,得到每个所述客户的违约概率。
可选地,在上述的装置中,还包括:
第一清洗单元,用于利用预设清洗规则,对所述原始特征向量进行清洗。
可选地,在上述的装置中,还包括模型训练单元,其中,所述模型训练单元,包括:
第二构建单元,用于根据所述多个样本客户间的担保关系,构建所述多个样本客户对应的担保圈网络;其中,所述多个样本客户为在设定的观察期内存在担保关系的贷款客户;
第二获取单元,用于获取与所述多个样本客户的违约风险相关的预设类型的原始特征变量,得到所述多个样本客户对应的原始特征变量;
第二清洗单元,用于利用预设清洗规则,对所述多个样本客户对应的原始特征变量进行清洗;
第二提取单元,用于利用第一图自编码器对所述多个样本客户对应的担保圈网络进行隐变量提取,得到第一隐变量,以及利用第二图自编码器对所述多个样本客户对应的担保圈网络进行隐变量提取,得到第二隐变量;
标签生成单元,用于根据表现期内各个所述样本客户的还款信息,生成每个所述样本客户对应的客户标签;其中,所述客户标签包括违约标签以及未违约标签;
数据集构建单元,用于将清洗后的所述多个样本客户对应的原始特征变量、所述第一隐变量以及各个所述样本客户对应的客户标签组成第一数据集,以及将清洗后的所述多个样本客户对应的原始特征变量、所述第二隐变量以及各个所述样本客户对应的客户标签组成第二数据集;
训练单元,用于利用第一数据集对第一初始违约贷款模型进行训练,得到第一违约贷款模型,以及利用所述第二数据集对第二初始违约贷款模型进行训练,得到第二违约贷款模型;其中,所述第一初始违约贷款模型和所述第二初始违约贷款模型为相同类型的模型;所述第一违约贷款模型对应所述第一图自编码器;所述第二违约贷款模型对应所述第二图自编码器。
可选地,在上述的装置中,还包括:
划分单元,用于将所述第一数据集划分为第一训练集、第一测试集以及第一验证集,以及将所述第二数据集划分为第二训练集、第二测试集以及第二验证集;
其中,所述训练单元,包括:
训练子单元,用于利用所述第一训练集对第一初始违约贷款模型进行训练,得到第一违约贷款模型,以及利用所述第二训练集对第二初始违约贷款模型进行训练,得到第二违约贷款模型。
可选地,在上述的装置中,还包括:
计算单元,用于分别计算所述第一验证集以及所述第二验证集对应的AUC值;
第一选取单元,用于在所述第一验证集对应的AUC值大于所述第二验证集对应的AUC值时,选取所述第一违约贷款模型作为所述目标违约贷款模型;
第二选取单元,用于在所述第一验证集对应的AUC值小于所述第二验证集对应的AUC值时,则选取所述第二违约贷款模型作为所述目标违约贷款模型。
本申请提供的客户风险的识别方法,预先分别采用多个样本客户对应的原始特征变量,和对应的图自编码器从多个样本客户对应的担保圈网络中提取出的隐变量所组成的训练集进行训练得到两个违约贷款模型,并从中选取出的预测效果较优的模型作为目标模型。在对多个客户进行风险识别时,获取与多个客户的违约风险相关的预设类型的原始特征变量,并且根据多个客户间的担保关系,构建多个客户对应的担保圈网络,然后利用与预先训练好的目标违约贷款模型对应的图自编码器提取出担保圈网络中的隐变量,从而可以得到能反映各个客户间的风险传递的隐变量。最后是将原始特征变量以及担保圈网络中的隐变量共同输入到目标违约贷款模型中,利用目标违约贷款模型对原始特征变量以及担保圈网络中的隐变量进行计算,得到每个客户的违约概率,从而充分考虑了客户的个人信息以及隐藏的各个客户间的风险关系,有效保证了预测结果的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种两个违约贷款模型的训练方法的流程图;
图2为本申请另一实施例提供的一种目标违约贷款模型的选取方法的流程图;
图3为本申请另一实施例提供的一种客户风险的识别方法的流程图;
图4为本申请另一实施例提供的一种客户风险的识别装置的结构示意图;
图5为本申请另一实施例提供的一种模型训练单元的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本申请提供了一种客户风险的识别方法,以解决现有技术中对客户风险识别的准确性较低的问题。
需要说明的是,在本申请实施例中,需要通过从预先训练好的两个违约贷款模型中选取出预测效果较优的模型作为目标违约贷款模型,对客户的违约风险进行评估。所以,在进行对客户进行风险识别前,需要预先训练好两个违约贷款模型。
可选地,本申请实施例提供的一种两个违约贷款模型的训练方法,如图1所示,具体包括以下步骤:
S101、根据多个样本客户间的担保关系,构建多个样本客户对应的担保圈网络。
其中,多个样本客户为在设定的观察期内存在担保关系的贷款客户。
需要说明的是,本申请实施例中所指的客户可以是企业、个人以及其他具有贷款资格的组织等。
具体的,可以先确定对公贷款客户的属性观察期,然后根据观察期内的贷款客户所存在的担保关系构建担保圈网络,具体的,担保圈网络中的每个节点对应一个样本客户,并且在担保圈网络中通过有向边将具有担保关系的样本客户对应的节点连接。其中,有向边的方向可以由被担保方指向担保方。从而通过担保圈网络可以反映出各个样本客户间的关系。
S102、获取与多个样本客户的违约风险相关的预设类型的原始特征变量,得到多个样本客户对应的原始特征变量。
其中,原始特征变量主要指的是区别于隐变量,可直接获取的特征变量。
具体的,挖掘与各个样本客户违约风险可能相关的特征变量,作为对公贷款客户的属性。其中,原始特征变量主要包括客户的基本信息以及历史信用信息等,如对于企业,具体可以包括:企业资产、负债、利润等财务数据、公司成立年限、实缴资本、注册资本、从业人员数量、所属行业、规模、所在地区、信贷余额、所持产品、重要关联人信用状况等。
S103、利用预设清洗规则,对多个样本客户对应的原始特征变量进行清洗。
其中,对原始特征变量进行清洗,具体可以包括无效值检测和处理、空值和缺失值填充、重复数据的删除等,以能删除重复信息、纠正存在的错误,并保证数据的一致性。
S104、利用第一图自编码器对多个样本客户对应的担保圈网络进行隐变量提取,得到第一隐变量,以及利用第二图自编码器对所述多个样本客户对应的担保圈网络进行隐变量提取,得到第二隐变量。
其中,第一图自编码器具体可以是基于结构深层网络嵌入算法(Structural DeepNetwork Embedding,SDNE)实现的自编码器,而第二图自编码器可以是变分图自编码器(Variational Graph Auto-Encoders,VGAE)。
其中,SDNE适用于单纯图结构的隐变量提取,VGAE适用于包含带有客户属性的图结构的隐变量提取。两者在不同场景下具有不同的适用性。当担保圈网络图中的样本客户的属性,即初始原始特征变量较为完整时,VGAE提取的隐变量对模型的提升效果更好;当样本客户的属性缺失较为严重时,SDNE提取的隐变量对模型的提升效果更好。所以,分别将这两种图自编码器技术应用于模型构,从而能保证得到效果比较优的模型。
S105、根据表现期内各个样本客户的还款信息,生成每个样本客户对应的客户标签。
其中,客户标签包括违约标签以及未违约标签。
具体的,可以把观察期之后的一段时间确立为样本客户的表现期。根据表现期内样本客户贷款的还款信息,即根据样本客户实际违约情况为贷款违约客户打上违约标签,对未违约的样本客户打上未违约标签,作为后续模型将会使用的分类标签,从而可以将训练样本划分为正样本和负样本。
S106、利用清洗后的多个样本客户对应的原始特征变量、第一隐变量以及各个样本客户对应的客户标签组成第一数据集,以及利用清洗后的多个样本客户对应的原始特征变量、第二隐变量以及各个样本客户对应的客户标签组成第二数据集。
S107、利用第一数据集对第一初始违约贷款模型进行训练,得到第一违约贷款模型,以及利用所述第二数据集对第二初始违约贷款模型进行训练,得到第二违约贷款模型。
其中,第一初始违约贷款模型和第二初始违约贷款模型初始时为相同类型的模型,并且可以采用相同的方法对两个模型进行训练。可选地,可以选用LightGBM作为初始的第一初始违约贷款模型和第二初始违约贷款模型。
需要说明的是,第一违约贷款模型对应所述第一图自编码器,第二违约贷款模型对应第二图自编码器。即模型是使用哪个图自编码器提取的隐变量进行训练,则该模型就对应哪个图自编码。
可选地,在本申请另一实施例中,在执行步骤S106之后,还可以先进一步执行:
将第一数据集划分为第一训练集、第一测试集以及第一验证集,以及将第二数据集划分为第二训练集、第二测试集以及第二验证集。
其中,训练集主要用于训练模型,测试集则用于在训练完成后对模型进行测试,而验证集则用于对两个模型进行评估。
所以相应的,在本申请实施例中,步骤S107则为:利用第一训练集对第一初始违约贷款模型进行训练,得到第一违约贷款模型,以及利用第二训练集对第二初始违约贷款模型进行训练,得到第二违约贷款模型。
基于本申请实施训练的两个违约贷款模型的方法,本申请实施例提供的一种目标违约贷款模型的选取方法,如图2所示,具体包括:
S201、分别计算第一验证集以及第二验证集对应的AUC值。
由上述可知,SDNE适用于单纯图结构的隐变量提取,VGAE适用于包含带有客户属性的图结构的隐变量提取。所以,由哪种图自编码器提取的隐变量训练得到的模型,也适用于对相应的数据进行处理。而本申请实施例通过AUC值,评估两个模型的优劣。
S202、判断第一验证集对应的AUC值是否大于第二验证集对应的AUC值。
其中,若判断出第一验证集对应的AUC值大于第二验证集对应的AUC值,则执行步骤S203。若第一验证集对应的AUC值小于第二验证集对应的AUC值,则执行步骤S204。需要说明的是,在一验证集对应的AUC值等于第二验证集对应的AUC值时,选择哪个违约贷款模型作为目标违约贷款模型都可以。所以本申请实施例中,在这种情况下选择执行步骤S204。
S203、选取第一违约贷款模型作为目标违约贷款模型。
S204、选取第二违约贷款模型作为目标违约贷款模型。
基于上述实施例训练并选取出的目标违约模型,本申请实施例提供了一种客户风险的识别方法,如图3所示,具体包括以下步骤:
S301、根据多个客户间的担保关系,构建多个客户对应的担保圈网络。
其中,担保圈网络中的每个节点对应一个客户。担保圈网络中有向边表征客户间的担保关系。
S302、获取与多个客户的违约风险相关的预设类型的原始特征变量。
其中,原始特征变量主要指的是区别于隐变量,可直接获取的特征变量。主要包括客户的基本信息以及历史信用信息等,如对于企业,具体可以包括:企业资产、负债、利润等财务数据、公司成立年限、实缴资本、注册资本、从业人员数量、所属行业、规模、所在地区、信贷余额、所持产品、重要关联人信用状况等。
可选地,在执行步骤S302得到原始特征变量之后,还可以进一步包括:利用预设清洗规则,对原始特征向量进行清洗。
需要说明的是,清洗规则以及清洗过程与上述实施例中的步骤S103相同,此处步骤赘述。
S303、利用与预先训练好的目标违约贷款模型对应的图自编码器,提取出担保圈网络中的隐变量。
其中,目标违约贷款模型为从预先训练好的两个违约贷款模型中选取出的预测效果较优的模型,即从上述实施例训练得到的第一违约贷款模型和第二违约贷款模型中选取,具体同样可以采用如图2所示出的方式进行选取。两个违约贷款模型分别采用多个样本客户对应的原始特征变量,和对应的图自编码器从多个样本客户对应的担保圈网络中提取出的隐变量所组成的训练集进行训练得到。两个所述违约贷款模型对应的图自编码器不相同,对应的编码器可以分别为SDNE和VGAE。
S304、将原始特征变量以及担保圈网络中的隐变量输入目标违约贷款模型中,利用目标违约贷款模型对原始特征变量以及担保圈网络中的隐变量进行计算,得到每个客户的违约概率。
本申请实施例提供的客户风险的识别方法,预先分别采用多个样本客户对应的原始特征变量,和对应的图自编码器从多个样本客户对应的担保圈网络中提取出的隐变量所组成的训练集进行训练得到两个违约贷款模型,并从中选取出的预测效果较优的模型作为目标模型。在对多个客户进行风险识别时,获取与多个客户的违约风险相关的预设类型的原始特征变量,并且根据多个客户间的担保关系,构建多个客户对应的担保圈网络,然后利用与预先训练好的目标违约贷款模型对应的图自编码器提取出担保圈网络中的隐变量,从而可以得到能反映各个客户间的风险传递的隐变量。最后是将原始特征变量以及担保圈网络中的隐变量共同输入到目标违约贷款模型中,利用目标违约贷款模型对原始特征变量以及担保圈网络中的隐变量进行计算,得到每个客户的违约概率,从而充分考虑了客户的个人信息以及隐藏的各个客户间的风险关系,有效保证了预测结果的准确性。
本申请另一实施例提供了一种客户风险的识别装置,如图4所示,包括以下单元:
第一构建单元401,用于根据多个客户间的担保关系,构建多个客户对应的担保圈网络。
其中,担保圈网络中的每个节点对应一个客户。担保圈网络中有向边表征客户间的担保关系。
第一获取单元402,用于获取与多个客户的违约风险相关的预设类型的原始特征变量。
第一提取单元403,用于利用与预先训练好的目标违约贷款模型对应的图自编码器,提取出担保圈网络中的隐变量。
其中,目标违约贷款模型为从预先训练好的两个违约贷款模型中选取出的预测效果较优的模型。两个违约贷款模型分别采用多个样本客户对应的原始特征变量,和对应的图自编码器从多个样本客户对应的担保圈网络中提取出的隐变量所组成的训练集进行训练得到。两个违约贷款模型对应的图自编码器不相同。
识别单元404,用于将原始特征变量以及担保圈网络中的隐变量输入目标违约贷款模型中,利用目标违约贷款模型对原始特征变量以及担保圈网络中的隐变量进行计算,得到每个客户的违约概率。
可选地,在本申请另一实施例提供的客户风险的识别装置中,还包括:
第一清洗单元,用于利用预设清洗规则,对原始特征向量进行清洗。
可选地,在本申请另一实施例提供的客户风险的识别装置中,还可以进一步包括模型训练单元。其中,模型训练单元,如图5所示,具体包括以下单元:
第二构建单元501,用于根据多个样本客户间的担保关系,构建多个样本客户对应的担保圈网络。
其中,多个样本客户为在设定的观察期内存在担保关系的贷款客户。
第二获取单元502,用于获取与多个样本客户的违约风险相关的预设类型的原始特征变量,得到多个样本客户对应的原始特征变量。
第二清洗单元503,用于利用预设清洗规则,对多个样本客户对应的原始特征变量进行清洗。
第二提取单元504,用于利用第一图自编码器对多个样本客户对应的担保圈网络进行隐变量提取,得到第一隐变量,以及利用第二图自编码器对多个样本客户对应的担保圈网络进行隐变量提取,得到第二隐变量。
标签生成单元505,用于根据表现期内各个样本客户的还款信息,生成每个样本客户对应的客户标签。
其中,客户标签包括违约标签以及未违约标签。
数据集构建单元506,用于将清洗后的多个样本客户对应的原始特征变量、第一隐变量以及各个样本客户对应的客户标签组成第一数据集,以及将清洗后的多个样本客户对应的原始特征变量、第二隐变量以及各个样本客户对应的客户标签组成第二数据集。
训练单元507,用于利用第一数据集对第一初始违约贷款模型进行训练,得到第一违约贷款模型,以及利用第二数据集对第二初始违约贷款模型进行训练,得到第二违约贷款模型;其中,第一初始违约贷款模型和第二初始违约贷款模型为相同类型的模型;第一违约贷款模型对应第一图自编码器;第二违约贷款模型对应第二图自编码器。
可选地,在本申请另一实施例提供的客户风险的识别装置中,还包括:
划分单元,用于将第一数据集划分为第一训练集、第一测试集以及第一验证集,以及将第二数据集划分为第二训练集、第二测试集以及第二验证集。
其中,本申请实施例中的训练单元,包括:
训练子单元,用于利用第一训练集对第一初始违约贷款模型进行训练,得到第一违约贷款模型,以及利用第二训练集对第二初始违约贷款模型进行训练,得到第二违约贷款模型。
可选地,在本申请另一实施例提供的客户风险的识别装置中,还包括:
计算单元,用于分别计算第一验证集以及第二验证集对应的AUC值。
第一选取单元,用于在第一验证集对应的AUC值大于第二验证集对应的AUC值时,选取第一违约贷款模型作为目标违约贷款模型。
第二选取单元,用于在第一验证集对应的AUC值小于第二验证集对应的AUC值时,则选取第二违约贷款模型作为目标违约贷款模型。
需要说明的是,本申请上述实施例提供的各个单元的具体工作过程可相应地参考上述方法实施例中的相应的步骤的实施过程,此处不再赘述。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种客户风险的识别方法,其特征在于,包括:
根据多个客户间的担保关系,构建所述多个客户对应的担保圈网络;其中,所述担保圈网络中的每个节点对应一个所述客户;所述担保圈网络中有向边表征所述客户间的担保关系;
获取与所述多个客户的违约风险相关的预设类型的原始特征变量;
利用与预先训练好的目标违约贷款模型对应的图自编码器,提取出所述担保圈网络中的隐变量;其中,所述目标违约贷款模型为从预先训练好的两个违约贷款模型中选取出的预测效果较优的模型;两个所述违约贷款模型分别采用多个样本客户对应的原始特征变量,和对应的图自编码器从所述多个样本客户对应的担保圈网络中提取出的隐变量所组成的训练集进行训练得到;两个所述违约贷款模型对应的图自编码器不相同;
将所述原始特征变量以及所述担保圈网络中的隐变量输入所述目标违约贷款模型中,利用所述目标违约贷款模型对所述原始特征变量以及所述担保圈网络中的隐变量进行计算,得到每个所述客户的违约概率。
2.根据权利要求1所述的方法,其特征在于,所述获取与所述多个客户的违约风险相关的预设类型的原始特征变量之后,还包括:
利用预设清洗规则,对所述原始特征向量进行清洗。
3.根据权利要求1所述的方法,其特征在于,两个所述违约贷款模型的训练方法,包括:
根据所述多个样本客户间的担保关系,构建所述多个样本客户对应的担保圈网络;其中,所述多个样本客户为在设定的观察期内存在担保关系的贷款客户;
获取与所述多个样本客户的违约风险相关的预设类型的原始特征变量,得到所述多个样本客户对应的原始特征变量;
利用预设清洗规则,对所述多个样本客户对应的原始特征变量进行清洗;
利用第一图自编码器对所述多个样本客户对应的担保圈网络进行隐变量提取,得到第一隐变量,以及利用第二图自编码器对所述多个样本客户对应的担保圈网络进行隐变量提取,得到第二隐变量;
根据表现期内各个所述样本客户的还款信息,生成每个所述样本客户对应的客户标签;其中,所述客户标签包括违约标签以及未违约标签;
将清洗后的所述多个样本客户对应的原始特征变量、所述第一隐变量以及各个所述样本客户对应的客户标签组成第一数据集,以及将清洗后的所述多个样本客户对应的原始特征变量、所述第二隐变量以及各个所述样本客户对应的客户标签组成第二数据集;
利用第一数据集对第一初始违约贷款模型进行训练,得到第一违约贷款模型,以及利用所述第二数据集对第二初始违约贷款模型进行训练,得到第二违约贷款模型;其中,所述第一初始违约贷款模型和所述第二初始违约贷款模型为相同类型的模型;所述第一违约贷款模型对应所述第一图自编码器;所述第二违约贷款模型对应所述第二图自编码器。
4.根据权利要求3所述的方法,其特征在于,所述将清洗后的所述多个样本客户对应的原始特征变量、所述第一隐变量以及各个所述样本客户对应的客户标签组成第一数据集,以及将清洗后的所述多个样本客户对应的原始特征变量、所述第二隐变量以及各个所述样本客户对应的客户标签组成第二数据集之后,还包括:
将所述第一数据集划分为第一训练集、第一测试集以及第一验证集,以及将所述第二数据集划分为第二训练集、第二测试集以及第二验证集;
其中,所述利用第一数据集对第一初始违约贷款模型进行训练,得到第一违约贷款模型,以及利用所述第二数据集对第二初始违约贷款模型进行训练,得到第二违约贷款模型,包括:
利用所述第一训练集对第一初始违约贷款模型进行训练,得到第一违约贷款模型,以及利用所述第二训练集对第二初始违约贷款模型进行训练,得到第二违约贷款模型。
5.根据权利要求4所述的方法,其特征在于,所述目标违约贷款模型选取方法,包括:
分别计算所述第一验证集以及所述第二验证集对应的AUC值;
若所述第一验证集对应的AUC值大于所述第二验证集对应的AUC值,则选取所述第一违约贷款模型作为所述目标违约贷款模型;
若所述第一验证集对应的AUC值小于所述第二验证集对应的AUC值,则选取所述第二违约贷款模型作为所述目标违约贷款模型。
6.一种客户风险的识别装置,其特征在于,包括:
第一构建单元,用于根据多个客户间的担保关系,构建所述多个客户对应的担保圈网络;其中,所述担保圈网络中的每个节点对应一个所述客户;所述担保圈网络中有向边表征所述客户间的担保关系;
第一获取单元,用于获取与所述多个客户的违约风险相关的预设类型的原始特征变量;
第一提取单元,用于利用与预先训练好的目标违约贷款模型对应的图自编码器,提取出所述担保圈网络中的隐变量;其中,所述目标违约贷款模型为从预先训练好的两个违约贷款模型中选取出的预测效果较优的模型;两个所述违约贷款模型分别采用多个样本客户对应的原始特征变量,和对应的图自编码器从所述多个样本客户对应的担保圈网络中提取出的隐变量所组成的训练集进行训练得到;两个所述违约贷款模型对应的图自编码器不相同;
识别单元,用于将所述原始特征变量以及所述担保圈网络中的隐变量输入所述目标违约贷款模型中,利用所述目标违约贷款模型对所述原始特征变量以及所述担保圈网络中的隐变量进行计算,得到每个所述客户的违约概率。
7.根据权利要求6所述的装置,其特征在于,还包括:
第一清洗单元,用于利用预设清洗规则,对所述原始特征向量进行清洗。
8.根据权利要求6所述的装置,其特征在于,还包括模型训练单元,其中,所述模型训练单元,包括:
第二构建单元,用于根据所述多个样本客户间的担保关系,构建所述多个样本客户对应的担保圈网络;其中,所述多个样本客户为在设定的观察期内存在担保关系的贷款客户;
第二获取单元,用于获取与所述多个样本客户的违约风险相关的预设类型的原始特征变量,得到所述多个样本客户对应的原始特征变量;
第二清洗单元,用于利用预设清洗规则,对所述多个样本客户对应的原始特征变量进行清洗;
第二提取单元,用于利用第一图自编码器对所述多个样本客户对应的担保圈网络进行隐变量提取,得到第一隐变量,以及利用第二图自编码器对所述多个样本客户对应的担保圈网络进行隐变量提取,得到第二隐变量;
标签生成单元,用于根据表现期内各个所述样本客户的还款信息,生成每个所述样本客户对应的客户标签;其中,所述客户标签包括违约标签以及未违约标签;
数据集构建单元,用于将清洗后的所述多个样本客户对应的原始特征变量、所述第一隐变量以及各个所述样本客户对应的客户标签组成第一数据集,以及将清洗后的所述多个样本客户对应的原始特征变量、所述第二隐变量以及各个所述样本客户对应的客户标签组成第二数据集;
训练单元,用于利用第一数据集对第一初始违约贷款模型进行训练,得到第一违约贷款模型,以及利用所述第二数据集对第二初始违约贷款模型进行训练,得到第二违约贷款模型;其中,所述第一初始违约贷款模型和所述第二初始违约贷款模型为相同类型的模型;所述第一违约贷款模型对应所述第一图自编码器;所述第二违约贷款模型对应所述第二图自编码器。
9.根据权利要求8所述的装置,其特征在于,还包括:
划分单元,用于将所述第一数据集划分为第一训练集、第一测试集以及第一验证集,以及将所述第二数据集划分为第二训练集、第二测试集以及第二验证集;
其中,所述训练单元,包括:
训练子单元,用于利用所述第一训练集对第一初始违约贷款模型进行训练,得到第一违约贷款模型,以及利用所述第二训练集对第二初始违约贷款模型进行训练,得到第二违约贷款模型。
10.根据权利要求9所述的装置,其特征在于,还包括:
计算单元,用于分别计算所述第一验证集以及所述第二验证集对应的AUC值;
第一选取单元,用于在所述第一验证集对应的AUC值大于所述第二验证集对应的AUC值时,选取所述第一违约贷款模型作为所述目标违约贷款模型;
第二选取单元,用于在所述第一验证集对应的AUC值小于所述第二验证集对应的AUC值时,则选取所述第二违约贷款模型作为所述目标违约贷款模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110551355.XA CN113177840B (zh) | 2021-05-20 | 一种客户风险的识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110551355.XA CN113177840B (zh) | 2021-05-20 | 一种客户风险的识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113177840A true CN113177840A (zh) | 2021-07-27 |
CN113177840B CN113177840B (zh) | 2024-09-06 |
Family
ID=
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115112169A (zh) * | 2022-06-13 | 2022-09-27 | 济南瑞源智能城市开发有限公司 | 一种隧道内的环境数据采集分析方法、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018090657A1 (zh) * | 2016-11-18 | 2018-05-24 | 同济大学 | 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统 |
CN108389125A (zh) * | 2018-02-27 | 2018-08-10 | 挖财网络技术有限公司 | 信贷申请的逾期风险预测方法及装置 |
CN110378786A (zh) * | 2019-07-29 | 2019-10-25 | 中国工商银行股份有限公司 | 模型训练方法、违约传导风险识别方法、装置及存储介质 |
CN111710150A (zh) * | 2020-05-14 | 2020-09-25 | 国网江苏省电力有限公司南京供电分公司 | 一种基于对抗自编码网络的异常用电数据检测方法 |
US20200372352A1 (en) * | 2019-05-22 | 2020-11-26 | Royal Bank Of Canada | System and method for machine learning architecture with variational hyper-rnn |
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018090657A1 (zh) * | 2016-11-18 | 2018-05-24 | 同济大学 | 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统 |
CN108389125A (zh) * | 2018-02-27 | 2018-08-10 | 挖财网络技术有限公司 | 信贷申请的逾期风险预测方法及装置 |
US20200372352A1 (en) * | 2019-05-22 | 2020-11-26 | Royal Bank Of Canada | System and method for machine learning architecture with variational hyper-rnn |
CN110378786A (zh) * | 2019-07-29 | 2019-10-25 | 中国工商银行股份有限公司 | 模型训练方法、违约传导风险识别方法、装置及存储介质 |
CN111710150A (zh) * | 2020-05-14 | 2020-09-25 | 国网江苏省电力有限公司南京供电分公司 | 一种基于对抗自编码网络的异常用电数据检测方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115112169A (zh) * | 2022-06-13 | 2022-09-27 | 济南瑞源智能城市开发有限公司 | 一种隧道内的环境数据采集分析方法、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110009174B (zh) | 风险识别模型训练方法、装置及服务器 | |
CN110188198B (zh) | 一种基于知识图谱的反欺诈方法及装置 | |
CN109711955B (zh) | 基于当前订单的差评预警方法、系统、黑名单库建立方法 | |
CN112668859A (zh) | 基于大数据的客户风险评级方法、装置、设备及存储介质 | |
US20140172681A1 (en) | Process for Verifying Data Identity for Lending Decisions | |
WO2020073727A1 (zh) | 风险预测方法、装置、计算机设备和存储介质 | |
CN112927072B (zh) | 一种基于区块链的反洗钱仲裁方法、系统及相关装置 | |
WO2006130819A2 (en) | Dynamic multidimensional risk-weighted suspicious activities detector | |
CN112200660B (zh) | 一种银行柜面业务的监督方法、装置及设备 | |
CN111736940A (zh) | 智能柜台的业务界面展示方法及装置 | |
CN114627330A (zh) | 时序流量预测方法及装置、存储介质及电子设备 | |
CN115577691A (zh) | 标书生成方法、存储介质及电子装置 | |
CN114782161A (zh) | 识别风险用户的方法、装置、存储介质及电子装置 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN112990989B (zh) | 价值预测模型输入数据生成方法、装置、设备和介质 | |
CN113887214A (zh) | 基于人工智能的意愿推测方法、及其相关设备 | |
CN109711984B (zh) | 一种基于催收的贷前风险监控方法及装置 | |
CN111754195A (zh) | 信息处理的方法及装置、电子设备及计算机可读存储介质 | |
Juma et al. | Exploratory Analysis of Risk Management Process of UAE Police Department | |
CN110619564B (zh) | 一种反欺诈特征生成方法和装置 | |
CN115907282A (zh) | 基于多级标签的人才测评方法及装置 | |
CN113177840A (zh) | 一种客户风险的识别方法及装置 | |
CN113177840B (zh) | 一种客户风险的识别方法及装置 | |
CN115713248A (zh) | 对用于交易所的数据打分和评价的方法 | |
CN110570301B (zh) | 风险识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |