CN113240506A - 一种基于无监督领域自适应的金融风控冷启动建模方法 - Google Patents

一种基于无监督领域自适应的金融风控冷启动建模方法 Download PDF

Info

Publication number
CN113240506A
CN113240506A CN202110507997.XA CN202110507997A CN113240506A CN 113240506 A CN113240506 A CN 113240506A CN 202110507997 A CN202110507997 A CN 202110507997A CN 113240506 A CN113240506 A CN 113240506A
Authority
CN
China
Prior art keywords
sample
domain
target domain
data
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110507997.XA
Other languages
English (en)
Inventor
郑小林
徐帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110507997.XA priority Critical patent/CN113240506A/zh
Publication of CN113240506A publication Critical patent/CN113240506A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明涉及信贷风险评估领域,旨在提供一种基于无监督领域自适应的金融风控冷启动建模方法。包括:数据输入及预处理、变分自编码器映射、基于对抗的域对齐、基于加权适配度的样本自适应加权、伪标签迭代优化、参数优化和结果输出的步骤。本发明的风控建模算法可以应用在新业务上线的缺乏标签样本的冷启动阶段,适用于没有标签样本的冷启动场景,在金融风控的场景中精度更高,效果更好。可以有效解决现有迁移学习中的负迁移问题以及金融风控领域的数据异质性问题。本发明的模型训练及部署框架泛化性强,可以有效应用在其他的业务场景中,具有良好的适配性及迁移性。

Description

一种基于无监督领域自适应的金融风控冷启动建模方法
技术领域
本发明涉及信贷风险评估领域,特别涉及一种基于无监督领域自适应的金融风控冷启动建模方法。
背景技术
信用风险预测是辅助贷款机构发放消费信贷的一整套决策支持技术,这些技术影响着谁会获得贷款、获得贷款的金额、贷款利率,以及贷款机构将设定哪些合适的经营策略来提高利润率。通常,贷款机构的风险控制包括三个阶段:贷前风控、贷中风控以及贷后风控。
贷前风控通常使用申请评分(Application Scoring),即A卡,主要目的是为了识别获客阶段用户的逾期风险。一般应用于准入、额度授信、风险定价、支用审批等流程。贷中风控通常使用行为评分(Behavior Scoring),即B卡,是根据借款人放贷后的行为表现,来预测未来逾期风险。在贷前阶段,金融机构对借款人的履约行为掌握相对较少,而且是静态的,引入B卡的目的是为了动态监控放款后的风险变化。贷后风控通常使用催收评分(Collection Scoring),即C卡,在借款人当前还款状态为逾期的情况下,预测未来还款的可能性。这有助于催收员根据不同的逾期程度,来采取相应的催收措施。
金融风控冷启动问题属于贷前风控即A卡在业务上线初期的特殊阶段,一般的A卡建模通常采用评分卡模型,该模型在国内外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用逻辑回归模型进行的一种二分类变量的广义线性模型。
而利用大数据进行风险防控往往需要一段历史数据的积累过程,根据《巴塞尔协议 II》,量化评分的模型通常需要一定数量的历史积累数据作为训练样本,在这其中至少需要包括800到1000个“坏客户”标记样本。新产品上线初期往往面临着缺少甚至没有历史标记样本的问题,如图1所示,用户的标签往往需要经历观察点之后的一段表现期才能确定,而表现期通常为3个月甚至更久,这时候建模人员难以建立数据驱动下的规则决策和有监督的量化评分模型,这个困境也被称之为风控系统的冷启动问题。
综合来看,以上发明在金融风控冷启动领域主要存在以下问题:(1)基于XGBoost、逻辑回归这样的有监督方法需要大量的标签样本,不适合金融风控的冷启动场景;(2) 目前的基于迁移学习的方法,不管是基于样本的迁移还是基于微调的迁移方法通过从源域到目标域的迁移可以在一定程度上缓解风控建模初期标签样本缺少的问题,但仍需要少量的目标域标签样本辅助建模,无法直接应用到没有标签的金融风控冷启动场景中; (3)基于孤立森林这样的无监督方法主要应用在欺诈检测、异常识别这样类别差异非常明显的异常检测问题,且没有借助其他的业务场景经验,应用在金融风控冷启动场景中存在分类的偶然性大、精度不高的问题。
同时,在实际的金融信贷业务冷启动场景中应用基于对抗的领域自适应方法往往面临三个方面的挑战:数据异质性(data heterogeneity):不同域之间特征不兼容,同一特征在源域和目标域中分布差异大。数据不平衡(data imbalance):数据所属类别数量差异大,在金融信贷业务,逾期的坏样本往往远远少于好样本。负迁移(negative transfer):在源域上学习到的知识,对于目标域上的学习产生负面作用。
在信贷风险评估领域,基于统计的机器学习方法仍然是主流。在能够收集足够标签样本的场景,逻辑回归以及基于决策树的模型仍然是建模人员最为常用的方法。近几年深度学习方法的飞速发展也推动了这一领域的研究,针对新业务初期的冷启动阶段缺少有标签样本的问题,基于迁移学习的方法在信贷风险评估领域逐渐引起了人们的关注,利用相似场景的风控模型提升目标场景下风控模型性能的思路得到了专家学者们的普遍认可。但当前提出的方法大多要求目标场景数据是有标签或者有部分标签的,即业务发展初期的冷启动研究而并非严格意义上的冷启动。具体表现为:
1)基于XGBoost、逻辑回归这样的有监督方法需要大量的标签样本,不适合金融风控的冷启动场景;2)目前的基于迁移学习的方法,不管是基于样本的迁移还是基于微调的迁移方法通过从源域到目标域的迁移可以在一定程度上缓解风控建模初期标签样本缺少的问题,但仍需要少量的目标域标签样本辅助建模,无法直接应用到没有标签的金融风控冷启动场景中;3)基于孤立森林这样的无监督方法主要应用在欺诈检测、异常识别这样类别差异非常明显的异常检测问题,且没有借助其他的业务场景经验,应用在金融风控冷启动场景中存在分类的偶然性大、精度不高的问题。
发明内容
本发明要解决的技术问题是,克服现有技术中的不足,提供一种基于无监督领域自适应的金融风控冷启动建模方法。
为解决上述技术问题,本发明采用的解决方案是:
提供一种基于无监督领域自适应的金融风控冷启动建模方法,包括以下步骤:
(1)数据输入及预处理
将金融机构成熟业务的样本集合定义为源域集合,将开展初期的新业务样本集合定义为目标域集合,对样本中的变量进行预处理;
(2)变分自编码器映射
以特征提取器提取源域中的不变特征,使目标域的数据映射成为标准的高斯分布,能直接应用到分类器中;利用变分自编码器学习源域和目标域中数据的隐藏分布,以缩小源域和目标域之间的领域差异;
(3)基于对抗的域对齐
生成器采用域混合方法对源域和目标域的样本做差值,得到处于中间嵌入状态的混合嵌入向量;其输出分为两部分,其中一部分输出用于伪标签迭代优化,另一部分输出用于样本自适应加权;
(4)基于加权适配度的样本自适应加权
在迭代训练过程中使用加权熵来度量样本的不确定性,将加权熵加入到源域样本和目标域样本的判别器优化中;
(5)伪标签迭代优化
针对目标域中无标签的样本,通过赋予更高分类置信度的人为设定伪标签方式来优化分类器;分类置信度采用动态阈值,其设定值与训练情况相适应;
(6)参数优化
基于特征提取器、生成器、判别器和分类器的使用,模型采用梯度下降的方法对损失函数所涉及到的特征提取器、生成器、判别器以及分类器的参数进行优化;
(7)结果输出
保存训练所得风控模型,然后进行线上部署,使用gRPC作为接口接受外部调用,每次客户端的请求以json串的形式传入;风控模型根据待审核的贷款业务的信启、预估信贷用户借贷逾期的概率值,将概率值转化为对应的风险级别,并根据识别结果给出最终的风险控制警示信息。
本发明中,所述步骤(1)具体包括:
(1.1)数据输入的操作:
定义来自金融机构成熟业务的样本集合为源域集合Ds={Xs,Ys},其中开展初期的新业务样本集合为目标域集合Dt={Xt},Xs和Xt分别代表源域样本集和目标域样本集,Ys代表源域标签集合,不同域的任务均为预测用户借贷是否会发生违约;其中源域标签 ys∈{0,1},ys=0指代源域样本为好样本,即表现期内未发生违约行为;yt=1指代源域样本为坏样本,即表现期内发生了违约行为;在训练过程中不使用新业务样本标签的情况下,在信用风险违约冷启动观测点预测未来一段时间内的
Figure BDA0003057797420000041
(1.2)数据预处理过程的操作:
对获取的样本和样本特征维度进行缺失值处理和异常值处理;划分数据结束后将样本中的每个变量进行证据权重,WOE(Weight of Evidence)转换;连续变量,寻找最佳变化函数的方法;每个变量进项哑变量编码;多个连续变量进行加减乘除运算;多个类型的变量进行交叉组合;保留变量原值作为特征变量。
本发明中,所述步骤(2)具体包括:
使用变分自编码器学习源域和目标域数据的隐藏分布,缩小源域和目标域之间的领域差异,缓解金融风控领域的数据异质性问题;
变分自编码器的核心是特征提取器M,通过特征提取器M将源域和目标域数据各自映射成为标准的高斯分布
Figure BDA0003057797420000042
由源域数据Xs和目标域数据Xt分别得到对应的源域嵌入向量(μs,σs)和目标域嵌入向量(μtσt),其中μ表示均值,σ表示方差;
利用对抗学习使特征提取器M能从源域中提取领域不变特征,目标域的数据经过映射后能直接应用到学习到的分类器中完成分类任务;为了使学习到的隐层分布接近标准高斯分布,在特征提取器M中需要最小化先验标准高斯分布和实际后验分布之间的KL 散度(Kullback-Leibler):
Figure BDA0003057797420000043
这里DKL表示的是相对熵,最小化KL散度即是最小化嵌入向量与高斯分布的相对熵。
本发明中,所述步骤(3)具体包括:
生成器G使用域混合方法生成源域和目标域之间中间状态的样本,以经过特征提取器M映射得到的源域嵌入向量(μs,σs)和目标域嵌入向量(μt,σt)作为输入,使用域混合方法对两个域的样本做差值,得到处于中间嵌入状态的混合嵌入向量(μm,σm),其中μm=λμs+(1-λ)μt,σm=λσs+(1-λ)σt
差值程度由混合率λ来调整,其中λ∈[0,1],λ越接近1则更接近源域样本,反之λ越接近0则更接近目标域样本;生成器G的输出分为两部分,其中一部分输出用于伪标签迭代优化,影响后续分类器C的训练;另一部分输出用于样本自适应加权,影响判别器D的训练。
本发明中,所述步骤(4)具体包括:
在领域自适应学习过程中,考虑到样本之间的适配程度差异以及坏样本远少于好样本的先验,为避免对抗学习不充分引发负迁移,使用加权熵来度量样本的不确定性:
Figure BDA0003057797420000051
这里的wk代表类别k的先验概率,pk则代表样本被预测为类别k的概率,K代表总的类别数目;
在迭代训练过程中,为当前适配不充分的样本给予更高的权重,而相应降低当前已经适配比较充分的样本权重;将加权熵加入到源域样本和目标域样本的判别器优化中,得到最终的判别器损失
Figure BDA0003057797420000052
本发明中,所述步骤(5)具体包括:
针对目标域中无标签的样本,通过为相对更高分类置信度的样本人为设定伪标签的方式来优化分类器;
定义来源于目标域的样本
Figure BDA0003057797420000053
的伪标签
Figure BDA0003057797420000054
Figure BDA0003057797420000055
即预测中分数最高的类别,其中为样本在类别中的预测分数,并把该类别的预测分数称为分类置信度confidence,定义为
Figure BDA0003057797420000056
即样本预测为分数最高类别的概率;只有confidence达到阈值T的目标域样本才会被筛选出来赋予伪标签,将阈值T动态设定为
Figure BDA0003057797420000057
这里的ρ是实验中设定的衰减系数,A是由源域数据计算的当前迭代轮次的曲线下面积大小AUC(Area Under Curve);AUC可以理解为随机给定一个正样本和一个负样本,用一个分类器进行分类和预测,该正样本的得分比该负样本的得分要大的概率;
在衰减系数ρ保持不变的情况下,随着当前轮次AUC的不断提升,伪标签的划定阈值也在不断提高,从而使得阈值的设定与训练情况相适应;由此加入目标域伪标签的损失项,得到分类器损失为
Figure BDA0003057797420000058
Figure BDA0003057797420000059
其中
Figure BDA00030577974200000510
为实际标签,而
Figure BDA00030577974200000511
则为伪标签。
发明原理描述:
本发明借助无监督领域自适应在当前计算机视觉、自然语言处理等领域的成功经验,结合金融风控数据的特点,聚焦解决金融信贷风险违约预测中的冷启动问题,提出一种可以在缺乏标签样本的场景下进行无监督风控建模的方法。本发明致力于解决金融风控中的三大问题:数据异质性、数据不平衡以及负迁移。
本发明针对数据异质性带来的不同金融场景数据分布差异大的问题,在基于对抗的域对齐的步骤中提出基于对抗的领域自适应学习方法使用将源域和目标域样本做域混合的数据增强方法生成处于两个域之间中间状态的新样本,从而缓解数据分布差异大带来的对抗学习初始阶段判别器与生成器训练难的问题。
针对金融数据常见的数据不平衡以及领域自适应学习中普遍存在的负迁移问题,在基于加权适配度的样本自适应加权的步骤中提出基于加权熵的样本自适应权重调整,使得在迭代训练过程中更加关注不确定性高的样本的同时侧重对少类样本的学习。本文的方法不仅对于本模型而言是可行有效的,而且还可以非常灵活地适用于当前各种现有的基于对抗学习的领域自适应方法。
在基于伪标签迭代优化的步骤中,本发明将伪标签迭代优化的方法应用于提出的领域自适应方法中,并针对金融信贷冷启动的场景设计了动态阈值自适应调整,可以有效提升模型的域适应性能。
基于上述创新内容,本发明相对于现有技术而言针对性更强,可以在缺乏标签样本的场景下建模有效的风控模型,更加适用于新业务上线初期的金融风控冷启动问题,对用户有较高的预测能力。
与现有技术相比,本发明的技术效果是:
(1)本发明的风控建模算法可以应用在新业务上线的缺乏标签样本的冷启动阶段,相比基于样本以及基于模型的迁移方法可以适用于没有标签样本的冷启动场景,相比于基于孤立森林的无监督方法在金融风控的场景中精度更高,效果更好。
(2)本发明提出的域对齐方法、样本自适应加权方法以及伪标签迭代优化方法可以有效解决现有迁移学习中的负迁移问题以及金融风控领域的数据异质性问题。
(3)本文应用的模型训练及部署框架泛化性强,可以有效应用在其他的业务场景中,具有良好的适配性及迁移性。
附图说明
图1为金融风控冷启动过程中的样本时间窗口示意图;
图2为本发明金融风控冷启动建模的总体流程图;
图3为本发明金融风控冷启动建模的网络设计图;
图4为本发明建模总体框架图。
具体实施方式
首先需要说明的是,本发明涉及数据库技术,是计算机技术在金融风控技术领域的一种应用。在本发明的实现过程中,会涉及到多个软件功能模块的应用。申请人认为,如在仔细阅读申请文件、准确理解本发明的实现原理和发明目的以后,在结合现有公知技术的情况下,本领域技术人员完全可以运用其掌握的软件编程技能实现本发明。凡本发明申请文件提及的均属此范畴,申请人不再一一列举。
下面结合附图,对本发明的具体实施方式进行详细描述。
为解决现有技术问题,本发明构建了如图2所示包括七大功能模块的金融风控模型:数据输入及预处理模块、变分自编码器映射模块、基于对抗的域对齐模块、基于加权适配度的样本自适应加权模块、伪标签迭代优化模块、参数优化模块以及输出模块。该模型中应用了四个子网络:特征提取器M、生成器G、判别器D以及分类器C。
其中特征提取器M相当于变分自编码器的编码器(Encoder)部分,生成器G相当于变分自编码器的解码器(Decoder)部分,判别器D和分类器C本质均为网络参数逐层减小的多层感知机(Multilayer Perceptron,MLP),只不过判别器标签为样本来自源域还是目标域;而分类器的标签为源域中样本是否违约。
基于上述模型,本发明提供了一种基于无监督领域自适应的的金融风控冷启动方法,包括以下步骤:
1、数据输入及预处理
该步骤中首先定义源域集合为Ds={Xs,Ys},目标域集合为Dt={Xt},Xs和Xt分别代表源域样本集和目标域样本集,Ys代表源域标签集合。这里的源域指的是金融机构中已经发展成熟的业务,如各商业银行和持牌消费金融公司普遍开展的信用贷款;而这里的目标域则选取开展初期的新业务,如现金贷等。选取目标域样本申请借贷的时间点为观测点,如图1所示,其中观测点之前的时间段为观察期,指用户申请信贷产品前的时间段,主要用于特征衍生;而观察点之后的一段时间为表现期,指代定义好坏标签的时间窗口。不同域的任务均为预测用户借贷是否会发生违约,其中源域标签ys∈{0,1}, ys=0指代源域样本为好样本,即表现期内未发生违约行为;yt=1指代源域样本为坏样本,即表现期内发生了违约行为;在训练过程中不使用新业务样本标签的情况下,在信用风险违约冷启动观测点预测未来一段时间内的
Figure BDA0003057797420000071
预处理部分进一步包括以下七个步骤:1)对上述获取的样本和样本特征维度进行缺失值处理和异常值处理;2)划分数据结束后将样本中的每个变量进行WOE转换;3) 连续变量,寻找最佳变化函数的方法;4)每个变量进项哑变量编码;5)多个连续变量进行加减乘除运算;6)多个类型的变量进行交叉组合;7)保留变量原值作为特征变量。
2、变分自编码器映射
基于对抗的领域自适应方法的关键,是利用对抗学习使得其中的特征提取器可以从源域中提取领域不变特征,使得目标域的数据经过特征提取器的映射可以直接应用到学习到的分类器中完成分类任务。但是单纯使用生成对抗网络(Generative AdversarialNetworks, GAN)进行学习往往训练过程不够稳定,特别是在金融信贷不同业务领域差异大,存在数据异质性的场景,特征提取器的学习往往比较困难。因此本发明使用变分自编码器 (Variational Autoencoder,VAE)学习源域和目标域数据的隐藏分布,其核心是特征提取器M。
特征提取器M将源域和目标域数据各自映射成为标准的高斯分布
Figure BDA0003057797420000081
这样每个样本都会被映射成为由均值向量μ和标准差向量σ组成的嵌入向量。而为了使得学习到的隐层分布接近标准高斯分布,在特征提取器这里需要最小化先验标准高斯分布和实际后验分布之间的KL散度(Kullback-Leibler):
Figure BDA0003057797420000082
这里DKL表示的是相对熵,最小化KL散度即是最小化嵌入向量与高斯分布的相对熵。
变分自编码器模块主要是为了缩小源域和目标域之间的领域差异,从而帮助缓解金融风控领域的数据异质性问题。其中源域数据Xs经过该模块后将得到对应的源域嵌入向量(μs,σs),目标域数据Xt经过该模块后将得到对应的目标域嵌入向量(μt,σt),如图3所示,其中μ表示均值,σ表示方差。
3、基于对抗的域对齐
为缓解信贷不同业务之间数据异质性带来的特征提取器学习难的问题,本发明采用域混合(Domain Mixup)方法生成源域和目标域之间中间状态的样本。该模块的输入为之前经过共享特征提取器M映射得到的源域嵌入向量(μs,σs)和目标域嵌入向量(μt,σt)。这里使用域混合方法对两个域的样本做差值,得到处于中间嵌入状态的混合嵌入向量 (μm,σm):μm=λμs+(1-λ)μt以及σm=λσs+(1-λ)σt,如图3所示。
这里差值程度由混合率λ来调整,其中λ∈[0,1],λ越接近1则更接近源域样本,反之λ越接近0则更接近目标域样本。同理,这里分别用
Figure BDA0003057797420000083
Figure BDA0003057797420000084
来代表域标签,实验中
Figure BDA0003057797420000091
对应地,域混合得到的中间样本域标签为λ,如
Figure BDA0003057797420000092
这一模块的核心是生成器G,其输出分为两部分,其中一部分输出到伪标签迭代优化模块,影响后续分类器C的训练。需要特殊说明的是,分类器C的训练只用到了源域的样本和标签,这里采用交叉熵作为分类器损失函数:
Figure BDA0003057797420000093
这里的[·]代表级联(concatenation)操作,C()是分类器的输出结果,即预测违约概率。
另一部分则输出到样本自适应加权模块,对于源域样本xs.目标域样本xt以及生成的中间样本xm,这里用xg统一表征经过生成器G解码后的样本:xg=G([μ,σ,z,ldom]),其中z代表高斯噪声,用于增强模型的泛化能力。在此基础上可以得到判别器损失
Figure BDA0003057797420000094
其中
Figure BDA0003057797420000095
代表源域样本判别器损失,
Figure BDA0003057797420000096
代表目标域域样本判别器损失,
Figure BDA0003057797420000097
代表生成的中间样本判别器损失。
这里判别器D主要是用来进行域分类,如图3所示。金融风控数据异质性往往会使得不同域的样本之间分布差异很大,这就使得训练一开始判别器D很容易可以分辨出样本是来自于源域还是目标域,导致网络难以训练。基于对抗的域对齐模块通过将源域和目标域的样本之间做插值,可以使得训练过程中可以获取到中间状态的样本
Figure BDA0003057797420000098
使得模型的迭代更加平稳,从而有利于缓解金融数据的异质性问题。
4、基于加权适配度的样本自适应加权
这一模块的输入来自于上一节的域对齐模块,主要用来解决迁移学习中的负迁移问题。其思想是在领域自适应学习过程中,样本之间的适配程度往往是不同的,如果将这些样本一视同仁地看待往往会使得对抗学习不充分,引发负迁移的问题。目前的做法通常考虑熵(entropy)可以作为不确定性的度量,使用当前模型对样本分类的熵来衡量样本当前适配的充分程度,从而为样本赋予不同的权重。其中适配度的定义为:
Figure BDA0003057797420000099
与此同时,在信贷风险控制领域存在着明显的数据不平衡现象。考虑到坏样本远少于好样本的这种先验,本发明在适配度的基础上提出加权适配度的概念,如下面公式所示,即用加权熵(weighted entropy)代替熵来度量样本的不确定性,这里的wk代表类别 k的先验概率,pk则代表样本被预测为类别k的概率,K代表总的类别数目。
Figure BDA0003057797420000101
即在迭代训练过程中,为当前适配不充分的样本给予更高的权重,而相应降低当前已经适配比较充分的样本权重。而相比于传统的基于熵的适配度度量方式,使用加权熵度量的加权适配度更适用于存在明显样本不平衡现象的信贷风险控制场景。
这一模块主要影响判别器D的学习,将加权熵
Figure BDA0003057797420000102
加入到源域样本和目标域样本的判别器优化中,修改步骤(3)中的
Figure BDA0003057797420000103
Figure BDA0003057797420000104
得到
Figure BDA0003057797420000105
以及
Figure BDA0003057797420000106
Figure BDA0003057797420000107
Figure BDA0003057797420000108
分别表示源域和目标域样本在判别器D中的损失,
Figure BDA0003057797420000109
以及
Figure BDA00030577974200001010
分别表示源域样本和目标域样本在判别器中的输出结果。
5、伪标签迭代优化
这一模块的输入同样来自于之前的域对齐模块,主要针对的是负迁移问题。在前面的模块中本发明模型都是通过优化判别器D和特征提取器M使得源域和目标域之间更好适配,从而缓解负迁移。本发明在这一模块中则是从优化分类器C的角度对这一问题进行探索。信贷冷启动问题中,虽然目标域的样本是无标签的,但在学习过程中可以通过为分类置信度高的样本人为设定伪标签(pseudo label)的方式来优化分类器,这也是半监督学习的思想。
这里定义来源于目标域的样本
Figure BDA00030577974200001011
的伪标签
Figure BDA00030577974200001012
Figure BDA00030577974200001013
即预测中分数最高的类别,并把该类别的预测分数称为分类置信度confidence,定义为
Figure BDA00030577974200001014
即样本预测为分数最高类别的概率。
特别地,只有confidence达到阈值T的目标域样本才会被筛选出来赋予伪标签。考虑到模型是在不断迭代学习过程中的,初始阶段的分类置信度往往都不太高,这里的阈值T动态设定为
Figure BDA00030577974200001015
如图3所示。
这里的ρ是实验中设定的衰减系数,A是由源域数据计算的当前迭代轮次的AUC。可以看到在衰减系数ρ保持不变的情况下,随着当前轮次AUC的不断提升,伪标签的划定阈值也在不断提高,从而使得阈值的设定与模型训练情况相适应。由此加入目标域伪标签的损失项,最终步骤(3)中的分类器损失函数修改为:
Figure BDA00030577974200001016
其中
Figure BDA00030577974200001017
为实际标签,而
Figure BDA00030577974200001018
则为伪标签。
6、参数优化
整个发明模型包含四个子网络:特征提取器M,生成器G,判别器D以及分类器C,模型整体的损失函数
Figure BDA0003057797420000111
其中
Figure BDA0003057797420000112
为自定义的对抗权重,
Figure BDA0003057797420000113
为步骤(2) 中定义的KL散度损失,
Figure BDA0003057797420000114
为步骤(4)中定义的判别器损失,
Figure BDA0003057797420000115
为步骤(5)中定义的分类器损失。模型采用梯度下降的方法对损失函数
Figure BDA0003057797420000116
所涉及到的特征提取器、生成器、判别器以及分类器的参数进行优化,优化公式为
Figure BDA0003057797420000117
其中α为学习率,用来控制每一轮梯度下降的步幅大小;而
Figure BDA0003057797420000118
则为损失函数对应的梯度。
7、结果输出
在经过上述训练完成之后,新的样本将经过训练好的四个子网络处理得到预测输出结果:特征提取器M,生成器G,判别器D以及分类器C。输出模块的总体架构如图3 的模型总体框架图所示,首先保存上述模块训练得到的模型,然后使用Tensorflow Serving进行线上部署。TensorFlow Serving是一个用于机器学习模型Serving的高性能开源库,它可以将训练好的机器学习模型部署到线上,使用gRPC作为接口接受外部调用。TensorFlowServing支持模型热更新与自动模型版本管理,具有非常灵活的特点。
每次客户端的请求以json串的形式传入,对于每一个用户,模型会给出用户借贷逾期的概率值,输出模块将概率值转化为对应的风险级别,根据待审核的贷款业务的信息识别待审核的贷款业务的风险级别,并根据识别结果进行最终的风险控制。
基于上述全部七个步骤训练风控模型,本发明可以在无监督的场景中借助其他相似场景的有标签数据实现新业务的风控建模,有效缓解金融场景数据监管严格,标签数据获取难的问题。

Claims (6)

1.一种基于无监督领域自适应的金融风控冷启动建模方法,其特征在于,包括以下步骤:
(1)数据输入及预处理
将金融机构成熟业务的样本集合定义为源域集合,将开展初期的新业务样本集合定义为目标域集合,对样本中的变量进行预处理;
(2)变分自编码器映射
以特征提取器提取源域中的不变特征,使目标域的数据映射成为标准的高斯分布,能直接应用到分类器中;利用变分自编码器学习源域和目标域中数据的隐藏分布,以缩小源域和目标域之间的领域差异;
(3)基于对抗的域对齐
生成器采用域混合方法对源域和目标域的样本做差值,得到处于中间嵌入状态的混合嵌入向量;其输出分为两部分,其中一部分输出用于伪标签迭代优化,另一部分输出用于样本自适应加权;
(4)基于加权适配度的样本自适应加权
在迭代训练过程中使用加权熵来度量样本的不确定性,将加权熵加入到源域样本和目标域样本的判别器优化中;
(5)伪标签迭代优化
针对目标域中无标签的样本,通过赋予更高分类置信度的人为设定伪标签方式来优化分类器;分类置信度采用动态阈值,其设定值与训练情况相适应;
(6)参数优化
基于特征提取器、生成器、判别器和分类器的使用,模型采用梯度下降的方法对损失函数
Figure FDA0003057797410000011
所涉及到的特征提取器、生成器、判别器以及分类器的参数进行优化;
(7)结果输出
保存训练所得风控模型,然后进行线上部署,使用gRPC作为接口接受外部调用,每次客户端的请求以json串的形式传入;风控模型根据待审核的贷款业务的信息预估信贷用户借贷逾期的概率值,将概率值转化为对应的风险级别,并根据识别结果给出最终的风险控制警示信息。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)具体包括:
(1.1)数据输入的操作:
定义来自金融机构成熟业务的样本集合为源域集合Ds={Xs,Ys},其中开展初期的新业务样本集合为目标域集合Dt={Xt},Xs和Xt分别代表源域样本集和目标域样本集,Ys代表源域标签集合,不同域的任务均为预测用户借贷是否会发生违约;其中源域标签ys∈{0,1},ys=0指代源域样本为好样本,即表现期内未发生违约行为;yt=1指代源域样本为坏样本,即表现期内发生了违约行为;在训练过程中不使用新业务样本标签的情况下,在信用风险违约冷启动观测点预测未来一段时间内的
Figure FDA0003057797410000023
(1.2)数据预处理过程的操作:
对获取的样本和样本特征维度进行缺失值处理和异常值处理;划分数据结束后将样本中的每个变量进行证据权重WOE转换;连续变量,寻找最佳变化函数的方法;每个变量进项哑变量编码;多个连续变量进行加减乘除运算;多个类型的变量进行交叉组合;保留变量原值作为特征变量。
3.根据权利要求1所述的方法,其特征在于,所述步骤(2)具体包括:
使用变分自编码器学习源域和目标域数据的隐藏分布,缩小源域和目标域之间的领域差异,缓解金融风控领域的数据异质性问题;
变分自编码器的核心是特征提取器M,通过特征提取器M将源域和目标域数据各自映射成为标准的高斯分布
Figure FDA0003057797410000021
由源域数据Xs和目标域数据Xt分别得到对应的源域嵌入向量(μs,σs)和目标域嵌入向量(μt,σt),其中μ表示均值,σ表示方差;
利用对抗学习使特征提取器M能从源域中提取领域不变特征,目标域的数据经过映射后能直接应用到学习到的分类器中完成分类任务;为了使学习到的隐层分布接近标准高斯分布,在特征提取器M中需要最小化先验标准高斯分布和实际后验分布之间的KL散度:
Figure FDA0003057797410000022
这里DKL表示的是相对熵,最小化KL散度即是最小化嵌入向量与高斯分布的相对熵。
4.根据权利要求1所述的方法,其特征在于,所述步骤(3)具体包括:
生成器G使用域混合方法生成源域和目标域之间中间状态的样本,以经过特征提取器M映射得到的源域嵌入向量(μs,σs)和目标域嵌入向量(μt,σt)作为输入,使用域混合方法对两个域的样本做差值,得到处于中间嵌入状态的混合嵌入向量(μm,σm),其中μm=λμs+(1-λ)μt,σm=λσs+(1-λ)σt
差值程度由混合率λ来调整,其中λ∈[0,1],λ越接近1则更接近源域样本,反之λ越接近0则更接近目标域样本;生成器G的输出分为两部分,其中一部分输出用于伪标签迭代优化,影响后续分类器C的训练;另一部分输出用于样本自适应加权,影响判别器D的训练。
5.根据权利要求1所述的方法,其特征在于,所述步骤(4)具体包括:
在领域自适应学习过程中,考虑到样本之间的适配程度差异以及坏样本远少于好样本的先验,为避免对抗学习不充分引发负迁移,使用加权熵来度量样本的不确定性:
Figure FDA0003057797410000031
这里的wk代表类别k的先验概率,pk则代表样本被预测为类别k的概率,K代表总的类别数目;
在迭代训练过程中,为当前适配不充分的样本给予更高的权重,而相应降低当前已经适配比较充分的样本权重;将加权熵加入到源域样本和目标域样本的判别器优化中,得到最终的判别器损失
Figure FDA0003057797410000032
6.根据权利要求1所述的方法,其特征在于,所述步骤(5)具体包括:
针对目标域中无标签的样本,通过为相对更高分类置信度的样本设定伪标签的方式来优化分类器;
定义来源于目标域的样本
Figure FDA0003057797410000033
的伪标签
Figure FDA0003057797410000034
Figure FDA0003057797410000035
即预测中分数最高的类别,并把该类别的预测分数称为分类置信度confidence,定义为
Figure FDA0003057797410000036
即样本预测为分数最高类别的概率;只有confidence达到阈值T的目标域样本才会被筛选出来赋予伪标签,将阈值T动态设定为
Figure FDA0003057797410000037
这里的ρ是实验中设定的衰减系数,A是由源域数据计算的当前迭代轮次的曲线下面积大小AUC;
在衰减系数ρ保持不变的情况下,随着当前轮次AUC的不断提升,伪标签的划定阈值也在不断提高,从而使得阈值的设定与训练情况相适应;由此加入目标域伪标签的损失项,得到分类器损失为
Figure FDA0003057797410000038
Figure FDA0003057797410000039
其中
Figure FDA00030577974100000310
为实际标签,而
Figure FDA00030577974100000311
则为伪标签。
CN202110507997.XA 2021-05-10 2021-05-10 一种基于无监督领域自适应的金融风控冷启动建模方法 Pending CN113240506A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110507997.XA CN113240506A (zh) 2021-05-10 2021-05-10 一种基于无监督领域自适应的金融风控冷启动建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110507997.XA CN113240506A (zh) 2021-05-10 2021-05-10 一种基于无监督领域自适应的金融风控冷启动建模方法

Publications (1)

Publication Number Publication Date
CN113240506A true CN113240506A (zh) 2021-08-10

Family

ID=77133114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110507997.XA Pending CN113240506A (zh) 2021-05-10 2021-05-10 一种基于无监督领域自适应的金融风控冷启动建模方法

Country Status (1)

Country Link
CN (1) CN113240506A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723518A (zh) * 2021-08-31 2021-11-30 平安科技(深圳)有限公司 基于迁移学习的任务分级部署方法、装置及计算机设备
CN113792758A (zh) * 2021-08-18 2021-12-14 中国矿业大学 一种基于自监督学习和聚类的滚动轴承故障诊断方法
CN116434880A (zh) * 2023-03-06 2023-07-14 哈尔滨理工大学 一种基于模糊自洽式聚类集成的高熵合金硬度预测方法
CN117974634A (zh) * 2024-03-28 2024-05-03 南京邮电大学 一种基于证据深度学习的无锚框表面缺陷可信检测方法
CN117974634B (zh) * 2024-03-28 2024-06-04 南京邮电大学 一种基于证据深度学习的无锚框表面缺陷可信检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214937A (zh) * 2018-09-27 2019-01-15 上海远眸软件有限公司 保险理赔智能反欺诈判定方法和系统
CN111724083A (zh) * 2020-07-21 2020-09-29 腾讯科技(深圳)有限公司 金融风险识别模型的训练方法、装置、计算机设备及介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214937A (zh) * 2018-09-27 2019-01-15 上海远眸软件有限公司 保险理赔智能反欺诈判定方法和系统
CN111724083A (zh) * 2020-07-21 2020-09-29 腾讯科技(深圳)有限公司 金融风险识别模型的训练方法、装置、计算机设备及介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792758A (zh) * 2021-08-18 2021-12-14 中国矿业大学 一种基于自监督学习和聚类的滚动轴承故障诊断方法
CN113792758B (zh) * 2021-08-18 2023-11-07 中国矿业大学 一种基于自监督学习和聚类的滚动轴承故障诊断方法
CN113723518A (zh) * 2021-08-31 2021-11-30 平安科技(深圳)有限公司 基于迁移学习的任务分级部署方法、装置及计算机设备
CN113723518B (zh) * 2021-08-31 2024-03-19 平安科技(深圳)有限公司 基于迁移学习的任务分级部署方法、装置及计算机设备
CN116434880A (zh) * 2023-03-06 2023-07-14 哈尔滨理工大学 一种基于模糊自洽式聚类集成的高熵合金硬度预测方法
CN116434880B (zh) * 2023-03-06 2023-09-08 哈尔滨理工大学 一种基于模糊自洽式聚类集成的高熵合金硬度预测方法
CN117974634A (zh) * 2024-03-28 2024-05-03 南京邮电大学 一种基于证据深度学习的无锚框表面缺陷可信检测方法
CN117974634B (zh) * 2024-03-28 2024-06-04 南京邮电大学 一种基于证据深度学习的无锚框表面缺陷可信检测方法

Similar Documents

Publication Publication Date Title
WO2021155706A1 (zh) 利用不平衡正负样本对业务预测模型训练的方法及装置
CN113240506A (zh) 一种基于无监督领域自适应的金融风控冷启动建模方法
CN110232473B (zh) 一种基于大数据金融的黑产用户预测方法
CN108960833A (zh) 一种基于异构金融特征的异常交易识别方法,设备及存储介质
CN111881722B (zh) 一种跨年龄人脸识别方法、系统、装置及存储介质
CN110084610A (zh) 一种基于孪生神经网络的网络交易欺诈检测系统
CN113011895B (zh) 关联账户样本筛选方法、装置和设备及计算机存储介质
CN110032551B (zh) 模型生成系统、方法及预测系统
CN109726918A (zh) 基于生成式对抗网络和半监督学习的个人信用确定方法
CN109271957A (zh) 人脸性别识别方法以及装置
Kang et al. A CWGAN-GP-based multi-task learning model for consumer credit scoring
CN112508684B (zh) 一种基于联合卷积神经网络的催收风险评级方法及系统
CN113222732A (zh) 信息处理方法、装置、设备及存储介质
CN116821759A (zh) 类别标签的识别预测方法、装置和处理器及电子设备
CN111639688A (zh) 一种基于线性核svm的物联网智能模型的局部解释方法
CN114818999B (zh) 基于自编码器和生成对抗网络的账户识别方法及系统
US20230111445A1 (en) Neural network based methods and systems for increasing approval rates of payment transactions
CN116485406A (zh) 账户的检测方法及装置、存储介质和电子设备
CN110705638A (zh) 一种利用深度网络学习模糊信息特征技术的信用评级预测分类方法
Wu et al. Customer churn prediction for commercial banks using customer-value-weighted machine learning models
CN115482084A (zh) 用于生成风控规则集的方法及装置
Chen et al. The credit scoring model based on logistic-bp-adaboost algorithm and its application in p2p credit platform
CN115455408B (zh) 一种网络空间推演与安全评估方法及装置
CN117009883B (zh) 对象分类模型构建方法、对象分类方法、装置和设备
CN116452320B (zh) 一种基于持续学习的信用风险预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination