CN115081641A - 模型训练方法、评估结果的预测方法、设备及存储介质 - Google Patents

模型训练方法、评估结果的预测方法、设备及存储介质 Download PDF

Info

Publication number
CN115081641A
CN115081641A CN202210820825.2A CN202210820825A CN115081641A CN 115081641 A CN115081641 A CN 115081641A CN 202210820825 A CN202210820825 A CN 202210820825A CN 115081641 A CN115081641 A CN 115081641A
Authority
CN
China
Prior art keywords
original
value
training
wind control
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210820825.2A
Other languages
English (en)
Inventor
杜宇衡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210820825.2A priority Critical patent/CN115081641A/zh
Publication of CN115081641A publication Critical patent/CN115081641A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Educational Administration (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本实施例涉及人工智能技术领域,尤其涉及一种模型训练方法、评估结果的预测方法、设备及存储介质。其中,模型训练方法包括:获取样本用户的原始训练样本;其中,原始训练样本包括原始信息特征和原始标签,原始信息特征包括基础信息和行为信息;对原始信息特征进行离散化处理,得到原始特征组;对原始特征组进行编码,得到编码值;根据编码值对预先训练好的原始风控模型进行评估,得到第一训练标签;根据编码值输对预设的初步风控模型进行训练处理,得到第二训练标签;根据原始标签、第一训练标签、第二训练标签对初步风控模型进行参数调整,得到目标风控模型。本实施例能够在保证模型评估准确性的前提下,实现原始风控模型网络结构的不受限。

Description

模型训练方法、评估结果的预测方法、设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种模型训练方法、评估结果的预测方法、设备及存储介质。
背景技术
风控模型,是风险控制模型的简称,其用于对业务进行风险控制。
相关技术中,受限于风控模型具有网络结构简单可解释性强、拟合能力弱,网络结构复杂可解释性弱、拟合能力强的特点,风控模型一般采用网络结构简单的模型结构,从而影响了风控模型的评估准确性。
发明内容
本公开实施例的主要目的在于提出一种模型训练方法、评估结果的预测方法、设备及存储介质,能够在保证模型评估准确性的前提下,实现原始风控模型网络结构的不受限。
为实现上述目的,本公申请实施例的第一方面提出了一种模型训练方法,所述方法包括:
获取样本用户的原始训练样本;其中,所述原始训练样本包括原始信息特征和原始标签,所述原始信息特征包括所述样本用户的基础信息和行为信息,所述原始标签为所述样本用户的风控结果,所述风控结果用于表征风控类别的概率;
对所述原始信息特征进行离散化处理,得到原始特征组;
对所述原始特征组进行编码,得到编码值;其中,所述编码值用于表征所述原始特征组与所述原始标签的相关度;
根据所述编码值对预先训练好的原始风控模型进行评估,得到第一训练标签;其中,所述原始风控模型作为教师模型;
根据所述编码值对预设的初步风控模型进行训练处理,得到第二训练标签;其中,所述初步风控模型作为所述教师模型的学生模型;
根据所述原始标签、所述第一训练标签、所述第二训练标签对所述初步风控模型进行参数调整,得到目标风控模型。
在一些实施例中,所述根据所述原始标签、所述第一训练标签、所述第二训练标签对所述初步风控模型进行参数调整,得到目标风控模型,包括:
根据所述第二训练标签和所述原始标签得到第一损失值;
根据所述第一训练标签和所述第二训练标签得到第二损失值;
根据所述第一损失值、所述第二损失值对所述初步风控模型进行参数调整,直至所述初步风控模型满足预设的收敛条件,得到所述目标风控模型。
在一些实施例中,所述对所述原始信息特征进行离散化处理,得到原始特征组,包括:
获取所述原始信息特征的属性信息;其中,所述属性信息用于表征所述原始信息特征的可解释性,所述可解释性包括无法解释;
将所述无法解释的所述原始信息特征过滤,得到目标信息特征;
对所述目标信息特征进行所述离散化处理,得到所述原始特征组。
在一些实施例中,所述对所述原始特征组进行编码,得到编码值,包括:
获取验证样本;其中,所述验证样本为所述原始训练样本在跨时间样本,所述验证样本包括验证信息特征;
对所述验证信息特征进行离散化处理,得到验证特征组;
根据第一数量和第二数量计算得到稳定值;其中,所述第一数量用于表征所述原始特征组中所述原始信息特征的数量,所述第二数量用于表征所述验证特征组中所述验证信息特征的数量,所述稳定值用于表征所述原始特征组的稳定度;
将所述稳定值大于预设稳定值的所述原始特征组过滤,得到标定特征组;
对所述标定特征组进行编码,得到所述编码值。
在一些实施例中,所述根据所述编码值对预设的原始风控模型进行处理,得到第一训练标签,包括:
根据所述编码值计算得到第一信息价值;其中,所述第一信息价值用于表征所述原始特征组对所述第一训练标签的预测能力;
将所述第一信息价值小于预设价值的所述原始特征组过滤,得到第一训练目标特征组;其中,将所述第一训练目标特征组的所述编码值作为第一训练目标值;
将所述第一训练目标值输入至所述原始风控模型进行处理,得到所述第一训练标签。
在一些实施例中,所述根据所述编码值对预设的初步风控模型进行训练处理,得到第二训练标签,包括:
根据所述编码值计算得到第二信息价值;其中,所述第二信息价值用于表征所述原始特征组对所述第二训练标签的预测能力;
将所述第二信息价值小于所述预设价值的所述原始特征组过滤,得到第二训练目标特征组;其中,将所述第二训练目标特征组的所述编码值作为第二训练目标值;
将所述二训练目标值输入至所述初步风控模型进行训练处理,得到所述第二训练标签。
为实现上述目的,本申请实施例的第二方面提出了一种评估结果的预测方法,所述方法包括:
获取待评估用户的待评估样本;其中,所述待评估样本包括待评估信息特征;
根据所述待评估信息特征从预设的特征集中筛选出待评估目标特征组;其中,所述特征集包括根据如第一方面所述的模型训练方法得到的原始特征组,将包含所述待评估信息特征的所述原始特征组作为所述待评估目标特征组;
根据所述待评估目标特征组从预设的解释库中筛选出目标贡献值;
根据所述目标贡献值从所述解释库中得到目标解释信息;其中,所述目标解释信息用于对所述待评估样本的目标评估结果进行预测。
在一些实施例中,在所述根据所述待评估目标特征组从预设的解释库中筛选出目标贡献值之前,所述方法还包括构建所述解释库,具体包括:
根据所述特征集获取所述原始特征组;
对所述原始特征组进行编码,得到编码值;
将所述编码值输入到目标风控模型,得到原始评估结果;其中,所述目标风控模型是根据如第一方面所述的模型训练方法训练得到;
根据原始评估结果计算所述编码值的原始贡献值;
根据所述原始贡献值、所述原始特征组、预设的原始解释信息构建所述解释库。
为实现上述目的,本公开实施例的第三方面提出了一种电子设备,包括至少一个存储器;
至少一个处理器;
至少一个计算机程序;
所述计算机程序被存储在所述存储器中,处理器执行所述至少一个计算机程序以实现:
如第一方面实施例任一项所述的方法;或者
如第二方面实施例所述的方法。
为实现上述目的,本公开实施例的第四方面还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行:
如第一方面实施例任一项所述的方法;或者
如第二方面实施例所述的方法。
本申请实施例提供的模型训练方法、评估结果的预测方法、设备及存储介质,以原始风控模型作为教师模型,目标风控模型作为学生模型,通过知识蒸馏技术使得目标风控模型获取原始风控模型学习到的知识,从而保证在不限制原始风控模型网络结构的基础上,能够得到网络结构简单,且具备与原始风控模型相同能力的目标风控模型。因此,本申请实施例提供的模型训练方法避免了相关技术中网络结构简单可解释性强、拟合能力弱,网络结构复杂可解释性弱、拟合能力强的问题,实现了在保证目标风控模型评估准确性的基础上,简化了目标风控模型的网络结构,使得该目标风控模型相较于原始风控模型更利于部署和应用。
附图说明
图1是本申请实施例模型训练方法的一流程示意图;
图2是本申请实施例模型训练方法的另一流程示意图;
图3是本申请实施例模型训练方法的另一流程示意图;
图4是本申请实施例模型训练方法的另一流程示意图;
图5是本申请实施例模型训练方法的另一流程示意图;
图6是本申请实施例IV值与预测能力的一关系示意图;
图7是本申请实施例模型训练方法的另一流程示意图;
图8是本申请实施例评估结果的预测方法的一流程示意图;
图9是本申请实施例解释库的一示意图;
图10是本申请实施例评估结果的预测方法的的另一流程示意图;
图11是本申请实施例模型训练装置的一模块框图;
图12是本申请实施例评估结果的预测装置的一模块框图;
图13是本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行解析:
人工智能(Artificial Intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
风控模型:是风险控制模型的简称,用于对业务进行风险控制。具体地,在业务系统的决策流程中,风控模型能够为业务决策者提供有效的数据支撑和决策依据。风控模型可以对潜在的业务风险进行前瞻性的识别、分类和预警,多维度地自动评估和智能量化业务对象的风险明细和等级,并能进一步统计和分析风险的变化趋势,从而最大程度降低风控模型使用对象的风险成本。基于大数据的风控模型流程一般为:从业务对象各方面的历史特征数据出发,先经过数据处理和特征工程,再利用机器学习算法进行风险标签的二分类建模。最后,以评分卡的形式输出业务对象各个特征项的评分明细和整体评分等级。风控模型的评分卡模型适用于银行信贷、金融风控、企业征信评估、供应商风险评估等应用场景。在本申请实施例提供的模型训练方法、评估结果的预测方法、设备及存储介质中,以风控模型应用于银行信贷为例进行具体说明,但应理解的是,当将风控模型应用于其他应用场景而对本实施例提供的模型训练方法、评估结果的预测方法、设备及存储介质进行适用性修改时,该适应性修改的方案也应属于本申请实施例的保护范围。
分箱处理:是一种数据预处理技术,用于减少次要观察误差的影响。具体的,分箱处理是一种将多个连续值分组为较少数据的“分箱”的方法,因此分箱处理也被称为离散化处理。例如,对年龄数据集进行分箱处理,以得到【0,12】、【13,20】、【21,50】、【50,100】等多个区间。相关技术中,包括等频分箱、等距分箱、卡方分箱、最小熵值分箱等分箱方法。其中,等频分箱和等距分箱是无监督分箱,卡方分箱和最小熵值分箱是有监督分箱。等频分箱指每个区间包含大致相等的实例数量,例如当将数据集分箱为10个区间时,每个区间包含10%的实例数量。等距分箱指从数据集中的最小值到最大值之间,均分为N等份,例如,A为该数据集中的最小值,B为该数据集中的最大值,则每个特征组的长度W=(B-A)/N,分箱得到的多个区间的边界值分别为A+W,A+2W,......A+(N-1)W。在等距分箱中,只考虑分箱边界,每个特征组所包含的实例数量可能不等。卡方分箱是自底向上的分箱方法,其基于如下假设:如果两个相邻的区间具有相似的类分布,则对这两个区间进行合并处理;否则,应保持这两个区间的离散性。其中,卡方值是用于衡量分布相似性的指标,卡方值越低,类分布的相似度约高。最小熵分箱是自顶向下的分箱方法,卡方分箱将待分箱数据集中的每个取值都设置一个单独的区间,然后根据相邻区间的卡方值进行箱体合并。不同于自底向上的卡方分箱,最小熵分箱是将待分箱数据集中的所有取值都放在一个区间里,然后根据最小熵原则进行区间分裂。
WOE(Weight of EIVdence,证据权重):WOE是对原始特征的一种编码形式。要对一个特征进行WOE编码,需对该特征对应的数据集进行离散化处理。其中,WOE值的计算公式如下式(1)所示:
Figure BDA0003744319540000061
其中,pyi表示第i个区间中正例样本占所有区间中正例样本的比例,pni表示第i个区间中负例样本占所有区间中负例样本的比例,yi表示第i个区间中正例样本的数量,ni表示第i个区间中负例样本的数量,yT表示所有区间中正例样本的数量,nT表示所有区间中负例样本的数量。因此,式(1)表示“当前区间中正例样本占所有区间中正例样本的比例”和“当前区间中负例样本占所有区间中负例样本的比例”的差异。其中,WOE值越小,差异越小,即当前区间分到正例的概率越大。由此可知,WOE值描述了某一特征所处的当前区间,对判断该特征是否是正例所起到的影响方向和影响大小,具体地,当WOE值为正时,特征当前取值对判断个体是否是正例起到正向影响;当WOE值为负时,特征当前取值对判断个体是否是正例起到负向影响。而WOE值具体的取值大小,则是该“影响”的大小的体现。可以理解的是,在本申请实施例中,当以风控模型应用于银行信贷为例进行具体说明时,正例样本表示风险用户,负例样本表示正常用户。
IV(Information Value,信息价值或信息量):用于在构建模型时,对特征进行筛选。在挑选特征时,用于衡量特征的预测能力。举例来说,假设在某个分类问题中,分类类别包括Y1和Y2,对于一个待预测的样本A,当要判断A是属于Y1还是Y2时,需要获取一定的信息以对判断结果提供判断依据。假设这些信息的总量为I,而能够提供判断依据的信息就蕴含在待预测样本的特征C1,C2,C3,......,Cn中。当特征Ci所蕴含的信息越多时,其对于判断待预测样本A属于Y1还是属于Y2的贡献就越大,特征Ci的信息价值就越大,即特征Ci的IV越大,此时就越应该将特征Ci放入入模变量列表中。其中,IV值的计算公式如下式(2)所示:
IVi=(pyi-pni)·WOEi......式(2)
整个特征的IV值的计算公式如下式(3)所示:
Figure BDA0003744319540000062
PSI(Population Stability Index,群体稳定性指标):PSI值反应了验证样本在各分数段的分布与建模样本分布的稳定性。在建模中,PSI值常用于筛选特征变量、评估模型稳定性。稳定性的评估需要进行参照比较,因此需要设定实际分布和预期分布两个分布样本。其中,在建模时通常以训练样本作为预期分布,验证样本作为实际分布,而验证样本可以选取样本外(Out of Sample,OOS)和跨时间样本(Out of Time,OOT)。PSI值的计算公式如下式(4)所示:
Figure BDA0003744319540000071
其中,Ai表示分箱处理后第i个区间实际分布占比,Ei表示分箱处理后第i个区间预期分布占比。PSI值越小,表明实际样本与验证样本之间的差异越小,模型越稳定。例如,当PSI值的取值范围在0~0.1时,表明模型稳定性好,即实际样本与验证样本之间没有变化,或变化较少;当PSI值的取值范围在0.1~0.25时,表明模型略不稳定,即实际样本与验证样本之间有变化,应继续监控后续变化;当PSI值的取值范围大于0.25时,表明模型不稳定,即实际样本与验证样本之间存在较大差异,应进行特征项分析。通过对PSI值进行计算,能够避免实际应用中,由于受到客群变化(互金市场用户群体变化快)、数据源采集变化(如数据源采集接口被风控)等因素影响,实际样本分布发生偏移,导致的模型不稳定问题。
OOT(Out of Time,OOT)样本:跨时间样本,即将PSI值计算中的实际样本和验证样本替换为时间上存在跨度的样本。例如,当将2022年5月采集到的样本作为验证样本时,实际样本可选取2022年6月采集到的样本。此时,验证样本与实际样本的时间跨度为一个月,可以理解的是,时间跨度还可以根据实际需要进行适应性选择,本申请实施例不作具体限定。
SHAP(Shapley Additive exPlantions,沙普利加和解释):用于计算每一个特征的shapley值,以此来衡量该特征对最终输出值的影响。具体地,在相关技术中,当将一特定样本输入至模型中时,无法了解该样本的特征值是如何影响模型的输出结果。但在具体任务中,期望能够获得样本每个特征与模型输出结果之间的关系,特别是针对模型误分类的样本,期望能够从特征和模型输出结果的角度进行分析,以能够对异常样本进行分析,从而提高模型分类效果。此外,针对某些应用场景,例如风控场景,通过SHAP算法可以分析出拒绝某样本的具体原因,将该原因提供给相关部门,以完善风控业务流程。在通过SHAP算法得到的shapley值可视化图中,红色表示增加shapley值,即红色特征使预测值增大,该特征使对应样本被模型分类为1的概率增大;蓝色表示降低shapley值,即蓝色特征使预测值变小,该特征使对应样本被模型分类为0的概率增大。由此可知,SHAP算法能够实现各特征对预测值贡献度的分析。
知识蒸馏(Knowledge Distilling):是一种模型压缩技术,其通过将复杂、规模大的教师模型的“知识”“蒸馏”至规模较小的学生模型,使得学生模型具备教师模型的能力。当将学生模型部署至设备上时,能够降低对设备内存、CUP等性能的要求,从而节省了计算资源。
目前,在金融风控等领域,使用风控模型对用户的信用、资质等进行评估,从而根据评估结果确定该用户是否能够进行相关金融操作。
相关技术中,需要向用户解释风控模型输出对应评估结果的原因,例如:在信贷场景,需要向用户解释评估结果为贷款不通过的原因。受限于风控模型具有网络结构简单可解释性强、拟合能力弱,网络结构复杂可解释性弱、拟合能力强的特点,风控模型一般采用网络结构简单的模型结构,从而影响了风控模型的评估准确性。
基于此,本申请实施例提供了一种模型训练方法、评估结果的预测方法、设备及存储介质,能够在保证风控模型评估准确性和可解释性的基础上,简化风控模型网络结构,使得风控模型更利于部署在较低算力的设备上。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的模型训练方法、评估结果的预测方法,涉及人工智能技术领域,尤其涉及评分模型技术领域。本申请实施例提供的模型训练方法、评估结果的预测方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等;服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现模型训练方法、评估结果的预测方法的应用等,但并不局限于以上形式。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
需要说明的是,在本申请的各个具体实施方式中,当涉及到需要根据用户信息、用户行为数据,用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时,都会先获得用户的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关国家和地区的相关法律法规和标准。此外,当本申请实施例需要获取用户的敏感个人信息时,会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意,在明确获得用户的单独许可或者单独同意之后,再获取用于使本申请实施例能够正常运行的必要的用户相关数据。
参照图1,本申请实施例提供了一种模型训练方法,该模型训练方法包括但不限于有步骤S110至步骤S160。
S110、获取样本用户的原始训练样本;其中,原始训练样本包括原始信息特征和原始标签,原始信息特征包括样本用户的基础信息和行为信息,原始标签为样本用户的风控结果,风控结果用于表征风控类别的概率;
S120、对原始信息特征进行离散化处理,得到原始特征组;
S130、对原始特征组进行编码,得到编码值;其中,编码值用于表征原始特征组与原始标签的相关度;
S140、根据编码值对预先训练好的原始风控模型进行评估,得到第一训练标签;其中,原始风控模型作为教师模型;
S150、根据编码值对预设的初步风控模型进行训练处理,得到第二训练标签;其中,初步风控模型作为教师模型的学生模型;
S160、根据原始标签、第一训练标签、第二训练标签对初步风控模型进行参数调整,得到目标风控模型。
可以理解的是,本申请实施例提供的模型训练方法基于知识蒸馏技术对作为教师模型的原始风控模型进行知识蒸馏操作,以得到目标风控模型。其中,目标风控模型作为原始风控模型的学生模型。因此,本申请实施例提供的模型训练方法使原始风控模型能够根据实际评估需求设置任一种网络结构,即实现了原始风控模型网络结构不受限。以下,对该目标风控模型的训练方法进行具体说明。
在本申请一些实施例的步骤S110中,获取用于对初步风控模型进行训练的多个原始训练样本。其中,初步风控模型为目标风控模型的初始模型,即根据原始训练样本对初步风控模型进行训练,以得到具备原始风控模型风控能力的目标风控模型。
可以理解的是,一个原始训练样本包括多个原始信息特征,以及一个与原始训练样本对应的原始标签。以银行信贷场景为例,原始训练样本包括已知贷款结果的样本用户的原始信息特征和原始标签。原始信息特征包括该样本用户的年龄特征、性别特征、收入特征等基础信息,以及贷款条款阅读频率特征等行为信息。其中,贷款结果作为原始标签,其用于表征贷款不通过的概率,即在银行信贷场景中,风控类别包括贷款通过和贷款不通过。可以理解的是,其他能够影响贷款结果的特征也属于本申请实施例原始信息特征的保护范围,对此本申请实施例不作具体限定。
在本申请一些实施例的步骤S120中,为了保证初步风控模型训练的有效性,以及降低异常数据对初步风控模型训练的影响,需对原始训练样本进行预处理操作。具体地,对多个原始训练样本的原始信息特征进行分箱处理,得到多个原始特征组。例如,对于性别特征等具有离散特性的特征,将直接作为原始特征组,即不需要进行分箱处理。对于年龄特征等具有连续特性的特征,将根据预设的分箱方法进行离散化处理,以得到如【0,12】、【13,20】、【21,50】、【50,100】等多个用于表征年龄特征的原始特征组。可以理解的是,分箱方法可以根据实际需要进行适应性选取,本申请实施例不作具体限定。
在本申请一些实施例的步骤S130中,由于模型本身无法对直接输入的自变量进行处理,因此需要对自变量进行二次处理。二次处理方法包括虚拟变量法和变量编码法,在本申请实施例中,以变量编码法为例进行具体说明。对表征同一个原始信息特征的多个原始特征组进行WOE编码处理,以得到WOE值(即编码值)。例如,对于表征年龄特征的【0,12】、【13,20】、【21,50】、【50,100】四个原始特征组,当根据如上式(1)计算第一原始特征组【0,12】的WOE1值时,yi表示该第一原始特征组中评估结果为贷款不通过的数量,ni表示该第一原始特征组中评估结果为贷款通过的数量,yT表示上述四个原始特征组中所有评估结果为贷款不通过的数量,nT表示上述四个原始特征组中所有评估结果为贷款通过的数量。同理,计算得到其余三个用于表征年龄特征的原始特征组的WOE值,以及计算得到用于表征其他原始信息特征的原始特征组的WOE值。可以理解的是,当WOE1的取值越大,表明第一原始特征组【0,12】对应的样本为风险用户(即贷款不通过用户)的可能性越大。
在本申请一些实施例的步骤S140中,将多个编码值输入至原始风控模型进行贷款结果评估,得到用于真实表征贷款不通过概率的第一训练标签。其中,原始风控模型为预先训练好的、已具备风险控制评估的分类模型,原始风控模型可以采用神经网络、决策树、逻辑回归、梯度提升树、支持向量机等任一种算法,对此本申请实施例不作具体限定。
在本申请一些实施例的步骤S150中,将多个编码值输入至初步风控模型进行贷款结果评估,得到用于预测表征贷款不通过概率的第二训练标签。可以理解的是,初步风控模型可使用LightGBM等决策树模型或其他模型,对此本申请实施例不作具体限定。
在本申请一些实施例的步骤S160中,根据原始标签和第二训练标签计算得到硬损失,根据第一训练标签和第二训练标签计算得到软损失,根据硬损失和软损失对初步风控模型进行参数调整,使得初步风控模型能够提取学习到原始风控模型的关键信息(即原始风控模型各网络层的参数权重),从而得到与原始风控模型同构的目标风控模型。
本申请实施例提供的模型训练方法,以原始风控模型作为教师模型,目标风控模型作为学生模型,通过知识蒸馏技术使得目标风控模型获取原始风控模型学习到的知识,从而保证在不限制原始风控模型网络结构的基础上,能够得到网络结构简单,且具备与原始风控模型相同能力的目标风控模型。因此,本申请实施例提供的模型训练方法避免了相关技术中网络结构简单可解释性强、拟合能力弱,网络结构复杂可解释性弱、拟合能力强的问题,实现了在保证目标风控模型评估准确性的基础上,简化了目标风控模型的网络结构,使得该目标风控模型相较于原始风控模型更利于部署和应用。
参照图2,在一些实施例中,步骤S160包括但不限于有子步骤S161至子步骤S163。
S161、根据第二训练标签和原始标签得到第一损失值;
可以理解的是,在知识蒸馏中,教师模型用于完整地学习正例与原始标签的分布关系,学生模型用于同时学习教师模型学习到的知识,以及正例与原始标签的分布关系,即学生模型将学习两部分知识。因此,用于对学生模型进行参数调整的损失值包括第一损失值和第二损失值。其中,第一损失值为硬损失,用于表征第二训练标签与原始标签的差异。具体地,可根据如下式(5)计算得到第一损失值Lhard
Lhard=-∑clog(q1)......式(5)
其中,c表示原始标签,q表示第二训练标签。可以理解的是,第二训练标签为根据softmax-T函数处理后用于表征学生模型根据输入的编码值输出贷款不通过的概率。
S162、根据第一训练标签和第二训练标签得到第二损失值;
可以理解的是,第二损失值为软损失,用于表征第一训练标签与第二训练标签的差异。具体地,可根据如下式(6)计算得到第二损失值Lsoft
Lsoft=-∑pTlog(qT)......式(6)
其中,p表示第一训练标签。可以理解的是,第一训练标签为根据softmax-T函数处理后用于表征教师模型根据输入的编码值输出贷款不通过的概率。
S163、根据第一损失值、第二损失值对初步风控模型进行参数调整,直至初步风控模型满足预设的收敛条件,得到目标风控模型。
可以理解的是,根据梯度下降法等方法对软损失Lsoft和硬损失Lhard进行加权处理,以确定每一轮的参数优化方向和优化幅值。根据上述方法对初步风控模型进行多次参数调整优化,直至该初步风控模型的损失值L满足预设的收敛条件,如直至损失值L的变化趋于稳定,以得到目标风控模型。其中,损失值L=Lsoft+Lhard
可以理解的是,为了保证目标风控模型训练的有效性,以及保证目标风控模型的稳定,还可以对输入至初步风控模型和原始风控模型的特征进行筛选。在本申请实施例提供的模型训练方法中,提供了三种特征筛选方法,分别为属性信息筛选法、PSI值筛选法和IV值筛选法。以下,分别对这三种筛选方法进行具体说明。可以理解的是,根据实际需要,可以将这三种特征筛选方法进行任意结合,对此本申请实施例不作具体限定。
首先,对属性信息筛选法进行说明。参照图3,在一些实施例中,步骤S120包括但不限于有子步骤S121至子步骤S123。
S121、获取原始信息特征的属性信息;其中,属性信息用于表征原始信息特征的可解释性,可解释性包括无法解释;
可以理解的是,属性信息筛选法的筛选对象为未进行离散化处理的原始信息特征。属性信息用于表征原始信息特征对外的可解释性,可解释性包括无法解释和可以解释。其中,无法解释表明该原始信息特征为无法对外解释或公开的特征,例如人脉特征等;可以解释表明该原始信息特征为可以对外解释或公开的特征,例如年龄特征等。
S122、将无法解释的原始信息特征过滤,得到目标信息特征;
可以理解的是,为了保证训练得到的目标风控模型为可以解释的模型,即能够对目标风控模型输入数据与输出数据的关联性进行解释,应保证输入至初步风控模型、原始风控模型的输入数据为可以解释的数据。因此,从多个原始信息特征中过滤掉无法解释的原始信息特征,将剩余的、属性信息为可以解释的多个原始信息特征作为目标信息特征。
S123、对目标信息特征进行离散化处理,得到原始特征组。
可以理解的是,根据预设的分箱方法分别对多个目标信息特征进行离散化处理,以得到多个原始特征组。以目标信息特征为年龄特征为例,对表征年龄特征的多个目标信息特征进行离散化处理,得到如【0,12】、【13,20】、【21,50】、【50,100】等原始特征组。可以理解的是,分箱方法可以根据实际需要进行适应性选取,本申请实施例不作具体限定。
其次,对PSI值筛选法进行说明。参照图4,在一些实施例中,步骤S130包括但不限于有子步骤S131至子步骤S135。
S131、获取验证样本;其中,验证样本为原始训练样本在跨时间样本,验证样本包括验证信息特征;
可以理解的是,PSI值筛选法的筛选对象为离散化处理后,未进行编码的原始特征组。在本申请实施例中,以跨时间样本作为PSI值计算时所需的验证样本。因此,以已知的原始训练样本的采集时间作为基准时间,获取与该基准时间存在一定时间跨度的样本数据,将该样本数据作为验证样本。例如,原始训练样本的采集时间为2022年5月,则将2022年6月获取得到的样本数据作为验证样本。可以理解的是,时间跨度的具体取值可以根据实际需要进行适应性选取,本申请实施例不作具体限定。
S132、对验证信息特征进行离散化处理,得到验证特征组;
可以理解的是,与原始训练样本相同,验证样本也包括多个验证信息特征。以上述任一实施例所描述的分箱方法对多个验证信息特征进行相同的离散化处理,以得到多个验证特征组。可以理解的是,为了保证PSI值计算的有效性,验证信息特征的分箱方法应与原始特征信息的分箱方法相同。
S133、根据第一数量和第二数量计算得到稳定值;其中,第一数量用于表征原始特征组中原始信息特征的数量,第二数量用于表征验证特征组中验证信息特征的数量,稳定值用于表征原始特征组的稳定度;
可以理解的是,根据如上式(4)计算得到用于检验特征稳定性的PSI值(即稳定值)。以原始信息特征为年龄特征为例,原始特征组和验证特征组均包括区间为【0,12】的特征组,获取在该区间中原始信息特征的数量X1(即第一数量)、在该区间中验证信息特征的数量X2(即第二数量),以及用于表征年龄特征的所有原始信息特征的数量Y1、用于表征年龄特征的所有验证信息特征的数量Y2。因此,在如上式(4)中,Ai=X2/Y2,Ei=X1/Y1。
S134、将稳定值大于预设稳定值的原始特征组过滤,得到标定特征组;
可以理解的是,根据上述方法,对每一个原始特征组的PSI值进行计算。当某一原始特征组的PSI值大于预设稳定值时,表明该原始特征组的原始信息特征与验证信息特征之间存在较大差异,为了保证目标风控模型的稳定性,应将该原始特征组中的原始信息特征进行滤除,并进行特征项分析。将滤除后剩余的原始特征组,即PSI值小于预设稳定值的原始特征组作为标定特征组。可以理解的是,在本申请实施例中,以预设稳定值为0.1为例,但根据实际需要,该预设稳定值还可以进行适应性调整,对此本申请实施例不作具体限定。
S135、对标定特征组进行编码,得到编码值。
可以理解的是,根据如上述任一实施例所描述的编码方法,对表征同一个原始信息特征的多个标定特征组进行WOE编码处理,得到WOE值(即编码值)。
最后,对IV值筛选法进行说明。参照图5,在一些实施例中,步骤S140包括但不限于有子步骤S141至子步骤S143。
S141、根据编码值计算得到第一信息价值;其中,第一信息价值用于表征原始特征组对第一训练标签的预测能力;
可以理解的是,IV值筛选法的筛选对象为编码处理后的原始特征组。具体地,根据如上式(2)对每一个原始特征组的第一信息价值(即IV值)进行计算,以衡量该原始特征组对第一训练标签预测能力。
S142、将第一信息价值小于预设价值的原始特征组过滤,得到第一训练目标特征组;其中,将第一训练目标特征组的编码值作为第一训练目标值;
可以理解的是,第一信息价值用于判断对应原始特征组所包含的信息量,当原始特征组所包含的信息越多时,该原始特征组对原始样本的评估结果的贡献就越大。因此,为了保证目标风控模型的可解释性,从多个原始特征组中筛选出第一信息价值大于或等于预设价值的原始特征组,并将筛选出的原始特征组作为第一训练目标特征组。
可以理解的是,根据实际需要,可设置如图6所示的预设价值范围。即当IV值小于0.02时,表明该IV值对应的原始特征组对评估结果的预测能力差;当IV值在范围0.02至0.1内时,表明该IV值对应的原始特征组对评估结果的预测能力弱;当IV值在范围0.1至0.3内时,表明该IV值对应的原始特征组对评估结果的预测能力中等;当IV值在范围0.3至0.5内时,表明该IV值对应的原始特征组对评估结果的预测能力较强;当IV值在大于0.5时,表明该IV值对应的原始特征组对评估结果的预测能力可疑,应进行特征检查。因此,预设价值的具体取值可结合图6,或根据实际需要进行适应性设置,对此本申请实施例不作具体限定。
S143、将第一训练目标值输入至原始风控模型进行处理,得到第一训练标签。
可以理解的是,将筛选出的第一训练目标特征组对应的第一训练目标值(即WOE值)作为原始风控模型的输入数据,以得到原始风控模型输出的第一训练标签,该第一训练标签用于表征原始风控模型对该第一训练目标值对应的原始样本的评估结果。
参照图7,在一些实施例中,步骤S150包括但不限于有子步骤S151至子步骤S153。
S151、根据编码值计算得到第二信息价值;其中,第二信息价值用于表征原始特征组对第二训练标签的预测能力;
可以理解的是,IV值筛选法的筛选对象为编码处理后的原始特征组。具体地,根据如上式(2)对每一个原始特征组的第二信息价值(即IV值)进行计算,以衡量该原始特征组对第二训练标签预测能力。可以理解的是,因根据相同的原始特征组对原始风控模型和初步风控模型进行处理,所以根据如上式(2)计算得到的第一信息价值和第二信息价值相等。
S152、将第二信息价值小于预设价值的原始特征组过滤,得到第二训练目标特征组;其中,将第二训练目标特征组的编码值作为第二训练目标值;
可以理解的是,第二信息价值用于判断对应原始特征组所包含的信息量,当原始特征组所包含的信息越多时,该原始特征组对原始样本的评估结果的贡献就越大。因此,为了保证目标风控模型的可解释性,从多个原始特征组中筛选出第二信息价值大于或等于预设价值的原始特征组,并将筛选出的原始特征组作为第二训练目标特征组。
可以理解的是,对初步风控模型训练时所选取的预设价值,应与对原始风控模型处理时所选取的预设价值相同。
S153、将第二训练目标值输入至初步风控模型进行处理,得到第二训练标签。
可以理解的是,将筛选出的第二训练目标特征组对应的第二训练目标值(即WOE值)作为初步风控模型的输入数据,以得到初步风控模型输出的二训练标签,该第二训练标签用于表征初步风控模型对该第二训练目标值对应的原始样本的评估结果。
本申请实施例提供的模型训练方法,通过知识蒸馏技术得到目标训练模型,从而实现了在保证模型评估性能的前提下,减少了模型的参数量,使得原始风控模型的网络结构不受限制,即避免了相关技术中采用网络结构简单的模型,而影响评估结果准确性的现象。其次,通过属性信息、PSI值、IV值等方法对入模特征进行筛选,避免了使用异常特征、无法解释的特征、预测能力弱的特征对初步风控模型进行训练,从而保证了目标风控模型的可解释性和稳定性。
参照图8,在一些实施例中,本申请实施例还提供了一种评估结果的预测方法,该评估结果的预测方法包括但不限于有步骤S810至步骤S840。
S810、获取待评估用户的待评估样本;其中,待评估样本包括待评估信息特征;
可以理解的是,获取待评估样本,该待评估样本包括对应待评估用户的多个待评估信息特征。以银行信贷场景为例,待评估样本包括该待评估用户的年龄特征、性别特征、收入特征、贷款条款阅读频率特征等影响贷款结果的待评估信息特征。
S820、根据待评估信息特征从预设的特征集中筛选出待评估目标特征组;其中,特征集包括根据如上述任一实施例所描述的模型训练方法得到的原始特征组,将包含待评估信息特征的原始特征组作为待评估目标特征组;
可以理解的是,获取目标风控模型在训练过程中对原始信息特征进行离散化处理后,得到的多个原始特征组。预先根据该多个原始特征组构建特征集,该特征集用于进行特征组筛选。具体地,将待评估信息特征与特征集中的多个原始特征组进行匹配比对,将与待评估信息特征匹配的原始特征组作为待评估目标特征组。以待评估信息特征表征年龄特征为例,假设该用户年龄特征的取值为30,则从特征集中筛选得到区间为【21,50】的原始特征组,将该原始特征组作为待评估目标特征组。
S830、根据待评估目标特征组从预设的解释库中筛选出目标贡献值;
可以理解的是,预先构建一个如图8所示的解释库,该解释库用于对目标风控模型的评估结果进行解释,例如对评估结果为贷款不通过的原因进行解释,以便于向监管部门、业务等解释对应用户评估结果的评估依据,避免目标风控模型的“黑盒处理”。其中,该解释库包括多个原始特征组、多个原始解释信息、多个原始贡献值,每一个原始特征组均分别与一个原始解释信息、一个原始贡献值存在映射关系。其中,根据SHAP算法对目标风控模型以原始特征组作为输入数据时,得到的评估结果进行原始贡献值(即shapley值)计算。可以理解的是,由于根据SHAP算法计算得到原始贡献值具有正值表示对应特征组使模型预测值增大、负值表示对应特征组使模型预测值变小的特性,而本申请实施例提供的评估结果的预测方法更期望解释库具有对负值解释的能力。因此,为了节约解释库的数据量,可只对负值原始贡献值对应的原始特征组设置原始解释信息。例如在图8所示的解释库中,示出了表征贷款条款阅读频率的原始特征组【0,0】、【1,10】、【11,∞),每个原始特征组对应的原始贡献值,以及负值原始贡献值对应的原始解释信息。
可以理解的是,根据步骤S820所描述的方法将多个待评估信息特征分别与特征集进行匹配比对,以得到对应的待评估目标特征组。将该待评估目标特征组与解释库中的多个原始特征组进行比对,以得到与待评估目标特征组离散程度相同的原始信息特征组,从而将该原始特征组映射的原始贡献值作为该待评估目标特征组的目标贡献值。例如在步骤S820的举例中,将原始特征组【21,50】对应的原始贡献值作为目标贡献值。
S840、根据目标贡献值从解释库中得到目标解释信息;其中,目标解释信息用于对待评估样本的目标评估结果进行预测。
可以理解的是,根据步骤S830所描述的方法可以得到多个目标贡献值,将多个目标贡献值中的最小值的原始解释信息作为目标解释信息。以图9所示的原始特征组【0,0】对应的目标贡献值-5作为多个目标贡献值中的最小值为例,将“贷款条款关注不足”作为待评估样本的目标解释信息,从而实现了对目标贡献值的包装,避免了风控规则失效。
参照图10,在一些实施例中,在步骤S830之前,本申请实施例提供的评估结果的预测方法还包括构建解释库,具体包括步骤S101至步骤S105。
S101、根据特征集获取原始特征组;
可以理解的是,根据预设的特征集获取多个原始特征组。
S102、对原始特征组进行编码,得到编码值;
可以理解的是,对表征同一个原始信息特征的多个原始特征组进行WOE编码处理,得到WOE值(即编码值)。例如,对于表征年龄特征的【0,12】、【13,20】、【21,50】、【50,100】四个原始特征组,当根据如上式(1)计算第一原始特征组【0,12】的WOE1时,yi表示该第一原始特征组中评估结果为贷款不通过的数量,ni表示该第一原始特征组中评估结果为贷款通过的数量,yT表示上述四个原始特征组中所有评估结果为贷款不通过的数量,nT表示上述四个原始特征组中所有评估结果为贷款通过的数量。同理,计算得到其余三个用于表征年龄特征的原始特征组的WOE值,以及计算得到用于表征其他原始信息特征的原始特征组的WOE值。可以理解的是,当WOE1的取值越大时,表明第一原始特征组对应的样本为风险用户(即贷款不通过用户)的可能性越大。
S103、将编码值输入到目标风控模型,得到原始评估结果;其中,目标风控模型是根据如上述任一实施例所描述的模型训练方法训练得到;
可以理解的是,将多个编码值作为根据上述任一实施例模型训练方法训练得到的目标风控模型的输入数据,以得到对应编码值的原始评估结果。
S104、根据原始评估结果计算编码值的原始贡献值;
可以理解的是,根据SHAP算法,对编码值的原始贡献值进行计算。其中,原始贡献值用于表征编码值对应的原始特征组对原始评估结果的影响程度。当原始贡献值为正值时,表明该原始特征组对原始评估结果为正向影响;当原始贡献值为负值时,表明该原始特征组对原始评估结果为负向影响。
S105、根据原始贡献值、原始特征组、预设的原始解释信息构建解释库。
可以理解的是,根据编码值对应的原始贡献值、原始特征组和预设的原始解释信息构建解释库。在该解释库中,每一个原始特征组均分别与一个原始解释信息、一个原始贡献值存在映射关系。
本申请实施例提供的评估结果的预测方法,通过利用目标风控模型训练过程中得到的原始特征组、编码值,以及目标风控模型对原始训练样本的评估结果,构建得到特征集和解释库。而后,通过该特征集筛选得到待评估信息特征对应的多个待评估目标特征组,根据多个待评估目标特征组和解释库得到数值最小的目标贡献值,当该数值最小的目标贡献值为负值时,可以得到对应的待评估样本的评估结果为贷款不通过,且贷款不通过的主要原因为数值最小的目标贡献值对应的目标解释信息;当该数值最小的目标贡献值为正值时,可以得到对应的待评估样本的评估结果为贷款通过。由此可知,本申请实施例提供的评估结果的预测方法实现了对待评估样本的评估结果的预测和评估结果的解释。
参照图11,本申请实施例还提供了一种模型训练装置,该模型训练装置包括:
第一获取模块1110,用于获取样本用户的原始训练样本;其中,原始训练样本包括原始信息特征和原始标签,原始信息特征包括样本用户的基础信息和行为信息,原始标签为样本用户的风控结果,风控结果用于表征风控类别的概率;
处理模块1120,用于对原始信息特征进行离散化处理,得到原始特征组;
编码模块1130,用于对原始特征组进行编码,得到编码值;其中,编码值用于表征原始特征组与原始标签的相关度;
第一训练模块1140,用于根据编码值对预先训练好的原始风控模型进行评估,得到第一训练标签;其中,原始风控模型作为教师模型;
第二训练模块1150,用于根据编码值对预设的初步风控模型进行训练处理,得到第二训练标签;其中,初步风控模型作为教师模型的学生模型;
第三训练模块1160,用于根据原始标签、第一训练标签、第二训练标签对初步风控模型进行参数调整,得到目标风控模型。
可见,上述模型训练方法实施例中的内容均适用于本模型训练装置的实施例中,本模型训练装置实施例所具体实现的功能与上述模型训练方法实施例相同,并且达到的有益效果与上述模型训练方法实施例所达到的有益效果也相同。
参照图12,本申请实施例还提供了一种评估结果的预测装置,该评估结果的预测装置包括:
第二获取模块1210,用于获取待评估用户的待评估样本;其中,待评估样本包括待评估信息特征;
筛选模块1220,用于根据待评估信息特征从预设的特征集中筛选出待评估目标特征组;其中,特征集包括根据如上述任一实施例所描述的模型训练方法得到的原始特征组,将包含待评估信息特征的原始特征组作为待评估目标特征组;根据待评估目标特征组从预设的解释库中筛选出目标贡献值;
解释模块1230,根据目标贡献值从解释库中得到目标解释信息;其中,目标解释信息用于对待评估样本的目标评估结果进行预测。
可见,上述评估结果的预测方法实施例中的内容均适用于本评估结果的预测装置的实施例中,本评估结果的预测装置实施例所具体实现的功能与上述评估结果的预测方法实施例相同,并且达到的有益效果与上述评估结果的预测方法实施例所达到的有益效果也相同。
本申请实施例还提供了一种电子设备,包括:
至少一个存储器;
至少一个处理器;
至少一个程序;
程序被存储在存储器中,处理器执行至少一个程序以实现本公开实施上述的模型训练方法或者评估结果的预测方法。该电子设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、车载电脑等任意智能终端。
下面结合图13对本申请实施例的电子设备进行详细介绍。
如图13,图13示意了另一实施例的电子设备的硬件结构,电子设备包括:
处理器1310,可以采用通用的中央处理器(Central Processing Unit,CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本公开实施例所提供的技术方案;
存储器1320,可以采用只读存储器(Read Only Memory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory,RAM)等形式实现。存储器1320可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1320中,并由处理器1310来调用执行本公开实施例的模型训练方法或者评估结果的预测方法;
输入/输出接口1330,用于实现信息输入及输出;
通信接口1340,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线1350,在设备的各个组件(例如处理器1310、存储器1320、输入/输出接口1330和通信接口1340)之间传输信息;
其中处理器1310、存储器1320、输入/输出接口1330和通信接口1340通过总线1350实现彼此之间在设备内部的通信连接。
本公开实施例还提供了一种存储介质,该存储介质是计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令用于使计算机执行上述对模型训练方法或者评估结果的预测方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本公开实施例描述的实施例是为了更加清楚的说明本公开实施例的技术方案,并不构成对于本公开实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本公开实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图中示出的技术方案并不构成对本公开实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参照附图说明了本公开实施例的优选实施例,并非因此局限本公开实施例的权利范围。本领域技术人员不脱离本公开实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本公开实施例的权利范围之内。

Claims (10)

1.一种模型训练方法,其特征在于,所述方法包括:
获取样本用户的原始训练样本;其中,所述原始训练样本包括原始信息特征和原始标签,所述原始信息特征包括所述样本用户的基础信息和行为信息,所述原始标签为所述样本用户的风控结果,所述风控结果用于表征风控类别的概率;
对所述原始信息特征进行离散化处理,得到原始特征组;
对所述原始特征组进行编码,得到编码值;其中,所述编码值用于表征所述原始特征组与所述原始标签的相关度;
根据所述编码值对预先训练好的原始风控模型进行评估,得到第一训练标签;其中,所述原始风控模型作为教师模型;
根据所述编码值对预设的初步风控模型进行训练处理,得到第二训练标签;其中,所述初步风控模型作为所述教师模型的学生模型;
根据所述原始标签、所述第一训练标签、所述第二训练标签对所述初步风控模型进行参数调整,得到目标风控模型。
2.根据权利要求1所述的模型训练方法,其特征在于,所述根据所述原始标签、所述第一训练标签、所述第二训练标签对所述初步风控模型进行参数调整,得到目标风控模型,包括:
根据所述第二训练标签和所述原始标签得到第一损失值;
根据所述第一训练标签和所述第二训练标签得到第二损失值;
根据所述第一损失值、所述第二损失值对所述初步风控模型进行参数调整,直至所述初步风控模型满足预设的收敛条件,得到所述目标风控模型。
3.根据权利要求1或2所述的模型训练方法,其特征在于,所述对所述原始信息特征进行离散化处理,得到原始特征组,包括:
获取所述原始信息特征的属性信息;其中,所述属性信息用于表征所述原始信息特征的可解释性,所述可解释性包括无法解释;
将所述无法解释的所述原始信息特征过滤,得到目标信息特征;
对所述目标信息特征进行所述离散化处理,得到所述原始特征组。
4.根据权利要求1或2所述的模型训练方法,其特征在于,所述对所述原始特征组进行编码,得到编码值,包括:
获取验证样本;其中,所述验证样本为所述原始训练样本在跨时间样本,所述验证样本包括验证信息特征;
对所述验证信息特征进行离散化处理,得到验证特征组;
根据第一数量和第二数量计算得到稳定值;其中,所述第一数量用于表征所述原始特征组中所述原始信息特征的数量,所述第二数量用于表征所述验证特征组中所述验证信息特征的数量,所述稳定值用于表征所述原始特征组的稳定度;
将所述稳定值大于预设稳定值的所述原始特征组过滤,得到标定特征组;
对所述标定特征组进行编码,得到所述编码值。
5.根据权利要求1或2所述的模型训练方法,其特征在于,所述根据所述编码值对预设的原始风控模型进行处理,得到第一训练标签,包括:
根据所述编码值计算得到第一信息价值;其中,所述第一信息价值用于表征所述原始特征组对所述第一训练标签的预测能力;
将所述第一信息价值小于预设价值的所述原始特征组过滤,得到第一训练目标特征组;其中,将所述第一训练目标特征组的所述编码值作为第一训练目标值;
将所述第一训练目标值输入至所述原始风控模型进行处理,得到所述第一训练标签。
6.根据权利要求5所述的模型训练方法,其特征在于,所述根据所述编码值对预设的初步风控模型进行训练处理,得到第二训练标签,包括:
根据所述编码值计算得到第二信息价值;其中,所述第二信息价值用于表征所述原始特征组对所述第二训练标签的预测能力;
将所述第二信息价值小于所述预设价值的所述原始特征组过滤,得到第二训练目标特征组;其中,将所述第二训练目标特征组的所述编码值作为第二训练目标值;
将所述二训练目标值输入至所述初步风控模型进行训练处理,得到所述第二训练标签。
7.一种评估结果的预测方法,其特征在于,所述方法包括:
获取待评估用户的待评估样本;其中,所述待评估样本包括待评估信息特征;
根据所述待评估信息特征从预设的特征集中筛选出待评估目标特征组;其中,所述特征集包括根据如权利要求1至6任一项所述的模型训练方法得到的原始特征组,将包含所述待评估信息特征的所述原始特征组作为所述待评估目标特征组;
根据所述待评估目标特征组从预设的解释库中筛选出目标贡献值;
根据所述目标贡献值从所述解释库中得到目标解释信息;其中,所述目标解释信息用于对所述待评估样本的目标评估结果进行预测。
8.根据权利要求7所述的评估结果的预测方法,其特征在于,在所述根据所述待评估目标特征组从预设的解释库中筛选出目标贡献值之前,所述方法还包括构建所述解释库,具体包括:
根据所述特征集获取所述原始特征组;
对所述原始特征组进行编码,得到编码值;
将所述编码值输入到目标风控模型,得到原始评估结果;其中,所述目标风控模型是根据如权利要求1至6任一项所述的模型训练方法训练得到;
根据原始评估结果计算所述编码值的原始贡献值;
根据所述原始贡献值、所述原始特征组、预设的原始解释信息构建所述解释库。
9.一种电子设备,其特征在于,包括:
至少一个存储器;
至少一个处理器;
至少一个计算机程序;
所述计算机程序被存储在所述存储器中,处理器执行所述至少一个计算机程序以实现:
如权利要求1至6任一项所述的方法;或者
如权利要求7至8任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行:
如权利要求1至6任一项所述的方法;或者
如权利要求7至8任一项所述的方法。
CN202210820825.2A 2022-07-13 2022-07-13 模型训练方法、评估结果的预测方法、设备及存储介质 Pending CN115081641A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210820825.2A CN115081641A (zh) 2022-07-13 2022-07-13 模型训练方法、评估结果的预测方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210820825.2A CN115081641A (zh) 2022-07-13 2022-07-13 模型训练方法、评估结果的预测方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115081641A true CN115081641A (zh) 2022-09-20

Family

ID=83258758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210820825.2A Pending CN115081641A (zh) 2022-07-13 2022-07-13 模型训练方法、评估结果的预测方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115081641A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115374713A (zh) * 2022-10-25 2022-11-22 成都新希望金融信息有限公司 一种gps真伪识别模型的训练方法
CN115841279A (zh) * 2023-02-20 2023-03-24 塔比星信息技术(深圳)有限公司 供应链数据评估方法、装置、设备及存储介质
CN116151841A (zh) * 2022-12-28 2023-05-23 连连银通电子支付有限公司 一种基于关键词识别的管控方法、装置、电子设备及存储介质
CN117893089A (zh) * 2024-01-18 2024-04-16 四川大学华西医院 简化量表的评估方法、装置、电子设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115374713A (zh) * 2022-10-25 2022-11-22 成都新希望金融信息有限公司 一种gps真伪识别模型的训练方法
CN115374713B (zh) * 2022-10-25 2022-12-27 成都新希望金融信息有限公司 一种gps真伪识别模型的训练方法
CN116151841A (zh) * 2022-12-28 2023-05-23 连连银通电子支付有限公司 一种基于关键词识别的管控方法、装置、电子设备及存储介质
CN116151841B (zh) * 2022-12-28 2023-09-19 连连银通电子支付有限公司 一种基于关键词识别的管控方法、装置、电子设备及存储介质
CN115841279A (zh) * 2023-02-20 2023-03-24 塔比星信息技术(深圳)有限公司 供应链数据评估方法、装置、设备及存储介质
CN117893089A (zh) * 2024-01-18 2024-04-16 四川大学华西医院 简化量表的评估方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Chen et al. Selecting critical features for data classification based on machine learning methods
US11403349B2 (en) Dark web content analysis and identification
CN113657545B (zh) 用户业务数据的处理方法、装置、设备及存储介质
CN115081641A (zh) 模型训练方法、评估结果的预测方法、设备及存储介质
KR102455325B1 (ko) 대량의 구조화되지 않은 데이터 필드에서 기술적 및 의미론적 신호 처리
CN110852881B (zh) 风险账户识别方法、装置、电子设备及介质
CN112395500A (zh) 内容数据推荐方法、装置、计算机设备及存储介质
CN114912537B (zh) 模型训练方法和装置、行为预测方法和装置、设备、介质
CN113536303A (zh) 一种大数据信息防护的数据处理方法及人工智能服务器
CN115983497A (zh) 一种时序数据预测方法和装置、计算机设备、存储介质
CN116707859A (zh) 特征规则提取方法和装置、网络入侵检测方法和装置
CN115374950A (zh) 样本检测方法、样本检测装置、电子设备及存储介质
CN118365192A (zh) 水环境质量遥感分析方法、系统、电子设备及存储介质
CN113935413A (zh) 一种基于卷积神经网的配网录波文件波形识别方法
CN116523622A (zh) 对象风险预测方法和装置、电子设备及存储介质
CN117435999A (zh) 一种风险评估方法、装置、设备以及介质
CN117217812A (zh) 一种用户行为预测方法、装置、计算机设备及存储介质
CN116741396A (zh) 文章归类方法和装置、电子设备和存储介质
CN115619539A (zh) 贷前风险评价方法以及装置
CN116956102A (zh) 分类模型的训练方法、装置、设备、存储介质及程序产品
CN115278757A (zh) 一种检测异常数据的方法、装置及电子设备
CN117396900A (zh) 具有自训练分类的无监督异常检测
CN116861226A (zh) 一种数据处理的方法以及相关装置
CN116502173A (zh) 一种状态识别方法、装置、存储介质及设备
EP4372593A1 (en) Method and system for anonymizsing data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination