CN114819695A - 训练风控模型的方法和装置 - Google Patents

训练风控模型的方法和装置 Download PDF

Info

Publication number
CN114819695A
CN114819695A CN202210509617.0A CN202210509617A CN114819695A CN 114819695 A CN114819695 A CN 114819695A CN 202210509617 A CN202210509617 A CN 202210509617A CN 114819695 A CN114819695 A CN 114819695A
Authority
CN
China
Prior art keywords
sample
wind control
training
target
control model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210509617.0A
Other languages
English (en)
Inventor
张宇豪
齐翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ant Blockchain Technology Shanghai Co Ltd
Original Assignee
Ant Blockchain Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ant Blockchain Technology Shanghai Co Ltd filed Critical Ant Blockchain Technology Shanghai Co Ltd
Priority to CN202210509617.0A priority Critical patent/CN114819695A/zh
Publication of CN114819695A publication Critical patent/CN114819695A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Technology Law (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例提供一种训练风控模型的方法和装置,该风控模型有待提供给目标机构使用,方法由训练方执行,包括:从目标机构获取目标样本集,包括多个第一样本,第一样本对应于目标机构的业务对象;遍历目标策略库中的各个风控策略,确定出目标样本集中的各个第一样本均满足的至少一个风控策略构成的策略集合;风控策略对业务对象的至少一项属性特征进行了约束;对训练方自有的风险样本库包括的样本进行筛选,选择出满足策略集合中的风控策略的若干个第二样本构成场景模拟样本集;第二样本来自于训练方采集的业务对象信息,且具有风险标签;利用场景模拟样本集训练风控模型。能够提升训练方得到的风控模型针对机构样本的预测效果。

Description

训练风控模型的方法和装置
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及训练风控模型的方法和装置。
背景技术
风控模型可以由训练方利用自有样本训练生成,提供给其他机构方使用,用于预测该机构方的机构样本的风险等级。由于自有样本和机构样本在数据分布上的差异性,使得风控模型针对机构样本的预测效果可能不佳。为了一定程度上解决通用化产品与特定化客户需求的矛盾,一般来说,可以针对性的采用定制建模予以解决,但在实际工作中,定制建模工作存在样本量不足,模型过拟合等情况,模型的预测效果也难以得到保证。比如,很多机构的小微经营贷业务处于冷启动阶段,积累的样本量太少,风险表现不够充分。如果直接使用机构方的样本进行建模,往往难以保证模型的泛化能力。
发明内容
本说明书一个或多个实施例描述了一种训练风控模型的方法和装置,能够提升训练方得到的风控模型针对机构样本的预测效果。
第一方面,提供了一种训练风控模型的方法,所述风控模型有待提供给目标机构使用,该方法由训练方执行,包括:
从所述目标机构获取目标样本集,所述目标样本集包括多个第一样本,所述第一样本对应于所述目标机构的业务对象;
遍历目标策略库中的各个风控策略,确定出所述目标样本集中的各个第一样本均满足的至少一个风控策略构成的策略集合;所述风控策略对业务对象的至少一项属性特征进行了约束;
对所述训练方自有的风险样本库包括的样本进行筛选,选择出满足所述策略集合中的风控策略的若干个第二样本构成场景模拟样本集;所述第二样本来自于训练方采集的业务对象信息,且具有风险标签;
利用所述场景模拟样本集训练所述风控模型。
在一种可能的实施方式中,所述风险标签用于指示业务对象的风险等级,不同的风险等级代表业务对象具有的风险高低的差异。
在一种可能的实施方式中,所述业务对象包括企业实体,所述至少一项属性特征包括以下若干:企业注册时长、企业主信息、企业所在地区、企业所在行业。
在一种可能的实施方式中,所述利用所述场景模拟样本集,训练所述风控模型,包括:
利用所述场景模拟样本集,对所述风控模型进行第一阶段训练;
确定所述场景模拟样本集中各个第二样本针对第一阶段训练后的风控模型的样本梯度,并对各个样本梯度进行分箱得到若干个梯度分箱,计算每个梯度分箱的梯度密度;
在第二阶段训练中,针对任意第二样本,根据该第二样本的预测损失以及其样本梯度对应的梯度密度,确定该第二样本的样本损失;根据各个第二样本的样本损失,更新所述风控模型。
进一步地,所述利用所述场景模拟样本集,对所述风控模型进行第一阶段训练,包括:
针对任意第二样本,将该第二样本对应于各项属性特征的特征数据输入所述风控模型,通过所述风控模型输出该第二样本的风控分数;
根据该风控分数和该第二样本的风险标签,利用第一损失函数,计算该第二样本的预测损失;
根据各个第二样本的预测损失,利用梯度下降法,以最小化总预测损失为目标,调整所述风控模型的模型参数。
进一步地,所述根据各个第二样本的样本损失,更新所述风控模型,包括:
根据各个第二样本的样本损失,利用梯度下降法,以最小化总样本损失为目标,调整所述风控模型的模型参数。
进一步地,第二样本的样本损失与该第二样本的预测损失正相关,且与其样本梯度对应的梯度密度负相关。
进一步地,所述第一阶段训练包括利用所述场景模拟样本集重复进行N次训练,N的取值为预先设定的数值;所述第二阶段训练包括利用所述场景模拟样本集重复进行M次训练,M的取值由模型参数收敛而决定。
在一种可能的实施方式中,所述方法还包括:
将训练后的所述风控模型发送给所述目标机构,以使所述目标机构利用本方具有的第三样本的对应于各项属性特征的特征数据和所述风控模型,确定该第三样本的风险等级。
第二方面,提供了一种训练风控模型的装置,所述风控模型有待提供给目标机构使用,该装置设置于训练方,包括:
获取单元,用于从所述目标机构获取目标样本集,所述目标样本集包括多个第一样本,所述第一样本对应于所述目标机构的业务对象;
确定单元,用于遍历目标策略库中的各个风控策略,确定出所述获取单元获取的目标样本集中的各个第一样本均满足的至少一个风控策略构成的策略集合;所述风控策略对业务对象的至少一项属性特征进行了约束;
选择单元,用于对所述训练方自有的风险样本库包括的样本进行筛选,选择出满足所述确定单元确定出的策略集合中的风控策略的若干个第二样本构成场景模拟样本集;所述第二样本来自于训练方采集的业务对象信息,且具有风险标签;
训练单元,用于利用所述选择单元选择出的场景模拟样本集训练所述风控模型。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,首先由训练方从所述目标机构获取目标样本集,所述目标样本集包括多个第一样本,所述第一样本对应于所述目标机构的业务对象;然后遍历目标策略库中的各个风控策略,确定出所述目标样本集中的各个第一样本均满足的至少一个风控策略构成的策略集合;所述风控策略对业务对象的至少一项属性特征进行了约束;接着对所述训练方自有的风险样本库包括的样本进行筛选,选择出满足所述策略集合中的风控策略的若干个第二样本构成场景模拟样本集;所述第二样本来自于训练方采集的业务对象信息,且具有风险标签;最后利用所述场景模拟样本集训练所述风控模型。由上可见,本说明书实施例,相比于训练方直接使用自有样本进行建模,增加了针对自有样本的筛选流程,通过场景模拟,基于自有样本数据,有针对性的挖掘自有的风险样本库中近似符合机构场景的样本,从而显式的增加定制建模过程中的训练样本规模,增强模型的场景适应能力,能够提升训练方得到的风控模型针对机构样本的预测效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的训练风控模型的方法流程图;
图3示出根据一个实施例的场景模拟样本集的确定方式示意图;
图4示出根据一个实施例的训练风控模型的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及训练风控模型。参照图1,模型训练的执行主体为训练方,训练得到的风控模型有待提供给目标机构使用。训练方具有风险样本库,风险样本库中的各个自有样本来自于训练方采集的业务对象信息,且具有风险标签;目标机构具有机构样本,机构样本对应于所述目标机构的业务对象,通常只具有业务对象的属性特征的特征数据,而不具有风险标签,可以通过训练后得到的风控模型预测机构样本的风险等级。
其中,风控模型可以理解为一种数学模型,将基于数据驱动的数学模型产出的概率作为分数对评价主体进行风险程度判断。
本说明书实施例,训练方的业务领域可能与目标机构的业务领域不同,或者说,训练方的业务领域可能相对于目标机构的业务领域更广,从而使得两者的样本在数据分布上存在或多或少的差异性。
本说明书实施例,对所述训练方自有的风险样本库包括的样本进行筛选,选择出近似符合机构场景的样本,利用选择出的样本训练风控模型,从而能够提升风控模型针对机构样本的预测效果。
其中,前述训练方或目标机构可以实现为任何具有计算、处理能力的设备、平台、服务器或设备集群。
图2示出根据一个实施例的训练风控模型的方法流程图,所述风控模型有待提供给目标机构使用,所述方法由训练方执行,该方法可以基于图1所示的实施场景。如图2所示,该实施例中训练风控模型的方法包括以下步骤:步骤21,从所述目标机构获取目标样本集,所述目标样本集包括多个第一样本,所述第一样本对应于所述目标机构的业务对象;步骤22,遍历目标策略库中的各个风控策略,确定出所述目标样本集中的各个第一样本均满足的至少一个风控策略构成的策略集合;所述风控策略对业务对象的至少一项属性特征进行了约束;步骤23,对所述训练方自有的风险样本库包括的样本进行筛选,选择出满足所述策略集合中的风控策略的若干个第二样本构成场景模拟样本集;所述第二样本来自于训练方采集的业务对象信息,且具有风险标签;步骤24,利用所述场景模拟样本集训练所述风控模型。下面描述以上各个步骤的具体执行方式。
首先在步骤21,从所述目标机构获取目标样本集,所述目标样本集包括多个第一样本,所述第一样本对应于所述目标机构的业务对象。可以理解的是,第一样本可以相当于前述机构样本,通常不具有风险标签,与目标机构的业务类型相适应,第一样本的各项属性特征的特征取值具有相应的数据分布。
本说明书实施例,样本作为风控的评价主体,其对应的业务对象可以为个人、企业、团体等。
通常地,目标机构具有预先设定的至少一个风控策略,所述风控策略对业务对象的至少一项属性特征进行了约束,第一样本对应于满足前述至少一个风控策略的业务对象。
在一个示例中,所述风险标签用于指示业务对象的风险等级,不同的风险等级代表业务对象具有的风险高低的差异。
本说明书实施例,对于风险等级的设置比较灵活,例如,可以设置为高和低两个风险等级,或者设置为高、中和低三个风险等级,或者更多数目个风险等级。
在一个示例中,所述业务对象包括企业实体,所述至少一项属性特征包括以下若干:企业注册时长、企业主信息、企业所在地区、企业所在行业。
本说明书实施例,对于风控策略的设定也比较灵活,例如,企业主信息的限定,企业预先是否已被确定为预设类别的限定等。举例来说,一个具体的风控策略中,限定了企业不应被列为失信被执行人名单。
然后在步骤22,遍历目标策略库中的各个风控策略,确定出所述目标样本集中的各个第一样本均满足的至少一个风控策略构成的策略集合;所述风控策略对业务对象的至少一项属性特征进行了约束。可以理解的是,目标策略库可以为训练方整理出来的,其中包括各个机构可能使用的风控策略,例如,包括机构A、机构B和机构C各自可能使用的风控策略。
本说明书实施例,每个机构可能使用一个风控策略或者多个风控策略,不同的机构可能使用同一风控策略。所述目标样本集中的各个第一样本均满足的至少一个风控策略构成的策略集合,就是所述目标机构使用的策略集合。
可以理解的是,对于不满足风控策略的样本,意味着通过风控策略确定这些样本存在风险,或者说属于某一较高的风险等级;第一样本已经使用前述策略集合中的风控策略进行了筛选,这些风控策略无法进一步确定第一样本的风险等级,也就是说,这些风控策略对第一样本无区分能力。
接着在步骤23,对所述训练方自有的风险样本库包括的样本进行筛选,选择出满足所述策略集合中的风控策略的若干个第二样本构成场景模拟样本集;所述第二样本来自于训练方采集的业务对象信息,且具有风险标签。可以理解的是,训练方采集的业务对象信息不一定属于目标机构的业务对象,因此第二样本与第一样本的数据分布通常不同,通过上述筛选过程,可以模拟目标机构的风控流程,产出场景模拟样本集,在样本的筛选上更符合业务逻辑。
本说明书实施例,训练方整理自有业务中产生的真实风险样本,并打上对应风险标签,从而得到前述风险样本库。比如:企业在支用日起12个月内发生连续30天以上逾期则判定为黑样本,0天逾期则判定为白样本,1至29天逾期则判定为灰样本等。可以理解的是,黑样本、灰样本、白样本可以作为风险标签,风险由高到低依次为黑样本、灰样本、白样本。
图3示出根据一个实施例的场景模拟样本集的确定方式示意图。参照图3,先将目标样本集与目标策略库中的风控策略进行匹配,遍历目标策略库中的各个风控策略,确定出所述目标样本集中的各个第一样本均满足的至少一个风控策略构成的策略集合,然后利用该策略集合对所述训练方自有的风险样本库包括的样本进行筛选,选择出满足所述策略集合中的风控策略的若干个第二样本构成场景模拟样本集;其中,样本筛选的过程也可以称为策略清洗,是从风险样本库中过滤掉一些样本的过程。
其中,场景模拟样本集相对于风险样本库包含的样本数量会少一些,会从风险样本库中过滤掉不满足所述策略集合中的风控策略的样本,得到场景模拟样本集。
最后在步骤24,利用所述场景模拟样本集训练所述风控模型。可以理解的是,可以采用通常的训练方式对所述风控模型进行训练,或者,在通常的训练方式基础上作出一些改进对所述风控模型进行训练,以便进一步提升模型的训练效果。
在一个示例中,所述利用所述场景模拟样本集,训练所述风控模型,包括:
利用所述场景模拟样本集,对所述风控模型进行第一阶段训练;
确定所述场景模拟样本集中各个第二样本针对第一阶段训练后的风控模型的样本梯度,并对各个样本梯度进行分箱得到若干个梯度分箱,计算每个梯度分箱的梯度密度;
在第二阶段训练中,针对任意第二样本,根据该第二样本的预测损失以及其样本梯度对应的梯度密度,确定该第二样本的样本损失;根据各个第二样本的样本损失,更新所述风控模型。
该示例中,采用了两阶段训练,第一阶段训练,采用常规的训练方式,在第一阶段训练之后,样本梯度的大小能够反映出相应样本被分类的难易程度,样本梯度越小表明相应样本越容易分类,样本梯度越大表明相应样本越难分类,通过对样本梯度进行分箱,可以将大小比较接近的各个样本梯度划入一个梯度分箱。通常地,容易被分类的样本的数目较多,难分类样本的数目较少。容易被分类的样本,梯度已经很低,梯度分箱内样本梯度的数量多,梯度密度较高。而难分类样本,梯度较大,梯度分箱内样本梯度的数量少,梯度密度较低。第二阶段训练,针对任意第二样本,根据该第二样本的预测损失以及其样本梯度对应的梯度密度,确定该第二样本的样本损失,能够使得模型训练中更关注难分类样本,从而达到难样本挖掘的效果。
本说明书实施例,由于训练方自有的风险样本库经过了场景模拟环节,也就是经过了前置风控策略的筛选,会逐渐改变黑白样本的数据分布,一般会导致样本量变少,同时黑白样本比更低,即黑样本的占比更低。风控问题本就是个数据不平衡的问题,使用场景模拟后会更加严重,因此,通过使用难样本挖掘的训练方式能够缓解样本不平衡问题带来的影响,从而提升模型的训练效果。
进一步地,所述利用所述场景模拟样本集,对所述风控模型进行第一阶段训练,包括:
针对任意第二样本,将该第二样本对应于各项属性特征的特征数据输入所述风控模型,通过所述风控模型输出该第二样本的风控分数;
根据该风控分数和该第二样本的风险标签,利用第一损失函数,计算该第二样本的预测损失;
根据各个第二样本的预测损失,利用梯度下降法,以最小化总预测损失为目标,调整所述风控模型的模型参数。
可以理解的是,经过第一阶段训练,容易被分类的样本,梯度已经很低,而难分类样本,梯度相对较大。
进一步地,所述根据各个第二样本的样本损失,更新所述风控模型,包括:
根据各个第二样本的样本损失,利用梯度下降法,以最小化总样本损失为目标,调整所述风控模型的模型参数。
可以理解的是,总样本损失为各个第二样本的样本损失之和,为了达到最小化总样本损失的目标,需要更加关注样本损失较大的第二样本,也就是,需要更加关注难分类样本。
进一步地,第二样本的样本损失与该第二样本的预测损失正相关,且与其样本梯度对应的梯度密度负相关。
可以理解的是,难分类样本对应的梯度密度较低,其样本损失会在其预测损失基础上更大程度被放大,使得难分类样本的样本损失相对于容易分类样本的样本损失更大。
进一步地,所述第一阶段训练包括利用所述场景模拟样本集重复进行N次训练,N的取值为预先设定的数值;所述第二阶段训练包括利用所述场景模拟样本集重复进行M次训练,M的取值由模型参数收敛而决定。
可以理解的是,一次训练对应于一个epoch,指代所述场景模拟样本集中所有的数据送入风控模型中完成一次前向计算及反向传播的过程。若数据量太大,无法一次将所有数据送入模型,则可以采用分批次送入模型的方式,在训练时,将所有数据迭代训练一次是不够的,需要反复多次才能拟合收敛。
本说明书实施例,步骤24基于难样本挖掘的训练流程可以包括如下处理过程:
步骤241,前N个epoch,正常训练,正常计算各个样本分别对应的预测损失loss=L(i)。其中,L代表损失函数,i代表样本标识。
步骤242,下一次epoch开始前,统计全量样本的梯度,并对梯度进行分箱,计算每一个梯度分箱的密度,记为梯度密度gr(i)。可以理解的是,任一样本的梯度密度为该样本对应的梯度分箱的梯度密度。
步骤243,进行下一次epoch,计算各个样本分别对应的样本损失loss=L(i)/gr(i)。
其中,循环步骤242和步骤243的处理过程,直至模型收敛。
本说明书实施例,基于难样本挖掘的训练流程中,每一个样本都会在N个epoch后开始计算梯度密度,此时,容易被分类的样本,梯度已经很低,梯度密度很高,聚集分布在梯度的较低分区。而不容易分类的样本,梯度较大,梯度密度较低,零散分布在梯度的较高分区。因此,难分类样本的样本损失会更大程度被放大,使得模型更关注难分类样本,从而达到难样本挖掘的效果。
在一个示例中,所述方法还包括:
将训练后的所述风控模型发送给所述目标机构,以使所述目标机构利用本方具有的第三样本的对应于各项属性特征的特征数据和所述风控模型,确定该第三样本的风险等级。
可以理解的是,第三样本对应于所述目标机构的业务对象。
本说明书实施例,训练方可产出一个基于自有数据训练的适配目标机构的数据分布的定制模型,其效果优于直接使用目标机构的样本进行定制,或使用自有样本中与目标样本在某几个基础特征上分布一致的样本进行定制等方法。
通过本说明书实施例提供的方法,首先由训练方从所述目标机构获取目标样本集,所述目标样本集包括多个第一样本,所述第一样本对应于所述目标机构的业务对象;然后遍历目标策略库中的各个风控策略,确定出所述目标样本集中的各个第一样本均满足的至少一个风控策略构成的策略集合;所述风控策略对业务对象的至少一项属性特征进行了约束;接着对所述训练方自有的风险样本库包括的样本进行筛选,选择出满足所述策略集合中的风控策略的若干个第二样本构成场景模拟样本集;所述第二样本来自于训练方采集的业务对象信息,且具有风险标签;最后利用所述场景模拟样本集训练所述风控模型。由上可见,本说明书实施例,相比于训练方直接使用自有样本进行建模,增加了针对自有样本的筛选流程,通过场景模拟,基于自有样本数据,有针对性的挖掘自有的风险样本库中近似符合机构场景的样本,从而显式的增加定制建模过程中的训练样本规模,增强模型的场景适应能力,能够提升训练方得到的风控模型针对机构样本的预测效果。
根据另一方面的实施例,还提供一种训练风控模型的装置,所述风控模型有待提供给目标机构使用,所述装置设置于训练方,该装置用于执行本说明书实施例提供的方法。图4示出根据一个实施例的训练风控模型的装置的示意性框图。如图4所示,该装置400包括:
获取单元41,用于从所述目标机构获取目标样本集,所述目标样本集包括多个第一样本,所述第一样本对应于所述目标机构的业务对象;
确定单元42,用于遍历目标策略库中的各个风控策略,确定出所述获取单元41获取的目标样本集中的各个第一样本均满足的至少一个风控策略构成的策略集合;所述风控策略对业务对象的至少一项属性特征进行了约束;
选择单元43,用于对所述训练方自有的风险样本库包括的样本进行筛选,选择出满足所述确定单元42确定出的策略集合中的风控策略的若干个第二样本构成场景模拟样本集;所述第二样本来自于训练方采集的业务对象信息,且具有风险标签;
训练单元44,用于利用所述选择单元43选择出的场景模拟样本集训练所述风控模型。
可选地,作为一个实施例,所述风险标签用于指示业务对象的风险等级,不同的风险等级代表业务对象具有的风险高低的差异。
可选地,作为一个实施例,所述业务对象包括企业实体,所述至少一项属性特征包括以下若干:企业注册时长、企业主信息、企业所在地区、企业所在行业。
可选地,作为一个实施例,所述训练单元44包括:
第一训练子单元,用于利用所述场景模拟样本集,对所述风控模型进行第一阶段训练;
密度计算子单元,用于确定所述场景模拟样本集中各个第二样本针对所述第一训练子单元得到的第一阶段训练后的风控模型的样本梯度,并对各个样本梯度进行分箱得到若干个梯度分箱,计算每个梯度分箱的梯度密度;
第二训练子单元,用于在第二阶段训练中,针对任意第二样本,根据该第二样本的预测损失以及所述密度计算子单元得到的其样本梯度对应的梯度密度,确定该第二样本的样本损失;根据各个第二样本的样本损失,更新所述风控模型。
进一步地,所述第一训练子单元包括:
预测模块,用于针对任意第二样本,将该第二样本对应于各项属性特征的特征数据输入所述风控模型,通过所述风控模型输出该第二样本的风控分数;
计算模块,用于根据所述预测模块得到的该风控分数和该第二样本的风险标签,利用第一损失函数,计算该第二样本的预测损失;
参数调整模块,用于根据所述计算模块得到的各个第二样本的预测损失,利用梯度下降法,以最小化总预测损失为目标,调整所述风控模型的模型参数。
进一步地,所述第二训练子单元,具体用于根据各个第二样本的样本损失,利用梯度下降法,以最小化总样本损失为目标,调整所述风控模型的模型参数。
进一步地,第二样本的样本损失与该第二样本的预测损失正相关,且与其样本梯度对应的梯度密度负相关。
进一步地,所述第一阶段训练包括利用所述场景模拟样本集重复进行N次训练,N的取值为预先设定的数值;所述第二阶段训练包括利用所述场景模拟样本集重复进行M次训练,M的取值由模型参数收敛而决定。
可选地,作为一个实施例,所述装置还包括:
发送单元,用于将所述训练单元44得到的训练后的所述风控模型发送给所述目标机构,以使所述目标机构利用本方具有的第三样本的对应于各项属性特征的特征数据和所述风控模型,确定该第三样本的风险等级。
通过本说明书实施例提供的装置,首先由训练方的获取单元41从所述目标机构获取目标样本集,所述目标样本集包括多个第一样本,所述第一样本对应于所述目标机构的业务对象;然后确定单元42遍历目标策略库中的各个风控策略,确定出所述目标样本集中的各个第一样本均满足的至少一个风控策略构成的策略集合;所述风控策略对业务对象的至少一项属性特征进行了约束;接着选择单元43对所述训练方自有的风险样本库包括的样本进行筛选,选择出满足所述策略集合中的风控策略的若干个第二样本构成场景模拟样本集;所述第二样本来自于训练方采集的业务对象信息,且具有风险标签;最后训练单元44利用所述场景模拟样本集训练所述风控模型。由上可见,本说明书实施例,相比于训练方直接使用自有样本进行建模,增加了针对自有样本的筛选流程,通过场景模拟,基于自有样本数据,有针对性的挖掘自有的风险样本库中近似符合机构场景的样本,从而显式的增加定制建模过程中的训练样本规模,增强模型的场景适应能力,能够提升训练方得到的风控模型针对机构样本的预测效果。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (20)

1.一种训练风控模型的方法,所述风控模型有待提供给目标机构使用,所述方法由训练方执行,包括:
从所述目标机构获取目标样本集,所述目标样本集包括多个第一样本,所述第一样本对应于所述目标机构的业务对象;
遍历目标策略库中的各个风控策略,确定出所述目标样本集中的各个第一样本均满足的至少一个风控策略构成的策略集合;所述风控策略对业务对象的至少一项属性特征进行了约束;
对所述训练方自有的风险样本库包括的样本进行筛选,选择出满足所述策略集合中的风控策略的若干个第二样本构成场景模拟样本集;所述第二样本来自于训练方采集的业务对象信息,且具有风险标签;
利用所述场景模拟样本集训练所述风控模型。
2.如权利要求1所述的方法,其中,所述风险标签用于指示业务对象的风险等级,不同的风险等级代表业务对象具有的风险高低的差异。
3.如权利要求1所述的方法,其中,所述业务对象包括企业实体,所述至少一项属性特征包括以下若干:企业注册时长、企业主信息、企业所在地区、企业所在行业。
4.如权利要求1所述的方法,其中,所述利用所述场景模拟样本集,训练所述风控模型,包括:
利用所述场景模拟样本集,对所述风控模型进行第一阶段训练;
确定所述场景模拟样本集中各个第二样本针对第一阶段训练后的风控模型的样本梯度,并对各个样本梯度进行分箱得到若干个梯度分箱,计算每个梯度分箱的梯度密度;
在第二阶段训练中,针对任意第二样本,根据该第二样本的预测损失以及其样本梯度对应的梯度密度,确定该第二样本的样本损失;根据各个第二样本的样本损失,更新所述风控模型。
5.如权利要求4所述的方法,其中,所述利用所述场景模拟样本集,对所述风控模型进行第一阶段训练,包括:
针对任意第二样本,将该第二样本对应于各项属性特征的特征数据输入所述风控模型,通过所述风控模型输出该第二样本的风控分数;
根据该风控分数和该第二样本的风险标签,利用第一损失函数,计算该第二样本的预测损失;
根据各个第二样本的预测损失,利用梯度下降法,以最小化总预测损失为目标,调整所述风控模型的模型参数。
6.如权利要求4所述的方法,其中,所述根据各个第二样本的样本损失,更新所述风控模型,包括:
根据各个第二样本的样本损失,利用梯度下降法,以最小化总样本损失为目标,调整所述风控模型的模型参数。
7.如权利要求4所述的方法,其中,第二样本的样本损失与该第二样本的预测损失正相关,且与其样本梯度对应的梯度密度负相关。
8.如权利要求4所述的方法,其中,所述第一阶段训练包括利用所述场景模拟样本集重复进行N次训练,N的取值为预先设定的数值;所述第二阶段训练包括利用所述场景模拟样本集重复进行M次训练,M的取值由模型参数收敛而决定。
9.如权利要求1所述的方法,其中,所述方法还包括:
将训练后的所述风控模型发送给所述目标机构,以使所述目标机构利用本方具有的第三样本的对应于各项属性特征的特征数据和所述风控模型,确定该第三样本的风险等级。
10.一种训练风控模型的装置,所述风控模型有待提供给目标机构使用,所述装置设置于训练方,包括:
获取单元,用于从所述目标机构获取目标样本集,所述目标样本集包括多个第一样本,所述第一样本对应于所述目标机构的业务对象;
确定单元,用于遍历目标策略库中的各个风控策略,确定出所述获取单元获取的目标样本集中的各个第一样本均满足的至少一个风控策略构成的策略集合;所述风控策略对业务对象的至少一项属性特征进行了约束;
选择单元,用于对所述训练方自有的风险样本库包括的样本进行筛选,选择出满足所述确定单元确定出的策略集合中的风控策略的若干个第二样本构成场景模拟样本集;所述第二样本来自于训练方采集的业务对象信息,且具有风险标签;
训练单元,用于利用所述选择单元选择出的场景模拟样本集训练所述风控模型。
11.如权利要求10所述的装置,其中,所述风险标签用于指示业务对象的风险等级,不同的风险等级代表业务对象具有的风险高低的差异。
12.如权利要求10所述的装置,其中,所述业务对象包括企业实体,所述至少一项属性特征包括以下若干:企业注册时长、企业主信息、企业所在地区、企业所在行业。
13.如权利要求10所述的装置,其中,所述训练单元包括:
第一训练子单元,用于利用所述场景模拟样本集,对所述风控模型进行第一阶段训练;
密度计算子单元,用于确定所述场景模拟样本集中各个第二样本针对所述第一训练子单元得到的第一阶段训练后的风控模型的样本梯度,并对各个样本梯度进行分箱得到若干个梯度分箱,计算每个梯度分箱的梯度密度;
第二训练子单元,用于在第二阶段训练中,针对任意第二样本,根据该第二样本的预测损失以及所述密度计算子单元得到的其样本梯度对应的梯度密度,确定该第二样本的样本损失;根据各个第二样本的样本损失,更新所述风控模型。
14.如权利要求13所述的装置,其中,所述第一训练子单元包括:
预测模块,用于针对任意第二样本,将该第二样本对应于各项属性特征的特征数据输入所述风控模型,通过所述风控模型输出该第二样本的风控分数;
计算模块,用于根据所述预测模块得到的该风控分数和该第二样本的风险标签,利用第一损失函数,计算该第二样本的预测损失;
参数调整模块,用于根据所述计算模块得到的各个第二样本的预测损失,利用梯度下降法,以最小化总预测损失为目标,调整所述风控模型的模型参数。
15.如权利要求13所述的装置,其中,所述第二训练子单元,具体用于根据各个第二样本的样本损失,利用梯度下降法,以最小化总样本损失为目标,调整所述风控模型的模型参数。
16.如权利要求13所述的装置,其中,第二样本的样本损失与该第二样本的预测损失正相关,且与其样本梯度对应的梯度密度负相关。
17.如权利要求13所述的装置,其中,所述第一阶段训练包括利用所述场景模拟样本集重复进行N次训练,N的取值为预先设定的数值;所述第二阶段训练包括利用所述场景模拟样本集重复进行M次训练,M的取值由模型参数收敛而决定。
18.如权利要求10所述的装置,其中,所述装置还包括:
发送单元,用于将所述训练单元得到的训练后的所述风控模型发送给所述目标机构,以使所述目标机构利用本方具有的第三样本的对应于各项属性特征的特征数据和所述风控模型,确定该第三样本的风险等级。
19.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-9中任一项的所述的方法。
20.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-9中任一项的所述的方法。
CN202210509617.0A 2022-05-11 2022-05-11 训练风控模型的方法和装置 Pending CN114819695A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210509617.0A CN114819695A (zh) 2022-05-11 2022-05-11 训练风控模型的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210509617.0A CN114819695A (zh) 2022-05-11 2022-05-11 训练风控模型的方法和装置

Publications (1)

Publication Number Publication Date
CN114819695A true CN114819695A (zh) 2022-07-29

Family

ID=82514355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210509617.0A Pending CN114819695A (zh) 2022-05-11 2022-05-11 训练风控模型的方法和装置

Country Status (1)

Country Link
CN (1) CN114819695A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028964A (zh) * 2023-03-28 2023-04-28 中国标准化研究院 一种信息安全风险管理系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028964A (zh) * 2023-03-28 2023-04-28 中国标准化研究院 一种信息安全风险管理系统
CN116028964B (zh) * 2023-03-28 2023-05-23 中国标准化研究院 一种信息安全风险管理系统

Similar Documents

Publication Publication Date Title
US10943186B2 (en) Machine learning model training method and device, and electronic device
US10977729B2 (en) Systems and methods for model fairness
US11514308B2 (en) Method and apparatus for machine learning
US10637990B1 (en) Call center load balancing and routing management
US20120323760A1 (en) Dynamic loan service monitoring system and method
CN110738527A (zh) 一种特征重要性排序方法、装置、设备和存储介质
US10498897B1 (en) Systems and methods for simulating multiple call center balancing
US11716422B1 (en) Call center load balancing and routing management
CN112801231B (zh) 用于业务对象分类的决策模型训练方法和装置
CN110689440A (zh) 基于图片识别的车险理赔识别方法、装置、计算机设备及存储介质
Niemann et al. Computational Eurotransplant kidney allocation simulations demonstrate the feasibility and benefit of T-cell epitope matching
CN114819695A (zh) 训练风控模型的方法和装置
JP2020129222A (ja) モデル出力プログラム、モデル出力方法及びモデル出力装置
KR101851367B1 (ko) 신용도를 평가하는 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN118134652A (zh) 一种资产配置方案生成方法、装置、电子设备及介质
WO2022150343A1 (en) Generation and evaluation of secure synthetic data
US7379843B2 (en) Systems and methods for mining model accuracy display for multiple state prediction
US12008583B2 (en) System and method for implementing autonomous fraud risk management
US12106026B2 (en) Extensible agents in agent-based generative models
CN108197740A (zh) 企业倒闭预测方法、电子设备和计算机存储介质
WO2024013939A1 (ja) 機械学習プログラム、機械学習方法、および情報処理装置
CN117196698A (zh) 数据处理方法、装置、终端设备以及存储介质
CN115688998A (zh) 房租收入预测方法、装置、电子设备和存储介质
Steenbergen Fisheries support and management in the European Union
CORELATD TRANSFORMED DATSET

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination