CN114997317A - 风控模型训练、预测风险类别的方法和装置 - Google Patents
风控模型训练、预测风险类别的方法和装置 Download PDFInfo
- Publication number
- CN114997317A CN114997317A CN202210669118.8A CN202210669118A CN114997317A CN 114997317 A CN114997317 A CN 114997317A CN 202210669118 A CN202210669118 A CN 202210669118A CN 114997317 A CN114997317 A CN 114997317A
- Authority
- CN
- China
- Prior art keywords
- splitting
- sample
- business object
- scene
- wind control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本说明书实施例提供一种风控模型训练、预测风险类别的方法和装置,风控模型训练方法包括:获取各个第一训练样本,第一训练样本包括业务对象的属性特征对应的第一特征值,以及其是否具有业务风险的类别标签;确定其场景特征对应的第二特征值,将第二特征值添加到对应的第一训练样本,形成第二训练样本;根据各个第二训练样本,通过节点分裂的方式构建第一决策树,针对当前节点进行分裂的过程包括:对于当前节点的多个备选分裂条件中任一分裂条件,依照该分裂条件的分裂纯度,进行分裂;在分裂过程中将场景特征视为类别特征;基于第一决策树,确定用于对业务对象分类的风控模型。能够简化模型体系的复杂程度,并且使得模型具有较佳的性能。
Description
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及适用于多场景的风控模型训练、预测风险类别的方法和装置。
背景技术
当前,常常基于业务对象的属性特征,利用预先构建的风控模型,预测该业务对象的风险类别,风险类别用于指示业务对象是否具有业务风险。风控模型根据有风险表现的训练样本而构建。
对于业务相近的多种业务场景,各业务场景下的训练样本既存在差异,又存在很强的共同性。现有技术中,通过对训练样本的筛选,训练多个分别适用于不同业务场景下的专用风控模型,以及适用于各个业务场景的通用风控模型。专用风控模型,简称为专用模型,对于其适用的业务场景具有很强的性能。通用风控模型,简称通用模型,会在各个业务场景下达到相对一般性能,泛化性较强。由于需要分别训练和部署多个风控模型,模型体系的复杂程度高,需要大量的人力成本。
因此,期望能有改进的方案,能够简化模型体系的复杂程度,并且使得模型具有较佳的性能。
发明内容
本说明书一个或多个实施例描述了一种适用于多场景的风控模型训练、预测风险类别的方法和装置,能够简化模型体系的复杂程度,并且使得模型具有较佳的性能。
第一方面,提供了一种适用于多场景的风控模型训练方法,方法包括:
获取第一样本集中包括的各个第一训练样本,其中,任一所述第一训练样本包括单个业务对象的属性特征对应的第一特征值,以及该业务对象是否具有业务风险的类别标签;
根据单个业务对象所在的业务场景,确定其场景特征对应的第二特征值,将所述第二特征值添加到对应的第一训练样本,形成第二训练样本;
根据各个第二训练样本形成的第二样本集,通过节点分裂的方式构建第一决策树,其中针对任意的当前节点进行分裂的过程包括:对于当前节点的多个备选分裂条件中任一分裂条件,依照该分裂条件的分裂纯度,对当前节点进行分裂;其中,在分裂过程中将所述场景特征视为类别特征;
基于所述第一决策树,确定用于对业务对象分类的风控模型。
在一种可能的实施方式中,针对任意的当前节点进行分裂的过程还包括:
根据落入当前节点的当前样本集中,各业务对象的第一特征值和第二特征值,确定所述多个备选分裂条件。
进一步地,所述属性特征包括数值型的多项属性特征;确定所述多个备选分裂条件,包括:枚举所述当前样本集中,所述多项属性特征具有的可能取值,将各可能取值离散化成k个整数值,将一项属性特征与该项属性特征的一个整数值的组合作为一个备选分裂条件。
进一步地,所述确定所述多个备选分裂条件,还包括:
枚举所述当前样本集中,所述场景特征具有的可能取值,将各可能取值中的至少两个进行组合得到若干取值集合,将所述场景特征与一个取值集合的组合作为一个备选分裂条件。
在一种可能的实施方式中,针对任意的当前节点进行分裂的过程还包括:
根据当前节点对应的当前样本集的样本纯度,所述两个子节点分别对应的两个样本子集的样本纯度,确定该分裂条件的分裂纯度。
进一步地,所述样本纯度基于以下指标之一而确定:信息熵,基尼系数。
进一步地,所述确定该分裂条件的分裂纯度,具体包括:
以所述两个样本子集各自的样本数目与所述当前样本集的样本数目的比例为各自的权重,对所述两个样本子集的样本纯度进行加权求和,得到和值;
基于所述当前样本集的样本纯度与所述和值之差,确定该分裂条件的分裂纯度。
在一种可能的实施方式中,所述业务对象包括以下之一:用户、操作事件、交易、业务申请请求。
在一种可能的实施方式中,所述场景特征对应的场景包括如下任意一种:
中大企业信贷场景、小微企业信贷场景、中长期信贷场景、短期信贷场景。
第二方面,提供了一种预测风险类别的方法,方法包括:
获取目标样本,其中,所述目标样本包括目标业务对象的属性特征对应的第一特征值;
根据所述目标业务对象所在的业务场景,确定其场景特征对应的第二特征值;
将所述第一特征值和所述第二特征值输入第一方面所述的方法训练后的所述风控模型,通过所述风控模型输出所述目标业务对象的风险类别,所述风险类别用于指示所述目标业务对象是否具有业务风险。
在一种可能的实施方式中,所述第二特征值为参与训练所述风控模型的特征值或未参与训练所述风控模型的特征值。
第三方面,提供了一种预测风险类别的方法,方法包括:
获取目标样本,其中,所述目标样本包括目标业务对象的属性特征对应的第一特征值;
将所述第一特征值输入第一方面所述的方法训练后的所述风控模型,通过所述风控模型输出所述目标业务对象的风险类别,所述风险类别用于指示所述目标业务对象是否具有业务风险。
第四方面,提供了一种适用于多场景的风控模型训练装置,装置包括:
获取单元,用于获取第一样本集中包括的各个第一训练样本,其中,任一所述第一训练样本包括单个业务对象的属性特征对应的第一特征值,以及该业务对象是否具有业务风险的类别标签;
添加单元,用于根据单个业务对象所在的业务场景,确定其场景特征对应的第二特征值,将所述第二特征值添加到对应的所述获取单元获取的第一训练样本,形成第二训练样本;
构建单元,用于根据所述添加单元得到的各个第二训练样本形成的第二样本集,通过节点分裂的方式构建第一决策树,其中针对任意的当前节点进行分裂的过程包括:对于当前节点的多个备选分裂条件中任一分裂条件,依照该分裂条件的分裂纯度,对当前节点进行分裂;其中,在分裂过程中将所述场景特征视为类别特征;
确定单元,用于基于所述构建单元得到的第一决策树,确定用于对业务对象分类的风控模型。
第五方面,提供了一种预测风险类别的装置,装置包括:
获取单元,用于获取目标样本,其中,所述目标样本包括目标业务对象的属性特征对应的第一特征值;
确定单元,用于根据所述目标业务对象所在的业务场景,确定其场景特征对应的第二特征值;
预测单元,用于将所述获取单元获取的第一特征值和所述确定单元确定的第二特征值输入第四方面所述的装置训练后的所述风控模型,通过所述风控模型输出所述目标业务对象的风险类别,所述风险类别用于指示所述目标业务对象是否具有业务风险。
第六方面,提供了一种预测风险类别的装置,装置包括:
获取单元,用于获取目标样本,其中,所述目标样本包括目标业务对象的属性特征对应的第一特征值;
预测单元,用于将所述获取单元获取的第一特征值输入第四方面所述的装置训练后的所述风控模型,通过所述风控模型输出所述目标业务对象的风险类别,所述风险类别用于指示所述目标业务对象是否具有业务风险。
第七方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面、第二方面或第三方面的方法。
第八方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面、第二方面或第三方面的方法。
通过本说明书实施例提供的适用于多场景的风控模型训练方法和装置,首先获取第一样本集中包括的各个第一训练样本,其中,任一所述第一训练样本包括单个业务对象的属性特征对应的第一特征值,以及该业务对象是否具有业务风险的类别标签;然后根据单个业务对象所在的业务场景,确定其场景特征对应的第二特征值,将所述第二特征值添加到对应的第一训练样本,形成第二训练样本;接着根据各个第二训练样本形成的第二样本集,通过节点分裂的方式构建第一决策树,其中针对任意的当前节点进行分裂的过程包括:对于当前节点的多个备选分裂条件中任一分裂条件,依照该分裂条件的分裂纯度,对当前节点进行分裂;其中,在分裂过程中将所述场景特征视为类别特征;最后基于所述第一决策树,确定用于对业务对象分类的风控模型。由上可见,本说明书实施例,在第一训练样本基础上增加对应场景的特征字段,该特征字段在训练模型时设置为类别字段,保证各个场景之间无相对排序关系,采用这种将场景特征作为类别特征的处理方式,可以实现快速的场景定制和多场景模型汇总,能够简化模型体系的复杂程度,并且使得模型具有较佳的性能。
通过本说明书实施例提供的一种预测风险类别的方法和装置,首先获取目标样本,其中,所述目标样本包括目标业务对象的属性特征对应的第一特征值;然后根据所述目标业务对象所在的业务场景,确定其场景特征对应的第二特征值;最后将所述第一特征值和所述第二特征值输入第一方面所述的方法训练后的所述风控模型,通过所述风控模型输出所述目标业务对象的风险类别,所述风险类别用于指示所述目标业务对象是否具有业务风险。由上可见,本说明书实施例,第一方面所述的方法训练后的所述风控模型,可以实现快速的场景定制和多场景模型汇总,能够简化模型体系的复杂程度,并且使得模型具有较佳的性能,因此在预测阶段,对于特定场景的预测任务,对该场景下的样本增加相应的场景特征对应的特征值,即可以实现对该特定场景的定制化模型的调用,并具有较高的预测准确率。
通过本说明书实施例提供的另一种预测风险类别的方法和装置,首先获取目标样本,其中,所述目标样本包括目标业务对象的属性特征对应的第一特征值;然后将所述第一特征值输入第一方面所述的方法训练后的所述风控模型,通过所述风控模型输出所述目标业务对象的风险类别,所述风险类别用于指示所述目标业务对象是否具有业务风险。由上可见,本说明书实施例,第一方面所述的方法训练后的所述风控模型,可以实现快速的场景定制和多场景模型汇总,能够简化模型体系的复杂程度,并且使得模型具有较佳的性能,因此在预测阶段,对于通用模型来说,可以选择不传入场景特征对应的特征值,即可以实现对场景泛化性模型的调用,并具有较高的预测准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的适用于多场景的风控模型训练方法流程图;
图3示出根据一个实施例的第二训练样本的形成示意图;
图4示出根据一个实施例的决策树的分裂条件示意图;
图5示出根据一个实施例的预测风险类别的方法流程图;
图6示出根据另一个实施例的预测风险类别的方法流程图;
图7示出根据一个实施例的适用于多场景的风控模型训练装置的示意性框图;
图8示出根据一个实施例的预测风险类别的装置的示意性框图;
图9示出根据另一个实施例的预测风险类别的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及适用于多场景的风控模型的训练。通常的处理方式,通过对训练样本的筛选,训练多个分别适用于不同业务场景下的专用风控模型,以及适用于各个业务场景的通用风控模型。本说明书实施例,与通常的处理方式不同,在训练样本的原始训练特征中增加对应场景的特征字段,通过构建决策树来训练风控模型,场景字段在训练模型时设置为类别字段,保证各个场景之间无相对排序关系,采用这种将场景特征作为类别特征的处理方式,可以实现快速的场景定制和多场景模型汇总,能够简化模型体系的复杂程度,并且使得模型具有较佳的性能。
参照图1,假设存在3个不同的业务场景,图中示出3个不同业务场景的训练样本,训练样本1包括特征X、Code1和Y1,特征X代表业务对象1的属性特征的特征值,Code1代表业务对象1的场景特征对应的特征值,Y1代表该业务对象1是否具有业务风险的类别标签;训练样本2包括特征X、Code2和Y2,特征X代表业务对象2的属性特征的特征值,Code2代表业务对象2的场景特征对应的特征值,Y2代表该业务对象2是否具有业务风险的类别标签;训练样本3包括特征X、Code3和Y3,特征X代表业务对象3的属性特征的特征值,Code3代表业务对象3的场景特征对应的特征值,Y3代表该业务对象3是否具有业务风险的类别标签。可以理解的是,训练样本1、训练样本2和训练样本3只是所采用的样本集中的训练样本的示意,实际上样本集中通常包括数量众多的训练样本,任意的两个训练样本可能属于相同的业务场景,也可能属于不同的业务场景。特征X可能有多种取值,图中简化的表示方式,并不意味着这些训练样本的属性特征的特征值是相同的。类别标签具体可以采用0或1表示,例如,0代表业务对象不具有业务风险,1代表业务对象具有业务风险。
在利用上述样本集对风控模型进行训练完成后,就可以利用训练后的风控模型预测目标样本的风险类别,该目标样本也可以称为测试样本,包括特征X和对应Code,可以理解的是,该对应Code可以为前述Code1、Code2和Code3中的任意一个,当该对应Code为前述Code1时,相当于调用Code1对应的业务场景下的专用模型进行预测,得到的预测结果的准确性较高。该对应Code也可以不为前述Code1、Code2和Code3中的任何一个,当该对应Code为Code4或者空值时,相当于调用适用于各个业务场景的通用模型进行预测,得到的预测结果的准确性较高。
图2示出根据一个实施例的适用于多场景的风控模型训练方法流程图,该方法可以基于图1所示的实施场景。如图2所示,该实施例中适用于多场景的风控模型训练方法包括以下步骤:步骤21,获取第一样本集中包括的各个第一训练样本,其中,任一所述第一训练样本包括单个业务对象的属性特征对应的第一特征值,以及该业务对象是否具有业务风险的类别标签;步骤22,根据单个业务对象所在的业务场景,确定其场景特征对应的第二特征值,将所述第二特征值添加到对应的第一训练样本,形成第二训练样本;步骤23,根据各个第二训练样本形成的第二样本集,通过节点分裂的方式构建第一决策树,其中针对任意的当前节点进行分裂的过程包括:对于当前节点的多个备选分裂条件中任一分裂条件,依照该分裂条件的分裂纯度,对当前节点进行分裂;其中,在分裂过程中将所述场景特征视为类别特征;步骤24,基于所述第一决策树,确定用于对业务对象分类的风控模型。下面描述以上各个步骤的具体执行方式。
首先在步骤21,获取第一样本集中包括的各个第一训练样本,其中,任一所述第一训练样本包括单个业务对象的属性特征对应的第一特征值,以及该业务对象是否具有业务风险的类别标签。可以理解的是,属性特征通常包括多项属性特征,第一特征值为各项属性特征的特征值组合而成。
本说明书实施例,第一样本集中包含大量的样本,可以将第一样本集中任意的第i个样本记为(xi,yi),其中xi表示该第i个样本对应的业务对象的属性特征,yi表示该业务对象是否具有业务风险的类别标签。需要理解,由于后续需要基于该第一样本集训练决策树,这里,属性特征中的各项通常都是数值型特征,当然也不排除其中存在类别型特征。yi通常取值为0或1,分别示出该业务对象是否具有业务风险。通常,可以将具有业务风险的样本(例如标签值yi为1的样本)称为正样本,其余样本称为负样本。
在不同实施例中,上述样本对应的业务对象可以是为各种业务对象,例如用户、操作事件、交易、业务申请请求等等。
在一个具体例子中,业务对象为用户,用户可以通过其对应账号表示。相应的,类别标签可以是有风险的用户或账号,例如,垃圾账号、被盗用账号,有信用风险的用户等等。用户的属性特征可以包括例如账号的注册时长等基本属性,还可以包括与具体的风险类别相关的属性,例如当用于评估信用风险时,还可以包括最近一段时间的借款次数,累计借款金额等等。
在另一例子中,业务对象为交易。相应的,类别标签可以是高风险交易,例如涉嫌欺诈、套现、盗卡等的交易。对于交易样本来说,属性特征可以包括,例如交易金额、交易时间、最近一段时间的交易频次等等。
在又一例子中,业务对象为业务申请请求,例如,贷款请求,保险理赔请求,相应的,类别标签可以是高风险的申请请求,例如涉嫌骗保的理赔请求,逾期的贷款请求。
在其他例子中,样本还可以是其他业务对象,例如用户操作,交互事件,等等,不同类型的业务对象针对不同的类别标签具有不同的属性特征,在此不一一具体描述。
然后在步骤22,根据单个业务对象所在的业务场景,确定其场景特征对应的第二特征值,将所述第二特征值添加到对应的第一训练样本,形成第二训练样本。可以理解的是,该第二特征值也可以称为场景编码。
图3示出根据一个实施例的第二训练样本的形成示意图。参照图3,第一训练样本包括特征X和Y1,特征X代表业务对象的属性特征的特征值,Y1代表该业务对象是否具有业务风险的类别标签;在第一训练样本的基础上添加该业务对象的场景特征对应的第二特征值,即得到第二训练样本,可以理解的是Code1代表前述第二特征值,第二训练样本包括特征X、Code1和Y1,Code1为新添加的特征字段的特征值。
在一个示例中,所述场景特征对应的场景包括如下任意一种:
中大企业信贷场景、小微企业信贷场景、中长期信贷场景、短期信贷场景。
该示例中,各场景均属于信贷业务领域,因此各场景下的业务对象具有很多相似的特征维度,又存在部分差异较大的特征维度。
接着在步骤23,根据各个第二训练样本形成的第二样本集,通过节点分裂的方式构建第一决策树,其中针对任意的当前节点进行分裂的过程包括:对于当前节点的多个备选分裂条件中任一分裂条件,依照该分裂条件的分裂纯度,对当前节点进行分裂;其中,在分裂过程中将所述场景特征视为类别特征。可以理解的是,决策树是一种具有较强可解释性的树形模型,训练好的决策树包含根节点,中间节点和叶节点,除叶节点之外的每个节点对应一个分裂条件。
如本领域技术人员所知,样本集从根节点输入,经过各个节点的分裂条件,被划分到下一层级的子节点,直到叶节点。训练或构建决策树的过程,就是从根节点开始,通过确定节点对应的分裂条件,进行节点分裂的过程。通常,一个节点的分裂条件,对应于样本的一项特征和特征值的组合。
需要理解,前述当前节点可以是决策树中有待进行节点分裂的任一节点。
在一个示例中,针对任意的当前节点进行分裂的过程还包括:
根据落入当前节点的当前样本集中,各业务对象的第一特征值和第二特征值,确定所述多个备选分裂条件。
进一步地,所述属性特征包括数值型的多项属性特征;确定所述多个备选分裂条件,包括:枚举所述当前样本集中,所述多项属性特征具有的可能取值,将各可能取值离散化成k个整数值,将一项属性特征与该项属性特征的一个整数值的组合作为一个备选分裂条件。
可以理解的是,将各可能取值离散化成k个整数值,即特征分箱的过程,使得可以占用更少的内存存储特征值,计算代价更小。
进一步地,所述确定所述多个备选分裂条件,还包括:
枚举所述当前样本集中,所述场景特征具有的可能取值,将各可能取值中的至少两个进行组合得到若干取值集合,将所述场景特征与一个取值集合的组合作为一个备选分裂条件。
本说明书实施例,将场景特征视为类别特征,其在确定备选分裂条件时与数值型特征的处理方式不同。
图4示出根据一个实施例的决策树的分裂条件示意图。参照图4,对于用户业务对象,假定根节点的分裂条件为,一项属性特征用a表示,特征值为20,则a大于20的用户样本将会被划分到该根节点的左侧子节点,a小于等于20的用户样本将会被划分为该根节点的右侧子节点,该项属性特征为数值型特征;对于用户业务对象,中间节点1的分裂条件为,场景特征用class表示,取值组合为(Code1,Code2),该取值组合表示为(‘1’,‘2’),则场景特征的特征值为Code1或Code2的用户样本将会被划分到该中间节点1的左侧子节点,场景特征的特征值为其他取值的用户样本将会被划分为该中间节点1的右侧子节点,该场景特征为类别特征。
在一个示例中,针对任意的当前节点进行分裂的过程还包括:
根据当前节点对应的当前样本集的样本纯度,所述两个子节点分别对应的两个样本子集的样本纯度,确定该分裂条件的分裂纯度。
举例来说,确定某个分裂条件(s,t)的分裂纯度Φ(s,t),其中s为该分裂条件选取的属性特征,t为该属性特征的用于分裂的特征值。分裂纯度Φ通过衡量分裂之前和之后,节点样本集的样本纯度φ的变化,确定该分裂条件对于样本分类的信息增益。
进一步地,所述样本纯度基于以下指标之一而确定:信息熵,基尼系数。
进一步地,所述确定该分裂条件的分裂纯度,具体包括:
以所述两个样本子集各自的样本数目与所述当前样本集的样本数目的比例为各自的权重,对所述两个样本子集的样本纯度进行加权求和,得到和值;
基于所述当前样本集的样本纯度与所述和值之差,确定该分裂条件的分裂纯度。
如此,对于决策树中的任意一个当前节点进行了节点分裂,直到满足预设的决策树终止条件,就可以得到一棵决策树,在此称为第一决策树。其中上述决策树终止条件可以包括,例如,深度达到一定阈值,节点中的样本数目小于一定阈值,等等。
最后在步骤24,基于所述第一决策树,确定用于对业务对象分类的风控模型。
在一个实施例中,直接将该第一决策树作为最终的决策模型。在这样的情况下,该决策模型可以理解为,包含第一决策树中从根节点到各个叶节点形成的各个路径对应的各个决策规则。
在一个实施例中,还对各个决策规则进行裁剪,从而避免路径太长、规则太复杂造成的过拟合问题。
本说明书实施例,可以利用轻量级的梯度提升机器(light gradient boostingmachine,LightGBM)算法能够处理类别特征的特点,在原始训练特征中增加对应场景的特征字段,场景字段在训练模型时设置为类别字段,保证各个场景之间无相对排序关系。在模型训练的过程中,根据LightGBM算法的训练特点,树模型的分叉会选择信息增益最大的点进行拆分。
对于类别特征,LightGBM算法使用了多对多(many-vs-many)的分裂条件的确定方式取代了独热编码(onehot)的方式,onehot编码需要更深的不平衡的树才能得到很好的结果,而多对多的方式在一次分裂时可以结合多个取值,树的深度将减少。通过统计各个特征值对应的样本在各个风险类别的信息增益统计量;根据该统计量对各个桶进行从大到小排序;在排序好的桶上,进行切点查找。采用这种类别特征的处理办法,可以实现快速的场景定制和多场景模型汇总。在各个场景下保证相似的样本浓度比,避免场景类别特征过强覆盖了其他特征。
通过本说明书实施例提供的适用于多场景的风控模型训练方法,首先获取第一样本集中包括的各个第一训练样本,其中,任一所述第一训练样本包括单个业务对象的属性特征对应的第一特征值,以及该业务对象是否具有业务风险的类别标签;然后根据单个业务对象所在的业务场景,确定其场景特征对应的第二特征值,将所述第二特征值添加到对应的第一训练样本,形成第二训练样本;接着根据各个第二训练样本形成的第二样本集,通过节点分裂的方式构建第一决策树,其中针对任意的当前节点进行分裂的过程包括:对于当前节点的多个备选分裂条件中任一分裂条件,依照该分裂条件的分裂纯度,对当前节点进行分裂;其中,在分裂过程中将所述场景特征视为类别特征;最后基于所述第一决策树,确定用于对业务对象分类的风控模型。由上可见,本说明书实施例,在第一训练样本基础上增加对应场景的特征字段,该特征字段在训练模型时设置为类别字段,保证各个场景之间无相对排序关系,采用这种将场景特征作为类别特征的处理方式,可以实现快速的场景定制和多场景模型汇总,能够简化模型体系的复杂程度,并且使得模型具有较佳的性能。
图5示出根据一个实施例的预测风险类别的方法流程图,该方法可以基于图1所示的实施场景。如图5所示,该实施例中预测风险类别的方法包括以下步骤:首先在步骤51,获取目标样本,其中,所述目标样本包括目标业务对象的属性特征对应的第一特征值;然后在步骤52,根据所述目标业务对象所在的业务场景,确定其场景特征对应的第二特征值;最后在步骤53,将所述第一特征值和所述第二特征值输入图2所述的方法训练后的所述风控模型,通过所述风控模型输出所述目标业务对象的风险类别,所述风险类别用于指示所述目标业务对象是否具有业务风险。
在一个示例中,所述第二特征值为参与训练所述风控模型的特征值或未参与训练所述风控模型的特征值。
本说明书实施例,在预测阶段,对于特定场景的预测任务,对该场景下的样本增加相应的场景编码,即可以实现对该场景对应的专用模型的调用。对于通用模型来说,可以选择传入未参与训练的场景编码,即可以实现对场景泛化性模型的调用。
图6示出根据另一个实施例的预测风险类别的方法流程图,该方法可以基于图1所示的实施场景。如图6所示,该实施例中预测风险类别的方法包括以下步骤:首先在步骤61,获取目标样本,其中,所述目标样本包括目标业务对象的属性特征对应的第一特征值;然后在步骤62,将所述第一特征值输入图2所述的方法训练后的所述风控模型,通过所述风控模型输出所述目标业务对象的风险类别,所述风险类别用于指示所述目标业务对象是否具有业务风险。
本说明书实施例,在预测阶段,对于通用模型来说,可以选择不传入场景编码,即可以实现对场景泛化性模型的调用。
根据另一方面的实施例,还提供一种适用于多场景的风控模型训练装置,该装置用于执行本说明书实施例提供的图2所示的方法。图7示出根据一个实施例的适用于多场景的风控模型训练装置的示意性框图。如图7所示,该装置700包括:
获取单元71,用于获取第一样本集中包括的各个第一训练样本,其中,任一所述第一训练样本包括单个业务对象的属性特征对应的第一特征值,以及该业务对象是否具有业务风险的类别标签;
添加单元72,用于根据单个业务对象所在的业务场景,确定其场景特征对应的第二特征值,将所述第二特征值添加到对应的所述获取单元71获取的第一训练样本,形成第二训练样本;
构建单元73,用于根据所述添加单元72得到的各个第二训练样本形成的第二样本集,通过节点分裂的方式构建第一决策树,其中针对任意的当前节点进行分裂的过程包括:对于当前节点的多个备选分裂条件中任一分裂条件,依照该分裂条件的分裂纯度,对当前节点进行分裂;其中,在分裂过程中将所述场景特征视为类别特征;
确定单元74,用于基于所述构建单元73得到的第一决策树,确定用于对业务对象分类的风控模型。
可选地,作为一个实施例,针对任意的当前节点进行分裂的过程还包括:
根据落入当前节点的当前样本集中,各业务对象的第一特征值和第二特征值,确定所述多个备选分裂条件。
进一步地,所述属性特征包括数值型的多项属性特征;确定所述多个备选分裂条件,包括:枚举所述当前样本集中,所述多项属性特征具有的可能取值,将各可能取值离散化成k个整数值,将一项属性特征与该项属性特征的一个整数值的组合作为一个备选分裂条件。
进一步地,所述确定所述多个备选分裂条件,还包括:
枚举所述当前样本集中,所述场景特征具有的可能取值,将各可能取值中的至少两个进行组合得到若干取值集合,将所述场景特征与一个取值集合的组合作为一个备选分裂条件。
可选地,作为一个实施例,针对任意的当前节点进行分裂的过程还包括:
根据当前节点对应的当前样本集的样本纯度,所述两个子节点分别对应的两个样本子集的样本纯度,确定该分裂条件的分裂纯度。
通过本说明书实施例提供的适用于多场景的风控模型训练装置,首先获取单元71获取第一样本集中包括的各个第一训练样本,其中,任一所述第一训练样本包括单个业务对象的属性特征对应的第一特征值,以及该业务对象是否具有业务风险的类别标签;然后添加单元72根据单个业务对象所在的业务场景,确定其场景特征对应的第二特征值,将所述第二特征值添加到对应的第一训练样本,形成第二训练样本;接着构建单元73根据各个第二训练样本形成的第二样本集,通过节点分裂的方式构建第一决策树,其中针对任意的当前节点进行分裂的过程包括:对于当前节点的多个备选分裂条件中任一分裂条件,依照该分裂条件的分裂纯度,对当前节点进行分裂;其中,在分裂过程中将所述场景特征视为类别特征;最后确定单元74基于所述第一决策树,确定用于对业务对象分类的风控模型。由上可见,本说明书实施例,在第一训练样本基础上增加对应场景的特征字段,该特征字段在训练模型时设置为类别字段,保证各个场景之间无相对排序关系,采用这种将场景特征作为类别特征的处理方式,可以实现快速的场景定制和多场景模型汇总,能够简化模型体系的复杂程度,并且使得模型具有较佳的性能。
根据另一方面的实施例,还提供一种预测风险类别的装置,该装置用于执行本说明书实施例提供的图5所示的方法。图8示出根据一个实施例的预测风险类别的装置的示意性框图。如图8所示,该装置800包括:
获取单元81,用于获取目标样本,其中,所述目标样本包括目标业务对象的属性特征对应的第一特征值;
确定单元82,用于根据所述目标业务对象所在的业务场景,确定其场景特征对应的第二特征值;
预测单元83,用于将所述获取单元81获取的第一特征值和所述确定单元82确定的第二特征值输入图7所述的装置训练后的所述风控模型,通过所述风控模型输出所述目标业务对象的风险类别,所述风险类别用于指示所述目标业务对象是否具有业务风险。
可选地,作为一个实施例,所述第二特征值为参与训练所述风控模型的特征值或未参与训练所述风控模型的特征值。
通过本说明书实施例提供的一种预测风险类别的装置,首先获取单元81获取目标样本,其中,所述目标样本包括目标业务对象的属性特征对应的第一特征值;然后确定单元82根据所述目标业务对象所在的业务场景,确定其场景特征对应的第二特征值;最后预测单元83将所述第一特征值和所述第二特征值输入图7所述的装置训练后的所述风控模型,通过所述风控模型输出所述目标业务对象的风险类别,所述风险类别用于指示所述目标业务对象是否具有业务风险。由上可见,本说明书实施例,图7所述的装置训练后的所述风控模型,可以实现快速的场景定制和多场景模型汇总,能够简化模型体系的复杂程度,并且使得模型具有较佳的性能,因此在预测阶段,对于特定场景的预测任务,对该场景下的样本增加相应的场景特征对应的特征值,即可以实现对该特定场景的定制化模型的调用,并具有较高的预测准确率。
根据另一方面的实施例,还提供一种预测风险类别的装置,该装置用于执行本说明书实施例提供的图6所示的方法。图9示出根据另一个实施例的预测风险类别的装置的示意性框图。如图9所示,该装置900包括:
获取单元91,用于获取目标样本,其中,所述目标样本包括目标业务对象的属性特征对应的第一特征值;
预测单元92,用于将所述获取单元91获取的第一特征值输入图7所述的装置训练后的所述风控模型,通过所述风控模型输出所述目标业务对象的风险类别,所述风险类别用于指示所述目标业务对象是否具有业务风险。
通过本说明书实施例提供的另一种预测风险类别的装置,首先获取单元91获取目标样本,其中,所述目标样本包括目标业务对象的属性特征对应的第一特征值;然后预测单元92将所述第一特征值输入图7所述的装置训练后的所述风控模型,通过所述风控模型输出所述目标业务对象的风险类别,所述风险类别用于指示所述目标业务对象是否具有业务风险。由上可见,本说明书实施例,图7所述的装置训练后的所述风控模型,可以实现快速的场景定制和多场景模型汇总,能够简化模型体系的复杂程度,并且使得模型具有较佳的性能,因此在预测阶段,对于通用模型来说,可以选择不传入场景特征对应的特征值,即可以实现对场景泛化性模型的调用,并具有较高的预测准确率。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2、图5或图6所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2、图5或图6所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (22)
1.一种适用于多场景的风控模型训练方法,所述方法包括:
获取第一样本集中包括的各个第一训练样本,其中,任一所述第一训练样本包括单个业务对象的属性特征对应的第一特征值,以及该业务对象是否具有业务风险的类别标签;
根据单个业务对象所在的业务场景,确定其场景特征对应的第二特征值,将所述第二特征值添加到对应的第一训练样本,形成第二训练样本;
根据各个第二训练样本形成的第二样本集,通过节点分裂的方式构建第一决策树,其中针对任意的当前节点进行分裂的过程包括:对于当前节点的多个备选分裂条件中任一分裂条件,依照该分裂条件的分裂纯度,对当前节点进行分裂;其中,在分裂过程中将所述场景特征视为类别特征;
基于所述第一决策树,确定用于对业务对象分类的风控模型。
2.根据权利要求1所述的方法,其中,针对任意的当前节点进行分裂的过程还包括:
根据落入当前节点的当前样本集中,各业务对象的第一特征值和第二特征值,确定所述多个备选分裂条件。
3.根据权利要求2所述的方法,其中,所述属性特征包括数值型的多项属性特征;确定所述多个备选分裂条件,包括:枚举所述当前样本集中,所述多项属性特征具有的可能取值,将各可能取值离散化成k个整数值,将一项属性特征与该项属性特征的一个整数值的组合作为一个备选分裂条件。
4.根据权利要求2所述的方法,其中,所述确定所述多个备选分裂条件,还包括:
枚举所述当前样本集中,所述场景特征具有的可能取值,将各可能取值中的至少两个进行组合得到若干取值集合,将所述场景特征与一个取值集合的组合作为一个备选分裂条件。
5.根据权利要求1所述的方法,其中,针对任意的当前节点进行分裂的过程还包括:
根据当前节点对应的当前样本集的样本纯度,所述两个子节点分别对应的两个样本子集的样本纯度,确定该分裂条件的分裂纯度。
6.根据权利要求5所述的方法,其中,所述样本纯度基于以下指标之一而确定:信息熵,基尼系数。
7.根据权利要求5所述的方法,其中,所述确定该分裂条件的分裂纯度,具体包括:
以所述两个样本子集各自的样本数目与所述当前样本集的样本数目的比例为各自的权重,对所述两个样本子集的样本纯度进行加权求和,得到和值;
基于所述当前样本集的样本纯度与所述和值之差,确定该分裂条件的分裂纯度。
8.根据权利要求1-7中任一项所述的方法,其中,所述业务对象包括以下之一:用户、操作事件、交易、业务申请请求。
9.根据权利要求1-7中任一项所述的方法,其中,所述场景特征对应的场景包括如下任意一种:
中大企业信贷场景、小微企业信贷场景、中长期信贷场景、短期信贷场景。
10.一种预测风险类别的方法,所述方法包括:
获取目标样本,其中,所述目标样本包括目标业务对象的属性特征对应的第一特征值;
根据所述目标业务对象所在的业务场景,确定其场景特征对应的第二特征值;
将所述第一特征值和所述第二特征值输入权利要求1所述的方法训练后的所述风控模型,通过所述风控模型输出所述目标业务对象的风险类别,所述风险类别用于指示所述目标业务对象是否具有业务风险。
11.根据权利要求10所述的方法,其中,所述第二特征值为参与训练所述风控模型的特征值或未参与训练所述风控模型的特征值。
12.一种预测风险类别的方法,所述方法包括:
获取目标样本,其中,所述目标样本包括目标业务对象的属性特征对应的第一特征值;
将所述第一特征值输入权利要求1所述的方法训练后的所述风控模型,通过所述风控模型输出所述目标业务对象的风险类别,所述风险类别用于指示所述目标业务对象是否具有业务风险。
13.一种适用于多场景的风控模型训练装置,所述装置包括:
获取单元,用于获取第一样本集中包括的各个第一训练样本,其中,任一所述第一训练样本包括单个业务对象的属性特征对应的第一特征值,以及该业务对象是否具有业务风险的类别标签;
添加单元,用于根据单个业务对象所在的业务场景,确定其场景特征对应的第二特征值,将所述第二特征值添加到对应的所述获取单元获取的第一训练样本,形成第二训练样本;
构建单元,用于根据所述添加单元得到的各个第二训练样本形成的第二样本集,通过节点分裂的方式构建第一决策树,其中针对任意的当前节点进行分裂的过程包括:对于当前节点的多个备选分裂条件中任一分裂条件,依照该分裂条件的分裂纯度,对当前节点进行分裂;其中,在分裂过程中将所述场景特征视为类别特征;
确定单元,用于基于所述构建单元得到的第一决策树,确定用于对业务对象分类的风控模型。
14.根据权利要求13所述的装置,其中,针对任意的当前节点进行分裂的过程还包括:
根据落入当前节点的当前样本集中,各业务对象的第一特征值和第二特征值,确定所述多个备选分裂条件。
15.根据权利要求14所述的装置,其中,所述属性特征包括数值型的多项属性特征;确定所述多个备选分裂条件,包括:枚举所述当前样本集中,所述多项属性特征具有的可能取值,将各可能取值离散化成k个整数值,将一项属性特征与该项属性特征的一个整数值的组合作为一个备选分裂条件。
16.根据权利要求14所述的装置,其中,所述确定所述多个备选分裂条件,还包括:
枚举所述当前样本集中,所述场景特征具有的可能取值,将各可能取值中的至少两个进行组合得到若干取值集合,将所述场景特征与一个取值集合的组合作为一个备选分裂条件。
17.根据权利要求13所述的装置,其中,针对任意的当前节点进行分裂的过程还包括:
根据当前节点对应的当前样本集的样本纯度,所述两个子节点分别对应的两个样本子集的样本纯度,确定该分裂条件的分裂纯度。
18.一种预测风险类别的装置,所述装置包括:
获取单元,用于获取目标样本,其中,所述目标样本包括目标业务对象的属性特征对应的第一特征值;
确定单元,用于根据所述目标业务对象所在的业务场景,确定其场景特征对应的第二特征值;
预测单元,用于将所述获取单元获取的第一特征值和所述确定单元确定的第二特征值输入权利要求13所述的装置训练后的所述风控模型,通过所述风控模型输出所述目标业务对象的风险类别,所述风险类别用于指示所述目标业务对象是否具有业务风险。
19.根据权利要求18所述的装置,其中,所述第二特征值为参与训练所述风控模型的特征值或未参与训练所述风控模型的特征值。
20.一种预测风险类别的装置,所述装置包括:
获取单元,用于获取目标样本,其中,所述目标样本包括目标业务对象的属性特征对应的第一特征值;
预测单元,用于将所述获取单元获取的第一特征值输入权利要求13所述的装置训练后的所述风控模型,通过所述风控模型输出所述目标业务对象的风险类别,所述风险类别用于指示所述目标业务对象是否具有业务风险。
21.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-12中任一项的所述的方法。
22.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-12中任一项的所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210669118.8A CN114997317A (zh) | 2022-06-14 | 2022-06-14 | 风控模型训练、预测风险类别的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210669118.8A CN114997317A (zh) | 2022-06-14 | 2022-06-14 | 风控模型训练、预测风险类别的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114997317A true CN114997317A (zh) | 2022-09-02 |
Family
ID=83034449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210669118.8A Pending CN114997317A (zh) | 2022-06-14 | 2022-06-14 | 风控模型训练、预测风险类别的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114997317A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115618962A (zh) * | 2022-10-18 | 2023-01-17 | 支付宝(杭州)信息技术有限公司 | 一种模型训练的方法、业务风控的方法及装置 |
CN116911994A (zh) * | 2023-07-21 | 2023-10-20 | 山东省标准化研究院(Wto/Tbt山东咨询工作站) | 对外贸易风险预警系统 |
-
2022
- 2022-06-14 CN CN202210669118.8A patent/CN114997317A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115618962A (zh) * | 2022-10-18 | 2023-01-17 | 支付宝(杭州)信息技术有限公司 | 一种模型训练的方法、业务风控的方法及装置 |
CN115618962B (zh) * | 2022-10-18 | 2023-05-23 | 支付宝(杭州)信息技术有限公司 | 一种模型训练的方法、业务风控的方法及装置 |
CN116911994A (zh) * | 2023-07-21 | 2023-10-20 | 山东省标准化研究院(Wto/Tbt山东咨询工作站) | 对外贸易风险预警系统 |
CN116911994B (zh) * | 2023-07-21 | 2024-03-26 | 山东省标准化研究院(Wto/Tbt山东咨询工作站) | 对外贸易风险预警系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114997317A (zh) | 风控模型训练、预测风险类别的方法和装置 | |
Pretorius et al. | Tasks for multivariate network analysis | |
WO2021169454A1 (zh) | 图特征处理的方法及装置 | |
CN112052404B (zh) | 多源异构关系网络的群体发现方法、系统、设备及介质 | |
CN114139209B (zh) | 一种应用于业务用户大数据的信息防窃取方法及系统 | |
CN111881289A (zh) | 分类模型的训练方法、数据风险类别的检测方法及装置 | |
CN112288249A (zh) | 业务流程执行方法、装置、计算机设备和介质 | |
JP2019056983A (ja) | 学習データ選択プログラム、学習データ選択方法、および、学習データ選択装置 | |
CN113537960B (zh) | 一种异常资源转移链路的确定方法、装置和设备 | |
CN113411342A (zh) | 基于大数据的信息安全风险识别方法及人工智能安全系统 | |
CN112416800A (zh) | 智能合约的测试方法、装置、设备及存储介质 | |
CN111160638B (zh) | 一种转化预估方法及装置 | |
WO2022046312A1 (en) | Computer-implemented method and system for testing a model | |
CN110019845B (zh) | 一种基于知识图谱的社区演化分析方法及装置 | |
CN112989763A (zh) | 数据获取方法、装置、计算机设备及存储介质 | |
CN113190730A (zh) | 一种区块链地址的分类方法及装置 | |
CN112988215A (zh) | 评价规则的实现与用户数据的评价方法、装置及电子设备 | |
CN112836899A (zh) | 基于区块链和云计算的属性预测方法、系统及服务中心 | |
CN115796228B (zh) | 算子融合方法、装置、设备以及存储介质 | |
CN115994331A (zh) | 基于决策树的报文分拣方法及装置 | |
CN114897290A (zh) | 业务流程的演化识别方法、装置、终端设备以及存储介质 | |
CN111582722B (zh) | 风险识别方法、装置、电子设备及可读存储介质 | |
CN114443494A (zh) | 一种测试范围确定方法、装置、设备及存储介质 | |
CN113014603B (zh) | 基于网络安全大数据的防护联动配置方法及大数据云系统 | |
US20240330679A1 (en) | Heterogeneous tree graph neural network for label prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |