CN115545124B - 样本不平衡场景下的样本增量、模型训练方法及装置 - Google Patents

样本不平衡场景下的样本增量、模型训练方法及装置 Download PDF

Info

Publication number
CN115545124B
CN115545124B CN202211507937.9A CN202211507937A CN115545124B CN 115545124 B CN115545124 B CN 115545124B CN 202211507937 A CN202211507937 A CN 202211507937A CN 115545124 B CN115545124 B CN 115545124B
Authority
CN
China
Prior art keywords
user
sample
samples
risk
factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211507937.9A
Other languages
English (en)
Other versions
CN115545124A (zh
Inventor
王宁涛
蒋晨之
傅幸
王维强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202211507937.9A priority Critical patent/CN115545124B/zh
Publication of CN115545124A publication Critical patent/CN115545124A/zh
Application granted granted Critical
Publication of CN115545124B publication Critical patent/CN115545124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供了一种样本不平衡场景下的样本增量、模型训练方法及装置。其中,用户样本集包括高风险用户样本和低风险用户样本及其类别标签,高风险用户样本属于小样本。在该方法中,从用户样本集中按照不偏向高风险用户样本的方式确定观测用户样本,从用户样本集中按照偏向高风险用户样本的方式对样本抽样,得到抽样用户样本;基于风控场景中高风险用户数量小于低风险用户数量的风险用户特点,确定第一数量占比,以第一数量占比为平均值确定符合风险用户特点的第一概率分布,按照第一概率分布确定属于观测用户样本的第一因子。这样,基于第一因子、观测用户样本与抽样用户样本及其相应的样本标签,确定插值用户样本以及对应的插值标签。

Description

样本不平衡场景下的样本增量、模型训练方法及装置
技术领域
本说明书一个或多个实施例涉及风险控制技术领域,尤其涉及一种样本不平衡场景下的样本增量、模型训练方法及装置。
背景技术
网络模型在计算机视觉、自然语言处理领域都取得了远超传统方法的效果,现在已经成为人工智能领域非常主流的方法。一些服务平台可以利用训练的风控模型对存在风险的用户进行识别,以便降低服务风险。在风控场景中,存在风险的用户的数量非常少,可能是无风险用户的百分之一或者千万分之一。这就导致高风险用户样本与低风险用户样本的数量不平衡性,这种不平衡性不利于对风控模型的训练,从而导致对高风险用户识别时的准确性较低。并且,目前大家对自己的隐私数据越来越关注,一般无法通过其他服务平台的数据来增加高风险用户样本的数量。
因此,希望能有改进的方案,可以有效地增加高风险用户样本的数量,以便利用更多的高风险用户样本对风控模型进行训练,提高对高风险用户进行识别时的准确性。
发明内容
本说明书一个或多个实施例描述了一种样本不平衡场景下的样本增量、模型训练方法及装置,以有效地增加高风险用户样本的数量,以便利用更多的高风险用户样本对风控模型进行训练,提高对高风险用户进行识别时的准确性。具体的技术方案如下。
第一方面,实施例提供了样本不平衡场景下的风控模型训练方法,用于利用用户样本集训练所述风控模型,所述风控模型用于识别高风险用户,所述用户样本集包括高风险用户样本和低风险用户样本,并且所述高风险样本的总数量小于所述低风险用户样本的总数量;所述方法包括:
从所述用户样本集中按照不偏向高风险用户样本的方式确定观测用户样本;
从所述用户样本集中按照偏向高风险用户样本的方式对样本抽样,得到抽样用户样本;
基于风控场景中高风险用户数量小于低风险用户数量的风险用户特点,确定第一数量占比,以使得所述第一数量占比基于所述高风险用户样本的总数量与所述用户样本集的总样本数量的比值得到;
以所述第一数量占比为平均值确定符合所述风险用户特点的第一概率分布,按照所述第一概率分布确定属于所述观测用户样本的第一因子的取值;其中,所述第一因子是在所述观测用户样本与所述抽样用户样本之间插值时使用的插值权重;
基于所述第一因子、所述观测用户样本与所述抽样用户样本及其相应的样本标签,确定插值用户样本以及对应的插值标签,使得所述插值用户样本的样本特征基于所述第一因子倾向于高风险用户的用户特征,所述插值标签基于所述第一因子倾向于高风险标签;
利用所述插值用户样本以及对应的插值标签,对所述风控模型进行训练。
在一种实施方式中,所述从所述用户样本集中按照不偏向高风险用户样本的方式确定观测用户样本的步骤,包括:
从所述用户样本集中随机确定观测用户样本;或者,按照既定顺序依次从所述用户样本集中选择样本确定为观测用户样本。
在一种实施方式中,所述从所述用户样本集中按照偏向高风险用户样本的方式对样本抽样的步骤,包括:
从所述用户样本集中依据不同类别标签对样本均匀抽样。
在一种实施方式中,所述第一概率分布包括贝塔分布,其中所述贝塔分布的不同参数分别基于所述第一数量占比和第二数量占比确定;所述第二数量占比基于所述低风险用户样本的总数量与所述总样本数量的比值得到。
在一种实施方式中,当确定所述第一因子的取值时,还包括:
基于所述第一因子的取值,确定属于所述抽样用户样本的第二因子的取值;所述第二因子是在所述观测用户样本与所述抽样用户样本之间插值时使用的插值权重。
在一种实施方式中,所述第一因子的取值在0到1之间;所述确定属于所述抽样用户样本的第二因子的取值的步骤,包括:
将1与所述第一因子的取值的差值确定为所述第二因子的取值。
在一种实施方式中,所述确定插值用户样本以及对应的插值标签的步骤,包括:
基于所述第一因子的取值、所述第二因子的取值对所述观测用户样本和所述抽样用户样本进行线性插值,得到插值用户样本;
基于所述第一因子的取值、所述第二因子的取值对所述观测用户样本的类别标签和所述抽样用户样本的类别标签进行线性插值,得到插值标签。
在一种实施方式中,所述确定插值用户样本以及对应的插值标签的步骤,包括:
利用线性插值方式,基于所述第一因子、所述观测用户样本与所述抽样用户样本及其相应的样本标签,确定插值用户样本以及对应的插值标签。
在一种实施方式中,在对所述风控模型进行训练完成后,还包括:
利用所述用户样本集包含的高风险用户样本和低风险用户样本,继续对所述风控模型进行训练。
第二方面,实施例提供了一种样本不平衡场景下的风控模型训练装置,用于利用用户样本集训练所述风控模型,所述风控模型用于识别高风险用户,所述用户样本集包括高风险用户样本和低风险用户样本,并且所述高风险样本的总数量小于所述低风险用户样本的总数量;所述装置包括:
样本确定模块,配置为从所述用户样本集中按照不偏向高风险用户样本的方式确定观测用户样本;
样本抽样模块,配置为从所述用户样本集中按照偏向高风险用户样本的方式对样本抽样,得到抽样用户样本;
占比确定模块,配置为基于风控场景中高风险用户数量小于低风险用户数量的风险用户特点,确定第一数量占比,以使得所述第一数量占比基于所述高风险用户样本的总数量与所述用户样本集的总样本数量的比值得到;
因子确定模块,配置为以所述第一数量占比为平均值确定符合所述风险用户特点的第一概率分布,按照所述第一概率分布确定属于所述观测用户样本的第一因子的取值;其中,所述第一因子是在所述观测用户样本与所述抽样用户样本之间插值时使用的插值权重;
样本插值模块,配置为基于所述第一因子、所述观测用户样本与所述抽样用户样本及其相应的样本标签,确定插值用户样本以及对应的插值标签,使得所述插值用户样本的样本特征基于所述第一因子倾向于高风险用户的用户特征,所述插值标签基于所述第一因子倾向于高风险标签;
风控训练模块,配置为利用所述插值用户样本以及对应的插值标签,对所述风控模型进行训练。
第三方面,实施例提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面中任一项所述的方法。
第四方面,实施例提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面中任一项所述的方法。
在本说明书实施例提供的方法及装置中,在对一对儿样本进行插值时,其中一个样本偏向高风险用户样本,另一个样本并不偏向于高风险用户样本。为了使得在插值时插值用户样本能尽可能地靠近高风险用户样本,从而增加插值得到的高风险用户样本的数量,本说明书实施例按照第一概率分布确定观测用户样本的权重,该第一概率分布的平均值是高风险用户样本的数量占比,这是很小的比例值。这样能够使得观测用户样本的权重更小并具有多样性,从而使得插值用户样本更靠近高风险用户样本,且能够产生多样化的插值用户样本。因此,本说明书实施例能够有效地增加高风险用户样本的数量,以便在样本不平衡场景下使用更多的高风险用户样本对风控模型进行训练,从而提高对高风险用户进行识别时的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为实施例提供的一种样本不平衡场景下的高风险用户样本增量方法的流程示意图;
图2为本实施例提供的一种β分布的概率密度函数的大致图像;
图3为实施例提供的一种风控模型训练方法的流程示意图;
图4为实施例提供的一种样本不平衡场景下的高风险用户样本增量装置的示意性框图;
图5为实施例提供的一种风控模型训练装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
样本不平衡场景是这样一种场景,不同类别标签的样本的总数量之间差异巨大,尤其是需要网络模型学习的某一类别的样本的总数量非常少。一般来说,将需要网络模型学习的这一类别的样本称为正样本,将这一类别之外的其他类别的样本称为负样本。而由于正样本的总数量少,因此在本说明书中正样本又被称为小样本。其他类别可以是一种,也可以是多种。也就是说,本说明书实施例的方法适用于二分类场景,也适用于多于二分类的场景。在风控场景中,用户样本的类别可以包括高风险用户和低风险用户两类,也可以包括高风险用户、中风险用户和低风险用户三类。对于多于二分类的场景,可以将需要网络模型学习的类别作为正样本类别,其他类别作为负样本类别。例如,可以将高风险用户和中风险用户作为正样本类别(小样本类别),将低风险用户作为负样本类别。
网络模型又可以称为神经网络模型,其中包含一系列运算和运算中的参数,这些参数称为模型参数。网络模型可以用于执行一定的业务预测,因此网络模型还可以称为业务预测模型。网络模型可以用于进行分类预测,也可以用于进行回归预测。网络模型在使用大量样本进行训练之后能更好地应用于业务预测。但是,如果某一类标签的样本量小,就无法有效地对网络模型进行训练。
在风控场景中,网络模型可以用于识别高风险用户,也就是对用户或用户样本进行分类。而网络模型会基于输入的用户特征对用户进行打分,并利用阈值和分数的比较进行高风险用户和低风险用户的区分。而在训练时高风险用户样本数量较少,导致网络模型的打分分值向低风险用户类别倾斜,从而影响分类的准确性。
为了提高对高风险用户识别时的准确性,可以采用样本增量的方式增加小样本的数量。因此,本说明书实施例提供了一种样本增量方法。这种方法通过在两个样本之间插值,来获取新增高风险用户样本。在插值时,采用一定的方式尽可能靠近小样本插值,以便尽可能多地获取到具有小样本标签的插值用户样本,从而能够有效地增加小样本的数量,当小样本的数量增多时,训练的风控模型的有效性会增加,利用该风控模型对高风险用户进行识别时的准确性也会增加。
下面结合图1对本实施例进行说明。
图1为实施例提供的一种样本不平衡场景下的高风险用户样本增量方法的流程示意图。其中,用户样本集包括代表高风险用户的正样本(即高风险用户样本)和代表低风险用户的负样本(即低风险用户样本)及其分别具有的类别标签,并且用户样本集中正样本的总数量小于负样本的总数量,正样本属于小样本。例如,用户样本集包括N个样本,其中负样本的总数量为N1个,正样本的总数量为N2个,N=N1+N2,N2远小于N1,N是非零整数。本方法可以由计算机设备执行,计算机设备可以通过任何具有计算、处理能力的装置、设备、平台、设备集群等来实现。该方法包括以下步骤。
步骤S110,从用户样本集中按照不偏向高风险用户样本的方式确定观测用户样本。
步骤S120,从用户样本集中按照偏向高风险用户样本的方式对样本抽样,得到抽样用户样本。
在对样本进行插值时,可以选择一对儿样本,在这一对儿样本之间进行插值,得到插值用户样本;在这一对儿样本各自对应的类别标签之间进行插值,得到插值用户样本的类别标签。一般来说,一对儿样本中的两个样本是不同样本。因此,在上述步骤S110和S120中,可以分别采用不同的方式确定观测用户样本和抽样用户样本,将一个观测用户样本和一个抽样用户样本组成这样的一对儿样本,用于进行样本插值。本实施例进行样本插值的目的,是希望尽可能多地在小样本附近插值,增加小样本的数量。当用户样本集中包含多个样本时,本实施例可以将按照不偏向高风险用户样本的方式确定的样本作为观测用户样本,将按照偏向高风险用户样本的方式抽样的样本作为抽样用户样本,从而组成多对儿样本。这种方式能够使得这多对儿样本中尽可能多地包含小样本,增加通过插值得到的高风险用户样本数量。
例如,用户样本集中包含N个样本,在组成一对儿样本时,可以将N个样本分别作为观测用户样本,从剩余的N-1个样本中抽样得到抽样用户样本,从而得到N对儿样本,用于进行样本插值。也可以是,将用户样本集分成多个批次,针对每批样本包含的M个样本,将M个样本分别作为观测用户样本,从剩余的M-1个样本中抽样得到抽样用户样本,得到M对儿样本。以上仅仅是组成一对儿样本的几种方式,根据上述内容可以扩展出多种方式来得到样本对儿。
其中,不偏向高风险用户样本的方式可以理解为,在确定N个观测用户样本时确定方式使得N个观测用户样本并不特意偏向高风险用户样本。偏向高风险用户样本的方式可以理解为,在确定N个抽样用户样本时抽样方式使得N个抽样用户样本特意偏向高风险用户样本,例如使得N个抽样用户样本中的高风险用户样本数量占多数或占大多数。
不偏向高风险用户样本的方式具体可以包括多种实施方式。例如,可以从用户样本集中随机确定观测用户样本;或者,按照既定顺序依次从用户样本集中选择样本确定为观测用户样本。既定顺序可以是用户样本集中原有的样本排列顺序,也可以是某种设定顺序。按照不偏向高风险用户样本的方式确定观测用户样本时,实际得到的观测用户样本中高风险用户样本的数量很少,低风险用户样本中的数量非常多。
偏向高风险用户样本的方式具体可以包括多种实施方式。例如,可以从用户样本集中依据不同类别标签对样本均匀抽样。当用户样本集中的类别包括负样本类别(yi)和正样本类别(yj)时,可以按照这两个类别对样本均匀抽样。例如,当需要得到N个抽样用户样本时,这N个抽样用户样本中包含N/2个正样本和N/2个负样本,或者分别接近于数量N/2的正样本和负样本,数量上不必精确地平分,而是达到接近的程度即可。当正样本数量少时,正样本可以被重复抽样。在抽样时,也可以依据不同类别标签以及分别对应的权重,对样本进行抽样。其中,正样本标签的权重大于负样本标签的权重。这样,在需要得到N个抽样用户样本时,这N个抽样用户样本中包含的正样本数量大于负样本数量。
在实际应用中,可以设置采样器从用户样本集中对样本抽样。例如,采样器可以按照以下公式对从用户样本集中依据不同类别标签对样本均匀抽样,得到抽样用户样本:
其中,τ=0,P是某个样本的类别标签Y等于某个类别标签y时的概率,Psampling是抽样概率。
步骤S130,基于风控场景中高风险用户数量小于低风险用户数量的风险用户特点,确定第一数量占比,以使得第一数量占比基于高风险用户样本的总数量与用户样本集的总样本数量的比值得到。
步骤S140,以第一数量占比为平均值确定符合风险用户特点的第一概率分布,按照第一概率分布确定属于观测用户样本的第一因子λ的取值。具体的,在确定第一因子λ的取值时,要使得第一因子λ的取值符合第一概率分布。即,在某个范围内,以第一概率分布对应的概率采样第一因子λ的取值。
在风控场景中,用户样本集中的风险用户样本具有以下风险用户特点:高风险用户样本的总数量小于低风险用户样本的总数量。基于该风险用户特点可以确定第一数量占比πj。例如,可以使得第一数量占比πj为高风险用户样本的总数量与用户样本集的总样本数量的比值,或者将该比值进行某种映射或乘以某个系数后的数值作为第一数量占比。总之,要使得第一数量占比与上述比值正相关,是一个较小的数值。进而,可以以第一数量占比为平均值确定符合上述风险用户特点的第一概率分布,按照第一概率分布确定属于观测用户样本的第一因子的取值。
其中,第一因子λ是在观测用户样本与抽样用户样本之间插值时使用的插值权重。第一概率分布的平均值为第一数量占比πj。正样本的总数量为N2,负样本的总数量为N1,则第一数量占比πj可以表示为
πj=N2/(N1+N2)= N2/N                (2)
其中,当正样本的总数量N2很少时,第一数量占比πj是一个接近0的很小的值。当第一概率分布的平均值为第一数量占比,即是一个很小的值(接近0、远离1的值)时,说明第一概率分布包含的数值在小值附近的数量更多,在大值附近的数量更少。这样就给予了观测用户样本较小的权重。
第一概率分布的范围可以是(a,b),并且第一概率分布的众数接近于a和b。a和b分别对应于两种样本的类别标签的标签值。这样的第一概率分布,能够使得尽可能在一对儿样本中其一的邻域中进行插值,并不会在远离样本的区域进行不合理的插值。
在一种实施方式中,第一概率分布可以采用贝塔分布,也就是β分布。其中,在概率论中,β分布是一组定义在(0,1)区间的连续概率分布,它有两个参数α和β,其中α和β均大于0。β分布可以表示为Beta(α,β),β分布的众数(mode)接近于0和1。
在本实施例中,β分布的不同参数可以分别基于第一数量占比πj和第二数量占比πi确定。例如,β分布中的参数α可以基于第一数量占比πj确定,参数β可以基于第二数量占比πi确定。其中,第二数量占比πi可以基于负样本的总数量与总样本数量的比值得到。例如,第二数量占比πi可以取负样本的总数量与总样本数量的比值,或者将对该比值进行某种映射或者乘以某个系数后的值作为第二数量占比。总之,要使得第二数量占比与上述比值正相关,是相对于第一数量占比来说较大的数值。当正样本的总数量为N2,负样本的总数量为N1时,第二数量占比πi可以表示为
πi=N1/(N1+N2) = N1/N                 (3)
其中,当正样本的总数量N2很少,负样本的总数量N1很多时,第二数量占比πi是一个接近1的很大的值。
在一种实施方式中,β分布中的参数α可以基于第一数量占比πj和预设系数确定,参数β可以基于第二数量占比πi和预设系数确定。例如,本实施例的β分布可以表示为Beta(πj/c,πi/c)。其中,预设系数c可以用于调节β分布的方差。c越大,方差越大,β分布的概率密度函数f越趋向于0和1两端。Beta(πj/c,πi/c)的平均值为πj/(πij),该平均值等于N2/N,也就是第一数量占比πj
在确定第一因子λ的取值时,可以在上述β分布中确定,也就是说第一因子λ服从参数为πj/c和πi/c的β分布,写作下式:
λ~Beta(πj/c,πi/c)                 (4)
其中,该β分布的平均值(即期望值)可以通过(πj/c)/( πj/c+πi/c)得到,也就是πj/(πij)。
为了更直观地了解第一因子λ的取值情况,可以参见图2提供的β分布的概率密度函数图像。图2为本实施例提供的一种β分布的概率密度函数的大致图像。该图像的横轴是第一因子λ的取值,纵轴是β分布的概率密度函数f(λ,πj/c,πi/c)。从该图像可以看出,该图像呈斜U形,两端的概率密度大,中间的概率密度小。当λ趋近于两端的0或者1时,更多的情况是在两个样本中其一的邻域中进行线性插值,并不会在远离样本的区域进行不合理的插值。并且,λ的取值在接近0的方向具有较大的概率密度,并且在一定范围内,λ越接近0概率密度越大;在接近1的方向概率密度整体偏小。纵轴概率密度函数的范围是0到正无穷,横轴λ的范围是0到1,λ的值不会等于0或1。
按照这样的概率分布确定的λ值,能够使得观测用户样本的权重具有很好的多样性,并且整体的λ值又比较小,达到了增加插值用户样本的多样性以及增加在高风险用户样本附近的插值数量的目的。
步骤S150,基于第一因子、观测用户样本与抽样用户样本及其相应的样本标签,确定插值用户样本以及对应的插值标签,使得插值用户样本的样本特征基于第一因子倾向于高风险用户的用户特征,以及使得插值标签基于第一因子倾向于高风险标签。
在风控场景中,第一因子λ的取值较小,基于第一因子、观测用户样本与抽样用户样本及其相应的样本标签确定的插值样本,是偏向高风险用户的。也就是说,插值用户样本是尽可能在高风险用户附近进行插值而得到的。
在一种实施方式中,可以利用线性插值方式,基于第一因子、观测用户样本与抽样用户样本及其相应的样本标签,确定插值用户样本以及对应的插值标签。
当确定第一因子λ的取值时,还可以基于第一因子λ的取值,确定属于抽样用户样本的第二因子的取值。第二因子是在观测用户样本与所述抽样用户样本之间插值时使用的插值权重。
当第一因子λ的取值在0到1之间时,可以将1与第一因子λ的取值的差值确定为第二因子的取值,即第二因子可以表示为1-λ。
在确定插值用户样本以及对应的插值标签时,可以分别确定插值用户样本和对应的插值标签。也就是,基于第一因子λ的取值、第二因子的取值对观测用户样本和抽样用户样本进行线性插值,得到插值用户样本;基于第一因子λ的取值、第二因子的取值对观测用户样本的类别标签和抽样用户样本的类别标签进行线性插值,得到插值标签。在进行插值时,使用观测用户样本的样本特征、抽样用户样本的样本特征确定插值用户样本的样本特征;使用观测用户样本的类别标签的标签值、抽样用户样本的类别标签的标签值确定插值标签的标签值。
例如,可以采用下面式子进行线性插值:
x=λxi+(1-λ)xj,y=λyi+(1-λ)yj                      (5)
其中,x为插值用户样本的样本特征,y为插值标签的标签值,xi和yi分别为观测用户样本的样本特征和类别标签的标签值,xj和yj分别为抽样用户样本的样本特征和类别标签的标签值,λ为第一因子,1-λ为第二因子。x和y为通过线性插值得到的插值用户样本和对应的插值标签。
当用户样本集中包含N个样本时,可以但不限于得到N对儿样本,每对儿样本中包含观测用户样本、抽样用户样本以及分别对应的第一因子和第二因子。基于该对儿样本可以通过线性插值,得到插值用户样本和对应的插值标签。针对N对儿样本,当λ的取值按照第一概率分布进行取值时,能够使得N个λ的值有很大概率分布在较小的值附近。这样,在对N对儿样本进行插值时,既能保证插值样本的多样性,又能尽可能地在小样本附近插值,从而得到更多数量的增量小样本。
在上述式(5)中,如果第二因子1-λ采用1、接近1或其他大于1的值代替,也可以不执行确定第二因子的取值,同样能够达到上述技术效果。
在步骤S150中,确定插值用户样本以及对应的差值标签时,除了采用线性插值的方式之外,还可以基于第一因子、观测用户样本与抽样用户样本及其相应的样本标签,利用多项式方式进行插值,或者利用拉格朗日基本插值公式进行插值。在得到第一因子之后,将第一因子作为观测用户样本的权重,在观测用户样本与抽样用户样本之间进行插值,可以选择多种已有方法进行,不再一一详述。
在确定插值用户样本以及对应的插值标签之后,还可以利用插值用户样本以及对应的插值标签,对风控模型进行训练。例如,当用户样本集包含N个样本时,可以得到N个插值用户样本和对应的N个插值标签,从而可以利用这N个插值用户样本和对应的插值标签,对风控模型进行训练,提高风控模型在识别高风险用户时的有效性。
对类别标签的线性加权可以理解为独热编码(one hot)下的线性加权,得到的插值标签属于软标签(soft label)。在利用插值用户样本和插值标签进行风控模型训练时,可以采用以下的损失公式计算损失:
其中,x为插值用户样本的样本特征,yi为观测用户样本的类别标签的标签值,yj为抽样用户样本的类别标签的标签值,λ为第一因子,1-λ为第二因子,LCE为交叉熵损失函数。也就是说,利用插值用户样本和插值标签进行风控模型训练时的损失可以采用第一损失LCE(yi,x)和第二损失LCE(yj,x)之间的线性加权得到,第一损失是基于插值用户样本和观测用户样本的类别标签得到的损失,第二损失是基于抽样用户样本和抽样用户样本的类别标签得到的损失。
上述风控模型可以用于识别高风险用户,或者对用户进行分类。在本说明书中还提供了如图3所示的风控模型训练方法。
图3为实施例提供的一种风控模型训练方法的流程示意图。该方法用于利用用户样本集训练风控模型,该风控模型用于识别高风险用户,用户样本集包括类别标签为高风险用户的高风险用户样本和类别标签为低风险用户的低风险用户样本,正样本的总数量小于负样本的总数量。该方法可以通过计算机设备执行。该方法包括以下步骤。
步骤S310,采用图1实施例提供的方法,基于用户样本集确定插值用户样本以及对应的插值标签。在本实施例中,用户样本集中的正样本为高风险用户样本,负样本为低风险用户样本。本步骤的具体实施方式可以参见图1所示实施例的说明,此处不再赘述。
步骤S320,利用插值用户样本以及对应的插值标签,对风控模型进行训练。
当用户样本集包含N个样本时,可以从用户样本集中取出一批M个样本,并利用图1实施例的方式对这M个样本进行插值,得到M个插值用户样本和对应的插值标签。将这M个插值用户样本输入风控模型,分别得到M个预测标签,基于M个预测标签分别与M个插值标签之间的差值,确定预测损失,基于该预测损失更新风控模型的模型参数Θ。例如,可以利用以下公式更新模型参数:
其中,Θt是第t轮迭代后的模型参数,Θt+1为第t+1轮迭代后的模型参数,α为超参数,倒三角为梯度符号。L为损失函数,可以采用式(6)进行计算。
在经过T1轮迭代后,还可以利用用户样本集包含的原始的高风险用户样本和低风险用户样本,继续对风控模型进行微调,对风控模型进行T1+1到T2轮迭代更新。此时,可以利用以下公式更新模型参数:
其中,LCE可以参见式(6)中的解释。
在上述实施例中,按照第一概率分布来选取λ的取值,能够提高插值用户样本的多样性,尽可能多地得到小样本附近的插值,减少不合理插值的可能性。
在本实施例中,在对一对儿样本进行插值时,其中一个样本偏向高风险用户,另一个样本并不偏向于高风险用户。为了使得在插值时插值用户样本能尽可能地靠近高风险用户,从而增加插值得到的高风险用户样本的数量,本实施例按照第一概率分布确定观测用户样本的权重,该第一概率分布的平均值是高风险用户的数量占比,这是很小的比例值。这样能够使得观测用户样本的权重更小并具有多样性,从而使得插值用户样本更靠近高风险用户,且能够产生多样化的插值用户样本。因此,本实施例能够有效地增加高风险用户的数量,以便在样本不平衡场景下提高风控模型在识别高风险用户时的准确性,也就是提高对高风险用户进行识别时的准确性。
本说明书中,第一概率分布、第一因子和第一数量占比等词语中的“第一”,以及文中的“第二”(如果有),仅仅是为了区分和描述方便,并不具有任何限定意义。
上述内容对本说明书的特定实施例进行了描述,其他实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行,并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的,或者可能是有利的。
图4为实施例提供的一种样本不平衡场景下的高风险用户样本增量装置的示意性框图。其中,用户样本集包括高风险用户样本和低风险用户样本及其分别具有的类别标签,并且高风险用户样本的总数量小于低风险用户样本的总数量。该装置实施例与图1所示方法实施例相对应。该装置400包括:
样本确定模块410,配置为从所述用户样本集中按照不偏向高风险用户样本的方式确定观测用户样本;
样本抽样模块420,配置为从所述用户样本集中按照偏向高风险用户样本的方式对样本抽样,得到抽样用户样本;
占比确定模块430,配置为基于风控场景中高风险用户数量小于低风险用户数量的风险用户特点,确定第一数量占比,以使得第一数量占比基于高风险用户样本的总数量与所述用户样本集的总样本数量的比值得到;
因子确定模块440,配置为以所述第一数量占比为平均值确定符合所述风险用户特点的第一概率分布,按照所述第一概率分布确定属于所述观测用户样本的第一因子的取值;其中,所述第一因子是在所述观测用户样本与所述抽样用户样本之间插值时使用的插值权重;
样本插值模块450,配置为基于所述第一因子、所述观测用户样本与所述抽样用户样本及其相应的样本标签,确定插值用户样本以及对应的插值标签,使得所述插值用户样本的样本特征基于所述第一因子倾向于高风险用户的用户特征,所述插值标签基于所述第一因子倾向于高风险标签。
在一种实施方式中,所述样本确定模块410,具体配置为从所述用户样本集中随机确定观测用户样本;或者,
所述样本确定模块410,具体配置为按照既定顺序依次从所述用户样本集中选择样本确定为观测用户样本。
在一种实施方式中,所述样本抽样模块420,具体配置为从所述用户样本集中依据不同类别标签对样本均匀抽样。
在一种实施方式中,所述第一概率分布包括贝塔分布,其中所述贝塔分布的不同参数分别基于所述第一数量占比和第二数量占比确定;所述第二数量占比基于所述低风险用户样本的总数量与所述总样本数量的比值得到。
在一种实施方式中,所述因子确定模块440还配置为:
当确定所述第一因子的取值时,基于所述第一因子的取值,确定属于所述抽样用户样本的第二因子的取值;所述第二因子是在所述观测用户样本与所述抽样用户样本之间插值时使用的插值权重。
在一种实施方式中,所述第一因子的取值在0到1之间;所述因子确定模块440,确定属于所述抽样用户样本的第二因子的取值时包括:
将1与所述第一因子的取值的差值确定为所述第二因子的取值。
在一种实施方式中,所述样本插值模块450包括:
样本插值子模块(图中未示出),配置为基于所述第一因子的取值、所述第二因子的取值对所述观测用户样本和所述抽样用户样本进行线性插值,得到插值用户样本;
标签插值子模块(图中未示出),配置为基于所述第一因子的取值、所述第二因子的取值对所述观测用户样本的类别标签和所述抽样用户样本的类别标签进行线性插值,得到插值标签。
在一种实施方式中,所述样本插值模块450具体配置为:
利用线性插值方式,基于所述第一因子、所述观测用户样本与所述抽样用户样本及其相应的样本标签,确定插值用户样本以及对应的插值标签。
图5为实施例提供的一种风控模型训练装置的示意性框图。该装置用于利用用户样本集训练风控模型,所述风控模型用于识别高风险用户,所述用户样本集包括高风险用户样本和低风险用户样本,所述高风险用户样本的总数量小于所述低风险用户样本的总数量。该装置实施例与图3所示方法实施例相对应。所述装置500包括:
插值实施模块510,配置为采用如图1所示的方法,基于所述用户样本集确定插值用户样本以及对应的插值标签;
风控训练模块520,配置为利用所述插值用户样本以及对应的插值标签,对所述风控模型进行训练。
在一种实施方式中,装置500还包括:
继续训练模块(图中未示出),配置为在对所述风控模型进行训练完成后,利用所述用户样本集包含的正样本和负样本,继续对所述风控模型进行训练。
上述装置实施例与方法实施例相对应,具体说明可以参见方法实施例部分的描述,此处不再赘述。装置实施例是基于对应的方法实施例得到,与对应的方法实施例具有同样的技术效果,具体说明可参见对应的方法实施例。
本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行图1至图3任一项所述的方法。
本说明书实施例还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现图1至图3任一项所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于存储介质和计算设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明实施例的目的、技术方案和有益效果进行了进一步的详细说明。所应理解的是,以上所述仅为本发明实施例的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (12)

1.一种样本不平衡场景下的风控模型训练方法,用于利用用户样本集训练所述风控模型,所述风控模型用于识别高风险用户,所述用户样本集包括高风险用户样本和低风险用户样本,并且所述高风险用户样本的总数量小于所述低风险用户样本的总数量;所述方法包括:
从所述用户样本集中按照不偏向高风险用户样本的方式确定观测用户样本;
从所述用户样本集中按照偏向高风险用户样本的方式对样本抽样,得到抽样用户样本;
基于风控场景中高风险用户数量小于低风险用户数量的风险用户特点,确定第一数量占比,以使得所述第一数量占比基于所述高风险用户样本的总数量与所述用户样本集的总样本数量的比值得到;
以所述第一数量占比为平均值确定符合所述风险用户特点的第一概率分布,按照所述第一概率分布确定属于所述观测用户样本的第一因子的取值;其中,所述第一因子是在所述观测用户样本与所述抽样用户样本之间插值时使用的插值权重;
基于所述第一因子、所述观测用户样本与所述抽样用户样本及其相应的样本标签,确定插值用户样本以及对应的插值标签,使得所述插值用户样本的样本特征基于所述第一因子倾向于高风险用户的用户特征,所述插值标签基于所述第一因子倾向于高风险标签;
利用所述插值用户样本以及对应的插值标签,对所述风控模型进行训练。
2.根据权利要求1所述的方法,所述从所述用户样本集中按照不偏向高风险用户样本的方式确定观测用户样本的步骤,包括:
从所述用户样本集中随机确定观测用户样本;或者,按照既定顺序依次从所述用户样本集中选择样本确定为观测用户样本。
3.根据权利要求1所述的方法,所述从所述用户样本集中按照偏向高风险用户样本的方式对样本抽样的步骤,包括:
从所述用户样本集中依据不同类别标签对样本均匀抽样。
4.根据权利要求1所述的方法,所述第一概率分布包括贝塔分布,其中所述贝塔分布的不同参数分别基于所述第一数量占比和第二数量占比确定;所述第二数量占比基于所述低风险用户样本的总数量与所述总样本数量的比值得到。
5.根据权利要求1所述的方法,当确定所述第一因子的取值时,还包括:
基于所述第一因子的取值,确定属于所述抽样用户样本的第二因子的取值;所述第二因子是在所述观测用户样本与所述抽样用户样本之间插值时使用的插值权重。
6.根据权利要求5所述的方法,所述第一因子的取值在0到1之间;所述确定属于所述抽样用户样本的第二因子的取值的步骤,包括:
将1与所述第一因子的取值的差值确定为所述第二因子的取值。
7.根据权利要求5所述的方法,所述确定插值用户样本以及对应的插值标签的步骤,包括:
基于所述第一因子的取值、所述第二因子的取值对所述观测用户样本和所述抽样用户样本进行线性插值,得到插值用户样本;
基于所述第一因子的取值、所述第二因子的取值对所述观测用户样本的类别标签和所述抽样用户样本的类别标签进行线性插值,得到插值标签。
8.根据权利要求1所述的方法,所述确定插值用户样本以及对应的插值标签的步骤,包括:
利用线性插值方式,基于所述第一因子、所述观测用户样本与所述抽样用户样本及其相应的样本标签,确定插值用户样本以及对应的插值标签。
9.根据权利要求1所述的方法,在对所述风控模型进行训练完成后,还包括:
利用所述用户样本集包含的高风险用户样本和低风险用户样本,继续对所述风控模型进行训练。
10.一种样本不平衡场景下的风控模型训练装置,用于利用用户样本集训练所述风控模型,所述风控模型用于识别高风险用户,所述用户样本集包括高风险用户样本和低风险用户样本,并且所述高风险用户样本的总数量小于所述低风险用户样本的总数量;所述装置包括:
样本确定模块,配置为从所述用户样本集中按照不偏向高风险用户样本的方式确定观测用户样本;
样本抽样模块,配置为从所述用户样本集中按照偏向高风险用户样本的方式对样本抽样,得到抽样用户样本;
占比确定模块,配置为基于风控场景中高风险用户数量小于低风险用户数量的风险用户特点,确定第一数量占比,以使得所述第一数量占比基于所述高风险用户样本的总数量与所述用户样本集的总样本数量的比值得到;
因子确定模块,配置为以所述第一数量占比为平均值确定符合所述风险用户特点的第一概率分布,按照所述第一概率分布确定属于所述观测用户样本的第一因子的取值;其中,所述第一因子是在所述观测用户样本与所述抽样用户样本之间插值时使用的插值权重;
样本插值模块,配置为基于所述第一因子、所述观测用户样本与所述抽样用户样本及其相应的样本标签,确定插值用户样本以及对应的插值标签,使得所述插值用户样本的样本特征基于所述第一因子倾向于高风险用户的用户特征,所述插值标签基于所述第一因子倾向于高风险标签;
风控训练模块,配置为利用所述插值用户样本以及对应的插值标签,对所述风控模型进行训练。
11.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-9中任一项所述的方法。
12.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-9中任一项所述的方法。
CN202211507937.9A 2022-11-29 2022-11-29 样本不平衡场景下的样本增量、模型训练方法及装置 Active CN115545124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211507937.9A CN115545124B (zh) 2022-11-29 2022-11-29 样本不平衡场景下的样本增量、模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211507937.9A CN115545124B (zh) 2022-11-29 2022-11-29 样本不平衡场景下的样本增量、模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN115545124A CN115545124A (zh) 2022-12-30
CN115545124B true CN115545124B (zh) 2023-04-18

Family

ID=84722191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211507937.9A Active CN115545124B (zh) 2022-11-29 2022-11-29 样本不平衡场景下的样本增量、模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN115545124B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222942A (zh) * 2021-05-17 2021-08-06 北京百度网讯科技有限公司 多标签分类模型的训练方法和预测标签的方法
CN113298373A (zh) * 2021-05-20 2021-08-24 中国建设银行股份有限公司 一种金融风险评估方法、装置、存储介质和设备
CN115062969A (zh) * 2022-06-15 2022-09-16 新疆大学 一种食品安全风险的预警方法
CN115170136A (zh) * 2022-06-17 2022-10-11 支付宝(杭州)信息技术有限公司 更新可信模型的方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6849915B2 (ja) * 2017-03-31 2021-03-31 富士通株式会社 比較プログラム、比較方法および比較装置
US20220114435A1 (en) * 2020-10-13 2022-04-14 Ford Global Technologies, Llc Efficient incremental learning through probabilistic training set selection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222942A (zh) * 2021-05-17 2021-08-06 北京百度网讯科技有限公司 多标签分类模型的训练方法和预测标签的方法
CN113298373A (zh) * 2021-05-20 2021-08-24 中国建设银行股份有限公司 一种金融风险评估方法、装置、存储介质和设备
CN115062969A (zh) * 2022-06-15 2022-09-16 新疆大学 一种食品安全风险的预警方法
CN115170136A (zh) * 2022-06-17 2022-10-11 支付宝(杭州)信息技术有限公司 更新可信模型的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Fan XN等 .Margin-based over-sampling method for learning form imblanced datasets.《the 15th pacific-asia conference on knowledge discoveryand data mining》.2011,全文. *
郭磊 .图像识别中的不平衡学习和增量学习方法研究.《中国优秀博士学位论文全文数据库》.2022,全文. *

Also Published As

Publication number Publication date
CN115545124A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN106296669B (zh) 一种图像质量评价方法和装置
CN111797321B (zh) 一种面向不同场景的个性化知识推荐方法及系统
CN110210558B (zh) 评估神经网络性能的方法及装置
CN109345525B (zh) 一种去鬼影高动态范围图像质量评价方法
CN110413878B (zh) 基于自适应弹性网络的用户-商品偏好的预测装置和方法
Liu et al. A sphere-dominance based preference immune-inspired algorithm for dynamic multi-objective optimization
CN110991621A (zh) 一种基于通道数搜索卷积神经网络的方法
CN111061624A (zh) 策略执行效果确定方法、装置、电子设备及存储介质
Furqan et al. Performance of arithmetic crossover and heuristic crossover in genetic algorithm based on alpha parameter
CN115909002A (zh) 一种基于对比学习的图像翻译方法
CN112733035A (zh) 基于知识图谱的知识点推荐方法、装置、存储介质及电子装置
Chen et al. Network adjustment: Channel search guided by flops utilization ratio
CN112801231B (zh) 用于业务对象分类的决策模型训练方法和装置
Abbasi Yadkori et al. Near minimax optimal players for the finite-time 3-expert prediction problem
CN115545124B (zh) 样本不平衡场景下的样本增量、模型训练方法及装置
CN113935496A (zh) 一种面向集成模型的鲁棒性提升防御方法
CN109308709A (zh) 基于图像分割的Vibe运动目标检测算法
CN111292062B (zh) 基于网络嵌入的众包垃圾工人检测方法、系统及存储介质
Templier et al. A geometric encoding for neural network evolution
CN115358485A (zh) 一种基于图自注意力机制与霍克斯过程的交通流预测方法
CN116186384A (zh) 一种基于物品隐含特征相似度的物品推荐方法及系统
CN116258923A (zh) 图像识别模型训练方法、装置、计算机设备和存储介质
CN113849725B (zh) 一种基于图注意力对抗网络的社会化推荐方法及系统
Tran et al. A sequential decision approach to ordinal preferences in recommender systems
CN114936890A (zh) 一种基于逆倾向加权方法的反事实公平的推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant