CN112926663A - 分类模型的训练方法、装置、计算机设备及存储介质 - Google Patents
分类模型的训练方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112926663A CN112926663A CN202110224325.8A CN202110224325A CN112926663A CN 112926663 A CN112926663 A CN 112926663A CN 202110224325 A CN202110224325 A CN 202110224325A CN 112926663 A CN112926663 A CN 112926663A
- Authority
- CN
- China
- Prior art keywords
- risk
- training
- sample
- samples
- base classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 267
- 238000013145 classification model Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000003860 storage Methods 0.000 title claims description 16
- 238000005070 sampling Methods 0.000 claims abstract description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000005315 distribution function Methods 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 26
- 238000004422 calculation algorithm Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 8
- 230000010354 integration Effects 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000004900 laundering Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013215 result calculation Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种分类模型的训练方法,应用于人工智能技术领域,用于解决通过现有预测模型对低风险概率事件进行预测时模型训练难度大且预测结果不准确的技术问题。本发明提供的方法包括:获取风险训练样本和非风险样本;确定基分类器的数量;确定用于训练第一基分类器的第一训练样本;根据各该非风险样本的损失对该非风险样本相对于该当前基分类器进行分箱并计算在当前基分类器下各箱的权重;根据各箱的权重和该风险训练样本的数量;根据确定的该数量分别从对应的箱中进行采样,得到当前基分类的训练样本;通过该第一训练样本对该第一基分类器进行训练,通过该当前基分类的训练样本分别对对应的基分类器进行训练,得到训练好的分类模型。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种分类模型的训练方法、装置、计算机设备及存储介质。
背景技术
反欺诈风控是指在风险来临之前通过相关技术手段对该风险出现的情况进行预测,便于人们对未知风险进行智能预警。常见的反欺诈风控场景例如:证件冒办反欺诈、人脸活体检测、基于客户历史数据识别高风险用户、大数据反洗黑钱等等。
在大多数的风控场景中,相比于正常情况,由于实际发生风险的情况极少,使得正常样本的标签与目标样本的标签经常呈现极不平衡分布。在很多项目或者场景中,风控目标样本率甚至低于0.3%,表示在1000个样本中,风控目标样本的数量不到3个,这种极不平衡的样本特性导致的问题是通过这类样本对预测模型进行训练时,给模型效果提升带来极大的困难。
为解决极不平衡的样本特性导致训练出的预测模型预测结果不准确的技术问题,有人提出了通过数据端的采样算法、代价敏感学习算法与集成算法控制模型中损失函数的拟合,但是这种方法需要在大规模数据集上进行大量计算,不易控制函数复杂度反而容易增加数据噪声。通过代价敏感学习算法控制模型中损失函数的拟合还容易使算法训练陷入局部最优解,最终的模型表现较为依赖于超参的选择。
不论是手动选择超参还是通过优化算法自动选择超参,都没有与训练样本自身的特性相结合,通过这种方式对模型进行训练一方面增加了模型训练的难度和人工依赖性,另一方面训练出的模型在对风险发生概率很低的场景进行预测时,预测结果的准确性不能得到明显提高。
发明内容
本发明实施例提供一种分类模型的训练方法、装置、计算机设备及存储介质,以解决通过现有预测模型对低风险概率事件进行预测时模型训练难度大且预测结果不准确的技术问题。
一种分类模型的训练方法,该方法包括:
获取风险训练样本和非风险样本,该非风险样本的数量大于该风险训练样本的数量;
根据用户的输入确定该分类模型包括的基分类器的数量,所述分类模型用于对所述风控场景中目标对象的风险概率进行预测,该基分类器的数量至少为两个;
从该非风险样本中随机抽取第一基分类器的第一非风险训练样本,将该第一非风险训练样本与该风险训练样本的合集作为该第一基分类器的第一训练样本;
根据当前基分类器及在先基分类器对每个该非风险样本的输出结果,计算各该非风险样本在当前基分类器下的损失,当该基分类器的数量为两个或该当前基分类器表示第二基分类器时,该在先基分类器表示该第一基分类器;
根据各该非风险样本的损失对该非风险样本相对于该当前基分类器进行分箱;
计算在当前基分类器下各箱的权重;
根据各箱的权重和该风险训练样本的数量,确定从对应箱中抽取的非风险训练样本的数量;
根据确定的该数量分别从对应的箱中进行采样,得到当前非风险训练样本,将该当前非风险训练样本与该风险训练样本的合集作为该当前基分类的训练样本;
通过该第一训练样本对该第一基分类器进行训练,通过该当前基分类的训练样本分别对对应的基分类器进行训练,得到训练好的分类模型。
一种分类模型的训练装置,该装置包括:
样本获取模块,用于获取风险训练样本和非风险样本,该非风险样本的数量大于该风险训练样本的数量;
分类器数量确定模块,用于根据用户的输入确定该分类模型包括的基分类器的数量,所述分类模型用于对所述风控场景中目标对象的风险概率进行预测,该基分类器的数量至少为两个;
样本抽取模块,用于从该非风险样本中随机抽取第一基分类器的第一非风险训练样本,将该第一非风险训练样本与该风险训练样本的合集作为该第一基分类器的第一训练样本;
损失计算模块,用于根据当前基分类器及在先基分类器对每个该非风险样本的输出结果,计算各该非风险样本在当前基分类器下的损失,当该基分类器的数量为两个或该当前基分类器表示第二基分类器时,该在先基分类器表示该第一基分类器;
分箱模块,用于根据各该非风险样本的损失对该非风险样本相对于该当前基分类器进行分箱;
权重计算模块,用于计算在当前基分类器下各箱的权重;
样本数量确定模块,用于根据各箱的权重和该风险训练样本的数量,确定从对应箱中抽取的非风险训练样本的数量;
采样模块,用于根据确定的该数量分别从对应的箱中进行采样,得到当前非风险训练样本,将该当前非风险训练样本与该风险训练样本的合集作为该当前基分类的训练样本;
训练模块,用于通过该第一训练样本对该第一基分类器进行训练,通过该当前基分类的训练样本分别对对应的基分类器进行训练,得到训练好的分类模型。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述分类模型的训练方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述分类模型的训练方法的步骤。
本申请提出的分类模型的训练方法、装置、计算机设备及存储介质,在选择对应基分类器的训练样本时,通过对数量远大于风险训练样本的非风险样本进行分箱,通过不断迭代计算各个箱的平均难度贡献和自适应因子得到各个箱体的权重,并根据该权重确定从各个箱体中抽取的训练样本的数量,使得用于模型训练的样本更为关注难以分类的样本,并降低蕴含信息较少的简单样本的训练数量,从而使得训练出的预测模型在对风险情况出现较低的预测场景中也能有很好的表现,在计算各箱权重的过程中结合当前基分类器及在先基分类器对各个非风险样本的预测损失和该基分类器自身的调节因子,并依据该权重和风险训练样本的数量确定从各个箱中抽取的该基分类器的非风险训练样本的数量,根据确定的所述数量分别从对应的箱中进行采样,得到当前非风险训练样本,最终获得各个基分类器的训练样本,使得选取的用于训练基分类器的训练样本结合了样本自身和对应基分类器的特性,在不增加模型训练难度的情况下,通过挑选出最合适的训练样本以提高训练出的预测模型的预测准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中分类模型的训练方法的一应用环境示意图;
图2是本发明一实施例中分类模型的训练方法的一流程图;
图3是本发明一实施例中计算在当前基分类器下各箱的权重的一流程图;
图4是本发明一实施例中使用该训练好的分类模型的一流程图;
图5是本发明一实施例中分类模型的训练装置的结构示意图;
图6是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的分类模型的训练方法,可应用在如图1的应用环境中,其中,该计算机设备包括但不限于服务器、各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
为了在不增加模型训练难度的情况下提高模型对低风险概率事件的预测准确性,如图2所示,本实施例提供一种分类模型的训练方法,以该方法应用在图1中的计算机设备为例进行说明,包括如下步骤S101至S109。
S101、从历史数据中获取针对同一风控场景的风险训练样本和非风险样本,所述非风险样本的数量大于所述风险训练样本的数量。
可以理解的是,风险训练样本表示发生概率很低的风险样本,非风险样本表示发生概率很高的正常样本。在风险发生概率很低的事件中,非风险样本的数量是远大于风险训练样本的数量的。
在其中一个实施例中,该风险训练样本包括但不限于客户投诉样本、证件冒办样本、洗黑钱用户样本等。在对应的风控场景中,相应的非风险样本包括但不限于客户非投诉样本、证件正常办理样本、非洗黑钱用户样本等。
S102、根据用户的输入确定所述分类模型包括的基分类器的数量,所述分类模型用于对所述风控场景中目标对象的风险概率进行预测,所述基分类器的数量至少为两个。
其中,用户可以根据实际样本量设定该基分类器的数量,当实际样本量的数量大于百万级时,优选的基分类器的数量大于等于10个。
S103、从所述非风险样本中随机抽取第一基分类器的第一非风险训练样本,将所述第一非风险训练样本与所述风险训练样本的合集作为所述第一个基分类器的第一训练样本。
其中,所述第一基分类器的非风险训练样本数量与所述风险训练样本的数量相同。
可以理解的是,由于风险训练样本的数量远小于非风险样本的数量,为使得训练出的分类模型更关注于风险训练样本的特征,因此需要将全部的风险训练样本选为基分类器的训练样本,由于非风险样本的数量过多,需要对非风险样本进行挑选,得到用于训练基分类器的非风险训练样本。
在本实施例中,通过对非风险样本进行随机抽取,得到用于训练第一基分类器的非风险样本。
S104、根据当前基分类器及在先基分类器对每个所述非风险样本的输出结果,计算各所述非风险样本在当前基分类器下的损失,当所述基分类器的数量为两个或所述当前基分类器表示第二基分类器时,所述在先基分类器表示所述第一基分类器。
其中,当前基分类器及在先基分类器对每个所述非风险样本的输出结果可以表示为:
其中,Fi(x)表示集成函数,x表示所述非风险样本,i表示当前第i个基分类器,j=i-1,f(x)表示基分类器。可以看出,集成函数表征了当前基分类器及在先基分类器对每个所述非风险样本的输出结果。
进一步地,计算各所述非风险样本在当前基分类器下的损失可以表示为:H(x,y,Fi),其中,x、y和Fi均为该难度分布函数H的输入,x表示非风险样本,y表示该非风险样本x的真实取值,Fi表示通过集成函数对非风险样本x的输出结果。
可以理解的是,难度分布函数H的输出用于衡量非风险样本x的真实取值y与输出结果Fi之间的差距,差距越大表示越难以对该非风险样本x进行分类。
在其中一个实施例中,该难度分布函数H可以选用hinge loss函数、square loss函数、绝对值差距函数等。
S105、根据各所述非风险样本的损失对所述非风险样本相对于所述当前基分类器进行分箱。
在其中一个实施例中,该步骤根据各所述非风险样本的损失对所述非风险样本相对于所述当前基分类器进行分箱的步骤包括:
根据计算得到的各所述非风险样本的损失对所述非风险样本相对于当前基分类器进行排序;
获取预先设定的箱的个数;
根据所述箱的个数对排序后的非风险样本进行平均切分,得到各个箱。
在其中一个实施例中,箱的个数k根据数据集的大小来选定,一般来说大概在10~15之间取值,如果样本数据集bin太小的话,模型的性能评价指标AUC(area under thecurve)提升会比较小,如果样本数据集bin太大的话,模型已经收敛,过度的训练就是在浪费时间与算力,当然,主要还是依据可以训练的数据集有多大,如果采用个5或6层depth的gbdt作为基分类器,那么总的训练样本量也要在百万级别。
S106、计算在当前基分类器下各箱的权重。
图3是本发明一实施例中计算在当前基分类器下各箱的权重的一流程图,在其中一个实施例中,如图3所示,计算在当前基分类器下各箱的权重的步骤包括以下步骤S301至S303。
S301、计算各箱中包括的非风险样本的平均难度贡献。
在其中一个实施例中,所述计算各箱中包括的非风险样本的平均难度贡献的步骤包括:
通过以下公式(1)计算各箱中包括的非风险样本的平均难度贡献:
其中,hl表示计算得到的箱l的平均难度贡献,Bl表示第l个箱,s表示箱Bl中包括的非风险样本,表示箱Bl中包括的非风险样本的数量,H表示难度分布函数,xs表示非风险样本,ys表示所述非风险样本xs的真实取值,Fi表示根据当前第i个基分类器及在先基分类器对所述非风险样本xs的输出结果。
S302、根据当前基分类器的排序序号更新自调节因子。
在其中一个实施例中,可以通过以下公式(2)更新该自调节因子:
其中,α表示所述自调节因子,n表示所述基分类器的总数量,i表示当前第i个基分类器。
在训练后期,通过引入自调节因子α,可以增加基分类器的多样性并使模型关注更加难以分类的样本,自调节因子α被用来降低那些“简单”样本数量过多的bins的采样权重,其中,“简单”样本可以理解为模型已经可以轻易分类准确的样本。
S303、根据所述平均难度贡献和所述自调节因子计算在当前基分类器下各箱的权重。
在其中一个实施例中,通过以下公式(3)计算在当前基分类器下各箱的权重:
S107、根据各箱的权重和所述风险训练样本的数量,确定从对应箱中抽取的非风险训练样本的数量。
在其中一个实施例中,通过以下公式(4)计算从各箱中抽取的非风险训练样本的数量:
其中,Wl表示计算得到的从箱l中抽取的非风险训练样本的数量,m表示箱l中的非风险训练样本,pm表示通过所述集成函数Fi(x)输出的非风险训练样本m的概率,pl表示箱l的权重,Wp表示所述风险训练样本p中包括的样本数量。
S108、根据确定的所述数量分别从对应的箱中进行采样,得到当前非风险训练样本,将所述当前非风险训练样本与所述风险训练样本的合集作为所述当前基分类的训练样本。
可以理解的是,上述步骤S104至步骤S108是循环进行的,在选择每个基分类器的非风险训练样本时,都需要根据当前基分类器及在先基分类器对每个所述非风险样本的输出结果,计算各所述非风险样本在当前基分类器下的损失,根据各所述非风险样本的损失对所述非风险样本相对于所述当前基分类器进行分箱,计算在当前基分类器下各箱的权重,根据各箱的权重和所述风险训练样本的数量确定从对应箱中抽取的非风险训练样本的数量,根据确定的所述数量分别从对应的箱中进行采样,得到当前非风险训练样本,最终获得各个基分类器的非风险训练样本。
S109、通过所述第一训练样本对所述第一个基分类器进行训练,通过所述当前基分类的训练样本分别对对应的基分类器进行训练,得到训练好的分类模型。
可以理解的是,当当前基分类为第二基分类器时,将第二非风险训练样本与该风险训练样本的合集作为该第二基分类器的训练样本,当当前基分类为第三基分类器时,将第三非风险训练样本与该风险训练样本的合集作为该第三基分类器的训练样本,以此类推,分别找到用于训练每个基分类器的训练样本。
本实施例通过对数量远大于负样本的正样本数据集进行分箱,通过不断迭代计算各个箱的平均难度贡献和自适应因子得到各个箱体的权重,并根据该权重确定从各个箱体中抽取的训练样本的数量,使得用于模型训练的样本更为关注难以分类的样本,并降低蕴含信息较少的简单样本的训练数量,从而使得训练出的预测模型在对风险情况出现较低的预测场景中也能有很好的表现。本实施例提出的学习算法不仅支持简单算法(如决策树,KNN,mlp)基分类器,也支持gbdt与其他一些稍高复杂度的基分类器。本实施例提出的学习算法模型在结合了hyperopt自动化调参算法后实现了端到端的模型训练与预测,在对比起大多数业内的其他算法,在相同的1079个维度近159万的数据的训练下,问题件的比率是0.15%,但是基于本算法下结合基分类器模型的表现是最好的。
图4是本发明一实施例中使用该训练好的分类模型的一流程图,在其中一个实施例中,如图4所示,在通过训练好的分类模型对待预测的目标对象进行预测时,该方法包括以下步骤S401至S403:
S401、接收待预测的目标对象;
S402、通过所述分类模型中的各个基分类器分别对所述目标对象进行预测,得到各个基分类器的预测概率;
S403、计算各个基分类器的预测概率的平均值,将所述平均值作为所述目标对象的预测概率。
其中,得到的训练好的分类模型可以表示为:
其中,n表示基分类器的个数,i表示第i个基分类器,x表示输入的待预测的目标对象,fi(x)表示通过第i个基分类器对所述待预测的目标对象x进行预测的概率。
本实施例适用于目标样本过少、正样本过多的两极分化严重的场景中预测样本的训练。本实施例在选择对应基分类器的训练样本时,结合当前基分类器及在先基分类器对各个非风险样本的预测损失和该基分类器自身的调节因子,根据预测损失和该调节因子确定各个箱的权重,并依据该权重和风险训练样本的数量确定从各个箱中抽取的该基分类器的非风险训练样本的数量,根据确定的所述数量分别从对应的箱中进行采样,得到当前非风险训练样本,最终获得各个基分类器的训练样本,使得选取的用于训练基分类器的训练样本结合了样本自身和对应基分类器的特性,在不增加模型训练难度的情况下,通过挑选出最合适的训练样本以提高训练出的预测模型的预测准确性。本实施例支持风控场景下的样本标签极不平衡分布的建模,得到更好的分类性能,且本实施例支持大数据风控场景下的大规模数据集的运算同时也使用较少的训练数据,同时需要更少的计算量/计算时间来进行采样,支持大数据风控场景下的模型算法对噪声/缺失值鲁棒,同时还使得大数据风控场景下的模型训练对超参的选择敏感度低。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种分类模型的训练装置,该分类模型的训练装置与上述实施例中分类模型的训练方法一一对应。如图5所示,该分类模型的训练装置100包括样本获取模块11、分类器数量确定模块12、样本抽取模块13、损失计算模块14、分箱模块15、权重计算模块16、样本数量确定模块17、采样模块18、训练模块19。各功能模块详细说明如下:
样本获取模块11,用于从历史数据中获取针对同一风控场景的风险训练样本和非风险样本,该非风险样本的数量大于该风险训练样本的数量;
分类器数量确定模块12,用于根据用户的输入确定该分类模型包括的基分类器的数量,所述分类模型用于对所述风控场景中目标对象的风险概率进行预测,该基分类器的数量至少为两个;
样本抽取模块13,用于从该非风险样本中随机抽取第一基分类器的第一非风险训练样本,将该第一非风险训练样本与该风险训练样本的合集作为该第一基分类器的第一训练样本;
损失计算模块14,用于根据当前基分类器及在先基分类器对每个该非风险样本的输出结果,计算各该非风险样本在当前基分类器下的损失,当该基分类器的数量为两个或该当前基分类器表示第二基分类器时,该在先基分类器表示该第一基分类器;
分箱模块15,用于根据各该非风险样本的损失对该非风险样本相对于该当前基分类器进行分箱;
权重计算模块16,用于计算在当前基分类器下各箱的权重;
样本数量确定模块17,用于根据各箱的权重和该风险训练样本的数量,确定从对应箱中抽取的非风险训练样本的数量;
采样模块18,用于根据确定的该数量分别从对应的箱中进行采样,得到当前非风险训练样本,将该当前非风险训练样本与该风险训练样本的合集作为该当前基分类的训练样本;
训练模块19,用于通过该第一训练样本对该第一基分类器进行训练,通过该当前基分类的训练样本分别对对应的基分类器进行训练,得到训练好的分类模型。
可以理解的是,当当前基分类为第二基分类器时,将第二非风险训练样本与该风险训练样本的合集作为该第二基分类器的训练样本,当当前基分类为第三基分类器时,将第三非风险训练样本与该风险训练样本的合集作为该第三基分类器的训练样本,以此类推,分别找到用于训练每个基分类器的训练样本。
在其中一个实施例中,该损失计算模块14包括:
输出结果计算单元,用于通过以下公式计算所述当前基分类器及在先基分类器对每个所述非风险样本的输出结果:
其中,Fi(x)表示根据当前第i个基分类器及在先基分类器对所述非风险样本x的输出结果,x表示所述非风险样本,i表示当前第i个基分类器,j=i-1,f(x)表示基分类器。可以看出,集成函数表征了当前基分类器及在先基分类器对每个所述非风险样本的输出结果。
进一步地,计算各所述非风险样本在当前基分类器下的损失可以表示为:H(x,y,Fi),其中,x、y和Fi均为该难度分布函数H的输入,x表示非风险样本,y表示该非风险样本x的真实取值,Fi表示通过集成函数对非风险样本x的输出结果。
可以理解的是,难度分布函数H的输出用于衡量非风险样本x的真实取值y与输出结果Fi之间的差距,差距越大表示越难以对该非风险样本x进行分类。
在其中一个实施例中,该难度分布函数H可以选用hinge loss函数、square loss函数、绝对值差距函数等。
本实施例通过对数量远大于负样本的正样本数据集进行分箱,通过不断迭代计算各个箱的平均难度贡献和自适应因子得到各个箱体的权重,并根据该权重确定从各个箱体中抽取的训练样本的数量,使得用于模型训练的样本更为关注难以分类的样本,并降低蕴含信息较少的简单样本的训练数量,从而使得训练出的预测模型在对风险情况出现较低的预测场景中也能有很好的表现。
在其中一个实施例中,该权重计算模块16包括:
平均难度贡献计算单元,用于计算各箱中包括的非风险样本的平均难度贡献;
调节因子更新单元,用于根据当前基分类器的排序序号更新自调节因子;
权重计算单元,用于根据所述平均难度贡献和所述自调节因子计算在当前基分类器下各箱的权重。
在其中一个实施例中,该平均难度贡献计算单元用于通过以下公式计算各箱中包括的非风险样本的平均难度贡献:
其中,hl表示计算得到的箱l的平均难度贡献,Bl表示第l个箱,s表示箱Bl中包括的非风险样本,表示箱Bl中包括的非风险样本的数量,H表示难度分布函数,xs表示非风险样本,ys表示所述非风险样本xs的真实取值,Fi表示根据当前第i个基分类器及在先基分类器对所述非风险样本xs的输出结果。
进一步地,该调节因子更新单元具体用于通过以下公式更新该自调节因子:
其中,α表示所述自调节因子,n表示所述基分类器的总数量,i表示当前第i个基分类器;
在训练后期,通过引入自调节因子α,可以增加基分类器的多样性并使模型关注更加难以分类的样本,自调节因子α被用来降低那些“简单”样本数量过多的bins的采样权重,其中,“简单”样本可以理解为模型已经可以轻易分类准确的样本。
进一步地,该权重计算单元具体用于通过以下公式计算在当前基分类器下各箱的权重:
在其中一个实施例中,该样本数量确定模块17具体用于:通过以下公式计算从各箱中抽取的非风险训练样本的数量:
其中,Wl表示计算得到的从箱l中抽取的非风险训练样本的数量,m表示箱l中的非风险训练样本,pm表示通过Fi(x)输出的非风险训练样本m的概率,pl表示箱l的权重,Wp表示所述风险训练样本p中包括的样本数量。
在其中一个实施例中,该分类模型的训练装置100还包括:
目标对象接受模块,用于接收待预测的目标对象;
预测模块,用于通过所述分类模型中的各个基分类器分别对所述目标对象进行预测,得到各个基分类器的预测概率;
概率计算模块,用于计算各个基分类器的预测概率的平均值,将所述平均值作为所述目标对象的预测概率。
其中,得到的训练好的分类模型可以表示为:
其中,n表示基分类器的个数,i表示第i个基分类器,x表示输入的待预测的目标对象,fi(x)表示通过第i个基分类器对所述待预测的目标对象x进行预测的概率。
本实施例提出的分类模型的训练装置适用于目标样本过少、正样本过多的两极分化严重的场景中预测样本的训练。本实施例在选择对应基分类器的训练样本时,结合当前基分类器及在先基分类器对各个非风险样本的预测损失和该基分类器自身的调节因子,根据预测损失和该调节因子确定各个箱的权重,并依据该权重和风险训练样本的数量确定从各个箱中抽取的该基分类器的非风险训练样本的数量,根据确定的所述数量分别从对应的箱中进行采样,得到当前非风险训练样本,最终获得各个基分类器的训练样本,使得选取的用于训练基分类器的训练样本结合了样本自身和对应基分类器的特性,在不增加模型训练难度的情况下,通过挑选出最合适的训练样本以提高训练出的预测模型的预测准确性。本实施例支持风控场景下的样本标签极不平衡分布的建模,得到更好的分类性能,且本实施例支持大数据风控场景下的大规模数据集的运算同时也使用较少的训练数据,同时需要更少的计算量/计算时间来进行采样,支持大数据风控场景下的模型算法对噪声/缺失值鲁棒,同时还使得大数据风控场景下的模型训练对超参的选择敏感度低。
其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分,并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式。
关于分类模型的训练装置的具体限定可以参见上文中对于分类模型的训练方法的限定,在此不再赘述。上述分类模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种分类模型的训练方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中分类模型的训练方法的步骤,例如图2所示的步骤101至步骤109及该方法的其它扩展和相关步骤的延伸。或者,处理器执行计算机程序时实现上述实施例中分类模型的训练装置的各模块/单元的功能,例如图5所示模块11至模块19的功能。为避免重复,这里不再赘述。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中分类模型的训练方法的步骤,例如图2所示的步骤101至步骤109及该方法的其它扩展和相关步骤的延伸。或者,计算机程序被处理器执行时实现上述实施例中分类模型的训练装置的各模块/单元的功能,例如图5所示模块11至模块19的功能。为避免重复,这里不再赘述。
本实施例提出的分类模型的训练方法、装置、计算机设备及存储介质,在选择对应基分类器的训练样本时,通过对数量远大于风险训练样本的非风险样本进行分箱,通过不断迭代计算各个箱的平均难度贡献和自适应因子得到各个箱体的权重,并根据该权重确定从各个箱体中抽取的训练样本的数量,使得用于模型训练的样本更为关注难以分类的样本,并降低蕴含信息较少的简单样本的训练数量,从而使得训练出的预测模型在对风险情况出现较低的预测场景中也能有很好的表现,在计算各箱权重的过程中结合当前基分类器及在先基分类器对各个非风险样本的预测损失和该基分类器自身的调节因子,并依据该权重和风险训练样本的数量确定从各个箱中抽取的该基分类器的非风险训练样本的数量,根据确定的所述数量分别从对应的箱中进行采样,得到当前非风险训练样本,最终获得各个基分类器的训练样本,使得选取的用于训练基分类器的训练样本结合了样本自身和对应基分类器的特性,在不增加模型训练难度的情况下,通过挑选出最合适的训练样本以提高训练出的预测模型的预测准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种分类模型的训练方法,其特征在于,所述方法包括:
从历史数据中获取针对同一风控场景的风险训练样本和非风险样本,所述非风险样本的数量大于所述风险训练样本的数量;
根据用户的输入确定所述分类模型包括的基分类器的数量,所述分类模型用于对所述风控场景中目标对象的风险概率进行预测,所述基分类器的数量至少为两个;
从所述非风险样本中随机抽取第一基分类器的第一非风险训练样本,将所述第一非风险训练样本与所述风险训练样本的合集作为所述第一基分类器的第一训练样本;
根据当前基分类器及在先基分类器对每个所述非风险样本的输出结果,计算各所述非风险样本在当前基分类器下的损失,当所述基分类器的数量为两个或所述当前基分类器表示第二基分类器时,所述在先基分类器表示所述第一基分类器;
根据各所述非风险样本的损失对所述非风险样本相对于所述当前基分类器进行分箱;
计算在当前基分类器下各箱的权重;
根据各箱的权重和所述风险训练样本的数量,确定从对应箱中抽取的非风险训练样本的数量;
根据确定的所述数量分别从对应的箱中进行采样,得到当前非风险训练样本,将所述当前非风险训练样本与所述风险训练样本的合集作为所述当前基分类的训练样本;
通过所述第一训练样本对所述第一基分类器进行训练,通过所述当前基分类的训练样本分别对对应的基分类器进行训练,得到训练好的分类模型。
3.根据权利要求1所述的分类模型的训练方法,其特征在于,所述计算在当前基分类器下各箱的权重的步骤包括:
计算各箱中包括的非风险样本的平均难度贡献;
根据当前基分类器的排序序号更新自调节因子;
根据所述平均难度贡献和所述自调节因子计算在当前基分类器下各箱的权重。
7.根据权利要求1至6任一项所述的分类模型的训练方法,其特征在于,在通过训练好的分类模型对待预测的目标对象进行预测时,所述方法还包括:
接收待预测的目标对象;
通过所述分类模型中的各个基分类器分别对所述目标对象进行预测,得到各个基分类器的预测概率;
计算各个基分类器的预测概率的平均值,将所述平均值作为所述目标对象的预测概率。
8.一种分类模型的训练装置,其特征在于,所述装置包括:
样本获取模块,用于从历史数据中获取针对同一风控场景的风险训练样本和非风险样本,所述非风险样本的数量大于所述风险训练样本的数量;
分类器数量确定模块,用于根据用户的输入确定所述分类模型包括的基分类器的数量,所述分类模型用于对所述风控场景中目标对象的风险概率进行预测,所述基分类器的数量至少为两个;
样本抽取模块,用于从所述非风险样本中随机抽取第一基分类器的第一非风险训练样本,将所述第一非风险训练样本与所述风险训练样本的合集作为所述第一基分类器的第一训练样本;
损失计算模块,用于根据当前基分类器及在先基分类器对每个所述非风险样本的输出结果,计算各所述非风险样本在当前基分类器下的损失,当所述基分类器的数量为两个或所述当前基分类器表示第二基分类器时,所述在先基分类器表示所述第一基分类器;
分箱模块,用于根据各所述非风险样本的损失对所述非风险样本相对于所述当前基分类器进行分箱;
权重计算模块,用于计算在当前基分类器下各箱的权重;
样本数量确定模块,用于根据各箱的权重和所述风险训练样本的数量,确定从对应箱中抽取的非风险训练样本的数量;
采样模块,用于根据确定的所述数量分别从对应的箱中进行采样,得到当前非风险训练样本,将所述当前非风险训练样本与所述风险训练样本的合集作为所述当前基分类的训练样本;
训练模块,用于通过所述第一训练样本对所述第一基分类器进行训练,通过所述当前基分类的训练样本分别对对应的基分类器进行训练,得到训练好的分类模型。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述分类模型的训练方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述分类模型的训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110224325.8A CN112926663A (zh) | 2021-02-25 | 2021-02-25 | 分类模型的训练方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110224325.8A CN112926663A (zh) | 2021-02-25 | 2021-02-25 | 分类模型的训练方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112926663A true CN112926663A (zh) | 2021-06-08 |
Family
ID=76172706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110224325.8A Pending CN112926663A (zh) | 2021-02-25 | 2021-02-25 | 分类模型的训练方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926663A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114154891A (zh) * | 2021-12-08 | 2022-03-08 | 中国建设银行股份有限公司 | 风险控制模型的重训练方法及装置 |
CN116340852A (zh) * | 2023-05-30 | 2023-06-27 | 支付宝(杭州)信息技术有限公司 | 一种模型训练、业务风控的方法及装置 |
-
2021
- 2021-02-25 CN CN202110224325.8A patent/CN112926663A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114154891A (zh) * | 2021-12-08 | 2022-03-08 | 中国建设银行股份有限公司 | 风险控制模型的重训练方法及装置 |
CN116340852A (zh) * | 2023-05-30 | 2023-06-27 | 支付宝(杭州)信息技术有限公司 | 一种模型训练、业务风控的方法及装置 |
CN116340852B (zh) * | 2023-05-30 | 2023-09-15 | 支付宝(杭州)信息技术有限公司 | 一种模型训练、业务风控的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163300B (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
CN109816221B (zh) | 项目风险决策方法、装置、计算机设备和存储介质 | |
CN106127363B (zh) | 一种用户信用评估方法和装置 | |
CN109242135B (zh) | 一种模型运营方法、装置、及业务服务器 | |
CN112052787A (zh) | 基于人工智能的目标检测方法、装置及电子设备 | |
JP2020501238A (ja) | 顔検出トレーニング方法、装置及び電子機器 | |
CN112926663A (zh) | 分类模型的训练方法、装置、计算机设备及存储介质 | |
CN111814570B (zh) | 一种基于动态阈值的人脸识别方法、系统及存储介质 | |
CN113222149A (zh) | 模型训练方法、装置、设备和存储介质 | |
CN109389019A (zh) | 人脸图像选择方法、装置及计算机设备 | |
CN112765386A (zh) | 基于大数据和互联网的信息管理方法、系统及云服务器 | |
JPWO2019092931A1 (ja) | 判別モデル生成装置、判別モデル生成方法および判別モデル生成プログラム | |
CN111008299B (zh) | 语音数据库的质量评估方法、装置及计算机存储介质 | |
CN113158900A (zh) | 人脸活体检测模型的训练方法、装置、设备及存储介质 | |
CN112766402A (zh) | 算法选择方法、装置和电子设备 | |
CN114419313A (zh) | 影像辨识方法及影像辨识系统 | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
CN117368862A (zh) | 一种高效气象雷达数据质量评估系统 | |
CN111352926B (zh) | 数据处理的方法、装置、设备及可读存储介质 | |
CN115063664A (zh) | 用于工业视觉检测的模型学习方法、训练方法及系统 | |
CN113283388A (zh) | 活体人脸检测模型的训练方法、装置、设备及存储介质 | |
CN113822414A (zh) | 口罩检测模型的训练方法、口罩检测方法及相关设备 | |
CN114219051B (zh) | 图像分类方法、分类模型的训练方法、装置及电子设备 | |
CN110751623A (zh) | 基于联合特征的缺陷检测方法、装置、设备及存储介质 | |
CN115170838A (zh) | 一种数据筛选方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210608 |
|
RJ01 | Rejection of invention patent application after publication |