CN112381314A - 模型训练、出险率预测方法、装置、电子设备及存储介质 - Google Patents

模型训练、出险率预测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112381314A
CN112381314A CN202011334610.7A CN202011334610A CN112381314A CN 112381314 A CN112381314 A CN 112381314A CN 202011334610 A CN202011334610 A CN 202011334610A CN 112381314 A CN112381314 A CN 112381314A
Authority
CN
China
Prior art keywords
risk
model
machine learning
category
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011334610.7A
Other languages
English (en)
Other versions
CN112381314B (zh
Inventor
王森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JD Digital Technology Holdings Co Ltd
Original Assignee
JD Digital Technology Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JD Digital Technology Holdings Co Ltd filed Critical JD Digital Technology Holdings Co Ltd
Priority to CN202011334610.7A priority Critical patent/CN112381314B/zh
Publication of CN112381314A publication Critical patent/CN112381314A/zh
Application granted granted Critical
Publication of CN112381314B publication Critical patent/CN112381314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Molecular Biology (AREA)
  • Technology Law (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种模型训练、出险率预测方法、装置、电子设备及存储介质,方法包括:获取多个出险率类别中每个出险率类别所对应的多个保单的历史保单数据及历史保单数据对应的出险标签,每个出险率类别与出险率的取值范围中的一个出险率区间对应;针对每个出险率类别,对于保单属于各个出险率类别的概率分别建立机器学习模型;利用EM算法对每个出险率类别对应的机器学习模型进行优化,得到每个出险率类别对应的机器学习模型。本发明实施例能够基于EM算法,训练了保单属于各个出险率类别的机器学习模型,使得最大化对数似然函数,由于它对各个出险率区间,都建模拟合了保单属于该区间的概率,并且对对数似然函数进行了最大化,因此实现了概率校准。

Description

模型训练、出险率预测方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种模型训练、出险率预测方法、装置、电子设备及存储介质。
背景技术
当用户在电商平台下单购物时,商家或为此购买了一单运费险。电商平台需要对这一保单的运费险出险率进行预测,然后保险公司得以据此结合费率表向商家收取保费。为了向商家解释保费定价的逻辑,通常采用基于决策树的模型,例如XGBoost。为使保费定价合理,通常引入概率校准(probability calibration)来提高出险率预测值的准确性。
然而,现有技术中的概率校准方法实现概率预测属于二分类问题,通常将输入特征经过重重转化,最终通过一个映射得出概率预测值。即使是经过校准的神经网络,也必须最终通过一个激活函数(通常是sigmoid函数)输出一个概率预测值。platt calibration则是通过sigmoid函数来映射出一个概率预测值。保序回归则是通过分段函数将原始模型的预测值映射成概率预测值。Bayesian Binning into Quantiles(BBQ)以某个特定分布的加权和作为最终的概率预测值。这些形式上的限制,使得它们能够拟合的条件分布也受到限制。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种模型训练、出险率预测方法、装置、电子设备及存储介质。
第一方面,本申请提供了一种模型训练方法,所述方法包括:
获取多个出险率类别中每个所述出险率类别所对应的多个保单的历史保单数据及所述历史保单数据对应的出险标签,每个所述出险率类别与出险率的取值范围中的一个出险率区间对应;
针对每个出险率类别,对于保单属于各个出险率类别的概率分别建立机器学习模型;
利用EM算法对每个出险率类别对应的机器学习模型进行优化,得到每个出险率类别对应的机器学习模型,所述机器学习模型用于预测保单属于对应的出险率类别的概率。
可选地,所述利用EM算法对每个出险率类别对应的机器学习模型进行优化,得到每个出险率类别对应的机器学习模型,包括:
针对每个出险率类别对应的机器学习模型,初始化所述机器学习模型的模型参数;
基于所述机器学习模型的模型参数,利用EM算法的E步计算关于所述模型参数的Q函数;
在EM算法的M步计算使所述Q函数最大化的模型参数;
经过所述EM算法的E步和M步的若干轮迭代,将计算得到的所述模型参数输入对应的所述机器学习模型中,得到每个出险率类别对应的机器学习模型。
可选地,所述在EM算法的M步计算使所述Q函数最大化的模型参数,包括:
将计算使所述Q函数最大化的模型参数转化为计算使负的所述Q函数最小化的模型参数;
将负的所述Q函数确定为对应的所述机器学习模型的损失函数。
可选地,若所述机器学习模型为神经网络模型,所述在EM算法的M步计算使所述Q函数最大化的模型参数,包括:
计算所述损失函数对所述模型参数的梯度;
利用梯度下降法对关于所述损失函数的似然函数进行最小化,得到新的模型参数。
可选地,若所述机器学习模型为XGBoost模型,所述在EM算法的M步计算使所述Q函数最大化的模型参数,包括:
针对每个出险率类别,分别训练出险率类别对应的XGBoost模型;
其中,在XGBoost训练中的第t'步,基于Q函数定义XGBoost模型的损失函数,计算使所述损失函数最小的模型参数,所述损失函数的参数为中间参数,计算所述中间参数对所述XGBoost模型的预测输出的一阶导数及二阶导数,完成XGBoost模型的训练。
第二方面,本申请提供了一种出险率确定方法,包括:
获取待确定出险率的保单的保单数据;
将所述保单数据输入多个如第一方面任一所述的与出险率类别对应的机器学习模型,得到所述保单属于多个出险率类别的概率;
选取预测值最大的出险率类别作为预测类别;
将预测类别对应的出险率作为所述保单的出险率。
第三方面,本申请提供了一种模型训练装置,所述装置包括:
第一获取模块,用于获取多个出险率类别中每个所述出险率类别所对应的多个保单的历史保单数据及所述历史保单数据对应的出险标签,每个所述出险率类别与出险率的取值范围中的一个出险率区间对应;
建立模块,用于针对每个出险率类别,对于保单属于各个出险率类别的概率分别建立机器学习模型;
模型优化模块,用于利用EM算法对每个出险率类别对应的机器学习模型进行优化,得到每个出险率类别对应的机器学习模型,所述机器学习模型用于预测保单属于对应的出险率类别的概率。
可选的,所述模型优化模块,包括:
初始化单元,用于针对每个出险率类别对应的机器学习模型,初始化所述机器学习模型的模型参数;
第一计算单元,用于基于所述机器学习模型的模型参数,利用EM算法的E步计算关于所述模型参数的Q函数;
第二计算单元,用于在EM算法的M步计算使所述Q函数最大化的模型参数;
模型输入模块,用于经过所述EM算法的E步和M步的若干轮迭代,将计算得到的所述模型参数输入对应的所述机器学习模型中,得到每个出险率类别对应的机器学习模型。
可选的,所述第二计算单元,还用于:
将计算使所述Q函数最大化的模型参数转化为计算使负的所述Q函数最小化的模型参数;
将负的所述Q函数确定为对应的所述机器学习模型的损失函数。
可选的,若所述机器学习模型为神经网络模型,所述第二计算单元,,还用于:
计算所述损失函数对所述模型参数的梯度;
利用梯度下降法对关于所述损失函数的似然函数进行最小化,得到新的模型参数。
可选的,若所述机器学习模型为XGBoost模型,所述第二计算单元,,还用于:
针对每个出险率类别,分别训练出险率类别对应的XGBoost模型;
其中,在XGBoost训练中的第t'步,基于Q函数定义XGBoost模型的损失函数,计算使所述损失函数最小的模型参数,所述损失函数的参数为中间参数,计算所述中间参数对所述XGBoost模型的预测输出的一阶导数及二阶导数,完成XGBoost模型的训练。
第四方面,本申请提供了一种出险率确定装置,包括:
第二获取模块,用于获取待确定出险率的保单的保单数据;
输入模块,用于将所述保单数据输入多个如第二方面所述的与出险率类别对应的机器学习模型,得到所述保单属于多个出险率类别的概率;
选取模块,用于选取预测值最大的出险率类别作为预测类别;
确定模块,用于将预测类别对应的出险率作为所述保单的出险率。
第五方面,本申请提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的模型训练方法或者第二方面所述的出险率确定方法。
第六方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有模型训练方法或者出险率确定方法的程序,所述模型训练方法的程序被处理器执行时实现第一方面任一所述的模型训练方法的步骤,所述出险率确定方法的程序被处理器执行时实现第二方面所述的出险率确定方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本发明实施例通过首先获取多个出险率类别中每个所述出险率类别所对应的多个保单的历史保单数据及所述历史保单数据对应的出险标签,每个所述出险率类别与出险率的取值范围中的一个出险率区间对应,再针对每个出险率类别,对于保单属于各个出险率类别的概率分别建立机器学习模型,最后可以利用EM算法对每个出险率类别对应的机器学习模型进行优化,得到每个出险率类别对应的机器学习模型,所述机器学习模型用于预测保单属于对应的出险率类别的概率。
本发明实施例基于EM算法,训练了保单属于各个出险率类别的机器学习模型,使得lnP(Y|X,θ)最大化对数似然函数,由于它对各个出险率区间,都建模拟合了保单属于该区间的概率,并且对对数似然函数进行了最大化,因此实现了概率校准。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种模型训练方法的流程图;
图2为本申请实施例提供的一种出险率确定方法的流程图;
图3为本申请实施例提供的一种模型训练装置的结构图;
图4为本申请实施例提供的一种出险率确定装置的结构图;
图5为本申请实施例提供的一种电子设备的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
由于现有技术中的概率校准方法实现概率预测属于二分类问题,通常将输入特征经过重重转化,最终通过一个映射得出概率预测值。即使是经过校准的神经网络,也必须最终通过一个激活函数(通常是sigmoid函数)输出一个概率预测值。platt calibration则是通过sigmoid函数来映射出一个概率预测值。保序回归则是通过分段函数将原始模型的预测值映射成概率预测值。BBQ以某个特定分布的加权和作为最终的概率预测值。这些形式上的限制,使得它们能够拟合的条件分布也受到限制。为此,本发明实施例提供一种模型训练、出险率预测方法、装置、电子设备及存储介质,图1为本申请实施例提供的一种模型训练方法,所述模型训练方法包括:
步骤S101,获取多个出险率类别中每个所述出险率类别所对应的多个保单的历史保单数据及所述历史保单数据对应的出险标签。
在本发明实施例中,每个所述出险率类别与出险率的取值范围中的一个出险率区间对应;在风控业务中,按照风险程度,保单可被划分为不同的类别,例如用户欺诈型和商家欺诈型等等。各个类别的保单具有不同的出险率。为说明方便,我们用每个类别的出险率来表示这个类别,例如,如果某个类别的出险率为0.15,那么我们将这个类别称为0.15。
设全部类别组成的集合为
Figure BDA0002796790850000071
对于每一笔保单,用变量
Figure BDA0002796790850000072
表示其所在类别,从而
Figure BDA0002796790850000073
Figure BDA0002796790850000074
在该步骤中,可以针对每个出险率类别,获取该出险率类别对应的多个保单的历史保单数据,历史保单数据包括:多个保单特征,保单特征可以包括但不限于用户的年龄、用户历史退款率、店铺历史退款率或者保单金额等。多个保单特征构成一个保单特征向量,用X表示。
此外,还要获取历史保单数据对应的真实的出险标签Y∈{0,1},其中Y=1表示出险,Y=0表示未出险。
步骤S102,针对每个出险率类别,对于保单属于各个出险率类别的概率分别建立机器学习模型;
在该步骤中,根据保单属于各个出险率类别的概率为每个出险率类别分别构建一个机器学习模型,这里可以用的机器学习模型包括但不限于神经网络和XGBoost,除此之外,机器学习模型还可以为逻辑回归、决策树等等。多个出险率类别对应的机器学习模型分别经过训练阶段和预测阶段。
在出险率类别z中
Figure BDA0002796790850000075
对于保单特征X,相应的机器学习模型用来预测该保单属于该出险率类别的概率P(Z=z|X,θz),其中θz是一个向量,为模型参数,模型参数中包含机器学习模型的各个参数。为说明方便,称这个模型为P(Z=z|X,θz)。
步骤S103,利用EM算法对每个出险率类别对应的机器学习模型进行优化,得到每个出险率类别对应的机器学习模型,所述机器学习模型用于预测保单属于对应的出险率类别的概率。
在该步骤中,可以针对每个出险率类别对应的机器学习模型,初始化所述机器学习模型的模型参数,基于所述机器学习模型的模型参数,利用EM算法的E步计算关于所述模型参数的Q函数,在EM算法的M步计算使所述Q函数最大化的模型参数,经过所述EM算法的E步和M步的若干轮迭代,将计算得到的所述模型参数输入对应的所述机器学习模型中,得到每个出险率类别对应的机器学习模型。
在本发明实施例中,可以把获取到的多个保单的历史保单数据及所述历史保单数据对应的出险标签组成的集合称为训练集,每个所述出险率类别与出险率的取值范围中的一个出险率区间对应。在训练阶段,由于每个保单的所在出险率类别是未知的,故它是隐变量,所以本发明实施例采用EM算法来最大化对数似然lnP(Y|X,θ),从而实现各个机器学习模型
Figure BDA0002796790850000081
设θ为所有
Figure BDA0002796790850000082
拼接而成的向量。
EM算法的原理和具体步骤如下;
设在第t步中模型的参数为θ(t),则EM算法中涉及的Q函数在本发明实施例中为;
Figure BDA0002796790850000083
其中,
P(Z=z,Y|X,θz)=P(Y|Z=z)·P(Z=z|X,θz), (2)
P(Y|Z=z)=zY(1-z)1-Y, (3)
从而,
P(Z=z,Y|X,θz)=zY(1-z)1-Y·P(Z=z|X,θz)。 (4)
并且有
Figure BDA0002796790850000084
综上,
Figure BDA0002796790850000091
EM算法的具体流程如下:
首先随机初始化各个参数θ(0)。对于t=1,2,...,分别完成E步和M步。其中,在E步计算Q(θ,θ(t));
在M步计算:
Figure BDA0002796790850000092
argmaxθQ(θ,θ(t))用于计算使Q函数Q(θ,θ(t))最大化的θ,argminθ-Q(θ,θ(t))用于计算使-Q(θ,θ(t))最小化的θ,M步是一个优化过程,即最小化-Q(θ,θ(t))。
由于一些常见机器学习模型(如神经网络、XGBoostDEGN)的训练,就是对损失函数进行最小化的过程,所以,在本发明实施例中,在EM算法的M步计算使所述Q函数最大化的模型参数,包括:将计算使所述Q函数最大化的模型参数转化为计算使负的所述Q函数最小化的模型参数,将负的所述Q函数确定为对应的所述机器学习模型的损失函数。
也就是说,可以将-Q(θ,θ(t))作为损失函数,进而利用-Q(θ,θ(t))来训练模型P(Z=z|X,θz)。
本发明实施例通过首先获取多个出险率类别中每个所述出险率类别所对应的多个保单的历史保单数据及所述历史保单数据对应的出险标签,每个所述出险率类别与出险率的取值范围中的一个出险率区间对应,再针对每个出险率类别,对于保单属于各个出险率类别的概率分别建立机器学习模型,最后可以利用EM算法对每个出险率类别对应的机器学习模型进行优化,得到每个出险率类别对应的机器学习模型,所述机器学习模型用于预测保单属于对应的出险率类别的概率。
本发明实施例基于EM算法,训练了保单属于各个出险率类别的机器学习模型,使得lnP(Y|X,θ)最大化对数似然函数,由于它对各个出险率区间,都建模拟合了保单属于该区间的概率,并且对对数似然函数进行了最大化,因此实现了概率校准。
本发明实施例对于风控场景下保单的各个类别分别进行了建模。在EM算法的每一轮迭代中,各个模型不断更新模型参数,使得它们区分是否本类别样本的能力越来越强,进而使得它们共同构成的似然函数:
Figure BDA0002796790850000101
不断增大,从而实现概率校准。
在本方法中,随着各个类别的模型
Figure BDA0002796790850000102
区分是否类别的能力增强,即使存在”过度自信“的问题,但只要最终将给定样本准确地归类到其所在类别,就实现了概率校准。
在本发明的又一实施例中,若所述机器学习模型为神经网络模型,所述在EM算法的M步计算使所述Q函数最大化的模型参数,包括:
计算所述损失函数对所述模型参数的梯度;
利用梯度下降法对关于所述损失函数的似然函数进行最小化,得到新的模型参数。
在本发明实施例中,如果模型P(Z=z|X,θ)是神经网络,则可以通过梯度下降法来进行M步的优化。其中梯度的计算如下。对于θ的某个分量θj,梯度为:
Figure BDA0002796790850000103
Figure BDA0002796790850000111
以下算法1给出结合EM算法和神经网络实现出险率预测的训练阶段的完整过程:
Figure BDA0002796790850000112
在本发明的又一实施例中,若所述机器学习模型为XGBoost模型,所述在EM算法的M步计算使所述Q函数最大化的模型参数,包括:
针对每个出险率类别,分别训练出险率类别对应的XGBoost模型;
其中,在XGBoost训练中的第t'步,基于Q函数定义XGBoost模型的损失函数,计算使所述损失函数最小的模型参数,所述损失函数的参数包括XGBoost中各个树的各个叶子结点的预测值,也包括用于描述一个XGBoost模型结构的一切参数,例如树的个数、用于分裂各个节点的特征以及特征取值的分界点等,计算所述损失函数对所述XGBoost模型的各个训练样本预测输出的一阶导数及二阶导数,完成XGBoost模型的训练。
为了表示方便,在本发明实施例中将(6)进行变形,也即将Q(θ,θ(t))写成:
Figure BDA0002796790850000121
其中,
Figure BDA0002796790850000122
如果模型P(Z=z|X,θ)是XGBoost,则可对于EM的每一步的每个类别,分别根据Q(θ,θ(t))定义损失函数,训练XGBoost模型。具体来讲,对于EM算法的第t步,类别z,XGBoost的第t'步,定义以下损失函数:
Figure BDA0002796790850000123
其中(xi,yi)为第i个样本,ft+1,z,t'为EM算法第t步训练中的对应类别z的XGBoost模型中的第t'棵树,
Figure BDA0002796790850000124
而这里的lt+1,z定义为
Figure BDA0002796790850000125
进而可以求得公式(12)对
Figure BDA0002796790850000126
的一阶导数:
Figure BDA0002796790850000127
公式(12)对
Figure BDA0002796790850000128
的二阶导数:
Figure BDA0002796790850000129
由于将
Figure BDA00027967908500001210
赋值为-Q(θ,θ(t)),故
Figure BDA00027967908500001211
是XBGBoost的可用的损失函数,计算使损失函数最小的模型参数可以得到,所述Q函数最大化的模型参数,即对于EM算法的第t步,每个类别z分别训练出XGBoost模型,从而实现M步的优化。
算法2给出了结合EM算法和XGBoost实现出险率预测的训练阶段的完整过程。
Figure BDA0002796790850000131
在本发明的又一实施例中,还提供一种出险率确定方法,如图2所示包括:
步骤S201,获取待确定出险率的保单的保单数据;
步骤S202,将所述保单数据输入多个如前述方法实施例所述的与出险率类别对应的机器学习模型,得到所述保单属于多个出险率类别的概率;
步骤S203,选取预测值最大的出险率类别作为预测类别;
步骤S204,将预测类别对应的出险率作为所述保单的出险率。
本发明实施例,可以对于当前保单,获取保单特征;然后在预测阶段中,各个已训练模型
Figure BDA0002796790850000132
给出了预测值,最终的预测出险率为z*=argmaxzP(Z=z|X,θz)。
本发明实施例可以对于待预测保单,各类别对应的模型分别给出预测值,再取预测值最大的类别为该保单的预测类别,再以该类别对应的出险率作为其预测出险率。
在本发明的又一实施例中,还提供一种模型训练装置,如图3所示,所述装置包括:
第一获取模块11,用于获取多个出险率类别中每个所述出险率类别所对应的多个保单的历史保单数据及所述历史保单数据对应的出险标签,每个所述出险率类别与出险率的取值范围中的一个出险率区间对应;
建立模块12,用于针对每个出险率类别,对于保单属于各个出险率类别的概率分别建立机器学习模型;
模型优化模块13,用于利用EM算法对每个出险率类别对应的机器学习模型进行优化,得到每个出险率类别对应的机器学习模型,所述机器学习模型用于预测保单属于对应的出险率类别的概率。
可选的,所述模型优化模块,包括:
初始化单元,用于针对每个出险率类别对应的机器学习模型,初始化所述机器学习模型的模型参数;
第一计算单元,用于基于所述机器学习模型的模型参数,利用EM算法的E步计算关于所述模型参数的Q函数;
第二计算单元,用于在EM算法的M步计算使所述Q函数最大化的模型参数;
模型输入模块,用于经过所述EM算法的E步和M步的若干轮迭代,将计算得到的所述模型参数输入对应的所述机器学习模型中,得到每个出险率类别对应的机器学习模型。
可选的,所述第二计算单元,还用于:
将计算使所述Q函数最大化的模型参数转化为计算使负的所述Q函数最小化的模型参数;
将负的所述Q函数确定为对应的所述机器学习模型的损失函数。
可选的,若所述机器学习模型为神经网络模型,所述第二计算单元,还用于:
计算所述损失函数对所述模型参数的梯度;
利用梯度下降法对关于所述损失函数的似然函数进行最小化,得到新的模型参数。
可选的,若所述机器学习模型为XGBoost模型,所述第二计算单元,,还用于:
针对每个出险率类别,分别训练出险率类别对应的XGBoost模型;
其中,在XGBoost训练中的第t'步,基于Q函数定义XGBoost模型的损失函数,计算使所述损失函数最小的模型参数,所述损失函数的参数为中间参数,计算所述中间参数对所述XGBoost模型的预测输出的一阶导数及二阶导数,完成XGBoost模型的训练。
在本发明的又一实施例中,还提供一种出险率确定装置,如图4所示,包括:
第二获取模块21,用于获取待确定出险率的保单的保单数据;
输入模块22,用于将所述保单数据输入多个如前述装置是实力所述的与出险率类别对应的机器学习模型,得到所述保单属于多个出险率类别的概率;
选取模块23,用于选取预测值最大的出险率类别作为预测类别;
确定模块24,用于将预测类别对应的出险率作为所述保单的出险率。
在本发明的又一实施例中,还提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现前述方法实施例所述的模型训练方法或者前述方法实施例所述的出险率确定方法。
本发明实施例提供的电子设备,处理器通过执行存储器上所存放的程序实现了通过首先获取多个出险率类别中每个所述出险率类别所对应的多个保单的历史保单数据及所述历史保单数据对应的出险标签,每个所述出险率类别与出险率的取值范围中的一个出险率区间对应,再针对每个出险率类别,对于保单属于各个出险率类别的概率分别建立机器学习模型,最后可以利用EM算法对每个出险率类别对应的机器学习模型进行优化,得到每个出险率类别对应的机器学习模型,所述机器学习模型用于预测保单属于对应的出险率类别的概率。本发明实施例基于EM算法,训练了保单属于各个出险率类别的机器学习模型,使得lnP(Y|X,θ)最大化对数似然函数,由于它对各个出险率区间,都建模拟合了保单属于该区间的概率,并且对对数似然函数进行了最大化,因此实现了概率校准。
上述电子设备提到的通信总线1140可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器(RandomAccessMemory,简称RAM),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器1110可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明的又一实施例中,还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有模型训练方法或者出险率确定方法的程序,所述模型训练方法的程序被处理器执行时实现前述方法实施例所述的模型训练方法的步骤,所述出险率确定方法的程序被处理器执行时实现前述方法实施例所述的出险率确定方法的步骤。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种模型训练方法,其特征在于,所述方法包括:
获取多个出险率类别中每个所述出险率类别所对应的多个保单的历史保单数据及所述历史保单数据对应的出险标签,每个所述出险率类别与出险率的取值范围中的一个出险率区间对应;
针对每个出险率类别,对于保单属于各个出险率类别的概率分别建立机器学习模型;
利用EM算法对每个出险率类别对应的机器学习模型进行优化,得到每个出险率类别对应的机器学习模型,所述机器学习模型用于预测保单属于对应的出险率类别的概率。
2.根据权利要求1所述的模型训练方法,其特征在于,所述利用EM算法对每个出险率类别对应的机器学习模型进行优化,得到每个出险率类别对应的机器学习模型,包括:
针对每个出险率类别对应的机器学习模型,初始化所述机器学习模型的模型参数;
基于所述机器学习模型的模型参数,利用EM算法的E步计算关于所述模型参数的Q函数;
在EM算法的M步计算使所述Q函数最大化的模型参数;
经过所述EM算法的E步和M步的若干轮迭代,将计算得到的所述模型参数输入对应的所述机器学习模型中,得到每个出险率类别对应的机器学习模型。
3.根据权利要求2所述的模型训练方法,其特征在于,所述在EM算法的M步计算使所述Q函数最大化的模型参数,包括:
将计算使所述Q函数最大化的模型参数转化为计算使负的所述Q函数最小化的模型参数;
将负的所述Q函数确定为对应的所述机器学习模型的损失函数。
4.根据权利要求3所述的模型训练方法,其特征在于,若所述机器学习模型为神经网络模型,所述在EM算法的M步计算使所述Q函数最大化的模型参数,包括:
计算所述损失函数对所述模型参数的梯度;
利用梯度下降法对关于所述损失函数的似然函数进行最小化,得到新的模型参数。
5.根据权利要求3所述的模型训练方法,其特征在于,若所述机器学习模型为XGBoost模型,所述在EM算法的M步计算使所述Q函数最大化的模型参数,包括:
针对每个出险率类别,分别训练出险率类别对应的XGBoost模型;
其中,在XGBoost训练中的第t'步,基于Q函数定义XGBoost模型的损失函数,计算使所述损失函数最小的模型参数,所述损失函数的参数为中间参数,计算所述中间参数对所述XGBoost模型的预测输出的一阶导数及二阶导数,完成XGBoost模型的训练。
6.一种出险率确定方法,其特征在于,包括:
获取待确定出险率的保单的保单数据;
将所述保单数据输入多个如权利要求1至5任一所述的与出险率类别对应的机器学习模型,得到所述保单属于多个出险率类别的概率;
选取预测值最大的出险率类别作为预测类别;
将预测类别对应的出险率作为所述保单的出险率。
7.一种模型训练装置,其特征在于,所述装置包括:
第一获取模块,用于获取多个出险率类别中每个所述出险率类别所对应的多个保单的历史保单数据及所述历史保单数据对应的出险标签,每个所述出险率类别与出险率的取值范围中的一个出险率区间对应;
建立模块,用于针对每个出险率类别,对于保单属于各个出险率类别的概率分别建立机器学习模型;
模型优化模块,用于利用EM算法对每个出险率类别对应的机器学习模型进行优化,得到每个出险率类别对应的机器学习模型,所述机器学习模型用于预测保单属于对应的出险率类别的概率。
8.一种出险率确定装置,其特征在于,包括:
第二获取模块,用于获取待确定出险率的保单的保单数据;
输入模块,用于将所述保单数据输入多个如权利要求1至6任一所述的与出险率类别对应的机器学习模型,得到所述保单属于多个出险率类别的概率;
选取模块,用于选取预测值最大的出险率类别作为预测类别;
确定模块,用于将预测类别对应的出险率作为所述保单的出险率。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1~5任一所述的模型训练方法或者权利要求6所述的出险率确定方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有模型训练方法或者出险率确定方法的程序,所述模型训练方法的程序被处理器执行时实现权利要求1-5任一所述的模型训练方法的步骤,所述出险率确定方法的程序被处理器执行时实现权利要求6所述的出险率确定方法的步骤。
CN202011334610.7A 2020-11-24 2020-11-24 模型训练、出险率预测方法、装置、电子设备及存储介质 Active CN112381314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011334610.7A CN112381314B (zh) 2020-11-24 2020-11-24 模型训练、出险率预测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011334610.7A CN112381314B (zh) 2020-11-24 2020-11-24 模型训练、出险率预测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112381314A true CN112381314A (zh) 2021-02-19
CN112381314B CN112381314B (zh) 2024-07-16

Family

ID=74588252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011334610.7A Active CN112381314B (zh) 2020-11-24 2020-11-24 模型训练、出险率预测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112381314B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110119210A1 (en) * 2009-11-16 2011-05-19 c/o Microsoft Corporation Multiple Category Learning for Training Classifiers
KR20170034596A (ko) * 2015-09-21 2017-03-29 강원대학교산학협력단 풍수해 보험의 보험요율 산정 시스템 및 장치
CN108492197A (zh) * 2018-03-15 2018-09-04 北京百度网讯科技有限公司 保险的出险预测方法、装置及服务器
CN109359610A (zh) * 2018-10-26 2019-02-19 齐鲁工业大学 构建cnn-gb模型的方法及系统、数据特征分类方法
CN109377286A (zh) * 2018-11-07 2019-02-22 中国平安财产保险股份有限公司 基于预测模型计算保险价格的方法、装置和计算机设备
CN109543771A (zh) * 2018-12-03 2019-03-29 郑州云海信息技术有限公司 一种数据分类的方法及装置
CN109766619A (zh) * 2019-01-03 2019-05-17 深圳壹账通智能科技有限公司 保险费用确定方法、装置、介质及电子设备
CN109787976A (zh) * 2019-01-17 2019-05-21 深圳壹账通智能科技有限公司 信息更新方法、装置、计算机设备及存储介质
CN110060144A (zh) * 2019-03-18 2019-07-26 平安科技(深圳)有限公司 额度模型训练方法、额度评估方法、装置、设备及介质
WO2019149021A1 (zh) * 2018-02-01 2019-08-08 阿里巴巴集团控股有限公司 理赔业务的数据处理方法、装置、电子设备、服务器
US10380691B1 (en) * 2008-04-03 2019-08-13 United Services Automobile Association (Usaa) Location variable insurance
CN110674856A (zh) * 2019-09-12 2020-01-10 阿里巴巴集团控股有限公司 一种用于机器学习的方法和装置
CN110796513A (zh) * 2019-09-25 2020-02-14 北京三快在线科技有限公司 多任务学习方法、装置、电子设备及存储介质
US20200210899A1 (en) * 2017-11-22 2020-07-02 Alibaba Group Holding Limited Machine learning model training method and device, and electronic device
CN111881289A (zh) * 2020-06-10 2020-11-03 北京启明星辰信息安全技术有限公司 分类模型的训练方法、数据风险类别的检测方法及装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10380691B1 (en) * 2008-04-03 2019-08-13 United Services Automobile Association (Usaa) Location variable insurance
US20110119210A1 (en) * 2009-11-16 2011-05-19 c/o Microsoft Corporation Multiple Category Learning for Training Classifiers
KR20170034596A (ko) * 2015-09-21 2017-03-29 강원대학교산학협력단 풍수해 보험의 보험요율 산정 시스템 및 장치
US20200210899A1 (en) * 2017-11-22 2020-07-02 Alibaba Group Holding Limited Machine learning model training method and device, and electronic device
WO2019149021A1 (zh) * 2018-02-01 2019-08-08 阿里巴巴集团控股有限公司 理赔业务的数据处理方法、装置、电子设备、服务器
CN108492197A (zh) * 2018-03-15 2018-09-04 北京百度网讯科技有限公司 保险的出险预测方法、装置及服务器
CN109359610A (zh) * 2018-10-26 2019-02-19 齐鲁工业大学 构建cnn-gb模型的方法及系统、数据特征分类方法
CN109377286A (zh) * 2018-11-07 2019-02-22 中国平安财产保险股份有限公司 基于预测模型计算保险价格的方法、装置和计算机设备
CN109543771A (zh) * 2018-12-03 2019-03-29 郑州云海信息技术有限公司 一种数据分类的方法及装置
CN109766619A (zh) * 2019-01-03 2019-05-17 深圳壹账通智能科技有限公司 保险费用确定方法、装置、介质及电子设备
CN109787976A (zh) * 2019-01-17 2019-05-21 深圳壹账通智能科技有限公司 信息更新方法、装置、计算机设备及存储介质
CN110060144A (zh) * 2019-03-18 2019-07-26 平安科技(深圳)有限公司 额度模型训练方法、额度评估方法、装置、设备及介质
CN110674856A (zh) * 2019-09-12 2020-01-10 阿里巴巴集团控股有限公司 一种用于机器学习的方法和装置
CN110796513A (zh) * 2019-09-25 2020-02-14 北京三快在线科技有限公司 多任务学习方法、装置、电子设备及存储介质
CN111881289A (zh) * 2020-06-10 2020-11-03 北京启明星辰信息安全技术有限公司 分类模型的训练方法、数据风险类别的检测方法及装置

Also Published As

Publication number Publication date
CN112381314B (zh) 2024-07-16

Similar Documents

Publication Publication Date Title
AU2019250275B2 (en) Machine-Learning Techniques For Monotonic Neural Networks
CN110473083B (zh) 树状风险账户识别方法、装置、服务器及存储介质
CN109934697A (zh) 一种基于图结构模型的信用风险控制方法、装置以及设备
CN111738534B (zh) 多任务预测模型的训练、事件类型的预测方法及装置
CN112085615B (zh) 图神经网络的训练方法及装置
CN112541575B (zh) 图神经网络的训练方法及装置
CN112163963B (zh) 业务推荐方法、装置、计算机设备和存储介质
CN112528110A (zh) 确定实体业务属性的方法及装置
CN109726331B (zh) 对象偏好预测的方法、装置和计算机可读介质
Yu et al. Simple and effective stochastic neural networks
WO2022105108A1 (zh) 一种网络数据分类方法、装置、设备及可读存储介质
CN112256886A (zh) 图谱中的概率计算方法、装置、计算机设备及存储介质
CN111985729A (zh) 一种基于图神经网络进行预测的方法、系统和装置
CN111340244A (zh) 预测方法、训练方法、装置、服务器及介质
CN113506143A (zh) 商品折扣生成方法、装置、设备以及计算机可读存储介质
US20240161117A1 (en) Trigger-Based Electronic Fund Transfers
CN115618235A (zh) 一种推荐模型的训练方法及装置
CN112381314A (zh) 模型训练、出险率预测方法、装置、电子设备及存储介质
CN116467594A (zh) 一种推荐模型的训练方法及相关装置
Aydogan-Kilic et al. Modification of hybrid RNN-HMM model in asset pricing: univariate and multivariate cases
Hu et al. Learning mixed multinomial logits with provable guarantees
US10417699B2 (en) Systems and methods for optimal bidding in a business to business environment
CN112668703A (zh) 一种用户收入确定方法及装置
CN116151635B (zh) 一种基于多维关系图的抗风险企业决策的优化方法和装置
Luo et al. Multiperiod corporate default prediction through neural parametric family learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: Jingdong Digital Technology Holding Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant