CN115601182A - 一种基于改进型XGBoost类方法的数据分析方法、定价方法以及相关设备 - Google Patents
一种基于改进型XGBoost类方法的数据分析方法、定价方法以及相关设备 Download PDFInfo
- Publication number
- CN115601182A CN115601182A CN202110928092.XA CN202110928092A CN115601182A CN 115601182 A CN115601182 A CN 115601182A CN 202110928092 A CN202110928092 A CN 202110928092A CN 115601182 A CN115601182 A CN 115601182A
- Authority
- CN
- China
- Prior art keywords
- parameter
- xgboost
- distribution
- data analysis
- improved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0206—Price or cost determination based on market factors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Technology Law (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于改进型XGBoost类方法的数据分析方法、定价方法以及相关设备;本方案采用改进型XGBoost类算法,所述改进型XGBoost类方法对目标函数的二阶泰勒展开做修正,修改了其hi项,使得改进后的XGBoost类方法的适用性不局限于凸损失函数。本方案有效克服现有技术方案中的各种缺陷,同时还保留了现有方案的各种优点,使得XGBoost类方法的精准预测性能与传统统计方法,特别是传统非寿险定价技术结合成为可能。此外,在该改进型XGBoost类方法的基础上,进一步提出多元正则化提升树方法,可广泛应用于各种领域。
Description
技术领域
本发明涉及机器学习技术和精算技术,具体涉及机器学习方法和最优化求解算法以及相应的大数据分析方法。
背景技术
Ⅰ.纯保费测算模型。
在非寿险定价中,保险公司会对被保险人的纯保费进行测算,纯保费指被保险人的期望净赔付额。因非寿险保险期间较短,本文中的纯保费不考虑利息因素。要测算纯保费最好对损失(赔付)金额(单次出险的或保险期间内出险总和的)的概率分布做估计,而不能简单的只对损失额(赔付额)的期望值做估计。因为在补偿型保险中,一般对一次出险损失额或保险期间内的总损失的赔付有一个免赔额(或限额),只有测算出的损失额(赔付额)的概率分布,才能对免赔额(或限额)的调整使得纯保费的调整做相应的处理。有的文献或实际操作用E(Y)-d(Y是损失随机变量,d代表免费额)代替有免赔额的纯保费,是一种很粗糙的估计。明显地,当d>E(Y)时,纯保费测算居然为负,是不正确的。对有非比例再保险分出的业务,损失额(赔付额)概率分布的测算同样重要。
其中,测算总损失额(赔付额)的概率分布有两类方法:
1.直接对保险期间内总损失额(赔付额)的概率分布做估计。
2.分别对保险期间内出险次数(赔付次数)的概率分布和每次出险的损失强度(赔付强度)的概率分布分别做估计。用复合分布模型对此两种概率分布做整合得到总损失(总赔付)的概率分布。一般也有两种假设:
a.标准假设。假设此两种分布相互独立,每次出险的损失(赔付)强度服从独立同分布。
b.此两种分布有关联,或者损失(赔付)强度不服从独立同分布。
标准假设是a假设,求总损失(总赔付)的概率分布的方法有特征函数类变换法(傅里叶变换法)或随机模拟法。对b假设,由于待估参数过多,可能存在过拟合的风险,业界很少采用。一般而言,第二类方法是更精细的方法,相比第一类方法有着诸多好处。
Ⅱ.广义线性模型(GLM)。
在非寿险定价中,广义线性模型(GLM)是一种标准工具。
(1)指数分布族:
如果一个随机变量Y的概率值或概率密度可以写成 f(y;θ)=exp[a(y)b(θ)+c(θ)+d(y)],那么Y的概率分布属于指数分布族。如果a(y)=y,称为经典形式。如果该分布还有除了θ以外的参数,则被看作是麻烦参数,表达在a,b,c和d 中。著名的属于经典形式的指数分布族的离散型分布有泊松分布,二项分布,负二项分布;连续型分布有正态分布,伽马分布等。
(2)广义线性模型:
a.模型:
模型由一组独立的随机变量Y1,...,YN定义,Yi属于指数分布族,并且有如下性质:
1.每一个Yi的分布都是经典形式,取决于单一的参数θi,θi不一定全相同,即
f(yi;θi)=exp[yibi(θi)+ci(θi)+di(yi)];
2.所有Yi的分布都有相同的形式,使得b,c,d的下标是不需要的。
因此,Y1,...,YN的联合分布的概率(概率密度)是:
此外,广义加性模型作为广义线性模型的推广,可以看作是广义线性模型的一种特征工程处理方式。
b.参数估计的算法:
1.对β:当麻烦参数确定时,写出Y1,...,YN联合概率分布的对数似然函数l,用极大似然估计法求β。大多数统计软件包拟合GLM的算法是迭代加权最小二乘法(Charnes etal.1976)。一种直观的写法是b(m)=b(m-1)+[J(m-1)]-1U(m-1)。其中,b(m)是参数β的第m 次迭代估计。J和U的表达式参考相关文献。其本质是Newton-Raphson法,迭代求得使得的β值。
相较于其他算法如梯度下降法,该算法的优势在于可以求得b的统计信息,如b的方差- 协方差矩阵E[(b-β)(b-β)T]。
2.对麻烦参数:采用网格搜寻法,寻找使得第一步求得的对数似然函数值最大时的参数值,将其确定为模型的参数估计。
注:线性回归的最小二乘法即是求使得均方误差最小的β的估计。
(3)广义线性模型在非寿险定价中的运用:
主要步骤如下:
1.确定要预测分析的随机变量Yi,收集样本,对数据进行预处理。
2.选择Yi的分布类型以及连接函数的形式,根据经验进行特征工程。
3.选择算法计算β的估计值,以及β的p值(或其他的统计指标),以及分布中其余待估参数的估计值。
4.根据β的p值,或其他的统计指标或者AIC,BIC筛选合适的特征。
5.更换Yi的分布类型或连接函数的形式,重复2-4步。
6.根据AIC或BIC选择最优的分布类型以及连接函数和特征,得到β的估计值和分布中其余待估参数的估计值。
7.根据参数的估计值得到Yi的概率分布。
8.根据纯保费测算模型求得纯保费。
可见,GLM在非寿险定价中的运用存在以下缺点:
1.由于E(Yi)连接到特征的线性组合,但在现实世界中,特征对预测变量的影响未必是线性组合的连接。要想获得较好的预测效果需要较好的特征工程和对应的连接函数。
2.对Yi的概率分布的选择局限于指数分布族。
3.当特征存在多重共线性或内生性时,β的统计指标很可能会失真,需要额外的处理,并很难获得完美的效果。
4.当样本数量N小于特征数量p时,必选先做特征工程,使得特征数量(包含截距项) 不大于N,否则算法将不收敛。
5.训练时,算法不能自动合理的处理属性缺失的样本。
III.XGBoost方法。
(1)XGBoost方法:
XGBoost方法是一种极限梯度提升树方法,其预测性能优异,在很多领域都取得了非常好的成绩。
该方法的主要过程描述如下:
一个样本集D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R),有m个特征,n个样本。一个集成树模型,用K颗树函数相加得到预测结果。
其中F={f(x)=ωq(x)}(q:Rm→T,ω∈RT)是回归树空间。q表示每棵树的结构,把一个样本映射到对应的叶子结点。T是一颗树的叶子结点的个数。每个fk对应一个独立的树结构 q及其叶子权重ω。每一颗回归树的每一个叶子结点都有一个连续值得分,用ωi表示第i个叶子结点的得分。为了学习模型中的这些树函数,最小化下面的正则化目标:
l是可导凸函数,表示损失函数。Ω(fk)是正则项。
在一般情况下,为了快速优化目标函数。用二阶泰勒展开对其做近似:
最优目标函数值为:
树结构q采用贪婪算法求得,迭代的从一个单一的叶子结点开始添加分枝。
假设IL和IR表示分裂后的左右结点的样本集,I=IL∪IR。
分裂后的目标函数的减少值由下式给出:
此公式用来计算候选划分点。
类似于学习率,收缩尺度技术在每一步提升树后用一个因子η,也用来防止过拟合。此外还有列采样技术防止过拟合。
训练时,该算法可以自动合理的处理属性缺失的样本。
业界普遍认为,相比其他算法,提升树算法不需要在特征工程上花费太多精力,就能接近该方法预测性能的上限。
业界普遍认为XGBoost方法的预测性能超过著名的GBDT方法的重要原因是在目标函数中添加了正则项。
当样本数量N小于特征数量p时,可以不用做特征工程,算法依然收敛。
另外,有的开源代码还提供额外的l1正则化项:
树结构q采用贪婪算法求得,迭代的从一个单一的叶子结点开始添加分枝。
计算左右结点样本集的最优目标函数值,记录分裂的增益,作为最优划分结点的标准。
(2)XGBoost在非寿险定价中的应用:
公开的文献和技术显示,XGBoost方法在非寿险定价的应用主要是直接通过一般的损失函数如均方误差对损失(赔付)金额(单次或总和)或损失(赔付)次数进行直接预测。
可见,已有的XGBoost方法在非寿险定价的应用存在以下缺陷:
1.直接预测预测变量的取值(或均值),没有给出预测变量的概率分布(条件概率分布)。
即使是在大数据时代,非寿险损失(赔付)的金额也是随机性很强的随机变量,无法进行完美的精准预测。在一般情况下,没有获得出险额的概率分布,就不能通过纯保费测算模型对纯保费进行很好的测算。
2.实际上,用均方误差损失函数对损失(赔付)金额做预测,实际上是假设预测变量服从正态分布,原因和前文中对广义线性模型的分析类似,也可参考ChristopherM.Bishop 的著作Pattern Recognition and Machine Learning。但保险损失(赔付)金额一般都是厚尾分布,用有偏的厚尾分布去拟合效果较好。且正态分布随机变量的取值范围在整个实数域,但损失(赔付)金额随机变量的取值范围非负,所以正态分布可能不能很好的拟合损失(赔付)金额。用均方误差等传统损失函数,对预测变量的异常值比较敏感。而对损失次数的预测,假定服从泊松分布而没有其他的候选分布。但在现实世界中,损失次数随机变量往往服从比泊松分布离散度更大的分布。
以标准的正则化项为例:设γ和λ较小,可以忽略不计,则目标函数近似于损失函数.用考察损失函数代替考察目标函数不影响得到的结论。
发明内容
针对现有大数据分析预测技术所存在的问题,需要一种新的数据分析处理方案。
为此,本发明的目的在于提供一种基于改进型的XGBoost类方法的数据分析方法,由此来有效提高大数据分析预测的性能。在此基础上,本发明进一步提供基于改进型的XGBoost类方法的定价方法,有效克服现有方案所存在的缺陷。
为了达到上述目的,本发明提供的基于改进型XGBoost类方法的数据分析方法,采用改进型XGBoost类方法基于获取到的变量参数进行预测评估,所述改进型XGBoost类方法对目标函数的二阶泰勒展开做修正,通过修改其hi相关项,使得改进后的XGBoost类方法的适用性不局限于凸损失函数。
进一步地,所述改进型XGBoost类方法将XGBoost类方法从单变量预测推广到参数概率分布的多参数预测,形成多轮循环改进型XGBoost类数据分析方法。
进一步地,所述改进型XGBoost类方法将XGBoost类算法中初始迭代值设定为极大似然估计值。
进一步地,所述基于改进型的XGBoost类方法的数据分析方法以训练集的损失函数类型作为验证集和测试集的评估指标类型。
或(1)式和(2)式的各hi相关项加权平均表达。
为了达到上述目的,本发明提供一种数据分析方法,其将改进型XGBoost类方法与广义线性模型相结合,形成一种改进型XGBoost类方法的变形,实现将广义线性模型中期望参数与特征向量的线性组合的连接更变为期望参数与以特征向量为自变量的改进型XGBoost类函数连接,并且使得预测变量的概率分布类型不局限于指数分布族。
为了达到上述目的,本发明提供的定价方法,所述定价方法基于上述的数据分析方法进行非寿险精算定价。
进一步地,所述定价方法包括:
(1)首先选择要预测的随机变量,收集样本数据,包括样本属性和预测变量的观测值;
(2)对样本数据进行预处理;
(3)进行特征工程,得到更新后的样本集D={(xi,yi)};xi是第i个样本的特征向量;
(4)将样本集划分为训练集,验证集和测试集;所述训练集用来训练用于预测预测变量的学习模型,验证集用来调整超参数,测试集用来评估学习模型性能;
(5)选择预测随机变量的参数分布类型,用改进型XGBoost类方法求得预测变量的条件概率分布;
(6)在候选分布中重新选择需要拟合的分布,重复以上步骤(5),用测试集的评估指标确定最优参数分布。当对预测变量的参数分布类型有自信时,也可直接指定最优参数分布。此时,候选参数分布中只有此一种参数分布。
进一步地,所述定价方法基于改进型XGBoost类方法求得预测变量的条件概率分布,包括:
(1)从候选参数概率分布中选择某一分布,确定其参数,对同一分布可以有不同的参数化形式;
(2)将预测变量的期望值表达式作为期望参数,对该概率分布的表达式进行变形,将期望参数作为预测参数,预测参数以外的参数看作麻烦参数、超参数;如该分布表达式本身已含期望参数,则不需要变形,直接设定预测参数和超参数;
(3)确定目标函数,以该分布的负对数似然函数作为损失函数;确认该损失函数满足改进型XGBoost方法对损失函数的要求。
(4)对超参数,运用网格搜寻法或先验经验或其他具有相同功能的方法确定其值;
(5)当超参数固定时,用改进型XGBoost类算法求得预测参数的预测值;
(6)更换超参数取值,重复步骤(5),用验证集的评估指标确定最优参数预测值和最优超参数取值;从而得到预测变量的预测值和其概率分布。如果对某个超参数的取值有自信,也可直接设定唯一的超参数取值。
为了达到上述目的,本发明提供一种数据分析方法,其将改进型XGBoost类方法直接推广至多元,形成多元正则化提升树方法,所述多元正则化提升树方法对XGBoost类算法中的目标函数近似表达的二阶泰勒展开做修正,修改了其hi相关项,使得改进型XGBoost类方法的适用性不局限于凸损失函数。本方法可同时对多元损失函数中的多个变量(即考察的待估参数)进行最优化求解。
进一步地,所述多元正则化提升树方法将XGBoost类算法中初始迭代值设定为极大似然估计值。
进一步地,基于多元正则化提升树方法中以训练集的损失函数类型作为验证集和测试集的评估指标类型。
进一步地,所述多元正则化提升树方法中,设定损失函数l在讨论的范围内:(1)二阶可微或一阶可微,有且仅有一个局部极小值点;(2)选定任意的某个待估参数作为考察变量后,当其余参数固定时,有且仅有一个局部极小值点;仅在前段所述局部极小值点对待估参数偏导数为0,或者严格单调。
注:yi看作固定的参数,不看做变量或待估参数。对于待估参数的讨论范围,可以合理的自由选择。在实际运用中,合理的预测结果都不会刚好落在理论上的极端边界点。在有些时候,可以将讨论的范围区间看成是闭区间,也可以使区间的边界离理论上的边界点有一点的合理的距离。
进一步地,所述多元正则化提升树方法中目标函数的表达式为:
也可将l1正则化项额外加入到Ω中:
或(1)式和(2)式的各hi相关项加权平均表达(3);
(3)
对于近似(1),对损失函数的可微性条件可放宽至一阶可微。
为了达到上述目的,本发明提供一种定价方法,所述定价方法基于上述的数据分析方法进行精算定价。
进一步地,所述定价方法包括:
(1)首先选择要预测的随机变量,收集样本数据,包括样本属性和预测变量的观测值;
(2)对样本数据进行预处理;
(3)进行特征工程,得到更新后的样本集D={(xi,yi)};xi是第i个样本的特征向量;
(4)将样本集划分为训练集,验证集和测试集;所述训练集用来训练用于预测参数分布的待估参数的学习模型,验证集用来调整超参数,测试集用来评估学习模型性能;
(5)选择预测随机变量的参数分布类型,用多元正则化提升树方法求得预测变量的条件概率分布;
(6)在候选分布中重新选择需要拟合的分布,重复以上步骤(5),用测试集的评估指标确定最优参数分布。当对预测变量的参数分布类型有自信时,也可直接指定最优参数分布。此时,候选参数分布中只有此一种参数分布。
进一步地,所述定价方法基于多元正则化提升树方法求得预测变量的条件概率分布,包括:
(1)从候选参数概率分布中选择某一分布,确定其参数形式;对同一种分布,可以有不同的参数化形式。
(2)确定目标函数,以该分布的负对数似然函数作为损失函数。确认该损失函数满足多元正则化提升树方法对损失函数的要求。
(3)以感兴趣的待估参数作为自变量,用多元正则化提升树方法求得该分布所有参数的预测值;从而得到预测变量的具体概率分布表达式。如果有对取值比较自信的参数,可以用经验或其他方法确定其值,这些参数作为固定值不参与提升树的迭代。
本发明采用改进后的XGBoost类方法进行数据分析,有效克服现有技术方案中的各种缺陷,同时还保留了现有方案(如背景技术部分描述的方案)的各种优点。本方案在应用时,能够使得XGBoost类方法的精准预测性能与传统统计技术结合成为可能。
本发明提供的改进型XGBoost类方法的变形方案,实现将广义线性模型中期望参数与特征向量的线性组合连接更变为期望参数与以特征向量为自变量的改进型XGBoost类函数连接,并且使得预测变量的概率分布类型不局限于指数分布族。
本发明提供的基于多轮循环改进型XGBoost类方法的数据分析方法运用改进型XGBoost类方法进行循环多参数建模,进一步提高了模型的预测性能。如其在实际应用时,能与传统非寿险定价技术相结合。
本发明提供的多元正则化提升树方法,并运用该方法进行数据分析,进一步提高了大数据预测方法包括非寿险定价方法的预测性能,并提高了计算运行效率和模型的可解释性。
在上述方案的基础上,本发明进一步提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现上述数据分析方法或定价方法的步骤。
在上述方案的基础上,本发明进一步提供了一种处理器,所述处理器用于运行程序,所述程序运行时实现上述数据分析方法或定价方法的步骤。
在上述方案的基础上,本发明进一步提供了一种终端设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,所述程序代码由所述处理器加载并执行以实现上述数据分析方法或定价方法的步骤。
在上述方案的基础上,本发明进一步提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行数据分析方法或定价方法的步骤。
附图说明
以下结合附图和具体实施方式来进一步说明本发明。
图1为现有XGBoost算法中对非凸损失函数图像示例图;
图2为实例2中对损失强度的预测时非凸损失函数图像示例图;
图3为实例2中对损失次数的预测时非凸损失函数图像示例图;
图4为实例3中固定相应的参数后,l(损失函数)的示例函数图像示例图;
图5为实例4中固定相应的参数后,l(损失函数)的示例函数图像示例图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
针对现有技术所存在的缺陷,本方案对XGBoost类方法进行改进,实现将精准预测性能与传统统计技术结合,进一步提高预测性能。
这里以非寿险定价为例,本方案在应用于非寿险定价时,其可将得到的改进型XGBoost 类方法以及派生出的多元正则化提升树方法运用于非寿险定价,从而可有效克服背景技术中所阐述现有技术的缺陷,同时保留现有技术的优点。取得对非寿险定价技术中对于损失 (赔付)次数和损失(赔付)强度以及总损失金额(或总赔付金额)优异的预测性能,从而达到测算纯保费的理想效果。
实例1
本实例中通过改进XGBoost类方法以构建相应的改进型XGBoost类方法,以克服现有技术中XGBoost类方法对损失函数必须是凸函数的要求。
本实例给出的改进型XGBoost类算法中,通过对目标函数近似表达的二阶泰勒展开做修正,修改了其hi相关项,使得改进型XGBoost类方法的适用性不局限于凸损失函数。
本实例构成的改进型XGBoost类算法模型中,改进的XGBoost类算法中将预测变量的初始迭代值由设定为0,更变为极大似然估计初值。使得算法的收敛速度更快,可解释性更好。
对此,以下举例进一步说明。
如果|gi|特别大,即|gi|大于某一个足够大的正数M,
对于式(1)进行变量带入,有:
最优目标函数值为:
树结构q采用贪婪算法求得,迭代的从一个单一的叶子结点开始添加分枝。
假设IL和IR表示分裂后的左右结点的样本集,I=IL∪IR。
分裂后的目标函数的减少值由下式给出:
此公式用来计算候选划分点。
对于式(2)进行变量带入,有:
最优目标函数值为:
树结构q采用贪婪算法求得,迭代的从一个单一的叶子结点开始添加分枝。
假设IL和IR表示分裂后的左右结点的样本集,I=IL∪IR。
分裂后的目标函数的减少值由下式给出,
此公式用来计算候选划分点。
对于(3)式,其相应的算法的数学推导原理和(1),(2)式完全一样,根据中学数学求二次函数极值的方法推导如下:
进行变量代入,有
最优目标函数值为:
树结构q采用贪婪算法求得,迭代的从一个单一的叶子结点开始添加分枝。
假设IL和IR表示分裂后的左右结点的样本集,I=IL∪IR。
分裂后的目标函数的减少值由下式给出,
此公式用来计算候选划分点。
此外,对于开源代码添加额外的l1正则化项,改进型Xgboost类方法可同样添加,原理与此开源代码相同。
注意到(1),(2)两式是(3)式的特殊情况,以(3)式为例做一个总体说明:
其中,β≥0.
树结构q采用贪婪算法求得,迭代的从一个单一的叶子结点开始添加分枝。
计算左右结点样本集的最优目标函数值,记录分裂的增益,作为最优划分结点的标准。
在此基础上,本改进型XGBoost类方法的其它构成技术方案可采用现有XGBoost类算法中相应的构成方案,此处不加以赘述。
其中,M可看作先验经验设定,也可当做超参数处理。
优选地,预测随机变量的极大似然估计值可作为预测变量的初始迭代值,以提高算法的收敛速度和方法模型的可解释性。
实例2
本实例中利用实例1中形成的改进型XGBoost类方法与广义线性模型相结合,形成一种改进型XGBoost类方法的变形;所述改进型XGBoost类方法的变形将广义线性模型中期望参数与特征向量的线性组合连接更变为期望参数与以特征向量为自变量的改进型XGBoost类函数连接,并且使得预测变量的概率分布类型不局限于指数分布族。
其实质是在独立性假设下,将负对数似然函数作为损失函数,并将均值参数作为XGBoost类方法的待估参数。
本实例中利用所述改进型XGBoost类方法改进非寿险定价中求损失(赔付)强度或损失(赔付)次数的概率分布的方法。
据此,本实例利用改进型XGBoost类方法改进非寿险定价中求损失(赔付)强度或损失(赔付)次数的概率分布的过程主要包括如下步骤:
(1)首先选择要预测的随机变量,如损失次数随机变量或损失强度随机变量。收集样本数据,包括样本属性和预测变量的观测值。以车险的单次损失金额为例,样本属性可能包括车型,已开里程数,车价,车主年龄,上一年的理赔情况,交通违法记录等等,预测变量的观测值为在保险期间内出险的单次损失金额。
(2)对样本数据进行预处理,包括处理异常值等。
(3)进行特征工程,得到更新后的样本集D={(xi,yi)}。xi是第i个样本的特征向量。
(4)将样本集划分为训练集,验证集和测试集。训练集用来训练模型,该模型为对要预测的变量做出预测的学习模型,验证集用来调整超参数,测试集用来评估模型性能。如可用留出法,kfold交叉验证法等。
(5)在候选参数分布中选择预测随机变量的参数分布类型,用实例1中形成的改进型 XGBoost类方法来求得预测变量的条件概率分布。
(6)在候选分布中重新选择需要拟合的分布,重复以上步骤步骤(5),用测试集的评估指标确定最优参数分布。若候选分布中只是一种分布,则不用再次选择。
本实例中采用改进型XGBoost类方法来求得预测变量的条件概率分布的过程包括:
(5.1)从候选参数概率分布中选择某一分布,确定其参数。
本步骤中,将该分布的期望表达式代入该参数分布,以其期望表达式作为该概率分布的参数,即期望参数,进一步以期望参数作为改进型的XGBoost类方法的待估预测变量;如该分布表达式本身已含期望参数,则不需要变形,直接设定预测参数和超参数。
需要说明的是,同广义线性模型类似,对期望参数也可添加不同的连接,如对期望参数添加一个对数连接。添加连接相当于不同的参数化形式,无论何种参数化形式都有相应的损失函数,只要满足方法的条件就能适用。
(5.2)将其余参数看作麻烦参数、超参数,运用网格搜寻法或先验经验或其他方法确定其值;
(5.3)当超参数固定时,用的改进型XGBoost类算法来求得期望参数的预测值。
(5.4)更换超参数取值,重复步骤(5.3),用验证集的评估指标确定最优参数预测值和最优超参数取值;从而得到预测变量的预测值和其具体概率分布表达式。对有些确定取值的超参数,可用其他方法比如经验确定其值,不用更换其值。
其原理和广义线性模型的原理类似,不同之处在于广义线性模型将预测变量的期望连接到线性组合模型,而本方法将待估预测变量的期望连接到改进型XGBoost类提升树模型。从而使得改进型XGBoost类方法能结合广义线性模型方法和XGBoost类方法的优点,克服各自的缺点。
在此基础上,本实例针对该改进型XGBoost类方法,增加一种评估指标的方法,用训练集的损失函数作为验证集和测试集的评估指标,使得损失函数和评估指标完美统一。当目标函数可最优求解时,用预测变量概率分布的对数似然函数或其相反数作为评估指标符合统计原理惯例。
以留出法为例,具体求得预测变量的条件概率分布方法如下:
根据经验从候选参数分布中选择预测随机变量Y的分布类型。
本实例中假定要分析的随机变量Yi(i=1,...,n,n为集合内的样本数量)服从同一类型的参数分布,并且有如下性质:
Yi相互独立(以各自的特征和参数条件独立)。
将Yi概率值或概率密度写成f(yi;μi,θ)的形式(如果Yi是离散型,则f(yi;μi,θ)代表其概率值;如果Yi是连续型,则f(yi;μi,θ)代表其概率密度),
(μi,θ是该分布的参数,θ是除了μi以外的参数,如果θ存在)。
当θ已知时,通过改进型XGBoost类方法对训练集做训练,
以上过程得到μi的估计值。
在此技术基础上,举例如下:
(a)对于损失(赔付)强度的预测:
定义:
缩放分布:如果一个随机变量服从某个参数分布,该随机变量乘以某个正常数形成新的随机变量,新随机变量依然服从该参数分布。该参数分布称为缩放分布。
缩放参数:一个随机变量服从某个缩放分布,可能的取值范围非负,一个缩放分布的某个参数满足如下两个条件称为缩放参数:该随机变量乘以某个正常数形成新的随机变量,新的缩放分布的缩放参数同样乘以该正常数。新缩放分布的其余参数不变。
这里以例子(1)来说明对于损失(赔付)强度的预测。
例1:
伽马分布是一个厚尾的缩放分布,β是缩放参数,其概率密度函数如下:
将此概率密度函数写成f(y;μ,θ)的形式:
假设所要分析的损失(赔付)强度随机变量Yi服从伽马分布, Yi相互独立(以各自特征和参数的条件独立)。其概率密度函数为
训练集的损失函数为
如果α和超参数的取值确定,运用改进型XGBoost类方法,就能求得初始目标函数的预测最小值,预测变量的预测值,相应的损失函数取值以及损失(赔付)强度的条件概率分布。
对于损失(赔付)次数的预测:
以一个例子(2)说明。
例2:
设Y服从退化后的0分布和泊松分布的混合分布,其概率分布如下:
该分布属于(a,b,1)类,不属于指数分布族。μ=E(Y)=αλ。
假设保险期间内损失(赔付)次数Yi服从该分布。Yi相互独立。其概率分布函数为:
如果α和超参数的取值确定,运用改进型XGBoost类方法,就能求得初始目标函数的预测最小值,预测变量的预测值,相应的损失函数取值以及损失(赔付)次数的条件概率分布。
如果得到θ的估计值,就能得到预测随机变量的条件概率分布。
对于评估指标的选择,可以使用均方误差等传统指标(对损失金额的预测问题),但最好使评估指标与损失函数相统一。
可选的,如果采用传统评估指标,则采用以下步骤:
可使用网格搜寻法等方法对θ在可能的取值范围搜寻,
举例如下:
对于损失强度预测的前例,可令s=lnα,α=exp(s),对s进行网格搜索以提高计算效率,当α达到一个很大的值后,比如100,停止搜索,α的搜索范围是区间(0,100],如能减少网格搜索次数,使得运算时间减少,从而有效提高搜索效率。
利用验证集的评估指标选择超参数的取值,并确定最优模型结构。获得的取值和超参数取值以及改进型XGBoost类方法预测模型结构后,合并训练集和验证集作为新的训练集,用该模型结构设定重新训练模型,得到更新后的模型和模型参数。用更新后的模型对测试集的样本做预测,得到模型在测试集上的评估指标取值。选择其他可能的参数分布,重复之前步骤重新建模,但测试集不改变,得到新的评估指标取值。重复此步,直到对所有可能合适的参数分布都进行建模。比较对应的评估指标取值,选择评估值最好的一个或几个模型作为预测模型。保留模型结构设置,用所有样本数据(包括测试集)重新训练更新模型,得到最终的预测模型。
作为优选方案,可使用验证集和测试集上的对数似然函数的相反数作为对应的评估指标,n是样本对应集合的样本数量。由于θ是未知参数。而超参数γ和λ需要通过网格搜寻法等方法在验证集上寻找最优值。此时,将θ看作麻烦参数、超参数处理,用网格搜寻法等方法寻找使得验证集上损失函数最小的作为θ的估计值。对于验证集和测试集的预测值即为XGBoost类方法模型的函数预测值,其预测模型函数具有和由训练集训练出的XGBoost函数完全相同的结构和参数,包括超参数和初始迭代值。
在此基础上,再利用验证集的评估指标选择超参数和的取值,并确定最优模型结构。获得的取值和超参数取值以及模型结构后,合并训练集和验证集作为新的训练集,用该模型结构设定重新训练模型,得到更新后的模型和模型参数。用更新后的模型对测试集的样本做预测,得到模型在测试集上的评估指标取值。选择其他可能的参数分布,重复之前步骤重新建模,但测试集不改变,得到新的评估指标取值。重复此步,直到对所有可能合适的参数分布都进行建模。比较对应的评估指标取值,选择评估值最好的一个或几个模型作为预测模型。保留模型结构设置,用所有样本数据(包括测试集)重新训练更新模型,得到最终的预测模型。
以上符号含义同背景技术的介绍。
可选的,对求的网格搜寻法可采用多轮搜寻,每轮搜寻缩小范围和步长以提高精度。当达到一定精度时,为了提高计算效率,可以固定住训练好的不再训练树模型,直接用损失函数(针对优选的评估指标)或目标函数(针对传统均方误差评估指标)做评价,用网格搜寻法等方法求得更精确的取值。
可采用不同的特征工程方案,重复以上步骤,利用验证集的评估指标评估方案的优劣。在上述方案的基础上,本实例在求得损失(赔付)次数和损失(赔付)强度的条件概率分布后,运用纯保费测算模型求得纯保费,总损失额概率分布,总赔付额概率分布等非寿险定价要素。
实例3
本实例构成的改进型XGBoost类方法中,还可进一步将改进型XGBoost类方法从单变量预测推广到参数随机分布的多参数预测,形成多轮循环改进型XGBoost类数据分析方法,从而实现对预测随机变量常见的参数概率分布的所有参数的提升树方法预测。
本实例中,利用改进型XGBoost类方法模型,对预测随机变量Yi多轮循环建模,可提高预测性能。
这里的随机变量Yi指损失(赔付)强度或保险期间内损失(赔付)次数的随机变量。
具体地,本实例可针对实例2的方案进一步扩展。当求得μi和麻烦参数的估计值θ1,...θl(l是麻烦参数的个数)后,
(1)将μi和θ2,...θn的估计值当做固定参数,损失函数为相应的l(yi,μi,θ1,i,θ2...,θl),如果l(yi,μi,θ1,i,...,θl)对任意的yi,μi,θ2,...θl取值都对θ1,i二阶可偏导(或对应的一阶可偏导);有且仅有一个局部极小值点并且仅在该点导数为0,或者严格单调。将θ1,i作为预测变量,利用改进型XGBoost类方法对θ1,i做预测建模,得到θ1,i的预测值
将θ2,i作为预测变量,利用XGBoost方法对θ2,i做预测建模,得到θ2,i的预测值:
(3)重复以上步骤,求得θ3i,...,θni的预测值。
说明:XGBoost类方法的正则项可以使得各叶子结点的得分不至于差异过大。
举例如下:
接实例2中的例子(1)
当运用改进后的XGBoost方法求得μi和α的估计值后,固定每一个μi,将α视作预测变量,损失函数为
(5)重复第4步,直到验证集的评估指标收敛。保留以上每步的模型,用测试集选出最优的概率分布和参数结构。
关于验证集评估指标的选择,如果采用传统的评估指标如均方误差,则验证过程与步骤(2)一致。如果采用验证集上负对数似然函数做评估指标,对于预测变量为θj,i的模型,则负对数似然函数的固定参数为yi,μi,θj+1,...,θi,i=1,2,..,n,n是验证集样本的个数。μi,分别为训练得到的改进型XGBoost类模型预测函数值
可选的,将测试集划出一部分样本作为第2次验证集(也可将全体样本重新划分为训练集,第1次验证集,第2次验证集和测试集),用来验证初始预测变量Yi的某种概率分布在各种参数结构下(不同的循环轮次和不同的参数迭代次数有不同的概率分布参数结构)的预测性能,即以上每次迭代过程得到的模型的拟合效果。用测试集去评估该概率分布的拟合效果。如此划分2个验证集可尽量避免过拟合。
实例4
本实例在改进型XGBoost类方法方案的基础上,进一步给出多元正则化提升树方案。
本实例将改进型XGBoost类方法推广到预测多个待估参数,用一个算法模型同时预测参数概率分布的多个待估参数,如此可增加模型的预测性能并提高运算效率和可解释性。
具体的,本实例中将预测变量的初始迭代值设定为极大似然估计值,使得算法的解释性更好,收敛速度更快。
针对该改进型XGBoost类方法,增加一种评估指标的方法,用训练集的损失函数作为验证集和测试集的评估指标函数,使得损失函数和评估指标函数完美统一。当目标函数可最优求解时,用预测变量概率分布的对数似然函数或其相反数作为评估指标函数符合统计原理惯例。
假设在讨论范围内,二阶可微,有且仅有一个局部极小值点;如采用下文中目标函数的近似表达式(1),对损失函数l的要求可放宽至一阶可微,有且仅有一个局部极小值点;
选定任意的某个待估参数后,当其余参数固定时,有且仅有一个局部极小值点;
仅在前段所述局部极小值点对待估参数偏导数为0,或者严格单调。
注:yi是观测值,看作固定的参数,不看做变量或待估参数。对于待估参数的讨论范围,可以合理的自由选择。在实际运用中,合理的预测结果都不会刚好落在理论上的极端边界点。在有些时候,可以将讨论的范围区间看成是闭区间,也可以使区间的边界离理论上的边界点有一点的合理的距离。
其中F={f(x)=ωq(x)}(q:Rm→T,ω∈RT)是回归树空间。q表示每棵树的结构,把一个样本映射到对应的叶子结点。T是一颗树的叶子结点的个数。每个对应一个独立的树结构q及其叶子权重ω。为了学习模型中的这些树函数,最小化下面的正则化目标:
(1)
(2)
类似于改进型XGBoost方法对第t次迭代目标函数的近似表达,对于(1)和(2)式的各hi相关项某种加权平均(线性组合)也可看作近似公式的一种变形:
(3)
本多元正则化提升树方法不局限于某hi不恒为非负的情形,当所有的hi恒为非负时也适用,此时,近似表达式(2)在形式上化简为:
每一轮训练同时最多训练l颗树,每棵树有独自的超参数。
对每一个待估参数θj,都有一个学习速率ηj和训练轮数Kj以及超参数Mj。
对于确定性比较强的待估参数,可以单独设定较少的训练轮数K。优选方案是,设置迭代轮数间隔,使其总训练轮数减少。
待估参数θj的初始迭代值可用训练集的极大似然估计(不考虑xi)求得。
以非寿险定价为例,改进解决实例2方案中第5步中求得预测变量的条件概率分布。选择合适的参数概率分布,在独立性假设下,用其负对数使然函数作损失函数当损失函数满足相应条件时,可继续,否则需要从候选分布中更换拟合分布或更换参数形式。假定某损失函数l在计论的范围内:二阶可微,有且仅有一个局部极小值点;如采用近似表达式(1),对损失函数l的要求可放宽至一阶可微,有且仅有一个局部极小值点;选定任意的某个待估参数后,当其余参数固定时,有且仅有一个局部极小值点;仅在前段所述局部极小值点对待估参数偏导数为0,或者严格单调。
以一个例子(3)说明。
例3:
假设保险期间内损失次数Yi服从负二项分布,作为预测变量。Yi相互独立。其概率分布函数的一种经典形式为:
对待估参数βi,γi可以设置任意的合理的讨论范围,一种方法是设定βi∈[ε1,M1],γi∈[ε2,M2],ε1,ε2是足够小的正数,M1,M2是足够大的正数。
仅在前段所述局部极小值点对待估参数偏导数为0,或者严格单调。
满足多元正则化提升树方法对损失函数的要求。
可以用多元正则化提升树方法求得预测变量Yi的具体条件概率分布。
但当固定住yi和γi后该损失函数未必是βi的凸函数。
举例说明如下:
当yi=0,γi=1时,损失函数l是βi的凹函数,其函数图像如图5所示。
以留出法为例,对模型的各项超参数进行网格搜寻或其他方法确定其值,使得验证集的评估指标最小,得到模型结构和提升树模型内的参数取值以及最优超参数值。
以上建模过程,可采用不同的特征工程方案。合并训练集和验证集,用学得的超参数,重新训练模型。更换预测变量的候选概率分布类型,重复建模训练。对测试集运用学得的模型做预测,选择一种或几种评估指标最小的概率分布及对应的预测模型作为最优模型。合并所有样本集,用学得的超参数,重新训练模型,得到最终模型并投入生产。优选评估指标为负对数似然函数。
由于LightGBM方法,CatBoost方法等方法与XGBoost方法非常相似,本专利对XGBoost 类方法的改进指对所有类似XGBoost方法的方法的改进,如著名的LightGBM方法和 CatBoost方法。
对于改进型XGBoost类方法,多轮循环XGBoost类方法,多元正则化提升树方法,在实际应用时,只要求解满足损失函数条件的目标函数最小化的最优化问题或求解满足损失函数条件的参数概率分布的各参数的极大似然估计(对不同样本特征的各样本点的条件极大似然估计),就可以运用,不仅仅适用于非寿险定价,可广泛应用于各种领域。
本发明实施例还提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现上述实例1-实例4中任意一种或多种方案的步骤。
本发明实施例还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述实例1-实例4中任意一种或多种方案的步骤。
本发明实施例还提供了一种终端设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,所述程序代码由所述处理器加载并执行以实现上述实例1-实例4 中任意一种或多种方案的步骤。
本发明还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行上述实例1-实例4中任意一种或多种方案的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (23)
1.基于改进型XGBoost类方法的数据分析方法,其特征在于,采用改进型XGBoost类方法基于获取到的变量参数进行预测评估,所述改进型XGBoost类方法对XGBoost类算法中的目标函数近似表达的二阶泰勒展开做修正,当其hi不恒为非负时,通过修改其hi相关项,使得改进型XGBoost类方法的适用性不局限于凸损失函数。
2.根据权利要求1所述的基于改进型XGBoost类方法的数据分析方法,其特征在于,所述改进型XGBoost类方法将XGBoost类方法从单变量预测推广到参数分布的多参数预测,形成多轮循环改进型XGBoost类数据分析方法。
3.根据权利要求1所述的基于改进型XGBoost类方法的数据分析方法,其特征在于,所述改进型XGBoost类方法将XGBoost类算法中预测变量的初始迭代值设置为极大似然估计值。
4.根据权利要求1所述的基于改进型XGBoost类方法的数据分析方法,其特征在于,所述基于改进型XGBoost类方法的数据分析方法中以训练集的损失函数类型作为验证集和测试集的评估指标类型。
7.根据权利要求1所述的基于改进型XGBoost类方法的数据分析方法,其特征在于,将改进型XGBoost类方法与广义线性模型相结合,将广义线性模型中期望参数与特征向量的线性组合的连接更变为期望参数与以特征向量为自变量的改进型XGBoost类函数的连接,并且使得预测变量的概率分布类型不局限于指数分布族。
8.一种定价方法,其特征在于,所述定价方法基于权利要求1-7中任一项所述的数据分析方法进行精算定价。
9.根据权利要求8所述的定价方法,其特征在于,所述定价方法包括:
(1)首先选择要预测的随机变量,收集样本数据,包括样本属性和预测变量的观测值;
(2)对样本数据进行预处理;
(3)进行特征工程,得到更新后的样本集D={(xi,yi)};xi是第i个样本的特征向量;
(4)将样本集划分为训练集,验证集和测试集;所述训练集用来训练用于预测预测变量的学习模型,验证集用来调整超参数,测试集用来评估学习模型性能;
(5)选择预测随机变量的参数分布类型,用改进型XGBoost类方法求得预测变量的条件概率分布;
(6)在候选分布中重新选择需要拟合的分布,重复以上步骤(5),用测试集的评估指标确定最优参数分布。
10.根据权利要求9所述的定价方法,其特征在于,所述定价方法基于改进型XGBoost类方法求得预测变量的条件概率分布,包括。
(1)从候选参数概率分布中选择某一分布,确定其参数;
(2)将预测变量的期望值表达式作为期望参数,对该概率分布的表达式进行变形,将期望参数作为预测参数,预测参数以外的参数看作麻烦参数、超参数;如该分布表达式本身已含期望参数,则不需要变形,直接设定预测参数和超参数;
(3)确定目标函数,以该分布的负对数似然函数作为损失函数;
(4)对超参数确定其值;
(5)当超参数固定时,用改进型XGBoost类算法求得预测参数的预测值;
(6)更换超参数取值,重复步骤(5),用验证集的评估指标确定最优参数预测值和最优超参数取值;从而得到预测变量的预测值和其具体概率分布表达式。
11.一种数据分析方法,其特征在于,形成改进型XGBoost类方法,并直接推广至多元,形成多元正则化提升树方法,所述多元正则化提升树方法对XGBoost类方法中的目标函数近似表达的二阶泰勒展开做修正,修改其h;相关项,使得多元正则化提升树方法的适用性不局限于凸损失函数,并在算法层面同时最优化求解多元目标函数的多个变量。
12.根据权利要求11所述的数据分析方法,其特征在于,所述多元正则化提升树方法的初始迭代值设定为极大似然估计值。
13.根据权利要求11所述的数据分析方法,其特征在于,基于多元正则化提升树方法的数据分析方法中以训练集的损失函数类型作为验证集和测试集的评估指标类型。
14.根据权利要求11所述的数据分析方法,其特征在于,所述多元正则化提升树方法中,设定损失函数l在讨论的范围内:(1)二阶可微,有且仅有一个局部极小值点;或一阶可微,有且仅有一个局部极小值点;(2)选定任意的某个待估参数作为考察变量后,当其余参数固定时,有且仅有一个局部极小值点;
仅在前段所述局部极小值点对考察变量的偏导数为0,或者严格单调。
17.一种定价方法,其特征在于,所述定价方法基于权利要求11-16项中任一项所述的数据分析方法进行精算定价。
18.根据权利要求17所述的定价方法,其特征在于,所述定价方法包括:
(1)首先选择要预测的随机变量,收集样本数据,包括样本属性和预测变量的观测值;
(2)对样本数据进行预处理;
(3)进行特征工程,得到更新后的样本集D={(xi,yi)};xi是第i个样本的特征向量;
(4)将样本集划分为训练集,验证集和测试集;所述训练集用来训练用于预测参数分布的待估参数的学习模型,验证集用来调整超参数,测试集用来评估学习模型性能;
(5)选择预测随机变量的参数分布类型,用多元正则化提升树方法求得预测变量的条件概率分布;
(6)在候选分布中重新选择需要拟合的分布,重复以上步骤(5),用测试集的评估指标确定最优参数分布。
19.根据权利要求18所述的定价方法,其特征在于,所述定价方法基于多元正则化提升树方法求得预测变量的条件概率分布,包括:
(1)从候选参数概率分布中选择某一分布,确定其参数形式;
(2)确定目标函数,以该分布的负对数似然函数作为损失函数。
(3)用多元正则化提升树方法求得该分布所有参数的预测值;从而得到预测变量的具体概率分布表达式。
20.一种计算机可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时实现权利要求1-7中任一项或权利要求11-16中任一项所述数据分析方法或权利要求8-10中任一项或权利要求17-19中任一项所述定价方法的步骤。
21.一种处理器,所述处理器用于运行程序,其特征在于,所述程序运行时实现权利要求1-7中任一项或权利要求11-16中任一项所述数据分析方法或权利要求8-10中任一项或权利要求17-19中任一项所述定价方法的的步骤。
22.一种终端设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述程序代码由所述处理器加载并执行以实现权利要求1-7中任一项或权利要求11-16中任一项所述数据分析方法或权利要求8-10中任一项或权利要求17-19中任一项所述定价方法的步骤。
23.一种计算机程序产品,其特征在于,当在数据处理设备上执行时,适于执行权利要求1-7中任一项或权利要求11-16中任一项所述数据分析方法或权利要求8-10中任一项或权利要求17-19中任一项所述定价方法的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110781586X | 2021-07-09 | ||
CN202110781586 | 2021-07-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115601182A true CN115601182A (zh) | 2023-01-13 |
Family
ID=84801333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110928092.XA Pending CN115601182A (zh) | 2021-07-09 | 2021-08-14 | 一种基于改进型XGBoost类方法的数据分析方法、定价方法以及相关设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115601182A (zh) |
WO (1) | WO2023280316A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116451034A (zh) * | 2023-03-30 | 2023-07-18 | 重庆大学 | 基于xgboost算法的压力源与水质关系的分析方法及系统 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116402252A (zh) * | 2023-03-30 | 2023-07-07 | 重庆市生态环境大数据应用中心 | 用于水污染防治的智能分析决策方法及系统 |
CN116595872B (zh) * | 2023-05-12 | 2024-02-02 | 西咸新区大熊星座智能科技有限公司 | 基于多目标学习算法的焊接参数自适应预测方法 |
CN116628970A (zh) * | 2023-05-18 | 2023-08-22 | 浙江大学 | 基于数据挖掘的航天薄壁件旋压成型工艺参数优化方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536650B (zh) * | 2018-04-03 | 2022-04-26 | 北京京东尚科信息技术有限公司 | 生成梯度提升树模型的方法和装置 |
CN108777674B (zh) * | 2018-04-24 | 2021-02-26 | 东南大学 | 一种基于多特征融合的钓鱼网站检测方法 |
WO2020247949A1 (en) * | 2019-06-07 | 2020-12-10 | The Regents Of The University Of California | General form of the tree alternating optimization (tao) for learning decision trees |
CN112821420B (zh) * | 2021-01-26 | 2022-06-14 | 湖南大学 | 一种基于XGBoost的ASFR模型中动态阻尼因子、多维频率指标的预测方法及系统 |
-
2021
- 2021-08-14 CN CN202110928092.XA patent/CN115601182A/zh active Pending
-
2022
- 2022-07-08 WO PCT/CN2022/104694 patent/WO2023280316A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116451034A (zh) * | 2023-03-30 | 2023-07-18 | 重庆大学 | 基于xgboost算法的压力源与水质关系的分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2023280316A1 (zh) | 2023-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115601182A (zh) | 一种基于改进型XGBoost类方法的数据分析方法、定价方法以及相关设备 | |
WO2021007812A1 (zh) | 一种深度神经网络超参数优化方法、电子设备及存储介质 | |
CN111127364B (zh) | 图像数据增强策略选择方法及人脸识别图像数据增强方法 | |
Valero-Carreras et al. | Support vector frontiers: A new approach for estimating production functions through support vector machines | |
US20230306505A1 (en) | Extending finite rank deep kernel learning to forecasting over long time horizons | |
Wild et al. | Connections and equivalences between the nystr\" om method and sparse variational gaussian processes | |
CN114740726B (zh) | 基于深度最优特征传输的工业过程小样本故障诊断方法 | |
CN114512191A (zh) | 一种基于迁移成分分析的青霉素浓度预测方法 | |
Cocucci et al. | Model error covariance estimation in particle and ensemble Kalman filters using an online expectation–maximization algorithm | |
Moins et al. | Reparameterization of extreme value framework for improved Bayesian workflow | |
Basturk et al. | The R package MitISEM: Efficient and robust simulation procedures for Bayesian inference | |
Wang et al. | Smooth nested simulation: Bridging cubic and square root convergence rates in high dimensions | |
Zhang et al. | Functional additive quantile regression | |
Courbariaux et al. | Post-processing multiensemble temperature and precipitation forecasts through an exchangeable normal-gamma model and its Tobit extension | |
Ghosh et al. | Robust adaptive variable selection in ultra-high dimensional linear regression models | |
CN113656707A (zh) | 一种理财产品推荐方法、系统、存储介质及设备 | |
da Silva et al. | Prior specification via prior predictive matching: Poisson matrix factorization and beyond | |
Gao et al. | Lazy Estimation of Variable Importance for Large Neural Networks | |
CN113723707A (zh) | 一种基于深度学习模型的中长期径流趋势预测方法 | |
CN113344245A (zh) | 混合深度学习短期预测模型、方法、存储介质和计算设备 | |
Zhang et al. | Stochastic modified equations and dynamics of dropout algorithm | |
CN113282705B (zh) | 一种能够自动更新的案件预判智能体训练方法及系统 | |
Zhang et al. | Identification and estimation in a correlated random coefficients transformation model | |
Gustafsson et al. | Bayesian optimization of hyperparameters from noisy marginal likelihood estimates | |
Hoogerheide et al. | A class of adaptive EM-based importance sampling algorithms for efficient and robust posterior and predictive simulation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |