CN115578205A - 一种基于glm及机器学习算法的车险纯风险保费预测方法及装置 - Google Patents

一种基于glm及机器学习算法的车险纯风险保费预测方法及装置 Download PDF

Info

Publication number
CN115578205A
CN115578205A CN202211158490.9A CN202211158490A CN115578205A CN 115578205 A CN115578205 A CN 115578205A CN 202211158490 A CN202211158490 A CN 202211158490A CN 115578205 A CN115578205 A CN 115578205A
Authority
CN
China
Prior art keywords
model
data
glm
risk premium
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211158490.9A
Other languages
English (en)
Inventor
赵昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Qihuang Information Technology Co ltd
Original Assignee
Shanghai Qihuang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Qihuang Information Technology Co ltd filed Critical Shanghai Qihuang Information Technology Co ltd
Priority to CN202211158490.9A priority Critical patent/CN115578205A/zh
Publication of CN115578205A publication Critical patent/CN115578205A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Game Theory and Decision Science (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Operations Research (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Technology Law (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种基于GLM及机器学习算法的车险纯风险保费预测方法及装置,包括:采集第一建模因子的第一定价数据形成第一模型样本集,使用第一模型样本集拟合第一层GLM模型,计算预测结果残差;在第一定价数据的基础上,采集第二建模因子;将第二建模因子的定价数据关联至第一定价数据,形成第二定价数据,并将第二定价数据作为第二模型样本集,将第二模型样本集进行处理后拟合第二层XGBoost残差模型,并将残差的预测结果进行切分,切分后的每组数据作为梯度提升分因子;将梯度提升分因子、第三定价数据作为第三模型样本集拟合第三层GLM模型,计算并输出纯风险保费预测值。本发明结合了传统的GML模型与XGBoost模型,具有可解释性、可控性、预测性能更强的优点。

Description

一种基于GLM及机器学习算法的车险纯风险保费预测方法及 装置
技术领域
本发明涉及数据处理领域,特别涉及一种基于GLM及机器学习算法的车险纯风险保费预测方法及装置。
背景技术
车险精算定价模型是保险公司管理和控制承保风险最重要的工具。在车险业务实际应用中,对精算定价模型的要求有两个:一是预测的准确性,二是模型的可解释性与可控性。在当前落地应用的模型中,这两者很难兼顾。
传统车险精算定价采用以广义线性模型(GLM)为主的概率统计模型。传统GLM模型可解释性强、可控性高,可以为业务实践提供足够的安全感。然而,由于传统GLM模型只能拟合因子和目标间的线性关系,无法获取非线性的部分和因子间的交互对目标的影响,因此往往预测准确性有限。
随着人工智能、机器学习算法的兴起,保险领域也开始使用各种机器学习模型来预测纯风险保费。机器学习模型有强大的非线性表达能力,非寿险精算定价相关研究已经证明机器学习算法可以显著提升车险精算定价模型的预测准确性。然而,由于机器学习算法的可解释性和可控性远低于传统GLM模型,尽管有着卓越的预测性能,这些模型却始终难以落地。
发明内容
本发明的目的是提供一种达到既具有可解释性与可控性,又能达到较好的预测效果的基于GLM及机器学习算法的车险纯风险保费预测方法及装置。
为了实现上述目的,本申请实施例采用如下技术方案:
第一方面,本申请实施例提供了一种基于GLM及机器学习算法的车险纯风险保费预测方法,包括:
步骤S1:采集第一建模因子的第一定价数据形成第一模型样本集,使用所述第一模型样本集拟合第一层GLM模型,计算预测结果残差;
步骤S2:在所述第一定价数据的基础上,采集第二建模因子;将所述第二建模因子的定价数据关联至所述第一定价数据,形成第二定价数据,并将第二定价数据作为第二模型样本集,将所述第二模型样本集进行处理后拟合第二层XGBoost残差模型,并将残差的预测结果进行切分,切分后的每组数据作为梯度提升分因子;
步骤S3:将所述梯度提升分因子、第三定价数据作为第三模型样本集拟合第三层GLM模型,计算并输出纯风险保费预测值。
具体的,所述步骤S1包括:
S11:采集第一建模因子的第一定价数据和对应的第一纯风险保费形成第一模型样本集;其中所述第一建模因子包含从车信息、从人信息、平台信息、保单信息;
S12:对所述第一模型样本集进行预处理,生成符合GLM模型要求的第一样本数据;
S13:使用所述第一样本数据拟合第一层GLM模型;
S14:在第一层GLM模型中输入所述第一定价数据,处理后,输出第一纯风险保费预测值;
S15:通过所述纯风险保费预测值计算预测结果残差;所述第一预测结果残差=纯风险保费实际值-纯风险保费预测值。
具体的,所述步骤S2包括:
S21:在所述第一定价数据的基础上,采集第二建模因子;将所述第二建模因子的定价数据关联至所述第一定价数据,形成第二定价数据,并将第二定价数据作为第二模型样本集;其中第二建模因子包含从车信息、从人信息、平台信息、保单信息、高维从车信息;
S22:对所述第二模型样本集进行预处理,生成符合XGBoost残差模型的第二样本数据;
S23:使用分层随机抽样的方法将所述第二定价数据与第一预测结果残差划分为训练集、验证集和测试集;所述训练集、验证集和测试集划分比例为6:2:2;
S24:使用所述训练集数据拟合XGBoost残差模型,使用所述验证集数据调整XGBoost残差模型训练过程中的超参,使用所述测试集数据测试训练完毕的XGBoost残差模型预测准确性;
S25:使用步骤S33拟合的第二层XGBoost残差模型对纯风险保费残差进行预测,再第二层XGBoost残差模型中输入所述第二定价数据,处理后,输出第二纯风险保费残差预测值;
S26:对所述第二纯风险保费残差预测值进行排序,将排序后的第二纯风险保费残差预测值按照N等分进行切分,并将切分后的每组第二纯风险保费残差预测值依序赋予1到N的值,作为新的风险因子标签——梯度提升分。
具体的,所述步骤S3包括:
S31:将梯度提升分因子加入至第一层GLM模型建模因子中,构成第三层GLM模型入模风险因子列表,并采集所述第三建模因子的第三定价数据与对应的第三纯风险保费,形成第三样本集;所述第三建模因子包含从车信息、从人信息、平台信息、保单信息、风险因子标签;
S32:使用第三样本集拟合第三层GLM模型,得到风险预测模型;
S33:在所述第三层GLM模型中输入第三定价数据,输出对应的第三纯风险保费预测值。
具体的,所述步骤S12包括:数据清洗,处理第一模型样本集的空缺值、噪声数据,删除第一模型样本集的重复值;数据集成,集成多个数据源,处理数据源的冗余问题;特征工程:将步骤S121中处理后的第一样本数据连续变量分桶,类别变量编码,形成第一样本数据。
具体的,所述步骤S22包括:数据清洗,处理第二模型样本集的空缺值、噪声数据,删除第二模型样本集的重复值;数据集成,集成多个数据源,处理数据源的冗余问题;特征工程,将步骤S221处理后的第二模型样本集连续变量分桶,类别变量编码,形成第二样本数据。
第二方面,本申请实施例提供了一种基于GLM及机器学习算法的车险纯风险保费预测装置,包括处理单元以及存储单元,所述存储单元有一个或多个程序,当所述一个或多个程序被所述处理单元运行时,使得所述处理单元实现如上述任一项所述的基于GLM及机器学习算法的车险纯风险保费预测方法的步骤。
与现有技术相比,本发明结合了传统的GML模型与XGBoost模型,具有如下优点:
可解释性强:模型拟合所选各个风险因子与风险之间的关系一目了然,其预测结果易于解释与理解。
可控性强:最终落地模型采用GLM框架,因此可以根据业务或监管需要,对模型结构进行调整,提高模型的可靠性与合理性。
预测性能更强:模型内部采用XGBoost去拟合残差,比传统的GLM模型具有更好的预测性能。
附图说明
图1是本发明一种基于GLM及机器学习算法的车险纯风险保费预测方法的流程图;
图2是本发明一种基于GLM及机器学习算法的车险纯风险保费预测方法步骤S1的具体流程图;
图3是本发明一种基于GLM及机器学习算法的车险纯风险保费预测方法步骤S2的具体流程图;
图4是本发明一种基于GLM及机器学习算法的车险纯风险保费预测方法步骤S3的具体流程图;
图5是本发明原始GLM车险定价模型与本发明定价模型对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部实施例。通常在此处附图中描述和示出的本发明实施例组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在描述本申请一种基于GLM及机器学习算法的车险纯风险保费预测方法之前,先说明下GLM模型原理和XGBoost模型原理:
GLM通常包括随机部分、系统部分和联结函数三部分。
随机部分:该部分是指因变量Y的概率分布,其服从指数分布族,指数分布族的方差可以随均值变化而变化,并且观察值的变量间相互独立。指数分布族的概率密度函数可以如下表示:
Figure BDA0003858382670000051
上式中,b(θ)和,c(y,φ)是已知函数,θ是分布与均值μ有关的自然函数,φ是离散参数,ω是先验权重。
系统部分:该部分是解释变量的线性组合
Figure BDA0003858382670000061
其中X=(x1,...,xp)是解释变量组成的向量,β=(β1,...,βp)是模型待估参数组成的向量。
连接函数:随机部分和系统部分经过一个单调可导的连接函数的变换后,因变量的拟合值等于线性预测值,即
Figure BDA0003858382670000062
XGBoost模型原理:基于Boosting的思想,使用回归树模型,训练过程为阶梯状。基模型按次序一一进行训练(实现上可以做到并行),基模型的训练集按照某种策略每次都进行一定的转化,每一次的迭代是对上一次的损失进行学习,而损失函数是采用负梯度来拟合,进而拟合一个CART回归树。对所有基模型预测的结果进行线性综合产生最终的预测结果。
请参阅图1,图1是本发明实施例提供的一种基于GLM及机器学习算法的车险纯风险保费预测方法的流程示意图,如图1所示,该方法包括:
步骤S1:采集第一建模因子的第一定价数据形成第一模型样本集,使用所述第一模型样本集拟合第一层GLM模型,计算预测结果残差;
具体的,该步骤包括如图2所示的以下步骤:
S11:采集第一建模因子的第一定价数据和对应的第一纯风险保费形成第一模型样本集;
其中所述第一建模因子包含:
从车信息:车龄、是否过户车、是否进口车、座位数新车购置价、车系;
从人信息:被保人年龄、被保人性别;
平台信息:交强险NCD、商业险NCD、不浮动原因、历史赔款金额
保单信息:新-续-转类型、投保组合情况、险别限额、附加险类型、是否异地投保;
S12:对所述第一模型样本集进行预处理,生成符合GLM模型要求的第一样本数据;具体的,对所述第一模型样本集进行预处理包括:
1)数据清洗,处理第一模型样本集的空缺值、噪声数据,删除第一模型样本集的重复值;2)数据集成,集成多个数据源,处理数据源的冗余问题;3)特征工程:将步骤1)中处理后的第一样本数据连续变量分桶,类别变量编码,形成第一样本数据。
S13:使用所述第一样本数据拟合第一层GLM模型;
S14:在第一层GLM模型中输入所述第一定价数据,处理后,输出第一纯风险保费预测值;
S15:通过所述纯风险保费预测值计算预测结果残差;所述第一预测结果残差=纯风险保费实际值-纯风险保费预测值。
步骤S2:在所述第一定价数据的基础上,采集第二建模因子;将所述第二建模因子的定价数据关联至所述第一定价数据,形成第二定价数据,并将第二定价数据作为第二模型样本集,将所述第二模型样本集进行处理后拟合第二层XGBoost残差模型,并将残差的预测结果进行切分,切分后的每组数据作为梯度提升分因子;
具体的,如图3所示步骤S2包括:
S21:在所述第一定价数据的基础上,采集第二建模因子;将所述第二建模因子的定价数据关联至所述第一定价数据,形成第二定价数据,并将第二定价数据作为第二模型样本集;
其中第二建模因子包含:
从车信息:车龄、是否过户车、是否进口车、座位数新车购置价、车系从人信息:被保人年龄、被保人性别
平台信息:交强险NCD、商业险NCD、不浮动原因、历史赔款金额
保单信息:新、续、转类型、投保组合情况、险别限额、附加险类型、是否异地投保
高维从车信息:静态车型信息(排量、车重等)、车联网动态信息(行驶速度,行驶时长);
S22:对所述第二模型样本集进行预处理,生成符合XGBoost残差模型的第二样本数据;具体的,对所述第二模型样本集进行预处理包括:
1)数据清洗,处理第二模型样本集的空缺值、噪声数据,删除第二模型样本集的重复值;2)数据集成,集成多个数据源,处理数据源的冗余问题;3)特征工程,将步骤1)处理后的第二模型样本集连续变量分桶,类别变量编码,形成第二样本数据。
S23:使用分层随机抽样的方法将所述第二定价数据与第一预测结果残差划分为训练集、验证集和测试集;所述训练集、验证集和测试集划分比例为6:2:2;
S24:使用所述训练集数据拟合XGBoost残差模型,使用所述验证集数据调整XGBoost残差模型训练过程中的超参,使用所述测试集数据测试训练完毕的XGBoost残差模型预测准确性;
S25:使用步骤S33拟合的第二层XGBoost残差模型对纯风险保费残差进行预测,再第二层XGBoost残差模型中输入所述第二定价数据,处理后,输出第二纯风险保费残差预测值;
S26:对所述第二纯风险保费残差预测值进行排序,将排序后的第二纯风险保费残差预测值按照N等分进行切分,并将切分后的每组第二纯风险保费残差预测值依序赋予1到N的值,作为新的风险因子标签——梯度提升分,优选的,预设将样本预测值按照20等分进行切分。
步骤S3:将所述梯度提升分因子、第三定价数据作为第三模型样本集拟合第三层GLM模型,计算并输出纯风险保费预测值,具体的,所述步骤S3包括:
S31:将梯度提升分因子加入至第一层GLM模型建模因子中,构成第三层GLM模型入模风险因子列表,并采集所述第三建模因子的第三定价数据与对应的第三纯风险保费,形成第三样本集;
其中,所述第三建模因子包含:
从车信息:车龄、是否过户车、是否进口车、座位数新车购置价、车系从人信息:被保人年龄、被保人性别:
平台信息:交强险NCD、商业险NCD、不浮动原因、历史赔款金额;
保单信息:新-续-转类型、投保组合情况、险别限额、附加险类型、是否异地投保
风险因子标签:梯度提升分;
S32:使用第三样本集拟合第三层GLM模型,得到风险预测模型;
S33:在所述第三层GLM模型中输入第三定价数据,输出对应的第三纯风险保费预测值。
在具体实施过程中,如图5所示,通过使用该发明的方法,模型的预测值准确性与平滑度相较于传统的GLM模型有了显著的提升。同时,该最终模型是以GLM的方式呈现,因而也保证了模型的可解释性与可控性。具体而言,本技术发明具有以下三点有益效果:
可解释性强:模型拟合所选各个风险因子与风险之间的关系一目了然,其预测结果易于解释与理解。
可控性强:最终落地模型采用GLM框架,因此可以根据业务或监管需要,对模型结构进行调整,提高模型的可靠性与合理性。
预测性能更强:模型内部采用XGBoost去拟合残差,比传统的GLM模型具有更好的预测性能。
另一方面本申请实施例提供的一种基于GLM及机器学习算法的车险纯风险保费预测装置,包括处理单元以及存储单元,所述存储单元有一个或多个程序,当所述一个或多个程序被所述处理单元运行时,使得所述处理单元实现如上述任一项所述的基于GLM及机器学习算法的车险纯风险保费预测方法的步骤。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (7)

1.一种基于GLM及机器学习算法的车险纯风险保费预测方法,其特征在于,包括:
步骤S1:采集第一建模因子的第一定价数据形成第一模型样本集,使用所述第一模型样本集拟合第一层GLM模型,计算预测结果残差;
步骤S2:在所述第一定价数据的基础上,采集第二建模因子;将所述第二建模因子的定价数据关联至所述第一定价数据,形成第二定价数据,并将第二定价数据作为第二模型样本集,将所述第二模型样本集进行处理后拟合第二层XGBoost残差模型,并将残差的预测结果进行切分,切分后的每组数据作为梯度提升分因子;
步骤S3:将所述梯度提升分因子、第三定价数据作为第三模型样本集拟合第三层GLM模型,计算并输出纯风险保费预测值。
2.根据权利要求1所述的基于GLM及机器学习算法的车险纯风险保费预测方法,其特征在于,所述步骤S1包括:
S11:采集第一建模因子的第一定价数据和对应的第一纯风险保费形成第一模型样本集;其中所述第一建模因子包含从车信息、从人信息、平台信息、保单信息;
S12:对所述第一模型样本集进行预处理,生成符合GLM模型要求的第一样本数据;
S13:使用所述第一样本数据拟合第一层GLM模型;
S14:在第一层GLM模型中输入所述第一定价数据,处理后,输出第一纯风险保费预测值;
S15:通过所述纯风险保费预测值计算预测结果残差;所述第一预测结果残差=纯风险保费实际值-纯风险保费预测值。
3.根据权利要求1或2所述的基于GLM及机器学习算法的车险纯风险保费预测方法,其特征在于,所述步骤S2包括:
S21:在所述第一定价数据的基础上,采集第二建模因子;将所述第二建模因子的定价数据关联至所述第一定价数据,形成第二定价数据,并将第二定价数据作为第二模型样本集;其中第二建模因子包含从车信息、从人信息、平台信息、保单信息、高维从车信息;
S22:对所述第二模型样本集进行预处理,生成符合XGBoost残差模型的第二样本数据;
S23:使用分层随机抽样的方法将所述第二定价数据与第一预测结果残差划分为训练集、验证集和测试集;所述训练集、验证集和测试集划分比例为6:2:2;
S24:使用所述训练集数据拟合XGBoost残差模型,使用所述验证集数据调整XGBoost残差模型训练过程中的超参,使用所述测试集数据测试训练完毕的XGBoost残差模型预测准确性;
S25:使用步骤S33拟合的第二层XGBoost残差模型对纯风险保费残差进行预测,再第二层XGBoost残差模型中输入所述第二定价数据,处理后,输出第二纯风险保费残差预测值;
S26:对所述第二纯风险保费残差预测值进行排序,将排序后的第二纯风险保费残差预测值按照N等分进行切分,并将切分后的每组第二纯风险保费残差预测值依序赋予1到N的值,作为新的风险因子标签——梯度提升分。
4.根据权利要求3所述的基于GLM及机器学习算法的车险纯风险保费预测方法,其特征在于,所述步骤S3包括:
S31:将梯度提升分因子加入至第一层GLM模型建模因子中,构成第三层GLM模型入模风险因子列表,并采集所述第三建模因子的第三定价数据与对应的第三纯风险保费,形成第三样本集;所述第三建模因子包含从车信息、从人信息、平台信息、保单信息、风险因子标签;
S32:使用第三样本集拟合第三层GLM模型,得到风险预测模型;
S33:在所述第三层GLM模型中输入第三定价数据,输出对应的第三纯风险保费预测值。
5.根据权利要求2所述的基于GLM及机器学习算法的车险纯风险保费预测方法,其特征在于,所述步骤S12包括:
数据清洗,处理第一模型样本集的空缺值、噪声数据,删除第一模型样本集的重复值;
数据集成,集成多个数据源,处理数据源的冗余问题;
特征工程:将步骤S121中处理后的第一样本数据连续变量分桶,类别变量编码,形成第一样本数据。
6.根据权利要求3所述的基于GLM及机器学习算法的车险纯风险保费预测方法,其特征在于,所述步骤S22包括:
数据清洗,处理第二模型样本集的空缺值、噪声数据,删除第二模型样本集的重复值;
数据集成,集成多个数据源,处理数据源的冗余问题;
特征工程,将步骤S221处理后的第二模型样本集连续变量分桶,类别变量编码,形成第二样本数据。
7.一种基于GLM及机器学习算法的车险纯风险保费预测装置,其特征在于,包括处理单元以及存储单元,
所述存储单元有一个或多个程序,当所述一个或多个程序被所述处理单元运行时,使得所述处理单元实现如权利要求1-6任一项所述的基于GLM及机器学习算法的车险纯风险保费预测方法的步骤。
CN202211158490.9A 2022-09-22 2022-09-22 一种基于glm及机器学习算法的车险纯风险保费预测方法及装置 Pending CN115578205A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211158490.9A CN115578205A (zh) 2022-09-22 2022-09-22 一种基于glm及机器学习算法的车险纯风险保费预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211158490.9A CN115578205A (zh) 2022-09-22 2022-09-22 一种基于glm及机器学习算法的车险纯风险保费预测方法及装置

Publications (1)

Publication Number Publication Date
CN115578205A true CN115578205A (zh) 2023-01-06

Family

ID=84581150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211158490.9A Pending CN115578205A (zh) 2022-09-22 2022-09-22 一种基于glm及机器学习算法的车险纯风险保费预测方法及装置

Country Status (1)

Country Link
CN (1) CN115578205A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116091254A (zh) * 2023-04-11 2023-05-09 天津所托瑞安汽车科技有限公司 商用车风险的分析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116091254A (zh) * 2023-04-11 2023-05-09 天津所托瑞安汽车科技有限公司 商用车风险的分析方法

Similar Documents

Publication Publication Date Title
CN111541237B (zh) 基于机会约束极限学习机的风电功率非参数区间预测方法
Moody et al. Architecture selection strategies for neural networks: Application to corporate bond rating prediction
CN109002904B (zh) 一种基于Prophet-ARMA的医院门诊就诊量预测方法
CN110910004A (zh) 一种多重不确定性的水库调度规则提取方法及系统
CN110889545A (zh) 一种电力负荷预测方法、装置及可读存储介质
CN110704730A (zh) 基于大数据的产品数据推送方法、系统及计算机设备
JP6001871B2 (ja) 混合モデルの構築方法
CN110223509B (zh) 一种基于贝叶斯增强张量的缺失交通数据修复方法
CN116679211B (zh) 一种锂电池健康状态的预测方法
CN111583014A (zh) 一种基于gbst的金融风险管理方法、装置和电子设备
CN108416619B (zh) 一种消费间隔时间预测方法、装置及可读存储介质
CN111723990B (zh) 基于双向长短期记忆神经网络的共享单车流量预测方法
CN116303786B (zh) 一种基于多维数据融合算法的区块链金融大数据管理系统
CN112803398A (zh) 基于经验模态分解和深度神经网络的负荷预测方法及系统
CN115578205A (zh) 一种基于glm及机器学习算法的车险纯风险保费预测方法及装置
CN114548586A (zh) 一种基于混合模型的短期电力负荷预测方法及系统
CN114255121A (zh) 信贷风险预测模型的训练方法和信贷风险预测方法
CN114091768A (zh) 基于stl和带有注意力机制的lstm的旅游需求预测方法
CN112232570A (zh) 一种正向有功总电量预测方法、装置及可读存储介质
CN113159419A (zh) 一种群体特征画像分析方法、装置、设备及可读存储介质
CN116776209A (zh) 一种关口计量装置运行状态辨识方法、系统、设备及介质
CN115641153A (zh) 一种基于深度神经网络的车辆价格评估方法
CN115239967A (zh) 一种基于Trans-CSN生成对抗网络的图像生成方法及装置
CN111784071B (zh) 一种基于Stacking集成的许可占用与预测方法及系统
CN113158088A (zh) 一种基于图神经网络的位置推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication