CN115578205A

CN115578205A - 一种基于glm及机器学习算法的车险纯风险保费预测方法及装置

Info

Publication number: CN115578205A
Application number: CN202211158490.9A
Authority: CN
Inventors: 赵昕
Original assignee: Shanghai Qihuang Information Technology Co ltd
Current assignee: Shanghai Qihuang Information Technology Co ltd
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2023-01-06

Abstract

本申请提供一种基于GLM及机器学习算法的车险纯风险保费预测方法及装置，包括：采集第一建模因子的第一定价数据形成第一模型样本集，使用第一模型样本集拟合第一层GLM模型，计算预测结果残差；在第一定价数据的基础上，采集第二建模因子；将第二建模因子的定价数据关联至第一定价数据，形成第二定价数据，并将第二定价数据作为第二模型样本集，将第二模型样本集进行处理后拟合第二层XGBoost残差模型，并将残差的预测结果进行切分，切分后的每组数据作为梯度提升分因子；将梯度提升分因子、第三定价数据作为第三模型样本集拟合第三层GLM模型，计算并输出纯风险保费预测值。本发明结合了传统的GML模型与XGBoost模型，具有可解释性、可控性、预测性能更强的优点。

Description

一种基于GLM及机器学习算法的车险纯风险保费预测方法及装置

技术领域

本发明涉及数据处理领域，特别涉及一种基于GLM及机器学习算法的车险纯风险保费预测方法及装置。

背景技术

车险精算定价模型是保险公司管理和控制承保风险最重要的工具。在车险业务实际应用中，对精算定价模型的要求有两个：一是预测的准确性，二是模型的可解释性与可控性。在当前落地应用的模型中，这两者很难兼顾。

传统车险精算定价采用以广义线性模型(GLM)为主的概率统计模型。传统GLM模型可解释性强、可控性高，可以为业务实践提供足够的安全感。然而，由于传统GLM模型只能拟合因子和目标间的线性关系，无法获取非线性的部分和因子间的交互对目标的影响，因此往往预测准确性有限。

随着人工智能、机器学习算法的兴起，保险领域也开始使用各种机器学习模型来预测纯风险保费。机器学习模型有强大的非线性表达能力，非寿险精算定价相关研究已经证明机器学习算法可以显著提升车险精算定价模型的预测准确性。然而，由于机器学习算法的可解释性和可控性远低于传统GLM模型，尽管有着卓越的预测性能，这些模型却始终难以落地。

发明内容

本发明的目的是提供一种达到既具有可解释性与可控性，又能达到较好的预测效果的基于GLM及机器学习算法的车险纯风险保费预测方法及装置。

为了实现上述目的，本申请实施例采用如下技术方案：

第一方面，本申请实施例提供了一种基于GLM及机器学习算法的车险纯风险保费预测方法，包括：

步骤S1：采集第一建模因子的第一定价数据形成第一模型样本集，使用所述第一模型样本集拟合第一层GLM模型，计算预测结果残差；

步骤S2：在所述第一定价数据的基础上，采集第二建模因子；将所述第二建模因子的定价数据关联至所述第一定价数据，形成第二定价数据，并将第二定价数据作为第二模型样本集，将所述第二模型样本集进行处理后拟合第二层XGBoost残差模型，并将残差的预测结果进行切分，切分后的每组数据作为梯度提升分因子；

步骤S3：将所述梯度提升分因子、第三定价数据作为第三模型样本集拟合第三层GLM模型，计算并输出纯风险保费预测值。

具体的，所述步骤S1包括：

S11：采集第一建模因子的第一定价数据和对应的第一纯风险保费形成第一模型样本集；其中所述第一建模因子包含从车信息、从人信息、平台信息、保单信息；

S12:对所述第一模型样本集进行预处理，生成符合GLM模型要求的第一样本数据；

S13：使用所述第一样本数据拟合第一层GLM模型；

S14:在第一层GLM模型中输入所述第一定价数据，处理后，输出第一纯风险保费预测值；

S15:通过所述纯风险保费预测值计算预测结果残差；所述第一预测结果残差＝纯风险保费实际值-纯风险保费预测值。

具体的，所述步骤S2包括：

S21：在所述第一定价数据的基础上，采集第二建模因子；将所述第二建模因子的定价数据关联至所述第一定价数据，形成第二定价数据，并将第二定价数据作为第二模型样本集；其中第二建模因子包含从车信息、从人信息、平台信息、保单信息、高维从车信息；

S22：对所述第二模型样本集进行预处理，生成符合XGBoost残差模型的第二样本数据；

S23：使用分层随机抽样的方法将所述第二定价数据与第一预测结果残差划分为训练集、验证集和测试集；所述训练集、验证集和测试集划分比例为6：2：2；

S24：使用所述训练集数据拟合XGBoost残差模型，使用所述验证集数据调整XGBoost残差模型训练过程中的超参，使用所述测试集数据测试训练完毕的XGBoost残差模型预测准确性；

S25：使用步骤S33拟合的第二层XGBoost残差模型对纯风险保费残差进行预测，再第二层XGBoost残差模型中输入所述第二定价数据，处理后，输出第二纯风险保费残差预测值；

S26：对所述第二纯风险保费残差预测值进行排序，将排序后的第二纯风险保费残差预测值按照N等分进行切分，并将切分后的每组第二纯风险保费残差预测值依序赋予1到N的值，作为新的风险因子标签——梯度提升分。

具体的，所述步骤S3包括：

S31：将梯度提升分因子加入至第一层GLM模型建模因子中，构成第三层GLM模型入模风险因子列表，并采集所述第三建模因子的第三定价数据与对应的第三纯风险保费，形成第三样本集；所述第三建模因子包含从车信息、从人信息、平台信息、保单信息、风险因子标签；

S32：使用第三样本集拟合第三层GLM模型，得到风险预测模型；

S33：在所述第三层GLM模型中输入第三定价数据，输出对应的第三纯风险保费预测值。

具体的，所述步骤S12包括：数据清洗,处理第一模型样本集的空缺值、噪声数据，删除第一模型样本集的重复值；数据集成，集成多个数据源，处理数据源的冗余问题；特征工程：将步骤S121中处理后的第一样本数据连续变量分桶，类别变量编码，形成第一样本数据。

具体的，所述步骤S22包括：数据清洗，处理第二模型样本集的空缺值、噪声数据，删除第二模型样本集的重复值；数据集成，集成多个数据源，处理数据源的冗余问题；特征工程，将步骤S221处理后的第二模型样本集连续变量分桶，类别变量编码，形成第二样本数据。

第二方面，本申请实施例提供了一种基于GLM及机器学习算法的车险纯风险保费预测装置，包括处理单元以及存储单元，所述存储单元有一个或多个程序，当所述一个或多个程序被所述处理单元运行时，使得所述处理单元实现如上述任一项所述的基于GLM及机器学习算法的车险纯风险保费预测方法的步骤。

与现有技术相比，本发明结合了传统的GML模型与XGBoost模型，具有如下优点：

可解释性强：模型拟合所选各个风险因子与风险之间的关系一目了然，其预测结果易于解释与理解。

可控性强：最终落地模型采用GLM框架，因此可以根据业务或监管需要，对模型结构进行调整，提高模型的可靠性与合理性。

预测性能更强：模型内部采用XGBoost去拟合残差，比传统的GLM模型具有更好的预测性能。

附图说明

图1是本发明一种基于GLM及机器学习算法的车险纯风险保费预测方法的流程图；

图2是本发明一种基于GLM及机器学习算法的车险纯风险保费预测方法步骤S1的具体流程图；

图3是本发明一种基于GLM及机器学习算法的车险纯风险保费预测方法步骤S2的具体流程图；

图4是本发明一种基于GLM及机器学习算法的车险纯风险保费预测方法步骤S3的具体流程图；

图5是本发明原始GLM车险定价模型与本发明定价模型对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部实施例。通常在此处附图中描述和示出的本发明实施例组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在描述本申请一种基于GLM及机器学习算法的车险纯风险保费预测方法之前，先说明下GLM模型原理和XGBoost模型原理：

GLM通常包括随机部分、系统部分和联结函数三部分。

随机部分：该部分是指因变量Y的概率分布，其服从指数分布族，指数分布族的方差可以随均值变化而变化，并且观察值的变量间相互独立。指数分布族的概率密度函数可以如下表示：

上式中，b(θ)和，c(y，φ)是已知函数，θ是分布与均值μ有关的自然函数，φ是离散参数，ω是先验权重。

系统部分：该部分是解释变量的线性组合

其中X＝(x₁，...，x_p)是解释变量组成的向量，β＝(β₁，...，β_p)是模型待估参数组成的向量。

连接函数：随机部分和系统部分经过一个单调可导的连接函数的变换后，因变量的拟合值等于线性预测值，即

XGBoost模型原理：基于Boosting的思想，使用回归树模型，训练过程为阶梯状。基模型按次序一一进行训练(实现上可以做到并行)，基模型的训练集按照某种策略每次都进行一定的转化，每一次的迭代是对上一次的损失进行学习，而损失函数是采用负梯度来拟合，进而拟合一个CART回归树。对所有基模型预测的结果进行线性综合产生最终的预测结果。

请参阅图1，图1是本发明实施例提供的一种基于GLM及机器学习算法的车险纯风险保费预测方法的流程示意图，如图1所示，该方法包括：

具体的，该步骤包括如图2所示的以下步骤：

S11：采集第一建模因子的第一定价数据和对应的第一纯风险保费形成第一模型样本集；

其中所述第一建模因子包含：

从车信息：车龄、是否过户车、是否进口车、座位数新车购置价、车系；

从人信息：被保人年龄、被保人性别；

平台信息：交强险NCD、商业险NCD、不浮动原因、历史赔款金额

保单信息：新-续-转类型、投保组合情况、险别限额、附加险类型、是否异地投保；

S12：对所述第一模型样本集进行预处理，生成符合GLM模型要求的第一样本数据；具体的，对所述第一模型样本集进行预处理包括：

1)数据清洗,处理第一模型样本集的空缺值、噪声数据，删除第一模型样本集的重复值；2)数据集成，集成多个数据源，处理数据源的冗余问题；3)特征工程：将步骤1)中处理后的第一样本数据连续变量分桶，类别变量编码，形成第一样本数据。

S13：使用所述第一样本数据拟合第一层GLM模型；

具体的，如图3所示步骤S2包括：

S21：在所述第一定价数据的基础上，采集第二建模因子；将所述第二建模因子的定价数据关联至所述第一定价数据，形成第二定价数据，并将第二定价数据作为第二模型样本集；

其中第二建模因子包含：

从车信息：车龄、是否过户车、是否进口车、座位数新车购置价、车系从人信息：被保人年龄、被保人性别

保单信息：新、续、转类型、投保组合情况、险别限额、附加险类型、是否异地投保

高维从车信息：静态车型信息(排量、车重等)、车联网动态信息(行驶速度，行驶时长)；

S22：对所述第二模型样本集进行预处理，生成符合XGBoost残差模型的第二样本数据；具体的，对所述第二模型样本集进行预处理包括：

1)数据清洗，处理第二模型样本集的空缺值、噪声数据，删除第二模型样本集的重复值；2)数据集成，集成多个数据源，处理数据源的冗余问题；3)特征工程，将步骤1)处理后的第二模型样本集连续变量分桶，类别变量编码，形成第二样本数据。

S26：对所述第二纯风险保费残差预测值进行排序，将排序后的第二纯风险保费残差预测值按照N等分进行切分，并将切分后的每组第二纯风险保费残差预测值依序赋予1到N的值，作为新的风险因子标签——梯度提升分，优选的，预设将样本预测值按照20等分进行切分。

步骤S3：将所述梯度提升分因子、第三定价数据作为第三模型样本集拟合第三层GLM模型，计算并输出纯风险保费预测值，具体的，所述步骤S3包括：

S31：将梯度提升分因子加入至第一层GLM模型建模因子中，构成第三层GLM模型入模风险因子列表，并采集所述第三建模因子的第三定价数据与对应的第三纯风险保费，形成第三样本集；

其中，所述第三建模因子包含：

从车信息：车龄、是否过户车、是否进口车、座位数新车购置价、车系从人信息：被保人年龄、被保人性别：

平台信息：交强险NCD、商业险NCD、不浮动原因、历史赔款金额；

保单信息：新-续-转类型、投保组合情况、险别限额、附加险类型、是否异地投保

风险因子标签：梯度提升分；

在具体实施过程中，如图5所示，通过使用该发明的方法，模型的预测值准确性与平滑度相较于传统的GLM模型有了显著的提升。同时，该最终模型是以GLM的方式呈现，因而也保证了模型的可解释性与可控性。具体而言，本技术发明具有以下三点有益效果：

另一方面本申请实施例提供的一种基于GLM及机器学习算法的车险纯风险保费预测装置，包括处理单元以及存储单元，所述存储单元有一个或多个程序，当所述一个或多个程序被所述处理单元运行时，使得所述处理单元实现如上述任一项所述的基于GLM及机器学习算法的车险纯风险保费预测方法的步骤。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于GLM及机器学习算法的车险纯风险保费预测方法，其特征在于，包括：

2.根据权利要求1所述的基于GLM及机器学习算法的车险纯风险保费预测方法，其特征在于，所述步骤S1包括：

S13：使用所述第一样本数据拟合第一层GLM模型；

3.根据权利要求1或2所述的基于GLM及机器学习算法的车险纯风险保费预测方法，其特征在于，所述步骤S2包括：

4.根据权利要求3所述的基于GLM及机器学习算法的车险纯风险保费预测方法，其特征在于，所述步骤S3包括：

5.根据权利要求2所述的基于GLM及机器学习算法的车险纯风险保费预测方法，其特征在于，所述步骤S12包括：

数据清洗,处理第一模型样本集的空缺值、噪声数据，删除第一模型样本集的重复值；

数据集成，集成多个数据源，处理数据源的冗余问题；

特征工程：将步骤S121中处理后的第一样本数据连续变量分桶，类别变量编码，形成第一样本数据。

6.根据权利要求3所述的基于GLM及机器学习算法的车险纯风险保费预测方法，其特征在于，所述步骤S22包括：

数据清洗，处理第二模型样本集的空缺值、噪声数据，删除第二模型样本集的重复值；

数据集成，集成多个数据源，处理数据源的冗余问题；

特征工程，将步骤S221处理后的第二模型样本集连续变量分桶，类别变量编码，形成第二样本数据。

7.一种基于GLM及机器学习算法的车险纯风险保费预测装置，其特征在于，包括处理单元以及存储单元，

所述存储单元有一个或多个程序，当所述一个或多个程序被所述处理单元运行时，使得所述处理单元实现如权利要求1-6任一项所述的基于GLM及机器学习算法的车险纯风险保费预测方法的步骤。