CN114971009A

CN114971009A - 一种车险出险预测方法及计算机设备

Info

Publication number: CN114971009A
Application number: CN202210567932.9A
Authority: CN
Inventors: 许传榕; 方匡南; 黄茂湘
Original assignee: Car Discovery Information Technology Xiamen Co ltd
Current assignee: Car Discovery Information Technology Xiamen Co ltd
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2022-08-30

Abstract

本发明公开了一种车险出险预测方法及计算机设备，其中，车险出险预测方法以历史保单数据为基础，通过多种有监督算法的集成，对保单是否出险进行预测，并达到在申保前车险风险控制的目的。本发明的总体流程大致是：数据提取与特征处理→Lightgbm模型训练→特征评估与筛选→TabNet模型训练→模型评估与阈值切分→模型上线部署、新保单出险预测。相较于传统车险预测模型中对出险次数进行拟合的做法，本发明通过集成多种有监督学习算法针对保单是否出险进行二分类预测，并针对业务需求确定阈值进行类型划分，使得模型能够能够在细分业务背景下取得良好的性能，并降低了人工审核、规则库维护等成本。

Description

一种车险出险预测方法及计算机设备

技术领域

本发明涉及数据处理技术领域，尤其涉及一种车险出险预测方法及计算机设备。

背景技术

机动车辆保险（简称车险）是指机动车辆由于自然灾害或意外事故所造成的人身伤亡或财产损失负赔偿责任的商业保险，属于财产保险的一种。车险的保险客户主要指拥有各种机动交通工具的法人团体和个人，保险标的则包括汽车、电车等机动车辆。车险行业随着社会经济蓬勃发展，保险公司在面对申请的车险保单时需要评估其所在的风险，并决定是否予以通过。

传统的车险预测模型，通常是以出险次数、出险金额作为目标值，并将车辆信息、车主信息等作为特征，进而构建有监督学习模型（如逻辑回归、决策树等）来拟合目标值。然而出险次数、出险金额往往还会受到道路情况、天气情况、驾驶人和其他驾驶人开车状态等因素的影响，包含了一定的偶然。另外，由于数据普遍存在不平衡或是模型训练策略选取的不恰当，也会使得模型性能预测不佳，无法在业务侧对新进保单进行决策时提供充足的依据，进而增加了人工审核成本。此外，传统的车险理赔中对于新进保单处理的人工、规则库等运维成本较高。

发明内容

有鉴于此，本发明的目的是旨在提供一种车险出险预测方法及计算机设备，其能有效解决目前车险预测方法性能不佳和成本较高的问题，使得模型预测结果符合业务场景上的精细化治理要求，并能够得到更高的预测性能，以及能降低成本。

为达上述目的，本发明提供了以下技术方案：一种车险出险预测方法，包括以下步骤：

步骤一、数据提取与特征处理：从历史保单中提取建模数据，基于历史保单数据，将出险次数离散化处理以不同字符分别表示无出险和出险，作为建模的标签以供步骤二的模型训练使用；

步骤二、Lightgbm模型的训练：训练策略采用K-fold交叉验证，每一次训练时将步骤一的其中一部分数据留作为验证集并根据模型在该数据集上的效果作为早停的依据，一共输出K个采用不同训练集构建的Lightgbm模型并进行融合输出；

步骤三、特征评估与筛选：结合特征本身的识别能力指标与训练得到的Lightgbm模型的全局特征重要性进行特征子集选取；

步骤四、TabNet模型的训练：将步骤三中选定的特征子集作为深度学习模型的入模特征，采用K-fold交叉验证结合早停策略训练TabNet深度学习算法；

步骤五、模型评估与阈值切分：对TabNet模型进行评估后，结合业务经验，对预测概率进行阈值切分，大于阈值则认为出险风险较高，反之则认为出险风险较低；

步骤六、上线部署、新保单出险预测：将TabNet模型上线部署，对于新进保单数据，首先进行特征匹配与映射，接着将数据处理为模型输入格式并将其输入K个训练好的TabNet模型中输出结果，并进行自动化决策或用于辅助业务决策。

优选的，在步骤一中，提取历史保单数据中的某个区域的保单数据作为建模数据。

优选的，在步骤一中，获得建模的离散化标签后，接着进行特征提取，提取车牌号中险种类型特征、车辆信息特征或车主信息特征，增强模型的识别能力。

优选的，在步骤二的Lightgbm模型的训练过程中，采用SMOTE采样对数据进行平衡化处理。

优选的，在步骤二中，所使用的分类模型是GBDT（梯度提升决策树）的工程实现算法Lightgbm，其采用了直方图、单边梯度采样和互斥特征捆绑算法。

优选的，在步骤五中，在得到最终的TabNet模型后，选取查准率、召回率、准确率、F1值、AUC指标作为评估标准。

优选的，在步骤六中，引入了AUC指标和申请通过率对模型进行评估，其中AUC指标是在ROC曲线基础上进行度量的评估指标，申请通过率是在确定阈值后，TabNet模型评估通过多少比率的保单，认为其是低出险风险的保单。

优选的，当新进保单积累足够数量后，则返回步骤一，进行模型的更新。

本发明还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的方法的步骤。

相比现有技术，本发明的有益效果是：

1、本发明的车险出险预测方法中，首先，从历史保单中获取正常的样本数据，然后将标签离散为出险和未出险，接着采用Lightgbm算法进行拟合，输出模型特征重要性排序进行筛选，最后采用深度学习TabNet进行最终模型的构建与评估，一方面，与传统的车险出险预测模型的思路不同，本发明将预测的颗粒度放大到“是否出险”而不是出险次数的预测，使得模型预测结果符合业务场景上的精细化治理要求，并能够得到更高的预测性能；另一方面，相较于传统的车险出险预测模型中对出险次数进行拟合的做法，本发明通过集成多种有监督学习算法针对保单是否出险进行二分类预测，并针对业务需求确定阈值进行类型划分，使得模型能够能够在细分业务背景下取得良好的预测性能，并降低了人工审核、规则库维护等成本，达到在申保前车险风险控制的目的。

2、基于模型与指标的特征筛选能够有效提取出高价值的特征子集；

3、采用SMOTE采样可以避免模型多数类倾向性预测的问题；

4、采用TabNet深度学习算法有效地结合树模型结构与深度学习高表征性能的优点，可以达到很好的精细化预测目的。

5、当新进保单积累足够数量后，则返回步骤一，进行模型的更新，利用积累的样本数据定期维护与更新模型，提升模型的预测性能，属于一个完整且闭环的实现流程。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的基本流程图；

图2为新保单预测流程图；

图3为脱敏的部分原始数据和对应的离散化的标签示例图，其中，每一行表示一个保单的数据，每个保单提取了ff1至ff142共142个原始特征，图中仅截图了15份保单中ff135至ff142部分的数据进行示例，最后一列（即y列）表示对应每个保单的离散化标签“1”或“0”；

图4为Lightgbm训练示意图；

图5为TabNet训练示意图；

图6为总的数据集和训练模型采用的python程序；

图7为训练得到的Lightgbm模型；

图8为训练得到的TabNet模型。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参见图1，本发明一实施例提供的一种车险出险预测方法，总体流程大致是：数据提取与特征处理→Lightgbm模型训练→特征评估与筛选→TabNet模型训练→模型评估与阈值切分→模型上线部署、新保单出险预测。具体而言，本发明的方法包括以下步骤：

步骤三、特征评估与筛选：结合特征本身的识别能力指标（例如散度和IV值）与训练得到的Lightgbm模型的全局特征重要性进行特征子集选取；

步骤六、上线部署、新保单出险预测：将TabNet模型上线部署，对于新进保单数据，首先进行特征匹配与映射，接着将数据处理为模型输入格式并将其输入K个训练好的TabNet模型中输出结果，并进行自动化决策或用于辅助业务决策，如图2所示。

优选的，在步骤二中，所使用的分类模型是GBDT的工程实现算法Lightgbm，其采用了直方图、单边梯度采样和互斥特征捆绑算法，可大大提升模型训练效率，拥有更强的表征性能，且其主要思想是以决策树为弱分类器进行集成，可以更好减小预测偏差。

在步骤三中，在建模时冗杂的多余特征会影响模型性能，本发明结合特征本身的识别能力指标与训练得到的Lightgbm模型的全局特征重要性，筛选出最具有识别能力的特征子集，并将其作为下一阶段深度学习模型的入模特征。另外，由于Lightgbm本身可以对类别特征进行编码，而在采用深度学习算法前则需要对这部分特征进行编码，并保存唯一的映射关系以供部署模型时使用。

在步骤四中，TabNet是一种深度学习方法，其通过网络结构设计使其近似于树模型的框架，并综合了深度学习的高表征性能。本发明结合K-fold与早停策略作为TabNet参数收敛迭代停止的依据，与Lightgbm训练不同之处在于，TabNet训练时不采用SMOTE采样进行平衡化处理，这就避免了部署上线时数据分布与训练分布不一致的问题，最终模型对每个样本输出0～1的概率值，表示出险违约的可能性大小。

优选的，在步骤五中，在得到最终的TabNet模型后，选取查准率、召回率、准确率、F1值、AUC指标作为评估标准。在二分类模型中，准确率评估的是模型对正负样本总体预测的准确性，查准率衡量的是模型识别出来可能违约的样本中正确率有多少，召回率衡量的是模型能够识别出多少违约的保单数据，F1值是查准率与召回率的调和平均数，作为二者的综合度量。一般二分类概率预测模型采用0.5为阈值进行样本分类，将预测大于阈值的标记为1，小于阈值的标记为0，然而在实际业务需求中，该阈值则需要根据业务经验进行调整。因此，在本发明的步骤六中还引入了AUC指标和申请通过率对模型进行评估，其中AUC指标是在ROC曲线基础上进行度量的评估指标，申请通过率则是在确定阈值后，该模型会评估通过多少比率的保单，认为其是低出险风险的保单。

优选的，当新进保单积累足够数量后，则返回步骤一，进行模型的更新，利用积累的样本数据定期维护与更新模型，以提升模型的预测性能，属于一个完整且闭环的实现流程。

本发明具体实施时，在步骤一中，提取历史保单数据中的某个区域的保单数据作为建模数据，例如，提取历史保单数据中某省份的保单数据作为建模数据，基于某省份的原始保单数据，匹配险种类型、车辆信息和车主信息等特征，并将出险次数离散化为不同字符“0”和“1”，其中，字符“0”代表无出险，字符“1”代表出险，将其整理为如图3所示的数据格式（已脱敏）供模型训练使用（图3为脱敏的部分原始数据和对应的离散化的标签示例图，其中，每一行表示一个保单的数据，每个保单提取了ff1至ff142共142个原始特征，图3中仅截图了15份保单中ff135至ff142部分的数据进行示例，最后一列（即y列）表示对应每个保单的离散化标签“1”或“0” ）。获得建模的离散化标签后，接着进行特征提取，提取车牌号中险种类型特征、车辆信息特征或车主信息特征，增强模型的识别能力。

本发明具体实施时，为了尽可能利用历史保单数据，在步骤二的Lightgbm模型的训练过程中，将建模数据按5折进行随机的划分，每一折将作为验证集1次与训练集4次参与训练过程。建模数据中，正负样本比例约为9：1，为了避免模型训练时倾向于多数类预测的情况发生，采用SMOTE对训练样本中的负样本进行采样，将比例设定为1：1，接着采用AUC为早停标准进行模型训练，一共输出5个Lightgbm模型（如图7所示），具体流程如图4所示。最终Lightgbm预测结果的AUC为0.6左右，此时尚未达到实际部署性能需求。

本发明具体实施时，图5展示了TabNet模型训练、模型评估与阈值切分的流程。在输出Lightgbm模型后，输出模型的特征重要性排序，并结合特征指标进行筛选，从142个原始特征中筛选出69个具有高识别能力的特征子集作为TabNet模型的训练输入。对特征进行映射保存映射字典，接着将数据处理为模型所需要的格式进行训练，一共输出5个TabNet模型（如图8所示的）。接着对模型进行初步评估，预测输出的AUC指标为0.83，达到良好的预测性能。接着结合业务经验，对预测概率进行阈值划分，大于阈值则认为出险风险较高，反之则认为出险风险较低。对离散化后的模型输出计算评价指标，查准率为93.96%，召回率为93.61%，F1值为0.94，对于新进保单的通过率则为90.28%，通过率与实际分布基本一致。综合TabNet模型与Lightgbm模型的输出结果，说明了本发明的可行性及高效率。

图6展示的是原始的数据data.csv，训练过程的数据处理与模型方法均封装在python程序main.py中，ziduan.csv则保存了筛选后的特征子集，作为后续部署时使用。

图7展示的是本发明中使用Lightgbm输出的5个模型。

图8展示的是本发明输出的5个TabNet模型，作为最终部署上线使用的版本。

考虑到传统的车险理赔中对于新进保单处理的人工、规则库等运维成本较高，以及针对传统机器学习方法存在着一定的局限性，本发明提出了一种基于多种机器学习方法集成的车险出险预测方法。本发明的方法以历史保单数据（险种类型、车辆信息和车主信息等）为基础，通过多种有监督算法的集成，对保单是否出险进行预测，并达到在申保前车险风险控制的目的。相较于传统车险预测模型中对出险次数进行拟合的做法，本发明通过集成多种有监督学习算法针对保单是否出险进行二分类预测，并针对业务需求确定阈值进行类型划分，使得模型能够能够在细分业务背景下取得良好的性能，并降低了人工审核、规则库维护等成本。本发明主要围绕三个模块展开：特征筛选、离线模型训练和线上部署。特征筛选利用Lightgbm模型的特征重要性进行子集选取，在训练过程中采用了SMOTE采样对数据进行平衡化处理；离线模型训练则根据选定的特征子集，采用交叉验证结合早停策略训练TabNet深度学习算法,在对模型进行评估后选取符合业务背景的划分阈值；线上部署则是利用保存的特征映射关系，对于新申请保单进行数据变换，再通过TabNet对保单的出险风险概率进行预测。本发明提出的方法不仅能够有效降低车险理赔中对于新进保单的判别成本，更是结合了深度学习高表征性能的优势，达到高准的识别率的同时，基本保证了保单的通过率与实际分布的一致性，并构造了一套完整闭环的实现部署流程。经过实践测试，本发明提出的方法能够达到良好的预测性能，既可以满足实际业务运营中的高效率，又能在保证预测效果的同时有效降低了运维成本。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种车险出险预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的车险出险预测方法，其特征在于，在步骤一中，提取历史保单数据中的某个区域的保单数据作为建模数据。

3.根据权利要求1所述的车险出险预测方法，其特征在于，在步骤一中，获得建模的离散化标签后，接着进行特征提取，提取车牌号中险种类型特征、车辆信息特征或车主信息特征，增强模型的识别能力。

4.根据权利要求1所述的车险出险预测方法，其特征在于，在步骤二的Lightgbm模型的训练过程中，采用SMOTE采样对数据进行平衡化处理。

5.根据权利要求1所述的车险出险预测方法，其特征在于，在步骤二中，所使用的分类模型是GBDT的工程实现算法Lightgbm，其采用了直方图、单边梯度采样和互斥特征捆绑算法。

6.根据权利要求1所述车险出险预测方法，其特征在于，在步骤五中，在得到最终的TabNet模型后，选取查准率、召回率、准确率、F1值、AUC指标作为评估标准。

7.根据权利要求1所述车险出险预测方法，其特征在于，在步骤六中，引入了AUC指标和申请通过率对模型进行评估，其中AUC指标是在ROC曲线基础上进行度量的评估指标，申请通过率是在确定阈值后，TabNet模型评估通过多少比率的保单，认为其是低出险风险的保单。

8.根据权利要求1所述车险出险预测方法，其特征在于，当新进保单积累足够数量后，则返回步骤一，进行模型的更新。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。