CN111260490A

CN111260490A - 基于树模型的车险快速理赔方法和系统

Info

Publication number: CN111260490A
Application number: CN202010177071.4A
Authority: CN
Inventors: 肖延国; 戴杰; 周忠球
Original assignee: Shanghai Yuanmou Software Co ltd
Current assignee: Shanghai Yuanmou Software Co ltd
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2020-06-09

Abstract

本发明涉及一种基于树模型的车险快速理赔方法和系统，所述方法包括步骤：将车险理赔数据中的异常值和空值进行处理或填充；对上述预处理后的数据进行二分类，构成数据集；根据不同的特征类型构建特征库；基于所述数据集和特征库，使用XGBoost树模型构建车险快速理赔模型；按照一定比例随机抽取风险案件和正常案件，构造训练集，根据训练结果重新确定最优的正样本和负样本的比例。本发明显著地提升了模型的精准度和可解释性，极大提高了车险理赔的效率。

Description

基于树模型的车险快速理赔方法和系统

技术领域

本发明涉及车险理赔自动判别算法技术领域，特别涉及一种基于树模型的车险快速理赔方法和系统。

背景技术

据有关部门统计，车险理赔业务中的小额案件占比超过70％，理赔周期仍需1至2周左右，整个流程十分耗时。基于成本控制和客户服务的考量，保险公司期望对小额案件进行出险后快速理赔、快速结案，以减少人力投入。但是在车险领域，存在着大量的欺诈行为，平衡理赔流程的时间需要与保险公司的反欺诈风控要求是快速理赔业务的核心要求。传统的车险理赔风险控制管理主要依赖理赔业务员工作中积累的经验，其主要流程包括接受报案、查勘定损、核价核损以及最终赔付。保险快速理赔是指在投保人提交理赔请求后，保险公司在很短时间内对投保人进行赔付，实现快速结案。车险快赔的需求对模型的精准度要求非常高，目前，快赔模型主要是基于规则引擎和统计模型，规则引擎主要依赖于专家知识库，与专家的专业能力和业务水平息息相关。一旦专家的业务能力和专业性下降或由于其他因素导致的个人判断出错，规则引擎就会失效，造成重大的经济损失。而且规则引擎部署步骤繁琐，更新速度慢，越来越难以适应快速增长的业务需求。统计模型结构简单，无法学习到高阶的欺诈风险因子，在面对复杂的欺诈风险时显得束手无策，其精准度达不到线上业务的要求。

规则引擎主要依赖于专家知识库，需详细地分析案件的风险因子，制定出相应的反欺诈规则。整个过程过于依赖专家的专业性和主观决断。由于专家的专业水平不一，很有可能对部分案件的隐含风险的识别能力不足，漏掉一些风险因子。更主要的一点是，规则引擎容易被攻破，一旦被黑产猜到就会失效，大大降低了规则模型的安全性和有效性。传统模型如逻辑回归，支持向量机等对车险欺诈这类稀疏且不均衡数据的处理方法较少，模型本身学习能力有限，难以发现欺诈案件背后的风险因子，无法满足业务中高精度的需求。

发明内容

基于此，有必要提供一种基于树模型的车险快速理赔方法和系统，旨在不依赖于专家知识库即可提高快速理赔的准确度和效率。

为实现上述发明目的，本发明采用以下技术方案。

本发明首先提供一种基于树模型的车险快速理赔方法，包括步骤：

数据的预处理，将车险理赔数据中的异常值和空值进行处理或填充；

数据集的构建，对上述预处理后的数据进行二分类，构成数据集；

特征的构建，根据不同的特征类型构建特征库；

机器学习模型的构建，基于所述数据集和特征库，使用XGBoost树模型构建车险快速理赔模型；

模型的训练，按照一定比例随机抽取风险案件和正常案件，构造训练集，根据训练结果重新确定最优的正样本和负样本的比例。

上述车险快速理赔方法中，所述车险理赔数据包括投保人信息、车辆信息、保单信息和事故现场信息，所述数据的预处理步骤具体包括：

将不符合数据格式或长度的车险理赔数据判定为异常值，并将异常值和空值进行处理或填充，即，将车险理赔数据分为类别型数据和数值型数据，其中，类别型数据又分为二值化数据和多类别数据；

对于类别型数据，根据业务逻辑使用已存在的类别对异常值和空值进行填充，或把空值使用新的类别进行填充；异常值和空值填充后，类别型数据应全部归属于上述两类中的一类；

对于数据值数据，使用均值或者中位数对异常值和空值进行填充。

上述车险快速理赔方法中，将所述特征类型分为类别型特征和数值型特征，所述特征的构建步骤具体包括：

对于类别型特征，需先经特征编码转换成数值型特征，所述特征编码包括标签编码和计数编码，其中，

标签编码是指将某一特征的n种类别一一映射成1，2，……，n等自然数，其中，n≤10；

计数编码是指将某一特征中属于该类别的样本数作为该类别的映射结果。

对于数值型特征，按以下方式处理：

分箱，将连续型数值进行离散化，使多个连续值变成较少数量的值；和

聚合，以类别特征为主键，计算属于该类别特征的数值特征的均值和方差，将得到的结果作为特征构建特征库。

上述车险快速理赔方法中，所述模型的训练步骤具体包括：

抽取数据集中的全量正样本，再按照一定比例随机抽取负样本，构造训练集，根据模型的训练结果重新确定正样本和负样本的比例，直至最优。

上述车险快速理赔方法中，还包括步骤：

模型的部署，将模型部署至云平台并上传训练后的模型文件，供报案人线上提交理赔申请，并输出最终的理赔结果。

本发明还提供一种基于树模型的车险快速理赔系统，包括：

数据集的构建模块，用于对上述预处理后的数据进行二分类，构成数据集；

特征的构建模块，用于根据不同的特征类型构建特征库；

机器学习模型的构建模块，用于基于所述数据集和特征库，使用XGBoost树模型构建车险快速理赔模型；

模型的训练模块，用于按照一定比例随机抽取风险案件和正常案件，构造训练集，根据训练结果重新确定最优的正样本和负样本的比例。

上述车险快速理赔系统中，所述数据的预处理模块进一步包括：

分类单元，用于将车险理赔数据分为类别型数据和数值型数据，其中，类别型数据又分为二值化数据和多类别数据；

数据处理单元，用于对于类别型数据，根据业务逻辑使用已存在的类别对异常值和空值进行填充，或把空值使用新的类别进行填充；异常值和空值填充后，类别型数据应全部归属于上述两类中的一类；对于数据值数据，使用均值或者中位数对异常值和空值进行填充。

上述车险快速理赔系统中，将所述特征类型分为类别型特征和数值型特征，所述特征的构建模块具体用于：

对于数值型特征，按以下方式处理：

上述车险快速理赔系统中，所述模型的训练模块具体用于：

上述车险快速理赔系统中，还包括：

模型的部署模块，用于将模型部署至云平台并上传训练后的模型文件，供报案人线上提交理赔申请，并输出最终的理赔结果。

本发明通过对车险理赔数据进行预处理，以及对数据和特征进行分类和处理，提出了适用于车险理赔业务端的数据和特征构建方法，再基于所述数据集和特征库，利用XGBoost树模型构建车险快速理赔模型，显著地提升了模型的精准度和可解释性，极大提高了车险理赔的效率。

附图说明

图1为本实施例中基于树模型的车险快速理赔方法的流程示意图；

图2为本实施例中基于树模型的车险快速理赔系统的框架结构示意图。

具体实施方式

下面结合附图及具体实施例做进一步说明。

如图1所示，本实施例提供一种基于树模型的车险快速理赔方法，主要包括以下步骤：

S1：数据的预处理，将车险理赔数据中的异常值和空值进行处理或填充；

S2：数据集的构建，对上述预处理后的数据进行二分类，构成数据集；

S3：特征的构建，根据不同的特征类型构建特征库；

S4：机器学习模型的构建，基于所述数据集和特征库，使用XGBoost树模型构建车险快速理赔模型；

S5：模型的训练，按照一定比例随机抽取风险案件和正常案件，构造训练集，根据训练结果重新确定最优的正样本和负样本的比例。

S6：模型的部署，将模型部署至云平台并上传训练后的模型文件，供报案人线上提交理赔申请，并输出最终的理赔结果。

本实施例中所述的车险理赔数据包括投保人信息、车辆信息、保单信息和事故现场信息等数据，其中，所述数据的预处理步骤S1具体包括：

通过对整体数据的分析，将不符合数据格式或长度的车险理赔数据判定为异常值，并将异常值和空值进行处理或填充。

具体地，将车险理赔数据分为类别型数据和数值型数据，其中，类别型数据又分为二值化数据和多类别数据。

对于类别型数据，根据业务逻辑使用已存在的类别对异常值和空值进行填充，或把空值使用新的类别进行填充，如“-999”，等等；异常值和空值填充后，类别型数据应全部归属于上述两类中的一类，即，要么全部归属于二值化数据，要么全部归属于多类别数据。

对于数据值数据，使用均值或者中位数对异常值和空值进行填充。使用均值或者中位数进行填充的方法属于常规技术，可参考现有技术文献，此处不再赘述。

车险理赔数据经上述预处理步骤完成之后，归为一个样本库，为简化机器学习的工作难度，本实施例将车险理赔业务抽象成一个二分类问题，在机器学习领域，通常将少数类定义为正样本，多数类定义为负样本，因此，并将正常案件(正常赔付的案件)设定为负样本，标签设为“0”，将风险案件(疑为欺诈案件)设定为正样本，标签设为“1”，正、负样本构成所述数据集，完成数据集的构建步骤S2。

本实施例的车险快速理赔方法中，所述特征的构建步骤S3具体包括：

将特征类型分为类别型特征和数值型特征；

对于类别型特征，由于无法直接输入到模型中计算，需先经特征编码转换成数值型特征，所述特征编码包括标签编码和计数编码，其中，

标签编码是指将某一特征的n种类别一一映射成1，2，……，n等自然数，其中，n的值需要结合数据统计和实际业务情况而定，一般情况n不宜过大，本实施例中，n≤10。标签编码保证了编码前后相同类别的值依旧相同。这种简单的编码方式十分适合树模型。树模型的基本原理是对特征不断的进行二分。在某种程度上，将类别特征映射成整数可以减少树模型的计算量，提高了模型学习的效率。本实施例主要对特征类别数不大于10的特征使用标签编码。

计数编码是指将某一特征中属于该类别的样本数作为该类别的映射结果。特征计数编码后的结果和该类别在数据集中出现的次数相等，该类别在数据集中出现的次数越多，意味着该类别在数据集中的权重越大。计数编码正是通过这种方式来体现各个类别之间权重的差异。本实施例主要对特征类别数大于10的类别特征使用计数编码。

对于数值型特征，所述特征的构建步骤S3还包括：

分箱，将连续型数值进行离散化，使多个连续值变成较少数量的值。

离散化后的特征对异常值有很强的鲁棒性，模型会更稳定，降低了过拟合的风险；和

如，各地区的平均保险价值或中位数、平均投保金额或中位数等。采用聚合方法构建的特征结合了两个或两个以上的特征(类别型和数值型)，包含更多的信息，有利于模型的学习训练。

基于以上构建的数据集和特征库，构建车险快赔的机器学习模型。本实施例使用XGBoost模型。XGBoost全名叫eXtreme Gradient Boosting，是一种快速梯度提升树模型，属于集成模型，基本原理是将多个弱分类器集成为强分类器。相比于其他的集成树模型，它最大的优点是将代价函数使用二阶泰勒展开，使得模型效果显著提升。而且在代价函数中加入正则化项，有效的防止了过拟合。为了提高模型效率，使用了特征级别的并行优化算法，极大地减少了模型训练时间。

本实施例中，所述模型的训练步骤S5具体包括：

抽取数据集中的全量正样本，再按照一定比例随机抽取负样本，构造训练集，根据模型的训练结果重新确定正样本和负样本的比例，直至最优。由于在真实应用的数据分布中，风险案件的比率较低，正、负样本比例极不平衡，若直接用全量数据集进行训练，模型效果会很差。因此本实施例使用了全量的风险案件样本，再按照一定的比例随机抽取正常案件，构造训练集，这样可有利于提高模型学习的精准度、效率和稳定性。

本实施例还包括模型的部署步骤S6，用于将模型部署至云平台并上传训练后的模型文件，供报案人线上提交理赔申请，并输出最终的理赔结果。

当报案人线上通过手机APP或者网页端提交赔付申请后，数据传输至云平台，经过数据接口，输入到模型中进行预测，最后输出赔付结论。

参照图2所示，本发明还提供一种基于树模型的车险快速理赔系统100，主要包括：

数据的预处理模块110，用于将车险理赔数据中的异常值和空值进行处理或填充；

数据集的构建模块120，用于对上述预处理后的数据进行二分类，构成数据集；

特征的构建模块130，用于根据不同的特征类型构建特征库；

机器学习模型的构建模块140，用于基于所述数据集和特征库，使用XGBoost树模型构建车险快速理赔模型；

模型的训练模块150，用于按照一定比例随机抽取风险案件和正常案件，构造训练集，根据训练结果重新确定最优的正样本和负样本的比例。

其中，所述车险理赔数据包括投保人信息、车辆信息、保单信息和事故现场信息等数据，所述数据的预处理模块110具体用于：

具体地，所述数据的预处理模块110进一步包括：

分类单元111，用于将车险理赔数据分为类别型数据和数值型数据，其中，类别型数据又分为二值化数据和多类别数据。

数据处理单元112，对于类别型数据，根据业务逻辑使用已存在的类别对异常值和空值进行填充，或把空值使用新的类别进行填充，如“-999”，等等；异常值和空值填充后，类别型数据应全部归属于上述两类中的一类，即，要么全部归属于二值化数据，要么全部归属于多类别数据。

车险理赔数据经上述预处理步骤完成之后，归为一个样本库，为简化机器学习的工作难度，本实施例将车险理赔业务抽象成一个二分类问题，在机器学习领域，通常将少数类定义为正样本，多数类定义为负样本，因此，并将正常案件(正常赔付的案件)设定为负样本，标签设为“0”，将风险案件(疑为欺诈案件)设定为正样本，标签设为“1”，正、负样本构成所述数据集，此即数据集的构建模块120的作用。

此外，所述特征的构建模块130具体用于：

将所述特征类型分为类别型特征和数值型特征；

对于数值型特征，所述特征的构建模块130还用于：

机器学习模型的构建模块140用于基于以上构建的数据集和特征库，构建车险快赔的机器学习模型。本实施例使用XGBoost模型，相比于其他的集成树模型，它最大的优点是将代价函数使用二阶泰勒展开，使得模型效果显著提升。而且在代价函数中加入正则化项，有效的防止了过拟合。为了提高模型效率，使用了特征级别的并行优化算法，极大地减少了模型训练时间。

本实施例的车险快速理赔系统100中，所述模型的训练模块150具体用于：

本实施例的车险快速理赔系统中，还包括：

模型的部署模块160，用于将模型部署至云平台并上传训练后的模型文件，供报案人线上提交理赔申请，并输出最终的理赔结果。

当报案人线上通过手机APP或者网页端提交赔付申请后，数据传输至云平台，经过数据接口，输入到模型中进行预测，最后输出赔付结论。从用户提交理赔申请到最终预测理赔结果，实现了毫秒级响应。

综上所述，本发明基于车险快速理赔业务的特点，结合适于机器学习的特性，提出了适用于车险理赔业务端的数据集和特征库构建方法，并利用XGBoost树模型构建车险快速理赔模型，显著地提升了模型的精准度和可解释性，极大提高了车险理赔的效率。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于树模型的车险快速理赔方法，其特征在于，包括步骤：

特征的构建，根据不同的特征类型构建特征库；

2.如权利要求1所述的车险快速理赔方法，其特征在于，所述车险理赔数据包括投保人信息、车辆信息、保单信息和事故现场信息，所述数据的预处理步骤具体包括：

3.如权利要求1所述的车险快速理赔方法，其特征在于，所述特征的构建步骤具体包括：

将所述特征类型分为类别型特征和数值型特征；

对于数值型特征，按以下方式处理：

4.如权利要求1所述的车险快速理赔方法，其特征在于，所述模型的训练步骤具体包括：

5.如权利要求1～4任一项中所述的车险快速理赔方法，其特征在于，还包括步骤：

6.一种基于树模型的车险快速理赔系统，其特征在于，包括：

数据的预处理模块，用于将车险理赔数据中的异常值和空值进行处理或填充；

特征的构建模块，用于根据不同的特征类型构建特征库；

7.如权利要求6所述的车险快速理赔系统，其特征在于，所述数据的预处理模块进一步包括：

8.如权利要求6所述的车险快速理赔系统，其特征在于，所述特征的构建模块具体用于：

将所述特征类型分为类别型特征和数值型特征；

对于数值型特征，按以下方式处理：

9.如权利要求6所述的车险快速理赔系统，其特征在于，所述模型的训练模块具体用于：

10.如权利要求6～9任一项中所述的车险快速理赔系统，其特征在于，还包括：