CN109410074A

CN109410074A - 智能核保方法与系统

Info

Publication number: CN109410074A
Application number: CN201811216477.8A
Authority: CN
Inventors: 邓健爽
Original assignee: Guangzhou Kinth Network Technology Co Ltd
Current assignee: Guangzhou Kinth Network Technology Co Ltd
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2019-03-01

Abstract

本发明涉及保险领域，涉及一种智能核保方法，包括：获取投保用户包括体检数据在内的用户数据，进行数据处理和特征提取；对用户数据的i个样本进行随机采样并重复k次，形成k份训练数据；根据k份训练数据构造CART决策树；根据若干个相互独立的决策树构造随机森林分类模型；在保险业务系统中导入随机森林分类模型，输入投保用户的用户数据并获得模型输出的投保建议。本发明还提出一种智能核保系统。本发明提取客户的特征并使用数据对随机森林分类模型进行训练，使用获得的核保模型对投保客户资料进行审核并产生投保建议，提供了一种智能审核的快捷途径为保险公司提供有价值的决策判断，降低人力参与的部分，提高工作效率，降低人力成本。

Description

智能核保方法与系统

技术领域

本发明涉及保险领域，特别涉及一种智能核保方法与系统。

背景技术

保险核保是指保险人对投保申请进行审核，决定是否接受承保这一风险，并在接受承保风险的情况下，确定承保条件的过程。

简而言之，核保就是保险公司考核投保人的各种条件，考虑自己的风险承受能力，对不同的投保人进行区别对待。

保险公司通过核保，可以对不同风险的个体收取不同的费用，做到公平费率。

当前保险公司进行核保的时候通常聘请专门的人员进行处理，但是人工处理效率较低，而且核保过程依赖人员经验，可能存在问题。

发明内容

本发明的实施方式旨在至少解决现有技术中存在的技术问题之一。为此，本发明的实施方式需要提供一种智能核保方法与系统。

本发明实施方式的一种智能核保方法，其特征在于，包括：

步骤1，获取投保用户包括体检数据在内的用户数据，进行数据处理和特征提取；

步骤2，对用户数据的i个样本进行随机采样并重复k次，形成k份训练数据；

步骤3，根据k份训练数据构造CART决策树；

步骤4，根据若干个相互独立的决策树构造随机森林分类模型；

步骤5，在保险业务系统中导入随机森林分类模型，输入投保用户的用户数据并获得模型输出的投保建议。

一种实施方式中，步骤1包括：

步骤11，获取投保用户包括体检数据在内的用户数据；

步骤12，通过离散化方法对用户数据中的多个连续特征进行离散处理；

步骤13，通过归一化方法对连续型特征进行无量纲化处理；

步骤14，通过哑编码方法将定性特征转换为定量特征。

一种实施方式中，步骤2包括：通过自助法对用户数据的i个样本进行随机采样并重复k次，形成k份训练数据。

一种实施方式中，步骤3包括：

步骤31，确定分类标记集合；

步骤32，依据训练数据建立节点N；

步骤33，根据分类标记集合将属于同一个类的训练数据对应的节点标记出所属的类；

步骤34，将特征集为空的训练数据对应的节点依据少数服从多数的原则标记出所属的类；

步骤35，从M个特征中随机选m个特征以基尼系数最小的特征作为节点的分裂特征；其中，M表示特征集为空的训练数据的特征数量，m＝sqrt(M)且满足条件m<<M；

步骤36，对分裂特征中的每个值，从N生成一个分支，将训练数据中与该分支有关的数据收集形成分支节点的训练数据，并删除分支节点对应的节点特征；

步骤37，若步骤36的分支训练数据中的特征非空，则转到步骤31从该分支节点建立子树。

一种实施方式中，步骤4包括：由若干个相互独立的决策树构造随机森林分类模型，在每个决策树中对输入的数据进行投票，对投票结果进行统计并将得票数最多的分类结果作为模型的最终输出。

本实施方式还提出一种智能核保系统，其特征在于，包括：

数据处理模块，用于获取投保用户包括体检数据在内的用户数据，进行数据处理和特征提取；

随机采样模块，用于对用户数据的i个样本进行随机采样并重复k次，形成k份训练数据；

决策树构造模块，用于根据k份训练数据构造CART决策树；

随机森林模块，用于根据若干个相互独立的决策树构造随机森林分类模型；

核保模块，用于在保险业务系统中导入随机森林分类模型，输入投保用户的用户数据并获得模型输出的投保建议。

一种实施方式中，数据处理模块包括：

数据获取单元，用于获取投保用户包括体检数据在内的用户数据；

离散处理单元，用于通过离散化方法对用户数据中的多个连续特征进行离散处理；

归一化单元，用于通过归一化方法对连续型特征进行无量纲化处理；

哑编码单元，用于通过哑编码方法将定性特征转换为定量特征。

一种实施方式中，随机采样模块具体用于通过自助法对用户数据的i个样本进行随机采样并重复k次，形成k份训练数据。

一种实施方式中，决策树构造模块包括：

确定单元，用于确定分类标记集合；

节点单元，用于依据训练数据建立节点N；

第一标记单元，用于将属于同一个类的训练数据对应的节点标记出所属的类；

第二标记单元，用于将特征集为空的训练数据对应的节点依据少数服从多数的原则标记出所属的类；

分裂特征单元，用于从M个特征中随机选m个特征以基尼系数最小的特征作为节点的分裂特征；其中，M表示特征集为空的训练数据的特征数量，m＝sqrt(M)且满足条件m<<M；

分支节点单元，用于对分裂特征中的每个值，从N生成一个分支，将训练数据中与该分支有关的数据收集形成分支节点的训练数据，并删除分支节点对应的节点特征；

子树建立单元，用于若步骤36的分支训练数据中的特征非空，则转到步骤31从该分支节点建立子树。

一种实施方式中，随机森林模块具体用于由若干个相互独立的决策树构造随机森林分类模型，在每个决策树中对输入的数据进行投票，对投票结果进行统计并将得票数最多的分类结果作为模型的最终输出。

本发明实施方式的智能核保方法与系统，通过对用户数据的全面分析与处理，提取客户的特征并使用数据对随机森林分类模型进行训练，并获得最后的核保模型。然后使用这个核保模型，对保险行业投保客户的资料进行审核，并产生投保建议。该方法提供一种智能审核的快捷途径，通过这种途径可以为保险公司提供有价值的决策判断，降低人力参与的部分，提高工作效率，降低人力成本。

本发明的附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的实施方式的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是本发明实施方式的智能核保方法的流程示意图；

图2是本发明实施方式的智能核保系统的组成示意图。

具体实施方式

下面详细描述本发明的实施方式，实施方式的示例在附图中示出，其中相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅可用于解释本发明的实施方式，而不能理解为对本发明的实施方式的限制。

请参阅图1，本发明实施方式的智能核保方法，包括：

步骤1，获取投保用户包括体检数据在内的用户数据，进行数据处理和特征提取。

步骤2，对用户数据的i个样本进行随机采样并重复k次，形成k份训练数据。

步骤3，根据k份训练数据构造CART决策树。

步骤4，根据若干个相互独立的决策树构造随机森林分类模型。

请参阅图2，本发明实施方式的智能核保系统，包括：数据处理模块、随机采样模块、决策树构造模块、随机森林模块和核保模块，其中各个模块介绍如下：

数据处理模块，用于获取投保用户包括体检数据在内的用户数据，进行数据处理和特征提取。

随机采样模块，用于对用户数据的i个样本进行随机采样并重复k次，形成k份训练数据。

决策树构造模块，用于根据k份训练数据构造CART决策树。

随机森林模块，用于根据若干个相互独立的决策树构造随机森林分类模型。

在该实施方式中，智能核保方法以智能核保系统作为步骤的执行对象，或者以系统内的各个模块作为步骤的执行对象。具体地，步骤1以数据处理模块作为步骤的执行对象，步骤2以随机采样模块作为步骤的执行对象，步骤3以决策树构造模块作为步骤的执行对象，步骤4以随机森林模块作为步骤的决策对象，步骤5以核保模块作为步骤的执行对象。

步骤1中，投标客户的用户数据包括有性别、年龄、身高、体重、舒张压、收缩压、发育、胸廓、肺部、心界、心音、节律、杂音、腹部包块、腹部压痛、肝、脾、神经系统、脉搏、胸围、腹围、臀围、腰围、皮肤、淋巴结、外周血管、头面部、甲状腺、四肢、脊椎、泌尿生殖器官、肛门、晶体、视力(右)、视力(左)、眼底、外眼(右)、外眼(左)、听力(右)、听力(左)、耳部、扁桃体等特征。对特征需要进行数据处理和特征提取，所以步骤1包括：

步骤11，获取投保用户包括体检数据在内的用户数据。

步骤12，通过离散化方法对用户数据中的多个连续特征进行离散处理。

步骤13，通过归一化方法对连续型特征进行无量纲化处理。

步骤14，通过哑编码方法将定性特征转换为定量特征。

对应地，智能核保系统中数据处理模块包括：

数据获取单元，用于获取投保用户包括体检数据在内的用户数据。

离散处理单元，用于通过离散化方法对用户数据中的多个连续特征进行离散处理。

归一化单元，用于通过归一化方法对连续型特征进行无量纲化处理。

步骤11至步骤14可以由数据处理模块作为步骤的执行对象，也可以由模块的各个单元作为步骤的执行对象。具体地，步骤11可以由数据获取单元作为步骤的执行对象，步骤12可以由离散处理单元作为步骤的执行对象，步骤13可以由归一化单元作为步骤的执行对象，步骤14可以由哑编码单元作为步骤的执行对象。

步骤12中，离散特征的增加和减少都很容易，易于快速迭代；离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会造成很大的干扰；并且特征离散化后，模型会更稳定。

步骤13中，在进行特征选择之前，一般会先进行数据无量纲化处理，这样，表征不同属性(单位不同)的各特征之间才有可比性。

步骤14中，哑编码方法对问题描述更简明，而且接近现实。如果某个因素有n种选择，则将其用哑变量引入模型时，要设置n-1个哑变量，以避免完全的多重共线性。

经过上述数据处理和特征提取，在步骤2中，随机采样模块通过自助法对用户数据的i个样本进行随机采样并重复k次，形成k份训练数据。自助法，又称为Bootstrap法，是以原始数据为基础的模拟抽样统计推断法，可用于研究一组数据的某统计量的分布特征，特别适用于那些难以用常规方法导出对参数的区间估计、假设检验等问题。其基本思想是：在原始数据的范围内作有放回的再抽样,样本容量仍为k，原始数据中每个观察单位每次被抽到的概率相等,为1/k,所得样本称为Bootstrap样本。假如有投保客户数据里有i个样本，则有放回的随机选择i个样本，其中每次随机选择一个样本，然后放回进行下一次选择，这样形成有i个样本的训练数据。整个过程重复k次，就可以得到k份训练数据。

步骤3中，具体包括：

步骤31，确定分类标记集合。

步骤32，依据训练数据建立节点N。

步骤33，根据分类标记集合将属于同一个类的训练数据对应的节点标记出所属的类。

步骤34，将特征集为空的训练数据对应的节点依据少数服从多数的原则标记出所属的类。

步骤35，从M个特征中随机选m个特征以基尼系数最小的特征作为节点的分裂特征；其中，M表示特征集为空的训练数据的特征数量，m＝sqrt(M)且满足条件m<<M。

步骤36，对分裂特征中的每个值，从N生成一个分支，将训练数据中与该分支有关的数据收集形成分支节点的训练数据，并删除分支节点对应的节点特征。

相应地，智能核保系统中决策树构造模块包括：

确定单元，用于确定分类标记集合。

节点单元，用于依据训练数据建立节点N。

第一标记单元，用于将属于同一个类的训练数据对应的节点标记出所属的类。

第二标记单元，用于将特征集为空的训练数据对应的节点依据少数服从多数的原则标记出所属的类。

分裂特征单元，用于从M个特征中随机选m个特征以基尼系数最小的特征作为节点的分裂特征；其中，M表示特征集为空的训练数据的特征数量，m＝sqrt(M)且满足条件m<<M。

分支节点单元，用于对分裂特征中的每个值，从N生成一个分支，将训练数据中与该分支有关的数据收集形成分支节点的训练数据，并删除分支节点对应的节点特征。

步骤31至步骤37可以由决策树构造模块作为步骤的执行对象，也可以由模块内的单元作为步骤的执行对象。具体地，步骤31由确定单元作为步骤的执行对象，步骤32由节点单元作为步骤的执行对象，步骤33由第一标记单元作为步骤的执行对象，步骤34由第二标记单元作为步骤的执行对象，步骤35由分裂特征单元作为步骤的执行对象，步骤36由分支节点单元作为步骤的执行对象，步骤37由子树建立单元作为步骤的执行对象。

如表格1所示，保险公司提供的投保客户数据如下：

性别	年龄	身高	体重	舒张压	收缩压	发育	胸廓	……	审核结果
										男	35	163	60	131	72	正常	无畸形	……	通过
男	33	156	57	125	71	正常	无畸形	……	不通过
										男	24	177	73	107	70	正常	无畸形	……	不通过
女	54	176	79.5	100	70	正常	无畸形	……	不通过
										女	42	159.5	71	100	80	正常	无畸形	……	通过

表格1

其中有100个特征，和一个分类信息，分类标记为“通过”和“不通过”。

本方法中使用的决策树模型为CART树，其构造过程如下：

步骤31，决定分类标记集合，以审核结果为例，集合为{“通过”，“不通过”}

步骤32，对目前的训练数据，建立一个节点N。

步骤33，如果训练数据都属于同一个类，N就是树叶，在树叶上标出所属的类。

以投保客户数据为例，如果剩余的数据的审核结果都是“通过”，则这个节点就是树叶，值为“通过”。

步骤34，如果训练数据中没有其他特征可以考虑(特征集为空)，则N也是树叶，按照少数服从多数的原则在树叶上标出所属类别。

以投保客户数据为例，如果剩余数据只有一个性别特征，那么这个节点下面的两个分支为“男”和“女”，然后每个分支都没有其他特征可以继续分下去了，于是这两个节点也是树叶，取分类标记数量最多那个作为树叶的值。

在35，否则，设样本的特征数量为M，从中随机选m个特征(m＝sqrt(M)，满足条件m<<M))，然后从这m个特征中采用基尼系数最小的那个特征作为为该节点的分裂特征。以投保客户数据为例，就是从100个特征里随机选10个，然后从这10特征中，根据特征的基尼系数选择一个最小的值作为这个根节点的分裂特征，然后以这10个特征为基本特征，往下生成树枝。

步骤36，选定分裂特征后，对于该特征中的每个值：从N生成一个分支，并将训练数据中与该分支有关的数据收集形成分支节点的训练数据，并删除节点特征那一栏。

以投保客户数据为例，譬如选定的特征为性别，特征的取值为“男”和“女”，则从这个节点先生成一个分支“男”，把训练数据中性别特征取值为男的数据都归到这个分支，并删除性别那一行。

步骤37，如果分支训练数据特征非空，则转步骤31，运用以上算法从该节点建立子树。

对于步骤35中的基尼系数，在分类问题中，假设有K个类，样本属于第k类的概率为P_k，则概率分布的基尼系数数定义为：

Gini(p)＝∑P_k(1-P_k)＝1-∑P_k ²

对于二分类问题，若样本点属于第1个类的概率是p，则概率分布的基尼系数为：

Gini)p)＝2p(1-p)

对于给定的样本集，其基尼系数为：

Gini(D)＝1-∑(|C_k|/|D|)²

其中，C_k是D中属于第k类的样本子集，k是类的个数。

如果样本集合D根据特征A是否取到某一可能值a被分割成D1和D2两部分，则在特征A的条件下，集合D的基尼指数定义为：

基尼系数Gini(D)表示集合D的不确定性，基尼指数越大，样本集合的不确定性也就越大，所以在分裂属性时选择基尼系数小的属性。

以表格1的投保客户数据为例，则该样本的基尼系数为：

Gini(D)＝2*0.4(1-0.4)＝0.48

请参阅表格2和表格3。将表格1中的投保客户数据根据特征“性别”是否可能取值为“男”可以被分割为下面两个数据集D1和D2：

性别

年龄

身高

体重

舒张压

收缩压

发育

胸廓

……

审核结果

男

35

163

60

131

72

正常

无畸形

……

通过

男

33

156

57

125

71

正常

无畸形

……

不通过

男

24

177

73

107

70

正常

无畸形

……

不通过

表格2

性别

年龄

身高

体重

舒张压

收缩压

发育

胸廓

……

审核结果

女

54

176

79.5

100

70

正常

无畸形

……

不通过

女

42

159.5

71

100

80

正常

无畸形

……

通过

表格3

计算在特征为“性别”的条件下，数据的基尼系数为：

Gini(D,“性别”)＝3/5*Gini(D1)+2/5*Gini(D2)＝3/5*4/9+2/5*1/4＝0.41

对所有训练样本重复上述的过程，最终就可以得到k棵决策树。

步骤4中，具体包括：由若干个相互独立的决策树构造随机森林分类模型，在每个决策树中对输入的数据进行投票，对投票结果进行统计并将得票数最多的分类结果作为模型的最终输出。

随机森林分类模型的最终输出就是一个由若干个相互独立的决策树组成的强分类器，这些决策树对输入的数据进行判断并输出最终的分类结果，这个过程称为投票；随机森林分类模型对投票结果进行统计并将得票数最多的分类结果作为模型的最终输出。

在本方法中，主要是对投保客户进行审核，输出的分类结果为审核结果：“通过”或“不通过”，所以形成的随机森林分类模型可以简述如下：

投票：将投保客户数据输入，每棵决策树对输入数据进行判断，输出各自的分类结果；

统计：对所有结果进行统计，数目最多的结果为最终的输出结果。

在步骤5中，将训练完的随机森林分类模型导出为文件，由业务系统进行导入和调用。业务系统通过输入投保客户的信息，获得由随机森林分类模型输出的投保建议。

本发明实施方式，流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的实施方式的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。此外，在本发明的各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种智能核保方法，其特征在于，包括：

步骤3，根据k份训练数据构造CART决策树；

2.如权利要求1所述智能核保方法，其特征在于，步骤1包括：

步骤11，获取投保用户包括体检数据在内的用户数据；

步骤13，通过归一化方法对连续型特征进行无量纲化处理；

步骤14，通过哑编码方法将定性特征转换为定量特征。

3.如权利要求2所述智能核保方法，其特征在于，步骤2包括：通过自助法对用户数据的i个样本进行随机采样并重复k次，形成k份训练数据。

4.如权利要求3所述智能核保方法，其特征在于，步骤3包括：

步骤31，确定分类标记集合；

步骤32，依据训练数据建立节点N；

5.如权利要求4所述智能核保方法，其特征在于，步骤4包括：由若干个相互独立的决策树构造随机森林分类模型，在每个决策树中对输入的数据进行投票，对投票结果进行统计并将得票数最多的分类结果作为模型的最终输出。

6.一种智能核保系统，其特征在于，包括：

决策树构造模块，用于根据k份训练数据构造CART决策树；

7.如权利要求6所述智能核保系统，其特征在于，数据处理模块包括：

8.如权利要求7所述智能核保系统，其特征在于，随机采样模块具体用于通过自助法对用户数据的i个样本进行随机采样并重复k次，形成k份训练数据。

9.如权利要求8所述智能核保系统，其特征在于，决策树构造模块包括：

确定单元，用于确定分类标记集合；

节点单元，用于依据训练数据建立节点N；

10.如权利要求9所述智能核保系统，其特征在于，随机森林模块具体用于由若干个相互独立的决策树构造随机森林分类模型，在每个决策树中对输入的数据进行投票，对投票结果进行统计并将得票数最多的分类结果作为模型的最终输出。