CN110516910A

CN110516910A - 基于大数据的保单核保模型训练方法和核保风险评估方法

Info

Publication number: CN110516910A
Application number: CN201910665008.2A
Authority: CN
Inventors: 王进; 刘行行
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2019-11-29
Anticipated expiration: 2039-07-23
Also published as: CN110516910B; WO2021012783A1

Abstract

本发明实施例提供了一种基于大数据的保单核保模型训练方法，包括：基于预先配置的风险特征项集合，获取多个客户的多个样本数据集，每个样本数据集中包括对应客户与多个风险特征项对应的多个样本原始特征；将每个样本数据集中的多个样本原始特征填充到对应的风险特征项的字段中；基于每个风险特征项的信息值从多个风险特征项中筛选出多个目标风险特征项；将每个样本数据集中的多个目标风险特征项对应的多个样本原始特征输入到迭代决策树模型中，以通过迭代决策树模型输出对应于多个样本数据集的多个风险特征组合；及根据多个风险特征组合对多个目标模型中进行训练，以构建保单核保风险评估模型。本实施例针对核保风险评估具有较高的评估精确度。

Description

基于大数据的保单核保模型训练方法和核保风险评估方法

技术领域

本发明实施例涉及计算机数据处理领域，尤其涉及一种基于大数据的保单核保模型训练方法、系统、计算机设备、计算机可读存储介质，以及核保风险评估方法。

背景技术

随着人们保险意识逐渐增强，商业保险已经成为当前社会保障体系的重要组成部分。根据可参考数据，部分保险机构的保单数量在千万级别。这些保单在保险系统中生成之后，需要对保单进行核保，以确定保单中的信息是否符合参保要求。现在对保单的核保方式，一般是由人工进行核保。如基于风险控制规则以及不同客户群的产品定价信息、辅助信息(体检信息、健康调查信息、财务调查信息)等，由人工对保单进行复核。

然而，随着大数据挖的快速发展，用于核保的可参照数据越来越多。若是人工进行核保，不仅会造成大量的人力消耗，而且核保效率较低，对多维数据难以有效利用而导致核保风险精度低，效率低下。因此，如何基于大数据进行数据建模并通过数据模型进行保单核保，是当前的研究方向之一。

发明内容

有鉴于此，本发明实施例的目的是提供一种基于大数据的保单核保模型训练方法、系统、计算机设备及计算机可读存储介质，可以解决传统的数据挖掘和数据建模的核保风险精度低的问题。

为实现上述目的，本发明实施例提供了一种基于大数据的保单核保模型训练方法，包括以下步骤：

预先配置风险特征项集合，所述风险特征项集合中包括多个风险特征项；

基于所述风险特征项集合，从客户信息数据库中获取多个客户的多个样本数据集，每个样本数据集中包括对应客户与多个风险特征项对应的多个样本原始特征；

将每个样本数据集中的多个样本原始特征填充到对应的风险特征项的字段中；

对每个风险特征项对应的多个样本原始特征进行分析，得到每个风险特征项的信息值；

根据每个风险特征项的信息值，从所述多个风险特征项中筛选出多个目标风险特征项；

将每个样本数据集中的多个目标风险特征项对应的多个样本原始特征输入到迭代决策树模型中，以通过所述迭代决策树模型输出对应于所述多个样本数据集的多个风险特征组合；及

根据所述多个风险特征组合对多个目标模型中进行训练，以构建保单核保风险评估模型。

优选地，将每个样本数据集中的多个样本原始特征填充到对应的风险特征项的字段中的步骤，包括：

以预设规则将所述多个样本数据集分为第一组样本数据集和第二组样本数据集；

判断所述第二组样本数据集中的多个样本数据集中是否包括一个或多个数据缺失样本，所述数据缺失样本的样本数据集中包括一个或多个样本空白特征，所述样本空白特征是指对应风险特征项的样本原始特征为空值；

如果所述第二组样本数据集中的多个样本数据集中包括一个或多个数据缺失样本，选择第一组样本数据集中的多个样本数据集中的一个或多个样本原始特征填充到所述样本空白特征所对应的字段位置处。

优选地，以预设规则将所述多个样本数据集分为第一组样本数据集和第二组样本数据集的步骤，包括：

将所述多个样本数据集输入到随机森林分类模型中，将所述多个样本数据集对应的多个样本分类为第一类样本和第二类样本；

其中，所述第一类样本对应于所述第一组样本数据集，所述第二类样本对应于所述第二组样本数据集。

优选地，选择第一组样本数据集中的多个样本数据集中的一个或多个样本原始特征填充到所述样本空白特征所对应的字段位置处的步骤，包括：

通过所述第一组样本数集中各个样本构建KD树；

将所述数据缺失样本对应的样本原始特征输入到最近邻搜索模型中；

通过所述最近邻搜索模型查找到与所述数据缺失样本最邻近的目标样本；

将该目标样本中与样本空白特征对应的目标数据填充到相应的字段位置处；

其中，所述最近邻搜索模型的KD树藉由所述第一组样本数据集中的各个样本构建而成。

优选地，所述多个目标模型包括逻辑回归模型、因子分解机模型和深度神经网络模型

为实现上述目的，本发明实施例还提供了基于大数据的保单核保模型训练系统，包括：

配置模块，用于预先配置风险特征项集合，所述风险特征项集合中包括多个风险特征项；

获取模块，用于基于所述风险特征项集合，从客户信息数据库中获取多个客户的多个样本数据集，每个样本数据集中包括对应客户与多个风险特征项对应的多个样本原始特征；

填充模块，用于将每个样本数据集中的多个样本原始特征填充到对应的风险特征项的字段中；

分析模块，用于对每个风险特征项对应的多个样本原始特征进行分析，得到每个风险特征项的信息值；

筛选模块，用于根据每个风险特征项的信息值，从所述多个风险特征项中筛选出多个目标风险特征项；

风险特征组合输出模块，用于将每个样本数据集中的多个目标风险特征项对应的多个样本原始特征输入到迭代决策树模型中，以通过所述迭代决策树模型输出对应于所述多个样本数据集的多个风险特征组合；及

训练模块，用于根据所述多个风险特征组合对多个目标模型中进行训练，以构建保单核保风险评估模型。

为实现上述目的，本发明实施例还提供了一种计算机设备，所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被处理器执行时实现如上所述的基于大数据的保单核保模型训练方法的步骤。

为实现上述目的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行如上所述的基于大数据的保单核保模型训练方法的步骤。

为实现上述目的，本发明实施例还提供了一种核保风险评估方法，其特征在于，包括以下步骤：

获取目标客户的目标数据集，所述目标数据集中包括多个风险特征项对应的多个风险特征；

判断所述目标客户的目标数据集中是否有空白风险特征；

如果有空白风险特征，通过最近邻搜索模型查找到与目标客户最邻近的目标样本，以将所述目标样本中的风险特征填充所述目标数据集的空白风险特征；

将填充后的目标数据集输入到迭代决策树模型中；

通过所述迭代决策树模型输出对应的风险特征组合；

根据核保风险评估模型对所述风险特征组合进行预测以获取所述目标客户的风险系数，所述核保风险评估模型上述基于大数据的保单核保模型训练方法训练得到。

优选地，所述核保风险评估模型包括逻辑回归模型、因子分解机模型和深度神经网络模型；

根据核保风险评估模型对所述风险特征组合进行预测以获取所述目标客户的风险系数的步骤，包括：

根据逻辑回归模型输出的第一风险系数、因子分解机模型输出的第二风险系数和深度神经网络模型输出的第三风险系数，计算所述目标客户的所述风险系数。

本发明实施例提供的基于大数据的保单核保模型训练方法、系统、计算机设备、计算机可读存储介质以及核保风险评估方法，以样本数据集和各个风险特征信息值为基础得到迭代决策树模型输出的多个风险特征组合，将多个风险特征组合输入多个目标模型中以构建保单核保风险评估模型，所构建的保单核保风险评估模型兼具有多个目标模型的数据评估优势，针对核保风险评估具有较高的评估精确度以及较高的效率。

附图说明

图1为本发明基于大数据的保单核保模型训练方法实施例一的流程图。

图2为图1中步骤S104的流程图。

图3为本发明基于大数据的保单核保模型训练系统实施例二的程序模块示意图。

图4为本发明计算机设备实施例三的硬件结构示意图。

图5为本发明核保风险评估方法实施例五的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

以下实施例将以计算机设备2为执行主体进行示例性描述。

实施例一

参阅图1，示出了本发明实施例一之基于大数据的保单核保模型训练方法的步骤流程图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下。

步骤S100，预先配置风险特征项集合，所述风险特征项集合中包括多个风险特征项。

示例性的，所述风险特征项集合可以包括多个子集合，如：客户相关风险特征子集合、保单风险特征子集合、业务员风险特征子集合、关联信息风险特征子集合、互联网风险特征子集合等。客户相关风险子集合可以包括：客户基本信息(性别、年龄、职业、学历等)、社保信息、与收益人的社会关系等。保单风险特征子集合可以包括：保单保额、险种信息等。业务员风险特征子集合可以包括基本信息(业务员性别、年龄、从业年限)、销售习惯、佣金提成、产品销售数据、所属团队、考勤信息、品质信息等等。关联信息风险特征子集合可以包括：家庭信息等。互联网风险特征子集合可以包括购买行为信息、产品关联信息等。

需要说明的是，上述风险特征项集合的多个风险特征项可以由用户自定义，也可以通过用于特征分类的无监督神经网络模型分析得到。

步骤S102，基于所述风险特征项集合，从客户信息数据库中获取多个客户的多个样本数据集，每个样本数据集中包括对应客户与多个风险特征项对应的多个样本原始特征。

例如，获取M个客户对应的M个样本数据集，每个样本数据集中包括N个风险特征项对应的N个样本原始特征，M个样本数据集分别为：

A₁(a₁₁，a₁₂，a₁₃，……a_1N)

A₂(a₂₁，a₂₂，a₂₃，……a_2N)

...

A_M(a_M1，a_M2，a_M3，……a_MN)

步骤S104，将每个样本数据集中的多个样本原始特征填充到对应的风险特征项的字段中。

所述多个样本数据集中对应的多个样本原始特征可以构成N个特征列，例如：

将a₁₁，a₂₁，a₃₁，……a_M1填充至一个字段名对应的字段中，构成一特征列；将a₁₂，a₂₂，a₃₂，……a_M2填充至一个字段名对应的字段中，构成一特征列…；将a₁₃，a₂₃，a₃₃，……a_MN填充至一个字段名对应的字段中，构成一特征列。

在示例性的实施例中，如图2所示，所述步骤S104进一步包括：

S104a，以预设规则将所述多个样本数据集分为第一组样本数据集和第二组样本数据集。

示例性的，将所述多个样本数据集输入到RF(Random Forest，随机森林)分类模型中，将所述多个样本数据集对应的多个样本分类为第一类样本和第二类样本，所述第一类样本为老客户样本，所述第二类样本为新客户样本，因此，所述多个样本数据集被分为第一类样本对应的第一组样本数据集，和第二类样本对应的第二组样本数据集。不难理解，老客户样本的样本数据集的风险特征比较齐全，而新客户样本的样本数据集的风险特征可能有些不齐全。

S104b，判断所述第二组样本数据集中的多个样本数据集中是否包括一个或多个数据缺失样本，所述数据缺失样本的样本数据集中包括一个或多个样本空白特征，所述样本空白特征是指对应于某个风险特征项的样本原始特征为空值。

S104c，如果是，选择第一组样本数据集中的多个样本数据集中的一个或多个样本原始特征填充到所述样本空白特征所对应的字段位置处。

示例性的，通过所述第一组样本数集中各个样本构建KD树，并将所述数据缺失样本对应的样本原始特征输入到最近邻搜索(KD_tree，K-dimension tree)模型中，通过所述KD_tree模型查找到与所述数据缺失样本最邻近的目标样本，将该目标样本中与样本空白特征对应的目标数据填充到相应的字段位置处。

将所述数据缺失样本的样本数据集和第一组样本数据集中的多个样本数据集输入到随机森林分类模型中，得到第一组样本数据集中各个样本在决策树中对应的叶子节点的节点编号，其中，每个所述叶子节点具有唯一的节点编号。

通过所述第一组样本数集中各个样本在决策树中对应的叶子节点的节点编号，构建KD树，并将所述数据缺失样本对应的叶子节点的节点编号输入到所述KD_tree模型中，通过所述KD_tree模型查找到与所述数据缺失样本最邻近的目标样本。

本实施例可以解决部分样本的样本原始特征空白的问题。

步骤S106，对每个风险特征项对应的多个样本原始特征进行分析，得到每个风险特征项的信息值(IV，information value)。

信息值用于表示相应风险特征在风险评估中的预测准确度的影响程度。

以计算特征列(a₁₁，a₂₁，a₃₁，……a_M1)对应的风险特征(客户年龄)的信息值为例：

IV_i＝WoE_i*(Py_i-Pn_i)

WoE_i(Weight of Evidence，证据权重)，是一种将数值做离散化处理的方式，WoE值表达的是变量取某个值时对核保风险评估结果的一种影响，Py_i表示将特征列进行离散处理后，每个年龄区间的高风险保险数量与全部年龄区间的高风险保险数量之比；Pn_i表示每个年龄区间的非高风险保险数量与全部年龄区间的非高风险保险数量之比。IV_i表示每个年龄区间的信息值，IV表示该特征列的全部年龄区间的信息值。

步骤S108，根据每个风险特征项的信息值，从所述多个风险特征项中筛选出多个目标风险特征项。

通过步骤S106进行单变量分析，从而将所述多个风险特征项中筛选出部分风险特征项(即，多个目标风险特征项)，该被筛选出的部分风险特征项对应的风险特征将被输入到迭代决策树模型中。不难理解，该步骤可以将无效特征项剔除的依据，以减轻训练负担。

步骤S110，将每个样本数据集中的多个目标风险特征项对应的多个样本原始特征输入到迭代决策树模型(Gradient Boosting Decision Tree，梯度提升决策树GBDT)中，以通过所述迭代决策树模型输出对应于所述多个样本数据集的多个风险特征组合。

迭代决策树模型可以为GBDT(Gradient Boosting Decision Tree，梯度提升决策树)模型，其基于一种迭代的决策树算法，该决策树算法由多棵决策树组成，具体结构为：每一颗树拟合前K棵树的残差，及每一棵树都依赖前一棵树的结果，因此，决策树之间需要保证一定的顺序。这样，通过GBDT模型中的多棵决策树对所述多个样本数据集进行决策分类，从而可以找出所述多个样本数据集中各个风险特征之间的关联关系，并将具有关联关系的特征进行组合，得到风险特征组合。

具体地，GBDT模型中的每棵决策树包括根节点、中间节点和叶子节点。根节点和每个中间节点都有对应一个风险特征项(如年龄)和风险特征值(如年龄30岁)，如果某个样本的客户年龄大于30岁，则将该样本分配到该节点的右子节点，否则分到左子节点，下层节点同理，直至该样本落到某叶子节点。根据该样本落在各个决策树上的叶子节点，得到该样本对应的风险特征组合。可以理解，当有多个样本时，会得到对应的多个风险特征组合。

步骤S112，根据所述多个风险特征组合对多个目标模型中进行训练，以构建保单核保风险评估模型，所述多个目标模型包括LR(loss function，逻辑回归)模型、FM(Factorization Machine，因子分解机)模型和深度网络神经模型。

LR模型：具有较高的可解释性，将GBDT模型输出的所述多个风险特征组合作为LR模型的输入，也可以有效提高LR模型的评估效果；

FM模型：将GBDT模型输出的所述多个风险特征组合作为FM模型的输入，可以在高度稀疏的条件下能够更好地挖掘风险特征项间的相关性，尤其在训练样本中没有出现的交叉数据的情况下。

深度神经网络模型：相对LR模型而言可解释性较低，但具有评估精度高的优势，将GBDT模型输出的所述多个风险特征组合作为深度神经网络模型的输入，可以进步提高评估精度。

其中，深度神经网络模型可以包括DNN或者ANN等。其中，DNN适合大数据和分布式训练，以训练DNN为例进行说明。

DNN的训练过程：DNN的输入层用于输入GBDT模型输出的所述多个风险特征组合，而输出层即可输出预测风险系数。可以理解的是，针对每个样本数据集，即在将该样本数据集对应的所述多个风险特征组合输入到DNN之后，DNN都会输出相应的预测风险系数。若每个预测风险系数与相应样本的样本标签相符合的概率达到预设阈值，此处的预设阈值可以根据经验值设定，则可以认为已经得到了优化的DNN。

实施例二

请继续参阅图3，示出了本发明基于大数据的保单核保模型训练系统实施例二的程序模块示意图。在本实施例中，基于大数据的保单核保模型训练系统20可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本发明，并可实现上述基于大数据的保单核保模型训练方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述基于大数据的保单核保模型训练系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能：

配置模块200，用于预先配置风险特征项集合，所述风险特征项集合中包括多个风险特征项。

获取模块202，用于基于所述风险特征项集合，从客户信息数据库中获取多个客户的多个样本数据集，每个样本数据集中包括对应客户与多个风险特征项对应的多个样本原始特征。

填充模块204，用于将每个样本数据集中的多个样本原始特征填充到对应的风险特征项的字段中。

在示例性的实施例中，所述填充模块204还用于：以预设规则将所述多个样本数据集分为第一组样本数据集和第二组样本数据集；判断所述第二组样本数据集中的多个样本数据集中是否包括一个或多个数据缺失样本，所述数据缺失样本的样本数据集中包括一个或多个样本空白特征，所述样本空白特征是指对应风险特征项的样本原始特征为空值；如果所述第二组样本数据集中的多个样本数据集中包括一个或多个数据缺失样本，选择第一组样本数据集中的多个样本数据集中的一个或多个样本原始特征填充到所述样本空白特征所对应的字段位置处。

其中，以预设规则将所述多个样本数据集分为第一组样本数据集和第二组样本数据集，具体包括以下：将所述多个样本数据集输入到随机森林分类模型中，将所述多个样本数据集对应的多个样本分类为第一类样本和第二类样本；其中，所述第一类样本对应于所述第一组样本数据集，所述第二类样本对应于所述第二组样本数据集。

其中，选择第一组样本数据集中的多个样本数据集中的一个或多个样本原始特征填充到所述样本空白特征所对应的字段位置处，具体包括如下：通过所述第一组样本数集中各个样本构建KD树；将所述数据缺失样本对应的样本原始特征输入到最近邻搜索模型中；通过所述最近邻搜索模型查找到与所述数据缺失样本最邻近的目标样本；将该目标样本中与样本空白特征对应的目标数据填充到相应的字段位置处；其中，所述最近邻搜索模型的KD树藉由所述第一组样本数据集中的各个样本构建而成。

分析模块206，用于对每个风险特征项对应的多个样本原始特征进行分析，得到每个风险特征项的信息值。

筛选模块208，用于根据每个风险特征项的信息值，从所述多个风险特征项中筛选出多个目标风险特征项。

风险特征组合输出模块210，用于将每个样本数据集中的多个目标风险特征项对应的多个样本原始特征输入到迭代决策树模型中，以通过所述迭代决策树模型输出对应于所述多个样本数据集的多个风险特征组合。

训练模块212，用于根据所述多个风险特征组合对多个目标模型中进行训练，以构建保单核保风险评估模型。所述多个目标模型可以包括逻辑回归模型、因子分解机模型和深度神经网络模型。

实施例三

参阅图4，是本发明实施例三之计算机设备的硬件架构示意图。本实施例中，所述计算机设备2是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图所示，所述计算机设备2至少包括，但不限于，可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及基于大数据的保单核保模型训练系统20。其中：

本实施例中，存储器21至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备2的内部存储单元，例如该计算机设备2的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备2的外部存储设备，例如该计算机设备20上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件，例如实施例五的基于大数据的保单核保模型训练系统20的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行基于大数据的保单核保模型训练系统20，以实现实施例一的基于大数据的保单核保模型训练方法。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如，所述网络接口23用于通过网络将所述计算机设备2与外部终端相连，在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(WidebandCode Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图4仅示出了具有部件20-23的计算机设备2，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器21中的所述基于大数据的保单核保模型训练系统20还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器21中，并由一个或多个处理器(本实施例为处理器22)所执行，以完成本发明。

例如，图3示出了所述实现基于大数据的保单核保模型训练系统20实施例二的程序模块示意图，该实施例中，所述基于大数据的保单核保模型训练系统20可以被划分为配置模块200、获取模块202、填充模块204、分析模块206、筛选模块208、风险特征组合输出模块210和训练模块212。其中，本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述所述基于大数据的保单核保模型训练系统20在所述计算机设备2中的执行过程。所述程序模块200-212的具体功能在实施例二中已有详细描述，在此不再赘述。

实施例四

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储基于大数据的保单核保模型训练系统20，被处理器执行时实现实施例一的基于大数据的保单核保模型训练方法。

实施例五

参阅图5，示出了本发明实施例五之核保风险评估方法的步骤流程图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下。

步骤S200，获取目标客户的目标数据集，所述目标数据集中包括多个风险特征项对应的多个风险特征。

所述目标数据集中的多个风险特征，可以来自于目标客户的表单填写内容，也可以来自于公司内部对该目标客户的历史数据，或来自第三方数据库等。

步骤S202，判断所述目标客户的目标数据集中是否有空白风险特征。如果是，进入步骤S204；否则进入步骤S206。

步骤S204，通过最近邻搜索模型查找到与目标客户最邻近的目标样本，以将所述目标样本中的风险特征填充所述目标数据集的空白风险特征。

步骤S206，将填充后的目标数据集输入到迭代决策树模型中。进入步骤S210。

步骤S208，将步骤S200得到的所述目标数据集输入到迭代决策树模型中。进入步骤S210。

步骤S210，通过所述迭代决策树模型输出对应的风险特征组合。

步骤S212，根据核保风险评估模型对所述风险特征组合进行预测以获取所述目标客户的风险系数。

所述核保风险评估模型包括逻辑回归模型、因子分解机模型和深度神经网络模型。步骤S212可以进一步包括：根据逻辑回归模型输出的第一风险系数、因子分解机模型输出的第二风险系数和深度神经网络模型输出的第三风险系数，计算所述目标客户的所述风险系数。

计算方式可以自定义，如，可以计算第一、第二、第三风险系数的均值，将该均值作为所述目标客户的所述风险系数。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于大数据的保单核保模型训练方法，其特征在于，所述方法包括：

2.如权利要求1所述的保单核保模型训练方法，其特征在于，将每个样本数据集中的多个样本原始特征填充到对应的风险特征项的字段中的步骤，包括：

3.如权利要求2所述的保单核保模型训练方法，其特征在于，以预设规则将所述多个样本数据集分为第一组样本数据集和第二组样本数据集的步骤，包括：

4.如权利要求2所述的保单核保模型训练方法，其特征在于，选择第一组样本数据集中的多个样本数据集中的一个或多个样本原始特征填充到所述样本空白特征所对应的字段位置处的步骤，包括：

通过所述第一组样本数集中各个样本构建KD树；

5.如权利要求1～4任意一项所述的保单核保模型训练方法，其特征在于，所述多个目标模型包括逻辑回归模型、因子分解机模型和深度神经网络模型。

6.一种基于大数据的保单核保模型训练系统，其特征在于，包括：

7.一种计算机设备，所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于大数据的保单核保模型训练方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行如权利要求1至5中任一项所述的基于大数据的保单核保模型训练方法的步骤。

9.一种核保风险评估方法，其特征在于，包括以下步骤：

判断所述目标客户的目标数据集中是否有空白风险特征；

将填充后的目标数据集输入到迭代决策树模型中；

通过所述迭代决策树模型输出对应的风险特征组合；

根据核保风险评估模型对所述风险特征组合进行预测以获取所述目标客户的风险系数，所述核保风险评估模型根据权1-5任一项所述的基于大数据的保单核保模型训练方法训练得到。

10.如权利要求9所述的核保风险评估方法，其特征在于，所述核保风险评估模型包括逻辑回归模型、因子分解机模型和深度神经网络模型；