CN111652302B

CN111652302B - 一种解释保险核保分类结果的方法、装置

Info

Publication number: CN111652302B
Application number: CN202010467745.4A
Authority: CN
Inventors: 韩森尧; 喻庐军; 刘岩; 王若楠
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2023-05-23
Anticipated expiration: 2040-05-28
Also published as: CN111652302A

Abstract

本发明实施例提供一种解释保险核保分类结果的方法、装置，用以解决现有技术中神经网络模型无法对用户的保险核保分类结果的原因进行解释的问题。方法包括：将测试样本、训练样本和扩充样本带入预测模型，得到测试样本的预测值f(x_test)、训练样本的预测值f(X_expand)和扩充样本的预测值f(X_expand)；计算每一种分类结果下的所有扩充样本的平均预测值E(f(X_expand))、所有训练样本的平均预测值E(f(X_train))；计算每一种分类结果下的E(f(X_expand))与E(f(X_train))的残差R₁、E(f(X_expand))与f(x_test)的残差R₂；计算每一种分类结果下R₁和R₂的向量和R＝(R₁,R₂)；将每一种分类结果对应的R＝(R₁,R₂)输入逻辑回归模型获得每一种分类结果对应的重要测试项目；基于每一种分类结果对应的重要测试项目输出每一种分类结果的解释信息。

Description

一种解释保险核保分类结果的方法、装置

技术领域

本申请涉及机器学习领域，特别涉及一种解释保险核保分类结果的方法、装置。

背景技术

随着生活水平的不断提升，许多人都有了买保险的意识，保险公司根据手机用户的体检报告，将体检报告中各每项测试项目的值输入对样本进行保险核保分类的神经网络模型，可得出该用户的类型(延期、拒保、标准体和次标体)，但是由于神经网络模型因其复杂多样的神经元传递，只是输出分类结果，忽略了其可解释性，即神经网络模型无法对用户的保险核保分类结果的原因进行解释，用户体验度差。

发明内容

本发明实施例提供一种解释保险核保分类结果的方法、装置，用以解决现有技术中神经网络模型无法对用户的保险核保分类结果的原因进行解释，导致用户体验度差的技术问题。

第一方面，本发明实施例提供一种解释保险核保分类结果的方法，包括：

将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型，得到所述至少一个测试样本中每个测试样本的预测值f(x_test)、所述至少一个训练样本中每个训练样本的预测值f(X_expand)和所述至少两个扩充样本中每个扩充样本的预测值f(X_expand)；其中，一个样本表征一个用户的体检数据，所述体检数据包括多个测试项目以及每个测试项目的值，所述预测值表征每个样本的保险核保的分类结果，所述预测模型为用于对样本进行保险核保分类的神经网络模型，所述训练样本为训练所述神经网络模型时用的样本；

计算每一种分类结果下的所有扩充样本的平均预测值E(f(X_expand))、所有训练样本的平均预测值E(f(X_train))；计算所述每一种分类结果下的所述所有扩充样本的平均预测值E(f(X_expand))和所述所有训练样本平均预测值E(f(X_train))的残差R₁、所述所有扩充样本的平均预测值E(f(X_expand))和所有测试样本预测值f(x_test)的残差R₂；计算所述每一种分类结果下残差R₁和残差R₂的向量和R＝(R₁,R₂)；

将所述每一种分类结果对应的向量和R＝(R₁,R₂)输入逻辑回归模型进行计算，获得所述每一种分类结果对应的重要测试项目；

基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息。

本实施例方式，通过将不同样本的预测值残差带入逻辑回归模型计算，能够得到一个样本的保险核保分类的结果的解释信息，可以解决现有技术中神经网络模型无法对用户的保险核保分类结果的原因进行解释，导致用户体验度差的技术问题。另外，还对样本进行了扩充(即扩充样本)，可以保证输出的解释信息更加准确性，进一步提高用户的满意度。

可选的，所述保险核保的类型包括延期、拒保、标准或次标准中的至少一项。

通过本实施例方式，可以知道用户的保险核保的类型有哪几种，提高用户的体验。

可选的，所述测试项目包括：身高、年龄、性别、肝功能、血脂、性别、血常规、妇科、血糖、胸透、心电图、内科、外科、乙肝五项、收缩压、舒张压、裸眼视力、体重、吸烟指数、心率、B超、身体质量指数BMI。

通过本实施例方式，收集用户体检的多个测试项目，提高解释信息的准确性，提高用户的体验。

可选的，在将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型之前，所述方法还包括：获取所述至少一个测试样本中的任一个测试样本的S个特征变量

其中S＝{1,2,…,s}；获取所述至少一个训练样本中的任一个训练样本的S个特征变量

随机生成t个掩码序列，其中，每个掩码序列表示为M_t＝(m₁,m₂,…,m_s)，其中，随机使得

其中t为大于0的整数，i为大于0且小于s的整数；基于一个测试样本和一个掩码序列对所述至少一个训练样本中每个训练样本进行扩充，获得所述至少两个扩充样本。

通过本实施例方式，对样本进行扩充，可以提高解释信息的准确性。

可选的，将所述每一种分类结果对应的向量和R＝(R₁,R₂)输入逻辑回归模型进行计算，获得所述每一种分类结果对应的重要测试项目，具体包括：将所述每一种分类结果对应的向量和R＝(R₁,R₂)作为输入量y_i带入所述逻辑回归模型

进行计算，获得所述每一种分类结果对应样本的每个测试项目的拟合系数，其中，所述拟合系数表征所述每一种分类结果对应样本的测试项目的重要度，x_i为加权后的掩码矩阵，所述掩码矩阵为所述t个掩码序列中的至少一个掩码序列组成的矩阵，

为L1正则项，λ为正则项的超参数，λ＞0；选取系数

不为0的至少一个测试项目作为至少一个重要测试项目。

通过本实施例方式，将残差带入逻辑回归模型中，可以获得每一种分类结果对应的重要测试项目，进而实现基于每一种分类结果对应的重要测试项目对该分类结果进行解释，保证信息的可靠性，提高用户的体验。

可选的，所述掩码矩阵的权重系数与第一参数正相关，其中所述第一参数为所述掩码矩阵对应的扩充样本与该扩充样本对应的测试样本所包含的相同元素的数量。

通过本实施例方式，可以保证和测试样本相似度越高的训练样本对应的掩码矩阵的权重越大，可以提高本申请方法的可靠性。

可选的，所述方法还包括：利用最小二乘法

估计所述每一种分类结果对应样本的每个重要测试项目的贡献度，其中

为重要测试项目贡献值向量，X为所有重要测试项目的掩码矩阵，W为所述所有重要测试项目的权重矩阵,Y为所有样本的预测值矩阵；基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息，包括：根据所述每一种分类结果对应样本的各个重要测试项目贡献度输出所述每一种分类结果的解释信息。

通过本实施例方式，计算每一种分类结果对应样本的每个测试项目的贡献度，再基于每一种分类结果对应的重要测试项目贡献度输出每一种分类结果的解释可选的，所述训练样本的数量大于所述测试样本的数量。

通过本实施例方式，可以保证具有较多的训练样本，可以提高本申请方法的可靠性。

可选的，所述每一种分类结果的解释信息包括：所述每一种分类结果对应的重要测试项目对该分类结果的贡献度。

通过本实施例方式，可以根据每个分类结果的重要测试项目的贡献度确定分类结果产生的原因，即贡献度越高的重要测试项目，对分类结果的影响程度越大。

第二方面，本发明实施例提供一种解释保险核保分类结果的装置，包括：

预测模块，用于将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型，得到所述至少一个测试样本中每个测试样本的预测值f(x_test)、所述至少一个训练样本中每个训练样本的预测值f(X_expand)和所述至少两个扩充样本中每个扩充样本的预测值f(X_expand)；其中，一个样本表征一个用户的体检数据，所述体检数据包括多个测试项目以及每个测试项目的值，所述预测值表征每个样本的保险核保的分类结果，所述预测模型为用于对样本进行保险核保分类的神经网络模型，所述训练样本为训练所述神经网络模型时用的样本；

计算模块，用于计算每一种分类结果下的所有扩充样本的平均预测值E(f(X_expand))、所有训练样本的平均预测值E(f(X_train))；计算所述每一种分类结果下的所述所有扩充样本的平均预测值E(f(X_expand))和所述所有训练样本平均预测值E(f(X_train))的残差R₁、所述所有扩充样本的平均预测值E(f(X_expand))和所有测试样本预测值f(x_test)的残差R₂；计算所述每一种分类结果下残差R₁和残差R₂的向量和R＝(R₁,R₂)；将所述每一种分类结果对应的向量和R＝(R₁,R₂)输入逻辑回归模型进行计算，获得所述每一种分类结果对应的重要测试项目；

解释模块，用于基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息。

可选的，所述装置还包括：扩充模块，用于在预测模块将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型之前，获取所述至少一个测试样本中的任一个测试样本的S个特征变量

可选的，所述计算模块在将所述每一种分类结果对应的向量和R＝(R₁,R₂)输入逻辑回归模型进行计算，获得所述每一种分类结果对应的重要测试项目时，具体用于：将所述每一种分类结果对应的向量和R＝(R₁,R₂)作为输入量y_i带入所述逻辑回归模型

为L1正则项，λ为正则项的超参数，λ＞0；选取系数

不为0的至少一个测试项目作为至少一个重要测试项目。

可选的，所述解释模块具体用于：利用最小二乘法

第三方面，本发明实施例提供一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器用于执行所述存储器中的指令，以在执行所述指令时执行如本发明实施例第一方面或者第一方面中任一种可选的实施方式所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如本发明实施例第一方面或者第一方面中任一种可选的实施方式所述的方法。

以上第二方面至第四方面中各实施方式所带来的有益效果可以参见第一方面中对应的实施方式所带来的有益效果，不再一一赘述。

本发明有益效果如下：

本申请实施例，通过将不同样本的预测值的残差带入逻辑回归模型计算，能够得到一个样本的保险核保分类的结果的解释信息，可以解决现有技术中神经网络模型无法对用户的保险核保分类结果的原因进行解释，导致用户体验度差的技术问题。另外，还对样本进行了扩充，可以保证输出的解释信息更加准确性，进一步提高用户的满意度。

附图说明

图1为本发明实施例中一种解释保险核保分类结果方法的流程示意图；

图2A为本发明实施例中一种可能的测试项目总表的示意图；

图2B为本发明实施例中一个用户的体检数据示意图；

图3A为本发明实施例中一种重要测试项目对输出的解释信息的影响程度的示意图；

图3B为本发明实施例中另一种重要测试项目对输出的解释信息的影响程度的示意图；

图4为本发明实施例中一个样本在每个保险核保类型中重要测试项目对输出解释信息的影响；

图5为本发明实施例提供的一种解释保险核保分类结果装置的结构示意图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

应理解，本申请实施例中的术语“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。在本发明实施例的描述中“多个”，是指两个或两个以上。

本发明实施例中的术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

请参见图1，为本发明实施例中一种解释保险核保分类结果方法的流程示意图，该方法包括：

S101、将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型，得到至少一个测试样本中每个测试样本的预测值f(x_test)、至少一个训练样本中每个训练样本的预测值f(X_train)和至少两个扩充样本中每个扩充样本的预测值f(X_expand)。

在本申请实施例中，一个样本表征一个用户的体检数据，每份体检数据包括多个测试项目。

参见图2A，为可能的测试项目总表，测试项目包括身高、年龄、性别、肝功能、血脂、性别、血常规、妇科、血糖、胸透、心电图、内科、外科、乙肝五项、收缩压、舒张压、裸眼视力、体重、吸烟指数、心率、二维超声(英文：b-scan ultrasonography，简称：B)、身体质量指数(英文：body mass index，简称：BMI)等的测试项目的名称。例外，图2A中还给出了每个测试项目的取值范围以及取值类型，当然，在实际操作中，还存在其他的测试项目以及不同的取值范围以及取值类型，发明实施例对此不做限制。

体检数据包括还包括每个测试项目的值，例如图2B所示，为一个用户的体检数据示意图，该用户的身高为178cm，年龄为23岁，体重为60KG，左眼视力5.0，右眼视力4.9，此处不一一说明。

预测模型为用于对样本进行保险核保分类的神经网络模型，输入为样本(即用户的体检数据)，输出为样本(即用户)对应的预测值，预测值表征每个样本的保险核保的分类结果，其中，保险核保的分类结果包括延期、拒保、标准或次标准等类型。当然，在实际操作中，保险核保的类型可以不止这四种，还有其他划分类型的形式，本发明实施例对此不做限制。

本申请实施例中的样本包括为三种，即测试样本、训练样本和扩充样本，其中，测试样本可以是投保人的体检数据，也可以是从医院获得的人的体检数据。训练样本为训练所述神经网络模型时用的样本，这里的训练样本也可以是医院获得的人的体检数据。扩充样本是基于测试样本和训练样本得到的样本，可以认为是本申请虚拟出的用户的体检数据。

扩充样本的计算方式可以包括：

首先，获取至少一个测试样本中任一个测试样本为

其中S＝{1,2,…,s}，S表示体检项目的个数，x表示每个体检项目的值，例如心率的取值类型是类别型，它的取值范围为0、1、2，一个样本的心率为78次/分钟，对于心率是设置60～110次/分钟取值范围为1，则该样本的心率的值为1。

接着，获取至少一个训练样本中的任一个训练样本的S个特征变量

再随机生成t个掩码序列，其中，每个掩码序列表示为M_t＝(m₁,m₂,…,m_s)，随机使得

其中t为大于0的整数，i为大于0且小于s的整数，可以基于一个测试样本和一个掩码序列对每个训练样本进行扩充，获得至少两个扩充样本，一条测试样对应有一个掩码序列，其中，掩码序列的某个位置上为1时，则生成的扩充样本在相应的位置上选择测试样本在相应的位置上的值，如果为0，则在选择训练样本在相应的位置上的值。

例如，假设测试样本为x_test＝(1,3,5,7,9)，训练样本为x_train＝(0,2,4,6,8)，掩码序列为M_t＝(0,1，0,0,1)，则获得的扩充样本为x¹ _expand＝(0,3,4,6,9)。经过这种方式后，可以获得一个扩充样本。进一步的，测试样本还可以基于该掩码序列的反序列对该训练样本进行扩充再获得一个扩充样本，例如该掩码序列为M_t＝(0,1，0,0,1)，则该掩码序列的反序列为M_t＝(1,0，1,1,0)，所以经过上述的扩充方式，第二个扩充样本为x² _expand＝(1,2,5,7,8)。

在获得一定数量的扩充样本之后，将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型，可以得到至少一个测试样本中每个测试样本的预测值f(x_test)、至少一个训练样本中每个训练样本的预测值f(x_train)和至少两个扩充样本中每个扩充样本的预测值f(x_expand)。其中，样本的预测值可以是表示为f(x)＝(j1,j2,j3,j4)，P1表示f(x)中的第一位，且该位的值为j1，P2表示第二位，且该位的值为j2，P3表示第三位，且该位的值为j3，P4表示第四位，且该位的值为j4。P1表示的类型是标准体，P2表示的类型是拒保，P3表示的类型是次标体，P4表示的类型是延期，P1、P2、P3和P4中哪个值最大，则可以判定该样本就是相应的类型。例如，一个样本f(x)＝(1,2,5,7)，第四位表示延期类型，又因为该样本的预测值中第四位值7是最大，所以该样本就是延期类型。

S102、计算每一种分类结果下的所有扩充样本的平均预测值E(f(X_expand))、所有训练样本的平均预测值E(f(X_train))；计算每一种分类结果下的所有扩充样本的平均预测值E(f(X_expand))和所有训练样本平均预测值E(f(X_train))的残差R₁、所有扩充样本的平均预测值E(f(X_expand))和所有测试样本预测值f(x_test)的残差R₂；计算每一种分类结果下残差R₁和残差R₂的向量和R＝(R₁,R₂)。

具体的，首先，根据上述步骤S101得到的样本的预测值，计算每一种分类下的所有扩充样本的平均预测值E(f(X_expand))、所有训练样本的平均预测值E(f(X_train))；其中，计算平均预测值的方法可以是将同一个分类下的所有样本的预测值上对应位置的值相加再除以在同一个分类下样本的数量，就可以获得平均预测值。

接着，计算每一种分类结果下的所有扩充样本的平均预测值E(f(X_expand))和所有训练样本平均预测值E(f(X_train))的残差R₁，其中，R₁＝E(f(X_expand))-E(f(X_train))、所述所有扩充样本的平均预测值E(f(X_expand))和所有测试样本预测值f(x_test)的残差R₂，其中，R₂＝E(f(X_expand))-f(x_test)，再计算每一种分类结果下残差R₁和残差R₂的向量和，该向量和可以表示为R＝(R₁,R₂)。

S103、将每一种分类结果对应的向量和R＝(R₁,R₂)输入逻辑回归模型进行计算，获得每一种分类结果对应的重要测试项目。

具体的，首先，将每一种分类结果对应的向量和R＝(R₁,R₂)作为输入量y_i、将加权后的掩码矩阵作为输入量x_i带入所述逻辑回归模型

进行计算，就可以获得每一种分类结果对应样本的每个测试项目的拟合系数

其中，拟合系数表征每一种分类结果对应样本的测试项目的重要度，掩码矩阵为所述t个中的至少一个掩码序列组成的矩阵，

为L1正则项，λ为正则项的超参数，λ＞0。

接着，选取拟合系数

不为0的至少一个测试项目作为至少一个重要测试项目。

可选的，为了使重要测试项目的系数

的值更加准确，在将掩码矩阵作为输入量带入逻辑回归模型之前，还可以对掩码矩阵进行加权。

一种可能的掩码序列权重计算方式如下：

掩码矩阵的权重系数与第一参数正相关，其中所述第一参数为该掩码矩阵对应的扩充样本X_expand与该扩充样本X_expand对应的测试样本X_train所包含的相同元素的数量。比如，假设共生成了10个掩码序列，则每个掩码序列的基础权重是0.1，那么最终掩码矩阵的权重等于0.1*(X_expand与X_train的元素相同的元素个数)。

沿用上述的例子，该测试样本为x_test＝(1,3,5,7,9)，该训练样本为x_train＝(0,2,4,6,8)，该掩码序列为M_t＝(0,1，0,0,1)，该掩码序列的反序列为M_t＝(1,0，1,1,0)，则获得的扩充样本为x¹ _expand＝(0,3,4,6,9)和x² _expand＝(1,2,5,7,8)。对于第一个扩充样本x¹ _expand＝(0,3,4,6,9)，该扩充样本x¹ _expand＝(0,3,4,6,9)与该训练样本x_train＝(0,2,4,6,8)中相同的值的个数有3个，则该掩码序列的权重为0.3，对于第二个扩充样本x² _expand＝(1,2,5,7,8)，该扩充样本x² _expand＝(1,2,5,7,8)与该训练样本x_train＝(0,2,4,6,8)中相同的值的个数有2个，则该掩码序列的反序列的权重为0.2。需要说明的是，因为掩码矩阵的不同，所以导致了扩充样本和训练样本或者测试样本的区别。如果扩充样本的平均预测值和训练样本或者测试样本的平均预测值之间残差很小，说明基于掩码矩阵生成的扩充样本，其中变动的测试项目影响程度较小，即这些变动的测试项目系数应该会很小。

S104、基于每一种分类结果对应的重要测试项目输出每一种分类结果的解释信息。

一种可能的方式是，利用最小二乘法

估计每一种分类结果对应样本的每个重要测试项目的贡献度，其中

为重要测试项目贡献值向量，X为所有重要测试项目的掩码矩阵，W为所有重要测试项目的权重矩阵,Y为所有样本的预测值矩阵。再根据每一种分类结果对应样本的各个重要测试项目贡献度输出所述每一种分类结果的解释信息。

下面举一个具体的实施例，假设测试样本为728个，掩码序列为100个，训练样本为3115个，其中，每个样本中有55个测试项目，通过上述的步骤可以获得24个重要测试项目以及每种分类下每个重要测试项目的贡献度，见图3A和图3B，重要测试项目对输出的解释信息的影响程度。我们预测模型的输出对应的是4个类型，图中样例图案分别对应了延期、拒保、标准体和次标体。图3A和图3B显示了在4个类型输出上，每个重要测试项目的平均影响。结果表明，特征-体格检查、特征-血糖、特征-疾病描述和特征-妇科B超等几个重要测试项目的影响很大。

当然，我们也可以观察单个样本的解释信息。我们拿一个拒保样本来举例。图4展示了一个样本在每个保险核保类型中重要测试项目对输出解释信息的影响。实线表示某个重要测试项目使预测的输出值变大，虚线表示某个重要测试项目使预测的输出值变小。最大的预测输出值决定投保人属于4个类型中的哪一类。显然，图4中最大的预测输出值是重要测试项目为特征-血糖的值，该值为0.2189，且对应的类型为拒保，所以可知，该投保人因为血糖的值太高，所以是被分到拒保类型里面。

当然，除了以上方式，还可以有其他的计算方式可以获得解释信息，本发明实施例对此不作限制。

本发明实施例中，利用掩码序列和测试样本对每个训练样本进行扩充得到扩充样本，再将所有样本输入预测模型可以得到每个样本分类结果以及预测值，接着再计算每个分类下扩充样本的平均预测值和训练样本的平均预测值的残差、扩充样本平均预测值和测试样本的预测值的残差，再将两个残差的向量和输入逻辑回归模型，接着选取输出量

不为0的至少一个测试项目作为至少一个重要测试项目，再基于最小二乘法算出重要测试项目的贡献度，最后根据各个重要测试项目贡献度就可以输出每一种分类结果的解释信息。与现有技术相比，通过将不同样本的预测值残差带入逻辑回归模型计算，能够得到一个样本的保险核保分类的结果的解释信息，可以解决现有技术中神经网络模型无法对用户的保险核保分类结果的原因进行解释，导致用户体验度差的技术问题。另外，还对样本进行了扩充，获得了更多的准确性高的样本，可以保证输出的解释信息更加准确性，进一步提高用户的满意度。

基于同一发明构思，本发明实施例还提供一种解释保险核保分类结果装置500，参见图5，包括：

预测模块501，用于将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型，得到所述至少一个测试样本中每个测试样本的预测值f(x_test)、所述至少一个训练样本中每个训练样本的预测值f(X_expand)和所述至少两个扩充样本中每个扩充样本的预测值f(X_expand)；其中，一个样本表征一个用户的体检数据，所述体检数据包括多个测试项目以及每个测试项目的值，所述预测值表征每个样本的保险核保的分类结果，所述预测模型为用于对样本进行保险核保分类的神经网络模型，所述训练样本为训练所述神经网络模型时用的样本；

计算模块502，用于计算每一种分类结果下的所有扩充样本的平均预测值E(f(X_expand))、所有训练样本的平均预测值E(f(X_train))；计算所述每一种分类结果下的所述所有扩充样本的平均预测值E(f(X_expand))和所述所有训练样本平均预测值E(f(X_train))的残差R₁、所述所有扩充样本的平均预测值E(f(X_expand))和所有测试样本预测值f(x_test)的残差R₂；计算所述每一种分类结果下残差R₁和残差R₂的向量和R＝(R₁,R₂)；将所述每一种分类结果对应的向量和R＝(R₁,R₂)输入逻辑回归模型进行计算，获得所述每一种分类结果对应的重要测试项目；

解释模块503，用于基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息。

可选的，所述装置500还包括：扩充模块504，用于在预测模块501将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型之前，获取所述至少一个测试样本中的任一个测试样本的S个特征变量

可选的，所述计算模块502在将所述每一种分类结果对应的向量和R＝(R₁,R₂)输入逻辑回归模型进行计算，获得所述每一种分类结果对应的重要测试项目时，具体用于：将所述每一种分类结果对应的向量和R＝(R₁,R₂)作为输入量y_i带入所述逻辑回归模型

为L1正则项，λ为正则项的超参数，λ＞0；选取系数

不为0的至少一个测试项目作为至少一个重要测试项目。

可选的，所述解释模块503具体用于：利用最小二乘法

装置的各模块执行方法步骤的具体实现方式请参照上述方法实施例中对应方法步骤的具体实施方式，本实施例不再进行详细介绍。

基于同一发明构思，本发明实施例还提供一种电子设备，参照图6，包括：至少一个处理器601，以及与所述至少一个处理器通信连接的存储器602；其中，所述存储器602存储有可被所述至少一个处理器601执行的指令，所述至少一个处理器601通过执行所述存储器602存储的指令，以在执行所述指令时使所述装置500执行本发明的实施例所述的解释保险核保分类结果的方法。

基于同一发明构思，本发明实施例还提供计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行本发明实施例所述的解释保险核保分类结果的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种解释保险核保分类结果的方法，其特征在于，包括：

将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型，得到所述至少一个测试样本中每个测试样本的预测值f(x_test)、所述至少一个训练样本中每个训练样本的预测值f(X_train)和所述至少两个扩充样本中每个扩充样本的预测值f(X_expand)；其中，一个样本表征一个用户的体检数据，所述体检数据包括多个测试项目以及每个测试项目的值，所述预测值表征每个样本的保险核保的分类结果，所述预测模型为用于对样本进行保险核保分类的神经网络模型，所述训练样本为训练所述神经网络模型时用的样本；

基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息；

所述每一种分类结果的解释信息包括：所述每一种分类结果对应的重要测试项目对该分类结果的贡献度。

2.如权利要求1所述的方法，其特征在于，所述保险核保的类型包括延期、拒保、标准或次标准中的至少一项。

3.如权利要求1所述的方法，其特征在于，所述测试项目包括：身高、年龄、性别、肝功能、血脂、性别、血常规、妇科、血糖、胸透、心电图、内科、外科、乙肝五项、收缩压、舒张压、裸眼视力、体重、吸烟指数、心率、B超、身体质量指数BMI。

4.如权利要求1-3中任一项所述的方法，其特征在于，在将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型之前，所述方法还包括：

获取所述至少一个测试样本中的任一个测试样本的S个特征变量

其中S＝{1,2,…,s}；

获取所述至少一个训练样本中的任一个训练样本的S个特征变量

其中t为大于0的整数，i为大于0且小于s的整数；

基于一个测试样本和一个掩码序列对所述至少一个训练样本中每个训练样本进行扩充，获得所述至少两个扩充样本。

5.如权利要求4所述的方法，其特征在于，将所述每一种分类结果对应的向量和R＝(R₁,R₂)输入逻辑回归模型进行计算，获得所述每一种分类结果对应的重要测试项目，具体包括：

将所述每一种分类结果对应的向量和R＝(R₁,R₂)作为输入量y_i带入所述逻辑回归模型

为L1正则项，λ为正则项的超参数，λ＞0；

选取系数

不为0的至少一个测试项目作为至少一个重要测试项目。

6.如权利要求5所述的方法，其特征在于，所述方法还包括：

利用最小二乘法

为重要测试项目贡献值向量，X为所有重要测试项目的掩码矩阵，W为所述所有重要测试项目的权重矩阵,Y为所有样本的预测值矩阵；

基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息，包括：

根据所述每一种分类结果对应样本的各个重要测试项目贡献度输出所述每一种分类结果的解释信息。

7.一种解释保险核保分类结果的装置，其特征在于，包括：

预测模块，用于将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型，得到所述至少一个测试样本中每个测试样本的预测值f(x_test)、所述至少一个训练样本中每个训练样本的预测值f(X_train)和所述至少两个扩充样本中每个扩充样本的预测值f(X_expand)；其中，一个样本表征一个用户的体检数据，所述体检数据包括多个测试项目以及每个测试项目的值，所述预测值表征每个样本的保险核保的分类结果，所述预测模型为用于对样本进行保险核保分类的神经网络模型，所述训练样本为训练所述神经网络模型时用的样本；

解释模块，用于基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息；

8.一种电子设备，其特征在于，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器用于执行所述存储器中的指令，以在执行所述指令时，使所述装置执行如权利要求1-6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1-6中任一项所述的方法。