CN111652302B - 一种解释保险核保分类结果的方法、装置 - Google Patents

一种解释保险核保分类结果的方法、装置 Download PDF

Info

Publication number
CN111652302B
CN111652302B CN202010467745.4A CN202010467745A CN111652302B CN 111652302 B CN111652302 B CN 111652302B CN 202010467745 A CN202010467745 A CN 202010467745A CN 111652302 B CN111652302 B CN 111652302B
Authority
CN
China
Prior art keywords
sample
classification result
test
predicted value
expand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010467745.4A
Other languages
English (en)
Other versions
CN111652302A (zh
Inventor
韩森尧
喻庐军
刘岩
王若楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Insurance Group Co Ltd
Original Assignee
Taikang Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Insurance Group Co Ltd filed Critical Taikang Insurance Group Co Ltd
Priority to CN202010467745.4A priority Critical patent/CN111652302B/zh
Publication of CN111652302A publication Critical patent/CN111652302A/zh
Application granted granted Critical
Publication of CN111652302B publication Critical patent/CN111652302B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明实施例提供一种解释保险核保分类结果的方法、装置,用以解决现有技术中神经网络模型无法对用户的保险核保分类结果的原因进行解释的问题。方法包括:将测试样本、训练样本和扩充样本带入预测模型,得到测试样本的预测值f(xtest)、训练样本的预测值f(Xexpand)和扩充样本的预测值f(Xexpand);计算每一种分类结果下的所有扩充样本的平均预测值E(f(Xexpand))、所有训练样本的平均预测值E(f(Xtrain));计算每一种分类结果下的E(f(Xexpand))与E(f(Xtrain))的残差R1、E(f(Xexpand))与f(xtest)的残差R2;计算每一种分类结果下R1和R2的向量和R=(R1,R2);将每一种分类结果对应的R=(R1,R2)输入逻辑回归模型获得每一种分类结果对应的重要测试项目;基于每一种分类结果对应的重要测试项目输出每一种分类结果的解释信息。

Description

一种解释保险核保分类结果的方法、装置
技术领域
本申请涉及机器学习领域,特别涉及一种解释保险核保分类结果的方法、装置。
背景技术
随着生活水平的不断提升,许多人都有了买保险的意识,保险公司根据手机用户的体检报告,将体检报告中各每项测试项目的值输入对样本进行保险核保分类的神经网络模型,可得出该用户的类型(延期、拒保、标准体和次标体),但是由于神经网络模型因其复杂多样的神经元传递,只是输出分类结果,忽略了其可解释性,即神经网络模型无法对用户的保险核保分类结果的原因进行解释,用户体验度差。
发明内容
本发明实施例提供一种解释保险核保分类结果的方法、装置,用以解决现有技术中神经网络模型无法对用户的保险核保分类结果的原因进行解释,导致用户体验度差的技术问题。
第一方面,本发明实施例提供一种解释保险核保分类结果的方法,包括:
将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型,得到所述至少一个测试样本中每个测试样本的预测值f(xtest)、所述至少一个训练样本中每个训练样本的预测值f(Xexpand)和所述至少两个扩充样本中每个扩充样本的预测值f(Xexpand);其中,一个样本表征一个用户的体检数据,所述体检数据包括多个测试项目以及每个测试项目的值,所述预测值表征每个样本的保险核保的分类结果,所述预测模型为用于对样本进行保险核保分类的神经网络模型,所述训练样本为训练所述神经网络模型时用的样本;
计算每一种分类结果下的所有扩充样本的平均预测值E(f(Xexpand))、所有训练样本的平均预测值E(f(Xtrain));计算所述每一种分类结果下的所述所有扩充样本的平均预测值E(f(Xexpand))和所述所有训练样本平均预测值E(f(Xtrain))的残差R1、所述所有扩充样本的平均预测值E(f(Xexpand))和所有测试样本预测值f(xtest)的残差R2;计算所述每一种分类结果下残差R1和残差R2的向量和R=(R1,R2);
将所述每一种分类结果对应的向量和R=(R1,R2)输入逻辑回归模型进行计算,获得所述每一种分类结果对应的重要测试项目;
基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息。
本实施例方式,通过将不同样本的预测值残差带入逻辑回归模型计算,能够得到一个样本的保险核保分类的结果的解释信息,可以解决现有技术中神经网络模型无法对用户的保险核保分类结果的原因进行解释,导致用户体验度差的技术问题。另外,还对样本进行了扩充(即扩充样本),可以保证输出的解释信息更加准确性,进一步提高用户的满意度。
可选的,所述保险核保的类型包括延期、拒保、标准或次标准中的至少一项。
通过本实施例方式,可以知道用户的保险核保的类型有哪几种,提高用户的体验。
可选的,所述测试项目包括:身高、年龄、性别、肝功能、血脂、性别、血常规、妇科、血糖、胸透、心电图、内科、外科、乙肝五项、收缩压、舒张压、裸眼视力、体重、吸烟指数、心率、B超、身体质量指数BMI。
通过本实施例方式,收集用户体检的多个测试项目,提高解释信息的准确性,提高用户的体验。
可选的,在将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型之前,所述方法还包括:获取所述至少一个测试样本中的任一个测试样本的S个特征变量
Figure BDA0002513215450000031
其中S={1,2,…,s};获取所述至少一个训练样本中的任一个训练样本的S个特征变量
Figure BDA0002513215450000032
随机生成t个掩码序列,其中,每个掩码序列表示为Mt=(m1,m2,…,ms),其中,随机使得
Figure BDA0002513215450000033
其中t为大于0的整数,i为大于0且小于s的整数;基于一个测试样本和一个掩码序列对所述至少一个训练样本中每个训练样本进行扩充,获得所述至少两个扩充样本。
通过本实施例方式,对样本进行扩充,可以提高解释信息的准确性。
可选的,将所述每一种分类结果对应的向量和R=(R1,R2)输入逻辑回归模型进行计算,获得所述每一种分类结果对应的重要测试项目,具体包括:将所述每一种分类结果对应的向量和R=(R1,R2)作为输入量yi带入所述逻辑回归模型
Figure BDA0002513215450000034
进行计算,获得所述每一种分类结果对应样本的每个测试项目的拟合系数,其中,所述拟合系数表征所述每一种分类结果对应样本的测试项目的重要度,xi为加权后的掩码矩阵,所述掩码矩阵为所述t个掩码序列中的至少一个掩码序列组成的矩阵,
Figure BDA0002513215450000035
为L1正则项,λ为正则项的超参数,λ>0;选取系数
Figure BDA0002513215450000036
不为0的至少一个测试项目作为至少一个重要测试项目。
通过本实施例方式,将残差带入逻辑回归模型中,可以获得每一种分类结果对应的重要测试项目,进而实现基于每一种分类结果对应的重要测试项目对该分类结果进行解释,保证信息的可靠性,提高用户的体验。
可选的,所述掩码矩阵的权重系数与第一参数正相关,其中所述第一参数为所述掩码矩阵对应的扩充样本与该扩充样本对应的测试样本所包含的相同元素的数量。
通过本实施例方式,可以保证和测试样本相似度越高的训练样本对应的掩码矩阵的权重越大,可以提高本申请方法的可靠性。
可选的,所述方法还包括:利用最小二乘法
Figure BDA0002513215450000041
估计所述每一种分类结果对应样本的每个重要测试项目的贡献度,其中
Figure BDA0002513215450000042
为重要测试项目贡献值向量,X为所有重要测试项目的掩码矩阵,W为所述所有重要测试项目的权重矩阵,Y为所有样本的预测值矩阵;基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息,包括:根据所述每一种分类结果对应样本的各个重要测试项目贡献度输出所述每一种分类结果的解释信息。
通过本实施例方式,计算每一种分类结果对应样本的每个测试项目的贡献度,再基于每一种分类结果对应的重要测试项目贡献度输出每一种分类结果的解释可选的,所述训练样本的数量大于所述测试样本的数量。
通过本实施例方式,可以保证具有较多的训练样本,可以提高本申请方法的可靠性。
可选的,所述每一种分类结果的解释信息包括:所述每一种分类结果对应的重要测试项目对该分类结果的贡献度。
通过本实施例方式,可以根据每个分类结果的重要测试项目的贡献度确定分类结果产生的原因,即贡献度越高的重要测试项目,对分类结果的影响程度越大。
第二方面,本发明实施例提供一种解释保险核保分类结果的装置,包括:
预测模块,用于将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型,得到所述至少一个测试样本中每个测试样本的预测值f(xtest)、所述至少一个训练样本中每个训练样本的预测值f(Xexpand)和所述至少两个扩充样本中每个扩充样本的预测值f(Xexpand);其中,一个样本表征一个用户的体检数据,所述体检数据包括多个测试项目以及每个测试项目的值,所述预测值表征每个样本的保险核保的分类结果,所述预测模型为用于对样本进行保险核保分类的神经网络模型,所述训练样本为训练所述神经网络模型时用的样本;
计算模块,用于计算每一种分类结果下的所有扩充样本的平均预测值E(f(Xexpand))、所有训练样本的平均预测值E(f(Xtrain));计算所述每一种分类结果下的所述所有扩充样本的平均预测值E(f(Xexpand))和所述所有训练样本平均预测值E(f(Xtrain))的残差R1、所述所有扩充样本的平均预测值E(f(Xexpand))和所有测试样本预测值f(xtest)的残差R2;计算所述每一种分类结果下残差R1和残差R2的向量和R=(R1,R2);将所述每一种分类结果对应的向量和R=(R1,R2)输入逻辑回归模型进行计算,获得所述每一种分类结果对应的重要测试项目;
解释模块,用于基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息。
可选的,所述保险核保的类型包括延期、拒保、标准或次标准中的至少一项。
可选的,所述测试项目包括:身高、年龄、性别、肝功能、血脂、性别、血常规、妇科、血糖、胸透、心电图、内科、外科、乙肝五项、收缩压、舒张压、裸眼视力、体重、吸烟指数、心率、B超、身体质量指数BMI。
可选的,所述装置还包括:扩充模块,用于在预测模块将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型之前,获取所述至少一个测试样本中的任一个测试样本的S个特征变量
Figure BDA0002513215450000051
其中S={1,2,…,s};获取所述至少一个训练样本中的任一个训练样本的S个特征变量
Figure BDA0002513215450000052
随机生成t个掩码序列,其中,每个掩码序列表示为Mt=(m1,m2,…,ms),其中,随机使得
Figure BDA0002513215450000053
其中t为大于0的整数,i为大于0且小于s的整数;基于一个测试样本和一个掩码序列对所述至少一个训练样本中每个训练样本进行扩充,获得所述至少两个扩充样本。
可选的,所述计算模块在将所述每一种分类结果对应的向量和R=(R1,R2)输入逻辑回归模型进行计算,获得所述每一种分类结果对应的重要测试项目时,具体用于:将所述每一种分类结果对应的向量和R=(R1,R2)作为输入量yi带入所述逻辑回归模型
Figure BDA0002513215450000061
进行计算,获得所述每一种分类结果对应样本的每个测试项目的拟合系数,其中,所述拟合系数表征所述每一种分类结果对应样本的测试项目的重要度,xi为加权后的掩码矩阵,所述掩码矩阵为所述t个掩码序列中的至少一个掩码序列组成的矩阵,
Figure BDA0002513215450000062
为L1正则项,λ为正则项的超参数,λ>0;选取系数
Figure BDA0002513215450000063
不为0的至少一个测试项目作为至少一个重要测试项目。
可选的,所述解释模块具体用于:利用最小二乘法
Figure BDA0002513215450000064
估计所述每一种分类结果对应样本的每个重要测试项目的贡献度,其中
Figure BDA0002513215450000065
为重要测试项目贡献值向量,X为所有重要测试项目的掩码矩阵,W为所述所有重要测试项目的权重矩阵,Y为所有样本的预测值矩阵;基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息,包括:根据所述每一种分类结果对应样本的各个重要测试项目贡献度输出所述每一种分类结果的解释信息。
第三方面,本发明实施例提供一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器用于执行所述存储器中的指令,以在执行所述指令时执行如本发明实施例第一方面或者第一方面中任一种可选的实施方式所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如本发明实施例第一方面或者第一方面中任一种可选的实施方式所述的方法。
以上第二方面至第四方面中各实施方式所带来的有益效果可以参见第一方面中对应的实施方式所带来的有益效果,不再一一赘述。
本发明有益效果如下:
本申请实施例,通过将不同样本的预测值的残差带入逻辑回归模型计算,能够得到一个样本的保险核保分类的结果的解释信息,可以解决现有技术中神经网络模型无法对用户的保险核保分类结果的原因进行解释,导致用户体验度差的技术问题。另外,还对样本进行了扩充,可以保证输出的解释信息更加准确性,进一步提高用户的满意度。
附图说明
图1为本发明实施例中一种解释保险核保分类结果方法的流程示意图;
图2A为本发明实施例中一种可能的测试项目总表的示意图;
图2B为本发明实施例中一个用户的体检数据示意图;
图3A为本发明实施例中一种重要测试项目对输出的解释信息的影响程度的示意图;
图3B为本发明实施例中另一种重要测试项目对输出的解释信息的影响程度的示意图;
图4为本发明实施例中一个样本在每个保险核保类型中重要测试项目对输出解释信息的影响;
图5为本发明实施例提供的一种解释保险核保分类结果装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
应理解,本申请实施例中的术语“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。在本发明实施例的描述中“多个”,是指两个或两个以上。
本发明实施例中的术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本发明实施例提供一种解释保险核保分类结果的方法、装置,用以解决现有技术中神经网络模型无法对用户的保险核保分类结果的原因进行解释,导致用户体验度差的技术问题。
请参见图1,为本发明实施例中一种解释保险核保分类结果方法的流程示意图,该方法包括:
S101、将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型,得到至少一个测试样本中每个测试样本的预测值f(xtest)、至少一个训练样本中每个训练样本的预测值f(Xtrain)和至少两个扩充样本中每个扩充样本的预测值f(Xexpand)。
在本申请实施例中,一个样本表征一个用户的体检数据,每份体检数据包括多个测试项目。
参见图2A,为可能的测试项目总表,测试项目包括身高、年龄、性别、肝功能、血脂、性别、血常规、妇科、血糖、胸透、心电图、内科、外科、乙肝五项、收缩压、舒张压、裸眼视力、体重、吸烟指数、心率、二维超声(英文:b-scan ultrasonography,简称:B)、身体质量指数(英文:body mass index,简称:BMI)等的测试项目的名称。例外,图2A中还给出了每个测试项目的取值范围以及取值类型,当然,在实际操作中,还存在其他的测试项目以及不同的取值范围以及取值类型,发明实施例对此不做限制。
体检数据包括还包括每个测试项目的值,例如图2B所示,为一个用户的体检数据示意图,该用户的身高为178cm,年龄为23岁,体重为60KG,左眼视力5.0,右眼视力4.9,此处不一一说明。
预测模型为用于对样本进行保险核保分类的神经网络模型,输入为样本(即用户的体检数据),输出为样本(即用户)对应的预测值,预测值表征每个样本的保险核保的分类结果,其中,保险核保的分类结果包括延期、拒保、标准或次标准等类型。当然,在实际操作中,保险核保的类型可以不止这四种,还有其他划分类型的形式,本发明实施例对此不做限制。
本申请实施例中的样本包括为三种,即测试样本、训练样本和扩充样本,其中,测试样本可以是投保人的体检数据,也可以是从医院获得的人的体检数据。训练样本为训练所述神经网络模型时用的样本,这里的训练样本也可以是医院获得的人的体检数据。扩充样本是基于测试样本和训练样本得到的样本,可以认为是本申请虚拟出的用户的体检数据。
扩充样本的计算方式可以包括:
首先,获取至少一个测试样本中任一个测试样本为
Figure BDA0002513215450000091
其中S={1,2,…,s},S表示体检项目的个数,x表示每个体检项目的值,例如心率的取值类型是类别型,它的取值范围为0、1、2,一个样本的心率为78次/分钟,对于心率是设置60~110次/分钟取值范围为1,则该样本的心率的值为1。
接着,获取至少一个训练样本中的任一个训练样本的S个特征变量
Figure BDA0002513215450000092
再随机生成t个掩码序列,其中,每个掩码序列表示为Mt=(m1,m2,…,ms),随机使得
Figure BDA0002513215450000093
其中t为大于0的整数,i为大于0且小于s的整数,可以基于一个测试样本和一个掩码序列对每个训练样本进行扩充,获得至少两个扩充样本,一条测试样对应有一个掩码序列,其中,掩码序列的某个位置上为1时,则生成的扩充样本在相应的位置上选择测试样本在相应的位置上的值,如果为0,则在选择训练样本在相应的位置上的值。
例如,假设测试样本为xtest=(1,3,5,7,9),训练样本为xtrain=(0,2,4,6,8),掩码序列为Mt=(0,1,0,0,1),则获得的扩充样本为x1 expand=(0,3,4,6,9)。经过这种方式后,可以获得一个扩充样本。进一步的,测试样本还可以基于该掩码序列的反序列对该训练样本进行扩充再获得一个扩充样本,例如该掩码序列为Mt=(0,1,0,0,1),则该掩码序列的反序列为Mt=(1,0,1,1,0),所以经过上述的扩充方式,第二个扩充样本为x2 expand=(1,2,5,7,8)。
在获得一定数量的扩充样本之后,将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型,可以得到至少一个测试样本中每个测试样本的预测值f(xtest)、至少一个训练样本中每个训练样本的预测值f(xtrain)和至少两个扩充样本中每个扩充样本的预测值f(xexpand)。其中,样本的预测值可以是表示为f(x)=(j1,j2,j3,j4),P1表示f(x)中的第一位,且该位的值为j1,P2表示第二位,且该位的值为j2,P3表示第三位,且该位的值为j3,P4表示第四位,且该位的值为j4。P1表示的类型是标准体,P2表示的类型是拒保,P3表示的类型是次标体,P4表示的类型是延期,P1、P2、P3和P4中哪个值最大,则可以判定该样本就是相应的类型。例如,一个样本f(x)=(1,2,5,7),第四位表示延期类型,又因为该样本的预测值中第四位值7是最大,所以该样本就是延期类型。
S102、计算每一种分类结果下的所有扩充样本的平均预测值E(f(Xexpand))、所有训练样本的平均预测值E(f(Xtrain));计算每一种分类结果下的所有扩充样本的平均预测值E(f(Xexpand))和所有训练样本平均预测值E(f(Xtrain))的残差R1、所有扩充样本的平均预测值E(f(Xexpand))和所有测试样本预测值f(xtest)的残差R2;计算每一种分类结果下残差R1和残差R2的向量和R=(R1,R2)。
具体的,首先,根据上述步骤S101得到的样本的预测值,计算每一种分类下的所有扩充样本的平均预测值E(f(Xexpand))、所有训练样本的平均预测值E(f(Xtrain));其中,计算平均预测值的方法可以是将同一个分类下的所有样本的预测值上对应位置的值相加再除以在同一个分类下样本的数量,就可以获得平均预测值。
接着,计算每一种分类结果下的所有扩充样本的平均预测值E(f(Xexpand))和所有训练样本平均预测值E(f(Xtrain))的残差R1,其中,R1=E(f(Xexpand))-E(f(Xtrain))、所述所有扩充样本的平均预测值E(f(Xexpand))和所有测试样本预测值f(xtest)的残差R2,其中,R2=E(f(Xexpand))-f(xtest),再计算每一种分类结果下残差R1和残差R2的向量和,该向量和可以表示为R=(R1,R2)。
S103、将每一种分类结果对应的向量和R=(R1,R2)输入逻辑回归模型进行计算,获得每一种分类结果对应的重要测试项目。
具体的,首先,将每一种分类结果对应的向量和R=(R1,R2)作为输入量yi、将加权后的掩码矩阵作为输入量xi带入所述逻辑回归模型
Figure BDA0002513215450000111
进行计算,就可以获得每一种分类结果对应样本的每个测试项目的拟合系数
Figure BDA0002513215450000112
其中,拟合系数表征每一种分类结果对应样本的测试项目的重要度,掩码矩阵为所述t个中的至少一个掩码序列组成的矩阵,
Figure BDA0002513215450000113
为L1正则项,λ为正则项的超参数,λ>0。
接着,选取拟合系数
Figure BDA0002513215450000114
不为0的至少一个测试项目作为至少一个重要测试项目。
可选的,为了使重要测试项目的系数
Figure BDA0002513215450000115
的值更加准确,在将掩码矩阵作为输入量带入逻辑回归模型之前,还可以对掩码矩阵进行加权。
一种可能的掩码序列权重计算方式如下:
掩码矩阵的权重系数与第一参数正相关,其中所述第一参数为该掩码矩阵对应的扩充样本Xexpand与该扩充样本Xexpand对应的测试样本Xtrain所包含的相同元素的数量。比如,假设共生成了10个掩码序列,则每个掩码序列的基础权重是0.1,那么最终掩码矩阵的权重等于0.1*(Xexpand与Xtrain的元素相同的元素个数)。
沿用上述的例子,该测试样本为xtest=(1,3,5,7,9),该训练样本为xtrain=(0,2,4,6,8),该掩码序列为Mt=(0,1,0,0,1),该掩码序列的反序列为Mt=(1,0,1,1,0),则获得的扩充样本为x1 expand=(0,3,4,6,9)和x2 expand=(1,2,5,7,8)。对于第一个扩充样本x1 expand=(0,3,4,6,9),该扩充样本x1 expand=(0,3,4,6,9)与该训练样本xtrain=(0,2,4,6,8)中相同的值的个数有3个,则该掩码序列的权重为0.3,对于第二个扩充样本x2 expand=(1,2,5,7,8),该扩充样本x2 expand=(1,2,5,7,8)与该训练样本xtrain=(0,2,4,6,8)中相同的值的个数有2个,则该掩码序列的反序列的权重为0.2。需要说明的是,因为掩码矩阵的不同,所以导致了扩充样本和训练样本或者测试样本的区别。如果扩充样本的平均预测值和训练样本或者测试样本的平均预测值之间残差很小,说明基于掩码矩阵生成的扩充样本,其中变动的测试项目影响程度较小,即这些变动的测试项目系数应该会很小。
S104、基于每一种分类结果对应的重要测试项目输出每一种分类结果的解释信息。
一种可能的方式是,利用最小二乘法
Figure BDA0002513215450000121
估计每一种分类结果对应样本的每个重要测试项目的贡献度,其中
Figure BDA0002513215450000122
为重要测试项目贡献值向量,X为所有重要测试项目的掩码矩阵,W为所有重要测试项目的权重矩阵,Y为所有样本的预测值矩阵。再根据每一种分类结果对应样本的各个重要测试项目贡献度输出所述每一种分类结果的解释信息。
下面举一个具体的实施例,假设测试样本为728个,掩码序列为100个,训练样本为3115个,其中,每个样本中有55个测试项目,通过上述的步骤可以获得24个重要测试项目以及每种分类下每个重要测试项目的贡献度,见图3A和图3B,重要测试项目对输出的解释信息的影响程度。我们预测模型的输出对应的是4个类型,图中样例图案分别对应了延期、拒保、标准体和次标体。图3A和图3B显示了在4个类型输出上,每个重要测试项目的平均影响。结果表明,特征-体格检查、特征-血糖、特征-疾病描述和特征-妇科B超等几个重要测试项目的影响很大。
当然,我们也可以观察单个样本的解释信息。我们拿一个拒保样本来举例。图4展示了一个样本在每个保险核保类型中重要测试项目对输出解释信息的影响。实线表示某个重要测试项目使预测的输出值变大,虚线表示某个重要测试项目使预测的输出值变小。最大的预测输出值决定投保人属于4个类型中的哪一类。显然,图4中最大的预测输出值是重要测试项目为特征-血糖的值,该值为0.2189,且对应的类型为拒保,所以可知,该投保人因为血糖的值太高,所以是被分到拒保类型里面。
当然,除了以上方式,还可以有其他的计算方式可以获得解释信息,本发明实施例对此不作限制。
本发明实施例中,利用掩码序列和测试样本对每个训练样本进行扩充得到扩充样本,再将所有样本输入预测模型可以得到每个样本分类结果以及预测值,接着再计算每个分类下扩充样本的平均预测值和训练样本的平均预测值的残差、扩充样本平均预测值和测试样本的预测值的残差,再将两个残差的向量和输入逻辑回归模型,接着选取输出量
Figure BDA0002513215450000131
不为0的至少一个测试项目作为至少一个重要测试项目,再基于最小二乘法算出重要测试项目的贡献度,最后根据各个重要测试项目贡献度就可以输出每一种分类结果的解释信息。与现有技术相比,通过将不同样本的预测值残差带入逻辑回归模型计算,能够得到一个样本的保险核保分类的结果的解释信息,可以解决现有技术中神经网络模型无法对用户的保险核保分类结果的原因进行解释,导致用户体验度差的技术问题。另外,还对样本进行了扩充,获得了更多的准确性高的样本,可以保证输出的解释信息更加准确性,进一步提高用户的满意度。
基于同一发明构思,本发明实施例还提供一种解释保险核保分类结果装置500,参见图5,包括:
预测模块501,用于将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型,得到所述至少一个测试样本中每个测试样本的预测值f(xtest)、所述至少一个训练样本中每个训练样本的预测值f(Xexpand)和所述至少两个扩充样本中每个扩充样本的预测值f(Xexpand);其中,一个样本表征一个用户的体检数据,所述体检数据包括多个测试项目以及每个测试项目的值,所述预测值表征每个样本的保险核保的分类结果,所述预测模型为用于对样本进行保险核保分类的神经网络模型,所述训练样本为训练所述神经网络模型时用的样本;
计算模块502,用于计算每一种分类结果下的所有扩充样本的平均预测值E(f(Xexpand))、所有训练样本的平均预测值E(f(Xtrain));计算所述每一种分类结果下的所述所有扩充样本的平均预测值E(f(Xexpand))和所述所有训练样本平均预测值E(f(Xtrain))的残差R1、所述所有扩充样本的平均预测值E(f(Xexpand))和所有测试样本预测值f(xtest)的残差R2;计算所述每一种分类结果下残差R1和残差R2的向量和R=(R1,R2);将所述每一种分类结果对应的向量和R=(R1,R2)输入逻辑回归模型进行计算,获得所述每一种分类结果对应的重要测试项目;
解释模块503,用于基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息。
可选的,所述保险核保的类型包括延期、拒保、标准或次标准中的至少一项。
可选的,所述测试项目包括:身高、年龄、性别、肝功能、血脂、性别、血常规、妇科、血糖、胸透、心电图、内科、外科、乙肝五项、收缩压、舒张压、裸眼视力、体重、吸烟指数、心率、B超、身体质量指数BMI。
可选的,所述装置500还包括:扩充模块504,用于在预测模块501将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型之前,获取所述至少一个测试样本中的任一个测试样本的S个特征变量
Figure BDA0002513215450000141
其中S={1,2,…,s};获取所述至少一个训练样本中的任一个训练样本的S个特征变量
Figure BDA0002513215450000142
随机生成t个掩码序列,其中,每个掩码序列表示为Mt=(m1,m2,…,ms),其中,随机使得
Figure BDA0002513215450000143
其中t为大于0的整数,i为大于0且小于s的整数;基于一个测试样本和一个掩码序列对所述至少一个训练样本中每个训练样本进行扩充,获得所述至少两个扩充样本。
可选的,所述计算模块502在将所述每一种分类结果对应的向量和R=(R1,R2)输入逻辑回归模型进行计算,获得所述每一种分类结果对应的重要测试项目时,具体用于:将所述每一种分类结果对应的向量和R=(R1,R2)作为输入量yi带入所述逻辑回归模型
Figure BDA0002513215450000151
进行计算,获得所述每一种分类结果对应样本的每个测试项目的拟合系数,其中,所述拟合系数表征所述每一种分类结果对应样本的测试项目的重要度,xi为加权后的掩码矩阵,所述掩码矩阵为所述t个掩码序列中的至少一个掩码序列组成的矩阵,
Figure BDA0002513215450000152
为L1正则项,λ为正则项的超参数,λ>0;选取系数
Figure BDA0002513215450000153
不为0的至少一个测试项目作为至少一个重要测试项目。
可选的,所述解释模块503具体用于:利用最小二乘法
Figure BDA0002513215450000154
估计所述每一种分类结果对应样本的每个重要测试项目的贡献度,其中
Figure BDA0002513215450000155
为重要测试项目贡献值向量,X为所有重要测试项目的掩码矩阵,W为所述所有重要测试项目的权重矩阵,Y为所有样本的预测值矩阵;基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息,包括:根据所述每一种分类结果对应样本的各个重要测试项目贡献度输出所述每一种分类结果的解释信息。
装置的各模块执行方法步骤的具体实现方式请参照上述方法实施例中对应方法步骤的具体实施方式,本实施例不再进行详细介绍。
基于同一发明构思,本发明实施例还提供一种电子设备,参照图6,包括:至少一个处理器601,以及与所述至少一个处理器通信连接的存储器602;其中,所述存储器602存储有可被所述至少一个处理器601执行的指令,所述至少一个处理器601通过执行所述存储器602存储的指令,以在执行所述指令时使所述装置500执行本发明的实施例所述的解释保险核保分类结果的方法。
基于同一发明构思,本发明实施例还提供计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行本发明实施例所述的解释保险核保分类结果的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (9)

1.一种解释保险核保分类结果的方法,其特征在于,包括:
将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型,得到所述至少一个测试样本中每个测试样本的预测值f(xtest)、所述至少一个训练样本中每个训练样本的预测值f(Xtrain)和所述至少两个扩充样本中每个扩充样本的预测值f(Xexpand);其中,一个样本表征一个用户的体检数据,所述体检数据包括多个测试项目以及每个测试项目的值,所述预测值表征每个样本的保险核保的分类结果,所述预测模型为用于对样本进行保险核保分类的神经网络模型,所述训练样本为训练所述神经网络模型时用的样本;
计算每一种分类结果下的所有扩充样本的平均预测值E(f(Xexpand))、所有训练样本的平均预测值E(f(Xtrain));计算所述每一种分类结果下的所述所有扩充样本的平均预测值E(f(Xexpand))和所述所有训练样本平均预测值E(f(Xtrain))的残差R1、所述所有扩充样本的平均预测值E(f(Xexpand))和所有测试样本预测值f(xtest)的残差R2;计算所述每一种分类结果下残差R1和残差R2的向量和R=(R1,R2);
将所述每一种分类结果对应的向量和R=(R1,R2)输入逻辑回归模型进行计算,获得所述每一种分类结果对应的重要测试项目;
基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息;
所述每一种分类结果的解释信息包括:所述每一种分类结果对应的重要测试项目对该分类结果的贡献度。
2.如权利要求1所述的方法,其特征在于,所述保险核保的类型包括延期、拒保、标准或次标准中的至少一项。
3.如权利要求1所述的方法,其特征在于,所述测试项目包括:身高、年龄、性别、肝功能、血脂、性别、血常规、妇科、血糖、胸透、心电图、内科、外科、乙肝五项、收缩压、舒张压、裸眼视力、体重、吸烟指数、心率、B超、身体质量指数BMI。
4.如权利要求1-3中任一项所述的方法,其特征在于,在将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型之前,所述方法还包括:
获取所述至少一个测试样本中的任一个测试样本的S个特征变量
Figure FDA0004139076840000021
其中S={1,2,…,s};
获取所述至少一个训练样本中的任一个训练样本的S个特征变量
Figure FDA0004139076840000022
随机生成t个掩码序列,其中,每个掩码序列表示为Mt=(m1,m2,…,ms),其中,随机使得
Figure FDA0004139076840000023
其中t为大于0的整数,i为大于0且小于s的整数;
基于一个测试样本和一个掩码序列对所述至少一个训练样本中每个训练样本进行扩充,获得所述至少两个扩充样本。
5.如权利要求4所述的方法,其特征在于,将所述每一种分类结果对应的向量和R=(R1,R2)输入逻辑回归模型进行计算,获得所述每一种分类结果对应的重要测试项目,具体包括:
将所述每一种分类结果对应的向量和R=(R1,R2)作为输入量yi带入所述逻辑回归模型
Figure FDA0004139076840000024
进行计算,获得所述每一种分类结果对应样本的每个测试项目的拟合系数,其中,所述拟合系数表征所述每一种分类结果对应样本的测试项目的重要度,xi为加权后的掩码矩阵,所述掩码矩阵为所述t个掩码序列中的至少一个掩码序列组成的矩阵,
Figure FDA0004139076840000025
为L1正则项,λ为正则项的超参数,λ>0;
选取系数
Figure FDA0004139076840000026
不为0的至少一个测试项目作为至少一个重要测试项目。
6.如权利要求5所述的方法,其特征在于,所述方法还包括:
利用最小二乘法
Figure FDA0004139076840000031
估计所述每一种分类结果对应样本的每个重要测试项目的贡献度,其中
Figure FDA0004139076840000032
为重要测试项目贡献值向量,X为所有重要测试项目的掩码矩阵,W为所述所有重要测试项目的权重矩阵,Y为所有样本的预测值矩阵;
基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息,包括:
根据所述每一种分类结果对应样本的各个重要测试项目贡献度输出所述每一种分类结果的解释信息。
7.一种解释保险核保分类结果的装置,其特征在于,包括:
预测模块,用于将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型,得到所述至少一个测试样本中每个测试样本的预测值f(xtest)、所述至少一个训练样本中每个训练样本的预测值f(Xtrain)和所述至少两个扩充样本中每个扩充样本的预测值f(Xexpand);其中,一个样本表征一个用户的体检数据,所述体检数据包括多个测试项目以及每个测试项目的值,所述预测值表征每个样本的保险核保的分类结果,所述预测模型为用于对样本进行保险核保分类的神经网络模型,所述训练样本为训练所述神经网络模型时用的样本;
计算模块,用于计算每一种分类结果下的所有扩充样本的平均预测值E(f(Xexpand))、所有训练样本的平均预测值E(f(Xtrain));计算所述每一种分类结果下的所述所有扩充样本的平均预测值E(f(Xexpand))和所述所有训练样本平均预测值E(f(Xtrain))的残差R1、所述所有扩充样本的平均预测值E(f(Xexpand))和所有测试样本预测值f(xtest)的残差R2;计算所述每一种分类结果下残差R1和残差R2的向量和R=(R1,R2);将所述每一种分类结果对应的向量和R=(R1,R2)输入逻辑回归模型进行计算,获得所述每一种分类结果对应的重要测试项目;
解释模块,用于基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息;
所述每一种分类结果的解释信息包括:所述每一种分类结果对应的重要测试项目对该分类结果的贡献度。
8.一种电子设备,其特征在于,包括:
至少一个处理器,以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器用于执行所述存储器中的指令,以在执行所述指令时,使所述装置执行如权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如权利要求1-6中任一项所述的方法。
CN202010467745.4A 2020-05-28 2020-05-28 一种解释保险核保分类结果的方法、装置 Active CN111652302B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010467745.4A CN111652302B (zh) 2020-05-28 2020-05-28 一种解释保险核保分类结果的方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010467745.4A CN111652302B (zh) 2020-05-28 2020-05-28 一种解释保险核保分类结果的方法、装置

Publications (2)

Publication Number Publication Date
CN111652302A CN111652302A (zh) 2020-09-11
CN111652302B true CN111652302B (zh) 2023-05-23

Family

ID=72344023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010467745.4A Active CN111652302B (zh) 2020-05-28 2020-05-28 一种解释保险核保分类结果的方法、装置

Country Status (1)

Country Link
CN (1) CN111652302B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112419077A (zh) * 2020-12-04 2021-02-26 上海商汤智能科技有限公司 数据处理方法及装置、电子设备和存储介质
US11983777B1 (en) * 2021-07-28 2024-05-14 Massachusetts Mutual Life Insurance Company Systems and methods for risk factor predictive modeling with model explanations

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948647A (zh) * 2019-01-24 2019-06-28 西安交通大学 一种基于深度残差网络的心电图分类方法及系统
CN110795945A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 一种语义理解模型训练方法、语义理解方法、装置及存储介质
CN111027487A (zh) * 2019-12-11 2020-04-17 山东大学 基于多卷积核残差网络的行为识别系统、方法、介质及设备
CN111126350A (zh) * 2020-01-17 2020-05-08 乐普(北京)医疗器械股份有限公司 一种心搏分类结果的生成方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2481485A1 (en) * 2002-04-04 2003-10-16 Ishihara Sangyo Kaisha, Ltd. Apparatus and method for analyzing data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948647A (zh) * 2019-01-24 2019-06-28 西安交通大学 一种基于深度残差网络的心电图分类方法及系统
CN110795945A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 一种语义理解模型训练方法、语义理解方法、装置及存储介质
CN111027487A (zh) * 2019-12-11 2020-04-17 山东大学 基于多卷积核残差网络的行为识别系统、方法、介质及设备
CN111126350A (zh) * 2020-01-17 2020-05-08 乐普(北京)医疗器械股份有限公司 一种心搏分类结果的生成方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
纪守领 等.机器学习模型可解释性方法、应用于安全研究综述.计算机研究与发展.2019,第第56卷卷(第第56卷期),2071-2096. *

Also Published As

Publication number Publication date
CN111652302A (zh) 2020-09-11

Similar Documents

Publication Publication Date Title
US11488718B2 (en) Computer aided medical method and medical system for medical prediction
Tran et al. Automated tuning for parameter identification and uncertainty quantification in multi-scale coronary simulations
Polat et al. A hybrid approach to medical decision support systems: Combining feature selection, fuzzy weighted pre-processing and AIRS
JP6800975B2 (ja) 医療画像を患者と関連付けるためのシステム及び方法
CN111652302B (zh) 一种解释保险核保分类结果的方法、装置
KR20210108376A (ko) 콘텐츠를 특징화하기 위해 뇌 특성 활동 맵 데이터베이스를 활용하기 위한 장치 및 방법
Yan et al. Selecting critical clinical features for heart diseases diagnosis with a real-coded genetic algorithm
CN106599553A (zh) 疾病预警方法及装置
CN111785366B (zh) 患者治疗方案的确定方法、装置及计算机设备
CN106529110A (zh) 一种用户数据分类的方法和设备
CN115497616B (zh) 一种感染性疾病辅助决策的方法、系统、设备及存储介质
Nichita et al. Image Clustering Algorithms to Identify Complicated Cerebral Diseases. Description and Comparison
CN110473636B (zh) 基于深度学习的智能医嘱推荐方法及系统
Zhang et al. A new optimization method for accurate anterior cruciate ligament tear diagnosis using convolutional neural network and modified golden search algorithm
JP7173482B2 (ja) ヘルスケアデータ分析システム、ヘルスケアデータ分析方法およびヘルスケアデータ分析プログラム
EP3270308B1 (en) Method for providing a secondary parameter, decision support system, computer-readable medium and computer program product
Umamaheswari et al. Prediction of myocardial infarction using K-medoid clustering algorithm
CN109087712A (zh) 一种基于随机子空间集成学习的主动脉夹层筛查模型及其建立方法、系统和模型
MR EANNMHO-A Novel Ensemble Based Technique for Liver Cirrhosis Detection.
Dileep et al. IGHOA Based Modified Convolutional Neural Network for Prediction of Cardiovascular Disease
CN117672495B (zh) 基于人工智能的房颤合并冠心病患者远期死亡率预测方法
Fossan Physics-based and data-driven reduced order models: applications to coronary artery disease diagnostics
JP2011257816A (ja) 受診者状態推定装置及びプログラム
EP3920190A1 (en) Bias detection in sensor signals
JP7229313B2 (ja) 加齢による黄斑変性症用の分類モデルを学習させる電子機器及び方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant