CN111652302B - 一种解释保险核保分类结果的方法、装置 - Google Patents
一种解释保险核保分类结果的方法、装置 Download PDFInfo
- Publication number
- CN111652302B CN111652302B CN202010467745.4A CN202010467745A CN111652302B CN 111652302 B CN111652302 B CN 111652302B CN 202010467745 A CN202010467745 A CN 202010467745A CN 111652302 B CN111652302 B CN 111652302B
- Authority
- CN
- China
- Prior art keywords
- sample
- classification result
- test
- predicted value
- expand
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012795 verification Methods 0.000 title description 3
- 238000012360 testing method Methods 0.000 claims abstract description 191
- 238000012549 training Methods 0.000 claims abstract description 70
- 239000013598 vector Substances 0.000 claims abstract description 28
- 238000003062 neural network model Methods 0.000 claims abstract description 23
- 238000007477 logistic regression Methods 0.000 claims abstract description 21
- 239000011159 matrix material Substances 0.000 claims description 43
- 239000008280 blood Substances 0.000 claims description 18
- 210000004369 blood Anatomy 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000004438 eyesight Effects 0.000 claims description 7
- 230000035487 diastolic blood pressure Effects 0.000 claims description 5
- 239000003814 drug Substances 0.000 claims description 5
- 208000002672 hepatitis B Diseases 0.000 claims description 5
- 230000003908 liver function Effects 0.000 claims description 5
- 238000002601 radiography Methods 0.000 claims description 5
- 230000000391 smoking effect Effects 0.000 claims description 5
- 238000001356 surgical procedure Methods 0.000 claims description 5
- 230000035488 systolic blood pressure Effects 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 description 59
- 238000010586 diagram Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012821 model calculation Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000002604 ultrasonography Methods 0.000 description 3
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000008103 glucose Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000037396 body weight Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明实施例提供一种解释保险核保分类结果的方法、装置,用以解决现有技术中神经网络模型无法对用户的保险核保分类结果的原因进行解释的问题。方法包括:将测试样本、训练样本和扩充样本带入预测模型,得到测试样本的预测值f(xtest)、训练样本的预测值f(Xexpand)和扩充样本的预测值f(Xexpand);计算每一种分类结果下的所有扩充样本的平均预测值E(f(Xexpand))、所有训练样本的平均预测值E(f(Xtrain));计算每一种分类结果下的E(f(Xexpand))与E(f(Xtrain))的残差R1、E(f(Xexpand))与f(xtest)的残差R2;计算每一种分类结果下R1和R2的向量和R=(R1,R2);将每一种分类结果对应的R=(R1,R2)输入逻辑回归模型获得每一种分类结果对应的重要测试项目;基于每一种分类结果对应的重要测试项目输出每一种分类结果的解释信息。
Description
技术领域
本申请涉及机器学习领域,特别涉及一种解释保险核保分类结果的方法、装置。
背景技术
随着生活水平的不断提升,许多人都有了买保险的意识,保险公司根据手机用户的体检报告,将体检报告中各每项测试项目的值输入对样本进行保险核保分类的神经网络模型,可得出该用户的类型(延期、拒保、标准体和次标体),但是由于神经网络模型因其复杂多样的神经元传递,只是输出分类结果,忽略了其可解释性,即神经网络模型无法对用户的保险核保分类结果的原因进行解释,用户体验度差。
发明内容
本发明实施例提供一种解释保险核保分类结果的方法、装置,用以解决现有技术中神经网络模型无法对用户的保险核保分类结果的原因进行解释,导致用户体验度差的技术问题。
第一方面,本发明实施例提供一种解释保险核保分类结果的方法,包括:
将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型,得到所述至少一个测试样本中每个测试样本的预测值f(xtest)、所述至少一个训练样本中每个训练样本的预测值f(Xexpand)和所述至少两个扩充样本中每个扩充样本的预测值f(Xexpand);其中,一个样本表征一个用户的体检数据,所述体检数据包括多个测试项目以及每个测试项目的值,所述预测值表征每个样本的保险核保的分类结果,所述预测模型为用于对样本进行保险核保分类的神经网络模型,所述训练样本为训练所述神经网络模型时用的样本;
计算每一种分类结果下的所有扩充样本的平均预测值E(f(Xexpand))、所有训练样本的平均预测值E(f(Xtrain));计算所述每一种分类结果下的所述所有扩充样本的平均预测值E(f(Xexpand))和所述所有训练样本平均预测值E(f(Xtrain))的残差R1、所述所有扩充样本的平均预测值E(f(Xexpand))和所有测试样本预测值f(xtest)的残差R2;计算所述每一种分类结果下残差R1和残差R2的向量和R=(R1,R2);
将所述每一种分类结果对应的向量和R=(R1,R2)输入逻辑回归模型进行计算,获得所述每一种分类结果对应的重要测试项目;
基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息。
本实施例方式,通过将不同样本的预测值残差带入逻辑回归模型计算,能够得到一个样本的保险核保分类的结果的解释信息,可以解决现有技术中神经网络模型无法对用户的保险核保分类结果的原因进行解释,导致用户体验度差的技术问题。另外,还对样本进行了扩充(即扩充样本),可以保证输出的解释信息更加准确性,进一步提高用户的满意度。
可选的,所述保险核保的类型包括延期、拒保、标准或次标准中的至少一项。
通过本实施例方式,可以知道用户的保险核保的类型有哪几种,提高用户的体验。
可选的,所述测试项目包括:身高、年龄、性别、肝功能、血脂、性别、血常规、妇科、血糖、胸透、心电图、内科、外科、乙肝五项、收缩压、舒张压、裸眼视力、体重、吸烟指数、心率、B超、身体质量指数BMI。
通过本实施例方式,收集用户体检的多个测试项目,提高解释信息的准确性,提高用户的体验。
可选的,在将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型之前,所述方法还包括:获取所述至少一个测试样本中的任一个测试样本的S个特征变量其中S={1,2,…,s};获取所述至少一个训练样本中的任一个训练样本的S个特征变量随机生成t个掩码序列,其中,每个掩码序列表示为Mt=(m1,m2,…,ms),其中,随机使得其中t为大于0的整数,i为大于0且小于s的整数;基于一个测试样本和一个掩码序列对所述至少一个训练样本中每个训练样本进行扩充,获得所述至少两个扩充样本。
通过本实施例方式,对样本进行扩充,可以提高解释信息的准确性。
可选的,将所述每一种分类结果对应的向量和R=(R1,R2)输入逻辑回归模型进行计算,获得所述每一种分类结果对应的重要测试项目,具体包括:将所述每一种分类结果对应的向量和R=(R1,R2)作为输入量yi带入所述逻辑回归模型进行计算,获得所述每一种分类结果对应样本的每个测试项目的拟合系数,其中,所述拟合系数表征所述每一种分类结果对应样本的测试项目的重要度,xi为加权后的掩码矩阵,所述掩码矩阵为所述t个掩码序列中的至少一个掩码序列组成的矩阵,为L1正则项,λ为正则项的超参数,λ>0;选取系数不为0的至少一个测试项目作为至少一个重要测试项目。
通过本实施例方式,将残差带入逻辑回归模型中,可以获得每一种分类结果对应的重要测试项目,进而实现基于每一种分类结果对应的重要测试项目对该分类结果进行解释,保证信息的可靠性,提高用户的体验。
可选的,所述掩码矩阵的权重系数与第一参数正相关,其中所述第一参数为所述掩码矩阵对应的扩充样本与该扩充样本对应的测试样本所包含的相同元素的数量。
通过本实施例方式,可以保证和测试样本相似度越高的训练样本对应的掩码矩阵的权重越大,可以提高本申请方法的可靠性。
可选的,所述方法还包括:利用最小二乘法估计所述每一种分类结果对应样本的每个重要测试项目的贡献度,其中为重要测试项目贡献值向量,X为所有重要测试项目的掩码矩阵,W为所述所有重要测试项目的权重矩阵,Y为所有样本的预测值矩阵;基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息,包括:根据所述每一种分类结果对应样本的各个重要测试项目贡献度输出所述每一种分类结果的解释信息。
通过本实施例方式,计算每一种分类结果对应样本的每个测试项目的贡献度,再基于每一种分类结果对应的重要测试项目贡献度输出每一种分类结果的解释可选的,所述训练样本的数量大于所述测试样本的数量。
通过本实施例方式,可以保证具有较多的训练样本,可以提高本申请方法的可靠性。
可选的,所述每一种分类结果的解释信息包括:所述每一种分类结果对应的重要测试项目对该分类结果的贡献度。
通过本实施例方式,可以根据每个分类结果的重要测试项目的贡献度确定分类结果产生的原因,即贡献度越高的重要测试项目,对分类结果的影响程度越大。
第二方面,本发明实施例提供一种解释保险核保分类结果的装置,包括:
预测模块,用于将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型,得到所述至少一个测试样本中每个测试样本的预测值f(xtest)、所述至少一个训练样本中每个训练样本的预测值f(Xexpand)和所述至少两个扩充样本中每个扩充样本的预测值f(Xexpand);其中,一个样本表征一个用户的体检数据,所述体检数据包括多个测试项目以及每个测试项目的值,所述预测值表征每个样本的保险核保的分类结果,所述预测模型为用于对样本进行保险核保分类的神经网络模型,所述训练样本为训练所述神经网络模型时用的样本;
计算模块,用于计算每一种分类结果下的所有扩充样本的平均预测值E(f(Xexpand))、所有训练样本的平均预测值E(f(Xtrain));计算所述每一种分类结果下的所述所有扩充样本的平均预测值E(f(Xexpand))和所述所有训练样本平均预测值E(f(Xtrain))的残差R1、所述所有扩充样本的平均预测值E(f(Xexpand))和所有测试样本预测值f(xtest)的残差R2;计算所述每一种分类结果下残差R1和残差R2的向量和R=(R1,R2);将所述每一种分类结果对应的向量和R=(R1,R2)输入逻辑回归模型进行计算,获得所述每一种分类结果对应的重要测试项目;
解释模块,用于基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息。
可选的,所述保险核保的类型包括延期、拒保、标准或次标准中的至少一项。
可选的,所述测试项目包括:身高、年龄、性别、肝功能、血脂、性别、血常规、妇科、血糖、胸透、心电图、内科、外科、乙肝五项、收缩压、舒张压、裸眼视力、体重、吸烟指数、心率、B超、身体质量指数BMI。
可选的,所述装置还包括:扩充模块,用于在预测模块将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型之前,获取所述至少一个测试样本中的任一个测试样本的S个特征变量其中S={1,2,…,s};获取所述至少一个训练样本中的任一个训练样本的S个特征变量随机生成t个掩码序列,其中,每个掩码序列表示为Mt=(m1,m2,…,ms),其中,随机使得其中t为大于0的整数,i为大于0且小于s的整数;基于一个测试样本和一个掩码序列对所述至少一个训练样本中每个训练样本进行扩充,获得所述至少两个扩充样本。
可选的,所述计算模块在将所述每一种分类结果对应的向量和R=(R1,R2)输入逻辑回归模型进行计算,获得所述每一种分类结果对应的重要测试项目时,具体用于:将所述每一种分类结果对应的向量和R=(R1,R2)作为输入量yi带入所述逻辑回归模型进行计算,获得所述每一种分类结果对应样本的每个测试项目的拟合系数,其中,所述拟合系数表征所述每一种分类结果对应样本的测试项目的重要度,xi为加权后的掩码矩阵,所述掩码矩阵为所述t个掩码序列中的至少一个掩码序列组成的矩阵,为L1正则项,λ为正则项的超参数,λ>0;选取系数不为0的至少一个测试项目作为至少一个重要测试项目。
可选的,所述解释模块具体用于:利用最小二乘法估计所述每一种分类结果对应样本的每个重要测试项目的贡献度,其中为重要测试项目贡献值向量,X为所有重要测试项目的掩码矩阵,W为所述所有重要测试项目的权重矩阵,Y为所有样本的预测值矩阵;基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息,包括:根据所述每一种分类结果对应样本的各个重要测试项目贡献度输出所述每一种分类结果的解释信息。
第三方面,本发明实施例提供一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器用于执行所述存储器中的指令,以在执行所述指令时执行如本发明实施例第一方面或者第一方面中任一种可选的实施方式所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如本发明实施例第一方面或者第一方面中任一种可选的实施方式所述的方法。
以上第二方面至第四方面中各实施方式所带来的有益效果可以参见第一方面中对应的实施方式所带来的有益效果,不再一一赘述。
本发明有益效果如下:
本申请实施例,通过将不同样本的预测值的残差带入逻辑回归模型计算,能够得到一个样本的保险核保分类的结果的解释信息,可以解决现有技术中神经网络模型无法对用户的保险核保分类结果的原因进行解释,导致用户体验度差的技术问题。另外,还对样本进行了扩充,可以保证输出的解释信息更加准确性,进一步提高用户的满意度。
附图说明
图1为本发明实施例中一种解释保险核保分类结果方法的流程示意图;
图2A为本发明实施例中一种可能的测试项目总表的示意图;
图2B为本发明实施例中一个用户的体检数据示意图;
图3A为本发明实施例中一种重要测试项目对输出的解释信息的影响程度的示意图;
图3B为本发明实施例中另一种重要测试项目对输出的解释信息的影响程度的示意图;
图4为本发明实施例中一个样本在每个保险核保类型中重要测试项目对输出解释信息的影响;
图5为本发明实施例提供的一种解释保险核保分类结果装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
应理解,本申请实施例中的术语“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。在本发明实施例的描述中“多个”,是指两个或两个以上。
本发明实施例中的术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本发明实施例提供一种解释保险核保分类结果的方法、装置,用以解决现有技术中神经网络模型无法对用户的保险核保分类结果的原因进行解释,导致用户体验度差的技术问题。
请参见图1,为本发明实施例中一种解释保险核保分类结果方法的流程示意图,该方法包括:
S101、将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型,得到至少一个测试样本中每个测试样本的预测值f(xtest)、至少一个训练样本中每个训练样本的预测值f(Xtrain)和至少两个扩充样本中每个扩充样本的预测值f(Xexpand)。
在本申请实施例中,一个样本表征一个用户的体检数据,每份体检数据包括多个测试项目。
参见图2A,为可能的测试项目总表,测试项目包括身高、年龄、性别、肝功能、血脂、性别、血常规、妇科、血糖、胸透、心电图、内科、外科、乙肝五项、收缩压、舒张压、裸眼视力、体重、吸烟指数、心率、二维超声(英文:b-scan ultrasonography,简称:B)、身体质量指数(英文:body mass index,简称:BMI)等的测试项目的名称。例外,图2A中还给出了每个测试项目的取值范围以及取值类型,当然,在实际操作中,还存在其他的测试项目以及不同的取值范围以及取值类型,发明实施例对此不做限制。
体检数据包括还包括每个测试项目的值,例如图2B所示,为一个用户的体检数据示意图,该用户的身高为178cm,年龄为23岁,体重为60KG,左眼视力5.0,右眼视力4.9,此处不一一说明。
预测模型为用于对样本进行保险核保分类的神经网络模型,输入为样本(即用户的体检数据),输出为样本(即用户)对应的预测值,预测值表征每个样本的保险核保的分类结果,其中,保险核保的分类结果包括延期、拒保、标准或次标准等类型。当然,在实际操作中,保险核保的类型可以不止这四种,还有其他划分类型的形式,本发明实施例对此不做限制。
本申请实施例中的样本包括为三种,即测试样本、训练样本和扩充样本,其中,测试样本可以是投保人的体检数据,也可以是从医院获得的人的体检数据。训练样本为训练所述神经网络模型时用的样本,这里的训练样本也可以是医院获得的人的体检数据。扩充样本是基于测试样本和训练样本得到的样本,可以认为是本申请虚拟出的用户的体检数据。
扩充样本的计算方式可以包括:
其中S={1,2,…,s},S表示体检项目的个数,x表示每个体检项目的值,例如心率的取值类型是类别型,它的取值范围为0、1、2,一个样本的心率为78次/分钟,对于心率是设置60~110次/分钟取值范围为1,则该样本的心率的值为1。
接着,获取至少一个训练样本中的任一个训练样本的S个特征变量再随机生成t个掩码序列,其中,每个掩码序列表示为Mt=(m1,m2,…,ms),随机使得其中t为大于0的整数,i为大于0且小于s的整数,可以基于一个测试样本和一个掩码序列对每个训练样本进行扩充,获得至少两个扩充样本,一条测试样对应有一个掩码序列,其中,掩码序列的某个位置上为1时,则生成的扩充样本在相应的位置上选择测试样本在相应的位置上的值,如果为0,则在选择训练样本在相应的位置上的值。
例如,假设测试样本为xtest=(1,3,5,7,9),训练样本为xtrain=(0,2,4,6,8),掩码序列为Mt=(0,1,0,0,1),则获得的扩充样本为x1 expand=(0,3,4,6,9)。经过这种方式后,可以获得一个扩充样本。进一步的,测试样本还可以基于该掩码序列的反序列对该训练样本进行扩充再获得一个扩充样本,例如该掩码序列为Mt=(0,1,0,0,1),则该掩码序列的反序列为Mt=(1,0,1,1,0),所以经过上述的扩充方式,第二个扩充样本为x2 expand=(1,2,5,7,8)。
在获得一定数量的扩充样本之后,将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型,可以得到至少一个测试样本中每个测试样本的预测值f(xtest)、至少一个训练样本中每个训练样本的预测值f(xtrain)和至少两个扩充样本中每个扩充样本的预测值f(xexpand)。其中,样本的预测值可以是表示为f(x)=(j1,j2,j3,j4),P1表示f(x)中的第一位,且该位的值为j1,P2表示第二位,且该位的值为j2,P3表示第三位,且该位的值为j3,P4表示第四位,且该位的值为j4。P1表示的类型是标准体,P2表示的类型是拒保,P3表示的类型是次标体,P4表示的类型是延期,P1、P2、P3和P4中哪个值最大,则可以判定该样本就是相应的类型。例如,一个样本f(x)=(1,2,5,7),第四位表示延期类型,又因为该样本的预测值中第四位值7是最大,所以该样本就是延期类型。
S102、计算每一种分类结果下的所有扩充样本的平均预测值E(f(Xexpand))、所有训练样本的平均预测值E(f(Xtrain));计算每一种分类结果下的所有扩充样本的平均预测值E(f(Xexpand))和所有训练样本平均预测值E(f(Xtrain))的残差R1、所有扩充样本的平均预测值E(f(Xexpand))和所有测试样本预测值f(xtest)的残差R2;计算每一种分类结果下残差R1和残差R2的向量和R=(R1,R2)。
具体的,首先,根据上述步骤S101得到的样本的预测值,计算每一种分类下的所有扩充样本的平均预测值E(f(Xexpand))、所有训练样本的平均预测值E(f(Xtrain));其中,计算平均预测值的方法可以是将同一个分类下的所有样本的预测值上对应位置的值相加再除以在同一个分类下样本的数量,就可以获得平均预测值。
接着,计算每一种分类结果下的所有扩充样本的平均预测值E(f(Xexpand))和所有训练样本平均预测值E(f(Xtrain))的残差R1,其中,R1=E(f(Xexpand))-E(f(Xtrain))、所述所有扩充样本的平均预测值E(f(Xexpand))和所有测试样本预测值f(xtest)的残差R2,其中,R2=E(f(Xexpand))-f(xtest),再计算每一种分类结果下残差R1和残差R2的向量和,该向量和可以表示为R=(R1,R2)。
S103、将每一种分类结果对应的向量和R=(R1,R2)输入逻辑回归模型进行计算,获得每一种分类结果对应的重要测试项目。
具体的,首先,将每一种分类结果对应的向量和R=(R1,R2)作为输入量yi、将加权后的掩码矩阵作为输入量xi带入所述逻辑回归模型进行计算,就可以获得每一种分类结果对应样本的每个测试项目的拟合系数其中,拟合系数表征每一种分类结果对应样本的测试项目的重要度,掩码矩阵为所述t个中的至少一个掩码序列组成的矩阵,为L1正则项,λ为正则项的超参数,λ>0。
一种可能的掩码序列权重计算方式如下:
掩码矩阵的权重系数与第一参数正相关,其中所述第一参数为该掩码矩阵对应的扩充样本Xexpand与该扩充样本Xexpand对应的测试样本Xtrain所包含的相同元素的数量。比如,假设共生成了10个掩码序列,则每个掩码序列的基础权重是0.1,那么最终掩码矩阵的权重等于0.1*(Xexpand与Xtrain的元素相同的元素个数)。
沿用上述的例子,该测试样本为xtest=(1,3,5,7,9),该训练样本为xtrain=(0,2,4,6,8),该掩码序列为Mt=(0,1,0,0,1),该掩码序列的反序列为Mt=(1,0,1,1,0),则获得的扩充样本为x1 expand=(0,3,4,6,9)和x2 expand=(1,2,5,7,8)。对于第一个扩充样本x1 expand=(0,3,4,6,9),该扩充样本x1 expand=(0,3,4,6,9)与该训练样本xtrain=(0,2,4,6,8)中相同的值的个数有3个,则该掩码序列的权重为0.3,对于第二个扩充样本x2 expand=(1,2,5,7,8),该扩充样本x2 expand=(1,2,5,7,8)与该训练样本xtrain=(0,2,4,6,8)中相同的值的个数有2个,则该掩码序列的反序列的权重为0.2。需要说明的是,因为掩码矩阵的不同,所以导致了扩充样本和训练样本或者测试样本的区别。如果扩充样本的平均预测值和训练样本或者测试样本的平均预测值之间残差很小,说明基于掩码矩阵生成的扩充样本,其中变动的测试项目影响程度较小,即这些变动的测试项目系数应该会很小。
S104、基于每一种分类结果对应的重要测试项目输出每一种分类结果的解释信息。
一种可能的方式是,利用最小二乘法估计每一种分类结果对应样本的每个重要测试项目的贡献度,其中为重要测试项目贡献值向量,X为所有重要测试项目的掩码矩阵,W为所有重要测试项目的权重矩阵,Y为所有样本的预测值矩阵。再根据每一种分类结果对应样本的各个重要测试项目贡献度输出所述每一种分类结果的解释信息。
下面举一个具体的实施例,假设测试样本为728个,掩码序列为100个,训练样本为3115个,其中,每个样本中有55个测试项目,通过上述的步骤可以获得24个重要测试项目以及每种分类下每个重要测试项目的贡献度,见图3A和图3B,重要测试项目对输出的解释信息的影响程度。我们预测模型的输出对应的是4个类型,图中样例图案分别对应了延期、拒保、标准体和次标体。图3A和图3B显示了在4个类型输出上,每个重要测试项目的平均影响。结果表明,特征-体格检查、特征-血糖、特征-疾病描述和特征-妇科B超等几个重要测试项目的影响很大。
当然,我们也可以观察单个样本的解释信息。我们拿一个拒保样本来举例。图4展示了一个样本在每个保险核保类型中重要测试项目对输出解释信息的影响。实线表示某个重要测试项目使预测的输出值变大,虚线表示某个重要测试项目使预测的输出值变小。最大的预测输出值决定投保人属于4个类型中的哪一类。显然,图4中最大的预测输出值是重要测试项目为特征-血糖的值,该值为0.2189,且对应的类型为拒保,所以可知,该投保人因为血糖的值太高,所以是被分到拒保类型里面。
当然,除了以上方式,还可以有其他的计算方式可以获得解释信息,本发明实施例对此不作限制。
本发明实施例中,利用掩码序列和测试样本对每个训练样本进行扩充得到扩充样本,再将所有样本输入预测模型可以得到每个样本分类结果以及预测值,接着再计算每个分类下扩充样本的平均预测值和训练样本的平均预测值的残差、扩充样本平均预测值和测试样本的预测值的残差,再将两个残差的向量和输入逻辑回归模型,接着选取输出量不为0的至少一个测试项目作为至少一个重要测试项目,再基于最小二乘法算出重要测试项目的贡献度,最后根据各个重要测试项目贡献度就可以输出每一种分类结果的解释信息。与现有技术相比,通过将不同样本的预测值残差带入逻辑回归模型计算,能够得到一个样本的保险核保分类的结果的解释信息,可以解决现有技术中神经网络模型无法对用户的保险核保分类结果的原因进行解释,导致用户体验度差的技术问题。另外,还对样本进行了扩充,获得了更多的准确性高的样本,可以保证输出的解释信息更加准确性,进一步提高用户的满意度。
基于同一发明构思,本发明实施例还提供一种解释保险核保分类结果装置500,参见图5,包括:
预测模块501,用于将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型,得到所述至少一个测试样本中每个测试样本的预测值f(xtest)、所述至少一个训练样本中每个训练样本的预测值f(Xexpand)和所述至少两个扩充样本中每个扩充样本的预测值f(Xexpand);其中,一个样本表征一个用户的体检数据,所述体检数据包括多个测试项目以及每个测试项目的值,所述预测值表征每个样本的保险核保的分类结果,所述预测模型为用于对样本进行保险核保分类的神经网络模型,所述训练样本为训练所述神经网络模型时用的样本;
计算模块502,用于计算每一种分类结果下的所有扩充样本的平均预测值E(f(Xexpand))、所有训练样本的平均预测值E(f(Xtrain));计算所述每一种分类结果下的所述所有扩充样本的平均预测值E(f(Xexpand))和所述所有训练样本平均预测值E(f(Xtrain))的残差R1、所述所有扩充样本的平均预测值E(f(Xexpand))和所有测试样本预测值f(xtest)的残差R2;计算所述每一种分类结果下残差R1和残差R2的向量和R=(R1,R2);将所述每一种分类结果对应的向量和R=(R1,R2)输入逻辑回归模型进行计算,获得所述每一种分类结果对应的重要测试项目;
解释模块503,用于基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息。
可选的,所述保险核保的类型包括延期、拒保、标准或次标准中的至少一项。
可选的,所述测试项目包括:身高、年龄、性别、肝功能、血脂、性别、血常规、妇科、血糖、胸透、心电图、内科、外科、乙肝五项、收缩压、舒张压、裸眼视力、体重、吸烟指数、心率、B超、身体质量指数BMI。
可选的,所述装置500还包括:扩充模块504,用于在预测模块501将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型之前,获取所述至少一个测试样本中的任一个测试样本的S个特征变量其中S={1,2,…,s};获取所述至少一个训练样本中的任一个训练样本的S个特征变量随机生成t个掩码序列,其中,每个掩码序列表示为Mt=(m1,m2,…,ms),其中,随机使得其中t为大于0的整数,i为大于0且小于s的整数;基于一个测试样本和一个掩码序列对所述至少一个训练样本中每个训练样本进行扩充,获得所述至少两个扩充样本。
可选的,所述计算模块502在将所述每一种分类结果对应的向量和R=(R1,R2)输入逻辑回归模型进行计算,获得所述每一种分类结果对应的重要测试项目时,具体用于:将所述每一种分类结果对应的向量和R=(R1,R2)作为输入量yi带入所述逻辑回归模型进行计算,获得所述每一种分类结果对应样本的每个测试项目的拟合系数,其中,所述拟合系数表征所述每一种分类结果对应样本的测试项目的重要度,xi为加权后的掩码矩阵,所述掩码矩阵为所述t个掩码序列中的至少一个掩码序列组成的矩阵,为L1正则项,λ为正则项的超参数,λ>0;选取系数不为0的至少一个测试项目作为至少一个重要测试项目。
可选的,所述解释模块503具体用于:利用最小二乘法估计所述每一种分类结果对应样本的每个重要测试项目的贡献度,其中为重要测试项目贡献值向量,X为所有重要测试项目的掩码矩阵,W为所述所有重要测试项目的权重矩阵,Y为所有样本的预测值矩阵;基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息,包括:根据所述每一种分类结果对应样本的各个重要测试项目贡献度输出所述每一种分类结果的解释信息。
装置的各模块执行方法步骤的具体实现方式请参照上述方法实施例中对应方法步骤的具体实施方式,本实施例不再进行详细介绍。
基于同一发明构思,本发明实施例还提供一种电子设备,参照图6,包括:至少一个处理器601,以及与所述至少一个处理器通信连接的存储器602;其中,所述存储器602存储有可被所述至少一个处理器601执行的指令,所述至少一个处理器601通过执行所述存储器602存储的指令,以在执行所述指令时使所述装置500执行本发明的实施例所述的解释保险核保分类结果的方法。
基于同一发明构思,本发明实施例还提供计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行本发明实施例所述的解释保险核保分类结果的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (9)
1.一种解释保险核保分类结果的方法,其特征在于,包括:
将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型,得到所述至少一个测试样本中每个测试样本的预测值f(xtest)、所述至少一个训练样本中每个训练样本的预测值f(Xtrain)和所述至少两个扩充样本中每个扩充样本的预测值f(Xexpand);其中,一个样本表征一个用户的体检数据,所述体检数据包括多个测试项目以及每个测试项目的值,所述预测值表征每个样本的保险核保的分类结果,所述预测模型为用于对样本进行保险核保分类的神经网络模型,所述训练样本为训练所述神经网络模型时用的样本;
计算每一种分类结果下的所有扩充样本的平均预测值E(f(Xexpand))、所有训练样本的平均预测值E(f(Xtrain));计算所述每一种分类结果下的所述所有扩充样本的平均预测值E(f(Xexpand))和所述所有训练样本平均预测值E(f(Xtrain))的残差R1、所述所有扩充样本的平均预测值E(f(Xexpand))和所有测试样本预测值f(xtest)的残差R2;计算所述每一种分类结果下残差R1和残差R2的向量和R=(R1,R2);
将所述每一种分类结果对应的向量和R=(R1,R2)输入逻辑回归模型进行计算,获得所述每一种分类结果对应的重要测试项目;
基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息;
所述每一种分类结果的解释信息包括:所述每一种分类结果对应的重要测试项目对该分类结果的贡献度。
2.如权利要求1所述的方法,其特征在于,所述保险核保的类型包括延期、拒保、标准或次标准中的至少一项。
3.如权利要求1所述的方法,其特征在于,所述测试项目包括:身高、年龄、性别、肝功能、血脂、性别、血常规、妇科、血糖、胸透、心电图、内科、外科、乙肝五项、收缩压、舒张压、裸眼视力、体重、吸烟指数、心率、B超、身体质量指数BMI。
7.一种解释保险核保分类结果的装置,其特征在于,包括:
预测模块,用于将至少一个测试样本、至少一个训练样本和至少两个扩充样本带入预测模型,得到所述至少一个测试样本中每个测试样本的预测值f(xtest)、所述至少一个训练样本中每个训练样本的预测值f(Xtrain)和所述至少两个扩充样本中每个扩充样本的预测值f(Xexpand);其中,一个样本表征一个用户的体检数据,所述体检数据包括多个测试项目以及每个测试项目的值,所述预测值表征每个样本的保险核保的分类结果,所述预测模型为用于对样本进行保险核保分类的神经网络模型,所述训练样本为训练所述神经网络模型时用的样本;
计算模块,用于计算每一种分类结果下的所有扩充样本的平均预测值E(f(Xexpand))、所有训练样本的平均预测值E(f(Xtrain));计算所述每一种分类结果下的所述所有扩充样本的平均预测值E(f(Xexpand))和所述所有训练样本平均预测值E(f(Xtrain))的残差R1、所述所有扩充样本的平均预测值E(f(Xexpand))和所有测试样本预测值f(xtest)的残差R2;计算所述每一种分类结果下残差R1和残差R2的向量和R=(R1,R2);将所述每一种分类结果对应的向量和R=(R1,R2)输入逻辑回归模型进行计算,获得所述每一种分类结果对应的重要测试项目;
解释模块,用于基于所述每一种分类结果对应的重要测试项目输出所述每一种分类结果的解释信息;
所述每一种分类结果的解释信息包括:所述每一种分类结果对应的重要测试项目对该分类结果的贡献度。
8.一种电子设备,其特征在于,包括:
至少一个处理器,以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器用于执行所述存储器中的指令,以在执行所述指令时,使所述装置执行如权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010467745.4A CN111652302B (zh) | 2020-05-28 | 2020-05-28 | 一种解释保险核保分类结果的方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010467745.4A CN111652302B (zh) | 2020-05-28 | 2020-05-28 | 一种解释保险核保分类结果的方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111652302A CN111652302A (zh) | 2020-09-11 |
CN111652302B true CN111652302B (zh) | 2023-05-23 |
Family
ID=72344023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010467745.4A Active CN111652302B (zh) | 2020-05-28 | 2020-05-28 | 一种解释保险核保分类结果的方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111652302B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112419077A (zh) * | 2020-12-04 | 2021-02-26 | 上海商汤智能科技有限公司 | 数据处理方法及装置、电子设备和存储介质 |
US11983777B1 (en) * | 2021-07-28 | 2024-05-14 | Massachusetts Mutual Life Insurance Company | Systems and methods for risk factor predictive modeling with model explanations |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948647A (zh) * | 2019-01-24 | 2019-06-28 | 西安交通大学 | 一种基于深度残差网络的心电图分类方法及系统 |
CN110795945A (zh) * | 2019-10-30 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种语义理解模型训练方法、语义理解方法、装置及存储介质 |
CN111027487A (zh) * | 2019-12-11 | 2020-04-17 | 山东大学 | 基于多卷积核残差网络的行为识别系统、方法、介质及设备 |
CN111126350A (zh) * | 2020-01-17 | 2020-05-08 | 乐普(北京)医疗器械股份有限公司 | 一种心搏分类结果的生成方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2481485A1 (en) * | 2002-04-04 | 2003-10-16 | Ishihara Sangyo Kaisha, Ltd. | Apparatus and method for analyzing data |
-
2020
- 2020-05-28 CN CN202010467745.4A patent/CN111652302B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948647A (zh) * | 2019-01-24 | 2019-06-28 | 西安交通大学 | 一种基于深度残差网络的心电图分类方法及系统 |
CN110795945A (zh) * | 2019-10-30 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种语义理解模型训练方法、语义理解方法、装置及存储介质 |
CN111027487A (zh) * | 2019-12-11 | 2020-04-17 | 山东大学 | 基于多卷积核残差网络的行为识别系统、方法、介质及设备 |
CN111126350A (zh) * | 2020-01-17 | 2020-05-08 | 乐普(北京)医疗器械股份有限公司 | 一种心搏分类结果的生成方法和装置 |
Non-Patent Citations (1)
Title |
---|
纪守领 等.机器学习模型可解释性方法、应用于安全研究综述.计算机研究与发展.2019,第第56卷卷(第第56卷期),2071-2096. * |
Also Published As
Publication number | Publication date |
---|---|
CN111652302A (zh) | 2020-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11488718B2 (en) | Computer aided medical method and medical system for medical prediction | |
Tran et al. | Automated tuning for parameter identification and uncertainty quantification in multi-scale coronary simulations | |
Polat et al. | A hybrid approach to medical decision support systems: Combining feature selection, fuzzy weighted pre-processing and AIRS | |
JP6800975B2 (ja) | 医療画像を患者と関連付けるためのシステム及び方法 | |
CN111652302B (zh) | 一种解释保险核保分类结果的方法、装置 | |
KR20210108376A (ko) | 콘텐츠를 특징화하기 위해 뇌 특성 활동 맵 데이터베이스를 활용하기 위한 장치 및 방법 | |
Yan et al. | Selecting critical clinical features for heart diseases diagnosis with a real-coded genetic algorithm | |
CN106599553A (zh) | 疾病预警方法及装置 | |
CN111785366B (zh) | 患者治疗方案的确定方法、装置及计算机设备 | |
CN106529110A (zh) | 一种用户数据分类的方法和设备 | |
CN115497616B (zh) | 一种感染性疾病辅助决策的方法、系统、设备及存储介质 | |
Nichita et al. | Image Clustering Algorithms to Identify Complicated Cerebral Diseases. Description and Comparison | |
CN110473636B (zh) | 基于深度学习的智能医嘱推荐方法及系统 | |
Zhang et al. | A new optimization method for accurate anterior cruciate ligament tear diagnosis using convolutional neural network and modified golden search algorithm | |
JP7173482B2 (ja) | ヘルスケアデータ分析システム、ヘルスケアデータ分析方法およびヘルスケアデータ分析プログラム | |
EP3270308B1 (en) | Method for providing a secondary parameter, decision support system, computer-readable medium and computer program product | |
Umamaheswari et al. | Prediction of myocardial infarction using K-medoid clustering algorithm | |
CN109087712A (zh) | 一种基于随机子空间集成学习的主动脉夹层筛查模型及其建立方法、系统和模型 | |
MR | EANNMHO-A Novel Ensemble Based Technique for Liver Cirrhosis Detection. | |
Dileep et al. | IGHOA Based Modified Convolutional Neural Network for Prediction of Cardiovascular Disease | |
CN117672495B (zh) | 基于人工智能的房颤合并冠心病患者远期死亡率预测方法 | |
Fossan | Physics-based and data-driven reduced order models: applications to coronary artery disease diagnostics | |
JP2011257816A (ja) | 受診者状態推定装置及びプログラム | |
EP3920190A1 (en) | Bias detection in sensor signals | |
JP7229313B2 (ja) | 加齢による黄斑変性症用の分類モデルを学習させる電子機器及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |