CN111784303B

CN111784303B - 核保信息处理方法、装置、计算机存储介质及电子设备

Info

Publication number: CN111784303B
Application number: CN202010640690.2A
Authority: CN
Inventors: 韩森尧; 喻庐军; 刘岩; 王若楠; 张秋晖
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2023-08-22
Anticipated expiration: 2040-07-06
Also published as: CN111784303A

Abstract

本公开涉及计算机领域，提供了一种核保信息处理方法、装置、计算机可读存储介质及电子设备，所述方法包括：获取投保人的核保参考信息，核保参考信息包括连续变量信息和离散变量信息；根据预设规则对连续变量信息进行离散化处理，以获取离散化核保参考信息；对离散化核保参考信息和离散变量信息进行降维处理，并对降维处理后的信息进行分类，以获取多组分类信息；将分类信息输入至核保模型，通过核保模型对各组分类信息分别进行特征提取以获取与各组分类信息对应的第一特征信息，对所有第一特征信息进行特征提取以获取第二特征信息，并根据第二特征信息获取核保预测结果。本公开的方法能够提高了核保预测结果的准确率。

Description

核保信息处理方法、装置、计算机存储介质及电子设备

技术领域

本公开涉及核保技术领域，特别涉及一种核保信息处理方法、核保信息处理装置、计算机可读存储介质及电子设备。

背景技术

随着人工智能的快速发展，智能化核保渐渐代替了传统的人工核保，人工核保由于需要依赖人工经验，因而核保准确度较低、效率较低，因此智能化核保能够大大提高核保效率和准确度，降低人工成本。

智能核保主要有两个难点：一个是体检报告的识别和结构化，另一个是核保结论的预测。就核保结论的预测而言，一般采用XGBoost进行预测，虽然XGBoost在小数据集上的表现较好，但是实验发现，XGBoost可能会存在没有抓住一些数据中的特征，进而出现预测准确率不够高的问题，例如有的病症需要根据多个指标进行判断，仅根据一个指标是无法确定的，但由于XGBoost无法获取多个指标之间的相互作用，进而导致预测结果存在偏差。

鉴于此，本领域亟需开发一种核保信息处理方法及装置。

需要说明的是，上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。

发明内容

本公开的目的在于提供一种核保信息处理方法、核保信息处理装置、计算机可读存储介质及电子设备，进而至少在一定程度上提高核保的效率和准确率。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种核保信息处理方法，包括：

获取投保人的核保参考信息，所述核保参考信息包括连续变量信息和离散变量信息；

根据预设规则对所述连续变量信息进行离散化处理，以获取离散化核保参考信息；

对所述离散化核保参考信息和所述离散变量信息进行降维处理，并对降维处理后的信息进行分类，以获取多组分类信息；

将所述分类信息输入至核保模型，通过所述核保模型对各组所述分类信息分别进行特征提取以获取与所述各组分类信息对应的第一特征信息，对所有所述第一特征信息进行特征提取以获取第二特征信息，并根据所述第二特征信息获取核保预测结果。

在本公开的示例性实施例中，所述核保参考信息包括连续变量信息和离散变量信息；所述对所述核保参考信息进行分类以获取多组分类信息，包括：

对所述离散化核保参考信息和所述离散变量信息进行降维处理，并对降维处理后的信息进行分类，以获取所述分类信息。

在本公开的示例性实施例中，所述核保模型包括多个第一注意力子模型、第二注意力子模型和预测子模型；所述通过所述核保模型对各组所述分类信息分别进行特征提取以获取与所述各组分类信息对应的第一特征信息，对所有所述第一特征信息进行特征提取以获取第二特征信息，并根据所述第二特征信息获取核保预测结果，包括：

通过各所述第一注意力子模型分别对各组所述分类数据进行特征提取，以获取所述第一特征信息；

通过所述第二注意力子模型对所有所述第一特征信息进行合并，并对合并后的特征信息进行特征提取，以获取所述第二特征信息；

通过所述预测子模型对所述第二特征信息进行随机失活处理和全连接处理，以获取所述核保预测结果。

在本公开的示例性实施例中，所述第一注意力子模型包括输入层、实体嵌入层、第一特征提取层、第一时间分布包装层和第一注意力层；所述第二注意力子模型包括合并层、第二特征提取层、第二时间分布包装层和第二注意力层；所述预测子模型包括随机失活层、全连接层和输出层。

在本公开的示例性实施例中，在将所述分类信息输入至核保模型之前，所述方法还包括：

获取多个核保参考信息样本和与各所述核保参考信息样本对应的核保结论；

根据各所述核保参考信息样本和对应的核保结论对待训练核保模型进行训练，以获取所述核保模型。

在本公开的示例性实施例中，所述根据各所述核保参考信息样本和对应的核保结论对待训练核保模型进行训练，以获取所述核保模型，包括：

对各所述核保参考信息样本进行预处理并分类，以获取与各所述核保参考信息样本对应的多组分类核保参考信息样本；

根据所述分类核保参考信息样本和对应的核保结论对所述待训练核保模型进行训练，以获取所述核保模型。

在本公开的示例性实施例中，所述核保参考信息样本包括连续变量信息样本和离散变量信息样本；所述对各所述核保参考信息样本进行预处理并分类，以获取与各所述核保参考信息样本对应的多组分类核保参考信息样本，包括：

根据所述预设规则对所述连续变量信息样本进行离散化处理，以获取离散化信息样本；

对所述离散化信息样本和所述离散变量信息样本进行递归特征消除，以获取降维特征信息；

根据所述预设规则对所述降维特征信息进行初分类，并根据信息熵算法对初分类后的降维特征信息进行再分类，以获取所述分类核保参考信息样本。

在本公开的示例性实施例中，所述待训练核保模型包括多个待训练第一注意力子模型、待训练第二注意力子模型和待训练预测子模型，其中所述待训练第一注意力子模型的数量与所述分类核保参考信息样本的类别数相同；所述根据所述分类核保参考信息样本和对应的核保结论对所述待训练核保模型进行训练，以获取所述核保模型，包括：

通过各所述待训练第一注意力子模型分别对各组所述分类训练样本进行特征提取，以获取类内特征信息；

通过所述待训练第二注意力子模型对所述类内特征信息进行合并，并对合并后的特征信息进行特征提取，以获取类间特征信息；

通过所述待训练预测子模型对所述类间特征信息进行随机失活处理和全连接处理，以获取预测结果；

根据所述预测结果和所述核保结论确定损失函数，根据所述损失函数优化所述待训练核保模型的参数，直至所述损失函数的值最小。

根据本公开的第二方面，提供一种核保信息处理装置，包括：

信息获取模块，用于获取投保人的核保参考信息，所述核保参考信息包括连续变量信息和离散变量信息；

离散化模块，用于根据预设规则对所述连续变量信息进行离散化处理，以获取离散化核保参考信息；

信息分类模块，用于对所述离散化核保参考信息和所述离散变量信息进行降维处理，并对降维处理后的信息进行分类，以获取多组分类信息；

核保预测模块，用于将所述分类信息输入至核保模型，通过所述核保模型对各组所述分类信息分别进行特征提取以获取与各组所述分类信息对应的第一特征信息，对所有所述第一特征信息进行特征提取以获取第二特征信息，并根据所述第二特征信息获取核保预测结果。

根据本公开的第三方面，提供一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述的核保信息处理方法。

根据本公开的第四方面，提供一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述的核保信息处理方法。

由上述技术方案可知，本公开示例性实施例中的信息处理方法及装置、计算机可读存储介质、电子设备至少具备以下优点和积极效果：

本公开实施例中的核保信息处理方法首先通过对核保参考信息进行离散化处理、降维处理和分类处理获取多组分类信息，接着通过训练好的核保模型对多组分类信息进行特征提取，在特征提取的过程中先对各组分类信息进行特征提取以获取同类信息之间的关系和相互作用，即第一特征信息，接着对每个类的输出结果进行合并后进行特征提取以获取不同类信息之间的关系和相互作用，即第二特征信息，最后根据第二特征信息获取核保预测结果。本公开一方面能够训练得到基于分类和注意力机制的核保模型，相对于现有模型，提高了模型训练的效率和模型的稳定性；另一方面，核保模型能够抓住核保参考信息中的特征，特别是核保参考信息之间的相互作用，提高了预测结果的准确率。

本公开应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本公开示例性实施例中核保信息处理系统的架构示意图；

图2示出本公开示例性实施例中核保信息处理方法的流程示意图；

图3示出本公开示例性实施例中获取核保预测结果的流程示意图；

图4示出本公开示例性实施例中核保模型的架构示意图；

图5A-5C示出本公开示例性实施例中核保信息处理过程中的界面示意图；

图6示出本公开示例性实施例中离散化处理后的特征信息表；

图7示出本公开示例性实施例中训练待训练核保模型的流程示意图；

图8示出本公开示例性实施例中核保信息处理装置的结构示意图；

图9示出本公开示例性实施例中用于实现核保信息处理方法的电子设备；

图10示出本公开示例性实施例中用于实现核保信息处理方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”和“第二”等仅作为标记使用，不是对其对象的数量限制。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

图1示出了可以应用本公开实施例的技术方案的核保信息处理系统的架构示意图。

如图1所示，核保信息处理系统100可以包括：信息提取模块101、核保模块102和知识库103，核保信息处理系统100与核心业务处理系统连接，核心业务处理系统可用于存储投保人的基本信息及相关的体检报告，同时还可存储核保系统100输出的核保预测结果以及核保人员对投保人的保单做出的核保结论。在对某一投保人的保单进行核保时，核保信息处理系统100能够接收到由核心业务处理系统发送的与该投保人对应的体检报告，在获取投保人的体检报告后，首先可以通过信息提取模块101对体检报告中的文字、图像等信息进行提取，以获取投保人的核保参考信息，具体地可以采用OCR等文字识别技术进行信息提取，以将非结构化信息转换为结构化信息；接着信息提取模块101将核保参考信息发送至核保模块102，以使核保模块102对核保参考信息进行处理，获取核保预测结果。核保模块102在对核保参考信息进行处理的过程中，可以从知识库103中获取相应的医学知识和规则以对核保参考信息进行离散化、分类等处理，并且核保模块102在确定核保预测结果后，可以将该核保预测结果发送至核心业务处理系统，核保人员通过登录核心业务处理系统，即可获取核保预测结果，并对该核保预测结果进行复核，做出最终的核保结论。

在本领域的相关技术中，通常采用XGBoost进行核保结论的预测，但是由于XGBoost无法抓住一些数据中的特征，例如数据间的相互作用，因而预测准确率较低，例如当平均红细胞血红蛋白含量和淋巴细胞数都上升时可以判定投保人患有贫血，但是仅根据平均红细胞血红蛋白含量上升或淋巴细胞数上升则无法确定投保人是否患有贫血。

针对相关技术中存在的问题，本公开提出了一种核保信息处理方法，由于神经网络模型在拟合抽象方程和抓住变量之间相互影响上有较好的表现，因此本公开实施例中的核保信息处理方法为基于神经网络模型进行的核保结论的预测。图2示出了核保信息处理方法的流程图，如图2所示，核保信息处理方法包括：

S210：获取投保人的核保参考信息，所述核保参考信息包括连续变量信息和离散变量信息；

S220：根据预设规则对所述连续变量信息进行离散化处理，以获取离散化核保参考信息；

S230：对所述离散化核保参考信息和所述离散变量信息进行降维处理，并对降维处理后的信息进行分类，以获取多组分类信息；

S240：将所述分类信息输入至核保模型，通过所述核保模型对各组所述分类信息分别进行特征提取以获取与所述各组分类信息对应的第一特征信息，对所有所述第一特征信息进行特征提取以获取第二特征信息，并根据所述第二特征信息获取核保预测结果。

下面基于图1示出的系统架构图，对核保信息处理方法的各个步骤进行详细说明。

在步骤S210中，获取投保人的核保参考信息，所述核保参考信息包括连续变量信息和离散变量信息。

在本公开的示例性实施例中，投保人通过登录终端设备中安装的保险平台进行投保，或者通过保险业务员根据所采集的投保人信息为投保人进行投保，在完成信息录入之后，核心业务处理系统中的投保模块可以根据投保人的信息通过接口从健康服务管理模块中获取该投保人的体检报告，并将体检报告发送至信息提取模块101，通过信息提取模块101对体检报告中的信息进行识别，以获取与该体检报告对应的结构化信息，该结构化信息即为投保人的核保参考信息。该核保参考信息中包括连续变量信息和离散变量信息，所有的变量信息均可由信息提取模块101发送至核保模块102，以使核保模块102对核保参考信息进行处理，并获取核保预测结果。其中从健康服务管理模块中获取的投保人的体检报告可以是投保人在截止投保时间的一段时间内的所有体检报告，也可以是投保人的距离投保时间最近的一份或几份体检报告。

在步骤S220中，根据预设规则对连续变量信息进行离散化处理，以获取离散化核保参考信息。

在本公开的示例性实施例中，核保参考信息中包含连续变量信息和离散变量信息，例如身高、年龄、血小板计数等为连续变量，血糖、总胆固醇和收缩压等为离散变量，为了对核保参考信息进行有效地分类，提高核保预测结果的准确度，对于核保参考信息中的连续变量信息需要根据预设规则对其进行离散化，以获取离散化核保参考信息。该预设规则可以是根据临床医学数据或医学知识所设定的规则，其可以以知识库103的形式存在，例如在知识库中，当舒张压小于60mmHg时为低血压，记为0；当舒张压大于等于60mmHg且小于等于90mmHg时为正常血压，记为1；当舒张压大于90mmHg时为高血压，记为2，那么在获取体检报告中的舒张压值后，可以根据知识库中关于舒张压的离散化规则确定舒张压所对应的类别，比如投保人的舒张压为80mmHg，那么该投保人的舒张压信息为1。

在步骤S230中，对离散化核保参考信息和离散变量信息进行降维处理，并对降维处理后的信息进行分类，以获取分类信息。

在本公开的示例性实施例中，通过对核保参考信息中的连续变量信息进行离散化处理，能够获取多个离散化核保参考信息，但是在这些离散化参考信息和离散变量信息中存在一些不重要的特征，例如身高、年龄、裸眼视力等等，为了提高后续的模型处理效率，可以将这些不重要的特征过滤掉，只保留重要的离散化参考信息和离散变量信息。具体地可以根据过滤列表进行信息过滤，该过滤列表为基于逻辑回归的递归特征消除法所确定的过滤信息。在本公开的实施例中，过滤列表中所包含的信息具体为：身高、年龄、血小板计数、尿酸碱度、γ-谷氨酰转肽酶、丙氨酸氨基转移酶(谷丙转氨酶)、尿素氮、吸烟指数、体重、肌酐、裸眼左、裸眼右、红细胞计数。

在本公开的示例性实施例中，在获取降维处理得到的信息后，可以根据每个特征信息所属的类别对降维处理得到的信息进行分类，以将离散化参考信息和离散变量信息划分为多组分类信息。在本公开的实施例中，可以根据分类表对离散化参考信息和离散变量信息进行分类，例如分类表中与大类“肝功能”对应的特征信息有“天门冬氨酸氨基转移酶(谷草转氨酶)、乙肝五项、肝功能”，那么当离散化参考信息和离散变量信息中存在上述一个或多个特征信息时，则可将该特征信息划分为“肝功能”这一类。在本公开的实施例中，通过对离散化处理和降维处理后的训练数据进行初分类和再分类，能够得到上述的分类表，该分类表包括12个大类，每一个大类包含与其对应的一个或多个具体的特征信息，分类表如表1所示：

表1分类表

在步骤S240中，将所述分类信息输入至核保模型，通过所述核保模型对各组所述分类信息分别进行特征提取以获取与所述各组分类信息对应的第一特征信息，对所有所述第一特征信息进行特征提取以获取第二特征信息，并根据所述第二特征信息获取核保预测结果。

在本公开的示例性实施例中，在获取多组分类信息后，可以通过核保模型对多组分类信息进行特征提取以获取核保预测结果。该核保模型包括多个第一注意力子模型、第二注意力子模型和预测子模型，其中第一注意力子模型的数量与分类表中的大类数量相对应，例如可以设置12个第一注意力子模型，用于提取各组分类信息中同类特征信息之间的关系和相互作用；第二注意力子模型用于将12个类别的输出结果合并，并提取不同类特征信息之间的关系和相互作用；预测子模型用于对第二注意力模型的输出结果进行处理，以获取核保预测结果。图3示出了获取核保预测结果的流程示意图，如图3所示，在步骤S301中，通过各第一注意力子模型分别对各组分类数据进行特征提取，以获取第一特征信息；在步骤S302中，通过第二注意力子模型对第一特征信息进行合并，并对合并后的第一特征信息进行特征提取，以获取第二特征信息；在步骤S303中，通过预测子模型对第二特征信息进行随机失活处理和全连接处理，以获取核保预测结果。本公开实施例中的核保模型是基于二次分类和注意力机制的预测模型，通过核保模型首先对每个类别的信息引入注意力机制，然后对每个第一注意力子模型的输出结果进行合并，并再一次引入注意力机制，以完成最后的预测，能够使得预测精度大幅提升。

在本公开的示例性实施例中，图4示出了核保模型的架构示意图，如图4所示，核保模型包括多个第一注意力子模型401、第二注意子模型402和预测子模型403，其中各第一注意力子模型401包括输入层401-1、实体嵌入层401-2、第一特征提取层401-3、第一时间分布包装层401-4和第一注意力层401-5，第二注意力子模型402包括合并层402-1、第二特征提取层402-2、第二时间分布包装层402-3和第二注意力层402-4；预测子模型403包括随机失活层403-1、全连接层403-2和输出层403-3。进一步地，第一特征提取层401-3和第二特征提取层402-2均可以为双向GRU-RNN层。

在将多组分类信息输入至核保模型中之后，根据分类信息中所包含特征信息的不同，可以将各组分类信息输入至不同的第一注意力子模型的输入层中，例如存在一组分类信息包含11维的特征信息，那么可以判断其所属的大类为“血常规”，那么可以将该组分类信息输入至与“血常规”对应的第一注意力子模型进行特征提取；输入层401-1将分类信息传送至实体嵌入层401-2，通过实体嵌入层401-2对输入的特征信息进行升维处理，也就是将特征信息从低维空间映射至高维空间，以提高模型的收敛性和结果的准确率，其中高维空间的维度可以根据实际需要设定，例如设置为4维，等等；升维后的特征信息传递至第一特征提取层401-3，通过第一特征提取层401-3对接收到的特征信息进行特征提取，获取同类特征信息之间的抽象关系，由于第一特征提取层401-3是双向GRU-RNN层，可以实现双向的特征提取，因此第一特征提取层401-3输出的特征信息的维度是实体嵌入层401-2输出的特征信息的维度的二倍，例如为8维，等等；第一特征提取层401-3输出的特征信息传送至第一时间分布包装层401-4，该第一时间分布包装层可以使不同层的特征共享权重，提高了数据处理效率；第一注意力层401-5能够对第一时间分布包装层401-4输出的各组分类信息中的各个特征信息进行特征提取，以获取同类特征信息之间的关系和相互作用，即第一特征信息。

在生成与各组分类信息对应的第一特征信息之后，可以通过各第一注意力子模型401将第一特征信息传送至第二注意力子模型402，第二注意力子模型402接收到多个第一特征信息之后，首先可以通过合并层402-1对多个第一特征信息进行合并，以在同一维度上将多个第一特征信息进行连接，获取合并特征信息，该合并特征信息即为第二注意力子模型402的处理对象，用于对其进行特征提取以获取不同类特征信息之间的关系和相互作用，即第二特征信息。与第一注意力子模型的数据处理流程类似，在获取合并特征信息后，可以依次通过第二特征提取层402-2、第二时间分布包装层402-3和第二注意力层402-4对合并特征信息进行处理，以获取第二特征信息。其中第二特征提取层402-2也可以是双向GRU-RNN层，可以实现双向的特征提取，因此第二特征提取层402-2输出的特征信息的维度是第一注意力子模型输出的特征信息的维度的二倍，例如为16维，等等。

在获取第二特征信息后，可以通过预测子模型403对第二特征信息进行处理，以获取核保预测结果，具体地，可以先通过随机失活层403-1对第二特征信息进行随机过滤，去除部分特征信息，对剩余的特征信息进行全连接处理，以获取对应不同核保结论的概率分布，进而根据不同核保结论的概率分布即可确定核保预测结果。例如，通过全连接层403-2处理所得到的输出结果为“标准体：0.8，次标体：0.1，拒保：0.05，延保：0.05”，那么可以确定核保预测结果为标准体。由于本公开实施例中的核保模型是基于二次分类和注意力机制的神经网络模型，能够充分提取同类特征信息之间以及不同类特征信息之间的关系和相互作用，进而可以对核保结论的预测做出更精准的指导，提高核保结论预测的精准度，表2示出了本公开实施例中的核保模型的平均预测准确率和现有的核保模型的平均预测准确率，如表2所示：

表2各个模型的平均预测准确率

从表2的数据分析可知，本公开实施例中的核保模型的平均预测准确率高于其它模型的平均预测准确率，性能表现更优异。

图5A-5C示出了核保信息处理过程中的界面示意图，图5A为核保信息处理系统100接收到的体检报告的界面示意图，其中包含多项体检项目的名称、测定值和正常参考值，在进行核保预测时，首先通过信息提取模块101对体检报告中的图像、文字进行提取，以将非结构化信息转换为结构化信息；接着核保模块102对结构化信息进行离散化处理和分类处理，并通过核保模型对分类处理后的信息进行特征提取，以获取核保预测结果，如图5B所示，该核保预测结果可由核保模块102输出至核心业务处理系统，进一步地，核保人员可以对发送至核心业务处理系统中的核保预测结果进行查看和复核，如图5C所示，在界面中存在“认知核保结果查询”按键，核保人员可以对该按键进行触发，以获取核保预测结果。

在本公开的示例性实施例中，为了提高核保预测结果的准确性，在采用核保模型进行核保预测之前，需要对待训练核保模型进行训练，以获取稳定的核保模型。在训练待训练核保模型时，可以先获取多个核保参考信息样本和与各核保参考信息样本对应的核保结论；然后根据各核保参考信息样本和对应的核保结论对待训练核保模型进行训练，以获取核保模型。

在根据各核保参考信息样本和对应的核保结论对待训练核保模型进行训练时，首先可以对各核保参考信息样本进行分类，以获取与各核保参考信息样本对应的多组分类核保参考信息样本；然后根据分类核保参考信息样本和对应的核保结论对待训练核保模型进行训练，以获取核保模型。接下来对获取核保模型的细节进行详细描述。

在本公开的示例性实施例中，与核保参考信息类似，核保参考信息样本也包括连续变量信息样本和离散变量信息样本，对于连续变量信息样本需要根据预设规则进行离散化处理，以获取离散化信息，该预设规则与对核保参考信息进行离散化处理的预设规则相同，可以是根据临床医学数据或医学知识所设定的规则，其可以以知识库的形式存在。在对连续变量信息样本进行离散化时，可以采用不同的数字标识对离散化信息进行表示，该数字标识可以表示一个取值范围，例如可以采用0、1、2表示根据预设规则对血红蛋白进行离散化处理所得到的离散化信息，采用0、1表示根据预设规则对大三阳进行离散化处理所得到的离散化信息，等等。本公开实施例中通过对核保参考信息样本进行离散化处理，可以得到55个特征信息，具体如图6所示。

在本公开的示例性实施例中，在对核保参考信息样本中的连续变量信息样本进行离散化处理后，可以对得到的离散化信息样本和离散变量信息样本进行降维处理，以获取降维特征信息，具体地可以对离散化信息样本和离散变量信息样本进行递归特征消除，以实现降维。在进行递归特征消除时，可以采用基于逻辑回归的递归特征消除法实现，通过根据核保参考信息样本对逻辑回归的分类器进行多轮训练，每轮剔除逻辑回归分类器中特征系数最小的特征信息，也就是相对其它特征信息不重要的特征信息。

在本公开的示例性实施例中，在获取降维特征信息后，可以根据预设规则对降维特征信息进行初分类，然后根据信息熵算法对初分类后的降维特征信息进行再分类，以获取分类训练样本。在对降维特征信息进行初分类时，同样可以根据知识库中的预设规则进行分类，该预设规则为医学工作者根据已有的医学知识和临床数据所确定的规则，例如乳腺B超特征、妇科B超特征、甲状腺B超特征、肝B超特征、肾脏输尿管膀胱B超特征、胆B超特征、脾B超特征、淋巴结B超特征均属于B超类，大三阳、小三阳和肾功能特征均与肾相关，属于肾功能类，等等。在本公开的实施例中，通过初分类可以将降维特征信息分成12个大类，如表1所示，具体为B超类、肝功能类、健康告知类、内科类、尿常规类、肾功能类、心电图类、胸片类、血糖类、血脂类、一般检查类和血常规类。

在将降维特征信息划分为多个类别后，可以对每个类别中的特征信息进行再分类，以将其划分到准确地大类中，得到分类核保参考信息样本。具体地可以根据信息熵算法进行再分类，首先遍历每个特征信息，计算该特征信息属于初分类后所对应的大类的第一总信息熵，然后将该特征信息从对应的大类中剔除，计算剔除后的大类的第二总信息熵，将第一总信息熵与第二总信息熵相减即可获得信息增益。若信息增益大于或等于预设阈值，则咨询专业医生和核保专家的意见，酌情调整该特征信息到其它大类；若信息增益小于该预设阈值，则维持该特征信息所属的大类不变。在计算第一总信息熵和第二总信息熵时，可以根据大类中每个特征信息的分布概率进行计算，将每个特征信息的分布概率带入到公式(1)中即可确定信息熵，公式(1)如下所示：

其中，i为第i个核保结论，n为核保结论总数，即为4，p_i为特征信息对应第i个核保结论的概率值。

一个大类中可能包含多个特征信息，对于每个特征信息可以计算该特征信息对应不同核保结论的概率值，然后根据各个特征信息对应不同核保结论的概率值和公式(1)即可确定第一总信息熵，同样地，根据除去目标特征信息之外的其它特征信息对应不同核保结论的概率值和公式(1)即可确定第二总信息熵，进而根据第一总信息熵和第二总信息熵确定是否将目标特征信息划分到其它大类。在计算各个特征信息对应不同核保结论的概率值时，例如某个核保参考信息样本经离散化后得到0、1、2三个特征信息，那么可以分别统计包含特征信息0、1、2的所有核保参考信息样本所对应的核保结论的数量，例如包含特征信息0的核保参考信息样本的数量为2000条，其中所对应的核保结论为标准体的数量为1000条，次标体的数量为500条，延期的数量为250条，拒保的数量为250条，那么可以确定特征信息0的概率值分别为1/2、1/4、1/8、1/8，同样地，根据上述方法可以确定大类所包含的其它特征信息对应不同核保结论的概率值。

通过对核保参考信息样本进行初分类和再分类，能够获取特征的正确分类，进而保证模型训练的精度和稳定度。

在本公开的示例性实施例中，在获取分类核保参考信息样本后，可以根据分类核保参考信息样本对待训练核保模型进行训练，待训练核保模型的架构图与图4所示的核保模型的架构图相同，包括多个待训练第一注意力子模型、待训练第二注意力子模型和待训练预测子模型，其中待训练第一注意力子模型的数量与分类核保参考信息样本的类别数相同，例如可以是12个。图7示出了训练待训练核保模型的流程示意图，如图7所示，在步骤S701中，通过各待训练第一注意力子模型分别对各组分类核保参考信息样本进行特征提取，以获取类内特征信息；在步骤S702中，通过待训练第二注意力子模型对类内特征信息进行合并，并对合并后的类内特征信息进行特征提取，以获取类间特征信息；在步骤S703中，通过待训练预测子模型对类间特征信息进行随机失活处理和全连接处理，以获取预测结果；在步骤S704中，根据预测结果和核保结论确定损失函数，根据损失函数优化待训练核保模型的参数，直至损失函数的值最小。进一步地，还可以设定训练次数，当模型训练的次数达到设定的训练次数时，则认定模型训练完成，可用于后续的核保结论的预测。

本公开中的核保信息处理方法首先通过对核保参考信息进行分类获取多组分类信息，接着通过训练好的核保模型对多组分类信息进行特征提取，在特征提取的过程中引入两次注意力机制，第一次是对各组分类信息引入注意力机制以获取同类特征信息之间的关系和相互作用，第二次是对每个类的输出结果进行合并后引入注意力机制以获取不同类特征信息之间的关系和相互作用，进而完成核保结论的预测。本公开一方面能够训练得到基于二次分类和注意力机制的核保模型，相对于现有模型，提高了模型训练的效率和模型的稳定性；另一方面，核保模型能够抓住核保参考信息中的特征，特别是核保参考信息之间的相互作用，提高了预测结果的准确率。

相应地，本公开还提供了一种核保信息处理装置，图8示出了核保信息处理装置的结构示意图，如图8所示，核保信息处理装置800可以包括信息获取模块801、离散化模块802、信息分类模块803和核保预测模块804。其中：

信息获取模块801，用于获取投保人的核保参考信息，所述核保参考信息包括连续变量信息和离散变量信息；

离散化模块802，用于根据预设规则对所述连续变量信息进行离散化处理，以获取离散化核保参考信息；

信息分类模块803，用于对所述离散化核保参考信息和所述离散变量信息进行降维处理，并对降维处理后的信息进行分类，以获取多组分类信息；

核保预测模块804，用于将所述分类信息输入至核保模型，通过所述核保模型对各组所述分类信息分别进行特征提取以获取与各组所述分类信息对应的第一特征信息，对所有所述第一特征信息进行特征提取以获取第二特征信息，并根据所述第二特征信息获取核保预测结果。

在本公开的示例性实施例中，所述核保模型包括多个第一注意力子模型、第二注意力子模型和预测子模型；所述核保预测模块804包括：

第一特征提取单元，用于通过各所述第一注意力子模型分别对各组所述分类数据进行特征提取，以获取所述第一特征信息；

第二特征提取单元，用于通过所述第二注意力子模型对所有所述第一特征信息进行合并，并对合并后的特征信息进行特征提取，以获取所述第二特征信息；

第一后处理单元，用于通过所述预测子模型对所述第二特征信息进行随机失活处理和全连接处理，以获取所述核保预测结果。

在本公开的示例性实施例中，在将所述分类信息输入至核保模型之前，所述核保信息处理装置还包括：

样本获取模块，用于获取多个核保参考信息样本和与各所述核保参考信息样本对应的核保结论；

模型训练模块，用于根据各所述核保参考信息样本和对应的核保结论对待训练核保模型进行训练，以获取所述核保模型。

在本公开的示例性实施例中，所述模型训练模块，包括：

样本分类单元，用于对各所述核保参考信息样本进行预处理并分类，以获取与各所述核保参考信息样本对应的多组分类核保参考信息样本；

训练单元，用于根据所述分类核保参考信息样本和对应的核保结论对所述待训练核保模型进行训练，以获取所述核保模型。

在本公开的示例性实施例中，所述核保参考信息样本包括连续变量信息样本和离散变量信息样本；所述样本分类单元，包括：

样本离散化单元，用于根据所述预设规则对所述连续变量信息样本进行离散化处理，以获取离散化信息样本；

降维单元，用于对所述离散化信息样本和所述离散变量信息样本进行递归特征消除，以获取降维特征信息；

分类单元，用于根据所述预设规则对所述降维特征信息进行初分类，并根据信息熵算法对初分类后的降维特征信息进行再分类，以获取所述分类核保参考信息样本。

在本公开的示例性实施例中，所述待训练核保模型包括多个待训练第一注意力子模型、待训练第二注意力子模型和待训练预测子模型，其中所述待训练第一注意力子模型的数量与所述分类核保参考信息样本的类别数相同；所述训练单元，包括：

第三特征提取单元，用于通过各所述第一注意力子模型分别对各组所述分类训练样本进行特征提取，以获取类内特征信息；

第四特征提取单元，用于通过所述第二注意力子模型对所述类内特征信息进行合并，并对合并后的特征信息进行特征提取，以获取类间特征信息；

第二后处理单元，用于通过所述预测子模型对所述类间特征信息进行随机失活处理和全连接处理，以获取预测结果；

参数优化单元，用于根据所述预测结果和所述核保结论确定损失函数，根据所述损失函数优化所述待训练核保模型的参数，直至所述损失函数的值最小。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图9来描述根据本公开的这种实施方式的电子设备900。图9显示的电子设备900仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于：上述至少一个处理单元910、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930和显示单元940。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元910执行，使得所述处理单元910执行本说明书上述“具体实施方式”部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元910可以执行如图2、3、7中所示的步骤。

存储单元920可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)9201和/或高速缓存存储单元9202，还可以进一步包括只读存储单元(ROM)9203。

存储单元920还可以包括具有一组(至少一个)程序模块9205的程序/实用工具9204，这样的程序模块9205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线930可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备900也可以与一个或多个外部设备1500(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备900交互的设备通信，和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口950进行。并且，电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器960通过总线930与电子设备900的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备900使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

参考图10所示，描述了根据本公开的实施方式的用于实现上述方法的程序产品1000，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种核保信息处理方法，其特征在于，包括：

步骤一：获取投保人的核保参考信息，所述核保参考信息包括连续变量信息和离散变量信息；

步骤二：根据预设规则对所述连续变量信息进行离散化处理，以获取离散化核保参考信息；

步骤三：根据过滤列表对所述离散化核保参考信息和所述离散变量信息进行信息过滤，并根据分类表对信息过滤后的所述离散化核保参考信息和所述离散变量信息进行分类，以获取多组分类信息；

其中，所述过滤列表是基于逻辑回归的递归特征消除法确定的；所述分类表是通过对离散化处理和降维处理后的训练数据进行初分类和再分类得到的；

步骤四：将所述分类信息输入至核保模型，通过所述核保模型中的多个第一注意力子模型分别对各组所述分类信息分别进行特征提取以获取与各组所述分类信息对应的类内特征信息，通过所述核保模型中的第二注意力子模型对所有所述类内特征信息进行合并，并对合并后的特征信息进行特征提取以获取类间特征信息，并通过所述核保模型中的预测子模型对所述类间特征信息进行随机失活处理和全连接处理，以获取核保预测结果；

所述第一注意力子模型包括输入层、实体嵌入层、第一双向GRU-RNN层、第一时间分布包装层和第一注意力层；将各组所述分类信息输入至不同的所述第一注意力子模型的所述输入层中，通过所述输入层传送至所述实体嵌入层进行升维处理，之后经过所述第一双向GRU-RNN层输出维度为所述实体嵌入层输出的特征信息维度的二倍的特征信息至所述第一时间分布包装层，而后所述第一时间分布包装层使不同层的特征信息共享权重，最后通过所述第一注意力层对所述第一时间分布包装层输出的各组所述分类信息对应的各个特征信息进行特征提取，以获取所述类内特征信息；

所述第二注意力子模型包括合并层、第二双向GRU-RNN层、第二时间分布包装层和第二注意力层；所述第二注意力子模型接收到多个所述类内特征信息之后，首先，通过所述合并层对多个所述类内特征信息进行合并，在同一维度上将多个所述类内特征信息进行连接，得到合并特征信息，而后依次通过所述第二双向GRU-RNN层、所述第二时间分布包装层和所述第二注意力层对所述合并特征信息进行处理，以获取所述类间特征信息；其中，所述第二双向GRU-RNN层输出的特征信息的维度是所述第一注意力子模型输出的特征信息的维度的二倍；

所述预测子模型包括随机失活层、全连接层和输出层；通过所述随机失活层对所述类间特征信息进行随机过滤，去除部分特征信息，对剩余的特征信息进行全连接处理，以获取对应不同核保结论的概率分布，进而根据所述不同核保结论的概率分布确定所述核保预测结果。

2.根据权利要求1所述的方法，在将所述分类信息输入至核保模型之前，所述方法还包括：

3.根据权利要求2所述的方法，所述根据各所述核保参考信息样本和对应的核保结论对待训练核保模型进行训练，以获取所述核保模型，包括：

4.根据权利要求3所述的方法，所述核保参考信息样本包括连续变量信息样本和离散变量信息样本；

所述对各所述核保参考信息样本进行预处理并分类，以获取与各所述核保参考信息样本对应的多组分类核保参考信息样本，包括：

基于逻辑回归的递归特征消除法对所述离散化信息样本和所述离散变量信息样本进行递归特征消除，以获取降维特征信息；

根据所述预设规则对所述降维特征信息进行初分类，并根据信息熵算法对初分类后的降维特征信息进行再分类，以获取所述分类核保参考信息样本；

其中，所述信息熵算法为：

首先，遍历初分类后的每个所述降维特征信息，对于每个所述降维特征信息计算对应不同核保结论的概率值，然后根据各个所述降维特征信息对应不同核保结论的概率值和公式(1)确定第一总信息熵，

i为第i个核保结论，n为核保结论总数，p_i为特征信息对应第i个核保结论的概率值；

然后，将初分类后的所述降维特征信息从对应的大类中剔除，根据剔除后的特征信息对应不同核保结论的概率值和公式(1)确定第二总信息熵；

最后，将第一总信息熵与第二总信息熵相减获取信息增益；若所述信息增益大于或等于预设阈值，则咨询专业医生和核保专家的意见，调整初分类后的所述降维特征信息到其它大类；若所述信息增益小于所述预设阈值，则维持初分类后的所述降维特征信息所属的大类不变。

5.根据权利要求3所述的方法，所述待训练核保模型包括多个待训练第一注意力子模型、待训练第二注意力子模型和待训练预测子模型，其中所述待训练第一注意力子模型的数量与所述分类核保参考信息样本的类别数相同；

所述根据所述分类核保参考信息样本和对应的核保结论对所述待训练核保模型进行训练，以获取所述核保模型，包括：

通过各所述待训练第一注意力子模型分别对各组所述分类核保参考信息样本进行特征提取，以获取类内特征信息；

6.一种核保信息处理装置，其特征在于，包括：

信息分类模块，用于根据过滤列表对所述离散化核保参考信息和所述离散变量信息进行信息过滤，并根据分类表对信息过滤后的所述离散化核保参考信息和所述离散变量信息进行分类，以获取多组分类信息；

核保预测模块，用于将所述分类信息输入至核保模型，通过所述核保模型中的多个第一注意力子模型分别对各组所述分类信息分别进行特征提取以获取与各组所述分类信息对应的类内特征信息，通过所述核保模型中的第二注意力子模型对所有所述类内特征信息进行合并，并对合并后的特征信息进行特征提取以获取类间特征信息，并通过所述核保模型中的预测子模型对所述类间特征信息进行随机失活处理和全连接处理，以获取核保预测结果；

7.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～5中任意一项所述的核保信息处理方法。

8.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～5中任意一项所述的核保信息处理方法。