CN112561714B

CN112561714B - 基于nlp技术的核保风险预测方法、装置及相关设备

Info

Publication number: CN112561714B
Application number: CN202011488406.0A
Authority: CN
Inventors: 李海翔
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2024-03-08
Anticipated expiration: 2040-12-16
Also published as: CN112561714A

Abstract

本申请涉及数据处理技术，提供一种基于NLP技术的核保风险预测方法、装置、计算机设备与存储介质，包括：解析目标体检数据集，得到目标异常项与核保说明；分词处理核保说明，得到目标核保说明；基于预设word2ves工具包处理目标核保说明，得到目标词向量；调用预设TD‑IDF模型处理目标词向量，得到目标词向量对应的目标权重，对目标词向量进行加权处理，得到目标加权词向量；拼接目标异常项与目标加权词向量，得到目标拼接数据；调用XGBOOST模型训练目标拼接数据，得到核保风险分类模型；基于核保风险分类模型处理待核保单数据，得到风险分类。通过本申请，能够提高核保效率与核保准确性，促进智慧医疗及智慧城市的建设。

Description

基于NLP技术的核保风险预测方法、装置及相关设备

技术领域

本申请涉及数据处理技术领域，尤其涉及一种基于NLP技术的核保风险预测方法、装置、计算机设备及介质。

背景技术

目前，消费者一般通过线下手工填写保单的方式进行投保，而为了实现风控前移，保险公司的核保人员通常需要对保单内容进行审核，以服务正常投保，并规避恶意投保而带来的不必要损失。

然而，采用人工(即核保人员)核保需要消耗大量的人力资源，效率低下；且受到人工主观性影响（例如，核保人员的医学、财产风险知识储备的影响），核保的准确性得到不到保障。

有鉴于此，如何提高核保效率以及核保准确性成为亟待解决的问题。

发明内容

鉴于以上内容，有必要提出一种基于NLP技术的核保风险预测方法、基于NLP技术的核保风险预测装置、计算机设备及介质，能够提高核保效率与核保准确性。

本申请实施例第一方面提供一种基于NLP技术的核保风险预测方法，所述基于NLP技术的核保风险预测方法包括：

筛选经预处理后的历史体检数据集，得到目标体检数据集；

解析所述目标体检数据集，得到目标异常项与核保说明；

分词处理所述核保说明，得到对应所述目标异常项的目标核保说明；

基于预设word2ves工具包处理所述目标核保说明，得到目标词向量；

调用预设TD-IDF模型处理所述目标词向量，得到所述目标词向量对应的目标权重，并根据所述目标权重对所述目标词向量进行加权处理，得到目标加权词向量；

拼接所述目标异常项与所述目标加权词向量，得到目标拼接数据；

调用所述目标拼接数据训练预设模型，得到核保风险分类模型；

基于所述核保风险分类模型处理待核保单数据，得到对应所述待核保单数据的风险分类。

进一步地，在本申请实施例提供的上述基于NLP技术的核保风险预测方法中，预处理所述历史体检数据集包括：

获取所述历史体检数据集中的目标项数据，其中，所述目标项数据包括保单号、体检项目与检查结果；

清洗所述目标项数据，去除所述目标项数据中的链接、无效字符与无效语句；

确定并删除所述目标项数据中的缺失值，得到初始目标体检数据集。

进一步地，在本申请实施例提供的上述基于NLP技术的核保风险预测方法中，所述筛选经预处理后的历史体检数据集，得到目标体检数据集包括：

获取所述初始目标体检数据集中每一初始目标体检数据的目标体检项目；

确定对应所述目标体检项目的实际检查指标与标准健康指标；

比对所述实际检查指标与所述标准健康指标，得到指标异常结果对应的数据作为目标体检数据。

进一步地，在本申请实施例提供的上述基于NLP技术的核保风险预测方法中，所述解析所述目标体检数据集，得到目标异常项与核保说明包括：

获取所述目标体检数据的保单号；

获取所述目标体检数据中的目标异常项；

根据所述保单号遍历预先设置的保单号与核保结果信息的映射关系，得到对应所述保单号的目标核保结果信息；

解析所述目标核保结果信息，得到对应所述目标异常项的核保说明。

进一步地，在本申请实施例提供的上述基于NLP技术的核保风险预测方法中，所述基于预设word2ves工具包处理所述目标核保说明，得到目标词向量包括：

调用预设word2ves工具包确定所述目标核保说明中的核保特征；

计算每一所述核保特征对应分词的词向量；

组合所述词向量，得到目标词向量。

进一步地，在本申请实施例提供的上述基于NLP技术的核保风险预测方法中，所述拼接所述目标异常项与所述目标加权词向量，得到目标拼接数据包括：

获取对应所述目标异常项的异常项词向量与所述目标加权词向量；

分片处理所有所述异常项词向量与所述目标加权词向量，得到预设数量的分片数据包；

发送所述分片数据包至数据拼接服务器集群中；

调用所述数据拼接服务器集群中的每一数据拼接服务器分别对所述分片数据包进行数据拼装，得到目标拼接数据。

进一步地，在本申请实施例提供的上述基于NLP技术的核保风险预测方法中，在所述基于所述核保风险分类模型处理待核保单数据，得到对应所述待核保单数据的风险分类之后，所述方法还包括：

处理所述待核保单数据，得到对应所述待核保数据的第一拼接数据；

利用余弦相似度算法计算所述第一拼接数据与预设数据库中存储的第二拼接数据的距离，得到相似度排名靠前的若干条初始核保数据；

获取所述初始核保数据的核保结论，并筛选出与所述待核保单数据的风险分类一致的目标核保结论；

确定所述目标核保结论对应的目标拼接数据作为与所述第一拼接数据的距离最接近的数据。

本申请实施例第二方面还提供一种基于NLP技术的核保风险预测装置，所述基于NLP技术的核保风险预测装置包括：

数据筛选模块，用于筛选经预处理后的历史体检数据集，得到目标体检数据集；

数据解析模块，用于解析所述目标体检数据集，得到目标异常项与核保说明；

分词处理模块，用于分词处理所述核保说明，得到对应所述目标异常项的目标核保说明；

词向量获取模块，用于基于预设word2ves工具包处理所述目标核保说明，得到目标词向量；

权重获取模块，用于调用预设TD-IDF模型处理所述目标词向量，得到所述目标词向量对应的目标权重，并根据所述目标权重对所述目标词向量进行加权处理，得到目标加权词向量；

数据拼接模块，用于拼接所述目标异常项与所述目标加权词向量，得到目标拼接数据；

模型获取模块，用于调用所述目标拼接数据训练预设模型，得到核保风险分类模型；

风险分类模块，用于基于所述核保风险分类模型处理待核保单数据，得到对应所述待核保单数据的风险分类。

本申请实施例第三方面还提供一种计算机设备，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任意一项所述基于NLP技术的核保风险预测方法。

本申请实施例第四方面还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一项所述基于NLP技术的核保风险预测方法。

本申请实施例提供的上述基于NLP技术的核保风险预测方法、基于NLP技术的核保风险预测装置、计算机设备以及计算机可读存储介质，采用NLP技术对核保说明进行处理，得到与核保结论的影响程度对应的核保特征的权重值，继而得到拼接数据，并利用拼接数据作为训练样本得到核保风险分类模型，能够提高核保风险分类模型的准确性，继而提高核保准确性，且本申请基于核保风险分类模型处理待核保单数据，得到风险分类，继而得到核保结论，避免人工审核带来的效率低下的问题，提高了核保效率。本申请可应用于智慧政务、智慧交通等智慧城市的各个功能模块中，比如智慧政务的基于NLP技术的核保风险预测模块等，能够促进智慧城市的快速发展。

附图说明

图1是本申请第一实施方式提供的基于NLP技术的核保风险预测方法的流程图。

图2是本申请一实施方式的计算机设备的结构示意图。

图3是图2所示的计算机设备的示例性的功能模块图。

如下具体实施方式将结合上述附图进一步说明本申请。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施例对本申请进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

NLP技术为自然语言处理技术，属于计算机科学、人工智能和语言学的交叉领域。NLP技术包含了以一种高效的方式去分析，理解和从文本里提取信息等重要过程。通过利用NLP及其组件，可以组织大量的文本数据，执行大量的自动化任务，并解决各种问题，比如自动摘要，机器翻译，命名实体识别，关系提取，情感分析，语音识别和主题分割等。

图1是本申请第一实施方式的基于NLP技术的核保风险预测方法的流程图。如图1所示，所述基于NLP技术的核保风险预测方法可以包括如下步骤：

S11、筛选经预处理后的历史体检数据集，得到目标体检数据集。

在本申请的至少一实施例中，所述历史体检数据集中包含预定数量的投保人的历史体检数据，所述预定数量为预先设置的，例如，所述预定数量为10000个，在此不做限制。所述历史体检数据集存储于预设数据库，所述预设数据库可以为区块链的目标节点。利用区块链数据的不可篡改性特点，能够有效提高数据存储的安全性。所述历史体检数据集中的每一历史体检数据可以包括多项数据，例如：客户号、保单号、检验医生、体检类型、体检项目以及检查结果等数据，其中，所述检查结果包括结果正常与结果异常两种情况。

由于所述历史体检数据集中的数据量较大，所述历史体检数据集可能有所述历史体检数据中存在缺失值的情况，也可能有所述历史体检数据中存在无效字符等的情况。针对上述情况，可以通过预处理的方式处理所述历史体检数据集中的数据。可选地，预处理所述历史体检数据集包括：获取所述历史体检数据集中的目标项数据，其中，所述目标项数据包括保单号、体检项目与检查结果；清洗所述目标项数据，去除所述目标项数据中的链接、无效字符与无效语句；确定并删除所述目标项数据中的缺失值，得到初始目标体检数据集。

其中，所述历史体检数据中的各项数据按照规范化方式布局，通过关键词查询、关键标识查询以及目标位置查询等方式，能够获取所述历史体检数据中的目标项数据。所述保单号是指所述历史体检数据对应保单的ID号，根据所述保单号能够得到对应所述历史体检数据的核保结论。所述体检项目可以包括但不限于心电图项目、肺部CT项目、血常规项目以及肝功能检查项目等，不同的历史体检数据包含的体检项目可能相同，也可能不同。所述检查结果是指对应所述体检项目的各项指标结果，所述检查结果包括指标正常与指标异常两种情况。

在本申请的至少一实施例中，所述目标体检数据集中包含预定数量的投保人的目标体检数据，所述目标体检数据是指所述历史体检数据中体检结果为指标异常结果的数据。通过筛选初始目标体检数据集（所述初始目标体检数据集是指预处理后的历史体检数据集）中的指标异常结果的数据，能够得到目标体检数据集。在一实施例中，通过将投保人的体检数据与标准健康指标进行比对，能够得到目标体检数据。可选地，所述筛选经预处理后的历史体检数据集，得到目标体检数据集包括：获取所述初始目标体检数据集中每一初始目标体检数据的目标体检项目；确定对应所述目标体检项目的实际检查指标与标准健康指标；比对所述实际检查指标与所述标准健康指标，得到指标异常结果对应的数据作为目标体检数据。

其中，所述标准健康指标可通过查询医疗词典得到，所述医疗词典中存储人体的各个器官的各项标准健康指标，所述医疗词典存储于所述预设数据库中。

S12、解析所述目标体检数据集，得到目标异常项与核保说明。

在本申请的至少一实施例中，所述目标异常项是指投保人的体检结果存在异常的体检项目，例如，所述目标异常项可以为心电图异常、肺部CT异常、血常规异常以及肝功能异常等异常项。所述目标异常项存储于所述目标体检数据中的预设位置，通过确定所述预设位置处的数据，能够得到所述目标异常项。其中，所述预设位置用于存储各项异常项。

可选地，所述解析所述目标体检数据集，得到目标异常项包括：获取所述目标体检数据的预设位置；确定所述预设位置处的数据作为目标异常项。

在一可选的实施例中，所述目标异常项还可以通过预设标识的方式在所述目标体检数据中进行展示，通过确定所述预设标识，能够得到所述目标异常项。所述预设标识可以为字母标识或数字标识等，在此不做限制。

可选地，所述解析所述目标体检数据集，得到目标异常项包括：获取所述目标体检数据的预设标识；根据所述预设标识确定目标异常项。

在本申请的至少一实施例中，所述核保说明存储于与所述目标体检数据存在映射关系的核保结果信息中，通过确定与所述目标体检数据映射的核保结果信息，并提取所述核保结果信息中的目标内容，能够得到核保说明。所述核保说明是由多个核保特征组成的核保原因的说明，每一体检项目的异常项对应一个核保说明。所述核保特征是指预先设置的，对核保结果产生影响的特征。示例性地，对于所述目标异常项为肝功能异常的情况，其对应的所述核保特征可以包括总蛋白(TP)指标、球蛋白（GLB）指标、白蛋白（ALB）指标等指标特征，在此不做限制。

可选地，所述解析所述目标体检数据集，得到目标异常项与核保说明包括：获取所述目标体检数据的保单号；获取所述目标体检数据中的目标异常项；根据所述保单号遍历预先设置的保单号与核保结果信息的映射关系，得到对应所述保单号的目标核保结果信息；解析所述目标核保结果信息，得到对应所述目标异常项的核保说明。

S13、分词处理所述核保说明，得到对应所述目标异常项的目标核保说明。

在本申请的至少一实施例中，利用预先设置的Jieba分词器对所述核保说明进行分词处理，能够得到目标核保说明。分词处理是指将连续的字序列按照一定的规范重新组合成词序列的过程。Jieba分词器是Python下开发的一个中文分词模块，采用概率语言模型算法实现分词的功能。

可选地，所述分词处理所述核保说明，得到对应所述目标异常项的目标核保说明包括：规范化处理所述核保说明，得到初始核保说明；基于Jieba分词器逐条读取所述初始核保说明，并根据指定分隔符对所述初始核保说明进行切片处理，得到以句号为单位的目标文本；对所述目标文本进行分词处理，得到目标核保说明。其中，所述指定分隔符可以是句号。

可选地，所述规范化处理所述核保说明，得到初始核保说明包括：删除所述核保说明中的无关信息，所述无关信息包括介词、形容词以及标点符号等。通过对所述核保说明中的无关信息的删除，能够减少无关信息的干扰，提高分词处理的精度，进而提高核保风险预测的准确性与效率。

S14、基于预设word2ves工具包处理所述目标核保说明，得到目标词向量。

在本申请的至少一实施例中，通过采用预先设置的word2vec工具包对目标核保说明组成的文本集的核保特征进行训练，能够把每一个核保特征表示成统一向量空间中统一维度的短向量，这样生成的词向量能够较好地表示词语本身的语义信息，使得语义相近的核保特征在向量空间的距离也较小。

可选地，所述基于预设word2ves工具包处理所述目标核保说明，得到目标词向量包括：调用预设word2ves工具包确定所述目标核保说明中的核保特征；计算每一所述核保特征对应分词的词向量；组合所述词向量，得到目标词向量。其中，所述目标词向量是指所述目标核保说明中的核保特征组成的词向量集合。

S15、调用预设TD-IDF模型处理所述目标词向量，得到所述目标词向量对应的目标权重，并根据所述目标权重对所述目标词向量进行加权处理，得到目标加权词向量。

在本申请的至少一实施例中，TF-IDF(term frequency-inverse documentfrequency)模型是一种统计模型，用以评估一个给定的词语（本申请是指核保说明中的核保特征）对于文本集（本申请是指核保说明组成的文本集）中的一份文本的的重要程度。在TF-IDF模型中，词语的重要性与它在文本中出现的次数成正比增加，但同时会随着它在文本集中出现的频率成反比下降。

可选地，所述调用TD-IDF模型处理所述目标词向量，确定所述目标词向量中每一核保特征对应的词向量的目标权重。TF-IDF模型以词语作为文本的特征项，每个特征项的权重由TF权值和IDF权值两个部分构成。具体计算公式如下：

W_ji＝TF_ji·IDF_i 公式1

TF_ji＝f_ji/T 公式2

IDF_i＝log(N/n_i+0.01) 公式3

W_j＝{w_j1,w_j2,...,w_ji} 公式4

其中，TF(Term Frequency)为特征项在文本中出现的频率，表示该词在当前文本中的重要程度，T表示为第j个文本的全部词数，f_ji为第j个文本中第i个词在该文本中出现的次数。IDF(Inverse Document Frequency)为特征项的逆文档数，通过统观全局判断该词的重要性，N表示总共有N个文本，词i在n_i个文本中出现。W_j表示第j个文本特征向量的权重集合，w_ji则为第j个文本中第i个词的权重。使用TF-IDF计算语料中的每一个词，可以提取文本中高辨识度的词，并给予与其重要性相关的权值。

本申请通过TD-IDF模型对所述目标词向量进行处理，确定每一所述目标核保特征对应的目标权重，能够在区分目标核保特征的重要程度的同时，最小化人的主观因素对目标核保特征的影响，能够提高目标权重确定的准确性，继而提高核保风险预测的准确性。

S16、拼接所述目标异常项与所述目标加权词向量，得到目标拼接数据。

在本申请的至少一实施例中，将所述目标异常项与其对应的所述目标加权词向量进行拼接处理，得到目标拼接数据。可以理解的是，在所述拼接所述目标异常项与所述目标加权词向量，得到目标拼接数据之前，所述方法还包括：基于预设word2ves工具包处理所述目标异常项，得到对应所述目标异常项的异常项词向量；将所述异常项词向量与所述目标加权词向量进行拼接处理，得到目标拼接数据。

当所述目标体检数据的数量为多个时，针对每一所述目标体检数据，均存在对应的数据拼接任务。在面对多个数据拼接任务时，本申请通过对数据进行分片的方式实现对数据拼接任务的分配，能够提高数据拼接的稳定性。

可选地，所述拼接所述目标异常项与所述目标加权词向量，得到目标拼接数据包括：获取对应所述目标异常项的异常项词向量与所述目标加权词向量；分片处理所有所述异常项词向量与所述目标加权词向量，得到预设数量的分片数据包；发送所述分片数据包至数据拼接服务器集群中；调用所述数据拼接服务器集群中的每一数据拼接服务器分别对所述分片数据包进行数据拼装，得到目标拼接数据。

其中，所述预设数量可以等于数据拼接服务器集群中数据拼接服务器的数量。所述数据拼接服务器是用于对分片数据包内的数据进行拼接的服务器。即分片数据包的数量与数据拼接服务器的数量一致。每一个数据拼接服务器可以获取一个分片数据包进行数据拼接。

S17、调用所述目标拼接数据训练预设模型，得到核保风险分类模型。

在本申请的至少一实施例中，通过调用XGBOOST模型对上述目标拼接数据进行训练，能够得到核保风险分类模型。其中，XGBOOST模型是的使用开源XGBOOST模型的通用模型，服务端将N个目标特征输入到该XGBOOST模型中，XGBOOST模型调用XGBOOST库进行模型训练，并在模型训练过程中使用python的Hyperopt库的自动调参框架对基XGBOOST模型的模型参数进行自动搜索，在限定时间内输出搜索过程中的最佳参数，实现模型自动调参。其中，模型参数包括数的层次、步长和迭代次数等。

可选地，所述调用XGBOOST模型训练所述目标拼接数据，得到核保风险分类模型包括：将所述目标拼接数据分为训练集与测试集；将所述训练集输入至初始化的XGBOOST模型中进行训练，得到训练完成的核保风险分类模型；将所述测试集输入至训练完成的核保风险分类模型中进行测试，得到模型的评估指标；检测所述模型的评估指标是否超过预设指标阈值；当检测结果为所述模型的评估指标超过预设指标阈值时，确定模型训练完成，得到核保风险分类模型；当检测结果为所述模型的评估指标未超过预设指标阈值时，增加训练集，重新训练模型，直至所述模型的评估指标超过预设指标阈值。

S18、基于所述核保风险分类模型处理待核保单数据，得到对应所述待核保单数据的风险分类。

在本申请的至少一实施例中，所述待核保单数据可以通过人机交互的方式输入的。人机交互技术包括机器通过输出或显示设备给人提供大量有关信息及提示信息，人通过输入设备给机器输入有关信息、回答问题及提示请示等。具体地，用户可以通过人机交互方式进行投保咨询，并获得机器对咨询问题的回答，以完成一轮对话。在一个实施场景中，可以利用人机交互系统，获取与用户之间的至少一轮交互数据并基于至少一轮交互数据得到目标核保单的内容数据。例如，用户可以通过至少一轮交互提供用户的投保人和被保人信息、投保险种、保额信息、体检项目以及体检结果等数据，从而通过人机交互系统，获得待核保单数据。

可选地，在基于所述核保风险分类模型处理待核保单数据，得到对应所述待核保单数据的风险分类之后，所述方法还包括：获取所述待核保单数据的风险分类；根据所述风险分类遍历预先设置的风险与核保结论的映射关系，确定对应所述风险分类的目标核保结论；输出所述目标核保结论。其中，所述目标核保结论可以包括加费承保、延期承保、除外承保以及拒保等，在此不做限制。

在本申请的至少一实施例中，在基于所述核保风险分类模型处理待核保单数据，得到待核保单数据的目标核保结论后，还可以通过计算所述待核保单数据与所述预设数据库中任意历史体检数据的相似度，得到所述目标核保结论下与所述待核保单数据最接近的若干条目标历史体检数据。

可选地，在所述基于所述核保风险分类模型处理待核保单数据，得到对应所述待核保单数据的风险分类之后，所述方法还包括：处理所述待核保单数据，得到对应所述待核保单数据的第一拼接数据；利用余弦相似度算法计算所述第一拼接数据与预设数据库中存储的第二拼接数据的距离，得到相似度排名靠前的若干条初始核保数据；获取所述初始核保数据的核保结论，并筛选出与所述待核保单数据的风险分类一致的目标核保结论；确定所述目标核保结论对应的目标拼接数据作为与所述第一拼接数据的距离最接近的数据。

其中，选取并向核保人员输出所述目标核保结论下的与所述待核保单数据的距离最接近的历史核保单数据，以供核保人员参考。本申请先通过核保风险分类模型处理待核保单数据，得到对应所述待核保单数据的风险分类后，再基于所述风险分类确定最优的相似度排名靠前的历史核保单数据，能够确保核保结论出具的一致性，继而提高核保准确性。

本申请实施例提供的上述基于NLP技术的核保风险预测方法，采用NLP技术对核保说明进行处理，得到与核保结论的影响程度对应的核保特征的权重值，继而得到拼接数据，并利用拼接数据作为训练样本得到核保风险分类模型，能够提高核保风险分类模型的准确性，继而提高核保准确性；此外，本申请先通过核保风险分类模型处理待核保单数据，得到对应所述待核保单数据的风险分类后，再基于所述风险分类确定最优的相似度排名靠前的历史核保单数据，能够确保核保结论出具的一致性，继而提高核保准确性。本申请可应用于智慧政务、智慧交通等智慧城市的各个功能模块中，比如智慧政务的基于NLP技术的核保风险预测模块等，能够促进智慧城市的快速发展。

以上是对本申请实施例所提供的方法进行的详细描述。根据不同的需求，所示流程图中方块的执行顺序可以改变，某些方块可以省略。下面对本申请实施例所提供的计算机设备1进行描述。

图2是本申请一实施方式的计算机设备的结构示意图，如图2所示，计算机设备1包括存储器10，存储器10中存储有所述基于NLP技术的核保风险预测装置300。所述计算机设备1可以是计算机、平板电脑、个人数字助理等具有数据处理、分析、程序执行及显示等功能的电子设备。所述基于NLP技术的核保风险预测装置300可以筛选经预处理后的历史体检数据集，得到目标体检数据集；解析所述目标体检数据集，得到目标异常项与核保说明；分词处理所述核保说明，得到对应所述目标异常项的目标核保说明；基于预设word2ves工具包处理所述目标核保说明，得到目标词向量；调用预设TD-IDF模型处理所述目标词向量，得到所述目标词向量对应的目标权重，并根据所述目标权重对所述目标词向量进行加权处理，得到目标加权词向量；拼接所述目标异常项与所述目标加权词向量，得到目标拼接数据；调用所述目标拼接数据训练预设模型，得到核保风险分类模型；基于所述核保风险分类模型处理待核保单数据，得到对应所述待核保单数据的风险分类。通过本申请，能够提高核保效率与核保准确性，有利于促进智慧医疗的发展及智慧城市的建设。

本实施方式中，计算机设备1还可以包括显示屏20及处理器30。存储器10、显示屏20可以分别与处理器30电连接。

所述的存储器10可以是不同类型存储设备，用于存储各类数据。例如，可以是计算机设备1的存储器、内存，还可以是可外接于该计算机设备1的存储卡，如闪存、SM卡（SmartMedia Card，智能媒体卡）、SD卡（Secure Digital Card，安全数字卡）等。此外，存储器10可以包括非易失性存储器和易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（SmartMedia Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他存储器件。存储器10用于存储各类数据，例如，所述计算机设备1中安装的各类应用程序（Applications）、应用上述基于NLP技术的核保风险预测方法而设置、获取的数据等信息。

显示屏20安装于计算机设备1，用于显示信息。

处理器30用于执行所述基于NLP技术的核保风险预测方法以及所述计算机设备1内安装的各类软件，例如操作系统及应用显示软件等。处理器30包含但不限于处理器（Central Processing Unit，CPU）、微控制单元(Micro Controller Unit，MCU)等用于解释计算机指令以及处理计算机软件中的数据的装置。

所述的基于NLP技术的核保风险预测装置300可以包括一个或多个的模块，所述一个或多个模块被存储在计算机设备1的存储器10中并被配置成由一个或多个处理器（本实施方式为一个处理器30）执行，以完成本申请实施例。参阅图3所示，所述基于NLP技术的核保风险预测装置300可以包括数据筛选模块301、数据解析模块302、分词处理模块303、词向量获取模块304、权重获取模块305、数据拼接模块306、模型获取模块307以及风险分类模块308。本申请实施例所称的模块可以是完成一特定功能的程序段，比程序更适合于描述软件在处理器30中的执行过程。

可以理解的是，对应上述基于NLP技术的核保风险预测方法中的各实施方式，基于NLP技术的核保风险预测装置300可以包括图3中所示的各功能模块中的一部分或全部，各模块的功能将在以下具体介绍。需要说明的是，以上基于NLP技术的核保风险预测方法的各实施方式中相同的名词相关名词及其具体的解释说明也可以适用于以下对各模块的功能介绍。为节省篇幅及避免重复起见，在此就不再赘述。

数据筛选模块301可以用于筛选经预处理后的历史体检数据集，得到目标体检数据集。

数据解析模块302可以用于解析所述目标体检数据集，得到目标异常项与核保说明。

分词处理模块303可以用于分词处理所述核保说明，得到对应所述目标异常项的目标核保说明。

词向量获取模块304可以用于基于预设word2ves工具包处理所述目标核保说明，得到目标词向量。

权重获取模块305可以用于调用预设TD-IDF模型处理所述目标词向量，得到所述目标词向量对应的目标权重，并根据所述目标权重对所述目标词向量进行加权处理，得到目标加权词向量。

数据拼接模块306可以用于拼接所述目标异常项与所述目标加权词向量，得到目标拼接数据。

模型获取模块307可以用于调用所述目标拼接数据训练预设模型，得到核保风险分类模型。

风险分类模块308可以用于基于所述核保风险分类模型处理待核保单数据，得到对应所述待核保单数据的风险分类。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器30执行时实现上述任一实施方式中的基于NLP技术的核保风险预测方法的步骤。

所述基于NLP技术的核保风险预测装置300/计算机设备1/计算机设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施方式方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器30执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器等。

所称处理器30可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器30是所述基于NLP技术的核保风险预测装置300/计算机设备1的控制中心，利用各种接口和线路连接整个基于NLP技术的核保风险预测装置300/计算机设备1的各个部分。

所述存储器10用于存储所述计算机程序和/或模块，所述处理器30通过运行或执行存储在所述存储器10内的计算机程序和/或模块，以及调用存储在存储器10内的数据，实现所述基于NLP技术的核保风险预测装置300/计算机设备1的各种功能。所述存储器10可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据计算机设备1的使用所创建的数据等。

在本申请所提供的几个具体实施方式中，应该理解到，所揭露的计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的系统实施方式仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

对于本领域技术人员而言，显然本申请实施例不限于上述示范性实施例的细节，而且在不背离本申请实施例的精神或基本特征的情况下，能够以其他的具体形式实现本申请实施例。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请实施例的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。本申请中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。

以上实施方式仅用以说明本申请实施例的技术方案而非限制，尽管参照以上较佳实施方式对本申请实施例进行了详细说明，本领域的普通技术人员应当理解，可以对本申请实施例的技术方案进行修改或等同替换都不应脱离本申请实施例的技术方案的精神和范围。

Claims

1.一种基于NLP技术的核保风险预测方法，其特征在于，所述基于NLP技术的核保风险预测方法包括：

筛选经预处理后的历史体检数据集，得到目标体检数据集；

解析所述目标体检数据集，得到目标异常项与核保说明，所述核保说明包括多个预设的核保特征，所述核保特征是对核保结果产生影响的特征；

基于预设word2ves工具包处理所述目标核保说明，得到目标词向量，所述目标词向量是指所述核保特征组成的词向量的集合；

拼接所述目标异常项与所述目标加权词向量，得到目标拼接数据，包括：获取对应所述目标异常项的异常项词向量与所述目标加权词向量；分片处理所有所述异常项词向量与所述目标加权词向量，得到预设数量的分片数据包；发送所述分片数据包至数据拼接服务器集群中；调用所述数据拼接服务器集群中的每一数据拼接服务器分别对所述分片数据包进行数据拼装，得到目标拼接数据；

2.根据权利要求1所述的基于NLP技术的核保风险预测方法，其特征在于，预处理所述历史体检数据集包括：

3.根据权利要求2所述的基于NLP技术的核保风险预测方法，其特征在于，所述筛选经预处理后的历史体检数据集，得到目标体检数据集包括：

4.根据权利要求1所述的基于NLP技术的核保风险预测方法，其特征在于，所述解析所述目标体检数据集，得到目标异常项与核保说明包括：

获取所述目标体检数据的保单号；

获取所述目标体检数据中的目标异常项；

5.根据权利要求1所述的基于NLP技术的核保风险预测方法，其特征在于，所述基于预设word2ves工具包处理所述目标核保说明，得到目标词向量包括：

计算每一所述核保特征对应分词的词向量；

组合所述词向量，得到目标词向量。

6.根据权利要求1所述的基于NLP技术的核保风险预测方法，其特征在于，在所述基于所述核保风险分类模型处理待核保单数据，得到对应所述待核保单数据的风险分类之后，所述方法还包括：

处理所述待核保单数据，得到对应所述待核保单数据的第一拼接数据；

7.一种基于NLP技术的核保风险预测装置，其特征在于，所述基于NLP技术的核保风险预测装置包括：

数据解析模块，用于解析所述目标体检数据集，得到目标异常项与核保说明，所述核保说明包括多个预设的核保特征，所述核保特征是对核保结果产生影响的特征；

词向量获取模块，用于基于预设word2ves工具包处理所述目标核保说明，得到目标词向量，所述目标词向量是指所述核保特征组成的词向量的集合；

数据拼接模块，用于拼接所述目标异常项与所述目标加权词向量，得到目标拼接数据，包括：获取对应所述目标异常项的异常项词向量与所述目标加权词向量；分片处理所有所述异常项词向量与所述目标加权词向量，得到预设数量的分片数据包；发送所述分片数据包至数据拼接服务器集群中；调用所述数据拼接服务器集群中的每一数据拼接服务器分别对所述分片数据包进行数据拼装，得到目标拼接数据；

8.一种计算机设备，其特征在于，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至6中任意一项所述基于NLP技术的核保风险预测方法。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任意一项所述基于NLP技术的核保风险预测方法。