CN117745449A

CN117745449A - 风险保单识别方法、装置、计算机设备和存储介质

Info

Publication number: CN117745449A
Application number: CN202311727785.8A
Authority: CN
Inventors: 梁华; 刘文轩; 张雷; 秦宗国
Original assignee: China Life Insurance Co ltd
Current assignee: China Life Insurance Co ltd
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-03-22

Abstract

本申请涉及一种风险保单识别方法、装置、计算机设备和存储介质，涉及人工智能技术领域。所述方法包括：确定保险知识图谱中风险标签为待识别的目标保单实体，获取目标保单实体对应的保单子图；将保单子图输入至训练好的图注意力网络模型，得到目标保单实体的语义表示向量，并将语义表示向量输入至全连接神经网络模型，得到目标保单实体对应的预测风险标签，并作为目标保单实体更新后的风险标签；重新执行确定保险知识图谱中风险标签为待识别的目标保单实体，获取目标保单实体对应的保单子图的步骤，直到保险知识图谱中更新后的风险标签为待识别的目标保单实体的数量不发生变化；基于当前的保险知识图谱中的风险标签识别风险保单。

Description

风险保单识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种风险保单识别方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着保险行业的发展，不法分子会实施保险欺诈行为来获取非法利益。因此，需要相关的技术手段在保险业务中识别出风险业务，避免风险业务造成的经济损失。

相关技术中，通常会将保险业务信息和用户基础信息的特征向量，输入已构建的人工智能模型算法，并基于特征向量对目标保险业务进行风险识别，确定保险业务是否为风险业务。但是，不法分子在进行保险欺诈时通常是对多个成员对多个保险业务进行欺诈，相关技术中并未考虑到保险欺诈的团伙性和传播性，导致识别目标保险业务是否为风险业务的准确率不足。

发明内容

基于此，有必要针对上述技术问题，提供一种风险保单识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种风险保单识别方法。所述方法包括：

确定保险知识图谱中风险标签为待识别的目标保单实体，获取所述目标保单实体对应的保单子图；所述保单子图是基于所述保险知识图谱中距离所述目标保单实体在预设路径长度内的多个存在关联关系的邻接实体确定的；所述保险知识图谱是基于保单包含的业务信息和用户信息确定的，且其中的各保单实体对应有三种风险标签中的一种，所述三种风险标签分别表征待识别、有风险和无风险；

将所述保单子图输入至训练好的图注意力网络模型，得到所述目标保单实体的语义表示向量，并将所述语义表示向量输入至全连接神经网络模型，得到所述目标保单实体对应的预测风险标签，并作为所述目标保单实体更新后的风险标签；

重新执行所述确定保险知识图谱中风险标签为待识别的目标保单实体，获取所述目标保单实体对应的保单子图的步骤，直到所述保险知识图谱中所述更新后的风险标签为待识别的目标保单实体的数量不发生变化；基于当前的保险知识图谱中的风险标签识别风险保单。

在其中一个实施例中，所述方法还包括：

从所述业务信息和所述用户信息中，获取实体和实体属性，并基于所述实体间的连接关系，所述实体与所述实体属性间的连接关系，确定各保单的三元组；所述三元组中的实体类型包括保单实体、赔案实体和人物实体，所述实体间的连接关系包括理赔关系、投保关系、被保关系、出险关系、交易关系、销售关系和亲属关系，所述实体属性包括各所述实体预设的属性类型以及所述属性类型的属性值；

基于多个所述三元组构建初始的保险知识图谱；

基于针对各保单预设的标签值，标注所述初始的保险知识图谱中保单实体对应的风险标签，得到包含所述风险标签的保险知识图谱。

在其中一个实施例中，所述获取所述目标保单实体对应的保单子图，包括：

针对所述保险知识图谱中风险标签为待识别的目标保单实体，确定与所述目标保单实体相关联的多个邻接实体；

基于所述预设路径长度对所述邻接实体进行剪枝，得到所述目标保单实体对应的保单子图；其中，各所述保单子图之间互不重叠。

在其中一个实施例中，所述基于所述预设路径长度对所述邻接实体进行剪枝，得到所述目标保单实体对应的保单子图，包括：

在所述邻接实体与所述目标保单实体的距离达到所述预设路径长度的情况下，对所述邻接实体附近的实体进行剪枝处理；其中，所述预设路径长度是基于所述图注意力网络模型的图注意力网络层数确定的，所述预设路径长度不大于所述图注意力网络层数；

在完成对各所述邻接实体附近的实体剪枝处理之后，得到所述目标保单实体对应的保单子图。

在其中一个实施例中，所述将所述保单子图输入至训练好的图注意力网络模型，得到所述目标保单实体的语义表示向量，包括：

将所述保单子图的子图数据输入所述训练好的图注意力网络模型，所述图注意力网络模型基于所述子图数据，确定所述保单子图中各所述邻接实体的语义表示向量，并基于此得到所述目标保单实体的语义表示向量；

其中，所述子图数据包括实体类型、实体属性、实体属性值、子图邻接表和实体之间的关系类型。

在其中一个实施例中，所述图注意力网络模型包含多层注意力网络，所述图注意力网络模型基于所述子图数据，确定所述保单子图中各所述邻接实体的语义表示向量，并基于此得到所述目标保单实体的语义表示向量，包括：

所述图注意力网络模型中各层图注意力网络为所述保单子图中的所述目标保单实体及其邻接实体分配不同权重，利用所述权重对所述目标保单实体及其邻接实体的实体特征进行加权求和，得到所述目标保单实体的语义表示向量，经过所述多层图注意力网络传播后，得到所述目标保单实体最终的语义表示向量。

第二方面，本申请还提供了一种风险保单识别装置。所述装置包括：

子图获取模块，用于确定保险知识图谱中风险标签为待识别的目标保单实体，获取所述目标保单实体对应的保单子图；所述保单子图是基于所述保险知识图谱中距离所述目标保单实体在预设路径长度内的多个存在关联关系的邻接实体确定的；所述保险知识图谱是基于保单包含的业务信息和用户信息确定的，且其中的各保单实体对应有三种风险标签中的一种，所述三种风险标签分别表征待识别、有风险和无风险；

风险标签预测模块，用于将所述保单子图输入至训练好的图注意力网络模型，得到所述目标保单实体的语义表示向量，并将所述语义表示向量输入至全连接神经网络模型，得到所述目标保单实体对应的预测风险标签，并作为所述目标保单实体更新后的风险标签；

风险标签迭代模块，用于重新执行所述确定保险知识图谱中风险标签为待识别的目标保单实体，获取所述目标保单实体对应的保单子图的步骤，直到所述保险知识图谱中所述更新后的风险标签为待识别的目标保单实体的数量不发生变化；基于当前的保险知识图谱中的风险标签识别风险保单。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述方法的步骤。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如第一方面所述方法的步骤。

上述风险保单识别方法、装置、计算机设备、存储介质和计算机程序产品，通过确定保险知识图谱中风险标签为待识别的目标保单实体，并得到目标保单实体的保单子图，其中，保单子图中包含待识别的目标保单实体以及与目标保单实体相邻的多个关联实体。基于此，将保单子图输入至训练好的图注意力模型，得到目标保单实体的语义表示向量，并将语义表示向量输入至全连接神经网络模型，确定目标保单实体对应的预测风险标签，即目标保单实体的风向标签为有风险或有风险。在进行过一轮的预测之后，重复上述获取保单子图的步骤，并重复进行预测风险标签，直到更新后的风险标签为待识别的目标保单实体的数量不发生变化。可知，保单子图拥有待识别的目标保单实体的多个关联实体，即包含关联实体和目标保单实体的特征。在保单子图的基础上，通过图注意力网络模型的处理，得到基于注意力机制分配后的各个关联实体的特征，并合并各个关联实体的特征，得到目标保单实体的语义表示向量，从而能够考虑到保险欺诈中各成员之间的团伙性以及传播性，得到更准确的语义表示向量。此外，将目标保单实体的语义表示向量输入全连接神经网络模型，从而得到更准确的风险保单识别结果。相应的，目标保单实体更新后的风险标签能够动态改变保险知识图谱中各目标保单实体的风险标签，进而重复执行上述步骤，能够在上一次循环结果的基础上对最新的目标保单实体进行预测，得到预测风险标签，随着多次循环预测，风险标签为待识别的目标保单实体数量趋于稳定，最终得到识别后的保险知识图谱，从而进一步的考虑到保险欺诈中各成员之间的关联性，最终提升风险保单识别的准确率。

附图说明

图1为一个实施例中风险保单识别方法的应用环境图；

图2为一个实施例中风险保单识别方法的流程示意图；

图3为一个实施例中构建保险知识图谱步骤的流程示意图；

图4为一个实施例中获取保单子图步骤的流程示意图；

图5为另一个实施例中风险保单识别方法的流程示意图；

图6为一个实施例中风险保单识别装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的风险保单识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信，终端102可以向服务器104发送实时生成的用户基础信息和保险业务信息，服务器104可以基于用户基础信息和保险业务信息，构建保险知识图谱并存储至数据存储系统。服务器104可以获取保险知识图谱中的目标保单实体，并确定目标保单实体对应的保单子图，最终基于保单子图预测目标保单实体的风险标签，并将预测结果实时更新至数据存储系统中的保险知识图谱，从而得到风险保单识别后的保险知识图谱，通过查询可以得到各保单实体的识别结果。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种风险保单识别方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，确定保险知识图谱中风险标签为待识别的目标保单实体，获取目标保单实体对应的保单子图。

其中，保单子图是基于保险知识图谱中距离目标保单实体在预设路径长度内的多个存在关联关系的邻接实体确定的；保险知识图谱是基于保单包含的业务信息和用户信息确定的，且保险知识图谱中的各保单实体对应有三种风险标签中的一种，三种风险标签分别表征待识别、有风险和无风险。待识别所对应的风险标签用于表示服务器未对目标保单实体进行识别或者识别结果为无法确定。邻接实体用于表示与目标保单实体具有直接连接关系或间接连接关系的各个实体。

具体地，服务器从已建立的保险知识图谱中确定各个保单实体对应的风险标签，将风险标签为待识别的保单实体作为目标保单实体。服务器将目标保单实体看作中心实体，确定与中心实体存在直接连接关系或者间接连接关系的各个邻接实体，以及各个邻接实体之间的关系，并获取各个邻接实体的属性及属性值。基于预设的子图剪枝策略对各个邻接实体进行剪枝，得到包含中心实体和各邻接实体的保单子图。

步骤S204，将保单子图输入至训练好的图注意力网络模型，得到目标保单实体的语义表示向量，并将语义表示向量输入至全连接神经网络模型，得到目标保单实体对应的预测风险标签，并作为目标保单实体更新后的风险标签。

其中，图注意力网络模型用于基于保单子图各邻接实体的预设权重，确定保单子图中目标保单实体的语义表示向量。全连接神经网络模型用于对目标保单实体的语义表示向量进行预测，确定目标保单实体对应的预测风险标签。

具体地，服务器将保单子图中各实体的实体类型、实体属性及实体属性值，各实体间的子图邻接表、实体间的关系类型作为输入数据，输入至训练好的图注意力网络模型，图注意力网络模型通过图注意力网络，获取各实体的特征向量，并通过注意力机制，合并各实体的特征向量，得到目标保单实体最终的语义表示向量。服务器将目标保单实体的语义表示向量输入至已训练的全连接神经网络模型，全连接神经网络模型输出目标保单实体的预测风险标签，确定目标保单实体的风险标签值为待识别、有风向或无风险中的一个。

在一个示例中，服务器将预测风险标签更新至目标保单实体对应的风险标签，也就是说，将各更新后的风险标签对应的标签值，更新至保险知识图谱中各目标保单实体对应的风险标签，得到更新后的保险知识图谱。

步骤S206，重新执行确定保险知识图谱中风险标签为待识别的目标保单实体，获取目标保单实体对应的保单子图的步骤，直到保险知识图谱中更新后的风险标签为待识别的目标保单实体的数量不发生变化；基于当前的保险知识图谱中的风险标签识别风险保单。

具体地，服务器在更新后的保险知识图谱的基础上，重新确定风险标签为待识别的目标保单实体，并获取目标保单实体的保单子图。基于此，服务器再将保单子图输入训练好的图注意力网络模型，得到目标保单实体的语义表示向量，最后将语义表示向量输入全连接神经网络模型，得到预测风险标签。最终，当更新后的保险知识图谱对应的风险标签为待识别的目标保单实体的数量不再减少，即重复执行上述过程直到保险知识图谱完成收敛，则得到最终的保险知识图谱。服务器通过查询保险知识图谱中各保单实体的风险标签对应的标签值，即可得到风险保单。

上述风险保单识别方法中，通过确定保险知识图谱中风险标签为待识别的目标保单实体，并得到目标保单实体的保单子图，其中，保单子图中包含待识别的目标保单实体以及与目标保单实体相邻的多个关联实体。基于此，将保单子图输入至训练好的图注意力模型，得到目标保单实体的语义表示向量，并将语义表示向量输入至全连接神经网络模型，确定目标保单实体对应的预测风险标签，即目标保单实体的风向标签为有风险或有风险。在进行过一轮的预测之后，重复上述获取保单子图的步骤，并重复进行预测风险标签，直到更新后的风险标签为待识别的目标保单实体的数量不发生变化。可知，保单子图拥有待识别的目标保单实体的多个关联实体，即包含关联实体和目标保单实体的特征。在保单子图的基础上，通过图注意力网络模型的处理，得到基于注意力机制分配后的各个关联实体的特征，并合并各个关联实体的特征，得到目标保单实体的语义表示向量，从而能够考虑到保险欺诈中各成员之间的团伙性以及传播性，得到更准确的语义表示向量。此外，将目标保单实体的语义表示向量输入全连接神经网络模型，从而得到更准确的风险保单识别结果。相应的，目标保单实体更新后的风险标签能够动态改变保险知识图谱中各目标保单实体的风险标签，进而重复执行上述步骤，能够在上一次循环结果的基础上对最新的目标保单实体进行预测，得到预测风险标签，随着多次循环预测，风险标签为待识别的目标保单实体数量趋于稳定，最终得到识别后的保险知识图谱，从而进一步的考虑到保险欺诈中各成员之间的关联性，最终提升风险保单识别的准确率。

在一个实施例中，如图3所示，风险保单识别方法，还包括：

步骤S302，从业务信息和用户信息中，获取实体和实体属性，并基于实体间的连接关系，实体与实体属性间的连接关系，确定各保单的三元组。

其中，业务信息是从保单中获取的，用户信息可以是从保单、以及从系统的个人信息库确定的。三元组中的实体类型包括保单实体、赔案实体和人物实体，实体间的连接关系包括理赔关系、投保关系、被保关系、出险关系、交易关系、销售关系和亲属关系，实体属性包括各实体预设的属性类型以及属性类型的属性值。

具体地，服务器基于预设的三元组确定策略，从业务信息和用户信息中抽取各个实体以及实体属性，并且建立各实体之间的关联关系，通过关联关系将各实体连接，即得到实体-属性-属性值，以及实体-实体-关系类型，两种类型的三元组。

在一个示例中，保单实体的属性可以包含投保金额、累计理赔金额、赔付比、险种、被保人平均年龄、核保类型、是否为欺诈保单等属性；赔案实体的属性可以包含理赔原因、理赔金额、审核意见、理赔投保时间差等属性。人物实体可以包含投保人实体、被保人实体、受益人实体、出险人实体、营销员实体和理赔交易人实体，其中，投保人实体的属性可以包含年龄、职业、历史是否投保、历史是否理赔、历史是否欺诈等属性；被保人包含年龄、职业、健康状况、年收入、历史是否欺诈等属性；受益人包含年龄、职业、与投保人是否亲属关系、与被保人是否亲属关系、历史是否欺诈等属性；出险人包含年龄、事故原因、死亡原因、历史是否欺诈等属性；营销员包含在职状态、在职时长、服务评价、证书是否过期等属性；理赔交易人包含是否为受益人、是否为投保人、历史是否投保、历史是否欺诈等属性。

步骤S304，基于多个三元组构建初始的保险知识图谱。

具体地，服务器将多个三元组以图的数据结构存储至图数据库，得到包含多个关联三元组的保险知识图谱。三元组中的各实体包含实体类型、实体属性及实体属性值，各三元组的连接关系可以存储至子图邻接表，每个连接关系均包含对应的关系类型。

步骤S306，基于针对各保单预设的标签值，标注初始的保险知识图谱中保单实体对应的风险标签，得到包含风险标签的保险知识图谱。

其中，预设的标签值是人工预先确定的。

具体地，服务器为初始的保险知识图谱对应的各保单实体创建风险标签，并且针对各保单实体的风险标签，将预设的标签值作为风险标签的属性值，从而完成对保单实体的标注，得到包含风险标签的保险知识图谱。

本实施例中，通过保单包含的业务信息和用户信息，提取实体和实体属性，并基于实体之间的连接关系，得到保单对应的三元组，从而得到初始的保险知识图谱。服务器通过预设的标签值为各保单实体添加风险标签，得到最终的保险知识图谱。保险知识图谱能够提升保单业务信息和用户信息的关联性，从而基于关联性得到更准确的风险保单识别结果。

在一个实施例中，如图4所示，步骤“获取目标保单实体对应的保单子图”的具体实现过程包括：

步骤S402，针对保险知识图谱中风险标签为待识别的目标保单实体，确定与目标保单实体相关联的多个邻接实体。

具体地，服务器确定保险知识图谱中风险标签为待识别的目标保单实体，并分别对目标保单实体进行遍历，对于当前的目标保单实体，获取与目标保单实体直接连接的多个邻接实体，并根据预设的邻接距离，以邻接实体为基准，确定与邻接实体直接连接的第二层邻接实体，直到达到预设的邻接距离，得到预测层数邻接实体，最终得到与目标保单实体相关联的多个邻接实体。

在一个示例中，服务器可以通过广度优先的遍历方式对目标保单实体周围的邻接实体进行遍历，直到达到预设的邻接距离。

步骤S404，基于预设路径长度对邻接实体进行剪枝，得到目标保单实体对应的保单子图。

其中，各保单子图之间互不重叠，即每个保单子图是一个独立的子图，子图与子图之间没有连接关系。

具体地，服务器对超出预设路径长度的邻接实体进行剪枝，将超出预设路径长度的邻接实体与目标保单实体之间的连接关系断开，从而得到预设路径长度内的各邻接实体与目标保单实体之间的连接关系，即得到目标保单实体对应的保单子图。在一个示例中，预设路径长度小于等于预设的邻接距离。

本实施例中，通过确定目标保单实体的邻接实体，并且通过预设路径长度对邻接实体进行剪枝，得到符合预设路径长度的保单子图，能够快速地、准确地确定各保单子图。

在一个实施例中，步骤“基于预设路径长度对邻接实体进行剪枝，得到目标保单实体对应的保单子图”的具体实现过程，包括：

在邻接实体与目标保单实体的距离达到预设路径长度的情况下，对邻接实体附近的实体进行剪枝处理。在完成对各邻接实体附近的实体剪枝处理之后，得到目标保单实体对应的保单子图。

其中，预设路径长度是基于图注意力网络模型的图注意力网络层数确定的，预设路径长度不大于图注意力网络层数。图注意力网络层数用于确定目标保单实体和多层邻接实体之间的特征向量的调整次数，从而得到包含目标保单实体和邻接实体之间的连接关系的语义表示向量。图注意力网络模型的图注意力网络层数需要保单子图的最大路径长度的支持，图注意力网络层数越多，则需要越多的邻接实体，若保单子图的预设路径长度大于图注意力网络层数，则服务器在对图注意力网络模型进行计算时，用不到保单子图的部分邻接实体的数据，因此保单子图的预设路径长度过大，造成资源浪费。基于此，保单子图的预设路径长度小于等于图注意力网络层数。

具体地，服务器获取图注意力网络模型的图注意力网络层数，基于图注意力网络层数，确定预设路径长度，即预设路径长度小于等于图注意力网络层数。基于此，服务器获取各邻接实体与目标保单实体的距离，并在邻接实体与目标保单实体的距离达到预设路径长度的情况下，剪断邻接实体以及与邻接实体相连的其他实体之间的连接。服务器在对各邻接实体对应的连接进行剪枝后，得到目标保单实体对应的保单子图。

本实施例中，通过图注意力网络层数确定预设路径长度，并分别对各邻接实体进行剪枝，得到目标保单实体的保单子图，能够提升获取保单子图的准确率，并且提升保单子图在图注意力网络模型中的利用率。

在一个实施例中，步骤“将保单子图输入至训练好的图注意力网络模型，得到目标保单实体的语义表示向量”的具体实现过程，包括：

将保单子图的子图数据输入训练好的图注意力网络模型，图注意力网络模型基于子图数据，确定保单子图中各邻接实体的语义表示向量，并基于此得到目标保单实体的语义表示向量。

其中，子图数据包括实体类型、实体属性、实体属性值、子图邻接表和实体之间的关系类型。

具体地，服务器将保单子图的子图数据输入至训练好的图注意力网络模型，图注意力网络模型对实体类型、实体属性、实体属性值、子图邻接表和实体之间的关系类型进行特征提取，得到多个维度的特征向量，即保单子图中各个实体对应的特征向量，以及目标保单实体的特征向量。图注意力模型为邻接实体和目标保单实体分配不同的权重值，并基于各特征向量和各权重值对目标保单实体的实体特征加权求和，从而得到目标保单实体的语义表示向量。

本实施例中，通过图注意力网络模型对多维度的子图数据进行处理，能够覆盖多种维度的数据，并基于计算邻接实体的语义表示向量，得到包含实体之间关联关系，且更准确的语义表示向量，进而最终提升语义表示向量的准确度。

在一个实施例中，图注意力网络模型包含多层注意力网络，步骤“图注意力网络模型基于子图数据，确定保单子图中各邻接实体的语义表示向量，并基于此得到目标保单实体的语义表示向量”的具体实现过程，包括：

图注意力网络模型中各层图注意力网络为保单子图中的目标保单实体及其邻接实体分配不同权重，利用权重对目标保单实体及其邻接实体的实体特征进行加权求和，得到目标保单实体的语义表示向量，经过多层图注意力网络传播后，得到目标保单实体最终的语义表示向量。

具体地，服务器将保单子图的子图数据进行特征提取，得到邻接实体和目标保单实体对应的多个特征向量。图注意力网络模型中各层图注意力网络按照图注意力网络的先后排列顺序进行迭代处理。针对每层图注意力网络，分别对邻接实体和目标保单实体分配不同的权重值，并基于各特征向量和各权重值对邻接实体的实体特征加权求和，从而得到各邻接实体的语义表示向量；基于各特征向量和各权重值对目标保单实体的实体特征加权求和，从而得到目标保单实体的语义表示向量。在下一层图注意力网络中，将各邻接实体的语义表示向量以及目标保单实体的语义表示向量作为输入，并重新执行分别对邻接实体和目标保单实体分配不同的权重值，以及基于各语义表示向量和各权重值对邻接实体的语义表示向量加权求和，从而得到更新后的各邻接实体的语义表示向量；基于各语义表示向量和各权重值对目标保单实体的实体特征加权求和，从而得到更新后的目标保单实体的语义表示向量，直到对所有层的图注意力网络完成传播，得到目标保单实体最终的语义表示向量。

可选地，图注意力网络模型可以包括预设层数的图注意力网络，服务器可以基于图注意力网络的层数，进行多次迭代更新，得到目标保单实体最终的语义表示向量。

本实施例中，通过多层图注意力网络的传播，对目标保单实体的语义表示向量进行多次叠加，能够将邻接实体中的特征向量添加至目标保单实体中，从而得到目标保单实体对应的更准确的语义表示向量。

如图5所示，以下结合一个具体实施例，详细描述上述风险保单识别方法的具体执行过程。

服务器可以通过保险业务过程对应的数据，以及用户基础信息的数据，建立保险知识图谱。服务器对保险知识图谱进行预标注，并得到保单实体的欺诈标签，欺诈标签（风险标签）的标签值可以是1、0、-1，并将欺诈标签作为属性。基于此，服务器对保险知识图谱进行剪枝，从而得到包含欺诈标签的保单子图。服务器将保单子图输入多层图注意力分类模型，多层图注意力分类模型输出预测标签，得到保单子图对应的标签值。若标签值为0的保单数量还在减少，则更新模型预测标签，将标签作为属性更新至保险知识图谱中。若标签值为0的保单数量不再减少，则完成迭代，得到最终的保险知识图谱，即服务器获取保险知识图谱中的欺诈标签即可得到风险保单。

在一个示例中，本申请实施例提出将欺诈标签作为保单实体的属性之一，将所有保单实体打上欺诈标签（欺诈标签有3种可能的取值：1：确定为欺诈、-1：确定为非欺诈、0：未排查或无法确定），并将欺诈标签作为模型输入，从而通过多层图注意力模型识别欺诈行为。

在一个示例中，本申请实施例提出一种迭代式识别方法：将保单子图输入至多层图注意力模型，多层图注意力模型对中心保单（欺诈标签为0）进行智能识别，输出识别结果（1、-1、0），并将这一轮的识别结果作为欺诈标签的属性值，输入至下一轮模型识别，直到知识图谱中标注为0的保单不再减少，从而识别出图谱中所有的欺诈保单。

在一个实施例中，提出一种基于知识图谱和欺诈标签输入的风险保单识别识别方法。该方法步骤描述如下：

步骤1：本申请实施例中，服务器首先将保险业务过程及用户基础信息构造成知识图谱：图谱中涉及保单、赔案、投保人、被保人、受益人、出险人、营销员、理赔交易人等实体，涉及（保单，赔案，理赔关系）、（保单，投保人，投保关系）、（保单，被保人，被保关系）、（保单，受益人，受益关系）、（赔案，出险人，出险关系）、（赔案，理赔交易人，交易关系）、（保单，营销员，销售关系）、（投保人，投保人，亲属关系）等关系，保单实体包含投保金额、累计理赔金额、赔付比、险种、被保人平均年龄、核保类型、是否为欺诈保单等属性，赔案实体包含理赔原因、理赔金额、审核意见、理赔投保时间差等属性，投保人包含年龄、职业、历史是否投保、历史是否理赔、历史是否欺诈等属性，被保人包含年龄、职业、健康状况、年收入、历史是否欺诈等属性，受益人包含年龄、职业、与投保人是否亲属关系、与被保人是否亲属关系、历史是否欺诈等属性，出险人包含年龄、事故原因、死亡原因、历史是否欺诈等属性，营销员包含在职状态、在职时长、服务评价、证书是否过期等属性，理赔交易人包含是否为受益人、是否为投保人、历史是否投保、历史是否欺诈等属性。

步骤2：服务器基于过往排查结果，对上述知识图谱中的保单进行预标注：如果已经确定为欺诈保单，则标注为1，如果已经确定为非欺诈保单，则标注为-1，如果未进行排查或排查结果为无法确定，则标注为0，并将保单的欺诈标签作为保单实体的属性之一。

步骤3：服务器针对上述知识图谱中标签为0（为1或-1表示已经明确是否为欺诈，不作为中心保单来做识别）的保单实体，提取其属性、与该保单连接的各邻接实体及其属性、各实体之间的关系，将每个保单及其连接的邻接实体构造为一个子图，子图以保单为中心，并以距离中心保单的最短路径长度为阈值对子图进行剪枝（阈值推荐值为2~5之间），子图与子图之间互不相连。

步骤4：服务器将上述各子图输入至事先训练好的图注意力神经网络分类模型中，模型输入信息包括：实体类型、实体属性及属性值、子图邻接表、关系类型等；图注意力模型为中心实体及其邻接实体分配不同权重，利用该权重对实体特征进行加权求和，从而得到中心实体的语义表示向量，经过多层图注意力网络传播后，得到最终的语义表示向量，最后将该向量输入至全连接神经网络进行分类，对标注为0的保单进行智能预测，得到1、-1或0的标签。

若图谱中标签为0的保单不再减少，则识别结束；否则，将本轮模型预测标签作为保单实体“是否为欺诈保单”属性的值，并作为下一轮识别的输入，继续进行迭代识别（重复执行步骤3~4）。

基于上述实施例的具体实施方式，可知，服务器充分利用已知的欺诈保单信息，结合保险欺诈团伙性、传播性特点，将欺诈标签（1、-1、0）作为模型输入，提升模型判断关联保单是否欺诈的准确性，减少保险欺诈带来的经济损失。并提出迭代式识别方法，将上一轮模型结果作为下一轮的已知条件，输入至下一轮识别过程中，提升下一轮识别准确性的同时，可完整识别出图谱中所有欺诈保单。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的风险保单识别方法的风险保单识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个风险保单识别装置实施例中的具体限定可以参见上文中对于风险保单识别方法的限定，在此不再赘述。

在一个实施例中，如图6所示，提供了一种风险保单识别装置600，包括：子图获取模块601、风险标签预测模块602和风险标签迭代模块603，其中：

子图获取模块601，用于确定保险知识图谱中风险标签为待识别的目标保单实体，获取目标保单实体对应的保单子图；保单子图是基于保险知识图谱中距离目标保单实体在预设路径长度内的多个存在关联关系的邻接实体确定的；保险知识图谱是基于保单包含的业务信息和用户信息确定的，且其中的各保单实体对应有三种风险标签中的一种，三种风险标签分别表征待识别、有风险和无风险；

风险标签预测模块602，用于将保单子图输入至训练好的图注意力网络模型，得到目标保单实体的语义表示向量，并将语义表示向量输入至全连接神经网络模型，得到目标保单实体对应的预测风险标签，并作为目标保单实体更新后的风险标签；

风险标签迭代模块603，用于重新执行确定保险知识图谱中风险标签为待识别的目标保单实体，获取目标保单实体对应的保单子图的步骤，直到保险知识图谱中更新后的风险标签为待识别的目标保单实体的数量不发生变化；基于当前的保险知识图谱中的风险标签识别风险保单。

进一步地，装置还包括图谱构建模块，具体用于：

从业务信息和用户信息中，获取实体和实体属性，并基于实体间的连接关系，实体与实体属性间的连接关系，确定各保单的三元组；三元组中的实体类型包括保单实体、赔案实体和人物实体，实体间的连接关系包括理赔关系、投保关系、被保关系、出险关系、交易关系、销售关系和亲属关系，实体属性包括各实体预设的属性类型以及属性类型的属性值；

基于多个三元组构建初始的保险知识图谱；

基于针对各保单预设的标签值，标注初始的保险知识图谱中保单实体对应的风险标签，得到包含风险标签的保险知识图谱。

进一步地，子图获取模块601具体用于：针对保险知识图谱中风险标签为待识别的目标保单实体，确定与目标保单实体相关联的多个邻接实体；基于预设路径长度对邻接实体进行剪枝，得到目标保单实体对应的保单子图；其中，各保单子图之间互不重叠。

进一步地，子图获取模块601具体还用于：在邻接实体与目标保单实体的距离达到预设路径长度的情况下，对邻接实体附近的实体进行剪枝处理；其中，预设路径长度是基于图注意力网络模型的图注意力网络层数确定的，预设路径长度不大于图注意力网络层数；在完成对各邻接实体附近的实体剪枝处理之后，得到目标保单实体对应的保单子图。

进一步地，风险标签预测模块602具体用于：将保单子图的子图数据输入训练好的图注意力网络模型，图注意力网络模型基于子图数据，确定保单子图中各邻接实体的语义表示向量，并基于此得到目标保单实体的语义表示向量；其中，子图数据包括实体类型、实体属性、实体属性值、子图邻接表和实体之间的关系类型。

进一步地，图注意力网络模型包含多层注意力网络，风险标签预测模块602具体还用于：图注意力网络模型中各层图注意力网络为保单子图中的目标保单实体及其邻接实体分配不同权重，利用权重对目标保单实体及其邻接实体的实体特征进行加权求和，得到目标保单实体的语义表示向量，经过多层图注意力网络传播后，得到目标保单实体最终的语义表示向量。

上述风险保单识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储业务信息、用户信息以及保险知识图谱等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种风险保单识别方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种风险保单识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于多个所述三元组构建初始的保险知识图谱；

3.根据权利要求1所述的方法，其特征在于，所述获取所述目标保单实体对应的保单子图，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述预设路径长度对所述邻接实体进行剪枝，得到所述目标保单实体对应的保单子图，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述保单子图输入至训练好的图注意力网络模型，得到所述目标保单实体的语义表示向量，包括：

6.根据权利要求5所述的方法，其特征在于，所述图注意力网络模型包含多层注意力网络，所述图注意力网络模型基于所述子图数据，确定所述保单子图中各所述邻接实体的语义表示向量，并基于此得到所述目标保单实体的语义表示向量，包括：

7.一种风险保单识别装置，其特征在于，所述装置包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。