CN117078441B

CN117078441B - 理赔欺诈识别方法、装置、计算机设备和存储介质

Info

Publication number: CN117078441B
Application number: CN202311332282.0A
Authority: CN
Inventors: 张泷; 陈修齐; 潘怡君; 吴迪; 那崇宁
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2024-02-06
Anticipated expiration: 2043-10-16
Also published as: CN117078441A

Abstract

本申请涉及一种理赔欺诈识别方法、装置、计算机设备和存储介质，通过将历史理赔事件数据构建为用于表征历史理赔事件中各个事件元素与每个历史理赔事件关联关系的历史关联关系邻接矩阵组，根据历史关联关系邻接矩阵组，构建用于表征重要程度最高的事件元素下每个历史理赔事件关联关系的历史重要关联关系邻接矩阵，构建完成后，提取历史重要关联关系邻接矩阵组的历史特征向量，结合历史重要关联关系邻接矩阵，构建理赔欺诈识别模型，使用识别模型对待预测理赔事件进行风险判断，由于将事件的关联关系根据重要程度进行划分，因此突出了重要关联关系，解决了相关技术中理赔欺诈事件识别准确度较低的问题，提高了理赔欺诈事件的识别效率。

Description

理赔欺诈识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种理赔欺诈识别方法、装置、计算机设备和存储介质。

背景技术

在一些业务数据的应用场景，例如应用车险业务数据识别车险欺诈风险时，需要寻找不同业务数据之间的关联性。然而，在进行历史案件数据存储时，通常会将历史案件数据按照其各自的类别分门别类地存储于数据库中。由于不同数据表之间互相独立存储，表和表之间很难通过主键或外键进行一一连接，最终形成多个数据孤岛，在进行关联关系查找时，查找的效率较低。

相关技术中，采用图技术对独立存储的数据进行关联性查找，进而进行反欺诈风险识别，例如图神经网络技术。然而相关技术中的图神经网络仅使用了同构图数据，并没有考虑到更加复杂的异构图数据。有方法使用图节点嵌入技术对虚假数据进行判断，但仅考虑了一种关系，没有充分利用含有多种关联关系的异构图信息。该方法将每种关系视为同样重要的关系，无法区别重要关联关系，导致理赔欺诈事件识别的准确度较低。

目前，对于相关技术中，理赔欺诈事件识别的准确度较低的问题，尚未提出有效的解决办法。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高理赔欺诈事件识别准确度的理赔欺诈识别方法、装置、计算机设备和计算机可读存储介质。

第一方面，本申请提供了一种理赔欺诈识别方法。所述方法包括：

根据历史理赔事件数据，构建历史关联关系邻接矩阵组，其中，所述历史关联关系邻接矩阵组用于表征所述历史理赔事件中多个事件元素与每个所述历史理赔事件的关联关系；

根据所述历史关联关系邻接矩阵组，构建历史重要关联关系邻接矩阵，其中，所述历史重要关联关系邻接矩阵用于表征重要程度最高的所述事件元素下每个所述历史理赔事件的关联关系，所述重要程度用于表征所述事件元素在理赔事件欺诈识别的过程中的重要性；

提取所述历史关联关系邻接矩阵组的历史特征向量；

根据所述历史重要关联关系邻接矩阵以及所述历史特征向量，构建理赔欺诈识别模型；

将待预测理赔事件数据输入所述理赔欺诈识别模型，根据所述理赔欺诈识别模型输出的风险值判断所述待预测理赔事件是否为理赔欺诈事件。

在其中一个实施例中，根据历史理赔事件数据，构建历史关联关系邻接矩阵组包括：

根据所述历史理赔事件数据，提取历史理赔事件关联关系图，其中，所述历史理赔事件关联关系图的节点为所述历史理赔事件的所述事件元素，所述历史理赔事件关联关系图的边用于表示所述事件元素之间的关联关系；

根据所述历史理赔事件关联关系图，构建所述历史关联关系邻接矩阵组。

在其中一个实施例中，所述历史关联关系邻接矩阵组包括同构关联关系邻接矩阵组和/或异构关联关系邻接矩阵组。

在其中一个实施例中，根据所述历史关联关系邻接矩阵组，构建历史重要关联关系邻接矩阵包括：

抽选所述历史关联关系邻接矩阵组中包含第一特征的所述历史理赔事件，其中，所述第一特征用于表征重要程度最高的所述事件元素；

将抽选的所述历史理赔事件进行关联关系提取，根据提取结果构建所述历史重要关联关系邻接矩阵。

在其中一个实施例中，提取所述历史关联关系邻接矩阵组的历史特征向量包括：

构建事件关联关系邻接矩阵，其中，所述事件关联关系邻接矩阵用于表征在各个所述事件元素下每个所述历史理赔事件之间的关联关系；

根据所述事件关联关系邻接矩阵中的事件顺序对所述历史理赔事件数据进行排序；

根据排序后的所述历史理赔事件数据提取所述历史关联关系矩阵的历史特征向量。

在其中一个实施例中，根据排序后的所述历史理赔事件数据提取所述历史关联关系矩阵的历史特征向量包括：

根据所述历史关联关系矩阵组，构建异构网络图，所述异构网络的节点用于表征所述异构网络图的对象，所述异构网络图的链接用于表征所述异构网络图的关系类型；

将异构网络图输入至图节点嵌入模型，其中，图节点嵌入模型用于学习异构网络图的节点的结构关联信息，图节点嵌入模型的输出为低纬矩阵，低纬矩阵用于表征节点的历史特征向量的集合。

在其中一个实施例中，将待预测理赔事件数据输入所述理赔欺诈识别模型包括：

根据所述待预测理赔事件的关联关系图，构建待预测关联关系邻接矩阵组，其中，所述待预测关联关系邻接矩阵组用于表征所述待预测理赔事件中各个事件元素与每个所述待预测理赔事件的关联关系；

根据重要程度最高的所述待预测关联关系邻接矩阵组，构建待预测重要关联关系邻接矩阵，其中，所述待预测重要关联关系邻接矩阵用于表征重要程度最高的所述事件元素下每个所述待预测事件的关联关系；

提取所述待预测关联关系邻接矩阵组的待预测特征向量；

将所述待预测重要关联关系邻接矩阵与所述待预测特征向量输入至所述理赔欺诈识别模型。

第二方面，本申请还提供了一种理赔欺诈事件识别装置。所述装置包括：

第一构建模块，用于根据历史理赔事件数据，构建历史关联关系邻接矩阵组，其中，所述历史关联关系邻接矩阵组用于表征所述历史理赔事件中各个事件元素与每个所述历史理赔事件的关联关系；

第二构建模块，用于根据重要程度最高的所述历史关联关系邻接矩阵组，构建历史重要关联关系邻接矩阵，其中，所述历史重要关联关系邻接矩阵用于表征重要程度最高的所述事件元素下每个所述历史理赔事件的关联关系，所述重要程度用于表征所述事件元素在理赔事件欺诈识别的过程中的重要性；

特征提取模块，用于提取所述历史关联关系邻接矩阵组的历史特征向量与所述历史重要关联关系邻接矩阵的第二特征向量；

模型构建模块，用于根据所述历史重要关联关系邻接矩阵、所述历史特征向量以及所述第二特征向量，构建理赔欺诈识别模型；

风险判断模块，用于将待预测理赔事件数据输入所述理赔欺诈识别模型，根据所述理赔欺诈识别模型输出的风险值判断所述待预测理赔事件是否为理赔欺诈事件。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

根据历史理赔事件数据，构建历史关联关系邻接矩阵组，其中，所述历史关联关系邻接矩阵组用于表征所述历史理赔事件中各个事件元素与每个所述历史理赔事件的关联关系；

根据重要程度最高的所述历史关联关系邻接矩阵组，构建历史重要关联关系邻接矩阵，其中，所述历史重要关联关系邻接矩阵用于表征重要程度最高的所述事件元素下每个所述历史理赔事件的关联关系；

提取所述历史关联关系邻接矩阵组的历史特征向量与所述历史重要关联关系邻接矩阵的第二特征向量；

根据所述历史关联关系邻接矩阵组、所述历史重要关联关系邻接矩阵、所述历史特征向量以及所述第二特征向量，构建理赔欺诈识别模型；

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述理赔欺诈识别方法、装置、计算机设备、存储介质和计算机程序产品，通过重要程度，将历史理赔事件数据构建为历史关联关系邻接矩阵组，其中历史关联关系邻接矩阵组用于表征历史理赔事件中各个事件元素与每个历史理赔事件的关联关系，根据历史关联关系邻接矩阵组，构建用于表征重要程度最高的事件元素下每个历史理赔事件关联关系的历史重要关联关系邻接矩阵，构建完成后，提取历史重要关联关系邻接矩阵组的历史特征向量，结合历史重要关联关系邻接矩阵，构建理赔欺诈识别模型，将待预测理赔事件数据输入至理赔欺诈识别模型，根据理赔欺诈识别模型输出的风险值判断待预测理赔事件是否为理赔欺诈事件，由于将事件的关联关系根据重要程度进行划分，因此可以突出重要的关联关系，解决了相关技术中理赔欺诈事件识别的准确度较低的问题，提高了理赔欺诈事件识别的准确度与识别效率。

附图说明

图1为一个实施例中理赔欺诈识别方法的应用环境图；

图2为一个实施例中理赔欺诈识别方法的流程示意图；

图3为一个实施例中构建理赔欺诈识别模型的整体流程图；

图4为一个实施例中对待预测理赔事件进行风险预测的整体流程图；

图5为一个实施例中理赔欺诈事件识别装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的理赔欺诈识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据，如相关的历史理赔事件数据等。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种理赔欺诈识别方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤S202，根据历史理赔事件数据，构建历史关联关系邻接矩阵组，其中，历史关联关系邻接矩阵组用于表征历史理赔事件中多个事件元素与每个历史理赔事件的关联关系。

其中，历史理赔事件数据可以通过结构化数据库进行存储，存储后的历史理赔事件数据以数据表的形式用于后续的数据处理。历史理赔事件数据表的行列信息分别为事件标号与事件元素，用于表征每个事件中事件元素的具体属性。通过历史理赔事件数据表，可以构建历史关联关系邻接矩阵组，历史关联关系邻接矩阵组中包含多个历史关联关系邻接矩阵，历史关联关系邻接矩阵用于表征各个事件元素与每个历史理赔事件之间的关联关系，即每个历史理赔事件中包含何种属性的事件元素。历史关联关系邻接矩阵的横纵向量分别为历史理赔事件与各个事件元素。

示例性地，表1为结构化数据库中的一个历史理赔事件数据表，如表1所示。

表1 结构化数据库中的历史理赔事件数据表

表1中，纵列的数字表示事件的序号，例如2即表示事件2。横向的车牌号、联系人电话、联系人姓名、省份、城市为事件中的不同事件元素，在表1中总共列举了五个不同的事件元素，每个事件元素可以用于表示事件的不同属性。

根据表1，建立多个历史关联关系邻接矩阵组。例如，选取联系人姓名这一事件元素，则在联系人姓名这一事件元素与历史理赔事件的历史关联关系邻接矩阵如下表2所示。

表2 历史理赔事件-联系人姓名关联关系邻接矩阵

表2中，当事件序号-联系人姓名的值为1时，表示两者之间存在关联关系；当事件序号-联系人姓名的值为0时，表示两者之间不存在关联关系。如事件序号0与联系人徐对应的值为1，表示联系人徐与历史理赔事件0存在关联关系；事件序号0与联系人王对应的值为0，表示联系人王与历史理赔事件0不存在关联关系。

与上表2类似，选取历史理赔事件数据表中多个事件元素，生成多个历史关联关系邻接矩阵，用于表征对应的事件元素与历史理赔事件的关联关系。

步骤204，根据历史关联关系邻接矩阵组，构建历史重要关联关系邻接矩阵，其中，历史重要关联关系邻接矩阵用于表征重要程度最高的事件元素下每个历史理赔事件的关联关系，重要程度用于表征事件元素在理赔事件欺诈识别的过程中的重要性。

其中，重要程度用于表征某个事件元素在理赔事件欺诈识别的过程中重要性的大小，其反映了某个事件元素对理赔事件的风险值的贡献程度。事件元素的重要程度可以根据专家经验进行手动选择与标定，也可以通过机器学习模型对不同的事件元素进行分析，输入已有事件元素的特征，对该理赔事件是否为理赔欺诈事件进行预测，同时根据预测过程输出对应事件元素的重要程度。在获取历史关联关系邻接矩阵组后，选择重要程度最高的事件元素，选取与该事件元素有关的历史理赔事件数据，构建历史重要关联关系邻接矩阵。历史重要关联关系邻接矩阵用于表征重要程度最高的事件元素下每个历史理赔事件的关联关系，其横纵向量均表示不同的历史理赔事件。

示例性地，选取省份这一事件元素作为重要程度最高的事件元素，其历史关联关系邻接矩阵组如下表3所示。

表3 历史理赔事件-省份关联关系邻接矩阵

根据上表3所示的历史关联关系邻接矩阵，可以得到在省份这一事件元素下，每个历史理赔事件之间的关联关系邻接矩阵，即历史重要关联关系邻接矩阵，如下表4所示。

表4 省份元素中历史理赔事件-历史理赔事件关联关系邻接矩阵

至此，完成对历史重要关联关系邻接矩阵的构建。

步骤S206，提取历史关联关系邻接矩阵组的历史特征向量。

其中，在历史理赔事件数据表中提取与历史关联关系邻接矩阵组相关的有效字段。当存在多个有效字段表示同一属性值的情况，则从中选择信息量最大的一个字段作为该属性下的有效字段。根据提取得到的有效字段对应的值，生成相应的历史特征向量。

示例性地，对上表1中的历史理赔事件数据进行提取，提取得到的有效字段为车牌号、联系人电话、联系人姓名、省份以及城市，则特征为车牌号、联系人电话、联系人姓名、省份以及城市对应的属性值，根据上述特征的属性值，生成特征向量，特征向量整合后可以得到历史特征矩阵，该特征矩阵为n×m的矩阵，其中n为历史理赔事件的数量，m为历史理赔事件数据表中数据的维度数量，如表1中共有车牌号、联系人电话、联系人姓名、省份以及城市五个维度的信息数据，则此时m=5。根据历史关联关系邻接矩阵组中各个历史关联关系邻接矩阵的事件序号，对特征矩阵中的特征向量进行整理，整理后可以得到历史特征向量。

步骤S208，根据历史重要关联关系邻接矩阵与历史特征向量，构建理赔欺诈识别模型。

其中，利用历史关联关系邻接矩阵组、历史重要关联关系邻接矩阵、历史特征向量以及第二特征向量对图卷积网络嵌入模型进行训练，训练完成后即可得到理赔欺诈识别模型。该理赔欺诈识别模型的输入为事件数据，输出为该事件数据的风险值。

步骤S210，将待预测理赔事件数据输入理赔欺诈识别模型，根据理赔欺诈识别模型输出的风险值判断待预测理赔事件是否为理赔欺诈事件。

其中，将待预测理赔事件输入至步骤S208中得到的理赔欺诈识别模型，利用理赔欺诈识别模型对该事件进行风险预测，理赔欺诈识别模型会输出风险值，风险值用于表征输入的待预测理赔事件为理赔欺诈事件的概率。根据输出的风险值，即可判断该事件是否为理赔欺诈事件。

上述理赔欺诈识别方法中，通过重要程度，将历史理赔事件数据构建为历史关联关系邻接矩阵组，其中历史关联关系邻接矩阵组用于表征历史理赔事件中各个事件元素与每个历史理赔事件的关联关系，根据历史关联关系邻接矩阵组，构建用于表征重要程度最高的事件元素下每个历史理赔事件关联关系的历史重要关联关系邻接矩阵，构建完成后，提取历史重要关联关系邻接矩阵组的历史特征向量，结合历史重要关联关系邻接矩阵，构建理赔欺诈识别模型，将待预测理赔事件数据输入至理赔欺诈识别模型，根据理赔欺诈识别模型输出的风险值判断待预测理赔事件是否为理赔欺诈事件，由于将事件的关联关系根据重要程度进行划分，因此可以突出重要的关联关系，解决了相关技术中理赔欺诈事件识别的准确度较低的问题，提高了理赔欺诈事件识别的准确度与识别效率。

在一个实施例中，根据历史理赔事件数据，构建历史关联关系邻接矩阵组包括：

根据历史理赔事件数据，提取历史理赔事件关联关系图，其中，历史理赔事件关联关系图的节点为历史理赔事件的事件元素，历史理赔事件关联关系图的边用于表示事件元素之间的关联关系；根据历史理赔事件关联关系图，构建历史关联关系邻接矩阵组。

其中，历史理赔事件关联关系图可以根据经验预先设置，也可以根据历史理赔事件数据进行生成。历史理赔事件关联关系图中包含多个实体，实体具有多种属性，实体与实体之间存在关联关系。本实施例中，每个实体为一个节点，每个节点用于表征历史理赔事件的一个时间元素，节点与节点的边用于表征事件元素之间的关联关系。根据历史理赔事件关联关系图中事件元素的关联关系，构建历史关联关系邻接矩阵组。

本实施例中，通过关联关系图构建矩阵，可以通过分析不同时间、相似节点特征，串联关联案件，提高事件识别的准确度。

在一个实施例中，历史关联关系邻接矩阵组包括同构关联关系邻接矩阵和/或异构关联关系邻接矩阵。

其中，历史关联关系邻接矩阵组的形式有多种，可以是某一元素下历史理赔事件-历史理赔事件这一类型的同构关联关系邻接矩阵，也可以是如上述实施例所述的历史理赔事件-事件元素这一类型的异构关联关系矩阵。也就是说，本申请实施例提供的方法对同构关联关系图与异构关联关系图均适用，对于其结构并没有限制。

本实施例中，对于同构关联关系邻接矩阵与异构关联关系邻接矩阵均可以进行处理，提高了方法的适用性。

在一个实施例中，根据重要程度最高的历史关联关系邻接矩阵组，构建历史重要关联关系邻接矩阵包括：抽选历史关联关系邻接矩阵组中包含第一特征的历史理赔事件，其中，第一特征用于表征重要程度最高的事件元素；将抽选的历史理赔事件进行关联关系提取，根据提取结果构建历史重要关联关系邻接矩阵。

其中，选取历史理赔事件数据特征中重要程度最高的特征作为第一特征，第一特征对应的事件元素为重要程度最高的事件元素，选取该事件元素对应的历史关联关系邻接矩阵组，抽选历史关联关系邻接矩阵组中包含第一特征的历史理赔事件，将抽选得到的历史理赔事件进行关联关系提取，将提取结果整合到矩阵中，该矩阵即为历史重要关联关系邻接矩阵。

本实施例中，根据特征的重要程度，对历史理赔事件之间的关系进行提取，从而获得历史重要关联关系邻接矩阵，突出了关联关系中的重要关联关系，从而提高了事件识别的准确度。

在一个实施例中，提取历史关联关系邻接矩阵的历史特征向量包括：构建事件关联关系邻接矩阵，其中，事件关联关系邻接矩阵用于表征在各个事件元素下每个历史理赔事件之间的关联关系；根据事件关联关系邻接矩阵中的事件顺序对历史理赔事件数据进行排序；根据排序后的历史理赔事件数据提取历史关联关系邻接矩阵的历史特征向量。

其中，事件关联关系邻接矩阵为每个事件元素下历史理赔事件之间的同构关联关系邻接矩阵。事件关联关系邻接矩阵的数量与事件元素的数量相同，其行列均用于表征历史理赔事件，矩阵中的每个数值表示两个历史理赔事件之间的关联关系。当历史理赔事件-历史理赔事件对应的值为0时，表示在这一事件元素下，两个历史理赔事件之间不存在关联关系；当历史理赔事件-历史理赔事件对应的值为1时，表示在这一事件元素下，两个历史理赔事件之间存在关联关系。事件关联关系邻接矩阵中，行列中的历史理赔事件排序和历史理赔事件数据表中历史理赔事件的排序可能并不相同，因此，需要根据不同元素下的事件关联关系邻接矩阵对历史理赔事件数据进行重新排序，根据排序后的历史理赔事件数据提取该事件元素对应的特征。

示例性地，如表1所示，表1中包含有5个维度的事件元素信息数据，每个维度的时间元素对应一个n×n的事件关联关系邻接矩阵，每个事件关联关系邻接矩阵的行和列都表示历史理赔事件序号。如果得到的一个事件关联关系邻接矩阵中历史理赔事件的序号顺序为00,02,01,04,03×00,02,01,04,03，则需要将历史理赔事件数据表中的历史理赔事件顺序调整为00,02,01,04,03顺序，根据调整后的历史理赔事件数据表提取对应特征。

本实施例中，通过根据事件关联关系邻接矩阵中历史理赔事件的顺序，对历史理赔事件数据进行排序，便于对历史理赔事件数据中的特征进行提取，提高了特征提取的效率。

在一个实施例中，根据排序后的历史理赔事件数据提取历史关联关系矩阵的历史特征向量包括：根据历史关联关系矩阵组，构建异构网络图，异构网络的节点用于表征异构网络图的对象，异构网络图的链接用于表征异构网络图的关系类型；将异构网络图输入至图节点嵌入模型，其中，图节点嵌入模型用于学习异构网络图的节点的结构关联信息，图节点嵌入模型的输出为低纬矩阵，低纬矩阵用于表征节点的历史特征向量的集合。

其中，历史理赔事件数据中包含多个历史理赔事件，不同历史理赔事件关联关系的邻接矩阵共同构成一个异构网络，异构网络由图G(V,E,T)表示，其中节点V和链接E分别对应映射函数：φ(V):V→T_v，φ(E):E→T_E，其中T_v和T_E指对象和关系类型的集合。该模型工作就是将异构网络中的节点V表示成一个低纬向量, 用于学习异构网络图中节点的结构的关联信息。而该问题的输出则为低纬矩阵X，表示的是所有节点的低纬特征向量集合。本申请实施例采用元路径转化向量（metapath2vec）模型作为图节点嵌入模型，具体的模型构建方法如下：

基本的图卷积网络嵌入模型的消息传递定义如下式所示：

其中，为历史重要关联关系邻接矩阵G的自连接邻接矩阵，其中，I_N代表单位矩阵，/>，而w^l表示特定层的权重矩阵。函数σ()对应于一个激活函数，例如ReLU函数（线性整流函数）。E_h ^l指的是第l层的激活矩阵，其中E_h ⁰=[EX]。X即为数据库中对应事件的其他有用特征。

接下来需要将异构关联关系邻接矩阵组转化为图节点特征向量E，本申请实施例选用元路径转化向量（metapath2vec）模型作为图节点嵌入模型。

定义元路径转化向量（metapath2vec）模型节点游走的形式为：

其中，V₁，V₂…指的都是节点类型，R₁，R₂…指的是节点转移，具体来说节点转移概率为：

其中v_t ⁱ∈V_t，N_t+1(v_t ⁱ)指的是节点v_t ⁱ的V_t+1类型的邻近节点，而转移概率就是该类型节点个数的倒数。表达的是只有在下一步为指定元路径位置上的节点类型的时候才发生转移，并且转移概率为领域内该类型节点数的倒数。基于元路径的随机游走保证状态转化变化的正确性。一般来说，对于节点v，如果不指定元路径则其转移到相邻不同类型节点的概率均等，但如果有人工指定元路径则转移至人为指定的下一类型节点概率会增加。

元路径转化向量模型的目标为给定节点v后，使其周围节点存在的概率最大化，具体来说目标函数为：

这里的N_t(v)指的是在节点v的邻近节点中，为第t个类型的节点。而概率函数p(c_t|v;θ)则为softmax函数（归一化指数函数），具体可表示为：

其中，M_v为矩阵M的第v行向量，它表示节点v的嵌入向量。为了减少计算量，进一步优化为负采样后的优化目标：

其中，f是sigmoid函数（神经元的非线性作用函数），p(u)是预定义的函数，用于采样节点N次。这里它并没有区分不同的节点来进行采样，对不同节点进行均匀采样。

损失函数采用交叉熵公式进行计算：

其中p和q分别为案件是否欺诈的标签。公式中x代表具体案件的预测结果。即p和q代表案件真实分类标签，x代表神经网络预测标签。

模型使用随机梯度下降法更新梯度：

其中，下一状态下θ_t+1是上一状态下的θ_t根据当次预测结果y对上一状态下的θ求偏导后求K个样本采样点的平均值，后与梯度步长α相乘。进一步的更新神经元的权重，将神经元权重W带入梯度下降公式中的θ中得到需要使用以下公式：

将历史关联关系邻接矩阵组、历史重要关联关系邻接矩阵和历史特征向量，以及是否为理赔欺诈事件的标签传入神经网络模型训练代码后可训练得到最终用于预测的神经网络模型。

本实施例中，使用图节点嵌入的方法提取特征向量，便于对较大的历史理赔事件数据进行快速处理，提高理赔欺诈事件识别的效率与准确度。

在一个实施例中，将待预测理赔事件数据输入理赔欺诈识别模型包括：根据待预测理赔事件的关联关系图，构建待预测关联关系邻接矩阵组，其中，待预测关联关系邻接矩阵组用于表征待预测理赔事件中各个事件元素与每个待预测理赔事件的关联关系；根据重要程度最高的待预测关联关系邻接矩阵组，构建待预测重要关联关系邻接矩阵，其中，待预测重要关联关系邻接矩阵用于表征重要程度最高的事件元素下每个待预测事件的关联关系；提取待预测关联关系邻接矩阵组的待预测特征向量；将待预测重要关联关系邻接矩阵与待预测特征向量输入至理赔欺诈识别模型。

其中，在将待预测理赔事件数据输入至理赔欺诈识别模型之前，需要根据待预测理赔事件的关联关系图，构建待预测关联关系邻接矩阵组与待预测重要关联关系邻接矩阵，待预测关联关系邻接矩阵组为待预测理赔事件中各个事件元素与每个待预测理赔事件之间的关联关系，其横纵向量表示待预测理赔事件与待预测理赔事件的事件元素之间的关系。待预测重要关系邻接矩阵为重要程度最高的事件元素下每个待预测理赔事件的关联关系，其横纵向量均表示不同的待预测理赔事件。提取待预测关联关系邻接矩阵组的待预测特征向量，并将待预测重要关联关系邻接矩阵与待预测特征向量输入至理赔欺诈识别模型，特别地，输入至理赔欺诈识别模型中的信息需为布尔型或数字型特征。理赔欺诈识别模型会根据待预测特征向量，根据历史理赔事件的关联关系与待预测理赔事件的特征，对事件的风险欺诈概率进行预测，得到待预测理赔事件的风险值，根据风险值可以判断该事件是否为理赔欺诈事件。

本实施例中，待预测理赔事件输入至理赔欺诈识别模型之前需要经过一系列处理，确保待预测理赔事件的特征能够被准确提取到，从而提高理赔欺诈事件识别的准确度。

在一个实施例中，构建理赔欺诈识别模型的整体流程如图3所示，根据历史理赔事件结构化数据库中的历史理赔事件数据与关联关系图，将历史理赔事件关联关系转换为历史关联关系邻接矩阵组与历史重要关联关系邻接矩阵，并抽取历史理赔事件的关联关系特征，将历史重要关联关系邻接矩阵及历史理赔事件对应的特征输入至图卷积嵌入模型进行训练，得到理赔欺诈识别模型。

在一个实施例中，对待预测理赔事件进行风险预测的整体流程如图4所示，根据待预测理赔事件结构化数据集中的待预测理赔事件数据与关联关系图，将待预测理赔事件关联关系转换为待预测关联关系邻接矩阵组与待预测重要关联关系邻接矩阵组，并提取待预测理赔事件的关联关系特征，将待预测重要关联关系邻接矩阵与待预测理赔事件的关联关系特征输入至图卷积网络嵌入模型进行预测，得到事件欺诈风险概率。

在一个具体的实施例中，车险数据集中有9175个事件，其中2129个事件标记为欺诈事件，事件欺诈率为23.20%。

在和不使用图节点嵌入特征神经网络对比时，均使用2层神经网络，每层100给隐含层节点，学习速率为0.001。

在实际业务场景中，保险公司会使用模型评估单个事件风险值，对风险较高的事件采用人工调查的方式确定事件是否是欺诈事件。考虑到人工调查每个事件均有一定成本，保险公司希望人工参与调查的事件欺诈率越高越好，一般保险公司的事件抽调率在1%——5%之间。

为了能够评价不同算法的优劣，在Precision（正确率）和Recall（召回率）的基础上提出了F1值的概念，来对正确率和召回率进行整体评价，F1的定义如下：

F1值 = 正确率×召回率× 2 / (正确率 + 召回率)

如表5所示，加入图节点嵌入特征的神经网络的AUC值、准确率、精确率、找回率和F1值。从中可以看出，仅仅使用对应事件特征，在图神经网络模型中得到的F1值仅为0.428。而加入图节点嵌入特征后，F1值均得到提高，提升至0.442，提升较为明显。

表5 加入图节点嵌入特征的神经网络模型和神经网络中各项评价指标表

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的理赔欺诈识别方法的理赔欺诈事件识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个理赔欺诈事件识别装置实施例中的具体限定可以参见上文中对于理赔欺诈识别方法的限定，在此不再赘述。

在一个实施例中，如图5所示，提供了一种理赔欺诈事件识别装置，包括：第一构建模块51、第二构建模块52、特征提取模块53、模型构建模块54、风险判断模块55，其中：

第一构建模块51，用于根据历史理赔事件数据，构建历史关联关系邻接矩阵组，其中，历史关联关系邻接矩阵组用于表征历史理赔事件中多个事件元素与每个历史理赔事件的关联关系，重要程度用于表征事件元素在理赔事件欺诈识别的过程中重要性的大小；

第二构建模块52，用于根据历史关联关系邻接矩阵组，构建历史重要关联关系邻接矩阵，其中，历史重要关联关系邻接矩阵用于表征重要程度最高的事件元素下每个历史理赔事件的关联关系；

特征提取模块53，用于提取历史关联关系邻接矩阵组的历史特征向量；

模型构建模块54，用于根据历史重要关联关系邻接矩阵以及历史特征向量，构建理赔欺诈识别模型；

风险判断模块55，用于将待预测理赔事件数据输入理赔欺诈识别模型，根据理赔欺诈识别模型输出的风险值判断待预测理赔事件是否为理赔欺诈事件。

上述理赔欺诈事件识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史理赔事件数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种理赔欺诈识别方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

根据历史理赔事件数据，构建历史关联关系邻接矩阵组，其中，关联关系邻接矩阵组用于表征历史理赔事件中多个事件元素与每个历史理赔事件的关联关系；

根据历史关联关系邻接矩阵组，构建历史重要关联关系邻接矩阵，其中，历史重要关联关系邻接矩阵用于表征重要程度最高的事件元素下每个历史理赔事件的关联关系；

提取历史关联关系邻接矩阵组的历史特征向量；

根据历史重要关联关系邻接矩阵以及历史特征向量，构建理赔欺诈识别模型；

将待预测理赔事件数据输入理赔欺诈识别模型，根据理赔欺诈识别模型输出的风险值判断待预测理赔事件是否为理赔欺诈事件。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

根据历史理赔事件数据，提取历史理赔事件关联关系图，其中，历史理赔事件关联关系图的节点为历史理赔事件的事件元素，历史理赔事件关联关系图的边用于表征事件元素之间的关联关系；根据历史理赔事件关联关系图，构建历史关联关系邻接矩阵组。

抽选历史关联关系邻接矩阵组中包含第一特征的历史理赔事件，其中，第一特征用于表征重要程度最高的事件元素；将抽选的历史理赔事件进行关联关系提取，根据提取结果构建历史重要关联关系邻接矩阵。

构建事件关联关系邻接矩阵，其中，事件关联关系邻接矩阵用于表征在各个事件元素下每个历史理赔事件之间的关联关系；根据事件关联关系邻接矩阵中的事件顺序对历史理赔事件数据进行排序；根据排序后的历史理赔事件数据提取历史关联关系矩阵的历史特征向量。

根据历史关联关系矩阵组，构建异构网络图，异构网络的节点用于表征异构网络图的对象，异构网络图的链接用于表征异构网络图的关系类型；将异构网络图输入至图节点嵌入模型，其中，图节点嵌入模型用于学习异构网络图的节点的结构关联信息，图节点嵌入模型的输出为低纬矩阵，低纬矩阵用于表征节点的历史特征向量的集合。

根据待预测理赔事件的关联关系图，构建待预测关联关系邻接矩阵组，其中，待预测关联关系邻接矩阵组用于表征待预测理赔事件中各个事件元素与每个待预测理赔事件的关联关系；根据重要程度最高的待预测关联关系邻接矩阵组，构建待预测重要关联关系邻接矩阵，其中，待预测重要关联关系邻接矩阵用于表征重要程度最高的事件元素下每个待预测事件的关联关系；提取待预测关联关系邻接矩阵组的待预测特征向量；将待预测重要关联关系邻接矩阵与待预测特征向量输入至理赔欺诈识别模型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

根据历史理赔事件数据，构建历史关联关系邻接矩阵组，其中，关联关系邻接矩阵组用于表征历史理赔事件中多个事件元素与每个历史理赔事件的关联关系；根据历史关联关系邻接矩阵组，构建历史重要关联关系邻接矩阵，其中，历史重要关联关系邻接矩阵用于表征重要程度最高的事件元素下每个历史理赔事件的关联关系；提取历史关联关系邻接矩阵组的历史特征向量；根据历史重要关联关系邻接矩阵以及历史特征向量，构建理赔欺诈识别模型；将待预测理赔事件数据输入理赔欺诈识别模型，根据理赔欺诈识别模型输出的风险值判断待预测理赔事件是否为理赔欺诈事件。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（MagnetoresistiveRandom Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random AccessMemory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种理赔欺诈识别方法，其特征在于，包括：

提取所述历史关联关系邻接矩阵组的历史特征向量；

将待预测理赔事件数据输入所述理赔欺诈识别模型，根据所述理赔欺诈识别模型输出的风险值判断所述待预测理赔事件是否为理赔欺诈事件；

其中，根据所述历史关联关系邻接矩阵组，构建历史重要关联关系邻接矩阵包括：抽选所述历史关联关系邻接矩阵组中包含第一特征的所述历史理赔事件，其中，所述第一特征用于表征重要程度最高的所述事件元素；将抽选的所述历史理赔事件进行关联关系提取，根据提取结果构建所述历史重要关联关系邻接矩阵；

其中，将待预测理赔事件数据输入所述理赔欺诈识别模型包括：根据所述待预测理赔事件的关联关系图，构建待预测关联关系邻接矩阵组，其中，所述待预测关联关系邻接矩阵组用于表征所述待预测理赔事件中各个事件元素与每个所述待预测理赔事件的关联关系；根据重要程度最高的所述待预测关联关系邻接矩阵组，构建待预测重要关联关系邻接矩阵，其中，所述待预测重要关联关系邻接矩阵用于表征重要程度最高的所述事件元素下每个所述待预测事件的关联关系；提取所述待预测关联关系邻接矩阵组的待预测特征向量；将所述待预测重要关联关系邻接矩阵与所述待预测特征向量输入至所述理赔欺诈识别模型。

2.根据权利要求1所述的理赔欺诈识别方法，其特征在于，根据历史理赔事件数据，构建历史关联关系邻接矩阵组包括：

3.根据权利要求1所述的理赔欺诈识别方法，其特征在于，所述历史关联关系邻接矩阵组包括同构关联关系邻接矩阵组和/或异构关联关系邻接矩阵组。

4.根据权利要求1所述的理赔欺诈识别方法，其特征在于，提取所述历史关联关系邻接矩阵组的历史特征向量包括：

5.根据权利要求4所述的理赔欺诈识别方法，其特征在于，根据排序后的所述历史理赔事件数据提取所述历史关联关系矩阵的历史特征向量包括：

6.一种理赔欺诈事件识别装置，其特征在于，包括：

第一构建模块，用于根据历史理赔事件数据，构建历史关联关系邻接矩阵组，其中，所述历史关联关系邻接矩阵组用于表征所述历史理赔事件中多个事件元素与每个所述历史理赔事件的关联关系；

第二构建模块，用于根据所述历史关联关系邻接矩阵组，构建历史重要关联关系邻接矩阵，其中，所述历史重要关联关系邻接矩阵用于表征重要程度最高的所述事件元素下每个所述历史理赔事件的关联关系，所述重要程度用于表征所述事件元素在理赔事件欺诈识别的过程中的重要性；

特征提取模块，用于提取所述历史关联关系邻接矩阵组的历史特征向量；

模型构建模块，用于根据所述历史重要关联关系邻接矩阵以及所述历史特征向量，构建理赔欺诈识别模型；

风险判断模块，用于将待预测理赔事件数据输入所述理赔欺诈识别模型，根据所述理赔欺诈识别模型输出的风险值判断所述待预测理赔事件是否为理赔欺诈事件；

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至权利要求5中任一项所述的理赔欺诈识别方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至权利要求5中任一项所述的理赔欺诈识别方法的步骤。