CN115829760A

CN115829760A - 基于邻域相似度的医保欺诈识别方法、装置、设备和介质

Info

Publication number: CN115829760A
Application number: CN202211488104.2A
Authority: CN
Inventors: 林开标; 王冬扬; 卢萍; 戴彬
Original assignee: Xiamen University of Technology
Current assignee: Xiamen University of Technology
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-03-21

Abstract

本发明实施例提供基于邻域相似度的医保欺诈识别方法、装置、设备和介质，涉及医疗大数据技术领域。医保欺诈识别方法包含S1、根据医疗数据构建医疗异构图。S2、根据各种行为模式的元路径进行采样，获取异构子图。S3、根据异构子图，进行编码获取初始邻域集合。S4、根据初始邻域集合分别计算各个邻域的相似性并进行筛选，获取最终邻域集合。S5、通过第一个注意力机制分别融合最终邻域集合，获取各个患者节点的各个为模式下的嵌入表示。S6、根据嵌入表示，获取各种行为模式的重要性。S7、根据重要性，通过第二个注意力机制融合嵌入表示，获取各个患者节点的最终嵌入表示。S8、对最终嵌入表示进行分类，以判断各个患者节点是否为医保欺诈患者。

Description

基于邻域相似度的医保欺诈识别方法、装置、设备和介质

技术领域

本发明涉及医疗大数据技术领域，具体而言，涉及一种基于邻域相似度的医保欺诈识别方法、装置、设备和介质。

背景技术

医疗保险的普及，为群众提供了医疗保障。然而，在为人们提供便利的同时，也使得不法人员拥有了新的欺诈途径。医疗保险欺诈的行为方式多种多样，例如为参保人员虚开发票、提供虚假发票，非法使用医疗保障身份凭证，套取药品耗材，倒买倒卖非法牟利等。医疗保险欺诈行为极大地损害了被保险人的利益，如何在复杂的医疗保险数据中挖掘出潜在的欺诈者是一项紧迫的任务。

传统的医保欺诈识别方法包括基于规则的方法、有监督学习方法和无监督学习方法。基于规则的方法要求领域专家分析以往的欺诈行为构建可能的欺诈模式，并设立相应的规则筛查可疑的欺诈行为。有监督学习方法，把欺诈问题看做二分类问题，通过训练欺诈分类器进行欺诈行为的分辨。无监督学习方法，如基于离群点检测，利用各种统计的、距离的、密度的量化指标去描述数据样本跟其他样本的疏离程度，从而找出那些疏离程度较大的异常点。

其中，基于规则的方法工作量大，效率低，并不容易正确发现欺诈行为。有监督学习方法需要用到大量的标签才能有较好的效果，因此要花费大量的时间和较大的成本进行数据标注，使得工作量非常大。无监督学习方法不适合偏移的数据集(例如：比如医疗保险数据集)。并且，传统的三种方法，往往只关注特征属性，而忽略了医保数据集中的其它属性，导致检测结果往往准确性较低。

在医保欺诈的过程中，欺诈用户可能有异常的特征，在交互的行为中也可能是异常的。例如，欺诈患者在同一时间段内向多家医院盗刷大量相同的药物，又或者在医院某科室开具了大量与该科室不相关的药物。这种情况传统的医保欺诈检测方法无法充分利用用户之间的交互关系，导致难以正确检测出欺诈行为。

有鉴于此，申请人在研究了现有的技术后特提出本申请。

发明内容

本发明提供了一种基于邻域相似度的医保欺诈识别方法、装置、设备和介质，以改善上述技术问题中的至少一个。

第一方面、

本发明实施例提供了一种基于邻域相似度的医保欺诈识别方法，其包含步骤S1至步骤S8。

S1、获取医疗数据，并根据医疗数据构建医疗异构图。其中，医疗异构图包括患者节点。

S2、获取患者节点的各种行为模式的元路径，并根据元路径对医疗异构图进行采样，获取各种行为模式的异构子图。

S3、根据各种行为模式的异构子图，通过关系旋转编码器获取各个患者节点的各种行为模式下的初始邻域集合。

S4、根据初始邻域集合分别计算各个邻域的相似性，并通过自适应滤波阈值进行筛选，获取各个患者节点的各种行为模式下的最终邻域集合。

S5、通过第一个注意力机制分别融合各个患者节点在各种行为模式下的最终邻域集合，获取各个患者节点的各个为模式下的嵌入表示。

S6、根据各个患者节点的各个为模式下的嵌入表示，获取各种行为模式的重要性。

S7、根据各种行为模式的重要性，通过第二个注意力机制融合各个患者节点的各种行为模式下的嵌入表示，获取各个患者节点的最终嵌入表示。

S8、对各个患者节点的最终嵌入表示进行分类，以判断各个患者节点是否为医保欺诈患者。

第二方面、

本发明实施例提供了一种基于邻域相似度的医保欺诈识别装置，其包含：

异构图构建模块，用于获取医疗数据，并根据医疗数据构建医疗异构图。其中，医疗异构图包括患者节点。

采样模块，用于获取患者节点的各种行为模式的元路径，并根据元路径对医疗异构图进行采样，获取各种行为模式的异构子图。

初始邻域获取模块，用于根据各种行为模式的异构子图，通过关系旋转编码器获取各个患者节点的各种行为模式下的初始邻域集合。

最终邻域获取模块，用于根据初始邻域集合分别计算各个邻域的相似性，并通过自适应滤波阈值进行筛选，获取各个患者节点的各种行为模式下的最终邻域集合。

第一融合模块，用于通过第一个注意力机制分别融合各个患者节点在各种行为模式下的最终邻域集合，获取各个患者节点的各个为模式下的嵌入表示。

重要性获取模块，用于根据各个患者节点的各个为模式下的嵌入表示，获取各种行为模式的重要性。

第二融合模块，用于根据各种行为模式的重要性，通过第二个注意力机制融合各个患者节点的各种行为模式下的嵌入表示，获取各个患者节点的最终嵌入表示。

判断模块，用于对各个患者节点的最终嵌入表示进行分类，以判断各个患者节点是否为医保欺诈患者。

第三方面、

本发明实施例提供了一种基于邻域相似度的医保欺诈识别设备，其包括处理器、存储器，以及存储在存储器内的计算机程序。计算机程序能够被处理器执行，以实现如第一方面任意一段所说的基于邻域相似度的医保欺诈识别方法。

第四方面、

本发明实施例提供了一种计算机可读存储介质。该计算机可读存储介质包括存储的计算机程序，其中，在计算机程序运行时控制计算机可读存储介质所在设备执行如第一方面任意一段所说的基于邻域相似度的医保欺诈识别方法。

通过采用上述技术方案，本发明可以取得以下技术效果：

本发明实施例的医保欺诈识别方法通过异构图将患者的行为转化为计算机可以识别并处理的数据，通过采样得到不同行为模式的数据，通过注意力机制聚合邻居节点的信息和元路径的信息，减少了噪声节点和低相关元路径干扰，能够让取得更能表达患者行为的最终嵌入表示，从而大大提高后续判断的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是基于邻域相似度的医保欺诈识别方法的流程示意图。

图2是基于邻域相似度的医保欺诈识别方法的逻辑图。

图3是异构图和行为模式的元路径示意图。

图4是基于邻域相似度的医保欺诈识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一、

请参阅图1至图3，本发明第一实施例提供一种基于邻域相似度的医保欺诈识别方法，其可由基于邻域相似度的医保欺诈识别设备来执行(以下简称：识别设备)。特别地，由识别设备中的一个或多个处理器来执行，以实现步骤S1至步骤S8。

具体的，利用异构图建模真实医保就医场景，将医疗保险欺诈检测问题建模为异构图中的一个患者节点分类问题。为后续步骤解决医保欺诈检测问题提供理论基础，具有很好的实际意义。

可以理解的是，所述识别设备可以是便携笔记本计算机、台式机计算机、服务器、智能手机或者平板电脑等具有计算性能的电子设备。

在上述实施例的基础上，本发明的一个可选地实施例中，步骤S1具体包括步骤S11至步骤S12。

S11、获取医疗数据，并根据医疗数据提取就诊记录。

S12、根据就诊记录，以患者、医院科室、日期和药物为实体，构建医疗异构图。其中，医院和科室为一个整体，不同医院的同名科室作为不同的实体。日期实体细化到天。

具体的，在医保数据集中，有来自大量用户的数百万条交易记录，为了更好地理解患者的行为，本发明实施例将其构建成医保异构图。将所选患者的所有就诊记录抽取出来，并从中构建了患者、医院科室、日期和药物四个实体。其中，为了更加细化空间上的地域，我们将医院和科室当做一个整体，意味着即使是不同医院的同名科室也会被当做不同的实体。对于日期实体细化到天。

具体的，不同行为模式在异构图中对应着不同的元路径。根据元路径对异构图进行采样，能够得到不同行为特征的患者群体，从而获取医疗异构图中的行为特征。

如图3所示在上述实施例的基础上，本发明的一个可选地实施例中，步骤S1具体包括步骤S21至步骤S23。

S21、获取患者节点的三种行为模式的元路径。其中，三种行为模式的元路径包括“患者-医院科室-患者”、“患者-药物-患者”，以及“患者-日期-患者”。

S22、根据三种行为模式的元路径对医疗异构图进行采样，获取三种行为模式的初始子图。

具体的，如图3所示，为了方便说明，我们在异构图中只展示了患者(P)、医院科室(H)和药物(M)三种实体。如附图1中的a所示，患者P1、P2和P3都在H1医院看病。语义元路径PHP(患者-医院科室-患者)如附图1中的b所示。使用语义元路径采样邻居则可以看做异构图从患者节点出发，根据元路径的顺序从不同类型的节点之间进行游走，最终又返回到患者节点。例如：从欺诈者P2出发，经过医院H1，最终返回欺诈者P3。多语义元路径PHP本身的语义信息可以理解为在同一医院科室看病的患者。

在本实施例中，分别使用三种元路径进行采样。同时使用多种元路径，通过元路径分解成三个不同程度的子图结构。除了PHP外，还可以有PDP(患者-日期-患者)和PMP(患者-药物-患者)等，分别表示在同一天去看病的患者和使用同一药物的患者。在其它实施例中，异构图可以包含更多类型的节点和元路径，本发明对此不做具体线定。

S23、将初始子图中的所有节点特征投影到相同的特征空间中，获取三种行为模式的异构子图。其中，投影模型为：

′

h_v＝W_a·h_v

′

式中，h_v是投影后患者节点v的特征表示、W_a是患者节点的参数权重矩阵、h_v是投影前患者节点v的特征表示。

具体的，异构图中的节点和边具有不同的类型，不同类型的节点属性具有不同维度的特征向量，即使节点恰好是相同的维度，它们也可能属于不同的特征空间。因此，在本实施例中将异构节点特征投影到相同的特征空间中。

具体的，通过对元路径实例(即，异构子图中目标患者节点和邻居患者节点之间的路径)进行编码来学习嵌入在目标节点、基于元路径的邻居节点以及它们之间的上下文中的结构和语义信息。

在上述实施例的基础上，本发明的一个可选地实施例中，步骤S3具体包括步骤S31至步骤S32。

S31、根据各种行为模式的异构子图，获取各个患者节点的各种行为模式下的元路径实例集合。

S32、通过关系旋转编码器分别将元路径实例集合中的元路径实例编码成向量表示，得到患者节点的邻域，以获取各个患者节点的各种行为模式下的初始邻域集合。其中，关系旋转编码器为：

式中，h_M(v,u)为行为模式M下目标患者节点v到邻居患者节点u的元路径实例的向量表示、f_θ为编码函数、h′_v为目标患者节点v投影后的特征表示、h′_u为邻居患者节点u投影后的特征表示、h′_g为中间节点g投影后的特征表示、t^M(v,u)为行为模式M下目标患者节点v和邻居患者节点u的中间节点集合。

具体的，使用关系旋转编码器将子图中的每个患者节点的元路径实例都转换成向量。关系旋转编码器是RotatE提出用于知识图嵌入，是一种基于复杂空间中关系旋转的元路径实例编码器。f_θ为编码函数，关系旋转编码器具体可表示为：

i＝0,,1,2,3,…,n

式中，h_M(v,u)为行为模式M下目标患者节点v到邻居患者节点u的元路径实例的向量表示(即：目标患者节点v的邻域)、元路径实例P(v,u)＝(t₀,t₁,…,t_n)、t₀＝u、t_n＝v、o_n为目标患者节点V的中间向量、n为元路径实例中节点的数量、

为第t_i个节点投影后的向量表示、o_i-1为第t_i-1个节点的中间向量、⊙为维度相同的矩阵点乘、r_i为第t_i个节点和第t_i-1个节点之间的关系。

在将元路径实例编码成向量表示后，对于一个目标患者节点v，把基于目标节点v的一条元路径实例看成是目标节点v的邻域v′。

本发明实施例根据邻域相似性度量来计算目标患者节点的邻域相似性。使用单层MLP作为节点预测器，并将目标节点与邻域的预测结果分数用于相似性度量。

在上述实施例的基础上，本发明的一个可选地实施例中，步骤S4具体包括步骤S41至步骤S42。

S41、根据初始邻域集合，通过邻域相似性度量分别计算患者节点的各个邻域的相似性。其中，邻域相似性度量模型为：

S(v,v′)＝||σ(MLP(h_vv′))||

式中，S(v,v′)为患者节点v的邻域v′的相似性、σ为激活函数、MLP为单层感知机、h_vv′为邻域v′的向量表示。

S42、根据患者节点的各个邻域的相似性，通过自适应滤波阈值对邻域进行选择，获取各个患者节点的各种行为模式下的最终邻域集合。其中，自适应滤波阈值f(t_r,a_r)^(e)为：

式中，G(S_r)^(e-1)为行为模式r下第e-l个周期中的平均相似性得分、G(S_r)^(e)为行为模式r下第e个周期中的平均相似性得分、V_train为患者节点的数量、S_r(v,v′)^(e)为行为模式r下患者节点v的邻域v′在第e个周期中的相似性。

具体的，基于强化学习的相似性感知邻域选择器执行自适应滤波以自动选择最佳数量的相似邻域，从而避免了数据注释的高成本。在本实施例中，采样与自适应滤波阈值一起使用以在每个关系下选择相似的邻居，并且在GNN训练期间使用强化学习(RL)算法来识别最优阈值。

具体地说，在训练阶段，对于元路径下的当前批次中的目标患者节点v，首先使用邻域相似性度量模型计算一组相似性度量得分。然后，根据相似性度量得分对其邻域进行降序排序，保留当前批次中相似度最高的部分邻域，其余邻域舍弃。在当前批处理中丢弃的其他邻域，不会参与聚合过程。

为了优化邻居(邻域)选择的计算效率，本发明实施例使用强化学习(RL)框架来寻找最佳阈值t_r。给定初始阈值t_r，将a_r定义为邻域选择器选择增加或减少 t_r的一个固定小值a_r∈[0,1]。最优t_r期望可以在关系r下找到目标节点的最相似邻域。周期e在关系r下的平均相似性得分如：

然后，根据两个连续批次之间的平均相似性得分差来设计奖励机制。将周期e的奖励定义如：

注意，当周期e的新选择的邻域的平均距离小于前一个周期时，奖励为正；否则，奖励为负。

本发明实施例不需要搜索的贪婪策略，并使用即时奖励来更新行动。

具体的，在选择最佳邻域后采用局部聚合，使用注意力机制对基于目标节点v的元路径实例M(v,u)(即：邻域集合)进行加权求。

在上述实施例的基础上，本发明的一个可选地实施例中，第一个注意力机制为：

式中，

为行为模式M下患者节点v的嵌入表示、T为独立的注意力机制的数量、σ为激活函数、u为邻居患者节点、

为行为模式M下目标患者节点v的邻居患者节点集合、

为行为模式M下邻居患者节点u相对于目标患者节点v的权重、h_M(v,u)为行为模式M下目标患者节点v到邻居患者节点u的元路径实例的向量表示、

是行为模式M的参数化注意力向量、h′_v为目标患者节点v投影后的特征表示、h_M(v,k)为行为模式M下目标患者节点v到邻居患者节点k的元路径实例的向量表示。

具体的，通过多头注意力机制能够稳定学习过程，在本实施例中，执行T个独立的注意力机制，然后拼接它们的输出，以减少异质图带来的高方差。

具体的，在局部聚合层聚合每个行为模式内的节点的信息(即：邻域集合)之后，使用全局聚合层组合目标患者节点的不同行为模式的嵌入表示(即不同元路径的语义信息)。其中，不同行为模式在医疗异构图的重要性不同。因此，本发明实施例先计算各个行为模式的重要性，然后根据重要性使用注意力机制将不同的行为模式进行聚合

在上述实施例的基础上，本发明的一个可选地实施例中，各种行为模式的重要性的计算模型为：

式中，

为第M_i个行为模式的重要性、

为行为模式M_i的权重、P_a是行为模式的数量、I_M为行为模式M的权重、g_a为患者节点的参数化注意向量、T为转置、V_a为患者节点的集合、

为行为模式M_i下患者节点v的嵌入表示、Q_a和l_a为可学习参数。

在上述实施例的基础上，本发明的一个可选地实施例中，第二个注意力机制的模型为：

式中，

是目标患者节点v的最终嵌入表示、P_a为行为模式的集合、α_M是行为模式M的重要性、

为行为模式M下患者节点v的嵌入表示。

具体的，当计算出每个行为模式M_i∈P_a的重要性

我们就可以使用这个注意力系数对目标节点v的不同行为模式下的嵌入向量进行加权求和获得最终嵌入向量。

最后，使用带有非线性函数的附加线性变换将节点嵌入投影到具有所需输出维度的向量空间。附加线性变换具体为：

式中，h_v是目标患者节点的输出特征向量和

仅仅是维度上不同，σ(·)是激活函数，W_k是权重矩阵。

在本实施例中，通过多层感知机对最终嵌入进行分类，在其它实施例中，可以通过其它现有的分类模型对最终嵌入进行分类，从而判断患者节点是否为医保欺诈患者。

传统的医保欺诈检测方法往往只关注特征属性，忽略了医疗保险过程中丰富的行为属性。本发明实施例，根据真实医保数据构建异构图，通过异构图中的实体之间的交互关系来体现这些行为属性。然后，通过图神经网络对节点进行分类，解决判断患者是否为欺诈患者的问题。图神经网络属于半监督学习，因此只需要少量的异常样本，能够很好的适用于只拥有极少量欺诈记录的医保数据。

实施例二、

异构图构建模块1，用于获取医疗数据，并根据医疗数据构建医疗异构图。其中，医疗异构图包括患者节点。

采样模块2，用于获取患者节点的各种行为模式的元路径，并根据元路径对医疗异构图进行采样，获取各种行为模式的异构子图。

初始邻域获取模块3，用于根据各种行为模式的异构子图，通过关系旋转编码器获取各个患者节点的各种行为模式下的初始邻域集合。

最终邻域获取模块4，用于根据初始邻域集合分别计算各个邻域的相似性，并通过自适应滤波阈值进行筛选，获取各个患者节点的各种行为模式下的最终邻域集合。

第一融合模块5，用于通过第一个注意力机制分别融合各个患者节点在各种行为模式下的最终邻域集合，获取各个患者节点的各个为模式下的嵌入表示。

重要性获取模块6，用于根据各个患者节点的各个为模式下的嵌入表示，获取各种行为模式的重要性。

第二融合模块7，用于根据各种行为模式的重要性，通过第二个注意力机制融合各个患者节点的各种行为模式下的嵌入表示，获取各个患者节点的最终嵌入表示。

判断模块8，用于对各个患者节点的最终嵌入表示进行分类，以判断各个患者节点是否为医保欺诈患者。

在上述实施例的基础上，本发明的一个可选地实施例中，异构图构建模块1具体包括：

就诊记录提取单元，用于获取医疗数据，并根据医疗数据提取就诊记录。

异构图构建单元，用于根据就诊记录，以患者、医院科室、日期和药物为实体，构建医疗异构图。其中，医院和科室为一个整体，不同医院的同名科室作为不同的实体。日期实体细化到天。

在上述实施例的基础上，本发明的一个可选地实施例中，步采样模块2具体包括：

元路径获取单元，用于获取患者节点的三种行为模式的元路径。其中，三种行为模式的元路径包括“患者-医院科室-患者”、“患者-药物-患者”，以及“患者-日期-患者”。

采样单元，用于根据三种行为模式的元路径对医疗异构图进行采样，获取三种行为模式的初始子图。

投影单元，用于将初始子图中的所有节点特征投影到相同的特征空间中，获取三种行为模式的异构子图。其中，投影模型为h′_v＝W_a·h_v，式中，h′_v是投影后患者节点v的特征表示、W_a是患者节点的参数权重矩阵、h_v是投影前患者节点v的特征表示。

在上述实施例的基础上，本发明的一个可选地实施例中，初始邻域获取模块3具体包括：

元路径实例集合获取单元，用于根据各种行为模式的异构子图，获取各个患者节点的各种行为模式下的元路径实例集合。

初始邻域集合获取单元，用于通过关系旋转编码器分别将元路径实例集合中的元路径实例编码成向量表示，得到患者节点的邻域，以获取各个患者节点的各种行为模式下的初始邻域集合。其中，关系旋转编码器为：

在上述实施例的基础上，本发明的一个可选地实施例中，最终邻域获取模块4具体包括：

相似性计算单元，用于根据初始邻域集合，通过邻域相似性度量分别计算患者节点的各个邻域的相似性。其中，邻域相似性度量模型为：

S(v,v′)＝||σ(MLP(h_vv′))||

邻域筛选单元，用于根据患者节点的各个邻域的相似性，通过自适应滤波阈值对邻域进行选择，获取各个患者节点的各种行为模式下的最终邻域集合。其中，自适应滤波阈值f(t_r,a_r)^(e)为：

式中，

为行为模式M下目标患者节点v的邻居患者节点集合、

式中，

为第M_i个行为模式的重要性、

式中，

为行为模式M下患者节点v的嵌入表示。

实施例三、

本发明实施例提供了一种基于邻域相似度的医保欺诈识别设备，其包括处理器、存储器，以及存储在存储器内的计算机程序。计算机程序能够被处理器执行，以实现如实施例一任意一段所说的基于邻域相似度的医保欺诈识别方法。

实施例四、

本发明实施例提供了一种计算机可读存储介质。该计算机可读存储介质包括存储的计算机程序，其中，在计算机程序运行时控制计算机可读存储介质所在设备执行如实施例一任意一段所说的基于邻域相似度的医保欺诈识别方法。

在本发明实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-On ly Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

实施例中提及的“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换，以使这里描述的实施例能够以除了在这里图示或描述的那些内容以外的顺序实施。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于邻域相似度的医保欺诈识别方法，其特征在于，包含：

获取医疗数据，并根据所述医疗数据构建医疗异构图；其中，所述医疗异构图包括患者节点；

获取患者节点的各种行为模式的元路径，并根据所述元路径对所述医疗异构图进行采样，获取各种行为模式的异构子图；

根据所述各种行为模式的异构子图，通过关系旋转编码器获取各个患者节点的各种行为模式下的初始邻域集合；

根据所述初始邻域集合分别计算各个邻域的相似性，并通过自适应滤波阈值进行筛选，获取各个患者节点的各种行为模式下的最终邻域集合；

通过第一个注意力机制分别融合所述各个患者节点在各种行为模式下的最终邻域集合，获取各个患者节点的各个为模式下的嵌入表示；

根据所述各个患者节点的各个为模式下的嵌入表示，获取各种行为模式的重要性；

根据所述各种行为模式的重要性，通过第二个注意力机制融合所述各个患者节点的各种行为模式下的嵌入表示，获取各个患者节点的最终嵌入表示。

对所述各个患者节点的最终嵌入表示进行分类，以判断各个患者节点是否为医保欺诈患者。

2.根据权利要求1所述的基于邻域相似度的医保欺诈识别方法，其特征在于，根据所述各种行为模式的异构子图，通过关系旋转编码器获取各个患者节点的各种行为模式下的初始邻域集合，具体包括：

根据所述各种行为模式的异构子图，获取各个患者节点的各种行为模式下的元路径实例集合；

通过关系旋转编码器分别将所述元路径实例集合中的元路径实例编码成向量表示，得到患者节点的邻域，以获取各个患者节点的各种行为模式下的初始邻域集合；其中，关系旋转编码器为：

3.根据权利要求1所述的基于邻域相似度的医保欺诈识别方法，其特征在于，根据所述初始邻域集合分别计算各个邻域的相似性，并通过相似度感知邻域选择器进行筛选，获取各个患者节点的各种行为模式下的最终邻域集合，具体包括：

根据所述初始邻域集合，通过邻域相似性度量分别计算患者节点的各个邻域的相似性；其中，邻域相似性度量模型为：

S(v,v′)＝||σ(MLP(h_vv′))||

式中，S(v,v′)为患者节点v的邻域v′的相似性、σ为激活函数、MLP为单层感知机、h_vv′为邻域v′的向量表示；

根据所述患者节点的各个邻域的相似性，通过自适应滤波阈值对邻域进行选择，获取各个患者节点的各种行为模式下的最终邻域集合；其中，自适应滤波阈值f(t_r,a_r)^(e)为：

式中，G(S_r)^(e-l)为行为模式r下第e-l个周期中的平均相似性得分、G(S_r)^(e)为行为模式r下第e个周期中的平均相似性得分、V_train为患者节点的数量、S_r(v,v′)^(e)为行为模式r下患者节点v的邻域v′在第e个周期中的相似性。

4.根据权利要求1所述的基于邻域相似度的医保欺诈识别方法，其特征在于，所述第一个注意力机制为：

式中，

为行为模式M下目标患者节点v的邻居患者节点集合、

5.根据权利要求1所述的基于邻域相似度的医保欺诈识别方法，其特征在于，所述各种行为模式的重要性的计算模型为：

式中，

为第M_i个行为模式的重要性、

所述第二个注意力机制的模型为：

式中，

为行为模式M下患者节点v的嵌入表示。

6.根据权利要求1至5任意一项所述的基于邻域相似度的医保欺诈识别方法，其特征在于，获取医疗数据，并根据所述医疗数据构建医疗异构图；其中，所述医疗异构图包括患者节点，具体包括：

获取医疗数据，并根据所述医疗数据提取就诊记录；

根据所述就诊记录，以患者、医院科室、日期和药物为实体，构建所述医疗异构图；其中，医院和科室为一个整体，不同医院的同名科室作为不同的实体；日期实体细化到天。

7.根据权利要求1至5任意一项所述的基于邻域相似度的医保欺诈识别方法，其特征在于，获取患者节点的各种行为模式的元路径，并根据所述元路径对所述医疗异构图进行采样，获取各种行为模式的异构子图，具体包括：

获取患者节点的三种行为模式的元路径；其中，所述三种行为模式的元路径包括“患者-医院科室-患者”、“患者-药物-患者”，以及“患者-日期-患者”；

根据所述三种行为模式的元路径对所述医疗异构图进行采样，获取三种行为模式的初始子图；

将所述初始子图中的所有节点特征投影到相同的特征空间中，获取三种行为模式的异构子图；其中，投影模型为h′_v＝W_a·h_v，式中，h′_v是投影后患者节点v的特征表示、W_a是患者节点的参数权重矩阵、h_v是投影前患者节点v的特征表示。

8.一种基于邻域相似度的医保欺诈识别装置，其特征在于，

异构图构建模块，用于获取医疗数据，并根据所述医疗数据构建医疗异构图；其中，所述医疗异构图包括患者节点；

采样模块，用于获取患者节点的各种行为模式的元路径，并根据所述元路径对所述医疗异构图进行采样，获取各种行为模式的异构子图；

初始邻域获取模块，用于根据所述各种行为模式的异构子图，通过关系旋转编码器获取各个患者节点的各种行为模式下的初始邻域集合；

最终邻域获取模块，用于根据所述初始邻域集合分别计算各个邻域的相似性，并通过自适应滤波阈值进行筛选，获取各个患者节点的各种行为模式下的最终邻域集合；

第一融合模块，用于通过第一个注意力机制分别融合所述各个患者节点在各种行为模式下的最终邻域集合，获取各个患者节点的各个为模式下的嵌入表示；

重要性获取模块，用于根据所述各个患者节点的各个为模式下的嵌入表示，获取各种行为模式的重要性；

第二融合模块，用于根据所述各种行为模式的重要性，通过第二个注意力机制融合所述各个患者节点的各种行为模式下的嵌入表示，获取各个患者节点的最终嵌入表示。

判断模块，用于对所述各个患者节点的最终嵌入表示进行分类，以判断各个患者节点是否为医保欺诈患者。

9.一种基于邻域相似度的医保欺诈识别设备，其特征在于，包括处理器、存储器，以及存储在所述存储器内的计算机程序；所述计算机程序能够被所述处理器执行，以实现如权利要求1至7任意一项所述的基于邻域相似度的医保欺诈识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7任意一项所述的基于邻域相似度的医保欺诈识别方法。