CN112991079B

CN112991079B - 多卡共现就医欺诈行为检测方法、系统、云端及介质

Info

Publication number: CN112991079B
Application number: CN202110406526.XA
Authority: CN
Inventors: 任垣; 母美荣; 陈国润; 李垚; 马琳玲; 曾哲
Original assignee: Shanghai Ideal Information Industry Group Co Ltd
Current assignee: Shanghai Ideal Information Industry Group Co Ltd
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2023-12-19
Anticipated expiration: 2041-04-15
Also published as: CN112991079A

Abstract

本发明实施例涉及数据挖掘技术领域，公开了一种多卡共现就医欺诈行为检测方法、系统、云端及介质。该方法包括：根据待检测的总群体内的所有参保人员在医疗机构和药店的一级共现频次以及在医师和科室的二级共现频次构建多卡聚集知识图谱,在根据多卡聚集知识图谱以及采用社区检测算法划分的参保人群体内,寻找参保人中心节点,抽取每个参保人中心节点对应的一阶子图，根据一阶子图采用多视图双聚类算法比较参保人员在医师、就医时间、药品、诊疗项目以及检查化验项目上就医行为的相似性，并输出所有参保人中心节点分别对应的就医行为相似的卡群,然后验证位置,并生成分离标签。本发明实施例可提高多卡共现医保欺诈行为检测的准确性以及全面性。

Description

多卡共现就医欺诈行为检测方法、系统、云端及介质

技术领域

本发明涉及数据挖掘技术领域，特别涉及一种多卡共现就医欺诈行为检测方法、系统、云端及介质。

背景技术

随着我国进入全民医保时代，医疗保险覆盖范围不断扩大，受益人群不断增多。这给人们的就医带来方便，人们可以携卡就医，即时结算。但是，也有部分非法分子暗中进行医疗保险欺诈行为。医保欺诈的行为有很多种，多卡聚集就医欺诈行为是一种较为常见的骗保行为，通常表现为欺诈者非法使用多个他人的医保卡，通过多次倒卖药品非法套取医保基金。这种欺诈行为具有两个特点:一是这些由欺诈者占据的医保卡，多次在相近时间相同地点消费；二是欺诈者为方便倒卖药品，通常购买类似的药物。但骗保行为不限于药物方面，也包含门诊诊疗、检查化验、住院等可能存在疑点的行为。概括的说，多卡共现就医的筛查就是要筛查在相近时间、相同地点进行相似的可疑就医行为的人群。然而因为可能有医疗机构人员的参加，或者医保政策的公开性，使得这种行为通常和普通正常参保人群的就医行为类似，很难识别。但是，多卡聚集就医欺诈行为给医保基金带来的损失越来越巨大，针对多卡聚集就医欺诈行为的识别变得十分紧迫。而以往的共现就医筛查方式仅考虑了从医疗数据出发的时间、地点、药品上的相似程度，不可避免的会将部分存在规律性的正常就医人群(如部分慢性病患者)给筛查出来。并且近年来发生的如沈阳骗保案、安徽太和县骗保案等多个重大医疗保险诈骗案件中，药品可能只是诈骗手段的一种，更多的是虚假的治疗、检查化验项等方面存在造假。

发明内容

本发明实施例的目的在于提供一种多卡共现就医欺诈行为检测方法、系统、云端及介质，提高多卡共现医保欺诈行为检测的准确性以及全面性。

为解决上述技术问题，第一方面，本发明实施例提供了一种多卡共现就医欺诈行为检测方法，包括：

获取待检测的参保人总群体P；

统计所述总群体P内的所有参保人员在第一预设时间间隔范围内在医疗机构和药店的一级共现频次,根据所述一级共现频次生成参保人实体表以及参保人一级共现关系三元组表；

根据所述参保人实体表以及参保人一级共现关系三元组表建立多卡聚集知识图谱；

采用社区检测算法将所述总群体P划分为n个参保人群体；

分别统计所述n个参保人群体中每个参保人群体在第二预设时间间隔范围内在医师和科室的二级共现频次，根据所述二级共现频次生成参保人二级共现关系三元组表；

根据所述参保人二级共现关系三元组表更新所述多卡聚集知识图谱；

根据更新的所述多卡聚集知识图谱，采用社区检测算法再次将所述n个参保人群体中的每个参保人群体划分为m个参保人群体；m和n均为大于0的自然数；

寻找再次划分后的所有参保人群体中的每个参保人群体内的参保人中心节点；

抽取每个参保人中心节点对应的一阶子图，根据所述一阶子图采用多视图双聚类通用算法在基于自定义的卡群计算流程上比较参保人员在医师、就医时间、药品、诊疗项目以及检查化验项目上就医行为的相似性，并输出所有参保人中心节点分别对应的就医行为相似的卡群；

对每个卡群中各参保人员的医保消费位置和人员位置是否分离进行验证，并根据验证结果生成分离标签。

另外，所述根据所述一阶子图采用多视图双聚类算法比较参保人员在医师、就医时间、药品、诊疗项目以及检查化验项目上就医行为的相似性，包括：

根据所述一阶子图分别计算医师矩阵、时间矩阵、药品矩阵、诊疗项目矩阵、检查化验项目矩阵；

根据所述医师矩阵、时间矩阵、药品矩阵、诊疗项目矩阵、检查化验项目矩阵，采用多视图双聚类算法比较参保人员在医师、就医时间、药品、诊疗项目以及检查化验项目上就医行为的相似性。

另外，所述根据所述的多视图双聚类算法自定义了一套针对所有参保人中心节点分别对应的就医行为相似的卡群的计算流程，通过双聚类算法的多次迭代及双聚类矩阵更新，逐渐收敛获得相似卡群，包括：

建立双聚类矩阵集合(V，U),并初始化算法参数；

采用多视图双聚类算法对所述双聚类矩阵集合(V，U)进行迭代计算，得到包含lw个卡的卡群的集合φ；lw为卡群聚合数量；

确定所述集合φ是否为空集；

若所述集合φ为空集，则将所述lw的取值增加1；

确定lw的取值是否大于卡数阈值；若是，则输出卡群集合，若否，则返回采用多视图双聚类算法迭代计算集合φ的步骤；

若集合φ不为空，则确定集合φ的损失容错率是否小于或者等于容错率阈值；若是，则将集合φ中的卡群添加到卡群集合中；若否，则返回采用多视图双聚类算法迭代计算集合φ的步骤；

随机抽取集合φ中卡数为lw-1的小卡群，删除小卡群在(V、U)中对应的行，对双聚类矩阵进行更新；

返回重复执行双聚类计算及至更新双聚类矩阵集合(V，U)的步骤，直到(V,U)长度小于lw时,输出卡群集合。

另外，每个参保人群体内的参保人中心节点为采用pagerank中心性算法寻找到的参保人群体内的排名在前的预设比例的中心节点。

另外，在采用社区检测算法将所述总群体P划分为n个参保人群体中，剔除包含的参保人数量小于人数阈值的参保人群体，以得到所述n个参保人群体；和/或

在所述采用社区检测算法再次将所述n个参保人群体中的每个参保人群体划分为m个参保人群体中，剔除包含的参保人数量小于人数阈值的参保人群体，以得到所述m个参保人群体。

另外，所述社区检测算法为louvain社区检测算法。

另外，所述总群体P根据预置的异常标签筛选得到。

第二方面，本发明实施例提供了一种多卡共现就医欺诈行为检测系统，包括：

获取模块，用于获取待检测的参保人总群体P；

一级共现关系生成模块，用于统计所述总群体P内的所有参保人员在第一预设时间间隔范围内在医疗机构和药店的一级共现频次,根据所述一级共现频次生成参保人实体表以及参保人一级共现关系三元组表；

知识图谱构建模块，用于根据所述参保人实体表以及参保人一级共现关系三元组表建立多卡聚集知识图谱；

第一社区检测模块，用于采用社区检测算法将所述总群体P划分为n个参保人群体；

二级共现关系生成模块，用于分别统计所述n个参保人群体中每个参保人群体在第二预设时间间隔范围内在医师和科室的二级共现频次，根据所述二级共现频次生成参保人二级共现关系三元组表；

知识图谱更新模块，用于根据所述参保人二级共现关系三元组表更新所述多卡聚集知识图谱；

第二社区检测模块，用于根据更新的所述多卡聚集知识图谱，采用社区检测算法再次将所述n个参保人群体中的每个参保人群体划分为m个参保人群体；m和n均为大于0的自然数；

中心节点计算模块，用于寻找再次划分后的所有参保人群体中的每个参保人群体内的参保人中心节点；

卡群计算模块,用于抽取每个参保人中心节点对应的一阶子图,根据所述一阶子图采用多视图双聚类算法比较参保人员在医师、就医时间、药品、诊疗项目以及检查化验项目上就医行为的相似性，并输出所有参保人中心节点分别对应的就医行为相似的卡群；

位置验证模块，用于对每个卡群中各参保人员的医保消费位置和人员位置是否分离进行验证，并根据验证结果生成分离标签。

第三方面，本发明实施例还提供了一种云端，包括：存储器和处理器，存储器存储计算机程序，处理器运行所述计算机程序以实现如本发明任意实施例所述的多卡共现就医欺诈行为检测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的多卡共现就医欺诈行为检测方法

本发明实施例与现有技术相比，现有技术会直接对所有的参保人群体直接使用双聚类等通用算法进行卡群的筛查，计算代价过高，而本发明会根据待检测的参保人总群体P的参保人员在医疗机构和药店的一级共现频次以及在医师和科室的二级共现频次构建多卡聚集知识图谱，采用社区检测算法先将参保人总群体划分为n个参保人群体，再采用社区检测算法对n个参保人群体分别进行划分，并寻找二次划分后的所有参保人群体中的每个参保人群体的参保人中心节点，然后抽取每个参保人中心节点对应的一阶子图，会预先基于时间地点对于参保人的共现度进行初步的划分，这样划分出来的每个群体的体量必定有效的减少了，在后续使用双聚类等通用算法时也能够降低极大的计算代价，更快的收敛；之后再根据一阶子图采用多视图双聚类算法及自定义的卡群计算流程来比较参保人员在医师、就医时间、药品、诊疗项目以及检查化验项目上就医行为的相似性，并输出所有参保人中心节点分别对应的就医行为相似的卡群，而现有的技术仅会比较参保人员在药品上的相似度，本发明将参保人的相似度范围从药品扩充到了诊疗、治疗、检查化验等各方面的医疗项目，在结合近几年中国各省市内发生的多起医保欺诈案件及医保监管业务人员建议后扩展了相应的项目筛查。然后再对每个卡群中各参保人员的医保消费位置和人员位置是否分离进行验证，并根据验证结果生成分离标签，其中位置认证是现有技术里面不可能涉及到的一块，能够从另一个维度为医保欺诈行为的判定提供进一步的依据。本发明实施例不仅可提高医保欺诈行为检测的准确性，提升检测效率，而且可以从就医的医师、药品以及各种诊疗项目、检查化验项目等多方面检测就医行为相似性，并提供位置验证，从而更全面、准确地筛查就医欺诈行为。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，可以理解地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明实施例一提供的多卡共现就医欺诈行为检测方法的流程示意图；

图2是本发明实施例一提供的多卡共现就医欺诈行为检测方法的卡群计算的流程示意图；

图3是本发明实施例二提供的多卡共现就医欺诈行为检测系统的结构示意图；

图4是本发明实施例三提供的云端的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下将参照本发明实施例中的附图，通过实施方式清楚、完整地描述本发明的技术方案，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

发明人发现多张医保卡聚集形成团体欺诈的情形是医保基金欺诈的重灾区，也是医保监管的重点。而团体欺诈涉及的医保欺诈基金数额比零星的个体欺诈所涉及数额更大，且汇聚的卡群在欺诈行为上更具有时间、地点上可寻的周期模式，犯案行为上更有规律性(流窜作案)。因此以违规参保人作为筛查主线，通过限定时间、地点、行为等约束条件，来筛查出在同时同地有着同类嫌疑行为的参保人群体，并通过电信数据手段验证群体位置的一致性，采用数据挖掘手段逐渐聚焦每个群体所涉及的医师、医疗机构、药店，发现违规链，最终降低医保基金的无用流失。

图1是本发明实施例一提供的一种多卡共现就医欺诈行为检测方法的流程图。该方法可以由本发明实施例提供的一种多卡共现就医欺诈行为检测系统来执行，该系统可以采用软件和/或硬件的方式实现，并配置于后台。如图1所示，本实施例的多卡共现就医欺诈行为检测方法包括以下步骤：

步骤101：获取待检测的参保人总群体P。

其中，步骤101中可以根据用户自定义的规则获取待检测的参保人总群体P。比如，按照基础月度规则从全市所有参保人数据中筛查出总群体P，基础月度规则可由用户自行定义。为了降低参保人总群体P中不必要检测的参保人员数量，可选地，总群体P还可以根据预置的异常标签筛选得到，异常标签可以由相关机构提供，本实施例对于异常标签的内容以及数量均不作具体限制。

步骤102：统计总群体P内的所有参保人员在第一预设时间间隔范围内在医疗机构和药店的一级共现频次,根据一级共现频次生成参保人实体表以及参保人一级共现关系三元组表。

示例性的，第一预设时间间隔范围的时间上限T1可以为1天。参保人一级共现关系三元组表可以表示为(参保人1-[共现(共现次数)]-参保人2)，其中，实体为参保人，关系包括机构共现关系(参保人-参保人)，关系属性包括共现次数。参保人实体表可以记录参保人的参保信息，比如参保人姓名、身份证号、参保年限等，本实施例对于参保信息不做具体限制。

步骤103：根据参保人实体表以及参保人一级共现关系三元组表建立多卡聚集知识图谱。

示例性的，可以将参保人实体表及参保人一级共现关系三元组表导入Neo4j图数据库建立多卡聚集知识图谱。

步骤104：采用社区检测算法将总群体P划分为n个参保人群体。

示例性的，可以采用Louvain社区检测算法将总群体P划分为参保人群体G₁，…，G_n，从而通过比较聚类间的关系密度和聚类中的关系密度来寻找最优化分的参保人群体。

步骤105：分别统计n个参保人群体中每个参保人群体在第二预设时间间隔范围内在医师和科室的二级共现频次，根据二级共现频次生成参保人二级共现关系三元组表。

第二预设时间间隔范围的时间上限T2可以为1小时，可以统计在1小时内每个参保人群体在医师/科室的二级共现频次，根据二级共现频次生成对应的参保人二级共现关系三元组表，该二级共现关系三元组表中实体为参保人，新的关系包括医师共现关系(参保人-参保人)，关系属性包括医师共现次数。

可选地，在采用社区检测算法将总群体P划分为n个参保人群体中，剔除包含的参保人数量小于人数阈值的参保人群体，以得到n个参保人群体。

步骤106：根据参保人二级共现关系三元组表更新多卡聚集知识图谱。

具体地，可以将参保人二级共现关系三元组表导入Neo4j图数据库并更新多卡聚集知识图谱。

步骤107：根据更新的多卡聚集知识图谱，采用社区检测算法再次将n个参保人群体中的每个参保人群体划分为m个参保人群体。m和n均为大于0的自然数。

本实施例通过构建多卡聚集知识图谱，便于将参保人之间紧密的共现关系以图谱的形式直观形象地呈现出来，且通过形成这样大型的共现关系网络，从本来结构复杂的医保数据抽取出来了多卡聚集场景所关注的时间密集、地点密集等要素，就形成了一个针对多卡聚集专题的分析容器。此外，现阶段医保共现就医的实际嫌疑人标签数量偏少，难以引入深度学习的方式，而通过该方法筛查出的卡群在纳入实际监管业务后，经过专业人员审核后会逐渐产生更多可靠的样本数据，这样现阶段搭建好的多卡聚集知识图谱可为后续引入图神经网络等深度学习方式的重要基础，也是后续多卡聚集更智能化的一大基础。

具体地，可以再次采用Louvain社区检测算法将n个参保人群体中的每个参保人群体再度划分为m个参保人群体U_{1_1}，…，U_{m_n}，其中，n个参保人群体中的每个参保人群体再度划分出的参保人群体数量可以不同或者不同。

可选地，在采用社区检测算法再次将n个参保人群体中的每个参保人群体划分为m个参保人群体中，剔除包含的参保人数量小于人数阈值的参保人群体，以得到m个参保人群体。其中，人数阈值的具体取值可以根据经验设置。

步骤108：寻找再次划分后的所有参保人群体中的每个参保人群体内的参保人中心节点。

可选地，每个参保人群体内的参保人中心节点可以为采用pagerank中心性算法寻找到的参保人群体内的排名在前的预设比例的中心节点。具体地，可以针对步骤108中划分出的参保人群体U_{1_1}，…，U_{m_n}，采用PageRank中心性算法寻找每个参保人群体内的排名前10％的中心节点P_{1_1_1}，…，P_{t_n_m}，作为每个参保人群体内的参保人中心节点。t为一个参保人群体的参保人中心节点个数。中心性算法即通过衡量一个参保人节点和其他参保人节点共现的数量和质量来寻找关系紧密的参保人群体中的中心人物。

步骤109：抽取每个参保人中心节点对应的一阶子图，根据一阶子图采用多视图双聚类算法比较参保人员在医师、就医时间、药品、诊疗项目以及检查化验项目上就医行为的相似性，并输出所有参保人中心节点分别对应的就医行为相似的卡群。

可选地，根据一阶子图采用多视图双聚类算法比较参保人员在医师、就医时间、药品、诊疗项目以及检查化验项目上就医行为的相似性，包括：根据一阶子图分别计算医师矩阵、时间矩阵、药品矩阵、诊疗项目矩阵、检查化验项目矩阵；根据医师矩阵、时间矩阵、药品矩阵、诊疗项目矩阵、检查化验项目矩阵，采用多视图双聚类算法比较参保人员在医师、就医时间、药品、诊疗项目以及检查化验项目上就医行为的相似性。本实施例可以采用本领域技术人员熟知的通用多视图双聚类算法，此处不再赘述。

参保人中心节点的一阶子图即是直接与参保人在相同医师处共现过的参保人群体。医师矩阵、时间矩阵、药品矩阵、诊疗项目矩阵以及检查化验项目矩阵均为二维矩阵，矩阵的行比如为参保人信息，矩阵的列分别为与参保人相关的医师信息、就医时间、药品、诊疗项目以及检查化验项目等。此处生成的医师矩阵、时间矩阵等作为多视图双聚类算法的输入，参与步骤201至步骤210的迭代计算，每次迭代都会输出特定人数的集合。本实施例通过运用多视图双聚类算法在检测卡群行为相似度中，通过单次迭代筛查具有相似行为的卡组，然后利用该单次迭代筛查的结果再反复迭代汇总生成更大的卡群。

可选地，如图2所示，所述根据所述一阶子图采用多视图双聚类算法比较参保人员在医师、就医时间、药品、诊疗项目以及检查化验项目上就医行为的相似性，并输出所有参保人中心节点分别对应的就医行为相似的卡群,包括:

步骤201：建立双聚类矩阵集合(V，U),并初始化算法参数。

具体地，算法参数包括：lw卡群聚合数量，即某次聚类结果汇聚的医保卡数量，max_iter算法最大迭代次数，community卡群集合。在初始化算法参数时，可以将lw赋值为2，max_iter赋值为10000，community设置为空列表。

步骤202：采用多视图双聚类算法对双聚类矩阵集合(V，U)进行迭代计算，得到包含lw个卡的卡群的集合φ。

具体地，多视图双聚类算法可以采用本领域已知的算法，此处不在赘述。在进行迭代计算时，得到包含lw个卡的卡群的集合φ，当迭代次数超过max_iter时，算法未收敛，返回的集合φ为空集。

步骤203：确定集合φ是否为空集。若集合φ为空集，则执行步骤204。

步骤204：将lw的取值增加1。若集合φ不为空，则执行步骤206。

步骤205：确定lw的取值是否大于卡数阈值。若是，则输出卡群集合，若否，则返回执行步骤202。

卡数阈值比如为6，若lw大于6,则执行步骤210输出卡群集合，若lw小于或者等于6，则返回执行步骤202。

步骤206：确定集合φ的损失容错率是否小于或者等于容错率阈值。若是，则执行步骤207,若否，则返回执行步骤202。

其中，容错率阈值可以根据经验设置。

步骤207：将集合φ中的卡群添加到卡群集合中。

步骤208：随机抽取集合φ中卡数为lw-1的小卡群，删除小卡群在V、U中对应的行，即更新双聚类矩阵(V,U)。

步骤209：(V,U)长度是否小于lw，若是，则执行步骤210输出卡群集合，若否，则重复执行步骤202至步骤209，直到(V,U)长度小于lw时,输出卡群集合。

步骤210：输出卡群集合。

即汇总前述步骤中检测到的卡群并输出。

步骤201至步骤210为根据多视图双聚类算法自定义的一套针对所有参保人中心节点分别对应的就医行为相似的卡群的计算流程，通过双聚类算法的多次迭代及双聚类矩阵更新，逐渐收敛获得相似卡群。

步骤110：对每个卡群中各参保人员的医保消费位置和人员位置是否分离进行验证，并根据验证结果生成分离标签。

具体地，针对步骤210得到的卡群集合中的卡群，抽取各卡群的医保交易记录数据，得到参保人员的医保消费位置，同时根据电信数据解析得到参保人员在其进行医保消费时的实际位置。参保人员的医保消费位置，比如为使用医保卡取药的药店位置，将此时该参保人员的医保消费位置和实际位置进行比较，若位置相同，则认为该参保人员的医保消费位置和人员位置一致，否则认为该参保人员的医保消费位置和人员位置分离。当参保人员的医保消费位置和人员位置分离时，生成分离标签，从而为确定卡群是否实施医保欺诈行为提供依据。

本发明实施例根据待检测的参保人总群体P的参保人员在医疗机构和药店的一级共现频次以及在医师和科室的二级共现频次构建多卡聚集知识图谱，采用社区检测算法先将参保人总群体划分为n个参保人群体，再采用社区检测算法对n个参保人群体分别进行划分，并寻找二次划分后的所有参保人群体中的每个参保人群体的参保人中心节点，然后抽取每个参保人中心节点对应的一阶子图，根据一阶子图采用多视图双聚类算法比较参保人员在医师、就医时间、药品、诊疗项目以及检查化验项目上就医行为的相似性，并输出所有参保人中心节点分别对应的就医行为相似的卡群，然后再对每个卡群中各参保人员的医保消费位置和人员位置是否分离进行验证，并根据验证结果生成分离标签，从而为医保欺诈行为的判定提供进一步的依据。本发明实施例不仅可提高医保欺诈行为检测的准确性，而且可以从就医的医师、药品以及各种诊疗项目、检查化验项目等多方面检测就医行为相似性，从而更全面地筛查就医欺诈行为。本发明实施例中，通过构建多卡聚集知识图谱，能够实现更广范围的人群、更长的时间周期的大规模筛查，且建立日趋成熟的知识图谱与经过业务认定逐渐累加的标签也能为未来引入更快捷、更智慧的人工智能方法(图神经网络等)来进行更多监管盲点的有监督筛查提供扎实的基础。本发明实施例与现有技术相比，克服了仅关注药品上的相似性而与实际发生的医保欺诈行为的重点不符的情况，本发明实施例除了关注药品，还会聚焦门诊诊疗、检查化验、住院体检等更多情节严重的实际欺诈行为，并且使用电信数据赋能，对于筛查结果进行位置认证，以达到对于多卡共现就医群体进行更精准的定位以及提供更合理的风险评估。

图3是本发明实施例二提供的一种多卡共现就医欺诈行为检测系统的结构框图。该系统可配置于云端，用于执行上述任意实施例所提供的多卡共现就医欺诈行为检测方法。该系统300包括：

获取模块301，用于获取待检测的参保人总群体P；

一级共现关系生成模块302，用于统计所述总群体P内的所有参保人员在第一预设时间间隔范围内在医疗机构和药店的一级共现频次,根据所述一级共现频次生成参保人实体表以及参保人一级共现关系三元组表；

知识图谱构建模块303，用于根据所述参保人实体表以及参保人一级共现关系三元组表建立多卡聚集知识图谱；

第一社区检测模块304，用于采用社区检测算法将所述总群体P划分为n个参保人群体；

二级共现关系生成模块305，用于分别统计所述n个参保人群体中每个参保人群体在第二预设时间间隔范围内在医师和科室的二级共现频次，根据所述二级共现频次生成参保人二级共现关系三元组表；

知识图谱更新模块306，用于根据所述参保人二级共现关系三元组表更新所述多卡聚集知识图谱；

第二社区检测模块307，用于根据更新的所述多卡聚集知识图谱，采用社区检测算法再次将所述n个参保人群体中的每个参保人群体划分为m个参保人群体；m和n均为大于0的自然数；

中心节点计算模块308，用于寻找再次划分后的所有参保人群体中的每个参保人群体内的参保人中心节点；

卡群计算模块309,用于抽取每个参保人中心节点对应的一阶子图,根据所述一阶子图采用多视图双聚类算法比较参保人员在医师、就医时间、药品、诊疗项目以及检查化验项目上就医行为的相似性，并输出所有参保人中心节点分别对应的就医行为相似的卡群；

位置验证模块310，用于对每个卡群中各参保人员的医保消费位置和人员位置是否分离进行验证，并根据验证结果生成分离标签。

可选地，所述社区检测算法可以采用louvain社区检测算法。

可选地，所述总群体P根据预置的异常标签筛选得到。

可选地，卡群计算模块309包括：

矩阵计算子模块，用于根据所述一阶子图分别计算医师矩阵、时间矩阵、药品矩阵、诊疗项目矩阵、检查化验项目矩阵；

相似性计算子模块，用于根据所述医师矩阵、时间矩阵、药品矩阵、诊疗项目矩阵、检查化验项目矩阵，采用引入多视图双聚类通用算法的自定义计算流程来比较参保人员在医师、就医时间、药品、诊疗项目以及检查化验项目上就医行为的相似性。

可选地，相似性计算子模块包括：

矩阵构建子模块，用于建立双聚类矩阵集合(V，U),并初始化算法参数；

双聚类子模块，用于采用多视图双聚类算法对所述双聚类矩阵集合(V，U)进行迭代计算，得到包含lw个卡的卡群的集合φ；lw为卡群聚合数量；

空集判断子模块，用于确定所述集合φ是否为空集；

自增子模块，用于若所述集合φ为空集，则将所述lw的取值增加1；

卡数判断子模块，用于确定lw的取值是否大于卡数阈值；若是，则输出卡群集合，若否，则触发执行双聚类子模块；

容错率判断子模块，用于若集合φ不为空，则确定集合φ的损失容错率是否小于或者等于容错率阈值；若是，则将集合φ中的卡群添加到卡群集合中；若否，则触发执行双聚类子模块；

矩阵更新子模块，用于随机抽取集合φ中卡数为lw-1的小卡群，删除小卡群在(V、U)中对应的行，对双聚类矩阵进行更新；

循环控制子模块，用于重复执行双聚类子模块、空集判断子模块、自增子模块、卡数判断子模块、容错率判断子模块、矩阵更新子模块，直到(V,U)长度小于lw时,触发输出子模块，

输出子模块，用于输出卡群集合。

可选地，每个参保人群体内的参保人中心节点为采用pagerank中心性算法寻找到的参保人群体内的排名在前的预设比例的中心节点。

可选地，第一社区检测模块304用于剔除包含的参保人数量小于人数阈值的参保人群体，以得到所述n个参保人群体；和/或

第二社区检测模块307用于剔除包含的参保人数量小于人数阈值的参保人群体，以得到所述m个参保人群体。

本发明实施例的检测系统根据待检测的参保人总群体P的参保人员在医疗机构和药店的一级共现频次以及在医师和科室的二级共现频次构建多卡聚集知识图谱，采用社区检测算法先将参保人总群体划分为n个参保人群体，再采用社区检测算法对n个参保人群体分别进行划分，并寻找二次划分后的所有参保人群体中的每个参保人群体的参保人中心节点，然后抽取每个参保人中心节点对应的一阶子图，根据一阶子图采用多视图双聚类算法比较参保人员在医师、就医时间、药品、诊疗项目以及检查化验项目上就医行为的相似性，并输出所有参保人中心节点分别对应的就医行为相似的卡群，然后再对每个卡群中各参保人员的医保消费位置和人员位置是否分离进行验证，并根据验证结果生成分离标签，从而为医保欺诈行为的判定提供进一步的依据。本发明实施例不仅可提高医保欺诈行为检测的准确性，而且可以从就医的医师、药品以及各种诊疗项目、检查化验项目等多方面检测就医行为相似性，从而更全面地筛查就医欺诈行为。

图4为本发明实施例三提供的一种云端的结构示意图。如图4所示，该云端包括：存储器402、处理器401；

其中，所述存储器402存储有可被所述至少一个处理器401执行的指令，所述指令被所述至少一个处理器401执行以实现前述任意实施例所述的多卡共现就医欺诈行为检测方法。

该云端可以包括一个或多个处理器401以及存储器402，图4中以一个处理器401为例。处理器401、存储器402可以通过总线或者其他方式连接，图4中以通过总线连接为例。存储器402作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器401通过运行存储在存储器402中的非易失性软件程序、指令以及模块，从而执行云端的各种功能应用以及数据处理，即实现上述任一实施例所述的多卡共现就医欺诈行为检测方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

一个或者多个模块存储在存储器402中，当被一个或者多个处理器401执行时，执行上述任意方法实施方式中的多卡共现就医欺诈行为检测方法。

上述云端可执行本发明实施方式所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施方式中详尽描述的技术细节，可参见本发明实施方式所提供的方法。

本发明实施例的云端根据待检测的参保人总群体P的参保人员在医疗机构和药店的一级共现频次以及在医师和科室的二级共现频次构建多卡聚集知识图谱，采用社区检测算法先将参保人总群体划分为n个参保人群体，再采用社区检测算法对n个参保人群体分别进行划分，并寻找二次划分后的所有参保人群体中的每个参保人群体的参保人中心节点，然后抽取每个参保人中心节点对应的一阶子图，根据一阶子图采用多视图双聚类算法比较参保人员在医师、就医时间、药品、诊疗项目以及检查化验项目上就医行为的相似性，并输出所有参保人中心节点分别对应的就医行为相似的卡群，然后再对每个卡群中各参保人员的医保消费位置和人员位置是否分离进行验证，并根据验证结果生成分离标签，从而为医保欺诈行为的判定提供进一步的依据。本发明实施例不仅可提高医保欺诈行为检测的准确性，而且可以从就医的医师、药品以及各种诊疗项目、检查化验项目等多方面检测就医行为相似性，从而更全面地筛查就医欺诈行为。

本发明实施例四提供一种计算机可读存储介质，用于存储计算机可读程序，所述计算机可读程序用于供云端执行上述部分或全部的方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个云端(可以是单片机，芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种多卡共现就医欺诈行为检测方法，其特征在于，包括：

获取待检测的参保人总群体P；

采用社区检测算法将所述总群体P划分为n个参保人群体；

抽取每个参保人中心节点对应的一阶子图，根据所述一阶子图采用多视图双聚类算法比较参保人员在医师、就医时间、药品、诊疗项目以及检查化验项目上就医行为的相似性，并输出所有参保人中心节点分别对应的就医行为相似的卡群；

对每个卡群中各参保人员的医保消费位置和人员位置是否分离进行验证，并根据验证结果生成分离标签；

其中，所述社区检测算法为louvain社区检测算法；

其中，根据所述一阶子图采用多视图双聚类算法比较参保人员在医师、就医时间、药品、诊疗项目以及检查化验项目上就医行为的相似性，包括：

根据所述医师矩阵、时间矩阵、药品矩阵、诊疗项目矩阵、检查化验项目矩阵，采用多视图双聚类算法比较参保人员在医师、就医时间、药品、诊疗项目以及检查化验项目上就医行为的相似性；

其中，根据所述一阶子图采用多视图双聚类算法比较参保人员在医师、就医时间、药品、诊疗项目以及检查化验项目上就医行为的相似性，并输出所有参保人中心节点分别对应的就医行为相似的卡群,包括:

建立双聚类矩阵集合(V，U),并初始化算法参数；

确定所述集合φ是否为空集；

若所述集合φ为空集，则将所述lw的取值增加1；

2.根据权利要求1所述的方法，其特征在于，每个参保人群体内的参保人中心节点为采用pagerank中心性算法寻找到的参保人群体内的排名在前的预设比例的中心节点。

3.根据权利要求1所述的方法，其特征在于，在采用社区检测算法将所述总群体P划分为n个参保人群体中，剔除包含的参保人数量小于人数阈值的参保人群体，以得到所述n个参保人群体；和/或

4.根据权利要求1所述的方法，其特征在于，所述总群体P根据预置的异常标签筛选得到。

5.一种多卡共现就医欺诈行为检测系统，其特征在于，包括：

获取模块，用于获取待检测的参保人总群体P；

第一社区检测模块，用于采用如权利要求1所述的社区检测算法将所述总群体P划分为n个参保人群体；

卡群计算模块,用于抽取每个参保人中心节点对应的一阶子图,根据所述一阶子图采用如权利要求1所述的多视图双聚类算法比较参保人员在医师、就医时间、药品、诊疗项目以及检查化验项目上就医行为的相似性，并输出所有参保人中心节点分别对应的就医行为相似的卡群；

6.一种云端服务器，其特征在于，包括：存储器和处理器，存储器存储计算机程序，处理器运行所述计算机程序以实现如权利要求1至4中任一项所述的方法。

7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的方法。