CN110322356B

CN110322356B - 基于hin挖掘动态多模式的医保异常检测方法及系统

Info

Publication number: CN110322356B
Application number: CN201910324775.7A
Authority: CN
Inventors: 史玉良; 赵备; 张坤; 王新军
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2020-08-07
Anticipated expiration: 2039-04-22
Also published as: CN110322356A

Abstract

本公开提出了基于HIN挖掘动态多模式的医保异常检测方法及系统，获取历史医保记录实例数据；提取医保诈骗相关的强关联属性，构成医保特征数据集；构建医保异构信息网络；基于构建医保异构信息网络，获取异构信息网络及其元图；基于医保异构信息网络的元图，随机选择一初始节点，以关联节点和边的增量式添加，生成单层模式和复合模式；基于模式是NP>2的单层模式，对同一实例集合中的不同实例采用横向比较识别离群点，对同一实例的不同时间段的就医记录，采用纵向比较识别离群点，从而完成医保记录异常检测。将同一时间段内多个时间间隔出现过的医保记录中各节点的关联保留，即降低了异常识别的复杂度，又保证可更加全面完善地识别异常医保记录。

Description

基于HIN挖掘动态多模式的医保异常检测方法及系统

技术领域

本公开涉及医保信息处理技术领域，特别是涉及一种基于HIN挖掘动态多模式的医保异常检测方法及系统。

背景技术

随着医疗保险的发展，其覆盖范围越来越大，相关业务也越来越复杂，随之而来的医保欺诈问题也日趋严重，医保欺诈手段日趋隐蔽化、专业化和组织化，导致每年都有大量医保资金被骗取。同时，随着医保信息化的发展，在医保业务过程中积累了大量的医保相关数据，从中检测潜在异常数据是治理医保欺诈现象的重要手段。

发明人在研究中发现，离群点检测是医保异常检测的通用的方法，通过先验知识假定关注的模式和指标，基于固定的模式和指标通过离群点检测挖掘异常。

但随着医保制度的发展，医保欺诈行为复杂多变且具有隐蔽性，更为值得关注的是，新的欺诈模式正不断出现，针对固定模式的异常检测算法对新的欺诈模式缺乏免疫力，故基于固定模式发现欺诈行为的方法难以满足现在的需求，且考虑到医疗体制的发展，医保属性数据不断发生改变从而导致属性关联的变化，故需从整体医保数据和个体医保数据两个维度对异常数据进行检测，从而不断动态自适应优化异常检测模型。

发明内容

本说明书实施方式的目的是提供一种基于HIN挖掘动态多模式的医保异常检测方法，通过历史医保记录实例构建异构信息网络，并以增量节点生成多类型模式，并以横向和纵向比较识别离群点，实现动态多样化模式识别医保诈骗行为。

本说明书实施方式提供基于HIN挖掘动态多模式的医保异常检测方法，通过以下技术方案实现：

包括：

获取历史医保记录实例数据并对数据进行预处理；

对预处理后的数据，分析各类医保记录实例数据的特征属性与医保诈骗的关联性，从而提取医保诈骗相关的强关联属性，构成医保特征数据集；

基于历史医保记录实例数据、医保特征数据集，及业务场景中实例与特征的关联，构建医保异构信息网络，从而实现业务实例到逻辑关联的元图映射；

基于构建医保异构信息网络，获取异构信息网络及其元图；

基于医保异构信息网络的元图，随机选择一初始节点，以关联节点和边的增量式添加，生成单层模式和复合模式；

基于模式是NP>2的单层模式，对同一实例集合中的不同实例采用横向比较识别离群点，对同一实例的不同时间段的就医记录，采用纵向比较识别离群点，从而完成医保记录异常检测。

本说明书实施方式提供基于HIN挖掘动态多模式的医保异常检测系统，通过以下技术方案实现：

包括：

数据获取单元，被配置为：获取历史医保记录实例数据并对数据进行预处理；

医保特征数据集构建单元，被配置为：对预处理后的数据，分析各类医保记录实例数据的特征属性与医保诈骗的关联性，从而提取医保诈骗相关的强关联属性，构成医保特征数据集；

医保异构信息网络构建单元，被配置为：基于历史医保记录实例数据、医保特征数据集，及业务场景中实例与特征的关联，构建医保异构信息网络，从而实现业务实例到逻辑关联的元图映射；

模式生成单元，被配置为：基于构建医保异构信息网络，获取异构信息网络及其元图，基于医保异构信息网络的元图，随机选择一初始节点，以关联节点和边的增量式添加，生成单层模式和复合模式；

医保记录异常检测单元，被配置为：基于模式是NP>2的单层模式，对同一实例集合中的不同实例采用横向比较识别离群点，对同一实例的不同时间段的就医记录，采用纵向比较识别离群点，从而完成医保记录异常检测。

与现有技术相比，本公开的有益效果是：

本公开为克服上述医保欺诈检测模式的局限性，本本公开结合异构信息网络丰富的表达能力，将医保领域涉及到的实体及实体之间的复杂的关系建模，建立医保业务表征模型，发掘医保领域中所有可能的业务模式、相互关联的业务组合模式及相关的指标。此外，考虑到网络的动态性，从横向和纵向两个角度进行异常挖掘，横向比较以固定的时间间隔实现同类医保表征模式的对比，纵向比较基于所属医保模式实例的特有频繁程度动态调整时间间隔，再进行单实例指标计算和离群点检测，从而实现动态模式的医保异常数据挖掘。

本公开基于医保业务过程中积累了大量的医保相关数据，构建医保异构信息网络，并以搜索子图的方式挖掘各种模式，根据模式实例上的属性得到多项指标再进行离群点检测的方法，不用固定模式定义欺诈行为，采用全模式的方式挖掘异常数据；

本公开考虑到异构信息网络的动态性，即即使不考虑网络中节点本身的出生与消亡，节点之间的关系也就是网络中的边也会随着时间的变化而改变，同时改变的还有边上的属性，故从横向和纵向两个角度进行异常挖掘，将同一时间段内多个时间间隔出现过的医保记录中各节点的关联保留，即降低了异常识别的复杂度，又保证可更加全面完善地识别异常医保记录。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例的基于HIN挖掘动态多模式的医保异常检测方法总体流程图；

图2为本公开实施例的基于增量节点实现多模式挖掘的流程图；

图3为本公开实施例的基于实例集合采取横向和纵向比较动态识别离群点的过程；

图4(a)为本公开实施例的HIN的架构示意图；

图4(b)为本公开实施例的HIN的子图模式示意图；

图5(a)-图5(b)为本公开实施例的医保场景下的异构信息网络及其元图；

图6为本公开实施例的实例测试模式。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例子一

该实施例公开了基于HIN挖掘动态多模式的医保异常检测方法，参见附图1所示，步骤如下：

A.基于现有医保信息系统数据库，对社会医疗保险机构与参保人之间由提供服务和报销费用产生的历史医保记录实例进行收集及汇总，并对获取的数据进行数据预处理，包含数据清洗、数据补全、数据定义，并将预处理后的数据存储于医保异常检测数据库；

B.基于获取的历史医保记录实例，采用互信息方法计算历史医保记录实例的特征属性与医保诈骗的关联度，通过设定关联度阈值提取各类实例数据的特征属性与医保诈骗的强关联特征，构成医保特征数据集；

C.基于医保记录实例与特征数据集，基于业务场景中实例与特征的关联，构建医保异构信息网络，从而实现业务实例到逻辑关联的元图映射；

所述医保异构信息网络，基于筛选的关联特征与医保诈骗的关联度，通过关联即相链接的方式，将业务场景实例映射为医保异构信息网络；

所述元图映射，是指异构信息网络的有向图G＝(V,E)，带有对象类型映射函数τ：V→A以及链接类型映射函数

其中每个对象v∈V属于一个特定的对象类型τ(v)∈A，每个链接e∈E属于一个特定的关系

D.基于医保异构信息网络的元图，随机选择一初始节点，以关联节点和边的增量式添加，生成单层模式和复合模式，完成模式挖掘；

所述元图，由节点和边构成，节点是指异构信息网络中的节点v，边是指异构信息网络中的边e；

所述模式，是指基于异构信息网络的元图任意初始节点，通过不断添加节点和边构成模式；所述单层模式，是指不存在重复节点的模式；所述复合模式，是指存在重复节点的模式；

E.基于每一个生成模式，对同一实例集合中的不同实例采用横向比较，通过节点属性值度量的方式识别离群点，对同一实例的不同时间段的就医记录，采用纵向比较同样通过节点属性值度量的方式识别离群点；

F.基于横向比较和纵向比较获取的离群点作为医保异常检测结果，进行推送与验证，通过医保异常检测结果对比实例的实际医保诈骗，生成验证结果形成反馈数据；

G.针对反馈数据，优化医保异构信息网络结构，包含特征选取和节点连接状态，从而不断更新与完善异常检测模式。

参见附图2所示，所述步骤D中以关联节点和边的增量式添加，单层模式和复合模式的一般生成过程为：

D1.基于医保异构信息网络，随机选择一节点作为初始节点，从而形成初始的单一模式；

D2.基于当前模式的任一节点，设定约束条件为每次选择一条新的且一端已在已有模式中的边，将新的边与另一端的节点加入当前模式，从而形成一个新的模式；

D3.判断当前模式是否无满足D2的约束条件的可增加的节点，若否，则返回D2，将剩余节点依次尝试作为初始节点进行模式挖掘，若是，则转至D4；

D4.判断当前模式节点是否为覆盖整个异构信息网络元图的节点，若否，则返回D2，依次尝试当前模式的节点作为初始节点进行模式挖掘，若是，则转至D5；

D5.基于当前获取的单层模式，根据完整的异构信息网络进行关联重复的节点的添加，从而形成复合模式；

D6.将当前获取的复合模式进行拆分，分解为多单层模式的组合作为一个模式，如图6所示是一个无规则的复合模式，其中节点P出现了3次，节点D、H出现了2次，节点U出现了1次，从左侧开始沿图中虚线可以将该模式划分为3个单层模式，具体地，拆分复合模式时从一侧开始，保证每次去除的单层模式包含节点的数量最多；

D7.判断当前模式是否为完整的异构信息网络的类型映射，即当前的复合模式已覆盖异构信息网络所有节点和边，若否，则返回D5，若是，则转至D8；

D8.输出已挖掘的所有模式作为异常检测模式，并将异常检测模式作为步骤E的模式集合。

参见附图3所示，所述步骤E中基于实例集合采取横向和纵向比较动态识别离群点的一般生成过程为：

E1.基于某一医保异构信息网络及其对应的模式，基于医保记录的就医时间数据统计均值，设置最小时间间隔t天，将位于同一时间段内的边的连接情况保留至第t天，然后用第t天的异构信息网络表示该时间段的异构信息网络；

E2.基于医保记录的采集数据，特征属性可以分为4类，每一类属性都涵盖上级属性的性质和操作，如表1所示

表1特征属性定义

除标称属性外，其他类型属性各自可得其指标，故若模式P中共有a个标称属性，b个其他类型的属性，则计P有b+1个单一的指标；

E3.基于横向比较获取每个实例集合，即在同一时间段同一模式不同实例集合；

E31.横向比较异常检测定义，设总时间跨度为T_S，则每个模式P需要经过

次横向比较，

为当模式P中n个节点且只要有K个节点相同时，就判断为同一实例集合时节点组合的数量，由于不同的节点组合会产生不同的实例集合，故采用全组合的计算方式；

E32.划分实例集合

在第t时间段的横向比较时，针对模式P，获取该时间段相对应的实例

再从模式P中选取K个节点，划分实例集合

同一实例集合中不同实例在这K个节点上都有相同的属性值，将每个

看作一个整体，指标作为其参数；

E4.基于纵向比较获取每个实例集合，指同一医保记录的不同时间段的同一实例集合；

E41.随机选取同一模式横向比较时某一时间段划分的

根据其发生的频繁程度动态调整时间间隔t，公式如下：

T←argmax_{t}Q (3)

其中，调整t的过程可以看作是寻找频繁子图的过程，fx_t表示实例集合

在t时刻发生的次数，q为该时间段的频繁程度，整个时间序列划分后的频繁程度得分为Q，F为划分的时间段的个数，每次划分求合并时间跨度T；

E42.为使频繁程度相似的连续时刻划分为同一时间段，将每个时间间隔t当作单独的一个时间段，然后相邻时间段合并为一个新的时间段，合并操作会使得整体的频繁程度得分Q发生变化，相当于求最大Q的优化问题，此时，采用贪婪策略动态调整时间间隔，采用定理1和定理2保证每次合并相邻的两个时间段时，满足这两个时间段的q的均值最小，直到不存在相邻的两个时间段的q均值小于Q为止；

所述定理1，将两个频繁程度得分大于整体频繁程度的时间段进行合并会造成整体频繁程度减小：

所述定理2，将两个频繁程度得分小于等于整体频繁程度的时间段进行合并不会造成整体频繁程度减小：

其中，α和β表示不同的合并时间跨度，合并时间跨度最终值即为获取的动态时间间隔t；

E43.基于动态时间间隔，最终纵向比较可获取m个实例集合，则进行

次纵向比较；

E5.计算各实例集合的指标值，为每个

计算指标，获取每个指标的权重ω，每个

包含b+1个参数，并以ω进行加权，公式如下

单层模式的指标获取实例集合后，按照公式(6)(7)直接计算获取，复合模式则首先分解为多个单层模式，设复合模式P_F由β_i个单层模式P_Si组成，计算公式如下，

其中，指标中的第一项

是实例集合中的实例出现的频次，其余项由对应属性的中值、均值、几何平均数计算得到，将这些数值作为平均数用μ表示，随后，按照公式(6)(7)计算获取各实例集合的指标值；

E6.基于密度聚类识别离群点，采取固定最少包含节点数minpts，然后优化判断半径r的策略，判断半径r的优化采用邻近聚类的思想，计算每个节点的第minpts近邻的距离，得到一个距离集合dist并按升序排序，由于核心点不断传播的机制而识别偏离较远的离群点。

所述属性S，给定一个异构信息网络G＝(V,E)，其元图为T_G＝(A,R)，属性S是T_G中节点或边上的标签，s是G中任意节点上的属性，属性类型映射函数ψ：s→S，对任意v∈V，s∈v，τ(v)∈A，S∈τ(v)，有ψ(s)∈S，num()表示异构信息网络G的节点v或边e上的属性数量，num(v)≥1，num(e)≥0；

所述模式P，挖掘获取的模式P＝(N,M)是一个有向无环图，N是P中包含的节点集合，M是P中包含的边的集合，对于任意节点x∈N，有x∈A，对于任意边y∈M，有y∈R；

所述模式实例

模式实例

是符合P的G中的任意子图，total()表示节点或边的数量，对任意v∈N，存在v_P∈V_P，满足v＝τ(V_P)，total(N)＝total(V_P)；

所述实例集合

P中节点数量是total(N)，实例集合

是相似实例组成的集合，同一集合内的实例之间至少有K个节点属性值相同，K≤total(N)；

所述指标

是用实例集合中节点和边的属性数理统计得到的统计数值；

所述指标权重ω，为指标

的权重，根据ω可计算不同实例集合之间的相似性。

实施例子二

该实施例子从具体的实际例子的角度公开了具体的基于HIN挖掘动态多模式的医保异常检测方法。本实施例以Neo4j图数据库来构建异构信息网络，由于中国的医院按照医院级别进行划分，不同级别的医院之间接收的病人以及提供的医疗服务不同，从而在指标上缺乏可比性，故仅采用的医保记录样本数据集来源于中国某城市2017年第一季度的同一级别医院的医保记录，共计194112条医保记录。

包括如下：

基于现有医保信息系统数据库，对历史医保记录实例进行收集及汇总，并对获取的数据进行数据预处理，包含数据清洗、数据补全、数据定义和存储；

表2医保记录实例收集数据

基于获取的历史医保记录实例，采用关键因素相关性分析各类实例数据的特征属性与医保诈骗的关联性，从而提取医保诈骗相关的强关联属性，构成医保特征数据集；

表3医保诈骗部分筛选特征示例

基于医保记录实例与特征数据集，基于业务场景中实例与特征的关联，构建医保异构信息网络，从而实现业务实例到逻辑关联的元图映射，本专利所用HIN不仅有多种节点和边，而且每个节点都有多个属性，具体结构参见图4(a)-图4(b)，其中，不同颜色代表不同类型的节点，蓝色(单位)，绿色(患者)，黄色(医院)，红色(疾病)，边的不同颜色也代表不同的类型，蓝色(归属于)，黄色(治疗完成)，红色(治疗中)，边属性示例如表3所示；

表4异构信息网络(Heterogeneous Information Network，HIN)的边属性示例

其中，边没有标称属性，因为HIN中每一条边都是独一无二的，边可以有多个其他类型的属性用来计算指标，例如“治疗中”上的金额属性，在HIN中的每一“治疗中”边都记录了某病人患某疾病的花费，实验中“治疗完成”和“治疗中”上的时间属性并没有如年龄NL这样的类型，属性类别为3的指标是用来确定时间段，当治疗完成.时间<＝治疗中.时间<治疗完成.时间+治疗完成.日期时，从而可获取病人患某种疾病时在某医院的具体费用。

基于构建医保异构信息网络，获取异构信息网络及其元图，如图5(a)-图5(b)所示，为本专利研究的医保场景下的异构信息网络及其元图；

基于医保异构信息网络的元图，随机选择一初始节点，以关联节点和边的增量式添加，生成单层模式和复合模式，如图6所示，为本次实施例测试的模式是N_P>2的单层模式；

基于模式是N_P>2的单层模式，对同一实例集合中的不同实例采用横向比较识别离群点，对同一实例的不同时间段的就医记录，采用纵向比较识别离群点，从而完成医保记录异常检测，首先测试t，我们把t分别设置为一周、半个月、一个月以及一季度，K根据模式中所有节点数N_P进行调整，测试参数K的影响，实验结果如表4所示：

表5基于模式对比的实验结果

当K＝N_P，t取不同时间间隔时不同单层模式能发现潜在异常的数量，可以看到，P₅发现异常的效果最好，随着时间间隔的增大，效果呈现先上升后下降的趋势，同时，时间间隔t的影响较大，由于K＝N_P，所以划分实例集合时相当于把每个实例单独当作一个实例集合，从而导致每次找离群点时数据过多，反而难以发现离群点，由于医保欺诈中欺诈现象往往不是特例，会有一些与之相似的欺诈行为，有的甚至是团伙欺诈，不把实例分为实例集合，往往就是形成一个小簇，从而无法被发现；当K＝N_P-1，t取不同时间间隔时不同单层模式能发现潜在异常的数量，可以看到每个模式能发现的潜在异常的数量级比K＝N_P时大的多，除此之外不同模式的效果变化幅度差异较大，P₂成为了效果最好的模式，P₅发现异常的效果虽然有所提升但是并没有其他模式那么明显，综上所述，K值对节点数量较多的模式的影响小于节点数量较少的模式。

分析具体实验数据及流程时发现，这些模式不管K值如何，随时间间隔的增大，可以分为两类，一类呈现先上升后下降的趋势，且上升的很快，下降的很慢；另一类呈现先下降后上升的趋势，且下降的很快，上升很慢，所以最好的时间间隔大致在一个月以内。

复合模式可以看作是单层模式的组合，把P₂和P₅组合得到新的模式P₆，P₆虽然是由P₂和P₅组合而来，但是P₆的实例数量不是简单地相加或相乘就能得到的，P₆中出现了两次病人节点，每个实例存在两种情况，第一种是这两个病人是同一个人，有着相同的GRBH，其在t时间段内有至少两次同样疾病的医保记录；第二种是这两个病人是不同的人，即GRBH不同，他们在这个时间段患过相同的疾病，且其中一人至少患了两次不同的疾病。设置t为一个月，K＝N_P-1，实验结果在表5中可以看到，发现欺诈的效果一般，复合模式由于对实例的限制，实例数量变得比较少，一些医保记录无法形成复合该模式的实例直接过滤了。

基于横向比较和纵向比较获取的离群点作为医保异常检测结果，并与其它方法进行对比，说明本专利所提方法的有效性，使用的真实数据集进行欺诈检测，将检测出来的医保记录标记为欺诈记录，用查全率Recall来衡量方法的效果。查全率recall＝检测出的标记的欺诈记录数量/标记的欺诈记录总量，越高越好，对比方法选取了3个模式，模式1FRAUDAR将病人与医院看作图中两类对象，每条记录看作为一个病人与医院之间的边；模式2M-zoom能处理多维数据，可以把整条记录当作多维数据输入；模式3D-cube也能处理多维数据，但是要求数据都是integer类型。将欺诈密度最大的单次治疗费用过高491例、短时间内(3-4天)特定医保单位的发票数量异常多843例、发票数量过多且金额小于通常的限额165例的对应记录作为欺诈记录，选取suspiciousness作为密度度量，实验结果见table 5。

表5对比实验实验结果

可以看到，本专利方法在发现常规模式下的欺诈记录的效果最好，首先是数据维度，FRAUDAR忽略了看病费用、时间、病人以及医院本身等多维度的数据，显然不适合医保欺诈场景，表现最差；然后是欺诈的方式，对比方法实际上都是在图中寻找密集程度异常高的块，文中提出的suspiciousness度量值标能够一定程度上避免正常应该出现的密集块的影响，在发现符合同步行为的欺诈记录上表现良好，但是医保欺诈中很多时候并不是同步行为，即并不是有组织地按照相同模式的合谋欺诈，故实验结果充分说明本专利的优越性。

针对反馈数据，更新医保异构信息网络结构，从而不断更新与完善异常检测模式。

实施例子三

包括：

应当注意，尽管在上文的详细描述中提及了设备的若干模块或子模块或单元，但是这种划分仅仅是示例性而非强制性的。实际上，根据本公开的实施例，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

该实施例子的具体技术实现内容参见实施例一中的详细描述过程，此处不再详细描述。

实施例子四

该实施例子公开了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现基于HIN挖掘动态多模式的医保异常检测方法的步骤。

该实施例子中关于基于HIN挖掘动态多模式的医保异常检测方法的详细步骤参见实施例一中的具体步骤，此处不再详细描述。

实施例子五

该实施例子公开了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现基于HIN挖掘动态多模式的医保异常检测方法步骤。

本公开所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

可以理解的是，在本说明书的描述中，参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例～第N实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。