CN110322356B - 基于hin挖掘动态多模式的医保异常检测方法及系统 - Google Patents
基于hin挖掘动态多模式的医保异常检测方法及系统 Download PDFInfo
- Publication number
- CN110322356B CN110322356B CN201910324775.7A CN201910324775A CN110322356B CN 110322356 B CN110322356 B CN 110322356B CN 201910324775 A CN201910324775 A CN 201910324775A CN 110322356 B CN110322356 B CN 110322356B
- Authority
- CN
- China
- Prior art keywords
- mode
- medical insurance
- information network
- heterogeneous information
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本公开提出了基于HIN挖掘动态多模式的医保异常检测方法及系统,获取历史医保记录实例数据;提取医保诈骗相关的强关联属性,构成医保特征数据集;构建医保异构信息网络;基于构建医保异构信息网络,获取异构信息网络及其元图;基于医保异构信息网络的元图,随机选择一初始节点,以关联节点和边的增量式添加,生成单层模式和复合模式;基于模式是NP>2的单层模式,对同一实例集合中的不同实例采用横向比较识别离群点,对同一实例的不同时间段的就医记录,采用纵向比较识别离群点,从而完成医保记录异常检测。将同一时间段内多个时间间隔出现过的医保记录中各节点的关联保留,即降低了异常识别的复杂度,又保证可更加全面完善地识别异常医保记录。
Description
技术领域
本公开涉及医保信息处理技术领域,特别是涉及一种基于HIN挖掘动态多模式的医保异常检测方法及系统。
背景技术
随着医疗保险的发展,其覆盖范围越来越大,相关业务也越来越复杂,随之而来的医保欺诈问题也日趋严重,医保欺诈手段日趋隐蔽化、专业化和组织化,导致每年都有大量医保资金被骗取。同时,随着医保信息化的发展,在医保业务过程中积累了大量的医保相关数据,从中检测潜在异常数据是治理医保欺诈现象的重要手段。
发明人在研究中发现,离群点检测是医保异常检测的通用的方法,通过先验知识假定关注的模式和指标,基于固定的模式和指标通过离群点检测挖掘异常。
但随着医保制度的发展,医保欺诈行为复杂多变且具有隐蔽性,更为值得关注的是,新的欺诈模式正不断出现,针对固定模式的异常检测算法对新的欺诈模式缺乏免疫力,故基于固定模式发现欺诈行为的方法难以满足现在的需求,且考虑到医疗体制的发展,医保属性数据不断发生改变从而导致属性关联的变化,故需从整体医保数据和个体医保数据两个维度对异常数据进行检测,从而不断动态自适应优化异常检测模型。
发明内容
本说明书实施方式的目的是提供一种基于HIN挖掘动态多模式的医保异常检测方法,通过历史医保记录实例构建异构信息网络,并以增量节点生成多类型模式,并以横向和纵向比较识别离群点,实现动态多样化模式识别医保诈骗行为。
本说明书实施方式提供基于HIN挖掘动态多模式的医保异常检测方法,通过以下技术方案实现:
包括:
获取历史医保记录实例数据并对数据进行预处理;
对预处理后的数据,分析各类医保记录实例数据的特征属性与医保诈骗的关联性,从而提取医保诈骗相关的强关联属性,构成医保特征数据集;
基于历史医保记录实例数据、医保特征数据集,及业务场景中实例与特征的关联,构建医保异构信息网络,从而实现业务实例到逻辑关联的元图映射;
基于构建医保异构信息网络,获取异构信息网络及其元图;
基于医保异构信息网络的元图,随机选择一初始节点,以关联节点和边的增量式添加,生成单层模式和复合模式;
基于模式是NP>2的单层模式,对同一实例集合中的不同实例采用横向比较识别离群点,对同一实例的不同时间段的就医记录,采用纵向比较识别离群点,从而完成医保记录异常检测。
本说明书实施方式提供基于HIN挖掘动态多模式的医保异常检测系统,通过以下技术方案实现:
包括:
数据获取单元,被配置为:获取历史医保记录实例数据并对数据进行预处理;
医保特征数据集构建单元,被配置为:对预处理后的数据,分析各类医保记录实例数据的特征属性与医保诈骗的关联性,从而提取医保诈骗相关的强关联属性,构成医保特征数据集;
医保异构信息网络构建单元,被配置为:基于历史医保记录实例数据、医保特征数据集,及业务场景中实例与特征的关联,构建医保异构信息网络,从而实现业务实例到逻辑关联的元图映射;
模式生成单元,被配置为:基于构建医保异构信息网络,获取异构信息网络及其元图,基于医保异构信息网络的元图,随机选择一初始节点,以关联节点和边的增量式添加,生成单层模式和复合模式;
医保记录异常检测单元,被配置为:基于模式是NP>2的单层模式,对同一实例集合中的不同实例采用横向比较识别离群点,对同一实例的不同时间段的就医记录,采用纵向比较识别离群点,从而完成医保记录异常检测。
与现有技术相比,本公开的有益效果是:
本公开为克服上述医保欺诈检测模式的局限性,本本公开结合异构信息网络丰富的表达能力,将医保领域涉及到的实体及实体之间的复杂的关系建模,建立医保业务表征模型,发掘医保领域中所有可能的业务模式、相互关联的业务组合模式及相关的指标。此外,考虑到网络的动态性,从横向和纵向两个角度进行异常挖掘,横向比较以固定的时间间隔实现同类医保表征模式的对比,纵向比较基于所属医保模式实例的特有频繁程度动态调整时间间隔,再进行单实例指标计算和离群点检测,从而实现动态模式的医保异常数据挖掘。
本公开基于医保业务过程中积累了大量的医保相关数据,构建医保异构信息网络,并以搜索子图的方式挖掘各种模式,根据模式实例上的属性得到多项指标再进行离群点检测的方法,不用固定模式定义欺诈行为,采用全模式的方式挖掘异常数据;
本公开考虑到异构信息网络的动态性,即即使不考虑网络中节点本身的出生与消亡,节点之间的关系也就是网络中的边也会随着时间的变化而改变,同时改变的还有边上的属性,故从横向和纵向两个角度进行异常挖掘,将同一时间段内多个时间间隔出现过的医保记录中各节点的关联保留,即降低了异常识别的复杂度,又保证可更加全面完善地识别异常医保记录。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例的基于HIN挖掘动态多模式的医保异常检测方法总体流程图;
图2为本公开实施例的基于增量节点实现多模式挖掘的流程图;
图3为本公开实施例的基于实例集合采取横向和纵向比较动态识别离群点的过程;
图4(a)为本公开实施例的HIN的架构示意图;
图4(b)为本公开实施例的HIN的子图模式示意图;
图5(a)-图5(b)为本公开实施例的医保场景下的异构信息网络及其元图;
图6为本公开实施例的实例测试模式。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例子一
该实施例公开了基于HIN挖掘动态多模式的医保异常检测方法,参见附图1所示,步骤如下:
A.基于现有医保信息系统数据库,对社会医疗保险机构与参保人之间由提供服务和报销费用产生的历史医保记录实例进行收集及汇总,并对获取的数据进行数据预处理,包含数据清洗、数据补全、数据定义,并将预处理后的数据存储于医保异常检测数据库;
B.基于获取的历史医保记录实例,采用互信息方法计算历史医保记录实例的特征属性与医保诈骗的关联度,通过设定关联度阈值提取各类实例数据的特征属性与医保诈骗的强关联特征,构成医保特征数据集;
C.基于医保记录实例与特征数据集,基于业务场景中实例与特征的关联,构建医保异构信息网络,从而实现业务实例到逻辑关联的元图映射;
所述医保异构信息网络,基于筛选的关联特征与医保诈骗的关联度,通过关联即相链接的方式,将业务场景实例映射为医保异构信息网络;
D.基于医保异构信息网络的元图,随机选择一初始节点,以关联节点和边的增量式添加,生成单层模式和复合模式,完成模式挖掘;
所述元图,由节点和边构成,节点是指异构信息网络中的节点v,边是指异构信息网络中的边e;
所述模式,是指基于异构信息网络的元图任意初始节点,通过不断添加节点和边构成模式;所述单层模式,是指不存在重复节点的模式;所述复合模式,是指存在重复节点的模式;
E.基于每一个生成模式,对同一实例集合中的不同实例采用横向比较,通过节点属性值度量的方式识别离群点,对同一实例的不同时间段的就医记录,采用纵向比较同样通过节点属性值度量的方式识别离群点;
F.基于横向比较和纵向比较获取的离群点作为医保异常检测结果,进行推送与验证,通过医保异常检测结果对比实例的实际医保诈骗,生成验证结果形成反馈数据;
G.针对反馈数据,优化医保异构信息网络结构,包含特征选取和节点连接状态,从而不断更新与完善异常检测模式。
参见附图2所示,所述步骤D中以关联节点和边的增量式添加,单层模式和复合模式的一般生成过程为:
D1.基于医保异构信息网络,随机选择一节点作为初始节点,从而形成初始的单一模式;
D2.基于当前模式的任一节点,设定约束条件为每次选择一条新的且一端已在已有模式中的边,将新的边与另一端的节点加入当前模式,从而形成一个新的模式;
D3.判断当前模式是否无满足D2的约束条件的可增加的节点,若否,则返回D2,将剩余节点依次尝试作为初始节点进行模式挖掘,若是,则转至D4;
D4.判断当前模式节点是否为覆盖整个异构信息网络元图的节点,若否,则返回D2,依次尝试当前模式的节点作为初始节点进行模式挖掘,若是,则转至D5;
D5.基于当前获取的单层模式,根据完整的异构信息网络进行关联重复的节点的添加,从而形成复合模式;
D6.将当前获取的复合模式进行拆分,分解为多单层模式的组合作为一个模式,如图6所示是一个无规则的复合模式,其中节点P出现了3次,节点D、H出现了2次,节点U出现了1次,从左侧开始沿图中虚线可以将该模式划分为3个单层模式,具体地,拆分复合模式时从一侧开始,保证每次去除的单层模式包含节点的数量最多;
D7.判断当前模式是否为完整的异构信息网络的类型映射,即当前的复合模式已覆盖异构信息网络所有节点和边,若否,则返回D5,若是,则转至D8;
D8.输出已挖掘的所有模式作为异常检测模式,并将异常检测模式作为步骤E的模式集合。
参见附图3所示,所述步骤E中基于实例集合采取横向和纵向比较动态识别离群点的一般生成过程为:
E1.基于某一医保异构信息网络及其对应的模式,基于医保记录的就医时间数据统计均值,设置最小时间间隔t天,将位于同一时间段内的边的连接情况保留至第t天,然后用第t天的异构信息网络表示该时间段的异构信息网络;
E2.基于医保记录的采集数据,特征属性可以分为4类,每一类属性都涵盖上级属性的性质和操作,如表1所示
表1特征属性定义
除标称属性外,其他类型属性各自可得其指标,故若模式P中共有a个标称属性,b个其他类型的属性,则计P有b+1个单一的指标;
E3.基于横向比较获取每个实例集合,即在同一时间段同一模式不同实例集合;
E31.横向比较异常检测定义,设总时间跨度为TS,则每个模式P需要经过次横向比较,为当模式P中n个节点且只要有K个节点相同时,就判断为同一实例集合时节点组合的数量,由于不同的节点组合会产生不同的实例集合,故采用全组合的计算方式;
E32.划分实例集合在第t时间段的横向比较时,针对模式P,获取该时间段相对应的实例再从模式P中选取K个节点,划分实例集合同一实例集合中不同实例在这K个节点上都有相同的属性值,将每个看作一个整体,指标作为其参数;
E4.基于纵向比较获取每个实例集合,指同一医保记录的不同时间段的同一实例集合;
T←argmax{t}Q (3)
E42.为使频繁程度相似的连续时刻划分为同一时间段,将每个时间间隔t当作单独的一个时间段,然后相邻时间段合并为一个新的时间段,合并操作会使得整体的频繁程度得分Q发生变化,相当于求最大Q的优化问题,此时,采用贪婪策略动态调整时间间隔,采用定理1和定理2保证每次合并相邻的两个时间段时,满足这两个时间段的q的均值最小,直到不存在相邻的两个时间段的q均值小于Q为止;
所述定理1,将两个频繁程度得分大于整体频繁程度的时间段进行合并会造成整体频繁程度减小:
所述定理2,将两个频繁程度得分小于等于整体频繁程度的时间段进行合并不会造成整体频繁程度减小:
其中,α和β表示不同的合并时间跨度,合并时间跨度最终值即为获取的动态时间间隔t;
单层模式的指标获取实例集合后,按照公式(6)(7)直接计算获取,复合模式则首先分解为多个单层模式,设复合模式PF由βi个单层模式PSi组成,计算公式如下,
E6.基于密度聚类识别离群点,采取固定最少包含节点数minpts,然后优化判断半径r的策略,判断半径r的优化采用邻近聚类的思想,计算每个节点的第minpts近邻的距离,得到一个距离集合dist并按升序排序,由于核心点不断传播的机制而识别偏离较远的离群点。
所述属性S,给定一个异构信息网络G=(V,E),其元图为TG=(A,R),属性S是TG中节点或边上的标签,s是G中任意节点上的属性,属性类型映射函数ψ:s→S,对任意v∈V,s∈v,τ(v)∈A,S∈τ(v),有ψ(s)∈S,num()表示异构信息网络G的节点v或边e上的属性数量,num(v)≥1,num(e)≥0;
所述模式P,挖掘获取的模式P=(N,M)是一个有向无环图,N是P中包含的节点集合,M是P中包含的边的集合,对于任意节点x∈N,有x∈A,对于任意边y∈M,有y∈R;
实施例子二
该实施例子从具体的实际例子的角度公开了具体的基于HIN挖掘动态多模式的医保异常检测方法。本实施例以Neo4j图数据库来构建异构信息网络,由于中国的医院按照医院级别进行划分,不同级别的医院之间接收的病人以及提供的医疗服务不同,从而在指标上缺乏可比性,故仅采用的医保记录样本数据集来源于中国某城市2017年第一季度的同一级别医院的医保记录,共计194112条医保记录。
包括如下:
基于现有医保信息系统数据库,对历史医保记录实例进行收集及汇总,并对获取的数据进行数据预处理,包含数据清洗、数据补全、数据定义和存储;
表2医保记录实例收集数据
基于获取的历史医保记录实例,采用关键因素相关性分析各类实例数据的特征属性与医保诈骗的关联性,从而提取医保诈骗相关的强关联属性,构成医保特征数据集;
表3医保诈骗部分筛选特征示例
基于医保记录实例与特征数据集,基于业务场景中实例与特征的关联,构建医保异构信息网络,从而实现业务实例到逻辑关联的元图映射,本专利所用HIN不仅有多种节点和边,而且每个节点都有多个属性,具体结构参见图4(a)-图4(b),其中,不同颜色代表不同类型的节点,蓝色(单位),绿色(患者),黄色(医院),红色(疾病),边的不同颜色也代表不同的类型,蓝色(归属于),黄色(治疗完成),红色(治疗中),边属性示例如表3所示;
表4异构信息网络(Heterogeneous Information Network,HIN)的边属性示例
其中,边没有标称属性,因为HIN中每一条边都是独一无二的,边可以有多个其他类型的属性用来计算指标,例如“治疗中”上的金额属性,在HIN中的每一“治疗中”边都记录了某病人患某疾病的花费,实验中“治疗完成”和“治疗中”上的时间属性并没有如年龄NL这样的类型,属性类别为3的指标是用来确定时间段,当治疗完成.时间<=治疗中.时间<治疗完成.时间+治疗完成.日期时,从而可获取病人患某种疾病时在某医院的具体费用。
基于构建医保异构信息网络,获取异构信息网络及其元图,如图5(a)-图5(b)所示,为本专利研究的医保场景下的异构信息网络及其元图;
基于医保异构信息网络的元图,随机选择一初始节点,以关联节点和边的增量式添加,生成单层模式和复合模式,如图6所示,为本次实施例测试的模式是NP>2的单层模式;
基于模式是NP>2的单层模式,对同一实例集合中的不同实例采用横向比较识别离群点,对同一实例的不同时间段的就医记录,采用纵向比较识别离群点,从而完成医保记录异常检测,首先测试t,我们把t分别设置为一周、半个月、一个月以及一季度,K根据模式中所有节点数NP进行调整,测试参数K的影响,实验结果如表4所示:
表5基于模式对比的实验结果
当K=NP,t取不同时间间隔时不同单层模式能发现潜在异常的数量,可以看到,P5发现异常的效果最好,随着时间间隔的增大,效果呈现先上升后下降的趋势,同时,时间间隔t的影响较大,由于K=NP,所以划分实例集合时相当于把每个实例单独当作一个实例集合,从而导致每次找离群点时数据过多,反而难以发现离群点,由于医保欺诈中欺诈现象往往不是特例,会有一些与之相似的欺诈行为,有的甚至是团伙欺诈,不把实例分为实例集合,往往就是形成一个小簇,从而无法被发现;当K=NP-1,t取不同时间间隔时不同单层模式能发现潜在异常的数量,可以看到每个模式能发现的潜在异常的数量级比K=NP时大的多,除此之外不同模式的效果变化幅度差异较大,P2成为了效果最好的模式,P5发现异常的效果虽然有所提升但是并没有其他模式那么明显,综上所述,K值对节点数量较多的模式的影响小于节点数量较少的模式。
分析具体实验数据及流程时发现,这些模式不管K值如何,随时间间隔的增大,可以分为两类,一类呈现先上升后下降的趋势,且上升的很快,下降的很慢;另一类呈现先下降后上升的趋势,且下降的很快,上升很慢,所以最好的时间间隔大致在一个月以内。
复合模式可以看作是单层模式的组合,把P2和P5组合得到新的模式P6,P6虽然是由P2和P5组合而来,但是P6的实例数量不是简单地相加或相乘就能得到的,P6中出现了两次病人节点,每个实例存在两种情况,第一种是这两个病人是同一个人,有着相同的GRBH,其在t时间段内有至少两次同样疾病的医保记录;第二种是这两个病人是不同的人,即GRBH不同,他们在这个时间段患过相同的疾病,且其中一人至少患了两次不同的疾病。设置t为一个月,K=NP-1,实验结果在表5中可以看到,发现欺诈的效果一般,复合模式由于对实例的限制,实例数量变得比较少,一些医保记录无法形成复合该模式的实例直接过滤了。
基于横向比较和纵向比较获取的离群点作为医保异常检测结果,并与其它方法进行对比,说明本专利所提方法的有效性,使用的真实数据集进行欺诈检测,将检测出来的医保记录标记为欺诈记录,用查全率Recall来衡量方法的效果。查全率recall=检测出的标记的欺诈记录数量/标记的欺诈记录总量,越高越好,对比方法选取了3个模式,模式1FRAUDAR将病人与医院看作图中两类对象,每条记录看作为一个病人与医院之间的边;模式2M-zoom能处理多维数据,可以把整条记录当作多维数据输入;模式3D-cube也能处理多维数据,但是要求数据都是integer类型。将欺诈密度最大的单次治疗费用过高491例、短时间内(3-4天)特定医保单位的发票数量异常多843例、发票数量过多且金额小于通常的限额165例的对应记录作为欺诈记录,选取suspiciousness作为密度度量,实验结果见table 5。
表5对比实验实验结果
可以看到,本专利方法在发现常规模式下的欺诈记录的效果最好,首先是数据维度,FRAUDAR忽略了看病费用、时间、病人以及医院本身等多维度的数据,显然不适合医保欺诈场景,表现最差;然后是欺诈的方式,对比方法实际上都是在图中寻找密集程度异常高的块,文中提出的suspiciousness度量值标能够一定程度上避免正常应该出现的密集块的影响,在发现符合同步行为的欺诈记录上表现良好,但是医保欺诈中很多时候并不是同步行为,即并不是有组织地按照相同模式的合谋欺诈,故实验结果充分说明本专利的优越性。
针对反馈数据,更新医保异构信息网络结构,从而不断更新与完善异常检测模式。
实施例子三
本说明书实施方式提供基于HIN挖掘动态多模式的医保异常检测系统,通过以下技术方案实现:
包括:
数据获取单元,被配置为:获取历史医保记录实例数据并对数据进行预处理;
医保特征数据集构建单元,被配置为:对预处理后的数据,分析各类医保记录实例数据的特征属性与医保诈骗的关联性,从而提取医保诈骗相关的强关联属性,构成医保特征数据集;
医保异构信息网络构建单元,被配置为:基于历史医保记录实例数据、医保特征数据集,及业务场景中实例与特征的关联,构建医保异构信息网络,从而实现业务实例到逻辑关联的元图映射;
模式生成单元,被配置为:基于构建医保异构信息网络,获取异构信息网络及其元图,基于医保异构信息网络的元图,随机选择一初始节点,以关联节点和边的增量式添加,生成单层模式和复合模式;
医保记录异常检测单元,被配置为:基于模式是NP>2的单层模式,对同一实例集合中的不同实例采用横向比较识别离群点,对同一实例的不同时间段的就医记录,采用纵向比较识别离群点,从而完成医保记录异常检测。
应当注意,尽管在上文的详细描述中提及了设备的若干模块或子模块或单元,但是这种划分仅仅是示例性而非强制性的。实际上,根据本公开的实施例,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
该实施例子的具体技术实现内容参见实施例一中的详细描述过程,此处不再详细描述。
实施例子四
该实施例子公开了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现基于HIN挖掘动态多模式的医保异常检测方法的步骤。
该实施例子中关于基于HIN挖掘动态多模式的医保异常检测方法的详细步骤参见实施例一中的具体步骤,此处不再详细描述。
实施例子五
该实施例子公开了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现基于HIN挖掘动态多模式的医保异常检测方法步骤。
该实施例子中关于基于HIN挖掘动态多模式的医保异常检测方法的详细步骤参见实施例一中的具体步骤,此处不再详细描述。
本公开所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
可以理解的是,在本说明书的描述中,参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例~第N实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (7)
1.基于HIN挖掘动态多模式的医保异常检测方法,其特征是,包括:
获取历史医保记录实例数据并对数据进行预处理;
对预处理后的数据,分析各类医保记录实例数据的特征属性与医保诈骗的关联性,从而提取医保诈骗相关的强关联属性,构成医保特征数据集;
基于历史医保记录实例数据、医保特征数据集,及业务场景中实例与特征的关联,构建医保异构信息网络,从而实现业务实例到逻辑关联的元图映射;
基于构建医保异构信息网络,获取异构信息网络及其元图;
基于医保异构信息网络的元图,随机选择一初始节点,以关联节点和边的增量式添加,生成单层模式和复合模式;
基于每一个模式,对同一实例集合中的不同实例采用横向比较识别离群点,对同一实例的不同时间段的就医记录,采用纵向比较识别离群点,从而完成医保记录异常检测;
所述单层模式,是指不存在重复节点的模式;所述复合模式,是指存在重复节点的模式;
所述单层模式和复合模式的生成过程为:
D1.基于医保异构信息网络,随机选择一节点作为初始节点,从而形成初始的单层模式;
D2.基于当前模式的任一节点,设定约束条件为每次选择一条新的且一端已在已有模式中的边,将新的边与另一端的节点加入当前模式,从而形成一个新的模式;
D3.判断当前模式是否无满足D2的约束条件的可增加的节点,若否,则返回D2,将剩余节点依次尝试作为初始节点进行模式挖掘,若是,则转至D4;
D4.判断当前模式节点是否为覆盖整个异构信息网络元图的节点,若否,则返回D2,依次尝试将当前模式的节点作为初始节点进行模式挖掘,若是,则转至D5;
D5.基于当前获取的单层模式,根据完整的异构信息网络进行关联重复的节点的添加,从而形成复合模式;
D6.将当前获取的复合模式进行拆分,分解为多单层模式的组合作为一个模式;
D7.判断当前模式是否为完整的异构信息网络的类型映射,即当前的复合模式已覆盖异构信息网络所有节点和边,若否,则返回D5,若是,则转至D8;
D8.输出已挖掘的所有模式作为异常检测模式,并将异常检测模式作为模式集合;
基于实例集合采取横向和纵向比较识别离群点的生成过程为:
E1.基于某一医保异构信息网络及其对应的模式,基于医保记录的就医时间数据统计均值,设置最小时间间隔t天,将位于同一时间段内的边的连接情况保留至第t天,然后用第t天的异构信息网络表示该时间段的异构信息网络;
E2.基于医保记录的采集数据,将特征属性分为多类,每一类属性都涵盖上级属性的性质和操作;
E3.基于横向比较获取每个实例集合,即在同一时间段同一模式不同实例集合;
E4.基于纵向比较获取每个实例集合,即同一医保记录的不同时间段的同一实例集合;
E5.计算各实例集合的指标值,单层模式的指标值计算如下:
复合模式计算指标值时先分解为多个单层模式,设复合模式PF由βi个单层模式PSi组成,先进行如下计算,
在上述计算结果的基础上,再按照公式(6)(7)计算获取复合模式下各实例集合的指标值;
E6.基于密度聚类识别离群点,采取固定最少包含节点数minpts,然后优化判断半径r的策略,判断半径r的优化采用邻近聚类的思想,计算每个节点的第minpts近邻的距离,得到一个距离集合dist并按升序排序,由于核心点不断传播的机制而识别偏离较远的离群点。
2.如权利要求1所述的基于HIN挖掘动态多模式的医保异常检测方法,其特征是,采用互信息方法计算历史医保记录实例的特征属性与医保诈骗的关联度,通过设定关联度阈值提取各类实例数据的特征属性与医保诈骗的强关联特征,构成医保特征数据集。
3.如权利要求1所述的基于HIN挖掘动态多模式的医保异常检测方法,其特征是,所述构建医保异构信息网络具体为:基于筛选的关联特征与医保诈骗的关联度,通过关联即相链接的方式,将业务场景实例映射为医保异构信息网络。
5.如权利要求1所述的基于HIN挖掘动态多模式的医保异常检测方法,其特征是,通过医保异常检测结果对比实例的实际医保诈骗,生成验证结果形成反馈数据,针对反馈数据,优化医保异构信息网络结构,包含特征选取和节点连接状态,从而不断更新与完善异常检测模式。
6.基于HIN挖掘动态多模式的医保异常检测系统,其特征是,包括:
数据获取单元,被配置为:获取历史医保记录实例数据并对数据进行预处理;
医保特征数据集构建单元,被配置为:对预处理后的数据,分析各类医保记录实例数据的特征属性与医保诈骗的关联性,从而提取医保诈骗相关的强关联属性,构成医保特征数据集;
医保异构信息网络构建单元,被配置为:基于历史医保记录实例数据、医保特征数据集,及业务场景中实例与特征的关联,构建医保异构信息网络,从而实现业务实例到逻辑关联的元图映射;
模式生成单元,被配置为:基于构建医保异构信息网络,获取异构信息网络及其元图,基于医保异构信息网络的元图,随机选择一初始节点,以关联节点和边的增量式添加,生成单层模式和复合模式;
医保记录异常检测单元,被配置为:基于每一个模式,对同一实例集合中的不同实例采用横向比较识别离群点,对同一实例的不同时间段的就医记录,采用纵向比较识别离群点,从而完成医保记录异常检测;
所述单层模式,是指不存在重复节点的模式;所述复合模式,是指存在重复节点的模式;
所述单层模式和复合模式的生成过程为:
D1.基于医保异构信息网络,随机选择一节点作为初始节点,从而形成初始的单层模式;
D2.基于当前模式的任一节点,设定约束条件为每次选择一条新的且一端已在已有模式中的边,将新的边与另一端的节点加入当前模式,从而形成一个新的模式;
D3.判断当前模式是否无满足D2的约束条件的可增加的节点,若否,则返回D2,将剩余节点依次尝试作为初始节点进行模式挖掘,若是,则转至D4;
D4.判断当前模式节点是否为覆盖整个异构信息网络元图的节点,若否,则返回D2,依次尝试将当前模式的节点作为初始节点进行模式挖掘,若是,则转至D5;
D5.基于当前获取的单层模式,根据完整的异构信息网络进行关联重复的节点的添加,从而形成复合模式;
D6.将当前获取的复合模式进行拆分,分解为多单层模式的组合作为一个模式;
D7.判断当前模式是否为完整的异构信息网络的类型映射,即当前的复合模式已覆盖异构信息网络所有节点和边,若否,则返回D5,若是,则转至D8;
D8.输出已挖掘的所有模式作为异常检测模式,并将异常检测模式作为模式集合;
所述医保记录异常检测单元中基于实例集合采取横向和纵向比较识别离群点的生成过程为:
E1.基于某一医保异构信息网络及其对应的模式,基于医保记录的就医时间数据统计均值,设置最小时间间隔t天,将位于同一时间段内的边的连接情况保留至第t天,然后用第t天的异构信息网络表示该时间段的异构信息网络;
E2.基于医保记录的采集数据,将特征属性分为多类,每一类属性都涵盖上级属性的性质和操作;
E3.基于横向比较获取每个实例集合,即在同一时间段同一模式不同实例集合;
E4.基于纵向比较获取每个实例集合,即同一医保记录的不同时间段的同一实例集合;
E5.计算各实例集合的指标值,单层模式的指标值计算如下:
复合模式计算指标值时先分解为多个单层模式,设复合模式PF由βi个单层模式PSi组成,先进行如下计算,
在上述计算结果的基础上,再按照公式(6)(7)计算获取复合模式下各实例集合的指标值;
E6.基于密度聚类识别离群点,采取固定最少包含节点数minpts,然后优化判断半径r的策略,判断半径r的优化采用邻近聚类的思想,计算每个节点的第minpts近邻的距离,得到一个距离集合dist并按升序排序,由于核心点不断传播的机制而识别偏离较远的离群点。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-5任一所述的基于HIN挖掘动态多模式的医保异常检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910324775.7A CN110322356B (zh) | 2019-04-22 | 2019-04-22 | 基于hin挖掘动态多模式的医保异常检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910324775.7A CN110322356B (zh) | 2019-04-22 | 2019-04-22 | 基于hin挖掘动态多模式的医保异常检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110322356A CN110322356A (zh) | 2019-10-11 |
CN110322356B true CN110322356B (zh) | 2020-08-07 |
Family
ID=68112984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910324775.7A Active CN110322356B (zh) | 2019-04-22 | 2019-04-22 | 基于hin挖掘动态多模式的医保异常检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110322356B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111090780B (zh) * | 2019-12-09 | 2023-05-26 | 建信金融科技有限责任公司 | 可疑交易信息的确定方法及装置、存储介质、电子设备 |
CN111462897B (zh) * | 2020-04-01 | 2021-05-11 | 山东大学 | 一种基于改进异构信息网络的患者相似度分析方法及系统 |
CN111612636A (zh) * | 2020-04-29 | 2020-09-01 | 山东大学 | 基于双聚类算法的异常医保数据检测系统及方法 |
CN111798324B (zh) * | 2020-07-16 | 2024-04-02 | 浙江工业大学 | 一种基于动态就医行为对齐的医保欺诈发现方法 |
CN111861762B (zh) * | 2020-07-28 | 2024-04-26 | 贵州力创科技发展有限公司 | 一种车辆保险反欺诈识别的数据处理方法及系统 |
CN112001805B (zh) * | 2020-09-07 | 2023-08-22 | 平安科技(深圳)有限公司 | 基于固定时间窗的医保数据处理方法、装置、设备及介质 |
CN114285601B (zh) * | 2021-11-24 | 2023-02-14 | 南京信息职业技术学院 | 一种大数据的多密集块检测与提取方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596770B (zh) * | 2017-12-29 | 2022-04-01 | 山大地纬软件股份有限公司 | 基于离群值分析的医疗保险欺诈检测装置及方法 |
CN109615116B (zh) * | 2018-11-20 | 2020-12-29 | 中国科学院计算技术研究所 | 一种电信诈骗事件检测方法和检测系统 |
-
2019
- 2019-04-22 CN CN201910324775.7A patent/CN110322356B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110322356A (zh) | 2019-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110322356B (zh) | 基于hin挖掘动态多模式的医保异常检测方法及系统 | |
Yang et al. | Diverse message passing for attribute with heterophily | |
Moosavi et al. | Community detection in social networks using user frequent pattern mining | |
Ahmed et al. | Network sampling: From static to streaming graphs | |
Mariadassou et al. | Uncovering latent structure in valued graphs: a variational approach | |
Kundu et al. | Fuzzy-rough community in social networks | |
US20080126523A1 (en) | Hierarchical clustering of large-scale networks | |
US20160125159A1 (en) | System for management of health resources | |
CN110727852A (zh) | 一种推送招聘推荐服务的方法、装置及终端 | |
Yang et al. | An adaptive heuristic clustering algorithm for influence maximization in complex networks | |
Deylami et al. | Link prediction in social networks using hierarchical community detection | |
Lidbetter | Search and rescue in the face of uncertain threats | |
Berktaş et al. | A branch-and-bound algorithm for team formation on social networks | |
Gebhart et al. | Go with the flow? A large-scale analysis of health care delivery networks in the United States using Hodge theory | |
Kapoor et al. | Online summarization of dynamic graphs using subjective interestingness for sequential data | |
Abhari et al. | Capturing diversity: Split systems and circular approximations for conservation | |
Li et al. | Detecting early-warning signals for social emergencies by temporal network sociomarkers | |
Wu et al. | Community detection with topological structure and attributes in information networks | |
Muhlenbach et al. | Discovering research communities by clustering bibliographical data | |
Zhang et al. | Model‐based clustering of time‐dependent categorical sequences with application to the analysis of major life event patterns | |
Swamy et al. | A practical optimization framework for political redistricting: A case study in Arizona | |
JP6296610B2 (ja) | 予測モデル構築装置及び予測装置 | |
Simeon et al. | COSINE: A vertical group difference approach to contrast set mining | |
Regunathan et al. | Neural based QoS aware mobile cloud service and its application to preeminent service selection using back propagation | |
Putra et al. | Determination of the Precaution Covid-19 Pandemic (PCP) Level Based on Dominant and Priority of Symptoms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |