CN111899114B - 一种基于多视图双聚类的就医欺诈行为检测方法及系统 - Google Patents

一种基于多视图双聚类的就医欺诈行为检测方法及系统 Download PDF

Info

Publication number
CN111899114B
CN111899114B CN202010579517.6A CN202010579517A CN111899114B CN 111899114 B CN111899114 B CN 111899114B CN 202010579517 A CN202010579517 A CN 202010579517A CN 111899114 B CN111899114 B CN 111899114B
Authority
CN
China
Prior art keywords
medical
matrix
view
medical insurance
visiting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010579517.6A
Other languages
English (en)
Other versions
CN111899114A (zh
Inventor
郭伟
李瑞璨
李晖
闫中敏
崔立真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202010579517.6A priority Critical patent/CN111899114B/zh
Publication of CN111899114A publication Critical patent/CN111899114A/zh
Application granted granted Critical
Publication of CN111899114B publication Critical patent/CN111899114B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本公开提供了一种基于多视图双聚类的就医欺诈行为检测方法及系统,获取就诊信息和人口统计学信息,并对获得的数据进行预处理;根据预处理后得到的医保参保个体的医保就医记录,在参保人集合与就医时间和就医地点信息集合构成的第一视图和参保人集合与药物信息集合组成的第二视图上同时进行双聚类,得到跨视图一致的患者集群作为就医欺诈行为群体;利用双聚类算法,同时引入健康医疗知识库,不仅可以挖掘频繁地在相同时间相同地点就医的可疑患者群体,而且还可以将其中因长期有规律就医导致被误判的正常患者过滤,从而更加精确地识别医保欺诈行为。

Description

一种基于多视图双聚类的就医欺诈行为检测方法及系统
技术领域
本公开涉及计算机技术领域,特别涉及一种基于多视图双聚类的就医欺诈行为检测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术,并不必然构成现有技术。
医疗保险制度是为了补偿劳动者因疾病风险造成的经济损失而建立的一项社会保险制度。
随着医疗保险事业的蓬勃发展,少数不法人员出于利益考虑,开始了针对医保基金的欺诈行为。
本公开发明人发现,传统的医保反欺诈工作主要依赖制定规则,首先制定医保欺诈规则,基于规则对参保人的就医行为进行鉴别,并确定欺诈人及其欺诈行为;这种方式高度依赖专家的经验,一般都是在欺诈行为发生之后,才能制定相应的规则,无法快速高效地识别医保欺诈行为。
本公开发明人还发现,目前存在异常共现就医欺诈行为,该行为具体是指,有一些欺诈者,通过某种方式收集获取多名参保人的医保卡,利用这些医保卡购买药品然后倒卖,骗取医保基金,这些欺诈者为了降低欺诈成本,通常会在一次欺诈行为中使用多张医保卡购买药品。
针对上述行为,以往的异常共现就医欺诈行为识别方法,仅仅考虑挖掘频繁地在相同时间相同地点就医的可疑患者群体,而没有考虑部分正常患者因长期有规律就医导致被误判的情形,因此检测结果不够准确。
发明内容
为了解决现有技术的不足,本公开提供了一种基于多视图双聚类的就医欺诈行为检测方法及系统,利用双聚类算法,同时引入健康医疗知识库,不仅可以挖掘频繁地在相同时间相同地点就医的可疑患者群体,而且还可以将其中因长期有规律就医导致被误判的正常患者过滤,从而更加精确地识别医保欺诈行为。
为了实现上述目的,本公开采用如下技术方案:
本公开第一方面提供了一种基于多视图双聚类的就医欺诈行为检测方法。
一种基于多视图双聚类的就医欺诈行为检测方法,包括以下步骤:
获取就诊信息和人口统计学信息,并对获得的数据进行预处理;
根据预处理后得到的医保参保个体的医保就医记录,构建包含医保就医记录中医保参保个体集合、医保就医记录中就医时间和就医地点信息集合以及医保就医记录中的药物信息集合的异构加权图;
在参保个体集合与就医时间和就医地点信息集合构成的第一视图和参保个体集合与药物信息集合组成的第二视图上同时进行双聚类,得到跨视图一致的患者集群作为就医欺诈行为群体。
本公开第二方面提供了一种基于多视图双聚类的就医欺诈行为检测系统。
一种基于多视图双聚类的就医欺诈行为检测系统,包括:
数据获取模块,被配置为:获取就诊信息和人口统计学信息,并对获得的数据进行预处理;
数据处理模块,被配置为:根据预处理后得到的医保参保个体的医保就医记录,构建包含医保就医记录中医保参保个体集合、医保就医记录中就医时间和就医地点信息集合以及医保就医记录中的药物信息集合的异构加权图;
就医欺诈判断模块,被配置为:在参保个体集合与就医时间和就医地点信息集合构成的第一视图和参保个体集合与药物信息集合组成的第二视图上同时进行双聚类,得到跨视图一致的患者集群作为就医欺诈行为群体。
本公开第三方面提供了一种介质,其上存储有程序,该程序被处理器执行时实现如本公开第一方面所述的基于多视图双聚类的就医欺诈行为检测方法中的步骤。
本公开第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开第一方面所述的基于多视图双聚类的就医欺诈行为检测方法中的步骤。
与现有技术相比,本公开的有益效果是:
1、本公开所述的方法、系统、介质及电子设备,利用双聚类算法,同时引入健康医疗知识库,不仅可以挖掘频繁地在相同时间相同地点就医的可疑患者群体,而且还可以将其中因长期有规律就医导致被误判的正常患者过滤,从而更加精确地识别医保欺诈行为。
2、本公开所述的方法、系统、介质及电子设备,不仅考虑多张医保卡频繁同时同地消费这一特征,挖掘频繁地在相同时间和相同地点就医的可疑患者群体,还能够过滤因长期有规律就医导致被误判的正常患者,从而更加精确地识别医保欺诈行为,相较于传统方法的识别准确率为76%,本公开将识别准确率提升至95%,本公开有助于识别异常共现就医欺诈行为,有效保护医疗保险基金。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例1提供的基于双聚类的多视图异常共现就医欺诈行为识别方法的流程图;
图2为本公开实施例1提供的基于双聚类算法在多个视图上挖掘跨视图一致聚类患者的模型图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例1:
如图1所示,本公开实施例1提供了一种基于双聚类的多视图异常共现就医欺诈行为识别方法,基于双聚类算法,同时引入健康医疗知识库,在多个视图上挖掘频繁地在相同时间相同地点就医,并且医药处方相似的可疑患者群体;因为将其中因长期有规律就医导致被误判的正常患者过滤,所以更加精确地获得欺诈患者。
具体包括以下步骤:
步骤(1):就诊信息和人口统计学信息获取步骤。
获取病人的就诊信息,所述的就诊信息主要包括:患病数据、用药数据、诊疗数据;获取病人的人口统计学信息,所述的人口统计学信息主要包括病人的年龄、性别、人员类别、婚姻、文化水平、职业和居住地等;
就诊信息在获取时可利用通信手段从医疗系统获取。
步骤(2):数据预处理步骤。
用MD5算法对敏感数据如身份证号信息、姓名、家庭住址等信息进行消密处理,即将敏感数据处理成没有意义的字符串,避免使用数据时敏感信息泄露;
在医疗数据中,缺失数据是不能被填充的,所以要对缺失率高于设定阈值的数据进行删除。
依据国际疾病分类标准编码ICD-10,将就诊信息中的疾病诊断代码转换为对应的国际疾病分类标准编码ICD-10中的疾病代码。
依据《中国药典》(2015年版),将就诊信息中的药物编码转换为对应的《中国药典》(2015年版)中的药物代码。
步骤(3):根据医保参保人的医保就医记录,构建P-TL-M图。
其中,图中有两类节点,P代表医保就医记录中医保参保人的集合;TL代表医保就医记录中就医时间就医地点信息的集合,由<就医时间,就医地点>表示;M代表医保就医记录中药物的集合。图中有两种类型的边e,一种是医保参保人与药物之间相连的边,由e(pi,mj)表示,其中pi∈P,mi∈M。
对于边e(pi,mj)的权重w(pi,mj)计算,令
Figure BDA0002552654230000061
代表患者pi购买药物mj报销金额,令
Figure BDA0002552654230000062
代表患者pi购买药物mj自费金额,那么权重w(pi,mj)计算方式为:
Figure BDA0002552654230000063
另一种是医保参保人与就医时间就医地点之间的边,由e(pi,tlj)表示,其中pi∈P,tli∈TL,它的权重w(pi,tlj)与医保参保人的就医时间就医地点有关。
具体如下:
对于边e(pi,tlj)的权重w(pi,tlj)计算,设置时间阈值Φ,本实施例设置其为两天。其中tlj=<tj,lj>,tj代表tlj中的就医时间,lj代表tlj中的就医地点。令ti代表患者pi的就医时间。
当患者pi在与tj相距Φ时间间隔内,在lj地点发生就医行为,即,|tj-ti|<Φ,那么权重w(pi,tlj)的计算方式为:
Figure BDA0002552654230000064
否则,当患者pi没有在与tj相距Φ时间间隔内,在lj地点发生就医行为,权重w(pi,tlj)的计算方式为:
w(pi,tlj)=0。
步骤(4):在步骤(3)中构建的P-TL-M图中,通过新颖的双聚类算法,在多个视图上挖掘频繁即相同时间相同地点就医,又医药处方相似的可疑患者群体。如图2所示。具体如下:
(4.1)构建大小为n×r1的矩阵X1,来表示P-TL图。其中,n为医保参保人集合P中包含的元素数目,r1为就医时间就医地点信息集合TL中包含的元素数目。
Figure BDA0002552654230000065
等于P-TL图中边e(pi,tlj)的权重值,w(pi,tlj)。
(4.2)构建大小为n×r2的矩阵X2,来表示P-M图。其中,n为医保参保人集合P中包含的元素数目,r2为药物集合M中包含的元素数目。
Figure BDA0002552654230000071
等于P-M图中边e(pi,mj)的权重值,w(pi,mj)。
(4.3)双聚类算法可以跨视图同时将矩阵的行进行聚类,通过此方法可以挖掘频繁在相同时间相同地点就医且医药处方相似的可疑患者群体。
在多个视图中,令n维向量uk和r维向量vk分别代表矩阵Xk经过矩阵分解后得到的左、右向量。两个向量的外积与矩阵Xk尽可能近似,即,
Figure BDA0002552654230000072
需要解决的目标函数为:
Figure BDA0002552654230000073
subjectto
Figure BDA0002552654230000077
k=1,...,d,
ω∈Bn.
Bn表示所有长度为n的二进制向量集合。lω
Figure BDA0002552654230000074
是提前定义的超参,确保向量ω和向量vk的稀疏性,向量ω可以使不同视图的行聚集结果相同。向量wk表示相应视图中的权重,diag(.)表示以相应向量为对角线元素的对角矩阵,d表示视图数量,对于本专利而言,d=2。
最小化上述目标函数在数学上等价于最小化:
Figure BDA0002552654230000075
其中λω
Figure BDA0002552654230000076
对应h最优值时的拉格朗日乘子。
在该实施例子中,需要运用PALM算法解决上述的目标函数,具体如下:
(4.2.1)将向量ω,向量vk和向量uk的全部元素初始化为1的。令ωt,(uk)t,(vk)t代表第t次迭代下的向量。
(4.2.2)使用ωt,(uk)t,(vk)t计算(uk)t+1
每一个(uk)t+1可以被分别计算,因为它们彼此是相互独立的。用
Figure BDA0002552654230000081
代表h在点ωt,(uk)t,(vk)t处关于uk的偏导数,计算方式为:
Figure BDA0002552654230000082
其中⊙表示计算两个向量中的对应元素相乘,组成一个新的向量,与原向量的尺度相同。
Figure BDA0002552654230000083
的Lipchitz模数是
Figure BDA0002552654230000084
计算(uk)t+1需要解决下述优化目标函数:
Figure BDA0002552654230000085
其中γu>1是一个常数,被设置为2。该问题在数学上等价于:
Figure BDA0002552654230000086
它的一个解析解为:
Figure BDA0002552654230000087
(4.2.3)使用ωt,(uk)t+1,(vk)t计算(vk)t+1
每一个vk向量也能被分别计算。用
Figure BDA0002552654230000088
代表h在点ωt,(uk)t+1,(vk)t出关于vk的偏导数,它的计算方式为:
Figure BDA0002552654230000089
Figure BDA00025526542300000810
的Lipchitz模数是:
Figure BDA00025526542300000811
使
Figure BDA0002552654230000091
作为一个指示函数:
Figure BDA0002552654230000092
为了计算vk向量本实施例需要计算下列目标函数:
Figure BDA0002552654230000093
subject to
Figure BDA0002552654230000094
该目标函数可转换为:
Figure BDA0002552654230000095
该问题等价于最小化:
Figure BDA0002552654230000096
Figure BDA0002552654230000097
对于(4.2.3)中目标函数的最优解是保持
Figure BDA0002552654230000098
向量中元素绝对值最大的
Figure BDA0002552654230000099
个元素不变,其他设置为零。本实施例定义阈值α为
Figure BDA00025526542300000910
中元素绝对值第
Figure BDA00025526542300000911
大的元素值,计算(vk)t+1的方式为:
Figure BDA00025526542300000912
(4.2.4)使用ωt,(uk)t+1,(vk)t+1计算(ω)t+1
Figure BDA00025526542300000913
代表h在点ωt,(uk)t+1,(vk)t+1出关于ω的偏导数,它的计算方式为:
Figure BDA00025526542300000914
Figure BDA00025526542300000915
的Lipchitz模数是:
Figure BDA00025526542300000916
为了更新ω向量需要解决下列优化问题:
Figure BDA0002552654230000101
subject to||ω||0≤lω.
该问题转换为:
Figure BDA0002552654230000102
该问题等价于最小化:
Figure BDA0002552654230000103
类似于(4.2.3)步骤中更新vk向量时,本实施例令:
Figure BDA0002552654230000104
定义阈值β为
Figure BDA0002552654230000105
中元素绝对值第lω大的元素值,计算ωt+1的方式为:
Figure BDA0002552654230000106
(4.2.5)反复重复步骤(4.2.2),步骤(4.2.3)和步骤(4.2.4),直到结果收敛。比如,直到||ωt+1t||≤ε,||(uk)t+1-(uk)t||≤ε,||(vk)t+1-(vk)t||≤ε时停止计算,其中ε设置为0.01。
对于最终得到的向量ω,将其中非零项对应的矩阵X1的行进行聚类,得到可疑患者群体,这些可疑群体即频繁同时同地就医,又医药处方相似。本实施例设置阈值Ψ限制可疑患者群体的最小值,如果人数过少就不符合异常共现就医欺诈行为,在本实施例中Ψ=2。
(4.2.6)在步骤(4.2.5)中,只挖掘了一组可疑患者群体。如果想要再次挖掘新的可疑患者群体,那么将已挖掘的患者对应的Xk矩阵中相应行的元素设置为零。比如,矩阵第i行对应的患者已经被挖掘,那么
Figure BDA0002552654230000111
然后再在更新后的矩阵Xk上进行步骤(4.2.5),挖掘新的可疑患者群体以及他们可疑的就医记录。
以往的检测异常共现就医欺诈检测方法,只考虑了这些欺诈患者多次在相同时间相同地点就医,但是并没有考虑这些欺诈者购买类似的药物,具有医药处方相似的特征。本实施例通过两个视图的设计,视图一是挖掘同时同地就医的欺诈者,视图二是挖掘医药处方相似的欺诈者(体现健康医疗知识库),最终目标是在两个视图中挖掘即频繁同时同地就医,又医药处方相似的患者群体,极大的提高了就医欺诈的识别准确度。
实施例2:
本公开实施例2提供了一种基于多视图双聚类的就医欺诈行为检测系统,包括:
数据获取模块,被配置为:获取就诊信息和人口统计学信息,并对获得的数据进行预处理;
数据处理模块,被配置为:根据预处理后得到的医保参保个体的医保就医记录,构建包含医保就医记录中医保参保个体集合、医保就医记录中就医时间和就医地点信息集合以及医保就医记录中的药物信息集合的异构加权图;
就医欺诈判断模块,被配置为:在参保人集合与就医时间和就医地点信息集合构成的第一视图和参保人集合与药物信息集合组成的第二视图上同时进行双聚类,得到跨视图一致的患者集群作为就医欺诈行为群体。
所述系统的工作方法与实施例1中的基于多视图双聚类的就医欺诈行为检测方法相同,这里不再赘述。
实施例3:
本公开实施例3提供了一种介质,其上存储有程序,该程序被处理器执行时实现如本公开第一方面所述的基于多视图双聚类的就医欺诈行为检测方法中的步骤,所述步骤为:
获取就诊信息和人口统计学信息,并对获得的数据进行预处理;
根据预处理后得到的医保参保个体的医保就医记录,构建包含医保就医记录中医保参保个体集合、医保就医记录中就医时间和就医地点信息集合以及医保就医记录中的药物信息集合的异构加权图;
在参保人集合与就医时间和就医地点信息集合构成的第一视图和参保人集合与药物信息集合组成的第二视图上同时进行双聚类,得到跨视图一致的患者集群作为就医欺诈行为群体。
详细步骤与实施例1中的基于多视图双聚类的就医欺诈行为检测方法相同,这里不再赘述。
实施例4:
本公开实施例4提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例1所述的基于多视图双聚类的就医欺诈行为检测方法中的步骤,所述步骤为:
获取就诊信息和人口统计学信息,并对获得的数据进行预处理;
根据预处理后得到的医保参保个体的医保就医记录,构建包含医保就医记录中医保参保个体集合、医保就医记录中就医时间和就医地点信息集合以及医保就医记录中的药物信息集合的异构加权图;
在参保人集合与就医时间和就医地点信息集合构成的第一视图和参保人集合与药物信息集合组成的第二视图上同时进行双聚类,得到跨视图一致的患者集群作为就医欺诈行为群体。
详细步骤与实施例1中的基于多视图双聚类的就医欺诈行为检测方法相同,这里不再赘述。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (9)

1.一种基于多视图双聚类的就医欺诈行为检测方法,其特征在于,包括以下步骤:
获取就诊信息和人口统计学信息,并对获得的数据进行预处理;
根据预处理后得到的医保参保个体的医保就医记录,构建包含医保就医记录中医保参保个体集合、医保就医记录中就医时间和就医地点信息集合以及医保就医记录中的药物信息集合的异构加权图;
在参保个体集合与就医时间和就医地点信息集合构成的第一视图和参保个体集合与药物信息集合组成的第二视图上同时进行双聚类,得到跨视图一致的患者集群作为就医欺诈行为群体;
通过第一矩阵表示第一视图,通过第二矩阵表示第二视图,所述第一矩阵和第二矩阵的行数均为医保参保个体集合中包含的元素数目,第一矩阵的列数为就医时间和就医地点信息集合中包含的元素数目,第二矩阵的列数为药物集合中包含的元素数目,第一矩阵和第二矩阵中的元素为对应的权重值。
2.如权利要求1所述的基于多视图双聚类的就医欺诈行为检测方法,其特征在于,所述异构加权图包括医保参保个体与药物之间相连的边以及医保参保个体与就医时间和就医地点之间的边,每条边对应有相应的权重。
3.如权利要求1所述的基于多视图双聚类的就医欺诈行为检测方法,其特征在于,双聚类的目标函数,具体为:
Figure FDA0002988862000000011
Figure FDA0002988862000000021
其中,Bn表示所有长度为n的二进制向量集合,lω
Figure FDA0002988862000000022
是提前定义的超参,向量ω用于使不同视图的行聚集结果相同,向量wk表示相应视图中的权重,diag(.)表示以相应向量为对角线元素的对角矩阵,d表示视图数量,n维向量uk和r维向量vk分别代表矩阵Xk经过矩阵分解后得到的左、右向量,k=1,...,d,ω∈Bn
4.如权利要求3所述的基于多视图双聚类的就医欺诈行为检测方法,其特征在于,采用PALM算法求解双聚类的目标函数,最终得到的向量ω,将向量ω中非零项对应的第一矩阵或第二矩阵中的行进行聚类,得到既频繁同时同地就医又医药处方相似的可疑患者群体。
5.如权利要求3所述的基于多视图双聚类的就医欺诈行为检测方法,其特征在于,每次一组可疑患者群体,当再次挖掘新的可疑患者群体时,将已挖掘的患者对应的第一矩阵和第二矩阵中相应行的元素设置为零。
6.如权利要求1所述的基于多视图双聚类的就医欺诈行为检测方法,其特征在于,设置阈值限制可疑患者群体的最小值,如果可疑患者群体小于预设阈值,不判定为就医欺诈行为。
7.一种基于多视图双聚类的就医欺诈行为检测系统,其特征在于,包括:
数据获取模块,被配置为:获取就诊信息和人口统计学信息,并对获得的数据进行预处理;
数据处理模块,被配置为:根据预处理后得到的医保参保个体的医保就医记录,构建包含医保就医记录中医保参保个体集合、医保就医记录中就医时间和就医地点信息集合以及医保就医记录中的药物信息集合的异构加权图;
就医欺诈判断模块,被配置为:在参保个体集合与就医时间和就医地点信息集合构成的第一视图和参保个体集合与药物信息集合组成的第二视图上同时进行双聚类,得到跨视图一致的患者集群作为就医欺诈行为群体;通过第一矩阵表示第一视图,通过第二矩阵表示第二视图,所述第一矩阵和第二矩阵的行数均为医保参保个体集合中包含的元素数目,第一矩阵的列数为就医时间和就医地点信息集合中包含的元素数目,第二矩阵的列数为药物集合中包含的元素数目,第一矩阵和第二矩阵中的元素为对应的权重值。
8.一种介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-6任一项所述的基于多视图双聚类的就医欺诈行为检测方法中的步骤。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任一项所述的基于多视图双聚类的就医欺诈行为检测方法中的步骤。
CN202010579517.6A 2020-06-23 2020-06-23 一种基于多视图双聚类的就医欺诈行为检测方法及系统 Active CN111899114B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010579517.6A CN111899114B (zh) 2020-06-23 2020-06-23 一种基于多视图双聚类的就医欺诈行为检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010579517.6A CN111899114B (zh) 2020-06-23 2020-06-23 一种基于多视图双聚类的就医欺诈行为检测方法及系统

Publications (2)

Publication Number Publication Date
CN111899114A CN111899114A (zh) 2020-11-06
CN111899114B true CN111899114B (zh) 2021-06-11

Family

ID=73207045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010579517.6A Active CN111899114B (zh) 2020-06-23 2020-06-23 一种基于多视图双聚类的就医欺诈行为检测方法及系统

Country Status (1)

Country Link
CN (1) CN111899114B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112835893B (zh) * 2021-01-18 2023-03-21 浙江大学山东工业技术研究院 一种基于聚类的医保欺诈行为的检测方法及系统
CN112991079B (zh) * 2021-04-15 2023-12-19 上海理想信息产业(集团)有限公司 多卡共现就医欺诈行为检测方法、系统、云端及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109976930A (zh) * 2017-12-28 2019-07-05 腾讯科技(深圳)有限公司 异常数据的检测方法、系统及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9489627B2 (en) * 2012-11-19 2016-11-08 Bottomline Technologies (De), Inc. Hybrid clustering for data analytics
CN107657536B (zh) * 2017-02-20 2018-07-31 平安科技(深圳)有限公司 社保欺诈行为的识别方法和装置
CN109636061B (zh) * 2018-12-25 2023-04-18 深圳市南山区人民医院 医保欺诈预测网络的训练方法、装置、设备及存储介质
CN110378365A (zh) * 2019-06-03 2019-10-25 广东工业大学 一种基于联合子空间学习的多视图子空间聚类方法
CN110852895A (zh) * 2019-11-13 2020-02-28 易联众信息技术股份有限公司 一种基于知识图谱的医疗保障骗保行为发现方法
CN111275086B (zh) * 2020-01-16 2023-05-23 上海金仕达卫宁软件科技有限公司 医保群体欺诈异常行为的检测方法、装置和电子设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109976930A (zh) * 2017-12-28 2019-07-05 腾讯科技(深圳)有限公司 异常数据的检测方法、系统及存储介质

Also Published As

Publication number Publication date
CN111899114A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
US11462308B2 (en) Triage routing based on inference data from computer vision model
US11631175B2 (en) AI-based heat map generating system and methods for use therewith
CN108492196B (zh) 通过数据分析推断医疗保险违规行为的风控方法
CN107657536A (zh) 社保欺诈行为的识别方法和装置
CN111899114B (zh) 一种基于多视图双聚类的就医欺诈行为检测方法及系统
US20200373003A1 (en) Automatic medical scan triaging system and methods for use therewith
CN111612636A (zh) 基于双聚类算法的异常医保数据检测系统及方法
CN111785384A (zh) 基于人工智能的异常数据识别方法及相关设备
CN113657548A (zh) 医保异常检测方法、装置、计算机设备及存储介质
Arza et al. An integration of blockchain and machine learning into the health care system
CN111951924A (zh) 一种异常用药行为检测方法及系统
CN113704731A (zh) 面向医院的患者异常就医行为检测方法及系统
WO2019223082A1 (zh) 客户类别分析方法、装置、计算机设备和存储介质
Wahid et al. Pneumonia Detection in Chest X‐Ray Images Using Enhanced Restricted Boltzmann Machine
US9900329B2 (en) Computer-implemented system and method for discovering heterogeneous communities with shared anomalous components
CN112561935A (zh) 一种阿尔兹海默症的识别方法、装置和设备
CN108376567A (zh) 一种基于标签传播算法的临床药品-药品不良反应检测方法
Arza et al. 3 An Integration of
Huang et al. Traumatic brain injury risk assessment with smart technology
Ogwueleka et al. Predicting Risk of Direct-to-Customer Drug Prescription using K-Mean Clustering Technique
CN113643806A (zh) 诊断相关疾病组数据的处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant