CN105159948B - 一种基于多特征的医疗保险欺诈检测方法 - Google Patents

一种基于多特征的医疗保险欺诈检测方法 Download PDF

Info

Publication number
CN105159948B
CN105159948B CN201510492558.0A CN201510492558A CN105159948B CN 105159948 B CN105159948 B CN 105159948B CN 201510492558 A CN201510492558 A CN 201510492558A CN 105159948 B CN105159948 B CN 105159948B
Authority
CN
China
Prior art keywords
treatment
data
record
project
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510492558.0A
Other languages
English (en)
Other versions
CN105159948A (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Shu Lian Yi Kang Technology Co Ltd
Original Assignee
Chengdu Shu Lian Yi Kang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Shu Lian Yi Kang Technology Co Ltd filed Critical Chengdu Shu Lian Yi Kang Technology Co Ltd
Priority to CN201510492558.0A priority Critical patent/CN105159948B/zh
Publication of CN105159948A publication Critical patent/CN105159948A/zh
Application granted granted Critical
Publication of CN105159948B publication Critical patent/CN105159948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于多特征的医疗保险数据欺诈检测方法。该方法针对医疗保险申报数据中患有某一种疾病的所有病人的治疗记录,结合医药分类知识,采用概率统计、混合高斯建模、特征融合等技术提取多种更具区分度的二级特征数据,再基于二级特征数据对病人的治疗记录进行向量化,然后通过将标注为“正常”的治疗数据进行聚类分析后,采用非线性支持向量机分类技术将聚类后的每一类正常治疗数据分别与标注为“欺诈”的治疗数据建立多个分类超平面,以实现对未标注的医疗保险数据进行欺诈检测。该方法能快速、有效地检测医疗保险数据中存在的欺诈数据,具有较高的准确性。

Description

一种基于多特征的医疗保险欺诈检测方法
技术领域
本发明涉及欺诈检测识别领域,具体的说是一种医疗保险欺诈行为基于多特征的检测方法和系统。
背景技术
在医疗保障社会体系中,每天都有数以万计的门诊、医院医疗行为的交易数据在发生,交易主要包括病人与医疗机构的交易,医疗机构与保险机构的交易。目前,现有的医疗保险处理系统处理支付交易的时候会存在一些弊端,就是无法识别是否真正的病人需求,容易导致参保人或医疗机构从中谋取利益。据《金融时报》报道,美国政府采用大数据方法鉴别以及间距医保欺诈行为节省了数十亿美元的医疗保险金,在我国同样具有很大的医疗欺诈行为存在,这些行为严重影响了医疗保险基金的收支平衡,侵害了参保人的利益。
当前国内外现有研究来看,医疗保险欺诈检测识别方法主要分为两大类,即监督学习方法(supervised learning method)与非监督学习方法(unsupervised learningmethod)。监督学习方法是指使用数据中部分训练样本中所包含的标注信息(即该样本是否属于欺诈案件),而获取欺诈相关因子,这类方法包括贝叶斯分类器,BP神经网络分类器等。与之相对,非监督学习方法并不依赖与标注信息,而是直接从自变量中发掘识别欺诈相关因子,这类方法包括聚类分析,非辅助的神经网络分析等。随着医疗保险欺诈模式越来越多,现有的欺诈方法越来越难以有效的检测到多变的欺诈案例。
因此,如何开发一种高效且准确率高的欺诈行为识别检测方式已成为亟待解决的问题。
发明内容
本发明针对当前医疗保险欺诈模式多样的问题,提出了一种基于多特征提取的医疗保险欺诈检测方法。该方法针对医疗保险原始数据并结合医药分类知识,提取新的更具有区分度的二级特征数据,然后将非欺诈数据进行聚类分析,每一类与欺诈数据建立分类平面。结合使用了概率统计、高斯建模技术、聚类、分类等方法。能有效适应医保数据记录中欺诈模式多变的情况,并具有良好的实际效果。
(1)、针对某一种疾病,筛选得到医疗保险数据中患有该疾病的所有病人的治疗记录,将病人治疗记录中各种治疗项目(包括各种用药、检查、化验等治疗项目)的用量情况进行向量化。假设某一种疾病病人治疗记录的总数为N,涉及的治疗项目的总数为m,则每一条病人治疗记录可向量化为xi=(xi,1,xi,2,…,xi,m),1≤i≤N,其中xij为第i条病人治疗记录中第j种治疗项目的用量;根据疾病所涉及的m种治疗项目,统计每种治疗项目在所有N条治疗记录中出现的频率,即治疗项目在N条记录中出现的次数与记录总数N的比值,分别记为p1,p2…,pm
(2)、采用概率统计、高斯建模、特征融合等技术提取多种更具区分度的二级特征数据,将第i条病人治疗记录中提取的二级特征数据记为zi=(zi,1,zi,2,…,zi,G),1≤i≤N,具体步骤如下:
(2.1)、计算每一条病人治疗记录i中常用治疗项目之间的平均共现率zi,1。定义记 录中某治疗项目j的使用频率pj大于f%的为常用治疗项目。对于某治疗记录中k个常用治 疗项目,计算k个常用治疗项目中任意两种治疗项目a和治疗项目b的共现率pab,即同时采用 治疗项目a和治疗项目b的记录数比上采用治疗项目a或治疗项目b的记录数。治疗记录i中 常用治疗项目之间的平均共现率zi,1的计算公式为:
(2.2)、计算每一条病人治疗记录i中治疗方案的合理性。根据治疗记录i中各个治疗项目j在所有治疗记录中出现的频率pj,计算治疗记录i中治疗方案的合理性zi,2,计算公式为:其中l表示治疗记录i中使用的治疗项目的总数;
(2.3)、应用混合高斯建模技术提取每一条病人治疗记录中属于某大类治疗项目的用量或费用混合高斯模型的隶属概率。首先将治疗项目按照医院大类标准进行分类,可得H个大类,对于每一个大类,应用混合高斯建模技术可得某大类用量或费用随机向量x所满足的混合高斯模型为:其中r表示高斯模型的个数,aj为第j个单高斯模型在混合模型中占的权重,Nj则表示第j个高斯模型的概率密度函数,总共可得2H个混合高斯分布。对于每一条病人治疗记录i提取该记录中属于某大类用量或费用混合高斯模型的隶属概率,其计算公式为:用于度量该条病人记录中使用该大类治疗项目的用量或费用水平。对于每条病人记录可得余下的zi,3…,zi,G共2H个余下的二级特征;
(2.4)使用Z-score标准化方法标准化上面步骤中得到的G维二级特征向量zi=(zi,1,zi,2,…,zi,G),1≤i≤N。对每一维度j,采用公式进行标准化,其中μj为所有二级特征向量第j维的均值,σj为所有二级特征向量第j维的标准差,得到标准化后的G维二级特征向量z′i=(z′i,1,z′i,2,…,z′i,G),1≤i≤N;
(3)、为了建立医疗保险欺诈检测模型,首先采用专家标注的方法,将治疗记录中的数据标注为“正常”和“欺诈”两种类型;然后针对数据集中标注为“正常”的样本数据,采用聚类分析技术对正常样本数据所对应的标准化后的G维二级特征向量z′i=(z′i,1,z′i,2,…,z′i,G)进行聚类;最后采用非线性支持向量机分类技术将聚类后的每一类正常治疗数据分别与标注为“欺诈”的治疗数据建立多个分类超平面,以实现对医疗保险的欺诈检测。具体步骤如下:
(3.1)采用k-means算法确定最优的聚类数目K。应用误差平方和最小公式(其中z′为属于第j个类簇Cj的标准化后的G维二级特征向量,为第个类簇Cj的标准化后的G维二级特征均值向量)选取误差平方和(Sum of Squared Error)最小的K值作为聚类的结果,得到K个类簇C1,C2…,Ck
(3.2)将上面步骤中得到的K值作为混合高斯模型中高斯分布的数目,应用混合高斯聚类模型,将数据集中标注“正常”的样本数据聚为K个类簇V1,V2…,Vk
(3.3)、采用非线性支持向量机分类算法,将步骤3中得到的正常样本数据的K个类簇V1,V2…,Vk分别与数据集中的欺诈样本数据建立分类平面,得到K个分类模型。分类模型中采用的非线性支持向量机的分类决策函数的公式为:其中αi是求解引入的拉格朗日乘子,yi是指标准化后的G维二级特征向量z′i对应的标签,即用-1和1表示对应的记录是否为欺诈样本数据,z′为待分类识别的样本数据,K(z′i,z′)为选取的核函数,b是截距。;
(4)、应用步骤3中得到的医疗保险欺诈检测模型,对待识别的医疗保险数据进行欺诈检测。具体步骤如下:
(4.1)将测试集数据应用步骤3.2中得到的混合高斯模型,对测试集数据进行聚类分析,得到测试集所属于的不同聚类簇V′1,V′2…,V′k
(4.2)根据4.1步骤中测试集数据得到的不同聚类结果V′1,V′2…,V′k,针对每个聚类簇的数据z′,根据z′所属的类别j,应用步骤3.3中得到的第j个非线性支持向量机分类模型进行分类,根据分类结果输出对应的该治疗记录是否存在欺诈,同时检验我们医疗保险欺诈检测方法的实用性;
附图说明
图1是本发明多特征提取医疗保险欺诈检测方法的流程图;
图2正常模式聚类后分别与欺诈模式建立分类超平面图。
具体实施方式
为了更清楚明白,结合实施实例,下面对本发明的具体实施方式进行描述,需要特别提醒注意的是,当采用已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将会被忽略。
本实施方案采用常见病糖尿病作为例子,数据是成都市某行政区一段时间内的医疗保险数据。
本实施实例中,医疗保险欺诈行为的检测方法包括以下步骤:
(1)、从数据中筛选出患有糖尿病的所有记录作为基础数据。数据记录中每个人一次住院具有很多条记录,总共有40多万条记录,将记录中同一病人在同一时间段内的多种治疗项目(包括各种用药、检查、化验等治疗项目)的用量情况整理为一条记录,做向量化处理。数据预处理后,得到糖尿病病人治疗记录总数为9831,糖尿病在记录中共涉及到5131种治疗项目,每一条病人治疗记录可向量化为xi=(xi,1,xi,2,…,xi,5131),1≤i≤9831。
具体如表1所示的向量化的治疗记录。
表1
根据糖尿病涉及的5131种治疗项目,统计每种治疗项目在9831条治疗记录中出现的频率,即每种治疗项目在9831条记录中出现的次数与记录总数9831的比值,得到的结果记录为p1,p2…,p5131
(2)、采用概率统计、高斯建模、特征融合等技术提取多种更具区分度的二级特征数据,将第i条病人治疗记录提取得到40维的特级特征,特征向量表示为zi=(zi,1,zi,2,…,zi,40),1≤i≤9831,具体步骤如下:
(2.1)、计算每一条病人治疗记录i中常用治疗项目之间的平均共现率zi,1。定义记录中某治疗项目j的使用频率pj大于2%的为常用治疗项目。对于表1示例的治疗记录,计算可得到有3种常用治疗项目,计算这3种常用治疗项目中任意两种治疗项目a和治疗项目b的共现率pab,即同时采用治疗项目a和治疗项目b的记录数比上采用治疗项目a或治疗项目b的记录数。治疗记录i中常用治疗项目之间的平均共现率zi,1的计算公式为:
(2.2)、计算每一条病人治疗记录i中治疗方案的合理性。根据表1治疗记录i中各个治疗项目j在所有治疗记录中出现的频率pj,计算治疗记录i中治疗方案的合理性zi,2,计算公式为:其中l表示治疗记录i中使用的治疗项目的总数,即药物用量大于0的治疗项目。
(2.3)、应用混合高斯建模技术提取每一条病人治疗记录中属于某大类治疗项目的用量或费用混合高斯模型的隶属概率。首先将治疗项目按照医院大类标准进行分类,可得19个大类,对于每一个大类,将每条病人治疗记录中筛选出该大类的治疗项目,得到对应的用量或费用向量x。如表2,表2为某记录i的某大类用量向量和费用向量。
用量向量(次) 2,1,1,9,2,1,1,1……
费用向量(元) 117.6,210,234.45,107,145,860,21.12,163.41……
表2
应用混合高斯建模技术可得某大类用量或费用随机向量x所满足的混合高斯模型为:每个混合高斯模型是由2个高斯分量组成,aj为第j个高斯分量在混合模型中占的权重,Nj则表示第j个高斯分量的概率密度函数,总共可得38个混合高斯分布。对于每一条病人治疗记录i提取该记录中属于某大类用量或费用混合高斯模型的隶属概率,其计算公式为:用于度量该条病人记录中使用该大类治疗项目的用量或费用水平。对于每条病人记录可得余下的zi,3…,zi,40共38个余下的二级特征。
(2.4)、使用Z-score标准化方法标准化上面步骤中得到的40维二级特征向量zi=(zi,1,zi,2,…,zi,40)。对每一维度j,采用公式进行标准化,其中μj为所有二级特征向量第j维的均值,σj为所有二级特征向量第j维的标准差,得到标准化后的40维二级特征向量z′i=(z′i,1,z′i,2,…,z′i,40),1≤i≤9831。
(3)在医疗保险数据中正常行为模式往往是较为稳定存在的,而欺诈异常模式则是多样且不固定的,因此可以将数据中正常行为模式聚出特定的类别,将正常行为模式聚类后每个类别与欺诈数据建立分类超平面。通过聚类缩小数据范围然后与欺诈样本数据建立分类平面,更能有效的适应多变的欺诈模式。如图2所示。
为了建立医疗保险欺诈检测模型,首先采用专家标注的方法,将治疗记录中的数据标注为“正常”和“欺诈”两种类型;接着将2.4步骤中得到的40维度的二维特征向量分为训练集和测试集。然后针对训练集数据中标注为“正常”的样本数据,采用聚类分析技术对正常样本数据所对应的标准化后的G维二级特征向量z′i=(z′i,1,z′i,2,…,z′i,G)进行聚类;最后采用非线性支持向量机分类技术将聚类后的每一类正常治疗数据分别与训练集中标注为“欺诈”的治疗数据建立多个分类超平面,以实现对医疗保险的欺诈检测。具体步骤如下:
(3.1)采用k-means算法确定最优的聚类数目K,应用误差平方和最小公式(其中z′为属于第j个类簇Cj的标准化后的G维二级特征向量,为第j个类簇Cj的标准化后的G维二级特征均值向量)选取误差平方和(Sum of Squared Error)最小的K值作为聚类的结果,在本案例中K为6,得到6个类簇C1,C2…,C6
(3.2)将3.1聚类步骤中得到的K值以及聚类结果作为混合高斯模型的初值,即将聚类数目6以及每个类簇对应的均值和协方差矩阵作为混合高斯模型中高斯分量的初值,应用混合高斯聚类模型,将数据集中标注的非欺诈样本数据聚为6个类簇V1,V2…,V6。6个聚类簇的结果如表3:表3为高斯混合模型聚类结果
类簇 1 2 3 4 5 6
权值α<sub>i</sub> 0.214 0.106 0.301 0.163 0.113 0.103
样本数目 2069 1025 2910 1576 1092 996
表3
(3.3)根据正常样本聚类结果,将每个类别与欺诈数据建立分类超平面。本实施案例中,采用非线性支持向量机分类算法,将步骤3.2中得到的非欺诈样本数据的6个类簇V1,V2…,V6分别与数据集中的欺诈样本数据建立分类平面,得到6个分类模型。分类模型中采用的非线性支持向量机的分类决策函数的公式为:其中αi是求解引入的拉格朗日乘子,yi是指标准化后的40维二级特征向量z′i对应的标签,即用-1和1表示对应的记录是否为欺诈样本数据,z′为待分类识别的样本数据,K(z′i,z′)为选取的核函数,在本实施案例中选取的是径向基核函数,b是截距。
非线性支持向量机的分类决策函数采用了径向基核函数(RBF),因为正负样本,不均衡,为更好的得到训练模型,需要设置模型的惩罚系数C、径向基核函数的系数γ和正负样本间的权重,在对不同的聚类簇与欺诈样本数据建立模型过程中,系数会做适当的调整,以得到更好的分类模型。表4是各个类簇的参数设置。上述参数下,模型表现最优。表4为各个类簇参数设置。
类簇 1 2 3 4 5 6
惩罚系数C 0.01 0.01 0.1 0.01 0.01 0.1
RBF参数γ 0.00001 0.00001 0.00001 0.00001 0.00001 0.00001
正负样本权重 1:15 1:7 1:18 1:10 1:7 1:5
表4
(4)、应用步骤3中得到的医疗保险欺诈检测模型,对待识别的测试集医疗保险数据进行欺诈检测。具体步骤如下:
(4.1)将测试集数据应用步骤3.2中得到的混合高斯模型,对测试集数据进行聚类分析,得到测试集所属于的不同聚类簇V′1,V′2…,V′k
(4.2)根据4.1步骤中测试集数据得到的不同聚类结果V′1,V′2…,V′k,针对每个聚类簇的数据z′,根据z′所属的类别j,应用步骤3.3中得到的第j个非线性支持向量机分类模型进行分类,每一类簇的实验结果如表5所示。表5为各个类簇正样本测试结果。
类簇 1 2 3 4 5 6
精度 92% 89% 96% 94% 91% 88%
召回率 31% 33% 30% 30% 31% 36%
表5
从表5我们可以得到,本发明构建的医疗保险欺诈检测方法针对医疗保险数据中正常数据进行聚类,与异常数据构建了不同的分类超平面,对欺诈判断的平均准确率为91%,说明建立的医疗保险欺诈检测方法能够有效的检测多变的医疗保险欺诈模式,具有很好的实际意义。

Claims (3)

1.一种基于多特征的医疗保险欺诈检测方法,其特征在于,包括以下步骤:
(1)、针对某一种疾病,筛选得到医疗保险数据中患有该疾病的所有病人的治疗记录,将病人治疗记录中各种治疗项目(包括各种用药、检查、化验等治疗项目)的用量情况进行向量化;假设某一种疾病病人治疗记录的总数为N,涉及的治疗项目的总数为m,则每一条病人治疗记录可向量化为xi=(xi,1,xi,2...,xi,m),1≤i≤N其中xi,j为第i条病人治疗记录中第j种治疗项目的用量;根据疾病所涉及的m种治疗项目,统计每种治疗项目在所有N条治疗记录中出现的频率,即治疗项目在N条记录中出现的次数与记录总数N的比值,分别记为p1,p2…,pm;
(2)、采用概率统计、高斯建模、特征融合等技术提取多种更具区分度的二级特征数据,将第i条病人治疗记录中提取的二级特征数据记为zi=(zi,l,zi,2...,zi,G),1≤i≤N,具体步骤如下:
(2.1)、计算每一条病人治疗记录i中常用治疗项目之间的平均共现率zi,1;定义记录中某治疗项目j的使用频率pj大于f%的为常用治疗项目,其中,f%”中的变量f为人工定义的阈值;对于某治疗记录中k个常用治疗项目,计算k个常用治疗项目中任意两种治疗项目a和治疗项目b的共现率pab,即同时采用治疗项目a和治疗项目b的记录数比上采用治疗项目a或治疗项目b的记录数;治疗记录i中常用治疗项目之间的平均共现率zi,1的计算公式为:
(2.2)、计算每一条病人治疗记录i中治疗方案的合理性;根据治疗记录i中各个治疗项目j在所有治疗记录中出现的频率pj,计算治疗记录i中治疗方案的合理性zi,2,计算公式为:其中l表示治疗记录i中使用的治疗项目的总数;
(2.3)、应用混合高斯建模技术提取每一条病人治疗记录中属于某大类治疗项目的用量或费用混合高斯模型的隶属概率;首先将治疗项目按照医院大类标准进行分类,可得H个大类,对于每一个大类,应用混合高斯建模技术可得某大类用量或费用随机向量x所满足的混合高斯模型为:其中r表示高斯模型的个数,aj为第j个单高斯模型在混合模型中占的权重,Nj则表示第j个高斯模型的概率密度函数,μj为所有二级特征向量第j维的均值总共可得2H个混合高斯分布;对于每一条病人治疗记录i提取该记录中属于某大类用量或费用混合高斯模型的隶属概率,其计算公式为:其中xi为序号为i的病人治疗记录,μj为所有二级特征向量第j维的均值用于度量该条病人记录中使用该大类治疗项目的用量或费用水平;对于每条病人记录可得余下的zi,3...,zi,G共2H个余下的二级特征;
(2.4)使用Z-score标准化方法标准化上面步骤中得到的G维二级特征向量zi=(zi,1,zi,2...,zi,G),1≤i≤N;对每一维度j,采用公式进行标准化,其中μj为所有二级特征向量第j维的均值,σj为所有二级特征向量第j维的标准差,得到标准化后的G维二级特征向量z′i=(z′i,1,z′i,2...,z′i,G),1≤i≤N,其中,z′i和z′i,j分别为标准化后的G维二级特征向量和标准化后的G维二级特征向量中的分量;
(3)、为了建立医疗保险欺诈检测模型,首先采用专家标注的方法,将治疗记录中的数据标注为“正常”和“欺诈”两种类型;然后针对数据集中标注为“正常”的样本数据,采用聚类分析技术对正常样本数据所对应的标准化后的G维二级特征向量z′i=(z′i,1,z′i,2…,z′i,G),1≤i≤i≤N进行聚类;最后采用非线性支持向量机分类技术将聚类后的每一类正常治疗数据分别与标注为“欺诈”的治疗数据建立多个分类超平面,以实现对医疗保险的欺诈检测;具体步骤如下:
(3.1)采用k-means算法确定最优的聚类数目K;应用误差平方和最小公式(其中z′为属于第j个类簇Cj的标准化后的G维二级特征向量,为第个类簇Cj的标准化后的G维二级特征均值向量)选取误差平方和(Sum of SquaredError)最小的K值作为聚类的结果,得到K个类簇C1,C2...,CK
(3.2)将上面步骤中得到的K值作为混合高斯模型中高斯分布的数目,应用混合高斯聚类模型,将数据集中标注“正常”的样本数据聚为K个类簇V1,V2...,VK
(3.3)、采用非线性支持向量机分类算法,将步骤3.2中得到的正常样本数据的K个类簇V1,V2…,Vk分别与数据集中的欺诈样本数据建立分类平面,得到K个分类模型;分类模型中采用的非线性支持向量机的分类决策函数的公式为其中ai是求解引入的拉格朗日乘子,yi是指标准化后的G维二级特征向量z′i对应的标签,即用-1和1表示对应的记录是否为欺诈样本数据,z′为待分类识别的样本数据,K(z′i,z′)为选取的核函数,b是截距;
(4)、应用步骤3中得到的医疗保险欺诈检测模型,对待识别的医疗保险数据进行欺诈检测;具体步骤如下:
(4.1)将测试集数据应用步骤3.2中得到的混合高斯模型,对测试集数据进行聚类分析,得到测试集所属于的不同聚类簇V′1,V′2...,V′K
(4.2)根据4.1步骤中测试集数据得到的不同聚类结果V′1,V′2...,V′K,针对每个聚类簇的数据z′,根据z′所属的类别j,应用步骤3.3中得到的第j个非线性支持向量机分类模型进行分类,根据分类结果输出对应的该治疗记录是否存在欺诈。
2.根据权利要求1所述的一种基于多特征的医疗保险欺诈检测方法,其特征在于步骤(2.3)所述的应用混合高斯建模技术提取每一条病人治疗记录中属于某大类治疗项目的用量或费用混合高斯模型的隶属概率,将得到的每个大类的用量或费用的隶属概率作为二级特征向量的一部分。
3.根据权利要求1所述的一种基于多特征的医疗保险欺诈检测方法,其特征在于步骤3.3所述的将步骤3.2中得到的正常样本数据的K个类簇V1,V2...,VK分别与数据集中的欺诈样本数据建立分类平面,得到K个分类模型。
CN201510492558.0A 2015-08-12 2015-08-12 一种基于多特征的医疗保险欺诈检测方法 Active CN105159948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510492558.0A CN105159948B (zh) 2015-08-12 2015-08-12 一种基于多特征的医疗保险欺诈检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510492558.0A CN105159948B (zh) 2015-08-12 2015-08-12 一种基于多特征的医疗保险欺诈检测方法

Publications (2)

Publication Number Publication Date
CN105159948A CN105159948A (zh) 2015-12-16
CN105159948B true CN105159948B (zh) 2019-04-02

Family

ID=54800804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510492558.0A Active CN105159948B (zh) 2015-08-12 2015-08-12 一种基于多特征的医疗保险欺诈检测方法

Country Status (1)

Country Link
CN (1) CN105159948B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106959954A (zh) * 2016-01-11 2017-07-18 华院数据技术(上海)有限公司 一种用于检测异常性医保报销条目的系统与方法
CN106981039B (zh) * 2016-06-30 2018-03-27 平安科技(深圳)有限公司 数据生成方法和装置
CN106326642A (zh) * 2016-08-16 2017-01-11 成都中医药大学 基于大数据分析建立医疗诊费点阵模型的方法
CN108268886B (zh) * 2017-01-04 2020-10-30 中国移动通信集团四川有限公司 用于识别外挂操作的方法及系统
CN106874658A (zh) * 2017-01-18 2017-06-20 天津艾登科技有限公司 一种基于主成分分析算法的医保欺诈识别方法
CN107657536B (zh) * 2017-02-20 2018-07-31 平安科技(深圳)有限公司 社保欺诈行为的识别方法和装置
CN107133437B (zh) * 2017-03-03 2018-09-14 平安医疗健康管理股份有限公司 监控药品使用的方法及装置
CN107785057B (zh) * 2017-06-19 2021-05-11 平安医疗健康管理股份有限公司 医疗数据处理方法、装置、存储介质和计算机设备
CN109934719A (zh) * 2017-12-18 2019-06-25 北京亚信数据有限公司 医保违规行为的检测方法及检测装置、医保控费系统
CN108596770B (zh) * 2017-12-29 2022-04-01 山大地纬软件股份有限公司 基于离群值分析的医疗保险欺诈检测装置及方法
CN108346036A (zh) * 2018-03-06 2018-07-31 平安科技(深圳)有限公司 保险保单集中核单方法、电子装置及可读存储介质
CN108805729A (zh) * 2018-06-14 2018-11-13 四川久远银海软件股份有限公司 一种异常就医轨迹判断方法与装置
CN110648734B (zh) * 2018-06-27 2022-04-22 清华大学 一种基于均值的识别医疗中的异常案例的方法及装置
CN109118376A (zh) * 2018-08-14 2019-01-01 平安医疗健康管理股份有限公司 医疗保险保费定价方法、装置、计算机设备和存储介质
CN109600752B (zh) * 2018-11-28 2022-01-14 国家计算机网络与信息安全管理中心 一种深度聚类诈骗检测的方法和装置
CN109598628B (zh) * 2018-11-30 2022-09-20 平安医疗健康管理股份有限公司 医保欺诈行为的识别方法、装置、设备及可读存储介质
CN109616185A (zh) * 2018-12-13 2019-04-12 平安医疗健康管理股份有限公司 检测违规开具检查项目行为的方法及相关设备
CN109636632A (zh) * 2018-12-13 2019-04-16 平安医疗健康管理股份有限公司 基于机器学习的保险理赔方法、装置、设备及存储介质
CN109635112A (zh) * 2018-12-13 2019-04-16 平安医疗健康管理股份有限公司 异常透析数据筛选方法、装置、设备及存储介质
CN109637667A (zh) * 2018-12-13 2019-04-16 平安医疗健康管理股份有限公司 异常糖尿病数据检测方法、装置、设备及存储介质
CN109669935A (zh) * 2018-12-13 2019-04-23 平安医疗健康管理股份有限公司 检查数据筛选方法、装置、设备及存储介质
CN109543774B (zh) * 2018-12-13 2022-10-14 平安医疗健康管理股份有限公司 异常血透配比检测方法、装置、设备及计算机存储介质
CN109934723B (zh) * 2019-02-27 2021-06-18 生活空间(沈阳)数据技术服务有限公司 一种医保欺诈行为识别方法、装置及设备
CN110009516A (zh) * 2019-04-01 2019-07-12 太平洋医疗健康管理有限公司 医保智能审核方法及系统
CN111127207B (zh) * 2019-12-28 2023-06-09 哈尔滨工业大学 一种基于区块链的药品销售欺诈行为的监管系统及其监管方法
CN111709845A (zh) * 2020-06-01 2020-09-25 青岛国新健康产业科技有限公司 医保欺诈行为识别方法、装置、电子设备及存储介质
CN111948531A (zh) * 2020-09-14 2020-11-17 山东电工电气集团有限公司 基于多参量提取的有载分接开关带电检测方法
CN113657548A (zh) * 2021-08-31 2021-11-16 平安医疗健康管理股份有限公司 医保异常检测方法、装置、计算机设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102013084A (zh) * 2010-12-14 2011-04-13 江苏大学 用于检测医疗保险门诊欺诈性交易的系统和方法
CN102713960A (zh) * 2009-08-17 2012-10-03 大都会人寿保险公司 保险承保的在线系统和方法
CN102945235A (zh) * 2011-08-16 2013-02-27 句容今太科技园有限公司 面向医疗保险违规和欺诈行为的数据挖掘系统
CN103810637A (zh) * 2013-12-17 2014-05-21 深圳市般若计算机系统有限公司 机动车保险欺诈检测方法及系统
CN104134092A (zh) * 2014-08-08 2014-11-05 平安养老保险股份有限公司 一种医保报销行为监控系统及监控方法
CN104133810A (zh) * 2014-08-08 2014-11-05 平安养老保险股份有限公司 一种医保报销资格校验系统及医保报销资格校验方法
CN104408547A (zh) * 2014-10-30 2015-03-11 浙江网新恒天软件有限公司 一种基于数据挖掘的医保欺诈行为的检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080077451A1 (en) * 2006-09-22 2008-03-27 Hartford Fire Insurance Company System for synergistic data processing
US20130006657A1 (en) * 2011-06-30 2013-01-03 Verizon Patent And Licensing Inc. Reporting and analytics for healthcare fraud detection information

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102713960A (zh) * 2009-08-17 2012-10-03 大都会人寿保险公司 保险承保的在线系统和方法
CN102013084A (zh) * 2010-12-14 2011-04-13 江苏大学 用于检测医疗保险门诊欺诈性交易的系统和方法
CN102945235A (zh) * 2011-08-16 2013-02-27 句容今太科技园有限公司 面向医疗保险违规和欺诈行为的数据挖掘系统
CN103810637A (zh) * 2013-12-17 2014-05-21 深圳市般若计算机系统有限公司 机动车保险欺诈检测方法及系统
CN104134092A (zh) * 2014-08-08 2014-11-05 平安养老保险股份有限公司 一种医保报销行为监控系统及监控方法
CN104133810A (zh) * 2014-08-08 2014-11-05 平安养老保险股份有限公司 一种医保报销资格校验系统及医保报销资格校验方法
CN104408547A (zh) * 2014-10-30 2015-03-11 浙江网新恒天软件有限公司 一种基于数据挖掘的医保欺诈行为的检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
数据挖掘在医疗保险理赔分析中的应用;李娜娜;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130915;第I138-277页
数据挖掘技术在保险客户理赔分析中的应用;陈希 等;《知识丛林》;20100228;第154-157页

Also Published As

Publication number Publication date
CN105159948A (zh) 2015-12-16

Similar Documents

Publication Publication Date Title
CN105159948B (zh) 一种基于多特征的医疗保险欺诈检测方法
Sahu et al. A hybrid approach for breast cancer classification and diagnosis
Folego et al. Alzheimer's disease detection through whole-brain 3D-CNN MRI
Mehmood et al. Machine learning assisted cervical cancer detection
Kothari et al. Histological image classification using biologically interpretable shape-based features
Ekina et al. Application of bayesian methods in detection of healthcare fraud
Sarkiss et al. Machine learning in neuro-oncology: can data analysis from 5346 patients change decision-making paradigms?
CN107895168A (zh) 数据处理的方法、数据处理的装置及计算机可读存储介质
Archana et al. A novel deep learning-based brain tumor detection using the Bagging ensemble with K-nearest neighbor
Powell et al. Identification of histological correlates of overall survival in lower grade gliomas using a bag-of-words paradigm: a preliminary analysis based on hematoxylin & eosin stained slides from the lower grade glioma cohort of the cancer genome atlas
Da Silva et al. PCA and Gaussian noise in MLP neural network training improve generalization in problems with small and unbalanced data sets
CN108898316A (zh) 理赔费用预警方法及系统
Sachdeva et al. A dual neural network ensemble approach for multiclass brain tumor classification
Cui et al. Improving the prediction of benign or malignant breast masses using a combination of image biomarkers and clinical parameters
Bahadure et al. Feature extraction and selection with optimization technique for brain tumor detection from MR images
Sapna et al. Computer-aided system for Leukocyte nucleus segmentation and Leukocyte classification based on nucleus characteristics
Doyle et al. Predicting future disease activity and treatment responders for multiple sclerosis patients using a bag-of-lesions brain representation
Rampun et al. Breast density classification using local ternary patterns in mammograms
Shan et al. Lung cancer diagnosis based on an ann optimized by improved teo algorithm
Durán-Rosal et al. Ordinal classification of the affectation level of 3D-images in Parkinson diseases
Glotsos et al. Improving accuracy in astrocytomas grading by integrating a robust least squares mapping driven support vector machine classifier into a two level grade classification scheme
Al-Sideiri et al. Machine learning algorithms for diabetes prediction: A review paper
Biswas et al. Mri brain tumor classification technique using fuzzy c-means clustering and artificial neural network
Vijithananda et al. Texture feature analysis of MRI-ADC images to differentiate glioma grades using machine learning techniques
Ma et al. [Retracted] Research on Sports Health Care Information System Based on Computer Deep Learning Algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant