CN105159948B

CN105159948B - 一种基于多特征的医疗保险欺诈检测方法

Info

Publication number: CN105159948B
Application number: CN201510492558.0A
Authority: CN
Inventors: 不公告发明人
Original assignee: Chengdu Shu Lian Yi Kang Technology Co Ltd
Current assignee: Chengdu Shu Lian Yi Kang Technology Co Ltd
Priority date: 2015-08-12
Filing date: 2015-08-12
Publication date: 2019-04-02
Anticipated expiration: 2035-08-12
Also published as: CN105159948A

Abstract

本发明公开了一种基于多特征的医疗保险数据欺诈检测方法。该方法针对医疗保险申报数据中患有某一种疾病的所有病人的治疗记录，结合医药分类知识，采用概率统计、混合高斯建模、特征融合等技术提取多种更具区分度的二级特征数据，再基于二级特征数据对病人的治疗记录进行向量化，然后通过将标注为“正常”的治疗数据进行聚类分析后，采用非线性支持向量机分类技术将聚类后的每一类正常治疗数据分别与标注为“欺诈”的治疗数据建立多个分类超平面，以实现对未标注的医疗保险数据进行欺诈检测。该方法能快速、有效地检测医疗保险数据中存在的欺诈数据，具有较高的准确性。

Description

一种基于多特征的医疗保险欺诈检测方法

技术领域

本发明涉及欺诈检测识别领域，具体的说是一种医疗保险欺诈行为基于多特征的检测方法和系统。

背景技术

在医疗保障社会体系中，每天都有数以万计的门诊、医院医疗行为的交易数据在发生，交易主要包括病人与医疗机构的交易，医疗机构与保险机构的交易。目前，现有的医疗保险处理系统处理支付交易的时候会存在一些弊端，就是无法识别是否真正的病人需求，容易导致参保人或医疗机构从中谋取利益。据《金融时报》报道，美国政府采用大数据方法鉴别以及间距医保欺诈行为节省了数十亿美元的医疗保险金，在我国同样具有很大的医疗欺诈行为存在，这些行为严重影响了医疗保险基金的收支平衡，侵害了参保人的利益。

当前国内外现有研究来看，医疗保险欺诈检测识别方法主要分为两大类，即监督学习方法(supervised learning method)与非监督学习方法(unsupervised learningmethod)。监督学习方法是指使用数据中部分训练样本中所包含的标注信息(即该样本是否属于欺诈案件)，而获取欺诈相关因子，这类方法包括贝叶斯分类器，BP神经网络分类器等。与之相对，非监督学习方法并不依赖与标注信息，而是直接从自变量中发掘识别欺诈相关因子，这类方法包括聚类分析，非辅助的神经网络分析等。随着医疗保险欺诈模式越来越多，现有的欺诈方法越来越难以有效的检测到多变的欺诈案例。

因此，如何开发一种高效且准确率高的欺诈行为识别检测方式已成为亟待解决的问题。

发明内容

本发明针对当前医疗保险欺诈模式多样的问题，提出了一种基于多特征提取的医疗保险欺诈检测方法。该方法针对医疗保险原始数据并结合医药分类知识，提取新的更具有区分度的二级特征数据，然后将非欺诈数据进行聚类分析，每一类与欺诈数据建立分类平面。结合使用了概率统计、高斯建模技术、聚类、分类等方法。能有效适应医保数据记录中欺诈模式多变的情况，并具有良好的实际效果。

(1)、针对某一种疾病，筛选得到医疗保险数据中患有该疾病的所有病人的治疗记录，将病人治疗记录中各种治疗项目(包括各种用药、检查、化验等治疗项目)的用量情况进行向量化。假设某一种疾病病人治疗记录的总数为N，涉及的治疗项目的总数为m，则每一条病人治疗记录可向量化为x_i＝(x_i,1,x_i,2,…,x_i,m),1≤i≤N，其中x_ij为第i条病人治疗记录中第j种治疗项目的用量；根据疾病所涉及的m种治疗项目，统计每种治疗项目在所有N条治疗记录中出现的频率，即治疗项目在N条记录中出现的次数与记录总数N的比值，分别记为p₁,p₂…,p_m；

(2)、采用概率统计、高斯建模、特征融合等技术提取多种更具区分度的二级特征数据，将第i条病人治疗记录中提取的二级特征数据记为z_i＝(z_i,1,z_i,2,…,z_i,G),1≤i≤N，具体步骤如下：

(2.1)、计算每一条病人治疗记录i中常用治疗项目之间的平均共现率z_i,1。定义记录中某治疗项目j的使用频率p_j大于f％的为常用治疗项目。对于某治疗记录中k个常用治疗项目，计算k个常用治疗项目中任意两种治疗项目a和治疗项目b的共现率p_ab，即同时采用治疗项目a和治疗项目b的记录数比上采用治疗项目a或治疗项目b的记录数。治疗记录i中常用治疗项目之间的平均共现率z_i,1的计算公式为：

(2.2)、计算每一条病人治疗记录i中治疗方案的合理性。根据治疗记录i中各个治疗项目j在所有治疗记录中出现的频率p_j，计算治疗记录i中治疗方案的合理性z_i,2，计算公式为：其中l表示治疗记录i中使用的治疗项目的总数；

(2.3)、应用混合高斯建模技术提取每一条病人治疗记录中属于某大类治疗项目的用量或费用混合高斯模型的隶属概率。首先将治疗项目按照医院大类标准进行分类，可得H个大类，对于每一个大类，应用混合高斯建模技术可得某大类用量或费用随机向量x所满足的混合高斯模型为：其中r表示高斯模型的个数，a_j为第j个单高斯模型在混合模型中占的权重，N_j则表示第j个高斯模型的概率密度函数，总共可得2H个混合高斯分布。对于每一条病人治疗记录i提取该记录中属于某大类用量或费用混合高斯模型的隶属概率，其计算公式为：用于度量该条病人记录中使用该大类治疗项目的用量或费用水平。对于每条病人记录可得余下的z_i,3…,z_i,G共2H个余下的二级特征；

(2.4)使用Z-score标准化方法标准化上面步骤中得到的G维二级特征向量z_i＝(z_i,1,z_i,2,…,z_i,G),1≤i≤N。对每一维度j，采用公式进行标准化，其中μ_j为所有二级特征向量第j维的均值，σ_j为所有二级特征向量第j维的标准差，得到标准化后的G维二级特征向量z′_i＝(z′_i,1,z′_i,2,…,z′_i,G),1≤i≤N；

(3)、为了建立医疗保险欺诈检测模型，首先采用专家标注的方法，将治疗记录中的数据标注为“正常”和“欺诈”两种类型；然后针对数据集中标注为“正常”的样本数据，采用聚类分析技术对正常样本数据所对应的标准化后的G维二级特征向量z′_i＝(z′_i,1,z′_i,2,…,z′_i,G)进行聚类；最后采用非线性支持向量机分类技术将聚类后的每一类正常治疗数据分别与标注为“欺诈”的治疗数据建立多个分类超平面，以实现对医疗保险的欺诈检测。具体步骤如下：

(3.1)采用k-means算法确定最优的聚类数目K。应用误差平方和最小公式(其中z′为属于第j个类簇C_j的标准化后的G维二级特征向量，为第个类簇C_j的标准化后的G维二级特征均值向量)选取误差平方和(Sum of Squared Error)最小的K值作为聚类的结果，得到K个类簇C₁,C₂…,C_k；

(3.2)将上面步骤中得到的K值作为混合高斯模型中高斯分布的数目，应用混合高斯聚类模型，将数据集中标注“正常”的样本数据聚为K个类簇V₁,V₂…,V_k；

(3.3)、采用非线性支持向量机分类算法，将步骤3中得到的正常样本数据的K个类簇V₁,V₂…,V_k分别与数据集中的欺诈样本数据建立分类平面，得到K个分类模型。分类模型中采用的非线性支持向量机的分类决策函数的公式为：其中α_i是求解引入的拉格朗日乘子，y_i是指标准化后的G维二级特征向量z′_i对应的标签，即用-1和1表示对应的记录是否为欺诈样本数据，z′为待分类识别的样本数据，K(z′_i,z′)为选取的核函数，b是截距。；

(4)、应用步骤3中得到的医疗保险欺诈检测模型，对待识别的医疗保险数据进行欺诈检测。具体步骤如下：

(4.1)将测试集数据应用步骤3.2中得到的混合高斯模型，对测试集数据进行聚类分析，得到测试集所属于的不同聚类簇V′₁,V′₂…,V′_k；

(4.2)根据4.1步骤中测试集数据得到的不同聚类结果V′₁,V′₂…,V′_k，针对每个聚类簇的数据z′，根据z′所属的类别j，应用步骤3.3中得到的第j个非线性支持向量机分类模型进行分类，根据分类结果输出对应的该治疗记录是否存在欺诈，同时检验我们医疗保险欺诈检测方法的实用性；

附图说明

图1是本发明多特征提取医疗保险欺诈检测方法的流程图；

图2正常模式聚类后分别与欺诈模式建立分类超平面图。

具体实施方式

为了更清楚明白，结合实施实例，下面对本发明的具体实施方式进行描述，需要特别提醒注意的是，当采用已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将会被忽略。

本实施方案采用常见病糖尿病作为例子，数据是成都市某行政区一段时间内的医疗保险数据。

本实施实例中，医疗保险欺诈行为的检测方法包括以下步骤：

(1)、从数据中筛选出患有糖尿病的所有记录作为基础数据。数据记录中每个人一次住院具有很多条记录，总共有40多万条记录，将记录中同一病人在同一时间段内的多种治疗项目(包括各种用药、检查、化验等治疗项目)的用量情况整理为一条记录，做向量化处理。数据预处理后，得到糖尿病病人治疗记录总数为9831，糖尿病在记录中共涉及到5131种治疗项目，每一条病人治疗记录可向量化为x_i＝(x_i,1,x_i,2,…,x_i,5131),1≤i≤9831。

具体如表1所示的向量化的治疗记录。

表1

根据糖尿病涉及的5131种治疗项目，统计每种治疗项目在9831条治疗记录中出现的频率，即每种治疗项目在9831条记录中出现的次数与记录总数9831的比值，得到的结果记录为p₁,p₂…,p₅₁₃₁

(2)、采用概率统计、高斯建模、特征融合等技术提取多种更具区分度的二级特征数据，将第i条病人治疗记录提取得到40维的特级特征，特征向量表示为z_i＝(z_i,1,z_i,2,…,z_i,40),1≤i≤9831，具体步骤如下：

(2.1)、计算每一条病人治疗记录i中常用治疗项目之间的平均共现率z_i,1。定义记录中某治疗项目j的使用频率p_j大于2％的为常用治疗项目。对于表1示例的治疗记录，计算可得到有3种常用治疗项目，计算这3种常用治疗项目中任意两种治疗项目a和治疗项目b的共现率p_ab，即同时采用治疗项目a和治疗项目b的记录数比上采用治疗项目a或治疗项目b的记录数。治疗记录i中常用治疗项目之间的平均共现率z_i,1的计算公式为：

(2.2)、计算每一条病人治疗记录i中治疗方案的合理性。根据表1治疗记录i中各个治疗项目j在所有治疗记录中出现的频率p_j，计算治疗记录i中治疗方案的合理性z_i,2，计算公式为：其中l表示治疗记录i中使用的治疗项目的总数，即药物用量大于0的治疗项目。

(2.3)、应用混合高斯建模技术提取每一条病人治疗记录中属于某大类治疗项目的用量或费用混合高斯模型的隶属概率。首先将治疗项目按照医院大类标准进行分类，可得19个大类，对于每一个大类，将每条病人治疗记录中筛选出该大类的治疗项目，得到对应的用量或费用向量x。如表2，表2为某记录i的某大类用量向量和费用向量。

用量向量(次)	2，1，1，9，2，1，1，1……
		费用向量(元)	117.6，210，234.45，107，145，860，21.12，163.41……

表2

应用混合高斯建模技术可得某大类用量或费用随机向量x所满足的混合高斯模型为：每个混合高斯模型是由2个高斯分量组成，a_j为第j个高斯分量在混合模型中占的权重，N_j则表示第j个高斯分量的概率密度函数，总共可得38个混合高斯分布。对于每一条病人治疗记录i提取该记录中属于某大类用量或费用混合高斯模型的隶属概率，其计算公式为：用于度量该条病人记录中使用该大类治疗项目的用量或费用水平。对于每条病人记录可得余下的z_i,3…,z_i,40共38个余下的二级特征。

(2.4)、使用Z-score标准化方法标准化上面步骤中得到的40维二级特征向量z_i＝(z_i,1,z_i,2,…,z_i,40)。对每一维度j，采用公式进行标准化，其中μ_j为所有二级特征向量第j维的均值，σ_j为所有二级特征向量第j维的标准差，得到标准化后的40维二级特征向量z′_i＝(z′_i,1,z′_i,2,…,z′_i,40),1≤i≤9831。

(3)在医疗保险数据中正常行为模式往往是较为稳定存在的，而欺诈异常模式则是多样且不固定的，因此可以将数据中正常行为模式聚出特定的类别，将正常行为模式聚类后每个类别与欺诈数据建立分类超平面。通过聚类缩小数据范围然后与欺诈样本数据建立分类平面，更能有效的适应多变的欺诈模式。如图2所示。

为了建立医疗保险欺诈检测模型，首先采用专家标注的方法，将治疗记录中的数据标注为“正常”和“欺诈”两种类型；接着将2.4步骤中得到的40维度的二维特征向量分为训练集和测试集。然后针对训练集数据中标注为“正常”的样本数据，采用聚类分析技术对正常样本数据所对应的标准化后的G维二级特征向量z′_i＝(z′_i,1,z′_i,2,…,z′_i,G)进行聚类；最后采用非线性支持向量机分类技术将聚类后的每一类正常治疗数据分别与训练集中标注为“欺诈”的治疗数据建立多个分类超平面，以实现对医疗保险的欺诈检测。具体步骤如下：

(3.1)采用k-means算法确定最优的聚类数目K，应用误差平方和最小公式(其中z′为属于第j个类簇C_j的标准化后的G维二级特征向量，为第j个类簇C_j的标准化后的G维二级特征均值向量)选取误差平方和(Sum of Squared Error)最小的K值作为聚类的结果，在本案例中K为6，得到6个类簇C₁,C₂…,C₆。

(3.2)将3.1聚类步骤中得到的K值以及聚类结果作为混合高斯模型的初值，即将聚类数目6以及每个类簇对应的均值和协方差矩阵作为混合高斯模型中高斯分量的初值，应用混合高斯聚类模型，将数据集中标注的非欺诈样本数据聚为6个类簇V₁,V₂…,V₆。6个聚类簇的结果如表3：表3为高斯混合模型聚类结果

类簇	1	2	3	4	5	6
							权值α<sub>i</sub>	0.214	0.106	0.301	0.163	0.113	0.103
样本数目	2069	1025	2910	1576	1092	996

表3

(3.3)根据正常样本聚类结果，将每个类别与欺诈数据建立分类超平面。本实施案例中，采用非线性支持向量机分类算法，将步骤3.2中得到的非欺诈样本数据的6个类簇V₁,V₂…,V₆分别与数据集中的欺诈样本数据建立分类平面，得到6个分类模型。分类模型中采用的非线性支持向量机的分类决策函数的公式为：其中α_i是求解引入的拉格朗日乘子，y_i是指标准化后的40维二级特征向量z′_i对应的标签，即用-1和1表示对应的记录是否为欺诈样本数据，z′为待分类识别的样本数据，K(z′_i,z′)为选取的核函数，在本实施案例中选取的是径向基核函数，b是截距。

非线性支持向量机的分类决策函数采用了径向基核函数(RBF)，因为正负样本,不均衡，为更好的得到训练模型，需要设置模型的惩罚系数C、径向基核函数的系数γ和正负样本间的权重，在对不同的聚类簇与欺诈样本数据建立模型过程中，系数会做适当的调整，以得到更好的分类模型。表4是各个类簇的参数设置。上述参数下，模型表现最优。表4为各个类簇参数设置。

类簇	1	2	3	4	5	6
							惩罚系数C	0.01	0.01	0.1	0.01	0.01	0.1
RBF参数γ	0.00001	0.00001	0.00001	0.00001	0.00001	0.00001
							正负样本权重	1:15	1:7	1:18	1:10	1:7	1:5

表4

(4)、应用步骤3中得到的医疗保险欺诈检测模型，对待识别的测试集医疗保险数据进行欺诈检测。具体步骤如下：

(4.1)将测试集数据应用步骤3.2中得到的混合高斯模型，对测试集数据进行聚类分析，得到测试集所属于的不同聚类簇V′₁,V′₂…,V′_k。

(4.2)根据4.1步骤中测试集数据得到的不同聚类结果V′₁,V′₂…,V′_k，针对每个聚类簇的数据z′，根据z′所属的类别j，应用步骤3.3中得到的第j个非线性支持向量机分类模型进行分类，每一类簇的实验结果如表5所示。表5为各个类簇正样本测试结果。

类簇

1

2

3

4

5

6

精度

92％

89％

96％

94％

91％

88％

召回率

31％

33％

30％

31％

36％

表5

从表5我们可以得到，本发明构建的医疗保险欺诈检测方法针对医疗保险数据中正常数据进行聚类，与异常数据构建了不同的分类超平面，对欺诈判断的平均准确率为91％，说明建立的医疗保险欺诈检测方法能够有效的检测多变的医疗保险欺诈模式，具有很好的实际意义。

Claims

1.一种基于多特征的医疗保险欺诈检测方法，其特征在于，包括以下步骤：

(1)、针对某一种疾病，筛选得到医疗保险数据中患有该疾病的所有病人的治疗记录，将病人治疗记录中各种治疗项目(包括各种用药、检查、化验等治疗项目)的用量情况进行向量化；假设某一种疾病病人治疗记录的总数为N，涉及的治疗项目的总数为m，则每一条病人治疗记录可向量化为x_i＝(x_i，1，x_i，2...，x_i，m)，1≤i≤N其中x_i，j为第i条病人治疗记录中第j种治疗项目的用量；根据疾病所涉及的m种治疗项目，统计每种治疗项目在所有N条治疗记录中出现的频率，即治疗项目在N条记录中出现的次数与记录总数N的比值，分别记为p1,p2…,pm；

(2)、采用概率统计、高斯建模、特征融合等技术提取多种更具区分度的二级特征数据，将第i条病人治疗记录中提取的二级特征数据记为z_i＝(z_i，l，z_i，2...，z_i，G)，1≤i≤N,具体步骤如下：

(2.1)、计算每一条病人治疗记录i中常用治疗项目之间的平均共现率z_i，1；定义记录中某治疗项目j的使用频率p_j大于f％的为常用治疗项目，其中，f％”中的变量f为人工定义的阈值；对于某治疗记录中k个常用治疗项目，计算k个常用治疗项目中任意两种治疗项目a和治疗项目b的共现率p_ab，即同时采用治疗项目a和治疗项目b的记录数比上采用治疗项目a或治疗项目b的记录数；治疗记录i中常用治疗项目之间的平均共现率z_i，1的计算公式为：

(2.2)、计算每一条病人治疗记录i中治疗方案的合理性；根据治疗记录i中各个治疗项目j在所有治疗记录中出现的频率p_j，计算治疗记录i中治疗方案的合理性z_i，2，计算公式为：其中l表示治疗记录i中使用的治疗项目的总数；

(2.3)、应用混合高斯建模技术提取每一条病人治疗记录中属于某大类治疗项目的用量或费用混合高斯模型的隶属概率；首先将治疗项目按照医院大类标准进行分类，可得H个大类，对于每一个大类，应用混合高斯建模技术可得某大类用量或费用随机向量x所满足的混合高斯模型为：其中r表示高斯模型的个数，a_j为第j个单高斯模型在混合模型中占的权重，N_j则表示第j个高斯模型的概率密度函数，μ_j为所有二级特征向量第j维的均值总共可得2H个混合高斯分布；对于每一条病人治疗记录i提取该记录中属于某大类用量或费用混合高斯模型的隶属概率，其计算公式为：其中x_i为序号为i的病人治疗记录，μ_j为所有二级特征向量第j维的均值用于度量该条病人记录中使用该大类治疗项目的用量或费用水平；对于每条病人记录可得余下的z_i，3...，z_i，G共2H个余下的二级特征；

(2.4)使用Z-score标准化方法标准化上面步骤中得到的G维二级特征向量z_i＝(z_i，1，z_i，2...，z_i，G)，1≤i≤N；对每一维度j，采用公式进行标准化，其中μ_j为所有二级特征向量第j维的均值，σ_j为所有二级特征向量第j维的标准差，得到标准化后的G维二级特征向量z′_i＝(z′_i，1，z′_i，2...，z′_i，G)，1≤i≤N，其中，z′_i和z′_i，j分别为标准化后的G维二级特征向量和标准化后的G维二级特征向量中的分量；

(3)、为了建立医疗保险欺诈检测模型，首先采用专家标注的方法，将治疗记录中的数据标注为“正常”和“欺诈”两种类型；然后针对数据集中标注为“正常”的样本数据，采用聚类分析技术对正常样本数据所对应的标准化后的G维二级特征向量z′_i＝(z′_i，1，z′_i，2…，z′_i，G)，1≤i≤i≤N进行聚类；最后采用非线性支持向量机分类技术将聚类后的每一类正常治疗数据分别与标注为“欺诈”的治疗数据建立多个分类超平面，以实现对医疗保险的欺诈检测；具体步骤如下：

(3.1)采用k-means算法确定最优的聚类数目K；应用误差平方和最小公式(其中z′为属于第j个类簇C_j的标准化后的G维二级特征向量，为第个类簇C_j的标准化后的G维二级特征均值向量)选取误差平方和(Sum of SquaredError)最小的K值作为聚类的结果，得到K个类簇C₁，C₂...，C_K；

(3.2)将上面步骤中得到的K值作为混合高斯模型中高斯分布的数目，应用混合高斯聚类模型，将数据集中标注“正常”的样本数据聚为K个类簇V₁，V₂...，V_K；

(3.3)、采用非线性支持向量机分类算法，将步骤3.2中得到的正常样本数据的K个类簇V₁，V₂…，V_k分别与数据集中的欺诈样本数据建立分类平面，得到K个分类模型；分类模型中采用的非线性支持向量机的分类决策函数的公式为其中a_i是求解引入的拉格朗日乘子，y_i是指标准化后的G维二级特征向量z′_i对应的标签，即用-1和1表示对应的记录是否为欺诈样本数据，z′为待分类识别的样本数据，K(z′_i，z′)为选取的核函数，b是截距；

(4)、应用步骤3中得到的医疗保险欺诈检测模型，对待识别的医疗保险数据进行欺诈检测；具体步骤如下：

(4.1)将测试集数据应用步骤3.2中得到的混合高斯模型，对测试集数据进行聚类分析，得到测试集所属于的不同聚类簇V′₁，V′₂...，V′_K；

(4.2)根据4.1步骤中测试集数据得到的不同聚类结果V′₁，V′₂...，V′_K，针对每个聚类簇的数据z′，根据z′所属的类别j，应用步骤3.3中得到的第j个非线性支持向量机分类模型进行分类，根据分类结果输出对应的该治疗记录是否存在欺诈。

2.根据权利要求1所述的一种基于多特征的医疗保险欺诈检测方法，其特征在于步骤(2.3)所述的应用混合高斯建模技术提取每一条病人治疗记录中属于某大类治疗项目的用量或费用混合高斯模型的隶属概率，将得到的每个大类的用量或费用的隶属概率作为二级特征向量的一部分。

3.根据权利要求1所述的一种基于多特征的医疗保险欺诈检测方法，其特征在于步骤3.3所述的将步骤3.2中得到的正常样本数据的K个类簇V₁，V₂...，V_K分别与数据集中的欺诈样本数据建立分类平面，得到K个分类模型。