CN105279382A

CN105279382A - 一种医疗保险异常数据在线智能检测方法

Info

Publication number: CN105279382A
Application number: CN201510760477.4A
Authority: CN
Inventors: 付波; 李民强; 沈磊; 张岩龙; 邓军
Original assignee: Chengdu Shu Lian Yi Kang Technology Co Ltd
Current assignee: Chengdu Shu Lian Yi Kang Technology Co Ltd
Priority date: 2015-11-10
Filing date: 2015-11-10
Publication date: 2016-01-27
Anticipated expiration: 2035-11-10
Also published as: CN105279382B

Abstract

本发明公开了一种医疗保险异常数据在线智能检测方法，包括训练数据集获取步骤S1、在线学习步骤S2和在线检测步骤S3。本发明提供一种医疗保险异常数据在线智能检测方法，首先对原始医保数据进行筛选，得到可疑特征数据簇，再对可疑特征数据簇中的数据进行人工审核标注，训练模型利用标注后的数据进行在线学习，将训练成熟后的模型用于医保数据的在线自动检测，大大减少人工检测的劳动成本，同时可有效提高异常医保数据检测的准确率，从而能够使得医保基金使用更加合理应用到老百姓的就医中，防止了医保欺诈行为。

Description

一种医疗保险异常数据在线智能检测方法

技术领域

本发明涉及一种医疗保险异常数据在线智能检测方法。

背景技术

随着社会经济的发展，国家为了给老百姓提供更好的医保环境，医保政策越来越好。然而，总有一些人通过各种各样的手段来骗取医保。

当前的医疗保险，行业整体业务经营与管理比较粗放，缺乏风险把控；粗放的理赔服务和条款赔付，缺乏对疾病治疗的深度分析、医疗费用的风险把控、医疗服务的合理性判断，导致大量欺诈、不合理医疗，严重损害了其他真正需要医保救治人的权益，给危害了国家医疗保险制度。

对于这种问题，一般可以通过分析医保人员的就医数据，从而帮助社保机构检测出异常数据；然而，面对医院每天产生的原始医保数据，如果仅通过人工手段来进行异常检测的话，不仅速度慢，浪费人力，且难保证准确度，再加上医院每天的数据都是动态增加，加大了人工处理的难度；因此，目前采用数据挖掘技术是发现医保异常数据的重要智能化手段。

数据挖掘技术是发现数据潜在信息、揭示隐藏模型、预测发展趋势的重要技术手段；在金融、电信、商业和保险等行业广泛应用并取得成功；国内外医疗保险行业，常涉及定向营销策略制定、客户忠诚度分析、保险产品交叉销售等；IBM研究中心的Marisa等人基于澳大利亚医疗机构，采用关联规则和神经分割技术，从GB级的数据中获取未知模式；MohitKumar等使用数据挖掘和机器学习技术，预测和预防保险公司在处理医疗保险申述过程中的支付错误、异常和欺诈检测；国内研究主要集中在基金风险和控制医疗费用增长上，采用简单规则的数据筛选方法，缺乏全面而强有力的大数据分析支持。

发明内容

本发明的目的在于克服现有技术的不足，提供一种医疗保险异常数据在线智能检测方法，首先对原始医保数据进行筛选，得到可疑特征数据簇，再对可疑特征数据簇中的数据进行人工审核标注，利用标注后的数据进行模型训练，将训练成熟后的模型用于医保数据的在线自动检测，大大减少人工检测的劳动成本，同时可有效提高异常医保数据检测的准确率，从而能够使得医保基金使用更加合理应用到老百姓的就医中，防止了医保欺诈行为。

本发明的目的是通过以下技术方案来实现的：一种医疗保险异常数据在线智能检测方法，包括以下步骤：

S1.训练数据集获取：提取原始医保数据并进行聚类和筛选得到可疑特征数据簇，对筛选出来的可疑特征数据簇中的数据进行人工审核和标注，并将标注后的数据加入待训练数据集；

S2.在线学习：训练模型利用标注后的可疑特征数据簇进行在线训练学习，直到训练模型的成熟度满足要求后，定义训练模型训练成熟，存储训练成熟的模型参数；

S3.在线检测：读取成熟的模型参数初始化相应模型，来对输入的医保数据进行在线检测和标记，根据标记结果判断医保数据是异常，将异常数据保存到异常数据库中。

所述的一种医疗保险异常数据在线智能检测方法，还包括一个检测修正步骤S4，包括以下子步骤：

S41.医保业务系统在使用检测后的医保数据时，发现数据检测结果与具体业务有差异，则调整检测标记值，并将有差异的数据存储到反馈数据库中；

S42.从反馈数据库提取数据，跳转至步骤S2，重新利用这部分数据进行训练和学习，从而调整模型参数，并将调整后的模型参数进行存储。

所述的步骤S1包括以下子步骤：

S11.从医保数据库中提取原始数据；

S12.构造数据筛选器，对提取的原始数据进行聚类和筛选，得到可疑数据特征簇C；

S13.将可疑数据特征簇C交由人工进行进一步判断；

S14.根据人工判断结果，对可疑数据特征簇C中的每条特征数据均使用标签x进行标注，并将标注后的数据加入待训练数据集作为待训练数据，标签x为0或者1，标签x为0是代表对应的特征数据为正常数据，标签x为1时代表对应的特征数据为异常数据。

所述的步骤S2包括以下子步骤：

S21.初始化训练模型的参数；

S22.从待训练数据集中提取待训练数据，采用训练模型对当前训练数据进行检测得到其检测值y；

S23.计算当前数据检测值y与标签x之间的差值，记为损失β＝|x-y|，利用损失β＝|x-y|对训练模型的参数进行调整；

S24.计算当前训练模型的成熟度，作为在线学习阶段模型成熟的依据；判断训练模型的成熟度是否满足预设条件：

(1)训练模型成熟度满足条件时，定义认为模型训练成熟，即可以使用，同时保存成熟模型的参数，训练结束；

(2)训练模型成熟度不满足条件时，保存当前的模型并且跳转至步骤S22，再次从待训练数据集中提取数据，在保存的当前模型的基础上,继续进行步骤S22到步骤S24的训练。

所述的步骤S3包括以下子步骤：

S31.读取成熟的模型参数初始化相应模型，生成模型实例；

S32.将当前待检测医保数据输入模型实例；

S33.模型实例检测当前输入的医保数据，得到当前医保数据的检测值,使用检测值标记当前输入的医保数据；

S34.根据当前医保数据的检测值，判断医保数据是否异常：

(1)医保数据正常，跳转至步骤S35；

(2)医保数据异常，将当前的医保数据存储到异常数据库中，并跳转至步骤S35；

S35.依次输入所有待检测的医保数据，每次输入数据后重复进行步骤S32～步骤S34，直到没有待检测医保数据输入为止。

所述的步骤S21包括以下子步骤:

S211.在训练模型中，预先存储医保系统中已知的所有数据特征项；

S212.对每一个数据特征项中所有可能出现的特征值分别赋予一个FTRL参数(FTRL参数为特征值参数，用于表征对应数据特征项的特征值)，并将所有FTRL参数均初始化为0；

S213.对每一个数据特征项中所有可能出现的特征值分别赋予一个FM参数(FM参数为特征关系参数，用于表示特征项之间的关系)，所述的FM参数为一列4维向量，并将FM参数初始化为高斯概率分布。

所述的步骤S22包括以下子步骤：

S221.将一条包含多个数据特征项M_i的训练数据M输入训练模型；i为大于0的整数，表示数据特征项M_i为训练数据M中的第i个特征项；

S222.根据每个数据特征项M_i的特征值，找到特征项对应的FTRL参数和FM参数；

S223.将训练数据M中所有FTRL参数相加，得到参数h1；

S224.将训练数据M中相邻特征项的FM参数相乘，再将所有得到的乘积进行求和，得到参数h2；

S225.将参数h1和参数h2相加，得到参数s，利用公式：求得训练数据M的检测值y。

所述的步骤S23包括以下子步骤：

S231.找到当前训练数据M的标签x,计算标签x与检测值y的差值，记为损失β＝|x-y|；

S232.依次调整当前训练数据M中每个数据特征项M_i对应的FTRL参数，对于每个数据特征项M_i，调整后的FTRL参数等于调整前的FTRL参数减去a与β的乘积：

w_i′＝w_i-a*β，

公式中，w_i′表示当前训练数据M中第i个特征项调整后的FTRL参数，w_i表示当前训练数据M中第i个特征项调整前的FTRL参数，i为大于0的整数，n表示模型当前已经学习的训练数据条数；

S233.依次调整当前训练数据M中每个数据特征项M_i对应的FM参数，对于每个数据特征项M_i，调整后的FM参数等于调整前的FM参数乘以(1-a*β)：

L_i′＝L_i-(a*β)L_i＝L_i*(1-a*β)，

公式中，L_i′表示当前训练数据M中第i个特征项调整后的FM参数，L_i表示当前训练数据M中第i个特征项调整前的FM参数，i为大于0的整数，n表示模型当前已经学习的训练数据条数。

步骤S24中所述的成熟度的计算公式为mature＝ε*rate,mature表示当前模型的成熟度，ε表示式中的因子权重，可以通过配置软件进行设定；rate表示模型的准确率，表示样本检测值与实际值的评估之间的差距。

预设条件指的是预先设定的成熟值，当计算得到的成熟度达到或者超过该值时，认为训练模型成熟度满足条件。

进一步地，成熟度的计算可以将准确率与log函数损失的权重组合来进行：mature＝ε*rate+(1-ε)loss；loss为log函数的损失，其具体获得为本领域的公知常识。

所述的步骤S33包括以下子步骤：

S331.将一条包含多个数据特征项M_i′的待测医保数据M′输入模型实例；i为大于0的整数，表示数据特征项M_i′为待测医保数据M′中的第i个特征项；

S332.根据每个数据特征项M_i′的特征值，找到特征项对应的FTRL参数和FM参数；

S333.将待测医保数据M′中所有FTRL参数相加，得到参数h1′；

S334.将待测医保数据M′中相邻特征项的FM参数相乘，再将所有得到的乘积进行求和，得到参数h2′；

S335.将参数h1′和参数h2′相加，得到参数u，利用公式：求得待测医保数据M′的检测值y′；

S336.判断当前医保数据M′的检测值y′的大小：

(1)如果y′＞0.5，更新y′，更新后的y′＝1；

(2)如果y′＜0.5，更新y′，更新后的y′＝0；

S337.利用更新后的检测值y′标记当前医保数据M′；

在步骤S34的判断中，若医保数据的标记值为0，代表医保数据正常，如医保数据标记值为1，代表医保数据异常。

步骤S12中所述的数据筛选器采用DBSCAN聚类算法进行构造。

本发明的有益效果是：首先对原始医保数据进行筛选，得到可疑特征数据簇，再对可疑特征数据簇中的数据进行人工审核标注，利用标注后的数据进行模型训练，将训练成熟后的模型用于医保数据的在线自动检测，大大减少人工检测的劳动成本，同时可有效提高异常医保数据检测的准确率，从而使得医保基金使用更加合理应用到老百姓的就医中，防止了医保欺诈行为。

附图说明

图1为本发明的流程图；

图2为训练数据集的获取流程图；

图3为训练模型在线学习流程图；

图4为成熟模型在线检测流程图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种医疗保险异常数据在线智能检测方法，包括以下步骤：

如图2所示,所述的步骤S1包括以下子步骤：

S11.从医保数据库中提取原始数据；

S13.将可疑数据特征簇C交由人工进行进一步判断；

如图3所示,所述的步骤S2包括以下子步骤：

S21.初始化训练模型的参数；

在训练模型中，存储医保系统中已知的所有数据特征项，(这里说的数据特征项可以包括是年龄、病症、地区的等)每个数据特征项都对应多个可能出现的特征值(如年龄特征值指的是对应的年龄如20岁、25岁、30岁等，病症特征值指病型，如肝病、胃病等)；

对训练模型中的每一个数据特征项中所有可能出现的特征值分别赋予一个FTRL参数(特征值参数)，并将所有FTRL参数均初始化为0，具体实现为：

利用hash表存储，对于训练模型中每一个数据特征项可能出现的特征值，对其hash生成索引，作为键，生成FTRL参数W[hash(M_i)]，并将每一项FTRL参数W[hash(M_i)]初始化为0，所有的FTRL参数形成W[]数组，在W[]数组中，hash(M_i)为数组下标，W[hash(M_i)]表示该数组下标对应的FTRL参数；W[]数组长度在2²²～2²⁴之间。

对每一个数据特征项中所有可能出现的特征值分别赋予一个FM参数(特征关系参数，用于表示特征项之间的关系)，所述的FM参数为一列4维向量，并将FM参数初始化为高斯概率分布，具体实现为：

利用hash表，采用词典存储，对于训练模型中每一个数据特征项可能出现的特征值，对其hash生成索引，作为键，生成FM参数FM[hash(M_i)],并将每一项FM参数FM[hash(M_i)]初始化为高斯概率分布；所有的FM参数形成FM[]数组，在FM[]数组中，hash(M_i)为数组下标，FM[hash(M_i)]表示数组下标对应的FM参数，FM[]数组长度也在在2²²～2²⁴之间。

S22.从待训练数据集中提取待训练数据，采用训练模型对训练数据进行检测得到其检测值y；

待训练数据集中的某一条训练数据M输入训练模型中时：训练数据一般具有多个特征项M_i，一条训练数据中特征项的个数是不确定的(可以是5个，10个，100个)，M_i的下标i表示该特征项是训练数据中的第i个特征项(i为大于0的整数)，在该条训练数据中，每个特征项对应一个确定的特征值，即每个数据特征项对应一个FTRL参数和一个FM参数；

对每个特征项的特征值通过hash索引找到对应的FTRL参数：

对于特征项M_i来说，通过其特征值进行hash索引在W[]数组中找到对应的hash(M_i)数组下标，该数组下标对应的W[hash(M_i)]即为M_i对应的FTRL参数；

对每个特征项的特征值通过hash索引找到对应的FM参数：

对与特征项M_i来说，通过其特征值进行hash索引在FM[]数组中找到对应的hash(M_i)数组下标，该数组下标对应的FM[hash(M_i)]即为M_i对应的FM参数。

找出选训练数据M中每个特征项的FTRL参数和FM参数后，将所有的FTRL参数相加得到参数h1；

训练数据M中相邻特征项的FM参数相乘，再将所有得到的乘积进行求和，得到参数h2，(即将训练数据中第i个特征项的FM参数与第i+1个特征项的FM参数相乘，在将所有乘积叠加可得参数s2)

例如，某条训练数据有5个特征项，将5个特征项对应的FTRL参数分别找出并相加就能够得到h1；将5个特征项的FM参数分别找出，并将第一个特征项的FM参数与第二个特征项的FM参数相乘，将第二个特征项的FM参数与第三个特征项的FM参数相乘，将第三个特征项的FM参数与第四个特征项的FM参数相乘，将第四个特征项的FM参数与第五个特征项的FM参数相乘，再将四个乘积的和加起来即可得到参数h2；

得到参数h1和参数h2后，将h1和h2相加得到参数s；利用公式即可求出检测值y。

S23.计算检测值y与标签x之间的差值，记为损失β＝|x-y|，利用损失β＝|x-y|对训练模型的参数进行调整；

具体来说，是对当前训练数据的每一条特征项对应的FTRL参数和FM参数进行调整，在调整过程中采用梯度下降思想：

W′[hash(M_i)]＝W[hash(M_i)]-a*β，调整后的FTRL参数W′[hash(M_i)]等于：调整前的FTRL参数W[hash(M_i)]减去a与β的乘积。

FM′[hash(M_i)]＝FM[hash(M_i)]-a*β*FM[hash(M_i)]，调整后的FM参数等于，调整前的FM参数减去调整前的FM参数、a与β三者的乘积。

其中a采用在线自适应方法，其值为n表示当前模型已经学习的训练数据条数。

进一步地，作为优选方案，在每次调整FTRL参数和FM参数的过程中，可以考虑引入L1正则化思想来进行调整：(引入q[]数组与z[])

式中，式中γ₁为L₁正则阈值，α为学习率控制系数，可以自行设置；q[hash(M_i)]引入的q[]数组中对应于W[hash(M_i)]的参数；z[hash(M_i)]为引入的z[]数组中对应于W[hash(M_i)]的参数；q[hash(M_i)]与z[hash(M_i)]初始化为0；(hash(M_i)为q[],z[]和W[]三个数组中对应参数的q[hash(M_i)]、z[hash(M_i)]、W[hash(M_i)]的数组下标)。

在每次调节过程中，除了调整对应的W[hash(M_i)]，还需要调节q[hash(M_i)]和z[hash(M_i)](作为下一次调整的基础参数来使用)：

调节后的q[hash(M_i)]参数等于调节前的q[hash(M_i)]参数加上β²：

q′[hash(M_i)]＝q[hash(M_i)]+β²；

引入中间参数

σ = \frac{1}{α^{\frac{3}{2}}} (\sqrt{(q [h a s h (M_{i})] + {(β)}^{2})} - \sqrt{q [h a s h (M_{i})]}),

表示累加学习变换率；

z′[hash(M_i)]＝z[hash(M_i)]+β-σ*W[hash(M_i)]；即调整后的z[hash(M_i)]参数等于调节前的z[hash(M_i)]参数加上β，再减去σ与调节前W[hash(M_i)]的乘积。

FM参数的调整同理，不再详细说明。

(2)训练模型成熟度不满足条件时，保存当前的模型并且跳转至步骤S22，再次从待训练数据集中提取数据，在保存的当前模型的基础上继续进行训练。

成熟度的计算公式为mature＝ε*rate,mature表示当前模型的成熟度，ε表示式中的因子权重，可以通过配置软件进行设定；rate表示模型的准确率，表示样本检测值与实际值的评估之间的差距。

预设条件指的是预先设定的成熟值，当计算得到的成熟度达到或者超过该值时，认为训练模型成熟度满足条件；如成熟度标准设定为0.8时，当成熟度达到或者超过0.8就认为模型成熟度满足条件。

进一步地，成熟度的计算可以将准确率与log函数损失的权重组合来进行：mature＝ε*rate+(1-ε)loss；loss为log函数的损失。

如图4所示,所述的步骤S3包括以下子步骤：

S31.读取成熟的模型参数初始化相应模型，生成模型实例；

S32.将当前待检测医保数据输入模型实例；

具体而言，模型实例检测当前医保数据得到检测值的方法，和步骤S22中训练模型检测训练数据的方法一致，具体过程为：

将待测医保数据M′输入模型实例中时：待测医保数据M′一般具有多个特征项M_i′，在该条待测医保数据中，每个特征项M_i′对应一个确定的特征值，即每个数据特征项对应一个FTRL参数和一个FM参数；

对每个特征项M_i′的特征值通过hash索引找到对应的FTRL参数：

对于特征项M_i′来说，通过其特征值进行hash索引在W[]数组中找到对应的hash(M_i′)数组下标，该数组下标对应的W[hash(M_i′)]即为M_i′对应的FTRL参数；

对每个特征项M_i′的特征值通过hash索引找到对应的FM参数：

对与特征项M_i′来说，通过其特征值进行hash索引在FM[]数组中找到对应的hash(M_i′)数组下标，该数组下标对应的FM[hash(M_i′)]即为M_i′对应的FM参数。

找出待测医保数据M′中每个特征项的FTRL参数和FM参数后，将所有的FTRL参数相加得到参数h1′；

待测医保数据M′中相邻特征项的FM参数相乘，再将所有得到的乘积进行求和，得到参数h2′；

得到参数h1′和参数h1′后，将h1′和h1′相加得到参数u；利用公式即可求出检测值待测医保数据M′的检测值y′；

判断当前医保数据M′的检测值y′的大小：

(1)如果y′＞0.5，更新y′，更新后的y′＝1；

(2)如果y′＜0.5，更新y′，更新后的y′＝0；

再利用更新后的检测值y′标记当前医保数据M′。

S34.根据当前医保数据的检测值，判断医保数据是否异常(若y′＝0，数据正常，y′＝1代表数据异常)：

(1)医保数据正常，跳转至步骤S35；

步骤S12中所述的数据筛选器采用DBSCAN聚类算法进行构造。

Claims

1.一种医疗保险异常数据在线智能检测方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种医疗保险异常数据在线智能检测方法，其特征在于：还包括一个检测修正步骤S4，包括以下子步骤：

3.根据权利要求1所述的一种医疗保险异常数据在线智能检测方法，其特征在于：所述的步骤S1包括以下子步骤：

S11.从医保数据库中提取原始数据；

S13.将可疑数据特征簇C交由人工进行进一步判断；

4.根据权利要求1所述的一种医疗保险异常数据在线智能检测方法，其特征在于：所述的步骤S2包括以下子步骤：

S21.初始化训练模型的参数；

5.根据权利要求1所述的一种医疗保险异常数据在线智能检测方法，其特征在于：所述的步骤S3包括以下子步骤：

S31.读取成熟的模型参数初始化相应模型，生成模型实例；

S32.将当前待检测医保数据输入模型实例；

S34.根据当前医保数据的检测值，判断医保数据是否异常：

(1)医保数据正常，跳转至步骤S35；

6.根据权利要求4所述的一种医疗保险异常数据在线智能检测方法，其特征在于：所述的步骤S21包括以下子步骤:

S212.对每一个数据特征项中所有可能出现的特征值分别赋予一个FTRL参数，也叫特征值参数，并将所有FTRL参数均初始化为0；

S213.对每一个数据特征项中所有可能出现的特征值分别赋予一个FM参数，也叫特征关系参数，所述的FM参数为一列4维向量，并将FM参数初始化为高斯概率分布。

7.根据权利要求4所述的一种医疗保险异常数据在线智能检测方法，其特征在于：所述的步骤S22包括以下子步骤：

S223.将训练数据M中所有FTRL参数相加，得到参数h1；

8.根据权利要求4所述的一种医疗保险异常数据在线智能检测方法，其特征在于：所述的步骤S23包括以下子步骤：

w′_i＝w_i-a*β，

公式中，w′_i表示当前训练数据M中第i个特征项调整后的FTRL参数，w_i表示当前训练数据M中第i个特征项调整前的FTRL参数，i为大于0的整数，n表示模型当前已经学习的训练数据条数；

L′_i＝L_i-(a*β)L_i＝L_i*(1-a*β)，

公式中，L′_i表示当前训练数据M中第i个特征项调整后的FM参数，L_i表示当前训练数据M中第i个特征项调整前的FM参数，i为大于0的整数，n表示模型当前已经学习的训练数据条数。

9.根据权利要求4所述的一种医疗保险异常数据在线智能检测方法，其特征在于：步骤S24中所述的成熟度的计算公式为mature＝ε*rate,mature表示当前模型的成熟度，ε表示式中的因子权重，可以通过配置软件进行设定；rate表示模型的准确率，表示样本检测值与实际值的评估之间的差距。

10.根据权利要求5所述的一种医疗保险异常数据在线智能检测方法，其特征在于：所述的步骤S33包括以下子步骤：

S331.将一条包含多个数据特征项M′_i的待测医保数据M′输入模型实例；i为大于0的整数，表示数据特征项M′_i为待测医保数据M′中的第i个特征项；

S332.根据每个数据特征项M′_i的特征值，找到特征项对应的FTRL参数和FM参数；

S333.将待测医保数据M′中所有FTRL参数相加，得到参数h1′；

S336.判断当前医保数据M′的检测值y′的大小：

(1)如果y′＞0.5，更新y′，更新后的y′＝1；

(2)如果y′＜0.5，更新y′，更新后的y′＝0；

S337.利用更新后的检测值y′标记当前医保数据M′。