CN105279382B - 一种医疗保险异常数据在线智能检测方法 - Google Patents

一种医疗保险异常数据在线智能检测方法 Download PDF

Info

Publication number
CN105279382B
CN105279382B CN201510760477.4A CN201510760477A CN105279382B CN 105279382 B CN105279382 B CN 105279382B CN 201510760477 A CN201510760477 A CN 201510760477A CN 105279382 B CN105279382 B CN 105279382B
Authority
CN
China
Prior art keywords
data
medical insurance
training
parameters
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510760477.4A
Other languages
English (en)
Other versions
CN105279382A (zh
Inventor
付波
李民强
沈磊
张岩龙
邓军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Shu Lian Yi Kang Technology Co Ltd
Original Assignee
Chengdu Shu Lian Yi Kang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Shu Lian Yi Kang Technology Co Ltd filed Critical Chengdu Shu Lian Yi Kang Technology Co Ltd
Priority to CN201510760477.4A priority Critical patent/CN105279382B/zh
Publication of CN105279382A publication Critical patent/CN105279382A/zh
Application granted granted Critical
Publication of CN105279382B publication Critical patent/CN105279382B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种医疗保险异常数据在线智能检测方法,包括训练数据集获取步骤S1、在线学习步骤S2和在线检测步骤S3。本发明提供一种医疗保险异常数据在线智能检测方法,首先对原始医保数据进行筛选,得到可疑特征数据簇,再对可疑特征数据簇中的数据进行人工审核标注,训练模型利用标注后的数据进行在线学习,将训练成熟后的模型用于医保数据的在线自动检测,大大减少人工检测的劳动成本,同时可有效提高异常医保数据检测的准确率,从而能够使得医保基金使用更加合理应用到老百姓的就医中,防止了医保欺诈行为。

Description

一种医疗保险异常数据在线智能检测方法
技术领域
本发明涉及一种医疗保险异常数据在线智能检测方法。
背景技术
随着社会经济的发展,国家为了给老百姓提供更好的医保环境,医保政策越来越好。然而,总有一些人通过各种各样的手段来骗取医保。
当前的医疗保险,行业整体业务经营与管理比较粗放,缺乏风险把控;粗放的理赔服务和条款赔付,缺乏对疾病治疗的深度分析、医疗费用的风险把控、医疗服务的合理性判断,导致大量欺诈、不合理医疗,严重损害了其他真正需要医保救治人的权益,给危害了国家医疗保险制度。
对于这种问题,一般可以通过分析医保人员的就医数据,从而帮助社保机构检测出异常数据;然而,面对医院每天产生的原始医保数据,如果仅通过人工手段来进行异常检测的话,不仅速度慢,浪费人力,且难保证准确度,再加上医院每天的数据都是动态增加,加大了人工处理的难度;因此,目前采用数据挖掘技术是发现医保异常数据的重要智能化手段。
数据挖掘技术是发现数据潜在信息、揭示隐藏模型、预测发展趋势的重要技术手段;在金融、电信、商业和保险等行业广泛应用并取得成功;国内外医疗保险行业,常涉及定向营销策略制定、客户忠诚度分析、保险产品交叉销售等;IBM研究中心的Marisa等人基于澳大利亚医疗机构,采用关联规则和神经分割技术,从GB级的数据中获取未知模式;MohitKumar等使用数据挖掘和机器学习技术,预测和预防保险公司在处理医疗保险申述过程中的支付错误、异常和欺诈检测;国内研究主要集中在基金风险和控制医疗费用增长上,采用简单规则的数据筛选方法,缺乏全面而强有力的大数据分析支持。
发明内容
本发明的目的在于克服现有技术的不足,提供一种医疗保险异常数据在线智能检测方法,首先对原始医保数据进行筛选,得到可疑特征数据簇,再对可疑特征数据簇中的数据进行人工审核标注,利用标注后的数据进行模型训练,将训练成熟后的模型用于医保数据的在线自动检测,大大减少人工检测的劳动成本,同时可有效提高异常医保数据检测的准确率,从而能够使得医保基金使用更加合理应用到老百姓的就医中,防止了医保欺诈行为。
本发明的目的是通过以下技术方案来实现的:一种医疗保险异常数据在线智能检测方法,包括以下步骤:
S1.训练数据集获取:提取原始医保数据并进行聚类和筛选得到可疑特征数据簇,对筛选出来的可疑特征数据簇中的数据进行人工审核和标注,并将标注后的数据加入待训练数据集;
S2.在线学习:训练模型利用标注后的可疑特征数据簇进行在线训练学习,直到训练模型的成熟度满足要求后,定义训练模型训练成熟,存储训练成熟的模型参数;
S3.在线检测:读取成熟的模型参数初始化相应模型,来对输入的医保数据进行在线检测和标记,根据标记结果判断医保数据是异常,将异常数据保存到异常数据库中。
所述的一种医疗保险异常数据在线智能检测方法,还包括一个检测修正步骤S4,包括以下子步骤:
S41.医保业务系统在使用检测后的医保数据时,发现数据检测结果与具体业务有差异,则调整检测标记值,并将有差异的数据存储到反馈数据库中;
S42.从反馈数据库提取数据,跳转至步骤S2,重新利用这部分数据进行训练和学习,从而调整模型参数,并将调整后的模型参数进行存储。
所述的步骤S1包括以下子步骤:
S11.从医保数据库中提取原始数据;
S12.构造数据筛选器,对提取的原始数据进行聚类和筛选,得到可疑数据特征簇C;
S13.将可疑数据特征簇C交由人工进行进一步判断;
S14.根据人工判断结果,对可疑数据特征簇C中的每条特征数据均使用标签x进行标注,并将标注后的数据加入待训练数据集作为待训练数据,标签x为0或者1,标签x为0是代表对应的特征数据为正常数据,标签x为1时代表对应的特征数据为异常数据。
所述的步骤S2包括以下子步骤:
S21.初始化训练模型的参数;
S22.从待训练数据集中提取待训练数据,采用训练模型对当前训练数据进行检测得到其检测值y;
S23.计算当前数据检测值y与标签x之间的差值,记为损失β=|x-y|,利用损失β=|x-y|对训练模型的参数进行调整;
S24.计算当前训练模型的成熟度,作为在线学习阶段模型成熟的依据;判断训练模型的成熟度是否满足预设条件:
(1)训练模型成熟度满足条件时,定义认为模型训练成熟,即可以使用,同时保存成熟模型的参数,训练结束;
(2)训练模型成熟度不满足条件时,保存当前的模型并且跳转至步骤S22,再次从待训练数据集中提取数据,在保存的当前模型的基础上,继续进行步骤S22到步骤S24的训练。
所述的步骤S3包括以下子步骤:
S31.读取成熟的模型参数初始化相应模型,生成模型实例;
S32.将当前待检测医保数据输入模型实例;
S33.模型实例检测当前输入的医保数据,得到当前医保数据的检测值,使用检测值标记当前输入的医保数据;
S34.根据当前医保数据的检测值,判断医保数据是否异常:
(1)医保数据正常,跳转至步骤S35;
(2)医保数据异常,将当前的医保数据存储到异常数据库中,并跳转至步骤S35;
S35.依次输入所有待检测的医保数据,每次输入数据后重复进行步骤S32~步骤S34,直到没有待检测医保数据输入为止。
所述的步骤S21包括以下子步骤:
S211.在训练模型中,预先存储医保系统中已知的所有数据特征项;
S212.对每一个数据特征项中所有可能出现的特征值分别赋予一个FTRL参数(FTRL参数为特征值参数,用于表征对应数据特征项的特征值),并将所有FTRL参数均初始化为0;
S213.对每一个数据特征项中所有可能出现的特征值分别赋予一个FM参数(FM参数为特征关系参数,用于表示特征项之间的关系),所述的FM参数为一列4维向量,并将FM参数初始化为高斯概率分布。
所述的步骤S22包括以下子步骤:
S221.将一条包含多个数据特征项Mi的训练数据M输入训练模型;i为大于0的整数,表示数据特征项Mi为训练数据M中的第i个特征项;
S222.根据每个数据特征项Mi的特征值,找到特征项对应的FTRL参数和FM参数;
S223.将训练数据M中所有FTRL参数相加,得到参数h1;
S224.将训练数据M中相邻特征项的FM参数相乘,再将所有得到的乘积进行求和,得到参数h2;
S225.将参数h1和参数h2相加,得到参数s,利用公式:求得训练数据M的检测值y。
所述的步骤S23包括以下子步骤:
S231.找到当前训练数据M的标签x,计算标签x与检测值y的差值,记为损失β=|x-y|;
S232.依次调整当前训练数据M中每个数据特征项Mi对应的FTRL参数,对于每个数据特征项Mi,调整后的FTRL参数等于调整前的FTRL参数减去a与β的乘积:
wi′=wi-a*β,
公式中,wi′表示当前训练数据M中第i个特征项调整后的FTRL参数,wi表示当前训练数据M中第i个特征项调整前的FTRL参数,i为大于0的整数,n表示模型当前已经学习的训练数据条数;
S233.依次调整当前训练数据M中每个数据特征项Mi对应的FM参数,对于每个数据特征项Mi,调整后的FM参数等于调整前的FM参数乘以(1-a*β):
Li′=Li-(a*β)Li=Li*(1-a*β),
公式中,Li′表示当前训练数据M中第i个特征项调整后的FM参数,Li表示当前训练数据M中第i个特征项调整前的FM参数,i为大于0的整数,n表示模型当前已经学习的训练数据条数。
步骤S24中所述的成熟度的计算公式为mature=ε*rate,mature表示当前模型的成熟度,ε表示式中的因子权重,可以通过配置软件进行设定;rate表示模型的准确率,表示样本检测值与实际值的评估之间的差距。
预设条件指的是预先设定的成熟值,当计算得到的成熟度达到或者超过该值时,认为训练模型成熟度满足条件。
进一步地,成熟度的计算可以将准确率与log函数损失的权重组合来进行:mature=ε*rate+(1-ε)loss;loss为log函数的损失,其具体获得为本领域的公知常识。
所述的步骤S33包括以下子步骤:
S331.将一条包含多个数据特征项Mi′的待测医保数据M′输入模型实例;i为大于0的整数,表示数据特征项Mi′为待测医保数据M′中的第i个特征项;
S332.根据每个数据特征项Mi′的特征值,找到特征项对应的FTRL参数和FM参数;
S333.将待测医保数据M′中所有FTRL参数相加,得到参数h1′;
S334.将待测医保数据M′中相邻特征项的FM参数相乘,再将所有得到的乘积进行求和,得到参数h2′;
S335.将参数h1′和参数h2′相加,得到参数u,利用公式:求得待测医保数据M′的检测值y′;
S336.判断当前医保数据M′的检测值y′的大小:
(1)如果y′>0.5,更新y′,更新后的y′=1;
(2)如果y′<0.5,更新y′,更新后的y′=0;
S337.利用更新后的检测值y′标记当前医保数据M′;
在步骤S34的判断中,若医保数据的标记值为0,代表医保数据正常,如医保数据标记值为1,代表医保数据异常。
步骤S12中所述的数据筛选器采用DBSCAN聚类算法进行构造。
本发明的有益效果是:首先对原始医保数据进行筛选,得到可疑特征数据簇,再对可疑特征数据簇中的数据进行人工审核标注,利用标注后的数据进行模型训练,将训练成熟后的模型用于医保数据的在线自动检测,大大减少人工检测的劳动成本,同时可有效提高异常医保数据检测的准确率,从而使得医保基金使用更加合理应用到老百姓的就医中,防止了医保欺诈行为。
附图说明
图1为本发明的流程图;
图2为训练数据集的获取流程图;
图3为训练模型在线学习流程图;
图4为成熟模型在线检测流程图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,一种医疗保险异常数据在线智能检测方法,包括以下步骤:
S1.训练数据集获取:提取原始医保数据并进行聚类和筛选得到可疑特征数据簇,对筛选出来的可疑特征数据簇中的数据进行人工审核和标注,并将标注后的数据加入待训练数据集;
S2.在线学习:训练模型利用标注后的可疑特征数据簇进行在线训练学习,直到训练模型的成熟度满足要求后,定义训练模型训练成熟,存储训练成熟的模型参数;
S3.在线检测:读取成熟的模型参数初始化相应模型,来对输入的医保数据进行在线检测和标记,根据标记结果判断医保数据是异常,将异常数据保存到异常数据库中。
所述的一种医疗保险异常数据在线智能检测方法,还包括一个检测修正步骤S4,包括以下子步骤:
S41.医保业务系统在使用检测后的医保数据时,发现数据检测结果与具体业务有差异,则调整检测标记值,并将有差异的数据存储到反馈数据库中;
S42.从反馈数据库提取数据,跳转至步骤S2,重新利用这部分数据进行训练和学习,从而调整模型参数,并将调整后的模型参数进行存储。
如图2所示,所述的步骤S1包括以下子步骤:
S11.从医保数据库中提取原始数据;
S12.构造数据筛选器,对提取的原始数据进行聚类和筛选,得到可疑数据特征簇C;
S13.将可疑数据特征簇C交由人工进行进一步判断;
S14.根据人工判断结果,对可疑数据特征簇C中的每条特征数据均使用标签x进行标注,并将标注后的数据加入待训练数据集作为待训练数据,标签x为0或者1,标签x为0是代表对应的特征数据为正常数据,标签x为1时代表对应的特征数据为异常数据。
如图3所示,所述的步骤S2包括以下子步骤:
S21.初始化训练模型的参数;
在训练模型中,存储医保系统中已知的所有数据特征项,(这里说的数据特征项可以包括是年龄、病症、地区的等)每个数据特征项都对应多个可能出现的特征值(如年龄特征值指的是对应的年龄如20岁、25岁、30岁等,病症特征值指病型,如肝病、胃病等);
对训练模型中的每一个数据特征项中所有可能出现的特征值分别赋予一个FTRL参数(特征值参数),并将所有FTRL参数均初始化为0,具体实现为:
利用hash表存储,对于训练模型中每一个数据特征项可能出现的特征值,对其hash生成索引,作为键,生成FTRL参数W[hash(Mi)],并将每一项FTRL参数W[hash(Mi)]初始化为0,所有的FTRL参数形成W[]数组,在W[]数组中,hash(Mi)为数组下标,W[hash(Mi)]表示该数组下标对应的FTRL参数;W[]数组长度在222~224之间。
对每一个数据特征项中所有可能出现的特征值分别赋予一个FM参数(特征关系参数,用于表示特征项之间的关系),所述的FM参数为一列4维向量,并将FM参数初始化为高斯概率分布,具体实现为:
利用hash表,采用词典存储,对于训练模型中每一个数据特征项可能出现的特征值,对其hash生成索引,作为键,生成FM参数FM[hash(Mi)],并将每一项FM参数FM[hash(Mi)]初始化为高斯概率分布;所有的FM参数形成FM[]数组,在FM[]数组中,hash(Mi)为数组下标,FM[hash(Mi)]表示数组下标对应的FM参数,FM[]数组长度也在在222~224之间。
S22.从待训练数据集中提取待训练数据,采用训练模型对训练数据进行检测得到其检测值y;
待训练数据集中的某一条训练数据M输入训练模型中时:训练数据一般具有多个特征项Mi,一条训练数据中特征项的个数是不确定的(可以是5个,10个,100个),Mi的下标i表示该特征项是训练数据中的第i个特征项(i为大于0的整数),在该条训练数据中,每个特征项对应一个确定的特征值,即每个数据特征项对应一个FTRL参数和一个FM参数;
对每个特征项的特征值通过hash索引找到对应的FTRL参数:
对于特征项Mi来说,通过其特征值进行hash索引在W[]数组中找到对应的hash(Mi)数组下标,该数组下标对应的W[hash(Mi)]即为Mi对应的FTRL参数;
对每个特征项的特征值通过hash索引找到对应的FM参数:
对与特征项Mi来说,通过其特征值进行hash索引在FM[]数组中找到对应的hash(Mi)数组下标,该数组下标对应的FM[hash(Mi)]即为Mi对应的FM参数。
找出选训练数据M中每个特征项的FTRL参数和FM参数后,将所有的FTRL参数相加得到参数h1;
训练数据M中相邻特征项的FM参数相乘,再将所有得到的乘积进行求和,得到参数h2,(即将训练数据中第i个特征项的FM参数与第i+1个特征项的FM参数相乘,在将所有乘积叠加可得参数s2)
例如,某条训练数据有5个特征项,将5个特征项对应的FTRL参数分别找出并相加就能够得到h1;将5个特征项的FM参数分别找出,并将第一个特征项的FM参数与第二个特征项的FM参数相乘,将第二个特征项的FM参数与第三个特征项的FM参数相乘,将第三个特征项的FM参数与第四个特征项的FM参数相乘,将第四个特征项的FM参数与第五个特征项的FM参数相乘,再将四个乘积的和加起来即可得到参数h2;
得到参数h1和参数h2后,将h1和h2相加得到参数s;利用公式即可求出检测值y。
S23.计算检测值y与标签x之间的差值,记为损失β=|x-y|,利用损失β=|x-y|对训练模型的参数进行调整;
具体来说,是对当前训练数据的每一条特征项对应的FTRL参数和FM参数进行调整,在调整过程中采用梯度下降思想:
W′[hash(Mi)]=W[hash(Mi)]-a*β,调整后的FTRL参数W′[hash(Mi)]等于:调整前的FTRL参数W[hash(Mi)]减去a与β的乘积。
FM′[hash(Mi)]=FM[hash(Mi)]-a*β*FM[hash(Mi)],调整后的FM参数等于,调整前的FM参数减去调整前的FM参数、a与β三者的乘积。
其中a采用在线自适应方法,其值为n表示当前模型已经学习的训练数据条数。
进一步地,作为优选方案,在每次调整FTRL参数和FM参数的过程中,可以考虑引入L1正则化思想来进行调整:(引入q[]数组与z[])
式中,式中γ1为L1正则阈值,α为学习率控制系数,可以自行设置;q[hash(Mi)]引入的q[]数组中对应于W[hash(Mi)]的参数;z[hash(Mi)]为引入的z[]数组中对应于W[hash(Mi)]的参数;q[hash(Mi)]与z[hash(Mi)]初始化为0;(hash(Mi)为q[],z[]和W[]三个数组中对应参数的q[hash(Mi)]、z[hash(Mi)]、W[hash(Mi)]的数组下标)。
在每次调节过程中,除了调整对应的W[hash(Mi)],还需要调节q[hash(Mi)]和z[hash(Mi)](作为下一次调整的基础参数来使用):
调节后的q[hash(Mi)]参数等于调节前的q[hash(Mi)]参数加上β2
q′[hash(Mi)]=q[hash(Mi)]+β2
引入中间参数表示累加学习变换率;
z′[hash(Mi)]=z[hash(Mi)]+β-σ*W[hash(Mi)];即调整后的z[hash(Mi)]参数等于调节前的z[hash(Mi)]参数加上β,再减去σ与调节前W[hash(Mi)]的乘积。
FM参数的调整同理,不再详细说明。
S24.计算当前训练模型的成熟度,作为在线学习阶段模型成熟的依据;判断训练模型的成熟度是否满足预设条件:
(1)训练模型成熟度满足条件时,定义认为模型训练成熟,即可以使用,同时保存成熟模型的参数,训练结束;
(2)训练模型成熟度不满足条件时,保存当前的模型并且跳转至步骤S22,再次从待训练数据集中提取数据,在保存的当前模型的基础上继续进行训练。
成熟度的计算公式为mature=ε*rate,mature表示当前模型的成熟度,ε表示式中的因子权重,可以通过配置软件进行设定;rate表示模型的准确率,表示样本检测值与实际值的评估之间的差距。
预设条件指的是预先设定的成熟值,当计算得到的成熟度达到或者超过该值时,认为训练模型成熟度满足条件;如成熟度标准设定为0.8时,当成熟度达到或者超过0.8就认为模型成熟度满足条件。
进一步地,成熟度的计算可以将准确率与log函数损失的权重组合来进行:mature=ε*rate+(1-ε)loss;loss为log函数的损失。
如图4所示,所述的步骤S3包括以下子步骤:
S31.读取成熟的模型参数初始化相应模型,生成模型实例;
S32.将当前待检测医保数据输入模型实例;
S33.模型实例检测当前输入的医保数据,得到当前医保数据的检测值,使用检测值标记当前输入的医保数据;
具体而言,模型实例检测当前医保数据得到检测值的方法,和步骤S22中训练模型检测训练数据的方法一致,具体过程为:
将待测医保数据M′输入模型实例中时:待测医保数据M′一般具有多个特征项Mi′,在该条待测医保数据中,每个特征项Mi′对应一个确定的特征值,即每个数据特征项对应一个FTRL参数和一个FM参数;
对每个特征项Mi′的特征值通过hash索引找到对应的FTRL参数:
对于特征项Mi′来说,通过其特征值进行hash索引在W[]数组中找到对应的hash(Mi′)数组下标,该数组下标对应的W[hash(Mi′)]即为Mi′对应的FTRL参数;
对每个特征项Mi′的特征值通过hash索引找到对应的FM参数:
对与特征项Mi′来说,通过其特征值进行hash索引在FM[]数组中找到对应的hash(Mi′)数组下标,该数组下标对应的FM[hash(Mi′)]即为Mi′对应的FM参数。
找出待测医保数据M′中每个特征项的FTRL参数和FM参数后,将所有的FTRL参数相加得到参数h1′;
待测医保数据M′中相邻特征项的FM参数相乘,再将所有得到的乘积进行求和,得到参数h2′;
得到参数h1′和参数h1′后,将h1′和h1′相加得到参数u;利用公式即可求出检测值待测医保数据M′的检测值y′;
判断当前医保数据M′的检测值y′的大小:
(1)如果y′>0.5,更新y′,更新后的y′=1;
(2)如果y′<0.5,更新y′,更新后的y′=0;
再利用更新后的检测值y′标记当前医保数据M′。
S34.根据当前医保数据的检测值,判断医保数据是否异常(若y′=0,数据正常,y′=1代表数据异常):
(1)医保数据正常,跳转至步骤S35;
(2)医保数据异常,将当前的医保数据存储到异常数据库中,并跳转至步骤S35;
S35.依次输入所有待检测的医保数据,每次输入数据后重复进行步骤S32~步骤S34,直到没有待检测医保数据输入为止。
步骤S12中所述的数据筛选器采用DBSCAN聚类算法进行构造。

Claims (7)

1.一种医疗保险异常数据在线智能检测方法,其特征在于:包括以下步骤:
S1.训练数据集获取:提取原始医保数据并进行聚类和筛选得到可疑特征数据簇,对筛选出来的可疑特征数据簇中的数据进行人工审核和标注,并将标注后的数据加入待训练数据集;
S2.在线学习:训练模型利用标注后的可疑特征数据簇进行在线训练学习,直到训练模型的成熟度满足要求后,定义训练模型训练成熟,存储训练成熟的模型参数;
S3.在线检测:读取成熟的模型参数初始化相应模型,来对输入的医保数据进行在线检测和标记,根据标记结果判断医保数据是异常,将异常数据保存到异常数据库中;
所述的步骤S2包括以下子步骤:
S21.初始化训练模型的参数;
S22.从待训练数据集中提取待训练数据,采用训练模型对当前训练数据进行检测得到其检测值y;
S23.计算当前数据检测值y与标签x之间的差值,记为损失β=|x-y|,利用损失β=|x-y|对训练模型的参数进行调整;
S24.计算当前训练模型的成熟度,作为在线学习阶段模型成熟的依据;判断训练模型的成熟度是否满足预设条件:
(1)训练模型成熟度满足条件时,定义认为模型训练成熟,即可以使用,同时保存成熟模型的参数,训练结束;
(2)训练模型成熟度不满足条件时,保存当前的模型并且跳转至步骤S22,再次从待训练数据集中提取数据,在保存的当前模型的基础上,继续进行步骤S22到步骤S24的训练;
所述的步骤S21包括以下子步骤:
S211.在训练模型中,预先存储医保系统中已知的所有数据特征项;
S212.对每一个数据特征项中所有可能出现的特征值分别赋予一个FTRL参数,也叫特征值参数,并将所有FTRL参数均初始化为0;
S213.对每一个数据特征项中所有可能出现的特征值分别赋予一个FM参数,也叫特征关系参数,所述的FM参数为一列4维向量,并将FM参数初始化为高斯概率分布;
所述的步骤S22包括以下子步骤:
S221.将一条包含多个数据特征项Mi的训练数据M输入训练模型;i为大于0的整数,表示数据特征项Mi为训练数据M中的第i个特征项;
S222.根据每个数据特征项Mi的特征值,找到特征项对应的FTRL参数和FM参数;
S223.将训练数据M中所有FTRL参数相加,得到参数h1;
S224.将训练数据M中相邻特征项的FM参数相乘,再将所有得到的乘积进行求和,得到参数h2;
S225.将参数h1和参数h2相加,得到参数s,利用公式:,求得训练数据M的检测值y。
2.根据权利要求1所述的一种医疗保险异常数据在线智能检测方法,其特征在于:还包括一个检测修正步骤S4,包括以下子步骤:
S41.医保业务系统在使用检测后的医保数据时,发现数据检测结果与具体业务有差异,则调整检测标记值,并将有差异的数据存储到反馈数据库中;
S42.从反馈数据库提取数据,跳转至步骤S2,重新利用这部分数据进行训练和学习,从而调整模型参数,并将调整后的模型参数进行存储。
3.根据权利要求1所述的一种医疗保险异常数据在线智能检测方法,其特征在于:所述的步骤S1包括以下子步骤:
S11.从医保数据库中提取原始数据;
S12.构造数据筛选器,对提取的原始数据进行聚类和筛选,得到可疑数据特征簇C;
S13.将可疑数据特征簇C交由人工进行进一步判断;
S14.根据人工判断结果,对可疑数据特征簇C中的每条特征数据均使用标签x进行标注,并将标注后的数据加入待训练数据集作为待训练数据,标签x为0或者1,标签x为0时代表对应的特征数据为正常数据,标签x为1时代表对应的特征数据为异常数据。
4.根据权利要求1所述的一种医疗保险异常数据在线智能检测方法,其特征在于:所述的步骤S3包括以下子步骤:
S31.读取成熟的模型参数初始化相应模型,生成模型实例;
S32.将当前待检测医保数据输入模型实例;
S33.模型实例检测当前输入的医保数据,得到当前医保数据的检测值,使用检测值标记当前输入的医保数据;
S34.根据当前医保数据的检测值,判断医保数据是否异常:
(1)医保数据正常,跳转至步骤S35;
(2)医保数据异常,将当前的医保数据存储到异常数据库中,并跳转至步骤S35;
S35.依次输入所有待检测的医保数据,每次输入数据后重复进行步骤S32~步骤S34,直到没有待检测医保数据输入为止。
5.根据权利要求1所述的一种医疗保险异常数据在线智能检测方法,其特征在于:所述的步骤S23包括以下子步骤:
S231.找到当前训练数据M的标签x,计算标签x与检测值y的差值,记为损失β=|x-y|;
S232.依次调整当前训练数据M中每个数据特征项Mi对应的FTRL参数,对于每个数据特征项Mi,调整后的FTRL参数等于调整前的FTRL参数减去a与β的乘积:
w′i=wi-a*β,
公式中,w′i表示当前训练数据M中第i个特征项调整后的FTRL参数,wi表示当前训练数据M中第i个特征项调整前的FTRL参数,i为大于0的整数,,n表示模型当前已经学习的训练数据条数;S233.依次调整当前训练数据M中每个数据特征项Mi对应的FM参数,对于每个数据特征项Mi,调整后的FM参数等于调整前的FM参数乘以(1-a*β):
L′i=Li-(a*β)Li=Li*(1-a*β),
公式中,L′i表示当前训练数据M中第i个特征项调整后的FM参数,Li表示当前训练数据M中第i个特征项调整前的FM参数,i为大于0的整数,,n表示模型当前已经学习的训练数据条数。
6.根据权利要求1所述的一种医疗保险异常数据在线智能检测方法,其特征在于:步骤S24中所述的成熟度的计算公式为mature=ε*rate,mature表示当前模型的成熟度,ε表示式中的因子权重,通过配置软件进行设定;rate表示模型的准确率,表示样本检测值与实际值的评估之间的差距。
7.根据权利要求4所述的一种医疗保险异常数据在线智能检测方法,其特征在于:所述的步骤S33包括以下子步骤:
S331.将一条包含多个数据特征项M′i的待测医保数据M′输入模型实例;i为大于0的整数,表示数据特征项M′i为待测医保数据M′中的第i个特征项;
S332.根据每个数据特征项M′i的特征值,找到特征项对应的FTRL参数和FM参数;
S333.将待测医保数据M′中所有FTRL参数相加,得到参数h1′;
S334.将待测医保数据M′中相邻特征项的FM参数相乘,再将所有得到的乘积进行求和,得到参数h2′;
S335.将参数h1′和参数h2′相加,得到参数u,利用公式:,求得待测医保数据M′的检测值y′;
S336.判断当前医保数据M′的检测值y′的大小:
(1)如果y′>0.5,更新y′,更新后的y′=1;
(2)如果y′<0.5,更新y′,更新后的y′=0;
S337.利用更新后的检测值y′标记当前医保数据M′。
CN201510760477.4A 2015-11-10 2015-11-10 一种医疗保险异常数据在线智能检测方法 Active CN105279382B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510760477.4A CN105279382B (zh) 2015-11-10 2015-11-10 一种医疗保险异常数据在线智能检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510760477.4A CN105279382B (zh) 2015-11-10 2015-11-10 一种医疗保险异常数据在线智能检测方法

Publications (2)

Publication Number Publication Date
CN105279382A CN105279382A (zh) 2016-01-27
CN105279382B true CN105279382B (zh) 2017-12-22

Family

ID=55148385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510760477.4A Active CN105279382B (zh) 2015-11-10 2015-11-10 一种医疗保险异常数据在线智能检测方法

Country Status (1)

Country Link
CN (1) CN105279382B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI810494B (zh) * 2020-10-22 2023-08-01 國泰人壽保險股份有限公司 智能化異常風險偵測系統

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106124729B (zh) * 2016-04-13 2018-02-23 北京瑞美德环境修复有限公司 一种评价土壤中重金属含量数据异常程度的方法
CN106096657B (zh) * 2016-06-13 2019-04-30 第四范式(北京)技术有限公司 基于机器学习来预测数据审核目标的方法及系统
CN106384282A (zh) * 2016-06-14 2017-02-08 平安科技(深圳)有限公司 构建决策模型的方法和装置
CN107016028B (zh) * 2016-12-12 2020-07-14 阿里巴巴集团控股有限公司 数据处理方法及其设备
CN106874658A (zh) * 2017-01-18 2017-06-20 天津艾登科技有限公司 一种基于主成分分析算法的医保欺诈识别方法
CN107067157A (zh) * 2017-03-01 2017-08-18 北京奇艺世纪科技有限公司 业务风险评估方法、装置及风控系统
CN107133437B (zh) * 2017-03-03 2018-09-14 平安医疗健康管理股份有限公司 监控药品使用的方法及装置
CN107391569B (zh) * 2017-06-16 2020-09-15 阿里巴巴集团控股有限公司 数据类型的识别、模型训练、风险识别方法、装置及设备
CN107785058A (zh) * 2017-07-24 2018-03-09 平安科技(深圳)有限公司 反欺诈识别方法、存储介质和承载平安脑的服务器
CN107609980A (zh) * 2017-09-07 2018-01-19 平安医疗健康管理股份有限公司 医疗数据处理方法、装置、计算机设备及存储介质
CN108022635A (zh) * 2017-11-01 2018-05-11 平安科技(深圳)有限公司 违规单据评分方法、违规单据评分装置及计算机可读存储介质
CN109934719A (zh) * 2017-12-18 2019-06-25 北京亚信数据有限公司 医保违规行为的检测方法及检测装置、医保控费系统
CN109118376A (zh) * 2018-08-14 2019-01-01 平安医疗健康管理股份有限公司 医疗保险保费定价方法、装置、计算机设备和存储介质
CN109239075B (zh) * 2018-08-27 2021-11-30 北京百度网讯科技有限公司 电池检测方法及装置
CN109359669A (zh) * 2018-09-10 2019-02-19 平安科技(深圳)有限公司 医保报销异常检测方法、装置、计算机设备和存储介质
CN109376381A (zh) * 2018-09-10 2019-02-22 平安科技(深圳)有限公司 医保报销异常检测方法、装置、计算机设备和存储介质
CN109409381B (zh) * 2018-09-18 2021-06-15 躺平设计家(北京)科技有限公司 基于人工智能的家具顶视图的分类方法及系统
CN109615012A (zh) * 2018-12-13 2019-04-12 平安医疗健康管理股份有限公司 基于机器学习的就诊数据异常识别方法、设备及存储介质
CN109635113A (zh) * 2018-12-13 2019-04-16 平安医疗健康管理股份有限公司 异常参保人购药数据检测方法、装置、设备及存储介质
CN109669935A (zh) * 2018-12-13 2019-04-23 平安医疗健康管理股份有限公司 检查数据筛选方法、装置、设备及存储介质
CN109543774B (zh) * 2018-12-13 2022-10-14 平安医疗健康管理股份有限公司 异常血透配比检测方法、装置、设备及计算机存储介质
CN109685671A (zh) * 2018-12-13 2019-04-26 平安医疗健康管理股份有限公司 基于机器学习的就诊数据异常识别方法、设备及存储介质
CN109636645A (zh) * 2018-12-13 2019-04-16 平安医疗健康管理股份有限公司 医保监管方法、设备、装置及计算机可读存储介质
CN109583510A (zh) * 2018-12-13 2019-04-05 平安医疗健康管理股份有限公司 病种违规用药检测方法、装置、设备及计算机存储介质
CN110399268B (zh) * 2019-07-26 2023-09-26 创新先进技术有限公司 一种异常数据检测的方法、装置及设备
CN110584701A (zh) * 2019-08-23 2019-12-20 杭州智团信息技术有限公司 一种肠鸣音的标注识别系统及方法
CN110993117A (zh) * 2019-12-26 2020-04-10 北京亚信数据有限公司 一种基于医疗大数据的非正常医保识别方法及装置
CN111967575A (zh) * 2020-07-22 2020-11-20 武汉极意网络科技有限公司 一种半自动化模型更新系统及模型更新方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315670A (zh) * 2007-06-01 2008-12-03 清华大学 特定被摄体检测装置及其学习装置和学习方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009054554A1 (en) * 2007-10-23 2009-04-30 Seo-O Telecom Co., Ltd The patient's state cognition system and method for preventing unreasonable demand of the insurance

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315670A (zh) * 2007-06-01 2008-12-03 清华大学 特定被摄体检测装置及其学习装置和学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于数据流的网络入侵实时检测框架;李艳红 等;《计算机应用》;20150210;第35卷(第2期);第416-419、429页 *
基于贝叶斯的防病患欺诈模型研究;潘芳;《现代商贸工业》;20141231(第10期);第80-82页 *
数据挖掘技术在医保病人恶意配药在线监测中的应用;沈小庆 等;《卫生经济研究》;20091231(第261期);第29-30页 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI810494B (zh) * 2020-10-22 2023-08-01 國泰人壽保險股份有限公司 智能化異常風險偵測系統

Also Published As

Publication number Publication date
CN105279382A (zh) 2016-01-27

Similar Documents

Publication Publication Date Title
CN105279382B (zh) 一种医疗保险异常数据在线智能检测方法
Fons-Rosen et al. Quantifying productivity gains from foreign investment
Tang et al. A pruning neural network model in credit classification analysis
Hwa The contribution of agriculture to economic growth: some empirical evidence
Ge et al. The effect of GVC embeddedness on productivity improvement: From the perspective of R&D and government subsidy
Lu et al. Classification of Camellia (Theaceae) species using leaf architecture variations and pattern recognition techniques
Yasar et al. Exporting status and firm performance: Evidence from a matched sample
Shi et al. Improving performance: A collaborative strategy for the multi-data fusion of electronic nose and hyperspectral to track the quality difference of rice
CN110381079A (zh) 结合gru和svdd进行网络日志异常检测方法
CN106340000A (zh) 骨龄评估方法
CN107633293A (zh) 一种领域自适应方法及装置
Zheng et al. Does tax reduction spur innovation? Firm-level evidence from China
Charytanowicz et al. An evaluation of utilizing geometric features for wheat grain classification using X-ray images
CN110322335A (zh) 一种基于woe转换通过机器学习的信贷客户资质分类方法
Sypetkowski et al. Rxrx1: A dataset for evaluating experimental batch correction methods
Sayed et al. E-Learning optimization using supervised artificial neural-network
Udeze et al. Application of machine learning and resampling techniques to credit card fraud detection
Jiménez-García et al. Corrigendum to ‘Deep learning improves taphonomic resolution: high accuracy in differentiating tooth marks made by lions and jaguars'
Sun et al. Degree-strength correlation reveals anomalous trading behavior
Srivastava et al. Best strategy to win a match: an analytical approach using hybrid machine learning-clustering-association rule framework
CN107590733A (zh) 基于地理经济和社交关系的网贷平台风险评估方法
CN112465397A (zh) 一种审计数据的分析方法和装置
CN111105317A (zh) 一种基于购药记录的医疗保险欺诈检测方法
Merrifield et al. Sample size calculations for the design of health studies: a review of key concepts for non-statisticians
CN110427457A (zh) 一种基于ann的数据库文本分类中的特征选择方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant