CN109669935A - 检查数据筛选方法、装置、设备及存储介质 - Google Patents
检查数据筛选方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN109669935A CN109669935A CN201811530997.6A CN201811530997A CN109669935A CN 109669935 A CN109669935 A CN 109669935A CN 201811530997 A CN201811530997 A CN 201811530997A CN 109669935 A CN109669935 A CN 109669935A
- Authority
- CN
- China
- Prior art keywords
- data
- creatinine
- abnormal
- inspection
- checks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012216 screening Methods 0.000 title claims abstract description 54
- DDRJAANPRJIHGJ-UHFFFAOYSA-N creatinine Chemical compound CN1CC(=O)NC1=N DDRJAANPRJIHGJ-UHFFFAOYSA-N 0.000 claims abstract description 402
- 229940109239 creatinine Drugs 0.000 claims abstract description 201
- 238000007689 inspection Methods 0.000 claims abstract description 84
- 230000002159 abnormal effect Effects 0.000 claims abstract description 78
- 238000004140 cleaning Methods 0.000 claims abstract description 58
- 230000008569 process Effects 0.000 claims abstract description 29
- 230000008520 organization Effects 0.000 claims abstract description 27
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000004138 cluster model Methods 0.000 claims 1
- 238000003825 pressing Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 8
- 229940079593 drug Drugs 0.000 description 7
- 239000003814 drug Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012552 review Methods 0.000 description 4
- 238000000502 dialysis Methods 0.000 description 3
- 230000004060 metabolic process Effects 0.000 description 3
- 210000003205 muscle Anatomy 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 150000008065 acid anhydrides Chemical class 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 208000001647 Renal Insufficiency Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000037406 food intake Effects 0.000 description 1
- 235000012631 food intake Nutrition 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 201000006370 kidney failure Diseases 0.000 description 1
- 230000003907 kidney function Effects 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000003053 toxin Substances 0.000 description 1
- 231100000765 toxin Toxicity 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
Abstract
本发明公开了一种检查数据筛选方法、装置、设备及存储介质,该方法包括:从定点医疗机构获取待筛选的肌酐检查数据;按预设数据清洗流程对所述肌酐检查数据进行清洗,获得标准化数据;用预先建立的肌酐检查次数聚类模型对所述标准化数据进行分析,获得异常肌酐检查数据。本发明基于聚类算法,通过肌酐检查次数聚类模型筛选异常肌酐检查数据,提高了检查数据筛选的效率和准确性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种检查数据筛选方法、装置、设备及存储介质。
背景技术
目前,肌酐检查已纳入医保报销范筹,参保人在定点医疗机构进行结算时只需要支付医保报销后的费用。因此为保障医保基金的合理支出,负责管理医保的相关部门需要对参保人透析数据进行异常检测,以减少虚假报销的发生。由于需要筛选的数据量大,如果依靠人工进行筛选,则效率低,准确性不高。
发明内容
本发明提供一种检查数据筛选方法、装置、设备及存储介质,旨在提高检查数据筛选的效率和准确性。
为实现上述目的,本发明提供一种检查数据筛选方法,所述方法应用于检查数据筛选设备,所述方法包括:
从定点医疗机构获取待筛选的肌酐检查数据;
按预设数据清洗流程对所述肌酐检查数据进行清洗,获得标准化数据;
基于预先建立的肌酐检查次数聚类模型对所述标准化数据进行分析,获得异常肌酐检查数据。
优选地,所述按预设数据清洗流程对所述肌酐检查数据进行清洗,获得标准化数据的步骤包括:
依次对所述肌酐检查数据执行缺失值清洗、格式内容清洗、逻辑错误清洗、非需求数据清洗、关联性验证的清洗流程,获得标准化数据。
优选地,所述从定点医疗机构获取待筛选的肌酐检查数据的步骤之前还包括:
从定点医疗机构获取正常肌酐检查的历史数据;
将所述历史数据按预设流程进行处理后获得样本数据;
根据所述样本数据,基于高斯混合模型的最大期望聚类算法建立所述肌酐检查次数聚类模型。
优选地,所述基于预先建立的肌酐检查次数聚类模型对所述标准化数据进行分析,获得异常肌酐检查数据的步骤包括:
基于预先建立的所述肌酐检查次数聚类模型对所述标准化数据进行聚类,获得所述标准化数据属于所述肌酐检查次数聚类模型中各个簇的簇概率;
将所述簇概率进行排序,获取所述簇概率中的最大概率,并将所述最大概率与阈值进行比较;
若所述最大概率小于所述阈值,则将所述最大概率对应的标准化数据标记为异常肌酐检查数据。
优选地,所述方法还包括:
在所述肌酐检查次数聚类模型中输入验证数据,由所述肌酐检查次数聚类模型对所述验证数据进行聚类,输出所述验证数据中的第一异常验证数据;
将所述第一异常验证数据与第二异常数据进行比对,所述第二异常数据是预先获得的所述验证数据中的异常数据;
若所述第一异常验证数据与所述第二异常数据一致,则判定所述肌酐检查次数聚类模型建立成功,保存所述肌酐检查次数聚类模型以供后续使用;
若所述第一异常验证数据与所述第二异常数据不一致,则判定所述肌酐检查次数聚类模型建立失败,将所述肌酐检查次数聚类模型进行调试后,重新进行验证。
优选地,所述用预先建立的肌酐检查次数聚类模型对所述标准化数据进行分析,获得异常肌酐检查数据的步骤之后还包括:
将所述异常肌酐检查数据发送至相关平台,以供所述相关平台对所述异常肌酐检查数据进行分析并输出相应的决策。
此外,为实现上述目的,本发明还提供一种检查数据筛选装置,所述检查数据筛选装置包括:
获取模块,用于从定点医疗机构获取待筛选的肌酐检查数据;
清洗模块,用于按预设数据清洗流程对所述肌酐检查数据进行清洗,获得标准化数据;
分析模块,用于基于预先建立的肌酐检查次数聚类模型对所述标准化数据进行分析,获得异常肌酐检查数据。
优选地,所述检查数据筛选装置还包括:
历史数据获取模块,用于从定点医疗机构获取正常肌酐检查的历史数据;
历史数据清洗模块,将所述历史数据按预设流程进行处理后获得样本数据;
模型建立模块,用于根据所述样本数据,基于高斯混合模型的最大期望聚类算法建立所述肌酐检查次数聚类模型
此外,为实现上述目的,本发明还提供一种检查数据筛选设备,所述检查数据筛选设备包括处理器,存储器以及存储在所述存储器中的检查数据筛选程序,所述检查数据筛选程序被所述处理器运行时,实现如上所述的检查数据筛选方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机存储介质,所述计算机存储介质上存储有程序,所述检查数据筛选程序被处理器运行时实现如上所述检查数据筛选方法的步骤。
相比现有技术,本发明公开了一种检查数据筛选方法、装置、设备及存储介质,从定点医疗机构获取待筛选的肌酐检查数据;按预设数据清洗流程对所述肌酐检查数据进行清洗,获得标准化数据;用预先建立的肌酐检查次数聚类模型对所述标准化数据进行分析,获得异常肌酐检查数据。本发明基于聚类算法,通过肌酐检查次数聚类模型筛选异常肌酐检查数据,提高了检查数据筛选的效率和准确性。
附图说明
图1是本发明各实施例涉及的检查数据筛选设备的硬件结构示意图;
图2是本发明检查数据筛选方法第一实施例的流程示意图;
图3是本发明检查数据筛选方法第二实施例的流程示意图;
图4是本发明检查数据筛选方法第三实施例的流程示意图;
图5是本发明检查数据筛选装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例主要涉及的检查数据筛选设备是指能够实现网络连接的网络连接设备,所述检查数据筛选设备可以是服务器、云平台等。另外本发明实施例涉及的移动终端可以为手机、平板电脑等移动网络设备。
参照图1,图1是本发明各实施例涉及的检查数据筛选设备的硬件结构示意图。本发明实施例中,检查数据筛选设备可以包括处理器1001(例如中央处理器CentralProcessing Unit、CPU),通信总线1002,输入端口1003,输出端口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;输入端口1003用于数据输入;输出端口1004用于数据输出,存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解,图1中示出的硬件结构并不构成对本发明的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种可读存储介质的存储器1005可以包括操作系统、网络通信模块、应用程序模块以及检查数据筛选程序。在图1中,网络通信模块主要用于连接服务器,与服务器进行数据通信;而处理器1001可以调用存储器1005中存储的检查数据筛选程序,并执行本发明实施例提供的检查数据筛选方法。
本发明实施例提供了一种检查数据筛选方法。
参照图2,图2是本发明检查数据筛选方法第一实施例的流程示意图。
本实施例中,所述检查数据筛选方法应用于检查数据筛选设备,所述方法包括:
步骤S101,从定点医疗机构获取待筛选的肌酐检查数据;
一般地,参保人使用社保卡在定点医疗机构就诊后,定点医疗机构会保存相关诊疗、用药、费用等数据。肌酐(Creatinine,Cre)是肌肉在人体内代谢的产物,主要由肾小球滤过排出体外。每20g肌肉代谢可产生1mg肌酐,在肉类食物摄入量稳定时,身体的肌肉代谢又没有大的变化,肌酐的生成就会比较恒定。但是,肾功能不全时,肌酐不能正常代谢,肌酐在体内蓄积会成为对人体有害的毒素。因此临床上,需要对肌酐含量进行检查,以评估人体肾功能。对于肾病患者,则需要定期进行肌酐检查,一般地,每年需要检查四次,对于新确诊的患者,则需要每月做一次肌酐检查。若肌酐检查的次数过多或过少,都属于异常的肌酐检查。
本实施例中,从定点医疗机构中获取与透析相关的数据作为待筛选的肌酐检查数据,所述肌酐检查数据包括参保人信息、诊疗信息、用药信息、肌酐检查时间、肌酐检查次数、肌酐检查费用等。具体地,获取具有透析记录的社保卡在设定时段内的所有信息,可以将时段设定为一年、半年或一个月。将与肌酐检查相关的所有社保卡的数据作为待筛选的肌酐检查数据。
步骤S102,按预设数据清洗流程对所述肌酐检查数据进行清洗,获得标准化数据;
本实施例中,依次对所述肌酐检查数据执行缺失值清洗、格式内容清洗、逻辑错误清洗、非需求数据清洗、关联性验证的清洗流程,获得标准化数据。
具体地,首先对所述肌酐检查数据进行缺失值清洗,确定缺失值的范围并计算所述肌酐检查数据中每个字段的缺失率,根据所述缺失率和字段重要性制定相应的策略,例如对重要性高缺失率高的肌酐检查数据进补全、去除重要性低缺失率高的肌酐检查数据、填充重要性高缺失率低的肌酐检查数据。对于肌酐检查数据,则肌酐检查时间、肌酐检查次数为重要性高的信息,而用药信息、肌酐检查费用等则为重要性低的信息。去除不需要的字段,填充相关缺失内容。
当对所述肌酐检查数据进行缺失值清洗后,则对清洗后的肌酐检查数据进行格式内容清洗。将时间、日期、数值、全角半角、字符等都清洗成统一的格式。对于逻辑错误清洗,则需要去除所述肌酐检查数据中的重复数据、不合理值。所述非需求数据清洗是指删除所述肌酐检查数据中不需要的内容,例如可删除与异常肌酐检查不是太相关的信息例如诊疗信息、用药信息等。还需要对所述处理后的肌酐检查数据进行关联性验证。由于参保人可能在多个定点医疗机构中进行了肌酐检查,故需要对参保人在不同的定点医疗机构中进行的肌酐检查数据相关联,并将同一参保人的肌酐检查数据进行合并,以获得完整准确的肌酐检查数据。
由此,所述肌酐检查数据依次进行缺失值清洗、格式内容清洗、逻辑错误清洗、非需求数据清洗、关联性验证的清洗流程后,最终获得标准化数据。
步骤S103,基于预先建立的肌酐检查次数聚类模型对所述标准化数据进行分析,获得异常肌酐检查数据。
本实施例中,将所述标准化数据输入预先建立的肌酐检查次数聚类模型,预先基于高斯混合模型的最大期望聚类算法建立所述肌酐检查次数聚类模型,所述肌酐检查次数聚类模型对接收到的标准化数据分别计算在所述肌酐检查次数聚类模型中各个簇的簇概率。可以理解地,所述所述肌酐检查次数聚类模型中各个簇的数据符合高斯分布,也即正态分布。在所述所述肌酐检查次数聚类模型对所述标准化数据进行检测的时,则计算所述所述标准化数据与所述各个簇中正态分布对称轴的距离,距离越小则概率越大,反之距离越大则概率越小。若所述肌酐检查次数聚类模型中有k个簇,那么就能得出k个簇概率。可以将所述k个簇概率按从小到大或从大到小的顺序进行排序,获得排序后的簇概率,获取所述簇概率中的最大簇概率,将所述最大簇概率与阈值进行比较;可以理解地,阈值的设置会直接影响所述肌酐检查次数聚类模型对所述肌酐检查数据分析的准确性,故在实践中所述阈值可以根据需要具体设置,例如设置为80%,90%或95%,若所述最大簇概率小于所述阈值,则将所述最大簇概率对应的标准化数据标记为异常肌酐检查数据。若所述最大概率大于或等于所述阈值,则将所述最大概率对应的标准化数据标记为正常肌酐检查数据。
本发明实施例通过上述方案,从定点医疗机构获取待筛选的肌酐检查数据;按预设数据清洗流程对所述肌酐检查数据进行清洗,获得标准化数据;用预先建立的肌酐检查次数聚类模型对所述标准化数据进行分析,获得异常肌酐检查数据。由此,基于聚类算法,通过肌酐检查次数聚类模型筛选异常肌酐检查数据,提高了检查数据筛选的效率和准确性。
如图3所示,本发明第二实施例提出一种检查数据筛选方法,基于上述图1所示的第一实施例,所述从定点医疗机构获取待筛选的肌酐检查数据的步骤之前还包括:
步骤S201,从定点医疗机构获取正常肌酐检查的历史数据;
本实施例中,所述历史数据包括参保人信息、诊疗信息、用药信息、肌酐检查时间、肌酐检查次数、肌酐检查费用等。
步骤S202,将所述历史数据按预设流程进行处理后获得样本数据。
具体地,依次对所述肌酐检查数据执行缺失值清洗、格式内容清洗、逻辑错误清洗、非需求数据清洗、关联性验证的清洗流程,获得标准化的样本数据。具体地,首先对所述历史数据进行缺失值清洗,确定缺失值的范围并计算所述肌酐检查数据中每个字段的缺失率,根据所述缺失率和字段重要性制定相应的策略,例如对重要性高缺失率高的肌酐检查数据进补全、去除重要性低缺失率高的肌酐检查数据、填充重要性高缺失率低的肌酐检查数据。对于肌酐检查数据,则肌酐检查时间、肌酐检查次数为重要性高的信息,而用药信息、肌酐检查费用等则为重要性低的信息。去除不需要的字段,填充相关缺失内容。
当对所述历史数据进行缺失值清洗后,则对清洗后的历史数据进行格式内容清洗。将时间、日期、数值、全角半角、字符等都清洗成统一的格式。对于逻辑错误清洗,则需要去除所述肌酐检查数据中的重复数据、不合理值。所述非需求数据清洗是指删除所述历史数据中不需要的内容,例如可删除与异常肌酐检查不是太相关的信息例如诊疗信息、用药信息等。还需要对所述处理后的历史数据进行关联性验证。由于参保人可能在多个定点医疗机构中进行了肌酐检查,故需要对参保人在不同的定点医疗机构中进行的历史数据相关联,并将同一参保人的肌酐检查数据进行合并,以获得完整准确的历史数据。由此,所述历史数据依次进行缺失值清洗、格式内容清洗、逻辑错误清洗、非需求数据清洗、关联性验证的清洗流程后,最终获得标注化的样本数据。
步骤S203,根据所述样本数据,基于高斯混合模型的最大期望聚类算法建立所述肌酐检查次数聚类模型。
具体地,将所述随机样本数据分成若干个簇,并初始化每个簇的高斯分布参数;
所述高斯分布参数包括三个参数πk、μk、∑k,将所述高斯混合模型GMM表示为p(x/π,μ,∑):
其中,x为随机变量,用K表示所述GMM模型中簇的个数,k表示所述样本数据的数量,μk表示聚类k中所有样本数据的加权平均值,∑k表示所有样本数据的权值总和,πk为混合系数,N(x/μk,∑k)表示所述GMM模型的第k个分量;
对所述K个簇中的每个样本数据设置πk、μk、∑k的初始值,根据所述πk、μk、∑k的初始值,计算对数似然函数lnp(x/π,μ,∑):
根据πk、μk、∑k当前值,计算后验概率γ(znk):
进一步地,根据所述后验概率重新计算
其中,
其中,Nk表示属于聚类k的样本数据的数量;
进一步地,计算对数似然函数:
重复计算所述对数似然函数,当所述对数似然函数最大时,则认为所述GMM模型收敛,则获得了肌酐检查次数聚类模型。
进一步地,对所述肌酐检查次数聚类模型进行验证。具体地,在所述肌酐检查次数聚类模型中输入验证数据,由所述肌酐检查次数聚类模型对所述验证数据进行聚类,输出所述验证数据中的第一异常验证数据;将所述第一异常验证数据与第二异常数据进行比对,所述第二异常数据是预先获得的所述验证数据中的异常数据;若所述第一异常验证数据与所述第二异常数据一致,则判定所述肌酐检查次数聚类模型建立成功,保存所述肌酐检查次数聚类模型以供后续使用;若所述第一异常验证数据与所述第二异常数据不一致,则判定所述肌酐检查次数聚类模型建立失败,将所述肌酐检查次数聚类模型进行调试后,重新进行验证。
此外,还可以根据所述述第一异常验证数据的数量与所述验证数据总数量计算所述肌酐检查次数聚类模型聚类的准确率,若所述准确率高于或等于阈值则判定所述肌酐检查次数聚类模型建立成功;反之,若所述准确率低于阈值则判定所述肌酐检查次数聚类模型建立失败将所述肌酐检查次数聚类模型进行调试后,重新进行验证。
本实施例通过高斯混合模型的最大期望聚类算法建立了用于一次数据筛选的肌酐检查次数聚类模型,提高了检查数据筛选的效率和准确性。
如图4所示,本发明第三实施例提出一种检查数据筛选方法,基于上述图2、图3所示的第一实施例和第二实施例,所述用预先建立的肌酐检查次数聚类模型对所述标准化数据进行分析,获得异常肌酐检查数据的步骤之后还包括:
步骤S104,将所述异常肌酐检查数据发送至相关平台,以供所述相关平台对所述异常肌酐检查数据进行分析并输出相应的决策。
本实施例中,所述相关平台可以是社保局的数据处理平台,将所述异常肌酐检查数据发送至相关平台,所述相关平台基于所述异常肌酐检查数据获取与所述异常肌酐检查数据相关的全部信息,所述全部信息包括对应的参保人、对应的定点医疗机构以及所述参保人的报销费用,以供所述社保局根据所述全部信息进行分析,并根据分析结果做相应的决策。例如,对虚假报销的参保人进行警告、处分、罚款。若某定点医疗机构出现大量的异常数据,导致虚假报销的数量明显超出其它定点医疗机构,则对该定点医疗机构进行全面审查。
本实施例通过将所述异常肌酐检查数据发送至相关平台,以供所述相关平台对所述异常肌酐检查数据进行分析并输出相应的决策,由此,对医保报销进行监督,提高了医保费用的利用率,并减少了骗保事件的发生。
此外,本实施例还提供一种检查数据筛选装置。参照图5,图5为本发明检查数据筛选装置第一实施例的功能模块示意图。
本发明提供的检查数据筛选装置是虚拟装置,存储于图1所示的检查数据筛选设置的存储器1005中,用于从定点医疗机构获取待筛选的肌酐检查数据;用于按预设数据清洗流程对所述肌酐检查数据进行清洗,获得标准化数据;用于基于预先建立的肌酐检查次数聚类模型对所述标准化数据进行分析,获得异常肌酐检查数据。
具体地,所述常肌酐检查数据筛选装置包括:
获取模块10,用于从定点医疗机构获取待筛选的肌酐检查数据;
清洗模块20,用于按预设数据清洗流程对所述肌酐检查数据进行清洗,获得标准化数据;
分析模块30,用于基于预先建立的肌酐检查次数聚类模型对所述标准化数据进行分析,获得异常肌酐检查数据。
进一步地,所述清洗模块还用于:
依次对所述肌酐检查数据执行缺失值清洗、格式内容清洗、逻辑错误清洗、非需求数据清洗、关联性验证的清洗流程,获得标准化数据。
所述检查数据筛选装置还包括:
历史数据获取模块,用于从定点医疗机构获取正常肌酐检查的历史数据;
历史数据清洗模块,将所述历史数据按预设流程进行处理后获得样本数据;
模型建立模块,用于根据所述样本数据,基于高斯混合模型的最大期望聚类算法建立所述肌酐检查次数聚类模型。
进一步地,所述分析模块还用于:
基于预先建立的所述肌酐检查次数聚类模型对所述标准化数据进行聚类,获得所述标准化数据属于所述肌酐检查次数聚类模型中各个簇的簇概率;
将所述簇概率进行排序,获取所述簇概率中的最大概率,并将所述最大概率与阈值进行比较;
若所述最大概率小于所述阈值,则将所述最大概率对应的标准化数据标记为异常肌酐检查数据。
进一步地,所述分析模块还用于:
在所述肌酐检查次数聚类模型中输入验证数据,由所述肌酐检查次数聚类模型对所述验证数据进行聚类,输出所述验证数据中的第一异常验证数据;
将所述第一异常验证数据与第二异常数据进行比对,所述第二异常数据是预先获得的所述验证数据中的异常数据;
若所述第一异常验证数据与所述第二异常数据一致,则判定所述肌酐检查次数聚类模型建立成功,保存所述肌酐检查次数聚类模型以供后续使用;
若所述第一异常验证数据与所述第二异常数据不一致,则判定所述肌酐检查次数聚类模型建立失败,将所述肌酐检查次数聚类模型进行调试后,重新进行验证。
进一步地,所述分析模块还用于:
将所述异常肌酐检查数据发送至相关平台,以供所述相关平台对所述异常肌酐检查数据进行分析并输出相应的决策。
此外,本发明还提出一种种计算机存储介质,所述计算机存储介质上存储有程序,所述检查数据筛选程序被处理器运行时实现如上所述检查数据筛选方法的步骤。
相比现有技术,本发明提出的一种检查数据筛选方法、装置、设备及存储介质,从定点医疗机构获取待筛选的肌酐检查数据;按预设数据清洗流程对所述肌酐检查数据进行清洗,获得标准化数据;用预先建立的肌酐检查次数聚类模型对所述标准化数据进行分析,获得异常肌酐检查数据。由此,基于聚类算法,通过肌酐检查次数聚类模型筛选异常肌酐检查数据,提高了检查数据筛选的效率和准确性。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备执行本发明各个实施例所述的方法。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种检查数据筛选方法,其特征在于,所述方法应用于检查数据筛选设备,所述方法包括:
从定点医疗机构获取待筛选的肌酐检查数据;
按预设数据清洗流程对所述肌酐检查数据进行清洗,获得标准化数据;
基于预先建立的肌酐检查次数聚类模型对所述标准化数据进行分析,获得异常肌酐检查数据。
2.根据权利要求1所述的方法,其特征在于,所述按预设数据清洗流程对所述肌酐检查数据进行清洗,获得标准化数据的步骤包括:
依次对所述肌酐检查数据执行缺失值清洗、格式内容清洗、逻辑错误清洗、非需求数据清洗、关联性验证的清洗流程,获得标准化数据。
3.根据权利要求1所述的方法,其特征在于,所述从定点医疗机构获取待筛选的肌酐检查数据的步骤之前还包括:
从定点医疗机构获取正常肌酐检查的历史数据;
将所述历史数据按预设流程进行处理后获得样本数据;
根据所述样本数据,基于高斯混合模型的最大期望聚类算法建立所述肌酐检查次数聚类模型。
4.根据权利要求1所述的方法,其特征在于,所述基于预先建立的肌酐检查次数聚类模型对所述标准化数据进行分析,获得异常肌酐检查数据的步骤包括:
基于预先建立的所述肌酐检查次数聚类模型对所述标准化数据进行聚类,获得所述标准化数据属于所述肌酐检查次数聚类模型中各个簇的簇概率;
将所述簇概率进行排序,获取所述簇概率中的最大概率,并将所述最大概率与阈值进行比较;
若所述最大概率小于所述阈值,则将所述最大概率对应的标准化数据标记为异常肌酐检查数据。
5.根据权利要求1或3中任一项所述的方法,其特征在于,所述方法还包括:
在所述肌酐检查次数聚类模型中输入验证数据,由所述肌酐检查次数聚类模型对所述验证数据进行聚类,输出所述验证数据中的第一异常验证数据;
将所述第一异常验证数据与第二异常数据进行比对,所述第二异常数据是预先获得的所述验证数据中的异常数据;
若所述第一异常验证数据与所述第二异常数据一致,则判定所述肌酐检查次数聚类模型建立成功,保存所述肌酐检查次数聚类模型以供后续使用;
若所述第一异常验证数据与所述第二异常数据不一致,则判定所述肌酐检查次数聚类模型建立失败,将所述肌酐检查次数聚类模型进行调试后,重新进行验证。
6.根据权利要求1所述的方法,其特征在于,所述用预先建立的肌酐检查次数聚类模型对所述标准化数据进行分析,获得异常肌酐检查数据的步骤之后还包括:
将所述异常肌酐检查数据发送至相关平台,以供所述相关平台对所述异常肌酐检查数据进行分析并输出相应的决策。
7.一种检查数据筛选装置,其特征在于,所述检查数据筛选装置包括:
获取模块,用于从定点医疗机构获取待筛选的肌酐检查数据;
清洗模块,用于按预设数据清洗流程对所述肌酐检查数据进行清洗,获得标准化数据;
分析模块,用于基于预先建立的肌酐检查次数聚类模型对所述标准化数据进行分析,获得异常肌酐检查数据。
8.根据权利要求7所述的装置,其特征在于,所述检查数据筛选装置还包括:
历史数据获取模块,用于从定点医疗机构获取正常肌酐检查的历史数据;
历史数据清洗模块,将所述历史数据按预设流程进行处理后获得样本数据;
模型建立模块,用于根据所述样本数据,基于高斯混合模型的最大期望聚类算法建立所述肌酐检查次数聚类模型。
9.一种检查数据筛选设备,其特征在于,所述检查数据筛选设备包括处理器,存储器以及存储在所述存储器中的检查数据筛选程序,所述检查数据筛选程序被所述处理器运行时,实现如权利要求1-6中任一项所述的检查数据筛选方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有程序,所述检查数据筛选程序被处理器运行时实现如权利要求1-6中任一项所述检查数据筛选方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811530997.6A CN109669935A (zh) | 2018-12-13 | 2018-12-13 | 检查数据筛选方法、装置、设备及存储介质 |
PCT/CN2019/095825 WO2020119114A1 (zh) | 2018-12-13 | 2019-07-12 | 检查数据筛选方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811530997.6A CN109669935A (zh) | 2018-12-13 | 2018-12-13 | 检查数据筛选方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109669935A true CN109669935A (zh) | 2019-04-23 |
Family
ID=66144871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811530997.6A Pending CN109669935A (zh) | 2018-12-13 | 2018-12-13 | 检查数据筛选方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109669935A (zh) |
WO (1) | WO2020119114A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020119114A1 (zh) * | 2018-12-13 | 2020-06-18 | 平安医疗健康管理股份有限公司 | 检查数据筛选方法、装置、设备及存储介质 |
CN113010615A (zh) * | 2021-04-12 | 2021-06-22 | 安徽农业大学 | 基于高斯混合模型聚类算法的分层级数据可视化方法 |
CN113485990A (zh) * | 2021-07-05 | 2021-10-08 | 南昌大学第一附属医院 | 基于输血大数据的多维度智能数据清洗方法及系统 |
CN116052887A (zh) * | 2023-03-01 | 2023-05-02 | 联仁健康医疗大数据科技股份有限公司 | 一种过度检查的检测方法、装置、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102013084A (zh) * | 2010-12-14 | 2011-04-13 | 江苏大学 | 用于检测医疗保险门诊欺诈性交易的系统和方法 |
CN103235933A (zh) * | 2013-04-15 | 2013-08-07 | 东南大学 | 一种基于隐马尔科夫模型的车辆异常行为检测方法 |
CN105159948A (zh) * | 2015-08-12 | 2015-12-16 | 成都数联易康科技有限公司 | 一种基于多特征的医疗保险欺诈检测方法 |
CN106408141A (zh) * | 2015-07-28 | 2017-02-15 | 平安科技(深圳)有限公司 | 异常费用自动提取系统及方法 |
CN106959954A (zh) * | 2016-01-11 | 2017-07-18 | 华院数据技术(上海)有限公司 | 一种用于检测异常性医保报销条目的系统与方法 |
CN107133438A (zh) * | 2017-03-03 | 2017-09-05 | 平安医疗健康管理股份有限公司 | 医疗行为监控方法及装置 |
CN107528823A (zh) * | 2017-07-03 | 2017-12-29 | 中山大学 | 一种基于改进的K‑Means聚类算法的网络异常检测方法 |
CN107679089A (zh) * | 2017-09-05 | 2018-02-09 | 全球能源互联网研究院 | 一种用于电力传感数据的清洗方法、装置和系统 |
CN108590982A (zh) * | 2018-03-26 | 2018-09-28 | 华北电力大学 | 一种风电机组限功率运行的异常数据处理方法 |
CN108921710A (zh) * | 2018-06-08 | 2018-11-30 | 东莞迪赛软件技术有限公司 | 医保异常检测的方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170017760A1 (en) * | 2010-03-31 | 2017-01-19 | Fortel Analytics LLC | Healthcare claims fraud, waste and abuse detection system using non-parametric statistics and probability based scores |
CN105279382B (zh) * | 2015-11-10 | 2017-12-22 | 成都数联易康科技有限公司 | 一种医疗保险异常数据在线智能检测方法 |
CN107871285A (zh) * | 2017-12-06 | 2018-04-03 | 和金在线(北京)科技有限公司 | 一种健康保险赔欺诈及滥用的侦测方法和系统 |
CN108596770B (zh) * | 2017-12-29 | 2022-04-01 | 山大地纬软件股份有限公司 | 基于离群值分析的医疗保险欺诈检测装置及方法 |
CN109669935A (zh) * | 2018-12-13 | 2019-04-23 | 平安医疗健康管理股份有限公司 | 检查数据筛选方法、装置、设备及存储介质 |
-
2018
- 2018-12-13 CN CN201811530997.6A patent/CN109669935A/zh active Pending
-
2019
- 2019-07-12 WO PCT/CN2019/095825 patent/WO2020119114A1/zh active Application Filing
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102013084A (zh) * | 2010-12-14 | 2011-04-13 | 江苏大学 | 用于检测医疗保险门诊欺诈性交易的系统和方法 |
CN103235933A (zh) * | 2013-04-15 | 2013-08-07 | 东南大学 | 一种基于隐马尔科夫模型的车辆异常行为检测方法 |
CN106408141A (zh) * | 2015-07-28 | 2017-02-15 | 平安科技(深圳)有限公司 | 异常费用自动提取系统及方法 |
CN105159948A (zh) * | 2015-08-12 | 2015-12-16 | 成都数联易康科技有限公司 | 一种基于多特征的医疗保险欺诈检测方法 |
CN106959954A (zh) * | 2016-01-11 | 2017-07-18 | 华院数据技术(上海)有限公司 | 一种用于检测异常性医保报销条目的系统与方法 |
CN107133438A (zh) * | 2017-03-03 | 2017-09-05 | 平安医疗健康管理股份有限公司 | 医疗行为监控方法及装置 |
CN107528823A (zh) * | 2017-07-03 | 2017-12-29 | 中山大学 | 一种基于改进的K‑Means聚类算法的网络异常检测方法 |
CN107679089A (zh) * | 2017-09-05 | 2018-02-09 | 全球能源互联网研究院 | 一种用于电力传感数据的清洗方法、装置和系统 |
CN108590982A (zh) * | 2018-03-26 | 2018-09-28 | 华北电力大学 | 一种风电机组限功率运行的异常数据处理方法 |
CN108921710A (zh) * | 2018-06-08 | 2018-11-30 | 东莞迪赛软件技术有限公司 | 医保异常检测的方法及系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020119114A1 (zh) * | 2018-12-13 | 2020-06-18 | 平安医疗健康管理股份有限公司 | 检查数据筛选方法、装置、设备及存储介质 |
CN113010615A (zh) * | 2021-04-12 | 2021-06-22 | 安徽农业大学 | 基于高斯混合模型聚类算法的分层级数据可视化方法 |
CN113010615B (zh) * | 2021-04-12 | 2021-10-01 | 安徽农业大学 | 基于高斯混合模型聚类算法的分层级数据可视化方法 |
CN113485990A (zh) * | 2021-07-05 | 2021-10-08 | 南昌大学第一附属医院 | 基于输血大数据的多维度智能数据清洗方法及系统 |
CN116052887A (zh) * | 2023-03-01 | 2023-05-02 | 联仁健康医疗大数据科技股份有限公司 | 一种过度检查的检测方法、装置、电子设备及存储介质 |
CN116052887B (zh) * | 2023-03-01 | 2023-06-27 | 联仁健康医疗大数据科技股份有限公司 | 一种过度检查的检测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2020119114A1 (zh) | 2020-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109669935A (zh) | 检查数据筛选方法、装置、设备及存储介质 | |
CN110717828B (zh) | 一种基于频繁交易模式的异常账户检测方法及系统 | |
CN108416664A (zh) | 基于消费信贷场景的风险评估方法及系统实现 | |
CN109523412A (zh) | 智能核保方法、装置、计算机设备及计算机可读存储介质 | |
CN108898476A (zh) | 一种贷款客户信用评分方法和装置 | |
CN110895758B (zh) | 存在作弊交易的信用卡账户的筛选方法、装置及系统 | |
CN110097451B (zh) | 一种银行业务的监控方法及装置 | |
CN107590195A (zh) | 文本分类模型训练方法、文本分类方法及其装置 | |
CN112241494A (zh) | 基于用户行为数据的关键信息推送方法及装置 | |
CN109831665A (zh) | 一种视频质检方法、系统及终端设备 | |
CN109409672A (zh) | 一种汽车维修技师分类评级建模方法及装置 | |
CN110503198A (zh) | 获取神经网络测试报告的方法、装置、设备和存储介质 | |
CN109508807A (zh) | 彩票用户活跃度预测方法、系统及终端设备、存储介质 | |
CN111062444A (zh) | 信用风险预测方法、系统、终端及存储介质 | |
CN114139931A (zh) | 企业数据评估方法、装置、计算机设备及存储介质 | |
CN109242363B (zh) | 一种基于多种质量控制模型的全生命周期测试管理平台 | |
CN113139687B (zh) | 一种预测信用卡用户违约的方法及装置 | |
CN110400213A (zh) | 数据处理方法和装置、以及电子设备和可读介质 | |
CN113824580A (zh) | 一种网络指标预警方法及系统 | |
CN112308623A (zh) | 基于监督学习的优质客户流失预测方法、装置及存储介质 | |
CN109635112A (zh) | 异常透析数据筛选方法、装置、设备及存储介质 | |
CN111861738A (zh) | 风控规则筛选方法、装置、计算机设备及存储介质 | |
CN113610627B (zh) | 用于风险预警的数据处理方法和装置 | |
CN110458684A (zh) | 一种基于双向长短期记忆神经网络的金融反欺诈检测方法 | |
CN114926261A (zh) | 汽车金融用户申请欺诈概率预测方法及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190423 |
|
RJ01 | Rejection of invention patent application after publication |