CN110727711B - 基金数据库中异常数据检测方法、装置和计算机设备 - Google Patents
基金数据库中异常数据检测方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN110727711B CN110727711B CN201910973182.3A CN201910973182A CN110727711B CN 110727711 B CN110727711 B CN 110727711B CN 201910973182 A CN201910973182 A CN 201910973182A CN 110727711 B CN110727711 B CN 110727711B
- Authority
- CN
- China
- Prior art keywords
- fund
- data
- medical institution
- expense
- expenditure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请涉及数据分析技术领域,提供一种基金数据库中异常数据检测方法、装置和计算机设备,基于医疗机构名称,提取出医疗机构的基金支出数据以及就诊明细数据,由医疗机构的基金支出能够对应查找到就诊明细数据,采用基金支出回归预测算法计算各医疗机构的基金支出预测值,并根据决策树信息增益算法和预设的医疗机构属性集,完成对就诊明细数据的划分,按照数据的信息增益即数据的重要程度进行数据分类,得出影响基金支出主要属性集,有针对性地实现了影响基金支出的数据的划分,再基于基金支出的预测值和影响医疗机构基金支出的属性集,能够更为快速且准确检测出异常数据,提高基金异常数据的处理效率。
Description
技术领域
本申请涉及数据分析技术领域,特别是涉及基金数据库中异常数据检测方法、装置、计算机设备和存储介质。
背景技术
随着我国社会医疗保险制度改革的不断深入,医疗保险的社会保障功能使越来越多的居民受益。
为减少骗领医保基金的现象的发生,已有学者(或技术)提出能够检测医疗机构是否存在异常基金支出的方法,但是现有的检测方案,其是获取所有医疗机构的基金数据中所有对基金支出可能有影响的因子,对所有可能影响基金支出的因子进行整体分析,进而检测出异常数据,计算机在整体分析所有因子时,需要执行大量的数据分析操作,分析过程繁琐,耗时久,且缺乏针对性,使得基金异常数据的处理效率低。
发明内容
基于此,有必要针对现有的医疗机构基金支出异常数据检测方法处理效率低的问题,提供一种高效的基金数据库中异常数据检测方法、装置、计算机设备和存储介质。
一种基金数据库中异常数据检测方法,基金数据库应用于医疗机构,方法包括:
获取医疗机构的医疗数据,医疗数据包括医疗机构名称;
提取出医疗数据中与医疗机构名称对应的基金支出数据以及就诊明细数据;
基于基金支出数据,采用基金支出回归预测算法计算医疗机构的基金支出预测值;
根据决策树信息增益算法和预设的医疗机构属性集,对就诊明细数据进行划分,得到包含影响医疗机构基金支出的属性集的划分结果;
根据医疗机构的基金支出预测值以及划分结果,得到基金数据库中异常数据检测结果。
在其中一个实施例中,根据决策树信息增益算法,对就诊明细数据进行划分,得到划分结果包括:
根据就诊明细数据,构建训练集;
将训练集与预设的医疗机构属性集进行属性测试,得到属性测试结果;
基于属性测试结果,采用决策树信息增益算法完成对训练集的划分,生成医疗机构基金支出决策树,医疗机构基金支出决策树包括影响医疗机构基金支出的属性集及属性集影响的重要程度数据。
在其中一个实施例中,根据医疗机构的基金支出预测值以及划分结果,得到基金数据库中异常数据检测结果包括:
基于医疗机构的基金支出预测值,调用预设的曲线生成工具,检测出基金支出增长异常的医疗机构;
基于时间序列分析法,对基金支出增长异常的医疗机构的基金支出进行差异化分析,提取出导致基金支出增长异常的属性;
提取出影响医疗机构基金支出的属性集及属性集影响的重要程度数据;
将基金支出增长异常的医疗机构、导致基金支出增长异常的属性、影响医疗机构基金支出的属性集及属性集影响的重要程度数据进行输出。
在其中一个实施例中,基于医疗机构的基金支出预测值,调用预设的曲线生成工具,检测出基金支出增长异常的医疗机构包括:
基于医疗机构的基金支出预测值,调用曲线生成工具,生成医疗机构的基金支出增长曲线;
提取医疗机构的基金支出增长曲线中的基金支出增幅数据,将基金支出增长幅度超过预设阈值的医疗机构标记为基金支出增长异常的医疗机构;
基于时间序列分析法,对基金支出增长异常的医疗机构的基金支出进行差异化分析,提取出导致基金支出增长异常的属性包括:
根据预设的基金支出回归预测公式,将基金支出增长异常的医疗机构的基金支出分解为人数、人均就诊次数以及次均费用;
基于人数、人均就诊次数以及次均费用,采用时间序列分析法对基金支出增长异常的医疗机构的基金支出进行时间序列分析,提取出导致基金支出增长异常的属性。
在其中一个实施例中,基于医疗机构的基金支出数据,采用基金支出回归预测算法计算各医疗机构的基金支出预测值之前,还包括:
对医疗数据中的医疗机构的基金支出数据以及就诊明细数据进行数据预处理,数据预处理包括根据关联字段进行唯一性检查、根据预设的比较公式进行勾稽关系检查、以及根据预设标准进行统一化处理。
在其中一个实施例中,根据医疗机构的基金支出预测值以及划分结果,得到基金数据库中异常数据检测结果之后,还包括:
调用数据抽取工具,抽取出基金数据库中异常数据检测结果;
调用可视化工具将抽取的异常就诊行为特征数据进行可视化处理。
一种基金数据库中异常数据检测装置,装置包括:
数据获取模块,用于获取医疗机构的医疗数据,医疗数据包括医疗机构名称;
数据提取模块,用于提取出医疗数据中与医疗机构名称对应的基金支出数据以及就诊明细数据;
数据计算模块,用于基于基金支出数据,采用基金支出回归预测算法计算各医疗机构的基金支出预测值;
数据划分模块,用于根据决策树信息增益算法,对就诊明细数据进行划分,得到包含影响医疗机构基金支出的属性集的划分结果;
异常检测模块,用于根据医疗机构的基金支出预测值以及划分结果,得到基金数据库中异常数据检测结果。
在其中一个实施例中,装置还包括:
数据可视化模块,用于调用数据抽取工具,抽取出基金数据库中异常数据检测结果,调用可视化工具将抽取的异常就诊行为特征数据进行可视化处理。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取医疗机构的医疗数据,医疗数据包括医疗机构名称;
提取出医疗数据中与医疗机构名称对应的基金支出数据以及就诊明细数据;
基于基金支出数据,采用基金支出回归预测算法计算医疗机构的基金支出预测值;
根据决策树信息增益算法和预设的医疗机构属性集,对就诊明细数据进行划分,得到包含影响医疗机构基金支出的属性集的划分结果;
根据医疗机构的基金支出预测值以及划分结果,得到基金数据库中异常数据检测结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取医疗机构的医疗数据,医疗数据包括医疗机构名称;
提取出医疗数据中与医疗机构名称对应的基金支出数据以及就诊明细数据;
基于基金支出数据,采用基金支出回归预测算法计算医疗机构的基金支出预测值;
根据决策树信息增益算法和预设的医疗机构属性集,对就诊明细数据进行划分,得到包含影响医疗机构基金支出的属性集的划分结果;
根据医疗机构的基金支出预测值以及划分结果,得到基金数据库中异常数据检测结果。
上述基金数据库中异常数据检测方法、装置、计算机设备和存储介质,基于医疗机构名称,提取出医疗机构的基金支出数据以及就诊明细数据,从医疗机构主体入手分析基金支出的流动,由医疗机构的基金支出能够对应查找到就诊明细数据,然后以基金支出数据和病人的就诊明细数据为基点,采用基金支出回归预测算法计算各医疗机构的基金支出预测值,并根据决策树信息增益算法和预设的医疗机构属性集,完成对就诊明细数据的划分,按照数据的信息增益即数据的重要程度进行数据分类,分析得出影响基金支出主要属性集,有针对性地实现了影响基金支出的数据的划分,再基于基金支出的预测值和影响医疗机构基金支出的属性集,能够更为快速且准确检测出基金数据库中的异常数据,提高基金异常数据的处理效率。
附图说明
图1为一个实施例中基金数据库中异常数据检测方法的应用环境图;
图2为一个实施例中基金数据库中异常数据检测方法的流程示意图;
图3为另一个实施例中基金数据库中异常数据检测方法的详细流程示意图;
图4为一个实施例中就诊明细数据进行划分,得到划分结果步骤的流程示意图;
图5为一个实施例中基金数据库中异常数据检测装置的结构框图;
图6为另一个实施例中基金数据库中异常数据检测装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的基金数据库中异常数据检测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。由于社会医疗保险制度改革的推进,大部分居民都会购买相应的医疗保险(以下简称医保),成为参保人,到医疗机构看病就诊时都可通过医院的医保报销通道直接进行相应的费用报销。在实际应用中,可以是各家医疗机构实时将其医疗数据上传至基金数据库,用户于终端102登录医疗机构的基金数据库管理平台,点击平台的“基金支出异常检测”按钮,终端102发送数据检测指令至服务器 104,服务器104响应该数据检测指令,从基金数据库中获取医疗机构的医疗数据,医疗数据包括医疗机构名称,提取出医疗数据中与医疗机构名称对应的基金支出数据以及就诊明细数据,基于基金支出数据,采用基金支出回归预测算法计算医疗机构的基金支出预测值,根据决策树信息增益算法和预设的医疗机构属性集,对就诊明细数据进行划分,得到包含影响医疗机构基金支出的属性集的划分结果,根据医疗机构的基金支出预测值以及划分结果,得到基金数据库中异常数据检测结果。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种基金数据库中异常数据检测方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S100,获取医疗机构的医疗数据,医疗数据包括医疗机构名称。
在实际应用中,越来越多的门诊慢性病病种纳入医保的保障行列,因此,各医疗机构上传的医疗数据包括门诊慢性病医疗数据,具体的,门诊慢性病医疗数据包括参保人的就诊明细数据以及其就诊的医疗机构的医疗数据。其中,医疗数据包括医疗机构的基金支出、医疗机构的名称、医疗机构的等级、医疗机构的地理位置以及医疗机构的属性等信息。基金数据库的工作人员根据就诊明细数据以及其就诊的医疗机构数据的医疗机构,整理出本地和异地的医疗机构的基金支出数据。
步骤S200,提取出医疗数据中与医疗机构名称对应的基金支出数据以及就诊明细数据。
数据的提取可以是根据医疗机构的名称,提取相应的各医疗机构的基金支出数据以及就诊明细数据。其中,医疗机构的基金支出数据包括医疗机构的属性数据如等级、地理位置以及具体的基金支出金额,就诊明细数据包括就诊人数、就诊次数、每次就诊费用等数据。
步骤S300,基于基金支出数据,采用基金支出回归预测算法计算医疗机构的基金支出预测值。
如上述实施例所述,各医疗机构的就诊明细数据包括就诊人数、就诊次数、每次就诊费用等特征数据,可以是根据上述数据,分别计算出各医疗机构的就诊人数、人均就诊次数、人均就诊费用、次均花费等因素,根据就诊人数、就诊次数、次均花费、人均就诊费用等因素对各医疗机构的基金支出进行各年及历年各月的时间序列变化分析,并计算出上述因素的环比增长率和平均增长率,综合上述因素,构建当地基金支出回归预测算法。基金支出回归预测算法用于跟踪当前和未来基金支出及各因素增长异于常态或均值的医疗机构,并分析出影响医疗机构基金支出增长异常的因素。本实施例中,基金支出回归预测算法为:Yt=a+b1x1+b2x2+......+bnxn,其中,Yt为第t年医疗机构的基金支出预测值, a为常数,x为人数、就诊次数、次均花费等各因素,通过上述算法,计算出各医疗机构基金支出预测值。
如图3所示,在其中一个实施例中,基于医疗机构的基金支出数据,采用基金支出回归预测算法计算各医疗机构的基金支出预测值之前,还包括:步骤 S250,对医疗数据中的医疗机构的基金支出数据以及就诊明细数据进行数据预处理,数据预处理包括根据关联字段进行唯一性检查、根据预设的比较公式进行勾稽关系检查、以及根据预设标准进行统一化处理。
在提取出与医疗机构名称对应的基金支出数据以及就诊明细数据后,为便于异常数据的检测,需要对数据进行预处理,具体的,数据预处理过程包括:对基金支出数据以及就诊明细数据进行关联字段进行唯一性检查,去除重复数据;根据报表项目间的预设比较公式进行勾稽关系检查,如检测参保人自费金额、自负金额、公务员补贴、企业补助、医保基金支出等各项支出是否等于总费用,参保人所购项目单价和数量是否等于总价等勾稽关系的检查,将不满足勾稽关系的数据通过勾稽关系等式补足数据,在金额影响不大的情况下剔除不满足勾稽关系的数据;根据预设标准进行统一化处理,如将数据库中的病种名称清洗为以ICD.10为统一标准的疾病名称,将数据库中的项目名称(药品、材料及检查检验等)清洗为以社保目录为统一标准的通用名。
步骤S400,根据决策树信息增益算法和预设的医疗机构属性集,对就诊明细数据进行划分,得到包含影响医疗机构基金支出的属性集的划分结果。
在决策树算法的学习过程中,信息增益是特征选择的一个重要指标,其定义为一个特征能够为分类系统带来的信息量,一个特征带来的信息量越多,则表明该特征越重要,相应的信息增益也就越大,那么就选取这个特征。实际应用中,可以是工作人员预先通过机构等级、机构地理位置、机构属性等字段整理得到医疗机构属性集,医疗机构属性集包括医疗机构的等级(如三甲),地理位置(所在地区),机构属性(医院或药店,本地机构还是异地机构等)等。可以是计算就诊明细数据集中的信息增益,然后与预设的医疗机构属性集进行比较,根据结果采用决策树信息增益算法完成对训练集的划分,得到划分结果。
如图4所示,在其中一个实施例中,根据决策树信息增益算法,对就诊明细数据进行划分,得到划分结果包括:步骤S420,根据就诊明细数据,构建训练集;步骤S440,将训练集与预设的医疗机构属性集进行属性测试,得到属性测试结果;步骤S460,基于属性测试结果,采用决策树信息增益算法完成对训练集的划分,生成医疗机构基金支出决策树,医疗机构基金支出决策树包括影响医疗机构基金支出的属性集及属性集影响的重要程度数据。
本实施例中,可以是根据预处理后的就诊明细数据,构建训练集D,计算训练集D中所有特征(属性)的信息增益,比较所有特征的信息增益,将信息增益最大的作为最优特征,以此作为决策树的根节点,并将训练集D与预设的医疗属性集A进行属性测试,得到属性测试结果,然后根据决策树信息增益算法,按照属性测试结果,将训练集D划分到各个子节点,生成医疗机构基金支出决策树,医疗机构基金支出决策树包括影响医疗机构基金支出的属性集及属性集影响的重要程度数据。具体的,可以是先选取信息增益最大特征作为结点node;若D中样本全属于同一类别C,则将node标记为C类叶节点;若A为空集或者 D中样本在A上取值相同,则将node标记为叶节点,其类别标记为D中样本数最多的类;从A中选择最优划分属性a*(a*为各个属性集:如医疗机构等级,医疗机构属性等),遍历a*是否存在取值为a*V的样本(a*V单指某个属性,如医疗机构等级),为node生成一个分支;令Dv表示D中在a*上取值为a*V的样本子集(Dv为训练集D中,属性为a*V的样本子集);若Dv为空,则将分支结点标记为叶节点,将其类别标记为D中样本最多的类;否则以(TreeGenerate (D,A)\{a*})为分支结点,输出以node为根节点的一棵决策树,该决策树包括影响医疗机构基金支出的属性集及其影响的重要性程度。具体的,在训练集D 中,首先通过信息增益算法,计算属性a*中每个属性a*V(医疗机构等级,医疗机构属性,医疗机构地理位置等)的信息增益,通过信息增益值判断其影响的重要性程度,并根据信息增益值,构建医疗机构基金支出决策树:将训练集D 视作一个节点;遍历每个变量并计算一种划分方式,通过信息增益,找到最好的划分点(如医疗机构属性是药店或是医院);分割成两个节点N1(医院)和 N2(药店);对N1和N2分别继续执行上述操作,直到每个节点足够“纯”为止。本实施例中,通过决策树信息增益算法进行划分,能够使得划分之后的各个子集的纯度更高。
步骤S500,根据医疗机构的基金支出预测值以及划分结果,得到基金数据库中异常数据检测结果。
在得到医疗机构的基金支出预测值和划分结果后,可以是跟踪基金支出预测值,然后分析就诊人数、次均花费等因素的增长情况,检测出存在基金支出增长存在异常的医疗机构,提取出划分结果中的影响医疗机构基金支出的属性集。具体的,在其他实施例中,可以是基于医疗机构的基金支出预测值,调用预设的曲线生成工具,检测出基金支出增长异常的医疗机构,基于时间序列分析法,对基金支出增长异常的医疗机构的基金支出进行差异化分析,提取出导致基金支出增长异常的属性,提取出影响医疗机构基金支出的属性集及属性集影响的重要程度数据,将基金支出增长异常的医疗机构、导致基金支出增长异常的属性、影响医疗机构基金支出的属性集及属性集影响的重要程度数据进行输出。
在其中一个实施例中,基于医疗机构的基金支出预测值,调用预设的曲线生成工具,检测出基金支出增长异常的医疗机构包括:基于医疗机构的基金支出预测值,调用曲线生成工具,生成医疗机构的基金支出增长曲线,提取医疗机构的基金支出增长曲线中的基金支出增幅数据,将基金支出增长幅度超过预设阈值的医疗机构标记为基金支出增长异常的医疗机构;基于时间序列分析法,对基金支出增长异常的医疗机构的基金支出进行差异化分析,提取出导致基金支出增长异常的属性包括:根据预设的基金支出回归预测公式,将基金支出增长异常的医疗机构的基金支出分解为人数、人均就诊次数以及次均费用,基于人数、人均就诊次数以及次均费用,采用时间序列分析法对基金支出增长异常的医疗机构的基金支出进行时间序列分析,提取出导致基金支出增长异常的属性。
在实际应用中,可以是基于医疗机构的基金支出预测值,调用曲线生成工具,生成医疗机构的基金支出增长曲线,提取医疗机构的基金支出增长曲线中的基金支出增幅数据,将基金支出增长幅度超过预设阈值的医疗机构标记为基金支出增长异常的医疗机构,然后,将基金支出增长异常的医疗机构的基金支出分解为:基金支出=人数*人均基金支出=就诊次数*次均花费=人数*人均就诊次数*次均费用,基于人数、人均就诊次数以及次均费用,采用时间序列分析法对基金支出增长异常的医疗机构的基金支出进行时间序列分析,提取出导致基金支出增长异常的影响最大的特征数据。本实施例中,通过调用曲线生成工具以及对基金支出进行分解,分析出基金支出的增长趋势,得到基金支出增长异常的医疗机构,并从人数、就诊次数、次均花费等因素中分析出导致基金支出增长异常的影响最大的因素。
上述基金数据库中异常数据检测方法,基于医疗机构名称,提取出医疗机构的基金支出数据以及就诊明细数据,从医疗机构主体入手分析基金支出的流动,由医疗机构的基金支出能够对应到就诊明细数据,然后以基金支出数据和病人的就诊明细数据为基点,采用基金支出回归预测算法计算各医疗机构的基金支出预测值,并根据决策树信息增益算法和预设的医疗机构属性集,完成对就诊明细数据的划分,按照数据的信息增益即数据的重要程度进行数据分类,分析得出影响基金支出主要属性集,有针对性地实现了影响基金支出的数据的划分,再基于基金支出的预测值和影响医疗机构基金支出的属性集,能够更为快速且准确检测出基金数据库中的异常数据,提高基金异常数据的处理效率。
如图3所示,在其中一个实施例中,根据医疗机构的基金支出预测值以及划分结果,得到基金数据库中异常数据检测结果之后,还包括:步骤S600,调用数据抽取工具,抽取出基金数据库中异常数据检测结果,调用可视化工具将抽取的异常就诊行为特征数据进行可视化处理。
基金数据库中异常数据检测结果包括基金支出增长异常的医疗机构、导致基金支出增长异常的属性、影响医疗机构基金支出的属性集及属性集影响的重要程度数据,在得到上述检测结果数据之后,为便于数据的查看,可以调用数据抽取工具,抽取出基金数据库中异常数据检测结果,然后调用可视化工具将抽取的异常就诊行为特征数据进行可视化处理,以图表的形式显示与于终端显示屏上,便于工作人员对异常数据进行精准定位。可以是根据kettle流程工具和预设的数据定时预跑规则,抽取出基金支出增长异常的医疗机构、导致基金支出增长异常的属性、影响医疗机构基金支出的属性集及属性集影响的重要程度数据,并调用tableau按照预设维度进行展示。kettle流程工具与数据库以及tableau是相互连接的,开发人员预先在kettle流程工具设定好相应的数据抽取规则,当kettle流程工具接收到数据抽取指令时,便会根据预设的数据定时预跑规则,定时送从数据库抽取相应的分析数据并将筛选出的分析数据输入 tableau,tableau按照开发人员预先在tableau界面制作数据展示的维度,将数据按照预设的维度进行可视化展示。可视化展示的结果包括基金支出在人均就诊次数、次均花费以及基金增长过高的异常部分,对异常部分就行提示,并展示异常部分对应的参保人员就诊明细。其中,制定的数据定时预跑规则可以是以月、周或日指定的数据定时预跑规则,具体的,预设维度可以是医疗机构属性、医院等级以及医疗机构所在地区,分析数据可以包括医疗机构的基金支出的人均就诊次数、次均花费数、基金增长以及优势病种等的分析结果。通过 kettle流程工具以及tableau,能够对分析出的异常数据实现不同维度的精准定位。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种基金数据库中异常数据检测装置,包括:数据获取模块510、数据提取模块520、数据计算模块530、数据划分模块540和异常检测模块550,其中:
数据获取模块510,用于获取医疗机构的医疗数据,医疗数据包括医疗机构名称。
数据提取模块520,用于提取出医疗数据中与医疗机构名称对应的基金支出数据以及就诊明细数据。
数据计算模块530,用于基于基金支出数据,采用基金支出回归预测算法计算各医疗机构的基金支出预测值。
数据划分模块540,用于根据决策树信息增益算法,对就诊明细数据进行划分,得到包含影响医疗机构基金支出的属性集的划分结果。
异常检测模块550,用于根据医疗机构的基金支出预测值以及划分结果,得到基金数据库中异常数据检测结果。
在其中一个实施例中,数据划分模块540还用于根据就诊明细数据,构建训练集,将训练集与预设的医疗机构属性集进行属性测试,得到属性测试结果,基于属性测试结果,采用决策树信息增益算法完成对训练集的划分,生成医疗机构基金支出决策树,医疗机构基金支出决策树包括影响医疗机构基金支出的属性集及属性集影响的重要程度数据。
在其中一个实施例中,异常检测模块550还用于基于医疗机构的基金支出预测值,调用预设的曲线生成工具,检测出基金支出增长异常的医疗机构,基于时间序列分析法,对基金支出增长异常的医疗机构的基金支出进行差异化分析,提取出导致基金支出增长异常的属性,提取出影响医疗机构基金支出的属性集及属性集影响的重要程度数据,将基金支出增长异常的医疗机构、导致基金支出增长异常的属性、影响医疗机构基金支出的属性集及属性集影响的重要程度数据进行输出。
在其中一个实施例中,异常检测模块550还用于基于医疗机构的基金支出预测值,调用曲线生成工具,生成医疗机构的基金支出增长曲线,提取医疗机构的基金支出增长曲线中的基金支出增幅数据,将基金支出增长幅度超过预设阈值的医疗机构标记为基金支出增长异常的医疗机构;根据预设的基金支出回归预测公式,将基金支出增长异常的医疗机构的基金支出分解为人数、人均就诊次数以及次均费用,基于人数、人均就诊次数以及次均费用,采用时间序列分析法对基金支出增长异常的医疗机构的基金支出进行时间序列分析,提取出导致基金支出增长异常的属性。
如图6所示,在其中一个实施例中,基金数据库中异常数据检测装置还包括数据预处理模块560,用于对医疗数据中的医疗机构的基金支出数据以及就诊明细数据进行数据预处理,数据预处理包括根据关联字段进行唯一性检查、根据预设的比较公式进行勾稽关系检查、以及根据预设标准进行统一化处理。
在其中一个实施例中,基金数据库中异常数据检测装置还包括数据可视化模块570,用于调用数据抽取工具,抽取出基金数据库中异常数据检测结果,调用可视化工具将抽取的异常就诊行为特征数据进行可视化处理。
关于基金数据库中异常数据检测装置的具体限定可以参见上文中对于基金数据库中异常数据检测方法的限定,在此不再赘述。上述基金数据库中异常数据检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在其中一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储医疗数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基金数据库中异常数据检测方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在其中一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述基金数据库中异常数据检测方法的步骤。
在其中一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述基金数据库中异常数据检测方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM (EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM (SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM (DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基金数据库中异常数据检测方法,所述基金数据库应用于医疗机构,所述方法包括:
获取医疗机构的医疗数据,所述医疗数据包括医疗机构名称;
提取出所述医疗数据中与所述医疗机构名称对应的基金支出数据以及就诊明细数据;
根据基金支出回归预测算法,将所述基金支出数据分解为多个影响医疗机构基金支出增长异常的因素,采用基金支出回归预测算法对所述多个影响医疗机构基金支出增长异常的因素进行处理,得到医疗机构的基金支出预测值;
根据所述就诊明细数据,构建训练集,将所述训练集与预设的医疗机构属性集进行属性测试,得到属性测试结果,基于所述属性测试结果,采用决策树信息增益算法完成对所述训练集的划分,生成医疗机构基金支出决策树,所述医疗机构基金支出决策树包括影响医疗机构基金支出的属性集及所述属性集影响的重要程度数据;
基于所述医疗机构的基金支出预测值,调用曲线生成工具,生成医疗机构的基金支出增长曲线,提取所述医疗机构的基金支出增长曲线中的基金支出的增幅数据,将基金支出增长幅度超过预设阈值的医疗机构标记为基金支出增长异常的医疗机构,根据预设的基金支出回归预测公式,将所述基金支出增长异常的医疗机构的基金支出分解为人数、人均就诊次数以及次均费用,基于人数、人均就诊次数以及次均费用,采用时间序列分析法对所述基金支出增长异常的医疗机构的基金支出进行时间序列分析,提取出导致基金支出增长异常的属性,提取出所述影响医疗机构基金支出的属性集及所述属性集影响的重要程度数据,将所述基金支出增长异常的医疗机构、所述导致基金支出增长异常的属性、所述影响医疗机构基金支出的属性集及所述属性集影响的重要程度数据进行输出;
其中,基金支出回归预测算法包括:,其中,/>为第/>年医疗机构的基金支出预测值,a和b为常数,/>包括人数、人均就诊次数以及次均花费。
2.根据权利要求1所述的基金数据库中异常数据检测方法,其特征在于,所述基于所述医疗机构的基金支出数据,采用基金支出回归预测算法计算各医疗机构的基金支出预测值之前,还包括:
对所述医疗数据中的医疗机构的基金支出数据以及就诊明细数据进行数据预处理,所述数据预处理包括根据关联字段进行唯一性检查、根据预设的比较公式进行勾稽关系检查、以及根据预设标准进行统一化处理。
3.根据权利要求1所述的基金数据库中异常数据检测方法,其特征在于,所述方法还包括:
调用数据抽取工具,抽取出基金数据库中异常数据检测结果;
调用可视化工具将抽取的异常数据检测结果进行可视化处理。
4.一种基金数据库中异常数据检测装置,其特征在于,所述基金数据库应用于医疗机构,所述装置包括:
数据获取模块,用于获取医疗机构的医疗数据,所述医疗数据包括医疗机构名称;
数据提取模块,用于提取出所述医疗数据中与所述医疗机构名称对应的基金支出数据以及就诊明细数据;
数据计算模块,用于根据基金支出回归预测算法,将所述基金支出数据分解为多个影响医疗机构基金支出增长异常的因素,采用基金支出回归预测算法对所述多个影响医疗机构基金支出增长异常的因素进行处理,得到医疗机构的基金支出预测值;
数据划分模块,用于根据所述就诊明细数据,构建训练集,将所述训练集与预设的医疗机构属性集进行属性测试,得到属性测试结果,基于所述属性测试结果,采用决策树信息增益算法完成对所述训练集的划分,生成医疗机构基金支出决策树,所述医疗机构基金支出决策树包括影响医疗机构基金支出的属性集及所述属性集影响的重要程度数据;
异常检测模块,用于基于所述医疗机构的基金支出预测值,调用曲线生成工具,生成医疗机构的基金支出增长曲线,提取所述医疗机构的基金支出增长曲线中的基金支出的增幅数据,将基金支出增长幅度超过预设阈值的医疗机构标记为基金支出增长异常的医疗机构,根据预设的基金支出回归预测公式,将所述基金支出增长异常的医疗机构的基金支出分解为人数、人均就诊次数以及次均费用,基于人数、人均就诊次数以及次均费用,采用时间序列分析法对所述基金支出增长异常的医疗机构的基金支出进行时间序列分析,提取出导致基金支出增长异常的属性,提取出所述影响医疗机构基金支出的属性集及所述属性集影响的重要程度数据,将所述基金支出增长异常的医疗机构、所述导致基金支出增长异常的属性、所述影响医疗机构基金支出的属性集及所述属性集影响的重要程度数据进行输出;
其中,基金支出回归预测算法包括:,其中,/>为第/>年医疗机构的基金支出预测值,a和b为常数,/>包括人数、人均就诊次数以及次均花费。
5.根据权利要求4所述的基金数据库中异常数据检测装置,其特征在于,所述装置还包括:
数据可视化模块,用于调用数据抽取工具,抽取出所述基金数据库中异常数据检测结果,调用可视化工具将抽取的异常数据检测结果进行可视化处理。
6.根据权利要求4所述的基金数据库中异常数据检测装置,其特征在于,所述装置还包括:数据预处理模块,用于对所述医疗数据中的医疗机构的基金支出数据以及就诊明细数据进行数据预处理,所述数据预处理包括根据关联字段进行唯一性检查、根据预设的比较公式进行勾稽关系检查、以及根据预设标准进行统一化处理。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
获取医疗机构的医疗数据,所述医疗数据包括医疗机构名称;
提取出所述医疗数据中与所述医疗机构名称对应的基金支出数据以及就诊明细数据;
根据基金支出回归预测算法,将所述基金支出数据分解为多个影响医疗机构基金支出增长异常的因素,采用基金支出回归预测算法对所述多个影响医疗机构基金支出增长异常的因素进行处理,得到医疗机构的基金支出预测值;
根据所述就诊明细数据,构建训练集,将所述训练集与预设的医疗机构属性集进行属性测试,得到属性测试结果,基于所述属性测试结果,采用决策树信息增益算法完成对所述训练集的划分,生成医疗机构基金支出决策树,所述医疗机构基金支出决策树包括影响医疗机构基金支出的属性集及所述属性集影响的重要程度数据;
基于所述医疗机构的基金支出预测值,调用曲线生成工具,生成医疗机构的基金支出增长曲线,提取所述医疗机构的基金支出增长曲线中的基金支出的增幅数据,将基金支出增长幅度超过预设阈值的医疗机构标记为基金支出增长异常的医疗机构,根据预设的基金支出回归预测公式,将所述基金支出增长异常的医疗机构的基金支出分解为人数、人均就诊次数以及次均费用,基于人数、人均就诊次数以及次均费用,采用时间序列分析法对所述基金支出增长异常的医疗机构的基金支出进行时间序列分析,提取出导致基金支出增长异常的属性,提取出所述影响医疗机构基金支出的属性集及所述属性集影响的重要程度数据,将所述基金支出增长异常的医疗机构、所述导致基金支出增长异常的属性、所述影响医疗机构基金支出的属性集及所述属性集影响的重要程度数据进行输出;
其中,基金支出回归预测算法包括:,其中,/>为第/>年医疗机构的基金支出预测值,a和b为常数,/>包括人数、人均就诊次数以及次均花费。
8.根据权利要求7所述的计算机设备,其特征在于,所述处理器执行所述计算机程序时还实现以下步骤:
调用数据抽取工具,抽取出基金数据库中异常数据检测结果;
调用可视化工具将抽取的异常数据检测结果进行可视化处理。
9.根据权利要求7所述的计算机设备,其特征在于,所述处理器执行所述计算机程序时还实现以下步骤:
对所述医疗数据中的医疗机构的基金支出数据以及就诊明细数据进行数据预处理,所述数据预处理包括根据关联字段进行唯一性检查、根据预设的比较公式进行勾稽关系检查、以及根据预设标准进行统一化处理。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910973182.3A CN110727711B (zh) | 2019-10-14 | 2019-10-14 | 基金数据库中异常数据检测方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910973182.3A CN110727711B (zh) | 2019-10-14 | 2019-10-14 | 基金数据库中异常数据检测方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110727711A CN110727711A (zh) | 2020-01-24 |
CN110727711B true CN110727711B (zh) | 2023-10-27 |
Family
ID=69220140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910973182.3A Active CN110727711B (zh) | 2019-10-14 | 2019-10-14 | 基金数据库中异常数据检测方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110727711B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116759099A (zh) * | 2023-08-21 | 2023-09-15 | 潍坊医学院 | 一种医保基金审核系统数据处理方法、装置及设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107610771A (zh) * | 2017-08-23 | 2018-01-19 | 上海电力学院 | 一种基于决策树的医学检测指标筛选方法 |
CN107679994A (zh) * | 2017-07-26 | 2018-02-09 | 平安科技(深圳)有限公司 | 核保决策树的创建方法、装置、计算机设备及存储介质 |
CN108921710A (zh) * | 2018-06-08 | 2018-11-30 | 东莞迪赛软件技术有限公司 | 医保异常检测的方法及系统 |
CN109243592A (zh) * | 2018-10-30 | 2019-01-18 | 平安医疗健康管理股份有限公司 | 基于人工智能的医疗项目使用异常检测方法及相关装置 |
CN109460942A (zh) * | 2018-12-13 | 2019-03-12 | 平安医疗健康管理股份有限公司 | 基于数据分析评价医院的方法及相关产品 |
CN109544363A (zh) * | 2018-10-27 | 2019-03-29 | 平安医疗健康管理股份有限公司 | 基于数据可视化的医疗监管方法、装置、终端及介质 |
CN109559242A (zh) * | 2018-12-13 | 2019-04-02 | 平安医疗健康管理股份有限公司 | 异常数据的处理方法、装置、设备及计算机可读存储介质 |
CN109616185A (zh) * | 2018-12-13 | 2019-04-12 | 平安医疗健康管理股份有限公司 | 检测违规开具检查项目行为的方法及相关设备 |
-
2019
- 2019-10-14 CN CN201910973182.3A patent/CN110727711B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679994A (zh) * | 2017-07-26 | 2018-02-09 | 平安科技(深圳)有限公司 | 核保决策树的创建方法、装置、计算机设备及存储介质 |
CN107610771A (zh) * | 2017-08-23 | 2018-01-19 | 上海电力学院 | 一种基于决策树的医学检测指标筛选方法 |
CN108921710A (zh) * | 2018-06-08 | 2018-11-30 | 东莞迪赛软件技术有限公司 | 医保异常检测的方法及系统 |
CN109544363A (zh) * | 2018-10-27 | 2019-03-29 | 平安医疗健康管理股份有限公司 | 基于数据可视化的医疗监管方法、装置、终端及介质 |
CN109243592A (zh) * | 2018-10-30 | 2019-01-18 | 平安医疗健康管理股份有限公司 | 基于人工智能的医疗项目使用异常检测方法及相关装置 |
CN109460942A (zh) * | 2018-12-13 | 2019-03-12 | 平安医疗健康管理股份有限公司 | 基于数据分析评价医院的方法及相关产品 |
CN109559242A (zh) * | 2018-12-13 | 2019-04-02 | 平安医疗健康管理股份有限公司 | 异常数据的处理方法、装置、设备及计算机可读存储介质 |
CN109616185A (zh) * | 2018-12-13 | 2019-04-12 | 平安医疗健康管理股份有限公司 | 检测违规开具检查项目行为的方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110727711A (zh) | 2020-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chang et al. | An artificial intelligence model for heart disease detection using machine learning algorithms | |
US10181012B2 (en) | Extracting clinical care pathways correlated with outcomes | |
CN108509485B (zh) | 数据的预处理方法、装置、计算机设备和存储介质 | |
Obenshain | Application of data mining techniques to healthcare data | |
US9129059B2 (en) | Analyzing administrative healthcare claims data and other data sources | |
US10886025B2 (en) | Drug adverse event extraction method and apparatus | |
US20020133441A1 (en) | Methods and systems for identifying attributable errors in financial processes | |
CN110729054B (zh) | 异常就诊行为检测方法、装置、计算机设备及存储介质 | |
Maciel et al. | Knowledge management diagnostics in software development organizations: a systematic literature review | |
CN110727711B (zh) | 基金数据库中异常数据检测方法、装置和计算机设备 | |
Choi et al. | Machine learning analysis to identify data entry errors in prehospital patient care reports: a case study of a national out-of-hospital cardiac arrest registry | |
Snilstveit et al. | Protocol: Incentives for climate mitigation in the land use sector: A mixed‐methods systematic review of the effectiveness of payment for environment services (PES) on environmental and socio‐economic outcomes in low‐and middle‐income countries | |
CN113642669B (zh) | 基于特征分析的防欺诈检测方法、装置、设备及存储介质 | |
Mahalingam et al. | Prefatory data analysis approach to synthetically generated pneumatic actuator data set | |
Mehraby et al. | Abnormal behavior detection in health insurance assessment process | |
Khan et al. | Proposed model on Prediction and Analysis using application of Health care | |
Neamtu et al. | The impact of Big Data on making evidence-based decisions | |
Mrudula et al. | Understanding clinical data using exploratory analysis | |
CN115034918B (zh) | 团伙案件识别方法、装置、计算机设备、存储介质和产品 | |
Khoshravan Azar et al. | The Impact of Bias on Drift Detection in AI Health Software | |
US20230096820A1 (en) | Methods, systems, and computer program products for automatically processing a clinical record for a patient to detect protected health information (phi) violations | |
Anandi et al. | Descriptive and Predictive Analytics on Electronic Health Records using Machine Learning | |
Qi et al. | Business Intelligence Data Visualization for Diabetes Health Prediction | |
Altiero | Digital Forensics Tool Interface Visualization | |
CN118116531A (zh) | 一种医疗信息化信息传递及信息合并方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220524 Address after: 518048 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province Applicant after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd. Address before: Room 12G, Area H, 666 Beijing East Road, Huangpu District, Shanghai 200001 Applicant before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |