CN113989053A - 医保数据处理方法、装置、电子设备及存储介质 - Google Patents

医保数据处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113989053A
CN113989053A CN202111124155.2A CN202111124155A CN113989053A CN 113989053 A CN113989053 A CN 113989053A CN 202111124155 A CN202111124155 A CN 202111124155A CN 113989053 A CN113989053 A CN 113989053A
Authority
CN
China
Prior art keywords
credit
data
medical
medical institution
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111124155.2A
Other languages
English (en)
Inventor
张舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Insurance Group Co Ltd
Taikang Pension Insurance Co Ltd
Original Assignee
Taikang Insurance Group Co Ltd
Taikang Pension Insurance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Insurance Group Co Ltd, Taikang Pension Insurance Co Ltd filed Critical Taikang Insurance Group Co Ltd
Priority to CN202111124155.2A priority Critical patent/CN113989053A/zh
Publication of CN113989053A publication Critical patent/CN113989053A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Computation (AREA)
  • Finance (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Accounting & Taxation (AREA)
  • Game Theory and Decision Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Technology Law (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明实施例提供了一种医保数据处理方法、装置、电子设备及存储介质,属于互联网技术领域。应用于信用评估系统的服务端,所述信用评估系统还包括与所述服务端连接的终端,方法包括:获取医疗机构的相关数据;将所述相关数据分别输入多个机器学习模型,得到各所述机器学习模型输出的所述医疗机构的失信概率;将各所述失信概率进行独热编码,得到各所述失信概率对应的特征数据;将各所述特征数据输入线性加权预测模型,得到信用评估结果,所述信用评估结果用于反映医疗机构违规操作医疗保险基金的风险程度,向所述终端发送所述信用评估结果。本发明实现了一种高准确率的医保数据处理方法。

Description

医保数据处理方法、装置、电子设备及存储介质
技术领域
本发明涉及互联网技术领域,特别是涉及一种医保数据处理方法、装置、电子设备及存储介质。
背景技术
信用是整个社会的基础,个人或者企业从事各类社会活动均与其信用息息相关。例如,医疗保险基金是保障人民健康权、生活质量的重要因素。而部分医疗机构是医疗保险基金结算的主体,该部分医疗机构的诚信度与医疗保险基金的支出风险息息相关。也即是,若医疗机构的诚信度越高,其违反医疗保险基金支出规定的风险越低,则医疗保险基金的支出风险越低。反之,若医疗机构的诚信度越低高,其违反医疗保险基金支出规定的风险越高,则医疗保险基金的支出风险越高。因此,亟需一种针对医疗机构的医保数据处理方法,以实现对各医疗机构的信用监督,进而实现对各医疗机构违规操作医疗保险基金的风险监测,控制医疗保险基金的支出风险。
发明内容
本发明实施例的目的在于提供一种医保数据处理方法、装置、电子设备及存储介质,以实现一种高准确率的医保数据处理方法。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种医保数据处理方法,应用于信用评估系统的服务端,所述信用评估系统还包括与所述服务端连接的终端,所述方法包括:
获取医疗机构的相关数据;
将所述相关数据分别输入多个机器学习模型,得到各所述机器学习模型输出的所述医疗机构的失信概率;
将各所述失信概率进行独热编码,得到各所述失信概率对应的特征数据;
将各所述特征数据输入线性加权预测模型,得到信用评估结果,所述信用评估结果用于反映医疗机构违规操作医疗保险基金的风险程度;
向所述终端发送所述信用评估结果。
可选的,所述方法还包括:
基于医疗机构的多个相关信息对所述医疗机构的信用评估结果的影响程度,对所述多个相关信息进行筛选,得到目标信息,所述相关数据为所述医疗机构的所述目标信息的数据。
可选的,所述基于医疗机构的多个相关信息对所述医疗机构的信用评估结果的影响程度,对所述多个相关信息进行筛选,得到目标信息,包括:
获取多个医疗机构的信用标签的数据以及所述多个相关信息的数据,所述信用标签的数据包括:失信标签数据或者未失信标签数据;
根据所述信用标签的数据以及所述多个相关信息的数据,对各所述相关信息与所述信用标签进行相关性分析;
根据相关性分析结果对所述多个相关信息进行筛选,得到目标信息。
可选的,所述基于医疗机构的多个相关信息对所述医疗机构的信用评估结果的影响程度,对所述多个相关信息进行筛选,得到目标信息,还包括:
根据所述信用标签的数据以及所述多个相关信息的数据,计算各所述相关信息的IV值;
所述根据相关性分析结果对所述多个相关信息进行筛选,得到目标信息,包括:根据相关性分析结果以及各所述相关信息的IV值,对所述多个相关信息进行筛选得到目标信息。
可选的,所述方法还包括:
采用多个样本数据、各所述样本数据对应的样本标签以及目标损失函数训练逻辑回归LR模型,得到所述线性加权预测模型,
其中,所述样本数据包括医疗机构的相关数据,所述样本标签用于反映医疗机构的信用类型属于失信类型或者未失信类型,所述信用评估结果包括:失信类型或者未失信类型,所述目标损失函数满足:
Figure BDA0003278094410000021
其中,J(θ)为损失值,m为所述样本数据的个数,yi为第i个所述样本数据对应的样本标签所反映的信用类型,1-hθ(x(i))为所述线性加权预测模型输出的第i个所述样本数据的信用类型。
可选的,所述信用评估结果包括:所述医疗机构的目标失信概率;所述方法还包括:
确定所述目标失信概率对应的目标评分所属的目标预设评分区间,所述目标失信概率与所述目标评分呈正比;
将所述目标预设评分区间对应的信用评分等级,作为所述医疗机构的信用评分等级。
可选的,所述多个机器学习模型包括以下至少两个:LightGBM模型、CatBoost模型、XGBoost模型。
在本发明实施的第二方面,还提供了一种医保数据处理装置,应用于信用评估系统的服务端,所述信用评估系统还包括与所述服务端连接的终端,所述装置包括:
获取模块,用于获取医疗机构的相关数据;
第一输入模块,用于将所述相关数据分别输入多个机器学习模型,得到各所述机器学习模型输出的所述医疗机构的失信概率;
编码模块,用于将各所述失信概率进行独热编码,得到各所述失信概率对应的特征数据;
第二输入模块,用于将各所述特征数据输入线性加权预测模型,得到信用评估结果,所述信用评估结果用于反映医疗机构违规操作医疗保险基金的风险程度;
发送模块,用于向所述终端发送所述信用评估结果。
在本发明实施的第三方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一方面所述的医保数据处理方法。
在本发明实施的第四方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的医保数据处理方法。
在本发明实施的第五方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的医保数据处理方法。
本发明实施例提供的医保数据处理方法、装置、电子设备及存储介质,服务端通过将医疗机构的相关数据分别输入多个机器学习模型,得到各机器学习模型输出的医疗机构的失信概率。并将各失信概率对应的特征数据输入线性加权预测模型,得到信用评估结果,实现对医疗机构的信用评估。并且,由于采用线性加权模型根据各机器学习模型输出的失信概率,得到医疗机构的信用结果评估。因此,相较于直接根据各机器学习模型输出的各失信概率中最大概率,得到信用评估结果。或者,相较于根据人为确定的各机器学习模型输出的失信概率的权重,以及各失信概率确定最终概率,并基于最终概率确定的信用评估结果,减少了人为主观因素的影响,提升了医疗机构的信用评估准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种医保数据处理方法的流程图。
图2为本发明实施例提供的一种医保数据处理方法的原理示意图。
图3为本发明实施例提供的另一种医保数据处理方法的流程图。
图4为本发明实施例提供的一种各医疗机构的信用标签的统计图。
图5为本发明实施例提供的一种单指标变量与目标变量相关性系数统计图。
图6为本发明实施例提供的一种相关性系数矩阵热图。
图7为本发明实施例提供的一种单指标变量的IV值统计图。
图8为本发明实施例提供的一种相关信息筛选方法的流程图。
图9为本发明实施例提供的一种各信用评分级别的医疗机构数量的统计图。
图10为本发明实施例提供的一种医保数据处理装置的框图。
图11为本发明实施例提供的一种电子设备的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
为了便于读者理解,在此对本申请实施例提供的医保数据处理方法可应用的场景进行示意性介绍。
本发明示例实施例可以应用于信用基金监管平台。具体的业务场景包括但不限于医疗保险基金监管、医疗机构信用监管、医疗机构风险控制预警等。示例的,本申请实施例可以应用于医疗保险基金监管场景下的信用基金监管平台。通过周期性地获取可使用医疗保险基金结算的各医疗机构的相关数据,采用本发明实施例提供的医保数据处理方法对各医疗机构的信用进行周期性评估。生成各医疗机构的信用评估结果列表。工作人员可以查看该信用评估结果列表。在确定医疗机构的信用评估结果反映该医疗机构存在失信风险时,可以将该医疗机构作为重点检查对象,并向相关工作人员发出信用风险预警。对重点检查对象的相关数据进行核验,生成信用风险报告,以实现对可使用医疗保险基金结算的各医疗机构的监管,进而实现对各医疗机构违规操作医疗保险基金的风险监测,控制医疗保险基金的支出风险。下述本发明实施例以医保数据处理方法应用医疗保险基金监管场景为例进行说明。
本发明实施例还提供了一种信用评估系统。该信用评估系统包括:终端和服务端。终端与服务端可以通过有线或者无线网络连接。服务端可以用于执行本发明实施例提供的医保数据处理方法,并将得到的信用评估结果发送至终端。终端可以用于显示信用评估结果。在一种实时场景中,服务端和终端可以搭载有信用基金监管平台以运行本发明实施例提供的医保数据处理方法。可选的,终端还可以用于采集医疗机构的相关数据,并将采集到的相关数据发送至服务端。在本发明实施例提供的方法应用于医疗保险基金监管的场景时,医疗机构可以指的是可使用医疗保险基金结算的指定医疗保险机构。终端可以为以下至少一种终端:信用监管工作人员的终端、医疗机构的信用查看工作人员的终端、其他有权限可以查看信用评估结果的终端。
请参考图1,其示出了本发明实施例提供的一种医保数据处理方法的流程图。该方法可以应用于上述实施环境,由服务端执行。当然,本领域技术人员也可以根据需求在其他电子设备搭载的其他平台运行本发明的方法,本示例性实施例中对此不做特殊限定。如图1所示,所述方法包括:
步骤101、获取医疗机构的相关数据。
可选的,医疗机构的相关数据可以包括:医疗机构与医疗保险基金流水相关的数据。例如,相关数据包括:医疗机构的各类医疗服务指标,和/或,医疗机构各类疾病的费用指标。
本发明实施例中,相关数据还可以包括:用于反映医疗机构的医疗质量的数据。例如,反映各疾病治疗能力的数据、患者针对医疗机构的满意度评分、医疗机构的救治效率以及医疗机构的智能医疗的创新程度等。由于用于反映医疗机构的医疗质量的数据会影响用户对医疗机构的选择,进而影响医疗保险基金的支出。因而,在相关数据包括医疗机构与医疗保险基金流水相关的数据和用于反映医疗机构的医疗质量的数据的情况下,由于获取的医疗机构的数据较为全面,因此,后续基于相关数据得到的信用评分结果的准确性较高。
步骤102、将相关数据分别输入多个机器学习模型,得到各机器学习模型输出的医疗机构的失信概率。
本发明实施例中,多个机器学习模型中各机器学习模型均用于基于输入的医疗机构的相关数据,输出该医疗机构的失信概率。如图2所示,服务端可以将医疗机构的相关数据分别m个机器学习模型(C1、C2、...Cm),得到各机器学习模型输出的医疗机构的失信概率(P1、P2、...Pm)。其中,机器学习模型C1输出失信概率P1;机器学习模型C2输出失信概率P2;机器学习模型Cm输出失信概率Pm;m为正整数,且m大于2。
可选的,多个机器学习模型可以包括以下至少两个:LightGBM模型、CatBoost模型、XGBoost模型。示例的,多个机器学习模型包括:LightGBM模型、CatBoost模型和XGBoost模型。
步骤103、将各失信概率进行独热编码,得到各失信概率对应的特征数据。
本发明实施例中,独热编码即One-Hot编码,又称为一位有效编码。将失信概率进行独热编码,得到该失信概率对应的特征数据为二进制特征向量。
可选的,服务端可以将医疗机构的失信概率的全量值划分为多个概率范围,失信概率的初始特征数据为[0,0,...0]。特征数据包括的元素数量与概率范围的数量相等,每个概率范围与特征数据的一个元素对应。服务端将各失信概率进行独热编码,得到各失信概率对应的特征数据的过程可以包括:针对各失信概率,服务端将初始特征数据中,与失信概率所属的概率范围对应的元素更新为1,更新后的初始特征数据作为该失信概率对应的特征数据。
示例的,假设失信概率按照[0,0.2]、(0.2,0.4]、(0.4,0.6]、(0.6,0.8]以及(0.8,1]划分为五个概率范围,则初始特征数据为[0,0,0,0,0]。若失信概率为0.56896,则该失信概率对应的特征数据为[0,0,1,0,0]。
步骤104、将各特征数据输入线性加权预测模型,得到信用评估结果。信用评估结果用于反映医疗机构违规操作医疗保险基金的风险程度。
本发明实施例中,线性加权预测模型可以用于根据输入的医疗机构的各失信概率所对应的特征数据,得到医疗机构的信用评估结果。其中,线性加权预测模型可以用于根据对输入的医疗机构的各失信概率所对应的特征数据进行线性加权的结果,得到医疗机构的信用评估结果。可选的,线性加权预测模型可以为逻辑回归(Logistic Regression,LR)模型。
可选的,信用评估结果可以包括医疗机构的信用类型,该信用类型包括失信或者未失信。不难理解的是,信用类型为失信的医疗机构,其违规操作医疗保险基金的风险程度较高。信用类型为未失信的医疗机构,其违规操作医疗保险基金的风险程度较低。可选的,信用评估结果可以包括:医疗机构的目标失信概率。该目标失信概率可以为线性加权预测模型对各特征数据进行线性加权预测确定的。其中,目标失信概率的取值越大,表明医疗机构的失信程度越深,则医疗机构违规操作医疗保险基金的风险程度越大。请继续参考图2,服务端各机器学习模型输出的医疗机构的失信概率(P1、P2、...Pm)对应的特征数据输入线性加权预测模型L,得到医疗机构的目标失信概率(Pf)。
本发明实施例中,服务端采用改进的投票(Voting)机制,根据医疗机构的各失信概率确定该医疗机构的信用结果评估。也即是,服务端将各失信概率进行独热编码,得到各失信概率对应的特征数据。并将各特征数据输入线性加权预测模型,得到信用评估结果。这样,相较于传统的Voting机制中,将医疗机构的各失信概率中的最大值,作为医疗机构的目标失信概率的选取方式。改进后的Voting机制中,采用线性加权预测模型确定的目标失信概率的准确性较高,进而反映医疗机构违规操作医疗保险基金的风险程度的准确性较高。
步骤105、向终端发送信用评估结果。
本发明实施例中,服务端可以将得到的医疗机构的信用评估结果发送至与其连接的终端,使得终端展示信用评估结果。可选的,在服务端发送多个医疗结构的信用评估结果的情况下,终端可以采用统计表或者统计图等形式展示各医疗结构的信用评估结果。
综上所述,本发明实施例提供的医保数据处理方法,通过将医疗机构的相关数据分别输入多个机器学习模型,得到各机器学习模型输出的医疗机构的失信概率。并将各失信概率对应的特征数据输入线性加权预测模型,得到信用评估结果,实现对医疗机构的信用评估。并且,由于采用线性加权模型根据各机器学习模型输出的失信概率,得到医疗机构的信用结果评估。因此,相较于直接根据各机器学习模型输出的各失信概率中最大概率,得到信用评估结果。或者,相较于根据人为确定的各机器学习模型输出的失信概率的权重,以及各失信概率确定最终概率,并基于最终概率确定的信用评估结果,减少了人为主观因素的影响,提升了医疗机构的信用评估准确性。
本发明实施例还提供的另一种医保数据处理方法。该医保数据处理方法包括前期配置阶段的处理方法以及后期应用阶段的处理方法。其中,服务端在前期配置阶段执行医保数据处理方法时,该医保数据处理方法可以包括对医疗机构的多个相关信息进行筛选的过程以及各机器学习模型和线性加权预测模型的训练过程,也即是可以包括下述步骤301至步骤302的过程。
服务端在执行完成前期配置阶段执行医保数据处理方法后,可以对多个医疗机构执行后期应用阶段的医保数据处理方法,以对多个医疗机构进行信用评估。可选的,服务端可以周期性重复对各医疗机构执行后期应用阶段的医保数据处理方法,以得到医疗机构当前的信用评估结果。相应的,服务端在对各医疗机构执行后期应用阶段的医保数据处理方法时,其获取的医疗机构的相关数据为该医疗机构的最新的相关数据。其中,周期可以为一个月、一个季度、一年等。
服务端针对任一医疗机构,服务端在后期应用阶段执行医保数据处理方法时,该医保数据处理方法可以包括根据医疗机构的相关数据得到医疗机构的信用评估结果的过程,也即是可以包括下述步骤303至步骤309的过程。下述本发明实施例进行详细说明。
请参考图3,其示出了本发明实施例提供的另一种医保数据处理方法的流程图。该方法可以应用于上述实施环境,由服务端执行。当然,本领域技术人员也可以根据需求在其他电子设备搭载的其他平台运行本发明的方法,本示例性实施例中对此不做特殊限定。如图3所示,方法包括:
前期配置阶段:
步骤301、基于医疗机构的多个相关信息对医疗机构的信用评估结果的影响程度,对多个相关信息进行筛选,得到目标信息。
可选的,医疗机构的相关数据可以包括:医疗机构与医疗保险基金流水相关的数据。例如,相关数据包括:医疗机构的各类医疗服务指标,和/或,医疗机构各类疾病的费用指标。本发明实施例中,相关数据还可以包括:用于反映医疗机构的医疗质量的数据。例如,反映各疾病治疗能力的数据、患者针对医疗机构的满意度评分、医疗机构的救治效率以及医疗机构的智能医疗的创新程度等。
由于用于反映医疗机构的医疗质量的数据会影响用户对医疗机构的选择,进而影响医疗保险基金的支出。因而,在相关数据包括医疗机构与医疗保险基金流水相关的数据和用于反映医疗机构的医疗质量的数据的情况下,由于获取的医疗机构的数据较为全面,因此,后续基于相关数据得到的信用评分结果的准确性较高。但是,由于医疗机构的相关信息的数量较为庞大,因而,根据基于医疗机构的多个相关信息中各相关信息对医疗机构的信用评估结果的影响程度,对多个相关信息进行筛选,可以在保证基于筛选后的相关信息确定的信用评估结果的准确性较高的基础上,减少后续对医疗机构的相关数据的采集维度,进而较少基于医疗机构的相关数据确定信用评估结果的算法计算量,降低了该算法复杂度,提高了信用评估效率。
可选的,服务端基于医疗机构的多个相关信息对医疗机构的信用评估结果的影响程度,对多个相关信息进行筛选,得到目标信息的实现方式可以有多种,本发明实施例以以下三种为例进行说明。
第一种可选的实现方式,服务端基于医疗机构的多个相关信息对医疗机构的信用评估结果的影响程度,对多个相关信息进行筛选,得到目标信息的过程可以包括以下步骤3011A至步骤3013A。
在步骤3011A中,获取多个医疗机构的信用标签的数据以及多个相关信息的数据。信用标签的数据包括:失信标签数据或者未失信标签数据。
本发明实施例中,服务端可以获取多个医疗机构中,每个医疗机构的信用标签的数据以及多个相关信息的数据。其中,失信标签数据用于指示医疗机构的信用类型为失信类型。或者,失信标签数据用于指示医疗机构存在违规操作医疗保险基金。未失信标签数据用于指示医疗机构的信用类型为未失信类型。或者,未失信标签数据用于指示医疗机构不存在违规操作医疗保险基金。
示例的,服务端可以获取733个医疗机构的信用标签的数据以及多个相关信息的数据。其中,245个医疗机构存在违规操作医疗保险基金。488个医疗机构不存在违规操作医疗保险基金。假设,失信标签数据为0,未失信标签数据为1。则245个医疗机构的信用标签的数据为0,488个医疗机构的信用标签的数据为1。服务端可以将各医疗机构的信用标签的统计结果发送至终端。以使得终端可以基于该统计结果显示各医疗机构的信用标签的统计图。该统计图可以为如图4所示的统计图。如图4所示,各医疗机构的信用标签的统计图中,横坐标为信用标签,包括失信标签数据和未失信标签数据。纵坐标为医疗机构的个数。
在步骤3012A中,根据信用标签的数据以及多个相关信息的数据,对各相关信息与信用标签进行相关性分析。
本发明实施例中,信用标签为目标变量,各相关信息为单指标变量。服务端对各相关信息与信用标签进行相关性分析,即为服务端针对多个单指标变量中任一单指标变量,对该单指标变量与目标变量进行相关性分析。
可选的,服务端根据信用标签的数据以及多个相关信息的数据,对各相关信息与信用标签进行相关性分析的过程可以包括:服务端根据信用标签的数据、多个相关信息的数据以及第一目标公式,计算各相关信息与信用标签的相关性系数。其中,第一目标公式可以为皮尔逊(Pearson correlation coefficient,Pearson)相关系数的计算公式,第一目标目标公式满足:
Figure BDA0003278094410000091
r为一个单指标变量x与目标变量y的相关性系数。
Figure BDA0003278094410000092
为各医疗机构的该单指标变量x的均值。
Figure BDA0003278094410000093
为各医疗机构的目标变量y的均值。
在步骤3013A中,根据相关性分析结果对多个相关信息进行筛选,得到目标信息。
可选的,服务端根据相关性分析结果对多个相关信息进行筛选,得到目标信息的可以包括:服务端可以将各相关信息与信用标签的相关性系数由大到小排列,从排列结果中选取前目标数量个相关信息作为目标信息。或者,服务端可以从各相关信息与信用标签的相关性系数中,选取相关性系数大于目标系数阈值的相关信息作为目标信息。目标系数阈值可以根据实际情况确定。
示例的,假设医疗机构的多个相关信息为21个相关信息。服务端计算的21个相关信息(相关信息X1-相关信息X21)分别与信用标签的相关性系数由大到小依次为:0.468752、0.452900、0.430230、0.428934、0.425145、0.419765、0.417775、0.416857、0.414510、0.413167、0.408551、0.394966、0.389605、0.3694665、0.351375、0.351263、0.346558、0.334294、0.326803、0.325925以及0.285490。信用标签与信用标签的相关性系数为1。若目标数量为10,则服务端选取相关信息1-相关信息10作为目标信息。
本发明实施例中,服务端可以将信息标签与信用标签的相关性系数,以及21个相关信息(相关信息X1-相关信息X21)分别与信用标签的相关性系数发送至终端。以使得终端可以基于信息标签与信用标签的相关性系数,以及21个相关信息分别与信用标签的相关性系数显示单指标变量与目标变量相关性系数统计图。该统计图可以为如图5所示的统计图。如图5所示,单指标变量与目标变量相关性系统统计图中,横坐标为信用标签Y以及相关信息X1-相关信息X21。纵坐标为相关性系数。
需要说明的是,服务端还可以计算各相关信息之间的相关性系数。并将信息标签与信用标签的相关性系数,以及21个相关信息(相关信息X1-相关信息X21)中各相关信息之间的相关性系数发送至终端。以使得终端可以基于信息标签与信用标签的相关性系数,以及各相关信息之间的相关性系数的相关性系数显示相关性系数矩阵热图。该相关性系数矩阵热图为如图6所示的统计图。如图6所示,相关性系数矩阵热图中,横坐标和纵坐标均为信用标签Y以及相关信息X1-相关信息X21。各方块的颜色深度表示横坐标与纵坐标之间的相关性系数。例如,相关性系数矩阵热图中位于对角线的各方块表示横坐标与纵坐标相同时,横坐标与纵坐标之间的相关性系数1。
第二种可选的实现方式,服务端基于医疗机构的多个相关信息对医疗机构的信用评估结果的影响程度,对多个相关信息进行筛选,得到目标信息的过程可以包括以下步骤3011B至步骤3013B。
在步骤3011B中,获取多个医疗机构的信用标签的数据以及多个相关信息的数据。信用标签的数据包括:失信标签数据或者未失信标签数据。
该步骤3011B的解释和实现方式可以参考前述步骤3011A的解释和实现方式,本发明实施例对此不做赘述。
在步骤3012B中,根据信用标签的数据以及多个相关信息的数据,计算各相关信息的IV值。
本发明实施例中,IV值可以衡量各相关信息对信用标签的预测能力,也即是对信用标签的影响能力。IV值越高,相关信息对信用标签的预测能力越强。
可选的,服务端根据信用标签的数据以及多个相关信息的数据,计算各相关信息的IV值的过程可以包括:
服务端针对多个相关信息中任一相关信息,将多个医疗机构的相关信息进行分箱处理,得到多个分箱,每个分箱包括至少一个医疗机构的相关信息的数据。针对多个分箱中的任一分箱,采用第二目标公式计算该分箱的证据权重(weight of evidence,WOE)值。将该任一相关信息的多个分箱中各分箱的WOE值的加权求和的结果,作为该任一相关信息的IV值。其中,各分箱的WOE值的权重为该分箱的第一比值与第二比值之差,第一比值为该分箱中失信标签数据的医疗机构的个数占所有医疗机构中信用标签为失信标签数据的总数量的比值,第二比值为该分箱中未失信标签数据的医疗机构的个数占所有医疗机构中信用标签为未失信标签数据的总数量的比值。其中,第二目标公式满足:
Figure BDA0003278094410000111
WOEi为第i个分箱的WOE值。Bi为第i个分箱中失信标签数据的医疗机构的个数,BT为所有医疗机构中信用标签为失信标签数据的总数量。Gi为第i个分箱中未失信标签数据的医疗机构的个数,GT为所有医疗机构中信用标签为未失信标签数据的总数量,i为正整数。
在步骤3013B中,根据各相关信息的IV值对多个相关信息进行筛选,得到目标信息。
可选的,服务端根据各相关信息的IV值对多个相关信息进行筛选,得到目标信息的过程可以包括:服务端可以将各相关信息的IV值由大到小排列,从排列结果中选取前目标数量个相关信息作为目标信息。或者,服务端可以从各相关信息的IV值中,选取IV值大于目标数据阈值的相关信息作为目标信息。目标数值阈值可以根据实际情况确定。
继续以前述示例为例,服务端计算的21个相关信息(相关信息X1-相关信息X21)的IV值依次为:1.265607、1.689715、1.638416、1.101082、1.966576、2.045681、3.057920、1.598040、0.995913、1.189936、1.050442、1.279493、1.625458、0.592883、1.762454、2.032149、1.857416、1.295791、2.094270、1.755044以及0.342701。本发明实施例中,服务端可以将21个相关信息的IV值发送至终端。以使得终端可以基于21个相关信息的IV值显示单指标变量的IV值统计图。该统计图可以为如图7所示的统计图。如图7所示,单指标变量的IV值统计图中,横坐标为相关信息X1-相关信息X21。纵坐标为IV值。
第三种可选的实现方式,如图8所示,服务端基于医疗机构的多个相关信息对医疗机构的信用评估结果的影响程度,对多个相关信息进行筛选,得到目标信息的过程可以包括以下步骤3011C至步骤3014C。
在步骤3011C中,获取多个医疗机构的信用标签的数据以及多个相关信息的数据,信用标签的数据包括:失信标签数据或者未失信标签数据。
该步骤3011C的解释和实现方式可以参考前述步骤3011A的解释和实现方式,本发明实施例对此不做赘述。
在步骤3012C中,根据信用标签的数据以及多个相关信息的数据,对各相关信息与信用标签进行相关性分析。
该步骤3012C的解释和实现方式可以参考前述步骤3012A的解释和实现方式,本发明实施例对此不做赘述。
在步骤3013C中,根据信用标签的数据以及多个相关信息的数据,计算各相关信息的IV值。
该步骤3013C的解释和实现方式可以参考前述步骤3012B的解释和实现方式,本发明实施例对此不做赘述。
在步骤3014C中,根据相关性分析结果以及各相关信息的IV值,对多个相关信息进行筛选得到目标信息。
可选的,服务端根据相关性分析结果以及各相关信息的IV值,对多个相关信息进行筛选得到目标信息的过程可以包括:服务端可以将各相关信息与信用标签的相关性系数由大到小排列得到第一排列结果,并将各相关信息的IV值由大到小排列得到第二排列结果。从第一排列结果和第二排列结果中,选取排列顺序相同的前目标数量个相关信息作为目标信息。或者,服务端将各相关信息的相关性系数和IV值的加权求和结果由大到小排列,选取前目标数量个相关信息作为目标信息。或者,服务端将各相关信息的相关性系数和IV值的加权求和结果由大到小排列,选取加权求和结果大于目标结果阈值的相关信息作为目标信息。目标结果阈值可以根据实际情况确定。
当然,服务端还可以相关性分析结果、各相关信息的IV值以及业务实际要求,对多个相关信息进行筛选得到目标信息。
需要说明的是,在第一种可选的实现方式至第三种可选的实现方式中,步骤3012A、步骤3012B以及步骤3012C之前,还包括:对各医疗机构的多个相关信息的数据进行缺失值填充处理,得到填充处理后的多个相关信息的数据。相应的,后续基于多个相关信息的数据计算相关性系数或者IV值。其中,若相关信息的数据为连续型数值,则服务端从各医疗机构的相关信息的数据中,选取中位数填充。若相关信息的数据为离散型数值,则服务端从各医疗机构的相关信息的数据中,选取众数填充。
步骤302、采用多个样本数据、各样本数据对应的样本标签以及目标损失函数训练逻辑回归模型,得到线性加权预测模型。
其中,样本数据均包括医疗机构的相关数据。医疗机构的相关数据指的是医疗机构的目标信息的相关数据。任一样本数据可以包括不同医疗机构的相关数据。或者,多个样本数据可以包括相同医疗机构中不同时段的相关数据。
样本标签用于反映医疗机构的信用类型属于失信类型或者未失信类型。目标损失函数用于表征各样本数据基于线性加权预测模型输出的信用评估结果与样本标签反映的真实信用类型之间的平均差异程度,信用评估结果包括:信用类型,信用类型为失信类型或者未失信类型。可选的,信用评分结果还可以包括:医疗机构的目标失信概率。
本发明实施例中,服务端采用多个样本数据、各样本数据对应的样本标签以及目标损失函数训练逻辑回归模型,得到线性加权预测模型的过程可以包括:
服务端将样本数据中,多个医疗机构的相关数据分别输入逻辑回归(LogisticRegression,LR)模型,得到各医疗机构的信用评估结果,信用评估结果包括:失信类型或者未失信类型。服务端将针对各医疗机构基于LR模型输出的信用评估结果,与该医疗机构对应的样本标签反映的真实信用类型输入目标损失函数,得到损失值。判断该损失值是否满足预设要求。若损失值不满足预设要求,则调整LR模型的参数,得到调整后的LR模型。重复执行将多个医疗机构的相关数据输入调整后的LR模型至判断损失值是否满足预设要求的过程,直至损失值满足预设要求。若损失值满足预设要求,则将当前LR模型作为线性加权预测模型。
可选的,目标损失函数满足:
Figure BDA0003278094410000131
其中,J(θ)为损失值。m为样本数据的个数。yi为第i个样本数据对应的样本标签所反映的真实信用类型,i为正整数。1-hθ(x(i))为LR模型输出的第i个样本数据的信用类型。
后期应用阶段:
步骤303、获取医疗机构的相关数据,相关数据为目标信息的数据。
步骤304、将相关数据分别输入多个机器学习模型,得到各机器学习模型输出的医疗机构的失信概率。
该步骤304的解释和实现方式可以参考前述步骤102的解释和实现方式,本发明实施例对此不做赘述。
步骤305、将各失信概率进行独热编码,得到各失信概率对应的特征数据。
该步骤305的解释和实现方式可以参考前述步骤103的解释和实现方式,本发明实施例对此不做赘述。
步骤306、将各特征数据输入线性加权预测模型,得到信用评估结果。
该步骤306的解释和实现方式可以参考前述步骤104的解释和实现方式,本发明实施例对此不做赘述。
可选的,在信用评估结果包括医疗机构的目标失信概率的情况下,所述方法还包括以下步骤307至步骤308。
步骤307、确定目标失信概率对应的目标评分所属的目标预设评分区间。
本发明实施例中,服务端可以预先存储有多个预设评分区间与信用评分等级的对应关系。任一预设评分区间对应不同的信用评分等级。在一种可选的实现方式中,目标评分越大,信用评分等级越高。信用评分等级越高的医疗机构违规操作医疗保险基金的风险程度越低。
可选的,若医疗机构的目标失信概率越大,医疗机构违规操作医疗保险基金的风险程度越大,则服务端可以将目标失信概率与1的差值的绝对值与目标数值的乘积,作为目标评分。服务端从多个预设评分区间中确定目标评分所属的目标预设评分区间。若医疗机构的目标失信概率越小,医疗机构违规操作医疗保险基金的风险程度越大,则服务端可以将目标失信概率与1的绝对值与目标数值的乘积,作为目标评分。服务端从多个预设评分区间中确定目标评分所属的目标预设评分区间。其中,目标数值可以为100。
步骤308、将目标预设评分区间对应的信用评分等级,作为医疗机构的信用评分等级。
本发明实施例中,服务端从多个预设评分区间与信用评分等级的对应关系中,确定目标预设评分区间对应的信用评分等级。并将目标预设评分区间对应的信用评分等级作为医疗机构的信用评分等级。
示例的,服务端可以存储有22个预设评分区间,22个预设评分区间的编号依次为1至22。每个预设评分区间的目标评分的取值范围如下表1。其中,编号为1的预设评分区间(表1中简称为区间)为[429,446],对应的信用评分级别(表1中简称为级别)为D。信用评分级别D至信用评分级别AAA等级依次增高。
表1
Figure BDA0003278094410000141
Figure BDA0003278094410000151
需要说明的是,表1还包括733个医疗机构中,目标评分属于各预设评分区间的医疗机构的数量,以及该数量在医疗机构的总数量中的占比。例如,编号为1的预设评分区间为[429,446],属于该预设评分区间的医疗机构为1个,属于该预设评分区间的医疗机构的数量在医疗机构的总数量中的占比为0.14%。
步骤309、向终端发送信用评估结果以及医疗机构的信用评分等级。
本发明实施例中,服务端可以将信用评估结果以及医疗机构的信用评分等级发送至与连接的终端,以使得终端展示信用评估结果以及医疗机构的信用评分等级。可选的,服务端可以将各医疗结构中,目标评分属于各预设评分区间的医疗机构的数量统计结果,以及预设评分区间与信用评分级别的对应关系发送至终端。以使得终端可以基于该统计结果和预设评分区间与信用评分级别的对应关系,显示各信用评分级别的医疗机构数量的统计图。示例的,服务端将表1涉及的733个医疗机构中,目标评分属于各预设评分区间的医疗机构的数量统计结果,以及预设评分区间与信用评分级别的对应关系发送至终端。以使得终端可以基于该统计结果和预设评分区间与信用评分级别的对应关系,显示各信用评分级别的医疗机构数量的统计图。该统计图为如图9所示的统计图。如图9所示,各信用评分级别的医疗机构数量的统计图中,横坐标为信用评分级别。纵坐标为医疗机构的数量。
示例的,以本申请实施例应用于医疗保险基金监管场景下的信用基金监管平台为例。如前所述,终端可以根据接收到的信用评估结果、医疗机构的信用评分等级以及其他信息,在信用基金监管平台的目标界面,显示如图4所示的各医疗机构的信用标签的统计图、如图5所示的单指标变量与目标变量相关性系数统计图、如图6所示的相关性系数矩阵热图、如图7所示的单指标变量的IV值统计图以及如图9所示的各信用评分级别的医疗机构数量的统计图。
为信用基金监管平台提供的服务的服务端可以通过周期性地获取可使用医疗保险基金结算的各医疗机构的相关数据,采用本发明实施例提供的医保数据处理方法对各医疗机构的信用进行周期性评估。生成各医疗机构的信用评估结果列表。工作人员可以查看该信用评估结果列表。在确定医疗机构的信用评估结果反映该医疗机构存在失信风险时,可以将该医疗机构作为重点检查对象,并向相关工作人员发出信用风险预警。对重点检查对象的相关数据进行核验,生成信用风险报告,确定该重点检查对象的相关数据中关于违规结算医疗保险基金的违规数据。将重点检查对象的信用类型确定为失信类型,生成失信事件日志,该失信事件日志可以记录重点检查对象确定为失信类型的时间、相关数据等信息。采用失信事件日志记录的医疗机构的相关数据和失信类型生成样本数据,采用生成的样本数据优化医保数据处理方法。例如,优化各机器学习模型、线性加权预测模型等。该信用基金监管平台实现了对可使用医疗保险基金结算的各医疗机构的监管,进而实现对各医疗机构违规操作医疗保险基金的风险监测,控制医疗保险基金的支出风险。
本发明实施例中,通过将医疗机构的相关数据分别输入多个机器学习模型,得到各机器学习模型输出的医疗机构的失信概率。并将各失信概率对应的特征数据输入线性加权预测模型,得到信用评估结果,实现对医疗机构的信用评估。并且,由于采用线性加权模型根据各机器学习模型输出的失信概率,得到医疗机构的信用结果评估。因此,相较于直接根据各机器学习模型输出的各失信概率中最大概率,得到信用评估结果。或者,相较于根据人为确定的各机器学习模型输出的失信概率的权重,以及各失信概率确定最终概率,并基于最终概率确定的信用评估结果,减少了人为主观因素的影响,提升了医疗机构的信用评估准确性。
本发明实施例对此对医疗机构的各类医疗服务指标、医疗机构各类疾病的费用指标以及用于反映医疗机构的医疗质量的数据的内容分别进行如下示例性说明。
各类医疗服务指标包括以下至少一种:病种服务指标、门(急)诊指标、门诊大病(慢特病)指标、门诊特殊疾病、异地就医指标(指住院)、住院指标。
各类疾病的费用指标包括以下至少一种:门(急)诊医疗费用指标、门诊大病(慢特病)费用指标、门诊特殊疾病费用指标、医疗费用支付构成指标、医疗总费用指标、住院费用指标。
用于反映医疗机构的医疗质量的数据包括以下至少一种:反映各疾病治疗能力的数据的功能定位数据、患者满意度评分、救治效率、质量安全数据、智能医疗的创新程度。
其中、门(急)诊指标包括以下至少一种:门(急)诊人次、人均门(急)诊人次、人均门(急)诊人次增长率。
门诊大病(慢特病)指标包括以下至少一种:享受门诊大病(慢特病)待遇的人数、享受门诊大病(慢特病)待遇人数占参保人数的比例、门诊大病(慢特病)人数增长率。
门诊特殊疾病包括以下至少一种:享受门诊特殊疾病待遇人数、享受门诊特殊疾病待遇的人数占比、门诊特殊疾病人数增长率、门诊特殊疾病医疗费用、门诊特殊疾病人次、门诊特殊疾病人数、门诊特殊疾病人次增长率。
住院指标包括以下至少一种:床位数、床日数、住院人次、人次人头比、住院率、住院人次增长率、次均住院天数、人均住院天数、次均住院天数增长率。
病种服务指标包括以下至少一种:按病种付费的病种数、按病种付费的住院人次。
异地就医指标(指住院)包括以下至少一种:异地就医人数、异地就医人数占参保人数的比例、异地就医中安置人数、异地就医中转诊人数。
医疗总费用指标包括以下至少一种:医疗总费用、医疗总费用增长额、医疗总费用增长率、药品费占医疗总费用的比例、次均住院医疗费用、次均住院医疗费用增长额、次均住院医疗费用增长率、人均医疗费、人均医疗费增长额、人均医疗费增长率、退休人员医疗费用支出金额、门诊人次、门诊支付费用。
门(急)诊医疗费用指标包括以下至少一种:人均门(急)诊费用、次均门(急)诊费用、次均门(急)诊费用增长额、次均门(急)诊费用增长率。
门诊大病(慢特病)费用指标包括以下至少一种:门诊大病(慢特病)费用增长额、门诊大病(慢特病)费用增长率、门诊大病(慢特病)药品费占门诊大病(慢特病)费用的比例、人均门诊大病(慢特病)费用、人均门诊大病(慢特病)费用增长额、人均门诊大病(慢特病)费用增长率。
住院费用指标包括以下至少一种:住院费用、住院费用增长额、住院费用增长率、药品费占住院费用比例、甲类药品费占药品费比例、乙类药品费占药品费比例、自费药品费占药品费比例、目录外药品费占药品费比例、基本药物占药费比例、住院抗菌药物使用率、高价药品费占药费比例、贵重材料费占材料费比例、治疗费占住院费用比例、检查费占住院费用比例、CT、MRI等特殊检查费占检查费的比例、手术费、麻醉费占住院费用的比例、一次性医用材料费(单价超出50元)占住院费用的比例、医用材料费用占住院医疗费用的比例、大额费用、日均住院医疗费用、次均住院费用、次均住院费用增长额、次均住院费用增长率。
医疗费用支付构成指标包括以下至少一种:医疗总费用中统筹基金支付费用、医疗总费用中统筹基金支付费用比例、医疗总费用中大额医疗互助支付费用比例、医疗总费用中公务员医疗补助支付费用比例、医疗总费用中个人账户支付费用比例、医疗总费用中政策内个人自付费用比例、医疗总费用中政策内人均个人自付费用与在岗职工平均工资的比例、医疗总费用中政策外个人自付费用比例、门诊大病(慢特病)费用中统筹基金支付费用、门诊大病(慢特病)费用中统筹基金支付费用比例、门诊大病(慢特病)费用中大额医疗互助支付费用比例、门诊大病(慢特病)费用中公务员医疗补助支付费用比例、门诊大病(慢特病)费用中个人账户支付费用比例、门诊大病(慢特病)费用中政策内个人自付费用比例、门诊大病(慢特病)费用中政策内人均个人自付费用与在岗职工平均工资的比例、门诊大病(慢特病)费用中政策外个人自付费用比例、门诊特殊疾病费用中统筹基金支付费用、门诊特殊疾病费用中统筹基金支付费用比例、门诊特殊疾病费用中大病医疗互助补充保险支付费用、门诊特殊疾病费用中大病医疗互助补充保险支付费用比例、门诊特殊疾病费用中城乡居民大病保险支付费用、门诊特殊疾病费用中城乡居民大病保险支付费用比例、门诊特殊疾病费用中个人账户支付费用、门诊特殊疾病费用中个人账户支付费用比例、门诊特殊疾病费用中政策内个人自付费用、门诊特殊疾病费用中政策内个人自付费用比例、门诊特殊疾病费用中政策外个人自付费用、门诊特殊疾病费用中政策外个人自付费用比例、住院费用中统筹基金支付费用、日均住院统筹基金支付费用、住院费用中统筹基金支付费用比例、次均住院统筹基金支付费用增长率、住院费用中大额医疗互助支付费用比例、住院费用中公务员医疗补助支付费用比例、住院费用中个人账户支付费用比例、住院费用中政策内个人自付费用比例、住院费用中政策内人均个人自付费用与在岗职工平均工资的比例、住院费用中政策外个人自付费用比例、统筹基金支付异地就医(住院)费用占统筹基金支付费用的比例。
功能定位数据包括以下至少一种:门诊人次数与出院人次数比例(%)、日间手术占择期手术比例(%)、出院患者手术占比(%)、出院患者微创手术占比(%)、出院患者四级手术比例(%)、特需医疗服务人次占比(%)、特需医疗服务费用占比(%)、住院重点疾病总例数、住院重点手术总例数、医院临床路径总病种数、各病种临床路径入组率(%)。
质量安全数据包括以下至少一种:新生儿死亡率(‰)、剖宫产率(%)、围手术期死亡率(%)、手术患者并发症发生率(%)、I类切口手术部位感染率(%)、通过国家室间质量评价的临床检验项目数、低风险组病例死亡率(%)、优质护理服务病房覆盖率(%)、医院感染病例漏报率(%)、住院重点疾病死亡例数、住院重点手术死亡例数、非手术患者并发症例数、术后非预期再手术例数、当日再住院例数、出院后30/60/90/180天复发率(%)、出院后30/60/90/180天急诊就诊率(%)、出院后30/60/90/180天内重复入院率(%)、出院后30/60/90/180天内死亡率(%)、多种慢性疾病患者的风险标准化的急性入院率(%)、不良事件上报例数、医院感染发病(例次)率(%)、非预期24/48小时重返ICU率(%)、危重/极危重病人死亡率(%)、点评处方占处方总数的比例(%)、每次就诊人均药费、抗菌药物使用强度(DDDs)、药物不良反应例数、常用抗菌药物种类与可提供药敏试验种类比例(%)、就诊使用注射药物的百分率(%)、住院患者使用抗菌药物的百分率(%)、住院期间患者约束和隔离措施使用率(%)。
救治效率(又称医疗效率)包括以下至少一种:门诊患者平均预约诊疗率(%)、门诊患者预约后平均等待时间(以分钟为单位)、住院患者预约后平均等待时间(以分钟为单位)、电子病历应用功能水平分级、住院患者分时预约检查率(%)、门诊患者分时预约就诊率(%)、出院患者平均住院日、时间耗费指数、费用耗费指数、平均每张床位工作日、实际床位使用率(%)、床位周转次数、入出院诊断符合率(%)、康复治疗有效率(%)、住院患者康复功能评定率(%)、已挂号患者完成诊疗前离开急诊科比例(%)、已挂号患者在急诊科的停留的中位时间(以分钟为单位)、已挂号患者取消当日门诊诊疗安排发生率(%)、病人由到达急诊室至离开急诊室的中位时间(以分钟为单位)、急诊高危病人(指定病种)在“绿色通道”平均停留时间(以分钟为单位)。
患者满意度包括以下至少一种:门诊患者满意度、医务人员满意度、医疗纠纷和投诉、症状改善的满意度、总体幸福感改善的满意度、住院感受满意度、对护理的满意度、对医生诊疗及或手术操作的满意度、出院过程的满意度、出院后生活质量改善的满意度。
智能医疗的创新程度包括以下至少一种:提供远程医疗服务、智能技术及可穿戴设备使用情况、医疗服务大数据利用情况、智慧服务诊疗预约比例(%)、智慧服务转诊服务比例(%)。
综上所述,本发明实施例提供的医保数据处理方法,通过将医疗机构的相关数据分别输入多个机器学习模型,得到各机器学习模型输出的医疗机构的失信概率。并将各失信概率对应的特征数据输入线性加权预测模型,得到信用评估结果,实现对医疗机构的信用评估。并且,由于采用线性加权模型根据各机器学习模型输出的失信概率,得到医疗机构的信用结果评估。因此,相较于直接根据各机器学习模型输出的各失信概率中最大概率,得到信用评估结果。或者,相较于根据人为确定的各机器学习模型输出的失信概率的权重,以及各失信概率确定最终概率,并基于最终概率确定的信用评估结果,减少了人为主观因素的影响,提升了医疗机构的信用评估准确性。
请参考图10,其示出了本申请实施例提供的一种医保数据处理装置的框图。医保数据处理装置应用于信用评估系统的服务端,所述信用评估系统还包括与所述服务端连接的终端,如图10所示,医保数据处理装置1000可以包括:获取模块1001、第一输入模块1002、编码模块1003、第二输入模块1004以及发送模块1005。
获取模块1001,用于获取医疗机构的相关数据;
第一输入模块1002,用于将相关数据分别输入多个机器学习模型,得到各机器学习模型输出的医疗机构的失信概率;
编码模块1003,用于将各失信概率进行独热编码,得到各失信概率对应的特征数据;
第二输入模块1004,用于将各特征数据输入线性加权预测模型,得到信用评估结果,信用评估结果用于反映医疗机构违规操作医疗保险基金的风险程度;
发送模块1005,用于向终端发送信用评估结果。
可选的,装置还包括:筛选模块。
筛选模块,用于基于医疗机构的多个相关信息对医疗机构的信用评估结果的影响程度,对多个相关信息进行筛选,得到目标信息,相关数据为医疗机构的目标信息的数据。
可选的,筛选模块,还用于:
获取多个医疗机构的信用标签的数据以及多个相关信息的数据,信用标签的数据包括:失信标签数据或者未失信标签数据;
根据信用标签的数据以及多个相关信息的数据,对各相关信息与信用标签进行相关性分析;
根据相关性分析结果对多个相关信息进行筛选,得到目标信息。
可选的,筛选模块,还用于:
根据信用标签的数据以及多个相关信息的数据,计算各相关信息的IV值;
根据相关性分析结果对多个相关信息进行筛选,得到目标信息,包括:根据相关性分析结果以及各相关信息的IV值,对多个相关信息进行筛选得到目标信息。
可选的,装置还包括:训练模块
训练模块,用于采用多个样本数据、各样本数据对应的样本标签以及目标损失函数训练逻辑回归LR模型,得到线性加权预测模型,其中,样本数据包括医疗机构的相关数据,样本标签用于反映医疗机构的信用类型属于失信类型或者未失信类型,信用评估结果包括:失信类型或者未失信类型,目标损失函数满足:
Figure BDA0003278094410000201
其中,J(θ)为损失值。m为样本数据的个数。yi为第i个样本数据对应的样本标签所反映的信用类型。1-hθ(x(i))为线性加权预测模型输出的第i个样本数据的信用类型。
可选的,信用评估结果包括:医疗机构的目标失信概率;装置还包括:确定模块
确定模块,用于确定目标失信概率对应的目标评分所属的目标预设评分区间,目标失信概率与目标评分呈正比;以及还用于将目标预设评分区间对应的信用评分等级,作为医疗机构的信用评分等级。
可选的,多个机器学习模型包括以下至少两个:LightGBM模型、CatBoost模型、XGBoost模型。
综上所述,本发明实施例提供的医保数据处理装置,通过将医疗机构的相关数据分别输入多个机器学习模型,得到各机器学习模型输出的医疗机构的失信概率。并将各失信概率对应的特征数据输入线性加权预测模型,得到信用评估结果,实现对医疗机构的信用评估。并且,由于采用线性加权模型根据各机器学习模型输出的失信概率,得到医疗机构的信用结果评估。因此,相较于直接根据各机器学习模型输出的各失信概率中最大概率,得到信用评估结果。或者,相较于根据人为确定的各机器学习模型输出的失信概率的权重,以及各失信概率确定最终概率,并基于最终概率确定的信用评估结果,减少了人为主观因素的影响,提升了医疗机构的信用评估准确性。
本发明实施例还提供了一种电子设备,如图11所示,包括处理器1101、通信接口1102、存储器1103和通信总线1104,其中,处理器1101,通信接口1102,存储器1103通过通信总线1104完成相互间的通信,
存储器1103,用于存放计算机程序;
处理器1101,用于执行存储器1103上所存放的程序时,实现本发明实任一施例提供的医保数据处理方法。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的医保数据处理方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的医保数据处理方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种医保数据处理方法,其特征在于,应用于信用评估系统的服务端,所述信用评估系统还包括与所述服务端连接的终端,所述方法包括:
获取医疗机构的相关数据;
将所述相关数据分别输入多个机器学习模型,得到各所述机器学习模型输出的所述医疗机构的失信概率;
将各所述失信概率进行独热编码,得到各所述失信概率对应的特征数据;
将各所述特征数据输入线性加权预测模型,得到信用评估结果,所述信用评估结果用于反映医疗机构违规操作医疗保险基金的风险程度;
向所述终端发送所述信用评估结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于医疗机构的多个相关信息对所述医疗机构的信用评估结果的影响程度,对所述多个相关信息进行筛选,得到目标信息,所述相关数据为所述医疗机构的所述目标信息的数据。
3.根据权利要求2所述的方法,其特征在于,所述基于医疗机构的多个相关信息对所述医疗机构的信用评估结果的影响程度,对所述多个相关信息进行筛选,得到目标信息,包括:
获取多个医疗机构的信用标签的数据以及所述多个相关信息的数据,所述信用标签的数据包括:失信标签数据或者未失信标签数据;
根据所述信用标签的数据以及所述多个相关信息的数据,对各所述相关信息与所述信用标签进行相关性分析;
根据相关性分析结果对所述多个相关信息进行筛选,得到目标信息。
4.根据权利要求3所述的方法,其特征在于,所述基于医疗机构的多个相关信息对所述医疗机构的信用评估结果的影响程度,对所述多个相关信息进行筛选,得到目标信息,还包括:
根据所述信用标签的数据以及所述多个相关信息的数据,计算各所述相关信息的IV值;
所述根据相关性分析结果对所述多个相关信息进行筛选,得到目标信息,包括:根据相关性分析结果以及各所述相关信息的IV值,对所述多个相关信息进行筛选得到目标信息。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
采用多个样本数据、各所述样本数据对应的样本标签以及目标损失函数训练逻辑回归LR模型,得到所述线性加权预测模型,
其中,所述样本数据包括医疗机构的相关数据,所述样本标签用于反映医疗机构的信用类型属于失信类型或者未失信类型,所述信用评估结果包括:失信类型或者未失信类型,所述目标损失函数满足:
Figure FDA0003278094400000021
其中,J(θ)为损失值,m为所述样本数据的个数,yi为第i个所述样本数据对应的样本标签所反映的信用类型,1-hθ(x(i))为所述线性加权预测模型输出的第i个所述样本数据的信用类型。
6.根据权利要求1所述的方法,其特征在于,所述信用评估结果包括:所述医疗机构的目标失信概率;所述方法还包括:
确定所述目标失信概率对应的目标评分所属的目标预设评分区间,所述目标失信概率与所述目标评分呈正比;
将所述目标预设评分区间对应的信用评分等级,作为所述医疗机构的信用评分等级。
7.根据权利要求1所述的方法,其特征在于,所述多个机器学习模型包括以下至少两个:LightGBM模型、CatBoost模型、XGBoost模型。
8.一种医保数据处理装置,其特征在于,应用于信用评估系统的服务端,所述信用评估系统还包括与所述服务端连接的终端,所述装置包括:
获取模块,用于获取医疗机构的相关数据;
第一输入模块,用于将所述相关数据分别输入多个机器学习模型,得到各所述机器学习模型输出的所述医疗机构的失信概率;
编码模块,用于将各所述失信概率进行独热编码,得到各所述失信概率对应的特征数据;
第二输入模块,用于将各所述特征数据输入线性加权预测模型,得到信用评估结果,所述信用评估结果用于反映医疗机构违规操作医疗保险基金的风险程度;
发送模块,用于向所述终端发送所述信用评估结果。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1至7任一所述的方法步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的方法。
CN202111124155.2A 2021-09-24 2021-09-24 医保数据处理方法、装置、电子设备及存储介质 Pending CN113989053A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111124155.2A CN113989053A (zh) 2021-09-24 2021-09-24 医保数据处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111124155.2A CN113989053A (zh) 2021-09-24 2021-09-24 医保数据处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113989053A true CN113989053A (zh) 2022-01-28

Family

ID=79736602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111124155.2A Pending CN113989053A (zh) 2021-09-24 2021-09-24 医保数据处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113989053A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089809A (zh) * 2023-04-07 2023-05-09 平安银行股份有限公司 金融特征数据的筛选方法、装置、电子设备及存储介质
CN118072957A (zh) * 2024-03-19 2024-05-24 创智和宇信息技术股份有限公司 一种基于神经网络感知的基金健康体检方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089809A (zh) * 2023-04-07 2023-05-09 平安银行股份有限公司 金融特征数据的筛选方法、装置、电子设备及存储介质
CN118072957A (zh) * 2024-03-19 2024-05-24 创智和宇信息技术股份有限公司 一种基于神经网络感知的基金健康体检方法及装置

Similar Documents

Publication Publication Date Title
US12056718B2 (en) Fraud lead detection system for efficiently processing database-stored data and automatically generating natural language explanatory information of system results for display in interactive user interfaces
Smith et al. Community-based health insurance and access to maternal health services: evidence from three West African countries
US8428963B2 (en) System and method for administering health care cost reduction
US20120065987A1 (en) Computer-Based Patient Management for Healthcare
Miyamoto et al. Risk factors for fatal and non-fatal child maltreatment in families previously investigated by CPS: A case-control study
Dranove et al. Influence and deterrence: how obstetricians respond to litigation against themselves and their colleagues
US20140081652A1 (en) Automated Healthcare Risk Management System Utilizing Real-time Predictive Models, Risk Adjusted Provider Cost Index, Edit Analytics, Strategy Management, Managed Learning Environment, Contact Management, Forensic GUI, Case Management And Reporting System For Preventing And Detecting Healthcare Fraud, Abuse, Waste And Errors
Fortinsky et al. Risk factors for hospitalization among Medicare home care patients
Dua et al. Supervised learning methods for fraud detection in healthcare insurance
Goodley et al. Predictors of recidivism following release from custody: A meta-analysis
CN113989053A (zh) 医保数据处理方法、装置、电子设备及存储介质
Coustasse Upcoding Medicare: is healthcare fraud and abuse increasing?
CN113657548A (zh) 医保异常检测方法、装置、计算机设备及存储介质
McCarthy et al. The influence of social determinants of health on emergency departments visits in a medicaid sample
Song et al. Out-Of-Network Spending Mostly Declined In Privately Insured Populations With A Few Notable Exceptions From 2008 To 2016: Study examines out-of-network spending and utilization among two large nationwide populations with employer-sponsored insurance.
Nadathur Maximising the value of hospital administrative datasets
Hewner et al. The Roles of Chronic Disease Complexity, Health System Integration, and Care Management in Post‐Discharge Healthcare Utilization in a Low‐Income Population
Bebbington et al. Exploring the similarities and differences of burn registers globally: Results from a data dictionary comparison study
Hepner et al. Quality of care for PTSD and depression in the military health system
Salter et al. Increasing anaphylaxis events in Western Australia identified using four linked administrative datasets
Syafrawati et al. Incidence of moral hazards among health care providers in the implementation of social health insurance toward universal health coverage: evidence from rural province hospitals in Indonesia
Close et al. Understanding Trends in Jail Populations, 2014 to 2019: A Multi-Site Analysis
Mutangadura et al. Health inequities in selected African countries: Review of evidence and policy implications
Kigerl et al. Triaging psychiatric care: Risk assessment construction and validation for Washington’s involuntary treatment and forensic commitment populations
Zhan Health services information: patient safety research using administrative data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination