CN111145883A

CN111145883A - 一种基于逻辑回归的医疗保障归类评估方法

Info

Publication number: CN111145883A
Application number: CN201911232352.9A
Authority: CN
Inventors: 郭骁昌; 卢洪满; 王宝红; 苏伟群; 杨颖�; 刘晓宪
Original assignee: Fujian Yilianzhong Baoruitong Information Technology Co Ltd; Ylz Information Technology Co ltd
Current assignee: Fujian Yilianzhong Baoruitong Information Technology Co Ltd; Ylz Information Technology Co ltd
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-05-12

Abstract

本发明提出的一种基于逻辑回归的医疗保障归类评估方法，包括：设置样本格式，每一条样本由多个评价指标组成；通过样本训练获得医疗机构评估模型，医疗机构评估模型的输入为预设数量的样本，输出为样本好坏比；根据样本好坏比对各医疗机构进行评分。本发明提出的一种基于逻辑回归的医疗保障归类评估方法，通过预设的样本格式对医疗机构的历史数据进行整合，获得样本，然后通过样本训练获得的医疗机构评估模型对样本格式的医疗机构数据进行分析整理，实现了对医疗机构大数据进行系统的分析，以便通过数据挖掘分析获取医疗机构的行为模式和信用特征，加强对医疗机构的信用风险管理，从而降低信用风险带来的损失。

Description

一种基于逻辑回归的医疗保障归类评估方法

技术领域

本发明涉及大数据处理以及医疗机构综合能力评估技术领域，尤其涉及一种基于逻辑回归的医疗保障归类评估方法。

背景技术

目前国家医疗保障的现状为，医疗机构行业自律认知不足，导致发现违规情况即进行查处，国家医疗保障局急需建立一套引导行业自律遵守的信用体系。现评价主体主要有定点医院、药店、参保人(单位)、经办机构及保险公司。

现有医疗机构评价标准主要包括JCI、HIMSS等国标评级标准，虽然JCI认证和HIMSS评级给医院的现代化管理、质量安全和信息化建设带来了一定的益处，但是对医院相关数据的外漏存在一定的安全隐患。

发明内容

基于背景技术存在的技术问题，本发明提出了一种基于逻辑回归的医疗保障归类评估方法。

本发明提出的一种基于逻辑回归的医疗保障归类评估方法，包括：

S1、设置样本格式，每一条样本由多个评价指标组成；

S2、通过样本训练获得医疗机构评估模型，医疗机构评估模型的输入为预设数量的样本，输出为样本好坏比；

S3、根据样本好坏比对各医疗机构进行评分。

优选的，步骤S1中，组成样本的多个评价指标从医疗机构的信用指标中筛选获得，信用指标包括：医院等级、机构类别、机构性质、次均门诊费用、门诊检查化验费占比、门诊手术治疗费占比、门诊医保费用占比、重复用药次数、过高费用、过度诊疗和重复诊疗中的多个。

优选的，从信用指标中筛选评价指标的方法包括如下步骤：

S11、采集医疗机构的信用指标数据；

S12、从采集的信用指标数据中抽取相关性评估样本，每一条相关性评估样本均包含各信用指标；根据相关性评估样本对信用指标进行相关性分析，并根据相关性分析结果对信用指标进行筛选，筛选出的信用评价指标中任意两个的相关系数均小于或等于预设的相关系数阈值；

优选的，任意两个评价指标的相关系数根据以下模型获得：

其中，x、y为验证相关性的两个信用指标；x_i为第i个相关性评估样本中信用指标x的量值，y_i为第i个相关性评估样本中信用指标y的量值，

n1为相关性评估样本的数量。

优选的，从信用指标中筛选评价指标的方法还包括根据woe值进行筛选，具体包括以下步骤：

S13、通过相关性分析筛选获得的信用指标作为第一次筛选指标，并将第一次筛选指标划分为正向指标和反向指标；

S14、分别根据各第一次筛选指标计算多个待评分的医疗机构的woe值，并根据woe值将多个待评分的医疗机构划分为预设数量的多个区间；

S15、计算各区间上医疗机构对应各第一次筛选指标的woe值和第一次筛选指标数据的均值；

S16、对于正向指标，判断各区间对应的woe值是否随着第一次筛选指标数据的均值的递增而递减；是，则保留该第一次筛选指标；反之，则删除该第一次筛选指标；

对于反向指标，判断各区间对应的woe值是否随着第一次筛选指标数据的均值的递增而递增；是，则保留该第一次筛选指标；反之，则删除该第一次筛选指标。

优选的，从信用指标中筛选评价指标的方法还包括根据IV值进行筛选，具体包括以下步骤：

S17、通过woe值筛选的第一次筛选指标作为第二次筛选指标，并获取根据 woe值划分的区间；根据每一个第二次筛选指标计算各区间上医疗机构的IV值，根据第i个第二次筛选指标计算出的第j个区间上医疗机构的IV值记作IV_ij；

S18、针对每一个第二次筛选指标获得各区间上医疗机构的IV值之和，记作：

当IV_i≥IV₀，则保留第i个第二次筛选指标；反之，则删除第i个第二次筛选指标；IV₀为预设的门限值；n_i为根据第i个第一次筛选指标划分的区间数量；

S19、将通过IV值筛选的第二次筛选指标作为评价指标。

优选的，woe值的计算模型为：

其中，B_ij、G_ij分别为根据第i个第一次筛选指标获得的第j个区间上医疗机构中正样本数量和负样本数量，

根据第i个第一次筛选指标获得第j个区间上医疗机构中正样本和负样本的方法为：计算第j个区间上医疗机构中各样本对应的第一次筛选指标的量值的均值，并根据各样本对应的第一次筛选指标的量值与均值的比较结果，判断样本为正样本还是负样本。

优选的，根据第i个第二次筛选指标计算出第j个区间上医疗机构的IV值，具体采用如下模型：

优选的，步骤S2中，首先将样本中的各评价指标替换为woe值，然后根据替换后的样本训练获得医疗机构评估模型。

优选的，步骤S2具体包括：

S21、通过样本训练获得医疗机构评估模型，医疗机构评估模型的输入为预设数量的样本，输出为样本好坏比；

S22、对医疗机构评估模型进行AUC评估、KS检验及拟合优度检验；AUC为 ROC曲线下的面积；

S23、如果AUC值小于预设的第一评估阈值，或者KS值小于预设的第二评估阈值，或者拟合优度检验获得的可决系数小于预设的可决系数取值范围，则重新定义分类器或者重新选择算法模型后，再返回步骤S21；反之，则输出医疗机构评估模型。

优选的，还包括：根据预设的聚类模型对医疗机构进行聚类，步骤S14中，划分为多个区间的同一批医疗机构属于同一个医疗机构类。

优选的，步骤S3中，根据以下评分模型对各医疗机构进行评分：

其中，socre为评分值，bs为基础分，ps为附加分值，o为基础分对应的好坏比，odds为医疗机构评估模型输出的好坏比。

本发明提出的一种基于逻辑回归的医疗保障归类评估方法，通过预设的样本格式对医疗机构的历史数据进行整合，获得样本，然后通过样本训练获得的医疗机构评估模型对样本格式的医疗机构数据进行分析整理，实现了对医疗机构大数据进行系统的分析，以便通过数据挖掘分析获取医疗机构的行为模式和信用特征，加强对医疗机构的信用风险管理，从而降低信用风险带来的损失。

本发明中，通过模型对数据进行分析处理，直接输出好坏比，然后通过好坏比对医疗机构进行评分，有利于避免数据外泄，保证数据安全。

附图说明

图1为本发明提出的一种基于逻辑回归的医疗保障归类评估方法流程图；

图2为根据相关系数从信用指标中筛选评价指标的方法流程图；

图3为根据woe值筛选评价指标的方法流程图；

图4为根据IV值筛选评价指标的方法流程图；

图5为医疗机构评估模型建立方法流程图。

具体实施方式

参照图1，本发明提出的一种基于逻辑回归的医疗保障归类评估方法，包括：

S1、设置样本格式，每一条样本由多个评价指标组成。

优选的，本实施方式中，组成样本的多个评价指标从医疗机构的信用指标中筛选获得，信用指标包括：医院等级、机构类别、机构性质、次均门诊费用、门诊检查化验费占比、门诊手术治疗费占比、门诊医保费用占比、重复用药、过高费用、过度诊疗和重复诊疗中的多个。

S2、通过样本训练获得医疗机构评估模型，医疗机构评估模型的输入为预设数量的样本，输出为样本好坏比。

具体实施时，医疗机构评估模型可采用逻辑回归、随机森林、支持向量机、深度神经网络、GBDT(梯度提升树)或者XGBoost算法等建立医疗机构评估模型。其中逻辑回归算法建立的模型最优，所以采用逻辑回归算法对医疗机构进行信用评分。

S3、根据样本好坏比对各医疗机构进行评分。

本实施方式中，好坏比为医疗机构评估模型根据各评价指标综合计算获得对医疗机构综合评价的信用度量值，可视为：

好坏比＝“好”医疗机构的概率/“坏”医疗机构的概率。

本实施方式中，通过预设的样本格式对医疗机构的历史数据进行整合，获得样本，然后通过样本训练获得的医疗机构评估模型对样本格式的医疗机构数据进行分析整理，实现了对医疗机构大数据进行系统的分析，以便通过数据挖掘分析获取医疗机构的行为模式和信用特征，加强对医疗机构的信用风险管理，从而降低信用风险带来的损失。

本实施方式中，通过模型对数据进行分析处理，直接输出好坏比，然后通过好坏比对医疗机构进行评分，有利于避免数据外泄，保证数据安全。

本实施方式中，步骤S3中，评分模型如下：

其中，socre为评分值，bs为基础分；ps为附加分值，具体可定义为好坏比增加一倍时，增加的评分值；o为基础分对应的好坏比，odds为医疗机构评估模型输出的好坏比。具体的，bs、ps和o均为预设值。如此，本实施方式中，针对每一个医疗机构根据医疗机构评估模型输出的好坏比可获得评分值为：

以上公式中ln2，表示好坏比翻一倍。

参照图2，本实施方式中，从信用指标中筛选评价指标的方法包括如下步骤：

S11、采集医疗机构的信用指标数据。

S12、从采集的信用指标数据中抽取相关性评估样本，每一条相关性评估样本均包含各信用指标；根据相关性评估样本对信用指标进行相关性分析，并根据相关性分析结果对信用指标进行筛选，筛选出的信用评价指标中任意两个的相关系数均小于或等于预设的相关系数阈值。

如此，通过相关性评估，可保证筛选出的信用评价指标中任意两个之间具有较小的相关性，从而删除冗余的信用指标，以降低数据处理工作量，降低数据处理复杂度。

具体的，本实施方式中，任意两个评价指标的相关系数根据以下模型获得：

n1为相关性评估样本的数量。

具体的，本实施方式中，在进行公式计算时，对于次均门诊费用、门诊检查化验费占比、门诊手术治疗费占比、门诊医保费用占比、重复用药次数等具有量化值的信用指标，可直接采用量化值进行计算；对于医院等级、机构类别、机构性质、过高费用、过度诊疗和重复诊疗等概念指标，可首先对各医疗机构的概念指标设置一个编码值，然后将编码值代入公式进行计算。

具体的，本实施方式中，0≤R≤0.1，表示没有相关性；0.1≤R≤0.3，表示弱相关；0.3≤R≤0.5，表示中等相关；0.5≤R≤1.0，表示强相关。具体实施时，相关系数阈值可根据需要设置为0.1、0.3或者0.5。例如，假设某一实施例中，相关系数阈值设置为0.3，某一医疗机构中，次均门诊费用和门诊检查化验费占比的相关系数为0.5，机构类别和机构性质的相关系数为0.6；则该实施例中，通过相关性评估，可删除次均门诊费用和门诊检查化验费占比中一个，以及机构类别和机构性质中的一个。

本实施方式中，可直接从通过步骤S12筛选的信用指标中挑选评价指标，也可在步骤S12后继续对信用指标进行筛选。

参照图3，本实施方式中，从信用指标中筛选评价指标的方法还包括根据 woe值进行筛选，具体包括以下步骤：

S13、通过相关性分析筛选获得的信用指标作为第一次筛选指标，并将第一次筛选指标划分为正向指标和反向指标。

假设步骤S11中采集医疗机构的信用指标数据包括{医院等级、机构类别、机构性质、次均门诊费用、门诊检查化验费占比、门诊手术治疗费占比、门诊医保费用占比、重复用药次数}；通过步骤S12删除了与机构类别相关系数较大的机构性质，以及与次均门诊费用相关系数较大的门诊检查化验费占比，则，本步骤中获得的第一次筛选指标包括{医院等级、机构类别、次均门诊费用、门诊手术治疗费占比、门诊医保费用占比、重复用药次数}，其中正向指标包括{医院等级、机构类别、次均门诊费用、门诊手术治疗费占比、门诊医保费用占比}，反向指标包括{重复用药次数}。

S14、分别根据各第一次筛选指标计算多个待评分的医疗机构的woe值，并根据woe值将多个待评分的医疗机构划分为预设数量的多个区间。

具体的，本步骤中，可根据待评分的医疗机构数量划分为3个区间或者4 个区间。

本实施方式中，根据预设的聚类模型对医疗机构进行聚类，本步骤S14中，划分为多个区间的同一批医疗机构属于同一个医疗机构类。如此，可避免不同等级的医院混合评分的干扰。具体的，本实施方式中，采用k-means聚类算法对医疗机构进行聚类，并将特征空间距离作为相似性的评价指标，特征空间距离越近，其相似度就越大。具体实施时，在通过k-means聚类算法对医疗机构进行聚类后，还可人工结合综合评价、就诊量、预约量等对机构类别进行二次调整，保证机构分类的合理性，为评分卡建模奠定基础。

S15、计算各区间上医疗机构对应各第一次筛选指标的woe值和第一次筛选指标数据的均值。具体的，根据第i个第一次筛选指标获得的第j区间的woe 值记作woe_ij。

具体的，本实施方式中，woe_iq为根据第i个正向指标获得的第q个区间的 woe值，woe_ip为根据第i个正向指标获得的第p个区间的woe值，A_iq为第q个区间上各医疗机构的第i个正向指标数据均值，A_ip为第p个区间上各医疗机构的第i个正向指标数据均值；则，对应的woe值随着第一次筛选指标数据的均值的递增而递减，表示：woe_iq＜woe_ip时，A_iq＞A_ip；对应的woe值随着第一次筛选指标数据的均值的递增而递增，表示：woe_iq＜woe_ip时，A_iq＜A_ip。

本实施方式中，可直接从通过步骤S16筛选的第一次筛选指标中挑选评价指标，也可在步骤S16后继续对第一次筛选指标进行筛选。

参照图4，具体的，本实施方式中，从信用指标中筛选评价指标的方法还包括根据IV值进行筛选，具体包括以下步骤：

S17、通过woe值筛选的第一次筛选指标作为第二次筛选指标，并获取根据 woe值划分的区间；根据每一个第二次筛选指标计算各区间上医疗机构的IV值，根据第i个第二次筛选指标计算出的第j个区间上医疗机构的IV值记作IV_ij。

当IV_i≥IV₀，则保留第i个第二次筛选指标；反之，则删除第i个第二次筛选指标；IV₀为预设的门限值；n_i为根据第i个第一次筛选指标划分的区间数量。

S19、将通过IV值筛选的第二次筛选指标作为评价指标。

本实施方式中，IV值用于评价选择出的指标的预测能力。具体的，IV>＝0.5，表示预测能力极强；0.3<IV<0.5，表示预测能力强；0.1<IV<0.3，表示预测能力中等；0.02<IV<0.1，表示预测能力弱；IV<＝0.02，表示没有预测能力。则具体实施时，预设的门限值可选择0.5、0.3或者0.1。

如此，假设本实施方式中，第二次筛选指标包括：医院等级、次均门诊费用、门诊手术治疗费占比、门诊医保费用占比和重复用药次数。本实施方式中， IV₀＝0.3；且第二次筛选指标：医院等级、次均门诊费用、门诊手术治疗费占比、门诊医保费用占比和重复用药次数分别对应的IV值为：0.1、0.4、0.5、0.2和 0.6；则，本实施方式中，通过IV值筛选的第二次筛选指标为次均门诊费用、门诊手术治疗费占比和重复用药次数，即最终获得的评价指标为：次均门诊费用、门诊手术治疗费占比和重复用药次数。

本实施方式中，woe值的计算模型为：

n_i为根据第i个第一次筛选指标划分的区间数量。

假设某医疗机构类中包含5个医疗机构，针对次均门诊费用这一评价指标，该5个医疗机构的量值分别为：10、15、20、25、12；则平均费用为16.4；由于次均门诊费用为正向指标，故而该医疗机构类中次均门诊费用大于均值16.4 的为正样本，有2个；次均门诊费用小于均值16.4的为负样本，有3个。

假设另一医疗机构类中包含6个医疗机构，针对重复用药次数这一评价指标，该6个医疗机构的量值分别为：1、3、4、2、3、2；则平均次数为2.5；由于重复用药次数为反向指标，故而该医疗机构类中重复用药次数大于均值2.5 的为负样本，有3个；重复用药次数小于均值2.5的为正样本，有3个。

本实施方式中，根据第i个第二次筛选指标计算出第j区间上医疗机构的 IV值，具体采用如下模型：

本实施方式的步骤S2中，首先，将样本中的各评价指标替换为woe值，然后根据替换后的样本训练获得医疗机构评估模型。如此，通过woe值替换原始医疗机构信用评价指标数据，实现了数据离散化处理。

参照图5，本实施方式中，步骤S2具体包括：

S21、通过样本训练获得医疗机构评估模型，医疗机构评估模型的输入为预设数量的样本，输出为样本好坏比。

本实施方式中，可具体使用多元逻辑回归模型，将数据进行离散化处理，并将经过特征工程处理过后的变量引入模型，保证更好的对实际情况进行模拟，建立一个精确度高、解释性强、稳定性好的医疗机构评估模型。

S22、对医疗机构评估模型进行AUC评估、KS检验及拟合优度检验；AUC为 ROC曲线下的面积。AUC为ROC曲线下的面积。

具体的，本实施方式中，AUC＝1，表示分类器完美；AUC＝[0.85,0.95]，表示分类器效果很好；AUC＝[0.7,0.85]，表示分类器效果一般；AUC＝[0.5, 0.7]，表示分类器效果较低；AUC<0.5，表示模型预测能力极差。假设，本实施方式中，第一评估阈值取值0.5，则当AUC<0.5，则表示需要重新定义分类器，或重新选择算法模型，从而重新训练医疗机构评估模型。

本实施方式中，KS值在[0，1]区间上取值，第二评估阈值设置为0.2，则 KS≥0.2，表示医疗机构评估模型具有较好的预测能力；反之，如果KS＜0.2，则表示需要重新训练医疗机构评估模型。

以下结合一个具体的实施例，对本发明作进一步阐释。

步骤1：数据采集，采集数据格式为：{医院等级、机构类别、机构性质、次均门诊费用、门诊检查化验费占比、门诊手术治疗费占比、门诊医保费用占比、就诊量、预约量、重复用药、过高费用、过度诊疗、重复诊疗}。假设：本步骤中根据以上数据格式采集了20家医院近2个月的数据共10万条。

步骤2：从上述10万条数据中抽取1000条，其中800条为训练样本，200 条为验证样本。

步骤3：根据800条训练样本训练获得机构分类模型，并通过200条验证样本对机构分类模型进行修正训练。

根据分类模型将20家医院分为3类，例如：综合医院、专科医院和社区医院。

步骤4：定义每一类医疗机构中的正样本和负样本；具体可参照下表。

表1：医疗机构聚类统计表

表1中，×表示负样本，√表示正样本

步骤5：指标选择

步骤5.1：根据相关分析进行选择，相关系数阈值设置为0.6。

信用指标包括：{医院等级、机构类别、机构性质、次均门诊费用、门诊检查化验费占比、门诊手术治疗费占比、门诊医保费用占比、就诊量、预约量、重复用药、过高费用、过度诊疗、重复诊疗}；

R(机构类别,机构性质)>0.6

R(就诊量、预约量)>0.6

其中，R(次均门诊费用、过高费用)>0.6；

R(重复用药、重复诊疗)>0.6

R(门诊检查化验费占比、门诊手术治疗费占比)>0.6

其中，R(机构类别,机构性质)表示机构类别和机构性质之间的相关系数。

因此，删除机构类别、预约量、过高费用、重复诊疗和门诊手术治疗费占比。

步骤5.2：woe筛选

通过相关性筛选的第一次筛选指标包括：{医院等级、机构性质、次均门诊费用、门诊检查化验费占比、门诊医保费用占比、就诊量、重复用药、过度诊疗}。

步骤5.2.1：将第一次筛选指标划分为正向指标和反向指标。

正向指标：医院等级、机构性质、次均门诊费用、门诊检查化验费占比、门诊医保费用占比、就诊量；

反向指标：重复用药、过度诊疗。

具体的，本实施例中，正向指标和反向指标有人工标注。

步骤5.2.2：以步骤4中综合医院类别为例，根据各指标获得的综合医院中各医院的第一次筛选指标量值如下表2所示。

表2：综合医院中各医院的第一次筛选指标量值

具体的，本实施例中，各医疗机构对应各第一次筛选指标的量值为样本数据的均值。

以信用指标“医院等级”为例，假设根据医院等级将10家医院a1到a10 分为3个区间，3个区间分别为{a1、a2、a3}、{a4、a5、a6、a7}、{a8、 a9、a10}

其中，

假设

即，第一区间中有1个坏机构，2个好机构；第二区间中有1个坏机构，3个好机构；第三区间中有2个坏机构，1个好机构

则B₁₁＝1,G₁₁＝2；B₁₂＝1,G₁₂＝3；B₁₃＝2,G₁₃＝1；B_ij表示根据第i个信用指标“如医院等级” 划分的第j个区间上的坏机构数量，G_ij表示根据第i个信用指标划分的第j个区间上的好机构数量；woe_ij表示根据第i个信用指标划分的第j个区间上各医疗机构的woe值。

则，woe₁₂＜woe₁₁＜woe₁₃

如果：，

则保留该正向指标“医院等级”，反之则删除。

针对反向指标如重复用药，假设将10家医院分为2个区间：{a1、a2、a3、 a4}、{a5、a6、a7、a8、a9、a10}。

其中，

假设：

即第一区间有1个坏机构，3 个好机构；第二区间有2个坏机构，4个好机构

则，

即woe₇₁＜woe₇₂；

如果，

则保留反向指标“重复用药”；反之，则删除

步骤5.2.3：正向指标参考医院等级进行筛选，反向指标参考重复用药进行筛选，假设本实施例中通过woe筛选保留如下信用指标作为第二次筛选指标：

正向指标：医院等级、次均门诊费用、门诊检查化验费占比、就诊量；

反向指标：重复用药、过度诊疗。

步骤5.3根据IV进行筛选

根据步骤5.2.2，其中根据指标“医院等级”将10家医院a1到a10分为3个等级，且B₁₁＝1,G₁₁＝2；B₁₂＝1,G₁₂＝3；B₁₃＝2,G₁₃＝1；B_1T＝B₁₁+B₁₂+B₁₃＝4； G_1T＝G₁₁+G₁₂+G₁₃＝6；

则根据公式：

可计算出：IV₁₁,IV₁₂,IV₁₃；

其中，IV_ij为根据第i个信用指标获得的第j个区间上医疗机构的IV值。

同上，根据，指标“重复用药”将10家医院a1到a10分为2个等级，且 B₇₁＝1,G₇₁＝3；B₇₂＝2,G₇₂＝4；B_7T＝B₇₁+B₇₂＝3；G_7T＝G₇₁+G₇₂＝7，可计算出IV₇₁,IV₇₂；假设本步骤中设置预测能力阈值为0.6，且IV₁＝IV₁₁+IV₁₂+IV₁₃＝0.5＜0.6, IV₇＝IV₇₁+IV₇₂＝0.7＞0.6；

则，根据IV值可删除指标医院等级，并保留重复用药。

假设本步骤中，通过IV删除了第二次筛选指标：医院等级、门诊检查化验费占比和过度诊疗。

则最终保留的作为评价指标的第二次筛选指标有：

正向指标：次均门诊费用、就诊量；反向指标：重复用药

本实施例中，根据次均门诊费用将10家医院分为3个等级，根据就诊量将 10家医院分为4个等级，根据重复用药将10家医院分为两个等级，具体如下：次均门诊费用：{a1、a2、a3}；{a4、a5、a6}；{a7、a8、a9、a10} 就诊量：{a1、a2}；{a3、a4}、{a5、a6、a7}；{a8、a9、a10} 重复用药：{a1、a2、a3、a4}、{a5、a6、a7、a8、a9、a10} 现在，对评价指标重新排序，以次均门诊费用、就诊量、重复用药分别为第一个评价指标、第二个评价指标和第三个评价指标；

表3：woe统计表

步骤6：通过woe值替换评价指标，形成新的样本数据

根据以下回归模型计算各医疗机构的好坏比odds值：

ln(odds_j)＝woe_1j×β1+woe_2j×β2+woe_3j×β3+a；

odds_j表示第j家医疗机构aj的好坏比；woe_1j表示第j家医疗机构aj对应第1 个评价指标“次均门诊费用”的woe值；woe_2j表示第j家医疗机构aj对应第2 个评价指标“就诊量”的woe值；woe_3j表示第j家医疗机构aj对应第3个评价指标“重复用药”的woe值；β1、β2、β3为权重值，a为回归截距步骤7，对回归模型进行验证，通过则保留，不通过，则重新返回步骤6建立新的模型

步骤8：评分卡建立

bs为基础分，ps为附加分值，o为基础分对应的好坏比，odds为医疗机构评估模型输出的好坏比，bs、ps和o由人工设置。

以上所述，仅为本发明涉及的较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于逻辑回归的医疗保障归类评估方法，其特征在于，包括：

S1、设置样本格式，每一条样本由多个评价指标组成；

S3、根据样本好坏比对各医疗机构进行评分。

2.如权利要求1所述的基于逻辑回归的医疗保障归类评估方法，其特征在于，步骤S1中，组成样本的多个评价指标从医疗机构的信用指标中筛选获得，信用指标包括：医院等级、机构类别、机构性质、次均门诊费用、门诊检查化验费占比、门诊手术治疗费占比、门诊医保费用占比、重复用药次数、过高费用、过度诊疗和重复诊疗中的多个。

3.如权利要求1所述的基于逻辑回归的医疗保障归类评估方法，其特征在于，从信用指标中筛选评价指标的方法包括如下步骤：

S11、采集医疗机构的信用指标数据；

优选的，任意两个评价指标的相关系数根据以下模型获得：