CN111145883A - 一种基于逻辑回归的医疗保障归类评估方法 - Google Patents
一种基于逻辑回归的医疗保障归类评估方法 Download PDFInfo
- Publication number
- CN111145883A CN111145883A CN201911232352.9A CN201911232352A CN111145883A CN 111145883 A CN111145883 A CN 111145883A CN 201911232352 A CN201911232352 A CN 201911232352A CN 111145883 A CN111145883 A CN 111145883A
- Authority
- CN
- China
- Prior art keywords
- index
- screening
- evaluation
- medical
- medical institution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 98
- 238000007477 logistic regression Methods 0.000 title claims abstract description 24
- 238000013210 evaluation model Methods 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000012216 screening Methods 0.000 claims description 124
- 238000000034 method Methods 0.000 claims description 18
- 238000010219 correlation analysis Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000001276 Kolmogorov–Smirnov test Methods 0.000 claims description 3
- 238000003556 assay Methods 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 6
- 238000007418 data mining Methods 0.000 abstract description 3
- 230000009897 systematic effect Effects 0.000 abstract description 3
- 239000003814 drug Substances 0.000 description 24
- 229940079593 drug Drugs 0.000 description 20
- 230000007246 mechanism Effects 0.000 description 18
- 238000003745 diagnosis Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 5
- 230000000717 retained effect Effects 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004223 overdiagnosis Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/20—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Abstract
本发明提出的一种基于逻辑回归的医疗保障归类评估方法,包括:设置样本格式,每一条样本由多个评价指标组成;通过样本训练获得医疗机构评估模型,医疗机构评估模型的输入为预设数量的样本,输出为样本好坏比;根据样本好坏比对各医疗机构进行评分。本发明提出的一种基于逻辑回归的医疗保障归类评估方法,通过预设的样本格式对医疗机构的历史数据进行整合,获得样本,然后通过样本训练获得的医疗机构评估模型对样本格式的医疗机构数据进行分析整理,实现了对医疗机构大数据进行系统的分析,以便通过数据挖掘分析获取医疗机构的行为模式和信用特征,加强对医疗机构的信用风险管理,从而降低信用风险带来的损失。
Description
技术领域
本发明涉及大数据处理以及医疗机构综合能力评估技术领域,尤其涉及一 种基于逻辑回归的医疗保障归类评估方法。
背景技术
目前国家医疗保障的现状为,医疗机构行业自律认知不足,导致发现违规 情况即进行查处,国家医疗保障局急需建立一套引导行业自律遵守的信用体系。 现评价主体主要有定点医院、药店、参保人(单位)、经办机构及保险公司。
现有医疗机构评价标准主要包括JCI、HIMSS等国标评级标准,虽然JCI认 证和HIMSS评级给医院的现代化管理、质量安全和信息化建设带来了一定的益 处,但是对医院相关数据的外漏存在一定的安全隐患。
发明内容
基于背景技术存在的技术问题,本发明提出了一种基于逻辑回归的医疗保 障归类评估方法。
本发明提出的一种基于逻辑回归的医疗保障归类评估方法,包括:
S1、设置样本格式,每一条样本由多个评价指标组成;
S2、通过样本训练获得医疗机构评估模型,医疗机构评估模型的输入为预 设数量的样本,输出为样本好坏比;
S3、根据样本好坏比对各医疗机构进行评分。
优选的,步骤S1中,组成样本的多个评价指标从医疗机构的信用指标中筛 选获得,信用指标包括:医院等级、机构类别、机构性质、次均门诊费用、门 诊检查化验费占比、门诊手术治疗费占比、门诊医保费用占比、重复用药次数、 过高费用、过度诊疗和重复诊疗中的多个。
优选的,从信用指标中筛选评价指标的方法包括如下步骤:
S11、采集医疗机构的信用指标数据;
S12、从采集的信用指标数据中抽取相关性评估样本,每一条相关性评估样 本均包含各信用指标;根据相关性评估样本对信用指标进行相关性分析,并根 据相关性分析结果对信用指标进行筛选,筛选出的信用评价指标中任意两个的 相关系数均小于或等于预设的相关系数阈值;
优选的,任意两个评价指标的相关系数根据以下模型获得:
优选的,从信用指标中筛选评价指标的方法还包括根据woe值进行筛选, 具体包括以下步骤:
S13、通过相关性分析筛选获得的信用指标作为第一次筛选指标,并将第一 次筛选指标划分为正向指标和反向指标;
S14、分别根据各第一次筛选指标计算多个待评分的医疗机构的woe值,并 根据woe值将多个待评分的医疗机构划分为预设数量的多个区间;
S15、计算各区间上医疗机构对应各第一次筛选指标的woe值和第一次筛选 指标数据的均值;
S16、对于正向指标,判断各区间对应的woe值是否随着第一次筛选指标数 据的均值的递增而递减;是,则保留该第一次筛选指标;反之,则删除该第一 次筛选指标;
对于反向指标,判断各区间对应的woe值是否随着第一次筛选指标数据的 均值的递增而递增;是,则保留该第一次筛选指标;反之,则删除该第一次筛 选指标。
优选的,从信用指标中筛选评价指标的方法还包括根据IV值进行筛选,具 体包括以下步骤:
S17、通过woe值筛选的第一次筛选指标作为第二次筛选指标,并获取根据 woe值划分的区间;根据每一个第二次筛选指标计算各区间上医疗机构的IV值, 根据第i个第二次筛选指标计算出的第j个区间上医疗机构的IV值记作IVij;
S18、针对每一个第二次筛选指标获得各区间上医疗机构的IV值之和,记 作:当IVi≥IV0,则保留第i个第二次筛选指标;反之,则 删除第i个第二次筛选指标;IV0为预设的门限值;ni为根据第i个第一次筛选 指标划分的区间数量;
S19、将通过IV值筛选的第二次筛选指标作为评价指标。
根据第i个第一次筛选指标获得第j个区间上医疗机构中正样本和负样本 的方法为:计算第j个区间上医疗机构中各样本对应的第一次筛选指标的量值 的均值,并根据各样本对应的第一次筛选指标的量值与均值的比较结果,判断 样本为正样本还是负样本。
优选的,根据第i个第二次筛选指标计算出第j个区间上医疗机构的IV值, 具体采用如下模型:
优选的,步骤S2中,首先将样本中的各评价指标替换为woe值,然后根据 替换后的样本训练获得医疗机构评估模型。
优选的,步骤S2具体包括:
S21、通过样本训练获得医疗机构评估模型,医疗机构评估模型的输入为预 设数量的样本,输出为样本好坏比;
S22、对医疗机构评估模型进行AUC评估、KS检验及拟合优度检验;AUC为 ROC曲线下的面积;
S23、如果AUC值小于预设的第一评估阈值,或者KS值小于预设的第二评 估阈值,或者拟合优度检验获得的可决系数小于预设的可决系数取值范围,则 重新定义分类器或者重新选择算法模型后,再返回步骤S21;反之,则输出医疗 机构评估模型。
优选的,还包括:根据预设的聚类模型对医疗机构进行聚类,步骤S14中, 划分为多个区间的同一批医疗机构属于同一个医疗机构类。
优选的,步骤S3中,根据以下评分模型对各医疗机构进行评分:
其中,socre为评分值,bs为基础分,ps为附加分值,o为基础分对应的 好坏比,odds为医疗机构评估模型输出的好坏比。
本发明提出的一种基于逻辑回归的医疗保障归类评估方法,通过预设的样 本格式对医疗机构的历史数据进行整合,获得样本,然后通过样本训练获得的 医疗机构评估模型对样本格式的医疗机构数据进行分析整理,实现了对医疗机 构大数据进行系统的分析,以便通过数据挖掘分析获取医疗机构的行为模式和 信用特征,加强对医疗机构的信用风险管理,从而降低信用风险带来的损失。
本发明中,通过模型对数据进行分析处理,直接输出好坏比,然后通过好 坏比对医疗机构进行评分,有利于避免数据外泄,保证数据安全。
附图说明
图1为本发明提出的一种基于逻辑回归的医疗保障归类评估方法流程图;
图2为根据相关系数从信用指标中筛选评价指标的方法流程图;
图3为根据woe值筛选评价指标的方法流程图;
图4为根据IV值筛选评价指标的方法流程图;
图5为医疗机构评估模型建立方法流程图。
具体实施方式
参照图1,本发明提出的一种基于逻辑回归的医疗保障归类评估方法,包括:
S1、设置样本格式,每一条样本由多个评价指标组成。
优选的,本实施方式中,组成样本的多个评价指标从医疗机构的信用指标 中筛选获得,信用指标包括:医院等级、机构类别、机构性质、次均门诊费用、 门诊检查化验费占比、门诊手术治疗费占比、门诊医保费用占比、重复用药、 过高费用、过度诊疗和重复诊疗中的多个。
S2、通过样本训练获得医疗机构评估模型,医疗机构评估模型的输入为预 设数量的样本,输出为样本好坏比。
具体实施时,医疗机构评估模型可采用逻辑回归、随机森林、支持向量机、 深度神经网络、GBDT(梯度提升树)或者XGBoost算法等建立医疗机构评估模 型。其中逻辑回归算法建立的模型最优,所以采用逻辑回归算法对医疗机构进 行信用评分。
S3、根据样本好坏比对各医疗机构进行评分。
本实施方式中,好坏比为医疗机构评估模型根据各评价指标综合计算获得 对医疗机构综合评价的信用度量值,可视为:
好坏比=“好”医疗机构的概率/“坏”医疗机构的概率。
本实施方式中,通过预设的样本格式对医疗机构的历史数据进行整合,获 得样本,然后通过样本训练获得的医疗机构评估模型对样本格式的医疗机构数 据进行分析整理,实现了对医疗机构大数据进行系统的分析,以便通过数据挖 掘分析获取医疗机构的行为模式和信用特征,加强对医疗机构的信用风险管理, 从而降低信用风险带来的损失。
本实施方式中,通过模型对数据进行分析处理,直接输出好坏比,然后通 过好坏比对医疗机构进行评分,有利于避免数据外泄,保证数据安全。
本实施方式中,步骤S3中,评分模型如下:
其中,socre为评分值,bs为基础分;ps为附加分值,具体可定义为好坏 比增加一倍时,增加的评分值;o为基础分对应的好坏比,odds为医疗机构评 估模型输出的好坏比。具体的,bs、ps和o均为预设值。如此,本实施方式中, 针对每一个医疗机构根据医疗机构评估模型输出的好坏比可获得评分值为:
以上公式中ln2,表示好坏比翻一倍。
参照图2,本实施方式中,从信用指标中筛选评价指标的方法包括如下步骤:
S11、采集医疗机构的信用指标数据。
S12、从采集的信用指标数据中抽取相关性评估样本,每一条相关性评估样 本均包含各信用指标;根据相关性评估样本对信用指标进行相关性分析,并根 据相关性分析结果对信用指标进行筛选,筛选出的信用评价指标中任意两个的 相关系数均小于或等于预设的相关系数阈值。
如此,通过相关性评估,可保证筛选出的信用评价指标中任意两个之间具 有较小的相关性,从而删除冗余的信用指标,以降低数据处理工作量,降低数 据处理复杂度。
具体的,本实施方式中,任意两个评价指标的相关系数根据以下模型获得:
具体的,本实施方式中,在进行公式计算时,对于次均门诊费用、门诊检 查化验费占比、门诊手术治疗费占比、门诊医保费用占比、重复用药次数等具 有量化值的信用指标,可直接采用量化值进行计算;对于医院等级、机构类别、 机构性质、过高费用、过度诊疗和重复诊疗等概念指标,可首先对各医疗机构 的概念指标设置一个编码值,然后将编码值代入公式进行计算。
具体的,本实施方式中,0≤R≤0.1,表示没有相关性;0.1≤R≤0.3,表 示弱相关;0.3≤R≤0.5,表示中等相关;0.5≤R≤1.0,表示强相关。具体实 施时,相关系数阈值可根据需要设置为0.1、0.3或者0.5。例如,假设某一实 施例中,相关系数阈值设置为0.3,某一医疗机构中,次均门诊费用和门诊检查 化验费占比的相关系数为0.5,机构类别和机构性质的相关系数为0.6;则该实 施例中,通过相关性评估,可删除次均门诊费用和门诊检查化验费占比中一个, 以及机构类别和机构性质中的一个。
本实施方式中,可直接从通过步骤S12筛选的信用指标中挑选评价指标, 也可在步骤S12后继续对信用指标进行筛选。
参照图3,本实施方式中,从信用指标中筛选评价指标的方法还包括根据 woe值进行筛选,具体包括以下步骤:
S13、通过相关性分析筛选获得的信用指标作为第一次筛选指标,并将第一 次筛选指标划分为正向指标和反向指标。
假设步骤S11中采集医疗机构的信用指标数据包括{医院等级、机构类别、 机构性质、次均门诊费用、门诊检查化验费占比、门诊手术治疗费占比、门诊 医保费用占比、重复用药次数};通过步骤S12删除了与机构类别相关系数较大 的机构性质,以及与次均门诊费用相关系数较大的门诊检查化验费占比,则, 本步骤中获得的第一次筛选指标包括{医院等级、机构类别、次均门诊费用、门 诊手术治疗费占比、门诊医保费用占比、重复用药次数},其中正向指标包括{医 院等级、机构类别、次均门诊费用、门诊手术治疗费占比、门诊医保费用占比}, 反向指标包括{重复用药次数}。
S14、分别根据各第一次筛选指标计算多个待评分的医疗机构的woe值,并 根据woe值将多个待评分的医疗机构划分为预设数量的多个区间。
具体的,本步骤中,可根据待评分的医疗机构数量划分为3个区间或者4 个区间。
本实施方式中,根据预设的聚类模型对医疗机构进行聚类,本步骤S14中, 划分为多个区间的同一批医疗机构属于同一个医疗机构类。如此,可避免不同 等级的医院混合评分的干扰。具体的,本实施方式中,采用k-means聚类算法 对医疗机构进行聚类,并将特征空间距离作为相似性的评价指标,特征空间距 离越近,其相似度就越大。具体实施时,在通过k-means聚类算法对医疗机构 进行聚类后,还可人工结合综合评价、就诊量、预约量等对机构类别进行二次 调整,保证机构分类的合理性,为评分卡建模奠定基础。
S15、计算各区间上医疗机构对应各第一次筛选指标的woe值和第一次筛选 指标数据的均值。具体的,根据第i个第一次筛选指标获得的第j区间的woe 值记作woeij。
S16、对于正向指标,判断各区间对应的woe值是否随着第一次筛选指标数 据的均值的递增而递减;是,则保留该第一次筛选指标;反之,则删除该第一 次筛选指标;
对于反向指标,判断各区间对应的woe值是否随着第一次筛选指标数据的 均值的递增而递增;是,则保留该第一次筛选指标;反之,则删除该第一次筛 选指标。
具体的,本实施方式中,woeiq为根据第i个正向指标获得的第q个区间的 woe值,woeip为根据第i个正向指标获得的第p个区间的woe值,Aiq为第q个 区间上各医疗机构的第i个正向指标数据均值,Aip为第p个区间上各医疗机构 的第i个正向指标数据均值;则,对应的woe值随着第一次筛选指标数据的均 值的递增而递减,表示:woeiq<woeip时,Aiq>Aip;对应的woe值随着第 一次筛选指标数据的均值的递增而递增,表示:woeiq<woeip时,Aiq<Aip。
本实施方式中,可直接从通过步骤S16筛选的第一次筛选指标中挑选评价 指标,也可在步骤S16后继续对第一次筛选指标进行筛选。
参照图4,具体的,本实施方式中,从信用指标中筛选评价指标的方法还包 括根据IV值进行筛选,具体包括以下步骤:
S17、通过woe值筛选的第一次筛选指标作为第二次筛选指标,并获取根据 woe值划分的区间;根据每一个第二次筛选指标计算各区间上医疗机构的IV值, 根据第i个第二次筛选指标计算出的第j个区间上医疗机构的IV值记作IVij。
S18、针对每一个第二次筛选指标获得各区间上医疗机构的IV值之和,记 作:当IVi≥IV0,则保留第i个第二次筛选指标;反之,则 删除第i个第二次筛选指标;IV0为预设的门限值;ni为根据第i个第一次筛选 指标划分的区间数量。
S19、将通过IV值筛选的第二次筛选指标作为评价指标。
本实施方式中,IV值用于评价选择出的指标的预测能力。具体的,IV>=0.5, 表示预测能力极强;0.3<IV<0.5,表示预测能力强;0.1<IV<0.3,表示预测能 力中等;0.02<IV<0.1,表示预测能力弱;IV<=0.02,表示没有预测能力。则具 体实施时,预设的门限值可选择0.5、0.3或者0.1。
如此,假设本实施方式中,第二次筛选指标包括:医院等级、次均门诊费 用、门诊手术治疗费占比、门诊医保费用占比和重复用药次数。本实施方式中, IV0=0.3;且第二次筛选指标:医院等级、次均门诊费用、门诊手术治疗费占比、 门诊医保费用占比和重复用药次数分别对应的IV值为:0.1、0.4、0.5、0.2和 0.6;则,本实施方式中,通过IV值筛选的第二次筛选指标为次均门诊费用、 门诊手术治疗费占比和重复用药次数,即最终获得的评价指标为:次均门诊费 用、门诊手术治疗费占比和重复用药次数。
根据第i个第一次筛选指标获得第j个区间上医疗机构中正样本和负样本 的方法为:计算第j个区间上医疗机构中各样本对应的第一次筛选指标的量值 的均值,并根据各样本对应的第一次筛选指标的量值与均值的比较结果,判断 样本为正样本还是负样本。
假设某医疗机构类中包含5个医疗机构,针对次均门诊费用这一评价指标, 该5个医疗机构的量值分别为:10、15、20、25、12;则平均费用为16.4;由 于次均门诊费用为正向指标,故而该医疗机构类中次均门诊费用大于均值16.4 的为正样本,有2个;次均门诊费用小于均值16.4的为负样本,有3个。
假设另一医疗机构类中包含6个医疗机构,针对重复用药次数这一评价指 标,该6个医疗机构的量值分别为:1、3、4、2、3、2;则平均次数为2.5;由 于重复用药次数为反向指标,故而该医疗机构类中重复用药次数大于均值2.5 的为负样本,有3个;重复用药次数小于均值2.5的为正样本,有3个。
本实施方式中,根据第i个第二次筛选指标计算出第j区间上医疗机构的 IV值,具体采用如下模型:
本实施方式的步骤S2中,首先,将样本中的各评价指标替换为woe值,然 后根据替换后的样本训练获得医疗机构评估模型。如此,通过woe值替换原始 医疗机构信用评价指标数据,实现了数据离散化处理。
参照图5,本实施方式中,步骤S2具体包括:
S21、通过样本训练获得医疗机构评估模型,医疗机构评估模型的输入为预 设数量的样本,输出为样本好坏比。
本实施方式中,可具体使用多元逻辑回归模型,将数据进行离散化处理, 并将经过特征工程处理过后的变量引入模型,保证更好的对实际情况进行模拟, 建立一个精确度高、解释性强、稳定性好的医疗机构评估模型。
S22、对医疗机构评估模型进行AUC评估、KS检验及拟合优度检验;AUC为 ROC曲线下的面积。AUC为ROC曲线下的面积。
S23、如果AUC值小于预设的第一评估阈值,或者KS值小于预设的第二评 估阈值,或者拟合优度检验获得的可决系数小于预设的可决系数取值范围,则 重新定义分类器或者重新选择算法模型后,再返回步骤S21;反之,则输出医疗 机构评估模型。
具体的,本实施方式中,AUC=1,表示分类器完美;AUC=[0.85,0.95], 表示分类器效果很好;AUC=[0.7,0.85],表示分类器效果一般;AUC=[0.5, 0.7],表示分类器效果较低;AUC<0.5,表示模型预测能力极差。假设,本 实施方式中,第一评估阈值取值0.5,则当AUC<0.5,则表示需要重新定义分 类器,或重新选择算法模型,从而重新训练医疗机构评估模型。
本实施方式中,KS值在[0,1]区间上取值,第二评估阈值设置为0.2,则 KS≥0.2,表示医疗机构评估模型具有较好的预测能力;反之,如果KS<0.2,则 表示需要重新训练医疗机构评估模型。
以下结合一个具体的实施例,对本发明作进一步阐释。
步骤1:数据采集,采集数据格式为:{医院等级、机构类别、机构性质、 次均门诊费用、门诊检查化验费占比、门诊手术治疗费占比、门诊医保费用 占比、就诊量、预约量、重复用药、过高费用、过度诊疗、重复诊疗}。假设: 本步骤中根据以上数据格式采集了20家医院近2个月的数据共10万条。
步骤2:从上述10万条数据中抽取1000条,其中800条为训练样本,200 条为验证样本。
步骤3:根据800条训练样本训练获得机构分类模型,并通过200条验证样 本对机构分类模型进行修正训练。
根据分类模型将20家医院分为3类,例如:综合医院、专科医院和社区医院。
步骤4:定义每一类医疗机构中的正样本和负样本;具体可参照下表。
表1:医疗机构聚类统计表
表1中,×表示负样本,√表示正样本
步骤5:指标选择
步骤5.1:根据相关分析进行选择,相关系数阈值设置为0.6。
信用指标包括:{医院等级、机构类别、机构性质、次均门诊费用、门诊检查化 验费占比、门诊手术治疗费占比、门诊医保费用占比、就诊量、预约量、重复 用药、过高费用、过度诊疗、重复诊疗};
R(机构类别,机构性质)>0.6
R(就诊量、预约量)>0.6
其中,R(次均门诊费用、过高费用)>0.6;
R(重复用药、重复诊疗)>0.6
R(门诊检查化验费占比、门诊手术治疗费占比)>0.6
其中,R(机构类别,机构性质)表示机构类别和机构性质之间的相关系数。
因此,删除机构类别、预约量、过高费用、重复诊疗和门诊手术治疗费占比。
步骤5.2:woe筛选
通过相关性筛选的第一次筛选指标包括:{医院等级、机构性质、次均门诊 费用、门诊检查化验费占比、门诊医保费用占比、就诊量、重复用药、过度诊 疗}。
步骤5.2.1:将第一次筛选指标划分为正向指标和反向指标。
正向指标:医院等级、机构性质、次均门诊费用、门诊检查化验费占比、 门诊医保费用占比、就诊量;
反向指标:重复用药、过度诊疗。
具体的,本实施例中,正向指标和反向指标有人工标注。
步骤5.2.2:以步骤4中综合医院类别为例,根据各指标获得的综合医院中 各医院的第一次筛选指标量值如下表2所示。
表2:综合医院中各医院的第一次筛选指标量值
具体的,本实施例中,各医疗机构对应各第一次筛选指标的量值为样本数 据的均值。
以信用指标“医院等级”为例,假设根据医院等级将10家医院a1到a10 分为3个区间,3个区间分别为{a1、a2、a3}、{a4、a5、a6、a7}、{a8、 a9、a10}
即,第一区间中有1个坏机构,2个好机构;第二区间中有1个坏机构,3个好 机构;第三区间中有2个坏机构,1个好机构
则B11=1,G11=2;B12=1,G12=3;B13=2,G13=1;Bij表示根据第i个信用指标“如医院等级” 划分的第j个区间上的坏机构数量,Gij表示根据第i个信用指标划分的第j个 区间上的好机构数量;woeij表示根据第i个信用指标划分的第j个区间上各医疗 机构的woe值。
则,woe12<woe11<woe13
针对反向指标如重复用药,假设将10家医院分为2个区间:{a1、a2、a3、 a4}、{a5、a6、a7、a8、a9、a10}。
步骤5.2.3:正向指标参考医院等级进行筛选,反向指标参考重复用药进行筛选,假设本实施例中通过woe筛选保留如下信用指标作为第二次筛选指标:
正向指标:医院等级、次均门诊费用、门诊检查化验费占比、就诊量;
反向指标:重复用药、过度诊疗。
步骤5.3根据IV进行筛选
根据步骤5.2.2,其中根据指标“医院等级”将10家医院a1到a10分为3个等 级,且B11=1,G11=2;B12=1,G12=3;B13=2,G13=1;B1T=B11+B12+B13=4; G1T=G11+G12+G13=6;
其中,IVij为根据第i个信用指标获得的第j个区间上医疗机构的IV值。
同上,根据,指标“重复用药”将10家医院a1到a10分为2个等级,且 B71=1,G71=3;B72=2,G72=4;B7T=B71+B72=3;G7T=G71+G72=7,可计算出IV71,IV72; 假设本步骤中设置预测能力阈值为0.6,且IV1=IV11+IV12+IV13=0.5<0.6, IV7=IV71+IV72=0.7>0.6;
则,根据IV值可删除指标医院等级,并保留重复用药。
假设本步骤中,通过IV删除了第二次筛选指标:医院等级、门诊检查化验 费占比和过度诊疗。
则最终保留的作为评价指标的第二次筛选指标有:
正向指标:次均门诊费用、就诊量;反向指标:重复用药
本实施例中,根据次均门诊费用将10家医院分为3个等级,根据就诊量将 10家医院分为4个等级,根据重复用药将10家医院分为两个等级,具体如下: 次均门诊费用:{a1、a2、a3};{a4、a5、a6};{a7、a8、a9、a10} 就诊量:{a1、a2};{a3、a4}、{a5、a6、a7};{a8、a9、a10} 重复用药:{a1、a2、a3、a4}、{a5、a6、a7、a8、a9、a10} 现在,对评价指标重新排序,以次均门诊费用、就诊量、重复用药分别为第一 个评价指标、第二个评价指标和第三个评价指标;
表3:woe统计表
步骤6:通过woe值替换评价指标,形成新的样本数据
根据以下回归模型计算各医疗机构的好坏比odds值:
ln(oddsj)=woe1j×β1+woe2j×β2+woe3j×β3+a;
oddsj表示第j家医疗机构aj的好坏比;woe1j表示第j家医疗机构aj对应第1 个评价指标“次均门诊费用”的woe值;woe2j表示第j家医疗机构aj对应第2 个评价指标“就诊量”的woe值;woe3j表示第j家医疗机构aj对应第3个评价 指标“重复用药”的woe值;β1、β2、β3为权重值,a为回归截距 步骤7,对回归模型进行验证,通过则保留,不通过,则重新返回步骤6建立新 的模型
步骤8:评分卡建立
以上所述,仅为本发明涉及的较佳的具体实施方式,但本发明的保护范围 并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内, 根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明 的保护范围之内。
Claims (10)
1.一种基于逻辑回归的医疗保障归类评估方法,其特征在于,包括:
S1、设置样本格式,每一条样本由多个评价指标组成;
S2、通过样本训练获得医疗机构评估模型,医疗机构评估模型的输入为预设数量的样本,输出为样本好坏比;
S3、根据样本好坏比对各医疗机构进行评分。
2.如权利要求1所述的基于逻辑回归的医疗保障归类评估方法,其特征在于,步骤S1中,组成样本的多个评价指标从医疗机构的信用指标中筛选获得,信用指标包括:医院等级、机构类别、机构性质、次均门诊费用、门诊检查化验费占比、门诊手术治疗费占比、门诊医保费用占比、重复用药次数、过高费用、过度诊疗和重复诊疗中的多个。
3.如权利要求1所述的基于逻辑回归的医疗保障归类评估方法,其特征在于,从信用指标中筛选评价指标的方法包括如下步骤:
S11、采集医疗机构的信用指标数据;
S12、从采集的信用指标数据中抽取相关性评估样本,每一条相关性评估样本均包含各信用指标;根据相关性评估样本对信用指标进行相关性分析,并根据相关性分析结果对信用指标进行筛选,筛选出的信用评价指标中任意两个的相关系数均小于或等于预设的相关系数阈值;
优选的,任意两个评价指标的相关系数根据以下模型获得:
4.如权利要求3所述的基于逻辑回归的医疗保障归类评估方法,其特征在于,从信用指标中筛选评价指标的方法还包括根据woe值进行筛选,具体包括以下步骤:
S13、通过相关性分析筛选获得的信用指标作为第一次筛选指标,并将第一次筛选指标划分为正向指标和反向指标;
S14、分别根据各第一次筛选指标计算多个待评分的医疗机构的woe值,并根据woe值将多个待评分的医疗机构划分为预设数量的多个区间;
S15、计算各区间上医疗机构对应各第一次筛选指标的woe值和第一次筛选指标数据的均值;
S16、对于正向指标,判断各区间对应的woe值是否随着第一次筛选指标数据的均值的递增而递减;是,则保留该第一次筛选指标;反之,则删除该第一次筛选指标;
对于反向指标,判断各区间对应的woe值是否随着第一次筛选指标数据的均值的递增而递增;是,则保留该第一次筛选指标;反之,则删除该第一次筛选指标。
5.如权利要求4所述的基于逻辑回归的医疗保障归类评估方法,其特征在于,从信用指标中筛选评价指标的方法还包括根据IV值进行筛选,具体包括以下步骤:
S17、通过woe值筛选的第一次筛选指标作为第二次筛选指标,并获取根据woe值划分的区间;根据每一个第二次筛选指标计算各区间上医疗机构的IV值,根据第i个第二次筛选指标计算出的第j个区间上医疗机构的IV值记作IVij;
S18、针对每一个第二次筛选指标获得各区间上医疗机构的IV值之和,记作:当IVi≥IV0,则保留第i个第二次筛选指标;反之,则删除第i个第二次筛选指标;IV0为预设的门限值;ni为根据第i个第一次筛选指标划分的区间数量;
S19、将通过IV值筛选的第二次筛选指标作为评价指标。
8.如权利要求6所述的基于逻辑回归的医疗保障归类评估方法,其特征在于,步骤S2中,首先将样本中的各评价指标替换为woe值,然后根据替换后的样本训练获得医疗机构评估模型。
优选的,步骤S2具体包括:
S21、通过样本训练获得医疗机构评估模型,医疗机构评估模型的输入为预设数量的样本,输出为样本好坏比;
S22、对医疗机构评估模型进行AUC评估、KS检验及拟合优度检验;AUC为ROC曲线下的面积;
S23、如果AUC值小于预设的第一评估阈值,或者KS值小于预设的第二评估阈值,或者拟合优度检验获得的可决系数小于预设的可决系数取值范围,则重新定义分类器或者重新选择算法模型后,再返回步骤S21;反之,则输出医疗机构评估模型。
9.如权利要求4所述的基于逻辑回归的医疗保障归类评估方法,其特征在于,还包括:根据预设的聚类模型对医疗机构进行聚类,步骤S14中,划分为多个区间的同一批医疗机构属于同一个医疗机构类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911232352.9A CN111145883A (zh) | 2019-12-05 | 2019-12-05 | 一种基于逻辑回归的医疗保障归类评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911232352.9A CN111145883A (zh) | 2019-12-05 | 2019-12-05 | 一种基于逻辑回归的医疗保障归类评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111145883A true CN111145883A (zh) | 2020-05-12 |
Family
ID=70517629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911232352.9A Pending CN111145883A (zh) | 2019-12-05 | 2019-12-05 | 一种基于逻辑回归的医疗保障归类评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111145883A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024067387A1 (zh) * | 2022-09-26 | 2024-04-04 | 深蓝汽车科技有限公司 | 基于特征变量评分的用户画像生成方法,设备、汽车及存储介质 |
-
2019
- 2019-12-05 CN CN201911232352.9A patent/CN111145883A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024067387A1 (zh) * | 2022-09-26 | 2024-04-04 | 深蓝汽车科技有限公司 | 基于特征变量评分的用户画像生成方法,设备、汽车及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khadragy et al. | Predicting Diabetes in United Arab Emirates Healthcare: Artificial Intelligence and Data Mining Case Study | |
CN111883223B (zh) | 患者样本数据中结构变异的报告解读方法及系统 | |
CN111539308B (zh) | 基于深度学习的胚胎质量综合评价装置 | |
US11837329B2 (en) | Method for classifying multi-granularity breast cancer genes based on double self-adaptive neighborhood radius | |
Liu et al. | Patent analysis and classification prediction of biomedicine industry: SOM-KPCA-SVM model | |
CN107767960A (zh) | 临床检测项目的数据处理方法、装置及电子设备 | |
Santini et al. | Accuracy of diagnostic tests | |
CN111145883A (zh) | 一种基于逻辑回归的医疗保障归类评估方法 | |
CN106960218B (zh) | 基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统 | |
CN116189909B (zh) | 基于推举算法的临床医学判别方法及系统 | |
CN116775897A (zh) | 知识图谱构建和查询方法、装置、电子设备及存储介质 | |
McNellan et al. | The evidence base for risk assessment tools used in US child protection investigations: A systematic scoping review | |
Adeodato | Data mining solution for assessing Brazilian secondary school quality based on ENEM and census data | |
CN112836772A (zh) | 基于LightGBM集成多个BERT模型的随机对照试验识别方法 | |
Nykänen et al. | Maternal and child health care quality assessment: An improved approach using K-means clustering | |
CN115620885B (zh) | 一种测量工具的评价方法及其系统 | |
Hakimjavadi et al. | Multivariable prediction models for traumatic spinal cord injury: a systematic review | |
Riska Wahyu et al. | Application of Decision Trees in Athlete Selection: A Cart Algorithm Approach | |
Huang et al. | Establishing a Prediction Model by Machine Learning for Accident-Related Patient Safety | |
Anoopkumar et al. | Bound model of clustering and classification (BMCC) for proficient performance prediction of didactical outcomes of students | |
JP5764914B2 (ja) | プログラム、分析装置および方法 | |
Hayes | Quantity over Quality? Analyzing Journal-Level Citations with scite | |
Lindner et al. | The diagnostic likelihood ratio function and modified test for trend: Identifying, evaluating, and validating nontraditional biomarkers in case‐control studies | |
Wardley et al. | A machine learning approach feature to forecast the future performance of the universities in Canada | |
Belete et al. | A Deep Learning Approaches for Modeling and Predicting of HIV Test Results Using EDHS Dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200512 |
|
RJ01 | Rejection of invention patent application after publication |