CN112802567B - 一种融合贝叶斯网络与回归分析的治疗费用预测方法 - Google Patents
一种融合贝叶斯网络与回归分析的治疗费用预测方法 Download PDFInfo
- Publication number
- CN112802567B CN112802567B CN202110108182.4A CN202110108182A CN112802567B CN 112802567 B CN112802567 B CN 112802567B CN 202110108182 A CN202110108182 A CN 202110108182A CN 112802567 B CN112802567 B CN 112802567B
- Authority
- CN
- China
- Prior art keywords
- data
- evaluation index
- electronic medical
- treatment
- medical record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000011282 treatment Methods 0.000 title claims abstract description 119
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000000611 regression analysis Methods 0.000 title claims abstract description 23
- 238000003012 network analysis Methods 0.000 title claims abstract description 13
- 238000011156 evaluation Methods 0.000 claims abstract description 120
- 201000010099 disease Diseases 0.000 claims abstract description 27
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000013145 classification model Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 17
- 239000003814 drug Substances 0.000 claims description 13
- 229940079593 drug Drugs 0.000 claims description 12
- 238000010219 correlation analysis Methods 0.000 claims description 6
- 238000001959 radiotherapy Methods 0.000 claims description 6
- 238000001356 surgical procedure Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000002512 chemotherapy Methods 0.000 claims description 4
- 229940044683 chemotherapy drug Drugs 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 description 7
- 238000012417 linear regression Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 206010009944 Colon cancer Diseases 0.000 description 2
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 208000028399 Critical Illness Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0283—Price estimation or determination
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Finance (AREA)
- Tourism & Hospitality (AREA)
- Accounting & Taxation (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及治疗费用预测技术领域,提供一种融合贝叶斯网络与回归分析的治疗费用预测方法,包括:步骤1:获取初始电子病历数据集:获取确诊为预设疾病的多份历史电子病历,确定与预设疾病相关的评价指标,抓取与预设疾病相关的评价指标数据、治疗方案类型数据、治疗费用数据,并对描述型评价指标进行数值化处理;步骤2:分析数据缺失程度,对部分缺失变量插值;步骤3:构建并训练基于高斯贝叶斯网络的治疗方案分类模型;步骤4:构建并训练每个治疗方案类型下基于回归分析的治疗费用预测模型;步骤5:对确诊为预设疾病的病人的治疗费用进行预测。本发明充分利用了文本电子病历数据,能够在数据量较小时提高治疗费用预测的精度和鲁棒性。
Description
技术领域
本发明涉及治疗费用预测技术领域,特别是涉及一种融合贝叶斯网络与回归分析的治疗费用预测方法。
背景技术
目前我国的医疗保障体系存在“一刀切”、报销比例不合理等问题,在这种情况下,医院为盈利或免亏会出现少开药、滥检查和医院不愿收治慢性病等需长期住院治疗的重症患者的现象。精准预测病人治疗费用,能够对按病情报销的医疗改革方向提供重要的数据基础,促进医疗改革的合理性;能够为院方资源配置与规划提供数据支撑,提高医院效益;能够为病人选择治疗方案提供参考。
长期以来,我国有不少医疗费用的相关研究,但仍存在定性研究多,用数学方法进行精确研究较少的问题,在应用数学的方法中,又以研究病人发病率居多,研究病人治疗费用较少。目前,针对病人电子病历进行相关预测的方法普遍存在以下问题:(1)病人入院电子病历的文本数据比例偏高,且病历出自医生导致格式和内容不统一,因此如何有效地从病历中提取关键信息便成为了预测的重要前提;(2)由于病历数据来源于某医院,因此数据量整体偏小;在得到预测数据后,需根据数据特性选取合适的模型,目前常用于预测的方法主要有逻辑回归、机器学习、大数据等方法,但是此类方法往往对数据量提出较高要求;(3)在确定预测模型后,优化模型的网络参数能够进一步提高预测的精度;而各类网络模型具有不同的特性,因此选择何种优化方法对网络进行优化也成为一个重要的研究课题。
发明内容
针对现有技术存在的问题,本发明提供一种融合贝叶斯网络与回归分析的治疗费用预测方法,充分利用了文本电子病历数据,能够在数据量较小时提高治疗费用预测的精度和鲁棒性。
本发明的技术方案为:
一种融合贝叶斯网络与回归分析的治疗费用预测方法,其特征在于:包括下述步骤:
步骤1:获取初始电子病历数据集
步骤1.1:获取确诊为预设疾病的多份历史电子病历;
步骤1.2:确定与预设疾病相关的评价指标;
步骤1.3:从每份历史电子病历中抓取与预设疾病相关的评价指标数据、治疗方案类型数据、治疗费用数据;所述治疗方案分为3类,第1、2、3类治疗方案分别为药物治疗、放化疗、手术,所述治疗费用为检查费用、药物费用、手术费用的总和,所述药物费用包括治疗药物费用、放化疗药物费用;
步骤1.4:对每份历史电子病历中的描述型评价指标进行数值化处理,得到初始电子病历数据集;每份初始电子病历数据包括与预设疾病相关的数值型评价指标数据、数值化处理后的描述型评价指标数据、治疗方案类型数据、治疗费用数据;
步骤2:分析数据缺失程度,对部分缺失变量插值
步骤2.1:对初始电子病历数据集进行筛选:计算每份初始电子病历数据中评价指标数据的缺失率,删除缺失率超过20%的电子病历数据,得到筛选后的电子病历数据集;其中,缺失率为每份初始电子病历数据中缺失的评价指标数据个数占评价指标总个数的比值;
步骤2.2:对筛选后的电子病历数据集中缺失值进行插值处理,得到插值处理后的电子病历数据集A={(A1,p1,c1),(A2,p2,c2),...,(Am,pm,cm),...,(AM,pM,cM)};其中,(Am,pm,cm)为第m份插值处理后的电子病历数据,m=1,2,...,M,M为插值处理后的电子病历数据总份数, Am={am1,am2,...,amn,...,amN},amn为第m份插值处理后的电子病历数据中第n个评价指标的值,n=1,2,...,N,N为评价指标总数,pm为第m份插值处理后的电子病历数据中的治疗方案类型值,cm为第m份插值处理后的电子病历数据中的治疗费用值;
步骤3:构建基于高斯贝叶斯网络的治疗方案分类模型
步骤3.1:对数据集A中的各评价指标进行相关性分析,删除每两个有直接关系的评价指标中的一个,得到训练数据集A';
步骤3.2:利用训练数据集A'中的评价指标数据与治疗方案类型数据,构建并训练基于高斯贝叶斯网络的治疗方案分类模型;
步骤4:构建基于回归分析的类内治疗费用预测模型
对于每个治疗方案类型,利用训练数据集A'中该治疗方案类型下的评价指标数据与治疗费用数据,构建并训练该治疗方案类型下基于回归分析的治疗费用预测模型;
步骤5:对确诊为预设疾病的病人的治疗费用进行预测
步骤5.1:获取确诊为预设疾病的病人的电子病历,采用与步骤1.3中相同的方法抓取该病人的电子病历中与预设疾病相关的评价指标数据,采用与步骤1.4中相同的方法对该病人的评价指标数据中描述型评价指标进行数值化处理,得到该病人的数值化处理后的评价指标数据;
步骤5.2:若该病人的数值化处理后的评价指标数据存在缺失值,则采用与步骤2.2中相同的插值处理方法,利用数据集A中的评价指标数据对该病人的数值化处理后的评价指标数据进行插值处理,得到该病人的插值处理后的评价指标数据;
步骤5.3:根据步骤3.1中相关性分析确定删除的评价指标,删除该病人的插值处理后的评价指标数据中对应的评价指标数据,将剩余的评价指标数据输入训练后的治疗方案分类模型,得到该病人的治疗方案类型;将剩余的评价指标数据输入该病人的治疗方案类型下的治疗费用预测模型,输出该病人的治疗费用预测值。
进一步的,所述步骤1.4中,所述描述型评价指标包括定性描述型评价指标、程度描述型评价指标;将所述定性描述型评价指标根据定性性质按照有、无分别数值化为1、0;将所述程度描述型评价指标首先根据定性性质按照有、无分别赋予基础数值a为1、0,再按照程度性质划分严重程度为B个层次,确定该程度描述型评价指标的严重程度层次值b,最后计算该程度描述型评价指标的数值化值为
进一步的,所述步骤2.2中,对筛选后的电子病历数据集中缺失值进行插值处理的方法为KNN插补算法,具体为:确定缺失值的k个近邻点为距离缺失值最近的k个评价指标数据,计算缺失值到这k个近邻点的聚类中心的距离为
其中,Di为第i个近邻点到缺失值的距离,Wi为第i个近邻点到缺失值的权重;
根据距离f(x)与聚类中心的位置值估算出缺失值。
本发明的有益效果为:
(1)本发明将描述型评价指标分为定性描述型评价指标与程度描述型评价指标,将程度描述型评价指标首先根据定性性质按照有、无分别赋予基础数值,再按照程度性质划分严重程度,结合基础数值与严重程度层次对程度描述型评价指标进行数值化处理,充分利用了大量的文本数据信息,相比于传统只针对数值型数据进行处理的预测方法,增加了预测模型的可信度并拓宽了可预测数据的广度。
(2)本发明首先利用评价指标数据与治疗方案类型数据,构建并训练了基于高斯贝叶斯网络的治疗方案分类模型,然后利用每个治疗方案类型下的评价指标数据与治疗费用数据,构建并训练了每个治疗方案类型下基于回归分析的治疗费用预测模型,实现类内预测,有效解决了传统数学模型的过拟合问题,克服了单一回归分析方法存在的预测准确性差的缺陷,提高了治疗费用预测的精度。
(3)本发明在贝叶斯网络节点连接和参数训练中采用自主学习与引导学习融合的方法,相比于传统预测方法的优点在于能够在数据量较小时,不失医学合理性地完成精度相对较高的预测。
附图说明
图1为本发明的融合贝叶斯网络与回归分析的治疗费用预测方法的流程图。
图2为具体实施方式中电子病历数据中治疗费用的分布情况示意图。
图3为具体实施方式中本发明的融合贝叶斯网络与回归分析的治疗费用预测方法对测试集进行预测的结果示意图。
具体实施方式
下面将结合附图和具体实施方式,对本发明作进一步描述。
本实施例中,以2016年3月沈阳某医院240例结直肠癌二期病人入院电子病历及当月治疗方案和治疗费用清单作为验证数据,来对本发明进行详细说明。
如图1所示,本发明的融合贝叶斯网络与回归分析的治疗费用预测方法,包括下述步骤:
步骤1:获取初始电子病历数据集
步骤1.1:获取确诊为预设疾病的多份历史电子病历;
步骤1.2:确定与预设疾病相关的评价指标;
步骤1.3:从每份历史电子病历中抓取与预设疾病相关的评价指标数据、治疗方案类型数据、治疗费用数据;所述治疗方案分为3类,第1、2、3类治疗方案分别为药物治疗、放化疗、手术,所述治疗费用为检查费用、药物费用、手术费用的总和,所述药物费用包括治疗药物费用、放化疗药物费用;
步骤1.4:对每份历史电子病历中的描述型评价指标进行数值化处理,得到初始电子病历数据集;每份初始电子病历数据包括与预设疾病相关的数值型评价指标数据、数值化处理后的描述型评价指标数据、治疗方案类型数据、治疗费用数据。
电子病历中的评价指标有数值型与描述型两种。其中,数值型变量可以直接用于计算,而描述型变量也对预估病人病情具有重要影响。因此,本发明首先对病历中的描述型变量制定统一标准。
本实施例中,所述描述型评价指标包括定性描述型评价指标、程度描述型评价指标;将所述定性描述型评价指标根据定性性质按照有、无分别数值化为1、0;将所述程度描述型评价指标首先根据定性性质按照有、无分别赋予基础数值a为1、0,再按照程度性质划分严重程度为B个层次,确定该程度描述型评价指标的严重程度层次值b,最后计算该程度描述型评价指标的数值化值为
本实施例中,将结直肠癌二期设为预设疾病,从240份历史电子病历中抓取与预设疾病相关的评价指标包括4类,各评价指标及对应的数据类型、描述型评价指标的数值化方法如表1所示:
表1
步骤2:分析数据缺失程度,对部分缺失变量插值
步骤2.1:对初始电子病历数据集进行筛选:计算每份初始电子病历数据中评价指标数据的缺失率,删除缺失率超过20%的电子病历数据,得到筛选后的电子病历数据集;其中,缺失率为每份初始电子病历数据中缺失的评价指标数据个数占评价指标总个数的比值;
步骤2.2:对筛选后的电子病历数据集中缺失值进行插值处理,得到插值处理后的电子病历数据集A={(A1,p1,c1),(A2,p2,c2),...,(Am,pm,cm),...,(AM,pM,cM)};其中,(Am,pm,cm)为第m份插值处理后的电子病历数据,m=1,2,...,M,M为插值处理后的电子病历数据总份数, Am={am1,am2,...,amn,...,amN},amn为第m份插值处理后的电子病历数据中第n个评价指标的值,n=1,2,...,N,N为评价指标总数,pm为第m份插值处理后的电子病历数据中的治疗方案类型值,cm为第m份插值处理后的电子病历数据中的治疗费用值。
经过对数据的进一步分析,电子病历存在部分特征缺失的问题,由于数据量有限,无法采用直接删除的方法进行处理。针对该问题,常用的方法是对全局取均值进行插值,该方法会导致同类变量插值相同,而且存在较大误差。本实施例中,对筛选后的电子病历数据集中缺失值进行插值处理的方法为KNN插补算法,根据邻近点距离进行加权求取缺失值,具体为:确定缺失值的k个近邻点为距离缺失值最近的k个评价指标数据,计算缺失值到这k个近邻点的聚类中心的距离为
其中,Di为第i个近邻点到缺失值的距离,Wi为第i个近邻点到缺失值的权重;
根据距离f(x)与聚类中心的位置值估算出缺失值。
本实施例中,对缺失值进行插值处理,选取离散随机变量化疗B6作为验证变量进行交叉验证,该变量在病历数据中为关键数据,不存在缺失。随机选取24条变量作为缺失值进行插值,将其与实际值进行对比,得到验证数据的偏差率,并将该方法得到的插值结果与其他方法进行对比。为了进一步验证该方法的有效性,采用线性回归模型对多种插值结果进行了对比,对比结果如下表2所示。由表2可以看出,本发明采取的KNN插补算法,偏差率较低,且提高了模型的预测准确率。
表2
插值方法 | 偏差率 | 线性回归模型预测准确率 |
全局平均值方法 | 6.44% | 58.35% |
固定值方法 | 8.95% | 57.92% |
局部KNN方法 | 3.21% | 59.74% |
步骤3:构建基于高斯贝叶斯网络的治疗方案分类模型
步骤3.1:对数据集A中的各评价指标进行相关性分析,删除每两个有直接关系的评价指标中的一个,得到训练数据集A'。此步骤能够减少无关变量的影响,保证预测的稳定性,留下来的各变量对应的事件相互独立,而这些变量最终影响的是病人诊疗方案的选择。
步骤3.2:利用训练数据集A'中的评价指标数据与治疗方案类型数据,构建并训练基于高斯贝叶斯网络的治疗方案分类模型。
其中,贝叶斯网络由一个有向无环图(DAG)及描述节点之间的概率表组成。其中每个节点对应一个随机变量。这个度表达了分布的一系列有条件独立属性:在给定了父亲节点的状态后,每个变量与它在图中的非继承节点在概率上是独立的。该图抓住了概率分布到额定性结构,因此被用来做高效推理和决策。
步骤4:构建基于回归分析的类内治疗费用预测模型
对于每个治疗方案类型,利用训练数据集A'中该治疗方案类型下的评价指标数据与治疗费用数据,构建并训练该治疗方案类型下基于回归分析的治疗费用预测模型。
步骤5:对确诊为预设疾病的病人的治疗费用进行预测
步骤5.1:获取确诊为预设疾病的病人的电子病历,采用与步骤1.3中相同的方法抓取该病人的电子病历中与预设疾病相关的评价指标数据,采用与步骤1.4中相同的方法对该病人的评价指标数据中描述型评价指标进行数值化处理,得到该病人的数值化处理后的评价指标数据;
步骤5.2:若该病人的数值化处理后的评价指标数据存在缺失值,则采用与步骤2.2中相同的插值处理方法,利用数据集A中的评价指标数据对该病人的数值化处理后的评价指标数据进行插值处理,得到该病人的插值处理后的评价指标数据;
步骤5.3:根据步骤3.1中相关性分析确定删除的评价指标,删除该病人的插值处理后的评价指标数据中对应的评价指标数据,将剩余的评价指标数据输入训练后的治疗方案分类模型,得到该病人的治疗方案类型;将剩余的评价指标数据输入该病人的治疗方案类型下的治疗费用预测模型,输出该病人的治疗费用预测值。
本实施例中,首先对电子病历数据进行特征的提取及优化,得到高质量的电子病历数据。如图2所示,为电子病历数据中治疗费用的分布情况。可以看出,治疗费用数据整体呈现正态分布规律。
本实施例中,利用测试集对本发明的融合贝叶斯网络与回归分析的治疗费用预测模型的预测效果进行验证,得到分类结果如图3所示。图2中,KDE(Kernel DensityEstimation) 为代表每一个值的分布概率密度,横轴为治疗费用值,纵轴是分布概率值。同时,还将本发明的预测模型与未进行分类的线性回归模型、lasso回归模型、神经网络模型的预测结果进行对比,得到各模型的预测准确率、R2、MSE如表3所示。表3中,R2为决定系数,反应了因变量的全部变异能通过回归关系被自变量解释的比例;MSE(Mean SquaredError)是一种回归分析的评价指标,代表均方误差。由表3可以看出,由于本发明的预测模型提前进行了分类,相当于在一类具有相似特征的病例中进行预测,其预测准确率为86.75%,远高于其他未提前进行分类的预测模型的准确率。可见,本发明的融合贝叶斯网络与回归分析的治疗费用预测方法能够在数据量较小时,大大提高预测的精度。
表3
显然,上述实施例仅仅是本发明的一部分实施例,而不是全部的实施例。上述实施例仅用于解释本发明,并不构成对本发明保护范围的限定。基于上述实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,也即凡在本申请的精神和原理之内所作的所有修改、等同替换和改进等,均落在本发明要求的保护范围内。
Claims (3)
1.一种融合贝叶斯网络与回归分析的治疗费用预测方法,其特征在于:包括下述步骤:
步骤1:获取初始电子病历数据集
步骤1.1:获取确诊为预设疾病的多份历史电子病历;
步骤1.2:确定与预设疾病相关的评价指标;
步骤1.3:从每份历史电子病历中抓取与预设疾病相关的评价指标数据、治疗方案类型数据、治疗费用数据;所述治疗方案分为3类,第1、2、3类治疗方案分别为药物治疗、放化疗、手术,所述治疗费用为检查费用、药物费用、手术费用的总和,所述药物费用包括治疗药物费用、放化疗药物费用;
步骤1.4:对每份历史电子病历中的描述型评价指标进行数值化处理,得到初始电子病历数据集;每份初始电子病历数据包括与预设疾病相关的数值型评价指标数据、数值化处理后的描述型评价指标数据、治疗方案类型数据、治疗费用数据;
步骤2:分析数据缺失程度,对部分缺失变量插值
步骤2.1:对初始电子病历数据集进行筛选:计算每份初始电子病历数据中评价指标数据的缺失率,删除缺失率超过20%的电子病历数据,得到筛选后的电子病历数据集;其中,缺失率为每份初始电子病历数据中缺失的评价指标数据个数占评价指标总个数的比值;
步骤2.2:对筛选后的电子病历数据集中缺失值进行插值处理,得到插值处理后的电子病历数据集A={(A1,p1,c1),(A2,p2,c2),...,(Am,pm,cm),...,(AM,pM,cM)};其中,(Am,pm,cm)为第m份插值处理后的电子病历数据,m=1,2,...,M,M为插值处理后的电子病历数据总份数,Am={am1,am2,...,amn,...,amN},amn为第m份插值处理后的电子病历数据中第n个评价指标的值,n=1,2,...,N,N为评价指标总数,pm为第m份插值处理后的电子病历数据中的治疗方案类型值,cm为第m份插值处理后的电子病历数据中的治疗费用值;
步骤3:构建基于高斯贝叶斯网络的治疗方案分类模型
步骤3.1:对数据集A中的各评价指标进行相关性分析,删除每两个有直接关系的评价指标中的一个,得到训练数据集A';
步骤3.2:利用训练数据集A'中的评价指标数据与治疗方案类型数据,构建并训练基于高斯贝叶斯网络的治疗方案分类模型;
步骤4:构建基于回归分析的类内治疗费用预测模型
对于每个治疗方案类型,利用训练数据集A'中该治疗方案类型下的评价指标数据与治疗费用数据,构建并训练该治疗方案类型下基于回归分析的治疗费用预测模型;
步骤5:对确诊为预设疾病的病人的治疗费用进行预测
步骤5.1:获取确诊为预设疾病的病人的电子病历,采用与步骤1.3中相同的方法抓取该病人的电子病历中与预设疾病相关的评价指标数据,采用与步骤1.4中相同的方法对该病人的评价指标数据中描述型评价指标进行数值化处理,得到该病人的数值化处理后的评价指标数据;
步骤5.2:若该病人的数值化处理后的评价指标数据存在缺失值,则采用与步骤2.2中相同的插值处理方法,利用数据集A中的评价指标数据对该病人的数值化处理后的评价指标数据进行插值处理,得到该病人的插值处理后的评价指标数据;
步骤5.3:根据步骤3.1中相关性分析确定删除的评价指标,删除该病人的插值处理后的评价指标数据中对应的评价指标数据,将剩余的评价指标数据输入训练后的治疗方案分类模型,得到该病人的治疗方案类型;将剩余的评价指标数据输入该病人的治疗方案类型下的治疗费用预测模型,输出该病人的治疗费用预测值。
2.根据权利要求1所述的融合贝叶斯网络与回归分析的治疗费用预测方法,其特征在于,所述步骤1.4中,所述描述型评价指标包括定性描述型评价指标、程度描述型评价指标;将所述定性描述型评价指标根据定性性质按照有、无分别数值化为1、0;将所述程度描述型评价指标首先根据定性性质按照有、无分别赋予基础数值a为1、0,再按照程度性质划分严重程度为B个层次,确定该程度描述型评价指标的严重程度层次值b,最后计算该程度描述型评价指标的数值化值为
3.根据权利要求1所述的融合贝叶斯网络与回归分析的治疗费用预测方法,其特征在于,所述步骤2.2中,对筛选后的电子病历数据集中缺失值进行插值处理的方法为KNN插补算法,具体为:确定缺失值的k个近邻点为距离缺失值最近的k个评价指标数据,计算缺失值到这k个近邻点的聚类中心的距离为
其中,Di为第i个近邻点到缺失值的距离,Wi为第i个近邻点到缺失值的权重;
根据距离f(x)与聚类中心的位置值估算出缺失值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110108182.4A CN112802567B (zh) | 2021-01-27 | 2021-01-27 | 一种融合贝叶斯网络与回归分析的治疗费用预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110108182.4A CN112802567B (zh) | 2021-01-27 | 2021-01-27 | 一种融合贝叶斯网络与回归分析的治疗费用预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112802567A CN112802567A (zh) | 2021-05-14 |
CN112802567B true CN112802567B (zh) | 2023-11-07 |
Family
ID=75812013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110108182.4A Expired - Fee Related CN112802567B (zh) | 2021-01-27 | 2021-01-27 | 一种融合贝叶斯网络与回归分析的治疗费用预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112802567B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115578307B (zh) * | 2022-05-25 | 2023-09-15 | 广州市基准医疗有限责任公司 | 一种肺结节良恶性分类方法及相关产品 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998032088A1 (en) * | 1997-01-15 | 1998-07-23 | Chiron Corporation | Method and apparatus for predicting therapeutic outcomes |
WO2008067393A2 (en) * | 2006-11-28 | 2008-06-05 | Ihc Intellectual Asset Management, Llc | Systems and methods for exploiting missing clinical data |
CA2795736A1 (en) * | 2011-11-15 | 2013-05-15 | Robert Bosch Gmbh | Method and system for selection of patients to receive a medical device |
CN109242709A (zh) * | 2018-10-27 | 2019-01-18 | 平安科技(深圳)有限公司 | 估算医疗费用的方法和装置 |
CN109727147A (zh) * | 2018-12-14 | 2019-05-07 | 中国平安财产保险股份有限公司 | 医疗费用智能计算方法、装置、计算机设备和存储介质 |
CA3109754A1 (en) * | 2018-09-20 | 2020-03-26 | Medtronic Minimed, Inc. | Patient monitoring systems and related recommendation methods |
CN112183861A (zh) * | 2020-09-28 | 2021-01-05 | 辽宁省肿瘤医院 | 基于lasso回归预测治疗费用的方法 |
-
2021
- 2021-01-27 CN CN202110108182.4A patent/CN112802567B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998032088A1 (en) * | 1997-01-15 | 1998-07-23 | Chiron Corporation | Method and apparatus for predicting therapeutic outcomes |
WO2008067393A2 (en) * | 2006-11-28 | 2008-06-05 | Ihc Intellectual Asset Management, Llc | Systems and methods for exploiting missing clinical data |
CA2795736A1 (en) * | 2011-11-15 | 2013-05-15 | Robert Bosch Gmbh | Method and system for selection of patients to receive a medical device |
CA3109754A1 (en) * | 2018-09-20 | 2020-03-26 | Medtronic Minimed, Inc. | Patient monitoring systems and related recommendation methods |
CN109242709A (zh) * | 2018-10-27 | 2019-01-18 | 平安科技(深圳)有限公司 | 估算医疗费用的方法和装置 |
CN109727147A (zh) * | 2018-12-14 | 2019-05-07 | 中国平安财产保险股份有限公司 | 医疗费用智能计算方法、装置、计算机设备和存储介质 |
CN112183861A (zh) * | 2020-09-28 | 2021-01-05 | 辽宁省肿瘤医院 | 基于lasso回归预测治疗费用的方法 |
Non-Patent Citations (3)
Title |
---|
Application of Bayesian network and regression method in treatment cost prediction;li-li tong;《BMC Medical Informatics and Decision Making》;第21卷(第1期);全文 * |
基于贝叶斯网络与回归分析融合算法的医疗费用预测研究;谷金波;《中国知网》;全文 * |
数据挖掘在医疗费用分析中的应用研究;王红影;《中国优秀硕士学位论文全文数据库信息科技辑》(第7期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112802567A (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xie et al. | A decomposition-ensemble approach for tourism forecasting | |
US10713596B2 (en) | Transforming property data into sufficiently sized, relatively homogeneous data segments for configuring automated modeling systems | |
US20160225076A1 (en) | System and method for building and validating a credit scoring function | |
Morid et al. | Learning hidden patterns from patient multivariate time series data using convolutional neural networks: A case study of healthcare cost prediction | |
CN107767954A (zh) | 一种基于空间贝叶斯网络的环境健康风险监测预警系统及方法 | |
US20150220868A1 (en) | Evaluating Data Quality of Clinical Trials | |
Deming et al. | Exploratory Data Analysis and Visualization for Business Analytics | |
CN107273685A (zh) | 一种针对临床疾病的多模态大数据的数据分析方法 | |
CN105069030A (zh) | 单病种的住院费用估计判定方法 | |
JP2024061599A (ja) | 階層図ニューラルネットワークに基づく疾患診療過程異常識別システム | |
CN115423008A (zh) | 一种电网设备运行数据的清洗方法、系统及介质 | |
CN115700494A (zh) | 一种基于贝叶斯推理的轨道交通监测数据清洗方法及系统 | |
CN112802567B (zh) | 一种融合贝叶斯网络与回归分析的治疗费用预测方法 | |
Jiang et al. | A systematic review of the modelling of patient arrivals in emergency departments | |
Liu et al. | Network centrality and credit risk: A comprehensive analysis of peer-to-peer lending dynamics | |
El-Darzi et al. | Length of stay-based clustering methods for patient grouping | |
CN114626886A (zh) | 一种调查问卷数据分析方法及系统 | |
Sintiya et al. | SARIMA and Holt-Winters Seasonal Methods for Time Series Forecasting in Tuberculosis Case | |
CN117951028A (zh) | 一种开源软件可靠性预测方法、装置、介质及产品 | |
CN112183861B (zh) | 基于lasso回归预测治疗费用的方法 | |
WO2022222230A1 (zh) | 基于机器学习的指标预测方法、装置、设备及存储介质 | |
Li | Research on Risk Warning System for Insurance Company Based on Neural Network | |
Lawande | Forecasting healthcare expenditure using ConvLSTM | |
Hsu et al. | Integrating Neural Networks for Risk‐Adjustment Models | |
CN118863566A (zh) | 基于网格的铁路工务线路设备风险定量计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20231107 |