CN112802567B

CN112802567B - 一种融合贝叶斯网络与回归分析的治疗费用预测方法

Info

Publication number: CN112802567B
Application number: CN202110108182.4A
Authority: CN
Inventors: 谷金波; 李晶皎; 闫爱云; 金硕巍; 王爱侠; 李贞妮
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2023-11-07
Anticipated expiration: 2041-01-27
Also published as: CN112802567A

Abstract

本发明涉及治疗费用预测技术领域，提供一种融合贝叶斯网络与回归分析的治疗费用预测方法，包括：步骤1：获取初始电子病历数据集：获取确诊为预设疾病的多份历史电子病历，确定与预设疾病相关的评价指标，抓取与预设疾病相关的评价指标数据、治疗方案类型数据、治疗费用数据，并对描述型评价指标进行数值化处理；步骤2：分析数据缺失程度，对部分缺失变量插值；步骤3：构建并训练基于高斯贝叶斯网络的治疗方案分类模型；步骤4：构建并训练每个治疗方案类型下基于回归分析的治疗费用预测模型；步骤5：对确诊为预设疾病的病人的治疗费用进行预测。本发明充分利用了文本电子病历数据，能够在数据量较小时提高治疗费用预测的精度和鲁棒性。

Description

一种融合贝叶斯网络与回归分析的治疗费用预测方法

技术领域

本发明涉及治疗费用预测技术领域，特别是涉及一种融合贝叶斯网络与回归分析的治疗费用预测方法。

背景技术

目前我国的医疗保障体系存在“一刀切”、报销比例不合理等问题，在这种情况下，医院为盈利或免亏会出现少开药、滥检查和医院不愿收治慢性病等需长期住院治疗的重症患者的现象。精准预测病人治疗费用，能够对按病情报销的医疗改革方向提供重要的数据基础，促进医疗改革的合理性；能够为院方资源配置与规划提供数据支撑，提高医院效益；能够为病人选择治疗方案提供参考。

长期以来，我国有不少医疗费用的相关研究，但仍存在定性研究多，用数学方法进行精确研究较少的问题，在应用数学的方法中，又以研究病人发病率居多，研究病人治疗费用较少。目前，针对病人电子病历进行相关预测的方法普遍存在以下问题：(1)病人入院电子病历的文本数据比例偏高，且病历出自医生导致格式和内容不统一，因此如何有效地从病历中提取关键信息便成为了预测的重要前提；(2)由于病历数据来源于某医院，因此数据量整体偏小；在得到预测数据后，需根据数据特性选取合适的模型，目前常用于预测的方法主要有逻辑回归、机器学习、大数据等方法，但是此类方法往往对数据量提出较高要求；(3)在确定预测模型后，优化模型的网络参数能够进一步提高预测的精度；而各类网络模型具有不同的特性，因此选择何种优化方法对网络进行优化也成为一个重要的研究课题。

发明内容

针对现有技术存在的问题，本发明提供一种融合贝叶斯网络与回归分析的治疗费用预测方法，充分利用了文本电子病历数据，能够在数据量较小时提高治疗费用预测的精度和鲁棒性。

本发明的技术方案为：

一种融合贝叶斯网络与回归分析的治疗费用预测方法，其特征在于：包括下述步骤：

步骤1：获取初始电子病历数据集

步骤1.1：获取确诊为预设疾病的多份历史电子病历；

步骤1.2：确定与预设疾病相关的评价指标；

步骤1.3：从每份历史电子病历中抓取与预设疾病相关的评价指标数据、治疗方案类型数据、治疗费用数据；所述治疗方案分为3类，第1、2、3类治疗方案分别为药物治疗、放化疗、手术，所述治疗费用为检查费用、药物费用、手术费用的总和，所述药物费用包括治疗药物费用、放化疗药物费用；

步骤1.4：对每份历史电子病历中的描述型评价指标进行数值化处理，得到初始电子病历数据集；每份初始电子病历数据包括与预设疾病相关的数值型评价指标数据、数值化处理后的描述型评价指标数据、治疗方案类型数据、治疗费用数据；

步骤2：分析数据缺失程度，对部分缺失变量插值

步骤2.1：对初始电子病历数据集进行筛选：计算每份初始电子病历数据中评价指标数据的缺失率，删除缺失率超过20％的电子病历数据，得到筛选后的电子病历数据集；其中，缺失率为每份初始电子病历数据中缺失的评价指标数据个数占评价指标总个数的比值；

步骤2.2：对筛选后的电子病历数据集中缺失值进行插值处理，得到插值处理后的电子病历数据集A＝{(A₁,p₁,c₁),(A₂,p₂,c₂),...,(A_m,p_m,c_m),...,(A_M,p_M,c_M)}；其中，(A_m,p_m,c_m)为第m份插值处理后的电子病历数据，m＝1,2,...,M，M为插值处理后的电子病历数据总份数， A_m＝{a_m1,a_m2,...,a_mn,...,a_mN}，a_mn为第m份插值处理后的电子病历数据中第n个评价指标的值，n＝1,2,...,N，N为评价指标总数，p_m为第m份插值处理后的电子病历数据中的治疗方案类型值，c_m为第m份插值处理后的电子病历数据中的治疗费用值；

步骤3：构建基于高斯贝叶斯网络的治疗方案分类模型

步骤3.1：对数据集A中的各评价指标进行相关性分析，删除每两个有直接关系的评价指标中的一个，得到训练数据集A'；

步骤3.2：利用训练数据集A'中的评价指标数据与治疗方案类型数据，构建并训练基于高斯贝叶斯网络的治疗方案分类模型；

步骤4：构建基于回归分析的类内治疗费用预测模型

对于每个治疗方案类型，利用训练数据集A'中该治疗方案类型下的评价指标数据与治疗费用数据，构建并训练该治疗方案类型下基于回归分析的治疗费用预测模型；

步骤5：对确诊为预设疾病的病人的治疗费用进行预测

步骤5.1：获取确诊为预设疾病的病人的电子病历，采用与步骤1.3中相同的方法抓取该病人的电子病历中与预设疾病相关的评价指标数据，采用与步骤1.4中相同的方法对该病人的评价指标数据中描述型评价指标进行数值化处理，得到该病人的数值化处理后的评价指标数据；

步骤5.2：若该病人的数值化处理后的评价指标数据存在缺失值，则采用与步骤2.2中相同的插值处理方法，利用数据集A中的评价指标数据对该病人的数值化处理后的评价指标数据进行插值处理，得到该病人的插值处理后的评价指标数据；

步骤5.3：根据步骤3.1中相关性分析确定删除的评价指标，删除该病人的插值处理后的评价指标数据中对应的评价指标数据，将剩余的评价指标数据输入训练后的治疗方案分类模型，得到该病人的治疗方案类型；将剩余的评价指标数据输入该病人的治疗方案类型下的治疗费用预测模型，输出该病人的治疗费用预测值。

进一步的，所述步骤1.4中，所述描述型评价指标包括定性描述型评价指标、程度描述型评价指标；将所述定性描述型评价指标根据定性性质按照有、无分别数值化为1、0；将所述程度描述型评价指标首先根据定性性质按照有、无分别赋予基础数值a为1、0，再按照程度性质划分严重程度为B个层次，确定该程度描述型评价指标的严重程度层次值b，最后计算该程度描述型评价指标的数值化值为

进一步的，所述步骤2.2中，对筛选后的电子病历数据集中缺失值进行插值处理的方法为KNN插补算法，具体为：确定缺失值的k个近邻点为距离缺失值最近的k个评价指标数据，计算缺失值到这k个近邻点的聚类中心的距离为

其中，D_i为第i个近邻点到缺失值的距离，W_i为第i个近邻点到缺失值的权重；

根据距离f(x)与聚类中心的位置值估算出缺失值。

本发明的有益效果为：

(1)本发明将描述型评价指标分为定性描述型评价指标与程度描述型评价指标，将程度描述型评价指标首先根据定性性质按照有、无分别赋予基础数值，再按照程度性质划分严重程度，结合基础数值与严重程度层次对程度描述型评价指标进行数值化处理，充分利用了大量的文本数据信息，相比于传统只针对数值型数据进行处理的预测方法，增加了预测模型的可信度并拓宽了可预测数据的广度。

(2)本发明首先利用评价指标数据与治疗方案类型数据，构建并训练了基于高斯贝叶斯网络的治疗方案分类模型，然后利用每个治疗方案类型下的评价指标数据与治疗费用数据，构建并训练了每个治疗方案类型下基于回归分析的治疗费用预测模型，实现类内预测，有效解决了传统数学模型的过拟合问题，克服了单一回归分析方法存在的预测准确性差的缺陷，提高了治疗费用预测的精度。

(3)本发明在贝叶斯网络节点连接和参数训练中采用自主学习与引导学习融合的方法，相比于传统预测方法的优点在于能够在数据量较小时，不失医学合理性地完成精度相对较高的预测。

附图说明

图1为本发明的融合贝叶斯网络与回归分析的治疗费用预测方法的流程图。

图2为具体实施方式中电子病历数据中治疗费用的分布情况示意图。

图3为具体实施方式中本发明的融合贝叶斯网络与回归分析的治疗费用预测方法对测试集进行预测的结果示意图。

具体实施方式

下面将结合附图和具体实施方式，对本发明作进一步描述。

本实施例中，以2016年3月沈阳某医院240例结直肠癌二期病人入院电子病历及当月治疗方案和治疗费用清单作为验证数据，来对本发明进行详细说明。

如图1所示，本发明的融合贝叶斯网络与回归分析的治疗费用预测方法，包括下述步骤：

步骤1：获取初始电子病历数据集

步骤1.1：获取确诊为预设疾病的多份历史电子病历；

步骤1.2：确定与预设疾病相关的评价指标；

步骤1.4：对每份历史电子病历中的描述型评价指标进行数值化处理，得到初始电子病历数据集；每份初始电子病历数据包括与预设疾病相关的数值型评价指标数据、数值化处理后的描述型评价指标数据、治疗方案类型数据、治疗费用数据。

电子病历中的评价指标有数值型与描述型两种。其中，数值型变量可以直接用于计算，而描述型变量也对预估病人病情具有重要影响。因此，本发明首先对病历中的描述型变量制定统一标准。

本实施例中，所述描述型评价指标包括定性描述型评价指标、程度描述型评价指标；将所述定性描述型评价指标根据定性性质按照有、无分别数值化为1、0；将所述程度描述型评价指标首先根据定性性质按照有、无分别赋予基础数值a为1、0，再按照程度性质划分严重程度为B个层次，确定该程度描述型评价指标的严重程度层次值b，最后计算该程度描述型评价指标的数值化值为

本实施例中，将结直肠癌二期设为预设疾病，从240份历史电子病历中抓取与预设疾病相关的评价指标包括4类，各评价指标及对应的数据类型、描述型评价指标的数值化方法如表1所示：

表1

步骤2：分析数据缺失程度，对部分缺失变量插值

步骤2.2：对筛选后的电子病历数据集中缺失值进行插值处理，得到插值处理后的电子病历数据集A＝{(A₁,p₁,c₁),(A₂,p₂,c₂),...,(A_m,p_m,c_m),...,(A_M,p_M,c_M)}；其中，(A_m,p_m,c_m)为第m份插值处理后的电子病历数据，m＝1,2,...,M，M为插值处理后的电子病历数据总份数， A_m＝{a_m1,a_m2,...,a_mn,...,a_mN}，a_mn为第m份插值处理后的电子病历数据中第n个评价指标的值，n＝1,2,...,N，N为评价指标总数，p_m为第m份插值处理后的电子病历数据中的治疗方案类型值，c_m为第m份插值处理后的电子病历数据中的治疗费用值。

经过对数据的进一步分析，电子病历存在部分特征缺失的问题，由于数据量有限，无法采用直接删除的方法进行处理。针对该问题，常用的方法是对全局取均值进行插值，该方法会导致同类变量插值相同，而且存在较大误差。本实施例中，对筛选后的电子病历数据集中缺失值进行插值处理的方法为KNN插补算法，根据邻近点距离进行加权求取缺失值，具体为：确定缺失值的k个近邻点为距离缺失值最近的k个评价指标数据，计算缺失值到这k个近邻点的聚类中心的距离为

根据距离f(x)与聚类中心的位置值估算出缺失值。

本实施例中，对缺失值进行插值处理，选取离散随机变量化疗B6作为验证变量进行交叉验证，该变量在病历数据中为关键数据，不存在缺失。随机选取24条变量作为缺失值进行插值，将其与实际值进行对比，得到验证数据的偏差率，并将该方法得到的插值结果与其他方法进行对比。为了进一步验证该方法的有效性，采用线性回归模型对多种插值结果进行了对比，对比结果如下表2所示。由表2可以看出，本发明采取的KNN插补算法，偏差率较低，且提高了模型的预测准确率。

表2

插值方法	偏差率	线性回归模型预测准确率
			全局平均值方法	6.44％	58.35％
固定值方法	8.95％	57.92％
			局部KNN方法	3.21％	59.74％

步骤3：构建基于高斯贝叶斯网络的治疗方案分类模型

步骤3.1：对数据集A中的各评价指标进行相关性分析，删除每两个有直接关系的评价指标中的一个，得到训练数据集A'。此步骤能够减少无关变量的影响，保证预测的稳定性，留下来的各变量对应的事件相互独立，而这些变量最终影响的是病人诊疗方案的选择。

步骤3.2：利用训练数据集A'中的评价指标数据与治疗方案类型数据，构建并训练基于高斯贝叶斯网络的治疗方案分类模型。

其中，贝叶斯网络由一个有向无环图(DAG)及描述节点之间的概率表组成。其中每个节点对应一个随机变量。这个度表达了分布的一系列有条件独立属性：在给定了父亲节点的状态后，每个变量与它在图中的非继承节点在概率上是独立的。该图抓住了概率分布到额定性结构，因此被用来做高效推理和决策。

步骤4：构建基于回归分析的类内治疗费用预测模型

对于每个治疗方案类型，利用训练数据集A'中该治疗方案类型下的评价指标数据与治疗费用数据，构建并训练该治疗方案类型下基于回归分析的治疗费用预测模型。

步骤5：对确诊为预设疾病的病人的治疗费用进行预测

本实施例中，首先对电子病历数据进行特征的提取及优化，得到高质量的电子病历数据。如图2所示，为电子病历数据中治疗费用的分布情况。可以看出，治疗费用数据整体呈现正态分布规律。

本实施例中，利用测试集对本发明的融合贝叶斯网络与回归分析的治疗费用预测模型的预测效果进行验证，得到分类结果如图3所示。图2中，KDE(Kernel DensityEstimation) 为代表每一个值的分布概率密度，横轴为治疗费用值，纵轴是分布概率值。同时，还将本发明的预测模型与未进行分类的线性回归模型、lasso回归模型、神经网络模型的预测结果进行对比，得到各模型的预测准确率、R2、MSE如表3所示。表3中，R2为决定系数，反应了因变量的全部变异能通过回归关系被自变量解释的比例；MSE(Mean SquaredError)是一种回归分析的评价指标，代表均方误差。由表3可以看出，由于本发明的预测模型提前进行了分类，相当于在一类具有相似特征的病例中进行预测，其预测准确率为86.75％，远高于其他未提前进行分类的预测模型的准确率。可见，本发明的融合贝叶斯网络与回归分析的治疗费用预测方法能够在数据量较小时，大大提高预测的精度。

表3

显然，上述实施例仅仅是本发明的一部分实施例，而不是全部的实施例。上述实施例仅用于解释本发明，并不构成对本发明保护范围的限定。基于上述实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，也即凡在本申请的精神和原理之内所作的所有修改、等同替换和改进等，均落在本发明要求的保护范围内。

Claims

1.一种融合贝叶斯网络与回归分析的治疗费用预测方法，其特征在于：包括下述步骤：

步骤1：获取初始电子病历数据集

步骤1.1：获取确诊为预设疾病的多份历史电子病历；

步骤1.2：确定与预设疾病相关的评价指标；

步骤2：分析数据缺失程度，对部分缺失变量插值

步骤2.2：对筛选后的电子病历数据集中缺失值进行插值处理，得到插值处理后的电子病历数据集A＝{(A₁,p₁,c₁),(A₂,p₂,c₂),...,(A_m,p_m,c_m),...,(A_M,p_M,c_M)}；其中，(A_m,p_m,c_m)为第m份插值处理后的电子病历数据，m＝1,2,...,M，M为插值处理后的电子病历数据总份数，A_m＝{a_m1,a_m2,...,a_mn,...,a_mN}，a_mn为第m份插值处理后的电子病历数据中第n个评价指标的值，n＝1,2,...,N，N为评价指标总数，p_m为第m份插值处理后的电子病历数据中的治疗方案类型值，c_m为第m份插值处理后的电子病历数据中的治疗费用值；

步骤3：构建基于高斯贝叶斯网络的治疗方案分类模型

步骤4：构建基于回归分析的类内治疗费用预测模型

步骤5：对确诊为预设疾病的病人的治疗费用进行预测

2.根据权利要求1所述的融合贝叶斯网络与回归分析的治疗费用预测方法，其特征在于，所述步骤1.4中，所述描述型评价指标包括定性描述型评价指标、程度描述型评价指标；将所述定性描述型评价指标根据定性性质按照有、无分别数值化为1、0；将所述程度描述型评价指标首先根据定性性质按照有、无分别赋予基础数值a为1、0，再按照程度性质划分严重程度为B个层次，确定该程度描述型评价指标的严重程度层次值b，最后计算该程度描述型评价指标的数值化值为

3.根据权利要求1所述的融合贝叶斯网络与回归分析的治疗费用预测方法，其特征在于，所述步骤2.2中，对筛选后的电子病历数据集中缺失值进行插值处理的方法为KNN插补算法，具体为：确定缺失值的k个近邻点为距离缺失值最近的k个评价指标数据，计算缺失值到这k个近邻点的聚类中心的距离为

根据距离f(x)与聚类中心的位置值估算出缺失值。