CN116759067A

CN116759067A - 一种基于重建和Tabular数据的肝病诊断方法

Info

Publication number: CN116759067A
Application number: CN202310556530.3A
Authority: CN
Inventors: 谭晓阳; 高乐豪
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-09-15

Abstract

本发明公开了一种基于重建和Tabular数据的肝病诊断方法，步骤如下：将非结构化肝病患者数据集输入定制的特征过滤器进行过滤生成表格形式的医疗数据集，并进行特征选择与字符特征数值化，利用基于局部中值的高斯过程回归填补数据集中的缺失值，利用K‑MeansSMOTE方法对安全区域进行过采样,以平衡采样分布，最后，采用XGBoost模型集成多个决策树分类器来进行多分类任务的预测。本文能够在缺失数据占比高，数值范围广,数据类型复杂的Tabular数据集上对肝病患者进行有效且准确的诊断，解决了肝病预测任务中Tabular数据的缺失值、类别不平衡等问题并提升了模型分类器的总体性能，基于特征过滤器的电子医疗病历重建，根据医学专家的意见筛选出了对肝病诊断具有价值的特征。

Description

一种基于重建和Tabular数据的肝病诊断方法

技术领域

本发明涉及机器学习与智能诊断领域，具体为一种基于重建和Tabular数据的肝病诊断方法。

背景技术

智能诊断是人机交互智能体构建中一个热门的课题，本文主要关注于高质量的，用于电子医疗病历数据的肝病智能诊断，由于肝病症状不典型且往往早期难以发现，其治疗难度较大，预后较为不良，因此，早期诊断和治疗对于肝病的治疗效果至关重要，人工智能和深度学习技术已经显示出在帮助早期检测和诊断肝病方面的潜力，这可能会导致更好的治疗结果和整体生存率。

目前主流的肝病智能诊断方法为基于机器学习模型的方法，它主要有以下几种思路：基于深度神经网络的方法是一种被广泛用于研究与实验的诊断方法，它设计了一系列的神经网络来区分不同肝病患者的信息，但是表格数据特征之间的相关性要弱于在图像或语音数据中通过空间或语义关系引入的相关性，使用神经网络模型对表格数据进行推理或数据生成任务仍然具有高度挑战性，另一种方法是基于传统的机器学习技术的，一般来说，机器学习技术由于能够从复杂和异构的临床数据中提取有价值的知识而被广泛应用于临床研究，此外，研究人员已经证明，机器学习算法在医学数据回归和分类预测方面具有良好的诊断效果，并有效地消除了医生疲劳压力和经验不足造成的误差，有各种各样的常见算法被应用于肝病数据集，如K临近法(KNN)，多层感知机(MLP)，支持向量机(SVM)，决策树(DT)以及集成算法随机森林(RF)和极端梯度提升(XGBoost)，学习算法越全面，预测结果就越准确，同时与单一分类器集成相比，多个分类器集成能够提高性能，在鲁棒性和准确性方面，集成学习者的表现优于个体学习者，这得益于不同的基分类算法的各种偏差和方差。

由于电子医疗病历数据集有着缺失数据占比高，数值范围广，数据类型复杂等困难，导致其传统的大多数方法都难以直接处理结构复杂的电子医疗病历，并且对数据集质量有着很高的要求，基于这些问题，本文提出了一种效率高，质量高的基于重建和Tabular数据的肝病诊断方法，将XGBoost方法与从电子医疗中提取特征构建高质量Tabular形式数据集相结合，这一方法不仅能实现对肝病患者高性能的诊断，也同时具备了XGBoost模型可解释性与高效率的特点。

因此针对电子医疗病历非结构化并且缺失数据占比高，数值范围广，数据类型复杂等缺陷，本发明提供一种基于重建和Tabular数据的肝病诊断方法。

发明内容

本发明为了解决现有技术的问题，提供了一种基于重建和Tabular数据的肝病诊断方法。

为了解决上述技术问题，本发明是通过以下技术方案实现的：一种基于重建和Tabular数据的肝病诊断方法，包括以下步骤：

步骤一，将非结构化电子病历结构化，根据医学专家的意见筛选出对肝病诊断具有价值的特征，针对这些特征定制独立的过滤器并进行特征提取生成可用于机器学习任务的表格数据集；

步骤二，对于步骤一中生成的数据使用LMeGPR方法对数据集进行缺失值填充，生成不含缺失值的表格数据集；

步骤三，利用K-Means SMOTE在步骤二的结果上，对少数类进行过采样，进行样本平衡；

步骤四，在步骤三的结果上训练极致梯度提升模型，集成多个弱分类器(决策树)进行多分类任务的预测。

优选的，一种基于重建和Tabular数据的肝病诊断方法，所述步骤一中非结构电子病历结构化的步骤如下：

第一步，结构化电子医疗病历，将整个电子病历展平为字典形式；

第二步，针对对肝病诊断具有价值的特征定制过滤器进行特征提取：针对每个特征开发一个过滤器类，查询其在数据集中的位置，格式，措辞等，设计合理的匹配、正则表达式、字符串检索方法，获取该特征的取值；

第三步，在定制过滤器时，针对不同特征的特点，采取不同的处理方案，使用默认值，将特征二进制化，离散特征数值化等；

第四步，在第三步的基础上迭代优化过滤器，最终生成可用于机器学习任务的Tabular形式数据集；

优选的，一种基于重建和Tabular数据的肝病诊断方法，所述步骤二中对Tabular数据集进行缺失值填充的步骤如下：

第一步，输入待处理肝病患者表格数据矩阵；

第二步，在第一步的基础上按缺失率升序遍历每一个特征列，将其他特征构成输入特征，以该特征列中未缺失的值作为预测目标；

第三步，对第二步输入特征中的缺失值，采用中值填充；

第四步，训练高斯过程回归模型对每一列中的缺失值进行填充；

第五步，在训练时，基于局部中值的高斯过程回归模型将完整的数据集中非缺失位置上的数据点作为已知数据点，同时使用第二步所述的中值来填充训练集中缺失位置的数据点，并使用GPR对这些数据点进行建模，根据GPR的预测结果来填充缺失位置上的取值；GPR的核函数如下：

优选的，一种基于重建和Tabular数据的肝病诊断方法，所述步骤四中训练极致梯度提升模型步骤如下：

第一步，初始化决策树弱学习器；

第二步，计算每个样本的残差，将残差作为样本新的真实值，并将数据作为下棵树的训练数据，得到一个新的回归树，通过叶子节点区域的平方最小损失的二阶泰勒展开更新强学习器；

第三步，增加正则化来限制模型的复杂度；

第四步，训练时，初始学习器第一步的输入为步骤三得到的Tabular形式数据集，第三步中的使用正则化项来避免过拟合，第二步的损失函数如下：

本发明的有益效果为：

1.基于特征过滤器的电子医疗病历重建，根据医学专家的意见筛选出了对肝病诊断具有价值的特征，并针对这些特征定制独立的过滤器并进行特征提取生成了结构化的Tabular形式数据集；

2.基于局部中值的GPR插值算法，本方法不需要对数据进行假设，而是通过对数据分布的先验进行建模，从而得到预测结果；

3.先前的方法只注重满足模型高准确率，本方法在具有较高的准确率的同时还考虑到了模型的可解释性，具有工业上的可应用性。

附图说明

图1是本发明的重建电子医疗病历生成Tabular数据示意图。

图2是本发明的基于Tabular数据的鲁棒肝病诊断方法示意图。

图3是本发明方法针对肝病诊断分类任务具备的可解释性示意图。

图4是本发明的肝病患者的Tabular数据形式数据集示意图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，本发明描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的其他实施例，都属于本发明所保护的范围。

根据图1-图3所示的本发明所述的一种基于重建和Tabular数据的肝病诊断方法，其特别之处在于：设计了简单高效的过滤模式，能处理缺失以及不平衡的医疗数据，这一新的方法具有无需多次训练、样本质量需求低、分类结果精度高等优势。

基于重建和Tabular数据的肝病诊断包括以下步骤：

第一步，递归式将电子医疗病历展开获得平整向量，便于搜索，根据医学专家的意见筛选出对肝病诊断具有价值的特征，针对每个特征开发一个过滤器类，查询其在数据集中的位置，格式，措辞等，设计合理的匹配、正则表达式、字符串检索方法，获取该特征的取值，针对复杂类型的特征具体过滤操作可通过以下方式处理：复合数值特征拆分；冗余特征合并；使用默认值；剔除无意义的特征列；

第二步，利用基于局部中值的高斯过程回归方法(LMeGPR)在第一步的结果上，进行表格数据的缺失值填充，弥补医疗数据缺失率高的问题，将完整的数据集中非缺失位置上的数据点作为已知数据点，同时使用中值来填充训练集中缺失位置的数据点，并使用GPR对这些数据点进行建模，根据GPR的预测结果来填充缺失位置上的取值，该方法不仅考虑了特征属性之间的关系，而且还填充了每个属性的缺失值，其中，高斯过程回归的核函数我们选取的是RBF核函数，其表示如下：

其中，σ和l是高斯核的超参数，核函数本质上决定了样本点相似性的度量方法，进行影响到了整个函数的概率分布的形状。

第三步在第二步的结果上利用K-means SMOTE进行类别平衡，从而扩充少数类，解决数据类别不平衡问题，具体方案为：利用无监督学习中常见的K-means方法将输入空间的样本聚类，在每个聚类中循环，并过滤具有多个实例的聚类，主要通过比较各聚类c_i的不平衡比和阈值的大小来划分少数类和多数类，

对少数类安全区域内的集群进行过采样，因此选择需要过采样的集群，并确定每个类需要生成多少样本，通过计算少数类簇的平均距离，为过滤后的簇分配权重，计算权重的公式为：

在上式中，稀疏度因子表示稀疏度量因子，它是密度度量的倒数。

第四步在第三步的结果上利用XGBoost对生成的医疗数据进行模型的训练，以实现肝病的多分类任务，通过集成多个弱学习器(决策树)来构建一个强大的分类或回归模型，相较于其他方法，XGBoost可以通过分裂增益获取一定的可解释性，在构建决策树的过程中，需要寻找最优的分裂节点，XGBoost采用了一种贪心算法，在所有可能的分裂节点中选择分裂增益最大的节点作为分裂点，分裂增益的公式如下：

其中g_i和h_i分别表示样本i的一阶导数和二阶导数，I是当前节点的样本集合，I_L和I_R分别表示分裂后左右两个子节点的样本集合，λ和γ是正则化参数，在训练完成后，可以通过统计每个特征的平均分裂增益(即被选择为最优特征进行分裂的平均增益)来计算每个特征的重要性。

训练好的各个模块的模型只需要使用分类器进行测试即可，测试指标为：使用准确率(Accuracy)、精确度(Precision)、召回率(Recall)、F₁分数和AUC-ROC曲线来评估不同分类器的测试性能，它们是根据真(True)/假(False)、阳(Positive)/阴(Negative)性来定义的，其计算公式如下：

其中，精度表示分类器正确预测的样本数与样本总数的比率，精度表示预测为正的结果与实际上是正的结果的比例，召回表示实际正样本中预测为正样本的比例，AUC-ROC曲线是针对各种阈值设置下的分类问题的性能度量，AUC代表曲线下面积，ROC代表接收器操作特征曲线，AUC-ROC曲线是将模型的真阳性率与假阳性率绘制在二维坐标系上得到的曲线下方的面积，AUC-ROC的取值范围为0到1，其中0.5表示随机猜测的性能，1表示完美分类器的性能，通常情况下，AUC-ROC越大，分类器的性能越好，由于AUC-ROC不受类别不平衡的影响并且独立于预测阈值，因此被广泛使用以用于评估不同模型的性能。

本方法与主流方法的对比如表1所示，

表1本文方法和主流方法的性能指标对比

综合上述结果来看，本方法就分类任务的五个指标而言，较主流的方法具有较大的优势，我们提出的方法对比现有的肝病分类方法具有以下优点：LMeGPR更多地利用数据分布信息来计算缺失值，对数据进行了预处理，提高了数据集的质量与模型的分类精度，并且能为医学诊断任务提供可解释性，该智能诊断方案具有鲁棒性，适用于不同的肝病诊断任务，在智能医疗中对改善肝病研究方面具有一定的价值和应用前景。

Claims

1.一种基于重建和Tabular数据的肝病诊断方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于重建和Tabular数据的肝病诊断方法，其特征在于：所述步骤一中非结构电子病历结构化的步骤如下：

第四步，在第三步的基础上迭代优化过滤器，最终生成可用于机器学习任务的Tabular形式数据集。

3.根据权利要求1所述的一种基于重建和Tabular数据的肝病诊断方法，其特征在于：所述步骤二中对Tabular数据集进行缺失值填充的步骤如下：

第一步，输入待处理肝病患者表格数据矩阵；

第三步，对第二步输入特征中的缺失值，采用中值填充；

4.根据权利要求1所述的一种基于重建和Tabular数据的肝病诊断方法，其特征在于：所述步骤四中训练极致梯度提升模型步骤如下：

第一步，初始化决策树弱学习器；

第三步，增加正则化来限制模型的复杂度；