CN114822835A

CN114822835A - 一种糖尿病关键特征参数获取方法

Info

Publication number: CN114822835A
Application number: CN202210177424.XA
Authority: CN
Inventors: 陈波; 高秀娥; 胡建刚; 陈世峰; 桑海涛; 蒋潘玲
Original assignee: Lingnan Teachers College Zhanjiang Education Service Co ltd; Lingnan Normal University
Current assignee: Lingnan Teachers College Zhanjiang Education Service Co ltd; Lingnan Normal University
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2022-07-29

Abstract

本发明公开了一种糖尿病关键特征参数获取方法，包括：对糖尿病相关原始数据进行代数组合并且进行标准化处理，得到糖尿病危险因素候选特征集；通过RReliefF算法筛选与糖尿病相关的特征，构造最大相关性特征集；通过mRMR算法剔除与糖尿病无关的冗余特征，构造最大相关最小冗余特征集；采用改进FCL因果发现方法进行因果替换，获取糖尿病关键特征集。本发明利用代数组合的方式，可以大幅增加糖尿病特征集的复杂度，便于选择出更有预测贡献度的糖尿病特征；利用RReliefF算法和mRMR算法得到最大相关最小冗余糖尿病特征集，降低了糖尿病特征集的维度；利用改进FCL算法，进行糖尿病特征之前的因果替换，得到具有更好贡献度的糖尿病特征集。

Description

一种糖尿病关键特征参数获取方法

技术领域

本发明涉及特征提取技术领域，具体涉及一种糖尿病关键特征参数获取方法。

背景技术

糖尿病已成为严重影响人类健康的流行疾病，如何有效防治糖尿病成为亟待解决的问题。分析危险因素与糖尿病关系、建立糖尿病预测模型是揭示糖尿病发病病理的关键，也是糖尿病防治的有效辅助手段。现有糖尿病预测方法主要可分为回归统计和智能预测两大类。

(1)基于回归统计的糖尿病预测方法。主要有Logistic、Cox、危险因素计分、ROC等方法。其中，Logistic方法具有样本要求简单、建模便捷等优点，广泛应用于分类问题；但其适应性较差，误差较大。Cox方法不用考虑数据的生存时间分布，且能充分使用截尾数据，但其拟合精度不高，难以达到最佳的拟合效果。危险因素计分方法常与logistic方法组合使用，虽然简单易行，但需大量数据验证后才能获得满意的预测结果。ROC分析法可以将预测结果划分为多个有序分类，相比二分法具有更加广泛的适用范围。

(2)基于智能算法的糖尿病预测方法。近年来，研究者更倾向于采用机器学习和数据挖掘方法来构建糖尿病的非参数预测模型，主要分为单学习器和集成学习器两类。前者主要有基于早期神经网络、SVM、ANN、BP等糖尿病预测方法。后者主要有基于SVM和随机森林(RF)相结合的糖尿病预测方法、基于RF识别的单核苷酸多态性T2DM预测方法、基于自适应神经模糊推理的糖尿病预测方法、基于深度神经网络和logistic的中国人群妊娠糖尿病预测方法等。

回归统计预测方法通常针对特定人群、且受样本影响大，方法的适应性较差；智能预测方法易于处理高维数据和非线性问题，可不同程度提高预测分类精度，预测精度受到数据集质量的制约。但是，糖尿病的影响因素众多，如何发现糖尿病危险因素、挖掘具有预测贡献度糖尿病危险因素关键特征，对提高糖尿病预测精度至关重要。

发明内容

本发明的目的在于，提供一种糖尿病关键特征参数获取方法，其能够筛选出具有预测贡献度的关键特征，有效提高了糖尿病预测精度，并通过随机森林训练预测模型，验证了糖尿病关键特征的有效性。

为实现上述目的，本申请提出一种糖尿病关键特征参数获取方法，包括：

对糖尿病相关原始数据进行代数组合并且进行标准化处理，得到糖尿病危险因素候选特征集；

通过RReliefF算法筛选与糖尿病相关的特征，构造最大相关性特征集；

通过mRMR算法剔除与糖尿病无关的冗余特征，构造最大相关最小冗余特征集；

采用改进FCL因果发现方法进行因果替换，获取糖尿病关键特征集。

进一步的，还包括：将所述糖尿病关键特征集输入至糖尿病预测模型，利用随机森林训练所述模型，得到预测精度，验证糖尿病关键特征集有效性。

进一步的，对糖尿病相关原始数据进行代数组合并且进行标准化处理，得到危险因素候选特征集，具体为：

在现有糖尿病危险因素基础上，对糖尿病相关原始数据进行代数组合，并将组合后的数据进行Z-score标准化处理，如式(1)所示，作为糖尿病危险因素候选特征集：

进一步的，通过RReliefF算法筛选与糖尿病相关的特征，构造最大相关性特征集，具体为：

考虑到特征相关性，采用RReliefF算法筛选与糖尿病相关性大的特征得到最大相关特征集，去除不相关特征。将糖尿病相关特征赋予权重作为评价值，依据所述评价值筛选与目标类别最大相关的特征集。

进一步的，所述糖尿病相关特征的权重W[A]获取方式如下：

其中，N_dC表示在不同预测值条件下的权重，N_dA[A]表示在不同特征条件下的权重，N_dC&dA[A]表示在不同预测值、不同特征条件下的权重集。

更进一步的，通过mRMR算法剔除与糖尿病无关的冗余特征，构造最大相关最小冗余特征集，具体为：

mRMR算法是一种基于特征互信息的相关度量算法，通过在原始特征集合中寻找与最终输出结果相关性最大、但特征彼此之间相关性最小的一组特征方法。

假设，两个随机变量(x，y)，概率密度函数分别为p(x)和p(y)，联合概率密度函数为p(x,y)，则x与y的互信息：

最大相关度D表示为：

其中，I(x_i；c)为糖尿病特征参数x_i与目标类别c之间的互信息；

最小冗余度R表示为：

其中，I(x_i；x_j)为糖尿病特征参数x_i与糖尿病特征参数x_j之间的互信息。

结合所述I(x_i；c)、I(x_i；x_j)2个互信息，得到差准则最优算法为：

通过最优算法，得到最大相关、最小冗余的一组糖尿病特征参数，所述糖尿病特征参数的个数，可以根据实际情况进行调整，不为固定值。

更进一步的，采用改进FCL因果发现方法进行因果替换，获取糖尿病关键特征集，具体为：

假设，G为子集X＝{X₁,X₂,…,X_n}上的因果结构，其中1≤i≤n≤N；设G满足因果马尔可夫假设、因果忠诚性假设，其联合分布P(X)表示为：

给定糖尿病危险因素观察数据

其中

为n维向量，即

令

表示为包含

的观测值，根据P(X)和G，糖尿病危险因素观察数据的对数似然度为：

更进一步的，式(8)最大化得到的因果结构不一定正确，因为有可能存在最大似然度相同而结构不一样的马尔可夫等价类因果结构，进而采用加性噪声模型X_i＝F_i(XP_i)+E_i作为因果关系生成机制，F_i是X_i的因果函数，有：

由式(8)和(9)得，糖尿病危险因素观察数据的对数似然度等于观察数据的噪声似然度，则观察数据的噪声似然度为：

式(10)为转换后的目标函数，其中S＝<G,F>为观测噪声的因果结构；为避免产生过多的冗余和错误因果关系边，加入贝叶斯信息准则和调整阈值后，得到改进FCL算法模型：

式中，d_i为估计X_i采用的系数；

利用所述改进FCL算法模型，获取不同糖尿病特征参数的因果关系，在最大相关最小冗余糖尿病特征集的基础上，按照得到的因果关系，采用果变量替代因变量的因果替代准则，得到糖尿病关键特征集。

本发明采用的以上技术方案，与现有技术相比，具有的优点是：本发明综合多种特征提取方法，得到糖尿病危险因素关键特征集。利用代数组合的方式，可以大幅增加糖尿病特征集的复杂度，便于选择出更有预测贡献度的糖尿病特征；利用RReliefF算法和mRMR算法得到最大相关最小冗余糖尿病特征集，降低了糖尿病特征集的维度；利用改进FCL算法，进行糖尿病特征之前的因果替换，得到具有更好贡献度的糖尿病特征集。通过糖尿病关键特征参数获取方法，有效提高了糖尿病预测精度。

附图说明

图1为混合特征选择算法原理图；

图2为糖尿病关键特征参数获取方法流程图；

图3为模型1训练寻优过程图；

图4为模型2训练寻优过程图；

图5为模型3训练寻优过程图；

图6为模型4训练寻优过程图；

图7为模型5训练寻优过程图；

图8为模型6训练寻优过程图；

图9为模型1的特征贡献图；

图10为模型2的特征贡献图；

图11为模型3的特征贡献图；

图12为模型4的特征贡献图；

图13为模型5的特征贡献图；

图14为模型6的特征贡献图；

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请，即所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例1

由于糖尿病的影响因素众多，且存在预测贡献度的糖尿病危险因素特征提取困难，和现有糖尿病预测方法精度不高的问题，无法做到有效预测。本发明借助于多种特征选择方法，可以提取出糖尿病危险因素中的关键特征，为预测模型提供优质训练数据，同时采用随机森林算法构建预测模型，可有效提高糖尿病预测精度。基于此，提出了糖尿病关键特征参数获取方法。

为了验证本发明的可行性和有效性，进行了四组实验，分别是不同特征选择算法得到的特征集分析实验、糖尿病预测模型训练与预测实验、模型特征贡献分析实验和不同方法的糖尿病预测性能分析实验。实验数据来源于kaggle平台，样本量为768和2000的糖尿病数据集。该数据集包括9个变量，怀孕次数、口服葡萄糖耐量试验中2小时血浆葡萄糖浓度、舒张压(mm Hg)、三头肌皮肤褶皱厚度(mm)、2小时血清胰岛素(muU/ml)、身体质量指数、年龄、糖尿病血统函数和糖尿病诊断变量，其中糖尿病血统函数含有受试者的家族糖尿病遗传信息。

(1)不同特征选择算法得到的特征集分析实验

为更好分析本发明所提出的混合特征选择算法在预测贡献度上的优势，在样本量768、样本量2000的条件下，各选定3个特征集，如表1所示。其中，在样本量768的条件下，原始特征集定义为特征集1、基于RReliefF算法和mRMR算法筛选得到特征集2(最大相关最小冗余集)、基于混合特征选择算法筛选得到特征集3(关键特征集)；如此类推，特征集4-6为2000样本量下所对应方法得到的特征集。

表1不同样本量的特征集

为更好对比不同特征选择算法的性能，特征集1-6的特征个数均选定为8个，如表2所示。从表2可看出，特征集3对特征集2中的4个特征

进行了因果替换；特征集6对特征集5中的1个特征

进行了因果替换。

表2不同样本量的特征集结构

对应6种糖尿病预测模型。模型1：基于特征集1和随机森林相结合的糖尿病预测模型，模型2：基于特征集2和随机森林相结合的糖尿病预测模型，模型3：基于特征集3和随机森林相结合的糖尿病预测模型，模型4：基于特征集4和随机森林相结合的糖尿病预测模型，模型5：基于特征集5和随机森林相结合的糖尿病预测模型，模型6：基于特征集6和随机森林相结合的糖尿病预测模型。

(2)糖尿病预测模型训练与预测实验

采用随机森林对模型1-6进行训练，其寻优迭代过程如图3-8所示，其中最上面线条代表患病样本训练迭代时的误差变化；中间线条代表所有样本训练迭代时的误差变化；最下面线条代表不患病样本训练迭代时的误差变化。

由图3-8可知，在样本量相同情况下，采用原始特征集的模型训练平均误差最大，采用本发明提出的关键特征集的模型训练平均误差最小；在不同样本量情况下，采用768样本量的模型训练平均误差大于2000样本量的模型训练平均误差。这表明特征集和样本量决定了模型训练精度，本发明提出的混合特征选择算法选出的关键特征集、在样本量2000情况下更有利于模型训练。

在图3-8中，使得三条线平均误差最小的分类树数目即为最佳分类树数，模型1-6的最佳分类树数、训练错分率及预测精度如表3所示。

表3不同样本量的6个模型相关参数

由表3可知，在768样本量下，模型1的训练错分率指标最好，但其预测精度最低；模型2和模型3的训练错分率指标略低于模型1的，但模型2和模型3的预测精度指标更好，其中模型3的预测精度最高，模型3比模型2的预测精度高出3.7％，模型2比模型1的预测精度高出1.3％。在2000样本量下，模型6的训练错分率与模型5的接近，但其预测精度最高，其中模型6比模型5的预测精度高出0.8％，模型5比模型4的预测精度高出0.3％。

同时，从模型1与模型4、模型2与模型5、模型3与模型6对比可以看出，在相同特征集的条件下，样本量2000的预测精度远高于样本量768的预测精度。这是因为样本量的增加，有效降低了训练错分率。此外，由表2可知，模型3的特征集是由模型2的特征集因果替换而得、模型6的特征集是由模型5的特征集替换而得，因果替换在一定程度上也提高了模型的预测精度。

(3)模型特征贡献分析实验

从图9-11可知，在768样本量条件下，特征X₂、X₆与其构造体X₂X₆、

的MeanDecrease Gini值排在前列，这表示这些特征对模型1-3预测贡献大，即血糖、BMI、血糖与BMI乘积、血糖的立方对糖尿病预测的作用大。同时，由图10与图11对比可知，

进行因果替换后得到

特征

的贡献更大，这表明因果替换有助于糖尿病预测。

从图12-14可知，在2000样本量条件下，特征X₂、X₆、X₇与其构造体

与X₂X₇的Mean Decrease Gini值排在前列，这表示这些特征对模型4-6预测贡献大；与模型1-3的特征比较发现，年龄X₇更有利于模型4-6的预测。同时，由图13与14对比可知，

进行因果替换后得到

特征

的贡献更大，这同样表明因果替换有助于糖尿病预测。

为进一步研究因果变量互换对模型预测性能的影响，本发明将特征集2和5的特征进行了果变量替换因变量的互换，得到特征集7和8。基于特征集7与随机森林相结合的糖尿病预测模型为模型7，基于特征集8与随机森林相结合的糖尿病预测模型为模型8，将模型7和8与模型3和6的对比结果汇总于表4。

表4为不同模型对比结果

由表4可知，模型3比模型7的预测精度高出6.7％，模型6比模型8的预测精度高出0.8％，这表明了进行特性因果优化时，采用果变量替换因变量的方式有助于提升预测精度。

(4)不同方法的糖尿病预测性能分析实验

为对比人工神经网络与随机森林方法的预测性能，这里定义了模型9-14，分别为特征集1-6与人工神经网络相结合的糖尿病预测模型，如模型9为基于特征集1与人工神经网络相结合的糖尿病预测模型，以此类推。

表5为不同模型预测精度

由表5可知，在768样本量条件下，基于人工神经网络的糖尿病预测模型预测精度略高；但在2000样本量下，基于随机森林的糖尿病预测模型更高，且模型4-6比模型12-14均高出10％以上的精度。这表明在样本量较小的条件下，人工神经网络的预测效果比随机森林略好，但区别不大；在样本量较大的条件下，随机森林的预测优势更大。同时，由模型12-14的预测精度对比知，本发明所提的混合特征选择算法筛选出来的关键特征集更利于糖尿病预测。

综上所述，本发明提出的糖尿病关键特征参数获取方法可以有效提高糖尿病预测精度。这表明本发明方法在糖尿病预测研究方面具有巨大潜力，有更高的预测精度和预测效率，可为糖尿病防治研究提供一定的参考。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。