CN114358989A

CN114358989A - 一种基于标准差和交互信息的慢性疾病特征选择方法

Info

Publication number: CN114358989A
Application number: CN202111485486.9A
Authority: CN
Inventors: 张清华; 吴鹏; 胡峰; 高满; 彭一航; 周靖鹏
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Guangzhou Dayu Chuangfu Technology Co ltd
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-04-15

Abstract

本发明属于计算机科学技术领域，具体涉及一种基于标准差和交互信息的慢性疾病特征选择方法；该方法包括：实时获取用户的身体检查数据，对数据进行预处理，将预处理后的数据输入到基于标准差和交互信息的慢性疾病特征选择模型中，预测用户患有的慢性疾病类型；本发明可以有效地对高血压、糖尿病等慢性疾病的影响因素进行筛选并标记，通过对影响因素的分析统计来预防或预测慢性疾病，本发明为慢性疾病的预警提供帮助，克服了现有慢性疾病预测需要较多特征并且精确度不高的缺陷，具有良好的经济效益。

Description

一种基于标准差和交互信息的慢性疾病特征选择方法

技术领域

本发明属于计算机科学技术领域，具体涉及一种基于标准差和交互信息的慢性疾病特征选择方法。

背景技术

随着老龄化时代的提前到来，老年人的健康问题引起了社会越来越多的关注，其中，高血压、糖尿病和冠心病等慢性疾病已经成为威胁老年人健康的首要原因，引起了众多领域的专家学者们的高度重视。近年来，为了减低老龄人口中慢性疾病的发病率，及时预测预警慢性疾病的产生与发展，慢性疾病的影响因素被广泛研究。

临床医学和公共卫生领域拥有着各种各样与慢性疾病问题相关的数据，以往慢性疾病相关因素的研究大部分是借用传统统计学方法，然而随着大数据时代的来临，传统统计学方法在高维数据建模中存在着较多的局限性；与此同时，机器学习算法开始兴起，支持向量机等算法在各个领域中有广泛应用，但机器学习算法面对高维数据建模时也存在着一些困难，因此诞生了许多特征选择方法。

特征选择，就是从具有众多特征的高维数据集，剔除与类别标签不相关或冗余的特征，选出一些与类别标签有高度相关性的特征，它们构成最优特征的集合，即最优特征子集，该集合所表达出来的信息能很好地替代原始的全部特征。该最优特征子集在分类性能的基础上，还可以对数据进行降维，减少计算和存储开销，以构造一个高效的分类器。

特征选择本质上是要得到原始特征域的一个最佳子域，且样本在该最优子空间的分类性能与原始空间上的分类性能相比不会下降，并且该最优子空间的特征数量尽量达到最小。根据特征选择方法与分类器之间的关系，可以将其分为：过滤式、封装式以及嵌入式的特征选择方法。其中，过滤式特征选择方法根据每个特征对分类贡献度的大小来定义特征的重要程度，并进行排序。由于其在降维方面具有高效性和可扩展性，因此被广泛应用于各个领域。

但是传统的过滤式特征选择方法存在一些不足之处。首先，他们只考虑了候选特征与类别之间的信息量。然而，当一个新的特征加入选特征集合时，集合中每个目标特征与类别之间的信息量却发生了改变，因此有必要考虑目标特征与类别之间信息的动态变化。其次，特征选择研究往往聚焦于移除不相关和冗余的特征，却忽略了交互特征的存在，交互特征是指那些似乎与类别关联性较小，但当其与其他特征相结合后，产生的交互信息使得该特征与类别高度相关。因此交互特征的发现是特征选择不可或缺的环节。除此之外，根据过滤式特征选择的原理，评估函数是度量特征与类别之间相关性的最终指标，然而，传统的特征选择方法鲜少考虑到相同得分的情况。当两个或更多特征有相同分数时，选择出对类别更为重要的特征是一个必要的环节。

综上所述，需要一种既考虑目标特征与类别之间信息的动态变化，又考虑了特征之间协同性的特征选择方法，此方法可在目标特征集合的条件下，选择出与类别具有更高相关性的特征，从而达到更全面且精确地选择出对于类别有决定性作用的特征子集，得到慢性疾病的影响因素，通过对影响因素的分析统计来预防或预测慢性疾病。

发明内容

针对现有技术存在的不足，本发明提出了一种基于标准差和交互信息的慢性疾病特征选择方法，该方法包括：实时获取用户的身体检查数据，对数据进行预处理，将预处理后的数据输入到基于标准差和交互信息的慢性疾病特征选择模型中，得到慢性疾病影响因素并对影响因素进行标记；

基于标准差和交互信息的慢性疾病特征选择模型的训练过程包括：

S1：获取原始数据；

S2：将原始数据划分为10个集合，在10个集合中随机选取9个集合作为训练集，剩余1个集合作为测试集；

S3：将训练集作为候选特征集；初始化目标特征集为空，设置初始选择特征个数K；

S4：计算候选特征集中每个特征与类别的互信息值；

S5：筛选与类别具有最大互信息值的特征，将该特征添加到目标特征集S中，并在候选特征集中删除该特征，得到筛选后的候选特征集；

S6：采用评估函数计算筛选后的候选特征集中每个特征的分数，根据各个特征的分数对特征进行筛选，将筛选的特征添加到目标特征集S中，并在候选特征集中删除对应的特征；

S7：重复执行步骤S5～S6，直到目标特征集S中的特征数量为K；

S8：根据目标特征集S计算平均分类精度；

S9：迭代执行步骤S2～S8，当平均分类精度最高时停止迭代，得到最优分类精度的分类模型；根据当前的分类模型对测试集中的特征进行分类，完成模型的训练，并得到慢性疾病的影响因素。

优选的，对数据进行预处理的过程包括：对数据进行清洗，得到清洗后的数据；对清洗后的数据进行离散化处理，得到离散化的数据；对离散化的数据进行归一化处理，得到预处理好的数据。

进一步的，对数据进行清洗包括：删除变量、填充变量以及处理异常值；其中删除的变量包括：缺失值大于30％变量，高度不平衡的类别变量，慢性疾病以外的所有体检信息变量，版本时间家庭住址变量。

进一步的，归一化处理公式为：

其中，F^*表示归一化处理后数据，F为未归一化处理的数据，F_max为原始特征集中的最大值，F_min为原始特征集中最小值。

进一步的，将原始数据集划分为训练集和测试集包括：采用十折交叉验证法，该方法将原始数据集随机拆分成10个样本量大致相同的数据集，每次均选择9个数据集当做训练数据集，剩一个作为测试数据集。

优选的，评估函数为：

其中，F_m表示第m个候选特征，F_j表示第j个目标特征，C表示类别，S表示目标特征集合，J(F_m)表示特征分数；I(F_m；C|F_j)是条件互信息，表示给定目标特征F_j的条件下候选特征F_m为类别C提供的信息量；I(F_j；C|F_m)是条件互信息，表示给定目标特征F_j的条件下候选特征F_m为类别C提供的信息量；I(F_m；F_j；C)表示候选特征F_m和目标特征F_j为类别C提供的交互信息，I(F_j；F_m)表示候选特征F_m和目标特征F_j的冗余信息。

进一步的，交互信息的计算公式为：

I(F_m；F_j；C)＝I(F_m,F_j；C)-[I(F_m；C)+I(F_j；C)]

其中，I(F_m,F_j；C)表示候选特征F_m和目标特征F_j的联合互信息，I(F_m；C)表示候选特征F_m为类别C提供的信息量，I(F_j；C)表示目标特征F_j为类别提供的信息量。

优选的，根据各个特征的分数对特征进行筛选的过程为：

若最大分数只有一个，则选择最大分数的特征添加到目标特征集S中；

若最大分数至少有2个，则计算分数对应特征的标准差，选择最小标准差对应的特征添加到目标特征集S中。

进一步的，标准差的计算公式为：

其中，μ表示F_m可以提供的额外信息量的平均值，δ表示标准差，I(F_m；C|F_j)是条件互信息，表示给定目标特征F_j的条件下，候选特征F_m为类别C提供的信息量；I(F_j；C|F_m)是条件互信息，表示给定候选特征F_m的条件下，目标特征F_j为类别C提供的信息量；I(F_m；F_j；C)表示候选特征F_m和目标特征F_j为类别C提供的交互信息，I(F_j；F_m)表示候选特征F_m和目标特征F_j的冗余信息量。

本发明的有益效果为：在本发明中，不仅考虑了目标特征和类别之间信息的动态变化，而且考虑了目标特征和候选特征之间的协同性。除此之外，引入标准差来判别出同等评分情况下对类别更重要的候选特征，使得特征相关性的计算更加精准且全面；本发明可以有效地对高血压、糖尿病等慢性疾病的影响因素进行筛选对影响因素进行标记，用户可通过对影响因素的分析统计来预防或预测慢性疾病，本发明为慢性疾病的预警提供帮助，克服了现有慢性疾病预测需要较多特征并且精确度不高的缺陷，具有良好的经济效益。

附图说明

图1为本发明中基于标准差和交互信息的慢性疾病特征选择模型训练流程图；

图2为本发明中基于标准差和交互信息的慢性疾病特征选择方法的特征选择流程图；

图3为本发明中特征和类别的关系图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于标准差和交互信息的慢性疾病特征选择方法，如图1所示，所述方法包括：实时获取用户的身体检查数据，对数据进行预处理，将预处理后的数据输入到基于标准差和交互信息的慢性疾病特征选择模型中，得到慢性疾病影响因素并对影响因素进行标记；

S1：获取原始数据；

S4：计算候选特征集中每个特征与类别的互信息值；

S8：根据目标特征集S计算平均分类精度；

如图2所示，对数据进行预处理的过程包括：对数据进行清洗，得到清洗后的数据；对清洗后的数据进行离散化处理，得到离散化的数据；对离散化的数据进行归一化处理，得到预处理好的数据。

对数据进行清洗包括：删除变量、填充变量以及处理异常值；其中删除的变量包括：缺失值大于30％变量，高度不平衡的类别变量，慢性疾病以外的所有体检信息变量，版本时间家庭住址变量。

归一化处理公式为：

将原始数据划分为10个集合，在10个集合中随机选取9个集合作为训练集，剩余1个集合作为测试集包括：采用十折交叉验证法，该方法将原始数据集随机拆分成10个样本量大致相同的数据集，选择9个数据集当做训练数据集，剩一个作为测试数据集。

一种选择目标特征集的具体实施方式为：

现存的基于互信息的特征评估方法没有考虑目标特征与类别之间信息值的动态改变。他们只侧重于侯选特征与类别之间的相关性，而忽略了目标特征与类别之间的相关性，这导致了特征与类别之间相关性的计算不够精准，例如，

表1人工数据集

表2特征和类别之间的信息量

在表1中，S＝{F₁,F₂,F₃}是一个有三个特征的集合，C是类别。在该集合中假设F₁是目标特征，F₂和F₃是两个候选特征，分别计算出互信息(MI)、条件互信息(CMI)以及联合互信息(JMI)的值，如表2所示；由表2的数据可以观察到，I(F₁；C|F₂)＜I(F₁；C)并且I(F₁；C|F₃)＜I(F₁；C)。这一结果表明，当给定一个候选特征时，类别与目标特征之间的信息量是不同的，这一现象是由候选特征引起的。因此，当引入候选特征时，有必要分析类别与目标特征之间信息量的动态变化。

为解决上述问题，考虑到类别与目标特征之间信息的动态变化，本发明引入条件互信息I(F_j；C|F_m)，使用条件互信息代替了传统特征相关性度量所用的互信息；其中，F_j代表第j个目标特征，F_m代表第m个候选特征，C代表类别。

I(F_j；C|F_m)度量目标特征和类别之间信息的动态变化，有三种情况，如下所示：

1)I(F_j；C|F_m)＜I(F_j；C)表示候选特征的加入，无法为类别提供新的信息并且产生冗余信息，目标特征为类别提供的信息量减少；

2)I(F_j；C|F_m)＝I(F_j；C)表示目标特征和候选特征不分享共同的信息，由目标特征提供类别的信息量不发生变化；

3)I(F_j；C|F_m)＞I(F_j；C)表示候选特征的加入，为类别提供了新的信息，目标特征为类别提供的信息量增加。

通过以上分析可知，候选特征F_m对类别越重要，I(F_j；C|F_m)的值越大。

此外，传统的特征选择方法鲜少考虑到交互信息，并且特征与类别之间相关性的计算不准确，因此影响了分类的准确率；如图3所示，候选特征F_m的信息内容包含三个部分：

1)I(F_m；C|F_j)：条件互信息，表示给定目标特征F_j，候选特征F_m为类别C提供的信息量；

2)I(F_j；C|F_m)：条件互信息，表示给定候选特征F_m，目标特征F_j为类别C提供的信息量；

3)I(F_m；F_j；C)：交互信息，表示候选特征F_m和目标特征F_j为类别C提供的交互信息，即候选特征F_m和目标特征F_j产生的交互相关性，起协同作用。

交互信息的计算公式为：

I(F_m；F_j；C)＝I(F_m,F_j；C)-[I(F_m；C)+I(F_j；C)]

交互信息存在以下三种情况：

1)I(F_m,F_j；C)＞I(F_m；C)+I(F_j；C)表示候选特征和目标特征共同产生了新的信息。候选特征与目标特征之间产生了正向协同的作用；

2)I(F_m,F_j；C)＝I(F_m；C)+I(F_j；C)表示候选特征与目标特征相互独立，目标特征和候选特征不分享共同的信息，由目标特征提供类别的信息量不发生变化；

3)I(F_m,F_j；C)＜I(F_m；C)+I(F_j；C)表示候选特征与目标特征提供了同样的信息，产生了冗余。候选特征与目标特征产生了负向协同作用。

通过以上分析可知，候选特征对类别越重要，I(F_m；F_j；C)的值越大。

本发明中，提出一个不仅考虑到目标特征和类别之间信息变化，而且考虑到目标特征和候选特征之间协同性的特征选择方法。定义评估函数如下：

其中，S表示目标特征集，J(F_m)表示特征分数，即特征的重要程度；I(F_m；C|F_j)表示在目标特征F_j存在的前提下，候选特征F_m与类别的信息量，度量候选特征F_m对类别C的贡献度；I(F_j；C|F_m)表示随着候选特征F_m的加入，目标特征F_j和类别C信息量的变化，其值越大，越有利于分类；I(F_m；F_j；C)表示候选特征F_m和目标特征F_j的协同作用；I(F_j；F_m)表示候选特征F_m和目标特征F_j的冗余信息量，即目标特征F_j和候选特征F_m之间的冗余性。

尽管很多方法都应用了互信息和条件互信息，但是它们被作为全局函数并不总是有效。例如，在表3中，S＝{F₁,F₂,F₃}是一个有三个特征的集合，C是类别。在该集合中假设F₁是目标特征，F₂和F₃为两个候选特征，分别计算出互信息(MI)、条件互信息(CMI)以及交互信息(II)的值，如表4所示。

表3人工数据集

表4特征和类别之间的信息量

如表4所示，I(F₂；C|F₁)＝I(F₃；C|F₁)，I(F₁；C|F₂)＝I(F₁；C|F₃)且I(F₁；F₂)＝I(F₁；F₃)，可以看出互信息和条件互信息各自相同。在该条件下，传统的特征选择方法无法区分出接下来要选择的特征。

传统的特征评价函数仅考虑了候选特征和所有目标特征之间提供的额外信息的总量，在此基础上，本发明引入候选特征与每个目标特征之间提供的额外信息量的差异，既考虑了整体，又考虑了个体的影响，从而判别出评分相同的情况下，对类别更重要的候选特征，即在分数相同的情况下计算特征的标准差；计算过程如下：

其中，μ表示F_m可以提供的额外信息量的平均值，δ表示标准差，标准差反应组内个体间的差异，在该方法中反应候选特征F_m和目标特征集合S中每个特征F_j所提供的分类额外信息的差异。如果标准差越小，说明在给定目标特征F_j的条件下，F_m为类别C提供的额外信息量越接近于μ，候选特征F_m对于每个目标特征F_j能够提供分类额外信息的稳定性越高，那么该候选特征对分类更重要。

一种根据各个特征的分数对特征进行筛选的具体实施例为：

若最大分数至少有2个，则计算分数对应特征的标准差，选择最小标准差对应的特征添加到目标特征集S中。每次迭代训练集均得到完整的目标特征集后，计算目标特征集的平均分类精度；不断迭代计算每次迭代的平均分类精度，当平均分类精度最高时停止迭代，得到最优分类精度的分类模型；根据当前的分类模型对测试集中的特征进行分类，完成模型的训练，并得到慢性疾病的类型，实现对慢性疾病的预测目的。

本发明使用条件互信息代替传统特征相关性度量用到的互信息，通过条件互信息来衡量目标特征与类别之间信息的动态变化；同时，本发明不仅考虑了特征相关性和冗余性，而且通过引入交互信息，度量目标特征和候选特征之间的协同性；此外，引入标准差作为判别的方法，其目的是在目标特征集合的条件下，选择出与类别具有更高相关性的特征。相比于传统的特征选择方法，该方法能更全面且精确地选择出对于类别有决定性作用的特征子集，得到慢性疾病的影响因素，用户可通过对影响因素的分析统计来预防或预测慢性疾病；本发明为慢性疾病的预警提供帮助，克服了现有慢性疾病预测需要较多特征并且精确度不高的缺陷，具有良好的经济效益。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于标准差和交互信息的慢性疾病特征选择方法，其特征在于，实时获取用户的身体检查数据，对数据进行预处理，将预处理后的数据输入到基于标准差和交互信息的慢性疾病特征选择模型中，得到慢性疾病影响因素并对影响因素进行标记；

S1：获取原始数据；

S4：计算候选特征集中每个特征与类别的互信息值；

S8：根据目标特征集S计算平均分类精度；

2.根据权利要求1所述的一种基于标准差和交互信息的慢性疾病特征选择方法，其特征在于，对数据进行预处理的过程包括：对数据进行清洗，得到清洗后的数据；对清洗后的数据进行离散化处理，得到离散化的数据；对离散化的数据进行归一化处理，得到预处理好的数据。

3.根据权利要求2所述的一种基于标准差和交互信息的慢性疾病特征选择方法，其特征在于，对数据进行清洗包括：删除变量、填充变量以及处理异常值；其中删除的变量包括：缺失值大于30％变量，高度不平衡的类别变量，慢性疾病以外的所有体检信息变量，版本时间家庭住址变量。

4.根据权利要求2所述的一种基于标准差和交互信息的慢性疾病特征选择方法，其特征在于，归一化处理公式为：

5.根据权利要求1所述的一种基于标准差和交互信息的慢性疾病特征选择方法，其特征在于，评估函数为：

其中，F_m表示第m个候选特征，F_j表示第j个目标特征，C表示类别，S表示已选候选集，J(F_m)表示特征分数；I(F_m；C|F_j)是条件互信息，表示给定目标特征F_j的条件下候选特征F_m为类别C提供的信息量；I(F_j；C|F_m)是条件互信息，表示给定目标特征F_j的条件下候选特征F_m为类别C提供的信息量；I(F_m；F_j；C)表示候选特征F_m和目标特征F_j为类别C提供的交互信息，I(F_j；F_m)表示候选特征F_m和目标特征F_j的互信息。

6.根据权利要求5所述的一种基于标准差和交互信息的慢性疾病特征选择方法，其特征在于，交互信息的计算公式为：

I(F_m；F_j；C)＝I(F_m,F_j；C)-[I(F_m；C)+I(F_j；C)]

7.根据权利要求1所述的一种基于标准差和交互信息的慢性疾病特征选择方法，其特征在于，根据各个特征的分数对特征进行筛选的过程为：

8.根据权利要求7所述的一种基于标准差和交互信息的慢性疾病特征选择方法，其特征在于，标准差的计算公式为：