CN114358989A - 一种基于标准差和交互信息的慢性疾病特征选择方法 - Google Patents
一种基于标准差和交互信息的慢性疾病特征选择方法 Download PDFInfo
- Publication number
- CN114358989A CN114358989A CN202111485486.9A CN202111485486A CN114358989A CN 114358989 A CN114358989 A CN 114358989A CN 202111485486 A CN202111485486 A CN 202111485486A CN 114358989 A CN114358989 A CN 114358989A
- Authority
- CN
- China
- Prior art keywords
- features
- feature
- candidate
- information
- standard deviation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000017667 Chronic Disease Diseases 0.000 title claims abstract description 53
- 238000010187 selection method Methods 0.000 title claims abstract description 19
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 9
- 238000013145 classification model Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 5
- 206010020772 Hypertension Diseases 0.000 abstract description 3
- 230000008901 benefit Effects 0.000 abstract description 3
- 230000007547 defect Effects 0.000 abstract description 3
- 206010012601 diabetes mellitus Diseases 0.000 abstract description 3
- 230000008859 change Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005802 health problem Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000002195 synergetic effect Effects 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 208000029078 coronary artery disease Diseases 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明属于计算机科学技术领域,具体涉及一种基于标准差和交互信息的慢性疾病特征选择方法;该方法包括:实时获取用户的身体检查数据,对数据进行预处理,将预处理后的数据输入到基于标准差和交互信息的慢性疾病特征选择模型中,预测用户患有的慢性疾病类型;本发明可以有效地对高血压、糖尿病等慢性疾病的影响因素进行筛选并标记,通过对影响因素的分析统计来预防或预测慢性疾病,本发明为慢性疾病的预警提供帮助,克服了现有慢性疾病预测需要较多特征并且精确度不高的缺陷,具有良好的经济效益。
Description
技术领域
本发明属于计算机科学技术领域,具体涉及一种基于标准差和交互信息的慢性疾病特征选择方法。
背景技术
随着老龄化时代的提前到来,老年人的健康问题引起了社会越来越多的关注,其中,高血压、糖尿病和冠心病等慢性疾病已经成为威胁老年人健康的首要原因,引起了众多领域的专家学者们的高度重视。近年来,为了减低老龄人口中慢性疾病的发病率,及时预测预警慢性疾病的产生与发展,慢性疾病的影响因素被广泛研究。
临床医学和公共卫生领域拥有着各种各样与慢性疾病问题相关的数据,以往慢性疾病相关因素的研究大部分是借用传统统计学方法,然而随着大数据时代的来临,传统统计学方法在高维数据建模中存在着较多的局限性;与此同时,机器学习算法开始兴起,支持向量机等算法在各个领域中有广泛应用,但机器学习算法面对高维数据建模时也存在着一些困难,因此诞生了许多特征选择方法。
特征选择,就是从具有众多特征的高维数据集,剔除与类别标签不相关或冗余的特征,选出一些与类别标签有高度相关性的特征,它们构成最优特征的集合,即最优特征子集,该集合所表达出来的信息能很好地替代原始的全部特征。该最优特征子集在分类性能的基础上,还可以对数据进行降维,减少计算和存储开销,以构造一个高效的分类器。
特征选择本质上是要得到原始特征域的一个最佳子域,且样本在该最优子空间的分类性能与原始空间上的分类性能相比不会下降,并且该最优子空间的特征数量尽量达到最小。根据特征选择方法与分类器之间的关系,可以将其分为:过滤式、封装式以及嵌入式的特征选择方法。其中,过滤式特征选择方法根据每个特征对分类贡献度的大小来定义特征的重要程度,并进行排序。由于其在降维方面具有高效性和可扩展性,因此被广泛应用于各个领域。
但是传统的过滤式特征选择方法存在一些不足之处。首先,他们只考虑了候选特征与类别之间的信息量。然而,当一个新的特征加入选特征集合时,集合中每个目标特征与类别之间的信息量却发生了改变,因此有必要考虑目标特征与类别之间信息的动态变化。其次,特征选择研究往往聚焦于移除不相关和冗余的特征,却忽略了交互特征的存在,交互特征是指那些似乎与类别关联性较小,但当其与其他特征相结合后,产生的交互信息使得该特征与类别高度相关。因此交互特征的发现是特征选择不可或缺的环节。除此之外,根据过滤式特征选择的原理,评估函数是度量特征与类别之间相关性的最终指标,然而,传统的特征选择方法鲜少考虑到相同得分的情况。当两个或更多特征有相同分数时,选择出对类别更为重要的特征是一个必要的环节。
综上所述,需要一种既考虑目标特征与类别之间信息的动态变化,又考虑了特征之间协同性的特征选择方法,此方法可在目标特征集合的条件下,选择出与类别具有更高相关性的特征,从而达到更全面且精确地选择出对于类别有决定性作用的特征子集,得到慢性疾病的影响因素,通过对影响因素的分析统计来预防或预测慢性疾病。
发明内容
针对现有技术存在的不足,本发明提出了一种基于标准差和交互信息的慢性疾病特征选择方法,该方法包括:实时获取用户的身体检查数据,对数据进行预处理,将预处理后的数据输入到基于标准差和交互信息的慢性疾病特征选择模型中,得到慢性疾病影响因素并对影响因素进行标记;
基于标准差和交互信息的慢性疾病特征选择模型的训练过程包括:
S1:获取原始数据;
S2:将原始数据划分为10个集合,在10个集合中随机选取9个集合作为训练集,剩余1个集合作为测试集;
S3:将训练集作为候选特征集;初始化目标特征集为空,设置初始选择特征个数K;
S4:计算候选特征集中每个特征与类别的互信息值;
S5:筛选与类别具有最大互信息值的特征,将该特征添加到目标特征集S中,并在候选特征集中删除该特征,得到筛选后的候选特征集;
S6:采用评估函数计算筛选后的候选特征集中每个特征的分数,根据各个特征的分数对特征进行筛选,将筛选的特征添加到目标特征集S中,并在候选特征集中删除对应的特征;
S7:重复执行步骤S5~S6,直到目标特征集S中的特征数量为K;
S8:根据目标特征集S计算平均分类精度;
S9:迭代执行步骤S2~S8,当平均分类精度最高时停止迭代,得到最优分类精度的分类模型;根据当前的分类模型对测试集中的特征进行分类,完成模型的训练,并得到慢性疾病的影响因素。
优选的,对数据进行预处理的过程包括:对数据进行清洗,得到清洗后的数据;对清洗后的数据进行离散化处理,得到离散化的数据;对离散化的数据进行归一化处理,得到预处理好的数据。
进一步的,对数据进行清洗包括:删除变量、填充变量以及处理异常值;其中删除的变量包括:缺失值大于30%变量,高度不平衡的类别变量,慢性疾病以外的所有体检信息变量,版本时间家庭住址变量。
进一步的,归一化处理公式为:
其中,F*表示归一化处理后数据,F为未归一化处理的数据,Fmax为原始特征集中的最大值,Fmin为原始特征集中最小值。
进一步的,将原始数据集划分为训练集和测试集包括:采用十折交叉验证法,该方法将原始数据集随机拆分成10个样本量大致相同的数据集,每次均选择9个数据集当做训练数据集,剩一个作为测试数据集。
优选的,评估函数为:
其中,Fm表示第m个候选特征,Fj表示第j个目标特征,C表示类别,S表示目标特征集合,J(Fm)表示特征分数;I(Fm;C|Fj)是条件互信息,表示给定目标特征Fj的条件下候选特征Fm为类别C提供的信息量;I(Fj;C|Fm)是条件互信息,表示给定目标特征Fj的条件下候选特征Fm为类别C提供的信息量;I(Fm;Fj;C)表示候选特征Fm和目标特征Fj为类别C提供的交互信息,I(Fj;Fm)表示候选特征Fm和目标特征Fj的冗余信息。
进一步的,交互信息的计算公式为:
I(Fm;Fj;C)=I(Fm,Fj;C)-[I(Fm;C)+I(Fj;C)]
其中,I(Fm,Fj;C)表示候选特征Fm和目标特征Fj的联合互信息,I(Fm;C)表示候选特征Fm为类别C提供的信息量,I(Fj;C)表示目标特征Fj为类别提供的信息量。
优选的,根据各个特征的分数对特征进行筛选的过程为:
若最大分数只有一个,则选择最大分数的特征添加到目标特征集S中;
若最大分数至少有2个,则计算分数对应特征的标准差,选择最小标准差对应的特征添加到目标特征集S中。
进一步的,标准差的计算公式为:
其中,μ表示Fm可以提供的额外信息量的平均值,δ表示标准差,I(Fm;C|Fj)是条件互信息,表示给定目标特征Fj的条件下,候选特征Fm为类别C提供的信息量;I(Fj;C|Fm)是条件互信息,表示给定候选特征Fm的条件下,目标特征Fj为类别C提供的信息量;I(Fm;Fj;C)表示候选特征Fm和目标特征Fj为类别C提供的交互信息,I(Fj;Fm)表示候选特征Fm和目标特征Fj的冗余信息量。
本发明的有益效果为:在本发明中,不仅考虑了目标特征和类别之间信息的动态变化,而且考虑了目标特征和候选特征之间的协同性。除此之外,引入标准差来判别出同等评分情况下对类别更重要的候选特征,使得特征相关性的计算更加精准且全面;本发明可以有效地对高血压、糖尿病等慢性疾病的影响因素进行筛选对影响因素进行标记,用户可通过对影响因素的分析统计来预防或预测慢性疾病,本发明为慢性疾病的预警提供帮助,克服了现有慢性疾病预测需要较多特征并且精确度不高的缺陷,具有良好的经济效益。
附图说明
图1为本发明中基于标准差和交互信息的慢性疾病特征选择模型训练流程图;
图2为本发明中基于标准差和交互信息的慢性疾病特征选择方法的特征选择流程图;
图3为本发明中特征和类别的关系图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种基于标准差和交互信息的慢性疾病特征选择方法,如图1所示,所述方法包括:实时获取用户的身体检查数据,对数据进行预处理,将预处理后的数据输入到基于标准差和交互信息的慢性疾病特征选择模型中,得到慢性疾病影响因素并对影响因素进行标记;
基于标准差和交互信息的慢性疾病特征选择模型的训练过程包括:
S1:获取原始数据;
S2:将原始数据划分为10个集合,在10个集合中随机选取9个集合作为训练集,剩余1个集合作为测试集;
S3:将训练集作为候选特征集;初始化目标特征集为空,设置初始选择特征个数K;
S4:计算候选特征集中每个特征与类别的互信息值;
S5:筛选与类别具有最大互信息值的特征,将该特征添加到目标特征集S中,并在候选特征集中删除该特征,得到筛选后的候选特征集;
S6:采用评估函数计算筛选后的候选特征集中每个特征的分数,根据各个特征的分数对特征进行筛选,将筛选的特征添加到目标特征集S中,并在候选特征集中删除对应的特征;
S7:重复执行步骤S5~S6,直到目标特征集S中的特征数量为K;
S8:根据目标特征集S计算平均分类精度;
S9:迭代执行步骤S2~S8,当平均分类精度最高时停止迭代,得到最优分类精度的分类模型;根据当前的分类模型对测试集中的特征进行分类,完成模型的训练,并得到慢性疾病的影响因素。
如图2所示,对数据进行预处理的过程包括:对数据进行清洗,得到清洗后的数据;对清洗后的数据进行离散化处理,得到离散化的数据;对离散化的数据进行归一化处理,得到预处理好的数据。
对数据进行清洗包括:删除变量、填充变量以及处理异常值;其中删除的变量包括:缺失值大于30%变量,高度不平衡的类别变量,慢性疾病以外的所有体检信息变量,版本时间家庭住址变量。
归一化处理公式为:
其中,F*表示归一化处理后数据,F为未归一化处理的数据,Fmax为原始特征集中的最大值,Fmin为原始特征集中最小值。
将原始数据划分为10个集合,在10个集合中随机选取9个集合作为训练集,剩余1个集合作为测试集包括:采用十折交叉验证法,该方法将原始数据集随机拆分成10个样本量大致相同的数据集,选择9个数据集当做训练数据集,剩一个作为测试数据集。
一种选择目标特征集的具体实施方式为:
现存的基于互信息的特征评估方法没有考虑目标特征与类别之间信息值的动态改变。他们只侧重于侯选特征与类别之间的相关性,而忽略了目标特征与类别之间的相关性,这导致了特征与类别之间相关性的计算不够精准,例如,
表1人工数据集
表2特征和类别之间的信息量
在表1中,S={F1,F2,F3}是一个有三个特征的集合,C是类别。在该集合中假设F1是目标特征,F2和F3是两个候选特征,分别计算出互信息(MI)、条件互信息(CMI)以及联合互信息(JMI)的值,如表2所示;由表2的数据可以观察到,I(F1;C|F2)<I(F1;C)并且I(F1;C|F3)<I(F1;C)。这一结果表明,当给定一个候选特征时,类别与目标特征之间的信息量是不同的,这一现象是由候选特征引起的。因此,当引入候选特征时,有必要分析类别与目标特征之间信息量的动态变化。
为解决上述问题,考虑到类别与目标特征之间信息的动态变化,本发明引入条件互信息I(Fj;C|Fm),使用条件互信息代替了传统特征相关性度量所用的互信息;其中,Fj代表第j个目标特征,Fm代表第m个候选特征,C代表类别。
I(Fj;C|Fm)度量目标特征和类别之间信息的动态变化,有三种情况,如下所示:
1)I(Fj;C|Fm)<I(Fj;C)表示候选特征的加入,无法为类别提供新的信息并且产生冗余信息,目标特征为类别提供的信息量减少;
2)I(Fj;C|Fm)=I(Fj;C)表示目标特征和候选特征不分享共同的信息,由目标特征提供类别的信息量不发生变化;
3)I(Fj;C|Fm)>I(Fj;C)表示候选特征的加入,为类别提供了新的信息,目标特征为类别提供的信息量增加。
通过以上分析可知,候选特征Fm对类别越重要,I(Fj;C|Fm)的值越大。
此外,传统的特征选择方法鲜少考虑到交互信息,并且特征与类别之间相关性的计算不准确,因此影响了分类的准确率;如图3所示,候选特征Fm的信息内容包含三个部分:
1)I(Fm;C|Fj):条件互信息,表示给定目标特征Fj,候选特征Fm为类别C提供的信息量;
2)I(Fj;C|Fm):条件互信息,表示给定候选特征Fm,目标特征Fj为类别C提供的信息量;
3)I(Fm;Fj;C):交互信息,表示候选特征Fm和目标特征Fj为类别C提供的交互信息,即候选特征Fm和目标特征Fj产生的交互相关性,起协同作用。
交互信息的计算公式为:
I(Fm;Fj;C)=I(Fm,Fj;C)-[I(Fm;C)+I(Fj;C)]
其中,I(Fm,Fj;C)表示候选特征Fm和目标特征Fj的联合互信息,I(Fm;C)表示候选特征Fm为类别C提供的信息量,I(Fj;C)表示目标特征Fj为类别提供的信息量。
交互信息存在以下三种情况:
1)I(Fm,Fj;C)>I(Fm;C)+I(Fj;C)表示候选特征和目标特征共同产生了新的信息。候选特征与目标特征之间产生了正向协同的作用;
2)I(Fm,Fj;C)=I(Fm;C)+I(Fj;C)表示候选特征与目标特征相互独立,目标特征和候选特征不分享共同的信息,由目标特征提供类别的信息量不发生变化;
3)I(Fm,Fj;C)<I(Fm;C)+I(Fj;C)表示候选特征与目标特征提供了同样的信息,产生了冗余。候选特征与目标特征产生了负向协同作用。
通过以上分析可知,候选特征对类别越重要,I(Fm;Fj;C)的值越大。
本发明中,提出一个不仅考虑到目标特征和类别之间信息变化,而且考虑到目标特征和候选特征之间协同性的特征选择方法。定义评估函数如下:
其中,S表示目标特征集,J(Fm)表示特征分数,即特征的重要程度;I(Fm;C|Fj)表示在目标特征Fj存在的前提下,候选特征Fm与类别的信息量,度量候选特征Fm对类别C的贡献度;I(Fj;C|Fm)表示随着候选特征Fm的加入,目标特征Fj和类别C信息量的变化,其值越大,越有利于分类;I(Fm;Fj;C)表示候选特征Fm和目标特征Fj的协同作用;I(Fj;Fm)表示候选特征Fm和目标特征Fj的冗余信息量,即目标特征Fj和候选特征Fm之间的冗余性。
尽管很多方法都应用了互信息和条件互信息,但是它们被作为全局函数并不总是有效。例如,在表3中,S={F1,F2,F3}是一个有三个特征的集合,C是类别。在该集合中假设F1是目标特征,F2和F3为两个候选特征,分别计算出互信息(MI)、条件互信息(CMI)以及交互信息(II)的值,如表4所示。
表3人工数据集
表4特征和类别之间的信息量
如表4所示,I(F2;C|F1)=I(F3;C|F1),I(F1;C|F2)=I(F1;C|F3)且I(F1;F2)=I(F1;F3),可以看出互信息和条件互信息各自相同。在该条件下,传统的特征选择方法无法区分出接下来要选择的特征。
传统的特征评价函数仅考虑了候选特征和所有目标特征之间提供的额外信息的总量,在此基础上,本发明引入候选特征与每个目标特征之间提供的额外信息量的差异,既考虑了整体,又考虑了个体的影响,从而判别出评分相同的情况下,对类别更重要的候选特征,即在分数相同的情况下计算特征的标准差;计算过程如下:
其中,μ表示Fm可以提供的额外信息量的平均值,δ表示标准差,标准差反应组内个体间的差异,在该方法中反应候选特征Fm和目标特征集合S中每个特征Fj所提供的分类额外信息的差异。如果标准差越小,说明在给定目标特征Fj的条件下,Fm为类别C提供的额外信息量越接近于μ,候选特征Fm对于每个目标特征Fj能够提供分类额外信息的稳定性越高,那么该候选特征对分类更重要。
一种根据各个特征的分数对特征进行筛选的具体实施例为:
若最大分数只有一个,则选择最大分数的特征添加到目标特征集S中;
若最大分数至少有2个,则计算分数对应特征的标准差,选择最小标准差对应的特征添加到目标特征集S中。每次迭代训练集均得到完整的目标特征集后,计算目标特征集的平均分类精度;不断迭代计算每次迭代的平均分类精度,当平均分类精度最高时停止迭代,得到最优分类精度的分类模型;根据当前的分类模型对测试集中的特征进行分类,完成模型的训练,并得到慢性疾病的类型,实现对慢性疾病的预测目的。
本发明使用条件互信息代替传统特征相关性度量用到的互信息,通过条件互信息来衡量目标特征与类别之间信息的动态变化;同时,本发明不仅考虑了特征相关性和冗余性,而且通过引入交互信息,度量目标特征和候选特征之间的协同性;此外,引入标准差作为判别的方法,其目的是在目标特征集合的条件下,选择出与类别具有更高相关性的特征。相比于传统的特征选择方法,该方法能更全面且精确地选择出对于类别有决定性作用的特征子集,得到慢性疾病的影响因素,用户可通过对影响因素的分析统计来预防或预测慢性疾病;本发明为慢性疾病的预警提供帮助,克服了现有慢性疾病预测需要较多特征并且精确度不高的缺陷,具有良好的经济效益。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于标准差和交互信息的慢性疾病特征选择方法,其特征在于,实时获取用户的身体检查数据,对数据进行预处理,将预处理后的数据输入到基于标准差和交互信息的慢性疾病特征选择模型中,得到慢性疾病影响因素并对影响因素进行标记;
基于标准差和交互信息的慢性疾病特征选择模型的训练过程包括:
S1:获取原始数据;
S2:将原始数据划分为10个集合,在10个集合中随机选取9个集合作为训练集,剩余1个集合作为测试集;
S3:将训练集作为候选特征集;初始化目标特征集为空,设置初始选择特征个数K;
S4:计算候选特征集中每个特征与类别的互信息值;
S5:筛选与类别具有最大互信息值的特征,将该特征添加到目标特征集S中,并在候选特征集中删除该特征,得到筛选后的候选特征集;
S6:采用评估函数计算筛选后的候选特征集中每个特征的分数,根据各个特征的分数对特征进行筛选,将筛选的特征添加到目标特征集S中,并在候选特征集中删除对应的特征;
S7:重复执行步骤S5~S6,直到目标特征集S中的特征数量为K;
S8:根据目标特征集S计算平均分类精度;
S9:迭代执行步骤S2~S8,当平均分类精度最高时停止迭代,得到最优分类精度的分类模型;根据当前的分类模型对测试集中的特征进行分类,完成模型的训练,并得到慢性疾病的影响因素。
2.根据权利要求1所述的一种基于标准差和交互信息的慢性疾病特征选择方法,其特征在于,对数据进行预处理的过程包括:对数据进行清洗,得到清洗后的数据;对清洗后的数据进行离散化处理,得到离散化的数据;对离散化的数据进行归一化处理,得到预处理好的数据。
3.根据权利要求2所述的一种基于标准差和交互信息的慢性疾病特征选择方法,其特征在于,对数据进行清洗包括:删除变量、填充变量以及处理异常值;其中删除的变量包括:缺失值大于30%变量,高度不平衡的类别变量,慢性疾病以外的所有体检信息变量,版本时间家庭住址变量。
6.根据权利要求5所述的一种基于标准差和交互信息的慢性疾病特征选择方法,其特征在于,交互信息的计算公式为:
I(Fm;Fj;C)=I(Fm,Fj;C)-[I(Fm;C)+I(Fj;C)]
其中,I(Fm,Fj;C)表示候选特征Fm和目标特征Fj的联合互信息,I(Fm;C)表示候选特征Fm为类别C提供的信息量,I(Fj;C)表示目标特征Fj为类别提供的信息量。
7.根据权利要求1所述的一种基于标准差和交互信息的慢性疾病特征选择方法,其特征在于,根据各个特征的分数对特征进行筛选的过程为:
若最大分数只有一个,则选择最大分数的特征添加到目标特征集S中;
若最大分数至少有2个,则计算分数对应特征的标准差,选择最小标准差对应的特征添加到目标特征集S中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111485486.9A CN114358989A (zh) | 2021-12-07 | 2021-12-07 | 一种基于标准差和交互信息的慢性疾病特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111485486.9A CN114358989A (zh) | 2021-12-07 | 2021-12-07 | 一种基于标准差和交互信息的慢性疾病特征选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114358989A true CN114358989A (zh) | 2022-04-15 |
Family
ID=81097852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111485486.9A Pending CN114358989A (zh) | 2021-12-07 | 2021-12-07 | 一种基于标准差和交互信息的慢性疾病特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114358989A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100686399B1 (ko) * | 2006-03-08 | 2007-02-26 | 전남대학교산학협력단 | 컴퓨터 상에서 상관관계 기반의 하이브리드 특징 선택을 통한 경량화된 침입탐지방법 |
CN106570178A (zh) * | 2016-11-10 | 2017-04-19 | 重庆邮电大学 | 一种基于图聚类的高维文本数据特征选择方法 |
CN107992722A (zh) * | 2017-11-07 | 2018-05-04 | 大连理工大学 | 基于对称不确定性和信息交互增益的特征选择方法 |
KR20180079209A (ko) * | 2016-12-30 | 2018-07-10 | 서울대학교산학협력단 | 만성신장 질환의 질병 위험도를 예측하는 장치 및 방법 |
CN108961207A (zh) * | 2018-05-02 | 2018-12-07 | 上海大学 | 基于多模态超声图像的淋巴结良恶性病变辅助诊断方法 |
KR102025280B1 (ko) * | 2018-06-12 | 2019-09-25 | 중앙대학교 산학협력단 | 다중 레이블 패턴 분류를 위한 특징 선택 방법 및 그 장치 |
CN111709460A (zh) * | 2020-05-27 | 2020-09-25 | 西安理工大学 | 基于相关系数的互信息特征选择方法 |
CN113010884A (zh) * | 2021-02-23 | 2021-06-22 | 重庆邮电大学 | 一种入侵检测系统中的实时特征过滤方法 |
CN113221965A (zh) * | 2021-04-23 | 2021-08-06 | 西安理工大学 | 一种基于属性条件冗余的特征选择方法 |
-
2021
- 2021-12-07 CN CN202111485486.9A patent/CN114358989A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100686399B1 (ko) * | 2006-03-08 | 2007-02-26 | 전남대학교산학협력단 | 컴퓨터 상에서 상관관계 기반의 하이브리드 특징 선택을 통한 경량화된 침입탐지방법 |
CN106570178A (zh) * | 2016-11-10 | 2017-04-19 | 重庆邮电大学 | 一种基于图聚类的高维文本数据特征选择方法 |
KR20180079209A (ko) * | 2016-12-30 | 2018-07-10 | 서울대학교산학협력단 | 만성신장 질환의 질병 위험도를 예측하는 장치 및 방법 |
CN107992722A (zh) * | 2017-11-07 | 2018-05-04 | 大连理工大学 | 基于对称不确定性和信息交互增益的特征选择方法 |
CN108961207A (zh) * | 2018-05-02 | 2018-12-07 | 上海大学 | 基于多模态超声图像的淋巴结良恶性病变辅助诊断方法 |
KR102025280B1 (ko) * | 2018-06-12 | 2019-09-25 | 중앙대학교 산학협력단 | 다중 레이블 패턴 분류를 위한 특징 선택 방법 및 그 장치 |
CN111709460A (zh) * | 2020-05-27 | 2020-09-25 | 西安理工大学 | 基于相关系数的互信息特征选择方法 |
CN113010884A (zh) * | 2021-02-23 | 2021-06-22 | 重庆邮电大学 | 一种入侵检测系统中的实时特征过滤方法 |
CN113221965A (zh) * | 2021-04-23 | 2021-08-06 | 西安理工大学 | 一种基于属性条件冗余的特征选择方法 |
Non-Patent Citations (2)
Title |
---|
WU, P: "Dynamic feature selection combining standard deviation and interaction information", 《INTERNATIONAL JOURNAL OF MACHINE LEARNING AND CYBERNETICS》, vol. 14, 17 November 2022 (2022-11-17), pages 1407 - 1426 * |
丁宣宣: "基于随机最小冗余条件互信息和支持向量机的混合入侵检测特征选择", 计算机应用与软件, vol. 34, no. 11, 15 November 2017 (2017-11-15), pages 295 - 301 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xian et al. | Zero-shot learning—a comprehensive evaluation of the good, the bad and the ugly | |
CN109979541B (zh) | 基于胶囊网络的药物分子药代动力学性质和毒性预测方法 | |
CN103020454A (zh) | 发病关键因素提取与疾病预警方法及系统 | |
CN112633601A (zh) | 疾病事件发生概率的预测方法、装置、设备及计算机介质 | |
KR102387885B1 (ko) | 인공지능 학습을 위한 클린 라벨 데이터 정제 방법 | |
CN113674864A (zh) | 一种恶性肿瘤合并静脉血栓栓塞症风险预测方法 | |
JP6941309B2 (ja) | 遺伝子変異の評価装置、評価方法、プログラム、および記録媒体 | |
Davis et al. | Automated bone age assessment using feature extraction | |
Afdhal et al. | Adverse drug reactions prediction using multi-label linear discriminant analysis and multi-label learning | |
CN115527608A (zh) | 一种肠道年龄预测方法和系统 | |
Zhao et al. | Fuzzy sentiment membership determining for sentiment classification | |
Sudharson et al. | Enhancing the Efficiency of Lung Disease Prediction using CatBoost and Expectation Maximization Algorithms | |
CN114358989A (zh) | 一种基于标准差和交互信息的慢性疾病特征选择方法 | |
Prihandoko et al. | City health prediction model using random forest classification method | |
CN112133390A (zh) | 一种基于电子病历的肝病认知系统 | |
Li et al. | Learning a cytometric deep phenotype embedding for automatic hematological malignancies classification | |
Duryea et al. | Neural network based automated algorithm to identify joint locations on hand/wrist radiographs for arthritis assessment | |
Rezaei et al. | Improve data classification performance in diagnosing diabetes using the Binary Exchange Market Algorithm | |
Wu et al. | Diabetes induced factors prediction based on various improved machine learning methods | |
Gracia Tello et al. | Capi-score: a quantitative algorithm for identifying disease patterns in nailfold videocapillaroscopy | |
Mohsen et al. | Random forest algorithm using accuracy-based ranking | |
Safii et al. | Imam Safii Heart Disease Classification using Gain Ratio Feature Selection with Hidden Layer Modification in Extreme Learning Machine | |
TWM605545U (zh) | 慢性病的風險評估裝置 | |
US20240152801A1 (en) | Methods and apparatuses for operating learning model | |
Lin | Study on the influence of adolescent smoking on physical training vital capacity in eastern coastal areas |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20240430 Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province Applicant after: Guangzhou Dayu Chuangfu Technology Co.,Ltd. Country or region after: China Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS Country or region before: China |