CN109801681B - 一种基于改进的模糊聚类算法的snp选择方法 - Google Patents

一种基于改进的模糊聚类算法的snp选择方法 Download PDF

Info

Publication number
CN109801681B
CN109801681B CN201811515699.XA CN201811515699A CN109801681B CN 109801681 B CN109801681 B CN 109801681B CN 201811515699 A CN201811515699 A CN 201811515699A CN 109801681 B CN109801681 B CN 109801681B
Authority
CN
China
Prior art keywords
snp
data
clustering algorithm
method based
selection method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811515699.XA
Other languages
English (en)
Other versions
CN109801681A (zh
Inventor
周从华
张波
张付全
张婷
蒋跃明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUXI MENTAL HEALTH CENTER
Jiangsu University
Original Assignee
WUXI MENTAL HEALTH CENTER
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUXI MENTAL HEALTH CENTER, Jiangsu University filed Critical WUXI MENTAL HEALTH CENTER
Priority to CN201811515699.XA priority Critical patent/CN109801681B/zh
Publication of CN109801681A publication Critical patent/CN109801681A/zh
Application granted granted Critical
Publication of CN109801681B publication Critical patent/CN109801681B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于改进的模糊聚类算法的SNP选择方法,包括:获取SNP数据集;对获取到的SNP数据进行预处理,包括数据的清洗和重新编码;对预处理后的数据基于假设性检验进行初步筛选;对初筛过的数据,分别计算每个SNP的重要程度;利用改进的模糊聚类算法对SNP进行聚类;从聚类得到的每个簇中根据对称的不平衡性原则进一步筛选,构造SNP子集。本发明针对SNP数据,在考虑单个SNP对分类结果的影响的同时,也兼顾了局部区域SNP之间的相互关联性,在对数据实现降维的同时,充分挖掘了SNP内部的信息。使用该方法构造出来的SNP子集,相比于其他选择方法而言具有更好的分类效果,可应用于SNP数据的选择中。

Description

一种基于改进的模糊聚类算法的SNP选择方法
技术领域
本发明涉及数据挖掘领域,尤其涉及信息SNP的子集构造和一种基于改进的模糊聚类算法的SNP选择方法。
背景技术
遗传疾病是由于遗传物质的改变所导致的疾病,这种类型的疾病病种多、发病率高,目前已发现的遗传疾病已经高达3000多种,对社会造成了很大的影响。近几年来,随着DNA微阵列技术取得的巨大进步,使得人们可以获得数以万计的基因表达谱,从而可以从基因层面去深入了解疾病,为疾病的发病机理的研究提供了强有力的支持。随着人类全基因组研究(Genome-Wide Association Study,GWAS)的日益推进,使得像精神分裂症、类风湿关节疾病等疾病的研究取得了良好的进展。GWAS是一种检测特定物种中不同个体间的全部或大部分基因,从而了解不同个体间的基因变化有多大的一种方法。GWAS的开展为人类研究复杂疾病打开了一扇大门,使人们发现了许多前所未见基因以及染色体区域。而GWAS的研究是建立在单核苷酸多态性(Single Nucleotide Polymorphisms,SNP)的基础之上的,通过对比患病组和健康组的SNP位点,可以发现那些与疾病最为相关的致病基因。SNP是指基因组上单个核苷酸的变异,包括转化、颠换、缺失和插入。研究表明,人体许多的表型差异以及对疾病的易感性,都与SNP有着紧密的联系。然而,如此之多的SNP,并不是每个对于生物表型差异都起决定性作用的,换句话说,存在着很多冗余的SNP。如果不对这些冗余的SNP进行筛选或者剔除,会导致维数灾难,对后续的研究造成极大的麻烦。
SNP选择问题在某种程度上其实也可以看作是特征选择的子问题,然而,现有的选择方法要么没有差异性地对待对患病结果影响不同的SNP,要么没有更近一步地挖掘那些重要的SNP局部范围内的SNP之间的关联。它的高维特性以及SNP与SNP之间并非完全独立的特点,使得一般的方法在解决它时难免会遗漏掉许多内在的遗传信息。
发明内容
发明目的:针对现有技术中存在的不足,本发明的目的在于提供一种基于改进的模糊聚类算法的SNP选择方法,实现对高维的SNP数据进行降维的同时能尽可能地保留最重要的SNP,来更好地提高该数据的分类预测效果。
技术方案:为了解决上述技术问题,本发明采用的技术方案为:
一种基于改进的模糊聚类算法的SNP选择方法,包括以下步骤:
步骤1,获取SNP数据;
步骤2,对SNP数据进行预处理操作,得到预处理后的数据;
步骤3,对预处理后的数据基于假设性检验进行初步筛选;
步骤4,对初筛过的数据,分别计算每个SNP的重要程度;
步骤5,利用改进的模糊聚类算法对SNP进行聚类;
步骤6,从聚类得到的每个簇中,根据对称的不平衡性原则进一步构造SNP子集。
步骤2中,预处理包括缺失值的处理和数据重新编码。具体步骤如下:
1)对原始数据做统计分析,将缺失值较多的样本删除;
2)对删除缺失值后的数据,使用k近邻方法对少量缺失的数据进行填充;
3)由于原始的数据是基于基因型表示的,所以需要按照“0-1-2”的编码进行重新编码,分别表示AA、Aa和aa。
步骤3中,初步筛选包括最小等位基因统计和基于遗传平衡法则的卡方检验。具体步骤如下:
1)对预处理后的数据,按照遗传指标最小等位基因频率(MAF),将MAF<0.5的SNP剔除;
2)根据MAF初步剔除后,统计AA、Aa以及aa的频率,然后根据哈代-温伯格平衡法则(Hardy-Weinberg Equilibrium)和卡方检验计算出实际数据与期望上的误差;然后将卡方值低于设置好的阈值的SNP剔除;卡方检验的公式为
Figure BDA0001901340170000021
式中,R表示实际值,E表示理论值。
步骤4中,具体步骤如下:
1)根据式(2)计算数据中每个SNP对个体表现型重要程度,即贡献度
Figure BDA0001901340170000022
使用归一化后的IG来表示每个SNP的贡献度;假定样本S中的某个SNPa有V个可能取值{a1,a2,…,aV},IG的定义由公式(3)给出
Figure BDA0001901340170000031
步骤5中,具体步骤如下:
1)根据约束条件
Figure BDA0001901340170000032
生成随机数来初始化隶属度矩阵uij
2)根据式(4)来更新类中心矩阵vi
Figure BDA0001901340170000033
式中,m是模糊因子,Dj是重要的xj的领域内的SNP集合;λj是一个系数,当gj>0.5的时候为1,反之为0;
3)根据式(5)来更新隶属度矩阵uij
Figure BDA0001901340170000034
/>
4)根据式(6)计算每一次迭代的损失函数
Figure BDA0001901340170000035
通过不断地迭代,当前后两次的隶属度矩阵uij变化值小于某个阈值的时候,或者损失函数J不在改变的时候终止算法,聚类过程完成。
步骤6中,具体步骤如下:
1)通过所述的聚类完成后,得到k个SNP的簇;按照公式(7)来计算每个簇中的每个SNP之间的SU值,并对SNP按照降序排列;
Figure BDA0001901340170000036
式中,H(X)表示变量的信息熵,H(X|Y)表示两个变量的条件熵。
2)按照最大相关和最小冗余的原则,使用式(8)来从每个簇中选择合适的SNP
Figure BDA0001901340170000041
式中,ck表示的是聚类后的每个簇,等式右边的第一部分用簇中具有最大平均SU的一个特征来表示最相关的特征,第二部分用具有与该特征最小SU的特征来表示最不冗余的特征。
所述的基于改进的模糊聚类算法的SNP选择方法,在每个簇中,选择SU值最大的SNP作为第一个候选SNP,并将其添加到候选子集中,并将该SNP从所在簇中剔除;从剩下的子集中选择具有与已经选择的第一个SNP最小SU的SNP来表示最不冗余的特征,作为第二个候选SNP并向其添加到候选子集中。
针对现有的SNP选择方法要么没有差异性地对待对患病结果影响不同的SNP,要么没有更近一步地挖掘那些重要的SNP局部范围内潜在信息的情况,本申请先通过假设性检验方法初步剔除生物意义不大的SNP;然后在原模糊聚类算法的基础上引入每个SNP的贡献度以及重要SNP领域内的关联性,并对初步筛选后的数据进行聚类;最后,使用基于不平衡的确定性从聚类得到的每个簇进一步筛选,构造最终的SNP集合。该方法很好的兼顾了这两方面的因素,因此构造出来的SNP子集能够高度代表原始的数据的信息。
有益效果:与现有技术相比,本申请的基于改进的模糊聚类算法的SNP选择方法,考虑遗传定律的理论基础,先通过假设性检验方法初步剔除生物意义不大的SNP,然后在原模糊聚类算法的基础上引入每个SNP的贡献度以及重要SNP领域内的关联性,该方法对初步筛选后的数据进行聚类,最后使用不平衡的确定性对得到的每个簇进行筛选,构造最终的SNP集合。能在实现降维的同时更好的挖掘SNP内部的遗传信息,在分类预测中具有更优秀的分类效果。
附图说明
图1是本发明方法的整个SNP选择的流程图;
图2是基于对称的不平衡性进行选择实施流程图(步骤六)。
图3是实施例2中方法有效性验证的流程图
图4是实施例2中算法迭代次数比较图
图5是实施例2中算法迭代时间比较图
具体实施方式
下面结合附图对本发明的实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,但对其不起任何限定作用。
实施例1
一种基于改进的模糊聚类算法的SNP选择方法,针对SNP数据,在考虑单个SNP对分类结果的影响的同时,也兼顾了局部区域SNP之间的相互关联性,在对数据实现降维的同时,充分挖掘了SNP内部的信息。具体包括如下步骤:
步骤1,获取SNP数据集,一般原始的数据是以基因型的形式表示的,例如AT,GC,AA...CG等。
步骤2,对SNP数据进行预处理操作,得到预处理后的数据,预处理主要包括缺失值的处理和数据重新编码;具体如下:
1):首先可以对每一个SNP,统计其在基因型的表示上的缺失情况,如果缺失的比例高于设置的阈值(这里设置为20%),则将对应的SNP从数据集中删除。
2):对删除后的数据,使用K近邻方法对少量缺失的数据进行填充,例如,通过统计某一缺失位置的邻域范围内,出现最多的是“GC”,则可以将该位置填充为“GC”。
3):基于统计将原本的基因型表示转化成0-1-2的实数表示,例如某个SNP的基因型表示为:TT,TC,AA,CC,TT,AG,GG,CC,CT,AG...最终可能转换成0,0,0,0,0,0,2,1,0,1...。
步骤3,对预处理后的数据基于假设性检验进行初步筛选,主要包括最小等位基因统计和基于遗传平衡法则的卡方检验,具体过程如下:
1):对步骤1中预处理后的数据进行基因频率的统计,例如0对应Aa,则可以统计出A和a的频数,从而计算各自的频率,进一步得到每个SNP对应的MAF(MAF为A和a中的频率的最小值),然后将MAF<0.05的数据进行删除。
2):如果基因A的频率是p,a的基因频率是q,则基因型AA的频率为p2,aa的频率为q2,Aa的频率为2pq,并且满足关系p2+q2+2pq=1,这是哈代-温伯格平衡法则。通过该法则可以得到理论上的各个基因频率E,然后和从实际的数据中统计得到的各个频率值R相比,可以根据式(1)计算出两者的卡方值X2
卡方检验的公式为
Figure BDA0001901340170000061
其中,R表示实际值,E表示理论值。
假设此时设置的阈值为0.03,自由度设置为2,则通过对比卡方检验表可以得到对应的卡方临界值。卡方表的部分如表1所示,有表中可以得到p-value=0.03,df=2时卡方值为7.378,,则在数据中将卡方结果大于7.378的SNP删除。
表1卡方检验表部分展现
Figure BDA0001901340170000062
步骤4,对处理后的数据,计算每个SNP的重要程度,具体如下:
使用式(2)来计算每个SNP的贡献度,即贡献度
Figure BDA0001901340170000063
其中j是表示第j个SNP,IG(j)是该SNP的信息熵。这里使用归一化后的IG来表示每个SNP的贡献度。假定样本S中的某个SNPa有V个可能取值{a1,a2,…,aV},IG的定义可以由公式(3)给出
Figure BDA0001901340170000064
重要程度gj计算的结果是一个0到1之间的小数,数值越大表示该SNP越重要。例如结果为0.9的SNP是应该格外关注的,并且还要关注其领域内的其他SNP的关联,而结果为0.2则表示他的影响很小,甚至有可能都不需要去关注它领域内的情况。
步骤5,构造新的聚类算法,并使用该聚类方法对数据进行聚类,具体如下:
1):根据约束条件
Figure BDA0001901340170000065
生成随机数来初始化隶属度矩阵uij。假设类的个数为4时,产生的一组随机数表示隶属度矩阵u,矩阵的每列和等于1,
Figure BDA0001901340170000071
2):根据式(4)来更新类中心矩阵vi
Figure BDA0001901340170000072
其中,m是模糊因子,这里取值为2;gj为第j个SNP的重要程度;Dj是重要的SNP xj的邻域内,x是该邻域内的某个SNP。λj是一个系数,当gj>0.5的时候为1,反之为0。
v经过式(4)更新后变成:
Figure BDA0001901340170000073
/>
3):根据式(5)来计更新隶属度矩阵uij
Figure BDA0001901340170000074
式中的参数含义和所述式(4)中的参数含义一致。所述u经过式(5)更新后变成
Figure BDA0001901340170000075
4):根据式(6)来计算每轮的损失函数
Figure BDA0001901340170000076
式中的参数的含义与所述式(4)中的参数的含义一致。通过不断地迭代步骤2)至步骤4),当损失函数J不在改变的时候终止算法,聚类过程完成。此时的损失函数由初始时的6.3429588×10+7降低为2.0056647×10+7,最终的所述的隶属度矩阵u变为
Figure BDA0001901340170000081
通过比较可以发现,每个SNP的依次属于的类别为[3,0,3,..,3,0]。
步骤6,聚类完成后,得到k个SNP的簇。如图2所示,从聚类形成的簇中,根据对称的不平衡性和最大相关最小冗余原则,依次构造信息SNP子,具体如下:
1):按照式(7)来计算每个SNP两两之间的SU值。
Figure BDA0001901340170000082
式中,H(X)表示变量的信息熵,H(X|Y)表示两个变量的条件熵。
2):按照最大相关和最小冗余的原则,使用式(8)来从每个簇中选择合适的SNP
Figure BDA0001901340170000083
式中,ck表示的是聚类后的每个簇,等式右边的第一部分用簇中具有最大平均SU的一个特征来表示最相关的特征,第二部分用具有与该特征最小SU的特征来表示最不冗余的特征。
具体来说在每个簇中,首先选择一个SNP加入候选集中,要求该SNP与其它的SNP构成的SU的均值最大。例如SNP#r1与其他的SNP之间的SU的均值为6.31,#r2与其他的SNP之间的SU的均值为5.19,以此类推,假如6.31是最大值,那么就将#r1作为当前簇中的最相关的SNP,并加入候选集中,并将其从现有的簇中删除。然后在剩下的SNP中,选择一个与其他的SNP的SU值最小的,作为最小冗余的SNP加入候选集中。选择SU值最大的SNP作为第一个候选SNP,并将其添加到候选子集中,并将该SNP从所在簇中剔除。从剩下的子集中选择具有与已经选择的第一个SNP最小SU的SNP来表示最不冗余的特征,作为第二个候选SNP并向其添加到候选子集中。
在如此高维的SNP数据中,一方面,每个SNP对个体的表现形态产生影响的重要程度是不同的,有的作用很大,有的作用很小甚至没有;另一方面,每个SNP之间其实并不是互相独立,而是彼此关联的。该SNP选择方法很好的兼顾了这两方面的因素,因此构造出来的SNP子集能够高度代表原始的数据的信息。
实施例2
通过实验验证,使用该方法构造出来的SNP子集,相比于其他选择方法而言具有更好的分类效果,可应用于SNP数据的选择中。使用临床数据进行验证(选取部分数据,并将数据记作G1000),实验实施如图3所示,具体包括如下部分:
数据预处理单元2,用于对数据进行基于假设性检验的初步筛选。设置MAF的阈值为0.05,结果显示该数据集G1000的MAF值均大于0,故无须删除任何SNP;设置卡方检验的p-value的阈值为0.03,结果显示有228条SNP不满足该条件,进行删除操作。
聚类算法有效性评估验证单元3,用于对本发明提出的聚类方法进行评估,具体如下:
1):算法迭代次数比较。将本发明提出的聚类方法分别与FCM、DW-FCM进行比较,结果显示本发明提出的方法在不同的聚类个数时,均只需要更少的迭代次数就可以达到收敛,具体效果比较如图4所示。说明本发明提出的聚类算法具有更好的收敛性。
2):算法迭代时间比较。将本发明提出的聚类方法分别与FCM、DW-FCM进行比较,结果显示在不同的聚类个数时,本发明提出的方法在多数情况下的迭代时间都达到最少,具体效果比较如图5所示。说明本发明提出的聚类算法具有更小的时间开销。
3):算法的聚类效果比较。将本发明提出的聚类方法分别与FCM、DW-FCM进行比较,并使用簇内紧致度和簇间离散度的比值(Com/Spt)衡量。结果显示在5种不同的聚类个数的情况下,本发明提出的算法有4次指标达到最大。具体效果如表2所示(最大值重点标出)。
表2
Figure BDA0001901340170000091
Figure BDA0001901340170000101
子集评价单元4,用于对构造的SNP子集进行分类实验评估,验证SNP子集的有效性。这里使用了支持向量机(SVM)、决策树(DT)和朴素贝叶斯(NB)作为分类器,并使用分类的准确率(Acc)和F1作为评价指标。选择的对比方法包括基于聚类的算法DW-FCM以及非聚类的算法ReliefF和MRMR。结果显示本发明提出的算法构造的SNP子集在不同的分类器上都具有很好的表现,具体效果比较如表3所示。说明了该方法在SNP选择上的适用性和有效性。
表3 SNP子集分类实验评估
Figure BDA0001901340170000102
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围。

Claims (8)

1.一种基于改进的模糊聚类算法的SNP选择方法,其特征在于,包括以下步骤:
步骤1,获取SNP数据;
步骤2,对SNP数据进行预处理操作,得到预处理后的数据;
步骤3,对预处理后的数据基于假设性检验进行初步筛选;
步骤4,对初筛过的数据,分别计算每个SNP的重要程度;
步骤5,利用改进的模糊聚类算法对SNP进行聚类;
步骤6,从聚类得到的每个簇中,根据对称的不平衡性原则进一步构造SNP子集;
步骤5中,具体步骤如下:
1)根据约束条件
Figure QLYQS_1
生成随机数来初始化隶属度矩阵uij
2)根据式(4)来更新类中心矩阵vi
Figure QLYQS_2
式中,m是模糊因子,Dj是重要的xj的领域内的SNP集合;λj是一个系数,当gj>0.5的时候为1,反之为0;
3)根据式(5)来更新隶属度矩阵uij
Figure QLYQS_3
4)根据式(6)计算每一次迭代的损失函数
Figure QLYQS_4
通过不断地迭代,当前后两次的隶属度矩阵uij变化值小于某个阈值的时候,或者损失函数J不在改变的时候终止算法,聚类过程完成。
2.根据权利要求1所述的基于改进的模糊聚类算法的SNP选择方法,其特征在于,步骤2中,预处理包括缺失值的处理和数据重新编码。
3.根据权利要求1或2所述的基于改进的模糊聚类算法的SNP选择方法,其特征在于,步骤2中,具体步骤如下:
1)对原始数据做统计分析,将缺失值较多的样本删除;
2)对删除缺失值后的数据,使用k近邻方法对少量缺失的数据进行填充;
3)由于原始的数据是基于基因型表示的,所以需要按照“0-1-2”的编码进行重新编码,分别表示AA、Aa和aa。
4.根据权利要求1所述的基于改进的模糊聚类算法的SNP选择方法,其特征在于,步骤3中,初步筛选包括最小等位基因统计和基于遗传平衡法则的卡方检验。
5.根据权利要求1或4所述的基于改进的模糊聚类算法的SNP选择方法,其特征在于,步骤3中,具体步骤如下:
1)对预处理后的数据,按照遗传指标最小等位基因频率MAF,将MAF<0.5的SNP剔除;
2)根据MAF初步剔除后,统计AA、Aa以及aa的频率,然后根据哈代-温伯格平衡法则和卡方检验计算出实际数据与期望上的误差;然后将卡方值低于设置好的阈值的SNP剔除;卡方检验的公式如式(1)所示
Figure QLYQS_5
式中,R表示实际值,E表示理论值。
6.根据权利要求1所述的一种基于改进的模糊聚类算法的SNP选择方法,其特征在于,步骤4中,具体步骤如下:
1)根据式(2)计算数据中每个SNP对个体表现型重要程度,即贡献度
Figure QLYQS_6
使用归一化后的IG来表示每个SNP的贡献度;假定样本S中的某个SNP有V个取值{a1,a2,···,aV},IG的定义由公式(3)给出
Figure QLYQS_7
7.根据权利要求1所述的基于改进的模糊聚类算法的SNP选择方法,其特征在于,步骤6中,具体步骤如下:
1)通过所述的聚类完成后,得到k个SNP的簇;按照公式(7)来计算每个簇中的每个SNP之间的SU值,并对SNP按照降序排列;
Figure QLYQS_8
式中,H(X)表示变量的信息熵,H(X|Y)表示两个变量的条件熵;
2)按照最大相关和最小冗余的原则,使用式(8)从每个簇中选择SNP,
Figure QLYQS_9
式中,ck表示的是聚类后的每个簇,等式右边的第一部分用簇中具有最大平均SU的一个特征来表示最相关的特征,第二部分用具有与该特征最小SU的特征来表示最不冗余的特征。
8.根据权利要求1或6所述的基于改进的模糊聚类算法的SNP选择方法,其特征在于,在每个簇中,选择SU值最大的SNP作为第一个候选SNP,并将其添加到候选子集中,并将该SNP从所在簇中剔除;从剩下的子集中选择具有与已经选择的第一个SNP最小SU的SNP来表示最不冗余的特征,作为第二个候选SNP并向其添加到候选子集中。
CN201811515699.XA 2018-12-11 2018-12-11 一种基于改进的模糊聚类算法的snp选择方法 Active CN109801681B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811515699.XA CN109801681B (zh) 2018-12-11 2018-12-11 一种基于改进的模糊聚类算法的snp选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811515699.XA CN109801681B (zh) 2018-12-11 2018-12-11 一种基于改进的模糊聚类算法的snp选择方法

Publications (2)

Publication Number Publication Date
CN109801681A CN109801681A (zh) 2019-05-24
CN109801681B true CN109801681B (zh) 2023-03-31

Family

ID=66556634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811515699.XA Active CN109801681B (zh) 2018-12-11 2018-12-11 一种基于改进的模糊聚类算法的snp选择方法

Country Status (1)

Country Link
CN (1) CN109801681B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270957B (zh) * 2020-10-19 2023-11-07 西安邮电大学 高阶snp致病组合数据检测方法、系统、计算机设备
CN113724785B (zh) * 2021-11-01 2022-02-08 臻和(北京)生物科技有限公司 基于二代测序的肿瘤分型方法、装置、存储介质及设备
CN114186643A (zh) * 2021-12-17 2022-03-15 沈阳工程学院 一种具有可解释性的风电机组关键组件故障定位方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991296B (zh) * 2017-04-01 2019-12-27 大连理工大学 基于随机化贪心特征选择的集成分类方法
CN107992945B (zh) * 2017-12-14 2020-03-24 浙江工业大学 基于深度学习和进化计算的特征基因选择方法
CN108564136B (zh) * 2018-05-02 2019-05-03 北京航空航天大学 一种基于模糊推理的空域运行态势评估分类方法

Also Published As

Publication number Publication date
CN109801681A (zh) 2019-05-24

Similar Documents

Publication Publication Date Title
CN111798921B (zh) 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
US20190316209A1 (en) Multi-Assay Prediction Model for Cancer Detection
CN109801681B (zh) 一种基于改进的模糊聚类算法的snp选择方法
CN113555062B (zh) 一种用于基因组碱基变异检测的数据分析系统及分析方法
CN114093515A (zh) 一种基于肠道菌群预测模型集成学习的年龄预测方法
CN113488104A (zh) 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统
Gao et al. A novel effective diagnosis model based on optimized least squares support machine for gene microarray
Binder et al. Cluster-localized sparse logistic regression for SNP data
CN116959585B (zh) 基于深度学习的全基因组预测方法
CN112735594B (zh) 一种筛选疾病表型相关突变位点的方法及其应用
KR20210110241A (ko) 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법
Yoo et al. Discovery of gene-regulation pathways using local causal search.
CN115691666A (zh) 基于sigma预测突变致病性分析方法、系统及设备
CN114566215B (zh) 一种双端成对的剪接位点预测方法
Shahweli et al. In Silico Molecular Classification of Breast and Prostate Cancers using Back Propagation Neural Network
Claesen et al. A hidden Markov-model for gene mapping based on whole-genome next generation sequencing data
CN115565610A (zh) 基于多组学数据的复发转移分析模型建立方法及系统
CN111755074B (zh) 一种酿酒酵母菌中dna复制起点的预测方法
KR102376212B1 (ko) 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법
CN111951889A (zh) 一种rna序列中m5c位点的识别预测方法及系统
Al-Rashid Studying the effect of Mouse models for Gene Expression using Coregionalization Models in Gaussian process
CN116680594B (zh) 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法
CN117594243B (zh) 基于跨模态视图关联发现网络的卵巢癌预后预测方法
CN115995262B (zh) 基于随机森林及lasso回归解析玉米遗传机理的方法
Kumar et al. Meta-heuristic search based gene selection and classification of microarray data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant