CN109801681A - 一种基于改进的模糊聚类算法的snp选择方法 - Google Patents
一种基于改进的模糊聚类算法的snp选择方法 Download PDFInfo
- Publication number
- CN109801681A CN109801681A CN201811515699.XA CN201811515699A CN109801681A CN 109801681 A CN109801681 A CN 109801681A CN 201811515699 A CN201811515699 A CN 201811515699A CN 109801681 A CN109801681 A CN 109801681A
- Authority
- CN
- China
- Prior art keywords
- snp
- data
- cluster
- formula
- clustering algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于改进的模糊聚类算法的SNP选择方法,包括:获取SNP数据集;对获取到的SNP数据进行预处理,包括数据的清洗和重新编码;对预处理后的数据基于假设性检验进行初步筛选;对初筛过的数据,分别计算每个SNP的重要程度;利用改进的模糊聚类算法对SNP进行聚类;从聚类得到的每个簇中根据对称的不平衡性原则进一步筛选,构造SNP子集。本发明针对SNP数据,在考虑单个SNP对分类结果的影响的同时,也兼顾了局部区域SNP之间的相互关联性,在对数据实现降维的同时,充分挖掘了SNP内部的信息。使用该方法构造出来的SNP子集,相比于其他选择方法而言具有更好的分类效果,可应用于SNP数据的选择中。
Description
技术领域
本发明涉及数据挖掘领域,尤其涉及信息SNP的子集构造和一种基于改进的模糊聚类算法的SNP选择方法。
背景技术
遗传疾病是由于遗传物质的改变所导致的疾病,这种类型的疾病病种多、发病率高,目前已发现的遗传疾病已经高达3000多种,对社会造成了很大的影响。近几年来,随着DNA微阵列技术取得的巨大进步,使得人们可以获得数以万计的基因表达谱,从而可以从基因层面去深入了解疾病,为疾病的发病机理的研究提供了强有力的支持。随着人类全基因组研究(Genome-Wide Association Study,GWAS)的日益推进,使得像精神分裂症、类风湿关节疾病等疾病的研究取得了良好的进展。GWAS是一种检测特定物种中不同个体间的全部或大部分基因,从而了解不同个体间的基因变化有多大的一种方法。GWAS的开展为人类研究复杂疾病打开了一扇大门,使人们发现了许多前所未见基因以及染色体区域。而GWAS的研究是建立在单核苷酸多态性(Single Nucleotide Polymorphisms,SNP)的基础之上的,通过对比患病组和健康组的SNP位点,可以发现那些与疾病最为相关的致病基因。SNP是指基因组上单个核苷酸的变异,包括转化、颠换、缺失和插入。研究表明,人体许多的表型差异以及对疾病的易感性,都与SNP有着紧密的联系。然而,如此之多的SNP,并不是每个对于生物表型差异都起决定性作用的,换句话说,存在着很多冗余的SNP。如果不对这些冗余的SNP进行筛选或者剔除,会导致维数灾难,对后续的研究造成极大的麻烦。
SNP选择问题在某种程度上其实也可以看作是特征选择的子问题,然而,现有的选择方法要么没有差异性地对待对患病结果影响不同的SNP,要么没有更近一步地挖掘那些重要的SNP局部范围内的SNP之间的关联。它的高维特性以及SNP与SNP之间并非完全独立的特点,使得一般的方法在解决它时难免会遗漏掉许多内在的遗传信息。
发明内容
发明目的:针对现有技术中存在的不足,本发明的目的在于提供一种基于改进的模糊聚类算法的SNP选择方法,实现对高维的SNP数据进行降维的同时能尽可能地保留最重要的SNP,来更好地提高该数据的分类预测效果。
技术方案:为了解决上述技术问题,本发明采用的技术方案为:
一种基于改进的模糊聚类算法的SNP选择方法,包括以下步骤:
步骤1,获取SNP数据;
步骤2,对SNP数据进行预处理操作,得到预处理后的数据;
步骤3,对预处理后的数据基于假设性检验进行初步筛选;
步骤4,对初筛过的数据,分别计算每个SNP的重要程度;
步骤5,利用改进的模糊聚类算法对SNP进行聚类;
步骤6,从聚类得到的每个簇中,根据对称的不平衡性原则进一步构造SNP子集。
步骤2中,预处理包括缺失值的处理和数据重新编码。具体步骤如下:
1)对原始数据做统计分析,将缺失值较多的样本删除;
2)对删除缺失值后的数据,使用k近邻方法对少量缺失的数据进行填充;
3)由于原始的数据是基于基因型表示的,所以需要按照“0-1-2”的编码进行重新编码,分别表示AA、Aa和aa。
步骤3中,初步筛选包括最小等位基因统计和基于遗传平衡法则的卡方检验。具体步骤如下:
1)对预处理后的数据,按照遗传指标最小等位基因频率(MAF),将MAF<0.5的SNP剔除;
2)根据MAF初步剔除后,统计AA、Aa以及aa的频率,然后根据哈代-温伯格平衡法则(Hardy-Weinberg Equilibrium)和卡方检验计算出实际数据与期望上的误差;然后将卡方值低于设置好的阈值的SNP剔除;卡方检验的公式为
式中,R表示实际值,E表示理论值。
步骤4中,具体步骤如下:
1)根据式(2)计算数据中每个SNP对个体表现型重要程度,即贡献度
使用归一化后的IG来表示每个SNP的贡献度;假定样本S中的某个SNPa有V个可能取值{a1,a2,…,aV},IG的定义由公式(3)给出
步骤5中,具体步骤如下:
1)根据约束条件生成随机数来初始化隶属度矩阵uij;
2)根据式(4)来更新类中心矩阵vi
式中,m是模糊因子,Dj是重要的xj的领域内的SNP集合;λj是一个系数,当gj>0.5的时候为1,反之为0;
3)根据式(5)来更新隶属度矩阵uij
4)根据式(6)计算每一次迭代的损失函数
通过不断地迭代,当前后两次的隶属度矩阵uij变化值小于某个阈值的时候,或者损失函数J不在改变的时候终止算法,聚类过程完成。
步骤6中,具体步骤如下:
1)通过所述的聚类完成后,得到k个SNP的簇;按照公式(7)来计算每个簇中的每个SNP之间的SU值,并对SNP按照降序排列;
式中,H(X)表示变量的信息熵,H(X|Y)表示两个变量的条件熵。
2)按照最大相关和最小冗余的原则,使用式(8)来从每个簇中选择合适的SNP
式中,ck表示的是聚类后的每个簇,等式右边的第一部分用簇中具有最大平均SU的一个特征来表示最相关的特征,第二部分用具有与该特征最小SU的特征来表示最不冗余的特征。
所述的基于改进的模糊聚类算法的SNP选择方法,在每个簇中,选择SU值最大的SNP作为第一个候选SNP,并将其添加到候选子集中,并将该SNP从所在簇中剔除;从剩下的子集中选择具有与已经选择的第一个SNP最小SU的SNP来表示最不冗余的特征,作为第二个候选SNP并向其添加到候选子集中。
针对现有的SNP选择方法要么没有差异性地对待对患病结果影响不同的SNP,要么没有更近一步地挖掘那些重要的SNP局部范围内潜在信息的情况,本申请先通过假设性检验方法初步剔除生物意义不大的SNP;然后在原模糊聚类算法的基础上引入每个SNP的贡献度以及重要SNP领域内的关联性,并对初步筛选后的数据进行聚类;最后,使用基于不平衡的确定性从聚类得到的每个簇进一步筛选,构造最终的SNP集合。该方法很好的兼顾了这两方面的因素,因此构造出来的SNP子集能够高度代表原始的数据的信息。
有益效果:与现有技术相比,本申请的基于改进的模糊聚类算法的SNP选择方法,考虑遗传定律的理论基础,先通过假设性检验方法初步剔除生物意义不大的SNP,然后在原模糊聚类算法的基础上引入每个SNP的贡献度以及重要SNP领域内的关联性,该方法对初步筛选后的数据进行聚类,最后使用不平衡的确定性对得到的每个簇进行筛选,构造最终的SNP集合。能在实现降维的同时更好的挖掘SNP内部的遗传信息,在分类预测中具有更优秀的分类效果。
附图说明
图1是本发明方法的整个SNP选择的流程图;
图2是基于对称的不平衡性进行选择实施流程图(步骤六)。
图3是实施例2中方法有效性验证的流程图
图4是实施例2中算法迭代次数比较图
图5是实施例2中算法迭代时间比较图
具体实施方式
下面结合附图对本发明的实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,但对其不起任何限定作用。
实施例1
一种基于改进的模糊聚类算法的SNP选择方法,针对SNP数据,在考虑单个SNP对分类结果的影响的同时,也兼顾了局部区域SNP之间的相互关联性,在对数据实现降维的同时,充分挖掘了SNP内部的信息。具体包括如下步骤:
步骤1,获取SNP数据集,一般原始的数据是以基因型的形式表示的,例如AT,GC,AA...CG等。
步骤2,对SNP数据进行预处理操作,得到预处理后的数据,预处理主要包括缺失值的处理和数据重新编码;具体如下:
1):首先可以对每一个SNP,统计其在基因型的表示上的缺失情况,如果缺失的比例高于设置的阈值(这里设置为20%),则将对应的SNP从数据集中删除。
2):对删除后的数据,使用K近邻方法对少量缺失的数据进行填充,例如,通过统计某一缺失位置的邻域范围内,出现最多的是“GC”,则可以将该位置填充为“GC”。
3):基于统计将原本的基因型表示转化成0-1-2的实数表示,例如某个SNP的基因型表示为:TT,TC,AA,CC,TT,AG,GG,CC,CT,AG...最终可能转换成0,0,0,0,0,0,2,1,0,1...。
步骤3,对预处理后的数据基于假设性检验进行初步筛选,主要包括最小等位基因统计和基于遗传平衡法则的卡方检验,具体过程如下:
1):对步骤1中预处理后的数据进行基因频率的统计,例如0对应Aa,则可以统计出A和a的频数,从而计算各自的频率,进一步得到每个SNP对应的MAF(MAF为A和a中的频率的最小值),然后将MAF<0.05的数据进行删除。
2):如果基因A的频率是p,a的基因频率是q,则基因型AA的频率为p2,aa的频率为q2,Aa的频率为2pq,并且满足关系p2+q2+2pq=1,这是哈代-温伯格平衡法则。通过该法则可以得到理论上的各个基因频率E,然后和从实际的数据中统计得到的各个频率值R相比,可以根据式(1)计算出两者的卡方值X2。
卡方检验的公式为
其中,R表示实际值,E表示理论值。
假设此时设置的阈值为0.03,自由度设置为2,则通过对比卡方检验表可以得到对应的卡方临界值。卡方表的部分如表1所示,有表中可以得到p-value=0.03,df=2时卡方值为7.378,,则在数据中将卡方结果大于7.378的SNP删除。
表1卡方检验表部分展现
步骤4,对处理后的数据,计算每个SNP的重要程度,具体如下:
使用式(2)来计算每个SNP的贡献度,即贡献度
其中j是表示第j个SNP,IG(j)是该SNP的信息熵。这里使用归一化后的IG来表示每个SNP的贡献度。假定样本S中的某个SNPa有V个可能取值{a1,a2,…,aV},IG的定义可以由公式(3)给出
重要程度gj计算的结果是一个0到1之间的小数,数值越大表示该SNP越重要。例如结果为0.9的SNP是应该格外关注的,并且还要关注其领域内的其他SNP的关联,而结果为0.2则表示他的影响很小,甚至有可能都不需要去关注它领域内的情况。
步骤5,构造新的聚类算法,并使用该聚类方法对数据进行聚类,具体如下:
1):根据约束条件生成随机数来初始化隶属度矩阵uij。假设类的个数为4时,产生的一组随机数表示隶属度矩阵u,矩阵的每列和等于1,
2):根据式(4)来更新类中心矩阵vi。
其中,m是模糊因子,这里取值为2;gj为第j个SNP的重要程度;Dj是重要的SNP xj的邻域内,x是该邻域内的某个SNP。λj是一个系数,当gj>0.5的时候为1,反之为0。
v经过式(4)更新后变成:
3):根据式(5)来计更新隶属度矩阵uij,
式中的参数含义和所述式(4)中的参数含义一致。所述u经过式(5)更新后变成
4):根据式(6)来计算每轮的损失函数
式中的参数的含义与所述式(4)中的参数的含义一致。通过不断地迭代步骤2)至步骤4),当损失函数J不在改变的时候终止算法,聚类过程完成。此时的损失函数由初始时的6.3429588×10+7降低为2.0056647×10+7,最终的所述的隶属度矩阵u变为
通过比较可以发现,每个SNP的依次属于的类别为[3,0,3,..,3,0]。
步骤6,聚类完成后,得到k个SNP的簇。如图2所示,从聚类形成的簇中,根据对称的不平衡性和最大相关最小冗余原则,依次构造信息SNP子,具体如下:
1):按照式(7)来计算每个SNP两两之间的SU值。
式中,H(X)表示变量的信息熵,H(X|Y)表示两个变量的条件熵。
2):按照最大相关和最小冗余的原则,使用式(8)来从每个簇中选择合适的SNP
式中,ck表示的是聚类后的每个簇,等式右边的第一部分用簇中具有最大平均SU的一个特征来表示最相关的特征,第二部分用具有与该特征最小SU的特征来表示最不冗余的特征。
具体来说在每个簇中,首先选择一个SNP加入候选集中,要求该SNP与其它的SNP构成的SU的均值最大。例如SNP#r1与其他的SNP之间的SU的均值为6.31,#r2与其他的SNP之间的SU的均值为5.19,以此类推,假如6.31是最大值,那么就将#r1作为当前簇中的最相关的SNP,并加入候选集中,并将其从现有的簇中删除。然后在剩下的SNP中,选择一个与其他的SNP的SU值最小的,作为最小冗余的SNP加入候选集中。选择SU值最大的SNP作为第一个候选SNP,并将其添加到候选子集中,并将该SNP从所在簇中剔除。从剩下的子集中选择具有与已经选择的第一个SNP最小SU的SNP来表示最不冗余的特征,作为第二个候选SNP并向其添加到候选子集中。
在如此高维的SNP数据中,一方面,每个SNP对个体的表现形态产生影响的重要程度是不同的,有的作用很大,有的作用很小甚至没有;另一方面,每个SNP之间其实并不是互相独立,而是彼此关联的。该SNP选择方法很好的兼顾了这两方面的因素,因此构造出来的SNP子集能够高度代表原始的数据的信息。
实施例2
通过实验验证,使用该方法构造出来的SNP子集,相比于其他选择方法而言具有更好的分类效果,可应用于SNP数据的选择中。使用临床数据进行验证(选取部分数据,并将数据记作G1000),实验实施如图3所示,具体包括如下部分:
数据预处理单元2,用于对数据进行基于假设性检验的初步筛选。设置MAF的阈值为0.05,结果显示该数据集G1000的MAF值均大于0,故无须删除任何SNP;设置卡方检验的p-value的阈值为0.03,结果显示有228条SNP不满足该条件,进行删除操作。
聚类算法有效性评估验证单元3,用于对本发明提出的聚类方法进行评估,具体如下:
1):算法迭代次数比较。将本发明提出的聚类方法分别与FCM、DW-FCM进行比较,结果显示本发明提出的方法在不同的聚类个数时,均只需要更少的迭代次数就可以达到收敛,具体效果比较如图4所示。说明本发明提出的聚类算法具有更好的收敛性。
2):算法迭代时间比较。将本发明提出的聚类方法分别与FCM、DW-FCM进行比较,结果显示在不同的聚类个数时,本发明提出的方法在多数情况下的迭代时间都达到最少,具体效果比较如图5所示。说明本发明提出的聚类算法具有更小的时间开销。
3):算法的聚类效果比较。将本发明提出的聚类方法分别与FCM、DW-FCM进行比较,并使用簇内紧致度和簇间离散度的比值(Com/Spt)衡量。结果显示在5种不同的聚类个数的情况下,本发明提出的算法有4次指标达到最大。具体效果如表2所示(最大值重点标出)。
表2
子集评价单元4,用于对构造的SNP子集进行分类实验评估,验证SNP子集的有效性。这里使用了支持向量机(SVM)、决策树(DT)和朴素贝叶斯(NB)作为分类器,并使用分类的准确率(Acc)和F1作为评价指标。选择的对比方法包括基于聚类的算法DW-FCM以及非聚类的算法ReliefF和MRMR。结果显示本发明提出的算法构造的SNP子集在不同的分类器上都具有很好的表现,具体效果比较如表3所示。说明了该方法在SNP选择上的适用性和有效性。
表3 SNP子集分类实验评估
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围。
Claims (9)
1.一种基于改进的模糊聚类算法的SNP选择方法,其特征在于,包括以下步骤:
步骤1,获取SNP数据;
步骤2,对SNP数据进行预处理操作,得到预处理后的数据;
步骤3,对预处理后的数据基于假设性检验进行初步筛选;
步骤4,对初筛过的数据,分别计算每个SNP的重要程度;
步骤5,利用改进的模糊聚类算法对SNP进行聚类;
步骤6,从聚类得到的每个簇中,根据对称的不平衡性原则进一步构造SNP子集。
2.根据权利要求1所述的基于改进的模糊聚类算法的SNP选择方法,其特征在于,步骤2中,预处理包括缺失值的处理和数据重新编码。
3.根据权利要求1或2所述的基于改进的模糊聚类算法的SNP选择方法,其特征在于,步骤2中,具体步骤如下:
1)对原始数据做统计分析,将缺失值较多的样本删除;
2)对删除缺失值后的数据,使用k近邻方法对少量缺失的数据进行填充;
3)由于原始的数据是基于基因型表示的,所以需要按照“0-1-2”的编码进行重新编码,分别表示AA、Aa和aa。
4.根据权利要求1所述的基于改进的模糊聚类算法的SNP选择方法,其特征在于,步骤3中,初步筛选包括最小等位基因统计和基于遗传平衡法则的卡方检验。
5.根据权利要求1或4所述的基于改进的模糊聚类算法的SNP选择方法,其特征在于,步骤3中,具体步骤如下:
1)对预处理后的数据,按照遗传指标最小等位基因频率MAF,将MAF<0.5的SNP剔除;
2)根据MAF初步剔除后,统计AA、Aa以及aa的频率,然后根据哈代-温伯格平衡法则和卡方检验计算出实际数据与期望上的误差;然后将卡方值低于设置好的阈值的SNP剔除;卡方检验的公式如式(1)所示
式中,R表示实际值,E表示理论值。
6.根据权利要求1所述的一种基于改进的模糊聚类算法的SNP选择方法,其特征在于,步骤4中,具体步骤如下:
1)根据式(2)计算数据中每个SNP对个体表现型重要程度,即贡献度
使用归一化后的IG来表示每个SNP的贡献度;假定样本S中的某个SNPa有V个可能取值{a1,a2,…,aV},IG的定义由公式(3)给出
7.根据权利要求1所述的基于改进的模糊聚类算法的SNP选择方法,其特征在于,步骤5中,具体步骤如下:
1)根据约束条件生成随机数来初始化隶属度矩阵uij;
2)根据式(4)来更新类中心矩阵vi
式中,m是模糊因子,Dj是重要的xj的领域内的SNP集合;λj是一个系数,当gj>0.5的时候为1,反之为0;
3)根据式(5)来更新隶属度矩阵uij
4)根据式(6)计算每一次迭代的损失函数
通过不断地迭代,当前后两次的隶属度矩阵uij变化值小于某个阈值的时候,或者损失函数J不在改变的时候终止算法,聚类过程完成。
8.根据权利要求1所述的基于改进的模糊聚类算法的SNP选择方法,其特征在于,步骤6中,具体步骤如下:
1)通过所述的聚类完成后,得到k个SNP的簇;按照公式(7)来计算每个簇中的每个SNP之间的SU值,并对SNP按照降序排列;
式中,H(X)表示变量的信息熵,H(X|Y)表示两个变量的条件熵;
2)按照最大相关和最小冗余的原则,使用式(8)来从每个簇中选择合适的SNP,
式中,ck表示的是聚类后的每个簇,等式右边的第一部分用簇中具有最大平均SU的一个特征来表示最相关的特征,第二部分用具有与该特征最小SU的特征来表示最不冗余的特征。
9.根据权利要求1或6所述的基于改进的模糊聚类算法的SNP选择方法,其特征在于,在每个簇中,选择SU值最大的SNP作为第一个候选SNP,并将其添加到候选子集中,并将该SNP从所在簇中剔除;从剩下的子集中选择具有与已经选择的第一个SNP最小SU的SNP来表示最不冗余的特征,作为第二个候选SNP并向其添加到候选子集中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811515699.XA CN109801681B (zh) | 2018-12-11 | 2018-12-11 | 一种基于改进的模糊聚类算法的snp选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811515699.XA CN109801681B (zh) | 2018-12-11 | 2018-12-11 | 一种基于改进的模糊聚类算法的snp选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109801681A true CN109801681A (zh) | 2019-05-24 |
CN109801681B CN109801681B (zh) | 2023-03-31 |
Family
ID=66556634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811515699.XA Active CN109801681B (zh) | 2018-12-11 | 2018-12-11 | 一种基于改进的模糊聚类算法的snp选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109801681B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270957A (zh) * | 2020-10-19 | 2021-01-26 | 西安邮电大学 | 高阶snp致病组合数据检测方法、系统、计算机设备 |
CN113724785A (zh) * | 2021-11-01 | 2021-11-30 | 臻和(北京)生物科技有限公司 | 基于二代测序的肿瘤分型方法、装置、存储介质及设备 |
CN114186643A (zh) * | 2021-12-17 | 2022-03-15 | 沈阳工程学院 | 一种具有可解释性的风电机组关键组件故障定位方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106991296A (zh) * | 2017-04-01 | 2017-07-28 | 大连理工大学 | 基于随机化贪心特征选择的集成分类方法 |
CN107992945A (zh) * | 2017-12-14 | 2018-05-04 | 浙江工业大学 | 基于深度学习和进化计算的特征基因选择方法 |
CN108564136A (zh) * | 2018-05-02 | 2018-09-21 | 北京航空航天大学 | 一种基于模糊推理的空域运行态势评估分类方法 |
-
2018
- 2018-12-11 CN CN201811515699.XA patent/CN109801681B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106991296A (zh) * | 2017-04-01 | 2017-07-28 | 大连理工大学 | 基于随机化贪心特征选择的集成分类方法 |
CN107992945A (zh) * | 2017-12-14 | 2018-05-04 | 浙江工业大学 | 基于深度学习和进化计算的特征基因选择方法 |
CN108564136A (zh) * | 2018-05-02 | 2018-09-21 | 北京航空航天大学 | 一种基于模糊推理的空域运行态势评估分类方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270957A (zh) * | 2020-10-19 | 2021-01-26 | 西安邮电大学 | 高阶snp致病组合数据检测方法、系统、计算机设备 |
CN112270957B (zh) * | 2020-10-19 | 2023-11-07 | 西安邮电大学 | 高阶snp致病组合数据检测方法、系统、计算机设备 |
CN113724785A (zh) * | 2021-11-01 | 2021-11-30 | 臻和(北京)生物科技有限公司 | 基于二代测序的肿瘤分型方法、装置、存储介质及设备 |
CN113724785B (zh) * | 2021-11-01 | 2022-02-08 | 臻和(北京)生物科技有限公司 | 基于二代测序的肿瘤分型方法、装置、存储介质及设备 |
CN114186643A (zh) * | 2021-12-17 | 2022-03-15 | 沈阳工程学院 | 一种具有可解释性的风电机组关键组件故障定位方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109801681B (zh) | 2023-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ronen et al. | Learning natural selection from the site frequency spectrum | |
Sousa et al. | Identifying loci under selection against gene flow in isolation-with-migration models | |
Baladandayuthapani et al. | Bayesian random segmentation models to identify shared copy number aberrations for array CGH data | |
CN109801681A (zh) | 一种基于改进的模糊聚类算法的snp选择方法 | |
CN104462868A (zh) | 一种结合随机森林和Relief-F的全基因组SNP位点分析方法 | |
Kang et al. | Practical issues in building risk-predicting models for complex diseases | |
Binder et al. | Cluster-localized sparse logistic regression for SNP data | |
KR102085169B1 (ko) | 개인 유전체 맵 기반 맞춤의학 분석 시스템 및 이를 이용한 분석 방법 | |
Hettiarachchi et al. | GWAS to identify SNPs associated with common diseases and individual risk: Genome Wide Association Studies (GWAS) to identify SNPs associated with common diseases and individual risk | |
CN112735594B (zh) | 一种筛选疾病表型相关突变位点的方法及其应用 | |
Guo et al. | Genome-wide interaction-based association of human diseases-a survey | |
Yang et al. | Catfish Taguchi-based binary differential evolution algorithm for analyzing single nucleotide polymorphism interactions in chronic dialysis | |
Thornton-Wells et al. | Dissecting trait heterogeneity: a comparison of three clustering methods applied to genotypic data | |
Mishra et al. | Comparative genomic analysis of monosporidial and monoteliosporic cultures for unraveling the complexity of molecular pathogenesis of Tilletia indica pathogen of wheat | |
US20050250098A1 (en) | Method for gene mapping from genotype and phenotype data | |
US20040219567A1 (en) | Methods for global pattern discovery of genetic association in mapping genetic traits | |
Lewis Schmalohr et al. | Detection of epistatic interactions with Random Forest | |
Pattee et al. | Evaluation and characterization of expression quantitative trait analysis methods in the Hybrid Rat Diversity Panel | |
Zhao et al. | An overview of the haplotype problems and algorithms | |
van Hilten et al. | Detecting genetic interactions with visible neural networks | |
Patel et al. | Cross-validation and cross-study validation of chronic lymphocytic leukemia with exome sequences and machine learning | |
Motsinger et al. | Linkage disequilibrium in genetic association studies improves the performance of grammatical evolution neural networks | |
Nickchi et al. | An exploration of linkage fine‐mapping on sequences from case‐control studies | |
Mutalib et al. | Weighted frequent itemset of SNPs in genome wide studies | |
Alizadeh et al. | Genomic Ancestry Inference of Admixed Population by Identifying Approximate Boundaries of Ancestry Change |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |