CN104598774A - 基于logistic与相关信息熵的特征基因选择方法 - Google Patents

基于logistic与相关信息熵的特征基因选择方法 Download PDF

Info

Publication number
CN104598774A
CN104598774A CN201510057261.1A CN201510057261A CN104598774A CN 104598774 A CN104598774 A CN 104598774A CN 201510057261 A CN201510057261 A CN 201510057261A CN 104598774 A CN104598774 A CN 104598774A
Authority
CN
China
Prior art keywords
gene
information entropy
logistic
feature
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510057261.1A
Other languages
English (en)
Inventor
徐久成
李涛
孙林
孟慧丽
马媛媛
张倩倩
徐天贺
胡玉文
李晓艳
冯森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Normal University
Original Assignee
Henan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Normal University filed Critical Henan Normal University
Priority to CN201510057261.1A priority Critical patent/CN104598774A/zh
Publication of CN104598774A publication Critical patent/CN104598774A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种基于logistic与相关信息熵新的特征基因选择方法,包括以下步骤:对数据集进行logistic回归,获得对分类影响较大的基因变量,利用Relief算法对基因变量赋值并排序,向初始特征基因集合添加最大特征值基因,计算相关信息熵。本发明将机器学习中的logistic回归模型引入特征基因选择方法中,获得高质量的基因表达谱;利用相关信息熵度量基因变量之间的相关性,剔除冗余基因,通过搜索特征基因空间集获取分类能力较强且基因数目较少的特征基因子集。

Description

基于logistic与相关信息熵的特征基因选择方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于logistic与相关信息熵的特征基因选择方法。
背景技术
随着大规模基因表达谱技术的发展,基因表达数据的分析与建模已经成为生物信息学研究领域中的重要课题。基因表达数据具有高维小样本的特点,对学习分类造成严重的影响,因此需采用某种优化算法从基因表达谱数据的所有属性中选择出一个最具有疾病识别能力的特征基因子集,选择出的基因子集在癌症识别过程中起着重要的作用。由于“高维小样本”的特点,常用的数据挖掘中的很多分类器对训练数据样本有较高的分类正确率,但是它们对未见过的测试数据表现的诊断正确率有可能很差。有些基因在功能上具有相似性,还有些基因对区分疾病类型无关或者所起的作用微乎其微,因此在数据分析中其特征的选择方法往往比分类器的选择更重要。如果某基因在不同类别样本中的表达值有明显区别,那么该基因就很可能对疾病的诊断预测,很强的鉴别力。如何利用这种具有高维、高相关、高噪音、数量有限的基因芯片数据,识别出对疾病有鉴别意义的特征基因组,这对数据挖掘研究提出了新的课题,并成为目前基因表达数据处理和分析的热点研究问题。logistic回归模型是一种线性回归模型,它克服传统方法在选择模型上的不足,避免了因离散化而造成信息丢失,具有简单有效、鲁棒性等特点;而相关信息熵可以解决基因之间存在较强的冗余问题,防止样本数据与模型出现过拟合。
一个好的基于基因数据表达谱的特征选择方法应具有:(1)能够包含基因间的相互作用的信息;(2)基因选择的标准应该基于基因组的表现性能而不是个别单独基因与分类的相关性;(3)所选择基因里应当包含那些对疾病鉴别或疾病分类辅助作用的基因;(4)所选择的基因应该是与疾病紧密相连的,对鉴别不同的疾病能力强,能为研究疾病的病因提供重要的线索,而不是因为其细胞的构成或成分不同而被选择;(5)所使用的方法尽可能地合理高效,并能找到所含特征基因个数较少的典型基因组。
现在的方法在一定程度上解决了冗余带来的负面影响,但在基因选择过程中直接利用学习算法来评估基因子集,仍存在较高风险的过拟合、泛化性能差等问题。
发明内容
本发明要解决的技术问题是克服现有的特征基因选择方法的不足,提供一种基于logistic与相关信息熵的特征基因选择方法,能够用较少的基因数目得到较大的分类正确率,同时兼顾较小的时空开销。
本发明提供一种基于logistic与相关信息熵的特征基因选择方法,包括如下步骤:
(1)通过logistic模型对乳腺癌数据集和胃癌数据集进行logistic逐步回归,得到特征子集ST1和ST2
(2)对特征子集ST1和ST2分别按照近似2∶1的比例分配到Strain和Stest
(3)初始化特征基因子集F和相关信息熵H;
(4)利用Relief算法对特征基因赋权值,得到特征基因权值w={w1,w2,…,wn};
(5)比较获得的特征基因权值与设定的阈值δ;
(6)若特征基因gi的权值wi小于Relief阈值δ,将gi删除;
(7)若特征基因gi的权值wi大于Relief阈值δ,将gi插入到特征集合F,转到步骤(5);
(8)将F特征基因权值从大到小排序得到Fs,依次为Fs={g1,g2,…,gm};
(9)再次初始化特征基因子集F;
(10)将Fs权值最大的基因gi添加到特征基因子集F中,并计算其相关信息熵HR(FUgi);
(11)判断加入该特征基因子集的相关信息熵是否变化;
(12)如果相关信息熵减小,去掉该基因;
(13)如果相关信息熵增大,将该基因加到特征基因子集F中,转到步骤(10);
(14)返回特征子集F,算法结束。
在本发明所述的基于logistic和相关信息熵的特征基因选择方法中,logistic回归模型由条件概率分布P(Y|X)表示,形式为参数化的逻辑斯谛分布,我们把logistic回归模型表示为
P ( Y = 1 | X ) = exp ( w · x ) 1 + exp ( w · x )
P ( Y = 0 | X ) = 1 1 + exp ( w · x )
其中,x∈Rn是输入变量,Y∈{0,1}是输出变量,w·x为w和x的内积,其中w=(w(1),w(2),...,w(n),b)T,x=(x(1),x(2),...,x(n),1)T,w为权值向量,b为偏置。如果事件发生的概率为p,则该事件的几率是该事件的对数几率或logit函数为logistic回归比较两个条件概率值的大小,将实例x划分到概率值较大的类中。
在本发明所述的基于logistic和相关信息熵的特征基因选择方法中,Relief算法是根据特征对近距离样本的区分能力来评估特征,该算法从训练集中随机选取一个样本TM,并从与其同类样本中找出最近邻的样本NH,从与其不同类的样本中找出最近邻的样本NM,然后根据样本间距离的大小来更新每维特征的权重。特征的权重越大,说明该特征的分类能力越强,反之,则说明该特征的分类能力越弱。
在本发明所述的基于logistic和相关信息熵的特征基因选择方法中,假设基因的个数为N,特征基因子集中基因的个数为W,在相关系数矩阵中存在特征值λj,且λj>0,j=1,2,...,W,且W<<N,则特征基因相关信息熵为
H R = - Σ j = 1 W λ j W log W λ j W
上述技术方案可以看出,本发明实施例将机器学习中的logistic回归模型引入特征基因选择方法中,可以直接处理连续型的基因表达数据,避免了因离散化而造成的信息丢失,使所选取的特征基因子集能最大限度的保持原始数据的分类能力,获得质量较高的预选基因子集,有利于学习模型的构造。与此同时,由于logistic回归模型较强的泛化能力,可以更准确的预测输入未知数据。将logistic回归模型、Relief算法和信息熵相结合,可以更有效的从维数高样本小、噪声冗余多的基因表达数据中选择出少量特征基因,与只将Relief算法和信息熵结合的方法相比,该方法根据基因表达数据规模大的特点,利用logistic回归模型过直接滤掉对分类影响较小基因变量,不仅优化了预选基因数据质量,同时也减少下一步去冗余基因的工作量。通过实验证明本发明能够获得数目更少特征基因子集,减少了计算复杂度,并且这些特征基因子集上,能得到更高的分类精度。该技术可以更有效应用在癌症分类、表达相关性分析和疾病标志物识别等领域。
附图说明
图1基于logistic与相关信息熵的特征基因选择方法的流程图;
图2为Gastric-logistic回归前基因分类权重散点图;
图3为算法基因分类权重散点图;
图4为Breast-logistic回归前基因分类权重散点图;
图5为算法基因分类权重散点图;
图6为Gastric-logistic回归前基因分类权重柱图;
图7为算法的基因分类权重柱图;
图8为Breast-logistic回归前基因分类权重柱图;
图9为算法的基因分类权重柱图。
具体实施方式
本发明实施例提供一种基于logistic与相关信息熵的特征基因选择方法,避免了因离散化而造成信息丢失,能有效获得较少的基因数目且得到较大的分类正确率。
本发明将机器学习中logistic回归模型引入特征基因选择中,并采用相关信息熵剔除冗余基因,提出一种基于logistic与相关信息熵新的特征基因选择方法。
概括的说,包括以下步骤:对数据集进行logistic回归,获得对分类影响较大的基因变量,利用Relief算法对基因变量赋值并排序,向初始特征基因集合添加最大特征值基因,计算相关信息熵。
具体如下描述:
本文采用UCI数据库中的乳腺癌数据集(Breast)和胃癌数据集(Bastric)作为实验数据。其中乳腺癌数据集有84个样本和9216个基因表达数据,胃癌数据集有40个样本和1520个基因表达数据。
也即:
输入信息:训练数据集TR,测试数据集TE,Relief阈值δ为2600,初始相关信息H,logistic回归模型得到初始基因数据S={g1,g2,…,gn}
输出信息:特征基因集合F
该方法执行以下操作:
(1)初始化特征基因集合F为空集和初始化相关信息熵H为零;
(2)对每个数据集进行logistic线性回归,获得初始基因S;
(3)采用Relief算法对训练数据集TR特征赋值,得到特征权值集合w;
(4)判断基因gi特征权值是否大于阈值δ,若是,则将基因gi插入到F中得到新特征集合F,若否,舍弃该基因gi
(5)将F特征基因的权值从大到小排序得到Fs,并初始化F;
(6)遍历特征基因子集Fs,将权值最大的基因添加到特征子集F中,并计算其相关信息熵HR
(7)判断信息熵HR是否增大,若是,将基因加到特征子集中,否则,舍弃该基因gi
(8)直到遍历完整个特征基因子集Fs,返回特征基因集合F。
上述算法的终止条件为:如果相关信息熵的值不再增大,则说明已去除冗余基因,算法结束。
以下结合附图进行更详细介绍
图1是本发明的特征基因选择方法流程图,如图1所示,包括步骤:
(1)对数据集进行logistic线性回归,获得高质量的基因表达谱,详细步骤如下:
①二项logistic回归模型
二项logistic回归模型只能对数值型输入变量建模,而且分类变量取值分别为1和-1,针对二分类数据集,以取值1表示正类样本,取值-1表示负类样本,logistic回归比较两个条件概率值的大小,将实例x划分到概率值较大的类中。
②参数设置
对数据集中的基因做logistic逐步回归,计算所有的基因变量的卡方值和P值,卡方值一般设置为0.02,由于首次筛选只是删除卡方值小于0.02的变量,获得与类标签相关性较强的基因变量,因此基因变量的进入进出条件不宜过强。由于基因表达数据规模很大,不同的基因数据集参数P的取值可能不同。为了能有效的获得高质量的基因变量,提高样本分类精度,针对乳腺癌数据集和胃癌数据集,经过多次试验对比,阈值过大或过小都会影响获得基因变量的质量,从而降低基因样本的分类精度,因此这里设置阈值P=0.3较为合适,如果P值超过0.3,就剔除此变量。如果一个基因具有高的估计值,则该基因具有较高的信息分类能力,因此该基因具有与该数据的其它基因的相关性。
③模型参数的估计
logistic回归模型学习时,对于给定的训练集T={(x1,y1),(x2,y2),…,(xN,yN)},其中,xi∈Rn,yi∈{0,1},可以应用极大似然估计法估计模型参数,从而得到logistic回归模型。
假设
p(y=1|x)=π(x),p(y=0|x)=1-π(x)
似然函数为
Π [ π ( x i ) ] y i [ 1 - π ( x i ) ] 1 - y i
对数似然函数为
L ( w ) = Σ i = 1 N [ y i log π ( x i ) + ( 1 - y i ) log ( 1 - π ( x i ) ) ] = Σ i = 1 N [ y i log π ( x i ) 1 - π ( x i ) + log ( 1 - π ( x i ) ) ] = Σ i = 1 N [ y i ( w · x i ) - log ( 1 + exp ( w · x i ) ) ]
对L(w)求极大值,本文采用梯度下降法求得w的估计值。假设w的极大似然估计值为(权值向量),那么学到的logistic回归模型为:
P ( Y = 1 | X ) = exp ( w ^ · x ) 1 + exp ( w ^ · x )
P ( Y = 0 | X ) = 1 1 + exp ( w ^ · x )
通过对数据集进行logistic线性回归,获得高质量的基因表达谱,如图2-图5分类权重散点图所示。
在图2-图5中,x轴代表基因的序号,y轴代表基因分类权重,由实验结果图可以看出,图3的基因分类权重散点图比图2稀疏,图5比基因分类权重图比图4稀疏,且随着权重值的增加,基因分类散点图变得更加稀疏。基于以上分析可知,本文所提算法可有效的减少噪声基因,获得分类影响较大的基因。
(2)将数据集分为训练集和测试集。
对特征子集S1和S2分别按照近似2∶1的比例分配到Strain和Stest;经过训练集多次训练分类器,得到最优的参数模型,利用测试集的数据通过支持向量机验证。
(3)初始化特征基因集合F和相关信息熵H。
设置特征基因集合为F空集及相关信息熵的值H为零
(4)利用Relief算法对基因变量赋权值。
假设间隔为在保持样本分类不变的情况下决策面能够移动的最大距离θ,可表示为:
θ = 1 2 ( | | x - M ( x ) | | - | | x - H ( x ) | | )
其中H(x)、M(x)分别为与x同类和非同类最近邻点。假设间隔能对各维度上的特征分类能力进行评价。通过对训练样本的假设间隔大小计算,可以近似地对特征进行关于对分类价值的评价,即间隔值越大,则表明分类价值越高;间隔值越小,则表明分类价值越低。在计算过程中,首先将特征权重初始化为0,F为空集,基因样本数目为m,针对所有基因变量,随机选择一个样本R;然后从同类样本集中找到R的最近邻样本H,从不同类样本集中找到最近邻样本M,并根据公式W(G)=W(G)-diff(A,R,H)/m+diff(A,R,M)/m计算每个基因的权重值,最后将特征基因子集F权值按照从大到小排序得到Fs={g1,g2,…,gm}。
Relief算法利用这一特点给特征集中每一个特征赋予一定的权重,由于原始基因表达数据存在较多噪声和无关基因,仅用该方法处理较为耗时,为了更高效的获得预选的特征子集,引入logistic回归模型对原始基因数据线性回归。
本发明利用logistic回归模型获得分类影响较大的基因,采用上述Relief算法思想对全部基因按照权重降序排列得到图6-图9的分类权重图。
图6、图8是仅采用传统Relief算法得到的基因分类权重柱图,而图7、图9是采用本文算法得到的基因分类权重柱图。在上图中,x轴代表基因分类权重,从左到右权重值以500为单位,y轴代表基因个数。由图可知当基因分类权重相等时,图7的基因个数少于图6的基因个数,并且图7分类权重较大的基因总数少于图6分类权重较大基因总数;图9的基因个数少于图8的基因个数,并且图9分类权重较大的基因总数少于图8分类权重较大基因总数。如Breast数据集,当权重值小于500时,logistic回归前约有4000个基因,而采用本文算法仅约为2500个基因。因此经过logistic回归后明显减少了基因的个数,获得对分类影响较大的基因,从而提高基因数据质量。
(5)比较获得的特征基因权值与设定的阈值δ。
在剔除无关基因过程中,需要设定合适的阈值δ,针对不同的基因数据集,可以自行选取合适的阈值。经过多次试验对比,乳腺癌数据集的阈值取2500和胃癌数据集的阈值取2700较合适,为了保证算法的稳定性和高效性,本文取它们的均值2600作为最终的阈值,获取权重大于2600的基因变量,可以较明显的提高分类精度。
(6)若特征基因gi的权值wi小于Relief阈值δ将gi删除;若特征基因gi的权值wi大于Relief阈值δ将gi插入到特征集合F,转到(5)。
(7)将F特征基因权值从大到小排序得到Fs,依次为Fs={g1,g2,…,gm}。
(8)再次初始化原始特征基因子集F。
在此初始化特征子集F的原因是删除每个基因权重值,以便添加在剔除冗余基因过程中得到的特征子集F。
(9)每次将权值最大基因变量添加到特征基因子集,并计算相关信息熵。
①随机变量线性相关性
随机变量的相关系数矩阵反应变量相互间的相关程度,由均方误差E衡量n元随机变量x1,x2,...,xn的线性相关性:
E = α T Rα = y T ^ y = λ y 1 2 + λ y 2 2 + L + λ y n 2 ≥ 0
当变量的线性组合为常系数方程时,E的大小由特征值λ1,λ2,…,λn决定,特征值越小,则E越小,即相关系数矩阵的特征值在一定程度上反映了变量的线性相关程度,即在获取基因权重的大小表明变量之间的相关性强弱。
②相关信息熵
相关信息熵(Correlation Information Entropy)可以度量多个变量之间的相关性。设S为多变量、非线性系统具有Q个变量,该系统在时刻t(t=1,2,…,K)的多变量时间序列矩阵为P,P∈RK×Q,yi(t)为表示第i个时刻t的取值,不失一般性,Q<<K,有
P={yi(t)}1≤t≤K,1≤i≤Q
则相关系数矩阵R,R∈RK×Q
R=PT·P
相关系数矩阵可变形为
R = 1 r 12 L r 1 N r 21 1 L r 2 N M M O M r N 1 r N 2 L 1
上式中获得相关系数可以作为基因变量间相关关系密切程度的统计指标。
③基因相关信息熵定义
对于已知的特征基因信息熵HR,使所选择的特征基因子集F具有最大的相关信息熵为
Max HR(FUgi),i=1,2,3,…,n
其中,gi为基因变量,n为基因的个数。
(10)比较将权值最大的基因添加入特征子集的相关信息熵与添加之前的特征子集的相关信息熵。
计算更新后特征基因子集的相关信息熵,若其相关信息熵值增大,则将该基因添加入特征子集F中,否则,去掉该基因。
(11)判断算法是否满足终止条件,遍历整个特征子集空间,若相关信息熵的值不再增大,则算法终止。
实例:
本文采用UCI数据库中的乳腺癌数据集(Breast)和胃癌数据集(Bastric)作为实验数据,利用分类器LIBSVM,参数的选择和特征的选择同时进行,找出对应的参数最优点,其中使用的核函数是RBF,由于基因数据样本小,可以增大惩罚因子取值,如果取值越大,表明对每个样本的重视程度越强,因此本文中惩罚因子c=100,其他参数默认。表1是实验数据描述,表2是三种算法的分类性能比较。
表1 实验数据集描述
表2 三种算法的分类性能比较
实验结果可以看出,本发明方法是正确且有效的,能够获得更小的基因子集,具有较高的正确识别率,且本算法运行速度较快,节省很多时间。采用本文提出的基于logistic和相关信息熵的方法对UCI数据库中乳腺癌数据集和胃癌数据集进行实验,分类正确率分别为98.39%和97.62%,并且获得特征基因的个数分别为410个和76个,时间复杂度相对较小。
基于以上分析可知,本文所提算法可有效的减少基因的个数,以便获得分类权重较大且特征基因数目较小的子集。
以上对本发明实施例所提供的一种基于logistic与相关信息熵的特征基因选择方法,进行了详细的介绍,本文中应用了UCI数据集对本发明的原理及实施方式进行阐述,以上实施例的说明仅用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不理解为对本发明的限制。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
专业人员还可以进一步意识到,结合本发明中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能性一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应超过本发明的范围。
结合本发明中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机储存器、内存、只读存储器、电可编程ROM、电可檫除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其他形式的存储介质中。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (3)

1.一种基于logistic与相关信息熵的特征基因选择方法,其特征在于,其包括以下步骤:
(1)通过logistic模型对乳腺癌数据集和胃癌数据集进行logistic逐步回归,得到特征子集ST1和ST2
(2)对特征子集ST1和ST2分别按照近似2∶1的比例分配到Strain和Stest
(3)初始化特征基因子集F和相关信息熵H;
(4)利用Relief算法对特征基因赋权值,得到特征基因权值w={w1,w2,…,wn};
(5)比较获得的特征基因权值与设定的阈值δ;
(6)若特征基因gi的权值wi小于Relief阈值δ,将gi删除;
(7)若特征基因gi的权值wi大于Relief阈值δ,将gi插入到特征集合F,转到步骤(5);
(8)将F特征基因权值从大到小排序得到Fs,依次为Fs={g1,g2,…,gm};
(9)再次初始化特征基因子集F;
(10)将Fs权值最大的基因gi添加到特征基因子集F中,并计算其相关信息熵HR(FUgi);
(11)判断加入该特征基因子集的相关信息熵是否变化;
(12)如果相关信息熵减小,去掉该基因;
(13)如果相关信息熵增大,将该基因加到特征基因子集F中,转到步骤(10);
(14)返回特征子集F,算法结束。
2.如权利要求1所述的基于logistic与相关信息熵的特征基因选择方法,其特征在于,logistic回归模型由条件概率分布P(Y|X)表示,形式为参数化的逻辑斯谛分布,logistic回归模型表示为
其中,x∈Rn是输入变量,Y∈{0,1}是输出变量,w·x为w和x的内积,其中w=(w(1),w(2),...,w(n),b)T,x=(x(1),x(2),...,x(n),1)T,w为权值向量,b为偏置;如果事件发生的概率为p,则该事件的几率是该事件的对数几率或logit函数为logistic回归比较两个条件概率值的大小,将实例x划分到概率值较大的类中。
3.如权利要求1所述的基于logistic与相关信息熵的特征基因选择方法,其特征在于,基因的个数为N,特征基因子集中基因的个数为W,在相关系数矩阵中存在特征值λj,且λj>0,j=1,2,...,W,且W<<N,则特征基因相关信息熵为
CN201510057261.1A 2015-02-04 2015-02-04 基于logistic与相关信息熵的特征基因选择方法 Pending CN104598774A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510057261.1A CN104598774A (zh) 2015-02-04 2015-02-04 基于logistic与相关信息熵的特征基因选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510057261.1A CN104598774A (zh) 2015-02-04 2015-02-04 基于logistic与相关信息熵的特征基因选择方法

Publications (1)

Publication Number Publication Date
CN104598774A true CN104598774A (zh) 2015-05-06

Family

ID=53124552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510057261.1A Pending CN104598774A (zh) 2015-02-04 2015-02-04 基于logistic与相关信息熵的特征基因选择方法

Country Status (1)

Country Link
CN (1) CN104598774A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243296A (zh) * 2015-09-28 2016-01-13 丽水学院 联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法
CN106529575A (zh) * 2016-10-20 2017-03-22 浙江大学 一种面向对象的分类规则集自动构建方法
CN108763873A (zh) * 2018-05-28 2018-11-06 苏州大学 一种基因分类方法及相关设备
CN109891508A (zh) * 2019-01-29 2019-06-14 北京大学 单细胞类型检测方法、装置、设备和存储介质
CN110189799A (zh) * 2019-05-20 2019-08-30 西安交通大学 基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法
CN111047343A (zh) * 2018-10-15 2020-04-21 京东数字科技控股有限公司 用于信息推送的方法、装置、系统及介质
CN112542212A (zh) * 2020-11-06 2021-03-23 湖南农业大学 基于双Logistic模型分析水稻分蘖动态的新方法
CN112714934A (zh) * 2018-10-15 2021-04-27 赛多利斯司特蒂姆数据分析公司 细胞选择的多变量方法
CN116052885A (zh) * 2023-02-07 2023-05-02 齐鲁工业大学(山东省科学院) 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质
CN112714934B (zh) * 2018-10-15 2024-05-10 赛多利斯司特蒂姆数据分析公司 细胞选择的多变量方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
S.K.SHEVADE等: "A simple and efficient algorithm for gene selection using sparse logistic regression", 《BIOINFORMATICS》 *
XIAOBO ZHOU等: "Cancer classification and prediction using logistic regression with Bayesian gene selection", 《JOURNAL OF BIOMEDICAL INFORMATICS》 *
张丽新等: "基于Relief的组合式特征选择", 《复旦学报(自然科学版)》 *
李航: "《统计学习方法》", 31 March 2012, 清华大学出版社 *
李颖新等: "肿瘤基因表达谱分类特征基因选取问题及分析方法研究", 《计算机学报》 *
赵肖肖等: "Logistic回归和T检验在基因特征提取中的应用", 《桂林电子科技大学学报》 *
高娟等: "多类别肿瘤基因表达谱的自动特征选择方法", 《计算机科学》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243296A (zh) * 2015-09-28 2016-01-13 丽水学院 联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法
CN106529575A (zh) * 2016-10-20 2017-03-22 浙江大学 一种面向对象的分类规则集自动构建方法
CN108763873A (zh) * 2018-05-28 2018-11-06 苏州大学 一种基因分类方法及相关设备
CN112714934A (zh) * 2018-10-15 2021-04-27 赛多利斯司特蒂姆数据分析公司 细胞选择的多变量方法
CN112714934B (zh) * 2018-10-15 2024-05-10 赛多利斯司特蒂姆数据分析公司 细胞选择的多变量方法
CN111047343A (zh) * 2018-10-15 2020-04-21 京东数字科技控股有限公司 用于信息推送的方法、装置、系统及介质
CN109891508A (zh) * 2019-01-29 2019-06-14 北京大学 单细胞类型检测方法、装置、设备和存储介质
WO2020154885A1 (zh) * 2019-01-29 2020-08-06 北京大学 单细胞类型检测方法、装置、设备和存储介质
CN109891508B (zh) * 2019-01-29 2023-05-23 北京大学 单细胞类型检测方法、装置、设备和存储介质
CN110189799B (zh) * 2019-05-20 2021-02-02 西安交通大学 基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法
CN110189799A (zh) * 2019-05-20 2019-08-30 西安交通大学 基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法
CN112542212A (zh) * 2020-11-06 2021-03-23 湖南农业大学 基于双Logistic模型分析水稻分蘖动态的新方法
CN112542212B (zh) * 2020-11-06 2022-07-19 湖南农业大学 基于双Logistic模型分析水稻分蘖动态的新方法
CN116052885A (zh) * 2023-02-07 2023-05-02 齐鲁工业大学(山东省科学院) 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质
CN116052885B (zh) * 2023-02-07 2024-03-08 齐鲁工业大学(山东省科学院) 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质

Similar Documents

Publication Publication Date Title
CN104598774A (zh) 基于logistic与相关信息熵的特征基因选择方法
Wu et al. A patent quality analysis and classification system using self-organizing maps with support vector machine
Jörnsten Clustering and classification based on the L1 data depth
CN111553127B (zh) 一种多标记的文本类数据特征选择方法及装置
Momenzadeh et al. A novel feature selection method for microarray data classification based on hidden Markov model
Wang et al. A spectral clustering method with semantic interpretation based on axiomatic fuzzy set theory
Meng et al. Classifier ensemble selection based on affinity propagation clustering
CN108171012A (zh) 一种基因分类方法与装置
CN101923604A (zh) 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法
CN108877947A (zh) 基于迭代均值聚类的深度样本学习方法
Zhang et al. A novel support vector machine model of traffic state identification of urban expressway integrating parallel genetic and C-means clustering algorithm
CN111708865B (zh) 一种基于改进XGBoost算法的技术预见及专利预警分析方法
CN102880881A (zh) 一种基于二类支持向量机和遗传算法的轿车车型识别方法
Wong et al. A probabilistic mechanism based on clustering analysis and distance measure for subset gene selection
CN115935160A (zh) 一种基于邻域粗糙集属性约简的空气质量数据处理方法
CN115345248A (zh) 一种面向深度学习的数据去偏方法及装置
CN114722918A (zh) 一种基于dna甲基化的肿瘤分类方法
CN114492830A (zh) 基于个体歧视实例对生成的深度学习模型去偏方法及其装置
Wang et al. Edcleaner: Data cleaning for entity information in social network
CN113971984A (zh) 分类模型构建方法及装置、电子设备、存储介质
Chen et al. Domain driven two-phase feature selection method based on Bhattacharyya distance and kernel distance measurements
Kang Data and Algorithmic Modeling Approaches in Crash Analysis
Nivetha et al. Predicting survival of breast cancer patients using fuzzy rule based system
CN116563646B (zh) 一种基于离散化数据的大脑影像分类方法
Liu et al. Global optimal path-based clustering algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150506