CN108537003B - 基于单变量和对变量的标志物筛选方法 - Google Patents

基于单变量和对变量的标志物筛选方法 Download PDF

Info

Publication number
CN108537003B
CN108537003B CN201810293444.7A CN201810293444A CN108537003B CN 108537003 B CN108537003 B CN 108537003B CN 201810293444 A CN201810293444 A CN 201810293444A CN 108537003 B CN108537003 B CN 108537003B
Authority
CN
China
Prior art keywords
variable
variables
biological sample
biological
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810293444.7A
Other languages
English (en)
Other versions
CN108537003A (zh
Inventor
林晓惠
宋欢欢
张艳慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201810293444.7A priority Critical patent/CN108537003B/zh
Publication of CN108537003A publication Critical patent/CN108537003A/zh
Application granted granted Critical
Publication of CN108537003B publication Critical patent/CN108537003B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明属于生物数据分析技术领域,涉及一种基于单变量和对变量的标志物筛选方法。生物数据具有维度高、样本量小的特点,所以利用简单且准确的决策规则评价、选择变量,从而进行分类与预测是生物数据分析的重要任务。为综合评价变量,本发明使用信息增益计算单变量的最佳分裂点。利用最佳分裂点构造新的变量,与其对应的原始变量建立对变量。同时,原始空间的变量也通过两两组合生成变量对。然后,根据两个评分准则对所有的对变量进行评分,将其按照得分由大到小排序,选择得分最高且不重叠的k对变量,构造融合分类器。该方法的核心技术利用单变量构造新的对变量,可以使用相同的准则评估单变量与对变量的分类性能,提供切实有效的数据处理方法。

Description

基于单变量和对变量的标志物筛选方法
技术领域
本发明属于生物数据分析技术领域,涉及一种基于单变量和对变量的标志物筛选方法,是一种同时衡量单变量和对变量的特征选择与分类方法。
背景技术
生物数据通常具有维度高、样本量小的特点,所以利用简单且准确的决策规则评价、选择变量,从而进行分类与预测是生物数据分析的重要任务,对疾病诊断、药物疗效、预后等研究具有重要意义。
单分子标志物经常作为临床诊断和预后判断的重要指标,例如甲胎蛋白(AFP)已经被认为是肝癌诊断的首选血清肿瘤标记物。然而,分子个体标志物通常存在假阳性高的问题。因此,确定与疾病发生发展密切相关的生物标志物,降低假阳性,对疾病诊断、预后以及疾病机理的研究十分重要。
k-TSP算法根据一对变量的相对含量在不同样本组中的差异评价特征对的重要性,选择得分最高的k对变量建立分类模型。该算法只选择少数几对变量,并通过它们的相对含量对样本进行预测,易获得生物学解释且分类性能与支持向量机和随机森林相当,在基因组学和代谢组学等组学数据分析中应用广泛。同时,k-TSP算法在处理白血病、肺癌、前列腺癌、乳腺癌、淋巴癌、膀胱癌等多种癌症中均展现出其良好的性能。
本发明提出了一种同时评价单变量与对变量的特征选择与分类方法。该方法使用信息增益计算单变量的最佳分裂点。利用最佳分裂点构造新的变量,与其对应的原始变量建立对变量。同时,原始变量也通过两两组合生成对变量。然后,根据k-TSP算法的两个评分准则对所有的对变量进行评分,将其按照得分由大到小排序,选择得分最高且不重叠的k对变量,构造融合分类器。
发明内容
本发明的目的是建立一种同时评价单变量与对变量的特征选择与分类方法。该方法的核心技术利用单变量构造新的对变量,可以使用相同的准则评估单变量与对变量的分类性能。
为了实现上述目标,本发明采用的技术方案如下:
一种基于单变量和对变量的标志物筛选方法,步骤如下:
(1)获得单变量的最佳分裂点:令F={f1,f2,...,fm}代表变量集合,m是变量数,X={x1,x2,…,xn}代表样本集合,n是样本数,C={c1,c2}代表类标集合,Y={y1,y2...,yn}是n个样本的类标向量,其中yi∈C是第i个样本的类标;首先将变量fi按照变量在样本上的取值递增顺序排列;每对相邻值的中点作为可能的分裂点,n个样本需计算n-1个可能的分裂点;然后,扫描可能的分裂点,对于每一个可能的分裂点,计算信息增益,信息增益最大的分裂点就是变量fi最佳分裂点;公式如下:
Figure BDA0001618180240000021
sp*=argmaxIG(X,spk),k=1,2,...,n-1 (2)
其中,IG(X,spk)代表变量fi使用分裂点spk划分样本集合X后的信息增益;X-代表在变量fi上取值小于分裂点spk的样本构成的集合,X+代表在变量fi上取值不小于分裂点spk的样本构成的集合,|X-|、|X+|和|X|分别是X-、X+与X样本集合的大小;H(X)代表信息熵,是度量样本集合纯度的一个指标;H(X)的值越小,则样本集合X的纯度越高;sp*代表最佳分裂点;
(2)构造新变量:利用最佳分裂点构造新变量,新变量fi'(1≤i≤m)在每个样本上取值相同,均为最佳分裂点的值;
(3)构建对变量:使用两种方式构造对变量,第一种方式使用原始变量两两组合构造对变量(fi,fj),1≤i≠j≤m;第二种方式使用变量fi与其对应的新变量fi'组成伪对变量(fi,fi'),1≤i≤m,新变量fi'在所有样本上取值相同,且只与变量fi组成对变量,所以这种方式构造的对变量称为伪对变量;将两种方式构建的对变量集合记做PS;
(4)获得对变量得分:使用两个准则获得对变量得分,第一准则Δij与第二准则Γij
Δij=|Pij(c1)-Pij(c2)| (3)
Pij(cl)=Pr(R(i,q)<R(j,q)|yq=cl,q=1,2,...,n),l=1,2 (4)
Γij=|μij(c1)-μij(c2)| (5)
Figure BDA0001618180240000031
在公式(3)-(4)中,yq=cl代表第q个样本的类标为cl,对于二分类问题,l的取值为1和2;R(i,q)与R(j,q)分别代表第i个变量fi与第j个变量fj在第q个样本xq中含量的排名,按升序排名,排名第一的变量,其值最小;Pij(cl)代表在类标为cl的样本中变量fi的排名小于变量fj排名的概率;Δij代表c1类样本中变量fi排名小于变量fj排名的概率与c2类样本中变量fi排名小于变量fj排名的概率差值的绝对值,Δij得分的取值范围为[0,1],Δij值越大表明对变量对于两类问题的区分越明显;当Δij=1时,R(i,q)-R(j,q)的大小关系在两类样本中呈现符号相反的情况,即在一类样本中R(i,q)均大于R(j,q),在另一类样本中R(i,q)均小于R(j,q),这是一种理想情况;
在公式(5)-(6)中,|{xq|yq=cl}|代表类标为cl的样本数;R(i,q)-R(j,q)代表样本xq距离直线fi=fj的距离;计算样本到直线的距离时,将变量在样本上的取值替换为在样本上的排名,同时因为计算每一个样本到直线的距离分母均相同,省略分母,所以样本xq到直线fi=fj的距离表示为R(i,q)-R(j,q);μij(cl)代表类别cl的样本距离fi=fj直线的平均距离;Γij代表c1类样本与c2类样本分别距离直线fi=fj平均距离的差值的绝对值;
(5)选择得分最高且不重叠的k对变量:计算PS中所有对变量的第一准则与第二准则得分,按照得分降序排列,在第一准则得分相同时使用第二准则评价对变量;令所选k对变量集合Sk=Φ,将得分最高的对变量(fi,fj)或者(fi,fi')加入Sk,移除包含fi或者fj的对变量,将得分次高的对变量加入Sk,迭代该过程,直到集合Sk的大小|Sk|=k为止;
(6)构造分类器:使用Sk中的k对变量建立分类器,通过多数投票的方式融合各个基分类器的预测结果;基分类器分类原理如下:
如果c1类样本中变量fi排名小于变量fj排名的概率大于c2类样本中变量fi排名小于变量fj排名的概率,当待预测样本变量fi的取值小于变量fj的取值时,则将样本预测为c1类,否则预测为c2类;同理,如果c1类样本中变量fi排名小于变量fj排名的概率小于等于c2类样本中变量fi排名小于变量fj的概率,当待预测样本变量fi的取值小于变量fj的取值时,则将样本预测为c2类,否则,预测为c1类。
在解决二分类问题时,步骤(5)中的k值为奇数,以打破投票相同的情况。
本发明的效果和益处:
本发明应用于生物组学数据分析,同时衡量了单变量与对变量中包含的信息量,挖掘生物大数据中富含信息的生物标志物;利用最佳分割点构造新的变量,扩大了变量搜索空间;同时进行标志物发现和分类模型构建,选择几对变量和几个变量构建集成的分类模型,分类原理容易获得生物学解释,有助于对疾病致病机理的研究,为疾病的早期诊断和预后研究提供切实有效的数据处理方法。
具体实施方式
下面结合技术方案和一组模拟数据进一步说明本发明的具体实施方式,模拟数据仅限于说明本发明以便于理解,而非对本发明的限制。
表1中为本发明的模拟数据,数据包含两类(c1和c2),每一类包含5个样本,共4个变量:f1、f2、f3和f4
表1:变量f1,f2,f3和f4在10个样本上的取值
Figure BDA0001618180240000051
(1)我们以变量f1为例,计算变量的最佳分裂点。将变量f1按照升序排列,排序结果为{-11,-10,-6,-3,-2,-2,1,6,8,10};相邻两个值的中点作为分裂点,则所有的分裂点为{-10.5,-8,-4.5,-2.5,-2,-0.5,3.5,7,9};使用公式(1)计算9个分裂点的信息增益,根据公式(2)得到变量f1在分裂点-2.5时,信息增益取值最大。所以变量f1的最佳分裂点为-2.5。同理我们可以得到变量f2、f3和f4的最佳分裂点分别为-4.5、8.5和9.5。
(2)利用计算得到的最佳分裂点,构造新变量,记做f1'、f2'、f3'和f4'。
(3)构造对变量集合为{(f1,f1'),(f2,f2'),(f3,f3'),(f4,f4'),(f1,f2),(f1,f3),(f1,f4),(f2,f3),(f2,f4),(f3,f4)}。
(4)利用公式(3)-(6)计算10对变量的第一准则与第二准则得分。
(5)按照得分降序排列对变量:(f3,f3')>(f1,f3)>(f4,f4')>(f1,f2)>(f1,f1')>(f1,f4)>(f2,f3)>(f2,f2')>(f2,f4)>(f3,f4)。在本次模拟数据中令k=3,选择得分最高且不重叠的3对变量,分别为(f3,f3'),(f4,f4'),(f1,f2)。
(6)利用三对变量构造分类器,令x={-4,5,10,7}为待测样本。根据对变量(f3,f3'),P33'(c1)<P33'(c2)&&R(3,x)>R(3',x),所以将x预测为c1类;根据对变量(f4,f4'),P44'(c1)<P44'(c2)&&R(4,x)<R(4',x),所以将x预测为c2类;根据对变量(f1,f2),P12(c1)>P12(c2)&&R(1,x)<R(2,x),所以将x预测为c1类。通过三对变量投票的结果,最终将未知样本预测为c1类。

Claims (2)

1.一种基于单变量和对变量的标志物筛选方法,其特征在于,步骤如下:
(1)获得单变量的最佳分裂点:令F={f1,f2,...,fm}代表变量集合,m是变量数,X={x1,x2,…,xn}代表生物样本集合,n是生物样本数,C={c1,c2}代表类标集合,Y={y1,y2...,yn}是n个生物样本的类标向量,其中yg∈C是第g个生物样本的类标;首先将变量fi按照变量在生物样本上的取值递增顺序排列;每对相邻值的中点作为可能的分裂点,n个生物样本需计算n-1个可能的分裂点;然后,扫描可能的分裂点,对于每一个可能的分裂点,计算信息增益,信息增益最大的分裂点就是变量fi最佳分裂点;公式如下:
Figure FDA0002245258100000011
sp*=arg max IG(X,spk),k=1,2,...,n-1 (2)
其中,IG(X,spk)代表变量fi使用分裂点spk划分生物样本集合X后的信息增益;X-代表在变量fi上取值小于分裂点spk的生物样本构成的集合,X+代表在变量fi上取值不小于分裂点spk的生物样本构成的集合,|X-|、|X+|和|X|分别是X-、X+与X生物样本集合的大小;H(X)代表信息熵,是度量生物样本集合纯度的一个指标;H(X)的值越小,则生物样本集合X的纯度越高;sp*代表最佳分裂点;
(2)构造新变量:利用最佳分裂点构造新变量,新变量fi'在每个生物样本上取值相同,均为最佳分裂点的值,其中1≤i≤m;
(3)构建对变量:使用两种方式构造对变量,第一种方式使用原始变量两两组合构造对变量(fi,fj),1≤i≠j≤m;第二种方式使用变量fi与其对应的新变量fi'组成伪对变量(fi,fi'),1≤i≤m,新变量fi'在所有生物样本上取值相同,且只与变量fi组成对变量,所以这种方式构造的对变量称为伪对变量;将两种方式构建的对变量集合记做PS;
(4)获得对变量得分:使用两个准则获得对变量得分,第一准则Δij与第二准则Γij
Δij=|Pij(c1)-Pij(c2)| (3)
Pij(cl)=Pr(R(i,q)<R(j,q)|yq=cl,q=1,2,...,n),l=1,2 (4)
Γij=|μij(c1)-μij(c2)| (5)
Figure FDA0002245258100000021
在公式(3)-(4)中,yq=cl代表第q个生物样本的类标为cl,对于二分类问题,l的取值为1和2;R(i,q)与R(j,q)分别代表第i个变量fi与第j个变量fj在第q个生物样本xq中含量的排名,按升序排名,排名第一的变量,其值最小;Pij(cl)代表在类标为cl的生物样本中变量fi的排名小于变量fj排名的概率;Δij代表c1类生物样本中变量fi排名小于变量fj排名的概率与c2类生物样本中变量fi排名小于变量fj排名的概率差值的绝对值,Δij得分的取值范围为[0,1],Δij值越大表明对变量对于两类问题的区分越明显;当Δij=1时,R(i,q)-R(j,q)的大小关系在两类生物样本中呈现符号相反的情况,即在一类生物样本中R(i,q)均大于R(j,q),在另一类生物样本中R(i,q)均小于R(j,q)
在公式(5)-(6)中,|{xq|yq=cl}|代表类标为cl的生物样本数;R(i,q)-R(j,q)代表生物样本xq距离直线fi=fj的距离;计算生物样本到直线的距离时,将变量在生物样本上的取值替换为在生物样本上的排名,同时因为计算每一个生物样本到直线的距离分母均相同,省略分母,所以生物样本xq到直线fi=fj的距离表示为R(i,q)-R(j,q);μij(cl)代表类别cl的生物样本距离fi=fj直线的平均距离;Γij代表c1类生物样本与c2类生物样本分别距离直线fi=fj平均距离的差值的绝对值;
(5)选择得分最高且不重叠的d对变量:计算PS中所有对变量的第一准则与第二准则得分,按照得分降序排列,在第一准则得分相同时使用第二准则评价对变量;令所选d对变量集合Sd=Φ,将得分最高的对变量(fi,fj)或者(fi,fi')加入Sd,移除包含fi或者fj的对变量,将得分次高的对变量加入Sd,迭代该过程,直到集合Sd的大小|Sd|=d为止;
(6)构造分类器:使用Sd中的d对变量建立分类器,通过多数投票的方式融合各个基分类器的预测结果;基分类器分类原理如下:
如果c1类生物样本中变量fi排名小于变量fj排名的概率大于c2类生物样本中变量fi排名小于变量fj排名的概率,当待预测生物样本变量fi的取值小于变量fj的取值时,则将生物样本预测为c1类,否则预测为c2类;同理,如果c1类生物样本中变量fi排名小于变量fj排名的概率小于等于c2类生物样本中变量fi排名小于变量fj的概率,当待预测生物样本变量fi的取值小于变量fj的取值时,则将生物样本预测为c2类,否则,预测为c1类。
2.根据权利要求1所述的一种基于单变量和对变量的标志物筛选方法,其特征在于,在解决二分类问题时,步骤(5)中的d值为奇数,以打破投票相同的情况。
CN201810293444.7A 2018-03-30 2018-03-30 基于单变量和对变量的标志物筛选方法 Expired - Fee Related CN108537003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810293444.7A CN108537003B (zh) 2018-03-30 2018-03-30 基于单变量和对变量的标志物筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810293444.7A CN108537003B (zh) 2018-03-30 2018-03-30 基于单变量和对变量的标志物筛选方法

Publications (2)

Publication Number Publication Date
CN108537003A CN108537003A (zh) 2018-09-14
CN108537003B true CN108537003B (zh) 2020-04-07

Family

ID=63481682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810293444.7A Expired - Fee Related CN108537003B (zh) 2018-03-30 2018-03-30 基于单变量和对变量的标志物筛选方法

Country Status (1)

Country Link
CN (1) CN108537003B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109856307B (zh) * 2019-03-27 2021-04-16 大连理工大学 一种代谢组分子变量综合筛选技术
CN110322930B (zh) * 2019-06-06 2021-12-03 大连理工大学 基于水平关系的代谢组学网络标志物识别方法
CN111584005B (zh) * 2020-04-12 2023-10-20 鞍山师范学院 一种基于融合不同模式标志物的分类模型构建算法
CN113870942A (zh) * 2021-09-15 2021-12-31 大连理工大学 一种基于交互作用网络的生物组学数据特征选择方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008037479A1 (en) * 2006-09-28 2008-04-03 Private Universität Für Gesundheitswissenschaften Medizinische Informatik Und Technik - Umit Feature selection on proteomic data for identifying biomarker candidates
WO2006053328A3 (en) * 2004-11-12 2010-10-28 Health Discovery Corporation Biomarkers for screening, predicting, and monitoring prostate disease
CN104866863A (zh) * 2015-04-27 2015-08-26 大连理工大学 一种生物标志物筛选方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006053328A3 (en) * 2004-11-12 2010-10-28 Health Discovery Corporation Biomarkers for screening, predicting, and monitoring prostate disease
WO2008037479A1 (en) * 2006-09-28 2008-04-03 Private Universität Für Gesundheitswissenschaften Medizinische Informatik Und Technik - Umit Feature selection on proteomic data for identifying biomarker candidates
CN104866863A (zh) * 2015-04-27 2015-08-26 大连理工大学 一种生物标志物筛选方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《Outlier Analysis and Top Scoring Pair for Integrated Data Analysis and Biomarker Discovery》;Michael F.Ochs,et al;《IEEE/ACM Trans Comput Biol Bioinform》;20150522;第11卷(第3期);第520-532页 *
《The feature selection algorithm based on feature overlapping and group overlapping》;Xiaohui Lin,et al.;《2016 IEEE International Conference on Bioinformatics and Biomedicine》;20170119;第619-624页 *
《TSP算法及其应用研究》;高久翀;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150715(第7期);第I138-796页 *
《基于信息熵的改进k-TSP方法及其在癌症分类中的应用》;周纯葆;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》;20090815(第8期);第E072-4页 *

Also Published As

Publication number Publication date
CN108537003A (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
CN108537003B (zh) 基于单变量和对变量的标志物筛选方法
Liu et al. A comprehensive review and comparison of existing computational methods for intrinsically disordered protein and region prediction
Hira et al. Integrated multi-omics analysis of ovarian cancer using variational autoencoders
Boulesteix et al. Added predictive value of high-throughput molecular data to clinical data and its validation
CN110577998A (zh) 预测肝癌术后早期复发风险分子模型的构建及其应用评估
CN109971862A (zh) C9orf139和MIR600HG作为胰腺癌预后标志物及其确立方法
CN110890130B (zh) 基于多类型关系的生物网络模块标志物识别方法
CN101923604A (zh) 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法
Zhang et al. Utility of the EORTC risk tables and CUETO scoring model for predicting recurrence and progression in non-muscle-invasive bladder cancer patients treated with routine second transurethral resection
CN110010204B (zh) 基于融合网络和多打分策略的预后生物标志物识别方法
Balasubramanian et al. Variable importance in matched case–control studies in settings of high dimensional data
CN109856307B (zh) 一种代谢组分子变量综合筛选技术
Sun et al. Protein classifier for thyroid nodules learned from rapidly acquired proteotypes
CN111916143A (zh) 基于多样子结构特征融合的分子活性预测方法
Zhu et al. The genetic algorithm-aided three-stage ensemble learning method identified a robust survival risk score in patients with glioma
Li et al. SEPA: signaling entropy-based algorithm to evaluate personalized pathway activation for survival analysis on pan-cancer data
Qiu et al. Unsupervised learning framework with multidimensional scaling in predicting epithelial-mesenchymal transitions
CN115295079A (zh) 基于元图学习的长链非编码rna亚细胞定位预测方法
Reynes et al. A new genetic algorithm in proteomics: Feature selection for SELDI-TOF data
Mandal et al. A genetic algorithm-based clustering approach for selecting non-redundant microrna markers from microarray expression data
CN107798217B (zh) 基于特征对的线性关系的数据分析方法
CN109817337B (zh) 一种单个疾病样本通路激活度的评估方法及相似疾病区分方法
Dutta et al. Identifying dynamical persistent biomarker structures for rare events using modern integrative machine learning approach
CN111584005B (zh) 一种基于融合不同模式标志物的分类模型构建算法
Li et al. A new classification model with simple decision rule for discovering optimal feature gene pairs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200407