CN104408332A - 一种基因数据处理方法及装置 - Google Patents

一种基因数据处理方法及装置 Download PDF

Info

Publication number
CN104408332A
CN104408332A CN201410616856.1A CN201410616856A CN104408332A CN 104408332 A CN104408332 A CN 104408332A CN 201410616856 A CN201410616856 A CN 201410616856A CN 104408332 A CN104408332 A CN 104408332A
Authority
CN
China
Prior art keywords
data
gene
gene data
class
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410616856.1A
Other languages
English (en)
Inventor
周丰丰
赵苗苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201410616856.1A priority Critical patent/CN104408332A/zh
Publication of CN104408332A publication Critical patent/CN104408332A/zh
Pending legal-status Critical Current

Links

Abstract

本发明实施例公开了一种基因数据处理方法及装置,所述方法包括:接收参考人群的指定特征类型的基因数据,对所述基因数据进行预处理得到标准化基因数据,使用LASSO方法对所述标准化基因数据进行特征基因选择,得到特征基因数据,基于交叉验证方法,将所述特征基因数据的样本集分成测试样本和训练样本,将所述训练样本注入分类器,得到训练后分类器,将所述测试样本注入所述训练后分类器,对所述测试样本进行特征分类,并统计分类器的分类准确性。本发明实施例可以提高特征基因选择的准确性、降低测试样本和训练样本的选择对分类准确率的影响。

Description

一种基因数据处理方法及装置
技术领域
本发明涉及基因数据处理技术领域,尤其涉及一种基因数据处理方法及装置。
背景技术
DNA微阵列(基因芯片)技术是分子生物学领域的一项重大技术突破,被广泛应用于生物学和医学研究的各个领域,如大规模DNA测序、疾病诊断、基因调控与互作关系挖掘等。最小凸度绝对压缩选择算子(Least AbsoluteShrinkage and Selection Operator,LASSO)是一种基于一范式的特征选择方法,用于描述一类有约束的优化问题。基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,得到可以解释的模型。
每个基因样本中都记录了组织细胞中所有可测基因的表达水平,但实际上只有少数基因才真正和样本类别相关,这些包含样本分类信息的基因被称为特征基因。特征基因的选取问题是基因表达谱数据分析的核心内容,目标是希望从微阵列实验中找出可能受疾病影响的基因,作为早期诊断的生物标记,并成功建立诊断模型。目前常用的基因数据处理方法中,样本基因数据选择的覆盖率低,特征基因选择的准确性低,测试样本和训练样本的选择对分类准确率的影响较大。
发明内容
本发明实施例提供一种基因数据处理方法及装置,可以提高特征基因选择的准确性、降低测试样本和训练样本的选择对分类准确率的影响。
本发明实施例提供了一种基因数据处理方法,其可包括:
接收参考人群的样本特征类型的基因数据,基于交叉验证方法,将所述基因数据分成测试数据和训练数据;
对所述基因数据进行去噪和标准化处理得到标准化基因数据;
使用最小凸度绝对压缩选择算子LASSO方法对所述标准化基因数据进行特征基因选择,得到特征基因数据;
将所述训练数据对应的特征基因数据注入分类器,对所述分类器进行训练,得到训练后分类器;
将所述测试数据对应的特征基因数据注入所述训练后分类器,得到所述测试数据对应的特征基因数据的分类结果。
本发明实施例提供了一种基因数据处理装置,其可包括:
接收单元,用于接收参考人群的样本特征类型的基因数据,基于交叉验证方法,将所述基因数据分成测试数据和训练数据;
预处理单元,用于对所述基因数据进行去噪和标准化处理得到标准化基因数据;
特征提取单元,用于使用最小凸度绝对压缩选择算子LASSO方法对所述标准化基因数据进行特征基因选择,得到特征基因数据;
训练单元,用于将所述训练数据对应的特征基因数据注入分类器,对所述分类器进行训练,得到训练后分类器;
分类单元,用于将所述测试数据对应的特征基因数据注入所述训练后分类器,得到所述测试数据对应的特征基因数据的分类结果。
由上可见,本发明实施例通过对参考人群的样本特征类型的基因数据基于交叉验证方法,分为训练数据和测试数据,对基因数据处理成标准化基因数据后,基于LASSO方法进行特征基因提取得到特征基因数据,使用训练数据训练分类器后,利用所述分类器对测试数据进行分类,可以提高特征基因选择的准确性、降低测试样本和训练样本的选择对分类准确率的影响。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基因数据处理方法的第一实施例流程示意图;
图2为本发明提供的一种基因数据处理方法的第二实施例流程示意图;
图3为本发明提供的一种基因数据处理装置的第一实施例结构示意图;
图4为本发明提供的一种基因数据处理装置的第二实施例结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明提供的基因数据处理方法的第一实施例流程示意图。本实施例中所描述的基因数据处理方法,包括步骤:
S101,接收参考人群的样本特征类型的基因数据,基于交叉验证方法,将所述基因数据分成测试数据和训练数据。
在一些可行的实施例中,本发明实施例步骤S101所描述的特征类型可以包括健康类和贫血类,或者,普通贫血类和地中海贫血类,或者,α地中海贫血类和β地中海贫血类,或者,α地中海贫血类或β地中海贫血类中的静止型、轻型、HbH型以及重型,所述参考人群可以包括婚检人群和/或孕检人群,所述基因数据可以包括DNA微阵列数据。
本发明实施例步骤S101将所述基因数据分成测试数据和训练数据包括:
将所述基因数据分成三个数据集,依次选取每个数据集作为测试样本,将除所述测试样本的数据集设置为训练样本。
S102,对所述基因数据进行去噪和标准化处理得到标准化基因数据。
具体实现中,如图2所示,本实施例步骤S102所描述的对所述基因数据进行去噪和标准化处理得到标准化基因数据具体可以通过以下步骤实现:
S1021,去除所述基因数据中的噪音基因数据,得到去噪基因数据;
S1022,对所述去噪基因数据进行标准化处理,设置每个基因表达谱的平均值为0,标准差为1,得到标准化基因数据。
S103,使用最小凸度绝对压缩选择算子LASSO方法对所述标准化基因数据进行特征基因选择,得到特征基因数据。
在一些可行的实施例中,本发明实施例步骤S103中的LASSO方法用于描述一类有约束的优化问题,基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,得到可以解释的模型,所述LASSO方法计算过程如下:
假设所述标准化基因数据(X,Y)包含n个样本,m个特征,X=(x1,x2,…xj,…,xm),xj=(x1j,x2j,…,xnj)T是自变量,Y=(y1,y2,…,yi,…,yn)T,yi是响应变量,i=1,2,…,n,j=1,2,…,m,且xj已标准化,yj已中心化。用自变量对响应变量进行线性回归,并限定回归系数β=(β12,…,βm)的一范数不超过某个阈值t。
xj标准化,yi中心化:
Σ i = 1 n y i = 0 , Σ i = 1 n x ij = 0 , Σ i = 1 n x ij 2 = 1 , j = 1,2 , . . . , m - - - ( 1 )
LASSO最小化残差平方和:
arg min β { Σ i = 1 n ( y i - Σ j = 1 m x ij β j ) 2 } subjectto Σ j = 1 m | β j | ≤ t - - - ( 2 )
其中,t≥0是一个可调整参数,当t值比较小时,某些相关度较低的变量系数会被压缩为0,从而删除这些变量对应的所述标准化基因数据,将剩余的标准化基因数据确定为特征基因数据。
优选地,还可以使用最小角回归(least angle regression,LARS)算法对所述标准化基因数据进行特征提取,所述LARS算法是一种残差拟合的过程,它保证了所有入选回归模型的变量在解路径上前进时,与当前残差的相关系数都是一样的。LARS算法可以有效地找到LASSO的最优解,算法流程如下所示。
1)将X中所有自变量标准化处理,即均值为0、方差为1;将Y中所有响应变量中心化处理,即均值为0,如式(1)所示。记残差假定所有的回归系数β=(β1,β2,...,βm)均为0;
2)寻找与残差r相关度最高的自变量xj
3)从0开始沿xj和r的内积符号方向调整xj的系数βj并计算残差,直到找到另一个与r最相关的变量xk
4)继续沿(xj,xk)与当前r内积符号方向调整βj和βk,直到找到另一个变量xp与当前残差r有次高的相关度,若有非零回归系数降为0,则将对应的变量从当前变量集合(所述标准化基因数据)中删除,然后重新计算;
5)重复上述步骤,直至所有的自变量都进入模型求解,得到特征基因数据。
设置迭代最大次数为1000。
具体实施例中,所述特征基因选择方法还可以通过如下步骤实现:
将所述标准化基因数据平均划分为K份基因数据集,分别使用LARS方法对每份基因数据集进行特征选择得到特征子集,将提取出来的每份特征子集进行合并得到合并后特征数据集,对所述合并后特征数据集进行特征选择,得到最终的特征基因数据,具体流程如下:
输入:数据(X,Y),X=(x1,x2,...,xj,...,xm)包含n个样本,m个特征;Y=(y1,y2,...,yi,...,yn)T对应n个样本的标签;划分的份数K。
输出:与类标签强关联的特征子集FS。
F=[];//初始F为空;
FS=[];//初始化FS为空;
for i=1:K
A[i]=LARS(X[i]);//X[i]是将所述标准化基因数据划分为K份后的第i份基因子集,使用LARS算法对每一份基因子集X[i]进行特征选择,结果保存在A[i]中;
end
for i=1:K
F=F∪A[i];//合并所有的特征基因子集A[i],放入F中;
end
FS=LARS(F);//对合并后的特征基因子集F用LARS进行特征基因选择;
在一个可行的实施例中,实验所用的基因谱表达数据,该数据集的样本个数为27,特征维数为9266,直接使用LASSO特征选择方法计算开销会很大,易造成“过拟合”问题,因此将基因集合划分为100份,每份数据集包含九十多维基因,可以解决“过拟合”问题,减少计算开销。
S104,将所述训练数据对应的特征基因数据注入分类器,对所述分类器进行训练,得到训练后分类器。
在一些可行的实施例中,本发明实施例步骤S104中所描述的分类器可以包括LASSO分类器、支持向量机(SVM)分类器、贝叶斯分类器(NBayes)等等。
S105,将所述测试数据对应的特征基因数据注入所述训练后分类器,得到所述测试数据对应的特征基因数据的分类结果
在一些可行的实施例中,基于本发明提供的方法,使用20个鼻咽癌和20个对照组的微芯片数据作为基因数据,得到的分类准确率统计表如下:
Pattern Classifier(分类器) se sp acc avc mcc
Self LASSO 100.00% 100.00% 100.00% 100.00% 1.00
Self SVM支持向量机 100.00% 100.00% 100.00% 100.00% 1.00
Self Nbayes 100.00% 100.00% 100.00% 100.00% 1.00
Self Dtree 90.00% 100.00% 95.00% 95.00% 0.91
3-CV LASSO 95.00% 100.00% 97.50% 97.50% 0.95
3-CV SVM 100.00% 95.00% 97.50% 97.50% 0.95
3-CV NBayes 100.00% 100.00% 100.00% 100.00% 1.00
3-CV Dtree 85.00% 85.00% 85.00% 85.00% 0.70
本发明提供的基因数据处理方法通过对参考人群的样本特征类型的基因数据基于交叉验证方法,分为训练数据和测试数据,对基因数据处理成标准化基因数据后,基于LASSO方法进行特征基因提取得到特征基因数据,使用训练数据训练分类器后,利用所述分类器对测试数据进行分类,可以提高特征基因选择的准确性、降低测试样本和训练样本的选择对分类准确率的影响。
参见图3,是本发明提供的基因数据处理装置的第一实施例结构示意图。本实施例中所描述的基因数据处理装置,包括:
接收单元201,用于接收参考人群的样本特征类型的基因数据,基于交叉验证方法,将所述基因数据分成测试数据和训练数据。
具体实现中,所述特征类型包括:健康类和贫血类,或者,普通贫血类和地中海贫血类;或者,α地中海贫血类和β地中海贫血类;或者,α地中海贫血类或β地中海贫血类中的静止型、轻型、HbH型以及重型。
所述参考人群包括婚检人群和/或孕检人群。
所述接收单元201将所述基因数据分成测试数据和训练数据具体包括:
将所述基因数据分成三个数据集,依次选取每个数据集作为测试样本,将除所述测试样本的数据集设置为训练样本。
预处理单元202,用于对所述基因数据进行去噪和标准化处理得到标准化基因数据。
具体实现中,如图4所示本发明提供的基因数据处理装置的第二实施例结构示意图,所述预处理单元202具体包括:
去噪单元2021,用于去除所述基因数据中的噪音基因数据,得到去噪基因数据;
归一化单元2022,用于对所述去噪基因数据进行标准化处理,设置每个基因表达谱的平均值为0,标准差为1,得到标准化基因数据。
特征提取单元203,用于使用最小凸度绝对压缩选择算子LASSO方法对所述标准化基因数据进行特征基因选择,得到特征基因数据。
在一些可行的实施例中,本发明实施例特征提取单元203中的LASSO方法用于描述一类有约束的优化问题,基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,得到可以解释的模型,所述LASSO方法计算过程如下:
假设所述标准化基因数据(X,Y)包含n个样本,m个特征,X=(x1,x2,…xj,…,xm),xj=(x1j,x2j,…,xnj)T是自变量,Y=(y1,y2,…,yi,…,yn)T,yi是响应变量,i=1,2,…,n,j=1,2,…,m,且xj已标准化,yj已中心化。用自变量对响应变量进行线性回归,并限定回归系数β=(β12,…,βm)的一范数不超过某个阈值t。
xj标准化,yi中心化:
Σ i = 1 n y i = 0 , Σ i = 1 n x ij = 0 , Σ i = 1 n x ij 2 = 1 , j = 1,2 , . . . , m - - - ( 1 )
LASSO最小化残差平方和:
arg min β { Σ i = 1 n ( y i - Σ j = 1 m x ij β j ) 2 } subjectto Σ j = 1 m | β j | ≤ t - - - ( 2 )
其中,t≥0是一个可调整参数,当t值比较小时,某些相关度较低的变量系数会被压缩为0,从而删除这些变量对应的所述标准化基因数据,将剩余的标准化基因数据确定为特征基因数据。
优选地,还可以使用最小角回归(least angle regression,LARS)算法对所述标准化基因数据进行特征提取,所述LARS算法是一种残差拟合的过程,它保证了所有入选回归模型的变量在解路径上前进时,与当前残差的相关系数都是一样的。LARS算法可以有效地找到LASSO的最优解,算法流程如下所示。
1)将X中所有自变量标准化处理,即均值为0、方差为1;将Y中所有响应变量中心化处理,即均值为0,如式(1)所示。记残差假定所有的回归系数β=(β1,β2,...,βm)均为0;
2)寻找与残差r相关度最高的自变量xj
3)从0开始沿xj和r的内积符号方向调整xj的系数βj并计算残差,直到找到另一个与r最相关的变量xk
4)继续沿(xj,xk)与当前r内积符号方向调整βj和βk,直到找到另一个变量xp与当前残差r有次高的相关度,若有非零回归系数降为0,则将对应的变量从当前变量集合(所述标准化基因数据)中删除,然后重新计算;
5)重复上述步骤,直至所有的自变量都进入模型求解,得到特征基因数据。
设置迭代最大次数为1000。
具体实施例中,所述特征基因选择方法还可以通过如下步骤实现:
将所述标准化基因数据平均划分为K份基因数据集,分别使用LARS方法对每份基因数据集进行特征选择得到特征子集,将提取出来的每份特征子集进行合并得到合并后特征数据集,对所述合并后特征数据集进行特征选择,得到最终的特征基因数据,具体流程如下:
输入:数据(X,Y),X=(x1,x2,...,xj,...,xm)包含n个样本,m个特征;Y=(y1,y2,...,yi,...,yn)T对应n个样本的标签;划分的份数K。
输出:与类标签强关联的特征子集FS。
F=[];//初始F为空;
FS=[];//初始化FS为空;
for i=1:K
A[i]=LARS(X[i]);//X[i]是将所述标准化基因数据划分为K份后的第i份基因子集,使用LARS算法对每一份基因子集X[i]进行特征选择,结果保存在A[i]中;
end
for i=1:K
F=F∪A[i];//合并所有的特征基因子集A[i],放入F中;
end
FS=LARS(F);//对合并后的特征基因子集F用LARS进行特征基因选择;
在一个可行的实施例中,实验所用的基因谱表达数据,该数据集的样本个数为27,特征维数为9266,直接使用LASSO特征选择方法计算开销会很大,易造成“过拟合”问题,因此将基因集合划分为100份,每份数据集包含九十多维基因,可以解决“过拟合”问题,减少计算开销。
训练单元204,用于将所述训练数据对应的特征基因数据注入分类器,对所述分类器进行训练,得到训练后分类器。
在一些可行的实施例中,本发明实施例训练单元204中所描述的分类器可以包括LASSO分类器、支持向量机(SVM)分类器、贝叶斯分类器(NBayes)等等。
分类单元205,用于将所述测试数据对应的特征基因数据注入所述训练后分类器,得到所述测试数据对应的特征基因数据的分类结果。
在一些可行的实施例中,基于本发明提供的装置,使用20个鼻咽癌和20个对照组的微芯片数据作为基因数据,得到的分类准确率统计表如下:
Pattern Classifier(分类器) se sp acc avc mcc
Self LASSO 100.00% 100.00% 100.00% 100.00% 1.00
Self SVM支持向量机 100.00% 100.00% 100.00% 100.00% 1.00
Self Nbayes 100.00% 100.00% 100.00% 100.00% 1.00
Self Dtree 90.00% 100.00% 95.00% 95.00% 0.91
3-CV LASSO 95.00% 100.00% 97.50% 97.50% 0.95
3-CV SVM 100.00% 95.00% 97.50% 97.50% 0.95
3-CV NBayes 100.00% 100.00% 100.00% 100.00% 1.00
3-CV Dtree 85.00% 85.00% 85.00% 85.00% 0.70
本发明提供的基因数据处理装置通过对参考人群的样本特征类型的基因数据基于交叉验证方法,分为训练数据和测试数据,对基因数据处理成标准化基因数据后,基于LASSO方法进行特征基因提取得到特征基因数据,使用训练数据训练分类器后,利用所述分类器对测试数据进行分类,可以提高特征基因选择的准确性、降低测试样本和训练样本的选择对分类准确率的影响。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种基因数据处理方法,其特征在于,包括以下步骤:
接收参考人群的样本特征类型的基因数据,基于交叉验证方法,将所述基因数据分成测试数据和训练数据;
对所述基因数据进行去噪和标准化处理得到标准化基因数据;
使用最小凸度绝对压缩选择算子LASSO方法对所述标准化基因数据进行特征基因选择,得到特征基因数据;
将所述训练数据对应的特征基因数据注入分类器,对所述分类器进行训练,得到训练后分类器;
将所述测试数据对应的特征基因数据注入所述训练后分类器,得到所述测试数据对应的特征基因数据的分类结果。
2.根据权利要求1所述的方法,其特征在于,
所述样本特征类型包括:
健康类和贫血类,
或者,普通贫血类和地中海贫血类;
或者,α地中海贫血类和β地中海贫血类;
或者,α地中海贫血类或β地中海贫血类中的静止型、轻型、HbH型以及重型。
3.根据权利要求1所述的方法,其特征在于,
所述参考人群包括婚检人群和/或孕检人群。
4.根据权利要求1所述的方法,其特征在于,所述将所述基因数据分成测试数据和训练数据包括:
将所述基因数据分成三个数据集,依次选取每个数据集作为测试样本,将除所述测试样本的数据集设置为训练样本。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述对所述基因数据进行去噪和标准化处理得到标准化基因数据包括:
去除所述基因数据中的噪音基因数据,得到去噪基因数据;
对所述去噪基因数据进行标准化处理,设置每个基因表达谱的平均值为0,标准差为1,得到标准化基因数据。
6.一种基因数据处理装置,其特征在于,所述装置包括:
接收单元,用于接收参考人群的样本特征类型的基因数据,基于交叉验证方法,将所述基因数据分成测试数据和训练数据;
预处理单元,用于对所述基因数据进行去噪和标准化处理得到标准化基因数据;
特征提取单元,用于使用最小凸度绝对压缩选择算子LASSO方法对所述标准化基因数据进行特征基因选择,得到特征基因数据;
训练单元,用于将所述训练数据对应的特征基因数据注入分类器,对所述分类器进行训练,得到训练后分类器;
分类单元,用于将所述测试数据对应的特征基因数据注入所述训练后分类器,得到所述测试数据对应的特征基因数据的分类结果。
7.根据权利要求6所述的装置,其特征在于,所述接收单元接收的基因数据中,
所述特征类型包括:
健康类和贫血类,
或者,普通贫血类和地中海贫血类;
或者,α地中海贫血类和β地中海贫血类;
或者,α地中海贫血类或β地中海贫血类中的静止型、轻型、HbH型以及重型。
8.根据权利要求6所述的装置,其特征在于,所述接收单元接收的基因数据中,
所述参考人群包括婚检人群和/或孕检人群。
9.根据权利要求6所述的装置,其特征在于,
所述接收单元将所述基因数据分成测试数据和训练数据包括:
将所述基因数据分成三个数据集,依次选取每个数据集作为测试样本,将除所述测试样本的数据集设置为训练样本。
10.根据权利要求6-9任一项所述的装置,其特征在于,
所述预处理单元,具体用于
去除所述基因数据中的噪音基因数据,得到去噪基因数据;
对所述去噪基因数据进行标准化处理,设置每个基因表达谱的平均值为0,标准差为1,得到标准化基因数据。
CN201410616856.1A 2014-11-05 2014-11-05 一种基因数据处理方法及装置 Pending CN104408332A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410616856.1A CN104408332A (zh) 2014-11-05 2014-11-05 一种基因数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410616856.1A CN104408332A (zh) 2014-11-05 2014-11-05 一种基因数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN104408332A true CN104408332A (zh) 2015-03-11

Family

ID=52645963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410616856.1A Pending CN104408332A (zh) 2014-11-05 2014-11-05 一种基因数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN104408332A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205349A (zh) * 2015-08-25 2015-12-30 合肥工业大学 马尔科夫毯嵌入式的基于封装的特征选择方法
CN105825078A (zh) * 2016-03-16 2016-08-03 广东工业大学 基于基因大数据的小样本基因表达数据分类方法
CN106290729A (zh) * 2016-08-09 2017-01-04 成都润泰茂成科技有限公司 一种监测数据处理装置
CN107066781A (zh) * 2016-11-03 2017-08-18 西南大学 基于遗传和环境相关的结直肠癌数据模型的分析方法
CN107273718A (zh) * 2017-06-27 2017-10-20 电子科技大学 一种融合dna甲基化特征的生存时间分析方法
CN107463798A (zh) * 2017-08-02 2017-12-12 南京高新生物医药公共服务平台有限公司 预测结肠腺癌预后的12‑基因表达分类器及其构建方法
CN113255447A (zh) * 2021-04-23 2021-08-13 桂林电子科技大学 脑电信号解码方法、装置、设备及计算机可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘晓宁: "基于Lasso特征选择的方法比较", 《安徽电子信息职业技术学院学报》 *
张靖 等: "K-spilt Lasso:有效的肿瘤特征基因选择方法", 《计算机科学与探索》 *
张靖 等: "基于迭代Lasso的肿瘤分类信息基因选择方法研究", 《模式识别与人工智能》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205349A (zh) * 2015-08-25 2015-12-30 合肥工业大学 马尔科夫毯嵌入式的基于封装的特征选择方法
CN105205349B (zh) * 2015-08-25 2018-08-03 合肥工业大学 马尔科夫毯嵌入式的基于封装的基因选择方法
CN105825078A (zh) * 2016-03-16 2016-08-03 广东工业大学 基于基因大数据的小样本基因表达数据分类方法
CN105825078B (zh) * 2016-03-16 2019-02-26 广东工业大学 基于基因大数据的小样本基因表达数据分类方法
CN106290729A (zh) * 2016-08-09 2017-01-04 成都润泰茂成科技有限公司 一种监测数据处理装置
CN107066781A (zh) * 2016-11-03 2017-08-18 西南大学 基于遗传和环境相关的结直肠癌数据模型的分析方法
CN107273718A (zh) * 2017-06-27 2017-10-20 电子科技大学 一种融合dna甲基化特征的生存时间分析方法
CN107463798A (zh) * 2017-08-02 2017-12-12 南京高新生物医药公共服务平台有限公司 预测结肠腺癌预后的12‑基因表达分类器及其构建方法
CN113255447A (zh) * 2021-04-23 2021-08-13 桂林电子科技大学 脑电信号解码方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN104408332A (zh) 一种基因数据处理方法及装置
CN104965819B (zh) 一种基于句法词向量的生物医学事件触发词识别方法
US8489531B2 (en) Identification of co-regulation patterns by unsupervised cluster analysis of gene expression data
US20180181805A1 (en) Generating variations of a known shred
CN113947607A (zh) 一种基于深度学习的癌症病理图像生存预后模型构建方法
Gokhale et al. Genevit: gene vision transformer with improved deepinsight for cancer classification
CN107463797B (zh) 高通量测序的生物信息分析方法及装置、设备及存储介质
CN104200134A (zh) 一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法
Saberkari et al. Cancer classification in microarray data using a hybrid selective independent component analysis and υ-support vector machine algorithm
CN105574363A (zh) 一种基于svm-rfe和重叠度的特征选择方法
CN102902984A (zh) 基于局部一致性的遥感影像半监督投影降维方法
CN108287819A (zh) 一种实现财经新闻自动关联到股票的方法
CN104504305B (zh) 监督基因表达数据分类方法
CN104699707A (zh) 一种聚类数据的方法和装置
CN107977352A (zh) 信息处理装置和方法
Tasoulis et al. Unsupervised clustering of bioinformatics data
EP4214715A1 (en) Method and system for subsampling of cells from single-cell genomics dataset
Paylakhi et al. A novel gene selection method using GA/SVM and fisher criteria in Alzheimer's disease
Liu Prominent feature selection of microarray data
CN103488997A (zh) 基于各类重要波段提取的高光谱图像波段选择方法
CN113971984A (zh) 分类模型构建方法及装置、电子设备、存储介质
Álvaro et al. Page segmentation of structured documents using 2d stochastic context-free grammars
Hu et al. An aerial image recognition framework using discrimination and redundancy quality measure
Al-Shalalfa et al. Application of double clustering to gene expression data for class prediction
CN107609348A (zh) 高通量转录组数据样本分类数目估计方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150311

RJ01 Rejection of invention patent application after publication