CN105825081A - 一种基因表达数据分类方法及分类系统 - Google Patents
一种基因表达数据分类方法及分类系统 Download PDFInfo
- Publication number
- CN105825081A CN105825081A CN201610246971.3A CN201610246971A CN105825081A CN 105825081 A CN105825081 A CN 105825081A CN 201610246971 A CN201610246971 A CN 201610246971A CN 105825081 A CN105825081 A CN 105825081A
- Authority
- CN
- China
- Prior art keywords
- gene
- gene expression
- cluster
- training set
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Abstract
本申请公开了一种基因表达数据分类方法及分类系统,其中,所述基因表达数据分类方法中在获得所述基因特征数据集之后,采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,然后对所述聚类集合进行处理获得第二样本矩阵、第二训练集以及特征索引集以对基因表达数据进行降维,从而降低基因表达数据之间的冗余度,进而在很大程度上降低了在之后对所述第二训练集进行特征选择的过程中占用的计算资源以及耗费的计算时间;而采用聚类算法对所述基因特征数据集进行聚类操作所占用的计算资源以及耗费的计算时间都很少,因此采用所述基因表达数据分类方法对待测基因表达数据进行分类占用的计算资源和耗费的计算时间都较少。
Description
技术领域
本申请涉及基因分类技术领域,更具体地说,涉及一种基因表达数据分类方法及分类系统。
背景技术
利用DNA微阵列计数可以同时测定成千上万维基因的表达数据,这些表达数据能够帮助研究人员研究生物的本质。但是在大量的基因表达数据中,只有很少量的基因表达数据是研究人员的研究客体,以癌症基因的研究为例,癌症基因的表达数据样本通常少于一百,而在大量的基因表达数据中对癌症基因与其他基因进行分类就需要耗费大量的计算资源和计算时间。
有研究人员利用支持向量机递归特征消除(SupportVectorMachineRecursiveFeatureElimination,SVM-RFE)算法可以自动消除大量的基因表达数据中的冗余基因(即对基因分类没用贡献的基因),以实现从大量的基因表达数据中找出目标基因的目的。
但是SVM-RFE算法仍然需要对大量的基因表达数据进行特征选择处理,需要占用大量的计算资源并且耗费大量的计算时间。
发明内容
为解决上述技术问题,本发明提供了一种基因表达数据分类方法及分类系统,以解决对基因表达数据进行分类需要占用大量的计算资源并且耗费大量的计算时间的问题。
为解决上述技术问题,本发明实施例提供了如下技术方案:
一种基因表达数据分类方法,包括:
获取第一训练集,利用所述第一训练集生成基因特征数据集,所述第一训练集中包含基因表达数据;
采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心;
利用所有的所述聚类集合的代表基因生成第二样本矩阵,其中,所述代表基因为每个所述聚类集合中的一个基因表达数据;
对所述第二样本矩阵进行处理获得第二训练集;
生成与所述第二训练集对应的特征索引集;
对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序的特征索引集;
在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集;
对所述第三训练集进行建模,获得模型函数;
根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的分类结果。
优选的,所述第一预设参数的设定方式为:
采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5、10或20。
优选的,所述采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心,包括:
采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心。
优选的,所述代表基因通过公式生成;
其中,Gk表示第k个聚类集合,表示所述第k个聚类集合的代表基因,mk表示第k个聚类中心,K表示所述第一预设参数;gi表示所述聚类集合中的基因表达数据;
其中,所述第二样本矩阵为其中,R表示实数集,N表示所述第一训练集中的样本总个数。
优选的,根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的诊断结果包括:
根据所述特征索引集对所述待测基因的表达数据进行特征选择,获得第一次特征选择后的样本;
根据所述有顺序的特征索引集,选择所述第一次特征选择后的样本中的前第二预设参数个特征组成第二次特征选择后的样本;
将所述第二次特征选择后的样本输入所述模型函数中,获得所述模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
一种基因表达数据分类系统,包括:
特征选择模块,用于获取第一训练集,利用所述第一训练集生成基因特征数据集,所述第一训练集包含基因表达数据;采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心;利用所有的所述聚类集合的代表基因生成第二样本矩阵,其中,所述代表基因为每个所述聚类集合中的一个基因表达数据;对所述第二样本矩阵进行处理获得第二训练集,生成与所述第二训练集对应的特征索引集;对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序的特征索引集;在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集;
训练模块,用于对所述第三训练集进行建模,获得模型函数;
诊断模块,用于根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的分类结果。
优选的,所述特征选择模块包括:
预处理单元,用于获取基因样本的第一训练集,对所述第一训练集进行预处理,生成第一样本矩阵,并根据所述样本矩阵生成基因特征数据集;
第一特征选择单元,用于采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5或10或20;采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心,在每个聚类集合中选取一个基因作为该聚类集合的代表基因,并利用所有的聚类集合的代表基因生成第二样本矩阵,并对所述第二样本矩阵进行处理获得第二训练集,同时生成与所述第二训练集对应的特征索引集;
第二特征选择单元,用于对所述第二训练集进行特征排序,获得有顺序的特征索引集,确定保留的特征个数为第二预设参数,在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集。
优选的,所述第一特征选择单元用于采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5或10或20;采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个聚类中心和第一预设参数个聚类集合,在每个聚类集合中选取一个基因作为该聚类集合的代表基因,并利用所有的聚类集合的代表基因生成第二样本矩阵,并取所述第二样本矩阵的每一列x′i组成所述第二训练集其中,x′i∈RK。
优选的,所述代表基因通过公式生成,其中,Gk表示第k个聚类集合,表示所述第k个聚类集合的代表基因,mk表示第k个聚类中心,K表示所述第一预设参数;gi表示所述聚类集合中的基因表达数据;
其中,所述第二样本矩阵为其中R表示实数集,N表示生成所述第一训练集中的样本总个数。
优选的,所述诊断模块包括:
第一选择单元,用于根据所述特征索引集对所述待测基因表达数据进行特征选择,获得第一次特征选择后的样本;
第二选择单元,用于根据所述有顺序的特征索引集选择所述第一次特征选择后的样本中的前第二预设参数个特征组成第二次特征选择后的样本;
诊断单元,用于将所述第二次特征选择后的样本输入所述模型函数中,获得所述模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
从上述技术方案可以看出,本发明实施例提供了一种基因表达数据分类方法及分类系统,其中,所述基因表达数据分类方法中在获得所述基因特征数据集之后,采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,然后对所述聚类集合进行处理获得第二样本矩阵、第二训练集以及特征索引集以对基因表达数据进行降维,从而降低基因表达数据之间的冗余度,进而在很大程度上降低了在之后对所述第二训练集进行特征选择的过程中占用的计算资源以及耗费的计算时间;而采用聚类算法对所述基因特征数据集进行聚类操作所占用的计算资源以及耗费的计算时间都很少,因此采用所述基因表达数据分类方法对待测基因表达数据进行分类占用的计算资源和耗费的计算时间都较少。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请的一个实施例提供的一种基因表达数据分类方法的流程示意图;
图2为本申请的另一个实施例提供的一种基因表达数据分类方法的流程示意图;
图3为本申请的一个实施例提供的一种基因表达数据分类系统的结构示意图;
图4为本申请的一个实施例提供的一种特征选择模块的结构示意图;
图5为本申请的一个实施例提供的一种诊断模块的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的一个实施例提供了一种基因表达数据分类方法,如图1所示,包括:
S101:获取第一训练集,利用所述第一训练集生成基因特征数据集,所述第一训练集中包含基因表达数据。
需要说明的是,所述第一训练集中的基因表达数据通过DNA微阵列技术获取。
但在本申请的其他实施例中,还可以通过其他技术或者设备获取基因表达数据,本申请对获取基因表达数据所采用的方法或装置并不做限定,具体视实际情况而定。
在本申请的一个具体实施例中,通过DNA微阵列技术获取基因表达数据构成第一训练集其中,xi是所述第一训练集中的基因表达数据,xi∈RD,xi为所述第一训练集中的基因表达数据,yi是xi的标签,表明xi的类别,yi∈{-1,+1},N代表所述第一训练集中样本的总个数,D代表所述第一训练集中样本的维数,R代表实数集。对所述第一训练集进行预处理,生成所述第一样本矩阵X=[x1,…,…,xN],…,xN],该矩阵的每一列为所述第一训练集的一个样本,取所述第一样本矩阵的每一行,即gj=(Xj)T,j=1,…,D,形成所述基因特征数据集gj∈RN。
S102:采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心。
其中,每个聚类集合中包含所述基因特征数据集中相似的基因表达数据,每个聚类集合都具有一个聚类中心,每个聚类集合的聚类中心由该聚类集合中的所有基因表达数据计算得来。在本申请的一个实施例中,每个聚类集合的聚类中心为该聚类集合中所有基因表达数据的平均值。但本申请对此并不做限定,每个聚类集合的聚类中心还可以通过其他方式确定,具体视实际情况而定。
需要说明的是,采用聚类算法对所述基因特征数据集进行聚类的目的是对基因表达数据进行降维,以降低基因表达数据之间的冗余度。
S103:利用所有的所述聚类集合的代表基因生成第二样本矩阵,其中,所述代表基因为每个所述聚类集合中的一个基因表达数据。
S104:对所述第二样本矩阵进行处理获得第二训练集。
其中在获得所有的所述聚类集合的代表基因后,利用所有的所述聚类集合的代表基因组成所述第二样本矩阵,取所述第二样本矩阵的每一列组成所述第二训练集。
S105:生成与所述第二训练集对应的特征索引集。
S106:对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序的特征索引集。
需要说明的是,在本申请的一个实施例中,采用SVM-RFE算法对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序的特征索引集。
S107:在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集。
其中,所述第二预设参数的值小于所述第一预设参数的值。
S108:对所述第三训练集进行建模,获得模型函数。
在本申请的一个实施例中,采用支持向量机分类器对所述第三训练集进行建模,获得模型函数。
S109:根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的分类结果。
需要说明的是,所述待测基因与所述第一训练集在同一次的基因表达数据的采集过程中获得。
在上述实施例的基础上,在本申请的一个优选实施例中,如图2所示,所述基因表达数据分类方法包括:
S201:获取基因表达数据构成的第一训练集,对所述第一训练集进行预处理,生成所述第一样本矩阵,取所述第一样本矩阵的每一行形成所述基因特征数据集。
S202:采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5或10或20;利用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心。
在本实施例中,所述第一预设参数的设定方式为:
采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5、10或20。在本申请的一个优选实施例中,N优选为10。
S203:利用所有的所述聚类集合的代表基因生成第二样本矩阵,所述代表基因通过公式获得,所述第二样本矩阵为
其中R表示实数集,N表示所述第一训练集中的样本总个数,Gk表示第k个聚类集合,表示所述第k个聚类集合的代表基因,||||2表示取范数运算,下标表示范数类型为欧几里得范数;mk表示第k个聚类中心,K表示所述第一预设参数;gi表示所述聚类集合中的基因表达数据。
S204:取所述第二样本矩阵的每一列组成第二训练集。
S205:生成与所述第二训练集对应的特征索引集。
S206:选取N折交叉验证法对所述基因特征数据集进行处理的过程中最高识别率时特征基因的集合的大小作为所述第二预设参数的值,采用SVM-RFE方法对所述第二训练集进行特征排序,得到一个与所述排序后的第二训练集对应的有顺序的特征索引集;
S207:在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集。
S208:采用支持向量机分类器对所述第三训练集进行建模,获得模型函数。
S209:根据所述特征索引集对所述待测基因的表达数据进行特征选择,获得第一次特征选择后的样本。
其中,所述待测基因与所述第一训练集中的基因表达数据通过同一次DNA微阵列技术采集获得。
S210:根据所述有顺序的特征索引集,选择所述第一次特征选择后的样本中的前第二预设参数个特征组成第二次特征选择后的样本。
S211:将所述第二次特征选择后的样本输入所述模型函数中,获得所述模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
在上述实施例的基础上,在本申请的一个具体实施例中,在乳腺癌数据集上对本申请实施例提供的基因表达数据分类方法进行了测试,所述乳腺癌数据集包括97名患者样本,属于两个类别。每个样本都有24481个基因表达数据。所述第一训练集包括78个患者样本,其中34个是在至少5年内的癌细胞转移的患者(标记为“旧病复发”),其余44个样本是从患者初步诊断为至少5年后仍健康的患者(标记为“非复发”)。相应地,待测基因样本中包括12个“旧病复发”患者样本和7个“非复发”患者样本。
具体测试步骤如下:
通过DNA微阵列技术获取所述乳腺癌数据集中的基因表达数据构成第一训练集其中,xi为构成所述第一训练集的基因表达数据,xi∈RD,yi是xi的标签,表明xi的类别,yi∈{-1,+1},N代表所述第一训练集中样本的总个数,D代表所述第一训练集中样本的维数,R代表实数集。这里N=97,D=24481。
对所述第一训练集进行预处理,生成所述第一样本矩阵X=[x1,…,xN],该矩阵的每一列为所述第一训练集的一个样本,取所述第一样本矩阵的每一行,即gj=(Xj)T,j=1,…,24481,形成所述基因特征数据集gj∈R97。
确定聚类中心数目为第一预设参数K,此处K=80(通过10折交叉验证法选定),采用K-means聚类算法对所述基因特征数据集进行聚类,获得80个聚类中心mk和80个聚类集合Gk,k=1,…,K。
在每个聚类集合中选取一个基因表达数据作为该聚类集合的代表基因,所述代表基因的选取公式为:其中,||||2表示取范数运算,下标表示范数类型为欧几里得范数,Gk表示第k个聚类集合,表示所述第k个聚类集合的代表基因,mk表示第k个聚类中心。生成所述样本矩阵其中N表示训练集中训练样本的总个数。取所述样本矩阵X'的每一列作为x′i,组成所述第二训练集其中x′i∈R80,同时生成与所述第二训练集对应的特征索引集|F|=80。
确定第二预设参数的值d,所述第二预设参数d(d<80)的值为采用10折交叉验证法对所述基因特征数据集进行处理的过程中,最高识别率时特征基因的集合的大小。采用SVM-RFE方法对所述第二训练集进行特征排序,得到一个有顺序的特征索引集|F'|=80。在所述有顺序的特征索引集中选取前d个特征组成第三训练集其中x″i∈Rd,在本实施例中,d=37。
采用支持向量机分类器对所述第三训练集进行建模,获得模型函数f(x″)。
令待测基因表达数据(在本实施例中为癌症基因表达数据)为x,其中x∈R24481。
根据所述特征索引集F对所述待测基因x(x∈RD)的表达数据进行特征选择,获得第一次特征选择后的样本x′(x′∈RK);
根据所述有顺序的特征索引集F'选择所述第一次特征选择后的样本x′中的前第二预设参数个特征组成第二次特征选择后的样本x″(x″∈Rd);
将所述第二次特征选择后的样本x″输入所述模型函数f(x″)中,获得所述模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
采用相同的上述测试过程对本申请实施例提供的基因表达数据分类方法与SVM-RFE(SVM-RecursiveFeatureElimination)算法以及MRMR+SVM-RFE(minimalredundancy-maximalrelevance+SVM-RecursiveFeatureElimination)算法在相同的乳腺癌数据集上进行对比实验。随机选取78个训练样本10次,表1给出了上述三种方法各自获得的最好平均分类性能时的对比。
表1SVM-RFE,MRMR+SVM-RFE和本申请提供的基因表达数据分类方法最好分类性能的对比
通过表1的对比可以发现,本申请实施例提供的基因表达数据分类方法比其他两种算法在各项参数上都有较大提升,且大大降低了时间消耗。
相应的,本申请实施例还提供了一种基因表达数据分类系统,如图3所示,包括:
特征选择模块A10,用于获取第一训练集,利用所述第一训练集生成基因特征数据集,所述第一训练集包含基因表达数据;采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心;利用所有的所述聚类集合的代表基因生成第二样本矩阵,其中,所述代表基因为每个所述聚类集合中的一个基因表达数据;对所述第二样本矩阵进行处理获得第二训练集,生成与所述第二训练集对应的特征索引集;对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序的特征索引集;在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集;
训练模块A20,用于对所述第三训练集进行建模,获得模型函数;
诊断模块A30,用于根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的分类结果。
需要说明的是,在本实施例中,所述待测基因表达数据与所述第一训练集采用生物微阵列技术在同一次采集中获得。
所述基因表达数据分类系统在获得所述基因特征数据集之后,采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个聚类集合,每个所述聚类集合具有一个聚类中心,然后对所述聚类集合进行处理获得第二样本矩阵、第二训练集以及特征索引集以对基因表达数据进行降维,从而降低基因表达数据之间的冗余度,进而在很大程度上降低了在之后对所述第二训练集进行特征选择的过程中占用的计算资源以及耗费的计算时间;而采用聚类算法对所述基因特征数据集进行聚类操作所占用的计算资源以及耗费的计算时间都很少,从而大大降低了对待测基因表达数据进行分类占用的计算资源和耗费的计算时间。
在上述实施例的基础上,在本申请的一个实施例中,如图4所示,所述特征选择模块A10包括:
预处理单元A11,用于获取基因样本的第一训练集,对所述第一训练集进行预处理,生成第一样本矩阵,并根据所述样本矩阵生成基因特征数据集;
第一特征选择单元A12,用于采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5或10或20;采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心,在每个聚类集合中选取一个基因作为该聚类集合的代表基因,并利用所有的聚类集合的代表基因生成第二样本矩阵,并对所述第二样本矩阵进行处理获得第二训练集,同时生成与所述第二训练集对应的特征索引集;
第二特征选择单元A13,用于对所述第二训练集进行特征排序,获得有顺序的特征索引集,确定保留的特征个数为第二预设参数,在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集。
需要说明的是,在本实施例中,所述预处理单元A11通过DNA微阵列技术获取基因表达数据的第一训练集其中,xi表示所述第一训练集中的基因表达数据,xi∈RD,yi是xi的标签,表明xi的类别,yi∈{-1,+1},N代表所述第一训练集中样本的总个数,D代表所述第一训练集中样本的维数,R代表实数集。对所述第一训练集进行预处理,生成所述第一样本矩阵X=[x1,…,xN],该矩阵的每一列为所述第一训练集的一个样本,取所述第一样本矩阵的每一行,即gj=(Xj)T,j=1,…,D,形成所述基因特征数据集gj∈RN。
在本实施例中,采用K-means聚类算法对所述基因特征数据集进行聚类的目的是对基因表达数据进行降维,以降低基因表达数据之间的冗余度。
在上述实施例的基础上,在本申请的另一个实施例中,所述第一特征选择单元A12用于采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数K,其中N为5或10或20;
采用K-means聚类算法对所述基因特征数据集进行聚类,获得K个聚类中心mk和K个聚类集合Gk,k=1,…,K。
在每个聚类集合中选取一个基因作为该聚类集合的代表基因,所述代表基因的生成公式为:其中,Gk表示第k个聚类集合,表示所述第k个聚类集合的代表基因,mk表示第k个聚类中心,K表示所述第一预设参数。生成所述样本矩阵其中N表示训练集中训练样本的总个数。取所述样本矩阵X'的每一列为x′i,组成所述第二训练集其中x′i∈RK,同时生成与所述第二训练集对应的特征索引集|F|=K。
需要说明的是,在本申请的一个优选实施例中,采用10折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数。但本申请对此并不做限定,具体视实际情况而定。
在上述实施例的基础上,在本申请的又一个实施例中,所述第二预设参数d(d<K)的值为采用10折交叉验证法对所述基因特征数据集进行处理的过程中,最高识别率时特征基因的集合的大小。在本申请的一个优选实施例中,采用SVM-RFE方法对所述第二训练集合进行特征排序,得到一个有顺序的特征索引集|F'|=K。在所述有顺序的特征索引集中选取前d个特征组成第三训练集其中x″i∈Rd。
在上述实施例的基础上,在本申请的再一个实施例中,采用支持向量机分类器对所述第三训练集进行建模,获得模型函数f(x″)。但本申请对所述第三训练集进行建模所采用的具体方法并不做限定,具体视实际情况而定。
在上述实施例的基础上,在本申请的一个具体实施例中,如图5所示,所述诊断模块A30包括:
第一选择单元A31,用于根据所述特征索引集F对所述待测基因x(x∈RD)的表达数据进行特征选择,获得第一次特征选择后的样本x′(x′∈RK);
第二选择单元A32,用于根据所述有顺序的特征索引集F'选择所述第一次特征选择后的样本x′中的前第二预设参数个特征组成第二次特征选择后的样本x″(x″∈Rd);
诊断单元A33,用于将所述第二次特征选择后的样本x″输入所述模型函数f(x″)中,获得所述模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
综上所述,本申请实施例提供了一种基因表达数据分类方法及分类系统,其中,所述基因表达数据分类方法中在获得所述基因特征数据集之后,采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,然后对所述聚类集合进行处理获得第二样本矩阵、第二训练集以及特征索引集以对基因表达数据进行降维,从而降低基因表达数据之间的冗余度,进而在很大程度上降低了在之后对所述第二训练集进行特征选择的过程中占用的计算资源以及耗费的计算时间;而采用聚类算法对所述基因特征数据集进行聚类操作所占用的计算资源以及耗费的计算时间都很少,因此采用所述基因表达数据分类方法对待测基因表达数据进行分类占用的计算资源和耗费的计算时间都较少。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基因表达数据分类方法,其特征在于,包括:
获取第一训练集,利用所述第一训练集生成基因特征数据集,所述第一训练集中包含基因表达数据;
采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心;
利用所有的所述聚类集合的代表基因生成第二样本矩阵,其中,所述代表基因为每个所述聚类集合中的一个基因表达数据;
对所述第二样本矩阵进行处理获得第二训练集;
生成与所述第二训练集对应的特征索引集;
对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序的特征索引集;
在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集;
对所述第三训练集进行建模,获得模型函数;
根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的分类结果。
2.根据权利要求1所述的基因表达数据分类方法,其特征在于,所述第一预设参数的设定方式为:
采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5、10或20。
3.根据权利要求1所述的基因表达数据分类方法,其特征在于,所述采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心,包括:
采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心。
4.根据权利要求1所述的基因表达数据分类方法,其特征在于,所述代表基因通过公式生成;
其中,Gk表示第k个聚类集合,表示所述第k个聚类集合的代表基因,mk表示第k个聚类中心,K表示所述第一预设参数;gi表示所述聚类集合中的基因表达数据;
其中,所述第二样本矩阵为其中,R表示实数集,N表示所述第一训练集中的样本总个数。
5.根据权利要求1所述的基因表达数据分类方法,其特征在于,根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的诊断结果包括:
根据所述特征索引集对所述待测基因的表达数据进行特征选择,获得第一次特征选择后的样本;
根据所述有顺序的特征索引集,选择所述第一次特征选择后的样本中的前第二预设参数个特征组成第二次特征选择后的样本;
将所述第二次特征选择后的样本输入所述模型函数中,获得所述模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
6.一种基因表达数据分类系统,其特征在于,包括:
特征选择模块,用于获取第一训练集,利用所述第一训练集生成基因特征数据集,所述第一训练集包含基因表达数据;采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心;利用所有的所述聚类集合的代表基因生成第二样本矩阵,其中,所述代表基因为每个所述聚类集合中的一个基因表达数据;对所述第二样本矩阵进行处理获得第二训练集,生成与所述第二训练集对应的特征索引集;对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序的特征索引集;在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集;
训练模块,用于对所述第三训练集进行建模,获得模型函数;
诊断模块,用于根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的分类结果。
7.根据权利要求6所述的基因表达数据分类系统,其特征在于,所述特征选择模块包括:
预处理单元,用于获取基因样本的第一训练集,对所述第一训练集进行预处理,生成第一样本矩阵,并根据所述样本矩阵生成基因特征数据集;
第一特征选择单元,用于采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5或10或20;采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心,在每个聚类集合中选取一个基因作为该聚类集合的代表基因,并利用所有的聚类集合的代表基因生成第二样本矩阵,并对所述第二样本矩阵进行处理获得第二训练集,同时生成与所述第二训练集对应的特征索引集;
第二特征选择单元,用于对所述第二训练集进行特征排序,获得有顺序的特征索引集,确定保留的特征个数为第二预设参数,在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集。
8.根据权利要求7所述的基因表达数据分类系统,其特征在于,所述第一特征选择单元用于采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5或10或20;采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个聚类中心和第一预设参数个聚类集合,在每个聚类集合中选取一个基因作为该聚类集合的代表基因,并利用所有的聚类集合的代表基因生成第二样本矩阵,并取所述第二样本矩阵的每一列x′i组成所述第二训练集其中,x′i∈RK。
9.根据权利要求6所述的基因表达数据分类系统,其特征在于,所述代表基因通过公式生成,其中,Gk表示第k个聚类集合,表示所述第k个聚类集合的代表基因,mk表示第k个聚类中心,K表示所述第一预设参数;gi表示所述聚类集合中的基因表达数据;
其中,所述第二样本矩阵为其中R表示实数集,N表示生成所述第一训练集中的样本总个数。
10.根据权利要求6所述的基因表达数据分类系统,其特征在于,所述诊断模块包括:
第一选择单元,用于根据所述特征索引集对所述待测基因表达数据进行特征选择,获得第一次特征选择后的样本;
第二选择单元,用于根据所述有顺序的特征索引集选择所述第一次特征选择后的样本中的前第二预设参数个特征组成第二次特征选择后的样本;
诊断单元,用于将所述第二次特征选择后的样本输入所述模型函数中,获得所述模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610246971.3A CN105825081B (zh) | 2016-04-20 | 2016-04-20 | 一种基因表达数据分类方法及分类系统 |
EP16899247.7A EP3299976A4 (en) | 2016-04-20 | 2016-11-17 | METHOD AND SYSTEM FOR CLASSIFYING GENE EXPRESSION DATA |
PCT/CN2016/106255 WO2017181665A1 (zh) | 2016-04-20 | 2016-11-17 | 一种基因表达数据分类方法及分类系统 |
US15/571,076 US20180165413A1 (en) | 2016-04-20 | 2016-11-17 | Gene expression data classification method and classification system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610246971.3A CN105825081B (zh) | 2016-04-20 | 2016-04-20 | 一种基因表达数据分类方法及分类系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105825081A true CN105825081A (zh) | 2016-08-03 |
CN105825081B CN105825081B (zh) | 2018-09-14 |
Family
ID=56527212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610246971.3A Active CN105825081B (zh) | 2016-04-20 | 2016-04-20 | 一种基因表达数据分类方法及分类系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20180165413A1 (zh) |
EP (1) | EP3299976A4 (zh) |
CN (1) | CN105825081B (zh) |
WO (1) | WO2017181665A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017181665A1 (zh) * | 2016-04-20 | 2017-10-26 | 苏州大学 | 一种基因表达数据分类方法及分类系统 |
CN108182347A (zh) * | 2018-01-17 | 2018-06-19 | 广东工业大学 | 一种大规模跨平台基因表达数据分类方法 |
CN108664763A (zh) * | 2018-05-14 | 2018-10-16 | 浙江大学 | 一种参数最优的肺癌癌细胞检测仪 |
CN108846259A (zh) * | 2018-04-26 | 2018-11-20 | 河南师范大学 | 一种基于聚类和随机森林算法的基因分类方法及系统 |
CN110633379A (zh) * | 2019-08-29 | 2019-12-31 | 北京睿企信息科技有限公司 | 一种基于gpu并行运算的以图搜图系统及方法 |
CN110827924A (zh) * | 2019-09-23 | 2020-02-21 | 平安科技(深圳)有限公司 | 基因表达数据的聚类方法、装置、计算机设备及存储介质 |
WO2020082865A1 (zh) * | 2018-10-24 | 2020-04-30 | 阿里巴巴集团控股有限公司 | 用于构建机器学习模型的特征选取方法、装置以及设备 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230094009A (ko) * | 2021-12-20 | 2023-06-27 | 한양대학교 산학협력단 | 유전자 온톨로지 기반 유전자 데이터 분석 방법 및 분석 장치 |
CN115881218B (zh) * | 2022-12-15 | 2023-06-09 | 哈尔滨星云医学检验所有限公司 | 用于全基因组关联分析的基因自动选择方法 |
CN116522143B (zh) * | 2023-05-08 | 2024-04-05 | 深圳市大数据研究院 | 模型训练方法、聚类方法、设备及介质 |
CN117172796A (zh) * | 2023-08-07 | 2023-12-05 | 北京智慧大王科技有限公司 | 一种大数据电子商务管理系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945238A (zh) * | 2012-09-05 | 2013-02-27 | 南京航空航天大学 | 一种基于模糊isodata的特征选取方法 |
CN104573049A (zh) * | 2015-01-20 | 2015-04-29 | 安徽科力信息产业有限责任公司 | 一种基于中心向量的knn分类器训练样本裁剪方法 |
CN104732241A (zh) * | 2015-04-08 | 2015-06-24 | 苏州大学 | 一种多分类器构建方法和系统 |
CN104732242A (zh) * | 2015-04-08 | 2015-06-24 | 苏州大学 | 一种多分类器构建方法和系统 |
CN105205349A (zh) * | 2015-08-25 | 2015-12-30 | 合肥工业大学 | 马尔科夫毯嵌入式的基于封装的特征选择方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001073428A1 (en) * | 2000-03-27 | 2001-10-04 | Ramot University Authority For Applied Research & Industrial Development Ltd. | Method and system for clustering data |
AU2003257082A1 (en) * | 2002-08-02 | 2004-02-23 | Rosetta Inpharmatics Llc | Computer systems and methods that use clinical and expression quantitative trait loci to associate genes with traits |
EP2207119A1 (en) * | 2009-01-06 | 2010-07-14 | Koninklijke Philips Electronics N.V. | Evolutionary clustering algorithm |
AU2011237688B2 (en) * | 2010-04-06 | 2015-09-10 | Dana-Faber Cancer Institute, Inc. | Gene-expression profiling with reduced numbers of transcript measurements |
CN104200134A (zh) * | 2014-08-30 | 2014-12-10 | 北京工业大学 | 一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法 |
CN105825081B (zh) * | 2016-04-20 | 2018-09-14 | 苏州大学 | 一种基因表达数据分类方法及分类系统 |
-
2016
- 2016-04-20 CN CN201610246971.3A patent/CN105825081B/zh active Active
- 2016-11-17 WO PCT/CN2016/106255 patent/WO2017181665A1/zh active Application Filing
- 2016-11-17 US US15/571,076 patent/US20180165413A1/en not_active Abandoned
- 2016-11-17 EP EP16899247.7A patent/EP3299976A4/en not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945238A (zh) * | 2012-09-05 | 2013-02-27 | 南京航空航天大学 | 一种基于模糊isodata的特征选取方法 |
CN104573049A (zh) * | 2015-01-20 | 2015-04-29 | 安徽科力信息产业有限责任公司 | 一种基于中心向量的knn分类器训练样本裁剪方法 |
CN104732241A (zh) * | 2015-04-08 | 2015-06-24 | 苏州大学 | 一种多分类器构建方法和系统 |
CN104732242A (zh) * | 2015-04-08 | 2015-06-24 | 苏州大学 | 一种多分类器构建方法和系统 |
CN105205349A (zh) * | 2015-08-25 | 2015-12-30 | 合肥工业大学 | 马尔科夫毯嵌入式的基于封装的特征选择方法 |
Non-Patent Citations (2)
Title |
---|
曹晋等: ""一种基于支持向量数据描述的特征选择算法"", 《智能系统学报》 * |
黄晓娟等: ""改进的多类支持向量机递归特征消除在癌症多分类中的应用"", 《计算机应用》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017181665A1 (zh) * | 2016-04-20 | 2017-10-26 | 苏州大学 | 一种基因表达数据分类方法及分类系统 |
CN108182347A (zh) * | 2018-01-17 | 2018-06-19 | 广东工业大学 | 一种大规模跨平台基因表达数据分类方法 |
CN108182347B (zh) * | 2018-01-17 | 2022-02-22 | 广东工业大学 | 一种大规模跨平台基因表达数据分类方法 |
CN108846259A (zh) * | 2018-04-26 | 2018-11-20 | 河南师范大学 | 一种基于聚类和随机森林算法的基因分类方法及系统 |
CN108846259B (zh) * | 2018-04-26 | 2020-10-23 | 河南师范大学 | 一种基于聚类和随机森林算法的基因分类方法及系统 |
CN108664763A (zh) * | 2018-05-14 | 2018-10-16 | 浙江大学 | 一种参数最优的肺癌癌细胞检测仪 |
WO2020082865A1 (zh) * | 2018-10-24 | 2020-04-30 | 阿里巴巴集团控股有限公司 | 用于构建机器学习模型的特征选取方法、装置以及设备 |
TWI705388B (zh) * | 2018-10-24 | 2020-09-21 | 香港商阿里巴巴集團服務有限公司 | 用於建構機器學習模型的特徵選取方法、裝置及設備 |
CN110633379A (zh) * | 2019-08-29 | 2019-12-31 | 北京睿企信息科技有限公司 | 一种基于gpu并行运算的以图搜图系统及方法 |
CN110633379B (zh) * | 2019-08-29 | 2023-04-28 | 北京睿企信息科技有限公司 | 一种基于gpu并行运算的以图搜图系统及方法 |
CN110827924A (zh) * | 2019-09-23 | 2020-02-21 | 平安科技(深圳)有限公司 | 基因表达数据的聚类方法、装置、计算机设备及存储介质 |
CN110827924B (zh) * | 2019-09-23 | 2024-05-07 | 平安科技(深圳)有限公司 | 基因表达数据的聚类方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3299976A1 (en) | 2018-03-28 |
EP3299976A4 (en) | 2019-01-16 |
US20180165413A1 (en) | 2018-06-14 |
WO2017181665A1 (zh) | 2017-10-26 |
CN105825081B (zh) | 2018-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105825081A (zh) | 一种基因表达数据分类方法及分类系统 | |
Lu et al. | Deep-learning–based characterization of tumor-infiltrating lymphocytes in breast cancers from histopathology images and multiomics data | |
Sun et al. | Cervical cancer diagnosis based on random forest | |
US10289802B2 (en) | Spanning-tree progression analysis of density-normalized events (SPADE) | |
Todorov et al. | Computational approaches for high‐throughput single‐cell data analysis | |
CN107480686B (zh) | 一种筛选机器学习特征的方法和装置 | |
CN109829162A (zh) | 一种文本分词方法及装置 | |
CN110910950A (zh) | 一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法 | |
Moussa et al. | SC1: a tool for interactive web-based single-cell RNA-Seq data analysis | |
Hamraz et al. | Gene selection in binary classification problems within functional genomics experiments via robust Fisher Score | |
CN103136440B (zh) | 数据处理方法和装置 | |
EP2518656B1 (en) | Taxonomic classification system | |
CN108364030A (zh) | 一种基于三层动态粒子群算法的多分类器模型构建方法 | |
CN116701979A (zh) | 基于受限k-均值的社交网络数据分析方法及系统 | |
Gajawada et al. | Vinayaka: A semi-supervised projected clustering method using differential evolution | |
Qin et al. | An efficient method to identify differentially expressed genes in microarray experiments | |
Wagner | Straightforward clustering of single-cell RNA-Seq data with t-SNE and DBSCAN | |
CN105733921A (zh) | 下一代测序分析系统及其下一代测序分析方法 | |
Rostami et al. | Cancer prediction using graph-based gene selection and explainable classifier | |
Sarmiento et al. | Pathway-based human disease clustering tool using self-organizing maps | |
Ranjan et al. | DUBStepR: correlation-based feature selection for clustering single-cell RNA sequencing data | |
CN110162704B (zh) | 基于多因子遗传算法的多规模关键用户提取方法 | |
Metsalu | Statistical analysis of multivariate data in bioinformatics | |
KR101701168B1 (ko) | 유전자 패스웨이 활성지수의 세부적 정량화를 위한 유전자 프로파일 방법 | |
CN110675917B (zh) | 一种个体癌症样本的生物标记物识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |