CN105825081B - 一种基因表达数据分类方法及分类系统 - Google Patents

一种基因表达数据分类方法及分类系统 Download PDF

Info

Publication number
CN105825081B
CN105825081B CN201610246971.3A CN201610246971A CN105825081B CN 105825081 B CN105825081 B CN 105825081B CN 201610246971 A CN201610246971 A CN 201610246971A CN 105825081 B CN105825081 B CN 105825081B
Authority
CN
China
Prior art keywords
gene expression
cluster
gene
training set
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610246971.3A
Other languages
English (en)
Other versions
CN105825081A (zh
Inventor
张莉
黄晓娟
王邦军
张召
李凡长
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201610246971.3A priority Critical patent/CN105825081B/zh
Publication of CN105825081A publication Critical patent/CN105825081A/zh
Priority to PCT/CN2016/106255 priority patent/WO2017181665A1/zh
Priority to US15/571,076 priority patent/US20180165413A1/en
Priority to EP16899247.7A priority patent/EP3299976A4/en
Application granted granted Critical
Publication of CN105825081B publication Critical patent/CN105825081B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本申请公开了一种基因表达数据分类方法及分类系统,其中,所述基因表达数据分类方法中在获得所述基因特征数据集之后,采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,然后对所述聚类集合进行处理获得第二样本矩阵、第二训练集以及特征索引集以对基因表达数据进行降维,从而降低基因表达数据之间的冗余度,进而在很大程度上降低了在之后对所述第二训练集进行特征选择的过程中占用的计算资源以及耗费的计算时间;而采用聚类算法对所述基因特征数据集进行聚类操作所占用的计算资源以及耗费的计算时间都很少,因此采用所述基因表达数据分类方法对待测基因表达数据进行分类占用的计算资源和耗费的计算时间都较少。

Description

一种基因表达数据分类方法及分类系统
技术领域
本申请涉及基因分类技术领域,更具体地说,涉及一种基因表达数据分类方法及分类系统。
背景技术
利用DNA微阵列计数可以同时测定成千上万维基因的表达数据,这些表达数据能够帮助研究人员研究生物的本质。但是在大量的基因表达数据中,只有很少量的基因表达数据是研究人员的研究客体,以癌症基因的研究为例,癌症基因的表达数据样本通常少于一百,而在大量的基因表达数据中对癌症基因与其他基因进行分类就需要耗费大量的计算资源和计算时间。
有研究人员利用支持向量机递归特征消除(Support Vector Machine RecursiveFeature Elimination,SVM-RFE)算法可以自动消除大量的基因表达数据中的冗余基因(即对基因分类没用贡献的基因),以实现从大量的基因表达数据中找出目标基因的目的。
但是SVM-RFE算法仍然需要对大量的基因表达数据进行特征选择处理,需要占用大量的计算资源并且耗费大量的计算时间。
发明内容
为解决上述技术问题,本发明提供了一种基因表达数据分类方法及分类系统,以解决对基因表达数据进行分类需要占用大量的计算资源并且耗费大量的计算时间的问题。
为解决上述技术问题,本发明实施例提供了如下技术方案:
一种基因表达数据分类方法,包括:
获取第一训练集,利用所述第一训练集生成基因特征数据集,所述第一训练集中包含基因表达数据;
采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心;
利用所有的所述聚类集合的代表基因生成第二样本矩阵,其中,所述代表基因为每个所述聚类集合中的一个基因表达数据;
对所述第二样本矩阵进行处理获得第二训练集;
生成与所述第二训练集对应的特征索引集;
对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序的特征索引集;
在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集;
对所述第三训练集进行建模,获得模型函数;
根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的分类结果。
优选的,所述第一预设参数的设定方式为:
采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5、10或20。
优选的,所述采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心,包括:
采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心。
优选的,所述代表基因通过公式生成;
其中,Gk表示第k个聚类集合,表示所述第k个聚类集合的代表基因,mk表示第k个聚类中心,K表示所述第一预设参数;gi表示所述聚类集合中的基因表达数据;
其中,所述第二样本矩阵为其中,R表示实数集,N表示所述第一训练集中的样本总个数。
优选的,根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的诊断结果包括:
根据所述特征索引集对所述待测基因的表达数据进行特征选择,获得第一次特征选择后的样本;
根据所述有顺序的特征索引集,选择所述第一次特征选择后的样本中的前第二预设参数个特征组成第二次特征选择后的样本;
将所述第二次特征选择后的样本输入所述模型函数中,获得所述模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
一种基因表达数据分类系统,包括:
特征选择模块,用于获取第一训练集,利用所述第一训练集生成基因特征数据集,所述第一训练集包含基因表达数据;采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心;利用所有的所述聚类集合的代表基因生成第二样本矩阵,其中,所述代表基因为每个所述聚类集合中的一个基因表达数据;对所述第二样本矩阵进行处理获得第二训练集,生成与所述第二训练集对应的特征索引集;对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序的特征索引集;在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集;
训练模块,用于对所述第三训练集进行建模,获得模型函数;
诊断模块,用于根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的分类结果。
优选的,所述特征选择模块包括:
预处理单元,用于获取基因样本的第一训练集,对所述第一训练集进行预处理,生成第一样本矩阵,并根据所述样本矩阵生成基因特征数据集;
第一特征选择单元,用于采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5或10或20;采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心,在每个聚类集合中选取一个基因作为该聚类集合的代表基因,并利用所有的聚类集合的代表基因生成第二样本矩阵,并对所述第二样本矩阵进行处理获得第二训练集,同时生成与所述第二训练集对应的特征索引集;
第二特征选择单元,用于对所述第二训练集进行特征排序,获得有顺序的特征索引集,确定保留的特征个数为第二预设参数,在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集。
优选的,所述第一特征选择单元用于采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5或10或20;采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个聚类中心和第一预设参数个聚类集合,在每个聚类集合中选取一个基因作为该聚类集合的代表基因,并利用所有的聚类集合的代表基因生成第二样本矩阵,并取所述第二样本矩阵的每一列x′i组成所述第二训练集其中,x′i∈RK
优选的,所述代表基因通过公式生成,其中,Gk表示第k个聚类集合,表示所述第k个聚类集合的代表基因,mk表示第k个聚类中心,K表示所述第一预设参数;gi表示所述聚类集合中的基因表达数据;
其中,所述第二样本矩阵为其中R表示实数集,N表示生成所述第一训练集中的样本总个数。
优选的,所述诊断模块包括:
第一选择单元,用于根据所述特征索引集对所述待测基因表达数据进行特征选择,获得第一次特征选择后的样本;
第二选择单元,用于根据所述有顺序的特征索引集选择所述第一次特征选择后的样本中的前第二预设参数个特征组成第二次特征选择后的样本;
诊断单元,用于将所述第二次特征选择后的样本输入所述模型函数中,获得所述模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
从上述技术方案可以看出,本发明实施例提供了一种基因表达数据分类方法及分类系统,其中,所述基因表达数据分类方法中在获得所述基因特征数据集之后,采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,然后对所述聚类集合进行处理获得第二样本矩阵、第二训练集以及特征索引集以对基因表达数据进行降维,从而降低基因表达数据之间的冗余度,进而在很大程度上降低了在之后对所述第二训练集进行特征选择的过程中占用的计算资源以及耗费的计算时间;而采用聚类算法对所述基因特征数据集进行聚类操作所占用的计算资源以及耗费的计算时间都很少,因此采用所述基因表达数据分类方法对待测基因表达数据进行分类占用的计算资源和耗费的计算时间都较少。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请的一个实施例提供的一种基因表达数据分类方法的流程示意图;
图2为本申请的另一个实施例提供的一种基因表达数据分类方法的流程示意图;
图3为本申请的一个实施例提供的一种基因表达数据分类系统的结构示意图;
图4为本申请的一个实施例提供的一种特征选择模块的结构示意图;
图5为本申请的一个实施例提供的一种诊断模块的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的一个实施例提供了一种基因表达数据分类方法,如图1所示,包括:
S101:获取第一训练集,利用所述第一训练集生成基因特征数据集,所述第一训练集中包含基因表达数据。
需要说明的是,所述第一训练集中的基因表达数据通过DNA微阵列技术获取。
但在本申请的其他实施例中,还可以通过其他技术或者设备获取基因表达数据,本申请对获取基因表达数据所采用的方法或装置并不做限定,具体视实际情况而定。
在本申请的一个具体实施例中,通过DNA微阵列技术获取基因表达数据构成第一训练集其中,xi是所述第一训练集中的基因表达数据,xi∈RD,xi为所述第一训练集中的基因表达数据,yi是xi的标签,表明xi的类别,yi∈{-1,+1},N代表所述第一训练集中样本的总个数,D代表所述第一训练集中样本的维数,R代表实数集。对所述第一训练集进行预处理,生成所述第一样本矩阵X=[x1,…,…,xN],…,xN],该矩阵的每一列为所述第一训练集的一个样本,取所述第一样本矩阵的每一行,即gj=(Xj)T,j=1,…,D,形成所述基因特征数据集gj∈RN
S102:采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心。
其中,每个聚类集合中包含所述基因特征数据集中相似的基因表达数据,每个聚类集合都具有一个聚类中心,每个聚类集合的聚类中心由该聚类集合中的所有基因表达数据计算得来。在本申请的一个实施例中,每个聚类集合的聚类中心为该聚类集合中所有基因表达数据的平均值。但本申请对此并不做限定,每个聚类集合的聚类中心还可以通过其他方式确定,具体视实际情况而定。
需要说明的是,采用聚类算法对所述基因特征数据集进行聚类的目的是对基因表达数据进行降维,以降低基因表达数据之间的冗余度。
S103:利用所有的所述聚类集合的代表基因生成第二样本矩阵,其中,所述代表基因为每个所述聚类集合中的一个基因表达数据。
S104:对所述第二样本矩阵进行处理获得第二训练集。
其中在获得所有的所述聚类集合的代表基因后,利用所有的所述聚类集合的代表基因组成所述第二样本矩阵,取所述第二样本矩阵的每一列组成所述第二训练集。
S105:生成与所述第二训练集对应的特征索引集。
S106:对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序的特征索引集。
需要说明的是,在本申请的一个实施例中,采用SVM-RFE算法对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序的特征索引集。
S107:在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集。
其中,所述第二预设参数的值小于所述第一预设参数的值。
S108:对所述第三训练集进行建模,获得模型函数。
在本申请的一个实施例中,采用支持向量机分类器对所述第三训练集进行建模,获得模型函数。
S109:根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的分类结果。
需要说明的是,所述待测基因与所述第一训练集在同一次的基因表达数据的采集过程中获得。
在上述实施例的基础上,在本申请的一个优选实施例中,如图2所示,所述基因表达数据分类方法包括:
S201:获取基因表达数据构成的第一训练集,对所述第一训练集进行预处理,生成所述第一样本矩阵,取所述第一样本矩阵的每一行形成所述基因特征数据集。
S202:采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5或10或20;利用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心。
在本实施例中,所述第一预设参数的设定方式为:
采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5、10或20。在本申请的一个优选实施例中,N优选为10。
S203:利用所有的所述聚类集合的代表基因生成第二样本矩阵,所述代表基因通过公式获得,所述第二样本矩阵为
其中R表示实数集,N表示所述第一训练集中的样本总个数,Gk表示第k个聚类集合,表示所述第k个聚类集合的代表基因,|| ||2表示取范数运算,下标表示范数类型为欧几里得范数;mk表示第k个聚类中心,K表示所述第一预设参数;gi表示所述聚类集合中的基因表达数据。
S204:取所述第二样本矩阵的每一列组成第二训练集。
S205:生成与所述第二训练集对应的特征索引集。
S206:选取N折交叉验证法对所述基因特征数据集进行处理的过程中最高识别率时特征基因的集合的大小作为所述第二预设参数的值,采用SVM-RFE方法对所述第二训练集进行特征排序,得到一个与所述排序后的第二训练集对应的有顺序的特征索引集;
S207:在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集。
S208:采用支持向量机分类器对所述第三训练集进行建模,获得模型函数。
S209:根据所述特征索引集对所述待测基因的表达数据进行特征选择,获得第一次特征选择后的样本。
其中,所述待测基因与所述第一训练集中的基因表达数据通过同一次DNA微阵列技术采集获得。
S210:根据所述有顺序的特征索引集,选择所述第一次特征选择后的样本中的前第二预设参数个特征组成第二次特征选择后的样本。
S211:将所述第二次特征选择后的样本输入所述模型函数中,获得所述模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
在上述实施例的基础上,在本申请的一个具体实施例中,在乳腺癌数据集上对本申请实施例提供的基因表达数据分类方法进行了测试,所述乳腺癌数据集包括97名患者样本,属于两个类别。每个样本都有24481个基因表达数据。所述第一训练集包括78个患者样本,其中34个是在至少5年内的癌细胞转移的患者(标记为“旧病复发”),其余44个样本是从患者初步诊断为至少5年后仍健康的患者(标记为“非复发”)。相应地,待测基因样本中包括12个“旧病复发”患者样本和7个“非复发”患者样本。
具体测试步骤如下:
通过DNA微阵列技术获取所述乳腺癌数据集中的基因表达数据构成第一训练集其中,xi为构成所述第一训练集的基因表达数据,xi∈RD,yi是xi的标签,表明xi的类别,yi∈{-1,+1},N代表所述第一训练集中样本的总个数,D代表所述第一训练集中样本的维数,R代表实数集。这里N=97,D=24481。
对所述第一训练集进行预处理,生成所述第一样本矩阵X=[x1,…,xN],该矩阵的每一列为所述第一训练集的一个样本,取所述第一样本矩阵的每一行,即gj=(Xj)T,j=1,…,24481,形成所述基因特征数据集gj∈R97
确定聚类中心数目为第一预设参数K,此处K=80(通过10折交叉验证法选定),采用K-means聚类算法对所述基因特征数据集进行聚类,获得80个聚类中心mk和80个聚类集合Gk,k=1,…,K。
在每个聚类集合中选取一个基因表达数据作为该聚类集合的代表基因,所述代表基因的选取公式为:其中,|| ||2表示取范数运算,下标表示范数类型为欧几里得范数,Gk表示第k个聚类集合,表示所述第k个聚类集合的代表基因,mk表示第k个聚类中心。生成所述样本矩阵其中N表示训练集中训练样本的总个数。取所述样本矩阵X'的每一列作为x′i,组成所述第二训练集其中x′i∈R80,同时生成与所述第二训练集对应的特征索引集|F|=80。
确定第二预设参数的值d,所述第二预设参数d(d<80)的值为采用10折交叉验证法对所述基因特征数据集进行处理的过程中,最高识别率时特征基因的集合的大小。采用SVM-RFE方法对所述第二训练集进行特征排序,得到一个有顺序的特征索引集|F'|=80。在所述有顺序的特征索引集中选取前d个特征组成第三训练集其中x″i∈Rd,在本实施例中,d=37。
采用支持向量机分类器对所述第三训练集进行建模,获得模型函数f(x″)。
令待测基因表达数据(在本实施例中为癌症基因表达数据)为x,其中x∈R24481
根据所述特征索引集F对所述待测基因x(x∈RD)的表达数据进行特征选择,获得第一次特征选择后的样本x′(x′∈RK);
根据所述有顺序的特征索引集F'选择所述第一次特征选择后的样本x′中的前第二预设参数个特征组成第二次特征选择后的样本x″(x″∈Rd);
将所述第二次特征选择后的样本x″输入所述模型函数f(x″)中,获得所述模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
采用相同的上述测试过程对本申请实施例提供的基因表达数据分类方法与SVM-RFE(SVM-Recursive Feature Elimination)算法以及MRMR+SVM-RFE(minimalredundancy-maximal relevance+SVM-Recursive Feature Elimination)算法在相同的乳腺癌数据集上进行对比实验。随机选取78个训练样本10次,表1给出了上述三种方法各自获得的最好平均分类性能时的对比。
表1 SVM-RFE,MRMR+SVM-RFE和本申请提供的基因表达数据分类方法最好分类性能的对比
通过表1的对比可以发现,本申请实施例提供的基因表达数据分类方法比其他两种算法在各项参数上都有较大提升,且大大降低了时间消耗。
相应的,本申请实施例还提供了一种基因表达数据分类系统,如图3所示,包括:
特征选择模块A10,用于获取第一训练集,利用所述第一训练集生成基因特征数据集,所述第一训练集包含基因表达数据;采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心;利用所有的所述聚类集合的代表基因生成第二样本矩阵,其中,所述代表基因为每个所述聚类集合中的一个基因表达数据;对所述第二样本矩阵进行处理获得第二训练集,生成与所述第二训练集对应的特征索引集;对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序的特征索引集;在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集;
训练模块A20,用于对所述第三训练集进行建模,获得模型函数;
诊断模块A30,用于根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的分类结果。
需要说明的是,在本实施例中,所述待测基因表达数据与所述第一训练集采用生物微阵列技术在同一次采集中获得。
所述基因表达数据分类系统在获得所述基因特征数据集之后,采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个聚类集合,每个所述聚类集合具有一个聚类中心,然后对所述聚类集合进行处理获得第二样本矩阵、第二训练集以及特征索引集以对基因表达数据进行降维,从而降低基因表达数据之间的冗余度,进而在很大程度上降低了在之后对所述第二训练集进行特征选择的过程中占用的计算资源以及耗费的计算时间;而采用聚类算法对所述基因特征数据集进行聚类操作所占用的计算资源以及耗费的计算时间都很少,从而大大降低了对待测基因表达数据进行分类占用的计算资源和耗费的计算时间。
在上述实施例的基础上,在本申请的一个实施例中,如图4所示,所述特征选择模块A10包括:
预处理单元A11,用于获取基因样本的第一训练集,对所述第一训练集进行预处理,生成第一样本矩阵,并根据所述样本矩阵生成基因特征数据集;
第一特征选择单元A12,用于采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5或10或20;采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心,在每个聚类集合中选取一个基因作为该聚类集合的代表基因,并利用所有的聚类集合的代表基因生成第二样本矩阵,并对所述第二样本矩阵进行处理获得第二训练集,同时生成与所述第二训练集对应的特征索引集;
第二特征选择单元A13,用于对所述第二训练集进行特征排序,获得有顺序的特征索引集,确定保留的特征个数为第二预设参数,在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集。
需要说明的是,在本实施例中,所述预处理单元A11通过DNA微阵列技术获取基因表达数据的第一训练集其中,xi表示所述第一训练集中的基因表达数据,xi∈RD,yi是xi的标签,表明xi的类别,yi∈{-1,+1},N代表所述第一训练集中样本的总个数,D代表所述第一训练集中样本的维数,R代表实数集。对所述第一训练集进行预处理,生成所述第一样本矩阵X=[x1,…,xN],该矩阵的每一列为所述第一训练集的一个样本,取所述第一样本矩阵的每一行,即gj=(Xj)T,j=1,…,D,形成所述基因特征数据集gj∈RN
在本实施例中,采用K-means聚类算法对所述基因特征数据集进行聚类的目的是对基因表达数据进行降维,以降低基因表达数据之间的冗余度。
在上述实施例的基础上,在本申请的另一个实施例中,所述第一特征选择单元A12用于采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数K,其中N为5或10或20;
采用K-means聚类算法对所述基因特征数据集进行聚类,获得K个聚类中心mk和K个聚类集合Gk,k=1,…,K。
在每个聚类集合中选取一个基因作为该聚类集合的代表基因,所述代表基因的生成公式为:其中,Gk表示第k个聚类集合,表示所述第k个聚类集合的代表基因,mk表示第k个聚类中心,K表示所述第一预设参数。生成所述样本矩阵其中N表示训练集中训练样本的总个数。取所述样本矩阵X'的每一列为x′i,组成所述第二训练集其中x′i∈RK,同时生成与所述第二训练集对应的特征索引集|F|=K。
需要说明的是,在本申请的一个优选实施例中,采用10折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数。但本申请对此并不做限定,具体视实际情况而定。
在上述实施例的基础上,在本申请的又一个实施例中,所述第二预设参数d(d<K)的值为采用10折交叉验证法对所述基因特征数据集进行处理的过程中,最高识别率时特征基因的集合的大小。在本申请的一个优选实施例中,采用SVM-RFE方法对所述第二训练集合进行特征排序,得到一个有顺序的特征索引集|F'|=K。在所述有顺序的特征索引集中选取前d个特征组成第三训练集其中x″i∈Rd
在上述实施例的基础上,在本申请的再一个实施例中,采用支持向量机分类器对所述第三训练集进行建模,获得模型函数f(x″)。但本申请对所述第三训练集进行建模所采用的具体方法并不做限定,具体视实际情况而定。
在上述实施例的基础上,在本申请的一个具体实施例中,如图5所示,所述诊断模块A30包括:
第一选择单元A31,用于根据所述特征索引集F对所述待测基因x(x∈RD)的表达数据进行特征选择,获得第一次特征选择后的样本x′(x′∈RK);
第二选择单元A32,用于根据所述有顺序的特征索引集F'选择所述第一次特征选择后的样本x′中的前第二预设参数个特征组成第二次特征选择后的样本x″(x″∈Rd);
诊断单元A33,用于将所述第二次特征选择后的样本x″输入所述模型函数f(x″)中,获得所述模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
综上所述,本申请实施例提供了一种基因表达数据分类方法及分类系统,其中,所述基因表达数据分类方法中在获得所述基因特征数据集之后,采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,然后对所述聚类集合进行处理获得第二样本矩阵、第二训练集以及特征索引集以对基因表达数据进行降维,从而降低基因表达数据之间的冗余度,进而在很大程度上降低了在之后对所述第二训练集进行特征选择的过程中占用的计算资源以及耗费的计算时间;而采用聚类算法对所述基因特征数据集进行聚类操作所占用的计算资源以及耗费的计算时间都很少,因此采用所述基因表达数据分类方法对待测基因表达数据进行分类占用的计算资源和耗费的计算时间都较少。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种基因表达数据分类方法,其特征在于,包括:
获取第一训练集,利用所述第一训练集生成基因特征数据集,所述第一训练集中包含基因表达数据;
采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心;
利用所有的所述聚类集合的代表基因生成第二样本矩阵,其中,所述代表基因为每个所述聚类集合中的一个基因表达数据;
对所述第二样本矩阵进行处理获得第二训练集;
生成与所述第二训练集对应的特征索引集;
对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序的特征索引集;
在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集;
对所述第三训练集进行建模,获得模型函数;
根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的分类结果;
所述根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的诊断结果包括:
根据所述特征索引集对所述待测基因的表达数据进行特征选择,获得第一次特征选择后的样本;
根据所述有顺序的特征索引集,选择所述第一次特征选择后的样本中的前第二预设参数个特征组成第二次特征选择后的样本;
将所述第二次特征选择后的样本输入所述模型函数中,获得所述模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
2.根据权利要求1所述的基因表达数据分类方法,其特征在于,所述第一预设参数的设定方式为:
采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5、10或20。
3.根据权利要求1所述的基因表达数据分类方法,其特征在于,所述采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心,包括:
采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心。
4.根据权利要求1所述的基因表达数据分类方法,其特征在于,所述代表基因通过公式生成;
其中,Gk表示第k个聚类集合,表示所述第k个聚类集合的代表基因,mk表示第k个聚类中心,K表示所述第一预设参数;gi表示所述聚类集合中的基因表达数据;
其中,所述第二样本矩阵为其中,R表示实数集,N表示所述第一训练集中的样本总个数。
5.一种基因表达数据分类系统,其特征在于,包括:
特征选择模块,用于获取第一训练集,利用所述第一训练集生成基因特征数据集,所述第一训练集包含基因表达数据;采用聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心;利用所有的所述聚类集合的代表基因生成第二样本矩阵,其中,所述代表基因为每个所述聚类集合中的一个基因表达数据;对所述第二样本矩阵进行处理获得第二训练集,生成与所述第二训练集对应的特征索引集;对所述第二训练集进行特征排序,获得与所述排序后的第二训练集对应的有顺序的特征索引集;在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集;
训练模块,用于对所述第三训练集进行建模,获得模型函数;
诊断模块,用于根据所述特征索引集、有顺序的特征索引集和所述模型函数对待测基因表达数据进行分类,获得待测基因表达数据的分类结果;
所述诊断模块包括:
第一选择单元,用于根据所述特征索引集对所述待测基因表达数据进行特征选择,获得第一次特征选择后的样本;
第二选择单元,用于根据所述有顺序的特征索引集选择所述第一次特征选择后的样本中的前第二预设参数个特征组成第二次特征选择后的样本;
诊断单元,用于将所述第二次特征选择后的样本输入所述模型函数中,获得所述模型函数的输出结果,根据所述输出结果获得所述待测基因表达数据的分类结果。
6.根据权利要求5所述的基因表达数据分类系统,其特征在于,所述特征选择模块包括:
预处理单元,用于获取基因样本的第一训练集,对所述第一训练集进行预处理,生成第一样本矩阵,并根据所述样本矩阵生成基因特征数据集;
第一特征选择单元,用于采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5或10或20;采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个的聚类集合,每个所述聚类集合具有一个聚类中心,在每个聚类集合中选取一个基因作为该聚类集合的代表基因,并利用所有的聚类集合的代表基因生成第二样本矩阵,并对所述第二样本矩阵进行处理获得第二训练集,同时生成与所述第二训练集对应的特征索引集;
第二特征选择单元,用于对所述第二训练集进行特征排序,获得有顺序的特征索引集,确定保留的特征个数为第二预设参数,在所述有顺序的特征索引集中选取前第二预设参数个特征组成第三训练集。
7.根据权利要求6所述的基因表达数据分类系统,其特征在于,所述第一特征选择单元用于采用N折交叉验证法对所述基因特征数据集进行处理,将识别率最大时对应的值作为所述第一预设参数,其中N为5或10或20;采用K-means聚类算法对所述基因特征数据集进行聚类,获得第一预设参数个聚类中心和第一预设参数个聚类集合,在每个聚类集合中选取一个基因作为该聚类集合的代表基因,并利用所有的聚类集合的代表基因生成第二样本矩阵,并取所述第二样本矩阵的每一列x′i组成所述第二训练集其中,x′i∈RK
8.根据权利要求5所述的基因表达数据分类系统,其特征在于,所述代表基因通过公式生成,其中,Gk表示第k个聚类集合,表示所述第k个聚类集合的代表基因,mk表示第k个聚类中心,K表示所述第一预设参数;gi表示所述聚类集合中的基因表达数据;
其中,所述第二样本矩阵为其中R表示实数集,N表示生成所述第一训练集中的样本总个数。
CN201610246971.3A 2016-04-20 2016-04-20 一种基因表达数据分类方法及分类系统 Active CN105825081B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201610246971.3A CN105825081B (zh) 2016-04-20 2016-04-20 一种基因表达数据分类方法及分类系统
PCT/CN2016/106255 WO2017181665A1 (zh) 2016-04-20 2016-11-17 一种基因表达数据分类方法及分类系统
US15/571,076 US20180165413A1 (en) 2016-04-20 2016-11-17 Gene expression data classification method and classification system
EP16899247.7A EP3299976A4 (en) 2016-04-20 2016-11-17 METHOD AND SYSTEM FOR CLASSIFYING GENE EXPRESSION DATA

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610246971.3A CN105825081B (zh) 2016-04-20 2016-04-20 一种基因表达数据分类方法及分类系统

Publications (2)

Publication Number Publication Date
CN105825081A CN105825081A (zh) 2016-08-03
CN105825081B true CN105825081B (zh) 2018-09-14

Family

ID=56527212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610246971.3A Active CN105825081B (zh) 2016-04-20 2016-04-20 一种基因表达数据分类方法及分类系统

Country Status (4)

Country Link
US (1) US20180165413A1 (zh)
EP (1) EP3299976A4 (zh)
CN (1) CN105825081B (zh)
WO (1) WO2017181665A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825081B (zh) * 2016-04-20 2018-09-14 苏州大学 一种基因表达数据分类方法及分类系统
CN108182347B (zh) * 2018-01-17 2022-02-22 广东工业大学 一种大规模跨平台基因表达数据分类方法
CN108846259B (zh) * 2018-04-26 2020-10-23 河南师范大学 一种基于聚类和随机森林算法的基因分类方法及系统
CN108664763A (zh) * 2018-05-14 2018-10-16 浙江大学 一种参数最优的肺癌癌细胞检测仪
CN109460825A (zh) * 2018-10-24 2019-03-12 阿里巴巴集团控股有限公司 用于构建机器学习模型的特征选取方法、装置以及设备
CN110633379B (zh) * 2019-08-29 2023-04-28 北京睿企信息科技有限公司 一种基于gpu并行运算的以图搜图系统及方法
CN110827924B (zh) * 2019-09-23 2024-05-07 平安科技(深圳)有限公司 基因表达数据的聚类方法、装置、计算机设备及存储介质
CN113592379B (zh) * 2021-06-25 2024-05-14 南京财经大学 散粮集装箱物流运输环境异常检测的关键特征识别方法
KR20230094009A (ko) * 2021-12-20 2023-06-27 한양대학교 산학협력단 유전자 온톨로지 기반 유전자 데이터 분석 방법 및 분석 장치
CN115881218B (zh) * 2022-12-15 2023-06-09 哈尔滨星云医学检验所有限公司 用于全基因组关联分析的基因自动选择方法
CN116522143B (zh) * 2023-05-08 2024-04-05 深圳市大数据研究院 模型训练方法、聚类方法、设备及介质
CN117172796B (zh) * 2023-08-07 2024-10-18 武汉光谷康服信息科技有限公司 一种大数据电子商务管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945238A (zh) * 2012-09-05 2013-02-27 南京航空航天大学 一种基于模糊isodata的特征选取方法
CN104573049A (zh) * 2015-01-20 2015-04-29 安徽科力信息产业有限责任公司 一种基于中心向量的knn分类器训练样本裁剪方法
CN104732241A (zh) * 2015-04-08 2015-06-24 苏州大学 一种多分类器构建方法和系统
CN104732242A (zh) * 2015-04-08 2015-06-24 苏州大学 一种多分类器构建方法和系统
CN105205349A (zh) * 2015-08-25 2015-12-30 合肥工业大学 马尔科夫毯嵌入式的基于封装的特征选择方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001073428A1 (en) * 2000-03-27 2001-10-04 Ramot University Authority For Applied Research & Industrial Development Ltd. Method and system for clustering data
WO2004013727A2 (en) * 2002-08-02 2004-02-12 Rosetta Inpharmatics Llc Computer systems and methods that use clinical and expression quantitative trait loci to associate genes with traits
EP2207119A1 (en) * 2009-01-06 2010-07-14 Koninklijke Philips Electronics N.V. Evolutionary clustering algorithm
SG184466A1 (en) * 2010-04-06 2012-11-29 Massachusetts Inst Technology Gene-expression profiling with reduced numbers of transcript measurements
CN104200134A (zh) * 2014-08-30 2014-12-10 北京工业大学 一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法
CN105825081B (zh) * 2016-04-20 2018-09-14 苏州大学 一种基因表达数据分类方法及分类系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945238A (zh) * 2012-09-05 2013-02-27 南京航空航天大学 一种基于模糊isodata的特征选取方法
CN104573049A (zh) * 2015-01-20 2015-04-29 安徽科力信息产业有限责任公司 一种基于中心向量的knn分类器训练样本裁剪方法
CN104732241A (zh) * 2015-04-08 2015-06-24 苏州大学 一种多分类器构建方法和系统
CN104732242A (zh) * 2015-04-08 2015-06-24 苏州大学 一种多分类器构建方法和系统
CN105205349A (zh) * 2015-08-25 2015-12-30 合肥工业大学 马尔科夫毯嵌入式的基于封装的特征选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"一种基于支持向量数据描述的特征选择算法";曹晋等;《智能系统学报》;20150415;第10卷(第2期);第215-220页 *
"改进的多类支持向量机递归特征消除在癌症多分类中的应用";黄晓娟等;《计算机应用》;20151010;第10卷(第35期);第2799页右栏第3段 *

Also Published As

Publication number Publication date
EP3299976A1 (en) 2018-03-28
US20180165413A1 (en) 2018-06-14
WO2017181665A1 (zh) 2017-10-26
EP3299976A4 (en) 2019-01-16
CN105825081A (zh) 2016-08-03

Similar Documents

Publication Publication Date Title
CN105825081B (zh) 一种基因表达数据分类方法及分类系统
Doan et al. SONNET: A self-guided ordinal regression neural network for segmentation and classification of nuclei in large-scale multi-tissue histology images
Jurman et al. The HIM glocal metric and kernel for network comparison and classification
JP2003529131A5 (ja) パターンを同定するための方法及び機械
WO2007142044A1 (ja) 画像処理装置および画像処理プログラム
CN106682454B (zh) 一种宏基因组数据分类方法和装置
US10769432B2 (en) Automated parameterization image pattern recognition method
CN103605711B (zh) 支持向量机分类器的构造方法及装置、分类方法及装置
Todorov et al. Computational approaches for high‐throughput single‐cell data analysis
CN111008650B (zh) 一种基于深度卷积对抗神经网络的金相组织自动评级方法
CN107679553A (zh) 基于密度峰值的聚类方法及装置
CN107766695B (zh) 一种获取外周血基因模型训练数据的方法及装置
Dong et al. An improved YOLOv5 network for lung nodule detection
CN113257364A (zh) 基于多目标进化的单细胞转录组测序数据聚类方法及系统
Nascimento et al. A graph clustering algorithm based on a clustering coefficient for weighted graphs
Arora Classification of human metaspread images using convolutional neural networks
Wang et al. Integrative Analysis for Lung Adenocarcinoma Predicts Morphological Features Associated with Genetic Variations.
CN108364030B (zh) 一种基于三层动态粒子群算法的多分类器模型构建方法
Gajawada et al. Vinayaka: a semi-supervised projected clustering method using differential evolution
George et al. Accurate and stable feature selection powered by iterative backward selection and cumulative ranking score of features
CN101866426A (zh) 一种基于k近邻方法的加权收缩方法
Kaur et al. Gene selection for tumor classification using resilient backpropagation neural network
LaPierre et al. CAMIL: Clustering and Assembly with Multiple Instance Learning for phenotype prediction
Chen et al. A stratified feature ranking method for supervised feature selection
CN111816259A (zh) 基于网络表示学习的不完整多组学数据集成方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant