CN106529165A - 基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法 - Google Patents
基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法 Download PDFInfo
- Publication number
- CN106529165A CN106529165A CN201610972689.3A CN201610972689A CN106529165A CN 106529165 A CN106529165 A CN 106529165A CN 201610972689 A CN201610972689 A CN 201610972689A CN 106529165 A CN106529165 A CN 106529165A
- Authority
- CN
- China
- Prior art keywords
- cancer
- matrix
- sample
- spectral clustering
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 91
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 89
- 201000011510 cancer Diseases 0.000 title claims abstract description 88
- 230000003595 spectral effect Effects 0.000 title claims abstract description 38
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012360 testing method Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 27
- 230000014509 gene expression Effects 0.000 claims abstract description 26
- 108700019961 Neoplasm Genes Proteins 0.000 claims abstract description 15
- 102000048850 Neoplasm Genes Human genes 0.000 claims abstract description 15
- 230000004083 survival effect Effects 0.000 claims description 32
- 238000010606 normalization Methods 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000003064 k means clustering Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 2
- 108010029485 Protein Isoforms Proteins 0.000 claims 3
- 102000001708 Protein Isoforms Human genes 0.000 claims 3
- 238000000354 decomposition reaction Methods 0.000 claims 1
- 238000011524 similarity measure Methods 0.000 claims 1
- 238000004393 prognosis Methods 0.000 abstract description 7
- 238000011282 treatment Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 4
- 108090000623 proteins and genes Proteins 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 206010006187 Breast cancer Diseases 0.000 description 3
- 208000026310 Breast neoplasm Diseases 0.000 description 3
- 238000002512 chemotherapy Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 101150010487 are gene Proteins 0.000 description 2
- 238000011223 gene expression profiling Methods 0.000 description 2
- 238000001959 radiotherapy Methods 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 206010009944 Colon cancer Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229940044683 chemotherapy drug Drugs 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000011337 individualized treatment Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000011127 radiochemotherapy Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Primary Health Care (AREA)
- Evolutionary Biology (AREA)
- Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioethics (AREA)
- Evolutionary Computation (AREA)
- Genetics & Genomics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法,其特征是:基于稀疏相似矩阵的谱聚类算法,利用癌症基因表达谱数据作为训练集样本,构建癌症分子亚型预测模型;将所述预测模型用于预测独立测试集样本的癌症分子亚型,将癌症样本集划分为多类分子亚型。本发明方法针对癌症分子表达水平的高度异质性,有效地区分具有不同预后效果的多类病患,可以对多类癌症患者分别制定不同的个体治疗方案。
Description
技术领域
本发明属于生物信息学领域,更具体地说是涉及一种基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法,利用该算法的分类结果制定对应的癌症治疗方案,提高癌症患者的生存率。
背景技术
癌症分子表达水平具有高度异质性,异质性即癌症组织内部存在多个突变类型是癌症的基本特征之一,也是开展精准医学的最大难题。具有相同临床分期或病理特征的癌症患者采用相同治疗方案却存在明显的预后差别。基于基因表达研究对癌症的分子亚型进行分类,为解析癌症的高度异质性,提高预后判别的准确性,选择有效化疗药物实现个体化治疗提供了重要的依据。
对于癌症患者进行治疗的依据是TNM分期,但预后效果欠佳;在实际治疗中,医生依靠自身经验确定癌症患者的治疗方案,主观性较强且难以复制,具有不可预测性,而且患者预后效果各不相同。
发明内容
本发明是为避免上述现有技术所存在的不足,提供一种基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型方法,解析癌症的高度异质性,有效地区分具有不同预后效果的多类病患。对多类癌症患者分别制定不同的治疗方案,识别出的无复发生存概率较低的患者可以通过放化疗治疗,识别出的无复发生存概率较高的患者可以免于放化疗治疗。
本发明为解决技术问题采用如下技术方案:
本发明基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法的特点是:基于稀疏相似矩阵的谱聚类算法,利用癌症基因表达谱数据作为训练集样本,构建癌症分子亚型预测模型;将所述预测模型用于预测独立测试集样本的癌症分子亚型,从而将独立测试集样本划分为多类分子亚型。
本发明基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法的特点也在于按如下过程进行:
步骤1、计算作为训练集样本的癌症基因表达谱数据中的任意两个癌症样本之间的相似度矩阵SL(n×n);
癌症样本是指以列为基因表达谱数据的向量;依据高斯函数计算两个癌症样本之间的相似度值sij,以所述相似度值sij构造相似度矩阵SL(n×n);其中xi和xj为癌症样本,1≤i≤n,1≤j≤n,n为癌症基因表达谱数据中的样本个数,σ为尺度参数;
步骤2、采用t近邻相似度计算的方法,将所述相似度矩阵SL(n×n)变换为稀疏化矩阵S,所述t为近邻参数;
步骤3、计算正则拉普拉斯矩阵L为:L=I-D-1/2SD-1/2;其中D为对角阵,且D-1/2为D的逆平方根,I为单位对角阵;
步骤4、将正则拉普拉斯矩阵L依据公式L=VΛLVT进行特征分解,V为特征向量矩阵,ΛL为特征值,VT为特征向量矩阵V的转置矩阵;
步骤5、计算获得特征向量矩阵V的归一化矩阵U,并有:其中uij为归一化矩阵U的第i行第j列的值,vij为特征向量矩阵V的第i行第j列的值,vir为特征向量矩阵V的第i行第r列的值,k为聚类值,1≤r≤k;
步骤6、基于k-means聚类算法得到谱聚类模型,以所述谱聚类模型将归一化矩阵U聚为k类,将所述训练集样本中癌症患者划分为k类分子亚型;所述谱聚类模型即为癌症分子亚型预测模型;
步骤7、将所述癌症分子亚型预测模型用于预测独立测试集样本的癌症分子亚型,从而将独立测试集样本划分为多类分子亚型,完成癌症样本集多类分子亚型的划分;
步骤8、分别利用步骤6与步骤7中获得的所述训练集样本与独立测试集样本的k类分子亚型,计算无复发生存曲线Relapse-free survival的Log-rank P值,以所述Log-rankP值作为评价指标,用来评价k类分子亚型的有效性。
本发明基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法的特点也在于:所述步骤2中的近邻参数t按如下方式确定:
设定近邻参数t的选择范围,通过选择不同t值,将所述训练集样本中癌症患者划分为对应的k类分子亚型,对于所述对应的k类分子亚型,计算无复发生存曲线Relapse-free survival的Log-rank P值,将最小的Log-rank P值所对应的t值确定为近邻参数t。
本发明基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法的特点也在于:所述训练集样本为GSE25055,所述独立测试集样本是由癌症基因表达谱数据得到的GSE25065。
本发明中谱聚类算法能够识别任意形状的样本空间且收敛于全局最优解,其基本思想是利用样本数据的相似矩阵进行特征分解后得到的特征向量进行聚类。基于稀疏相似矩阵的谱聚类算法,通过移除样本间较小的相似度值使得相似矩阵稀疏化,从而有效地去除噪音数据,改进预测精度。在癌症分子亚型预测问题中,其高维特征向量造成奇异性问题,基于稀疏相似矩阵的谱聚类算法,逼近真实的特征空间,可以有效降低计算复杂度,收敛于全局最优解,提高预测精度,对于癌症分子亚型预测具有重要的应用价值。与已有技术相比,本发明有益效果体现在:
1、本发明方法中基于稀疏相似矩阵的谱聚类算法,避免了癌症分子亚型预测问题中高维特征向量造成的奇异性问题。
2、本发明利用稀疏相似矩阵进行近似计算,有效地降低计算复杂度,节省计算存储空间,对于提高癌症分子亚型判断的准确率具有重要意义。
3、本发明方法中基于稀疏相似矩阵的谱聚类算法构建癌症分子亚型预测模型,可以明确识别癌症患者个体的无复发生存概率,具有实际应用价值。
4、本发明将预测模型用于识别独立测试集样本的癌症分子亚型,能够有效地把癌症患者依据无复发生存概率区分为多类,识别出的无复发生存概率较低的患者可以通过放化疗治疗,识别出的无复发生存概率较高的患者可以免于放化疗治疗。
附图说明
图1为利用本发明方法预测得到的训练集样本GSE25055中的无复发生存曲线;
图2为利用本发明方法预测得到的独立测试集样本GSE25065中的无复发生存曲线;
具体实施方式
本实施例中是基于稀疏相似矩阵的谱聚类算法,利用癌症基因表达谱数据作为训练集样本,构建癌症分子亚型预测模型;将预测模型用于预测独立测试集样本的癌症分子亚型,从而将独立测试集样本划分为多类分子亚型。
具体是按如下步骤进行:
步骤1、计算作为训练集样本的癌症基因表达谱数据中的任意两个癌症样本之间的相似度矩阵SL(n×n)。
癌症样本是指以列为基因表达谱数据的向量;依据高斯函数计算两个癌症样本之间的相似度值sij,以相似度值sij构造相似度矩阵SL(n×n);其中xi和xj为癌症样本,1≤i≤n,1≤j≤n,n为癌症基因表达谱数据中的样本个数,σ为尺度参数。
步骤2、采用t近邻相似度计算的方法,将相似度矩阵SL(n×n)变换为稀疏化矩阵S,t为近邻参数。
步骤3、计算正则拉普拉斯矩阵L为:L=I-D-1/2SD-1/2;其中D为对角阵,且D-1/2为D的逆平方根,I为单位对角阵。
步骤4、将正则拉普拉斯矩阵L依据公式L=VΛLVT进行特征分解,V为特征向量矩阵,ΛL为特征值;VT为特征向量矩阵V的转置矩阵。
步骤5、计算获得特征向量矩阵V的归一化矩阵U,并有:其中uij为归一化矩阵U的第i行第j列的值,vij为特征向量矩阵V的第i行第j列的值,vir为特征向量矩阵V的第i行第r列的值,1≤r≤k,k为聚类值。
步骤6、基于k-means聚类算法得到谱聚类模型,以谱聚类模型将归一化矩阵U聚为k类,将训练集样本中癌症患者划分为k类分子亚型;谱聚类模型即为癌症分子亚型预测模型。
步骤7、将癌症分子亚型预测模型用于预测独立测试集样本的癌症分子亚型,从而将独立测试集样本划分为多类分子亚型,完成癌症样本集多类分子亚型的划分。
步骤8、分别利用步骤6与步骤7中获得的训练集样本与独立测试集样本的k类分子亚型,计算无复发生存曲线Relapse-free survival的Log-rank P值,以Log-rank P值作为评价指标,用来评价k类分子亚型的有效性,Log-rank P值越小,对应的分类效果越好。
具体实施中,按如下方式确定近邻参数t:
设定近邻参数t的选择范围,通过选择不同t值,将训练集样本中癌症患者划分为对应的k类分子亚型,对于对应的k类分子亚型,计算无复发生存曲线Relapse-freesurvival的Log-rank P值,将最小的Log-rank P值所对应的t值确定为近邻参数t。本实施例中近邻参数t的选择范围是{5,10,15,20,50,100,150,200,300},通过选择不同的近邻参数t,构成9种不同参数组合的待选预测模型。各待选预测模型的构建重复执行10次,获得10个Log-rank P值;以10个Log-rank P值的最小值作为评价指标。比较9个待选预测模型的最小Log-rank P值,以最小P值所对应的待选模型作为选定的癌症分子亚型预测模型。
训练集样本为GSE25055,独立测试集样本是由癌症基因表达谱数据得到的GSE25065。
下面基于稀疏相似矩阵的谱聚类算法,构建乳腺癌的分子亚型预测模型,预测乳腺癌的分子亚型,分子亚型样本间的差异具有重要的统计学意义:
1、收集癌症基因表达谱数据。利用基因表达谱数据平台Gene ExpressionOmnibus(GEO),收集到的乳腺癌基因表达数据集,包括GEO数据集GSE25055,样本数n=310;GSE25065,样本数n=198。以上数据来源于平台为Affymetrix的U133A基因芯片,分别对每一个数据集进行独立处理。把原始的CEL文件用RMA进行归一化并计算基因的原始表达值,然后将各基因的表达值经过Log2转化。对于得到的基因表达值进行标准化处理,使得各基因在样本中表达值的均值为0,标准差为1。
2、计算任意两个癌症样本之间的相似度矩阵SL。依据高斯函数计算两个癌症样本之间的相似度值。对于基因表达谱数据GSE25055,得到的相似度矩阵包括310行与310列。依此类推,可以得到基因表达谱数据GSE25065的相似度矩阵包括198行与198列。
3、计算矩阵SL对应的稀疏化矩阵S,采用t近邻相似度计算方法。例如:对于基因表达谱数据GSE25055,矩阵SL包括310行与310列,采用t近邻相似度计算方法,近邻参数t的选择范围{5,10,15,20,50,100,150,200,300},得到对应的稀疏化矩阵S包括310行与310列。
4、计算正则拉普拉斯矩阵L为:L=I-D-1/2SD-1/2。
5、将正则拉普拉斯矩阵L依据公式L=VΛLVT进行特征分解。
6、计算获得矩阵V的归一化矩阵U。
7、基于k-means聚类算法得到谱聚类模型,以谱聚类模型将归一化矩阵U聚为k类,将训练集样本中癌症患者划分为k类分子亚型,本实施例中k=3。以上基于稀疏相似矩阵的谱聚类算法采用MATLAB语言编程实现。
8、将癌症分子亚型预测模型用于预测独立测试集样本的癌症分子亚型,将独立测试集样本划分为k类分子亚型。
9、评价指标。进行生存分析,计算出无复发生存曲线的Log-rank P值,评价k类分子亚型作为预后评价的有效性。生存分析基于R语言的软件包Survival编程实现。
10、310个结直肠癌样本做为谱聚类算法的输入特征建模。训练集样本GSE25055中每个样本有12694个特征的列,矩阵的行与列为310×12694。基于稀疏相似矩阵的谱聚类算法,选择Log-rank P值最小值对应的参数,得到t=50。此时,得到的Log-rank P值为0.0005。
11、对独立测试集样本GSE25065进行验证。采用12694个基因作为输入特征,GSE25065对应矩阵的行与列为198×12694,将癌症分子亚型预测模型用于独立测试集样本的测试,独立测试集按照分子亚型划分为3类,此时得到的Log-rank P值为0.03。
以下仿真结果进一步验证本发明效果:
图1为利用本发明方法预测得到的训练集样本GSE25055中的无复发生存曲线,训练集样本被划分为3类分子亚型,图1中曲线表示训练集中3类样本各自对应的无复发生存概率。图1中曲线a为分子亚型1类的无复发生存曲线,对应90个癌症样本,曲线b为分子亚型2类的无复发生存曲线,对应116个癌症样本,曲线c为分子亚型3类的无复发生存曲线,对应104个癌症样本。
图2为利用本发明方法预测得到的独立测试集样本GSE25065中的无复发生存曲线,测试集样本被划分为3类,图2中曲线表示测试集中3类样本各自对应的无复发生存概率。图2中曲线a为分子亚型1类的无复发生存曲线,对应49个癌症样本,曲线b为分子亚型2类的无复发生存曲线,对应62个癌症样本,曲线c为分子亚型3类的无复发生存曲线,对应87个癌症样本。
如图1所示,针对训练集样本GSE25055,基于稀疏相似矩阵的谱聚类算法,得到无复发生存曲线的Log-rank P值,P=0.0005。从统计学出发当P<0.05时样本之间的差异具有统计学意义,因此得到的训练集3类分子亚型作为癌症预后评价具有有效性。
如图2所示,针对测试集样本GSE25065,基于稀疏相似矩阵的谱聚类算法,得到无复发生存曲线的Log-rank P值,P=0.03。当P<0.05时样本之间的差异具有统计学意义,因此得到的测试集3类分子亚型作为癌症预后评价具有有效性。
Claims (4)
1.基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法,其特征是:基于稀疏相似矩阵的谱聚类算法,利用癌症基因表达谱数据作为训练集样本,构建癌症分子亚型预测模型;将所述预测模型用于预测独立测试集样本的癌症分子亚型,从而将独立测试集样本划分为多类分子亚型。
2.根据权利要求1所述的基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法,其特征是按如下过程进行:
步骤1、计算作为训练集样本的癌症基因表达谱数据中的任意两个癌症样本之间的相似度矩阵SL(n×n);
癌症样本是指以列为基因表达谱数据的向量;依据高斯函数计算两个癌症样本之间的相似度值sij,以所述相似度值sij构造相似度矩阵SL(n×n);其中xi和xj为癌症样本,1≤i≤n,1≤j≤n,n为癌症基因表达谱数据中的样本个数,σ为尺度参数;
步骤2、采用t近邻相似度计算的方法,将所述相似度矩阵SL(n×n)变换为稀疏化矩阵S,所述t为近邻参数;
步骤3、计算正则拉普拉斯矩阵L为:L=I-D-1/2SD-1/2;其中D为对角阵,且D-1/2为D的逆平方根,I为单位对角阵;
步骤4、将正则拉普拉斯矩阵L依据公式L=VΛLVT进行特征分解,V为特征向量矩阵,ΛL为特征值,VT为特征向量矩阵V的转置矩阵;
步骤5、计算获得特征向量矩阵V的归一化矩阵U,并有:其中uij为归一化矩阵U的第i行第j列的值,vij为特征向量矩阵V的第i行第j列的值,vir为特征向量矩阵V的第i行第r列的值,k为聚类值,1≤r≤k;
步骤6、基于k-means聚类算法得到谱聚类模型,以所述谱聚类模型将归一化矩阵U聚为k类,将所述训练集样本中癌症患者划分为k类分子亚型;所述谱聚类模型即为癌症分子亚型预测模型;
步骤7、将所述癌症分子亚型预测模型用于预测独立测试集样本的癌症分子亚型,从而将独立测试集样本划分为多类分子亚型,完成癌症样本集多类分子亚型的划分;
步骤8、分别利用步骤6与步骤7中获得的所述训练集样本与独立测试集样本的k类分子亚型,计算无复发生存曲线Relapse-free survival的Log-rank P值,以所述Log-rank P值作为评价指标,用来评价k类分子亚型的有效性。
3.根据权利要求2所述的基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法,其特征是:所述步骤2中的近邻参数t按如下方式确定:
设定近邻参数t的选择范围,通过选择不同t值,将所述训练集样本中癌症患者划分为对应的k类分子亚型,对于所述对应的k类分子亚型,计算无复发生存曲线Relapse-freesurvival的Log-rank P值,将最小的Log-rank P值所对应的t值确定为近邻参数t。
4.根据权利要求2所述的基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法,其特征是:所述训练集样本为GSE25055,所述独立测试集样本是由癌症基因表达谱数据得到的GSE25065。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610972689.3A CN106529165A (zh) | 2016-10-28 | 2016-10-28 | 基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610972689.3A CN106529165A (zh) | 2016-10-28 | 2016-10-28 | 基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106529165A true CN106529165A (zh) | 2017-03-22 |
Family
ID=58349571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610972689.3A Pending CN106529165A (zh) | 2016-10-28 | 2016-10-28 | 基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106529165A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301328A (zh) * | 2017-05-19 | 2017-10-27 | 浙江工业大学 | 基于数据流聚类的癌症亚型精准发现与演化分析方法 |
CN109215741A (zh) * | 2018-08-20 | 2019-01-15 | 中国矿业大学 | 基于双超图正则化的肿瘤基因表达谱数据双聚类方法 |
CN109994200A (zh) * | 2019-03-08 | 2019-07-09 | 华南理工大学 | 一种基于相似度融合的多组学癌症数据整合分析方法 |
CN111223528A (zh) * | 2020-01-08 | 2020-06-02 | 华南理工大学 | 一种多组学数据聚类方法及装置 |
WO2020113673A1 (zh) * | 2018-12-07 | 2020-06-11 | 深圳先进技术研究院 | 一种基于多组学集成的癌症亚型分类方法 |
CN112200748A (zh) * | 2020-10-20 | 2021-01-08 | 合肥工业大学 | 一种基于胶囊生成对抗网络的噪声建模的图像盲去噪方法 |
CN112530518A (zh) * | 2020-12-04 | 2021-03-19 | 湖南大学 | 基于k均值模型的动态自适应癌症突变簇识别方法 |
WO2021092231A1 (en) * | 2019-11-06 | 2021-05-14 | Chan Zuckerberg Biohub, Inc. | User interface and backend system for pathogen analysis |
CN113486922A (zh) * | 2021-06-01 | 2021-10-08 | 安徽大学 | 基于栈式自编码器的数据融合优化方法及其系统 |
CN113537358A (zh) * | 2021-07-19 | 2021-10-22 | 华南理工大学 | 一种基于多组学数据集的癌症亚型识别方法及系统 |
CN114023390A (zh) * | 2021-11-15 | 2022-02-08 | 福州大彻精准医学科技有限公司 | 胃癌亚型的分类及其应用 |
CN115171905A (zh) * | 2022-06-20 | 2022-10-11 | 复旦大学 | 一种基于独热编码无监督聚类的肿瘤患者相似性计算方法 |
-
2016
- 2016-10-28 CN CN201610972689.3A patent/CN106529165A/zh active Pending
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301328A (zh) * | 2017-05-19 | 2017-10-27 | 浙江工业大学 | 基于数据流聚类的癌症亚型精准发现与演化分析方法 |
CN109215741B (zh) * | 2018-08-20 | 2022-02-08 | 中国矿业大学 | 基于双超图正则化的肿瘤基因表达谱数据双聚类方法 |
CN109215741A (zh) * | 2018-08-20 | 2019-01-15 | 中国矿业大学 | 基于双超图正则化的肿瘤基因表达谱数据双聚类方法 |
CN111291777B (zh) * | 2018-12-07 | 2023-04-07 | 深圳先进技术研究院 | 一种基于多组学集成的癌症亚型分类方法 |
CN111291777A (zh) * | 2018-12-07 | 2020-06-16 | 深圳先进技术研究院 | 一种基于多组学集成的癌症亚型分类方法 |
WO2020113673A1 (zh) * | 2018-12-07 | 2020-06-11 | 深圳先进技术研究院 | 一种基于多组学集成的癌症亚型分类方法 |
CN109994200B (zh) * | 2019-03-08 | 2021-01-19 | 华南理工大学 | 一种基于相似度融合的多组学癌症数据整合分析方法 |
CN109994200A (zh) * | 2019-03-08 | 2019-07-09 | 华南理工大学 | 一种基于相似度融合的多组学癌症数据整合分析方法 |
WO2021092231A1 (en) * | 2019-11-06 | 2021-05-14 | Chan Zuckerberg Biohub, Inc. | User interface and backend system for pathogen analysis |
CN111223528A (zh) * | 2020-01-08 | 2020-06-02 | 华南理工大学 | 一种多组学数据聚类方法及装置 |
CN111223528B (zh) * | 2020-01-08 | 2023-04-18 | 华南理工大学 | 一种多组学数据聚类方法及装置 |
CN112200748A (zh) * | 2020-10-20 | 2021-01-08 | 合肥工业大学 | 一种基于胶囊生成对抗网络的噪声建模的图像盲去噪方法 |
CN112530518A (zh) * | 2020-12-04 | 2021-03-19 | 湖南大学 | 基于k均值模型的动态自适应癌症突变簇识别方法 |
CN113486922A (zh) * | 2021-06-01 | 2021-10-08 | 安徽大学 | 基于栈式自编码器的数据融合优化方法及其系统 |
CN113486922B (zh) * | 2021-06-01 | 2024-09-24 | 安徽大学 | 基于栈式自编码器的数据融合优化方法及其系统 |
CN113537358A (zh) * | 2021-07-19 | 2021-10-22 | 华南理工大学 | 一种基于多组学数据集的癌症亚型识别方法及系统 |
CN113537358B (zh) * | 2021-07-19 | 2023-09-01 | 华南理工大学 | 一种基于多组学数据集的癌症亚型识别方法及系统 |
CN114023390A (zh) * | 2021-11-15 | 2022-02-08 | 福州大彻精准医学科技有限公司 | 胃癌亚型的分类及其应用 |
CN114023390B (zh) * | 2021-11-15 | 2024-10-18 | 福州大彻精准医学科技有限公司 | 胃癌亚型的分类及其应用 |
CN115171905A (zh) * | 2022-06-20 | 2022-10-11 | 复旦大学 | 一种基于独热编码无监督聚类的肿瘤患者相似性计算方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106529165A (zh) | 基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法 | |
CN109872776B (zh) | 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用 | |
Ma et al. | An integrative framework for protein interaction network and methylation data to discover epigenetic modules | |
CN103761426B (zh) | 一种在高维数据中快速识别特征组合的方法及系统 | |
Hasan et al. | Linear regression–based feature selection for microarray data classification | |
Bhonde et al. | Deep Learning Techniques in Cancer Prediction Using Genomic Profiles | |
CN116564409A (zh) | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 | |
CN104156503A (zh) | 一种基于基因芯片网络分析的疾病风险基因识别方法 | |
Dayao et al. | Deriving spatial features from in situ proteomics imaging to enhance cancer survival analysis | |
CN111798925A (zh) | 基于基因表达谱识别组织样本中细胞类型及组分的方法 | |
CN111863135B (zh) | 一种假阳性结构变异过滤方法、存储介质及计算设备 | |
CN105243300A (zh) | 基于近似化的谱聚类算法预测癌症转移复发的方法 | |
Ren et al. | A unified computational model for revealing and predicting subtle subtypes of cancers | |
Wu | On biological validity indices for soft clustering algorithms for gene expression data | |
KR102653969B1 (ko) | 약물과 셀 라인의 유사도 행렬에 기반한 합성곱 신경망을 이용하여 약물 반응을 예측하는 시스템 | |
TWI399661B (zh) | 從微陣列資料中分析及篩選疾病相關基因的系統 | |
KR101012848B1 (ko) | 복잡망의 군집화 방법 및 개별요소의 군집화된 복잡망의 그룹할당 방법. | |
Li et al. | Y-SPCR: A new dimensionality reduction method for gene expression data classification | |
CN107710206B (zh) | 用于根据生物学数据的亚群检测的方法、系统和装置 | |
Mithy et al. | Development of Multistage RFE-SVR Model to Predict Radiation Sensitivity | |
Merry et al. | Typecasting of microarray data using machine learning algorithms | |
Ghai et al. | Proximity measurement technique for gene expression data | |
CN117789828B (zh) | 基于单细胞测序及深度学习技术的抗衰老靶点检测系统 | |
Jin-peng et al. | Multi-channel detection for abrupt change based on the Ternary Search Tree and Kolmogorov statistic method | |
CN110797083B (zh) | 基于多网络的生物标志物识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170322 |
|
WD01 | Invention patent application deemed withdrawn after publication |