CN106529165A

CN106529165A - 基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法

Info

Publication number: CN106529165A
Application number: CN201610972689.3A
Authority: CN
Inventors: 史明光; 王俊文
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2016-10-28
Filing date: 2016-10-28
Publication date: 2017-03-22

Abstract

本发明公开了一种基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法，其特征是：基于稀疏相似矩阵的谱聚类算法，利用癌症基因表达谱数据作为训练集样本，构建癌症分子亚型预测模型；将所述预测模型用于预测独立测试集样本的癌症分子亚型，将癌症样本集划分为多类分子亚型。本发明方法针对癌症分子表达水平的高度异质性，有效地区分具有不同预后效果的多类病患，可以对多类癌症患者分别制定不同的个体治疗方案。

Description

基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法

技术领域

本发明属于生物信息学领域，更具体地说是涉及一种基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法，利用该算法的分类结果制定对应的癌症治疗方案，提高癌症患者的生存率。

背景技术

癌症分子表达水平具有高度异质性，异质性即癌症组织内部存在多个突变类型是癌症的基本特征之一，也是开展精准医学的最大难题。具有相同临床分期或病理特征的癌症患者采用相同治疗方案却存在明显的预后差别。基于基因表达研究对癌症的分子亚型进行分类，为解析癌症的高度异质性，提高预后判别的准确性，选择有效化疗药物实现个体化治疗提供了重要的依据。

对于癌症患者进行治疗的依据是TNM分期，但预后效果欠佳；在实际治疗中，医生依靠自身经验确定癌症患者的治疗方案，主观性较强且难以复制，具有不可预测性，而且患者预后效果各不相同。

发明内容

本发明是为避免上述现有技术所存在的不足，提供一种基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型方法，解析癌症的高度异质性，有效地区分具有不同预后效果的多类病患。对多类癌症患者分别制定不同的治疗方案，识别出的无复发生存概率较低的患者可以通过放化疗治疗，识别出的无复发生存概率较高的患者可以免于放化疗治疗。

本发明为解决技术问题采用如下技术方案：

本发明基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法的特点是：基于稀疏相似矩阵的谱聚类算法，利用癌症基因表达谱数据作为训练集样本，构建癌症分子亚型预测模型；将所述预测模型用于预测独立测试集样本的癌症分子亚型，从而将独立测试集样本划分为多类分子亚型。

本发明基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法的特点也在于按如下过程进行：

步骤1、计算作为训练集样本的癌症基因表达谱数据中的任意两个癌症样本之间的相似度矩阵SL(n×n)；

癌症样本是指以列为基因表达谱数据的向量；依据高斯函数计算两个癌症样本之间的相似度值s_ij，以所述相似度值s_ij构造相似度矩阵SL(n×n)；其中x_i和x_j为癌症样本，1≤i≤n，1≤j≤n，n为癌症基因表达谱数据中的样本个数，σ为尺度参数；

步骤2、采用t近邻相似度计算的方法，将所述相似度矩阵SL(n×n)变换为稀疏化矩阵S，所述t为近邻参数；

步骤3、计算正则拉普拉斯矩阵L为：L＝I-D^-1/2SD^-1/2；其中D为对角阵，且D^-1/2为D的逆平方根，I为单位对角阵；

步骤4、将正则拉普拉斯矩阵L依据公式L＝VΛ_LV^T进行特征分解，V为特征向量矩阵，Λ_L为特征值，V^T为特征向量矩阵V的转置矩阵；

步骤5、计算获得特征向量矩阵V的归一化矩阵U，并有：其中u_ij为归一化矩阵U的第i行第j列的值，v_ij为特征向量矩阵V的第i行第j列的值，v_ir为特征向量矩阵V的第i行第r列的值，k为聚类值，1≤r≤k；

步骤6、基于k-means聚类算法得到谱聚类模型，以所述谱聚类模型将归一化矩阵U聚为k类，将所述训练集样本中癌症患者划分为k类分子亚型；所述谱聚类模型即为癌症分子亚型预测模型；

步骤7、将所述癌症分子亚型预测模型用于预测独立测试集样本的癌症分子亚型，从而将独立测试集样本划分为多类分子亚型，完成癌症样本集多类分子亚型的划分；

步骤8、分别利用步骤6与步骤7中获得的所述训练集样本与独立测试集样本的k类分子亚型，计算无复发生存曲线Relapse-free survival的Log-rank P值，以所述Log-rankP值作为评价指标，用来评价k类分子亚型的有效性。

本发明基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法的特点也在于：所述步骤2中的近邻参数t按如下方式确定：

设定近邻参数t的选择范围，通过选择不同t值，将所述训练集样本中癌症患者划分为对应的k类分子亚型，对于所述对应的k类分子亚型，计算无复发生存曲线Relapse-free survival的Log-rank P值，将最小的Log-rank P值所对应的t值确定为近邻参数t。

本发明基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法的特点也在于：所述训练集样本为GSE25055，所述独立测试集样本是由癌症基因表达谱数据得到的GSE25065。

本发明中谱聚类算法能够识别任意形状的样本空间且收敛于全局最优解，其基本思想是利用样本数据的相似矩阵进行特征分解后得到的特征向量进行聚类。基于稀疏相似矩阵的谱聚类算法，通过移除样本间较小的相似度值使得相似矩阵稀疏化，从而有效地去除噪音数据，改进预测精度。在癌症分子亚型预测问题中，其高维特征向量造成奇异性问题，基于稀疏相似矩阵的谱聚类算法，逼近真实的特征空间，可以有效降低计算复杂度，收敛于全局最优解，提高预测精度，对于癌症分子亚型预测具有重要的应用价值。与已有技术相比，本发明有益效果体现在：

1、本发明方法中基于稀疏相似矩阵的谱聚类算法，避免了癌症分子亚型预测问题中高维特征向量造成的奇异性问题。

2、本发明利用稀疏相似矩阵进行近似计算，有效地降低计算复杂度，节省计算存储空间，对于提高癌症分子亚型判断的准确率具有重要意义。

3、本发明方法中基于稀疏相似矩阵的谱聚类算法构建癌症分子亚型预测模型，可以明确识别癌症患者个体的无复发生存概率，具有实际应用价值。

4、本发明将预测模型用于识别独立测试集样本的癌症分子亚型，能够有效地把癌症患者依据无复发生存概率区分为多类，识别出的无复发生存概率较低的患者可以通过放化疗治疗，识别出的无复发生存概率较高的患者可以免于放化疗治疗。

附图说明

图1为利用本发明方法预测得到的训练集样本GSE25055中的无复发生存曲线；

图2为利用本发明方法预测得到的独立测试集样本GSE25065中的无复发生存曲线；

具体实施方式

本实施例中是基于稀疏相似矩阵的谱聚类算法，利用癌症基因表达谱数据作为训练集样本，构建癌症分子亚型预测模型；将预测模型用于预测独立测试集样本的癌症分子亚型，从而将独立测试集样本划分为多类分子亚型。

具体是按如下步骤进行：

步骤1、计算作为训练集样本的癌症基因表达谱数据中的任意两个癌症样本之间的相似度矩阵SL(n×n)。

癌症样本是指以列为基因表达谱数据的向量；依据高斯函数计算两个癌症样本之间的相似度值s_ij，以相似度值s_ij构造相似度矩阵SL(n×n)；其中x_i和x_j为癌症样本，1≤i≤n，1≤j≤n，n为癌症基因表达谱数据中的样本个数，σ为尺度参数。

步骤2、采用t近邻相似度计算的方法，将相似度矩阵SL(n×n)变换为稀疏化矩阵S，t为近邻参数。

步骤3、计算正则拉普拉斯矩阵L为：L＝I-D^-1/2SD^-1/2；其中D为对角阵，且D^-1/2为D的逆平方根，I为单位对角阵。

步骤4、将正则拉普拉斯矩阵L依据公式L＝VΛ_LV^T进行特征分解，V为特征向量矩阵，Λ_L为特征值；V^T为特征向量矩阵V的转置矩阵。

步骤5、计算获得特征向量矩阵V的归一化矩阵U，并有：其中u_ij为归一化矩阵U的第i行第j列的值，v_ij为特征向量矩阵V的第i行第j列的值，v_ir为特征向量矩阵V的第i行第r列的值，1≤r≤k，k为聚类值。

步骤6、基于k-means聚类算法得到谱聚类模型，以谱聚类模型将归一化矩阵U聚为k类，将训练集样本中癌症患者划分为k类分子亚型；谱聚类模型即为癌症分子亚型预测模型。

步骤7、将癌症分子亚型预测模型用于预测独立测试集样本的癌症分子亚型，从而将独立测试集样本划分为多类分子亚型，完成癌症样本集多类分子亚型的划分。

步骤8、分别利用步骤6与步骤7中获得的训练集样本与独立测试集样本的k类分子亚型，计算无复发生存曲线Relapse-free survival的Log-rank P值，以Log-rank P值作为评价指标，用来评价k类分子亚型的有效性，Log-rank P值越小，对应的分类效果越好。

具体实施中，按如下方式确定近邻参数t：

设定近邻参数t的选择范围，通过选择不同t值，将训练集样本中癌症患者划分为对应的k类分子亚型，对于对应的k类分子亚型，计算无复发生存曲线Relapse-freesurvival的Log-rank P值，将最小的Log-rank P值所对应的t值确定为近邻参数t。本实施例中近邻参数t的选择范围是{5,10,15,20,50,100,150,200,300}，通过选择不同的近邻参数t，构成9种不同参数组合的待选预测模型。各待选预测模型的构建重复执行10次，获得10个Log-rank P值；以10个Log-rank P值的最小值作为评价指标。比较9个待选预测模型的最小Log-rank P值，以最小P值所对应的待选模型作为选定的癌症分子亚型预测模型。

训练集样本为GSE25055，独立测试集样本是由癌症基因表达谱数据得到的GSE25065。

下面基于稀疏相似矩阵的谱聚类算法，构建乳腺癌的分子亚型预测模型，预测乳腺癌的分子亚型，分子亚型样本间的差异具有重要的统计学意义：

1、收集癌症基因表达谱数据。利用基因表达谱数据平台Gene ExpressionOmnibus(GEO)，收集到的乳腺癌基因表达数据集，包括GEO数据集GSE25055，样本数n＝310；GSE25065，样本数n＝198。以上数据来源于平台为Affymetrix的U133A基因芯片，分别对每一个数据集进行独立处理。把原始的CEL文件用RMA进行归一化并计算基因的原始表达值，然后将各基因的表达值经过Log2转化。对于得到的基因表达值进行标准化处理，使得各基因在样本中表达值的均值为0，标准差为1。

2、计算任意两个癌症样本之间的相似度矩阵SL。依据高斯函数计算两个癌症样本之间的相似度值。对于基因表达谱数据GSE25055，得到的相似度矩阵包括310行与310列。依此类推，可以得到基因表达谱数据GSE25065的相似度矩阵包括198行与198列。

3、计算矩阵SL对应的稀疏化矩阵S，采用t近邻相似度计算方法。例如：对于基因表达谱数据GSE25055，矩阵SL包括310行与310列，采用t近邻相似度计算方法，近邻参数t的选择范围{5,10,15,20,50,100,150,200,300}，得到对应的稀疏化矩阵S包括310行与310列。

4、计算正则拉普拉斯矩阵L为：L＝I-D^-1/2SD^-1/2。

5、将正则拉普拉斯矩阵L依据公式L＝VΛ_LV^T进行特征分解。

6、计算获得矩阵V的归一化矩阵U。

7、基于k-means聚类算法得到谱聚类模型，以谱聚类模型将归一化矩阵U聚为k类，将训练集样本中癌症患者划分为k类分子亚型，本实施例中k＝3。以上基于稀疏相似矩阵的谱聚类算法采用MATLAB语言编程实现。

8、将癌症分子亚型预测模型用于预测独立测试集样本的癌症分子亚型，将独立测试集样本划分为k类分子亚型。

9、评价指标。进行生存分析，计算出无复发生存曲线的Log-rank P值，评价k类分子亚型作为预后评价的有效性。生存分析基于R语言的软件包Survival编程实现。

10、310个结直肠癌样本做为谱聚类算法的输入特征建模。训练集样本GSE25055中每个样本有12694个特征的列，矩阵的行与列为310×12694。基于稀疏相似矩阵的谱聚类算法，选择Log-rank P值最小值对应的参数，得到t＝50。此时，得到的Log-rank P值为0.0005。

11、对独立测试集样本GSE25065进行验证。采用12694个基因作为输入特征，GSE25065对应矩阵的行与列为198×12694，将癌症分子亚型预测模型用于独立测试集样本的测试，独立测试集按照分子亚型划分为3类，此时得到的Log-rank P值为0.03。

以下仿真结果进一步验证本发明效果：

图1为利用本发明方法预测得到的训练集样本GSE25055中的无复发生存曲线，训练集样本被划分为3类分子亚型，图1中曲线表示训练集中3类样本各自对应的无复发生存概率。图1中曲线a为分子亚型1类的无复发生存曲线，对应90个癌症样本，曲线b为分子亚型2类的无复发生存曲线，对应116个癌症样本，曲线c为分子亚型3类的无复发生存曲线，对应104个癌症样本。

图2为利用本发明方法预测得到的独立测试集样本GSE25065中的无复发生存曲线，测试集样本被划分为3类，图2中曲线表示测试集中3类样本各自对应的无复发生存概率。图2中曲线a为分子亚型1类的无复发生存曲线，对应49个癌症样本，曲线b为分子亚型2类的无复发生存曲线，对应62个癌症样本，曲线c为分子亚型3类的无复发生存曲线，对应87个癌症样本。

如图1所示，针对训练集样本GSE25055，基于稀疏相似矩阵的谱聚类算法，得到无复发生存曲线的Log-rank P值，P＝0.0005。从统计学出发当P<0.05时样本之间的差异具有统计学意义，因此得到的训练集3类分子亚型作为癌症预后评价具有有效性。

如图2所示，针对测试集样本GSE25065，基于稀疏相似矩阵的谱聚类算法，得到无复发生存曲线的Log-rank P值，P＝0.03。当P<0.05时样本之间的差异具有统计学意义，因此得到的测试集3类分子亚型作为癌症预后评价具有有效性。

Claims

1.基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法，其特征是：基于稀疏相似矩阵的谱聚类算法，利用癌症基因表达谱数据作为训练集样本，构建癌症分子亚型预测模型；将所述预测模型用于预测独立测试集样本的癌症分子亚型，从而将独立测试集样本划分为多类分子亚型。

2.根据权利要求1所述的基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法，其特征是按如下过程进行：

步骤8、分别利用步骤6与步骤7中获得的所述训练集样本与独立测试集样本的k类分子亚型，计算无复发生存曲线Relapse-free survival的Log-rank P值，以所述Log-rank P值作为评价指标，用来评价k类分子亚型的有效性。

3.根据权利要求2所述的基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法，其特征是：所述步骤2中的近邻参数t按如下方式确定：

设定近邻参数t的选择范围，通过选择不同t值，将所述训练集样本中癌症患者划分为对应的k类分子亚型，对于所述对应的k类分子亚型，计算无复发生存曲线Relapse-freesurvival的Log-rank P值，将最小的Log-rank P值所对应的t值确定为近邻参数t。

4.根据权利要求2所述的基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法，其特征是：所述训练集样本为GSE25055，所述独立测试集样本是由癌症基因表达谱数据得到的GSE25065。