CN108320806B

CN108320806B - 一种基于多基因表达特征谱的结肠癌个性化预后评估方法

Info

Publication number: CN108320806B
Application number: CN201810440932.6A
Authority: CN
Inventors: 李文兴; 李功华; 黄京飞; 赵旭东; 代绍兴
Original assignee: Kunming Institute of Zoology of CAS
Current assignee: Kunming Institute of Zoology of CAS
Priority date: 2018-05-09
Filing date: 2018-05-09
Publication date: 2022-04-12
Anticipated expiration: 2038-05-09
Also published as: CN108320806A

Abstract

本发明公开了一种基于多基因表达特征谱的结肠癌个性化预后评估方法，包括以下步骤：获取结肠癌预后风险基因列表与基因权重；利用结肠癌患者肿瘤组织转录组和生存数据构建预后评估模型；根据结肠癌患者肿瘤组织的基因表达谱计算患者的风险得分；根据患者的风险得分计算患者每年的生存概率。本发明的方法得出的结肠癌患者每年的生存概率与实际每年存活比率高度一致(线性相关R²＝0.988，P值＝7.35E‑39)。证实了该方法具有很高的预测准确性，与实际生存状态高度吻合。同时，对于每个肿瘤患者，本发明可以给出该患者特有的生存概率曲线。

Description

一种基于多基因表达特征谱的结肠癌个性化预后评估方法

技术领域

本发明属于生物技术和医学领域，具体地说，涉及一种基于多基因表达特征谱的结肠癌个性化预后评估方法。

背景技术

结肠癌是中国及全球高发的恶性肿瘤。统计显示结肠直肠癌在全球男性癌症患者中排第三，在全球女性癌症患者中排第二。全球疾病负担(Global Burden of Disease,GBD)数据显示，2016年全球患有结肠直肠癌的人数达到632万，其中中国患病人数高达147万。2016年全球结肠直肠癌患者的死亡人数为83万，占总死亡人数的1.52％。中国2016年死亡患者数超过16万，占总死亡人数的1.73％。统计结果显示，从1990年到2016年全球结肠直肠癌患病率和死亡率持续增长，中国的患病率和死亡率增长较快，尤其是近几年中国的患病率和死亡率均超过全球平均水平。

目前国际上通用的的肿瘤分期方法是TNM分期系统，该系统是美国癌症联合委员会(American Joint Committee on Cancer,AJCC)提出的一种恶性肿瘤分类方法。美国国家癌症研究所(National Cancer Institute,NCI)对TNM分期的描述为：T指主要肿瘤的大小和范围，主要肿瘤通常被称为原发性肿瘤。N指患有癌症的附近淋巴结的数目。M指癌症是否已经转移，即从原发性肿瘤扩散到身体的其他部位。根据以上指标可将恶性肿瘤大致分为I期，II期，III期和IV期，其中分期越高表示肿瘤的恶性程度越高。TNM分期系统对肿瘤患者的治疗和预后评估有一定帮助。但是，由于不同个体中肿瘤的发生机制及体内微环境的不同，导致不同患者的生存时间差异巨大，TNM分期系统不能很好地反映出患者的预后状况。研究发现，对于某些诊断为I期的患者可能只有较短的生存期(1-2年)，然而对于一些诊断为IV期的患者可能具有较长的生存期(5年及以上)。因此，TNM分期系统可能更倾向于描述一个癌症患者群体的平均水平，对个性化的诊断和治疗适用性较差。另一方面，对于诊断为晚期(III期、IV期)的患者，会给患者及医务人员造成一定的治疗方案选择困难，导致很多本来可以长时间生存的肿瘤患者由于过度医疗或医疗失当而提前死亡；而另一些本应进行适当治疗可以延长生存的患者由于放弃治疗或治疗不当同样导致肿瘤患者提前死亡。

目前，有报道提出利用基因表达谱可以对肿瘤患者进行预后评估。但是，绝大多数报道只是使用单个或数个基因，只能对一个群体进行分类，对个体生存期只能进行定性的划分(如预后好、预后差两个指标)。因此，需要建立更精细的个性化肿瘤预后评估模型来评估患者的生存时间从而选择合适的治疗方案。

发明内容

有鉴于此，本发明提供了一种基于多基因表达特征谱的结肠癌个性化预后评估方法，该方法能够准确预测患者每年的存活概率。

为了解决上述技术问题，本发明公开了一种基于多基因表达特征谱的结肠癌个性化预后评估方法，包括以下步骤：

步骤1、获取结肠癌预后风险基因列表与基因权重；

步骤2、利用结肠癌患者肿瘤组织转录组和生存数据构建预后评估模型；

步骤3、根据结肠癌患者肿瘤组织的基因表达谱计算患者的风险得分；

步骤4、根据患者的风险得分计算患者每年的生存概率。

可选地，所述步骤1中的获取结肠癌预后风险基因列表与基因权重具体为：

步骤1.1、从Genomic Data Commons Data Portal数据库中下载结肠癌患者肿瘤组织和癌旁组织转录组数据以及临床数据，获得结肠癌患者肿瘤组织基因表达谱FPKM数值，进行对数转换；

步骤1.2、设总样本数为m，将所有样本根据其基因表达值的三分位数分为三组，利用Cox比例风险模型计算第三分组相比第一分组的生存风险，得出第i个基因的风险比HRi和P值；定义P值<0.05具有显著性，筛选具有显著性的生存风险基因，记为n₁；此外，计算每个基因与患者生存天数的相关性，得出每个基因的相关系数r和P值；定义P值<0.05具有显著性，筛选具有显著性的生存相关基因，记为n₂；将生存风险基因和生存相关基因的交集定义为预后风险基因，记为n，则有：

n＝n₁∩n₂ (1)

步骤1.3、根据第i个基因的风险比和相对倍数变化计算第i个基因的权重W_i，计算公式为：

这样就计算得到每一个基因的权重；最终得到的结肠癌预后风险基因列表与基因权重。

可选地，所述的结肠癌预后风险基因列表与基因权重如下表所示：

可选地，所述步骤2中的利用结肠癌患者肿瘤组织转录组和生存数据构建预后评估模型，具体为：

步骤2.1、定义基因表达值为V，根据第i个基因在第j个样本中的表达值和权重计算第i个患者的风险得分S_j；计算公式为：

其中，j表示样本编号，V_ij表示第i个基因在第j个样本中的表达值；

步骤2.2、将所有结肠癌患者样本按照风险得分从低到高排序，使用滑动窗口模型对每50个样本计算平均风险得分

计算公式为：

其中j+49表示从样本j开始计数的后50个样本；

步骤2.3、使用Weibull分布对50个样本的生存数据进行曲线拟合，Weibull分布的概率密度函数为：

其中k＞0是形状参数，λ＞0是分布的比例参数；

步骤2.4、对每50个样本计算出

所对应的k_j和λ_j；根据经验，k_j为一个相对固定的数值，均值为：

其中，k_j为第j个样本到第j+49个样本生存曲线Weibull分布的形状参数；

比例参数λ_j的变化范围较大，定义λ_j与

的函数关系为：

其中，λ_j表示第j个样本到第j+49个样本生存曲线Weibull分布的比例参数；

其中e为自然对数的底，α、β为函数的参数，对上式取对数得：

其中logλ_j与

为线性关系，通过线性拟合求解；

根据平均风险得分

与Weibull分布参数λ_j的拟合曲线，得出的函数关系为：

将

代入该函数得出预测的λ_j′，λ_j′为用该函数计算出的预期分布参数，计算λ_j与λ_j′的相关性得相关系数R²＝0.964，P值＝1.83E-48。

可选地，所述步骤3中的根据结肠癌患者肿瘤组织的基因表达谱计算患者的风险得分，具体为：获取结肠癌患者肿瘤组织的基因表达谱的FPKM数值，记为：V_i；第i个基因对应的权重记为：W_i；患者风险得分记为：S；计算公式为：

其中i为基因编号，n为表1中列出的基因个数。

可选地，所述步骤4中根据患者的风险得分计算患者每年的生存概率，具体为：将患者的风险得分S带入Weibull分布的累积分布函数得出该患者的存活概率函数为：

其中t为时间，α、β、S、

均为固定参数。

与现有技术相比，本发明可以获得包括以下技术效果：

1)连续：本发明能预测肿瘤患者连续时间的生存概率。例如可以给出患者每个月的生存概率、患者每年的生存概率等。而目前临床采用的分型方法只能给出一个定性的判断。

2)更精确：本发明预测平均每年生存概率与实际每年存活概率高度一致(线性相关R²＝0.988，P值＝7.35E-39)。本发明可以得出基于多基因表达特征谱的结肠癌个性化预后评估方法相比传统TNM分期能够更精确地反映患者的生存状态。

3)个性化：对于每个肿瘤患者，本发明可以给出该患者特有的生存概率曲线，这是一般肿瘤预后评估模型所不具备的。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明预测平均每年生存概率与实际每年存活概率比较；

图2是本发明TNM肿瘤分期与患者生存时间的相关性；

图3是本发明平均风险得分与Weibull分布参数scale的拟合曲线；

图4是本发明平均风险得分与Weibull分布参数scale的拟合残差图；

图5是本发明个性化结肠癌预后评估结果。

具体实施方式

以下将配合实施例来详细说明本发明的实施方式，藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

本发明公开了一种基于多基因表达特征谱的结肠癌个性化预后评估方法，包括以下步骤：

步骤1、获取结肠癌预后风险基因列表与基因权重，具体为：

步骤1.1、从Genomic Data Commons Data Portal数据库中下载结肠癌患者肿瘤组织和癌旁组织转录组数据以及临床数据，获得结肠癌患者肿瘤组织基因表达谱FPKM(Fragments Per Kilobase of transcript per Million fragments mapped)数值，进行对数转换(log2)。

步骤1.2、设总样本数为m，将所有样本根据其基因表达值(步骤1.1中获得的FPKM数值，用V表示，对第i个基因记为V_i)的三分位数分为三组，利用Cox比例风险模型计算第三分组相比第一分组的生存风险，得出第i个基因的风险比HRi和P值。定义P值<0.05具有显著性，筛选具有显著性的生存风险基因，记为n₁。此外，计算每个基因与患者生存天数的相关性，得出每个基因的相关系数r和P值。定义P值<0.05具有显著性，筛选具有显著性的生存相关基因，记为n₂。将生存风险基因和生存相关基因的交集定义为预后风险基因，记为n，则有：

n＝n₁∩n₂ (1)

步骤1.3、根据第i个基因的风险比计算第i个基因的权重W_i，计算公式为：

这样就计算得到每一个基因的权重。

最终得到的结肠癌预后风险基因列表与基因权重见表1。

表1基因名称和权重

步骤2、利用结肠癌患者肿瘤组织转录组和生存数据构建预后评估模型，具体为：

步骤2.2、将所有结肠癌患者样本按照风险得分从低到高排序，使用滑动窗口模型(Kang HJ et al.Spatio-temporal transcriptome of the human brain.Nature.2011；478(7370):483-489.)对每50个样本计算平均风险得分

计算公式为：

其中j+49表示从样本j开始计数的后50个样本。

其中k＞0是形状(shape)参数，λ＞0是分布的比例(scale)参数。

步骤2.4、对每50个样本计算出

所对应的k_j和λ_j。根据经验，k_j为一个相对固定的数值，均值为：

其中，k_j为第j个样本到第j+49个样本生存曲线Weibull分布的形状参数，跟上文中的k含义相同，这里加上j指的是特定的一群样本；

比例参数λ_j的变化范围较大，定义λ_j与

的函数关系为：

其中e为自然对数的底，α、β为函数的参数，对上式取对数可得：

其中logλ_j与

为线性关系，可通过线性拟合求解。

如图3所示为平均风险得分

与Weibull分布参数λ_j的拟合曲线，得出的函数关系为：

将

代入该函数得出预测的λ_j′(λ_j′为用该函数计算出的预期分布参数)，计算λ_j与λ_j′的相关性可得相关系数R²＝0.964，P值＝1.83E-48。

通过分析拟合残差图和Q-Q图(图4)，表明该模型达到显著性，即平均风险得分

与Weibull分布参数λ_j的函数关系是可信的。

步骤3、根据结肠癌患者肿瘤组织的基因表达谱计算患者的风险得分，具体为：获取结肠癌患者肿瘤组织的基因表达谱的FPKM数值(应包含全部或大部分表1中所列基因)，记为：V_i(i为基因编号)；表1中第i个基因对应的权重记为：W_i(i为基因编号)；患者风险得分记为：S；计算公式为：

其中i为基因编号，n为表1中列出的基因个数。

步骤4、根据患者的风险得分计算患者每年的生存概率，具体为：将患者的风险得分S带入Weibull分布的累积分布函数可以得出该患者的存活概率函数为：

其中t为时间，α、β、S、

均为固定参数。

如图5所示为一个患者的存活概率曲线，图中横坐标为天数，纵坐标为存活概率。患者每年的存活概率在曲线下方标出。右上角黑色方框中标出患者存活的实际天数，状态(Status)1表示患者已经死亡。曲线上红色点(Death点)标出患者死亡时对应的天数和存活概率，图中患者死亡时对应的存活概率在0.20左右。

本发明利用TCGA-COAD转录组和临床数据，我们对所有结肠癌患者进行了个性化的生存预测，并利用交叉验证的方法对得到的结果进行了验证。结果显示采用多基因表达特征谱的结肠癌个性化预后评估方法得出的结肠癌患者每年的生存概率与实际每年存活比率高度一致(线性相关R²＝0.988，P值＝7.35E-39，图1)。证实了该方法具有很高的预测准确性，与实际生存状态高度吻合。

如图2所示，TNM分期与结肠癌患者的生存时间具有较弱的相关性。图1与图2相比较可以得出基于多基因表达特征谱的结肠癌个性化预后评估方法相比传统TNM分期能够更精确地反映患者的生存状态。

如图5所示，对于每个肿瘤患者，本发明可以给出该患者特有的生存概率曲线，这是一般肿瘤预后评估模型所不具备的。

上述说明示出并描述了发明的若干优选实施例，但如前所述，应当理解发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离发明的精神和范围，则都应在发明所附权利要求的保护范围内。