CN108320806B - 一种基于多基因表达特征谱的结肠癌个性化预后评估方法 - Google Patents
一种基于多基因表达特征谱的结肠癌个性化预后评估方法 Download PDFInfo
- Publication number
- CN108320806B CN108320806B CN201810440932.6A CN201810440932A CN108320806B CN 108320806 B CN108320806 B CN 108320806B CN 201810440932 A CN201810440932 A CN 201810440932A CN 108320806 B CN108320806 B CN 108320806B
- Authority
- CN
- China
- Prior art keywords
- gene
- patient
- colon cancer
- survival
- risk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于多基因表达特征谱的结肠癌个性化预后评估方法,包括以下步骤:获取结肠癌预后风险基因列表与基因权重;利用结肠癌患者肿瘤组织转录组和生存数据构建预后评估模型;根据结肠癌患者肿瘤组织的基因表达谱计算患者的风险得分;根据患者的风险得分计算患者每年的生存概率。本发明的方法得出的结肠癌患者每年的生存概率与实际每年存活比率高度一致(线性相关R2=0.988,P值=7.35E‑39)。证实了该方法具有很高的预测准确性,与实际生存状态高度吻合。同时,对于每个肿瘤患者,本发明可以给出该患者特有的生存概率曲线。
Description
技术领域
本发明属于生物技术和医学领域,具体地说,涉及一种基于多基因表达特征谱的结肠癌个性化预后评估方法。
背景技术
结肠癌是中国及全球高发的恶性肿瘤。统计显示结肠直肠癌在全球男性癌症患者中排第三,在全球女性癌症患者中排第二。全球疾病负担(Global Burden of Disease,GBD)数据显示,2016年全球患有结肠直肠癌的人数达到632万,其中中国患病人数高达147万。2016年全球结肠直肠癌患者的死亡人数为83万,占总死亡人数的1.52%。中国2016年死亡患者数超过16万,占总死亡人数的1.73%。统计结果显示,从1990年到2016年全球结肠直肠癌患病率和死亡率持续增长,中国的患病率和死亡率增长较快,尤其是近几年中国的患病率和死亡率均超过全球平均水平。
目前国际上通用的的肿瘤分期方法是TNM分期系统,该系统是美国癌症联合委员会(American Joint Committee on Cancer,AJCC)提出的一种恶性肿瘤分类方法。美国国家癌症研究所(National Cancer Institute,NCI)对TNM分期的描述为:T指主要肿瘤的大小和范围,主要肿瘤通常被称为原发性肿瘤。N指患有癌症的附近淋巴结的数目。M指癌症是否已经转移,即从原发性肿瘤扩散到身体的其他部位。根据以上指标可将恶性肿瘤大致分为I期,II期,III期和IV期,其中分期越高表示肿瘤的恶性程度越高。TNM分期系统对肿瘤患者的治疗和预后评估有一定帮助。但是,由于不同个体中肿瘤的发生机制及体内微环境的不同,导致不同患者的生存时间差异巨大,TNM分期系统不能很好地反映出患者的预后状况。研究发现,对于某些诊断为I期的患者可能只有较短的生存期(1-2年),然而对于一些诊断为IV期的患者可能具有较长的生存期(5年及以上)。因此,TNM分期系统可能更倾向于描述一个癌症患者群体的平均水平,对个性化的诊断和治疗适用性较差。另一方面,对于诊断为晚期(III期、IV期)的患者,会给患者及医务人员造成一定的治疗方案选择困难,导致很多本来可以长时间生存的肿瘤患者由于过度医疗或医疗失当而提前死亡;而另一些本应进行适当治疗可以延长生存的患者由于放弃治疗或治疗不当同样导致肿瘤患者提前死亡。
目前,有报道提出利用基因表达谱可以对肿瘤患者进行预后评估。但是,绝大多数报道只是使用单个或数个基因,只能对一个群体进行分类,对个体生存期只能进行定性的划分(如预后好、预后差两个指标)。因此,需要建立更精细的个性化肿瘤预后评估模型来评估患者的生存时间从而选择合适的治疗方案。
发明内容
有鉴于此,本发明提供了一种基于多基因表达特征谱的结肠癌个性化预后评估方法,该方法能够准确预测患者每年的存活概率。
为了解决上述技术问题,本发明公开了一种基于多基因表达特征谱的结肠癌个性化预后评估方法,包括以下步骤:
步骤1、获取结肠癌预后风险基因列表与基因权重;
步骤2、利用结肠癌患者肿瘤组织转录组和生存数据构建预后评估模型;
步骤3、根据结肠癌患者肿瘤组织的基因表达谱计算患者的风险得分;
步骤4、根据患者的风险得分计算患者每年的生存概率。
可选地,所述步骤1中的获取结肠癌预后风险基因列表与基因权重具体为:
步骤1.1、从Genomic Data Commons Data Portal数据库中下载结肠癌患者肿瘤组织和癌旁组织转录组数据以及临床数据,获得结肠癌患者肿瘤组织基因表达谱FPKM数值,进行对数转换;
步骤1.2、设总样本数为m,将所有样本根据其基因表达值的三分位数分为三组,利用Cox比例风险模型计算第三分组相比第一分组的生存风险,得出第i个基因的风险比HRi和P值;定义P值<0.05具有显著性,筛选具有显著性的生存风险基因,记为n1;此外,计算每个基因与患者生存天数的相关性,得出每个基因的相关系数r和P值;定义P值<0.05具有显著性,筛选具有显著性的生存相关基因,记为n2;将生存风险基因和生存相关基因的交集定义为预后风险基因,记为n,则有:
n=n1∩n2 (1)
步骤1.3、根据第i个基因的风险比和相对倍数变化计算第i个基因的权重Wi,计算公式为:
这样就计算得到每一个基因的权重;最终得到的结肠癌预后风险基因列表与基因权重。
可选地,所述的结肠癌预后风险基因列表与基因权重如下表所示:
可选地,所述步骤2中的利用结肠癌患者肿瘤组织转录组和生存数据构建预后评估模型,具体为:
步骤2.1、定义基因表达值为V,根据第i个基因在第j个样本中的表达值和权重计算第i个患者的风险得分Sj;计算公式为:
其中,j表示样本编号,Vij表示第i个基因在第j个样本中的表达值;
其中j+49表示从样本j开始计数的后50个样本;
步骤2.3、使用Weibull分布对50个样本的生存数据进行曲线拟合,Weibull分布的概率密度函数为:
其中k>0是形状参数,λ>0是分布的比例参数;
其中,kj为第j个样本到第j+49个样本生存曲线Weibull分布的形状参数;
其中,λj表示第j个样本到第j+49个样本生存曲线Weibull分布的比例参数;
其中e为自然对数的底,α、β为函数的参数,对上式取对数得:
可选地,所述步骤3中的根据结肠癌患者肿瘤组织的基因表达谱计算患者的风险得分,具体为:获取结肠癌患者肿瘤组织的基因表达谱的FPKM数值,记为:Vi;第i个基因对应的权重记为:Wi;患者风险得分记为:S;计算公式为:
其中i为基因编号,n为表1中列出的基因个数。
可选地,所述步骤4中根据患者的风险得分计算患者每年的生存概率,具体为:将患者的风险得分S带入Weibull分布的累积分布函数得出该患者的存活概率函数为:
与现有技术相比,本发明可以获得包括以下技术效果:
1)连续:本发明能预测肿瘤患者连续时间的生存概率。例如可以给出患者每个月的生存概率、患者每年的生存概率等。而目前临床采用的分型方法只能给出一个定性的判断。
2)更精确:本发明预测平均每年生存概率与实际每年存活概率高度一致(线性相关R2=0.988,P值=7.35E-39)。本发明可以得出基于多基因表达特征谱的结肠癌个性化预后评估方法相比传统TNM分期能够更精确地反映患者的生存状态。
3)个性化:对于每个肿瘤患者,本发明可以给出该患者特有的生存概率曲线,这是一般肿瘤预后评估模型所不具备的。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明预测平均每年生存概率与实际每年存活概率比较;
图2是本发明TNM肿瘤分期与患者生存时间的相关性;
图3是本发明平均风险得分与Weibull分布参数scale的拟合曲线;
图4是本发明平均风险得分与Weibull分布参数scale的拟合残差图;
图5是本发明个性化结肠癌预后评估结果。
具体实施方式
以下将配合实施例来详细说明本发明的实施方式,藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
本发明公开了一种基于多基因表达特征谱的结肠癌个性化预后评估方法,包括以下步骤:
步骤1、获取结肠癌预后风险基因列表与基因权重,具体为:
步骤1.1、从Genomic Data Commons Data Portal数据库中下载结肠癌患者肿瘤组织和癌旁组织转录组数据以及临床数据,获得结肠癌患者肿瘤组织基因表达谱FPKM(Fragments Per Kilobase of transcript per Million fragments mapped)数值,进行对数转换(log2)。
步骤1.2、设总样本数为m,将所有样本根据其基因表达值(步骤1.1中获得的FPKM数值,用V表示,对第i个基因记为Vi)的三分位数分为三组,利用Cox比例风险模型计算第三分组相比第一分组的生存风险,得出第i个基因的风险比HRi和P值。定义P值<0.05具有显著性,筛选具有显著性的生存风险基因,记为n1。此外,计算每个基因与患者生存天数的相关性,得出每个基因的相关系数r和P值。定义P值<0.05具有显著性,筛选具有显著性的生存相关基因,记为n2。将生存风险基因和生存相关基因的交集定义为预后风险基因,记为n,则有:
n=n1∩n2 (1)
步骤1.3、根据第i个基因的风险比计算第i个基因的权重Wi,计算公式为:
这样就计算得到每一个基因的权重。
最终得到的结肠癌预后风险基因列表与基因权重见表1。
表1基因名称和权重
步骤2、利用结肠癌患者肿瘤组织转录组和生存数据构建预后评估模型,具体为:
步骤2.1、定义基因表达值为V,根据第i个基因在第j个样本中的表达值和权重计算第i个患者的风险得分Sj;计算公式为:
其中,j表示样本编号,Vij表示第i个基因在第j个样本中的表达值;
步骤2.2、将所有结肠癌患者样本按照风险得分从低到高排序,使用滑动窗口模型(Kang HJ et al.Spatio-temporal transcriptome of the human brain.Nature.2011;478(7370):483-489.)对每50个样本计算平均风险得分计算公式为:
其中j+49表示从样本j开始计数的后50个样本。
步骤2.3、使用Weibull分布对50个样本的生存数据进行曲线拟合,Weibull分布的概率密度函数为:
其中k>0是形状(shape)参数,λ>0是分布的比例(scale)参数。
其中,kj为第j个样本到第j+49个样本生存曲线Weibull分布的形状参数,跟上文中的k含义相同,这里加上j指的是特定的一群样本;
其中,λj表示第j个样本到第j+49个样本生存曲线Weibull分布的比例参数;
其中e为自然对数的底,α、β为函数的参数,对上式取对数可得:
步骤3、根据结肠癌患者肿瘤组织的基因表达谱计算患者的风险得分,具体为:获取结肠癌患者肿瘤组织的基因表达谱的FPKM数值(应包含全部或大部分表1中所列基因),记为:Vi(i为基因编号);表1中第i个基因对应的权重记为:Wi(i为基因编号);患者风险得分记为:S;计算公式为:
其中i为基因编号,n为表1中列出的基因个数。
步骤4、根据患者的风险得分计算患者每年的生存概率,具体为:将患者的风险得分S带入Weibull分布的累积分布函数可以得出该患者的存活概率函数为:
如图5所示为一个患者的存活概率曲线,图中横坐标为天数,纵坐标为存活概率。患者每年的存活概率在曲线下方标出。右上角黑色方框中标出患者存活的实际天数,状态(Status)1表示患者已经死亡。曲线上红色点(Death点)标出患者死亡时对应的天数和存活概率,图中患者死亡时对应的存活概率在0.20左右。
本发明利用TCGA-COAD转录组和临床数据,我们对所有结肠癌患者进行了个性化的生存预测,并利用交叉验证的方法对得到的结果进行了验证。结果显示采用多基因表达特征谱的结肠癌个性化预后评估方法得出的结肠癌患者每年的生存概率与实际每年存活比率高度一致(线性相关R2=0.988,P值=7.35E-39,图1)。证实了该方法具有很高的预测准确性,与实际生存状态高度吻合。
如图2所示,TNM分期与结肠癌患者的生存时间具有较弱的相关性。图1与图2相比较可以得出基于多基因表达特征谱的结肠癌个性化预后评估方法相比传统TNM分期能够更精确地反映患者的生存状态。
如图5所示,对于每个肿瘤患者,本发明可以给出该患者特有的生存概率曲线,这是一般肿瘤预后评估模型所不具备的。
上述说明示出并描述了发明的若干优选实施例,但如前所述,应当理解发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离发明的精神和范围,则都应在发明所附权利要求的保护范围内。
Claims (1)
1.一种基于多基因表达特征谱的结肠癌个性化预后评估方法,其特征在于,该方法用于疾病的非诊断和治疗目的,包括以下步骤:
步骤1、获取结肠癌预后风险基因列表与基因权重;
步骤2、利用结肠癌患者肿瘤组织转录组和生存数据构建预后评估模型;
步骤3、根据结肠癌患者肿瘤组织的基因表达谱计算患者的风险得分;
步骤4、根据患者的风险得分计算患者每年的生存概率;
所述步骤1中的获取结肠癌预后风险基因列表与基因权重具体为:
步骤1.1、从Genomic Data Commons Data Portal数据库中下载结肠癌患者肿瘤组织和癌旁组织转录组数据以及临床数据,获得结肠癌患者肿瘤组织基因表达谱FPKM数值,进行对数转换;
步骤1.2、设总样本数为m,将所有样本根据其基因表达值的三分位数分为三组,利用Cox比例风险模型计算第三分组相比第一分组的生存风险,得出第i个基因的风险比HRi和P值;定义P值<0.05具有显著性,筛选具有显著性的生存风险基因,记为N1;此外,计算每个基因与患者生存天数的相关性,得出每个基因的相关系数r和P值;定义P值<0.05具有显著性,筛选具有显著性的生存相关基因,记为N2;将生存风险基因和生存相关基因的交集定义为预后风险基因,记为N,则有:
N=N1∩N2 (1)
步骤1.3、根据第i个基因的风险比和相对倍数变化计算第i个基因的权重Wi,计算公式为:
这样就计算得到每一个基因的权重;最终得到的结肠癌预后风险基因列表与基因权重;
所述的结肠癌预后风险基因列表与基因权重如下表所示:
所述步骤2中的利用结肠癌患者肿瘤组织转录组和生存数据构建预后评估模型,具体为:
步骤2.1、定义基因表达值为V,根据第i个基因在第j个样本中的表达值和权重计算第i个患者的风险得分Sj;计算公式为:
其中,j表示样本编号,Vij表示第i个基因在第j个样本中的表达值;
其中j+49表示从样本j开始计数的后50个样本;
步骤2.3、使用Weibull分布对50个样本的生存数据进行曲线拟合,Weibull分布的概率密度函数为:
其中k>0是形状参数,λ>0是分布的比例参数;
其中,kj为第j个样本到第j+49个样本生存曲线Weibull分布的形状参数;
其中,λj表示第j个样本到第j+49个样本生存曲线Weibull分布的比例参数;
其中e为自然对数的底,α、β为函数的参数,对上式取对数得:
所述步骤3中的根据结肠癌患者肿瘤组织的基因表达谱计算患者的风险得分,具体为:获取结肠癌患者肿瘤组织的基因表达谱的FPKM数值,记为:Vi;第i个基因对应的权重记为:Wi;患者风险得分记为:S;计算公式为:
其中i为基因编号,n为表1中列出的基因个数;
所述步骤4中根据患者的风险得分计算患者每年的生存概率,具体为:将患者的风险得分S带入Weibull分布的累积分布函数得出该患者的存活概率函数为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810440932.6A CN108320806B (zh) | 2018-05-09 | 2018-05-09 | 一种基于多基因表达特征谱的结肠癌个性化预后评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810440932.6A CN108320806B (zh) | 2018-05-09 | 2018-05-09 | 一种基于多基因表达特征谱的结肠癌个性化预后评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108320806A CN108320806A (zh) | 2018-07-24 |
CN108320806B true CN108320806B (zh) | 2022-04-12 |
Family
ID=62895283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810440932.6A Active CN108320806B (zh) | 2018-05-09 | 2018-05-09 | 一种基于多基因表达特征谱的结肠癌个性化预后评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108320806B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109182526A (zh) * | 2018-10-10 | 2019-01-11 | 杭州翱锐生物科技有限公司 | 用于早期肝癌辅助诊断的试剂盒及其检测方法 |
CN111128385B (zh) * | 2020-01-17 | 2020-11-10 | 河南科技大学第一附属医院 | 一种用于食管鳞癌的预后预警系统及其应用 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101688240A (zh) * | 2007-04-10 | 2010-03-31 | 国立台湾大学 | 通过微rna预测癌症患者的治疗后存活预期 |
WO2010104473A1 (en) * | 2009-03-10 | 2010-09-16 | Agency For Science, Technology And Research | A method for the systematic evaluation of the prognostic properties of gene pairs for medical conditions, and certain gene pairs identified |
CN106407689A (zh) * | 2016-09-27 | 2017-02-15 | 牟合(上海)生物科技有限公司 | 一种基于基因表达谱的胃癌预后标志物筛选及分类方法 |
-
2018
- 2018-05-09 CN CN201810440932.6A patent/CN108320806B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101688240A (zh) * | 2007-04-10 | 2010-03-31 | 国立台湾大学 | 通过微rna预测癌症患者的治疗后存活预期 |
WO2010104473A1 (en) * | 2009-03-10 | 2010-09-16 | Agency For Science, Technology And Research | A method for the systematic evaluation of the prognostic properties of gene pairs for medical conditions, and certain gene pairs identified |
CN106407689A (zh) * | 2016-09-27 | 2017-02-15 | 牟合(上海)生物科技有限公司 | 一种基于基因表达谱的胃癌预后标志物筛选及分类方法 |
Non-Patent Citations (1)
Title |
---|
乳腺癌多基因检测及其临床意义;马榕 等;《中国实用外科杂志》;20150731;第35卷(第7期);701-703 * |
Also Published As
Publication number | Publication date |
---|---|
CN108320806A (zh) | 2018-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363907B (zh) | 一种基于多基因表达特征谱的肺腺癌个性化预后评估方法 | |
CN108630317B (zh) | 一种基于多基因表达特征谱的肝癌个性化预后评估方法 | |
CN108648826B (zh) | 一种基于多基因表达特征谱的胰腺癌个性化预后评估方法 | |
CN108611416B (zh) | 一种基于多基因表达特征谱的宫颈癌个性化预后评估方法 | |
CN108733980B (zh) | 基于多基因表达特征谱胶质母细胞瘤个性化预后评估方法 | |
CN108470111B (zh) | 一种基于多基因表达特征谱的胃癌个性化预后评估方法 | |
CN108647493B (zh) | 一种肾透明细胞癌个性化预后评估方法 | |
CN108320806B (zh) | 一种基于多基因表达特征谱的结肠癌个性化预后评估方法 | |
CN111748632A (zh) | 一种特征lincRNA表达谱组合及肝癌早期预测方法 | |
CN115019880B (zh) | 一种肝癌预后模型及其构建方法和应用 | |
CN114891887A (zh) | 一种三阴性乳腺癌预后基因标志物筛选的方法 | |
CN111748633A (zh) | 一种特征miRNA表达谱组合及头颈鳞状细胞癌早期预测方法 | |
CN109979532B (zh) | 甲状腺乳头状癌远处转移分子突变预测模型、方法及系统 | |
Chen et al. | Progression-free survival prediction in small cell lung cancer based on Radiomics analysis of contrast-enhanced CT | |
CN114203256A (zh) | 基于微生物丰度的mibc分型及预后预测模型构建方法 | |
CN113658696A (zh) | 一种基于患者年龄、营养指标、肿瘤分期和肿瘤标志物联合预测胃癌预后的预测系统 | |
CN111944900A (zh) | 一种特征lincRNA表达谱组合及子宫内膜癌早期预测方法 | |
CN116310525A (zh) | 一种基于对比表示蒸馏与输出蒸馏的病理图像分类方法 | |
CN109875522B (zh) | 一种预测前列腺穿刺与根治术后病理评分一致性的方法 | |
CN111793692A (zh) | 一种特征miRNA表达谱组合及肺鳞癌早期预测方法 | |
CN111850124A (zh) | 一种特征lincRNA表达谱组合及肺鳞癌早期预测方法 | |
Diep | Variable selection for generalized linear mixed model by L1 penalization for predicting clinical parameters of ovarian cancer | |
Borghi et al. | Sarculator: how to improve further prognostication of all sarcomas | |
Corry et al. | Assessing the Compliance and Accuracy of a National Australian Head and Neck Cancer (HNC) Database | |
CN116597991A (zh) | 基于焦亡免疫相关基因的结直肠癌患者生存预后模型的构建和应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |