CN117476097B - 一种基于三级淋巴结构特征基因的结直肠癌预后和治疗反应预测模型及其构建方法和应用 - Google Patents

一种基于三级淋巴结构特征基因的结直肠癌预后和治疗反应预测模型及其构建方法和应用 Download PDF

Info

Publication number
CN117476097B
CN117476097B CN202311390440.8A CN202311390440A CN117476097B CN 117476097 B CN117476097 B CN 117476097B CN 202311390440 A CN202311390440 A CN 202311390440A CN 117476097 B CN117476097 B CN 117476097B
Authority
CN
China
Prior art keywords
tertiary lymphoid
genes
lymphoid structure
tlsscore
colorectal cancer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311390440.8A
Other languages
English (en)
Other versions
CN117476097A (zh
Inventor
高峰
雷佳欣
蔡都
王润贤
胡楚凌
娄晓盈
吕敏怡
李承行
盖宝文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sixth Affiliated Hospital of Sun Yat Sen University
Original Assignee
Sixth Affiliated Hospital of Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sixth Affiliated Hospital of Sun Yat Sen University filed Critical Sixth Affiliated Hospital of Sun Yat Sen University
Priority to CN202311390440.8A priority Critical patent/CN117476097B/zh
Publication of CN117476097A publication Critical patent/CN117476097A/zh
Application granted granted Critical
Publication of CN117476097B publication Critical patent/CN117476097B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请涉及生物医学技术领域,具体公开了一种基于三级淋巴结构特征基因的结直肠癌预后和治疗反应预测模型及其构建方法和应用。本申请基于39个三级淋巴结构的相关基因在结直肠癌中识别出不同的TLS模式,并筛选出表征结直肠癌三级淋巴结构特征的一组特征基因,由此构建了量化个体的TLS模式的评分系统TLSscore。通过在独立验证集的验证,TLSscore可以作为预测预后和免疫治疗反应的指标,这将协助结直肠癌的临床治疗决策。

Description

一种基于三级淋巴结构特征基因的结直肠癌预后和治疗反应 预测模型及其构建方法和应用
技术领域
本申请涉及生物医学技术领域,尤其是涉及一种基于三级淋巴结构特征基因的结直肠癌预后和治疗反应预测模型及其构建方法和应用。
背景技术
结直肠癌(Colorectal cancer,CRC)是一种致命的胃肠道肿瘤,也是世界第四大常见癌症。近年来,随着各种治疗方式的进步,结直肠癌的死亡率逐渐下降。然而,如果没有识别出不良预后倾向的患者,并且不进行医疗干预,患者可能会面临严重的生活质量问题甚至死亡。目前,TNM分期系统根据临床信息评估结直肠癌患者预后,但缺乏分子和基因水平的生物标志物来指导个性化临床决策。此外,共识分子亚型(CMS)、iCMS也是评估CRC分子分期的重要指标,但它们只关注肿瘤本身,而没有探讨肿瘤微环境(tumormicroenvironment,TME)。因此,科学地预测患者预后尤为重要,这将有利于今后的综合术后治疗和随访计划。为了对CRC患者进行精准管理,迫切需要一种基于TME标记物的新策略,对具有不同治疗反应风险的亚组进行分层。
三级淋巴结构(Tertiary lymphoid structures,TLSs)是一种特殊的免疫细胞簇,形成于非淋巴组织中,以响应慢性炎症或感染。其结构类似于淋巴结等淋巴器官,可以作为免疫细胞激活和抗原呈递的场所。TLSs是TME的关键组成部分,可以影响肿瘤发展、免疫逃逸和耐药性。TLSs为产生抗肿瘤免疫反应提供了关键的微环境,并与大多数实体癌预后的改善相关。有研究表明,B细胞和TLSs与免疫治疗的反应密切相关,TLSs的存在是黑色素瘤和膀胱癌免疫检查点阻断(ICB)治疗反应的预测因素。因此,诱导出现TLSs是一种潜在的恶性肿瘤治疗策略。然而,TLSs和CRC之间的相互作用机制以及TLSs对CRC预后和治疗反应的预测能力仍然不明确。
发明内容
本申请的目的在于克服上述现有技术的不足之处而提供一种基于三级淋巴结构特征基因的结直肠癌预后和治疗反应预测模型及其构建方法和应用。本申请基于39个三级淋巴结构的相关基因在结直肠癌中识别出不同的TLS模式,并筛选出表征结直肠癌三级淋巴结构特征的一组特征基因,由此构建了量化个体的TLS模式的评分系统TLSscore。通过在独立验证集的验证,TLSscore可以作为预测预后和免疫治疗反应的指标,这将协助结直肠癌的临床治疗决策。
为实现上述目的,本申请采取的技术方案为:
第一目的,本申请提供了一种三级淋巴结构特征基因在制备结直肠癌筛查和/或预测试剂中的应用,所述三级淋巴结构特征基因包括UBD、TNS1、SFRP2、MMP1、IGLV3-19、IGHG2、GAS1、DPT、CXCL11中的至少一种。
经研究表明,UBD、TNS1、MMP1与肿瘤的发生、发展有关。IGLV3-19、IGHG2和CXCL11与免疫功能和肿瘤免疫浸润有关;GAS1和SFRP2与上皮-间质转换相关。
第二目的,本申请提供了一种三级淋巴结构特征基因在制备结直肠癌预后和/或治疗反应预测模型中的应用,其特征在于,所述三级淋巴结构特征基因包括UBD、TNS1、SFRP2、MMP1、IGLV3-19、IGHG2、GAS1、DPT、CXCL11中的至少一种。
作为本申请所述三级淋巴结构特征基因在制备结直肠癌预后和/或治疗反应预测模型中的应用的优选实施方式,所述预测模型还包括检测三级淋巴结构特征基因表达量的试剂,所述三级淋巴结构特征基因包括UBD、TNS1、SFRP2、MMP1、IGLV3-19、IGHG2、GAS1、DPT、CXCL11中的至少一种。
作为本申请所述三级淋巴结构特征基因在制备结直肠癌预后和/或治疗反应预测模型中的应用的优选实施方式,所述预测模型包括以下内容:
其中,Expression(TSGi)是预后相关的三级淋巴结构特征基因i的表达量,Coefficient(TSGi)是预后相关的三级淋巴结构特征基因i的回归系数。
第三目的,本申请提供了检测三级淋巴结构特征基因表达量的试剂在制备用于检测结直肠癌的试剂盒中的应用,所述三级淋巴结构特征基因包括UBD、TNS1、SFRP2、MMP1、IGLV3-19、IGHG2、GAS1、DPT、CXCL11中的至少一种。
第四目的,本申请提供了一种结直肠癌预后或治疗反应预测模型的构建方法,包括以下步骤:
S1、基于39个三级淋巴结构相关的基因,通过非负矩阵分解算法将队列的转录图谱划分成不同TLS模式;
S2、通过差异表达分析筛选出不同TLS模式的差异表达基因,显著性标准为|log2Fold Change|>1且校正后的P值adjusted P-value<0.001,获得三级淋巴结构相关的差异表达基因;
S3、通过比例风险Cox回归模型,对所述三级淋巴结构相关的差异基因进行预后分析,得到多个具有预后价值的三级淋巴结构特征基因;通过LASSO回归分析,对所述多个具有预后价值的三级淋巴结构特征基因进行筛选,得到表征结直肠癌中三级淋巴结构的一组特征基因;
S4、根据所述多个具有预后价值的三级淋巴结构特征基因的表达量和所述多个具有预后价值的三级淋巴结构特征基因对应的回归系数,计算出每个肿瘤组织样本的TLSscore值;
其中,Expression(TSGi)是预后相关的三级淋巴结构特征基因i的表达量,Coefficient(TSGi)是预后相关的三级淋巴结构特征基因i的回归系数;
S5、基于所述每个肿瘤组织样本的TLSscore值,根据约登指数计算肿瘤组织样本最佳的阈值,根据所述阈值将每个肿瘤组织样本划分为高TLSscore组和低TLSscore组。
作为本申请所述结直肠癌预后或治疗反应预测模型的的构建方法优选实施方式,所述多个预后相关的三级淋巴结构相关的基因包括UBD、TNS1、SFRP2、MMP1、IGLV3-19、IGHG2、GAS1、DPT、CXCL11中的至少一种。
作为本申请所述结直肠癌预后或治疗反应预测模型的的构建方法优选实施方式,所述步骤S1、S2中,将TCGA CRC、GSE39582、GSE17538、GSE33113、GSE37892、GSE39084队列去除批次效应并整合为一个大的队列Meta-Cohort,用于无监督聚类分析,得到不同的聚类分型,所述Meta-Cohort在步骤S2中用于差异表达分析,获取不同TLS模式间的三级淋巴结构相关的差异表达基因。
作为本申请所述结直肠癌预后或治疗反应预测模型的的构建方法优选实施方式,所述步骤S3中获取表征结直肠癌中三级淋巴结构的一组特征基因包括:
将TCGA CRC队列作为训练数据集,GSE39582队列和由GSE17538、GSE33113、GSE37892、GSE39084合并的GEO队列被用作两个独立的验证数据集包括:
将TCGA CRC队列作为训练数据集,GSE39582队列和由GSE17538、GSE33113、GSE37892、GSE39084合并的GEO队列被用作两个独立的验证数据集。
作为本申请所述结直肠癌预后或治疗反应预测模型的的构建方法优选实施方式,所述步骤S5中,采用Kaplan-Meier分析用于比较高TLSscore组和低TLSscore组之间的生存差异。
本申请采用NMF算法,根据39个三级淋巴结构的相关基因的转录组图谱将CRC患者细分为三种不同的TLS模式,包括模式1中的617个样本、模式2中的566个样本和模式2中的483个样本;根据差异表达分析筛选出三种TLS模式中的140个DEG,并进一步鉴定出与DFS相关的48个DEG。利用LASSO回归分析建立了一个具有九个基因(UBD、TNS1、SFRP2、MMP1、IGLV3-19、IGHG2、GAS1、DPT、CXCL11)的特征,并最终计算了个体的TLSscore。根据约登指数计算最佳阈值,在训练和验证队列中分别将患者分为高TLSscore组和低TLSscore组。
Kaplan-Meier分析表明,在训练队列和验证队列中,TLSscore较高的样本的DFS往往明显短于较低TLSscore的样本。考虑到TLSscore组和其他在单因素Cox回归中显著的临床或病理参数,多因素Cox回归的结果表明,TLSscore是训练队列和验证队列中DFS预测的独立预后因素。这表明TLSscore是CRC患者预后的一个有前途的预测指标,具有临床应用的潜力。
TMB和MSI状态是预测免疫治疗疗效的重要生物标志物。结果表明,低TLSscore组的TMB显著高于高TLSscore组。TLSscore组的MSI状态比例高于高TLSscore组,表明低TLSscore组对免疫治疗更敏感。通过评估组间免疫检查点相关基因的表达,例如PD-1(PDCD1)、PD-L1(CD274)、PD-L2(PDCD1LG2)、CTLA4、LAG3、HAVCR2、TIGIT和BTLA,所有这些基因在低TLSscore组中均显著上调,提示TLSscore在对CRC患者进行ICB治疗分层中的潜在作用。
进一步地,本申请计算了目前公认的TIDE评分、TMEscore、MIRACLE评分等免疫治疗反应预测指标。结果同样证实了低TLSscore组的患者对免疫治疗有更有利的反应。此外,两个免疫治疗队列IMvigor210和GSE91061作为额外数据集来验证TLSscore预测免疫治疗反应的能力。根据约登指数计算的最佳阈值,将患者分为低TLSscore组或高TLSscore组。在IMvigor210和GSE91061中,高TLSscore组的预后均显著差于低TLSscore组。此外,在两个队列的低TLSscore组中还观察到较高比例的免疫治疗应答者,并且应答者的TLSscore显著较低。上述结果表明,TLSscore是一种潜在且稳健的生物标志物,不仅适用于CRC,而且适用于多种癌症类型的免疫治疗的预后和临床反应评估。
本申请还提供了一种结直肠癌预后或治疗反应预测模型构建装置,所述装置包括:
无监督聚类模块,基于39个三级淋巴结构相关的基因,通过非负矩阵分解算法将队列的转录图谱划分成不同TLS模式;
筛选模块,通过差异表达分析筛选出不同TLS模式的差异表达基因,显著性标准为|log2 Fold Change|>1且校正后的P值adjusted P-value<0.001,获得三级淋巴结构相关的差异表达基因;
三级淋巴结构特征基因获取模块:通过比例风险Cox回归模型,对所述三级淋巴结构相关的差异基因进行预后分析,得到多个具有预后价值的三级淋巴结构特征基因;通过LASSO回归分析,对所述多个具有预后价值的三级淋巴结构特征基因进行筛选,得到表征结直肠癌中三级淋巴结构的一组特征基因;
计算模块,根据所述多个具有预后价值的三级淋巴结构特征基因的表达量和所述多个具有预后价值的三级淋巴结构特征基因对应的回归系数,计算出每个肿瘤组织样本的TLSscore值;
其中,Expression(TSGi)是预后相关的三级淋巴结构特征基因i的表达量,Coefficient(TSGi)是预后相关的三级淋巴结构特征基因i的回归系数;
输出模块,用于基于所述每个肿瘤组织样本的TLSscore值,根据约登指数计算肿瘤组织样本最佳的阈值,根据所述阈值将每个肿瘤组织样本划分为高TLSscore组和低TLSscore组。
在一些实施例中,所述无监督聚类模块,进一步用于:
将TCGA CRC、GSE39582、GSE17538、GSE33113、GSE37892、GSE39084队列去除批次效应并整合为一个大的队列Meta-Cohort,用于无监督聚类分析,得到不同的聚类分型,所述Meta-Cohort在随后用于差异表达分析,获取不同TLS模式间的三级淋巴结构相关的差异表达基因。
与现有技术相比,本申请具有以下有益效果:
本申请基于39个三级淋巴结构的相关基因在结直肠癌中识别出不同的TLS模式,并筛选出表征结直肠癌三级淋巴结构特征的一组特征基因,由此构建了量化个体的TLS模式的评分系统TLSscore。通过在独立验证集的验证,TLSscore可以作为预测预后和免疫治疗反应的指标,这将协助结直肠癌的临床治疗决策。
附图说明
图1为TCGA CRC队列、GSE39582队列和合并的GEO队列的基线信息;
图2为基于39个三级淋巴结构的相关基因的无监督聚类分析结果;
图3为三级淋巴结构的相关基因的差异表达分析、LASSO回归分析和最佳阈值的结果图;
图4为TCGA CRC队列、GSE39582队列和合并的GEO队列生存Kaplan-Meier分析图;
图5为TCGA CRC队列、GSE39582队列和合并的GEO队列中TLSscore能否作为独立预后预测因素的单、多因素Cox回归分析结果;
图6为TLSscore预测ICB治疗反应的结果图。
具体实施方式
为更好的说明本申请的目的、技术方案和优点,下面将结合附图和具体实施例对本申请作进一步说明。
在以下实施例中,所使用的实验方法如无特殊说明,均为常规方法,所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
实施例1
本发明实施例提供了一种结直肠癌预后或治疗反应预测模型构建方法,包括以下步骤:
S11、基于39个公开发表的三级淋巴结构相关的基因,通过无监督聚类算法将队列的转录图谱划分成不同TLS模式。
可选地,上述步骤S11可以包括如下步骤S111-S113:
S111、数据收集和预处理。
一种可行的实施方式中,结直肠癌患者的RNA高通量测序数据和临床病理信息从UCSC Xena(https://xena.ucsc.edu/)数据库中获得,共包括622例TCGA CRC样本。对于高通量测序数据,本申请下载了结直肠癌患者的FPKM格式的数据,并转换为TPM数据格式用于后续分析。
结直肠癌患者的RNA微阵列芯片表达数据和临床病理信息来源于五个队列,分别从Gene Expression Omnibus(GEO,https://www.ncbi.nlm.nih.gov/geo/)数据库下载,包括GSE39582(n=566)、GSE17538(n=232)、GSE33113(n=90)、GSE37892(n=130)、GSE39084(n=70)。对于在平台上分析的微阵列数据,本申请下载了原始的CEL文件,并使用“affy”包实RMA算法来执行背景调整和分位数归一化。
本申请所有队列均满足以下标准:(1)经组织学确诊为结直肠癌;(2)可获得临床信息;(3)样本数量超过50个。上述队列的基线信息如图1所示。
从Sautes-Fridman C等人公开发表的文献(Tertiary lymphoid structures inthe era of cancer immunotherapy.Nat Rev Cancer 2019,19(6):307-325.)中获得39个三级淋巴结构相关的基因。
S112、消除非生物技术偏差的批次效应(Batch Effect)。
批次效应,表示样品在不同批次中处理和测量产生的与试验期间记录的任何生物变异无关的技术差异。不同时间、不同操作者、不同试剂、不同仪器导致的实验误差,反映到细胞的表达量上就是批次效应。
一种可行的实施方式中,应用“sva”包的ComBat算法来去除样本间的批次效应。本申请通过减少批次之间的差异,让多个批次的数据重新组合在一起,整合为一个大的队列Meta-Cohort,用于后续分析。
S113、通过无监督无监督聚类算法,对Meta-Cohort队列划分为具有不同特征的亚型,识别出不同的TLS模式。
一种可行的实施方式中,基于非负矩阵分解(Non-negative matrixfactorization,NMF)算法,根据Meta-cohort中39个三级淋巴结构的相关基因的转录图谱来识别不同的TLS模式。
NMF算法,即对于任意给定的一个非负矩阵V,其能够寻找到一个非负矩阵W和一个非负矩阵H,满足条件V=W*H,从而将一个非负的矩阵分解为左右两个非负矩阵的乘积。其中,V矩阵中每一列代表一个观测(observation),每一行代表一个特征(feature);W矩阵称为基矩阵,H矩阵称为系数矩阵或权重矩阵。这时用系数矩阵H代替原始矩阵,就可以实现对原始矩阵进行降维,得到数据特征的降维矩阵。
S12、识别结直肠癌中三级淋巴结构特征基因,构建TLSscore评分体系,评价个体的TLS模式。
可选地,上述步骤S12可以包括如下步骤S121-S124:
S121、通过差异表达分析筛选出不同TLS模式间的差异表达基因,获得三级淋巴结构相关的差异基因。
一种可行的实施方式中,利用“limma”包筛选出不同TLS模式的差异表达基因(Differential Expression Gene,DEG),显著性标准为|log2 Fold Change|>1且校正后的P值adjusted P-value<0.001,获得三级淋巴结构相关的差异基因;
S122、通过比例风险Cox回归模型,对所述三级淋巴结构相关的差异基因进行预后分析,得到多个具有预后价值的三级淋巴结构相关的差异基因。
一种可行的实施方式中,通过进行1000次随机化(每次占样本比例80%),对所述三级淋巴结构相关的差异基因进一步确定预后价值,并通过单因素Cox比例风险回归分析进行分析,以估计Meta-cohort中每个基因与患者无病生存期(Disease Free Survival,DFS)之间的相关性,得到多个具有预后价值的三级淋巴结构相关的差异基因。P值<0.05的基因认为具有统计学意义。
S123、对所述多个具有预后价值的三级淋巴结构相关的差异基因进行筛选,得到表征结直肠癌中三级淋巴结构的一组特征基因。
一种可行的实施方式中,通过最小绝对收缩和选择算子(The Least AbsoluteShrinkage and Selection Operator,LASSO)算法,对所述多个具有预后价值的三级淋巴结构相关的差异基因进行筛选,得到表征结直肠癌中三级淋巴结构的一组特征基因。其中,本申请惩罚参数是通过基于训练数据集的最小偏似然偏差的十倍交叉验证来估计的。
LASSO回归算法是一种压缩估计。它通过构造一个惩罚函数得到一个较为精炼的模型,使得它压缩一些回归系数,即强制系数绝对值之和小于某个固定值;同时设定一些回归系数为零。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。
S124、根据三级淋巴结构特征基因,构建TLSscore评分体系,评价个体的TLS模式。
本申请根据所述多个预后相关的三级淋巴结构特征基因的表达量和所述多个预后相关的三级淋巴结构特征基因对应的回归系数,计算出每个肿瘤组织样本的TLSscore值,生成如下的评分计算公式:
其中,Expression(TSGi)是预后相关的三级淋巴结构特征基因i的表达量,Coefficient(TSGi)是预后相关的三级淋巴结构特征基因i的回归系数。
S13、根据阈值将样本划分高、低TLSscore组,以进行结直肠癌预后或治疗反应预测。
可选地,上述步骤S13可以包括如下步骤S131-S134:
S131、根据最佳阈值将样本划分高、低TLSscore组。
一种可行的实施方式中,将TCGA CRC队列作为训练数据集,GSE39582队列和由GSE17538、GSE33113、GSE37892、GSE39084合并的GEO队列被用作两个独立的验证数据集。
基于所述每个肿瘤组织样本的TLSscore值,根据约登指数计算肿瘤组织样本最佳的阈值。根据所述阈值将训练数据集、验证数据集中每个肿瘤组织样本划分为高、低TLSscore组,TLSscore大于最佳阈值的是高TLSscore组,TLSscore小于最佳阈值的是低TLSscore组。
S132、通过TLSscore对结直肠癌免预后进行预测。
一种可行的实施方式中,在训练数据集、验证数据集中,采用Kaplan-Meier分析用于比较各组之间的生存差异。
S133、单、多因素Cox回归分析用于证明TLSscore能否作为独立的预后因素。
一种可行的实施方式中,在训练数据集、验证数据集中,首先对TLSscore和其他临床或病例因素进行单因素Cox回归分析,将统计学显著的因素联合进行多因素Cox回归分析。
S134、通过TLSscore对结直肠癌免疫治疗反应进行预测。
一种可行的实施方式中,比较了不同的分组之间免疫检查点相关基因的表达水平。
进一步地,本申请计算了一些公认的免疫治疗预测因子,以预测TLSscore对ICB治疗的反应,例如肿瘤突变负荷(TMB)、TIDE评分、TME评分、MIRACLE评分评分。
进一步地,两个免疫治疗队列作为额外数据集来验证TLSscore预测免疫治疗反应的能力。IMvigor210,包含用抗PD-L1药物(atezolizumab)治疗的转移性尿路上皮癌样本,是从“IMvigor210CoreBiologies”包中获取的。GSE91061,包含接受抗PD-1药物治疗的黑色素瘤样本,从GEO数据库下载。根据三级淋巴结构特征基因,分别计算IMvigor210队列和GSE91061队列的TLSscore评分。基于所述每个样本的TLSscore值,利用约登指数计算最佳阈值,将样本划分为高TLSscore组和低TLSscore组。
本申请所有数据处理和统计分析均在R软件(版本4.1.3)上进行。T检验或Wilcoxon检验来分析两组之间的多样性,而Kruskal-Wallis检验用于比较多个组之间的差异。采用对数秩(log-rank)检验的Kaplan-Meier生存曲线来比较生存差异。应用Pearson或Spearman相关分析进行相关分析。卡方检验用于确定分类变量的观察频率与预期频率之间是否存在显着差异。统计显著性设置为P<0.05。
本申请采用NMF算法,根据39个三级淋巴结构的相关基因的转录组图谱将CRC患者细分为三种不同的TLS模式,包括模式1中的617个样本、模式2中的566个样本和模式2中的483个样本(参考图2,图2-A和图2-B)。
差异表达分析筛选出三种TLS模式中的140个DEG,并进一步鉴定出与DFS相关的48个DEG(参考图3,图3-A)。利用LASSO回归分析建立了一个具有九个基因(UBD、TNS1、SFRP2、MMP1、IGLV3-19、IGHG2、GAS1、DPT、CXCL11)的特征,并最终计算了个体的TLSscore(图3-B~图3-D)。根据最佳阈值(图3-E),在训练和验证队列中将患者分为高TLSscore组和低TLSscore组。
Kaplan-Meier分析表明,在训练队列(hazard ratio(HR)=2.33,95%confidenceinterval(CI)=1.74–3.13,p<0.001)和验证队列(validation cohort 1:HR=1.72,95%CI=1.32–2.24,p<0.001;validation cohort 2:HR=1.79,95% CI=1.26–2.54,p=0.001)中,TLSscore较高的样本的DFS往往明显短于较低TLSscore的样本(参考图4,图4-A~图4-F)。考虑到TLSscore组和其他在单因素Cox回归中显著的临床或病理参数,多因素Cox回归的结果表明,TLSscore是训练队列(HR=2.58,95% CI=1.62–4.09;p<0.001)和验证队列(validation cohort 1:HR=1.93,95% CI=1.24–3.00,p<0.01;validationcohort 2:HR=2.48,95% CI=1.31–4.68,p<0.01)中DFS预测的独立预后因素(图5)。这表明TLSscore是CRC患者预后的一个有前途的预测指标,具有临床应用的潜力。
TMB和MSI状态是预测免疫治疗疗效的重要生物标志物。参考图6,低TLSscore组的TMB显著高于高TLSscore组(图6-A)。此外,本申请人发现低TLSscore组的MSI状态比例高于高TLSscore组(图6-B),表明低TLSscore组对免疫治疗更敏感。评估组间免疫检查点相关基因的表达,例如PD-1(PDCD1)、PD-L1(CD274)、PD-L2(PDCD1LG2)、CTLA4、LAG3、HAVCR2、TIGIT和BTLA。所有这些在低TLSscore组中均显著上调(图6-C),表明TLSscore在对CRC患者进行ICB治疗分层中的潜在作用。为了进一步证实本申请人的发现,本申请计算了目前公认的TIDE评分、TMEscore、MIRACLE评分等免疫治疗反应预测指标。结果同样证实了低TLSscore组的患者对免疫治疗有更有利的反应(图6-D~图6-F)。此外,两个免疫治疗队列IMvigor210和GSE91061作为额外数据集来验证TLSscore预测免疫治疗反应的能力(图6-G~图6-L)。根据约登指数计算的最佳阈值,将患者分为低TLSscore组或高TLSscore组。在IMvigor210和GSE91061中,高TLSscore组的预后均显著差于低TLSscore组。此外,在两个队列的低TLSscore组中还观察到较高比例的免疫治疗应答者,并且应答者的TLSscore显著较低。上述结果表明,TLSscore是一种潜在且稳健的生物标志物,不仅适用于CRC,而且适用于多种癌症类型的免疫治疗的预后和临床反应评估。
总之,本法明采用NMF算法,根据39个三级淋巴结构的相关基因的转录组图谱将CRC患者细分为三种不同的TLS模式。随后使用正则化算法基于9个三级淋巴结构特征基因构建了量化个体TLS模式的评分系统——TLSscore。TLSscore较低的患者预后更久,并且可能受益于ICB治疗。TLSscore可作为独立的CRC预后预测因子,具有作为预测免疫治疗反应的潜力。
最后所应当说明的是,以上实施例仅用以说明本申请的技术方案而非对本申请保护范围的限制,尽管参照较佳实施例对本申请作了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或者等同替换,而不脱离本申请技术方案的实质和范围。

Claims (9)

1.三级淋巴结构特征基因检测试剂在制备结直肠癌筛查和/或预测产品中的应用,其特征在于,所述三级淋巴结构特征基因由UBD、TNS1、SFRP2、MMP1、IGLV3-19、IGHG2、GAS1、DPT、CXCL11组成。
2.三级淋巴结构特征基因在制备结直肠癌预后和/或治疗反应预测模型中的应用,其特征在于,所述三级淋巴结构特征基因由UBD、TNS1、SFRP2、MMP1、IGLV3-19、IGHG2、GAS1、DPT、CXCL11组成。
3.如权利要求2所述的应用,其特征在于,所述预测模型还包括检测三级淋巴结构特征基因表达量的试剂,所述三级淋巴结构特征基因由UBD、TNS1、SFRP2、MMP1、IGLV3-19、IGHG2、GAS1、DPT、CXCL11组成。
4.如权利要求2所述的应用,其特征在于,所述预测模型包括以下内容:
其中,Expression(TSGi)是预后相关的三级淋巴结构特征基因i的表达量,Coefficient(TSGi)是预后相关的三级淋巴结构特征基因i的回归系数。
5.检测三级淋巴结构特征基因表达量的试剂在制备用于检测结直肠癌的试剂盒中的应用,其特征在于,所述三级淋巴结构特征基因由UBD、TNS1、SFRP2、MMP1、IGLV3-19、IGHG2、GAS1、DPT、CXCL11组成。
6.一种结直肠癌预后或治疗反应预测模型的构建方法,其特征在于,包括以下步骤:
S1、基于39个三级淋巴结构相关的基因,通过非负矩阵分解算法将队列的转录图谱划分成不同TLS模式;
S2、通过差异表达分析筛选出不同TLS模式的差异表达基因,显著性标准为|log2 FoldChange|>1且校正后的P值adjusted P-value<0.001,获得三级淋巴结构相关的差异表达基因;
S3、通过比例风险Cox回归模型,对所述三级淋巴结构相关的差异表达基因进行预后分析,得到多个具有预后价值的三级淋巴结构特征基因;通过LASSO回归分析,对所述多个具有预后价值的三级淋巴结构特征基因进行筛选,得到表征结直肠癌中三级淋巴结构的一组特征基因;
S4、根据所述表征结直肠癌中三级淋巴结构的一组特征基因的表达量和所述表征结直肠癌中三级淋巴结构的一组特征基因对应的回归系数,计算出每个肿瘤组织样本的TLSscore值;
其中,Expression(TSGi)是预后相关的三级淋巴结构特征基因i的表达量,Coefficient(TSGi)是预后相关的三级淋巴结构特征基因i的回归系数;
S5、基于所述每个肿瘤组织样本的TLSscore值,根据约登指数计算肿瘤组织样本最佳的阈值,根据所述阈值将每个肿瘤组织样本划分为高TLSscore组和低TLSscore组;
所述预后相关的三级淋巴结构特征基因由UBD、TNS1、SFRP2、MMP1、IGLV3-19、IGHG2、GAS1、DPT、CXCL11组成。
7.如权利要求6所述的结直肠癌预后或治疗反应预测模型的构建方法,其特征在于,所述步骤S1、S2中,将TCGA CRC、GSE39582、GSE17538、GSE33113、GSE37892、GSE39084队列去除批次效应并整合为一个大的队列Meta-Cohort,用于无监督聚类分析,得到不同的聚类分型,所述Meta-Cohort在步骤S2中用于差异表达分析,获取不同TLS模式间的三级淋巴结构相关的差异表达基因。
8.如权利要求6所述的结直肠癌预后或治疗反应预测模型的构建方法,其特征在于,所述步骤S3中获取表征结直肠癌中三级淋巴结构的一组特征基因包括:
将TCGA CRC队列作为训练数据集,GSE39582队列和由GSE17538、GSE33113、GSE37892、GSE39084合并的GEO队列被用作两个独立的验证数据集。
9.一种结直肠癌预后或治疗反应预测模型构建装置,其特征在于,所述装置包括:
无监督聚类模块,基于39个三级淋巴结构相关的基因,通过非负矩阵分解算法将队列的转录图谱划分成不同TLS模式;
筛选模块,通过差异表达分析筛选出不同TLS模式的差异表达基因,显著性标准为|log2 Fold Change|>1且校正后的P值adjusted P-value<0.001,获得三级淋巴结构相关的差异表达基因;
三级淋巴结构特征基因获取模块:通过比例风险Cox回归模型,对所述三级淋巴结构相关的差异表达基因进行预后分析,得到多个具有预后价值的三级淋巴结构特征基因;通过LASSO回归分析,对所述多个具有预后价值的三级淋巴结构特征基因进行筛选,得到表征结直肠癌中三级淋巴结构的一组特征基因;
计算模块,根据所述表征结直肠癌中三级淋巴结构的一组特征基因的表达量和所述表征结直肠癌中三级淋巴结构的一组特征基因对应的回归系数,计算出每个肿瘤组织样本的TLSscore值;
其中,Expression(TSGi)是预后相关的三级淋巴结构特征基因i的表达量,Coefficient(TSGi)是预后相关的三级淋巴结构特征基因i的回归系数;
所述预后相关的三级淋巴结构特征基因由UBD、TNS1、SFRP2、MMP1、IGLV3-19、IGHG2、GAS1、DPT、CXCL11组成;
输出模块,用于基于所述每个肿瘤组织样本的TLSscore值,根据约登指数计算肿瘤组织样本最佳的阈值,根据所述阈值将每个肿瘤组织样本划分为高TLSscore组和低TLSscore组。
CN202311390440.8A 2023-10-25 2023-10-25 一种基于三级淋巴结构特征基因的结直肠癌预后和治疗反应预测模型及其构建方法和应用 Active CN117476097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311390440.8A CN117476097B (zh) 2023-10-25 2023-10-25 一种基于三级淋巴结构特征基因的结直肠癌预后和治疗反应预测模型及其构建方法和应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311390440.8A CN117476097B (zh) 2023-10-25 2023-10-25 一种基于三级淋巴结构特征基因的结直肠癌预后和治疗反应预测模型及其构建方法和应用

Publications (2)

Publication Number Publication Date
CN117476097A CN117476097A (zh) 2024-01-30
CN117476097B true CN117476097B (zh) 2024-06-07

Family

ID=89638916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311390440.8A Active CN117476097B (zh) 2023-10-25 2023-10-25 一种基于三级淋巴结构特征基因的结直肠癌预后和治疗反应预测模型及其构建方法和应用

Country Status (1)

Country Link
CN (1) CN117476097B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008014937A (ja) * 2006-06-05 2008-01-24 Shimadzu Corp 腫瘍マーカー及び癌疾病の罹患の識別方法
CN114863993A (zh) * 2022-07-05 2022-08-05 臻和(北京)生物科技有限公司 用于结肠癌预后预测的标志物、模型构建方法和系统
CN115198018A (zh) * 2016-05-09 2022-10-18 法国国家卫生及研究医学协会 患有实体癌症的患者的分类方法
CN115527681A (zh) * 2022-11-11 2022-12-27 北京科技大学 一种结直肠癌预后预测模型构建方法及装置
CN115747331A (zh) * 2022-09-22 2023-03-07 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 用于预测鼻咽癌预后的三级淋巴结构成分标志物组合、系统及应用
CN116030880A (zh) * 2022-11-01 2023-04-28 苏州科技大学 用于结直肠癌预后风险预测的生物标志物、模型及其应用
CN116312788A (zh) * 2023-04-03 2023-06-23 中国计量大学 一种结直肠癌预后分析方法、系统和装置
CN116805509A (zh) * 2023-05-25 2023-09-26 佳木斯大学 结直肠癌免疫治疗预测标志物的构建方法及应用

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008014937A (ja) * 2006-06-05 2008-01-24 Shimadzu Corp 腫瘍マーカー及び癌疾病の罹患の識別方法
CN115198018A (zh) * 2016-05-09 2022-10-18 法国国家卫生及研究医学协会 患有实体癌症的患者的分类方法
CN114863993A (zh) * 2022-07-05 2022-08-05 臻和(北京)生物科技有限公司 用于结肠癌预后预测的标志物、模型构建方法和系统
CN115747331A (zh) * 2022-09-22 2023-03-07 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 用于预测鼻咽癌预后的三级淋巴结构成分标志物组合、系统及应用
CN116030880A (zh) * 2022-11-01 2023-04-28 苏州科技大学 用于结直肠癌预后风险预测的生物标志物、模型及其应用
CN115527681A (zh) * 2022-11-11 2022-12-27 北京科技大学 一种结直肠癌预后预测模型构建方法及装置
CN116312788A (zh) * 2023-04-03 2023-06-23 中国计量大学 一种结直肠癌预后分析方法、系统和装置
CN116805509A (zh) * 2023-05-25 2023-09-26 佳木斯大学 结直肠癌免疫治疗预测标志物的构建方法及应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Chong Zhang et al..Localization and density of tertiary lymphoid structures associate with molecular subtype and clinical outcome in colorectal cancer liver metastases .《Journal for ImmunoTherapy of Cancer》.2023,第1-14页. *
Min-Er Zhong et al.. A model combing an immune-related genes signature and an extracelluar matrix-related genes signature in predicting prognosis of left- and right-sided colon cancer .《Journal of Clinical Oncology》.2021,摘要. *
王乾宇 等.三级淋巴结构在结直肠癌中的作用研究进展.《中国实用外科杂志》.2021,第41卷(第7期),摘要. *

Also Published As

Publication number Publication date
CN117476097A (zh) 2024-01-30

Similar Documents

Publication Publication Date Title
DK2922967T3 (en) PROCEDURE FOR VIEWING A PRESENCE OR NON-PRESENCE OF AGGRESSIVE PROSTATANCES
US7666595B2 (en) Biomarkers for predicting prostate cancer progression
Dumur et al. Interlaboratory performance of a microarray-based gene expression test to determine tissue of origin in poorly differentiated and undifferentiated cancers
CN116030880A (zh) 用于结直肠癌预后风险预测的生物标志物、模型及其应用
CN111653314B (zh) 一种分析识别淋巴管浸润的方法
EP2922970B1 (en) Prognostic method for individuals with prostate cancer
CN115410713A (zh) 一种基于免疫相关基因的肝细胞癌预后风险预测模型构建
CN114317532B (zh) 用于预测白血病预后的评估基因集、试剂盒、系统及应用
WO2014066984A1 (en) Method for identifying a target molecular profile associated with a target cell population
EP3577237B1 (en) Method for indicating a presence or non-presence of prostate cancer in individuals with particular characteristics
CN117476097B (zh) 一种基于三级淋巴结构特征基因的结直肠癌预后和治疗反应预测模型及其构建方法和应用
WO2019232361A1 (en) Personalized treatment of pancreatic cancer
CN116469552A (zh) 一种用于乳腺癌多基因遗传风险评估的方法和系统
CN113234823B (zh) 胰腺癌预后风险评估模型及其应用
US20150218655A1 (en) Biomarkers for prostate cancer prognosis
CN115798703A (zh) 基于新型脂肪酸代谢相关基因预测肾透明细胞癌预后的装置和计算机可读存储介质
CN114507717A (zh) 一种联合多个mRNA预测胆管癌复发的方法及其应用
Wong et al. Regional and bilateral MRI and gene signatures in facioscapulohumeral dystrophy: implications for clinical trial design and mechanisms of disease progression
CN114678062B (zh) 基于多组学特征的肝细胞癌预后预测系统及其预测方法
CN115472294B (zh) 预测小细胞转化肺腺癌患者转化速度的模型及其构建方法
CN116656820A (zh) 一种基于乳腺肿瘤干细胞相关基因的预后模型及其应用
EP2607494A1 (en) Biomarkers for lung cancer risk assessment
CN117965728A (zh) 用于肾透明细胞癌免疫治疗预后预测的生物标志物及应用
CN117867113A (zh) 用于预测宫颈癌患者预后的ICTR-lncRNAs及预测模型和应用
Song et al. Identification and validation of an epithelial-mesenchymal transition-related lncRNA pairs prognostic model for gastric cancer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant