CN114507717A

CN114507717A - 一种联合多个mRNA预测胆管癌复发的方法及其应用

Info

Publication number: CN114507717A
Application number: CN202011290428.6A
Authority: CN
Inventors: 孔晓妮; 夏强; 孔宪明; 邬海龙; 郭晗
Original assignee: Renji Hospital Shanghai Jiaotong University School of Medicine
Current assignee: Renji Hospital Shanghai Jiaotong University School of Medicine
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2022-05-17

Abstract

本发明涉及预测胆管癌术后复发风险的分子模型的构建及其应用评估。具体地，本发明发现了一种生物标志物集合，所述的集合包括多种CCA手术及化疗治疗后复发的生物标志物，可以用于评估CCA患者术后复发的风险，具有高灵敏性、高特异性、高准确性的优点，具有重要的应用价值。本发明还首次开发了一种胆管癌术后早期复发的风险预测算法模型和装置本发明可辅助临床进行胆管癌术后复发的提前预测，早期诊断，实施更为密切的术后随访和进一步的辅助治疗，将极大地改善胆管癌患者的术后预后。

Description

一种联合多个mRNA预测胆管癌复发的方法及其应用

技术领域

本发明属于生物信息学，具体地，本发明涉及一种联合多个mRNA预测胆管癌复发的方法及其应用。

背景技术

胆管癌(CCA)是一种恶性上皮癌，是世界上仅次于肝细胞癌的最常见的原发性肝脏肿癌，伴随高死亡率和复发率，其源于胆管的不同位置。尽管手术治疗联合其他的放化疗已经应用于临床，但由于复发率高，CCA患者的预后仍然很差。因此，预测复发是一项艰巨而紧迫的任务。

在过去的几十年中，所有CCA的不良预后与胆管癌的高复发率密切相关。不幸的是，仍然没有很好的方法来准确预测胆管癌的术后复发。尽管美国癌症联合委员会(AJCC)的不同版本的TNM分期有一定的预测价值但仍不足以预测不同亚型CCA的复发。总而言之，目前没有很好的预测胆管癌复发的方法。

因此，本领域迫切需要开发出一种有效预测胆管癌复发的方法。

发明内容

本发明的目的是提供一种有效预测胆管癌复发的方法。

在本发明的第一方面，提供了一种检测试剂组合的用途，用于制备一诊断试剂或试剂盒，所述诊断试剂或试剂盒用于评估某一对象胆管癌复发的风险；

其中所述的检测试剂组合是一基因组合的检测试剂，所述的基因组合包括：

(A)复发风险增加型标志物，其选自下组：UBASH3B、DBN1、PTTG1、CCNA2、SPATS2，或其组合；

(B)复发风险下降型标志物，其选自下组：CD36、GGCX，或其组合；和/或

(C)选自上述(A)组中的一个或多个基因与选自上述(B)组中的一个或多个基因所构成的组合。

在另一优选例中，所述的基因组合是包括以下基因的组合：CD36、GGCX、UBASH3B、DBN1、PTTG1、CCNA2和SPATS2。

在另一优选例中，所述的诊断包括早期诊断、辅助性诊断、或其组合。

在另一优选例中，所述的对象为人。

在另一优选例中，所述的对象为经治疗或未经治疗的CCA患者；较佳地，为经治疗的CCA患者。

在另一优选例中，所述检测是针对离体样本的检测。

在另一优选例中，所述的离体样本包括：血液样本、血清样本、组织样本、体液样本,或其组合。

在另一优选例中，所述的检测试剂偶联有或带有可检测标记。

在另一优选例中，所述可检测标记选自下组：生色团、化学发光基团、荧光团、同位素或酶。

在另一优选例中，所述的样本为分离自外周血的单个核细胞样本。

在另一优选例中，所述组织样本为手术中切下的胆管癌组织。

在另一优选例中，所述的检测试剂包括对所述基因的核酸表达水平的检测试剂。

在另一优选例中，所述的检测试剂包括对所述基因的mRNA水平的检测试剂。

在另一优选例中，对所述基因的mRNA水平的检测试剂包括：引物、探针、核酸芯片，或其组合。

在另一优选例中，对所述基因的mRNA水平的检测试剂包括：用于对所述基因进行定量实时PCR所用到的引物对。

在另一优选例中，对所述基因的mRNA水平的检测试剂包括：特异性针对CD36基因的引物对、特异性针对GGCX基因的引物对、特异性针对UBASH3B基因的引物对、特异性针对DBN1基因的引物对、特异性针对PTTG1基因的引物对、特异性针对CCNA2基因的引物对、特异性针对SPATS2基因的引物对，或其组合。

在另一优选例中，特异性针对CD36基因的引物对的序列如SEQ ID NO:1和SEQ IDNO:2所示。

在另一优选例中，特异性针对GGCX基因的引物对的序列如SEQ ID NO:3和SEQ IDNO:4所示。

在另一优选例中，特异性针对UBASH3B基因的引物对的序列如SEQ ID NO:5和SEQID NO:6所示。

在另一优选例中，特异性针对DBN1基因的引物对的序列如SEQ ID NO:7和SEQ IDNO:8所示。

在另一优选例中，特异性针对PTTG1基因的引物对的序列如SEQ ID NO:9和SEQ IDNO:10所示。

在另一优选例中，特异性针对CCNA2基因的引物对的序列如SEQ ID NO:11和SEQID NO:12所示。

在另一优选例中，特异性针对SPATS2基因的引物对的序列如SEQ ID NO:13和SEQID NO:14所示。

在另一优选例中，所述试剂盒中还包括18S mRNA的检测试剂。

在另一优选例中，所述18S mRNA的检测试剂包括特异性针对18S mRNA的引物对，所述的引物对的序列如SEQ ID NO:15和SEQ ID NO:16所示。

在另一优选例中，在所述试剂盒中还包括说明书，所述说明书中记载了如下内容：

当满足以下条件时，则提示所述对象为CCA早期复发风险高者：

(i)当所述的基因属于A组，且所述基因的表达水平高于参考值或标准值时；和/或

(ii)当所述的基因属于B组，且所述基因的表达水平低于参考值或标准值时。

在另一优选例中，所述参考值或标准值为经治疗的CCA患者且早期(治愈后1年内或两年内)无复发人群中相同样本中的所述基因的表达水平。

在另一优选例中，所述的参考值或标准值为正常人群中相同样本中的所述基因的表达水平。

在另一优选例中，所述的基因的表达水平是指所述基因的mRNA水平。

在另一优选例中，所述的基因包括了A组中n个基因所构成的组合，其中n为2-5的任一正整数(即2、3、4、5)，优选地为5。

在另一优选例中，所述的基因包括了B组中的1或2个基因，优选地为2个基因。

在另一优选例中，所述的基因包括A组的5个基因和B组的2个基因所构成的7个基因的组合。

在本发明的第二方面，提供了一种试剂盒，所述试剂盒含有一检测试剂组合，所述检测试剂组合是一基因组合的检测试剂，所述的基因组合包括：

在另一优选例中，所述的基因组合包括A组的5个基因和B组的2个基因所构成的7个基因的组合。

在另一优选例中，所述的试剂盒含有所述基因的mRNA或其cDNA作为对照品或质控品。

在另一优选例中，所述的检测试剂为PCR引物对。

在另一优选例中，所述的试剂盒还包括标签或说明书，所述标签或说明书注明所述试剂盒用于评估某一对象CCA早期复发风险。

在另一优选例中，所述试剂盒中还包括用于定量实时PCR的其他试剂。

在另一优选例中，所述用于定量实时PCR的其他试剂包括：核酸抽提试剂、逆转录酶、用于核酸扩增反应的试剂。

在另一优选例中，使用百泰克总RNA提取试剂盒，并且使用RNeasy Mini Kit(Qiagen，Valencia，CA)和Revert Aid First Strand cDNA Synthesis Kit(ThermoScientific，Rockford，IL)分别提取和逆转录胆管癌组织的总RNA。

在本发明的第三方面，提供了一种预测胆管癌复发的方法，包括步骤：

(i)从一对象中获得一样品；和

(ii)使用如本发明第二方面所述的试剂盒对所述样品进行检测，从而获得样品中的一个或多个以下基因的表达水平：CD36、GGCX、UBASH3B、DBN1、PTTG1、CCNA2和SPATS2；

(iii)根据检测所得的各基因表达水平，分析该对象的CCA复发风险。

在另一优选例中，所述的基因表达水平是基因的mRNA水平。

在另一优选例中，所述步骤(iii)中所述的分析包括计算该对象的CCA复发风险评分S，所述的CCA复发风险评分按公式Q1进行计算：

其中，

W为基因权重系数；

E为基因的mRNA表达水平；

n为基因的数量，且n为≥1正整数。

在另一优选例中，所述的权重系数如下所示：

CD36为-0.96873、GGCX为-0.03944、UBASH3B为0.01064、DBN1为0.04955、PTTG1为0.24927、CCNA2为0.31598、SPATS2为0.57201。

在另一优选例中，所述的E为相对表达水平(如0、1；或-1,0,1；或按10分或5分进行打分的相对表达水平)或绝对表达水平。

在本发明的第四方面，提供了一种用于对CCA患者进行分型的装置，包括：

(P1)输入单元，所述输入单元用于输入某一对象的CCA复发特异性mRNA标志物表达水平的数据(即输入CCA复发特异性mRNA标志物水平)，其中所述的CCA复发特异性mRNA标志物包括选自下组的n个基因的mRNA(其中n为正整数)：CD36、GGCX、UBASH3B、DBN1、PTTG1、CCNA2和SPATS2；

(P2)数据处理单元，所述数据处理单元对输入的mRNA表达水平的数据进行处理，从而获得该对象的CCA复发风险评分S1；

(P3)分型单元，所述的分型单元被配置为将所述对象的CCA复发风险评分S1，与复发风险评分阈值S0进行比较，从而对所述对象进行分型并获得分型结果；其中，如果S1≥S0时，则所述分型单元将所述对象定为CCA复发高风险者；如果S1＜S0时，则所述分型单元将所述对象定为CCA复发低风险者；和

(P4)输出单元，所述的输出设备用于输出所述的分型结果。

在另一优选例中，所述的CCA复发风险评分S按公式Q1进行计算：

其中，

W为基因权重系数；

E为mRNA表达水平；

n为基因的数量，且n为≥1正整数。

在另一优选例中，所述的n≥2，较佳地n≥5，更佳地n＝7。

应理解，在本发明范围内中，本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合，从而构成新的或优选的技术方案。限于篇幅，在此不再一一累述。

附图说明

图1显示了筛选在各胆管癌数据集中普遍差异表达的基因集。

(A-F)5个选定数据集中差异基因的火山图(X轴：log2(FC)；Y轴：log10(FDR))；每个数据集中FDR<0.01且FC>1.5或<-1.5的基因均视为差异基因。蓝色：癌肿瘤组织中表达下调的基因；灰色：非差异基因；红色：癌组织中表达上调的基因)。(G-I)对TvsP(A)和TvsN(B)组中的差异基因取交集，在每个维恩图中，在2个及以上的数据集中同时存在的差异表达基因被视为可靠的差异基因。GEO和TCGA数据集的中差异基因进一步取交集。

图2显示了差异基因的GO富集分析和KEGG通路分析。

(A-B)上调表达基因的GO-BP分析和KEGG分析；(C-D)上调基因的GO-CC分析和GO-MF分析。

图3显示了LASSO分析构建预测胆管癌术后复发的风险模型。

(A)10倍交叉验证，用于调整LASSO模型中的参数选择。垂直虚线由最小标准(λ值，左侧垂直虚线)和1-SE标准(右侧垂直虚线)以最佳值绘制。(B)在最佳λ值的LASSO模型中，选择了7个非零系数的差异基因。

图4显示了7-mRNA风险评分模型在TCGA数据库的验证。

(A)各个患者的风险评分和复发状态的瀑布图。(B)高风险组和低风险组之间的复发率比较。(C)高低两组之间患者无复发的Kaplan-Meier生存曲线。(D)1年、3年、5年和5年以上的时间依赖性ROC曲线。(E)风险模型和单个mRNA之间的预后准确性的比较。(F)风险模型和临床特征之间的预后准确性比较。****，p＜0.001。

图5显示了7-mRNA风险评分模型在仁济医院队列的验证。

(A)各个患者的风险评分和复发状态的瀑布图。(B)高风险组和低风险组之间的复发率比较。(C)高低两组之间患者无复发的Kaplan-Meier生存曲线。(D)1年，3年，5年和5年以上的时间依赖性ROC曲线。(E)风险模型和单个mRNA之间的预后准确性的比较。(F)风险模型和临床特征之间的预后准确性比较。****，p＜0.001。

图6显示了基于风险模型的复发模型在TCGA队列分层分析。

(A，B)基于性别的分层分析。(C，D)基于年龄的分层分析。(E，F)基于CA199水平的分层分析。(G，H)基于肿瘤大小的分层分析。(I，J)基于病理的分层分析。和(K，L)基于AJCC分期的分层分析。

图7显示了基于风险模型的复发模型在仁济医院队列分层分析。

(A，B)基于年龄的分层分析。(C，D)基于肿瘤癌栓的分层分析和(E，F)基于AJCC分期的分层分析。

图8显示了TCGA数据库中胆管癌差异基因的火山图(X轴：log2(FC)；Y轴：-log10(FDR))；每个数据集中FDR<0.01且FC>1.5或<-1.5的基因均视为差异基因。蓝色：癌组织中表达下调的基因；灰色：非差异基因；红色：癌组织中表达上调的基因)。

图9显示了差异基因的GO富集分析和KEGG通路分析。

(A-B)下调表达基因的GO-BP分析和KEGG分析；(C-D)下调表达基因的GO-CC分析和GO-MF分析。

图10显示了LASSO分析构建预测胆管癌术后复发的风险模型和相关性分析。

(A)127个mRNA的完整LASSO系数图。每条曲线代表一个变量。上轴：随着λ的变化，非零系数的数量。(B)7个mRNA相关性分析。

图11显示了在仁济医院的44例胆管癌样本中7个基因的mRNA表达水平及其截断值(cut-off)。

图12显示了基于风险模型的复发模型在TCGA队列分层分析。

(A，B)基于淋巴结转移的分层分析。(C，D)基于远处转移的分层分析。(E，F)基于周围浸润的分层分析。(G，H)基于剩余肿瘤的分层分析。(I，J)基于血管侵犯的分层分析。

图13显示了基于风险模型的复发模型在仁济医院队列分层分析。

(A，B)基于性别的分层分析。(C，D)基于年龄的分层分析。(E，F)基于肿瘤大小的分层分析。(G，H)基于肿瘤个数的分层分析。(I，J)基于淋巴结转移的分层分析。(K，L)基于远处转移的分层分析。

具体实施方式

本发明人经过广泛而深入的研究，经过大量的筛选，首次开发出了一种用在7个与CCA复发高度同步的mRNA组合作为标志物来对胆管癌进行预后的方法。具体地，本发明人在GEO数据库选择了5个数据集，以及选择TCGA数据库中CCA数据集，通过生物信息学方法，发现了一组与胆管癌组织和正常胆管组织或癌旁组织之间差异表达的重要基因，然后进一步筛选出了7个与CCA复发高度同步的mRNA组合并获得其各自在预测术后复发中的权重。在此基础上，创造性地建立7-mRNA风险评估模型。通过与临床收集样本比对，发现这种联合7-mRNA风险评估模型对无瘤生存时间有很好的预测作用。在此基础上，发明人完成了本发明。

术语

除非另外定义，否则本文中所用的全部技术与科学术语均具有如本发明所属领域的普通技术人员通常理解的相同含义。

如本文所用，在提到具体列举的数值中使用时，术语“约”意指该值可以从列举的值变动不多于1％。例如，如本文所用，表述“约100”包括99和101和之间的全部值(例如，99.1、99.2、99.3、99.4等)。

如本文所用，术语“含有”或“包括(包含)”可以是开放式、半封闭式和封闭式的。换言之，所述术语也包括“基本上由…构成”、或“由…构成”。

胆管癌(CCA)预后评估

肿瘤生物标志物已被用于预测CCA患者的复发。

首先，CA19-9是一种用于CCA预后预测的经典血清生物学标志物。一些研究发现，术前CA19-9水平高于100U/ml与术后无瘤生存时间较短密切相关。然而，这些肿瘤标志物并不仅仅存在于CCA，其升高可能与其他疾病有关，如胆管梗阻或急性胆管炎。另一项研究指出，术前血清CA19-9水平高于135U/ml是在一定程度上可以预测预后。其他血清标志物，如癌胚抗原(CEA)，同样存在于胆管癌以外的疾病，并表现出低敏感性和特异性。许多研究已经报道血清细胞角蛋白19片段21-1(CYFRA21-1)和CA-242对于肝内胆管癌具有比CA19-9更高的特异性，但它们尚未用于临床常规检查。一些临床特征，如肿瘤大小和淋巴结转移，在预测复发是否有价值上仍存在争议。

不同版本的AJCC或TNM分期系统以及预后评分系统已被广泛用于评估CCA患者的预后。然而，这些分期评价体系在CCA的不同亚型中存在一些局限性，这可能是由于对肿瘤亚型中不同遗传和表观遗传背景的忽视。总之，CCA的术后预测仍然是一个问题，因此，我们进行了联合多个mRNA以准确预测CCA患者的无瘤生存时间长短。

本发明为CCA患者建立了联合7-mRNA的风险评分模型。Cox单变量和多变量分析证实7-mRNA-模型是可以有效的预测预后。时间依赖性ROC曲线证明该模型优于其他预后因素，例如CA19-9水平和AJCC分期。

数据集准备

GEO和癌症基因组图谱是两个主要的公共数据库，为研究人员提供了大量基于数组和序列的数据。通过使用生物信息学方法，本领域技术人员可以快速方便地获得大量数据。本发明中CCA的基因表达数据从Gene Expression Omnibus(GEO，https：//www.ncbi.nlm.nih.gov/geo/)和The Cancer Genome Atlas(TCGA，http://cancergenome.nih.gov/)下载。

在GEO数据库中寻找数据集符合以下标准：a)数据集共有10多个样本，包括肿瘤样本和非肿瘤样本；b)注释基因占转录组总数的90％以上(n>17000)；c)差异表达基因(DEGs)的数量超过100。

TCGA数据库提供了来自RNA-seq的基因表达谱和相应的36例CCA患者的临床信息。在线分析工具GEO2R用于筛选GEO数据库中肿瘤组织和非肿瘤样本之间的差异基因，同时使用R包“edgeR”从TCGA数据库中获得差异基因。差异基因(DEG)是调整的p值<0.01和倍数变化(FC)>1.5或<-1.5的基因。

含有肿瘤组织和正常组织差异基因的数据集(TvsN)一共3个，3个数据集取交集，选取同时存在两个数据集的差异基因做进一步的分析，同理，含有肿瘤组织和癌旁组织的数据集(TvsP)按同样的方法取交集得到差异基因。最后，TvsN，TvsP和TCGA 3个数据集取交集后的差异基因再次取交集得到差异基因。

本发明中，来自GEO数据库(GSE76297、GSE32897、GSE26566、GSE31370和GSE45001)的五个CCA数据集符合以上标准，这五个数据集的详细信息列于表1。TCGA数据库提供了来自RNA-seq的基因表达谱和相应的36例CCA患者的临床信息。TvsN、TvsP和TCGA这3个数据集取交集后的差异基因再次取交集得到194个差异基因，其中包括87个上调基因和107个下调基因。

表1仁济队列的临床基本信息

GO富集分析和KEGG途径分析

GO分析是一种常见的基因和基因产物注释方法，包括生物过程(BP)、细胞成分(CC)、分子功能(MF)。京都基因和基因组百科全书(KEGG，http://www.genome.ad.jp/kegg/)数据库是基因功能的系统分析，注释和可视化的知识库。利用R包“clusterprofiler”分别用于上调差异基因和下调差异基因的功能分类和KEGG途径分析，p<0.05被定义为差异显著。

本发明中，利用R包“clusterprofiler”分别用于87个上调差异基因和107个下调差异基因的功能分类和KEGG途径分析。

建立LASSO回归模型

对于目标基因(如本发明中获得的194个mRNA)，利用ROC曲线产生每种mRNA的最佳截断值，并且得到这些mRNA的曲线下面积(AUC)，灵敏度和特异性。选取AUC≥0.55的基因，根据截断值，将TCGA数据库患者根据mRNA表达分为高表达组或低表达组。

基于AUC≥0.55的基因初步筛到的基因的表达数据，使用R包“glmnet”构建了LASSO COX回归模型。然后，返回一系列lambda(λs)和模型，经过100次10倍交叉验证后，选择了具有最小平均交叉验证误差的最佳值。最后，通过所选变量的线性组合计算每个患者的风险评分，所述变量通过其相应系数加权。

本发明中，AUC≥0.55的127个基因。根据截断值，36名TCGA数据库患者根据mRNA表达分为高表达组或低表达组。

临床CCA标本的验证

收取2012年1月1日至2017年12月30日期间，来自上海交通大学仁济医院肝外科的CCA组织。协议和书面知情同意书经上海交通大学医学院仁济医院伦理审查委员会批准。根据以下标准排除一些患者：合并其他肿瘤，围手术期时死亡，有术前放疗和化疗，保守治疗等其他治疗史、不完整的临床数据。

进入研究队列的CCA患者的随访信息在前2年每2-3个月接受一次检查，每隔3个月至6个月接受检查，直至2018年5月.无瘤生存时间从肿瘤切除之日起计算，直至检测到肿瘤复发，肿瘤或其他原因引起的死亡或最后一次随访。

定量实时PCR(qRT-PCR)检验

使用RNeasy Mini Kit(Qiagen，Valencia，CA)和Revert Aid First Strand cDNASynthesis Kit(Thermo Scientific，Rockford，IL)分别提取和逆转录总RNA。使用SYBRGreen PCR Master Mix通过qRT-PCR测定CD36、GGCX、UBASH3B、DBN1、PTTG1、CCNA2、SPATS2和18S mRNA的表达，并且登记Ct值用于数据分析。相关的引物序列列于表2中。所有这些实验均按说明书指导进行。

表2引物序列总结

基因	引物名称	序列	SEQ ID NO:
				CD36	homo-CD36-F	GGCTGTGACCGGAACTGTG	1
	homo-CD36-R	AGGTCTCCAACTGGCATTAGAA	2
				GGCX	homo-GGCX-F	ATGGTGCTAGACATTCCCCAG	3
	homo-GGCX-R	GATACATCCAGTCAAGTGGCAG	4
				UBASH3B	homo-UBASH3B-F	CCATGTCGGTGACCCCTTC	5
	homo-UBASH3B-R	GCTGTCCTCGCACATAAAGAA	6
				DBN1	homo-DBN1-F	AGGAGCTTTCGGGACACTTTG	7
	homo-DBN1-R	GAGCACGTATTTTGGCAGAGC	8
				PTTG1	homo-PTTG1-F	ACCCGTGTGGTTGCTAAGG	9
	homo-PTTG1-R	ACGTGGTGTTGAAACTTGAGAT	10
				CCNA2	homo-CCNA2-F	CGCTGGCGGTACTGAAGTC	11
	homo-CCNA2-R	GAGGAACGGTGACATGCTCAT	12
				SPATS2	homo-SPATS2-F	TTTGATTTGCAGTCCAATACCGT	13
	homo-SPATS2-R	GCACGTACCGCATTTATCTTCTC	14
				18S mRNA	Homo-18S-F	GGAGAGGGAGCCTGAGAAACG	15
	Homo-18S-R	TTACAGGGCCTCGAAAGAGTCC	16

统计分析

使用SPSS 17.0和GraphPad Prism 6软件进行统计分析。当ROC曲线的灵敏度和特异性达到预测无瘤生存时间的的最佳位置时，确定为风险评分的最佳截断值。通过这种风险评分截断值，患者被分为高风险组或低风险组。通过Kaplan-Meier分析评估高风险组和低风险组之间的无瘤生存时间，并使用对数秩检验进行比较。时间依赖性ROC曲线用于证明不同变量的预测准确性。单变量和多变量Cox分析研究7-mRNA是否独立于其他临床病理特征，并且使用Pearson卡方检验或Fisher精确检验来检查临床病理特征与7-mRNA之间的关联。P<0.05时定义为差异显著。

本发明的技术方案的诸多优点：

1)本发明提供了一种能够有效预测胆管癌复发的复发风险的7-mRNA分子模型，此模型经过数据库和临床队列验证，相对现有的所有的预测复发的技术手段相比，具有更高的灵敏性、特异性和准确性。

2)本发明提供的7-mRNA分子预测胆管癌复发模型，能预测术后人群的复发风险、预估无瘤时间，以此辅助医生制定CCA患者复查计划，能极大地为医患双方提供帮助。

3)本发明提供的7-mRNA分子预测胆管癌复发模型，还能根据个体临床特征(包括性别，年龄，CA19-9水平，肿瘤大小，病理分期和AJCC分期)进行分层，进一步精确模型的准确度，可以在临床实践中根据不同的患者群体进行调整，以获得更精确地模拟公式。

4)本发明提供的7-mRNA分子预测胆管癌复发模型，还与CCA的肿瘤大小成正相关，可以在术前辅助医生进行无创的病理检测。

下面结合具体实施，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法，通常按照常规条件，例如Sambrook等人，分子克隆：实验室手册(New York:Cold Spring Harbor LaboratoryPress,1989)中所述的条件，或按照制造厂商所建议的条件。除非另外说明，否则百分比和份数按重量计算。

实施例1：从胆管癌数据集中选取差异表达基因

1.1选取GEO数据库中GSE76297、GSE32897、GSE26566、GSE31370和GSE45001等5个原始数据集。

结果：如图1A-F所示,根据样本类型分类，得到GSE76297-T/P、GSE26566-T/P、GSE45001-T/P、GSE32879-T/N、GSE26566-T/N、GSE31370-T/N等6个可用数据集。利用GEO2R在线工具分析，分别得到4005、6554、990、3893、879、399个差异基因。

1.2将TvsN组各数据集取交集，TvsP组各数据集也取交集，留下同时存在两个数据集的差异基因。

结果：如图1G-H所示,TvsN组3个数据集取交集得到422个差异基因，TvsP组3个数据集取交集得到2666个差异基因。

1.3在TCGA数据集中，设置“p值<0.01”且“FC>1.5或<-1.5”，得到TCGA数据集的2545个差异基因。再与1.2中获得差异基因取交集，获得最终的胆管癌的差异基因群。

结果：如图1I所示,上述TvsN组数据交集的422个差异基因、TvsP组数据交集的2666个差异基因和TCGA数据集的2545个差异基因取交集，得到可用的194个差异基因。

实施例2：辨别与胆管癌相关的差异基因

对实施例1中多次筛选得到的194个基因，进一步划分上调/下调基因群，并对上调或下调基因分别进行GO和KEGG途径富集分析。

结果：如图2A-B所示，通过GO-BP和KEGG分析，上调基因在细胞器裂变和细胞周期途径中最富集。

相反，如图2C-D所示，下调基因的GO-BP和KEGG分析分别在有机羟基化合物代谢过程和胆汁分泌途径中富集。

实施例3：构建7-mRNA风险评估模型

3.1分别为实施例1中筛选的194个基因绘制ROC曲线。当ROC曲线的灵敏度和特异性达到最佳时，确定最佳截止点。根据每个mRNA截断值，将36名患者分为高表达组或低表达组。实践中为了过滤没有预后价值的mRNA，人为设定AUC≥0.55，最终，选取127个mRNA构建LASSO COX回归模型。使用“glmnet”软件包生成一系列模型，并进行了10次交叉验证以选择最佳模型。

结果：如图3A所示，通过10倍交叉验证选择最小标准值λ＝0.20770，其中log(λ)＝-0.68256。值得一提的是，在不同的分析时间内，λ值的结果可能会略有变化。因此，10倍交叉验证最多运行100次，并且交叉验证的错误被平均。最后，具有最小平均交叉验证误差的λ仍然返回约0.20770。

3.2在λ＝0.20770值下，筛选得到具有非零系数的基因。

结果：如图3B所示，筛选得到具有非零系数的7种mRNA：CD36、GGCX、UBASH3B、DBN1、PTTG1、CCNA2和SPATS2。其中，CD36和GGCX在CCA中下调，其他5个基因上调。相关性测试显示这7个基因的表达彼此独立。

3.3基于这7种mRNA的表达状态，构建无瘤生存时间的风险评分公式。

风险评分＝(-0.96873×CD36的表达状态)+(-0.03944×GGCX的表达状态)+(0.01064×UBASH3B的表达状态)+(0.04955×DBN1的表达状态)+(0.24927×PTTG1的表达状态)+(0.31598×CCNA2的表达状态)+(0.57201×SPATS2的表达状态)

在该公式中，低表达状态等于0，高表达状态等于1。

实施例4：TCGA队列中验证复发风险评分公式

在TCGA数据集中，计算TCGA队列中每位患者的复发风险评分。

结果：

如图4A所示，当风险评分增加时，患者更易术后复发。使用最佳风险评分作为截断点，将患者分为高风险组(n＝17)或低风险组(n＝19)。

如图4B所示，在整个研究期间，高风险组的复发率极大地增加，其中94.74％的高危组患者出现CCA复发，而低风险组仅有0.58％的患者复发(p<0.001)。

如图4C所示，Kaplan-Meier分析显示，风险评分较高的CCA患者的无瘤生存时间明显低于风险评分较低的患者(HR＝48.886，95％CI：6.229-383.657，p<0.001)。

如图4D所示，7-mRNA模型和无瘤生存时间之间的时间依赖性ROC曲线显示，1年、3年、5年和>5年的AUC分别为0.97、0.976、0.982、和0.983(均p<0.001)。

如图4E-F所示，与任何单个mRNA或临床因素相比，7-mRNA模型可以更好的预测复发(所有p<0.001)。

此外，单变量Cox分析显示在TCGA队列中仅有7-mRNA模型与CCA复发相关(p<0.001，HR＝48.886，95％CI＝6.229-383.657)。然而，临床相关分析显示，风险评分增加与临床因素无明显关系，可能是由于样本数量较少导致(表S4)。

实施例5：独立的群组中7-mRNA风险评分模型的验证

为了进一步验证这种7-mRNA预测模型在不同的CCA群体中是否具有相似的预测能力，将其应用于另外一个独立的群组。从2012年1月至2017年12月，在仁济医院的研究中纳入了44名具有完整临床病理信息和预后结果的CCA患者。通过qRT-PCR测量每个CCA肿瘤样品中7个mRNA的表达水平。然后，根据这7个mRNA的表达水平计算每位患者的风险评分。

结果：

根据ROC曲线确定的最佳截止风险评分，将患者进一步分为高(n＝31)或低风险(n＝13)组。

如图5A-B所示，具有较高风险评分的患者在CCA切除后更容易复发。如图5C生存分析显示，高风险组患者的无瘤生存时间明显短于低风险组(p<0.001,HR＝4.558,95％CI1.829-11.357)。

如图5D所示,7-mRNA风险评分模型和无瘤生存时间之间的时间依赖性ROC曲线的AUC在1年是1.000，在3年为0.958，在5年为0.977，>5年为0.979(1年时p＝0.09，其他p<0.01)。

如图5E-F所示,7-mRNA风险评分模型的AUC显著大于任何单个mRNA或临床因素(所有p<0.001)。

实施例6：TCGA队列和仁济队列中基于7-mRNA分类的分层分析

为了研究这种联合7-mRNA风险评估模型适用于CCA患者不同亚分群，在TCGA群组和仁济群组中具有不同临床变量的患者亚组中进一步进行7-mRNA的分层分析。

结果：

对于TCGA队列，如图6所示，根据个体临床特征(包括性别、年龄、CA19-9水平、肿瘤大小、病理分期和AJCC分期)进行分层，7-mRNA风险评估模型可以有效预测CCA患者的复发。

在仁济队列中，如图7所示，7-mRNA风险评估模型以年龄大小、有无肿瘤血栓和AJCC分期高低分组的亚组中依然有很强的预测价值。

图12和图13分别显示了风险模型的复发模型基于病理特征和检测对象类型的分层分析。

值得注意的是，如图13所示，对于仁济队列中的男性亚组患者，CA19-9≤37ng/ml、肿瘤大小≤5cm、肿瘤单发、淋巴结转移或远处转移阴性等分组中，7-mRNA对胆管癌术后复发依然有价值。

实施例7：仁济队列中多因素预测无瘤生存时间比较

仁济队列的单变量Cox分析显示CA19-9水平，淋巴结转移和7-mRNA是与CCA的无瘤生存时间相关的重要因素(表3)。

结果：

7-mRNA在仁济队列中是预测CCA复发的最有效方法(p＝0.001，HR＝4.558，95％CI1.829-11.357，表3)。多变量Cox分析显示，在调整其他临床病理特征后，7-mRNA仍然是无瘤生存时间的独立危险因素(p＝0.008，HR＝3.912，95％CI＝1.417-10.799，表3)。出乎意料地发现，7-mRNA还与CCA的肿瘤大小(p＝0.034)成正相关(表4)。

表3仁济队列的单变量分析和多变量分析

表4仁济队列中基于7-mRNA的分类对患者的临床特征

讨论

胆管癌是一种致命的恶性肿瘤，其源于胆管的不同位置。尽管手术治疗联合其他的放化疗已经应用于临床，但由于复发率高，CCA患者的预后仍然很差。因此，预测复发是一项艰巨而紧迫的任务。

目前，肿瘤生物标志物已被用于预测CCA患者的复发。首先，CA19-9是一种用于CCA预后预测的经典血清生物学标志物。一些研究发现，术前CA19-9水平高于100U/ml与术后无瘤生存时间较短密切相关。然而，这些肿瘤标志物并不仅仅存在于CCA，其升高可能与其他疾病有关，如胆管梗阻或急性胆管炎。另一项研究指出，术前血清CA19-9水平高于135U/ml是在一定程度上可以预测预后。其他血清标志物，如癌胚抗原(CEA)，同样存在于胆管癌以外的疾病，并表现出低敏感性和特异性。许多研究已经报道血清细胞角蛋白19片段21-1(CYFRA21-1)和CA-242对于肝内胆管癌具有比CA19-9更高的特异性，但它们尚未用于临床常规检查。一些临床特征，如肿瘤大小和淋巴结转移，在预测复发是否有价值上仍存在争议。

目前，不同版本的AJCC或TNM分期系统以及预后评分系统已被广泛用于评估CCA患者的预后。然而，这些分期评价体系在CCA的不同亚型中存在一些局限性，这可能是由于对肿瘤亚型中不同遗传和表观遗传背景的忽视。总之，CCA的术后预测仍然是一个问题。因此，本发明进行了联合多个mRNA以准确预测CCA患者的无瘤生存时间长短。

本发明选择了GEO和TCGA里的多个数据集。在得到每个数据集的差异基因后，采取多次取交集的方法，以减少选择的误差，最后得到同时存在多个数据集的194个基因。利用ROC曲线，得到AUC≥0.55的127基因构建LASSO COX回归模型。使用十倍交叉验证，来选择最小平均交叉验证误差的模型。最后，我们为CCA患者建立了联合7-mRNA的风险评分模型。Cox单变量和多变量分析证实7-mRNA-模型是可以有效的预测预后。时间依赖性ROC曲线证明该模型优于其他预后因素，例如CA19-9水平和AJCC分期。同时，使用两个数据集来验证7-mRNA-模型在复发中的预后价值。这7种基因已经在许多其他类型的肿瘤中进行了研究，而很少有研究涉及胆管癌，包括临床和基础领域。

此外，通过GO富集分析和KEGG通路分析，可以发现重要的通路信息。

综上所述，这个7-mRNA风险评估模型很有预测价值，有利于CCA患者的个体化管理。

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

序列表

<110> 上海交通大学医学院附属仁济医院

<120> 一种联合多个mRNA预测胆管癌复发的方法及其应用

<130> P2019-1186

<160> 16

<170> SIPOSequenceListing 1.0

<210> 1

<211> 19

<212> DNA

<213> 人工序列(artificial sequence)

<400> 1

ggctgtgacc ggaactgtg 19

<210> 2

<211> 22

<212> DNA

<213> 人工序列(artificial sequence)

<400> 2

aggtctccaa ctggcattag aa 22

<210> 3

<211> 21

<212> DNA

<213> 人工序列(artificial sequence)

<400> 3

atggtgctag acattcccca g 21

<210> 4

<211> 22

<212> DNA

<213> 人工序列(artificial sequence)

<400> 4

gatacatcca gtcaagtggc ag 22

<210> 5

<211> 19

<212> DNA

<213> 人工序列(artificial sequence)

<400> 5

ccatgtcggt gaccccttc 19

<210> 6

<211> 21

<212> DNA

<213> 人工序列(artificial sequence)

<400> 6

gctgtcctcg cacataaaga a 21

<210> 7

<211> 21

<212> DNA

<213> 人工序列(artificial sequence)

<400> 7

aggagctttc gggacacttt g 21

<210> 8

<211> 21

<212> DNA

<213> 人工序列(artificial sequence)

<400> 8

gagcacgtat tttggcagag c 21

<210> 9

<211> 19

<212> DNA

<213> 人工序列(artificial sequence)

<400> 9

acccgtgtgg ttgctaagg 19

<210> 10

<211> 22

<212> DNA

<213> 人工序列(artificial sequence)

<400> 10

acgtggtgtt gaaacttgag at 22

<210> 11

<211> 19

<212> DNA

<213> 人工序列(artificial sequence)

<400> 11

cgctggcggt actgaagtc 19

<210> 12

<211> 21

<212> DNA

<213> 人工序列(artificial sequence)

<400> 12

gaggaacggt gacatgctca t 21

<210> 13

<211> 23

<212> DNA

<213> 人工序列(artificial sequence)

<400> 13

tttgatttgc agtccaatac cgt 23

<210> 14

<211> 23

<212> DNA

<213> 人工序列(artificial sequence)

<400> 14

gcacgtaccg catttatctt ctc 23

<210> 15

<211> 21

<212> DNA

<213> 人工序列(artificial sequence)

<400> 15

ggagagggag cctgagaaac g 21

<210> 16

<211> 22

<212> DNA

<213> 人工序列(artificial sequence)

<400> 16

ttacagggcc tcgaaagagt cc 22

Claims

1.一种检测试剂组合的用途，其特征在于，用于制备一诊断试剂或试剂盒，所述诊断试剂或试剂盒用于评估某一对象胆管癌复发的风险；

2.如权利要求1所述的用途，其特征在于，所述的基因组合是包括以下基因的组合：CD36、GGCX、UBASH3B、DBN1、PTTG1、CCNA2和SPATS2。

3.如权利要求1所述的用途，其特征在于，所述检测是针对离体样本的检测，所述的离体样本包括组织样本，所述组织样本为手术中切下的胆管癌组织。

4.如权利要求1所述的用途，其特征在于，所述检测试剂组合包括：特异性针对CD36基因的引物对、特异性针对GGCX基因的引物对、特异性针对UBASH3B基因的引物对、特异性针对DBN1基因的引物对、特异性针对PTTG1基因的引物对、特异性针对CCNA2基因的引物对、特异性针对SPATS2基因的引物对，或其组合。

5.如权利要求1所述的用途，其特征在于，所述的检测是指对所述基因的mRNA水平的检测。

6.一种试剂盒，其特征在于，所述试剂盒含有一检测试剂组合，所述检测试剂组合是一基因组合的检测试剂，所述的基因组合包括：

7.一种预测胆管癌复发的方法，其特征在于，包括步骤：

(i)从一对象中获得一样品；和

(ii)使用如权利要求6所述的试剂盒对所述样品进行检测，从而获得样品中的一个或多个以下基因的表达水平：CD36、GGCX、UBASH3B、DBN1、PTTG1、CCNA2和SPATS2；

8.如权利要求7所述的方法，其特征在于，所述步骤(iii)中所述的分析包括计算该对象的CCA复发风险评分S，所述的CCA复发风险评分按公式Q1进行计算：

其中，

W为基因权重系数；

E为基因的mRNA表达水平；

n为基因的数量，且n为≥1正整数。

9.如权利要求8所述的方法，其特征在于，所述的权重系数如下所示：

10.一种用于对CCA患者进行分型的装置，其特征在于，包括：

(P4)输出单元，所述的输出设备用于输出所述的分型结果。