CN116042820B

CN116042820B - 一组结肠癌dna甲基化分子标志物及其在制备用于结肠癌早期诊断试剂盒中的应用

Info

Publication number: CN116042820B
Application number: CN202211089666.XA
Authority: CN
Inventors: 陆燕; 刘鹏渊; 刘艺; 穆罕默德·阿曼努拉; 易佳妮; 周莉媛
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-09-07
Filing date: 2022-09-07
Publication date: 2023-09-29
Anticipated expiration: 2042-09-07
Also published as: CN116042820A

Abstract

本发明公开了一组结肠癌的DNA甲基化分子标志物及其在制备用于结肠癌早期诊断试剂盒中的应用。所述的标志物是30个结肠癌甲基化特异性的CpG位点。这30个CpG位点包括cg06668555、cg06392169、cg18596362、cg13265789、cg21782409、cg04555373、cg01893212、cg04904331、cg12584684、cg04454951、cg04804539、cg20078466、cg09493505、cg05470523、cg19202058、cg00333226、cg15701178、cg01194057、cg01610488、cg07039180、cg04279973、cg06716730、cg18500968、cg03462053、cg05000488、cg14898779、cg14018648、cg19981409、cg05407490和cg0533134，分布在16个不同基因上：FAM135B、IRF4、CBLN2、UNC5C、NRG1、VWC2、MAL、IKZF1、TRPA1、PRKCB、DUSP14、TMPRSS3、KRT6A、STK31、ASGR1和NOX4。其中，有9个基因与结肠癌患者的生存率明显相关，可用于制备结肠癌预后判断试剂盒。本发明还公开了检测所述DNA甲基化标志物的方法。本发明的DNA甲基化分子标志物具有良好的诊断指标特性，可以有效用于结肠癌诊断和预后，具有较高的临床使用和推广价值。

Description

一组结肠癌DNA甲基化分子标志物及其在制备用于结肠癌早期诊断试剂盒中的应用

技术领域

本发明涉及生物检测技术领域，具体涉及一组结肠癌的DNA甲基化分子标志物及其在制备用于结肠癌诊断试剂盒中的应用。

背景技术

结肠癌疾病的确切原因尚不清楚，然而，一些特定的危险因素与结肠癌高度相关，包括不健康饮食、大量饮酒和吸烟。此外，有结肠癌家族史或有某些遗传性癌症综合征的人患此病的风险很高。细胞中的基因突变是结肠癌最常见的原因之一。由于缺乏有效的诊断方法，结肠癌在早期是不容易被发现的。

尽管已经有一些关于结肠癌的分子探索、生物标志物和治疗靶点，这些对治疗和诊断这种疾病有很大的贡献，但由于生物的复杂性和较大的肿瘤个体差异性，目前急需具有更高稳定性和准确性的结肠癌标志物。

DNA甲基化是一种在基因调控中起重要作用的表观遗传标志物。异常的DNA甲基化修饰与许多疾病有关。并且，甲基化标志物比蛋白质标志物更稳定，这明确了癌症特异性甲基化标志物具有巨大的潜力，可用于在临床上准确诊断癌症。但是，目前关于甲基化标志物在结肠癌中的应用较少，大多数找到的甲基化标志物均为特定基因中的启动子或差异甲基化区域，这让检测过程复杂、检测的成本也较高。

发明内容

本发明的目的在于通过甲基化测序数据和RNA-seq测序数据的整合分析，进一步结合机器学习方法，提供一组结肠癌DNA甲基化分子标志物及其在制备用于结肠癌早期诊断试剂盒中的应用。本发明选择结肠癌DNA甲基化标志物的原则是：尽可能选出最具有标志性的位点，以降低检测的复杂性和实验成本。

本发明的目的是通过以下技术方案来实现的，一组结肠癌甲基化分子标志物，所述标志物包括如下30个CpG位点的甲基化：cg06668555、cg06392169、cg18596362、cg13265789、cg21782409、cg04555373、cg01893212、cg04904331、cg12584684、cg04454951、cg04804539、cg20078466、cg09493505、cg05470523、cg19202058、cg00333226、cg15701178、cg01194057、cg01610488、cg07039180、cg04279973、cg06716730、cg18500968、cg03462053、cg05000488、cg14898779、cg14018648、cg19981409、cg05407490和cg0533134。所述30个CpG位点分布在16个不同基因上，包括FAM135B、IRF4、CBLN2、UNC5C、NRG1、VWC2、MAL、IKZF1、TRPA1、PRKCB、DUSP14、TMPRSS3、KRT6A、STK31、ASGR1和NOX4；其中9个基因与结肠癌患者的生存率明显相关，分别是NOX4、KRT6A、DUSP14、ASGR1、NRG1、TRPA1、IRF4、PRKCB和IKZF1。

本发明还提供了一种上述DNA甲基化分子标志物在制备用于结肠癌早期诊断试剂盒中的应用。

进一步地，以筛选出的30个CpG位点的DNA甲基化水平为基础，利用MethylTargt测序方法分析肿瘤组织样本、内镜活检样本或血浆/血清样本，采用支持向量机(SVM)方法构建结肠癌诊断的数学模型，使用ROC曲线及曲线下面积(AUC)来评价筛选效果。

本发明还提供一种上述DNA甲基化分子标志物在制备结肠癌预后试剂盒中的应用，所述分子标志物的30个CpG位点位于9个基因上，所述9个基因分别为NOX4、KRT6A、DUSP14、ASGR1、NRG1、TRPA1、IRF4、PRKCB和IKZF1。

本发明的结肠癌甲基化分子标志物通过以下方法获取：

(1)甲基化和基因表达数据的获取：从TCGA下载结肠癌(COAD)的基因表达和DNA甲基化的数据集。其中，共有295个结肠癌病人同时具有甲基化和基因表达这两种数据，选择这些病人的样本数据用于后续分析。对于这295个病人来说，他们的基因表达数据集中共有包含346个样本，包括317个结肠癌和29个癌旁样本，而甲基化的数据集总共包含352个样本，包括314个结肠癌和38个癌旁样本(一个病人可能对应多次生物学重复)。

(2)测序数据质量控制：对步骤(1)得到的测序原始数据进行质检。对于RNA-seq数据：排除在所有样品中超过75％read计数小于1的低表达基因。对于甲基化数据：根据芯片检测的p值，针对某个CpG位点，若p>0.01的样本数超过总样本的50％，则将其过滤掉；此外，从分析中过滤掉含有SNP的CpG位点、X和Y染色体上的CpG以及发生交叉反应的探针上的CpG位点；为了最大限度地减少样品内和样品之间不必要的变异，对甲基化数据进行BMIQ归一化；并将Beta值转换为M值以方便后续差异甲基化位点(DMP)检测的执行。

(3)检测差异甲基化位点(DMP)和差异表达基因(DEG)：对步骤(2)得到的甲基化数据使用R软件包Limma进行差异甲基化位点的检测分析，选择Benjamin-Hochberg方法调整p值，将p值<0.05，且同时甲基化水平均值差的绝对值>0.3的CpG位点作为候选的DMP。对于RNA-seq数据，对原始的read计数进行log2(CPM(count)+1)标准化转换，使用R软件包Limma进行差异表达基因的检测分析。将调整后的P值小于0.05和/>的基因作为差异表达的基因(DEG)。

(4)挖掘结肠癌候选甲基化标志的CpG位点：首先用TCGAbiolinks对IlluminaHuman450K甲基化芯片中的DMPs进行注释分类；然后提取启动子区域附近(TSS上游或者下游2kb p区域范围)的DMPs和相应转录起始位点对应DEG的表达数据进行联合分析。选择位于下调差异基因启动子中的高甲基化CpG位点(共1065个)作为进一步的候选CpG位点。通过LASSO回归进行特征选择，最终选出最具有标志性的30个CpG位点。

(5)机器学习方法构建结肠癌诊断的数学模型：利用TCGA中COAD的数据样本中该30个位点的甲基化信息作为特征进行训练，利用支持向量机(SVM)模型，采用10折交叉验证的方法确定模型的超参数，随后训练得到结肠癌诊断的数学模型。从GEO公共数据库中下载三个独立的结肠癌的甲基化数据集。利用这三个独立的数据集对步骤(4)筛选出的结肠癌的甲基化标志性CpG位点进行外部验证，进一步确认本发明筛选出了可靠的结肠癌标志性的甲基化CpG位点。此外，候选的CpG位点所在的目标基因的表达数据被用来进行生存(预后)分析。

(6)MethylTargt测序文库构建及测序：利用MethylTargt测序方法对所选择的30个CpG位点在25对新的配对结肠癌组织数据中进行测序验证。

(7)测序数据分析：对步骤(6)得到的原始的测序数据进行质检。将经过质检的reads使用软件FLASH(FLASH:Fast length adjustment of short reads to improvegenome assemblies)进行read1和read2的拼接。利用BLAST+工具比对到人类参考基因组上，筛选能够覆盖目标序列90％或有90％碱基能够完整比对到其目标序列的reads用于后续的分析。通过非监督聚类发现，以该30个位点作为标志测序的数据可以很好的将肿瘤和非肿瘤区分开。

本发明通过对TCGA中295个病人的样本进行转录组和差异甲基化的整合分析，构建了结肠癌DNA差异甲基化图谱，挖掘异常的甲基化位点，并进一步通过LASSO回归的方法筛选出了结肠癌诊断的30个DNA甲基化的标志位点。随后以这些位点作为标志物通过机器学习方法在GEO的多个数据集中进行验证，均呈现出较高的精确度。最后利用MethylTarget目标区域甲基化测序方法对该30个位点的甲基化进行特异性测序，其可以非常有效的区分25对结肠癌的样本(肿瘤和匹配的癌旁组织)，这些标志物将有望成为结肠癌诊断筛查的重要手段。

本发明的有益效果是：

以本发明标记物为基础，构建结肠癌诊断的数学模型；该模型灵敏度高，特异性好，在三个独立的结肠癌GEO公共数据库验证中AUC均达到0.98，在25对结肠癌样本(肿瘤和匹配的癌旁组织)验证中AUC高达1，诊断效果良好。综上所述，本发明公开的DNA甲基化分子标志物具有良好的诊断指标特性，可以有效用于结肠癌的诊断，具有较高的临床应用和推广价值。

附图说明

图1是本发明的一个实施例流程图。

图2是结肠癌组织与癌旁组织的甲基化图谱特征：(A)结肠癌组织和癌旁组织中标志的30个位点的聚类分析图；(B)结肠癌组织和癌旁组织中30个CpG位点的主成分分析图。

图3是30个位点DNA的甲基化在3个GEO数据集以及通过methylTarget测序方法获得的25对配对的结肠癌组织和癌旁正常组织中的表现：(A)GSE42752中ROC分析；(B)GSE77718中ROC分析；(C)GSE131013中ROC分析；(D)methylTarget测序方法获得的25对配对的结肠癌样本中的ROC分析。

图4是30个CpG位点所在基因中与结肠癌患者的生存率明显相关的基因。

具体实施方式

下面通过具体实施例子对本发明作进一步阐述，应该说明的是，下述说明仅是为了解释本发明，并不对其内容进行限定。

如图1所示，本发明分子标志物的获取方法如下：

1.甲基化和基因表达数据的获取：从TCGA下载结肠癌(COAD)的基因表达和DNA甲基化数据集。R软件包Bioconductor用于下载和处理原始数据。所有数据的基因组版本均为GRCh38。其中，共有295个结肠癌病人样本同时具有甲基化和基因表达这两种数据，选择这些病人的样本数据用于后续分析。对于这295个病人来说，他们的基因表达数据集中共有包含346个样本，包括317个结肠癌和29个癌旁样本，而甲基化的数据集总共包含352个样本，包括314个结肠癌和38个癌旁样本(一个病人可能对应多次生物学重复)。

2.测序数据质量控制：对步骤(1)得到的测序原始数据进行质检。对于RNA-seq数据：排除在所有样本中超过75％reads计数均小于1的低表达基因。对于甲基化数据：根据芯片检测的p值，针对某个CpG位点，若p>0.01的样本数超过总样本的50％，则将该CpG位点过滤掉；此外，从分析中过滤掉含有SNP的CpG位点、X和Y染色体中的CpG以及发生交叉反应的探针上的CpG位点；为了最大限度地减少样品内和样品之间不必要的变异，对甲基化数据进行BMIQ归一化；并将Beta值转换为M值以方便后续差异甲基化位点(DMP)检测的执行。

3.检测差异甲基化位点(DMP)和差异表达基因(DEG)：对步骤(2)得到的甲基化数据使用R软件包Limma进行差异甲基化位点的检测分析，选择Benjamin-Hochberg方法调整p值，将p值<0.05，且同时甲基化水平均值差的绝对值>0.3的CpG位点作为候选的DMPs。对于RNA-seq数据，对原始的reads计数进行log2(CPM(count)+1)标准化转换，使用R软件包Limma进行差异表达基因的检测分析。根据调整后的p值小于0.05和/>的基因作为差异表达的基因(DEG)。

4.挖掘结肠癌候选甲基化标志CpG位点：首先用TCGAbiolinks对IlluminaHuman450K甲基化芯片中的DMPs进行注释分类；然后提取启动子区域附近(TSS上游或者下游2kbp区域范围)的DMPs和相应转录起始位点对应DEG的表达数据进行联合分析。选择位于下调差异基因启动子中的高甲基化CpG位点(共1065个)作为进一步的候选CpG位点。为了选择最具标志性的CpG位点，采用LASSO回归模型，其不仅可以避免候选CpG位点之间的多重共线性，同时也可以防止过度拟合。LASSO回归的成本函数可以定义为：

其中i代表第i个样本，i∈{1,2,…,352}；j代表第j个候选CpG位点,j∈{1,2,…,1065}；w_j代表第j个候选CpG位点的甲基化权重，x_ij代表第i个样本上的第j个候选CpG位点的甲基化水平，y_i代表第i个样本的真实类别标签(y_i∈{0,1}，其中y_i＝0时样本为正常样本，y_i＝1时样本为肿瘤样本)；代表第i个样本被LASSO回归模型预测的分类标签，取值范围同y_i。通过坐标轴下降法最小化成本函数，可以得到最优的变量。/>为代价函数，又可称为L1正则化项；λ为惩罚系数，取值范围为[0,1]，其可使部分具有强联系的变量的系数为零，以达到降维目的。在这种情况下，LASSO不仅可以进行特征选择，还可以减少过拟合。本发明中令惩罚系数λ为0.1，通过LASSO回归进行特征选择，选出最具有标志性的30个CpG位点。

5.机器学习方法构建结肠癌诊断的数学模型：利用TCGA中COAD的数据样本中该30个CpG位点的甲基化信息作为特征进行训练，利用支持向量机(SVM)模型，采用10折交叉验证的方法确定模型的超参数，随后训练得到结肠癌诊断的数学模型。从GEO公共数据库中下载三个独立的结肠癌的甲基化数据集，包括GSE42752、GSE77718和GSE131013。利用这三个独立的数据集对步骤4筛选出的结肠癌的甲基化标志性位点进行外部验证，进一步确认筛选出了可靠的结肠癌标志性的甲基化位点(表1，图3A，图3B和图3C)。此外，候选的CpG位点所在的目标基因的表达数据被用来进行生存(预后)分析，共有9个CpG位点所在基因与结肠癌的生存率显著相关(图4)。

6.MethylTarget测序文库构建及测序：利用MethylTargt测序方法对所选出的30个CpG位点在25对配对的结肠癌组织数据中进行测序验证。首先分别分离出结肠癌病人的组织及其相邻正常结肠组织样品中的总DNA，通过对感兴趣的目标区域进行单独的测序引物设计，混合引物为多重PCR引物panel，以标准人类基因组为模板进行扩增，通过毛细管电泳的方法，判断多重体系中每对引物的效率并以此为依据进行调整，选择最优的PCR panel中的引物组成及浓度；随后使用EZ DNA methylation-Gold Kit对样本进行处理，经过重亚硫酸盐处理后，基因组中未经过甲基化修饰的胞嘧啶C将转化成尿嘧啶U；使用优化后的多重PCR引物panel进行扩增并添加样本特异性Index序列，将所有样品Index PCR扩增产物等量混合，经割胶回收获得最终的MethylTarget测序文库。最后使用Illumina Hiseq平台，以2×150bp的双端测序模式进行高通量测序。

7.测序数据分析：对步骤(6)得到的原始的测序数据进行质检。将经过质检的reads通过FLASH(FLASH:Fast length adjustment of short reads to improve genomeassemblies)进行read1和read2的拼接。利用BLAST+工具比对到人类参考基因组上，筛选能够覆盖目标序列90％或有90％碱基能够完整比对到其目标序列的reads用于后续的分析。从图2构建的系统树图看，这些位点可以把结肠癌分成不同两类(图2A)。主成分分析也观察到结肠癌和正常组织之间明显地分离(图2B)，这些结果表明结肠癌和正常组织在这些位点间有不同的甲基化模式。另外，与正常组织比较，结肠癌样本之间有较大的变异(图2B)，显示不同肿瘤样本之间存在异质性的甲基化模式。用这30个CpG位点的甲基化信息作为特征，以支持向量机(S VM)方法构建用于诊断的数学模型。在25对结肠癌数据中进行验证，其AUC高达1(图3D)。本发明筛选出的30个标志性CpG位点的甲基化水平能准确区分肿瘤和正常组织。

表1结肠癌DNA甲基化标志位点的信息(人类基因组坐标版本：GRCh38)

本发明筛选的分子标志物在制备用于早期结肠癌诊断的试剂盒中的应用，以筛选出的30个CpG位点的DNA甲基化为基础，利用MethylTarget目标区域甲基化测序或者捕获二代测序分析肿瘤组织样本、内镜活检样本或血液样本，采用支持向量机(SVM)方法构建结肠癌诊断的数学模型，使用ROC曲线及曲线下面积(AUC)来评价筛选效果；该模型灵敏度高，特异性好，AUC高达0.98以上，诊断效果良好。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一组结肠癌DNA甲基化分子标志物在制备用于结肠癌早期诊断的试剂盒中的应用，其特征在于，所述标志物包括如下30个CpG位点的甲基化，cg06668555、cg06392169、cg18596362、cg13265789、cg21782409、cg04555373、cg01893212、cg04904331、cg12584684、cg04454951、cg04804539、cg20078466、cg09493505、cg05470523、cg19202058、cg00333226、cg15701178、cg01194057、cg01610488、cg07039180、cg04279973、cg06716730、cg18500968、cg03462053、cg05000488、cg14898779、cg14018648、cg19981409、cg05407490和cg0533134；所述30个CpG位点分布在16个不同基因上，包括FAM135B、IRF4、CBLN2、UNC5C、NRG1、VWC2、MAL、IKZF1、TRPA1、PRKCB、DUSP14、TMPRSS3、KRT6A、STK31、ASGR1和NOX4。

2.一组结肠癌DNA甲基化分子标志物在制备用于结肠癌预后判断的试剂盒中的应用，其特征在于，所述标志物包括如下30个CpG位点的甲基化，cg06668555、cg06392169、cg18596362、cg13265789、cg21782409、cg04555373、cg01893212、cg04904331、cg12584684、cg04454951、cg04804539、cg20078466、cg09493505、cg05470523、cg19202058、cg00333226、cg15701178、cg01194057、cg01610488、cg07039180、cg04279973、cg06716730、cg18500968、cg03462053、cg05000488、cg14898779、cg14018648、cg19981409、cg05407490和cg0533134；所述30个CpG位点分布在16个不同基因上，包括FAM135B、IRF4、CBLN2、UNC5C、NRG1、VWC2、MAL、IKZF1、TRPA1、PRKCB、DUSP14、TMPRSS3、KRT6A、STK31、ASGR1和NOX4；其中9个基因与结肠癌患者的生存率明显相关，所述9个基因分别为NOX4、KRT6A、DUSP14、ASGR1、NRG1、TRPA1、IRF4、PRKCB和IKZF1。