CN116042820B - 一组结肠癌dna甲基化分子标志物及其在制备用于结肠癌早期诊断试剂盒中的应用 - Google Patents

一组结肠癌dna甲基化分子标志物及其在制备用于结肠癌早期诊断试剂盒中的应用 Download PDF

Info

Publication number
CN116042820B
CN116042820B CN202211089666.XA CN202211089666A CN116042820B CN 116042820 B CN116042820 B CN 116042820B CN 202211089666 A CN202211089666 A CN 202211089666A CN 116042820 B CN116042820 B CN 116042820B
Authority
CN
China
Prior art keywords
colon cancer
methylation
cpg sites
dna methylation
markers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211089666.XA
Other languages
English (en)
Other versions
CN116042820A (zh
Inventor
陆燕
刘鹏渊
刘艺
穆罕默德·阿曼努拉
易佳妮
周莉媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202211089666.XA priority Critical patent/CN116042820B/zh
Publication of CN116042820A publication Critical patent/CN116042820A/zh
Application granted granted Critical
Publication of CN116042820B publication Critical patent/CN116042820B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Zoology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Pathology (AREA)
  • Bioethics (AREA)
  • Microbiology (AREA)
  • Mathematical Physics (AREA)
  • Hospice & Palliative Care (AREA)
  • Epidemiology (AREA)
  • Biochemistry (AREA)
  • Public Health (AREA)
  • Oncology (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)

Abstract

本发明公开了一组结肠癌的DNA甲基化分子标志物及其在制备用于结肠癌早期诊断试剂盒中的应用。所述的标志物是30个结肠癌甲基化特异性的CpG位点。这30个CpG位点包括cg06668555、cg06392169、cg18596362、cg13265789、cg21782409、cg04555373、cg01893212、cg04904331、cg12584684、cg04454951、cg04804539、cg20078466、cg09493505、cg05470523、cg19202058、cg00333226、cg15701178、cg01194057、cg01610488、cg07039180、cg04279973、cg06716730、cg18500968、cg03462053、cg05000488、cg14898779、cg14018648、cg19981409、cg05407490和cg0533134,分布在16个不同基因上:FAM135B、IRF4、CBLN2、UNC5C、NRG1、VWC2、MAL、IKZF1、TRPA1、PRKCB、DUSP14、TMPRSS3、KRT6A、STK31、ASGR1和NOX4。其中,有9个基因与结肠癌患者的生存率明显相关,可用于制备结肠癌预后判断试剂盒。本发明还公开了检测所述DNA甲基化标志物的方法。本发明的DNA甲基化分子标志物具有良好的诊断指标特性,可以有效用于结肠癌诊断和预后,具有较高的临床使用和推广价值。

Description

一组结肠癌DNA甲基化分子标志物及其在制备用于结肠癌早 期诊断试剂盒中的应用
技术领域
本发明涉及生物检测技术领域,具体涉及一组结肠癌的DNA甲基化分子标志物及其在制备用于结肠癌诊断试剂盒中的应用。
背景技术
结肠癌疾病的确切原因尚不清楚,然而,一些特定的危险因素与结肠癌高度相关,包括不健康饮食、大量饮酒和吸烟。此外,有结肠癌家族史或有某些遗传性癌症综合征的人患此病的风险很高。细胞中的基因突变是结肠癌最常见的原因之一。由于缺乏有效的诊断方法,结肠癌在早期是不容易被发现的。
尽管已经有一些关于结肠癌的分子探索、生物标志物和治疗靶点,这些对治疗和诊断这种疾病有很大的贡献,但由于生物的复杂性和较大的肿瘤个体差异性,目前急需具有更高稳定性和准确性的结肠癌标志物。
DNA甲基化是一种在基因调控中起重要作用的表观遗传标志物。异常的DNA甲基化修饰与许多疾病有关。并且,甲基化标志物比蛋白质标志物更稳定,这明确了癌症特异性甲基化标志物具有巨大的潜力,可用于在临床上准确诊断癌症。但是,目前关于甲基化标志物在结肠癌中的应用较少,大多数找到的甲基化标志物均为特定基因中的启动子或差异甲基化区域,这让检测过程复杂、检测的成本也较高。
发明内容
本发明的目的在于通过甲基化测序数据和RNA-seq测序数据的整合分析,进一步结合机器学习方法,提供一组结肠癌DNA甲基化分子标志物及其在制备用于结肠癌早期诊断试剂盒中的应用。本发明选择结肠癌DNA甲基化标志物的原则是:尽可能选出最具有标志性的位点,以降低检测的复杂性和实验成本。
本发明的目的是通过以下技术方案来实现的,一组结肠癌甲基化分子标志物,所述标志物包括如下30个CpG位点的甲基化:cg06668555、cg06392169、cg18596362、cg13265789、cg21782409、cg04555373、cg01893212、cg04904331、cg12584684、cg04454951、cg04804539、cg20078466、cg09493505、cg05470523、cg19202058、cg00333226、cg15701178、cg01194057、cg01610488、cg07039180、cg04279973、cg06716730、cg18500968、cg03462053、cg05000488、cg14898779、cg14018648、cg19981409、cg05407490和cg0533134。所述30个CpG位点分布在16个不同基因上,包括FAM135B、IRF4、CBLN2、UNC5C、NRG1、VWC2、MAL、IKZF1、TRPA1、PRKCB、DUSP14、TMPRSS3、KRT6A、STK31、ASGR1和NOX4;其中9个基因与结肠癌患者的生存率明显相关,分别是NOX4、KRT6A、DUSP14、ASGR1、NRG1、TRPA1、IRF4、PRKCB和IKZF1。
本发明还提供了一种上述DNA甲基化分子标志物在制备用于结肠癌早期诊断试剂盒中的应用。
进一步地,以筛选出的30个CpG位点的DNA甲基化水平为基础,利用MethylTargt测序方法分析肿瘤组织样本、内镜活检样本或血浆/血清样本,采用支持向量机(SVM)方法构建结肠癌诊断的数学模型,使用ROC曲线及曲线下面积(AUC)来评价筛选效果。
本发明还提供一种上述DNA甲基化分子标志物在制备结肠癌预后试剂盒中的应用,所述分子标志物的30个CpG位点位于9个基因上,所述9个基因分别为NOX4、KRT6A、DUSP14、ASGR1、NRG1、TRPA1、IRF4、PRKCB和IKZF1。
本发明的结肠癌甲基化分子标志物通过以下方法获取:
(1)甲基化和基因表达数据的获取:从TCGA下载结肠癌(COAD)的基因表达和DNA甲基化的数据集。其中,共有295个结肠癌病人同时具有甲基化和基因表达这两种数据,选择这些病人的样本数据用于后续分析。对于这295个病人来说,他们的基因表达数据集中共有包含346个样本,包括317个结肠癌和29个癌旁样本,而甲基化的数据集总共包含352个样本,包括314个结肠癌和38个癌旁样本(一个病人可能对应多次生物学重复)。
(2)测序数据质量控制:对步骤(1)得到的测序原始数据进行质检。对于RNA-seq数据:排除在所有样品中超过75%read计数小于1的低表达基因。对于甲基化数据:根据芯片检测的p值,针对某个CpG位点,若p>0.01的样本数超过总样本的50%,则将其过滤掉;此外,从分析中过滤掉含有SNP的CpG位点、X和Y染色体上的CpG以及发生交叉反应的探针上的CpG位点;为了最大限度地减少样品内和样品之间不必要的变异,对甲基化数据进行BMIQ归一化;并将Beta值转换为M值以方便后续差异甲基化位点(DMP)检测的执行。
(3)检测差异甲基化位点(DMP)和差异表达基因(DEG):对步骤(2)得到的甲基化数据使用R软件包Limma进行差异甲基化位点的检测分析,选择Benjamin-Hochberg方法调整p值,将p值<0.05,且同时甲基化水平均值差的绝对值>0.3的CpG位点作为候选的DMP。对于RNA-seq数据,对原始的read计数进行log2(CPM(count)+1)标准化转换,使用R软件包Limma进行差异表达基因的检测分析。将调整后的P值小于0.05和/>的基因作为差异表达的基因(DEG)。
(4)挖掘结肠癌候选甲基化标志的CpG位点:首先用TCGAbiolinks对IlluminaHuman450K甲基化芯片中的DMPs进行注释分类;然后提取启动子区域附近(TSS上游或者下游2kb p区域范围)的DMPs和相应转录起始位点对应DEG的表达数据进行联合分析。选择位于下调差异基因启动子中的高甲基化CpG位点(共1065个)作为进一步的候选CpG位点。通过LASSO回归进行特征选择,最终选出最具有标志性的30个CpG位点。
(5)机器学习方法构建结肠癌诊断的数学模型:利用TCGA中COAD的数据样本中该30个位点的甲基化信息作为特征进行训练,利用支持向量机(SVM)模型,采用10折交叉验证的方法确定模型的超参数,随后训练得到结肠癌诊断的数学模型。从GEO公共数据库中下载三个独立的结肠癌的甲基化数据集。利用这三个独立的数据集对步骤(4)筛选出的结肠癌的甲基化标志性CpG位点进行外部验证,进一步确认本发明筛选出了可靠的结肠癌标志性的甲基化CpG位点。此外,候选的CpG位点所在的目标基因的表达数据被用来进行生存(预后)分析。
(6)MethylTargt测序文库构建及测序:利用MethylTargt测序方法对所选择的30个CpG位点在25对新的配对结肠癌组织数据中进行测序验证。
(7)测序数据分析:对步骤(6)得到的原始的测序数据进行质检。将经过质检的reads使用软件FLASH(FLASH:Fast length adjustment of short reads to improvegenome assemblies)进行read1和read2的拼接。利用BLAST+工具比对到人类参考基因组上,筛选能够覆盖目标序列90%或有90%碱基能够完整比对到其目标序列的reads用于后续的分析。通过非监督聚类发现,以该30个位点作为标志测序的数据可以很好的将肿瘤和非肿瘤区分开。
本发明通过对TCGA中295个病人的样本进行转录组和差异甲基化的整合分析,构建了结肠癌DNA差异甲基化图谱,挖掘异常的甲基化位点,并进一步通过LASSO回归的方法筛选出了结肠癌诊断的30个DNA甲基化的标志位点。随后以这些位点作为标志物通过机器学习方法在GEO的多个数据集中进行验证,均呈现出较高的精确度。最后利用MethylTarget目标区域甲基化测序方法对该30个位点的甲基化进行特异性测序,其可以非常有效的区分25对结肠癌的样本(肿瘤和匹配的癌旁组织),这些标志物将有望成为结肠癌诊断筛查的重要手段。
本发明的有益效果是:
以本发明标记物为基础,构建结肠癌诊断的数学模型;该模型灵敏度高,特异性好,在三个独立的结肠癌GEO公共数据库验证中AUC均达到0.98,在25对结肠癌样本(肿瘤和匹配的癌旁组织)验证中AUC高达1,诊断效果良好。综上所述,本发明公开的DNA甲基化分子标志物具有良好的诊断指标特性,可以有效用于结肠癌的诊断,具有较高的临床应用和推广价值。
附图说明
图1是本发明的一个实施例流程图。
图2是结肠癌组织与癌旁组织的甲基化图谱特征:(A)结肠癌组织和癌旁组织中标志的30个位点的聚类分析图;(B)结肠癌组织和癌旁组织中30个CpG位点的主成分分析图。
图3是30个位点DNA的甲基化在3个GEO数据集以及通过methylTarget测序方法获得的25对配对的结肠癌组织和癌旁正常组织中的表现:(A)GSE42752中ROC分析;(B)GSE77718中ROC分析;(C)GSE131013中ROC分析;(D)methylTarget测序方法获得的25对配对的结肠癌样本中的ROC分析。
图4是30个CpG位点所在基因中与结肠癌患者的生存率明显相关的基因。
具体实施方式
下面通过具体实施例子对本发明作进一步阐述,应该说明的是,下述说明仅是为了解释本发明,并不对其内容进行限定。
如图1所示,本发明分子标志物的获取方法如下:
1.甲基化和基因表达数据的获取:从TCGA下载结肠癌(COAD)的基因表达和DNA甲基化数据集。R软件包Bioconductor用于下载和处理原始数据。所有数据的基因组版本均为GRCh38。其中,共有295个结肠癌病人样本同时具有甲基化和基因表达这两种数据,选择这些病人的样本数据用于后续分析。对于这295个病人来说,他们的基因表达数据集中共有包含346个样本,包括317个结肠癌和29个癌旁样本,而甲基化的数据集总共包含352个样本,包括314个结肠癌和38个癌旁样本(一个病人可能对应多次生物学重复)。
2.测序数据质量控制:对步骤(1)得到的测序原始数据进行质检。对于RNA-seq数据:排除在所有样本中超过75%reads计数均小于1的低表达基因。对于甲基化数据:根据芯片检测的p值,针对某个CpG位点,若p>0.01的样本数超过总样本的50%,则将该CpG位点过滤掉;此外,从分析中过滤掉含有SNP的CpG位点、X和Y染色体中的CpG以及发生交叉反应的探针上的CpG位点;为了最大限度地减少样品内和样品之间不必要的变异,对甲基化数据进行BMIQ归一化;并将Beta值转换为M值以方便后续差异甲基化位点(DMP)检测的执行。
3.检测差异甲基化位点(DMP)和差异表达基因(DEG):对步骤(2)得到的甲基化数据使用R软件包Limma进行差异甲基化位点的检测分析,选择Benjamin-Hochberg方法调整p值,将p值<0.05,且同时甲基化水平均值差的绝对值>0.3的CpG位点作为候选的DMPs。对于RNA-seq数据,对原始的reads计数进行log2(CPM(count)+1)标准化转换,使用R软件包Limma进行差异表达基因的检测分析。根据调整后的p值小于0.05和/>的基因作为差异表达的基因(DEG)。
4.挖掘结肠癌候选甲基化标志CpG位点:首先用TCGAbiolinks对IlluminaHuman450K甲基化芯片中的DMPs进行注释分类;然后提取启动子区域附近(TSS上游或者下游2kbp区域范围)的DMPs和相应转录起始位点对应DEG的表达数据进行联合分析。选择位于下调差异基因启动子中的高甲基化CpG位点(共1065个)作为进一步的候选CpG位点。为了选择最具标志性的CpG位点,采用LASSO回归模型,其不仅可以避免候选CpG位点之间的多重共线性,同时也可以防止过度拟合。LASSO回归的成本函数可以定义为:
其中i代表第i个样本,i∈{1,2,…,352};j代表第j个候选CpG位点,j∈{1,2,…,1065};wj代表第j个候选CpG位点的甲基化权重,xij代表第i个样本上的第j个候选CpG位点的甲基化水平,yi代表第i个样本的真实类别标签(yi∈{0,1},其中yi=0时样本为正常样本,yi=1时样本为肿瘤样本);代表第i个样本被LASSO回归模型预测的分类标签,取值范围同yi。通过坐标轴下降法最小化成本函数,可以得到最优的变量。/>为代价函数,又可称为L1正则化项;λ为惩罚系数,取值范围为[0,1],其可使部分具有强联系的变量的系数为零,以达到降维目的。在这种情况下,LASSO不仅可以进行特征选择,还可以减少过拟合。本发明中令惩罚系数λ为0.1,通过LASSO回归进行特征选择,选出最具有标志性的30个CpG位点。
5.机器学习方法构建结肠癌诊断的数学模型:利用TCGA中COAD的数据样本中该30个CpG位点的甲基化信息作为特征进行训练,利用支持向量机(SVM)模型,采用10折交叉验证的方法确定模型的超参数,随后训练得到结肠癌诊断的数学模型。从GEO公共数据库中下载三个独立的结肠癌的甲基化数据集,包括GSE42752、GSE77718和GSE131013。利用这三个独立的数据集对步骤4筛选出的结肠癌的甲基化标志性位点进行外部验证,进一步确认筛选出了可靠的结肠癌标志性的甲基化位点(表1,图3A,图3B和图3C)。此外,候选的CpG位点所在的目标基因的表达数据被用来进行生存(预后)分析,共有9个CpG位点所在基因与结肠癌的生存率显著相关(图4)。
6.MethylTarget测序文库构建及测序:利用MethylTargt测序方法对所选出的30个CpG位点在25对配对的结肠癌组织数据中进行测序验证。首先分别分离出结肠癌病人的组织及其相邻正常结肠组织样品中的总DNA,通过对感兴趣的目标区域进行单独的测序引物设计,混合引物为多重PCR引物panel,以标准人类基因组为模板进行扩增,通过毛细管电泳的方法,判断多重体系中每对引物的效率并以此为依据进行调整,选择最优的PCR panel中的引物组成及浓度;随后使用EZ DNA methylation-Gold Kit对样本进行处理,经过重亚硫酸盐处理后,基因组中未经过甲基化修饰的胞嘧啶C将转化成尿嘧啶U;使用优化后的多重PCR引物panel进行扩增并添加样本特异性Index序列,将所有样品Index PCR扩增产物等量混合,经割胶回收获得最终的MethylTarget测序文库。最后使用Illumina Hiseq平台,以2×150bp的双端测序模式进行高通量测序。
7.测序数据分析:对步骤(6)得到的原始的测序数据进行质检。将经过质检的reads通过FLASH(FLASH:Fast length adjustment of short reads to improve genomeassemblies)进行read1和read2的拼接。利用BLAST+工具比对到人类参考基因组上,筛选能够覆盖目标序列90%或有90%碱基能够完整比对到其目标序列的reads用于后续的分析。从图2构建的系统树图看,这些位点可以把结肠癌分成不同两类(图2A)。主成分分析也观察到结肠癌和正常组织之间明显地分离(图2B),这些结果表明结肠癌和正常组织在这些位点间有不同的甲基化模式。另外,与正常组织比较,结肠癌样本之间有较大的变异(图2B),显示不同肿瘤样本之间存在异质性的甲基化模式。用这30个CpG位点的甲基化信息作为特征,以支持向量机(S VM)方法构建用于诊断的数学模型。在25对结肠癌数据中进行验证,其AUC高达1(图3D)。本发明筛选出的30个标志性CpG位点的甲基化水平能准确区分肿瘤和正常组织。
表1结肠癌DNA甲基化标志位点的信息(人类基因组坐标版本:GRCh38)
本发明筛选的分子标志物在制备用于早期结肠癌诊断的试剂盒中的应用,以筛选出的30个CpG位点的DNA甲基化为基础,利用MethylTarget目标区域甲基化测序或者捕获二代测序分析肿瘤组织样本、内镜活检样本或血液样本,采用支持向量机(SVM)方法构建结肠癌诊断的数学模型,使用ROC曲线及曲线下面积(AUC)来评价筛选效果;该模型灵敏度高,特异性好,AUC高达0.98以上,诊断效果良好。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (2)

1.一组结肠癌DNA甲基化分子标志物在制备用于结肠癌早期诊断的试剂盒中的应用,其特征在于,所述标志物包括如下30个CpG位点的甲基化,cg06668555、cg06392169、cg18596362、cg13265789、cg21782409、cg04555373、cg01893212、cg04904331、cg12584684、cg04454951、cg04804539、cg20078466、cg09493505、cg05470523、cg19202058、cg00333226、cg15701178、cg01194057、cg01610488、cg07039180、cg04279973、cg06716730、cg18500968、cg03462053、cg05000488、cg14898779、cg14018648、cg19981409、cg05407490和cg0533134;所述30个CpG位点分布在16个不同基因上,包括FAM135B、IRF4、CBLN2、UNC5C、NRG1、VWC2、MAL、IKZF1、TRPA1、PRKCB、DUSP14、TMPRSS3、KRT6A、STK31、ASGR1和NOX4。
2.一组结肠癌DNA甲基化分子标志物在制备用于结肠癌预后判断的试剂盒中的应用,其特征在于,所述标志物包括如下30个CpG位点的甲基化,cg06668555、cg06392169、cg18596362、cg13265789、cg21782409、cg04555373、cg01893212、cg04904331、cg12584684、cg04454951、cg04804539、cg20078466、cg09493505、cg05470523、cg19202058、cg00333226、cg15701178、cg01194057、cg01610488、cg07039180、cg04279973、cg06716730、cg18500968、cg03462053、cg05000488、cg14898779、cg14018648、cg19981409、cg05407490和cg0533134;所述30个CpG位点分布在16个不同基因上,包括FAM135B、IRF4、CBLN2、UNC5C、NRG1、VWC2、MAL、IKZF1、TRPA1、PRKCB、DUSP14、TMPRSS3、KRT6A、STK31、ASGR1和NOX4;其中9个基因与结肠癌患者的生存率明显相关,所述9个基因分别为NOX4、KRT6A、DUSP14、ASGR1、NRG1、TRPA1、IRF4、PRKCB和IKZF1。
CN202211089666.XA 2022-09-07 2022-09-07 一组结肠癌dna甲基化分子标志物及其在制备用于结肠癌早期诊断试剂盒中的应用 Active CN116042820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211089666.XA CN116042820B (zh) 2022-09-07 2022-09-07 一组结肠癌dna甲基化分子标志物及其在制备用于结肠癌早期诊断试剂盒中的应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211089666.XA CN116042820B (zh) 2022-09-07 2022-09-07 一组结肠癌dna甲基化分子标志物及其在制备用于结肠癌早期诊断试剂盒中的应用

Publications (2)

Publication Number Publication Date
CN116042820A CN116042820A (zh) 2023-05-02
CN116042820B true CN116042820B (zh) 2023-09-29

Family

ID=86120589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211089666.XA Active CN116042820B (zh) 2022-09-07 2022-09-07 一组结肠癌dna甲基化分子标志物及其在制备用于结肠癌早期诊断试剂盒中的应用

Country Status (1)

Country Link
CN (1) CN116042820B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037863A (zh) * 2020-08-26 2020-12-04 南京医科大学 一种早期nsclc预后预测系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6709541B2 (ja) * 2014-10-17 2020-06-17 国立大学法人東北大学 大腸癌に対する薬物療法の感受性を予測する方法
GB201511152D0 (en) * 2015-06-24 2015-08-05 Ucl Business Plc Method of diagnosing bladder cancer
CN115881230A (zh) * 2015-12-17 2023-03-31 伊路敏纳公司 区分复杂生物样品中的甲基化水平
US11851711B2 (en) * 2017-09-29 2023-12-26 Arizona Board Of Regents On Behalf Of The University Of Arizona DNA methylation biomarkers for cancer diagnosing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037863A (zh) * 2020-08-26 2020-12-04 南京医科大学 一种早期nsclc预后预测系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Differences in DNA methylation signatures reveal multiple pathways of progression from adenoma to colorectal cancer;Yan Xin Luo et al;Gastroenterology;第1-458页 *

Also Published As

Publication number Publication date
CN116042820A (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN108753967B (zh) 一种用于肝癌检测的基因集及其panel检测设计方法
EP3899018B1 (en) Cell-free dna end characteristics
WO2019068082A1 (en) DNA METHYLATION BIOMARKERS FOR THE DIAGNOSIS OF CANCER
CN111640508B (zh) 基于高通量测序数据和临床表型构建的泛肿瘤靶向药敏感性状态评估模型的方法及应用
CN107475375A (zh) 一种用于与微卫星不稳定性相关微卫星位点进行杂交的dna探针库、检测方法和试剂盒
CN109680049A (zh) 一种基于血液游离DNA高通量测序分析cfDNA所属个体生理状态的方法及其应用
CN112941180A (zh) 一组肺癌dna甲基化分子标志物及其在制备用于肺癌早期诊断试剂盒中的应用
CN111863126B (zh) 构建结直肠肿瘤状态评估模型的方法及应用
CN109652513B (zh) 基于二代测序技术精确检测液体活检个体突变的方法和试剂盒
CN111951893B (zh) 构建肿瘤突变负荷tmb面板的方法
US20220165363A1 (en) De novo compartment deconvolution and weight estimation of tumor tissue samples using decoder
CN106399304B (zh) 一种与乳腺癌相关的snp标记
CN115087745A (zh) 无细胞样品中的双末端dna片段类型及其用途
CN109666745A (zh) 染色体1p/19q联合杂合性缺失的检测方法及试剂盒
CN111816315B (zh) 胰腺导管癌状态评估模型构建方法及应用
KR20230025895A (ko) 순환 종양 핵산 분자의 다중모드 분석
CN109680054A (zh) 一种低频dna突变的检测方法
Terp et al. Extraction of cell-free DNA: evaluation of efficiency, quantity, and quality
CN110004229A (zh) 多基因作为egfr单克隆抗体类药物耐药标志物的应用
CN116042820B (zh) 一组结肠癌dna甲基化分子标志物及其在制备用于结肠癌早期诊断试剂盒中的应用
CN114300089B (zh) 一种中晚期结直肠癌治疗方案决策算法
CN108588201B (zh) 一种结直肠癌西妥昔单抗耐药性痕量dna突变检测的方法及装置
Wilmott et al. Tumour procurement, DNA extraction, coverage analysis and optimisation of mutation-detection algorithms for human melanoma genomes
CN114277132B (zh) 免疫相关的lncRNA表达谱预测小细胞肺癌辅助化疗获益及预后的应用
CN109979534B (zh) 一种c位点提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant