CN115094142A - 用于诊断肺肠型腺癌的甲基化标志物 - Google Patents
用于诊断肺肠型腺癌的甲基化标志物 Download PDFInfo
- Publication number
- CN115094142A CN115094142A CN202210848321.1A CN202210848321A CN115094142A CN 115094142 A CN115094142 A CN 115094142A CN 202210848321 A CN202210848321 A CN 202210848321A CN 115094142 A CN115094142 A CN 115094142A
- Authority
- CN
- China
- Prior art keywords
- methylation
- adenocarcinoma
- lung
- diagnosing
- sequencing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011987 methylation Effects 0.000 title claims abstract description 98
- 238000007069 methylation reaction Methods 0.000 title claims abstract description 96
- 206010052360 Colorectal adenocarcinoma Diseases 0.000 title claims description 26
- 208000009956 adenocarcinoma Diseases 0.000 claims abstract description 38
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 36
- 210000000936 intestine Anatomy 0.000 claims abstract description 27
- 238000012164 methylation sequencing Methods 0.000 claims abstract description 23
- 239000003550 marker Substances 0.000 claims abstract description 14
- 238000007637 random forest analysis Methods 0.000 claims abstract description 8
- 238000012163 sequencing technique Methods 0.000 claims description 24
- 108091092584 GDNA Proteins 0.000 claims description 23
- 108091029430 CpG site Proteins 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 14
- 238000013145 classification model Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 claims description 10
- 201000005249 lung adenocarcinoma Diseases 0.000 claims description 10
- 239000003153 chemical reaction reagent Substances 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000007855 methylation-specific PCR Methods 0.000 claims description 7
- 238000011529 RT qPCR Methods 0.000 claims description 6
- 238000001369 bisulfite sequencing Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 6
- 238000007847 digital PCR Methods 0.000 claims description 6
- 238000004128 high performance liquid chromatography Methods 0.000 claims description 6
- 238000002360 preparation method Methods 0.000 claims description 6
- 238000012175 pyrosequencing Methods 0.000 claims description 6
- 238000007671 third-generation sequencing Methods 0.000 claims description 6
- 238000003745 diagnosis Methods 0.000 claims description 5
- 230000002496 gastric effect Effects 0.000 claims description 2
- 108020004414 DNA Proteins 0.000 claims 2
- 238000004364 calculation method Methods 0.000 claims 1
- 210000004072 lung Anatomy 0.000 abstract description 47
- 208000001333 Colorectal Neoplasms Diseases 0.000 abstract description 27
- 206010009944 Colon cancer Diseases 0.000 abstract description 26
- 206010027476 Metastases Diseases 0.000 abstract description 24
- 230000009401 metastasis Effects 0.000 abstract description 24
- 238000012216 screening Methods 0.000 abstract description 10
- 230000007067 DNA methylation Effects 0.000 abstract description 8
- 238000003748 differential diagnosis Methods 0.000 abstract description 5
- 238000011156 evaluation Methods 0.000 abstract description 5
- 238000004393 prognosis Methods 0.000 abstract 1
- 239000000523 sample Substances 0.000 description 23
- 238000012360 testing method Methods 0.000 description 8
- 206010051925 Intestinal adenocarcinoma Diseases 0.000 description 7
- 230000035945 sensitivity Effects 0.000 description 6
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 210000001035 gastrointestinal tract Anatomy 0.000 description 4
- 230000002055 immunohistochemical effect Effects 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 108091029523 CpG island Proteins 0.000 description 3
- 102100032700 Keratin, type I cytoskeletal 20 Human genes 0.000 description 3
- 239000011324 bead Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 102000006277 CDX2 Transcription Factor Human genes 0.000 description 2
- 108010083123 CDX2 Transcription Factor Proteins 0.000 description 2
- 108010020382 Hepatocyte Nuclear Factor 1-alpha Proteins 0.000 description 2
- 102100022057 Hepatocyte nuclear factor 1-alpha Human genes 0.000 description 2
- 102100022054 Hepatocyte nuclear factor 4-alpha Human genes 0.000 description 2
- 101001045740 Homo sapiens Hepatocyte nuclear factor 4-alpha Proteins 0.000 description 2
- 101000994460 Homo sapiens Keratin, type I cytoskeletal 20 Proteins 0.000 description 2
- 101001133081 Homo sapiens Mucin-2 Proteins 0.000 description 2
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 2
- 102100034263 Mucin-2 Human genes 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000009396 hybridization Methods 0.000 description 2
- 230000000968 intestinal effect Effects 0.000 description 2
- 201000005202 lung cancer Diseases 0.000 description 2
- 208000020816 lung neoplasm Diseases 0.000 description 2
- 239000012188 paraffin wax Substances 0.000 description 2
- 230000001575 pathological effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 102100021569 Apoptosis regulator Bcl-2 Human genes 0.000 description 1
- 101000971171 Homo sapiens Apoptosis regulator Bcl-2 Proteins 0.000 description 1
- 108010066370 Keratin-20 Proteins 0.000 description 1
- 206010027458 Metastases to lung Diseases 0.000 description 1
- 108091034117 Oligonucleotide Proteins 0.000 description 1
- 102000002658 Thyroid Nuclear Factor 1 Human genes 0.000 description 1
- 108010057966 Thyroid Nuclear Factor 1 Proteins 0.000 description 1
- 108700025716 Tumor Suppressor Genes Proteins 0.000 description 1
- 102000044209 Tumor Suppressor Genes Human genes 0.000 description 1
- NIJJYAXOARWZEE-UHFFFAOYSA-N Valproic acid Chemical compound CCCC(C(O)=O)CCC NIJJYAXOARWZEE-UHFFFAOYSA-N 0.000 description 1
- 235000008529 Ziziphus vulgaris Nutrition 0.000 description 1
- 244000126002 Ziziphus vulgaris Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 230000004186 co-expression Effects 0.000 description 1
- 201000010989 colorectal carcinoma Diseases 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical class NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004049 epigenetic modification Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000030279 gene silencing Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 230000006607 hypermethylation Effects 0.000 description 1
- 230000004608 intestinal differentiation Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000010827 pathological analysis Methods 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 210000000115 thoracic cavity Anatomy 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/154—Methylation markers
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Genetics & Genomics (AREA)
- Zoology (AREA)
- Analytical Chemistry (AREA)
- Wood Science & Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- Molecular Biology (AREA)
- Microbiology (AREA)
- Pathology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Oncology (AREA)
- Hospice & Palliative Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种用于诊断肺肠型腺癌的甲基化标志物,属于生物医学领域。本发明通过对比肺肠型腺癌与结直肠癌肺转移的肿瘤组织的DNA甲基化测序结果,筛选出8个具有明显差异的甲基化区域,然后通过随机森林模型的方法,建立肺肠型腺癌甲基化预测模型,有效适用于对肺肠型腺癌与结直肠癌肺转移的鉴别诊断。本发明提供了一种准确、简便、经济的肺肠型腺癌筛查手段,为肺肠型腺癌个体化治疗方案选择、预后评估和延长生存期奠定了基础。
Description
技术领域
本发明涉及生物医学领域,特别涉及一种用于诊断肺肠型腺癌的甲基化标志物。
背景技术
肺肠型腺癌(pulmonary enteric adenocarcinoma,PEAC)是一种罕见的原发性浸润性肺腺癌亚型,约占肺腺癌的0.6%。1991年,肺肠型腺癌首次被Tsao和Fraser描述,直到2011年才首次被国际肺癌研究协会(IASLC)、美国胸科学会(ATS)及欧洲呼吸学会(ERS)等学会纳入官方肺腺癌分类。2015年,世界卫生组织(WHO)提出肺肠型腺癌诊断标准,被定义为主要(>50%)肠上皮样成分的原发性肺腺癌亚型,显示肠分化免疫组织化学(IHC)标志物或肠形态。2021年,WHO进一步明确肺肠型腺癌的IHC诊断标准,要求肠型腺癌的基本诊断标准包括至少一种肠道标志物(CDX-2、细胞角蛋白20(CK20)、HNF4α或MUC2)的表达,超过50%的肿瘤组织学类似于肠道形态,以及临床排除结直肠癌。理想情况下,可以包括甲状腺转录因子-1(TTF-1)或CK7的共表达。
由于肺肠型腺癌表现出肠道的组织病理特征,临床上它与结直肠癌肺转移(lungmetastatic colorectal cancer,lmCRC)十分容易混淆,对病理鉴别诊断极具挑战。对于肠型腺癌患者,若确诊时分期较早,仍有机会进行根治性治疗。相比之下,结直肠癌肺转移是一种以姑息治疗为主的晚期疾病。因此,准确的病理诊断对于个体化治疗方案选择、预后评估和延长生存期至关重要。目前,肺肠型腺癌与结直肠癌肺转移的鉴别诊断主要依靠临床病史、肿瘤部位和病理检查。典型肺腺癌IHC标志物TTF-1和CK7虽然可能有助于区分两者,但这些标志物的表达在肺肠型腺癌中经常丢失,同时也会在一小部分结直肠癌中呈阳性。相反肠道分化标志物,如CDX-2、CK20、MUC2和HNF4α等,也可能在肺肠型腺癌中表达。
DNA甲基化是基因表观遗传学修饰方式之一,其与癌症的发生发展密切相关,尤其是CpG岛区的启动子超甲基化可能会导致抑癌基因沉默,进而影响肿瘤进程。到目前为止,DNA甲基化几乎在所有癌症中均有发现,且发生在癌前或者癌症发展的早期阶段,较为稳定。且不同肿瘤呈现不同的DNA甲基化特征,具有组织特异性,可用于识别未知来源或病理相似的肿瘤亚型。因此,针对肿瘤组织的DNA甲基化特征开发出肺肠型腺癌的诊断标志物,用于区分肺肠型腺癌与结直肠癌肺转移具有临床重要意义。
发明内容
本发明为了解决现有技术中肺肠型腺癌诊断困难,缺少鉴别诊断生物标志物的问题,提供一种用于诊断肺肠型腺癌的甲基化标志物。
第一方面,本发明提供一种差异甲基化区域组,是采用以下技术方案得以实现的。
一种差异甲基化区域组,包括以下差异甲基化区域,所述差异甲基化区域在基因组上的位置为:chr2:10445001-10445100,chr6:10555801-10556300,chr7:27178801-27179600,chr17:46707701-46707900,chr17:63554501-63554600,chr17:46697501-46697700,chr19:30162701-30162800,chr21:40195001-40195200。
上述差异甲基化区域在基因组上的位置(物理位置)基于人类全基因组序列(版本号为hg19)比对确定。以上差异甲基化区域内甲基化位点的甲基化程度在肠型腺癌和结直肠癌肺转移中存在显著差异。
第二方面,本发明提供一种差异甲基化区域组的应用,是采用以下技术方案得以实现的。
一种上述差异甲基化区域组在制备诊断或辅助诊断肺肠型腺癌产品中的应用。具体可以包括以下两种应用:
(1)上述差异甲基化区域组作为甲基化标志物在制备诊断或辅助诊断肺肠型腺癌产品中的应用;
(2)检测上述差异甲基化区域组甲基化水平的物质在制备诊断或辅助诊断肺肠型腺癌产品中的应用。
进一步的,检测上述差异甲基化区域组甲基化水平的物质可以包括以下任意一种或多种方法所使用的试剂,所述方法包括:焦磷酸测序法、重亚硫酸盐转化测序法、甲基化芯片法、qPCR法、数字PCR法、二代测序法、三代测序法、全基因组甲基化测序法、DNA富集检测法、简化亚硫酸氢盐测序技术、HPLC法、MassArray、甲基化特异PCR、或两种及以上方法的组合。
进一步的,检测上述差异甲基化区域组甲基化水平的物质的检测样本为肿瘤组织DNA。
第三方面,本发明提供一种用于诊断肺肠型腺癌的甲基化标志物,是采用以下技术方案得以实现的。
一种用于诊断肺肠型腺癌的甲基化标志物,包括上述差异甲基化区域组中全部或部分差异甲基化区域。
第四方面,本发明提供一种用于诊断肺肠型腺癌的甲基化标志物的应用,是采用以下技术方案得以实现的。
检测上述甲基化标志物甲基化水平的物质在制备诊断或辅助诊断肺肠型腺癌产品中的应用。
进一步的,检测上述甲基化标志物甲基化水平的物质可以包括以下任意一种或多种方法所使用的试剂,所述方法包括:焦磷酸测序法、重亚硫酸盐转化测序法、甲基化芯片法、qPCR法、数字PCR法、二代测序法、三代测序法、全基因组甲基化测序法、DNA富集检测法、简化亚硫酸氢盐测序技术、HPLC法、MassArray、甲基化特异PCR、或两种及以上方法的组合。
进一步的,检测上述甲基化标志物甲基化水平的物质的检测样本为肿瘤组织DNA。
第五方面,本发明提供一种用于诊断肺肠型腺癌的试剂盒,是采用以下技术方案得以实现的。
一种用于诊断肺肠型腺癌的试剂盒,包括上述差异甲基化区域组中全部或部分差异甲基化区域甲基化水平的甲基化检测试剂。
进一步的,所述甲基化检测试剂包括以下任意一种或多种方法所使用的试剂,所述方法包括:焦磷酸测序法、重亚硫酸盐转化测序法、甲基化芯片法、qPCR法、数字PCR法、二代测序法、三代测序法、全基因组甲基化测序法、DNA富集检测法、简化亚硫酸氢盐测序技术、HPLC法、MassArray、甲基化特异PCR、或两种及以上方法的组合。
进一步的,所述试剂盒的检测样本为肿瘤组织DNA。
第六方面,本发明提供一种用于诊断肺肠型腺癌的试剂盒的应用,是采用以下技术方案得以实现的。
上述试剂盒在制备诊断或辅助诊断肺肠型腺癌产品中的应用。
第七方面,本发明提供一种计算机可读取介质,是采用以下技术方案得以实现的。
一种计算机可读取介质,储存有肺肠型腺癌诊断模型的构建和使用方法,所述肺肠型腺癌诊断模型的构建和使用方法,包括以下步骤:
S1.将上述差异甲基化区域组中至少一个差异甲基化区域的甲基化测序数据结果比对至参考基因组,获取每个差异甲基化区域的甲基化率数值;
S2.将各个差异甲基化区域的甲基化率数值作为自变量,肿瘤样本类别作为因变量,构建分类器,进行模型训练后,得到分类模型;再根据分类模型对待测样本的肿瘤类别进行预测。
进一步的,步骤S1中,甲基化率的计算方法为某一差异甲基化区域内所有CpG位点上发生甲基化的reads数之和除以该差异甲基化区域内所有CpG位点的总reads数。
进一步的,步骤S1中,参考基因组为人类全基因组,版本号为hg19。
进一步的,步骤S2中,分类器选用随机森林算法分类器。
进一步的,步骤S2中,肿瘤样本类别为肠型腺癌或结直肠癌肺转移。
进一步的,步骤S2中,所述分类模型是以样本是否被判断为肺肠型腺癌作为输出值。
第八方面,本发明提供一种计算机可读取介质的应用,是采用以下技术方案得以实现的。
上述计算机可读取介质在制备诊断或辅助诊断肺肠型腺癌产品中的应用。
第九方面,本发明提供一种用于诊断肺肠型腺癌的系统,是采用以下技术方案得以实现的。
一种用于诊断肺肠型腺癌的系统,包括
测序模块,用于从组织样本中提取gDNA并进行甲基化测序,获得上述差异甲基化区域组中至少一个差异甲基化区域的测序数据结果;
比对模块,用于将测序数据结果比对至参考基因组,获取每个差异甲基化区域的甲基化率数值;
判定模块,用于将各个差异甲基化区域的甲基化率数值作为自变量,肿瘤样本类别作为因变量,构建分类器,进行模型训练后,得到分类模型;再根据分类模型对待测样本的肿瘤类别进行预测。
进一步的,测序模块中,甲基化测序方法包括焦磷酸测序法、重亚硫酸盐转化测序法、甲基化芯片法、qPCR法、数字PCR法、二代测序法、三代测序法、全基因组甲基化测序法、DNA富集检测法、简化亚硫酸氢盐测序技术、HPLC法、MassArray、甲基化特异PCR(MSP)、或两种及以上方法的组合。
进一步的,参考基因组为人类全基因组,版本号为hg19。
进一步的,所述比对模块中,甲基化率的计算方法为某一差异甲基化区域内所有CpG位点上发生甲基化的reads数之和除以该差异甲基化区域内所有CpG位点的总reads数。
进一步的,所述判定模块中,分类器选用随机森林算法分类器。
进一步的,判定模块中,因变量为肠型腺癌或结直肠癌肺转移。
进一步的,判定模块的输出值为样本是否被判断为肺肠型腺癌。
第十方面,本发明提供一种用于诊断肺肠型腺癌的系统的应用,是采用以下技术方案得以实现的。
上述系统在制备诊断或辅助诊断肺肠型腺癌产品中的应用。
第十一方面,本发明提供一种肺肠型腺癌的诊断方法,是采用以下技术方案得以实现的。
一种肺肠型腺癌的诊断方法,包括以下步骤:
S1:获取肺肠型腺癌及结直肠癌肺转移肿瘤组织样本,提取gDNA,构建文库及重亚硫酸盐转化,获得扩增文库产物并进行甲基化测序;
S2:将上述差异甲基化区域组的测序数据结果对比至参考基因组,获取每个差异甲基化区域的甲基化率数值;
S3:将各个差异甲基化区域的甲基化率数值作为自变量,肿瘤样本类别作为因变量,构建分类器,进行模型的训练后,得到分类模型;再根据分类模型对待测样本的肿瘤类别进行预测。
进一步的,步骤S1中,甲基化测序方法包括焦磷酸测序法、重亚硫酸盐转化测序法、甲基化芯片法、qPCR法、数字PCR法、二代测序法、三代测序法、全基因组甲基化测序法、DNA富集检测法、简化亚硫酸氢盐测序技术、HPLC法、MassArray、甲基化特异PCR(MSP)、或两种及以上方法的组合。
进一步的,步骤S2中,参考基因组为人类全基因组,版本号为hg19。
进一步的,步骤S2中,甲基化率的计算方法为某一差异甲基化区域内所有CpG位点上发生甲基化的reads数之和除以该差异甲基化区域内所有CpG位点的总reads数。
进一步的,步骤S3中,分类器选用随机森林算法分类器。
进一步的,步骤S3中,肿瘤样本类别为肠型腺癌或结直肠癌肺转移。
进一步的,步骤S3中,所述分类模型是以样本是否被判断为肺肠型腺癌作为输出值。
本申请具有以下有益效果。
本申请对肿瘤样本进行靶向甲基化测序,再通过对高通量测序结果中肺肠型腺癌和结直肠癌肺转移的差异甲基化区域(DMR)进行分析、构建模型,实现了对肺肠型腺癌鉴别诊断的目的。本申请构建的肺肠型腺癌甲基化预测模型能够有效区分肺肠型腺癌和结直肠癌肺转移,具有通量高、检测特异性和敏感性高的优点,具有广阔的临床应用前景。
附图说明
图1是本发明的流程图;
图2是本发明肠型腺癌和结直肠癌肺转移的204个DMR通过非监督性聚类区分两种癌种的结果图(其中,A.非监督性聚类结果图;B.主成分分析PCA热图);
图3是本发明使用递归特征消除方法及最小绝对收缩和选择算子回归法进行最佳特征子集筛选的结果图;
图4是本发明筛选出的8个DMR最佳特征子集的非监督性聚类结果图(其中,A.非监督性聚类结果图;B.主成分分析PCA热图);
图5是本发明8个DMR作为甲基化标记物在训练集的结果混淆矩阵、受试者工作特征曲线图;
图6是本发明8个DMR作为甲基化标记物在测试集的结果混淆矩阵、受试者工作特征曲线图;
图7是本发明8个DMR作为甲基化标记物在验证集的结果混淆矩阵、受试者工作特征曲线图;
图8是本发明8个DMR作为甲基化标记物在公共数据库数据中的结果混淆矩阵、受试者工作特征曲线图。
具体实施方式
如图1所示,本发明首先对48例肺肠型腺癌患者、36例结直肠癌肺转移患者的基因组DNA进行提取,得到84个基因组DNA;
其次,将得到的基因组DNA进行打断、亚硫酸氢盐转化以及杂交捕获和扩增,得到用于靶向甲基化测序的样本;
再次,采用Illumina公司Hiseq4000测序仪进行靶向甲基化测序,并对测序结果进行分析比对,得到每个CpG位点甲基化的reads数和未甲基化的reads数,再通过甲基化软件Methylkit鉴定差异甲基化区域(DMR),最终计算得到每个肿瘤样本中的每个DMR区域的甲基化率;
随后,通过对比肠型腺癌和结直肠癌肺转移肿瘤样本的甲基化率,初步筛选得到204个具有显著性差异的DMR;再将得到的204个DMR区域采用两种特征选择方法(RFE和LASSO)进行进一步筛选,最终得到8个最优DMR。
最后,采用训练集、测试集和验证集对上述8个DMR作为鉴别肺肠型腺癌和结直肠癌肺转移的甲基化标记物的诊断效能进行评估与验证。
以下实施例均为本发明的较佳实施例,并非依此限制本发明的保护范围。下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的试验材料,如无特殊说明,均为自常规生化试剂商店购买得到的。
实施例1 8个用于肺肠型腺癌筛查的DMR的筛选
一、构建DNA甲基化测序文库
1.研究对象
本发明回顾性收集了来自中国医学科学院肿瘤医院的石蜡包埋标本,包括肺肠型腺癌共31例,结直肠癌肺转移共29例,按照2:1进行划分训练集与测试集。外部验证集为前瞻性收集,来自武汉大学人民医院和医科院肿瘤医院深圳医院的石蜡包埋标本,包括肺肠型腺癌共17例,结直肠癌肺转移7例。具体信息参见表1。
表1数据集样本类型及数量
另外,由于缺少基于DNA甲基化测序技术的肺肠型腺癌公共数据库数据,本发明在验证分类器的性能时,也使用并评估了Gene Expression Omnibus(GEO)数据库中使用Illumina Infinium HumanMethylation450 BeadChip甲基化芯片检测的14例肠型腺癌和4例结直肠癌肺转移样本的甲基化特征。
2.文库构建
对于表1中所有样本,首先根据QIAamp DNA FFPE Tissue Kit试剂盒说明书中的记载,从组织样本中提取基因组DNA(gDNA);再使用M220超声破碎仪打断提取得到的gDNA,并进行末端修补及添加碱基A尾;随后按照针对Illumina平台的Accel-NGS Methyl-SeqDNA Library Kit(Swift Biosciences)试剂盒要求,构建亚硫酸氢盐转化的DNA文库:使用EZ DNA Methylation-Lightning Kit(Zymo Research)对未甲基化的DNA进行亚硫酸氢盐处理。转换后的样本,使用Methyl-seq dual indexing kit(Swift Biosciences)试剂盒提供的接头,将带有甲基化胞嘧啶的接头连接到每个DNA片段上;并使用SPRIselect beads(Beckman Coulter)磁珠进行纯化。
3.靶向甲基化测序
对上述方法得到的DNA甲基化测序文库,使用罗氏SeqCap Epi CpGiantEnrichment Kit靶向甲基化试剂盒的SeqCap Epi CpGiant探针池杂交富集(靶向目标超过550万个CpG位点),并使用罗氏SeqCap EZ pure capture bead kit进行纯化,然后根据罗氏SeqCap EZ HyperCap说明书要求,使用LM-PCR寡核苷酸扩增捕获后文库;随后采用Illumina公司Hiseq4000测序仪进行靶向甲基化测序。
二、计算肿瘤样本中DMR区域的甲基化率
测序完成下机后,使用bcl2fastq生成fastq文件。通过Trimmomatic软件去除接头和低质量序列,得到的cleanData使用bismark进行基因组(hg19)的比对。比对后得到每个CpG位点甲基化的reads数和未甲基化的reads数。然后使用甲基化软件Methylkit鉴定差异甲基化区域(differential methylation regions,DMRs)。在一个DMR区域内含有一个或多个CpG位点,需将在这个DMR区域内所有CpG位点甲基化reads数之和除以在这个DMR区间内所有CpG位点甲基化与未甲基化总reads数之和,得到DMR的甲基化率。通过以上的测序和数据处理步骤,可以获得每个肿瘤样本中的每个DMR区域的甲基化率。
三、差异甲基化区域的筛选
通过对比训练集中21例肠型腺癌和19例结直肠癌肺转移肿瘤样本的甲基化率,并使用测试集20例样本进行测试,依照最小甲基化差异0.2,错误发现率(FDR)q值小于0.05作为标准,对DMR进行了预筛选并过滤掉测序深度低且读数质量低的DMR。最终筛选出有显著性差异的DMR共204个,作为特征选择的候选。图2显示了候选池的204个DMR在非监督聚类方法下(主成分分析PCA和基于欧几里得距离的热图聚类)能够初步将肺肠型腺癌和结直肠癌肺转移进行区分。
为了对上述筛选得到的204个DMR进行进一步筛选,以得到最佳DMR组合,本申请采用两种特征选择方法。
第一种是基于随机森林(RF)算法的递归特征消除方法(recursive featureelimination,RFE),结合10倍交叉验证选择子集的最佳大小。特征变量的总体排名通过重复200次的总重要性排名来计算;筛选时,首先将全部204个DMR区域按照对分类器贡献程度由高到低排序,再按照这个排名逐个取前n个作为新的输入向量进行预测性能评估。最终筛选出模型预测准确性最高的且使用个数最少的DMR子集数。通过RFE方法得到11个DMR作为最佳子集(参见图3A)。
第二种是最小绝对收缩和选择算子回归方式(Least absolute shrinkage andselection operator,LASSO)。根据10倍交叉验证得到一个标准误差内的最小lambda值作为特征选择的标准。该方法保留了8个DMR(参见图3B)。LASSO筛选到的8个DMR都包含在RFE方式筛选到的11个DMR中。由此,本申请构建了一个包含8个DMRs的诊断模型,8个最优DMRs的基因组位置及碱基序列如表2所示。图4呈现了基于8个DMR特征的样本非监督性聚类结果。
表2.8个DMR的基因组位置及长度
注:表中的物理位置是基于人类全基因组序列(版本号为hg19)比对确定。CpGshore是CpG岛(CpG island)两边分别向外延伸2kb的范围,CpG shelf是CpG shore两边分别再向外延伸2kb的范围。
实施例2 8个DMRs作为鉴别肺肠型腺癌和结直肠癌肺转移的甲基化标记物的诊断效能的评估
采用上述8个DMRs作为鉴别肺肠型腺癌和结直肠癌肺转移的甲基化标记物,用随机森林算法建立诊断模型,对训练集、测试集和验证集的肿瘤样本的肿瘤来源进行判断,分类器的性能通过敏感性、特异性和整体准确性进行评估,并通过混淆矩阵和受试者工作特征曲线(ROC)和相关曲线下面积(AUC)呈现,实验结果见表3和图5-8。
表3.分类器的诊断效能评估
如图5-8及表3所示,训练集能够达到100%准确(敏感性100%,特异性100%),AUC为1;测试集达到95%准确(敏感性100%,特异性90%),AUC为0.98;验证集达到100%准确(敏感性100%,特异性100%),AUC为1;基于甲基化芯片检测(非甲基化测序技术)的GEO数据集达到94%准确(敏感性100%,特异性75%),AUC为0.964。以上实验数据表明,本申请分类器在区分肺肠型腺癌和结直肠癌肺转移的表现稳定。
Claims (10)
1.一种差异甲基化区域组,其特征在于:包括以下差异甲基化区域,所述差异甲基化区域在基因组上的位置为:chr2:10445001-10445100,chr6:10555801-10556300,chr7:27178801-27179600,chr17:46707701-46707900,chr17:63554501-63554600,chr17:46697501-46697700,chr19:30162701-30162800,chr21:40195001-40195200。
2.一种用于诊断肺肠型腺癌的甲基化标志物,其特征在于:包括权利要求1所述差异甲基化区域组中全部或部分差异甲基化区域。
3.一种用于诊断肺肠型腺癌的试剂盒,其特征在于:包括检测权利要求1所述差异甲基化区域组中全部或部分差异甲基化区域甲基化水平的甲基化检测试剂。
4.根据权利要求3所述的一种用于诊断肺肠型腺癌的试剂盒,其特征在于:所述甲基化检测试剂包括以下任意一种或多种方法所使用的试剂,所述方法包括:焦磷酸测序法、重亚硫酸盐转化测序法、甲基化芯片法、qPCR法、数字PCR法、二代测序法、三代测序法、全基因组甲基化测序法、DNA富集检测法、简化亚硫酸氢盐测序技术、HPLC法、MassArray、甲基化特异PCR、或两种及以上方法的组合。
5.根据权利要求3或4所述的一种用于诊断肺肠型腺癌的试剂盒,其特征在于:所述试剂盒的检测样本为肿瘤组织DNA。
6.一种计算机可读取介质,其特征在于:储存有肺肠型腺癌诊断模型的构建和使用方法,所述肺肠型腺癌诊断模型的构建和使用方法,包括以下步骤:
S1.将权利要求1所述差异甲基化区域组中至少一个差异甲基化区域的甲基化测序数据结果比对至参考基因组,获取每个差异甲基化区域的甲基化率数值;
S2.将各个差异甲基化区域的甲基化率数值作为自变量,肿瘤样本类别作为因变量,构建分类器,进行模型训练后,得到分类模型;再根据分类模型对待测样本的肿瘤类别进行预测。
7.一种用于诊断肺肠型腺癌的系统,其特征在于:包括
测序模块,用于从组织样本中提取gDNA并进行甲基化测序,获得权利要求1所述差异甲基化区域组中至少一个差异甲基化区域的测序数据结果;
比对模块,用于将测序数据结果比对至参考基因组,获取每个差异甲基化区域的甲基化率数值;
判定模块,用于将各个差异甲基化区域的甲基化率数值作为自变量,肿瘤样本类别作为因变量,构建分类器,进行模型训练后,得到分类模型;再根据分类模型对待测样本的肿瘤类别进行预测。
8.根据权利要求7所述的一种用于诊断肺肠型腺癌的系统,其特征在于:所述比对模块中,甲基化率的计算方法为某一差异甲基化区域内所有CpG位点上发生甲基化的reads数之和除以该差异甲基化区域内所有CpG位点的总reads数。
9.根据权利要求7或8所述的一种用于诊断肺肠型腺癌的系统,其特征在于:所述判定模块中,分类器选用随机森林算法分类器。
10.权利要求1所述差异甲基化区域组、权利要求2所述甲基化标志物、权利要求3所述试剂盒、权利要求6所述计算机可读取介质或权利要求7所述用于诊断肺肠型腺癌的系统在制备诊断或辅助诊断肺肠型腺癌产品中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210848321.1A CN115094142B (zh) | 2022-07-19 | 2022-07-19 | 用于诊断肺肠型腺癌的甲基化标志物 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210848321.1A CN115094142B (zh) | 2022-07-19 | 2022-07-19 | 用于诊断肺肠型腺癌的甲基化标志物 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115094142A true CN115094142A (zh) | 2022-09-23 |
CN115094142B CN115094142B (zh) | 2024-05-28 |
Family
ID=83298647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210848321.1A Active CN115094142B (zh) | 2022-07-19 | 2022-07-19 | 用于诊断肺肠型腺癌的甲基化标志物 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115094142B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116344027A (zh) * | 2023-02-14 | 2023-06-27 | 浙江大学 | 基于外周血循环微核糖核酸及蛋白的肠腺瘤腺癌诊断方法 |
CN117316289A (zh) * | 2023-09-06 | 2023-12-29 | 复旦大学附属华山医院 | 一种中枢神经系统肿瘤的甲基化测序分型方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2393325A1 (en) * | 1999-12-03 | 2001-06-07 | Consejo Superior De Investigaciones Cientificas | Infectious clones |
WO2003035898A1 (fr) * | 2001-10-22 | 2003-05-01 | Daiichi Pharmaceutical Co., Ltd. | Methode de criblage d'un medicament agissant sur la paroi cellulaire |
CN1980647A (zh) * | 2004-04-30 | 2007-06-13 | 托波塔吉特德国股份公司 | 包含组蛋白脱乙酰酶抑制剂的制剂 |
WO2019147779A1 (en) * | 2018-01-24 | 2019-08-01 | Genentech, Inc. | Diagnostic and therapeutic methods for the treatment of rheumatoid arthritis (ra) |
CN111916154A (zh) * | 2020-07-22 | 2020-11-10 | 中国医学科学院肿瘤医院 | 一种预测肠癌肝转移的诊断标志物及用途 |
CN112941180A (zh) * | 2021-02-25 | 2021-06-11 | 浙江大学医学院附属妇产科医院 | 一组肺癌dna甲基化分子标志物及其在制备用于肺癌早期诊断试剂盒中的应用 |
CN114736968A (zh) * | 2022-06-13 | 2022-07-12 | 南京世和医疗器械有限公司 | 血浆游离dna甲基化标志物在肺癌早筛中的用途以及肺癌早筛装置 |
-
2022
- 2022-07-19 CN CN202210848321.1A patent/CN115094142B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2393325A1 (en) * | 1999-12-03 | 2001-06-07 | Consejo Superior De Investigaciones Cientificas | Infectious clones |
WO2003035898A1 (fr) * | 2001-10-22 | 2003-05-01 | Daiichi Pharmaceutical Co., Ltd. | Methode de criblage d'un medicament agissant sur la paroi cellulaire |
CN1980647A (zh) * | 2004-04-30 | 2007-06-13 | 托波塔吉特德国股份公司 | 包含组蛋白脱乙酰酶抑制剂的制剂 |
WO2019147779A1 (en) * | 2018-01-24 | 2019-08-01 | Genentech, Inc. | Diagnostic and therapeutic methods for the treatment of rheumatoid arthritis (ra) |
CN111630182A (zh) * | 2018-01-24 | 2020-09-04 | 基因泰克公司 | 用于治疗类风湿性关节炎(ra)的诊断和治疗方法 |
CN111916154A (zh) * | 2020-07-22 | 2020-11-10 | 中国医学科学院肿瘤医院 | 一种预测肠癌肝转移的诊断标志物及用途 |
CN112941180A (zh) * | 2021-02-25 | 2021-06-11 | 浙江大学医学院附属妇产科医院 | 一组肺癌dna甲基化分子标志物及其在制备用于肺癌早期诊断试剂盒中的应用 |
CN114736968A (zh) * | 2022-06-13 | 2022-07-12 | 南京世和医疗器械有限公司 | 血浆游离dna甲基化标志物在肺癌早筛中的用途以及肺癌早筛装置 |
Non-Patent Citations (3)
Title |
---|
张建波;宋魏;王媛媛;孙淼淼;: "肺转移性肿瘤113例临床病理学观察", 心肺血管病杂志, no. 12, 26 December 2017 (2017-12-26), pages 19 - 25 * |
徐新娟;丁文柏;盛德乔;: "肿瘤表观遗传学研究的新视点-WIF-1基因的甲基化", 现代肿瘤医学, no. 04, 25 April 2008 (2008-04-25), pages 78 - 86 * |
林莉;许春伟;: "肺肠型腺癌6例诊疗分析并文献复习", 临床与病理杂志, no. 08, 28 August 2016 (2016-08-28), pages 1 - 8 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116344027A (zh) * | 2023-02-14 | 2023-06-27 | 浙江大学 | 基于外周血循环微核糖核酸及蛋白的肠腺瘤腺癌诊断方法 |
CN116344027B (zh) * | 2023-02-14 | 2023-09-26 | 浙江大学 | 基于外周血循环微核糖核酸及蛋白的肠腺瘤腺癌诊断方法 |
CN117316289A (zh) * | 2023-09-06 | 2023-12-29 | 复旦大学附属华山医院 | 一种中枢神经系统肿瘤的甲基化测序分型方法及系统 |
CN117316289B (zh) * | 2023-09-06 | 2024-04-26 | 复旦大学附属华山医院 | 一种中枢神经系统肿瘤的甲基化测序分型方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115094142B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115094142B (zh) | 用于诊断肺肠型腺癌的甲基化标志物 | |
CN110760579B (zh) | 扩增游离dna的试剂以及扩增方法 | |
CN112301130B (zh) | 一种肺癌早期检测的标志物、试剂盒及方法 | |
CN114045345B (zh) | 基于游离dna的基因组癌变信息检测系统和检测方法 | |
CN106156543B (zh) | 一种肿瘤ctDNA信息统计方法 | |
CN113454219A (zh) | 用于肝癌检测和诊断的甲基化标志物 | |
CN111910004A (zh) | cfDNA在早期乳腺癌无创诊断中的应用 | |
KR102029393B1 (ko) | 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도 | |
CN109830264B (zh) | 肿瘤患者基于甲基化位点进行分类的方法 | |
AU2018305609B2 (en) | Enhancement of cancer screening using cell-free viral nucleic acids | |
CN112941180A (zh) | 一组肺癌dna甲基化分子标志物及其在制备用于肺癌早期诊断试剂盒中的应用 | |
WO2022161076A1 (zh) | 用于肺结节良恶性检测的甲基化标记物或其组合及应用 | |
US20130122499A1 (en) | System and method of detecting local copy number variation in dna samples | |
CN113528672B (zh) | 用于膀胱癌早期筛查的引物和探针组合、试剂盒及应用 | |
CN115820860A (zh) | 基于增强子甲基化差异的非小细胞肺癌标志物筛选方法及其标志物和应用 | |
CN114974417A (zh) | 一种甲基化测序方法和装置 | |
CN114182022A (zh) | 一种基于cfDNA碱基突变频率分布检测肝癌特异突变的方法 | |
CN113811621A (zh) | 确定rcc亚型的方法 | |
CN110724743A (zh) | 人血液中结直肠癌诊断相关的甲基化生物标记物及其应用 | |
CN113667757B (zh) | 用于前列腺癌早期筛查的生物标志物组合、试剂盒及应用 | |
CN115831355A (zh) | 多癌种wgs的肿瘤早期筛查方法 | |
CN113817822B (zh) | 一种基于甲基化检测的肿瘤诊断试剂盒及其应用 | |
CN104845992B (zh) | 前列腺癌的生物学标志物、治疗靶点及其用途 | |
CN114045337A (zh) | 基于肠道微生物的胆管癌非侵入性标志物筛选、分析方法及应用 | |
CN114196755B (zh) | 用于诊断受试者宫颈病变的组合物及用途 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |