CN111564177A - 基于dna甲基化的早期非小细胞肺癌复发模型构建方法 - Google Patents
基于dna甲基化的早期非小细胞肺癌复发模型构建方法 Download PDFInfo
- Publication number
- CN111564177A CN111564177A CN202010443336.0A CN202010443336A CN111564177A CN 111564177 A CN111564177 A CN 111564177A CN 202010443336 A CN202010443336 A CN 202010443336A CN 111564177 A CN111564177 A CN 111564177A
- Authority
- CN
- China
- Prior art keywords
- methylation
- model
- score
- lung cancer
- small cell
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000002154 non-small cell lung carcinoma Diseases 0.000 title claims abstract description 44
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 title claims abstract description 44
- 230000007067 DNA methylation Effects 0.000 title claims abstract description 13
- 238000010276 construction Methods 0.000 title claims abstract description 6
- 230000011987 methylation Effects 0.000 claims abstract description 115
- 238000007069 methylation reaction Methods 0.000 claims abstract description 115
- 239000000523 sample Substances 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims description 17
- 206010028980 Neoplasm Diseases 0.000 claims description 12
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012164 methylation sequencing Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 230000002596 correlated effect Effects 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 claims description 3
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 claims description 2
- 108090000623 proteins and genes Proteins 0.000 description 8
- 201000011510 cancer Diseases 0.000 description 7
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 5
- 201000005202 lung cancer Diseases 0.000 description 5
- 208000020816 lung neoplasm Diseases 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 108020004414 DNA Proteins 0.000 description 3
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 3
- 239000003623 enhancer Substances 0.000 description 3
- 230000000391 smoking effect Effects 0.000 description 3
- 108091023040 Transcription factor Proteins 0.000 description 2
- 102000040945 Transcription factor Human genes 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 230000008595 infiltration Effects 0.000 description 2
- 238000001764 infiltration Methods 0.000 description 2
- 238000011248 postoperative chemotherapy Methods 0.000 description 2
- 230000002980 postoperative effect Effects 0.000 description 2
- 238000002271 resection Methods 0.000 description 2
- 230000004083 survival effect Effects 0.000 description 2
- 102100033792 ALX homeobox protein 1 Human genes 0.000 description 1
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 description 1
- 102100034523 Histone H4 Human genes 0.000 description 1
- 102100021090 Homeobox protein Hox-A9 Human genes 0.000 description 1
- 101000779615 Homo sapiens ALX homeobox protein 1 Proteins 0.000 description 1
- 101001067880 Homo sapiens Histone H4 Proteins 0.000 description 1
- 101000603407 Homo sapiens Neuropeptides B/W receptor type 1 Proteins 0.000 description 1
- 101000601991 Homo sapiens Protocadherin gamma-B6 Proteins 0.000 description 1
- 238000000585 Mann–Whitney U test Methods 0.000 description 1
- 102100038847 Neuropeptides B/W receptor type 1 Human genes 0.000 description 1
- 102100037542 Protocadherin gamma-B6 Human genes 0.000 description 1
- 238000009098 adjuvant therapy Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 238000001369 bisulfite sequencing Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004049 epigenetic modification Effects 0.000 description 1
- 108010027263 homeobox protein HOXA9 Proteins 0.000 description 1
- 231100000518 lethal Toxicity 0.000 description 1
- 230000001665 lethal effect Effects 0.000 description 1
- 201000005249 lung adenocarcinoma Diseases 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/154—Methylation markers
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Theoretical Computer Science (AREA)
- Organic Chemistry (AREA)
- Evolutionary Biology (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Pathology (AREA)
- Public Health (AREA)
- Analytical Chemistry (AREA)
- Zoology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Wood Science & Technology (AREA)
- Immunology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Physiology (AREA)
- Primary Health Care (AREA)
- Hospice & Palliative Care (AREA)
- Software Systems (AREA)
- Oncology (AREA)
- Microbiology (AREA)
- Evolutionary Computation (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
Abstract
本发明涉及生物医学领域,公开了一种基于DNA甲基化的早期非小细胞肺癌复发模型构建方法,用以解决目前非小细胞肺癌复发模型对非小细胞肺癌复发预测不合理的问题。本发明针对甲基化位点,搜索并合并其中的相关性高的甲基化位点,形成相应的甲基化区间;再根据甲基化芯片的类型,挑选出能够被芯片探针检测的甲基化位点/区间作为训练数据建立包含1个甲基化区间和8个甲基化位点的甲基化风险得分模型,即为非小细胞肺癌复发模型;所述甲基化风险得分模型具有多个得分阈值,这些得分阈值可将甲基化风险得分模型计算出来的得分对应到高得分组、中得分组、低得分组中的一组。本发明适用于非小细胞肺癌复发预测。
Description
技术领域
本发明涉及生物医学领域,特别涉及基于DNA甲基化的早期非小细胞肺癌复发模型构建方法。
背景技术
非小细胞肺癌是世界范围内的头号致死癌症。低剂量CT能够在人群中筛选出早期肺癌患者,对这些患者进行手术切除和术后辅助治疗,可以显著提高其整体生存率,但仍然有超过25%的早期(T2N0M0)患者会经历术后复发,而术后复发是预后较差的主要原因。考虑到肺癌存在广泛的异质性,在早期肺癌患者中精确识别其中的高复发人群是重要的科学问题。最新的美国国家综合癌症网络(National Comprehensive Cancer Network,NCCN)指南推荐6个高风险因素,包括肿瘤分化状态、楔形切除术和胸膜浸润等。然而,这些高风险因素的预测效能不足,亟须新的有效模型用于预测早期肺癌复发。
DNA甲基化是一种表观遗传学修饰,其信号改变与癌症的发生发展密切相关。Sandoval等人开发了一个基于HumanMethylation450芯片(后简称为450K)的非小细胞肺癌复发模型,用于预测I期非小细胞肺癌肺(non-small-cell lung cancer,NSCLC)患者的复发风险。该模型涉及5个基因,分别为HIST1H4F,PCDHGB6,NPBWR1,ALX1和HOXA9,这5个基因的甲基化程度用10个探针的beta值表示,分别为:cg10723962,cg22723502,cg12260798,cg16104915,cg12600174,cg18507379,cg18617005,cg26205771,cg07770968和cg14996220。对于一个基因对应多个探针的情况,用这些探针beta值的均值代表。在检测样本中,对于每一个基因,若其甲基化的beta值不小于0.4,认为其发生甲基化,否则认为该基因未发生甲基化。若该样本中这五个基因均未发生甲基化,或仅一个基因发生甲基化,认为该样本为低风险样本,否则为高风险样本。该非小细胞肺癌复发模型存在以下问题:
1.该模型在外部数据的效能不足。当把模型应用于目前常见癌症数据库(如TheCancer Genome Atlas)的早期肺腺癌样本中,基于该模型不具有区分生存的效能(P=0.28)。
2.该模型的部分探针不能被简化亚硫酸氢盐测序(Reduced RepresentationBisulfite Sequencing,RRBS)所覆盖,即难以应用于RRBS检测平台。
3.该模型没有对阈值(0.4)附近的分类不清情况进行有效处理,如特定基因在第一个样本中的beta值是0.399,在第二个样本beta值是0.401,二者beta值差异不大(仅0.002),但前者被认为是甲基化,而后者被认为是非甲基化,这显然是不合理的
发明内容
本发明要解决的技术问题是:提供一种基于DNA甲基化的早期非小细胞肺癌复发模型构建方法,用以解决目前非小细胞肺癌复发模型对非小细胞肺癌复发预测不合理的问题。
为解决上述问题,本发明采用的技术方案是:基于DNA甲基化的早期非小细胞肺癌复发模型构建方法,包括如下步骤:
步骤1:收集早期的非小细胞肺癌病例,并对病例患者的肿瘤以及癌旁正常组织提取DNA,并进行甲基化测序;
步骤2:对步骤1的测序数据,计算其甲基化位点的覆盖度和beta值;
步骤3:针对甲基化位点,搜索并合并其中的相关性高的甲基化位点,形成相应的甲基化区间;
步骤4:根据甲基化芯片的类型,挑选出能够被芯片探针检测的甲基化位点/区间作为训练数据建立甲基化风险得分模型,即为非小细胞肺癌复发模型;所述甲基化风险得分模型具有多个得分阈值,这些得分阈值可将甲基化风险得分模型计算出来的得分对应到高得分组、中得分组、低得分组中的一组;
甲基化风险得分模型的得分计算公式如下:
ModelScore=1/(1+exp(-0.174+βchr10:101238903-101238917×1.372+βchr18:22172331×0.031+
βchr6:10421227×0.503+βchr6:158516326×0.532+βchr9:23820981×1.131-βchr1:58576441×1.237-
βchr11:9759297×1.137-βchr17:72590998×0.359-βchr7:1587474×0.321))
其中,βchr10:101238903-101238917、βchr18:22172331、βchr6:10421227、βchr6:158516326、βchr9:23820981、βchr1:58576441、βchr11:9759297、βchr17:72590998、βchr7:1587474分别是甲基化区间chr10:101238903-101238917以及甲基化位点chr18:22172331、chr6:10421227、chr6:158516326、chr9:23820981、chr1:58576441、chr11:9759297、chr17:72590998、chr7:1587474的beta值,ModelScore是模型的得分。
进一步的,步骤1可采用简化亚硫酸氢盐进行甲基化测序。如果为了降低成本,针采用步骤1采用靶向测序也是可以的。
进一步的,步骤2计算测序数据的甲基化位点的覆盖度和beta值之后,为了排除覆盖度不足的位点,可排除至少1/4样本中覆盖度小于10X的甲基化位点。
步骤3在合并高度相关的甲基化位点时,理论上很多其他方法也是可行的,比如滑窗法或者寻找断点的方法(circular binary segment等)。本发明可通过贪婪算法合并高度相关的甲基化位点,对于每一个甲基化位点,以该位点为种子进行贪婪搜索,分别将种子位点左侧和右侧最邻近的甲基化位点与种子位点合并,形成候选甲基化区间,分别计算两个候选甲基化区间的平均beta值和种子位点beta值在样本中的皮尔森相关系数,若二者中至少一个大于相关性阈值,则选取相关性更高的甲基化区间作为下一次搜索的种子区间,以此类推,反复迭代,直至左侧和右侧的相关系数均小于相关性阈值,搜索停止,最后形成最终的甲基化区间。
进一步的,通过随机矩阵的方式,申请人评估过0.3,0.5和0.7三个相关性阈值,发现0.3和0.5的假阳性较高,所以以上的相关性阈值优选为0.7。另外,在RRBS中相似性大于0.7的区域,在450k芯片的相关性也非常高。
具体的,所述的甲基化芯片类型包括:RRBS,WGBS,450K或850K芯片。
具体的,步骤4中所述显著差异指:Beta值差异不小于0.1,显著性P<0.05。
具体的,所述甲基化风险得分模型的多个得分阈值可利用高斯混合模型拟合甲基化风险得分模型的得分分布,并利用期望最大化求解模型参数,通过网格搜索优化得到。由实施例可知,所述甲基化风险得分模型的得分阈值可包括0.3和0.6,高得分组≥0.6,中得分组=0.3~0.6,低得分组≤0.3。这里给出了最优模型阈值(≥0.6为高风险组,≤0.3为低风险组),但不排除其他阈值的预测效能,即相同模型的不同阈值能够达到相同的目的。
本发明的有益效果如下:
1.本发明建立的模型针对早期(I/II期)非小细胞肺癌的患者,而现有大多数模型用所有肺癌样本进行建模,其模型不一定适用于早期患者。
2.本发明建立模型的训练数据用的是8版TNM分期中的IB期和IIA期,样本的均一性更好。
3.模型构建时同时考虑单个甲基化位点和多甲基化位点构成的甲基化区域,对于检测单位点甲基化常见的低敏感性和高噪音的限制,有更强的耐受性。
4.由表1可知,建立的模型既包含基因启动子区域,还包含增强子和转录因子结合位点;而其他基于甲基化的模型大多仅包含启动子区域。
5.建立的模型可应用于多种甲基化检测平台,比如RRBS、WGBS、450K和850K芯片平台,而大多数现有模型仅能应用于一种甲基化检测平台。
6.模型构建时,本发明利用了高斯混合模型(Gaussian mixture model,GMM)拟合模型的得分分布,在考虑样本覆盖度的情况下,允许存在得分中间组,即不确定组,能够解决得分在阈值附近分类不清的问题,从而降低错误分组的可能性。
7.建立的模型在多套外部数据中能得到良好的验证。
附图说明
图1是实施例的流程图。
图2是贪婪搜索的原理图。
图3是ENCODE 4个细胞系的H3K27ac信号图。
图4是模型得分的分布图。
图5是训练数据的KM曲线图。
图6是模型在外部数据GSE39279中的KM曲线图。
图7是模型在外部数据TCGA中的KM曲线图。
图8是实施例设计的列线图。
具体实施方式
为了解决目前非小细胞肺癌复发模型对非小细胞肺癌复发预测不合理的问题,本发明提供了一种基于DNA甲基化的早期非小细胞肺癌复发预测方法,主要包括建立非小细胞肺癌复发模型和使用非小细胞肺癌复发模型预测。
一、建立非小细胞肺癌复发模型
1、收集早期的非小细胞肺癌病例,并对病例患者的肿瘤以及癌旁正常组织提取DNA,并进行甲基化测序;
2、对步骤1的测序数据,计算其甲基化位点的覆盖度和beta值;
3、针对甲基化位点,搜索并合并其中的相关性高的甲基化位点,形成相应的甲基化区间;
4、根据甲基化芯片的类型,挑选出能够被芯片探针检测的甲基化位点/区间作为训练数据建立甲基化风险得分模型,即为非小细胞肺癌复发模型;所述甲基化风险得分模型具有多个得分阈值,这些得分阈值可将甲基化风险得分模型计算出来的得分对应到高得分组、中得分组、低得分组中的一组;
甲基化风险得分模型的得分计算公式如下:
ModelScore=1/(1+exp(-0.174+βchr10:101238903-101238917×1.372+βchr18:22172331×0.031+
βchr6:10421227×0.503+βchr6:158516326×0.532+βchr9:23820981×1.131-βchr1:58576441×1.237-
βchr11:9759297×1.137-βchr17:72590998×0.359-βchr7:1587474×0.321))
其中,βchr10:101238903-101238917、βchr18:22172331、βchr6:10421227、βchr6:158516326、βchr9:23820981、βchr1:58576441、βchr11:9759297、βchr17:72590998、βchr7:1587474分别是甲基化区间chr10:101238903-101238917以及甲基化位点chr18:22172331、chr6:10421227、chr6:158516326、chr9:23820981、chr1:58576441、chr11:9759297、chr17:72590998、chr7:1587474的beta值,ModelScore是模型的得分。
本发明在确定所述甲基化风险得分模型的多个得分阈值时,可利用高斯混合模型拟合甲基化风险得分模型的得分分布,并利用期望最大化求解模型参数,通过网格搜索优化得到的。
二、使用非小细胞肺癌复发模型预测
非小细胞肺癌复发模型建立之后,就可以利用得到非小细胞肺癌复发模型进行非小细胞肺癌复发预测。
以下再结合附图和实施例对本发明做近一步说明。
实施例一种基于DNA甲基化的早期非小细胞肺癌复发模型构建方法,如图1所示,流程如下:
1.收集57例IB/IIA期的非小细胞肺癌病例,对患者的肿瘤以及癌旁正常组织提取DNA,并进行简化亚硫酸氢盐测序。
2.数据清洗,对原始测序数据,利用TrimGalore软件去除接头,得到clean data,随后使用bismark软件计算甲基化位点的覆盖度和beta值,在后续分析中去除低覆盖度的甲基化位点,即排除在至少1/4样本中覆盖度小于10X的甲基化位点。
3.搜索并合并相关性高的甲基化位点,形成的甲基化区间。这里可通过贪婪算法合并高度相关的甲基化位点,如图2所示。对于每一个甲基化位点,以该位点为种子进行贪婪搜索,分别将种子位点左侧和右侧最邻近的甲基化位点与种子位点合并,形成候选甲基化区间,分别计算两个候选甲基化区间的平均beta值和种子位点beta值在样本中的皮尔森相关系数,若二者中至少一个大于0.7,则选取相关性更高的甲基化区间作为下一次搜索的种子区间,以此类推,反复迭代,直至左侧和右侧的相关系数均小于0.7,搜索停止,最后形成最终的甲基化区间。显然,只有部分甲基化位点能够通过贪婪算法扩展成甲基化区间,这使得甲基化区间和单碱基的甲基化位点同时进入模型训练。
4.以450K芯片平台为例,为了使模型可以应用于450K芯片平台,我们挑选出能够被450K芯片探针检测的甲基化位点/区间作为训练数据进行后续非小细胞肺癌复发模型建立。
构建甲基化时,对于训练数据,我们将复发患者的癌症样本作为高风险组,未复发患者的癌症样本和所有正常样本作为低风险组,利用双侧Wilcoxon秩和检验计算出两组中显著差异(Beta值差异不小于0.1,显著性P<0.05)的甲基化位点/区域。
6.对于上述差异显著的甲基化区域/位点,使用弹性网络回归进行特征选择和模型训练,以防止过拟合。其中,alpha=0.2,罚分参数lambda通过十倍交叉验证获得,最终得到包含1个甲基化区间和8个甲基化位点的甲基化风险得分模型,即为非小细胞肺癌复发模型,该模型涉及的甲基化区间/位点以及其模型系数如表1所示,模型使用的参考基因组版本是hg38。我们结合UCSC基因组浏览器,对表1中甲基化区间/位点进行注释,发现模型中除了常见的基因启动子区域,还包括增强子和转录因子结合位点。其中,chr11:9759297在ENCODE的4个细胞系中均有强的H3K27ac的信号覆盖,如图3,证明该位点是一个广泛的增强子。
表1.甲基化区间/位点及其系数
甲基化风险得分模型的得分计算公式如下:
ModelScore=1/(1+exp(-0.174+βchr10:101238903-101238917×1.372+βchr18:22172331×0.031+
βchr6:10421227×0.503+βchr6:158516326×0.532+βchr9:23820981×1.131-βchr1:58576441×1.237-
βchr11:9759297×1.137-βchr17:72590998×0.359-βchr7:1587474×0.321))
其中,βchr10:101238903-101238917、βchr18:22172331、βchr6:10421227、βchr6:158516326、βchr9:23820981、βchr1:58576441、βchr11:9759297、βchr17:72590998、βchr7:1587474分别是甲基化区间chr10:101238903-101238917以及甲基化位点chr18:22172331、chr6:10421227、chr6:158516326、chr9:23820981、chr1:58576441、chr11:9759297、chr17:72590998、chr7:1587474的beta值,ModelScore是模型的得分。
为了方便计算,实施例还针对以上的得分计算公式设计了如图8所示的列线图,列线图使用方法为:每个位点的甲基化值可以对应到第一行的Points,所有Points相加,对应倒数第二行的Total Points,倒数第二行的total Points与最后一行的Risk得分对应,即得到模型得分。
为了增强模型的实用性,需要确定模型得分阈值。在训练集中,模型得分在样本中呈现双峰分布,如图4所示,说明样本存在应该分成2-3个组,即两个峰和/或两峰之间的中间状态。为此,我们还利用高斯混合模型拟合模型得分分布,并利用期望最大化求解模型参数,得μ1=0.190,σ1=0.092,μ2=0.701和σ2=0.167。对于每个正态分布,我们在其均值周围一倍标准差中,通过网格搜索确定阈值。我们发现,中间组比例较高时,虽然模型的准确性较高,但是模型能够解释的样本量会较少。最终,在模型样本覆盖度大于80%的情况下,中间组在得分在0.3~0.6内,可以使模型具有最好的区分效能,即得分≥0.6为高得分组,0.3~0.6为中得分组,得分≤0.3为低得分组。若该样本模型得分≥0.6,则被认为是高得分组(高风险组);若模型得分≤0.3,则被认为是低得分组(低风险组);若在0.3~0.6之间,则被认为是低得分组(未确定组)。相对于低得分组,高得分组的患者可以建议密切随访或者提早干预治疗。
经测验,实施例的模型应用效果如下:
1、在训练数据中,高得分组比低得分组具有更高的复发风险,如图5所示。相对于低得分组,高得分组的风险比为9.14(P<0.001),且该模型独立于常见的临床因素(包括年龄、性别,TNM分期、胸膜浸润、分化程度、吸烟状态和术后化疗),如表2所示。
表2.cox回归分析结果
2、在外部数据GSE39279中,高得分组比低得分组具有更高的复发风险,如图6所示。相对于低得分组,高得分组的风险比为4.64(P<0.001),且该模型独立于常见的临床因素(包括年龄、性别、TNM分期、组织学类型和吸烟状态),如表2所示。
3、在外部数据TCGA中,高得分组比低得分组具有更高的复发风险,如图7所示。相对于低得分组,高得分组的风险比为2.32(P<0.05),且该模型独立于常见的临床因素(包括年龄、性别、TNM分期、吸烟状态和术后化疗),如表2所示。
与已有的临床常见复发指标和另一个非小细胞肺癌复发的模型相比,我本发明的非小细胞肺癌复发模型具有更好的预测效能,见表3。
表3.模型效能与比较
Claims (8)
1.基于DNA甲基化的早期非小细胞肺癌复发模型构建方法,其特征在于,包括如下步骤:
步骤1:收集早期的非小细胞肺癌病例,并对病例患者的肿瘤以及癌旁正常组织提取DNA,并进行甲基化测序;
步骤2:对步骤1的测序数据,计算其甲基化位点的覆盖度和beta值;
步骤3:针对甲基化位点,搜索并合并其中的相关性高的甲基化位点,形成相应的甲基化区间;
步骤4:根据甲基化芯片的类型,挑选出能够被芯片探针检测的甲基化位点/区间作为训练数据建立甲基化风险得分模型,即为非小细胞肺癌复发模型;所述甲基化风险得分模型具有多个得分阈值,这些得分阈值可将甲基化风险得分模型计算出来的得分对应到高得分组、中得分组、低得分组中的一组;
甲基化风险得分模型的得分计算公式如下:
ModelScore=1/(1+exp(-0.174+βchr10:101238903-101238917×1.372+βchr18:22172331×0.031+βchr6:10421227×0.503+βchr6:158516326×0.532+βchr9:23820981×1.131-βchr1:58576441×1.237-βchr11:9759297×1.137-βchr17:72590998×0.359-βchr7:1587474×0.321))
其中,βchr10:101238903-101238917、βchr18:22172331、βchr6:10421227、βchr6:158516326、βchr9:23820981、βchr1:58576441、βchr11:9759297、βchr17:72590998、βchr7:1587474分别是甲基化区间chr10:101238903-101238917以及甲基化位点chr18:22172331、chr6:10421227、chr6:158516326、chr9:23820981、chr1:58576441、chr11:9759297、chr17:72590998、chr7:1587474的beta值,ModelScore是模型的得分。
2.如权利要求1所述的基于DNA甲基化的早期非小细胞肺癌复发模型构建方法,其特征在于,步骤1采用简化亚硫酸氢盐进行甲基化测序。
3.如权利要求1所述的基于DNA甲基化的早期非小细胞肺癌复发模型构建方法,其特征在于,步骤2计算测序数据的甲基化位点的覆盖度和beta值之后,需排除至少1/4样本中覆盖度小于10X的甲基化位点。
4.如权利要求1所述的基于DNA甲基化的早期非小细胞肺癌复发模型构建方法,其特征在于,步骤3通过贪婪算法合并高度相关的甲基化位点,对于每一个甲基化位点,以该位点为种子进行贪婪搜索,分别将种子位点左侧和右侧最邻近的甲基化位点与种子位点合并,形成候选甲基化区间,分别计算两个候选甲基化区间的平均beta值和种子位点beta值在样本中的皮尔森相关系数,若二者中至少一个大于相关性阈值,则选取相关性更高的甲基化区间作为下一次搜索的种子区间,以此类推,反复迭代,直至左侧和右侧的相关系数均小于相关性阈值,搜索停止,最后形成最终的甲基化区间。
5.如权利要求4所述的基于DNA甲基化的早期非小细胞肺癌复发模型构建方法,其特征在于,所述相关性阈值为0.7。
6.如权利要求1所述的基于DNA甲基化的早期非小细胞肺癌复发模型构建方法,其特征在于,步骤4所述的甲基化芯片类型包括:RRBS,WGBS,450K或850K芯片。
7.如权利要求1所述的基于DNA甲基化的早期非小细胞肺癌复发模型构建方法,其特征在于,所述甲基化风险得分模型的多个得分阈值是利用高斯混合模型拟合甲基化风险得分模型的得分分布,并利用期望最大化求解模型参数,通过网格搜索优化得到的。
8.如权利要求7所述的基于DNA甲基化的早期非小细胞肺癌复发模型构建方法,其特征在于,所述甲基化风险得分模型的得分阈值包括0.3和0.6,高得分组≥0.6,中得分组=0.3~0.6,低得分组≤0.3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010443336.0A CN111564177B (zh) | 2020-05-22 | 2020-05-22 | 基于dna甲基化的早期非小细胞肺癌复发模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010443336.0A CN111564177B (zh) | 2020-05-22 | 2020-05-22 | 基于dna甲基化的早期非小细胞肺癌复发模型构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111564177A true CN111564177A (zh) | 2020-08-21 |
CN111564177B CN111564177B (zh) | 2023-03-31 |
Family
ID=72073576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010443336.0A Active CN111564177B (zh) | 2020-05-22 | 2020-05-22 | 基于dna甲基化的早期非小细胞肺癌复发模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111564177B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112735513A (zh) * | 2021-01-04 | 2021-04-30 | 江苏先声医疗器械有限公司 | 基于dna甲基化谱的肿瘤免疫检查点抑制剂治疗有效性评估模型的构建方法 |
CN113362901A (zh) * | 2021-05-14 | 2021-09-07 | 海南大学 | 快速进行全基因组注释区间比较的方法及系统 |
CN113436741A (zh) * | 2021-07-16 | 2021-09-24 | 四川大学华西医院 | 基于组织特异增强子区域dna甲基化的肺癌复发预测方法 |
CN115772565A (zh) * | 2021-09-08 | 2023-03-10 | 广州市基准医疗有限责任公司 | 用于辅助检测肺癌体细胞egfr基因突变的甲基化位点及其应用 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100009357A1 (en) * | 2006-05-30 | 2010-01-14 | Nevins Joseph R | Prediction of lung cancer tumor recurrence |
US20100233707A1 (en) * | 2009-03-12 | 2010-09-16 | Buckingham Lela | Materials and methods for predicting recurrence of non-small cell lung cancer |
US20110256545A1 (en) * | 2010-04-14 | 2011-10-20 | Nancy Lan Guo | mRNA expression-based prognostic gene signature for non-small cell lung cancer |
US20130059747A1 (en) * | 2011-07-01 | 2013-03-07 | Pinpoint Genomics, Inc. | Multigene prognostic assay for lung cancer |
CN103930563A (zh) * | 2011-06-01 | 2014-07-16 | 医学预后研究所 | 用于预测癌症复发的方法和装置 |
US20180135130A1 (en) * | 2015-05-15 | 2018-05-17 | Virginia Commonwealth University | Novel methylation site regulating expression of mda-9/syntenin |
CN109686414A (zh) * | 2018-12-28 | 2019-04-26 | 陈洪亮 | 仅用于肝癌筛查的特异甲基化检测位点组合的选取方法 |
CN109735619A (zh) * | 2018-12-21 | 2019-05-10 | 中国科学院北京基因组研究所 | 与非小细胞肺癌预后相关的分子标志物及其应用 |
CN110157804A (zh) * | 2019-04-04 | 2019-08-23 | 广州优泽生物技术有限公司 | 用于肺癌诊断、疗效预测或预后的甲基化位点、检测引物及试剂盒 |
WO2019186404A1 (en) * | 2018-03-26 | 2019-10-03 | King Abdullah University Of Science And Technology | Methylation-based biomarkers in breast cancer screening, diagnosis, or prognosis |
US20190345560A1 (en) * | 2016-07-06 | 2019-11-14 | Youhealth Oncotech, Limited | Lung cancer methylation markers and uses thereof |
US20200109456A1 (en) * | 2017-05-12 | 2020-04-09 | President And Fellows Of Harvard College | Universal early cancer diagnostics |
-
2020
- 2020-05-22 CN CN202010443336.0A patent/CN111564177B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100009357A1 (en) * | 2006-05-30 | 2010-01-14 | Nevins Joseph R | Prediction of lung cancer tumor recurrence |
US20100233707A1 (en) * | 2009-03-12 | 2010-09-16 | Buckingham Lela | Materials and methods for predicting recurrence of non-small cell lung cancer |
US20110256545A1 (en) * | 2010-04-14 | 2011-10-20 | Nancy Lan Guo | mRNA expression-based prognostic gene signature for non-small cell lung cancer |
CN103930563A (zh) * | 2011-06-01 | 2014-07-16 | 医学预后研究所 | 用于预测癌症复发的方法和装置 |
US20130059747A1 (en) * | 2011-07-01 | 2013-03-07 | Pinpoint Genomics, Inc. | Multigene prognostic assay for lung cancer |
US20180135130A1 (en) * | 2015-05-15 | 2018-05-17 | Virginia Commonwealth University | Novel methylation site regulating expression of mda-9/syntenin |
US20190345560A1 (en) * | 2016-07-06 | 2019-11-14 | Youhealth Oncotech, Limited | Lung cancer methylation markers and uses thereof |
US20200109456A1 (en) * | 2017-05-12 | 2020-04-09 | President And Fellows Of Harvard College | Universal early cancer diagnostics |
WO2019186404A1 (en) * | 2018-03-26 | 2019-10-03 | King Abdullah University Of Science And Technology | Methylation-based biomarkers in breast cancer screening, diagnosis, or prognosis |
CN109735619A (zh) * | 2018-12-21 | 2019-05-10 | 中国科学院北京基因组研究所 | 与非小细胞肺癌预后相关的分子标志物及其应用 |
CN109686414A (zh) * | 2018-12-28 | 2019-04-26 | 陈洪亮 | 仅用于肝癌筛查的特异甲基化检测位点组合的选取方法 |
CN110157804A (zh) * | 2019-04-04 | 2019-08-23 | 广州优泽生物技术有限公司 | 用于肺癌诊断、疗效预测或预后的甲基化位点、检测引物及试剂盒 |
Non-Patent Citations (1)
Title |
---|
孙喜伟: ""深度挖掘肿瘤相关的DNA甲基化和tRNA来源小片段的分子特征"", 《中国优秀博硕士学位论文全文数据库(博士)医药卫生科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112735513A (zh) * | 2021-01-04 | 2021-04-30 | 江苏先声医疗器械有限公司 | 基于dna甲基化谱的肿瘤免疫检查点抑制剂治疗有效性评估模型的构建方法 |
CN112735513B (zh) * | 2021-01-04 | 2021-11-19 | 江苏先声医疗器械有限公司 | 基于dna甲基化谱的肿瘤免疫检查点抑制剂治疗有效性评估模型的构建方法 |
CN113362901A (zh) * | 2021-05-14 | 2021-09-07 | 海南大学 | 快速进行全基因组注释区间比较的方法及系统 |
CN113362901B (zh) * | 2021-05-14 | 2023-09-01 | 海南大学 | 快速进行全基因组注释区间比较的方法及系统 |
CN113436741A (zh) * | 2021-07-16 | 2021-09-24 | 四川大学华西医院 | 基于组织特异增强子区域dna甲基化的肺癌复发预测方法 |
CN113436741B (zh) * | 2021-07-16 | 2023-02-28 | 四川大学华西医院 | 基于组织特异增强子区域dna甲基化的肺癌复发预测方法 |
CN115772565A (zh) * | 2021-09-08 | 2023-03-10 | 广州市基准医疗有限责任公司 | 用于辅助检测肺癌体细胞egfr基因突变的甲基化位点及其应用 |
CN115772565B (zh) * | 2021-09-08 | 2023-09-05 | 广州市基准医疗有限责任公司 | 用于辅助检测肺癌体细胞egfr基因突变的甲基化位点及其应用 |
Also Published As
Publication number | Publication date |
---|---|
CN111564177B (zh) | 2023-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111564177B (zh) | 基于dna甲基化的早期非小细胞肺癌复发模型构建方法 | |
CN111128299B (zh) | 一种结直肠癌预后显著相关ceRNA调控网络的构建方法 | |
CN112048559B (zh) | 基于m6A相关的IncRNA网络胃癌预后的模型构建及临床应用 | |
CN113450873B (zh) | 一种预测胃癌预后和免疫治疗适用性的标志物及其应用 | |
CN109897899B (zh) | 一种用于局部晚期食管鳞癌预后判断的标志物及其应用 | |
AU2019228512A1 (en) | Systems and methods for detection of residual disease | |
EP4425506A2 (en) | Systems and methods for determining whether a subject has a cancer condition using transfer learning | |
CN109830264B (zh) | 肿瘤患者基于甲基化位点进行分类的方法 | |
CN111128385B (zh) | 一种用于食管鳞癌的预后预警系统及其应用 | |
CN113355421B (zh) | 肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取介质 | |
AU2021248502A1 (en) | Cancer classification with synthetic spiked-in training samples | |
CN113903398A (zh) | 肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质 | |
CN112037863B (zh) | 一种早期nsclc预后预测系统 | |
CN113436741B (zh) | 基于组织特异增强子区域dna甲基化的肺癌复发预测方法 | |
CN116153387A (zh) | 一种肺鳞癌患者总体生存率预后模型及应用 | |
EP4318493A1 (en) | Artificial-intelligence-based method for detecting tumor-derived mutation of cell-free dna, and method for early diagnosis of cancer, using same | |
CN114672569A (zh) | 基于色氨酸代谢基因的肝癌预后评估方法 | |
CN112037851A (zh) | 自噬相关基因在结直肠癌预后的试剂盒和系统中的应用 | |
CN116434830B (zh) | 基于ctDNA多位点甲基化的肿瘤病灶位置识别方法 | |
US20230407405A1 (en) | Method for diagnosing cancer and predicting type of cancer based on single nucleotide variant in cell-free dna | |
CN118366547B (zh) | 基因标志物在多癌种早筛中的应用、早筛模型构建方法以及检测装置 | |
CN115206440A (zh) | 一种基于kras突变结肠癌基因的预后模型及其应用 | |
CN118448038A (zh) | 一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法 | |
CN117976060A (zh) | 基于外周血的基因风险评分模型构建方法 | |
CN116930495A (zh) | 一种基于单细胞测序的肝癌标志物及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |