CN116656830B - 用于胃癌辅助诊断的甲基化标志物、装置、设备和存储介质 - Google Patents
用于胃癌辅助诊断的甲基化标志物、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN116656830B CN116656830B CN202310956843.8A CN202310956843A CN116656830B CN 116656830 B CN116656830 B CN 116656830B CN 202310956843 A CN202310956843 A CN 202310956843A CN 116656830 B CN116656830 B CN 116656830B
- Authority
- CN
- China
- Prior art keywords
- methylation
- interval
- gastric cancer
- fragments
- differential
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011987 methylation Effects 0.000 title claims abstract description 160
- 238000007069 methylation reaction Methods 0.000 title claims abstract description 160
- 208000005718 Stomach Neoplasms Diseases 0.000 title claims abstract description 108
- 206010017758 gastric cancer Diseases 0.000 title claims abstract description 108
- 201000011549 stomach cancer Diseases 0.000 title claims abstract description 108
- 238000003745 diagnosis Methods 0.000 title claims abstract description 39
- 238000003860 storage Methods 0.000 title abstract description 7
- 239000003550 marker Substances 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 15
- 239000012634 fragment Substances 0.000 claims description 70
- 239000000523 sample Substances 0.000 claims description 69
- 108020004414 DNA Proteins 0.000 claims description 37
- 206010028980 Neoplasm Diseases 0.000 claims description 34
- 201000011510 cancer Diseases 0.000 claims description 34
- 108091029430 CpG site Proteins 0.000 claims description 33
- 238000013058 risk prediction model Methods 0.000 claims description 21
- 238000012163 sequencing technique Methods 0.000 claims description 19
- 238000012164 methylation sequencing Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 11
- 239000003153 chemical reaction reagent Substances 0.000 claims description 10
- 238000010801 machine learning Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 239000013068 control sample Substances 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 238000012706 support-vector machine Methods 0.000 claims description 7
- 239000013610 patient sample Substances 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 210000004369 blood Anatomy 0.000 claims description 4
- 239000008280 blood Substances 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 abstract description 14
- 238000011161 development Methods 0.000 abstract description 10
- 230000004083 survival effect Effects 0.000 abstract description 10
- 238000001514 detection method Methods 0.000 abstract description 9
- 230000002496 gastric effect Effects 0.000 abstract description 6
- 238000013399 early diagnosis Methods 0.000 abstract description 4
- 230000035945 sensitivity Effects 0.000 abstract description 4
- 230000004907 flux Effects 0.000 abstract description 3
- 210000001519 tissue Anatomy 0.000 description 34
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 32
- 238000006243 chemical reaction Methods 0.000 description 25
- 210000002381 plasma Anatomy 0.000 description 19
- 239000007788 liquid Substances 0.000 description 18
- 239000011324 bead Substances 0.000 description 12
- 239000006228 supernatant Substances 0.000 description 12
- 230000000007 visual effect Effects 0.000 description 11
- 239000000047 product Substances 0.000 description 10
- 238000002156 mixing Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 7
- 239000000203 mixture Substances 0.000 description 7
- 210000002784 stomach Anatomy 0.000 description 7
- 239000011534 wash buffer Substances 0.000 description 7
- 238000009396 hybridization Methods 0.000 description 6
- 238000002360 preparation method Methods 0.000 description 5
- 229910021642 ultra pure water Inorganic materials 0.000 description 5
- 239000012498 ultrapure water Substances 0.000 description 5
- 238000007400 DNA extraction Methods 0.000 description 4
- 230000007067 DNA methylation Effects 0.000 description 4
- 230000003321 amplification Effects 0.000 description 4
- 210000000349 chromosome Anatomy 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 239000012070 reactive reagent Substances 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000005406 washing Methods 0.000 description 4
- 239000002699 waste material Substances 0.000 description 4
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 description 3
- 238000000692 Student's t-test Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000011534 incubation Methods 0.000 description 3
- 230000036210 malignancy Effects 0.000 description 3
- 201000011591 microinvasive gastric cancer Diseases 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000000746 purification Methods 0.000 description 3
- 238000012353 t test Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000011529 RT qPCR Methods 0.000 description 2
- 239000012148 binding buffer Substances 0.000 description 2
- 238000001369 bisulfite sequencing Methods 0.000 description 2
- 238000007664 blowing Methods 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 238000005119 centrifugation Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000007847 digital PCR Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000004128 high performance liquid chromatography Methods 0.000 description 2
- 238000007855 methylation-specific PCR Methods 0.000 description 2
- XEBWQGVWTUSTLN-UHFFFAOYSA-M phenylmercury acetate Chemical compound CC(=O)O[Hg]C1=CC=CC=C1 XEBWQGVWTUSTLN-UHFFFAOYSA-M 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000004393 prognosis Methods 0.000 description 2
- 238000012175 pyrosequencing Methods 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 238000007789 sealing Methods 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 238000001179 sorption measurement Methods 0.000 description 2
- 238000003756 stirring Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 238000007671 third-generation sequencing Methods 0.000 description 2
- 210000004881 tumor cell Anatomy 0.000 description 2
- 239000012224 working solution Substances 0.000 description 2
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000003149 assay kit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000007853 buffer solution Substances 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000004925 denaturation Methods 0.000 description 1
- 230000036425 denaturation Effects 0.000 description 1
- 239000012149 elution buffer Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001704 evaporation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000013411 master cell bank Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 241000264288 mixed libraries Species 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/20—Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/154—Methylation markers
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Public Health (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Artificial Intelligence (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Genetics & Genomics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Pathology (AREA)
- General Engineering & Computer Science (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- Signal Processing (AREA)
- Hospice & Palliative Care (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Oncology (AREA)
- Biomedical Technology (AREA)
Abstract
本申请公开了一种用于胃癌辅助诊断的甲基化标志物、装置、设备和存储介质,属于生物医学技术领域。该甲基化标志物包括差异甲基化区间,具体包括125个甲基化程度高相关区间(Methylation‑correlated block,MCB)中一个或多个的部分区间或全长区间,该甲基化程度高相关区间内甲基化位点的甲基化程度在胃癌组织样本与胃良性组织样本存在显著差异,与胃癌发生及发展有关。通过对差异甲基化区间进行分析、构建模型,可实现对胃癌辅助诊断的目的,具有通量高、检测特异性和敏感性高的优点,具有广阔的临床应用前景。将其用于胃癌辅助诊断,可以实现胃癌早筛早诊,提高生存率的目的。
Description
技术领域
本申请属于生物医学技术领域,具体涉及用于胃癌辅助诊断的甲基化标志物、装置、设备和存储介质。
背景技术
胃癌是指原发于胃的上皮源性恶性肿瘤。根据2020年中国最新数据,胃癌发病率和死亡率在各种恶性肿瘤中均居第三。全球每年新发胃癌病例约120万,中国约占其中的40%。我国早期胃癌占比很低,仅约20%,大多数发现时已是进展期,总体5年生存率不足50%(胃癌诊疗指南,2022年版)。尽管内镜技术不断发展,但目前公众对于通过内镜进行胃癌筛查的接受度仍不尽如人意,加之早期胃癌症状并不明显,因此大部分胃癌患者就诊时已到中晚期,丧失了手术根治的机会。鉴于胃癌恶性程度和异质性都非常高,以往虽有针对胃癌晚期患者的治疗探索,但对总生存的提升并不显著(2020版CSCO胃癌诊疗指南)。
2003-2015年,我国胃癌5年相对生存率有所升高,但是仍明显低于发达国家(中国胃癌筛查与早筛早诊指南,2022,北京)。胃癌患者的生存时间与其临床诊断发现的早晚密切相关。胃癌早期症状不明显,多数患者在确诊时已处于中晚期,即使接受手术治疗的5年生存率仍<30%,而早期病例经过及时治疗五年生存率可>90%。开展胃癌筛查可显著提高胃癌早期病变检出率,改善患者预后,大幅提高患者生存率。
随着生物科技的不断发展,利用基因检测来诊断或辅助诊断疾病的方法受到了广泛的瞩目。DNA甲基化是基因表达调控的一种重要机制,DNA甲基化检测是指利用各种方法对肿瘤细胞DNA甲基化程度进行测定,甲基化状态的改变是肿瘤发生、发展过程中标志性事件之一,在肿瘤早期便在基因组中广泛发生。在恶性肿瘤的发展中,甲基化的状态并不是一成不变,肿瘤细胞内全基因组的低甲基化程度与疾病进展、肿瘤大小和恶性程度都有密切的关系,DNA甲基化检测对肿瘤恶性程度的判断有重要意义,为癌症的早期预测、分类、分级及预后评估提供了新的依据,是目前的研究热点之一。
发明内容
1. 发明目的
本申请的目的在于提供一种用于胃癌辅助诊断的甲基化标志物、装置、设备和存储介质,该甲基化标志物为癌症患者样本与非癌对照样本甲基化水平存在差异的甲基化程度高相关区间(差异甲基化区间),包括本申请筛选的125个甲基化程度高相关区间(Methylation-correlated block,MCB)中一个或多个的部分区间或全长区间,该差异甲基化区间内甲基化位点的甲基化程度在胃癌组织样本与胃良性组织样本中存在显著差异,与胃癌发生及发展有关。通过对差异甲基化区间进行模型构建,利用该模型可实现胃癌辅助诊断的目的,具有通量高、检测特异性和敏感性高等的优点,具有广阔的临床应用前景。将其用于胃癌辅助诊断,可以实现胃癌早筛早诊,并进一步提高生存率的目的。
2. 技术方案
为了解决上述问题,本申请所采用的技术方案如下:
本申请提供了一种用于胃癌辅助诊断的甲基化标志物,该甲基化标志物为癌症患者样本与非癌对照样本甲基化水平存在差异的甲基化程度高相关区间(差异甲基化区间),该差异甲基化区间包括以下125个甲基化程度高相关区间(Methylation-correlatedblock,MCB)中一个或多个的部分区间或全长区间,上述甲基化程度高相关区间(MCB)在基因组上的位置(物理位置)基于人类全基因组序列(版本号为hg19)比对确定,上述甲基化程度高相关区间(MCB)内甲基化位点的甲基化程度在胃癌组织样本与胃良性组织样本存在显著差异,与胃癌发生及发展有关,125个甲基化程度高相关区间(MCB)如下:
进一步地,上述一种用于胃癌辅助诊断的甲基化标志物,该甲基化标志物为差异甲基化区间,该差异甲基化区间包括以下34个甲基化程度高相关区间(Methylation-correlated block,MCB)中一个或多个的部分区间或全长区间,该34个甲基化程度高相关区间是通过血浆样本进一步筛选获得,更适用于基于血浆样本的胃癌辅助诊断,34个甲基化程度高相关区间(MCB)如下:
进一步地,上述一种用于胃癌辅助诊断的甲基化标志物,部分区间是指该甲基化程度高相关区间中包含不少于3个CpG的区间。
进一步地,上述一种用于胃癌辅助诊断的甲基化标志物,该甲基化标志物为差异甲基化区间,该差异甲基化区间包括上述34个甲基化程度高相关区间(MCB)的部分区间或全长区间,部分区间是指该甲基化程度高相关区间中包含不少于3个CpG的区间。
进一步地,上述一种用于胃癌辅助诊断的甲基化标志物,该甲基化标志物为差异甲基化区间,该差异甲基化区间包括上述34个甲基化程度高相关区间(MCB)的全长区间。
进一步地,上述一种用于胃癌辅助诊断的甲基化标志物,该甲基化标志物为差异甲基化区间,该差异甲基化区间包括上述125个甲基化程度高相关区间(MCB)的全长区间。
本申请还提供了上述一种用于胃癌辅助诊断的甲基化标志物在构建胃癌风险预测模型中的应用。
进一步地,上述构建胃癌风险预测模型包括如下步骤:
S1,获取癌症患者样本和非癌对照样本的组织或血浆中DNA的甲基化测序数据;
S2,从S1的测序数据中获取上述甲基化标志物(差异甲基化区间)的甲基化水平数据;
S3,利用S2中甲基化水平数据对预设数量组织或血浆样本,基于癌症患者分期和非癌对照样本信息,按照预设比例随机抽样,分成训练集、测试集和验证集;
S4,采用机器学习法构建胃癌风险预测模型。
进一步地,上述S2中甲基化水平数据指每个差异甲基化区间内的全甲基化片段占比(Methylated Fragment Ratio, MFR)值,MFR值通过以下公式计算:
,
其中,表示第n个样本第i个差异甲基化区间的MFR值;表示第n个样本第i个差异甲基化区间的全甲基化片段数,全甲基化片段指该片段上所有的CpG位点全部甲基化的片段;/>表示第n个样本第i个差异甲基化区间的未甲基化片段数,未甲基化片段指该片段上所有的CpG位点全部未甲基化的片段。
进一步地,上述S4中采用机器学习法构建胃癌风险预测模型包括通过支持向量机(LinearSVM)构建胃癌风险预测模型。
本申请还提供了上述一种用于胃癌辅助诊断的甲基化标志物在胃癌辅助诊断中的应用。
本申请还提供了上述一种用于胃癌辅助诊断的甲基化标志物在制备胃癌辅助诊断产品中的应用。
本申请还提供了检测上述甲基化标志物(差异甲基化区间)的甲基化水平数据的试剂在构建胃癌风险预测模型、胃癌辅助诊断或制备胃癌辅助诊断产品中的应用。
进一步地,上述检测甲基化水平的试剂可以包括以下任意一种或多种方法中所使用的试剂,所述方法包括:焦磷酸测序法、重亚硫酸盐转化测序法、甲基化芯片法、qPCR法、数字PCR法、二代测序法、三代测序法、全基因组甲基化测序法、DNA富集检测法、简化亚硫酸氢盐测序技术、HPLC法、MassArray、甲基化特异PCR。
本申请还提供了一种胃癌风险预测模型的构建方法,该方法包括如下步骤:
M1,获取癌症患者样本和非癌对照样本的组织或血液中DNA的甲基化测序数据;
M2,从M1的测序数据中获取上述甲基化标志物(差异甲基化区间)的甲基化水平数据;
M3,利用M2中甲基化水平数据对预设数量组织或血浆样本,基于癌症患者分期和非癌对照样本信息,按照预设比例随机抽样,分成训练集、测试集和验证集;
M4,采用机器学习法构建胃癌风险预测模型。
进一步地,上述M2中甲基化水平数据指每个差异甲基化区间内的全甲基化片段占比(Methylated Fragment Ratio, MFR)值,MFR值通过以下公式计算:
,
其中,表示第n个样本第i个差异甲基化区间的MFR值;表示第n个样本第i个差异甲基化区间的全甲基化片段数,全甲基化片段指该片段上所有的CpG位点全部甲基化的片段;/>表示第n个样本第i个差异甲基化区间的未甲基化片段数,未甲基化片段指该片段上所有的CpG位点全部未甲基化的片段。
进一步地,上述M4中采用机器学习法构建胃癌风险预测模型包括通过支持向量机(LinearSVM)构建胃癌风险预测模型。
本申请还提供了一种上述构建胃癌风险预测模型的方法构建的胃癌风险预测模型。
本申请还提供了一种预测胃癌风险的方法,包括如下步骤:
(1)获取受试者的组织或血浆DNA的甲基化测序数据;
(2)从测序数据中计算上述甲基化标志物(差异甲基化区间)的MFR值;
(3)使用计算的MFR值和上述预先训练好的机器学习模型预测受试者患有胃癌的风险。
进一步地,上述获取受试者的组织或血浆DNA的甲基化测序数据可以使用任意一种或多种方法,包括:焦磷酸测序法、重亚硫酸盐转化测序法、甲基化芯片法、qPCR法、数字PCR法、二代测序法、三代测序法、全基因组甲基化测序法、DNA富集检测法、简化亚硫酸氢盐测序技术、HPLC法、MassArray、甲基化特异PCR。
本申请还提供了一种预测胃癌风险的装置,包括:
数据接收模块,其被配置为用于接收受试者的组织样本或血浆样本的DNA的甲基化测序数据;
序列预处理模块,其被配置为用于对测序数据中的序列进行质控和过滤处理,并将过滤后的序列比对到参考基因组;
MFR值计算模块,其被配置为计算上述甲基化标志物(差异甲基化区间)的MFR值,MFR值通过以下公式计算:
,
其中,表示第n个样本第i个差异甲基化区间的MFR值;表示第n个样本第i个差异甲基化区间的全甲基化片段数,全甲基化片段指该片段上所有的CpG位点全部甲基化的片段;/>表示第n个样本第i个差异甲基化区间的未甲基化片段数,未甲基化片段指该片段上所有的CpG位点全部未甲基化的片段;
风险预测模块,其被配置为使用预先训练好的机器学习模型和计算的MFR值预测患有胃癌的风险。
本申请还提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述预测胃癌风险的方法。
本申请还提供了一种计算机存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现上述预测胃癌风险的方法。
3. 有益效果
本申请与现有技术相比,其有益效果在于:
本申请提供的一种用于胃癌辅助诊断的甲基化标志物、装置、设备和存储介质,该甲基化标志物包括差异甲基化区间,具体包括125个癌症与非癌对照样本甲基化水平存在差异的甲基化程度高相关区间(Methylation-correlated block,MCB)中一个或多个的部分区间或全长区间,该差异甲基化区间内甲基化位点的甲基化程度在胃癌组织样本与胃良性组织样本存在显著差异,与胃癌发生及发展有关。通过对差异甲基化区间进行分析、构建模型,可实现了对胃癌辅助诊断的目的,具有通量高、检测特异性和敏感性高的优点,具有广阔的临床应用前景。将其用于胃癌辅助诊断,可以实现胃癌早筛早诊,提高生存率的目的。
附图说明
图1是本申请筛选到的125个甲基化程度高相关区间在胃癌组织及胃良性组织中甲基化水平分布热图。
图2-图5是本申请在血浆样本进一步筛选到的AUC大于0.75的34个甲基化程度高相关区间的ROC曲线图。
图6-图10是34个甲基化程度高相关区间中部分区间(包含3个及3个以上CPG区域)的ROC曲线图。
图11是本申请筛选的差异甲基化区间(34个甲基化程度高相关区间),基于MFR值,通过支持向量机(LinearSVM)建模,训练集、测试集、验证集的ROC曲线图。
具体实施方式
下面结合具体实施例对本申请进一步进行描述。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
如本文所使用,术语“约”用于提供与给定术语、度量或值相关联的灵活性和不精确性。本领域技术人员可以容易地确定具体变量的灵活性程度。
如本文所使用,术语“......中的至少一个”旨在与“......中的一个或多个”同义。例如,“A、B和C中的至少一个”明确包括仅A、仅B、仅C以及它们各自的组合。
浓度、量和其他数值数据可以在本文中以范围格式呈现。应当理解,这样的范围格式仅是为了方便和简洁而使用,并且应当灵活地解释为不仅包括明确叙述为范围极限的数值,而且还包括涵盖在所述范围内的所有单独的数值或子范围,就如同每个数值和子范围都被明确叙述一样。例如,约1至约4.5的数值范围应当被解释为不仅包括明确叙述的1至约4.5的极限值,而且还包括单独的数字(诸如2、3、4)和子范围(诸如1至3、2至4等)。相同的原理适用于仅叙述一个数值的范围,诸如“小于约4.5”,应当将其解释为包括所有上述的值和范围。此外,无论所描述的范围或特征的广度如何,都应当适用这种解释。
本申请首先对24例胃癌患者组织、11个胃良性组织样本进行DNA提取,得到35个DNA样本;
其次,将得到的DNA进行打断、亚硫酸氢盐转化以及杂交捕获和扩增,得到用于靶向甲基化测序的文库;
再次,采用Illumina公司nova测序仪进行靶向甲基化测序,并对测序结果进行分析比对,得到每个CpG位点甲基化的reads数和未甲基化的reads数,按照下列公式计算每个CpG位点甲基化beta值:
,
其中,表示第n个样本第i个CpG位点的beta值,/>表示第n个样本第i个CpG位点甲基化的reads数,/>表示第n个样本第i个CpG位点未甲基化的reads数;
随后,对每个样本每条染色体上CpG位点按照位置信息排序,在24个胃癌组织及11个胃良性组织样本中,对于每一条染色体,依次计算第1个CpG同第2个CpG、第2个CpG同第3个CpG、第3个CpG同第4个CpG,直至第m-1个CpG同第m个CpG的beta值的pearson相关系数,其中m表示该条染色体上最后一个CpG。按照pearson相关系数大于等于0.9,相邻的两个CpG位置相差不超过15 bp来合并CpG,合并区间内的CpG个数大于等于3,最后保留的区间即甲基化程度高相关区间(Methylation-correlated block, MCB),一共得到11365个MCB;
随后,对每一个样本统计每一个MCB内的全甲基化片段数(该片段上所有的CpG位点全部甲基化)和未甲基化片段数(该片段上所有的CpG位点全部未甲基化),按照下列公式计算每一个MCB的全甲基化片段占比(Methylated Fragment Ratio, MFR)值:
,
其中,表示第n个样本第i个MCB的MFR值,/>表示第n个样本第i个MCB的全甲基化片段数,/>表示第n个样本第i个MCB的未甲基化片段数;
随后,利用胃癌组织和胃良性组织所有MCB的MFR值进行t检验分析,按照p值≤0.004作为组织样本候选甲基化标志物(marker);初步筛选得到个125个与胃癌诊断相关的MCB。
此外,利用50例胃癌血浆样本及57例非癌对照血浆样本对上述包含125个MCB作为胃癌辅助诊断的甲基化标志物的诊断效能进行评估与验证,最终获得34个适用于血浆样本的MCB,这些MCB ROC曲线下面积(AUC)大于0.75。同时,进一步验证了上述34个MCB中部分区间,即包含3个及以上CpG位点的区间的诊断效能,其ROC曲线下面积(AUC)同样大于0.75。
最后,将上述34个MCB组合使用,通过支持向量机(LinearSVM)建模方式,训练集、验证集、测试集均获得大于0.97的ROC曲线下面积,表明分类器在区分胃癌患者和非癌对照的表现稳定。
实施例1
本实施例提供与胃癌发生发展有关的差异甲基化区间的发现。
本实施例对24例胃癌组织和11例良性胃组织样本的DNA进行甲基化高通量测序,通过对测序数据进行分析计算,发现了125个与胃癌发生发展有关的甲基化程度高相关区间(Methylation-correlated block,MCB),详细实验流程及分析流程如下:
(1)DNA提取
使用血液/组织/细胞基因组DNA提取试剂盒(天根生化科技(北京)有限公司,DP304-02)提取组织样本的DNA,具体参照试剂盒的使用说明。
(2)DNA片段化
取基因组DNA 300 ng(不足全取),使用Covaris打断仪(Covaris,LE220)进行打断,具体参照打断仪的使用说明,样本DNA低于100 ng时需要单管打断。使用Qubit® dsDNAHS Assay Kit(Thermo Fisher,Q32854)测定打断后的浓度并质检,具体参照试剂盒的使用说明。
(3)甲基化测序文库构建
内参准备:取50 μL CpG全甲基化的pUC19 DNA和50 μL CpG全非甲基化的LamdbaDNA混匀后加入100 μl打断管中,参照Covaris打断仪(Covaris,LE220)的使用说明进行打断。建库时,向待测DNA样本中加入0.001 ng的pUC19 DNA和0.02 ng的Lamdba DNA。
DNA样本的准备:基因组DNA样本起始量为10~200 ng,取组织样本中提取的DNA300 ng(不足全取),参照Covaris打断仪(Covaris,LE220)的使用说明进行打断,低于100ng时需要单管打断。样品起始体积为20 μL,不足20 μL时,用水补足。
EZ转化:
取130 μL Lightning Conversion Reagent加入DNA样本中,反应体系置于PCR仪上,按表1进行转化反应。
表1:PCR反应条件
转化反应结束后,向Zymo-Spin™ IC Column中加入600 μL M-Binding Buffer,将上步转化后产物加入含有M-Binding Buffer的Zymo-Spin™ IC Column中,吹打混匀,静置2 min。12000 rpm离心1 min,弃废液。加入100 μL M-Wash Buffer,12000 rpm离心1min,弃废液。加入200 μL L-Desulphonation Buffer,室温(20~30°C)孵育15~20 min,孵育完成后,12000 rpm离心1 min,弃废液。加入200 μL M-Wash Buffer,12000 rpm离心1 min,弃废液;重复操作一次。将吸附柱转入新的1.5 mL离心管中,向吸附膜的中间部位悬空滴加20 μL洗脱缓冲液TE洗脱,室温放置2~5 min,12000 rpm离心1 min。
DNA预处理:
PCR仪提前预热至95℃。取转化后DNA于0.2 ml的PCR管中,加入Low-EDTA TE稀释总体积到15 μL。将反应体系置于PCR仪中,95℃孵育2 min后,立即放置到冰上,静置2 min。
T7 Tailing和Ligation:
在冰上将表2组分加入上述预处理DNA中,充分混合。在PCR仪上进行表3的T7Tailing和Ligation反应。
表2:反应试剂
表3:T7 Tailing和Ligation反应条件
二链合成反应:
PCR仪提前预热至98℃。将表4组分加入上步T7 Tailing和Ligation反应后的产物中,充分混合。反应体系置于PCR仪上,按表5进行二链合成反应。
表4:反应试剂
表5:二链合成反应条件
二链合成反应结束后,在产物中加入101 μL Agencourt AMPure XP beads,吹打混匀。室温静置5 min,置于磁力架上至液体澄清,弃去上清。加入200 μL 80%现配乙醇孵育30 s后弃去。重复一次200 μL 80%乙醇清洗步骤。用10 μL枪头弃去离心管底部的残留乙醇,室温干燥至乙醇完全挥发。从磁力架取下离心管,加入16 μL超纯水,振荡混匀。室温孵育2 min。短暂离心,置于磁力架上至液体澄清,取15 μL样本转入新的离心管中。
T5 Adapter Ligation:
将表6组分加入上一步产物中,充分混合。反应体系置于PCR仪上,按表7进行T5Adapter Ligation反应。
表6:反应试剂
表7:PCR反应条件
连接反应结束后,加入36 μL Agencourt AMPure XP beads,吹打混匀。室温静置5min,置于磁力架上至液体澄清,弃去上清。加入200 μL 80%现配乙醇孵育30 s后弃去。重复一次200 μL 80%乙醇清洗步骤。用10 μL枪头弃去离心管底部的残留乙醇,室温干燥至乙醇完全挥发。从磁力架取下离心管,加入20 μL超纯水,振荡混匀。室温孵育2 min。短暂离心,置于磁力架上至液体澄清,将20 μL样本转入新的离心管中。
扩增:
将表8组分加入上一步连接后的产物中,充分混合。反应体系置于PCR仪上,按表9进行PCR反应。
表8:反应试剂
表9:PCR反应条件
扩增反应结束后,加入60 μL Agencourt AMPure XP beads,吹打混匀。室温静置5min,置于磁力架上至液体澄清,弃去上清。加入200 μL 80%现配乙醇孵育30 s后弃去。重复一次200 μL 80%乙醇清洗步骤。用10 μL枪头弃去离心管底部的残留乙醇,室温干燥至乙醇完全挥发。从磁力架取下离心管,加入50 μL超纯水,振荡混匀。室温孵育2 min。短暂离心,置于磁力架上至液体澄清,将50 μL样本转入新的离心管中。
文库定量:
使用Qubit高灵敏试剂(thermoscientific cat#Q32854)对所构建的文库进行定量,文库产量大于400 ng进行后续上机测序。
文库捕获:
混合文库:按每个捕获总量1 μg捕获。向上述体系中加入杂交试剂,振荡混匀。用封口膜封住EP管,放入真空离心浓缩仪中蒸干(60℃,约20~60 min)。
DNA变性:样本完全蒸干后,每个capture中加入7.5 μL 2×HybridizationBuffer (vial5)和3 μL Hybridization Component A (vial 6),振荡混匀。反应体系置于PCR仪中,95℃变性10 min。
文库与探针杂交:取出探针,短暂离心。将变性的DNA(始终保持在95℃)快速转移至含有探针的PCR管中,振荡混匀。置于PCR仪中,47℃杂交。
杂交后纯化:按表10配制Wash Buffer工作液,Capture Beads使用前须室温平衡30 min,Wash Buffer(vial 4 和vial 1)工作液使用前须47℃孵育2 h。每个capture分装100 μL捕获磁珠,将100 μL捕获磁珠置于磁力架上至液体澄清,弃去上清。加入200 μL 1×Bead Wash Buffer (vial 7),振荡混匀,置于磁力架上至液体澄清,弃去上清;重复操作一次。加入100 μL 1×Bead Wash Buffer(vial 7),振荡混匀,置于磁力架上至液体澄清,彻底弃去上清。此时磁珠预处理完成,立即进行下一步试验。将上一步杂交产物加入预处理完成的磁珠中,吹打混匀。置于PCR仪中47℃孵育45 min,每隔15 min震荡一次保证磁珠悬浮。
表10:capture所需缓冲液的配制试剂
清洗:孵育完成后,加入100 μL 47℃预热的1×Wash Buffer I(vial 1),振荡混匀,置于磁力架上至液体澄清,弃去上清。加入200 μL 47℃预热的1×Stringent WashBuffer (vial 4),吹打混匀,47℃孵育5 min,置于磁力架上至液体澄清,弃去上清;重复操作一次。加入200 μL室温放置的1×Wash Buffer I (vial 1),振荡2 min,短暂离心,置于磁力架上至液体澄清,弃去上清。加入200 μL室温放置的1×Wash Buffer II (vial 2),震荡1 min,短暂离心,置于磁力架上至液体澄清,弃去上清。加入200 μL室温放置的1×WashBuffer III (vial 3),震荡30 s,短暂离心,放置磁力架上至液体澄清,弃去上清。向离心管中加入36 μL超纯水洗脱,振荡混匀,进行下一步扩增试验。
Post-LM-PCR:按表11配制Post-LM-PCR Mix,振荡混匀。将上一步清洗后的产物加入表11组分中,振荡混匀。反应体系均分为两管,每管样本20 μL,置于PCR仪中,按表12进行PCR反应。
表11:Post-LM-PCR Mix试剂
表12:PCR反应条件
扩增后纯化:取180 μL纯化磁珠(DNA Purification Beads)于1.5 mL离心管中,加入100 μL扩增后的捕获DNA文库,振荡混匀,室温孵育15 min。置于磁力架上至液体澄清,弃去上清。加入200 μL 80%现配乙醇孵育30 s后弃去。重复一次200 μL 80%乙醇清洗步骤。用10 μL枪头弃去离心管底部的残留乙醇,室温干燥至乙醇完全挥发。从磁力架取下离心管,加入120 μL超纯水,振荡混匀。室温孵育2 min。短暂离心,置于磁力架上至液体澄清,将capture样本转入新的离心管中。
文库混库和测序:将上述捕获的capture按照数据量比例计算混库质量,按照数据量比例将不同capture混合成一个sample。加入Phix混合成上机sample,进行测序。
(4)文库测序
取100 ng上述文库加入10% PhiX DNA(Illu mina cat#FC-110-3001)混合成上机样品,在Novaseq 6000(Illu mina)平台进行PE100测序。
(5)数据分析
去接头:调用Trimmomatic-0.36将每一对FASTQ文件都作为配对的读段(pairedreads)比对到hg19人类参考基因组序列,除M参数与指定Reads Group的ID外,不使用其余参数选项,生成初始bam文件。
比对:调用Bismark-v0.19.0将去接头后的每一对FASTQ文件都作为配对读段比对到hg19人类参考基因组序列和Lambda DNA参考基因组序列,生成初始Bam文件。
去重:调用Bismark-v0.19.0的deduplicate模块,对初始Bam文件进行去重复处理,生成去重后的Bam文件。
排序标记:调用SAMtools-1.3的sort模块,对去重后的Bam文件进行排序,生成排序后的Bam文件。然后,调用Picard-2.1.0的AddOrReplaceReadGroups模块,对排序后的Bam文件进行标记分组。
筛选:调用BamUtil-1.0.14的clipOverlap模块对标记分组后的Bam文件进行筛选,去除重叠的配对读段,生成Bam文件。并调用SAMtools-1.3 view对去除重叠的Bam文件的比对质量进行过滤,采用“-q20”作为参数,过滤比对质量低于20的reads;统计每条reads上非CpG位点的甲基化转化率,按照非CpG位点的甲基化转化率大于95%来过滤,生成最终Bam文件。
建立索引:调用SAMtools-1.3的index模块对最终生成的Bam文件建立索引,生成与最终Bam文件配对的bai文件。
统计CpG位点的甲基化reads:调用BisSNP-0.82.2对最终Bam文件统计所有CpG位点的甲基化reads数和未甲基化reads数。
(6)MCB筛选
按照下列公式计算每个CpG位点甲基化beta值:
,
其中,表示第n个样本第i个CpG位点的beta值,/>表示第n个样本第i个CpG位点甲基化的reads数,/>表示第n个样本第i个CpG位点未甲基化的reads数;
随后,对每个样本每条染色体上CpG位点按照位置信息排序,在24个胃癌组织及11个胃良性组织样本中,对于每一条染色体,依次计算第1个CpG同第2个CpG、第2个CpG同第3个CpG、第3个CpG同第4个CpG,直至第m-1个CpG同第m个CpG的beta值的pearson相关系数,其中m表示该条染色体上最后一个CpG。按照pearson相关系数大于等于0.9,相邻的两个CpG位置相差不超过15 bp来合并CpG,合并区间内的CpG个数大于等于3,最后保留的区间即甲基化程度高相关区间(Methylation-correlated block, MCB),一共得到11365个MCB。
(7)差异甲基化区间筛选
对每一个样本统计每一个MCB内的全甲基化片段(该片段上所有的CpG位点全部甲基化)和未甲基化片段(该片段上所有的CpG位点全部未甲基化),按照下列公式计算每一个MCB的全甲基化片段占比(Methylated Fragment Ratio, MFR)值:
,
其中,表示第n个样本第i个MCB的MFR值,/>表示第n个样本第i个MCB的全甲基化片段数,/>表示第n个样本第i个MCB的未甲基化片段数;
对胃癌组织及胃良性组织所有MCB的MFR值进行t检验分析,选择t检验p值≤0.004的作为候选胃癌差异甲基化区间,总计筛选出125个甲基化程度高相关区间(MCB),作为差异甲基化区间,作为胃癌诊断或辅助诊断的候选甲基化标志物,125个MCB在胃癌组织样本及胃良性组织样本甲基化水平热图见图1。具体125个甲基化程度高相关区间信息见表13。
表13 125个甲基化程度高相关区间信息
/>
/>
实施例2
本实施例提供基于血浆样本的差异甲基化区间的进一步筛选。本实施例中使用样本如下:包括来自50个胃癌患者和57个非癌对照的血浆游离DNA(cfDNA),其中非癌对照为未诉异常的体检样本;I期与II期胃癌样本占胃癌样本总数的50%以上,具体占比见表14。
表14 血浆样本
/>
使用Applied Biosystems MagMAX 游离DNA提取试剂盒(Thermo Fisher,A29319)提取cfDNA,具体参照试剂盒的使用说明;cfDNA样本起始量为10~30 ng,不需要打断。剩余实验及分析流程参照实施例1,计算107个血浆样本的125个MCB(实施例1筛选的)的MFR。基于107个血浆样本,125个MCB单独作为胃癌早筛marker去区分癌症患者和非癌对照,使用R包pROC计算出每个MCB的AUC值。筛选出来AUC大于0.75的MCB共计34个,具体AUC分布见图2-图5,MCB列表及表现性能如表15所示。
表15 34个甲基化程度高相关区间及性能
实施例3
本实施例选取实施例2中34个甲基化程度高相关区间(MCB)跨度较长的7个区间进行缩短分析,结果表明这些MCB中包含3个及3个以上CpG位点的部分区间(S-MCB)对胃癌同样具有较好区分效果(AUC>0.75),表16举例部分缩短区间列表及对应表现性能。
表16 部分缩短区间列表及对应表现性能,具体AUC分布见图6-图10。
实施例4
本实施例以实施例2筛选的34个MCB进行组合作为胃癌诊断或者辅助诊断的甲基化标志物,并通过支持向量机(LinearSVM)建模并对模型进行验证。具体分析方法如下:
首先,将107个血浆样本分成训练集、测试集和验证集。样本分组详细情况如表17所示:
表17 样本分组
其次,将34个MCB的MFR作为特征值,使用支持向量机(LinearSVM)对训练集特征数据建立分类模型,然后使用测试集和验证集来验证模型性能。分类器的性能通过特异性、敏感性、整体准确性和ROC曲线下面积(AUC)进行评估,具体AUC分布见图11,详细性能如表18所示:
表18
训练集的AUC为0.974,测试集的AUC为0.972,验证集的AUC为0.970。以上实验数据表明,本分类器在区分胃癌患者和非癌对照的表现稳定。
实施例5
本申请还提供了一种测胃癌风险的装置,包括:
数据接收模块,其被配置为用于接收受试者的组织样本或血浆样本的DNA的甲基化测序数据;
序列预处理模块,其被配置为用于对测序数据中的序列进行质控和过滤处理,并将过滤后的序列比对到参考基因组;
MFR值计算模块,其被配置为计算甲基化标志物(差异甲基化区间)的MFR值,MFR值通过以下公式计算:
,
其中,表示第n个样本第i个差异甲基化区间的MFR值;表示第n个样本第i个差异甲基化区间的全甲基化片段数,全甲基化片段指该片段上所有的CpG位点全部甲基化的片段;/>表示第n个样本第i个差异甲基化区间的未甲基化片段数,未甲基化片段指该片段上所有的CpG位点全部未甲基化的片段;
风险预测模块,其被配置为使用预先训练好的机器学习模型和计算的差异甲基化区间的MFR值预测患有胃癌的风险。
Claims (7)
1.一种用于胃癌辅助诊断的甲基化标志物,其特征在于,所述甲基化标志物包括差异甲基化区间,所述差异甲基化区间为以下34个甲基化程度高相关区间中一个或多个的部分区间或全长区间,所述部分区间是指所述甲基化程度高相关区间中包含不少于3个CpG的区间:
。
2.根据权利要求1所述的一种用于胃癌辅助诊断的甲基化标志物,其特征在于,所述差异甲基化区间为所述34个甲基化程度高相关区间的部分区间或全长区间。
3.根据权利要求2所述的一种用于胃癌辅助诊断的甲基化标志物,其特征在于,所述差异甲基化区间为所述34个甲基化程度高相关区间的全长区间。
4.检测权利要求1-3任一所述的用于胃癌辅助诊断的甲基化标志物的甲基化水平的试剂在如下任一中的应用:
(1)用于构建胃癌风险预测模型;
(2)用于制备诊断或者辅助诊断胃癌的产品。
5.根据权利要求4所述的应用,其特征在于,所述构建胃癌风险预测模型,包括如下步骤:
S1,获取癌症患者样本和非癌对照样本的组织或血液中DNA的甲基化测序数据;
S2,从S1的测序数据中获取所述差异甲基化区间的甲基化水平数据,所述甲基化水平数据指每个差异甲基化区间的全甲基化片段占比值,通过以下公式计算:
,
其中,表示第n个样本第i个差异甲基化区间的MFR值;表示第n个样本第i个差异甲基化区间的全甲基化片段数,全甲基化片段指该片段上所有的CpG位点全部甲基化的片段;/>表示第n个样本第i个差异甲基化区间的未甲基化片段数,未甲基化片段指该片段上所有的CpG位点全部未甲基化的片段;
S3,利用S2中甲基化水平数据对预设数量组织或血浆样本,基于癌症患者分期和非癌对照样本信息,按照预设比例随机抽样,分成训练集、测试集和验证集;
S4,采用机器学习法构建胃癌风险预测模型。
6.一种胃癌风险预测模型的构建方法,其特征在于,包括如下步骤:
M1,获取癌症患者样本和非癌对照样本的组织或血液中DNA的甲基化测序数据;
M2,从M1的测序数据中获取权利要求1-5中任一所述的差异甲基化区间的甲基化水平数据;所述甲基化水平数据指每个差异甲基化区间的全甲基化片段占比(MethylatedFragment Ratio, MFR)值,MFR值通过以下公式计算:
,
其中,表示第n个样本第i个差异甲基化区间的MFR值;表示第n个样本第i个差异甲基化区间的全甲基化片段数,全甲基化片段指该片段上所有的CpG位点全部甲基化的片段;/>表示第n个样本第i个差异甲基化区间的未甲基化片段数,未甲基化片段指该片段上所有的CpG位点全部未甲基化的片段;
M3,利用M2中甲基化水平数据对预设数量组织或血浆样本,基于癌症患者分期和非癌对照样本信息,按照预设比例随机抽样,分成训练集、测试集和验证集;
M4,采用机器学习法构建胃癌风险预测模型;所述采用机器学习法构建胃癌风险预测模型包括通过支持向量机构建胃癌风险预测模型。
7.权利要求6所述的一种胃癌风险预测模型的构建方法构建的一种胃癌风险预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310956843.8A CN116656830B (zh) | 2023-08-01 | 2023-08-01 | 用于胃癌辅助诊断的甲基化标志物、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310956843.8A CN116656830B (zh) | 2023-08-01 | 2023-08-01 | 用于胃癌辅助诊断的甲基化标志物、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116656830A CN116656830A (zh) | 2023-08-29 |
CN116656830B true CN116656830B (zh) | 2023-10-13 |
Family
ID=87721046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310956843.8A Active CN116656830B (zh) | 2023-08-01 | 2023-08-01 | 用于胃癌辅助诊断的甲基化标志物、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116656830B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014082067A1 (en) * | 2012-11-26 | 2014-05-30 | The Johns Hopkins University | Methods and compositions for diagnosing and treating gastric cancer |
WO2018009707A1 (en) * | 2016-07-06 | 2018-01-11 | Youhealth Biotech, Limited | Solid tumor methylation markers and uses thereof |
CN112992354A (zh) * | 2021-03-15 | 2021-06-18 | 南方医科大学 | 一种基于甲基标志物组合评估结直肠癌转移复发风险和动态监测的方法以及系统 |
CN113454219A (zh) * | 2020-08-10 | 2021-09-28 | 华大数极生物科技(深圳)有限公司 | 用于肝癌检测和诊断的甲基化标志物 |
CN116287279A (zh) * | 2023-05-25 | 2023-06-23 | 臻和(北京)生物科技有限公司 | 用于检测胰腺癌的生物标志物及其应用 |
-
2023
- 2023-08-01 CN CN202310956843.8A patent/CN116656830B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014082067A1 (en) * | 2012-11-26 | 2014-05-30 | The Johns Hopkins University | Methods and compositions for diagnosing and treating gastric cancer |
WO2018009707A1 (en) * | 2016-07-06 | 2018-01-11 | Youhealth Biotech, Limited | Solid tumor methylation markers and uses thereof |
CN113454219A (zh) * | 2020-08-10 | 2021-09-28 | 华大数极生物科技(深圳)有限公司 | 用于肝癌检测和诊断的甲基化标志物 |
CN112992354A (zh) * | 2021-03-15 | 2021-06-18 | 南方医科大学 | 一种基于甲基标志物组合评估结直肠癌转移复发风险和动态监测的方法以及系统 |
CN116287279A (zh) * | 2023-05-25 | 2023-06-23 | 臻和(北京)生物科技有限公司 | 用于检测胰腺癌的生物标志物及其应用 |
Non-Patent Citations (1)
Title |
---|
Predicting lung adenocarcinoma disease progression using methylation-correlated blocks and ensemble machine learning classifiers;Xin Yu等;《PeerJ》;第9卷;第1-24页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116656830A (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113454219B (zh) | 用于肝癌检测和诊断的甲基化标志物 | |
CN114736968B (zh) | 血浆游离dna甲基化标志物在肺癌早筛中的用途以及肺癌早筛装置 | |
US20020137086A1 (en) | Method for the development of gene panels for diagnostic and therapeutic purposes based on the expression and methylation status of the genes | |
CN112397151B (zh) | 基于靶向捕获测序的甲基化标志物筛选与评价方法及装置 | |
CN112501293B (zh) | 一种用于检测肝癌的试剂组合,试剂盒及其用途 | |
CN112322736A (zh) | 一种用于检测肝癌的试剂组合,试剂盒及其用途 | |
CN111961729A (zh) | 一种用于检测5-羟甲基胞嘧啶含量的试剂盒及其应用 | |
CN106845154B (zh) | 一种用于ffpe样本拷贝数变异检测的装置 | |
CN107142320B (zh) | 用于检测肝癌的基因标志物及其用途 | |
CN107988372A (zh) | 一种检测结直肠癌易感基因突变的试剂盒及其检测方法 | |
CN114317762B (zh) | 用于检测早期肝癌的三标记物组合物及其试剂盒 | |
CN114317736B (zh) | 用于泛癌种检测的甲基化标志物组合及其应用 | |
CN106399304B (zh) | 一种与乳腺癌相关的snp标记 | |
CN114574587B (zh) | 一种用于结直肠癌检测的标记物组合物及其应用 | |
CN112280865A (zh) | 一种用于检测肝癌的试剂组合,试剂盒及其用途 | |
CN115176033A (zh) | 检测和预测乳腺癌的方法 | |
CN110880356A (zh) | 对卵巢癌进行筛查、诊断或风险分级的方法和装置 | |
WO2019149093A1 (zh) | 一种用于检测食管癌的基因标志物及其用途和检测方法 | |
CN112951325A (zh) | 一种用于癌症检测的探针组合的设计方法及其应用 | |
CN116656830B (zh) | 用于胃癌辅助诊断的甲基化标志物、装置、设备和存储介质 | |
CN115287353B (zh) | 一种肝癌血浆游离dna来源的甲基化标志物及用途 | |
García-Chequer et al. | Overview of recurrent chromosomal losses in retinoblastoma detected by low coverage next generation sequencing | |
CN113817822B (zh) | 一种基于甲基化检测的肿瘤诊断试剂盒及其应用 | |
WO2009018446A1 (en) | Esophageal cancer markers | |
CN114717311A (zh) | 用于检测尿路上皮癌的标志物、试剂盒和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |