CN117238373A - 一种基于甲基化数据筛选疾病标志物的方法 - Google Patents
一种基于甲基化数据筛选疾病标志物的方法 Download PDFInfo
- Publication number
- CN117238373A CN117238373A CN202311140411.6A CN202311140411A CN117238373A CN 117238373 A CN117238373 A CN 117238373A CN 202311140411 A CN202311140411 A CN 202311140411A CN 117238373 A CN117238373 A CN 117238373A
- Authority
- CN
- China
- Prior art keywords
- methylation
- difference interval
- difference
- sample
- detection platform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011987 methylation Effects 0.000 title claims abstract description 232
- 238000007069 methylation reaction Methods 0.000 title claims abstract description 232
- 238000000034 method Methods 0.000 title claims abstract description 59
- 201000010099 disease Diseases 0.000 title claims abstract description 40
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 40
- 238000012216 screening Methods 0.000 title claims abstract description 17
- 238000001514 detection method Methods 0.000 claims abstract description 154
- 238000012163 sequencing technique Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 239000003550 marker Substances 0.000 claims description 16
- 238000002474 experimental method Methods 0.000 claims description 12
- 238000012417 linear regression Methods 0.000 claims description 5
- 239000000523 sample Substances 0.000 description 91
- 239000000243 solution Substances 0.000 description 48
- 239000011324 bead Substances 0.000 description 45
- 238000006243 chemical reaction Methods 0.000 description 44
- 238000003752 polymerase chain reaction Methods 0.000 description 40
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 38
- 239000006228 supernatant Substances 0.000 description 36
- 238000002156 mixing Methods 0.000 description 32
- 108020004414 DNA Proteins 0.000 description 29
- 238000000746 purification Methods 0.000 description 25
- 239000000872 buffer Substances 0.000 description 22
- 206010028980 Neoplasm Diseases 0.000 description 21
- 239000003153 chemical reaction reagent Substances 0.000 description 21
- 239000000203 mixture Substances 0.000 description 19
- 239000007788 liquid Substances 0.000 description 18
- 201000011510 cancer Diseases 0.000 description 17
- 239000012528 membrane Substances 0.000 description 12
- 239000000047 product Substances 0.000 description 12
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 11
- 201000005202 lung cancer Diseases 0.000 description 11
- 208000020816 lung neoplasm Diseases 0.000 description 11
- 239000011534 wash buffer Substances 0.000 description 11
- 230000027455 binding Effects 0.000 description 10
- 238000012360 testing method Methods 0.000 description 10
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 9
- 230000003321 amplification Effects 0.000 description 9
- 238000009396 hybridization Methods 0.000 description 9
- 238000011534 incubation Methods 0.000 description 9
- 238000003199 nucleic acid amplification method Methods 0.000 description 9
- 238000005406 washing Methods 0.000 description 9
- 239000012148 binding buffer Substances 0.000 description 8
- 150000007523 nucleic acids Chemical class 0.000 description 8
- 239000002096 quantum dot Substances 0.000 description 8
- 230000035945 sensitivity Effects 0.000 description 8
- 239000012634 fragment Substances 0.000 description 7
- 102000004190 Enzymes Human genes 0.000 description 6
- 108090000790 Enzymes Proteins 0.000 description 6
- 239000007984 Tris EDTA buffer Substances 0.000 description 6
- 238000005119 centrifugation Methods 0.000 description 6
- 108020004707 nucleic acids Proteins 0.000 description 6
- 102000039446 nucleic acids Human genes 0.000 description 6
- 238000004064 recycling Methods 0.000 description 6
- 238000001179 sorption measurement Methods 0.000 description 6
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 6
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 description 5
- 108091028043 Nucleic acid sequence Proteins 0.000 description 5
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical group NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 5
- 206010009944 Colon cancer Diseases 0.000 description 4
- 108091092584 GDNA Proteins 0.000 description 4
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 4
- 239000008280 blood Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 239000006166 lysate Substances 0.000 description 4
- 239000002773 nucleotide Substances 0.000 description 4
- 125000003729 nucleotide group Chemical group 0.000 description 4
- 210000005259 peripheral blood Anatomy 0.000 description 4
- 239000011886 peripheral blood Substances 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 238000011084 recovery Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 239000002699 waste material Substances 0.000 description 4
- GUAHPAJOXVYFON-ZETCQYMHSA-N (8S)-8-amino-7-oxononanoic acid zwitterion Chemical compound C[C@H](N)C(=O)CCCCCC(O)=O GUAHPAJOXVYFON-ZETCQYMHSA-N 0.000 description 3
- 206010005003 Bladder cancer Diseases 0.000 description 3
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 3
- 230000007067 DNA methylation Effects 0.000 description 3
- 230000004568 DNA-binding Effects 0.000 description 3
- 208000005718 Stomach Neoplasms Diseases 0.000 description 3
- 208000007097 Urinary Bladder Neoplasms Diseases 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000007664 blowing Methods 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 238000003776 cleavage reaction Methods 0.000 description 3
- 230000009089 cytolysis Effects 0.000 description 3
- 238000001035 drying Methods 0.000 description 3
- 238000010828 elution Methods 0.000 description 3
- 239000012149 elution buffer Substances 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 206010017758 gastric cancer Diseases 0.000 description 3
- 238000012165 high-throughput sequencing Methods 0.000 description 3
- 201000007270 liver cancer Diseases 0.000 description 3
- 208000014018 liver neoplasm Diseases 0.000 description 3
- 238000012821 model calculation Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000007017 scission Effects 0.000 description 3
- 201000011549 stomach cancer Diseases 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 201000005112 urinary bladder cancer Diseases 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 206010006187 Breast cancer Diseases 0.000 description 2
- 208000026310 Breast neoplasm Diseases 0.000 description 2
- 230000028937 DNA protection Effects 0.000 description 2
- 102000016911 Deoxyribonucleases Human genes 0.000 description 2
- 108010053770 Deoxyribonucleases Proteins 0.000 description 2
- 108010067770 Endopeptidase K Proteins 0.000 description 2
- 239000004606 Fillers/Extenders Substances 0.000 description 2
- 108091034117 Oligonucleotide Proteins 0.000 description 2
- 206010060862 Prostate cancer Diseases 0.000 description 2
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 2
- LSNNMFCWUKXFEE-UHFFFAOYSA-N Sulfurous acid Chemical compound OS(O)=O LSNNMFCWUKXFEE-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000001369 bisulfite sequencing Methods 0.000 description 2
- 239000002981 blocking agent Substances 0.000 description 2
- 238000005336 cracking Methods 0.000 description 2
- 229940104302 cytosine Drugs 0.000 description 2
- 230000034994 death Effects 0.000 description 2
- 231100000517 death Toxicity 0.000 description 2
- 238000004925 denaturation Methods 0.000 description 2
- 230000036425 denaturation Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 239000003623 enhancer Substances 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 210000002966 serum Anatomy 0.000 description 2
- 210000001519 tissue Anatomy 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 229940035893 uracil Drugs 0.000 description 2
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 208000024893 Acute lymphoblastic leukemia Diseases 0.000 description 1
- 208000014697 Acute lymphocytic leukaemia Diseases 0.000 description 1
- 208000031261 Acute myeloid leukaemia Diseases 0.000 description 1
- 208000009746 Adult T-Cell Leukemia-Lymphoma Diseases 0.000 description 1
- 206010001413 Adult T-cell lymphoma/leukaemia Diseases 0.000 description 1
- 206010003571 Astrocytoma Diseases 0.000 description 1
- 208000032791 BCR-ABL1 positive chronic myelogenous leukemia Diseases 0.000 description 1
- 208000005440 Basal Cell Neoplasms Diseases 0.000 description 1
- 206010004146 Basal cell carcinoma Diseases 0.000 description 1
- 206010005949 Bone cancer Diseases 0.000 description 1
- 208000018084 Bone neoplasm Diseases 0.000 description 1
- 208000003174 Brain Neoplasms Diseases 0.000 description 1
- 206010008342 Cervix carcinoma Diseases 0.000 description 1
- 208000005243 Chondrosarcoma Diseases 0.000 description 1
- 208000010833 Chronic myeloid leukaemia Diseases 0.000 description 1
- 108091029430 CpG site Proteins 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 102000012410 DNA Ligases Human genes 0.000 description 1
- 108010061982 DNA Ligases Proteins 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 108090000626 DNA-directed RNA polymerases Proteins 0.000 description 1
- 102000004163 DNA-directed RNA polymerases Human genes 0.000 description 1
- 206010014733 Endometrial cancer Diseases 0.000 description 1
- 206010014759 Endometrial neoplasm Diseases 0.000 description 1
- 208000000461 Esophageal Neoplasms Diseases 0.000 description 1
- 201000008808 Fibrosarcoma Diseases 0.000 description 1
- 208000017604 Hodgkin disease Diseases 0.000 description 1
- 208000021519 Hodgkin lymphoma Diseases 0.000 description 1
- 208000010747 Hodgkins lymphoma Diseases 0.000 description 1
- 208000008839 Kidney Neoplasms Diseases 0.000 description 1
- 208000031422 Lymphocytic Chronic B-Cell Leukemia Diseases 0.000 description 1
- 208000034578 Multiple myelomas Diseases 0.000 description 1
- 208000033761 Myelogenous Chronic BCR-ABL Positive Leukemia Diseases 0.000 description 1
- 208000033776 Myeloid Acute Leukemia Diseases 0.000 description 1
- 208000005927 Myosarcoma Diseases 0.000 description 1
- 208000001894 Nasopharyngeal Neoplasms Diseases 0.000 description 1
- 206010061306 Nasopharyngeal cancer Diseases 0.000 description 1
- 208000015914 Non-Hodgkin lymphomas Diseases 0.000 description 1
- 108091005461 Nucleic proteins Chemical group 0.000 description 1
- 206010030155 Oesophageal carcinoma Diseases 0.000 description 1
- 206010033128 Ovarian cancer Diseases 0.000 description 1
- 206010061535 Ovarian neoplasm Diseases 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 1
- 206010035226 Plasma cell myeloma Diseases 0.000 description 1
- 208000006664 Precursor Cell Lymphoblastic Leukemia-Lymphoma Diseases 0.000 description 1
- 208000015634 Rectal Neoplasms Diseases 0.000 description 1
- 206010038389 Renal cancer Diseases 0.000 description 1
- 201000010208 Seminoma Diseases 0.000 description 1
- 208000000453 Skin Neoplasms Diseases 0.000 description 1
- 108010090804 Streptavidin Proteins 0.000 description 1
- 208000024313 Testicular Neoplasms Diseases 0.000 description 1
- 206010057644 Testis cancer Diseases 0.000 description 1
- 206010062129 Tongue neoplasm Diseases 0.000 description 1
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 210000004102 animal cell Anatomy 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 208000003362 bronchogenic carcinoma Diseases 0.000 description 1
- 238000004113 cell culture Methods 0.000 description 1
- 201000010881 cervical cancer Diseases 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 208000029742 colonic neoplasm Diseases 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002299 complementary DNA Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000013068 control sample Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000003480 eluent Substances 0.000 description 1
- 238000001976 enzyme digestion Methods 0.000 description 1
- 201000004101 esophageal cancer Diseases 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 206010073071 hepatocellular carcinoma Diseases 0.000 description 1
- 231100000844 hepatocellular carcinoma Toxicity 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000411 inducer Substances 0.000 description 1
- 201000010982 kidney cancer Diseases 0.000 description 1
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 201000001441 melanoma Diseases 0.000 description 1
- 206010027191 meningioma Diseases 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 1
- 238000010369 molecular cloning Methods 0.000 description 1
- 201000002077 muscle cancer Diseases 0.000 description 1
- 238000002515 oligonucleotide synthesis Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 201000002528 pancreatic cancer Diseases 0.000 description 1
- 208000008443 pancreatic carcinoma Diseases 0.000 description 1
- 239000008188 pellet Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000004224 protection Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 239000012264 purified product Substances 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000010188 recombinant method Methods 0.000 description 1
- 206010038038 rectal cancer Diseases 0.000 description 1
- 201000001275 rectum cancer Diseases 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 201000000849 skin cancer Diseases 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 201000003120 testicular cancer Diseases 0.000 description 1
- 201000006134 tongue cancer Diseases 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- 230000002485 urinary effect Effects 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请提供一种基于甲基化数据筛选疾病标志物的方法,包括:获得a个甲基化检测平台的多个样本的甲基化数据;对甲基化数据进行预处理;基于a个甲基化检测平台的经预处理后的甲基化数据,通过计算并筛选出每个甲基化检测平台中的差异区间;基于差异区间存在的甲基化检测平台的个数,对差异区间进行分类,将其分成w个类型;计算w个类型的特征值并基于该特征值来选取疾病标志物;a个甲基化检测平台的测序深度分别为M1~Ma,测序广度分别为L1~La,在M1~Ma中的最大值所在的甲基化检测平台与L1~La中的最大值所在的甲基化检测平台为不同的平台。
Description
技术领域
本申请属于分子生物学领域,涉及基因检测,具体的是涉及一种基于甲基化数据筛选疾病标志物的方法。
背景技术
根据世界卫生组织癌症研究机构(IARC)发布的2020年世界癌症报告(WorldCancer Report),2020年全球新发癌症1930万例,死亡近1000万例;每5人中就有1人将在其一生中患癌症;每8名男性、每11名女性中就有1人将因癌症而死亡;癌症诊断后5年生存人数约为5060万;预计到2040年,全球新发癌症将达到2840万例。
根据IARC发布的数据,2020年癌症新发病例中肺癌(17.9%)占比最高,其次为结直肠癌(12.2%)、胃癌(10.5%)、乳腺癌(9.1%)、肝癌(9%)和膀胱癌(7.1%)。死亡率方面,肺癌依旧是死亡病例数占比(23.8%)最高的癌种,其次分别为肝癌(13%)、胃癌(12.4%)、膀胱癌(10%)和结直肠癌(9.5%),早期筛查与诊断有利于即早干预治疗,提升患者生存率。
cfDNA(cell-free DNA)是外周血中游离的核酸小片段DNA,源于正常细胞或肿瘤细胞与代谢,包含体细胞突变和DNA甲基化等遗传信息。目前,DNA甲基化已被证明具有组织特异性,可用于早期癌症检测,并可根据循环肿瘤DNA(ctDNA)甲基化特征追踪到肿瘤原发部位。
常规的检测甲基化的测序方法包括WGBS(whole genome bisulfitesequencing),450K/850K芯片,RRBS(Reduced representation bisulfite sequencing),靶向Panel定向捕获等方法。每种方式都各有优缺点,例如,WGBS虽然覆盖的基因组范围大,但是测序深度低,不能高分辨样本的甲基化水平。定制的panel虽然可以做到高深度测序,但是覆盖基因组的范围小,因此,得到的可用标志物范围少。如何有效利用不同平台的优缺点,最大限度的利用数据成为研究的关键点。
发明内容
基于现有中存在的问题,本申请的目的在于提供一种利用血液中的游离DNA的甲基化信号,从整合不同平台数据出发,开发出一套针对癌症标志物的筛选方法,最大限度的利用了不同平台数据的优势,从而提高筛选出来的标志物的准确性,所述标志物具有非常高的灵敏度。
本申请具体技术方案如下:
1、一种基于甲基化数据筛选疾病标志物的方法,其中,包括如下步骤:
获得a个甲基化检测平台的多个样本的甲基化数据;
对甲基化数据进行预处理;
基于所述a个甲基化检测平台的经预处理后的甲基化数据,通过计算并筛选出每个甲基化检测平台中的差异区间;
基于所述差异区间存在的所述甲基化检测平台的个数,对差异区间进行分类,将其分成w个类型;
计算所述w个类型的特征值并基于该特征值来选取疾病标志物;
所述a为大于等于2的正整数,
其中a个甲基化检测平台的测序深度分别为M1~Ma,测序广度分别为L1~La,
在M1~Ma中的最大值所在的甲基化检测平台与L1~La中的最大值所在的甲基化检测平台为不同的平台;
多个样本包括疾病组样本和正常组样本。
2、根据项1所述的方法,其中,对甲基化数据进行预处理包括如下步骤:
对所述甲基化数据进行:数据质量预处理和评估(fastp软件)、基因组比对(Bismark软件)、去除样本或实验技术等带来的重复数据(deduplicate_bismark软件)或利用champ.norm函数做标准化。
3、根据项1所述的方法,其中,基于所述a个甲基化检测平台的经预处理后的甲基化数据,通过计算并筛选出每个甲基化检测平台中的差异区间是指通过以下指标中的一种或两种来从待选定的差异区间中确定差异区间:以待选定的差异区间作为检测目标时的疾病组样本检测AUC、以待选定的差异区间作为检测目标时的疾病组样本与正常组样本在该待选定的差异区间的甲基化水平的均值或中位数的差值|delta|。
4、根据项3所述的方法,其中,选取delta值在不同甲基化检测平台中同时为正,或者同时为负的待选定差异区间作为差异区间。
5、根据项3所述的方法,其中,选取不同甲基化检测平台中的|AUC-0.5|>0.2的差异区间。
6、根据项1-5任一项所述的方法,其中,所述w个类型的差异区间的特征值为X,X满足如下公式:
n代表在w个类型的差异区间中,每一种类型中具有的差异区间的个数,其中Δβi表示差异区间i在某一样本中的甲基化水平与该样本所在样本组的甲基化水平的平均值的差异。
7、根据项6所述的方法,其中,当所述差异区间i只存在一个甲基化检测平台时,Δβi表示在该甲基化检测平台上,差异区间i在某一样本中的甲基化水平减去其所在样本组的甲基化水平的平均值;或
当所述差异区间i存在于s个甲基化检测平台时,其中,s为大于等于2的正整数,即所述差异区间i存在于第一甲基化检测平台~第s甲基化检测平台上;Δβi满足如下公式:
b1为在第一甲基化检测平台上,差异区间i在某一样本中的甲基化水平;
d1为在第一甲基化检测平台上,差异区间i在其所在样本组的甲基化水平的平均值;
b2为在第二甲基化检测平台上,差异区间i在某一样本中的甲基化水平;
d2为在第二甲基化检测平台上,差异区间i在其所在样本组的甲基化水平的平均值;
bs为在第s甲基化检测平台上,差异区间i在某一样本中的甲基化水平;
ds为在第s甲基化检测平台上,差异区间i在其所在样本组的甲基化水平的平均值。
8、根据项6或7所述的方法,其中,计算所述w个类型的特征值并基于该特征值来选取疾病标志物是指通过w个类型中的所有差异区间的甲基化水平数据通过广义线性回归来构建概率模型来判断差异区间是否可以作为疾病标志物。
9、根据项8所述的方法,其中,所述概率模型如下:
logit(p)=ln(p/1-p)=α1X1+α2X2+α3X3+......+αwXw+C
其中,p为受试者患所述疾病的概率;
X1、X2、X3、......、Xw分别代表w个类型的差异区间的X值;
α1、α2、α3、......、αw分别代表w个类型的差异区间的权重系数;
C代表常数;
w为2a-1。
10、根据项1-9任一项所述的方法,其中,所述甲基化数据选自Panel数据、RRBS数据、WGBS、450K等甲基化相关检测方法中的两种及其以上。
本申请具有以下有益效果:
本申请通过利用具有不同检测深度以及不同检测广度的甲基化检测平台的数据来挑选w种类型的标志物并计算特征值,基于所述w种类型的标志物的特征值可以得到受试者患癌概率模型。通过本申请所述方法,最大限度的利用了不同平台数据的优势,从而提高筛选出来的标志物的准确性,所述标志物具有非常高的灵敏度。
具体实施方式
下面对本申请做以详细说明。虽然显示了本申请的具体实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
除非另有说明,本申请的实施将采用常规的分子生物学(包括重组技术)、微生物学、细胞生物学、生物化学和基因学技术,其均在本领域常规技术手段的范围内。在文献中对此类技术进行了详细说明如Molecular Cloning:ALaboratory Manual,第二版(Sambrook等,1989);Oligonucleotide Synthesis(M.J.Gait,1984版);Animal CellCulture(R.I.Freshney,1987版);Methods in Enzymology丛书(美国学术出版社有限公司);Current Protocols in Molecular Biology(F.M.Ausubel等,1987版,和定期更新);PCR:The Polymerase Chain Reaction(Mullis等,1994版)。本申请中使用的引物、探针、阻断剂和试剂盒可以采用本领域公知的标准技术制备。
除非另有定义,本申请所使用的技术和科学术语与本申请所属领域的普通技术人员的通常理解具有相同的含义。
定义
本申请的“引物”表示当置于能诱发与核酸链互补的引物延伸产物的合成的条件下,即在核苷酸和诸如DNA或RNA聚合酶的诱发剂的存在下并且在合适的温度和pH下,能够作为合成起始点的寡核苷酸,无论它是纯化的限制性消化物中天然存在的或合成产生的。引物可以是单链或双链的,并且必须足够长而使其在诱发剂的存在下能引发所需延伸产物的合成。引物的确切长度取决于多种因素,包括温度、引物来源和所用的方法。例如,为了诊断和预后应用,根据靶序列的复杂性,寡核苷酸引物通常含有至少或多于约9、10、或15、或20、或25或更多个核苷酸,但是其可以含有更少核苷酸或更多核苷酸。参与确定引物合适长度的因素是本领域技术人员熟知的。
本申请的“引物对”表示与靶DNA分子相反链杂交或与侧翼连接待扩增的核苷酸序列的靶DNA区域杂交的引物对。
本申请的“引物位点”表示引物杂交的靶DNA或其它核酸的区域。
本申请的“探针”,当涉及核酸序列时,以其通常含义使用,表示在规定条件下能与靶序列杂交并且可以用于检测该靶序列的存在的选择的核酸序列。本领域技术人员应当理解,在某些情况下,探针也可以用作引物,并且引物可以用作探针。
本申请的“DNA甲基化”是指甲基添加到胞嘧啶(C)的5位,这通常(但不必须)是在CpG(胞嘧啶之后为鸟嘌呤)二核苷酸的情况下。本文所用的“增加的甲基化程度”或“显著的甲基化程度”是指DNA序列中至少存在一个甲基化的胞嘧啶核苷酸,其中正常对照样品(例如从非癌细胞或组织样品提取的DNA样品或对DNA残基的甲基化进行处理的DNA样品)中对应的C是非甲基化的,在某些实施方式中,至少2、3、4、5、6、7、8、9、10或更多个C可以是甲基化的,其中对照DNA样品中的这些位置的C是非甲基化的。
本申请的“甲基化测定”指确定DNA序列内一个或多个CpG二核苷酸序列的甲基化状态的任何测定。
本申请的“检测”表示观察生物样品中的标志物或标志物改变(例如标志物甲基化状态的改变或核酸或蛋白序列的表达水平)的任何过程,无论实际上是否检测到标志物或标志物改变。换言之,探测样品的标志物或标志物改变的行为是“检测”,即使标志物被测定为不存在或低于灵敏度水平。检测可以是定量、半定量或非定量观察,并且可以基于与一个或多个对照样品的比较。
本申请的“扩增”表示由核酸的一个具体基因座得到多个拷贝的过程,所述核酸例如基因组DNA或cDNA。可以使用多种已知手段中的任何一种实现扩增,所述手段包括但不限于聚合酶链反应(PCR)、基于转录的扩增和链置换扩增(SDA)。
特异性
特异性是指没有特定临床疾病的患者的样本,其检测结果呈阴性的比率。
灵敏度
灵敏度是指患有明确临床疾病的患者的样本,其检测结果呈阳性的比率。
广义线性回归指的是通过连接函数将随机成分连接起来,其中连接函数是一一对应,连接可导的变换。
概述
本申请提供了一种基于甲基化数据筛选疾病标志物的方法,其中,包括如下步骤:
步骤一:获得a个甲基化检测平台的多个样本的甲基化数据;
步骤二:对甲基化数据进行预处理;
步骤三:基于所述a个甲基化检测平台的经预处理后的甲基化数据,通过计算并筛选出每个甲基化检测平台中的差异区间;
步骤四:基于所述差异区间存在的所述甲基化检测平台的个数,对差异区间进行分类,将其分成w个类型;
步骤五:计算所述w个类型的特征值并基于该特征值来选取疾病标志物;
在步骤一中,所述a为大于等于2的正整数,
其中a个甲基化检测平台的测序深度分别为M1~Ma,测序广度分别为L1~La,
在M1~Ma中的最大值所在的甲基化检测平台与L1~La中的最大值所在的甲基化检测平台为不同的平台;
具体地,所述甲基化检测平台的数量至少为2个,其中,至少有一个检测深度较深的甲基化检测平台,至少有一个检测广度较广的甲基化检测平台,例如当所述甲基化检测平台的数量为2个时,2个所述甲基化检测平台的检测深度以及检测广度均不同。
多个样本包括疾病组样本和正常组样本。
具体地,所述疾病组样本中的所有的样本均为患有疾病的受试者。所述正常组样本中的所有样本均为身体健康的受试者。
所述疾病组样本的数量可以与正常组样本的数量相同,也可以不同。
所述疾病组样本的数量大于2,优选大于等于10,进一步优选大于等于20,更进一步优选大于等于40。
所述正常组样本的数量大于2,优选大于等于10,进一步优选大于等于20,更进一步优选大于等于40。
所述甲基化数据选自Panel数据、RRBS数据、WGBS、450K等甲基化相关检测方法中的两种及其以上。
在步骤二中,对甲基化数据进行预处理包括如下步骤:
对所述甲基化数据进行:数据质量预处理和评估(fastp软件)、基因组比对(Bismark软件)、去除样本或实验技术等带来的重复数据(deduplicate_bismark软件)或利用champ.norm函数做标准化。
在步骤三中,基于所述a个甲基化检测平台的经预处理后的甲基化数据,通过计算并筛选出每个甲基化检测平台中的差异区间是指通过以下指标中的一种或两种来从待选定的差异区间中确定差异区间:
以待选定的差异区间作为检测目标时的疾病组样本检测AUC、以待选定的差异区间作为检测目标时的疾病组样本与正常组样本在该待选定的差异区间的甲基化水平的均值或中位数的差值|delta|。
进一步地,选取delta值在不同甲基化检测平台中同时为正,或者同时为负的待选定差异区间作为差异区间。
进一步地,选取不同甲基化检测平台中的|AUC-0.5|>0.2的差异区间。
在步骤四中,基于步骤三中筛选出来的差异区间,将所述差异区间进行分类:
w为2a-1,所述a为大于等于2的正整数,a为甲基化检测平台的数量。
具体地,a可以为2、3、4、5、6......。
具体地,w可以为3、7、15、31、63,......。
例如当所述甲基化检测平台的数量为2个时,2个所述甲基化检测平台分别为第一甲基化检测平台和第二甲基化检测平台,所述差异区间可以分为3类,其分别为①仅在第一甲基化检测平台中的差异区间,②仅在第二甲基化检测平台中的差异区间,③同时在第一甲基化检测平台和第二甲基化检测平台的差异区间。
例如当所述甲基化检测平台的数量为3个时,3个所述甲基化检测平台分别为第一甲基化检测平台、第二甲基化检测平台、第三甲基化检测平台,所述差异区间可以分为7类,其分别为①仅在第一甲基化检测平台中的差异区间,②仅在第二甲基化检测平台中的差异区间,③仅在第三甲基化检测平台中的差异区间,④同时在第一甲基化检测平台和第二甲基化检测平台的差异区间,⑤同时在第一甲基化检测平台和第三甲基化检测平台的差异区间,⑥同时在第二甲基化检测平台和第三甲基化检测平台的差异区间,⑦同时在第一甲基化检测平台、第二甲基化检测平台以及第三甲基化检测平台中的差异区间。
在步骤五中,所述w个类型的差异区间的特征值为X,X满足如下公式:
n代表在w个类型的差异区间中,每一种类型中具有的差异区间的个数,其中Δβi表示差异区间i在某一样本中的甲基化水平与该样本所在样本组的甲基化水平的平均值的差异。
具体地,当所述差异区间i只存在一个甲基化检测平台时,Δβi表示在该甲基化检测平台上,差异区间i在某一样本中的甲基化水平减去其所在样本组的甲基化水平的平均值。
例如当某一样本为S1为疾病组样本,所述差异区间i只存在一个甲基化检测平台时,Δβi表示在该甲基化检测平台上,差异区间i在S1中的甲基化水平减去所述疾病组样本的甲基化水平的平均值。
例如当某一样本为S2为正常组样本,所述差异区间i只存在一个甲基化检测平台时,Δβi表示在该甲基化检测平台上,差异区间i在S2中的甲基化水平减去所述正常组样本的甲基化水平的平均值。
具体地,当所述差异区间i存在于s个甲基化检测平台时,其中,s为大于等于2的正整数,即所述差异区间i存在于第一甲基化检测平台~第s甲基化检测平台上;Δβi满足如下公式:
b1为在第一甲基化检测平台上,差异区间i在某一样本中的甲基化水平;
d1为在第一甲基化检测平台上,差异区间i在其所在样本组的甲基化水平的平均值;
b2为在第二甲基化检测平台上,差异区间i在某一样本中的的甲基化水平;
d2为在第二甲基化检测平台上,差异区间i在其所在样本组的甲基化水平的平均值;
bs为在第s甲基化检测平台上,差异区间i在某一样本中的甲基化水平;
ds为在第s甲基化检测平台上,差异区间i在其所在样本组的甲基化水平的平均值;
例如,当某一样本S3为疾病组样本,所述差异区间i存在两个甲基化检测平台时,即所述差异区间i存在第一甲基化检测平台和第二甲基化检测平台上;Δβi满足如下公式:
b1为在第一甲基化检测平台上,差异区间i在S3中的甲基化水平;
d1为在第一甲基化检测平台上,差异区间i在其所在样本组的甲基化水平的平均值;
b2为在第二甲基化检测平台上,差异区间i在S3中的甲基化水平;
d2为在第二甲基化检测平台上,差异区间i在其所在样本组的甲基化水平的平均值。
例如,当某一样本S4为正常组样本,所述差异区间i存在三个甲基化检测平台时,即所述差异区间i存在第一甲基化检测平台、第二甲基化检测平台以及第三甲基化检测平台上;Δβi满足如下公式:
b1为在第一甲基化检测平台上,差异区间i在S4中的甲基化水平;
d1为在第一甲基化检测平台上,差异区间i在其所在样本组的甲基化水平的平均值;
b2为在第二甲基化检测平台上,差异区间i在S4中的甲基化水平;
d2为在第二甲基化检测平台上,差异区间i在其所在样本组的甲基化水平的平均值;
b3为在第三甲基化检测平台上,差异区间i在S4中的甲基化水平;
d3为在第三甲基化检测平台上,差异区间i在其所在样本组的甲基化水平的平均值。
进一步地,计算所述w个类型的特征值并基于该特征值来选取疾病标志物是指通过w个类型中的所有差异区间的甲基化水平数据通过广义线性回归来构建概率模型来判断差异区间是否可以作为疾病标志物。
进一步地,所述概率模型如下:
logit(P)=ln(p/1-P)=α1X1+α2X2+α3X3+......+αwXw+C
其中,P为受试者患所述疾病的概率,P大于等于0.5时,判定受试者患病,p小于0.5时,判定受试者健康;
X1、X2、X3、......、Xw分别代表w个类型的差异区间的X值;
α1、α2、α3、......、αw分别代表w个类型的差异区间的权重系数;
C代表常数;
w为2a-1。
在本申请中,所述差异区间与标志物可以通用,所述权重系数越高,该权重系数对应的差异区间作为标志物用于检测疾病的的准确度以及灵敏度也越高。
在本申请中,所述疾病可以为肝癌、肺癌、胰腺癌、乳腺癌、宫颈癌、子宫内膜癌、大肠癌、鼻咽癌、卵巢癌、前列腺癌症、皮肤癌、膀胱癌、胃癌、前列腺癌、结肠癌、骨癌、脑癌、直肠癌、食管癌、舌癌、肾癌、子宫体癌、睾丸癌、泌尿癌、黑素癌、星型细胞癌、脑膜瘤、霍奇金淋巴瘤、非霍奇金淋巴瘤、急性淋巴性白血病、慢性淋巴性白血病、急性骨髓性白血病、慢性粒细胞白血病、成人T细胞白血病淋巴瘤、肝细胞癌、支气管癌、多发性骨髓瘤、基底细胞瘤、精原细胞瘤、软骨肉瘤、肌肉瘤、纤维肉瘤等疾病。
实施例
本申请对试验中所用到的材料以及试验方法进行一般性和/或具体的描述,在下面的实施例中,如果无其他特别的说明,%表示wt%,即重量百分数。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规试剂产品。
实施例1
WGBS的实验流程:
1.1.cfDNA提取纯化:
1.1.1.血浆样本制备:
4℃、2000g离心血液样本10min,将血浆转移到一个新的离心管中。4℃、16000g离心血浆样本10min,根据使用的收集管类型,执行下一步,本实验中使用的收集管类型为其他。
1.1.2.裂解和结合:
1.1.2.1.吸取100μl、200μl、300μl、400μl、500μl QIAGEN蛋白酶K到50ml离心管中。
1.1.2.2.加入1ml、2ml、3ml、4ml、5ml血浆或血清到上述50ml离心管中。
1.1.2.3.加入0.8ml、1.6ml、2.4ml、3.2ml、4.0ml Buffer ACL(含1.0μgcarrierRNA),盖上盖子并涡旋30s;注意:充分混匀保证裂解充分;立即进行下一步。
1.1.2.4.在60℃孵育30min。
1.1.2.5.取出离心管置于试验台上,旋开管盖。
1.1.2.6.加入1.8ml、3.6ml、5.4ml、7.2ml、9.0ml的Buffer ACB到50ml离心管中;盖上盖子,混匀15-30s。
1.1.2.7.在冰上孵育裂解混合物5min。
1.1.2.8.在真空泵接头适配器上插入QIAampMini column,将20ml tubeextender插在柱子上;注:确保tube extender牢固的插在QIAamp Mini column上,避免样本泄露。
1.1.2.9.将步骤7中的裂解物-缓冲液ACB混合物小心地加到QIAamp Mini column的tube extender中,打开真空泵;当所有裂解物完全从Mini column中抽出后,关闭真空泵,将压力释放至0mbar;小心地拆下并丢弃扩管器。
1.1.3.洗涤:
1.1.3.1.加入600μl Buffer ACW1到Mini column中,开盖状态,开启真空泵;所有液体通过柱膜后,关闭真空泵,释放压力到0mbar。
1.1.3.2.加入750μl Buffer ACW2到Mini column中,开盖状态,开启真空泵;所有液体通过柱膜后,关闭真空泵,释放压力到0mbar。
1.1.3.3.加入750μl乙醇(96-100%)到Mini column中,开盖状态,开启真空泵;所有液体通过柱膜后,关闭真空泵,释放压力到0mbar。
1.1.3.4.盖上QIAamp Mini column盖子,从适配器上取下,丢弃VacConnector。将QIAamp Mini column放到干净的2ml收集管中,高速离心(20000g;14000rpm)离心3min。
1.1.3.5.将QIAamp Mini column放到新的2ml收集管中。打开管盖,室温孵育5min使膜完全干燥。
1.1.4.洗脱cfDNA:
1.1.4.1.将QIAamp Mini column放到1.5ml洗脱管中,丢弃14步中的2ml收集管。加入20-150μl的Buffer AVE到Mini membrane的中心;盖上管盖,室温孵育3min。
1.1.4.2.离心机中全速(20000g;14000rpm)离心1min以洗脱核酸。
对于cfDNA样品,Agilent2100进行片段检测,直接Qubit用于后续的实验。
1.2.Bisulfite转化及纯化:
1.2.1.准备CT Conversion Reagent:
1.2.1.1.将700μl NF水、300μl M-Dilution Buffer和50μl M-DissolvingBuffer加入一管CT转化试剂中,室温混匀,频繁涡旋或摇晃10min。
1.2.1.2.混匀后进行分装,配置一次为10个反应量。
1.2.2.对DNA文库进行重亚硫酸盐转化,根据下表配制反应体系。
表1
组分 | 高浓度样本(1ng-2μg)体积 |
上步反应结束的样品 | 40μl |
CT Conversion Reagent | 110μl |
Total volume | 150μl |
1.2.3.将移液器调至100μl,轻轻吸打混匀6次,然后分成两管,置于PCR仪上。
1.2.4.设置以下程序在PCR仪上进行反应:热盖温度105℃。
表2
温度 | 时间 |
98℃ | 10min |
64℃ | 2.5h |
4℃ | ∞ |
1.2.5.取一个新的1.5ml离心管,加入600μl的M-Binding Buffer。
1.2.6.PCR结束后,简短离心将两管相同样本分别转移至上述对应的1.5ml离心管中,混匀。
1.2.7.将上述混合好的样本加入Zymo-SpinTM IC Column中,颠倒混匀,10,000x g离心30s。
1.2.8.向柱子中加入100μl的M-Wash Buffer,10,000x g离心30s。
1.2.9.向柱子中加入200μl的M-Desulphonation Buffer,室温静置15-20min,10,000x g离心30s。
1.2.10.向柱子中加入200μl的M-Wash Buffer,10,000x g离心30s。
1.2.11.重复上一步一次。
1.2.12.将柱子放入一个新的收集管中,10,000x g再次离心30s。
1.2.13.将回收柱放入一个新的1.5ml EP管中,加入15μl LOW EDTA缓冲液到柱膜中央,10,000x g离心30s。
1.3.变性:
1.3.1.将PCR仪预热至95℃。
1.3.2.设置以下程序在PCR仪上进行反应:热盖温度105℃。
表3
温度 | 时间 |
95℃ | ∞ |
95℃ | 2min |
95℃ | ∞ |
1.3.3.孵育完成后,立即将试管放在冰上2min。
1.4.接头连接及纯化:
1.4.1.参照下表配置反应体系:
表4
1.4.2.设置以下程序在PCR仪上进行反应:热盖温度105℃。
表5
温度 | 时间 |
37℃ | ∞ |
37℃ | 15min |
95℃ | 2min |
4℃ | ∞ |
1.5.样本延伸及纯化:
1.5.1.参照下表配置反应体系:
表6
组分 | 体积 |
Reagent Y1 | 2ul |
Enzyme Y2 | 42ul |
totalVolume | 44ul |
1.5.2.设置以下程序在PCR仪上进行反应:热盖温度105℃。
表7
温度 | 时间 |
98℃ | ∞ |
98℃ | 1min |
62℃ | 2min |
65℃ | 5min |
4℃ | ∞ |
1.5.3.DNA保护缓冲液加入液体变成蓝色。轻轻吸打混匀,然后分成两管至于PCR仪上。
1.5.4.设置以下程序,并运行:热盖105℃。
表8
温度 | 时间 |
95℃ | 5min |
60℃ | 10min |
95℃ | 5min |
60℃ | 10min |
4℃ | ∞ |
1.5.5.根据下表制备纯化体系:
表9
投入量 | 反应体积 | 磁珠量 | 体积 |
200bp(SeqCap Epi) | 84μl | 101μl(ratio:1.2) | 15μl |
1.5.6.向每个样本中加入上述比例磁珠进行回收,震荡混匀瞬离。
1.5.7.室温静置孵育5min。
1.5.8.震荡混匀瞬时离心放置在磁力架上吸附直至溶液呈请(~2min),待溶液澄清后吸走上清。
1.5.9.加入200μl的80%乙醇清洗30s磁珠,丢弃上清液,小心地从中清除所有滴管内壁剩余的乙醇。
1.5.10.重复上述步骤。
1.5.11.加入上表推荐的low EDTA TE缓冲液最佳体积洗脱,后震荡混匀。
1.5.12.在室温下孵育2min。
1.5.13.放置磁力架上吸附直至溶液澄清(~2min)待溶液澄清后吸走上清。
1.5.14.将整个洗脱液转移到新的0.2mL PCR管中,确保洗脱液不包含磁珠。
1.6.接头连接及纯化:
1.6.1.根据下表制备文库反应体系:
表10
1.6.2.设置以下程序,并运行:热盖0℃:
表11
温度 | 时间 |
25℃ | ∞ |
25℃ | 15min |
4℃ | ∞ |
1.6.3.根据下表制备纯化体系:
表12
投入量 | 反应体积 | 磁珠量 | 体积 |
200bp(SeqCap Epi) | 30μl | 36μl(ratio:1.2) | 20μl |
1.6.4.向每个样本中加入上述比例磁珠进行回收,震荡混匀瞬离。
1.6.5.室温静置孵育5min。
1.6.6.震荡混匀瞬时离心放置在磁力架上吸附直至溶液呈请(~2min),待溶液澄清后吸走上清。
1.6.7.加入200μl的80%乙醇清洗30s磁珠,丢弃上清液,小心地从中清除所有滴管内壁剩余的乙醇。
1.6.8.重复上述步骤。
1.6.9.加入上表推荐的low EDTA TE缓冲液最佳体积洗脱,后震荡混匀。
1.6.10.在室温下孵育2min。
1.6.11.放置磁力架上吸附直至溶液澄清(~2min)待溶液澄清后吸走上清。
1.6.12.将整个洗脱液转移到新的0.2mL PCR管中,确保洗脱液不包含磁珠。
1.7.文库扩增及纯化:
1.7.1.根据下表制备文库反应体系:
表13
组分 | 体积 |
上述反应DNA | 20μl |
KAPA HiFi HotStart Uracil+ReadyMix(2x) | 25μl |
index(U001-U024) | 5μl |
Total volume | 50μl |
1.7.2.设置以下程序,并运行:热盖105℃:
表14
1.7.3.推荐循环数如下表:
表15
投入量 | 推荐循环数 |
20ng cfDNA | 10-11 |
100ng gDNA | 9-10 |
20ng gDNA | 11-12 |
1.7.4.根据下表制备纯化体系:
表16
投入量 | 反应体积 | 磁珠量 | 体积 |
200bp(SeqCap Epi) | 50μl | 60μl(ratio:1.2) | 22μl |
1.7.5.将PCR产物转入1.5ml离心管中。
1.7.6.向每个样本中加入上述比例磁珠进行回收,震荡混匀瞬离。
1.7.7.室温静置孵育5min。
1.7.8.震荡混匀瞬时离心放置在磁力架上吸附直至溶液呈请(~2min),待溶液澄清后吸走上清。
1.7.9.加入500μl的80%乙醇清洗30s磁珠,丢弃上清液,小心地从中清除所有滴管内壁剩余的乙醇。
1.7.10.重复上述步骤。
1.7.11.磁力架上放置5-10分钟,直到珠子干燥(避免过度干燥,过度干燥可能会导致DNA回收率降低)。
1.7.12.加入上表推荐的low EDTA TE缓冲液最佳体积洗脱,后震荡混匀。
1.7.13.在室温下孵育2min。
1.7.14.放置磁力架上吸附直至溶液澄清(~2min)待溶液澄清后吸走上清。
1.7.15.将整个洗脱液转移到新的0.2mL PCR管中,确保洗脱液不包含磁珠。
1.7.16.吸出1μl进行qubit标定并进行2100质检。
1.7.17.取1μl文库使用Qubit进行定量,记录文库浓度。
1.7.18.取1μl样品使用Agilent2100进行文库片段长度测定。
1.7.19.使用Illumina高通量测序平台进行测序。
Panel的实验流程:
1.1.cfDNA提取纯化:
1.1.1.血浆样本制备:
4℃、2000g离心血液样本10min,将血浆转移到一个新的离心管中。4℃、16000g离心血浆样本10min,根据使用的收集管类型,执行下一步,本实验中使用的收集管类型为其他。
1.1.2.裂解和结合:
1.1.2.1.吸取100μl、200μl、300μl、400μl、500μl QIAGEN蛋白酶K到50ml离心管中。
1.1.2.2.加入1ml、2ml、3ml、4ml、5ml血浆或血清到上述50ml离心管中。
1.1.2.3.加入0.8ml、1.6ml、2.4ml、3.2ml、4.0ml Buffer ACL(含1.0μg carrierRNA),盖上盖子并涡旋30s;注意:充分混匀保证裂解充分;立即进行下一步。
1.1.2.4.在60℃孵育30min。
1.1.2.5.取出离心管置于试验台上,旋开管盖。
1.1.2.6.加入1.8ml、3.6ml、5.4ml、7.2ml、9.0ml的Buffer ACB到50ml离心管中;盖上盖子,混匀15-30s。
1.1.2.7.在冰上孵育裂解混合物5min。
1.1.2.8.在真空泵接头适配器上插入QIAampMini column,将20ml tubeextender插在柱子上;注:确保tube extender牢固的插在QIAamp Mini column上,避免样本泄露。
1.1.2.9.将步骤7中的裂解物-缓冲液ACB混合物小心地加到QIAamp Mini column的tube extender中,打开真空泵;当所有裂解物完全从Mini column中抽出后,关闭真空泵,将压力释放至0mbar;小心地拆下并丢弃扩管器。
1.1.3.洗涤:
1.1.3.1.加入600μl Buffer ACW1到Mini column中,开盖状态,开启真空泵;所有液体通过柱膜后,关闭真空泵,释放压力到0mbar。
1.1.3.2.加入750μl Buffer ACW2到Mini column中,开盖状态,开启真空泵;所有液体通过柱膜后,关闭真空泵,释放压力到0mbar。
1.1.3.3.加入750μl乙醇(96-100%)到Mini column中,开盖状态,开启真空泵;所有液体通过柱膜后,关闭真空泵,释放压力到0mbar。
1.1.3.4.盖上QIAamp Mini column盖子,从适配器上取下,丢弃VacConnector。将QIAamp Mini column放到干净的2ml收集管中,高速离心(20000g;14000rpm)离心3min。
1.1.3.5.将QIAamp Mini column放到新的2ml收集管中。打开管盖,室温孵育5min使膜完全干燥。
1.1.4.洗脱cfDNA:
1.1.4.1.将QIAamp Mini column放到1.5ml洗脱管中,丢弃14步中的2ml收集管。加入20-150μl的Buffer AVE到Mini membrane的中心;盖上管盖,室温孵育3min。
1.1.4.2.离心机中全速(20000g;14000rpm)离心1min以洗脱核酸。
对于cfDNA样品,Agilent2100进行片段检测,直接Qubit用于后续的实验。
1.2.Bisulfite转化及纯化:
1.2.1..准备CT Conversion Reagent:
1.2.1.1..将700μl NF水、300μl M-Dilution Buffer和50μl M-DissolvingBuffer加入一管CT转化试剂中,室温混匀,频繁涡旋或摇晃10min。
1.2.1.2.混匀后进行分装,配置一次为10个反应量。
1.2.2.对DNA文库进行重亚硫酸盐转化,根据下表配制反应体系。
表1
1.2.3.将移液器调至100μl,轻轻吸打混匀6次,然后分成两管,置于PCR仪上。
1.2.4.设置以下程序在PCR仪上进行反应:热盖温度105℃。
表2
温度 | 时间 |
98℃ | 10min |
64℃ | 2.5h |
4℃ | ∞ |
1.2.5.取一个新的1.5ml离心管,加入600μl的M-Binding Buffer。
1.2.6.PCR结束后,简短离心将两管相同样本分别转移至上述对应的1.5ml离心管中,混匀。
1.2.7.将上述混合好的样本加入Zymo-SpinIC Column中,颠倒混匀,10,000x g离心30s。
1.2.8.向柱子中加入100μl的M-Wash Buffer,10,000x g离心30s。
1.2.9.向柱子中加入200μl的M-Desulphonation Buffer,室温静置15-20min,10,000x g离心30s。
1.2.10.向柱子中加入200μl的M-Wash Buffer,10,000x g离心30s。
1.2.11.重复上一步一次。
1.2.12.将柱子放入一个新的收集管中,10,000x g再次离心30s。
1.2.13.将回收柱放入一个新的1.5ml EP管中,加入15μl LOW EDTA缓冲液到柱膜中央,10,000x g离心30s。
1.3.变性:
1.3.1.将PCR仪预热至95℃。
1.3.2.设置以下程序在PCR仪上进行反应:热盖温度105℃。
表3
温度 | 时间 |
95℃ | ∞ |
95℃ | 2min |
95℃ | ∞ |
1.3.3.孵育完成后,立即将试管放在冰上2min。
1.4.接头连接及纯化:
1.4.1.参照下表配置反应体系:
表4
组分 | 体积 |
Low EDTA TE | 11.5μl |
Buffer G1 | 4μl |
Reagent G2 | 4μl |
Reagent G3 | 2.5μl |
Enzyme G4 | 1μl |
Enzyme G5 | 1μl |
Enzyme G6 | 1μl |
DNA | 15μl |
Total Volume | 40μl |
1.4.2.设置以下程序在PCR仪上进行反应:热盖温度105℃。
表5
温度 | 时间 |
37℃ | ∞ |
37℃ | 15min |
95℃ | 2min |
4℃ | ∞ |
1.5.样本延伸及纯化:
1.5.1.参照下表配置反应体系:
表6
组分 | 体积 |
Reagent Y1 | 2μl |
Enzyme Y2 | 42μl |
totalVolume | 44μl |
1.5.2.设置以下程序在PCR仪上进行反应:热盖温度105℃。
表7
温度 | 时间 |
98℃ | ∞ |
98℃ | 1min |
62℃ | 2min |
65℃ | 5min |
4℃ | ∞ |
1.5.3.DNA保护缓冲液加入液体变成蓝色。轻轻吸打混匀,然后分成两管至于PCR仪上。
1.5.4.设置以下程序,并运行:热盖105℃。
表8
温度 | 时间 |
95℃ | 5min |
60℃ | 10min |
95℃ | 5min |
60℃ | 10min |
4℃ | ∞ |
1.5.5.根据下表制备纯化体系:
表9
投入量 | 反应体积 | 磁珠量 | 体积 |
200bp(SeqCap Epi) | 84ul | 101μl(ratio:1.2) | 15μl |
1.5.6.向每个样本中加入上述比例磁珠进行回收,震荡混匀瞬离。
1.5.7.室温静置孵育5min。
1.5.8.震荡混匀瞬时离心放置在磁力架上吸附直至溶液呈请(~2min),待溶液澄清后吸走上清。
1.5.9.加入200μl的80%乙醇清洗30s磁珠,丢弃上清液,小心地从中清除所有滴管内壁剩余的乙醇。
1.5.10.重复上述步骤。
1.5.11.加入上表推荐的low EDTA TE缓冲液最佳体积洗脱,后震荡混匀。
1.5.12.在室温下孵育2min。
1.5.13.放置磁力架上吸附直至溶液澄清(~2min)待溶液澄清后吸走上清。
1.5.14.将整个洗脱液转移到新的0.2mL PCR管中,确保洗脱液不包含磁珠。
1.6.接头连接及纯化:
1.6.1.根据下表制备文库反应体系:
表10
组分 | 体积 |
Buffer B1 | 3μl |
Reagent B2 | 10μl |
Enzyme B3 | 2μl |
TotalVolume | 15μl |
1.6.2.设置以下程序,并运行:热盖0℃:
表11
温度 | 时间 |
25℃ | ∞ |
25℃ | 15min |
4℃ | ∞ |
1.6.3.根据下表制备纯化体系:
表12
投入量 | 反应体积 | 磁珠量 | 体积 |
200bp(SeqCap Epi) | 30μl | 36μl(ratio:1.2) | 20μl |
1.6.4.向每个样本中加入上述比例磁珠进行回收,震荡混匀瞬离。
1.6.5.室温静置孵育5min。
1.6.6.震荡混匀瞬时离心放置在磁力架上吸附直至溶液呈请(~2min),待溶液澄清后吸走上清。
1.6.7.加入200μl的80%乙醇清洗30s磁珠,丢弃上清液,小心地从中清除所有滴管内壁剩余的乙醇。
1.6.8.重复上述步骤。
1.6.9.加入上表推荐的low EDTA TE缓冲液最佳体积洗脱,后震荡混匀。
1.6.10.在室温下孵育2min。
1.6.11.放置磁力架上吸附直至溶液澄清(~2min)待溶液澄清后吸走上清。
1.6.12.将整个洗脱液转移到新的0.2mL PCR管中,确保洗脱液不包含磁珠。
1.7.文库扩增及纯化:
1.7.1.根据下表制备文库反应体系:
表13
组分 | 体积 |
上述反应DNA | 20μl |
KAPA HiFi HotStart Uracil+ReadyMix(2x) | 25μl |
index(U001-U024) | 5μl |
Total volume | 50μl |
1.7.2.设置以下程序,并运行:热盖105℃:
表14
1.7.3.推荐循环数如下表:
表15
投入量 | 推荐循环数 |
20ng cfDNA | 10-11 |
100ng gDNA | 9-10 |
20ng gDNA | 11-12 |
1.7.4.根据下表制备纯化体系:
表16
投入量 | 反应体积 | 磁珠量 | 体积 |
200bp(SeqCap Epi) | 50μl | 60μl(ratio:1.2) | 22μl |
1.7.5.将PCR产物转入1.5ml离心管中。
1.7.6.向每个样本中加入上述比例磁珠进行回收,震荡混匀瞬离。
1.7.7.室温静置孵育5min。
1.7.8.震荡混匀瞬时离心放置在磁力架上吸附直至溶液呈请(~2min),待溶液澄清后吸走上清。
1.7.9.加入500μl的80%乙醇清洗30s磁珠,丢弃上清液,小心地从中清除所有滴管内壁剩余的乙醇。
1.7.10.重复上述步骤。
1.7.11.磁力架上放置5-10分钟,直到珠子干燥(避免过度干燥,过度干燥可能会导致DNA回收率降低)。
1.7.12.加入上表推荐的low EDTA TE缓冲液最佳体积洗脱,后震荡混匀。
1.7.13.在室温下孵育2min。
1.7.14.放置磁力架上吸附直至溶液澄清(~2min)待溶液澄清后吸走上清。
1.7.15.将整个洗脱液转移到新的0.2mL PCR管中,确保洗脱液不包含磁珠。
1.7.16.吸出1μl进行qubit标定并进行2100质检。
1.8.样本与探针杂交:
1.8.1.混合样本:
1.8.1.1.DNA文库用量参考下表,总用量可以用超过1500ng总量,但不大于4ug;
表17
混合样本数量 | 每个文库的用量 | 每个反应文库总量 |
1 | 500ng | 500ng |
2 | 500ng | 1000ng |
3 | 500ng | 1500ng |
4 | 375ng | 1500ng |
8 | 187.5ng | 1500ng |
1.8.1.2.计算好不同样本用量,在离心管中混合均匀。
1.8.1.3.在混合好的样本中分别加入以下预杂交试剂,混匀,尽量不要产生气泡。
表18
组分 | 体积 |
Twist探针panel | 4μl |
通用封闭剂 | 8μl |
封闭剂溶液 | 5μl |
Methylation Enhancer | 2μl |
1.8.1.4.将以上混合好的预杂交试剂在真空浓缩仪中常温(如需加热,请用低温)烘干。
1.8.2.杂交:
1.8.2.1.将Fast Hybridization Mix在65℃孵育10min或直至所有沉淀溶解,迅速涡旋并加20μl至上步冻干的样本中重悬样本(请不要让杂交液恢复至室温),指尖轻弹混匀,避免产生气泡。
1.8.2.2.快速离心去除气泡,加入30ul Hybridization Enhancer至以上试剂表面。
1.8.2.3.将PCR管放入预热好的PCR仪中杂交。
1.8.2.4.设置以下程序,并运行:热盖85℃。
表19
温度 | 时间 |
95℃ | ∞ |
95℃ | 5min |
60℃ | 15min-4h |
1.8.3.结合:
1.8.3.1.震荡预平衡的链霉亲和素磁珠直至完全混匀,加入100μl磁珠至1.5ml离心管中。
1.8.3.2.加入200ul结合缓冲液并用枪头吹打混匀。
1.8.3.3.将离心管置于磁力架上1min或至溶液澄清,弃去上清,取下离心管。
1.8.3.4.重复以上洗涤步骤2次,共3次。
1.8.3.5.最后一次清洗后,加入200ul结合缓冲液,震荡重悬使充分混匀。
1.8.3.6.杂交结束后,打开PCR仪盖子并迅速将杂交液全部转移至平衡好的磁珠中。
1.8.3.7.将加入了杂交液的磁珠在Shaker,rocker或rotator上室温充分混匀30min。
1.8.3.8.将离心管从混匀仪上取下,快速离心后在磁力架上放置1min,去上清,取下管子。
1.8.3.9.加入200μl预热的洗液1,混匀。
1.8.3.10.63℃或65℃孵育5min。
1.8.3.11.将离心管放置于磁力架上1min,去上清,取下管子。
1.8.3.12.重复以上步骤,再次加入200μl预热的洗液1,混匀。
1.8.3.13.在63℃或65℃孵育5min。
1.8.3.14.转移液体至一个新管子;磁力架上放置1min,去上清,取下管子。
1.8.3.15.加入200ul预热过的wash buffer 2,枪头混匀。
1.8.3.16.48℃孵育5min。
1.8.3.17.磁力架上放置1min,去上清,取下管子。
1.8.3.18.重复(步骤3.15-3.17)洗2次,共三次。
1.8.3.19.最后一次,用10μl枪头吸干净洗液。
1.8.3.20.加入45μl水,混匀,冰上孵育该溶液。
1.8.4.捕获后PCR扩增、纯化和质检:
1.8.4.1.设置以下程序,并运行:热盖105℃。
表20
1.8.4.2.混合1.3中的磁珠混合物,吸取22.5ul至0.2mlPCR管中。
1.8.4.3.将0.2mlPCR管中加入2.5μl扩增引物,25μl KAPA HiFi HotStartReadyMix,共50μl反应体系。
1.8.4.4.用枪头温和混匀,快速离心后放入PCR仪中,开始扩增。
1.8.4.5.涡旋充分混匀预平衡的DNA纯化磁珠。
1.8.4.6.在扩增后的PCR产物中加入90μl(1.8*)DNA纯化磁珠,涡旋充分混匀。
1.8.4.7.室温孵育5min。
1.8.4.8.将离心管置于磁力架上1min,待溶液澄清后去上清。
1.8.4.9.不用将离心管从磁力架上取下,直接加入现配的200μl 80%乙醇,孵育1min,弃上清;重复一次80%乙醇洗涤(共2次),保持离心管在磁力架上。
1.8.4.10.用10μl枪头小心去除残留的乙醇,室温放置5-10min或至磁珠干燥,请注意不要使磁珠过干。
1.8.4.11.从磁力架上取下管子并加入32μl水,用枪头吹打充分混匀,室温孵育2min
1.8.4.12.将离心管置于磁力架上3min或至溶液澄清。
1.8.4.13.转移30μl上清至干净的0.2ml离心管。
1.8.4.14.取1μl文库使用Qubit进行定量,记录文库浓度。
1.8.4.15.取1μl样品使用Agilent2100进行文库片段长度测定。
1.8.4.16.使用Illumina高通量测序平台进行测序。
RRBS的实验流程:
1.1.cfDNA提取纯化
1.1.1.血浆样本制备:
4℃、2000g离心血液样本10min,将血浆转移到一个新的离心管中。4℃、16000g离心血浆样本10min,根据使用的收集管类型,执行下一步,本实验中使用的收集管类型为其他。
表1
1.1.2.裂解和结合
1.1.2.1.按照下表准备结合溶液/珠子混合物,然后彻底混匀。
表2
加入适量体积的血浆样品。
1.1.2.2.彻底混匀血浆样品和结合溶液/珠子混合物。
1.1.2.3.在旋转混匀仪上充分的结合10min,使cfDNA结合到磁珠上。
1.1.2.4.将结合管放在磁力架上5min,直到溶液变得澄清,磁珠完全吸附在磁力架上。
1.1.2.5.用移液管小心的弃去上清,继续保持管子在磁力架上几分钟,用移液管移去残留上清。
1.1.3.洗涤
1.1.3.1.将珠子重悬在1ml洗涤溶液中。
1.1.3.2.将重悬液转移到新的无吸附1.5ml离心管中。保留结合管。
1.1.3.3.将含有珠子重悬液的离心管置于磁力架上,20s。
1.1.3.4.将分离得到的上清,吸出洗涤结合管,将清洗后的残留珠子再次收集到重悬液中,弃掉裂解/结合管。
1.1.3.5.管子置于磁力架上2min,直到溶液变得澄清,珠子聚集在磁力架,用1ml移液器移除上清。
1.1.3.6.管子留在磁力架上,用200μL移液器尽可能移除残留的液体。
1.1.3.7.将管子从磁力架取下来,加入1ml洗涤溶液,涡旋30s。
1.1.3.8.置于磁力架2min,直到溶液澄清,珠子聚集在磁力架上,用1ml移液管移除上清。
1.1.3.9.管子留在磁力架上,用200μL移液器彻底移除残留液体。
1.1.3.10.将管子从磁力架取下,加入1ml 80%乙醇,涡旋30s。
1.1.3.11.置于磁力架上2min,溶液变得澄清,用1ml移液器移去上清。
1.1.3.12.管子留在磁力架上,用200μL移液器移去残留液体。
1.1.3.13.用80%乙醇重复上述1.1.3.10.-1.1.3.12.步骤一次,尽可能除去上清。
1.1.3.14.管子留在磁力架上,空气中干燥珠子3~5分钟。
1.1.4.洗脱cfDNA
1.1.4.1.按照下表加入洗脱液。
表3
1.1.4.2.涡旋5min,置于磁力架上2min,溶液变得澄清,吸取上清液中的cfDNA。
1.1.4.3.纯化的cfDNA立即使用,或者将上清转移至新的离心管中,-20℃保存。
1.1.4.4.Agilent2100进行片段检测,直接Qubit用于后续的实验。
1.2.MspI酶切消化:
1.2.1.取100ng以下DNA至PCR管中,加入以下试剂,涡旋混匀:
表3
组分 | 体积 |
DNA | Xul |
10×RRBS Buffer | 4μl |
MspI(20U/μl) | 0.5μl |
DNase/RNase-free Water | (35.5X)μl |
总体积 | 40μl |
1.2.2.设置以下程序在PCR仪上进行反应:热盖温度85℃。
表4
温度 | 时间 |
37℃ | 4h |
4℃ | ∞ |
1.3.接头连接及纯化:
1.3.1.按下表配制以下试剂,轻轻吸打混匀,短暂离心:
表5
组分 | 体积 |
上一步酶切产物 | 40μl |
10×RRBS Buffer | 1μl |
rATP(10mM) | 0.5μl |
RRBS Adapters(10μM) | 0.5μl |
MspI(20U/μl) | 1μl |
T4 DNA Ligase(400U/μl) | 1μl |
DNase/RNase-free Water | 6μl |
总体积 | 50μl |
1.3.2.设置以下程序在PCR仪上进行反应:热盖温度85℃。
表6
1.3.3.按下表配制以下试剂,轻轻吸打混匀,短暂离心:
表7
1.3.4.设置以下程序在PCR仪上进行反应:
表8
温度 | 时间 |
74℃ | 30min |
1.3.5.取1.5ml离心管,按7:1比例加入DNABinding Buffer于上述产物中(即加入364μl的DNA Binding Buffer至52μl的产物中)混匀,转移至Zymo-Spin IC离心柱中,离心≥10,000x g,30s。
1.3.6.加200μl DNA Wash Buffer至离心柱中,离心≥10,000x g,30s。弃废液,重复此步骤。(洗涤后可选择干旋转,确保清洗缓冲液完全清除的步骤。)
1.3.7.将离心柱转移至新的1.5ml的离心管中,加20μl DNA Elution Buffer,室温孵育1min后,离心≥10,000x g,30s。
1.4重亚硫酸盐处理及纯化:
1.5.1.预先拿出所需要的试剂,并溶解。根据下表加入各试剂:
表9
组分 | 体积 |
接头连接纯化产物 | 20μl |
Lightning Conversion Reagent | 130μl |
总体积 | 150μl |
1.5.3.设置以下程序,并运行:热盖105℃。
表10
温度 | 时间 |
98℃ | 8min |
54℃ | 1h |
4℃ | ∞ |
1.5.4.加600μl M-Binding Buffer至Zymo-Spin IC Column离心柱中,加亚硫酸盐转化样本于柱中,盖好盖子,颠倒8次,离心≥10,000x g,30s。
1.5.5.弃废液,加100μl M-Wash Buffer至离心柱中,离心≥10,000xg,30s。
1.5.6.加200μl L-Desulphonation Buffer至离心柱中,并在20℃-30℃环境放置15-20min,孵育结束后,离心≥10,000x g,30s。(注:孵育时间不能超20分钟)
1.5.7.加200μl M-Wash Buffer至离心柱≥10,000x g,30s。弃废液。
1.5.8.重复上一步。
1.5.9.将离心柱转移至新的1.5ml离心管中,加24μl DNA Elution Buffer,孵育1min,离心≥10,000x g,30s,得到亚硫酸盐转化后的DNA。
1.6.扩增及纯化:
1.6.1.按下列表格配制反应体系,吹打混匀,短暂离心:
表11
组分 | 体积 |
LibraryAmp Master Mix(2×) | 25μl |
Index Primer Set(10μM) | 1μl |
上一步的产物 | 24μl |
总体积 | 50μl |
1.6.2.设置以下程序并启动PCR程序:热盖105℃
表12
1.6.4.取1.5ml离心管,按7:1比例加入DNA Binding Buffer于上述产物中(即加入350μl的DNA Binding Buffer至50μl的产物中),混匀,转移至Zymo-Spin IC离心柱中,离心≥10,000x g,30s。
1.6.5.加200μl DNA Wash Buffer至离心柱中,离心≥10,000x g,30s。弃废液,重复此步骤。(洗涤后可选择干旋转,确保清洗缓冲液完全清除的步骤。)。
1.6.6.将离心柱转移至新的1.5ml的离心管中,加15μl DNA Elution Buffer,室温孵育1min后,离心≥10,000x g,30s。
1.6.7.用移液器吸13μl上清液转移到1.5ml离心管,标记样品信息。
1.6.8.取1μl文库使用Qubit进行定量,记录文库浓度。
1.6.9.取1μl样品使用Agilent2100进行文库片段长度测定。
1.6.10.使用Illumina高通量测序平台进行测序。
实施例2构建癌症风险评估分类模型
Panel数据:博尔诚搜集60肺癌和60例健康人的外周血各10~20ml,分离血浆样本,提取纯化cfDNA。利用实施例1中的panel检测方法获得。选取40例肺癌数据和40例健康人数据作为训练集,剩余的作为验证集。
WGBS数据:博尔诚搜集30肺癌和30例健康人的外周血各10~20ml,分离血浆样本,提取纯化cfDNA。利用实施例1中的WGBS检测方法获得。选取20例肺癌数据和20例健康人数据作为训练集,剩余的作为验证集。
RRBS数据:博尔诚搜集20肺癌和20例健康人的外周血各10~20ml,分离血浆样本,提取纯化cfDNA。利用实施例1中的RRBS检测方法获得。选取15例肺癌数据和15例健康人数据作为训练集,剩余的作为验证集。
利用这三个不同平台的训练集样本数据,使用本申请的筛查方法来筛查差异区间(标志物)。从三个不同平台挑选了按照AUC选取了top50的标志物,总计115个标志物,具体如下:
表13:115个标志物的坐标以及基因信息。
/>
/>
/>
备注:标志物类型说明如下:①仅在WGBS数据中的差异位点,②仅在panel数据中的差异位点,③仅在RRBS中的差异位点,④同时在WGBS数据,panel数据,RRBS中的差异位点,⑤仅在WGBS数据和panel数据中的差异位点,⑥仅在panel数据中和RRBS中的差异位点,⑦仅在WGBS和RRBS中的差异位点。
然后,利用测试集的数据提取这115个标志物的甲基化水平数据,采用广义线性回归构建模型如下:
logP/(1-P)=0.19X1+0.211X2+0.334X3+0.805X4+0.925X5+0.502X6+0.445X7。
公式中,P代表受试者患癌的概率,当模型计算受试者预测得分P值超过0.5时判别为患癌。在测试集中的预测灵敏性为91.43%,特异性为91.43%,AUC为0.975。需要主要的是,该公式第④类和第⑤类标志物的权重系数远高于其他类型的标志物,因此,第④类和第⑤类类型可以作为以后重点研究的对象。
根据以上公式,每个测试集样本P值如下:(在如下测试集中sample.NO.1-sample.NO.35为肺癌患者,sample.NO.3-sample.NO.70的受检者未患癌。模型计算得分超过0.5判别为受试者患肺癌(即1),反之判别为未患癌(即0))
表14为通过上述模型计算得到的统计结果
表14
/>
表15为通过模型计算结果与临床检测结果对比
表15
小结:由表14以及表15可知,采用本申请所述的方法筛选出来的标志物用于预测疾病时,其预测灵敏性为91.43%,特异性为91.43%。
以上所述,仅是本申请的较佳实施例而已,并非是对本申请作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本申请技术方案内容,依据本申请的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本申请技术方案的保护范围。
Claims (10)
1.一种基于甲基化数据筛选疾病标志物的方法,其中,包括如下步骤:
获得a个甲基化检测平台的多个样本的甲基化数据;
对甲基化数据进行预处理;
基于所述a个甲基化检测平台的经预处理后的甲基化数据,通过计算并筛选出每个甲基化检测平台中的差异区间;
基于所述差异区间存在的所述甲基化检测平台的个数,对差异区间进行分类,将其分成w个类型;
计算所述w个类型的特征值并基于该特征值来选取疾病标志物;
所述a为大于等于2的正整数,
其中a个甲基化检测平台的测序深度分别为M1~Ma,测序广度分别为L1~La,
在M1~Ma中的最大值所在的甲基化检测平台与L1~La中的最大值所在的甲基化检测平台为不同的平台;
多个样本包括疾病组样本和正常组样本。
2.根据权利要求1所述的方法,其中,对甲基化数据进行预处理包括如下步骤:
对所述甲基化数据进行:数据质量预处理和评估(fastp软件)、基因组比对(Bismark软件)、去除样本或实验技术等带来的重复数据
(deduplicate_bismark软件)或利用champ.norm函数做标准化。
3.根据权利要求1所述的方法,其中,基于所述a个甲基化检测平台的经预处理后的甲基化数据,通过计算并筛选出每个甲基化检测平台中的差异区间是指通过以下指标中的一种或两种来从待选定的差异区间中确定差异区间:以待选定的差异区间作为检测目标时的疾病组样本检测AUC、以待选定的差异区间作为检测目标时的疾病组样本与正常组样本在该待选定的差异区间的甲基化水平的均值或中位数的差值|delta|。
4.根据权利要求3所述的方法,其中,选取delta值在不同甲基化检测平台中同时为正,或者同时为负的待选定差异区间作为差异区间。
5.根据权利要求3所述的方法,其中,选取不同甲基化检测平台中的|AUC-0.5|>0.2的差异区间。
6.根据权利要求1-5任一项所述的方法,其中,所述w个类型的差异区间的特征值为X,X满足如下公式:
n代表在w个类型的差异区间中,每一种类型中具有的差异区间的个数,其中Δβi表示差异区间i在某一样本中的甲基化水平与该样本所在样本组的甲基化水平的平均值的差异。
7.根据权利要求6所述的方法,其中,当所述差异区间i只存在一个甲基化检测平台时,Δβi表示在该甲基化检测平台上,差异区间i在某一样本中的甲基化水平减去其所在样本组的甲基化水平的平均值;或
当所述差异区间i存在于s个甲基化检测平台时,其中,s为大于等于2的正整数,即所述差异区间i存在于第一甲基化检测平台~第s甲基化检测平台上;Δβi满足如下公式:
b1为在第一甲基化检测平台上,差异区间i在某一样本中的甲基化水平;
d1为在第一甲基化检测平台上,差异区间i在其所在样本组的甲基化水平的平均值;
b2为在第二甲基化检测平台上,差异区间i在某一样本中的甲基化水平;
d2为在第二甲基化检测平台上,差异区间i在其所在样本组的甲基化水平的平均值;
bs为在第s甲基化检测平台上,差异区间i在某一样本中的甲基化水平;
ds为在第s甲基化检测平台上,差异区间i在其所在样本组的甲基化水平的平均值。
8.根据权利要求6或7所述的方法,其中,计算所述w个类型的特征值并基于该特征值来选取疾病标志物是指通过w个类型中的所有差异区间的甲基化水平数据通过广义线性回归来构建概率模型来判断差异区间是否可以作为疾病标志物。
9.根据权利要求8所述的方法,其中,所述概率模型如下:
logit(p)=ln(p/1-p)=α1X1+α2X2+α3X3+......+αwXw+C
其中,p为受试者患所述疾病的概率;
X1、X2、X3、......、Xw分别代表w个类型的差异区间的X值;
α1、α2、α3、......、αw分别代表w个类型的差异区间的权重系数;
C代表常数;
w为2a-1。
10.根据权利要求1-9任一项所述的方法,其中,所述甲基化数据选自Panel数据、RRBS数据、WGBS、450K等甲基化相关检测方法中的两种及其以上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311140411.6A CN117238373A (zh) | 2023-09-05 | 2023-09-05 | 一种基于甲基化数据筛选疾病标志物的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311140411.6A CN117238373A (zh) | 2023-09-05 | 2023-09-05 | 一种基于甲基化数据筛选疾病标志物的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117238373A true CN117238373A (zh) | 2023-12-15 |
Family
ID=89081734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311140411.6A Pending CN117238373A (zh) | 2023-09-05 | 2023-09-05 | 一种基于甲基化数据筛选疾病标志物的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117238373A (zh) |
-
2023
- 2023-09-05 CN CN202311140411.6A patent/CN117238373A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110964826A (zh) | 一种结直肠癌抑癌基因甲基化高通量检测试剂盒及其应用 | |
CN106987640A (zh) | Pik3ca基因突变检测引物探针及其试剂盒 | |
CN113025701B (zh) | 非酒精性脂肪性肝病易感基因的早筛方法及试剂盒 | |
CN109486912A (zh) | 一种用于数字pcr扩增的探针引物组合及设计方法 | |
CN114891886B (zh) | 用于诊断膀胱癌的核酸产品、试剂盒及应用 | |
CN114164275A (zh) | 肝癌的标记物在制备肝癌检测产品中的用途及检测试剂盒 | |
CN112662763A (zh) | 一种检测常见两性癌症的探针组合物 | |
CN117238373A (zh) | 一种基于甲基化数据筛选疾病标志物的方法 | |
CN113215663B (zh) | 一种基于高通量测序的胃癌靶向治疗基因组文库的构建方法及引物 | |
CN112831558B (zh) | 克罗恩病易感基因的早筛方法及试剂盒 | |
CN114540497B (zh) | 用于膀胱癌筛查的标志物、探针组合物及其应用 | |
CN112662764A (zh) | 一种检测11种癌症的探针组合物 | |
CN114507734B (zh) | 用于甲状腺癌筛查的标志物、探针组合物及其应用 | |
CN114395626B (zh) | 用于宫颈癌筛查的标志物、探针组合物及其应用 | |
CN114941029B (zh) | 肝癌的生物标志物、核酸产品和试剂盒 | |
CN117625782A (zh) | 用于肺癌早期筛查的标志物、探针组合物及其应用 | |
CN114231635B (zh) | 用于肺癌筛查的标志物、探针组合物及其应用 | |
CN114317737B (zh) | 用于肺癌筛查的组合物及其应用 | |
CN114410792B (zh) | 用于肾癌筛查的标志物、探针组合物及其应用 | |
WO2024119481A1 (zh) | 一种快速制备多重pcr测序文库的方法及其应用 | |
CN117448450A (zh) | 用于结直肠癌筛查的标志物、探针组合物及其应用 | |
CN117025777A (zh) | 用于评估甲状腺癌风险的标志物、探针组合物、系统及其应用 | |
CN117025776A (zh) | 用于评估甲状腺癌风险的标志物、探针组合物、系统及其应用 | |
CN114369663A (zh) | 用于肝癌筛查的标志物、探针组合物及其应用 | |
CN118048451A (zh) | 用于肝癌筛查的标志物、探针组合物及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |