CN117778568A - 鉴别胃癌的标志物及应用 - Google Patents
鉴别胃癌的标志物及应用 Download PDFInfo
- Publication number
- CN117778568A CN117778568A CN202211190564.7A CN202211190564A CN117778568A CN 117778568 A CN117778568 A CN 117778568A CN 202211190564 A CN202211190564 A CN 202211190564A CN 117778568 A CN117778568 A CN 117778568A
- Authority
- CN
- China
- Prior art keywords
- seq
- upstream
- downstream
- sequence
- sequences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003550 marker Substances 0.000 title claims abstract description 115
- 208000005718 Stomach Neoplasms Diseases 0.000 title claims abstract description 107
- 206010017758 gastric cancer Diseases 0.000 title claims abstract description 107
- 201000011549 stomach cancer Diseases 0.000 title claims abstract description 107
- 230000011987 methylation Effects 0.000 claims abstract description 191
- 238000007069 methylation reaction Methods 0.000 claims abstract description 191
- 239000003153 chemical reaction reagent Substances 0.000 claims abstract description 74
- 238000000034 method Methods 0.000 claims abstract description 66
- 108091029430 CpG site Proteins 0.000 claims abstract description 53
- 238000001514 detection method Methods 0.000 claims abstract description 23
- 238000009007 Diagnostic Kit Methods 0.000 claims abstract description 19
- 238000011144 upstream manufacturing Methods 0.000 claims description 262
- 108020004414 DNA Proteins 0.000 claims description 137
- 150000007523 nucleic acids Chemical class 0.000 claims description 86
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical class NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 claims description 77
- 102000039446 nucleic acids Human genes 0.000 claims description 72
- 108020004707 nucleic acids Proteins 0.000 claims description 72
- 239000000523 sample Substances 0.000 claims description 71
- 108090000623 proteins and genes Proteins 0.000 claims description 70
- 102000004190 Enzymes Human genes 0.000 claims description 57
- 108090000790 Enzymes Proteins 0.000 claims description 57
- 230000003321 amplification Effects 0.000 claims description 50
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 50
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 claims description 45
- 238000006243 chemical reaction Methods 0.000 claims description 42
- 238000009396 hybridization Methods 0.000 claims description 41
- 125000003729 nucleotide group Chemical group 0.000 claims description 33
- 239000012634 fragment Substances 0.000 claims description 31
- 239000002773 nucleotide Substances 0.000 claims description 31
- 108091008146 restriction endonucleases Proteins 0.000 claims description 27
- 239000012472 biological sample Substances 0.000 claims description 25
- 230000000295 complement effect Effects 0.000 claims description 23
- 238000011282 treatment Methods 0.000 claims description 23
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 claims description 20
- 229940104302 cytosine Drugs 0.000 claims description 20
- 230000000694 effects Effects 0.000 claims description 15
- 239000000872 buffer Substances 0.000 claims description 13
- 238000002360 preparation method Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 11
- 239000003795 chemical substances by application Substances 0.000 claims description 11
- 239000000126 substance Substances 0.000 claims description 11
- 229940035893 uracil Drugs 0.000 claims description 10
- 238000012164 methylation sequencing Methods 0.000 claims description 8
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 claims description 7
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 claims description 7
- 238000003752 polymerase chain reaction Methods 0.000 claims description 7
- 108060002716 Exonuclease Proteins 0.000 claims description 6
- 102000013165 exonuclease Human genes 0.000 claims description 6
- 239000007850 fluorescent dye Substances 0.000 claims description 6
- 238000004949 mass spectrometry Methods 0.000 claims description 6
- LSNNMFCWUKXFEE-UHFFFAOYSA-N Sulfurous acid Chemical class OS(O)=O LSNNMFCWUKXFEE-UHFFFAOYSA-N 0.000 claims description 5
- 230000029087 digestion Effects 0.000 claims description 5
- FWMNVWWHGCHHJJ-SKKKGAJSSA-N 4-amino-1-[(2r)-6-amino-2-[[(2r)-2-[[(2r)-2-[[(2r)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoyl]amino]hexanoyl]piperidine-4-carboxylic acid Chemical group C([C@H](C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCCCN)C(=O)N1CCC(N)(CC1)C(O)=O)NC(=O)[C@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 FWMNVWWHGCHHJJ-SKKKGAJSSA-N 0.000 claims description 4
- 239000002253 acid Substances 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000002844 melting Methods 0.000 claims description 4
- 230000008018 melting Effects 0.000 claims description 4
- 108091093037 Peptide nucleic acid Proteins 0.000 claims description 3
- 102000002260 Alkaline Phosphatase Human genes 0.000 claims description 2
- 108020004774 Alkaline Phosphatase Proteins 0.000 claims description 2
- 238000001712 DNA sequencing Methods 0.000 claims description 2
- 238000009585 enzyme analysis Methods 0.000 claims description 2
- LSNNMFCWUKXFEE-UHFFFAOYSA-L sulfite Chemical class [O-]S([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-L 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 12
- 230000035945 sensitivity Effects 0.000 abstract description 11
- 238000004519 manufacturing process Methods 0.000 abstract 2
- 238000012549 training Methods 0.000 description 47
- 238000012360 testing method Methods 0.000 description 43
- 206010028980 Neoplasm Diseases 0.000 description 34
- 239000000047 product Substances 0.000 description 21
- 210000004369 blood Anatomy 0.000 description 20
- 239000008280 blood Substances 0.000 description 20
- 239000000243 solution Substances 0.000 description 18
- 108091028043 Nucleic acid sequence Proteins 0.000 description 17
- 238000004445 quantitative analysis Methods 0.000 description 17
- 201000011510 cancer Diseases 0.000 description 16
- 238000012163 sequencing technique Methods 0.000 description 16
- 102000054766 genetic haplotypes Human genes 0.000 description 14
- 210000002381 plasma Anatomy 0.000 description 14
- 210000004027 cell Anatomy 0.000 description 13
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 12
- 238000007477 logistic regression Methods 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 12
- 239000000203 mixture Substances 0.000 description 12
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 11
- 230000007067 DNA methylation Effects 0.000 description 9
- 230000002255 enzymatic effect Effects 0.000 description 9
- 238000003753 real-time PCR Methods 0.000 description 9
- 108091034117 Oligonucleotide Proteins 0.000 description 8
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 8
- 238000003556 assay Methods 0.000 description 8
- 108091033319 polynucleotide Proteins 0.000 description 8
- 102000040430 polynucleotide Human genes 0.000 description 8
- 239000002157 polynucleotide Substances 0.000 description 8
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 7
- 238000007855 methylation-specific PCR Methods 0.000 description 7
- ZHNUHDYFZUAESO-UHFFFAOYSA-N Formamide Chemical compound NC=O ZHNUHDYFZUAESO-UHFFFAOYSA-N 0.000 description 6
- -1 bisulfite ions Chemical class 0.000 description 6
- 238000003745 diagnosis Methods 0.000 description 6
- 238000012216 screening Methods 0.000 description 6
- 210000001519 tissue Anatomy 0.000 description 6
- 102000053602 DNA Human genes 0.000 description 5
- DWAQJAXMDSEUJJ-UHFFFAOYSA-M Sodium bisulfite Chemical group [Na+].OS([O-])=O DWAQJAXMDSEUJJ-UHFFFAOYSA-M 0.000 description 5
- 108010006785 Taq Polymerase Proteins 0.000 description 5
- 210000001124 body fluid Anatomy 0.000 description 5
- 238000003776 cleavage reaction Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 125000005647 linker group Chemical group 0.000 description 5
- 238000002493 microarray Methods 0.000 description 5
- 238000000746 purification Methods 0.000 description 5
- 230000007017 scission Effects 0.000 description 5
- 210000002966 serum Anatomy 0.000 description 5
- 235000010267 sodium hydrogen sulphite Nutrition 0.000 description 5
- 229940113082 thymine Drugs 0.000 description 5
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 4
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 4
- 208000037065 Subacute sclerosing leukoencephalitis Diseases 0.000 description 4
- 206010042297 Subacute sclerosing panencephalitis Diseases 0.000 description 4
- 150000001413 amino acids Chemical class 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 239000010839 body fluid Substances 0.000 description 4
- 108091092356 cellular DNA Proteins 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 239000000975 dye Substances 0.000 description 4
- 238000006911 enzymatic reaction Methods 0.000 description 4
- 238000001727 in vivo Methods 0.000 description 4
- 150000003839 salts Chemical class 0.000 description 4
- 239000011780 sodium chloride Substances 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 108700028369 Alleles Proteins 0.000 description 3
- 108091093088 Amplicon Proteins 0.000 description 3
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 3
- 241000124008 Mammalia Species 0.000 description 3
- 125000000539 amino acid group Chemical group 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 229910052799 carbon Inorganic materials 0.000 description 3
- 125000004432 carbon atom Chemical group C* 0.000 description 3
- 230000009615 deamination Effects 0.000 description 3
- 238000006481 deamination reaction Methods 0.000 description 3
- 238000013399 early diagnosis Methods 0.000 description 3
- 238000001962 electrophoresis Methods 0.000 description 3
- 230000001605 fetal effect Effects 0.000 description 3
- 238000000338 in vitro Methods 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000010369 molecular cloning Methods 0.000 description 3
- 238000007857 nested PCR Methods 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 239000004289 sodium hydrogen sulphite Substances 0.000 description 3
- 239000001488 sodium phosphate Substances 0.000 description 3
- 229910000162 sodium phosphate Inorganic materials 0.000 description 3
- RYFMWSXOAZQYPI-UHFFFAOYSA-K trisodium phosphate Chemical compound [Na+].[Na+].[Na+].[O-]P([O-])([O-])=O RYFMWSXOAZQYPI-UHFFFAOYSA-K 0.000 description 3
- 238000005406 washing Methods 0.000 description 3
- JTNCEQNHURODLX-UHFFFAOYSA-N 2-phenylethanimidamide Chemical compound NC(=N)CC1=CC=CC=C1 JTNCEQNHURODLX-UHFFFAOYSA-N 0.000 description 2
- 101100460704 Aspergillus sp. (strain MF297-2) notI gene Proteins 0.000 description 2
- 108091003079 Bovine Serum Albumin Proteins 0.000 description 2
- HEDRZPFGACZZDS-UHFFFAOYSA-N Chloroform Chemical compound ClC(Cl)Cl HEDRZPFGACZZDS-UHFFFAOYSA-N 0.000 description 2
- 101000653634 Homo sapiens T-box transcription factor TBX15 Proteins 0.000 description 2
- CSNNHWWHGAXBCP-UHFFFAOYSA-L Magnesium sulfate Chemical compound [Mg+2].[O-][S+2]([O-])([O-])[O-] CSNNHWWHGAXBCP-UHFFFAOYSA-L 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 108020005187 Oligonucleotide Probes Proteins 0.000 description 2
- 238000012408 PCR amplification Methods 0.000 description 2
- 101100006527 Penicillium crustosum claI gene Proteins 0.000 description 2
- ISWSIDIOOBJBQZ-UHFFFAOYSA-N Phenol Chemical compound OC1=CC=CC=C1 ISWSIDIOOBJBQZ-UHFFFAOYSA-N 0.000 description 2
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 2
- 102100029853 T-box transcription factor TBX15 Human genes 0.000 description 2
- BIGPRXCJEDHCLP-UHFFFAOYSA-N ammonium bisulfate Chemical compound [NH4+].OS([O-])(=O)=O BIGPRXCJEDHCLP-UHFFFAOYSA-N 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- ZETCGWYACBNPIH-UHFFFAOYSA-N azane;sulfurous acid Chemical class N.OS(O)=O ZETCGWYACBNPIH-UHFFFAOYSA-N 0.000 description 2
- 238000001574 biopsy Methods 0.000 description 2
- 239000011616 biotin Substances 0.000 description 2
- 229960002685 biotin Drugs 0.000 description 2
- 235000020958 biotin Nutrition 0.000 description 2
- 229940098773 bovine serum albumin Drugs 0.000 description 2
- JXRVKYBCWUJJBP-UHFFFAOYSA-L calcium;hydrogen sulfate Chemical compound [Ca+2].OS([O-])(=O)=O.OS([O-])(=O)=O JXRVKYBCWUJJBP-UHFFFAOYSA-L 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- CTMZLDSMFCVUNX-VMIOUTBZSA-N cytidylyl-(3'->5')-guanosine Chemical compound O=C1N=C(N)C=CN1[C@H]1[C@H](O)[C@H](OP(O)(=O)OC[C@@H]2[C@H]([C@@H](O)[C@@H](O2)N2C3=C(C(N=C(N)N3)=O)N=C2)O)[C@@H](CO)O1 CTMZLDSMFCVUNX-VMIOUTBZSA-N 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000006326 desulfonation Effects 0.000 description 2
- 238000005869 desulfonation reaction Methods 0.000 description 2
- APGUSRKQFBWUPZ-UHFFFAOYSA-K disulfooxyalumanyl hydrogen sulfate Chemical compound [Al+3].OS([O-])(=O)=O.OS([O-])(=O)=O.OS([O-])(=O)=O APGUSRKQFBWUPZ-UHFFFAOYSA-K 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001973 epigenetic effect Effects 0.000 description 2
- 230000002496 gastric effect Effects 0.000 description 2
- 238000009830 intercalation Methods 0.000 description 2
- 238000007834 ligase chain reaction Methods 0.000 description 2
- 239000012528 membrane Substances 0.000 description 2
- 238000001471 micro-filtration Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 101150067874 narI gene Proteins 0.000 description 2
- 238000007899 nucleic acid hybridization Methods 0.000 description 2
- 239000002751 oligonucleotide probe Substances 0.000 description 2
- 229910000343 potassium bisulfate Inorganic materials 0.000 description 2
- DJEHXEMURTVAOE-UHFFFAOYSA-M potassium bisulfite Chemical class [K+].OS([O-])=O DJEHXEMURTVAOE-UHFFFAOYSA-M 0.000 description 2
- 235000010259 potassium hydrogen sulphite Nutrition 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 235000018102 proteins Nutrition 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 238000012175 pyrosequencing Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- WBHQBSYUUJJSRZ-UHFFFAOYSA-M sodium bisulfate Chemical compound [Na+].OS([O-])(=O)=O WBHQBSYUUJJSRZ-UHFFFAOYSA-M 0.000 description 2
- 229910000342 sodium bisulfate Inorganic materials 0.000 description 2
- 239000007790 solid phase Substances 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 239000006228 supernatant Substances 0.000 description 2
- GUAHPAJOXVYFON-ZETCQYMHSA-N (8S)-8-amino-7-oxononanoic acid zwitterion Chemical compound C[C@H](N)C(=O)CCCCCC(O)=O GUAHPAJOXVYFON-ZETCQYMHSA-N 0.000 description 1
- 102100038049 5'-AMP-activated protein kinase subunit beta-2 Human genes 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 241000283690 Bos taurus Species 0.000 description 1
- 102000014814 CACNA1C Human genes 0.000 description 1
- 102100028226 COUP transcription factor 2 Human genes 0.000 description 1
- 102100024154 Cadherin-13 Human genes 0.000 description 1
- 102100029758 Cadherin-4 Human genes 0.000 description 1
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 102100026619 Cartilage intermediate layer protein 2 Human genes 0.000 description 1
- 241000282693 Cercopithecidae Species 0.000 description 1
- 102100025407 Complement C1q and tumor necrosis factor-related protein 9A Human genes 0.000 description 1
- 238000007400 DNA extraction Methods 0.000 description 1
- 230000006820 DNA synthesis Effects 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- 102100020848 Forkhead box protein F2 Human genes 0.000 description 1
- 102100034125 Golgin subfamily A member 8A Human genes 0.000 description 1
- 102100029013 Homeobox protein HMX3 Human genes 0.000 description 1
- 102100021086 Homeobox protein Hox-D4 Human genes 0.000 description 1
- 102100028098 Homeobox protein Nkx-6.1 Human genes 0.000 description 1
- 102100030634 Homeobox protein OTX2 Human genes 0.000 description 1
- 241001272567 Hominoidea Species 0.000 description 1
- 101000742799 Homo sapiens 5'-AMP-activated protein kinase subunit beta-2 Proteins 0.000 description 1
- 101000860860 Homo sapiens COUP transcription factor 2 Proteins 0.000 description 1
- 101000762243 Homo sapiens Cadherin-13 Proteins 0.000 description 1
- 101000794580 Homo sapiens Cadherin-4 Proteins 0.000 description 1
- 101000913768 Homo sapiens Cartilage intermediate layer protein 2 Proteins 0.000 description 1
- 101000934939 Homo sapiens Complement C1q and tumor necrosis factor-related protein 9A Proteins 0.000 description 1
- 101000931482 Homo sapiens Forkhead box protein F2 Proteins 0.000 description 1
- 101001070493 Homo sapiens Golgin subfamily A member 8A Proteins 0.000 description 1
- 101000986301 Homo sapiens Homeobox protein HMX3 Proteins 0.000 description 1
- 101001041136 Homo sapiens Homeobox protein Hox-D4 Proteins 0.000 description 1
- 101000578254 Homo sapiens Homeobox protein Nkx-6.1 Proteins 0.000 description 1
- 101000584400 Homo sapiens Homeobox protein OTX2 Proteins 0.000 description 1
- 101001011441 Homo sapiens Interferon regulatory factor 4 Proteins 0.000 description 1
- 101000619914 Homo sapiens LIM/homeobox protein Lhx5 Proteins 0.000 description 1
- 101000645296 Homo sapiens Metalloproteinase inhibitor 2 Proteins 0.000 description 1
- 101001125322 Homo sapiens Na(+)/H(+) exchange regulatory cofactor NHE-RF2 Proteins 0.000 description 1
- 101000888117 Homo sapiens Polypeptide N-acetylgalactosaminyltransferase 18 Proteins 0.000 description 1
- 101000702559 Homo sapiens Probable global transcription activator SNF2L2 Proteins 0.000 description 1
- 101000920985 Homo sapiens Protein CROC-4 Proteins 0.000 description 1
- 101000601997 Homo sapiens Protocadherin gamma-C5 Proteins 0.000 description 1
- 101000885321 Homo sapiens Serine/threonine-protein kinase DCLK1 Proteins 0.000 description 1
- 101000713606 Homo sapiens T-box transcription factor TBX20 Proteins 0.000 description 1
- 101000666775 Homo sapiens T-box transcription factor TBX3 Proteins 0.000 description 1
- 101000732336 Homo sapiens Transcription factor AP-2 gamma Proteins 0.000 description 1
- 101000642523 Homo sapiens Transcription factor SOX-7 Proteins 0.000 description 1
- 101000836148 Homo sapiens Transforming acidic coiled-coil-containing protein 2 Proteins 0.000 description 1
- 101000597785 Homo sapiens Tumor necrosis factor receptor superfamily member 6B Proteins 0.000 description 1
- 101000867811 Homo sapiens Voltage-dependent L-type calcium channel subunit alpha-1C Proteins 0.000 description 1
- 102100030126 Interferon regulatory factor 4 Human genes 0.000 description 1
- 239000005909 Kieselgur Substances 0.000 description 1
- 102100022139 LIM/homeobox protein Lhx5 Human genes 0.000 description 1
- 102000003960 Ligases Human genes 0.000 description 1
- 108090000364 Ligases Proteins 0.000 description 1
- 241000282560 Macaca mulatta Species 0.000 description 1
- 102100026262 Metalloproteinase inhibitor 2 Human genes 0.000 description 1
- 102000016397 Methyltransferase Human genes 0.000 description 1
- 108060004795 Methyltransferase Proteins 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 108091008640 NR2F Proteins 0.000 description 1
- 102100029448 Na(+)/H(+) exchange regulatory cofactor NHE-RF2 Human genes 0.000 description 1
- 101710163270 Nuclease Proteins 0.000 description 1
- 108091005461 Nucleic proteins Chemical group 0.000 description 1
- 108010047956 Nucleosomes Proteins 0.000 description 1
- 239000012807 PCR reagent Substances 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 102100039225 Polypeptide N-acetylgalactosaminyltransferase 18 Human genes 0.000 description 1
- 241000677647 Proba Species 0.000 description 1
- 102100031021 Probable global transcription activator SNF2L2 Human genes 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 102100032188 Protein CROC-4 Human genes 0.000 description 1
- 102100037562 Protocadherin gamma-C5 Human genes 0.000 description 1
- 235000014443 Pyrus communis Nutrition 0.000 description 1
- 241000700159 Rattus Species 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 241000283984 Rodentia Species 0.000 description 1
- 108060007764 SLC6A5 Proteins 0.000 description 1
- 108091081021 Sense strand Proteins 0.000 description 1
- 102100039758 Serine/threonine-protein kinase DCLK1 Human genes 0.000 description 1
- FKNQFGJONOIPTF-UHFFFAOYSA-N Sodium cation Chemical compound [Na+] FKNQFGJONOIPTF-UHFFFAOYSA-N 0.000 description 1
- 102100033929 Sodium-dependent noradrenaline transporter Human genes 0.000 description 1
- 241000282887 Suidae Species 0.000 description 1
- 108010029625 T-Box Domain Protein 2 Proteins 0.000 description 1
- 102100038721 T-box transcription factor TBX2 Human genes 0.000 description 1
- 102100036833 T-box transcription factor TBX20 Human genes 0.000 description 1
- 102100038409 T-box transcription factor TBX3 Human genes 0.000 description 1
- 108091008645 TLX/PNR Proteins 0.000 description 1
- 102100033345 Transcription factor AP-2 gamma Human genes 0.000 description 1
- 102100036730 Transcription factor SOX-7 Human genes 0.000 description 1
- 102100027044 Transforming acidic coiled-coil-containing protein 2 Human genes 0.000 description 1
- 102100035284 Tumor necrosis factor receptor superfamily member 6B Human genes 0.000 description 1
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 1
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 1
- 150000007513 acids Chemical class 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 208000009956 adenocarcinoma Diseases 0.000 description 1
- 239000011543 agarose gel Substances 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 230000000692 anti-sense effect Effects 0.000 description 1
- 230000001640 apoptogenic effect Effects 0.000 description 1
- 239000008346 aqueous phase Substances 0.000 description 1
- 101150010487 are gene Proteins 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000013060 biological fluid Substances 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 239000000117 blood based biomarker Substances 0.000 description 1
- 210000000601 blood cell Anatomy 0.000 description 1
- 239000007975 buffered saline Substances 0.000 description 1
- LVGQIQHJMRUCRM-UHFFFAOYSA-L calcium bisulfite Chemical class [Ca+2].OS([O-])=O.OS([O-])=O LVGQIQHJMRUCRM-UHFFFAOYSA-L 0.000 description 1
- 235000010260 calcium hydrogen sulphite Nutrition 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004113 cell culture Methods 0.000 description 1
- 108091092328 cellular RNA Proteins 0.000 description 1
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 1
- 230000003196 chaotropic effect Effects 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000004440 column chromatography Methods 0.000 description 1
- 239000002299 complementary DNA Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000007822 coupling agent Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000005235 decoking Methods 0.000 description 1
- 238000012350 deep sequencing Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000004925 denaturation Methods 0.000 description 1
- 230000036425 denaturation Effects 0.000 description 1
- 238000003935 denaturing gradient gel electrophoresis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000030609 dephosphorylation Effects 0.000 description 1
- 238000006209 dephosphorylation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000502 dialysis Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- WBZKQQHYRPRKNJ-UHFFFAOYSA-L disulfite Chemical compound [O-]S(=O)S([O-])(=O)=O WBZKQQHYRPRKNJ-UHFFFAOYSA-L 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001952 enzyme assay Methods 0.000 description 1
- 238000012869 ethanol precipitation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000002866 fluorescence resonance energy transfer Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000001502 gel electrophoresis Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000011544 gradient gel Substances 0.000 description 1
- 239000005337 ground glass Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000004128 high performance liquid chromatography Methods 0.000 description 1
- QAOWNCQODCNURD-UHFFFAOYSA-M hydrogensulfate Chemical compound OS([O-])(=O)=O QAOWNCQODCNURD-UHFFFAOYSA-M 0.000 description 1
- 230000001900 immune effect Effects 0.000 description 1
- 230000028993 immune response Effects 0.000 description 1
- 238000001114 immunoprecipitation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 244000144972 livestock Species 0.000 description 1
- 239000006166 lysate Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 206010061289 metastatic neoplasm Diseases 0.000 description 1
- 201000011591 microinvasive gastric cancer Diseases 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004660 morphological change Effects 0.000 description 1
- 230000001338 necrotic effect Effects 0.000 description 1
- 239000002777 nucleoside Substances 0.000 description 1
- 210000001623 nucleosome Anatomy 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 239000003960 organic solvent Substances 0.000 description 1
- 239000000123 paper Substances 0.000 description 1
- 150000008300 phosphoramidites Chemical class 0.000 description 1
- 239000013612 plasmid Substances 0.000 description 1
- 229920003023 plastic Polymers 0.000 description 1
- 239000004033 plastic Substances 0.000 description 1
- 210000004910 pleural fluid Anatomy 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 239000001267 polyvinylpyrrolidone Substances 0.000 description 1
- 235000013855 polyvinylpyrrolidone Nutrition 0.000 description 1
- 229920000036 polyvinylpyrrolidone Polymers 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 244000144977 poultry Species 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000012257 pre-denaturation Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 239000013615 primer Substances 0.000 description 1
- 239000002987 primer (paints) Substances 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 235000004252 protein component Nutrition 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000002271 resection Methods 0.000 description 1
- 238000003757 reverse transcription PCR Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000007841 sequencing by ligation Methods 0.000 description 1
- 239000000741 silica gel Substances 0.000 description 1
- 229910002027 silica gel Inorganic materials 0.000 description 1
- 229910001415 sodium ion Inorganic materials 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 239000001226 triphosphate Substances 0.000 description 1
- 235000011178 triphosphate Nutrition 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- 239000000439 tumor marker Substances 0.000 description 1
- 238000000108 ultra-filtration Methods 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 239000011534 wash buffer Substances 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及鉴别胃癌的标志物及应用。具体而言,本发明提供检测一个或多个目标标志物的至少一个CpG二核苷酸的甲基化状态或水平的试剂在制备诊断胃癌的检测试剂或诊断试剂盒中的应用,以及用于确定一个或多个目标标志物的至少一个CpG二核苷酸的甲基化状态或水平的装置在制备诊断胃癌的诊断试剂盒中的应用,所述标志物如文中所述。基于本发明的标志物,可以有效鉴别胃癌,相比现有的鉴定方法具有更高的灵敏度和特异性,为胃癌的早期鉴别提供了新方法。本发明检测过程无创,安全性高,便于大规模临床应用。
Description
技术领域
本发明涉及鉴别胃癌的标志物及应用。
背景技术
胃癌是全球范围内第二普遍发生的癌症类型,而且几乎三分之二的病发案例都是在发展中国家。根据现有数据,胃癌是男性人群中发病率第四的癌种,在女性人群的癌症癌种发病率排名第七。目前,胃癌已经成为人们健康的严重威胁。
寻找便捷有效的早期胃癌诊断方法,对降低其导致的病死率以及提高其生存率起到至关重要的作用。其中肿瘤标志物是一种重要的检查手段,可在简单、经济的条件下,为临床诊断及治疗、为病人减轻筛查费用提供有效的证据。血液是胃癌筛查候选肿瘤标志物的首选来源,基于血液的生物标志物提供了整个患者身体的概况,包括原发性肿瘤、转移性疾病、免疫应答和肿瘤周围基质。
常见的胃癌血液标志物包括CEA、CA19-9、CA72-4等。这几种肿瘤标志物都存在敏感性不高的特点,检出率仅在50%左右。另外,特异性较差也是一项很大的缺陷。比如,CA19-9血清水平在多种腺癌(B包括胰腺癌、肝胆管癌、胃癌)中均有升高。CEA在多种癌症甚至非癌疾病中均有升高等。由于敏感性不高、特异性较差,在实际临床,尤其作为胃癌的早期筛查应用中,这些血液标志物的使用较为受限。
在血液的肿瘤标志物中,循环肿瘤DNA(ctDNA)是近几年应用越来越广泛的方向。循环肿瘤DNA(ctDNA)分子来源于凋亡或坏死的肿瘤细胞,携带来自早期恶性肿瘤的肿瘤特异性DNA甲基化标记,近年来被研究为开发多种癌症的无创早期筛查工具的有前景的新靶点,因此从血浆DNA中识别既稳定又一致的胃癌肿瘤特异性标记物具有非常大的前景。
发明内容
为此,本发明提供鉴别胃癌的标志物及应用。本发明检测过程无创,安全性高,便于大规模临床应用。
本发明第一方面提供检测一个或多个目标标志物的至少一个CpG二核苷酸的甲基化状态或水平的试剂在制备诊断胃癌的检测试剂或诊断试剂盒中的应用,以及用于确定一个或多个目标标志物的至少一个CpG二核苷酸的甲基化状态或水平的装置在制备诊断胃癌的诊断试剂盒中的应用;其中,所述一个或多个目标标志物选自以下序列(1)-(48)中的任意1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47条或全部48条序列:
(1)含chr6:166970625:166970825(SEQ ID NO:1)及其上游5kb以内和/或下游5kb以内的序列;
(2)含chr11:11600237:11600617(SEQ ID NO:2)及其上游5kb以内和/或下游5kb以内的序列;
(3)含chr17:76929754:76929954(SEQ ID NO:3)及其上游5kb以内和/或下游5kb以内的序列;
(4)含chr6:391738:391938(SEQ ID NO:4)及其上游5kb以内和/或下游5kb以内的序列;
(5)含chr12:2282090:2282290(SEQ ID NO:5)及其上游5kb以内和/或下游5kb以内的序列;
(6)含chr2:177030134:177030449(SEQ ID NO:6)及其上游5kb以内和/或下游5kb以内的序列;
(7)含chr7:35301095:35301411(SEQ ID NO:7)及其上游5kb以内和/或下游5kb以内的序列;
(8)含chr7:8482114:8482413(SEQ ID NO:8)及其上游5kb以内和/或下游5kb以内的序列;
(9)含chr2:72371208:72371433(SEQ ID NO:9)及其上游5kb以内和/或下游5kb以内的序列;
(10)含chr5:134364359:134364559(SEQ ID NO:10)及其上游5kb以内和/或下游5kb以内的序列;
(11)含chr10:118892523:118892723(SEQ ID NO:11)及其上游5kb以内和/或下游5kb以内的序列;
(12)含chr12:113901298:113901498(SEQ ID NO:12)及其上游5kb以内和/或下游5kb以内的序列;
(13)含chr8:143613755:143613955(SEQ ID NO:13)及其上游5kb以内和/或下游5kb以内的序列;
(14)含chr8:20375580:20375780(SEQ ID NO:14)及其上游5kb以内和/或下游5kb以内的序列;
(15)含chr7:107499318:107499518(SEQ ID NO:15)及其上游5kb以内和/或下游5kb以内的序列;
(16)含chr6:1378941:1379141(SEQ ID NO:16)及其上游5kb以内和/或下游5kb以内的序列;
(17)含chr15:34786976:34787337(SEQ ID NO:17)及其上游5kb以内和/或下游5kb以内的序列;
(18)含chr1:156405314:156405514(SEQ ID NO:18)及其上游5kb以内和/或下游5kb以内的序列;
(19)含chr8:10588811:10589173(SEQ ID NO:19)及其上游5kb以内和/或下游5kb以内的序列;
(20)含chr4:85418610:85418919(SEQ ID NO:20)及其上游5kb以内和/或下游5kb以内的序列;
(21)含chr5:140871317:140871517(SEQ ID NO:21)及其上游5kb以内和/或下游5kb以内的序列;
(22)含chr5:92906255:92906617(SEQ ID NO:22)及其上游5kb以内和/或下游5kb以内的序列;
(23)含chr14:57265398:57265598(SEQ ID NO:23)及其上游5kb以内和/或下游5kb以内的序列;
(24)含chr19:19650947:19651147(SEQ ID NO:24)及其上游5kb以内和/或下游5kb以内的序列;
(25)含chr11:20618486:20618686(SEQ ID NO:25)及其上游5kb以内和/或下游5kb以内的序列;
(26)含chr7:73407894:73408161(SEQ ID NO:26)及其上游5kb以内和/或下游5kb以内的序列;
(27)含chr16:82660460:82660774(SEQ ID NO:27)及其上游5kb以内和/或下游5kb以内的序列;
(28)含chr13:24844736:24844936(SEQ ID NO:28)及其上游5kb以内和/或下游5kb以内的序列;
(29)含chr20:55500358:55500677(SEQ ID NO:29)及其上游5kb以内和/或下游5kb以内的序列;
(30)含chr10:123923943:123924143(SEQ ID NO:30)及其上游5kb以内和/或下游5kb以内的序列;
(31)含chr20:59827678:59827907(SEQ ID NO:31)及其上游5kb以内和/或下游5kb以内的序列;
(32)含chr20:62330559:62330808(SEQ ID NO:32)及其上游5kb以内和/或下游5kb以内的序列;
(33)含chr19:13209774:13209974(SEQ ID NO:33)及其上游5kb以内和/或下游5kb以内的序列;
(34)含chr16:2085778:2086156(SEQ ID NO:34)及其上游5kb以内和/或下游5kb以内的序列;
(35)含chr6:108488634:108488917(SEQ ID NO:35)及其上游5kb以内和/或下游5kb以内的序列;
(36)含chr12:115124911:115125191(SEQ ID NO:36)及其上游5kb以内和/或下游5kb以内的序列;
(37)含chr10:124896740:124897020(SEQ ID NO:37)及其上游5kb以内和/或下游5kb以内的序列;
(38)含chr14:55243006:55243206(SEQ ID NO:38)及其上游5kb以内和/或下游5kb以内的序列;
(39)含chr13:36729096:36729334(SEQ ID NO:39)及其上游5kb以内和/或下游5kb以内的序列;
(40)含chr2:10444997:10445197(SEQ ID NO:40)及其上游5kb以内和/或下游5kb以内的序列;
(41)含chr9:2157701:2157901(SEQ ID NO:41)及其上游5kb以内和/或下游5kb以内的序列;
(42)含chr12:57529619:57529819(SEQ ID NO:42)及其上游5kb以内和/或下游5kb以内的序列;
(43)含chr1:119527250:119527450(SEQ ID NO:43)及其上游5kb以内和/或下游5kb以内的序列;
(44)含chr1:119532788:119532988(SEQ ID NO:44)及其上游5kb以内和/或下游5kb以内的序列;
(45)含chr15:96909441:96909641(SEQ ID NO:45)及其上游5kb以内和/或下游5kb以内的序列;
(46)含chr1:146551463:146551747(SEQ ID NO:46)及其上游5kb以内和/或下游5kb以内的序列;
(47)含chr17:35293755:35293955(SEQ ID NO:47)或其上下游各5kb以内的序列;和
(48)含chr17:59482763:59482963(SEQ ID NO:48)或其上下游各5kb以内的序列。
在一个或多个实施方案中,所述一个或多个目标标志物包括所述第(3)、(8)、(13)、(15)、(17)、(19)、(22)、(25)、(29)、(31)、(37)、(38)、(40)、(41)、(42)、(43)、(45)、(47)和(48)项所述的序列。
在一个或多个实施方案中,所述一个或多个目标标志物包括所述第(2)、(6)、(7)、(8)、(12)、(15)、(19)、(25)、(28)、(32)、(33)、(36)、(37)、(40)、(42)、(43)、(44)、(46)和(48)项所述的序列。
在一个或多个实施方案中,所述一个或多个目标标志物包括所述第(3)、(13)、(14)、(20)、(22)、(28)、(30)和(36)项所述的序列;或
在一个或多个实施方案中,所述一个或多个目标标志物包括所述第(3)、(13)、(27)、(30)和(35)项所述的序列。
在一个或多个实施方案中,所述一个或多个目标标志物包括所述第(7)、(14)、(22)、(26)、(35)、(38)、(40)、(43)、(47)和(48)项所述的序列。
在一个或多个实施方案中,所述一个或多个目标标志物选自所述第(7)、(14)、(22)、(26)、(35)、(38)、(40)、(43)、(47)和(48)项中任意1、2、3、4、5、6、7、8或9项所述的序列。
在一个或多个实施方案中,所述目标标志物包括第(40)项所述序列,以及第(1)-(39)和(41)-(48)中的任意一条或多条序列。
在一个或多个实施方案中,所述目标标志物包括第(47)项所述序列,以及第(1)-(46)和(48)中的任意一条或多条序列。
在一个或多个实施方案中,所述目标标志物包括第(43)项所述序列,以及第(1)-(42)和(44)-(48)中的任意一条或多条序列。
在一个或多个实施方案中,所述目标标志物包括第(26)项所述序列,以及第(1)-(25)和(27)-(48)中的任意一条或多条序列。
在一个或多个实施方案中,所述目标标志物包括第(35)项所述序列,以及第(1)-(34)和(36)-(48)中的任意一条或多条序列。
在一个或多个实施方案中,所述目标标志物包括第(14)项所述序列,以及第(1)-(13)和(15)-(48)中的任意一条或多条序列。
在一个或多个实施方案中,所述目标标志物包括第(38)项所述序列,以及第(1)-(37)和(39)-(48)中的任意一条或多条序列。
在一个或多个实施方案中,所述目标标志物包括第(22)项所述序列,以及第(1)-(21)和(23)-(48)中的任意一条或多条序列。
在一个或多个实施方案中,所述目标标志物包括第(7)项所述序列,以及第(1)-(6)和(8)-(48)中的任意一条或多条序列。
在一个或多个实施方案中,所述目标标志物包括第(48)项所述序列,以及第(1)-(47)中的任意一条或多条序列。
在一个或多个实施方案中,所述目标标志物包括所述SEQ ID NO:1-48各序列各起始位点的上游1kb以内、优选500bp以内、更优选300bp以内、更优选100bp以内的序列和/或各末端位点的下游1kb以内、优选500bp以内、优选300bp以内、优选100bp以内的序列;优选地,所述目标标志物是含有所述SEQ ID NO:1-48任一序列且长度为400bp以内的基因序列。
在一个或多个实施方案中,所述第(1)到第(48)项所述的序列分别是SEQ ID NO:1-48所示的序列。
在一个或多个实施方案中,所述试剂包括引物和/或探针分子;优选地,所述引物分子相同于、互补于或在严谨条件下杂交于所述一个或多个目标标志物并包含至少9个连续的核苷酸,所述探针分子与所述一个或多个目标标志物的扩增产物在严谨条件下杂交。
在一个或多个实施方案中,所述试剂为实施基因组简化甲基化测序技术所需的试剂。
本发明另一方面还提供用于检测一个或多个目标标志物的至少一个CpG二核苷酸的甲基化状态或甲基化水平以诊断胃癌的诊断试剂或诊断试剂盒,其包含用于检测一个或多个目标标志物的至少一个CpG二核苷酸的甲基化状态或水平的试剂;其中,所述一个或多个目标标志物如本文第一方面任一实施方案所述。
在一个或多个实施方案中,所述诊断试剂或诊断试剂盒包括引物和/或探针分子;优选地,所述引物分子相同于、互补于或在严谨条件下杂交于所述一个或多个目标标志物并包含至少9个连续的核苷酸,所述探针分子与所述一个或多个目标标志物的扩增产物在严谨条件下杂交。
在一个或多个实施方案中,所述诊断试剂或诊断试剂盒还包括检测内参基因ACTB的引物分子和/或探针分子。
在一个或多个实施方案中,所述诊断试剂或诊断试剂盒还包括选自以下的一种或多种物质:PCR缓冲液、聚合酶、dNTP、限制性内切酶、酶切缓冲液、荧光染料、荧光淬灭剂、荧光报告剂、外切核酸酶、碱性磷酸酶、内标、对照物、KCl、MgCl2和(NH4)2SO4。
在一个或多个实施方案中,所述试剂还包括下述一个或多个方法中所用的试剂:基于重亚硫酸盐转化的PCR、DNA测序、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法、基于芯片的甲基化图谱分析和质谱。
在一个或多个实施方案中,所述试剂选自以下一种或多种:重亚硫酸盐及其衍生物、荧光染料、荧光淬灭剂、荧光报告剂、内标和对照物。
本发明另一方面还提供区分基因组DNA至少一个靶区域内甲基化和未甲基化CpG二核苷酸的至少一种试剂或成组试剂在制备用于检测和/或分类个体中胃癌的方法的试剂盒中的用途,其中所述方法包括使从所述个体生物样品中分离的基因组DNA与所述至少一种试剂或成组试剂接触,其中所述靶区域相同于、等同于或互补于一个或多个目标标志物的至少16个连续核苷酸的序列,其中所述连续核苷酸包含至少一个CpG二核苷酸序列,由此至少部分地提供对胃癌的检测和/或分类,其中,所述一个或多个目标标志物如本文第一方面任一实施方案所述。
本发明另一方面还提供将5位未甲基化的胞嘧啶碱基转化为尿嘧啶或在杂交性能方面可检测地不同于胞嘧啶的其它碱基的一种或多种试剂、扩增酶以及至少一种包含至少9个连续核苷酸的引物在制备用于检测和/或分类个体中胃癌的方法的试剂盒中的用途,其中所述方法包括:
a)从所述个体生物样品分离基因组DNA;
b)用所述一种或多种试剂处理a)的所述基因组DNA或其片段;
c)使所述经处理的基因组DNA或其经处理的片段与所述扩增酶和所述至少一种引物接触,所述引物相同于、互补于或在严谨条件下杂交于一个或多个目标标志物,其中所述经处理的基因组DNA或其片段被扩增以产生至少一种扩增产物或不被扩增;以及
d)基于所述扩增物是否存在或其性质,确定所述一个或多个目标标志物的至少一个CpG二核苷酸的甲基化状态或水平,或者反映所述一个或多个目标标志物的多个CpG二核苷酸平均甲基化状态或水平的均值或值,由此至少部分地检测和/或分类个体中的胃癌;
其中,所述一个或多个目标标志物如权利要求1-6中任一项所述。
在一个或多个实施方案中,其中步骤b)中,使用选自亚硫酸氢盐、酸式亚硫酸盐、焦亚硫酸盐及其组合的试剂处理所述基因组DNA或其片段。
在一个或多个实施方案中,其中c)中,通过使用耐热DNA聚合酶作为所述扩增酶、使用缺乏5’-3’外切酶活性的聚合酶、使用聚合酶链式反应和/或产生带有可检测标记的扩增产物进行核酸分子的接触或扩增。
在一个或多个实施方案中,其中c)中的接触或扩增包括使用甲基化特异的引物。
本发明另一方面还提供一种或多种甲基化敏感限制酶和扩增酶以及至少一种包含至少9个连续核苷酸的引物在制备用于检测和/或分类个体中胃癌的方法的试剂盒中的用途,其中,所述引物相同于、互补于或在严谨条件下杂交于一个或多个目标标志物;所述方法包括:
a)从所述个体生物样品分离基因组DNA;
b)以所述一种或多种甲基化敏感限制酶消化a)所述的基因组DNA或其片段,使所得消化产物与所述扩增酶和所述至少一种引物接触;和
c)基于所述扩增物是否存在或其性质,确定所述一个或多个目标标志物的至少一个CpG二核苷酸的甲基化状态或水平,由此至少部分地检测和/或分类个体中的胃癌;
其中,所述一个或多个目标标志物如本文第一方面任一实施方案所述。
在一个或多个实施方案中,通过杂交至少一种核酸或肽核酸来确定扩增产物的存在与否,所述至少一种核酸或肽核酸等同于或互补于选自所述一个或多个目标标志物的序列的至少16碱基长片段。
本发明另一方面还提供一种在个体中检测和/或分类个体中胃癌的方法,所述方法包括如下步骤:
a)从所述个体生物样品分离基因组DNA;
b)b1)用一种或多种试剂处理a)的所述基因组DNA或其片段,所述一种或多种试剂能将5位未甲基化的胞嘧啶碱基转化为尿嘧啶或在杂交性能方面可检测地不同于胞嘧啶的其它碱基;或b2)以一种或多种甲基化敏感限制酶消化a)所述的基因组DNA或其片段,
c)使b)所得处理产物或消化产物与扩增酶和至少一种包含至少9个连续核苷酸的引物接触,所述引物相同于、互补于或在严谨条件下杂交于一个或多个目标标志物,其中所述处理产物或消化产物被扩增以产生至少一种扩增产物或不被扩增;和
d)基于所述扩增物是否存在或其性质,确定所述一个或多个目标标志物的至少一个CpG二核苷酸的甲基化状态或水平,或者反映所述一个或多个目标标志物的多个CpG二核苷酸平均甲基化状态或水平的均值或值,由此至少部分地检测和/或分类个体中的胃癌;
其中,所述一个或多个目标标志物如本文第一方面任一实施方案所述。
在一个或多个实施方案中,其中步骤b1)中,使用选自亚硫酸氢盐、酸式亚硫酸盐、焦亚硫酸盐及其组合的试剂处理所述基因组DNA或其片段。
在一个或多个实施方案中,其中c)中,通过使用耐热DNA聚合酶作为所述扩增酶、使用缺乏5’-3’外切酶活性的聚合酶、使用聚合酶链式反应和/或产生带有可检测标记的扩增产物来进行核酸分子的接触或扩增。
在一个或多个实施方案中,其中c)中的接触或扩增包括使用甲基化特异的引物。
在一个或多个实施方案中,通过杂交至少一种核酸或肽核酸来确定扩增产物的存在与否,所述至少一种核酸或肽核酸相同于、等同于或互补于选自所述一个或多个目标标志物的序列的至少16碱基长片段。
本发明另一方面还提供衍生自一个或多个目标标志物的经处理的核酸在制备用于诊断胃癌的试剂盒中的用途,其中所述处理适合于将所述一个或多个目标标志物的至少一个未甲基化的胞嘧啶碱基转化至尿嘧啶或在杂交上可检测地不同于胞嘧啶的其它碱基,所述一个或多个目标标志物如本发明第一方面中任一实施方案所述。
本发明另一方面还提供用于检测并诊断个体胃癌的装置,所述装置包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:(1)获取样品中一个或多个目标标志物的至少一个CpG二核苷酸的甲基化水平或甲基化状态,和(2)根据(1)的甲基化水平或甲基化状态判读胃癌;其中,所述一个或多个目标标志物如本发明第一方面中任一实施方案所述。
附图说明
图1:单个甲基化标志物性能判别流程图。
图2:所有目标标志物构建的模型在训练集和测试集样本中的模型预测分值分布图。
图3:所有目标标志物构建的模型在训练集和测试集样本中诊断胃癌的ROC曲线。
图4:实施例4标志物构建的模型在训练集和测试集样本中的模型预测分值分布图。
图5:实施例4标志物构建的模型在训练集和测试集样本中诊断胃癌的ROC曲线。
图6:实施例5标志物构建的模型在训练集和测试集样本中的模型预测分值分布图。
图7:实施例5标志物构建的模型在训练集和测试集样本中诊断胃癌的ROC曲线。
图8:实施例6标志物构建的模型在训练集和测试集样本中的模型预测分值分布图。
图9:实施例6标志物构建的模型在训练集和测试集样本中诊断胃癌的ROC曲线。
图10:实施例7标志物构建的模型在训练集和测试集样本中的模型预测分值分布图。
图11:实施例7标志物构建的模型在训练集和测试集样本中诊断胃癌的ROC曲线。
具体实施方式
应理解,在本发明范围中,本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合,从而构成优选的技术方案。
需注意的是,在本申请的说明书和权利要求书中,单数形式的“一个”、“一种”和“所述”均包括其复数形式,除非上下文另有说明。因此,例如,“一种试剂”包括多种试剂。
在本申请的说明书和权利要求书,除非另有说明,否则术语“包含”、“包括”或“含有”是指含有所列出的数值、步骤或成分,但也不排除还含有其他数值、步骤或成分。
本发明基于测定的胃癌患者和无胃癌对象血液样本甲基化单倍型测序数据分析,鉴定出鉴别胃癌的标志物。基于本发明的标志物,可以有效鉴别胃癌,相比现有的鉴定方法具有更高的灵敏度和特异性,为胃癌的早期鉴别提供了新方法。本发明检测过程无创,安全性高,便于大规模临床应用。
I.目标标志物及其目标区域
如本文所用,术语“目标标志物”是指这样的目的核酸或基因区域:其甲基化水平指示着对象是否患有胃癌。术语“目标标志物”应被认为包括本文所述基因的所有转录变体及其所有启动子和调控元件。如本领域技术人员所理解的,已知某些基因在个体之间表现出等位基因变异或单核苷酸多态性(“SNP”)。SNP包括不同长度的简单的重复序列(例如二核苷酸和三核苷酸重复)的插入和缺失。因此,本申请应被理解为扩展到由任何其他突变、多态性或等位基因变异产生的标志物/基因的所有形式。另外,应当理解,术语“目标标志物”应既包括标志物或基因的正义链序列,也包括标志物或基因的反义链序列。
本文所用的术语“目标标志物”被宽泛地解释为既包括1)在生物样品或基因组DNA中发现的原始标志物(处于特定的甲基化状态),也包括2)其经过处理的序列(例如亚硫酸氢盐转化后的对应区域或MSRE处理后的对应区域)。亚硫酸氢盐转化后的对应区域与基因组序列中的目标标志物不同之处在于,一个或多个未甲基化的胞嘧啶残基被转化为尿嘧啶碱基、胸腺嘧啶碱基或在杂交行为上与胞嘧啶不同的其他碱基。经MSRE处理的对应区域与基因组序列中的目标标志物不同之处在于,该序列在一个或多个MSRE切割位点处被切割。
本发明中的分子诊断,除了胃癌的早期诊断,还包括胃癌晚期诊断,且也包括胃癌筛选、风险评估、预后、疾病识别。早期诊断指的是在发生和/或转移之前发现癌症的可能性,优选在可观察到组织或者细胞的形态学变化之前。
本文所述的目标标志物选自下组基因序列(Hg19坐标)中的任意1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47个或全部48个:
含chr6:166970625:166970825(SEQ ID NO:1)及其上游5kb以内和/或下游5kb以内的序列;
含chr11:11600237:11600617(SEQ ID NO:2)及其上游5kb以内和/或下游5kb以内的序列;
含chr17:76929754:76929954(SEQ ID NO:3)及其上游5kb以内和/或下游5kb以内的序列;
含chr6:391738:391938(SEQ ID NO:4)及其上游5kb以内和/或下游5kb以内的序列;
含chr12:2282090:2282290(SEQ ID NO:5)及其上游5kb以内和/或下游5kb以内的序列;
含chr2:177030134:177030449(SEQ ID NO:6)及其上游5kb以内和/或下游5kb以内的序列;
含chr7:35301095:35301411(SEQ ID NO:7)及其上游5kb以内和/或下游5kb以内的序列;
含chr7:8482114:8482413(SEQ ID NO:8)及其上游5kb以内和/或下游5kb以内的序列;
含chr2:72371208:72371433(SEQ ID NO:9)及其上游5kb以内和/或下游5kb以内的序列;
含chr5:134364359:134364559(SEQ ID NO:10)及其上游5kb以内和/或下游5kb以内的序列;
含chr10:118892523:118892723(SEQ ID NO:11)及其上游5kb以内和/或下游5kb以内的序列;
含chr12:113901298:113901498(SEQ ID NO:12)及其上游5kb以内和/或下游5kb以内的序列;
含chr8:143613755:143613955(SEQ ID NO:13)及其上游5kb以内和/或下游5kb以内的序列;
含chr8:20375580:20375780(SEQ ID NO:14)及其上游5kb以内和/或下游5kb以内的序列;
含chr7:107499318:107499518(SEQ ID NO:15)及其上游5kb以内和/或下游5kb以内的序列;
含chr6:1378941:1379141(SEQ ID NO:16)及其上游5kb以内和/或下游5kb以内的序列;
含chr15:34786976:34787337(SEQ ID NO:17)及其上游5kb以内和/或下游5kb以内的序列;
含chr1:156405314:156405514(SEQ ID NO:18)及其上游5kb以内和/或下游5kb以内的序列;
含chr8:10588811:10589173(SEQ ID NO:19)及其上游5kb以内和/或下游5kb以内的序列;
含chr4:85418610:85418919(SEQ ID NO:20)及其上游5kb以内和/或下游5kb以内的序列;
含chr5:140871317:140871517(SEQ ID NO:21)及其上游5kb以内和/或下游5kb以内的序列;
含chr5:92906255:92906617(SEQ ID NO:22)及其上游5kb以内和/或下游5kb以内的序列;
含chr14:57265398:57265598(SEQ ID NO:23)及其上游5kb以内和/或下游5kb以内的序列;
含chr19:19650947:19651147(SEQ ID NO:24)及其上游5kb以内和/或下游5kb以内的序列;
含chr11:20618486:20618686(SEQ ID NO:25)及其上游5kb以内和/或下游5kb以内的序列;
含chr7:73407894:73408161(SEQ ID NO:26)及其上游5kb以内和/或下游5kb以内的序列;
含chr16:82660460:82660774(SEQ ID NO:27)及其上游5kb以内和/或下游5kb以内的序列;
含chr13:24844736:24844936(SEQ ID NO:28)及其上游5kb以内和/或下游5kb以内的序列;
含chr20:55500358:55500677(SEQ ID NO:29)及其上游5kb以内和/或下游5kb以内的序列;
含chr10:123923943:123924143(SEQ ID NO:30)及其上游5kb以内和/或下游5kb以内的序列;
含chr20:59827678:59827907(SEQ ID NO:31)及其上游5kb以内和/或下游5kb以内的序列;
含chr20:62330559:62330808(SEQ ID NO:32)及其上游5kb以内和/或下游5kb以内的序列;
含chr19:13209774:13209974(SEQ ID NO:33)及其上游5kb以内和/或下游5kb以内的序列;
含chr16:2085778:2086156(SEQ ID NO:34)及其上游5kb以内和/或下游5kb以内的序列;
含chr6:108488634:108488917(SEQ ID NO:35)及其上游5kb以内和/或下游5kb以内的序列;
含chr12:115124911:115125191(SEQ ID NO:36)及其上游5kb以内和/或下游5kb以内的序列;
含chr10:124896740:124897020(SEQ ID NO:37)及其上游5kb以内和/或下游5kb以内的序列;
含chr14:55243006:55243206(SEQ ID NO:38)及其上游5kb以内和/或下游5kb以内的序列;
含chr13:36729096:36729334(SEQ ID NO:39)及其上游5kb以内和/或下游5kb以内的序列;
含chr2:10444997:10445197(SEQ ID NO:40)及其上游5kb以内和/或下游5kb以内的序列;
含chr9:2157701:2157901(SEQ ID NO:41)及其上游5kb以内和/或下游5kb以内的序列;
含chr12:57529619:57529819(SEQ ID NO:42)及其上游5kb以内和/或下游5kb以内的序列;
含chr1:119527250:119527450(SEQ ID NO:43)及其上游5kb以内和/或下游5kb以内的序列;
含chr1:119532788:119532988(SEQ ID NO:44)及其上游5kb以内和/或下游5kb以内的序列;
含chr15:96909441:96909641(SEQ ID NO:45)及其上游5kb以内和/或下游5kb以内的序列;
含chr1:146551463:146551747(SEQ ID NO:46)及其上游5kb以内和/或下游5kb以内的序列;
含chr17:35293755:35293955(SEQ ID NO:47)或其上下游各5kb以内的序列;和
含chr17:59482763:59482963(SEQ ID NO:48)或其上下游各5kb以内的序列。
在一些实施方案中,本文所述的一个或多个目标标志物包括:含chr17:76929754:76929954(SEQ ID NO:3)及其上游5kb以内和/或下游5kb以内的序列;含chr7:8482114:8482413(SEQ ID NO:8)及其上游5kb以内和/或下游5kb以内的序列;含chr8:143613755:143613955(SEQ ID NO:13)及其上游5kb以内和/或下游5kb以内的序列;含chr7:107499318:107499518(SEQ ID NO:15)及其上游5kb以内和/或下游5kb以内的序列;含chr15:34786976:34787337(SEQ ID NO:17)及其上游5kb以内和/或下游5kb以内的序列;含chr8:10588811:10589173(SEQ ID NO:19)及其上游5kb以内和/或下游5kb以内的序列;含chr5:92906255:92906617(SEQ ID NO:22)及其上游5kb以内和/或下游5kb以内的序列;含chr11:20618486:20618686(SEQ ID NO:25)及其上游5kb以内和/或下游5kb以内的序列;含chr20:55500358:55500677(SEQ ID NO:29)及其上游5kb以内和/或下游5kb以内的序列;含chr20:59827678:59827907(SEQ ID NO:31)及其上游5kb以内和/或下游5kb以内的序列;含chr10:124896740:124897020(SEQ ID NO:37)及其上游5kb以内和/或下游5kb以内的序列;含chr14:55243006:55243206(SEQ ID NO:38)及其上游5kb以内和/或下游5kb以内的序列;含chr2:10444997:10445197(SEQ ID NO:40)及其上游5kb以内和/或下游5kb以内的序列;含chr9:2157701:2157901(SEQ ID NO:41)及其上游5kb以内和/或下游5kb以内的序列;含chr12:57529619:57529819(SEQ ID NO:42)及其上游5kb以内和/或下游5kb以内的序列;含chr1:119527250:119527450(SEQ ID NO:43)及其上游5kb以内和/或下游5kb以内的序列;含chr15:96909441:96909641(SEQ ID NO:45)及其上游5kb以内和/或下游5kb以内的序列;含chr17:35293755:35293955(SEQ ID NO:47)或其上下游各5kb以内的序列;和含chr17:59482763:59482963(SEQ ID NO:48)或其上下游各5kb以内的序列。
在一些实施方案中,本文所述的一个或多个目标标志物包括:含chr11:11600237:11600617(SEQ ID NO:2)及其上游5kb以内和/或下游5kb以内的序列;含chr2:177030134:177030449(SEQ ID NO:6)及其上游5kb以内和/或下游5kb以内的序列;含chr7:35301095:35301411(SEQ ID NO:7)及其上游5kb以内和/或下游5kb以内的序列;含chr7:8482114:8482413(SEQ ID NO:8)及其上游5kb以内和/或下游5kb以内的序列;含chr12:113901298:113901498(SEQ ID NO:12)及其上游5kb以内和/或下游5kb以内的序列;含chr7:107499318:107499518(SEQ ID NO:15)及其上游5kb以内和/或下游5kb以内的序列;含chr8:10588811:10589173(SEQ ID NO:19)及其上游5kb以内和/或下游5kb以内的序列;含chr11:20618486:20618686(SEQ ID NO:25)及其上游5kb以内和/或下游5kb以内的序列;含chr13:24844736:24844936(SEQ ID NO:28)及其上游5kb以内和/或下游5kb以内的序列;含chr20:62330559:62330808(SEQ ID NO:32)及其上游5kb以内和/或下游5kb以内的序列;含chr19:13209774:13209974(SEQ ID NO:33)及其上游5kb以内和/或下游5kb以内的序列;含chr12:115124911:115125191(SEQ ID NO:36)及其上游5kb以内和/或下游5kb以内的序列;含chr10:124896740:124897020(SEQ ID NO:37)及其上游5kb以内和/或下游5kb以内的序列;含chr2:10444997:10445197(SEQ ID NO:40)及其上游5kb以内和/或下游5kb以内的序列;含chr12:57529619:57529819(SEQ ID NO:42)及其上游5kb以内和/或下游5kb以内的序列;含chr1:119527250:119527450(SEQ ID NO:43)及其上游5kb以内和/或下游5kb以内的序列;含chr1:119532788:119532988(SEQ ID NO:44)及其上游5kb以内和/或下游5kb以内的序列;含chr1:146551463:146551747(SEQ ID NO:46)及其上游5kb以内和/或下游5kb以内的序列;和含chr17:59482763:59482963(SEQ ID NO:48)或其上下游各5kb以内的序列。
在一些实施方案中,本文所述的一个或多个目标标志物包括:含chr17:76929754:76929954(SEQ ID NO:3)及其上游5kb以内和/或下游5kb以内的序列;含chr8:143613755:143613955(SEQ ID NO:13)及其上游5kb以内和/或下游5kb以内的序列;含chr8:20375580:20375780(SEQ ID NO:14)及其上游5kb以内和/或下游5kb以内的序列;含chr4:85418610:85418919(SEQ ID NO:20)及其上游5kb以内和/或下游5kb以内的序列;含chr5:92906255:92906617(SEQ ID NO:22)及其上游5kb以内和/或下游5kb以内的序列;含chr13:24844736:24844936(SEQ ID NO:28)及其上游5kb以内和/或下游5kb以内的序列;含chr10:123923943:123924143(SEQ ID NO:30)及其上游5kb以内和/或下游5kb以内的序列;和含chr12:115124911:115125191(SEQ ID NO:36)及其上游5kb以内和/或下游5kb以内的序列。
在一些实施方案中,本文所述的一个或多个目标标志物包括:含chr17:76929754:76929954(SEQ ID NO:3)及其上游5kb以内和/或下游5kb以内的序列;含chr8:143613755:143613955(SEQ ID NO:13)及其上游5kb以内和/或下游5kb以内的序列;含chr16:82660460:82660774(SEQ ID NO:27)及其上游5kb以内和/或下游5kb以内的序列;含chr10:123923943:123924143(SEQ ID NO:30)及其上游5kb以内和/或下游5kb以内的序列;和含chr6:108488634:108488917(SEQ ID NO:35)及其上游5kb以内和/或下游5kb以内的序列。
在一些实施方案中,本文所述的一个或多个目标标志物的Hg坐标区域选自以下序列中的任意一个或任意多个的组合:含chr7:35301095:35301411(SEQ ID NO:7)及其上游5kb以内和/或下游5kb以内的序列;含chr8:20375580:20375780(SEQ ID NO:14)及其上游5kb以内和/或下游5kb以内的序列;含chr5:92906255:92906617(SEQ ID NO:22)及其上游5kb以内和/或下游5kb以内的序列;含chr7:73407894:73408161(SEQ ID NO:26)及其上游5kb以内和/或下游5kb以内的序列;含chr6:108488634:108488917(SEQ ID NO:35)及其上游5kb以内和/或下游5kb以内的序列;含chr14:55243006:55243206(SEQ ID NO:38)及其上游5kb以内和/或下游5kb以内的序列;含chr2:10444997:10445197(SEQ ID NO:40)及其上游5kb以内和/或下游5kb以内的序列;含chr1:119527250:119527450(SEQ ID NO:43)及其上游5kb以内和/或下游5kb以内的序列;含chr17:35293755:35293955(SEQ ID NO:47)或其上下游各5kb以内的序列;和含chr17:59482763:59482963(SEQ ID NO:48)或其上下游各5kb以内的序列。
所述染色体坐标与2009年2月发布的人类基因组数据库Hg19版本一致(在本文中称为“Hg19坐标”)。在一些实施方案中,本文所述的目标标志物包括上述SEQ ID NO:1-48各序列各起始位点的上游3kb以内、优选2kb以内、更优选1kb以内、更优选500bp以内、更优选300bp以内、更优选100bp以内的序列和/或各末端位点的下游3kb以内、优选2kb以内、优选1kb以内、优选500bp以内、优选300bp以内、优选100bp以内的序列。在一些实施方案中,本文所述的目标标志物是含有上述SEQ ID NO:1-48任一序列且长度为1000bp以内、优选600bp以内、更优选400bp以内的基因序列。
在一些实施方案中,本文所述的目标标志物选自SEQ ID NO:1-48中的任意1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47条或全部48条序列。
在一些实施方案中,本文所述的目标标志物包括:SEQ ID NO:3、SEQ ID NO:8、SEQID NO:13、SEQ ID NO:15、SEQ ID NO:17、SEQ ID NO:19、SEQ ID NO:22、SEQ ID NO:25、SEQID NO:29、SEQ ID NO:31、SEQ ID NO:37、SEQ ID NO:38、SEQ ID NO:40、SEQ ID NO:41、SEQID NO:42、SEQ ID NO:43、SEQ ID NO:45、SEQ ID NO:47和SEQ ID NO:48。
在一些实施方案中,本文所述的目标标志物包括:SEQ ID NO:2、SEQ ID NO:6、SEQID NO:7、SEQ ID NO:8、SEQ ID NO:12、SEQ ID NO:15、SEQ ID NO:19、SEQ ID NO:25、SEQID NO:28、SEQ ID NO:32、SEQ ID NO:33、SEQ ID NO:36、SEQ ID NO:37、SEQ ID NO:40、SEQID NO:42、SEQ ID NO:43、SEQ ID NO:44、SEQ ID NO:46和SEQ ID NO:48。
在一些实施方案中,本文所述的目标标志物包括:SEQ ID NO:3、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:20、SEQ ID NO:22、SEQ ID NO:28、SEQ ID NO:30和SEQ ID NO:36。
在一些实施方案中,本文所述的目标标志物包括:SEQ ID NO:3、SEQ ID NO:13、SEQ ID NO:27、SEQ ID NO:30和SEQ ID NO:35。
在一些实施方案中,本文所述的目标标志物包括以下序列中的任意一条或任意多条的组合:SEQ ID NO:7、SEQ ID NO:14、SEQ ID NO:22、SEQ ID NO:26、SEQ ID NO:35、SEQID NO:38、SEQ ID NO:40、SEQ ID NO:43、SEQ ID NO:47和SEQ ID NO:48。
在一些实施方案中,本文所述的目标标志物包括SEQ ID NO:40,以及SEQ ID NO:1-39和41-48中的任意一条或多条。
在一些实施方案中,本文所述的目标标志物包括SEQ ID NO:47,以及SEQ ID NO:1-46和48中的任意一条或多条。
在一些实施方案中,本文所述的目标标志物包括SEQ ID NO:43,以及SEQ ID NO:1-42和44-48中的任意一条或多条。
在一些实施方案中,本文所述的目标标志物包括SEQ ID NO:26,以及SEQ ID NO:1-25和27-48中的任意一条或多条。
在一些实施方案中,本文所述的目标标志物包括SEQ ID NO:35,以及SEQ ID NO:1-34和36-48中的任意一条或多条。
在一些实施方案中,本文所述的目标标志物包括SEQ ID NO:14,以及SEQ ID NO:1-13和15-48中的任意一条或多条。
在一些实施方案中,本文所述的目标标志物包括SEQ ID NO:38,以及SEQ ID NO:1-37和39-48中的任意一条或多条。
在一些实施方案中,本文所述的目标标志物包括SEQ ID NO:22,以及SEQ ID NO:1-21和23-48中的任意一条或多条。
在一些实施方案中,本文所述的目标标志物包括SEQ ID NO:7,以及SEQ ID NO:1-6和8-48中的任意一条或多条。
在一些实施方案中,本文所述的目标标志物包括SEQ ID NO:48,以及SEQ ID NO:1-47中的任意一条或多条。
可在公共数据库(例如UCSC Genome Browser、Ensemble和NCBI网站)中获得上述Hg19坐标的特定核苷酸序列,以及每个区域的各个起始位点的上游5kb和各个末端位点的下游5kb。
本发明的目标标志物还包括非酶促法转化(如亚硫酸氢盐转化后的对应区域),以及酶促法转化(如MSRE转化)后获得的对应区域。
在一些实施方式中,本发明的目标标志物也包括上述各基因的各类变体。变体包括来自相同区域的、与本文所述的基因或区域具有至少90%、91%、92%、93%、94%、95%、96%、97%、98%、99%的序列同一性(即,具有一个或多个缺失、插入、取代、反向序列等)的核酸序列。因此,本申请内容应理解为延伸至实现相同结果的此类变体,尽管事实上个体间的实际核酸序列具有微小的遗传变异。
如本文所用,术语“序列同一性的百分比(%)”是指候选序列的氨基酸(或核酸)残基和参考序列的氨基酸(或核酸)残基进行序列比对后的相同百分比,比对时可以引入间隔(如有必要)以使得相同的氨基酸(或核酸)数目达到最多。换言之,氨基酸序列(或核酸序列)的序列同一性百分比(%)可以通过用与参考序列相同的氨基酸残基(或碱基)的数目除以候选序列或参考序列中氨基酸残基(或碱基)的总数(以较短者为准)来计算。氨基酸残基的保守取代可以被认为或可以不被认为是相同的残基。可以通过以下方式来确定氨基酸(或核酸)序列同一性的百分比,例如,可以使用公开的工具如BLASTN、BLASTp(可在美国国家生物技术信息中心(NCBI)的网站上获得,也可参见Altschul S.F.et al.,J.Mol.Biol.,215:403–410(1990);Stephen F.et al.,Nucleic Acids Res.,25:3389–3402(1997))、ClustalW2(可在欧洲生物信息研究所的网站上找到),也可参见Higgins D.G.et al.,Methods in Enzymology,266:383-402(1996);Larkin M.A.et al.,Bioinformatics(Oxford,England),23(21):2947-8(2007))和ALIGN或Megalign(DNASTAR)软件。本领域技术人员可以使用所述工具提供的默认参数,或者可以(例如,通过选择合适的算法)定制适合比对的参数。
本发明的目标标志物也包括上述基因的起始位点上游5kb和末端位点下游5kb经非酶促法转化(如亚硫酸氢盐转化)后的对应区域或经酶促方法处理(如甲基化敏感限制酶处理)后的对应区域。
II.目标标志物的来源及制备
本文中,所述目标标志物可以来自任何感兴趣的个体的生物样品。本文所用的术语“个体”包括人类和非人类的动物。非人类动物包括所有脊椎动物,例如哺乳动物和非哺乳动物。“个体”也可以是家畜,例如牛、猪、绵羊、家禽和马;或啮齿动物,例如大鼠、小鼠;或非人类灵长类动物,例如猿、猴、恒河猴;或家养的动物,例如狗或猫。在一些实施方式中,个体是人类或非人类灵长类动物。在一些实施方式中,个体是人类。在本申请中,“个体”、“对象”和“受试者”可互换使用。
应理解,上述第I部分给出的序列为人的序列。当涉及非人动物的序列时,可采用现有技术容易地确定上述基因在非人动物基因组中的对应位置和对应序列。
本文所用的术语“生物样品”是指获自或衍生自个体的生物组合物,其包含基于物理、生化、化学和/或生理特征待表征或待识别的细胞和/或其他分子实体(例如DNA)。生物样品包括但不限于通过本领域技术人员已知的任何方法获得的个体的细胞、组织、器官和/或生物体液。在一些实施方式中,所述生物样品选自下组:组织学切片、组织活检、石蜡包埋的组织、体液、手术切除样本、分离的血细胞、分离自血液的细胞,及其任意组合。在一些实施方式中,所述体液选自下组:全血、血清、血浆,及其任意组合。选择最适合的样品将取决于情境的性质。在一些实施方式中,所述生物样品为个体的全血。在一些实施方式中,所述生物样品为个体的血浆。本领域技术人员知道从全血制备血浆的各种方法。例如,在一些实施方式中,血浆通过将来自个体的全血离心一次、两次、三次、四次、五次或更多次来获得。在一些实施方式中,所述生物样品是胃癌活检物。
待检测的DNA可分离自所述生物样品。可以通过使用本领域已知的各种方法从生物样品中分离和纯化出待检测的DNA。可使用市售试剂盒来进行分离和纯化。例如,通过以下方式从细胞和组织中分离DNA:在高度变性和还原条件下裂解原材料、部分使用蛋白质降解酶、纯化通过苯酚/氯仿提取工艺获得的核酸组分,并通过渗析或乙醇沉淀从水相中回收核酸(参见例如Sambrook,J.,Fritsch,E.F.in T.Maniatis,C SH,Molecular Cloning,1989)。又例如,现在有许多试剂体系特别适用于从琼脂糖凝胶中纯化DNA片段、从细菌裂解物中分离质粒DNA,以及从血液、组织或细胞培养物中分离较长链的核酸(基因组DNA、总细胞RNA)。许多这些可商购的纯化体系中是基于相当众所周知的原理,即,在不同离液盐的溶液的存在下将核酸与矿物载体相结合。在这些体系中,细磨的玻璃粉、硅藻土或硅胶的悬浮液被用作载体材料。在例如US7888006B2和EP1626085A1中描述了从生物样品中分离和纯化DNA的一些其他方法。在方法之间进行选择将受到几个因素的影响,包括时间、费用和所需的DNA数量。
在一些实施方式中,生物样品中包含的DNA包括基因组DNA。本文所用的术语“基因组DNA”是指包含细胞或生物体的完整基因组及其片段或部分的DNA。基因组DNA是来源于个体的大段DNA(例如长于大约10、20、30、40、50、60、70、80、90、100、200或300kb),并且可以具有天然修饰,例如DNA甲基化。
在一些实施方式中,生物样品中包含的DNA包括细胞DNA。本文所用的术语“细胞DNA”是指存在于细胞内的DNA,或从体内细胞中获取DNA并在体外分离、或以其他方式在体外操作,只要该DNA未从体内细胞中移除。
在一些实施方式中,生物样品中包含的DNA包括细胞外游离DNA。本文所用的术语“细胞外游离DNA”是指在体内的细胞外存在的DNA片段。该术语也可以被用于指代获取自体内的细胞外来源并在体外分离、或操作的DNA片段。细胞外游离DNA中的DNA片段通常具有约100到200bp的长度,推测与被包裹于核小体的DNA片段的长度有关。细胞外游离DNA(cfDNA)包括例如细胞外游离胎儿DNA和循环肿瘤DNA。细胞外游离胎儿DNA在孕妇的体内(例如血液)中循环,代表胎儿基因组,而循环肿瘤DNA在癌症患者的体内(例如血液)中循环。在一些实施方式中,细胞外游离DNA可基本上不含个体的细胞DNA。例如,所述细胞外游离DNA可包含小于约1,000ng/mL、小于约100ng/mL、小于约10ng/mL、小于约1ng/mL的细胞DNA。
可以通过使用本领域已知的常规技术来制备细胞外游离DNA。例如,可以通过以约200-20,000g、约200-10,000g、约200-5,000g、约300-4000g等的速度离心血液样品约3-30分钟、约3-15分钟、约3-10分钟、约3-5分钟来获得血液样品的细胞外游离DNA。例如,在一些实施方式中,可以通过将个体的血浆或血清离心一、二、三、四、五次或更多次来获得血液样本的细胞外游离DNA。在一些实施方式中,为了从包含可溶性DNA的无细胞组分中分离细胞及其片段,可以通过微滤来获得所述生物样品。通常来说,微滤可以通过使用过滤器来进行,例如,0.1微米~0.45微米的膜过滤器,诸如0.22微米的膜过滤器。
在一些实施方式中,使用商购的DNA提取产品从全血、血清或血浆中提取细胞外游离DNA用于分析。这种提取方法据称对循环DNA的回收率高(>50%),某些产品(例如Qiagen生产的QIAamp Circulating Nucleic Acid Kit)据称可提取小尺寸的DNA片段。所使用的典型样品量为1-5mL血清或血浆。
在一些实施方式中,细胞外游离DNA包括循环肿瘤DNA。循环肿瘤DNA(“ctDNA”)是与细胞无关的体液(例如血液、尿液、唾液、痰、粪便、胸膜液、脑脊液等)中肿瘤来源的片段化DNA。通常,ctDNA高度片段化,平均长度约为150个碱基对。ctDNA通常包括体液(例如血浆)中细胞外游离DNA的极小部分,例如ctDNA可能构成血浆DNA的不到约10%。通常,该百分比小于约1%,例如小于约0.5%或小于约0.01%。另外,血浆DNA的总量通常非常低,例如约10ng/mL血浆。ctDNA的数量因人而异,并且取决于肿瘤的类型、位置,对于癌性肿瘤,则取决于癌症的阶段。但是,ctDNA通常在体液中非常罕见,只能通过极其敏感和特异性的技术进行检测。检测ctDNA可能有助于检测和诊断肿瘤、指导肿瘤特异性治疗、监测治疗以及监测癌症的缓解。
III.碱基转化
本文中,DNA甲基化是(例如,通过DNA甲基转移酶的作用)将甲基添加到DNA分子上(例如,添加至DNA分子的一个或多个胞嘧啶碱基)的生物学过程。在哺乳动物中,DNA甲基化出现于胞嘧啶-磷酸-鸟嘌呤(CpG)二核苷酸(即“CpG位点”)的5’位置,当其出现在基因的启动子或第一个外显子中的5’-CpG-3’二核苷酸中时,会导致基因的表观遗传失活。已充分证明了DNA甲基化在调节基因表达、肿瘤发生、以及其他遗传和表观遗传疾病中起重要作用。
如本文所用,术语“甲基化的胞嘧啶残基”是指胞嘧啶残基的衍生物,其中一个甲基连接至胞嘧啶环的碳原子上(例如C5)。术语“未甲基化的胞嘧啶残基”是指未衍生化的胞嘧啶残基,其中与“甲基化的胞嘧啶残基”相反,在胞嘧啶环的碳原子(例如C5)上没有甲基连接。其内的胞嘧啶残基被甲基化的CpG位点就是甲基化的CpG位点,而其内的胞嘧啶残基未被甲基化的CpG位点是未甲基化的CpG位点。
如本文所述,DNA或RNA的碱基之间可发生转化。本文所述“转化”、“胞嘧啶转化”或“CT转化”是利用非酶促或酶促方法处理DNA,将未修饰的胞嘧啶碱基(cytosine,C)转化为不与鸟嘌呤(G)结合的碱基(例如尿嘧啶碱基(uracil,U))的过程。一些试剂能够区分DNA中的未甲基化和甲基化的CpG位点,从而获得经处理的DNA。该试剂可以选择性地作用于未甲基化的胞嘧啶残基,但不能显著地作用于甲基化的胞嘧啶残基。或者该试剂可以选择性地作用于甲基化的胞嘧啶残基,而不显著地作用于未甲基化的胞嘧啶残基。例如,一些试剂可以选择性地将未甲基化的胞嘧啶残基转化为尿嘧啶、胸腺嘧啶或杂交上与胞嘧啶不同的另一碱基,而甲基化的胞嘧啶残基依然处于未转化状态;又例如,一些试剂可以选择性地切割甲基化的残基,或者选择性地切割未甲基化的残基。由此,原始DNA以取决于是否被甲基化的方式转化为经处理的DNA,从而可以通过其杂交行为将经处理的DNA与原始DNA区分开。
如本文所用,“经处理的DNA”、“经处理的序列”、“经处理的片段”是指已经用能够区分DNA、核酸序列、基因片段中的未甲基化和甲基化的CpG位点的试剂处理后的DNA、核酸序列、基因片段。
更具体而言,可采用非酶促或酶促方法进行胞嘧啶转化。示例性地,非酶促方法包括亚硫酸氢盐或重硫酸盐处理。在一些实施方式中,非酶促方法所用的试剂包括亚硫酸氢盐试剂。如本文所用,术语“亚硫酸氢盐试剂”是指,例如本申请所公开的可用于区分甲基化和未甲基化的CpG二核苷酸序列的包括亚硫酸氢盐、亚硫酸氢根离子或其任意组合的试剂。在本申请中,用亚硫酸氢盐试剂处理DNA也被描述为“亚硫酸氢盐反应”或“亚硫酸氢盐处理”,指的是转化未甲基化的胞嘧啶残基的反应,特别是在亚硫酸氢根离子存在的情况下,核酸中未甲基化的胞嘧啶残基被转化为尿嘧啶碱基、胸腺嘧啶碱基或在杂交行为上与胞嘧啶不同的其他碱基,而其中甲基化的胞嘧啶残基未被显著地转化。换言之,亚硫酸氢盐处理可用于区分甲基化的CpG二核苷酸和未甲基化的CpG二核苷酸。Frommer,M.,et al.,ProcNatl Acad Sci USA 89(1992)1827-31和Grigg,G.,Clark,S.,Bioessays 16(1994)431-6中详细描述了用于检测甲基化的胞嘧啶残基的亚硫酸氢盐反应。亚硫酸氢盐反应包括脱氨基步骤和脱磺酸基步骤(参见Grigg and Clark,同上)。“甲基化的胞嘧啶残基未被显著地转化”这一陈述,不排除非常小的百分比(例如,小于0.1%、小于0.2%、小于0.3%、小于0.4%、小于0.5%、小于0.6%、小于0.7%、小于0.8%、小于0.9%、小于1%、小于2%、小于3%、小于4%、小于5%、小于6%、小于7%、小于8%、小于9%、小于10%、小于11%、小于12%、小于13%、小于14%、小于15%、小于16%、小于17%、小于18%、小于19%、小于20%)的甲基化的胞嘧啶残基被转化为尿嘧啶、胸腺嘧啶或在杂交行为上与胞嘧啶不同的其他碱基,尽管其意在仅仅转化未甲基化的胞嘧啶残基。
在例如参考Frommer M.,et al.(同上)或Grigg and Clark(同上)的情况下(它们公开了亚硫酸氢盐处理的基本参数),本领域技术人员知道如何进行亚硫酸氢盐处理,特别是脱氨基步骤和脱磺酸基步骤。孵育时间和温度对脱氨基效率的影响、以及影响DNA降解的参数都已公开。
在一些实施方式中,所述亚硫酸氢盐试剂选自下组:亚硫酸氢铵、亚硫酸氢钠、亚硫酸氢钾、亚硫酸氢钙、亚硫酸氢镁、亚硫酸氢铝、亚硫酸氢根离子,及其任意组合。在一些实施方式中,所述亚硫酸氢盐试剂是亚硫酸氢钠。在一些实施方式中,亚硫酸氢盐试剂是可商购的,例如,MethylCodeTM Bisulfite Conversion Kit、EpiMarkTM BisulfiteConversion Kit、EpiJETTM Bisulfite Conversion Kit、EZDNAMethylation-GoldTM Kit等。在一些实施方式中,根据试剂盒的使用说明书进行亚硫酸氢盐反应。
示例性的酶促方法包括脱氨酶处理,以及使用试剂选择性地切割未甲基化的残基但不切割甲基化的残基,或者选择性地切割甲基化的残基但不切割未甲基化的残基。优选地,所述试剂是甲基化敏感限制酶(MSRE)。
术语“甲基化敏感限制酶”是指根据其识别位点的甲基化状态而选择性地消化核酸的酶。对于当识别位点未被甲基化或半甲基化时才特异剪切的限制酶来说,当识别位点被甲基化时,不会发生剪切,或以显著降低的效率剪切。对于当识别位点被甲基化时才特异剪切的限制酶来说,当识别位点未被甲基化时,不会发生剪切,或以显著降低的效率剪切。在一些实施方式中,甲基化敏感限制酶的识别序列含有CG二核苷酸(例如cgcg或cccggg)。在一些实施方式中,当该CG二核苷酸中的胞嘧啶在C5碳原子处被甲基化时,甲基化敏感限制酶不进行剪切。
示例性的MSRE选自下组:HpaII酶、SalI酶、酶、ScrFI酶、BbeI酶、NotI酶、SmaI酶、XmaI酶、MboI酶、BstBI酶、ClaI酶、MluI酶、NaeI酶、NarI酶、PvuI酶、SacII酶、HhaI酶及其任意组合。
使用本领域已知的方法,使用能区分目标区域内的甲基化的CpG二核苷酸和未甲基化的CpG二核苷酸的甲基化敏感限制酶或包含甲基化敏感限制酶的一系列限制酶试剂来确定甲基化,例如但不限于,差异性甲基化杂交(“DMH”)。
在一些实施方式中,生物样品中的DNA可以在用甲基化敏感限制酶处理之前被切割。这样的方法是本领域已知的,并且可以既包括物理方式也包括酶促方式。特别优选的是使用一种或多种对甲基化不敏感的并且其识别位点富含AT并且不包含CG二核苷酸的限制酶。使用此类酶使得DNA片段中的CpG位点和CpG富集区域得以保存。在一些实施方式中,此类限制酶选自MseI酶、BfaI酶、Csp6I15酶、Tru1I酶、Tru9I酶、MaeI酶、XspI酶及其任意组合。
经转化的DNA任选经纯化。适用于本文的DNA纯化方法本领域周知。
IV.定量分析
可检测本文所述任意1种、任意2种、任意3种、任意4种、任意5种、任意6种、任意7种、任意8种、任意9种、任意10种、任意11种、任意12种、任意13种、任意14种、任意15种、任意16种、任意17种、任意18种、任意19种、任意20种以上、任意21种以上、任意22种以上、任意23种以上、任意24种以上、任意25种以上、任意26种以上、任意27种以上、任意28种以上、任意29种以上、任意30种以上、任意31种以上、任意32种以上、任意33种以上、任意34种以上、任意35种以上、任意36种以上、任意37种以上、任意38种以上、任意39种以上、任意40种以上、任意41种以上、任意42种以上、任意43种以上、任意44种以上、任意45种以上、任意46种以上、任意47种以上或全部48种所述目标标志物中的至少一个CpG二核苷酸的甲基化状态或甲基化水平,用以鉴别对象是否患有胃癌。本发明所述的检测试剂和诊断试剂盒可用于所述甲基化状态或甲基化水平的检测。
本文中,“甲基化状态”是指一种或多种甲基化核苷酸碱基在核酸分子中的存在或不存在。例如,含有甲基化胞嘧啶的核酸分子被认为是甲基化的(例如核酸分子的甲基化状态是甲基化的)。不含有任何甲基化核苷酸的核酸分子被认为是未甲基化的。在一些实施方案中,如果核酸在特定基因座(例如特定单一CpG二核苷酸的基因座)或基因座特定组合处不是甲基化的,则核酸可表征为“未甲基化”,即使它在相同基因或分子的其他基因座处为甲基化的,也如此。
因此,甲基化状态描述了核酸(例如基因组序列或本文所述的目标标志物)的甲基化的状态。另外,甲基化状态是指在特定基因组基因座处的核酸区段与甲基化相关的特征。此类特征包括但不限于此DNA序列内的任何胞嘧啶(C)残基是否为甲基化的、一个或多个甲基化C残基的位置、贯穿核酸的任何特定区域的甲基化C的频率或百分比以及由于例如等位基因起点的差异而导致的甲基化等位基因差异。“甲基化状态”是指在生物样品中贯穿核酸的任何特定区域的甲基化C或未甲基化C的相对浓度、绝对浓度或模式。例如,如果核酸序列内的一个或多个胞嘧啶(C)残基是甲基化的,则其可称为“超甲基化”或具有“增加的甲基化”,而如果DNA序列内的一个或多个胞嘧啶(C)残基是未甲基化的,则其可称为“去甲基化”或具有“减少的甲基化”。同样地,如果核酸序列内的一个或多个胞嘧啶(C)残基与另一个核酸序列(例如来自不同区域或来自不同个体等)相比是甲基化的,则该序列被认为与其他核酸序列相比是超甲基化的或具有增加的甲基化。或者,如果DNA序列内的一个或多个胞嘧啶(C)残基与另一个核酸序列(例如来自不同区域或来自不同个体等)相比是未甲基化的,则该序列被认为与其他核酸序列相比是去甲基化的或具有减少的甲基化。
甲基化水平代表一个或多个位点处于甲基化状态的比例(或百分比、份数、比率、程度)。一个区域(或一组位点)的甲基化水平是该区域中所有位点(或组中所有位点)的甲基水平的均值。因此,区域的甲基化水平上升或下降并不表示区域中所有甲基化位点的甲基化水平都上升或下降。本领域知晓将检测DNA甲基化的方法(例如简化甲基化测序)所得结果转化为甲基化水平的过程。甲基化水平可以通过例如定量分析在用甲基化敏感性限制性酶进行限制性消化后存在的完整DNA的量来确定。在该例中,如果使用定量PCR对DNA中的特定序列进行定量分析,模板DNA的量大约等于模拟处理的对照则表明该序列未高度甲基化,而模板量明显少于模拟处理的样品中的模板量则表明该序列中存在甲基化DNA。因此,如上述例子中的甲基化水平可以用作甲基化状态的定量指标。当需要将样品中序列的甲基化水平与阈值水平进行比较时,这尤其有用。
DNA序列(例如目标标志物)内的一个或多个CpG二核苷酸序列的甲基化水平/状态可以通过本领域中已知的各种分析方法来确定,优选为定量分析方法。示例性的分析方法包括:聚合酶链式反应,包括实时聚合酶链式反应,数字聚合酶链式反应,和基于重亚硫酸盐转化的PCR(例如甲基化特异性PCR(Methylation-specific PCR,MSP))及其上游5kb以内和/或下游5kb以内的序列;核酸测序;全基因组甲基化测序(RRBS)及其上游5kb以内和/或下游5kb以内的序列;简化甲基化测序;基于质量的分离(例如电泳法、质谱法)及其上游5kb以内和/或下游5kb以内的序列;靶标捕获(例如杂交、微阵列)及其上游5kb以内和/或下游5kb以内的序列;甲基化敏感的限制性内切酶分析法;甲基化敏感性高分辨率熔解曲线法;基于芯片的甲基化图谱分析;质谱;和荧光定量法。本文中,检测包括检测基因或位点处的任一条链。
在一些实施方式中,通过实时PCR进行定量分析。实时PCR的非限制性实例包括Cottrell et al.,Nucl.Acids Res.32:e10,2003描述的HeavyMethylTM PCR;Eads etal.,Cancer Res.59:2302-2306,1999描述的MethyLightTMPCR;Rand et al.,Nucl.AcidsRes.33:e 127,2005描述的Headloop PCR。
如本文所用,术语“HeavyMethylTM PCR”是指本领域公认的一种实时PCR技术,其中一个或多个不可延伸性核酸(例如,寡核苷酸)封闭物以甲基化特异性方式与亚硫酸氢盐处理的核酸结合(即,封闭物在中等至高等严谨条件下与未突变的DNA特异性结合)。使用一种或多种引物进行扩增反应,所述引物可以任选地是甲基化特异性的,但旁侧分布一个或多个封闭物。在未甲基化的核酸(即突变的DNA)存在的情况下,封闭物结合并且无PCR产物产生。使用基本上像例如Holland et al.,Proc.Natl.Acad.Sci.USA,88:7276-7280,1991所述的TaqManTM分析方法,样品中核酸的甲基化水平得以确定。
如本文所用,术语“MethyLightTMPCR”是指基于本领域公认的一种基于荧光的实时PCR技术,其中采用了称为TaqManTM探针的双标记荧光寡核苷酸探针,并且被设计为可同位于正向和反向扩增引物之间的富含CpG的序列杂交。所述的TaqManTM探针包含一个荧光“报告因子部分”和“淬灭剂部分”共价结合到与TaqManTM寡核苷酸的核苷酸相连的接头部分(例如,亚磷酰胺)。在PCR扩增过程中,与富含CpG的序列杂交的TaqManTM探针被Taq聚合酶的5’核酸酶活性切割,从而在PCR反应过程中产生以实时方式检测的信号。在该方法中,可以将分子信标用作可检测的探针,并且该系统不依赖于所使用的DNA聚合酶的5’-3’核酸外切酶活性(参见Mhlanga and Malmberg,Methods 25:463-471,2001)。
如本文所用,术语“Headloop PCR”是指本领域公认的一种实时PCR,其选择性地扩增目标核酸,但是通过将3’茎环延伸形成不能进一步提供扩增模板的发卡结构来抑制非扩增目标变体的扩增。
在一些实施方式中,所述实时PCR是多重实时PCR。如本文所用,术语“多重”可指,通过使用一个以上的标志物,每个标志物具有至少一个不同的检测特征,例如荧光特征(例如,激发波长、发射波长、发射强度、FWHM(半峰高处的全宽度)或荧光寿命)或独特的核酸或蛋白序列特征,可以同时对多个标志物(例如多个核酸序列)的存在和/或量进行测定的分析或其他分析方法。
在一些实施方式中,通过核酸测序进行定量分析。核酸测序的示例性方法是本领域已知的,参见,例如Frommer et al.,Proc.Natl.Acad.Sci.USA 89:1827-1831,1992;Clark et al.,Nucl.Acids Res.22:2990-2997,1994。例如,通过将未使用亚硫酸氢盐处理的样品获得的序列或目标区域的已知核苷酸序列与使用亚硫酸氢盐处理的样品获得的序列进行比较,有助于鉴定DNA序列中甲基化胞嘧啶。与未处理的样品相比,在亚硫酸氢盐处理的样品中的任意胞嘧啶位点检测到的胸腺嘧啶残基都可以认为是由亚硫酸氢盐处理而引起的突变,即该位点存在甲基化的胞嘧啶。
用于测序DNA的方法是本领域已知的,包括例如双脱氧链终止法或Maxam-Gilbert法(参见Sambrook et al.,Molecular Cloning,A Laboratory Manual(2nd Ed.,CSHP,NewYork 1989))、焦磷酸测序(参见Uhlmann et al.,Electrophoresis,23:4072-4079,2002)、固相焦磷酸测序(参见Landegren et al.,Genome Res.,8(8):769-776,1998)、固相微测序(参见例如,Southern et al.,Genomics,13:1008-1017,1992)、采用FRET的微测序(参见例如,Chen and Kwok,Nucleic Acids Res.25:347-353,1997)、连接法测序或超深度测序(参见Marguiles et al.,Nature 437(7057):376-80(2005))。
在一些实施方式中,通过基于质量的分离(例如电泳、质谱法)进行定量分析。例如,甲基化胞嘧啶残基的存在可以通过联合亚硫酸氢盐限制分析法(COBRA)进行检测,基本如Xiong and Laird,Nucl.Acids Res.,25:2532-2534,2001所述。这种方法利用了在使用可以选择性地突变未甲基化的胞嘧啶残基的化合物(例如,亚硫酸氢盐)处理之后,在甲基化和未甲基化的核酸之间的限制酶识别位点的差异。例如,限制性核酸内切酶Taq1切割序列TCGA,在对未甲基化核酸进行亚硫酸氢盐处理后该序列将是TTGA,因此将不被切割。然后使用本领域已知的检测手段例如电泳和/或质谱法,检测消化的和/或未消化的核酸。又例如,在用选择性突变未甲基化胞嘧啶残基的化合物处理后,基于核苷酸序列和/或二级结构的差异,使用不同的技术来检测扩增产物中核酸差异,例如甲基化特异性单链构象分析(MS-SSCA)(Bianco et al.,Hum.Mutat.,14:289-293,1999)、甲基化特异性变性梯度凝胶电泳(MS-DGGE)(Abrams and Stanton,Methods Enzymol.,212:71-74,1992)和甲基化特异性变性高效液相色谱(MS-DHPLC)(Deng et al.,Chin.J.Cancer Res.,12:171-191,2000)。
在一些实施方式中,通过靶标捕获(例如杂交、微阵列)进行定量分析。通过杂交的合适的检测方法是本领域已知的,例如Southern、斑点印迹、狭缝印迹或其他核酸杂交方式(Kawai et al.,Mol.Cell.Biol.14:7421-7427,1994;Gonzalgo et al.,Cancer Res.57:594-599,1997)。在一些实施方式中,用于杂交分析的探针被可检测地标记。在一些实施方式中,用于杂交分析的基于核酸的探针是未标记的。这种未标记的探针可以固定在固体载体如微阵列上,并且可以与被可检测地标记的目标核酸分子杂交。微阵列的一个实例是甲基化特异性微阵列,其可用于区分具有转化的胞嘧啶残基的序列和具有未转化的胞嘧啶残基的序列(参见Adorjan et al.,Nucl.Acids Res.,30:e21,2002)。基于杂交的分析还可被用于用甲基化敏感的限制酶处理后的核酸。又例如,可通过寡核苷酸探针确定DNA序列内CpG二核苷酸序列的甲基化状态,所述寡核苷酸探针与PCR扩增引物同时与亚硫酸氢盐处理的DNA杂交(其中所述引物可以是甲基化特异性引物或标准引物)。
在一些实施方式中,定量分析在检测试剂的存在下进行。如本文所用,术语“检测试剂”是在定量分析步骤中用于检测核酸的存在、不存在或量的试剂。本领域已知的各种检测试剂在本申请中都可使用。在一些实施方式中,检测试剂选自下组:荧光探针、嵌入染料、生色团标记的探针、放射性同位素标记的探针和生物素标记的探针。
在一些实施方式中,定量分析包含使用定量引物对和DNA聚合酶对经处理的DNA进行扩增。如本文所用,术语“定量引物对”是指在定量分析步骤中使用的一个或多个引物对。优选地,所述定量引物对能够与所述经处理的DNA的至少9个连续核苷酸在严谨条件下、中等严谨条件下或高度严谨条件下杂交。
在一些实施方式中,所述定量分析包括基于经处理的DNA中多个CpG二核苷酸、TpG二核苷酸或CpA二核苷酸的存在或水平,确定一个或多个目标标志物的甲基化水平。在一些实施方式中,所述定量分析包括基于经处理的DNA中一个或多个CpG二核苷酸的存在或水平来确定胞嘧啶残基的甲基化水平。在一些实施方式中,所述定量分析包括基于所述经处理的DNA中一个或多个TpG二核苷酸的存在或水平来确定胞嘧啶残基的甲基化水平。在一些实施方式中,所述定量分析包括基于所述经处理的DNA中CpA二核苷酸的存在来确定胞嘧啶残基的甲基化水平。
在一些实施方式中,定量分析步骤是通过将经处理的DNA产物分为多个组分来进行的。在一些实施方式中,对多个组分进行多个不同的定量分析测试,其中在多个组分之一中定量分析所述经处理的DNA产物(如果存在于所述组分中的话)的不同组合。在一些实施方式中,定量分析每个组分中的对照标志物。
在一些实施方式中,基于预扩增的DNA通过使用MSP(参见Herman et al.,Methylation-specific PCR:a novelPCRassay for methylation statusofCpGislands.Proc Natl Acad Sci USA.1996September 3;93(18):9821-6和UnitedStates Patent No.6,265,171)分别定量分析每个目标标志物的甲基化水平。例如,通过使用在中等和/或高度严谨条件下与未转化序列特异性杂交的一种或多种引物,仅当模板在CpG位点包含甲基化胞嘧啶时才产生扩增产物。
在一些实施方式中,所述定量引物对被设计为扩增所述经处理的DNA产物中的至少一部分,即定量分析被设计为巢式PCR。巢式PCR是PCR的一种改进,旨在提高灵敏度和特异性。巢式PCR涉及使用两个引物组和两个连续的PCR反应。进行第一轮扩增以产生第一扩增子,并使用一个引物对进行第二轮扩增,其中一个或两个引物与由初始引物对界定的区域内的位点退火,即第二个引物对被认为是“嵌套”在第一对引物中。以这种方式,不包含正确内部序列的来自第一次PCR反应的背景扩增产物在第二次PCR反应中不再被进一步扩增。
通常,PCR的反应液包含Taq DNA聚合酶、PCR缓冲液、引物、探针、dNTPs、Mg2+。优选地,Taq DNA聚合酶为热启动Taq DNA聚合酶。示例性地,Mg2+终浓度为1.0-20.0mM;各引物浓度为100-500nM;各探针浓度为100-500nM。示例性的PCR反应条件为,95℃预变性5min;95℃变性15s,60℃退火延伸60s,50个循环。
在一些实施方案中,本发明的方法包括预扩增步骤。对目标标志物进行预扩增的目的之一是增加经处理的DNA中的目标标志物的数量。如本文所用,术语“扩增”大体上指任何能够导致分子或一组相关分子的拷贝数增加的过程。当“扩增”被用于多核苷酸分子时,是指通常从少量多核苷酸开始产生多拷贝的多核苷酸分子或多核苷酸分子的一部分的多份拷贝,其中被扩增的物质(扩增子,PCR扩增子)通常是可被检测到的。多核苷酸的扩增涵盖多个化学和酶促过程。扩增的形式包括通过聚合酶链式反应(逆转录PCR、PCR)、链置换扩增(SDA)反应、转录介导扩增(TMA)反应、基于核酸序列的扩增(NASBA)反应或连接酶链反应(LCR),从一个或几个拷贝的模板RNA或DNA分子生成多个DNA拷贝。
可用预扩增引物预扩增经处理的DNA中的所述目标标志物。如本文所用,术语“引物”是指这样的单链寡核苷酸,其能够在合适的条件(例如缓冲液和温度)下,在四种不同的三磷酸核苷和用于聚合的试剂(例如DNA聚合酶)的存在下,作为模板指导的DNA合成的起始点。在任何给定的情况下,引物的长度取决于例如引物的预期用途,并且通常在15至30个核苷酸的范围内。短的引物分子通常需要较低的温度才能与模板形成足够稳定的杂交复合物。引物不必反映模板的确切序列,但必须足够互补以能与该模板杂交。引物位点是模板上与引物杂交的区域。引物对是一组引物,其包括与待扩增的序列的5’末端杂交的5’正向引物和与待扩增的序列的3’末端的互补链杂交的3’反向引物。本领域技术人员可以基于本领域的公知常识根据待扩增的标志物设计引物(参见,例如PCR Primer:A LaboratoryManual,Cold Spring Harbor Laboratories,NY,1995)。此外,一些用于设计在各种各样分析中使用的最佳探针和/或引物的软件包是公开的,例如可从美国马萨诸塞州剑桥市的基因组研究中心(the Center for Genome Research,Cambridge,Mass.,USA)获得的Primer3。显然,在设计探针或引物时其潜在用途也应考虑在内。例如,设计用于本发明目的的引物可以包括至少一个CpG位点,或者从该引物获得的扩增产物可以包括至少一个CpG位点。用于设计检测DNA甲基化状态的引物的工具也是本领域已知的,例如MethPrimer(Li LC andDahiya R.MethPrimer:designing primers for methylationPCRs.Bioinformatics.2002Nov;18(11):1427-31)。在本申请中,通过将预扩增引物作为引物池,经处理的DNA中的任何目标标志物(目标标志物的每至少一部分或目标标志物的一个亚区域)均可以被预扩增。
如本文所用,术语“互补”是指核苷酸或核酸之间的杂交或碱基配对,例如,双链DNA分子的两条链之间,或待测序或扩增的单链核酸上的引物结合位点和寡核苷酸引物之间。互补核苷酸通常是A和T(或A和U),或C和G。当一条链的核苷酸以最佳的方式对齐、并比较、并有适当的核苷酸插入或缺失后,与另一链的至少约80%(通常至少约90%至95%,更优选地为约98%至100%)的核苷酸配对,两条单链RNA或DNA分子就被称为是互补的。或者,当RNA链或DNA链在选择性杂交条件下与其互补序列杂交时,互补存在。通常,当在至少14至25个核苷酸的一段上具有至少约65%(优选至少约75%、更优选至少约90%)的互补性时,将发生选择性杂交。参见M.Kanehisa,Nucleic Acids Res.12:203(1984),作为参考并入本文。
在一些实施方式中,预扩增引物池包含至少一个甲基化特异性引物对。在一些实施方式中,预扩增引物池包含多个甲基化特异性引物对。在一些实施方式中,预扩增步骤通过甲基化特异性PCR(“MSP”)进行,甲基化特异性PCR是使用甲基化特异性引物的PCR。Herman et al.,(同上)中已描述了该技术(即MSP)。
如本文所用,术语“甲基化特异性引物对”是指经特异性设计以识别CpG位点以利用甲基化的差异来扩增经处理的DNA中的特定目标标志物的引物对。引物仅作用于具有特定甲基化状态或没有特定甲基化状态的分子。例如,引物可以是寡核苷酸,在严谨条件、中等严谨条件或高度严谨条件下,其可以以甲基化特异性方式与具有甲基化的特定CpG位点特异性杂交,但不能与没有甲基化的特定CpG位点杂交。因此,引物将特异性扩增在特定CpG位点具有甲基化的目标标志物。又例如,引物可以是寡核苷酸,在严谨条件、中等严谨条件或高度严谨条件下,其可以以甲基化特异性的方式与未甲基化的特定的CpG位点特异性杂交,但是不能与甲基化的特定的CpG位点杂交。因此,引物将特异性扩增在特定CpG位点没有甲基化的目标标志物。因此,在本申请中,对在经处理的DNA内的至少一个目标标志物的预扩增中使用甲基化特异性引物,可以区分甲基化的和未甲基化的CpG位点。本申请的甲基化特异性引物对包含至少一个与亚硫酸氢盐处理的CpG二核苷酸杂交的引物。因此,所述特异性针对甲基化DNA的引物的序列包含至少一个CpG二核苷酸,并且所述特异性针对未甲基化DNA的引物的序列在CpG的C位置上包含“T”,和/或在CpG中G位置上包含“A”。
甲基化特异性引物对通常包含正向引物和反向引物,所述引物均包含寡核苷酸序列,所述寡核苷酸序列与所述目标标志物之一(或目标标志物的亚区域)的至少9个连续核苷酸在严谨条件下、中等严谨条件下或高度严谨条件下杂交,其中所述目标标志物之一(或目标标志物的亚区域)的至少9个连续核苷酸包含至少一个(例如1、2、3、4、5、6、7、8、9、10或更多个)CpG位点。
如本文所用,术语“杂交”可以指其中两条单链多核苷酸非共价形式结合以形成稳定的双链多核苷酸的过程。在一个方面,所得的双链多核苷酸可以是“杂交物”或“双链”。“杂交条件”中的盐浓度通常约小于1M,经常小于约500mM并且可以小于约200mM。“杂交缓冲液”包括缓冲盐溶液,例如5%SSPE,或本领域已知的其他此类缓冲液。杂交温度可以低至5℃,但是通常高于22℃,并且更为通常地高于约30℃,并且通常超过37℃。杂交通常在严谨条件下进行,即在该条件下序列将与其目标序列杂交但不与其他非互补序列杂交。严谨条件取决于序列,且在不同情况下有所不同。例如,更长的片段可能需要比短片段更高的杂交温度才能进行特异性杂交。由于其他因素可能会影响杂交的严谨性,包括碱基组成和互补链的长度,有机溶剂的存在以及碱基错配的程度,因此参数组合比单独使用任何一个参数的绝对测量更为重要。通常严谨条件被选定为比特定序列在特定的离子强度和pH下的解链温度(Tm)低约5℃。Tm可以是双链核酸分子群体中的一半被分离成单链的温度。用于计算核酸的Tm的几个方程式是本领域众所周知的。如标准参考文献所示,当核酸在1M NaCl水溶液中时,可以通过公式Tm=81.5+0.41(%G+C)计算出简单估算的Tm值(参见例如Andersonand Young,Quantitative Filter Hybridization,in Nucleic Acid Hybridization(1985))。其他参考文献(例如Allawi and SantaLucia,Jr.,Biochemistry,36:10581-94(1997))包括替代的计算方法,其计算Tm时将结构和环境以及序列特征等考虑在内。
通常,杂交物的稳定性是关于离子浓度和温度的函数。通常,杂交反应在较低严谨条件下进行,然后在具有不同但较高严谨性的洗涤液中洗涤。示例性的严谨条件包括pH约7.0至约8.3、温度至少25℃、钠离子(或其他盐)浓度为至少0.01M至不超过1M。例如,5xSSPE(750mM NaCl,50mM磷酸钠,5mM EDTA,pH 7.4)和约30℃的温度适合于等位基因特异性杂交,尽管合适的温度取决于杂交区域的长度和/或GC含量。在一个方面,确定错配百分比的“杂交严谨性”可以如下:1)高度严谨性:0.1x SSPE,0.1%SDS,65℃;2)中等严谨性(也称为中度严谨性):0.2x SSPE,0.1%SDS,50℃;3)低严谨性:1.0x SSPE,0.1%SDS,50℃。应当理解,使用替代的缓冲剂、盐和温度可以达到相同的严谨性。例如,中等严谨杂交可以是指允许核酸分子(例如探针)结合互补核酸分子的条件。杂交的核酸分子通常具有至少60%的同一性,包括例如至少70%、75%、80%、85%、90%或95%的同一性。中等严谨条件可以是与下述条件达到同等效果的条件:42℃,50%甲酰胺,5xDenhardt溶液,5x SSPE,0.2%SDS杂交,然后用42℃,0.2x SSPE,0.2%SDS进行洗涤。高度严谨条件可以通过如下条件提供,例如,42℃,50%甲酰胺,5x Denhardt溶液,5x SSPE,0.2%SDS杂交,然后65℃,0.1x SSPE和0.1%SDS中洗涤。低严谨性杂交可以是与下述条件达到同等效果的条件:22℃,10%甲酰胺,5x Denhardt溶液,6x SSPE,0.2%SDS杂交,然后在1x SSPE,0.2%SDS中于37℃洗涤。Denhardt的溶液包含1%聚蔗糖,1%聚乙烯吡咯烷酮和1%牛血清白蛋白(BSA)。20x SSPE(氯化钠,磷酸钠,EDTA)包含3M氯化钠、0.2M磷酸钠和0.025M EDTA。其他合适的中等严谨性和高度严谨性杂交缓冲液和条件是本领域技术人员众所周知的,并且描述于例如Sambrooket al.,Molecular Cloning:A Laboratory Manual,2nd ed.,Cold Spring HarborPress,Plainview,N.Y.(1989)和Ausubel et al.,Short Protocols in MolecularBiology,4th ed.,John Wiley&Sons(1999)。
在一些实施方式中,预扩增引物池还包含用于扩增对照标志物的对照引物对。通常,对照标志物是具有已知特征(例如,序列已知,每个细胞的拷贝数已知)的核酸,用于与实验目标(例如,浓度未知的核酸)进行比较。对照可以是内源的,优选为不变的基因,可以将分析中的实验核酸或目标核酸相对其进行标准化。此类因为样品间差异而标准化的对照可能发生在例如样品处理,分析效率等,并且允许精确的样品间数据比较,定量分析扩增效率和偏差。
在一些实施方案中,本发明采用RRBS技术检测感兴趣目标标志物的CpG位点的甲基化水平,然后计算该标志物的甲基化单倍型比值(MHF),将其作为该标志物的DNA甲基化水平。MHF的计算可如本申请所述进行。
V.对象是否患有胃癌的鉴定
本发明发现,本文所述的一个或多个目标标志物的甲基化水平可用于确定胃癌。在一个或多个实施方案中,可检测样品中本文所述目标标志物中CpG位点的甲基化水平,然后计算该目标标志物的甲基化单倍型比值(MHF),将其作为该标志物的DNA甲基化水平。
本文中,MHF可由以下公式计算得到:
MHFi,h=(Ni,h)/Ni
其中i表示目标甲基化区间,h表示目标的甲基化单倍型,Ni表示位于目标甲基化区间的读数数目,Ni,h表示包含目标甲基化单倍型的读数数目。
可使用python(V3.9.7)中的sklearn(V1.0.1)包中的逻辑回归模型计算每个目标标志物或多个目标标志物的模型预测分值y:model=LogisticRegression(),该模型的公式如下,其中x为样本目标标志物的甲基化水平值(MHF),w为不同标志物的系数,b为截距值,T表示转置:
本文分别以每个标志物在训练集样本中的DNA甲基化水平构建训练集,以训练集的约登指数界定的阈值作为癌症预测阈值,分别获得了本文所述各个标志物的癌症预测阈值,每一个标志物的癌症预测阈值可见本文表3。
在一些实施方案中,以本文所述的单个目标标志物的甲基化水平为判断依据,根据上述公式计算得到每个样本中该目标标志物的MHF,并通过训练的模型得到该目标标志物的预测分值,若该值高于表3中所示的该目标标志物的阈值,则判断为患有胃癌,或存在患有胃癌的风险。
应理解,当使用两个及以上目标标志物时,每个样本都可由检测得到的各目标标志物中的CpG位点的甲基化水平计算获得各自的MHF。在训练集的样本中,使用所有样本得到的所述的两个及以上的目标标记物的MHF进行训练,得到上述预测模型公式的参数。对于待测样本,通过将计算得到该样本的MHF带入到由训练集确定的预测模型的公式中,获得预测模型分值y,并将该y与以由训练集中所述两个及以上目标标记物获得的约登指数界定的阈值相比,其中,高于该阈值则判断为患有胃癌,或存在患有胃癌的风险。
除上述比较之外,本领域技术人员还可以基于各种因素,例如年龄、性别、病史、家族史、症状等,来确定个体患有胃癌的风险。
VI.组合物和试剂盒
本发明提供一种用于胃癌鉴别的甲基化检测或诊断试剂盒和诊断试剂或诊断组合物,所述试剂盒和组合物包括用于检测本文所述的一个或多个目标标志物的至少一个CpG二核苷酸的甲基化状态或水平的试剂。根据待检测的目标标志物,试剂盒和组合物中可含有引物和/或探针分子。优选地,引物包括能够与所述待检测的目标标志物或其目标区域在严谨条件下、中等严谨条件下或高度严谨条件下杂交的引物对。引物还可包括检测内参如ACTB的引物。
在一些实施方式中,所述引物被包装在单一容器内或被包装在独立容器内。在一些实施方式中,所述试剂盒进一步包含一个或多个封闭寡核苷酸。
在一些实施方式中,所述试剂盒和组合物进一步包含检测试剂。在一些实施方式中,所述检测试剂选自下组:荧光探针,嵌入染料、生色团标记的探针,放射性同位素标记的探针和生物素标记的探针。
在一些实施方式中,所述试剂盒还可包含DNA聚合酶和/或适合存放从个体获取的生物样品的容器。在一些实施方式中,所述试剂盒进一步含使用说明书和/或对试剂盒检测结果的解释。
在一些实施方式中,所述试剂盒和组合物还可包括用于酶促法或非酶促法进行转化的试剂。在优选的实施方案中,所示试剂盒还包括亚硫酸氢盐试剂或甲基化敏感限制酶(MSRE)。在一些实施方式中,所述亚硫酸氢盐试剂选自下组:亚硫酸氢铵、亚硫酸氢钠、亚硫酸氢钾、亚硫酸氢钙、亚硫酸氢镁、亚硫酸氢铝、亚硫酸氢根离子,及其任意组合。在一些实施方式中,亚硫酸氢盐试剂是亚硫酸氢钠。在一些实施方式中,所述MSRE选自下组:HpaII酶、SalI酶、酶、ScrFI酶、BbeI酶、NotI酶、SmaI酶、XmaI酶、MboI酶、BstBI酶、ClaI酶、MluI酶、NaeI酶、NarI酶、PvuI酶、SacII酶、HhaI酶及其任意组合。
所述试剂盒和组合物还可包括经转化的阳性标准品,其中未甲基化的胞嘧啶转化为不与鸟嘌呤结合的碱基。所述阳性标准品可以是完全甲基化的。
所述试剂盒和组合物还可包括PCR反应试剂。优选地,所述PCR反应试剂包括TaqDNA聚合酶、PCR缓冲液(buffer)、dNTPs、Mg2+。
在一些实施方式中,所述试剂盒和组合物还包含可用于进行CpG位置特异性甲基化分析的标准试剂,其中所述分析包括以下一种或多种技术:MS-SNuPE、MSP、MethyLightTM、HeavyMethylTM、COBRA和核酸测序。
在一些实施方式中,所述试剂盒和组合物可包含选自下组的额外的试剂:缓冲液(例如限制酶、PCR、保存或洗涤缓冲液)、DNA回收试剂或试剂盒(例如沉淀、超滤、亲和柱)和DNA回收组件等。
本申请的试剂盒可进一步包含在DNA富集领域中已知的以下组分的一种或几种:蛋白组分,所述蛋白选择性地结合甲基化的DNA;三链形成核酸组分,一个或多个接头,任选地在合适的溶液中;用于进行连接的物质或溶液,例如连接酶、缓冲液;用于进行柱层析的物质或溶液;用于进行免疫学为基础的富集(例如免疫沉淀)的物质或溶液;用于进行核酸扩增的物质或溶液,例如PCR;一种染料或几种染料,若适用于偶联剂,若适用于溶液中;用于进行杂交的物质或溶液;和/或用于进行洗涤步骤的物质或溶液。
在其他一些实施方案中,本发明的组合物含有分离的核酸分子,所述分离的核酸分子选自以下的一种或多种:SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ IDNO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ IDNO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22、SEQ IDNO:23、SEQ ID NO:24、SEQ ID NO:25、SEQ ID NO:26、SEQ ID NO:27、SEQ ID NO:28、SEQ IDNO:29、SEQ ID NO:30、SEQ ID NO:31、SEQ ID NO:32、SEQ ID NO:33、SEQ ID NO:34、SEQ IDNO:35、SEQ ID NO:36、SEQ ID NO:37、SEQ ID NO:38、SEQ ID NO:39、SEQ ID NO:40、SEQ IDNO:41、SEQ ID NO:42、SEQ ID NO:43、SEQ ID NO:44、SEQ ID NO:45、SEQ ID NO:46、SEQ IDNO:47和SEQ ID NO:48。
本申请还包括记载有本文所述分离的核酸分子的序列和任选的其甲基化信息的介质,所述介质用于与基因甲基化测序数据比对以确定所述核酸分子的存在、含量和/或甲基化水平。优选地,所述介质是印有所述序列和任选的其甲基化信息的卡片,例如纸质、塑料、金属、玻璃卡片。优选地,所述介质是存储有所述序列和任选的其甲基化信息和计算机程序的计算机可读介质,当所述计算机程序被处理器执行时,实现下述步骤:将样品的甲基化测序数据与所述序列比较,从而获得所述样品中含所述序列的核酸分子的存在、含量和/或甲基化水平。
本申请还包括一种用于鉴别胃癌的装置,所述装置包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:(1)获取样品中选自以下一种或多种本文所述的目标标志物或其目标区域的甲基化水平,(2)根据(1)的甲基化水平判读是否为胃癌。优选地,所述获取步骤采用本申请第IV部分所述的任意一种方法进行;优选地,所述判读采取本申请第V部分所述的任意一种方法进行。
VII.用途
本申请还提供本申请所述的分离的核酸分子做为检测靶标在胃癌诊断中的应用。
与现有的分子诊断胃癌技术相比,本发明提供的甲基化标志物和技术方案有效地解决了目前诊断技术敏感性低的问题,有助于胃癌的早诊早治,以提高治愈率。
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法,通常按照常规条件,或按照制造厂商所建议的条件。除非另外说明,否则百分比和份数按重量计算。
实施例1:甲基化靶向测序筛选胃癌癌症特异的甲基化位点
1.样本收集
收集了总计206个胃癌患者,以及393个正常人,所有入组患者签署知情同意书。将这些样本按照一定的比例分为训练集和测试集,其中训练集用于下述机器学习模型的构建,测试集用于模型的性能测试,样本信息见下表1。
表1
所有血液样本均在Streck管中采集,为了提取血浆,首先将血液样本在4℃下以1600g离心10min。为了防止破坏buffy coat层,需要设置平滑制动模式。然后将上清液转移到新的1.5mL锥形管中,并在4℃下以16000g离心10min。将上清液再次转移到新的1.5mL锥形管中,并在-80℃下储存。
为了提取循环游离DNA(cfDNA),根据制造商的说明,将血浆等分解冻并立即使用QIAamp循环核酸提取试剂盒(Qiagen 55114)进行处理。提取的cfDNA浓度用qubit3.0定量。
2.亚硫酸氢盐转化与文库制备
使用亚硫酸氢盐转化试剂盒(ThermoFisher,MECOV50)进行了亚硫酸氢钠转化胞嘧啶碱基。根据制造商的说明,将20ng基因组DNA或ctDNA转化并纯化以用于下游应用。
样品DNA的抽提、质检、和将DNA上未甲基化的胞嘧啶转化为不与鸟嘌呤结合的碱基。在一个或多个实施方案中,所述转化使用酶促方法进行,优选脱氨酶处理,或所述转化使用非酶促方法进行,优选用亚硫酸氢盐或重硫酸盐处理,更优选使用亚硫酸氢钙、亚硫酸氢钠、亚硫酸氢钾、亚硫酸氢铵、重硫酸钠、重硫酸钾和重硫酸铵处理。
使用MethylTitan方法建库,MethylTitan方法,具体如下,被亚硫酸氢盐转化的DNA去磷酸化后连接到带有分子标签(UMI)的通用illumina测序接头上。在进行第二链合成和纯化后,对转化后的DNA进行半靶向PCR反应,以靶向扩增需要的目标区域。再次纯化后,通过PCR反应将样本特异的条形码和全长Illumina测序接头加到目标DNA分子上。最终形成的文库使用Illumina的KAPA文库定量试剂盒进行定量(KK4844),并在Illumina测序仪进行测序,MethylTitan建库方式在使用较少DNA量,尤其是cfDNA的情况下可以有效的富集需要的目标片段,同时该方法可以很好的保留原始DNA的甲基化状态,最终通过分析相邻的CpG甲基化胞嘧啶(一个给定的目标可能有几个到几十个CpG,这取决于给定的区域),发现该特定区域的整个甲基化模式可以作为一个独特的标记。
3.测序及数据预处理
(1)使用Illumina Hiseq 2500测序仪进行双端测序,测序量为每个样本25~35M;使用Trim_galore v 0.6.0、cutadapt v2.1软件对Illumina Hiseq 2500测序仪下机的双端150bp测序数据进行去接头处理。在Read 1的3’端去除接头序列“AGATCGGAAGAGCACACGTCTGAACTCCAGTC”(SEQ ID NO:49),在Read 2的3’端去除接头序列“AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT”(SEQ ID NO:50),并去除两端测序质量值低于20的碱基。如果5’端有3bp的接头序列则去掉整条read。去接头后短于30个碱基的read也被去掉。
(2)使用Pear v0.9.6软件合并双端序列为单端序列。合并至少重叠20个碱基的两端reads,如果合并之后的reads短于30个碱基则舍弃。
(3)测序数据比对
使用的参考基因组数据来自UCSC数据库(UCSC:hg19,http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz)。
1)首先将hg19使用Bismark软件分别进行胞嘧啶到胸腺嘧啶(CT)和腺嘌呤到鸟嘌呤(GA)的转化,并且分别对转换后的基因组使用Bowtie2软件构建索引。
2)将预处理的数据同样进行CT和GA转化。
3)使用Bowtie2软件分别将转化后的序列比对到转化后的HG19参考基因组,最短种子序列长度20,种子序列不允许错配。
4)提取甲基化信息
对于每个目标区域hg19的CpG位点,根据上述比对结果,获取每个位点对应的甲基化水平。本发明涉及到的位点的核苷酸编号对应于hg19的核苷酸位置编号。MHF的计算,对于每个目标区域hg19的CpG位点,根据上述比对结果,获取每个位点对应的甲基化水平。本文中位点的核苷酸编号对应于HG19的核苷酸位置编号。一个目标甲基化区域可能有多个甲基化单倍型(haplotype),对于目标区域内的每一个甲基化单倍型都需要进行该值的计算,MHF的计算公式如下:
MHFi,h=(Ni,h)/Ni
其中i表示目标甲基化区间,h表示目标的甲基化单倍型,Ni表示位于目标甲基化区间的读数(reads)数目,Ni,h表示包含目标甲基化单倍型的读数数目。
(4)甲基化单倍型数据矩阵
1)将训练集和测试集的各个样本的甲基化单倍型数据分别合并成数据矩阵,对每个深度低于100的位点做缺失值处理。
2)去除缺失值比例高于10%的位点。
3)对于数据矩阵的缺失值,利用KNN算法进行缺失数据插补。
(5)根据训练集样本分组发现特征甲基化单倍型
1)将数据集按年龄匹配随机分成三份。
2)留出数据集中的一份数据作为测试数据,其余数据作为训练数据。
3)训练集内部进一步分成3分,进行3折交叉验证。基于3折交叉验证的平均AUC,筛选marker。
4)步骤3中得到的marker,基于Logistic Regression模型,使用训练数据进行模型训练,并在测试数据中进行模型效果的验证。
5)将得到的甲基化标志物用Great进行基因注释。
筛选出的胃癌特异性的甲基化标志物具体如下:位于MPC1内或者该基因上下游的SEQ ID NO:1;位于GALNT18内或者该基因上下游的SEQ ID NO:2;位于TIMP2内或者该基因上下游的SEQ ID NO:3;位于IRF4内或者该基因上下游的SEQ ID NO:4;位于CACNA1C内或者该基因上下游的SEQ ID NO:5;位于HOXD4内或者该基因上下游的SEQ ID NO:6;位于TBX20内或者该基因上下游的SEQ ID NO:7;位于NXPH1内或者该基因上下游的SEQ ID NO:8;位于CYP26B1内或者该基因上下游的SEQ ID NO:9;位于PITX1内或者该基因上下游的SEQ IDNO:10;位于VAX1内或者该基因上下游的SEQ ID NO:11;位于LHX5内或者该基因上下游的SEQ ID NO:12;位于ARC内或者该基因上下游的SEQ ID NO:13;位于LZTS1内或者该基因上下游的SEQ ID NO:14;位于DLD内或者该基因上下游的SEQ ID NO:15;位于FOXF2内或者该基因上下游的SEQ ID NO:16;位于GOLGA8A内或者该基因上下游的SEQ ID NO:17;位于C1orf61内或者该基因上下游的SEQ ID NO:18;位于SOX7内或者该基因上下游的SEQ IDNO:19;位于NKX6-1内或者该基因上下游的SEQ ID NO:20;位于PCDHGC5内或者该基因上下游的SEQ ID NO:21;位于NR2F1内或者该基因上下游的SEQ ID NO:22;位于OTX2内或者该基因上下游的SEQ ID NO:23;位于CILP2内或者该基因上下游的SEQ ID NO:24;位于SLC6A5内或者该基因上下游的SEQ ID NO:25;位于ELN内或者该基因上下游的SEQ ID NO:26;位于CDH13内或者该基因上下游的SEQ ID NO:27;位于C1QTNF9内或者该基因上下游的SEQ IDNO:28;位于TFAP2C内或者该基因上下游的SEQ ID NO:29;位于TACC2内或者该基因上下游的SEQ ID NO:30;位于CDH4内或者该基因上下游的SEQ ID NO:31;位于TNFRSF6B内或者该基因上下游的SEQ ID NO:32;位于LYL1内或者该基因上下游的SEQ ID NO:33;位于SLC9A3R2内或者该基因上下游的SEQ ID NO:34;位于NR2E1内或者该基因上下游的SEQ IDNO:35;位于TBX3内或者该基因上下游的SEQ ID NO:36;位于HMX3内或者该基因上下游的SEQ ID NO:37;位于GCH1内或者该基因上下游的SEQ ID NO:38;位于DCLK1内或者该基因上下游的SEQ ID NO:39;位于HPCAL1内或者该基因上下游的SEQ ID NO:40;位于SMARCA2内或者该基因上下游的SEQ ID NO:41;位于LRP1内或者该基因上下游的SEQ ID NO:42;位于TBX15内或者该基因上下游的SEQ ID NO:43;位于TBX15内或者该基因上下游的SEQ ID NO:44;位于NR2F2内或者该基因上下游的SEQ ID NO:45;位于PRKAB2内或者该基因上下游的SEQ ID NO:46;位于LHX1内或者该基因上下游的SEQ ID NO:47;位于TBX2内或者该基因上下游的SEQ ID NO:48。
甲基化标志物区域的甲基化水平在胃癌患者cfDNA中上升或下降(如表2)。得到的48个甲基化标志物的序列如SEQ ID NO:1-48。每个甲基化标志物的所有CpG位点的甲基化水平都可以通过MethylTitan甲基化测序的方法获得。每个区域中通过MHF计算得到的甲基化水平都可以作为胃癌的标志物。
表2:在训练集和测试集中甲基化标志物在胃癌中的甲基化水平
/>
测试集中胃癌与非胃癌人群的甲基化标志物区域内的甲基化水平如表2所示。从表2中可以看出,甲基化标志物区域内的甲基化水平在胃癌与无胃癌人群中的分布显著不同,具备良好的区分效果,具有显著性的差异(P<0.01),是良好的胃癌甲基化标志物。
实施例2:单个甲基化标志物判别性能
为了验证单个甲基化标志物区分对象是否患有胃癌的性能,使用单个marker的甲基化水平数据在实施例1训练集数据中训练模型,并使用测试集样本对模型的性能进行验证,具体步骤如下(图1):
1.序列预处理,针对每一个目标区域,计算该区域内的每一个MHF(MethylatedHaplotype Fraction)甲基化单倍型比值数值。
2.使用python(V3.9.7)中的sklearn(V1.0.1)包中的逻辑回归模型:model=LogisticRegression(),该模型的公式如下,其中x为样本目标marker的甲基化水平值,w为不同marker的系数,b为截距值,y为模型预测分值:
3.使用训练集的样本进行训练:model.fit(Traindata,TrainPheno),其中TrainData是训练集样本中目标甲基化位点的数据,TrainPheno是训练集样本的性状(胃癌为1,非胃癌为0),并根据训练集的样本确定模型的相关阈值。
4.使用测试集的样本进行测试:TestPred=model.predict_proba(TestData)[:,1],其中TestData为测试集样本中目标甲基化位点的数据,TestPred为模型预测分值,使用该预测分值并根据上述阈值对样本是否是胃癌进行判断。
5.统计模型的AUC指标。
本实施例中单个目标标志物逻辑回归模型的效果见表3。从表3中可看出,所有的目标标志物不论在测试集和训练集都可以达到0.5以上的AUC,都是较好的胃癌标志物。
表3:单个marker逻辑回归模型的表现
/>
实施例3:所有目标标志物的预测结果
本实施例使用所有的48个目标标志物的甲基化水平构建了逻辑回归的机器学习模型,数据中准确区分出对象是否患有胃癌的样本。具体的步骤与实施例2基本一致,不同之处是使用了所有48个目标标志物组合(SEQ ID NO:1-48)的数据输入模型。
训练集和测试集中模型预测分值分布见图2。ROC曲线见图3,在测试集中,胃癌和无胃癌样本区分的AUC达到了0.922,可以较好地样本中区分出胃癌和无胃癌样本。阈值设成0.53时,大于该值预测为胃癌,小于该值预测为无胃癌,在训练集中特异性为95%,测试集敏感性达到了73%,说明了该组合模型良好的性能。
实施例4:19个目标标志物的预测结果
为了验证相关标志物组合的效果,本实施例从所有的48个甲基化标志物的甲基化水平中挑选SEQ ID NO:3、SEQ ID NO:8、SEQ ID NO:13、SEQ ID NO:15、SEQ ID NO:17、SEQID NO:19、SEQ ID NO:22、SEQ ID NO:25、SEQ ID NO:29、SEQ ID NO:31、SEQ ID NO:37、SEQID NO:38、SEQ ID NO:40、SEQ ID NO:41、SEQ ID NO:42、SEQ ID NO:43、SEQ ID NO:45、SEQID NO:47和SEQ ID NO:48共19个目标标志物构建了逻辑回归的机器学习模型。
机器学习模型构建的方法也同实施例2一致,但相关样本只使用了上述19个目标标志物的数据,该模型在训练集和测试集中的模型得分见图4,该模型ROC曲线见图5。可看出该模型在训练集和测试集中,胃癌和无胃癌样本分值具有显著差异,该模型测试集AUC达到了0.919,说明了该组合模型良好的性能。阈值设成0.54时,大于该值预测为胃癌,小于该值预测为无胃癌,在训练集中特异性为95%,测试集敏感性达到了78%,说明了该组合模型良好的性能。
实施例5:19个目标标志物的预测结果
为了验证相关标志物组合的效果,本实施例从所有的48个甲基化标志物的甲基化水平中挑选SEQ ID NO:2、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:12、SEQ IDNO:15、SEQ ID NO:19、SEQ ID NO:25、SEQ ID NO:28、SEQ ID NO:32、SEQ ID NO:33、SEQ IDNO:36、SEQ ID NO:37、SEQ ID NO:40、SEQ ID NO:42、SEQ ID NO:43、SEQ ID NO:44、SEQ IDNO:46和SEQ ID NO:48共19个目标标志物构建了逻辑回归的机器学习模型。
机器学习模型构建的方法也同实施例2一致,但相关样本只使用了上述19个目标标志物的数据,该模型在训练集和测试集中的模型得分见图6,该模型ROC曲线见图7。可看出该模型在训练集和测试集中,胃癌和无胃癌样本分值具有显著差异,该模型测试集AUC达到了0.913,说明了该组合模型良好的性能。阈值设成0.49时,大于该值预测为胃癌,小于该值预测为无胃癌,在训练集中特异性为95%,测试集敏感性达到了65%,说明了该组合模型良好的性能。
实施例6:8个目标标志物的机器学习模型
为了验证相关标志物组合的效果,本实施例从所有的48个甲基化标志物的甲基化水平中挑选SEQ ID NO:3、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:20、SEQ ID NO:22、SEQID NO:28、SEQ ID NO:30、SEQ ID NO:36共8个目标标志物构建了逻辑回归的机器学习模型。
机器学习模型构建的方法也同实施例2一致,但相关样本只使用了上述8个目标标志物的数据,该模型在训练集和测试集中的模型得分见图8,该模型ROC曲线见图9。可看出该模型在训练集和测试集中,胃癌和无胃癌样本分值具有显著差异,该模型测试集AUC达到了0.872,说明了该组合模型良好的性能。阈值设成0.46时,大于该值预测为胃癌,小于该值预测为无胃癌,在训练集中特异性为95%,测试集敏感性达到了56%,说明了该组合模型良好的性能。
实施例7:5个目标标志物的机器学习模型
为了验证相关标志物组合的效果,本实施例从所有的48个甲基化标志物的甲基化水平中挑选SEQ ID NO:3、SEQ ID NO:13、SEQ ID NO:27、SEQ ID NO:30、SEQ ID NO:35共5个目标标志物构建了逻辑回归的机器学习模型。
机器学习模型构建的方法也同实施例2一致,但相关样本只使用了上述5个目标标志物的数据,该模型在训练集和测试集中的模型得分见图10,模型ROC曲线见图11。看出该模型在训练集和测试集中,胃癌和无胃癌样本分值具有显著差异,该模型测试集AUC达到了0.856,说明了该组合模型良好的性能。阈值设成0.52,大于该值预测为胃癌,小于该值预测为无胃癌,在训练集中特异性为95%,测试集敏感性达到了48%,说明了该组合模型良好的性能。
Claims (22)
1.检测一个或多个目标标志物的至少一个CpG二核苷酸的甲基化状态或水平的试剂在制备诊断胃癌的检测试剂或诊断试剂盒中的应用,以及用于确定一个或多个目标标志物的至少一个CpG二核苷酸的甲基化状态或水平的装置在制备诊断胃癌的诊断试剂盒中的应用;其中,所述一个或多个目标标志物选自以下序列(1)-(48)中的任意1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47条或全部48条序列:
(1)含chr6:166970625:166970825(SEQ ID NO:1)及其上游5kb以内和/或下游5kb以内的序列;
(2)含chr11:11600237:11600617(SEQ ID NO:2)及其上游5kb以内和/或下游5kb以内的序列;
(3)含chr17:76929754:76929954(SEQ ID NO:3)及其上游5kb以内和/或下游5kb以内的序列;
(4)含chr6:391738:391938(SEQ ID NO:4)及其上游5kb以内和/或下游5kb以内的序列;
(5)含chr12:2282090:2282290(SEQ ID NO:5)及其上游5kb以内和/或下游5kb以内的序列;
(6)含chr2:177030134:177030449(SEQ ID NO:6)及其上游5kb以内和/或下游5kb以内的序列;
(7)含chr7:35301095:35301411(SEQ ID NO:7)及其上游5kb以内和/或下游5kb以内的序列;
(8)含chr7:8482114:8482413(SEQ ID NO:8)及其上游5kb以内和/或下游5kb以内的序列;
(9)含chr2:72371208:72371433(SEQ ID NO:9)及其上游5kb以内和/或下游5kb以内的序列;
(10)含chr5:134364359:134364559(SEQ ID NO:10)及其上游5kb以内和/或下游5kb以内的序列;
(11)含chr10:118892523:118892723(SEQ ID NO:11)及其上游5kb以内和/或下游5kb以内的序列;
(12)含chr12:113901298:113901498(SEQ ID NO:12)及其上游5kb以内和/或下游5kb以内的序列;
(13)含chr8:143613755:143613955(SEQ ID NO:13)及其上游5kb以内和/或下游5kb以内的序列;
(14)含chr8:20375580:20375780(SEQ ID NO:14)及其上游5kb以内和/或下游5kb以内的序列;
(15)含chr7:107499318:107499518(SEQ ID NO:15)及其上游5kb以内和/或下游5kb以内的序列;
(16)含chr6:1378941:1379141(SEQ ID NO:16)及其上游5kb以内和/或下游5kb以内的序列;
(17)含chr15:34786976:34787337(SEQ ID NO:17)及其上游5kb以内和/或下游5kb以内的序列;
(18)含chr1:156405314:156405514(SEQ ID NO:18)及其上游5kb以内和/或下游5kb以内的序列;
(19)含chr8:10588811:10589173(SEQ ID NO:19)及其上游5kb以内和/或下游5kb以内的序列;
(20)含chr4:85418610:85418919(SEQ ID NO:20)及其上游5kb以内和/或下游5kb以内的序列;
(21)含chr5:140871317:140871517(SEQ ID NO:21)及其上游5kb以内和/或下游5kb以内的序列;
(22)含chr5:92906255:92906617(SEQ ID NO:22)及其上游5kb以内和/或下游5kb以内的序列;
(23)含chr14:57265398:57265598(SEQ ID NO:23)及其上游5kb以内和/或下游5kb以内的序列;
(24)含chr19:19650947:19651147(SEQ ID NO:24)及其上游5kb以内和/或下游5kb以内的序列;
(25)含chr11:20618486:20618686(SEQ ID NO:25)及其上游5kb以内和/或下游5kb以内的序列;
(26)含chr7:73407894:73408161(SEQ ID NO:26)及其上游5kb以内和/或下游5kb以内的序列;
(27)含chr16:82660460:82660774(SEQ ID NO:27)及其上游5kb以内和/或下游5kb以内的序列;
(28)含chr13:24844736:24844936(SEQ ID NO:28)及其上游5kb以内和/或下游5kb以内的序列;
(29)含chr20:55500358:55500677(SEQ ID NO:29)及其上游5kb以内和/或下游5kb以内的序列;
(30)含chr10:123923943:123924143(SEQ ID NO:30)及其上游5kb以内和/或下游5kb以内的序列;
(31)含chr20:59827678:59827907(SEQ ID NO:31)及其上游5kb以内和/或下游5kb以内的序列;
(32)含chr20:62330559:62330808(SEQ ID NO:32)及其上游5kb以内和/或下游5kb以内的序列;
(33)含chr19:13209774:13209974(SEQ ID NO:33)及其上游5kb以内和/或下游5kb以内的序列;
(34)含chr16:2085778:2086156(SEQ ID NO:34)及其上游5kb以内和/或下游5kb以内的序列;
(35)含chr6:108488634:108488917(SEQ ID NO:35)及其上游5kb以内和/或下游5kb以内的序列;
(36)含chr12:115124911:115125191(SEQ ID NO:36)及其上游5kb以内和/或下游5kb以内的序列;
(37)含chr10:124896740:124897020(SEQ ID NO:37)及其上游5kb以内和/或下游5kb以内的序列;
(38)含chr14:55243006:55243206(SEQ ID NO:38)及其上游5kb以内和/或下游5kb以内的序列;
(39)含chr13:36729096:36729334(SEQ ID NO:39)及其上游5kb以内和/或下游5kb以内的序列;
(40)含chr2:10444997:10445197(SEQ ID NO:40)及其上游5kb以内和/或下游5kb以内的序列;
(41)含chr9:2157701:2157901(SEQ ID NO:41)及其上游5kb以内和/或下游5kb以内的序列;
(42)含chr12:57529619:57529819(SEQ ID NO:42)及其上游5kb以内和/或下游5kb以内的序列;
(43)含chr1:119527250:119527450(SEQ ID NO:43)及其上游5kb以内和/或下游5kb以内的序列;
(44)含chr1:119532788:119532988(SEQ ID NO:44)及其上游5kb以内和/或下游5kb以内的序列;
(45)含chr15:96909441:96909641(SEQ ID NO:45)及其上游5kb以内和/或下游5kb以内的序列;
(46)含chr1:146551463:146551747(SEQ ID NO:46)及其上游5kb以内和/或下游5kb以内的序列;
(47)含chr17:35293755:35293955(SEQ ID NO:47)或其上下游各5kb以内的序列;和
(48)含chr17:59482763:59482963(SEQ ID NO:48)或其上下游各5kb以内的序列。
2.如权利要求1所述的应用,其特征在于,
所述一个或多个目标标志物包括所述第(3)、(8)、(13)、(15)、(17)、(19)、(22)、(25)、(29)、(31)、(37)、(38)、(40)、(41)、(42)、(43)、(45)、(47)和(48)项所述的序列;或
所述一个或多个目标标志物包括所述第(2)、(6)、(7)、(8)、(12)、(15)、(19)、(25)、(28)、(32)、(33)、(36)、(37)、(40)、(42)、(43)、(44)、(46)和(48)项所述的序列;或
所述一个或多个目标标志物包括所述第(3)、(13)、(14)、(20)、(22)、(28)、(30)和(36)项所述的序列;或
所述一个或多个目标标志物包括所述第(3)、(13)、(27)、(30)和(35)项所述的序列;或
所述一个或多个目标标志物包括所述第(7)、(14)、(22)、(26)、(35)、(38)、(40)、(43)、(47)和(48)项所述的序列。
3.如权利要求1所述的应用,其特征在于,所述一个或多个目标标志物选自所述第(7)、(14)、(22)、(26)、(35)、(38)、(40)、(43)、(47)和(48)项中任意1、2、3、4、5、6、7、8或9项所述的序列。
4.如权利要求1所述的应用,其特征在于,
所述目标标志物包括第(40)项所述序列,以及第(1)-(39)和(41)-(48)中的任意一条或多条序列;或
所述目标标志物包括第(47)项所述序列,以及第(1)-(46)和(48)中的任意一条或多条序列;或
所述目标标志物包括第(43)项所述序列,以及第(1)-(42)和(44)-(48)中的任意一条或多条序列;或
所述目标标志物包括第(26)项所述序列,以及第(1)-(25)和(27)-(48)中的任意一条或多条序列;或
所述目标标志物包括第(35)项所述序列,以及第(1)-(34)和(36)-(48)中的任意一条或多条序列;或
所述目标标志物包括第(14)项所述序列,以及第(1)-(13)和(15)-(48)中的任意一条或多条序列;或
所述目标标志物包括第(38)项所述序列,以及第(1)-(37)和(39)-(48)中的任意一条或多条序列;或
所述目标标志物包括第(22)项所述序列,以及第(1)-(21)和(23)-(48)中的任意一条或多条序列;或
所述目标标志物包括第(7)项所述序列,以及第(1)-(6)和(8)-(48)中的任意一条或多条序列;或
所述目标标志物包括第(48)项所述序列,以及第(1)-(47)中的任意一条或多条序列。
5.如权利要求1-4中任一项所述的应用,其特征在于,所述目标标志物包括所述SEQ IDNO:1-48各序列各起始位点的上游1kb以内、优选500bp以内、更优选300bp以内、更优选100bp以内的序列和/或各末端位点的下游1kb以内、优选500bp以内、优选300bp以内、优选100bp以内的序列;优选地,所述目标标志物是含有所述SEQ ID NO:1-48任一序列且长度为400bp以内的基因序列。
6.如权利要求1-4中任一项所述的应用,其特征在于,所述第(1)到第(48)项所述的序列分别是SEQ ID NO:1-48所示的序列。
7.如权利要求1-6中任一项所述的应用,其特征在于,所述试剂包括引物和/或探针分子;
优选地,所述引物分子相同于、互补于或在严谨条件下杂交于所述一个或多个目标标志物并包含至少9个连续的核苷酸,所述探针分子与所述一个或多个目标标志物的扩增产物在严谨条件下杂交。
8.如权利要求1-6中任一项所述的应用,其特征在于,所述试剂为实施基因组简化甲基化测序技术所需的试剂。
9.一种用于检测一个或多个目标标志物的至少一个CpG二核苷酸的甲基化状态或甲基化水平以诊断胃癌的诊断试剂或诊断试剂盒,其包含用于检测一个或多个目标标志物的至少一个CpG二核苷酸的甲基化状态或水平的试剂;其中,所述一个或多个目标标志物如权利要求1-6中任一项所述。
10.如权利要求9所述的诊断试剂或诊断试剂盒,其特征在于,所述诊断试剂或诊断试剂盒包括引物和/或探针分子;优选地,所述引物分子相同于、互补于或在严谨条件下杂交于所述一个或多个目标标志物并包含至少9个连续的核苷酸,所述探针分子与所述一个或多个目标标志物的扩增产物在严谨条件下杂交;
任选地,所述诊断试剂或诊断试剂盒还包括检测内参基因ACTB的引物分子和/或探针分子。
11.如权利要求9所述的诊断试剂或诊断试剂盒,其特征在于,所述诊断试剂或诊断试剂盒还包括选自以下的一种或多种物质:PCR缓冲液、聚合酶、dNTP、限制性内切酶、酶切缓冲液、荧光染料、荧光淬灭剂、荧光报告剂、外切核酸酶、碱性磷酸酶、内标、对照物、KCl、MgCl2和(NH4)2SO4。
12.如权利要求9所述的诊断试剂或诊断试剂盒,其特征在于,所述试剂还包括下述一个或多个方法中所用的试剂:基于重亚硫酸盐转化的PCR、DNA测序、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法、基于芯片的甲基化图谱分析和质谱。
13.如权利要求12所述的诊断试剂或诊断试剂盒,其特征在于,所述试剂选自以下一种或多种:重亚硫酸盐及其衍生物、荧光染料、荧光淬灭剂、荧光报告剂、内标和对照物。
14.区分基因组DNA至少一个靶区域内甲基化和未甲基化CpG二核苷酸的至少一种试剂或成组试剂在制备用于检测和/或分类个体中胃癌的方法的试剂盒中的用途,其中所述方法包括使从所述个体生物样品中分离的基因组DNA与所述至少一种试剂或成组试剂接触,其中所述靶区域等同于或互补于一个或多个目标标志物的至少16连续核苷酸的序列,其中所述连续核苷酸包含至少一个CpG二核苷酸序列,由此至少部分地提供对胃癌的检测和/或分类,其中,所述一个或多个目标标志物如权利要求1-6中任一项所述。
15.将5位未甲基化的胞嘧啶碱基转化为尿嘧啶或在杂交性能方面可检测地不同于胞嘧啶的其它碱基的一种或多种试剂、扩增酶以及至少一种包含至少9个连续核苷酸的引物在制备用于检测和/或分类个体中胃癌的方法的试剂盒中的用途,其中所述方法包括:
a)从所述个体生物样品分离基因组DNA;
b)用所述一种或多种试剂处理a)的所述基因组DNA或其片段;
c)使所述经处理的基因组DNA或其经处理的片段与所述扩增酶和所述至少一种引物接触,所述引物相同于、互补于或在严谨条件下杂交于一个或多个目标标志物,其中所述经处理的基因组DNA或其片段被扩增以产生至少一种扩增产物或不被扩增;以及
d)基于所述扩增物是否存在或其性质,确定所述一个或多个目标标志物的至少一个CpG二核苷酸的甲基化状态或水平,或者反映所述一个或多个目标标志物的多个CpG二核苷酸平均甲基化状态或水平的均值或值,由此至少部分地检测和/或分类个体中的胃癌;
其中,所述一个或多个目标标志物如权利要求1-6中任一项所述。
16.如权利要求15所述的用途,其中步骤b)中,使用选自亚硫酸氢盐、酸式亚硫酸盐、焦亚硫酸盐及其组合的试剂处理所述基因组DNA或其片段。
17.如权利要求16所述的用途,其中c)中,通过使用耐热DNA聚合酶作为所述扩增酶、使用缺乏5’-3’外切酶活性的聚合酶、使用聚合酶链式反应和/或产生带有可检测标记的扩增产物进行核酸分子的接触或扩增。
18.如权利要求15所述的用途,其中c)中的接触或扩增包括使用甲基化特异的引物。
19.一种或多种甲基化敏感限制酶和扩增酶以及至少一种包含至少9个连续核苷酸的引物在制备用于检测和/或分类个体中胃癌的方法的试剂盒中的用途,其中,所述引物相同于、互补于或在严谨条件下杂交于一个或多个目标标志物;所述方法包括:
a)从所述个体生物样品分离基因组DNA;
b)以所述一种或多种甲基化敏感限制酶消化a)所述的基因组DNA或其片段,使所得消化产物与所述扩增酶和所述至少一种引物接触;和
c)基于所述扩增物是否存在或其性质,确定所述一个或多个目标标志物的至少一个CpG二核苷酸的甲基化状态或水平,由此至少部分地检测和/或分类个体中的胃癌;
其中,所述一个或多个目标标志物如权利要求1-6中任一项所述。
20.如权利要求19所述的用途,其特征在于,通过杂交至少一种核酸或肽核酸来确定扩增产物的存在与否,所述至少一种核酸或肽核酸等同于或互补于选自所述一个或多个目标标志物的序列的至少16碱基长片段。
21.衍生自一个或多个目标标志物的经处理的核酸在制备用于诊断胃癌的试剂盒中的用途,其中所述处理适合于将所述一个或多个目标标志物的至少一个未甲基化的胞嘧啶碱基转化至尿嘧啶或在杂交上可检测地不同于胞嘧啶的其它碱基,所述一个或多个目标标志物如权利要求1-6中任一项所述。
22.用于检测并诊断个体胃癌的装置,所述装置包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:(1)获取样品中一个或多个目标标志物的至少一个CpG二核苷酸的甲基化水平或甲基化状态,和(2)根据(1)的甲基化水平或甲基化状态判读胃癌;
其中,所述一个或多个目标标志物如权利要求1-6中任一项所述。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211190564.7A CN117778568A (zh) | 2022-09-28 | 2022-09-28 | 鉴别胃癌的标志物及应用 |
PCT/CN2023/118675 WO2024056008A1 (zh) | 2022-09-16 | 2023-09-14 | 鉴别癌症的甲基化标志物及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211190564.7A CN117778568A (zh) | 2022-09-28 | 2022-09-28 | 鉴别胃癌的标志物及应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117778568A true CN117778568A (zh) | 2024-03-29 |
Family
ID=90387718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211190564.7A Pending CN117778568A (zh) | 2022-09-16 | 2022-09-28 | 鉴别胃癌的标志物及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117778568A (zh) |
-
2022
- 2022-09-28 CN CN202211190564.7A patent/CN117778568A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109563546B (zh) | 通过分析甲基化dna来检测肺肿瘤 | |
US11434528B2 (en) | Methods and systems for detecting methylation changes in DNA samples | |
EP3640341B1 (en) | Assays to determine dna methylation and dna methylation markers of cancer | |
US10731215B2 (en) | Method for determining the presence or absence of methylation in a sample | |
US20060183128A1 (en) | Methods and compositions for differentiating tissues for cell types using epigenetic markers | |
CA2680588A1 (en) | Restriction endonuclease enhanced polymorphic sequence detection | |
KR20210099044A (ko) | 폐 신생물 검출에서 메틸화된 dna, rna, 및 단백질의 특성화 | |
CN110129436A (zh) | Dna甲基化的数字序列分析 | |
WO2018069450A1 (en) | Methylation biomarkers for lung cancer | |
WO2011139920A2 (en) | Methylation-specific competitive allele-specific taqman polymerase chain reaction (cast-pcr) | |
CN113186278B (zh) | 甲状腺结节良恶性相关标志物及其应用 | |
US20230193395A1 (en) | Methods and kits for screening colorectal neoplasm | |
CN113493835A (zh) | 通过检测bcan基因区域的甲基化状态筛查大肠瘤的方法和试剂盒 | |
WO2022170984A1 (zh) | 结直肠进展期腺瘤的筛查、风险评估及预后方法和试剂盒 | |
CN113637754B (zh) | 生物标志物在诊断食管癌中的应用 | |
EP2044214A2 (en) | A method for determining the methylation rate of a nucleic acid | |
JP2023550141A (ja) | 制限酵素及びハイスループット配列決定を用いたdna試料におけるメチル化変化の検出 | |
WO2024056008A1 (zh) | 鉴别癌症的甲基化标志物及应用 | |
CN117778568A (zh) | 鉴别胃癌的标志物及应用 | |
WO2023104136A1 (zh) | 甲状腺癌良恶性结节诊断的甲基化标志物及其应用 | |
WO2023274350A1 (zh) | 甲状腺结节良恶性相关标志物及其应用 | |
TW202417642A (zh) | 鑑別癌症的甲基化標誌物及應用 | |
EP1704255B1 (en) | Method for investigating cytosine methylation in dna by means of dna repair enzymes | |
CN117821585A (zh) | 结直肠癌早期诊断标志物及应用 | |
CN113493834A (zh) | 通过检测pknox2基因区域的甲基化状态筛查大肠瘤的方法和试剂盒 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |