CN104311618B - 5-醛基胞嘧啶特异性化学标记方法及相关应用 - Google Patents
5-醛基胞嘧啶特异性化学标记方法及相关应用 Download PDFInfo
- Publication number
- CN104311618B CN104311618B CN201410486471.8A CN201410486471A CN104311618B CN 104311618 B CN104311618 B CN 104311618B CN 201410486471 A CN201410486471 A CN 201410486471A CN 104311618 B CN104311618 B CN 104311618B
- Authority
- CN
- China
- Prior art keywords
- compound
- aldehyde radical
- cytosine
- base
- alkyl
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- OPTASPLRGRRNAP-UHFFFAOYSA-N Cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 title claims abstract description 187
- 229940104302 Cytosine Drugs 0.000 title claims abstract description 185
- 239000000126 substance Substances 0.000 title claims abstract description 34
- 239000003550 marker Substances 0.000 title claims abstract description 12
- 150000001875 compounds Chemical class 0.000 claims abstract description 193
- 238000006243 chemical reaction Methods 0.000 claims abstract description 135
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 59
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 59
- -1 methylene compound Chemical class 0.000 claims abstract description 58
- 238000007363 ring formation reaction Methods 0.000 claims abstract description 40
- 241001597008 Nomeidae Species 0.000 claims abstract description 33
- 238000001514 detection method Methods 0.000 claims abstract description 30
- 125000001570 methylene group Chemical group [H]C([H])([*:1])[*:2] 0.000 claims abstract description 20
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 claims abstract description 16
- 238000003384 imaging method Methods 0.000 claims abstract description 6
- 125000000217 alkyl group Chemical group 0.000 claims description 64
- 229920003013 deoxyribonucleic acid Polymers 0.000 claims description 61
- 238000002372 labelling Methods 0.000 claims description 48
- 125000000852 azido group Chemical group *N=[N+]=[N-] 0.000 claims description 37
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 claims description 36
- 229960002685 biotin Drugs 0.000 claims description 36
- 235000020958 biotin Nutrition 0.000 claims description 36
- 239000011616 biotin Substances 0.000 claims description 36
- 125000000304 alkynyl group Chemical group 0.000 claims description 35
- 125000003178 carboxy group Chemical group [H]OC(*)=O 0.000 claims description 22
- 229920001850 Nucleic acid sequence Polymers 0.000 claims description 18
- 125000004093 cyano group Chemical group *C#N 0.000 claims description 17
- 125000003342 alkenyl group Chemical group 0.000 claims description 16
- 230000015572 biosynthetic process Effects 0.000 claims description 15
- 238000003786 synthesis reaction Methods 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 14
- 125000002915 carbonyl group Chemical group [*:2]C([*:1])=O 0.000 claims description 14
- 230000002194 synthesizing Effects 0.000 claims description 14
- UHKAJLSKXBADFT-UHFFFAOYSA-N 1,3-Indandione Chemical class C1=CC=C2C(=O)CC(=O)C2=C1 UHKAJLSKXBADFT-UHFFFAOYSA-N 0.000 claims description 13
- 125000000824 D-ribofuranosyl group Chemical group [H]OC([H])([H])[C@@]1([H])OC([H])(*)[C@]([H])(O[H])[C@]1([H])O[H] 0.000 claims description 13
- 230000004048 modification Effects 0.000 claims description 13
- 238000006011 modification reaction Methods 0.000 claims description 13
- 229920000160 (ribonucleotides)n+m Polymers 0.000 claims description 12
- LTMRRSWNXVJMBA-UHFFFAOYSA-L 2,2-diethylpropanedioate Chemical compound CCC(CC)(C([O-])=O)C([O-])=O LTMRRSWNXVJMBA-UHFFFAOYSA-L 0.000 claims description 12
- NBIIXXVUZAFLBC-UHFFFAOYSA-N phosphoric acid Chemical compound OP(O)(O)=O NBIIXXVUZAFLBC-UHFFFAOYSA-N 0.000 claims description 12
- 125000004435 hydrogen atoms Chemical group [H]* 0.000 claims description 11
- 239000001257 hydrogen Substances 0.000 claims description 8
- 229910052739 hydrogen Inorganic materials 0.000 claims description 8
- 125000000449 nitro group Chemical group [O-][N+](*)=O 0.000 claims description 8
- 238000006116 polymerization reaction Methods 0.000 claims description 8
- 229920002477 rna polymer Polymers 0.000 claims description 8
- 230000005494 condensation Effects 0.000 claims description 7
- 125000001183 hydrocarbyl group Chemical group 0.000 claims description 7
- 229910000147 aluminium phosphate Inorganic materials 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 125000002769 thiazolinyl group Chemical group 0.000 claims description 6
- 150000002148 esters Chemical class 0.000 claims description 5
- WDJHALXBUFZDSR-UHFFFAOYSA-N Acetoacetic acid Chemical compound CC(=O)CC(O)=O WDJHALXBUFZDSR-UHFFFAOYSA-N 0.000 claims description 4
- 239000007864 aqueous solution Substances 0.000 claims description 4
- 229910052799 carbon Inorganic materials 0.000 claims description 4
- 229910052757 nitrogen Inorganic materials 0.000 claims description 4
- FHSUFDYFOHSYHI-UHFFFAOYSA-M 3-oxopentanoate Chemical compound CCC(=O)CC([O-])=O FHSUFDYFOHSYHI-UHFFFAOYSA-M 0.000 claims description 3
- 239000004215 Carbon black (E152) Substances 0.000 claims description 3
- 150000001299 aldehydes Chemical class 0.000 claims description 3
- 150000001345 alkine derivatives Chemical class 0.000 claims description 3
- 150000002430 hydrocarbons Chemical class 0.000 claims description 3
- 125000001841 imino group Chemical group [H]N=* 0.000 claims description 3
- 230000001264 neutralization Effects 0.000 claims description 3
- IJGRMHOSHXDMSA-UHFFFAOYSA-N nitrogen Substances N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 claims description 3
- 230000024881 catalytic activity Effects 0.000 claims description 2
- 238000006297 dehydration reaction Methods 0.000 claims description 2
- 125000005594 diketone group Chemical group 0.000 claims description 2
- 125000000524 functional group Chemical group 0.000 claims description 2
- 238000000338 in vitro Methods 0.000 claims description 2
- 108091022185 nucleic acid binding proteins Proteins 0.000 claims description 2
- 102000020502 nucleic acid binding proteins Human genes 0.000 claims description 2
- ASJSAQIRZKANQN-CRCLSJGQSA-N Deoxyribose Chemical compound OC[C@@H](O)[C@@H](O)CC=O ASJSAQIRZKANQN-CRCLSJGQSA-N 0.000 claims 5
- 150000001732 carboxylic acid derivatives Chemical class 0.000 claims 3
- 238000003745 diagnosis Methods 0.000 abstract description 9
- 230000001973 epigenetic Effects 0.000 abstract description 7
- 238000006482 condensation reaction Methods 0.000 abstract description 3
- 125000002485 formyl group Chemical class [H]C(*)=O 0.000 abstract 6
- 239000002585 base Substances 0.000 description 190
- 150000003254 radicals Chemical class 0.000 description 114
- GEHJYWRUCIMESM-UHFFFAOYSA-L Sodium sulfite Chemical group [Na+].[Na+].[O-]S([O-])=O GEHJYWRUCIMESM-UHFFFAOYSA-L 0.000 description 71
- 239000000523 sample Substances 0.000 description 52
- 239000000047 product Substances 0.000 description 44
- 238000000034 method Methods 0.000 description 40
- RQLBKLUUUJJCHB-UHFFFAOYSA-N N(=[N+]=[N-])CCC=1C=C2C(CC(C2=CC=1)=O)=O Chemical group N(=[N+]=[N-])CCC=1C=C2C(CC(C2=CC=1)=O)=O RQLBKLUUUJJCHB-UHFFFAOYSA-N 0.000 description 37
- 235000010265 sodium sulphite Nutrition 0.000 description 35
- 239000000243 solution Substances 0.000 description 29
- 230000003321 amplification Effects 0.000 description 19
- OKKJLVBELUTLKV-UHFFFAOYSA-N methanol Chemical class OC OKKJLVBELUTLKV-UHFFFAOYSA-N 0.000 description 19
- 238000003199 nucleic acid amplification method Methods 0.000 description 19
- 239000002994 raw material Substances 0.000 description 17
- CZPWVGJYEJSRLH-UHFFFAOYSA-N 289-95-2 Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 description 13
- 125000001424 substituent group Chemical group 0.000 description 13
- 210000001519 tissues Anatomy 0.000 description 13
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 12
- 239000003153 chemical reaction reagent Substances 0.000 description 12
- 230000000694 effects Effects 0.000 description 12
- 210000001541 Thymus Gland Anatomy 0.000 description 11
- 210000004027 cells Anatomy 0.000 description 10
- 230000000875 corresponding Effects 0.000 description 10
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 10
- BLQMCTXZEMGOJM-UHFFFAOYSA-N 5-carboxycytosine Chemical compound NC=1NC(=O)N=CC=1C(O)=O BLQMCTXZEMGOJM-UHFFFAOYSA-N 0.000 description 9
- 108090000790 Enzymes Proteins 0.000 description 9
- 102000004190 Enzymes Human genes 0.000 description 9
- 230000021615 conjugation Effects 0.000 description 9
- 238000009826 distribution Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000001840 matrix-assisted laser desorption--ionisation time-of-flight mass spectrometry Methods 0.000 description 8
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 8
- 230000002378 acidificating Effects 0.000 description 7
- 238000003260 fluorescence intensity Methods 0.000 description 7
- YMWUJEATGCHHMB-UHFFFAOYSA-N methylene dichloride Chemical compound ClCCl YMWUJEATGCHHMB-UHFFFAOYSA-N 0.000 description 7
- JUJWROOIHBZHMG-UHFFFAOYSA-N pyridine Chemical compound C1=CC=NC=C1 JUJWROOIHBZHMG-UHFFFAOYSA-N 0.000 description 7
- RYVNIFSIEDRLSJ-UHFFFAOYSA-N 5-Hydroxymethylcytosine Chemical compound NC=1NC(=O)N=CC=1CO RYVNIFSIEDRLSJ-UHFFFAOYSA-N 0.000 description 6
- 229920000272 Oligonucleotide Polymers 0.000 description 6
- 229920001914 Ribonucleotide Polymers 0.000 description 6
- 108010090804 Streptavidin Proteins 0.000 description 6
- 229940035893 Uracil Drugs 0.000 description 6
- 239000002253 acid Substances 0.000 description 6
- 239000011324 bead Substances 0.000 description 6
- RTZKZFJDLAIYFH-UHFFFAOYSA-N diethyl ether Chemical compound CCOCC RTZKZFJDLAIYFH-UHFFFAOYSA-N 0.000 description 6
- 125000001495 ethyl group Chemical group [H]C([H])([H])C([H])([H])* 0.000 description 6
- 239000002773 nucleotide Substances 0.000 description 6
- 125000003729 nucleotide group Chemical group 0.000 description 6
- 239000002336 ribonucleotide Substances 0.000 description 6
- 239000007787 solid Substances 0.000 description 6
- XYIBRDXRRQCHLP-UHFFFAOYSA-N Ethyl acetoacetate Chemical compound CCOC(=O)CC(C)=O XYIBRDXRRQCHLP-UHFFFAOYSA-N 0.000 description 5
- 239000003513 alkali Substances 0.000 description 5
- 239000012472 biological sample Substances 0.000 description 5
- 238000006481 deamination reaction Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 5
- 238000002156 mixing Methods 0.000 description 5
- 239000012071 phase Substances 0.000 description 5
- 210000004369 Blood Anatomy 0.000 description 4
- 206010010254 Concussion Diseases 0.000 description 4
- 101700011961 DPOM Proteins 0.000 description 4
- 210000001161 Embryo, Mammalian Anatomy 0.000 description 4
- UYTPUPDQBNUYGX-UHFFFAOYSA-N Guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 4
- 238000006736 Huisgen cycloaddition reaction Methods 0.000 description 4
- 101710029649 MDV043 Proteins 0.000 description 4
- 102100015085 NCOR2 Human genes 0.000 description 4
- 101700070835 NCOR2 Proteins 0.000 description 4
- 101700061424 POLB Proteins 0.000 description 4
- 101700054624 RF1 Proteins 0.000 description 4
- 239000008280 blood Substances 0.000 description 4
- 238000009833 condensation Methods 0.000 description 4
- 230000001808 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 230000013020 embryo development Effects 0.000 description 4
- 238000006460 hydrolysis reaction Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 239000007788 liquid Substances 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000003752 polymerase chain reaction Methods 0.000 description 4
- 239000011148 porous material Substances 0.000 description 4
- BWHMMNNQKKPAPP-UHFFFAOYSA-L potassium carbonate Chemical compound [K+].[K+].[O-]C([O-])=O BWHMMNNQKKPAPP-UHFFFAOYSA-L 0.000 description 4
- 238000001556 precipitation Methods 0.000 description 4
- 238000003753 real-time PCR Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 210000000130 stem cell Anatomy 0.000 description 4
- 239000000758 substrate Substances 0.000 description 4
- FVZABLLXAIMRFE-UHFFFAOYSA-N 4-(2-chloroethyl)benzoyl chloride Chemical compound ClCCC1=CC=C(C(Cl)=O)C=C1 FVZABLLXAIMRFE-UHFFFAOYSA-N 0.000 description 3
- LRSASMSXMSNRBT-UHFFFAOYSA-N 5-Methylcytosine Chemical compound CC1=CNC(=O)N=C1N LRSASMSXMSNRBT-UHFFFAOYSA-N 0.000 description 3
- 229960000643 Adenine Drugs 0.000 description 3
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Natural products NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 3
- TZRXHJWUDPFEEY-UHFFFAOYSA-N Pentaerythritol Chemical compound [O-][N+](=O)OCC(CO[N+]([O-])=O)(CO[N+]([O-])=O)CO[N+]([O-])=O TZRXHJWUDPFEEY-UHFFFAOYSA-N 0.000 description 3
- 238000010521 absorption reaction Methods 0.000 description 3
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 3
- 238000010719 annulation reaction Methods 0.000 description 3
- UIIMBOGNXHQVGW-UHFFFAOYSA-M buffer Substances [Na+].OC([O-])=O UIIMBOGNXHQVGW-UHFFFAOYSA-M 0.000 description 3
- 238000004113 cell culture Methods 0.000 description 3
- 230000002596 correlated Effects 0.000 description 3
- 230000017858 demethylation Effects 0.000 description 3
- 238000010520 demethylation reaction Methods 0.000 description 3
- HEDRZPFGACZZDS-MICDWDOJSA-N deuterated chloroform Substances [2H]C(Cl)(Cl)Cl HEDRZPFGACZZDS-MICDWDOJSA-N 0.000 description 3
- FNENWZWNOPCZGK-UHFFFAOYSA-N ethyl 2-methyl-3-oxobutanoate Chemical compound CCOC(=O)C(C)C(C)=O FNENWZWNOPCZGK-UHFFFAOYSA-N 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 238000002189 fluorescence spectrum Methods 0.000 description 3
- 238000006062 fragmentation reaction Methods 0.000 description 3
- 230000003647 oxidation Effects 0.000 description 3
- 238000007254 oxidation reaction Methods 0.000 description 3
- 239000012188 paraffin wax Substances 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000000746 purification Methods 0.000 description 3
- 238000004064 recycling Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000005160 1H NMR spectroscopy Methods 0.000 description 2
- 230000035131 DNA demethylation Effects 0.000 description 2
- 230000007067 DNA methylation Effects 0.000 description 2
- 239000005977 Ethylene Substances 0.000 description 2
- ZMXDDKWLCZADIW-UHFFFAOYSA-N N,N-dimethylformamide Chemical compound CN(C)C=O ZMXDDKWLCZADIW-UHFFFAOYSA-N 0.000 description 2
- KIDXYAWWICJAFK-UHFFFAOYSA-N O.[Na].OC Chemical compound O.[Na].OC KIDXYAWWICJAFK-UHFFFAOYSA-N 0.000 description 2
- LLKYUHGUYSLMPA-UHFFFAOYSA-N Phosphoramidite Chemical compound NP([O-])[O-] LLKYUHGUYSLMPA-UHFFFAOYSA-N 0.000 description 2
- 229940100996 SODIUM BISULFATE Drugs 0.000 description 2
- WBHQBSYUUJJSRZ-UHFFFAOYSA-M Sodium bisulfate Chemical compound [Na+].OS([O-])(=O)=O WBHQBSYUUJJSRZ-UHFFFAOYSA-M 0.000 description 2
- 238000000862 absorption spectrum Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 125000004429 atoms Chemical group 0.000 description 2
- LSNNMFCWUKXFEE-UHFFFAOYSA-M bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 description 2
- 238000007385 chemical modification Methods 0.000 description 2
- 239000007795 chemical reaction product Substances 0.000 description 2
- HEDRZPFGACZZDS-UHFFFAOYSA-N chloroform Chemical compound ClC(Cl)Cl HEDRZPFGACZZDS-UHFFFAOYSA-N 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 125000000753 cycloalkyl group Chemical group 0.000 description 2
- IAZDPXIOMUYVGZ-UHFFFAOYSA-N dimethylsulphoxide Chemical compound CS(C)=O IAZDPXIOMUYVGZ-UHFFFAOYSA-N 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 235000013601 eggs Nutrition 0.000 description 2
- VGGSQFUCUMXWEO-UHFFFAOYSA-N ethene Chemical compound C=C VGGSQFUCUMXWEO-UHFFFAOYSA-N 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004907 flux Effects 0.000 description 2
- WSFSSNUMVMOOMR-UHFFFAOYSA-N formaldehyde Chemical compound O=C WSFSSNUMVMOOMR-UHFFFAOYSA-N 0.000 description 2
- ZHNUHDYFZUAESO-UHFFFAOYSA-N formamide Chemical compound NC=O ZHNUHDYFZUAESO-UHFFFAOYSA-N 0.000 description 2
- 230000003834 intracellular Effects 0.000 description 2
- 239000000178 monomer Substances 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- PMZURENOXWZQFD-UHFFFAOYSA-L na2so4 Chemical compound [Na+].[Na+].[O-]S([O-])(=O)=O PMZURENOXWZQFD-UHFFFAOYSA-L 0.000 description 2
- 239000002777 nucleoside Substances 0.000 description 2
- 150000003833 nucleoside derivatives Chemical class 0.000 description 2
- 239000003208 petroleum Substances 0.000 description 2
- 125000003367 polycyclic group Chemical group 0.000 description 2
- 239000001184 potassium carbonate Substances 0.000 description 2
- 229910000027 potassium carbonate Inorganic materials 0.000 description 2
- 230000036678 protein binding Effects 0.000 description 2
- 108091007521 restriction endonucleases Proteins 0.000 description 2
- 238000010898 silica gel chromatography Methods 0.000 description 2
- 229910000342 sodium bisulfate Inorganic materials 0.000 description 2
- 229910052938 sodium sulfate Inorganic materials 0.000 description 2
- 235000011152 sodium sulphate Nutrition 0.000 description 2
- 230000003595 spectral Effects 0.000 description 2
- 238000010189 synthetic method Methods 0.000 description 2
- 125000000923 (C1-C30) alkyl group Chemical group 0.000 description 1
- 238000001644 13C nuclear magnetic resonance spectroscopy Methods 0.000 description 1
- OOAPBGPLZAFZSO-UHFFFAOYSA-N 4-(2-chloroethyl)benzoic acid Chemical compound OC(=O)C1=CC=C(CCCl)C=C1 OOAPBGPLZAFZSO-UHFFFAOYSA-N 0.000 description 1
- FHSISDGOVSHJRW-UHFFFAOYSA-N 5-formylcytosine Chemical compound NC1=NC(=O)NC=C1C=O FHSISDGOVSHJRW-UHFFFAOYSA-N 0.000 description 1
- HQULDBYHEHYKRS-UHFFFAOYSA-N 6-amino-1H-pyrimidin-2-one Chemical compound NC1=CC=NC(O)=N1.NC=1C=CNC(=O)N=1 HQULDBYHEHYKRS-UHFFFAOYSA-N 0.000 description 1
- 229920000936 Agarose Polymers 0.000 description 1
- 108009000276 Base Excision Repair Proteins 0.000 description 1
- JMANVNJQNLATNU-UHFFFAOYSA-N Cyanogen Chemical compound N#CC#N JMANVNJQNLATNU-UHFFFAOYSA-N 0.000 description 1
- RGWHQCVHVJXOKC-SHYZEUOFSA-N Deoxycytidine triphosphate Chemical compound O=C1N=C(N)C=CN1[C@@H]1O[C@H](CO[P@](O)(=O)O[P@](O)(=O)OP(O)(O)=O)[C@@H](O)C1 RGWHQCVHVJXOKC-SHYZEUOFSA-N 0.000 description 1
- HAAZLUGHYHWQIW-KVQBGUIXSA-N Deoxyguanosine triphosphate Chemical compound C1=NC=2C(=O)NC(N)=NC=2N1[C@H]1C[C@H](O)[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 HAAZLUGHYHWQIW-KVQBGUIXSA-N 0.000 description 1
- IYXGSMUGOJNHAZ-UHFFFAOYSA-N Diethyl malonate Chemical compound CCOC(=O)CC(=O)OCC IYXGSMUGOJNHAZ-UHFFFAOYSA-N 0.000 description 1
- 108010042407 Endonucleases Proteins 0.000 description 1
- 102000004533 Endonucleases Human genes 0.000 description 1
- 229920002024 GDNA Polymers 0.000 description 1
- VEXZGXHMUGYJMC-UHFFFAOYSA-N HCl Chemical compound Cl VEXZGXHMUGYJMC-UHFFFAOYSA-N 0.000 description 1
- 229920002459 Intron Polymers 0.000 description 1
- CUONGYYJJVDODC-UHFFFAOYSA-N Malononitrile Chemical class N#CCC#N CUONGYYJJVDODC-UHFFFAOYSA-N 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- APUKDNLVGLUNQV-UHFFFAOYSA-N N(=[N+]=[N-])C1C(C(C2=CC=CC=C12)=O)=O Chemical compound N(=[N+]=[N-])C1C(C(C2=CC=CC=C12)=O)=O APUKDNLVGLUNQV-UHFFFAOYSA-N 0.000 description 1
- MVMXJBMAGBRAHD-UHFFFAOYSA-N N-(2-piperidin-1-ylethyl)-N-(pyridin-2-ylmethyl)aniline Chemical compound C=1C=CC=NC=1CN(C=1C=CC=CC=1)CCN1CCCCC1 MVMXJBMAGBRAHD-UHFFFAOYSA-N 0.000 description 1
- 108020005203 Oxidases Proteins 0.000 description 1
- XPPKVPWEQAFLFU-UHFFFAOYSA-J Pyrophosphate Chemical compound [O-]P([O-])(=O)OP([O-])([O-])=O XPPKVPWEQAFLFU-UHFFFAOYSA-J 0.000 description 1
- 229910006124 SOCl2 Inorganic materials 0.000 description 1
- 125000002777 acetyl group Chemical group [H]C([H])([H])C(*)=O 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive Effects 0.000 description 1
- 150000001335 aliphatic alkanes Chemical class 0.000 description 1
- 102000004965 antibodies Human genes 0.000 description 1
- 108090001123 antibodies Proteins 0.000 description 1
- 230000033590 base-excision repair Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000001369 bisulfite sequencing Methods 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 125000004432 carbon atoms Chemical group C* 0.000 description 1
- 239000007810 chemical reaction solvent Substances 0.000 description 1
- VEXZGXHMUGYJMC-UHFFFAOYSA-M chloride anion Chemical compound [Cl-] VEXZGXHMUGYJMC-UHFFFAOYSA-M 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 108010087236 cobra venom endonuclease Proteins 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- ZPWOOKQUDFIEIX-UHFFFAOYSA-N cyclooctyne Chemical compound C1CCCC#CCC1 ZPWOOKQUDFIEIX-UHFFFAOYSA-N 0.000 description 1
- SUYVUBYJARFZHO-RRKCRQDMSA-J dATP(4-) Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@H]1C[C@H](O)[C@@H](COP([O-])(=O)OP([O-])(=O)OP([O-])([O-])=O)O1 SUYVUBYJARFZHO-RRKCRQDMSA-J 0.000 description 1
- NHVNXKFIZYSCEB-XLPZGREQSA-N dTTP Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)[C@@H](O)C1 NHVNXKFIZYSCEB-XLPZGREQSA-N 0.000 description 1
- 125000002704 decyl group Chemical group [H]C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])* 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000011180 diphosphates Nutrition 0.000 description 1
- 230000004049 epigenetic modification Effects 0.000 description 1
- KQWWVLVLVYYYDT-UHFFFAOYSA-N ethyl 3-oxohexanoate Chemical compound CCCC(=O)CC(=O)OCC KQWWVLVLVYYYDT-UHFFFAOYSA-N 0.000 description 1
- 125000004494 ethyl ester group Chemical group 0.000 description 1
- SHZIWNPUGXLXDT-UHFFFAOYSA-N ethyl hexanoate Chemical compound CCCCCC(=O)OCC SHZIWNPUGXLXDT-UHFFFAOYSA-N 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 238000001215 fluorescent labelling Methods 0.000 description 1
- 238000005755 formation reaction Methods 0.000 description 1
- 239000003292 glue Substances 0.000 description 1
- 238000000227 grinding Methods 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 229910000041 hydrogen chloride Inorganic materials 0.000 description 1
- 230000003053 immunization Effects 0.000 description 1
- 238000002649 immunization Methods 0.000 description 1
- 238000001114 immunoprecipitation Methods 0.000 description 1
- 230000000977 initiatory Effects 0.000 description 1
- 229910052809 inorganic oxide Inorganic materials 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 150000004702 methyl esters Chemical class 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 239000003147 molecular marker Substances 0.000 description 1
- 230000000869 mutational Effects 0.000 description 1
- 230000000269 nucleophilic Effects 0.000 description 1
- 238000006384 oligomerization reaction Methods 0.000 description 1
- 230000003287 optical Effects 0.000 description 1
- 150000002923 oximes Chemical class 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 125000001997 phenyl group Chemical group [H]C1=C([H])C([H])=C(*)C([H])=C1[H] 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- ZLMJMSJWJFRBEC-UHFFFAOYSA-N potassium Chemical compound [K] ZLMJMSJWJFRBEC-UHFFFAOYSA-N 0.000 description 1
- 229910052700 potassium Inorganic materials 0.000 description 1
- 239000011591 potassium Substances 0.000 description 1
- 239000011535 reaction buffer Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 125000002652 ribonucleotide group Chemical group 0.000 description 1
- 239000012488 sample solution Substances 0.000 description 1
- 238000007086 side reaction Methods 0.000 description 1
- KEAYESYHFKHZAL-UHFFFAOYSA-N sodium Chemical compound [Na] KEAYESYHFKHZAL-UHFFFAOYSA-N 0.000 description 1
- 229910052708 sodium Inorganic materials 0.000 description 1
- 239000011734 sodium Substances 0.000 description 1
- PXIPVTKHYLBLMZ-UHFFFAOYSA-N sodium azide Substances [Na+].[N-]=[N+]=[N-] PXIPVTKHYLBLMZ-UHFFFAOYSA-N 0.000 description 1
- YOQDYZUWIQVZSF-UHFFFAOYSA-N sodium borohydride Substances [BH4-].[Na+] YOQDYZUWIQVZSF-UHFFFAOYSA-N 0.000 description 1
- 229910000033 sodium borohydride Inorganic materials 0.000 description 1
- 239000007790 solid phase Substances 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 238000010025 steaming Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- FYSNRJHAOHDILO-UHFFFAOYSA-N thionyl chloride Substances ClS(Cl)=O FYSNRJHAOHDILO-UHFFFAOYSA-N 0.000 description 1
- 230000005026 transcription initiation Effects 0.000 description 1
- 230000001131 transforming Effects 0.000 description 1
- 238000007039 two-step reaction Methods 0.000 description 1
- 239000001993 wax Substances 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Abstract
本发明涉及5‑醛基胞嘧啶特异性化学标记方法及在测序、检测、成像及诊疗等方面的相关应用。该方法是利用含有侧链活性基团的活泼亚甲基化合物中的活泼亚甲基与5‑醛基胞嘧啶或其1号位取代的衍生物中的醛基发生缩合反应,同时使其侧链活性基团与胞嘧啶4号位氨基发生分子内反应实现关环。利用本发明的5‑醛基胞嘧啶特异性化学标记方法及相关化合物,可实现检测核酸分子中5‑醛基胞嘧啶的含量,特异性富集含5‑醛基胞嘧啶的核酸样品,分析核酸分子中5‑醛基胞嘧啶的序列分布信息和/或单碱基分辨率序列信息等。本发明为表观遗传学及核酸化学生物学研究领域提供了多个有效的研究方法。
Description
技术领域
本发明涉及一种表观遗传修饰碱基的化学标记与检测方法、相关化合物的化学合成,以及反应方法和化合物的相关应用,尤其是涉及一种特异性化学标记5-醛基胞嘧啶或其1号位取代的衍生物的方法以及该方法所涉及的化合物在标记、检测、测序、成像和诊疗等方面的应用。
背景技术
在表观遗传学领域,DNA甲基化与去甲基化研究是最为重要的内容之一。基因调控区的高度甲基化通常导致下游基因的沉默,而去甲基化过程则通常伴随着下游基因的表达激活,从而参与相应的生物学过程。在哺乳动物中,DNA去甲基化过程通过TET(Ten-ElevenTranslocation)家族蛋白的氧化,逐步产生5-羟甲基胞嘧啶(5-hydroxymethylcytosine,5hmC)、5-醛基胞嘧啶(5-formylcytosine,5fC)和5-羧基胞嘧啶(5-carboxylcytosine,5caC),并通过碱基切除修复通路实现DNA的去甲基化过程(Mamta Tahiliani,et al.,Science,2009,324:931-935;Skirmantas Kriaucionis and Nathaniel Heintz,Science,2009,324:929-930;Toni Pfaffeneder,et al.,Angewandte Chemie InternationalEdition,2011,123:7146–7150;Shinsuke Ito,et al.,Science,2011,333:1300-1303;Yufei He,et al.,Science,2011,333:1303-1307.)。
研究此类表观遗传碱基生物学功能的一个重要前提是了解其在基因组中的分布区域和具体序列信息。亚硫酸氢钠测序方法(Bisulfite Sequencing)已经是DNA甲基化分析的成熟方法,可以鉴定出单碱基分辨率的5mC序列信息。亚硫酸氢钠处理,使普通的胞嘧啶C转变为尿嘧啶,通过聚合酶链式反应(Polymerase Chain Reaction,PCR)扩增并测序读取为T;而5mC由于5号位供电子效应的甲基存在,使得亚硫酸氢钠处理过程难以发生,因而在PCR扩增和测序过程中仍旧读取为C。
5hmC、5fC及5caC作为能稳定存在于基因组中的修饰碱基,也可能存在特有的生物学功能,因此确定这三种胞嘧啶衍生物的基因组分布是探索其功能的重要信息。但5hmC、5fC及5caC的出现使得亚硫酸氢钠测序变得更为复杂。正常亚硫酸氢钠测序过程中,5hmC读取为C,而5fC和5caC均读取为T(Michael J.Booth,et al.,Science,2012,336:934-937.),因而需要发展新的单碱基分辨率测序技术以鉴定这些新修饰碱基的位置。伴随着5hmC检测技术和测序手段的发展(Chunxiao Song,et al.,Cell,2011,153:678–691;AdamB.Robertson,et al.,Nucleic Acids Research,2011,39:e55;William A.Pastor,etal.,Nature,2011,473:394-397;Chunxiao Song,et al.,Nature Methods,2012,9:75-77;Michael J.Booth,et al.,Science,2012,336:934-937;Miao Yu,et al.,Cell,2012,149:1368–1380.),对5hmC的生物学功能已经有了一定的了解;5fC和5caC相应的检测方法虽然也有探索(Eun-Ang Raiber,et al.,Genome Biology,2012,13:R69;Li Shen,et al.,Cell,2013,153:692–706;Chunxiao Song,et al.,Cell,2013,153:678–691;MichaelJ.Booth,et al.,Nature Chemistry,2014,6:435-440.),但要实现高通量、单碱基分辨率同时又以较低成本地检测序列分布状况还并未成熟,因而对后两者的探索还相对滞后。
目前针对5-醛基胞嘧啶相关化学反应的研究主要着眼于胞嘧啶环上5号位醛基。基于醛基能够与羟胺化合物的氨基反应生成肟,研究人员设计了针对5fC醛基的反应(Shinsuke Ito,et al.,Science,2011,333:1300-1303;Eun-Ang Raiber,et al.,GenomeBiology,2012,13:R69;Chunxiao Song,et al.,Cell,2013,153:678–691.),并将其应用于检测基因组中5fC的位置;利用醛基与氨基的反应发展了荧光基团标记5fC的方法(JianlinHu,et al.,Chemistry-A European Journal,2013,19:5836-5840.);利用NaBH4将醛基还原为羟甲基从而使5fC还原为5hmC,并在亚硫酸氢钠测序过程中5fC位点转变读取为C,也可在特定区域鉴定出5fC碱基的位置(Chunxiao Song,et al.,Cell,2013,153:678–691;Michael J.Booth,et al.,Nature Chemistry,2014,6:435-440.)。这些方法作为早期的5fC检测方法,对5fC碱基的研究起到了推进作用。但这些方法存在背景高、成本高、操作过程复杂、单碱基分辨率测序困难等多种缺陷。因此,需要发展一种新的高选择性、高效的5fC标记和检测方法,这对进一步推进表观遗传去甲基化研究具有积极的作用。
发明内容
本发明的目的在于,为了克服现有技术中存在的不足,提供了特异性化学标记5-醛基胞嘧啶或其1号位取代的衍生物的方法,该方法包括如下步骤:
将含有侧链活性基团的活泼亚甲基化合物与5-醛基胞嘧啶或其1号位取代的衍生物进行反应。其中所述含有侧链活性基团的活泼亚甲基化合物与所述5-醛基胞嘧啶或其1号位取代的衍生物中的胞嘧啶5号位醛基发生脱水缩合反应;同时,所述活泼亚甲基化合物中的侧链活性基团与所述5-醛基胞嘧啶或其1号位取代的衍生物中的胞嘧啶4号位氨基发生分子内反应实现关环。
为了清晰地描述本发明所涉及的内容,以下展示5-醛基胞嘧啶、5-醛基胞嘧啶的1号位氢原子取代衍生物、5-醛基胞嘧啶脱氧核糖核苷以及5-醛基胞嘧啶核糖核苷的结构式。
为方便阐述,如无特殊说明,后文所有“5-醛基胞嘧啶”或“5fC”均指5-醛基胞嘧啶或其1号位的所有相关取代衍生物。其中,5-醛基胞嘧啶1号位取代衍生物可以选自核苷或脱氧核苷、核苷酸或脱氧核苷酸、核糖核酸(RNA,单链或双链)或脱氧核糖核酸(DNA,单链或双链)中以糖苷键与5-醛基胞嘧啶1号位键合的相关小分子化合物或聚合大分子化合物(相应取代基R表示分子内除5-醛基胞嘧啶外的其他结构),分别构成5-醛基胞嘧啶核糖核苷或5-醛基胞嘧啶脱氧核糖核苷、5-醛基胞嘧啶核糖核苷酸或5-醛基胞嘧啶脱氧核糖核苷酸、含5-醛基胞嘧啶碱基的RNA或含5-醛基胞嘧啶碱基的DNA。除上述含核糖基或脱氧核糖基的衍生物外,5-醛基胞嘧啶1号位取代衍生物的取代基R也可代表烃基、或带-OH、-NH2、-CHO和/或-COOH等功能性取代基团的烃基。所述烃基可以是烷基、环烷基、烯基或炔基,优选为C1~C30的直链或支链烷基、C1~C30的直链或支链烯基或C1~C30的直链或支链炔基,更优选C1~C10的直链或支链烷基、C1~C10的直链或支链烯基或C1~C10的直链或支链炔基。所述取代基R例如但不仅限于:-CH3、-CH2CH3、-CHO、-CH2CHO、等。
以下为本发明方法的化学反应通式:
上述反应通式中:
反应原料之一为上述5-醛基胞嘧啶或5-醛基胞嘧啶1号位取代衍生物,可以选自核苷或脱氧核苷、核苷酸或脱氧核苷酸、核糖核酸(RNA,单链或双链)或脱氧核糖核酸(DNA,单链或双链)中以糖苷键与5-醛基胞嘧啶1号位键合的相关小分子化合物或聚合大分子化合物(其中相应取代基R表示分子内除5-醛基胞嘧啶外的其他结构),分别构成5-醛基胞嘧啶核糖核苷或5-醛基胞嘧啶脱氧核糖核苷、5-醛基胞嘧啶核糖核苷酸或5-醛基胞嘧啶脱氧核糖核苷酸、含5-醛基胞嘧啶碱基的RNA或含5-醛基胞嘧啶碱基的DNA。此外,5-醛基胞嘧啶1号位取代衍生物的取代基R也可代表烃基、或带-OH、-NH2、-CHO和/或-COOH等功能性取代基团的烃基。所述烃基可以是烷基、环烷基、烯基或炔基,优选为C1~C30的直链或支链烷基、C1~C30的直链或支链烯基或C1~C30的直链或支链炔基,更优选C1~C10的直链或支链烷基、C1~C10的直链或支链烯基或C1~C10的直链或支链炔基。所述取代基R例如但不仅限于:-CH3、-CH2CH3、-CHO、-CH2CHO、等。
产物中取代基R不受影响,其可选范围与原料相同。
在含有侧链活性基团的活泼亚甲基化合物中,R1可选自任意吸电子基团,优选为,但不仅限于,氰基、硝基、醛基、羰基化合物羧酸及其衍生物等;R1最优选为氰基、醛基、羰基化合物及酯类化合物
R2可选自任意吸电子基团,优选为,但不仅限于,氰基、醛基、羰基化合物羧酸及其衍生物等;R2最优选为氰基、醛基、羰基化合物及酯类化合物
上述R3代表烃基或带-OH、-NH2、-CHO、-COOH和/或叠氮基团、生物素等功能性取代基团的烃基;其中所述烃基优选为,但不仅限于,C1-C30的直链或带支链的烷基、烯基或炔基,最优选为C1-C30的直链烷基。
上述R1及R2基团侧链也可直接键合成环,或通过C、N、O等原子间接键合成环。
本发明所涉及的标记方法及相关化合物的设计考虑了5fC碱基胞嘧啶环5号位的醛基以及4号位的氨基,将两者统一考虑而发展了新的5fC标记方法。利用活泼亚甲基与醛基发生缩合反应,再使活泼亚甲基化合物的侧链活性基团R2中的活性基团(醛基、羰基、氰基、酯键等)与4号位氨基发生分子内反应实现关环。基于这一思路,发展了本发明中与5-醛基胞嘧啶选择性反应的标记方法,并开发了一系列相关方法及化合物的应用,为核酸化学的研究及表观遗传学的研究提供了多个有效的研究手段。
在本发明的一方面,含有侧链活性基团的活泼亚甲基化合物为如下通式所示的化合物i,该化合物i与5-醛基胞嘧啶或其1号位取代的衍生物一步反应合成如下通式所示的化合物I:
上述化学反应式中:
反应原料之一为5-醛基胞嘧啶或5-醛基胞嘧啶1号位取代衍生物,取代衍生物及取代基R的可选范围如前文所述通式;产物中取代基R不受影响,其可选范围与原料相同。
化合物i的侧链活性基团R1可选自任意吸电子基团,如前所述。
R4代表烃基或带-OH、-NH2、-CHO和/或-COOH等功能性取代基团的烃基;所述烃基优选为,但不仅限于,C1-C30的直链或带支链的烷基、烯基或炔基,最优选为C1-C10的直链或支链烷基。
在一些具体实施例中,利用化合物i与5-醛基胞嘧啶为原料合成式I化合物的反应条件可以为碱性有机溶液,优选可为碳酸钾或氢氧化钠甲醇溶液;反应温度为室温至50℃,优选为37℃;反应时间为12-48小时,优选为24h。反应产率可达95%以上。反应中,R1基团与羰基之间的活泼亚甲基在碱性条件下亲核进攻5fC碱基的5号位醛基的碳原子,并脱水缩合成烯键;再分子内反应,胞嘧啶环4号位氨基进攻化合物i中酯键,脱去侧链为R4的醇类化合物并成环形成酰胺。
在一具体实施例中,R1为乙酰基,R4为甲基或乙基,即化合物i为乙酰乙酸甲酯或乙酰乙酸乙酯;在又一具体实施例中,R1为酰基乙酯,R4为乙基,即化合物i为丙二酸二乙酯;在另一实施例中,R1为4-叠氮丁酰基,R4为乙基,即化合物i为6-叠氮-3-氧代己酰乙酯。
以上实施例中的化合物均被证明可用于“5fC环保护亚硫酸氢钠测序技术”,并可实现单碱基分辨率鉴定5fC碱基在核酸序列中的位置。
在本发明的第二方面,上述含有侧链活性基团的活泼亚甲基化合物为如通式ii所示的化合物ii,该化合物ii与5-醛基胞嘧啶或其1号位取代的衍生物一步反应合成如下通式所示的化合物II:
上述化学反应式中:
反应原料之一为5-醛基胞嘧啶或5-醛基胞嘧啶1号位取代衍生物,取代衍生物及取代基R的可选范围如前文所述通式;产物中取代基R不受影响,其可选范围与原料相同。
R1可选自任意吸电子基团,可选范围与前文一致。
在一些具体实施例中,利用化合物ii与5-醛基胞嘧啶为原料合成式II化合物的反应条件可为酸性到中性水溶液,优选可为弱酸性水溶液,最优选为pH 5-7的弱酸性水溶液;反应温度为室温至50℃,优选为37℃;反应时间为12-48小时,优选为24h。反应产率可达98%以上。反应中,R1基团与氰基之间的活泼亚甲基进攻5fC碱基的5号位醛基,脱水缩合成烯键;再分子内反应,胞嘧啶环氨基进攻化合物ii中的氰基碳原子,加成反应成环。
在一具体实施例中,R1也为氰基,即化合物ii为丙二腈。
在此具体实施例中,丙二腈与5fC的反应产物在PCR中读取为胸腺嘧啶T,可以用于“成环促进5fC-T转换测序技术”,直接检测基因组中5fC碱基的位置。
在本发明的第三方面,上述含有侧链活性基团的活泼亚甲基化合物为如通式iii所示的化合物iii,所述化合物iii与5-醛基胞嘧啶或其1号位取代的衍生物一步反应合成如通式III所示的化合物III:
上述化学反应式中:
反应原料之一为5-醛基胞嘧啶或5-醛基胞嘧啶1号位取代衍生物,取代衍生物及取代基R的可选范围如前文所述通式;产物中取代基R不受影响,其可选范围与原料相同。
R5、R6、R7和R8可各自独立地选自氢原子H或烃基,或带-OH、-O-、-NH2、-NH-、-CHO、-COOH和/或叠氮基团、生物素等功能性取代基团的烃基;R5、R6、R7和R8也可各自独立地选自-OH、-NH2、-CHO、-COOH、-CN、-NO2、叠氮基团等。其中所述烃基优选为C1-C30的直链或带支链的烷基、烯基或炔基;最优选为C1-C10的直链烷基。
在一些具体实施例中,利用化合物iii与5-醛基胞嘧啶为原料合成化合物III的反应条件可为碱性有机溶液,优选可为碳酸钾或氢氧化钠甲醇溶液;反应温度为室温至50℃,优选为37℃;反应时间为12-48小时,优选为24h。反应也可在酸性到中性水溶液,优选可为弱酸性水溶液,最优选为pH 5-7的弱酸性水溶液;反应温度为室温至50℃,优选为37℃;反应时间为12-48小时,优选为24h。反应产率可达95%以上。反应中,化合物iii中五元环邻二羰基活泼亚甲基与5fC碱基的5号位醛基脱水缩合;再分子内反应,胞嘧啶环氨基进攻iii中的羰基,脱水缩合、成环,从而形成共轭四环化合物III。
在一具体实施例中,化合物iii为1,3茚满二酮。
在一类优选例中,上述原料化合物iii可为如通式iv所示的化合物iii的衍生物iv:
式iv中:
X构成连接序列以引出功能性基团Y,其中:
X是构成连接序列的基本单元,X可以是C1-C5的直链或支链烃基、或带醚键-O-和/或亚氨基-NH-的C1-C5的直链或支链烃基;X优选为-CH2-、-O-CH2-CH2-、-CH2-O-CH2-或-CH2-CH2-O-。所构成的(X)n连接序列可以是上述任意多种X基本结构单元以任意比例和顺序的混合;
n可为大于或等于1的正整数;
Y是特殊功能性基团,可选自生物素、叠氮基团、炔基或炔基衍生物,所述炔基优选为C2-C20炔基,所述炔基衍生物优选为C2-C20范围内的任意炔基衍生物;Y更优选为生物素、叠氮基团、乙炔基或环辛炔。
在一些实施例中,X可以是-CH2-,n可为1至9的正整数,Y可以是叠氮基。
在一具体实施例中,化合物iv为5-(2-叠氮乙基)-1,3-茚满二酮(5-(2-azidoethyl)-1,3-indanedione,简称Azido Indanedione,即AI),X取亚甲基-CH2-,2个单元串联(即n=2),Y为叠氮基。
上述式iii或式iv化合物与5fC碱基的反应产物均可在PCR反应中读取为胸腺嘧啶T,可以直接检测到基因组中5fC碱基的位置。
本发明的另一目的在于提供了与上述特异性5-醛基胞嘧啶的化学标记方法相关的如下新型化合物:
(一)一种化合物,通式如式I所示:
式I中,将除R之外的其他结构称为碱基类似物,R与该碱基类似物的1号位键合,则R可以是核糖基或脱氧核糖基、5’或3’磷酸修饰的核糖基或脱氧核糖基,也可以是核糖核酸(RNA,单链或双链)或脱氧核糖核酸(DNA,单链或双链)以糖苷键与式I碱基类似物1号位键合的相关小分子化合物或聚合大分子化合物中除式I碱基类似物外的其他结构。R还可代表氢、烃基、或带-OH、-NH2、-CHO和/或-COOH等功能性取代基团的烃基;优选为,但不仅限于,C1-C30的直链或带支链的烷基、烯基或炔基,或带-OH、-NH2、-CHO和/或-COOH等功能性取代基团的C1-C30的直链或带支链的烷基、烯基或炔基;最优选为-CH3、-CH2CH3、-CHO、-CH2CHO、等。
R1可选自任意吸电子基团,优选为,但不仅限于,氰基、硝基、醛基、羰基化合物羧酸及其衍生物等;R1最优选为氰基、醛基、羰基化合物及酯类化合物
上述R3代表烃基或带-OH、-NH2、-CHO、-COOH和/或叠氮基团等功能性取代基团的烃基;其中所述烃基优选为,但不仅限于,C1-C30的直链或带支链的烷基、烯基或炔基,最优选为C1-C30的直链烷基。
(二)一种化合物,通式如式II所示:
式II中,R的可选范围同上述式I中R的可选范围;R1的可选范围同上述式I中R1的可选范围。
(三)一种化合物,通式如式III所示:
式III中,R的可选范围同上述式I中R的可选范围。R5、R6、R7和R8可各自独立地选自氢原子H或烃基,或带-OH、-O-、-NH2、-NH-、-CHO、-COOH和/或叠氮基团、生物素等功能性取代基团的烃基;R5、R6、R7和R8也可各自独立地选自-OH、-NH2、-CHO、-COOH、-CN、-NO2、叠氮基团等;其中所述烃基优选为C1-C30的直链或带支链的烷基、烯基或炔基;最优选为C1-C10的直链烷基。
上述新型的化合物,可直接由前文所述特异性化学标记5-醛基胞嘧啶或其1号位取代的衍生物的方法获得;也可由其他有机合成方法获得。
本发明的又一目的在于提供多种利用本发明的特异性化学标记5-醛基胞嘧啶或其1号位取代的衍生物的方法在标记、测序、检测、成像及诊疗等方面的应用。具体应用如下:
本发明中利用含有侧链活性基团的活泼亚甲基化合物实现特异性化学标记5-醛基胞嘧啶或其1号位取代的衍生物的方法或上述含有侧链活性基团的活泼亚甲基化合物在:
(1)在测序分析基因组中5-醛基胞嘧啶的序列分布信息和/或单碱基分辨率序列信息中的应用;
(2)在单碱基分辨率测序检测核酸分子中5-醛基胞嘧啶序列位置中的应用;
(3)在检测5-醛基胞嘧啶或其1号位取代的衍生物的含量中的应用;
(4)在对含5-醛基胞嘧啶碱基的DNA或RNA分子进行直接或间接富集中的应用;
(5)在设计用于制备检测基因组DNA样品中5-醛基胞嘧啶碱基的分布信息和/或单碱基分辨率序列信息的试剂盒中的应用;
(6)在影响核酸结合蛋白的识别和结合能力或酶学活性中的应用;该核酸结合蛋白包含核酸聚合酶和/或限制性内切酶;
(7)在5-醛基胞嘧啶相关的分子诊断相关方面的应用。
上述含有侧链活性基团的活泼亚甲基化合物主要指前文涉及到的i、ii、iii、iv四类化合物(即上述化合物i、ii、iii、iv)。
上述基因组DNA样品或RNA样品可来源于细胞培养物、动物组织、动物血液、甲醛固定组织、石蜡包被组织,以及微量样本如胚胎早期发育样品、单细胞等。
本发明的又一目的在于提供多种5-醛基胞嘧啶相关的共轭多环化合物在标记、测序、检测、成像、诊疗等方面的应用。具体应用如下:
(1)在核酸测序中的应用;
(2)在测序检测核酸分子中5-醛基胞嘧啶的序列分布信息和/或单碱基分辨率序列信息中的应用;
(3)在荧光光谱分析5-醛基胞嘧啶的含量中的应用;
(4)在5-醛基胞嘧啶的体内或体外成像技术中的应用;
(5)在特异性标记核酸序列中的应用;
(6)在检测5-醛基胞嘧啶或其1号位取代衍生物的含量中的应用;
(7)在对含5-醛基胞嘧啶碱基的分子进行直接或间接富集中的应用;
(8)在研究核酸-蛋白相互作用、核酸-核酸相互作用等方面的应用;
(9)在核酸修饰相关的分子诊断相关方面的应用。
上述5-醛基胞嘧啶相关的共轭多环化合物指前文涉及到的I、II、III三类化合物。
上述5-醛基胞嘧啶相关的共轭多环化合物的应用包括直接利用现有的共轭多环化合物进行操作,也包括利用前文所述利用5-醛基胞嘧啶和/或其1号位取代衍生物与化合物i、ii、iii、iv反应从而间接生成。
本发明的又一目的在于提供多种用于检测5-醛基胞嘧啶碱基的试剂盒,包含上述含有侧链活性基团的活泼亚甲基化合物(如化合物i、ii、iii或iv)及相应反应溶剂。
在一具体实施例中上述试剂盒可用于实现单碱基分辨率分析基因组中5-醛基胞嘧啶的分布信息和/或单碱基分辨率序列信息。
本发明的又一目的在于提供检测和测序分析其他修饰胞嘧啶碱基的方法,包括5-甲基胞嘧啶(5mC)、5-羟甲基胞嘧啶(5hmC)及5-羧基胞嘧啶(5caC)。检测及测序分析其他修饰胞嘧啶碱基的方法均基于上述5-醛基胞嘧啶的各类方法。基于已经公开的转变方法,可以实现将其他修饰胞嘧啶转变为5-醛基胞嘧啶,从而利用5-醛基胞嘧啶的相应方法实现检测和测序分析目标修饰胞嘧啶。如5mC可以被一种特殊筛选的氧化酶CcTET1氧化停留在5fC的阶段(Liang Zhang,et al,Journal of American Chemical Society,2014,136:4801-4804.);5hmC可以特异性被无机氧化物高钌酸钾(KRuO4)氧化为5fC(Michael J.Booth,etal.,Science,2012,336:934-937.);通过还原5-羧基胞嘧啶到5-醛基胞嘧啶,理论上也可实现5-羧基胞嘧啶的检测和测序分析。
本发明所涉及的标记方法及相关化合物的设计考虑了5fC碱基胞嘧啶环5号位的醛基以及邻位4号位的氨基,将两者统一考虑而发展了新的5fC标记方法,从而提高反应的选择性,并开发了一系列相关方法及化合物的应用,为核酸化学的研究及表观遗传学的研究提供了多个有效的研究手段。
进一步地,本发明利用特殊筛选的活泼亚甲基化合物与5-醛基胞嘧啶或其1号位取代衍生物反应,结合核酸(DNA或RNA)序列测序技术、荧光光谱分析等技术,可建立特异性标记、特异性富集5-醛基胞嘧啶或其1号位取代衍生物的方法,以及全基因组单碱基分辨率分析5-醛基胞嘧啶的测序方法;结合已公开的方法,本发明还可应用于检测和测序分析其他修饰的胞嘧啶碱基,如5-甲基胞嘧啶、5-羟甲基胞嘧啶及5-羧基胞嘧啶。此外,本发明所涉及的化合物在荧光标记、测序及细胞内成像检测等方面也具有良好的应用价值。
通过本发明的方法,克服了现有技术存在的缺陷,如高背景、不易实现单碱基分辨率测序、成本高等,可实现高选择性、特异性、高效且低成本地标记5-醛基胞嘧啶或其1号位取代衍生物。
本发明提供的检测5-醛基胞嘧啶碱基的试剂盒,可简便快捷地进行全基因组分析5-醛基胞嘧啶的分布信息、并实现单碱基分辨率测序分析5-醛基胞嘧啶的全基因组序列信息,并使得低成本的商业化检测5fC碱基成为可能。
此外,本发明提供了化合物I、II和III,即5fC胞嘧啶环衍生出的共轭多环(环数≥2)化合物。这些化合物具有良好的荧光,因而还可应用于核酸相关的研究。
附图说明
图1是实施例1中5’-AGA TC5fG TAT-3’9碱基DNA及其与化合物i、ii、iii的5个代表物反应后的质谱结果图。
图2是实施例1中用丙二腈与5种胞嘧啶9碱基DNA序列反应前后的质谱结果图,显示本发明反应的选择性。
图3A和3B显示实施例2中利用i类化合物丙二酸二乙酯实现“5fC成环保护亚硫酸氢钠测序”,其中5fC*代表5fC反应后产物。
图4是利用化合物AI进行特异性富集含有5fC碱基核酸的流程图。
图5是实施例3中利用化合物AI进行特异性富集流程(左)及MALDI-TOF检测图谱(右)。
图6显示了实施例3中利用化合物AI富集含5fC碱基DNA的效果。
图7是利用6-叠氮-3-氧代己酸乙酯进行特异性富集含有5fC碱基核酸的流程图。
图8A和8B分别是实施例4中化合物AI反应前后的测序结果,显示了利用化合物AI实现“成环促进5fC-T转换测序技术”,其中5fC*代表5fC反应后产物。
图9A和9B分别是实施例5中丙二腈反应前后的测序结果,显示了利用ii类化合物丙二睛实现“成环促进5fC-T转换测序技术”,其中5fC*代表5fC反应后产物。
图10显示了实施例6中利用Thermo Nanodrop微量紫外分光光度计显示的5-AGATC5fGTAT-3 9碱基DNA分别与四种化合物丙二腈(A)、1,3-茚满二酮(B)、乙酰乙酸乙酯(C)和丙二酸二乙酯(D)反应所产生的新紫外吸收峰。
图11显示了实施例6中5fC碱基与丙二腈反应产生的荧光激活效果。
图12A显示了实施例6中Oligo NO.1与丙二腈反应产物在不同浓度下的荧光净增加值,图中各曲线代表的反应产物浓度由下至上依次是10nM、50nM、100nM、200nM、500nM和1000nM;图12B是反应产物荧光强度净增加值与其浓度的线性关系图。
图13显示了实施例7中TaqαI不可消化化合物AI反应后的双链DNA序列。
图14显示了实施例7中利用化合物AI富集小鼠胚胎干细胞基因组DNA的5fC分布区域。
图15显示了实施例7中利用基于化合物AI的“成环促进5fC-T转换测序技术”展示小鼠胚胎干细胞基因组DNA的5fC单碱基分辨率位置的代表区域。
图16展示“5fC成环保护亚硫酸氢钠测序”和“成环促进5fC-T转换测序技术”及常规测序、亚硫酸氢钠测序的测序读取结果对比。
具体实施方式
以下将就本发明所涉及的新型化合物、合成方法及反应条件、化合物和方法的相关应用作详细描述,以便清晰地描述本发明所涉及的内容。
本发明所涉及的5-醛基胞嘧啶相关的共轭多环化合物的应用。
凡具有前文说明的化合物I、II、III三种类型结构的共轭多环化合物均可适用于本发明专利。化合物I、II、III三类新结构化合物的合成不局限于本发明所涉及的合成方法,不论其合成方法差异,均适用于本发明对此三类化合物的权利要求。
利用本发明提供的三类化合物的结构可以应用于核酸相关的研究。本发明的三类化合物在特定激发光条件下具有荧光产生,因而可以作为一大类新的荧光碱基,应用于研究核酸碱基构象的动力学问题、其他分子(如蛋白)与核酸的相互作用、核酸-核酸相互作用、核酸所处的化学环境等研究领域。同时,本发明所提供的三类荧光碱基可从5fC碱基引入,使用时可先利用5fC碱基相应的亚磷酰胺单体代替目标荧光碱基以合成DNA,并在必要时再通过本发明涉及的反应引入。因而,此三类荧光碱基应用的可操作性强于市场上其他非天然荧光碱基。
本发明所涉及的5-醛基胞嘧啶特异性化学标记方法的相关应用。
1.特异性化学标记5fC
(1)直接标记5fC
利用本方法反应对5-醛基胞嘧啶进行直接标记。具体操作时,可利用本发明所涉及的化合物及反应条件与5-醛基胞嘧啶反应,使其变成一种新的胞嘧啶共轭多环衍生化合物,从而引入新的化学特性,如新的紫外吸收光谱以及荧光发射光谱。利用产物的新化学特征可指示5-醛基胞嘧啶,实现对5-醛基胞嘧啶的标记,为研究细胞内表观遗传动态变化提供了新的标记方法;也可利用反应产物I、II或III的特殊吸收光谱或荧光发射光谱来对未知核酸样品中5-醛基胞嘧啶碱基进行定量。
在本发明的一个具体实施例中,利用丙二腈与含5fC碱基的寡聚脱氧核苷酸链反应,并绘制浓度与荧光强度的工作曲线,可以显示很好的拟合度。通过测量位置样品中5fC反应产物的荧光强度,可以定量确定5fC碱基的浓度。
(2)间接标记5fC
利用本发明中带特殊功能性基团的活泼亚甲基化合物(即含有侧链活性基团的活泼亚甲基化合物)与5-醛基胞嘧啶反应,可以引入特殊功能性基团到5-醛基胞嘧啶实现间接标记。如荧光分子,并利用荧光分子的在特定激发光下的荧光发射光谱实现间接标记5-醛基胞嘧啶;另可引入叠氮基团或者炔基,并进一步利用点击化学(Click chemistry)的原理进行间接标记5-醛基胞嘧啶。
此处的点击化学主要指叠氮基团与炔基或炔基衍生物发生的[3+2]环加成反应。
2.改变5-醛基胞嘧啶相关酶学效果
利用本发明的方法中的反应还可改变5fC碱基的化学性质,即特异性标记DNA或RNA上5-醛基胞嘧啶,从而改变生物样品中5-醛基胞嘧啶的化学性质,从而影响核酸结合蛋白(如核酸聚合酶、限制性内切酶)的识别和结合含5fC碱基核酸的能力,可影响相关蛋白对核酸底物识别的活性。利用这一改变可能应用于特殊生物学研究中。
在一具体实施例中,利用化合物iv标记TaqαI限制性内切酶底物序列上的5fC碱基,从而影响TaqαI的酶切反应活性,使其不能切割化学反应修饰后的T/C5fGA序列。
上文所涉及的利用5fC的化学修饰改变酶处理效果,所使用的酶包括各类限制性内切酶,DNA聚合酶,可参考提供酶试剂的商业化公司有,例如但不限于:NEB,ThermoScientific,TAKARA,Promega,Agilent等。
3.5fC特异性富集
利用带特殊功能性基团的活泼亚甲基化合物(选自上述含有侧链活性基团的活泼亚甲基化合物i、ii、iii、iv范围内)与5-醛基胞嘧啶反应,引入特殊功能性基团到5-醛基胞嘧啶,并利用该特殊功能型基团的化学性质实现特异性富集包含5-醛基胞嘧啶碱基的核酸分子。如引入叠氮基团到活泼亚甲基化合物上,并利用带有生物素标记的炔基或炔基衍生物与之实现点击化学反应,从而间接将生物素标签引入到5-醛基胞嘧啶上;再利用链霉亲和素与生物素的特异性结合,从而实现筛选带有5-醛基胞嘧啶的核酸分子。反之,亦可引入炔基到活泼亚甲基化合物上,并利用带有生物素标签的叠氮分子与之发生点击化学反应,后可按相同方式实现富集。
在一具体实施例中,利用1,3-茚满二酮的叠氮衍生物——化合物AI特异性标记5fC并进一步利用Click反应使分子标记上生物素,进而利用生物素与链霉亲和素的特异性结合对5fC核酸分子进行富集。利用乙酰乙酸乙酯的叠氮衍生物6-叠氮-3-氧代己酸乙酯也可实现相同的效果。
4.检测5fC在基因组的分布信息
利用上述5fC特异性富集的方法,可以实现检测5fC碱基在基因组中的分布信息。通过特异性标记5fC碱基实现富集和纯化含有5fC碱基的基因组DNA片段,再通过测序并比对到相应基因组,可分析5-醛基胞嘧啶在基因组中的分布信息,如基因的调控区、转录起始区域、基因外显子及内含子区域、特征组蛋白修饰区域等。
上述基因组DNA样品可来源于细胞培养物、动物组织、动物血液、甲醛固定组织、石蜡包被组织,以及微量样本如胚胎早期发育样品、单细胞等。
5.5fC单碱基分辨率测序
利用本发明的方法,即利用含有侧链活性基团的活泼亚甲基与5fC的特异性反应可以应用于单碱基分辨率检测核酸样品序列上5fC的位置。
上述核酸样品主要指基因组DNA样品或RNA样品,可来源于细胞培养物、动物组织、动物血液、甲醛固定组织、石蜡包被组织,以及微量样本如胚胎早期发育样品、单细胞等。
任何利用本类反应进行5fC碱基测序的技术都可适用于本发明。
(1)5fC环保护亚硫酸氢钠测序技术
利用化合物i与5-醛基胞嘧啶反应,实现“5fC环保护亚硫酸氢钠测序技术”,其核心在于对化合物i反应前后的样品分别进行亚硫酸氢钠测序,反应前样品中5fC位点测序读成T,而反应后5fC碱基由于共轭结构的“保护”,使其能耐受亚硫酸氢钠处理,并在测序中读为C;对比两组测序结果,寻找T-C不匹配位点,可鉴定出5fC的单碱基分辨率序列信息。
上述亚硫酸氢钠测序指利用高浓度亚硫酸氢钠在弱酸性条件下处理核酸,使胞嘧啶(及其氧化产物5-醛基胞嘧啶、5-羧基胞嘧啶)发生水解反应,脱去4号位氨基,最终转变为尿嘧啶;而胞嘧啶的两种衍生物,5-甲基胞嘧啶5mC和5-羟甲基胞嘧啶5hmC则不会转变为尿嘧啶。在聚合酶链式反应(Polymerase Chain Reaction,PCR)扩增过程中,尿嘧啶U读成胸腺嘧啶T;剩下的5mC和5hmC均扩增成C。进一步测序可确定测序为C的位点是5mC或5hmC。
在一具体实施例中,化合物i选定为丙二酸二乙酯,反应前的序列中5fC碱基在亚硫酸氢钠测序中读取为T,反应后5fC产物在亚硫酸氢钠测序读取为C。
(2)成环促进5fC-T转换测序技术
利用化合物ii与5-醛基胞嘧啶反应,实现“成环促进5fC-T转换测序技术”,其核心在于对化合物ii反应前后的样品分别进行PCR扩增并测序,反应前的样品中5fC位点不受影响,测序读为胞嘧啶C;反应后样品的5fC位点在PCR过程中读为胸腺嘧啶T,因而测序结果也显示为T。对比两组测序结果,寻找C-T的突变位点,可鉴定出5fC的单碱基分辨率序列信息。
利用化合物iii与5-醛基胞嘧啶反应也可实现“成环促进5fC-T转换测序技术”。其流程与利用化合物ii相似,对化合物iii反应前后的样品分别进行PCR扩增并测序,反应前的样品读为C,而反应后的样品读为T,对比两组测序结果可鉴定出5fC的具体序列信息。
如前文(1)和(2)所涉及的两类测序方法,所涉及的具体商业化测序平台可选自如下任意平台:
1)第一代双脱氧碱基法测序,可利用商业化测序平台包括ABI公司一代测序平台系列仪器;
2)第二代高通量测序技术,可利用的商业化测序平台包括:Illumina公司系列测序平台(前Solexa),包括但不限于Miseq,Hiseq 2000,Hiseq2500,NextSeq 500,Hiseq X等;Roche公司(前454)焦磷酸测序法测序平台,如但不限于GS FLX;ABI公司的SOLiD测序平台,如但不限于SOLiD 5500;
3)第三代单分子测序技术,可利用商业话测序平台包括:Pacific Bioscience公司的SMRT测序平台,如但不限于SMRT RSII;Oxford Nanopore Technologies公司的纳米孔单分子测序平台,如MniION平台;Helicos Biosciences公司的HeliScope平台。
(3)基于5fC化学修饰的第三代单分子测序
利用化合物i、ii或iii对5fC碱基化学结构的修饰,并利用第三代单分子测序技术直接检测目标碱基,通过改变蛋白识别修饰后5fC碱基的化学性质,从而影响第三代单分子测序过程中蛋白结合碱基的动力学参数,使其区别于其他自然存在的碱基,从而直接鉴定出目标5fC碱基的位置。
此处第三代单分子测序平台可选自Pacific Bioscience公司的SMRT测序平台,或Oxford Nanopore Technologies公司的纳米孔单分子测序平台。利用SMRT测序平台时,化合物i、ii或iii对5fC碱基化学结构修饰后影响聚合酶的扩增效率,从而影响扩增的动力学参数,并鉴定出5fC的位置。利用纳米孔单分子测序平台时,化合物i、ii或iii对5fC碱基化学结构修饰后影响纳米孔道蛋白结合碱基的动力学参数,通过衡量这一动力学参数可以确定是否是修饰后的5fC碱基。
6.5-醛基胞嘧啶测序相关试剂盒
(1)“5fC环保护亚硫酸氢钠测序技术”相关试剂盒1
利用含叠氮基团的化合物i标记5-醛基胞嘧啶的反应方法,设计用于单碱基分辨率分析核酸样品中5-醛基胞嘧啶的序列信息的试剂盒1。基于6-叠氮-3-氧代己酸乙酯与5fC特异性反应,并利用点击化学反应引入生物素从而进行选择性富集;再结合亚硫酸氢钠测序技术对比6-叠氮-3-氧代己酸乙酯化合物处理前后的测序结果鉴定出5fC碱基的序列位置,实现“5fC环保护亚硫酸氢钠测序技术”。该试剂盒1主要包含如下四个模块:
模块1:5fC反应模块,包含试剂6-叠氮-3-氧代己酸乙酯,以及相应反应溶液。其用于与核酸样品中的5fC碱基反应,使其标记上叠氮基团。
模块2:选择性富集模块,包含与叠氮基团选择性反应的包含生物素修饰的试剂、特异性结合生物素的磁珠以及筛选缓冲液。
其用于与核酸样品中标记上的叠氮基团发生点击化学[3+2]环加成反应,使5fC碱基进一步标记上生物素;进一步利用生物素与磁珠上偶联的链霉亲和素结合,结合磁力架分离纯化含有5fC碱基的核酸样品片段。
模块3:亚硫酸氢钠处理模块,包含亚硫酸氢钠处理试剂及相关回收耗材。
其用于与富集的核酸样品片段反应,使普通胞嘧啶及剩余的5-羧基胞嘧啶脱氨水解变为尿嘧啶U。
模块4:专一性PCR扩增模块,包含针对5fC反应产物筛选的特殊DNA聚合酶及反应体系;
其用于扩增标记并亚硫酸氢钠处理后的核酸样品,以便进行高通量测序。
(2)“成环促进5fC-T转换测序技术”相关试剂盒2
利用含叠氮基团的化合物iv标记5-醛基胞嘧啶的反应方法,设计用于单碱基分辨率分析核酸样品中5-醛基胞嘧啶的序列信息的试剂盒2。在一实施例中,基于化合物AI与5fC特异性反应,并利用点击化学反应引入生物素从而进行选择性富集;PCR扩增化合物AI处理前后的样品并测序,对比测序结果可鉴定出5fC碱基的序列位置,实现“成环促进5fC-T转换测序技术”。试剂盒2主要包含如下三个模块:
模块1:5fC反应模块,包含试剂化合物AI(5-(2-叠氮乙基)-1,3-茚满二酮),以及相应反应溶液。
其用于与核酸样品中的5fC碱基反应,使其标记上叠氮基团。
模块2:选择性富集模块,包含与叠氮基团选择性反应的包含生物素修饰的试剂、特异性结合生物素的磁珠以及筛选缓冲液。
其用于与核酸样品中标记上的叠氮基团发生点击化学[3+2]环加成反应,使5fC碱基进一步标记上生物素;进一步利用生物素与磁珠上偶联的链霉亲和素结合,结合磁力架分离纯化含有5fC碱基的核酸样品片段。
模块3:专一性PCR扩增模块,包含针对5fC反应产物筛选的特殊DNA聚合酶及反应体系。
其用于扩增富集后的核酸样品,以便进行高通量测序。同时,PCR扩增过程中使原5fC位置读取为T,引入点突变,实现“成环促进5fC-T转换测序技术”。
(3)“成环促进5fC-T转换测序技术”相关试剂盒3
利用化合物ii或iii标记5-醛基胞嘧啶的反应方法,设计了用于单碱基分辨率分析核酸样品中5-醛基胞嘧啶的序列信息的试剂盒3。利用已发表的5-醛基胞嘧啶特异性抗体(Li Shen,et al.,Cell,2013,153:692–706)实现选择性富集,再利用丙二腈与5fC反应、PCR引出5fC-T的转变,对比扩增产物的测序结果可鉴定出5fC碱基的序列位置,从而实现“成环促进5fC-T转换测序技术”。试剂盒3主要包含如下三个模块:
模块1:5-醛基胞嘧啶免疫沉淀富集模块,包含5fC抗体及相应DNA免疫沉淀试验的反应缓冲液。
其用于直接富集包含5fC碱基的核酸样品片段。
模块2:5fC反应模块,包含试剂丙二腈(化合物ii)或1,3-茚满二酮(化合物iii),以及相应反应溶液。
其用于与富集后的核酸样品中的5fC碱基反应。
模块3:专一性PCR扩增模块,包含针对5fC反应产物筛选的特殊DNA聚合酶及反应体系。
其用于扩增富集并丙二腈处理后的核酸样品,以便进行高通量测序。同时,PCR扩增过程中使原5fC位置读取为T,引入点突变,实现“成环促进5fC-T转换测序技术”。
(4)基于5fC标记的单分子测序试剂盒4
利用叠氮基团标记的化合物i或iii类化合物(包含化合物iv)标记5-醛基胞嘧啶的反应方法,结合第三代单分子测序平台,设计用于单碱基分辨率分析核酸样品中5-醛基胞嘧啶的序列信息的试剂盒4。基于6-叠氮-3-氧代己酸乙酯或化合物AI的选择性富集含5fC碱基的DNA片段,进而利用第三代单分子实时检测的平台寻找含有特殊动力学参数的位置,鉴定出5fC修饰位置,实现单分子实时检测5fC碱基的序列信息。试剂盒4主要包含如下两个模块:
模块1:5fC反应模块,包含试剂6-叠氮-3-氧代己酸乙酯(化合物i)或化合物AI(5-(2-叠氮乙基)-1,3-茚满二酮,化合物iv),以及相应反应溶液;
其用于与核酸样品中的5fC碱基反应,使其标记上叠氮基团。
模块2:选择性富集模块,包含与叠氮基团选择性反应的包含生物素修饰的试剂、特异性结合生物素的磁珠以及筛选缓冲液;
其用于与基因组中标记上的叠氮基团发生点击化学[3+2]环加成反应,使5fC碱基进一步标记上生物素;进一步利用生物素与磁珠上偶联的链霉亲和素结合,结合磁力架分离纯化含有5fC碱基的核酸样品片段。
上述试剂盒1、2、3、4针对的核酸样品指基因组DNA样品或RNA样品,可来源于细胞培养物、动物组织、动物血液、甲醛固定组织、石蜡包被组织,以及微量样本如胚胎早期发育样品、单细胞等。
7.5fC标记方法及相关化合物在分子诊断反面的应用
利用上述5fC特异性富集的方法,及相关的含有特异性化学标记的活泼亚甲基化合物在涉及生物学样品中5-醛基胞嘧啶相关的分子诊断中的应用。细胞中产生5-醛基胞嘧啶的相关酶TET蛋白、切除5-醛基胞嘧啶的TDG等相关蛋白的活性及表达量的变化会影响基因组中5-醛基胞嘧啶的含量及序列分布。利用上述5-醛基胞嘧啶的相关标记、检测、测序相关的方法,检测生物学样品中的5-醛基胞嘧啶的含量及序列分布变化,可以对疾病诊断、病理变化及组织生理变化等相关病理学指标提供参考数据,有利于临床诊断。
以下通过8个具体实施例对本发明作进一步说明,目的在于更好地理解本发明所涉及的内容。但本发明所涉及的内容并不局限于下面所举实施例的限制。实施例中所用到的试剂、溶剂等,除特殊说明外,都是直接购买于商业公司。
本发明试验所涉及的DNA序列
实验所用带有修饰碱基的寡聚核苷酸链均是利用ABI EXPEDIATE核酸固相合成仪合成,合成所用亚磷酰胺单体购于美国Glen Research公司;实验所用仅含普通碱基的寡聚核苷酸链由上海生工生物工程股份有限公司合成。
实施例1:化合物I、II、III的代表化合物的合成
利用人工合成的含5fC碱基的9碱基寡聚核苷酸链OligoNO.1分别与三类化合物i、ii、iii的代表化合物i-1、ii-1、iii-1进行反应,生成I、II、III三类结构的代表产物化合物I-1、II-1、III-3。反应中,化合物i的代表化合物为乙酰乙酸乙酯或乙酰乙酸甲酯;化合物ii的代表化合物为丙二腈;化合物iii的代表化合物为1,3-茚满二酮。
具体反应路线如下:
化合物i-1为代表化合物乙酰乙酸乙酯或乙酰乙酸甲酯。在碱性甲醇溶液中溶解适量的OligoNO.15fC-9mer DNA寡居核苷链,再直接加入摩尔量大大过量的乙酰乙酸乙酯或乙酰乙酸甲酯,混匀后于37℃震荡反应24h,可得相同的化合物I-1。反应中,乙酰乙酸乙/甲酯的2号位活泼亚甲基与5fC醛基发生缩合,同时分子内反应,胞嘧啶环4号位氨基取代酯键的乙醇/甲醇,从而成环生成化合物I-1。MALDI-TOF质谱鉴定显示无原料峰剩余,m/z(ob):2763.5→m/z(ob):2829.8/2829.5(如图1的A,B,C)。
化合物ii-1为代表化合物丙二腈。在弱酸性水溶液中溶解适量的OligoNO.1 5fC-9mer DNA寡居核苷链,同时加入摩尔量大大过量的丙二腈高浓度水溶液储存液,混匀后于37℃震荡反应24h,可得化合物II-1。反应中,丙二腈的活泼亚甲基与5fC碱基5号位醛基发生缩合,后经胞嘧啶4号位氨基与丙二腈分子氰基的分子内加成成环,生成目标化合物II-1。MALDI-TOF质谱鉴定显示无原料峰剩余,m/z(ob):2763.5→m/z(ob):2812.5(如图1的A,D)。
化合物iii-1为代表化合物1,3-茚满二酮。1,3-茚满二酮与5fC DNA反应可在碱性甲醇溶液或弱酸性水溶液中完成。溶解适量的OligoNO.15fC-9mer DNA寡居核苷链,同时加入摩尔量大大过量的1,3-茚满二酮黄色固体使其溶解(碱性甲醇溶液)或达到饱和(弱酸性水溶液),混匀后于37℃震荡反应24h,可得化合物III-1。反应中,丙二腈的活泼亚甲基与5fC碱基5号位醛基发生缩合,后经胞嘧啶4号位氨基与丙二腈分子氰基的分子内加成成环,生成目标化合物III-1。MALDI-TOF质谱鉴定显示无原料峰剩余,m/z(ob):2763.5→m/z(ob):2874.7(如图1的A,E)。
图1 MALDI-TOF质谱检测结果显示反应后不可检测到原料峰,显示极高的反应效率。
本发明所提供的化学反应具有极好的选择性,只能特异性与5fC碱基发生反应;与其他胞嘧啶及其衍生物不发生副反应。如图2所示,以丙二腈反应为代表,使其分别与含其他四种胞嘧啶碱基(C,5mC,5hmC,5caC)的DNA序列(分别为OligoNO.2,OligoNO.3,OligoNO.4,OligoNO.5)反应,MALDI-TOF质谱鉴定显示,胞嘧啶或胞嘧啶衍生物均不能发生反应,只有5fC 9碱基DNA序列反应后出现了相应的分子量增加(5hmC组中的副峰为未纯化完全的样品),显示出极好的反应选择性。
实施例2:利用丙二酸二乙酯实现“5fC环保护亚硫酸氢钠测序技术”
丙二酸二乙酯属于本发明中化合物i类活泼亚甲基,在碱性甲醇溶液中可以与5fC碱基通过两步缩合反应生成目标化合物I-2(如下示意图)。利用丙二酸二乙酯与OligoNO.15fC-9mer DNA寡聚核苷酸链反应的流程为:在碱性甲醇溶液中溶解适量的DNA寡居核苷链,再直接加入摩尔量大大过量的丙二酸二乙酯,混匀后于37℃震荡反应24h,可得化合物I-2。反应中,丙二酸二乙酯的2号位活泼亚甲基与5fC醛基发生缩合,同时分子内反应,胞嘧啶环4号位氨基取代酯键的乙醇;同时未参与成环的酯键在碱性甲醇溶液中发生酯交换反应,形成酰甲酯,从而成环生成化合物I-2。MALDI-TOF质谱鉴定显示无原料峰剩余,m/z(ob):2763.5→m/z(ob):2845.4(图1的A,F)。
利用丙二酸二乙酯与一个含2个5fC碱基、长77碱基的双链DNA序列OligoNO.6反应。OligoNO.6序列中正向链包含两个5fC碱基,如序列中黑体显示的5fC碱基(5-C5fGC5fG-3);反向链无5fC碱基,对应5fC碱基的序列为G(5-CG*CG*-3)。亚硫酸氢钠处理后利用OligoNO.7和OligoNO.8两条引物进行PCR扩增,测序时使用反向测序引物OligoNO.9,因而读取结果中5-CG*CG*-3序列的G*信号对应为5fC信号。反应条件与前述相同,反应产物蒸干甲醇后通过乙醇沉淀回收。
反应回收的样品DNA通过PCR反应直接扩增,或使用QIAGEN公司EpiTect FastBisulfite Conversion Kit处理样品后再PCR扩增,后分别测序鉴定本反应产物是否可以耐受亚硫酸氢钠处理。如图3A和3B测序结果所示,丙二酸二乙酯反应之后直接PCR扩增、测序,胞嘧啶或5fC碱基对应读取为显著的鸟嘌呤G信号。而亚硫酸氢钠处理后,样品序列中的普通胞嘧啶转变为尿嘧啶U,PCR扩增为胸腺嘧啶T,因而读取为腺嘌呤A信号;而丙二酸二乙酯反应后的产物5fC*能够耐受亚硫酸氢钠处理,在PCR过程中仍旧保持与胞嘧啶C的碱基配对模式,测序读取为鸟嘌呤G信号。即成环反应保护胞嘧啶4号位氨基,不影响其在正常PCR过程中读取为C;而在亚硫酸氢钠处理时保护的5fC不发生脱氨水解;其他普通胞嘧啶在亚硫酸氢钠处理时脱氨水解,测序读取为T。通过对比反应前后的亚硫酸氢钠测序结果可以鉴定出5fC的单碱基分辨率序列位置(图3A、3B)。
这一方法中,利用成环反应保护胞嘧啶4号位氨基,防止其在亚硫酸氢钠处理时发生脱氨水解;对比成环反应前5fC位置可发生脱氨水解从而测序读取为T,可鉴定出5fC碱基的序列位置。可将这一方法称为“5fC成环保护亚硫酸氢钠测序技术”。
实施例3:利用iv类代表化合物AI(式iv-1)进行特异性富集含有5fC碱基的核酸
1,3-茚满二酮的反应活性区域为五元环上羰基中间的亚甲基,因而苯环结构上的3,4,5,6位的修饰对化合物的性质不会有显著影响。由此合成了5-(2-叠氮乙基)-1,3-茚满二酮(化合物AI)用于特异性富集含有5fC碱基的核酸。
5-(2-叠氮乙基)-1,3-茚满二酮(化合物AI)的合成路线如下:
4-(2-氯乙基)-苯甲酰氯(4-(2-chloroethyl)benzoyl chloride)合成:
将4-(2-氯乙基)-苯甲酸(10g,108mmol)与50mL SOCl2混合,并加入数滴DMF,加热回流12h,将过量的SOCl2蒸出,得到黄色液体(10.8g,96%),该液体直接投入下一步反应中。
5-(2-氯乙基)-1,3-茚满二酮(5-(2-chloroethyl)-1H-indene-1,3(2H)-dione)合成:
在500mL干燥两口瓶中加入AlCl3(14g,106mmol,1eq.)和200ml CH2Cl2,氮气保护条件下,将4-(2-氯乙基)-苯甲酰氯(21.6g,106mmol)加入CH2Cl2溶液中,0℃时将重蒸的丙二酰氯(16.5g,117mmol,1.1eq.)缓慢滴加到溶液中,得到深褐色液体,常温反应12h,反应结束后将溶液倾倒至冰块中,加入HCl溶液(10%,250mL)并剧烈搅拌1h,CHCl3(3x400mL)萃取,无水硫酸钠干燥,浓缩,硅胶柱层析,石油醚/二氯甲烷2:1洗脱,得浅黄色固体(7.9g,36%)。1H NMR(300MHz,CDCl3)δ7.93(d,J=7.8Hz,1H),7.83(s,1H),7.71(d,J=7.8Hz,1H),3.80(t,J=6.6Hz,2H),3.25(t,J=6.6Hz,2H),3.24(s,2H)。
5-(2-叠氮乙基)-1,3-茚满二酮(5-(2-azidoethyl)-1H-indene-1,3(2H)-dione,即AI)合成:
将NaN3(2.3g,36mmol,2eq.)溶解于100mL干燥DMSO中,加入5-(2-氯乙基)-1,3-茚满二酮(3.7g,18mmol),80℃反应20min,反应结束后在溶液中加入300mL水,乙醚(3×400mL)萃取,无水硫酸钠干燥,浓缩,硅胶柱层析,石油醚/二氯甲烷1:1洗脱,得浅黄色固体(680mg,18%)。1H NMR(300MHz,CDCl3)δ7.94(d,J=7.8Hz,1H),7.82(s,1H),7.70(d,J=7.8Hz,1H),3.62(t,J=6.6Hz,2H),3.24(s,2H),3.06(t,J=6.6Hz,2H),13C NMR(75MHz,CDCl3)δ197.6,197.1,147.4,144.1,142.4,136.7,123.8,123.4,51.9,45.6,35.9;MS(ESI)[M+H]+,216.2。
利用合成的化合物AI特异性与5fC核酸序列反应,可以用于选择性分离富集含有5fC碱基的DNA样品。流程如图4所示,核酸样品中的5fC碱基与化合物AI反应,可以特异性引入一个叠氮基;反应产物通过叠氮集团与炔基的Click-Chemistry反应再次特异性引入一个带有二硫键连接的生物素。如此通过两步反应,选择性且高效地将生物素基团引入到5fC碱基位置,再利用链霉亲和素与生物素的强力结合,进行选择性富集,从而分离出含有5fC碱基的DNA序列用于下一步测序分析等操作。利用化合物AI与含单个5fC的OligoNO.1反应各步产物的MALDI-TOF质谱检测,如图5所示,显示出反应的高效性。
将三种人工合成的双链DNA样品各按2pg/(1μg gDNA)的比例掺入到小鼠胚胎干细胞基因组DNA样品中,并利用上述试验流程进行富集,产物用实时荧光定量PCR检测富集效果。所用三种序列分别为:Oligo NO.10,包含一个5fC位点,qPCR实验中采用Oligo NO.13/14引物对;Oligo NO.11,对照序列,利用PCR获得,包含100%dATP,100%dTTP,100%dGTP,70%dCTP,15%d5mCTP,10%d5hmCTP,5%d5caCTP,不含5fC,qPCR实验中采用Oligo NO.15/16引物对;Oligo NO.12,参照序列,仅含四种基本碱基,qPCR实验中采用Oligo NO.17/18引物对。对比富集程度采用“ΔCt”法计算。
富集结果如图6所示,可见,利用化合物AI可选择性富集含5fC碱基的DNA片段。对仅含单一5fC碱基的DNA序列富集程度可达约100倍;而对照组中含有15%5mC、10%5hmC、5%5caC碱基的DNA序列无富集。
类似富集流程也可用6-叠氮-3-氧代己酸乙酯实现。如图7所示,利用6-叠氮-3-氧代己酸乙酯在碱性甲醇溶液中特异性与含有5fC碱基的核酸反应,使其特异性标记上叠氮基团;进一步利用炔基与叠氮基团的Click反应引入亲和性基团,如生物素;亲和性基团使得分离富集得以实现。
实施例4:利用1,3-茚满二酮及其衍生物实现“成环促进5fC-T转换测序技术”
1,3-茚满二酮属于本发明化合物iii中的代表化合物。利用1,3-茚满二酮的衍生物——化合物AI(合成线路及应用可参见实施例3)与一个含2个5fC碱基、长76碱基的DNA序列Oligo NO.19反应。所用序列中包含2个5fC碱基(5-C5fGC5fG-3)。反应前或反应后的样品使用Oligo NO.8和Oligo NO.20直接扩增,扩增产物同样用Oligo NO.9测序。因使用反向测序引物,测序结果中5-CG*CG*-3序列的G*信号对应为5fC位点的信号。反应条件与前述相同,反应产物通过乙醇沉淀回收。
利用化合物AI实现“成环促进5fC-T转换测序技术”的测序。其结果如图8A和8B显示,化合物AI反应前,两个5fC碱基位置读取为鸟嘌呤G信号;反应之后的位置在PCR扩增过程中读取为胸腺嘧啶T,因而在使用反向测序引物时读取为腺嘌呤A的信号,且其他胞嘧啶对应区域不受影响。通过对比反应前后的序列信息,发现C-T突变信号(正向引物测序)或G-A突变信号(反向引物测序)即为5fC碱基的位置,由此也可以方便地检测出5fC在基因组中的单碱基分辨率序列信息。
这一方法中,利用化合物AI与5fC反应,使得5fC反应产物在PCR扩增过程中读取为胸腺嘧啶T;对比反应前与反应后稳定读取有C-T错配的位点可以直接鉴定出5fC的序列位置。可称此类5fC测序方法为“成环促进5fC-T转换测序技术”。
实施例5:利用丙二腈反应实现“成环促进5fC-T转换测序技术”
丙二腈属于本发明化合物ii的代表化合物。利用丙二腈与一个含单个5fC碱基、长76碱基的DNA序列Oligo NO.21反应。序列中仅含一个5fC碱基(5-C5fGCG-3)。反应前或反应后的样品使用Oligo NO.8和Oligo NO.20直接扩增,扩增产物同样用Oligo NO.9测序。因而读取结果中5-CGCG*-3序列的G*信号对应为5fC信号。反应条件与前述相同,反应产物直接通过乙醇沉淀回收。
反应前后的序列分别直接进行PCR反应扩增,扩增产物使用反向测序引物测序得到如图9A和9B显示的结果:丙二腈反应前,5fC碱基位置读取为鸟嘌呤G信号;反应之后的位置在PCR扩增过程中读取为胸腺嘧啶T,因而在使用反向测序引物时读取为腺嘌呤A的信号。通过对比反应前后的序列信息,发现C-T突变信号(正向引物测序)或G-A突变信号(反向引物测序)即为5fC碱基的位置,由此可以方便地一步检测出5fC在核酸序列中的单碱基分辨率序列信息。
这一方法中,利用丙二腈类化合物与5fC反应,使得5fC反应产物同样可以在PCR扩增过程中扩增为胸腺嘧啶T,将此类5fC测序方法也归入到“环促进5fC-T转换测序技术”。
实施例6:利用丙二腈反应产物的荧光性质特异性检测5fC的浓度
在使用Thermo公司的Nanodrop微量紫外分光光度计定量反应后的Oligo NO.1(5-AGATC5fGTAT-3)样品时发现,化合物i、ii、iii三类化合物均可使样品出现新的紫外吸收峰。如图10所示,Oligo NO.1与丙二腈的反应产物在约330nm处出现新吸收峰;与1,3-茚满二酮的反应产物在约310nm处出现新吸收峰;与乙酰乙酸乙酯或乙酰乙酸甲酯的反应产物在约350nm处出现新吸收峰;与丙二酸二乙酯的反应产物在约345nm处出现新吸收峰。反应产物由于形成共轭多环衍生物,并且可检测到新的紫外吸收,因而有产生新荧光的可能性。利用荧光分光光度计确实检测到反应产物有新的荧光产生。此处仅以丙二腈与5fC碱基反应的产物为例进行说明,其他前文涉及的含活泼亚甲基的化合物此处不再额外讨论。
丙二腈与5fC碱基DNA反应的产物具有较好的荧光。如图11所示,使用Oligo NO.1为原料与丙二腈反应,所得反应产物经荧光分光光度计确定其新生成产物(包含于化合物I范围内)的最大激发波长为328nm,最大发射波长为370nm。
将该反应产物定量配置成一定浓度梯度的标准液;同时配置相同浓度梯度的反应原料Oligo NO.1样品溶液。相同条件下测定各浓度梯度两种溶液的荧光强度,所得荧光强度数据结果做差——利用反应产物荧光强度减去原料的荧光强度,得到反应前后的荧光强度净增加值。如图12A和图12B所示,随着反应产物浓度增加,荧光强度净增加值等比增加(图12A);以荧光发射光净增加值总强度为纵坐标,对应浓度为横坐标汇总标准曲线,显示出极好的线性关系,检测下限可达10nM(图12B)。
利用此类反应产物的荧光激活效果可以用来定量5fC碱基的浓度,也可用来标记核酸样品中的5fC碱基。
实施例7:利用化合物AI反应影响TaqαI核酸内切酶对底物序列的识别
TaqαI可切割包含5-TCGA-3回文序列的双链DNA,且第二碱基胞嘧啶可为5号位修饰(5mC,5hmC,5fC,5caC)的碱基(Shinsuke Ito,et al.,Science,2011,333:1300-1303)。利用前文提到的三类化合物与5-TC5fGA-3序列中的5fC碱基反应,改变5fC碱基的化学性质,有可能改变TaqαI对底物序列的识别能力。此处仅以化合物AI与5fC碱基反应的产物为例进行说明,其他前文涉及的活泼亚甲基化合物此处不再额外讨论。
所用双链DNA为Oligo NO.22,其正向链含有5-TC5fGA-3序列,反向序列不含5fC碱基;对照序列为Oligo NO.23,其序列与Oligo NO.22完全一致,但不含5fC碱基。化合物AI与Oligo NO.22反应,并用Click Chemistry偶连上一个Biotin,富集后再用DTT洗脱出完全标记的双链Oligo NO.22反应产物序列。再将对照序列Oligo NO.23、反应前的Oligo NO.22以及反应并洗脱出的Oligo NO.22序列同时用TaqαI酶切处理1小时,再上样到4%琼脂糖凝胶,电泳鉴定是否酶切完全。5-TC5fGA-3或5-TCGA-3位于所用Oligo NO.22或Oligo NO.23序列的正中间,所以,酶切前的序列大小为70bp,完全切开的产物大小为35bp。
如图13所示,对照组含双链5-TCGA-3(Oligo NO.23)或5-TC5fGA-3(Oligo NO.22)的样品均可酶切干净,而实验组5-TC5fGA-3(Oligo NO.22)与化合物AI反应并利用富集后的样品不可被酶切,显示出反应产物影响TaqαI对底物的识别。
实施例8:基于化合物AI的“成环促进5fC-T转换测序技术”检测小鼠胚胎干细胞基因组DNA中5fC碱基的分布
为验证本发明中的方法是否能检测生物学样品(如基因组DNA)中的5-醛基胞嘧啶的分布信息及单碱基分辨率序列信息,此处利用基于化合物AI的“成环促进5fC-T转换测序技术”进行说明。具体包括将上述实施例3及实施例4应用到小鼠胚胎干细胞(mESC)的基因组DNA样品中。
将预处理好的野生型mESC的基因组DNA与化合物AI反应24小时,回收DNA并进一步利用Click反应偶联上一个生物素基团;利用链霉亲和素磁珠分离富集含有标记的DNA序列,即可得到含有5fC碱基分布的DNA片段。所得样品经过二代测序建库、PCR扩增后进入高通量测序,测序结果再比对回基因组,可以观测到5fC碱基在mESC基因组中的分布信息及单碱基分辨率序列信息。
如图14所示,同一批测序三份基因组DNA样品,包括:未反应样品、反应后但富集前的样品、富集后的样品,可见未反应样品及富集前的样品均无明显的富集分布,而富集后的样品在5fC碱基分布区域出现了明显的富集峰。这一结果表明基于化合物AI富集5fC碱基的DNA序列是可行的,并且结合高通量测序数据,可以应用于分析5fC碱基的基因组分布信息。
鉴于化合物AI与5fC碱基反应后在PCR扩增过程中读取为胞嘧啶T,因而检测高通量测序读取序列中的C-T错配位置即可检测到5-醛基胞嘧啶的单碱基分辨率位置。如图15显示一个代表富集峰内的C-T错配位置。可见富集峰内的每条读取到的序列中均含有一个C-T的错配位置,比对到基因组中对应有4个C-T错配位点,其中圈出的3个错配位点位于CpG二联体位置。由此可见“成环促进5fC-T转换测序技术”可以检测出真实生物学样品中的5fC碱基的单碱基分辨率位置信息。
通过整合上述“5fC环保护亚硫酸氢钠测序技术”及“成环促进5fC-T转换测序技术”两种方法在测序读取过程中所有胞嘧啶的单碱基分辨率读取信息,可汇总到如图16所列的表里。在常规测序过程中,所有5种胞嘧啶均读取为胞嘧啶C;而常规亚硫酸氢钠测序过程中,5-甲基胞嘧啶及5-羟甲基胞嘧啶读取为C,而胞嘧啶、5-醛基胞嘧啶及5-羧基胞嘧啶读取为胸腺嘧啶T。在本发明提供的“5fC环保护亚硫酸氢钠测序技术”中,5fC碱基受到保护,在亚硫酸氢钠测序中读取为T,因而再对比常规亚硫酸氢钠测序结果可鉴定出5fC碱基的位置。另在本发明提供的“成环促进5fC-T转换测序技术”中,直接PCR扩增并测序,5fC碱基读取为胸腺嘧啶T,在对比常规测序结果,C-T错配位置即是5fC碱基的单碱基分辨率序列位置。
Claims (15)
1.一种特异性化学标记5-醛基胞嘧啶或其1号位取代的衍生物的方法,将含有侧链活性基团的活泼亚甲基化合物R1-CH2-R2与5-醛基胞嘧啶或其1号位取代的衍生物进行反应,其中所述含有侧链活性基团的活泼亚甲基化合物与所述5-醛基胞嘧啶或其1号位取代的衍生物中的胞嘧啶5号位醛基发生脱水缩合反应,同时,所述活泼亚甲基化合物中的侧链活性基团与所述5-醛基胞嘧啶或其1号位取代的衍生物中的胞嘧啶4号位氨基发生分子内反应实现关环,如下式所示:
其中,R代表氢,烃基,带-OH、-NH2、-CHO和/或-COOH的烃基,或者是核糖基或脱氧核糖基,5’或3’磷酸修饰的核糖基或脱氧核糖基,核糖核酸或脱氧核糖核酸中以糖苷键与5-醛基胞嘧啶1号位键合的相关小分子化合物或聚合大分子化合物内除5-醛基胞嘧啶外的其他结构;R1和R2为吸电子基团,相互独立或成环,当R1和R2相互独立时,R1选自氰基、硝基、醛基、羰基化合物和羧酸及其衍生物中的一种,R2选自氰基、醛基、羰基化合物和羧酸及其衍生物中的一种,其中R3代表烃基或带-OH、-NH2、-CHO、-COOH、叠氮基团和/或生物素的烃基;当R1和R2成环时,是上述R1和R2基团侧链直接键合成环,或通过C、N或O间接键合成环;所述烃基为C1-C30的直链或带支链的烷基、烯基或炔基。
2.根据权利要求1所述的方法,其特征在于,所述含有侧链活性基团的活泼亚甲基化合物为如式i所示的化合物i,该化合物i与5-醛基胞嘧啶或其1号位取代的衍生物一步反应合成如式I所示的化合物I:
其中:R和R1分别如权利要求1所述;R4代表烃基或带-OH、-NH2、-CHO和/或-COOH的烃基;所述烃基为C1-C30的直链或带支链的烷基、烯基或炔基。
3.根据权利要求2所述的方法,其特征在于,所述化合物i为乙酰乙酸甲酯、乙酰乙酸乙酯、丙二酸二乙酯或6-叠氮-3-氧代己酸乙酯。
4.根据权利要求1所述的方法,其特征在于,所述含有侧链活性基团的活泼亚甲基化合物为如式ii所示的化合物ii,该化合物ii与5-醛基胞嘧啶或其1号位取代的衍生物在酸性到中性的水溶液中一步反应合成如式II所示的化合物II:
其中:R和R1分别如权利要求1所述。
5.根据权利要求4所述的方法,其特征在于,所述化合物ii为丙二腈。
6.一种特异性化学标记5-醛基胞嘧啶或其1号位取代的衍生物的方法,将如式iii所示的含有侧链活性基团的活泼亚甲基化合物iii与5-醛基胞嘧啶或其1号位取代的衍生物一步反应合成如式III所示的化合物III:
其中:R代表氢,烃基,带-OH、-NH2、-CHO和/或-COOH的烃基,或者是核糖基或脱氧核糖基,5’或3’磷酸修饰的核糖基或脱氧核糖基,核糖核酸或脱氧核糖核酸中以糖苷键与5-醛基胞嘧啶1号位键合的相关小分子化合物或聚合大分子化合物内除5-醛基胞嘧啶外的其他结构;R5、R6、R7和R8各自独立地为氢原子、-OH、-NH2、-CHO、-COOH、-CN、-NO2、叠氮基团或烃基,或带-OH、-O-、-NH2、-NH-、-CHO、-COOH、叠氮基团和/或生物素的烃基;所述烃基为C1-C30的直链或带支链的烷基、烯基或炔基。
7.根据权利要求6所述的方法,其特征在于,所述化合物iii为1,3茚满二酮或5-(2-叠氮乙基)-1,3-茚满二酮。
8.根据权利要求6所述的方法,其特征在于,所述含有侧链活性基团的活泼亚甲基化合物为如式iv所示的化合物iii的衍生物iv:
式iv中,通过连接序列-(X)n-以引出功能性基团Y,其中:X是构成连接序列的基本单元,X代表C1-C5的直链或支链烷基、烯基或炔基,或者是带醚键-O-和/或亚氨基-NH-的C1-C5的直链或支链烷基、烯基或炔基;n为大于或等于1的正整数;Y是生物素、叠氮基或C2-C20炔基。
9.式iv所示的化合物:
其中,X是构成连接序列-(X)n-的基本单元,X代表C1-C5的直链或支链烷基、烯基或炔基,或者是带醚键-O-和/或亚氨基-NH-的C1-C5的直链或支链烷基、烯基或炔基;n为大于或等于1的正整数;Y是生物素、叠氮基或C2-C20炔基。
10.根据权利要求9所述的化合物,其特征在于,所述化合物为5-(2-叠氮乙基)-1,3-茚满二酮。
11.权利要求1~8任一所述的方法或权利要求9或10所述的化合物在下述方面的应用:
1)测序分析基因组中5-醛基胞嘧啶的序列分布信息和/或单碱基分辨率序列信息;
2)检测5-醛基胞嘧啶或其1号位取代的衍生物的含量;
3)对含5-醛基胞嘧啶碱基的DNA或RNA分子进行直接或间接富集;
4)制备检测基因组DNA样品中5-醛基胞嘧啶碱基的分布信息和/或单碱基分辨率序列信息的试剂盒;
5)检测影响核酸结合蛋白的识别和结合能力或酶学活性的因素。
12.式I所示的化合物:
其中,R代表氢,烃基,带-OH、-NH2、-CHO和/或-COOH的烃基,或者是核糖基或脱氧核糖基,5’或3’磷酸修饰的核糖基或脱氧核糖基,核糖核酸或脱氧核糖核酸中以糖苷键与5-醛基胞嘧啶1号位键合的相关小分子化合物或聚合大分子化合物内除5-醛基胞嘧啶外的其他结构;R1为吸电子基团。
13.式II所示的化合物:
其中,R代表氢,烃基,带-OH、-NH2、-CHO和/或-COOH的烃基,或者是核糖基或脱氧核糖基,5’或3’磷酸修饰的核糖基或脱氧核糖基,核糖核酸或脱氧核糖核酸中以糖苷键与5-醛基胞嘧啶1号位键合的相关小分子化合物或聚合大分子化合物内除5-醛基胞嘧啶外的其他结构;R1为吸电子基团,R1选自氰基、硝基、醛基、羰基化合物和羧酸及其衍生物中的一种,其中R3代表烃基或带-OH、-NH2、-CHO、-COOH、叠氮基团和/或生物素的烃基;所述烃基为C1-C30的直链或带支链的烷基、烯基或炔基。
14.式III所示的化合物:
其中,R代表氢,烃基,带-OH、-NH2、-CHO和/或-COOH的烃基,或者是核糖基或脱氧核糖基,5’或3’磷酸修饰的核糖基或脱氧核糖基,核糖核酸或脱氧核糖核酸中以糖苷键与5-醛基胞嘧啶1号位键合的相关小分子化合物或聚合大分子化合物内除5-醛基胞嘧啶外的其他结构;R5、R6、R7和R8各自独立地为氢原子、-OH、-NH2、-CHO、-COOH、-CN、-NO2、叠氮基团或烃基,或带-OH、-O-、-NH2、-NH-、-CHO、-COOH、叠氮基团和/或生物素的烃基;所述烃基为C1-C30的直链或带支链的烷基、烯基或炔基。
15.权利要求12~14任一所述化合物在如下方面的应用:
1)核酸测序;
2)测序分析核酸分子中5-醛基胞嘧啶的序列分布信息和/或单碱基分辨率序列信息;
3)荧光光谱分析5-醛基胞嘧啶的含量;
4)5-醛基胞嘧啶的体内或体外成像;
5)特异性标记核酸序列;
6)检测5-醛基胞嘧啶或其1号位取代衍生物的含量;
7)对含5-醛基胞嘧啶碱基的分子进行直接或间接富集;
8)研究核酸-蛋白相互作用、核酸-核酸相互作用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410486471.8A CN104311618B (zh) | 2013-09-27 | 2014-09-22 | 5-醛基胞嘧啶特异性化学标记方法及相关应用 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310452515 | 2013-09-27 | ||
CN201310452515.0 | 2013-09-27 | ||
CN2013104525150 | 2013-09-27 | ||
CN201410486471.8A CN104311618B (zh) | 2013-09-27 | 2014-09-22 | 5-醛基胞嘧啶特异性化学标记方法及相关应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104311618A CN104311618A (zh) | 2015-01-28 |
CN104311618B true CN104311618B (zh) | 2017-01-04 |
Family
ID=
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0235301A1 (en) * | 1985-09-09 | 1987-09-09 | Teijin Limited | Pyridopyrimidine nucleotide derivatives |
CN101001864A (zh) * | 2004-06-14 | 2007-07-18 | 马普科技促进协会 | 生物分子中甲基化的序列特异性检测 |
CN103012526A (zh) * | 2012-12-25 | 2013-04-03 | 武汉大学 | 一种将5-羟甲基胞嘧啶氧化为5-醛基胞嘧啶的方法 |
CN103060450A (zh) * | 2013-01-09 | 2013-04-24 | 武汉大学 | 一种利用哌啶水溶液检测dna中5-醛基胞嘧啶和5-羟甲基胞嘧啶的方法 |
CN103305621A (zh) * | 2013-06-27 | 2013-09-18 | 武汉大学 | Fret原理的5-羟甲基胞嘧啶的荧光检测方法 |
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0235301A1 (en) * | 1985-09-09 | 1987-09-09 | Teijin Limited | Pyridopyrimidine nucleotide derivatives |
CN101001864A (zh) * | 2004-06-14 | 2007-07-18 | 马普科技促进协会 | 生物分子中甲基化的序列特异性检测 |
CN103012526A (zh) * | 2012-12-25 | 2013-04-03 | 武汉大学 | 一种将5-羟甲基胞嘧啶氧化为5-醛基胞嘧啶的方法 |
CN103060450A (zh) * | 2013-01-09 | 2013-04-24 | 武汉大学 | 一种利用哌啶水溶液检测dna中5-醛基胞嘧啶和5-羟甲基胞嘧啶的方法 |
CN103305621A (zh) * | 2013-06-27 | 2013-09-18 | 武汉大学 | Fret原理的5-羟甲基胞嘧啶的荧光检测方法 |
Non-Patent Citations (2)
Title |
---|
5-甲基胞嘧啶到5-羟甲基胞嘧啶的转变过程参与小鼠雄原核的DNA主动去甲基化;张鹏等;《中国兽医学报》;20120131;第32卷(第1期);第89-92、96页 * |
A convenient method for selective detection of 5-hydroxymethylcytosine and 5-formylcytosine sites in DNA sequences;wuxiang mao et al.;《Organic & Biomolecular Chemistry》;20130327;第11卷;第3568-3572页 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6243013B2 (ja) | 5−ホルミルシトシン特異的な化学標識法及びその利用 | |
CN109562376B (zh) | 一种基于荧光能量转移的单分子/集群dna合成测序 | |
JP5280879B2 (ja) | 置換プロパルギルエトキシアミドヌクレオシド | |
CN101384729B (zh) | 固相测序 | |
US20170037456A1 (en) | Multiplexed identification of nucleic acid sequences | |
CN101268188B (zh) | 新型人工碱基对及其应用 | |
JP2019513345A (ja) | 核酸の検知 | |
Browne et al. | Simultaneous quantification of multiple nucleic acid targets using chemiluminescent probes | |
Bai et al. | Design and synthesis of a photocleavable biotinylated nucleotide for DNA analysis by mass spectrometry | |
CN106544409A (zh) | 用于核酸指数式扩增的切口和延长扩增反应 | |
CN107090457A (zh) | 检测样品的多元分析 | |
JP2005501567A5 (zh) | ||
US20060292586A1 (en) | ID-tag complexes, arrays, and methods of use thereof | |
US20170240961A1 (en) | Affinity tag labeled nucleosides and uses | |
Zhang et al. | Label-free microRNA detection based on terbium and duplex-specific nuclease assisted target recycling | |
US20150064698A1 (en) | Method for detecting target nucleic acid using molecular beacon-type probe | |
Li et al. | DNA polymerase/NEase-assisted signal amplification coupled with silver nanoclusters for simultaneous detection of multiple microRNAs and molecular logic operations | |
Laitala et al. | Time-resolved detection probe for homogeneous nucleic acid analyses in one-step format | |
Zhang et al. | A one-pot strategy for the sensitive detection of miRNA by catalyst–oligomer-mediated enzymatic amplification-based fluorescence biosensor | |
KR20040107476A (ko) | 신규 고감도 핵산 분석법 | |
CN104311618B (zh) | 5-醛基胞嘧啶特异性化学标记方法及相关应用 | |
EP2686445B1 (en) | Method of identifying nucleic acid-containing object | |
Senthilvelan et al. | Synthesis of acridine-1, 8-dione substituted (E)-5-(3-aminoallyl)-uridine-5′-triphosphate: a new potential fluorogenic molecular probe | |
CN104845614A (zh) | 一种dna标记用荧光探针及其合成方法和用途 | |
Furukawa et al. | Nucleic acid probe containing fluorescent tricyclic base-linked acyclonucleoside for detection of single nucleotide polymorphisms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |