CN116694741A - 用于跨非连续模板的有序和连续的互补DNA(cDNA)合成的组合物和方法 - Google Patents
用于跨非连续模板的有序和连续的互补DNA(cDNA)合成的组合物和方法 Download PDFInfo
- Publication number
- CN116694741A CN116694741A CN202310710481.4A CN202310710481A CN116694741A CN 116694741 A CN116694741 A CN 116694741A CN 202310710481 A CN202310710481 A CN 202310710481A CN 116694741 A CN116694741 A CN 116694741A
- Authority
- CN
- China
- Prior art keywords
- protein
- rna
- template
- ltr
- optionally
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010804 cDNA synthesis Methods 0.000 title claims abstract description 191
- 108020004635 Complementary DNA Proteins 0.000 title claims abstract description 156
- 239000002299 complementary DNA Substances 0.000 title claims abstract description 151
- 238000000034 method Methods 0.000 title claims abstract description 100
- 239000000203 mixture Substances 0.000 title abstract description 35
- 230000015572 biosynthetic process Effects 0.000 title abstract description 26
- 238000003786 synthesis reaction Methods 0.000 title abstract description 26
- 108010092799 RNA-directed DNA polymerase Proteins 0.000 claims abstract description 185
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 125
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 122
- 101710145242 Minor capsid protein P3-RTD Proteins 0.000 claims description 267
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims description 124
- 150000007523 nucleic acids Chemical class 0.000 claims description 124
- 102000039446 nucleic acids Human genes 0.000 claims description 122
- 108020004707 nucleic acids Proteins 0.000 claims description 122
- 239000013615 primer Substances 0.000 claims description 120
- 108020004414 DNA Proteins 0.000 claims description 105
- 125000003729 nucleotide group Chemical group 0.000 claims description 93
- 230000000694 effects Effects 0.000 claims description 88
- 230000001177 retroviral effect Effects 0.000 claims description 86
- 230000035772 mutation Effects 0.000 claims description 84
- 230000004048 modification Effects 0.000 claims description 79
- 238000012986 modification Methods 0.000 claims description 79
- 150000001413 amino acids Chemical class 0.000 claims description 72
- 239000002773 nucleotide Substances 0.000 claims description 72
- 239000000872 buffer Substances 0.000 claims description 56
- 102100031780 Endonuclease Human genes 0.000 claims description 53
- 238000006467 substitution reaction Methods 0.000 claims description 50
- 238000000746 purification Methods 0.000 claims description 49
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 48
- 241000255789 Bombyx mori Species 0.000 claims description 45
- 108010042407 Endonucleases Proteins 0.000 claims description 40
- 230000037430 deletion Effects 0.000 claims description 35
- 238000012217 deletion Methods 0.000 claims description 35
- 210000004897 n-terminal region Anatomy 0.000 claims description 33
- 230000000087 stabilizing effect Effects 0.000 claims description 33
- 230000000295 complement effect Effects 0.000 claims description 30
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 claims description 29
- 125000000539 amino acid group Chemical group 0.000 claims description 22
- 230000002441 reversible effect Effects 0.000 claims description 20
- 230000036961 partial effect Effects 0.000 claims description 16
- 210000003463 organelle Anatomy 0.000 claims description 15
- 238000010839 reverse transcription Methods 0.000 claims description 15
- -1 ribonucleoside triphosphates Chemical class 0.000 claims description 15
- 230000004568 DNA-binding Effects 0.000 claims description 14
- 229960002685 biotin Drugs 0.000 claims description 14
- 235000020958 biotin Nutrition 0.000 claims description 14
- 239000011616 biotin Substances 0.000 claims description 14
- 230000002427 irreversible effect Effects 0.000 claims description 14
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 claims description 12
- 125000006850 spacer group Chemical group 0.000 claims description 12
- 239000003155 DNA primer Substances 0.000 claims description 11
- 108090000626 DNA-directed RNA polymerases Proteins 0.000 claims description 11
- 102000004163 DNA-directed RNA polymerases Human genes 0.000 claims description 11
- 239000001226 triphosphate Substances 0.000 claims description 11
- 235000011178 triphosphate Nutrition 0.000 claims description 11
- 108020001019 DNA Primers Proteins 0.000 claims description 10
- 108091028664 Ribonucleotide Proteins 0.000 claims description 10
- 239000002336 ribonucleotide Substances 0.000 claims description 10
- 239000000356 contaminant Substances 0.000 claims description 9
- 125000002264 triphosphate group Chemical class [H]OP(=O)(O[H])OP(=O)(O[H])OP(=O)(O[H])O* 0.000 claims description 9
- 230000006154 adenylylation Effects 0.000 claims description 8
- 229910001437 manganese ion Inorganic materials 0.000 claims description 8
- 241000238421 Arthropoda Species 0.000 claims description 7
- 150000004712 monophosphates Chemical class 0.000 claims description 7
- 239000002213 purine nucleotide Substances 0.000 claims description 7
- 150000003212 purines Chemical class 0.000 claims description 7
- 239000002719 pyrimidine nucleotide Substances 0.000 claims description 7
- 150000003230 pyrimidines Chemical class 0.000 claims description 7
- 230000004570 RNA-binding Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 241000186394 Eubacterium Species 0.000 claims description 3
- 108091029499 Group II intron Proteins 0.000 claims description 3
- JLVVSXFLKOJNIY-UHFFFAOYSA-N Magnesium ion Chemical compound [Mg+2] JLVVSXFLKOJNIY-UHFFFAOYSA-N 0.000 claims description 3
- 101710086015 RNA ligase Proteins 0.000 claims description 3
- 239000005549 deoxyribonucleoside Substances 0.000 claims description 3
- 229910001425 magnesium ion Inorganic materials 0.000 claims description 3
- 239000002342 ribonucleoside Substances 0.000 claims description 3
- 210000000664 rectum Anatomy 0.000 claims description 2
- 108091023040 Transcription factor Proteins 0.000 claims 1
- 102000040945 Transcription factor Human genes 0.000 claims 1
- 102100034343 Integrase Human genes 0.000 abstract description 174
- 238000001668 nucleic acid synthesis Methods 0.000 abstract description 4
- 238000006243 chemical reaction Methods 0.000 description 112
- 235000018102 proteins Nutrition 0.000 description 109
- 235000001014 amino acid Nutrition 0.000 description 70
- 239000000047 product Substances 0.000 description 70
- 102100033215 DNA nucleotidylexotransferase Human genes 0.000 description 50
- 108010008286 DNA nucleotidylexotransferase Proteins 0.000 description 50
- 108090000765 processed proteins & peptides Proteins 0.000 description 46
- 239000000758 substrate Substances 0.000 description 45
- 238000003752 polymerase chain reaction Methods 0.000 description 39
- 102000004190 Enzymes Human genes 0.000 description 37
- 108090000790 Enzymes Proteins 0.000 description 37
- 229940088598 enzyme Drugs 0.000 description 37
- 102000040430 polynucleotide Human genes 0.000 description 36
- 108091033319 polynucleotide Proteins 0.000 description 36
- 239000002157 polynucleotide Substances 0.000 description 35
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 33
- 210000004027 cell Anatomy 0.000 description 29
- 108091034117 Oligonucleotide Proteins 0.000 description 28
- 238000007792 addition Methods 0.000 description 26
- 239000011572 manganese Substances 0.000 description 26
- 102000004196 processed proteins & peptides Human genes 0.000 description 26
- 230000010076 replication Effects 0.000 description 26
- 229920001184 polypeptide Polymers 0.000 description 25
- 238000012163 sequencing technique Methods 0.000 description 22
- 108091070501 miRNA Proteins 0.000 description 20
- 101710175625 Maltose/maltodextrin-binding periplasmic protein Proteins 0.000 description 19
- 230000027455 binding Effects 0.000 description 19
- 238000007481 next generation sequencing Methods 0.000 description 19
- SUYVUBYJARFZHO-RRKCRQDMSA-N dATP Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@H]1C[C@H](O)[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 SUYVUBYJARFZHO-RRKCRQDMSA-N 0.000 description 18
- SUYVUBYJARFZHO-UHFFFAOYSA-N dATP Natural products C1=NC=2C(N)=NC=NC=2N1C1CC(O)C(COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 SUYVUBYJARFZHO-UHFFFAOYSA-N 0.000 description 18
- 238000002264 polyacrylamide gel electrophoresis Methods 0.000 description 18
- 102000053602 DNA Human genes 0.000 description 17
- 238000010186 staining Methods 0.000 description 16
- 210000004899 c-terminal region Anatomy 0.000 description 15
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 15
- 239000010931 gold Substances 0.000 description 15
- 229910052737 gold Inorganic materials 0.000 description 15
- 239000000543 intermediate Substances 0.000 description 15
- 230000002255 enzymatic effect Effects 0.000 description 14
- QKNYBSVHEMOAJP-UHFFFAOYSA-N 2-amino-2-(hydroxymethyl)propane-1,3-diol;hydron;chloride Chemical compound Cl.OCC(N)(CO)CO QKNYBSVHEMOAJP-UHFFFAOYSA-N 0.000 description 13
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 13
- 238000004925 denaturation Methods 0.000 description 13
- 230000036425 denaturation Effects 0.000 description 13
- 230000014509 gene expression Effects 0.000 description 13
- 230000006872 improvement Effects 0.000 description 13
- 230000001580 bacterial effect Effects 0.000 description 12
- 230000000903 blocking effect Effects 0.000 description 12
- 238000001514 detection method Methods 0.000 description 12
- 239000012634 fragment Substances 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 239000011777 magnesium Substances 0.000 description 12
- 238000002360 preparation method Methods 0.000 description 12
- 239000000523 sample Substances 0.000 description 12
- 108020002230 Pancreatic Ribonuclease Proteins 0.000 description 10
- 102000005891 Pancreatic ribonuclease Human genes 0.000 description 10
- 108020004682 Single-Stranded DNA Proteins 0.000 description 10
- 230000003321 amplification Effects 0.000 description 10
- 239000007795 chemical reaction product Substances 0.000 description 10
- 238000009396 hybridization Methods 0.000 description 10
- 239000002679 microRNA Substances 0.000 description 10
- 238000003199 nucleic acid amplification method Methods 0.000 description 10
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 9
- 239000002738 chelating agent Substances 0.000 description 9
- 108020001507 fusion proteins Proteins 0.000 description 9
- 102000037865 fusion proteins Human genes 0.000 description 9
- OAKPWEUQDVLTCN-NKWVEPMBSA-N 2',3'-Dideoxyadenosine-5-triphosphate Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@H]1CC[C@@H](CO[P@@](O)(=O)O[P@](O)(=O)OP(O)(O)=O)O1 OAKPWEUQDVLTCN-NKWVEPMBSA-N 0.000 description 8
- 101710163270 Nuclease Proteins 0.000 description 8
- 238000003559 RNA-seq method Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 8
- 150000001875 compounds Chemical class 0.000 description 8
- 239000000463 material Substances 0.000 description 8
- 239000000126 substance Substances 0.000 description 8
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 7
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 7
- XZWYTXMRWQJBGX-VXBMVYAYSA-N FLAG peptide Chemical compound NCCCC[C@@H](C(O)=O)NC(=O)[C@H](CC(O)=O)NC(=O)[C@H](CC(O)=O)NC(=O)[C@H](CC(O)=O)NC(=O)[C@H](CC(O)=O)NC(=O)[C@H](CCCCN)NC(=O)[C@@H](NC(=O)[C@@H](N)CC(O)=O)CC1=CC=C(O)C=C1 XZWYTXMRWQJBGX-VXBMVYAYSA-N 0.000 description 7
- 108010020195 FLAG peptide Proteins 0.000 description 7
- HTTJABKRGRZYRN-UHFFFAOYSA-N Heparin Chemical compound OC1C(NC(=O)C)C(O)OC(COS(O)(=O)=O)C1OC1C(OS(O)(=O)=O)C(O)C(OC2C(C(OS(O)(=O)=O)C(OC3C(C(O)C(O)C(O3)C(O)=O)OS(O)(=O)=O)C(CO)O2)NS(O)(=O)=O)C(C(O)=O)O1 HTTJABKRGRZYRN-UHFFFAOYSA-N 0.000 description 7
- 108010021757 Polynucleotide 5'-Hydroxyl-Kinase Proteins 0.000 description 7
- 102000008422 Polynucleotide 5'-hydroxyl-kinase Human genes 0.000 description 7
- CZPWVGJYEJSRLH-UHFFFAOYSA-N Pyrimidine Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 description 7
- 230000008901 benefit Effects 0.000 description 7
- 238000003776 cleavage reaction Methods 0.000 description 7
- NHVNXKFIZYSCEB-XLPZGREQSA-N dTTP Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)[C@@H](O)C1 NHVNXKFIZYSCEB-XLPZGREQSA-N 0.000 description 7
- 230000004927 fusion Effects 0.000 description 7
- 229960002897 heparin Drugs 0.000 description 7
- 229920000669 heparin Polymers 0.000 description 7
- 238000002372 labelling Methods 0.000 description 7
- 230000001404 mediated effect Effects 0.000 description 7
- 238000001556 precipitation Methods 0.000 description 7
- 125000002652 ribonucleotide group Chemical group 0.000 description 7
- 230000007017 scission Effects 0.000 description 7
- 108091092195 Intron Proteins 0.000 description 6
- 238000002835 absorbance Methods 0.000 description 6
- 238000003556 assay Methods 0.000 description 6
- 239000003153 chemical reaction reagent Substances 0.000 description 6
- HNDVDQJCIGZPNO-UHFFFAOYSA-N histidine Natural products OC(=O)C(N)CC1=CN=CN1 HNDVDQJCIGZPNO-UHFFFAOYSA-N 0.000 description 6
- RAXXELZNTBOGNW-UHFFFAOYSA-N imidazole Natural products C1=CNC=N1 RAXXELZNTBOGNW-UHFFFAOYSA-N 0.000 description 6
- 230000000670 limiting effect Effects 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 6
- 230000002688 persistence Effects 0.000 description 6
- 238000011002 quantification Methods 0.000 description 6
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 5
- 102000002260 Alkaline Phosphatase Human genes 0.000 description 5
- 108020004774 Alkaline Phosphatase Proteins 0.000 description 5
- 241000238557 Decapoda Species 0.000 description 5
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 5
- RGWHQCVHVJXOKC-SHYZEUOFSA-J dCTP(4-) Chemical compound O=C1N=C(N)C=CN1[C@@H]1O[C@H](COP([O-])(=O)OP([O-])(=O)OP([O-])([O-])=O)[C@@H](O)C1 RGWHQCVHVJXOKC-SHYZEUOFSA-J 0.000 description 5
- 238000006731 degradation reaction Methods 0.000 description 5
- 230000007062 hydrolysis Effects 0.000 description 5
- 238000006460 hydrolysis reaction Methods 0.000 description 5
- 125000002887 hydroxy group Chemical group [H]O* 0.000 description 5
- 230000005257 nucleotidylation Effects 0.000 description 5
- 230000037452 priming Effects 0.000 description 5
- 230000008439 repair process Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 235000000346 sugar Nutrition 0.000 description 5
- 241000255791 Bombyx Species 0.000 description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 description 4
- 239000000654 additive Substances 0.000 description 4
- 239000006227 byproduct Substances 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 4
- HAAZLUGHYHWQIW-KVQBGUIXSA-N dGTP Chemical compound C1=NC=2C(=O)NC(N)=NC=2N1[C@H]1C[C@H](O)[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 HAAZLUGHYHWQIW-KVQBGUIXSA-N 0.000 description 4
- 238000001962 electrophoresis Methods 0.000 description 4
- 108020004999 messenger RNA Proteins 0.000 description 4
- 238000010208 microarray analysis Methods 0.000 description 4
- 238000000638 solvent extraction Methods 0.000 description 4
- 210000001519 tissue Anatomy 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 108091028732 Concatemer Proteins 0.000 description 3
- 108091007494 Nucleic acid- binding domains Proteins 0.000 description 3
- 108091093037 Peptide nucleic acid Proteins 0.000 description 3
- 230000003197 catalytic effect Effects 0.000 description 3
- 150000001768 cations Chemical class 0.000 description 3
- 238000004587 chromatography analysis Methods 0.000 description 3
- 239000000539 dimer Substances 0.000 description 3
- 239000000975 dye Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 210000003527 eukaryotic cell Anatomy 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000002779 inactivation Effects 0.000 description 3
- 238000010348 incorporation Methods 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 3
- 238000009830 intercalation Methods 0.000 description 3
- 150000002500 ions Chemical class 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 239000000178 monomer Substances 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 102000044158 nucleic acid binding protein Human genes 0.000 description 3
- 108700020942 nucleic acid binding protein Proteins 0.000 description 3
- 230000035699 permeability Effects 0.000 description 3
- 150000004713 phosphodiesters Chemical class 0.000 description 3
- 239000013612 plasmid Substances 0.000 description 3
- 229920000642 polymer Polymers 0.000 description 3
- GUUBJKMBDULZTE-UHFFFAOYSA-M potassium;2-[4-(2-hydroxyethyl)piperazin-1-yl]ethanesulfonic acid;hydroxide Chemical compound [OH-].[K+].OCCN1CCN(CCS(O)(=O)=O)CC1 GUUBJKMBDULZTE-UHFFFAOYSA-M 0.000 description 3
- 230000012846 protein folding Effects 0.000 description 3
- 239000011541 reaction mixture Substances 0.000 description 3
- 108091008146 restriction endonucleases Proteins 0.000 description 3
- 239000011780 sodium chloride Substances 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000005287 template synthesis Methods 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Chemical compound O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- DGVVWUTYPXICAM-UHFFFAOYSA-N β‐Mercaptoethanol Chemical compound OCCS DGVVWUTYPXICAM-UHFFFAOYSA-N 0.000 description 3
- FZWGECJQACGGTI-UHFFFAOYSA-N 2-amino-7-methyl-1,7-dihydro-6H-purin-6-one Chemical compound NC1=NC(O)=C2N(C)C=NC2=N1 FZWGECJQACGGTI-UHFFFAOYSA-N 0.000 description 2
- OIVLITBTBDPEFK-UHFFFAOYSA-N 5,6-dihydrouracil Chemical compound O=C1CCNC(=O)N1 OIVLITBTBDPEFK-UHFFFAOYSA-N 0.000 description 2
- RYVNIFSIEDRLSJ-UHFFFAOYSA-N 5-(hydroxymethyl)cytosine Chemical compound NC=1NC(=O)N=CC=1CO RYVNIFSIEDRLSJ-UHFFFAOYSA-N 0.000 description 2
- LRFVTYWOQMYALW-UHFFFAOYSA-N 9H-xanthine Chemical compound O=C1NC(=O)NC2=C1NC=N2 LRFVTYWOQMYALW-UHFFFAOYSA-N 0.000 description 2
- 208000035657 Abasia Diseases 0.000 description 2
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- 108010001857 Cell Surface Receptors Proteins 0.000 description 2
- HMFHBZSHGGEWLO-SOOFDHNKSA-N D-ribofuranose Chemical compound OC[C@H]1OC(O)[C@H](O)[C@@H]1O HMFHBZSHGGEWLO-SOOFDHNKSA-N 0.000 description 2
- SRBFZHDQGSBBOR-IOVATXLUSA-N D-xylopyranose Chemical compound O[C@@H]1COC(O)[C@H](O)[C@H]1O SRBFZHDQGSBBOR-IOVATXLUSA-N 0.000 description 2
- 102000012410 DNA Ligases Human genes 0.000 description 2
- 108010061982 DNA Ligases Proteins 0.000 description 2
- 108060002716 Exonuclease Proteins 0.000 description 2
- 102000004961 Furin Human genes 0.000 description 2
- 108090001126 Furin Proteins 0.000 description 2
- NYHBQMYGNKIUIF-UUOKFMHZSA-N Guanosine Chemical compound C1=NC=2C(=O)NC(N)=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O NYHBQMYGNKIUIF-UUOKFMHZSA-N 0.000 description 2
- UGQMRVRMYYASKQ-KQYNXXCUSA-N Inosine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C2=NC=NC(O)=C2N=C1 UGQMRVRMYYASKQ-KQYNXXCUSA-N 0.000 description 2
- 229930010555 Inosine Natural products 0.000 description 2
- 101710203526 Integrase Proteins 0.000 description 2
- 102000003960 Ligases Human genes 0.000 description 2
- 108090000364 Ligases Proteins 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- PXHVJJICTQNCMI-UHFFFAOYSA-N Nickel Chemical compound [Ni] PXHVJJICTQNCMI-UHFFFAOYSA-N 0.000 description 2
- 108700026244 Open Reading Frames Proteins 0.000 description 2
- 102000004160 Phosphoric Monoester Hydrolases Human genes 0.000 description 2
- 108090000608 Phosphoric Monoester Hydrolases Proteins 0.000 description 2
- 101710124239 Poly(A) polymerase Proteins 0.000 description 2
- 239000004365 Protease Substances 0.000 description 2
- 102000006382 Ribonucleases Human genes 0.000 description 2
- 108010083644 Ribonucleases Proteins 0.000 description 2
- PYMYPHUHKUWMLA-LMVFSUKVSA-N Ribose Natural products OC[C@@H](O)[C@@H](O)[C@@H](O)C=O PYMYPHUHKUWMLA-LMVFSUKVSA-N 0.000 description 2
- 101710137500 T7 RNA polymerase Proteins 0.000 description 2
- 108020004566 Transfer RNA Proteins 0.000 description 2
- 102000004357 Transferases Human genes 0.000 description 2
- 108090000992 Transferases Proteins 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- HDRRAMINWIWTNU-NTSWFWBYSA-N [[(2s,5r)-5-(2-amino-6-oxo-3h-purin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl] phosphono hydrogen phosphate Chemical compound C1=2NC(N)=NC(=O)C=2N=CN1[C@H]1CC[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 HDRRAMINWIWTNU-NTSWFWBYSA-N 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- DZBUGLKDJFMEHC-UHFFFAOYSA-N acridine Chemical compound C1=CC=CC2=CC3=CC=CC=C3N=C21 DZBUGLKDJFMEHC-UHFFFAOYSA-N 0.000 description 2
- 238000007259 addition reaction Methods 0.000 description 2
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 2
- HMFHBZSHGGEWLO-UHFFFAOYSA-N alpha-D-Furanose-Ribose Natural products OCC1OC(O)C(O)C1O HMFHBZSHGGEWLO-UHFFFAOYSA-N 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- PYMYPHUHKUWMLA-UHFFFAOYSA-N arabinose Natural products OCC(O)C(O)C(O)C=O PYMYPHUHKUWMLA-UHFFFAOYSA-N 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- SRBFZHDQGSBBOR-UHFFFAOYSA-N beta-D-Pyranose-Lyxose Natural products OC1COC(O)C(O)C1O SRBFZHDQGSBBOR-UHFFFAOYSA-N 0.000 description 2
- 238000005842 biochemical reaction Methods 0.000 description 2
- 238000001574 biopsy Methods 0.000 description 2
- OWMVSZAMULFTJU-UHFFFAOYSA-N bis-tris Chemical compound OCCN(CCO)C(CO)(CO)CO OWMVSZAMULFTJU-UHFFFAOYSA-N 0.000 description 2
- 108091092259 cell-free RNA Proteins 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 239000005547 deoxyribonucleotide Substances 0.000 description 2
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000001066 destructive effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000005546 dideoxynucleotide Substances 0.000 description 2
- 239000003085 diluting agent Substances 0.000 description 2
- 238000010790 dilution Methods 0.000 description 2
- 239000012895 dilution Substances 0.000 description 2
- 239000013024 dilution buffer Substances 0.000 description 2
- NAGJZTKCGNOGPW-UHFFFAOYSA-K dioxido-sulfanylidene-sulfido-$l^{5}-phosphane Chemical compound [O-]P([O-])([S-])=S NAGJZTKCGNOGPW-UHFFFAOYSA-K 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 239000012149 elution buffer Substances 0.000 description 2
- 102000013165 exonuclease Human genes 0.000 description 2
- 238000002866 fluorescence resonance energy transfer Methods 0.000 description 2
- 238000002523 gelfiltration Methods 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 238000012165 high-throughput sequencing Methods 0.000 description 2
- FDGQSTZJBFJUBT-UHFFFAOYSA-N hypoxanthine Chemical compound O=C1NC=NC2=C1NC=N2 FDGQSTZJBFJUBT-UHFFFAOYSA-N 0.000 description 2
- 230000000415 inactivating effect Effects 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 229960003786 inosine Drugs 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 239000013067 intermediate product Substances 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 239000003446 ligand Substances 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 238000011528 liquid biopsy Methods 0.000 description 2
- 238000011068 loading method Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 102000006240 membrane receptors Human genes 0.000 description 2
- 238000002493 microarray Methods 0.000 description 2
- 244000005700 microbiome Species 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 244000052769 pathogen Species 0.000 description 2
- 239000013610 patient sample Substances 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 239000002987 primer (paints) Substances 0.000 description 2
- 125000006239 protecting group Chemical group 0.000 description 2
- 230000004952 protein activity Effects 0.000 description 2
- ZCCUUQDIBDJBTK-UHFFFAOYSA-N psoralen Chemical compound C1=C2OC(=O)C=CC2=CC2=C1OC=C2 ZCCUUQDIBDJBTK-UHFFFAOYSA-N 0.000 description 2
- 238000002976 reverse transcriptase assay Methods 0.000 description 2
- 238000001542 size-exclusion chromatography Methods 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- 230000002459 sustained effect Effects 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- RYYWUUFWQRZTIU-UHFFFAOYSA-K thiophosphate Chemical compound [O-]P([O-])([O-])=S RYYWUUFWQRZTIU-UHFFFAOYSA-K 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000014616 translation Effects 0.000 description 2
- UHDGCWIWMRVCDJ-UHFFFAOYSA-N 1-beta-D-Xylofuranosyl-NH-Cytosine Natural products O=C1N=C(N)C=CN1C1C(O)C(O)C(CO)O1 UHDGCWIWMRVCDJ-UHFFFAOYSA-N 0.000 description 1
- VGONTNSXDCQUGY-RRKCRQDMSA-N 2'-deoxyinosine Chemical compound C1[C@H](O)[C@@H](CO)O[C@H]1N1C(N=CNC2=O)=C2N=C1 VGONTNSXDCQUGY-RRKCRQDMSA-N 0.000 description 1
- ASJSAQIRZKANQN-CRCLSJGQSA-N 2-deoxy-D-ribose Chemical compound OC[C@@H](O)[C@@H](O)CC=O ASJSAQIRZKANQN-CRCLSJGQSA-N 0.000 description 1
- VXGRJERITKFWPL-UHFFFAOYSA-N 4',5'-Dihydropsoralen Natural products C1=C2OC(=O)C=CC2=CC2=C1OCC2 VXGRJERITKFWPL-UHFFFAOYSA-N 0.000 description 1
- LRSASMSXMSNRBT-UHFFFAOYSA-N 5-methylcytosine Chemical compound CC1=CNC(=O)N=C1N LRSASMSXMSNRBT-UHFFFAOYSA-N 0.000 description 1
- 101710146995 Acyl carrier protein Proteins 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 108091029845 Aminoallyl nucleotide Proteins 0.000 description 1
- 108020000992 Ancient DNA Proteins 0.000 description 1
- 108020005544 Antisense RNA Proteins 0.000 description 1
- 239000004475 Arginine Substances 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 239000002126 C01EB10 - Adenosine Substances 0.000 description 1
- 101000708016 Caenorhabditis elegans Sentrin-specific protease Proteins 0.000 description 1
- KXDHJXZQYSOELW-UHFFFAOYSA-M Carbamate Chemical compound NC([O-])=O KXDHJXZQYSOELW-UHFFFAOYSA-M 0.000 description 1
- 108090000994 Catalytic RNA Proteins 0.000 description 1
- 102000053642 Catalytic RNA Human genes 0.000 description 1
- 108090000317 Chymotrypsin Proteins 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 108091035707 Consensus sequence Proteins 0.000 description 1
- MIKUYHXYGGJMLM-GIMIYPNGSA-N Crotonoside Natural products C1=NC2=C(N)NC(=O)N=C2N1[C@H]1O[C@@H](CO)[C@H](O)[C@@H]1O MIKUYHXYGGJMLM-GIMIYPNGSA-N 0.000 description 1
- 108010005843 Cysteine Proteases Proteins 0.000 description 1
- 102000005927 Cysteine Proteases Human genes 0.000 description 1
- UHDGCWIWMRVCDJ-PSQAKQOGSA-N Cytidine Natural products O=C1N=C(N)C=CN1[C@@H]1[C@@H](O)[C@@H](O)[C@H](CO)O1 UHDGCWIWMRVCDJ-PSQAKQOGSA-N 0.000 description 1
- NYHBQMYGNKIUIF-UHFFFAOYSA-N D-guanosine Natural products C1=2NC(N)=NC(=O)C=2N=CN1C1OC(CO)C(O)C1O NYHBQMYGNKIUIF-UHFFFAOYSA-N 0.000 description 1
- 230000006820 DNA synthesis Effects 0.000 description 1
- 102000007260 Deoxyribonuclease I Human genes 0.000 description 1
- 108010008532 Deoxyribonuclease I Proteins 0.000 description 1
- AHCYMLUZIRLXAA-SHYZEUOFSA-N Deoxyuridine 5'-triphosphate Chemical compound O1[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)[C@@H](O)C[C@@H]1N1C(=O)NC(=O)C=C1 AHCYMLUZIRLXAA-SHYZEUOFSA-N 0.000 description 1
- 235000017274 Diospyros sandwicensis Nutrition 0.000 description 1
- 102000005593 Endopeptidases Human genes 0.000 description 1
- 108010059378 Endopeptidases Proteins 0.000 description 1
- 108010013369 Enteropeptidase Proteins 0.000 description 1
- 102100029727 Enteropeptidase Human genes 0.000 description 1
- 108700024394 Exon Proteins 0.000 description 1
- 108010074860 Factor Xa Proteins 0.000 description 1
- 108091081406 G-quadruplex Proteins 0.000 description 1
- 208000034951 Genetic Translocation Diseases 0.000 description 1
- 101000878605 Homo sapiens Low affinity immunoglobulin epsilon Fc receptor Proteins 0.000 description 1
- 101000684503 Homo sapiens Sentrin-specific protease 3 Proteins 0.000 description 1
- 241001354547 Human rhinovirus C3 Species 0.000 description 1
- UGQMRVRMYYASKQ-UHFFFAOYSA-N Hypoxanthine nucleoside Natural products OC1C(O)C(CO)OC1N1C(NC=NC2=O)=C2N=C1 UGQMRVRMYYASKQ-UHFFFAOYSA-N 0.000 description 1
- 108060005987 Kallikrein Proteins 0.000 description 1
- 102000001399 Kallikrein Human genes 0.000 description 1
- LRQKBLKVPFOOQJ-YFKPBYRVSA-N L-norleucine Chemical compound CCCC[C@H]([NH3+])C([O-])=O LRQKBLKVPFOOQJ-YFKPBYRVSA-N 0.000 description 1
- 241000282838 Lama Species 0.000 description 1
- 102100038007 Low affinity immunoglobulin epsilon Fc receptor Human genes 0.000 description 1
- 101001018085 Lysobacter enzymogenes Lysyl endopeptidase Proteins 0.000 description 1
- WAEMQWOKJMHJLA-UHFFFAOYSA-N Manganese(2+) Chemical compound [Mn+2] WAEMQWOKJMHJLA-UHFFFAOYSA-N 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 108020005196 Mitochondrial DNA Proteins 0.000 description 1
- 108020004711 Nucleic Acid Probes Proteins 0.000 description 1
- 108090000526 Papain Proteins 0.000 description 1
- 108090000284 Pepsin A Proteins 0.000 description 1
- 102000057297 Pepsin A Human genes 0.000 description 1
- 102000035195 Peptidases Human genes 0.000 description 1
- 108091005804 Peptidases Proteins 0.000 description 1
- ABLZXFCXXLZCGV-UHFFFAOYSA-N Phosphorous acid Chemical group OP(O)=O ABLZXFCXXLZCGV-UHFFFAOYSA-N 0.000 description 1
- 239000004743 Polypropylene Substances 0.000 description 1
- 102000006437 Proprotein Convertases Human genes 0.000 description 1
- 108010044159 Proprotein Convertases Proteins 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 102000009609 Pyrophosphatases Human genes 0.000 description 1
- 108010009413 Pyrophosphatases Proteins 0.000 description 1
- 108091034057 RNA (poly(A)) Proteins 0.000 description 1
- 239000013616 RNA primer Substances 0.000 description 1
- 108020004511 Recombinant DNA Proteins 0.000 description 1
- 102000007056 Recombinant Fusion Proteins Human genes 0.000 description 1
- 108010008281 Recombinant Fusion Proteins Proteins 0.000 description 1
- 102100025290 Ribonuclease H1 Human genes 0.000 description 1
- 101100191561 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PRP3 gene Proteins 0.000 description 1
- 102100023645 Sentrin-specific protease 3 Human genes 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 108020003224 Small Nucleolar RNA Proteins 0.000 description 1
- 102000042773 Small Nucleolar RNA Human genes 0.000 description 1
- 108020004459 Small interfering RNA Proteins 0.000 description 1
- 108010017842 Telomerase Proteins 0.000 description 1
- 108090000190 Thrombin Proteins 0.000 description 1
- IQFYYKKMVGJFEH-XLPZGREQSA-N Thymidine Chemical class O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 IQFYYKKMVGJFEH-XLPZGREQSA-N 0.000 description 1
- 102000003978 Tissue Plasminogen Activator Human genes 0.000 description 1
- 108090000373 Tissue Plasminogen Activator Proteins 0.000 description 1
- 241000723792 Tobacco etch virus Species 0.000 description 1
- 108091032917 Transfer-messenger RNA Proteins 0.000 description 1
- 108090000631 Trypsin Proteins 0.000 description 1
- 102000004142 Trypsin Human genes 0.000 description 1
- 108090000848 Ubiquitin Proteins 0.000 description 1
- 102000044159 Ubiquitin Human genes 0.000 description 1
- DRTQHJPVMGBUCF-XVFCMESISA-N Uridine Chemical class O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-XVFCMESISA-N 0.000 description 1
- 102000003990 Urokinase-type plasminogen activator Human genes 0.000 description 1
- 108090000435 Urokinase-type plasminogen activator Proteins 0.000 description 1
- 241001531188 [Eubacterium] rectale Species 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000002378 acidificating effect Effects 0.000 description 1
- 125000002015 acyclic group Chemical group 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 229960005305 adenosine Drugs 0.000 description 1
- 238000001042 affinity chromatography Methods 0.000 description 1
- 238000001261 affinity purification Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 150000001412 amines Chemical class 0.000 description 1
- 230000000692 anti-sense effect Effects 0.000 description 1
- PYMYPHUHKUWMLA-WDCZJNDASA-N arabinose Chemical compound OC[C@@H](O)[C@@H](O)[C@H](O)C=O PYMYPHUHKUWMLA-WDCZJNDASA-N 0.000 description 1
- 125000003118 aryl group Chemical group 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000002869 basic local alignment search tool Methods 0.000 description 1
- 239000012620 biological material Substances 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 125000002837 carbocyclic group Chemical group 0.000 description 1
- 125000004432 carbon atom Chemical group C* 0.000 description 1
- 238000010523 cascade reaction Methods 0.000 description 1
- 238000004113 cell culture Methods 0.000 description 1
- 108091092328 cellular RNA Proteins 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 239000013043 chemical agent Substances 0.000 description 1
- 238000007385 chemical modification Methods 0.000 description 1
- 239000007806 chemical reaction intermediate Substances 0.000 description 1
- 239000003638 chemical reducing agent Substances 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 229960002376 chymotrypsin Drugs 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- UHDGCWIWMRVCDJ-ZAKLUEHWSA-N cytidine Chemical compound O=C1N=C(N)C=CN1[C@H]1[C@H](O)[C@@H](O)[C@H](CO)O1 UHDGCWIWMRVCDJ-ZAKLUEHWSA-N 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- VGONTNSXDCQUGY-UHFFFAOYSA-N desoxyinosine Natural products C1C(O)C(CO)OC1N1C(NC=NC2=O)=C2N=C1 VGONTNSXDCQUGY-UHFFFAOYSA-N 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 229940042399 direct acting antivirals protease inhibitors Drugs 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 229940066758 endopeptidases Drugs 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 210000001808 exosome Anatomy 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000000834 fixative Substances 0.000 description 1
- 238000011010 flushing procedure Methods 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 239000013505 freshwater Substances 0.000 description 1
- 150000002243 furanoses Chemical class 0.000 description 1
- 239000007789 gas Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000010362 genome editing Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000013595 glycosylation Effects 0.000 description 1
- 238000006206 glycosylation reaction Methods 0.000 description 1
- 229940029575 guanosine Drugs 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 229920001519 homopolymer Polymers 0.000 description 1
- 230000002209 hydrophobic effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 239000002198 insoluble material Substances 0.000 description 1
- BPHPUYQFMNQIOC-NXRLNHOXSA-N isopropyl beta-D-thiogalactopyranoside Chemical compound CC(C)S[C@@H]1O[C@H](CO)[C@H](O)[C@H](O)[C@H]1O BPHPUYQFMNQIOC-NXRLNHOXSA-N 0.000 description 1
- 238000011901 isothermal amplification Methods 0.000 description 1
- 229940039088 kininogenase Drugs 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 229910021645 metal ion Inorganic materials 0.000 description 1
- ZQAUNTSBAZCVIO-UHFFFAOYSA-N methoxyphosphonamidic acid Chemical compound COP(N)(O)=O ZQAUNTSBAZCVIO-UHFFFAOYSA-N 0.000 description 1
- YACKEPLHDIMKIO-UHFFFAOYSA-N methylphosphonic acid Chemical compound CP(O)(O)=O YACKEPLHDIMKIO-UHFFFAOYSA-N 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 125000004573 morpholin-4-yl group Chemical group N1(CCOCC1)* 0.000 description 1
- 238000002703 mutagenesis Methods 0.000 description 1
- 231100000350 mutagenesis Toxicity 0.000 description 1
- 229910052759 nickel Inorganic materials 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 238000007899 nucleic acid hybridization Methods 0.000 description 1
- 239000002853 nucleic acid probe Substances 0.000 description 1
- 238000001921 nucleic acid quantification Methods 0.000 description 1
- 238000011330 nucleic acid test Methods 0.000 description 1
- 239000002777 nucleoside Substances 0.000 description 1
- 125000003835 nucleoside group Chemical group 0.000 description 1
- 238000002515 oligonucleotide synthesis Methods 0.000 description 1
- 231100000590 oncogenic Toxicity 0.000 description 1
- 230000002246 oncogenic effect Effects 0.000 description 1
- 229940055729 papain Drugs 0.000 description 1
- 235000019834 papain Nutrition 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 229940111202 pepsin Drugs 0.000 description 1
- 239000000137 peptide hydrolase inhibitor Substances 0.000 description 1
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 description 1
- PTMHPRAIXMAOOB-UHFFFAOYSA-L phosphoramidate Chemical compound NP([O-])([O-])=O PTMHPRAIXMAOOB-UHFFFAOYSA-L 0.000 description 1
- PTMHPRAIXMAOOB-UHFFFAOYSA-N phosphoramidic acid Chemical compound NP(O)(O)=O PTMHPRAIXMAOOB-UHFFFAOYSA-N 0.000 description 1
- 230000026731 phosphorylation Effects 0.000 description 1
- 238000006366 phosphorylation reaction Methods 0.000 description 1
- 239000013600 plasmid vector Substances 0.000 description 1
- 210000004180 plasmocyte Anatomy 0.000 description 1
- 239000004033 plastic Substances 0.000 description 1
- 229920000729 poly(L-lysine) polymer Polymers 0.000 description 1
- 229920001155 polypropylene Polymers 0.000 description 1
- 230000001124 posttranscriptional effect Effects 0.000 description 1
- 238000009598 prenatal testing Methods 0.000 description 1
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 210000001236 prokaryotic cell Anatomy 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 235000019419 proteases Nutrition 0.000 description 1
- 150000003214 pyranose derivatives Chemical class 0.000 description 1
- 230000002285 radioactive effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 229920005989 resin Polymers 0.000 description 1
- 239000011347 resin Substances 0.000 description 1
- 238000003757 reverse transcription PCR Methods 0.000 description 1
- 108010052833 ribonuclease HI Proteins 0.000 description 1
- 108020004418 ribosomal RNA Proteins 0.000 description 1
- 108091092562 ribozyme Proteins 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 238000005464 sample preparation method Methods 0.000 description 1
- 238000007086 side reaction Methods 0.000 description 1
- 238000002741 site-directed mutagenesis Methods 0.000 description 1
- 238000004513 sizing Methods 0.000 description 1
- 238000002415 sodium dodecyl sulfate polyacrylamide gel electrophoresis Methods 0.000 description 1
- 238000000527 sonication Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000010473 stable expression Effects 0.000 description 1
- 239000008223 sterile water Substances 0.000 description 1
- 239000011550 stock solution Substances 0.000 description 1
- 150000008163 sugars Chemical class 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 229960004072 thrombin Drugs 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 229960000187 tissue plasminogen activator Drugs 0.000 description 1
- 239000003053 toxin Substances 0.000 description 1
- 231100000765 toxin Toxicity 0.000 description 1
- 108700012359 toxins Proteins 0.000 description 1
- 238000011222 transcriptome analysis Methods 0.000 description 1
- UNXRWKVEANCORM-UHFFFAOYSA-N triphosphoric acid Chemical compound OP(O)(=O)OP(O)(=O)OP(O)(O)=O UNXRWKVEANCORM-UHFFFAOYSA-N 0.000 description 1
- 239000012588 trypsin Substances 0.000 description 1
- 229960001322 trypsin Drugs 0.000 description 1
- 241001430294 unidentified retrovirus Species 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 229960005356 urokinase Drugs 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
- 239000011534 wash buffer Substances 0.000 description 1
- 229940075420 xanthine Drugs 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/6853—Nucleic acid amplification reactions using modified primers or templates
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K14/00—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
- C07K14/435—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
- C07K14/43504—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from invertebrates
- C07K14/43563—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from invertebrates from insects
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/10—Transferases (2.)
- C12N9/12—Transferases (2.) transferring phosphorus containing groups, e.g. kinases (2.7)
- C12N9/1241—Nucleotidyltransferases (2.7.7)
- C12N9/1276—RNA-directed DNA polymerase (2.7.7.49), i.e. reverse transcriptase or telomerase
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12P—FERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
- C12P19/00—Preparation of compounds containing saccharide radicals
- C12P19/26—Preparation of nitrogen-containing carbohydrates
- C12P19/28—N-glycosides
- C12P19/30—Nucleotides
- C12P19/34—Polynucleotides, e.g. nucleic acids, oligoribonucleotides
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K2319/00—Fusion polypeptide
- C07K2319/20—Fusion polypeptide containing a tag with affinity for a non-protein ligand
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K2319/00—Fusion polypeptide
- C07K2319/20—Fusion polypeptide containing a tag with affinity for a non-protein ligand
- C07K2319/21—Fusion polypeptide containing a tag with affinity for a non-protein ligand containing a His-tag
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K2319/00—Fusion polypeptide
- C07K2319/20—Fusion polypeptide containing a tag with affinity for a non-protein ligand
- C07K2319/24—Fusion polypeptide containing a tag with affinity for a non-protein ligand containing a MBP (maltose binding protein)-tag
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K2319/00—Fusion polypeptide
- C07K2319/35—Fusion polypeptide containing a fusion for enhanced stability/folding during expression, e.g. fusions with chaperones or thioredoxin
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K2319/00—Fusion polypeptide
- C07K2319/40—Fusion polypeptide containing a tag for immunodetection, or an epitope for immunisation
- C07K2319/43—Fusion polypeptide containing a tag for immunodetection, or an epitope for immunisation containing a FLAG-tag
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2310/00—Structure or type of the nucleic acid
- C12N2310/30—Chemical structure
- C12N2310/34—Spatial arrangement of the modifications
- C12N2310/344—Position-specific modifications, e.g. on every purine, at the 3'-end
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2310/00—Structure or type of the nucleic acid
- C12N2310/30—Chemical structure
- C12N2310/34—Spatial arrangement of the modifications
- C12N2310/345—Spatial arrangement of the modifications having at least two different backbone modifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2310/00—Structure or type of the nucleic acid
- C12N2310/30—Chemical structure
- C12N2310/35—Nature of the modification
- C12N2310/351—Conjugate
- C12N2310/3517—Marker; Tag
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A50/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather
- Y02A50/30—Against vector-borne diseases, e.g. mosquito-borne, fly-borne, tick-borne or waterborne diseases whose impact is exacerbated by climate change
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Organic Chemistry (AREA)
- Zoology (AREA)
- Engineering & Computer Science (AREA)
- Wood Science & Technology (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Microbiology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Medicinal Chemistry (AREA)
- Physics & Mathematics (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Immunology (AREA)
- Analytical Chemistry (AREA)
- Insects & Arthropods (AREA)
- Toxicology (AREA)
- Tropical Medicine & Parasitology (AREA)
- Gastroenterology & Hepatology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Plant Pathology (AREA)
- General Chemical & Material Sciences (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Preparation Of Compounds By Using Micro-Organisms (AREA)
- Enzymes And Modification Thereof (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明提供了用于核酸合成,包括使用修饰的真核非长末端重复序列逆转录酶(非LTR RT)蛋白跨非连续模板的有序和连续的互补DNA(cDNA)合成的组合物和方法。
Description
本申请是2019年8月8日申请的PCT国际申请PCT/US2019/045817于2021年4月7日进入中国国家阶段的、申请号为201980066006.X且发明名称为“用于跨非连续模板的有序和连续的互补DNA(cDNA)合成的组合物和方法”的发明专利申请的分案申请。
序列表
本申请包含序列表,该序列表已经以ASCII格式电子提交,并在此整体通过引用并入。所述ASCII副本于2019年8月7日创建,名为51429-002WO2_Sequence_Listing_08.07.2019_ST25,大小为132350字节。
发明领域
本发明涉及用于受控的核酸合成,包括跨非连续模板的有序和连续的互补DNA(cDNA)合成的方法和组合物。
发明背景
RNA是起作用的DNA遗传密码或病毒的基因组密码。RNA包含相对简化的当前状态的指令和结果,而不是每种可能状态的难以解释的DNA百科全书。然而,从信息丰富的RNA中恢复无偏和未改变的序列受到将其转化为cDNA的方法的挑战,cDNA是基于PCR的序列检测(例如,用于检测HIV和其他病毒的存在)、基于杂交的微阵列分析(例如,用于非编码RNA)、高通量测序(例如,用于单细胞或批量mRNA转录组分析)和其他读出的底物。
因此,对于研究和临床应用,包括使用多种平台的核酸杂交、PCR和下一代测序(NGS),存在未满足的对单独或共同转化性技术的需求,所述技术用于已知或未知核苷酸内容物的完整或片段化的RNA和/或DNA的分析。
发明概述
本发明特别涉及用于受控的核酸合成,包括跨非连续模板的有序和连续的互补DNA(cDNA)合成的组合物和方法,以及非逆转录病毒RT蛋白的非天然末端转移酶活性。
一方面,本发明的特征在于分离的真核非长末端重复序列逆转录酶(非LTR RT)蛋白,其包含截短的N末端区域、RNA结合结构域、RT结构域和核酸内切酶结构域,其中所述核酸内切酶结构域包含消除核酸内切酶功能的突变。在一些方面,所述真核非LTR RT蛋白是R2逆转录元件RT(R2 RT)蛋白。在一些方面,所述截短的N末端区域导致与全长非LTR RT蛋白相比,从非LTR RT蛋白的N末端缺失69至303个氨基酸。在一些方面,所述截短的N末端区域导致与全长非LTR RT蛋白相比,从非LTR RT蛋白的N末端缺失69至274个氨基酸。在一些方面,所述截短的N末端区域导致全部或部分的序列特异性DNA结合结构域缺失。在一些方面,所述截短的N末端结构域导致全部的序列特异性DNA结合结构域缺失。在一些方面,所述截短的N末端区域导致与全长非LTR RT蛋白相比,从非LTR RT蛋白的N末端缺失274至303个氨基酸。在一些方面,所述真核非LTR RT蛋白不包含序列特异性DNA结合结构域。在一些方面,所述真核非LTR RT蛋白源自节肢动物。在一些方面,所述节肢动物是家蚕(Bombyxmori)。
在一些方面,所述真核非LTR RT蛋白是家蚕R2 RT蛋白。
在一些方面,所述消除核酸内切酶功能的突变是全长家蚕R2 RT(SEQ ID NO:1)的氨基酸残基D996、D1009或K1026处的置换突变。在一些方面,所述置换突变在氨基酸残基D996处。在一些方面,氨基酸残基D996被除Glu(E)以外的任何氨基酸置换。在一些方面,所述置换突变是D996A突变。在一些方面,所述置换突变在氨基酸残基D1009处。在一些方面,氨基酸残基D1009被除Glu(E)以外的任何氨基酸置换。在一些方面,所述置换突变是D1009A突变。在一些方面,所述置换突变在氨基酸残基K1026处。在一些方面,所述置换突变是K1026A、K1026D或K1026E突变。在一些方面,所述置换突变是K1026A突变。
在一些方面,所述消除核酸内切酶功能的突变是氨基酸残基K1026和K1029处的置换突变。在一些方面,所述置换突变是K1026A和K1029A突变。
在一些方面,所述真核非LTR RT蛋白包含稳定蛋白。在一些方面,所述稳定蛋白连接到所述真核非LTR RT蛋白的N末端或C末端。在一些方面,所述稳定蛋白通过接头肽连接到所述真核非LTR RT蛋白。在一些方面,所述稳定蛋白是麦芽糖结合蛋白(MBP)或其变体。在一些方面,所述稳定蛋白连接到所述真核非LTR RT蛋白的N末端。
在一些方面,所述真核非LTR RT蛋白包含纯化标签。在一些方面,所述纯化标签连接到所述真核非LTR RT蛋白的N末端或C末端。在一些方面,所述纯化标签通过接头肽连接到所述真核非LTR RT蛋白。在一些方面,所述纯化标签是组氨酸标签、蛋白A标签或FLAG肽标签。在一些方面,所述组氨酸标签是6x-组氨酸标签。在一些方面,所述蛋白A标签是串联蛋白A标签。在一些方面,所述FLAG肽标签是3x-FLAG肽标签。在一些方面,所述纯化标签连接到所述真核非LTR RT蛋白的C末端。在一些方面,所述接头肽是可切割接头。
另一方面,本发明的特征在于包含氨基酸序列SEQ ID NO:2的分离的真核非LTRRT蛋白。
另一方面,本发明的特征在于包含氨基酸序列SEQ ID NO:3的分离的真核非LTRRT蛋白。
在一些方面,所述真核非LTR RT蛋白基本上不含核酸污染物。
另一方面,本发明的特征在于使单链或部分单链核酸的3’末端延伸至少一个核苷酸的方法,所述方法包括在包含锰离子的缓冲液中使所述单链或部分单链核酸与具有核苷酸聚合酶活性的非逆转录病毒RT蛋白接触。锰离子通常在足以支持聚合酶活性的确定的和/或预定的浓度内,通常在0.1至10mM或0.5至5mM的范围内。在一些方面,所述单链或部分单链核酸是DNA。在一些方面,所述接触在末端脱氧核苷酸转移酶(TdT)、逆转录病毒RT蛋白或任何其他非RT蛋白不存在的情况下进行。在一些方面,所述单链或部分单链核酸是RNA。在一些方面,所述接触在RNA连接酶或聚腺苷RNA聚合酶、聚尿苷RNA聚合酶或任何其他非RT蛋白不存在的情况下进行。
另一方面,本发明的特征在于使A型核酸双链体的3’末端延伸至少一个核苷酸的方法,所述方法包括在包含锰离子的缓冲液中使所述A型核酸双链体与具有核苷酸聚合酶活性的非逆转录病毒RT蛋白接触。在一些方面,所述A型核酸双链体是RNA-RNA核酸双链体、部分RNA-RNA核酸双链体或其修饰形式。在一些方面,RNA-RNA核酸双链体、部分RNA-RNA核酸双链体或其修饰形式的一个或两个末端是平末端,或包含单核苷酸或其他短3’突出端。在一些方面,所述A型核酸双链体是RNA-DNA核酸双链体、部分RNA-DNA核酸双链体或其修饰形式。在一些方面,RNA-DNA核酸双链体、部分RNA-DNA核酸双链体或其修饰形式的一个或两个末端是平末端,或包含单核苷酸或其他短3’突出端。
在一些方面,所述非逆转录病毒RT蛋白是真核非LTR RT蛋白或原核或细胞器内含子RT蛋白。在一些方面,所述非逆转录病毒RT蛋白是真核非LTR RT蛋白。在一些方面,所述非逆转录病毒RT蛋白是本文所述的方面的真核非LTR RT蛋白。在一些方面,所述真核非LTRRT蛋白是R2 RT蛋白。在一些方面,所述R2 RT蛋白是家蚕R2 RT蛋白。在一些方面,所述非逆转录病毒RT蛋白是原核或细胞器内含子RT蛋白。在一些方面,所述原核或细胞器内含子RT是直肠真杆菌(Eubacterium rectale)II组内含子RT蛋白。
在一些方面,所述缓冲液包含一种或多种核糖核苷三磷酸(NTP)、脱氧核糖核苷三磷酸(dNTP)或二脱氧核糖核苷三磷酸(ddNTP)或其核苷酸类似物。在一些方面,所述接触在约4℃至约50℃的温度下进行。在一些方面,所述接触在约37℃的温度下进行。
另一方面,本发明的特征在于制备互补DNA(cDNA)分子的方法,包括:(a)提供包含引物链和非延伸链的引物双链体,其中所述引物链的3’末端包含+1嘧啶核苷酸突出端;(b)提供在其3’末端包含嘌呤核苷酸的RNA模板;和(c)在包含镁离子的缓冲液中使所述引物双链体和RNA模板与RT接触,其中所述接触在有效产生与所述RNA模板基本上互补的cDNA分子的条件下进行。在一些方面,所述缓冲液包含一种或多种dNTP或其类似物。在一些方面,所述引物链是DNA引物链。在一些方面,所述引物链包含5’突出端。在一些方面,所述引物链的5’末端或内部位点包含修饰。在一些方面,所述修饰实现所述引物链或所述引物双链体的固定或纯化。在一些方面,所述修饰是与生物素的连接。在一些方面,所述引物链是5’衔接子序列。在一些方面,所述非延伸链包含DNA、RNA、杂交DNA和RNA或其修饰形式。在一些方面,所述非延伸链的3’末端包含修饰。在一些方面,所述修饰阻断3’延伸。在一些方面,所述修饰是3’C3间隔子或3’单磷酸酯。在一些方面,所述RNA模板是通过本文描述的方面的方法制备的。在一些方面,所述引物双链体是通过本文描述的方面的方法制备的。在一些方面,所述RT是真核非LTR RT蛋白。在一些方面,所述真核非LTR RT蛋白是R2 RT蛋白。在一些方面,所述R2 RT蛋白是家蚕R2 RT蛋白。在一些方面,所述真核非LTR RT蛋白是本文描述的方面的真核非LTR RT蛋白。在一些方面,所述RNA模板在其3’末端包含嘌呤dNTP、NTP、ddNTP或核苷酸类似物。在一些方面,所述RNA模板的5’末端包含修饰。在一些方面,所述修饰是不可逆修饰。在一些方面,所述不可逆修饰是5’C6间隔子或生物素。在一些方面,所述修饰是可逆修饰。在一些方面,所述可逆修饰是5’腺苷酰化。在一些方面,所述接触在第二模板的存在下进行,其中所述第二模板在其3’末端包含嘧啶核苷酸。在一些方面,所述第二模板包含DNA、RNA、杂交DNA和RNA或其修饰形式。在一些方面,所述第二模板在其3’末端包含嘧啶核糖核苷酸。在一些方面,所述第二模板是3’衔接子序列的互补序列。在一些方面,所述接触在有效产生包含所述5’衔接子序列、与所述RNA模板基本上互补的序列和所述3’衔接子序列的cDNA分子的条件下进行。在一些方面,所述第二模板的5’末端包含修饰。在一些方面,所述修饰是不可逆修饰。在一些方面,所述不可逆修饰是5’C6间隔子或生物素。在一些方面,所述修饰是可逆修饰。在一些方面,所述可逆修饰是5’腺苷酰化。在一些方面,所述接触在约4℃至约50℃的温度下进行。在一些方面,所述接触在约37℃的温度下进行。在一些方面,所述方法在单一容器中进行。
应理解,本文描述的各种实施方案的一个、一些或全部特性可以组合以形成本发明的其他实施方案。本发明的这些和其他方面对于本领域技术人员将变得显而易见。通过下面的详细描述进一步描述本发明的这些和其他实施方案。
附图简述
图1A.各种RT蛋白的高产率制备:线长度表示重组RT蛋白之间R2 RT氨基酸序列的相对长度。在线条上方,从左(N末端)到右(C末端)表示全长蛋白的区域:序列特异性DNA结合结构域、RNA结合区域、RT区域和核酸内切酶结构域。
图1B.SDS-PAGE和考马斯染色表明,用于本文所述的活性测定的纯化的MBP和6x-组氨酸标记的RT蛋白适当地不含蛋白污染物。
图1C.代表性的每体积收获的细菌的3柱纯化产率。不同的项目是不同的实验重复。星号表示第一步作为批量结合完成;除此之外,所有纯化步骤均使用预装的商业柱完成。与最终凝胶过滤柱的合并蛋白单体峰相比,来自空隙体积部分的260与280nm吸光度比值更高,表明存在核酸污染。
图2.MBP和6x-组氨酸标记的纯化RT蛋白引物延伸测定的结果。将DNA引物退火至纯化的RNA模板内的互补区域,并与所示酶和所有4种dNTP一起孵育。RT蛋白以相同的摩尔浓度使用。泳道+/-表示产品变性后,变性PAGE和SYBR Gold染色之前是否存在RNA酶A。显示了从完全延伸到模板5’末端的预期cDNA产物,其大小范围是由非模板化核苷酸(nt)添加到模板配对的cDNA 3’末端导致的。
图3.测定纯化的RT蛋白的持续性、连续模板复制。引物是带有+1T 3’突出端的DNA。模板是顶部显示的24nt RNA或DNA或两者的复合物(模板5’-3’)。如所示的,RT蛋白是Eure或BomoC(ed)(出于空间考虑,使用BomoC而不是BomoC(ed)用于标记)。使用两种模板浓度:如所示的0.4或4微摩尔。泳道+/-表示产品变性后,变性PAGE和SYBR Gold染色之前存在或不存在RNA酶A。RNA酶A去除了引物双链体的非延伸链和模板,其在DNA引物和所示产物下方的凝胶区域中迁移。“无enz”是无酶对照。“cDNA”表示通过复制单一模板从引物延伸得到的产物,而“Concat”表示通过连续模板复制进行的引物延伸。
图4A.通过变性PAGE和SYBR Gold染色分析在锰离子的存在下的单链RNA3’末端的延伸。泳道+/-表示产物变性后存在或不存在RNA酶A。“无enz”泳道为输入RNA寡核苷酸。虚线左侧的凝胶泳道来自包含BomoC(ed)核酸内切酶失活的RT蛋白的反应,而虚线右侧的凝胶泳道则包含没有核酸内切酶失活的突变的情况下的NBomoC。BomoC(ed)反应缺少在具有Mn2+的3’加尾缓冲液条件下持续观察到的NBomoC的一般核酸降解,而对于具有折叠成G-四链体的G的3’尾部的产物则不那么明显。NBoMoC(ed)中的核酸内切酶失活突变消除了与NBoMoC的反应中的产物降解。
图4B.BomoC(ed)可以利用ddATP在与Mn2++/-Mg2+的反应中延伸RNA 3’末端。每组的MnCl2滴度分别为0.5、1、2、5mM。
图5是显示通过变性PAGE和SYBR Gold染色分析的在Mn2+的存在下单链RNA的EureRT非模板化延伸的图像。在Mn2+和不同核苷酸三磷酸组合的存在下延伸RNA寡核苷酸,所述不同核苷酸三磷酸组合包括高浓度(500微摩尔)的dATP或dTTP和dCTP中的每一种,含有或不含显示的ddNTP。
图6A.通过变性PAGE和SYBR Gold染色分析的双链体核酸3末端的非模板化延伸。测定使用BomoC(ed)酶。“无enz”泳道为输入双链体。泳道+/-表示产物变性后存在或不存在RNA酶A。在与Mn2+的反应中,用每种为500微摩尔的所显示的核苷酸延伸平末端双链体RNA(dsRNA)或双链体DNA(dsDNA)。dsRNA组的“dTTP”泳道中的高分子量产物是不可重现的人工产物(artifact)。
图6B.在所示的含Mg2+或Mn2+的缓冲液中,用500微摩尔的4种dNTP中的每一种或单独的dATP延伸平末端双链体RNA(dsRNA)。
图7A.通过变性PAGE和SYBR Gold染色分析的单链DNA的BomoC(ed)非模板化延伸。“无enz”泳道是输入DNA。(A)如图所示,在含有所示的Mg2+或Mn2+的缓冲液中,用500微摩尔的4种dNTP中的每一种或单独的dATP延伸DNA寡核苷酸。
图7B.在所示的Mn2+和不同核苷酸的存在下延伸DNA寡核苷酸。
图8是显示单链DNA的Eure RT非模板化延伸的图像。在所示的含有Mg2+或Mn2+的缓冲液中,用500微摩尔的4种dNTP中的每一种或单独的dATP延伸DNA寡核苷酸。“无enz”泳道为输入DNA。在含有所有4种dNTP的Mg2+缓冲液中检测到的大多数产物代表了另一种寡核苷酸上cDNA合成的非特异性寡核苷酸3’末端引发。
图9是显示通过变性PAGE和SYBR Gold染色分析的通过连续模板复制进行BomoC(ed)cDNA串联的图像。反应包括双链体引物,高浓度的一种dNTP和一种3’末端与高浓度dNTP互补的模板。在具有相同dNTP浓度的反应中,模板为3’C。“单模板cDNA”是通过复制一个模板延伸的引物,而串联体是复制多个模板分子的产物。由于引物延伸2至4个非模板化核苷酸使其对于引发cDNA合成失活,产生刚好在40nt标志物以下迁移的产物。泳道+表示产物变性后添加RNA酶A,其去除了所述引物双链体的非延伸链和模板。
图10是显示通过变性PAGE和SYBR Gold染色分析的在包含Mg2+但不包含Mn2的cDNA合成反应中引物双链体的DNA引物链的3’加尾的图像。反应包含带有平末端(左侧)或+1T突出端(右侧)的双链体引物,并且显示的dNTP浓度:每个反应含有250或2.5微摩尔的4种dNTP混合物,一些反应中补充了500微摩尔的单一dNTP。反应包含BomoC(ed)(出于空间原因,在此图中表示为BoMo)或Eure RT。“无enz”泳道是具有一条DNA链和一条RNA链的输入双链体引物,所述一条RNA链具有3’延伸阻断基。泳道+/-表示产物变性后RNA酶A的存在或不存在。特别是对于BomoC(ed),引物链上的+1T(更通常为+1个嘧啶)突出端在与所有4种dNTP的反应中抑制非模板化核苷酸添加。通过将虚线框中的产物与各自的“无enz”+RNA酶反应进行比较可以看出这一点,该反应为单独的输入引物链的迁移提供了标志物。平末端引物末端具有几个添加到其中的核苷酸,但+1T引物末端在很大程度上未改变。在对应于不同输入引物的虚线框下方示出了该结果。
图11.第一模板转换的独特特异性的加强。在所有4种dNTP的存在下,使用具有+1T突出端的引物双链体和以3’A或3’G结尾的模板测定BomoC(ed)。通过变性PAGE和SYBR Gold染色分析产物。左侧标志物之后的第一泳道未添加酶。泳道+/-表示产物变性后RNA酶A的存在或不存在,所述RNA酶A去除引物双链体的非延伸链和模板。只有3’A模板用于cDNA合成。
图12.在有序模板转换后,使用cDNA 3’衔接子模板上的5’封闭基团来终止合成。通过变性PAGE和SYBR Gold染色分析来自反应的产物,所述反应包含400nM具有+1T突出端的双链体35-nt引物,200nM具有3’A核糖核苷酸或3’ddA的27-nt RNA寡核苷酸模板,具有3’C的23-nt cDNA 3’衔接子模板,所有4种dNTP(每种250微摩尔)和BomoC(ed)。测试了两种形式的3’衔接子模板序列,区别仅在于不存在或存在终止cDNA合成的5’阻断基团(氨基修饰剂C6,IDT);对于每种形式,使用两种衔接子模板浓度(1X和5X分别为400和2000nM)。“无enz”泳道显示双链体引物链的迁移,该引物具有非延伸的RNA链,具有3’延伸阻断基。泳道+/-表示产物变性后RNA酶A的存在或不存在;RNA酶A去除引物双链体的非延伸链和模板,其在DNA引物和所示产物下方的凝胶区域中迁移。跨单一3’A或3’ddA模板的引物延伸的产物在“cDNA”处迁移,跨单一3’衔接子模板的另外的cDNA延伸的产物在“cDNA+RNA衔接子”处迁移,并且较长的产物具有3’衔接子模板合成的串联重复序列。
图13A和图13B示出了一组示意图,其示出了区分半随机模板跳跃和有序模板转换的特异性原理和结果。在图13B中,有序模板转换的第一步引发跨来自模板库的分子的cDNA合成(单模板转换=cDNAeasi)。然后,第二步使用cDNA 3’末端作为引物来复制3’衔接子模板的分子(双模板转换=cDNAdeca)。
图14A.使用Illumina NGS的衔接子序列,通过有序模板转换进行cDNA合成。通过变性PAGE和SYBR Gold染色分析来自反应的产物,所述反应包含BomoC(ed),具有+1T突出端3’末端的引物和具有5’模板转换合成阻断基的3’C衔接子模板。模板是具有附接的3’ddA的独特序列RNA寡核苷酸。泳道-/+表示产物变性后RNA酶A的存在或不存在,所述RNA酶A去除引物双链体的非延伸链和模板。“无enz”是无酶对照。末端模板显示反应中使用的cDNA 3’衔接子模板:无衔接子模板(--),随机序列(最佳),含Illumina读数1的~35nt引物(通用)或由P5、条形码i5和读数1(全长)组成的全长~70nt Illumina NGS衔接子。使用~35nt通用cDNA 5’衔接子引物(包含读数2的互补序列)进行有序模板转换cDNA合成的证明。
图14B.使用~70nt cDNA 5’衔接子引物(包含P7、条形码i7和读数2的互补序列)进行有序模板转换cDNA合成的证明。跨单一模板的引物延伸的产物在“cDNA”处迁移,跨单一3’衔接子模板的另外的cDNA延伸的产物在“cDNA+终止衔接子”处迁移。
图15A.无PCR有序模板转换cDNA文库。文库使用具有+1T突出端的~70nt cDNA 5’衔接子引物和具有3’C和5’cDNA合成阻断基的~70ntcDNA 3’衔接子模板制成。示意图描绘了部分双链体引物(引物链是P7(i7)R2Illumina NGS衔接子的互补序列)和衔接子模板(有义P5(i5)R2 Illumina NGS衔接子)的寡核苷酸。在有序模板转换工作流程中,模板RNA库用3’ddA加尾(表示为*)。
图15B.使用963个等摩尔的miRNA序列(miRXplore)的模板RNA库,通过变性PAGE和SYBR Gold染色来分析反应产物。全长cDNA文库(标记的cDNA+衔接子模板)和来自仅复制miRNA模板的一些cDNA产物(标记的cDNA)是主要产物。过量的衔接子引物和衔接子模板也被染色。“无enz”是无酶对照。泳道+/-表示产品变性后添加RNA酶A,所述RNA酶A去除引物双链体的非延伸链并截短~70nt 3’衔接子模板。对文库进行测序,显示了与图16B中的低循环PCR文库比较的结果。
图16A.低循环PCR有序模板转换cDNA文库。示意图显示使用具有+1T突出端的~35nt cDNA 5’衔接子引物(引物标记cR2=Illumina读数2的互补序列)和具有3’C和5’cDNA合成阻断基的~35nt cDNA3’衔接子模板(衔接子模板标记R1=Illumina读数1;5’阻断基=实心圆)。模板库是的细线,星号表示3’ddA。箭头在cDNA(上链)上从5’指向3’。随后的PCR掺入标引(i)条形码和P5/P7序列。
图16B.显示963个等摩尔的miRNA序列(miRXplore标准品)中的每个的读取计数的绘图,比较了通过对低PCR文库(dsDNA,Y轴标度;8循环PCR)和无PCR文库(ssDNA,X轴标度)测序比较获得的相对读取计数的log2标度。每个miRNA均以黑点表示。无PCR的文库中一个miRNA的log2标度表观零计数为假零。完全符合将使每个点处于通过实际数据拟合的线上。
发明实施方案详述
简介
本发明的特征在于用于受控的核酸合成,包括跨非连续模板的有序和连续的互补DNA(cDNA)合成的组合物和方法,以及非逆转录病毒RT蛋白的非天然末端转移酶活性。重要的是,这些方法可以在单一容器中进行,没有任何分配或固定步骤。
定义
在详细描述本发明之前,应当理解本发明不限于特定的组合物或生物系统,它们当然可以变化。还应理解,本文所使用的术语仅出于描述特定实施方案的目的,而不旨在进行限制。
如在本说明书和所附权利要求书中使用的,单数形式“一(a)”、“一(an)”和“该(the)”包括复数指称对象,除非内容中另有明确规定。因此,例如,对“分子”的提及任选地包括两种或更多种这样的分子的组合,等等。
如本文所使用,术语“约”是指本技术领域的技术人员容易知道的各个值的通常误差范围。本文中对“约”值或参数的提及包括(并描述)涉及该值或参数本身的实施方案。
如本文所使用,术语“A型”是指包含至少一些RNA性质的核酸双链体的结构(通常是RNA-RNA双链体或RNA-DNA双链体),其与仅由DNA组成的核酸双链体的结构可区别开,所述仅由DNA组成的核酸双链体的结构在典型的细胞和生理缓冲条件下采取独特的B型结构。在某些环境中或当被某些蛋白结合时,DNA-DNA双链体可能倾向于采取A型几何结构,但是由于核糖糖的额外羟基的阻碍,未观察到包含RNA链的双链体采取B型。
如本文所使用,“扩增”通常是指产生期望序列的多个拷贝的过程。“多个拷贝”是指至少两个拷贝。“拷贝”并非必然意味着与模板序列具有完美的序列互补性或同一性。例如,拷贝可以包括核苷酸类似物,例如脱氧肌苷,有意的序列改变(例如通过包含与模板可杂交但不互补的序列的引物引入的序列改变),和/或在扩增过程中发生的序列错误。
在整个说明书和权利要求书中,词语“包含(comprise)”或诸如“包含(comprises)”或“包含(comprising)”的变体将被理解为暗示包括指定的整数或整数组,但不排除任何其他整数或整数组。
如本文所使用,术语“同源”是指能够形成与核酸双链体的规范几何结构一致的碱基配对的(多个)碱基的存在。
“容器”是指具有顶部、底部和侧面的成形制品,其中顶部包含用于进入内部的开口,所述内部能够容纳液体、气体和/或固体样品(例如,反应混合物)。在一些实施方案中,容器可以具有可打开的顶表面,例如,盖、罩或帽。在一些实施方案中,容器是管(例如聚丙烯管)。
如本文所使用,术语“酶”包括由能够催化生物化学反应的细胞产生的蛋白。此外,除非上下文另有指示,如本文所使用,“酶”包括保留相关催化活性的蛋白片段,并且可以包括合成以保留相关催化活性的人工酶。
当用于描述本文公开的各种逆转录酶(RT)蛋白或蛋白片段时,“分离的”是指已经从表达它的细胞或细胞培养物中鉴定和分离和/或回收的蛋白。来自表达环境的污染物组分(例如核酸污染物)是仍存在于分离的蛋白中并且通常会干扰其使用的物质。在一些方面,例如,通过至少一个纯化步骤将蛋白纯化至基本均质。
如本文所使用,“连接的”或“连接”是指第一和第二蛋白或多肽之间的直接肽键连接,或涉及第三氨基酸序列的连接,该第三氨基酸序列是键合到并且在第一和第二蛋白或多肽之间的肽。例如,氨基酸可以连接一个蛋白或多肽的C末端,并连接至其他蛋白或多肽的N末端。
如本文所使用,“接头”是指长度为两个或更多个氨基酸的氨基酸序列。接头可以由中性、极性或非极性氨基酸组成。接头的长度可以是例如2至100个氨基酸,例如长度为2至50个氨基酸,例如长度为3、5、10、15、20、25、30、35、40、45或50个氨基酸。接头可以是“可切割的”,例如通过酶或化学切割,其可以是自介导的或由物理上分开的试剂介导的。氨基酸序列中的切割位点以及在这样的位点切割的酶和化学物质在本领域中是众所周知的,并且也在本文中进行了描述。在一些方面,接头通过肽键共价连接一个分子和另一个分子。在一些方面,接头是如Smyth等人,Protein Science.12:1313-1322,2003所述的促进相邻(多个)蛋白或(多个)多肽折叠的区域。
术语“包装插页”用于指代通常包含在诸如试剂盒的产品的商业包装中的说明书,其包含有关这样的产品的使用的信息。
如本文所使用,术语“逆转录酶”或“RT”是指蛋白聚合酶,其在完整的未突变状态下可以催化与RNA模板同源的脱氧核苷三磷酸(dNTP)的聚合。许多RT也可以使用DNA模板。一些RT已经进化简并为失活形式,但与活性RT具有可辨别的系统发育关系。RT的用途包括使用RNA以模板合成互补DNA(cDNA),所述互补DNA随后可以用其他步骤克隆到载体中以进行进一步操作,或用于各种扩增方法,例如聚合酶链反应(PCR)、等温扩增(例如,基于核酸序列的扩增(NASBA)、转录介导的扩增(TMA)和自维持的序列复制(3SR)。通过RT进行的cDNA合成可用于不同引物延伸反应方案、cDNA末端的快速扩增(RACE)、化学修饰的检测以及其他可从RNA的cDNA读出和/或有时也从DNA模板中受益的技术。
如本文所使用,术语“内含子RT蛋白”或“细菌内含子RT蛋白”是指内含子(iRT)内编码的天然存在的RT蛋白,通常存在于原核细胞或真核细胞器中,不限于细菌物种,但在这些生物体中被最佳表征。
如本文所使用,术语“非长末端重复序列逆转录酶蛋白”或“非LTR RT蛋白”是指由真核非LTR逆转录转座子编码的天然存在的蛋白,其具有DNA聚合酶活性的多肽片段,以及由此衍生的多肽变体,所述变体包含一个或多个保留或增强RT活性(例如,比活性)和/或纯化产率的氨基酸置换、添加或缺失。一类优选的非LTR RT蛋白是R2和R2相关的或R2样逆转录元件RT(R2 RT)蛋白。因此,如本文所使用,“R2 RT蛋白”或“R2 RT多肽”是指由R2元件或其多肽片段编码的具有完整RT蛋白的某些特性的天然存在的蛋白,以及由其衍生的多肽变体,所述变体包含一个或多个保留或增强期望特性或活性(例如,比活性)和/或纯化产率的氨基酸置换、添加或缺失。R2 RT蛋白变体可以例如包含一个或多个保留或增强RT活性和/或末端转移酶活性的氨基酸置换、添加或缺失。在一些方面,R2 RT蛋白是来自节肢动物的R2 RT蛋白,例如家蚕R2 RT蛋白(例如,具有截短的N末端区域的家蚕R2 RT蛋白(例如,具有与全长家蚕R2 RT(SEQ ID NO:1)相比,导致从家蚕R2 RT蛋白的N末端缺失70至303个氨基酸(例如,缺失70至274个氨基酸和/或缺失274至303个氨基酸)的截短的N末端区域的家蚕R2 RT蛋白)、RNA结合结构域、RT结构域和核酸内切酶结构域,其中所述核酸内切酶结构域包含消除核酸内切酶功能的突变(例如,全长家蚕R2 RT(SEQ ID NO:1)的氨基酸残基D996、D1009或K1026和K1029处的置换突变,例如D996A突变)。
如本文所使用,术语“非逆转录病毒逆转录酶蛋白”或“非逆转录病毒RT蛋白”包括在细胞基因组中进化的RT和RT相关蛋白中,其包括非LTR RT蛋白和细菌或细胞器内含子RT(iRT)蛋白,但不包括在逆转录病毒基因组中进化的RT。与典型的逆转录病毒RT相比,一些细胞RT不需要引物与模板的广泛碱基配对来启动合成。非逆转录病毒RT蛋白的实例包括非LTR RT蛋白、端粒酶和来自自剪接II组内含子的iRT。Simon和Zimmerly.Nucleic AcidsRes.36(22):7219-7229,2008以及Kojima和Kanehisa.Mol Biol Evol.25:1395-1404,2008描述了另外的细菌RT蛋白,其描述了许多其他类别的非逆转录病毒逆转录酶(即,尤其是来自逆转录子的RT和产生多样性的逆转录元件)。
如本文所使用的“聚合酶链反应”或“PCR”技术通常是指这样的过程,其中如例如第4,683,195号美国专利中所述扩增微量的特定核酸、RNA和/或DNA片段。通常,需要从目标区域的末端或以外的区域获得序列信息,以便可以设计寡核苷酸引物;这些引物在序列上将与待扩增模板的相反链相同或相似。两条引物的5’末端核苷酸可以与扩增物质的末端重合。PCR可用于扩增特定RNA序列,来自总基因组DNA的特定DNA序列,以及由总细胞RNA、噬菌体或质粒序列转录的cDNA等。一般参见Mullis等人,Cold Spring HarborSymp.Quant.Biol.51:263(1987)和Erlich编,PCR Technology(Stockton Press,NY,1989)。如本文所使用,PCR被认为是用于扩增核酸测试样品的核酸聚合酶反应方法的一个实例,但不是唯一的实例,包括使用已知的核酸(DNA或RNA)作为引物并利用核酸聚合酶扩增或产生特定核酸片段或扩增或产生与特定核酸互补的特定核酸片段。
如本文互换使用的“多核苷酸”或“核酸”是指任意长度(例如,至少2、3、4、5、6、7、8、9、10、20、30、40、50、100、150、200、250、500、1000个或更多个核酸)的核苷酸的聚合物,并且包括DNA和RNA、其片段或类似物。核苷酸可以是脱氧核糖核苷酸、核糖核苷酸、修饰的核苷酸或碱基和/或其类似物,或可以通过DNA或RNA聚合酶或功能活性聚合酶结构域或通过合成反应掺入聚合物的任何底物。以下是多核苷酸的非限制性实例:基因或基因片段的编码区或非编码区、由连锁分析定义的多个基因座(基因座)、外显子、内含子、信使RNA(mRNA)、转移RNA、转移信使RNA、核糖体RNA、反义RNA、小核RNA(snRNA)、小核仁RNA(snoRNA)、微小RNA(miRNA)、小干扰RNA(siRNA)、核酶、cDNA、重组多核苷酸开放阅读框(ORF)、分支多核苷酸、质粒、载体、具有任何序列的分离的DNA、具有任何序列的分离的RNA、核酸探针和引物。
如上所述,多核苷酸可以包含修饰的核苷酸,例如甲基化的核苷酸和核苷酸类似物。如果存在的话,可以在聚合物组装之前或之后对核苷酸结构进行修饰。核苷酸的序列可以被非核苷酸组分中断。多核苷酸可在合成/聚合后被进一步修饰,例如通过与标记缀合。其他类型的修饰包括,例如“帽”,用类似物置换一种或多种天然存在的核苷酸,核苷酸间修饰,例如,具有自然界中未观察到的连接(例如,甲基膦酸酯、磷酸三酯、氨基磷酸酯(phosphoamidate)、氨基甲酸酯、硫代磷酸酯、二硫代磷酸酯等)的修饰,含有侧基部分的修饰,例如多肽(例如核酸酶、毒素、抗体、信号肽、聚-L-赖氨酸等),含有嵌入剂的修饰(例如吖啶、补骨脂素等),以及(多个)多核苷酸的未修饰形式。此外,糖中通常存在的任何羟基可以被例如膦酸酯基团、磷酸酯基团替代,被标准保护基保护或被活化以制备与另外的核苷酸的另外的连接,或者可以与固体或半固体载体缀合。5’和3’末端OH可以被磷酸化或被胺或1到20个碳原子或更多碳原子的有机封端基团部分取代。其他羟基也可以被衍生化为标准保护基。多核苷酸还可以包含本领域通常已知的核糖或脱氧核糖的类似形式,包括例如2’-O-甲基、2’-O-烯丙基、2’-氟-或2’-叠氮基核糖、碳环糖类似物、α-异头糖、差向异构糖(例如阿拉伯糖、木糖、吡喃糖、呋喃糖)和无环类似物。
本文所述的核酸可包含磷酸二酯键,但是术语“核酸”还涵盖具有其他类型的连接或主链的核酸类似物(例如尤其是磷酰胺、硫代磷酸酯、二硫代磷酸酯、O-甲基氨基磷酸酯、吗啉代、锁核酸(LNA)、甘油核酸(GNA)、苏糖核酸(TNA)和肽核酸(PNA)连接或主链)。在一些实施方案中,核酸可以是DNA(包括例如,基因组DNA、线粒体DNA、cDNA、无细胞DNA(cfDNA)、古DNA、来自甲醛固定石蜡包埋的(FFPE)组织样品或细胞的受损DNA,以及所述DNA中任一种的片段),RNA(包括例如,mRNA、rRNA、tRNA、miRNA、无细胞RNA(cfRNA)和来自FFPE组织样品或细胞的RNA,以及所述RNA中任一种的片段)或杂合体(hybrid)(也称为“嵌合体”),其中核酸包含脱氧核糖核苷酸和核糖核苷酸的任何组合,以及碱基的任何组合,所述碱基包括尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鸟嘌呤、肌苷,以及修饰的或非经典碱基(包括例如,次黄嘌呤、黄嘌呤、7-甲基鸟嘌呤、5,6-二氢尿嘧啶、5-甲基胞嘧啶和5-羟甲基胞嘧啶)。多核苷酸旨在涵盖单个核酸以及多个核酸。多核苷酸可以由任何多核糖核苷酸或多脱氧核糖核苷酸组成,其可以是未修饰的RNA或DNA或修饰的RNA或DNA。例如,多核苷酸可以由以下组成:单链和双链DNA,作为单链和双链区域的混合物的DNA,单链和双链RNA以及作为单链和双链区域的混合物的RNA,包含DNA和RNA的杂合分子,所述杂合分子可以是单链的,或更典型地是双链的,或者是单链和双链区域的混合物。先前的描述适用于本文所提到的所有多核苷酸,包括RNA和DNA。
“多肽”或“蛋白”是指任何天然或合成的氨基酸链,长度为至少两个氨基酸(例如5、10、20、30、40、50、60、70、80、90、100、125、150、175、200、225、250、275、300、325、350、375、400、425、450、475、500、525、550、575、600、700、800个或更多个氨基酸),包括具有天然的或通过酶或化学试剂诱导的修饰(例如糖基化或磷酸化)的氨基酸链。
“部分”或“片段”是指整体的一部分。一部分可以包含多核苷酸或多肽序列区的全长的至少10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%或99.9%。对于多核苷酸,例如,一部分可以包含参考多核苷酸分子的至少5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000个或更多个连续核苷酸。例如,对于多肽,一部分可以包含参考多肽分子的至少3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、50、75、90、100、125、150、175、200、225、250、275、300、350、400、450、500、550、600、650、700、750个或更多个连续氨基酸。在给定蛋白(例如,具有截短区域的非LTR RT蛋白)的截短变体的情况下,截短可以来自蛋白的N末端和/或C末端,并导致与给定蛋白的全长形式(例如,全长非LTR RT蛋白)相比,从各个的末端或多个末端缺失一个或多个连续氨基酸。N末端截短将缺少例如所有全长蛋白氨基酸1-4、1-10、1-200、1-250、1-500个或中间值或更大数量的氨基酸。
“序列同一性”或“序列相似性”是指两个或多个氨基酸序列或两个或多个核苷酸序列之间的同一性或相似性以序列之间的同一性或相似性来表示。序列同一性可以根据“百分比(%)同一性”来衡量,其中百分比越高,序列之间共有的同一性越高。序列相似性可以用百分比相似性来衡量(其考虑保守的氨基酸置换);百分比越高,序列之间共有的相似性越高。当使用标准方法比对时,核酸或氨基酸序列的同源物或直系同源物具有相对高的序列同一性/相似性程度。可以以本领域技术范围内的各种方式来确定序列的最佳比对,例如,Smith Waterman比对算法(Smith等人,J.Mol.Biol.147:195-7,1981)和BLAST(基本局部比对搜索工具;Altschul等人,J.Mol.Biol.215:403-10,1990)。这些和其他比对算法可以使用公众可得的计算机软件进行访问,例如,引入到GENEMATCHER PLUSTM(Schwarz和Dayhof,Atlas of Protein Sequence and Structure,Dayhoff,M.O.,Ed pp 353-358,1979)的“Best Fit”(Smith和Waterman,Advances in Applied Mathematics,482-489,1981)、BLAST、BLAST-2、BLAST-P、BLAST-N、BLAST-X、WU-BLAST-2、ALIGN、ALIGN-2、CLUSTAL或Megalign(DNASTAR)。此外,本领域技术人员可以确定用于测量比对的合适参数,包括在所比较的序列的长度上实现最佳比对所需的任何算法。一般而言,对于多肽,比较序列的长度可以是至少五个氨基酸,优选为10、20、30、40、50、60、70、80、90、100、125、150、175、200、250、300、400、500、600、700、800个或更多个氨基酸,最多达多肽的整个长度。对于核酸,比较序列的长度通常可以是至少10、20、30、40、50、60、70、80、90、100、125、150、175、200、250、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400个或更多个核苷酸,最多达核酸分子的整个长度。应当理解,出于在将DNA序列与RNA序列进行比较时确定序列同一性的目的,胸苷核苷酸(T)等同于尿苷核苷酸(U)。其他天然存在的核苷酸包括但不限于腺苷(A)、胞苷(C)、鸟苷(G)和肌苷(I)。此外,可以使用诸如PHYRE2(Kelly等人,Nat.Protocols.10:845-858,2015)和Mfold(Zuker.Nucleic Acids Res.31(13):3406-3415,2003)的建模程序通过采用相同折叠(二级和/或三级结构)的倾向来比较同源性和相似性。
如本文所定义的“稳定多肽”或“稳定蛋白”是形成融合蛋白的一部分的蛋白,其功能是通过例如增加融合蛋白的另一种蛋白的总体稳定性来增加融合蛋白的总体稳定性。稳定性包括蛋白保留其构象和活性的能力。此外,稳定蛋白可以增强融合蛋白或融合蛋白的另一种蛋白的溶解性。稳定蛋白的使用还可以提供其他优点,例如增加的蛋白表达、改善的蛋白折叠以及在保留特异性活性的情况下短期或长期储存。在稳定蛋白和非LTR RT蛋白之间包含接头肽可以进一步增强这些优点。在一些方面,稳定蛋白与本发明的真核非LTR RT蛋白连接,以在细菌细胞中表达融合蛋白。在一些方面,稳定蛋白是麦芽糖结合蛋白(MBP)。
通常将本发明的修饰的RT蛋白纯化至基本上均质。短语“基本上均质的”、“基本上均质的形式”和“基本上均质”用于表示产物(即分离的RT蛋白)基本上不含来自表达环境的污染物,例如密切相关的核酸、相关的蛋白和/或其他异源污染物质。例如,在相同或几乎相同的(多种)纯化方案后,与相似但未修饰的RT蛋白相比,修饰的RT蛋白可以显示来自表达环境的污染物减少95%或更多(例如96%、97%、98%、99%或99.5%或更多)。
如本文所使用,术语“变体”、“修饰的”、“非天然存在的”和“突变体”是同义词,并且是指多肽或核酸与具体叙述的多肽或核酸相差一个或多个氨基酸或核苷酸插入、缺失、突变、置换、修饰或融合,所述插入、缺失、突变、置换、修饰或融合是使用例如重组DNA技术(例如位点特异性诱变)产生的。通过比较特定多肽的序列和同源多肽的序列,例如系统发生相关的序列,并使高同源性区域(保守区)中产生的改变的数量最小化,或通过用共有序列替代,可以发现确定哪些残基可以被替代、添加或缺失而不消除目标活性的指导。在一些实施方案中,术语“衍生物”、“变体”、“修饰的”、“非天然存在的”和“突变体”可互换使用。
修饰的真核非长末端重复序列逆转录酶(非LTR RT)蛋白
本文提供了用于本公开内容的方法和组合物中的分离的真核非长末端重复序列逆转录酶(非LTR RT)蛋白。所述分离的真核非LTR RT蛋白表现出稳定的表达,无核酸的高产率纯化,例如用于逆转录病毒RT测定的在退火引物-模板底物上的cDNA合成活性和模板“跳跃”活性,实现持续性复制多个物理上分离的模板以生成单个共价连续的cDNA。这样的分离的真核非LTR RT蛋白包括截短的N末端区域、RNA结合结构域、RT结构域和核酸内切酶结构域,其中所述核酸内切酶结构域包括消除核酸内切酶功能的突变。
在某些情况下,真核非LTR RT蛋白是R2样逆转录元件RT(R2样RT)蛋白(例如,R2样RT蛋白)。R2样蛋白将共有蛋白结构的一般原理,以从蛋白N末端到C末端的线性顺序包括:不存在于内含子或逆转录病毒RT中的一个或多个序列特异性DNA结合结构域,存在于内含子RT中但不存在于逆转录病毒RT中的RNA结合区,具有RT活性位点的完整或简并特征基序的共有RT结构域,以及来自限制样核酸内切酶(RLE)家族的C末端核酸内切酶结构域。其他非R2样的非逆转录病毒RT缺乏核酸内切酶结构域或具有来自不同结构家族的核酸内切酶结构域。在某些情况下,真核非LTR RT蛋白是R2逆转录元件RT(R2 RT)蛋白。在一些情况下,真核非LTR RT蛋白源自节肢动物。在某些情况下,所述节肢动物是家蚕,所述蛋白是家蚕R2RT蛋白。
在一些情况下,截短的N末端区域导致与全长非LTR RT蛋白相比,从非LTR RT蛋白的N末端缺失69个(即氨基酸1-69)至303个(即氨基酸1-303)氨基酸。例如,截短的N末端区域可以导致与未截短的全长非LTR RT蛋白相比,非LTR RT蛋白的N末端69个氨基酸(即氨基酸1-69)缺失。因此,在一些情况下,截短的N末端区域可以导致与具有氨基酸序列SEQ IDNO:1的未截短的全长家蚕R2 RT蛋白相比,家蚕R2 RT蛋白的N末端69个氨基酸(即氨基酸1-69)缺失。因此,在一种情况下,具有截短的N末端区域的真核非LTR RT蛋白可以包含氨基酸序列SEQ ID NO:9,所述截短的N末端区域导致与具有氨基酸序列SEQ ID NO:1的未截短的全长家蚕R2RT蛋白相比,家蚕R2 RT蛋白的N末端69个氨基酸(即,氨基酸1-69)缺失。包括氨基酸序列SEQ ID NO:9的分离的真核非LTR RT蛋白是例如ΔN69 R2 RT蛋白,其在本公开内容中详细描述。
供选择地,具有截短的N末端区域的非LTR RT蛋白可以是SEQ ID NO:9的变体,其具有与SEQ ID NO:9具有至少90%序列同一性(例如,至少91%、92%、93%、94%、95%、96%、97%、98%、99%或99.5%序列同一性)的氨基酸序列。包含氨基酸序列SEQ ID NO:9的分离的真核非LTR RT蛋白的另一个实例是具有氨基酸序列SEQ ID NO:6的ΔN69 R2 RT蛋白,其具有N末端MBP标签和C末端6xHis标签。
具有截短的N末端区域的真核非LTR RT蛋白的其他实例包括具有氨基酸序列SEQID NO:14的ΔN69(ed)R2 RT蛋白,所述截短的N末端区域导致与具有氨基酸序列SEQ IDNO:1的未截短的全长家蚕R2 RT蛋白相比,家蚕R2 RT蛋白的N末端69个氨基酸缺失。供选择地,具有截短的N末端区域的非LTR RT蛋白可以是SEQ ID NO:14的变体,其具有与SEQ IDNO:14具有至少90%序列同一性(例如,至少91%、92%、93%、94%、95%、96%、97%、98%、99%或99.5%序列同一性)的氨基酸序列,其中所述变体包含在全长家蚕R2 RT(SEQ IDNO:1)的氨基酸残基D996处的D996A置换突变。包含氨基酸序列SEQ ID NO:14的分离的真核非LTR RT蛋白的另一个实例是具有氨基酸序列SEQ ID NO:13的ΔN69(Ed)R2 RT蛋白,其具有N末端MBP标签和C末端6xHis标签。
在另一个实例中,截短的N末端区域可以导致与未截短的全长非LTR RT蛋白相比,非LTR RT蛋白的N末端303个氨基酸(即,氨基酸1-303)缺失。因此,在一些情况下,截短的N末端区域可以导致与具有氨基酸序列SEQ ID NO:1的未截短的全长家蚕R2 RT蛋白相比,家蚕R2 RT蛋白的N末端303个氨基酸(即,氨基酸1-303)缺失。因此,在一种情况下,具有截短的N末端区域的真核非LTR RT蛋白可以包含氨基酸序列SEQ ID NO:11,所述截短的N末端区域导致与具有氨基酸序列SEQ ID NO:1的未截短的全长家蚕R2 RT蛋白相比,家蚕R2 RT蛋白的N末端303个氨基酸(即,氨基酸1-303)缺失。包含氨基酸序列SEQ ID NO:11的分离的真核非LTR RT蛋白是例如在本公开内容中描述的BomoMin(ed)蛋白。
供选择地,具有截短的N末端区域的非LTR RT蛋白可以是SEQ ID NO:11的变体,其具有与SEQ ID NO:11具有至少90%序列同一性(例如,至少91%、92%、93%、94%、95%、96%、97%、98%、99%或99.5%序列同一性)的氨基酸序列,其中所述变体包括在全长家蚕R2 RT(SEQ ID NO:1)的氨基酸残基D996处的D996A置换突变。包含氨基酸序列SEQ ID NO:11的分离的真核非LTR RT蛋白是例如在本公开内容中详细描述的BomoMin(ed)R2 RT蛋白。包含氨基酸序列SEQ ID NO:11的分离的真核非LTR RT蛋白的另一个实例是具有氨基酸序列SEQ ID NO:12的BomoMin(ed)R2 RT蛋白,其具有N末端MBP标签和C末端6xHis标签。
在一些情况下,所述截短的N末端区域导致与全长非LTR RT蛋白相比,从非LTR RT蛋白的N末端缺失69(即,氨基酸1-69)至274个氨基酸(即,氨基酸1-274)。例如,所述截短的N末端区域可以导致与未截短的全长非LTR RT蛋白相比,非LTR RT蛋白的N末端274个氨基酸(即,氨基酸1-274)缺失。因此,在一些情况下,所述截短的N末端区域可以导致与具有氨基酸序列SEQ ID NO:1的未截短的全长家蚕R2 RT蛋白相比,家蚕R2 RT蛋白的N末端274个氨基酸(即,氨基酸1-274)缺失。因此,在一种情况下,具有截短的N末端区域的真核非LTRRT蛋白可以包含氨基酸序列SEQ ID NO:10,所述截短的N末端区域导致与具有氨基酸序列SEQ ID NO:1的未截短的全长家蚕R2 RT蛋白相比,家蚕R2 RT蛋白的N末端274个氨基酸(即,氨基酸1-274)缺失。包含氨基酸序列SEQ ID NO:10的分离的真核非LTR RT蛋白是例如在本公开内容中详细描述的BomoC R2 RT蛋白。
供选择地,具有截短的N末端区域的非LTR RT蛋白可以是SEQ ID NO:10的变体,其具有与SEQ ID NO:10具有至少90%序列同一性(例如,至少91%、92%、93%、94%、95%、96%、97%、98%、99%或99.5%序列同一性)的氨基酸序列。包含氨基酸序列SEQ ID NO:10的分离的真核非LTR RT蛋白的另一个实例是具有氨基酸序列SEQ ID NO:7的BomoC R2 RT蛋白,其具有N末端MBP标签和C末端6xHis标签。
具有截短的N末端区域的真核非LTR RT蛋白的其他实例包括具有氨基酸序列SEQID NO:2的BomoC(ed)R2 RT蛋白,所述截短的N末端区域导致与具有氨基酸序列SEQ ID NO:1的未截短的全长家蚕R2 RT蛋白相比,家蚕R2 RT蛋白的N末端274个氨基酸(即,氨基酸1-274)缺失。供选择地,所述具有截短的N末端区域的非LTR RT蛋白可以是SEQ ID NO:2的变体,其具有与SEQ ID NO:2具有至少90%序列同一性(例如,至少91%、92%、93%、94%、95%、96%、97%、98%、99%或99.5%序列同一性)的氨基酸序列,其中所述变体包含在全长家蚕R2 RT(SEQ ID NO:1)的氨基酸残基D996处的D996A置换突变。包含氨基酸序列SEQID NO:2的分离的真核非LTR RT蛋白的另一个实例是具有氨基酸序列SEQ ID NO:3的BomoC(ed)R2 RT蛋白,其具有N末端MBP标签和C末端6xHis标签。
在一些情况下,所述截短的N末端区域导致与全长非LTR RT蛋白相比,从非LTR RT蛋白的N末端缺失274个(即,氨基酸1-274)至303个氨基酸(即,氨基酸1-303)。
在一些情况下,提供了分离的N末端截短的真核非LTR RT蛋白变体,其具有消除核酸内切酶功能的突变和相对于SEQ ID NO:2、3和6-14中任一个的另外一个或多个氨基酸置换。保守置换如表1中“优选置换”的标题下所示。表1中在“示例性置换”的标题下提供了更大量的变化,并如以下参考氨基酸侧链类别进一步描述的。
表1.示例性和优选的氨基酸置换
氨基酸可以根据常见的侧链性质进行分组:
疏水性的:正亮氨酸、Met、Ala、Val、Leu、Ile;
中性亲水性的:Cys、Ser、Thr、Asn、Gln;
酸性的:Asp、Glu;
碱性的:His、Lys、Arg;
影响链取向的残基:Gly、Pro;
芳香性的:Trp、Tyr、Phe。
非保守置换将需要用这些类别中的一个的成员交换为另一类别。
在一些情况下,所述截短的N末端区域导致全部或部分的一个或多个(例如,一个、两个、三个、四个或更多个)序列特异性DNA结合结构域缺失。在一些情况下,所述截短的N末端结构域导致全部的一个或多个(例如,一个、两个、三个、四个或更多个)序列特异性DNA结合结构域缺失。在一些情况下,所述真核非LTR RT蛋白不包含序列特异性DNA结合结构域。在一些情况下,所述真核非LTR RT蛋白不包含自主序列特异性DNA结合结构域。
在一些情况下,分离的真核非LTR RT蛋白被纯化至基本均质。因此,在一些情况下,所述真核非LTR RT蛋白基本上不含核酸污染物。
核酸内切酶失活突变
如上所述,所述分离的真核非LTR RT蛋白包含具有一个或多个消除核酸内切酶功能的突变的核酸内切酶结构域。这样的突变可以包含置换突变、缺失突变(包括截短突变)或插入突变。例如,一个或多个置换突变(例如,一个或多个氨基酸被一个或多个不同的氨基酸置换)可以用于构建用于本公开内容的具有失活核酸内切酶结构域的修饰的真核非LTR RT蛋白。已经广泛表征了核酸内切酶结构域家族,包括来自R2样RT蛋白的核酸内切酶结构域,其被其他蛋白中的大量限制性核酸内切酶共用(Pingoud等人,Cell Mol LifeSci.62(6):685-707 2005)。许多高分辨率蛋白结构和诱变实验揭示了这种核酸内切酶结构域活性的原理和氨基酸要求。
在其中所述真核非LTR RT蛋白是家蚕R2 RT蛋白的情况下,消除核酸内切酶功能的突变可以是具有氨基酸序列SEQ ID NO:1的全长家蚕R2 RT蛋白的氨基酸残基D996、D1009或K1026处的置换突变。在一些情况下,所述置换突变在氨基酸残基D996处。在一些情况下,氨基酸残基D996被除Glu(E)以外的任何氨基酸置换。因此,在一些情况下,氨基酸残基D996被Ala(A)、Ile(I)、Leu(L)、Met(M)、Phe(F)、Val(V)、Pro(P)、Gly(G)、Arg(R)、Lys(K)、Gln(Q)、Asn(N)、His(H)、Ser(S)、Thr(T)、Tyr(Y)、Cys(C)、Trp(W)或Tyr(Y)置换。在一些情况下,所述置换突变是D996A突变。在一些情况下,所述置换突变在氨基酸残基D1009处。在一些情况下,氨基酸残基D1009被除Glu(E)以外的任何氨基酸置换。在一些情况下,所述氨基酸残基D1009被Ala(A)、Ile(I)、Leu(L)、Met(M)、Phe(F)、Val(V)、Pro(P)、Gly(G)、Arg(R)、Lys(K)、Gln(Q)、Asn(N)、His(H)、Ser(S)、Thr(T)、Tyr(Y)、Cys(C)、Trp(W)或Tyr(Y)置换。在一些情况下,所述置换突变是D1009A突变。在一些情况下,所述置换突变在氨基酸残基K1026处。在一些情况下,所述置换突变是K1026A、K1026D或K1026E突变。在一些情况下,所述置换突变是K1026A突变。在一些情况下,消除核酸内切酶功能的突变是氨基酸残基K1026和K1029处的置换突变。在一些情况下,所述置换突变是K1026A和K1029A突变。
稳定蛋白
分离的真核非LTR RT蛋白可以包含一种或多种稳定蛋白。形成非LTR RT蛋白的部分的稳定蛋白的功能是增加所述修饰的非LTR RT蛋白的总体稳定性和/或适当的结构。稳定性包括蛋白保留其构象和活性的能力。
将稳定蛋白与真核非LTR RT蛋白连接可以提供一种或多种优点。包含稳定蛋白的修饰的真核非LTR RT蛋白可以例如具有在高温下增加的稳定性、增加的溶解度、增加的蛋白表达、改善的蛋白折叠和/或在保留特异性活性的情况下短期或长期储存。在一些情况下,包含稳定蛋白的本发明的修饰的真核非LTR RT蛋白可以具有上面列出的一种或多种性质。例如,所述修饰的真核非LTR RT蛋白可以具有增加的热稳定性和/或增加的溶解度。在另一个实例中,所述修饰的真核非LTR RT蛋白可以具有增加的蛋白表达并表现出改善的蛋白折叠。
在稳定蛋白和真核非LTR RT蛋白之间包含接头肽可以进一步强化这些优点。然而,真核非LTR RT蛋白和稳定蛋白可以供选择地用最少的接头(如果有的话)彼此直接融合。因此,稳定蛋白可以在有或没有中间接头肽的情况下,定位到所述真核非LTR RT蛋白的N末端或C末端。
在一些情况下,稳定蛋白连接到本发明的真核非LTR RT蛋白,用于在细菌细胞中表达融合蛋白。在一些情况下,稳定蛋白是麦芽糖结合蛋白(MBP)或其变体。稳定蛋白的其他实例包括小泛素样修饰物(SUMO)或(多个)蛋白A结构域或其变体。
在其中分离的真核非LTR RT蛋白包含一种或多种稳定蛋白的以上任何一种情况下,通过在细胞表达时的重组蛋白溶解度、纯化产率、作为单体的蛋白分数、生化反应中的酶的半衰期和/或在室温或4、-20和/或-80℃下储存时的活性保留的增加来反映蛋白的改善/增加的总体稳定性。
纯化标签
除了一种或多种稳定蛋白以外,分离的真核非LTR RT蛋白还包含一种或多种纯化标签。
在纯化标签和真核非LTR RT蛋白之间包含接头肽可以是期望的。然而,所述真核非LTR RT蛋白和纯化标签可以供选择地彼此直接融合。因此,纯化标签可以在有或没有中间接头肽的情况下,定位到所述真核非LTR RT蛋白的N末端或C末端。
在一些情况下,纯化标签与本发明的真核非LTR RT蛋白连接,用于表达和随后从细菌细胞纯化融合蛋白。在一些情况下,特别是为了从细菌细胞纯化,纯化标签是组氨酸标签,例如6x-His标签。在一些情况下,组氨酸标签(例如,6x-His标签)在有或没有中间接头肽的情况下定位到真核非LTR RT蛋白的C末端。在一些情况下,组氨酸标签(例如,6x-His标签)在有或没有中间接头肽的情况下定位到真核非LTR RT蛋白的C末端,并且稳定蛋白(例如,MBP)在有或没有中间接头肽的情况下定位到真核非LTR RT蛋白的N末端。在一些情况下,组氨酸标签(例如,6x-His标签)在具有中间接头肽的情况下定位到真核非LTR RT蛋白的C末端,并且稳定蛋白(例如,MBP)在有或没有中间接头肽的情况下定位到真核非LTR RT蛋白的N末端。
在一些情况下,纯化标签与本发明的真核非LTR RT蛋白连接,用于表达和随后从真核细胞纯化融合蛋白。在一些情况下,特别是对于从真核细胞纯化,纯化标签是蛋白A标签或FLAG肽标签。在一些情况下,纯化标签是串联蛋白A标签。在一些情况下,纯化标签是3x-FLAG肽标签。在一些情况下,纯化标签(例如,蛋白A或FLAG肽标签)在有或没有中间接头肽的情况下定位到真核非LTR RT蛋白的C末端,并且真核非LTR RT蛋白不包含单独的稳定蛋白。在其他情况下,纯化标签(例如,蛋白A或FLAG肽标签)在有或没有中间接头肽的情况下定位到真核非LTR RT蛋白的N末端,并且真核非LTR RT蛋白不包含单独的稳定蛋白。在一些情况下,纯化标签(例如,蛋白A或FLAG肽标签)在有或没有中间接头肽的情况下定位于真核非LTR RT蛋白的C末端,并且真核非LTR RT蛋白包含单独的稳定蛋白。在其他情况下,纯化标签(例如,蛋白A或FLAG肽标签)在有或没有中间接头肽的情况下定位到真核非LTR RT蛋白的N末端,并且真核非LTR RT蛋白包含单独的稳定蛋白。
纯化标签的其他实例包括Twin-Strep-标签、myc肽标签,酰基载体蛋白标签等或其变体。
接头肽
在其中使用接头肽将稳定蛋白和/或纯化标签与真核非LTR RT蛋白连接的情况下,(多个)接头的长度可以是两个或更多个氨基酸。接头可以由中性、极性或非极性氨基酸组成。接头的长度可以为例如2至100个氨基酸,例如长度为2至50个氨基酸,例如长度为3、5、10、15、20、25、30、35、40、45或50个氨基酸。在一些情况下,接头是促进相邻(多个)蛋白或(多个)多肽折叠的区域,如Smyth等人Protein Science.12:1313-1322,2003中所述。
接头可以是可切割的,例如通过酶或化学切割,其可以是自介导的或由物理上分开的试剂介导的。氨基酸序列中的切割位点以及在这样的位点切割的酶和化学物质是众所周知的。例如,接头的酶切割可以涉及使用内肽酶,例如弗林蛋白酶、尿激酶、Lys-C、Asp-N、Arg-C、V8、Glu-C、胰凝乳蛋白酶、胰蛋白酶、胃蛋白酶、木瓜蛋白酶、凝血酶、组织纤溶酶原激活物(tPa)、genenase、因子Xa、TEV(烟草蚀纹病毒)半胱氨酸蛋白酶、SUMO蛋白酶Ulp1、肠激酶、HRV C3(人类鼻病毒C3蛋白酶)、激肽原酶以及枯草杆菌蛋白酶样前蛋白转化酶(例如弗林蛋白酶(PC1)、PC2或PC3)或N-精氨酸二元转化酶。
化学切割可以包括可被还原剂或自切割蛋白基序切割的二硫键。
以不通过模板复制确定的方式延伸多核苷酸3’末端的方法
在没有模板复制限制的情况下通过核苷酸添加的多核苷酸3’延伸(也称为多核苷酸加尾)是用途广泛的用于共价附接分子标签的的方法。具有核苷酸转移酶活性的酶包括专门用于用半随机脱氧核苷酸给单链DNA底物加尾的末端脱氧核苷酸转移酶(TdT),以及专门用于用均聚物尾(主要是A或U)给单链RNA底物加尾的RNA聚合酶。随着Mn2+的存在激发的非逆转录病毒RT酶的末端转移酶活性的发现,使用NTP、dNTP或其他核苷酸类似物底物给具有单链或双链组成的RNA和DNA加尾成为可能,从而大大扩展了将分子标签共价附接到多核苷酸3’末端的能力。
本文提供了使单链或部分单链核酸的3’末端延伸至少一个核苷酸的方法,所述方法包括在包含锰离子的缓冲液中,使所述单链或部分单链核酸与具有核苷酸聚合酶活性的非逆转录病毒RT蛋白接触。在一些情况下,单链或部分单链核酸是DNA。在一些情况下,在末端脱氧核苷酸转移酶(TdT)、逆转录病毒RT蛋白或任何其他非RT蛋白不存在的情况下进行接触。在一些情况下,单链或部分单链核酸是RNA。在一些情况下,在RNA连接酶或聚腺苷RNA聚合酶、聚尿苷RNA聚合酶或任何其他非RT蛋白不存在的情况下进行接触。
还提供了使A型核酸双链体的3’末端延伸至少一个核苷酸的方法,所述方法包括在包含锰离子的缓冲液中使A型核酸双链体与具有核苷酸聚合酶活性的非逆转录病毒RT蛋白接触。在一些情况下,A型核酸双链体是RNA-RNA核酸双链体、部分RNA-RNA核酸双链体或其修饰形式。在一些情况下,RNA-RNA核酸双链体、部分RNA-RNA核酸双链体或其修饰形式的一个或两个末端是平末端或包含单核苷酸或其他短3’突出端。在一些情况下,A型核酸双链体是RNA-DNA核酸双链体、部分RNA-DNA核酸双链体或其修饰形式。在一些情况下,RNA-DNA核酸双链体、部分RNA-DNA核酸双链体或其修饰形式的一个或两个末端是平末端或包含单核苷酸或其他短3’突出端。
在一些情况下,非逆转录病毒RT末端转移酶活性可以用包含用于与配体、表面或其他分子结合或共价连接的信号的部分标记核酸分子。该方法实现连接特异性,包括但不限于纯化树脂、微阵列板或流通池。此外,该方法实现结合特异性,包括但不限于识别附接部分和将通过非共价结合而局部浓度将增加的其他核酸的酶。
在一些情况下,非逆转录病毒RT末端转移酶活性可以用于用检测信号标记核酸分子,其用途包括但不限于产生用于微阵列分析的杂交探针或核酸定量方法。在一些情况下,非逆转录病毒RT末端转移酶活性可以用于改变多核苷酸3’末端的性质。例如,可以阻断3’末端被核酸外切酶识别,可以阻断其充当模板依赖性合成的引物,或激活其以进行化学串联或酶连接。3’末端可以赋予多核苷酸溶解性、稳定性或渗透性的有利特性(例如,增加的血浆半衰期、增加的细胞渗透性或靶向细胞表面受体分子)。
在一些情况下,非逆转录病毒RT末端转移酶活性可以通过可逆链终止核苷酸类似物的添加和解除阻断的循环用于寡核苷酸合成。在一些情况下,非逆转录病毒RT末端转移酶活性可以用于向多核苷酸库中的每个分子添加不同的独特分子标识符序列(UMI),或向另外的多核苷酸库添加不同的条形码。在一些情况下,3’加尾反应可以产生间隔子,该间隔子在串联后最终分离出加尾的多核苷酸序列。在一些情况下,3’加尾将是对通过非模板化或模板化延伸进行的另外的3’延伸的可逆阻断。在一些情况下,可逆阻断将用于连续轮次的不同组合的条形编码化,例如用于空间转录组学(Moor等人,Curr Opin Biotechnol.46:126-133,2017)。在一些情况下,非逆转录病毒RT蛋白将用于附接非天然核苷酸,如iso-dG或iso-dC,以生成3’末端,所述3’末端将与特定的其他非天然核苷酸碱基配对。以这种方式,例如用iso-dG加尾的模板分子可以与不同于所有天然核苷酸碱基的同源单核苷酸突出端配对(例如,iso-dG与iso-dC配对,但不与A、C、G、T或U配对)。
在一些情况下,非逆转录病毒RT末端转移酶活性可以用于延伸相对均质的分子群,例如合成寡核苷酸。在一些情况下,非逆转录病毒RT末端转移酶活性可以用于延伸分子的混合群,例如在通过液体活检获得的无细胞核酸的患者样品中的分子的混合群。
在一些情况下,可以在多核苷酸加尾之前通过非逆转录病毒RT末端转移酶活性对其进行修饰。例如,如果3’基团不是OH,则可以使用诸如T4多核苷酸激酶(PNK)的修复酶由3’单磷酸酯或2’3’环状单磷酸酯生成3’OH。多核苷酸可以被变性或可以不被变性以去除二级结构,并且可以经受或可以不经受特定核酸或其他组分的耗尽或富集。
在一些情况下,非逆转录病毒RT末端转移酶活性可以用于给核酸加尾,作为产生用于测序的样品的步骤。在一些情况下,非逆转录病毒RT末端转移酶活性可以用于给单链RNA或DNA或它们的混合物加尾,以使用Illumina平台进行测序。在一些情况下,非逆转录病毒RT末端转移酶活性可用于给RNA或DNA或它们的混合物加尾,以使用PacificBiosciences平台或其他平台进行测序。
在一些情况下,所述非逆转录病毒RT蛋白是真核非LTR RT蛋白或原核或细胞器内含子RT蛋白。在一些情况下,所述非逆转录病毒RT蛋白是真核非LTR RT蛋白。在一些情况下,所述非逆转录病毒RT蛋白是本文描述的本发明的一个方面的真核非LTR RT蛋白。在一些情况下,所述真核非LTR RT蛋白是R2 RT蛋白。在一些情况下,所述R2 RT蛋白是家蚕R2RT蛋白。在一些情况下,所述非逆转录病毒RT蛋白是原核或细胞器内含子RT蛋白。在一些情况下,所述原核或细胞器内含子RT是直肠真杆菌II组内含子RT蛋白。
在一些情况下,非逆转录病毒RT末端转移酶活性可以通过各种修饰的RT蛋白发挥。例如,酶突变可以扩大或缩小核苷酸或核苷酸样底物的范围和二价金属离子需求特异性。此外,酶突变可以扩大或缩小多核苷酸底物的范围。另外,可以将非逆转录病毒RT蛋白共价或非共价融合到蛋白或其他模块,以结合期望的多核苷酸底物。此外,可以工程改造或选择非逆转录病毒RT蛋白,以具有更高或更低的错误率、持续性、合成速率、活性温度范围、与反应混合物中存在的其他化合物的相容性、稳定性、溶解度或其他与使用相关的特性。
在一些情况下,包含Mn2+的非逆转录病毒RT反应可以用于改变模板依赖性cDNA合成的特异性,并实现非模板化合成,例如,消除单链RNA模板上的不受控的单链RNA引发(Luan,Eickbush Mol Cell Biol.1996 16(9):4726-34)。
在一些情况下,所述缓冲液包含一种或多种核糖核苷三磷酸(NTP)、脱氧核糖核苷三磷酸(dNTP)或二脱氧核糖核苷三磷酸(ddNTP)或其核苷酸类似物。在一些情况下,所述接触在约4℃至约50℃的温度下进行。在一些情况下,所述接触在约37℃的温度下进行。
因为本文所述的非逆转录病毒RT的以前未预料到的末端转移酶活性是真核和原核非逆转录病毒RT的共有特征,所以其他非逆转录病毒RT将有望表现出这种类型的活性并可以替代本文描述的应用中使用的RT。跨细菌、古细菌和真核细胞器和核基因组的非逆转录病毒RT的广大多样性提供了末端转移酶特异性的功能多样性,这是由原核内含子RT蛋白与真核非LTR逆转录元件RT蛋白之间的本文所述的差异和相似性判断的。
通过有序模板转换(OTR)原理跨不连续模板进行连续cDNA合成的方法
cDNA文库的最有效合成将使用单一管、单一反应、便利的反应温度以及完全储存稳定的组分,添加所有5’和3’衔接子元件以及其他必要的样品制备物以实现:(i)根据输入文库(例如Illumina、Pacific Biosciences、Nanopore、BGI等)的平台要求定量、扩增、环化和/或标记分子;(ii)标引组合到测序运行中的不同文库,例如使用条形码(如果这是平台技术的一部分);(iii)根据任何平台要求对输入文库进行变性;和(iv)提供将通过合成启动测序的引物的碱基配对位点(当这是平台技术的一部分时)。例如,在针对市场主导的Illumina平台的典型文库制备中,cDNA序列的侧翼必须是具有以下三个组分片段的衔接子:5'-P5、标引(i)5、读数(R)1 -3’或5’-P7、i7、R2 -3’。这两个复合衔接子序列必须存在于cDNA的相对侧。此外,由于PCR通常用于添加序列的标引P5和P7模块,因此必须在流通池加载之前对文库进行变性,然后将其稀释约100倍以中和变性,由于流通池的加载体积有限,这导致损失通常~80-90%的制备的文库。而且,由于用于NGS的衔接子序列正在不断发展与创新,因此易于适应模块序列变化的文库制备方法对于通用应用来说是必不可少的。本文所述的方法提供了所有这些改进。
在一些情况下,模板转换的特异性受到引物和模板序列以及其他特征的特定组合的限制。这些组合可以提高预期的cDNA文库产物的制备准确性或效率,和/或减少不期望的副反应产物的产生或改变不期望的副反应产物的性质,所述不期望的副反应产物例如由反应中混杂的引发和模板复制而导致。“模板跳跃”实现在用于cDNA合成的序列混合物中几乎全面或相对无偏地使用模板,并且在连续模板复制的条件下,还实现在cDNA串联体中体现不同数量的模板。本文所述的方法提供了选择性模板复制的改进和对cDNA产物中复制的模板数量的控制。
一方面,本发明提供了制备互补DNA(cDNA)分子的方法,其包括:(a)提供包含引物链和非延伸链的引物双链体,其中所述引物链的3’末端包含+1嘧啶核苷酸突出端;(b)提供在其3’末端包含嘌呤核苷酸的RNA模板;和(c)在包含镁离子和一种或多种dNTP或其类似物的缓冲液中使引物双链体和RNA模板与RT接触,其中所述接触在有效产生与所述RNA模板基本上互补的cDNA分子的条件下进行。
因此,在一些情况下,将具有+1T和/或+1C 3’突出端的引物与包含连接到核苷酸糖部分的(多种)3’同源嘌呤(例如A和/或G)的模板组合,所述核苷酸糖部分含有或不含各种OH基团。
在一些情况下,引物链是DNA引物链。在一些情况下,所述引物链包含5’突出端。在一些情况下,所述引物链的5’末端或内部位点包含修饰。在一些情况下,所述修饰实现所述引物链或所述引物双链体的固定或纯化。在一些情况下,所述修饰是与生物素的连接。在一些情况下,所述引物链是5’衔接子序列。在一些情况下,所述非延伸链包含DNA、RNA、杂交DNA和RNA或其修饰形式。在一些情况下,非延伸链的3’末端包含修饰。在一些情况下,所述修饰阻断3’延伸。在一些情况下,所述修饰是3’C3间隔子或3’单磷酸酯。在一些情况下,所述RNA模板是通过上述第IV节所述的方法制备的。RNA模板在其3’末端可以包含嘌呤dNTP、NTP、ddNTP或核苷酸类似物。类似地,在一些情况下,所述引物双链体是通过上述第IV节所述的方法制备的。在一些情况下,RNA模板的5’末端包含修饰。在一些情况下,所述修饰是不可逆修饰。在一些情况下,所述不可逆修饰是5’C6间隔子或生物素。在一些情况下,所述修饰是可逆修饰。在一些情况下,所述可逆修饰是5’腺苷酰化。
在一些情况下,所述接触在第二模板的存在下进行,其中所述第二模板在其3’末端包含嘧啶核苷酸。仅在跨3’嘌呤模板合成cDNA后,才优选具有3’嘧啶碱基的第二模板作为模板。在一些情况下,引物具有修饰的+1嘧啶,例如iso-dC,第一个模板库具有3’iso-dG。在一些情况下,反应中补充将用于第一模板cDNA的非模板化延伸的嘌呤核苷酸类似物,以及可以与上述嘌呤核苷酸类似物碱基配对的含有3’嘌呤的第二模板。
在一些情况下,所述第二模板包含DNA、RNA、杂交DNA和RNA或其修饰形式。在一些情况下,所述第二模板在其3’末端包含嘧啶核糖核苷酸。在一些情况下,所述第二模板是3’衔接子序列的互补序列。在一些情况下,所述接触在有效产生包含所述5’衔接子序列、与所述RNA模板基本上互补的序列和所述3’衔接子序列的cDNA分子的条件下进行。在一些情况下,所述第二模板的5’末端包含修饰。在一些情况下,所述修饰是不可逆修饰。在一些情况下,所述不可逆修饰是5’C6间隔子或生物素。在一些情况下,所述修饰是可逆修饰。在一些情况下,所述可逆修饰是5’腺苷酰化。
通过本文所述的方法,有序模板转换的执行实现将5’衔接子、cDNA模板和3’衔接子模板例如在补充有利的离子和dNTP及其他缓冲液组分的单一管中组合,并引入到能够跨不连续模板连续cDNA合成的非逆转录病毒RT蛋白。
在一些情况下,初始引物和第二模板由衔接子序列组成。在一些情况下,这些衔接子序列是NGS的(多个)必要模块。在一些情况下,NGS衔接子序列用于Illumina NGS平台。在一些情况下,用于5’-P5、标引(i)5、读数(R)1 -3’的(多个)模块体现在cDNA5’衔接子上,并且5’-P7、i7、R2-3’模块体现在第二模板上。在一些情况下,体现是相反的。在一些情况下,(多个)NGS衔接子序列用于Pacific Biosciences或其他平台。在一些情况下,衔接子序列用于cDNA,以用于PCR。在一些情况下,衔接子序列用于cDNA,以用于微阵列杂交或其他杂交应用。在一些情况下,衔接子包含使cDNA文库结合或连接到基质、表面、分子或其他化合物的部分。在一些情况下,衔接子实现通过T7或其他RNA聚合酶扩增cDNA。
在一些情况下,衔接子包含使cDNA文库结合或连接到基质、表面、分子或其他化合物的部分。在一些情况下,衔接子包含改变cDNA文库5’末端的性质的部分。例如,可以阻断5’末端被核酸外切酶识别,阻断其被磷酸化或去磷酸化,或激活其以进行化学串联或酶连接。5’末端可以赋予多核苷酸溶解性、稳定性或渗透性的有利特性,例如增加的血浆半衰期,增加的细胞渗透或靶向细胞表面受体分子。在一种情况下,在约2-3小时内制备了准备好测序的文库。与目前有利的方案相比,快速的准备时间减少了用于疾病诊断或非侵入性产前检测(NIPT)的样品收集与获得的序列用于治疗、手术和/或其他选择的用途之间的必要时间间隔。在一种情况下,通过使用单一容器而不是容器转移和/或通过引入用于分馏产物分子的基质或其他表面来消除样品分配,以更可再现的且技术要求较低的方式制备准备好测序的文库。此外,将理想的是选择不使用PCR来生成文库,例如,以防止由于PCR偏倚引起的表现偏斜,或者在由于低输入或标引考虑而需要时使用PCR来生成文库。本文所述的方法提供了所有这些改进。
在一些情况下,非逆转录病毒RT是具有连续模板转换活性的非LTR RT蛋白。在一些情况下,非逆转录病毒RT是R2样RT蛋白。在一些情况下,所述非逆转录病毒RT蛋白是来自家蚕的修饰的R2 RT蛋白,例如本文例如在以上第III节中所述的家蚕R2 RT蛋白。在一些情况下,发现的或工程改造成具有连续模板转换活性的其他非逆转录病毒RT蛋白可以替代模板转换反应中的R2 RT蛋白。
在一些情况下,有序模板转换将通过各种修饰的非逆转录病毒RT蛋白进行。例如,酶突变可以扩大或缩小核苷酸或核苷酸样底物的范围。同样,酶突变可以扩大或缩小多核苷酸底物的范围。另外,可以将非逆转录病毒RT蛋白共价或非共价融合到蛋白或其他模块,以结合期望的多核苷酸底物。此外,可以工程改造或选择非逆转录病毒RT蛋白以具有更高或更低的错误率、持续性、合成速率、活性温度范围、与反应混合物中存在的其他化合物的相容性、稳定性、溶解性或其他与使用相关的特性。
因为本文所述的非逆转录病毒RT的以前未预料到的末端转移酶活性是真核和原核非逆转录病毒RT的共有特征,所以其他非逆转录病毒RT将有望表现出这种类型的活性并可以替代本文描述的应用中使用的RT。跨细菌、古细菌和真核细胞器和核基因组的非逆转录病毒RT的广大多样性提供了末端转移酶特异性的功能多样性,这是由原核内含子RT蛋白与真核非LTR逆转录元件RT蛋白之间的本文所述的差异和相似性判断的。在一些情况下,非逆转录病毒RT酶与其他蛋白或化合物的融合可以例如通过促进一类引物和/或模板分子的结合来调节结合的亲和力和特异性和反应特性。在一些情况下,可以将不同的非逆转录病毒RT蛋白组合,或分别用于cDNA文库制备的不同阶段。
在一些情况下,可以在多核苷酸用于模板转换之前对其进行修饰。例如,如果3’基团不是OH,则可以使用诸如T4多核苷酸激酶(PNK)的修复酶由3’单磷酸酯或2’3’环状单磷酸酯生成3’OH。多核苷酸可以被变性或可以不被变性以去除二级结构,并且可以经受或可以不经受特定核酸或其他组分的耗尽或富集。多核苷酸可以在同一反应容器中或分开地进行片段化或连接。
在一些情况下,多核苷酸来自无细胞的患者样品、组织活检、微生物组收集物、盐水或淡水样品、法医材料、单个活细胞或固定细胞、血浆或富集的外来体、片段化的基因组DNA、古DNA或其他生物材料。在一些情况下,cDNA文库的制备过程是自动化的。
在一些情况下,模板转换特异性将受到非制备性cDNA中间体加尾的抑制的影响,例如采用dNTP浓度变化或dNTP类似物。另外,可以通过相对于来自第一模板复制的中间cDNA产物增加第二模板的局部浓度来提高模板转换的第二步的效率。在一些情况下,局部浓度的这种增加可以特别是由表面固定或液滴技术介导的。
在一些情况下,所述接触在约4℃至约50℃的温度下进行。在一些情况下,所述接触在约37℃的温度下进行。
在一些情况下,如上所述,所述方法在单一容器或器皿中进行。
制品或试剂盒
本发明的另一方面是制品,其包含本文所述的一种或多种分离的真核非长末端重复序列逆转录酶(非LTR RT)蛋白和可用于实施核酸检测、定量或测序的材料,特别是可用于实现跨非连续模板的有序和连续的互补DNA(cDNA)合成和/或非逆转录病毒RT蛋白的非天然末端转移酶活性的材料。
由于技术复杂性,核酸检测、定量或测序的实践通常需要本领域熟练从业者。将分子诊断的精确度带到病原体、健康状况以及癌症检测和治疗的最前沿的目标是可再现的、很大程度上无需动手地获取生物标志物谱。如果核酸的内容物可以被全面地读出并且具有有限的偏差,那么核酸将提供这种机会。本文所述的发明实现需要可再现的标准操作规程(SOP)方案以读出核酸信息的研究和临床应用。在一些方面,这样的实现以试剂盒的形式提供。
制品可以包括容器以及在容器上或与容器相关联的标签或包装插页。合适的容器包括例如瓶、小瓶、注射器等。容器可以由多种材料形成,例如玻璃或塑料。在一些情况下,容器容纳组合物,例如一种或多种分离的真核非LTR RT蛋白,该组合物对于使用非逆转录病毒RT的末端转移酶活性进行核酸标记和/或通过非逆转录病毒RT使用有序模板转换进行核酸测序的方法是有用的或需要的。
在一些情况下,使用非逆转录病毒RT的末端转移酶活性进行核酸标记将产生用于检测病原体或突变的探针。在一些情况下,这种实践将在无细胞核酸液体活检、具有或没有固定剂的肿瘤活检、感染组织、环境样品、干血点、微生物组材料或血浆中检测到目标信号。在一些情况下,这样的实现以试剂盒的形式提供。
在一些情况下,通过非逆转录病毒RT使用有序模板转换的核酸测序将产生核酸谱,所述核酸谱为细胞状况或所关注的正常或异常分子的存在提供信息。在一些情况下,该测序将具有单细胞分辨率。在一些情况下,这样的实现以试剂盒的形式提供。
制品还可以包括从商业和用户角度考虑的其他材料,包括其他缓冲液、稀释剂和其他例如对于核酸检测和/或标记有用或所需的试剂。
还提供了试剂盒,其包含一种或多种分离的真核非LTR RT蛋白或用于各种目的,例如实施核酸检测、定量或测序的有用的其他试剂(例如,引物)。与采用制品一样,试剂盒包括容器以及在容器上或与容器相关联的标签或包装插页。容器容纳的组合物包含至少一种本发明的真核非LTR RT蛋白,或供选择地至少一种用于各种目的,例如实施核酸检测、定量或测序的试剂。可以包括另外的容器,其包含例如稀释剂和缓冲液。标签或包装插页可以提供组合物的说明以及预期的体外或诊断用途的说明。
本说明书被认为足以使本领域技术人员能够实施本发明。根据前面的描述,本发明的除了本文中示出和描述的以外的各种修改对于本领域技术人员而言将变得显而易见,并且落入所附权利要求的范围内。
实施例
通过参考以下实施例将更充分地理解本发明。但是,它们不应被解释为限制本发明的范围。应当理解,本文描述的实施例和实施方案仅用于说明目的,并且将向本领域技术人员提示鉴于其的各种修改或改变,并且所述鉴于其的各种修改或改变将被包括在本申请的精神和范围以及所附权利要求的范围之内。
实施例1:采用持续性模板转换的高度纯化的RT的高产率制备
逆转录病毒RT大约50年前被发现作为RNA模板化的DNA合成酶,并且随后的几十年见证了对其在包括RT-PCR和RNA-seq在内的分子应用中的效用的一阵不断的改进(CoffinJM,Fan H Annu Rev Virol.20163(1):29-51)。逆转录病毒RT在动物宿主中的进化相对新,丧失了它们由其进化的细胞RT的许多核酸结合特性。特别地,逆转录病毒RT依赖于与引物-模板双链体的结合来识别模板,而典型的真核细胞逆转录元件RT则在其模板与物理上分离的双链体引物之间没有同源性的情况下启动cDNA合成(Eickbush TH,Jamburuthugoda VKVirus Res.2008 134(1-2):221-34)。以这种方式,真核逆转录元件RT与由移动自剪接内含子编码的典型原核和细胞器RT不同,所述典型原核和细胞器RT在模板反向剪接成DNA后复制其模板(Lambowitz AM’Zimmerly S Cold Spring Harb Perspect Biol.20113(8):a003616)。真核逆转录元件RT一直难以纯化除去相关核酸,使得许多关于“纯化的”逆转录元件RT的活性结论反映了RNP的活性,而不是不含预结合的RNA的RT蛋白的活性(Christensen SM,Ye J,Eickbush TH Proc Natl Acad Sci USA.2006 103(47):17602-7)。但是,如果可以以高产量制备无污染物、储存稳定形式的酶,则逆转录元件RT的生物和生化活性可以是开发研究和临床应用中独特的有用工具。
在该实施例中,筛选了由原核和真核细胞的基因组编码的RT的(a)稳健的表达,(b)无核酸的高产率纯化,(c)例如用于逆转录病毒RT测定中的退火的引物-模板底物上的cDNA合成活性,以及(d)模板“跳跃”活性,实现多个物理上分开的模板的持续性复制,以生成单一共价连续的cDNA。
方法
表达了RT多肽,其具有含有MBP序列变体的N末端麦芽糖结合蛋白(MBP)标签(Smyth等人Protein Sci.12(7):1313-22,2003)和C末端6x-组氨酸标签。本文描述的表达的标记的RT多肽的实例包括来自家蚕的标记的全长R2 RT(SEQ ID NO:5),来自家蚕的标记的ΔN69 R2 RT(SEQ ID NO:6;也称为NBomoC),来自家蚕的标记的ΔN274 R2 RT(SEQ IDNO:7;也称为BomoC),具有C末端截短以去除核酸内切酶结构域的来自家蚕的标记的ΔN274R2 RT(SEQ ID NO:12;也称为Bomo),具有消除核酸内切酶功能的D996A突变的来自家蚕的标记的ΔN274 R2 RT(SEQ ID NO:3;也称为BomoC(ed)),具有消除核酸内切酶功能的D996A突变的来自家蚕的标记的ΔN69 R2 RT(SEQ ID NO:13;也称为NBomoC(ed)),和来自细菌直肠真杆菌的标记的全长RT(SEQ ID NO:8;也称为Eure或EuRe)。
将此处详述的酶纯化方法放大用于2L细菌培养。当2YT培养基中生长的2LRosetta2(DE3)pLysS细胞达到OD600=0.9时,诱导其中的蛋白表达。使用0.5mM IPTG在16℃下振摇过夜。收集细胞团后,重悬于20mM Tris-HCl pH 7.4,1M NaCl,10%甘油,1mMMgCl2,DNA酶I(Roche04716728001,5微克/mL),RNA酶A(Sigma R6513,5微克/mL)和蛋白酶抑制剂。通过超声处理裂解细胞3.5分钟(冰上开启10秒,关闭10秒)。离心除去不溶物(Sorval SS34转子,15000rpm,30分钟,4℃)。
在5ml HisTrap FF Crude上通过自动化程序进行镍亲和色谱:在缓冲液A中平衡,上样,用5倍柱体积(CV)冲洗缓冲液冲洗,用5CV洗脱缓冲液洗脱。缓冲液A:20mM Tris-HClpH 7.4,1M NaCl,10%甘油,1mMβ-巯基乙醇。冲洗缓冲液:20mM Tris-HCl pH 7.4,1M KCl,20mM咪唑,10%甘油,1mMβ-巯基乙醇。洗脱缓冲液:20mM Tris-HCl pH 7.4,1M KCl,400mM咪唑,10%甘油,1mMβ-巯基乙醇。
根据吸光度合并洗脱液,使用FLPC HiPrep 26/10脱盐至400mM KCl,并施加到5mlHiTrap肝素HP。平衡色谱柱,上样并在20%肝素缓冲液B中洗涤。将第一轮肝素柱逐步洗脱到100%肝素缓冲液B中。合并峰并稀释回约400mM KCl(约2倍稀释)。第二轮与第一轮平行,除了用超过15CV的20-100%缓冲液B的梯度洗脱直到蛋白被洗脱为止。肝素缓冲液A:25mMHEPES-KOH pH 7.5,10%甘油,1mM DTT。肝素缓冲液B:25mM HEPES-KOH pH 7.5,2M KCl,10%甘油,1mM DTT。
合并的肝素柱洗脱液通过尺寸排阻色谱法使用HiPrep 16/60Sephacryl S-200HR通过自动化程序进一步解析。尺寸排阻色谱柱缓冲液:25mM HEPES-KOH pH 7.5,0.8M KCl,10%甘油,1mM DTT。合并单体蛋白峰(典型浓度为7-8mg/mL),补充至2-5mM DTT,等分,用液氮冷冻,并保存在-80℃下,在至少一年内没有明显的活性损失。用调节至50%甘油的相同缓冲液稀释工作储备液,并以1.25mg/mL=约10微摩尔的浓度在-20℃下储存。在测试的最大存储时间(约4-6个月)内,没有发生明显的活性损失。
RT引物延伸活性的典型测定使用化学合成的DNA引物,将其退火至T7 RNA聚合酶转录后纯化的RNA模板,这共同产生了用于引物延伸的模板5’突出端底物。反应条件通常为20mM Tris-HCl pH 7.5,150mM KCl,2mM MgCl2,10%甘油,并在室温或37℃下孵育。使用的核酸的最终浓度范围通常为20至200nM。RT蛋白通常以约0.1-1.0微摩尔添加。核苷酸浓度不同(2.5至500微摩尔)。通常,在PAGE变性后,通过SYBR Gold染色并在Typhoon Trio上成像检测产品。
用于通过持续性使用多个模板分子(即,连续模板复制)进行cDNA合成的典型测定使用全部或部分退火至第二条链(通常为RNA)的DNA引物来产生引物3’末端,其为平末端双链体或限定的序列的短3’突出端。模板包括化学合成的RNA或DNA寡核苷酸和/或T7 RNA聚合酶转录后纯化的RNA;模板也是从生物来源中分离的。反应条件通常为20mM Tris-HClpH7.5,150mM KCl,2mM MgCl2,10%甘油,并在室温或37℃下孵育。使用的核酸的最终浓度通常为20-90nM预退火引物双链体,20-200nM模板,如果存在,还有20-90nM第二cDNA 3’衔接子模板。RT蛋白通常以约0.1-1.0微摩尔添加。
结果
标记的全长真核RT蛋白(SEQ ID NO:5)和ΔN69Bomo RT蛋白(SEQ ID NO:6)不能以高产率和无污染物的方式纯化。相比之下,标记的N末端截短的BomoC缺少序列特异性DNA结合结构域(SEQ ID NO:3和7)之前的所有R2 RT序列并包含序列特异性DNA结合结构域(SEQ ID NO:3和7)(图1A),可以以比内含子RT更高的产率制备。对于从凝胶过滤柱上以其预测的单体分子量洗脱的纯化MBP和6x组氨酸标记的蛋白(图1B),在260和280nM处的吸光度比值表示无污染核酸的纯蛋白(图1C),通过尝试核酸检测进行证实。
纯化的RT蛋白可以催化模板退火的DNA引物的延伸,这是逆转录病毒RT的典型测定(图2)。对于跨不同缓冲液条件,包括对于本文所述的RT蛋白应用必不可少的Mg2+和Mn2+缓冲液的单链或双链结构,未检测到超过R2 RT野生型序列固有的RNA或DNA核酸酶活性的RNA或DNA核酸酶活性。相同的表达环境和纯化方案已经可再现地用于多个N末端截短的R2RT和多个内含子RT纯化,包括来自家蚕的具有消除核酸内切酶功能的D996A突变的标记的ΔN303 R2 RT变体(SEQ ID NO:12;也称为BomoMin(ed)),其纯化收率和活性与BomoC(ed)相当。
在筛选的酶中,虽然内含子RT已经被描述为用于跨长模板合成的最具持续性的内含子RT,但是最佳制备的真核RT在连续模板复制中的效率比具有未标记的SEQ ID NO:4的全长序列的最佳制备的该内含子RT高得多(图3)(Zhao C,Liu F,Pyle AM RNA.2018 24(2):183-195)。由于R2 RT C末端核酸内切酶结构域的活性位点催化非特异性单链核酸降解,其在含Mn2+的缓冲液中尤为严重(图4A),但该结构域实质上有助于高产量蛋白制备、溶液稳定性和纯化的蛋白活性(图1和2),另外修饰了N末端截短的R2 RT变体以消除核酸酶活性,这是通过上述核酸内切酶结构域活性位点突变实现的(通过简写核酸内切酶催化死亡而称为“(ed)”)。
实施例2:通过非逆转录病毒RT的Mn2+刺激的末端转移酶活性进行单链和/或双链体RNA 3’末端延伸
通过使用催化脱氧核苷酸添加到DNA 3’末端的酶,末端脱氧核苷酸转移酶(TdT),已经在很大程度上实现不同分子生物学应用。TdT可以利用四种dNTP中的任何一种以及各种其他未修饰或修饰的核苷酸来延伸其优选的单链DNA底物的3’OH(Sarac和Hollenstein,Chembiochem.20(7):860-871,2019)。该活性对于大量研究和临床方案至关重要,因为它实现使用用于衔接子碱基配对的平台给DNA末端库(例如单链cDNA末端)加尾。而且,它可以利用具有连接的检测或纯化信号(荧光、放射性、生物素或其他)的核苷酸类似物。最近的应用包括其用可逆链终止的核苷酸类似物从头合成寡核苷酸的用途。
不幸的是,尚未制备出用于单链RNA 3’末端延伸的TdT的天然变体或工程改造形式。相反,单链RNA可以通过核苷酸限制性聚合酶如RNA聚(A)聚合酶延伸(Eckmann等人.Wiley Interdiscip Rev RNA.2(3):348-61,2011)。可商购获得的RNA聚(A)聚合酶通常具有较高的核糖核苷酸添加持续性,而不是TdT的分布性脱氧核苷酸添加,导致一些底物得到长聚(A)尾,而同一反应中的其他底物保持未延伸。此外,不可能将不同的尾序列添加到一个反应中的每个分子上(例如,作为唯一的分子标识符),或者添加到随后待组合的分开的反应中的不同分子库(例如,作为条形码)。此外,为限制其效用,如上所述的RNA聚合酶不3’延伸双链RNA。本文描述的是利用dNTP、NTP和/或ddNTP对单链RNA进行3’延伸(也称为3’加尾)的TdT样广泛核苷酸底物末端转移酶活性,实现众多当前和未来的研究和临床应用,包括本申请中描述的一些新的RNA-seq方法。
方法
将待修饰的核酸底物与MnCl2(通常在0.5至0.5mM的范围内,例如2mM)在期望pH值的合适缓冲液(通常在pH 6至pH 9的范围内,例如20mM Tris-HCl pH 7.5)中组合。添加用于延伸底物的(多个)3’OH基团的NTP、dNTP、ddNTP和/或核苷酸类似物的三磷酸形式(例如,dTTP+dCTP+dGTP+dATP+ddATP)。加入非逆转录病毒RT酶(例如R2 RT或内含子RT,通常到0.2-1微摩尔,例如0.5微摩尔的终浓度)。除Mn2+的螯合剂(如EDTA)外,其他缓冲添加剂均允许和/或促进反应。在便利的温度(通常为4℃至50℃,例如室温或37℃)下孵育组装的反应长达反应进行到期望的延伸的底物分数和/或3’加尾程度所必需的时间。可以通过添加螯合剂(例如EDTA)或使RT热失活(例如65℃下5分钟)或(例如使用虾碱性磷酸酶,NEB)水解未使用的核苷酸底物来终止反应。产物可以直接通过3’加尾产生的信号被检测(例如,通过嵌入染料、吸光度或FRET)、被纯化以检测掺入的信号(例如,通过过滤结合或沉淀)、用于后续反应(例如,阵列杂交或RNA-seq)或被解析(例如,通过PAGE或色谱法),或其他选择。
RNA可以是完整的或片段化的,在含有DNA或其他非RNA的组合物中嵌合的,也可以与RNA或DNA部分或完全形成双链体。以上方案用于3’OH的RNA末端;如果RNA的3’基团不是OH,则可以在3’加尾之前使用修复酶生成3’OH。例如,3’单磷酸酯或2’3’环状单磷酸被许多商业上可用的磷酸酶(例如T4 PNK)转化为3’OH。模板可以变性也可以不变性以去除二级结构。反应可以补充核酸结合蛋白或其他有助于RNA 3’末端进入酶活性位点的化合物。可以调节反应条件以调节持续性。酶活性位点突变可以提供额外的反应灵活性和范围,例如将对Mn2+的活性依赖性改变为对不同的二价阳离子的活性依赖性,或允许使用期望的核苷酸类似物。
结果
R2 RT和内含子RT均显示出能够延伸RNA底物的Mn2+刺激的末端转移酶活性(图4-6)。因为R2 RT C末端核酸内切酶结构域的活性位点催化非特异性单链核酸降解,其在含有Mn2+的缓冲液中尤为严重(图4A),但该结构域实质上有助于高产量蛋白制备、溶液稳定性和纯化的蛋白活性(图1和2),还额外修饰了N末端截短的R2 RT变体以消除核酸酶活性,这是通过核酸内切酶结构域活性位点的突变来实现的(参见SEQ ID NO:3、12和13)。
修饰的R2 RT和内含子RT对特定寡核苷酸和核苷酸底物的偏好不同。经工程改造以进一步调节末端转移酶活性的酶的该变体以及另外的变体拓宽了序列添加的不同特异性的可能范围。对于R2 RT和内含子RT,不同的dNTP或NTP或核苷酸组合促进3’延伸的不同的效率和长度。例如:dATP是首选用于由R2 RT或内含子RT生成长突出端的核苷酸,而对于短突出端生成,dTTP将是更好的选择(BomoC(ed)参见图4A,Eure反应参见图5);在少于1mM的MgCl2存在或不存在的情况下,通过添加单一ddNTP进行标记在含有1-2mM MnCl2的反应中是有效的(图4B);使用dATP进行双链RNA的R2 RT末端标记以产生长3’突出端,而短突出端合成在dGTP或dCTP中似乎是理想的(图6A)。尽管双链RNA 3’加尾在含Mg2+的缓冲液中发生的程度有限,但在含Mn2+的缓冲液中效率高得多(图6B)。含有Mn2+的反应的一个特征是缺乏在几乎没有同源性或没有同源性的单链RNA模板上的cDNA合成的不受控单链RNA引发,在仅含Mg2+的反应中的先前描述的全长R2 RT的“自引发”活性(Luan,Eickbush Mol CellBiol.1996 16(9):4726-34)产生异常的产物分子并耗尽完整的模板分子。在Mg2+缓冲液中与单链RNA、所有dNTP和R2 RT的反应有时从最初的非特异性引发事件产生产物条带,随后是通过额外的几轮连续模板复制进行的cDNA 3’延伸,但是该产物谱始终不同于Mn2+诱导的非逆转录病毒RT末端转移酶活性产物。
延伸RNA分子的3’末端的非逆转录病毒RT能力的一种有用的应用是在复杂混合物中向所有RNA分子添加一致的3’末端核苷酸,这可以促进不同的分子被结合RNA3’末端的酶(聚合酶、连接酶、核酸酶等)均等使用。该应用实现用于cDNA串联的连续模板复制的改进(参见实施例4),还可以用于实施有序模板转换而不是半随机有序模板跳转来创建具有一致5’衔接子和3’衔接子序列的cDNA文库(参见实施例6-9)。另一个有用的应用将是将信号偶联的核苷酸添加到输入RNA库中以生成杂交探针,所述杂交探针例如可用于序列混合物的微阵列分析。
因为本文描述的作用于RNA底物的非逆转录病毒RT的之前未预料到的末端转移酶活性是真核和原核RT的共有特征,因此其他非逆转录病毒RT将有望显示该类型的活性,并可以替代本文所述的应用中使用的RT。酶融合可以例如通过使RT共价或非共价连接到(多种)单链或双链核酸结合结构域、起去除二级结构作用的酶或其他组分,提供对底物的额外的结合亲和力。
实施例3:通过Mn2+刺激的真核和细菌非LTR RT的末端转移酶活性进行的单链和/或双链体DNA 3’延伸
TdT目前是首选用于给单链DNA3’加尾的酶。但是,其通用性受到偏倚的限制。例如,TdT显示掺入dGTP、dCTP和dTTP的活性比掺入dATP高得多(Berdis等,Chembiochem.8(12):1399-408,2007)。随着对血浆、古DNA和其他来源中单链DNA存在的认识的提高,开发用于对该DNA的修饰和测序的其他工具变得越来越关键。本发明通过提供一种用于延伸DNA3’末端的末端转移酶来满足这一需求,该末端转移酶的特异性不同于TdT或其他显示末端转移酶活性的非RT-蛋白聚合酶。
方法
将要修饰的核酸底物在期望pH值(通常在pH 6至pH 9的范围内,例如20mM Tris-HCl pH 7.5)的适当缓冲液中与MnCl2(通常在0.5至5mM的范围内,例如2mM)组合。添加意在用于延伸底物的(多个)3’OH基团的NTP、dNTP、ddNTP和/或核苷酸类似物(例如,dTTP+dCTP+dGTP+dATP+ddATP)。加入非逆转录病毒RT酶(例如R2 RT或内含子RT,通常终浓度为0.2-1微摩尔,例如0.5微摩尔)。除Mn2+的螯合剂(如EDTA)外,其他缓冲添加剂均允许和/或促进反应。在便利的温度(通常为4℃至50℃,例如室温或37℃)下孵育组装的反应长达反应进行到期望的延伸的底物分数和/或3’加尾程度所必需的时间。可以通过添加螯合剂(例如EDTA)或通过使RT热失活(例如65℃下5分钟)或通过(例如使用虾碱性磷酸酶,NEB)水解未使用的核苷酸底物来终止反应。产物可以直接通过3’加尾产生的信号被检测(例如,通过嵌入染料、吸光度或FRET)、被纯化以检测掺入的信号(例如,通过过滤结合或沉淀)、用于后续反应(例如,阵列杂交或RNA-seq)或被解析(例如,通过PAGE或色谱法),或其他选择。
DNA可以是完整的或片段化的,在含有RNA或其他非DNA的组合物中嵌合的,也可以与RNA或DNA部分或完全形成双链体。以上方案用于3’OH的DNA末端;如果DNA的3’基团不是OH,则可以在3’加尾之前使用修复酶生成3’OH。例如,3’单磷酸酯或2’3’环状单磷酸被许多商业上可用的磷酸酶(例如T4 PNK)转化为3’OH。模板可以变性也可以不变性以去除二级结构。反应可以补充核酸结合蛋白或其他有助于DNA 3’末端进入酶活性位点的化合物。可以调节反应条件以调节持续性。酶活性位点突变可以提供额外的反应灵活性和范围,例如将对Mn2+的活性依赖性改变为对不同的二价阳离子的活性依赖性,或允许使用期望的核苷酸类似物。
结果
非逆转录病毒RT的持续性末端转移酶活性发生在含Mn2+但不含Mg2+的缓冲液中(BomoC(ed)参见图7A,Eure参见图8)。在Mg2+中,内含子RT可以向单链DNA3’末端添加1-3个dATP(图8),但是却没有检测到R2RT的这种活性(图7A)。与单链DNA、所有dNTP和R2 RT或内含子RT的反应有时通过DNA3’末端与反应中另一种DNA分子的有限碱基配对而由DNA合成生成产物,但这些产物不同于非逆转录病毒RT末端转移酶活性的产物。修饰的R2 RT和内含子RT对特定寡核苷酸和核苷酸底物的偏好有所不同。经工程改造以进一步调节末端转移酶活性的酶的该变体以及其他变体拓宽了序列添加的不同特异性的可能范围。例如:dATP是首选用于双链体DNA持续性3’加尾的核苷酸(图6A)。dATP也是首选用于单链DNA上长突出端生成的核苷酸,而对于短突出端生成,dTTP是更好的选择(图7B)。
延伸DNA分子的3’末端的非逆转录病毒RT能力的一种有用的应用是在复杂混合物中向所有DNA分子添加一致的3’末端核苷酸,这可以促进不同的分子被结合DNA3’末端的酶(聚合酶、连接酶、核酸酶等)均等使用。该应用实现用于cDNA串联的连续模板复制的改进(参见实施例4),还可以用于实现有序模板转换而不是半随机有序模板跳转来产生具有一致5’衔接子和3’衔接子序列的cDNA文库(参见实施例6-9)。另一个有用的应用将是将信号偶联的核苷酸添加到输入RNA库中以生成杂交探针,所述杂交探针例如可用于序列混合物的微阵列分析。
因为本文所述的非逆转录病毒RT的有效末端转移酶活性是真核和原核RT的共有特征,所以其他非逆转录病毒RT将有望表现出这种类型的活性并可以替代本文描述的应用中使用的RT。酶融合可以例如通过使RT共价或非共价连接到(多种)单链或双链核酸结合结构域、起去除二级结构作用的酶或其他组分,提供对底物的额外的结合亲和力。
实施例4:由均质或混合模板合成模板互补cDNA串联体
串联序列阵列在特别是DNA纳米技术和基因组工程的用途中具有应用(Endo等人,Current Protoc.Nucleic Acid Chem.2011Chapter 12:Unit12.8;Zhang等人.Plant J.70(2):357-365,2012)。它们在细胞中、在质粒或染色体上的构建和维持受到重组和修复介导的缺失和突变的限制。通常通过纯化的DNA连接酶产生这些阵列需要DNA的双链体片段,而通过PCR产生它们则需要序列重叠。一种合成上较便宜且序列约束较少的方法将使用无序列重叠的单链寡核苷酸DNA模板。同样,如果除DNA以外的RNA适合作为模板,则可能的模板的范围将增加,允许例如使用生物RNA物质或RNA聚合酶扩增来产生模板。通过重复模板复制进行的序列串联可用于将许多分子的序列捕获到相同衔接子位于侧翼的cDNA产物中,以用于诸如PCR或测序(例如Pacific Biosciences或Nanopore)的应用。本文提供了这些范围的改进和扩展以及其他。
方法
在期望pH(通常在pH 6至pH 9的范围内,例如20mM Tris-HCl pH 7.5)的合适缓冲液中稀释阵列引发的双链体引物。调整反应以具有引物双链体与模板的期望比例(例如,每种在45-1000nM范围内)、刺激期望数量的串联的单价离子浓度(例如在150-450mM KCl范围内)、MgCl2(例如2mM)和酶稳定甘油(例如10%)和DTT(例如1-2mM)。添加NTP、dNTP和/或核苷酸类似物的三磷酸酯形式(例如,dTTP+dCTP+dGTP+dATP+氨基烯丙基dUTP的混合物)。加入非LTR RT酶(例如R2 RT,通常终浓度为0.1-1微摩尔,例如0.5微摩尔)。除许多二价离子螯合剂(如EDTA)外,其他缓冲添加剂均允许和/或促进反应。在便利的温度(通常为4℃至50℃,例如室温或37℃)下孵育组装的反应长达反应进行到期望的延伸的底物分数和/或cDNA合成长度所必需的时间。可以通过添加螯合剂(例如EDTA)或通过使RT热失活(例如65℃下5分钟)或通过(例如使用虾碱性磷酸酶,NEB)水解未使用的核苷酸底物来终止反应。产物可以直接通过3’加尾产生的信号被检测(例如,通过嵌入染料、吸光度或FRET)、被纯化以检测掺入的信号(例如,通过过滤结合或沉淀)、用于后续反应(例如,阵列杂交或RNA-seq)或被解析(例如,通过PAGE或色谱法),或其他选择。
双链体起始引物可以被修饰,包括序列被修饰以共有与(多个)模板的互补性。如果具有未知序列的模板在cDNA合成之前(例如使用R2 RT的末端转移酶活性)用一个或几个核苷酸添加进行3’加尾,则3’加尾反应将产生分隔cDNA序列模块的间隔子。
结果
R2RT cDNA串联效率随cDNA合成反应中dNTP的浓度而变化(图9)。这些影响至少部分是通过在平末端引物或cDNA产物3’末端添加非模板化dNTP来确定的(图10,反应仅包含带有平末端或+1T 3’突出端的双链体引物,BomoC(ed)和dNTP;产物反映了非模板化核苷酸添加到引物3’末端)。添加到引物或cDNA产物3’末端的单核苷酸突出端有利于互补模板3’末端的使用,但抑制具有非互补3’末端的模板的使用(图11)。通常,双核苷酸突出端降低cDNA合成,而三个或更多个的核苷酸突出端则具有强抑制性。由于R2 RT优先使用几种dATP来进行平末端DNA末端的非模板化延伸,因此聚合酶反应的典型dATP浓度(例如250-500微摩尔)相对于dATP降低100倍的反应抑制R2 RT cDNA串联(图9,比较了具有250微摩尔dATP的泳道2、具有500微摩尔dATP的泳道3和具有2.5微摩尔dATP的泳道3和5-7中的cDNA产物)。除了dNTP浓度以外,R2 RT cDNA串联的效率还取决于要复制的(多个)模板的3’核苷酸。基于R2 RT有序模板转换cDNA文库的高通量测序结果,模板5’核苷酸也可以影响第一非模板化dNTP添加。此外,作为RNA和/或DNA的模板的性质影响cDNA串联:R2 RT可以以相似的效率使用RNA或DNA或杂交DNA-RNA模板,而内含子RT复制具有DNA 3’末端的模板效率较低(图3)。
为了有效的串联,可以根据模板3’末端选择的实验灵活性来组合多种非模板化添加控制策略。在2.5微摩尔dNTP+500微摩尔单一dNTP的反应条件下,具有单一模板的cDNA串联反应具有3’末端C>A>G的模板效率顺序和分别升高的dGTP、dTTP或dCTP(图9)。每种反应组分,包括盐,都影响该偏好,但设计的一般原则包括使用低于典型RT反应浓度的dATP(例如,最大100微摩尔)。
实施例5:不可逆或可逆cDNA合成终止
用于RNA-seq和其他应用的cDNA文库需要不同的5’和3’衔接子序列操作,在混合到cDNA合成反应中的可能模板中的随机跳跃顺序不提供所述不同的5’和3’衔接子序列操作。而且,在衔接子之间包含一个以上模板的cDNA排除了关键结论,例如致癌染色体易位断点的位置,其中假阳性融合是当前使用逆转录病毒RT的RNA-seq方法的主要人工产物(artifact)(Panagopoulos等.Int J Biochem Cell Biol.53:462-5,2014)。为了控制模板的使用顺序和串联中复制的模板数量,将希望在复制3’cDNA文库衔接子序列后终止cDNA合成。本文描述了用于这种改进的方法。
方法1
通过使用具有5’主链修饰或延伸的cDNA 3’衔接子模板可以在不去除模板的情况下实现不可逆的终止,所述模板实现完整的模板复制,但不允许另外的模板分子的产生延伸的结合。合成了具有体积大或其他破坏性修饰的cDNA3’衔接子模板,其可以是主链的延伸(例如,添加5’生物素、Cy3或Cy5或其他大基团)或足够长的主链修饰或延伸,所述主链修饰或延伸由除磷酸二酯以外的连接(例如LNA或PNA)或无碱基的连续磷酸二酯或磷酸二酯样主链(几个串联的无碱基位点)组成。除了这些共价连接的修饰以外,非共价连接的修饰,例如紧密结合的蛋白屏障或其他障碍物,也可以防止另外的模板衔接。
方法2
连续模板使用也可以被5’主链延伸阻断,所述5’主链延伸通过非酶促切割有条件地去除,例如在生物素基团和寡核苷酸之间具有300-350nm辐照的光可切割间隔子的PC生物素(IDT)。供选择地,酶促5’腺苷酰化(AMP的连接)(Lama等人,RNA.22(1):155-61,2016)创建了高效的串联模板使用阻断物(block),并且这种修饰可以被具有寡核苷酸焦磷酸酶活性的酶,例如RppH去除。
结果
一些候选阻断基团减弱了串联模板使用,而另一些则消除了串联模板使用(图12)。可以将一些阻断基团(例如5’腺苷酰化)添加到生物以及合成衔接子模板中。准备好可逆的终止实现通过添加模板和去除过量模板来进行连续轮次的cDNA延伸组合;这样的重复组合条形编码化将实现混合分子库的更多多路复用并且可以设想为空间转录组学提供更高的分辨率(Moor等人,Curr Opin Biotechnol.46:126-133,2017)。
实施例6:通过有序模板转换进行的单一反应双衔接子标记的cDNA合成
对于许多应用而言,最有效的cDNA文库合成将在同一反应中将5’和3’衔接子二者添加到逆转录模板互补序列中,而不依赖用户纯化或对反应中间体的其他处理。此外,与以半随机顺序互换添加这些衔接子而不区分在反应池中的模板不同(图13A),有利的是实施将5’和3’衔接子放置在cDNA的任一侧的模板使用顺序,并在保留有关cDNA的哪个末端是模板5’或3’末端的信息的情况下这样实施(图13B)。本文描述了用于该改进的方法(图13B),所述方法也可以被其他应用采用。
方法
为了增强用于将5’和3’衔接子融合到cDNA的第一和第二模板转换步骤的不同特异性,第一步和第二步引物与模板3’末端具有不同的属性(图13B)。这需要这样一种策略,即用于以与模板互补cDNA产物3’末端相同的方式限制RT识别5’衔接子引物3’末端。幸运的是,在R2 RT而不是内含子RT的情况下,引物+1嘧啶突出端抑制了对以另外的方式观察到的3-4个核苷酸突出端的额外的3’延伸(图10)。该特征使起始引物3’末端与cDNA的3’末端不同,所述cDNA的3’末端将遵守非模板化dNTP添加的平末端引物3’末端规则。具有嘌呤核苷酸3’末端(例如A)的模板将优先于缺少所述引物的同源3’末端+1T的任何其他可能的模板分子被复制,所述嘌呤核苷酸3’末端与具有嘧啶核苷酸(例如T)的同源+1突出端的cDNA5’衔接子引物同源(图13B)。但是,由于非模板化核苷酸添加非常倾向于与嘌呤核苷酸掺入一起发生(图9和10),因此模板互补cDNA 3’末端将无法与来自3’-嘌呤模板库中的另一个分子衔接(图13B)。相反,如果反应中还存在具有3’嘧啶(例如C)的cDNA3’衔接子模板,则其将用于模板转换的第二步(图13B)。
模板转换的第二步的效率可以通过抑制cDNA中间体的非制备性3’加尾来操控,例如采用dNTP浓度变化或dNTP类似物来操控。同样,可以通过增加衔接子模板的局部浓度来操控效率,例如采用液滴技术或表面固定来操控。此外,可以设想例如使用dNTP类似物来实施第一模板转换步骤相对于第二模板转换步骤的不同特异性的其他原理。例如,可以使用采用高浓度的iso-dG的非模板化添加反应对模板库进行3’延伸,所述高浓度的iso-dG在模板同源dNTP的存在下不会掺入到cDNA中,但可以用于向cDNA 3’突出端的非模板化核苷酸添加;iso-dG将优先与iso-dC配对,所述iso-dC可以唯一地处在3’衔接子模板的3’末端。当仅与容错配的聚合酶(例如R2 RT)和经典dNTP一起使用时,这些非经典核苷酸将缺乏模板保真度,但这很容易在序列分析中得到解决。
结果
有序模板转换实现cDNA合成的期望特异性。因为具有3’嘧啶的cDNA 3’衔接子模板不被cDNA5’衔接子引物+1嘧啶衔接,所以衔接子二聚体最小,特别是在具有与所述引物+1突出端核苷酸同源的3’核苷酸的模板库的存在下(图12,比较了来自缺少衔接子模板的反应的产物(泳道4、9)与来自包含衔接子模板的反应的产物(泳道5-8、10-13))。在添加单一cDNA 3’衔接子序列后,衔接子模板上的5’阻断基团停止连续模板复制(图12,比较了来自缺少衔接子模板阻断物的反应的产物(泳道5-6和10-11)与来自包含衔接子模板5’阻断物的反应的产物(泳道7-8和12-13))。
实施例7:通过模板3’末端修饰来抑制模板损失和cDNA合成反应副产物
R2 RT制备即使在没有RNA引物和模板的互补性的情况下,也显示出使用单链RNA作为cDNA合成的引物的能力(Luan等人.Mol.Cell Biol.16(9):4726-4734,1996;Bibillo等人.J.Mol.Biol.316(3):459-479,2002)。这导致大量的模板用作复制另一个模板分子的引物,产生不希望的双链体反应产物,包括有义-反义模板融合,和/或由于被RT识别为模板而耗尽模板3’末端。理想地,对预期的模板库3’末端的修饰应排除作为引物的破坏性模板使用,同时保留将分子被识别为由预期双链体引物合成cDNA的模板或产物DNA 3’末端的能力。本文提供了对RNA和DNA模板二者的该改进。
方法1:通过ddNTP的R2或内含子RT添加进行的模板3’延伸
将待修饰的核酸底物与MnCl2(通常在0.5至0.5mM的范围内,例如2mM)在期望pH值的合适缓冲液(通常在pH 6至pH 9的范围内,例如20mM Tris-HCl pH 7.5)中组合。添加待用于延伸底物的(多个)3’OH基团的(多种)ddNTP+/-(多种)dNTP(例如,dTTP+dCTP+dGTP+dATP+ddATP或仅ddATP或仅ddGTP)。加入非逆转录病毒RT酶(例如R2 RT或内含子RT,通常到0.2-1微摩尔,例如0.5微摩尔的终浓度)。除Mn2+的螯合剂(如EDTA)外,其他缓冲添加剂均允许和/或促进反应。在便利的温度(通常为4℃至50℃,例如室温或37℃)下孵育组装的反应长达反应进行到期望的获得3’H而不是3’OH的底物分数所必需的时间。可以通过添加螯合剂(例如EDTA)或使RT热失活(例如65℃下5分钟)或(例如使用虾碱性磷酸酶,NEB)水解未使用的核苷酸底物来终止反应。
方法2:通过ddNTP的TdT添加进行的DNA模板3’延伸
将待修饰的核酸底物与合适的二价阳离子MgCl2和/或MnCl2(通常在1-5mM的范围内,例如2mM)在期望pH值的合适缓冲液(通常在pH 6到pH 9的范围内,例如20mM Tris-HClpH 7.5)中组合。添加用于延伸底物的(多个)3’OH基团的(多种)ddNTP+/-(多种)dNTP或(多种)NTP(例如,ddATP+/-dATP或ddGTP+/-dGTP或ATP+ddATP或其他组合;TdT可以掺入有限数量的核糖核苷酸)。以制造商建议的稀释度添加TdT。在便利的温度(通常为37℃)下孵育反应长达底物获得3’H而不是3’OH所必需的时间。可以通过添加螯合剂(例如EDTA)或使TdT热失活(例如75℃下20分钟)或(例如使用虾碱性磷酸酶,NEB)水解未使用的核苷酸底物来终止反应。
结果
具有3'末端双脱氧核苷酸的模板可以通过模板转换被有效地识别用于启动。由于这些模板缺少可延伸的3’OH基团,因此在PAGE变性后,通过SYBR Gold染色直接检测到的R2RT反应产物(图14A和图14B)缺乏大量非特异性反应产物,原本所述非特异性反应产物将主导含有长度多于数十个碱基对的模板的反应。这些非特异性反应产物对于使用衔接子序列寡核苷酸通过PCR间接测定的反应而言是很大程度上不可见的;只有解析和直接检测反应产物,而不是通过PCR检测反应产物,才揭示出3’双脱氧核苷酸加尾模板的使用对于cDNA合成的全面改善。特别地,当cDNA5’衔接子引物是单独的Illumina读数2序列的~35nt互补序列(图14A)或由P7的互补序列、条形码i7和读数2组成的全长~70nt Illumina NGS衔接子(图14B)时,可以有效地使用ddA模板。在采用这些5’衔接子引物中的每一个的情况下,使用以下几种3’衔接子模板中的任一个通过第二模板转换步骤将ddA模板转换为全长cDNA文库:随机序列(最佳),具有Illumina读数1的~35nt通用3’衔接子模板,或由P5、条形码i5和读数1组成的~70nt全长Illumina NGS衔接子(图14A和图14B)。包括衔接子二聚体在内的副产物的产生是最小的(图14A和14B)。
实施例8:无分离或固定步骤的在单一容器中无PCR的下一代测序(NGS)cDNA文库制备
使用例如市场上主要的Illumina平台进行用于NGS测序的cDNA文库的最有效合成,将在同一反应中将5’和3’衔接子二者添加到逆转录序列中,而不依赖用户对中间产品的纯化或其他处理。此外,理想的将是使用一种这样的方法,其可以在没有样品处理、经过时间、动手时间、非定量表示以及对PCR步骤的要求施加的其他障碍的情况下生成文库。本文提供了用于该改进的方法以及其他应用。cDNA合成的某些应用将受益于双链DNA产物,所述双链DNA产物是由初始cDNA合成和初始cDNA互补序列的第二条链合成产生的。例如,双链产物用作模板有义链和反义链二者杂交的靶点。作为另一个实例,可以使用T4 DNA连接酶和其他常见策略将双链产物克隆到质粒载体中。本文提供了用于该改进的方法。
方法
cDNA合成
在无菌水中稀释输入模板。应该对双链DNA或RNA进行热变性,以生成3’单链区域。方案放大为最终体积20μL,典型输入~1皮摩尔3’末端。如果模板是3’PO4,则从STEP1开始。以37℃给出的反应温度是在大范围的可能的供选择方案(通常为4℃至50℃)内的示例温度。
步骤1(产生3’OH)向7.5μL样品中添加3μL输入稀释缓冲液(4X)。加入1μL缓冲液A1(12X)和0.5μL T4 PNK(NEB,预先稀释为3体积的水:1体积的酶储备液)。在37℃下孵育~10分钟。在65℃下孵育~20分钟。
如果跳过步骤1:将输入稀释至12μL。加入1.4μL缓冲液B2a(10X)和0.7μL缓冲液B1b(20X)。添加B缓冲液后,继续至步骤2。
步骤2(3’尾模板)添加0.7μL缓冲液B1a(20X)。加入0.7μL缓冲液B1b(20X)。加入1μL修饰的R2 RT。在37℃下孵育~20分钟。在65℃下孵育~5分钟。加入1μL缓冲液C(16X)和0.5μL rSAP。在37℃下孵育~15分钟。加入1μL缓冲液D(下一步需要20X)。在65℃下孵育~5分钟。
步骤3(cDNA合成)。加入1μL cDNA预混物(prep mix)(20X)。加入1μL cDNA起始混合物(start mix)(20X)。加入1μL修饰的R2 RT。在37℃下孵育~20分钟。在65℃下孵育~5分钟。
试剂清单(每种储存在-20℃下):
输入稀释缓冲液(4X):80mM Bis-Tris(pH 6.0)。
缓冲液A1(12X):120mM Bis-Tris(pH 6.0),12mM MgCl2,12mM DTT
缓冲液B1a(20X):0.4M Tris-HCl(pH 7.5),0.4M KOH,3M KCl
缓冲液B1b(20X):40mM MnCl2,10mM ddATP
缓冲液B2a(10X):0.2M Tris-HCl(pH 7.5),1.5M KCl,10mM DTT
缓冲液C(16X):80mM MgCl2
缓冲液D(20X):100mM EGTA
cDNA预混物(20X):10mM MgCl2,900mM KCl,40% PEG-6000
cDNA起始混合物:将等体积的以下物质组合,以制备20X起始混合物
40X“cDNA起始混合物”核苷酸:20mM每种dGTP/dTTP/dCTP,4mM dATP
40X寡核苷酸“cDNA起始混合物”库
寡核苷酸制备(例如,通过从IDT订购以下物质进行合成):
对于每一种,无PCR工作流程使用~70nt的衔接子引物和退火至~30nt互补链的衔接子模板:每种部分双链体的终浓度为90nM。标引带有下划线;这些是可变条形码。
衔接子引物部分双链体包含:
c5p(FL):
5'-CAAGCAGAAGACGGCATACGAGATGACGAGAGGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3'(SEQ ID NO:15)
c5pt:
5'rGrArUrCrGrGrArArGrArGrCrArCrArCrGrUrCrUrGrArArCrUrCrCrArGrU/3SpC3/-3'(SEQ ID NO:16)
衔接子模板部分双链体包含:
c3t(FL):
5'-/5AmMC6/AArUrGrArUACGGCGACrCrArCrCGAGATCTArCrArCrCGCAGACGArCrArCrUCTTTCCCTrArCrArCGACGCTCTrUrCrCrGrArUrCrUrC-3'(SEQ ID NO:17)
c3t_comp:
5'/c/rGrUrGrUrArGrArUrCrUrCrGrGrUrGrGrUrCrGrCrCrGrUrArUrCrArUrU/3SpC3/-3'(SEQ ID NO:18)
(ii)延续到双链cDNA的任选的cDNA合成
方法1
用至少RNA酶H2(为单一核糖核苷酸形成5’切口,以在本申请中留下DNA3’OH)、有或没有另外的RNA酶H1(4个核糖核苷酸的第1个至第2个之间的切口,其在本申请中留下RNA3’OH)和R2 RT或另一种DNA聚合酶或RT补充双末端cDNA衔接子添加反应产物。对于该方法,cDNA 3’衔接子模板5’末端应为DNA,以在RNA酶H处理后与cDNA产物保持关联。如果未除去cDNA模板和/或其他5’衔接子引物互补区域或3’衔接子模板(例如,如果它们是DNA),则添加的DNA聚合酶或RT应具有链置换活性。
方法2
用核酸酶补充双末端cDNA衔接子添加反应产物,或另外例如通过热,在cDNA 3’衔接子模板的至少5’末端区域中解离模板和cDNA链。添加用于第二链合成的引物和DNA聚合酶或RT。如果未除去cDNA模板和/或5’衔接子引物互补区域或3’衔接子模板,则添加的DNA聚合酶或RT应具有链置换活性。
(iii)方法的另外供选择方案和延续
根据应用,可以仅部分地执行工作流程。样品可以在工作流程中合并或拆分。该方法之前可以是在相同或不同的容器中进行RNA或DNA片段化。模板可以变性也可以不变性以去除二级结构。反应可以补充核酸结合蛋白或其他有助于模板结合到酶活性位点或3’末端进入酶活性位点的化合物。可以调节反应条件以调节持续性。在模板3’延伸步骤中,可以为修饰的R2 RT补充另一个非逆转录病毒RT,以扩大模板延伸的效率。酶融合可以例如通过使RT共价或非共价连接到(多个)单链或双链核酸结合结构域、起去除二级结构作用的酶或其他,提供对底物的额外的结合亲和力。可以通过PCR或其他技术扩增产物以增加产物的量,或增加或减少或修饰序列,例如用于使用生物素和/或寡核苷酸中的其他亲和配体固定或亲和纯化cDNA产物。
结果
这产生了单链cDNA文库,其将结合流动池中的P5寡核苷酸(图15A)。通过对常用的963个混合miRNA(miRXplore)的商业标准品进行测序的基准测试表明,可在单一管反应工作流程中在少于2小时内制备准备好测序的cDNA文库,然后引入Illumina NGS流通池中,而无PCR以及无耗尽或尺寸选择以去除用于制备miRNA文库的其他方案中生成的不希望的副产物。通过变性PAGE和SYBR Gold染色对反应产物的分析(图15B)表明,相对于主要的cDNA文库(标记为“cDNA+衔接子模板”)和由仅复制miRNA模板产生的一些cDNA产物(标记为“cDNA”),几乎检测不到包含衔接子二聚体的副产物的产生。对963个miRNA中的每个的读取计数的定量表明,在不到一百万个绘制的读取中捕获了963个miRNA的整个清单(图16B;X轴值是来自不到一百万个绘制的读取的无PCR文库的log2标度读取计数,并且表观零值具有非零值)。
模板链核酸可以例如通过热变性、碱基水解或核酸酶降解而释放或去除,用于受益于cDNA产物的单链性质的应用。对于某些应用,将例如使用RNA酶H和/或RNA酶A,从游离和/或结合RNA中纯化cDNA。对于某些应用,将例如使用沉淀、核酸结合载体、电泳或其他方法,从其他反应组分中纯化cDNA。对于某些应用,cDNA将被转换为双链体DNA。对于某些应用,例如,将通过示差沉淀、与载体结合或用载体分配、电泳或其他方法,纯化cDNA以富集特定尺寸范围。
用最少的额外样品处理或经过时间,可以将有序模板转换生成的单链cDNA转换为双链产物。有序模板转换3’衔接子模板的组成设计的灵活性为第二链合成提供了许多机会。
实施例9:无分配或固定步骤的在单一容器中NGS cDNA文库的PCR标引
使用例如市场上主要的Illumina平台进行用于NGS测序的cDNA文库的最有效合成,将在同一反应中将5’和3’衔接子二者添加到逆转录模板互补序列中,而不依赖于用户对中间产品的纯化或其他处理。通常的实践是使用短侧翼衔接子生成cDNA文库,然后在cDNA库组合测序之前使用标引PCR引物区分cDNA库(Park YS,Kim S,Park DG,Kim DH,YoonKW,Shin W和Han K.Genes Genomics.Epub,Jul 26 2019)。该策略减少了所需的任何单个合成寡核苷酸的最大长度。本文的发明为在RT反应后采用PCR反应进行cDNA文库构建的策略提供了方法。
方法
遵循以上实施例8中所述的方案,不同的是使用不同的寡核苷酸并增加最终的PCR步骤。PCR标引工作流程在RT反应中最好使用~35nt寡核苷酸:每种寡核苷酸的终浓度为180nM。标引带有下划线;这些是可变条形码。
衔接子引物双链体包含:
c5p(uni):5'-GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCC-3'(SEQ ID NO:19)
c5pt:
5'rGrArUrCrGrGrArArGrArGrCrArCrArCrGrUrCrUrGrArArCrUrCrCrArGrU/3SpC3/-3'(SEQ ID NO:20)
衔接子模板是:
c3t(uni):
5'-/5Phos/ACACTCTTTCCCTACACGACGCTCTTCCrGrArUrCrUrC-3'(SEQ ID NO:21)
PCR步骤与标准Illumina文库生成PCR反应平行。采用热稳定的DNA聚合酶(例如Q5)使用作为模板的cDNA文库和以下引物的PCR(例如4-8个98℃20秒/65℃20秒/72℃5秒的循环)将添加P5和P7衔接子。
P7:5’-CAAGCAGAAGACGGCATACGAGATTCGATCCAGTGACTGGAGTTCAGACGTG-3'(SEQ IDNO:22)
P5:5'-AATGATACGGCGACCACCGAGATCTACACCGCAGACGACACTCTTTCCCTACACGAC-3'(SEQ ID NO:23)
结果
该方法产生双链cDNA文库(图16A)。通过对常用的963个混合miRNA(miRXplore)的商业标准品进行测序的基准测试表明可以在2-3小时内制备准备好测序的cDNA文库。在无PCR文库(X轴值,单链文库)和低循环PCR文库(Y轴值,双链文库)中分别比较963个miRNA中的每一个的读取计数显示出相似的性能,其中两种该方法在不到一百万个绘制的读取中捕获了963个miRNA的全部清单(图16B)。完全一致将使每个点处于通过实际数据拟合的直线上。低PCR和无PCR之间的一致性(图16B)与低PCR的两次重复之间的一致性相当,但小于无PCR的两次重复的一致性。基于对存放于交叉比较研究的序列读数的平行分析,与使用4种商业miRNA或小型RNA测序试剂盒中的任何一种相比,无PCR或低循环PCR有序模板转换方案提供了更大或相等数量的识别的miRNA,并且在整个测序的miRNA中读取计数的变异系数更低(Coenen-Stass等人.RNA Biology 15(8)1133-45 2018)。
对于某些应用,cDNA将在PCR之前富集;这可能涉及从模板中分离DNA,去除dNTP和寡核苷酸,浓缩或尺寸分级等。对于某些应用,将例如使用沉淀、核酸结合载体、电泳或其他方法从其他反应组分中纯化DNA。对于某些应用,将例如通过示差沉淀、与载体结合或用载体分配、电泳或其他方法纯化DNA,以富集特定的尺寸范围。
其他实施方案
尽管出于清楚理解的目的已经通过说明和实施例的方式相当详细地描述了前述发明,但是所述描述和实施例不应解释为限制本发明的范围。本文引用的所有专利和科学文献的公开内容明确地以全文通过引用并入。
Claims (15)
1.一种制备互补DNA(cDNA)分子的方法,其包括:
提供包含引物链和非延伸链的引物双链体,其中所述引物链的3’末端包含+1个嘧啶核苷酸突出端;
提供在其3’末端包含嘌呤核苷酸的RNA模板;和
在包含镁离子和一种或多种dNTP或其类似物的缓冲液中使所述引物双链体和RNA模板与RT接触,其中所述接触在有效产生与所述RNA模板基本上互补的cDNA分子的条件下进行。
2.权利要求1所述的方法,其中所述引物链是DNA引物链。
3.权利要求1或2所述的方法,其中所述引物链包含5’突出端。
4.权利要求1-3中任一项所述的方法,其中所述引物链的5’末端或内部位点包含修饰,其中,任选地,所述修饰实现所述引物链或所述引物双链体的固定或纯化,其中,任选地,所述修饰是与生物素的连接。
5.权利要求1-4中任一项所述的方法,其中所述引物链是5’衔接子序列。
6.权利要求1-5中任一项所述的方法,其中所述非延伸链包含DNA、RNA、杂交DNA和RNA、或其修饰形式。
7.权利要求1-6中任一项所述的方法,其中所述非延伸链的3’末端包含修饰,其中,任选地,所述修饰阻断3’延伸,其中,任选地,所述修饰是3’C3间隔子或3’单磷酸酯。
8.权利要求1-7中任一项所述的方法,其中所述RNA模板是通过使单链或部分单链核酸的3’末端延伸至少一个核苷酸的方法制备的,所述方法包括在包含锰离子的缓冲液中使所述单链或部分单链核酸与具有核苷酸聚合酶活性的非逆转录病毒逆转录酶(RT)蛋白接触,其中,任选地,
(i)所述单链或部分单链核酸是RNA,并且,任选地,所述接触在RNA连接酶或聚腺苷RNA聚合酶、聚尿苷RNA聚合酶或任何其他非RT蛋白不存在的情况下进行;
和/或
(ii)所述RT蛋白实现所述核酸的3末端非模板化延伸至少一个核苷酸;
和/或
(iii)所述非逆转录病毒RT蛋白是真核非长末端重复序列逆转录酶(非LTR RT蛋白)或原核或细胞器内含子RT蛋白。
9.权利要求1-8中任一项所述的方法,其中所述引物双链体是通过使A型核酸双链体的3’末端延伸至少一个核苷酸的方法制备的,所述方法包括在包含锰离子的缓冲液中使所述A型核酸双链体与具有核苷酸聚合酶活性的非逆转录病毒RT蛋白接触,其中,任选地,
(i)所述A型核酸双链体是RNA-RNA核酸双链体、部分RNA-RNA核酸双链体、或其修饰形式,任选地,所述RNA-RNA核酸双链体、部分RNA-RNA核酸双链体、或其修饰形式的一个或两个末端是平末端或包含单核苷酸或其他短3’突出端;或者
(ii)所述A型核酸双链体是RNA-DNA核酸双链体、部分RNA-DNA核酸双链体、或其修饰形式,任选地,所述RNA-DNA核酸双链体、部分RNA-DNA核酸双链体、或其修饰形式的一个或两个末端是平末端或包含单核苷酸或其他短3’突出端;和/或
(iii)所述非逆转录病毒RT蛋白是真核非长末端重复序列逆转录酶(非LTR RT)蛋白或原核或细胞器内含子RT蛋白。
10.权利要求1-9中任一项所述的方法,其中所述RT是真核非LTR RT蛋白,其中,任选地
(i)所述真核非LTR RT蛋白是R2 RT蛋白,任选地,所述R2 RT蛋白是家蚕R2 RT蛋白;
或者
(ii)所述真核非LTR RT蛋白是包含截短的N末端区域、RNA结合结构域、RT结构域和核酸内切酶结构域的真核非长末端重复序列逆转录酶(非LTR RT)蛋白,其中所述核酸内切酶结构域包含消除核酸内切酶功能的突变,其中,任选地,
-所述真核非LTR RT蛋白是R2逆转录因子RT(R2 RT)蛋白;
和/或
-所述截短的N末端区域导致与相应的全长非LTR RT蛋白相比,从非LTR RT蛋白的N末端缺失69至303个氨基酸,任选地导致缺失69至274个氨基酸,任选地导致缺失274个氨基酸;或
-所述截短的N末端区域导致全部或部分的序列特异性DNA结合结构域缺失;和/或
-所述截短的N末端区域导致全部的序列特异性DNA结合结构域缺失,任选地,所述截短的N末端区域导致与相应的全长非LTR RT蛋白相比,从非LTR RT蛋白的N末端缺失274至303个氨基酸;和/或
-所述真核非LTR RT蛋白不包含序列特异性DNA结合结构域;
和/或
(iii)所述真核非LTR RT蛋白源自节肢动物,优选地,所述节肢动物是家蚕,更优选地,所述真核非LTR RT蛋白是家蚕R2 RT蛋白;其中,任选地,
-所述消除核酸内切酶功能的突变是全长家蚕R2 RT蛋白(SEQ ID NO:1)的氨基酸残基D996、D1009或K1026处的置换突变,其中,任选地,
-所述置换突变在氨基酸残基D996处;和/或
-氨基酸残基D996被除Glu(E)以外的任何氨基酸置换;和/或
-所述置换突变是D996A突变;
或
-所述置换突变在氨基酸残基D1009处;和/或
-氨基酸残基D1009被除Glu(E)以外的任何氨基酸置换;
和/或
-所述置换突变是D1009A突变;
或
-所述置换突变在氨基酸残基K1026处;和/或
-所述置换突变是K1026A、K1026D或K1026E突变;和/或
-所述置换突变是K1026A突变;
或者
-所述消除核酸内切酶功能的突变是在氨基酸残基K1026和K1029处的置换突变,其中,任选地,所述置换突变是K1026A和K1029A突变;
和/或
(iv)所述真核非LTR RT蛋白还包含稳定蛋白和/或纯化标签,其中,任选地,所述稳定蛋白和/或纯化标签连接到所述真核非LTR RT蛋白的N末端或C末端;
和/或
(v)所述真核非LTR RT蛋白基本上不含核酸污染物;
和/或
(vi)所述真核非LTR RT蛋白包含SEQ ID NO:2或SEQ ID NO:3或SEQ ID NO:10的氨基酸序列。
11.权利要求1-9中任一项所述的方法,其中所述非逆转录病毒RT蛋白是原核或细胞器内含子RT蛋白,任选地,所述原核或细胞器内含子RT是直肠真杆菌II组内含子RT蛋白。
12.权利要求1-11中任一项所述的方法,其中所述RNA模板在其3’末端包含嘌呤dNTP、NTP、ddNTP、或核苷酸类似物。
13.权利要求1-12中任一项所述的方法,其中所述RNA模板的5’末端包含修饰,其中,任选地,
(i)所述修饰是不可逆修饰,任选地,所述不可逆修饰是5’C6间隔子或生物素;或者
(ii)所述修饰是可逆修饰,任选地,所述可逆修饰是5’腺苷酰化。
14.权利要求1-13中任一项所述的方法,其中所述接触在第二模板的存在下进行,其中所述第二模板在其3’末端包含嘧啶核苷酸,其中,任选地,
(i)所述第二模板包含DNA、RNA、杂交DNA和RNA、或其修饰形式,任选地,所述第二模板在其3’末端包含嘧啶核糖核苷酸;和/或
(ii)所述第二模板是3’衔接子序列的互补序列,任选地,所述接触在有效产生包含所述5’衔接子序列、与所述RNA模板基本上互补的序列和所述3’衔接子序列的cDNA分子的条件下进行;和/或
(iii)所述第二模板的5’末端包含修饰,其中,任选地,
-所述修饰是不可逆修饰,任选地,所述不可逆修饰是5’C6间隔子或生物素;或
-所述修饰是可逆修饰,任选地,所述可逆修饰是5’腺苷酰化。
15.权利要求1-14中任一项所述的方法,其中
(i)所述接触在约4℃至约50℃的温度下进行,任选地,所述接触在约37℃的温度下进行;和/或
(ii)所述缓冲液包含一种或多种核糖核苷三磷酸(NTP)、脱氧核糖核苷三磷酸(dNTP)或二脱氧核糖核苷三磷酸(ddNTP)、或其核苷酸类似物;和/或
(iii)所述方法在单一容器中进行。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862716159P | 2018-08-08 | 2018-08-08 | |
US62/716159 | 2018-08-08 | ||
PCT/US2019/045817 WO2020033777A2 (en) | 2018-08-08 | 2019-08-08 | COMPOSITIONS AND METHODS FOR ORDERED AND CONTINUOUS COMPLEMENTARY DNA (cDNA) SYNTHESIS ACROSS NON-CONTINUOUS TEMPLATES |
CN201980066006.XA CN112805373B (zh) | 2018-08-08 | 2019-08-08 | 用于跨非连续模板的有序和连续的互补DNA(cDNA)合成的组合物和方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980066006.XA Division CN112805373B (zh) | 2018-08-08 | 2019-08-08 | 用于跨非连续模板的有序和连续的互补DNA(cDNA)合成的组合物和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116694741A true CN116694741A (zh) | 2023-09-05 |
Family
ID=69413692
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980066006.XA Active CN112805373B (zh) | 2018-08-08 | 2019-08-08 | 用于跨非连续模板的有序和连续的互补DNA(cDNA)合成的组合物和方法 |
CN202310710254.1A Pending CN116694740A (zh) | 2018-08-08 | 2019-08-08 | 用于跨非连续模板的有序和连续的互补DNA(cDNA)合成的组合物和方法 |
CN202310710481.4A Pending CN116694741A (zh) | 2018-08-08 | 2019-08-08 | 用于跨非连续模板的有序和连续的互补DNA(cDNA)合成的组合物和方法 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980066006.XA Active CN112805373B (zh) | 2018-08-08 | 2019-08-08 | 用于跨非连续模板的有序和连续的互补DNA(cDNA)合成的组合物和方法 |
CN202310710254.1A Pending CN116694740A (zh) | 2018-08-08 | 2019-08-08 | 用于跨非连续模板的有序和连续的互补DNA(cDNA)合成的组合物和方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210261944A1 (zh) |
EP (3) | EP4190896A1 (zh) |
JP (4) | JP2021533751A (zh) |
CN (3) | CN112805373B (zh) |
WO (1) | WO2020033777A2 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022076759A1 (en) * | 2020-10-09 | 2022-04-14 | The Regents Of The University Of California | Improvements to reactions with non-retroviral reverse transcriptase |
WO2023196738A1 (en) * | 2022-04-05 | 2023-10-12 | The Regents Of The University Of California | Nanopore sequencing of rna using reverse transcription |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4683195A (en) | 1986-01-30 | 1987-07-28 | Cetus Corporation | Process for amplifying, detecting, and/or-cloning nucleic acid sequences |
GB9923846D0 (en) * | 1999-10-09 | 1999-12-08 | Quip Technology Limited | Reverse transcriptase assay |
WO2002018591A1 (en) * | 2000-08-30 | 2002-03-07 | University Of Rochester | Method of performing reverse transcription reaction using reverse transcriptase encoded by non-ltr retrotransposable element |
SG192870A1 (en) * | 2011-02-23 | 2013-09-30 | Regents Board Of | Use of template switching for dna synthesis |
KR102489902B1 (ko) * | 2016-11-11 | 2023-01-19 | 바이오 래드 래버러토리스 인코오포레이티드 | 핵산 샘플을 프로세싱하는 방법 |
-
2019
- 2019-08-08 CN CN201980066006.XA patent/CN112805373B/zh active Active
- 2019-08-08 WO PCT/US2019/045817 patent/WO2020033777A2/en unknown
- 2019-08-08 CN CN202310710254.1A patent/CN116694740A/zh active Pending
- 2019-08-08 EP EP22206892.6A patent/EP4190896A1/en active Pending
- 2019-08-08 JP JP2021506693A patent/JP2021533751A/ja active Pending
- 2019-08-08 EP EP22206899.1A patent/EP4190897A1/en active Pending
- 2019-08-08 EP EP19848534.4A patent/EP3833748B1/en active Active
- 2019-08-08 CN CN202310710481.4A patent/CN116694741A/zh active Pending
-
2021
- 2021-02-04 US US17/167,136 patent/US20210261944A1/en active Pending
-
2023
- 2023-12-13 JP JP2023210150A patent/JP2024028962A/ja active Pending
- 2023-12-13 JP JP2023210093A patent/JP2024028959A/ja active Pending
- 2023-12-13 JP JP2023210054A patent/JP2024028958A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
CN116694740A (zh) | 2023-09-05 |
JP2024028959A (ja) | 2024-03-05 |
EP4190896A1 (en) | 2023-06-07 |
EP4190897A1 (en) | 2023-06-07 |
CN112805373B (zh) | 2023-05-12 |
WO2020033777A2 (en) | 2020-02-13 |
CN112805373A (zh) | 2021-05-14 |
EP3833748A4 (en) | 2022-03-30 |
EP3833748A2 (en) | 2021-06-16 |
US20210261944A1 (en) | 2021-08-26 |
WO2020033777A3 (en) | 2020-04-16 |
JP2024028958A (ja) | 2024-03-05 |
JP2021533751A (ja) | 2021-12-09 |
EP3833748B1 (en) | 2023-06-28 |
JP2024028962A (ja) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104114702B (zh) | 模板转换用于dna合成的用途 | |
EP3377648B1 (en) | Dp04 polymerase variants | |
ES2550237T3 (es) | Composiciones de extremo del transposón y métodos para modificar ácidos nucleicos | |
US20180237756A1 (en) | Enzymes | |
Nikoomanzar et al. | Engineering polymerases for applications in synthetic biology | |
CN113423840B (zh) | 多核苷酸无模板酶促合成中有效的产物裂解 | |
US20150011434A1 (en) | Method for the synthesis of a bifunctional complex | |
EP3728585B1 (en) | Novel processes for the production of oligonucleotides | |
JP2024028958A (ja) | 不連続な複数の鋳型から相補的DNA(cDNA)を順序だてて連続的に合成するための組成物およびその方法 | |
KR20200026914A (ko) | Dna 생산 방법 및 dna 단편 연결용 키트 | |
JP2022543569A (ja) | ポリ(a)およびポリ(u)ポリメラーゼを使用するポリヌクレオチドの鋳型なしの酵素による合成 | |
CN110997922B (zh) | 使用双链多联体dna的无细胞蛋白质表达 | |
EP1546355B1 (en) | Methods of use for thermostable rna ligases | |
CA3222937A1 (en) | Methods of nucleic acid sequencing using surface-bound primers | |
WO2024059719A2 (en) | Compositions for preventing repetitive addition of switching oligonucleotides and nonspecific primer extension during cdna synthesis and methods of use thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |