CN1524128A - 包含基因转录调节特性的dna序列及检测和应用这些dna序列的方法 - Google Patents
包含基因转录调节特性的dna序列及检测和应用这些dna序列的方法 Download PDFInfo
- Publication number
- CN1524128A CN1524128A CNA028135717A CN02813571A CN1524128A CN 1524128 A CN1524128 A CN 1524128A CN A028135717 A CNA028135717 A CN A028135717A CN 02813571 A CN02813571 A CN 02813571A CN 1524128 A CN1524128 A CN 1524128A
- Authority
- CN
- China
- Prior art keywords
- sequence
- dna
- star
- gene
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001105 regulatory effect Effects 0.000 title claims abstract description 80
- 108090000623 proteins and genes Proteins 0.000 title claims description 269
- 238000013518 transcription Methods 0.000 title claims description 176
- 230000035897 transcription Effects 0.000 title claims description 176
- 108091028043 Nucleic acid sequence Proteins 0.000 title claims description 169
- 238000000034 method Methods 0.000 title claims description 158
- 238000001514 detection method Methods 0.000 claims abstract description 13
- 210000004027 cell Anatomy 0.000 claims description 183
- 230000014509 gene expression Effects 0.000 claims description 183
- 108020004414 DNA Proteins 0.000 claims description 145
- 230000002068 genetic effect Effects 0.000 claims description 121
- 108700008625 Reporter Genes Proteins 0.000 claims description 92
- 230000000694 effects Effects 0.000 claims description 81
- 238000012360 testing method Methods 0.000 claims description 78
- 102000004169 proteins and genes Human genes 0.000 claims description 65
- 230000006870 function Effects 0.000 claims description 50
- 239000012634 fragment Substances 0.000 claims description 44
- 150000007523 nucleic acids Chemical class 0.000 claims description 42
- 102000039446 nucleic acids Human genes 0.000 claims description 40
- 108020004707 nucleic acids Proteins 0.000 claims description 40
- 108010077544 Chromatin Proteins 0.000 claims description 36
- 210000003483 chromatin Anatomy 0.000 claims description 36
- 108010022429 Polycomb-Group Proteins Proteins 0.000 claims description 33
- 102000012425 Polycomb-Group Proteins Human genes 0.000 claims description 33
- 241000196324 Embryophyta Species 0.000 claims description 31
- 239000000203 mixture Substances 0.000 claims description 28
- 239000002773 nucleotide Substances 0.000 claims description 23
- 125000003729 nucleotide group Chemical group 0.000 claims description 23
- 230000003405 preventing effect Effects 0.000 claims description 22
- 241000894007 species Species 0.000 claims description 22
- 239000013604 expression vector Substances 0.000 claims description 19
- 108091027981 Response element Proteins 0.000 claims description 18
- 230000002759 chromosomal effect Effects 0.000 claims description 16
- 108091035707 Consensus sequence Proteins 0.000 claims description 15
- 241000251539 Vertebrata <Metazoa> Species 0.000 claims description 14
- 230000008521 reorganization Effects 0.000 claims description 13
- 108010034791 Heterochromatin Proteins 0.000 claims description 10
- 210000004458 heterochromatin Anatomy 0.000 claims description 10
- 230000001939 inductive effect Effects 0.000 claims description 9
- 230000009471 action Effects 0.000 claims description 8
- 230000004069 differentiation Effects 0.000 claims description 8
- 230000010502 episomal replication Effects 0.000 claims description 8
- 210000003917 human chromosome Anatomy 0.000 claims description 7
- 230000010076 replication Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 241000701044 Human gammaherpesvirus 4 Species 0.000 claims description 4
- 241000124008 Mammalia Species 0.000 claims description 4
- 102000019040 Nuclear Antigens Human genes 0.000 claims description 4
- 108010051791 Nuclear Antigens Proteins 0.000 claims description 4
- 239000003112 inhibitor Substances 0.000 claims description 4
- 230000005764 inhibitory process Effects 0.000 claims description 4
- 241000725303 Human immunodeficiency virus Species 0.000 claims description 3
- 238000009792 diffusion process Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- FXYZDFSNBBOHTA-UHFFFAOYSA-N 2-[amino(morpholin-4-ium-4-ylidene)methyl]guanidine;chloride Chemical compound Cl.NC(N)=NC(=N)N1CCOCC1 FXYZDFSNBBOHTA-UHFFFAOYSA-N 0.000 claims description 2
- 102000003964 Histone deacetylase Human genes 0.000 claims description 2
- 108090000353 Histone deacetylase Proteins 0.000 claims description 2
- 230000022532 regulation of transcription, DNA-dependent Effects 0.000 claims description 2
- 238000010353 genetic engineering Methods 0.000 claims 2
- 108091093105 Nuclear DNA Proteins 0.000 claims 1
- 210000000745 plant chromosome Anatomy 0.000 claims 1
- 238000012216 screening Methods 0.000 abstract description 22
- 230000009261 transgenic effect Effects 0.000 abstract description 13
- 241001465754 Metazoa Species 0.000 abstract description 7
- 230000014616 translation Effects 0.000 abstract description 3
- 230000009897 systematic effect Effects 0.000 abstract 1
- 230000001225 therapeutic effect Effects 0.000 abstract 1
- 239000013612 plasmid Substances 0.000 description 123
- 108060001084 Luciferase Proteins 0.000 description 80
- 239000005089 Luciferase Substances 0.000 description 79
- 238000004458 analytical method Methods 0.000 description 59
- 238000001890 transfection Methods 0.000 description 55
- 108010084455 Zeocin Proteins 0.000 description 38
- CWCMIVBLVUHDHK-ZSNHEYEWSA-N phleomycin D1 Chemical compound N([C@H](C(=O)N[C@H](C)[C@@H](O)[C@H](C)C(=O)N[C@@H]([C@H](O)C)C(=O)NCCC=1SC[C@@H](N=1)C=1SC=C(N=1)C(=O)NCCCCNC(N)=N)[C@@H](O[C@H]1[C@H]([C@@H](O)[C@H](O)[C@H](CO)O1)O[C@@H]1[C@H]([C@@H](OC(N)=O)[C@H](O)[C@@H](CO)O1)O)C=1N=CNC=1)C(=O)C1=NC([C@H](CC(N)=O)NC[C@H](N)C(N)=O)=NC(N)=C1C CWCMIVBLVUHDHK-ZSNHEYEWSA-N 0.000 description 38
- 108091034117 Oligonucleotide Proteins 0.000 description 37
- 241000282414 Homo sapiens Species 0.000 description 31
- 241000699666 Mus <mouse, genus> Species 0.000 description 30
- 239000000047 product Substances 0.000 description 28
- 238000003752 polymerase chain reaction Methods 0.000 description 23
- SGKRLCUYIXIAHR-AKNGSSGZSA-N (4s,4ar,5s,5ar,6r,12ar)-4-(dimethylamino)-1,5,10,11,12a-pentahydroxy-6-methyl-3,12-dioxo-4a,5,5a,6-tetrahydro-4h-tetracene-2-carboxamide Chemical compound C1=CC=C2[C@H](C)[C@@H]([C@H](O)[C@@H]3[C@](C(O)=C(C(N)=O)C(=O)[C@H]3N(C)C)(O)C3=O)C3=C(O)C2=C1O SGKRLCUYIXIAHR-AKNGSSGZSA-N 0.000 description 22
- 238000010367 cloning Methods 0.000 description 22
- 229960003722 doxycycline Drugs 0.000 description 22
- 238000012549 training Methods 0.000 description 22
- 230000008859 change Effects 0.000 description 20
- 230000029087 digestion Effects 0.000 description 19
- 108091035710 E-box Proteins 0.000 description 18
- 108010043121 Green Fluorescent Proteins Proteins 0.000 description 18
- 102000004144 Green Fluorescent Proteins Human genes 0.000 description 18
- 210000000349 chromosome Anatomy 0.000 description 18
- 238000002474 experimental method Methods 0.000 description 18
- 239000005090 green fluorescent protein Substances 0.000 description 18
- 239000000463 material Substances 0.000 description 18
- 241000219194 Arabidopsis Species 0.000 description 17
- 239000004098 Tetracycline Substances 0.000 description 17
- 235000019364 tetracycline Nutrition 0.000 description 17
- 150000003522 tetracyclines Chemical class 0.000 description 17
- 108700019146 Transgenes Proteins 0.000 description 16
- 229960002180 tetracycline Drugs 0.000 description 16
- 229930101283 tetracycline Natural products 0.000 description 16
- 230000002103 transcriptional effect Effects 0.000 description 16
- YQYJSBFKSSDGFO-UHFFFAOYSA-N Epihygromycin Natural products OC1C(O)C(C(=O)C)OC1OC(C(=C1)O)=CC=C1C=C(C)C(=O)NC1C(O)C(O)C2OCOC2C1O YQYJSBFKSSDGFO-UHFFFAOYSA-N 0.000 description 15
- 241000829100 Macaca mulatta polyomavirus 1 Species 0.000 description 15
- 230000002559 cytogenic effect Effects 0.000 description 15
- 230000012010 growth Effects 0.000 description 15
- 241000894006 Bacteria Species 0.000 description 14
- 241000701022 Cytomegalovirus Species 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 14
- 108010033040 Histones Proteins 0.000 description 13
- 230000027455 binding Effects 0.000 description 13
- YQYJSBFKSSDGFO-FWAVGLHBSA-N hygromycin A Chemical compound O[C@H]1[C@H](O)[C@H](C(=O)C)O[C@@H]1Oc1ccc(\C=C(/C)C(=O)N[C@@H]2[C@@H]([C@H]3OCO[C@H]3[C@@H](O)[C@@H]2O)O)cc1O YQYJSBFKSSDGFO-FWAVGLHBSA-N 0.000 description 13
- 101100383920 Fragaria ananassa MCSI gene Proteins 0.000 description 12
- 230000002441 reversible effect Effects 0.000 description 12
- 239000000523 sample Substances 0.000 description 12
- 108010047956 Nucleosomes Proteins 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 11
- 230000004992 fission Effects 0.000 description 11
- 238000013467 fragmentation Methods 0.000 description 11
- 238000006062 fragmentation reaction Methods 0.000 description 11
- 230000010354 integration Effects 0.000 description 11
- 230000000968 intestinal effect Effects 0.000 description 11
- 210000001623 nucleosome Anatomy 0.000 description 11
- 229940002612 prodrug Drugs 0.000 description 11
- 239000000651 prodrug Substances 0.000 description 11
- 238000012163 sequencing technique Methods 0.000 description 11
- 102100022094 Acid-sensing ion channel 2 Human genes 0.000 description 10
- 101000901079 Homo sapiens Acid-sensing ion channel 2 Proteins 0.000 description 10
- QLDHWVVRQCGZLE-UHFFFAOYSA-N acetyl cyanide Chemical compound CC(=O)C#N QLDHWVVRQCGZLE-UHFFFAOYSA-N 0.000 description 10
- 239000003550 marker Substances 0.000 description 10
- 238000010561 standard procedure Methods 0.000 description 10
- NWXMGUDVXFXRIG-WESIUVDSSA-N (4s,4as,5as,6s,12ar)-4-(dimethylamino)-1,6,10,11,12a-pentahydroxy-6-methyl-3,12-dioxo-4,4a,5,5a-tetrahydrotetracene-2-carboxamide Chemical compound C1=CC=C2[C@](O)(C)[C@H]3C[C@H]4[C@H](N(C)C)C(=O)C(C(N)=O)=C(O)[C@@]4(O)C(=O)C3=C(O)C2=C1O NWXMGUDVXFXRIG-WESIUVDSSA-N 0.000 description 9
- GHASVSINZRGABV-UHFFFAOYSA-N Fluorouracil Chemical compound FC1=CNC(=O)NC1=O GHASVSINZRGABV-UHFFFAOYSA-N 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 9
- XRECTZIEBJDKEO-UHFFFAOYSA-N flucytosine Chemical compound NC1=NC(=O)NC=C1F XRECTZIEBJDKEO-UHFFFAOYSA-N 0.000 description 9
- 230000030279 gene silencing Effects 0.000 description 9
- 230000008676 import Effects 0.000 description 9
- 210000004962 mammalian cell Anatomy 0.000 description 9
- 238000000926 separation method Methods 0.000 description 9
- 238000011144 upstream manufacturing Methods 0.000 description 9
- 235000013399 edible fruits Nutrition 0.000 description 8
- 230000006872 improvement Effects 0.000 description 8
- 230000001965 increasing effect Effects 0.000 description 8
- 238000003780 insertion Methods 0.000 description 8
- 230000037431 insertion Effects 0.000 description 8
- 238000013507 mapping Methods 0.000 description 8
- 201000008968 osteosarcoma Diseases 0.000 description 8
- 210000001672 ovary Anatomy 0.000 description 8
- 238000011160 research Methods 0.000 description 8
- 241000699802 Cricetulus griseus Species 0.000 description 7
- 108010059724 Micrococcal Nuclease Proteins 0.000 description 7
- 238000012408 PCR amplification Methods 0.000 description 7
- 108020004511 Recombinant DNA Proteins 0.000 description 7
- 108010091086 Recombinases Proteins 0.000 description 7
- 102000018120 Recombinases Human genes 0.000 description 7
- 230000003321 amplification Effects 0.000 description 7
- 238000013461 design Methods 0.000 description 7
- 238000011534 incubation Methods 0.000 description 7
- 238000003199 nucleic acid amplification method Methods 0.000 description 7
- 210000001519 tissue Anatomy 0.000 description 7
- 108010085238 Actins Proteins 0.000 description 6
- 108020004774 Alkaline Phosphatase Proteins 0.000 description 6
- 102000002260 Alkaline Phosphatase Human genes 0.000 description 6
- 108010008532 Deoxyribonuclease I Proteins 0.000 description 6
- 102000007260 Deoxyribonuclease I Human genes 0.000 description 6
- 239000003242 anti bacterial agent Substances 0.000 description 6
- 229940088710 antibiotic agent Drugs 0.000 description 6
- 230000008901 benefit Effects 0.000 description 6
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 6
- 230000034994 death Effects 0.000 description 6
- 108020004999 messenger RNA Proteins 0.000 description 6
- 230000002829 reductive effect Effects 0.000 description 6
- 238000003153 stable transfection Methods 0.000 description 6
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 5
- 101100230376 Acetivibrio thermocellus (strain ATCC 27405 / DSM 1237 / JCM 9322 / NBRC 103400 / NCIMB 10682 / NRRL B-4536 / VPI 7372) celI gene Proteins 0.000 description 5
- 102000007469 Actins Human genes 0.000 description 5
- 241001539176 Hime Species 0.000 description 5
- 108700026244 Open Reading Frames Proteins 0.000 description 5
- 230000021736 acetylation Effects 0.000 description 5
- 238000006640 acetylation reaction Methods 0.000 description 5
- 238000007622 bioinformatic analysis Methods 0.000 description 5
- 230000019771 cognition Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 229960002949 fluorouracil Drugs 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000008488 polyadenylation Effects 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 108091008146 restriction endonucleases Proteins 0.000 description 5
- XQCZBXHVTFVIFE-UHFFFAOYSA-N 2-amino-4-hydroxypyrimidine Chemical compound NC1=NC=CC(O)=N1 XQCZBXHVTFVIFE-UHFFFAOYSA-N 0.000 description 4
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 4
- 102100036601 Aggrecan core protein Human genes 0.000 description 4
- 102000004190 Enzymes Human genes 0.000 description 4
- 108090000790 Enzymes Proteins 0.000 description 4
- 108010022894 Euchromatin Proteins 0.000 description 4
- 108010046276 FLP recombinase Proteins 0.000 description 4
- 101000999998 Homo sapiens Aggrecan core protein Proteins 0.000 description 4
- 206010020751 Hypersensitivity Diseases 0.000 description 4
- 101710196632 LexA repressor Proteins 0.000 description 4
- 108700025695 Suppressor Genes Proteins 0.000 description 4
- 102100033178 Vascular endothelial growth factor receptor 1 Human genes 0.000 description 4
- 229960000723 ampicillin Drugs 0.000 description 4
- AVKUERGKIZMTKX-NJBDSQKTSA-N ampicillin Chemical compound C1([C@@H](N)C(=O)N[C@H]2[C@H]3SC([C@@H](N3C2=O)C(O)=O)(C)C)=CC=CC=C1 AVKUERGKIZMTKX-NJBDSQKTSA-N 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000006555 catalytic reaction Methods 0.000 description 4
- 108091006090 chromatin-associated proteins Proteins 0.000 description 4
- 101150093170 codA gene Proteins 0.000 description 4
- 238000012258 culturing Methods 0.000 description 4
- 230000007812 deficiency Effects 0.000 description 4
- 230000008034 disappearance Effects 0.000 description 4
- 239000000975 dye Substances 0.000 description 4
- 210000000632 euchromatin Anatomy 0.000 description 4
- 238000012226 gene silencing method Methods 0.000 description 4
- 239000003862 glucocorticoid Substances 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 210000004940 nucleus Anatomy 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 4
- 239000013641 positive control Substances 0.000 description 4
- 238000003757 reverse transcription PCR Methods 0.000 description 4
- 230000004083 survival effect Effects 0.000 description 4
- 241000219195 Arabidopsis thaliana Species 0.000 description 3
- 230000007067 DNA methylation Effects 0.000 description 3
- 238000000018 DNA microarray Methods 0.000 description 3
- 208000030453 Drug-Related Side Effects and Adverse reaction Diseases 0.000 description 3
- 101100056806 Oryza sativa subsp. japonica STAR3 gene Proteins 0.000 description 3
- 241000288906 Primates Species 0.000 description 3
- 101100235354 Pseudomonas putida (strain ATCC 47054 / DSM 6125 / CFBP 8728 / NCIMB 11950 / KT2440) lexA1 gene Proteins 0.000 description 3
- 238000012300 Sequence Analysis Methods 0.000 description 3
- 102000006601 Thymidine Kinase Human genes 0.000 description 3
- 108020004440 Thymidine kinase Proteins 0.000 description 3
- 206010070863 Toxicity to various agents Diseases 0.000 description 3
- 238000000246 agarose gel electrophoresis Methods 0.000 description 3
- 238000000211 autoradiogram Methods 0.000 description 3
- 230000003115 biocidal effect Effects 0.000 description 3
- 229910000389 calcium phosphate Inorganic materials 0.000 description 3
- 239000001506 calcium phosphate Substances 0.000 description 3
- 235000011010 calcium phosphates Nutrition 0.000 description 3
- 239000003153 chemical reaction reagent Substances 0.000 description 3
- 239000013611 chromosomal DNA Substances 0.000 description 3
- 239000002299 complementary DNA Substances 0.000 description 3
- 238000005336 cracking Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 210000003527 eukaryotic cell Anatomy 0.000 description 3
- 238000010448 genetic screening Methods 0.000 description 3
- 101150047523 lexA gene Proteins 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000001035 methylating effect Effects 0.000 description 3
- 238000002493 microarray Methods 0.000 description 3
- 231100000419 toxicity Toxicity 0.000 description 3
- 230000001988 toxicity Effects 0.000 description 3
- 239000012096 transfection reagent Substances 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- QORWJWZARLRLPR-UHFFFAOYSA-H tricalcium bis(phosphate) Chemical compound [Ca+2].[Ca+2].[Ca+2].[O-]P([O-])([O-])=O.[O-]P([O-])([O-])=O QORWJWZARLRLPR-UHFFFAOYSA-H 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000003612 virological effect Effects 0.000 description 3
- 108010051219 Cre recombinase Proteins 0.000 description 2
- 230000004568 DNA-binding Effects 0.000 description 2
- 241001269524 Dura Species 0.000 description 2
- 241000206602 Eukaryota Species 0.000 description 2
- 108700005087 Homeobox Genes Proteins 0.000 description 2
- 101000852992 Homo sapiens Interleukin-12 subunit beta Proteins 0.000 description 2
- 108091036060 Linker DNA Proteins 0.000 description 2
- 108091061960 Naked DNA Proteins 0.000 description 2
- 229930182555 Penicillin Natural products 0.000 description 2
- JGSARLDLIJGVTE-MBNYWOFBSA-N Penicillin G Chemical compound N([C@H]1[C@H]2SC([C@@H](N2C1=O)C(O)=O)(C)C)C(=O)CC1=CC=CC=C1 JGSARLDLIJGVTE-MBNYWOFBSA-N 0.000 description 2
- 101710197208 Regulatory protein cro Proteins 0.000 description 2
- 241000714474 Rous sarcoma virus Species 0.000 description 2
- 102000049867 Steroidogenic acute regulatory protein Human genes 0.000 description 2
- 108010018411 Steroidogenic acute regulatory protein Proteins 0.000 description 2
- 241000269370 Xenopus <genus> Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000006907 apoptotic process Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 210000004507 artificial chromosome Anatomy 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 238000009395 breeding Methods 0.000 description 2
- 230000001488 breeding effect Effects 0.000 description 2
- 244000309466 calf Species 0.000 description 2
- 238000004113 cell culture Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 210000004978 chinese hamster ovary cell Anatomy 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 229940104302 cytosine Drugs 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010790 dilution Methods 0.000 description 2
- 239000012895 dilution Substances 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000005014 ectopic expression Effects 0.000 description 2
- 239000013613 expression plasmid Substances 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- IRSCQMHQWWYFCW-UHFFFAOYSA-N ganciclovir Chemical compound O=C1NC(N)=NC2=C1N=CN2COC(CO)CO IRSCQMHQWWYFCW-UHFFFAOYSA-N 0.000 description 2
- 229960002963 ganciclovir Drugs 0.000 description 2
- 238000001415 gene therapy Methods 0.000 description 2
- ZDXPYRJPNDTMRX-UHFFFAOYSA-N glutamine Natural products OC(=O)C(N)CCC(N)=O ZDXPYRJPNDTMRX-UHFFFAOYSA-N 0.000 description 2
- 239000012133 immunoprecipitate Substances 0.000 description 2
- 238000001727 in vivo Methods 0.000 description 2
- 230000002779 inactivation Effects 0.000 description 2
- 210000003734 kidney Anatomy 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 239000002609 medium Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000002703 mutagenesis Methods 0.000 description 2
- 231100000350 mutagenesis Toxicity 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 239000013642 negative control Substances 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 101710135378 pH 6 antigen Proteins 0.000 description 2
- 230000037361 pathway Effects 0.000 description 2
- 229940049954 penicillin Drugs 0.000 description 2
- 210000002826 placenta Anatomy 0.000 description 2
- 230000029279 positive regulation of transcription, DNA-dependent Effects 0.000 description 2
- 238000001556 precipitation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 125000006239 protecting group Chemical group 0.000 description 2
- RXWNCPJZOCPEPQ-NVWDDTSBSA-N puromycin Chemical compound C1=CC(OC)=CC=C1C[C@H](N)C(=O)N[C@H]1[C@@H](O)[C@H](N2C3=NC=NC(=C3N=C2)N(C)C)O[C@@H]1CO RXWNCPJZOCPEPQ-NVWDDTSBSA-N 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 108090000064 retinoic acid receptors Proteins 0.000 description 2
- 102000003702 retinoic acid receptors Human genes 0.000 description 2
- 235000002020 sage Nutrition 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012882 sequential analysis Methods 0.000 description 2
- 210000002966 serum Anatomy 0.000 description 2
- 230000003584 silencer Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000003019 stabilising effect Effects 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 108700020534 tetracycline resistance-encoding transposon repressor Proteins 0.000 description 2
- 239000003440 toxic substance Substances 0.000 description 2
- 235000013311 vegetables Nutrition 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 102100027399 A disintegrin and metalloproteinase with thrombospondin motifs 2 Human genes 0.000 description 1
- 108091005662 ADAMTS2 Proteins 0.000 description 1
- 101710159080 Aconitate hydratase A Proteins 0.000 description 1
- 101710159078 Aconitate hydratase B Proteins 0.000 description 1
- 108010024878 Adenovirus E1A Proteins Proteins 0.000 description 1
- 101710094856 Apoptin Proteins 0.000 description 1
- 101100519158 Arabidopsis thaliana PCR2 gene Proteins 0.000 description 1
- 241000167854 Bourreria succulenta Species 0.000 description 1
- 101100110009 Caenorhabditis elegans asd-2 gene Proteins 0.000 description 1
- 108090000312 Calcium Channels Proteins 0.000 description 1
- 102000003922 Calcium Channels Human genes 0.000 description 1
- 241000282552 Chlorocebus aethiops Species 0.000 description 1
- 108700031407 Chloroplast Genes Proteins 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 206010010144 Completed suicide Diseases 0.000 description 1
- 241000699800 Cricetinae Species 0.000 description 1
- 241000230452 Cyclothone braueri Species 0.000 description 1
- IGXWBGJHJZYPQS-SSDOTTSWSA-N D-Luciferin Chemical compound OC(=O)[C@H]1CSC(C=2SC3=CC=C(O)C=C3N=2)=N1 IGXWBGJHJZYPQS-SSDOTTSWSA-N 0.000 description 1
- 230000008836 DNA modification Effects 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 102000004163 DNA-directed RNA polymerases Human genes 0.000 description 1
- 108090000626 DNA-directed RNA polymerases Proteins 0.000 description 1
- CYCGRDQQIOGCKX-UHFFFAOYSA-N Dehydro-luciferin Natural products OC(=O)C1=CSC(C=2SC3=CC(O)=CC=C3N=2)=N1 CYCGRDQQIOGCKX-UHFFFAOYSA-N 0.000 description 1
- 101100108071 Dictyostelium discoideum act10 gene Proteins 0.000 description 1
- 102220520871 Dynein light chain Tctex-type protein 2_T10R_mutation Human genes 0.000 description 1
- 241000588724 Escherichia coli Species 0.000 description 1
- 241000702191 Escherichia virus P1 Species 0.000 description 1
- BJGNCJDXODQBOB-UHFFFAOYSA-N Fivefly Luciferin Natural products OC(=O)C1CSC(C=2SC3=CC(O)=CC=C3N=2)=N1 BJGNCJDXODQBOB-UHFFFAOYSA-N 0.000 description 1
- 108091006027 G proteins Proteins 0.000 description 1
- 102000030782 GTP binding Human genes 0.000 description 1
- 108091000058 GTP-Binding Proteins 0.000 description 1
- 101001035782 Gallus gallus Hemoglobin subunit beta Proteins 0.000 description 1
- 108090000079 Glucocorticoid Receptors Proteins 0.000 description 1
- 102100033417 Glucocorticoid receptor Human genes 0.000 description 1
- 108010068250 Herpes Simplex Virus Protein Vmw65 Proteins 0.000 description 1
- 102000006947 Histones Human genes 0.000 description 1
- 102100021086 Homeobox protein Hox-D4 Human genes 0.000 description 1
- 102100034858 Homeobox protein Hox-D8 Human genes 0.000 description 1
- 101001041136 Homo sapiens Homeobox protein Hox-D4 Proteins 0.000 description 1
- 101001019776 Homo sapiens Homeobox protein Hox-D8 Proteins 0.000 description 1
- 101000964727 Homo sapiens Zinc finger protein 74 Proteins 0.000 description 1
- 101000669028 Homo sapiens Zinc phosphodiesterase ELAC protein 2 Proteins 0.000 description 1
- 108700002232 Immediate-Early Genes Proteins 0.000 description 1
- 108020005210 Integrons Proteins 0.000 description 1
- 108010054278 Lac Repressors Proteins 0.000 description 1
- 102000003960 Ligases Human genes 0.000 description 1
- 108090000364 Ligases Proteins 0.000 description 1
- 241000209510 Liliopsida Species 0.000 description 1
- DDWFXDSYGUXRAY-UHFFFAOYSA-N Luciferin Natural products CCc1c(C)c(CC2NC(=O)C(=C2C=C)C)[nH]c1Cc3[nH]c4C(=C5/NC(CC(=O)O)C(C)C5CC(=O)O)CC(=O)c4c3C DDWFXDSYGUXRAY-UHFFFAOYSA-N 0.000 description 1
- 241000218922 Magnoliophyta Species 0.000 description 1
- 108010006035 Metalloproteases Proteins 0.000 description 1
- 102000005741 Metalloproteases Human genes 0.000 description 1
- 102000009664 Microtubule-Associated Proteins Human genes 0.000 description 1
- 108010020004 Microtubule-Associated Proteins Proteins 0.000 description 1
- 241000699660 Mus musculus Species 0.000 description 1
- 101500006448 Mycobacterium bovis (strain ATCC BAA-935 / AF2122/97) Endonuclease PI-MboI Proteins 0.000 description 1
- 108091008758 NR0A5 Proteins 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000000636 Northern blotting Methods 0.000 description 1
- 239000004677 Nylon Substances 0.000 description 1
- 102100026073 Oligodendrocyte transcription factor 1 Human genes 0.000 description 1
- 101710195940 Oligodendrocyte transcription factor 1 Proteins 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 101100311234 Oryza sativa subsp. japonica STAR1 gene Proteins 0.000 description 1
- 101100311235 Oryza sativa subsp. japonica STAR2 gene Proteins 0.000 description 1
- UOZODPSAJZTQNH-UHFFFAOYSA-N Paromomycin II Natural products NC1C(O)C(O)C(CN)OC1OC1C(O)C(OC2C(C(N)CC(N)C2O)OC2C(C(O)C(O)C(CO)O2)N)OC1CO UOZODPSAJZTQNH-UHFFFAOYSA-N 0.000 description 1
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 108091000080 Phosphotransferase Proteins 0.000 description 1
- 102220572479 Protein tyrosine phosphatase type IVA 1_T13F_mutation Human genes 0.000 description 1
- 238000012181 QIAquick gel extraction kit Methods 0.000 description 1
- 102000044126 RNA-Binding Proteins Human genes 0.000 description 1
- 101710105008 RNA-binding protein Proteins 0.000 description 1
- 102000007056 Recombinant Fusion Proteins Human genes 0.000 description 1
- 108010008281 Recombinant Fusion Proteins Proteins 0.000 description 1
- 108700005075 Regulator Genes Proteins 0.000 description 1
- 108010039491 Ricin Proteins 0.000 description 1
- 241000700584 Simplexvirus Species 0.000 description 1
- 101150069400 Slc8a1 gene Proteins 0.000 description 1
- 102100035088 Sodium/calcium exchanger 1 Human genes 0.000 description 1
- -1 Streptomycin sulphates Chemical class 0.000 description 1
- 229930006000 Sucrose Natural products 0.000 description 1
- CZMRCDWAGMRECN-UGDNZRGBSA-N Sucrose Chemical compound O[C@H]1[C@H](O)[C@@H](CO)O[C@@]1(CO)O[C@@H]1[C@H](O)[C@@H](O)[C@H](O)[C@@H](CO)O1 CZMRCDWAGMRECN-UGDNZRGBSA-N 0.000 description 1
- 210000001744 T-lymphocyte Anatomy 0.000 description 1
- 102000040945 Transcription factor Human genes 0.000 description 1
- 108091023040 Transcription factor Proteins 0.000 description 1
- 108060008682 Tumor Necrosis Factor Proteins 0.000 description 1
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 1
- 102100024672 Zinc finger protein 35 Human genes 0.000 description 1
- 101710160521 Zinc finger protein 35 Proteins 0.000 description 1
- 102100039877 Zinc phosphodiesterase ELAC protein 2 Human genes 0.000 description 1
- QWXOJIDBSHLIFI-UHFFFAOYSA-N [3-(1-chloro-3'-methoxyspiro[adamantane-4,4'-dioxetane]-3'-yl)phenyl] dihydrogen phosphate Chemical compound O1OC2(C3CC4CC2CC(Cl)(C4)C3)C1(OC)C1=CC=CC(OP(O)(O)=O)=C1 QWXOJIDBSHLIFI-UHFFFAOYSA-N 0.000 description 1
- 230000004308 accommodation Effects 0.000 description 1
- 108020002494 acetyltransferase Proteins 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000000735 allogeneic effect Effects 0.000 description 1
- 101150073130 ampR gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003149 assay kit Methods 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 238000004166 bioassay Methods 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 229960000074 biopharmaceutical Drugs 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000006143 cell culture medium Substances 0.000 description 1
- 230000032823 cell division Effects 0.000 description 1
- 230000010261 cell growth Effects 0.000 description 1
- 230000022534 cell killing Effects 0.000 description 1
- 210000003855 cell nucleus Anatomy 0.000 description 1
- 210000004671 cell-free system Anatomy 0.000 description 1
- 230000019522 cellular metabolic process Effects 0.000 description 1
- 235000013339 cereals Nutrition 0.000 description 1
- 238000001311 chemical methods and process Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 231100000481 chemical toxicant Toxicity 0.000 description 1
- 235000019693 cherries Nutrition 0.000 description 1
- 239000013599 cloning vector Substances 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 239000007771 core particle Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- ALEXXDVDDISNDU-JZYPGELDSA-N cortisol 21-acetate Chemical compound C1CC2=CC(=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@@](C(=O)COC(=O)C)(O)[C@@]1(C)C[C@@H]2O ALEXXDVDDISNDU-JZYPGELDSA-N 0.000 description 1
- 239000012228 culture supernatant Substances 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- SPTYHKZRPFATHJ-HYZXJONISA-N dT6 Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](COP(O)(=O)O[C@@H]2[C@H](O[C@H](C2)N2C(NC(=O)C(C)=C2)=O)COP(O)(=O)O[C@@H]2[C@H](O[C@H](C2)N2C(NC(=O)C(C)=C2)=O)COP(O)(=O)O[C@@H]2[C@H](O[C@H](C2)N2C(NC(=O)C(C)=C2)=O)COP(O)(=O)O[C@@H]2[C@H](O[C@H](C2)N2C(NC(=O)C(C)=C2)=O)COP(O)(=O)O[C@@H]2[C@H](O[C@H](C2)N2C(NC(=O)C(C)=C2)=O)CO)[C@@H](O)C1 SPTYHKZRPFATHJ-HYZXJONISA-N 0.000 description 1
- 238000000326 densiometry Methods 0.000 description 1
- 230000008021 deposition Effects 0.000 description 1
- 235000013681 dietary sucrose Nutrition 0.000 description 1
- 239000000539 dimer Substances 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002255 enzymatic effect Effects 0.000 description 1
- 238000001976 enzyme digestion Methods 0.000 description 1
- 241001233957 eudicotyledons Species 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000684 flow cytometry Methods 0.000 description 1
- 238000012921 fluorescence analysis Methods 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- 238000010230 functional analysis Methods 0.000 description 1
- 239000000499 gel Substances 0.000 description 1
- 102000034356 gene-regulatory proteins Human genes 0.000 description 1
- 108091006104 gene-regulatory proteins Proteins 0.000 description 1
- 101150049033 haao gene Proteins 0.000 description 1
- 230000003054 hormonal effect Effects 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000001114 immunoprecipitation Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000013101 initial test Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000009413 insulation Methods 0.000 description 1
- 239000012212 insulator Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004020 luminiscence type Methods 0.000 description 1
- 230000002934 lysing effect Effects 0.000 description 1
- 210000001161 mammalian embryo Anatomy 0.000 description 1
- 230000008774 maternal effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 230000002438 mitochondrial effect Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000178 monomer Substances 0.000 description 1
- 231100000219 mutagenic Toxicity 0.000 description 1
- 230000003505 mutagenic effect Effects 0.000 description 1
- 231100000956 nontoxicity Toxicity 0.000 description 1
- 238000010899 nucleation Methods 0.000 description 1
- 229920001778 nylon Polymers 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 102000020233 phosphotransferase Human genes 0.000 description 1
- 238000013326 plasmid cotransfection Methods 0.000 description 1
- 230000023603 positive regulation of transcription initiation, DNA-dependent Effects 0.000 description 1
- 230000004481 post-translational protein modification Effects 0.000 description 1
- 230000001124 posttranscriptional effect Effects 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 229950010131 puromycin Drugs 0.000 description 1
- 230000009711 regulatory function Effects 0.000 description 1
- 230000000754 repressing effect Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 102200158832 rs33992775 Human genes 0.000 description 1
- 102220276015 rs782161942 Human genes 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003248 secreting effect Effects 0.000 description 1
- 125000006850 spacer group Chemical group 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 102000005969 steroid hormone receptors Human genes 0.000 description 1
- 108020003113 steroid hormone receptors Proteins 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- UCSJYZPVAKXKNQ-HZYVHMACSA-N streptomycin Natural products CN[C@H]1[C@H](O)[C@@H](O)[C@H](CO)O[C@H]1O[C@@H]1[C@](C=O)(O)[C@H](C)O[C@H]1O[C@@H]1[C@@H](NC(N)=N)[C@H](O)[C@@H](NC(N)=N)[C@H](O)[C@H]1O UCSJYZPVAKXKNQ-HZYVHMACSA-N 0.000 description 1
- 229960005322 streptomycin Drugs 0.000 description 1
- QTENRWWVYAAPBI-YCRXJPFRSA-N streptomycin sulfate Chemical compound OS(O)(=O)=O.OS(O)(=O)=O.OS(O)(=O)=O.CN[C@H]1[C@H](O)[C@@H](O)[C@H](CO)O[C@H]1O[C@@H]1[C@](C=O)(O)[C@H](C)O[C@H]1O[C@@H]1[C@@H](N=C(N)N)[C@H](O)[C@@H](N=C(N)N)[C@H](O)[C@H]1O.CN[C@H]1[C@H](O)[C@@H](O)[C@H](CO)O[C@H]1O[C@@H]1[C@](C=O)(O)[C@H](C)O[C@H]1O[C@@H]1[C@@H](N=C(N)N)[C@H](O)[C@@H](N=C(N)N)[C@H](O)[C@H]1O QTENRWWVYAAPBI-YCRXJPFRSA-N 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 229960004793 sucrose Drugs 0.000 description 1
- 229940040944 tetracyclines Drugs 0.000 description 1
- 231100000167 toxic agent Toxicity 0.000 description 1
- 230000005758 transcription activity Effects 0.000 description 1
- 238000003146 transient transfection Methods 0.000 description 1
- 241000701161 unidentified adenovirus Species 0.000 description 1
- 108091000036 uracil phosphoribosyltransferase Proteins 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6897—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids involving reporter genes operably linked to promoters
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K14/00—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
- C07K14/435—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
- C07K14/46—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates
- C07K14/47—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals
- C07K14/4701—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals not used
- C07K14/4702—Regulators; Modulating activity
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K14/00—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
- C07K14/435—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
- C07K14/46—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates
- C07K14/47—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals
- C07K14/4701—Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals not used
- C07K14/4702—Regulators; Modulating activity
- C07K14/4705—Regulators; Modulating activity stimulating, promoting or activating activity
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/1034—Isolating an individual clone by screening libraries
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
- C12N15/635—Externally inducible repressor mediated regulation of gene expression, e.g. tetR inducible by tetracyline
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
- C12N15/79—Vectors or expression systems specially adapted for eukaryotic hosts
- C12N15/82—Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
- C12N15/8216—Methods for controlling, regulating or enhancing expression of transgenes in plant cells
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
- C12N15/79—Vectors or expression systems specially adapted for eukaryotic hosts
- C12N15/82—Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
- C12N15/8216—Methods for controlling, regulating or enhancing expression of transgenes in plant cells
- C12N15/8218—Antisense, co-suppression, viral induced gene silencing [VIGS], post-transcriptional induced gene silencing [PTGS]
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Engineering & Computer Science (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Biochemistry (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Microbiology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Plant Pathology (AREA)
- Medicinal Chemistry (AREA)
- Cell Biology (AREA)
- Toxicology (AREA)
- Gastroenterology & Hepatology (AREA)
- Virology (AREA)
- Analytical Chemistry (AREA)
- Immunology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
- Peptides Or Proteins (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及调节序列的系统说明及鉴别。本发明提供了可以鉴别调节序列的筛选和检测方法。本发明还提供了调节序列及其在各种领域中的应用,例如但不限于蛋白质生产、诊断、转基因植物及动物,及治疗领域。
Description
本发明涉及医药和细胞生物学领域。本发明特别涉及调节基因转录的方式和方法。本发明还涉及确定一种DNA序列是否包含基因转录调节特性(gene transcription modulating quality)和/或基因转录阻抑特性(gene transcription repressing quality)的方式和方法。
随着各种基因组计划的进展,已经可以获得完整生物体基因组的序列。数据的涌现引起许多研究人员的兴趣。更值得注意的发现之一是观测到与简单生物体如果蝇基因组相比,人基因组不编码明显更多的基因。现在许多研究人员的注意力从基因的鉴别转变为确定基因表达和基因功能。这种技术的例子是DNA微阵列(microarrays),功能基因组学应用及蛋白质组学。这些技术的共同之处是围绕编码序列的功能和表达这个中心。然而,尽管我们对基因的了解急剧地增加,但对基因表达是如何被调节的了解限制了应用这种快速增加的知识的能力。例如在转基因植物和动物的产生和人体基因治疗的情况中。在这些应用中,外源核酸典型地被导入细胞中以获得编码序列的表达。通常外源核酸整合入细胞的基因组中是导入的序列功能延伸所必需的。然而,序列导入基因组中导致不可预测的表达,因为周围的DNA影响整合的序列的转录。这种不可预测性部分是由于至今仍不能提供具有足够遗传信息的导入序列以从周围DNA的影响转录作用中功能性分离整合的序列。另一方面是由于对周围DNA影响转录作用的了解不足。
本发明涉及具有顺式(in cis)影响基因转录能力的DNA序列。典型地,尽管不是必需地,所研究的序列本身不编码一种功能蛋白。已经鉴别了多种具有顺式影响基因转录能力的序列元件。这些元件的范围从启动子,增强子和沉默子到边界元件和基质附着区。
已经发现如此众多不同类型的调节序列这个事实给人以设计有效表达盒非常容易这一印象。然而,事实正相反。表达盒的设计仍常常通过反复试验而进行。获得外源基因在靶细胞或其子代中表达是十分可能的,然而,通常难以精确预测表达盒在靶细胞中展示的表达水平或表达持续性。
本发明提供了检测及分离新的转录调节元件的方式和方法。本发明提供了一种检测及任选地选择具有基因转录调节特性的DNA序列的方法,包括将多种包含片段的载体提供给一种转录系统,所述载体包含i)具有基因转录阻抑特性的一个元件,及ii)指导报道基因转录的一个启动子,所述方法还包括在所述转录系统中进行一个选择步骤,以鉴别具有所述基因转录调节特性的所述DNA序列。在一个优选的实施方案中,所述片段位于i)具有基因转录阻抑特性的所述元件和ii)指导所述报道基因转录的启动子之间。RNA聚合酶在与一个称为启动子的特异序列结合后引发转录过程,该序列代表RNA合成开始的位置。一种调节特性可以在给定的细胞类型和/或给定的启动子中增强从所述启动子的顺式转录。相同的DNA序列可以包含在一种细胞类型中或用一种启动子类型的增强特性,其也可以包含在另一种细胞类型中或用另一种类型启动子的另一种基因转录调节特性或没有这种基因转录调节特性。转录可以通过调节元件(或与其结合的一或多个蛋白质)对特定启动子的转录的直接作用而影响。然而,转录也可以通过间接作用而影响,例如因为调节元件影响一或多个其它调节元件的功能而间接影响转录。基因转录调节特性也可以包括一种稳定的基因转录性质。稳定是指观测的转录水平在经过至少30次细胞分裂后不明显改变。稳定特性在经过多次细胞分裂后表达特征应可预测的情况中有用。典型的实例是用外源基因转染的细胞系。其它实例是转基因动物和植物及基因治疗。通常,导入的表达盒功能在细胞分裂或植物或动物传代次数增加之后发生变化。在一个优选的实施方案中,稳定特性包括在转基因植物或动物的随后代次中保持基因转录的能力。当然在表达是可诱导的情况中,所述特性包括在转基因植物或动物的随后代次中保持可诱导性的特性。表达水平通常随着细胞分裂次数增加而急剧降低。用本发明的方法可以检测及任选地选择一种DNA序列,该序列能至少部分阻止转录水平随着细胞分裂数目增加而急剧降低。因此,在一个优选的实施方案中,所述基因转录调节特性包括一种稳定的基因转录特性。引人注目地,尽管所述方法不必测定转录的长期稳定性,但使用本发明的方法可以检测及任选地选择包含具有所述稳定的基因转录特性的DNA序列的片段。在本发明的一个优选实施方案中,所述基因转录调节特性包括一种稳定的基因转录增强特性。已经观测到在一具有感兴趣基因的表达载体中掺入具有基因转录调节特性的一个DNA序列,在表达载体整合入细胞基因组时导致所述感兴趣基因以更高水平转录,另外所述更高的基因表达水平也比不存在所述具有基因转录调节特性的DNA序列时更稳定。
在设计将感兴趣基因导入细胞基因组中及获得所述感兴趣基因表达的实验中,观测到以下结果。如果与所述感兴趣基因一起导入具有基因转录调节特性的一个DNA序列,可以检测到更多的克隆,所述克隆与所述DNA序列未与所述感兴趣基因一起导入的情况相比表达多于一定量的所述感兴趣基因的产物。因此,本发明还提供了一种在将所述感兴趣基因提供给所述细胞基因组时,增加表达多于一定水平的感兴趣基因的产物的细胞数目的方法,所述方法包括将包含基因转录调节特性的一个DNA序列与所述感兴趣基因一起提供给所述细胞。
检测具有基因转录调节特性的片段的可能性随着衍生片段的来源而变化。典型地,现有技术中没有关于具有所述特性的片段存在或不存在的认识。在那些情况中,许多片段不包含具有基因转录调节特性的DNA序列。在这些情况中,导入一个正规选择步骤,选择具有所述特性的DNA序列。这通过基于所述报道基因产物的可以正面或反面选择的特征而选择包含所述序列的载体而进行。例如,所述基因产物可以诱导荧光或颜色沉积(例如绿色荧光蛋白及衍生物,萤光素酶,或碱性磷酸酶)或者赋予抗生素抗性或诱导细胞程序死亡及细胞死亡。
本发明的方法特别适于检测及任选地选择一种DNA序列,所述DNA序列包含一种基因转录增强特性。已经观测到当至少一些所选择的DNA序列被掺入到包含感兴趣基因的表达载体中时,它们可以明显增加所述感兴趣基因在宿主细胞中的基因转录水平,甚至当载体不包含具有基因转录阻抑特性的一种元件时也是如此。这种基因转录增强特性在用外源基因转染的细胞系中或在转基因动物和植物中非常有用。
所述转录系统可以是一种无细胞体外转录系统。使用当前的自动化专业技术,这种无细胞系统可以是精确及快速的。然而就本发明而言,所述转录系统优选包含宿主细胞。使用宿主细胞可以保证检测及任选地选择的片段在细胞中是活性的。
在本发明的一种方法中,具有基因转录阻抑特性的一种元件在所使用的转录系统中阻抑从启动子的转录。所述阻抑作用不一定导致不可检测的表达水平。重要的是在存在或不存在阻抑的情况中表达水平的不同是可检测的及任选地可选择的。在一个优选的实施方案中,所述载体中的基因转录阻抑产生基因转录阻抑染色质。在这个优选的实施方案中,可以检测及任选地选择能至少部分抵消基因转录阻抑染色质形成的DNA序列。一方面,能至少部分抵消基因转录阻抑染色质形成的DNA序列包括一种稳定的基因转录特性。在一个优选的实施方案中,参与基因转录阻抑的DNA序列是由一种蛋白质复合物识别的一种DNA序列,其中所述转录系统包含所述复合物。优选所述复合物包含一种异染色质结合蛋白(包括HP1),一种Polycomb-group(Pc-G)蛋白,一种组蛋白脱乙酰酶活性或MeCP2(甲基-CpG-结合蛋白)。许多生物体包含一或多种这些蛋白质。这些蛋白质在其它物种中也常呈现活性。所述复合物因此也可以包含来自两或多个物种的蛋白质。所述的已知染色质相关蛋白复合物能在许多碱基对上传达远程的阻抑。所述复合物也参与在细胞分裂时将基因的受阻抑状态稳定移至子细胞。以此方式选择的序列能在许多碱基对上传达远程的抗阻抑(van der Vlag等,2000)。
所使用的载体可以是适于克隆DNA及可用于转录系统中的任何载体。当使用宿主细胞时,优选所述载体是一种附加型复制载体。以这种方式,避免了不同的载体整合位点的影响。在载体整合位点两侧的DNA元件可对启动子的转录水平有作用,从而模拟包含具有基因转录调节特性的DNA序列的片段的作用。在一个优选的实施方案中,所述载体包含一个来自Epstein-Barr病毒(EBV)的复制起点OriP,及一个核抗原(EBNA-1)。这种载体在合适条件下能在许多类型的真核细胞中复制,并装配成染色质。
本发明的另一方面提供了一种DNA序列,其包含i)分离自植物或脊椎动物的一种DNA序列或其衍生物;或者ii)一种合成的DNA序列或者通过基因工程构建的DNA序列,该DNA序列是可以通过本发明方法检测、选择及任选地克隆的一种阻抑抑制序列。本发明的另一方面提供了一种DNA序列,其包含i)分离自植物或脊椎动物的一种DNA序列或其衍生物;或者ii)一种合成的DNA序列或者通过基因工程构建的DNA序列,该DNA序列通过本发明方法检测、选择及任选地克隆。优选地,所述DNA序列包括表4A所示序列或其功能同系物。表4所示的一个序列的功能同系物是用表4(表4A或4B)所提供的信息衍生的一个序列。例如,一个序列可以通过在表4所示序列中或从其缺失,修饰和/或插入碱基而衍生自表4的序列,其中所述衍生的序列包含与表4所示序列性质相同的活性,但非必需在数量上相同。功能同系物还可以是一种序列,其包含来自表4所示两或多个序列的一部分。合成的DNA序列是一种不是直接或间接衍生自生物体中存在的一种序列的序列。例如,包含果蝇scs或scs′序列的一种序列不是合成序列,即使当所述scs或scs’序列是人工产生时也是如此。
在一个方面中,本发明涉及更高级基因调节的更多知识,及利用这些知识的方式和方法。尽管已经鉴定了一些指导及调节单个基因转录的元件如传统的启动子及增强子,但对控制完整染色体区域的基因转录能力的更高级调节元件还未给予更多关注。关于这种更高级元件的大多数知识来自对胚胎发生的研究。在胚胎发生期间,细胞变为定向至不同的发育途径。一旦定向,细胞几乎很少改变其命运,即使在多次细胞分裂之后也是如此。
越来越认识到细胞类型特异性基因转录模式的稳定传递不依赖于启动子,而是通过DNA及相关蛋白(称为染色质)结构的变化介导。在染色体水平的基因调节包括DNA修饰(例如甲基化),组蛋白(例如乙酰化和/或甲基化),及远缘染色体元件之间的远程相互作用。
染色质模板是DNA,组蛋白及非组蛋白蛋白质的一种高度浓缩的复合物,其能将全部基因组包装入细胞核中,同时使特异基因合适地转录。真核染色体不是激活基因转录的统一模板。不同类型的染色质和染色质区域可以区分开,其有差异地影响基因转录。所谓的异染色质区域据认为是“闭合的”染色质结构,而常染色质与一种更扩散及“开放的”染色质结构相关。常染色质区域可以进行结构改变,产生浓缩性更大或更小的结构,称作兼性异染色质及常染色质。兼性常染色质或异染色质的形成据信代表染色质介导的基因调节的根本机制,其以细胞类型特异性方式保持基因处于激活或阻抑状态。
在所有真核细胞中,已经鉴别出若干染色质相关蛋白复合物参与保持细胞类型特异性,其中之一是Polycomb group(PcG)复合物。PcG复合物参与基因的稳定阻抑,其中染色质结构的变化据信起重要作用。相似地,称为trithorax group(TrG)的另一类蛋白质已经鉴别为能抵消PcG蛋白的作用。TrG蛋白参与保持基因转录。基于它们各自的作用模式,PcG和TrG蛋白因此代表一种细胞记忆系统,其对基因转录模式的可遗传传递很重要。
PcG及TrG复合物怎样与其靶基因相关联仍未知。遗传研究已经鉴定了保持基因处于转录失活状态的顺式作用调节序列。由这些顺式作用调节序列介导的沉默依赖于存在功能性PcG蛋白,因此这些序列称为PcG效应元件(PRE)。经鉴别这些序列参与PcG介导的染色质阻抑。然而迄今为止,(在脊椎动物和植物中)还未发现包含介导染色质阻抑所需的全部序列信息的完整PRE。
另外,迄今为止还未能以相干方式研究具有远程阻抑能力的序列。这很大程度上是由于不能系统筛选这类远程作用序列所致。一方面,本发明提供了系统检测DNA中的这类序列的方式和方法。在一个实施方案中,本发明提供了一种鉴别具有基因转录阻抑特性的DNA序列的方法,包括:
—提供测试核酸的集合;
—产生表达载体的集合,所述表达载体包含测试核酸和在一启动子转录控制下的第一种报道基因;
—将所述表达载体集合提供给细胞;
—选择一种细胞或其含有载体的子代,其中所述第一种报道基因的转录被阻抑;及
—在所述细胞中鉴别所述测试核酸。
所述鉴别的测试核酸包含阻抑所述启动子功能的能力,并因此包含一种基因转录阻抑特性。优选地,所述鉴别的测试核酸也被回收及克隆。所述特性至少部分包括当与所述启动子物理连接时,与不存在具有所述特性的DNA序列时的水平相比能降低从所述启动子的转录水平的能力。在一个优选的实施方案中,所述基因转录阻抑特性包含一种基因转录阻抑染色质特性,即其中所述转录水平降低是具有基因转录阻抑构型的染色质所致。这种构型优选包含所述启动子。然而,所述构型还可以包含一种增强子或类似物从而至少部分失活所述增强子对所述启动子的转录增强作用。在一个特别优选的实施方案中,具有基因转录阻抑染色质特性的所述DNA序列包含一个类polycombgroup效应元件(polycomb-group-like responsive element)。
使用上述方法可以回收一些核酸序列,所述核酸序列具有降低启动子的转录水平的能力,因此这些核酸序列包括基因转录阻抑特性。具有相似功能的序列可以相互对比序列相似性,由此可以推导出具有基因转录阻抑特性元件的一或多个共有序列,如类polycomb group效应元件。另外,考虑到已知生物体基因组的全部序列而且不久将更加了解,因此可以筛选这些基因组或其部分,并预测这些序列在基因组中的出现。对具有基因转录调节特性和/或基因转录阻抑特性的DNA序列在基因组中的出现和位置的认知将极大地增加对基因组中更高级(higher order)基因转录调节的认知。
Polycomb-group效应元件是能通过应答一或多个Polycomb group蛋白与所述元件直接和/或间接相互作用而阻抑启动子转录的一种元件。类Polycomb-group效应元件是一种Polycomb-group效应元件,或者是能通过一或多种蛋白质与所述元件的直接和/或间接相互作用而阻抑启动子转录的一种元件,其中所述一或多种蛋白质不属于Polycomb-group,但其中作为所述相互作用的结果形成了基因转录阻抑染色质。这类蛋白质的例子是染色质相关蛋白如异染色质蛋白(HP1)(Eisenberg等,1990)。阻抑基因活性的另一种染色质相关蛋白是甲基-CpG-结合蛋白,MeCP2(Nan等,1997)。在一个优选的实施方案中,本发明的类Polycomb-group效应元件包括长距离阻抑启动子转录的能力,优选在超过2000个碱基对的距离内(Vlag等,2000)。
测试核酸的集合可以通过许多方式产生。使用人工序列作为测试核酸,可以获得具有基因转录阻抑特性的共有序列。不同的特性可以包含不同的共有序列。优选地,所述集合产生自染色体DNA。以此方式,可发现包含在染色体中天然存在的序列的一种基因转录阻抑特性。这样的优势是这些特性在染色体中的位置可以确定,因此可以确定其对更高级基因转录的影响。
报道基因是编码一种表达产物的一种基因,所述表达产物的存在可以在细胞中直接或间接地检测到。在检测基因转录阻抑特性的方法中,表达载体转移至细胞中会导致所述报道基因的表达。然而,在测试核酸包含一种基因转录阻抑特性如类Polycomb-group效应元件时,在所述细胞中的表达将会被抑制,从而导致所述报道基因的表达至少部分降低。能阻抑所述启动子转录的核酸的存在与否因此可通过在所述细胞中检测所述表达产物而检测,从而检测量降低或未检测到表示存在基因转录阻抑特性。报道基因可以编码一种荧光报道蛋白,因此通过荧光测定方法例如在流式细胞计量仪中可以检测降低的表达。显示没有荧光或低荧光的细胞可以使用荧光活性细胞分选仪分选,表达载体和/或测试核酸例如通过扩增反应而从中分离。优选地,所述第一种报道基因包含一种可选择的报道基因,其表达直接或间接为所述细胞提供与不表达或低水平表达所述第一种报道基因的细胞相比的一种生长劣势。在筛选具有基因转录阻抑特性的DNA序列时,优选地,所述第一种报道基因的表达对所述细胞有直接或间接毒性。这种毒性表达产物的非限制性实例是蓖麻毒蛋白或其毒性变体。在另一个实例中,所述第一种报道基因编码一种诱导细胞程序死亡的基因产物。优选地,所述诱导细胞程序死亡的基因产物包含腺病毒13S E1A或其功能等价物(Breckenridge和Shore,2000)。在另一个实施方案中,所述诱导细胞程序死亡的基因产物包括细胞凋亡素(apoptin)或其功能等价物(Pietersen和Noteborn,2000)。
另一个实例是编码所谓自杀产物如单纯疱疹病毒胸苷激酶(HSV-tk)的一种基因。将丙氧鸟苷(gancyclovir)加入表达HSV-tk的细胞培养物中会导致在这些细胞中形成一种毒性物质并因此杀死这些细胞。在一个特别优选的实施方案中,所述自杀基因包含胞嘧啶脱氨酶。胞嘧啶脱氨酶将胞嘧啶转变为尿嘧啶。这种酶活性在原核生物及低等真核生物中发现,但在高等真核生物中不存在。该基因与前体药物5-氟胞嘧啶(5-FC)联合用作代谢自杀基因。胞嘧啶脱氨酶能将非毒性5-FC转变为5-氟尿嘧啶,后者通过破坏DNA合成而杀死细胞,从而引发细胞程序死亡(Mullen等,1992;Wei和Huber,1996)。
控制所述第一种报道基因转录的启动子可以是在所述细胞中是活性的或者可以被激活的任何启动子。通过选择一种特定的启动子,可以选择一种基因转录阻抑特性如能阻抑所述特定启动子转录的一种类Polycomb-group效应元件。以这种方式可以选择特异性阻抑所述启动子所归属的那类启动子的特性。在一个优选的实施方案中,所述启动子包括这样的启动子,其活性可以在提供一种信号给包含所述启动子的细胞时而被诱导。这种诱导型启动子优选包含一种四环素应答启动子。所述信号是四环素,强力霉素及等价化合物。这种启动子也可以适应在真核细胞中的四环素应答(Yin等,1996)。当加入四环素或其等价物时诱导或阻抑基因表达的启动子和反式作用分子是可获得的。
用本发明的表达载体转染的细胞可以,以典型低频率而且由于一些与具有基因转录阻抑特性的DNA序列的存在不相关的原因,而不表达可检测数量的所述第一种报道基因的表达产物。这可以例如是由于重组事件破坏了所述第一种报道基因的编码序列所致。在本发明的一个优选实施方案中,所述表达载体的集合还包含第二种报道基因。所述第二种报道基因的表达优选地在第二种启动子的控制下。检测所述第二种报道基因的表达产物表达的方法可以用于证实所述测试核酸的表达阻抑活性,从而至少部分降低错误地不表达所述第一种报道基因的细胞数。在一个优选的实施方案中,所述第二种报道基因用于选择包含一种表达盒的细胞。以这种方式,不包含所述表达盒的细胞可以容易地被去掉。为此,所述第二种报道基因的所述表达产物优选包含一种阳性显性可选择的报道基因。优选地,所述阳性显性可选择的报道基因编码一种表达产物,所述表达产物能赋予对毒性化合物的抗性。非限制性实例是G418抗性和潮霉素抗性。
鉴于基因转录阻抑特性可以抑制转录,优选在这个实施方案中,表达载体还包含能抵消具有基因转录阻抑特性的DNA序列的转录阻抑作用的至少一个具有基因转录调节特性的DNA序列。优选地,表达载体中所述转录抵消元件的放置使得其有效干扰所述基因转录阻抑特性对所述第二种报道基因转录水平的降低作用。在一个优选的实施方案中,具有基因转录调节特性的所述DNA序列功能性地分离包含所述第一种和第二种报道基因的表达盒。优选地,所述第二种报道基因(及控制所述第二种报道基因转录的启动子)的两侧为具有基因转录调节特性的DNA序列。具有基因转录调节特性的DNA序列例如是表1和表2中列出的所谓STAR元件。
本发明的方法导致克隆及鉴别了包含基因转录调节和/或基因转录阻抑特性的许多元件。这种元件可含有不相关核酸,其在进行所述特性中无帮助,例如不参与基因转录阻抑染色质的形成。这种元件中的功能序列可以通过本领域已知的各种方法描绘。在一个实施方案中,在具有基因转录调节或基因转录阻抑特性的DNA序列中产生缺失和/或取代。在本发明的方法中测试以这种方式修饰的DNA的活性,这可以使用单一的修饰的核酸进行,或者通过产生包含所述修饰的核酸的测试核酸的集合进行。本发明的DNA序列内的功能序列的阐明使得能够阐明具有基因转录调节和/或基因转录阻抑特性的元件的共有序列。鉴于有一些类polycomb group复合物均包含不同的功能性和表达模式,因此预期使用本发明方法可以发现一种以上类型的共有序列。相似地,预期对包含基因调节特性的元件也可发现一种以上类型的共有序列。本发明因此还提供了分离的和/或重组的核酸的文库,所述核酸包含基因转录调节和/或基因转录阻抑特性如类Polycomb-group效应元件。在一个实施方案中,所述文库包含分离的和/或重组的核酸,所述核酸包含相同的共有序列。在一个优选的实施方案中,所述文库包含一种以上类型的共有序列。所述文库可以用于例如确定一种给定的DNA分子是否包含DNA调节特性。在一个优选的实施方案中,所述文库包含一个染色体的基本上所有的具有基因转录增强功能的元件、包含稳定的基因转录特性的元件和/或具有基因转录阻抑特性的元件如类Polycomb-group效应元件。结合对这些元件在染色体上位置的认知,使本领域技术人员可以预测对天然存在于所述染色体上的基因的基因表达的更高级调节,及预测通过重组方式导入到所述染色体中的基因(外源核酸)。这种预测可以用于例如选择所述染色体上用于插入外源DNA的合适候选位置。合适位置可以是一种预期在某一细胞、细胞类型和/或组织中特异性表达的位置。优选地,所述染色体包括21号染色体或22号染色体。在一个特别优选的实施方案中,细胞中包含基因转录调节或基因转录阻抑特性的所有DNA序列均在文库内。在这个实施方案中,可以使用完整基因组预测合适的候选位置。在一个实施方案中,所述文库已经在从植物至人的不同物种细胞系中产生。在不同的细胞系和/或物种中,能与具有基因转录阻抑特性的DNA序列相互作用的不同蛋白质(或蛋白质复合物)被表达,产生具有基因转录阻抑特性的不同DNA元件。相似地,与包含基因转录调节特性的DNA序列直接或间接相互作用的不同蛋白质被表达。因此,文库的组成是细胞类型依赖性的,并依赖于相关蛋白的存在。在类polycomb group效应元件的情况中也是这样。如果HP1在细胞类型1中表达,则依赖于HP1的元件可通过本发明的方法检测。如果HP1不在细胞类型2中表达,则用本发明的方法不能检测已经从细胞类型1中回收的元件。
在本发明的一个方面中,所述文库包含至少一个能至少部分抵消基因转录阻抑染色质形成的元件。结合关于具有基因转录阻抑特性的DNA序列在染色体或基因组上的位置的认知,对这种抵消元件位置的认知可以更精确地预测对所述染色体或基因组中(插入的)基因的基因转录的更高级调节。优选地,所述文库还包含其它转录调节元件如增强子和沉默子。尽管这些序列对更高级的基因调节的影响有限,但这些其它序列的位置信息进一步增加了对基因组中的表达导入的外源序列的适当位置的预测的精确性。优选地,所述文库包含一个染色体的基本上所有的具有基因转录调节特性的DNA序列和/或所有的其它调节序列。
鉴于一个染色体典型地由几千万个碱基组成,优选地,将所述文库可以提供的更高级基因调节的信息掺入一个至少部分自动化的系统中。
本发明文库的另一种应用是在定向修饰一个染色体上的序列时预测基因转录,由此突变“更高级”的调节序列。例如,本发明的一或多个类polycomb-group效应元件和/或所述染色体上的其它调节元件可以被突变。这预期会改变在所述类polycomb-group效应元件和/或其它表达调节元件邻近的基因的转录水平。
本发明的文库或系统的再一个应用是预测得自基因组突变的基因表达。在突变导致基因转录改变的情况中,检测到这种改变的基因转录可以表明存在所述天然发生的突变。这种方法在例如诊断分析中待测的序列或蛋白质数目有限的情况中是有用的。这在微阵列方法中尤为重要,因为在这些方法中待测的表达序列的数目受一个阵列最大可以持有的序列数目的限制。使用本发明的方式和方法,可以限制在微阵列方法中待测序列的数目。
本发明的系统或文库的另一个应用是揭示药物靶点。调节元件,不管它们是否是“更高级的”元件,均通过可以与其结合的蛋白质(复合物)而发挥功能。本发明的系统可以用于确定药物的干扰特定蛋白质(复合物)的结合或功能的定向是否有把握改变特定基因的表达。
本发明还提供了通过本发明方法可获得的一种DNA序列,其具有一种基因转录阻抑特性。在一个优选的实施方案中,具有基因转录阻抑特性的所述DNA序列衍生自脊椎动物或植物。更优选地,具有基因转录阻抑特性的所述DNA序列包含表4B所示序列或其功能同系物。也可以提供具有本发明DNA序列的一种DNA构建体,或者修饰这种DNA序列。在一个优选的实施方案中,提供了一种DNA构建体,其包含一个可操纵地与一感兴趣核酸相连的启动子。优选地,具有基因转录调节和/或阻抑特性的所述DNA序列的一种特性的活性量依赖于所述DNA序列在所述构建体中相应于所述启动子的方向。优选地,所述基因转录调节和/或阻抑特性依赖于一个信号的存在。优选地,所述信号包含一种DNA结合蛋白。优选地,所述信号包含一种人类免疫缺陷病毒TAT蛋白。
具有基因转录调节或基因转录阻抑特性的DNA序列的应用之一当然是调节感兴趣基因的转录。感兴趣基因的转录可以通过改变所述基因邻近的序列而改变,由此提供或除去具有所述特性的DNA序列。特异性表达特征可以通过将(部分)DNA序列与基因转录调节和/或基因转录阻抑特性组合而设计。例如,当将所述载体导入所述靶细胞时,在表达载体中具有稳定基因转录特性的序列的复制会改善在靶细胞或子代中表达的稳定性。通过组合具有基因转录调节特性的DNA序列,可以产生在种类或数量或这两方面均改变的基因转录调节特性。
也可以设计具有所需基因转录调节和/或基因转录阻抑特性的DNA序列。DNA结合蛋白与其它蛋白及DNA序列决定了DNA序列的特性。可以将一或多种结合其它蛋白质的DNA序列插入具有一种特性的一种DNA序列中。通过使结合蛋白发生结合,可以干扰或指导所述特性,因此产生具有所需特性的DNA序列。当然也可以从具有特定基因转录调节和/或基因转录阻抑特性的DNA序列中除去蛋白质结合位点,从而改变所得DNA序列的特性。也可以组合添加及去除措施。可以通过本发明所述的检测方法选择特定的基因转录调节和/或基因转录阻抑特性。例如可以合成具有可诱导基因转录调节和/或基因转录阻抑特性的DNA序列。通过例如在具有基因转录阻抑特性的DNA序列中包括TAT结合元件,可以在包含TAT的细胞中至少部分失活基因转录阻抑特性。相似地,可获得在有或无信号存在的情况下只结合其靶序列的DNA结合蛋白。这种蛋白质的非限制性实例是TET阻抑物及其各种突变体,lac阻抑物,类固醇激素受体,视黄酸受体及衍生物。可以例如设计具有细胞类型特异性基因转录调节和/或基因转录阻抑特性的DNA序列。例如,在上述TAT实施例的情况中。可以使所述的DNA序列特异于表达TAT的HIV感染的细胞。或者,可以产生特异于以细胞类型特异性方式表达的蛋白质复合物的DNA序列。
包含具有基因转录调节和/或基因转录阻抑特性的DNA序列的表达构建体,适于在包含一个以上拷贝的所述表达构建体的细胞中获得所述构建体的表达。当表达构建体存在于所述细胞的基因组中时,及当表达盒以一个以上拷贝存在于所述细胞中时也是这样。另外,即使当它们以一个以上拷贝整合入相同位置中时也起作用。
在本发明的一个优选实施方案中,具有基因转录调节特性的所述DNA序列包含一种所谓的STAR(稳定抗阻抑作用,StabilizingAnti-Repression)序列。本文所用STAR序列是指一种包含一或多种所提及的基因转录调节特性的DNA序列。
可以利用本领域的一些方法从共享某一共同特征的DNA序列家族中提取序列标识符(identifier)。这些序列标识符随后可以用于鉴别共享一或多个标识符的序列。共享这种一或多个标识符的序列很可能是同一序列家族的成员,即可能共享该家族的共同特征。在本申请中,使用大量具有STAR活性的序列(称为STAR列)以获得序列标识符(模式),其是具有STAR活性的序列的特征。这些模式可以用于确定一个测试序列是否可能含有STAR活性。一方面,本发明提供了一种检测在一大约50-5000碱基对的核酸序列中STAR序列存在情况的方法,包括测定所述序列中至少一种序列模式的出现频率,并确定所述出现频率代表所述至少一种序列模式在至少一个包含STAR序列的序列中的出现频率。原则上,任何方法均适于确定一种序列模式是否是STAR序列的代表。本领域中存在许多不同的方法。在本发明的一个优选实施方案中,确定所述出现频率代表所述至少一种序列模式在至少一个包含STAR序列的序列中的出现频率的步骤,包括确定所述至少一种序列模式的出现频率在所述至少一个STAR序列和至少一个对照序列之间显著不同。原则上,任何显著性差异均可判别存在STAR序列。然而,在一个特别优选的实施方案中,所述至少一种序列模式的出现频率在所述至少一个包含STAR序列的序列中明显高于在所述至少一个对照序列中。本发明中已经鉴别了相当多的包含STAR序列的序列。可以使用这些序列测试一种模式在判别对照序列和包含STAR序列的序列时是否有效。使用所谓的判别分析,可以基于一个物种中的任何STAR序列集确定最佳的判别性序列模式或其组合。因此,优选地,基于所述至少一个包含STAR序列的序列和一个对照序列之间的一种希望的及优选最佳的判别而选择至少一种所述模式。一种希望的判别可以是通过生物信息学获得的与所述模式相关的某一显著性因子。
在一个优选的实施方案中,将一种序列模式在测试核酸中的出现频率与其在一种已知含有STAR序列的序列中的出现频率相比较。在这种情况中,如果出现频率相似,则认为该模式代表包含STAR序列的序列。在一个优选的实施方案中,使用另一种标准。将一种模式在一种包含STAR序列的序列中的出现频率与所述模式在一种对照序列中的出现频率相比较。通过比较这两种频率,可以确定针对所分析的每种模式,其在包含STAR序列的序列中的频率是否显著不同于其在对照序列中的频率。在这个实施方案中,如果所述模式在至少一个包含STAR序列的序列中的出现频率明显不同于相同模式在一对照序列中的出现频率,则认为该序列模式代表一个包含STAR序列的序列。通过使用大量包含STAR序列的序列,增加了可以确定有统计学差异的模式的数目,因此扩大了其出现频率代表包含STAR序列的序列的模式的数目。优选地,所述出现频率代表所述至少一种序列模式在至少2个包含STAR序列的序列、优选至少5个包含STAR序列的序列、更优选至少10个包含STAR序列的序列中的出现频率。更优选地,所述出现频率代表所述至少一种序列模式在至少20个包含STAR序列的序列中的出现频率。在一个特别优选的实施方案中,所述出现频率代表所述至少一种序列模式在至少50个包含STAR序列的序列中的出现频率。
代表包含STAR序列的序列的模式也依赖于所用对照核酸的类型。所用对照序列的类型优选地基于待检测其中存在STAR序列的序列而选择。在一个优选的实施方案中,所述对照序列包含一个随机序列,其包含与所述至少一个包含STAR序列的序列相似的AT/CG含量。在另一个优选的实施方案中,所述对照序列衍生自与包含所述STAR序列的所述序列相同的物种。例如,如果需检查一种测试序列是否存在在植物细胞中是活性的STAR序列,则优选地所述对照序列也衍生自一种植物细胞。相似地,为测试在人体细胞中的STAR活性,对照序列优选也衍生自人体基因组。在一个优选的实施方案中,所述对照序列包含50%-150%的所述至少一个包含STAR序列的序列的碱基。在一个特别优选的实施方案中,所述对照序列包含90%-110%的所述至少一个包含STAR序列的序列的碱基。更优选包含95%-105%的碱基。
一种模式可以包含多于2个的任何数目的碱基。优选地,至少一种序列模式包含至少5个,更优选至少6个碱基。在另一个实施方案中,至少一种序列模式包含至少8个碱基。在一个优选的实施方案中,所述至少一种序列模式包含表9和/或表10所示模式。一种模式可由一系列连续碱基组成。然而,所述模式也可以包含由一些不具判别性或仅具部分判别性的碱基中断一或多次的碱基。部分判别性的碱基例如是嘌呤。
优选地,使用一种功能分析检验STAR活性的存在。本发明提出了若干确定一种序列是否具有STAR活性的方法。如果所述序列能进行至少一种以下功能,则证实其具有STAR活性:(i)至少部分抑制包含本发明基因转录阻抑元件的序列的作用,(ii)至少部分阻断染色质相关的阻抑,(iii)至少部分阻断增强子活性,(iv)与单独的相同核酸相比,赋予可操纵连接的编码转录单位的核酸以(iv-a)一种更高的转录可预测性,(iv-b)一种更高的转录,和/或(iv-c)一种在一段时间内更高的转录稳定性。
在本发明中鉴别的包含STAR活性的大量序列,展现出可以产生和鉴别包含相同种类而非必需相同量的活性的序列的各种可能性。例如,本领域技术人员可以改变本发明鉴别的序列并测试改变的序列的STAR活性。这种改变的序列因此也是本发明的一部分。改变可以包括在序列中缺失,插入及突变一或多个碱基。
在长度为400个碱基的序列段中鉴别出包含STAR活性的序列。然而,预期要保留STAR活性这400个碱基不是全部需要的。本领域熟知赋予400-5000个碱基之间的一个片段以某一特性的序列的划界方法。包含STAR活性的片段的最小长度为大约50个碱基。
表9和表10列出了已发现在包含STAR活性的核酸分子中过量存在(over represented)的6个碱基的序列模式。这种过量存在被认为是STAR序列的代表。这些表是从一个65个STAR序列的家族中产生的。从不同系列的STAR序列中或从较小或较大系列的STAR序列中可以产生相似的表。一种模式如果在所述STAR序列中与在不包含STAR元件的序列中相比过量存在,则代表一种STAR序列。这可以是一个随机序列。然而,为排除不相关的偏差,包含STAR序列的序列优选地与一个基因组或其显著部分相比较,优选脊椎动物或植物基因组,更优选人类基因组。基因组的一个显著部分是例如一个染色体。优选地,包含STAR序列的序列及所述对照序列衍生自相同物种。
越多的STAR序列用于确定序列模式的出现频率,则过量存在或存在量不足的所述模式越多地代表STAR。鉴于可以由核酸表达的许多功能特征是通过与其结合的蛋白质分子介导的,优选的是所述代表模式在STAR序列中是过量存在的。这种过量存在的模式可以是这种蛋白质分子的结合位点的一部分。优选地,所述出现频率代表所述至少一种序列模式在至少2个、优选至少5个、更优选至少10个包含STAR序列的序列中的出现频率。更优选地,所述出现频率代表所述至少一种序列模式在至少20个包含STAR序列的序列中的出现频率。在一个特别优选的实施方案中,所述出现频率代表所述至少一种序列模式在至少50个包含STAR序列的序列中的出现频率。优选地,所述包含STAR序列的序列包含至少一个图26所示序列。
STAR活性是图26所示序列共有的特征。然而,这并不意味着它们必需全部共享相同标识符的序列。非常可能存在不同的标识符。标识符可以将这一共同特征赋予含有其的片段,但这不是必需的。通过使用更多的包含STAR活性的序列来确定一种序列模式的出现频率,可以选择比其它序列在这种STAR序列中更通常存在或不存在的模式。以这种方式可以发现在STAR序列中非常过量存在或存在量不足(less represented)的模式。通常过量存在或存在量不足的模式更合适鉴别测试集中的候选STAR序列。使用一系列过量存在或存在量不足的模式的另一种方式是确定哪一种模式或模式组合最适合鉴别一个序列中的STAR。使用所谓的判别统计学,我们已经鉴别了一系列模式,其在鉴别包含STAR元件的序列中表现最佳。在一个优选的实施方案中,用于检测STAR序列的至少一种所述序列模式包含序列模式GGACCC,CCCTGC,AAGCCC,CCCCCA和/或AGCACC。在另一个实施方案中,用于检测STAR序列的至少一种所述序列模式包含序列模式CCCN{16}AGC,GGCN{9}GAC,CACN{13}AGG,CTGN{4}GCC。
STAR序列列表也可以用于确定其中的一或多个共有序列。本发明因此还提供了针对STAR元件的共有序列。这个共有序列当然可以用于鉴别一个测试序列中的候选STAR元件。
另外,一旦在一种脊椎动物中鉴别出一种包含STAR元件的序列,可以使用该序列通过序列同源性以在属于脊椎动物的其它物种中鉴别包含STAR元件的序列。优选地,使用一种哺乳动物STAR序列筛选其它哺乳动物物种中的STAR序列。相似地,一旦在一种植物物种中鉴别出一种STAR序列,可以使用该序列在其它植物物种中筛选具有相似功能的同源序列。本发明一方面提供了可通过本发明方法获得的一种STAR序列。本发明进一步提供了一个STAR序列集合。优选地,所述STAR序列是脊椎动物或植物STAR序列。更优选地,所述STAR序列是一种哺乳动物STAR序列或被子植物(单子叶植物如水稻,或双子叶植物如Arabidopsis)序列。更优选地,所述STAR序列是一种灵长类动物和/或人类STAR序列。
可以使用包含STAR活性的一系列序列确定一个测试序列是否包含STAR元件。如上所述,有许多不同的方法可以为此目的使用这一系列序列。在一个优选的实施方案中,本发明提供了确定一个大约50-5000碱基对的核酸序列是否包含STAR序列的一种方法,所述方法包括产生第一个序列模式表,其包含所述模式在本发明的STAR序列集合中的出现频率;产生所述模式第二个表,其包含所述模式在至少一种参比序列中的出现频率;选择出现频率在这两个表之间不同的至少一种模式;确定至少一种所述选择的模式在所述大约50-5000碱基对的核酸序列内的出现频率;及确定在所述测试核酸内的出现是否代表所述选择的模式在所述STAR序列集合的出现。或者,所述确定包括确定在所述测试核酸中的出现频率是否代表所述选择的模式在所述STAR序列集合中的出现频率。优选地,所述方法还包括使用本发明方法确定所述候选STAR是否包含一种基因转录调节特性。优选地,所述STAR集合包含图26所示序列。
另一方面,本发明提供了通过本发明方法获得的一种包含一种STAR序列的分离的和/或重组的核酸序列。
如上所述,STAR序列可以通过定向方式发挥其作用,即更多地针对含有其的片段的一侧而非另一侧。另外,STAR活性可以通过增加STAR元件的数量而增强。后者提示一个STAR元件可能包含一或多个具有STAR活性的元件。鉴别能将STAR活性赋予含有其的片段的序列的另一种方式包括从脊椎动物或植物序列中选择一种具有STAR活性的序列,并鉴别在选择的序列两侧的序列在另一个物种中是否是保守的。这种保守的侧翼序列很可能是一种功能序列。因此本发明一方面提供了鉴别包含STAR元件的序列的一种方法,包括从脊椎动物或植物物种中选择一个包含STAR元件的大约50-5000碱基对的序列,并鉴别在所述物种中所述选择的序列两侧的序列在至少一种其它物种中是否是保守的。本发明因此进一步提供了检测在一个大约50-5000碱基对的核酸序列中STAR序列存在情况的一种方法,包括在一种物种细胞的染色体的一部分中鉴别包含STAR序列的一种序列,并检测所述序列与一个不同物种染色体的序列之间的显著同源性。优选地,所述物种包括植物或脊椎动物物种,优选为哺乳动物物种。本发明还提供了检测一种脊椎动物或植物物种的一大约50-5000碱基对的核酸序列中STAR元件的存在情况的一种方法,包括鉴别所述核酸序列的侧翼序列在至少一种其它物种中是否是保守的。
重要的是要注意到使用生物信息学信息检测包含STAR序列的序列的存在的本发明方法性质上是可重复的。使用本发明的方法鉴别的包含STAR序列的序列越多,则会发现越多的可判别包含STAR序列的序列和对照序列的模式。使用这些新近发现的判别模式,可以鉴别更多的包含STAR序列的序列,进而扩大了可以判别的模式集,等等。这种重复是本发明提供的方法中的一个重要方面。
述及序列时的术语“特性(quality)”是指所述序列的活性。本文所用术语STAR,STAR序列或STAR元件是指一种DNA序列,其包含一或多种所述基因转录调节特性。下述的一些术语SINC或SINC元件是指一种DNA序列,其包含一或多种所述基因转录阻抑特性。本文所用术语“DNA序列”除非特别指明,不是指碱基的特异顺序排列,而是指DNA的一种物理片段。DNA序列的转录特性是指所述DNA序列对感兴趣基因转录的一种作用。本文所用术语“特性”是指转录系统中核酸或蛋白质的可检测的性质或特征。
实施例
实施例1:分离STAR和SINC元件的方法
材料和方法
质粒和菌株:STAR元件的选择载体pSelect-SV40-zeo(“pSelect”,图1)如下构建:将pREP4载体(Invitrogen V004-50)用作质粒骨架,其提供了:Epstein Barr oriP复制起点和EBNA-1核抗原以便在灵长类动物细胞系中高拷贝附加型复制;具有胸苷激酶启动子和聚腺苷酸化位点的潮霉素抗性基因以便在哺乳动物细胞中进行选择;及氨苄青霉素抗性基因和colE1复制起点以在大肠杆菌中保持。该载体含有4个连续的LexA操纵子位点,位于XbaI和NheI限制位点之间(Bunker和Kingston,1994)。位于LexA操纵子与NheI位点之间的是一个多接头,其由以下限制位点组成:HindIII-AscI-BamHI-AscI-HindIII。在NheI位点和SalI位点之间是具有SV40启动子和聚腺苷酸化位点的zeocin抗性基因,其衍生自pSV40/Zeo(Invitrogen V502-20);这是用于STAR筛选的选择标记。
pSDH载体(图2)如下构建:将来自pGL3-Control(PromegaE1741)的萤光素酶报道基因通过PCR扩增,并插入SacII/BamHI消化的pUHDlO-3(Gossen and Bujard,1992)中。这样将萤光素酶置于Tet-Off启动子的控制下,并位于SV40聚腺苷酸化信号的上游。通过PCR在Tet-Off启动子上游(MCSI,XhoI-NotI-EcoRI-SaII)和聚腺苷酸化信号下游(MCSII,NheI-BglII-EcoRV-HindIII)导入多克隆位点。基因文库通过用Sau3AI消化人基因组DNA而构建,所述人DNA基因组纯化自胎盘(Clontech 6550-1)或载于细菌/P1(BAC/PAC)人工染色体中。BAC/PAC克隆含有得自lq12细胞遗传学区域(克隆RP1154H19和RP3328E19)或得自HOX同源异型基因簇(克隆RP1167F23,RP1170019和RP11387A1)的基因组DNA。将这些DNA按大小分级分离,并将0.5-2kb大小的级分通过标准方法(Sambrook等,1989)连接在BamHI消化的pSelect载体中。
宿主菌株的构建已有描述(van der Vlag等,2000),简而言之,其基于U-2OS人骨肉瘤细胞系(美国典型培养物保藏中心HTB-96)构建。将U-2OS用pTet-Off质粒(Clontech K1620-A)稳定转染,该质粒编码由Tet-阻抑物DNA结合结构域和VP16反式激活域组成的一种蛋白质嵌合体。随后将该细胞系用融合蛋白基因稳定转染,所述融合蛋白基因含有LexA DNA结合结构域及HP1或HPC2(两种果蝇Polycomb group蛋白,当粘附于DNA时阻抑基因表达)的编码区。LexA-阻抑物基因在Tet-Off转录调节系统的控制下(Gossen和Bujard,1992)。
文库筛选和STAR元件鉴定:将pSelect中的基因文库通过磷酸钙沉淀(Graham和van der Eb,1973;Wigler等,1978)转染进U-2OS/Tet-Off/LexA-阻抑物细胞系中,使用转染试剂供应商推荐的方法(Life Technologies)。转染的细胞在潮霉素选择(25μg/ml)及四环素阻抑(强力霉素,10ng/ml)下培养1周(50%铺满)。然后将强力霉素浓度降低至0.1ng/ml,以诱导LexA-阻抑物基因,并在2天后加入zeocin至250μg/ml。将细胞进一步培养4-5周,直至对照培养物(用空pSelect转染)被zeocin杀死。
通过标准方法繁殖得自文库转染的Zeocin-抗性集落,并通过标准技术分离质粒DNA及在大肠杆菌中拯救(Sambrook等,1989)。拯救的DNA中的候选STAR元件通过限制性内切酶作图分析(Sambrook等,1989),DNA序列分析(Sanger等,1977),并在再转染进U-2OS/Tet-Off/LexA-阻抑物细胞系中及降低强力霉素浓度后分析STAR活性(zeocin抗性)。
具有相应于人基因组中已知序列的DNA序列的候选STAR元件通过对人基因组数据库(http://www.ncbi.nlm.nih.gov/genome/seq/HsBlast.html 20 June 2001)进行BLAST检索(Altschul等,1990)而鉴别。记录这些元件的染色体位置及重复DNA的比例和相邻基因的身份。
在再转染时示出STAR活性的那些候选物通过将STAR片段亚克隆入pSDH质粒中并在U-2OS染色体DNA中稳定整合而进一步鉴定。将pSDH质粒与pBABE-puro(Morgenstern和Land,1990)共转染进U-2OS细胞中,并选择嘌呤霉素抗性集落。针对每个STAR元件,分离大约30个单独克隆的群体并培养。将这些克隆根据厂商指导(Roche1669893)定期分析萤光素酶活性。
结果
STAR元件功能鉴定:筛选人基因组DNA及HOX和lq12基因座产生17个真实STAR元件。标准是(1)在将基于pSelect的克隆再转染进宿主U-2OS人骨肉瘤细胞系时这些元件展示STAR活性(表明在初始筛选中表现的抗阻抑物活性是质粒特异性的,而且不是由于宿主细胞中的赝象变化所致);(2)这些元件含有与人基因组序列数据库中的序列匹配的DNA序列(表明所述克隆不含有来自例如细菌或载体的污染DNA序列)。
将这些STAR元件亚克隆入pSDH质粒中并整合进宿主细胞基因组中。在稳定转染子群体中分析报道基因的表达,以证实在随机整合进基因组后STAR元件保护报道基因免于沉默的能力。这提供了这样的信息:(1)高度表达的克隆的比例,及(2)STAR元件激发的过表达程度。
由一个克隆对萤光素酶报道基因的表达如果高于不含有STAR元件的质粒的平均表达水平(参比水平)的两倍,则认为其是显著的。就所有质粒而言,在这些克隆中观测到如下的表达水平分布情况:从无表达至明显超过参比水平的表达,从很少过表达克隆至许多过表达克隆。优异的STAR活性是由产生许多过表达克隆(包括一些高度过表达的克隆)的质粒体现的。
一个代表性实验的结果示于表1和图3-5:
结果表明与未被保护的报道基因或由果蝇SCS元件保护的报道基因(Kellum和Schedl,1992)相比,所测试的人STAR元件产生高得多的比例的过表达克隆。另外,这些质粒对STAR保护的报道基因的的过表达程度比未保护的或SCS保护的报道基因高得多。
STAR元件序列及基因组位置数据:表2列出了17个STAR元件中每个元件的染色体位置,以及邻近基因的身份和该元件的重复DNA含量。这些STAR元件分布于许多染色体中。它们的实际DNA序列和重复DNA含量各不相同,并表现出与相邻基因各种程度的关联。
SINC元件筛选
材料和方法
用于SINC筛选的质粒pSINC-Select(“pSS”,图6)如下构建:pREP4载体(Invitrogen V004-50)用作质粒骨架,其提供了:Epstein BarroriP复制起点和EBNA-1核抗原以在灵长类动物细胞系中高拷贝附加型复制;具有胸苷激酶启动子和聚腺苷酸化位点的潮霉素抗性基因以在哺乳动物细胞中进行选择;及氨苄青霉素抗性基因和colE1复制起点以在大肠杆菌中保持。该载体含有由来自质粒pUDH10-3(Gossen和Bujard,1992)的串联Tet效应元件(TRE)组成的一个Tet-Off启动子,以便通过转录调节系统进行调节。TRE调节编码一种融合蛋白(胞嘧啶脱氨酶/尿嘧啶磷酸核糖基转移酶;Invivogen porfcodaupp)的codA∷upp基因的表达。这是一种所谓的“自杀基因”;codA∷upp酶的活性将一种前体药物5-氟胞嘧啶(5-FC)转变为毒性药物5-氟尿嘧啶(5-FU),从而导致细胞程序死亡及细胞死亡(Mullen等,1992;Tiraby等,1998;Wei和Huber,1996)。Tet-Off启动子的上游是一BglII限制位点用于克隆Sau3AI消化的基因组DNA以进行筛选。pREP4 DNA通过STAR元件与基因组DNA及自杀基因分离,以防止由克隆的SINC元件导致的pREP4组分中基本的质粒元件沉默。
将来自包含人22号染色体的BAC克隆文库的基因组DNA(Invitrogen/Research Genetics 96010-22)用Sau3AI部分消化并连接进BglII-消化的pSS(Sambrook等,1989)中。使用转染试剂供应商推荐的方法(Life Technologies),将重组质粒的文库通过磷酸钙沉淀(Graham和van der Eb,1973;Wigler等,1978)转染进U-2OS/Tet-Off细胞系中。将转染的细胞在潮霉素选择(25μg/ml)和四环素阻抑(强力霉素,10ng/ml)下培养3周。然后加入5-FC至浓度为1μg/ml,将细胞进一步培养3周以选择SINC元件。
收获候选的含有SINC的集落,并使用引物PCR1和PCR2进行聚合酶链反应(图6),将PCR产物用HindIII和XhoI限制性内切酶消化,并通过常规方法(Sambrook等,1989)克隆入pBluescript II SK(+)(Stratagene 212207)中。确定候选SINC元件的DNA序列(Sanger等,1977),通过对人基因组数据库进行BLAST检索(Altschul等,1990)鉴别人基因组中的相应序列(http://www.ncbi.nlm.nih.gov/genome/seq/HsBlast.html 20 June 2001)。记录这些元件的染色体位置以及重复DNA的比例及邻近基因的身份。
结果
在选择期末,在对照培养物(空pSS)中未见集落,在含有具有基因组DNA的pSS的培养物中可见许多集落。这些存活的克隆含有候选SINC元件。通过PCR回收这些元件并亚克隆入标准克隆载体pBluescript中。确定这些元件的DNA序列,并与人基因组序列对比(表3)。在所有情况中,正如所预期的,在22号染色体上发现这些测序的元件。
实施例2:由于STAR,SINC或组合的STAR/SINC所致的转基因的表达特征
背景:使用位点特异性重组从染色体位置中精确除去异源DNA。这通常通过两个系统之一进行:噬菌体P1的cre重组酶及loxP靶(Feng等,1999),或者酵母的FLP重组酶及FRT(FLP重组酶的靶位)(Wigley等,1994)。在这些系统中,一个DNA区域(通常含有报道基因和/或选择标记)在染色体中的侧翼为loxP或FRT靶位。重组酶活性然后催化该DNA区域从染色体中精确切除。该重组酶将其两个识别序列解离为一个单一位点,缺失它们之间的序列。因此,一段DNA的侧翼必须是靶位点,以便随后当导入或激活重组酶时可以体内缺失(Schwenk等,1995;Dymecki,1996)。Cre和Flp重组酶催化由最少6个(loxP)或8个(FRT)碱基对的间隔区分隔的两个13个碱基对反向重复之间的重组(Senecoff等,1985)。LoxP序列为ATAACTTCGTATA,FRT序列为GAAGTTCCTATAC。
方案:使用常规DNA克隆方法(Sambrook等,1989),将一种报道基因(编码一种报道蛋白,例如绿色荧光蛋白(GFP)(Bierhuizen等,1997)或萤光素酶(Himes和Shannon,2000))构建在质粒中,使其侧翼为一对STAR元件,一对SINC元件或一对STAR/SINC重组元件。在每种情况中,这些元件自身的两侧为重组酶靶位点。一个元件的两侧为一对loxP位点,另一个元件的两侧为一对FRT位点(图1)。转染后该质粒在少部分细胞中整合进宿主染色体中,通过抗生素抗性选择整合子。针对三种测试元件(STAR,SINC,STAR/SINC)的每一种产生相似的构建体。
使用常规技术(“SuperFect转染试剂手册”Qiagen,1997年11月),将这些质粒转染进U-2OS人骨肉瘤细胞系中,并针对潮霉素抗性进行选择。潮霉素抗性分离株具有稳定整合入细胞系基因组中的质粒。将各个分离株在细胞培养基中繁殖,并通过例如流式细胞计量术分析转基因报道基因的表达(Stull等,2000)。
然后使用常规技术(转染或激素刺激),处理上述稳定的分离株以导入或激活重组酶活性。这是相继进行的,以便例如cre重组酶活性催化STAR1的切除,随后FLP重组酶活性催化STAR2的切除。分析这些细胞中报道基因的表达水平,并将数值与母本含有STAR的分离株的参考值进行对比。
实施例3:STAR序列分析;确定元件功能的基本必需序列;元件之间的序列保守性;及串联的多个元件的性质
背景:含有STAR或SINC元件的DNA片段分别使用pSelect(图1)或pSS(图6)质粒通过遗传选择而分离。本部分描述了在具有STAR或SINC活性的那些片段内鉴定DNA序列的方法。
方案:
DNA序列:基于pSelect和pSS选择质粒的序列设计寡核苷酸以对DNA片段测序。使用双脱氧链终止法对片段测序(Sanger等,1977)。然后使用公布的人基因组序列数据库将DNA序列定位于染色体位置(http://www.ncbi.nlm.nih.gov:80/cgibin/Entrez/hum_srch?chr=hum_chr.inf&query)。从基因组序列注解中记录该片段序列邻近的基因和基因密度。那些基因的转录活性从公布的DNA微阵列数据库(http://arrays.rockefeller.edu/xenopus/links.html)和SAGE数据(基因表达的系列分析;http://bioinfo.amc.uva.nl/HTM-bin/index.cgi)中确定。一旦汇编了STAR和SINC序列的位置信息,分析这些数据的潜在的共有序列。使用相似性检索算法如clustalw(Higgins等,1996)及blosum相似性评分(Altschul and Gish,1996),检测共有序列或趋势(由此得知的是富含特定的核苷酸组合中的局部区域,例如富含C和G碱基)。然后将发现的任何潜在的共有序列或趋势用于通过进行BLAST检索(Altschul等,1990)而鉴别基因组范围的其它潜在的STAR。先前的研究已经鉴别了结合已知绝缘体(insulator)和边界元件的转录调节蛋白(Gaszner等,1999;Gerasimova和Corces,1998)。在所述的实施例中,这些蛋白质结合位点与绝缘或边界功能所必需的DNase I超敏位点相符。STAR元件也由已知调节蛋白结合这一假说通过检索转录因子的TRANSFAC数据库(http://transfac.gbf.de/TRANSFAC/)中的在STAR元件中存在的序列基序而检验。STAR或SINC集合的各成员中共同的序列基序是相应转录元件结合那个元件的指征。
基本必需序列(Minimal essential sequence):使用这种序列知识,将STAR(或SINC)元件截短并测试功能。这是通过标准技术使用聚合酶链反应(PCR)将含有STAR或SINC的片段的亚片段克隆入pSelect或pSS中(Sambrook等,1989)进行。将含有这些亚片段的质粒转染进U-2OS细胞中,并通过分析抗生素抗性(STAR元件)或前体药物抗性(SINC元件)测试功能。
定向性(Directionality):分别使用pSelect和pSS质粒测试STAR和SINC元件的定向性。例如,通过pSelect筛选分离的STAR元件的方向称为5′3′方向。该元件的方向通过常规重组DNA技术变成相反方向(Sambrook等,1989)。将所得质粒转染进U-2OS细胞系中,并分析报道基因的表达(Bierhuizen等,1997;Himes和Shannon,2000)。将具有反方向元件的质粒的表达水平与具有5’3’方向的水平相对比。如果反方向质粒具有相似表达水平,则STAR元件不表现出定向性。
元件的组合及倍增:为确定STAR元件是否能以混合配对而起作用,组合不同的元件并测试。在pSDH质粒中通过重组DNA技术(Sambrook等,1989)将一种STAR元件插入MCSI中及将一个不同的STAR插入MCSII中,随后进行分析。转染所得质粒,并分析报道基因的表达(Bierhuizen等,1997;Himes和Shannon,2000);将结果与在MCSI和MCSII中含有相同元件的质粒的表达相对比;如果这两种类型的质粒的表达相似,则不同的STAR元件互不干扰。
单STAR或SINC元件的强度与串联重复的元件相对比:这通过用DNA连接酶将感兴趣的STAR或SINC多联化,并通过重组DNA技术(Sambrook等,1989)将连接产物插入pSDH或pSS质粒中而进行。所得质粒转染进U-2 OS细胞中,并分析报道基因的表达(Bierhuizen等,1997;Himes和Shannon,2000);将结果与含有单STAR或SINC元件的质粒表达相对比。
实施例4:确定STAR,SINC或其组合发挥作用的距离
背景:用STAR元件优化单个转基因和多个转基因的表达。为确定一对STAR元件是否能保护大的转基因或多个转基因免于沉默,有必要确定STAR的作用范围。相似地确定SINC元件和STAR/SINC组合的信息。
方案:如下所述,使用分别基于pSelect或pSS的衍生质粒测试STAR和SINC元件在一段距离上的功能性。通过标准DNA克隆技术(Sambrook等,1989)装配大小为500bp-10kb的随机DNA片段文库。通过如上述在pSelect和pSS质粒中进行测试,从该文库中选择不具有STAR或SINC活性的片段。针对STAR元件和STAR/SINC组合,将这些片段插入适当的pSelect质粒中的克隆位点和报道基因的启动子之间(图1)。将该系列质粒转染进U-2OS细胞系中,并如上所述测定表达。将报道基因表达的强度与将STAR元件与启动子分开的随机DNA片段的长度相关联。SINC元件以类似方式评定:将随机DNA片段插入适当pSS质粒的SINC元件和启动子之间,将报道基因的阻抑程度与随机DNA片段的长度相关联。实施例5(a):天然存在的SINC元件在遗传选择STAR元件中的应用
背景:目前筛选STAR元件使用的是嵌合的lexA-PcG蛋白以提供对选择质粒中的选择标记的阻抑。使用天然存在的SINC元件重复所述的选择,鉴别特异于由于这些天然存在的SINC元件所致阻抑活性的STAR元件。
SINC元件筛选是基于遗传选择从而鉴别随机产生的能沉默“tet-off”启动子并阻断codA∷upp自杀基因的表达的基因组DNA片段的能力。从这个选择中回收的SINC元件代表基因组沉默元件的随机取样,并回收了不同类别的元件。针对这个方案,这些不同的SINC元件用于回收与在上述基于lexA-PcG的选择中回收的那些STAR元件不同类别的STAR元件。
方案:对得自当前选择的SINC元件进行鉴定并基于功能特征和DNA序列特征进行分类(功能特征包括阻抑强度;序列特征包括可鉴别的保守基序;见实施例3)。通过标准DNA克隆技术(Sambrook等,1989)将每一类别的代表性元件用于置换pSelect中的lexA结合位点。用这些新质粒的每一种产生基因库,并如前所述(van der Vlag等,2000)用于鉴别新的SINC-特异性STAR元件。这使用完整基因组DNA进行,及使用也含有所用的SINC元件的BAC克隆的DNA进行。
实施例5(b):确定STAR和SINC元件的最大长度
背景:使用pSelect质粒将STAR元件作为回收的DNA片段而克隆,这是用少于2kb的基因组DNA片段进行。然而,这些可能是更长的STAR元件的一部分。延长的STAR活性通过以下实验检测。
方案:将克隆入pSelect中的STAR元件作图在人基因组序列上。为确定它们是否是更长的STAR元件的一部分,将涵盖该克隆的4kb的区域通过PCR扩增,并通过标准重组DNA技术克隆入pSelect和/或pSDH质粒中(Sambrook等,1989)。将所得质粒转染进U-2OS细胞中,并如上所述分析报道基因的表达;含有原始2kb STAR元件的质粒作为对照。可以预期获得三种结果:(1)对照和延长的STAR分离物的表达相似,表明STAR元件限于原始的2kb片段;(2)延长的STAR分离物的表达较低,提示STAR元件包含于2kb的片段内,而且在一段距离上不能有效发挥作用,或者延长的片段含有SINC元件;(3)延长的STAR分离物表达较高,提示延长的区域含有更完整的STAR元件。在结果(3)的情况中,用6kb的更大的PCR片段重复试验。
STAR元件也可以是各种蛋白质所结合的位点的组合。因此具有STAR活性的大DNA片段可以分为一些具有STAR活性的较小片段(见实施例3)。大于2kb的元件如果在截短为小于2kb之后(包括内部缺失)仍展示STAR活性,则认为其是STAR元件。
实施例6:STAR元件、SINC元件或其组合及相邻转基因的甲基化和组蛋白乙酰化状态
背景:STAR和SINC元件的调节性质与局部染色质结构相关,这是通过DNA自身及通过DNA相关蛋白质确定的。与基因表达改变相关的染色质变化通常由高分子的二级修饰、尤其是DNA的甲基化或组蛋白的乙酰化而产生。鉴别在STAR和SINC元件及在相邻转基因中存在的二级修饰提供了这些元件的特点。
方案:DNA甲基化:通过标准技术(Sambrook等,1989),将STAR或SINC元件或其组合克隆入pSelect质粒中。用这些质粒稳定转染U-2OS细胞,并用没有STAR或SINC元件的pSelect作对照,以确定报道基因的基础DNA甲基化。收获细胞并通过标准技术(Thomas,1998)纯化染色质。在单独的反应中分别用HpaII和Mspl限制性内切酶消化DNA(Sambrook等,1989)。这些限制酶均能切断未甲基化的序列CCGG。当外侧的C甲基化时,MspI和HpaII不能裂解该序列。然而,与HpaII不同的是,当内部的C甲基化时,MspI能裂解该序列。将该DNA进行Southern印迹,并通过间接的末端标记分析该印迹(Pazin和Kadonaga,1998)。作为对照,作为裸露的未甲基化DNA的相应pSelect质粒也用所述的酶切割,并进行Southern印迹。对比DNA片段的不同大小揭示该DNA是否在体内甲基化。
组蛋白乙酰化:将与用于DNA甲基化分析的相同转染的细胞系用于这些实验。下述方法产生了在STAR和SINC元件及报道基因上组蛋白乙酰化模式的高分辨图(Litt等,2001)。在蔗糖梯度上分级分离微球菌核酸酶消化的细胞核,并浓缩纯化的核小体单体和二聚体,以通过用抗乙酰组蛋白抗体进行免疫沉淀而获得乙酰化组蛋白。将核小体级分和免疫沉淀物例如通过实时PCR进行分析(Jung等,2000),使用与报道基因或STAR或SINC元件退火的引物和Taqman探针,产生0.2kb产物,移动窗口为0.1kb。然后测定在PCR期间Taqman探针荧光信号的增加率(这与样品中模板DNA的丰度成比例)。核小体级分与免疫沉淀物中模板DNA的丰度比率提供了在每0.1kb报道基因和STAR或SINC元件上(或者在无元件时的报道基因上)的组蛋白乙酰化模式的精细图。
实施例7:体内核小体定位及DNAse I超敏位点
背景:染色质由DNA、组蛋白和非组蛋白蛋白质组成。组蛋白形成核心颗粒,其由约150bp的DNA包绕形成核小体,核小体由50-75bp的接头DNA分隔。染色体DNA上稳定定位的核小体阻抑基因表达,排除核小体或重塑染色质的因子可以克服这种阻抑。核小体在染色体区域中的定位通过微球菌核酸酶(MNase)分析加以分析;MNase优先在接头DNA处切割染色质。相似地,DNA的一些区域组成型暴露于非组蛋白蛋白质,这些通常是调节区域,即顺式作用调节因子结合的位点。经实验表明,这些位点对DNase I消化超敏。
方案:为确定报道基因上及STAR或SINC元件上核小体的位置,使用MNase(Saluz和Jost,1993)。从培养的U-2OS细胞中纯化细胞核,并用MNase如上所述消化(组蛋白乙酰化)。为检索STAR和SINC元件或报道基因中DNase I超敏位点,将纯化的细胞核用DNase I在合适浓度处理(例如100μg/ml基因组DNA和20-100U/ml DNaseI)(Wallrath等,1998)。将裸DNA用DNase I消化作为对照。针对这两种技术,报道基因和STAR或SINC元件均使用引物扩展或间接末端标记和Southern印迹精细作图(Tanaka等,1996;van der Vlag等,2000)。MNase分析示出一放射自显影图上的不连续条带梯,其相应于核小体在STAR或SINC元件或报道基因上的位置。DNase I超敏位点在所得放射自显影图中显现为不连续条带,在裸DNA对照中没有或不明显。
实施例8:STAR和SINC元件的细胞类型、组织依赖性及启动子依赖性
背景:已经有报道一些绝缘体或边界元件可以显示组织特异性(Takada等,2000)。STAR元件具有许多与绝缘体和边界元件共有的特点。混栖的和组织特异性STAR和SINC元件在转基因应用中均具有生物技术学价值。进行以下分析以评定细胞类型依赖性。所述元件的细胞和组织特异性通过检测人基因组中所述元件邻近基因的表达而进一步检测,使用公布的DNA微阵列数据库(http://arrays.rockefeller.edu/xenopus/links.html)及SAGE(基因表达的连续分析;http://bioinfo.amc.uva.nl/HTM-bin/index.cgi)数据。
方案:在pSDH质粒中测试STAR元件,在pSS质粒中测试SINC元件。使用标准方案转染三种细胞系:人U-2OS骨肉瘤细胞系(Heldin等,1986),来自非洲绿猴肾的Vero细胞系(Simizu等,1967),及来自中国仓鼠卵巢的CHO细胞系(Kao和Puck,1968)。能在所有这三种细胞系中起作用的元件被分类为混栖的。仅在一或两种所述细胞系中显示活性的那些元件被分类为限于细胞类型的功能性。
启动子特异性:目前相对于两种启动子选择STAR和SINC元件并测试功能,即完整的巨细胞病毒(CMV)启动子或四环素效应元件及最小CMV启动子(与tTA转录激活子组合)。为评定启动子特异性,用其它常用的病毒启动子测试STAR和SINC功能,所述启动子即猿猴病毒40(SV40)早期和晚期启动子,腺病毒E1A和主要晚期启动子,及Rous肉瘤病毒(RSV)长末端重复(Doll等,1996;Smith等,2000;Weaver及Kadan,2000;Xu等,1995)。通过标准技术(Sambrook等,1989),将这些启动子的每一种与STAR或SINC元件一起分别克隆入pSelect和pSS质粒中。将所得质粒转染进人U-2OS细胞系中并如上所述分析报道基因表达。SINC元件沉默这些启动子的能力,或者STAR元件保护抗沉默的能力,通过与没有STAR或SINC元件的质粒对比而确定。
实施例9:改良STAR和SINC元件的方法
背景:开发改良的STAR和SINC元件。改良使元件的抗阻抑或阻抑活性强度增强,而且使元件具有可诱导性及组织特异性。这些改良通过组合技术产生。
方案
强制进化:使用易错PCR(Cherry等1999;Henke和Bornscheuer,1999)在每个元件中平均导入一至两个点突变。使用含有报道基因选择标记融合蛋白的pSelect(或pSS)质粒筛选诱变的元件,通过例如荧光激活细胞淘选及抗生素抗性而筛选(Bennett等,1998)。接着进行若干轮易错PCR和选择,以衍生活性得以进一步改良的元件。
串联和异源组合:如上所述,测试串联和异源组合的元件活性,与单一元件相对比(实施例3)。
逐个测试STAR和SINC元件的相对显性。这用于测试元件的强度;例如如果一种新的STAR元件相对于一种已知的强SINC元件是显性的,则将该STAR分类为极强的元件。还考虑了STAR和SINC之间的显性关系是细胞类型、组织或启动子特异性的这一可能性(实施例8)。显性测试利用pSelect质粒,通过标准重组DNA技术(Sambrook等,1989),各个SINC元件置于各个STAR元件的上游。用该质粒转染U-2OS细胞,并分析报道基因表达。SINC显性通过与只具有STAR元件的质粒相比表达较低而体现,而STAR显性通过与只具有SINC元件的质粒相比表达较高而体现。
在STAR和SINC元件中导入结合其它DNA结合蛋白的结合位点以增加新的特征(例如可诱导性,组织特异性)。
背景:可调节的STAR和SINC元件通过将其与用于结合信号依赖性DNA结合蛋白的结合位点组合而产生。在一个实施例中,这包括将STAR或SINC或STAR/SINC组合与一种糖皮质激素效应元件(GRE)并列。在没有糖皮质激素刺激的情况下,STAR或SINC元件如所描述那样起作用。在糖皮质激素刺激时,天然存在的糖皮质激素受体结合GRE并干扰STAR或SINC功能。
方案:使用常规DNA克隆(Sambrook等,1989),将GRE分别导入pSelect或pSS载体中与STAR或SINC元件相邻。将该质粒如上所述转染进U-2OS细胞中。将细胞分为两组培养物;一组用糖皮质激素处理(10μM)。测定报道基因的表达并在两组培养物之间进行对比。表达水平的不同表明通过信号依赖性DNA结合蛋白的作用调节STAR和SINC功能的能力。
混栖的STAR和SINC元件:测试或增强这些特征包括在不同细胞系中培养,及不用抗生素选择而长期培养(实施例8和10)。
实施例10:STAR和SINC元件使得转基因保持不需要持续选择
背景:在转基因技术中,依赖选择标记有两个缺点:选择试剂通常较昂贵并需要细胞代谢成本,而且在转基因应用中包括选择标记存在及法律上和伦理上的反对意见,尤其如果转基因自身存在于产物中时(例如农作物,基因治疗载体)。STAR和SINC元件在确定转基因分离株后降低或消除了维持选择的需要。因此,抗性基因可以通过位点特异性重组从转基因基因组中除去,同时避免转基因表达丧失。
方案:含有染色体整合的在报道基因两侧的STAR元件的稳定转染的U-2OS细胞系通过用pSDH质粒和如上所述反式作用抗生素抗性质粒共转染而产生。这个实验包括测试在无选择的延长的(3-6个月)培养期间,在这些细胞系中报道基因表达水平的稳定性。这是在pSDH质粒中用在萤光素酶或GFP报道基因两侧的STAR元件测试的。抗生素抗性基因通过构建一种表达质粒(基于pSDH)除去,其中抗生素选择标记两侧为重组酶靶位点。选择标记随后通过重组酶活性切除,如上所述(实施例2)。
实施例11:通过在表达系统中应用STAR元件改善可预测性(predictability)及产量
STAR元件的作用是阻断对转基因表达单位的转录阻抑影响的作用。这些阻抑影响可以是由于异染色质(“位置作用”,(Boivin&Dura,1998))或转基因的相邻拷贝(“重复诱导的基因沉默”,(Garrick等,1998))所致。STAR元件对异源蛋白质产生的两个益处是提高了发现高表达原代重组宿主细胞的可预测性,及在生产周期期间增加了产量。这些益处在这个实施例中得以证明。
材料和方法
构建pSDH载体和含有STAR的衍生物:pSDH-Tet载体如下构建:从质粒pREP4-HSF-Luc经聚合酶链反应(PCR)扩增萤光素酶开放读框(van derVlag等,2000),使用引物C67和C68(所有PCR引物和诱变寡核苷酸均示于表5),并将这一SacII/BamHI片段插入SacII/BamHI消化的pUHD 10-3(Gossen & Bujard,1992)中。将萤光素酶表达单位用引物C65和C66再扩增,并再插入pUHD10-3中以使其两侧为两个多克隆位点(MCSI和MCSII)。然后通过用EcoRI消化及插入一个接头(由退火的寡核苷酸D93和D94组成),将一个AscI位点导入MCSI中。用引物D90和D91从质粒pCMV-Bsd(InvitrogenK510-01)中扩增CMV启动子,并用于通过SalI/SacII消化及连接置换pSDH-Tet中的Tet-Off启动子,产生载体pSDH-CMV。这个载体中的萤光素酶开放读框如下由SEAP(分泌型碱性磷酸酶)置换:将载体pSDH-CMV用SacII和BamHI消化并平端化;通过EcoRI/SalI消化从pSEAP-basic(Clontech 6037-1)中分离SEAP开放读框,平端化并连接于进pSDH-CMV中产生载体pSDH-CS。使用引物C81和C82通过PCR从质粒pBabe-Puro(Morgenstern&Land,1990)中分离在SV40启动子控制下的嘌呤霉素抗性基因,将其连接进用NcoI/XbaI消化的载体pGL3-control(BamHI位点已除去)(Promega E1741)中,产生pGL3-puro。将pGL3-puro用BglII/SalI消化以分离SV40-puro抗性基因,将其平端化并连接进NheI消化的平端化pSDH-CS中。所得载体pSDH-CSP示于图7。所有克隆步骤均参照试剂生产商的指导,根据本领域已知方法进行(Sambrook等,1989)。
用合适的限制酶消化STAR元件和pSDH-CSP载体,随后连接而经过两个步骤将STAR元件插入MCSI和MCSII中。重组pSDH载体中STAR元件的方向通过限制性作图确定。插入序列的身份和方向通过DNA序列分析证实。使用Beckman CEQ2000自动DNA测序仪根据厂商指导通过双脱氧方法(Sanger等,1977)进行测序。简而言之,使用QIAprep Spin Miniprep及Plasmid Midi试剂盒(分别为QIAGEN27106和12145),从大肠杆菌中纯化DNA。使用通用寡核苷酸C85,E25和E42(表5),在染料终止子的存在下(CEQ染料终止循环测序试剂盒,Beckman 608000)进行循环测序。
用pSDH质粒转染和培养CHO细胞:将中国仓鼠卵巢细胞系CHO-K1(ATCC CCL-61)在含有2 mM谷氨酰胺,100 U/ml青霉素和100μg/ml链霉素的HAMS-F12培养基+10%胎牛血清中,在37℃/5%CO2中培养。使用SuperFect(QIAGEN),如厂商所述将细胞用pSDH-CSP载体及其在在MCSI和MCSII中含有STAR6或STAR49的衍生物转染。简而言之,将细胞种植于培养瓶中并生长过夜至70-90%铺满。将SuperFect试剂与质粒DNA(在此实施例中通过PvuI消化而线性化)以6μl/1μg的比率组合(例如对于10cm Petri培养皿,20μg DNA/120μl SuperFect),并加入细胞中。在温育过夜后,将转染混合物更换新鲜培养基并进一步温育转染的细胞。在过夜温育后,加入5μg/ml嘌呤霉素。嘌呤霉素选择在2周内完成,之后随机分离各个嘌呤霉素抗性CHO/pSDH-CSP克隆并进一步培养。
分泌型碱性磷酸酶(SEAP)分析:如厂商指导所述(Clontech GreatEscAPe试剂盒#K2041),确定CHO/pSDH-CSP克隆的培养基中SEAP活性(Berger等,1988,Henthorn等,1988,Kain,1997,Yang等,1997)。简而言之,将一份培养基在65℃加热失活,然后与分析缓冲液和CSPD化学发光底物组合,在室温温育10分钟。然后在发光计(Turner20/20TD)中测定底物转换率。细胞密度在Coulter ACT10细胞计数仪中通过计数胰蛋白酶化细胞而确定。
用pSDH质粒转染和培养U-2OS细胞:将人骨肉瘤细胞系U-2OS(ATCC#HTB-96)在含有谷氨酰胺,青霉素和链霉素(如前)的Dulbecco′s修改的Eagle培养基+10%胎牛血清中,在37℃/5%CO2培养。使用SuperFect(QIAGEN),如厂商所述将细胞用pSDH-CMV载体及其在MCSI和MCSII中含有STAR6或STAR8的衍生物共转染。嘌呤霉素选择在2周内完成,之后随机分离各个嘌呤霉素抗性U-2OS/pSDH-CMV克隆并进一步培养。
萤光素酶分析:在重悬的细胞中,根据分析试剂盒的厂商指导(Roche 1669893),使用已知发光计(Turner 20/20TD)分析萤光素酶活性(Himes&Shannon,2000)。总细胞蛋白浓度通过双金鸡宁酸方法,根据厂商指导(Sigma B-9643)测定,并用于校正萤光素酶数据。
结果:
将含有pSDH-CSP载体的重组CHO细胞克隆或含有含STAR6或STAR49(表6)的pSDH-CSP质粒的重组CHO细胞克隆培养3周。然后测定培养上清中SEAP活性,并基于细胞数目表示(图8)。可以看出,分离到了在表达单位中具有STAR元件的克隆,其比表达单位中不包括STAR元件的克隆的SEAP活性表达水平高2-3倍。另外,以不含STAR的克隆(STAR-less clone)的最大活性或高于此活性表达SEAP活性的含STAR的克隆数非常高:25%-40%的STAR克隆群超过了pSDH-CSP克隆的SEAP最高表达水平。
将含有pSDH-CMV载体的重组U-2 OS细胞克隆或者含有含STAR6或STAR8(表6)的pSDH-CMV质粒的重组U-2 OS细胞克隆培养3周。然后测定宿主细胞中的萤光素酶活性,并以校正至总细胞蛋白的相对萤光素酶单位表示(图9)。在表达单位两侧具有STAR元件的重组U-2 OS克隆比不含STAR的克隆具有更高的产量:在STAR8克隆中观测到的最高表达比不含STAR的克隆高2-3倍。STAR6克隆的最大表达水平比不含STAR的克隆高5倍。STAR元件还赋予更高的可预测性:针对两种STAR元件,15-20%的克隆表现的萤光素酶表达水平与具有最高表达水平的不含STAR的克隆相当或更高。
这些结果表明当与强CMV启动子一起使用时,STAR元件能提高异源蛋白质(萤光素酶和SEAP)的产量。在这个实施例中导入的所有三种STAR元件均使产量增加。由STAR元件赋予的可预测性增加体现在存在大比例的产量等于或高于不含STAR的克隆所展现的最高产量的克隆。
实施例12:STAR元件改善转基因表达的稳定性
在重组宿主细胞的培养期间,一般要维持抗生素选择,目的在于防止转基因的转录沉默,或者防止由于诸如重组等过程而导致的从基因组中丧失转基因。然而,这对于异源蛋白生产是不希望的,原因有很多。首先,使用的抗生素非常昂贵并使产品的单位成本显著增加。其次,对于生物制药应用,蛋白质必需是确实纯的,在产物中无任何抗生素痕迹。STAR元件对于异源蛋白生产的一个优势是在延长的培养期间,即使在无抗生素选择的情况下,其也赋予转基因稳定表达,这种性质在这个实施例中加以证实。
材料和方法
将U-2 OS细胞系用质粒pSDH-Tet-STAR6转染并如实施例11所述培养。分离各个嘌呤霉素抗性克隆并在无强力霉素存在下进一步培养。每隔一周将细胞以1∶20的稀释度移至新鲜培养瓶中。如实施例11所述定期测定萤光素酶活性。15周后,将培养物分为两份,一份继续给予嘌呤霉素,另一份不给予抗生素进行其余的实验(共25周)。
结果
表7示出在有或无抗生素的长期培养期间,由两侧具有STAR6的表达单位表达的萤光素酶表达数据。可以看出,报道转基因萤光素酶的表达在实验期间在U-2 OS宿主细胞中均保持稳定。在将培养物分成两组处理后(加抗生素及无抗生素),萤光素酶的表达在无抗生素选择的情况下仍基本稳定。这表明了STAR元件在长期培养期间保护转基因免于沉默或丢失的能力。还表明这种性质不依赖于抗生素选择。
因此,异源蛋白质生产可以不用消耗抗生素及不必进行困难的下游加工。
实施例13:STAR元件的最小基本序列(minimal essential sequence)
STAR元件分离自实施例1所述的遗传筛选。该筛选使用用人基因组DNA构建的文库,其经大小分级分离为大约0.5-2kb(如前)。STAR元件的范围是500-2361碱基对(表6)。对于许多已经分离的STAR元件,STAR活性很可能由比初始分离的克隆更小的DNA片段赋予。有必要测定STAR活性所必需的这些最小片段大小有两个原因。首先,较小的功能性STAR元件在设计小型(compact)表达载体中更有优势,因为较小的载体转染宿主细胞效力较高。其次,测定最小的基本STAR序列可以修饰那些序列以增强功能性。已经对两种STAR元件进行精细作图以确定其最小基本序列。
材料和方法:
对STAR10(1167碱基对)和STAR27(1520碱基对)进行精细作图。将它们通过PCR扩增以产生几乎等长的亚片段(图10)。初始测试中,将这些亚片段克隆入pSelect载体中的BamHI位点,并转染进U-2OS/Tet-Off/LexA-HP1细胞中,如实施例1所述。在潮霉素抗性选择后,通过降低强力霉素浓度诱导LexA-HP1。然后将转染的细胞与zeocin温育以测试所述STAR片段保护SV40-Zeo表达单位免于因LexA-HP1结合所致的阻抑。
结果
在这个实验中,正如所预期的,STAR10和STAR27赋予良好的抗基因沉默的保护作用(图10)。这通过在存在zeocin的情况中下的旺盛生长而证明。
在三个STAR10亚片段中,10A(~400碱基对)赋予转染的细胞在zeocin存在下的旺盛生长,超过全长STAR元件的程度。用含有其它两个亚片段的pSelect构建体转染的细胞在存在zeocin时不生长。这些结果表明所述约400碱基对的10A片段包含了负责STAR10的抗阻抑活性的DNA序列。
在这个实验中,STAR27赋予转染的细胞在zeocin中以中等程度生长(图10)。这个STAR的一个亚片段27B(~500碱基对)使宿主细胞在含有zeocin的培养基中微弱生长。这提示这种STAR的抗阻抑活性部分位于亚片段27B上,但全部活性也要求来自27A和/或27C(均约500碱基对)的序列。
实施例14:STAR元件在不同株的培养的哺乳动物细胞中均起作用
选择宿主细胞进行异源蛋白表达对该蛋白质的特性、产量和单位成本是一个重要参数。对这种翻译后修饰,分泌途径能力及细胞系的无限增殖性的考虑确定了针对特定生物制药生产系统的合适细胞系。为此,由STAR元件提供的在产量,可预测性和稳定性方面的优势应在不同细胞系中均可获得。这通过对比STAR6在其最初克隆进的人U-2 OS细胞系中的功能及其在广泛应用于生物技术中的CHO细胞中的功能而测试。
材料和方法:
参见实施例11所述实验。
结果
SEAP报道基因在CHO细胞中的表达示于图8,萤光素酶报道基因在U-2 OS细胞中的表达示于图9。通过对比这两个实验的结果,很明显STAR6元件在这两个细胞系中均发挥功能:当报道基因被STAR6保护而免受位置作用时,报道基因表达在这二者中更可预测,每个细胞系的克隆均展示更高的产量。这两个细胞系衍生自不同物种(人和仓鼠)及不同的组织类型(骨和卵巢),反映出可利用这种STAR元件改良异源蛋白表达的宿主细胞范围很广泛。
实施例15:STAR元件对各种转录启动子均有功能
转基因转录通过将转基因开放读框置于一种外源启动子控制下而实现。启动子的选择受异源蛋白质的性质及生产系统的影响。在大多数情况中,优选强组成型启动子,因为它们可以提供高产量。一些病毒启动子具有这些性质:巨细胞病毒立即早期基因的启动子/增强子(“CMV启动子”)在一般的生物技术应用中通常被认为是最强的启动子(Boshart等,1985,Doll等,1996,Foecking&Hofstetter,1986)。猿猴病毒SV40启动子也是中等强度的(Boshart等, 1985,Foecking&Hofstetter,1986)而且通常在哺乳动物细胞载体中用于异位表达。Tet-Off启动子是可诱导的:该启动子在存在四环素或相关抗生素(通常使用强力霉素)的情况下,在表达tTA质粒(Clontech K1620-A)的细胞系中被阻抑,而除去该抗生素会诱导转录(Deuschle等,1995,Gossen & Bujard,1992,Izumi & Gilbert,1999,Umana等,1999)。
材料和方法:
pSDH-Tet和pSDH-CMV载体的构建见实施例11所述。pSDH-SV40如下构建:从质粒pSelect-SV40-Zeo(实施例1)经PCR扩增SV40启动子(引物D41和D42),随后用SacII和SalI消化PCR产物,将pSDH-CMV载体用SacII和SalI消化以除去CMV启动子,并将该载体和SV40片段连接在一起产生pSDH-SV40。将STAR6如实施例11所述克隆在MCSI和MCSII中。使用SuperFect根据厂商指导将质粒pSDH-Tet,pSDH-Tet-STAR6,pSDH-Tet-STAR7,pSDH-SV40和pSDH-SV40-STAR6与pBabe-Puro共转染进U-2 OS中。如实施例11所述进行细胞培养,嘌呤霉素选择及萤光素酶分析。
结果
图9,11和12对比了来自三种不同启动子的萤光素酶报道基因的表达:两种强组成型病毒启动子(CMV和SV40),及诱导型Tet-Off启动子。所有这三种启动子均在U-2 OS细胞中相对于STAR6元件进行测试。结果表明来自所有三种启动子的产量和可预测性均由STAR6提高。如实施例11和14所述,STAR6对于CMV启动子是有益的(图9)。在SV40启动子中可见相似的促进作用(图11):最高表达的STAR6克隆的产量比最佳pSDH-SV40克隆高2-3倍,而且有6个STAR克隆(克隆群的20%)的产量高于最佳的不含STAR克隆的产量。对于诱导浓度(低强力霉素)的Tet-Off启动子,STAR6也增加了转基因表达的产量和可预测性(图12):最高表达的STAR6克隆比最佳pSDH-Tet克隆产量高20倍,而且有9个STAR6克隆(克隆群的35%)的产量高于最佳的不含STAR克隆。由此可以得出结论,这一STAR元件的转基因保护性质是通用的,因为其对于在各种生物技术有效的转录启动子均有作用。
实施例16:STAR元件功能可以定向
虽然短核酸序列可以是对称的(例如回文的),但较长的天然存在的序列典型地是不对称的。因此核酸序列的信息含量是定向的,而且序列自身可以根据其5’和3’末端加以描述。核酸序列信息的定向性影响重组DNA分子使用本领域已知标准克隆方法装配(Sambroo等,1989)得到的排列。STAR元件是长的不对称DNA序列,而且基于它们在pSelect载体中最初克隆的方向而具有定向性。在上述实施例中,使用pSDH载体中的两个STAR元件,保留了这种定向性。这个方向相对于zeocin抗性基因描述为天然方向或5′-3′方向(见图13)。在本实施例中,在pSDH-Tet载体中测试了STAR功能定向性的重要性。由于pSDH载体中的报道基因在两侧均有感兴趣STAR元件拷贝,因此必须考虑到每个STAR拷贝的方向。本实施例对比了天然方向与相反方向(图13)。
材料和方法:
如实施例11所述,将STAR66元件克隆入pSDH-Tet中。将U-2OS细胞用质粒pSDH-Tet-STAR66-天然方向和pSDH-Tet-STAR66-相反方向共转染,并如实施例11所述培养。分离各个克隆并培养;如前所述测定萤光素酶表达水平。
结果
天然方向和相反方向STAR66的活性对比结果示于图14。当STAR66呈相反方向时,只有一个克隆的产量相当高(60萤光素酶单位)。相反,当STAR66呈天然方向时,最高表达克隆的产量明显更高(100萤光素酶单位),而且可预测性也高得多:天然方向群体中有7个克隆(30%)表达萤光素酶的水平高于相反方向群体中的最高表达克隆的水平,而且天然方向群体中有15个克隆(60%)表达萤光素酶的水平高于10个相对萤光素酶单位。
实施例17:在STAR元件情况下的转基因表达依赖于拷贝数
用于异源蛋白表达的转基因表达单位通常整合进宿主细胞的基因组中,以保证在细胞分裂期间稳定保持。整合可以导致表达单位的一或多个拷贝插入基因组中;多个拷贝可以或不以串联阵列存在。由STAR元件保护的转基因已证实的产量增加提示STAR元件能使转基因表达单位不依赖于对与基因组中整合位点相关的转录的影响而起作用(不依赖于位置作用(Boivin&Dura,1998))。这进一步提示当STAR元件以串联产量阵列整合时,它们使每个表达单位均不依赖于邻近拷贝的表达单位而起作用(不依赖于重复诱导的基因沉默(Garric等,1998))。拷贝数依赖性从转基因表达水平与拷贝数之间的关系中确定,如以下实施例所述。
材料和方法
如前所述将U-2 OS细胞用pSDH-Tet-STAR10共转染并在嘌呤霉素选择下培养(如前)。分离八个克隆进一步培养,然后收获细胞,将一部分细胞如前所述进行萤光素酶活性分析。将剩余细胞裂解,使用DNeasy Tissue试剂盒(QIAGEN 69504)根据厂商指导纯化基因组DNA。通过UV分光光度计定量DNA样品。将3μg每种基因组DNA样品根据厂商指导用PvuII和XhoI消化过夜(New England Biolabs),通过琼脂糖凝胶电泳分辨。将DNA片段如前所述(Sambrook等,1989)移至一个尼龙膜上,并用针对萤光素酶基因放射性标记的探针(分离自BamHI/SacII-消化的pSDH-Tet)进行杂交。如前所述(Sambrook等,1989)洗涤印迹并对磷光图像屏曝光(PersonalF/X,BioRad)。所得放射自显影图(图15)通过光密度测定法分析以测定萤光素酶DNA条带的相对强度,其代表转基因拷贝数。
结果
来自pSDH-Tet-STAR10克隆群中的克隆中萤光素酶的酶活性和拷贝数(DNA条带密度)示于图16。在这些pSDH-Tet-STAR10克隆中,转基因拷贝数与萤光素酶表达水平高度相关(r=0.86)。这提示STAR10赋予转基因表达单位拷贝数依赖性,使转基因表达不依赖于串联阵列中其它转基因拷贝,及不依赖于在整合位点的基因沉默影响。
实施例18:STAR元件起增强子阻断子(blocker)而非增强子的作用
基因启动子引发转录的能力既受阳性影响又受阴性影响。发挥阳性影响的一类重要元件是增强子。增强子特征在于即使当它们位于远离(几千碱基对)启动子的位置时,也能影响启动子。由异染色质形成(例如Polycomb group蛋白)产生的阴性影响在上文已经描述,这些是STAR活性的靶位。增强子功能和异染色质形成的生物化学基础基本相似,因为它们均涉及蛋白质与DNA的结合。因此,重要的是测定STAR元件是否能阻断阳性影响以及阴性影响,换而言之,是否能保护转基因免受整合位点邻近的基因组增强子的作用。保护转基因免于增强子活性作用的能力保证转基因在生物技术应用中的稳定的和可预测的性能。这个实施例检测了STAR元件在增强子阻断分析中的性能。
STAR活性对其功能很重要的另一个特征是其赋予转基因以增加的产量(实施例11)。基于STAR在异染色质形成蛋白结合至候选STAR元件附近时保持zeocin高水平表达的能力而分离这些STAR。高水平表达是预期发生的,因为预期STAR阻断异染色质扩散至zeocin表达单位中。然而,另一种设想是zeocin-抗性克隆中的DNA片段含有增强子。已经证明增强子具有克服Polycomb-group蛋白如STAR筛选方法(Zink & Paro,1995)中使用的那些蛋白的阻抑作用的能力。通过这种现象分离的增强子被认为是假阳性的,因为增强子不具有本文指出的STAR的性质。为论证STAR元件不是增强子,在增强子分析中对它们进行了测试。
增强子阻断分析和增强子分析在方法学和概念上是相似的。所述分析图示于图17。STAR元件阻断增强子的能力使用E47/E-box增强子系统进行。E47蛋白当结合位于启动子邻近的E-box DNA序列时,能激活这些启动子的转录(Quong等,2002)。E47通常参与调节B和T淋巴细胞分化(Quong等,2002),但当异位表达时其能在不同细胞类型中起作用(Petersson等,2002)。E-box是一种回文DNA序列CANNTG(Knofler等,2002)。在增强子阻断分析中,将一个E-box置于表达载体中萤光素酶报道基因上游(包括最小启动子)。STAR元件的克隆位点置于E-box和启动子之间。E47蛋白在另一种质粒上编码。该分析通过将E47质粒和萤光素酶表达载体均转染进细胞中而进行;E47蛋白被表达并结合E-box,E47/E-box复合物能作为增强子。当萤光素酶表达载体不含有STAR元件时,E47/E-box复合物增强萤光素酶表达(图17A,实验情形1)。当STAR元件插入在E-box和启动子之间时,其阻断增强子的能力通过萤光素酶活性表达降低而证明(图17A,实验情形2);如果STAR不能阻断增强子,则萤光素酶表达被激活(图17A,实验情形3)。
STAR元件作为增强子的能力利用相同的萤光素酶表达载体测试。在不存在E47时,E-box自身不影响转录。反之,STAR元件的增强子行为将导致萤光素酶转录激活。该分析通过转染萤光素酶表达载体而不转染E47质粒进行。当表达载体不含有STAR元件时,萤光素酶表达很低(图17B,实验情形1)。如果STAR元件不具有增强子性质,当载体中存在STAR元件时,萤光素酶表达很低(图17B,实验情形2)。如果STAR元件具有增强子性质,在含有STAR的载体中萤光素酶表达将被激活(图17B,实验情形3)。
材料和方法
萤光素酶表达载体通过将来自质粒mu-E5+E2x6-cat(x)(Ruezinsky等,1991)的E-box和人碱性磷酸酶最小启动子插入质粒pGL3-basic(PromegaE1751)中萤光素酶基因的上游而构建,产生pGL3-E-box-luciferase(W.Romanow惠赠)。E47表达质粒含有在pHBAPr-1-neo质粒中β-肌动蛋白启动子控制下的E47开放读框;E47从该质粒中组成型表达(W.Romanow惠赠)。STAR元件1,2,3,6,10,11,18和27已经克隆进萤光素酶表达载体中。含有果蝇scs元件和鸡β-珠蛋白HS4-6x核心(“HS4”)元件的克隆作为阳性对照(已知其阻断增强子,而且无固有增强子性质(Chung等,1993,Kellum& Schedl,1992)),空萤光素酶表达载体作为阴性对照。所有分析均使用U-2 OS细胞系进行。在增强子阻断分析中,将E47质粒与萤光素酶表达载体(空载体,或者含有STAR或阳性对照元件)共转染。在增强子分析中,将E47质粒与不含STAR萤光素酶表达载体共转染,作为增强子活性的阳性对照;所有其它样品在共转染期间接受一种模拟质粒。在质粒转染后48小时对瞬时转染的细胞分析萤光素酶活性(如前所述)。减去不含E-box或STAR/对照元件的质粒表达的萤光素酶活性,并将萤光素酶活性根据蛋白质含量进行校正(如前所述)。
结果
图18示出增强子阻断分析结果。在不存在STAR元件(或已知增强子阻断元件scs和HS4)的情况中,E47/E-box增强子复合物激活萤光素酶的表达(“载体”);这种增强的表达水平校正为100。增强子活性由测试的所有STAR元件阻断。正如所预期的,增强子活性还由HS4和scs元件阻断(Bell等,2001,Gerasimova & Corces,2001)。这些结果表明除了其阻断转录沉默扩散的能力之外(阴性影响),STAR元件还能阻断增强子的作用(阳性影响)。
图19示出增强子分析结果。由E47/E-box复合物增强的萤光素酶表达水平设定为100(“E47”)。相比之下,无一STAR元件明显激活萤光素酶表达。正如所预期的,scs和HS4元件也不激活报道基因。因此总结出至少所测试的STAR元件不具有增强子性质。
实施例19:鉴定沉默诱导染色质(Silence Inducing Chromatin,SINC)元件
材料和方法
SINC筛选的一般特征如实施例1所描述,在此概括这种筛选的一些方面。用于筛选基因组DNA中SINC元件的一种pSS载体是pSS-codA∷upp(图20),其由两侧为STAR6元件的自杀基因表达单位组成。由在Tet-Off启动子控制下的codA∷upp自杀基因组成的表达单位,位于BglII限制位点下游。另一种pSS载体pSS-hrGFP(图21),通过用STAR8置换一个STAR6元件,及用编码绿色荧光蛋白的hrGFP基因(Stratagene 240059)置换自杀基因而产生。将来自22号染色体的人基因组DNA(Research Genetics 96010-22)用Sau3AI部分消化并按大小分级分离。将0.5-10kbp的级分连接进pSS-codA∷upp的BglII位点。这个文库代表具有平均插入大小为1.2kbp的约20,000个独立克隆。将此文库在大肠杆菌中扩增,通过标准技术(磷酸钙;Life Technologies 18306-019)将来自扩增的文库的纯化DNA转染进U-2 OS/Tet-Off细胞中(van der Vlag等,2000)。使用空pSS-codA∷upp载体DNA进行对照转染,产生2400个潮霉素抗性集落。将转染的细胞在高浓度强力霉素(10ng/ml)下,在3周时间选择潮霉素抗性(25mg/ml),并从文库转染中回收1800个潮霉素抗性集落。然后将这些集落在强力霉素浓度为10ng/ml下与1mg/ml前体药物5-胞嘧啶(5-FC)温育,在5mg/ml加强4天。3周后,仅有的3个微弱生长的对照集落(用空pSScodA∷upp转染)死亡;58个该文库转染的集落存活。自前体药物处理中回收这些集落并进一步培养。收获5-FC-抗性分离株,裂解细胞,并将一部分DNA使用引物D30和D51进行PCR扩增,以回收SINC元件。通过常规方法(Sambrook等,1989),将来自6个5-FC-抗性集落的PCR产物克隆在pBluescript II SK(+)质粒(Stratagene 212207)的HindIII和XhoI位点之间。如前所述使用商购的针对pBluescript载体的引物(Stratagene 300301和300302)确定候选SINC元件的DNA序列。这些SINC元件的序列示于表4B。
将6个候选SINC元件以其天然方向克隆入质粒pSS-hrGFP中,将所得质粒转染进U-2 OS/Tet-Off细胞中,在针对潮霉素抗性选择后,将pSS-hrGFP-SINC转染子在高浓度强力霉素(10ng/ml)下进一步培养。使用RNeasy Mini试剂盒(QIAGEN 74104)根据厂商指导提取总细胞DNA。使用标准技术(Sambrook等,1989)确定在这些群体中GFP mRNA丰度的Northern印迹分析。GFP探针为包含phrGFP-1中bp690-1419位的BamHI-EcoRI片段。对印迹也探查了作为PSS-hrGFP-衍生的质粒拷贝数的对照的潮霉素mRNA,及探查了作为基因组编码的mRNA数量的对照的β-肌动蛋白。潮霉素探针是pREP4(Invitrogen)中从bp8219延伸至10144位的SfuI-Sal I片段,β-肌动蛋白探针来自Clontech,#9800-1。在杂交和洗涤后,将印迹暴露于磷光成像屏,使用BioRad Personal F/X磷光成像仪观察放射性信号并定量。
结果
克隆在GFP报道基因邻近的SINC元件诱导报道基因转录沉默,但不影响其它基因转录。精确测定SINC活性利用这样的事实,即测定相对于两个参照基因的表达的GFP表达水平,而不是简单测定绝对GFP表达。一个参照基因是pSS-hrGFP质粒上的潮霉素抗性基因(在STAR元件限定的结构域之外;图21),另一个是基因组β-肌动蛋白基因。通过RNA印迹分析定量SINC活性为GFP信号与潮霉素和β-肌动蛋白信号比的降低。在已经鉴定的候选SINC元件中,一些元件显示出显著的GFP转录相对降低,表明这些DNA能诱导沉默染色质形成。SINC35元件(表4B中标为PSINKS35)在这些候选物中具有最强活性,其使GFP/潮霉素之比降低大约69%,及使GFP/β-肌动蛋白信号比降低75%。在最初申请中描述的其它5个候选物中及在该申请递交后分离并鉴定的一些其它候选SINC元件中,SINC活性的强度较低。因此,SINC35具有作为强遗传元件的优异性能,能在生物技术应用中诱导沉默染色质。
实施例20:STAR元件在小鼠和人之间是保守的
对人基因组数据库(http://genome.ucsc.edu/cgi-bin/hgGateway的STAR DNA序列)进行STAR DNA序列的BLAST分析表明这些序列中有一些与人基因组的其它区域具有高序列保守性。这些复制的区域是候选STAR元件;如果它们缺失显示STAR活性,则会被认为是克隆的STAR的横向同源物(如果两个基因或遗传元件衍生自一种复制事件则认为其是横向同源的(Li,1997))。
对小鼠基因组(http://www.ensembl.org/Mus_musculus/blastview)进行人STAR的BLAST分析,也揭示了在小鼠和人之间高度序列保守的区域。这种序列保守性在65个人STAR元件中的15个STAR元件的片段中示出。在141-909碱基对的长度上,保守范围是64%-89%(表8)。这些序列保守程度值得注意并提示这些DNA序列在小鼠基因组中也可能赋予STAR活性。表8中小鼠和人基因组的一些序列可以严格定义为直向同源(如果两个基因或遗传元件衍生自一种物种形成事件,在认为它们是直向同源的(Li,1997))。例如,STAR6在人和小鼠基因组中均在SLC8A1和HAAO基因之间。在其它情况中,一种克隆的人STAR在人基因组中具有横向同源物,其直向同源物在小鼠基因组中已经鉴别。例如STAR3a是人染色体15的15q11.2区域的一个片段,这个区域与人染色体5上在IL12B白细胞介素基因附近的5q33.3的DNA片段有96.9%相同(横向同源)。这些人DNA与小鼠染色体11上的11B2区域的一个片段呈现大约80%相同性。该11B2片段也位于(小鼠)IL12B白细胞介素基因附近。因此,STAR3a和小鼠11B2片段可以严格定义为横向同源物。为测试STAR活性在小鼠和人基因组中高序列保守的区域之间是共有的这一假说,将具有在小鼠中是保守的序列的一种人STAR,STAR18,进行更详细分析。用最初的STAR18克隆检测的小鼠基因组中序列保守性在人染色体2上向左延伸大约500碱基对(图22;左侧和右侧相对于染色体2臂的标准描述)。在这个实施例中,我们检测了序列保守区域是否定义了一个比最初的克隆更长的人类中“天然存在的”STAR元件。我们还检测了这种STAR元件的STAR功能在小鼠和人之间是否是保守的。
材料和方法
在STAR18周围的小鼠/人序列保守区域通过PCR扩增回收自人BAC克隆RP11-387A1,分为三个片段:完整区域(引物E93和E94),左侧一半(引物E93和E92),及右侧一半(引物E57和E94)。来自同源小鼠区域的相应片段以相同方式回收自BAC克隆RP23-400H17(分别使用引物E95和E98,E95和E96,及E97和E98)。将所有片段均克隆入pSelect载体中并转染进U-2OS/Tet-Off/LexA-HP1细胞系中(如前所述)。在转染后,进行潮霉素选择以选择转染的细胞。通过降低强力霉素浓度而诱导LexA-HP1蛋白,转染的细胞抵挡抗生素zeocin的能力(STAR活性的测定标准)通过监测细胞生长而确定。
结果
最初的STAR18克隆基于其防止zeocin抗性基因沉默的能力分离自连接进pSelect载体中的Sau3AI消化的人DNA。人STAR18克隆(497个碱基对)与小鼠基因组的序列对比表明在直向同源的人和小鼠STAR18区域之间有高度序列相似性(72%)。在延伸至Sau3AI位点左侧488个碱基对的区域中(克隆区域的左侧末端)也有高度相似性(73%)(图22)。在这些序列之外,人和小鼠DNA之间的序列相似性下降至60%之下。
如图22所示,人和小鼠STAR18元件均赋予表达lexA-HP1阻抑蛋白的宿主细胞以在zeocin上的存活能力。最初497个碱基对的STAR18克隆及其小鼠直向同源物均赋予所述生长能力(图22,a和d)。来自这两个基因组的具有高度相似性的相邻488个碱基对区域也赋予生长能力,而且事实上其生长表型比最初的STAR18克隆的表型更强(图22,b和e)。当测试序列相似性的完整区域时,小鼠和人的这些DNA均赋予生长能力,而且生长表型比两个亚片段更强(图22,c和f)。这些结果表明人STAR18的STAR活性在来自小鼠的直向同源物中是保守的。这些这些直向同源区之间的高度序列保守性是特别值得注意的,因为它们不是蛋白质编码序列,由此得出结论,它们具有某些防止其通过突变而进化分歧的调节功能。
这个分析表明由最初筛选程序鉴别的克隆STAR元件在一些情况中可能是部分STAR元件,而且对含有其的基因组DNA进行分析可以鉴别具有更强STAR活性的序列。
实施例21:STAR元件含有特征性DNA序列基序
STAR元件基于其对转基因表达的抗阻抑表型而分离。这种抗阻抑表型反映了调节与STAR元件相关的染色质形成的潜在生物化学过程。这些过程典型地是序列特异性的,而且得自蛋白质结合或DNA结构。这提示STAR元件会共享DNA序列相似性。在STAR元件中序列相似性的鉴别将提供特征性序列基序,其是已经通过功能筛选和测试鉴别的元件所特有的。所述序列基序也可用于识别和要求保护功能与本专利的权利要求相符的新的STAR元件。所述功能包括改善在真核宿主细胞中表达的转基因的产量和稳定性。
鉴别STAR元件特有的序列基序的其它益处包括:(1)提供预测及鉴别基因组数据库中新STAR元件的检索基序,(2)提供修饰所述元件的基本原理,(3)提供用于STAR活性功能分析的信息。使用生物信息学,已经鉴别了STAR元件中的序列相似性;结果在这个实施例中给出。
生物信息学和统计学背景:调节性DNA元件典型地通过与序列特异性DNA结合蛋白的相互作用而发挥功能。对调节特性已经鉴别但相互作用蛋白未知的DNA元件如STAR元件进行生物信息学分析,需要一种统计法以鉴别序列基序。这可以通过一种方法实现,即检测与参比序列(例如完整人基因组)相比,在一系列调节DNA元件(例如STAR元件)中过量存在的短DNA序列模式。所述方法确定了观测的及预期的该模式在每个调节元件中的出现次数。预期的出现次数从在参比序列中观测的每种模式出现次数中计算。
DNA序列模式可以是给定长度的寡核苷酸,例如6个碱基对。在最简单的分析中,对于由四个核苷酸(A,C,G和T)组成的6个碱基对寡核苷酸(六聚体),有4^6=4096种不同的寡核苷酸(从AAAAAA至TTTTTT的所有组合)。如果调节和参比序列是完全随机的而且具有等比例的A,C,G和T核苷酸,则每种六聚体的预期频率是1/4096(~0.00024)。然而,在参比序列中每种六聚体的实际出现频率典型地与此不同,这是由于G:C碱基对等的含量不同所致。因此,参比序列中每个寡核苷酸的出现频率通过计数而经验性确定,产生这些模式的“频数表(frequency table)”。
参比序列的模式频数表然后用于计算在调节元件集中每种模式的预期出现频率。将模式的预期出现频率与观测的出现频率对比。鉴别了在该调节元件集中“过量存在(over-represented)”的模式;例如如果六聚体ACGTGA在20kbp的序列中预期出现5次,但观测到出现15次,则其是三倍过量存在的。如果调节元件具有与完整基因组相同的六聚体组分,则预期该六聚体序列模式15次出现中有10次不应出现在所述元件中。一旦鉴别出过量存在模式,则应用一统计学检验确定其过量存在是否显著义,或者也许是由于机会所致。对于该检验,对每种模式均计算一个显著性指数“sig”。该显著性指数得自每种模式的出现概率,其是通过二项分布估算的。该概率考虑到可能存在的模式数(对六聚体有4096个)。最高的sig值相当于最过量存在的寡核苷酸(van Helden等,1998)。实际上,sig>=0的寡核苷酸被认为是过量存在的。sig>=0的模式可能会由于机会而在调节元件序列集过量存在一次(=10^0)。然而,sig>=1的模式预期在10个(=10^1)序列集中这样过量存在一次,sig>=2的模式预期在100个(=10^2)序列集中这样过量存在一次,等等。在调节元件集中显著过量存在的模式用于开发一种模型,以分类和预测调节元件序列。这应用的是判别分析,一种本领域技术人员已知的所谓统计学分类 “监督”方(Huberty,1994)。在判别分析中,已知的或分类的项目(例如STAR元件)集用于“训练”一种模型以基于特异性变量(例如序列模式如六聚体)识别那些项目。然后将训练的模型用于预测其它项目是否应分类为属于已知项目集(例如是一个DNA序列,一种STAR元件)。在本实施例中,训练集中已知项目是STAR元件(阳性训练集)。它们与从基因组中随机选择的与STAR元件等长的序列(阴性训练集)相反。判别分析建立了标准,用于基于辨别阳性的变量集将阳性与阴性区分开;在本实施例中,所述变量是显著过量存在的模式(例如六聚体)。
当与训练集的大小相比,过量存在的模式数目较高时,该模型会由于过度训练而结果偏差。过度训练通过应用变量的一正向逐步选择而避免(Huberty,1994)。逐步判别分析的目的是选择在阳性和阴性之间提供最大判别性的变量的最小数目。该模型通过逐个评估变量将所述项目正确分类进阳性和阴性训练集中的能力而训练。持续进行直至在该模型中加入新的变量不会显著提高模型的预测能力(即直至分类误差率最小)。这个最佳化的模型然后用于测试,以预测“新”项目是阳性还是阴性的(Huberty,1994)。
在分类统计学中固有的是,对于复杂项目如DNA序列,阳性训练集的一些元件会被分类为阴性(假阴性),阴性训练集的一些成员会被分类为阳性(假阳性)。当一种训练模型用于测试新项目时,预期会发生相同类型的错误分类。在所述生物信息学方法中,第一个步骤,即模式出现频率分析将大的序列模式集(例如所有4096个六聚体)降低为较小的显著过量存在的模式集(例如100个六聚体);在第二个步骤中,逐步判别分析将过量存在的模式集降低为具有最大判别能力的那些模式的亚集(例如5-10个六聚体)。因此,这个方案提供了鉴别调节性DNA元件如STAR元件的简便及强有力标准。
DNA-结合蛋白可以基于它们占据的结合位点的类型而区分。一些蛋白质识别相邻的序列;针对这种类型蛋白质,长度为6个碱基对的寡核苷酸(六聚体)模式在生物信息学分析中富有成效(van Helden等,1998)。其它蛋白质结合序列dyad:在由非保守的定宽区域分隔的成对高保守三核苷酸之间进行接触(van Helden等,2000)。为鉴别STAR元件中可由dyad结合蛋白结合的序列,针对这类模式也进行出现频率分析,其中两个三核苷酸之间的间隔为0至20(即XXXN{0-20}XXX,其中X是组成三核苷酸的特异核苷酸,N是长度为0-20个碱基对的随机核苷酸)。Dyad频率分析的结果也用于上述线性判别分析。
材料和方法
使用最初专利申请中所述的遗传筛选方法,从人基因组DNA中初始分离了66种STAR元件并进行了详细鉴定(表6)。该筛选在通过Sau3AI消化的人基因组DNA构建的基因文库上进行,所述人基因组DNA纯化自胎盘(Clontech 6550-1)或者由细菌/P1(BAC/PAC)人工染色体携带。BAC/PAC克隆含有的基因组DNA来自染色体1的区域(克隆RP1154H19和RP3328E19),来自HOX同源异型基因簇(克隆RP1167F23,RP1170019和RP11387A1),或者来自人染色体22(Research Genetics 96010-22)。通过标准技术(Sambrook等,1989)将DNA按大小分级分离,并将0.5-2kb大小的级分连接入BamHI-消化的pSelect载体中。分离含有人基因组DNA的在低浓度强力霉素下赋予zeocin抗性的pSelect质粒,并在大肠杆菌中增殖。产生表6的STAR元件的筛选分析了大约1-2%的人基因组。
这66个质粒中的人基因组DNA插入体通过双脱氧方法测序(Sanger等,1977),使用Beckman CEQ2000自动DNA测序仪,根据厂商指导进行。简而言之,从大肠杆菌中纯化DNA,使用QIAprep SpinMiniprep和Plasmid Midi试剂盒进行(分别为QIAGEN 27106和12145)。在染料终止子存在下(CEQ染料终止子循环测序试剂盒,Beckman608000),使用相应于pSelect载体的通用寡核苷酸(引物D89和D95,表5)进行循环测序。使用BLAT(Basic Local Alignment Tool(Kent,2002);http://genome.ucsc.edu/cgi-bin/hgGateway;表6),将装配的STAR DNA序列定位于人基因组中(数据库建于2001年8月和12月)。总计组合的STAR序列包含85.6kbp,平均长度为1.3kbp。
区别人基因组DNA内STAR元件的序列基序通过如下生物信息学分析使用两步程序鉴别(见图23示意图)。该分析有两个输入数据集:(1)STAR元件的DNA序列(使用STAR1-STAR65;表6);及(2)人基因组的DNA序列(除了染色体1之外;由于其较大而不适合;对于dyad分析,使用人基因组DNA序列的一种随机亚集(约27Mb))。
模式出现频率分析:在该分析中第一个步骤使用RSA-Tools软件(调节序列分析工具;http://www.ucmb.ulb.ac.be/bioinformatics/rsa-tools/;参考文献(vanHelden等,1998,van Helden等,2000,van Helden等,2000)),以确定以下信息:(1)人基因组中所有dyad和六聚体寡核苷酸的出现频率;(2)65个STAR元件中所述寡核苷酸和dyad的出现频率;及(3)与基因组相比在STAR元件中过量存在的那些寡核苷酸和dyad的显著性指数。用随机从人基因组中(即从2689×10^3kbp中)选择的与表6所示STAR元件长度匹配的65种序列进行对照分析。
判别分析:将过量存在的寡核苷酸和dyad用于训练模型以通过线性判别分析(Huberty,1994)预测STAR元件。从在频率分析中过量存在的oligo或dyad中选择具有最高个体判别能力的50个模式进行变量预先选择。这些预选的变量然后用于在逐步线性判别分析中训练模型,以选择最具判别力的变量组合(Huberty,1994)。基于最小化分类误差率(假阴性分类百分率)进行变量选择。另外,预期的误差率通过应用相同的判别方法至对照的随机序列集而估算(最小化假阳性分类百分率)。
将来自判别分析训练期的预测模型以两种方式测试。首先,分类用于产生该模型的STAR元件和随机序列(训练集)。其次,分类19种候选STAR元件集合(如上所述通过zeocin选择新近克隆的)中的序列。这些候选STAR元件列于表11(SEQ ID:67-84)。
结果
用RSA-Tools对65个元件进行模式出现频率分析,使用人基因组作为参比序列。发现166个六聚体寡核苷酸在该STAR元件集中与在完整基因组中相比是过量存在的(sig>=0)(表9)。最显著的过量存在的寡核苷酸CCCCAC在这65个元件中出现107次,而预期是仅49次。其显著性系数为8.76;换而言之,其过量存在是由于随机机会所致的概率为1/10^8.76,即不到5亿分之一。
95个寡核苷酸的显著性系数大于1,因此在STAR元件中是高度过量存在的。在这些过量存在的寡核苷酸中,它们观测到的和预期的出现频率分别为6和1(针对Oligo 163,CGCGAA,sig=0.02)至133和95(针对Oligo120,CCCAGG,sig=0.49)。在预期出现频率中的差异反映了诸如人基因组的G:C含量这些因素。因此寡核苷酸出现次数的差异比其过量存在的重要性略小;例如Oligo 2(CAGCGG)是36/9=4倍过量存在的,这种过量存在是由于随机机会所致的概率是五千万之一(sig=7.75)。表9还示出了在其中每个过量存在的寡核苷酸被发现的STAR元件的数目。例如最显著性的寡核苷酸,Oligo1(CCCCAC),出现107次,但只在51个STAR元件中发现,即平均每个STAR出现两个拷贝。丰度最小的寡核苷酸,Oligo166(AATCGG),每个STAR平均出现一个拷贝(在11个STAR上出现13次);单一拷贝的寡核苷酸频繁出现,尤其是较低丰度Oligo。在另一个极端中,Oligo 4(CAGCCC)在发现其的那些STAR(37个STARs)中平均出现3次。分布最广泛的寡核苷酸是Oligo 120(CCCAGG),其在58个STAR上出现(平均每个STAR出现两次),分布最不广泛的寡核苷酸是Oligo 114(CGTCGC),其只在6个STAR上出现(平均每个STAR上只出现一次)。
dyad频率分析结果示于表10。与参比序序列相比,在STAR元件集中发现730个dyad是过量存在的(sig>=0)。最显著性过量存在的dyad,CCCN{2}CGG,在65个STAR元件中出现36次,但预期只出现7次。其显著性系数为9.31;换而言之,过量存在是由于机会所致的概率为1/10^9.31,即低于20亿分之一。
397个dyad的显著性系数高于1,因此在STAR元件中高度过量存在。在过量存在的dyad中,观测到的和预期的出现频率分别为9和1(针对5个dyad(编号为380,435,493,640和665))至118和63(针对编号30(AGGN{2}GGG),sig=4.44)。
对通过模式频率分析发现在STAR元件中过量存在的寡核苷酸和dyad,通过线性判别分析测试其判别能力。通过在50个最具判别力的寡核苷酸(表9)或dyad(10)模式中逐步选择最佳组合而训练判别模型。在掺入4个(dyad)或5个变量后,该模型达到最佳误差率。Oligo分析的判别变量为编号11,30,94,122和160(表9);dyad分析的变量为编号73,194,419和497(表10)。
然后将判别模型用于分类在训练集中的65个STAR元件及其相关随机序列。使用寡核苷酸变量的模型将65个STAR元件中的46个分类为STAR元件(真阳性);dyad模型将49个STAR元件分类为真阳性。组合起来,这两个模型将65个STAR元件的59个分类为STAR元件(91%;图24)。dyad模型假阳性率(随机序列分类为STAR)为7个,寡核苷酸模型为8个,两种模型组合预测为13个(20%)。表6中通过LDA未被分类为STAR的STAR元件为STAR 7,22,35,44,46和65。这些元件在功能性分析中呈现稳定抗阻抑物活性,因此它们通过LDA未被分类为STAR的事实提示它们代表另一类STAR元件。
这些模型然后用于分类表11所示测试集中19个候选STAR元件。dyad模型将这些候选STAR中的12个分类为STAR元件,寡核苷酸模型将其中14个分类为STAR。分类为STAR元件的组合候选物数目为15个(79%)。这低于用65个STAR的训练集获得的分类结果,原因有两个。首先,判别模型是用表6的65个STAR元件训练的,而且基于这个训练集的判别变量可能在测试集中的代表性不是很好。其次,测试集中候选STAR序列还未充分定性其体内功能,而且可能包括只具有微弱抗阻抑性质的元件。这个分析表明统计学方法对生物信息学分类STAR元件的能力。STAR序列含有许多dyad和六聚体寡核苷酸模式,它们在STAR序列中与在整体人基因组中相比是显著过量存在的。这些模式可能代表了赋予STAR活性的蛋白质的结合位点;在任何情况中其均形成一序列基序集,可以用于识别STAR元件序列。
使用这些模式通过判别分析识别STAR元件,高比例的通过本发明的遗传筛选获得的元件确实被分类为STAR。这反映了这些元件的根本序列及功能相似性。本发明所述方法(模式频率分析随后判别分析)的一个重要方面是可以反复进行;例如,通过在一个训练集中包括表11所示19个候选STAR元件和表6所示66个STAR元件,可以训练改良的判别模型。这种改良的模型然后可以用于分类其它候选调节元件如STAR。使用本发明的方法在体内大规模筛选基因组序列,组合反复的生物信息学分析,将提供一种判别STAR元件的手段,其渐进性接近元件的100%识别及预测,因为基因组是以其全部筛选的。STAR功能的这些严格和全面预测保证了所有人STAR元件均被识别,而且可用于改良转基因表达。
实施例22:从Arabidopsis thaliana中克隆和定性STAR元件
在转基因植物中转基因沉默在转录和转录后水平均可以出现(Meyer,2000,Vance & Vaucheret,2001)。在任一情况中,所需的转基因表达结果可能由于沉默而受损;低水平表达和转基因的不稳定性导致所需性状(例如有害物抗性)表达不足或者重组蛋白产量低下。还导致可预测性不足:以生物工程学有效水平表达转基因的转基因植物比例低下,从而必需费力及费用昂贵地筛选那些具有有益表达特征的转化个体。本实施例描述了从双子叶植物Arabidopsis thaliana中分离STAR元件,用于防止转基因植物中的转录性转基因沉默。在这个实施例中选择Arabidopsis是因为其是经充分研究的模型生物体:其具有小型基因组,适应遗传和重组DNA处理,而且其基因组已经测序(Bevan等,2001,Initiative,2000,Meinke等,1998)。
材料和方法:
基因组DNA如(Stam等,1998)所述分离自Arabidopsis thaliana生态型Columbia,并用MboI部分消化。通过琼脂糖凝胶电泳将消化的DNA按大小分级分离为0.5-2kbp,并从该凝胶中纯化(QIA quick凝胶提取试剂盒,QIAGEN 28706),随后连接入pSelect载体中(如前述)。如前述转染进U-2 OS/Tet-Off/LexA-HP1细胞系中,并在低浓度强力霉素下对zeocin抗性进行选择。从zeocin抗性克隆中分离质粒并再转染进U-2 OS/Tet-Off/LexA-HP1细胞系中。
如前述对在再转染时赋予zeocin抗性的Arabidopsis基因组DNA进行测序。通过BLAST分析((Altschul等,1990);URL http://www.ncbi.nlm.nih.gov/blast/Blast),将该DNA序列与Arabidopsis基因组序列进行对比。
通过逆转录PCR(RT-PCR)测定重组宿主细胞中潮霉素和zeocin抗性基因的mRNA水平,进一步测定STAR活性。将U-2OS/Tet-Off/lexA-HP1细胞系的细胞用含有Arabidopsis STAR元件,果蝇scs元件或不含有插入物的pSelect质粒转染(如前述)。将它们在高浓度强力霉素下,在潮霉素上培养2周,然后将强力霉素浓度降低为0.1ng/ml,以诱导lexA-HP1阻抑物蛋白。10天后,通过RNeasy mini试剂盒(QIAGEN 74104)根据厂商指导分离总RNA。使用RevertAidFirst Strand cDNA合成试剂盒(MBI Fermentas 1622),使用Oligo(dT)18引物,根据厂商指导合成第一链cDNA。将该cDNA等份在PCR反应中用作模板,使用引物D58和D80(针对zeocin标记),及D70和D71(针对潮霉素标记),及Taq DNA聚合酶(Promega M2661)。反应条件为94℃ 1分钟,54℃ 1分钟,72℃ 90秒,循环15-20次。这些条件产生输入RNA与PCR产物DNA之间的线性关系。该PCRT产物通过琼脂糖凝胶电泳解离,通过如述(Sambrook等,1989)经Southern印迹检测zeocin和潮霉素条带,使用用纯化的pSelect质粒产生的PCR产物作模板。zeocin和潮霉素信号比相应于zeocin基因的校正后的表达水平。
结果
pSelect载体中的Arabidopsis基因组DNA的文库包含大肠杆菌中69,000个原始克隆,其中80%携带插入体。插入体平均大小为大约1000碱基对;该文库因此代表大约40%的Arabidopsis基因组。
将这个文库的一部分(代表大约16%的Arabidopsis基因组)转染进U-2OS/Tet-Off/LexA-HP1细胞系中。利用潮霉素选择分离转染子,产生27,000个存活集落。然后将这些克隆在低浓度强力霉素下进行zeocin选择。将来自56个抗性集落的推测含有STAR的质粒在大肠杆菌中拯救,并再转染进U-2 OS/TeOff/LexA-HP1细胞中。44个这些质粒(测试质粒的79%)在低浓度强力霉素赋予宿主细胞zeocin抗性,表明该质粒携带STAR元件。这表明在人U-2 OS细胞中进行pSelect筛选对于从植物基因组DNA中检测STAR元件是高效的。
测定这44个候选STAR元件的DNA序列。其中35个鉴别为Arabidopsis细胞核基因组序列数据库中的单一基因座(表12;SEQ ID:85-SEQ ID:119)。4个鉴别为来自叶绿体基因组,4个是来自两个基因座的DNA片段嵌合体,1个在Arabidopsis基因组数据库中未发现。
使用RT-PCR分析,通过确定其防止zeocin抗性基因的转录阻抑的能力测试克隆的Arabidopsis STAR元件的强度。作为针对样品中输入RNA的对照,也测定针对每个STAR转染的潮霉素抗性基因的转录水平。这个分析针对12个Arabidopsis STAR元件进行。结果(图25)表明Arabidopsis STAR元件的保护zeocin抗性基因免于转录阻抑的能力高于果蝇scs元件(阳性对照)和空载体(“SV40”;阴性对照)。特别地,当lexA-HP1阻抑物表达时,STAR-A28和STAR-A30使zeocin抗性基因表达水平比SCS元件导致的水平高2倍(相对于潮霉素抗性基因mRNA的内部对照校正)。这些结果表明本发明的方法可以成功地应用于从除人之外的其它物种中回收STAR元件。其成功用于从植物基因组中回收STAR元件是特别重要的,因为其表明本发明方法可应用于广泛分类学范围,而且因为植物是生物工程发展的一个重要目标。
附图简述
图1:用于选择和鉴定STAR元件的质粒pSelect家族。在混栖的SV40启动子控制下的抗性标记(zeocin或嘌呤霉素)或报道基因(GFP或萤光素酶)邻近于两侧为AscI和HindIII位点的BamHI克隆位点。所述克隆位点的上游是lexA蛋白可以结合的lexA操纵子。嵌合的lexA-Polycomb group蛋白与操纵子的结合引起所述标记或报道基因的阻抑。在克隆位点插入的阻断阻抑的DNA片段通过标记或报道基因的持续表达而鉴别。所述质粒在培养的哺乳动物细胞中的附加型复制是由于oriP序列所致。
图2:用于测试STAR元件的质粒的pSDH家族。两个多克隆位点(MCSI和MCSII)位于报道基因(GFP或萤光素酶)两侧,其表达由上游启动子(CMV,Tet-off或SV40)驱动。将测试的STAR元件在MCSI和MCSII处插入。这些MCS含有单切的限制位点(MCSI:XhoI,NotI,EcoRI,和SalI;MCSII,HindIII,EcoRV,BglII和NheI)。该质粒在哺乳动物细胞基因组中随机整合后进行复制。
图3:过表达萤光素酶的克隆的比例。将U-2 OS人骨肉瘤细胞用pSDH质粒(含有在启动子控制下的萤光素酶报道基因)稳定转染,分离各个转染的克隆并培养。酶学测定萤光素酶表达。确定由含有无STAR的pSDH的克隆表达的萤光素酶平均水平(参比水平)。如果来自所有质粒集合的克隆其萤光素酶活性比参比水平高2倍以上,则认为其是“过表达的”。描绘了每个质粒集合中过表达克隆的百分数。
图4:过表达克隆的过表达倍数。在整合入基因组DNA中的含有STAR的pSDH质粒中的过表达范围通过将每个克隆的萤光素酶活性除以参比水平而测定。对于那些呈现显著表达的克隆(高于参比水平2倍以上),标注了其实际增加倍数;针对每个质粒绘出这些数据的最小值和中位值。
图5:过表达克隆的过表达倍数。在整合入基因组DNA中的含有STAR的pSDH质粒中的过表达范围通过将每个克隆的萤光素酶活性除以参比水平而测定。针对那些呈现显著表达的克隆(高于参考=比水平2倍以上),标注了其实际增加倍数;针对每个质粒绘出这些数据的最大值。
图6:用于选择和鉴定SINC元件的pSS(SINC-Select)质粒。codA∷upp自杀基因编码一种蛋白质,其将前体药物5-氟胞嘧啶转变为毒性药物5-氟尿嘧啶。通过降低四环素浓度进行诱导,宿主细胞变为对前体药物敏感。在克隆位点(BglII-XhoI)插入的具有沉默活性的基因组DNA片段将防止自杀基因表达并使得前体药物抗性集落形成。STAR元件在选择组分两侧以防止沉默的染色质扩散至该质粒的功能成分。该质粒由于oriP序列所致在培养的哺乳动物细胞中附加型复制。
图7:用于测试STAR活性的pSDH-CSP质粒。分泌型碱性磷酸酶(SEAP)到基因在CMV启动子控制下,嘌呤霉素抗性选择标记(puro)在SV40启动子控制下。在这两个基因两侧是可用于克隆STAR元件的多克隆位点。该质粒还具有用于在大肠杆菌中增殖的复制起点(ori)和氨苄青霉素抗性基因(ampR)。
图8:STAR6和STAR49改良了转基因表达的可预测性和产量。测定了用pSDH-CSP,pSDH-CSP-STAR6或pSDH-CSP-STAR49转染的CHO细胞从CMV启动子表达的SEAP。相对于单独的pSDH-CSP构建体,含有STAR的构建体赋予更高的可预测性和提高的产量。
图9:STAR6和STAR8改良了转基因表达的可预测性和产量。测定了用pSDH-CMV,pSDH-CMV-STAR6或pSDH-CMV-STAR8转染的U-2 OS细胞从CMV启动子表达的萤光素酶。相对于单独的pSDH-CMV构建体,含有STAR的构建体赋予更高的可预测性和提高的产量。
图10:STAR10和STAR27的最小基本序列。将STAR元件的一部分通过PCR扩增:STAR10用引物E23和E12扩增产生片段10A,用E13和E14扩增产生片段10B,及用E15和E16扩增产生片段10C。STAR27用引物E17和E18扩增产生片段27A,用E19和E20扩增产生片段27B,及用E21和E22扩增产生片段27C。将这些亚片段克隆入pSelect载体中。在转染进U-2OS/Tet-Off/LexA-HP1细胞中后,监测在存在zeocin情况下培养物的生长。生长速度在旺盛(+++)至低下(+/-)范围变化,同时一些培养物经zeocin处理不能存活(-),这是由于测试的DNA片段中缺乏STAR活性所致。
图11:STAR元件对SV40启动子的功能。将pSDH-SV40和pSDH-SV40-STAR6转染进人骨肉瘤U-2 OS细胞系中,在嘌呤霉素抗性克隆中分析STAR6保护或未保护基因免于沉默的萤光素酶表达。
图12:STAR对Tet-Off启动子的功能。将pSDH-Tet和pSDH-Tet-STAR6转染进人骨肉瘤U-2 OS细胞系中,在嘌呤霉素抗性克隆中分析STAR6保护或未保护基因免于沉默的萤光素酶表达。
图13:STAR元件的方向示意图,它们保持其天然方向克隆入pSelect载体中(A组),保持其天然方向克隆入pSDH载体中(B组),及以相反方向克隆入pSDH载体中(C组)。
图14:STAR66功能的定向性(directionality)。将STAR66元件以天然方向(STAR66天然方向)或相反方向(STAR66相反方向)克隆入pSDH-Tet中,并转染进U-2 OS细胞中。在嘌呤霉素抗性克隆中分析萤光素酶活性。
图15:STAR功能的拷贝数依赖性。整合入U-2 OS基因组DNA中的pSDH-Tet-STAR10中的萤光素酶表达单位的Southern印迹。使用放射性萤光素酶DNA探针检测每个克隆基因组中转基因DNA的量,然后用磷光成像仪定量。
图16:STAR功能的拷贝数依赖性。通过磷光成像仪测定每个克隆中pSDH-Tet-STAR10表达单位的拷贝数,并与每个克隆表达的萤光素酶报道基因的活性对比。
图17:增强子阻断分析及增强子分析。图中示出用于测试STAR的增强子阻断及增强子活性的萤光素酶表达载体。E47增强子蛋白的E-box结合位点在STAR元件克隆位点的上游。STAR克隆位点的下游是在人碱性磷酸酶最小启动子(mp)控制下的萤光素酶基因。柱状图表示三种可能的实验情形的预期结果(见正文)。A组:增强子阻断分析。B组:增强子分析。
图18:增强子阻断分析。萤光素酶从最小启动子的表达由空载体(载体)中的E47/E-box增强子激活。插入增强子阻断子(scs,HS4)或STAR元件(STAR元件1,2,3,6,10,11,18和27)阻断了E47/E-box增强子对萤光素酶的激活。
图19:增强子分析。萤光素酶从最小启动子的表达由空载体(E47)中的E47/E-box增强子激活。插入scs和HS4元件或各种STAR元件(STARs 1,2,3,6,10,11,18和27)不激活报道基因的转录。
图20:用于分离SINC元件的pSS-codA∷upp载体。codA∷upp自杀基因编码一种蛋白质,其使前体药物5-氟胞嘧啶转变为毒性药物5-氟尿嘧啶。在降低强力霉素浓度加以诱导时,宿主细胞变为对前体药物敏感。在BglII克隆位点插入的具有沉默活性的基因组DNA片段防止自杀基因表达并使前体药物抗性集落形成。STAR元件在选择成分两侧以防止沉默的染色质扩散至该质粒的功能成分。在转染进哺乳动物细胞后,用潮霉素抗性基因选择该质粒,并在转化入大肠杆菌后用氨苄青霉素抗性基因选择。其在培养的哺乳动物细胞中由于oriP和EBNA-1序列而附加型复制,在大肠杆菌细胞中由于ori序列而附加型复制。
图21:pSS-hrGFP质粒与pSS-codA∷upp质粒相同,除了用hrGFP(编码绿色荧光蛋白)置换自杀基因及用GFP报道基因下游的STAR8置换STAR6之外。
图22:STAR18序列在小鼠和人之间的保守性。图中示出含有497个碱基对STAR18的人基因组区域(黑框);该元件在人染色体2上HOXD8与HOXD4同源框基因之间存在。其与小鼠染色体2中的一个区域相比呈现72%序列相同性。在STAR18左侧的人染色体2的区域与小鼠染色体2也是高度保守的(73%相同性;灰色框);在这些区域之外,相同性降至60%以下。图中示出了来自人和小鼠的这些区域分别或组合赋予在zeocin之上生长的能力:-,不生长;+,中等生长;++,旺盛生长;+++,迅速生长。
图23:生物信息学分析流程的示意图。详细内容见正文。
图24:对65个STAR元件组成的训练集的分类的判别分析结果。通过逐步线性判别分析(LDA)正确分类为STAR的STAR元件示于Venn图表。从六聚体寡核苷酸(Oligo)和Dyad的频率分析结果中选择LDA的变量。图中示出两个变量集在正确分类STAR中的一致性。
图25:用候选Arabidopsis STAR元件转染并在低强力霉素浓度下培养的U-2 OS/Tet-Off/lexA-HP1细胞。分离总RNA并进行RT-PCR;通过Southern印迹检测相应于zeocin和潮霉素抗性mRNA的条带,并用磷光成像仪定量。zeocin与潮霉素的信号比示出含有两侧为12种不同的Arabidopsis STAR元件、果蝇scs元件或没有侧翼元件的zeocin表达单位的转染子。
图26:包含STAR1-STAR65的序列(SEQ ID:1-65)
包含STAR66和测试集的序列(SEQ ID:66-84)
包含Arabidopsis STAR A1-A35的序列(SEQ ID:85-119)。
参考文献
Altschul,S.F.和Gish,W(1996),局部序列对比统计,酶学方法266,460-480。
Altschul,S.F.,Gish,W.,Miller,W.,Myers,E.W.和Lipman,D.J.(1990),基本局部序列对比研究工具,分子生物学杂志215,403-410。
Bell,AC,West,AG和Felsenfeld,G.(2001),绝缘体和边界:真核生物基因组中的通用调节元件,科学291,447-50。
Bennett,R.P.,Cox,C.A.和Hoeffler,J.P.(1998),绿色荧光蛋白与Zeocin抗性标记的融合可以目测筛选及药物学筛选转染的真核细胞,生物技术24,478-482。
Berger,J,Hauber,J,Hauber,R,Geiger,R和Cullen,BR.(1988),分泌的胎盘碱性磷酸酶:基因在真核细胞中表达的一种有力的新的定量指示元件,基因66,1-10。
Bevan,M,Mayer,K,White,O,Eisen,JA,Preuss,D,Bureau,T,Salzberg,SL,和Mewes,HW.(2001),Arabidopsis基因组的序列和分析,植物生物学通用观点4,105-10。
Bierhuizen,M.F.,Westerman,Y.,Visser,T.P.,Wognum,A.W.和Wagemaker,G.(1997),绿色荧光蛋白变体在造血祖细胞和细胞系中作为逆转录病毒介导的基因转移的标记物,生物化学生物生理学研究学会234,371-375。
Boivin,A和Dura,JM.(1998),与果蝇中基因沉默相关的体内染色质可接近性,遗传学150,1539-49。
Boshart,M,Weber,F,Jahn,G,Dorsch-Hasler,K,Fleckenstein,B,和Schaffner,W.(1985),一种极强增强子位于人巨细胞病毒立即早期基因上游,细胞41,521-30。
Breckenridge,D.G.和Shore,G.C.(2000),由E1A和Myconco蛋白调节细胞程序死亡,Crit Rev Eukaryot Gene Expr 10,273-280。
Bunker,C.A.和Kingston,R.E.(1994),在转染的哺乳动物细胞中果蝇和哺乳动物Polycomb组蛋白阻抑转录,分子细胞生物学14,1721-1732。
Cherry,J.R.,Lamsa,M.H.,Schneider,P.,Vind,J.,Svendsen,A.,Jones,A.和Pedersen,A.H.(1999),真菌过氧化酶的定向进化,自然生物技术17,379-384。
Chung,JH,Whiteley,M和Felsenfeld,G.(1993),一种鸡β球蛋白结构域的5’元件在人类红细胞中作为绝缘体并在果蝇中保护位置效应,细胞74,505-14。
Deuschle,U,Meyer,WK和Thiesen,HJ.(1995),真核启动子的四环素可逆沉默,分子细胞生物学15,1907-14。
Doll,R.F.,Crandall,J.E.,Dyer,C.A.,Aucoin,J.M.和Smith,F.I.(1996),使用AAV载体对比启动子对基因输送至哺乳动物脑细胞强度,基因治疗3,437-447。
Eissenberg,J.C.,James T.C.,Foster-Hartnett D.M.,Hartnett T.,Ngan V.和Elgin S.C.R.(1990),异染色质特异性染色体蛋白中的突变与中花斑位置效应的抑制相关,美国科学院院报87:9923-9927。
Feng,Y.Q.,Seibler,J.,Alami,R.,Eisen,A.,Westerman,K.A.,Leboulch,P.,Fiering,S.和Bouhassira,E.E.(1999),哺乳动物细胞中的位点特异性染色体整合:高效CRE重组酶介导的盒式交换,分子生物学杂志292,779-785。
Foecking,MK和Hofstetter,H.(1986),哺乳动物表达载体的有力的及通用的增强子启动子单位,基因45,101-5。
Garrick,D,Fiering,S,Martin,DI和Whitelaw,E.(1998),哺乳动物中重复诱导的基因沉默,自然遗传学18,56-9。
Gaszner,M.,Vazquez,J.和Schedl,P.(1999),Zw5蛋白,scs染色质结构域边界的一种成分,能阻断增强子启动子相互作用,基因进展13,2098-2107。
Gerasimova,T.I.和Corces,V.G.(1998),Polycomb和trithorax基团蛋白介导染色质绝缘体的功能,细胞92,511-521。
Gerasimova,TI和Corces,VG.(200 1),染色质绝缘体和边界:对转录及核机构的作用,Annu Rev Genet 35,193-208。
Gossen,M.和Bujard,H.(1992),通过四环素应答启动子紧紧控制哺乳动物中基因表达,美国科学院院报89,5547-5551。
Graham,F.L.和van der Eb,A.J.(1973),通过人腺病毒5的DNA转录大鼠细胞,病毒学54,536-539。
Heldin,C.H.,Johnsson,A.,Wennergren,S.,Wernstedt,C.,Betsholtz,C.和Westermark,B.(1986),人骨肉瘤细胞系分泌一种与PDGF A链ahomo二聚体结构相关的生长元件,自然319,511-514。
Henke,E.和Bornscheuer,U.T.(1999),来自Pseudomonasfluorescens的一种酯酶的定向进化,通过易错PCR或突变链随机诱变及通过基于aresorufin的荧光分析鉴别示出增强的nantio选择性的突变体,生物化学380,1029-1033。
Henthorn,P,Zervos,P,Raducha,M,Harris,H和Kadesch,T.(1988),人胎盘碱性磷酸酶基因在转染的细胞中的表达:用作报道基因以研究基因表达,美国科学院院报85,6342-6。
Higgins,D.G.,Thompson,J.D.和Gibson,T.J.(1996),使用CLUSTAL进行多重序列对比,酶学方法266,383-402。
Himes,S.R.和Shannon,M.F.(2000),基于萤光素酶报道基因分析转录活性,分子生物学方法130,165-174。
Huberty,CJ(1994),应用判别分析,Wiley和Sons,纽约
Initiative,AG.(2000),分析开花植物Arabidopsis thaliana的基因组序列,自然408,796-815。
Izumi,M和Gilbert,DM.(1999),哺乳动物成纤维细胞中同源四环素可调节基因表达,细胞生物化学杂志76,280-9。
Jung,R.,Soondrum,K.和Neumaier,M.(2000),定量PCR,临床化学实验室方法38,833-836。
Kain,SR.(1997),分泌的碱性磷酸酶在哺乳动物细胞中作为基因表达报道蛋白的应用,分子生物学方法63,49-60。
Kao,F.T.和Puck,T.T.(1968),哺乳动物体细胞遗传学,VII,在中国仓鼠细胞中诱导和分离营养突变体,美国科学院院报60,1275-81。
Kellum,R.和Schedl,P.(1992),在增强子阻断分析中作为结构域边界的一组scs元件,分子细胞生物学12,2424-2431。
Kent,WJ.(2002)BLAT——类似BLAST的一种序列对比工具,基因组研究12,656 64。
Knofler,M,Meinhardt,G,Bauer,S,Loregger,T,Vasicek,R,Bloor,DJ,Kimber,SJ和Husslein,P.(2002),人Handl碱性螺旋—环螺旋(bHLH)蛋白:胚胎外表达模式,相互作用配体及鉴别其转录阻抑物结构域,生物化学杂志361,641-51。
Li,W-H(1997)Molecular Evolution,Sinauer Associates,SunderlandMA.,Meinke,DW,Cherry,JM,Dean,C,Rounsley,SD和Koornneef,M.(1998),Arabidopsis thaliana:进行基因组分析的一种植物模型,科学282,662,679-82。
Litt,M.D.,Simpson,M.,Recillas-Targa,F.,Prioleau,M.N.和Felsenfeld,G.(2001),组蛋白乙酰化中的转换揭示三种个别调节的相邻基因座,EMBO杂志20,2224-2235。
Meyer,P.(2000),转录转基因沉默及染色质成分,植物分子生物学43,221-34。
Morgenstern,J.P.和Land,H.(1990),高级哺乳动物基因转移:具有多重药物选择标记和一种互补帮助游离包装细胞系的高滴定逆转录载体,核酸研究18,3587-3596。
Mullen,C.A.,Kilstrup,M.和Blaese,R.M.(1992),将胞嘧啶脱氨酶的细菌基因转移至哺乳动物细胞赋予对5-氟胞嘧啶的致死敏感性:一种阴性选择系统,美国科学院院报89,33-37。
Nan,X.,JavierCampoy,F.和Bird A.(1997),MeCP2是一种在基因组染色质中具有丰富激活位点的转录阻抑物,细胞88,471-481。
Petersson,K,Ivars,F和Sigvardsson,M.(2002),pT α启动子和增强子是E box结合蛋白的反式激活的直接靶位,欧洲免疫学杂志32,911-20。
Pazin,M.J.和Kadonaga,J.T.(1998),在体外装配的染色质的转录和结构分析,Gould,H.(编辑),染色质:实用方法,牛津大学出版社,Oxford,pp.172-194。
Pietersen,A.和H.M.Noteborn.(2000),Apoptin.Adv Exp MedBiol 465,153 161。
Quong,MW,Romanow,WJ和Murre,C.(2002),淋巴细胞发育中E蛋白功能,Annu Rev Immunol 20,301-22。
Ruezinsky,D,Beckmann,H和Kadesch,T.(1991),通过遗传转换调节IgH增强子的细胞类型特异性,基因进展5,29-37。
Saluz,H.P.和Jost,J.P.(1993),定性体内蛋白质-DNA相互作用的方法,Crit Rev Eukaryot Gene Expr,3,1-29。
Sambrook,J.,Frisch,E.F.和Maniatis,T.(1989),分子克隆实验手册,冷泉港实验室出版社,Plainview NY。
Sanger,F.,Nicken,S.和Coulson,A.R.(1977),用链终止抑制剂进行DNA测序,美国科学院院报74,5463-5467。
Simizu,B.,Rhim,J.S.和Wiebenga,N.H.(1967),定性虫媒病毒的Tacaribe组,I.Tacaribe病毒在非洲绿猴肾细胞系(Vero)中的增殖和噬斑分析,Proc Soc Exp Biol Med,125,119-123。
Smith,R.L.,Traul,D.L.,Schaack,J.,Clayton,G.H.,Staley,K.J.和Wilcox,C.L.(2000),在神经系统中定性启动子功能及从病毒载体中的细胞类型特异性表达,病毒学杂志74,11254 11261。
Stam,M,Viterbo,A,Mol,JN和Kooter,JM.(1998),在反向T DNA重复中转基因的位置依赖性甲基化和转录沉默:提示同源宿主基因在植物中的转录后沉默,分子细胞生物学18,6165-77。
Stull,R.A.,Hyun,W.C.和Pallavicini,M.G.(2000),在双转导的不成熟造血细胞群中,同时流式细胞计量分析增强的绿色和黄色荧光蛋白和细胞表面抗原,细胞计量术40,126-134。
Takada,T.,Iida,K.,Akasaka,K.,Yasue,H.,Torii,R.,Tsujimoto,G.,Taira,M.和Kimura,H.(2000),评估异源绝缘体在小鼠胚泡和胚胎中关于染色体位置作用的功能,MolReprod Dev,57,232-237。
Tanaka,S.,Livingstone-Zatchej,M.和Thoma,F.(1996),酵母基因在高分辨下的染色质结构提供了在染色体情况中对核小体结构和配置的认识,分子生物学杂志257,919-934。
Thomas,J.O.(1998),分离和分级分离染色质及接头组蛋白,Gould,H.(编辑)染色质:实用方法,牛津大学出版社,Oxford,pp.1-34。
Tiraby,M.,Cazaux,C.,Baron,M.,Drocourt,D.,Reynes,J.P.和Tiraby,G.(1998),大肠杆菌胞嘧啶脱氨酶和尿嘧啶转磷酸核糖基酶的伴随表达改良5-氟胞嘧啶的胞毒性,FEMS微生物学通讯167,41-49。
Umana,P,Jean-Mairet,J和Bailey,JE.(1999),在中国仓鼠卵巢细胞中糖基转移酶的四环素调节的过表达,生物技术生物工程65,542-9。
van der Vlag,J.,den Blaauwen,J.L.,Sewalt,R.G.,van Driel,R.和Otte,A.P.(2000),polycomb组蛋白及其它染色质相关的阻抑物介导的转录阻抑由绝缘体选择性阻断,生物化学杂志275,697-704。
van Helden,J,Andre,B和Collado-Vides,J.(1998),通过计算机分析寡核苷酸出现频率从酵母基因上游区域中提取调节位点,分子生物学杂志281,827-42。
van Helden,J,Andre,B和Collado-Vides,J.(2000),计算机分析酵母调节序列的web位点,酵母16,177-87。
van Helden,J,Rios,AF和Collado-Vides,J.(2000),通过分析间隔的dyad在非编码序列中揭示调节元件,核酸研究28,1808-18。
Vance,V和Vaucheret,H.(2001),植物中RNA沉默——防御和反防御,科学292,2277-80。
Wallrath,L.L.,Swede,M.J.和Elgin,S.C.R.(1998),在果蝇中作图染色质结构,Gould,H.(编辑),染色质:实用方法,牛津大学出版社,Oxford,pp.59-77。
Weaver,L.S.和Kadan,M.J.(2000),通过流式细胞计量术评估腺病毒载体,方法21,297-312。
Wei,K.和Huber,B.E.(1996),胞嘧啶脱氨酶基因作为阳性选择标记,生物化学杂志271,3812-3816。
Wigler,M,Pellicer,A.,Silverstein,S.和Axel,R.(1978),使用总细胞DNA作为供体经生物化学转移单拷贝真核基因,细胞14,725-731。
Wigley,P.,Becker,C.,Beltrame,J.,Blake,T.,Crocker,L.,Harrison,S.,Lyons,I.,McKenzie,Z.,Tearle,R.,Crawford,R.等人(1994),位点特异性转基因插入方法,Reprod Fertil Dev,6,585-588。
Xu,Z.Z.,Krougliak,V.,Prevec,L.,Graham,F.L.和Both,G.W.(1995),在用表达轮状病毒抗原VP7sc的人重组腺病毒感染的人和动物细胞中研究启动子功能,J Gen Virol,76,1971-1980。
Yang,TT,Sinai,P,Kitts,PA,和Kain,SR.(1997)用分泌型碱性磷酸酶报道基因系统量化基因表达,Biotechniques 23,1110-4。
Yin,D.X.,Zhu,L.,和Schimke R.T.(1996)四环素控制的基因表达系统实现高水平基因表达和定量控制,Analyt Biochem 235,195-201。
Zink,D,和Paro,R.(1995)果蝇Polycomb-group调控的染色质抑制反式激活物对其靶DNA的可及性,Embo J14,5660-71。
表1:STAR元件改善转基因表达 | |||
质粒 | 过表达克隆,% | 过表达倍数(范围) | 克隆数 |
空 | 12 | 3-11 | 25 |
SCS(阳性对照) | 24 | 3-160 | 21 |
STAR-6 | 62 | 2-200 | 26 |
STAR-3 | 39 | 5-820 | 23 |
STAR-8 | 63 | 7-315 | 19 |
STAR-4 | 31 | 25-1500 | 13 |
STAR-1 | 57 | 5-80 | 23 |
萤光素酶报道基因的表达在含有整合的、不具有STAR元件(“空”,阴性对照)或含有STAR元件(包括阳性对照元件,即来自果蝇的SCS)的pSDH质粒的细胞系中测定的。阴性对照的平均表达水平定义为参比水平,如果一个克隆的表达水平超出参比水平2倍以上则被认定是过表达的克隆。每一质粒的过表达克隆百分比和过表达倍数与所分析的每一质粒的克隆数一起报道。
表2:克隆的STAR元件
克隆 | 染色体位置1 | 相邻基因2 | 重复序列 |
STAR-1 | N.d. | ||
STAR-2. | N.d. | ||
STAR-3 | For5q33.3Rev10q22.2 | 组蛋白中的Chr10部分乙酰转移酶基因 | |
STAR-4 | For1p31.1Rev14q24.1 | 在G蛋白信号传导调节子的10kb内含子内无基因 | 83%重复LINE2 & LTRERV_Classl |
STAR-5 | For3q13.1Rev10q22.1* | ||
STAR-6 | 2p21 | L5kb未知的推定的激酶R20kb微管相关蛋白 | 19%SINE(MIR)29%LINE |
STAR-7 | 1q32.2 | 12%Alu 4%MIR(SINE)LINE12.5%L31CR111.5%MER17%低复杂性2% | |
STAR-8 | 9q32 | 含锌指蛋白的ZFP KRAB盒 | 35%ERV_ClassI(LTR)2%简单重复 |
STAR-9 | 见STAR-4 | ||
STAR-10 | N.d. | ||
STAR-11 | 2p25.1 | R15kb未知DNA结合蛋白抑制物(Myc型) | 12%Alu(SINE)26%MalRs(LINE) |
STAR-12 | 5q35.3 | R15kb未知ADAMTS2家族金属蛋白酶 | 3%低复杂性 |
STAR-13 | 见STAR-4和STAR-9 | ||
STAR-14 | FN.d.R20q13.33 | ||
STAR-15 | 1p36.36 | L6kb电压控制K通道亚基R4kb未知 | 14%LTR(MalRs) |
STAR-16 | F8p23.1R8p22etc. | 在测序部分无重复 | |
STAR-17 | 2q31.1 | L6kbBTEB1转录元件R40kbHNRNP | 10%简单和低复杂性 |
1染色体位置是通过将来自STAR克隆的DNA序列数据对人类基因组数据库进行BLAST检索而确定的。根据标准命名参照每一染色体的细胞遗传学标准图给出位置,例如1p2.3是1号染色体短臂的第二条细胞遗传学带的第三条细胞遗传学亚带(http://www.ncbi.nlm.nih.gov/Class/MLACourse/Genetics/chrombanding.html)。F代表正向测序反应结果;R代表反向测序反应结果;N.d.代表尚未确定。
2基于Human Genome Map View Build 22(http://www.ncbi.nlm.nih.gov/cgi-bin/Entrez/hum_srch?chr=hum_chr.inf&query April 2001).L代表左;R代表右*模糊位置,几个检索结果
表3:通过在pSS载体中选择而从人类22号染色体回收的SINC元件 | |||
SINC | 长度(nt) | 染色体位置1 | 注释 |
psinks 9 | 700 | 22q11.21 | 含有LTR;最近基因ZNF74,一种RNA结合蛋白。LTR重复性非常高 |
psinks 12 | 750 | 22q12.3 | 位于参与肿瘤形成的乙酰氨基葡糖转移酶样蛋白的内含子(664kb)中 |
psinks 19 | 600 | 22q13.1 | 位于几乎仅在脑中表达的钙通道的内含子中 |
psinks 28 | 950 | 22q13.31 | 位于未知功能的肾脏蛋白的内含子中 |
psinks 30 | 700 | 22q13.33 | 含有部分SINE |
psinks 35 | 650 | 22q11.21 | 覆盖溶质载体的外显子(线粒体的核基因) |
1染色体位置是通过将来自STAR克隆的DNA序列数据对人类基因组数据库进行BLAST检索而确定的。根据标准命名参照每一染色体的细胞遗传学标准图给出位置,例如1p2.3是1号染色体短臂的第二条细胞遗传学带的第三条细胞遗传学亚带(http://www.ncbi.nlm.nih.gov/Class/MLACourse/Genetics/chrombanding.html)。
表4A:各种star元件的一条链(正向)或另一条链(反向)的序列
STAR3正向
ACGTNCTAAGNAAACCATTATTATCATGACATTAACCTATAAAAATAGGC
GTATCACGAGGCCCTTTCGTCTTCACTCGAGCGGCCAGCTTGGATCTCGA
GTACTGAAATAGGAGTAAATCTGAAGAGCAAATAAGATGAGCCAGAAAAC
CATGAAAAGAACAGGGACTACCAGTTGATTCCACAAGGACATTCCCAAGG
TGAGAAGGCCATATACCTCCACTACCTGAACCAATTCTCTGTATGCAGATT
TAGCAAGGTTATAAGGTAGCAAAAGATTAGACCCAAGAAAATATAGAGAACT
TCCAATCCAGTAAAAATCATAGCAAATTTATTGATGATAACAATTGTCTCC
AAAGGAACCAGGCAGAGTCGTGCTAGCAGAGGAAGCACGTGAGCTGAAA
ACAGCCAAATCTGCTTTGTTTTCATGACACAGGAGCATAAAGTACACACCA
CCAACTGACCTATTAAGGCTGTGGTAAACCGATTCATAGAGAGAGGTTCT
AAATACATTGGTCCCTCATAGGCAAACCGCAGTTCACTCCGAACGTAGTC
CCTGGAAATTTGATGTCCAGNATAGAAAAGCANAGCAGNCNNNNNNTAT
ANATNNNGNTGANCCANATGNTNNCTGNNC
STAR3反向
GAGCTAGCGGCGCGCCAAGCTTGGATCCCGCCCCGCCCCCTCCGCCCTCG
AGCCCCGCCCCTTGCCCTAGAGGCCCTGCCGAGGGGCGGGGCCTGTCCC
TCCTCCCCTTTCCCCCGCCCCCTACCGTCACGCTCAGGGGCAGCCTGACC
CCGAGCGGCCCCGCGGTGACCCTCGCGCAGAGGCCTGTGGGAGGGGCGT
CGCAAGCCCCTGAATCCCCCCCCGTCTGTTCCCCCCTCCCGCCCAGTCTC
CTCCCCCTGGGAACGCGCGGGGTGGGTGACAGACCTGGCTGCGCGCCAC
CGCCACCGCGCCTGCCGGGGGCGCTGCCGCTGCCTGAGAAACTGCGGCT
GCCGCCTGGAGGAGGTGCCGTCGCCTCCGCCACCGCTGCCGCCGCCGCC
AGGGGTAGGAGCTAAGCCGCCGCCATTTTGTGTCCCCCTGTTGTTGTCGT
TGACATGAATCCGACATGACACTGATTACAGCCCAATGGAGTCTCATTAA
ACCCGAGTCGCGGTCCCGCCCCGCCGCTGCTCCATTGGAGGAGACCAAAG
ACACTTAAGGCCACCCGTTGGCCTACGGGTCTGTCTGTCACCCACTCACT
AACCACTCTGCAGCCCATTGGGGCAGGTTCCTGCCGGTCATNTCGCTTCC
AATAAACACACCCCTTCGACCCCATNATTCCCCCCCTTCGGGAACCACCC
CCGGGGGAGGGGTCCACTGGNCAATACCAATTNAANAGAACCGCTNGGG
TCCGCCTNTTTNCGGGCNCCCTATTGGGTT
STAR4正向
GGGGAGGATTCTTTTGGCTGCTGAGTTGAGATTAGGTTGAGGGTAGTGAA
GGTAAAGGCAGTGAGACCACGTAGGGGTCATTGCAGTAATCCAGGCTGG
AGATGATGGTGGTTCAGTTGGAATAGCAGTGCATGTGCTGTAACAACCTC
AGCTGGGAAGCAGTATATGTGGCGTTATGACCTCAGCTGGAACAGCAATG
CATGTGGTGGTGTAATGACCCCAGCTGGGTAGGGTGCATGTGATGGAACA
ACCTCAGCTGGGTAGCAGTGTACTTGATAAAATGTTGGCATACTCTACATT
TGTTATGAGGGTAGTGCCATTAAATTTCTCCACAAATTGGTTGTCACGTAT
GAGTGAAAAGAGGAAGTGATGGAAGACTTCAGTGCTTTTGGCCTGAATAA
ATAGAAGACGTCATTTTCAGTAATGGAGACAGGGAAGACTAANGNAGGGT
GGATTCAGTAGAGCAGGTGTTCAGTTTTGAATATGATGAACTCTGAGAGA
GGAAAAACTTTTTCTACCTCTTAGTTTTTGNGNCTGGACTTAANATTAAAG
GACATANGACNGAGANCAGACCAAATNTGCGANGTTTTTATATTTTACTT
GCNGAGGGAATTTNCAAGAAAAAGAAGACCCAANANCCATTGGTCAAAA
CTATNTGCCTTTTAANAAAAAGANAATTACAATGGANANANAAGTGTTGN
CTNGGCAAAAATTGGG
STAR4反向
GGATTNGAGCTAGCGGCGCGCCAAGCTTGGATCTTAGAAGGACAGAGTG
GGGCATGGAAATGCACCACCAGGGCAGTGCAGCTTGGTCACTGCCAGCTC
CNCTCATGGGCAGAGGGCTGGCCTCTGCAGCCGACCAGGCACTGAGCG
CCATCCCAGGGCCCTCGCCAGCCCTCAGCAGGGCCAGGACACACAAGCCT
TTGACTTCCTCCTGTCACTGCTGCTGCCATTCCTGTTTTGTGGTCATTCACT
CCTTCCCTGTCCTCAGACTGCCCAGCACTCAAGGATGTCCTGTGGTGGCA
TCAGACCATATGCCCCTGAANAGGAGTGAGTTGGTGTTTTTTGCCGCGCC
CANAGAGCTGCTGTCCCCTGAAAGATGCAAGTGGGAATGATGATGNTCAC
CATCNTCTGACACCAAGCCCTTTGGATAGAGGCCCCAACAGTGAGGGATGG
GGCTGCACTGCATTGCCAAGGCAACTCTGTNNTGACTGCTACANGACANT
CCCAGGACCTGNGAAGNNCTATANATNTGATGCNAGGCACCT
STAR6正向
CCACCACAGACATCCCCTCTGGCCTCCTGAGTGGTTTCTTCAGCACAGCTT
CCAGAGCCAAATTAAACGTTCACTCTATGTCTATAGACAAAAAGGGTTTTG
ACTAAACTCTGTGTTTTAGAGAGGGAGTTAAATGCTGTTAACTTTTTAGGG
GTGGGCGAGAGGAATGACAAATAACAACTTGTCTGAATGTTTTACATTTC
TCCCCACTGCCTCAAGAAGGTTCACAACGAGGTCATCCATGATAAGGAGT
AAGACCTCCCAGCCGGACTGTCCCTCGGCCCCCAGAGGACACTCCACAGA
GATATGCTAACTGGACTTGGAGACTGGCTCACACTCCAGAGAAAAGCATG
GAGCACGAGCGCACAGAGCANGGGCCAAGGTCCCAGGGACNGAATGTCT
AGGAGGGAGATTGGGGTGAGGGTANTCTGATGCAATTACTGNGCAGCTC
AACATTCAAGGGAGGGGAAGAAAGAAACNGTCCCTGTAAGTAAGTTGTNC
ANCAGAGATGGTAAGCTCCAAATTTNAACTTTGGCTGCTGGAAAGTTTNN
GGGCCNANANAANAAACANAAANATTTGAGGTTTANACCCACTAACCCN
TATNANTANTTATTAATACCCCTAATTANACCTTGGATANCCTTAAAATAT
CNTNTNAAACGGAACCCTCNTTCCCNTTTNNAAATNNNAAAGGCCATTN
NGNNCNAGTAAAAATCTNNNTTAAGNNNTGGGCCCNAACAAACNTNTTC
CNAGACACNTTTTTTNTCCNGGNATTTNTAATTTATTTCTAANCC
STAR6反向
ATCGTGTCCTTTCCAGGGACATGGATGAAGCTGGAAGCCATCATCCTCAG
CAAACTAACACAGGAACAGAAAACCAAATACCACATGTTCTCACTCATAAG
TGGGAGCTGAACAGTGAGAACACATGGACACAGGGAGGGGAACATGACA
CACCAAGGCCTGTCTGGTGTGGGGAGGGGAGGGAGAGCATCAGGACAAA
TAGCTAATGCATGTGGGGCTTAAACCTAGATGACGGGTTGATAGGTGCAG
CAATCCACTATGGACACATATACCTATGTAACAACCCNACCTTNTTGACAT
GTATCCCAGAACTTAAAGGAAAATAAAAATTAAAAAAAATTNCCCTGGAA
TAAAAAAGAGTGTGGACTTTGGTGAGATN
STAR8正向
GGATCACCTCGAAGAGAGTCTAACGTCCGTAGGAACGCTCTCGGGTTCAC
AAGGATTGACCGAACCCCAGGATACGTCGCTCTCCATCTGAGGCTTGNTC
CAAATGGCCCTCCACTATTCCAGGCACGTGGGTGTCTCCCCTAACTCTCC
CTGCTCTCCTGAGCCCATGCTGCCTATCACCCATCGGTGCAGGTCCTTTCT
GAANAGCTCGGGTGGATTCTCTCCATCCCACTTCCTTTCCCAAGAAAGAA
GCCACCGTTCCAAGACACCCAATGGGAGATTCCCNTTCCACCTCCTTNTC
NAAAGTTNGCCCAGGTGTTCNTAACAGGTTAGGGAGAGAANCCCCCAGG
TTTNAGTTNCAAGGCATAGGACGCTGGCTTGAACACACACACACNCTC
STAR8反向
GGATCCCGACTCTGCACCGCAAACTCTACGGCGCCCTGCAGGACGGCGGC
CTCCTGCCGCTTGGACGCCAGNCAGGAGCTCCCCGGCAGCAGCAGAGCA
GAAAGAAGGATGGCCCCGCCCCACTTCGCCTCCCGGCGGTCTCCCTCCCG
CCGGCTCACGGACATAGATGGCTGCCTAGCTCCGGAAGCCTAGCTCTTGT
TCCGGGCATCCTAAGGAAGACACGGTTTTTCCTCCCGGGGCCTCACCACA
TCTGGGACTTTGACGACTCGGACCTCTCTCCATTGAATGGTTGCGCGTTC
TCTGGGAAAG
STAR18正向
TGGATCCTGCCGCTCGCGTCTTAGTGTTTCTCCCTCAAGACTTTCCTTCTG
TTTTGTTGTCTTGTGCAGTATTTTACAGCCCCTCTTGTGTTTTTCTTTATTT
CTCGTACACACACGCAGTTTTAAGGGTGATGTGTGTATAATTAAAAGGAC
CCTTGGCCCATACTTTCCTAATTCTTTAGGGACTGGGATTGGGTTTGACTG
AAATATGTTTTGGTGGGGATGGGACGGTGGACTTCCATTCTCCCTAAACT
GGAGTTTTGGTCGGTAATCAAAACTAAAAGAAACCTCTGGGAGACTGGAA
ACCTGATTGGAGCACTGAGGAACAAGGGAATGAAAAGGCAGACTCTCTGA
ACGTTTGATGAAATGGACTCTTGTGAAAATTAACAGTGAATATTCACTGTT
GCACTGTACGAAGTCTCTGAAATGTAATTAAAAGTTTTTATTGAGCCCCCG
AGCTTTGGCTTGCGCGTATTTTTCCGGTCGCGGACATCCCACCGCGCAGA
GCCTCGCCTCCCCGCTGNCCTCAGCTCCGATGACTTCCCCGCCCCCGCCC
TGCTCGGTGACAGACGTTCTACTGCTTCCAATCGGAGGCACCCTTCGCGG
STAR18反向
TGGATCCTGCCGCTCGCGTCTTAGTGTTTCTCCCTCAAGACTTTCCTTCTG
TTTTGTTGTCTTGTGCAGTATTTTACAGCCCCTCTTGTGTTTTTCTTTATTT
CTCGTACACACACGCAGTTTTAAGGGTGATGTGTGTATAATTAAAAGGAC
CCTTGGCCCATACTTTCCTAATTCTTTAGGGACTGGGATTGGGTTTGACTG
AAATATGTTTTGGTGGGGATGGGACGGTGGACTTCCATTCTCCCTAAACT
GGAGTTTTGGTCGGTAATCAAAACTAAAAGAAACCTCTGGGAGACTGGAA
ACCTGATTGGAGCACTGAGGAACAAGGGAATGAAAAGGCAGACTCTCTGA
ACGTTTGATGAAATGGACTCTTGTGAAAATTAACAGTGAATATTCACTGTT
GCACTGTACGAAGTCTCTGAAATGTAATTAAAAGTTTTTATTGAGCCCCCG
AGCTTTGGC
表4B:各种sinc元件的序列
PSINKS 9
GATCAGGA TAATAAGTAC GCTGGGAAGA CAACAAAATG
ATTTAAATCT TAGACAAGTC ATTCTAGGTG TCTCCACTGT
TTCAGTTCTT GCATTCATTC TTGTGGTATC TTTTCCCTTT
TACCAATAAA AAAGCTCCCT GACATCACAT TGTGGCAGTC
CCCATGGTTT GCCGCAGTTA CTGCGGGACT GAACGAAGGA
GGACGAATGA AGAAATGAAA ACCAAGGAAA AAAGGAGCTG
TTTAAAGAAG GGTCCAGGGA AGAAGAAGAG GGCTCCCAGC
TTCTAGTGAG CAAGGGCAGC AGCCCTGAGC TTCTACAGCC
CTTCATATTT ATTGAGTAGA AAGAGCAGGG AGCAGGAGGT
AATGATTGGT CAGCTTCTCA ATTGATCACA GGTTCACATT
ATTGCTAACA GATTTCACAT GTGCCTAATC TCAAGAAACG
CCGCGCCTGG GGCATGACTG CCCTCAGCAT TCCCTCTGGG
TGGCAGACGC AGTTTGCCAA CATTCTGCAT TCATGAGAAC
AGTTTACTGT TTACTCATAT AACCTCCAGT GGTACACCGA
GTTGATC
PSINKS 12
GATCTAA TTTCTCTGTA TTTAATTCCC ATGTCTATTT
TGTCTATTTT CAAGATTGAT TTACATTGCA GGTTCCGATG
CAACCACTGA CTTACATTGC AGGTTCTAAT GTAACCACTG
TCCTTAACGA GTACATAGAT TTGTTTCCTT CTCTCCAGGA
GCATGAGATT TGTTGCCTCC AGGAAAGGCA ACAAATCTAC
TATTCCTTA AGGACAGTGG TTCTCAAAGG ATTGTCCTGG
GAACAGCAGC ATCACCTACA CAGTAGTTAG AAATGCACAT
TCTGAGGCCT CCCAAGACCT GCTAACTCAG ACACTTGGGG
AGAAGAAGGG GTTCCAACAA GCCTTCTAGG TCATTCTGAT
GCATGCTGGA GTTTGAGAAT CGATGCTCTA GGAAAAACAC
CAGTACTAT CTACCATCAA CTTGACCACT CAAGTGTCAC
CATTCACTGA AGTTTAACTA CAATGTCCAG AGAATTAATT
GTGTACCAGG CACTATGCGG AAGGCTGAAT GCTGCCTCAC
AATCCANAGT GGTATGTGTG TAAATGACTA AATAAAATGC
AAAATGGGAT GACATG
PSINKS 19
G ATCCTCCATC TGCTCCACCC ACTTCCATGT AAGTGATCCT
GGGCTGATCA CTTCCTCTCT CTAGACTTCG TTTCTTTTTT
TTCTTTTTTA GACCGAGTCT CACTCTGTCA CCCAGGCTGG
AGTGCAGTGG TGAGATCTTG GCTCACTGCA ACCTCCACCT
CCTGGGTTCA AGCAATTCTC CTGTCTCAGC CTCCTGAGTA
GATAGGACTA TAGGTGCACA CCACCATACC TAGCTAATTT
TTGTTTTTTT AGTAGAGATG GGGTTTCACC ATATTGGTCA
GCCTGTTCTC AAACTCCTGA CCTCAGGTGA TCCACCCACC
TCAGCCTCCC AAAGTGCTGG GATTACAGGT GTGAGCCACC
GAGCCGGGCT GCCCTTCTCT GGACTTTGAT TTCCTCATCT
ATAAAACAGA CAACAATCCC TACTATGACC ATCCAGAAGG
GTTAATCTAT GCTTCATTGC AATCCTAATC AAAAATCCCA
ACATTTTGGC CGTGGAGCCT GCCCAGATGG TTCTAGGATT
TATTTGGATG GGAAAATAGT CAAGACAAGC TT
PSINKS 28
GAT CATGGAGGGA GAGAACAACC AACCACACAC
TGACTGGTCA CCCCTGAAGT TCACAGCCAC TACCCTGTAG
AGGCCCCGAG GTTGCCGGCA AGCCCAGTAT ACTTCCATCT
AAACTCCCCT TGCACCTGCT CCTCCTGTTC CAGACAATGA
GCTGTAACAC GCACATCCAC ACCACACATC ACCCACAGCA
GGGGCAGGAG GCAGCTAAGC ATGGGCTTCA GAGTCCTCCC
ACCAGCAGCG CCTACCAGCT ACAAGCCTGA CGTCTCTGTG
TGTGTGTGTA AATTTCACTA AATATTTCTT CCTTTGTTTT
TTAAAAATTT ACATGAAATG CACATTTTTG CTGTGACAGA
AGCATGTAAC TGTGATCCTA ACACACCTAC TCCTCCGCCT
TTTACTGCCG TCTGCTTCCC TCTCTTCTCC ACGCCCACTC
GACTGCAGTA TCGATGCCAA CAACATGATG TGTGTCCTTC
CATGTTTCCC TGCTCATGCA TTCGCATGTA AGCCACCGCA
CATGTCACTG TATGTACACA CAGGGGATTC TGAGGCCAAT
GTTTTACAAG GATTACGTTA TACACCCTTT TCTGCAGTGA
GTTTTTCCCA GGCAACCTCC CAGGCCCCAT GGTGTAGCTC
TGGGTCAATC CTTTTTTTTT TTTTTGGAGA CAGAGTCTCA
CTCTGTCGCC CAGGCTGGAG TGCAGTGGTG CAATTTGGGC
TCACTGCAAC CTCCGCCTCC CGGGTTCAAG CGATTCTCCT
GCCTCAGCCT CCTGAGTAGC TGACATTACA AGCGCGCACT
ACCACACCCG GCTAATTTTT GTATTTTTAG TAGAGATACA
GTTTCACCAT GTTGGTCAGG CTGGTCTTGA ACTCCTGAGC
TCGTGATC
PSINKS 30
GATCC ACCCGCCTCG GACTCCCAAA GTGCTGGGAT
TACAGGTGTG AGCCACTGTG CTTGGCCCGA ATCAGGAATA
ATTCTGATGG CTAAGGAAGA CAGCTTCCGA GAGAGTAGGA
GAAAGGGCAC AGGATTCCAG GCAGAAGGCC CATCTAGGGC
AAAGGCGAAG GTGTGGCTCA GCCTGCCTCC TTTGGGGAAT
GGCGAGTGTG TTCTGGGCTC AGGGTTCTTG GTAAGGGACA
GAGAAGACTC GGGAAAGATC AGTTGAGCTG GAATGTGCAG
GCTCTTGAGT ACCCTGCTCA GGAGCTGGAG GTGGGCTACC
CTGCAAACTC CAGGCCATGA AGCCCAGGAA GATGTCAGGC
TGGTCTTCCC ATGCCCTTGT GTATCTGAGA CCAACTGTCA
CTAAATGTTT CCTTTACGCC CTGGACACAC AGCTAGACTC
TACTTCTCAG ATTCTCTTGA AATACAAGTC TTTAGCCAGA
GGGTGTGGAG GGAAATGCTG TGTATCACTT TGAGGTTGAG
GCCATCAAAG CCTCCCACAG GTGGCCCCCT CTTTCTCTCC
CCACGTACTT ATGATGTTGA TGCCCAAGGC AGCTTGAGTA
CTACCTGCTG AAGGCAGGGC CTCTGTCACC ATAGATC
PSINKS 35
GATCCAC CTGCCTCGGC CTCCCAAAGT GCTGGGATTA
CAGGCATGAG CCACCATGCC TGGCCAAAAA CTTCTACCTG
CTTGGAAAGT TGACTGGTCA CACAGCCTAG CAAATGAGGT
TGGGATGTGG GATGTGCCTG GTTCCAATCC CAGCCCTTTA
CTGTTCCCAT AGGAGGTGGG GACAGGCCTC ACCCAGGCGT
CCAGCATCCT GCAGCTGAAT CTTGAGCATT TCCATGGGAC
AGGTCACCAC GACCTGGCAC ATCCCAGCCC CACACCCGGC
AAGCATCTCC ATCTTCAGGT TCCGCTGCAT CCTATGGGAA
CAGGCGTCAG GCTCCTTCAG CCGCAGGCCA CAGGCCTGCC
CTGGTGCAGC TGCCCTCTTG TGAGAGGGGG ACTTCCCTG
GATGGCACCC GTGGCTGCCA CTCACCCAGC TGGTCAAGTC
ATCAGCTAGC CCTTAGGTGT GGTCTCTGTA CGGACAGGGG
ACTAAGTTTA AAACAAAGCC TGCTAGGGAG GTAGCACCGC
ATGGAAGCTG AAACAGTGAC AGAGAAAACT ACCCAGACCA
GGCGTTGTCC TTGATC
表5:用于聚合酶链反应(PCR物)或DNA诱变的寡核苷酸
编号 | 序列 |
C65 | AACAAGCTTGATATCAGATCTGCTAGCTTGGTCGAGCTGATACTTCCC |
C66 | AAACTCGAGCGGCCGCGAATTCGTCGACTTTACCACTCCCTATCAGTGATAGAG |
C67 | AAACCGCGGCATGGAAGACGCCAAAAACATAAAGAAAGG |
C68 | TATGGATCCTAGAATTACACGGCGATCTTTCC |
C81 | AAACCATGGCCGAGTACAAGCCCACGGTGCGCC |
C82 | AAATCTAGATCAGGCACCGGGCTTGCGGGTCATGC |
C85 | CATTTCCCCGAAAAGTGCCACC |
D30 | TCACTGCTAGCGAGTGGTAAACTC |
D41 | GAAGTCGACGAGGCAGGCAGAAGTATGC |
D42 | GAGCCGCGGTTTAGTTCCTCACCTTGTCG |
D51 | TCTGGAAGCTTTGCTGAAGAAAC |
D89 | GGGCAAGATGTCGTAGTCAGG |
D90 | AGGCCCATGGTCACCTCCATCGCTACTGTG |
D91 | CTAATCACTCACTGTGTAAT |
D93 | AATTACAGGCGCGCC |
D94 | AATTGGCGCGCCTGT |
D95 | TGCTTTGCATACTTCTGCCTGCCTC |
E12 | TAGGGGGGATCCAAATGTTC |
E13 | CCTAAAAGAAGATCTTTAGC |
E14 | AAGTGTTGGATCCACTTTGG |
E15 | TTTGAAGATCTACCAAATGG |
E16 | GTTCGGGATCCACCTGGCCG |
E17 | TAGGCAAGATCTTGGCCCTC |
E18 | CCTCTCTAGGGATCCGACCC |
E19 | CTAGAGAGATCTTCCAGTAT |
E20 | AGAGTTCCGGATCCGCCTGG |
E21 | CCAGGCAGACTCGGAACTCT |
E22 | TGGTGAAACCGGATCCCTAC |
E23 | AGGTCAGGAGATCTAGACCA |
E25 | CCATTTTCGCTTCCTTAGCTCC |
E42 | CGATGTAACCCACTCGTGCACC |
E57 | AGAGATCTAGGATAATTTCG |
E92 | AGGCGCTAGCACGCGTTCTACTCTTTTCCTACTCTG |
E93 | GATCAAGCTTACGCGTCTAAAGGCATTTTATATAG |
E94 | AGGCGCTAGCACGCGTTCAGAGTTAGTGATCCAGG |
E95 | GATCAAGCTTACGCGTCAGTAAAGGTTTCGTATGG |
E96 | AGGCGCTAGCACGCGTTCTACTCTTTCATTACTCTG |
E97 | CGAGGAAGCTGGAGAAGGAGAAGCTG |
E98 | CAAGGGCCGCAGCTTACACATGTTC |
D58 | CCAAGTTGACCAGTGCC |
D80 | GTTCGTGGACACGACCTCCG |
D70 | TACAAGCCAACCACGGCCT |
D71 | CGGAAGTGCTTGACATTGGG |
表6:本发明的STAR元件,包括基因组位置和长度
STAR | 位置1 | 长度2 |
1 | 2q31.1 | 750 |
2 | 7p15.2 | 916 |
33 | 15q11.2和10q22.2 | 2132 |
4 | 1p31.1和14q24.1 | 1625 |
54 | 20q13.32 | 1571 |
6 | 2p21 | 1173 |
7 | 1q34 | 2101 |
8 | 9q32 | 1839 |
94 | 10p15.3 | 1936 |
10 | Xp11.3 | 1167 |
11 | 2p25.1 | 1377 |
12 | 5q35.3 | 1051 |
134 | 9q34.3 | 1291 |
144 | 22q11.22 | 732 |
15 | 1p36.31 | 1881 |
16 | 1p21.2 | 1282 |
17 | 2q31.1 | 793 |
18 | 2q31.3 | 497 |
9 | 6p22.1 | 1840 |
20 | 8p13.3 | 780 |
21 | 6q24.2 | 620 |
22 | 2q12.2 | 1380 |
23 | 6p22.1 | 1246 |
24 | 1q21.2 | 948 |
255 | 1q21.3 | 1067 |
26 | 1q21.1 | 540 |
27 | 1q23.1 | 1520 |
28 | 22q11.23 | 961 |
29 | 2q13.31 | 2253 |
30 | 22q12.3 | 1851 |
31 | 9q34.11和22q11.21 | 1165 |
32 | 21q22.2 | 771 |
STAR | 位置1 | 长度2 |
33 | 21q22.2 | 1368 |
34 | 9q34.14 | 755 |
35 | 7q22.3 | 1211 |
36 | 21q22.2 | 1712 |
37 | 22q11.23 | 1331 |
38 | 22q11.1和22q11.1 | ~1000 |
39 | 22q12.3 | 2331 |
40 | 22q11.21 | 1071 |
41 | 22q11.21 | 1144 |
42 | 22q11.1 | 735 |
43 | 14q24.3 | 1231 |
44 | 22q11.1 | 1591 |
45 | 22q11.21 | 1991 |
46 | 22q11.23 | 1871 |
47 | 22q11.21 | 1082 |
48 | 22q11.22 | 1242 |
49 | Chr12随机克隆,以及3q26.32 | 1015 |
50 | 6p21.31 | 2361 |
51 | 5q21.3 | 2289 |
52 | 7p15.2 | 1200 |
53 | Xp11.3 | 1431 |
54 | 4q21.1 | 981 |
55 | 15q13.1 | 501 |
56 | 包括3p25.3 | 741 |
57 | 4q35.2 | 1371 |
58 | 21q11.2 | 1401 |
59 | 17随机克隆 | 872 |
60 | 4p16.1和6q27 | 2068 |
61 | 7p14.3和11q25 | 1482 |
62 | 14q24.3 | 1011 |
63 | 22q13.3 | 1421 |
64 | 17q11.2 | 1414 |
65 | 7q21.11=28.4 | 1310 |
66 | 20q13.33和6q14.1 | ~2800 |
1染色体位置是通过将来自STAR元件的DNA序列数据对人类基因组数据库进行BLAST检索而确定的。根据标准命名参照每一染色体的细胞遗传学标准图给出位置,例如1p2.3是1号染色体短臂的第二条细胞遗传学带的第三条细胞遗传学亚带(http://www.ncbi.nlm.nih.gov/Class/MLACourse/Genetics/chrombanding.html)。当正向和反向测序反应鉴别出来自不同基因组基因座的DNA时,示出两个基因座。
2精确长度通过DNA序列分析确定;大约长度通过限制酶切作图确定。
3STAR3的序列和位置根据表2和表4的组合进行调整。
4表2和表4中的具有这些编号的STAR已经被略去(以下称为“oldSTAR5”等),它们的编码被分配给DNA序列附录中示出的STAR元件。在oldSTAR5、oldSTAR14和oldSTAR16情况中,克隆的DNA是来自两个以上染色体位置的嵌合体;在oldSTAR9和oldSTAR13情况中,克隆的DNA与STAR4相同。
5与表4的“STAR18”相同。
表7:STAR元件赋予转基因表达以随时间的稳定性1
细胞分裂 2 萤光素酶表达 3STAR6加嘌呤霉素 42 18,00060 23,00084 20,000108 16,000STAR6不加嘌呤霉素4 84 12,000108 15,000144 12,000 |
1质粒pSDH-Tet-STAR6被转染进U-2 OS细胞,如实施例1所述在无强力霉素的培养基上分离和培养克隆。每周以1∶20稀释度将细胞转移至一新鲜培养瓶中。
2细胞分裂数基于一周中培养物达到细胞铺满(代表约6次细胞分裂)的估计数。
3萤光素酶如实施例1所述进行分析。
4在60次细胞分裂后,将细胞转移至两个培养瓶中,一个培养瓶中加入含嘌呤霉素的培养基,如第1个60次细胞分裂一样,第二个培养瓶中加入不含抗生素的培养基。
表8:人类STAR元件及其推定的小鼠直向同源物(orthologs)和横向同源物(paralogs)
SEQ ID | STAR | 人1 | 小鼠2 | 相似性3 |
1 | 1 | 2q31.1 | 2D | 600bp69% |
2 | 2 | 7p15.2 | 6B3 | 909bp89% |
3 | 3a | 5q33.3 | 11B2 | 248bp83% |
4 | 3b | 10q22.2 | 14B | 1.363bp89%2.163bp86% |
5 | 6 | 2p21 | 17E4 | 437bp78% |
6 | 12 | 5q35.3 | 11b1.3 | 796bp66% |
7 | 13 | 9q34.3 | 2A3 | 753bp77% |
8 | 1 8 | 2q31.3 | 2E1 | 497bp72% |
9 | 36 | 21q22.2 | 16C4 | 166bp79% |
10 | 40 | 22q11.1 | 6F1 | 1.270bp75%2.309bp70% |
11 | 50 | 6p21.31 | 17B1 | 1.451bp72%2.188bp80%3.142bp64% |
12 | 52 | 7p15.2 | 6B3 | 1.846bp74%2.195bp71% |
13 | 53 | Xp11.3 | XA2 | 364bp64% |
14 | 54 | 4q21.1 | 5E3 | 1.174bp80%2.240bp73%3.141bp67%4.144bp68% |
15 | 61a | 7p14.3 | 6B3 | 188bp68% |
1STAR元件在人类基因组中的细胞遗传学位置。
2STAR元件直向同源物在小鼠基因组中的细胞遗传学位置。
3显示高度序列相似性的区域长度,以及相似性百分比。在一些情况中,存在一个以上的高相似性序列模块,在这些情况中,分别描述每一序列模块。相似性<60%不被认为是显著的。
表9:在STAR元件中过量存在的寡核苷酸模式(6碱基对)
这些模式是根据显著性系数排列的。它们通过用RSA-Tools以人基因组作为参比而确定。包含在线性判别分析中最具判别性变量的模式以星号示出。
编号 | 寡核苷酸序列 | 观察到的存在 | 预期存在 | 显著性系数 | 匹配STAR数目 |
1 | CCCCAC | 107 | 49 | 8.76 | 51 |
2 | CAGCGG | 36 | 9 | 7.75 | 23 |
3 | GGCCCC | 74 | 31 | 7.21 | 34 |
4 | CAGCCC | 103 | 50 | 7.18 | 37 |
5 | GCCCCC | 70 | 29 | 6.97 | 34 |
6 | CGGGGC | 40 | 12 | 6.95 | 18 |
7 | CCCCGC | 43 | 13 | 6.79 | 22 |
8 | CGGCAG | 35 | 9 | 6.64 | 18 |
9 | AGCCCC | 83 | 38 | 6.54 | 40 |
10 | CCAGGG | 107 | 54 | 6.52 | 43 |
11 | GGACCC* | 58 | 23 | 6.04 | 35 |
12 | GCGGAC | 20 | 3 | 5.94 | 14 |
13 | CCAGCG | 34 | 10 | 5.9 | 24 |
14 | GCAGCC | 92 | 45 | 5.84 | 43 |
15 | CCGGCA | 28 | 7 | 5.61 | 16 |
16 | AGCGGC | 27 | 7 | 5.45 | 17 |
17 | CAGGGG | 86 | 43 | 5.09 | 43 |
18 | CCGCCC | 43 | 15 | 5.02 | 18 |
19 | CCCCCG | 35 | 11 | 4.91 | 20 |
20 | GCCGCC | 34 | 10 | 4.88 | 18 |
21 | GCCGGC | 22 | 5 | 4.7 | 16 |
22 | CGGACC | 19 | 4 | 4.68 | 14 |
23 | CGCCCC | 35 | 11 | 4.64 | 19 |
24 | CGCCAG | 28 | 8 | 4.31 | 19 |
25 | CGCAGC | 29 | 8 | 4.29 | 20 |
26 | CAGCCG | 32 | 10 | 4 | 24 |
27 | CCCACG | 33 | 11 | 3.97 | 26 |
28 | GCTGCC | 78 | 40 | 3.9 | 43 |
29 | CCCTCC | 106 | 60 | 3.87 | 48 |
30 | CCCTGC* | 92 | 50 | 3.83 | 42 |
31 | CACCCC | 77 | 40 | 3.75 | 40 |
32 | GCGCCA | 30 | 10 | 3.58 | 23 |
33 | AGGGGC | 70 | 35 | 3.55 | 34 |
34 | GAGGGC | 66 | 32 | 3.5 | 40 |
35 | GCGAAC | 14 | 2 | 3.37 | 13 |
36 | CCGGCG | 17 | 4 | 3.33 | 12 |
37 | AGCCGG | 34 | 12 | 3.29 | 25 |
38 | GGAGCC | 67 | 34 | 3.27 | 40 |
39 | CCCCAG | 103 | 60 | 3.23 | 51 |
40 | CCGCTC | 24 | 7 | 3.19 | 19 |
41 | CCCCTC | 81 | 44 | 3.19 | 43 |
42 | CACCGC | 33 | 12 | 3.14 | 22 |
43 | CTGCCC | 96 | 55 | 3.01 | 42 |
44 | GGGCCA | 68 | 35 | 2.99 | 39 |
45 | CGCTGC | 28 | 9 | 2.88 | 22 |
46 | CAGCGC | 25 | 8 | 2.77 | 19 |
47 | CGGCCC | 28 | 10 | 2.73 | 19 |
48 | CCGCCG | 19 | 5 | 2.56 | 9 |
49 | CCCCGG | 30 | 11 | 2.41 | 17 |
50 | AGCCGC | 23 | 7 | 2.34 | 17 |
51 | GCACCC | 55 | 27 | 2.31 | 38 |
52 | AGGACC | 54 | 27 | 2.22 | 33 |
53 | AGGGCG | 24 | 8 | 2.2 | 18 |
54 | CAGGGC | 81 | 47 | 2.18 | 42 |
55 | CCCGCC | 45 | 21 | 2.15 | 20 |
56 | GCCAGC | 66 | 36 | 2.09 | 39 |
57 | AGCGCC | 21 | 6 | 2.09 | 18 |
58 | AGGCCC | 64 | 34 | 2.08 | 32 |
59 | CCCACC | 101 | 62 | 2.05 | 54 |
60 | CGCTCA | 21 | 6 | 2.03 | 17 |
61 | AACGCG | 9 | 1 | 1.96 | 9 |
62 | GCGGCA | 21 | 7 | 1.92 | 14 |
63 | AGGTCC | 49 | 24 | 1.87 | 36 |
64 | CCGTCA | 19 | 6 | 1.78 | 14 |
65 | CAGAGG | 107 | 68 | 1.77 | 47 |
66 | CCCGAG | 33 | 14 | 1.77 | 22 |
67 | CCGAGG | 36 | 16 | 1.76 | 25 |
68 | CGCGGA | 11 | 2 | 1.75 | 8 |
69 | CCACCC | 87 | 53 | 1.71 | 45 |
70 | CCTCGC | 23 | 8 | 1.71 | 20 |
71 | CAAGCC | 59 | 32 | 1.69 | 40 |
72 | TCCGCA | 18 | 5 | 1.68 | 17 |
73 | CGCCGC | 18 | 5 | 1.67 | 9 |
74 | GGGAAC | 55 | 29 | 1.63 | 39 |
75 | CCAGAG | 93 | 58 | 1.57 | 49 |
76 | CGTTCC | 19 | 6 | 1.53 | 16 |
77 | CGAGGA | 23 | 8 | 1.5 | 19 |
78 | GGGACC | 48 | 24 | 1.48 | 31 |
79 | CCGCGA | 10 | 2 | 1.48 | 8 |
80 | CCTGCG | 24 | 9 | 1.45 | 17 |
81 | CTGCGC | 23 | 8 | 1.32 | 14 |
82 | GACCCC | 47 | 24 | 1.31 | 33 |
83 | GCTCCA | 66 | 38 | 1.25 | 39 |
84 | CGCCAC | 33 | 15 | 1.19 | 21 |
85 | GCGGGA | 23 | 9 | 1.17 | 18 |
86 | CTGCGA | 18 | 6 | 1.15 | 15 |
87 | CTGCTC | 80 | 49 | 1.14 | 50 |
88 | CAGACG | 23 | 9 | 1.13 | 19 |
89 | CGAGAG | 21 | 8 | 1.09 | 17 |
90 | CGGTGC | 18 | 6 | 1.06 | 16 |
91 | CTCCCC | 84 | 53 | 1.05 | 47 |
92 | GCGGCC | 22 | 8 | 1.04 | 14 |
93 | CGGCGC | 14 | 4 | 1.04 | 13 |
94 | AAGCCC* | 60 | 34 | 1.03 | 42 |
95 | CCGCAG | 24 | 9 | 1.03 | 17 |
96 | GCCCAC | 59 | 34 | 0.95 | 35 |
97 | CACCCA | 92 | 60 | 0.93 | 49 |
98 | GCGCCC | 27 | 11 | 0.93 | 18 |
99 | ACCGGC | 15 | 4 | 0.92 | 13 |
100 | CTCGCA | 16 | 5 | 0.89 | 14 |
101 | ACGCTC | 16 | 5 | 0.88 | 12 |
102 | CTGGAC | 58 | 33 | 0.88 | 32 |
103 | GCCCCA | 67 | 40 | 0.87 | 38 |
104 | ACCGTC | 15 | 4 | 0.86 | 11 |
105 | CCCTCG | 21 | 8 | 0.8 | 18 |
106 | AGCCCG | 22 | 8 | 0.79 | 14 |
107 | ACCCGA | 16 | 5 | 0.78 | 13 |
108 | AGCAGC | 79 | 50 | 0.75 | 41 |
109 | ACCGCG | 14 | 4 | 0.69 | 7 |
110 | CGAGGC | 29 | 13 | 0.69 | 24 |
111 | AGCTGC | 70 | 43 | 0.64 | 36 |
112 | GGGGAC | 49 | 27 | 0.64 | 34 |
113 | CCGCAA | 16 | 5 | 0.64 | 12 |
114 | CGTCGC | 8 | 1 | 0.62 | 6 |
115 | CGTGAC | 17 | 6 | 0.57 | 15 |
116 | CGCCCA | 33 | 16 | 0.56 | 22 |
117 | CTCTGC | 97 | 65 | 0.54 | 47 |
118 | AGCGGG | 21 | 8 | 0.52 | 17 |
119 | ACCGCT | 15 | 5 | 0.5 | 11 |
120 | CCCAGG | 133 | 95 | 0.49 | 58 |
121 | CCCTCA | 71 | 45 | 0.49 | 39 |
122 | CCCCCA* | 7 | 49 | 0.49 | 42 |
123 | GGCGAA | 16 | 5 | 0.48 | 14 |
124 | CGGCTC | 29 | 13 | 0.47 | 19 |
125 | CTCGCC | 20 | 8 | 0.46 | 17 |
126 | CGGAGA | 20 | 8 | 0.45 | 14 |
127 | TCCCCA | 95 | 64 | 0.43 | 52 |
128 | GACACC | 44 | 24 | 0.42 | 33 |
129 | CTCCGA | 17 | 6 | 0.42 | 13 |
130 | CTCGTC | 17 | 6 | 0.42 | 14 |
131 | CGACCA | 13 | 4 | 0.39 | 11 |
132 | ATGACG | 17 | 6 | 0.37 | 12 |
133 | CCATCG | 17 | 6 | 0.37 | 13 |
134 | AGGGGA | 78 | 51 | 0.36 | 44 |
135 | GCTGCA | 77 | 50 | 0.35 | 43 |
136 | ACCCCA | 76 | 49 | 0.33 | 40 |
137 | CGGAGC | 21 | 9 | 0.33 | 16 |
138 | CCTCCG | 28 | 13 | 0.32 | 19 |
139 | CGGGAC | 16 | 6 | 0.3 | 10 |
140 | CCTGGA | 88 | 59 | 0.3 | 45 |
141 | AGGCGA | 18 | 7 | 0.29 | 17 |
142 | ACCCCT | 54 | 32 | 0.28 | 36 |
143 | GCTCCC | 56 | 34 | 0.27 | 36 |
144 | CGTCAC | 16 | 6 | 0.27 | 15 |
145 | AGCGCA | 16 | 6 | 0.26 | 11 |
146 | GAAGCC | 62 | 38 | 0.25 | 39 |
147 | GAGGCC | 79 | 52 | 0.22 | 42 |
148 | ACCCTC | 54 | 32 | 0.22 | 33 |
149 | CCCGGC | 37 | 20 | 0.21 | 21 |
150 | CGAGAA | 20 | 8 | 0.2 | 17 |
151 | CCACCG | 29 | 14 | 0.18 | 20 |
152 | ACTTCG | 16 | 6 | 0.17 | 14 |
153 | GATGAC | 48 | 28 | 0.17 | 35 |
154 | ACGAGG | 23 | 10 | 0.16 | 18 |
155 | CCGGAG | 20 | 8 | 0.15 | 18 |
156 | ACCCAC | 60 | 37 | 0.12 | 41 |
157 | CTGGGC | 105 | 74 | 0.11 | 50 |
158 | CCACGG | 23 | 10 | 0.09 | 19 |
159 | CGGTCC | 13 | 4 | 0.09 | 12 |
160 | AGCACC* | 54 | 33 | 0.09 | 40 |
161 | ACACCC | 53 | 32 | 0.08 | 38 |
162 | AGGGCC | 54 | 33 | 0.08 | 30 |
163 | CGCGAA | 6 | 1 | 0.02 | 6 |
164 | GAGCCC | 58 | 36 | 0.02 | 36 |
165 | CTGAGC | 71 | 46 | 0.02 | 45 |
166 | AATCGG | 13 | 4 | 0.02 | 11 |
表10:在STAR元件中过量存在的Dyad模式(6碱基对)
这些模式是根据显著性系数排列的。它们通过用RSA-Tools以人基因组作为参比而确定。包含在线性判别分析中最具判别性变量的模式以星号示出。
编号 | Dyad序列 | 观察到的存在 | 预期存在 | 显著性系数 |
1 | CCCN{2}CGG | 36 | 7 | 9.31 |
2 | CCGN{6}CCC | 40 | 10 | 7.3 |
3 | CAGN{0}CGG | 36 | 8 | 7.13 |
4 | CGCN{15}CCC | 34 | 8 | 6.88 |
5 | CGGN{9}GCC | 33 | 7 | 6.82 |
6 | CCCN{9}CGC | 35 | 8 | 6.72 |
7 | CCCN{1}GCG | 34 | 8 | 6.64 |
8 | CCCN{0}CAC | 103 | 48 | 6.61 |
9 | AGCN{16}CCG | 29 | 6 | 5.96 |
10 | CCCN{4}CGC | 34 | 8 | 5.8 |
11 | CGCN{13}GGA | 26 | 5 | 5.77 |
12 | GCGN{16}CCC | 30 | 7 | 5.74 |
13 | CGCN{5}GCA | 25 | 5 | 5.49 |
14 | CCCN{14}CCC | 101 | 49 | 5.43 |
15 | CTGN{4}CGC | 34 | 9 | 5.41 |
16 | CCAN{12}GCG | 28 | 6 | 5.37 |
17 | CGGN{11}CAG | 36 | 10 | 5.25 |
18 | CCCN{5}GCC | 75 | 33 | 4.87 |
19 | GCCN{0}CCC | 64 | 26 | 4.81 |
20 | CGCN{4}GAC | 19 | 3 | 4.78 |
21 | CGGN{0}CAG | 33 | 9 | 4.76 |
22 | CCCN{3}CGC | 32 | 8 | 4.67 |
23 | CGCN{1}GAC | 20 | 3 | 4.58 |
24 | GCGN{2}GCC | 29 | 7 | 4.54 |
25 | CCCN{4}GCC | 76 | 34 | 4.53 |
26 | CCCN{1}CCC | 103 | 52 | 4.53 |
27 | CCGN{13}CAG | 33 | 9 | 4.5 |
28 | GCCN{4}GGA | 64 | 27 | 4.48 |
29 | CCGN{3}GGA | 26 | 6 | 4.46 |
30 | AGGN{2}GGG | 118 | 63 | 4.44 |
31 | CACN{6}GCG | 22 | 4 | 4.42 |
32 | CGCN{17}CCA | 27 | 6 | 4.39 |
33 | CCCN{9}GGC | 69 | 30 | 4.38 |
34 | CCTN{5}GCG | 28 | 7 | 4.37 |
36 | GCGN{0}GAC | 19 | 3 | 4.32 |
36 | GCCN{0}GGC | 40 | 7 | 4.28 |
37 | GCGN{2}CCC | 26 | 6 | 4.27 |
38 | CCGN{11}CCC | 32 | 9 | 4.17 |
39 | CCCN{8}TCG | 23 | 5 | 4.12 |
40 | CCGN{17}GCC | 30 | 8 | 4.12 |
41 | GGGN{5}GGA | 101 | 52 | 4.11 |
42 | GGCN{6}GGA | 71 | 32 | 4.1 |
43 | CCAN{4}CCC | 96 | 48 | 4.1 |
44 | CCTN{14}CCG | 32 | 9 | 4.09 |
45 | GACN{12}GGC | 45 | 16 | 4.07 |
46 | CGCN{13}CCC | 30 | 8 | 4.04 |
47 | CAGN{16}CCC | 92 | 46 | 4.02 |
48 | AGCN{10}GGG | 75 | 36 | 3.94 |
49 | CGGN{13}GGC | 30 | 8 | 3.93 |
60 | CGGN{1}GCC | 30 | 8 | 3.92 |
51 | AGCN{0}GGC | 26 | 6 | 3.9 |
52 | CCCN{l6}GGC | 64 | 28 | 3.89 |
53 | GCTN{19}CCC | 67 | 29 | 3.87 |
54 | CCCN{16)GGG | 88 | 31 | 3.81 |
55 | CCCN{9}CGG | 30 | 8 | 3.77 |
56 | CCCN{10}CGG | 30 | 8 | 3.76 |
57 | CCAN{0}GCG | 32 | 91 | 3.75 |
58 | GCCN{17}CGC | 26 | 6 | 3.74 |
59 | CCTN{6}CGC | 27 | 7 | 3.73 |
60 | GGAN{1}CCC | 63 | 27 | 3.71 |
61 | CGCN{18}CAC | 24 | 5 | 8.7 |
62 | CGCN{20}CCG | 21 | 4 | 3.69 |
63 | CCGN{0}GCA | 26 | 6 | 3.69 |
64 | CGCN{20}CCC | 28 | 7 | 3.69 |
65 | AGCN{15}CCC | 67 | 30 | 3.66 |
66 | CCTN{7}GGC | 69 | 31 | 3.63 |
67 | GCCN{5}CGC | 32 | 9 | 3.61 |
68 | GCCN{14}CGC | 28 | 7 | 3.59 |
69 | CAGN{11}CCC | 89 | 46 | 8.58 |
70 | GGGN{16}GAC | 53 | 21 | 3.57 |
71 | CCCN{15}GCG | 25 | 6 | 3.57 |
72 | CCCN{0}CGC | 37 | 12 | 3.54 |
73 | CCCN{16}AGC* | 67 | 30 | 3.54 |
74 | AGGN{9}GGG | 96 | 50 | 3.52 |
75 | CGCN{12}CTC | 28 | 7 | 3.46 |
76 | CACN{8}CGC | 23 | 5 | 3.43 |
77 | CCAN{7}CCG | 31 | 9 | 3.42 |
78 | CGGN{1}GCA | 25 | 6 | 3.41 |
79 | CGCN{14}CCC | 29 | 8 | 3.4 |
80 | AGCN{0}CCC | 76 | 36 | 3.4 |
81 | CGCN{13}GTC | 18 | 3 | 3.37 |
82 | GCGN{3}GCA | 26 | 7 | 3.35 |
83 | CGGN{0}GGC | 34 | 11 | 3.35 |
84 | GCCN{14}CCC | 68 | 31 | 3.33 |
86 | ACCN{7}CGC | 21 | 4 | 3.32 |
86 | AGGN{7}CGG | 33 | 10 | 3.31 |
87 | CCCN{16}CCA | 22 | 5 | 8.3 |
88 | CGCN{6}CAG | 31 | 9 | 3.29 |
89 | CAGN{11}GCG | 29 | 8 | 3.29 |
90 | CCGN{12}CCG | 19 | 4 | 3.2 |
91 | CGCN{18}CAG | 27 | 7 | 3.24 |
92 | CAGN{1}GGG | 80 | 39 | 3.21 |
93 | CGCN{0}CCC | 32 | 10 | 3.2 |
94 | GCGN{18}GCC | 26 | 7 | 3.18 |
95 | CGGN{15)GGC | 27 | 7 | 3.15 |
96 | CCCN{15)AGG | 72 | 34 | 3.14 |
97 | AGGN{20}GCG | 26 | 7 | 3.14 |
98 | CGGN{5}CTC | 26 | 7 | 3.13 |
99 | TCCN{17}CGA | 23 | 5 | 3.12 |
100 | GCGN{4}CCC | 30 | 9 | 3.08 |
101 | CCCN{2}CGC | 30 | 9 | 3.07 |
102 | CGTN{3}CAG | 28 | 8 | 3.06 |
108 | CCGN{13}GAG | 27 | 7 | 3.05 |
104 | CTCN{6}CGC | 28 | 8 | 3.04 |
105 | CGCN{4}GAG | 21 | 5 | 3.03 |
106 | GCGN{5}GGA | 24 | 6 | 3.03 |
107 | CCGN{1}CAG | 27 | 7 | 3.01 |
108 | CGCN{11}CCG | 18 | 3 | 2.99 |
109 | GCGN{19}CCC | 26 | 7 | 2.98 |
110 | CGCN{18}GAA | 21 | 5 | 2.98 |
111 | GGGN{19}GGA | 78 | 39 | 2.95 |
112 | CCAN{1}CGG | 24 | 6 | 2.94 |
113 | CCCN{7}GCG | 25 | 6 | 2.94 |
114 | AGGN{10}CCC | 84 | 43 | 2.92 |
115 | CCAN{0}GGG | 97 | 52 | 2.88 |
116 | CAGN{10}CCC | 82 | 41 | 2.87 |
117 | CCGN{18}CCG | 19 | 4 | 2.86 |
118 | CCGN{18}GGC | 26 | 7 | 2.85 |
119 | CCCN{2}GCG | 24 | 6 | 2.84 |
120 | CGCN{1}GGC | 25 | 7 | 2.83 |
121 | CCGN{5}GAC | 19 | 4 | 2.81 |
122 | GGAN{0}CCC | 52 | 22 | 2.8 |
123 | CCCN{1}CCG | 29 | 9 | 2.78 |
124 | CCCN{15}ACG | 23 | 6 | 2.75 |
125 | AGCN{8}CCC | 66 | 31 | 2.73 |
126 | CCCN{3}GGC | 60 | 27 | 2.71 |
127 | AGGN{9}CGG | 31 | 10 | 2.7 |
128 | CCCN{14}CGC | 27 | 8 | 2.7 |
129 | CCGN{0}CCG | 19 | 4 | 2.7 |
130 | CGCN{8}AGC | 23 | 6 | 2.69 |
131 | CGCN{19}ACC | 21 | 5 | 2.68 |
132 | GCGN{17}GAC | 17 | 3 | 2.66 |
133 | AGCN{1}GCG | 24 | 6 | 2.63 |
134 | CCGN{11}GGC | 31 | 10 | 2.63 |
135 | CGGN{4}AGA | 26 | 7 | 2.63 |
136 | CGCN{14}CCG | 17 | 3 | 2.62 |
137 | CCTN{20}GCG | 24 | 6 | 2.62 |
138 | CCAN{10}CGC | 26 | 7 | 2.61 |
139 | CCCN{20}CAC | 69 | 33 | 2.6 |
140 | CCGN{11}GCC | 27 | 8 | 2.6 |
141 | CGCN{18}CCC | 26 | 7 | 2.59 |
142 | CGGN{15}CGC | 16 | 3 | 2.57 |
143 | CGCN{16}GCC | 24 | 6 | 2.55 |
144 | CGCN{20}GGC | 23 | 6 | 2.54 |
145 | CGCN{19}CCG | 18 | 4 | 2.52 |
146 | CGGN{10}CCA | 28 | 8 | 2.51 |
147 | CGCN{17}CCC | 26 | 7 | 2.51 |
148 | CGCN{11}ACA | 23 | 6 | 2.51 |
149 | CGGN{0}ACC | 17 | 3 | 2.5 |
150 | GCGN{10}GCC | 24 | 6 | 2.49 |
151 | GCGN{8}CAC | 17 | 3 | 2.49 |
152 | CCCN{15}GGG | 84 | 82 | 2.44 |
153 | CGGN{16}GGC | 27 | 8 | 2.44 |
154 | CGCN{16}CcA | 23 | 6 | 2.42 |
155 | GCCN{3}CCC | 73 | 36 | 2.4 |
156 | CAGN{4}GGG | 94 | 51 | 2.4 |
157 | CCCN{6}GCG | 23 | 6 | 2.38 |
158 | CCGN{16}CGC | 17 | 3 | 2.38 |
159 | CCCN{17}GCA | 61 | 28 | 2.37 |
160 | CGCN{13}TCC | 24 | 6 | 2.37 |
161 | GCCN{1}CGC | 29 | 9 | 2.36 |
162 | CCGN{19}GAG | 26 | 7 | 2.35 |
163 | GGGN{10}GGA | 89 | 48 | 2.35 |
164 | CAGN{5}CCG | 32 | 11 | 2.35 |
165 | CGCN{3}AGA | 19 | 4 | 2.32 |
166 | GCCN{0}GCC | 29 | 9 | 2.32 |
167 | CCCN{8}GGC | 61 | 28 | 2.31 |
168 | CCTN{6}GCG | 22 | 6 | 2.29 |
169 | GACN{6}CCC | 48 | 20 | 2.29 |
170 | CGGN{1}CCC | 26 | 8 | 2.27 |
171 | CCCN{15}CCG | 30 | 10 | 2.27 |
172 | CAGN{9}CCC | 84 | 44 | 2.26 |
173 | CGGN{10}GGC | 27 | 8 | 2.26 |
174 | CGAN{10}ACG | 10 | 1 | 2.26 |
175 | GCGN{3}TCC | 21 | 5 | 2.26 |
176 | CCCN{3}GCC | 75 | 38 | 2.24 |
177 | GCGN{1}ACC | 17 | 3 | 2.24 |
178 | CCGN{9}AGG | 27 | 8 | 2.23 |
179 | CGCN{16}CAG | 26 | 8 | 2.23 |
180 | GGCN{0}CCC | 62 | 29 | 2.22 |
181 | AGGN{12}CCG | 26 | 8 | 2.19 |
182 | CCGN{0}GCG | 16 | 3 | 2.19 |
183 | CCGN{2}GCC | 30 | 10 | 2.18 |
184 | CCGN{11}GTC | 19 | 4 | 2.17 |
185 | CAGN{0}CCC | 88 | 47 | 2.17 |
186 | CCCN{5}CCG | 32 | 11 | 2.17 |
187 | GCCN{20}CCC | 66 | 32 | 2.15 |
188 | GACN{2}CGC | 18 | 4 | 2.14 |
189 | CGCN{6}CAC | 23 | 6 | 2.13 |
190 | AGGN{14}GCG | 25 | 7 | 2.1 |
191 | CACN{5}CGC | 17 | 3 | 2.1 |
192 | CCTN{19}CCG | 29 | 9 | 2.1 |
193 | CCGN{12}GGA | 24 | 7 | 2.08 |
194 | GGCN{9}GAC* | 44 | 18 | 2.08 |
195 | AGGN{10}GGG | 94 | 52 | 2.07 |
196 | CCGN{10)GAG | 25 | 7 | 2.07 |
197 | CGCN{6}GGA | 20 | 5 | 2.06 |
198 | CGCN{7}AGC | 23 | 6 | 2.04 |
199 | CCAN{13}CGG | 26 | 8 | 2.08 |
200 | CGGN{6}GGA | 25 | 7 | 2.03 |
201 | CGCN{19}GCC | 24 | 7 | 2.03 |
202 | CCAN{12}CGC | 24 | 7 | 2.02 |
203 | CGGN{1)GGC | 41 | 16 | 2.02 |
204 | GCGN{3}CCA | 25 | 7 | 2.01 |
205 | AGGN{1}CGC | 21 | 5 | 2 |
206 | CTCN{5}CGC | 24 | 7 | 1.98 |
207 | CCCN{0}ACG | 30 | 10 | 1.97 |
208 | CAGN{17}CCG | 29 | 9 | 1.96 |
209 | GGCN{4}CCC | 62 | 30 | 1.96 |
210 | AGGN{8}GCG | 26 | 8 | 1.96 |
211 | CTGN{1}CCC | 88 | 48 | 1.94 |
212 | CCCN{16}CAG | 86 | 46 | 1.94 |
213 | CGCN{9}GAC | 16 | 3 | 1.98 |
214 | CAGN{6}CCG | 29 | 9 | 1.92 |
215 | CGTN{12}CGC | 11 | 1 | 1.92 |
216 | CTCN{7}GCC | 69 | 35 | 1.92 |
217 | CGCN{19}TCC | 22 | 6 | 1.92 |
218 | CCCN{7}GCC | 67 | 33 | 1.91 |
219 | CAGN{13}CGG | 30 | 10 | 1.9 |
220 | CGCN{1}GCC | 27 | 8 | 1.9 |
221 | CGCN{17}CCG | 17 | 4 | 1.89 |
222 | AGGN{4}CCC | 63 | 31 | 1.89 |
223 | AGCN{10}CGC | 21 | 5 | 1.89 |
224 | CCCN{11}CGG | 30 | 10 | 1.88 |
225 | CCCN{8}GCC | 75 | 39 | 1.86 |
226 | CCGN{1}CGG | 22 | 3 | 1.86 |
227 | CCCN{1}ACC | 71 | 36 | 1.86 |
228 | CGCN{0}CAG | 25 | 7 | 1.85 |
229 | CCGN{19}TGC | 23 | 6 | 1.82 |
230 | GCGN{4}CGA | 12 | 2 | 1.82 |
231 | CCGN{19}GCC | 30 | 10 | 1.82 |
232 | CCAN{10}CCC | 85 | 46 | 1.81 |
133 | CAGN{13}GGG | 91 | 51 | 1.81 |
234 | AGCN{18}CGG | 23 | 6 | 1.81 |
235 | CGAN{8}CGC | 11 | 1 | 1.81 |
236 | AGCN{4}CCC | 63 | 31 | 1.8 |
237 | GGAN{6}CCC | 61 | 30 | 1.8 |
238 | CGGN{13}AAG | 28 | 6 | 1.8 |
239 | ACCN{11}CGC | 19 | 5 | 1.79 |
240 | CCGN{12}CAG | 28 | 9 | 1.78 |
241 | CCCN{12}GGG | 76 | 29 | 1.77 |
242 | CACN{17}ACG | 22 | 6 | 1.76 |
243 | CAGN{18}CCC | 82 | 44 | 1.76 |
244 | CGTN{10}GTC | 19 | 5 | 1.75 |
246 | CCCN{13}GCG | 28 | 6 | 1.75 |
246 | GCAN{1}CGC | 20 | 6 | 1.73 |
247 | AGAN{4}CCG | 24 | 1.73 | |
248 | GCGN{10}AGC | 22 | 6 | 1.72 |
249 | CGCN{0}GGA | 12 | 2 | 1.72 |
250 | CGGN{4}GAC | 17 | 4 | 1.69 |
251 | CCCN{12}CGC | 26 | 8 | 1.68 |
252 | GCCN{15}CCC | 65 | 33 | 1.68 |
253 | GCGN{6}TCC | 20 | 6 | 1.66 |
254 | CGGN{3}CAG | 33 | 12 | 1.65 |
255 | CCCN{3}CCA | 88 | 49 | 1.66 |
256 | AGCN{3}CCC | 59 | 28 | 1.65 |
257 | GGGN{16}GCA | 65 | 33 | 1.65 |
258 | AGGN{8}CCG | 28 | 9 | 1.64 |
259 | CCCN{0}CCG | 29 | 10 | 1.64 |
260 | GCGN{5}GAC | 16 | 3 | 1.64 |
261 | CCCN{9}ACC | 60 | 29 | 1.64 |
262 | CTGN{5}CGC | 25 | 8 | 1.64 |
263 | CGCN{14}CTC | 23 | 7 | 1.64 |
264 | CGGN{14}GCA | 23 | 7 | 1.63 |
265 | CCGN{8}GCC | 26 | 8 | 1.62 |
266 | CCGN{7}CIAC | 23 | 7 | 1.62 |
267 | AGCN{8}GCG | 2l | 6 | 1.61 |
268 | CGGN{16}GGA | 29 | 10 | 1.6l |
269 | CCAN{12}CCG | 26 | 8 | 1.61 |
270 | CGGN{2}CCC | 26 | 8 | 1.6 |
271 | CCANf{3}GGG | 71 | 37 | 1.6 |
272 | CGGN{l5}GCA | 21 | 6 | 1.6 |
273 | CGCN{9}GCA | 20 | 5 | 1.58 |
274 | CGGN{19}CCA | 26 | 8 | 1.58 |
275 | GGGN{15}CGA | 20 | 5 | 1.57 |
276 | CCCN{10}CGC | 26 | 8 | 1.57 |
277 | CTCN{14}CGC | 26 | 8 | 1.55 |
278 | CACN{11}GCG | 20 | 5 | 1.55 |
279 | CCGN{2}GGC | 24 | 7 | 1.55 |
280 | CTGN{18}CCC | 85 | 47 | 1.54 |
281 | GGGN{13}CAC | 58 | 28 | 1.54 |
282 | CCTN{15}GGC | 62 | 31 | 1.54 |
283 | CCCN{20}CGA | 20 | 5 | 1.54 |
284 | CCCN{8}CGA | 20 | 5 | 1.53 |
285 | GAGN{7}CCC | 61 | 30 | 1.58 |
286 | CGCN{2}CCG | 22 | 6 | 1.53 |
287 | CCCN{0}TCC | 98 | 57 | 1.52 |
288 | AGCN{0}GCC | 21 | 6 | 1.52 |
289 | CCCN{2}TCC | 82 | 45 | 1.52 |
290 | CCGN{5}CCC | 30 | 10 | 1.52 |
291 | CGCN{13}CGC | 16 | 3 | 1.51 |
292 | CCCN{1}CGC | 28 | 9 | 1.51 |
293 | GCCN{16}GCA | 53 | 25 | 1.51 |
294 | CCCN{16}CCA | 84 | 46 | 1.5 |
295 | CCGN{13}CGC | 19 | 5 | 1.5 |
296 | CCGN{17}CAG | 28 | 9 | 1.49 |
297 | CGGN{18}GGC | 26 | 8 | 1.49 |
298 | CCGN{14}AGG | 23 | 7 | 1.49 |
299 | CCCN{5}CGG | 26 | 8 | 1.49 |
300 | CCCN{6}GGA | 58 | 28 | 1.49 |
301 | ACGN{2}CCC | 20 | 5 | 1.49 |
302 | CCAN{9}CCG | 27 | 9 | 1.48 |
303 | CCCN{19}CCA | 78 | 42 | 1.48 |
304 | CAGN{0}GGG | 77 | 41 | 1.48 |
305 | AGCN{1}CCC | 58 | 28 | 1.47 |
306 | GCGN{7}TCC | 27 | 9 | 1.46 |
307 | ACGN{18}CCA | 25 | 8 | 1.46 |
308 | GCTN{14}CCC | 61 | 30 | 1.46 |
309 | GCGN{14}CCC | 23 | 7 | 1.46 |
310 | GCGn{19}AGC | 20 | 5 | 1.45 |
311 | CCGN{8}CAG | 29 | 10 | 1.45 |
312 | GCGN{6}GCC | 22 | 6 | 1.45 |
313 | GCGN{10}GCA | 20 | 5 | 1.44 |
314 | CCTN{7}GCC | 69 | 36 | 1.44 |
315 | GCCN{13}GCC | 54 | 26 | 1.42 |
316 | CCCN{14}GCC | 63 | 32 | 1.42 |
317 | CCCN{15}CGG | 26 | 8 | 1.42 |
318 | CCAN{13}CGC | 23 | 7 | 1.42 |
319 | AGCN{11}GGG | 67 | 35 | 1.41 |
320 | GGAN{0}GCC | 64 | 32 | 1.4 |
321 | GCCN{3}TCC | 61 | 30 | 1.4 |
322 | CCTN{5}GCC | 69 | 36 | 1.39 |
323 | CGGN{18}CCC | 25 | 8 | 1.39 |
324 | CCTN{3}GGC | 69 | 29 | 1.38 |
326 | CCGN{0}CTC | 22 | 6 | 1.38 |
326 | AGCN{17}GCG | 19 | 5 | 1.37 |
327 | ACGN{14}GGG | 20 | 5 | 1.37 |
328 | CGAN{12}GGC | 19 | 5 | 1.37 |
329 | CCCN{20}CGC | 24 | 7 | 1.37 |
330 | ACGN{12}CTG | 24 | 7 | 1.36 |
331 | CCGN{0}CCC | 36 | 14 | 1.36 |
332 | CCGN{10}GGA | 23 | 7 | 1.36 |
333 | CCCN{3}GCG | 21 | 6 | 1.36 |
334 | GCGN{14}CGC | 22 | 3 | 1.35 |
335 | CCGN{8}CGC | 16 | 4 | 1.35 |
336 | CGCN{l0}ACA | 22 | 6 | 1.34 |
337 | CCCN{l9}CCG | 28 | 10 | 1.33 |
338 | CACN{14}CGC | 20 | 6 | 1.32 |
339 | GACN{3}GGC | 46 | 21 | 1.32 |
340 | GAAN{7}CGC | 19 | 5 | 1.32 |
341 | CGCN{l6}GGC | 21 | 6 | 1.31 |
342 | GGCN{9)CCC | 64 | 33 | 1.31 |
343 | CCCN{9}GCC | 64 | 33 | 1.31 |
344 | CGCN{0}TGC | 26 | 9 | 1.3 |
345 | CCTN{8}GGC | 67 | 36 | 1.3 |
346 | CCAN{8}CCC | 82 | 46 | 1.29 |
347 | GACN{2}CCC | 42 | 18 | 1.28 |
348 | GGCN{1}CCC | 54 | 26 | 1.27 |
349 | CGCN{0}AGC | 24 | 7 | 1.26 |
350 | AGGN{4}GCG | 28 | lO | 1.26 |
351 | CGGN{6]TCC | 22 | 6 | 1.25 |
352 | ACGN{19}GGC | 20 | 5 | 1.25 |
353 | CCCN{8}ACG | 21 | 6 | 1.24 |
354 | CCCN{18}GCC | 62 | 3l | 1.24 |
356 | GCCN{2}CGA | 19 | 5 | 1.24 |
356 | CCCN{8}GCG | 28 | 10 | 1.23 |
357 | CCCN{0}CTC | 76 | 41 | 1.23 |
358 | GCCN{11}CGC | 27 | 9 | 1.22 |
359 | AGCN{9}CCC | 59 | 29 | 1.22 |
360 | GCTN{0}GCC | 71 | 38 | 1.21 |
361 | CGCN{3}CCC | 26 | 9 | 1.21 |
362 | CCCN(2}CCC | 117 | 72 | 1.19 |
363 | GCCN{9}CGC | 23 | 7 | 1.19 |
364 | GCAN{19}CGC | 19 | 5 | 1.19 |
365 | CAGN{4}CGG | 32 | 12 | 1.18 |
366 | CAGN{2}GGG | 80 | 44 | 1.17 |
367 | GCCN{16}CCC | 67 | 36 | 1.16 |
368 | GAGN{5}CCC | 60 | 30 | 1.16 |
369 | CCTN{16}TCG | 20 | 6 | 1.16 |
370 | CCCN{2}GGC | 62 | 32 | 1.15 |
371 | GCGN{13}GGA | 24 | 8 | 1.15 |
372 | GCCN{17}GGC | 66 | 25 | 1.15 |
373 | CCCN{14}GGC | 58 | 29 | 1.14 |
374 | AGGN{3}CCG | 81 | 12 | 1.14 |
375 | CACN{0}CGC | 32 | 12 | 1.14 |
376 | CGGN{18}CAG | 28 | 10 | 1.14 |
377 | AGCN{1}GCC | 57 | 28 | 1.13 |
378 | CGCN{18}GGC | 23 | 7 | 1.13 |
379 | CCCN{5}AGG | 64 | 33 | 1.11 |
380 | AACN{0}GCG | 9 | 1 | 1.11 |
381 | CCCN{10}CCA | 88 | 50 | 1.09 |
382 | CGCN{13}GAG | 20 | 6 | 1.09 |
383 | CGCN{7}GCC | 25 | 8 | 1.08 |
384 | CCCN{9}CCG | 28 | 10 | 1.07 |
385 | CGCN{16}CCC | 24 | 8 | 1.05 |
386 | GAAN{13}CGC | 18 | 5 | 1.05 |
387 | GGCN{3}CCC | 49 | 23 | 1.03 |
388 | TCCN{11}CCA | 87 | 50 | 1.03 |
389 | CACN{0}CCC | 70 | 38 | 1.02 |
390 | CGCN{16}CCG | 15 | 3 | 1.02 |
391 | CGGN{15}AGC | 21 | 6 | 1.02 |
392 | CCCN{12}GCG | 21 | 6 | 1.02 |
393 | CCCN{9}GAG | 59 | 30 | 1.01 |
394 | CCGN{20}TCC | 24 | 8 | 1.0l |
395 | CGCN{0}CGC | 17 | 4 | 1.01 |
396 | ATGN{7}CGG | 20 | 6 | 1 |
397 | GGGN{20}GcA | 59 | 30 | 1 |
398 | CGGN{4}GGC | 26 | 9 | 0.99 |
399 | CGGN{16}AGC | 22 | 7 | 0.99 |
400 | CGGN{5}GGC | 25 | 8 | 0.99 |
401 | GCGN{0}GGA | 25 | 8 | 0.98 |
402 | GGCN{20}CAC | 52 | 25 | 0.98 |
403 | CCCN{9}CCC | 97 | 58 | 0.97 |
404 | ACCN{17)GGC | 44 | 20 | 0.97 |
405 | CCCN{6}CGA | 18 | 5 | 0.96 |
406 | AAGN{10}CGG | 26 | 9 | 0.96 |
407 | CGCN{17}CAC | 21 | 6 | 0.96 |
408 | CCCN{16}CGG | 25 | 8 | 0.94 |
409 | GACN{18}GGC | 39 | 17 | 0.94 |
410 | GGGN{16}GAC | 47 | 22 | 0.92 |
411 | GCCN{4}TCC | 66 | 35 | 0.92 |
412 | GGCN{15}CCC | 56 | 28 | 0.92 |
413 | CAGN{12}CGC | 24 | 8 | 0.92 |
414 | CCAN{3}GCG | 22 | 7 | 0.91 |
415 | CCGN{16}GAG | 22 | 7 | 0.9 |
416 | AGCN{2}CGC | 24 | 8 | 0.89 |
417 | CAGN{4}CCC | 54 | 27 | 0.89 |
418 | AGGN{3}CGC | 23 | 7 | 0.88 |
419 | CACN{13}AGG* | 67 | 36 | 0.88 |
420 | CCCN{4}CAG | 88 | 61 | 0.88 |
421 | CCCN{2}GAA | 63 | 33 | 0.87 |
422 | CGCN{19}GAG | 21 | 6 | 0.87 |
423 | ACGN{18}GGG | 21 | 6 | 0.87 |
424 | CCCN{4}GGC | 62 | 32 | 0.87 |
425 | CGGN{9}GAG | 28 | 10 | 0.86 |
426 | CCCN{3}GGG | 66 | 26 | 0.86 |
427 | GAGN{4}GGC | 66 | 35 | 0.86 |
428 | CGCN{5}GAG | 18 | 5 | 0.84 |
429 | CCGN{20}AGG | 24 | 8 | 0.84 |
430 | CCCN{15}CCC | 88 | 51 | 0.83 |
431 | AGGN{17}CCG | 25 | 8 | 0.82 |
432 | AGGN{6}GGG | 89 | 62 | 0.82 |
433 | GGCN{20}CCC | 57 | 29 | 0.82 |
434 | GCAN{17}CGC | 19 | 5 | 0.82 |
435 | CGAN{11}ACG | 9 | 1 | 0.81 |
436 | CGCN{2}GGA | 19 | 5 | 0.81 |
437 | CTGN{5}CCC | 79 | 46 | 0.8 |
438 | TCCN{20}CCA | 77 | 43 | 0.8 |
439 | CCAN{2}GGG | 59 | 30 | 0.8 |
440 | CCGN{15}GCG | 14 | 3 | 0.8 |
441 | CCAN{5}GGG | 69 | 38 | 0.79 |
442 | CGGN{1}TGC | 24 | 8 | 0.79 |
443 | CCCN{14}GCG | 21 | 6 | 0.79 |
444 | CAGN{0}CCG | 27 | 10 | 0.79 |
445 | GCCN{9}TCC | 60 | 31 | 0.78 |
446 | AGGN{20}CGC | 22 | 7 | 0.78 |
447 | CCCN{6}GAC | 42 | 19 | 0.77 |
448 | CGGN{11}CCA | 23 | 7 | 0.76 |
449 | GGGN{14}CAC | 57 | 29 | 0.75 |
450 | GCAN{15}CGC | 19 | 5 | O.74 |
451 | CGCN{2}ACA | 20 | 6 | 0.74 |
452 | ACCN{9}CCC | 57 | 29 | 0.73 |
453 | GCGN{9}CGC | 20 | 3 | 0.73 |
454 | CAGN{15}GCG | 23 | 7 | 0.73 |
466 | CCCN{18}GTC | 45 | 21 | 0.72 |
456 | GCGN{3}CCC | 24 | 8 | 0.72 |
457 | CGGN{1l}GCC | 23 | 8 | 0.72 |
458 | CCCN{1}CGG | 24 | 8 | 0.71 |
459 | GCCN{4}CCA | 70 | 38 | 0.71 |
460 | CCCN{4}CCG | 30 | 12 | 0.7 |
461 | CGTN{2}GCA | 2l | 6 | 0.7 |
462 | AGCN{7}TCg | 18 | 5 | 0.69 |
463 | CCGN{15}GAA | 20 | 6 | 0.69 |
464 | ACCN{5}CCC | 62 | 33 | 0.69 |
466 | CGCN{14}GAG | 19 | 5 | 0.68 |
466 | CCCN{7}CGC | 30 | 12 | 0.68 |
467 | GAGN{12}CGC | 21 | 6 | 0.68 |
468 | GGCN{17}CCC | 58 | 30 | O.67 |
469 | ACGN{11}CTC | 21 | 7 | 0.65 |
470 | ACAN{9}CGG | 24 | 8 | 0.65 |
471 | CTGN{7}CCC | 82 | 47 | 0.65 |
472 | CCCN{2}GCC | 72 | 40 | 0.65 |
473 | CGGN{2}GCA | 24 | 8 | 0.64 |
474 | CCCN{0}TGC | 83 | 48 | 0.64 |
475 | CGCN{7}ACC | 18 | 5 | 0.63 |
476 | GCAN{2}GCC | 54 | 27 | 0.63 |
477 | GCGN{8}CCA | 20 | 6 | 0.63 |
478 | AGCN{0}CGC | 22 | 7 | 0.63 |
479 | GCGN{2}GCA | 18 | 5 | 0.63 |
480 | CCGN{2}GTC | 18 | 5 | 0.62 |
481 | CCGN{3}ACA | 21 | 7 | 0.62 |
482 | ACGN{13}TGG | 21 | 7 | 0.62 |
483 | CCAN{8}CGC | 23 | 8 | 0.62 |
484 | CCGN{9}GGC | 23 | 8 | 0.61 |
485 | CCAN{5}CCG | 25 | 9 | 0.61 |
486 | AGGN{3}GGG | 97 | 59 | 0.61 |
487 | CAGN{2}GGC | 78 | 45 | 0.61 |
488 | CCCN{8}CAG | 81 | 47 | 0.61 |
489 | AGCN{5}CAG | 80 | 46 | 0.6 |
490 | CGGN{16}GCC | 22 | 7 | 0.6 |
491 | GCGN{15}CCC | 23 | 8 | 0.6 |
492 | CCCN{11}GCC | 59 | 31 | 0.59 |
493 | CGAN{2}ACG | 9 | 1 | 0.59 |
494 | CGGN{4}GCC | 22 | 7 | 0.59 |
495 | CACN{6}CGC | 19 | 6 | 0.59 |
496 | CGGN{5}ACG | 11 | 2 | 0.59 |
497 | CTGN{4}GCC* | 66 | 36 | 0.59 |
498 | GGGN{18}CGA | 18 | 5 | 0.59 |
499 | CCTN{8}CGC | 22 | 7 | 0.59 |
500 | GCCN{4}CCC | 67 | 37 | 0.58 |
501 | CGGN{10}GCC | 22 | 7 | 0.58 |
502 | GCCN{5}GGA | 54 | 27 | 0.57 |
503 | ACCN{7}GCG | 15 | 4 | 0.57 |
504 | CCCN{8}CGC | 24 | 8 | 0.57 |
505 | CAGN{5}CCC | 77 | 44 | 0.56 |
506 | CACN{14}GGA | 63 | 34 | 0.56 |
507 | CCCN{1}GCC | 94 | 57 | 0.55 |
508 | CCCN{5}AGC | 67 | 37 | 0.55 |
509 | GGCN{5}GGA | 59 | 31 | 0.55 |
510 | CGAN{17}GAG | 19 | 6 | 0.55 |
511 | CGCN{7}ACA | 18 | 5 | 0.54 |
512 | CCAN{13}CCC | 87 | 52 | 0.54 |
513 | CGGN{20}GGC | 24 | 8 | 0.54 |
514 | CCCN{17}GCC | 58 | 30 | 0.53 |
515 | CCTN{10}CCG | 30 | 12 | 0.53 |
516 | CCCN{8}CCG | 27 | 10 | 0.53 |
517 | CGCN{3}GAG | 18 | 5 | 0.52 |
518 | CGCN{7}AAG | 17 | 5 | 0.51 |
519 | CGGN{11}GGA | 23 | 8 | 0.51 |
520 | CCGN{15}CCG | 15 | 4 | 0.51 |
521 | CCCN{3}GCA | 57 | 30 | 0.51 |
522 | CGGN{2}CAG | 24 | 8 | 0.5 |
523 | AGGN{2}CCG | 24 | 8 | 0.5 |
524 | CCCN{4}CAC | 69 | 38 | 0.5 |
525 | GGAN{19}CCC | 56 | 29 | 0.49 |
526 | CCCN{8}CAC | 68 | 38 | 0.49 |
527 | ACCN{6}CCG | 18 | 5 | 0.49 |
528 | CCCN{6}GGC | 54 | 28 | 0.49 |
529 | CCCN{6}CCG | 29 | 11 | 0.48 |
530 | CGCN{14}GCC | 26 | 9 | 0.47 |
531 | CCGN{5}TCC | 25 | 9 | 0.46 |
532 | GCCN{6}GCC | 55 | 28 | 0.46 |
533 | CGGN{7}GGA | 24 | 8 | 0.45 |
534 | GGGN{6}GGA | 87 | 52 | 0.44 |
535 | GCCN{12}TCC | 60 | 32 | 0.44 |
536 | AGTN{16}CCG | 17 | 5 | 0.44 |
537 | GGCN{19}GCC | 68 | 29 | 0.44 |
538 | CCGN{3}CCG | 22 | 7 | 0.44 |
539 | CCCN{8}ACC | 58 | 31 | 0.44 |
540 | CAGN{15}GCC | 77 | 44 | 0.44 |
541 | CCCN{7}CGG | 24 | 8 | 0.44 |
542 | GCGN{1}CCA | 22 | 7 | 0.44 |
543 | CCCN{14}CAG | 79 | 46 | 0.44 |
544 | CCCN{8}CCC | 89 | 53 | 0.44 |
545 | ACAN{l2}GCG | 23 | 8 | 0.43 |
546 | AGGN{4}CCG | 23 | 8 | 0.43 |
547 | CGCN{13}GCC | 23 | 8 | 0.43 |
548 | GAGN{2}CGC | 23 | 8 | 0.42 |
549 | CCCN{9}GCG | 21 | 7 | 0.42 |
550 | CGCN{17}ACA | 17 | 5 | 0.42 |
551 | GCGN{17}CCA | 23 | 8 | 0.42 |
562 | AAGN{18}CCG | 20 | 6 | 0.42 |
553 | CGCN{1}GGA | 18 | 5 | 0.41 |
554 | CCAN{1}CCC | 90 | 54 | 0.41 |
555 | CGTN{18}TGC | 20 | 6 | 0.41 |
556 | TCCN{14}CGA | 17 | 5 | 0.41 |
557 | CACN{5}GGG | 56 | 29 | 0.4 |
558 | CCGN{12}GCA | 21 | 7 | 0.4 |
559 | CTGN{6}CCC | 77 | 44 | 0.4 |
560 | CGGN{8}GGC | 32 | 13 | 0.4 |
561 | CCAN{11}GGG | 68 | 38 | 0.4 |
562 | ACGN{19}CAA | 21 | 7 | 0.39 |
563 | GGGN{20}CCC | 72 | 31 | 0.39 |
564 | CGCN{3}CAG | 23 | 8 | 0.39 |
565 | AGCN{17}GGG | 58 | 31 | 0.37 |
566 | CACN{20}CCG | 21 | 7 | 0.37 |
567 | ACGN{17}CAG | 24 | 8 | 0.37 |
568 | AGGN{1}CCC | 60 | 32 | 0.37 |
569 | CGTN{12}CAC | 20 | 6 | 0.37 |
570 | CGGN{9}GGC | 23 | 8 | 0.37 |
571 | CGCN{10}GCG | 18 | 3 | 0.37 |
572 | CCCN{6}CTC | 80 | 47 | 0.36 |
573 | CCGN{10}AGG | 23 | 8 | 0.36 |
574 | CCCN{18}CAG | 79 | 46 | 0.36 |
575 | AGCN{17}CCG | 21 | 7 | 0.36 |
576 | AGCN{9}GCG | 18 | 5 | 0.36 |
577 | CCAN{3}GGC | 62 | 34 | 0.36 |
578 | CCCN{11}GGC | 57 | 30 | 0.35 |
579 | ACGN{5}GCA | 23 | 8 | 0.35 |
580 | CCCN{14}CGG | 23 | 8 | 0.35 |
581 | CCCN{5}CCA | 91 | 55 | 0.35 |
582 | CCGN{1}AGG | 22 | 7 | 0.34 |
583 | GGGN{10}GAC | 45 | 22 | 0.34 |
584 | CGCN{15}CCA | 20 | 6 | 0.34 |
585 | CCTN{19}CGC | 22 | 7 | 0.34 |
586 | CGTN{3}CGC | 10 | 2 | 0.33 |
587 | AGCN{14}CCG | 21 | 7 | 0.33 |
588 | GGCN{2}CGA | 17 | 5 | 0.33 |
589 | CAGN{8}CCC | 79 | 46 | 0.33 |
590 | CCGN{2}GAC | 16 | 4 | 0.33 |
591 | AGCN{19}AGG | 70 | 40 | 0.32 |
592 | CCTN{4}GGC | 64 | 35 | 0.32 |
593 | CCGN{11}AGC | 22 | 7 | 0.32 |
594 | CACN{4}CGC | 18 | 5 | 0.32 |
595 | CCGN{1}CCC | 30 | 12 | 0.31 |
596 | CTGN{13}GGC | 73 | 42 | 0.31 |
597 | CGCN{16}ACC | 15 | 4 | 0.31 |
598 | CACN{18}CAG | 79 | 46 | 0.31 |
599 | GGCN{8}GCC | 68 | 29 | 0.29 |
600 | GGGN{15}GGA | 78 | 46 | 0.29 |
601 | CCGN{16}GCC | 22 | 7 | 0.29 |
602 | CCGN{20}ACC | 18 | 5 | 0.29 |
603 | CGAN{7}CCC | 17 | 5 | 0.28 |
604 | CCGN{6}CTC | 23 | 8 | 0.28 |
605 | CGGN{10}CTC | 22 | 7 | 0.28 |
606 | CAGN{16}CGC | 23 | 8 | 0.28 |
607 | CCAN{3}AGG | 77 | 45 | 0.27 |
608 | GCCN{18}GCC | 52 | 27 | 0.27 |
609 | CGCN{18}GGA | 19 | 6 | 0.26 |
610 | CCGN{20}GGC | 22 | 7 | 0.26 |
611 | ACAN{10}GCG | 17 | 5 | 0.26 |
612 | CGGN{5}CCC | 25 | 9 | 0.25 |
613 | CCCN{7}TCC | 75 | 43 | 0.25 |
614 | ACGN{10}CGC | 10 | 2 | 0.25 |
615 | CCCN{3}TCC | 81 | 48 | 0.25 |
616 | CCGN{8}CGG | 20 | 3 | 0.24 |
617 | CCAN{15}CGG | 22 | 7 | 0.24 |
618 | CCGN{6}CCG | 17 | 5 | 0.24 |
619 | CAGN{3}GCG | 25 | 9 | 0.24 |
620 | GAGN{1}CCC | 62 | 34 | 0.24 |
621 | CCGN{18}TGC | 22 | 7 | 0.23 |
622 | CCCN{7}CCA | 85 | 51 | 0.23 |
623 | CGGN{3}CCA | 24 | 9 | 0.23 |
624 | ACGN{1}CCC | 18 | 5 | 0.23 |
625 | CGGN{13}TGA | 21 | 7 | 0.22 |
626 | CTCN{6}GGC | 53 | 28 | 0.22 |
627 | GCGN{2}GAC | 15 | 4 | 0.22 |
628 | GGGN{11}ACC | 49 | 25 | 0.22 |
629 | CGCN{4}GGA | 17 | 5 | 0.22 |
630 | CCCN{11}CCG | 27 | 10 | 0.22 |
631 | CCGN{19}GCA | 20 | 6 | 0.22 |
632 | GCGN{0}GCA | 20 | 6 | 0.21 |
633 | AGAN{7}CCC | 61 | 33 | 0.21 |
634 | CGGN{2}CCA | 21 | 7 | 0.21 |
635 | CCCN{7}CCC | 89 | 54 | 0.21 |
636 | ACCN{4}GCG | 15 | 4 | 0.2 |
637 | CCTN{15CGC | 20 | 6 | 0.2 |
638 | AGCN{9}GTC | 44 | 21 | 0.2 |
639 | CCCN{18}CTC | 74 | 43 | 0.2 |
640 | CGCN{18}CGA | 9 | 1 | 0.19 |
641 | CCCN{15}GCC | 62 | 34 | 0.18 |
642 | ACCN{11}GGC | 45 | 22 | 0.18 |
643 | AGGN{15}CGC | 29 | 12 | 0.18 |
644 | GCGN{0}CCA | 27 | 10 | 0.18 |
645 | GCGN{9}AGC | 18 | 5 | 0.17 |
646 | GGGN{18}GCA | 59 | 32 | 0.17 |
647 | CCCN{17}CAG | 77 | 45 | 0.17 |
648 | CCAN{8}CGG | 22 | 8 | 0.16 |
649 | CCGN{10}GGC | 21 | 7 | 0.16 |
650 | GCAN{0}GCC | 76 | 44 | 0.16 |
651 | CAGN{2}CGC | 20 | 6 | 0.16 |
652 | CGCN{8}GGC | 19 | 6 | 0.16 |
653 | CTGN{17}GGC | 65 | 36 | 0.16 |
654 | GGGN{14}ACC | 46 | 23 | 0.16 |
655 | CCGN{1}TGC | 20 | 6 | 0.16 |
656 | CAGN{8}CGC | 22 | 8 | 0.15 |
657 | AAGN{11}CGC | 17 | 5 | 0.15 |
658 | CCGN{6}TCC | 22 | 8 | 0.14 |
659 | CCAN{18}CCC | 72 | 42 | 0.14 |
660 | CCAN{0}CCC | 84 | 51 | 0.14 |
661 | GAGN{6}CCC | 53 | 28 | 0.14 |
662 | AGCN{20}GGC | 52 | 27 | 0.14 |
663 | CAGN{0}CGC | 21 | 7 | 0.14 |
664 | CCGN{12}CTC | 22 | 8 | 0.14 |
665 | CGCN{15}ACG | 9 | 1 | 0.13 |
666 | GGCN{17}CGA | 15 | 4 | 0.13 |
667 | CCGN{16}AAG | 19 | 6 | 0.13 |
668 | CGCN{14}TCC | 19 | 6 | 0.12 |
669 | AGGN{7}CGC | 20 | 7 | 0.12 |
670 | CGGN{7}CCC | 22 | 8 | 0.12 |
671 | CGCN{4}GCC | 34 | 15 | 0.12 |
672 | CGAN{6}CCC | 17 | 5 | 0.12 |
673 | CCCN{19}GGA | 60 | 33 | 0.11 |
674 | CCCN{16}GCG | 28 | 11 | 0.11 |
675 | CCAN{7}CGC | 20 | 7 | 0.11 |
676 | CCCN{6}GCC | 80 | 48 | 0.11 |
677 | GCCN{14}TCC | 55 | 29 | 0.11 |
678 | AGGN{14}GCC | 64 | 36 | 0.1 |
679 | CGCN{11}GCC | 20 | 7 | 0.1 |
680 | TCCN{0}GCA | 17 | 5 | 0.09 |
681 | GCGN{8}CCC | 27 | 11 | 0.09 |
682 | CCAN{1}1GCG | 19 | 6 | 0.09 |
683 | CACN{4}GGG | 51 | 26 | 0.09 |
684 | CGGN{7}TCC | 20 | 7 | 0.09 |
685 | GCGN{5}GCC | 20 | 7 | 0.09 |
686 | ACGN{12}CAG | 26 | 10 | 0.09 |
687 | CCGN{19}CGC | 14 | 4 | 0.08 |
688 | CGGN{8}TGC | 18 | 5 | 0.08 |
689 | CCCN{1}GAG | 65 | 37 | 0.07 |
690 | GCGN{19}TGA | 18 | 6 | 0.07 |
691 | GGCN{15}GCC | 70 | 31 | 0.07 |
692 | CCGN{7}CCC | 27 | 11 | 0.07 |
693 | ACAN{19}CCC | 63 | 35 | 0.07 |
694 | ACCN{16}GGG | 47 | 24 | 0.07 |
695 | AGAN{1}GGC | 64 | 36 | 0.07 |
696 | GGGN{17}TGA | 64 | 36 | 0.06 |
697 | CAGN{5}GGG | 83 | 50 | 0.06 |
698 | GCCN{13}CGC | 22 | 8 | 0.06 |
699 | GCGN{7}GGA | 19 | 6 | 0.06 |
700 | CAGN{14}CCA | 94 | 58 | 0.06 |
701 | CCGN{4}GTC | 16 | 4 | 0.06 |
702 | CCCN{13}CGC | 22 | 8 | 0.06 |
703 | GCGN{14}ACC | 15 | 4 | 0.05 |
704 | CAGN{20}GGG | 81 | 49 | 0.05 |
705 | CCGN{4}CCC | 27 | 11 | 0.05 |
706 | CGCN{5}GGC | 18 | 6 | 0.05 |
707 | CCTN{6}GGC | 57 | 31 | 0.05 |
708 | AGGN{3}GGC | 67 | 38 | 0.05 |
709 | CGGN{11}CGC | 14 | 4 | 0.05 |
710 | CTGN{18}GGA | 77 | 46 | 0.04 |
711 | CACN{17}CCA | 74 | 43 | 0.04 |
712 | CGGN{3}GAG | 22 | 8 | 0.04 |
713 | CCCN{9}CCA | 82 | 49 | 0.03 |
714 | CCCN{1}ACG | 18 | 6 | 0.03 |
715 | CAGN{1}GCC | 72 | 42 | 0.03 |
716 | AGGN{6}CCG | 23 | 8 | 0.03 |
717 | AGCN{9}GGG | 57 | 31 | 0.03 |
718 | CCCN{7}GGC | 54 | 29 | 0.02 |
719 | CCTN{13}CCC | 88 | 54 | 0.02 |
720 | CCGN{19}TTC | 20 | 7 | 0.02 |
721 | CCCN{7}CCG | 27 | 11 | 0.02 |
722 | CGAN{6}GGC | 17 | 5 | 0.01 |
723 | CGGN{4}CTC | 21 | 7 | 0.01 |
724 | CGGN{0}CGC | 13 | 3 | 0.01 |
725 | CCTN{13}ACG | 19 | 6 | 0.01 |
726 | GGGN{6}CAC | 53 | 28 | 0.01 |
727 | CCCN{16}CGC | 21 | 7 | 0.01 |
28 | CCCN{10}CTC | 76 | 45 | 0 |
29 | CCCN{0}CAG | 92 | 57 | 0 |
30 | GCCN{5}CCC | 65 | 37 | 0 |
表11:由线性判别分析测试的候选STAR元件
候选STAR | 位置1 | 长度 |
T2F | 20q13.33 | ~2800 |
T2R | 6q14.1 | ~2800 |
T3F | 15q12 | ~2900 |
T3R | 7q31.2 | ~2900 |
T5F | 9q34.13 | ND2 |
T5R | 9q34.13 | ND |
T7 | 22q12.3 | ~1200 |
T9F | 21q22.2 | ~1600 |
T9R | 22q11.22 | ~1600 |
T10F | 7q22.2 | ~1300 |
T10R | 6q14.1 | ~1300 |
T11F | 17q23.3 | ~2000 |
T11R | 16q23.1 | ~2000 |
T12 | 4p15.1 | ~2100 |
T13F | 20p13 | ~1700 |
T13R | 1p13.3 | ~1700 |
T14R | 11q25 | ~1500 |
T17 | 2q31.3 | ND |
T18 | 2q31.1 | ND |
1染色体位置是通过将来自STAR元件的DNA序列数据对人类基因组数据库进行BLAST检索而确定的。根据标准命名参照每一染色体的细胞遗传学标准图给出位置,例如1p2.3是1号染色体短臂的第二条细胞遗传学带的第三条细胞遗传学亚带(http://www.ncbi.nlm.nih.gov/Class/MLACourse/Genetics/chrombanding.html)。F代表正向测序反应结果;R代表反向测序反应结果。当正向和反向测序结果作图至不同的基因组位置时,每一序列基于来自人类基因组数据库的序列信息延伸至原始克隆的全长(根据限制酶切作图确定)。
2ND:未确定。
表12:本发明的Arabidopsis STAR元件,包括染色体位置和长度
STAR | 染色体 | 长度,kb |
A1 | I | 1.2 |
A2 | I | 0.9 |
A3 | I | 0.9 |
A4 | I | 0.8 |
A5 | I | 1.3 |
A6 | I | 1.4 |
A7 | II | 1.2 |
A8 | II | 0.8 |
A9 | II | 0.9 |
A10 | II | 1.7 |
A11 | II | 1.9 |
A12 | II | 1.4 |
A13 | II | 1.2 |
A14 | II | 2.1 |
A15 | II | 1.4 |
A16 | II | 0.7 |
A17 | II | 1.5 |
A18 | III | 1.5 |
A19 | III | 0.7 |
A20 | III | 2.0 |
A21 | IV | 1.8 |
A22 | IV | 0.8 |
A23 | IV | 0.6 |
A24 | IV | 0.5 |
A25 | V | 0.9 |
A26 | V | 1.9 |
A27 | V | 1.1 |
A28 | V | 1.6 |
A29 | V | 0.9 |
A30 | V | 2.0 |
A31 | V | 2.0 |
A32 | V | 1.3 |
A33 | V | 0.9 |
A34 | I | 0.9 |
A35 | II | 1.1 |
Claims (77)
1.一种选择具有基因转录调节特性的DNA序列的方法,包括将多种包含片段的载体提供给一种转录系统,所述载体还包含i)一种具有基因转录阻抑特性的元件,及ii)一种指导报道基因转录的启动子,所述方法还包括在所述转录系统中进行一个选择步骤,以鉴别包含具有所述基因转录调节特性的所述DNA序列的片段。
2.权利要求1的方法,其中所述DNA序列包含一种稳定的基因转录调节特性。
3.权利要求1或2的方法,其中所述DNA序列包含一种基因转录增强特性。
4.权利要求1-3任一项的方法,其中所述转录系统包含宿主细胞。
5.权利要求1-4任一项的方法,其中所述启动子在所述转录系统可以是有活性的,但其中所述载体中的基因转录阻抑作用产生基因转录阻抑染色质。
6.前述任一项权利要求的方法,其中参与基因转录阻抑的所述DNA序列是一种由一种蛋白质复合物识别的DNA序列,且其中所述转录系统包含所述复合物。
7.权利要求5的方法,其中所述复合物包含一种异染色质结合蛋白HP1,一种Polycomb-group(Pc-G)蛋白质,一种组蛋白脱乙酰酶活性或MeCP2(甲基-CpG-结合蛋白)。
8.前述任一项权利要求的方法,其中所述载体是一种附加型复制载体。
9.前述任一项权利要求的方法,特征在于所述载体包含一个来自Epstein-Barr病毒(EBV)的复制起点OriP,及一种核抗原(EBNA-1)。
10.一种DNA序列,其包含i)分离自植物或脊椎动物的一种DNA序列或其衍生物,或者ii)一种合成的DNA序列或通过基因工程手段构建的DNA序列,该DNA序列是一种阻抑抑制序列,其可以根据权利要求1-9任一项的方法被检测、选择及任选地克隆。
11.一种DNA序列,其包含i)分离自植物或脊椎动物的一种DNA序列或其衍生物,或者ii)一种合成的DNA序列或通过基因工程手段构建的DNA序列,该DNA序列可以根据权利要求1-9任一项的方法被检测、选择及任选地克隆。
12.一种鉴别具有基因转录阻抑特性的DNA序列的方法,包括:
—提供测试核酸的集合;
—产生表达载体的集合,所述表达载体包含测试核酸和在一启动子转录控制下的第一种报道基因;
—将所述表达载体集合提供给细胞;
—选择一种细胞或其含有载体的子代,其中所述第一种报道基因的转录被阻抑;及
—在所述细胞中鉴别所述测试核酸。
13.权利要求12的方法,其中所述DNA序列包含一种基因转录阻抑染色质特性。
14.权利要求12或13的方法,其中所述DNA序列包含一种类Polycomb-group效应元件。
15.权利要求12-14任一项的方法,其中所述载体还包含第二种报道基因。
16.权利要求12-15任一项的方法,其中所述转录系统包含细胞。
17.权利要求16的方法,其中所述第二种报道基因用于选择含有载体的细胞。
18.权利要求12-17任一项的方法,其中载体还包含一种具有基因转录调节特性的DNA序列。
19.权利要求18的方法,其中所述DNA序列包含一种稳定的基因转录调节特性。
20.权利要求18或19的方法,其中所述DNA序列包含权利要求10或11的序列。
21.权利要求18-20任一项的方法,其中所述DNA序列至少部分阻断在所述载体中所述DNA序列的一侧存在的具有基因转录阻抑特性的DNA序列的转录阻抑作用的扩散。
22.权利要求21的方法,其中所述DNA序列至少部分抑制对所述第二种报道基因转录的基因转录阻抑作用。
23.权利要求12-22任一项的方法,其中所述第一种报道基因包含一种自杀基因。
24.权利要求12-23任一项的方法,其中所述第二种报道基因包含一种显性的可选择报道基因。
25.权利要求1-9或12-24任一项的方法,其中所述启动子包含一种诱导型启动子。
26.一种包含基因转录阻抑特性的DNA序列,其可通过权利要求12-25任一项的方法获得。
27.权利要求26的DNA序列,其包含表4B的序列或者其功能同系物。
28.权利要求1-9任一项的方法,其中具有基因转录阻抑特性的所述DNA序列包含可通过权利要求12-25任一项的方法获得的DNA序列。
29.一种检测在大约50-5000碱基对的核酸序列内存在STAR序列的方法,包括确定至少一种序列模式在所述序列中的出现频率,并确定所述出现频率代表所述至少一种序列模式在至少一个包含STAR序列的序列中的出现频率。
30.权利要求29的方法,其中确定所述出现频率代表所述至少一种序列模式在至少一个包含STAR序列的序列中的出现频率的步骤包括,确定所述至少一种序列模式的出现频率在所述至少一个STAR序列和至少一个对照序列之间显著不同。
31.权利要求30的方法,其中所述至少一种序列模式在所述至少一个包含STAR序列的序列中的出现频率显著高于在所述至少一个对照序列中的出现频率。
32.权利要求29-31任一项的方法,其中至少一个所述模式基于一种所需的、优选优化的在所述至少一个包含STAR序列的序列与对照序列之间的判别而选择。
33.权利要求30-32任一项的方法,其中所述对照序列包含一种随机序列,所述随机序列包含与所述至少一个包含STAR序列的序列相似的AT/CG含量。
34.权利要求29-33任一项的方法,其中至少一种序列模式包含至少5个碱基。
35.权利要求34的方法,其中至少一种序列模式包含至少6个碱基。
36.权利要求29-35任一项的方法,其中所述至少一种序列模式包括表9和/或表10所示模式。
37.权利要求29-36任一项的方法,其中所述模式包含至少8个碱基。
38.权利要求29-37任一项的方法,其中所述出现频率代表所述至少一种序列模式在至少2个包含STAR序列的序列中的出现频率。
39.权利要求38的方法,其中所述出现频率代表所述至少一种序列模式在至少5个包含STAR序列的序列中的出现频率。
40.权利要求39的方法,其中所述出现频率代表所述至少一种序列模式在至少10个包含STAR序列的序列中的出现频率。
41.权利要求29-40任一项的方法,其中所述出现频率代表所述至少一种序列模式在至少50个包含STAR序列的序列中的出现频率。
42.权利要求29-41任一项的方法,其中包含STAR序列的所述序列包含图26所示的至少一种序列。
43.权利要求42的方法,其中包含STAR序列的所述序列包含图26所示的序列。
44.权利要求29-43任一项的方法,其中所述至少一种序列模式包含序列模式GGACCC,CCCTGC,AAGCCC,CCCCCA和/或AGCACC。
45.权利要求29-44任一项的方法,其中所述至少一种序列模式包含序列模式CCCN{16}AGC,GGCN{9}GAC,CACN{13}AGG和/或CTGN{4}GCC。
46.一种检测在一个大约50-5000碱基对的核酸序列内存在STAR序列的方法,包括鉴别一种物种细胞的一个染色体的一部分中包含STAR的一种序列,并检测所述序列和不同物种的一个染色体的一种序列之间的显著同源性。
47.权利要求46的方法,其中所述物种包括植物或脊椎动物物种,优选哺乳动物物种。
48.一种检测脊椎动物或植物物种的一个大约50-5000碱基对的核酸序列中存在STAR元件的方法,包括鉴别所述核酸序列的两侧序列在至少一个其它物种中是否保守。
49.通过权利要求1-9,29-48任一项的方法获得的一种STAR序列。
50.权利要求29-48任一项的方法,其中包含STAR序列的所述至少一个序列是权利要求49的STAR序列。
51.权利要求49的STAR序列的集合。
52.一种确定一个大约50-5000碱基对的核酸序列是否包含一STAR序列的方法,所述方法包括产生第一个序列模式表,其包含所述模式在权利要求51的STAR序列集合中的出现频率,产生所述模式第二个表,其包含所述模式在至少一个参比序列中的出现频率,选择出现频率在两个表之间不同的至少一种序列模式,确定至少一个所述选择的模式在所述大约50-5000碱基对的核酸序列内的出现频率,并确定在所述测试核酸内的出现频率是否代表所述选择的模式在所述STAR序列集合中的出现频率。
53.权利要求29-48,50和52任一项的方法,进一步包括确定所述大约50-5000碱基对的核酸序列是否包含一种基因转录调节特性。
54.权利要求53的方法,其中所述基因转录调节特性使用权利要求1-9任一项的方法确定。
55.权利要求52或53的方法,其中所述STAR集合包含图26所示序列。
56.一种通过权利要求52-55任一项的方法获得的包含一STAR序列的分离的和/或重组的核酸序列。
57.含有权利要求10,11,26,27,49或56的DNA序列的一种DNA构建体。
58.一种DNA构建体,其中权利要求10,11,26,27,49或56的DNA序列已经被修饰。
59.权利要求57或58的DNA构建体,其包含一个可操纵地与感兴趣核酸连接的启动子。
60.权利要求59的DNA构建体,其中具有基因转录调节和/或阻抑特性的所述DNA序列的一种特性的活性数量取决于所述DNA序列在所述构建体中相应于所述启动子的方向。
61.权利要求57-60任一项的DNA构建体或者权利要求10,11,26,27,49或56的DNA序列,其中基因转录调节和/或阻抑特性依赖于一种信号的存在。
62.权利要求61的DNA构建体或序列,其中所述信号包含一种DNA结合蛋白。
63.权利要求61或62的DNA构建体或序列,其中所述信号包含一种人免疫缺陷病毒TAT蛋白。
64.权利要求10,11,26,27,49,56-63任一项的DNA构建体或序列在调节感兴趣的核酸转录中的应用。
65.一种在细胞中产生基因产物的方法,包括产生一个表达盒,该表达盒包含一种感兴趣的基因和权利要求10,11,26,27,49,56-63任一项的DNA序列或DNA构建体,并使所述表达盒在细胞中转录。
66.权利要求65的方法,其中所述基因产物的产生是可诱导的。
67.包含一种基因转录调节特性和/或基因转录阻抑特性的分离的和/或重组核酸的文库。
68.权利要求67的文库,其中所述核酸包含相同的共有序列。
69.权利要求67或68的文库,其中所述基因转录阻抑特性包括一种诱导基因转录阻抑染色质形成的特性。
70.权利要求67-69任一项的文库,其中所述基因转录调节特性包括一种稳定的转录特性。
71.权利要求70的文库,其中所述基因转录调节特性包括一种抵抗基因转录阻抑染色质形成的特性。
72.权利要求67-71任一项的文库,其中所述基因转录调节特性包含一种转录增强特性。
73.权利要求67-72任一项的文库,其基本上包含一个染色体的具有基因转录调节特性的所有DNA序列。
74.权利要求73的文库,其中所述染色体包括哺乳动物或植物染色体。
75.权利要求74的文库,其中所述染色体包括人染色体。
76.权利要求73-75任一项的文库,其基本上包含一个细胞的核DNA的具有基因转录调节特性的所有DNA序列。
77.一种选择具有基因转录调节特性的DNA序列的方法,包括将多种包含片段的载体提供给一转录系统,所述载体包含i)具有基因转录调节特性的一种元件,及ii)指导报道基因转录的一个启动子,所述方法还包括在所述转录系统中进行一个选择步骤,以鉴别包含具有所述基因转录调节特性的所述DNA序列的一个片段。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP01202581.3 | 2001-07-04 | ||
EP01202581A EP1273666A1 (en) | 2001-07-04 | 2001-07-04 | Method of selecting a DNA sequence with transcription modulating activity using a vector comprising an element with a gene transcription repressing activity |
US30319901P | 2001-07-05 | 2001-07-05 | |
US60/303,199 | 2001-07-05 | ||
US10/190,312 US7192741B2 (en) | 2001-07-04 | 2002-07-05 | DNA sequences comprising gene transcription regulatory qualities and methods for detecting and using such DNA sequences |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1524128A true CN1524128A (zh) | 2004-08-25 |
CN1266282C CN1266282C (zh) | 2006-07-26 |
Family
ID=47915807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB028135717A Expired - Lifetime CN1266282C (zh) | 2001-07-04 | 2002-06-14 | 包含基因转录调节特性的dna序列及检测和应用这些dna序列的方法 |
Country Status (22)
Country | Link |
---|---|
US (9) | US7192741B2 (zh) |
EP (8) | EP1829971B1 (zh) |
JP (3) | JP4500044B2 (zh) |
KR (2) | KR100942117B1 (zh) |
CN (1) | CN1266282C (zh) |
AT (8) | ATE358183T1 (zh) |
AU (3) | AU2002314629B2 (zh) |
BR (1) | BRPI0210771B8 (zh) |
CA (2) | CA2450020C (zh) |
CY (1) | CY1107678T1 (zh) |
DE (8) | DE60236331D1 (zh) |
DK (8) | DK1829972T3 (zh) |
ES (8) | ES2344070T3 (zh) |
HK (1) | HK1068652A1 (zh) |
IL (4) | IL159674A0 (zh) |
MX (1) | MXPA03011801A (zh) |
NO (1) | NO338477B1 (zh) |
NZ (1) | NZ530218A (zh) |
PT (1) | PT1600510E (zh) |
SG (1) | SG143066A1 (zh) |
WO (1) | WO2003004704A2 (zh) |
ZA (1) | ZA200309599B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113539357A (zh) * | 2021-06-10 | 2021-10-22 | 阿里巴巴新加坡控股有限公司 | 基因检测方法、模型训练方法、装置、设备及系统 |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2344070T3 (es) | 2001-07-04 | 2010-08-17 | Chromagenics B.V. | Secuencias de adn con actividad anti-represora. |
ES2362273T3 (es) * | 2002-06-14 | 2011-06-30 | Chromagenics B.V. | Método para la producción simultánea de múltiples proteínas; vectores y células para su uso en el mismo. |
EP1513936A2 (en) | 2002-06-14 | 2005-03-16 | Chromagenics B.V. | Use of repression blocking sequences in methods for enhancing gene expression |
USRE47770E1 (en) | 2002-07-18 | 2019-12-17 | Merus N.V. | Recombinant production of mixtures of antibodies |
CA2965865C (en) | 2002-07-18 | 2021-10-19 | Merus N.V. | Recombinant production of mixtures of antibodies |
WO2004055215A1 (en) | 2002-12-18 | 2004-07-01 | Chromagenics B.V. | A method for improving protein production |
EP1572994B1 (en) | 2002-12-20 | 2007-02-21 | Chromagenics B.V. | Means and methods for producing a protein through chromatin openers that are capable of rendering chromatin more accessible to transcription factors |
EP2395016A3 (en) | 2003-05-30 | 2012-12-19 | Merus B.V. | Design and use of paired variable regions of specific binding molecules |
US20100069614A1 (en) | 2008-06-27 | 2010-03-18 | Merus B.V. | Antibody producing non-human mammals |
JP4749334B2 (ja) | 2003-10-02 | 2011-08-17 | クルセル ホランド ベー ヴェー | 組換えアデノウイルス用パッケージング細胞 |
WO2005059149A2 (en) * | 2003-12-12 | 2005-06-30 | Chromagenics B.V. | Improved protein production |
DK1737971T3 (da) | 2004-01-20 | 2017-11-13 | Merus Nv | Blandinger af bindingsproteiner |
MXPA06014553A (es) * | 2004-07-08 | 2007-03-12 | Chromagenics Bv | Secuencia novedosa para mejorar la expresion del acido nucleico. |
WO2006018319A1 (en) * | 2004-08-18 | 2006-02-23 | Bayer Cropscience Gmbh | Plants with increased plastidic activity of r3 starch-phosphorylating enzyme |
US8039230B2 (en) | 2004-11-08 | 2011-10-18 | Chromagenics B.V. | Selection of host cells expressing protein at high levels |
US20060195935A1 (en) | 2004-11-08 | 2006-08-31 | Chromagenics B.V. | Selection of host cells expressing protein at high levels |
US20100136616A1 (en) * | 2004-11-08 | 2010-06-03 | Chromagenics B.V. | Selection of Host Cells Expressing Protein at High Levels |
US8999667B2 (en) | 2004-11-08 | 2015-04-07 | Chromagenics B.V. | Selection of host cells expressing protein at high levels |
JP5291341B2 (ja) * | 2004-11-08 | 2013-09-18 | クロマジェニックス ベー ヴェー | タンパク質を高レベルで発現する宿主細胞の選定 |
SI1809750T1 (sl) * | 2004-11-08 | 2012-08-31 | Chromagenics Bv | Izbira gostiteljskih celic, ki imajo visok nivo izraĹľanja proteina |
KR100984602B1 (ko) * | 2004-11-18 | 2010-09-30 | 고쿠리츠다이가쿠호진 히로시마다이가쿠 | 유전자 증폭에 의해 형성된 반복서열로부터, 발현이 억제된단백질을 발현시키는 방법, 키트, 및 형질전환체 |
EP1996705B1 (en) | 2006-03-20 | 2011-08-31 | ChromaGenics B.V. | Expression augmenting dna fragments, use thereof, and methods for finding thereof |
US20080124760A1 (en) | 2006-07-26 | 2008-05-29 | Barbara Enenkel | Regulatory Nucleic Acid Elements |
JP2010515435A (ja) * | 2007-01-08 | 2010-05-13 | ミリポア・コーポレイション | 遺伝子増幅を不要とする高発現細胞株 |
WO2010147464A1 (en) | 2009-06-15 | 2010-12-23 | Cellagenics B.V. | Use of a cysteine synthesizing enzyme as selectable marker |
US8566596B2 (en) | 2010-08-24 | 2013-10-22 | Cisco Technology, Inc. | Pre-association mechanism to provide detailed description of wireless services |
DK2611915T3 (da) | 2010-09-01 | 2015-06-22 | Cellagenics B V | Nukleinsyrefragmenter fra en ribosomal proteinpromoter til forstærkning af genekspression |
AU2013249985B2 (en) | 2012-04-20 | 2017-11-23 | Merus N.V. | Methods and means for the production of Ig-like molecules |
SG11201408646VA (en) | 2012-07-06 | 2015-01-29 | Genmab Bv | Dimeric protein with triple mutations |
ES2692951T3 (es) | 2012-09-27 | 2018-12-05 | Merus N.V. | Anticuerpos IgG biespecíficos como acopladores de células T |
US10417380B1 (en) | 2013-12-31 | 2019-09-17 | Mckesson Corporation | Systems and methods for determining and communicating a prescription benefit coverage denial to a prescriber |
US10489552B2 (en) | 2014-02-14 | 2019-11-26 | Mckesson Corporation | Systems and methods for determining and communicating patient incentive information to a prescriber |
JP6771385B2 (ja) | 2014-02-28 | 2020-10-21 | メルス ナムローゼ フェンノートシャップ | 二重特異性抗体および医薬組成物 |
KR20240042540A (ko) | 2014-02-28 | 2024-04-02 | 메뤼스 엔.페. | ErbB-2와 ErbB-3에 결합하는 항체 |
US10157262B1 (en) | 2015-03-10 | 2018-12-18 | Mckesson Corporation | Systems and methods for determining patient financial responsibility for multiple prescription products |
CA2991880A1 (en) | 2015-07-10 | 2017-01-19 | Merus N.V. | Human cd3 binding antibody |
SI3365373T1 (sl) | 2015-10-23 | 2021-08-31 | Merus N.V. | Vezne molekule, ki zaviranjo rast raka |
US11514137B1 (en) | 2016-03-30 | 2022-11-29 | Mckesson Corporation | Alternative therapy identification system |
US10999224B1 (en) | 2017-02-01 | 2021-05-04 | Mckesson Corporation | Method and apparatus for parsing an electronic message and constructing multiple differently prioritized messages therefrom |
MX2019011660A (es) | 2017-03-31 | 2019-11-18 | Merus Nv | Anticuerpos biespecificos que se unen al receptor 2 del factor de crecimiento humano (erbb-2) y receptor 3 del factor de crecimiento humano (erbb3) para usarse en el tratamiento de celulas que tienen un gen de fusion de neuregulina-1 (nrg1). |
KR20200042485A (ko) | 2017-08-09 | 2020-04-23 | 메뤼스 엔.페. | EGFR 및 cMET에 결합하는 항체 |
US10862832B1 (en) | 2018-07-24 | 2020-12-08 | Mckesson Corporation | Computing system and method for automatically reversing an action indicated by an electronic message |
US11043437B2 (en) | 2019-01-07 | 2021-06-22 | Applied Materials, Inc. | Transparent substrate with light blocking edge exclusion zone |
US11562437B1 (en) | 2019-06-26 | 2023-01-24 | Mckesson Corporation | Method, apparatus, and computer program product for providing estimated prescription costs |
US11636548B1 (en) | 2019-06-26 | 2023-04-25 | Mckesson Corporation | Method, apparatus, and computer program product for providing estimated prescription costs |
EP3772518A1 (en) | 2019-08-07 | 2021-02-10 | Merus N.V. | Modified human variable domains |
US20230104317A1 (en) * | 2020-01-31 | 2023-04-06 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods to Identify Genetic Silencers and Applications Thereof |
US11610240B1 (en) | 2020-02-17 | 2023-03-21 | Mckesson Corporation | Method, apparatus, and computer program product for partitioning prescription transaction costs in an electronic prescription transaction |
MX2022014208A (es) | 2020-05-21 | 2022-12-07 | Merus Nv | Metodos y medios para la produccion de moleculas tipo ig. |
US11587657B2 (en) | 2020-09-04 | 2023-02-21 | Mckesson Corporation | Method, apparatus, and computer program product for performing an alternative evaluation procedure in response to an electronic message |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US719271A (en) * | 1902-01-13 | 1903-01-27 | Solomon P Smith | Furnace. |
US5610053A (en) | 1993-04-07 | 1997-03-11 | The United States Of America As Represented By The Department Of Health And Human Services | DNA sequence which acts as a chromatin insulator element to protect expressed genes from cis-acting regulatory sequences in mammalian cells |
US5972605A (en) | 1994-07-07 | 1999-10-26 | Geron Corporation | Assays for regulators of mammalian telomerase expression |
AU699275B2 (en) * | 1995-03-24 | 1998-11-26 | Shionogi & Co., Ltd. | DNA molecule relating to suppression of gene expression and novel protein |
DE19539493A1 (de) * | 1995-10-24 | 1997-04-30 | Thomae Gmbh Dr K | Starker homologer Promotor aus Hamster |
US5773695A (en) | 1996-01-26 | 1998-06-30 | North Carolina State University | Plant nuclear scaffold attachment region and method for increasing gene expression in transgenic cells |
US6037525A (en) * | 1996-08-01 | 2000-03-14 | North Carolina State University | Method for reducing expression variability of transgenes in plant cells |
US5888809A (en) | 1997-05-01 | 1999-03-30 | Icos Corporation | Hamster EF-1α transcriptional regulatory DNA |
KR100795626B1 (ko) | 1998-07-21 | 2008-01-17 | 코브라 바이오매뉴팩쳐링 피엘씨. | 도처에 있는 염색질 개방 요소(유씨오이)를 포함하는폴리뉴클레오티드 |
US6872524B1 (en) | 1998-08-14 | 2005-03-29 | Chromagenics B.V. | Method of detecting an expression-enhancing sequence |
US6800457B2 (en) | 1998-09-22 | 2004-10-05 | Bristol-Myers Squibb Company | Expression vectors containing hot spot for increased recombinant protein expression in transfected cells |
US6521419B1 (en) | 1998-09-22 | 2003-02-18 | Kanakaraju Koduri | Expression vectors containing hot spot for increased recombinant protein expression in transfected cells |
US6395549B1 (en) | 1998-10-22 | 2002-05-28 | Medical College Of Georgia Research Institute, Inc. | Long terminal repeat, enhancer, and insulator sequences for use in recombinant vectors |
PT1210411E (pt) * | 1999-08-25 | 2006-12-29 | Immunex Corp | Composições e métodos para cultura celular melhorada |
US20030166042A1 (en) | 2000-02-11 | 2003-09-04 | Millennium Pharmaceuticals, Inc. | Novel seven-transmembrane proteins/G-protein coupled receptors |
US6586205B1 (en) | 2000-02-11 | 2003-07-01 | Millennium Pharmaceuticals, Inc. | 43239 a novel GPCR-like molecule and uses thereof |
AU2001290067B2 (en) | 2000-09-20 | 2007-04-05 | Emd Millipore Corporation | Artificial ubiquitous chromatin opening elements (UCOE) |
EP1273666A1 (en) | 2001-07-04 | 2003-01-08 | Chromagenics B.V. | Method of selecting a DNA sequence with transcription modulating activity using a vector comprising an element with a gene transcription repressing activity |
ES2344070T3 (es) | 2001-07-04 | 2010-08-17 | Chromagenics B.V. | Secuencias de adn con actividad anti-represora. |
EP1513936A2 (en) * | 2002-06-14 | 2005-03-16 | Chromagenics B.V. | Use of repression blocking sequences in methods for enhancing gene expression |
ES2362273T3 (es) * | 2002-06-14 | 2011-06-30 | Chromagenics B.V. | Método para la producción simultánea de múltiples proteínas; vectores y células para su uso en el mismo. |
WO2004055215A1 (en) | 2002-12-18 | 2004-07-01 | Chromagenics B.V. | A method for improving protein production |
EP1572994B1 (en) | 2002-12-20 | 2007-02-21 | Chromagenics B.V. | Means and methods for producing a protein through chromatin openers that are capable of rendering chromatin more accessible to transcription factors |
-
2002
- 2002-06-14 ES ES06124470T patent/ES2344070T3/es not_active Expired - Lifetime
- 2002-06-14 EP EP06124475A patent/EP1829971B1/en not_active Expired - Lifetime
- 2002-06-14 EP EP02741531A patent/EP1404872B1/en not_active Expired - Lifetime
- 2002-06-14 DK DK06124482.8T patent/DK1829972T3/da active
- 2002-06-14 EP EP06124482A patent/EP1829972B1/en not_active Expired - Lifetime
- 2002-06-14 DE DE60236331T patent/DE60236331D1/de not_active Expired - Lifetime
- 2002-06-14 AT AT05076209T patent/ATE358183T1/de active
- 2002-06-14 DE DE60237048T patent/DE60237048D1/de not_active Expired - Lifetime
- 2002-06-14 AT AT02741531T patent/ATE343004T1/de active
- 2002-06-14 PT PT05076209T patent/PT1600510E/pt unknown
- 2002-06-14 ES ES06124481T patent/ES2344072T3/es not_active Expired - Lifetime
- 2002-06-14 AT AT06124481T patent/ATE466944T1/de active
- 2002-06-14 AT AT06124482T patent/ATE467682T1/de active
- 2002-06-14 ES ES06124482T patent/ES2344073T3/es not_active Expired - Lifetime
- 2002-06-14 ES ES05076209T patent/ES2285630T3/es not_active Expired - Lifetime
- 2002-06-14 AU AU2002314629A patent/AU2002314629B2/en not_active Expired
- 2002-06-14 DK DK06124481.0T patent/DK1845162T3/da active
- 2002-06-14 EP EP06124470A patent/EP1806407B1/en not_active Expired - Lifetime
- 2002-06-14 CA CA2450020A patent/CA2450020C/en not_active Expired - Lifetime
- 2002-06-14 DK DK02741531T patent/DK1404872T3/da active
- 2002-06-14 EP EP06124481A patent/EP1845162B1/en not_active Expired - Lifetime
- 2002-06-14 KR KR1020097003929A patent/KR100942117B1/ko active IP Right Grant
- 2002-06-14 CN CNB028135717A patent/CN1266282C/zh not_active Expired - Lifetime
- 2002-06-14 DE DE60219221T patent/DE60219221T2/de not_active Expired - Lifetime
- 2002-06-14 ES ES06124475T patent/ES2344071T3/es not_active Expired - Lifetime
- 2002-06-14 MX MXPA03011801A patent/MXPA03011801A/es active IP Right Grant
- 2002-06-14 BR BRPI0210771A patent/BRPI0210771B8/pt not_active IP Right Cessation
- 2002-06-14 DK DK06124470.3T patent/DK1806407T3/da active
- 2002-06-14 DK DK06124475.2T patent/DK1829971T3/da active
- 2002-06-14 ES ES06124491T patent/ES2344074T3/es not_active Expired - Lifetime
- 2002-06-14 IL IL15967402A patent/IL159674A0/xx active IP Right Grant
- 2002-06-14 DE DE60236332T patent/DE60236332D1/de not_active Expired - Lifetime
- 2002-06-14 SG SG200600027-7A patent/SG143066A1/en unknown
- 2002-06-14 AT AT06124465T patent/ATE474053T1/de active
- 2002-06-14 WO PCT/NL2002/000390 patent/WO2003004704A2/en active Application Filing
- 2002-06-14 AT AT06124491T patent/ATE466943T1/de active
- 2002-06-14 NZ NZ530218A patent/NZ530218A/en not_active IP Right Cessation
- 2002-06-14 AT AT06124470T patent/ATE466941T1/de active
- 2002-06-14 ES ES02741531T patent/ES2274045T3/es not_active Expired - Lifetime
- 2002-06-14 AT AT06124475T patent/ATE466942T1/de active
- 2002-06-14 DK DK06124491.9T patent/DK1842919T3/da active
- 2002-06-14 ES ES06124465T patent/ES2348174T3/es not_active Expired - Lifetime
- 2002-06-14 CA CA2812799A patent/CA2812799C/en not_active Expired - Lifetime
- 2002-06-14 EP EP06124465A patent/EP1808488B1/en not_active Expired - Lifetime
- 2002-06-14 DK DK06124465.3T patent/DK1808488T3/da active
- 2002-06-14 DE DE60236334T patent/DE60236334D1/de not_active Expired - Lifetime
- 2002-06-14 JP JP2003510461A patent/JP4500044B2/ja not_active Expired - Fee Related
- 2002-06-14 DE DE60215502T patent/DE60215502T2/de not_active Expired - Lifetime
- 2002-06-14 DE DE60236333T patent/DE60236333D1/de not_active Expired - Lifetime
- 2002-06-14 EP EP05076209A patent/EP1600510B1/en not_active Expired - Lifetime
- 2002-06-14 KR KR1020097003928A patent/KR100942116B1/ko active IP Right Grant
- 2002-06-14 DE DE60236379T patent/DE60236379D1/de not_active Expired - Lifetime
- 2002-06-14 DK DK05076209T patent/DK1600510T3/da active
- 2002-06-14 EP EP06124491A patent/EP1842919B1/en not_active Expired - Lifetime
- 2002-07-05 US US10/190,312 patent/US7192741B2/en not_active Expired - Lifetime
-
2003
- 2003-12-10 ZA ZA200309599A patent/ZA200309599B/en unknown
-
2004
- 2004-01-01 IL IL159674A patent/IL159674A/en unknown
- 2004-01-02 NO NO20040011A patent/NO338477B1/no not_active IP Right Cessation
-
2005
- 2005-02-04 HK HK05100936A patent/HK1068652A1/xx not_active IP Right Cessation
-
2006
- 2006-10-13 US US11/580,605 patent/US7749733B2/en not_active Expired - Fee Related
- 2006-10-13 US US11/580,760 patent/US7655441B2/en not_active Expired - Lifetime
- 2006-10-13 US US11/580,494 patent/US7736868B2/en not_active Expired - Fee Related
- 2006-10-13 US US11/580,620 patent/US7736870B2/en not_active Expired - Fee Related
- 2006-10-13 US US11/580,644 patent/US7662591B2/en not_active Expired - Lifetime
- 2006-10-13 US US11/580,619 patent/US7736869B2/en not_active Expired - Fee Related
- 2006-10-13 US US11/580,604 patent/US7659094B2/en not_active Expired - Lifetime
-
2007
- 2007-01-15 US US11/653,607 patent/US7951586B2/en not_active Expired - Fee Related
- 2007-06-19 CY CY20071100805T patent/CY1107678T1/el unknown
- 2007-11-22 AU AU2007234619A patent/AU2007234619B2/en not_active Expired
-
2008
- 2008-08-11 IL IL193374A patent/IL193374A/en active IP Right Grant
- 2008-08-11 IL IL193373A patent/IL193373A/en active IP Right Grant
-
2010
- 2010-01-18 JP JP2010008591A patent/JP5014443B2/ja not_active Expired - Lifetime
- 2010-01-18 JP JP2010008592A patent/JP5014444B2/ja not_active Expired - Lifetime
-
2011
- 2011-05-11 AU AU2011202193A patent/AU2011202193B2/en not_active Expired
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113539357A (zh) * | 2021-06-10 | 2021-10-22 | 阿里巴巴新加坡控股有限公司 | 基因检测方法、模型训练方法、装置、设备及系统 |
CN113539357B (zh) * | 2021-06-10 | 2024-04-30 | 阿里巴巴达摩院(杭州)科技有限公司 | 基因检测方法、模型训练方法、装置、设备及系统 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1266282C (zh) | 包含基因转录调节特性的dna序列及检测和应用这些dna序列的方法 | |
US7794977B2 (en) | Means and methods for regulating gene expression | |
EP1513937B1 (en) | A method for the stimultaneaous production of multiple proteins; vectors and cells for use therein | |
CN1416467A (zh) | 锌指结构域及其鉴定方法 | |
JP2004533262A5 (zh) | ||
CN101068929A (zh) | 参与植物纤维发育的多核苷酸和多肽和使用它们的方法 | |
CN1798843A (zh) | 植物中细胞分裂素活性的调节 | |
CN101040050A (zh) | 具有改良生长特性的植物及其制备方法 | |
CN1289522C (zh) | 锌指结构域文库 | |
CA2812821C (en) | Dna sequences comprising gene transcription regulatory qualities and methods for detecting and using such dna sequences | |
CN1788078A (zh) | 细胞增殖、发育分化受到改变的植物细胞和植物 | |
CN1766118A (zh) | 转录水平沉默的植物基因 | |
AU2011218621B2 (en) | A method for simultaneous production of multiple proteins; vectors and cells for use therein | |
CN1764722A (zh) | 环amp效应元件激活蛋白及其相关用途 | |
AU2008202251B2 (en) | A method for simultaneous production of multiple proteins; vectors and cells for use therein | |
Class et al. | Patent application title: Method for simultaneous production of multiple proteins; vectors and cells for use therein Inventors: Arie Pieter Otte (Amersfoort, NL) Arie Pieter Otte (Amersfoort, NL) Arthur Leo Kruckeberg (Shoreline, WA, US) Richard George Antonius Bernardus Sewalt (Arnhem, NL) Assignees: Crucell Holland BV |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1068652 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CX01 | Expiry of patent term | ||
CX01 | Expiry of patent term |
Granted publication date: 20060726 |