EP1266027A2 - Dynamische sequenzierung durch hybridisierung - Google Patents
Dynamische sequenzierung durch hybridisierungInfo
- Publication number
- EP1266027A2 EP1266027A2 EP00979642A EP00979642A EP1266027A2 EP 1266027 A2 EP1266027 A2 EP 1266027A2 EP 00979642 A EP00979642 A EP 00979642A EP 00979642 A EP00979642 A EP 00979642A EP 1266027 A2 EP1266027 A2 EP 1266027A2
- Authority
- EP
- European Patent Office
- Prior art keywords
- sequence
- probes
- length
- hybridization
- poks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 34
- 238000009396 hybridization Methods 0.000 title claims description 68
- 239000000523 sample Substances 0.000 claims abstract description 235
- 238000000034 method Methods 0.000 claims abstract description 133
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 59
- 239000002773 nucleotide Substances 0.000 claims abstract description 56
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 37
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 34
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 34
- 108020004414 DNA Proteins 0.000 claims description 42
- 102000004190 Enzymes Human genes 0.000 claims description 27
- 108090000790 Enzymes Proteins 0.000 claims description 27
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims description 12
- 102000053602 DNA Human genes 0.000 claims description 10
- 230000000295 complement effect Effects 0.000 claims description 8
- 239000000969 carrier Substances 0.000 claims description 7
- 238000013467 fragmentation Methods 0.000 claims description 7
- 238000006062 fragmentation reaction Methods 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 6
- 238000005194 fractionation Methods 0.000 claims description 5
- 102000054765 polymorphisms of proteins Human genes 0.000 claims description 4
- 101710163270 Nuclease Proteins 0.000 claims description 3
- 210000000349 chromosome Anatomy 0.000 claims description 3
- 239000013612 plasmid Substances 0.000 claims description 3
- 108091008146 restriction endonucleases Proteins 0.000 claims description 3
- 108090000994 Catalytic RNA Proteins 0.000 claims description 2
- 102000053642 Catalytic RNA Human genes 0.000 claims description 2
- 108020004682 Single-Stranded DNA Proteins 0.000 claims description 2
- 239000002923 metal particle Substances 0.000 claims description 2
- 108091092562 ribozyme Proteins 0.000 claims description 2
- 208000024191 minimally invasive lung adenocarcinoma Diseases 0.000 claims 1
- 229920000642 polymer Polymers 0.000 abstract description 3
- 230000009870 specific binding Effects 0.000 abstract description 3
- 238000003491 array Methods 0.000 description 29
- 230000008569 process Effects 0.000 description 27
- 238000002360 preparation method Methods 0.000 description 16
- 239000012634 fragment Substances 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 10
- 230000002068 genetic effect Effects 0.000 description 10
- 238000003752 polymerase chain reaction Methods 0.000 description 9
- 238000010276 construction Methods 0.000 description 8
- 238000002372 labelling Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 230000002255 enzymatic effect Effects 0.000 description 7
- 238000000338 in vitro Methods 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 6
- 238000001962 electrophoresis Methods 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 108091028043 Nucleic acid sequence Proteins 0.000 description 5
- 238000013459 approach Methods 0.000 description 5
- 239000003814 drug Substances 0.000 description 5
- 230000035772 mutation Effects 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000013518 transcription Methods 0.000 description 5
- 230000035897 transcription Effects 0.000 description 5
- 230000003321 amplification Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000007062 hydrolysis Effects 0.000 description 4
- 238000006460 hydrolysis reaction Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 3
- 241000894006 Bacteria Species 0.000 description 3
- 238000000018 DNA microarray Methods 0.000 description 3
- 241000196324 Embryophyta Species 0.000 description 3
- 241000282412 Homo Species 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 241000700605 Viruses Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000005520 cutting process Methods 0.000 description 3
- 238000004925 denaturation Methods 0.000 description 3
- 230000036425 denaturation Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000001502 gel electrophoresis Methods 0.000 description 3
- 108020004999 messenger RNA Proteins 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 230000003252 repetitive effect Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 108010008286 DNA nucleotidylexotransferase Proteins 0.000 description 2
- 239000003298 DNA probe Substances 0.000 description 2
- 102100029764 DNA-directed DNA/RNA polymerase mu Human genes 0.000 description 2
- 108090000626 DNA-directed RNA polymerases Proteins 0.000 description 2
- 102000004163 DNA-directed RNA polymerases Human genes 0.000 description 2
- 108091034117 Oligonucleotide Proteins 0.000 description 2
- 101710086015 RNA ligase Proteins 0.000 description 2
- 108010065868 RNA polymerase SP6 Proteins 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 2
- 102000039471 Small Nuclear RNA Human genes 0.000 description 2
- 108020004688 Small Nuclear RNA Proteins 0.000 description 2
- 101710137500 T7 RNA polymerase Proteins 0.000 description 2
- 108020004566 Transfer RNA Proteins 0.000 description 2
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 2
- 108010028263 bacteriophage T3 RNA polymerase Proteins 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000027455 binding Effects 0.000 description 2
- 238000009739 binding Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 239000002299 complementary DNA Substances 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 230000005684 electric field Effects 0.000 description 2
- 239000007850 fluorescent dye Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 239000013600 plasmid vector Substances 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000002285 radioactive effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000010839 reverse transcription Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 238000002604 ultrasonography Methods 0.000 description 2
- 108020004635 Complementary DNA Proteins 0.000 description 1
- 108020003215 DNA Probes Proteins 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 241000588724 Escherichia coli Species 0.000 description 1
- 239000006090 Foturan Substances 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000037273 Pathologic Processes Diseases 0.000 description 1
- 239000004809 Teflon Substances 0.000 description 1
- 229920006362 Teflon® Polymers 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 150000007513 acids Chemical class 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 210000004436 artificial bacterial chromosome Anatomy 0.000 description 1
- 210000001106 artificial yeast chromosome Anatomy 0.000 description 1
- 238000007846 asymmetric PCR Methods 0.000 description 1
- 238000010804 cDNA synthesis Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000005251 capillar electrophoresis Methods 0.000 description 1
- 238000001818 capillary gel electrophoresis Methods 0.000 description 1
- 238000013375 chromatographic separation Methods 0.000 description 1
- 238000004587 chromatography analysis Methods 0.000 description 1
- 239000013611 chromosomal DNA Substances 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 239000006059 cover glass Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- GNBHRKFJIUUOQI-UHFFFAOYSA-N fluorescein Chemical compound O1C(=O)C2=CC=CC=C2C21C1=CC=C(O)C=C1OC1=CC(O)=CC=C21 GNBHRKFJIUUOQI-UHFFFAOYSA-N 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000499 gel Substances 0.000 description 1
- 238000012252 genetic analysis Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000007641 inkjet printing Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004020 luminiscence type Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003463 organelle Anatomy 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000009054 pathological process Effects 0.000 description 1
- 239000011295 pitch Substances 0.000 description 1
- 239000004033 plastic Substances 0.000 description 1
- 229920003023 plastic Polymers 0.000 description 1
- 239000002574 poison Substances 0.000 description 1
- 231100000614 poison Toxicity 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000006798 ring closing metathesis reaction Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6834—Enzymatic or biochemical coupling of nucleic acids to a solid phase
- C12Q1/6837—Enzymatic or biochemical coupling of nucleic acids to a solid phase using probe arrays or probe chips
Definitions
- the invention relates to a method for sequencing nucleic acids using carrier chips which contain polymer probes composed of nucleotides and / or nucleotide analogs and which permit specific binding with nucleic acids present in a sample.
- the method is carried out dynamically in several cycles, the sequence information obtained from a previous cycle being used to modify carrier-bound probes in the subsequent cycle.
- Genetic information is obtained by analyzing nucleic acids, usually in the form of DNA.
- the first is called polymerase chain reaction (PCR). These and related methods are used for the selective enzyme-assisted amplification of DNA by using short flanking DNA strands with a known sequence to start the enzymatic synthesis of the region in between. The sequence of this area need not be known in detail.
- the mechanism thus allows the selective duplication of a certain DNA section based on a small section of information (the flanking DNA strands), so that this replicated DNA strand is available in large quantities for further work and analysis.
- Electrophoresis is used as the second basic technology. It is a technique for separating DNA molecules based on their size.
- Electrophoresis is the most important established method for DNA sequencing and also for many methods for the purification and analysis of DNA. The most common method is flat bed gel electrophoresis, which, however, is increasingly being replaced by capillary gel electrophoresis in the area of high throughput sequencing.
- the third method is the analysis of nucleic acids by so-called hybridization.
- a DNA probe with a known sequence is used to identify a complementary nucleic acid, mostly against the background of a complex mixture of a large number of DNA or RNA molecules.
- the matching strands bind together stably and very specifically.
- the three basic techniques are often used in combination, e.g. the sample material for a hybridization experiment is selectively multiplied beforehand by PCR.
- Sequence analysis on a DNA carrier chip also uses the principle of hybridizing matching DNA strands.
- the development of DNA carrier chips or DNA arrays means extreme parallelization and miniaturization of the format of hybridization experiments.
- DNA in a sample can only bind to the DNA fixed on the support where the sequence of the two DNA strands matches.
- the complementary DNA can be selectively detected in the sample. This will For example, mutations in the sample material are recognized by the pattern that arises on the carrier after hybridization.
- the main bottleneck when processing very complex genetic information with such a carrier is access to this information due to the limited number of measuring stations on the carrier.
- a measuring station is a reaction area in which DNA molecules as specific reaction partners, so-called probes, are synthesized during the production of the carrier.
- genetic information must be differentiated between unknown sequences that are decoded for the first time (this is generally understood under the term sequencing, also de novo sequencing) and known sequences that are to be identified for reasons other than the first decoding. Such other reasons are, for example, the study of the expression of genes or the verification of the sequence of a DNA section of interest in an individual. This can e.g. to compare the individual sequence with a standard, such as in mutation analysis of cancer cells and the typing of HIV viruses.
- the finished probes are manufactured individually either in a synthesizer (chemical) or from isolated DNA (enzymatic) and then applied to the surface of the chip in the form of tiny drops, namely each individual type of probe on a single measuring station.
- the most common process for this is derived from inkjet printing technology, which is why these processes are summarized under the generic term spotting.
- Methods using needles are also widespread. Only by micro-positioning the print head or JMadel can a signal on the chip be assigned to a specific probe (array with rows and columns). The spotting devices have to work correspondingly precisely.
- the DNA probes are produced directly on the chip, using site-specific chemistry (in situ synthesis). There are currently two procedures for this.
- the invention relates to a method for sequencing nucleic acids comprising the steps:
- step (ii) Contains nucleic acids with the support under conditions in which hybridization between the nucleic acids to be sequenced and probes complementary thereto can take place on the support, and (iii) identifying the predetermined regions on the support to which hybridization takes place in step (ii) is
- hybridization cycle has been observed, and the selected hybridization probes are extended by at least one nucleotide compared to a previous cycle,
- step (ii) repeating step (a) (i) with the further carrier, and
- step (iii) repeating step (a) (iii) with the further carrier, and
- the method described here for the sequencing of nucleic acids by hybridization allows, with the aid of an iterative, dynamic construction of all the specific probes required for this, the sequencing of sample material (also much larger than 10 kbp) with an unknown sequence.
- the sequencing comprises both a fragment analysis (a few dozen to 1 00 bp) and the mapping of the fragments within the starting sequence.
- carrier or reaction carrier should be understood to mean both open and closed carriers.
- Open supports can be planar (e.g. laboratory cover glass), but also specially shaped (e.g. bowl-shaped). In the case of all open beams, the surface is to be understood as a surface on the outside of the beam.
- Closed supports have an internal structure that includes, for example, microchannels, reaction spaces and / or capillaries.
- the surfaces of the carrier are to be understood as the surfaces of the two- or three-dimensionally pronounced microstructure inside the carrier.
- Glass for example, is used as the material for supports such as Pyrax, Ubk7, B270, Foturan, silicon and silicon derivatives, plastics such as PVC, COC or Teflon and Kalrez.
- the array required in the method does not necessarily have to be limited to one carrier, it is quite possible to distribute a "virtual array" over several carriers. If necessary, the number of parking spaces can be increased.
- probes are produced flexibly on or in the carrier, so that an information flow is possible.
- Each new synthesis of the array in successive cycles can take into account the results of a previous experiment.
- a suitable choice of the hybridization probes which can be oligonucleotides, but also nucleic acid analogs such as peptidic nucleic acids, in terms of their length, sequence and distribution on the reaction support, and by feedback of the system with integrated signal evaluation, enables efficient processing of genetic information.
- the invention relates to a carrier for the sequencing of nucleonic acids with a surface which contains hybridization probes immobilized in a large number of predetermined regions, the hybridization probes each having a different base sequence with a predetermined length in individual regions, the hybridization probes being able to have, in addition to variable sections, one or more sections which are fixed for at least some of the probes.
- the method and carrier can be used for sequence determination of genomes, chromosomes, transcriptomes as well as for the identification of polymorphisms in nucleic acid sequences, e.g. be used at the level of individual individuals.
- the binding of the nucleic acids to hybridization probes at the respective partial areas on the carrier surface is preferably detected via labeling groups.
- the labeling groups can be bound directly or indirectly to the nucleic acid to be sequenced.
- marker groups are used which are optically detectable, e.g. by fluorescence, light refraction, luminescence or absorption.
- Preferred examples of labeling groups are fluorescent groups or optically detectable metal particles, e.g. Gold particles.
- Table 1 shows the relationship between the sequence section length n, the sequence length m and the maximum number of partial sequences of length n contained in the sequence of length m. In each sequence, which is shorter than the value given for m, not all possible sections of the specified length n occur.
- the average occurrence of the chosen p-mer in the initial sequence is plotted under idealized assumptions, from which the value for n is determined, for which the complete variety of ⁇ -mers can still occur after the p-mer. This no longer applies to any larger p or shorter sequence.
- a longer p-mer limits the diversity within the examined sequence more clearly than a shorter p-mer, since the longer p-mer occurs less frequently.
- the system becomes a "learning" system.
- all probes that have generated a signal on the previous array are synthesized on a new array and by each at least one nucleot.d extended with all possible variations, ie with one nucleotide extension, four differently extended hybridization probes are produced.
- the number of signals will no longer increase because their number (under idealized assumptions) cannot be greater than the maximum number of different partial sequences in the output sequence. Under "normal" conditions there will be signals that should not have arisen according to idealized conditions.
- These probes can initially be built up further, possible errors in the course of the iteration can be eliminated by lengthened probes and the resulting more specific bindings. In practice, moreover, the complete variety of all possible partial sequences will never occur in a sequence to be examined, so that significantly fewer signals than the maximum possible number are generated.
- the probe length of the first array in such a way that, after hybridization, signals emit a maximum of 25% of all parking spaces. This procedure ensures that the number of probes does not increase in the next step.
- the probes on the new array can thus be selected one base longer than the probes on the previous array without increasing the number of probes.
- the length m of the sequence (in this case a single strand, the same applies to a double strand) must be smaller than the permitted number of signals for such a choice of start probes, in formulas: m ⁇ 4 s 1 + s-1, where s is the Probe length is.
- a probe length of 1 7 bases is sufficient to theoretically ensure that binding occurs at less than 25% of all sites on the array.
- probes are already available Length 1 3 sufficient. The number of parking spaces of all subsequent arrays will not exceed the number of parking spaces on these arrays.
- the number of signals on the first array is not chosen according to the method described above, the number of signals will level off during the course of the method below the maximum value of mn -i- 1, where n is that described in the first section Length is for which the diversity of all n-mers is greater than the number of possible / 7-mers in the starting sequence. If you choose a probe length that is too short at the beginning, the number of parking spaces required will increase in the next steps up to a maximum of 4 n 1 parking spaces and then stagnate. If you select the probes too long, significantly less than 25% of all parking spaces will be successful in the hybridization, so that the number of parking spaces required is automatically reduced in the next step.
- the diversity of the partial sequences in a sequence of length m can be reduced even further by only looking at sequence sections which follow a predetermined sequence of nucleotides.
- the number of probes to be synthesized is in any case 4 n , that is the set of all possibilities to construct the flexible probe part.
- Table 4 Maximum possible length of the starting sequence in relation to the length of the probe and its composition.
- the dynamic structure of a sequence of arrays thus offers the advantage that after evaluation of the information of the predecessor or arrays new array can be built that provides the required data. It is possible to gain knowledge of partial sequences in the starting sequence of a specific length, for example of 25 bases and more, without having to build up all possible combinations of this length.
- the process automatically adjusts to a maximum number of signals and thus to a maximum number of parking spaces per array.
- p-mers occur in a sequence to be determined with different probabilities.
- the basic idea of the DSBH is to select p-mers that occur in the sequence at regular intervals, they can be understood as "islands", the sequence of which is already known. Starting from these fixed locations of known sequence (Points of Known Sequence, POKS for short), the sample sequence is now determined. First three types of probes are required on the arrays:
- the probes (1), (2) and (3) can be used together or / and in succession on the same support or on different supports.
- all combinations of a given length are synthesized, the reverse sequence to the selected POKS being built up once at the 3 ' end of the sequence and once at the 5' end of the sequence.
- information about all nucleotide combinations of the given length is obtained once in the 3 ' -5 ' direction towards the POKS and once in the 3 ' -5 ' direction away from the POKS.
- all the probes of the parking spaces that have generated a signal are synthesized on a new array and each is extended by one nucleotide in all four variations. If there is a sufficiently large number of parking spaces on the array, two or more iteration steps can also be processed on an array, ie an extension by two or more nucleotides can take place.
- probes in which the sequence complementary to the POKS is built up at the 3 ' end are extended in the 5 ' direction, and probes with the complementary POKS sequence at the 5 ' end are extended accordingly in 3 ' direction. If the iteration has reached a maximum probe length, the sequence of the nucleotides along the length of the maximum probe length is known on both sides of each POKS. The probe length is either limited by the possibilities of the system used or by a compromise between the time it takes to get the final result and its accuracy.
- the third type of probe is used to establish the connection between the sequences determined above. Now all probe sequences are determined which have the POKS counter sequence in the center and in front of or behind it parts of the information obtained by the first two probes. These probes are built on a new array; after Hybridization and evaluation of the signals are known to all possibilities for which the sequences determined by the first two types of probes may be put together.
- This information can also be obtained through an iterative array construction, in which all combinations of a certain length are built up before and after the POKS counter sequence. After evaluating the signals, the relevant probes are extended further as described above, now in both directions, etc. However, if the number of parking spaces is sufficiently large, these iteration steps can be avoided by immediately building up the required probes to the maximum length.
- the array with the third type of probe solves a combinatorial task in a highly parallel manner, which without a flexible array structure can only be solved with a great deal of computing effort with the aid of computers.
- the shifting of this task to the array means a considerable saving of time compared to a combinatorics on the computer and also provides more reliable data.
- the starting sequence can be reassembled using the method described above, by comparing and combining the overlaps of the partial sequences determined by the individual POKS.
- the sequencing described here starts from single-stranded nucleic acids.
- these can be isolated directly from viruses, bacteria, plants, animals or humans in the form of single-stranded RNA or DNA.
- the single-stranded nucleic acids are generated from dsDNA using special in vitro methods. These include, for example, asymmetric PCR (generates ssDNA), PCR with derivatized primers that enable selective hydrolysis of a single strand in the PCR product, or transcription by RNA polymerases (generates ssRNA).
- the transcription can also be used as a template, especially dsDNA cloned in special vectors (for example plasmid vectors with a promoter; plasmid vectors with two differently oriented promoters for a specific or two different RNA polymerases).
- special vectors for example plasmid vectors with a promoter; plasmid vectors with two differently oriented promoters for a specific or two different RNA polymerases.
- the insert DNA cloned into the plasmids or the DNA template used in the PCR can be isolated from viruses, bacteria, plants, animals or humans on the one hand, but also in vitro by reverse transcription, RNaseH treatment and subsequent amplification (eg by PCR) are generated from ssRNA.
- RNA matrices As RNA matrices, rRNAs, tRNAs, mRNAs and snRNAs as well as in vitro-generated transcripts (created, for example, by transcription with SP6, T3 or T7 RNA polymerase) are used.
- the single-stranded nucleic acids intended for sequencing are fragmented in a sequence-specific and / or sequence-unspecific manner (e.g. by sequence (non) specific enzymes, ultrasound or shear forces), the aim being an essentially homogeneous length distribution of the fragments / hydrolysis products. If no homogeneous length distribution of the fragments is achieved, a length fractionation can subsequently be carried out by gel electrophoretic and / or chromatographic methods.
- the resulting fragments can be tagged with e.g. fluorescent agents or radioactive isotopes.
- the marking is preferably carried out at the ends of the fragments (terminal marking).
- 3'-terminal labels can be used using suitable synthons e.g. be carried out with the terminal transferase or the T4 RNA ligase. If RNA transcripts generated in vitro are used for the fragmentation, the labeling can also be carried out before the fragmentation by means of labeled nucleotides used in the transcription (internal labeling).
- the labeled, fragmented nucleic acids can then be hybridized in a suitable hybridization solution against the carrier coated with a probe array.
- selected p-mers serve as POKS according to different criteria; they can be determined at different points in the process.
- a defined number of POKS can be determined at the start of the process.
- the GC or AT content of this sequence the p-mers which are most likely and therefore most frequently occur in the sequence can be determined.
- Other methods for selecting the POKS at the beginning of the process are also conceivable, for example from empirical values or by an arbitrary determination.
- the number of POKS must first be determined. This can e.g. B. determined from empirical values, or calculated statistically by selecting it so large that the distance between two POKS is purely mathematically significantly smaller than the predetermined maximum probe length on the arrays.
- the POKS are only determined in the course of the method, their number can either be determined beforehand, so that the method stops when the maximum number of POKS is reached, or it is so long POKS determined until other termination criteria are met.
- the method can be terminated if a sequence of a predetermined length has been put together that meets all requirements for a potential solution to the problem.
- the method z. B. can then be terminated if they can be further extended sequences at neither end.
- the method is essentially based on the dynamic array construction described above, since this allows sequence information of specific length to be obtained without having to generate all of the probes in their diversity.
- the parallel "computing power" of the arrays is used, which makes time-consuming and computational processes in the computer superfluous.
- the three probe types described above are synthesized on one or more arrays, ie once all combinations of a predetermined length are generated with the POKS counter sequence at the 3 ' end and once with this sequence at the 5 ' end.
- the signal evaluation in (approximate) probe length about the pairings of the nucleotides to the right and left of these POKS.
- new probes can be generated iteratively as described above. This is repeated until a maximum probe length is reached. At this point in the output sequence one knows all possible combinations on the maximum probe length on both sides of each POKS. Table 5:
- Table 5 shows the three different types of probes with the POKS (PPP) or their complementary sequence at the 3'-end, at the 5'-end and inside the probe
- each probe now contains the counter sequence to the selected POKS in the center, all possible combinations of a certain length are now generated in different probes on both sides of this sequence.
- the same iterative procedure as for the first two probe types provides information about all combinations of the previously recognized sequences that occur in the original sequence. If the number of required parking spaces for the third probe type resulting from the number of all possible combinations of the recognized sequences is less than the number of parking spaces on the array, the parts of the recognized probes of the 1st and 2nd type can be transferred directly to the new probes. An iteration is not necessary in this case. Significantly fewer parking spaces are required for the direct generation of all possible relationships between the recognized sequences. 5.3.2 Composing the first sequence information
- these partial sequences can now be expanded. For this purpose, a search is made in each partial sequence on one or both sides of the middle POKS at which one of the POKS used occurs. If a POKS is found, the sequence information on both sides of this POKS is compared with all partial sequences that contain exactly these POKS. This procedure enables the individual partial sequences to be linked, and a tree of all variants is created in which these sequences can be combined.
- Table 6 shows the overlap of two partial sequences in a DNA sequence that was recognized using a POKS.
- nucleotide combinations can be put together to form the entire sequence.
- the tree of all possible combinations is run through and partial sequences that appear sensible are combined to form an overall sequence. If repetitive partial sequences occur, the algorithm is terminated after a few cycles; A possible termination criterion is, for example, the assumed length of the initial sequence.
- Partial sequences to one side of the POKS in the middle of each sequence are examined for the most frequently occurring p-mers, where p is the length of the POKS to be selected, which can either be predetermined or optimized in the process. By choosing the POKS in the next
- Step for a plurality, or for all partial sequences known to date a sequence is determined by which the previously detected
- POKS can only be found in the start sequence and the end sequence of the sequence to be examined, without these sequences being able to be extended further. If these partial sequences are recognized in the process, they are treated separately and are not included in the determination of new POKS.
- the recognized partial sequences are put together in all possible combinations to form long sequences. If the POKS is selected accordingly, each partial sequence overlaps with another, so that the original sequence is among the combined possibilities. To find out which of the
- Sequences is the one that best solves the problem, all 9 sequences are first checked for overlaps. Kick such
- Sequences composed of partial sequences are not the estimated or known length of the sample sequence, so the sequences are further combined. Short sequences that are completely contained in longer sequences are deleted.
- the comparison with all partial sequences detected on the arrays is a reference point for determining the sequence that best matches the sample sequence.
- all, or at least a large part, of the sequences determined on the arrays with the first two probe types are in the solution sequence In no case may base combinations occur before or after a POKS that were not recognized on the arrays.
- the POKS are only determined in the course of the method, it can already be checked in each step whether the individual sequences only contain partial sequences that also occur in the sample sequence, or whether sequences occur that must not occur and a sequence thus eliminates a solution sequence. In the same way (with the quantification of the signals mentioned above) it can be ensured after each step that a partial sequence is only included as often as is permitted.
- the method can be automatically terminated if this number is exceeded after or when new POKS are determined, or if all the information obtained thereby has been processed for predetermined POKS.
- the process can be terminated if a successor or a predecessor has been found for each theoretically extendable, recognized partial sequence. At this point in time, the complete sequence information of the initial sequence is available, so that no new information can be obtained by redetermining POKS.
- the cyclic POKS determination can be ended as soon as a sequence has been found, the length of which corresponds to the approximate starting length, and which contains (almost) all the partial sequences recognized on the arrays.
- probabilities for their "correctness" or values for error estimation can be determined for the assembled sequences during the process, so that the process can be interrupted as soon as the error falls below a previously set threshold value.
- the length of the repeating sequence sections is of essential importance. Repetitions that are shorter than the maximum Probe length (when using all 3 probe types), or shorter than half the maximum probe length when using only the 3rd probe type, is not a problem when assembling. Repetitions occur that are longer than those described above, but shorter than the total length of the partial sequences minus the length of the POKS, these can be resolved by skilfully moving the POKS, ie by choosing a new POKS that is very close to the POKS in the center of the sequence. If longer repetitions occur, the algorithm for assembling is terminated after their occurrence, which results in several partial sequences of different lengths, which each overlap by the length of the repetitions. The relationship between these partial sequences can be clarified by using other methods, such as PCR, or by choosing new probe types.
- the length of the output sequence is not absolutely necessary as a termination criterion.
- the construction of the first two probe types for each POKS can be dispensed with.
- the probes can then be chosen so long that the probability of a further POKS in their sequence is large enough to guarantee overlaps.
- all combinations of a given length are generated for the now exclusively relevant 3rd probe type, which contains the counter sequence of the selected POKS in the middle of the sequence, hybridization against this is carried out and signal-providing probes are further developed in the next step. It is possible to extend each probe equally in both directions away from the POKS, or alternately in one and then in the other until the maximum possible length is reached. Depending on the number of parking spaces, several iteration steps can be processed on an array.
- Another variant of the method is the integration of the POKS into the sample preparation by cutting the sample material into appropriate fragments using sequence-specific nucleases. The bases that form the nuclease recognition sequences then automatically serve as POKS. 6.1 .1 Sample preparation
- dsDNA can be isolated on the one hand as genomic, chromosomal DNA, as an extrachromosomal element (for example as a plasmid) or as a component of cell organelles from viruses, bacteria, animals, plants or humans, but on the other hand in principle also in vitro by reverse transcription, RNaseH -Treatment and subsequent amplification (eg by PCR) can be generated from ssRNA.
- RNaseH -Treatment and subsequent amplification eg by PCR
- transcripts generated in vitro can be used as RNA matrices.
- the isolated or in vitro synthesized dsDNA is then hydrolyzed with a restriction endonuclease or with a mixture of several restriction endonucleases, whereby double-stranded subfragments with defined start and / or end sequences are formed.
- the number and length of the resulting subfragments can be controlled by selecting suitable enzymes (these can also be enzymes modified or generated by protein design).
- suitable enzymes these can also be enzymes modified or generated by protein design.
- the hydrolysis can be followed by gel electrophoretic and / or chromatographic separation processes. Ribozymes can be used to generate RNA subfragments.
- the subfragments generated are preferably marked after the fractionation.
- labeling is in principle also possible prior to denaturation (eg by filling in 3 'cohesive ends with a DNA polymerase)
- the subfragments are preferably labeled after denaturation, that is to say at the level of single-stranded subfragments.
- the labeling is preferably carried out using fluorescent agents (eg fluorescein or Cy5), but other labeling methods such as the incorporation of radioactive isotopes are also possible.
- the marker groups are mainly coupled to the subfragments in the form of labeled nucleotide derivatives. The coupling at the 3'-terminus can take place, for example, by means of the T4 RNA ligase or by means of the terminal transferase (using appropriate nucleotide derivatives).
- the labeled, single-stranded subfragments can then be hybridized in a suitable hybridization solution against the support coated with a probe array.
- the sample which has been prepared in a suitable manner, is broken down into subfragments that are as small as possible by a cut enzyme.
- the complementary sequence to the nucleotide sequence of the cut enzyme directly forms the POKS sequence, which means that the possible POKS are determined by the available enzymes.
- the statistical behavior of the fragment length and number is analogous to the freely chosen POKS due to the starting sequence and the cutting sequence used.
- the SO enzymatically comminuted sample is sorted according to the length of the subfragments, i.e. fractionated. Labeled subfragments that are no longer than the maximum probe length are placed on the array for analysis in accordance with the described method.
- the probes that have found a hybridization partner among the subfragments in the sample in the first array are correspondingly extended cyclically up to the maximum probe length. As a result, all subfragments of the original sample are determined with regard to their nucleotide sequence.
- the longer subfragments are sent to a further sample preparation cycle. Again, this can be an enzymatic one
- Fragmentation but also a suitable amplification method or that the previously described purely statistical POKS procedure and the associated sample preparation.
- the complete enzyme sequence is used as POKS, the structure is completely analogous to the statistical method selected POKS.
- the enzyme sequence is broken down into two parts at their intersection.
- probes are generated with the nucleotides GA at the 3 ' end, in order to be able to determine the other two fragments, all probes of a predetermined length are generated which contain the nucleotides TC Wear at the 5 ' end.
- the hybridization behavior on the array must be the same for both probe types.
- the nucleotides TC act as a kind of linker.
- the sample must be prepared differently for the third type of probe.
- Either the sequence to be examined is statistically, e.g. disassembled with ultrasound, or z. B. cut with an enzyme whose sequence does not correspond to any of the enzyme sequences used for sample preparation.
- the individual fragments detected are assembled into a total sequence analogously to the variant described with statistically selected POKS.
- the main disadvantages of the enzymatic POKS are the necessary development of suitable cutting enzymes, the low flexibility and the higher effort in sample preparation.
- the development of the corresponding enzymes, for example by means of protein design, is labor-intensive.
- the provision in sample preparation increases the logistical effort in the system.
- a cyclical sample preparation with an integrated length fractionation must be established. This is necessary in order to separate the longer subfragments and to further crush them.
- the output sequence can be put together again in its entirety.
- the A-T, G-C content of the sequence is determined.
- the POKS with the highest probability, in this case GCG, is then selected as the starting POKS.
- This POKS is used to simulate the synthesis of the probes on the first array.
- all three probe types with the opposite sequence to the POKS are generated at the positions in the probes described in more detail above.
- the variable portion of the probes has a length of 5 nucleotides, so each type of probe requires a total of 3072 locations. In order to utilize a possibly significantly larger number of locations, it can make sense to synthesize longer probes right from the start.
- each relevant probe on the new array can be expanded by two, three or more nucleotides.
- the probes are built up to a length of 25 nucleotides, so that after evaluation of the last array, all 22 mers occurring in the starting sequence are known after and before the first POKS. With the help of the third probe type, all possible connections between these partial sequences are determined. These sequences can be mathematically extended to 47 nucleotides each with the sequences of the first and second probe types.
- the POKS sequence to the right and left of this POKS is searched for in the now known composite partial sequences with the POKS in the middle. If the POKS sequence is used a second time
- Partial sequence found the corresponding section with all Partial sequences compared, which have the POKS in the middle. Since all sequences around the POKS are now known, there must be a sequence with which there is an overlap. After the first POKS, it is already possible to assemble the recognized partial sequences into longer sequences up to 248 nucleotides in length. By evaluating the ends of these sequences, two new POKS (CTG, GAA) are determined, one for each end, with which arrays are now built up again. As above, a variable length of 5 nucleotides is started, which is increased to a length of 22 nucleotides. After a few cycles, the number of required parking spaces levels off to 31 2 per probe type, so that a total of 936 x 2 parking spaces are required per iteration step.
- the POKS sequences are searched for in the detected sequences and these sequences are extended if necessary.
- sequence parts up to a length of 456 nucleotides can be assembled.
- four more POKS (GCC, CAG, TCA, ATC) are required, which are determined from the previously evaluated data and a further cycle.
- the number of spaces required per iteration step in the last two cycles is 200 to 370 spaces per probe type. After the last cycle the complete sequence can be put together.
- the array size and the number of POKS selected after each step have not been optimized in this example. It is possible that a larger number of POKS at the beginning of the process would reduce the number of parking spaces / arrays required. It also makes sense to process several iteration steps at once on each array in order to use the number of available parking spaces. In this example, assuming an array size of 400,000 slots and optimizing the process, probes with a variable can be placed on the first array Part of 8 nucleotides built up, with a total length of 1 1 nucleotides. This means that only half of the available parking spaces are used, which makes a choice of two POKS seem sensible at the beginning.
- the number of iteration steps per array must be reduced to four, so that a total of four to five arrays are required for each POKS pair, including the arrays for the first POKS, so 1 6 to 1 9 arrays.
- the method according to the invention enables the systematic sequence analysis of partially or completely unknown nucleic acids in a sample.
- genomes are sequenced in whole or in part using the method.
- the parts can be generated by selecting and isolating individual chromosomes, by cloning genomic DNA (e.g. in Bacterial Artificial Chromosomes BAC or Yeast Artificial Chromosomes YAC) or by other methods.
- cDNA populations e.g. can be produced from a cloned library or directly from an isolated mRNA, fully or partially sequenced.
- the result is a transcriptome sequencing. This can be done while processing different samples from different sources, e.g. Cells in different states occur in such a way that in one variant only those sequences that are different are followed up, in another only those that are the same.
- polymorphisms e.g. Single nucleotide polymorphisms, identified or used for the selection of the POKS.
- the sequencing method according to the invention can be used for diagnostic purposes, for example for individualized or multi-stage diagnostics.
- the method is also suitable for the development of individualized, patient-dependent medication or for the patient-dependent development and / or modification of pharmaceutical substances.
- the method can be combined with a network and / or a database decentralized patient-related analysis and identification of clinical pictures or pathogens and their mutations are used.
- the method is suitable for molecular diagnostics and for comparative genomics, eg for use in research, to clarify the functionality of individual genes or genomes of organisms.
- the method can also be used for mutation analysis, for example to investigate the influence of, for example, environmental influences, medication, radiation or / and poisons from organisms.
Landscapes
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
Die Erfindung betrifft ein Verfahren zur Sequenzierung von Nukleinsäuren unter Verwendung von Trägerchips, die aus Nukleotiden oder/und Nukleotideanaloga aufgebaute Polymersonden enthalten und eine spezifische Bindung mit in einer Probe vorhandenen Nukleinsäuren erlauben. Das Verfahren wird dynamisch in mehreren Zyklen durchgeführt, wobei die aus einem vorhergehenden Zyklus gewonnenen Sequenzinformationen zur Modfizierung trägergebundener Sonden im nachfolgenden Zyklus genutzt werden.
Description
Dynamische Sequenzierung durch Hybridisierung
Beschreibung
Die Erfindung betrifft ein Verfahren zur Sequenzierung von Nukleinsäuren unter Verwendung von Trägerchips, die aus Nukleotiden oder/und Nukieotideanaloga aufgebaute Polymersonden enthalten und eine spezifische Bindung mit in einer Probe vorhandenen Nukleinsäuren erlauben. Das Verfahren wird dynamisch in mehreren Zyklen durchgeführt, wobei die aus einem vorhergehenden Zyklus gewonnenen Sequenzinformationen zur Modfizierung trägergebundener Sonden im nachfolgenden Zyklus genutzt werden.
1 . Einleitung
Für die Grundlagenforschung, die Medizin, die Biotechnologie sowie weitere wissenschaftliche Disziplinen ist die Erfassung biologisch relevanter Information in definiertem Untersuchungsmaterial von herausragender Bedeutung. Zumeist steht dabei die genetische Information im Mittelpunkt des Interesses. Diese genetische Information besteht in einer enormen Vielfalt unterschiedlicher Nukleinsäuresequenzen, der DNA. Die Nutzung dieser Information im biologischen Organismus führt über die Herstellung von Abschriften der DNA in RNA meist zur Synthese von Proteinen.
Um diese Wirkprinzipien der Natur besser verstehen zu können, ist eine effiziente und sichere Entschlüsselung von DNA-Sequenzen notwendig. Die Detektion von Nukleinsäuren und die Bestimmung der Abfolge der vier Basen in der Kette der Nukleotide, die generell als Sequenzierung bezeichnet wird, liefert wertvolle Daten für Forschung und angewandte Medizin. In der Medizin konnte in stark zunehmendem Maße durch die in vitro-Diagnostik (IVD) ein Instrumentarium zur Bestimmung wichtiger Patientenparameter
entwickelt und dem behandelnden Arzt zur Verfügung gestellt werden. Für viele Erkrankungen wäre eine Diagnose zu einem ausreichend frühen Zeitpunkt ohne dieses Instrumentarium nicht möglich. Hier hat sich die genetische Analyse als wichtiges neues Verfahren etabliert.
In enger Verzahnung von Grundlagenforschung und klinischer Forschung konnten die molekularen Ursachen und (pathologischen) Zusammenhänge einiger Krankheitsbilder bis auf die Ebene der genetischen Information zurückverfolgt und aufgeklärt werden. Diese wissenschaftliche Vorgehensweise steht jedoch noch am Anfang ihrer Entwicklung und gerade für ihre Umsetzung im Rahmen von Therapiestrategien bedarf es stark intensivierter Anstrengungen. Insgesamt haben die Genomwissenschaften und die damit im Zusammenhang stehende Nukleinsäureanalytik sowohl zum Verständnis der molekularen Grundlagen des Lebens als auch zur Aufklärung sehr komplexer Krankheitsbilder und pathologischer Vorgänge wichtige Beiträge geleistet.
2. Stand der Technik
Genetische Information wird durch Analyse von Nukleinsäuren, meist in Form von DNA, gewonnen. Es gibt drei wesentliche Techniken für die Analyse von DNA. Die erste wird als Polymerase-Kettenreaktion (PCR) bezeichnet. Diese und verwandte Methoden dienen der selektiven enzymgestützen Vervielfältigung (Amplifikation) von DNA, indem kurze flankierende DNA Stränge mit bekannter Sequenz genutzt werden, um die enzymatische Synthese des dazwischen liegenden Bereiches zu starten. Dabei muß die Sequenz dieses Bereiches nicht im Detail bekannt sein. Der Mechanismus erlaubt damit anhand eines kleinen Ausschnittes an Information (den flankierenden DNA Strängen) die selektive Vervielfältigung eines bestimmten DNA Abschnittes, so daß dieser vervielfältigte DNA Strang in großer Menge für weitere Arbeiten und Analysen zur Verfügung steht.
Als zweite Basistechniic wird die Elektrophorese verwendet. Dabei handelt es sich um eine Technik zur Trennung von DNA Molekülen anhand ihrer Größe. Die Trennung erfolgt in einem elektrischen Feld, das die DNA Moleküle zur Wanderung zwingt. Durch geeignete Medien, wie z.B. vernetzte Gele, wird die Bewegung im elektrischen Feld abhängig von der Molekülgröße erschwert, so daß kleine Moleküle und damit kürzere DNA Fragmente schneller wandern als längere. Elektrophorese ist die wichtigste etablierte Methode für die DNA Sequenzierung und darüber hinaus für viele Verfahren zur Reinigung und Analyse von DNA. Das verbreitetste Verfahren ist d ie Flach bett-Gelelektrophorese, d ie im Bereich der Hochdurchsatzsequenzierung allerdings zunehmend von der Kapillar- Gelelektrophorese verdrängt wird.
Bei der dritten Methode handelt es sich um die Analyse von Nukleinsäuren durch sogenannte Hybridisierung. Hierbei wird eine DNA-Sonde mit bekannter Sequenz verwendet, um eine komplementäre Nukleinsäure zu identifizieren, meistens vor dem Hintergrund eines komplexen Gemisches von sehr vielen DNA- oder RNA-Molekülen. Die passenden Stränge binden sich stabil und sehr spezifisch aneinander.
Die drei Basistechniken kommen häufig in Kombination vor, indem z.B. das Probenmaterial für ein Hybridisierungsexperiment vorher selektiv durch PCR vervielfältigt wird.
Bei der Sequenzanalyse auf einem DNA-Trägerchip nutzt man ebenfalls das Prinzip der Hybridisierung von zueinander passenden DNA-Strängen aus. Die Entwicklung von DNA-Trägerchips oder DNA-Arrays bedeutet eine extreme Parallelisierung und Miniaturisierung des Formats von Hybridisierungs- experimenten. DNA in einer Probe kann nur an den Stellen an die auf dem Träger fixierte DNA binden, an denen die Sequenz der beiden DNA-Stränge übereinstimmt. Mit Hilfe der fixierten DNA auf dem Träger kann selektiv die komplementäre DNA in der Probe nachgewiesen werden. Dadurch werden
beispielsweise Mutationen im Probenmaterial durch das Muster erkannt, das nach der Hybridisierung auf dem Träger entsteht.
Der wesentliche Engpass bei der Bearbeitung von sehr Komplexen genetischen Informationen mit einem solchen Träger ist der Zugriff auf diese Information durch die begrenzte Zahl von Meßplätzen auf dem Träger. Ein solcher Meßplatz ist ein Reaktionsbereich, in dem bei der Herstellung des Träger DNA-Moleküle als spezifische Reaktionspartner, sog. Sonden, synthetisiert werden.
Für einen größeren Datendurchsatz gibt es prinzipiell zwei Möglichkeiten: Die eine besteht darin, die Anzahl der Meßplätze auf einem Reaktionsträger zu erhöhen. Die zweite beruht darauf, die Anzahl der unterschiedlichen Sonden zu steigern, die das System pro Zeit (und pro eingesetztem Geld) erzeugen und für Hybridisierung bereitstellen kann. Die zweite Möglichkeit hat etwas mit der Anzahl an Varianten zu tun, die im System generiert und für die Analyse zur Verfügung gestellt werden (Datendurchsatz) .
Bei dem Begriff genetische Information muss unterschieden werden zwischen unbekannten Sequenzen, die zum ersten mal dekodiert werden (dies wird im allgemeinen unter dem Begriff Sequenzieren verstanden, auch de novo Sequenzierung) und bekannten Sequenzen, die aus anderen Gründen als dem erstmaligen Dekodieren identifiziert werden sollen. Solche anderen Gründe sind beispielsweise die Untersuchung der Expression von Genen oder die Verifizierung der Sequenz eines interessierenden DNA Abschnittes bei einem Individuum. Dies kann z.B. geschehen, um die individuelle Sequenz mit einem Standard zu vergleichen, wie bei der Mutationsanalyse von Krebszellen und der Typisierung von HIV Viren.
Für die de novo Sequenzierung werden bislang fast ausschließlich elektrophoretische Methoden verwendet. Am schnellsten ist die Kapillarelektrophorese.
Träger spielen für die de novo Sequenzierung bislang kaum eine Rolle. Dies liegt an prinzipiellen Limitationen: für den Informationsgewinn durch Sequenzvergleich müssen Sonden auf dem Träger bereitgestellt werden. Bei der Bearbeitung von unbekanntem Material braucht man sehr viele unterschiedliche Sonden (Varianten) . Kein bislang bekanntes Verfahren ist in der Lage, die notwendigen Varianten-Zahlen für ein effektives Sequenzieren durch Sequenzvergleich von sehr großen DNA Mengen zu generieren. Solche sehr großen DNA Mengen liegen z.B. bei der Sequenzbestimmung von ganzen Genomen vor.
Bislang sind im wesentlichen zwei Verfahren zur Herstellung von Trägern bekannt. Beim ersten Herstellungsverfahren werden die fertigen Sonden einzeln entweder in einem Synthesizer (chemisch) oder aus isolierter DNA (enzymatisch) hergestellt und diese dann in Form winziger Tropfen auf die Oberfläche des Chips aufgebracht, und zwar jede einzelne Sorte an Sonden auf einen einzelnen Meßplatz. Das verbreitetste Verfahren hierzu leitet sich aus der Tintenstrahldrucktechnik ab, daher werden diese Verfahren unter dem Oberbegriff Spotting zusammengefaßt. Ebenfalls weit verbreitet sind Verfahren mit Nadeln. Nur durch die Mikro-Positionierung von Druckkopf oder JMadel kann später ein Signal auf dem Chip einer bestimmten Sonde zugeordnet werden (Array mit Zeilen und Spalten) . Entsprechend genau müssen die Spotting-Geräte arbeiten.
Bei der zweiten Methode werden die DNA Sonden direkt auf dem Chip hergestellt, und zwar durch ortsspezifische Chemie (in situ Synthese) . Dazu gibt es derzeit zwei Verfahren.
Das eine arbeitet mit den oben beschriebenen Spotting-Geräten, jedoch mit dem Unterschied, daß die winzigen Tropfen entsprechende Synthesechemikalien enthalten, so daß durch die Mikro-Positionierung dieser Chemikalien die ortsaufgelöste Chemie betrieben werden kann. Die Technologie erlaubt eine beliebige Programmierung der Sequenz der
entstehenden Sonden. Allerdings ist bisher der Durchsatz, das heißt die Anzahl der Sonden pro Zeit, nicht wirklich hoch genug, um große Mengen genetischer Information umzusetzen.
Sehr viel mehr Meßplätze pro Zeit lassen sich mit der zweiten Methode herstellen: die parallele Synthese der Sonden mit einer lichtabhängigen Chemie. Damit wurden bereits über 1 00.000 Meßplätze pro Chip in wenigen Stunden synthetisiert.
Das Verfahren wird mit zwei technischen Lösungen für die Belichtung betrieben. Die eine verwendet photolithographische Masken und erzeugt durch die hoch entwickelte Optik sehr viele Meßplätze auf dem DNA-Träger. Allerdings ist die Wahl der Sondensequenz sehr limitiert, da entsprechende Masken hergestellt werden müssen. Für das erfindungsgemäße Verfahren ist diese Herstellungsmethode daher wenig geeignet. Wesentlich aussichtsreicher sind Verfahren mit frei programmierbaren Sondensequenzendie auf Basis entsprechend steuerbarer Lichtquellen arbeiten. Solche Herstellungsverfahren für Sonden auf einem Träger sind u.a. in den Patentanmeldungen DE 1 98 39 254.0, DE 1 98 39 256.7, DE 1 99 07 080.6, DE 1 99 24 327.1 , DE 1 99 40 749.5, PCT/EP99/0631 6 und PCT/EP99/0631 7 beschrieben.
Zusammenfassend läßt sich sagen, daß mit den bisher etablierten Techniken zur Bearbeitung größerer Mengen genetischer Information mit ganz oder teilweise unbekannter Zusammensetzung, nämlich Elektrophoreseverfahren und Biochip-Trägern, eine Limitation des Durchsatzes gegeben ist. Hochdurchsatzprojekte für die Neusequenzierung sind bisher auf Größensortierung mit Elektrophorese angewiesen (u.a. das Human Genom Projekt HUGO) . Hier sind zwar Verbesserungen durch Miniaturisierung und Parallelisierung zu erwarten, aber keine Durchbrüche, da die Technik an sich nicht verändert werden kann. Elektrophorese kann die meisten Anwendungen von Biochips, wie z.B. Expressions-Muster oder Mutations-
Screening, nicht oder nur sehr viel langsamer leisten. Die bisher bekannten Biochips sind ihrerseits ür Neusequenzierung ungeeignet, der Schwerpunkt liegt auf der hochparallelen Bearbeitung von Material auf Basis bekannter Sequenzen (u.a. in Form von synthetischen Oligonukleotiden als Sonden) .
Beide Formate haben einen limitierten Durchsatz an genetischer Information. Um diesen Durchsatz zu erhöhen müssen neue Ansätze entwickelt werden. Das erfindungsgemäße Verfahren ist ein solcher Ansatz.
3. Gegenstand der Erfindung
Die Erfindung betrifft ein Verfahren zur Sequenzierung von Nukleinsäuren umfassend die Schritte:
(a) Durchführen eines ersten Hybridisierungszyklus umfassend (i) Bereitstellen eines Trägers mit einer Oberfläche, die an einer
Vielzahl von vorbestimmten Bereichen immobilisierte Hybridisierungssonden enthält, wobei die Hybridisierungs- sonden in einzelnen Bereichen jeweils eine unterschiedliche Basenfolge mit einer vorbestimmten Länge aufweisen, (ii) Inkontaktbringen einer Probe, die zu sequenzierende
Nukleinsäuren enthält, mit dem Träger unter Bedingungen, bei denen eine Hybridisierung zwischen den zu sequenzierenden Nukleinsäuren und dazu komplementären Sonden auf dem Träger erfolgen kann, und (iii) Identifizieren der vorbestimmten Bereiche auf dem Träger, an denen eine Hybridisierung in Schritt (ii) erfolgt ist,
(b) Durchführen eines nachfolgenden Hybridisierungszyklus umfassend: (i) Bereitstellen eines weiteren Trägers mit einer Oberfläche, die an eine Vielzahl von vorbestimmten Bereichen immobilisierte Hybridisierungssonden enthält, wobei die Hybridisierungssonden in einzelnen Bereichen jeweils eine unterschiedliche Basenfolge mit einer vorbestimmten Länge aufweisen, wobei
für den weiteren Träger Hybridisierungssonden mit einer
Basenfolge ausgewählt werden, bei denen im vorhergehenden
Zyklus eine Hybridisierung beobachtet worden ist, und wobei die ausgewählten Hybridisierungssonden um mindestens ein Nukleotid gegenüber einem vorhergehenden Zyklus verlängert werden,
(ii) Wiederholen von Schritt (a) (i) mit dem weiteren Träger, und
(iii) Wiederholen von Schritt (a) (iii) mit dem weiteren Träger, und
(c) gegebenenfalls Durchführen von weiteren nachfolgenden Hybridisierungszyklen jeweils mit Auswahl und Verlängerung der
Hybridisierungssonden gemäß Schritt (b) (i), bis eine ausreichende
Information über die zu sequenzierenden Nukleinsäuren vorliegt.
Das hier beschriebene Verfahren zur Sequenzierung von Nukleinsäuren durch Hybridisierung erlaubt mit Hilfe eines iterativen, dynamischen Aufbaus aller dafür notwendigen, spezifischen Sonden die Sequenzierung von Probenmaterial (auch viel größer 1 0 kBp) mit unbekannter Sequenz. Die Sequenzierung umfaßt sowohl eine Fragmentanalyse (einige Dutzend bis 1 00 Bp) als auch die Kartierung der Fragmente innerhalb der Ausgangssequenz.
Unter Träger oder Reaktionsträger sollen in diesem Zusammenhang sowohl offene als auch geschlossene Träger verstanden werden. Offene Träger können planar (z.B. Labordeckglas), aber auch speziell geformt (z.B. schalenförmig) sein. Bei allen offenen Trägern ist als Oberfläche eine Fläche auf der Außenseite des Trägers zu verstehen. Geschlossene Träger haben eine innenliegende Struktur, die beispielsweise Mikrokanäle, Reaktionsräume oder/und Kapillaren umfaßt. Hier sind als Oberflächen des Trägers die Oberflächen der zwei- oder dreidimensional ausgeprägten MikroStruktur im Inneren des Trägers zu verstehen. Natürlich ist auch die Kombination von innenliegenden geschlossenen und außenliegenden offenen Oberflächen in einem Träger denkbar. Als Materialien für Träger kommen beispielweise Glas
wie Pyrax, Ubk7, B270, Foturan, Silizium und Siliziumderivate, Kunststoffe wie PVC, COC oder Teflon sowie Kalrez zum Einsatz.
Das in dem Verfahren benötigte Array muß nicht zwangsläufig auf einen Träger begränzt sein, es ist durchaus möglich ein "virtuelles Array" auf mehrere Träger zu verteilen. Bei Bedarf kann dadurch die Stellplatzanzahl vergrößert werden.
In einem geschlossenen System, das sowohl die Probenvorbereitung, die Fragmentierung und die Kartierung des Probenmaterials enthalten kann, siehe z.B. DE 1 99 24 327.1 , DE 1 99 40 749.5 und PCT/EP99/0631 7, ergänzen und bedingen sich Datenerzeugung und Auswertung gegenseitig und bilden in ihrer Gesamtheit eine lernende Einheit. So werden z. B. mit Hilfe der ausgewerteten Daten eines Arrays neue Sondensequenzen bestimmt, die dann auf einem neuen Array synthetisiert werden. Dies erfolgt solange systematisch, bis die biologische Vielfalt, welche nur eine sehr geringen Teil der theoretisch Möglichen Variationen darstellt, schrittweise ganzheitlich erfaßt ist.
Bei dem erfindungsgemäßen Verfahren werden Sonden auf bzw. in dem Träger flexibel hergestellt, so daß ein Informationsfluß möglich wird. Jede neue Synthese des Arrays in aufeinanderfolgenden Zyklen kann die Ergebnisse eines vorangegangenen Experimentes berücksichtigen. Durch geeignete Wahl der Hybridisierungssonden, die Oligonukleotide, aber auch Nukleinsäureanaloga wie peptidische Nukleinsäuren sein können, in Bezug auf ihre Länge, Sequenz und Verteilung auf dem Reaktionsträger und durch eine Rückkopplung des Systems mit integrierter Signalauswertung wird ein effizientes Prozessieren von genetischer Information möglich.
Weiterhin betrifft die Erfindung einen Träger für die Sequenzierung von Nukleonsäuren mit einer Oberfläche, die an einer Vielzahl von vorbestimmten Bereichen immobilisierte Hybridisierungssonden enthält,
wobei die Hybridisierungssonden in einzelnen Bereichen jeweils eine unterschiedliche Basenfolge mit einer vorbestimmten Länge aufweisen, wobei die Hybridisierungssonden neben variablen Abschnitten einen oder mehrere für zumindest einen Teil der Sonden festgewählte Abschnitte aufweisen können.
Das Verfahren und der Träger können für die Sequenzbestimmung von Genomen, Chromosomen, Transkriptomen sowie zur Identifizierung von Polymorphismen in Nukleinsäuresequenzen, z.B. auf Ebene einzelner Individuen eingesetzt werden.
Die Bindung der Nukleinsäuren an Hybridisierungssonden an den jeweiligen Teilbereichen auf der Trägeroberfläche wird vorzugsweise über Markierungsgruppen nachgewiesen. Die Markierungsgruppen können dabei direkt oder indirekt an die zu sequenzierende Nukleinsäure gebunden werden. Vorzugsweise werden Markierungsgruppen verwendet, die optisch detektierbar sind, z.B. durch Fluoreszenz, Lichtbrechung, Lumineszenz oder Absorption. Bevorzugte Beispiele für Markierungsgruppen sind fluoreszierende Gruppen oder optisch nachweisbare Metallpartikel, z.B. Goldpartikel.
4. Ausführliche Beschreibung der Erfindung
4.1 (Zahlen-) Verhältnisse
Zu Beginn werden einige Verhältnisse erläutert, die im folgenden eine wichtige Rolle spielen:
In jeder, aus m Nukleotiden bestehenden Sequenz können maximal m-n + 1 Teilsequenzen der Länge /? auftreten. Dies bedeutet, daß für jede
Gesamtsequenzlänge tn eine spezifische Sequenzlänge n existiert, für die die
Anzahl aller möglichen /7-mere (4n) die Anzahl m-n + 1 der in der
Gesamtsequenz möglic hen Teilsequenzen der Länge n überschreitet. Im menschlichen Genom z. B. r das aus ca. 3,2 x 1 09 Nukleotiden besteht, können somit maximal ca. 3,2 x 109 Sequenzabschnitte einer beliebigen Länge n auftreten. Wählt man n = 1 6, so ist die Anzahl aller 1 6-mere mit 416 deutlich größer als die maximale Anzahl der im menschlichen Genom auftretenden 1 6-mere. Es können also auf keinen Fall alle 1 6-mere und somit auch niemals alle längeren (/7 + 1 )-, (n + 2)-mere, usw. im menschlichen Genom vorkommen.
Tabelle 1 zeigt das Verhältnis zwischen der Sequenzabschnittslänge n, der Sequenzlänge m und der in der Sequenz der Länge m enthaltenen maximalen Anzahl von Teilsequenzen der Länge n. In jeder Sequenz, die kürzer ist als der für m angegebene Wert, können nicht alle möglichen Abschnitte der angegebenen Länge n vorkommen.
Betrachtet man nun alle in einer Sequenz der Länge m auftretenden n-mere, die auf eine Teilsequenz der Länge p folgen, so ist die Anzahl dieser n-mere im Vergleich zu der oben beschriebenen Anzahl von m-n + 1 Teilsequenzen deutlich geringer.
Eine Sequenz, die alle 4P möglichen p-mere enthält, muß eine minimale Länge von k = 4p + p1 Nukleotiden aufweisen. Setzt man voraus, daß alle p- mere mit der gleichen Wahrscheinlichkeit vorkommen, so tritt in einer hinreichend lang gewählten Sequenz jedes p-mer im Mittel alle k Nukleotide einmal auf; in einer Sequenz der Länge m mit m > > k also l = m/k = m/4p + p-1 mal. Folglich können in einer solchen Sequenz mit Länge m auch maximal / n-mere beobachtet werden, die auf ein p-mer folgen.
Tabelle 1
Wählt man z.B. im menschlichen Genom (einzelsträngig) ein beliebig aber fest gewähltes 3-mer und untersucht alle Sequenzabschnitte der Länge /?, die auf dieses 3-mer folgen, findet man, bei einer vorausgesetzten Gleichverteilung aller p-mere, maximal 48.500.000 verschiedene π-mere.
Auch in diesem Fall gibt es eine charakteristische Grenze für die Vielfalt der Teilsequenzen. Wählt man die betrachteten Teilsequenzen länger als die der maximalen Vielfalt zugehörige Länge n , so gibt es mehr mögliche Varianten als in der untersuchten Sequenz vorkommen können. Beim menschlichen Genom (unter allen verallgemeinernden Voraussetzungen) ist dies eine Abschnittlänge von n = 1 3; insgesamt gibt es 413 = 67108864 Sequenzen der Länge 1 3. Im menschlichen Genom können aber, wie oben errechnet, nur ca. 50.000.000 verschiedene Teilsequenzen nach einem frei gewählten 3-mer vorkommen. Für jede längere Teilsequenzlänge können auf keinen Fall alle möglichen Varianten im Genom vorkommen.
Tabelle 2 zeigt an einigen Beispielen den Zusammenhang zwischen der Sequenzlänge m, der Wahl von p und der Länge n der Teilsequenz, die nach dem p-mer betrachtet werden soll. In der dritten Spalte ist das unter idealisierten Annahmen durchschnittliche Vorkommen des gewählten p-mers in der Ausgangssequenz aufgetragen, daraus wird der Wert für n bestimmt, für den noch die komplette Vielfalt der π-mere nach dem p-mer vorkommen kann. Für jedes größer gewählte p oder für jede kürzer gewählte Sequenz trifft dies nicht mehr zu.
Ein längeres p-mer schränkt die Vielfalt innerhalb der untersuchten Sequenz deutlicher ein als ein kürzeres p-mer, da das längere p-mer im Verhältnis seltener auftritt.
Tabelle 2:
Das im folgenden beschriebene Verfahren macht sich diese Reduktion der Vielfalt zu Nutze. So ist es zum Beispiel nach den obigen Betrachtungen nicht notwendig, die komplette Menge aller 25-mere auf einem Array zu synthetisieren, wenn man eine Aussage darüber treffen will, welche 25-
mere in einer Probensequenz vorkommen. Je nach Länge der untersuchten Sequenz kann nur ein sehr geringer Anteil aller 25-mere in dieser Sequenz vorkommen, siehe Tabelle 1 .
4.2 Dynamischer Arrayaufbau
Im Vergleich zu den bisher gängigen (statischen) Verfahren der Generierung von Trägerchips, ist es erfindungsgemäß möglich, schnell von einem Array zum nachfolgenden Array zu lernen und dadurch ein Vielfaches der bisherigen Informationsmenge zu erhalten.
Können in kurzer Zeit verschiedene Arrays unter Verwendung der, nach Auswertung des Vorgängerarrays, erhaltenen Informationen erzeugt werden, so wird das System zu einem "lernenden" System. Mit dieser Methode können die oben erwähnten 25-mere einer Sequenz bestimmt werden, ohne sie in ihrer Vielfalt (425 = 1 .1 25899907 x 1015) synthetisieren zu müssen.
Man kann beispielsweise mit einer variablen Sondenlänge s beginnen, mit der die mögliche Vielfalt (4S) aller s-mere auf dem Array synthetisierbar ist. Falls alle möglichen 4S Sequenzvariationen nicht auf einem einzigen Träger erzeugt werden können, ist es möglich auch eine begrenzte Anzahl von mehreren Trägern für einen Hybridisierungszyklus zu verwenden. Liegt die Länge der Sonden unter dem in Tabelle 1 ermittelten Wert n, so ist es möglich, daß alle auf dem Array erzeugten Sequenzen in der Ausgangssequenz vorkommen, wahrscheinlich ist es aber nicht. Zudem nimmt diese Wahrscheinlichkeit mit wachsender Länge der Sonden ab. Auf jeden Fall können aber nicht mehr als die in Tabelle 1 errechneten Teilsequenzen in der Sequenz vorkommen.
Im nächsten Schritt werden alle Sonden, die auf dem Vorgängerarray ein Signal erzeugt haben, auf einem neuen Array synthetisiert und um jeweils
mindestens ein Nukleot.d an allen möglichen Variationen verlängert, d.h. bei einer Verlängerung um ein Nukleotid entstehen vier unterschiedlich verlängerte Hybridisierungssonden. Spätestens ab der in Tabelle 1 dargestellten Teilsequenzlänge n wird sich die Anzahl der Signale nicht mehr vergrößern, weil ihre Anzahl (unter idealisierten Annahmen) nicht größer sein kann als die maximale Anzahl der unterschiedlichen Teilsequenzen in der Ausgangssequenz. Unter "normalen" Voraussetzungen wird es Signale geben, die nach idealisierten Voraussetzungen nicht hätten entstehen dürfen. Diese Sonden können zunächst weiter aufgebaut werden, durch verlängerte Sonden und die dadurch resultierenden spezifischeren Bindungen können mögliche Fehler im Laufe der Iteration eliminiert werden. In der Praxis wird zudem nie die komplette Vielfalt aller möglichen Teilsequenzen in einer zu untersuchenden Sequenz auftreten, so daß deutlich weniger Signale als die maximal mögliche Anzahl erzeugt werden.
Je nach Anzahl der Stellplätze und der Länge der zu untersuchenden Sequenz ist es bevorzugt, die Sondenlänge des ersten Arrays so zu wählen, daß nach der Hybridisierung von maximal 25 % aller Stellplätze Signale ausgehen. Durch dieses Vorgehen wird gewährleistet, daß die Anzahl der Sonden im nächsten Schritt nicht zunimmt. Die Sonden auf dem neuen Array können somit um eine Base länger als die Sonden auf dem Vorgängerarray gewählt werden, ohne daß sich die Anzahl der Sonden vergrößert.
Die Länge m der Sequenz (in diesem Fall ein Einzelstrang, für einen Doppelstrang gilt ähnliches) muß für eine solche Wahl der Startsonden kleiner sein als die erlaubte Anzahl der Signale, in Formeln: m < 4 s 1 + s-1 , wobei s die Sondenlänge ist. Auf einem Array mit Sondenlänge s = 6 kann also eine Sequenz der maximalen Länge m = 45 + 5 = 1 029 bearbeitet werden, so daß nach der Hybridisierung auf jeden Fall von weniger, bzw. von maximal 25% aller Sonden Signale ausgehen. Die folgende Tabelle 3
- 16 -
ze igt die bevorzugte Länge s der Startsonden in Abhängigkeit von der Länge m der zu bestimmenden Sequenz.
Tabelle 3:
Da in einer Sequenz der Länge m Teilsequenzen der Länge s durchaus mehrfach auftreten können, reduziert sich die rechnerische Anzahl von m- s + 1 Teilsequenzen der Länge s oftmals in der Praxis. In einem solchen Fall ist eine kleinere Sondenlänge ausreichend. Da die Anzahl sich wiederholender Sequenzen zu Beginn aber nicht bekannt ist, ist der oben bestimmte Wert als oberer Grenzwert anzusehen. Die Anzahl der Signale wird durch wiederholte Auftreten einer Teilsequenz reduziert, aber niemals vergrößert.
Einige Zahlenbeispiele:
Für das menschliche Genom mit 3,2 x 1 09 Nukleotiden pro Strang ist eine Sondenlänge von 1 7 Basen ausreichend, um theoretisch sicher zu stellen, daß an weniger als 25% aller Stellplätze auf dem Array eine Bindung stattfindet. Für E.coli mit 4 639 221 Nukleotiden sind bereits Sonden der
Länge 1 3 ausreichend. Die Stellplatzanzahl aller folgenden Arrays wird die Anzahl der Stellplätze auf diesen Arrays nicht überschreiten.
Wählt man die Länge der Sonden auf dem ersten Array nicht nach der oben beschriebenen Methode, so pendelt sich die Anzahl der Signale auf jeden Fall im Laufe des Verfahrens unter den maximalen Wert von m-n -i- 1 ein, wobei n die im ersten Abschnitt beschriebene Länge ist, für die die Vielfalt aller n-mere größer ist als die Anzahl der in der Ausgangssequenz möglichen /7-mere. Wählt man zu Beginn eine zu kurze Sondenlänge, so wird sich die Anzahl der benötigten Stellplätze in den nächsten Schritten zunächst bis zu maximal 4n 1 Stellplätzen erhöhen und dann stagnieren. Wählt man die Sonden zu lang, so werden bei der Hybridisierung deutlich weniger als 25% aller Stellplätze erfolgreich sein, so daß sich die Anzahl der benötigten Stellplätze im nächsten Schritt automatisch reduziert.
Wie im ersten Abschnitt beschrieben, läßt sich die Vielfalt der Teilsequenzen in einer Sequenz der Länge m noch weiter reduzieren, indem man nur Sequenzabschnitte betrachtet, die auf eine vorher festgelegte Abfolge von Nukleotiden folgt. Auch in diesem Fall läßt sich die Länge der Sonden auf dem ersten Array wie oben bestimmen. Für ein Array, auf dem alle Kombinationen der Länge s = n + p synthetisiert werden, die mit dem p-mer beginnen oder enden, bedeutet dies, daß nur von maximal 25% (d.h. l/4n%) 4n 1 aller Stellplätze auf diesem Array Signale ausgehen dürfen. Somit kann auf einem Array mit Sondenlänge s = n + p und einem beliebigen, aber für alle oder einen Teil der Sonden festgewählten Abschnitt der Länge p eine Sequenz der Länge m mit m < 4n 1 x (4p + p-1 ) hybridisiert werden, ohne daß die theoretisch mögliche Anzahl der Stellplätze, von denen Signale ausgehen können, 25 % aller Stellplätze überschreitet wobei; n ist dabei der im ersten Abschnitt berechnete Wert ist.
Das Verhältnis zwischen der maximalen Länge der Ausgangssequenz und der Länge der Sonde, sowie der p-mere ist in Tabelle 4 für einige Beispiele
dargestellt. Für das menschliche Genom genügt bei einem festgewählten 3- mer eine Sondenlänge von n + p = 1 7 Nukleotiden, um die erlaubte Anzahl der Stellplätze, die ein Signal liefern, nicht zu überschreiten. Die Anzahl der zu synthetisierenden Sonden ist in jedem Fall 4n, also die Menge aller Möglichkeiten, den flexiblen Sondenteil aufzubauen.
Die oben, sowie die im ersten Abschnitt berechneten Werte gelten für eine Gleichverteilung der betrachteten p-mere. In den meisten Sequenzen gilt diese idealisierte Annahme nicht, es treten unter Umständen stark unterschiedliche Verteilungen der einzelnen Nukleotide auf. Kennt man daher z. B: bei DNA- / RNA-Sequenzen den A-T -, bzw. C-G- Gehalt der zu untersuchenden Sequenz, so lassen sich Wahrscheinlichkeiten für die einzelnenp-mere berechnen. Durch eine Gewichtung bei der Berechnung der maximalen Sequenzlänge mit Hilfe der Wahrscheinlichkeit für das Auftreten des gewählten p-mers werden sich in einigen Fällen die in den Tabellen 2 und 4 aufgeführten Werte verschieben.
Tabelle 4: Maximal mögliche Länge der Ausgangssequenz im Verhältnis zur Sondeniänge und ihrer Zusammensetzung.
Somit bietet der dynamische Aufbau einer Folge von Arrays den Vorteil, daß nach Auswertung der Informationen des bzw. der Vorgänger-Arrays ein
neues Array aufgebaut werden kann, das die benötigten Daten liefert. Es ist möglich, Kenntnis über Teilsequenzen in der Ausgangssequenz von spezifischer Länge, z.B. von 25 Basen und mehr, zu gewinnen, ohne alle möglichen Kombinationen dieser Länge aufbauen zu müssen . Das Verfahren pendelt sich automatisch auf eine maximale Signalanzahl und somit auf eine maximale Stellplatzanzahl pro Array ein.
Im folgenden wird eine Anwendung beschrieben, die sich mit dem oben beschriebenen dynamischen Arrayaufbau realisieren läßt.
4.3 Dynamisches Sequenzieren durch Hybridisierung (DSBH)
An dieser Stelle wird zunächst das allgemeine Prinzip des DSBH beschrieben, das im wesentlichen durch einen flexiblen Aufbau der Arrays möglich wird; im nächsten Abschnitt folgen mögliche Umsetzungen dieses Prinzips.
Wie oben beschrieben, kommen p-mere in einer zu bestimmenden Sequenz mit unterschiedlichen Wahrscheinlichkeiten vor, die sich z. B. bei DNA- Sequenzen durch Kenntnis des A-T und G-C Gehalts der Sequenz bestimmen lassen. Der Grundgedanke des DSBH besteht nun darin, p-mere auszuwählen, die in regelmäßigen Abständen in der Sequenz vorkommen, sie lassen sich als "Inseln" auffassen, deren Sequenz bereits bekannt ist. Von diesen festgewählten Orten bekannter Sequenz (Points of Known Sequence, kurz POKS) ausgehend, wird nun die Probensequenz bestimmt. Dazu werden zunächst drei Arten von Sonden auf den Arrays benötigt:
( 1 ) Sonden mit festgewählten Sequenzen am 3 '- Ende,
(2) Sonden mit festgewählten Sequenzen am 5 '-Ende,
(3) Sonden mit festgewählten Sequenzen im Innern, z.B. im Zentrum der Sequenz.
Die Sonden ( 1 ), (2) und (3) können gemeinsam oder/und nacheinander auf dem gleichen Träger oder auf unterschielidhcen Trägern eingesetzt werden. Für die beiden ersten Sondentypen werden alle Kombinationen einer vorgegebenen Länge synthetisiert, wobei die Gegensequenz zum gewählten POKS einmal am 3 ' -Ende der Sequenz und einmal am 5 ' -Ende der Sequenz aufgebaut wird. Durch die Hybridisierung der Ausgangssequenz gegen die Sonden dieses Arrays erhält man dann Informationen über alle Nukleotidkombinationen der vorgegebenen Länge einmal in 3 ' -5 ' -Richtung zum POKS hin und einmal in 3 '-5 ' -Richtung vom POKS weg. Nach dem oben beschriebenen Vorgehen zum dynamischen Aufbau der Arrays werden alle Sonden der Stellplätze, die ein Signal erzeugt haben, auf einem neuen Array synthetisiert und dabei jeweils um ein Nukleotid in allen vier Variationen verlängert. Bei einer hinreichend großen Anzahl von Stellplätzen auf dem Array können auch zwei oder mehr Iterationsschritte auf einem Array abgearbeitet werden, d.h. es kann eine Verlängerung um zwei oder mehr Nukleotide erfolgen.
Bei der Verlängerung der Sonden ist zu beachten, daß Sonden, bei denen die zum POKS komplementäre Sequenz am 3 ' -Ende aufgebaut wird, in 5 ' - Richtung verlängert werden, und Sonden mit der komplementären POKS- Sequenz am 5 ' -Ende entsprechend in 3 ' -Richtung. Hat die Iteration eine maximale Sondenlänge erreicht, so ist zu beiden Seiten jedes POKS die Abfolge der Nukleotide auf der Länge der maximalen Sondenlänge bekannt. Die Sondenlänge wird dabei entweder durch die Möglichkeiten des verwendeten Systems beschränkt oder durch einen Kompromiß aus der benötigten Zeit bis zum endgültigen Ergebnis und dessen Genauigkeit.
Mit Hilfe der dritten Sondenart wird der Zusammenhang zwischen den oben bestimmten Sequenzen hergestellt. Es werden nun all die Sondensequenzen bestimmt, die die POKS-Gegensequenz im Zentrum haben und davor, bzw. dahinter Teile der durch die ersten beiden Sonden gewonnen Informationen. Diese Sonden werden auf einem neuen Array aufgebaut; nach der
Hybridisierung und Auswertung der Signale sind alle Möglichkeiten bekannt, zu denen die durch die ersten zwei Sondenarten bestimmten Sequenzen zusammengesetzt werden dürfen.
Diese Information kann man genauso durch einen iterativen Arrayaufbau erhalten, bei dem alle Kombinationen einer bestimmten Länge vor und nach der POKS-Gegensequenz aufgebaut werden. Nach Auswertung der Signale werden die relevanten Sonden wie oben beschrieben weiter verlängert, jetzt in beide Richtungen, usw. Bei einer hinreichend großen Stellplatzanzahl kann man diese Iterationsschritte aber durch den sofortigen Aufbau der benötigten Sonden zur maximalen Länge vermeiden.
Das Array mit der dritten Sondenart löst hochparallel eine kombinatorische Aufgabe, die ohne einen flexiblen Arrayaufbau nur mit sehr großem Rechenaufwand mit Hilfe von Computern lösbar ist. Die Verlagerung dieser Aufgabe auf das Array bedeutet einen erheblichen Zeitgewinn gegenüber einer Kombinatorik am Rechner und liefert zudem verläßlichere Daten.
Werden die POKS nun entsprechend gewählt, so kann mit der oben beschriebenen Methode die Ausgangssequenz wieder zusammengesetzt werden, indem die Überlappungen der durch die einzelnen POKS bestimmten Teilsequenzen verglichen und kombiniert werden.
In den folgenden Punkten 5 und 6 sind nun zwei besonders bevorzugte Ausführungsformen des erfindungsgemäßen Verfahrens im Detail erläutert.
5. Dynamische Sequenzierung durch Hybridisierung (DSBH) mit statistisch gewählten festen Sondenabschnitten (POKS)
5. 1 Voraussetzungen
Das Verfahren zur Sequenzierung mit statistisch, bzw. durch das Verfahren gewählten POKS, sowie die zugehörige Probenvorbereitung werden für einen Einzelstrang beschrieben. Mit dem gleichen Verfahren ist auch die Sequenzierung doppelsträngiger Nukleinsäuren möglich.
5.1 . 1 Probenvorbereitung
Die hier beschriebene Sequenzierung geht von einzelsträngigen Nukleinsäuren aus. Diese können im einfachsten Fall direkt in Form einzelsträngiger RNA oder DNA aus Viren, Bakterien, Pflanzen, Tieren oder dem Menschen isoliert werden. In der Mehrzahl der Fälle werden die einzelsträngigen Nukleinsäuren aber ausgehend von dsDNA durch spezielle in vitro Verfahren erzeugt. Hierzu zählen z.B. asymmetrische PCR (erzeugt ssDNA), PCR mit derivatisierten Primern, die eine selektive Hydrolyse eines einzelnen Stranges im PCR-Produkt ermöglichen, oder die Transkription durch RNA-Polymerasen (erzeugt ssRNA) . Als Matrize kann bei der Transkription neben nicht klonierter einzelsträngiger DNA vor allem auch in spezielle Vektoren (z.B. Plasmidvektoren mit einem Promotor; Plasmidvektoren mit zwei unterschiedlich orientierten Promotoren für eine bestimmte oder zwei unterschiedliche RNA-Polymerasen) klonierte dsDNA eingesetzt werden. Die in die Plasmide klonierte Insert-DNA oder die bei der PCR eingesetzte DNA-Matrize können zum einen aus Viren, Bakterien, Pflanzen, Tieren oder dem Menschen isoliert werden, zum anderen aber auch in vitro durch reverse Transkription, RNaseH-Behandlung und anschließende Amplifikation (z.B. durch PCR) aus ssRNA erzeugt werden . Als RNA-Matrizen können rRNAs, tRNAs, mRNAs und snRNAs sowie in
vitro erzeugte Transkripce (entstanden z.B. durch Transkription mit SP6-, T3- oder T7-RNA-Polym3rase) eingesetzt werden.
Die für die Sequenzierung vorgesehenen, einzelsträngigen Nukleinsäuren werden sequenzspezifisch oder/und sequenzunspezifisch fragmentiert (z.B. durch sequenz(un)spezifische Enzyme, Ultraschall oder Scherkräfte), wobei eine im wesentlichen homogene Längenverteilung der Bruchstücke/Hydrolyseprodukte angestrebt wird. Wird keine homogene Längenverteilung der Fragmente erreicht, kann anschließend eine Längen- fraktionierung durch gelelektrophoretische und/oder chromatographische Verfahren durchgeführt werden.
Die entstandenen Fragmente können mit Markierungsgruppen, z.B. fluoreszierenden Agenzien oder radioaktiven Isotopen markiert werden. Die Markierung erfolgt dabei bevorzugt an den Enden der Fragmente (terminale Markierung) . 3'-terminale Markierungen können unter Verwendung geeigneter Synthone z.B. mit der terminalen Transferase oder der T4 RNA- Ligase durchgeführt werden. Werden für die Fragmentierung in vitro erzeugte RNA-Transkripte eingesetzt, kann die Markierung auch vor der Fragmentierung durch bei derTranskription eingesetzte markierte Nukleotide erfolgen (interne Markierung) .
Die markierten, fragmentierten Nukleinsäuren können dann in einer geeigneten Hybridisierungslösung gegen den mit einem Sondenarray beschichteten Träger hybridisiert werden.
5.2 Auswahl der festgelegten Sondenabschnitte (POKS)
In der folgenden Variante des Verfahrens zur Sequenzierung mit POKS dienen nach unterschiedlichen Kriterien ausgewählte p-mere als POKS; sie können zu verschiedene Zeitpunkten des Verfahrens bestimmt werden.
Zum einen kann zu Beginn des Verfahrens eine festgelegte Anzahl POKS bestimmt werden. Hier bietet es sich an, die Kombinationen (p-mere) auszuwählen, die in der Ausgangssequenz mit der höchsten Wahrscheinlichkeit vorkommen. Dies ist möglich, da die einzelnen Nukleotide und somit auch die einzelnen p-mere wie im ersten Abschnitt beschrieben mit unterschiedlichen Wahrscheinlichkeiten in der Probensequenz vorkommen. Kennt man z. B. bei DNA-Sequenzen den G-C, bzw. A-T Gehalt dieser Sequenz, so können also diejenigen p-mere bestimmt werden, die am wahrscheinlichsten, und somit am häufigsten in der Sequenz auftreten. Es sind ebenso andere Methoden zu einer Wahl der POKS zu Beginn des Verfahrens denkbar, z.B. aus Erfahrungswerten oder durch eine willkürliche Bestimmung.
Zum anderen kann es sinnvoll sein, nur wenige, bzw. einen POKS zu Beginn des Verfahrens festzulegen und alle folgenden POKS aus den bis dahin gewonnen Sequenzinformationen zu bestimmen. Durch dieses Vorgehen lernt das Verfahren aus den bisher generierten Daten und bestimmt, welche Daten für den weiteren Verlauf des Verfahrens und das Zusammensetzen der Informationen wichtig sind. Die ersten POKS müssen nicht notwendiger Weise vom Anwender vorgegeben werden, sie können z. B. wie oben erläutert vom System durch Bestimmung der Wahrscheinlichkeiten für die potentiellen POKS, aus Erfahrungswerten oder willkürlich bestimmt werden.
Bei einer Wahl der POKS zu Beginn des Verfahrens muß zunächst die Anzahl der POKS festgelegt werde. Diese kann z. B. aus Erfahrungswerten bestimmt, oder statistisch berechnet werden, indem sie so groß gewählt wird, daß der Abstand zwischen zwei POKS rein rechnerisch deutlich kleiner ist als die vorgegebene maximale Sondenlänge auf den Arrays.
Werden die POKS erst im Laufe des Verfahrens bestimmt, so kann ihre Anzahl entweder vorher festgelegt werden, s.o., so daß das Verfahren mit dem Erreichen der maximalen POKS-Anzahl abbricht, oder es werden so
lange weitere POKS bestimmt, bis andere Abbruchkriterien erfüllt sind. Zum Beispiel kann das Verfahren abgebrochen werden, wenn eine Sequenz von einer vorgegebenen Länge zusammengesetzt wurde, die alle Ansprüche an eine potentielle Lösung des Problems erfüllt. Ebenso kann das Verfahren z. B. dann beendet werden, wenn sich sie bisher zusammengesetzten Sequenzen an keinem der beiden Enden weiter verlängern lassen.
5.3 Vorgehensweise
Das Verfahren beruht im wesentlichen auf dem oben beschriebenen dynamischen Arrayaufbau, da dieser es erlaubt, Sequenzinformationen von spezifischer Länge zu erhalten, ohne dazu alle Sonden in ihrer Vielfalt erzeugen zu müssen. Außerdem wird die parallele "Rechenleistung" der Arrays genutzt, die zeit- und rechenaufwendige Vorgänge im Computer überflüssig macht.
5.3.1 Verschiedene Sondentypen auf dem Array
Für alle zu Beginn festgelegten POKS werden die drei oben beschriebenen Sondentypen auf einem oder mehreren Arrays synthetisiert, d.h. einmal werden alle Kombinationen einer vorgegebenen Länge mit der POKS- Gegensequenz am 3 '-Ende und einmal mit dieser Sequenz am 5 '-Ende erzeugt. Durch die Hybridisierung mit der Ausgangssequenz erhält man nach der Signalauswertung Informationen in (ungefährer) Sondenlänge über die Paarungen der Nukleotide rechts und links von diesen POKS. Mit Hilfe der Signale können wie oben beschrieben iterativ neue Sonden erzeugt werden. Dies wiederholt sich, bis eine maximale Sondenlänge erreicht ist. Zu diesem Zeitpunkt kennt man in der Ausgangssequenz alle möglichen Kombinationen auf maximaler Sondenlänge zu beiden Seiten jedes POKS.
Tabelle 5:
N P N 5'-Ende
N P N
N P N
N N N
N N N
N N N
N N P
N N P
N N P
N N N
N N N
N N N
P N N
P N N
P N N 3'-Ende
Tabelle 5 zeigt die drei verschiedenen Sondentypen mit den POKS (PPP) bzw. deren komplementärer Sequenz am 3'-Ende, am 5'-Ende und im Inneren der Sonde
Mit Hilfe des dritten Sondentyps wird nun der Zusammenhang zwischen diesen Informationen geklärt. Jede Sonde enthält nun im Zentrum die Gegensequenz zu den gewählten POKS, zu beiden Seiten dieser Sequenz werden nun in verschiedenen Sonden alle möglichen Kombinationen einer bestimmten Länge erzeugt. Durch das gleiche iterative Vorgehen wie bei den beiden ersten Sondentypen gewinnt man Informationen über alle Kombinationen der bisher erkannten Sequenzen, die in der Ausgangssequenz auftreten. Wenn die sich aus der Anzahl aller möglichen Kombinationen der erkannten Sequenzen ergebende Zahl der benötigten Stellplätze für den dritten Sondentyp geringer ist als die Stellplatzanzahl auf dem Array, können die Teile der erkannten Sonden des 1 . und 2. Typs direkt in die neuen Sonden übernommen werden. Eine Iteration ist in diesem Fall nicht notwendig . Für die direkte Erzeugung aller möglichen Zusammenhänge zwischen den erkannten Sequenzen werden deutlich weniger Stellplätze benötigt.
5.3.2 Zusammensetzen der ersten Sequenzinformationen
Nach der Auswertung der Arrays mit Sonden des dritten Typs und einem Zwischenschritt im Rechner sind alle Kombinationen der Länge
k = 2 x Maximale Sondenlänge - POKS-Länge
bekannt, die in der Ausgangssequenz auftreten können; sie haben alle einen POKS in der Mitte der Sequenz.
Mit Hilfe der POKS lassen sich diese Teilsequenzen nun erweitern. Dazu wird in jeder Teilsequenz zu einer oder beiden Seiten des mittleren POKS eine neue Stelle gesucht, an der einer der verwendeten POKS auftritt. Wird ein POKS gefunden, so vergleicht man die Sequenzinformation zu beiden Seiten dieses POKS mit allen Teilsequenzen, die genau diesen POKS enthalten. Dieses Vorgehen ermöglicht die Verknüpfung der einzelnen Teilsequenzen, es entsteht ein Baum aller Varianten, in denen diese Sequenzen kombinierbar sind.
Die folgende Tabelle 6 zeigt die Überschneidung zweier Teilsequenzen in einer DNA Sequenz, die mit Hilfe eines POKS erkannt wurde.
Tabelle 6:
ATGGAGCACTTGGPPPCCTACGPPPGTCA
TTGGPPPCCTACGPPPGTCATTGGCAGTA
In der oberen Sequenz von Tabelle 6 wurde ein weiterer POKS an Position
7 rechts nach dem POKS in der Mitte gefunden. Der Vergleich mit der zweiten Sequenz, die den "erkannten" POKS in der Mitte der Sequenz hat, hat ergeben, daß eine größtmögliche Überschneidung zwischen den beiden
Sequenzen besteht, und zwar von Position eins der zweiten Sequenz bis zu Position 20 dieser Sequenz.
Wurden alle POKS bereits zu Beginn des Verfahrens bestimmt, so sind nun alle möglichen Nachbarschaftsverhältnisse der Teilsequenzen bekannt. Die Nukleotidkombinationen können zur Gesamtsequenz zusammengesetzt werden, dazu wird der Baum aller Kombinationsmöglichkeiten durchlaufen und sinnvoll erscheinende Teilsequenzen werden zu einer Gesamtsequenz vereint. Falls repetitive Teilsequenzen auftreten, wird der Algorithmus nach einigen Zyklen abgebrochen; ein mögliches Abbruchkriterium ist dabei zum Beispiel die angenommene Länge der Ausgangssequenz.
Alle potentiellen Lösungssequenzen müssen zum Schluß noch auf ihre Richtigkeit überprüft werden, damit der Fehler zwischen der bestimmten Lösungssequenz und der Ausgangssequenz möglichst gering ist.
5.3.3 Bestimmung neuer POKS
Wurden nicht alle POKS gleich zu Beginn des Verfahrens festgelegt, so ist es nun möglich, neue POKS aus den bereits bekannten Sequenzteilen zu bestimmen. Hierzu gibt es mehrere Varianten. Zum einen können alle
Teilsequenzen zu einer Seite der POKS in der Mitte jeder Sequenz auf die am häufigsten auftretenden p-mere untersucht werden, wobei p die Länge der zu wählend POKS ist, die entweder vorher festgelegt oder im Verfahren optimiert werden kann. Durch diese Wahl der POKS kann im nächsten
Schritt für eine Mehrzahl, bzw. für alle bis jetzt bekannten Teilsequenzen eine Sequenz bestimmt werden, durch die sich die bisher detektierten
Sequenzen verlängern lassen. Um sicher zu stellen, daß für jede Teilsequenz eine Folgesequenz, bzw. eine Vorgängersequenz gefunden wird, werden eventuell relativ viele POKS benötigt. Mit den neu bestimmten POKS werden die gleichen Sonden erzeugt wie mit den zu Beginn gewählten POKS. Mit den dadurch gewonnenen Informationen ergeben sich neue Möglichkeiten,
die bekannten Teilsequenzen zusammenzusetzen und zu verlängern. Sollten die Abbruchkriterien des Verfahrens noch nicht erfüllt sein, so werden aus den neu bestimmten Sequenzen wiederum POKS bestimmt und mit deren Hilfe neue Informationen gewonnen.
Um die Anzahl der benötigten POKS zu verringern, ist es sinnvoll, die mit den zu Beginn des Verfahrens gewählten POKS gewonnenen Informationen zunächst zu längeren Sequenzen zusammenzusetzen. Diese längeren Sequenzen werden, falls erforderlich, untereinander verglichen und kürzere Sequenzen, die auch in längeren Sequenzen zu finden sind, gestrichen. Die restlichen Sequenzen enden alle auf Teilsequenzen für die kein Nachfolger bestimmt werden kann, bzw. beginnen alle mit Sequenzen, für die es keinen Vorgänger gibt. In diesen "Endsequenzen" werden nun wie oben p-mere bestimmt, die häufig vorkommen. Die p-mere dienen als neue POKS, für die wieder die drei Sondentypen erzeugt werden und somit nach der Signalauswertung alle möglichen Basenkombinationen um die POKS bekannt sind.
Nur in der Anfangssequenz und der Endsequenz der zu untersuchenden Sequenz können POKS gefunden werden, ohne daß sich diese Sequenzen weiter verlängern lassen. Werden diese Teilsequenzen im Verfahren erkannt, so werden sie gesondert behandelt und nicht in die Bestimmung neuer POKS einbezogen.
Aufgrund der Wahl der neuen POKS überschneiden sich die neu bestimmten Sequenzen nun zum Teil mit den bereits bekannten längeren Sequenzen, diese werden nun, soweit möglich, in beide Richtungen verlängert. Zudem werden alle Kombinationen erzeugt, die durch die neuen POKS entstehen und noch nicht in den bisher bekannten Sequenzen enthalten sind. Aus den neuen "Endsequenzen" werden wieder neue POKS erzeugt; dies geschieht so lange, bis eines der Abbruchkriterien erfüllt wird.
Neben den oben aufgeführten Methoden zur Bestimmung der POKS sind natürlich auch andere Vorgehensweisen denkbar, bei denen POKS nach den einzelnen Teilschritten des Verfahrens bestimmt werden. Unter anderem kann sich eine Kombination aus verschiedenen Methoden als sinnvoll erweisen.
Durch die selbständige Wahl der neuen POKS entwickelt sich im System ein Lernprozeß, bei dem sich die Auswertung der Daten und die Zusammensetzung neuer Arrays zur Gewinnung neuer Daten gegenseitig bedingen.
5.3.4 Endgültiges Zusammensetzen und Verifizierung der Sequenzen
Bestimmt man die POKS zu Beginn des Verfahrens, so werden die erkannten Teilsequenzen in allen möglichen Kombinationen zu langen Sequenzen zusammengesetzt. Bei einer entsprechenden Auswahl der POKS überlappt jede Teilsequenz mit einer anderen, so daß sich die Ursprungssequenz unter den kombinierten Möglichkeiten befindet. Um herauszufinden, welche der
Sequenzen diejenige ist, die das Problem am besten löst, werden zunächst alle 9equenzen untereinander auf Überlappungen überprüft. Treten solche
Überlappungen auf, und überschreitet eine aus den sich überlappenden
Teilsequenzen zusammengesetzte Sequenz nicht die geschätzte oder bekannte Länge der Probensequenz, so werden die Sequenzen weiter kombiniert. Kurze Sequenzen, die komplett in längeren Sequenzen enthalten sind, werden gestrichen.
Neben der Sequenzlänge ist der Vergleich mit allen auf den Arrays detektierten Teilsequenzen ein Anhaltspunkt, um die Sequenz zu bestimmen, die mit der Probensequenz am besten übereinstimmt. In der Lösungssequenz sind im Idealfall alle, zumindest aber ein großer Teil der auf den Arrays mit den ersten beiden Sondentypen bestimmten Sequenzen
enthalten, auf keiner Fall dürfen vor oder nach einem POKS Basenkombinationen au ftreten, die nicht auf den Arrays erkannt wurden.
Ist zudem eine Quantifizierung der erhaltenen Signale möglich, kann also zumindest annähernd bestimmt werden, wie oft eine detektierte Sequenz in der Ursprungssequenz vorkommt, so ist dies ein weiteres Kriterium während der Verifizierung; es darf keine Sequenz häufiger als erkannt vorkommen.
Außer den oben aufgeführten Kriterien ist es natürlich möglich, die gleiche Sequenz zur Kontrolle mit anderen POKS zu untersuchen und die Ergebnisse zu vergleichen, ein Prozeß, der bei einer hohen Stellplatzdichte auf den Arrays durchaus parallel verlaufen kann.
Werden die POKS erst im Verlauf des Verfahrens bestimmt, so kann schon in jedem Schritt überprüft werden, ob die einzelnen Sequenzen nur Teilsequenzen enthalten, die auch in der Probensequenz vorkommen, oder ob Sequenzen auftreten, die nicht auftreten dürfen und eine Sequenz damit Lösungssequenz ausscheidet. Genauso kann (bei der oben angesprochenen Quantifizierung der Signale) schon nach jedem Schritt sichergestellt werden, daß eine Teilsequenz nur so oft eingebunden wird wie es zulässig ist.
5.3.5 Abbruchkriterien
Bei einer vorher festgelegten Anzahl von POKS kann das Verfahren automatisch abgebrochen werden, wenn nach bzw. bei der Bestimmung neuer POKS diese Anzahl überschritten wird, bzw. wenn bei vorgegebenen POKS alle dadurch erhaltenen Informationen verarbeitet wurden.
Sind sowohl die POKS als auch deren Anzahl frei wählbar, so muß ein anderes Abbruchkriterium gefunden werden. Zunächst ist die Bestimmung von p-meren natürlich begrenzt durch deren Anzahl, da es genau 4pp-mere
gibt. Je nach Wahl von p ist diese Anzahl relativ hoch und damit zu groß, um als natürliches Abbruchkriterium zu dienen.
Ohne jedes Vorwissen über die Beschaffenheit der zu untersuchenden Sequenz (z.B. ohne Kenntnis ihrer Länge) kann das Verfahren dann abgebrochen werden, wenn für jede theoretisch verlängerbare, erkannte Teilsequenz ein Nachfolger, bzw. ein Vorgänger gefunden wurde. Zu diesem Zeitpunkt liegt die komplette Sequenzinformation der Ausgangssequenz vor, so daß durch eine erneute Bestimmung von POKS keine neuen Informationen gewonnen werden können.
Ist die Länge der zu untersuchenden Sequenz bekannt, so kann die zyklische POKS-Bestimmung beendet werden, sobald eine Sequenz gefunden wurde, deren Länge mit der ungefähren Ausgangslänge übereinstimmt, und die (fast) alle auf den Arrays erkannten Teilsequenzen enthält.
Zudem können für die zusammengesetzten Sequenzen während des Verfahrens Wahrscheinlichkeiten für ihre "Richtigkeit", bzw. Werte zur Fehlerabschätzung bestimmt werden, so daß das Verfahren abbrechen kann, sobald ein vorher gesetzter Schwellenwert für den Fehler unterschritten wird.
5.3.6 Wiederholungen innerhalb der Ausgangssequenz und repetitive Sequenzen
Treten in der Probensequenz Wiederholungen auf, so kann es in dem oben beschriebenen Baum aller möglichen Sequenzkombinationen zu einem Ringschluß kommen, der das Zusammensetzen der Sequenzen erschwert.
Dabei ist die Länge der sich wiederholenden Sequenzabschnitte von wesentlicher Bedeutung. Wiederholungen, die kürzer sind als die maximale
Sondenlänge (bei Verwendung aller 3 Sondentypen), bzw. kürzer als die halbe maximale Sondenlänge bei ausschließlicher Verwendung des 3. Sondentyps, stellen kein Problem beim Zusammensetzen dar. Treten Wiederholungen auf, die länger sind als die oben beschriebenen, die aber kürzer als die Gesamtlänge der Teilsequenzen minus Länge der POKS, so können diese durch geschicktes Verschieben der POKS, d.h. durch die Wahl eines neuen POKS, der sehr nahe am POKS im Zentrum der Sequenz liegt, aufgelöst werden. Treten längere Wiederholungen auf, so wird nach ihrem Auftreten der Algorithmus zum Zusammensetzen abgebrochen, dadurch entstehen mehrere Teilsequenzen von unterschiedlicher Länge, die jeweils um die Länge der Wiederholungen überlappen. Durch den Einsatz anderer Verfahren, wie z.B. PCR, oder der Wahl neuer Sondentypen kann der Zusammenhang zwischen diesen Teilsequenzen geklärt werden.
Ein möglicher weiterer Ansatz zur Lösung der durch Wiederholungen bedingten Phänomene ist die Kenntnis über die ungefähre Länge der Ausgangssequenz. Wird bei dem Versuch, die erkannten Teilsequenzen zusammenzusetzen, diese Länge deutlich überschritten, so wurden vermutlich Teilsequenzen zu häufig eingebaut. Eine solche Sequenz kann nicht als Ergebnis des Verfahrens zugelassen werden.
Ist es darüber hinaus möglich, durch eine Quantifizierung der nach der Hybridisierung erhaltenen Signale eine Größenordnung für die Häufigkeit des Auftretens jeder Sonde in der Ausgangssequenz festzulegen, so wird die Länge der Ausgangssequenz nicht unbedingt als Abbruchkriterium benötigt.
Auch für den Fall, daß in der Probensequenz repetitive Teile auftreten, d.h. nicht unterbrochene Wiederholungen relativ kurzer Sequenzen, erleichtert die mögliche Quantifizierung der Signale auf den Arrays das Zusammensetzen der Sequenz.
5.4 Sequenzieren mit langen Sonden
Ist es möglich, die Sondenlängen in dem oben beschriebenen Verfahren hinreichend groß zu wählen, so kann auf den Aufbau der ersten beiden Sondentypten für jeden POKS verzichtet werden. Die Sonden können dann so lang gewählt werden, daß die Wahrscheinlichkeit, für einen weiteren POKS in ihrer Sequenz groß genug ist, um Überlappungen zu garantieren. Wie oben beschrieben werden für den nun ausschließlich relevanten 3. Sondentyp, der die Gegensequenz der gewählten POKS in der Mitte der Sequenz enthält, alle Kombinationen einer vorgegebenen Länge erzeugt, gegen diese wird hybridisiert und signalliefernde Sonden werden im nächsten Schritt weiter aufgebaut. Dabei ist es möglich, jede Sonde gleich in beide Richtungen vom POKS weg zu verlängern, oder abwechselnd in die eine und dann in die andere, bis die maximal mögliche Länge erreicht wird. Je nach Anzahl der Stellplätze können wieder mehrere Iterationsschritte auf einem Array abgearbeitet werden.
Die Verwendung von langen Sonden macht unter Umständen den Aufbau der ersten beiden Sondentypen überflüssig. Dies bedeutet eine Reduktion der Stellplätze und somit der benötigten Arrays. Zum anderen können eventuelle Fehler, die durch die rechnerische Verlängerung der Sonden des dritten Typs mit Hilfe der Sonden des ersten und zweiten Typs entstehen, ausgeschlossen werden.
6. Dynamische Sequenzierung durch Hybridisierung (DSBH) mit durch Enzym-Erkennungsstellen gewählten festen Abschnitten (POKS)
Eine weitere Variante des Verfahrens ist die Integration der POKS bereits in die Probenvorbereitung, indem mittels sequenzspezifischen Nukleasen das Probenmaterial in entsprechende Fragmente geschnitten wird. Als POKS dienen dann automatisch die Basen, die die Nuklease-Erkennungssequenzen bilden.
6.1 .1 Probenvorbereitung
Die Probenvorbereitung für diese Variante des Verfahrens geht zunächst von dsDNA aus. Diese dsDNA kann zum einen als genomische, chromosomale DNA, als extrachromosomales Element (z.B. als Plasmid) oder als Bestandteil von Zellorganellen aus Viren, Bakterien, Tieren, Pflanzen oder dem Menschen isoliert werden, zum anderen aber prinzipiell auch in vitro durch reverse Transkription, RNaseH-Behandlung und anschließende Amplifikation (z.B. durch PCR) aus ssRNA erzeugt werden. Als RNA- Matrizen können neben rRNAs, tRNAs, mRNAs und snRNAs auch in vitro erzeugte Transkripte (entstanden z.B. durch Transkription mit SP6-, T3- oder T7-RNA-Polymerase) eingesetzt werden.
Die isolierte oder in vitro synthetisierte dsDNA wird dann mit einer Restriktionsendonuklease oder mit einem Gemisch aus mehreren Restriktionsendonukleasen hydrolysiert, wobei doppelsträngige Subfragmente mit definierten Anfangs- und/oder Endsequenzen entstehen. Anzahl und Länge der entstehenden Subfragmente können durch die Auswahl geeigneter Enzyme (dies können auch durch Proteindesign veränderte oder erzeugte Enzyme sein) gesteuert werden. Zur Längenfraktionierung können der Hydrolyse gelelektrophoretische und/oder chromatographische Trennprozesse folgen. Für die Erzeugung von RNA- Subfragmenten können Ribozyme eingesetzt werden.
Die erzeugten Subfragmente werden vorzugsweise nach der Fraktionierung markiert. Obwohl die Markierung prinzipiell auch vor der Denaturierung möglich ist (z.B. durch das Auffüllen 3 '-kohäsiver Enden mit einer DNA- Polymerase), werden die Subfragmente bevorzugt nach der Denaturierung, also auf der Ebene einzelsträngiger Subfragmente, markiert. Die Markierung erfolgt vorzugsweise mittels fluoreszierender Agenzien (z.B. Fluorescein oder Cy5), möglich sind aber auch andere Markierungsverfahren wie z.B. der Einbau radioaktiver Isotope. Die Markierungsgruppen werden
hauptsächlich in Form markierter Nukleotid-Derivate an die Subfragmente gekoppelt. Die Kopplung am 3'-Terminus kann z.B. durch die T4-RNA-Ligase oder durch die terminale Transferase (unter Verwendung entsprechender Nukleotid-Derivate) erfolgen.
Die markierten, einzelsträngigen Subfragmente können dann in einer geeigneten Hybridisierungslösung gegen den mit einem Sondenarray beschichteten Träger hybridisiert werden.
6.2 Verfahrensablauf
Die in geeigneter Weise aufbereitete Probe wird durch ein Schnittenzym in möglichst kleine Subfragmente zerlegt. Die komplementäre Sequenz zur Nu- kleotidabfolge des Schnittenzyms bildet hierbei direkt die POKS Sequenz, das bedeutet, die möglichen POKS werden durch die zur Verfügung stehenden Enzyme vorgegeben. Das statistische Verhalten der Fragmentlänge und -anzahl ist analog zu den frei gewählten POKS bedingt durch die Ausgangssequenz und die verwendete Schnittsequenz.
Die SO enzymatisch zerkleinerte Probe wird nach der Länge der Subfragmente sortiert, d.h. fraktioniert. Markierte Subfragmente, welche nicht länger als die maximale Sondenlänge sind, werden zur Analyse, gemäß beschriebenen Verfahren, auf den Array gegeben. Die Sonden, welche beim ersten Array einen Hybridisierungspartner unter den Subfragmenten in der Probe gefunden haben, werden entsprechend zyklisch bis zur maximalen Sondenlänge verlängert. Dadurch werden alle Subfragmente der Ausgangsprobe bezüglich ihrer Nukleotidabfolge bestimmt.
Die längeren Subfragmente werden einem weiteren Probenvorbereitungs- zyklus zugeführt. Dabei kann es sich wiederum um eine enzymatische
Fragmentierung, aber auch ein geeignetes Amplifikationsverfahren oder das
vorher beschriebene rein statistische POKS Verfahren und die zugehörige Probenvorbereitung handeln.
Bei Bedarf können auch mehrere Enzym POKS gleichzeitig in der Probenvorbereitung und in der anschließenden zyklischen Arrayanalyse eingesetzt werden. Diese Subfragmente können durch die enzymatische POKS Sequenz am Anfang bzw. Ende der Sonden einwandfrei zugeordnet und parallel verfolgt werden.
Für den Aufbau der Sonden ergeben sich in dieser Variante des DSBH- Verfahrens durch die Vorgabe der Enzymsequenzen zwei Möglichkeiten. Zum einen kann die komplette Sequenz an den Enden der Sonden aufgebaut werden, zum anderen kann es genügen, nur den Teil der Enzymsequenz nach dem Schnittpunkt zu synthetisieren. Tabelle 7 stellt die beiden Möglichkeiten am Beispiel einer DNA-Sequenz dar, in der die Sequenz des Enzyms Alu I (AGCT) auftritt. Die Schnittstelle dieses Enzyms liegt zwischen dem zweiten und dritten Nukleotid.
Tabelle 7
5 '-Ende NNNNNNNNNNNNN AG | CT NNNNNNNNNNNNNN 3 '-Ende 3 '-Ende NNNNNNNNNNNNN TC | CA NNNNNNNNNNNNNN 5 '-Ende
Nach der Hydrolyse und der Denaturierung in der Probenvorbereitung erhält man in diesem Fall vier Fragmente. Zwei von ihnen beginnen, in 5 '-3 ' Richtung gelesen, mit den Nukleotiden CT, die beiden anderen Enden auf AG . Um die in beiden Richtungen auf die Enzymsequenz folgenden Nukleotide erkennen zu können, müssen auf dem Array nun die drei oben beschriebenen Sondentypen synthetisiert werden, siehe Tabelle 8.
Im linken Teil der Tabelle 8 wird die komplette Enzymsequenz als POKS verwendet, der Aufbau erfolgt völlig analog zur Methode mit statistisch
gewählten POKS. Für den Aufbau der im rechten Teil dargestellten Sonden wird die Enzymsequenz an ihrem Schnittpunkt in zwei Teile zerlegt. Um die im obigen Sequenzbeispiel mit den Nukleotiden CT beginnenden Fragmente detektieren zu können, werden Sonden mit dem den Nukleotiden GA am 3 ' - Ende erzeugt, um die beiden anderen Fragmente bestimmen zu können, werden alle Sonden einer vorgegbenen Länge erzeugt, die die Nukleotide TC am 5 ' -Ende tragen. Das Hybridisierungsverhalten auf dem Array muß für beide Sondentypen gleich sein. Im linken Fall fungieren die Nukleotide TC als eine Art Linker.
Für die jeweils dritte Sondenarte muß die Probe anders vorbereitet werden. Entweder wird die zu untersuchende Sequenz statistisch, z.B. mit Ultraschall zerlegt, oder z. B. mit einem Enzym geschnitten, dessen Sequenz keiner der zur Probenvorbereitung verwendete Enzymsequenzen entspricht.
Tabelle 8:
N N 5'-Ende N C N 5'-Ende
N G N N T N
N C N N N N
N T N N N N
N N N N N N
N N N N N N
N N A N N A
N N G N N G
N N C N N C
N N T N N T
N N N N N N
A N N N N N
G N N N N N
C N N A N N
T N N 3'-Ende G N N 3'-Ende
Das Zusammensetzen der einzelnen detektierten Fragmente zu einer Gesamtsequenz erfolgt analog zur beschriebenen Variante mit statistisch gewählten POKS.
Der wesentliche Vorteil der Erzeugung der POKS in der Probenvorbereitung durch Schnittenzyme ist ein niedrigerer Bedarf an Probenmaterial. Durch die enzymatische Zerlegung der Ausgangssequenz entstehen nur Subfragmente mit der POKS Sequenz am Ende. Bei einer Ausgangssequenz mit beispielsweise 3.000 Basen und einer mittleren Subfragmentlänge von 60 Basen entstehen ca. 500 Subfragmente. Beim Zerlegen der gleichen Ausgangssequenz in alle möglichen Subfragmente für die frei wählbaren POKS (aber mit der gleichen Nukleotidsequenz wie das Enzym sie aufweist) entstehen entsprechend 3.000 - 60 + 1 = 2.941 Subfragmente von denen nur 500 die POKS Sequenz am Ende aufweisen. Im Vergleich wird für die Enzym POKS also nur 500 / 2.941 = 0.1 7 entsprechend 1 7% des Probenmaterials benötigt.
Die wesentlichen Nachteile der enzymatischen POKS sind die notwendige Entwicklung der geeigneten Schnittenzyme, die geringe Flexibilität und der höherer Aufwand in der Probenvorbereitung. Die Entwicklung der entsprechenden Enzyme zum Beispiel mittels Proteindesign ist arbeitsaufwendig. Die Bereitstellung in der Probenvorbereitung erhöht den logistischen Aufwand im System. Außerdem muß eine zyklische Probenvorbereitung mit einer integrierten Längenfraktionierung etabliert werden. Diese ist notwendig um die längeren Subfragmente abzutrennen und weiter zu zerkleinern.
Beide Ansätze (frei wählbare und enzymatische POKS) lassen sich auch kombinieren. So könnten statistisch sehr erfolgreiche POKS als Enzyme in der Probenvorbereitung bereitgestellt werden. Sind diese Enzym POKS verbraucht wird entsprechend mehr amplifiziert und die frei wählbaren POKS eingesetzt.
7.1 . 1 Freigewählte POKS mit allen 3 Sondentypen
In diesem Beispiel wird die Sequenzierung einer 3060 Nukleotide langen einzelsträngigen Teilsequenz aus dem £. cσ// Genom mit Hilfe verschiedener POKS von drei Nukleotiden Länge simuliert. Die während der Simulation erzeugten Daten sind Idealdaten, die mögliche Fehler, wie z. B. möglichen Abbruch während der Synthese oder Probleme bei der Signalauswertung noch nicht berücksichtigen.
Mit Hilfe der durch die Simulation des Arrayaufbaus, der Hybridisierung und der Signalauswertung erzeugten Daten läßt sich die Ausgangssequenz wieder in ihrer Gesamtheit zusammensetzen.
Zu Beginn des Verfahrens wird der A-T-, G-C- Gehalt der Sequenz bestimmt. Daraufhin wird der POKS mit der höchsten Wahrscheinlichkeit, in diesem Fall GCG, als Start-POKS gewählt. Mit diesem POKS wird die Synthese der Sonden auf dem ersten Array simuliert. Dazu werden alle drei Sondentypen mit der Gegensequenz zum POKS an den oben näher beschriebenen Positionen in den Sonden erzeugt. Der variable Anteil der Sonden hat in diesem Beispiel eine Länge von 5 Nukleotiden, für jeden Sondentyp werden also Stellplätze benötigt, also insgesamt 3072. Um eine eventuell deutlich größere Anzahl von Stellplätzen auszunutzen, kann es sinnvoll sein, gleich zu Beginn längere Sonden zu synthetisieren.
Nach der Hybridisierung gehen von jeweils 82 Stellplätzen, deren Sonden die POKS-Gegensequenz an ihren Enden haben und von 81 Stellplätzen, deren Sonden die POKS-Sequenz in der Mitte haben, Signale aus. Auf dem nächsten Array werden also insgesamt 980 (82 x 4 + 81 x 4 + 81 x 4) Stellplätze benötigt, um für jeden signalgebenden Stellplatz vier neue Stellplätze mit jeweils um eine Base verlängerten Sonden aufbauen zu können.
An dieser Stelle ist es möglich, gleich mehrere Iterationsschritte auf einem Array abzuarbeiten, wenn die Anzahl der vorhandenen Stellplätze hinreichend groß ist. Dazu kann jede relevante Sonde auf dem neuen Array um zwei, drei oder mehr Nukleotide erweitert werden. Bei einer Verlängerung um zwei Nukleotide werden pro Stellplatz dann 1 6 neue Stellplätze benötigt, bei einerVerlängerung um drei Nukleotide entsprechend 64 Stellplätze, bei 4 Nukleotiden 256 Stellplätze, usw. In der Simulation, in der die Stellplatzanzahl eine untergeordnete Rolle spielt, wird für jeden Iterationsschritt ein neues Array erzeugt.
Die Sondenlänge von insgesamt 5 + 3 = 8 Nukleotiden ist in diesem Fall bereits so spezifisch lang, daß sich die Anzahl der benötigten Stellplätze in keinem der folgenden Iterationsschritte deutlich vergrößert, sie pendelt sich nach ungefähr 3 Schritten auf 340 Stellplätze pro Sondentyp, also insgesamt auf 1 020 Stellplätze ein.
Insgesamt werden die Sonden bis zu einer Länge von 25 Nukleotiden aufgebaut, so daß nach der Auswertung des letzten Arrays alle in der Ausgangssequenz auftretenden 22-mere nach und vor dem ersten POKS bekannt sind. Mit Hilfe des dritten Sondentyps werden alle möglichen Zusammenhänge zwischen diesen Teilsequenzen bestimmt, diese Sequenzen können rechnerisch mit den Sequenzen des ersten und zweiten Sondentyps auf jeweils 47 Nukleotide verlängert werden.
Es ist mit dem dynamischen Arrayaufbau somit gelungen, alle 22-mere nach und vor dem POKS zu bestimmen, ohne alle 22-mere (422 = 1 ,75921 8604 x 1013) erzeugen zu müssen.
Im nächsten Schritt wird in den jetzt bekannten zusammengesetzten Teilsequenzen mit dem POKS in der Mitte die POKS-Sequenz rechts und links dieses POKS gesucht. Wird die POKS-Sequenz ein zweites Mal in einer
Teilsequenz gefunden, so wird der entsprechende Abschnitt mit allen
Teilsequenzen verglichen, die den POKS in der Mitte haben. Da alle Sequenzen um den POKS nun bekannt sind, muß es eine Sequenz geben, mit der es eine Überschneidung gibt. Nach dem ersten POKS gelingt es bereits, die erkannten Teilsequenzen zu längeren Sequenzen bis zu 248 Nukleotiden Länge zusammenzusetzen. Durch Auswertung der Enden dieser Sequenzen werden zwei neue POKS (CTG, GAA) bestimmt, einer für jedes Ende, mit denen nun wieder Arrays aufgebaut werden. Wie oben wird mit einer variablen Länge von 5 Nukleotiden begonnen, die bis zu einer Länge von 22 Nukleotiden gesteigert wird. Die Anzahl der benötigten Stellplätze pendelt sich nach wenigen Zyklen auf 31 2 pro Sondentyp ein, so daß pro Iterationsschritt insgesamt 936 x 2 Stellplätze benötigt werden.
Wie gehabt werden in den detektierten Sequenzen die POKS-Sequenzen gesucht und diese Sequenzen gegebenenfalls verlängert. Nach den ersten drei POKS können Sequenzteile bis zu einer Länge von 456 Nukleotiden zusammengesetzt werden. Um die Sequenz in der vollen Länge erkennen und zusammensetzen zu können werden noch vier weitere POKS (GCC, CAG, TCA, ATC) benötigt, die aus den bisher ausgewerteten Daten und einem weiteren Zyklus bestimmt werden. Die Anzahl der in den letzen beiden Zyklen (Arrayaufbau, Hybridisierung, iterative Verlängerung der Sonden bis zu 25 Nukleotiden) benötigten Stellplätze pro Iterationsschritt liegt bei 200 bis 370 Stellplätzen pro Sondentyp. Nach dem letzen Zyklus kann die Ausgangssequenz komplett zusammengesetzt werden.
Die Array-Größe und die Anzahl der nach jedem Schritt gewählten POKS ist in diesem Beispiel nicht optimiert worden. Es ist möglich, daß eine größere Anzahl von POKS zu Beginn des Verfahrens die Anzahl der benötigten Stellplätze / Arrays reduzieren würde. Zudem erscheint es sinnvoll, auf jedem Array mehrere Iterationsschritte auf einmal abzuarbeiten, um die Anzahl der verfügbaren Stellplätzen auszunutzen. Geht man in diesem Beispiel von einer Array-Größe von 400.000 Stellplätzen aus, und optimiert das Verfahren, so können auf dem ersten Array Sonden mit einem variablen
Teil von 8 Nukleotiden aufgebaut, also mit einer Gesamtlänge von 1 1 Nukleotiden. Damit werden die vorhandenen Stellplätze allerdings erst zur Hälfte ausgenutzt, was eine Wahl von zwei POKS zu Beginn sinnvoll erscheinen läßt.
Auch bei einer Ausgangslänge von 1 1 Nukleotiden pro Sonden gehen nur von ca. 85 Stellplätzen pro Sondentyp Signale aus, so daß auf dem nächsten Array insgesamt 1020 Stellplätze aufgebaut werden müssen. Somit können auf diesem Array 5 Iterationsschritte abgearbeitet werden, dazu werden 261 .124 Stellplätze benötigt. Mit zwei weiteren Arrays, auf denen wiederum jeweils 1 024 Sonden pro signalgebenden Stellplatz des Vorgängerarrays aufgebaut werden können, lassen sich die relevanten Sonden auf jeweils 25 Nukleotide verlängern. Für den ersten POKS werden somit 4 Arrays benötigt; dabei sind die einzelnen Arrays noch nicht ideal ausgelastet.
Um in den nächsten Schritten zwei POKS auf einmal untersuchen zu können, muß die Anzahl der Iterationsschritte pro Array auf vier reduziert werden, so daß für jedes POKS-Paar insgesamt vier bis fünf Arrays benötigt werden, insgesamt, inklusive der Arrays für den ersten POKS, also 1 6 bis 1 9 Arrays.
Bei Beispielen mit längeren Sequenzen ist zu beobachten, daß die Anzahl der benötigten POKS nicht notwendigerweise mit der Länge der Sequenz wächst, vielmehr gelingt es z. B. verschiedene Sequenzen von 20.000 Nukleotiden Länge mit 9 bis 1 1 POKS zusammenzusetzen. Das Verfahren wird somit für längere Sequenzen immer rentabler.
8. Anwendungen
Das erfindungsgemäße Verfahren ermöglicht die systematische Sequenzanalyse von teilweise oder gänzlich unbekannten Nukleinsäuren in einer Probe.
In einer Ausführungsform werden mithilfe des Verfahrens Genome ganz oder teilweise sequenziert. Die Teile können durch Auswahl und Isolierung einzelner Chromosomen, durch Klonieren genomischer DNA (z.B. in Bacterial Artificial Chromosomes BAC oder Yeast Artificial Chromosomes YAC) oder durch andere Verfahren generiert werden.
In einer anderen Ausführungsform werden cDNA-Populationen, die z.B. aus einer klonierten Bibliothek oder direkt aus einer isolierten mRNA hergestellt sein können, ganz oder zum Teil sequenziert. Im Ergebnis handelt es sich dann um eine Transkriptom-Sequenzierung. Dies kann bei gleichzeitiger Bearbeitung unterschiedlcher Proben aus unterschiedlichen Quellen, z.B. Zellen in unterschiedlichem Zustand, so geschehen, daß in einer Variante nur solche Sequenzen weiterverfolgt werden, die unterschiedlich sind, in einer anderen nur solche, die gleich sind.
In einer Ausführungsform kann es von Interesse sein, daß sog. Polymorphismen, z.B. Einzelnukleotid-Polymorphismen, identifiziert oder für die Auswahl der POKS verwendet werden.
Weiterhin kann das erfindungsgemäße Sequenzierungsverfahren für diagnostische Zwecke, beispielsweise für eine individualisierte oder mehrstufige Diagnostik eingesetzt werden. Das Verfahren eignet sich auch zur Entwicklung einer individualisierten, patientenabhängigen Medikamentierung bzw. zur patientenabhängigen Entwicklung oder/und Modifizierung von pharmazeutischen Substanzen. Das Verfahren kann in Verbindung mit einem Netzwerk oder/und einer Datenbank zu einer
dezentralen patientennahen Analyse und Identifizierung von Krankheitsbildern bzw. Krankheitserregern und deren Mutationen eingesetzt werden. Außerdem ist das Verfahren zur molekularen Diagnostik sowie zur vergleichenden Genomik geeignet, z.B. zum Einsatz in der Forschung, zur Aufklärung der Funktionalität von einzelnen Genen oder Genomen von Organismen. Das Verfahren kann weiterhin zur Mutationsanalyse, z.B. unter anderem zur Untersuchung des Einflusses von beispielsweise Umwelteinflüssen, Medikamenten, Strahlung oder/und Giften von Organismen eingesetzt werden.
Claims
Ansprüche
Verfahren zur Sequenzierung von Nukleinsäuren umfassend die Schritte:
(a) Durchführen eines ersten Hybridisierungszyklus umfassend (i) Bereitstellen eines Trägers mit einer Oberfläche, die an einer Vielzahl von vorbestimmten Bereichen immobilisierte Hybridisierungssonden enthält, wobei die Hybridisierungssonden in einzelnen Bereichen jeweils eine unterschiedliche Basenfolge mit einer vorbestimmten Länge aufweisen, (ii) Inkontaktbringen einer Probe, die zu sequenzierende
Nukleinsäuren enthält, mit dem Träger unter Bedingungen, bei denen eine Hybridisierung zwischen den zu sequenzierenden Nukleinsäuren und dazu komplementären Sonden auf dem Träger erfolgen kann, und (iii) Identifizieren der vorbestimmten Bereiche auf dem Träger, an denen eine Hybridisierung in Schritt (ii) erfolgt ist,
(b) Durchführen eines nachfolgenden Hybridisierungszyklus umfassend:
(i) Bereitstellen eines weiteren Trägers mit einer Oberfläche, die an eine Vielzahl von vorbestimmten
Bereichen immobilisierte Hybridisierungssonden enthält, wobei die Hybridisierungssonden in einzelnen Bereichen jeweils eine unterschiedliche Basenfolge mit einer vorbestimmten Länge aufweisen, wobei für den weiteren Träger Hybridisierungssonden mit einer
Basenfolge ausgewählt werden, bei denen in einem vorhergehenden Zyklus eine Hybridisierung beobachtet
worden ist, und wobei die ausgewählten Hybridisierungssonden um mindestens ein Nukleotid gegenüber einem vorhergehenden Zyklus verlängert werden, (ii) Wiederholen von Schritt (a) (i) mit dem weiteren Träger, und (iii) Wiederholen von Schritt (a) (iii) mit dem weiteren Träger, und (c) gegebenenfalls Durchführen von weiteren nachfolgenden Hybridisierungszyklen jeweils mit Auswahl und Verlängerung und Auswahl der Hybridisierungssonden gemäß Schritt (b) (i), bis eine ausreichende Information über die zu sequenzierenden Nukleinsäuren vorliegt.
2. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, daß die zu sequenzierenden Nukleinsäuren aus doppelsträngiger DNA, einzelsträngiger DNA und RNA ausgewählt werden.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die zu sequenzierenden Nukleinsäuren vor dem Inkontaktbringen mit dem Träger fragmentiert werden.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß durch die Fragmentierung und gegebenenfalls eine nachfolgende Längenfraktionierung Nu kleinsäurefragmente mit einer vorbestimmten, z.B. im wesentlichen homogenen Längenverteilung erzeugt werden.
5. Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, daß die Fragmentierung sequenzunspezifisch erfolgt.
6. Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, daß die Fragmentierung sequenzspezifisch erfolgt.
7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die zu sequenzierenden Nukleinsäuren Markierungsgruppen, insbesondere optisch detektierbare Markierungsgruppen wie Fluoreszenz- oder Metallpartikelmarkierungen tragen.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß direkte oder indirekte Markierungen verwendet werden.
9. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß im ersten Hybridisierungszyklus Sonden mit einer Länge s ausgewählt werden und alle möglichen 4S Sequenzvariationen an den vorbestimmten Bereichen des Trägers erzeugt werden.
1 0. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß im ersten Hybridisierungszyklus Sonden mit einer Länge s ausgewählt werden, so daß nach Inkontaktbringen mit der Probe an maximal 25% der vorbestimmten Bereiche eine Hybridisierung mit den zu sequenzierenden Nukleinsäuren erfolgt.
1 . Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß im ersten Hybridisierungszyklus Sonden mit einer Länge s so ausgewählt werden, daß sie mit der Länge m der zu bestimmenden Sequenz in folgender Beziehung stehen:
m < 4S"1 + s - 1
2. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daßin einem oder mehreren Hybridisierungszyklen Sonden verwendet werden, die neben variablen Abschnitten der Länge n einen oder mehrere für zumindest einen Teil der Sonden festgewählte Abschnitte der Länge p aufweisen.
3. Verfahren nach Anspruch 1 2, dadurch gekennzeichnet, daß im ersten Hybridisierungszyklus die Länge n des variablen Sondenanteils so gewählt wird, daß alle möglichen 4n Sequenzvariationen an den vorbestimmten Bereichen des Trägers erzeugt werden.
4. Verfahren nach Anspruch 1 2 oder 1 3, dadurch gekennzeichnet, daß die Länge p des festgewählten Abschnitts und die Länge n der variablen Abschnitte so ausgewählt werden, daß sie mit der Länge m der zu bestimmenden Sequenz in folgender Beziehung stehen:
m < 4"-τ (4p + p-1 )
5. Verfahren nach einem der Ansprüche 1 2 bis 14, dadurch gekennzeichnet, daß die Länge der festgewählten Abschnitte p 2, 3, oder 4 Nukleotide beträgt.
6. Verfahren nach einem der Ansprüche 1 2 bis 1 5, dadurch gekennzeichnet, daß Sonden verwendet werden ausgewählt aus ( 1 ) Sonden mit den festgewählten Abschnitten p am 3'-Ende, (2) Sonden mit festgewählten Abschnitten p am 5'-Ende und (3) Sonden mit festgewählten Abschnitten p im Inneren der Sequenz.
7. Verfahren nach Anspruch 1 6, dadurch gekennzeichnet, daß Sonden mit festgewählten Abschnitten p im Inneren der Sequenz verwendet werden.
8. Verfahren nach Anspruch 1 6 oder 1 7, dadurch gekennzeichnet, daß die Sonden ( 1 ), (2) und (3) gemeinsam oder/und nacheinander auf dem gleichen Träger oder auf unterschiedlichen Trägern eingesetzt werden.
9. Verfahren nach einem der Ansprüche 1 2 bis 1 8, dadurch gekennzeichnet, daß die festgewählten Abschnitte p zu Beginn des Verfahrens oder/und aufgrund der Resultate von vorhergehenden Hybridisierungszyklen festgelegt werden.
20. Verfahren nach einem der Ansprüche 1 2 bis 1 9, dadurch gekennzeichnet, daß die festgewählten Abschnitte willkürlich, aufgrund statistischer oder/und aufgrund biochemischer Überlegungen bestimmt werden.
21 . Verfahren nach einem der Ansprüche 1 2 bis 20, dadurch gekennzeichnet, daß die festgewählten Abschnitte aufgrund der Basenfolge von Enzym- oder/und Ribozym-Erkennungssequenzen, z.B. von Nukleasen bestimmt werden.
22. Verfahren nach Anspruch 21 , dadurch gekennzeichnet, daß die Enzyme Restriktionsendonukleasen sind.
23. Träger für die Sequenzierung von Nukleinsäuren mit einer Oberfläche, die an einer Vielzahl von vorbestimmten Bereichen immobilisierte Hybridisierungssonden enthält, wobei die Hybridisierungssonden in einzelnen Bereichen jeweils eine unterschiedliche Basenfolge mit einer vorbestimmten Länge aufweisen, wobei die Hybridisierungssonden neben variablen Abschnitten der Länge n einen oder mehrere für zumindest einen Teil der Sonden festgewählte Abschnitte der Länge p aufweisen können.
24. Träger nach Anspruch 23, dadurch gekennzeichnet, daß er ein mikrofluidischer Träger ist.
25. Verwendung des Trägers nach Anspruch 23 oder 24 in einem Verfahren zur Sequenzierung von Nukleinsäuren.
26. Verwendung eines Verfahrens nach einem der Ansprüche 1 bis 22 oder des Trägers nach Anspruch 23 oder 24 zur Sequenzierung von Genomen, Chromosomen, Plasmiden, BACs oder/und YACs.
27. Verwendung eines Verfahrens nach einem der Ansprüche 1 bis 22 oder des Trägers nach Anspruch 23 oder 24 zur Transkriptomsequenzierung.
28. Verwendung eines Verfahrens nach einem der Ansprüche 1 bis 22 oder des Trägers nach Anspruch 23 oder 24 zur Identifizierung von
Polymorphismen.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE19957320 | 1999-11-29 | ||
| DE19957320A DE19957320A1 (de) | 1999-11-29 | 1999-11-29 | Dynamische Sequenzierung durch Hybridisierung |
| PCT/EP2000/011978 WO2001040510A2 (de) | 1999-11-29 | 2000-11-29 | Dynamische sequenzierung durch hybridisierung |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| EP1266027A2 true EP1266027A2 (de) | 2002-12-18 |
Family
ID=7930674
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| EP00979642A Withdrawn EP1266027A2 (de) | 1999-11-29 | 2000-11-29 | Dynamische sequenzierung durch hybridisierung |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US20030138790A1 (de) |
| EP (1) | EP1266027A2 (de) |
| AU (1) | AU1705901A (de) |
| DE (1) | DE19957320A1 (de) |
| WO (1) | WO2001040510A2 (de) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CA2423806C (en) * | 2000-09-29 | 2009-12-22 | Molecular Probes, Inc. | Modified carbocyanine dyes and their conjugates |
| US7560417B2 (en) * | 2005-01-13 | 2009-07-14 | Wisconsin Alumni Research Foundation | Method and apparatus for parallel synthesis of chain molecules such as DNA |
| JP2009542691A (ja) * | 2006-07-06 | 2009-12-03 | ザ トラスティーズ オブ コロンビア ユニヴァーシティ イン ザ シティ オブ ニューヨーク | 血管造影用の様々なサイズの多染性粒子 |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5407799A (en) * | 1989-09-14 | 1995-04-18 | Associated Universities, Inc. | Method for high-volume sequencing of nucleic acids: random and directed priming with libraries of oligonucleotides |
| EP0675966B1 (de) * | 1992-02-19 | 2004-10-06 | The Public Health Research Institute Of The City Of New York, Inc. | Neue anordnungen von oligonukleotiden und ihr nutzen zum sortieren, isolieren, sequenzierung und manipulieren von nukleinsäuren |
| US5503980A (en) * | 1992-11-06 | 1996-04-02 | Trustees Of Boston University | Positional sequencing by hybridization |
| US5795714A (en) * | 1992-11-06 | 1998-08-18 | Trustees Of Boston University | Method for replicating an array of nucleic acid probes |
| EP1408122A3 (de) * | 1993-09-27 | 2004-10-06 | Arch Development Corporation | Methoden und Zusammensetzungen zur effizienten Nukleinsäuresequenzierung |
| US5683881A (en) * | 1995-10-20 | 1997-11-04 | Biota Corp. | Method of identifying sequence in a nucleic acid target using interactive sequencing by hybridization |
| US5763175A (en) * | 1995-11-17 | 1998-06-09 | Lynx Therapeutics, Inc. | Simultaneous sequencing of tagged polynucleotides |
| US5858671A (en) * | 1996-11-01 | 1999-01-12 | The University Of Iowa Research Foundation | Iterative and regenerative DNA sequencing method |
| WO1999039004A1 (en) * | 1998-02-02 | 1999-08-05 | Affymetrix, Inc. | Iterative resequencing |
-
1999
- 1999-11-29 DE DE19957320A patent/DE19957320A1/de not_active Withdrawn
-
2000
- 2000-11-29 AU AU17059/01A patent/AU1705901A/en not_active Abandoned
- 2000-11-29 WO PCT/EP2000/011978 patent/WO2001040510A2/de not_active Ceased
- 2000-11-29 US US10/130,288 patent/US20030138790A1/en not_active Abandoned
- 2000-11-29 EP EP00979642A patent/EP1266027A2/de not_active Withdrawn
Non-Patent Citations (1)
| Title |
|---|
| See references of WO0140510A2 * |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2001040510A3 (de) | 2001-12-06 |
| WO2001040510A2 (de) | 2001-06-07 |
| DE19957320A1 (de) | 2001-05-31 |
| US20030138790A1 (en) | 2003-07-24 |
| AU1705901A (en) | 2001-06-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP2175021B1 (de) | Verfahren zur Herstellung von Polymeren | |
| EP2057176B1 (de) | Programmierbare oligonukleotidsynthese | |
| EP1685261B1 (de) | Hochparalleler dna-synthesizer auf matrizenbasis | |
| DE69421277T2 (de) | NUKLEINSäURE-SEQUENZANALYSE DURCH DIE METHODE DER PARALLELEN PRIMEREXTENSION | |
| EP1034309A2 (de) | Verfahren zur herstellung komplexer dna-methylierungs-fingerabdrücke | |
| WO2003020968A2 (de) | Verfahren zur analyse von nukleinsäurekettensequenzen und der genexpression | |
| EP1436609B1 (de) | Mikrofluidisches extraktionsverfahren | |
| EP1266027A2 (de) | Dynamische sequenzierung durch hybridisierung | |
| EP1234056B1 (de) | Dynamische bestimmung von analyten durch arrays auf inneren oberflächen | |
| EP0698122A1 (de) | Mittel zur komplexen diagnostik der genexpression und verfahren zur anwendung für die medizinische diagnostik und die genisolierung | |
| EP1289646A2 (de) | Verfahren und vorrichtung zur synthese und analyse von trägergebundenen arrays von oligomeren, insbesondere von primerpaaren für die pcr, sowie träger mit oligomeren | |
| DE19957116A1 (de) | Verfahren zur Herstellung synthetischer Nukleinsäuredoppelstränge | |
| DE102012215925B3 (de) | Zeitgleicher Nachweis verschiedener microRNA-Biogenese-Formen | |
| DE102008061774A1 (de) | Indexierung von Nukleinsäure-Populationen | |
| WO2002004111A2 (de) | Polymer-chip | |
| DE60034953T2 (de) | Genklonierung | |
| DE10152925A1 (de) | Asymmetrische Sonden | |
| WO2005029384A2 (de) | Verfahren zur bestimmung optimierter oligomere und nach diesem verfahren herstellbare oligomere | |
| DE10136656A1 (de) | Biochip und Verfahren für die Ermittlung von Sondensequenzen für einen Biochip | |
| DE10110685A1 (de) | Oligonukleotidchip | |
| EP1420248A2 (de) | Validiertes Design für Mikroarrays |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
| 17P | Request for examination filed |
Effective date: 20020528 |
|
| AK | Designated contracting states |
Kind code of ref document: A2 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR |
|
| AX | Request for extension of the european patent |
Free format text: AL;LT;LV;MK;RO;SI |
|
| RAP1 | Party data changed (applicant data changed or rights of an application transferred) |
Owner name: FEBIT BIOTECH GMBH |
|
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN |
|
| 18D | Application deemed to be withdrawn |
Effective date: 20060601 |