Verfahren zur parallelen Detektion des Methylierungszustandes von genomischer DNA Method for the parallel detection of the methylation state of genomic DNA
Die vorliegende Erfindung betrifft ein Verfahren zur parallelen Detektion des Methylierungszustandes von genomischer DNA.The present invention relates to a method for the parallel detection of the methylation state of genomic DNA.
Die nach den methodischen Entwicklungen der letzten Jahre in der Molekularbiologie gut studierten Beobachtungsebenen sind die Gene selbst, die Übersetzung dieser Gene in RNA und die daraus entstehenden Proteine. Wann im Laufe der Entwicklung eines Individuums welches Gen angeschaltet wird und wie Aktivieren und Inhibieren bestimmter Gene in bestimmten Zellen und Geweben gesteuert wird, ist mit hoher Wahrscheinlichkeit mit Ausmaß und Charakter der Methylierung der Gene bzw. des Genoms korrelierbar. Insofern ist die Annahme naheliegend, daß pathogene Zustände sich in einem veränderten Methylierungsmuster einzelner Gene oder des Genoms äußern.The observation levels that have been well studied in molecular biology according to the methodological developments of recent years are the genes themselves, the translation of these genes into RNA and the resulting proteins. When in the course of the development of an individual which gene is switched on and how activation and inhibition of certain genes in certain cells and tissues is controlled is highly likely to be correlated with the extent and character of the methylation of the genes or the genome. In this respect, it is reasonable to assume that pathogenic conditions are expressed in a changed methylation pattern of individual genes or of the genome.
Stand der Technik sind Verfahren, welche das Studium von Methylierungsmustern einzelner Gene gestatten. Jüngere Fortentwicklungen dieser Methode erlauben auch die Analyse kleinster Mengen an Ausgangsmaterial. Die vorliegende Erfindung beschreibt ein Verfahren zur parallelen Detektion des Methylierungszustandes genomischer DNA Proben, wobei ausgehend von einer Probe gleichzeitig zahlreiche verschiedenene Fragmente aus an der Genregulation beteiligten oder/und transkribierten und/oder translatierten Sequenzen amplifiziert werden und anschließend der Sequenzkontext in den amplifizierten Fragmenten enthaltenen CpG Dinukleotide untersucht wird.State of the art are methods that allow the study of methylation patterns of individual genes. Recent developments in this method also allow the analysis of the smallest quantities of starting material. The present invention describes a method for parallel detection of the methylation state of genomic DNA samples, starting from a sample simultaneously amplifying numerous different fragments from sequences involved or / and transcribed and / or translated sequences and then the sequence context contained in the amplified fragments of CpG Dinucleotides is examined.
5-Methylcytosin ist die häufigste kovalent modifizierte Base in der DNA eukaryotischer Zellen. Sie spielt beispielsweise eine Rolle in der Regulation der Transkription, genomischem Imprinting und in der Tumorgenese. Die Identifizierung von 5- Methylcytosin als Bestandteil genetischer Information ist daher von erheblichem Interesse. 5-Methylcytosin-Positionen können jedoch nicht durch Sequenzierung identifiziert werden, da 5-Methylcytosin das gleiche Basenpaarungsverhalten aufweist
wie Cytosin. Darüber hinaus geht bei einer PCR-Amplifikation die epigenetische Information, welche die 5-Methylcytosine tragen, vollständig verloren. Die Modifikation der genomischen Base Cytosin zu 5'-Methylcytosin stellt den bis heute wichtigsten und best-untersuchten epigenetischen Parameter dar. Trotzdem gibt es bis heute zwar Methoden, umfassende Genotypen von Zellen und Individuen zu ermitteln, aber noch keine vergleichbaren Ansätze auch in großem Maße epigenotypische Information zu generieren und auszuwerten.5-Methylcytosine is the most common covalently modified base in the DNA of eukaryotic cells. For example, it plays a role in the regulation of transcription, genomic imprinting and in tumorigenesis. The identification of 5-methylcytosine as a component of genetic information is therefore of considerable interest. However, 5-methylcytosine positions cannot be identified by sequencing since 5-methylcytosine has the same base pairing behavior like cytosine. In addition, in the case of PCR amplification, the epigenetic information which the 5-methylcytosines carry is completely lost. The modification of the genomic base cytosine to 5'-methylcytosine represents the most important and best-studied epigenetic parameter to date. Nevertheless, there are still methods to determine comprehensive genotypes of cells and individuals, but no comparable approaches to a large extent Generate and evaluate epigenotypic information.
Es sind im Prinzip drei prinzipiell verschiedene Methoden bekannt, den 5-Methyl-Status eines Cytosins im Sequenzkontext zu bestimmen.In principle, three fundamentally different methods are known for determining the 5-methyl status of a cytosine in the sequence context.
Die erste prinzipielle Methode beruht auf der Verwendung von Restriktionsendo- nukleasen (RE), welche „methylierungssensitiv" sind. REs zeichnen sich dadurch aus, daß sie an einer bestimmten DNA-Sequenz, meist zwischen 4 und 8 Basen lang, einen Schnitt in die DNA einführen. Die Position solcher Schnitte kann dann durch Gelektrophorese, Transfer auf eine Membran und Hybridisierung nachgewiesen werden. Methylierungssensitiv bedeutet, daß bestimmte Basen innerhalb der Erkennungssequenz unmethyliert vorliegen müssen, damit der Schnitt erfolgen kann. Das Bandenmuster nach einem Restriktionsschnitt und Gelektrophorese ändert sich also je nach Methylierungsmuster der DNA. Allerdings befinden sich die wenigsten methylierbaren CpG innerhalb von Erkennungssequenzen von REs, können also nach dieser Methode nicht untersucht werden.The first principal method is based on the use of restriction endonucleases (RE), which are "methylation-sensitive". REs are characterized by the fact that they cut a DNA into a specific DNA sequence, usually between 4 and 8 bases long The position of such sections can then be verified by gel electrophoresis, transfer to a membrane and hybridization. Methylation-sensitive means that certain bases within the recognition sequence must be unmethylated in order for the section to be carried out according to the methylation pattern of the DNA However, the fewest methylable CpG are within the recognition sequences of REs and cannot be examined with this method.
Die Empfindlichkeit dieser Methoden ist extrem niedrig (Bird, A.P., and Southern, E.M., J.Mol. Biol. 118, 27-47). Eine Variante kombiniert PCR mit dieser Methode, eine Amplifikation durch zwei auf beiden Seiten der Erkennungssequenz liegende Primer erfolgt nach einem Schnitt nur dann, wenn die Erkennungssequenz methyliert vorliegt. Die Empfindlichkeit steigt in diesem Fall auf theoretisch ein einziges Molekül der Zielsequenz, allerdings können mit hohem Aufwand nur einzelne Positionen untersucht werden (Shemer, R. et al., PNAS 93, 6371-6376). Wiederum ist Voraussetzung, daß sich die methylierbare Position innerhalb der Erkennungssequenz einer RE befindet.
Die zweite Variante beruht auf partieller chemischer Spaltung von Gesamt-DNA, nach dem Vorbild einer Maxam-Gilbert Sequenzierreaktion, Ligation von Adaptoren an die so generierten Enden, Amplifikation mit generischen Primern und Auftrennung auf einer Gelektrophorese. Mit diesem Verfahren können definierte Bereiche bis zur Größe von weniger als tausend Basenpaaren untersucht werden. Das Verfahren ist allerdings so kompliziert und unzuverlässig, daß es praktisch nicht mehr verwendet wird (Ward, C. et al., J. Biol. Chem. 265, 3030-3033).The sensitivity of these methods is extremely low (Bird, AP, and Southern, EM, J. Mol. Biol. 118, 27-47). PCR combines a variant with this method; amplification by two primers located on both sides of the recognition sequence takes place after a cut only if the recognition sequence is methylated. In this case, the sensitivity increases theoretically to a single molecule of the target sequence, but only individual positions can be examined with great effort (Shemer, R. et al., PNAS 93, 6371-6376). Again, it is a prerequisite that the methylable position is within the recognition sequence of a RE. The second variant is based on partial chemical cleavage of total DNA, following the example of a Maxam-Gilbert sequencing reaction, ligation of adapters to the ends generated in this way, amplification with generic primers and separation on a gel electrophoresis. With this method, defined areas up to the size of less than a thousand base pairs can be examined. However, the process is so complicated and unreliable that it is practically no longer used (Ward, C. et al., J. Biol. Chem. 265, 3030-3033).
Eine relativ neue und die mittlerweile am häufigsten angewandte Methode zur Untersuchung von DNA auf 5-Methylcytosin beruht auf der spezifischen Reaktion von Bisulphit mit Cytosin, das nach anschließender alkalischer Hydrolyse in Uracil umgewandelt wird, welches in seinem Basen-Paarungsverhalten dem Thymidin entspricht. 5-Methylcytosin wird dagegen unter diesen Bedingungen nicht modifiziert. Damit wird die ursprüngliche DNA so umgewandelt, daß Methylcytosin, welches ursprünglich durch sein Hybridisierungsverhalten vom Cytosin nicht unterschieden werden kann, jetzt durch „normale" molekularbiologische Techniken als einzig verbliebenes Cytosin beispielsweise durch Amplifikation und Hybridisierung oder Sequenzierung nachgewiesen werden kann. Alle diese Techniken beruhen auf Basenpaarung, welche jetzt voll ausgenutzt werden kann. Der Stand der Technik, was die Empfindlichkeit betrifft, wird durch ein Verfahren definiert, welches die zu untersuchende DNA in einer Agarose-Matrix einschließt, dadurch die Diffusion und Renaturierung der DNA (Bisulphit reagiert nur an einzelsträngiger DNA) verhindert und alle Fällungs- und Reinigungsschritte durch schnelle Dialyse ersetzt (Olek, A. et al., Nucl. Acids. Res. 24, 5064-5066). Mit dieser Methode können einzelne Zellen untersucht werden, was das Potential der Methode veranschaulicht. Allerdings werden bisher nur einzelne Regionen bis etwa 3000 Basenpaare Länge untersucht, eine globale Untersuchung von Zellen auf Tausende von möglichen Methylierungsereignissen ist nicht möglich. Allerdings kann auch dieses Verfahren keine sehr kleinen Fragmente aus geringen Probenmengen zuverlässig analysieren. Diese gehen trotz Diffusionsschutz durch die Matrix verloren.A relatively new and the most frequently used method for the investigation of DNA for 5-methylcytosine is based on the specific reaction of bisulfite with cytosine, which is converted into uracil after subsequent alkaline hydrolysis, which corresponds to the thymidine in its base-pairing behavior. However, 5-methylcytosine is not modified under these conditions. The original DNA is thus converted in such a way that methylcytosine, which originally cannot be distinguished from the cytosine by its hybridization behavior, can now be detected by "normal" molecular biological techniques as the only remaining cytosine, for example by amplification and hybridization or sequencing. All of these techniques are based on The state of the art in terms of sensitivity is defined by a method which includes the DNA to be examined in an agarose matrix, thereby the diffusion and renaturation of the DNA (bisulphite only reacts on single-stranded DNA) and all precipitation and purification steps are replaced by rapid dialysis (Olek, A. et al., Nucl. Acids. Res. 24, 5064-5066). Individual cells can be examined with this method, which illustrates the potential of the method However, so far only single region up to about 3000 base pairs in length, a global examination of cells for thousands of possible methylation events is not possible. However, this method, too, cannot reliably analyze very small fragments from small sample quantities. Despite the diffusion protection, these are lost through the matrix.
Eine Übersicht über die weiteren bekannte Möglichkeiten, 5-Methylcytsosine
nachzuweisen, kann auch dem folgenden Übersichtsartikel entnommen werden: Rein, T., DePamphilis, M. L, Zorbas, H., Nucleic Acids Res. 26, 2255 (1998).An overview of the other known options, 5-methylcytsosine can also be found in the following review article: Rein, T., DePamphilis, M. L, Zorbas, H., Nucleic Acids Res. 26, 2255 (1998).
Die Bisulphit-Technik wird bisher bis auf wenige Ausnahmen (z.B. Zeschnigk, M. et al., Eur. J. Hum. Gen. 5, 94-98; Kubota T. et al., Nat. Genet. 16, 16-17) nur in der Forschung angewendet. Immer aber werden kurze, spezifische Stücke eines bekannten Gens nach einer Bisulphit-Behandlung amplifiziert und entweder komplett sequenziert (Olek, A. and Walter, J., Nat. Genet. 17, 275-276) oder einzelne Cytosin- Positionen durch eine „Primer-Extension-Reaktion" (Gonzalgo, M. L. and Jones, P.A., Nucl. Acids. Res. 25, 2529-2531 ) oder Enzymschnitt (Xiong, Z. and Laird, P.W., Nucl. Acids. Res. 25, 2532-2534) nachgewiesen. Zudem ist auch der Nachweis durch Hybridisierung beschrieben worden (Olek et al, WO9928498).The bisulphite technique has so far been used with a few exceptions (e.g. Zeschnigk, M. et al., Eur. J. Hum. Gen. 5, 94-98; Kubota T. et al., Nat. Genet. 16, 16-17 ) only used in research. However, short, specific pieces of a known gene are always amplified after bisulphite treatment and either completely sequenced (Olek, A. and Walter, J., Nat. Genet. 17, 275-276) or individual cytosine positions by a “primer Extension Reaction "(Gonzalgo, ML and Jones, PA, Nucl. Acids. Res. 25, 2529-2531) or Enzyme Cut (Xiong, Z. and Laird, PW, Nucl. Acids. Res. 25, 2532-2534) Detection by hybridization has also been described (Olek et al, WO9928498).
Gemeinsamkeiten zwischen Promotoren bestehen nicht nur im Vorkommen von TATA- oder GC-Boxen sondern auch darin, für welche Transkriptionsfaktoren sie Bindestellen besitzen und in welchem Abstand diese sich zueinander befinden. Die existierenden Bindestellen für ein bestimmtes Protein stimmen in ihrer Sequenz nicht vollständig überein, es finden sich aber konservierte Folgen von mindestens 4 Basen, die durch das Einfügen von „Wobbles", d. h. Positionen, an denen sich jeweils unterschiedliche Basen befinden, noch verlängert werden können. Des weiteren liegen diese Bindestellen in bestimmten Abständen zueinander vor.Similarities between promoters exist not only in the occurrence of TATA or GC boxes, but also in the transcription factors for which they have binding sites and the distance between them. The existing binding sites for a certain protein do not completely match in their sequence, but there are conserved sequences of at least 4 bases, which can be extended by inserting "wobbles", ie positions at which there are different bases Furthermore, these binding sites are at certain distances from one another.
Die Verteilung der DNA im Interphase-Chromatin, das den größten Teil des nuklearen Volumens einnimmt, unterliegt jedoch einer ganz speziellen Ordnung. So ist die DNA an mehreren Stellen an die nukleare Matrix, eine filamentöse Struktur an der Innenseite der nuklearen Membran, angeheftet. Diese Regionen bezeichnet man als matrix attachment regions (MAR) oder scaffold attachment regions (SAR). Das Anheften hat wesentlichen Einfluß auf die Transkription bzw. die Replikation. Diese MAR-Fragmente weisen keine konservativen Sequenzen auf, bestehen allerdings zu 70% aus A bzw. T und liegen in der Nähe von cis-agierenden Regionen, die die Transkription allgemein regulieren, und Topoisomerase Il-Erkennungsstellen.
Neben Promotoren und Enhancern existieren weitere regulatorische Elemente für verschiedene Gene, sogenannte Insulators. Diese Insulators können z.B. die Wirkung des Enhancers auf den Promotor inhibieren, wenn sie zwischen Enhancer und Promotor liegen, oder aber, zwischen Heterochromatin und einem Gen gelegen, das aktive Gen vor dem Einfluß des Heterochromatins schützen. Beispiele für solche Insulators sind: 1. sogenannte LCR (locus control regions), welche aus mehreren gegenüber DNAase I hypersensitiven Stellen besteht; 2. bestimmte Sequenzen wie SCS (specialized chromatin structures) bzw. SCS', 350 bzw. 200 bp lang und hoch- resistent gegen Degradierung durch DNAase I und auf beiden Seiten von hypersensitiven Stellen flankiert (Abstand je 100 bp). An scs' bindet das Protein BEAF- 32. Diese Insulators können auf beiden Seiten des Gens liegen.The distribution of DNA in interphase chromatin, which takes up most of the nuclear volume, is subject to a very special order. The DNA is attached to the nuclear matrix in several places, a filamentous structure on the inside of the nuclear membrane. These regions are known as matrix attachment regions (MAR) or scaffold attachment regions (SAR). Attachment has a major impact on transcription or replication. These MAR fragments have no conservative sequences, but consist of 70% A and T, respectively, and are close to cis-acting regions that regulate transcription in general and topoisomerase II recognition sites. In addition to promoters and enhancers, there are other regulatory elements for various genes, so-called insulators. These insulators can, for example, inhibit the effect of the enhancer on the promoter if they are located between the enhancer and the promoter or, if they are located between heterochromatin and a gene, protect the active gene from the influence of the heterochromatin. Examples of such insulators are: 1. So-called LCR (locus control regions), which consists of several sites that are hypersensitive to DNAase I; 2. Certain sequences such as SCS (specialized chromatin structures) or SCS ', 350 or 200 bp long and highly resistant to degradation by DNAase I and flanked on both sides by hypersensitive sites (100 bp spacing). The protein BEAF-32 binds to scs'. These insulators can lie on both sides of the gene.
Eine Übersicht über den Stand der Technik in der Oligomer Array Herstellung läßt sich auch einer im Januar 1999 erschienen Sonderausgabe von Nature Genetics (Nature Genetics Supplement, Volume 21 , January 1999) und der dort zitierten Literatur entnehmen.An overview of the state of the art in oligomer array production can also be found in a special edition of Nature Genetics published in January 1999 (Nature Genetics Supplement, Volume 21, January 1999) and the literature cited therein.
Patente, die sich allgemein auf die Verwendung von Oligomer Arrays und photolithographisches Maskendesign beziehen, sind z. B. US-A 5,837,832, US-A 5,856,174, WO-A 98/27430 und US-A 5,856,101. Zudem existieren einige Stoff- und Verfahrenspatente, welche die Verwendung photolabiler Schutzgruppen an Nukleosiden einschränken, so z. B. WO-A98/39348 und US-A 5,763,599.Patents related generally to the use of oligomer arrays and photolithographic mask design include e.g. B. US-A 5,837,832, US-A 5,856,174, WO-A 98/27430 and US-A 5,856,101. In addition, there are some substance and process patents that restrict the use of photolabile protective groups on nucleosides, such as. B. WO-A98 / 39348 and US-A 5,763,599.
Matrix-assistierte Laser Desorptions/Ionisations Massenspektrometrie (MALDI) ist eine neue, sehr leistungsfähige Entwicklung für die Analyse von Biomolekülen (Karas, M. and Hillenkamp, F. 1988. Laser desorption ionization of proteins with molecular masses exceeding 10.000 daltons. Anal. Chem. 60: 2299-2301). Ein Analytmolekül wird in eine im UV absorbierende Matrix eingebettet. Durch einen kurzen Laserpuls wird die Matrix ins Vakuum verdampft und das Analyt so unfragmentiert in die Gasphase befördert. Eine angelegte Spannung beschleunigt die Ionen in ein feldfreies Flugrohr. Auf Grund ihrer verschiedenen Massen werden Ionen unterschiedlich stark beschleunigt. Kleinere Ionen erreichen den Detektor früher als größere und die Flugzeit wird in die Masse der
Ionen umgerechnet.Matrix-assisted laser desorption / ionization mass spectrometry (MALDI) is a new, very powerful development for the analysis of biomolecules (Karas, M. and Hillenkamp, F. 1988. Laser desorption ionization of proteins with molecular masses exceeding 10,000 daltons. Anal. Chem 60: 2299-2301). An analyte molecule is embedded in a UV absorbing matrix. A short laser pulse evaporates the matrix into a vacuum, thus transporting the analyte unfragmented into the gas phase. An applied voltage accelerates the ions into a field-free flight tube. Due to their different masses, ions are accelerated to different extents. Smaller ions reach the detector earlier than larger ones and the flight time is in the mass of the Converted ions.
Für die Abtastung eines immobilisierten DNA-Arrays sind vielfach fluoreszent markierte Sonden verwendet worden. Besonders geeignet sind für die Fluoreszenzmarkierung ist das einfache Anbringen von Cy3 und Cy5 Farbstoffen am 5'OH der jeweiligen Sonde. Die Detektion der Fluoreszenz der hybridisierten Sonden erfolgt beispielsweise über ein Konfokalmikroskop. Die Farbstoffe Cy3 und Cy5 sind, neben vielen anderen, kommerziell erhältlich.Fluorescent-labeled probes have been used in many cases for scanning an immobilized DNA array. The simple application of Cy3 and Cy5 dyes to the 5'OH of the respective probe is particularly suitable for fluorescence labeling. The fluorescence of the hybridized probes is detected, for example, using a confocal microscope. The dyes Cy3 and Cy5, among many others, are commercially available.
Um die erwartete Anzahl von amplifizierten Fragmenten ausgehend von einer beliebigen Templat-DNA und zweien nicht für jeweils eine bestimmte Position spezifischen Primern zu berechnen, muß ein statistisches Modell über den Aufbau des Genoms zu Grunde gelegt werden.In order to calculate the expected number of amplified fragments on the basis of any template DNA and two primers that are not specific for a particular position, a statistical model of the structure of the genome must be used.
Wir geben hier die Berechnung für drei Modelle an, beziehen uns allerdings in diesem Patent auf die in Modell 3 beschriebene Methode.We give the calculation for three models here, but refer to the method described in Model 3 in this patent.
Modell 1 :Model 1:
Im einfachsten Fall wird angenommen, daß ein primärer DNA-Strang eine Zufallsfolge von vier gleich häufig vorkommenden Basen ist. Damit ergibt sich als Wahrscheinlichkeit, daß sich für einen beliebiger Primer PrimA (der Länge k) an einer gegebenen Stelle im Genom eine perfekte Basenpaarung ergibt:In the simplest case, it is assumed that a primary DNA strand is a random sequence of four bases that occur with the same frequency. This results in the probability that there is a perfect base pairing for any primer PrimA (length k) at a given location in the genome:
Pa {PrimA)=0.25k (Modell 1 für DNA)P a {PrimA) = 0.25 k (model 1 for DNA)
(diese Wahrscheinlichkeit ist für den sense- und anti-sense-Strang der DNA gleich)(this probability is the same for the sense and anti-sense strand of the DNA)
Bei einer Bisulfitbehandlung der DNA werden diejenigen Cytosine durch Uracil ersetzt, die nicht zu einem methylierten CG gehören. Das Basenpaarungsverhalten des Uraciis entspricht dem des Thymins. Da CG in der DNA sehr selten sind (unter zwei Prozent), kann die statistische Häufigkeit der Cs nach der Bisulfitbehandlung vernachlässigt werden. Die Wahrscheinlichkeit, daß sich für einen Primer PrimB (Länge k, davon a As,
t Ts, g Gs und c Cs) auf bisulfitbehandelter DNA eine perfekte Basenpaarung ergibt, ist unterschiedlich für einen mit Bisulfit behandelten Strang und den zugehörigen anti- sense Strang:In a bisulfite treatment of DNA, those cytosines are replaced by uracil that do not belong to a methylated CG. The base pairing behavior of the Uraciis corresponds to that of the thymine. Since CG is very rare in DNA (less than two percent), the statistical frequency of Cs after bisulfite treatment can be neglected. The probability that a primer PrimB (length k, thereof a As, t Ts, g Gs and c Cs) on bisulfite-treated DNA results in a perfect base pairing is different for a strand treated with bisulfite and the associated antisense strand:
P {PrimB)=0.5a *0.25'*0.25c *0g (Modell 1 für Bisulfit-DNA-Strang)P {PrimB) = 0.5 a * 0.25 '* 0.25 c * 0 g (model 1 for bisulfite DNA strand)
P!a (PrimB)=0.25a *0.5' *0C *0.25g (Modell 1 für anti-sense-Strang zu einemP ! A (PrimB) = 0.25 a * 0.5 '* 0 C * 0.25 g (model 1 for anti-sense strand to one
Bisulfit-DNA-Strang)Bisulfite DNA strand)
(wenn der Primer C oder G enthält, wird somit einer der Wahrscheinlichkeitswerte 0).(if the primer contains C or G, one of the probability values becomes 0).
Modell 2:Model 2:
Zählungen der Basenhäufigkeiten der DNA ergeben, daß die vier Basen in der DNA nicht gleichverteilt sind. Entsprechend kann man aus DNA-Datenbanken folgende Häufigkeiten (Wahrscheinlichkeiten für ein Vorkommen) der Basen ermitteln.DNA base frequency counts indicate that the four bases in the DNA are not equally distributed. Accordingly, the following frequencies (probabilities of occurrence) of the bases can be determined from DNA databases.
DAM U)=0.281 1 ßAM (7 0.2784 DAM (C)=0.2206 PDNA (G)=0.2199 DAM U) = 0.281 1 ßAM (7 0.2784 DAM (C) = 0.2206 P DNA (G) = 0.2199
Als Grundlage für diese Statistik (und die folgenden für Modell 2 und 3) dienen ca. 6% des Genoms vom Homo Sapiens aus High Throughput Sequencing Projekten (Datenbank "htgs" vom NIH/NCBI vom 6.9.1999). Die Gesamtmenge der Daten beträgt mehr als 1.5x108 Basenpaare, was einem Schätzfehler für die Einzelwahrscheinlichkeiten kleiner 10~5 entspricht.6% of the genome from Homo Sapiens from high throughput sequencing projects (database "htgs" from NIH / NCBI from 6.9.1999) serve as the basis for these statistics (and the following for models 2 and 3). The total amount of data is more than 1.5x10 8 base pairs, which corresponds to an estimation error for the individual probabilities less than 10 ~ 5 .
Mit Hilfe dieser Werte läßt sich das Modell 1 verbessern.Model 1 can be improved with the help of these values.
Damit ist die Wahrscheinlichkeit, daß sich für einen Primer PrimC (Länge k, davon aThis means that the probability that a primer PrimC (length k, of which a
As, t Ts, g Gs und c Cs) eine perfekte Basenpaarung ergibt:
P2(PrimC)=PDNA (τy *PDNA (A)'*PDNA (C)g *PDNA (G)c (Modell 3 für DNA)As, t Ts, g Gs and c Cs) results in a perfect base pairing: P 2 (PrimC) = P DNA (τy * P DNA (A) '* P DNA (C) g * P DNA (G) c (Model 3 for DNA)
Für den mit Bisulfit behandelten Strang ergeben sich folgende Wahrscheinlichkeiten unter der Annahme, daß alle CpG-Positionen methyliert sind (man erhält eine gleiche Statistik für die Bisulfitbehandlung des DNA-sense- und des DNA-antisense-Stranges):The following probabilities result for the strand treated with bisulfite, assuming that all CpG positions are methylated (the same statistics are obtained for the bisulfite treatment of the DNA sense and DNA antisense strands):
PbDNA
PbDNA (C)=0.0lA0 PbυNA (G)= .2l99 PbüN4 (T)=0ΛS50P bDNA P bDNA (C) = 0.0lA0 P bυNA (G) = .2l99 P büN4 (T) = 0ΛS50
Damit ergibt sich als Wahrscheinlichkeit, daß sich für einen Primer PritnD (Länge k, davon a As, Ts, g Gs und c Cs) eine perfekte Basenpaarung ergibt:This results in the probability that there is a perfect base pairing for a primer PritnD (length k, thereof a As, Ts, g Gs and c Cs):
P2s(PrimD)=PbυNA (τγ *PbDNA (A)' *PbDNA (CY *PbüNA(G)c (Modell 3 für Bisulfit-DNA- Strang)P 2s (PrimD) = P bυNA (τγ * P bDNA (A) '* P bDNA (CY * P büNA (G) c (model 3 for bisulfite DNA strand)
P2a (PrimD)=PbϋNA (A r *PbDNA (T)'*PbDNA (G)s *PbυNA (cγ (Modell 3 für anti-sense- Strang zu einem Bisulfit-DNA-Strang)P 2a (PrimD) = P bϋNA (A r * P bDNA (T) '* P bDNA (G) s * P bυNA (cγ (model 3 for anti-sense strand to a bisulfite DNA strand)
Modell 3:Model 3:
Wesentliche Schätzfehler in Modell 2 ergeben sich vor allem bei der mit Bisulfit behandelten DNA aus der Tatsache, daß C nur noch im Kontext CG auftreten kann. Modell 3 berücksichtigt diese Eigenschaft und nimmt an, daß die primäre DNA eine Zufallsfolge mit Abhängigkeit direkt benachbarter Basen ist (Markov-Kette erster Ordnung). Die empirisch aus der Datenbank (vollständig methyliert; mit Bisulphit behandelt) ermittelten paarweisen Basenwahrscheinlichkeiten ergeben sich gleich für beide DNA-Stränge als P bDNA (von;nach) aus der folgenden Tabelle:
Significant estimation errors in model 2, especially in the case of the bisulfite-treated DNA, result from the fact that C can only occur in the context of CG. Model 3 takes this property into account and assumes that the primary DNA is a random sequence with dependence on directly adjacent bases (Markov chain of the first order). The pairwise base probabilities determined empirically from the database (completely methylated; treated with bisulphite) result for both DNA strands as P bDNA (from; to) from the following table:
R^UHO.2811 PbDNA (C)= .0\A0 PbDNA (G)=0.2l99R ^ UHO.2811 P bDNA (C) = .0 \ A0 P bDNA (G) = 0.2l99
PbDNA (T)=0.A$50P bDNA (T) = 0.A $ 50
und für den dazu revers-komplementären Strang (durch entsprechendes Austauschen der Einträge) RrADΛM ( von •' n ch)and for the reverse complementary strand (by correspondingly exchanging the entries) R rADΛM ( from • ' n ch)
rbDNA (.4)=0.4850 *™ (00.2199 rbDNA (G)=0.0140 rbDNA
rbDNA (.4) = 0.4850 * ™ (00.2199 rbDNA (G) = 0.0140 rbDNA
Damit hängt die Wahrscheinlichkeit, daß sich für einen Primer PrimE (mit der Basenfolge B B2 B3 B4 ...; z.B. ATTG...) eine perfekte Basenpaarung ergibt, von der genauen Abfolge der Basen ab und ergibt sich als das Produkt:The probability that a primer PrimE (with the base sequence BB 2 B 3 B 4 ...; e.g. ATTG ...) results in a perfect base pairing depends on the exact sequence of the bases and results as the product:
P3s(PrimE)=PrbDNA (B ) P rbDNA (B\ • Bl) P rbDNA (B 2 >' ß l) P 'rbDNA (B3 >' B Λ)P 3s (PrimE) = P rbDNA (B) P rbDNA ( B \ • B l) P rbDNA ( B 2>'ß l) P ' rbDNA ( B 3>'B Λ)
(Modell 3 für rbDNA w rbDNA (B2) rbDNA (B3)
Bisulfit-DNA-Strang)(Model 3 for rbDNA w rbDNA (B 2 ) rbDNA (B 3 ) Bisulfite DNA strand)
■, „_■.. - (Modell 3 für
anti-sense-Strang zu einem Bisulfit-DNA-Strang) ■ , „_ ■ .. - (Model 3 for anti-sense strand to a bisulfite DNA strand)
Berechnung der Anzahl der zu erwartenden amplifizierten FragmenteCalculation of the number of amplified fragments to be expected
Die mit Bisulfit behandelte DNA wird unter Benutzung einer Anzahl Primer amplifiziert. Aus Sicht des Modells besteht die DNA aus je einem sense- und einem anti-sense- Strang der Länge N Basen (alle Chromosomen werden hier zusammengefaßt). Für einen Primer Prim ist zu erwarten, daß er auf dem sense-StrangThe bisulfite treated DNA is amplified using a number of primers. From the point of view of the model, the DNA consists of one sense and one anti-sense strand with a length of N bases (all chromosomes are summarized here). A primer can be expected to be on the sense strand
N *P XPrim)N * P XPrim)
perfekte Basenpaarungen ergibt - für diese Berechnung können die Funktionen P1s, P2s oder P3s von Modell 1, 2 oder 3 eingesetzt werden, je nach gewünschter Abschätzungsgüte. Werden mehrere Primer (PrimU, PrimV, PrimW, PrimX, etc.) gleichzeitig verwendet, ergibt sich als Wahrscheinlichkeit für eine perfekte Basenpaarung auf dem sense-Strang an einer gegebenen Position:results in perfect base pairings - the functions P 1s , P 2s or P 3s of model 1, 2 or 3 can be used for this calculation, depending on the desired estimation quality. If several primers (PrimU, PrimV, PrimW, PrimX, etc.) are used at the same time, the probability of a perfect base pairing on the sense strand at a given position is as follows:
i> 4 ( Primers ) = P,{ Prim U )i > 4 (primers) = P, {prim U)
+ {l- P PrimU)) P{ PrimV)+ {l- P PrimU)) P {PrimV)
+ {l-P{PrimU))(l-P{PrimV))P PrimW)+ {l-P {PrimU)) (l-P {PrimV)) P PrimW)
+(l-P{PrimU)){l-P{PrimV)){l-P^PrimW))P PrimX)+ (l-P {PrimU)) {l-P {PrimV)) {l-P ^ PrimW)) P PrimX)
+ ...+ ...
Und damit als Anzahl der zu erwartenden perfekten Basenparungen mit irgendeinem der PrimerAnd thus as the number of perfect base savings to be expected with any of the primers
N*P (Primers)
Für die Bestimmung von Pa(Primers) auf dem anti-sense-Strang werden die analogen Gleichungen verwendet. Ein Amplifikat entsteht genau dann, wenn bei einer perfekten Basenpaarung auf dem sense-Strang innerhalb der maximalen Fragmentlänge /W ein Primer auf dem Gegenstrang eine perfekte Basenpaarung bildet. Die Wahrscheinlichkeit dafür istN * P ( primers) The analog equations are used to determine P a (primers) on the anti-sense strand. An amplificate is created if, when there is a perfect base pairing on the sense strand within the maximum fragment length / W, a primer on the opposite strand forms a perfect base pairing. The probability of this is
, M - ( l — Pa (Primers)), M - (l - P a (primers))
Für große M und kleine Pa(Primers) kann dieses durch folgenden Ausdruck berechnet werden:For large M and small P a (primers) this can be calculated using the following expression:
-PΛ Primers) r / , , , u -PΛ primers) r / ,,, u
■{( 1 -P „ {Printer s))M - l log ( 1 —Pa {Primers)) ■ {(1 -P „{Printer s)) M - l log (1 —P a {Primers))
Für die Gesamtzahl F der Fragmente, die durch die Amplifikation beider Stränge zu erwarten sind, ergibt sich damit:For the total number F of fragments that can be expected from the amplification of both strands, the result is:
( 1 — P ( Primers ) )(1 - P (primers))
F=N *P, (Primers) λ . , " . _ . ^ [( 1 - P a ( Primers))" - l log ( 1 — Pa ( Primers ) )F = N * P, (primers) λ . , ". _. ^ [(1 - P a (Primers))" - l log (1 - P a (Primers))
( 1 — P ( Primers ) )(1 - P (primers))
+N *P- lta , Ϊ^ ^»lπ "fJf™m)l' ' + N * P - lta, Ϊ ^ ^ » lπ" fJf ™ m) l ''
Diese Methode liefert einen präzisen Erwartungswert für die Vorhersage der Anzahl der Bindungssites bestimmter Sequenzen an ein beliebiges zuvor mit Bisulfit behandeltes genomisches DNA Fragment. Sie dient hier als Grundlage für die Berechnung der statistisch erwarteten Anzahl von Amplifikaten in einer PCR-Reaktion ausgehend von zwei Primersequenzen und einer DNA der Länge N, wobei nur die Amplifikate berücksichtigt werden, die eine Anzahl von M Nukleotiden nicht überschreiten. In diesem Patent wird davon ausgegangen, daß M den Wert 2000 hat.
Die bekannten Verfahren für den Nachweis von Cytosin Methylierungen in genomischer DNA sind prinzipiell nicht so ausgelegt, daß eine Vielzahl von Zielregionen im zu untersuchenden Genom gleichzeitig erfaßt werden. Aufgabe der vorliegenden Erfindung ist es, ein Verfahren zu schaffen, mit dem eine Probe genomischer DNA gleichzeitig an mehreren Positionen gleichzeitig auf Cytosin Methylierung hin untersucht werden kann.This method provides a precise expectation for predicting the number of binding sites of certain sequences to any genomic DNA fragment previously treated with bisulfite. It serves as the basis for the calculation of the statistically expected number of amplificates in a PCR reaction based on two primer sequences and a DNA of length N, whereby only the amplificates that do not exceed a number of M nucleotides are taken into account. This patent assumes that M is 2000. In principle, the known methods for the detection of cytosine methylations in genomic DNA are not designed in such a way that a large number of target regions in the genome to be examined are detected simultaneously. The object of the present invention is to create a method with which a sample of genomic DNA can be examined simultaneously at several positions for cytosine methylation.
Die Aufgabe wird durch die kennzeichnenden Merkmale des Anspruchs 1 gelöst. Vorteilhafte Weiterbildungen der Merkmal sind in den abhängigen Ansprüchen gekennzeichnet.The object is achieved by the characterizing features of claim 1. Advantageous further developments of the feature are characterized in the dependent claims.
Im Unterschied zu anderen Verfahren kann nach chemischer Vorbehandlung der DNA durch Verwendung entsprechend angepaßter Primerpaare eine Amplifikation von vielen Zielregionen gleichzeitig erfolgen. Dabei ist es nicht unbedingt notwendig den Sequenzkontext aller dieser Zielregionen vorab zu kennen, da in vielen Fällen, wie nachfolgend auch beispielhaft aufgeführt, Konsensussequenzen aus der Sequenzierung verwandter Zielregionen bekannt sind, die wie unten beschrieben für das Design für bestimmte Zielregionen spezifischer oder selektiver Primerpaare eingesetzt werden können. Das Verfahren ist dann erfolgreich angewandt, wenn die Amplifikation der chemisch vorbehandelten genomischen DNA mehr Fragmente bis maximal 2000 Basenpaare Länge als statistisch zu erwarten aus den jeweils zu untersuchenden Zielregionen liefert.In contrast to other methods, after chemical pretreatment of the DNA, many target regions can be amplified simultaneously using appropriately adapted primer pairs. It is not absolutely necessary to know the sequence context of all these target regions in advance, since in many cases, as also exemplified below, consensus sequences from the sequencing of related target regions are known, which, as described below, are used for the design of specific target regions of specific or selective primer pairs can be. The method is successfully applied when the amplification of the chemically pretreated genomic DNA yields more fragments up to a maximum of 2000 base pairs in length than can be statistically expected from the target regions to be examined in each case.
Dabei wird der statistische Erwartungswert für die Anzahl dieser Fragmente über die im Stand der Technik aufgeführten Formeln berechnet. Die Anzahl der im Amplifikationsschritt hergestellten Fragmente kann dagegen mittels einer beliebigen molekularbiologischen, chemischen oder physikalischen Methode nachgewiesen werden.The statistical expected value for the number of these fragments is calculated using the formulas listed in the prior art. The number of fragments produced in the amplification step, however, can be detected by any molecular biological, chemical or physical method.
Für die Durchführung der erforderlichen statistischen Betrachtungen, die auch für die unten aufgeführten Ansprüche relevant sind, werden die folgenden Werte angenommen:
Das menschliche haploide Genom enthält 3 Milliarden Basenpaare und 100.000 Gene, die wiederum im Mittel eine 2000 Basenpaare lange mRNA codieren, die Gene inklusive der Introns sind durchschnittlich 15000 Basenpaare lang. Promotoren umfassen je Gen 1000 Basenpaare durchschnittlich. Ist daher der statistische Erwartungswert für die Anzahl der Amplifikate, die ausgehend von zwei Primern in transkribierten Sequenzen liegen, zu berechnen, so ist zunächst der Erwartungswert für das Gesamtgenom nach obiger Formel (Methode 3) zu berechnen und mit dem Anteil der transkribierten Sequenzen am Gesamtgenom zu berechnen. Analog wird für Teile eines beliebigen Genoms sowie für Promotoren und translatierte Sequenzen (mRNA codierend) vorgegangen.The following values are assumed for carrying out the required statistical considerations, which are also relevant for the claims listed below: The human haploid genome contains 3 billion base pairs and 100,000 genes, which in turn code an average of 2,000 base pairs long mRNA, the genes including the introns are on average 15,000 base pairs long. Promoters cover an average of 1000 base pairs per gene. If the statistical expected value for the number of amplified products that are based on two primers in transcribed sequences must therefore be calculated, the expected value for the entire genome must first be calculated using the above formula (method 3) and with the proportion of the transcribed sequences in the total genome to calculate. The same procedure is used for parts of any genome as well as for promoters and translated sequences (coding for mRNA).
Die vorliegende Erfindung beschreibt somit ein Verfahren zur parallelen Detektion des Methylierungszustandes genomischer DNA. Dabei sollen mehrere Cytosin- Methylierungen in einer DNA-Probe gleichzeitig analysiert werden. Dazu werden die folgenden Verfahrensschritte nacheinander ausgeführt:The present invention thus describes a method for the parallel detection of the methylation state of genomic DNA. Several cytosine methylations in a DNA sample are to be analyzed simultaneously. The following process steps are carried out one after the other:
Zuerst wird eine genomische DNA Probe derart chemisch behandelt, daß an der 5'- Position unmethylierte Cytosinbasen in Uracil, Thymin oder eine andere vom Hybridisierungsverhalten her dem Cytosin unähnliche Base verwandelt werden. Bevorzugt wird dazu die oben beschriebene Behandlung genomischer DNA mit Bisulfit (Hydrogensulfit, Disulfit) und anschließender alkalischer Hydrolyse verwendet, die zu einer Umwandlung nicht methylierter Cytosin-Nukleobasen in Uracil führt.First, a genomic DNA sample is chemically treated in such a way that at the 5'-position unmethylated cytosine bases are converted into uracil, thymine or another base which is unlike the cytosine in hybridization behavior. The treatment of genomic DNA with bisulfite (hydrogen sulfite, disulfite) and subsequent alkaline hydrolysis, which leads to a conversion of unmethylated cytosine nucleobases into uracil, is preferably used for this purpose.
In einem zweiten Verfahrensschritt werden aus der vorbehandelten genomischen DNA mehr als zehn unterschiedliche Fragmente gleichzeitig durch Verwendung von synthetischen Oligonukleotiden als Primer amplifiziert, wobei mehr als doppelt so viele Fragmente als statistisch zu erwarten aus an der Genregulation beteiligten, transkribierten und/oder translatierten Sequenzen stammen. Dies kann mittels verschiedener Methoden erreicht werden.In a second process step, more than ten different fragments are simultaneously amplified from the pretreated genomic DNA by using synthetic oligonucleotides as primers, whereby more than twice as many fragments as statistically expected come from sequences involved in transcription and / or translation that are involved in gene regulation. This can be achieved using various methods.
In einer bevorzugten Variante des Verfahrens enthält mindestens eines der für die Amplifikation verwendeten Oligonukleotide weniger Nukleobasen als es statistisch für
eine sequenzspezifische Hybridisierung an die chemisch behandelte genomische DNA Probe erforderlich wäre, was zur Amplifikation mehrerer Fragmente gleichzeitig führen kann. Dabei ist die Gesamtzahl der in diesem Oligonukleotid enthaltenen Nukleobasen kleiner als 17. In einer besonders bevorzugten Variante des Verfahrens ist die Anzahl der in diesem Oligonukleotid enthaltenen Nukleobasen kleiner als 14.In a preferred variant of the method, at least one of the oligonucleotides used for the amplification contains fewer nucleobases than statistically a sequence-specific hybridization to the chemically treated genomic DNA sample would be required, which can lead to the amplification of several fragments at the same time. The total number of nucleobases contained in this oligonucleotide is less than 17. In a particularly preferred variant of the method, the number of nucleobases contained in this oligonucleotide is less than 14.
In einer weiteren, bevorzugten Variante des Verfahrens werden für die Amplifikation mehr als 4 Oligonukleotide mit unterschiedlicher Sequenz gleichzeitig in einem Reaktionsgefäß verwendet. In einer besonders bevorzugten Varianten werden zur Herstellung eines komplexen Amplifikates mehr als 26 verschiedene Oligonukleotide gleichzeitig verwendet. In einer besonders bevorzugten Variante des Verfahrens stammt mehr als eine doppelt so hohe Anzahl, wie statistisch zu erwarten, aus an der Regulation von Genen beteiligten Genomabschnitten, z.B. Promotoren und Enhancern, stammt, als bei einer rein zufälligen Wahl der Oligonukleotidsequenzen zu erwarten wäre. In einer weiteren besonders bevorzugten Variante des Verfahrens stammt mehr als eine doppelt so hohe Anzahl der amplifizierten Fragmente aus Genomabschnitten, die in mindestens einer Zelle des jeweiligen Organismus in mRNA transkribiert werden, oder aber aus nach der Transkription in mRNA gespliceten Genomabschnitten (Exons), als bei einer rein zufälligen Wahl der Oligonukleotidsequenzen zu erwarten wäre.In a further preferred variant of the method, more than 4 oligonucleotides with different sequences are used simultaneously in one reaction vessel for the amplification. In a particularly preferred variant, more than 26 different oligonucleotides are used simultaneously to produce a complex amplificate. In a particularly preferred variant of the method, more than twice the number that is statistically to be expected comes from genome sections involved in the regulation of genes, e.g. Promoters and enhancers, comes as would be expected with a purely random choice of the oligonucleotide sequences. In a further particularly preferred variant of the method, more than twice the number of the amplified fragments originates from genome sections which are transcribed in mRNA in at least one cell of the respective organism, or from genome sections (exons) spliced into mRNA after transcription than would be expected if the oligonucleotide sequences were chosen at random.
In einer weiteren besonders bevorzugten Variante des Verfahrens stammt mehr als eine doppelt so hohe Anzahl der amplifizierten Fragmente aus Genomabschnitten, welche für Teile einer oder mehrerer Genfamilien kodieren, oder aber sie stammen aus Genomabschnitten, welche für sogenannte „matrix attachment Sites" (MARs)- charakteristische Sequenzen enthalten, als bei einer rein zufälligen Wahl der Oligonukleotidsequenzen zu erwarten wäre.In a further particularly preferred variant of the method, more than twice the number of the amplified fragments comes from genome sections which code for parts of one or more gene families, or else they come from genome sections which are used for so-called “matrix attachment sites” (MARs). contain characteristic sequences than would be expected with a purely random selection of the oligonucleotide sequences.
In einer weiteren besonders bevorzugten Variante des Verfahrens stammt mehr als eine doppelt so hohe Anzahl der amplifizierten Fragmente aus Genomabschnitten, welche als sogenannte „boundary elements" die Verpackungsdichte des Chromatins organisieren, oder aber sie stammen aus multiple drug resistance gene" (MDR)-
Promotoren oder kodierenden Regionen, als bei einer rein zufälligen Wahl der Oligonukleotidsequenzen zu erwarten wäre.In a further particularly preferred variant of the method, more than twice as many of the amplified fragments come from genome sections which organize the packing density of the chromatin as so-called “boundary elements”, or else they come from multiple drug resistance genes (MDR) - Promoters or coding regions than would be expected with a purely random choice of the oligonucleotide sequences.
In einer weiteren, besonders bevorzugten Variante des Verfahrens werden zur Amplifkation der beschriebenen Fragmente zwei Oligonukleotide oder zwei Klassen von Oligonukleotiden verwendet, von denen eines oder eine Klasse außer im Kontext CpG oder CpNpG zwar die Base C enthalten kann, nicht aber die Base G und von denen das andere oder die andere Klasse außer im Kontext CpG oder CpNpG zwar die Base G, nicht aber die Base C enthalten kann.In a further, particularly preferred variant of the method, two oligonucleotides or two classes of oligonucleotides are used to amplify the fragments described, one or a class of which, except in the context of CpG or CpNpG, may contain base C but not base G and which the other or the other class may contain the base G, but not the base C, except in the context of CpG or CpNpG.
In einer weiteren bevorzugten Variante des Verfahrens wird die Amplifikation mittels zweier Oligonukleotide durchgeführt, von denen eines eine vier bis sechzehn Basen lange Sequenz enthält, die zu einer solchen DNA komplementär ist oder dieser entspricht, wie sie entstehen würde, wenn ein ebenso langes DNA Fragment, an welches einer der FaktorenIn a further preferred variant of the method, the amplification is carried out by means of two oligonucleotides, one of which contains a four to sixteen base long sequence which is complementary to or corresponds to such a DNA as it would arise if an equally long DNA fragment, which one of the factors
AhR/Arnt aryl hydrocarbon receptor/aryl hydrocarbon receptor nuclear translocatorAhR / Arnt aryl hydrocarbon receptor / aryl hydrocarbon receptor nuclear translocator
Amt aryl hydrocarbon receptor nuclear translocator AML-1a CBFA2; core-binding factor, runt domain, alpha subunit 2Amt aryl hydrocarbon receptor nuclear translocator AML-1a CBFA2; core binding factor, runt domain, alpha subunit 2
(acute myeloid leukemia 1 ; aml1 oncogene)(acute myeloid leukemia 1; aml1 oncogene)
AP-1 activator protein-1 (AP-1); Synonyme: c-JunAP-1 activator protein-1 (AP-1); Synonyms: c-Jun
C/EBP CCAAT/enhancer binding proteinC / EBP CCAAT / enhancer binding protein
C/EBPalpha CCAAT/enhancer binding protein (C/EBP), alphaC / EBPalpha CCAAT / enhancer binding protein (C / EBP), alpha
C/EBPbeta CCAAT/enhancer binding protein (C/EBP), betaC / EBPbeta CCAAT / enhancer binding protein (C / EBP), beta
CDP CUTL1 ; cut (Drosophila)-Iike 1 (CCAAT displacement protein)CDP CUTL1; cut (Drosophila) -Iike 1 (CCAAT displacement protein)
CDP CUTL1 ; cut (Drosophila)-Iike 1 (CCAAT displacement protein)CDP CUTL1; cut (Drosophila) -Iike 1 (CCAAT displacement protein)
CDP CR1 complement component (3b/4b) receptor 1 CDP CR3 complement component (3b/4b) receptor 3 CHOP-C/EBPalpha DDIT; DNA-damage-inducible transcript 3/CCAAT/enhancer binding protein (C/EBP), alpha c-Myc/Max avian myelocytomatosis viral oncogene/MYC-ASSOCIATEDCDP CR1 complement component (3b / 4b) receptor 1 CDP CR3 complement component (3b / 4b) receptor 3 CHOP-C / EBPalpha DDIT; DNA-damage-inducible transcript 3 / CCAAT / enhancer binding protein (C / EBP), alpha c-Myc / Max avian myelocytomatosis viral oncogene / MYC-ASSOCIATED
FACTOR XFACTOR X
CREB cAMP responsive element binding protein CRE-BP1 CYCLIC AMP RESPONSE ELEMENT-BINDING PROTEINCREB cAMP responsive element binding protein CRE-BP1 CYCLIC AMP RESPONSE ELEMENT-BINDING PROTEIN
2, CREB2, CREBP1 ; now ATF2; activating transcription factor 22, CREB2, CREBP1; now ATF2; activating transcription factor 2
CRE-BP1/c-Jun activator protein-1 (AP-1); Synonyme: c-Jun
CREB MP responsive element binding protein E2F E2F transcription factor (originally identified as a DNA- binding protein essential E1A-dependent activation of the adenovirus E2 promoter)CRE-BP1 / c-Jun activator protein-1 (AP-1); Synonyms: c-Jun CREB MP responsive element binding protein E2F E2F transcription factor (originally identified as a DNA- binding protein essential E1A-dependent activation of the adenovirus E2 promoter)
E47 transcription factor 3 (E2A immunoglobulin enhancer binding factors E12/E47)E47 transcription factor 3 (E2A immunoglobulin enhancer binding factors E12 / E47)
E47 transcription factor 3 (E2A immunoglobulin enhancer binding factors E12/E47)E47 transcription factor 3 (E2A immunoglobulin enhancer binding factors E12 / E47)
Egr-1 early growth response 1 Egr-2 early growth response 2 (Krox-20 (Drosophila) homolog) ELK-1 ELK1 , member of ETS (environmental tobacco smoke) oncogene familyEgr-1 early growth response 1 Egr-2 early growth response 2 (Krox-20 (Drosophila) homolog) ELK-1 ELK1, member of ETS (environmental tobacco smoke) oncogene family
Freac-2 FKHL6; forkhead (Drosophila)-Iike 6; FORKHEAD-RELATED ACTIVATOR 2; FREAC2Freac-2 FKHL6; forkhead (Drosophila) -Iike 6; FORKHEAD-RELATED ACTIVATOR 2; FREAC2
Freac-3 FKHL7; forkhead (Drosophila)-Iike 7; FORKHEAD-RELATED ACTIVATOR 3; FREAC3Freac-3 FKHL7; forkhead (Drosophila) -Iike 7; FORKHEAD-RELATED ACTIVATOR 3; FREAC3
Freac-4 FKHL8; forkhead (Drosophila)-Iike 8; FORKHEAD-RELATED ACTIVATOR 4; FREAC4Freac-4 FKHL8; forkhead (Drosophila) -Iike 8; FORKHEAD-RELATED ACTIVATOR 4; FREAC4
Freac-7 FKHL11 ; forkhead (Drosophila)-Iike 9; FORKHEAD- RELATED ACTIVATOR 7; FREAC7Freac-7 FKHL11; forkhead (Drosophila) -Iike 9; FORKHEAD-RELATED ACTIVATOR 7; FREAC7
GATA-1 GATA-binding protein 1/Enhancer-Binding Protein GATA1 GATA-1 GATA-binding protein 1/Enhancer-Binding Protein GATA1 GATA-1 GATA-binding protein 1/Enhancer-Binding Protein GATA1 GATA-2 GATA-binding protein 2/Enhancer-Binding Protein GATA2 GATA-3 GATA-binding protein 3/Enhancer-Binding Protein GATA3 GATA-X HFH-3 FKHL10; forkhead (Drosophila)-Iike 10; FORKHEAD- RELATED ACTIVATOR 6; FREAC6GATA-1 GATA-binding protein 1 / enhancer-binding protein GATA1 GATA-1 GATA-binding protein 1 / enhancer-binding protein GATA1 GATA-1 GATA-binding protein 1 / enhancer-binding protein GATA1 GATA-2 GATA-binding protein 2 / Enhancer-binding protein GATA2 GATA-3 GATA-binding protein 3 / Enhancer-binding protein GATA3 GATA-X HFH-3 FKHL10; forkhead (Drosophila) -Iike 10; FORKHEAD-RELATED ACTIVATOR 6; FREAC6
HNF-1 TCF1 ; transcription factor 1 , hepatic; LF-B1 , hepatic nuclear factor (HNF1), albumin proximal factorHNF-1 TCF1; transcription factor 1, hepatic; LF-B1, hepatic nuclear factor (HNF1), albumin proximal factor
HNF-4 hepatocyte nuclear factor 4HNF-4 hepatocyte nuclear factor 4
IRF-1 interferon regulatory factor 1IRF-1 interferon regulatory factor 1
ISRE interferon-stimulated response elementISRE interferon-stimulated response element
Lmo2 complex LIM domain only 2 (rhombotin-like 1)Lmo2 complex LIM domain only 2 (rhombotin-like 1)
MEF-2 MADS box transcription enhancer factor 2, polypeptide A (myocyte enhancer factor 2A)MEF-2 MADS box transcription enhancer factor 2, polypeptide A (myocyte enhancer factor 2A)
MEF-2 MADS box transcription enhancer factor 2, polypeptide A (myocyte enhancer factor 2A) myogenin/NF-1 Myogenin (myogenic factor 4)/Neurofibromin 1 ; NEUROFIBROMATOSIS, TYPE IMEF-2 MADS box transcription enhancer factor 2, polypeptide A (myocyte enhancer factor 2A) myogenin / NF-1 myogenin (myogenic factor 4) / neurofibromin 1; NEUROFIBROMATOSIS, TYPE I
MZF1 ZNF42; zinc finger protein 42 (myeloid-specific retinoic acid- responsive)MZF1 ZNF42; zinc finger protein 42 (myeloid-specific retinoic acid-responsive)
MZF1 ZNF42; zinc finger protein 42 (myeloid-specific retinoic acid- responsive)MZF1 ZNF42; zinc finger protein 42 (myeloid-specific retinoic acid-responsive)
NF-E2 NFE2; nuclear factor (erythroid-derived 2), 45kD NF-kappaB (p50) nuclear factor of kappa light polypeptide gene enhancer in B- cells p50 subunitNF-E2 NFE2; nuclear factor (erythroid-derived 2), 45kD NF-kappaB (p50) nuclear factor of kappa light polypeptide gene enhancer in B-cells p50 subunit
NF-kappaB (p65) nuclear factor of kappa light polypeptide gene enhancer in B-
cells p65 subunitNF-kappaB (p65) nuclear factor of kappa light polypeptide gene enhancer in B- cells p65 subunit
NF-kappaB nuclear factor of kappa light polypeptide gene enhancer in B- cellsNF-kappaB nuclear factor of kappa light polypeptide gene enhancer in B cells
NF-kappaB nuclear factor of kappa light polypeptide gene enhancer in B- cellsNF-kappaB nuclear factor of kappa light polypeptide gene enhancer in B cells
NRSF NEURON RESTRICTIVE SILENCER FACTOR; REST; RE1- silencing transcription factorNRSF NEURON RESTRICTIVE SILENCER FACTOR; REST; RE1- silencing transcription factor
Oct-1 OCTAMER-BINDING TRANSCRIPTION FACTOR 1 ;Oct-1 OCTAMER-BINDING TRANSCRIPTION FACTOR 1;
POU2F1 ; POU domain, class 2, transcription factor 1POU2F1; POU domain, class 2, transcription factor 1
Oct-1 OCTAMER-BINDING TRANSCRIPTION FACTOR 1 ;Oct-1 OCTAMER-BINDING TRANSCRIPTION FACTOR 1;
POU2F1 ; POU domain, class 2, transcription factor 1POU2F1; POU domain, class 2, transcription factor 1
Oct-1 OCTAMER-BINDING TRANSCRIPTION FACTOR 1 ;Oct-1 OCTAMER-BINDING TRANSCRIPTION FACTOR 1;
POU2F1 ; POU domain, class 2, transcription factor 1POU2F1; POU domain, class 2, transcription factor 1
Oct-1 OCTAMER-BINDING TRANSCRIPTION FACTOR 1 ;Oct-1 OCTAMER-BINDING TRANSCRIPTION FACTOR 1;
POU2F1 ; POU domain, class 2, transcription factor 1POU2F1; POU domain, class 2, transcription factor 1
Oct-1 OCTAMER-BINDING TRANSCRIPTION FACTOR 1 ;Oct-1 OCTAMER-BINDING TRANSCRIPTION FACTOR 1;
POU2F1 ; POU domain, class 2, transcription factor 1POU2F1; POU domain, class 2, transcription factor 1
P300 E1A (adenovirus E1A oncoprotein)-BINDING PROTEIN,P300 E1A (adenovirus E1A oncoprotein) BINDING PROTEIN,
300-KD300-KD
P53 tumor protein p53 (Li-Fraumeni syndrome); TP53P53 tumor protein p53 (Li-Fraumeni syndrome); TP53
Pax-1 paired box gene 1Pax-1 paired box gene 1
Pax-3 paired box gene 3 (Waardenburg syndrome 1)Pax-3 paired box gene 3 (Waardenburg syndrome 1)
Pax-6 paired box gene 6 (aniridia, keratitis)Pax-6 paired box gene 6 (aniridia, keratitis)
Pbx lb pre-B-cell leukemia transcription factorPbx lb pre-B-cell leukemia transcription factor
Pbx-1 pre-B-cell leukemia transcription factor 1Pbx-1 pre-B-cell leukemia transcription factor 1
RORalpha2 RAR-RELATED ORPHAN RECEPTOR ALPHA; RETINOICRORalpha2 RAR-RELATED ORPHAN RECEPTOR ALPHA; retinoic
ACID-BINDING RECEPTOR ALPHAACID-BINDING RECEPTOR ALPHA
RREB-1 ras responsive element binding protein 1RREB-1 ras responsive element binding protein 1
SP1 simian-virus-40-protein-1SP1 simian virus 40 protein 1
SP1 simian-virus-40-protein-1SP1 simian virus 40 protein 1
SREBP-1 sterol regulatory element binding transcription factor 1SREBP-1 sterol regulatory element binding transcription factor 1
SRF serum response factor (c-fos serum response element- binding transcription factor)SRF serum response factor (c-fos serum response element-binding transcription factor)
SRY sex determining region YSRY sex determining region Y
STAT3 signal transducer and activator of transcription 1 , 91 kDSTAT3 signal transducer and activator of transcription 1, 91 kD
Tal-1alpha/E47 T-cell acute lymphocytic leukemia 1 /transcription factor 3Tal-1alpha / E47 T-cell acute lymphocytic leukemia 1 / transcription factor 3
(E2A immunoglobulin enhancer binding factors E12/E47)(E2A immunoglobulin enhancer binding factors E12 / E47)
TATA cellular and viral TATA box elements Tax/CREB Transiently-expressed axonal glycoprotein/cAMP responsive element binding proteinTATA cellular and viral TATA box elements Tax / CREB Transiently-expressed axonal glycoprotein / cAMP responsive element binding protein
Tax/CREB Transiently-expressed axonal glycoprotein/cAMP responsive element binding proteinTax / CREB Transiently-expressed axonal glycoprotein / cAMP responsive element binding protein
TCF11/MafG v-maf musculoaponeurotic fibrosarcoma (avian) oncogene family, protein GTCF11 / MafG v-maf musculoaponeurotic fibrosarcoma (avian) oncogene family, protein G
TCF11 Transcription Factor 11 ; TCF11 ; NFE2L1 ; nuclear factorTCF11 Transcription Factor 11; TCF11; NFE2L1; nuclear factor
(erythroid-derived 2)-like 1(erythroid-derived 2) -like 1
USF upstream stimulating factor Whn winged-helix nude
X-BP-1 X-box binding protein 1 oderUSF upstream stimulating factor Whn winged-helix nude X-BP-1 X-box binding protein 1 or
YY1 ubiquitously distributed transcription factor belonging to theGLI-Kruppel class of zinc finger proteinsYY1 ubiquitously distributed transcription factor belonging to theGLI-Kruppel class of zinc finger proteins
bindet, derart chemisch behandelt würde, daß an der 5'-Position unmethylierte Cytosinbasen in Uracil, Thymidin oder eine andere vom Hybridisierungsverhalten her dem Cytosin unähnliche Base verwandelt werden.binds, would be treated chemically in such a way that at the 5'-position unmethylated cytosine bases are converted into uracil, thymidine or another base which is unlike the cytosine in terms of hybridization behavior.
In einer weiteren bevorzugten Variante des Verfahrens wird die Amplifikation mittels zweier Oligonukleotide oder zweier Klassen von Oligonukleotiden durchgeführt, von denen eines oder die eine Klasse die vier bis sechzehn Basen lange Sequenz enthält, welche zu einer solchen DNA komplementär ist oder dieser entspricht, wie sie entstehen würde, wenn ein ebenso langes DNA Fragment, welches über seine Sequenz oder Sekundärstruktur die spezifische Lokalisierung von Genom/Chromatinabschnitten innerhalb des Zellkerns herbeiführen kann, derart chemisch behandelt würde, daß an der 5'-Position unmethylierte Cytosinbasen in Uracil, Thymidin oder eine andere vom Hybridisierungsverhalten her dem Cytosin unähnliche Base verwandelt werden.In a further preferred variant of the method, the amplification is carried out by means of two oligonucleotides or two classes of oligonucleotides, of which one or the one class contains the four to sixteen base long sequence which is complementary to or corresponds to such a DNA as it arises would, if an equally long DNA fragment, which can bring about the specific localization of genome / chromatin sections within the cell nucleus via its sequence or secondary structure, were treated in such a way that unmethylated cytosine bases in the 5'-position in uracil, thymidine or another of the Hybridization behavior from the base which is dissimilar to the cytosine can be transformed.
In einer weiteren bevorzugten Variante des Verfahrens wird die Amplifikation mittels zweier Oligonukleotide oder zweier Klassen von Oligonukleotiden durchgeführt, von denen eines oder die eine Klasse eine der SequenzenIn a further preferred variant of the method, the amplification is carried out by means of two oligonucleotides or two classes of oligonucleotides, one or one of which is one of the sequences
TCGCGTGTA, TACACGCGA, TGTACGCGA, TCGCGTACA, TTGCGTGTT, AACACGCAA, GGTACGTAA, TTACGTACC, TCGCGTGTT, AACACGCGA, GGTACGCGA, TCGCGTACC, TTGCGTGTA, TACACGCAA, TGTACGTAA, TTACGTACA, TACGTG, CACGTA, TACGTG, CACGTA,TCGCGTGTA, TACACGCGA, TGTACGCGA, TCGCGTACA, TTGCGTGTT, AACACGCAA, GGTACGTAA, TTACGTACC, TCGCGTGTT, AACACGCGA, GGTACGCGA, TCGCGTACG, TTGTACGCTA, TCGCGTACG
ATTGCGTGT, ACACGCAAT, GTACGTAAT, ATTACGTAC, ATTGCGTGA, TCACGCAAT, TTACGTAAT, ATTACGTAA, ATCGCGTGA, TCACGCGAT, TTACGCGAT, ATCGCGTAA, ATCGCGTGT, ACACGCGAT, GTACGCGAT, ATCGCGTAC, TGTGGT, ACCACA, ATTATA, TATAAT,ATTGCGTGT, ACACGCAAT, GTACGTAAT, ATTACGTAC, ATTGCGTGA, TCACGCAAT, TTACGTAAT, ATTACGTAA, ATCGCGTGA, TCACGCGAT, TTACGCGAT, ATCGCGATA, ATCGCGCTGAT, GTACTGGT
TGAGTTAG, CTAACTCA, TTGATTTA, TAAATCAA, TGATTTAG, CTAAATCA, TTGAGTTA, TAACTCAA,
TTTGGT, ACCAAA, ATTAAA, TTTAAT, TGTGGA, TCCACA, TTTATA, TATAAA , TTTGGA, TCCAAA, TTTAAA, TTTAAA, TGTGGT, ACCACA, ATTATA, TATAAT,TGAGTTAG, CTAACTCA, TTGATTTA, TAAATCAA, TGATTTAG, CTAAATCA, TTGAGTTA, TAACTCAA, TTTGGT, ACCAAA, ATTAAA, TTTAAT, TGTGGA, TCCACA, TTTATA, TATAAA, TTTGGA, TCCAAA, TTTAAA, TTTAAA, TGTGGT, ACCACA, ATTATA, TATAAT,
ATTAT, ATAAT, GTAAT, ATTAC, ATTGT, ACAAT, GTAAT, ATTAC,ATTAT, ATAAT, GTAAT, ATTAC, ATTGT, ACAAT, GTAAT, ATTAC,
GAAAG, CTTTC, TTTTT, AAAAA,GAAAG, CTTTC, TTTTT, AAAAA,
GTAAT, ATTAC, ATTGT, ACAAT,GTAAT, ATTAC, ATTGT, ACAAT,
GAAAT, ATTTC, ATTTT, AAAAT,GAAAT, ATTTC, ATTTT, AAAAT,
GTAAG, CTTAC, TTTGT, ACAAA,GTAAG, CTTAC, TTTGT, ACAAA,
TTAATAATCGAT, ATCGATTATTAA, ATCGATTATTGG, CCAATAATCGAT,TTAATAATCGAT, ATCGATTATTAA, ATCGATTATTGG, CCAATAATCGAT,
ATCGATTA, TAATCGAT, TAATCGAT, ATCGATTA,ATCGATTA, TAATCGAT, TAATCGAT, ATCGATTA,
ATCGATCGG, CCGATCGAT, TCGATCGAT, ATCGATCGA, ATCGATCGT, ACGATCGAT, GCGATCGAT, ATCGATCGC,ATCGATCGG, CCGATCGAT, TCGATCGAT, ATCGATCGA, ATCGATCGT, ACGATCGAT, GCGATCGAT, ATCGATCGC,
TATCGATA, TATCGATA, TATCGGTG, CACCGATA, TATTAATA, TATTAATA, TATTGGTG, CACCAATA,TATCGATA, TATCGATA, TATCGGTG, CACCGATA, TATTAATA, TATTAATA, TATTGGTG, CACCAATA,
GTGTAATATTT, AAATATTACAC, GGGTATTGTAT, ATACAATACCC, GTGTAATTTTT, AAAAATTACAC, GGGGATTGTAT, ATACAATCCCC, ATGTAATTTTT, AAAAATTACAT, GGGGATTGTAT, ATACAATCCCC, ATGTAATATTT, AAATATTACAT, GGGTATTGTAT, ATACAATACCC, ATTACGTGGT, ACCACGTAAT, ATTACGTGGT, ACCACGTAAT, TGACGTAA, TTACGTCA, TTACGTTA, TAACGTAA, TGACGTTA, TAACGTCA, TGACGTTA, TAACGTCA, TTACGTAA, TTACGTAA, TTACGTAA, TTACGTAA, TGACGTTA, TAACGTCA, TAACGTTA, TAACGTTA,GTGTAATATTT, AAATATTACAC, GGGTATTGTAT, ATACAATACCC, GTGTAATTTTT, AAAAATTACAC, GGGGATTGTAT, ATACAATCCCC, ATGTAATTTTT, AAAAATTACAT, GGGGATTGTAT, ATACAATCCCC, ATGTAATATTT, AAATATTACAT, GGGTATTGTAT, ATACAATACCC, ATTACGTGGT, ACCACGTAAT, ATTACGTGGT, ACCACGTAAT, TGACGTAA, TTACGTCA, TTACGTTA, TAACGTAA, TGACGTTA, TAACGTCA, TGACGTTA, TAACGTCA, TTACGTAA, TTACGTAA, TTACGTAA, TTACGTAA, TGACGTTA, TAACGTCA, TAACGTTA, TAACGTTA,
TGACGT, ACGTCA, GCGTTA, TAACGC, TGACGT, ACGTCA, ACGTTA, TAACGT, TTTCGCGT, ACGCGAAA, GCGCGAAA, TTTCGCGC, TTTGGCGT, ACGCCAAA, GCGTTAAA, TTTAACGC,TGACGT, ACGTCA, GCGTTA, TAACGC, TGACGT, ACGTCA, ACGTTA, TAACGT, TTTCGCGT, ACGCGAAA, GCGCGAAA, TTTCGCGC, TTTGGCGT, ACGCCAAA, GCGTTAAA, TTTAACGC,
TAGGTGTTA, TAACACCTA, TAATATTTG, CAAATATTA, TAGGTGTTT, AAACACCTA, GAATATTTG, CAAATATTC,TAGGTGTTA, TAACACCTA, TAATATTTG, CAAATATTA, TAGGTGTTT, AAACACCTA, GAATATTTG, CAAATATTC,
GTAGGTGG, CCACCTAC, TTATTTGT, ACAAATAA, GTAGGTGT, ACACCTAC, ATATTTGT, ACAAATAT,GTAGGTGG, CCACCTAC, TTATTTGT, ACAAATAA, GTAGGTGT, ACACCTAC, ATATTTGT, ACAAATAT,
TGCGTGGGCGG, CCGCCCACGCA, TCGTTTACGTA, TACGTAAACGA, TGCGTGGGCGT, ACGCCCACGCA, ACGTTTACGTA, TACGTAAACGT,TGCGTGGGCGG, CCGCCCACGCA, TCGTTTACGTA, TACGTAAACGA, TGCGTGGGCGT, ACGCCCACGCA, ACGTTTACGTA, TACGTAAACGT,
TGCGTAGGCGT, ACGCCTACGCA, ACGTTTACGTA, TACGTAAACGT, TGCGTAGGCGG, CCGCCTACGCA, TCGTTTACGTA, TACGTAAACGA, ATAGGAAGT, ACTTCCTAT, ATTTTTTGT, ACAAAAAAT,
TCGGAAGT, ACTTCCGA, ATTTTCGG, CCGAAAAT, TCGGAAGT, ACTTCCGA, GTTTTCGG, CCGAAAAC, TCGGAAAT, ATTTCCGA, ATTTTCGG, CCGAAAAT, TCGGAAAT, ATTTCCGA, GTTTTCGG, CCGAAAAC, GTAAATAA, TTATTTAC, TTGTTTAT, ATAAACAA, GTAAATAAATA, TATTTATTTAC, TGTTTATTTAT, ATAAATAAACA,TGCGTAGGCGT, ACGCCTACGCA, ACGTTTACGTA, TACGTAAACGT, TGCGTAGGCGG, CCGCCTACGCA, TCGTTTACGTA, TACGTAAACGA, ATAGGAAGT, ACTTCCTAT, ATTTTTTGT, ACAAAAAAT TCGGAAGT, ACTTCCGA, ATTTTCGG, CCGAAAAT, TCGGAAGT, ACTTCCGA, GTTTTCGG, CCGAAAAC, TCGGAAAT, ATTTCCGA, ATTTTCGG, CCGAAAAT, TCGGAAAT, ATTTCCGA, GTTTTCGG, CCGAAAACGTTAATTAAT
AAAGTAAATA, TATTTACTTT, TGTTTATTTT, AAAATAAACA, AATGTAAATA, TATTTACATT, TGTTTATATT, AATATAAACA, TAAGTAAATA, TATTTACTTA, TGTTTATTTA, TAAATAAACA, TATGTAAATA, TATTTACATA, TGTTTATATA, TATATAAACA,AAAGTAAATA, TATTTACTTT, TGTTTATTTT, AAAATAAACA, AATGTAAATA, TATTTACATT, TGTTTATATT, AATATAAACA, TAAGTAAATA, TATTTACTTA, TGTTTATTTA, TAAATAAACA, TATGTAAATA, TATTTATATA, TGTTAATA
ATAAATA, TATTTAT, TGTTTAT, ATAAACA, ATAAATA, TATTTAT, TATTTAT, ATAAATA, GATA, TATC, TATT, AATA,ATAAATA, TATTTAT, TGTTTAT, ATAAACA, ATAAATA, TATTTAT, TATTTAT, ATAAATA, GATA, TATC, TATT, AATA,
TAGATAA, TTATCTA, TTATTTG, CAAATAA, TTGATAA, TTATCAA, TTATTAG, CTAATAA, GATAA, TTATC, TTATT, AATAA,TAGATAA, TTATCTA, TTATTTG, CAAATAA, TTGATAA, TTATCAA, TTATTAG, CTAATAA, GATAA, TTATC, TTATT, AATAA,
GATG, CATC, TATT, AATA,GATG, CATC, TATT, AATA,
GATAG, CTATC, TTATT, AATAA, GATAAG, CTTATC, TTTATT, AATAAA,GATAG, CTATC, TTATT, AATAA, GATAAG, CTTATC, TTTATT, AATAAA,
TGTTTATTTA, TAAATAAACA, TAAATAAATA, TATTTATTTA, TGTTTGTTTA, TAAACAAACA, TAAATAAATA, TATTTATTTA, TATTTATTTA, TAAATAAATA, TAAATAAATA, TATTTATTTA, TATTTGTTTA, TAAACAAATA, TAAATAAATA, TATTTATTTA,TGTTTATTTA, TAAATAAACA, TAAATAAATA, TATTTATTTA, TGTTTGTTTA, TAAACAAACA, TAAATAAATA, TATTTATTTA, TATTTATTTA, TAAATAAATA, TAAATAAATA, TATTTATTTA, TATTTGTTTA, TAAACAAATA, TAAATAATA
GTTAATGATT, AATCATTAAC, AATTATTAAT, ATTAATAATT, GTTAATTATT, AATAATTAAC, AATAATTAAT, ATTAATTATT, GTTAATTAAT, ATTAATTAAC, ATTAATTAAT, ATTAATTAAT, GTTAATGAAT, ATTCATTAAC, ATTTATTAAT, ATTAATAAAT,GTTAATGATT, AATCATTAAC, AATTATTAAT, ATTAATAATT, GTTAATTATT, AATAATTAAC, AATAATTAAT, ATTAATTATT, GTTAATTAAT, ATTAATTAAC, ATTAATTAAT, ATTAATTAAT, GTTAATGAAT, ATTCATTAAC, ATTTATTAAT, ATTAATAAAT,
TAAAGTTTA, TAAACTTTA, TGAATTTTG, CAAAATTCA, TAAAGGTTA, TAACCTTTA, TGATTTTTG, CAAAAATCA,TAAAGTTTA, TAAACTTTA, TGAATTTTG, CAAAATTCA, TAAAGGTTA, TAACCTTTA, TGATTTTTG, CAAAAATCA,
AAAGTGAAATT, AATTTCACTTT, GGTTTTATTTT, AAAATAAAACC, AAAGCGAAATT, AATTTCGCTTT, GGTTTCGTTTT, AAAACGAAACC,AAAGTGAAATT, AATTTCACTTT, GGTTTTATTTT, AAAATAAAACC, AAAGCGAAATT, AATTTCGCTTT, GGTTTCGTTTT, AAAACGAAACC,
TAGTTTTATTTTTTT, AAAAAAATAAAACTA, GGGAAAGTGAAATTG,TAGTTTTATTTTTTT, AAAAAAATAAAACTA, GGGAAAGTGAAATTG,
CAATTTCACTTTCCC,CAATTTCACTTTCCC,
TAGTTTTATTTTTTT, AAAAAAATAAAACTA, GGAAAAGTGAAATTG,TAGTTTTATTTTTTT, AAAAAAATAAAACTA, GGAAAAGTGAAATTG,
CAATTTCACTTTTCC,CAATTTCACTTTTCC,
TAGTTTTTTTTTTTT, AAAAAAAAAAAACTA, GGAAAAGAGAAATTG,TAGTTTTTTTTTTTT, AAAAAAAAAAAACTA, GGAAAAGAGAAATTG,
CAATTTCTCTTTTCC,
TAGTTTTTTTTTTTT, AAAAAAAAAAAACTA, GGGAAAGAGAAATTG,CAATTTCTCTTTTCC, TAGTTTTTTTTTTTT, AAAAAAAAAAAACTA, GGGAAAGAGAAATTG,
CAATTTCTCTTTCCC,CAATTTCTCTTTCCC,
TAGGTG, CACCTA, TATTTG, CAAATA,TAGGTG, CACCTA, TATTTG, CAAATA,
TTTTAAAAATAATTTT, AAAATTATTTTTAAAA, AGGGTTATTTTTAGAG,TTTTAAAAATAATTTT, AAAATTATTTTTAAAA, AGGGTTATTTTTAGAG,
CTCTAAAAATAACCCT,CTCTAAAAATAACCCT,
TTTTAAAAATAATTTT, AAAATTATTTTTAAAA, GGAGTTATTTTTAGAG,TTTTAAAAATAATTTT, AAAATTATTTTTAAAA, GGAGTTATTTTTAGAG,
CTCTAAAAATAACTCC ,CTCTAAAAATAACTCC,
TTTTAAAAATAATTTT, AAAATTATTTTTAAAA, AGAGTTATTTTTAGAG,TTTTAAAAATAATTTT, AAAATTATTTTTAAAA, AGAGTTATTTTTAGAG,
CTCTAAAAATAACTCT,CTCTAAAAATAACTCT,
TTTTAAAAATAATTTT, AAAATTATTTTTAAAA, GGGGTTATTTTTAGAG,TTTTAAAAATAATTTT, AAAATTATTTTTAAAA, GGGGTTATTTTTAGAG,
CTCTAAAAATAACCCC ,CTCTAAAAATAACCCC,
TGTTATTAAAAATAGAAA, TTTCTATTTTTAATAACA, TTTTTATTTTTAGTAATA, TATTACTAAAAATAAAAA, TGTTATTAAAAATAGAAT, ATTCTATTTTTAATAACA, GTTTTATTTTTAGTAATA, TATTACTAAAAATAAAAC, TTTGGTAT, ATACCAAA, GTGTTAAA, TTTAACAC GGGGA, TCCCC, TTTTT, AAAAA,TGTTATTAAAAATAGAAA, TTTCTATTTTTAATAACA, TTTTTATTTTTAGTAATA, TATTACTAAAAATAAAAA, TGTTATTAAAAATAGAAT, ATTCTATTTTTAATAACA, GTTTTATTTTTAGTAATA, TATTACTAAAAATAAAAC, TTACTACAAA, TTACTAGCACCA
TAGGGG, CCCCTA, TTTTTA, TAAAAA, GAGGGG, CCCCTC, TTTTTT, AAAAAA,TAGGGG, CCCCTA, TTTTTA, TAAAAA, GAGGGG, CCCCTC, TTTTTT, AAAAAA,
TGTTGAGTTAT, ATAACTCAACA, ATGATTTAGTA, TACTAAATCAT, TGTTGATTTAT, ATAAATCAACA, GTGAGTTAGTA, TACTAACTCAC, TGTTGAGTTAT, ATAACTCAACA, ATGATTTAGTA, TACTAAATCAT, TGTTGATTTAT, ATAAATCAACA, GTGAGTTAGTA, TACTAACTCAC, GGGGATTTTT, AAAAATCCCC, GGGAATTTTT, AAAAATTCCC, GGGGATTTTT, AAAAATCCCC, GGGGATTTTT, AAAAATCCCC, GGGGATTTTT, AAAAATCCCC, GGAAATTTTT, AAAAATTTCC, GGGAATTTTT, AAAAATTCCC, GGAAATTTTT, AAAAATTTCC, GGGAATTTTT, AAAAATTCCC, GGAAATTTTT, AAAAATTTCC, GGGATTTTTT, AAAAAATCCC, GGAAAGTTTT, AAAACTTTCC, GGGAATTTTT, AAAAATTCCC, GGGAATTTTT, AAAAATTCCC, GGGATTTTTT, AAAAAATCCC, GGGAAGTTTT, AAAACTTCCC, GGGATTTTTTA, TAAAAAATCCC, TGGAAAGTTTT, AAAACTTTCCA, TTTAGTATTACGGATAGAGGT, ACCTCTATCCGTAATACTAAA, GTTTTTGTTCGTGGTGTTGAA, TTCAACACCACGAACAAAAAC , TTTAGTATTACGGATAGAGTT, AACTCTATCCGTAATACTAAA, GGTTTTGTTCGTGGTGTTGAA, TTCAACACCACGAACAAAACC, TTTAGTATTACGGATAGCGTT, AACGCTATCCGTAATACTAAA, GGCGTTGTTCGTGGTGTTGAA, TTCAACACCACGAACAACGCC, TTTAGTATTACGGATAGCGGT, ACCGCTATCCGTAATACTAAA, GTCGTTGTTCGTGGTGTTGAA, TTCAACACCACGAACAACGAC,TGTTGAGTTAT, ATAACTCAACA, ATGATTTAGTA, TACTAAATCAT, TGTTGATTTAT, ATAAATCAACA, GTGAGTTAGTA, TACTAACTCAC, TGTTGAGTTAT, ATAACTCAACA, ATGATTTAGTA, TACTAAATCAT, TGTTGATTTAT, ATAAATCAACA, GTGAGTTAGTA, TACTAACTCAC, GGGGATTTTT, AAAAATCCCC, GGGAATTTTT, AAAAATTCCC, GGGGATTTTT, AAAAATCCCC, GGGGATTTTT, AAAAATCCCC, GGGGATTTTT, AAAAATCCCC, GGAAATTTTT, AAAAATTTCC, GGGAATTTTT, AAAAATTCCC, GGAAATTTTT, AAAAATTTCC, GGGAATTTTT, AAAAATTCCC, GGAAATTTTT, AAAAATTTCC, GGGATTTTTT, AAAAAATCCC, GGAAAGTTTT, AAAACTTTCC, GGGAATTTTT, AAAAATTCCC, GGGAATTTTT, AAAAATTCCC, GGGATTTTTT, AAAAAATCCC, GGGAAGTTTT, AAAACTTCCC, GGGATTTTTTA, TAAAAAATCCC, TGGAAAGTTTT, AAAACTTTCCA, TTTAGTATTACGGATAGAGGT, ACCTCTATCCGTAATACTAAA, GTTTTTGTTCGTGGTGTTGAA, TTCAACACCACGAACAAAAAC, TTTAGTATTACGGATAGAGTT, AACTCTATCCGTAATACTAAA, GGTTTTGTTCGTGGTGTTGAA, TTCAACACCACGAACAAAACC, TTTAGTATTACGGATAGCGTT, AACGCTATCCGTAATACTAAA, GGCGTTGTTCGTGGTGTTGAA, TTCAACACCACGAACAACGCC, TTTAGTATTACGGATAGCGGT, ACCGCTATCCGTAATACTAAA, GTCGTTGTTCGTGGTGTTGAA, TTCAACACCA CGAACAACGAC,
ATATGTAAAT, ATTTACATAT, ATTTGTATAT, ATATACAAAT, TTATGTAAAT, ATTTACATAA, ATTTGTATAA, TTATACAAAT,ATATGTAAAT, ATTTACATAT, ATTTGTATAT, ATATACAAAT, TTATGTAAAT, ATTTACATAA, ATTTGTATAA, TTATACAAAT,
GAATATTTA, TAAATATTC, TGAATATTT, AAATATTCA,
GAATATGTA, TACATATTC, TGTATATTT, AAATATACA,GAATATTTA, TAAATATTC, TGAATATTT, AAATATTCA, GAATATGTA, TACATATTC, TGTATATTT, AAATATACA,
ATAAT, ATTAT, ATTAT, ATAAT, GTAAT, ATTAC, ATTAT, ATAAT,ATAAT, ATTAT, ATTAT, ATAAT, GTAAT, ATTAC, ATTAT, ATAAT,
AATGTAAAT, ATTTACATT, ATTTGTATT, AATACAAAT,AATGTAAAT, ATTTACATT, ATTTGTATT, AATACAAAT,
ATTTGTATATT, AATATACAAAT, GGTATGTAAAT, ATTTACATACC, ATTTGTATATT, AATATACAAAT, AATATGTAAAT, ATTTACATATT, ATTTGTATATT, AATATACAAAT, AGTATGTAAAT, ATTTACATACT, ATTTGTATATT, AATATACAAAT, GATATGTAAAT, ATTTACATATC,ATTTGTATATT, AATATACAAAT, GGTATGTAAAT, ATTTACATACC, ATTTGTATATT, AATATACAAAT, AATATGTAAAT, ATTTACATATT, ATTTGTATATT, AATATACAAAT, AGTATGTATAT, ATTTACATACT, ATTTATATATAT, ATTTGATATAT
AGGAGT, ACTCCT, ATTTTT, AAAAAT, GGGAGT, ACTCCC, ATTTTT, AAAAAT, GGATATGTTCGGGTATGTTT, AAACATACCCGAACATATCC, GGATATGTTCGGGTATGTTT, AAACATACCCGAACATATCC, GGATATGTTCGGGTATGTTT, AAACATACCCGAACATATCC, AGATATGTTCGGGTATGTTT, AAACATACCCGAACATATCT, TCGTTTCGTTTTAGATAT, ATATCTAAAACGAAACGA, ATATTTAGAGCGGAACGG, CCGTTCCGCTCTAAATAT,AGGAGT, ACTCCT, ATTTTT, AAAAAT, GGGAGT, ACTCCC, ATTTTT, AAAAAT, GGATATGTTCGGGTATGTTT, AAACATACCCGAACATATCC, GGATATGTTCGGGTATGTTT, AAACATACCCGAACATATCC, GGATATGTTCGGGTATGTTT, AAACATACCCGAACATATCC, AGATATGTTCGGGTATGTTT, AAACATACCCGAACATATCT, TCGTTTCGTTTTAGATAT, ATATCTAAAACGAAACGA, ATATTTAGAGCGGAACGG, CCGTTCCGCTCTAAATAT,
CGTTACGGTT, AACCGTAACG, AATCGTGACG, CGTCACGATT, CGTTACGGTT, AACCGTAACG, GATCGTGACG, CGTCACGATC, CGTTACGTTT, AAACGTAACG, AAGCGTGACG, CGTCACGCTT, CGTTACGTTT, AAACGTAACG, GAGCGTGACG, CGTCACGCTC,CGTTACGGTT, AACCGTAACG, AATCGTGACG, CGTCACGATT, CGTTACGGTT, AACCGTAACG, GATCGTGACG, CGTCACGATC, CGTTACGTTT, AAACGTAACG, AAGCGTGACG, CGTCACGACGTTCGGACGTC
TTTACGTATGA, TCATACGTAAA, TTATGCGTGAA, TTCACGCATAA, TTTACGTTTGA, TCAAACGTAAA, TTAAGCGTGAA, TTCACGCTTAA, TTTACGTTTTA, TAAAACGTAAA, TGAAGCGTGAA, TTCACGCTTCA, TTTACGTATTA, TAATACGTAAA, TGATGCGTGAA, TTCACGCATCA,TTTACGTATGA, TCATACGTAAA, TTATGCGTGAA, TTCACGCATAA, TTTACGTTTGA, TCAAACGTAAA, TTAAGCGTGAA, TTCACGCTTAA, TTTACGTTTTA, TAAAACGTAAA, TGAAGCGTGAA, TTCACGGGTACA
AATTAATTAA, TTAATTAATT, TTGATTGATT, AATCAATCAA, TATTAATTAA, TTAATTAATA, TTGATTGATG, CATCAATCAA,AATTAATTAA, TTAATTAATT, TTGATTGATT, AATCAATCAA, TATTAATTAA, TTAATTAATA, TTGATTGATG, CATCAATCAA,
TAATTAT, ATAATTA, ATGATTG, CAATCAT,TAATTAT, ATAATTA, ATGATTG, CAATCAT,
TAGGTTA, TAACCTA, TGATTTA, TAAATCA,TAGGTTA, TAACCTA, TGATTTA, TAAATCA,
TTTTAAATATTTTT, AAAAATATTTAAAA, GGGGGTGTTTGGGG,TTTTAAATATTTTT, AAAAATATTTAAAA, GGGGGTGTTTGGGG,
CCCCAAACACCCCC,CCCCAAACACCCCC,
TTTTAAATTATTTT, AAAATAATTTAAAA, GGGGTGGTTTGGGG,TTTTAAATTATTTT, AAAATAATTTAAAA, GGGGTGGTTTGGGG,
CCCCAAACCACCCC,CCCCAAACCACCCC,
TTTTAAATTTTTTT, AAAAAAATTTAAAA, GGGGGGGTTTGGGG,TTTTAAATTTTTTT, AAAAAAATTTAAAA, GGGGGGGTTTGGGG,
CCCCAAACCCCCCC,CCCCAAACCCCCCC,
TTTTAAATAATTTT, AAAATTATTTAAAA, GGGGTTGTTTGGGG,TTTTAAATAATTTT, AAAATTATTTAAAA, GGGGTTGTTTGGGG,
CCCCAAACAACCCC,CCCCAAACAACCCC,
GAGGCGGGG, CCCCGCCTC, TTTCGTTTT, AAAACGAAA,
GAGGTAGGG, CCCTACCTC, TTTTGTTTT, AAAACAAAA, AAGGCGGGG, CCCCGCCTT, TTTCGTTTT, AAAACGAAA, AAGGTAGGG, CCCTACCTT, TTTTGTTTT, AAAACAAAA,GAGGCGGGG, CCCCGCCTC, TTTCGTTTT, AAAACGAAA, GAGGTAGGG, CCCTACCTC, TTTTGTTTT, AAAACAAAA, AAGGCGGGG, CCCCGCCTT, TTTCGTTTT, AAAACGAAA, AAGGTAGGG, CCCTACCTT, TTTTGTTTT, AAAACAAAA,
GGGGGCGGGGT, ACCCCGCCCCC, ATTTCGTTTTT, AAAAACGAAAT, GGGGGCGGGGT, ACCCCGCCCCC, GTTTCGTTTTT, AAAAACGAAAC, TATTATTTTAT, ATAAAATAATA, GTGGGGTGATA, TATCACCCCAC, GATTATTTTAT, ATAAAATAATC, GTGGGGTGATT, AATCACCCCAC,GGGGGCGGGGT, ACCCCGCCCCC, ATTTCGTTTTT, AAAAACGAAAT, GGGGGCGGGGT, ACCCCGCCCCC, GTTTCGTTTTT, AAAAACGAAAC, TATTATTTTAT, ATAAAATAATA, GTGGGGTGATAT, TATCAAGATAT, TATCAAGATAT, TATCAAGATAT
ATTACGTGAT, ATCACGTAAT, ATTACGTGAT, ATCACGTAAT, ATTACGTGAT, ATCACGTAAT, GTTACGTGAT, ATCACGTAAC,ATTACGTGAT, ATCACGTAAT, ATTACGTGAT, ATCACGTAAT, ATTACGTGAT, ATCACGTAAT, GTTACGTGAT, ATCACGTAAC,
TTTTATATGG, CCATATAAAA, TTATATAAGG, CCTTATATAA, TTATATATGG, CCATATATAA, TTATATATGG, CCATATATAA, AAATAAT, ATTATTT, GTTGTTT, AAACAAC, AAATTAA, TTAATTT, TTAGTTT, AAACTAA, AAATTAT, ATAATTT, GTAGTTT, AAACTAC, AAATAAA, TTTATTT, TTTGTTT, AAACAAA,TTTTATATGG, CCATATAAAA, TTATATAAGG, CCTTATATAA, TTATATATGG, CCATATATAA, TTATATATGG, CCATATATAA, AAATAAT, ATTATTT, GTTGTTT, AAACAAC, AAATTAA, TTAATTT, TTAGTTT, AAACTAATTATT, AAACTAATATT, AAAT
ATTTTTCGGAAATG, CATTTC CG AAAAAT, TATTTTCGGGAAAT,ATTTTTCGGAAATG, CATTTC CG AAAAAT, TATTTTCGGGAAAT,
ATTTCCCGAAAATA,ATTTCCCGAAAATA,
ATTTTTCGGAAATG, CATTTC CG AAAAAT, TATTTTCGGGAAAT,ATTTTTCGGAAATG, CATTTC CG AAAAAT, TATTTTCGGGAAAT,
ATTTCCCGAAAATA,ATTTCCCGAAAATA,
ATTTTCGGGAAATG, CATTTCCCGAAAAT, TATTTTTCGGAAAT,ATTTTCGGGAAATG, CATTTCCCGAAAAT, TATTTTTCGGAAAT,
ATTTCCGAAAAATA,ATTTCCGAAAAATA,
ATTTTCGGGAAGTG, CACTTCCCGAAAAT, TATTTTTCGGAAAT,ATTTTCGGGAAGTG, CACTTCCCGAAAAT, TATTTTTCGGAAAT,
ATTTCCGAAAAATA,ATTTCCGAAAAATA,
AATAGATGTT, AACATCTATT, AATATTTGTT, AACAAATATT, AATAGATGGT, ACCATCTATT, ATTATTTGTT, AACAAATAAT,AATAGATGTT, AACATCTATT, AATATTTGTT, AACAAATATT, AATAGATGGT, ACCATCTATT, ATTATTTGTT, AACAAATAAT,
GTATAAATA, TATTTATAC, TATTTATAT, ATATAAATA, GTATAAATG, CATTTATAC, TATTTATAT, ATATAAATA, GTATAAAAA, TTTTTATAC, TTTTTATAT, ATATAAAAA, GTATAAAAG, CTTTTATAC, TTTTTATAT, ATATAAAAA, TTATAAATA, TATTTATAA, TATTTATAG, CTATAAATA, TTATAAATG, CATTTATAA, TATTTATAG, CTATAAATA, TTATAAAAA, TTTTTATAA, TTTTTATAG, CTATAAAAA, TTATAAAAG, CTTTTATAA, TTTTTATAG, CTATAAAAA, GGGGGTTGACGTA, TACGTCAACCCCC, TGCGTTAATTTTT, AAAAATTAACGCA,GTATAAATA, TATTTATAC, TATTTATAT, ATATAAATA, GTATAAATG, CATTTATAC, TATTTATAT, ATATAAATA, GTATAAAAA, TTTTTATAT, TTTTTATAT, ATATAAAAA, GTATAAAAG, CTTTTATAT, TTTTTATAT, ATATAAAAA, TTATAAATATA TTTTTATAA, TTTTTATAG, CTATAAAAA, TTATAAAAG, CTTTTATAA, TTTTTATAG, CTATAAAAA, GGGGGTTGACGTA, TACGTCAACCCCC, TGCGTTAATTTTT, AAAAATTAACGCA,
GGGGGTTGACGTA, TACGTCAACCCCC, TACGTTAATTTTT, AAAAATTAACGTA,GGGGGTTGACGTA, TACGTCAACCCCC, TACGTTAATTTTT, AAAAATTAACGTA,
TGACGTATATTTTT, AAAAATATACGTCA, GGGGATATGCGTTA,TGACGTATATTTTT, AAAAATATACGTCA, GGGGATATGCGTTA,
TAACGCATATCCCC,TAACGCATATCCCC,
TGACGTATATTTTT, AAAAATATACGTCA, GGGGGTATGCGTTA,TGACGTATATTTTT, AAAAATATACGTCA, GGGGGTATGCGTTA,
TAACGCATACCCCC,
ATGATTTAGTA, TACTAAATCAT, TGTTGAGTTAT, ATAACTCAACA, GTTAT, ATAAC, ATGAT, ATCAT,TAACGCATACCCCC, ATGATTTAGTA, TACTAAATCAT, TGTTGAGTTAT, ATAACTCAACA, GTTAT, ATAAC, ATGAT, ATCAT,
TTACGTGA, TCACGTAA, TTACGTGG, CCACGTAA, TTACGTGG, CCACGTAA, TTACGTGG, CCACGTAA, TTACGTGG, CCACGTAA, TTACGTGA, TCACGTAA, TTACGTGA, TCACGTAA, TTACGTGA, TCACGTAA, GACGTT, AACGTC, AGCGTT, AACGCT,TTACGTGA, TCACGTAA, TTACGTGG, CCACGTAA, TTACGTGG, CCACGTAA, TTACGTGG, CCACGTAA, TTACGTGG, CCACGTAA, TTACGTGA, TCACGTAA, TTACGTGA, TCACGTAA, TTACTTA, GACGTACA, TCACGTACA
TGACGTGT, ACACGTCA, ATACGTTA, TAACGTAT, TGACGTGG, CCACGTCA, TTACGTTA, TAACGTAA, CGGTTATTTTG, CAAAATAACCG, TAAGATGGTCG oder CGACCATCTTATGACGTGT, ACACGTCA, ATACGTTA, TAACGTAT, TGACGTGG, CCACGTCA, TTACGTTA, TAACGTAA, CGGTTATTTTG, CAAAATAACCG, TAAGATGGTCG or CGACCATCTTA
enthält, welche zu einer solchen DNA komplementär ist oder dieser entspricht, wie sie entstehen würde, wenn ein ebenso langes DNA Fragment, welches über seine Sequenz oder Sekundärstruktur die spezifische Lokalisierung von Genom/Chromatinabschnitten innerhalb des Zellkerns herbeiführen kann, derart chemisch behandelt würde, daß an der 5'-Position unmethylierte Cytosinbasen in Uracil, Thymidin oder eine andere vom Hybridisierungsverhalten her dem Cytosin unähnliche Base verwandelt werden.contains which is complementary to or corresponds to such DNA as it would arise if an equally long DNA fragment, which via its sequence or secondary structure can bring about the specific localization of genome / chromatin sections within the cell nucleus, were treated chemically in such a way that at the 5'-position unmethylated cytosine bases are converted into uracil, thymidine or another base which is unlike the cytosine in terms of hybridization behavior.
In einer besonders bevorzugten Variante des Verfahrens enthalten die zur Amplifikation verwendeten Oligonukleotide außer den oben definierten Konsensussequenzen mehrere Positionen, an denen entweder irgendeine der drei Basen G, A und T oder irgendeine der Basen C, A und T vorhanden sein kann.In a particularly preferred variant of the method, the oligonucleotides used for the amplification contain, in addition to the consensus sequences defined above, several positions at which either one of the three bases G, A and T or any of the bases C, A and T can be present.
In einer besonders bevorzugten Variante des Verfahrens enthalten die zur Amplifikation verwendeten Oligonukleotide außer einer der oben beschriebenen Konsensussequenzen nur maximal zusätzlich so viele weitere Basen, wie es zur gleichzeitigen Amplifikation von mehr als einhundert verschiedenen Fragmenten pro Reaktion aus der chemisch wie oben behandelten DNA erforderlich ist.In a particularly preferred variant of the method, the oligonucleotides used for the amplification contain, apart from one of the consensus sequences described above, a maximum of as many additional bases as are required for the simultaneous amplification of more than one hundred different fragments per reaction from the DNA treated chemically as above.
In einem dritten Verfahrensschritt wird nun der Sequenzkontext aller oder eines Teils der in den amplifizierten Fragmenten enthaltenen CpG Dinukleotide oder CpNpG Trinukleotide untersucht.
In einer besonders bevorzugten Variante des Verfahrens erfolgt die Analyse durch Hybridisierung der bereits in der Amplifikation mit einem Fluoreszenzmarker versehenen Fragmente an einen Oligonukleotid- Array (DNA Chip). Der Fluoreszenzmarker kann entweder über die verwendeten Primer oder aber durch ein fluoreszenzmarkiertes Nukleotid (z. B. Cy5-dCTP, kommerziell von Amersham- Pharmacia erhältlich) eingeführt werden.In a third method step, the sequence context of all or part of the CpG dinucleotides or CpNpG trinucleotides contained in the amplified fragments is examined. In a particularly preferred variant of the method, the analysis is carried out by hybridizing the fragments already provided with a fluorescence marker in the amplification to an oligonucleotide array (DNA chip). The fluorescent marker can be introduced either via the primers used or through a fluorescence-labeled nucleotide (eg Cy5-dCTP, commercially available from Amersham-Pharmacia).
Dabei hybridisieren komplementäre Fragmente an die jeweiligen auf der Chipoberfläche immobilisierten Oligomere, nicht komplementäre Fragmente werden in einem oder mehreren Waschschritten entfernt. Die Fluoreszenz an den jeweiligen Hybridisierungsorten auf dem Chip erlaubt dann den Rückschluß auf den Sequenzkontext der in den amplifizierten Fragmenten enthaltenen CpG Dinukleotide oder CpNpG Trinukleotide.Complementary fragments hybridize to the respective oligomers immobilized on the chip surface, non-complementary fragments are removed in one or more washing steps. The fluorescence at the respective hybridization sites on the chip then allows conclusions to be drawn about the sequence context of the CpG dinucleotides or CpNpG trinucleotides contained in the amplified fragments.
In einer weiteren bevorzugten Variante des Verfahrens werden die amplifizierten Fragmente auf einer Oberfläche immobilisiert und anschließend eine Hybridisierung mit einer kombinatorischen Bibiliothek von unterscheidbaren Oligonukleotid- oder PNA- Oligomer-Sonden durchgeführt. Wiederum werden nicht komplementäre Sonden durch einen oder mehrere Waschschritte entfernt. Die hybridisierten Sonden werden entweder über ihre Fluoreszenzmarker detektiert oder in einer weiteren besonders bevorzugten Variante des Verfahrens mittels Matrix-assistierter Laser- Desorptions/Ionisations Massenspektrometrie (MALDI-MS) anhand ihrer eindeutigen Masse nachgewiesen. Dabei werden die Sondenbibliotheken derart synthetisiert, daß die Masse eines jeden Bestandteils eindeutig seiner Sequenz zugeordnet werden kann.In a further preferred variant of the method, the amplified fragments are immobilized on a surface and then hybridization is carried out with a combinatorial library of distinguishable oligonucleotide or PNA oligomer probes. Again, non-complementary probes are removed by one or more washing steps. The hybridized probes are either detected via their fluorescent markers or, in a further particularly preferred variant of the method, are detected using matrix-assisted laser desorption / ionization mass spectrometry (MALDI-MS) on the basis of their unique mass. The probe libraries are synthesized in such a way that the mass of each component can be clearly assigned to its sequence.
Die Amplifikate können zudem in einer weiteren bevorzugten Variante des Verfahrens hinsichtlich Ihrer durchschnittlichen Größe durch Veränderung der Kettenverlängerungszeiten im Amplifikationsschritt beeinflußt werden. Da hier vorwiegend kleinere Fragmente (ca. 200-500 Basenpaare) untersucht werden, ist eine Verkürzung der Kettenverlängerungsschritte z. B. einer PCR sinnvoll.In a further preferred variant of the method, the amplification products can also be influenced in terms of their average size by changing the chain extension times in the amplification step. Since mainly smaller fragments (approx. 200-500 base pairs) are examined here, a shortening of the chain extension steps is e.g. B. a PCR useful.
In einer weiteren bevorzugten Variante des Verfahrens werden die Amplifikate durch
Gelelektrophorese aufgetrennt, und die Fragmente im gewünschten Größenbereich werden vor Ihrer Analyse ausgeschnitten. In einer weiteren besonders bevorzugten Variante werden die aus dem Gel ausgeschnittenen Amplifikate unter Verwendung des gleichen Satzes an Primern erneut amplifiziert. Dabei können dann nur noch Fragmente der gewünschten Größe entstehen, da Andere als Templat nicht mehr verfügbar sind.In a further preferred variant of the method, the amplified products are Gel electrophoresis is separated and the fragments in the desired size range are cut out before your analysis. In a further particularly preferred variant, the amplificates cut out of the gel are amplified again using the same set of primers. Then only fragments of the desired size can be created, since others are no longer available as templates.
Ein weiterer Gegenstand der vorleigenden Erfindung ist ein Kit, enthaltend mindestens zwei Primerpaare, Reagenzien und Hilfsstoffe für die Amplifikation und/oder Reagenzien und Hilfsmittel für die chemische Behandlung und/oder eine kombinatorische Sondenbibliothek und/oder einen Oligonukleotid-Array (DNA-Chip), soweit sie für die Durchführung des erfindungsgemäßen Verfahrens erforderlich oder dienlich sind.Another object of the present invention is a kit containing at least two primer pairs, reagents and auxiliary substances for amplification and / or reagents and auxiliary substances for chemical treatment and / or a combinatorial probe library and / or an oligonucleotide array (DNA chip), insofar as they are necessary or useful for carrying out the method according to the invention.
Die folgenden Beispiele erläutern die Erfindung.The following examples illustrate the invention.
Beispiele:Examples:
Beispiel 1 :Example 1 :
Primer zur bevorzugten Amplifikation von CG reichen Regionen im HumangenomPrimers for preferential amplification of CG rich regions in the human genome
Bei den CG reichen Regionen im Humangenom handelt es sich um sogenannte CpG- islands, die eine regulatorischen Funktion besitzen. Wir definieren CpG Islands derart, dass sie mindestens 500 bp umfassen sowie einen GC-Gehalt von >50% aufweisen , ausserdem ist der Quotient CG/GC > 0,6. Unter diesen Bedingungen liegen 16 Mb als CpG Islands vor. Damit liegen etwa 0,5 % der Genomsequenz in diesen CpG islands, wenn man auch noch jeweils eine Region bis 1000 bp downstream zusätzlich betrachtet. Dieser Überlegung liegen Daten aus der Ensembl Database vom 31.10.00, Quelle Sanger Centre, zugrunde. Die dort verfügbare Sequenz umfasste ca. 3,5 GB, und für die Berechnungen wurden die Repeats maskiert.The CG-rich regions in the human genome are so-called CpG islands, which have a regulatory function. We define CpG Islands in such a way that they have at least 500 bp and a GC content of> 50%, and the ratio CG / GC is> 0.6. Under these conditions, 16 Mb are CpG Islands. This means that about 0.5% of the genome sequence lies in these CpG islands, if one also considers a region up to 1000 bp downstream. This consideration is based on data from the Ensembl Database from 10/31/00, source Sanger Center. The sequence available there was approx. 3.5 GB, and the repeats were masked for the calculations.
Statistisch wäre es bei 12meren zu erwarten, dass sie nur 0,005 mal so häufig an eine der CG-reichen Regionen hybridisieren wie an eine andere beliebige Region im
Genom. Es wurden nun Primer gefunden, welche 1 ,8 mal häufiger an eine CG reiche Region binden. Zudem ergibt sich mit den entsprechend gefundene Reverse Primer nahezu eine Spezifität für diese CpG islands.Statistically, it would be expected for 12meres that they hybridize only 0.005 times as often to one of the CG-rich regions as to any other region in the Genome. Primers have now been found which bind 1.8 times more often to a region rich in CG. In addition, the reverse primer found gives almost a specificity for these CpG islands.
In diesem Beispiel sind die Primer AGTAGTAGTAGT (Seq. ID 1) AAAACAAAAACC (Seq. ID 2) und alternativ AGTAGTAGTAGT (Seq. ID 19) und ACAAAAACTAAA (seq. ID 20). Das erste Primerpaar führt mindestens zu den Amplifikaten Seq. ID 3 bis 18, das zweite Primerpaar zu den Amplifikaten der Seq. ID 21 bis 31.In this example the primers are AGTAGTAGTAGT (Seq. ID 1) AAAACAAAAACC (Seq. ID 2) and alternatively AGTAGTAGTAGT (Seq. ID 19) and ACAAAAACTAAA (seq. ID 20). The first pair of primers leads at least to the amplificates Seq. ID 3 to 18, the second pair of primers for the amplicons of Seq. ID 21 to 31.
Beispiel 2:Example 2:
Berechnung der Vorhersage der Anzahl von Amplifikaten in Genomischen Regionen.Calculation of the prediction of the number of amplicons in genomic regions.
Gemäß Anspruch 8 im Patent wird gezeigt mehr als doppelt so viele Amplifikate erstellen zu können, als es statistisch zu erwarten wäre nach Formel 1.According to claim 8 in the patent, it is shown that more than twice as many amplificates can be produced than would be statistically expected according to Formula 1.
(P „ (Primers)) r , , , U (P „(Primers)) r ,,, U
F gibt dabei die Anzahl der Vorhergesagten Amplifikate an, die zu erwarten sind, wenn man N Basen als Datenbasis aus dem Genom betrachtet. P ist die jeweilige Wahrscheinlichkeit für die Hybridisierung eines Primeroligonukleotids, getrennt nach Hybridisierung im Sense- und Antisense-Strang. M ist die maximal zulässige Länge der zu erwartenden Amplifikate.F specifies the number of predicted amplicons that can be expected if one considers N bases as a database from the genome. P is the respective probability of hybridization of a primer oligonucleotide, separated after hybridization in the sense and antisense strand. M is the maximum permissible length of the amplicons to be expected.
Die Wahrscheinlichkeit P wird bestimmt durch eine Markov Kette erster Ordnung. Dabei wird die Annahme gemacht, dass die DNA eine Zufallsfolge in Abhängigkeit benachbarter Basen ist. Für die Berechnung einer Markovkette sind die Übergangswahrscheinlichkeiten von benachbarten Basen notwendig. Diese wurden empirisch aus 12% des assemblierten humanen Genoms, das vollständig mit Bisulfit behandelt wurde, ermittelt und in Tabelle 1 zusammengefasst. In Tabelle 2 sind die Übergangswahrscheinlichkeiten für den entsprechenden komplementär reversen
Strang angegeben. Diese ergeben sich durch einfaches Vertauschen der Einträge aus der Tabelle 1.The probability P is determined by a first order Markov chain. The assumption is made that the DNA is a random sequence depending on neighboring bases. The transition probabilities of neighboring bases are necessary for the calculation of a Markov chain. These were determined empirically from 12% of the assembled human genome, which was completely treated with bisulfite, and summarized in Table 1. Table 2 shows the transition probabilities for the corresponding complementary reverse Strand specified. These result from simply swapping the entries in Table 1.
Tabelle 1Table 1
mit P bDNA U)=0.2811
with P bDNA U) = 0.2811
J\α« (00.2199J \ α «(00.2199
/WΛ (00.4850 und für den dazu revers-komplementären Strang (durch entsprechendes Austauschen der Einträge) P^DNA ( von >' nach)/ W Λ (00.4850 and for the reverse complementary strand (by exchanging the entries accordingly) P ^ DNA ( from >' to)
Tabelle 2Table 2
R O0.4850 (00.2199 *™ (00.0140 O0.2811R O0.4850 (00.2199 * ™ (00.0140 O0.2811
Damit hängt die Wahrscheinlichkeit, dass sich für einen Primer PrimE (mit der
Basenfolge Bi B2 B3 B4 ...; z.B. ATTG...) eine perfekte Basenpaarung ergibt, von der genauen Abfolge der Basen ab und ergibt sich als das Produkt: rbDNA \ B \ ,' B2) PrbDNA ( B2 ; B3) P rbDNA B3 ; BThis depends on the probability that a PrimE (with the Base sequence Bi B 2 B 3 B 4 ...; eg ATTG ...) results in a perfect base pairing, based on the exact sequence of the bases and results in the product: r b DNA \ B \ , ' B 2 ) P rbDNA (B 2 ; B 3 ) P rbDNA B 3 ; B
P3s(PrimE)=PrbDNA (B A!P 3s (PrimE) = P rbDNA (BA!
"rbDNA B\ ) rbDNA \ 2) P rbDNA \ 31"rbDNA B \) rbDNA \ 2) P rbDNA \ 31
(Bisulfit-DNA-Strang)(Bisulfite DNA strand)
(anti-sense-Strang zu einem Bisulfit-DNA-Strang); für einen Primer Prim auf dem sense-Strang ergeben sich(anti-sense strand to a bisulfite DNA strand); for a primer prim on the sense strand result
N *PχPrim) perfekte Basenpaarungen - Werden mehrere Primer (PrimU, PrimV, PrimW, PrimX, etc.) gleichzeitig verwendet, ergibt sich als Wahrscheinlichkeit für eine perfekte Basenpaarung auf dem sense-Strang an einer gegebenen Position: Ps ( Primers )=PS{ Prim U )N * PχPrim) perfect base pairings - If several primers (PrimU, PrimV, PrimW, PrimX, etc.) are used at the same time, the probability for a perfect base pairing on the sense strand at a given position is: P s (primers) = P S {Prim U)
+ (l -Pi(PrimU))Pi (PrimV) + (l -P (PrimU))( l -P PrimV))P\PrimW) + ( l -PXPrimU)) ( l -PχPrimV))( l -P (PrimW))P (PrimX) + ... (PrimU, PrimV, PrimW... sind hier verschiedene Primer mit unterschiedlichen Basenpaarungen) und damit als Anzahl der zu erwartenden perfekten Basenpaarungen mit irgendeinem der Primer+ (l -P i (PrimU)) P i (PrimV) + (l -P (PrimU)) (l -P PrimV)) P \ PrimW) + (l -PXPrimU)) (l -PχPrimV)) (l -P (PrimW)) P (PrimX) + ... (PrimU, PrimV, PrimW ... are different primers with different base pairings) and thus as the number of perfect base pairings to be expected with any of the primers
N *P (Primers) . Für die Bestimmung von Pa(Primers) auf dem anti-sense-Strang werden die analogen Gleichungen verwendet.N * P (primers). The analog equations are used to determine P a (primers) on the anti-sense strand.
Für das Beispiel mit zwei Primern (einem sense-Primer und einem antisense-Primer) ergeben sich folgende Wahrscheinlichkeiten: P(AGTAGTAGTAGT) = 0.000000860027 P(AACAAAAACTAA) = 0.000030005828For the example with two primers (one sense primer and one antisense primer), the following probabilities result: P (AGTAGTAGTAGT) = 0.000000860027 P (AACAAAAACTAA) = 0.000030005828
Auf den CpG-lslands, die insgesamt ca. 30.000.000 Basen enthalten, erwartet man eine Häufigkeit von Hybridisierungen für:
AGTAGTAGTAGT: 25.80 auf dem sense StrangOn the CpG Islands, which contain a total of approximately 30,000,000 bases, a frequency of hybridizations is expected for: AGTAGTAGTAGT: 25.80 on the sense strand
AACAAAAACTAA: 900.17 auf dem komplementär reversen Strang.AACAAAAACTAA: 900.17 on the complementary reverse strand.
Auf den jeweils anderen Strängen können die Primer nicht hybridisieren, da auf dem sense-Strang durch die Bisulfitbehandlung keine Cs außerhalb des Kontextes CG auftreten und entsprechend komplementär auf dem antisense-Strang.The primers cannot hybridize on the other strands, since no bis occur in the sense strand due to the bisulfite treatment outside the context CG and accordingly complementarily on the antisense strand.
Ein Amplifikat entsteht genau dann, wenn bei einer perfekten Basenpaarung auf dem sense-Strang innerhalb der maximalen Fragmentlänge M ein Primer auf dem Gegenstrang eine perfekte Basenpaarung bildet, die Wahrscheinlichkeit dafür istAn amplificate is created if, when there is a perfect base pairing on the sense strand within the maximum fragment length M, a primer on the opposite strand forms a perfect base pairing, which is the probability
Pa (Primers) 2_, ( l — Pa (Primers))' ' für große M und kleine Pa(Primers) wird dieses durch folgenden Ausdruck berechnet:P a (primers) 2_, (l - P a (primers)) '' for large M and small P a (primers) this is calculated by the following expression:
Pa (Primers) . M ( l -Pa (Primers))M - l ] log ( 1 — P a ( Primers ) ) für die Gesamtzahl F der Amplifikate, die durch die Amplifikation beider Stränge zu erwarten sind, ergibt sich damitP a (primers) . M (l -P a (primers)) M - l] log (1-P a (primers)) for the total number F of the amplificates that are to be expected from the amplification of both strands is obtained
F=N *Ps(Primers) ^ ?*^ ( \ -Pa (Primers))M - l ] g (l -Pa (Prιmers)) Formel lF = N * P s (primers) ^? * ^ (\ -P a (primers)) M - l] g (l -P a (primers)) formula l
+N *P (Primers)- — ,, nmers>) (ι _ (Primers))M - ] a K ' \og (l -Ps(Primers)yκ Λ " J + N * P (primers) - - ,, nmers > ) (ι _ (primers)) M -] a K '\ og (l -P s (primers) y κ Λ " J
Für das oben angegebene Beispiel ergeben sich für die CpG-lslands mit 30 Mega Basen 3.0498 Amplifikate. Wir können jedoch zeigen (siehe Beispiel 1), dass man mit Primern, die für bestimmte Regionen spezifisch sind, mehr als statistisch vorhergesagte Amplifikate erzeugen kann.
For the example given above, there are 3.0498 amplificates for the CpG islands with 30 mega bases. However, we can show (see Example 1) that primers that are specific for certain regions can produce more than statistically predicted amplicons.