DE69920032T2 - Methoden, software und apparate zur identifizierung genomischer bereiche, die ein gen umfassen, das mit einem nachweisbaren merkmal assoziiert ist - Google Patents

Methoden, software und apparate zur identifizierung genomischer bereiche, die ein gen umfassen, das mit einem nachweisbaren merkmal assoziiert ist Download PDF

Info

Publication number
DE69920032T2
DE69920032T2 DE69920032T DE69920032T DE69920032T2 DE 69920032 T2 DE69920032 T2 DE 69920032T2 DE 69920032 T DE69920032 T DE 69920032T DE 69920032 T DE69920032 T DE 69920032T DE 69920032 T2 DE69920032 T2 DE 69920032T2
Authority
DE
Germany
Prior art keywords
markers
biallelic markers
biallelic
group
marker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69920032T
Other languages
English (en)
Other versions
DE69920032D1 (de
Inventor
Nicholas J. Schork
Laurent Essioux
Annick Cohen-Akenine
Marta Blumenfeld
Daniel Cohen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Merck Biodevelopment SAS
Original Assignee
Genset SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Genset SA filed Critical Genset SA
Application granted granted Critical
Publication of DE69920032D1 publication Critical patent/DE69920032D1/de
Publication of DE69920032T2 publication Critical patent/DE69920032T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Description

  • Hintergrund der Erfindung
  • Jüngste Fortschritte im "genetic engineering" und in der Bioinformatik haben die Manipulation und Charakterisierung eines großen Teils des menschlichen Gens ermöglicht. Während Bemühungen die gesamte Sequenz des menschlichen Genoms zu erhalten rapide voranschreiten, gibt es viele praktische Verwendungen für die genetische Information, welche mit partieller Kenntnis der Sequenz des menschlichen Genoms implementiert werden können.
  • Mit dem Aufbau der vollständigen Sequenz des menschlichen Genoms kann die partielle Sequenzinformation, die verfügbar ist, verwendet werden, um Gene zu identifizieren die verantwortlich sind für nachweisbare menschliche Charaktereigenschaften (Merkmale), beispielsweise Gene, die mit menschlichen Erkrankungen assoziiert sind, und um diagnostische Tests zu entwickeln, die in der Lage sind, Individuen zu identifizieren, welche ein nachweisbares Merkmal als das Ergebnis eines spezifischen Genotyps exprimieren oder Individuen, deren Genotyp sie dem Risiko aussetzt, eine nachweisbares Merkmal zu einer späteren Zeit zu entwickeln. Jede dieser Anwendungen für partielle genomische Sequenzinformation basiert auf dem Aufbau von genetischen und physikalischen Kartierungen, welche die bekannten genomischen Sequenzen entlang der menschlichen Chromosome ordnen.
  • Ein Verfahren zum Identifizieren eines Gens assoziiert mit einer nachweisbaren Charakteristik ist die Verknüpfungsanalyse beschrieben beispielsweise in WO 98/20165 und Kruglyak, Nature Genetics, 1997, 17, 22–24.
  • Die vorliegende Erfindung betrifft Verfahren und Apparate, die Nukleinsäure-Marker mit einer statistischen Assoziation mit einem nachweisbaren Merkmal verwenden, um eines oder mehrere Gene zu identifizieren, die für das Merkmal oder eine Prädisposition zum Exprimieren des Merkmals verantwortlich sind.
  • Zusammenfassung der Erfindung
  • Die vorliegende Erfindung betrifft Verfahren und Apparate zum Identifizieren eines oder mehrerer Gene assoziiert mit einem nachweisbaren Phänotyp. Wie im weiteren Detail unten beschrieben wird, involviert die vorliegende Erfindung die Verwendung von Biallel-Markern, welche polymorphe Nukleinsäuresequenzen darstellen, die sich voneinander in einem einzelnen Nukleotid unterscheiden. Die Allel-Häufigkeiten der Biallel-Marker werden in Nukleinsäureproben verglichen, die von Individuen abgeleitet sind, welche das nachweisbare Merkmal exprimieren und Individuen, welche das nachweisbare Merkmal nicht exprimieren. Auf diese Art und Weise werden Kandidaten genomischer Regionen, von denen man vermutet, dass sie ein Gen beherbergen, das mit einem nachweisbaren Merkmal assoziiert ist, das untersucht wird, identifiziert.
  • Die Existenz von einem oder mehreren Genen assoziiert mit dem nachweisbaren Merkmal innerhalb der Kandidatenregion wird durch Identifizieren mehrerer Biallel-Marker, die in der Kandidatenregion liegen, bestätigt. Eine erste Haplotyp-Analyse wird für jede mögliche Kombination von Gruppen an Biallel-Markern innerhalb der genomischen Region durchgeführt, von der man erwartet, dass sie ein mit einem Merkmal assoziiertes Gen beherbergen. Beispielsweise kann jede Gruppe drei Biallel-Marker umfassen. Für jede der Gruppen von Markern wird die Häufigkeit eines jeden möglichen Haplotyps (für Gruppen von drei Markern gibt es 8 mögliche Haplotypen) in Individuen, welche das Merkmal exprimieren und Individuen, welche das Merkmal nicht exprimieren, abgeschätzt. Beispielsweise kann die Haplotyp-Häufigkeit abgeschätzt werden unter Verwendung der Erwartungs-Maximierungs-Methode von Excoffier L und Slatkin M, Mol. Biol. Evol. 12 : 921–927 (1995), die im weiteren Detail unten beschrieben ist. In einigen Ausführungsformen kann die Erwartungs-Maximierungs-Methode durchgeführt werden unter Verwendung des EM-HAPLO-Programms (Hawley ME, Pakstis AJ & Kidd KK, Am. J. Phys. Anthropol. 18 : 104 (1994)). Alternativ kann die Häufigkeit eines jeden Allels von individuellen Biallel-Markern in Nukleinsäureproben von Individuen bestimmt werden, welche das Merkmal, das untersucht werden soll, exprimieren und von Kontrollindividuen, welche das Merkmal nicht exprimieren.
  • Die Häufigkeiten von jedem der möglichen Haplotypen von gruppierten Markern (oder jedem Allel von individuellen Markern) in Individuen, welche das Merkmal exprimieren und Individuen, welche das Merkmal nicht exprimieren, werden verglichen. Beispielsweise können die Häufigkeiten verglichen werden durch Durchführen einer Chi-Quadrat-Analyse. Innerhalb jeder Gruppe wird der Haplotyp (oder das Allel von jedem individuellen Marker) mit der größten Assoziation mit dem Merkmal ausgewählt. Dieser Prozess wird wiederholt für jede Gruppe von Biallel-Markern (oder jedem Allel der individuellen Marker), um eine Verteilung von Assoziations-Werten zu erzeugen, die hier als die "Kandidatenregion"-Verteilung bezeichnet wird.
  • Eine zweite Haplotyp-Analyse wird durchgeführt für jede mögliche Kombination von Gruppen von Biallel-Markern innerhalb zufälliger genomischer Regionen. Beispielsweise kann jede Gruppe drei Biallel-Marker umfassen. Für jede der Gruppen von Markern wird die Häufigkeit von jedem möglichen Haplotyp (für Gruppen von drei Markern gibt es 8 mögliche Haplotypen) in Individuen, welche das Merkmal exprimieren und Individuen, welche das Merkmal nicht exprimieren, abgeschätzt. Beispielsweise können Haplotyp-Häufigkeiten abgeschätzt werden unter der Erwartungs-Maximierungs-Methode von Excoffier L und Slatkin M wie oben beschrieben. In einigen Ausführungsformen kann die Erwartungs-Maximierungs-Methode durchgeführt werden unter Verwendung des EM-HAPLO-Programms wie oben beschrieben. Alternativ kann die Häufigkeit eines jeden Allels von individuellen Biallel-Markern in Nukleinsäureproben von Individuen, welche das Merkmal, das untersucht wird, exprimieren, und Kontrollindividuen, welche das Merkmal nicht exprimieren, bestimmt werden.
  • Die Häufigkeiten eines jeden möglichen Haplotyps von gruppierten Markern (oder jedem Allel von individuellen Markern) in Individuen, welche das Merkmal exprimieren und Individuen, welche das Merkmal nicht exprimieren, werden verglichen. Beispielsweise können die Häufigkeit verglichen werden durch Durchführung einer Chi-Quadrat-Analyse. Innerhalb jeder Gruppe wird der Haplotyp (oder das Allel eines jeden individuellen Markers) mit der größten Assoziation mit dem Merkmal ausgewählt. Dieser Prozess wird für jede Gruppe von Biallel-Markern wiederholt (oder jedes Allels der individuellen Marker), um eine Verteilung von Assoziations-Werten zu erzeugen, die hier als die "Zufallsregion"-Verteilung bezeichnet wird.
  • Die "Kandidatenregion"-Verteilung und die "Zufallsregion"-Verteilung werden dann miteinander verglichen, um zu bestimmen, ob es signifikante Unterschiede zwischen ihnen gibt. Beispielsweise können die Kandidatenregion-Verteilung und die Zufallsregion-Verteilung verglichen werden unter Verwendung entweder des Wilcoxon-Ranktests (Noether, G.E. (1991) Introduction to statistics: "The nonparametric way", Springer-Verlag, New York, Berlin) oder des Kolmogorov-Smirnov-Tests (Saporta, G. (1990) "Probalites, analyse des donnees et statistiques" Technip editions, Paris) oder sowohl des Wilcoxon-Ranktests als auch des Kolmogorov-Smirnov-Tests.
  • Falls die Kandidatenregion-Verteilung und die Zufallsregion-Verteilung sich als signifikant unterschiedlich herausstellen, kann mit hoher Wahrscheinlichkeit davon ausgegangen werden, dass die genomische Kandidaten-Region ein Gen enthält, das mit dem nachweisbaren Merkmal assoziiert ist. Dementsprechend wird die genomische Kandidaten-Region genauer untersucht, um das mit dem Merkmal assoziierte Gen zu isolieren. Alternativ ist es unwahrscheinlich, falls die Kandidatenregion-Verteilung und die Zufallsregion-Verteilung unter Verwendung der obigen Analysen gleich sind, dass die genomische Kandidaten-Region ein Gen enthält, das mit einem nachweisbaren Merkmal assoziiert ist. Dementsprechend wird keine weitere Analyse der Kandidaten-genomischen Region durchgeführt.
  • Die vorliegende Erfindung löst das Bedürfnis zur empirischen Bewertung des statistischen Signifikanz der Assoziation von Biallel-Markern mit nachweisbaren Mertkmalen. Die vorliegende Erfindung betrachtet das Merkmal, das zu untersuchen ist, wie auch die Population von Individuen verwendet, um die Signifikanz der Assoziation zu bestimmen. Im speziellen ermöglicht die vorliegende Erfindung, dass die Referenzpunkte (d.h. die Kontrollen) zum Auswerten der Signifikanz, von den gleichen Populationen wie diejenigen verwendet, um die Assoziation zwischen den Biallel-Markern und dem Merkmal zu bestimmen, abgeleitet werden können. Darüber hinaus ermöglicht die vorliegende Erfindung in einigen Ausführungsformen, dass alle Daten verfügbar für genomische Kandidaten-Regionen, von denen man annimmt, dass sie ein Gen beherbergen, das assoziiert mit einem nachweisbaren Merkmal ist, in der Bestimmung, ob die Kandidatenregion tatsächlich ein solches Gen beherbergt, verwendet werden können. Dementsprechend vermeidet die vorliegende Erfindung das Risiko, an der Detektion einer signifikanten Assoziation zwischen Markern und dem Merkmal als Konsequenz der Auswahl von nicht optimalen Markern oder Haplotypen für die Analyse zu scheitern.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist eine cytogenetische Kartierung von Chromosom 21.
  • 2a zeigt das Ergebnis einer Computersimulation der Verteilung von Inter-Marker-Zwischenräumen auf einem zufällig verteilten Satz an Biallel-Markern, was die Prozentzahl der Biallel-Marker angibt, die in einem gegebenen Abstand voneinander entfernt sind, getrennt für 1, 2 oder 3 Marker/BAC in einer genomischen Kartierung (wobei angenommen wird, dass ein Satz von 20 000 minimal überlappenden BACs, welche das Genom abdecken, ausgewertet werden).
  • 2b zeigt das Ergebnis einer Computersimulation der Verteilung von Inter-Markerzwischenräumen auf einem zufällig verteilten Satz an Biallel-Markern, was die Prozentzahl der Biallel-Marker angibt, die in einem gegebenen Abstand voneinander entfernt sind, getrennt für 1, 3 oder 6 Marker/BAC in einer genomischen Karte (wobei angenommen wird, dass ein Satz von 20 000 minimal überlappenden BACs, welche das Genom abdecken, ausgewertet werden).
  • 2c zeigt die Ergebnisse einer Verknüpfungs-Ungleichgewichts-Analyse in einer zufälligen französisch-kaukasischen Population.
  • 3 zeigt für eine Serie von hypothetischen Probengrößen die p-Wert-Signifikanz erhalten in Assoziations-Untersuchungen durchgeführt unter Verwendung individueller Marker von einer hoch-dichten Biallel-Kartierung gemäß verschiedener Hypothesen betreffend die Differenz von Allel-Häufigkeiten zwischen den T+ und T– Proben.
  • 4 ist eine hypothetische Assoziations-Analyse durchgeführt mit einer Kartierung umfassend ungefähr 3000 Biallel-Marker.
  • 5 ist eine hypothetische Assoziations-Analyse durchgeführt mit einer Karte umfassend ungefähr 20 000 Biallel-Marker.
  • 6 ist eine hypothetische Assoziations-Analyse durchgeführt mit einer Karte umfassend ungefähr 60 000 Biallel-Marker.
  • 7 ist eine Haplotyp-Analyse unter Verwendung von Biallel-Markern in der Apo E-Region.
  • 8 ist eine simulierte Haplotyp-Analyse unter Verwendung der Biallel-Marker in der Apo E-Region enthalten in der Haplotyp-Analyse von 7.
  • 9 zeigt ein minimales Array von überlappenden Klonen, das ausgewählt wurde für weitere Untersuchungen von Biallel-Markern assoziiert mit Prostata-Krebs, wobei von den Positionen der STS-Marker bekannt war, dass sie sich in der genomischen Kandidaten-Region entlang dem Contig kartierten, und die Stellen der Biallel-Marker entlang des BAC-Contig eine genomische Region beherbergten, die ein Kandidatengen assoziiert mit Prostata-Krebs beherbergte, wobei die Stellen identifiziert wurden unter Verwendung der Verfahren der vorliegenden Erfindung.
  • 10 ist eine grobe Lokalisierung eines Kandidatengens für Prostata-Krebs, die erhalten wurde durch Bestimmung der Häufigkeiten der Biallel-Marker von 9 in betroffenen und nicht betroffenen Populationen.
  • 11 ist eine weitere Verfeinerung der Lokalisation des Kandidatengens für Prostata-Krebs unter Verwendung weiterer Biallel-Marker, welche nicht in der groben Lokalisation wie in 10 illustriert enthalten waren.
  • 12 ist eine Haplotyp-Analyse unter Verwendung der Biallel-Marker in der genomischen Region des Gens assoziiert mit Prostata-Krebs.
  • 13 ist eine Haplotyp-Simulation unter Verwendung der sechs Marker enthalten in Haplotyp 5 von 12.
  • 14 zeigt die Ergebnisse einer Verknüpfungs-Ungleichgewichts-Analyse, die angeben, dass seltene Biallel-Marker in einem Verknüpfungs-Ungleichgewicht mit häufigeren Markern oder mit anderen seltenen Markern sein können.
  • 15 zeigt die Ergebnisse einer Verknüpfungs-Ungleichgewichts-Analyse, die anzeigt, dass nicht-Exon-Marker in einem Verknüpfungs-Ungleichgewicht mit Exon-Markern oder anderen nicht-Exon-Markern sein können.
  • 16A zeigt die abgeschätzte Verteilungsfunktion in zufälligen BACs und einem Kandidaten-BAC, der ein erstes Gen beherbergt, dass mit Prostata-Krebs assoziiert ist.
  • 16B vergleiche die Zufallsregion-Verteilung und die Kandidatenregion-Verteilung von 16A.
  • 17A zeigt die abgeschätzte Verteilungsfunktion in zufälligen BACs und einem Kandidaten-BAC beherbergend ein zweites Gen assoziiert mit Prostata-Krebs.
  • 17B vergleicht Zufallsregion-Verteilung und die Kandidatenregion-Verteilung von 17A.
  • 18 ist ein Flussdiagramm, welches den Prozess zum Identifizieren einer genomischen Region illustriert, das ein Gen assoziiert mit einem nachweisbaren Merkmal beherbergt.
  • 19 illustriert einen Prozess zum Identifizieren von zufälligen genomischen Klonen.
  • 20 illustriert einen Prozess zum Bestimmen der Testwerte von Haplotyp-Häufigkeits-Unterschieden zwischen Kontroll-und Merkmal-assoziierten Populationen innerhalb zufälliger Klone.
  • 21 illustriert einen Prozess zum Bestimmen der Testwerte von Haplotyp-Häufigkeits-Unterschieden zwischen Kontroll-und Merkmal-assoziierten Populationen innerhalb eines Kandidaten-Klons.
  • 22 illustriert den Prozess zum Identifizieren von Markern in zufälligen Klonen, welche in H-W-Gleichgewicht in den Fall-und Kontroll-Populationen stehen.
  • 23 illustriert den Prozess zum Identifizieren von Markern in Kandidaten-Klonen, welche sich in H-W-Gleichgewicht in den Fall-und Kontroll-Populationen befinden.
  • 24 illustriert den Prozess zum Vergleichen von zwei Verteilungen von Testwerten.
  • 25 ist ein Flussdiagramm, welches den Prozess zum Identifizieren einer genomischen Region illustriert, die ein Gen assoziiert mit einem nachweisbaren Merkmal beherbergt.
  • Detaillierte Beschreibung der bevorzugten Ausführungsform
  • Das menschliche Haploid-Genom enthält schätzungsweise 80 000 bis 100 000 oder mehr Gene gestreut auf einer 3 × 109 Basen langen doppelsträngigen DANN, verteilt auf die 24 Chromosome. Jedes menschliche Wesen ist diploid, d.h. besitzt zweit haploide Genome, eins von väterlichem Ursprung und das andere von mütterlichem Ursprung. Die Sequenz des menschlichen Genoms variiert unter den Individuen in einer Population. Ungefähr 107 Stellen verstreut entlang den 3 × 109 Basenpaaren der DNA sind polymorph, existierend in zumindest zwei Varianten-Formen, die Allele genannt werden. Die meisten dieser polymorphen Stellen werden erzeugt durch einzelne Basen-Substitutions-Mutationen und sind biallel. Weniger als 105 polymorphe Stellen liegen aufgrund von komplexeren Veränderungen vor und sind sehr oft multi-allel, d.h. existieren in mehr als zwei allelen Formen. An einer gegebenen polymorphen Stelle kann jedes Individuum (diploid) entweder homozygot (zweimal das gleiche Allel) oder heterozygot (zwei verschiedene Allele) sein. Ein gegebener Polymorphismus oder eine seltene Mutation kann entweder neutral (keinen Effekt auf ein Merkmal) oder funktional sein, d.h. verantwortlich für ein spezielles genetisches Merkmal.
  • Genetische Kartierungen
  • Der erste Schritt in Richtung der Identifikation von Genen assoziiert mit nachweisbaren Merkmalen (Charakterzügen), wie z.B. einer Krankheit oder einem anderen Merkmal, besteht in der Lokalisierung von genomischen Regionen enthaltend Merkmalverursachende Gene unter Verwendung von genetischen Kartierungsverfahren. Die bevorzugten Merkmale betrachtet innerhalb der vorliegenden Erfindung betreffen das Gebiet von therapeutischem Interesse; in speziellen Ausführungsformen werden dies Krankheits-Merkmale und/oder Wirkstoff-Antwort-Merkmale, die die Wirkstoff-Effizienz oder Toxizität reflektieren, sein. Merkmale können entweder "binär" sein, beispielsweise Diabetiker versus Nicht-Diabetiker oder "quantitativ", d.h. erhöhter Blutdruck. Individuen, die von einem quantitativen Merkmal betroffen sind, können gemäß einer geeigneten Skala von Merkmal-Werten klassifiziert werden, beispielsweise Blutdruckbereiche. Jeder Merkmal-Wert-Bereich kann dann als ein binäres Merkmal analysiert werden. Patienten, die einen Merkmal-Wert innerhalb eines solchen Bereiches zeigen, werden im Vergleich mit Patienten, welche einen Merkmal-Wert außerhalb dieses Bereiches zeigen, untersucht. In solch einem Fall werden genetische Analyse-Methoden auf Subpopulationen von Individuen angewandt, welche Merkmal-Werte innerhalb definierter Bereiche zeigen.
  • Genetische Kartierung involviert die Analyse der Segregation von polymorphen Loci in Merkmal-positiven und Merkmal-negativen Populationen. Polymorphe Loci konstituieren eine kleine Fraktion des menschlichen Genoms (weniger als 1 %) verglichen mit der überwiegenden Mehrheit der genomischen DNA, die identisch in ihrer Sequenz über die Chromosomen von verschiedenen Individuen ist. Unter allen existierenden menschlichen polymorphen Loci können genetische Marker als Genom-abgeleitete Polynukleotide definiert werden, welche hinreichend polymorph sind, um eine vernünftige Wahr scheinlich zu ermöglichen, dass eine zufällig ausgewählte Person heterozygot und folglich informativ für die genetische Analyse durch Verfahren, wie z.B. die Verknüpfungsanalyse oder Assoziations-Untersuchungen, sein wird.
  • Eine genetische Kartierung besteht aus einer Kollektion von polymorphen Markern, welche auf den menschlichen Chromosomen positioniert worden ist. Genetische Kartierungen können mit physikalischen Kartierungen kombiniert werden, bzw. mit Kollektionen von geordneten überlappenden Fragmenten der genomischen DNA, deren Anordnung entlang menschlicher Chromosome bekannt ist. Die optimale genetische Kartierung sollte die folgenden Charakteristika besitzen
    • – die Dichte der genetischen Marker gestreut entlang dem Genom sollte hinreichend sein, so dass die Identifikation und Lokalisation von irgendwelchen Merkmalverwandten Polymorphismen ermöglicht wird,
    • – jeder Marker sollte einen adäquaten Grad der Heterozygozität aufweisen, so dass er informativ in einem großen Prozentsatz verschiedener Meiosen ist,
    • – alle Marker sollten leicht auf einer Routinebasis typisiert werden, d.h. zu einem vernünftigen Preis und in einem vernünftigen Zeitraum,
    • – der gesamte Satz von Markern pro Chromosom sollte in einer höchst verlässlichen Art und Weise geordnet sein.
  • Während die oben genannten Kartierungen jedoch optimal sind, wird es sich verstehen, dass individuelle Marker-und Haplotypen-Assoziations-Analysen, wie diejenigen, die unten beschrieben werden, ohne die Notwendigkeit der Bestimmung der Reihenfolge von Biallel-Markern abgeleitet von einem einzelnen BAC untereinander durchgeführt werden können.
  • Die genetischen Kartierungen basierend auf RFLPs oder VNTRs
  • Die Analyse der DNA-Polymorphismen verlässt sich auf die folgenden Typen von Polymorphismen. Die erste Generation genetischer Marker waren Restriktions-Fragment- Längen-Polymorphismen (restriction fragment length polymorphisms, RFLPs), einzelne Nukleotid-Polymorphismen, welche an Restriktionsschnittstellen auftreten, dabei das Schnittmuster der korrespondierenden Restriktionsenzyme modifizieren. Obwohl die originalen Verfahren, die verwendet wurden, um RFLPs zu typisieren, material-, aufwands- und zeitverbrauchend waren, können diese Marker heutzutage leicht typisiert werden durch PCR-basierte Technologien. Da sie Biallel-Marker sind (sie präsentieren nur zwei Allele, die Restriktionsschnittstelle liegt dabei entweder vor oder nicht) beträgt ihre maximale Heterozygozität 0,5. Die theoretische Anzahl von RFLPs verteilt entlang des gesamten menschlichen Genoms ist mehr als 105, was zu einer potenziellen Durchschnitts-Inter-Marker-Distanz von 30 Kilobasen führt. Jedoch ist in der Realität die Anzahl der gleichmäßig verteilten RFLPs, die in einer hinreichenden Häufigkeit in der Population auftreten, um sie bedeutsam zum Tracken von genetischen Polymorphismen zu machen, sehr limitiert.
  • Die zweite Generation von genetischen Markern war VNTRs (Variable Number of Tandem Repeats), die entweder als Minisatelliten oder Mikrosatelliten kategorisiert werden können. Minisatelliten sind tandemartig wiederholte DNA-Sequenzen, die in Einheiten von 5-50 Wiederholungen vorliegen, welche entlang von Regionen der menschlichen Chromosomen verteilt sind und von 0,1 bis 20 Kilobasen lang sind. Da sie viele möglichen Allele präsentieren, ist ihr polymorpher Informationsgehalt sehr hoch. Minisatelliten weist man nach durch Durchführen von Southern Blots, um die Anzahl von Tandem-Wiederholungen zu identifizieren, die in einer Nukleinsäureprobe von dem zu untersuchenden Individuum vorliegen. Es gibt jedoch nur 104 potenzielle VNTRs, die durch Southern Blotting analysiert werden können.
  • Mikrosatelliten (auch einfache Tandem-Wiederholungspolymorphismen genannt oder einfache Sequenz-Längen-Polymorphismen) konstituieren die am meisten entwickelnde Kategorie von genetischen Markern. Sie schließen kleine Arrays von Tandem-Wiederholungen von einfachen Sequenzen (di-tri-tetra-Nukleotid-Wiederholungen) ein, welche einen hohen Grad von Längen-Polymorphismen zeigen und folglich einen hohen Grad an Informationsgehalt. Etwas mehr als 5000 Mikrosatelliten, leicht typisierbar durch PCR-abgeleitete Technologien, haben sich entlang des menschlichen Genoms angeordnet (Dib et al., Nature 380 : 152 (1996)).
  • Eine Vielzahl von diesen verfügbaren Mikrosatelliten wurden verwendet, um integrierte physikalische und genetische Kartierungen enthaltend weniger als 5000 Marker zu konstruieren. Beispielsweise CEPH (Chumakov et al., Nature 377 : 175–298 (1995) und Cohen et al., Nature 366 : 698–701 (1993)), und das Whitehead-Institut und Généthon (Hudson et al., 1995) haben genetische und physikalische Kartierungen konstruiert, welche 75 bis 95 % des menschlichen Genoms abdecken basierend auf 2500 bis 5000 Mikrosatellit-Markern.
  • Die Anzahl der leicht typisierbaren informativen Marker jedoch in diesen Kartierungen war zu klein für die durchschnittliche Distanz zwischen informativen Markern, um die oben aufgeführten Anforderungen für genetische Kartierungen zu erfüllen.
  • Biallel-Marker
  • Biallel-Marker sind Genom-abgeleitete Polynukleotide, welche biallele Polymorphismen zeigen. Wie hier verwendet bedeutet der Begriff "Biallel-Marker" einen Biallel-einzelnen Nukleotid-Polyphorphismus. Wie hier verwendet kann der Begriff "Polymorphismus" eine Einzel-Basen-Substitution, Insertion oder Deletion einschließen. Per Definition ist die geringste Allel-Häufigkeit eines Biallel-Polymorphismus 1 % (Sequenzvarianten, welche Allel-Häufigkeiten von unter 1 % zeigen nennt man seltene Mutationen). Es gibt potenziell mehr als 107 Biallel-Marker, welche leicht durch automatisierte Routinetechniken, wie z.B. Sequenz-oder Hybridisierungs-basierte Techniken, typisiert werden können, von denen 106 hinreichend informativ für Kartierungszwecke sind. Jedoch wird ein Biallel-Marker einen hinreichenden Grad der Informativität zur Anwendung in der genetischen Kartierung nur zeigen, falls die Häufigkeit seines am wenigsten häufigen Allels nicht weniger als etwa 10 % ist (d.h. eine Heterozygotizitäts-Rate von zumindest 0,18) (die Heterozygotizitäts-Rate für einen Biallel-Marker ist 2 mal Pa mal (1 – Pa), wobei Pa die Häufigkeit des Allels a ist). Vorzugsweise ist die Häufigkeit des am wenigstens häufigsten Allels der Biallel-Marker in den vorliegenden Kartierungen zumindest 20 % (d.h. eine Heterozygotizitäts-Rate von zumindest 0,32). Mehr bevorzugt ist die Häufigkeit des am wenigsten häufigsten Allels der Biallel-Marker in den vorliegenden Kartierungen zumindest 30 % (d.h. ihre Heterozygotizitäts-Rate ist größer als ungefähr 0,42).
  • Anfängliche Versuche, genetische Kartierungen zu konstruieren basierend auf nicht-RFLP Biallel-Markern waren fokussiert auf die Identifikation von Biallel-Markern, die innerhalb von Sequenz getaggten Stellen (sequence tagged sites, STS) lagen, Stücken von genomischer DNA mit einer bekannten Sequenz, die im Durchschnitt etwa 250 Basen lang sind. Mehr als 30 000 STS wurden identifiziert und entlang dem Genom angeordnet (Hudson et al., Science 270 : 1945–1954 (1995); Schuler et al., Science 274 : 540–546 (1996)). Beispielsweise enthält die integrierte Kartierung des Whitehead-Instituts und von Généthon 15 086 STSs.
  • Diese Sequenz getaggten Stellen können gescreent werden, um Polymorphismen zu identifizieren, vorzugsweise Single Nucleotide Polymorphisms (SNPs), wobei mehr bevorzugt nicht-RFLP Biallel-Marker darin sind. Im Allgemeinen werden Polymorphismen durch Bestimmung der Sequenz der STSs in 5 bis 10 Individuen identifiziert.
  • Wang et al. (Cold Spring harbor laboratory : Abstracts of papers presented on genome Mapping and sequencing S. 17 (14. bis 18. Mai 1997) haben jüngst die Identifikation und Kartierung von 750 Single Nucleotide Polymorphisms übermittelt aus einer Sequenzierung von 12000 STSs aus der Whitehead/MIT-Kartierung in acht unverwandten Individuen veröffentlicht. Diese Kartierung wurde zusammengesetzt unter Verwendung eines High throughput-Systems basierend auf der Verwendung der DNA-Chiptechnologie verfügbar von Affymetrix (Chee et al., Science 274 : 610–614 (1996)).
  • Gemäß den experimentellen Daten und statistischen Berechnungen werden jedoch weniger als einer von 10 von allen STSs, die heute kartiert sind, einen informativen Single Nucleotide Polymorphism enthalten. Dies liegt in erster Linie an der kurzen Länge der existierenden STSs (üblicherweise weniger als 250 bp). Wenn man 106 informative SNPs verteilt entlang dem menschlichen Genom annimmt, wäre nur ein Durchschnitt von einem interessanten Marker pro 3 X 109/106, d.h. pro jeweils 3000 bp vorhanden. Die Wahrscheinlichkeit, dass ein solcher Marker auf einem 250 bp-Stück vorliegt ist folglich weniger als 1/10.
  • Während er eine hochdichte Kartierung produzieren könnte, stellt der STS-Ansatz basierend auf den derzeit existierenden Marker keinerlei systematische Bemühungen an, sicherzustellen, dass die erhaltenen Marker optimal über das gesamte Genom verteilt sind. Statt dessen sind die Polymorphismen limitiert auf diejenigen Lokalisierungen, für welche STSs verfügbar sind.
  • Die gleichmäßige Verteilung von Markern entlang der Chromosomen ist kritisch für den weiteren Erfolg der genetischen Analysen. Insbesondere eine hochdichte Kartierung mit geeignet verteilten Markern ist essentiell für das Durchführen von Assoziations-Untersuchungen in sporadischen Fällen mit dem Ziel, Gene zu identifizieren, die für nachweise Merkmale verantwortlich sind, wie z.B. für diejenigen, welche unten beschrieben werden.
  • Wie des Weiteren unten erläutert werden wird, haben sich genetische Studien hauptsächlich in der Vergangenheit auf einen statistischen Ansatz verlassen, genannt Verknüpfungsanalyse, welcher den Vorteil der Mikrosatelliten-Marker nutzte, um ihr inhärentes Muster in Familien zu untersuchen, von welchen eine hinreichende Anzahl an Individuen das untersuchte Merkmal präsentierte. Aufgrund der intrinsischen Limitierungen der Verknüpfungsanalyse, was des Weiteren im Detail unten beschrieben werden wird, und aufgrund, dass diese Studien die Rekrutierung adäquater Familienstammbäume erfordern, sind sie nicht gut geeignet für die genetische Analyse aller Merkmale, insbesondere für diejenigen, für welche nur sporadische Fälle verfügbar sind (z.B. Wirkstoff-Antwort-Charakterzüge) oder für diejenigen, die eine geringe Durchdringung innerhalb der untersuchten Population aufweisen.
  • Assoziations-Studien bieten eine Alternative zur Verknüpfungs-Analyse. Kombiniert mit der Verwendung einer hochdichten Kartierung an geeignet verteilten, hinreichend informativen Markern werden Assoziations-Studien einschließend Verknüpfungs-Ungleichgewicht-basierte Genom-weite Assoziations-Studien die Identifikation der meisten Gene involviert in komplexe Merkmale ermöglichen.
  • Die vorliegende Erfindung betrifft ein Verfahren zum Erzeugen einer hochdichten Verknüpfungs-Ungleichgewichts-basierten genetischen Kartierung des menschlichen Genoms, welche die Identifikation von hinreichend informativen Markern erlauben wird verteilt in Intervallen, welche ihre Anwendung beim Identifizieren von Genen erlauben, welche verantwortlich sind für nachweisbare Merkmale unter Verwendung Genomweiter Assoziations-Untersuchungen und Verknüpfungs-Ungleichgewichts-Kartierung.
  • Konstruktion einer physikalischen Kartierung
  • Der erste Schritt beim Konstruieren einer hochdichten genetischen Kartierung von Biallel-Markern ist die Konstruktion einer physikalischen Kartierung. Physikalische Kartierungen bestehen aus sortierten überlappenden klonierten Fragmenten von genomischer DNA, welche einen Teil des Genoms abdecken, vorzugsweise ein oder alle Chromosomen. Das Erhalten einer physikalischen Kartierung des Genoms verlangt die Konstruktion und Sortierung einer genomischen DNA-Bibliothek.
  • Physikalische Kartierung in komplexen Genomen wie z.B. dem menschlichen Genom (3000 Megabasen), verlangt die Konstruktion von DNA-Bibliotheken, welche große Inserts enthalten (in der Größenordnung von 0,1 bis 1 Megabasen). Es ist entscheidend, dass solche Bibliotheken leicht zu konstruieren, zu screenen und manipulieren sind, und dass die DNA-Inserts stabil und relativ frei von Chimerismen sind. Artifizielle Hefechromosomen (yeast artificial chromosomes, YACs; Burke et al., Science 236 806–812 (1987)) haben ein unschätzbares Werkzeug in der Analyse von komplexen Genomen bereitgestellt, da ihre Klonierungskapazität extrem groß ist (im Bereich von Mb). YAC-Bibliotheken enthaltend große DNA-Inserts (bis zu 2 Mb) wurden verwendet, um STS enthaltende Kartierungen von individuellen Chromosomen oder des gesamten menschlichen Genoms zu erzeugen (Chumakov et al. (1995), supra; Hudson et al. (1995), supra; Cohen et al., Nature 366 : 698–701 (1993; Chumakov et al., Nature 359 : 380–387 (1992); Gemmill et al., Nature 377 : 299–319 (1995); Doggett et al., Nature 377 : 335–365 (1995)).
  • Die vorliegenden genetischen Kartierungen können konstruiert werden unter Verwendung von derzeit verfügbaren YAC-genomischen Bibliotheken, wie z.B. der CEPH menschlichen YAC-Bibliothek als Ausgangsmaterial. (Chumakov et al. (1995), supra). Alternativ kann man eine YAC-Bibliothek wie in Chumakov et al., 1995 beschrieben oder wie unten beschrieben konstruieren.
  • Sobald eine YAC-genomische Bibliothek erhalten worden ist, werden die DNA-Fragmente darin sortiert. Das Sortieren kann direkt auf der genomischen DNA in der YAC-Bibliothek durchgeführt werden. Das direkte Sortieren von YAC-Inserts ist jedoch nicht bevorzugt, da YAC-Bibliotheken oft ein hohe Rate an Chimerismen (40 bis 50 % der YAC-Klone enthalten Fragmente von mehr als einer genomischen Region) zeigen, häufig unter klonaler Instabilität innerhalb ihrer genomischen DNA-Inserts leiden und langwierige Prozeduren benötigen, die DNA-Inserts zu manipulieren und isolieren. Statt dessen ist es bevorzugt die Kartierung und Sequenzierungsprozeduren benötigt zum Sortieren der genomischen DNA in einem System durchzuführen, welches die stabile Klonierung von großen Inserts ermöglicht, die leicht zu manipulieren sind unter Verwendung von biologischen Standard-Molekular-Biologischen Techniken.
  • Dementsprechend ist es bevorzugt, die genomische DNA in bakterielle Einzelkopie-Plasmide zu klonieren, beispielsweise BACs (Bacterial Artificial Chromosomes) anstelle der YACs. Bakterielle artifizielle Chromosome sind gut geeignet für die Anwendung im Sortieren von genomischen DNA-Fragmenten. BACs liefern eine geringe Rate an Chimerismen und Fragmentanordnung zusammen mit relativ einfacher Insert-Isolierung. Folglich sind BAC-Bibliotheken gut geeignet um genetische, STS und cytogenetische Information zu integrieren, wobei zugleich direkter Zugang zu stabiler, fertig sequenzierbarer genomischer DNA bereitgestellt wird. Ein Beispiel von bakteriellen artifiziellen Chromosomen ist das BAC-Klonierungssystem von Shizuya et al., das in der Lage ist, stabil große geomische DNA-Fragmente zu propagieren und konservieren (bis zu 300 kb lang) und zwar als Einzelkopie-Plasmide in E.coli (Shizuya et al., Proc. Natl. Acad. Sci. USA 89 : 8794–8797 (1992)).
  • Beispiel 1 unten beschreibt die Konstruktion von BAC-Bibliotheken enthaltend menschliche genomische DNA. Es wird verstanden werden, dass die Quelle der genomischen DNA, die Enzyme verwendet, um die DNA zu verdauen, die Vektoren, in welchen die genomische DNA insertiert wird, und die Größe der DNA-Inserts, die in besagte Vektoren kloniert wird, nicht identisch zu denjenigen beschrieben in Beispiel 1 unten sein muss. Vielmehr kann die genomische DNA von irgendeiner geeigneten Quelle erhalten werden, kann mit irgendeinem geeigneten Enzym verdaut werden und kann in irgendeinen geeigneten Vektor kloniert werden. Die Insert-Größe kann innerhalb irgendwelcher Bereiche variieren, die kompatibel mit dem gewählten Klonierungssystem sind und mit dem beabsichtigten Zweck hinsichtlich der zu konstruierenden Bibliothek. Typischerweise können unter Verwendung von BAC-Vektoren, um DNA-Bibliotheken zu konstruieren, die das gesamte menschliche Genom abdecken, Insert-Größen zwischen 50 kb und 300 kb variieren, vorzugsweise zwischen 100 kb und 200 kb.
  • Um eine physikalische Kartierung des Genoms aus genomischen Bibliotheken zu konstruieren, wurden die Bibliothekenklone entlang der menschlichen Chromosome geordnet. In einer bevorzugten Ausführungsform wird dann ein minimaler Teilsatz der geordneten Klone ausgewählt, welcher das gesamte Genom komplett abdeckt.
  • Beispielsweise kann die geomische DNA in den Inserts der BAC-Vektoren unter Verwendung von STS-Markern sortiert werden, deren Positionen relativ zueinander und Stellen entlang dem Genom bekannt sind, und zwar unter Verwendung von Prozeduren wie denjenigen, die hier beschrieben sind. Die STS-Marker, die verwendet werden, um die BAC-Inserts zu sortieren, können die STS-Marker sein, die in den integrierten Kartierungen wie oben beschrieben enthalten sind. Alternativ können die STSs STSs sein, die nicht in irgendwelchen der physikalischen Kartierungen wie oben beschrieben enthalten sind. In einer weiteren Ausführungsform können die STSs eine Kombination von STSs darstellen enthalten in den physikalischen Kartierungen wie oben beschrieben und STSs, die nicht enthalten sind in den integrierten Kartierungen wie oben beschrieben.
  • Die BAC-Vektoren werden mit STSs gescreent, bis zumindest ein positiver BAC-Klon pro STS auftritt. Vorzugsweise wird ein minimal überlappender Satz von 10 000 bis 30 000 BACs mit genomischen Inserts, welche das gesamte menschliche Genom aufspannen, identifiziert. Noch mehr bevorzugt wird ein minimal überlappender Satz von 10 000 bis 30 000 BACs mit genomischen Inserts von etwa 100-300 kb an Länge aufspannend das gesamte menschliche Genom identifiziert. In einer bevorzugten Ausführungsform wird ein minimal überlappender Satz von 10 000 bis 30 000 BACs mit genomischen Inserts von etwa 100–150 kb an Länge aufspannend das gesamte menschliche Genom identifiziert. In einer höchst bevorzugten Ausführungsform wird ein minimal überlappender Satz von 15 000 bis 25 000 BACs mit genomischen Inserts von etwa 100–200 kb an Länge aufspannend das gesamte menschliche Genom identifiziert. Alternativ kann eine kleinere Anzahl von BACs aufspannend einen Satz von Chromoso men, ein einzelnes Chromosom, eine spezielle subchromosomale Region oder eine irgendeine andere gewünschte Portion des Genoms sortiert werden. Die BACs können gescreent werden auf die Anwesenheit von STSs, wie in Beispiel 2 unten beschrieben.
  • Alternativ kann eine YAC (Yeast Artificial Chromosome) – Bibliothek verwendet werden. Die sehr große Insert-Größe der Größenordnung von 1 Megabase ist der hauptsächliche Vorteil von YAC-Bibliotheken. Die Bibliothek kann typischerweise etwa 33 000 YAC-Klone, wie in Chumakov et al. (1995, supra) beschrieben, enthalten. Das YAC-Screening-Protokoll kann das gleiche sein wie das eine, das für das BAC-Screenen verwendet wird.
  • Die bekannte Reihenfolge der STSs wird dann verwendet, um die BAC-Inserts in einem sortieren Array (contig) aufspannend das gesamte menschliche Genom abzugleichen. Falls nötig können neue STSs, die zu testen sind, erzeugt werden durch Sequenzierung der Enden von ausgewählten BAC-Inserts. Subchromosomale Lokalisierung der BACs kann etabliert und/oder verifiziert werden durch Fluoreszenz in situ-Hybridisierung (FISH), durchgeführt auf metaphasischen Chromosomen wie von Cherif et al., 1990 beschrieben sowie in Beispiel 8 unten. Die BAC-Insert-Größe kann bestimmt werden durch Pulsed Field Gel Electrophoresis nach Verdauen mit dem Restriktionsenzym Notl.
  • Letztendlich wird ein minimal überlappender Satz von BAC-Klonen mit bekannter Insert-Größe und subchromosomaler Lokalisierung abdeckend das gesamte Genom, einen Satz von Chromosomen, ein einzelnes Chromosom, eine spezielle subchromosomale Region oder irgendeine andere gewünschte Portion des Genoms aus der DNA-Bibliothek ausgewählt werden. Beispielsweise können die BAC-Klone zumindest 100 kb von benachbarter geomischer DNA abdecken, zumindest 250 kb von benachbarter genomischer DNA, zumindest 500 kb von benachbarter geomischer DNA, zumindest 2 Mb von benachbarter genomischer DNA, zumindest 5 Mb von benachbarter genomischer DNA, zumindest 10 Mb von benachbarter genomischer DNA oder zumindest 20 Mb von benachbarter genomischer DNA.
  • Identifizierung von Biallel-Markern
  • Um Polymorphismen zu generieren, welche adäquaten informativen Gehalt aufweisen, um als Biallel-Marker beim Erzeugen von Kartierungen verwendet werden zu können, werden die Sequenzen von zufälligen genomischen Fragmenten von einer geeigneten Zahl an unverwandten Individuen verglichen. Genomische Sequenzen, welche hinsichtlich ihrer Verwendung als Biallel-Marker gescreent werden sollen, können erzeugt werden durch partielles Sequenzieren von BAC-Inserts, vorzugsweise durch Sequenzieren der Enden von BAC-Subklonen. Sequenzieren der Enden einer adäquaten Anzahl von BAC-Subklonen abgeleitet von einem minimal überlappenden Array an BACs, wie z.B. denjenigen wie oben beschrieben, wird die Erzeugung von Biallel-Markern ermöglichen, welche das gesamte Genom aufspannen, einen Satz von Chromosomen, ein einzelnes Chromosom, eine spezielle subchromosomale Region oder irgendwelche andere gewünschte Portion des Genoms mit einem optimierten Inter-Marker-Abstand erlauben. Beispielsweise können Teile der BACs in dem ausgewählten sortierten Array subkloniert und sequenziert werden unter Verwendung beispielsweise der Prozeduren beschrieben in Beispielen 3 und 4 unten.
  • Um Biallel-Marker unter Verwendung von partiellen Sequenzinformationen abgeleitet von Subklon-Enden, wie z.B. den Enden der BAC-Subklone wie oben hergestellt, zu identifizieren, werden Paare von Primern jeweils spezifisch definierend ein 500 bp Amplifikations-Fragment unter Verwendung der oben genannten partiellen Sequenzen designed. Die Primer verwendet für die genomische Amplifikation von Fragmenten abgeleitet von den Subklonen, wie z.B. den BAC-Subklonen wie oben hergestellt, bzw. können designed werden unter Verwendung der OSP-Software (Hillier L. und Green P., Methods Appl., 1 : 124–8 (1991)). Der GC-Anteil der Amplifikations-Primer reicht vorzugsweise zwischen 10 und 75 %, mehr bevorzugt zwischen 35 und 60 % und am meisten bevorzugt zwischen 40 und 55 %. Die Länge der Amplifikations-Primer kann von 10 bis 100 Nukleotiden reichen, vorzugsweise von 10 bis 50, 10 bis 30 oder mehr, vorzugsweise 10 bis 20 Nukleotiden. Kurze Primer tendieren dazu, an Spezifizität für die Target-Nukleinsäuresequenz zu mangeln und benötigen im Allgemeinen niedrigere Temperaturen, um hinreichend stabile Hybrid-Komplexe mit dem Templat auszubilden. Längere Primer sind teuer herzustellen und können manchmal selbst hybridisieren und dadurch Hairpin-Strukturen ausbilden.
  • Alle Primer können Upstream von den spezifischen Target-Basen gelegen einen gemeinsamen Oligonukleotidschwanz enthalten, welcher als Sequenzierungsprimer dient. Die Fachleute auf dem Gebiet sind vertraut mit Primerextensionen, welche für diese Zwecke verwendet werden können.
  • Um Biallel-Marker zu identifizieren, werden die Sequenzen korrespondierend zu den partiellen Sequenzen, die oben bestimmt wurden, in einer Vielzahl von Individuen bestimmt und verglichen. Die Population verwendet, um Biallel-Marker mit einem adäquaten informativen Gehalt zu identifizieren, besteht vorzugsweise aus ca. 100 unverwandten Individuen aus einer heterogenen Population. In solchen Prozeduren werden DNA-Proben, wie z.B. peripherale venöse Blutproben, von irgendeinem Spender unter Verwendung von Verfahren wie diejenigen beschrieben in Beispiel 5 unten erhalten. Die DNA erhalten aus peripheralem Blut wie oben beschrieben wird unter Verwendung von Amplifikations-Primern amplifiziert. Die Sequenzen der Amplicons werden bestimmt und Biallel-Marker innerhalb der Amplicons werden identifiziert wie dies in Beispiel 6 unten erläutert wird.
  • In einigen Ausführungsformen werden die Biallel-Marker der Sequenzierungspools von DNA-Proben von 100 Individuen identifiziert. Die Nachweisgrenze für die Häufigkeit von Biallel-Polymorphismen nachgewiesen durch Sequenzierungspools von 100 Individuen ist etwa 10 % für die kleineren (= selteneren) Allele, wie durch die Sequenzierungsprotokolle von bekannten Allel-Häufigkeiten verifiziert wurde. Jedoch mehr als 90 % der Biallel-Polymorphismen detektiert durch die Poolings-Methode haben eine Häufigkeit für die selteneren Allele von mehr als 25 %. Folglich haben die Biallel-Marker selektiert durch diese Methode eine Häufigkeit von zumindest 10 % für die selteneren Allele und 90 % oder weniger für die häufigeren Allele, vorzugsweise zumindest 20 % für die selteneren Allele und 80 % oder weniger für die häufigeren Allele, mehr bevorzugt zumindest 30 % für die selteneren Allele und 70 % oder weniger für die häufigeren Allele, damit eine Heterozygotizitäts-Rate von mehr als 0,18, vorzugsweise höher als 0,32 und mehr bevorzugt höher als 0,42.
  • In einer anfänglichen Untersuchung, um die Häufigkeit der Biallel-Marker im menschlichen Genom zu bestimmen, die erhalten werden können unter Verwendung der obengenannten Verfahren, wurden die folgenden Ergebnisse erhalten. 300 verschiedene Amplicons abgeleitet von 100 Individuen und abdeckend insgesamt 150 kb, erhalten von verschiedenen genomischen Regionen, wurden sequenziert. Insgesamt 54 Biallel-Polymorphismen wurden identifiziert, was darauf hindeutet, dass ein Biallel-Polymorphismus mit einer Heterozygotizitäts-Rate von mehr als 0,18 vorliegt (Häufigkeit der selteneren Allele größer als 10 %), vorzugsweise höher als 0,38 (Häufigkeit der selteneren Allele höher als 25 %), pro 2,5 bis 3 kb. Geht man davon aus, dass das menschliche Genom etwa 3 mal 106 kb lang ist, deutet dies daraufhin, dass von 107 Biallel-Markern vorliegend auf dem menschlichen Genom etwa 106 adäquate Heterozygotizitäts-Raten für die Zwecke der genetischen Kartierung aufweisen.
  • Unter Verwendung der Prozeduren von Beispielen 1–6 unten können Sätze enthaltend ansteigende Zahlen an Biallel-Markern konstruiert werden. Beispielsweise werden in einigen Ausführungsformen die Prozeduren der Beispiele 1–6 verwendet, um etwa 1 bis 50 Biallel-Marker zu identifizieren. In einigen Ausführungsformen werden die Prozeduren der Beispiele 1–6 verwendet, um etwa 50 bis ungefähr 200 Biallel-Marker zu identifizieren. In einigen Ausführungsformen werden die Prozeduren der Beispiele 1–6 verwendet, um ungefähr 200 bis ungefähr 500 Biallel-Marker zu identifizieren. In einigen Ausführungsformen werden die Prozeduren von Beispielen 1–6 verwendet, um ungefähr 1 000 Biallel-Marker zu identifizieren. In einigen Ausführungsformen werden die Prozeduren der Beispiele 1–6 verwendet, um ungefähr 3 000 Biallel-Marker zu identifizieren. In einigen Ausführungsformen werden die Prozeduren der Beispiele 1–6 verwendet, um ungefähr 5 000 Biallel-Marker zu identifizieren. In einigen Ausführungsformen werden die Prozeduren der Beispiele 1–6 verwendet, um ungefähr 10 000 Biallel-Marker zu identifizieren. In einigen Ausführungsformen werden die Prozeduren der Beispiele 1–6 verwendet, um ungefähr 20 000 Biallel-Marker zu identifizieren. In einigen Ausführungsformen werden die Prozeduren der Beispiele 1–6 verwendet, um ungefähr 40 000 Biallel-Marker zu identifizieren. In einigen Ausführungsformen werden die Prozeduren der Beispiele 1–6 verwendet, um ungefähr 60 000 Biallel-Marker zu identifizieren. In einigen Ausführungsformen werden die Prozeduren der Beispiele 1–6 verwendet, um ungefähr 80 000 Biallel-Marker zu identifizieren. In einigen Ausführungsformen werden die Prozeduren der Beispiele 1–6 verwendet, um ungefähr 100 000 Biallel-Marker zu identifizieren. In einigen Ausführungsformen werden die Prozeduren der Beispiele 1–6 verwendet, um ungefähr 120 000 Biallel-Marker zu identifizieren.
  • Wie oben diskutiert, können die sortieren Nukleinsäuren, wie z.B. die Inserts in BAC-Klonen, welche die Biallel-Marker der vorliegenden Erfindung enthalten, einen Teil des Genoms aufspannen. Beispielsweise können die sortierten Nukleinsäuren zumindest 100 kb von zusammenhängender genomischer DNA aufspannen, zumindest 250 kb von zusammenhängender genomischer DNA, zumindest 500 kb von zusammenhängender genomischer DNA, zumindest 2 Mb von zusammenhängender genomischer DNA, zumindest 5 Mb von zusammenhängender genomischer DNA, zumindest 10 Mb von zusammenhängender genomischer DNA oder zumindest 20 Mb von zusammenhängender genomischer DNA.
  • Darüber hinaus können Gruppen von Biallel-Marker, lokalisiert in der näheren Umgebung untereinander, entlang dem Genom innerhalb dieser Abschnitte des Genoms identifiziert werden zur Anwendung in haplotypisierenden Analysen wie unten beschrieben. Die Biallel-Marker enthalten in jeder dieser Gruppen können lokalisiert sein innerhalb einer genomischen Region welche weniger als 1 kb aufspannt, von 1 bis 5 kb, von 5 bis 10 kb, von 10 bis 25 kb, von 25 bis 50 kb, von 50 bis 150 kb, von 150 bis 250 kb, von 250 bis 500 kb, von 500 kb bis 1 Mb, oder mehr als 1 Mb. Es wird leicht verständlich sein, dass die sortierten DNA-Fragmente enthaltend diese Gruppen von Biallel-Markern nicht notwendigerweise vollständig die genomischen Regionen dieser Längen abdecken müssen, sondern statt dessen unvollständige Contigs darstellen, welche eine oder mehrere Lücken darin aufweisen. Wie im weiteren Detail unten beschrieben können Biallel-Marker in einzelnen Marker und Haplotyp-Assoziations-Analysen verwendet werden unabhängig von der Vollständigkeit des korrespondierenden physikalischen Contig, welches sie beherbergt.
  • Reihenfolge der Biallel-Marker
  • Biallel-Marker können sortiert werden, um ihre Positionen entlang von Chromosomen zu bestimmen, vorzugsweise entlang subchromosomaler Regionen, am meisten bevorzugt entlang der oben beschriebenen minimal überlappenden sortierten BAC-Arrays und zwar wie folgt.
  • Die Positionen der Biallel-Marker entlang von Chromsomen können bestimmt werden unter Verwendung einer Vielzahl von Methoden. In einem Ansatz wird die Bestrahlungs- Hybrid-Kartierung eingesetzt. Die Bestrahlungs-Hybrid (RH, Radiation Hybrid)-Kartierung ist ein somatischer Zell-genetischer-Ansatz, der verwendet werden kann zur hochauflösenden Kartierung des menschlichen Genoms. in diesem Ansatz werden Zelllinien, welches eines oder mehrere menschliche Chromosome enthalten lethal bestrahlt, wobei jedes Chromosom in Fragmente gebrochen wird, deren Größe von der Strahlungsdosis abhängt. Diese Fragmente werden durch Fusion mit kultivierten Nagerzellen konserviert, was zu Subklonen führt, die verschiedene Anteile des menschlichen Genoms enthalten. Diese Technik wird beschrieben von Benham et al. (Genomics 4 : 509–517,1989) und Cox et al., (Science 250 : 245–250,1990). Die zufällige und unabhängige Natur der Subklone ermöglicht die effiziente Kartierung von beliebigen menschlichen Genom-Markern. Menschliche DNA isoliert aus einem Panel von 80-100 Zelllinien liefert ein Kartierungsreagens zur Sortierung von Biallel-Markern. In diesem Ansatz wird die Häufigkeit des Bruchs zwischen Markern verwendet, um den Abstand zu messen, was die Konstruktion von hoch aufgelösten Kartierungen erlaubt, wie dies auch für ESTs erfolgte (Schuler et al., Science 274 : 540–546,1996).
  • RH-Kartierung wurde verwendet, um eine hochauflösende Bestrahlungs-Hybrid-Karte des gesamten Genoms von menschlichem Chromosom 17q22–q25.3 über die Gene für Wachstumshormon (GH, Growth Hormone) und Thymidin-Kinase (TK) (Foster et al., Genomics 33 : 185–192,1996) zu erzeugen, sowie für die Region umgebend das Gen für das Gorlin-Syndrom (Obermayr et al., Eur. J. Hum. Genet. 4 : 242–245, 1996), die 60 Loci (Stellen), welche den gesamten kurzen Arm des Chromosoms 12 abdecken (Raeymaekers et al., Genomics 29 : 170–178, 1995), die Region des menschlichen Chromosoms 22 enthaltend die Neurofibromatosis Typ 2 Stelle (Frazer et al., Genomics 14 : 574–584,1992) und die 13 Loci (Stellen) auf dem langen Arm von Chromosom 5 (Warrington et al., Genomics 11 : 701–708, 1991).
  • Alternativ können PCR-basierte Techniken und somatische Zell-Hybride Mensch-Nager verwendet werden, um die Positionen der Biallel-Marker auf den Chromosomen zu bestimmen. In solchen Ansätzen werden Oligonukleotid-Primerpaare, welche in der Lage sind, Amplifikations-Produkte zu erzeugen, die polymorphe Basen der Biallel-Marker enthalten, designed. Vorzugsweise sind die Oligonukleotid-Primer 18–23 bp lang und designed für die PCR-Amplifikation. Die Kreation von PCR-Primern aus bekannten Sequenzen ist den Fachleuten auf dem Gebiet wohlbekannt. Als Review der PCR-Technologie sei Erlich, H.A., PCR Technology: Principles and Applications for DNA Amplification. 1992. W.H. Freeman and Co., New York genannt.
  • In Primer werden in Polymerase Kettenreaktionen (PCR) verwendet, um Template aus Gesamtlängen menschlicher geomischer DNA zu amplifizieren. Die PCR-Bedingungen sind wie folgt : 60 ng an genomischer DNA werden als ein Templat für PCR verwendet mit 80 ng von jedem Oligonukleotid-Primer, 0,6 Einheiten von Taq-Polymerase und 1 mCu von 32P-gelabeltem Deoxycytidintriphosphat. Die PCR wird durchgeführt in einem Microplate-Thermocycler (Techne) und zwar unter den folgenden Bedingungen 30 Zyklen bei 94°C, 1,4 min; 55°C, 2 min und 72°C, 2 min; mit einer letztendlichen Dauer bei 72°C von 10 min. Die amplifizierten Produkte werden auf einem 6 % Polyacrylamid-Sequenzierungsgel analysiert und durch Autoradiografie visualisiert. Falls die Länge des resultierenden PCR-Produkts identisch mit der Länge erwartet für das Amplifikations-Produkt enthaltend die polymorphe Base der Biallel-Marker ist, wird die PCR-Reaktion mit DNA-Templaten aus zwei Panels an somatischen Zell-Hybriden Mensch-Nager wiederholt, nämlich BIOS PCRable DNA (BIOS Corporation) und NIGMS Human-Rodent Somatic Cell Hybrid Mapping Panel Number 1 (NIGMS, Camden, NJ).
  • Die PCR wird verwendet, um eine Serie von somatischen Zell-Hybrid-Zelllinien, die definierte Sätze von menschlichen Chromosomen enthalten, auf die Gegenwart eines gegebenen Biallel-Markers zu screenen. Die DNA wird aus den somatischen Hybriden isoliert und als Ausgangs-Templat für PCR-Reaktionen unter Verwendung der Primer-Paare der Biallel-Marker verwendet. Nur diese somatischen Zell-Hybride mit Chromosomen enthaltend die menschliche Sequenz korrespondierend zu dem Biallel-Marker werden ein amplifiziertes Fragment ergeben. Die Biallel-Marker schreibt man einem Chromosom durch Analyse des Segregationsmusters der PCR-Produkte stammend von den somatischen Hybrid-DNA-Templaten zu. Das einzige menschliche Chromosom, das in allen Zell-Hybriden vorliegt, die zu einem amplifizierten Fragment führen, ist das Chromosom, welches den Biallel-Marker enthält. Für einen Review der Techniken und Analysen der Ergebnisse der somatischen Zellgen-Kartierungs-Experimente siehe Ledbetter et al., Genomics 6 : 475–481 (1990).
  • Beispiel 7 unten beschreibt eine bevorzugte Methode zur Positionierung von Biallel-Markern auf Klonen wie z.B. BAC-Klonen, enthaltend aus genomischen DNA-Bibliotheken.
  • Unter Verwendung solcher Prozeduren kann eine Vielzahl von BAC-Klonen, welche ausgewählte Biallel-Marker tragen, isoliert werden. Die Positionen dieser BAC-Klone auf dem menschlichen Genom kann durch Durchführen von STS-Screening wie in Beispiel 2 beschrieben definiert werden. Vorzugsweise kann, um die Anzahl der STSs, die zu testen sind, zu vermindern, jedes BAC auf chromosomalen oder subchromosomalen Regionen lokalisiert werden durch Prozeduren wie z.B. diejenigen beschrieben in Beispielen 8 und 9 unten. Diese Lokalisierung wird die Selektion eines Untersatzes von STSs ermöglichen, welcher zu der identifizierten chromosomalen oder subchromosomalen Region korrespondiert. Das Testen eines jeden BAC mit einem solchen Untersatz von STSs unter Berücksichtigung der Position in der Reihenfolge der STSs entlang des Genoms wird ein aufgelöstes Positionieren des korrespondierenden Biallel-Markers entlang des Genoms ermöglichen.
  • Falls die DNA-Bibliothek, die verwendet wird, um BAC-Inserts oder irgendeinen Typ an genomischen DNA-Fragmenten zu isolieren, welcher die ausgewählten Biallel-Marker beherbergt, bereits eine physikalische Kartierung des Genoms oder irgendeiner Portion davon konstituiert, wird die Verwendung der bekannten Reihenfolge der DNA-Fragmente ermöglichen, die Reihenfolge der Biallel-Marker zu etablieren.
  • Wie oben diskutiert wird es nachvollziehbar sein, dass Marker, welche vom selben Fragment an genomischer DNA getragen werden, wie z.B. dem Insert in einem BAC-Klon, nicht notwendigerweise im Hinblick aufeinander innerhalb des genomischen Fragments sortiert sein müssen, um Einzel-Punkt oder Haplotyp-Assoziations-Analysen durchzuführen. Jedoch kann in anderen Ausführungsformen der Kartierungen die Reihenfolge der Biallel-Marker, welche durch die gleichen Fragmente an genomischer DNA getragen werden, bestimmt werden.
  • Die Positionen der Biallel-Marker verwendet, um die Kartierungen der vorliegenden Erfindung zu konstruieren, können den subchromosomalen Lokalisierungen unter Verwendung von Fluoreszenz-In Situ-Hybridisierung (FISH) zugeordnet werden (Cherif et al., Proc. Natl. Acad. Sci. U. S. A., 87 : 6639–6643 (1990)), wobei die FISH- et al., Proc. Natl. Acad. Sci. U. S. A., 87 : 6639–6643 (1990)), wobei die FISH-Analyse in Beispiel 8 unten beschrieben wird. Diese Prozedur wurde verwendet, um die subchromosomale Lokalisierung von verschiedenen Biallel-Markern erhalten unter Verwendung der Verfahren wie oben beschrieben zu bestätigen. Einfache Identifizierungs-Nummern wurden jedem BAC, von welchem die Marker abgeleitet wurden, zugeordnet. 1 ist eine cytogenetische Markierung des Chromosoms 21, die auf die subchromosomalen Regionen darin hinweist.
  • Die Rate, mit welcher die Biallel-Marker den subchromosomalen Regionen zugeordnet werden können, kann durch Automation erhöht werden. Beispielsweise kann die Probenpräparation in einem Mikrotiter-Platten-Format durchgeführt werden unter Verwendung adäquater Roboter. Die Rate bei welcher Biallel-Marker den subchromosomalen Regionen zugeordnet werden können, kann unter Verwendung von Techniken erhöht werden, welche die in situ-Hybridisierung von vielen Proben auf einem einzelnen Mikroskop-Deckgläschen, wie z.B. denjenigen beschrieben in Larin et al., Nucleic Acids Research 22 : 3689–3692 (1994) erlauben. In dem größten beschriebenen Testformat wurden verschiedene Proben zugleich hybridisiert durch ihr direktes Anwenden auf eine 96-well Mikrotiter-Unterlage welche auf einer Glasplatte invertiert war. Software für die Bilddatenaufnahme und Analyse, die auf jedes optische System adaptiert ist, jedes Testformat und die verwendete Fluoreszenzsonde, kann von dem System beschrieben in Lichter et al. Science 247 : 64–69 (1990) abgeleitet werden. Solche Software misst den relativen Abstand zwischen dem Zentrum des Fluoreszenz-Spots, der mit der hybridisierten Probe korrespondiert und dem telomerischen Ende des kurzen Arms des korrespondierenden Chromosoms im Vergleich zur Gesamtlänge des Chromosoms. Die Rate, bei welche Biallel-Marker den subchromosomalen Lokalisierungen zugeordnet werden, kann weiter erhöht werden durch gleichzeitiges Anwenden von Sonden gelabelt mit verschiedenen fluoreszenten Tags auf jedes Well der 96 Well-Unterlagen. Ein weiterer Vorteil des Durchführens der Analyse auf einem Objektträger ist, dass dadurch die Automatisierung erleichtert wird, da ein Mikroskop mit einem beweglichen Tisch und der Fähigkeit, Fluoreszenzsignale in verschiedenen Metaphasen-Chromosomen zu detektieren, die Koordinaten einer jeden Probe auf den Metaphasen-Chromosomen verteilt auf dem 96 Well-Träger liefern könnte.
  • Beispiel 9 unten beschreibt ein alternatives Verfahren zur Positionierung der Biallel-Marker, welches ihre Zuordnung zu den menschlichen Chromosomen erlaubt.
  • Die Sortierungsanalysen wie oben beschrieben können durchgeführt werden, um eine integrierte Genom-weite genetische Kartierung umfassend etwa 20 000 Biallel-Marker zu erzeugen (1 Biallel-Marker pro BAC, falls 20 000 BAC-Inserts gescreent werden). In einer weiteren Ausführungsform werden die obengenannten Prozeduren durchgeführt, um eine Kartierung zu erzeugen, welche etwa 40 000 Marker umfasst (ein Durchschnitt von 2 Biallel-Markern pro BAC, falls 20 000 BAC-Inserts gescreent werden). In einer weiteren Ausführungsform werden die obengenannten Prozeduren durchgeführt, um eine Kartierung zu erzeugen, welche etwa 60 000 Marker umfasst (ein Durchschnitt von 3 Biallel-Markern pro BAC, falls 20 000 BAC-Inserts gescreent werden). In einer weiteren Ausführungsform werden die obengenannten Prozeduren durchgeführt, um eine Kartierung zu erzeugen, welche etwa 80 000 Marker umfasst (ein Durchschnitt von 4 Biallel-Markern pro BAC, falls 20 000 BAC-Inserts gescreent werden). In noch einer weiteren Ausführungsform werden die obengenannten Prozeduren durchgeführt, um eine Kartierung zu erzeugen, welche etwa 100 000 Marker umfasst (ein Durchschnitt von 5 Biallel-Markern pro BAC, falls 20 000 BAC-Inserts gescreent werden). In noch einer weiteren Ausführungsform werden die obengenannten Prozeduren durchgeführt, um eine Kartierung zu erzeugen, welche etwa 120 000 Marker umfasst (ein Durchschnitt von 6 Biallel-Markern pro BAC, falls 20 000 BAC-Inserts gescreent werden).
  • Alternativ werden Kartierungen mit dem oben spezifizierten durchschnittlichen Anzahlen von Biallel-Markern pro BAC, welche kleinere Abschnitte des Genoms umfassen, wie z.B. einen Satz von Chromosomen, ein einzelnes Chromosom, eine spezielle subchromosomale Region oder irgendeinen anderen gewünschten Abschnitt des Chromosoms auch konstruiert unter Verwendung der hier bereitgestellten Prozeduren.
  • In einigen Ausführungsformen werden die Biallel-Marker in der Kartierung voneinander durch einen durchschnittlichen Abstand von 10–200 kb getrennt. In weiteren Ausführungsformen werden die Biallel-Marker in der Kartierung untereinander durch einen durchschnittlichen Abstand von 15–150 kb getrennt. In noch einer anderen Ausführungsform werden die Biallel-Marker in der Kartierung voneinander durch einen durchschnittlichen Abstand von 20–100 kb getrennt. In anderen Ausführungsformen werden die Biallel-Marker in der Kartierung voneinander durch einen durchschnittlichen Abstand von 100–150 kb getrennt. In weiteren Ausführungsformen werden die Biallel-Marker in der Kartierung voneinander durch einen durchschnittlichen Abstand von 50–100 kb getrennt. In noch einer anderen Ausführungsform werden die Biallel-Marker in der Kartierung voneinander durch einen durchschnittlichen Abstand von 25–50 kb getrennt. Kartierungen mit den oben spezifizierten Inter-Marker-Abständen, welche kleinere Abschnitte des Genoms umfassen, wie z.B. einen Satz von Chromosomen, ein einzelnes Chromosom, eine spezielle subchromosomale Region oder irgendwelche andere gewünschte Portion des Genoms können auch konstruiert werden unter Verwendung der hier bereitgestellten Prozeduren.
  • 2, welche die Ergebnisse von Computersimulationen über die Verteilung von Inter-Marker-Abständen auf einem zufällig verteilten Satz an Biallel-Markern zeigt, gibt den Prozentsatz der Biallel-Marker an, die in einem bestimmten Abstand auseinanderliegen und zwar für eine gegebene Anzahl von Markern/BAC in der genomischen Kartierung (wobei angenommen wird, dass 20 000 BACs, die ein minimal überlappendes Array abdeckend das gesamte Genom konstituieren, ausgewertet werden). Einhundert Iterationen wurden für jede Simulation durchgeführt (20 000 Marker-Kartierung, 40 000 Marker-Kartierung, 60 000 Marker-Kartierung, 120 000 Marker-Kartierung).
  • Wie in 2a illustriert werden 98 % der Inter-Marker-Abstände geringer als 150 kb sein unter der Voraussetzung, dass 60 000 gleichmäßig verteilte Marker erzeugt werden (3 pro BAC); 90 % der Inter-Marker-Abstände werden kleiner als 150 kb sein vorausgesetzt, dass 40 000 gleichmäßig verteilte Marker erzeugt werden (2 pro BAC); und 50 % der Inter-Marker-Abstände werden geringer als 150 kb sein vorausgesetzt, dass 20 000 gleichmäßg verteilte Marker erzeugt werden (1 pro BAC).
  • Wie in 2b illustriert werden 98 % der Inter-Marker-Abstände kleiner als 80 kb sein vorausgesetzt, dass 120 000 gleichmäßig verteilte Marker erzeugt werden (6 pro BAC); 80 % der Inter-Marker-Abstände kleiner als 80 kb sein vorausgesetzt, dass 60 000 gleichmäßig verteilte Marker erzeugt werden (3 pro BAC); und 15 % der Inter-Marker- Abstände kleiner als 80 kb sein vorausgesetzt, dass 20 000 gleichmäßig verteilte Marker erzeugt werden (1 pro BAC).
  • Wie bereits erwähnt, ermöglichen die hochdichten Biallel-Marker-Katierungen die Durchführung von Assoziations-Untersuchungen um Gene involviert in komplexe Merkmale zu identifizieren.
  • Assoziations-Studien untersuchen die Häufigkeit von Marker-Allelen in unverwandten Merkmal-positiven (T+) Individuen im Vergleich mit Merkmal-negativen (T–) Kontrollen und werden im Allgemeinen eingesetzt zur Detektion von polygenetischer Vererbung.
  • Assoziations-Studien als ein Verfahren zum Kartieren von genetischen Merkmalen verlassen sich auf das Phänomen des Verknüpfungs-Ungleichgewichts, das unten beschrieben wird.
  • Verknüpfungs-Ungleichgewicht
  • Falls zwei genetische Stellen (Loci) auf demselben Chromosom liegen, tendieren Sätze von Allelen auf demselben chromosomalen Segment (genannte Haplotypen) dazu, als ein Block von Generation zu Generation übertragen zu werden. Nicht aufgebrochen durch Rekombination können Haplotypen nicht nur durch Stammbäume sondern auch durch Populationen verfolgt werden. Das resultierende Phänomen auf der Ebene der Population ist, dass das Auftreten von Paaren von spezifischen Allelen an unterschiedlichen Stellen auf dem gleichen Chromosom nicht zufällig ist und die Abweichung der Zufälligkeit wird Verknüpfungs-Ungleichgewicht (linkage disequilibrium, LD) genannt.
  • Falls ein spezifisches Allel in einem gegebenen Gen direkt darin involviert ist, ein spezielles Merkmal T zu verursachen, wird seine Häufigkeit statistisch in einer T+ Population erhöht sein, wenn sie mit der Häufigkeit in einer T– Population verglichen wird. Als eine Konsequenz der Existenz von LD wird die Häufigkeit von allen anderen Allelen, die in dem Haplotyp vorliegen, welcher das Merkmal-verursachende Allel (trait-causing allele, TCA) trägt, auch in T+ Individuen im Vergleich zu T– Individuen erhöht sein. Folglich wird die Assoziation zwischen dem Merkmal und irgendeinem Allel im Verknüpfungs-Ungleichgewicht mit dem Merkmal-verursachenden Allel hinreichend sein, um das Vorliegen eines Merkmal-verwandten Gens in dieser speziellen Region des Allels nahezulegen. Das Verknüpfungs-Ungleichgewicht ermöglicht die Analyse der relativen Häufigkeiten in T+ und T– Populationen einer limitierten Anzahl von genetischen Polymorphismen (spezifische Biallel-Marker) als eine Alternative zum Screenen aller möglicher funktioneller Polymorphismen, um die Merkmal-verursachenden Allele zu identifizieren.
  • LD unter einem Satz von Biallel-Markern mit einer adäquaten Heterozygotizitäts-Rate können bestimmt werden durch Genotypisierung zwischen 50 und 1 000 unverwandten Individuen, vorzugsweise zwischen 75 und 200, mehr bevorzugt von etwa 100. Genotypisierung eines Biallel-Markers besteht aus der Bestimmung des spezifischen Allels getragen von einem Individuum an der Stelle der gegebenen polymorphen Base des Biallel-Markers. Die Genotypisierung kann durchgeführt werden unter Verwendung ähnlicher Methoden wie diejenigen beschrieben oben für die Erzeugung von Biallel-Markern oder unter Verwendung anderer genotypisierender Verfahren wie z.B. diejenigen, die des Weiteren unten beschrieben werden.
  • LD zwischen irgendeinem Paar von Biallel-Markern umfassen zumindest einen der Biallel-Marker der vorliegenden Erfindung (Mi, Mj) kann berechnet werden für jede Allelkombination (Mi1, Mj1; Mi1, Mj2; Mj2, Mj1 und Mi2, Mj2) gemäß der Piazza-Formel ΔMik, Mj1 = √θ4 – √(θ4 + θ3) (θ4 + θ2)wobei
    θ4 = –– = die Häufigkeit von Genotypen, die nicht das Allel k an Mi und nicht das Allel I an Mj aufweisen
    θ3 = –+ = die Häufigkeit von Genotypen, die nicht das Allel k an Mi und das Allel I an Mj aufweisen
    θ2 = +– = die Häufigkeit von Genotypen, die das Allel k an Mi und nicht das Allel I an Mj aufweisen
  • Das Verknüpfungs-Ungleichgewicht (LD) zwischen Paaren von Biallel-Markern (Mi, Mj) kann auch für jede Allelkombination (Mi1, Mj1; Mi1, Mj2; Mj2, Mj1; Mi2, Mj2) gemäß der Maximal-Wahrscheinlichkeits-Abschätzung (maximum likelihood estimate, MLE) für delta (dem zusammengesetzten Verknüpfungs-Ungleichgewichts-Koeffizienten) wie von Weir beschrieben (B.S. Weir, Genetic Data Analysis, (1996), Sinauer Ass. Eds) berechnet werden. Diese Formel ermöglicht die Abschätzung des Verknüpfungs-Ungleichgewichts zwischen Allelen wenn nur genotypische und keine Haplotypen Daten verfügbar sind. Dieser LD zusammengesetzte Test macht keine Abschätzung für zufällige Paarung in der untersuchten Population und erscheint folglich geeigneter als andere LD-Tests für genotypische Daten zu sein.
  • Ein weiteres Mittel zum Berechnen des Verknüpfungs-Ungleichgewichts zwischen Markern ist wie folgt. Für ein Paar von Biallel-Markern, Mi (ai/bi) und Mj (aj/bj) kann man unter Fitten der Hardy-Weinberg-Gleichung die vier möglichen Haplotypen-Häufigkeiten in einer gegebenen Population gemäß dem Ansatz wie oben beschrieben abschätzen.
  • Die Abschätzung des gametischen Ungleichgewichts zwischen ai und aj ist einfach Daiaj = pr(haplotype (ai, aj)) – pr (ai)·pr(aj).
  • Wobei pr (ai) die Wahrscheinlichkeit des Allels ai ist und aj die Wahrscheinlichkeit des Allels aj und wobei pr (haplotype (ai, aj)) abgeschätzt wird wie in Gleichung eq 3 oben. Für ein Paar von Biallel-Markern ist nur eine Messung des Ungleichgewichts notwendig, um die Assoziation zwischen Mi und Mj zu beschreiben.
  • Dann wird ein normalisierter Wert des oberen wie folgt berechnet D'aiaj = Daiaj/max (– pr(ai)·pr(aj),– pr(bi)·(bj)) mit Daiaj<0 D'aiaj = Daiaj/min(pr(bi)·pr(aj),pr(ai)·(bj))mit Daiaj>0
  • Der Fachmann auf dem Gebiet wird leicht erkennen, dass andere LD-Berechnungsverfahren ohne unzumutbar große Experimente durchgeführt werden können.
  • Wie in 2c dargestellt wurde das obengenannte Verfahren verwendet mit 54 zufälligen BACs, welche 8100 kb abdeckten. Die durchschnittlichen Inter-Marker-Abstände und das Verknüpfungs-Ungleichgewicht zwischen Markern wurde bestimmt. Bei dem durchschnittlichen Inter-Marker-Abstand von 38 kb war die durchschnittliche Verknüpfungs-Ungleichsgewichts-Abschätzung 0,63. Im Gegensatz dazu war für 19 unverknüpfte Marker die durchschnittliche Verknüpfungs-Ungleichgewichts-Abschätzung 0,12.
  • Beispiel 10 illustriert die Messung von LD in einem öffentlich bekannten Biallel-Marker, der "Apo E Site A" lokalisiert innerhalb des mit Alzheimer korrelierenden Apo E-Gens und anderen Biallel-Markern, die zufällig von der genomischen Region enthaltend das Apo E-Gen abgeleitet sind.
  • Genom-weites LD-Kartieren zielt auf die Identifizierung von zumindest einem Biallel-Marker für irgendein TCA, das es zu untersuchen gilt, in LD mit besagtem TCA ab. Vorzugsweise weisen, um das Potenzial der LD-Kartierungen zu erhöhe, in einigen Ausführungsformen die Biallel-Marker darin durchschnittliche Inter-Marker-Abstände von 150 kb oder weniger auf, 75 kb oder weniger, 50 kb oder weniger, 30 kb oder weniger, 25 kb oder weniger, um der Tatsache zu begegnen, dass in einigen Regionen des Genoms die Detektion von LD geringere Inter-Marker-Abstände benötigt.
  • Die Verfahren wie hier beschrieben ermöglichen die Erzeugung von Biallel-Marker-Kartierungen mit durchschnittlichen Inter-Marker-Abständen von 150 kb oder weniger. In einigen Ausführungsformen wird der mittlere Abstand zwischen Biallel-Markern konstituierend die hochdichte Kartierung weniger als 75 kb sein, vorzugsweise weniger als 50 kb. Weitere bevorzugte Kartierungen gemäß der vorliegenden Erfindung enthalten Marker, welche weniger als 37,5 kb auseinanderliegen. In hochbevorzugten Ausführungsformen ist der durchschnittliche Inter-Marker-Abstand für Biallel-Marker, welche sehr hochdichte Kartierungen konstituieren weniger als 30 kb, am meisten bevorzugt weniger als 25 kb.
  • Genetische Kartierungen enthaltend Biallel-Marker können verwendet werden, um Gene assoziiert mit nachweisbaren Charakterzügen zu identifizieren und zu isolieren. Die Verwendung der genetischen Kartierungen der vorliegenden Erfindung wird im größeren Detail unten beschrieben.
  • Verwendung der hochdichten Biallel-Marker-Kartierung, um Gene assoziiert mit einem nachweisbaren Merkmal zu identifizieren
  • Die Biallel-Marker-Kartierungen wie oben beschrieben können in Verfahren verwendet werden zum Identifizieren und Isolieren von Genen assoziiert mit einem nachweisbaren Merkmal.
  • In der Vergangenheit hat sich die Identifikation von Genen verknüpft mit nachweisbaren Merkmalen auf einen statistischen Ansatz verlassen, den man die Verknüpfungsanalyse nennt. Die Verknüpfungsanalyse ist basiert auf der Etablierung einer Korrelation zwischen der Transmission von genetischen Markern und derjenigen eines spezifischen Merkmals über Generationen innerhalb einer Familie. In diesem Ansatz werden alle Mitglieder einer Serie von betroffenen Familien genotypisiert mit wenigen hundert Markern typischerweise Mikrosatellit-Markern, welche in einer durchschnittlichen Dichte von allen 10 Mb verteilt sind. Durch Vergleichen der Genotypen in allen Familienmitgliedern kann man Sätze von Allelen parentalen haploiden Genomen zuordnen (Haplotypisierung oder Phasenbestimmung). Der Ursprung von rekombinanten Fragmenten wird dann im Ursprung aller Familien bestimmt. Diejenigen, welche sich mit dem Merkmal co-segregieren, werden verfolgt. Nach dem Poolen von Daten aus allen Familien werden statistische Verfahren verwendet, um die Wahrscheinlichkeit zu bestimmen, dass der Marker und das Merkmal unabhängig voneinander in allen Familien segregieren. Als ein Ergebnis der statistischen Analyse werden eine oder mehrere Regionen mit einer hohen Wahrscheinlichkeit der Beherbergung eines Genes verknüpft mit dem Merkmal als Kandidaten für die weitere Analyse ausgewählt. Das Ergebnis der Verknüpfungsanalyse wird als signifikant betrachtet (d.h. es liegt eine hohe Wahrscheinlichkeit vor, dass die Region ein Gen involviert in ein nachweisbares Merkmal aufweist), wenn die Chance der unabhängigen Segregation des Markers und des Merkmals geringer als 1 zu 1000 ist (ausgedrückt als ein LOD-Treffer > 3). Im Allgemeinen liegt die Länge der Kandidatenregion identifiziert unter Verwendung der Verknüpfungsanalyse zwischen 2 und 20 Mb.
  • Sobald eine Kandidatenregion wie oben beschrieben identifiziert wurde, erlaubt die Analyse von rekombinanten Individuen unter Verwendung weiterer Marker die weitere Abgrenzung der Kandidaten-verknüpften Region.
  • Die Verknüpfungsanalyse-Untersuchungen haben sich im Allgemeinen auf die Verwendung eines Maximums von 5000 Mikrosatelliten-Markern verlassen, was also die maximal theoretisch erreichbare Auflösung der Verknüpfungsanalyse auf etwa 600 kb im Durchschnitt limitierte.
  • Die Verknüpfungsanalyse wurde erfolgreich angewandt um einfache genetische Merkmale, welche klare Mendelsche Vererbungsmuster zeigten, zu kartieren und solche, welche eine hohe Durchdringung (Durchdringung ist das Verhältnis zwischen der Anzahl der Merkmal-positiven Trägern von Allel a und der Gesamtzahl an Trägern der Population) aufweisen. Etwa 100 pathologische Merkmal-verursachende Gene wurden unter Verwendung der Verknüpfungsanalyse über die letzten 10 Jahre entdeckt. In den meisten dieser Fälle hatte die Mehrzahl der betroffenen Individuen betroffene Verwandte und das nachweisbare Merkmal war selten in der allgemeinen Population (Häufigkeiten weniger als 0,1 %). In etwa 10 Fällen wie z.B. bei Alzheimers Erkrankung, Brustkrebs und Typ II-Diabetes war das nachweisbare Merkmal weit verbreiteter, jedoch das assoziierte Allel des nachweisbaren Merkmals war in der betroffenen Population selten. Folglich waren die Allele assoziiert mit diesen Charakterzügen nicht verantwortlich für das Merkmal in allen sporadischen Fällen.
  • Die Verknüpfungsanalyse leidet unter einer Vielzahl von Nachteilen. Zuerst ist die Verknüpfungsanalyse dadurch limitiert, dass sie sich auf die Wahl eines genetischen Modells geeignet für alle untersuchten Charakterzüge verlässt. Des Weiteren ist, wie bereits erwähnt, die verfügbare Auflösung unter Verwendung der Verknüpfungsanalyse limitiert und komplementäre Studien sind nötig, um die Analyse der typischen 2 Mb bis 20 Mb-Regionen, die ursprünglich durch die Verknüpfungsanalyse identifiziert werden, zu verfeinern.
  • Darüber hinaus haben Verknüpfungsanalyse-Ansätze sich als schwierig herausgestellt, wenn sie auf komplexe genetische Charakterzüge angewandt würden, wie z.B. auf diejenigen die von der kombinierten Wirkung von multiplen Genen und/oder Umweltfaktoren ausgelöst werden. In solchen Fällen sind zu große Anstrengungen und Kosten notwendig, um die adäquate Anzahl von betroffenen Familien benötigt zum Durchführen der Verknüpfungsanalyse für diese Situationen zu rekrutieren, wie dies jüngst von Risch, N. und Merikangas, K. diskutiert wurde (Science 273 : 1516–1517 (1996).
  • Schlussendlich kann die Verknüpfungsanalyse nicht eingesetzt werden um Merkmale zu untersuchen, für welche keine großen informativen Familien verfügbar sind. Typischerweise wird dies in irgendeinem Versuch, Merkmal-verursachende Allele involviert in sporadische Fälle zu identifizieren, der Fall sein, wie z.B. für Allele assoziiert mit positiven oder negativen Antworten auf Arzneimittelbehandlung.
  • Die Kartierungen und Biallel-Marker erhalten wie hier beschrieben können verwendet werden, um Gene zu identifizieren und zu isolieren, die mit nachweisbaren Charakterzügen assoziiert sind und zwar unter Verwendung von Assoziations-Studien, ein Ansatz welcher nicht die Verwendung von betroffenen Familien benötigt und welcher die Identifikation von Genen assoziiert mit sporadischen Charakterzügen erlaubt.
  • Assoziations-Studien werden im weiteren Detail unten beschrieben.
  • Assoziations-Studien
  • Wie bereits erwähnt wird jedes Gen verantwortlich oder teilweise verantwortlich für ein gegebenes Merkmal in LD mit irgendeinem flankierenden Marker stehen. Um ein solches Gen zu kartieren, werden spezifische Allele dieser flankierenden Marker, die mit dem Gen oder den Genen assoziiert sind, die für dieses Merkmal verantwortlich sind, identifiziert. Obwohl die folgende Diskussion von Techniken zum Auffinden des Gens oder der Gene assoziiert mit einem speziellen Merkmal unter Verknüpfungs- Ungleichgewichts-Kartierung sich auf die Lokalisierung eines einzelnen Gens bezieht, welches für das Merkmal verantwortlich ist, wird man erkennen, dass die gleichen Techniken auch verwendet werden können um Gene zu identifizieren, die teilweise für das Merkmal verantwortlich sind.
  • Assoziations-Studien können durchgeführt werden mit der allgemeinen Population (im Gegensatz zur Verknüpfungsanalyse-Techniken diskutiert oben, welche auf Studien limitiert sind, die mit verwandten Individuen durchgeführt werden in einem oder mehreren der betroffenen Familien),
  • Die Assoziation zwischen einem Biallel-Marker A und einem Merkmal T können in erster Linie als ein Ergebnis von drei möglichen Beziehungen zwischen dem Biallel-Marker und dem Merkmal auftreten.
  • Zuerst kann das Allel a des Biallel-Markers A direkt verantwortlich für das Merkmal T sein (beispielsweise Apo E, 4 site A und Alzheimers Erkrankung). Da jedoch die Mehrheit der Biallel-Marker verwendet in genetischen Kartierungsuntersuchungen zufällig ausgewählt wird, werden sie hauptsächlich außerhalb der Gene kartieren. Folglich ist die Wahrscheinlichkeit, dass das Allel a eine funktionelle Mutation direkt verknüpft mit dem Merkmal T darstellt, sehr gering.
  • Zum Zweiten kann eine Assoziation zwischen einem Biallel-Marker A und einem Merkmal T auch auftreten, wenn der Biallel-Marker sehr eng verknüpft mit der Stelle des Merkmals ist. In anderen Worten tritt eine Assoziation dann auf, wenn ein Allel a in einem Verknüpfungs-Ungleichgewicht mit dem Merkmal-verursachenden Allel ist. Wenn der Biallel-Marker in einer unmittelbaren Nähe zu einem Gen verantwortlich für das Merkmal ist, wird ein extensiveres genetisches Kartieren ultimativ die Entdeckung eines Gens erlauben, das nahe der Markerstelle, welche Mutationen in Menschen mit Merkmal T aufweist, liegt (d.h. das Gen verantwortlich für das Merkmal oder eines der Gene verantwortlich für das Merkmal). Wie des Weiteren unten ausgeführt wird, kann unter Verwendung einer Gruppe von Biallel-Markern, die in unmittelbarer Nähe zu dem Gen verantwortlich für das Merkmal liegen, die Lokalisierung des kausalen Gens vom Profil der Assoziations-Kurve zwischen den Biallel-Markern und dem Merkmal abgeleitet werden. Das kausale Gen wird sich üblicherweise in der Umgebung des Markers finden, der die höchste Assoziation mit dem Merkmal zeigt.
  • Schließlich tritt eine Assoziation zwischen einem Biallel-Marker und einem Merkmal möglicherweise dann auf, wenn Leute mit dem Merkmal und Leute ohne das Merkmal zu genetisch unterschiedlichen Untergruppierungen der Population gehören, welche zufälligerweise auch in der Häufigkeit von Allel a (Bevölkerungsschicht) unterschiedlich sind. Dieses Phänomen kann vermieden werden unter Verwendung großer ethnisch abgeglichener Proben.
  • Assoziations-Studien sind insbesondere geeignet für die effiziente Identifizierung von Genen, welche allgemeine Polymorphismen präsentieren und in multifaktorielle Merkmale involviert sind, deren Frequenz relativ höher als diejenige der Erkrankungen mit monofaktorieller Vererbung ist.
  • Assoziations-Untersuchungen bestehen hauptsächlich aus vier Schritten : Rekrutierung von Merkmal-positiven (T+) und Merkmal-negativen (T–) Populationen mit wohldefinierten Phänotypen, Identifizierung einer Kandidatenregion, von der man erwartet, dass sie ein Merkmal verursachendes Gen beherbergt, Identifikation von besagtem Gen und der besagten Kandidatengene in der Region und letztendlich Validation der Mutation(en) verantwortlich für das Merkmal und besagtes Merkmal-verursachendes Gen.
  • In einem ersten Schritt müssen Merkmal+ und Merkmal-Phänotypen wohldefiniert werden. Um effiziente und signifikante Assoziations-Studien durchzuführen wie diejenigen, die hier beschrieben werden, sollte das Merkmal unter Untersuchung vorzugsweise einer Bimodalverteilung in der Population, die untersucht wird, folgen, wobei zwei klare nicht überlappende Phänotypen präsentiert werden, nämlich Merkmal + und Merkmal –.
  • Nichtsdestotrotz kann bei der Abwesenheit einer solchen bimodalen Verteilung (wie dies tatsächlich für komplexe genetische Charakterzüge der Fall sein kann) irgendein genetischer Merkmal immer noch unter Verwendung des Assoziations-Verfahrens, das hier vorgeschlagen wird analysiert werden, und zwar durch sorgsame Auswahl der Individuen, die in den Merkmal + und Merkmal – Phänotypen-Gruppen eingeschlossen sein sollen. Die Selektionsprozedur involviert das Auswählen von Individuen an entgegengesetzten Enden des nicht-bimodalen Phänotypspektrums des Merkmals, das untersucht wird, um dadurch in diesem Merkmal + und Merkmal – Populationen Individuen einzuschließen, welche klar nicht überlappende, vorzugsweise extreme Phänotypen repräsentieren.
  • Die Definition der Einschlusskriterien für die Merkmal + und die Merkmal-Populationen ist ein wichtiger Aspekt der vorliegenden Erfindung. Die Auswahl dieser drastisch unterschiedlichen jedoch relativ einheitlichen Phänotypen ermöglicht effiziente Vergleiche in Assoziations-Studien und die mögliche Detektion von markierten Unterschieden auf der genetischen Ebene, vorausgesetzt, dass die Probengrößen der Populationen der Untersuchung signifikant genug sind.
  • Im Allgemeinen bestehen Merkmal + und Merkmal – Populationen, die in Assoziations-Studien enthalten sein sollen, wie beispielsweise denjenigen vorgeschlagen in der vorliegenden Erfindung, aus phänotypischen homogenen Populationen von Individuen, die jeweils 100 % des korrespondierenden Phänotyps repräsentieren, falls die Merkmal-Verteilung bimodal ist. Falls die Merkmal-Verteilung nicht modal ist, bestehen Merkmal + und Merkmal – Populationen aus phänotypisch einheitlichen Populationen von Individuen repräsentierend jeweils zwischen 1 und 98 %, vorzugsweise zwischen 1 und 80 %, mehr bevorzugt zwischen 1 und 50 % und mehr bevorzugt zwischen 1 und 30 %, am meisten bevorzugt zwischen 1 und 20 % der gesamten Population der Untersuchung und sind ausgewählt unter Individuen, welche nicht überlappende Phänotypen zeigen. In all den Ausführungsformen bestehen die T+ und T– Gruppen aus Individuen, welche die extremen Phänotypen innerhalb der untersuchten Population zeigen. Je klarer die Differenz zwischen zwei Merkmal-Phänotypen ist, um so größer ist die Wahrscheinlichkeit der Detektion einer Assoziation mit Biallel-Markern.
  • In bevorzugten Ausführungsformen wird eine erste Gruppe von zwischen 50 und 300 Merkmal + Individuen, vorzugsweise etwa 100 Individuen, rekrutiert gemäß den Phänotypen. In jedem Fall wird eine ähnliche Anzahl von Merkmal-negativen Individuen in solchen Studien eingeschlossen, die vorzugsweise sowohl ethnisch als auch vom Alter her mit den Merkmal-positiven Fällen zusammenpassen. Sowohl Merkmal + als auch Merkmal – Individuen sollten mit unverwandten Fällen korrespondieren.
  • 3 zeigt für eine Serie hypothetischer Probengrößen die p-Wert-Signifikanz erhalten in Assoziations-Studien durchgeführt unter Verwendung individueller Marker der hochdichten Biallel-Kartierung gemäß verschiedenen Hypothesen betreffend die Differenz von Allel-Häufigkeiten zwischen den T+ und T– Proben. Es zeigt sich, dass in allen Fällen Proben, die von 150 bis 500 Individuen reichen, zahlreich genug sind, um statistische Signifikanz zu erzielen. Man wird erkennen, dass größere oder kleinere Gruppen verwendet werden können, um Assoziations-Studien gemäß den Verfahren der vorliegenden Erfindung durchzuführen.
  • In einem zweiten Schritt wird eine Marker/Merkmal-Assoziations-Untersuchung durchgeführt, welche die Genotyp-Häufigkeiten von jedem Biallel-Marker in den oben beschriebenen T+ und T– Populationen mit Hilfe eines Chi-Quadrat-statistischen Tests (ein Freiheitsgrad) vergleicht. Zusätzlich zu dieser Einzelmarker-Assoziations-Analyse, wird eine Haplotyp-Assoziations-Analyse durchgeführt, um die Häufigkeit zu definieren und den Typ des von den Vorfahren stammenden Träger-Haplotyps. Die Haplotyp-Analyse vergrößert durch Kombination der Informativität eines Satzes von Biallel-Markern das Potenzial der Assoziations-Analyse, ermöglicht, dass falsch positive und/oder negative Daten, die von Einzel-Marker-Untersuchungen herrühren, eliminiert werden können.
  • Genotypisierung kann durchgeführt werden unter Verwendung der Mikrosequenzierungs-Prozedur beschrieben in Beispiel 13 oder einer irgendeiner anderen genotypisierenden Prozedur, die für die gewünschten Zwecke geeignet ist.
  • Falls eine positive Assoziation mit einem Merkmal unter Verwendung eines Array von Biallel-Markern mit einer ausreichend hohen Dichte identifiziert wird, wird das kausale Gen physikalisch in der Umgebung der assoziierten Marker lokalisiert sein, da die Marker, welche positive Assoziationen mit dem Merkmal zeigen, in einem Verknüpfungs-Ungleichgewicht mit dem Merkmal-Ort stehen. Regionen, welche ein Gen beherbergen, das für ein spezielles Merkmal verantwortlich ist, die durch Assoziations-Untersuchungen identifiziert werden unter Verwendung hochdichter Sätze von Biallel-Markern werden im Durchschnitt 20 – 40 mal kürzer in ihrer Länge sein als diejenigen identifiziert durch Verknüpfungsanalyse.
  • Sobald eine positive Assoziation wie oben beschrieben bestätigt ist, besteht ein dritter Schritt aus dem vollständigen Sequenzieren der BAC-Inserts, welche die Marker beherbergen, die in den Assoziations-Analysen identifiziert wurden. BACs werden durch Screenings von menschlichen genomischen Bibliotheken erhalten und zwar mit Sonden und/oder Primern, wie hier beschrieben. Sobald eine Kandidatenregion sequenziert und analysiert wurde werden die funktionellen Sequenzen innerhalb einer Kandidatenregion (z.B. Exone, Splicestellen, Promotoren und andere potenzielle regulatorische Regionen) hinsichtlich Mutationen gescannt, die für das Merkmal verantwortlich sind und zwar durch Vergleich der Sequenzen der funktionalen Regionen in einer ausgewählten Anzahl von T+ und T– Individuen unter Verwendung geeigneter Software. Werkzeuge zur Sequenzanalyse sind des Weiteren in Beispiel 14 beschrieben.
  • Schlussendlich werden die Kandidatenmutationen dann durch Screenen einer größeren Population von T+ und T– Individuen validiert unter Verwendung von Genotypisierungstechniken wie unten beschrieben. Polymorphismen werden als Kandidatenmutationen bestätigt, wenn die Validierungspopulation Assoziations-Ergebnisse zeigt, die kompatibel mit denjenigen sind, die sich zwischen der Mutation und dem Merkmal in Testpopulation finden.
  • In der Praxis werden um eine Region, die ein Kandidatengen trägt zu definieren, die Merkmal + und Merkmal – Populationen genotypisiert unter Verwendung einer geeigneten Anzahl an Biallel-Markern. Die Marker, die verwendet werden, um eine Region zu definieren, welche ein Kandidatengen trägt, können in einer durchschnittlichen Dichte von 1 Marker pro 10–200 kb verteilt sein. Vorzugsweise sind die Marker, die verwendet werden um eine Region zu definieren, die ein Kandidatengen trägt in einer durchschnittlichen Dichte von 1 Marker pro 15–150 kb verteilt. In weiter bevorzugten Verfahren werden die Marker verwendet, um eine Region zu definieren, die ein Kandidatengen trägt in einer Dichte von 1 Marker pro 20–100 kb verteilt. In noch einem anderen bevorzugten Verfahren sind die Marker die verwendet werden, um eine Region zu definieren, die ein Kandidatengen trägt, in einer durchschnittlichen Dichte von 1 Marker pro 100 bis 150 kb verteilt. In einem weiteren hoch bevorzugten Verfahren sind die Marker die verwendet werden, um eine Region zu definieren, welche ein Kandidatengen trägt, in einer durchschnittlichen Dichte von 1 Marker pro 50 bis 100 kb verteilt. In noch einem weiteren Verfahren sind die Biallel-Marker, die verwendet werden, um eine Region zu definieren, welche ein Kandidatengen trägt, in einer durchschnittlichen Dichte von 1 Marker pro 25–50 Kilobasen verteilt. Wie oben erwähnt werden, um das Potenzial des Verknüpfungs-Ungleichgewichts basierten Kartierung zu vergrößern, in einer bevorzugten Ausführungsform die Markerdichten der Kartierung adaptiert werden, um die Verknüpfungs-Ungleichgewichts-Verteilung in der geomischen Region von Interesse in Erwägung zu ziehen.
  • In einigen Verfahren kann die ursprüngliche Identifikation einer Kandidatengenomischen Region, welche ein Gen beherbergt, das mit einem nachweisbaren Phä notyp assoziiert ist durchgeführt werden unter Verwendung einer vorläufigen Kartierung enthaltend wenige tausend Biallel-Marker. Anschließend kann die genomische Region, welche das Gen beherbergt, das verantwortlich ist für das nachweisbare Merkmal besser abgegrenzt werden unter Verwendung einer Kartierung, die eine größere Anzahl von Biallel-Marken enthält. Des Weiteren kann die genomische Region, welche das Gen verantwortlich für das nachweisbare Merkmal beherbergt des Weiteren abgegrenzt werden unter Verwendung einer hochdichten Kartierung von Biallel-Markern. Letztendlich kann das Gen assoziiert mit dem nachweisbaren Merkmal identifiziert und isoliert werden unter Verwendung einer sehr hohen Dichte der Biallel-Marker-Kartierung.
  • Beispiel 11 beschreibt eine hypothetische Prozedur zum Identifizieren einer Kandidatenregion beherbergend ein Gen assoziiert mit einem detektierbaren Merkmal. Man wird erkennen, dass, obwohl Beispiel 11 die Ergebnisse der Analysen unter Verwendung von Markern abgeleitet aus Kartierungen mit 3 000, 20 000 und 60 000 Markern vergleicht, die Anzahl der Marker enthaltend in der Kartierung nicht begrenzt ist auf diese exemplarischen Zahlen. Vielmehr stellt Beispiel 11 beispielhaft die vergrößernde Verfeinerung der Kandidatenregion mit zunehmender Markerdichte dar. Wenn eine zunehmende Anzahl von Markern in der Analyse verwendet wird, werden Punkte in der Assoziations-Analyse zu breiten Peaks. Das Gen assoziiert mit dem nachweisbaren Merkmal unter Untersuchung wird innerhalb oder in der Nähe der Region hinter dem Peak liegen.
  • Das statistische Potenzial der LD-Kartierung unter Verwendung einer hochdichten Marker-Kartierung wird des Weiteren noch verstärkt durch Komplementierung der Einzelpunkt-Assoziations-Analyse beschrieben in Beispiel 11 mit einer Multi-Marker-Assoziations-Analyse, genannt Haplotyp-Analyse.
  • Wenn ein Chromosom, das ein Krankheits-Allel trägt zuerst in eine Population als ein Ergebnis irgendeiner Mutation oder Migration eingebracht wird, sitzt das mutierte Allel notwendigerweise auf einem Chromosom mit einem einzigartigen Satz von verknüpften Markern : Dem von den Vorfahren stammenden Haplotyp. Wie bereits erwähnt ermöglicht die Haplotyp-Assoziations-Analyse die Definition der Häufigkeit und des Typs des von den Vorfahren stammenden Träger-Haplotyps.
  • Eine Haplotyp-Analyse wird durchgeführt durch Abschätzen der Häufigkeiten aller möglicher Haplotypen für einen gegebenen Satz von Biallel-Markern in der T+ und T– Population und durch Vergleichen dieser Häufigkeiten mit Hilfe eines Chi-Quadratstatistischen Tests (ein Freiheitsgrad).
  • In einer diploiden Population von unverwandten Individuen ist die Abschätzung von Multi-Locus-Haplotyp-Häufigkeiten basierend auf beobachteten Genotypen problematisch, da die gametische Phase des Genotyps (d.h. der Satz von Allelen von verschiedenen Markern transmittiert zusammen durch die Eltern) nicht eindeutig bestimmt werden kann, wie dies leicht in dem folgenden Beispiel gezeigt wird:
  • Man nehme zwei Biallel-Marker Mi und Mj an mit den Allelen ai/bi und aj/bj. Man nehme des Weiteren ein Individuum an, dass heterozygot an den beiden Markern ist. Sein Genotyp ist folglich (ai, bi; aj, bj). Ohne irgendeine weitere Information sind die möglichen Phasen entweder:
    Figure 00420001
  • Dieses Beispiel für zwei Loci kann leicht generalisiert werden für eine zufällige Anzahl von Biallel-Loci. Für einen gegebenen Satz von Markern treten zweideutige Phasen für jedes Individuum, das heterozygot ist an zwei oder mehreren Stellen auf. Um diese Schwierigkeit auszuräumen wurde ein Algorithmus beschrieben und implementiert (Excoffier L, Slatkin M (1995) Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population. Mol. Biol. Evol. 12 : 921–927), welcher die Maximum-Wahrscheinlichkeits-Abschätzung von Haplotyp-Häufigkeiten unter Verwendung des allgemeinen Rahmens von E-M-Algorithmen (Dempster A.P. (1977) Maximum likelihood from incomplete data via the EM algorithm. J. Roy. Stat. Soc. 39 : 1–38) erlaubt.
  • Dieser Typ an Algorithmus wird verwendet zum Handhaben von Daten, wo Kategorien von Interesse (hier die Haplotypen) nicht direkt von den beobachteten Daten unterschieden werden können (unbekannte Phasen-Multi-Locus-Genotypen).
  • Der vorliegende Ansatz verlässt sich auf die Hypothese, dass alle Marker zum Hardy-Weinberg-Gleichgewicht passen.
  • In der vorliegenden Erfindung können die Abschätzungen durchgeführt werden durch Anwendung des Erwartungs-Maximierungs-(Expectation Maximization) – Algorithmus (Excoffier L und Slatkin M, Mol. Biol. Evol. 12 : 921–927 (1995), bzw. unter Verwendung des EM-HAPLO-Programms (Hawley ME, Pakstis AJ & Kidd KK, Am. J. Phys. Anthropol. 18 : 104 (1994)). Der EM-Algorithmus wird verwendet, um Haplotyp- Häufigkeiten in dem Fall abzuschätzen, wo nur Genotypdaten von unverwandten Individuen verfügbar sind. Der EM-Algorithmus ist ein verallgemeinerter iterativer Maximal- Wahrscheinlichkeits-Ansatz zur Abschätzung, der bedeutsam ist, wenn Daten zweideutig und/oder unvollständig sind.
  • In dem E-M-Algorithmus wird die Annahme gemacht, dass das Hardy-Weinberg- Gleichgewicht für die Marker gilt in den Markern, die in den Haplotyp involviert sind, dessen Häufigkeiten in der Population, die es zu untersuchen gilt, abgeschätzt werden.
  • Das Hardy-Weinberg-Gleichgewicht ist eine Hypothese relativ zu einem Marker und einer Population. Es schlägt vor, dass die Population hinreichend groß ist und dass die Paarung zufällig an dieser Stelle ist. Folglich werden, falls an dieser polymorphen Stelle keine störenden Kräfte, wie z.B. Migration, Selektion oder Mutation vorliegen, die Genotypen-Häufigkeiten die Produkte von Allel-Häufigkeiten von jedem der beiden Allele involviert in den Genotyp sein, d.h. die Allele sind statistisch unabhängig in einem Genotyp verteilt.
  • Man betrachte einen Biallel-Marker M mit dem Allel A und B und pA und pB als Allel-Häufigkeiten und pAB und pBB als genotype Häufigkeiten.
  • Ein Parameter, DA, kann die Abweichung von dem Hardy-Weinberg-Gleichgewicht messen, die wie folgt ist DA = pAA – (pA)2 es sollte festgehalten werden, dass für DA auch folgendes gilt DA = pBB – (pB)2 –2DA = pAB–2·(pA·pB)
  • In einer Probe von N-Individuen kann man die Hardy-Weinberg-Hypothese unter Verwendung des statistischen Tests wie folgt überprüfen:
    Figure 00440001
    wobei p ^A und D ^A die Abschätzung der Allel-Häufigkeit und die Abweichung von Hardy-Weinberg-Gleichgewichts-Abschätzungen in der Probe von N-Individuen sind.
  • Für eine große Probe folgt die Statistik wie in Weir (supra) beschrieben einem Chi-Quadrat mit einem Freiheitsgrad. Für große Abschätzungen der Abweichung vom Hardy-Weinberg-Gleichgewicht wird die Statistik größere Werte aufweisen, die zum Verwerfen der Hypothese des Gleichgewichts für den betrachteten Marker in der Population führen. Zum Untersuchen des Hardy-Weinberg-Gleichgewichts kann man auch exakte Tests verwenden (Weir 1996, supra).
  • Im folgenden Teil des Textes werden die Phänotypen sich auf Multi-Locus-Genotypen beziehen mit unbekannter Phase. Genotypen werden sich auf Multi-Locus-Genotypen mit bekannter Phase beziehen.
  • Man nehme eine Probe von N-unverwandten Individuen typisiert für K-Marker an. Die beobachteten Daten sind die Unbekannt-Phasen-K-Locus-Phänotypen, welche in Funterschiedliche Phänotypen kategorisiert werden können. Man nehme an, dass wir H zugrundeliegende mögliche Haplotypen haben (im Fall von K Biallel-Markern ist H = 2K).
  • Für den Phänotyp j nehme man an, dass cj Genotypen möglich sind. Wir kommen folglich zur folgenden Gleichung:
    Figure 00450001
    wo Pj die Wahrscheinlichkeit des Phänotyps j ist, hk und hl die beiden Haplotyp-Konstituenten des Genotyps i sind. Unter dem Hardy-Weinberg-Gleichgewicht werden pr(hk, hl) wie folgt: pr(hk,hl) = pr(hk)2 if hk = hl, pr(hk,hl) = 2pr(hk)·pr(hl) if hk ≠ hp eq. 2
  • Die nachfolgenden Schritte des E-M-Algorithmuses können wie folgt beschrieben werden : Man beginnt mit einem Anfangswert der Haplotyp-Häufigkeit bezeichnet mit p1 (0), p2 (0), ... pT (0). Diese anfänglichen Werte dienen dazu, die Genotyp-Häufigkeiten (Erwartungsschritt) abzuschätzen und dann einen weiteren Satz an Haplotyp- Häufigkeiten abzuschätzen (Maximierungsschritt) : p1 (1), p2 (1), ... pT (1). Diese beiden Schritte werden iteriert, bis eine Veränderung im Satz der Haplotypen-Häufigkeit sehr klein ist.
  • Ein Stopp-Kriterium kann sein, dass die maximale Differenz zwischen der Haplotyp-Häufigkeit zwischen zwei Iterationen weniger als 10–7 ist. Diese Werte können angepasst werden je nach gewünschter Präzision der Abschätzung.
  • Im Detail besteht bei einer gegebenen Iteration s der Erwartungsschritt aus der Berechnung der Genotyp-Häufigkeiten durch die folgende Gleichung:
    Figure 00450002
    wobei Genotyp i im Phänotyp j erscheint und wobei hk und hl den Genotyp i konstituieren. Alle Wahrscheinlichkeiten sind gemäß der obigen Gleichungen eq. 1 und eq. 2 abgeleitet.
  • Dann schätzt der Maximierungsschritt einfach einen weiteren Satz von Haplotyp-Häufigkeiten bei gegebenen Genotyp-Häufigkeiten ab. Dieser Ansatz ist auch als Genzählendes Verfahren bekannt (Smith CAB (1957) Counting methods in genetical statistics, Ann. Hum. Genet. 21 : 254–276).
    Figure 00460001
    wobei δjt eine Indikatorvariable ist, welcher die Anzahl des Auftretens von Haplotyp t in Genotyp i zählt. Sie nimmt die Werte von 0, 1 oder 2 an.
  • Um sicherzustellen, dass die Abschätzung, die letztendlich erhalten wird, die letztendliche Maximal-Wahrscheinlichkeits-Abschätzung darstellt, werden einige Startwerte benötigt. Die erhaltenen Abschätzungen werden verglichen und werden, falls sie sich unterscheiden, werden die Abschätzungen mit der höchsten Wahrscheinlichkeit beibehalten.
  • Um das statistische Potenzial der individuellen Marker-Assoziations-Analysen unter Verwendung von Kartierungen von ansteigenden Markerdichten zu verbessern, können Haplotyp-Untersuchungen durchgeführt werden unter Verwendung von Gruppen von Markern lokalisiert in der Umgebung untereinander innerhalb von Regionen des Genoms. Beispielsweise kann unter Verwendung der Verfahren, in welchen die Assoziation eines individuellen Markers mit einem nachweisbaren Phänotyp analysiert wurde unter Verwendung von Kartierungen von 3 000 Markern, 20 000 Markern und 60 000 Markern, eine Serie von Haplotypen-Untersuchungen durchgeführt werden unter Verwendung von Gruppierungen von benachbarten Markern aus solchen Kartierungen oder aus Kartierungen mit höheren Markerdichten.
  • In einer bevorzugten Ausführungsform kann eine Serie von sukzessiven Haplotyp-Untersuchungen einschließend Gruppen von Markern aufspannend Regionen von mehr als 1 Mb durchgeführt werden. In einigen Ausführungsformen können die Biallel-Marker enthalten in jeder dieser Gruppen lokalisiert sein innerhalb einer genomischen Region, die weniger als 1 kb, von 1 bis 5 kb, von 5 bis 10 kb, von 10 bis 25 kb, von 25 bis 50 kb, von 50 bis 150 kb, von 150 bis 250 kb, von 250 bis 500 kb, von 500 kb bis 1 Mb oder mehr als 1 Mb aufspannt. Vorzugsweise sind die genomischen Regionen, welche die Gruppen von Biallel-Markern verwendet in den sukzessiven Haplotyp-Analysen enthalten, überlappend. Man wird erkennen, dass die Gruppen von Biallel-Markern nicht notwendigerweise die genomischen Regionen von der oben spezifizierten Länge vollständig abdecken müssen, sondern statt dessen von unvollständigen Contigs mit einer oder mehreren Lücken darin erhalten sein können. Wie im weiteren Detail unten diskutiert können Biallel-Marker in Einzel-Punkt und Haplotyp-Assoziations-Analysen eingesetzt werden unabhängig der Vollständigkeit des korrespondierenden physikalischen Contigs, welches sie beherbergt.
  • Es wird verständlich sein, dass die obigen Ansätze auf irgendeiner Skala durchgeführt werden können (d.h. über das gesamte Genom, einen Satz von Chromosomen, ein einzelnes Chromosom, eine spezielle subchromosomale Region, oder irgendeine andere gewünschte Portion des Genoms). Wie oben erwähnt können die Populationsprobengrößen, sobald Signifikanzschranken beurteilt worden sind, wie in 3 beispielhaft dargestellt adaptiert werden.
  • Die Verfahren beschrieben in Beispielen 20–23 unten ermöglichen die Bestimmung, ob eine Kandidaten-genomische Region, von der man erwartet, dass sie eine oder mehrere Gene assoziiert mit einem nachweisbaren Merkmal beherbergt, eine weitere Beurteilung garantieren. Die genomische Kandidaten-Region kann wie oben beschrieben identifiziert werden oder, alternativ kann die genomische Kandidaten-Region ausgewählt werden auf der Basis einer bereits erwarteten Assoziation mit dem nachweisbaren Merkmal wie in den Beispielen 12–19 unten beschrieben.
  • Die Verfahren der vorliegenden Erfindung involvieren das Durchführen von Haplotyp-Analysen auf Gruppen von Biallel-Markern. Beispiel 12 unten illustriert den Anstieg des statistischen Potenzials hervorgerufen durch eine Assoziations-Untersuchung durch eine Haplotyp-Analyse.
  • Sobald eine gegebene polymorphe Stelle identifiziert wurde und als ein Biallel-Marker gemäß den Verfahren der vorliegenden Erfindung charakterisiert wurde, können verschiedene Verfahren verwendet werden, um die spezifischen Allele, die von einem Individuum an der gegebenen polymorphen Base getragen werden, zu bestimmen.
  • Die meisten genotypisierenden Verfahren benötigen die frühere Amplifikation einer DNA-Region, welche die polymorphe Stelle von Interesse trägt.
  • Die Identifikation von Biallel-Markern wie zuvor beschrieben ermöglicht das Design von geeigneten Oligonukleotiden, welche als Primer verwendet werden können, um ein DNA-Fragment enthaltend die polymorphe Stelle von Interesse zu amplifizieren bzw. für die Detektion von solchen Polymorphismen.
  • Beispielsweise in den Beispielen unten können die Paare von Primern von SEQ ID Nrn 13–18 und 19–23 verwendet werden, um Amplicons, welche die Marker von SEQ ID Nrn 1–6 und 7–12 oder die Sequenzen komplementär dazu beherbergen, zu erzeugen.
  • Es ist leicht ersichtlich, dass Amplifikations-Primer designed werden können, die irgendeine Länge aufweisen, die geeignet ist für ihren gewünschten Zweck, insbesondere irgendeine Länge, die ihre Hybridisierung mit einer Region des DNA-Fragments, das es zu amplifizieren gilt, ermöglichen.
  • Es ist des Weiteren leicht einzusehen, dass die Hybridisierungsstelle von besagten Amplifikations-Primern in irgendeinem Abstand von der polymorphen Basis, die genotypisiert werden sollen, lokalisiert sein kann, vorausgesetzt, dass besagte Amplifikations-Primer die geeignete Amplifikation eines DNA-Fragments ermöglichen, welches besagte polymorphe Stelle trägt. Die Amplifikations-Primer können Oligonukleotide von 10, 15, 20 oder mehr Basen an Länge sein, welche die Amplifikation der polymorphen Stelle in dem Marker ermöglichen. In einigen Ausführungsformen kann das Amplifikations-Produkt erzeugt unter Verwendung dieser Primer zumindest 100 Basen lang sein (d.h. im Durchschnitt 50 Nukleotide auf jeder Seite der polymorphen Base). In anderen Aus führungsformen kann das Amplifikations-Produkt erzeugt unter Verwendung dieser Primer zumindest 500 Basen lang sein (d.h. im Durchschnitt 250 Nukleotide auf jeder Seite der polymorphen Base). In noch weiteren Ausführungsformen kann das Amplifikations-Produkt erzeugt unter Verwendung dieser Primer zumindest 1 000 Basen lang sein (d.h. im Durchschnitt 500 Nukleotide auf jeder Seite der polymorphen Base).
  • Die Amplifikation von polymorphen Fragmenten kann durchgeführt werden wie in Beispiel 6 auf den DNA-Proben extrahiert wie beschrieben in Beispiel 5. Wie bereits erwähnt können Allel-Häufigkeiten von Biallel-Markern getestet in Assoziations-Studien (individuell oder Haplotyp) bestimmt werden unter Verwendung von Mikrosequenzierungs-Prozeduren.
  • Ein erster Schritt in Mikrosequenzierungs-Prozeduren besteht aus dem Designen von Primern zum Mikrosequenzieren adaptiert auf jeden Biallel-Marker, der genotypisiert werden soll. Primer zum Mikrosequenzieren hybridisieren upstream der polymorphen Phase, die es zu genotypisieren gilt, entweder mit dem kodierenden oder mit dem nichtkodierenden Strang. Primer zum Mikrosequenzieren können Oligonukleotide von 8, 10, 15, 20 oder mehr Basenlänge sein. Vorzugsweise ist das 3'-Ende des Primers zum Mikrosequenzieren unmittelbar upstream von der polymorphen Base des Biallel-Markers, der genotypisiert werden soll, gelegen, so dass nach Verlängerung des Primers die polymorphe Base die erste eingebrachte Base ist.
  • Es wird leicht ersichtlich sein, dass die Biallel-Marker der vorliegenden Erfindung genotypisiert werden können unter Verwendung von mikrosequenzierenden Primern, welche irgendeine gewünschte Länge aufweisen und an irgendeinem der Stränge des zu testenden Markers hybridisieren, vorausgesetzt, dass ihr Design geeignet ist für den gewünschten Zweck. In einigen Ausführungsformen können die Amplifikations-Primer oder die Primer für die Mikrosequenzierung gelabelt sein. Beispielsweise können in einigen Ausführungsformen die Amplifikations-Primer oder die Primer für die Mikrosequenzierung biotinyliert sein.
  • Typische Mikrosequenzierungs-Prozeduren, die verwendet werden können im Kontext der vorliegenden Erfindung, werden in Beispiel 13 unten beschrieben.
  • Als eine weitere Alternative wurden Festphasenreaktionen zur Mikrosequenzierung entwickelt, für welche entweder Oligonukleotid-Primer zum Mikrosequenzieren oder die PCR-amplifizierten Produkte abgeleitet vom DNA-Fragment von Interesse immobilisiert werden. Beispielsweise kann die Immobilisierung durchgeführt werden über eine Wechselwirkung zwischen biotinylierter DNA und mit Streptavidin-gecoateten Mikrotitrations-Wells oder Avidin-gecoateten Polystyren-Partikeln.
  • Als eine weitere Alternativ kann die PCR-Reaktion, welche die Amplicons, die genotypisiert werden sollen, erzeugt, durchgeführt werden direkt unter Festphasenbedingungen, wobei nach Prozeduren vorgegangen wird wie denjenigen beschrieben in WO 96/13609, deren Offenbarung hier durch Verweis eingeschlossen ist.
  • In solchen Festphasen-Mikrosequenzierungs-Reaktionen können eingebrachte ddNTPs entweder radiogelabelt sein (siehe Syvänen, Clin. Chim. Acta. 226 : 225–236 (1994)) oder verknüpft mit Fluorescein (siehe Livak und Hainen, Hum. Metat. 3 : 379-385 (1994)). Die Detektion von radiogelabelten ddNTPs kann erzielt werden durch Szintillations-basierte Techniken. Die Detektion von Fluorescein-verknüpften ddNTPs kann basiert sein auf dem Binden von Antifluorescein-Antikörpern konjugiert mit alkalischer Phosphatase, gefolgt von der Inkubation mit einem chromogenen Substrat (wie z.B. p-Nitrophenylphosphat).
  • Weitere mögliche Reporter-Detektionspaare zur Anwendung in den obengenannten Mikrosequenzierungs-Prozeduren schließen folgendes ein:
    • – ddNTP-verknüpft an Dinitrophenyl (DNP) und anti-DNP alkalisches Phosphatase-Konjugat (siehe Harju et al., Clin Chem : 39 (11Pt 1) : 2282–2287 (1993)).
    • – biotinyliertes ddNTP und Meerrettich-Peroxidase-konjugiertes Streptavidin mit o-Phenylendiamin als ein Substrat (siehe WO 921 15712).
  • Ein Diagnosekit basierend auf Fluorescein-gelabeltem ddNTP mit Antifluorescein-Antikörpern, die mit alkalischer Phosphatase konjugiert sind, wurde unter dem Namen PRONTO von GamidaGen Ltd., kommerzialisiert.
  • Als noch eine alternative Mikrosequenzierungs-Prozedur haben Nyren et al. (Anal. Biochem. 208 : 171–175 (1993)) eine Festphasen-DNA-Sequenzierungs-Prozedur beschrieben, die auf der Detektion von DNA-Polymerase-Aktivität durch einen enzymatischen luminometrischen anorganischen Pyrophosphat-Detektionsassay (ELIDA, enzymatic luminometric inorganic pyrophosphate detection assay) aufbaut. In dieser Prozedur sind die PCR-amplifizierten Produkte biotinyliert und auf Beads immobilisiert. Der mikrosequenzierende Primer ist annealed und vier Aliquots dieser Mischung werden separat mit DNA-Polymerase und einem der vier verschiedenen ddNTPs inkubiert. Nach der Reaktion werden die resultierenden Fragmente gewaschen und als Substrate in einer Primer-Verlängerungsreaktion mit allen vier vorliegenden dNTPs verwendet. Der Fortschritt der DNA-gerichteten Polymerisations-Reaktion wird mit dem ELIDA überwacht. Die lnkorporation eines ddNTPs in die erste Reaktion verhindert die Ausbildung von Pyrophosphat während der nachfolgenden dNTP-Reaktion. Im Gegensatz dazu ergibt die Nicht-Zugabe von ddNTPs in der ersten Reaktion extensive Pyrophosphatfreisetzung während der dNTP-Reaktion und dies führt zur Erzeugung von Licht während der ELIDA-Reaktionen. Von den ELIDA-Ergebnissen kann die Identität der ersten Base nach dem Primer leicht deduziert werden.
  • Es wird leicht ersichtlich sein, dass verschiedene Parameter der oben beschriebenen Mikrosequenzierungs-Prozeduren erfolgreich durch die Fachleute auf dem Gebiet ohne unzumutbar aufwändige Experimentierung modifiziert werden können. Insbesondere können High throughput-Verbesserungen in diesen Prozeduren erarbeitet werden folgend den Prinzipien wie denjenigen, die des Weiteren unten beschrieben werden.
  • Es wird des Weiteren leicht verständlich sein, dass irgendeine andere genotypisierende Prozedur für das Genotypisieren von Biallel-Markern eingesetzt werden kann.
  • Beispiele 14–19 unten illustrieren die Anwendung von Verfahren unter Verwendung von Biallel-Markern zur Identifikation eines Gens, das mit einer komplexen Erkrankung assoziiert ist, Prostata-Krebs, und zwar innerhalb einer etwa 450 kb Kandidatenregion. Weitere Details der Identifikation des Gens assoziiert mit Prostata-Krebs werden in der US-Patentanmeldung mit dem Titel "Prostate Cancer Gene" (WO 99/32644) bereitgestellt.
  • Sobald eine genomische Kandidatenregion, wie z.B. ein BAC-Insert, von der man annimmt, dass sie ein Gen beherbergt, dass sie mit einem nachweisbaren Merkmal assoziiert ist, identifiziert worden ist, wird sie unter Verwendung der Verfahren der Beispiele 20–23 beurteilt, um zu bestimmen, ob sie tatsächlich wahrscheinlicherweise ein Gen assoziiert mit dem nachweisbaren Merkmal beherbergt.
  • Falls es wahrscheinlich erscheint, dass eine genomische Kandidatenregion ein Gen assoziiert mit dem Merkmal beherbergt, wird die Existenz von einem oder mehreren Genen assoziiert mit einem nachweisbaren Merkmal innerhalb der Kandidatenregion bestätigt durch Identifizieren von mehreren Biallel-Markern, die in der Kandidatenregion liegen und zwar unter Verwendung der Techniken wie oben beschrieben. Vorzugsweise haben die Biallel-Marker in der genomischen Kandidatenregion einen durchschnittlichen Inter-Marker-Abstand von weniger als 1 kb, 1–3 kb, 3–5 kb ungefähr 5 kb, ungefähr 10 kg, ungefähr 20 kb oder ungefähr 30 kb. In einer höchst bevorzugten Ausführungsform spannen die Biallel-Marker die gesamte genomische Kandidatenregion auf. In besonderen Ausführungsformen können die Biallel-Marker lokalisiert in dem Kandidatengen oder in der Umgebung des Kandidatengens in der Analyse verwendet werden. In einigen Ausführungsformen können die Biallel-Marker, die in den kodierenden Regionen liegen, verwendet werden. In anderen Ausführungsformen können die Biallel-Marker verwendet zur Analyse Biallel-Marker sein, in welchen die Häufigkeit der mindestens gemeinsamen Allele in der Population zumindest 30 %, zumindest 20 % oder zumindest 10 %. 14 illustriert, dass seltene Biallel-Marker in einem Verknüpfungs-Ungleichgewicht mit häufigeren Markern oder mit anderen seltenen Markern liegen können. Alternativ können Biallel-Marker innerhalb nichtkodierender Exons oder innerhalb von Introns verwendet werden. 15 illustriert das Nicht-Exon-Marker in einem Verknüpfungs-Ungleichgewicht mit Exon-Markern oder mit anderen Nicht-Exon-Markern sein können. In 15 sind Nb-Paare die Anzahl der Markerpaare, für welche das Verknüpfungs-Ungleichgewicht kalkuliert wurde.
  • Eine erste Haplotyp-Analyse wird durchgeführt für jede mögliche Kombination von Gruppen von Biallel-Markern innerhalb der genomischen Region, von der man erwartet, dass sie ein Merkmal-assoziiertes Gen beherbergt. Die Anzahl der Biallel-Marker in jeder Gruppe ist vorzugsweise zumindest drei, kann aber auch zwei, 4, 5, 6 oder Gruppen darstellen, welche irgendeine Anzahl von Markern umfassen, die kompatibel mit dem Computersystem, das zur Anlayse verwendet wird, sind. Es wird leicht einsichtig sein, dass mit wachsender Zahl an Markern pro Gruppe die Zahl an Markern benötigt, um die Analyse durchzuführen, wächst und die Zahl der Haplotyp-Ergebnisse, die erzeugt werden, zunimmt. Folglich steigt mit zunehmender Anzahl von Markern pro Gruppe die Probengröße der Populationen, die für die Analyse benötigt wird, ebenso an. Es wird leicht ersichtlich sein, dass die Beziehung zwischen der Anzahl der Haplotypen erzeugt in der Analyse und der Anzahl von Individuen in der Kontrollpopulation und der Population, welche das Merkmal exprimiert, die benötigt werden, um die Analyse zu fahren, von der Durchdringung des Merkmal-assoziierten Gens beeinflusst sein können, vom Grad des Risikos, welches dem Gen zuzuordnen ist und dem Verknüpfungs-Ungleichgewichts-Muster zwischen den Markern um das Kandidatengen, die in der Analyse verwendet werden. Alternativ kann anstelle des Durchführens der Haplotyp-Analysen mit Gruppen von Markern, die Assoziation von individuellen Markern mit dem nachweisbaren Merkmal gemessen werden.
  • Für Zwecke der beispielhaften Darlegung der vorliegenden Verfahren werden Gruppen von drei Biallel-Markern in den Beispielen unten verwendet, so dass insgesamt acht Kombinationen an Markerallelen für jede Gruppe möglich sind. Es wird jedoch leicht einsichtig sein, dass die Verfahren mit Gruppen von zwei Markern, Gruppen von 3 Markern, Gruppen von 4 Markern, Gruppen von 5 Markern, Gruppen von 6 Markern oder Gruppen umfassend irgendeine Anzahl von Markern, die kompatibel mit dem Computersystem sind, das für die Analyse verwendet wird, durchgeführt werden können. Die Häufigkeit einer jeden Kombination (d.h. jedes Haplotyps oder, falls individuelle Marker verwendet werden, von jedem Allel der individuellen Marker) wird in Individuen abgeschätzt, welche das Merkmal exprimieren und in Individuen, die das Merkmal nicht exprimieren. Beispielsweise kann die Häufigkeit eines jeden Haplotyps (oder jeden Allels der individuellen Marker) in jeder der Populationen von Individuen abgeschätzt werden unter Verwendung der Erwartungs-Maximierungs-Methode von Excoffier L und Slatkin M, Mol. Biol. Evol. 12 : 921–927 (1995), die auch oben beschrieben wurde, und unter Verwendung des EM-HAPLO-Programms (Hawley ME, Pakstis AJ & Kidd KK, Am. J. Phys. Anthropol. 18 : 104 (1994)). Alternativ kann die Analyse unter Verwendung einzelner Marker durchgeführt werden.
  • Die Häufigkeiten von allen der möglichen Haplotypen (oder jedem Allel der individuellen Marker) in Individuen, welche das Merkmal exprimieren, und in Individuen, die das Merkmal nicht exprimieren, werden verglichen. Vorzugsweise werden die Häufigkeit von jeden der möglichen Haplotypen in Individuen, welche das Merkmal exprimieren und Individuen, welche das Merkmal nicht exprimieren, verglichen durch Durchführen einer Chi-Quadrat-Analyse. Innerhalb jeder Gruppe von Markern wird der Haplotyp (oder das Allel des individuellen Markers) mit dem besten Wert (d.h. der größten Assoziation mit dem Merkmal) ausgewählt zum Einschluss in einer Verteilung von Assoziations-Werten, die hier als "Kandidatenregion"-Verteilung bezeichnet werden. Beispielsweise ist, falls die Haplotyp-oder Allel-Häufigkeiten unter Verwendung der Chi-Quadrat-Analyse verglichen werden, der Chi-Quadrat-Wert für die Kombination an Markern in jeder Gruppe, die die größte Assoziation mit dem Merkmal aufweist, in der "Kandidatenregion"-Verteilung enthalten.
  • Eine zweite Haplotyp-Analyse wird durchgeführt für jede mögliche Kombination von Gruppen an Biallel-Markern oder individuellen Markern innerhalb von zufälligen genomischen Regionen. Für Zwecke der beispielhaften Darlegung der vorliegenden Verfahren werden Gruppen von drei Biallel-Markern verwendet in den Beispielen unten, so dass insgesamt acht Kombinationen an Markerallelen für jede Gruppe möglich sind. Es wird jedoch leicht einsichtig sein, dass die Verfahren mit Gruppen von zwei Markern, Gruppen von 3 Markern, Gruppen von 4 Markern, Gruppen von 5 Markern, Gruppen von 6 Markern oder Gruppen umfassend eine Anzahl von Markern, die kompatibel mit dem eingesetzten Computersystem für die Analyse sind, durchgeführt werden können. Vorzugsweise weisen die Marker in den zufälligen genomischen Regionen einen durchschnittlichen Inter-Abstand von einen Marker pro alle 3 kb, einen Marker pro alle 5 kb, einen Macker pro alle 10 kb, einen Marker pro alle 20 kb, einen Marker pro alle 30 kb auf. Alternativ können die Marker in den zufälligen genomischen Regionen Marker umfassen, die nicht in einem gesamten Verknüpfungs-Ungleichgewicht untereinander vorliegen. In einer alternativen Ausführungsform kann anstelle des Durchführens der Haplotyp-Analysen mit Gruppen von Markern die Assoziation von individuellen Markern in den zufälligen genomischen Regionen mit dem nachweisbaren Merkmal gemessen werden.
  • Die Häufigkeit einer jeden Kombination (d.h. jedes Haplotyps oder, falls ein individueller Marker verwendet wird, jeden Allels des individuellen Markers) wird in Individuen abgeschätzt, welche das Merkmal exprimieren und in Individuen, welche das Merkmal nicht exprimieren. Beispielsweise kann die Häufigkeit eines jeden Haplotyps (oder jeden Allels in einem individuellen Marker) in jeder der Populationen von Individuen abgeschätzt werden unter Verwendung des Erwartungs-Maximierungs-Verfahrens von Excoffier und Slatkin und dem EM-HAPLO-Programm wie oben beschrieben.
  • Die Häufigkeiten von allen der möglichen Haplotypen (oder jedem Allel eines individuellen Markers) in Individuen, welche das Merkmal exprimieren, und Individuen, welche das Merkmal nicht exprimieren, werden verglichen. Vorzugsweise wird die Häufigkeit der möglichen Haplotypen (oder jeden Allels eines individuellen Markers) in Individuen, welche das Merkmal exprimieren und Individuen, welche das Merkmal nicht exprimieren, durch Durchführen einer Chi-Quadrat-Analyse verglichen. Innerhalb jeder Gruppe von Markern wird der Chi-Quadrat-Wert des Haplotyps (oder des Allels eines individuellen Markers) mit der größten Assoziation mit dem Merkmal ausgewählt für den Einschluss in einer Verteilung an Testwerten, die hier als "Zufallsregion"-Verteilung bezeichnet werden.
  • In einigen Ausführungsformen werden die Haplotyp-Häufigkeiten (oder Allel-Häufigkeiten von individuellen Markern) von Biallel-Markern in den zufälligen genomischen Regionen, die betrachtet werden für den Einschluss in der Konstruktion der Zufallsregion-Verteilung, verglichen mit denjenigen erhalten für Marker lokalisiert in anderen zufälligen genomischen Regionen, um sicherzustellen, dass die zufälligen genomischen Regionen, die für den Einschluss in der Zufallsregion-Verteilung betrachtet werden, nicht tatsächlich Marker einschließen, welche eine signifikante Assoziation mit dem Merkmal aufweisen.
  • Alternativ können die Biallel-Marker aus den zufälligen genomischen Regionen, um zu bestätigen, dass die Marker eingeschlossen in den zufälligen genomischen Regionen geeignet sind für die Anwendung in der Zufallsregion-Verteilung, in zwei Hälften unterteilt werden. Eine Verteilung kann dann mit jeder Hälfte etabliert werden. Es kann bewertet werden, ob diese beide Verteilungen unterschiedlich sind. Falls der Unterschied zwischen den beiden Verteilungen nicht signifikant ist, ist der Zufallsmarker-Satz pas send. Auf diese Art und Weise können alle der Biallel-Marker innerhalb von zufälligen genomischen Regionen innerhalb der Zufallsregion-Verteilung eingeschlossen sein. Dieser Ansatz wird unten beschrieben.
  • Die Kandidaten-Verteilung von Assoziations-Werten und die zufällige Region-Verteilung von Assoziations-Werten werden dann miteinander verglichen, um zu bestimmen, ob signifikante Unterschiede zwischen den beiden Verteilungen auftreten. Falls signifikante Unterschiede auftreten zwischen den Verteilungen, wird die Kandidaten-genomische Region wahrscheinlich ein Gen beherbergen, das mit dem Merkmal assoziiert ist. Im Gegensatz dazu wird, falls keine signifikanten Unterschiede zwischen den beiden Verteilungen vorliegen, es unwahrscheinlich sein, dass die genomische Kandidatenregion ein Gen assoziiert mit dem nachweisbaren Merkmal beherbergt.
  • Die beiden Verteilungen können miteinander verglichen werden unter Verwendung irgendwelcher Mittel, die dem Fachmann auf dem Gebiet vertraut sind, einschließend, jedoch nicht limitiert auf den Chi-Quadrat-Test, Tests basierend auf einer empirischen Verteilung, Wahrscheinlichkeits-Verhältnis-Test, Permutations-Test, Sign-Test, Medien-Test, Wilcoxon-Rank-Test und Kolmogorov-Smirnov-Test. Vorzugsweise werden die beiden Verteilungen miteinander verglichen unter Verwendung von Tests, die nicht davon ausgehen, dass die beiden Verteilungen eine Normalverteilung aufweisen. In einigen bevorzugten Ausführungsformen werden die beiden Verteilungen miteinander verglichen unter Verwendung entweder des Wilcoxon-Rank-Tests (Noether, G.E. (1991) Introduction to statistics : "The nonparametric way", Springer-Verlag, New York, Berlin) oder des Kolmogorov-Smirnov-Tests (Saporta, G. (1990) "Probabilités, analyse des donnees et statistiques" Technip editions, Paris) oder sowohl des Wilcoxon-Rank-Test als auch des Kolmogorov-Smirnov-Tests.
  • In dem Wilcoxon-Rank-Test vergleicht man die beiden Proben der jeweiligen n1- und n2-Werte einer kontinuierlichen Variablen, hier der Chi-Quadrat-Werte basierend auf den Haplotyp-Häufigkeits-Unterschieden zwischen Fällen und Kontrollen. Alle n1- und n2-Werte werden gepoolt und dann sortiert. Jedem Wert wird ein Rang in einem solch geordneten Satz zugeordnet. Es sei
    W1 = die Summe der Rangs zugeordnet zur ersten Probe von n1-Werten, und
    W2 = die Summe des Rangs zugeordnet der zweiten Probe an n2-Werten.
  • Falls N = n1 + n2 ist die Summe von Rängen W fixiert und gleich: W = W1 + W2 = N(N+1)/2.
  • Unter der Null-Hypothese, d.h., dass zwei Verteilungen äquivalent sind, sind der Erwartungswert und die Varianz von W1 jeweils wie folgt: E(W1) = n1(N + 1)/2 und V(W1) = n1 × n2(N + 1)/12
  • Es ist wert festzustellen, dass die obigen Gleichungen die Berechnung von Erwartungswert und Varianzen von W1 ermöglichen, vorausgesetzt, dass keine Testwerte den gleichen Rang aufweisen. In solch einer Situation sollten Erwartungswert und Varianz berechnet werden durch Zuordnung eines durchschnittlichen Rangs zu jedem solcher Testwerte. Solche Einstellungen für die Varianzberechnung werden von Hajek beschrieben (Hajek (1969) A course in non parametric statistics, 2nd edition, New York, John Wiley & sons, Inc.).
  • Dementsprechend kann die Statistik Z wie folgt definiert werden:
    Figure 00570001
  • Unter der Null-Hypothese, d.h. die beiden Verteilungen sind äquivalent wird für eine insgesamte Probengröße von mehr als 8 (N größer als oder gleich 8) Z eine Normalverteilung aufweisen mit einem Erwartungswert von 0 und einer Varianz von 1.
  • Für einen beobachteten Wert z von Z kann ein p-Wert abgeleitet werden, welcher die Wahrscheinlichkeit definiert, dass Z größer als der beobachtete Wert ist. Eine Wahrscheinlichkeit von weniger als 1 % korrespondierend mit einem beobachteten Wert größer als 2,32 oder weniger als – 2,32 deutet daraufhin, dass ein signifikanter Unterschied zwischen der Zufallsregion-Verteilung und der Kandidatenregion-Verteilung vorliegt (d.h., dass die genomische Datenregion wahrscheinlicherweise ein Gen assoziiert mit dem nachweisbaren Merkmal enthält und weiter untersucht werden sollte).
  • Alternativ können die Zufallsregion-Verteilung und die Kandidatenregion-Verteilung miteinander verglichen werden unter Verwendung des Kolmogorov-Smirnov-Tests und zwar wie folgt. Wie oben beschrieben sind n1 und n2 Ereignisse einer kontinuierlichen Variablen. Falls n1 und n2 zufällige Sätze von Quantitäten verteilt gemäß den beiden Zufalls-Variablen X1 und X2 sind, dann ist die kumulative Verteilungsfunktion F1(x) von X1 wie folgt definiert (F2(x), die kumulative Funktion von X2 ist entsprechend definiert): F1(x) = pr(X1 < x) und F2(x) = Pr (X2 < x),wobei x ein Wert in der Definition-Domäne von X1 bzw. X2 ist.
  • Die Schätzfunktionen der beiden kumulativen Verteilungsfunktionen F1·(x) und F2·(x) können berechnet werden. Für jedes Ereignis x kann die folgende Differenz berechnet werden basierend auf den Ereignisräumen n1 und n2 D(x) = |F1·(x) – F2·(x)|
  • Über die N (N = n1 + n2) Ereigniswerte gibt Dmax den Maximalwert von D (x) an. Basierend auf dem oben genannten wurde die folgende Statistik abgeleitet:
    Figure 00580001
  • Unter der Null-Hypothese der Äquivalenz zwischen zwei Verteilungen, ist es bekannt, dass die Wahrscheinlichkeit des Ereignisses eines Wertes t größer als der Ereigniswert von T einer Verteilung folgt, die als Kolmogorov-Funktion bekannt ist (K1(t)). Wichtige Abweichungen korrespondierend mit einer Wahrscheinlichkeit von weniger als 0,01 werden als signifikant betrachtet (d.h. die genomische Kandidatenregion wird wahrscheinlich ein Gen assoziiert mit einem nachweisbaren Merkmal beherbergen). Der p- Wert assoziiert mit dem beobachteten Wert von T ist ein Hinweis darauf, wie die Verteilungen sich untereinander unterscheiden.
  • Bei einer gegebenen Probengröße kann ein Dmax-Wert korrespondierend mit der p-Wert-Schranke von 0,01 leicht identifiziert werden wie in Kim und Jenrich beschrieben (Kim und Jenrich (1990) Selected tables in mathematical statistics Harter & Owenn eds., Chicago, Markham publishing Co.).
  • Alternativ können die Zufallsregion-Verteilung und die Kandidatenregion-Vereilung untereinander verglichen werden sowohl unter Verwendung des Wilcoxon-Tests als auch des Smirnov-Tests.
  • Ein alternatives Verfahren zum Bestätigen, dass eine genomische Region ein Gen assoziiert mit einem nachweisbaren Merkmal beherbergt, umfasst die folgenden Schritte von:
    Konstruieren der Kandidatenregion-Verteilung an Testwerten unter Verwendung einer Vielzahl von Biallel-Markern in einer genomischen Kandidatenregion, von der erwartet wird, dass sie ein Gen beherbergt, wobei besagtes Gen mit einem nachweisbaren Merkmal assoziiert ist, besagte Kandidatenregion-Verteilung an Testwerten auf den Unterschied in den Häufigkeiten von besagter Vielzahl von Biallel-Markern in besagter Kandidatenregion zwischen Individuen, welche besagtes Merkmal aufweisen, und Kontrollindividuen, welche besagtes Merkmal nicht besitzen, hinweist;
    Konstruktion einer simulierten Verteilung von Testwerten unter Verwendung mehreren Biallel-Marker, die zufällig ausgewählt sind aus Biallel-Markern lokalisiert in genomischen Zufallsregionen und Biallel-Markern lokalisiert in genomischen Kandidatenregionen, von denen angenommen wird, dass sie ein Gen beherbergen, wobei besagtes Gen assoziiert ist mit einem nachweisbaren Merkmal und besagte simulierte Verteilung an Testwerten auf die Differenz in den Häufigkeiten von besagter Vielzahl von Biallel-Markern in besagten genomischen Zufallsregionen in Individuen, welche besagtes nachweisbare Merkmal besitzen, und Kontrollindividuen, welche besagtes nachweisbare Merkmal nicht besitzen, hinweist; und
    Bestimmen, ob besagte Kandidatenregion-Verteilung an Testwerten und besagte simulierte Verteilung an Testwerten signifikant unterschiedlich untereinander sind.
  • Vorzugsweise umfasst besagter Schritt des Konstruierens einer Kandidatenregion-Verteilung an Testwerten folgendes:
    Durchführen einer Haplotyp-Analyse mit jeder möglichen Kombination an Biallel-Markern in jeder Gruppe in einer Serie von Gruppen an Biallel-Markern in besagter Kandidatenregion;
    Berechnen von Testwerten für jede mögliche Kombination; und
    Einschließen der Testwerte für den Haplotyp, der die größte Assoziation mit besagtem Merkmal in besagter Kandidatenregion-Verteilung von Testwerten für jede Gruppe in einer Serie von Gruppen von Biallel-Markern in besagter genomischer Kandidatenregion aufweist, und wobei besagter Schritt des Konstruierens einer simulierten Verteilung von Testwerten folgendes umfasst:
    Zuordnen eines jeden von besagten Biallel-Markers in besagter genomischer Kandidatenregion und eines jeden von besagten Biallel-Markern in besagten genomischen Zufallsregionen einer Identifikationsnummer;
    Definieren von Gruppen von Biallel-Markern durch zufälliges Auswählen von Kombinationen von Identifikationsnummern unter Verwendung eines Zufallszahlengenerators, wobei die Marker, denen die ausgewählten Identifikationsnummern zugeordnet sind, in besagten Gruppen enthalten sind;
    Durchführen einer Haplotyp-Analyse mit jeder möglichen Kombination an Biallel-Markern in jeder Gruppe in einer Serie von Gruppen von Biallel-Markern, welche Identifikationsnummern zugeordnet wurden;
    Berechnung von Testwerten für jede mögliche Kombination; und
    Einschließen des Testwerts für den Haplotyp, welcher die größte Assoziation mit besagtem Merkmal in besagter simulierter Verteilung an Testwerten für jede Gruppe in besagter Serie von Gruppen von Biallel-Markern aufweist.
  • Beispiele 20–33 unten stellen beispielhaft die Anwendung des vorliegenden Verfahrens der genomischen Kandidatenregion, welche das Gen assoziiert mit Prostata-Krebs beherbergt, dar. Alle der Analysen unten wurden durchgeführt unter Verwendung der NPAR1WAY-Prozedurch des SAS-Programms (SAS Institute Inc. (1996) SAS/STAT User's Guide Volll. Release 6.12, Ed. Cary, NC, U.S.A.).
  • Falls sich die genomische Kandidatenregion herausstellt als wahrscheinlich ein Gen beherbergend, das assoziiert ist mit einem nachweisbaren Merkmal nach Durchführung der obigen Analyse, wird sie des Weiteren untersucht, um das Gen, verantwortlich für das Merkmal, zu isolieren. Den Fachleuten auf dem Gebiet sind Techniken vertraut zum Isolieren von Merkmal-assoziierten Genen. Essentiellerweise wird die Sequenz der genomischen Kandidatenregion bestimmt und Gene, welche darin liegen, werden identifiziert unter Verwendung von Software, welche offene Leserahmen identifiziert, Introns und Exons, Homologien mit bekannten Proteinsequenzen oder bekannten Nukleinsäuresequenzen oder Homologien mit bekannten Proteinmotiven. Beispielsweise können potenzielle Gensequenzen mit verschiedenen Datenbanken verglichen werden, um potenzielle Exons unter Verwendung eines Satzes von Treffer-Algorithmen zu identifizieren, wie z.B. den erprobten Hidden Marker Modellen, statistischen Analysemodellen (einschließlich Promotorvorhersagewerkzeugen) und dem GRAIL neuralen Netzwerk.
  • Tatsächlich wurden die voranschreitenden Techniken eingesetzt, um Proteinekodierende Sequenzen zu identifizieren, die innerhalb der Kandidatenregion von Beispielen 20 und 21 liegen, von denen man erwartet, dass sie das Gen beherbergen, das mit Prostata-Krebs assoziiert ist, das in der obigen Analyse eingesetzt wurde, und eine einzelne Protein-kodierende Region bezeichnet als das PG1-Gen wurde identifiziert.
  • Vorzugsweise werden die obengenannten Methoden implementiert unter Verwendung eines Computerprogramms gespeichert auf einem Computer.
  • Die Prozeduren zum Bestimmen, ob spezielle Biallel-Marker oder Gruppen von Biallel-Markern (Haplotyp) mit einem speziellen genetischen Merkmal assoziiert sind, werden vorzugsweise automatisiert wie unten beschrieben. Das automatisierte System würde eine Kombination von Hardware und Software umfassen, die schnell durch Tausende, Zehntausende, oder Millionen von potenziellen Haplotypen screenen kann, um diejenigen Haplotypen zu bestimmen, die mit einem speziellen genetischen Merkmal assoziiert sind.
  • Das automatisierte System kann durch eine Vielzahl von Kombinationen von Computer-Hardware und – Software implementiert werden. In einer Implementation ist die Computer-Hardware ein Hochgeschwindigkeits-Multiprozessor-Computer, der auf einem wohlbekannten Betriebssystem, wie z.B. UNIX läuft. Der Computer sollte vorzugsweise in der Lage sein Millionen, zehn Millionen, Billionen oder mehr mögliche allele Variationen pro Sekunde zu berechnen. Die Größe der Geschwindigkeit ist von Vorteil zum Bestimmen der statistischen Signifikanz von verschiedenen Verteilungen von Haplotypen innerhalb eines vernünftigen Zeitraums. Solche Computer werden von Firmen hergestellt wie z.B. International Business Machines, Hitachi, DEC und Cray.
  • Während man davon ausgehen kann, dass derzeit verfügbare Personal-Computer unter Verwendung von einzelnen oder vielen Multiprozessoren auch innerhalb der Parameter der vorliegenden Erfindung funktionieren können, könnte ein solches Computersystem zu langsam sein, um die Vielzahl der möglichen Haplotyp-Kombinationen zu erzeugen, die notwendig sind um die Verfahren der vorliegenden Erfindung durchzuführen. Jedoch mit zunehmender Effizienz und Geschwindigkeit von Mikroprozessor-basierten Computersystemen wird die Wahrscheinlichkeit, dass ein konventioneller Personal-Computer bedeutsam für die vorliegende Erfindung sein würde, auch vergrößert.
  • Vorzugsweise ist die Software, welche die Berechnungen für die vorliegende Erfindung steuert, in einer Sprache geschrieben, welche innerhalb des UNIX-Betriebssystems läuft. Die Softwaresprache kann beispielsweise C, C++, Fortran, Perl, Pascal, Cobol oder irgendeine andere wohlbekannte Computersprache sein. Es sollte festgehalten werden, dass die Nukleinsäuresequenzdaten in einer Datenbank gespeichert werden, auf die die Software der vorliegenden Erfindung zugreifen kann. Diese Programmier- Sprachen sind kommerziell verfügbar von einer Vielzahl von Firmen wie z.B. Microsoft, Digital Equipment Corporation und Borland International.
  • Darüber hinaus kann die Software wie hier beschrieben auf verschiedenen Typen von Medien gespeichert werden. Beispielsweise kann die Software auf Disketten, Festplatten, CD-ROMs, Electrically Eraseable Programable Read Only Memory, Random Access Memory oder anderen Typen von programmspeichernden Medien gespeichert werden.
  • Die Figuren wie unten beschrieben liefern einen Überblick des gesamten Prozesses der Bestimmung, ob ein Marker oder ein Satz von Markern (Haplotyp) innerhalb einer Nukleotidsequenz tatsächlich mit einem speziellen Merkmal in Individuen assoziiert ist. Während die meisten Prozesse manuell betrieben werden können, ist es insbesondere von Vorteil, viele dieser Prozesse unter Assistenz eines Computersystems wie oben beschrieben durchzuführen.
  • Es sei auf 18 verwiesen, wo ein Prozess beschrieben wird zur Bestimmung, ob ein Kandidatenklon mit einem Merkmal assoziiert ist. Der Prozess 10 beginnt am Startpunkt 15 und bewegt sich zum Prozessstadium 20, worin ein Satz von genomischen Zufalls-Klonen identifiziert wird. Diese genomischen Klone können zufällig ausgewählt werden. Sie ermöglichen die Abschätzung der allgemeinen Häufigkeits-Differenz zwischen den beiden Gruppen über das Genom. Die Anzahl der genomischen Klone, die erhalten wird, ist vorzugsweise weniger als etwa 30, kann aber auch von 10 bis 60 genomischen Klonen liegen. Die Anzahl der Klone wird so gewählt, dass die Abschätzung der Verteilung der Teststatistik akkurat genug ist. Der Prozess 20 wird vollständiger unter Verweis auf die 19 und 22 unten beschrieben.
  • Sobald ein Satz von genomischen Zufalls-Klonen im Prozesstadium 20 identifiziert wird, bewegt sich der Prozess 10 zum Stadium 25, in welchem die Test-Wert-Verteilung der Assoziation des Merkmals in dem zufälligen Klon durch Instruktionen gespeichert in dem Computer erzeugt wird. Hier sind die Testwerte Chi-Quadrat-Werte basierend auf Haplotyp-Häufigkeits-Unterschieden zwischen Fällen und Kontrollen. Stadium 25 wird genauer in 20 unten beschrieben. Der Verteilungsplot ist ein Satz von Datenpunkten, die dargestellt in einem Koordinatensystem ein Diagramm ausbilden, das die Chi- Quadrat-Werte für jeden Haplotyp in jedem der genomischen Zufalls-Klone angibt. Es sollte festgehalten werden, dass die Verteilung nicht notwendigerweise aus Chi-Quadrat-Werten abgeleitet von Haplotyp-Häufigkeits-Unterschieden zwischen den beiden Gruppen von Individuen erzeugt werden muss. Jegliche ähnliche Art der Messung von Unterschieden zwischen Kontrollen und Merkmal-exprimierenden Individuen basierend auf Gruppen von Markern, die sich innerhalb des ausgewählten zufälligen genomischen Klons finden, kann in der vorliegenden Erfindung verwendet werden.
  • Der Prozess 10 bewegt sich dann zu einem Stadium 35, worin die Testwerte der Haplotyp-Häufigkeits-Unterschiede zwischen der Kontrolle und dem Merkmalexprimierenden Populationen innerhalb des Kandidaten-Klons bestimmt werden. Der Prozess 10 bewegt sich dann zum Stadium 40, worin die Verteilung des Testwerts in dem Kandidaten-Klon erzeugt wird. Vor der Erzeugung der Verteilung des Testwerts ist es von Vorteil, den Kandidaten-Klon zu "sättigen", so dass so viele Biallel-Marker wie möglich innerhalb des Klons bekannt sind. Die Anzahl von Markern in dem Kandidaten-Klon ist vorzugsweise 25 oder mehr, kann aber auch 10, 15 oder 20 sein. Sobald eine große Anzahl von Biallel-Markern in dem Kandidaten-Klon bekannt sind, können Haplotypen umfassend Gruppen von drei Markern zufällig ausgewählt werden und Haplotyp-Häufigkeits-Abschätzungen in Fällen und in Kontrollen können durch Mittel der Chi-Quadrat-Statistik verglichen werden. Für eine Gruppe von Markern wird ein Chi-Quadrat-Wert (d.h. der Chi-Quadrat-Wert für den Haplotyp mit der größten Assoziation mit dem Merkmal) auf einem Computerspeicher gespeichert für die weitere Verarbeitung.
  • Die Datenpunktverteilung erzeugt im Zustand 40 wird von allen Chi-Quadrat-Werten abgeleitet, und die Chi-Quadrat-Werte werden wie oben beschrieben gespeichert. Es sollte sich natürlich verstehen, dass irgendein anderer statistischer Mechanismus zum Erzeugen einer Verteilung von Testwerten basierend auf Haplotyp-Häufigkeiten oder irgendwelche gemessenen Ereignissen von Haplotypen bedeutsam für die vorliegende Erfindung ist. Sobald der Verteilungsplot in dem Computer im Stadium 40 berechnet wird, bewegt sich der Prozess 10 zu einem Stadium 45, worin die Verteilungsplots von den Testwerten in den zufälligen Klonen und der Testwerte in dem Kandidaten-Klon verglichen werden. Der Prozess 45 ist in 24 unten beschrieben.
  • Sobald die Verteilungen verglichen werden, bewegt sich der Prozess 10 zu einem Entscheidungsstadium 50, um zu bestimmen, ob die Verteilungen unterschiedlich sind. Falls die Zufallsregion-und die Kandidatenregion-Verteilung sich als unterschiedlich im Entscheidungsstadium 50 herausstellen, bewegt sich der Prozess zum Stadium 55, wo eine Entscheidung getroffen wird, ob mehr Kandidaten-Klone verfügbar sind. Falls mehr Kandidaten-Klone verfügbar sind, kehrt der Prozess 10 zum Stadium 35 zurück. Falls jedoch keine Kandidaten-Klone mehr verfügbar sind endet der Prozess 10 in einem Endstadium 65.
  • Falls eine Entscheidung getroffen wird im Stadium 50, dass die Verteilungen unterschiedlich sind, bewegt sich der Prozess 10 zu einem Stadium 60, worin das Computersystem anzeigt, dass ein Kandidaten-Klon gefunden wurde, der effektiv mit dem untersuchten Merkmal assoziiert ist. Diese Anzeige kann durch das Display des Computers, durch den Drucker oder irgendeinen anderen gut bekannten Mechanismus der Darstellung für einen Computeranwender der Ergebnisse eines speziellen Prozesses erfolgen. Der Prozess endet dann in diesem Endstadium 65.
  • Als eine Alternative kann der Prozess 10 von 18 wie in 25 unten gezeigt verändert werden. Man erkennt in 25, dass ein Prozess 700 zum Bestimmen, ob ein individueller Biallel-Marker oder ein Satz von Biallel-Markern (Haplotyp) mit einem speziellen Merkmal verknüpft ist, beschrieben wird. Der Prozess 700 beginnt am Startpunkt 702 und bewegt sich zu einem Prozessstadium 704, worin unter Verwendung eines Zufallszahlen-Generators die simulierten Haplotypen, welche keine Relation zum Merkmal aufweisen, für jeden einzelnen zugeordnet werden.
  • Der Prozess 700 bewegt sich dann zum Stadium 706, worin die Test-Wert-Verteilung eines jedes simulierten Haplotyps durch Instruktionen gespeichert in einem Computer erzeugt wird. Hier. sind die Testwerte Chi-Quadrat-Werte basierend auf der Haplotyp-Häufigkeit zwischen Fällen und Kontrollen. Der Verteilungsplot ist ein Satz von Datenpunkten der, wenn er in einem Koordinatensystem dargestellt wird, ein Diagramm ausbildet, das die Chi-Quadrat-Werte für jeden Haplotyp in jedem der zufälligen genomischen Klone zeigt. Es sollte festgehalten werden, dass der Verteilungsplot nicht notwendigerweise aus Häufigkeiten abgeleitet aus Chi-Quadrat-Werten erzeugt werden muss. Irgendwelche ähnliche Messungen von statistischen Unterschieden zwischen Kontrollen und Merkmal-assoziierten Individuen mit Haplotypen gefunden in ausgewählten zufälligen genomischen Klonen kann innerhalb der vorliegenden Erfindung verwendet werden.
  • Der Prozess 700 bewegt sich dann zum Stadium 708, worin die Maximum-Test-Werte der Haplotyp-Unterschiede zwischen den Kontrollen und dem Merkmal-assoziierten Populationen innerhalb des Merkmal-assoziierten Klons bestimmt werden. Der Prozess 700 bewegt sich dann zum Stadium 710, worin die Verteilung der Testwerte in dem Merkmal-assoziierten Klon erzeugt wird. Vor der Erzeugung der Verteilung der Testwerte, ist es von Vorteil, den Merkmal-assoziierten Klon zu "sättigen", so dass so viel als möglich Biallel-Marker innerhalb des Klons bekannt sind.
  • Die Anzahl von Markern in dem Merkmal-assoziierten Klon ist vorzugsweise 25 oder mehr kann aber auch 10, 15 oder 20 sein. Sobald eine große Anzahl von Biallel-Markern in dem Merkmal-assoziierten Klon bekannt sind, können Haplotypen umfassend Gruppen von drei Markern zufällig ausgewählt werden und Haplotyp-Häufigkeits-Abschätzungen in Fällen und Kontrollen können verglichen werden durch Mittel der Chi-Quadrat-Statistik. Für eine Gruppe von Markern wird ein Chi-Quadrat-Wert (d.h. der Chi-Quadrat-Wert für den Haplotyp mit der größten Assoziation mit dem Merkmal) auf einem Computerspeicher für die weitere Verarbeitung gespeichert.
  • Die Datenplot-Verteilung erzeugt im Stadium 710 wird aus allen Chi-Quadrat-Werten abgeleitet und die Chi-Quadrate werden wie oben beschreiben gespeichert. Es sollte sich natürlich verstehen, dass irgendein statistischer Mechanismus zum Erzeugen einer Verteilung von Testwerten basierend auf Haplotyp-Häufigkeiten oder irgendwelchen gemessenen Ereignissen von Haplotypen bedeutsam für die vorliegende Erfindung ist. Sobald der Verteilungsplot in dem Computer im Stadium 710 berechnet ist, bewegt sich der Prozess 700 in ein Stadium 714, worin die Verteilungsplots der Haplotypen in zufälligen Klonen und der Haplotypen in dem Merkmal-assoziierten Klon verglichen werden.
  • Sobald die Verteilungen verglichen werden, bewegt sich der Prozess 700 in ein Entscheidungsstadium 710, um zu bestimmen, ob die Verteilungen unterschiedlich sind. Falls die zufälligen und Merkmal-assoziierten Verteilungen sich als unterschiedlich herausstellen in einem Entscheidungsstadium 716 bewegt sich der Prozess in ein Stadium 720, wo eine Entscheidung durchgeführt wird, ob mehr Merkmal-assoziierte Klone verfügbar sind. Falls mehr Merkmal-assoziierte Klone verfügbar sind kehrt der Prozess 700 in das Stadium 708 zurück. Falls jedoch nicht mehr Merkmal-assoziierte Klone verfügbar sind endet der Prozess 700 in einem Endstadium 730.
  • Falls eine Bestimmung durchgeführt wird in einem Stadium 716, dass die Verteilungen unterschiedlich sind, bewegt sich der Prozess 700 in ein Stadium 724, worin das Computersystem anzeigt, dass der erwartete Merkmal-assoziierte Klon sich als effektiv assoziiert mit dem untersuchten Merkmal herausgestellt hat. Diese Anzeige kann durch das Display des Computers, durch den Drucker oder irgendeinen wohlbekannten Mechanismus zur Darstellung für den Computeranwender der Ergebnisse eines speziellen Prozesses durchgeführt werden. Der Prozess endet dann im Stadium 730.
  • Bezug nehmend auf 19 wird der Prozess 20 zum Identifizieren geeigneter genomischer Zufalls-Klone beschrieben. Der Prozess 20 beginnt am Startpunkt 100 und bewegt sich zum Stadium 110, worin Daten, welche eine DNA-Sequenz repräsentieren, die mit dem ersten zufälligen Klon, der zu analysieren ist, korrespondieren, ausgewählt werden. Normalerweise werden diese Daten auf der Festplatte des Computers gespeichert. Es sollte jedoch festgehalten werden, dass diese Daten auf irgendwelchen konventionellen Speichern innerhalb des Computersystems oder außerhalb des Computersystems auf einem Server oder anderen Datenspeicher-Computern gespeichert werden können.
  • Die Daten, welche die DNA-Sequenz repräsentieren, werden vorzugsweise durch Nukleotidsequenzierung eines bakteriellen artifiziellen Chromosoms (BAC) erhalten. Die Daten können jedoch auch von einer Nukleotidsequenz abgeleitet werden von irgendeinem Typ von Klon, der DNA-Sequenzen trägt.
  • Sobald Daten, welche den ersten zufälligen Klon repräsentieren, im Stadium 110 ausgewählt wurden, bewegt sich der Prozess 20 zu einem Entscheidungsstadium 115, worin eine Entscheidung getroffen wird, ob mehr als drei Biallel-Marker innerhalb des Klons vorliegen. Vor dem Durchführen dieses Prozesses werden die Daten repräsentierend die DNA-Sequenz gegen einige Datenbanken an Genen abgeglichen, um zu bestimmen, ob irgendwelche Biallel-Marker innerhalb der Sequenz existieren. Falls irgend welche Biallel-Marker tatsächlich existieren, werden diese Daten in einer Marker-Tabelle auf dem Computer festgehalten. Die Marker-Tabelle enthält den Namen eines jeden Files korrespondierend mit den Nukleinsäure-Sequenz-Daten eines zufälligen Klons sowie die Beschreibung von irgendwelchen Biallel-Markern innefialb der DNA-Sequenz. Durch die Marker-Tabelle kann man die Anzahl der Biallel-Marker in den Daten korrespondierend zu jedem Zufalls-und Kandidaten-Klon bewerten.
  • In dem Entscheidungsstadium 115 wird eine Entscheidung getroffen durch Verweis auf die Marker-Tabelle, ob mehr als drei Biallel-Marker in den Daten aus dem gewählten Klon gefunden werden. Falls mehr als drei allele Marker nicht in dem Klon gefunden werden, bewegt sich der Prozess 20 zu einem Stadium 120, worin der nächste zufällige Klon ausgewählt wird, da dieser Klon nicht genügend Biallel-Marker für die effektive Analyse aufweist. Auf das Stadium 120 folgend kehrt der Prozess 20 dann zum Entscheidungsstadium 115 zurück, um zu bestimmen, ob mehr als drei Biallel-Marker in den Nukleinsäure-Sequenz-Daten des neu gewählten Klons verfügbar sind.
  • Falls mehr als drei Marker in dem Klon zu finden sind, bewegt sich der Prozess 20 zum Stadium 125, wo Marker im Hardy-Weinberg-Gleichgewicht in Fall-und Kontroll-Populationen identifiziert werden. Prozess 125 wird in 22 unten beschrieben. Prozess 20 bewegt sich dann zum Entscheidungsstadium 127, um zu bestimmen, ob es zumindest drei Marker in dem Hardy-Weinberg-Gleichgewicht in beiden Populationen gibt. Falls nicht zumindest drei Marker in dem H-W-Gleichgewicht vorliegen, kehrt der Prozess zum Stadium 120 zurück, um einen anderen zufälligen Klon auszuwählen. Falls zumindest drei Marker in dem H-W-Gleichgewicht vorliegen, bewegt sich der Prozess 20 zum Prozessstadium 135, worin der ausgewählte zufällige Klon in einer Zufalls-Klon-Tabelle der Computerfestplatte gespeichert wird.
  • Der Prozess 20 bewegt sich dann zum Entscheidungsstadium 140, um zu bestimmen, ob mehr zufällige Klone existieren als analysiert werden müssen. Wie oben beschrieben ist es von Vorteil, zumindest 25 zufällige Klone zu haben mit Biallel-Markern, die als Chi-Quadrat-Datenpunkte verwendet werden können. Falls mehr Zufalls-Klone tatsächlich existieren, kehrt der Prozess 20 zum Stadium 120 zurück, um die Daten auszuwählen aus der Nukleotidsequenz des nächsten Zufalls-Klons. Falls nicht mehr Daten verfügbar sind für die Nukleotidsequenzen von zufälligen Klonen in dem Entscheidungsstadium 140, endet der Prozess 20 in einem Endstadium 150.
  • Nun wird auf 22 Bezug genommen, und der Prozess 125 zum Identifizieren von Markern im Hardy-Weinberg-Gleichgewicht in Fall-und Kontroll-Populationen (19) wird im größeren Detail beschrieben. Der Prozess 125 beginnt am Startzustand 400 und bewegt sich zu einem Stadium 410, wo die Marker in dem Zufalls-Klon ausgewählt werden aus der Tabelle wie oben beschrieben. Der Prozess 125 bewegt sich dann zum Stadium 420, wo der erste Marker ausgewählt wird. Der Prozess 125 bewegt sich dann zum Stadium 430, wo die Hardy-Weinberg-Gleichgewichts-Berechnungen für die Fall- und die Kontroll-Populationen wie oben beschrieben durchgeführt werden.
  • Sobald die Test-Berechnungen in den Fall-und in Kontroll-Populationen im Stadium 430 durchgeführt worden sind, bewegt sich der Prozess 125 zum Entscheidungszustand 435, um zu bestimmen, ob der ausgewählte Marker sich in Hardy-Weinberg-Gleichgewicht in beiden Populationen befindet. Falls eine Bestimmung im Entscheidungsstadium 435 getroffen wird, dass der Marker sich im Hardy-Weinberg-Gleichgewicht in beiden Populationen befindet, bewegt sich der Prozess 125 zum Stadium 440, wo der Marker in einer Tabelle gespeichert wird. Der Prozess bewegt sich dann zum Entscheidungsstadium 445, um zu bestimmen, ob ein weiterer Marker in dem Klon befindlich ist.
  • Falls eine Bestimmung durchgeführt im Entscheidungsstadium 435, dass der Marker nicht im Hardy-Weinberg-Gleichgewicht in einer oder der anderen Population ist, bewegt sich der Prozess 125 direkt zum Stadium 445, um zu bestimmen, ob mehr Marker in dem Klon verfügbar sind.
  • Falls eine Bestimmung durchgeführt wird im Stadium 445, dass andere Marker zum Testen in dem Klon verfügbar sind, bewegt sich der Prozess 125 zum Stadium 450, wo ein weiterer Marker ausgewählt wird. Der Prozess 125 kehrt dann zum Stadium 430 zurück. Falls eine Bestimmung durchgeführt wird im Entscheidungsstadium 445, dass alle Marker hinsichtlich des Hardy-Weinberg-Gleichgewichts getestet wurden, endet der Prozess 125 im Endstadium 460.
  • Nun wird Bezug genommen auf 20, wo der Prozess 25 des Erzeugens der Verteilung von Testwerten in ausgewählten Zufalls-Klonen in einem Startstadium 200 beginnt und zum Stadium 202 wandert, wo der erste Klon ausgewählt wird. Der Prozess wandert zum Stadium 205, wo die gesamte Anzahl von Markern im Hardy-Weinberg-Gleichgewicht sowohl in Fall-als auch Kontroll-Populationen gezählt wird. Sobald die Gesamtzahl der verfügbaren Marker im Stadium 205 gezählt worden ist, bewegt sich der Prozess 25 weiter zum Stadium 210, wo die erste Gruppe von N-Markern ausgewählt wird.
  • In einer Ausführungsform ist N = 3, so dass jede Gruppe von Markern als ein Triplet analysiert wird. In dieser Ausführungsform umfasst jeder Haplotyp eine Gruppe von drei Biallel-Markern. Es sollte jedoch festgehalten werden, dass jede Gruppe aus entweder mehr oder weniger Markern bestehen würde. In einer Ausführungsform wird ein Haplotyp umfassend nur zwei Marker anstelle einer Gruppe von drei oder mehr assoziierten Markern ausgewählt. In einer anderen Ausführungsform wird eine Gruppe von acht Markern ausgewählt zur weiteren Analyse.
  • Der Prozess 25 bewegt sich dann zu einem Stadium 215, wo die Gesamtzahl der möglichen Haplotypen basierend auf der Gesamtzahl N an Markern innerhalb der ersten Gruppe bestimmt wird. Die Formel 2N kann verwendet werden, um alle möglichen Haplotypen in einer Gruppe von N-Markern zu bestimmen. Diese Formel ist korrekt, da, geht man von irgendeinem Satz von N-Biallel-Markern aus, es 2N mögliche Anordnungen von Biallel-Markern auf einer Nukleinsäuresequenz gibt.
  • Sobald die Gesamtzahl von Haplotypen im Stadium 215 berechnet worden ist, bewegt sich der Prozess 25 zum Stadium 220, worin die Haplotyp-Häufigkeiten in der Fall-Gruppe abgeschätzt werden unter Verwendung des E-M-Algorithmus wie oben beschrieben. Wenn die 2N Haplotyp-Häufigkeiten in den Fall-Gruppen im Stadium 220 abgeschätzt werden, bewegt sich der Prozess 25 zu einem Stadium 225, worin die 2N-Haplotyp-Häufigkeiten in der Kontrollgruppe abgeschätzt werden unter Verwendung des gleichen Algorithmus.
  • Sobald die Haplotyp-Häufigkeiten in beiden Gruppen abgeschätzt worden sind, bewegt sich der Prozess 25 zu einem Stadium 239, wo der erste Haplotyp ausgewählt wird. Der Prozess 25 bewegt sich dann zum Stadium 232, wo der Chi-Quadrat-Test-Wert basierend auf dem Haplotyp-Häufigkeits-Unterschied zwischen den Fall-und Kontrollgruppen berechnet wird.
  • Sobald die Chi-Quadrat-Statistik berechnet worden ist, bewegt sich der Prozess 25 dann zu einem Entscheidungsstadium 235, um zu bestimmen ob mehr Haplotypen für den ausgewählten Zufalls-Klon existieren. Falls eine Bestimmung in dem Entscheidungsstadium 235 durchgeführt wird, dass mehr Haplotypen tatsächlich existieren, bewegt sich der Prozess 25 in ein Stadium 240, um den nächsten Haplotypen auszuwählen. Es sollte festgehalten werden, dass in jeder Gruppe von drei Biallel-Markern es 23 oder acht mögliche Haplotypen gibt. Folglich wird dieser Prozess achtmal für jede Gruppe von drei Markern wiederholt werden, bis jeder der acht möglichen Haplotypen mit den Nukleinsäuresequenzen abgeglichen ist, aus jeweils den Kontcoll-und den Merkmal-assoziierten Klonen. Falls mehr Haplotypen für die Analyse der ausgewählten Gruppe zurückbleiben, kehrt der Prozess 25 zum Stadium 232 zurück, um das Chi-Quadrat basierend auf einer Differenz in den Haplotyp-Häufigkeiten zu berechnen.
  • Falls eine Bestimmung in dem Entscheidungsstadium 235 getroffen wird, dass die Häufigkeiten aller der möglichen Haplotypen in der ausgewählten Gruppe in der Kontrolle und in der Merkmal-expcimiecenden Population bestimmt wurden, bewegt sich der Prozess 25 zu einem Stadium 245, um den Testwert für den Haplotypen in der Gruppe auszuwählen mit der größten Assoziation mit dem ausgewählten Merkmal. Diese Analyse wie oben beschrieben, wird vorzugsweise jedoch unter Verwendung des Chi-Quadrat-Tests durchgeführt, um die Häufrgkeit eines jeden Haplotyps in der Kontroll-und der Merkmal-expcimierenden Gruppe zu vergleichen. Der Chi-Quadrat-Test ergibt einen Wert reflektiv, für wie eng assoziiert der individuelle Haplotyp mit dem Merkmal ist. Der Chi-Quadrat-Wert des Haplotypen in der Gruppe, welche die größte Assoziation mit dem Merkmal aufweist, wird dann in einem Stadium 255 gespeichert in einer Testwert-Tabelle auf der Festplatte des Computers. Folglich wird für jede Gruppe von Biallel-Markern ein Chi-Quadrat-Wert des Haplotyps mit der größten Assoziation mit dem Merkmal gewählt für die Inklusion in der Testwert-Tabelle ausgewählt. Diese Prozedur wird durchgeführt, um den Prozeduren durchgeführt mit dem Merkmal-assoziierten Klon zu folgen.
  • Sobald der ausgewählte Chi-Quadrat-Wert in der Testwert-Tabelle im Stadium 255 gespeichert wird, bewegt sich der Prozess in ein Entscheidungsstadium 260, um zu bestimmen, ob mehr Gruppen von beispielsweise Sätzen von drei Biallel-Markern in dem ausgewählten zu analysierenden Klon existieren. Falls mehr Gruppen tatsächlich in der Nukleotidsequenz des ausgewählten Klons existieren, bewegt sich der Prozess 25 zu einem Stadium 265 und wählt die nächste Gruppe von drei Markern aus. Der Prozess 25 kehr dann zurück zum Stadium 215, um die Gesamtzahl an Haplotypen innerhalb der neu ausgewählten Gruppe zu bestimmen. Falls eine Bestimmung in einem Entscheidungsstadium 260 durchgeführt wird, dass alle Gruppen von Markern in dem zufälligen Klon analysiert worden ist, bewegt sich der Prozess 25 zu einem Entscheidungsstadium 266, um zu bestimmen, ob mehr Klone verfügbar sind in der Marker-Tabelle gespeichert auf dem Computer. Falls mehr Klone existieren, bewegt sich der Prozess 25 zum Stadium 267, um den nächsten Klon auszuwählen. Der Prozess 25 kehrt dann zum Stadium 205 zurück, wo eine Gesamtzahl von Markern in dem Hardy-Weinberg-Gleichgewicht in dem ausgewählten Klon gezählt wird. Falls eine Bestimmung in einem Entscheidungsstadium 266 durchgeführt wird, dass keine weiteren Klone verfügbar sind in der Marker-Tabelle, endet der Prozess 25 in einem Endstadium 270.
  • Nun wird auf 21 Bezug genommen, wobei der Prozess 35 (18) des Berechnens der Testwerte in dem Kandidaten-Klon detaillierter beschrieben wird. Der Prozess 35 beginnt an einem Startzustand 300 und bewegt sich zu einem Stadium 305, wobei die Gesamtanzahl von Biallel-Markern im Hardy-Weinberg-Gleichgewicht in Fall-und Kontroll-Gruppen in dem Kandidaten-Klon bestimmt wird. Der Prozess 305 wird im größeren Detail in 23 beschrieben. Der Prozess 35 zählt dann die Gesamtzahl an Markern im Hardy-Weinberg-Gleichgewicht in einem Stadium 310. Es sollte festgehalten werden, dass das Bestimmen der Anzahl von Markern im Hardy-Weinberg-Gleichgewicht von Vorteil ist, da das Verfahren verwendet, um Haplotyp-Häufigkeiten in den beiden untersuchten Populationen (Fällen und Kontrollen) abzuleiten, sich auf diese Annahme verlässt, d.h., dass die Marker involviert in den Haplotyp zum Hardy-Weinberg-Gleichgewicht wie oben beschrieben passen. Die Anzahl der Marker ist vorzugsweise ähnlich aus einer Tabelle, die zuvor erzeugt wurde, um die Stelle eines jeden Markers innerhalb der Merkmal-assoziierten Sequenz zu speichern.
  • Der Prozess 35 bewegt sich dann zum Stadium 320, wo eine erste Gruppe von N-Markern ausgewählt wird. In einer Ausführungsform, ist N = 3, so dass jede Gruppe von Markern die analysiert wird als ein Triplet vorliegt. In dieser Ausführungsform umfasst jedes Haplotyp eine Gruppe von drei Biallel-Markern. Es sollte jedoch festgehalten werden, dass jede Gruppe aus entweder mehr oder weniger Markern bestehen kann.
  • Der Prozess 35 bewegt sich dann in ein Stadium 325, worin ein Gesamtzahl von möglichen Haplotypen basierend auf der Gesamtzahl N von Markern innerhalb der ersten Gruppe bestimmt wird. Die Formel 2N kann verwendet werden, um alle der möglichen Haplotypen in einer Gruppe von N-Markern zu bestimmen. Diese Formel ist korrekt, da bei einem gegebenen Satz von N-biallen Markern 2N mögliche Kombinationen vorliegen für diese Marker auf einer Nukleinsäuresequenz.
  • Sobald die Anzahl von Markern im Hardy-Weinberg-Gleichgewicht in beiden Populationen bestimmt worden ist, bewegt sich der Prozess 35 zum Stadium 330 weiter, worin der erste mögliche Haplotyp ausgewählt wird. Der Prozess 35 bewegt sich dann in ein Stadium 335 weiter, worin die Haplotyp-Häufigkeiten in der Kontrollgruppe abgeschätzt werden unter Verwendung des E-M-Algorithmus wie oben beschrieben. Sobald die Haplotyp-Häufigkeiten in der Kontrollgruppe abgeschätzt worden sind, bewegt sich der Prozess 35 zum Stadium 340 weiter, wo die Haplotyp-Häufigkeiten in der Population an Individuen mit dem ausgewählten Merkmal abgeschätzt werden.
  • Sobald die Haplotyp-Häufigkeiten in beiden Populationen der Untersuchung im Stadium 335 bzw. 340 abgeschätzt worden sind, bewegt sich der Prozess 35 weiter zu einem Stadium 342, worin eine Chi-Quadrat-Statistik basierend auf den Unterschieden in den Haplotyp-Häufigkeit berechnet wird.
  • Sobald diese Berechnung durchgeführt worden ist, bewegt sich der Prozess 35 weiter zu einem Entscheidungsstadium 345 um zu bestimmen, ob mehrere Haplotypen für den Kandidaten-Klon existieren. Falls in dem Entscheidungsstadium 345 eine Bestimmung getroffen wird, dass tatsächlich mehr Haplotypen existieren, bewegt sich der Prozess 35 zu einem Stadium 350 weiter, um den nächsten Haplotypen auszuwählen.
  • Es sollte festgehalten werden, dass in jeder Gruppe von drei Biallel-Markern es 23 oder acht mögliche Haplotypen gibt. Folglich wird dieser Prozess achtmal für jede Gruppe von drei Markern wiederholt, bis die Häufigkeiten von jeder der acht möglichen Haplotypen in den Kontcoll-bzw. den Fall-Populationen bestimmt sind. Falls mehr Haplotypen für die Analyse in der ausgewählten Gruppe zurückbleiben, kehrt der Prozess 35 zum Stadium 335 zurück, um die Häufigkeit des nächsten Haplotyps der Gruppe in der Population von Kontrollindividuen zu berechnen.
  • Falls eine Bestimmung getroffen wird in einem Entscheidungsstadium 345, dass die Häufigkeiten von allen der möglichen Haplotypen in der ausgewählten Gruppe in der Kontroll-und Fall-Population bestimmt worden sind, bewegt sich der Prozess 35 zu einem Stadium 355, um den Testwert des Haplotypen in der Gruppe mit der größten Assoziation mit dem ausgewählten Merkmal auszuwählen. Diese Analyse wird oben beschrieben, wird vorzugsweise jedoch durchgeführt unter Verwendung eines Chi-Quadrat-Tests, um die Häufigkeits-Differenz von jedem Haplotypen in der Kontroll- und Fall-Population zu bestimmen.
  • Der Chi-Quadrat-Test ergibt einen Wert, der reflektiert, wie dicht assoziiert der individuelle Haplotyp mit dem Merkmal ist. Der Chi-Quadrat-Wert des Haplotyps in der Gruppe, der die größte Assoziation mit dem Merkmal aufweist, wird dann in einem Stadium 360 in eine Testwert-Tabelle auf einer Computerfestplatte gespeichert. Folglich wird ein Chi-Quadrat-Wert des Haplotypen mit der größten Assoziation mit dem Merkmal ausgewählt.
  • Sobald der ausgewählte Chi-Quadrat-Wert in der Testwert-Tabelle im Stadium 360 gespeichert worden ist, bewegt sich der Prozess in ein Entscheidungsstadium 365, um zu bestimmen, ob mehr Gruppen beispielsweise von Sätzen von drei Biallel-Markern in dem Kandidaten-Klon, der analysiert werden soll, existieren. Falls mehrere Gruppen in dem Kandidaten-Klon existieren, bewegt sich der Prozess 35 in ein Stadium 370 und wählt die nächste Gruppe von drei Markern aus. Der Prozess 35 kehrt dann in ein Stadium 325 zurück, um die Gesamtzahl von Haplotypen innerhalb der neu ausgewählten Gruppe zu bestimmen. Falls eine Bestimmung in einem Entscheidungsstadium 365 durchgeführt wird, dass keine weiteren Gruppen existieren endet der Prozess 35 in einem Endstadium 375.
  • Nun wird auf 23 Bezug genommen, wobei der Prozess 305 des Bestimmens der Anzahl von Markern innerhalb des Kandidaten-Klons, die im Hardy-Weinberg-Gleichgewicht in sowohl den Fall-als auch den Kontroll-Populationen liegen, im Detail beschrieben wird. Der Prozess 305 beginnt in einem Startzustand 500 und bewegt sich in ein Stadium 505, wobei alle Marker in dem Kandidaten-Klon von einer Marker-Tabelle, gespeichert in dem Computer gezählt werden. Sobald die Anzahl der verfügbaren Marker bestimmt worden ist, bewegt sich der Prozess 305 zum Stadium 510, wo der erste Marker ausgewählt wird. Er bewegt sich dann weiter zum Stadium 515, worin das Hardy-Weinberg-Gleichgewicht berechnet wird für die Fall-und Kontroll-Populationen für diesen Marker. Dieser Test eemöglicht die Bestimmung, ob die Annahme der zufälligen Paarung wie oben beschrieben für diesen speziellen Marker in den beiden Populationen, die untersucht werden, passt. Diese Schritt involviert eine Chi-Quadrat-statistische Berechnung.
  • Sobald das Hardy-Weinberg-Gleichgewicht berechnet worden ist für Fall-und Kontroll-Populationen im Stadium 515, bewegt sich der Prozess 305 zum Entscheidungsstadium 520, um zu bestimmen, ob der Marker zur Hypothese des Hardy-Weinberg-Gleichgewichts in beiden Populationen passt. Falls eine Bestimmung gemacht wird, dass der Marker zu dieser Hypothese passt, bewegt sich der Prozess 305 zum Stadium 530, wo der Marker in eine Tabelle gespeichert wird. Der Prozess 305 bewegt sich dann in ein Entscheidungsstadium 535, um zu bestimmen, ob weitere verfügbare Marker für den Hardy-Weinberg-Test vorliegen.
  • Falls eine Bestimmung getroffen wird, dass der Marker nicht zur Hypothese des Hardy-Weinberg-Gleichgewichts im Stadium 520 passt, bewegt sich der Prozess 305 zum Entscheidungsstadium 535 weiter.
  • In dem Entscheidungsstadium 535, falls die Entscheidung getroffen wird, dass weitere Marker zum Testen verfügbar sind, bewegt sich der Prozess 305 zum Stadium 540, um den nächsten Marker auszuwählen. Der Prozess 305 kehrt dann zurück zum Stadium 515, um das Hardy-Weinberg-Gleichgewicht für den ausgewählten Marker zu berechnen. Falls eine Berechnung durchgeführt wird im Stadium 535, dass alle Marker verfüg bar in dem Klon hinsichtlich des Hardy-Weinberg-Gleichgewichts getestet worden sind, endet der Prozess 305 in einem Endstadium 550.
  • Es sollte festgehalten werden, dass die Bestimmung eines Hardy-Weinberg-Gleichgewichts von Vorteil ist, da die Methode der Abschätzung der Haplotyp-Häufigkeiten auf diese Hypothese aufbaut. Falls jedoch irgendein Haplotyp-Häufigkeits-Abschätzungs-Algorithmus, der sich auf andere Annahmen stützt verwendet wird, können andere Selektionsprozesse basierend auf solchen Annahmen verwendet werden.
  • Nun wird Bezug genommen auf 24, wo die beiden Verteilungen von Testwerten in dem Zufalls-Klon und dem Kandidaten-Klon verglichen werden. Der Prozess 45 beginnt am Startpunkt 600 und bewegt sich zum Stadium 610, wobei die beiden Verteilungen ausgewählt werden aus den beiden Testwert-Tabellen, wie oben erwähnt. Der Prozess 45 bewegt sich dann in ein Stadium 620, worin eine nicht parametrische Analyse durchgeführt wird, um die beiden Verteilungen zu vergleichen.
  • Die beiden Verteilungen können verglichen werden unter Verwendung irgendeines Verfahrens, welches einem gewöhnlichen Fachmann vertraut ist. Beispielsweise kann ein Computerprogramm entweder den Wilcoxon-Rank-Test oder den Kolmogorov-Smirnov-Test anwenden, die oben diskutiert wurden. Diese Software-Programme würden leicht eine der Formeln auf die oben abgeleiteten Daten in Bezug auf den statistischen Unterschied zwischen speziellen Haplotypen gefunden in Kontroll-und Merkmal-assoziierten Individuen anwenden.
  • Der Prozess 45 bewegt sich dann zum Stadium 630, wo die Ergebnisse der Analyse in eine Ergebnis-Tabelle gespeichert werden. Das Ergebnis kann dann durch einen Computer-Display angezeigt werden, einem Drucker oder irgendeinen anderen wohlbekannten Mechanismus zum Anzeigen eines Ergebnisses eines speziellen Prozesses. Der Prozess 630 endet dann in einem Endstadium 640.
  • Einige der Aspekte der vorliegenden Erfindung werden in den folgenden Beispielen beschrieben, welche auf dem Wege der Illustration und nicht dem Wege der Einschränkung angeboten werden. Viele andere Modifikationen und Varianten der Erfindung wie hier dargestellt, können durchgeführt werden ohne vom Geist und Umfang derselbigen abzuweichen und daher sollten nur solche Begrenzungen akzeptiert werden, welche durch die beigefügten Ansprüche angezeigt werden.
  • Beispiel 1
  • Konstruktion einer BAC-Bibliothek
  • Drei unterschiedliche menschliche genomische DNA-Bibliotheken wurden erzeugt unter Klonierung partiell verdauter DNA einer menschlichen Lymphoblastoid-Zelllinie (abgeleitet von Individuum Nr. 8445, CEPH-Familien) in den pBeloBAC11-Vektor (Kim et al., Genomics 34 : 213–218 (1996)). Eine Bibliothek wurde erzeugt unter Verwendung einer partiellen BamHI-Verdauung der geomischen DNA der Lymphoblastoid-Zelllinie und enthält 110 000 Klone mit einer durchschnittlichen Insert-Größe von 150 kb (korrespondierend zu 5 menschlichen haploiden Genomäquivalenten). Eine andere Bibliothek wurde erzeugt durch eine Hindlll-partielle Verdauung und korrespondiert mit 3 menschlichen Genom-Äquivalenten mit einer durchschnittlichen Insert-Größe von 150 kb. Eine dritte Bibliothek wurde erzeugt durch eine partielle Ndel-Verdauung und korrespondiert mit 4 menschlichen Genom-Äquivalenten mit einer durchschnittlichen Insert-Größe von 150 kb.
  • Alternativ kann die genomische DNA in BAC-Vektoren insertiert werden, welche sowohl einen großen Kopien-Zahl-Ursprung der Replikation, welche die Isolierung der Vektor-DNA erleichtert, als auch einen niedrigen Kopien-Zahl-Ursprung der Replikation aufweisen. Das Klonieren eines genomischen DNA-Inserts in einen hohen Kopien-Zahl-Ursprung der Replikation inaktiviert den Ursprung, so dass Klone enthaltend ein genomisches Insert eine geringe Kopien-Zahl replizieren. Die geringe Kopien-Zahl von Klonen mit einem genomischen Insert darin erlaubt, dass die Inserts stabil konserviert werden. Darüber hinaus können Selektionsprozeduren konzipiert werden, welche die Auswahl von Niedrig-Kopien-Zahl-Plasmiden ermöglichen (d.h. Vektoren mit genomischen Inserts darin). Solche Vektoren und Selektionsprozeduren sind beschrieben in der US-Patentanmeldung mit dem Titel "High Throughput DNA Sequencing Vector" (WO 99/53044).
  • Es wird verstanden werden, dass das vorliegende Verfahren unter Verwendung von BAC-Vektoren verschieden von denjenigen von Shizuya et al. (1992, supra) praktiziert werden kann oder von solchen abgeleitet von diesen oder von Vektoren verschieden von BAC-Vektoren, welche die oben beschriebenen Charakteristika besitzen.
  • Beispiel 2
  • Sortieren der BAC-Bibliothek : Screenina von Klonen mit STSs
  • Die BAC-Bibliothek wird mit einem Satz von PCR-typifizierbaren STSs gescrennt, um Klone zu identifizieren, welche die STSs enthalten. Um das PCR-Screening von einigen tausend Klonen zu ermöglichen, beispielsweise von 200 000 Klonen, werden Pools von Klonen präpariert.
  • Dreidimensionale Pools von BAC-Bibliotheken werden hergestellt wie in Chumakov et al. beschrieben und hinsichtlich ihrer Fähigkeit gescrennt, ein Amplifikations-Fragment in Amplifiktions-Reaktionen durchgeführt unter Verwendung von Primern abgeleitet aus den sortierten STSs zu erzeugen (Chumakov et al. (1985), supra). Eine BAC-Bibliothek enthält typischerweise 200 000 BAC-Klone. Da die durchschnittliche Größe eines jeden Inserts 100–300 kb ist, ist die Gesamtgröße solch einer Bibliothek äquivalent mit der Größe von zumindest 7 menschlichen Genomen. Diese Bibliothek wird als ein Array von individuellen Klonen in 518 384–Well-Platten gelagert. Sie kann in 74 primäre Pools (jeweils 7 Platten) unterteilt werden. Jeder primäre Pool kann dann in 48 Subpools unterteilt werden, hergestellt unter Verwendung eines dreidimensionalen Poolingsystems basierend auf der Platte, wobei Reihen und Spalten jeden Klon adressieren (genauer gesagt 7 Subpools bestehend aus allen Klonen befinden sich auf einer gegebenen Mikrotiterplatte; 16 Subpools bestehend aus allen Klonen in einer gegebenen Reihe; 24 Subpools bestehend aus allen Klonen in einer gegebenen Spalte).
  • Amplifikations-Reaktionen werden mit den gepoolten BAC-Klonen unter Verwendung von Primern spezifisch für die STSs durchgeführt. Beispielsweise können dreidimensionale Pools gescreent werden mit 45 000 STSs, deren Positionen relativ zueinander und deren Lokalisierungen entlang dem Genom bekannt sind. Vorzugsweise werden die dreidimensionalen Pools mit etwa 30 000 STSs gescreent, deren Positionen relativ zu einander und deren Lokalisierungen entlang dem Genom bekannt sind. In einer höchst bevorzugten Ausführungsform werden die dreidimensionalen Pools mit etwa 20 000 STSs gescreent, deren Positionen relativ zueinander und deren Lokalisierungen entlang dem Genom bekannt sind.
  • Amplifikations-Produkte resultierend von den Amplifikations-Reaktionen werden durch konventionelle Agarosegel-Elektrophorese detektiert, kombiniert mit automatisierter Bildaufnahme und Verarbeitung. PCR-Screening für ein STS involviert drei Schritte (1) Identifizieren der positiven Primärpools; (2) für jeden positiven primären Pool, Identifizieren der positiven Platten-, Reihen-und Spalten-"Subpools", um die Adressierung des positiven Klons zu erhalten; (3) direktes Bestätigen des PCR-Assays auf dem identifizierten Klon. PCR-Assays werden durchgeführt mit Primern spezifisch definierend das STS.
  • Das Screenen wird wie folgt durchgeführt. Zunächst wird BAC-DNA enthaltend die genomischen Inserts wie folgt präpariert. Bakterien enthaltend die BACs werden über Nacht bei 37°C in 120 μl an LB enthaltend Chloramphenicol (12 Φg/ml) kultiviert. Die DNA wird durch das folgende Protokoll extrahiert:
    Zentrifugieren für 10 min bei 4°C und 2000 rpm
    Eliminieren des Überstandes und des resuspendierten Niederschlages in 120 μl TE 10-2 (Tris HCl 10 mM, EDTA 2 mM)
    Zentrifugieren für 10 min bei 4°C und 2000 rpm
    Eliminieren des Überstandes und Inkubieren des Niederschlages mit 20 μl Lyzozym 1 mg/ml über 15 min bei Raumtemperatur
    Zugabe von 20 μl Proteinase K 100 μg/ml und Inkubieren für 15 min bei 60°C
    Zugeben von 8 μl DNAse 2 U/μl und Inkubieren für 1 h bei Raumtemperatur
    Zugabe von 100 μl TE 10–2 und Halten bei –80°C
    PCR-Assays werden durchgeführt unter Verwendung des folgenden Protokolls:
    Figure 00790001
    Figure 00800001
  • Die Amplifikation wird mit einem Genius II Thermocycler durchgeführt. Nach Erhitzen bei 95°C für 10 min werden 40 Zyklen durchgeführt. Jeder Zyklus umfasst : 30 s bei 95°C, 54°C für 1 min und 30 s bei 72°C. Als letztendliche Verlängerung beenden 10 min bis 72°C die Amplifikation. Die PCR-Produkte werden auf 1 %igem Agarosegel mit 0,1 mg/ml Ethidiumbromid analysiert.
  • Beispiel 3
  • Subklonierung der BACs
  • Die Zellen erhalten von der drei Liter Übernacht-Kultur von jedem BAC-Klon werden durch alkalische Lyse unter Verwendung konventioneller Techniken behandelt, um die BAC-DNA enthaltend die genomischen DNA-Inserts zu erhalten. Nach Zentrifugation der BAC-DNA in einem Cäsiumchlorid-Gradienten werden etwa 50 μg an BAC-DNA gereinigt. 5–10 μg von BAC-DNA werden unter Verwendung von drei verschiedenen Bedingungen mit Ultraschall behandelt, um Fragmente innerhalb eines gewünschten Größenbereiches zu erhalten. Die erhaltenen DNA-Fragmente werden end-repariert in einem 50 μl Volumen mit zwei Einheiten von Vent Polymerase für 20 min bei 70°C, in der Gegenwart der vier Deoxytriphosphat (100 μM). Die resultierenden Fragmente mit Blunt-Enden werden durch Elektrophorese auf präparativen 1 %igen Agarosegelen mit niedrigen Schmelzpunkten (60 Volt für 3 Stunden) getrennt. Die Fragmente, die innerhalb eines gewünschten großen Bereiches liegen, wie z.B. 600 bis 6 000 bp werden von dem Gel abgetrennt und mit Agarase behandelt. Nach Chloroformextraktion und Dialyse auf Microcon 100 Säulen wird die DNA in Lösung auf 100 ng/μl Konzentration eingestellt. Eine Ligation an einen linearisierten, dephosphorylierten, mit Blunt-Enden versehenen Plasmid-Klonierungsvektor wird über Nacht durchgeführt durch Zugabe von 100 ng an BAC-Fragment DNA zu 20 ng an pBluescript II Sk (+) Vektor DNA linearisiert durch enzymatische Verdauung und behandelt mit alkalischer Phosphatase. Die Ligationsreaktion wird durchgeführt in einem letztendlichen 10 μl Volumen in der Gegenwart von 40 Einheiten/μl T4 DNA-Ligase (Epicentre). Die ligierten Produkte werden elektroporiert in die geeigneten Zellen (ElectroMAX E.coli DH 10B-Zellen). IPTG und X-gal werden zur Zellmischung hinzugegeben, die dann auf der Oberfläche einer Ampicillin-enthaltenden Agarplatte verteilt werden. Nach Inkubation über Nach bei 37°C werden rekombinante (weiße) Kolonien zufällig ausgewählt und in 96-Well-Mikroplatten zur Lagerung und zum Sequenzieren angeordnet.
  • Alternativ kann das BAC-Subklonieren durchgeführt werden unter Verwendung von Vektoren, welche sowohl einen Hoch-Kopien-Anzahl-Ursprung der Replikation besitzen, welcher die Isolierung der Vektor-DNA erleichtert, als auch einen Niedrig-Kopien-Zahl-Ursprung der Replikation. Das Klonieren eines genomischen DNA-Fragments in einen Hoch-Kopien-Zahl-Ursprung der Replikation inaktiviert den Ursprung, so dass Klone enthaltend ein genomisches Insert eine geringe Kopien-Zahl replizieren. Die niedrige Kopien-Anzahl von Klonen mit genomischem Insert darin ermöglicht, dass die Inserts stabil konserviert werden. Darüber hinaus können Selektionsprozeduren konzipiert werden, welche die Auswahl von Plasmiden mit niedriger Kopien-Zahl ermöglichen (d.h. Vektoren mit genomischen Inserts darin). In einer bevorzugten Ausführungsform wird das BAC-Subklonieren in Vektoren durchgeführt, welche die oben beschriebenen Merkmale aufweisen, und des Weiteren das High throughput-Screening von langen Fragmenten an genomischer DNA ermöglichen. Solch ein High throughput Hochqualitäts-Screening kann erhalten werden nach Erzeugen sukzessiver Deletionen innerhalb der subklonierten Fragmente, die sequenziert werden sollen, unter Verwendung von Transposition-basierten oder enzymatischen Systemen. Solche Vektoren werden in der US-Patentanmeldung mit dem Titel "High Throughput DNA Sequencing Vector" (WO 99/53044) beschrieben.
  • Es wird leicht einzusehen sein, dass andere Subklonierungsverfahren, die dem Fachmann auf dem Gebiet wohlbekannt sind, auch eingesetzt werden können.
  • Die resultierenden Subklone werden dann partiell sequenziert unter Verwendung beispielsweise der Prozeduren wie unten beschrieben.
  • Beispiel 4
  • Partielles Sequenzieren von BAC-Subklonen
  • Die genomischen DNA-Inserts in den Subklonen, wie z.B. den BAC-Subklonen wie oben hergestellt, werden durch Durchführung von PCR-Reaktionen in den Übernacht-Bakterien-Kulturen amplifiziert unter Verwendung von Primern, welche komplementär mit Vektorsequenzen sind, welche die Insertionen flankieren.
  • Die Sequenzen in den Insert-Extremitäten (im Durchschnitt 500 Basen an jedem Ende erhalten durch routinemäßigen Sequenzierungskonditionen) werden durch automatisiertes Fluoreszenz-Sequenzieren mit dem ABI 377-Sequenzierer unter Verwendung von ABI Prism DNA Sequenzierungsanalyse-Software bestimmt. Nach Gel-Bild-Analyse und DNA-Sequenz-Extraktion werden die Sequenzdaten automatisch verarbeitet mit adäquater Software, um die Sequenzqualität zu beurteilen. Ein urheberrechtlich geschützter Basen-Signalgeber markiert automatisch fehlerverdächtige Peaks, wobei die Form der Peaks berücksichtigt wird, die Inter-Peak-Auflösung und der Rausch-Level. Der urheberrechtlich geschützte Basen-Signalgeber führt auch ein automatisiertes Trimmen durch. Jedes Stück von 25 oder weniger Basen mit mehr als 4 fehlerverdächtigen Peaks wird üblicherweise als unzuverlässig betrachtet und verworfen.
  • Die sequenzierten Regionen der Subklone, wie z.B. der BAC-Subklone, die wie oben hergestellt wurden, werden dann analysiert, um Biallel-Marker, welche darin liegen, zu identifizieren. Die Häufigkeit mit welcher Biallel-Marker im Screening-Prozess detektiert werden, variiert mit dem durchschnittlichen Level der gewünschten Heterozygotizität. Beispielsweise werden sie, falls Biallel-Marker mit einer durchschnittlichen Heterozygotizität-Rate von mehr als 0,42 gewünscht sind, alle 2,5 bis 3 kb im Durchschnitt auftreten. Folglich müssen im Durchschnitt sechs 500 bp-genomische Fragmente gescreent werden, um einen Biallel-Marker mit einem adäquat informativen Gehalt zu haben.
  • Als eine bevorzugte Alternative zum Sequenzieren der Enden einer adäquaten Anzahl von BAC-Subklonen, können die oben erwähnten High throughput Deletion-basierten Sequenzierungs-Vektoren, welche die Erzeugung von hochqualitativen Sequenz- Information-abdeckenden Fragmenten von ca. 6 kb ermöglichen, verwendet werden. Das Vorliegen von Sequenz-Fragmenten von mehr als 2,5 oder 3 kb erhöht die Chancen der Identifizierung von Biallel-Markern darin. Verfahren zum Konstruieren und Sequenzieren eines gerafften Satzes an Deletionen werden in US-Patentanmeldung mit dem Titel "High Throughput DNA Sequencing Vector" (GENSET.015A, WO 99/53044) offenbart.
  • Nukleinsäuren, die hinsichtlich der Gegenwart von Biallel-Markern darin bewertet werden sollen, können aus Gruppen von Individuen erhalten werden, wie z.B. Gruppen von 100 Individuen, wie dies in Beispiel 5 beschrieben wird.
  • Beispiel 5
  • Extraktion von DNA
  • 30 ml an Blut wird von Individuen in der Gegenwart von EDTA abgenommen. Zellen (Niederschlag) werden nach Zentrifugation für 10 Minuten bei 2000 rpm gesammelt. Rote Zellen werden lysiert durch eine Lysis-Lösung (50 ml letztendliches Volumen 10 mM Tris pH 7,6; 5 mM MgCl2; 10 mM NaCl). Die Lösung wird zentrifugiert (10 Minuten, 2 000 rpm) und zwar so oft wie notwendig ist, um den Rückstand der roten Zellen, die im Überstand vorliegen, nach Resuspension des Niederschlages in der Lysis-Lösung zu eliminieren.
  • Der Niederschlag an weißen Zellen wird über Nacht bei 42°C mit 3,7 ml an Lysis-Lösung lysiert, wobei die Lösung aus Folgendem besteht:
    • – 3 ml TE 10–2 (Tris-HCl 10 mM, EDTA 2 mM)/NaCl 0,4 M
    • – 200 μl SDS 10 %
    • – 500 μl K-Proteinase (2 mg K-Proteinase in TE 10–2/NaCl 0,4 M).
  • Für die Extraktion von Proteinen wird 1 ml gesättigtes NaCl (6 M) (1/3,5 v/v) hinzugegeben. Nach heftigem Rühren wird die Lösung für 20 Minuten bei 10 000 rpm zentrifugiert. Für das Ausfällen der DNA werden 2 bis 3 Volumina an 100 %igem Ethanol zum vorherigen Überstand hinzugegeben und die Lösung wird für 30 Minuten bei 2000 rpm zentrifugiert. Die DNA-Lösung wird dann dreimal mit 70 %igem Ethanol gewaschen, um Salze zu eliminieren und für 20 Minuten bei 2000 rpm zentrifugiert. Der Niederschlag wird bei 37°C getrocknet und in 1 ml TE 10–1 oder 1 ml Wasser resuspendiert. Die DNA-Konzentration wird durch Messen des ODs bei 260 nm untersucht (1 Einheit OD entspricht 50 μg/ml DNA).
  • Um das Vorliegen von Proteinen in der DNA-Lösung auszuwerten, wird das OD 260 zu OD 280 Verhältnis bestimmt. Nur DNA-Präparationen mit OD 260 zu OD 280 Verhältnissen zwischen 1,8 und 2 werden in den folgenden Schritten wie unten beschrieben verwendet.
  • Sobald die genomische DNA von jedem Individuen in der gegebenen Population extrahiert worden ist, ist es bevorzugt, dass eine Fraktion von jeder DNA-Probe abgetrennt wird, wonach ein Pool von DNA erzeugt wird durch Zusammenstellen von äquivalenten DNA-Mengen der getrennten Fraktionen zu einer einzelnen. Die gepoolten DNA-Proben können verwendet werden, um Biallel-Marker wie in Beispiel 6 beschrieben zu identifizieren.
  • Beispiel 6
  • Amplifikation von DNA aus peripheralem Blut und Identifikation von Biallel-Markern
  • Die Amplifikation einer jeden Sequenz wird durchgeführt mit gepoolten DNA-Proben erhalten wie in Beispiel 5 oben und zwar unter Verwendung von PCR (Polymerase-Kettenreaktion) wie folgt:
    – letztendliches Volumen 25 μl
    – genomische DNA 2 ng/μl
    – MgCl2 2 mM
    – dNTP jeweils) 200 μM
    – Primer (jeweils) 2,9 ng/μl
    – Ampli Taq Gold DNA-Polymerase (Perkin) 0,05 Einheit/μl
    – PCR-Puffer (10X = 0,1 M Tris HCl pH 8,3, 0,5 M KCl) IX.
  • Die Synthese von Primern wird durchgeführt unter Befolgung des Phosphoramiditverfahrens mit einem GENSET UFPS 24.1 Syntheseautomaten.
  • Um die Kosten der Herstellung der Amplifikations-Primer zur Anwendung in den obengenannten Prozeduren zu reduzieren können kurze Primer verwendet werden. Während Primer von Sonden mit zwischen 15 und 20 (oder mehr) Nukleotiden üblicherweise hochspezifisch für eine gegebene Nukleinsäuresequenz sind, kann es ungünstig und teuer sein, ein relativ langes Oligonukleotid für jede Analyse zu synthetisieren. Um zumindest teilweise dieses Problem zu umgehen, ist es oft möglich, kleinere, jedoch relativ spezifische Oligonukleotide, die in ihrer Länge kürzer sind, zu verwenden, um eine durchführbare Bibliothek zu erzeugen. Beispielsweise ist eine Bibliothek von Oligonukleotiden, die etwa 8 bis 10 Nukleotide umfassen, konzipierbar und wurde bereits zum Sequenzieren von 40 000 bp Cosmid DNA verwendet (Studier, Proc. Natl. Acad. Sci. USA 86 (18) : 6917–6921 (1989)).
  • Ein weiterer möglicher Weg, um spezifische Primer und Sonden zu erhalten mit einer kleinen Bibliothek an Oligonukleotiden, ist es, längere, spezifischere Primer und Sonden als Kombinationen von kürzeren, weniger spezifischen Oligonukleotiden zu erzeugen. Bibliotheken von kürzeren Oligonukleotiden, die jeweils fünf bis acht Nukleotide lang sind, wurden bereits verwendet (Kieleczawa et al., Science 258 : 1787–1791 (1992); Kotler et al., Proc. Natl. Acad. Sci. USA 90 : 4241–4245 (1993); Kaczorowski und Szybalski, Anal Biochem. 221 : 127–135 (1994)). Geeignete Sonden und Primer gewünschter Länge können folglich konzipiert werden durch Assoziation von zwei oder drei kürzeren Oligonukleotiden, um modulare Primer zu konstituieren. Die Assoziation zwischen Primern kann entweder kovalent sein resultierend aus der Aktivität der DNA T4-Ligase oder nicht kovalent durch die Basen-Stapelungs-Energie.
  • Die Amplifikation wird mit einem Perkin Elmer 9600 Thermocycler oder MJ Research PTC200 und mit einem Erhitzungsdeckel durchgeführt. Nach Erhitzen bei 95°C für 10 Minuten werden 40 Zyklen durchgeführt. Jeder Zyklus umfasst 30 s bei 95°C, 1 Minute bei 54°C und 30 s bei 72°C. Zur letztendlichen Verlängerung beenden 10 Minuten bei 72° die Amplifikation.
  • Die Mengen des Amplifikations-Produktes, das erhalten wird, werden auf 96-Well-Mikrotiter-Platten bestimmt unter Verwendung eines Fluorimeters und Picogreen als interkalierendes Agens (Molecular Probes).
  • Die Sequenzen der Amplifikations-Produkte werden bestimmt unter Verwendung von automatisierten Dideoxy-Terminator-Sequenzierungsreaktionen mit einem Farbstoff-Primer-Zyklus-Sequenzierungs-Protokoll. Die Produkte der Sequenzierungs-Reaktionen werden auf Sequenzierungs-Gelen laufen gelassen und die Sequenzen werden bestimmt unter Verwendung von Gel-Bild-Analyse.
  • Die Sequenzdaten werden ausgewertet unter Verwendung von Software konzipiert, um das Vorhandensein von Biallel-Stellen unter den gepoolten amplifizierten Fragmenten nachzuweisen. Die Polymorphismus-Suche basiert auf der Gegenwart von überlagerten Peaks im Elektrophoresemuster resultierend von verschiedenen Basen, die an der gleichen Position erscheinen. Da jeder Dideoxyterminator mit einem unterschiedlichen Fluoreszenzmolekül gelabelt ist, präsentieren die beiden Peaks korrespondierend mit einer Biallel-Stelle unterschiedliche Farben korrespondierend mit zwei unterschiedlichen Nukleotiden an der gleichen Position auf der Sequenz. Die Software wertet das Intensitätsverhältnis zwischen den beiden Peaks aus und das Intensitätsverhältnis zwischen einem gegebenen Peak und einem umgebenen Peak der gleichen Farbe.
  • Das Vorhandensein von zwei Peaks kann jedoch auch ein Artefakt aufgrund des Hintergrundrauschens sein. Um ein solches Artefakt auszuschließen, werden die beiden DNA-Stränge sequenziert und ein Vergleich zwischen den Peaks wird durchgeführt. Um als polymorphe Sequenz registriert zu werden, muss der Polymorphismus auf beiden Strängen detektiert werden.
  • Die obengenannte Prozedur erlaubt die Identifikation derjenigen Amplifikations-Produkte, welche Biallel-Marker aufweisen.
  • Beispiel 7
  • Screenen von BAC-Bibliotheken mit Biallel-Markern
  • Amplifikations-Primer, welche die spezifische Amplifikation von DNA-Fragmenten ermöglichen, die Biallel-Marker tragen, können verwendet werden, um Klone in irgendwelchen genomischen DNA-Bibliotheken zu screenen, vorzugsweise BAC-Bibliotheken wie oben beschrieben und screenen hinsichtlich der Gegenwart von Biallel-Markern.
  • Paare von Primern werden konzipiert, welche die Amplifikation von Fragmenten ermöglichen, welche Biallel-Marker tragen, die erhalten werden wie oben beschrieben. Die Amplifikations-Primer können verwendet werden, um Klone in einer genomischen DNA-Bibliothek auf die Gegenwart von Biallel-Marken zu screenen.
  • Die Amplifikations-Primer für die Biallel-Marker können irgendwelche Sequenzen darstellen, welche die spezifische Amplifikation irgendeines DNA-Fragments ermöglichen, welches die Marker trägt und können konzipiert werden unter Verwendung von Techniken, die dem Fachmann auf dem Gebiet vertraut sind. Die Amplifikations-Primer können Oligonukleotide von 8, 10, 15, 20 oder mehr Basen an Länge sein, welche die Amplifikation irgendeines Fragments, welches die polymorphe Stelle in den Markern trägt, ermöglichen. Die polymorphe Base kann in der Mitte des Amplifikations-Produktes oder alternativ außerhalb der Mitte lokalisiert sein. Beispielsweise kann in einigen Ausführungsformen das erzeugte Amplifikations-Produkt, welches diese Primer verwendet, zumindest 100 Basen lang sein (d.h. 50 Nukleotide auf jeder Seite der polymorphen Base in Amplifikations-Produkten, in welchen die polymorphe Base zentral lokalisiert ist). In anderen Ausführungsformen kann das Amplifikations-Produkt, das erzeugt wurde unter Verwendung dieser Primer, zumindest 500 Basen lang sein (d.h. 250 Nukleotide auf jeder Seite der polymorphen Base in den Amplifikations-Produkten, in welchen die polymorphe Base zentral lokalisiert ist). In noch anderen Ausführungsformen kann das Amplifikations-Produkt produziert unter Verwendung dieser Primer zumindest 1000 Basen lang sein (d.h. 500 Nukleotide auf jeder Seite der polymorphen Base in Amplifikations-Produkten, in welche die polymorphe Base zentral lokalisiert ist).
  • Die Lokalisierung von Biallel-Markern auf BAC-Klonen wird essentiell wie in Beispiel 2 beschrieben durchgeführt.
  • Die BAC-Klone, die gescreent werden sollen, sind in dreidimensionalen Pools wie in Beispiel 2 beschrieben verteilt.
  • Amplifikations-Reaktionen werden mit den gepoolten BAC-Klonen durchgeführt unter Verwendung von Primern spezifisch für Biallel-Marker, um BAC-Klone zu identifizieren, welche die Biallel-Marker enthalten und zwar unter Verwendung von Prozeduren, die essentiell ähnlich zu denjenigen beschrieben in Beispiel 2 sind.
  • Amplifikations-Produkte resultierend aus den Amplifikations-Reaktionen werden durch konventionelle Agarosegel-Elektrophorese kombiniert mit automatisierter Bildaufnahme und Verarbeitung detektiert. PCR-Screenen für Biallel-Marker involviert drei Schritte (1) Identifizieren der positiven Primär-Pools; (2) für jeden positiven Primär-Pool, Identifizieren der positiven Platten-, Reihen-und Spalten-"Subpools", um die Adresse des positiven Klons zu erhalten; (3) direktes Bestätigen des PCR-Assays auf dem identifizierten Klons. PCR-Assays werden mit Primern durchgeführt, welche die Biallel-Marker definieren.
  • Screenen wird wie folgt durchgeführt. Zuerst wird BAC-DNA wie folgt isoliert. Bakterien enthaltend die genomischen Inserts werden über Nacht bei 37°C in 120 μl an LB-enthaltendem Chloramphenicol (12 Φg/ml) gezüchtet. DNA wird durch das folgende Protokoll extrahiert:
    Zentrifugieren für 10 min bei 4°C und 2000 rpm
    Eliminieren des Überstandes und Resuspendieren des Niederschlages in 120 μl TE 10-2 (Tris HCl 10 mM, EDTA 2 mM)
    Zentrifugieren für 10 min bei 4°C und 2000 rpm
    Eliminieren des Überstandes und Inkubieren des Niederschlages mit 20 μl Lyzozym 1 mg/ml über 15 min bei Raumtemperatur
    Zugabe von 20 μl Proteinase K 100 μg/ml und Inkubieren über 15 min bei 60°C
    Zugabe von 8 μl DNAse 2 U/μl und Inkubieren für 1 h bei Raumtemperatur
    Zugabe von 100 μl TE 10–2 und Halten bei –80°C
  • PCR-Assays werden durchgeführt unter Verwendung des folgenden Protokolls:
    Figure 00890001
  • Die Amplifikation wird mit einem Genius II Thermocycler durchgeführt. Nach Erhitzen bei 95°C für 10 min, werden 40 Zyklen durchgeführt. Jeder Zyklus umfasst : 30 s bei 95°C, 54°C für 1 min und 30 s bei 72°C. Für die letztendliche Elongation beenden 10 min bei 72°C die Amplifikation. PCR-Produkte werden analysiert auf einem 1 %igem Agarosegel mit 0,1 mg/ml Ethidiumbromid.
  • Beispiel 8
  • Zuordnung der Biallel-Marker an subchromosomale Regionen
  • Metaphasische Chromosomen werden aus Phytohemagglutinin (PHA) – stimulierten Blutzell-Donoren präpariert. PHA-stimulierte Lymphozyten von gesunden Männern werden für 72 h in einem RPMI-1640-Medium kultiviert. Zur Synchronisierung wird Methotrexat (10 mM) für 17 h zugegeben gefolgt von Addition von 5-Bromodeoxyuridin (5-BudR, 0,1 mM) für 6 h. Colcemid (1 mg/ml) wird für die letzten 15 min vor dem Ernten der Zellen zugegeben. Die Zellen werden gesammelt, gewaschen mit RPMI, inkubiert mit einer hypotonischen Lösung aus KCl (75 mM) bei 37°C für 15 min und in drei Chargen von Methanol : Eisessig (3 : 1) fixiert. Die Zellsuspension wird auf einen Glasträger getropft und an Luft getrocknet.
  • BAC-Klone, welche Biallel-Marker tragen, verwendet, um diese Kartierungen zu konstruieren, können wie oben beschrieben isoliert werden. Diese BACs oder Teile davon enthalten Fragmente, welche besagte Biallel-Marker tragen, beispielsweise erhalten durch Amplifikations-Reaktionen unter Verwendung von Paaren von Amplifikations-Primern wie oben beschrieben, können als Sonden, die mit metaphasischen Chromosomen hybridisiert werden sollen, verwendet werden. Man wird erkennen, dass die Hybridisierungssonden, die in dem betrachteten Verfahren verwendet werden sollen unter Verwendung alternativer Verfahren erzeugt werden können, die mit dem Fachmann auf dem Gebiet wohlbekannt sind. Hybridisierungssonden können irgendwelche geeignete Längen für diesen beabsichtigten Zweck haben.
  • Die Sonden werden dann mit Biotin-16 dUTP durch Nick-Translation gemäß den Hinweisen des Herstellers (Bethesda Research Laboratories, Bethesda, MD) gereinigt unter Verwendung einer Sephadex G-50-Säule (Pharmacia, Upssala, Schweden) und präzipitiert. Unmittelbar vor der Hybridisierung wird der DNA-Niederschlag in einem Hybridisierungspuffer aufgelöst (50 % Formamid, 2 X SSC, 10 % Dextransulfat, 1 mg/ml ultrageschallte Lachsspermien DNA, pH 7) und die Sonde wird bei 70°C für 5-10 min denaturiert.
  • Trägergläser werden bei –20°C gehalten und für 1 h bei 37°C mit RNase A (100 mg/ml) behandelt, dreimal in 2 X SSC gewaschen und in einer Ethanolserie dehydratisiert. Die Chromosompräparationen werden in 70 % Formamid, 2 X SSC für 2 min bei 70°C denaturiert und dann bei 4°C dehydratisiert. Die Trägergläser werden mit Proteinase K (10 mg/100 ml in 20 mM Tris-HCl, 2 mM CaCl2) bei 37°C für 8 min behandelt und dehydratisiert. Die Hybridisierungsmischung enthaltend die Sonde wird auf dem Trägerglas platziert, mit einem Deckglas abgedeckt, mit einem Gummi-Zement versiegelt und über Nacht in einer Feuchtigkeitskammer bei 37°C inkubiert. Nach Hybridisierung und den darauffolgenden Waschvorgängen wird die biotinylierte Sonde durch Avidin-FITC detektiert und mit weiteren Schichten an biotinyliertem Ziege-anti-Avidin und Avidin-FITC amplifiziert. Zur chromosomalen Lokalisierung werden fluoreszente R-Bänder wie zuvor beschrieben erhalten (Cherif et al., (1990) supra.). Die Trägergläser werden unter einem LEICA-Fluoreszenzmikroskop (DM-RXA) untersucht. Die Chromosomen werden gegengefärbt mit Propidiumiodid und das Fluoreszenzsignal der Sonde erscheint in Form von zwei symmetrisch gelb-grünen Spots auf beiden Chromatiden des fluoreszierenden R-Band-Chromosoms (rot). Folglich kann ein spezieller Biallel-Marker auf einem speziellen cytogenetischen R-Band auf einem gegebenen Chromosom lokalisiert sein.
  • Beispiel 9
  • Zuordnung der Biallel-Marker zu menschlichen Chromosomen
  • Die Biallel-Marker verwendet, um die Kartierungen zu konstruieren, können einem menschlichen Chromosom unter Verwendung von monosomaler Analyse wie unten beschrieben zugeordnet werden.
  • Die chromosomale Lokalisierung eines Biallel-Markers kann durch die Verwendung von somatischen Zell-Hybrid-Panels durchgeführt werden. Beispielsweise können 24 Panels, wobei jedes Panel ein unterschiedliches menschliches Chromosom enthält, verwendet werden (Russell et al., Somat Cell Mol. Genet 22 : 425–431 (1996); Drwinga et al., Genomics 16 : 311–314 (1993)).
  • Die Biallel-Marker sind wie folgt lokalisiert. Die DNA eines jeden somatischen Zell-Hybrids wird extrahiert und aufgereinigt. Die genomischen Zellproben eines somatischen Zell-Hybrid-Panels werden wie folgt hergestellt. Zellen werden über Nacht bei 42°C mit 3,7 ml an Lysis-Lösung lysiert, wobei die Lösung aus Folgendem besteht:
    3 ml TE 10–2 (Tris HCl 10 mM, EDTA 2 mM)/NaCl 0,4 M
    200 μl SDS 10 %
    500 μl K-Proteinase (2 mg K-Proteinase in TE 10–2/NaCl 0,4 M).
  • Für die Extraktion von Proteinen wird 1 ml gesättigtes NaCl (6 M) (1/3,5 v/v) zugegeben. Nach heftigem Rühren wird die Lösung für 20 Minuten bei 10 000 rpm zentrifugiert. Für das Ausfällen der DNA werden 2 bis 3 Volumina an 100 %igem Ethanol zum vorherigen Überstand hinzugegeben und die Lösung wird für 30 Minuten bei 2000 rpm zentrifugiert. Die DNA-Lösung wird dann dreimal mit 70 %igem Ethanol gewaschen, um Salze zu eliminieren und für 20 Minuten bei 2 000 rpm zentrifugiert. Der Niederschlag wird bei 37°C getrocknet und in 1 ml TE 10–1 oder 1 ml Wasser resuspendiert. Die DNA-Konzentration wird durch Messen des ODs bei 260 nm untersucht (1 Einheit OD entspricht 50 μg/ml DNA). Um das Vorliegen von Proteinen in der DNA-Lösung auszuwerten, wird das OD260/OD280 Verhältnis bestimmt. Nur DNA-Präparationen mit OD260/OD280 Verhältnissen zwischen 1,8 und 2 werden in den PCR-Assay verwendet.
  • Anschließend wird ein PCR-Assay mit einer genomischen DNA mit Primern, welche den Biallel-Marker definieren, durchgeführt. Der PCR-Assay wird wie oben beschrieben für BAC-Screening durchgeführt. Die PCR-Produkte werden auf einem 1 %igen Agarosegel enthaltend 0,2 mg/ml Ethidiumbromid analysiert.
  • Beispiel 10
  • Messung des Verknüpfungs-Ungleichgewichts
  • Wie ursprünglich von Strittmatter et al. und Saunders et al. in 1993 berichtet, ist das Apo E e4-Allel streng sowohl mit der spät beginnenden familiären als auch der sporadischen Alzheimers Erkrankung (Alzheimer's disease (AD) assoziiert. (Saunders, A.M. Lancet 342 : 710–711 (1993) und Strittmater, W.J. et al., Proc. Natl. Acad. Sci. U.S.A. 90 1977–1981 (1993)). Die 3 hauptsächlichen Isoformen des menschlichen Apolipoproteins E (apoE2,-E3 und-E4), die durch isoelektrisches Fokussieren identifiziert wurden, sind durch 3 Allele kodiert (e 2, 3 und 4). Die e 2, e 3 und e 4 Isoformen unterscheiden sich in ihrer Aminosequenz an zwei Stellen, nämlich Rest 112 (auch Stelle A genannt) und Rest 158 (auch Stelle B genannt). Die von den Vorfahren stammende Isoform des Proteins ist Apo E3, welches aus den Stellen A/B Cystein/Arginin enthält, wohingegen ApoE2 und-E4 Cystein/Cystein bzw. Arginin/Arginin enthalten (Weisgraber, K.H. et al., J. Biol. Chem. 256 : 9077–9083 (1981); Rall, S.C. et al., Proc. Natl. Acad. Sci. U.S.A. 79 : 4696–4700 (1982)).
  • Apo E e 4 wird derzeit als ein hauptsächlicher Risikofaktor für die Empfänglichkeit der AD-Entwicklung in Individuen von unterschiedlichen ethnischen Gruppen betrachtet (speziell in kaukasischen und japanischen verglichen mit spanischstämmigen oder afrikanischen Amerikanern) und zwar über alle Altersstufen zwischen 40 und 90 Jahren, sowohl in Männern und Frauen, wie dies in einer Untersuchung durchgeführt mit 5 930 AD-Patienten und 8 607 Kontrollen kürzlich berichtet wurde (Farrer et al., JAMA 278 : 1349–1356 (1997)). Genauer gesagt ist die Häufigkeit einer C-Base kodierend für Arginin 112 an der Stelle A signifikant in AD-Patienten erhöht.
  • Obwohl die mechanistische Verknüpfung zwischen Apo E e.4 und der neuronalen Degenerationscharakteristik von AD noch zu etablieren ist, schlagen derzeitige Hypothesen vor, dass der Apo E-Genotyp die neuronale Verletzlichkeit beeinflussen kann und zwar durch Verstärken der Ablagerung und/oder Aggregation des Amyloid-Betapeptids im Gehirn oder durch unmittelbares Reduzieren der Energie verfügbar für Neuronen durch Beschleunigen von Atherosklerose.
  • Unter der Verwendung der Verfahren wie oben beschrieben wurden Biallel-Marker, die in der Umgebung der Apo E-Stelle A sich befinden, erzeugt und die Assoziation von einem ihrer Allele mit Alzheimers Erkrankung wurde analysiert. Ein Apo E öffentlich bekannter Marker (stSG94) wurde verwendet, um eine menschliche Genom-BAC-Bibliothek wie zuvor beschrieben zu screenen. Ein BAC, das ein einzigartiges FISH-Hybridisierungssignal auf der chromosomalen Region 19q13.2.3 ergab, der Region, welche das Apo E-Gen beherbergt, wurde ausgewählt zum Auffinden von Biallel-Markern, die in dem Verknüpfungs-Ungleichgewicht mit dem Apo E-Gen stehen und zwar wie folgt.
  • Dieses BAC enthielt ein Insert von 205 kb und wurde wie zuvor beschrieben subkloniert. 50 BAC-Subklone wurden zufällig ausgewählt und sequenziert. 25 Subklonsequenzen wurden ausgewählt und zum Design von 25 Paaren an PCR-Primern verwendet, was ermöglichte, dass 500 bp Amplicons erzeugt wurden. Diese PCR- Primer wurden dann verwendet, um die korrespondierenden genomischen Sequenzen in einem Pool von DNA aus 100 unverwandten Individuen zu amplifizieren (die Blutdonoren waren französischen Ursprungs) wie dies bereits beschrieben wurde.
  • Amplifikations- Produkte aus gepoolter DNA wurden sequenziert und analysiert auf die Gegenwart von Biallel-Polymorphismen, wie dies bereits beschrieben wurde. Von fünf Amplicons wurde gezeigt, dass sie eine polymorphe Base in dem Pool von 100 unverwandten Individuen enthielten und folglich wurden diese Polymorphismen als zufällige Biallel- Marker in der Umgebung des Apo E-Gens ausgewählt. Die Sequenzen beider Allele dieser Biallel- Marker (99–344/439; 99–355/219; 99–359/308; 99–365/344; 99–366/274) korrespondierten mit SEQ ID Nrn 1–5 und 7–11 (siehe das beigefügte Sequenzprotokoll). Korrespondierende Paare von Amplifikations-Primern zur Erzeugung von Amplicons enthaltend diese Biallel- Marker können aus denjenigen aufgelistet als Sequenz ID Nm 13–17 und 19–23 gewählt werden.
  • Ein weiteres Paar von Primers (SEQ ID Nrn 18 und 24) wurde konzipiert, dass die Amplifikation des genetischen Fragments ermöglichte, welche die Biallel- Polymorphismen korrespondierend zu dem ApoE-Marker trug (99–2452/54; C/T; das C-Allel wird als SEQ ID Nr. 6 bezeichnet im angefügten Sequenzprotokoll, während das T– Allel als SEQ ID Nr. 12 in dem angefügten Sequenzprotokoll bezeichnet wird; es ist öffentlich als Apo E-Stelle A bekannt (Weisgraber et al. (1981), supra; Rall et al. (1982), supra)), welche amplifiziert werden soll.
  • Die fünf zufälligen Biallel- Marker plus der Apo E-Stelle A-Marker wurden physikalisch durch PCR- Screenen der korrespondierenden Amplicons unter Verwendung aller verfügbarer BACs, die ursprünglich aus den genomischen Bibliotheken ausgewählt wurden, sortiert, wie dies früher beschrieben wurde, und zwar unter Verwendung des öffentlichen Apo E-Markers stSG94. Die Reihenfolge der Amplicons abgeleitet von diesem BAC-Screenen ist wie folgt : (99–344/99–366) – (99–365/99–2452) – 99–359 – 99–355, wobei die Klammern andeuten, dass die exakte Reihenfolge der jeweiligen Amplicons nicht festgestellt werden konnte.
  • Das Verknüpfungs- Ungleichgewicht unter den sechs Biallel- Markern (fünf zufälligen Markern plus die Apo A-Stelle A) wurde bestimmt durch Genotypisieren der gleichen 100 unverwandten Individuen, von welchen die zufälligen Biallel- Marker identifiziert wurden.
  • Die DNA- Proben und Amplifikations- Produkte von genomischer PCR wurden unter gleichen Bedingungen wie diejenigen, die oben beschrieben wurden, zur Erzeugung der Biallel- Marker erhalten und automatisierten Mikrosequenzierungs- Reaktionen unterzogen unter Verwendung von fluoreszierenden ddNTPs (spezifische Fluoreszenz für jedes ddNTP) und der geeigneten Mikrosequenzierungs- Primer mit einem 3'-Ende unmittelbar strangaufwärts zur polymorphen Base in dem Biallel- Marker gelegen. Die Sequenz dieser Mikrosequenzierungs- Primer ist innerhalb des korrespondierenden Sequenzprotokolls der SEQ ID Nrn 25–30 angezeigt. Sobald er einmal am 3'-Ende durch die DNA- Polymerase unter Verwendung des komplementärenden fluoreszierenden Dideoxynukleotid-Analogs (thermal cycling) verlängert worden war, wurde der Mikrosequenzierungs- Primer präzipitiert, um nicht inkorporierte fluoreszente ddNTPs zu entfernen. Die Reaktionsprodukte wurden durch Elektrophorese mit der ABI 377- Sequenzierungsmaschine analysiert. Die Ergebnisse wurden automatisch durch geeignete Software, wie sie des Weiteren in Beispiel 13 beschrieben wird, analysiert.
  • Das Verknüpfungs- Ungleichgewicht (Linkage disequilibrium, LD) zwischen allen Paaren von Biallel- Markern (Mi, Mj) wurde für jede Allelkombination (Mi1, Mj1; Mi1, Mj2; Mi2, Mj1; Mi2, Mj2) gemäß der Maximum- Wahrscheinlichkeits- Abschätzung (MLE, maximum likelihood estimate) für delta (dem zusammengesetzten Verknüpfungs-Ungleichgewichts- Koeffizienten) berechnet. Die Ergebnisse der LD- Analyse zwischen dem Apo E-Stelle A-Marker und den fünf neuen Biallel-Markern (99–344/439; 99-355/219; 99–359/308; 99–365/344; 99–366/274) sind in Tabelle 1 unten zusammengefasst: Tabelle 1
    Figure 00950001
  • Die obigen LD- Ergebnisse zeigen an, dass unter den fünf Biallel- Markern, die zufällig in einer Region von etwa 200 kb enthaltend das Apo E-Gen ausgewählt wurden, der Marker 99–365/344T in relativ starkem Verknüpfungs- Ungleichgewicht mit dem Apo E-Stelle A-Allel steht (99–2452/54C).
  • Folglich kann man voraussagen, da das Apo E-Stelle A-Allel mit Alzheimers Erkrankung assoziiert ist, dass das T– Allel von Marker 99–365/344 wahrscheinlich sich als assoziiert mit AD findet. Um diese Hypothese zu testen, wurden die Biallel- Marker von SED ID Nrn 1–6 und 7–12 in Assoziations- Studien wie unten beschrieben verwendet.
  • 225 an Alzheimer erkrankten Patienten wurden rekrutiert gemäß den klinischen Inklusionskriterien basierend auf dem MMSE- Test. Die 248 Kontrollfälle enthaltend in dieser Studie waren sowohl ethnisch als auch vom Alter her passend zu den betroffenen Fällen. Sowohl die betroffenen als auch die Kontroll- Individuen korrespondierten zu nicht verwandten Fällen. Die Identitäten der polymorphen Basen eines jeden der Biallel-Marker wurden in jedem dieser Individuen unter Verwendung der Verfahren wie oben beschrieben bestimmt. Techniken zum Durchführen von Assoziations- Untersuchungen sind des Weiteren unten beschrieben.
  • Die Ergebnisse dieser Untersuchungen sind in Tabelle 2 unten zusammengefasst: Tabelle 2
    Figure 00960001
  • Die Häufigkeiten des Apo E-Stelle A-Allels sowohl in AD- Fällen als auch in Kontrollen hat sich als in Übereinstimmung mit derjenigen zuvor berichtet herausgestellt (10 % in den Kontrollen und ca. 34 % in den AD- Fällen, was zu einer 24 % Differenz in der Allel-Häufigkeit führt), was die Apo E e4 Assoziation in den Populationen verwendet für diese Untersuchung validiert.
  • Des Weiteren wurde wie aus der LD- Analyse (Tabelle 1) vorherzusehen war, eine signifikante Assoziation des T– Allels des Markers 99–365/344 mit AD- Fällen beobachtet (18 % Anstieg in der T– Allel- Häufigkeit in AD- Fällen im Vergleich zu Kontrollen, p-Wert für diese Differenz = 6,9 × 10–10).
  • Die Resultate oben deuten daraufhin, dass irgendein Marker in LD mit irgendeinem gegebenen Marker assoziiert mit einem Merkmal mit dem Merkmal assoziiert sein wird. Es wird leicht ersichtlich sein, dass obwohl in diesem Fall der Apo E-Stelle A-Marker das Merkmal- erzeugende Allel (TCA, trait- causing allele) selbst ist, die gleiche Schlussfolgerung gezogen werden könnte mit irgendeinem anderen nicht- TCA-Marker assoziiert mit dem untersuchten Merkmal.
  • Diese Ergebnisse deuten des Weiteren daraufhin, dass das Durchführen von Assoziations- Untersuchungen mit einem Satz von Biallel- Markern, die zufällig innerhalb einer Kandidatenregion in einer hinreichenden Dichte erzeugt wurden (hier ungefähr ein Biallel- Marker pro 40 kb im Durchschnitt), die Identifikation von zumindest einem Marker assoziiert mit dem Merkmal ermöglicht.
  • Des Weiteren korrelieren diese Ergebnisse mit der physikalischen Reihenfolge der sechs Biallel- Marker betrachtet innerhalb des vorliegenden Beispiels (siehe oben); Marker 99–365/344, der sich im Hinblick auf den physikalischen Abstand als am nächsten liegender herausgestellt hat zu dem Apo E-Stelle A-Marker zeigt auch die stärkste LD mit dem Apo E-Stelle A-Marker.
  • Um diese Beziehung zwischen physikalischem Abstand und Verknüpfungs-Ungleichgewicht zwischen Biallel- Markern weiter zu verfeinern, wurde ein 450 kb-Fragment einer genomischen Region auf Chromosom 8 vollständig sequenziert.
  • LD innerhalb von ca. 230 Paaren an Biallel-Markern abgeleitet davon wurde gemessen in einer zufälligen französischen Population und analysiert als eine Funktion von be kannten physikalischen Inter- Marker-Abständen. Diese Analyse bestätigte, dass im Schnitt der LD zwischen zwei Biallel-Markern mit dem physikalischen Abstand, welcher beide trennt, korreliert. Sie zeigte des Weiteren, dass LD zwischen 2 Biallel- Markern dazu tendiert, sich zu verringern, wenn ihr jeweiliger Abstand zunimmt. Genauer gesagt tendiert der LD zwischen 2 Biallel- Markern dazu, abzunehmen, wenn ihr Inter- Marker-Abstand größer als 50 kb ist und nimmt weiter ab, wenn der Inter- Marker- Abstand größer als 75 kb ist. Es wurde des Weiteren festgestellt, dass, wenn 2 Biallel- Marker mehr als 150 kb voneinander entfernt waren, am häufigsten kein signifikanter LD zwischen beiden nachgewiesen werden konnte. Es wird leicht ersichtlich sein, dass die Größe und Historie der Probenpopulation verwendet, um LD zwischen Markern zu messen, den Abstand, über welchen hinaus LD dazu tendiert nicht nachweisbar zu sein, beeinflussen kann.
  • Unter der Annahme, dass LDs zwischen Marker aufspannend in den Regionen von bis zu im Durchschnitt 150 kb Länge gemessen werden können, wird die Kartierung von Biallel- Markern ein Genom- weites LD- Kartieren erlauben, vorausgesetzt, dass die einen durchschnittlichen Inter- Marker- Abstand von weniger als 150 kb aufweisen.
  • Beispiel 11
  • Identifizierung einer Kandidatenregion beherbergend ein Gen-assoziiert mit einem nachweisbaren Merkmal
  • Die ursprüngliche Identifikation einer genomischen Kandidatenregion, welche ein Gen beherbergt assoziiert mit einem nachweisbaren Merkmal kann durchgeführt werden unter Verwendung einer Genom- weiten Kartierung umfassend etwa 20 000 Biallel-Marker. Die genomische Kandidatenregion kann des Weiteren definiert werden unter Verwendung einer Kartierung mit einer höheren Markerdichte, wie z.B. einer Kartierung umfassend ungefähr 40 000 Marker, ungefähr 60 000 Marker, ungefähr 80 000 Marker, ungefähr 100 000 Marker oder ungefähr 120 000 Marker.
  • Die Verwendung von hochdichten Kartierungen wie z.B. diejenigen wie oben beschrieben ermöglicht die Identifikation von Genen, welche wahrlich mit nachweisbaren Charakterzügen assoziiert sind, da zufällige Assoziationen zufällig entlang dem Genom ver teilt sein werden, während wahre Assoziationen sich innerhalb einer oder mehrerer diskreter genomischer Regionen kartieren werden. Dementsprechend werden Biallel-Marker lokalisiert in der Umgebung eines Gens assoziiert mit einem nachweisbaren Merkmal zu breiten Peaks in Graphen führen, welche die Häufigkeiten von Biallel- Markern in T+ Individuen gegen T– Individuen darstellen. Im Gegensatz dazu werden Biallel- Marker, die nicht in der Umgebung von Genen assoziiert mit dem nachweisbaren Merkmal liegen, einzelne Punkte in einem solchen Plot erzeugen. Durch Nachweis der Assoziation verschiedener Marker innerhalb der Region enthaltend das Gen assoziiert mit dem nachweisbaren Merkmal, kann das Gen assoziiert mit dem nachweisbaren Merkmal identifiziert werden unter Verwendung einer Assoziations- Kurve, welche den Unterschied zwischen den Allel- Häufigkeiten innerhalb der T+ und T– Populationen für jeden untersuchten Marker reflektiert. Das Gen assoziiert mit dem nachweisbaren Merkmal wird sich in der Umgebung des Markers finden, der die höchste Assoziation mit dem Merkmal zeigt.
  • 4, 5 und 6 illustrieren die obengenannten Prinzipien. Wie in 4 illustriert, umfasst eine Assoziations- Analyse durchgeführt mit einer Kartierung umfassend etwa 3 000 Biallel- Marker eine Gruppe von Punkten. Wenn die Assoziations- Analyse jedoch unter Verwendung einer dichteren Kartierung durchgeführt wird, welche zusätzliche Biallel-Marker umfasst, werden die Punkte zu breiten Peaks, die die Lokalisierung eines Gen andeuten, das assoziiert mit einem nachweisbaren Merkmal ist. Beispielsweise können die Biallel- Marker verwendet in der ursprünglichen Assoziations- Analyse von einer Kartierung erhalten werden umfassend etwa 20 000 Biallel- Marker, wie dies in 5 illustriert wird.
  • In dem hypothetischen Beispiel von 4, legt die Assoziations- Analyse mit 3 000 Markern, Peaks in der Nähe der Marker 9 und 17 nahe.
  • Als nächstes wird eine zweite Analyse durchgeführt unter Verwendung zusätzlicher Marker in der Umgebung der Marker 9 und 17 wie dies im hypothetischen Beispiel von 5 gezeigt wird und zwar unter Verwendung einer Kartierung von etwa 20 000 Markern. Dieser Schritt zeigt erneut eine Assoziation in der unmittelbaren Umgebung von Marker 17 an, da mehrere Marker in dieser Region eine Assoziation mit dem Merkmal zeigen. Jedoch zeigt keiner der zusätzlichen Marker um Marker 9 eine signifikante As soziation mit dem Merkmal, was Marker 9 zu einem potenziell falsch positiven macht. Um des Weiteren die Validität von diesen zwei vermuteten Assoziationen zu zeigen, kann eine dritte Analyse erhalten werden mit einer Kartierung umfassend ungefähr 60 000 Biallel- Marker. In dem hypothetischen Beispiel von 6 zeigen mehrere Marker in der Umgebung von Marker 17 einen hohen Grad der Assoziation mit dem nachweisbaren Merkmal. Im Gegensatz dazu wird keine Assoziation in der Umgebung von Marker 9 bestätigt. Die genomische Region umgebend Marker 17 kann folglich als eine Kandidatenregion für das hypothetische Merkmal dieser Simulation betrachtet werden.
  • Beispiel 12
  • Haplotyp-Analyse: Identifizierung von Biallel- Markern, welche ein genomische Region assoziiert mit Alzheimers Erkrankung (Alzheimer's Disease (AD) abgrenzen
  • Wie in Tabelle 2 innerhalb von Beispiel 10 gezeigt zeigte bei einer durchschnittlichen Kartierungsdichte von einem Marker pro 40 kb nur ein Marker (99–365/344) von fünf zufälligen Biallel- Markern aus einer ca. 200 kb genomischen Region um das Apo E-Gen eine klare Assoziation mit AD (delta der allelen Häufigkeit zwischen Fällen und Kontrollen = 18 %; p-Wert = 6,9–10). Die allelen Häufrgkeiten der anderen vier zufälligen Marker war nicht signifikant unterschiedlichwischen AD- Fällen und Kontrollen (p-Werte ≥ 10–1). Da jedoch das Verknüpfungs- Ungleichgewicht üblicherweise zwischen Markern lokalisiert in einem Abstand untereinander von mehr als durchschnittlich 40 kb wie oben diskutiert detektiert werden kann, sollte man erwarten, dass die Durchführung einer Assoziations- Untersuchung mit einem lokalen Auszug einer Biallel- Marker-Kartierung, welche 200 kb abdeckt mit einer durchschnittlichen Inter- Marker- Distanz von ca. 40 kb die Identifikation von mehr als einem Biallel- Marker assoziiert mit AD erlauben sollte.
  • Eine Haplotyp- Analyse wurde folglich durchgeführt unter Verwendung der Biallel- Marker 99–344/439; 99–355/219; 99–359/308; 99–365/344; und 99–366/274 (von SEQ ID Nrn 1–5 und 7–11).
  • In einem ersten Schritt war Marker 99–365/344, der bereits als assoziiert mit AD herausgefunden worden war nicht in der Haplotyp- Untersuchung enthalten. Nur die Bial lel-Marker 99–344/439; 99–355/219; 99–359/308; und 99–366/274, welche keine signifikante Assoziation mit AD zeigten, wenn sie individuell betrachtet wurden, wurden verwendet. Diese erste Haplotyp- Analyse maß Häufigkeiten aller möglicher zwei-, drei- oder vier- Marker- Haplotypen in den AD- Fall- und Kontroll- Populationen. Wie in 7 gezeigt war nur ein Haplotyp unter allen potenziellen verschiedenen Haplotypen basierend auf den vier individuellen nicht signifikanten Markern ("Haplotyp 8", TAGG umfassend SEQ ID Nr. 2, welche das T– Allel von Marker 99–366/274 ist, SEQ ID Nr. 1, welche das A- Allel des Markers 99–344/439 ist, SEQ ID Nr. 3, welche das G- Allel von Marker 99–359/308 ist und SEQ ID Nr. 4, welche das G- Allel von Marker 99–355/219 ist), der in statistisch signifikanten unterschiedlichen Häufigkeiten zwischen AD- Fall- und Kontroll- Populationen vorlag (D = 12%; p- Wert = 2,05 × 10–6). Des Weiteren wunde ein signifikanter Unterschied bereits für einen drei- Marker- Haplotyp enthalten in dem obengenannten "Haplotyp 8" beobachtet ("Haplotyp 7", TGG, D = 10%, p- Wert = 4,76 × 10–5. Haplotyp 7 umfasst SEQ ID Nr. 2, welche das T– Allel von Marker 99-366/274 ist, SEQ ID Nr. 3, welche das G- Allel von Marker 99–359/308 ist und SEQ ID Nr. 4, welche das G- Allel von Marker 99–355/219 ist). Die Haplotyp- Assoziations-Analyse vergrößerte folglich klar das statistische Potenzial der individuellen Marker-Assoziations- Untersuchungen um mehr als vier Größenordnungen im Vergleich zu Einzel- Marker- Analyse (von den p- Werten von > 10–1 für die individuellen Marker – siehe Tabelle 2 – zu den p- Werten von ≤ 2 × 10–6 für den vier- Marker- "Haplotyp 8").
  • Die Signifikanz der Werte erhalten für diese Haplotyp- Assoziations- Analyse wurde ausgewertet durch die folgende Computersimulation. Die Genotyp- Daten von den AD-Fällen und den nicht betroffenen Kontrollen wurden gepoolt und zufällig zwei Gruppen zugeordnet, welche die gleiche Anzahl von Individuen wie die Fall/Kontroll- Gruppen verwendet zur Erzeugung der Daten zusammengefasst in 7 enthielten. Eine vier-Marker- Haplotyp- Analyse (99–344/439; 99–355/219; 99–359/308; und 99-366/274) wurde mit diesen artifiziellen Gruppen durchgeführt. Dieses Experiment wunde 100 mal reiteriert und die Ergebnisse sind in 8 gezeigt. Ein Haplotyp unter diesen erzeugten wurde gefunden, für welchen der p- Wert des Häufigkeits- Unterschieds zwischen beiden Populationen signifikanter als 10–5 war. Zusätzlich zeigten nur 4 % der erzeugten Haplotypen p- Werte von weniger als 1 × 10–4. Da sowohl diese p- Wert-Schranken weniger signifikant sind als diejenigen der 2 × 10–6 p- Werte gezeigt von "Haplotyp 8", kann dieser Haplotyp als signifikant assoziiert mit AD betrachtet werden.
  • In einem zweiten Schritt war der Marker 99–365/344 in den Haplotyp- Analysen enthalten. Die Frequenzunterschiede zwischen den betroffenen und nicht betroffenen Populationen wurden für alle zwei-, drei-, vier- oder fünf- Marker- Haplotypen involvierend die Marker 99–344/439; 99–355/219; 99–359/308; 99–366/274; und 99–365/344 berechnet. Die am meisten signifikanten p- Werte erhalten in jeder Kategorie von Haplotyp (involvierend zwei, drei, vier oder fünf Marker) wurden untersucht abhängig davon, welcher Marker innerhalb des Haplotyps involviert war oder nicht. Dies zeigte, dass alle Haplotypen, welche den Marker 99–365/344 enthielten eine signifikante Assoziation mit AD zeigten (p- Werte in der Größenordnung von 10–4 bis 10–11).
  • Ein zusätzlicher Weg, die Signifikanz der Werte erhalten in der Haplotyp- Assoziations-Analyse zu bewerten, war es, eine ähnliche AD- Fall- Kontroll- Untersuchungen mit Biallel- Markern erzeugt aus BACs enthaltend Inserts korrespondierend mit genomischen Regionen abgeleitet von Chromosomen 13 oder 21 durchzuführen, von denen man nicht weiß, ob sie in Alzheimers Krankheit involviert sind. Das Durchführen ähnlicher Haplotyp- und individueller Assoziations- Analysen wie diejenigen wie oben beschrieben und in Beispiel 10 erzeugte keinerlei signifikante Assoziations- Ergebnisse (alle p- Werte der Haplotyp- Analysen waren weniger signifikant als 10–3; alle p- Werte für Einzelmarker- Assoziations- Untersuchungen waren weniger signifikant als 10–2).
  • In einer bevorzugten Ausführungsform kann die genomische Kandidatenregion unter Verwendung der Verfahren beschrieben in Beispielen 20–23 unten untersucht werden, um zu bestimmen, ob sie wahrscheinlicherweise ein Gen assoziiert mit Alzheimers Erkrankung beherbergt.
  • Die Ergebnisse beschrieben in Beispielen 10 und 12 erzeugt aus individuellen und Haplotyp- Untersuchungen unter Verwendung eines Biallel- Marker- Satzes mit einer durchschnittlichen Dichte von gleich etwa 40 kb in der Region eines Gens, welche das Merkmal für Alzheimers Erkrankung erzeugte, deuten daraufhin, dass alle Biallel- Marker von hinreichend informativem Gehalt lokalisiert innerhalb einer 200 kb genomischen Region um ein TCA potenziell erfolgreich verwendet werden können um ein Gen, welches ein Merkmal verursacht, zu lokalisieren und zwar mit den Verfahren bereitgestellt durch die vorliegende Erfindung. Dieser Schluss wird des Weiteren unterstützt durch die Ergebnisse erhalten durch Messen des Verknüpfungs- Ungleichgewichts zwischen den Markern 99–365/344 oder 99–359/308 und dem ApoE 4- Stelle A- Marker innerhalb von Alzheimer- Patienten : wie man vorhersagen konnte, da LD die unterstützende Basis für die Assoziations- Untersuchungen ist, war LD diesen Paaren von Markern in der erkrankten Population im Gegensatz zur Kontrollpopulation erhöht. Auf ähnliche Art und Weise erhöhte die Haplotyp- Analyse die Signifikanz der korrespondierenden Assoziations- Untersuchungen.
  • Beispiel 13
  • Genotypisierung von Biallel- Markern unter Verwendung von Mikrosequenzierungs-Prozeduren
  • Verschiedene Mikrosequenzierungs- Protokolle durchgeführt in flüssiger Phase sind dem Fachmann auf dem Gebiet wohlbekannt. Eine erste mögliche Detektions- Analyse, welche die Allel- Charakterisierung der Mikrosequenzierungs- Reaktionsprodukte ermöglicht, baut auf der Detektion von fluoreszierenden ddNTP- verlängerten Mikrosequenzierungs- Primern nach Gel- Elektrophorese auf. Eine erste Alternative zu diesem Ansatz besteht im Durchführen einer Flüssig- Phasen- Mikrosequenzierungs- Reaktion, deren Analyse in fester Phase durchgeführt werden kann.
  • Beispielsweise kann die Mikrosequenzierungs- Reaktion durchgeführt werden unter Verwendung von 5'-biotinylierten Oligonukleotid- Primern und Fluorescein-Dideoxynukleotiden. Das biotinylierte Oligonukleotid ist an die Target- Nukleinsäure-Sequenz annealed und zwar unmittelbar benachbart zur polymorphen Nukleotidposition von Interesse. Sie wird dann spezifisch an ihrem 3'- Ende verlängert folgend auf einen PCR- Zyklus, wobei das gelabelte Dideoxynukleotid analog komplementär zur polymorphen Base eingebracht wird. Der biotinylierte Primer wird dann auf einer Mikrotiterplatte gecoated mit Streptavidin eingefangen. Die Analyse wird somit vollständig in einem Mikrotier- Platten- Format durchgeführt. Das inkorporierte ddNTP wird durch ein Fluoresceinantikörper- alkalisches Phosphatase- Konjugat nachgewiesen.
  • In der Praxis wird diese Mikrosequenzierungs- Analyse wie folgt durchgeführt. 20 μl der Mikrosequenzierungs- Reaktion wird zu 80 μl an Einfangpuffer zugegeben (SSC 2X, 2,5 % PEG 8000, 0,25 M Tris pH 7,5, 1,8 % BSA, 0,05 % Tween 20) und für 20 Minuten auf einer Mikrotiter- Platte gecoated mit Streptavidin (Boehringer) inkubiert. Die Platte wird einmal mit einem Waschpuffer gewaschen (0,1 M Tris pH 7,5, 0,1 M NaCl, 0,1 Tween 20). 100 μl an Anti- Fluorescein- Antikörper konjugiert mit alkalischer Phosphatase verdünnt 1/5000 in Waschpuffer enthaltend 1,8 % BSA wird zur Mikrotiter- Platte hinzugegeben. Der Antikörper wird auf der Mikrotiter- Platte für 20 Minuten inkubiert. Nach viermaligem Waschen mit der Mikrotiter- Platte werden 100 μl an 4-Methylumbelliferylphosphat (Sigma) verdünnt auf 0,4 mg/ml in 0,1 M Diethanolamin pH 9,6, 10 mM MgCl2 hinzugegeben. Die Detektion der Mikrosequenzierungs- Reaktion wird in einem Fluorimeter (Dynatech) durchgeführt und zwar nach 20 Minuten an Inkubation.
  • Beispiel 14
  • YAC- Contig- Konstruktion in der genomischen Kandidaten- Region
  • Substanzielle Mengen von LOH- Daten unterstützten die Hypothese, dass Gene assoziiert mit unterschiedlichen Krebs- Typen innerhalb einer speziellen Region des menschlichen Geoms lokalisiert sind. Genauer gesagt konnte man mit Wahrscheinlichkeit davon ausgehen, dass diese Region ein Gen assoziiert mit Prostata- Krebs beherbergte. Assoziations- Untersuchungen wurden durchgeführt wie unten beschrieben, um dieses Prostata- Krebs- Gen zu identifizieren. Ein YAC Contig enthaltend die genomische Region, von der man erwartete, dass sie ein Gen assoziiert mit Prostata- Krebs beherbergte, wurde wie folgt konstruiert.
  • Zunächst wurde ein YAC Contig, welches die genomische Kandidatenregion enthielt, wie folgt konstruiert. Die CEPH- Genethon YAC- Kartierung des gesamten menschlichen Genoms (Chumakov et al. (1995), supra) wurde verwendet zur detaillierten Contig- Erzeugung in der genomischen Region enthaltend genetische Marker bekannt für die Kartierung in der genomischen Kandidatenregion. Screening- Daten verfügbar für mehrere öffentlich verfügbare genetische Marker wurden verwendet, um einen Satz von CEPH YACs lokalisiert innerhalb der Kandidatenregion auszuwählen. Dieser Satz von YAC wurde durch PCR mit den obengenannten genetischen Markern getestet wie auch mit anderen öffentlich verfügbaren Markern die vermutlich innerhalb der Kandidatenre gion lokalisiert sind. Als ein Ergebnis dieser Untersuchungen wurde eine YAC STS Contig- Kartierung erzeugt um genetische Marker herum, von denen bekannt war, dass sie in dieser Region kartiert sind. Zwei CEPH YACs wurden identifiziert als ein minimal deckender Pfad in dieser Region mit einer geschätzten Größe von ca. 2 Megabasen.
  • Während dieser Kartierungsbemühungen wurden mehrere öffentlich bekannte STS-Marker präzise innerhalb des Contigs lokalisiert.
  • Beispiel 15 unten beschreibt die Identifikation von Sätzen an Biallel- Markern innerhalb der genomischen Kandidatenregion.
  • Beispiel 15
  • BAC- Contig- Konstruktion und Biallel- Marker- Isolation innerhalb der chromosomalen Kandidatenregion
  • Als nächstes wurde ein BAC- Contig abdeckend die genomische Kandidatenregion, von der man vermutete, dass sie ein Gen assoziierte mit Prostata- Krebs beherbergte, wie folgt konstruiert. BAC- Bibliotheken wurden erhalten wie beschrieben in Woo et al., Nucleic Acids Res. 22 : 4922–4931 (1994). Kurz gesagt wurden die beiden BamHI und Hindlll- Bibliotheken des gesamten menschlichen Genoms, wie bereits in Beispiel 1 oben beschrieben, unter Verwendung des pBeloBAC11- Vektors (Kim et al. (1996), supra) konstruiert.
  • Die BAC- Bibliotheken wurden dann mit allen der obengenannten STSs gescreent gemäß der Prozedur beschrieben in Beispiel 2 oben.
  • Die sortierten BACs selektiert durch STS- Screening und verifiziert durch FISH wurden in Contigs zugeordnet und neue Marker wurden erzeugt durch partiellen Sequenzieren der Insert- Enden von einigen von ihnen. Diese Marker wurden verwendet, um die Lücken in den Contigs der BAC- Klone zu füllen, welche die chromosomale Kandidatenregion abdecken und zwar mit einer geschätzten Größe von 2 Megabasen.
  • 9 illustriert ein minimales Array von überlappenden Klonen, das für weitere Untersuchungen ausgewählt wurde und die Position der öffentlich bekannten STS- Marker entlang besagtem Contig.
  • Ausgewählte BAC- Klone aus dem Contig wurden subkloniert und sequenziert essentiell folgend den Prozeduren beschrieben in Beispielen 3 und 4.
  • Biallel- Marker welche entlang des Contigs lagen, wurden identifiziert folgend den Prozeduren beschrieben in Beispielen 5 und 6.
  • 9 zeigt die Lokalisierungen der Biallel- Marker entlang des BAC- Contigs. Der erste Satz von Markern korrespondiert mit einer Medium- Dichte- Kartierung der Kandidatenstelle mit dem Inter- Marker- Abstand im Durchschnitt von 50 kb- 150 kb.
  • Ein zweiter Satz von Biallel- Markern wurde dann erzeugt wie oben beschrieben, um eine höchstdichte Kartierung der Region identifiziert unter Verwendung des ersten Satzes an Markern bereitzustellen, die verwendet werden kann, um Assoziations-Untersuchungen durchzuführen wie unten beschrieben. Die höchstdichte Kartierung weist Marker in einem durchschnittlichen Abstand von allen 2–50 kbs auf.
  • Die Biallel- Marker wurden dann in Assoziations- Untersuchungen eingesetzt. DNA-Proben wurden erhalten von Individuen, die unter Prostata- Krebs litten und nicht betroffenen Individuen und dies wird in Beispiel 16 beschrieben.
  • Beispiel 16
  • Gewinnen von DNA- Proben von betroffenen und nicht betroffenen Individuen
  • Prostata- Krebs- Patienten wurden rekrutiert gemäß den klinischen Inklusions- Kriterien basierend auf pathologischen oder fundamentalen Prostatectomy- Aufzeichnungen. Kontroll- Fälle enthalten in dieser Untersuchung waren sowohl ethnisch als auch vom Alter her angepasst an die betroffenen Fälle; sie wurden sowohl hinsichtlich der Abwesenheit aller klinischer und biologischer Kriterien, welche die Anwesenheit oder das Risiko an Prostata- Krebs definieren überprüft wie auch für die Abwesenheit von verwand ten familiären Prostata- Krebs- Fällen. Sowohl betroffene als auch Kontroll- Individuen waren alle unverwandt.
  • Die beiden folgenden Gruppen an unabhängigen Individuen wurden in Assoziations-Untersuchungen eingesetzt. Die erste Gruppe umfassend Individuen, welche unter Prostata- Krebs litten, enthielt 185 Individuen. Unter diesen 185 Fällen an Prostata-Krebs waren 47 Fälle sporadisch und 138 Fälle familiär. Die Kontroll- Gruppe enthielt 104 nicht erkrankte Individuen.
  • Die Haplotyp- Analyse wurde durchgeführt unter Verwendung zusätzlich erkrankter (Gesamtzahl der Proben : 281) und Kontroll- Proben (Gesamtzahl : 130) von Individuen rekrutiert gemäß ähnlicher Kriterien.
  • Die DNA wurde aus peripheralem venösem Blut aller Individuen wie in Beispiel 5 beschrieben extrahiert.
  • Die Häufigkeiten der Biallel- Marker in jeder Population wurden wie in Beispiel 17 beschrieben bestimmt.
  • Beispiel 17
  • Genotypisieren von betroffenen und Kontroll- Individuen
  • Das Genotypisieren wurde durchgeführt unter Verwendung der folgenden Mikrosequenzierungs- Prozedur. Die Amplifikation wurde durchgeführt mit jeder DNA- Probe unter Verwendung von Primern designed wie zuvor erklärt. Die Paare von Primern wurden verwendet, um Amplicons beherbergend die Biallel- Marker 99–123, 4–26, 4–14, 4–77, 99–217, 4–67, 99–213, 99–221, 99–135, 99–1482, 4–73, und 4–65 unter Verwendung der Protokolle beschrieben in Beispiel 6 oben zu erzeugen.
  • Mikrosequenzierungs- Primer wurden designed für jeden der Biallel- Marker, wie dies zuvor beschrieben wurde. Nach Aufreinigung der Amplifikations- Produkte wurde die Mikrosequenzierungs- Reaktions- Mischung hergestellt durch Zugabe auf ein End-Volumen von 20 μl von : 10 pmol Mikrosequenzierungs- Oligonukleotid, 1 U Thermo sequenale (Amersham E79000G), 1,25 μl Thermosequenasepuffer (260 mM Tris HCl pH 9,5, 65 mM MgCl2) und der beiden geeigneten fluoreszierenden ddNTPs (Perkin Elmer, Dye Terminator Set 401095) komplementär mit den Nukleotiden an der polymorphen Stelle eines jeden getesteten Biallel- Markers entsprechend den Empfehlungen des Herstellers. Nach 4 Minuten bei 94°C wurden 20 PCR- Zyklen von 15 s bei 55°C, 5 s bei 72°C und 10 s bei 94°C durchgeführt in einem Tetrad PTC- 225 Thermocycler (MJ Research). Die nicht inkorporierten Farbstoffüberreste wurden dann durch Ethanolpräzipitation entfernt. Die Proben wurden schließlich resuspendiert in Formamid-EDTA-Beladungspuffer und für 2 min bei 95°C erhitzt bevor sie auf ein Polyacrylamid-Sequenzierungs- Gel beladen wurden. Die Daten wurden durch einen ABI PRISM 377 DNA- Sequenzierautomaten gesammelt und verarbeitet unter Verwendung der GE-NESCAN- Software (Perkin Elmer).
  • Nach der Gel- Analyse wurden die Daten automatisch mit Software verarbeitet, welche die Bestimmung der Allele von Biallel- Markern vorliegend in jedem amplifizierten Fragment vermöglichte.
  • Die Software überprüft solche Faktoren, ob die Intensitäten der Signale resultierend von den obengenannten Mikrosequenzierungs- Prozeduren schwach, normal oder gesättigt sind, oder ob die Signale zweideutig sind. Darüber hinaus identifiziert die Software signifikante Peaks (gemäß Zustand und Höhenkriterien). Unter den signifikanten Peaks werden Peaks, die mit der Target- Stelle korrespondieren identifiziert basierend auf ihrer Position. Wenn zwei signifikante Peaks an der gleichen Position detektiert werden, wird jede Probe als homozygot oder heterozygot basierend auf ihrem Höhenverhältnis kategorisiert.
  • Assoziations- Analysen wurden dann durchgeführt unter Verwendung der Biallel- Marker wie unten beschrieben.
  • Beispiel 18
  • Assoziations- Analyse
  • Assoziations- Untersuchungen wurden in zwei nachfolgenden Schritten durchlaufen. In einem ersten Schritt wurde eine grobe Lokalisierung des Kandidaten- Gens erreicht durch Bestimmung der Häufigkeiten der Biallel- Marker von 9 in den betroffenen und nicht betroffenen Populationen. Die Ergebnisse dieser groben Lokalisation sind in 10 gezeigt. Diese Analyse zeigt an, dass ein Gen verantwortlich für Prostata- Krebs in der Nähe des Biallel- Markers bezeichnet als 4–67 lokalisiert war.
  • In einer zweiten Phase der Analyse wurde die Position des Gens verantwortlich für Prostata- Krebs des Weiteren verfeinert unter Verwendung des sehr hochdichten Satzes an Markern einschließend die 99–123, 4–26, 4–14, 4–77, 99–217, 4–67, 99–213, 99-221, 99–135, 99–1482, 4–73 und 4–65 Marker.
  • Wie in 11 gezeigt bestätigte die zweite Phase der Analyse, dass das Gen verantwortlich für Prostata- Krebs in der Nähe des Biallel- Markers mit der Bezeichnung 4–67 lag, höchstwahrscheinlich innerhalb einer ca. 150 kb Region umfassend den Marker.
  • Eine Haplotyp- Analyse wurde auch wie in Beispiel 19 beschrieben durchgeführt.
  • Beispiel 19
  • Haplotyp- Analyse
  • Die Allel Häufigkeiten eines jeden der Allele von Biallel- Markern 99–123, 4–26, 4–14, 4–77, 99–217, 4–67, 99–213, 99–221, und 99–135 wurde bestimmt in den betroffenen und nicht betroffenen Populationen. Tabelle 3 führt die intemalen Identifikationsnummern der Marker verwendet in der Haplotyp- Analyse auf, die Allele eines jeden Markers, das am häufigsten vorkommende Allel sowohl in nicht betroffenen Individuen als auch in Individuen, die unter Prostata- Krebs litten, das am wenigstens häufige Allel in sowohl den nicht betroffenen Individuen als auch in den Individuen, die unter Prostata-Krebs litten, und die Häufigkeiten der am wenigstens häufigsten Allelen in jeder Population.
  • Tabelle 3
    Figure 01100001
  • Unten all den theoretischen potenziell unterschiedlichen Haplotypen basierend auf 2 bis 9 Markern wurden 11 Haplotypen ausgewählt, welche eine sehr starke Assoziation mit Prostata- Krebs zeigten. Die Ergebnisse dieser Haplotyp- Analysen sind in 12 gezeigt.
  • 11 und 12 stellen Ergebnisse von Assoziations- Analysen mit Sequenzierungs-Resultaten zusammen, welche erzeugt wurden entsprechend der Prozeduren die des Weiteren in Beispiel 21 beschrieben werden, und erlauben, dass die physikalische Reihenfolge und/oder der Abstand zwischen Markern abgeschätzt werden kann.
  • Folglich wird die Verwendung der Daten von 13 und die Auswertung der Assoziationen für Einzel- Marker- Allele oder für Haplotypen die Abschätzung des Risikos, welches einen korrespondierenden Träger hat, Prostata- Krebs zu entwickeln, erlauben. Es wird leicht einzusehen sein, dass signifikante Schranken von relativen Risiken gemäß der getesteten Population genauer ausgewertet werden können.
  • Beispiel 20
  • Konstruktion der Zufallsregion- Verteilung und der Kandidatenregion- Verteilung für eine erste genomische Region, von der man erwartet, dass sie ein Gen assoziiert mit Prostata- Krebs beherbergt
  • In einem BAC- Insert, von dem man erwartet, dass ein Gen beherbergt wird assoziiert mit Prostata- Krebs wurden 35 Biallel- Marker identifiziert über eine genomische Region von 161 kb (d.h. ein durchschnittlicher Inter- Marker- Abstand von ungefähr 4,5 kb). Die 35 Marker wurden in Gruppen von je 3 Markern unterteilt und die Häufigkeiten von jedem der acht möglichen Haplotypen an Markern (insgesamt 6545 Kombinationen von 3 Markern) wurden abgeschätzt in Individuen, welche unter Prostata- Krebs litten und in Kontroll- Individuen, die keinen Prostata- Krebs aufwiesen und zwar unter Verwendung des Erwartungs- Maximierungs- Algorithmus von Excoffier und Slatkin. Für jede Gruppe von 3 Markern wurde die Häufigkeit von jedem der acht möglichen Haplotypen in Individuen mit Prostata- Krebs und in Kontroll- Individuen verglichen unter Verwendung einer Chi- Quadrat- Analyse, welche die Differenz zwischen zwei Häufigkeiten gewichtet durch Probengrößen und Haplotyp- Häufigkeiten maß. Der Chi- Quadrat- Wert für den Haplotyp mit der größten Assoziation mit Prostata- Krebs wurde ausgewählt zur Inklusion in die Kandidatenregion- Verteilung. Jede Kombination von 3 Markern wurde in der Analyse verwendet. Folglich waren 6545 Chi- Quadrat- Werte in der Kandidatenregion-Verteilung enthalten.
  • Eine zufällige Region- Verteilung wurde wie folgt erhalten. Insgesamt 30 bakterielle Marker von BAC- Inserts wurden verwendet, um die zufällige Region- Verteilung zu erzeugen. Die Anzahl von Markern pro BAC in den zufälligen BACs reichte von 3 bis 9 mit einem Median bei 3. Alle die Marker passten zum Hardy- Weinberg- Gleichgewicht.
  • Für jedes BAC- Insert wurden die Marker auf diesem Insert in 3 Gruppen eingeteilt. Die Häufigkeiten von jedem der acht möglichen Haplotypen an Markern (insgesamt 240 Kombinationen von 3 Markern) in den Gruppen wurden in den Individuen abgeschätzt, welche unter Prostata- Krebs litten sowie in Kontroll- Individuen, die keinen Prostata-Krebs aufwiesen und zwar unter Verwendung des Erwartungs- Maximierungs- Algorithmus von Excoffier L und Slatkin. Für jede Gruppe von 3 Markern wurde die Häufigkeit eines jeden Haplotyps in Individuen mit Prostata- Krebs und in Kontroll- Individuen verglichen unter Verwendung einer Chi- Quadrat- Analyse und der Chi- Quadrat- Wert für den Haplotyp mit der größten Assoziation mit Prostata- Krebs wurde ausgewählt für die Inklusion in der Zufallsregion- Verteilung. Jede Kombination von 3 Markern wurde in der Analyse verwendet. Folglich waren 240 Chi- Quadrat- Werte in der Zufallsregion-Verteilung enthalten.
  • Tabelle 4 unten zeigt die Anzahl der BACs, die Anzahl der Marker, die Anzahl von 3-Marker- Kombinationen, und die Probengrößen verwendet, um die Zufallsregion-Verteilung und die Kandidatenregion- Verteilung zu konstruieren.
  • Tabelle 4
    Figure 01120001
  • 16A zeigt die abgeschätzte kumulative Verteilungsfunktion in den zufälligen BACs und in den Kandidaten- BACs. 16B zeigt die korrespondierende abgeschätzte Dichtefunktion in zufälligen Kandidaten- BACs (Saporta 1990, supra).
  • Beispiel 21
  • Vergleich der Zufallsregion- Verteilung und der Kandidatenregion- Verteilung für eine erste genomische Region von der man erwartet, dass sie ein Gen assoziiert mit dem Prostata- Krebs beherbergt
  • Die Validität der Zufallsregion- Verteilung wurde wie folgt bewertet. Die Gruppe von Markern, die für die Inklusion in der Zufallsregion- Verteilung betrachtet wurde, wurde zufällig in zwei gleiche Hälften verteilt. Dies führte zu zwei Sätzen von zufälligen Markern, die hier als BAC (1) und BAC (2) bezeichnet werden. Die Verteilungen erhalten von den Markern in der genomischen Kandidatenregion und aus dem gesamten Satz von zufälligen Markern (d.h. BAC (1) +BAC (2)) wurde mit den Ergebnissen aus der ersten Zeile von Tabelle 5 unten verglichen. Die Verteilungen erhalten aus den Markern in der genomischen Kandidatenregion und der BAC (1) Gruppe von zufälligen Markern wurden mit den Ergebnissen aus der zweiten Zeile von Tabelle 5 unten verglichen. Die Verteilungen der Marker in der genomischen Kandidatenregion und der BAC (2) Gruppe von zufälligen Markern wurde mit den Ergebnissen aus der dritten Zeile von Tabelle 5 unten verglichen. Die Verteilungen der BAC (1) Gruppe von zufälligen Markern und der BAC (2) Gruppe von zufälligen Markern wurde mit den Ergebnissen verglichen aus der vierten Zeile von Tabelle 5 unten. Wie in den Zeilen 1–3 von Tabelle 5 gezeigt, waren die Verteilungen der Marker in der genomischen Kandidatenregion und der verschiedenen Gruppen von zufälligen Markern signifikant unterschiedlich, was darauf hindeutet, dass die genomische Kandidatenregion tatsächlich ein Gen assoziiert mit Prostata- Krebs beherbergt. Im Gegensatz dazu waren die Verteilungen der Marker in der BAC (1) und BAC (2) zufälligen- genomischen Region nicht signifikant unterschiedlich, was darauf hindeutet, dass diese Marker tatsächlich geeignet für die Inklusion in der Zufallsregion- Verteilung waren.
  • Figure 01140001
  • Unter Verwendung des Wilcoxon- Verfahrens wie oben erläutert war die Summe der Ränge der Chi- Quadrat- Werte 250055. Unter der Null- Hypothese würde man erwarten, dass die Summe der Ränge der Chi- Quadrat- Werte 814430 wäre. Dementsprechend war der beobachtete z- Wert- 19. Der z- Wert ist assoziiert mit dem p- Wert von weniger als 10–4. Folglich sind die Kandidatenregion- Verteilung und die Zufallsregion-Verteilung signifikant unterschiedlich. Demgemäß besteht eine sehr hohe Wahrscheinlichkeit, dass die Kandidaten- genomische Region ein Gen beherbergt assoziiert mit Prostata- Krebs.
  • Ein ähnliches Ergebnis wurde erhalten unter Verwendung des Kolmogorov- Smirnov-Verfahrens. Der erhaltene Dmax war 0,56 für einen Chi- Quadrat- Wert von 2,75. Dieses Ergebnis ist erneut hoch signifikant (Wahrscheinlichkeit von weniger als 10–4).
  • Die F1·(x) und die F2·(x) kumulativen Verteilungs- Funktionen wurden für die Zufallsregion- Verteilung und die Kandidatenregion- Verteilung wie oben beschrieben berechnet. Die Ergebnisse sind in 16A gezeigt. Wie in 16A gezeigt war die Kandidatenregion- Verteilung signifikant unterschiedlich zur Zufallsregion- Verteilung. Wie in 16A gezeigt, ist die Kurve des Kandidaten- BACs stets tieferliegend als die Kurve von den Zufalls- BACs. Dieser Typ an Unterschied wird erwartet, falls ein Gen assoziiert mit dem Merkmal in den Kandidaten- BACs vorliegt, so dass die Chi- Quadrat- Werte in den Kandidaten- BACs größer sind. In 16B ist die Kurve für die Merkmal- assoziierten BACs nach rechts verschoben.
  • Beispiel 22
  • Konstruktion der Zufallsregion- Verteilung und der Kandidatenregion- Verteilung einer zweiten genomischen Region von der man erwartet, dass sie ein Gen assoziiert mit Prostata- Krebs beherbergt
  • Eine Analyse ähnlich zu derjenigen durchgeführt in den Beispielen 20 und 21 wurde für eine zweite genomische Region durchgeführt, von der man erwartet, dass sie ein Gen beherbergt assoziiert mit Prostata- Krebs. Jedoch wurden in diesem Fall zwei unterschiedliche Gruppen von Markern in der genomischen Kandidatenregion in der Analyse verwendet. Die erste Gruppe enthielt alle, die Marker verfügbar in der Kandidatenregion (Tabelle 6, Zeile 1) waren. Die zweite Gruppe enthielt nur Marker die nicht im kompletten Verknüpfungs- Ungleichgewicht miteinander standen (Tabelle 6, Zeile 2).
  • Figure 01170001
  • 17A stellt die abgeschätzte kumulative Verteilungsfunktion in den zufälligen BACs und dem Kandidaten- BAC dar.
  • Beispiel 23
  • Vergleich der Zufallsregion- Verteilung und der Kandidatenregion- Verteilung für eine zweite genomische Region, von der man erwartet, dass sie ein Gen assoziiert mit Prostata- Krebs enthält
  • Die folgenden Verteilungen wurden miteinander verglichen. Die Verteilung erhalten alle Marker nach der Kandidatenregion (Gen 2.1) wurde verglichen mit der Verteilung von den zufälligen genomischen Regionen (Tabelle 7, Zeile 1). Die gleiche Verteilung von der Kandidatenregion wurde mit der Verteilung einer ersten zufälligen Hälfte, BAC (1) der Marker von den genomischen Zufallsregionen (Tabelle 7, Zeile 2) verglichen. Die gleiche Verteilung von Markern der Kandidatenregion wurde mit der Verteilung von einem zweiten Zufalls- Hälften- BAC (2) der Marker von den genomischen Zufallsregionen (Tabelle 7, Zeile 3) verglichen. Jeder dieser Ansätze zeigte an, dass die genomische Kandidatenregion ein Gen assoziiert mit Prostata- Krebs beherbergte.
  • Die Verteilung der zweiten Gruppe von Markern (siehe Beispiel 22) der Kandidatenregion (Gen 2.2) wurde mit der Verteilung der zufälligen Marker (Tabelle 7, Zeile 4) verglichen. Die Verteilung erhalten von der zweiten Gruppe an Markern der Kandidatenregion wurde mit der Verteilung der ersten Zufalls- Hälfte an Markern (BAC (1)) von den genomischen Zufallsregionen (Tabelle 7, Zeile 5) verglichen. Die Verteilung erhalten von der zweiten Gruppe an Markern der Kandidatenregion wurde mit der Verteilung aus einer zweiten zufälligen Hälfte von Markern (BAC (2)) von den genomischen Zufallsregionen (Tabelle 7, Zeile 6) verglichen. Alle drei Ansätze zeigten an, dass die genomische Kandidatenregion höchstwahrscheinlich ein Gen assoziiert mit Prostata- Krebs beherbergte.
  • Im Gegensatz dazu waren die Verteilungen der Marker in den genomischen Zufallsregionen BAC (1) und BAC (2) nicht signifikant unterschiedlich, was darauf hindeutet, dass diese Marker tatsächlich geeignet zur Inklusion in der Zufalls- Verteilung waren.
  • Figure 01190001
  • Es ist wert festzuhalten, dass die p- Werte erhalten unter Verwendung der zweiten Gruppe an Markern in der Kandidatenregion dazu tendieren, signifikanter zu sein als diejenigen erhalten zur Verwendung aller Marker in der Kandidatenregion, welche einige Marker umfassen, die stark miteinander verknüpft sind. Es ist auch wert festzuhalten, dass diese Ergebnisse mit 9 Markern erhalten wurden, die einen durchschnittlichen Inter- Marker- Abstand von 40 kb aufwiesen. Dies ist auch in 17A und 17B gezeigt, die einen größeren Unterschied zwischen der Verteilung von Markern in der Kandidatenregion und der Zufallsregion- Verteilung zeigen, wenn die Verteilung von Markern in der Kandidatenregion nur unter Verwendung von Markern erzeugt wird, die nicht in vollständigem Verknüpfungs- Ungleichgewicht liegen.
  • 17B zeigt einen Vergleich dieser Verteilungen.
  • Obwohl diese Erfindung beschrieben wurde mit Blick auf bestimmte Ausführungsformen, werden dem Fachmann auf dem Gebiet andere Ausführungsformen unter Berücksichtigung der hier getroffenen Offenbarung als im Umfang dieser Erfindung eingeschlossen offensichtlich sein. Dementsprechend ist der Umfang der Erfindung so gedacht, dass er nur unter Verweis auf die beigefügten Ansprüche definiert werden soll.
  • SEQUENZPROTOKOLL. FREIER TEXT
  • Der folgende freie Text erscheint in dem beigefügten Sequenzprotokoll:
    Mikrosequenzierungs- Oligo
    Potenzielles Mikrosequenzierungs- Oligo
    Polymorphe Base
    Allel
    Strangaufwärts gelegener Amplifikations- Primer
    Strangabwärts gelegener Amplifikations- Primer
    Extrahiert aus einer Sequenz
    Figure 01210001
    Figure 01220001
    Figure 01230001
    Figure 01240001
    Figure 01250001
    Figure 01260001
    Figure 01270001
    Figure 01280001
    Figure 01290001
    Figure 01300001
    Figure 01310001
    Figure 01320001
    Figure 01330001
    Figure 01340001
    Figure 01350001

Claims (25)

  1. Verfahren zur Bestätigung, dass – oder Bestimmung, ob – eine Kandidaten-Genomregion ein Gen enthält, das mit einem detektierbaren Merkmal in Verbindung steht, folgende Schritte umfassend: Erzeugung einer Kandidatenregion-Verteilung von Testwerten unter Verwendung mehrerer biallelischer Marker in einer Kandidaten-Genomregion, von der angenommen wird, dass sie das Gen enthält, das mit dem detektierbaren Merkmal in Verbindung steht, wobei die Kandidatenregion-Verteilung von Testwerten ein Hinweis auf den Häufigkeitsunterschied der verschiedenen biallelischen Marker in der Kandidatenregion bei nicht verwandten Personen, die das detektierbare Merkmal aufweisen, und Vergleichspersonen, die das detektierbare Merkmal nicht aufweisen, ist; Erzeugung einer Zufallsregion-Verteilung von Testwerten unter Verwendung mehrerer biallelischer Marker in Zufalls-Genomregionen, von denen nicht angenommen wird, dass sie das Gen enthalten, das mit dem detektierbaren Merkmal in Verbindung steht, wobei die Zufallsregion-Verteilung von Testwerten ein Hinweis auf den Häufigkeitsunterschied der verschiedenen biallelischen Marker in den Zufalls-Genomregionen bei nicht verwandten Personen, die das detektierbare Merkmal aufweisen, und Vergleichspersonen, die das detektierbare Merkmal nicht aufweisen, ist; und Bestimmung, ob sich die Kandidatenregion-Verteilung von Testwerten und die Zufallsregion-Verteilung von Testwerten signifikant voneinander unterscheiden, um zu bestimmen, ob die Wahrscheinlichkeit hoch ist, dass die Kandidatenregion ein Gen enthält, das mit dem detektierbaren Merkmal in Verbindung steht.
  2. Verfahren nach Anspruch 1, worin der Schritt der Erzeugung einer Kandidatenregion-Verteilung von Testwerten die Durchführung einer Haplotypanalyse an jeder möglichen Kombination von biallelischen Markern in jeder Gruppe in einer Reihe von Gruppen von biallelischen Markern in der Kandidatenregion, die Berechnung von Testwerten für jede mögliche Kombination und die Miteinbeziehung des Testwerts für den Haplotyp mit der stärksten Verbindung mit dem Merkmal in der Kandidaten region-Verteilung von Testwerten für jede Gruppe in einer Reihe von Gruppen von biallelischen Markern in der Kandidaten-Genomregion umfasst und worin der Schritt der Erzeugung einer Zufallsregion-Verteilung von Testwerten die Durchführung einer Haplotypanalyse an jeder möglichen Kombination von biallelischen Markern in jeder Gruppe in einer Reihe von Gruppen von biallelischen Markern in den Zufalls-Genomregionen, die Berechnung von Testwerten für jede mögliche Kombination und die Miteinbeziehung des Testwerts für den Haplotyp mit der stärksten Verbindung mit dem Merkmal in der Zufallsregion-Verteilung von Testwerten für jede Gruppe in der Reihe von Gruppen von biallelischen Markern in den Zufalls-Genomregionen umfasst.
  3. Verfahren nach Anspruch 2, worin die Schritte der Durchführung einer Haplotypanalyse an jeder möglichen Kombination von biallelischen Markern in jeder Gruppe in einer Reihe von Gruppen von biallelischen Markern in der Kandidaten-Genomregion und der Berechnung der Testwerte für jede Kombination die folgenden Schritte umfasst: Berechnung der Häufigkeiten für jede Kombination von biallelischen Markern in jeder Gruppe in der Reihe von Gruppen von biallelischen Markern in der Kandidaten-Genomregion bei Personen, bei denen das detektierbare Merkmal ausgeprägt ist; Berechnung der Häufigkeiten für jede Kombination von biallelischen Markern in jeder Gruppe in der Reihe von Gruppen von biallelischen Markern in der Kandidaten-Genomregion bei Personen, bei denen das detektierbare Merkmal nicht ausgeprägt ist; und Vergleich der Haplotyphäufigkeiten bei Personen, bei denen das Merkmal ausgeprägt ist, und Personen, bei denen das Merkmal nicht ausgeprägt ist, mittels Durchführung einer Chi-Quadrat-Analyse, um die Testwerte zu erhalten.
  4. Verfahren nach Anspruch 3, worin die Schritte der Durchführung einer Haplotypanalyse an jeder möglichen Kombination von biallelischen Markern in jeder Gruppe in einer Reihe von Gruppen von biallelischen Markern in den Zufalls-Genomregionen und der Berechnung der Testwerte für jede Kombination die folgenden Schritte umfassen: Berechnung der Häufigkeiten für jede Kombination von biallelischen Markern in jeder Gruppe in der Reihe von Gruppen von biallelischen Markern in den Zufalls-Genomregionen bei Personen, bei denen das detektierbare Merkmal ausgeprägt ist; Berechnung der Häufigkeiten für jede Kombination von biallelischen Markern in jeder Gruppe in der Reihe von Gruppen von biallelischen Markern in den Zufalls-Genomregionen bei Personen, bei denen das detektierbare Merkmal nicht ausgeprägt ist; und Vergleich der Haplotyphäufigkeiten bei Personen, bei denen das Merkmal ausgeprägt ist, und Personen, bei denen das Merkmal nicht ausgeprägt ist, mittels Durchführung einer Chi-Quadrat-Analyse, um die Testwerte zu erhalten.
  5. Verfahren nach Anspruch 4, worin der Schritt des Vergleichs der Kandidaten-Genomregion-Verteilung von Testwerten mit der Zufallsregion-Verteilung von Testwerten die Durchführung eines Wilcoxon-Rangtests, eines Kolmogorov-Smirnov-Tests oder beider umfasst.
  6. Verfahren nach Anspruch 4, worin jede der Gruppen von biallelischen Markern in der Reihe von Gruppen von biallelischen Markern in den Kandidaten-Genomregionen oder in den Zufalls-Genomregionen zumindest 3 biallelische Marker umfasst.
  7. Verfahren nach Anspruch 4, worin die biallelischen Marker in jeder der Gruppen in der Reihe von Gruppen von biallelischen Markern in der Kandidaten-Genomregion oder in den Zufalls-Genomregionen einen mittleren Abstand zwischen den Markern aufweisen, der aus der aus einem Marker alle 3 kb, einem Marker alle 5 kb, einem Marker alle 10 kb, einem Marker alle 20 kb und einem Marker alle 30 kb bestehenden Gruppe ausgewählt ist.
  8. Verfahren nach Anspruch 4, das außerdem die Auswahl von Zufalls-Genomregionen zur Verwendung bei der Haplotypanalyse umfasst, die zumindest 3 biallelische Marker aufweisen.
  9. Verfahren nach Anspruch 8, das außerdem die Auswahl von Zufalls-Genomregionen zur Verwendung bei der Haplotypanalyse umfasst, worin die biallelischen Marker einen mittleren Abstand zwischen den Markern aufweisen, der aus der aus einem Marker alle 3 kb, einem Marker alle 5 kb, einem Marker alle 10 kb, einem Marker alle 20 kb und einem Marker alle 30 kb bestehenden Gruppe ausgewählt ist.
  10. Verfahren nach Anspruch 9, das außerdem die Auswahl von Zufalls-Genomregionen zur Verwendung bei der Haplotypanalyse umfasst, worin bei Personen, bei denen das detektierbare Merkmal ausgeprägt ist, und Vergleichspersonen, bei denen das detektierbare Merkmal nicht ausgeprägt ist, zumindest 3 biallelische Marker im Hardy-Weinberg-Gleichgewicht stehen.
  11. Verfahren nach Anspruch 10, das außerdem die Auswahl von Zufalls-Genomregionen zur Verwendung bei der Haplotypanalye umfasst, worin die zumindest 3 biallelischen Marker nicht in vollkommenem Bindungsungleichgewicht stehen, so dass sie bei der Durchführung einer Haplotypanalyse von Nutzen sind.
  12. Verfahren nach Anspruch 3, das außerdem die Auswahl von biallelischen Markern in der Kandidaten-Genomregion umfasst, die bei Personen, bei denen das detektierbare Merkmal ausgeprägt ist, und Vergleichspersonen, bei denen das detektierbare Merkmal nicht ausgeprägt ist, im Hardy-Weinberg-Gleichgewicht stehen, um sie bei der Haplotypanalyse zu verwenden.
  13. Verfahren nach Anspruch 12, das außerdem die Bestimmung der Gesamtanzahl von Markern in der Kandidaten-Genomregion umfasst.
  14. Verfahren nach Anspruch 4, das außerdem den Schritt der Verifikation umfasst, dass die biallelischen Marker in den Zufalls-Genomregionen zur Verwendung bei der Haplotypanalyse geeignet sind, und zwar durch die folgenden Schritte: willkürliche Teilung der biallelischen Marker in den Zufalls-Genomregionen in eine erste Verifikationsgruppe und eine zweite Verifikationsgruppe, worin die erste Verifikationsgruppe und die zweite Verifikationsgruppe eine im Wesentlichen identische Anzahl an biallelischen Markern enthalten; Erzeugung einer ersten Verifikationsverteilung von Testwerten für die biallelischen Marker in der ersten Verifikationsgruppe mittels Durchführung einer Haplotypanalyse an jeder möglichen Kombination von biallelischen Markern in jeder Gruppe in einer Reihe von Gruppen von biallelischen Markern in der ersten Verifikationsgruppe, Berechnung von Testwerten für jede mögliche Kombination und Miteinbeziehung des Testwerts für den Haplotyp mit der stärksten Verbindung mit dem Merkmal in der ersten Verifikationsverteilung von Testwerten für jede Gruppe in der Reihe von Gruppen von biallelischen Markern in der ersten Verifikationsgruppe; Erzeugung einer zweiten Verifikationsverteilung von Testwerten für die biallelischen Marker in der zweiten Verifikationsgruppe mittels Durchführung einer Haplotypanalyse an jeder möglichen Kombination von biallelischen Markern in jeder Gruppe in einer Reihe von Gruppen von biallelischen Markern in der zweiten Verifikationsgruppe, Berechnung von Testwerten für jede mögliche Kombination und Miteinbeziehung des Testwerts für den Haplotyp mit der stärksten Verbindung mit dem Merkmal in der zweiten Verifikationsverteilung von Testwerten für jede Gruppe in der Reihe von Gruppen von biallelischen Markern in der zweiten Verifikationsgruppe; Bestimmung, ob sich die erste Verifikationsverteilung und die zweite Verifikationsverteilung signifikant voneinander unterscheiden, worin sich die biallelischen Marker in den Zufalls-Genomregionen zum Einsatz bei der Naplotypanalyse eignen, wenn sich die erste Verifikationsverteilung und die zweite Verifikationsverteilung nicht signifikant voneinander unterscheiden.
  15. Verfahren nach Anspruch 14, worin die Schritte der Durchführung einer Haplotypanalyse an jeder möglichen Kombination von biallelischen Markern in jeder Grup pe in der Reihe von Gruppen von biallelischen Markern in der ersten und der zweiten Verifikationsgruppe und der Berechnung der Testwerte für jede Kombination die folgenden Schritte umfassen: Berechnung der Häufigkeiten für jede Kombination von biallelischen Markern in der ersten Verifikationsgruppe in jeder Gruppe in der Reihe von Gruppen von biallelischen Markern bei Personen, bei denen das detektierbare Merkmal ausgeprägt ist; Berechnung der Häufigkeiten für jede Kombination von biallelischen Markern in der ersten Verifikationsgruppe in jeder Gruppe in der Reihe von Gruppen von biallelischen Markern bei Personen, bei denen das detektierbare Merkmal nicht ausgeprägt ist; und Vergleich der Haplotyphäufigkeiten der biallelischen Marker in der ersten Verifikationsgruppe bei Personen, bei denen das Merkmal ausgeprägt ist, und Personen, bei denen das Merkmal nicht ausgeprägt ist, mittels Durchführung einer Chi-Quadrat-Analyse, um die Testwerte zu erhalten; Berechnung der Häufigkeiten für jede Kombination von biallelischen Markern in der zweiten Verifikationsgruppe in jeder Gruppe in der Reihe von Gruppen von biallelischen Markern bei Personen, bei denen das detektierbare Merkmal ausgeprägt ist; Berechnung der Häufigkeiten für jede Kombination von biallelischen Markern in der zweiten Verfikationsgruppe in jeder Gruppe in der Reihe von Gruppen von biallelischen Markern bei Personen, bei denen das detektierbare Merkmal nicht ausgeprägt ist; und Vergleich der Haplotyphäufigkeiten der biallelischen Marker in der zweiten Verifikationsgruppe bei Personen, bei denen das Merkmal ausgeprägt ist, und Personen, bei denen das Merkmal nicht ausgeprägt ist, mittels Durchführung einer Chi-Quadrat-Analyse, um die Testwerte zu erhalten.
  16. Verfahren nach Anspruch 15, worin der Schritt der Bestimmung, ob sich die erste Verifikationsverteilung und die zweite Verifikationsverteilung signifikant voneinander unterschieden, die Durchführung eines Wilcoxon-Rangtests, eines Kolmogorov-Smirnov-Tests oder beider an der ersten und zweiten Verifikationsverteilung umfasst.
  17. Verfahren nach Anspruch 15, worin jede der Gruppen von biallelischen Markern in der Reihe von Gruppen von biallelischen Markern in der ersten Verifikationsgruppe und jede der Gruppen von biallelischen Markern in der Reihe von Gruppen von biallelischen Markern in der zweiten Verifikationsgruppe 3 oder mehr biallelische Marker enthält.
  18. Verfahren nach Anspruch 1, worin das Verfahren von einem Computer durchgeführt wird.
  19. Verfahren nach Anspruch 18, worin der Computer Daten liefert, die ein Hinweis darauf sind, ob sich die Kandidatenregion-Verteilung von Testwerten und die Zufallsregion-Verteilung von Testwerten signifikant unterscheiden.
  20. Verfahren nach Anspruch 1 oder Anspruch 26, das außerdem die Bewertung der Kandidaten-Genomregion umfasst, um Kandidatengene zu identifizieren, die mit dem detektierbaren Merkmal in Verbindung stehend könnten, wenn sich die Kandidatenregion-Verteilung von Testwerten und die Zufallsregion-Verteilung von Testwerten signifikant unterscheiden.
  21. Verfahren nach Anspruch 4, worin die Häufigkeiten für jede Kombination von biallelischen Markern in jeder Gruppe in der Reihe von Gruppen von biallelischen Markern in der Kandidaten-Genomregion und in den Zufalls-Genomregionen bei Personen, bei denen das detektierbare Merkmal ausgeprägt ist, unter Verwendung des Erwartungswert-Maximierungs-Algorithmus berechnet werden; und die Häufigkeiten für jede Kombination von biallelischen Markern in jeder Gruppe in der Reihe von Gruppen von biallelischen Markern in der Kandidaten-Genomregion und den Zufalls-Genomregionen bei Personen, bei denen das detektierbare Merkmal nicht ausgeprägt ist, unter Verwendung des Erwartungswert-Maximierungs-Algorithmus berechnet werden.
  22. Verfahren nach einem der Ansprüche 1 bis 21, worin, wenn sich zeigt, dass die Kandidatenregion mit einem Merkmal in Verbindung steht, die Sequenz des Kandidatengens näher ausgewertet wird, um das mit dem Merkmal in Verbindung stehende Gen zu charakterisieren.
  23. Computerprogramm zur Bestätigung, dass, oder Bestimmung, ob eine Kandidaten-Genomregion ein Gen enthält, das mit einem detektierbaren Merkmal in Verbindung steht, worin das Computerprogramm Codemittel umfasst, die, wenn sie von einem Datenverarbeitungssystem ausgeführt werden, alle Datenverarbeitungsschritte nach einem der Ansprüche 1 bis 21 durchführen.
  24. Computerlesbares Medium, auf dem Codemittel eingebettet sind, die, wenn sie von einem Datenverarbeitungssystem eingesetzt werden, alle Datenverarbeitungsschritte nach einem der Ansprüche 1 bis 21 durchführen.
  25. Computerlesbares Medium nach Anspruch 24, worin das computerlesbare Medium aus der aus einer Festplatte, einer Diskette, einem Arbeitsspeicher (RAM), einem Nur-Lese-Speicher (ROM) und einem elektrisch löschbaren, programmierbaren Nur-Lese-Speicher (EEPROM) bestehenden Gruppe ausgewählt ist.
DE69920032T 1998-11-10 1999-11-10 Methoden, software und apparate zur identifizierung genomischer bereiche, die ein gen umfassen, das mit einem nachweisbaren merkmal assoziiert ist Expired - Fee Related DE69920032T2 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US10798698P 1998-11-10 1998-11-10
US107986P 1998-11-10
US14078599P 1999-06-23 1999-06-23
US140785P 1999-06-23
PCT/IB1999/001846 WO2000028080A2 (en) 1998-11-10 1999-11-10 Methods, software and apparati for identifying genomic regions harboring a gene associated with a detectable trait

Publications (2)

Publication Number Publication Date
DE69920032D1 DE69920032D1 (de) 2004-10-14
DE69920032T2 true DE69920032T2 (de) 2005-09-15

Family

ID=26805417

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69920032T Expired - Fee Related DE69920032T2 (de) 1998-11-10 1999-11-10 Methoden, software und apparate zur identifizierung genomischer bereiche, die ein gen umfassen, das mit einem nachweisbaren merkmal assoziiert ist

Country Status (11)

Country Link
US (3) US6291182B1 (de)
EP (1) EP1129216B1 (de)
JP (1) JP2002529718A (de)
AT (1) ATE275639T1 (de)
AU (1) AU771187B2 (de)
CA (1) CA2348609A1 (de)
DE (1) DE69920032T2 (de)
DK (1) DK1129216T3 (de)
ES (1) ES2229781T3 (de)
PT (1) PT1129216E (de)
WO (1) WO2000028080A2 (de)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020090639A1 (en) * 1998-02-26 2002-07-11 Mcginnis Ralph Evan Two dimensional linkage study methods and related inventions
WO1999043858A1 (en) * 1998-02-26 1999-09-02 Ralph Evan Mcginnis Two-dimensional linkage study techniques
PT1129216E (pt) * 1998-11-10 2005-01-31 Genset Sa Metodos software e aparatos para identificar regioes genomicas que albergam um gene associado a uma caracteristica detectavel
US7062076B1 (en) 1999-08-27 2006-06-13 Iris Biotechnologies, Inc. Artificial intelligence system for genetic analysis
US20050060102A1 (en) * 2000-10-12 2005-03-17 O'reilly David J. Interactive correlation of compound information and genomic information
WO2002031704A1 (en) * 2000-10-12 2002-04-18 Iconix Pharmaceuticals, Inc. Interactive correlation of compound information and genomic information
US20020119451A1 (en) * 2000-12-15 2002-08-29 Usuka Jonathan A. System and method for predicting chromosomal regions that control phenotypic traits
GB0103295D0 (en) * 2001-02-09 2001-03-28 Isis Innovation Method and system for haplotype reconstruction
AU785425B2 (en) * 2001-03-30 2007-05-17 Genetic Technologies Limited Methods of genomic analysis
AU2002309178B2 (en) * 2001-04-10 2008-12-04 Biotech Holding, B.V. System for cellular storage and genetic information retrieval
US20030211501A1 (en) * 2001-04-18 2003-11-13 Stephens J. Claiborne Method and system for determining haplotypes from a collection of polymorphisms
US6909971B2 (en) * 2001-06-08 2005-06-21 Licentia Oy Method for gene mapping from chromosome and phenotype data
FI114551B (fi) * 2001-06-13 2004-11-15 Licentia Oy Menetelmä, muistiväline ja tietokonejärjestelmä geenipaikannuksen kromosomi- ja fenotyyppidatasta
WO2003010537A1 (en) * 2001-07-24 2003-02-06 Curagen Corporation Family based tests of association using pooled dna and snp markers
EP1288835A1 (de) * 2001-08-31 2003-03-05 Hitachi, Ltd. Ein Verfahren zur Definition von Gene Hunting Studien
KR20020005535A (ko) * 2001-11-08 2002-01-17 이성섭 BAC-end sequencing 및 STC approach genome sequencingwith shotgun 방법의 전체 염기 서열 결정 연구의 자동화및 통합화를 지원하는 소프트웨어 설계·제작 모형
US7107155B2 (en) * 2001-12-03 2006-09-12 Dnaprint Genomics, Inc. Methods for the identification of genetic features for complex genetics classifiers
WO2003048999A2 (en) * 2001-12-03 2003-06-12 Dnaprint Genomics, Inc. Methods and apparatus for genetic classification
WO2003048372A2 (en) * 2001-12-03 2003-06-12 Dnaprint Genomics, Inc. Methods and apparatus for complex genetics classification based on correspondence analysis and linear/quadratic analysis
US7373253B2 (en) * 2002-02-12 2008-05-13 Idaho Technology Multi-test analysis of real-time nucleic acid amplification
US20040112299A1 (en) * 2002-03-25 2004-06-17 Muir William M Incorporation of competitive effects in breeding program to increase performance levels and improve animal well being
US7286941B1 (en) 2002-08-09 2007-10-23 Myriad Genetics, Inc. Method for haplotype analysis
US20040197845A1 (en) * 2002-08-30 2004-10-07 Arjang Hassibi Methods and apparatus for pathogen detection, identification and/or quantification
US9740817B1 (en) 2002-10-18 2017-08-22 Dennis Sunga Fernandez Apparatus for biological sensing and alerting of pharmaco-genomic mutation
US20040146870A1 (en) * 2003-01-27 2004-07-29 Guochun Liao Systems and methods for predicting specific genetic loci that affect phenotypic traits
US20040210400A1 (en) * 2003-01-27 2004-10-21 Perlegen Sciences, Inc. Analysis methods for individual genotyping
WO2004072294A2 (en) * 2003-02-12 2004-08-26 Genizon Svenska Ab Methods and means for nucleic acid sequencing
US20050019787A1 (en) * 2003-04-03 2005-01-27 Perlegen Sciences, Inc., A Delaware Corporation Apparatus and methods for analyzing and characterizing nucleic acid sequences
US8346482B2 (en) * 2003-08-22 2013-01-01 Fernandez Dennis S Integrated biosensor and simulation system for diagnosis and therapy
US7335474B2 (en) * 2003-09-12 2008-02-26 Perlegen Sciences, Inc. Methods and systems for identifying predisposition to the placebo effect
US20090087854A1 (en) * 2007-09-27 2009-04-02 Perlegen Sciences, Inc. Methods for genetic analysis
US7127355B2 (en) * 2004-03-05 2006-10-24 Perlegen Sciences, Inc. Methods for genetic analysis
WO2006001896A2 (en) * 2004-04-26 2006-01-05 Iconix Pharmaceuticals, Inc. A universal gene chip for high throughput chemogenomic analysis
WO2005124650A2 (en) * 2004-06-10 2005-12-29 Iconix Pharmaceuticals, Inc. Sufficient and necessary reagent sets for chemogenomic analysis
US7588892B2 (en) * 2004-07-19 2009-09-15 Entelos, Inc. Reagent sets and gene signatures for renal tubule injury
AU2006294565A1 (en) * 2005-09-30 2007-04-05 Perlegen Sciences, Inc. Methods and compositions for screening and treatment of disorders of blood glucose regulation
US20070198653A1 (en) * 2005-12-30 2007-08-23 Kurt Jarnagin Systems and methods for remote computer-based analysis of user-provided chemogenomic data
US7467118B2 (en) * 2006-01-12 2008-12-16 Entelos Inc. Adjusted sparse linear programming method for classifying multi-dimensional biological data
WO2007115095A2 (en) * 2006-03-29 2007-10-11 The Trustees Of Columbia University In The City Ofnew York Systems and methods for using molecular networks in genetic linkage analysis of complex traits
US20100021885A1 (en) * 2006-09-18 2010-01-28 Mark Fielden Reagent sets and gene signatures for non-genotoxic hepatocarcinogenicity
EP2100246A4 (de) * 2006-11-17 2010-01-20 Motif Biosciences Inc Biometrische analyse von mittels homozygoter markerspurlänge definierten populationen
US7844609B2 (en) * 2007-03-16 2010-11-30 Expanse Networks, Inc. Attribute combination discovery
US20090043752A1 (en) * 2007-08-08 2009-02-12 Expanse Networks, Inc. Predicting Side Effect Attributes
SI2324126T1 (sl) 2008-08-12 2014-07-31 Zinfandel Pharmaceuticals, Inc. Postopek identifikacije dejavnikov tveganja za Alzheimerjevo bolezen
US8846315B2 (en) 2008-08-12 2014-09-30 Zinfandel Pharmaceuticals, Inc. Disease risk factors and methods of use
US8386519B2 (en) 2008-12-30 2013-02-26 Expanse Networks, Inc. Pangenetic web item recommendation system
US8108406B2 (en) 2008-12-30 2012-01-31 Expanse Networks, Inc. Pangenetic web user behavior prediction system
EP3276526A1 (de) 2008-12-31 2018-01-31 23Andme, Inc. Suche nach verwandten in einer datenbank
KR20180050420A (ko) 2011-01-10 2018-05-14 진판델 파마슈티컬스 인코포레이티드 알츠하이머 병 치료를 위한 방법 및 약품
US9594777B1 (en) 2013-08-15 2017-03-14 Pivotal Software, Inc. In-database single-nucleotide genetic variant analysis
US10068050B2 (en) * 2013-10-30 2018-09-04 Vahagn Gurzadyan Revealing somatic sequences in human genome via Kolmogorov-Arnold technique
US10949473B2 (en) * 2014-05-21 2021-03-16 Knowledge Syntheses Systems and method for searching and analyzing big data
KR102169699B1 (ko) * 2019-12-27 2020-10-23 주식회사 클리노믹스 유전자 검사를 위한 맞춤형 유전자칩 및 이의 제작 방법
US11887698B2 (en) 2020-01-08 2024-01-30 Samsung Electronics Co., Ltd. Method and electronic device for building comprehensive genome scale metabolic model

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5374525A (en) * 1992-09-30 1994-12-20 University Of Utah Research Foundation Methods to determine predisposition to hypertension and association of variant angiotensinogen gene and hypertension
US5670314A (en) * 1994-02-22 1997-09-23 Regents Of The University Of California Genetic alterations that correlate with lung carcinomas
EP0941366A2 (de) 1996-11-06 1999-09-15 Whitehead Institute For Biomedical Research Biallelische marker
EP0892068A1 (de) * 1997-07-18 1999-01-20 Genset Sa Verfahren zur Herstellung einer genetischen Karte des menschlichen Genoms mit hoher Dichte, basierend auf Linkage Disequilibrium
US6346381B1 (en) 1997-12-22 2002-02-12 Genset Prostate cancer gene
US5945522A (en) 1997-12-22 1999-08-31 Genset Prostate cancer gene
PT1129216E (pt) * 1998-11-10 2005-01-31 Genset Sa Metodos software e aparatos para identificar regioes genomicas que albergam um gene associado a uma caracteristica detectavel

Also Published As

Publication number Publication date
AU771187B2 (en) 2004-03-18
JP2002529718A (ja) 2002-09-10
ATE275639T1 (de) 2004-09-15
ES2229781T3 (es) 2005-04-16
US6291182B1 (en) 2001-09-18
WO2000028080A3 (en) 2000-08-17
US20030165836A1 (en) 2003-09-04
CA2348609A1 (en) 2000-05-18
AU1069600A (en) 2000-05-29
WO2000028080A2 (en) 2000-05-18
EP1129216B1 (de) 2004-09-08
US20050158788A1 (en) 2005-07-21
PT1129216E (pt) 2005-01-31
EP1129216A2 (de) 2001-09-05
DK1129216T3 (da) 2005-01-17
DE69920032D1 (de) 2004-10-14

Similar Documents

Publication Publication Date Title
DE69920032T2 (de) Methoden, software und apparate zur identifizierung genomischer bereiche, die ein gen umfassen, das mit einem nachweisbaren merkmal assoziiert ist
Van Etten et al. Radiation hybrid map of the mouse genome
DE69929542T2 (de) Komplexitätsmanagement und analyse genomischer dna
Lynn et al. Variation in human meiotic recombination
Lindblad-Toh et al. Large-scale discovery and genotyping of single-nucleotide polymorphisms in the mouse
Murray et al. A comprehensive human linkage map with centimorgan density
Nelson et al. Genomic mismatch scanning: a new approach to genetic linkage mapping
Neff et al. A second-generation genetic linkage map of the domestic dog, Canis familiaris
Varilo et al. The interval of linkage disequilibrium (LD) detected with microsatellite and SNP markers in chromosomes of Finnish populations with different histories
AU581582B2 (en) Dna probes to fingerprint genomes at hypervariable or minisatellite regions
Zhang et al. BAC as tools for genome sequencing
Daw et al. Multipoint oligogenic analysis of age-at-onset data with applications to Alzheimer disease pedigrees
DE69936379T2 (de) Verfahren zur genotypisierung und dna-analyse
Bootsma et al. A GT‐seq panel for walleye (Sander vitreus) provides important insights for efficient development and implementation of amplicon panels in non‐model organisms
AU746682B2 (en) Biallelic markers for use in constructing a high density disequilibrium map of the human genome
McDermott et al. Estimation of isolation times of the island species in the Drosophila simulans complex from multilocus DNA sequence data
Bahary et al. The Zon laboratory guide to positional cloning in zebrafish
Uitterlinden Two-dimensional DNA typing: A parallel approach to genome analysis
Schork et al. A nonmathematical overview of modern gene mapping techniques applied to human diseases
Belmont et al. Genome-wide linkage disequilibrium and haplotype maps
Bootsma et al. A GT-seq panel for walleye (Sander vitreus) provides a generalized workflow for efficient development and implementation of amplicon panels in non-model organisms
Dear Genome mapping
Twyman et al. Genomes and mapping
US20080026367A9 (en) Methods for genomic analysis
Rogers et al. Gene maps of nonhuman primates

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee