DE60002824T2

DE60002824T2 - System zum Entwerfen von Primern

Info

Publication number: DE60002824T2
Application number: DE60002824T
Authority: DE
Inventors: Hiroki Fujisawa-shi Nakae; Sigeo Tokorozawa-shi Ihara
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2000-03-20
Filing date: 2000-03-20
Publication date: 2004-03-11
Anticipated expiration: 2020-03-21
Also published as: DE60002824D1; EP1136932B1; EP1136932A1

Description

Die Erfindung betrifft ein Verfahren zur DNA-Analyse und insbesondere ein Primer-Konstruktionssystem, ein Verfahren zur Konstruktion von Primern, ein Speichermedium, in welchem ein Programm aufgezeichnet ist, das es einem Computer ermöglicht, als Primer-Konstruktionssystem zu funktionieren, ein Speichermedium, in welchem Daten aufgezeichnet sind, die bei der DNA-Analyse erforderlich sind, Titerplatten, die Primer enthalten, die bei der DNA-Analyse erforderlich sind, einen DNA-Analyse-Kit, der ein Speichermedium und Primer umfasst, die bei der DNA-Analyse erforderlich sind, und ein Verfahren zur DNA-Analyse.
In den 1990er Jahren erfuhr das Humangenomprojekt einen Aufschwung, der zu einem zunehmend besseren Verständnis der Genomsequenzen von beispielsweise E. coli, Hefen, Nematoden, Reis, Arabidopsis thaliana, Mäusen, Ratten und Menschen führte. Dies ging mit einer starken Zunahme an hoch effizienten Verfahren zur Analyse von Nukleotidsequenzen sowie mit der Entwicklung von Verfahren wie der Computerisierung von Sequenzanalysen und Verfahren mit höherem Durchsatz zur Analyse von Nukleotidsequenzen von Gen-, YAC- und BAC-Bibliotheken und Chromosomenmarkern einher.
Der jüngste Fortschritt des Genomprojekts und die Entwicklung von Sequenzanalyseverfahren resultierten in der kontinuierlichen Zu nahme von umfassenden genbezogenen Datenbanken (siehe Figur 1), wodurch die Bioinformatik für die Datenverarbeitung solcher großen Mengen an genbezogenen Daten immer notwendiger wurde. Bioinformatik ist eine aus Biologie und Informatik (Informationswissenschaft) gebildete Bezeichnung, welche die Forschung meint, die Lebenswissenschaften und Informationswissenschaften kombiniert, d. h. die umfassende Wissenschaft des Umgangs mit biologischen Daten in ihrer Gesamtheit mit der Absicht, nicht nur Genomdaten, sondern auch biologische Daten von Genen bis zur Proteinstruktur oder Proteinfunktion besser zu nutzen. Zurzeit wird jedoch die Bioinformatik bei der funktionellen genetischen Analyse in der Industrie noch nicht adäquat genutzt.
Genomische DNA umfasst sowohl Intron- als auch Exon-Bereiche. Davon codieren Exons für Proteine, was die Analyse von Exons für die genetische Analyse äußerst wichtig macht. Es ist jedoch äußerst schwierig, Exons zu spezifizieren, die mit dem gegenwärtigen Forschungszweck kompatibel sind, wobei an der herkömmlichen genetischen Analyse die Auswahl von Exons, die für den Forschungszweck geeignet sind, lediglich durch Versuch und Irrtum beteiligt ist.
In 7 ist der Verlauf einer herkömmlichen Genanalyse beschrieben. Herkömmlicherweise werden die interessierenden einzelnen Gene oder Proteine im Allgemeinen durch Subtraktion oder DD-basierende Klonierung von einem Gen, Nukleotid- oder Proteinaminosäuresequenzen identifiziert (Schritt 600), wonach überprüft wird, welche Funktionen sie haben. Das heißt, dass Exons, die als für den Forschungszweck geeignet angesehen werden zuvor aus den identifi zierten Nukleotidsequenzen ausgewählt werden (Schritt 602), um die entsprechenden Primer zu konstruieren (Schritt 603). Die Primer werden dann in der PCR (Polymerasekettenreaktion) verwendet, um die Target-Exons für die Analyse der Exons (Schritt 605) zu amplifizieren (Schritt 604). Die PCR ist ein Verfahren, in welchem Primer für beide Enden der Region konstruiert werden, die zu amplifizieren ist, und Gene durch Temperaturzyklen logarithmisch amplifiziert werden, in welchen ein hitzestabiles DNA-Enzym wie Taq-DNA-Polymerase eingesetzt wird. Primer sind Oligonukleotide mit einer -OH am 3'-Ende, die für den Start der DNA-Synthese erforderlich ist.
Wenn die Exons, die von der Analyse in Schritt 605 ausgewählt sind; sich für den Forschungszweck in einer solchen herkömmlichen Genanalyse als ungeeignet erweisen, muss der Vorgang (Schritt 606) ab der Exon-Auswahl in Schritt 602 wiederholt werden, wodurch die Sicherstellung der zuverlässigen Auswahl von Exons, die für den Forschungszweck geeignet sind, äußerst wichtig ist. Bei der Analyse von Unterschieden im Gengehalt, die zwischen normalen Individuen und Patienten auftreten, die an einer bestimmten Krankheit (wie Krebs) leiden, werden beispielsweise Exons, die das Forschungsziel sind, Exons sein, die zur Krankheit führen, wobei es extrem schwierig ist, zu bestimmen, welche Exons die in Frage kommenden Exons sind, weshalb es bisher keine andere Möglichkeit der Analyse von Exon-Kandidaten als das zuvor beschriebene Versuch-und-Irrtum-Verfahren zur Bestimmung solcher Exons gab.
In dem Artikel "OSP: A Computer Program for Choosing PCR and DNA Sequencing Primers", von L. Hillier und P. Green, PCR Methods and Applications, Bd. 1, Nr. 2, November 1991, 124–128, ist ein Computerprogramm offenbart, in welchem der Nutzer Bedingungen für die Länge von Primer und amplifizierten Produkten, % (G + C), (absolute oder relative) Schmelztemperaturen und Primer-3'-Nukleotide festlegen kann. Primersequenzkandidaten werden gegen eine potenzielle Basenpaarung mit einer Vielzahl von bei der Reaktion vorhandenen Sequenzen durchmustert. Primer, die alle Bedingungen erfüllen, werden von einer vom Benutzer definierbaren gewichteten Summe von Parametern in eine Rangfolge gebracht, um für jeden Primer eine "kombinierte Punktzahl" zu ergeben.
Deshalb liegt der Erfindung als Aufgabe zugrunde, ein Verfahren für eine effizientere Konstruktion von Primern für verschiedene interessierende Gene bereitzustellen, was in der Vergangenheit aufgrund der extremen Schwierigkeiten, die bei der Spezifizierung erwünschter Exons auftreten, wie weiter oben beschrieben, ein ineffizientes Unternehmen war.
Insbesondere liegt der Erfindung als eine Aufgabe zugrunde, ein Verfahren mit hohem Durchsatz für die funktionelle genetische Analyse bereitzustellen, das sich völlig von herkömmlichen Verfahren unterscheidet, indem eine "Bioinformatik" bei der funktionellen genetischen Analyse angewendet wird, die nur die getrennte Anwendung von erforderlichenfalls beispielsweise verschiedenen herkömmlichen Datenbanken, Primer-Konstruktionsprogrammen und Primer-Detektionsprogrammen umfasst.
Zur Lösung dieser Aufgabe wurde ein Schema entworfen, das den herkömmlichen Verfahren der Genanalyse diametral entgegengesetzt ist. Das erfindungsgemäße Analyseverfahren ist in 8 veranschaulicht. Das heißt, bei herkömmlichen Verfahren erfolgt die Genanalyse durch ein Schema, in welchem das Exon, welches das Target der Forschung ist, zunächst ermittelt wird, und dem Exon entsprechende Primer konstruiert werden. Im Gegensatz dazu ist von den Erfindern ein Schema entworfen worden, in welchem eine Vielzahl von Primern für voneinander verschiedene Exons durch Bioinformatik aus Nukleotidsequenzdaten, die beispielsweise in öffentlichen Datenbanken zusammengefasst sind (Schritt 700) zunächst konstruiert wird (Schritt 701) und dann DNA-Fragmente, die unter Verwendung dieser Primer durch PCR amplifiziert worden sind, analysiert werden. Dieses Schema bestimmt, welche Exons durch welche Primer zuvor amplifiziert werden (Schritt 702), um die Analyse der durch PCR amplifizierten DNA-Fragmente leichter zu machen, was in einer effizienteren Analyse resultiert. So werden beispielsweise bei der Analyse von Unterschieden im Gengehalt, die zwischen normalen Individuen und Patienten auftreten, die an einer bestimmten Krankheit (wie Krebs) leiden, genomische DNAs, die aus Zellen verschiedener Individuen extrahiert worden sind, als Templat verwendet, um die PCR unter Verwendung einer Vielzahl von Primern für voneinander verschiedene Exons durchzuführen, wobei Exons, von welchen angenommen wird, dass sie mit der Krankheit verknüpft sind, basierend auf Primertypen mit Unterschieden in Nukleotidsequenzen und der Länge oder Anwesenheit/Abwesenheit amplifizierter Fragmente ermittelt werden. Somit wird bei dem erfindungsgemäßen Genanalyseverfahren die PCR unter Verwendung von Primern für voneinander verschiedene Exons durchgeführt, wobei Exons, die für den Forschungszweck geeignet sind, anschließend bestimmt und analysiert werden.
Bei diesem Typ einer Genanalyse ist es notwendig, Primer für so viele wie mögliche Exons herzustellen. Bisher sind riesige Datenmengen für genomische DNA-Nukleotidsequenzen und cDNA-Nukleotidsequenzen (siehe 1) zusammengetragen worden. Von den Erfindern ist ein Primer-Konstruktionssystem entworfen worden, in welchem ein Computer zur Verarbeitung der Daten zu den DNA-Nukleotidsequenzen, die aus Datenbanken erhalten werden, einschließlich einer Vielzahl unterschiedlicher DNA-Nukleotidsequenzen, verwendet werden kann, sodass eine Vielzahl von Primer für voneinander verschiedene DNAs konstruiert wird, wobei auch festgestellt worden ist, dass die Genanalyse effizienter durch Korrelation der entworfenen Primerdaten mit den Gendaten der DNA-Fragmente, die durch PCR unter Verwendung dieser Primer amplifiziert worden sind, durchgeführt werden kann.
Die Erfindung wurde basierend auf diesen Feststellungen durchgeführt.
Entsprechend dem ersten erfindungsgemäßen Merkmal wird ein Primer-Konstruktionssystem bereitgestellt, umfassend

– einen Empfänger zum Erhalt von Daten über eine Vielzahl von DNA-Nukleotidsequenzen von einer ersten Datenbank, die Daten über eine Vielzahl verschiedener DNA-Nukleotidsequenzen enthält; und
– eine Steuerungseinheit zur Steuerung des Systems, wobei die Steuerungseinheit steuert:
– Extraktionsmittel zum Extrahieren einer Vielzahl von Teilsequenzen, die bestimmten Basenlängen-Extraktionsbedingungen entsprechen, aus der Vielzahl von DNA-Nukleotidsequenzen, die auf Daten basieren, die über den Empfänger erhalten wurden;
– Detektionsmittel zur Detektion bestimmter Bedingungen, die mit den Positionen der Vielzahl von Teilsequenzen im Zusammenhang stehen, und von Bedingungen für ihre Abwesenheit in anderen DNA-Nukleotidsequenzen als der Vielzahl von DNA-Nukleotidsequenzen;
– ein erstes Selektionsmittel zur Selektion einer Vielzahl von Teilsequenzen, die diesen Bedingungen entsprechen, aus einer Vielzahl von Teilsequenzen, die auf den Resultaten des Detektionsmittels basieren; und
– Bestimmungsmittel zur Bestimmung der Nukleotidsequenzen einer Vielzahl von Primerpaaren, die spezifisch an die Vielzahl von DNA-Nukleotidsequenzen, die auf den Resultaten des ersten Selektionsmittels basieren, hybridisieren können.

Entsprechend dem zweiten erfindungsgemäßen Merkmal wird ein Speichermedium bereitgestellt, das darauf ein Programm aufgezeichnet aufweist, das mit einer Steuerungseinheit in einem Computer ausführbar ist, der die Steuerungseinheit und einen Datenspeicher über eine Vielzahl von verschiedenen DNA-Nukleotidsequenzen aufweist, wobei das Programm Instruktionen zum Lesen von Daten über eine Vielzahl von Nukleotidsequenzen in diesem Speicher, zur Extraktion einer Vielzahl von Teilsequenzen, die eine vorgeschriebene Basenlänge haben, aus den Nukleotidsequenzen, die auf Daten der Vielzahl von gelesenen DNA-Nukleotidsequenzen basieren, zur Detektion bestimmter Bedingungen, die mit den Positionen der Vielzahl von Teilsequenzen im Zusammenhang stehen, und Bedingungen ihrer Abwesenheit in anderen DNA-Nukleotidsequenzen als der Vielzahl von DNA-Sequenzen, zur Selektion einer Vielzahl von Teilsequenzen, die diesen Bedingungen entsprechen, und zur Bestimmung der Nukleotidsequenzen einer Vielzahl von Primerpaaren, die spezifisch an die Vielzahl von DNA-Sequenzen, die auf der selektierten Vielzahl von Teilsequenzen basieren, hybridisieren können, umfasst.
Entsprechend dem dritten erfindungsgemäßen Merkmal wird ein Verfahren zum Konstruieren von Primern bereitgestellt, umfassend. die Stufen:

– Entnehmen der Daten über eine Vielzahl von DNA-Nukleotidsequenzen aus einer Datenbank, die eine Vielzahl verschiedener DNA-Nukleotidsequenzen enthält;
– Extrahieren einer Vielzahl von Teilsequenzen, die eine bestimmte Basenlänge haben, aus der Vielzahl von DNA-Nukleotidsequenzen, die auf den oben erhaltenen Nukleotidsequenzdaten basieren;
– Detektieren bestimmter Bedingungen, die mit den Positionen der Vielzahl von Teilsequenzen im Zusammenhang stehen, und Bedingungen ihrer Abwesenheit in anderen DNA-Nukleotidsequenzen als der Vielzahl von DNA-Nukleotidsequenzen;
– Selektieren einer Vielzahl von Teilsequenzen, die den Bedingungen entsprechen, aus der Vielzahl von Teilsequenzen, die auf den Detektionsresultaten basieren; und
– Bestimmen der Nukleotidsequenzen einer Vielzahl von Primerpaaren, die spezifisch an die Vielzahl von DNA-Nukleotidsequenzen, die auf der selektierten Vielzahl von Teilsequenzen basieren, hybridisieren können.

Die Erfindung wird anschließend anhand von Beispielen unter Bezugnahme auf die im Anhang befindlichen Zeichnungen näher erläutert, wobei
1 Veränderungen in der Anzahl von bei GenBank registrierten Nukleotidsequenzen,
2 ein Blockdiagramm, das ein Beispiel für die Struktur des erfindungsgemäßen Primer-Konstruktionssystems darstellt,
3 ein Fließdiagramm, das die Konstruktion einer Datenbank unter Verwendung einer öffentlichen Datenbank darstellt,
4 ein Blockdiagramm, das ein Beispiel für die Struktur eines Primer-Konstruktionsprogramms darstellt,
5 ein Fließdiagramm, das ein Beispiel eines Verfahrens unter Anwendung des in 4 dargestellten Programms veranschaulicht,
6 Exon-Sequenzen von Sequenzen, die aus der Sequenzdatenbank für Chromosom 21 ausgewählt wurden, und Teilsequenzen, die unter bestimmten Extraktionsbedingungen aus diesen Exon-Sequenzen extrahiert wurden,
7 ein herkömmliches Verfahren zur DNA-Analyse und
8 das erfindungsgemäße Verfahren zur DNA-Analyse
zeigt.
2 zeigt ein Blockdiagramm, das ein Beispiel für die Struktur des erfindungsgemäßen Primer-Konstruktionssystems darstellt. Das in 2 veranschaulichte Primer-Konstruktionssystem umfasst CPU 201, ROM 202, RAM 203, Eingabe 204, Sender/Empfänger 205, Anzeige 206, Festplatte (HDD) 207 und CD-ROM-Laufwerk 208. Anstelle der CD-ROM 209 kann eine beschreibbare CD-R oder CD-RW als Speichermedium verwendet werden. In diesen Fällen wird anstelle des CD-ROM-Laufwerks 208 ein CD-R- oder CD-RW-Laufwerk verwendet. DVD, ZiP, MO, PD und entsprechende Laufwerke für diese Medien können auch als Medien für die Speicherung des großen Umfangs an primerbezogenen Daten anstelle der CD-ROM 209 verwendet werden.
Die CPU 201 führt das weiter unten beschriebene Primer-Konstruktionsverfahren durch und steuert das Primer-Konstruktionssystem als Ganzes entsprechend den Programmen, die auf dem ROM 202, RAM 203 oder der Festplatte (HDD) 207 gespeichert sind. ROM 202 speichert die Programme oder dergleichen, die Befehle für den Vorgang geben, der für den Ablauf des Primer-Konstruktionssystems erforderlich ist. RAM 203 speichert temporär Daten, die für den Ablauf des Primer-Konstruktionsverfahrens erforderlich sind. Die Eingabe 204 ist eine Tastatur, eine Computermaus oder dergleichen und wird benutzt, um die für den Ablauf des Primer-Konstruktionsverfahrens erforderlichen Bedingungen einzugeben. Der Sender/Empfänger 205 überträgt Daten zu und von öffentlichen Datenbanken 210 oder dergleichen durch Kommunikationsleitungen, basierend auf den Befehlen der CPU 201. Das Display 206 zeigt DNA-Nukleotidsequenzen, die von Datenbanken erhalten worden sind, verschiedene Bedingungseingaben von der Eingabe 204 und konstruierte Primer-Nukleotidsequenzen und dergleichen an, basierend auf den Befehlen von der CPU 201. Die Festplatte (HDD) 207 speichert Datenbanken und dergleichen, die eine Vielzahl verschiedener DNA-Nukleotidsequenzen umfassen, und das Primer-Konstruktionsprogramm und liest die gespeicherten Programme, Daten und der gleichen, basierend auf den Befehlen von der CPU 201, und speichert sie beispielsweise im RAM 203. Das CD-ROM-Laufwerk 208 liest Programme, Daten und dergleichen von Datenbanken, die eine Vielzahl verschiedener DNA-Nukleotidsequenzen umfassen, und das Primer-Konstruktionsprogramm, das in der CD-ROM 209 gespeichert ist, basierend auf den Befehlen von der CPU 201, und speichert sie beispielsweise im RAM 203.
Im erfindungsgemäßen Primer-Konstruktionssystem empfängt der Empfänger DNA-Nukleotidsequenzen von einer Datenbank, die eine Vielzahl verschiedener DNA-Nukleotidsequenzen umfasst.
In dem in 2 dargestellten Primer-Konstruktionssystem können die DNA-Nukleotidsequenzen, die beispielsweise in einer öffentlichen Datenbank 210 (einer ersten Datenbank) enthalten sind, vom Sender/Empfänger 205 durch Kommunikationsleitungen empfangen und können diese DNA-Nukleotidsequenzen im RAM 203 gespeichert werden. Spezielle Beispiele für eine öffentliche Datenbank 210 umfassen Datenbanken, die über das Internet (www (world wide web)) genutzt werden können. Speziellere Beispiele umfassen GenBank (Nukleinsäurenukleotidsequenz-(einschließlich DDBJ-)Datenbank, aufgestellt von NCBI (USA), National Genetic Research Institute), EMBL (Nukleinsäurenukleotidsequenz-Datenbank, aufgestellt von EBI (Europa)), nr-nt (Nukleinsäurenukleotidsequenz-Datenbank, aufgestellt von GenBank und EMBL), GENOME (KEGG-Genomkarten, aufgestellt von Kyoto University Chemical Research Institute), GENES (KEGG-Genkataloge, aufgestellt von Kyoto University Chemical Research Institute), CHR21 (Sequenzkarte für Chromosom 21, aufgestellt von HGC), JST (JST-Humangenomsequenzierungsdatenbank, aufgestellt von Japan Science and Technology Corporation), BodyMap (humane Genexpressionsdatenbank, aufgestellt von Osaka University), GENOTK (humane cDNA-Datenbank, aufgestellt von Otsuka Pharmaceutical Co. Ltd., HGC) und MBGD (Mikroorganismengenom-Datenbank, aufgestellt von HGC). Nukleotidsequenzen, die von einer öffentlichen Datenbank 210 empfangen werden, können entweder cDNA-Nukleotidsequenzen oder genomische DNA-Nukleotidsequenzen oder Teilsequenzen davon sein. Wenn die Nukleotidsequenzen, die von einer öffentlichen Datenbank 210 erhalten werden, cDNA-Nukleotidsequenzen sind, werden die cDNA-Nukleotidsequenzen, die von dem Sender/Empfänger 205 empfangen werden, ohne Veränderung im RAM 203 gespeichert. Wenn die Nukleotidsequenzen, die von einer öffentlichen Datenbank 210 erhalten werden, genomische DNA-Nukleotidsequenzen sind, werden die genomischen DNA-Nukleotidsequenzen von einem Exon-Vorhersageprogramm verarbeitet, das im ROM 202, der Festplatte (HDD) 207 oder der CD-ROM 209 gespeichert ist und die Exon-Nukleotidsequenzen vorhersagt, basierend auf den genomischen DNA-Nukleotidsequenzen, wonach die vorhergesagten Exon-Nukleotidsequenzen im RAM 203 gespeichert werden. Als Exon-Vorhersageprogramm kann ein bereits zur Verfügung stehendes Exon-Vorhersageprogramm wie GENSCAN, GRAIL und ER (Exon Recognizer) angewendet werden.
In dem in 2 dargestellten Primer-Konstruktionssystem können DNA-Nukleotidsequenzen, die in einer Datenbank enthalten sind, die beispielsweise auf der Festplatte (HDD) 207 oder der CD- ROM 209 gespeichert ist, gelesen, basierend auf den Befehlen von der CPU 201, und im RAM 203 gespeichert werden. Ein spezielles Beispiel einer Datenbank, die auf der Festplatte 207 oder der CD-ROM 209 gespeichert ist, ist eine unter Verwendung einer öffentlichen Datenbank aufgebaute lokale Datenbank.
3 ist ein Fließdiagramm, das die Konstruktion einer Datenbank unter Verwendung einer öffentlichen Datenbank veranschaulicht.
cDNA-Sequenzen 302, die in einer öffentlichen Datenbank 301 (einer ersten Datenbank) enthalten sind, und Exon-Sequenzen 305, die erhalten werden, wenn genomische DNA-Sequenzen 303, die in einer öffentlichen Datenbank 301 enthalten sind, von dem Exon-Vorhersageprogramm 304 verarbeitet werden, können auf der Festplatte oder einem anderen aufzeichnungsfähigen Speichermedium durch eine Sequenz-Eingabeschnittstelle 306 gespeichert werden, um eine Datenbank 307 (eine zweite Datenbank) zu konstruieren. Bei der Konstruktion der Datenbank können die cDNA-Nukleotidsequenzen oder die Exon-Nukleotidsequenzen in geeignete Längen (wie 1 kb) geteilt und in einem Speichermedium gespeichert werden. Zur Verfügung stehende Exon-Vorhersageprogramme wie GENSCAN, GRAIL und ER (Exon Recognizer) können als Exon-Vorhersageprogramm angewendet werden, wobei diese Programme über das Internet genutzt werden können. Die auf diese Weise aufgebaute Datenbank 307 enthält eine Vielzahl verschiedener DNA-Nukleotidsequenzen.
Die CPU 201 liefert die von der Datenbank erhaltenen DNA-Nukleotidsequenzen an das Display 206 und steuert den Vorgang für die Konstruktion von Primern, die in der Lage sind, spezifisch an die DNA zu hybridisieren, die von der Datenbank erhalten wurde (anschließend als "Primer-Konstruktionsvorgang" bezeichnet). Im erfindungsgemäßen Primer-Konstruktionssystem wird, nachdem die DNA-Nukleotidsequenzen vom Empfänger empfangen worden sind, der Primer-Konstruktionsvorgang durch einen die Fragmentlänge begrenzenden Vorgang, einen Teilsequenzextraktionsvorgang, einen Teilsequenzdetektionsvorgang, einen Teilsequenzselektionsvorgang und einen die Primersequenz bestimmenden Vorgang durchgeführt.
4 zeigt ein Blockdiagramm, das ein Beispiel für die Struktur eines Primer-Konstruktionsprogramms darstellt.
Die CPU 201 liefert die DNA-Nukleotidsequenzen, die von der Datenbank empfangen worden sind, an die Eingabe 401 als Nukleotidsequenzinformationen der DNA, die als Templat (anschließend als "Templat-DNA" bezeichnet) für die zu konstruierenden Primer dient. Die Eingabe 401 liefert eine Templat-DNA-Sequenz A1 an einen die Fragmentlänge begrenzenden Vorgang 402. Der die Fragmentlänge begrenzende Vorgang 402 modifiziert die Templat-DNA-Sequenz A1 auf eine Länge, die für eine Amplifizierung geeignet ist, in welcher die konstruierten Primer verwendet werden, und liefert sie dann an einen Teilsequenzextraktionsvorgang 403. Eine Teilsequenz mit vorgeschriebener Basenlänge (wie 20 bis 28 Basen) wird aus der Templat-DNA-Sequenz durch den Teilsequenzextraktionsvorgang 403 extrahiert, und die extrahierte Teilsequenz A2 (eine erste Teilse quenz) wird an den Teilsequenzdetektionsvorgang 405 geliefert. Der Teilsequenzdetektionsvorgang 405 bestimmt, ob gegebenenfalls die extrahierte Teilsequenz A2 bestimmte Detektionsbedingungen erfüllt (wie GC-Gehalt: das Verhältnis der Summe aus Cytosin- und Guaningehalt zur Summe aus Adenin- und Thymingehalt in doppelsträngigen DNA-Molekülen; oder Tm: die Temperatur, bei welcher der doppelsträngige Teil von DNA- oder RNA-Molekülen zu einzelnen Strängen denaturiert wird und in einem Doppelstrang/Einzelstrang-Verhältnis von 1 : 1 resultiert). Die Detektionsbedingungen können, falls gewünscht, ausgewählt werden. Spezielle Beispiele für solche Detektionsbedingungen umfassen Bedingungen, unter welchen der GC-Gehalt 50 bis 60% beträgt und die Tm zwischen 50 und 80°C liegt und |Tm| weniger als 20°C beträgt. Der Teilsequenzdetektionsvorgang 405 liefert die Teilsequenz A3 (eine zweite Teilsequenz), welche die vorgeschriebenen Detektionsbedingungen erfüllt, an einen Datenbankkonstruktionsvorgang 407 (ein zweites Selektionsmittel). Dabei kann der Teilsequenzdetektionsvorgang 405 auch nach der Eingabe 401 durchgeführt werden, um GC-Gehalt, Tm oder dergleichen für die Templat-DNA-Sequenz A1 zu detektieren, die der Eingabe 401 zur Verfügung gestellt wird, wodurch es den Teilsequenzen erlaubt wird, bestimmte festgelegte Bedingungen zu erfüllen, die dem Fragmentlängen-Begrenzungsvorgang 402 (ein zweites Selektionsmittel) zur Verfügung gestellt werden.
Der Datenbankkonstruktionsvorgang 407 konstruiert eine Datenbank 408, welche die Teilsequenz A3 umfasst, welche die vorgeschriebenen Detektionsbedingungen erfüllt. Aus den in der Datenbank 408 enthaltenen Teilsequenzen wählt ein 5'-Teil sequenzselektionsvorgang 409 Teilsequenzen die sich am nächsten zum 5'-Ende befinden, unter den Teilsequenzen aus, die von der einen Templat-DNA-Sequenz A1 abgeleitet sind. Aus den in der Datenbank 408 enthaltenen Teilsequenzen wählt ein 3'-Teilsequenzselektionsvorgang 410 Teilsequenzen, die sich am nächsten zum 3'-Ende befinden, unter den Teilsequenzen aus, die von einer Templat-DNA-Sequenz A1 abgeleitet sind. Die Teilsequenzen A4, die von dem 5'-Teilsequenzselektionsvorgang 409 ausgewählt sind, und die Teilsequenz A5, die von dem 3'-Teilsequenzselektionsvorgang 410 ausgewählt ist, werden einem Teilsequenzanalysevorgang 413 zur Verfügung gestellt. Der Teilsequenzanalysevorgang 413 analysiert, ob gegebenenfalls die zur Verfügung gestellten Teilsequenzen A4 oder A5 in DNA-Nukleotidsequenzen vorhanden sind, die nicht die Templat-DNA sind. Um festzustellen, ob gegebenenfalls die zur Verfügung gestellten Teilsequenzen in DNA-Nukleotidsequenzen vorhanden sind, die nicht die Templat-DNA sind, analysiert der Teilsequenzanalysevorgang 413 Daten, die in öffentlichen Datenbanken und dergleichen vorhanden sind, durch ein Homologie-Screening-Programm. So kann beispielsweise BLAST oder FASTA als Homologie-Screening-Programm angewendet werden. Ein Teilsequenzselektionsvorgang 414 wählt Teilsequenzen aus, die nicht in DNA-Nukleotidsequenzen vorhanden sind, die nicht die Templat-DNA sind, und stellt die ausgewählte Teilsequenz A6 (die dritte Teilsequenz) einem Primersequenzbestimmungsvorgang 415 (einem ersten Selektionsmittel) zur Verfügung. Der Primersequenzbestimmungsvorgang 415 bestimmt die Nukleotidsequenz von Primern basierend auf den zur Verfügung gestellten Teilsequenzen. So bestimmt beispielsweise der Primersequenzbestimmungsvorgang 415 die Nukleotidsequenz, die zu der Teilsequenz des 5'-Endes komplementär ist, die als Nukleotidsequenz einer Primervorstufe zur Verfügung gestellt worden ist, und auch die Nukleotidsequenz, die der Teilsequenz des 3'-Endes komplementär ist, die als Nukleotidsequenz eines reverse-Primers zur Verfügung gestellt worden ist.
Auf diese Weise können Primer, die in der Lage sind, spezifisch an die Templat-DNA zu hybridisieren, konstruiert werden.
5 zeigt ein Fließdiagramm, das ein Beispiel eines Vorgangs darstellt, in welchem das in 4 veranschaulichte Programm angewendet wird.
Die als Templat dienende Nukleotidsequenz wird zunächst aus der Datenbank 307 gelesen, und das Programm wird gestartet. Eine Teilsequenz A2 mit vorgeschriebener Basenlänge (wie 20 bis 28 Basen) wird von dem Teilsequenzextraktionsvorgang 403 (Schritt 501) aus jeder Templat-DNA-Sequenz A1 extrahiert, die durch den Fragmentlängenbegrenzer 402 auf eine Länge modifiziert worden ist, die amplifiziert werden kann (Schritt 500). Der Teilsequenzselektionsvorgang 405 bestimmt, ob gegebenenfalls der GC-Gehalt der extrahierten Teilsequenz A2 innerhalb eines vorgeschriebenen Bereichs (wie 50 bis 60%) (Schritt 502) liegt. Liegt der GC-Gehalt der extrahierten Teilsequenz A2 nicht innerhalb des vorgeschriebenen Bereichs (50 bis 60%), wird eine andere Teilsequenz A2 von dem Teilsequenzextraktionsvorgang 403 (Schritt 501) extrahiert. Wenn der GC-Gehalt der extrahierten Teilsequenz A2 innerhalb des vorgeschriebenen Bereichs (wie 50 bis 60%) liegt, wird anschließend ermittelt, ob gegebenenfalls die Tm innerhalb eines vorgeschriebenen Bereichs (wie 50 bis 80°C) (Schritt 503) liegt. Liegt die Tm der extrahierten Teilsequenz A2 nicht innerhalb des vorgeschriebenen Bereichs (wie 50 bis 80°C), wird eine weitere Teilsequenz A2 von dem Teilsequenzextraktionsvorgang 403 (Schritt 501) extrahiert. Liegt die Tm innerhalb des vorgeschriebenen Bereichs (wie 50 bis 80°C), wird anschließend bestimmt, ob gegebenenfalls |Tm| innerhalb eines vorgeschriebenen Bereichs (wie unter 20°C) (Schritt 504) liegt. Liegt die |Tm| der extrahierten Teilsequenz A2 nicht innerhalb des vorgeschriebenen Bereichs (wie unter 20°C), wird eine weitere Teilsequenz A2 von dem Teilsequenzextraktionsvorgang 403 (Schritt 501) extrahiert. Liegt die |Tm| innerhalb des vorgeschriebenen Bereichs (wie unter 20°C), wird die Teilsequenz in einem wiederbeschreibbaren Speichermedium wie der Festplatte oder der CD-ROM von dem Datenbankkonstruktionsvorgang 407 (Schritt 505) aufgezeichnet. Die Schritte 501 bis 505 werden für alle Teilsequenzen wiederholt, die aus der Templat-DNA-Sequenz extrahiert werden können, um eine Datenbank von Teilsequenzen A3 zu konstruieren, welche die vorgeschriebenen Extraktionsbedingungen (wie eine Basenlänge von 20 bis 28 Basen, ein GC-Gehalt von zwischen 50 und 60%, eine Tm von zwischen 50 und 80°C und eine |Tm| von unter 20°C) (Schritt 505) (ein zweites Selektionsmittel)) erfüllen. Aus den Teilsequenzen, die in der Datenbank enthalten sind, die konstruiert worden ist, wählt der 5'-Teilsequenzselektionsvorgang 409 Teilsequenzen aus, die sich am nächsten am 5'-Ende befinden (Schritt 506). Außerdem wählt aus den Teilsequenzen, die in der Datenbank enthalten sind, die konstruiert worden ist, der 3'-Teilsequenzselektionsvorgang 410 Teilsequenzen aus, die sich am nächsten am 3'-Ende (Schritt 507) befinden. Die Teilsequenz A4, die von dem 5'-Teilsequenzselektionsvorgang 409 ausgewählt worden ist, und die Teilsequenz A5, die von dem 3'-Teilsequenzselektionsvorgang 410 ausgewählt worden ist, werden von dem Teilsequenzanalysevorgang 413 analysiert, um zu bestimmen, ob sie gegebenenfalls in DNA-Nukleotidsequenzen vorhanden sind, die nicht die Templat-DNA sind (Schritt 508). Wenn die Teilsequenz A4, die von dem 5'-Teilsequenzselektionsvorgang 409 ausgewählt worden ist, in einer DNA-Nukleotidsequenz vorhanden ist, die nicht die Templat-DNA ist, wird anschließend die Teilsequenz, die sich am zweitnächsten am 5'-Ende befindet, anschließend aus den Teilsequenzen ausgewählt, die in der Datenbank enthalten sind, die konstruiert worden ist (Schritt 506). Wenn die Teilsequenz A5, die von dem 3'-Teilsequenzselektionsvorgang 410 ausgewählt worden ist, in einer DNA-Nukleotidsequenz vorhanden ist, die nicht die Templat-DNA ist, wird anschließend die Teilsequenz, die sich am zweitnächsten am 3'-Ende befindet, aus den Teilsequenzen ausgewählt, die in der Datenbank enthalten sind, die konstruiert worden ist (Schritt 507). Die Schritte 506 bis 508 werden wiederholt, bis eine Teilsequenz, die nicht in einer DNA-Nukleotidsequenz vorhanden ist, die nicht die Templat-DNA ist, ausgewählt ist (ein erstes Selektionsmittel). Teilsequenzen, die nicht in DNA-Nukleotidsequenzen vorhanden sind, die nicht die Templat-DNA sind, werden von dem Teilsequenzselektionsvorgang 414 ausgewählt, und die ausgewählten Teilsequenzen A6 werden dem Primer-Sequenzbestimmungsvorgang 415 zur Verfügung gestellt. Primer, die in der Lage sind, spezifisch an die Templat-DNA zu hybridisieren, werden von dem Primer-Sequenzbestimmungsvorgang 415 konstruiert, der auf Teilsequen zen basiert, die nicht in DNA-Nukleotidsequenzen vorhanden sind, die nicht die Templat-DNA sind (Schritt 509).
Die Primer, die durch das erfindungsgemäße Primer-Konstruktionssystem konstruiert worden sind, können entsprechend ihren Nukleotidsequenzen chemisch durch ein übliches Verfahren synthetisiert werden. Dabei ermöglicht das erfindungsgemäße Primer-Konstruktionssystem die effiziente Konstruktion einer Vielzahl von Primern, die in der Lage sind, an voneinander verschiedene DNAs zu hybridisieren.
In der erfindungsgemäßen Ausführungsform wurden Teilsequenzen, die sich am nächsten am 5'- oder 3'-Ende befinden, nach Detektion von Tm oder dergleichen ausgewählt und wurden Sequenzen, die als solche analysiert wurden, die nicht irgendwo enthalten sind, außer in der Templat-DNA, als Primersequenzen bestimmt, wobei die Reihenfolge von Detektion, Selektion und Analyse sich verändern lässt. Wenn Exons in ihrer Gesamtheit analysiert werden sollen oder wenn Exon-Intron-Verknüpfungen analysiert werden sollen, ist die Aufgabe der Primerkonstruktion nicht auf Exon-Bereiche beschränkt und es können die Teilsequenzen für Introns auch als Templat-DNAs verwendet werden.
Bei der DNA-Analyse kann eine Vielzahl von Primern, die in der Lage sind, spezifisch an voneinander verschiedene DNAs zu hybridisieren, verwendet werden. So kann beispielsweise eine Probe-DNA als Templat verwendet werden, die PCR kann unter Verwendung einer Vielzahl von Primern durchgeführt werden, die in der Lage sind, spezi fisch an voneinander verschiedene DNAs zu hybridisieren, und die Proben-DNA kann unter Verwendung von den Primertypen, welche die PCR-amplifizierten Fragmente ergeben, als Marker analysiert werden. So kann beispielsweise bei der Analyse von Unterschieden im Gengehalt zwischen normalen Individuen und Patienten, die an einer bestimmten Krankheit (wie Krebs) leiden, genomische DNA, die aus Zellen von Personen extrahiert worden ist, als Templat verwendet werden, die PCR kann unter Verwendung einer Vielzahl von Primern durchgeführt werden, die in der Lage sind, spezifisch an voneinander verschiedene DNAs zu hybridisieren, und DNA-Bereiche (wie Exons), die potenziell mit der Krankheit verknüpft sind, können bestimmt werden, basierend auf Primertypen mit Unterschieden in der Nukleotidsequenz und der Länge oder der Anwesenheit/Abwesenheit von amplifizierten Fragmenten zwischen normalen Individuen und Patienten. Durch die DNA-Analyse, die so eine Vielzahl von Primern verwendet, die in der Lage sind, spezifisch an voneinander verschiedene DNAs zu hybridisieren, wird ein Screening mit hohem Durchsatz ermöglicht.
Bei einer DNA-Analyse, an welcher die Verwendung einer Vielzahl von Primern beteiligt ist, die in der Lage sind, spezifisch an voneinander verschiedene DNAs zu hybridisieren, ist es wichtig, die Daten der Primer mit den genetischen Daten der durch PCR unter Verwendung der Primer amplifizierten DNA-Fragmente zu korrelieren. Insbesondere ist es von Bedeutung, die genetischen Daten der DNA-Fragmente, die unter Verwendung der Primer amplifiziert worden sind, bezogen auf die Daten der Primer, welche die durch PCR amplifizierten Fragmente ergeben, zu bestimmen. Somit ist es wün schenswert, ein computerlesbares Speichermedium zu verwenden, in welchem die Daten der Vielzahl von Primern, die in der Lage sind, spezifisch an voneinander verschiedene DNAs zu hybridisieren, und die genetischen Daten der durch PCR unter Verwendung dieser Primer amplifizierten DNA-Fragmente aufgezeichnet werden. In dem Speichermedium kann ein Programm für die Anzeige der genetischen Daten der DNA-Fragmente, die durch PCR unter Verwendung dieser Primer amplifiziert worden sind, basierend auf den Daten der Primereingabe in einen Computer aufgezeichnet sein. Das Programm kann auch in einem anderen Speichermedium aufgezeichnet sein.
Die Primerdaten umfassen Primer-Nukleotidsequenzen, Daten, welche den Primer charakterisieren (wie identifizierender Name) oder dergleichen. Die genetischen Daten der DNA-Fragmente umfassen DNA-Fragmentnukleotidsequenzen, Daten, die mit der Funktion der Proteine verknüpft sind, die durch die DNA-Fragmente kodiert werden (unabhängig davon, ob die Funktionen aufgeklärt worden sind, und welche Funktionen aufgeklärt worden sind) oder dergleichen. Speichermedien umfassen CD-ROM, Festplatte, ROM, RAM, DVD und CD-R/RW.
Diese DNA-Analyse kann unter Verwendung eines DNA-Analysekits durchgeführt werden, der eine Vielzahl von Primern, die in der Lage sind, spezifisch an voneinander verschiedene DNAs zu hybridisieren, und das zuvor genannte Speichermedium umfasst. Bei der zuvor beschriebenen DNA-Analyse kann ein PCR-Amplifizierungskit, der eine Vielzahl von Primern und ein computerlesbares Speichermedium umfasst, verwendet werden. Jede der zuvor beschriebenen Vielfalten von Primern ist in einer Vielfalt von Behältern in einem solchen PCR-Amplifizierungskit enthalten, wobei ID-Codes, mit welchen die Primer versehen werden, die in den Behältern enthalten sind, auf dieser Vielfalt von Behältern angegeben sind, und eine Tabelle, welche die ID-Codes dieser Vielfalt von Primern entweder mit Name, Molekülformel oder Sequenzdaten für die oben genannte Vielfalt von Primern verknüpft, in dem oben genannten Speichermedium aufgezeichnet ist. Als die Behälter können Titerplatten mit einer Vielzahl von Vertiefungen wie weiter unter beschrieben verwendet werden.
Die DNA kann unter Verwendung dieses DNA-Analysekits beispielsweise auf folgende Art und Weise analysiert werden. Jedem Primer wird als Primer charakterisierende Daten ein identifizierender Name (ID-Code), beispielsweise B1, B2, B3 bis Z7, Z8, Z9, gegeben und "B5" wird als Primerangabe in die Eingabe 204 eingegeben, wenn der durch PCR amplifizierte Fragmente ergebende Primer B5 ist, während PCR mit den Primern durchgeführt wird. Die CPU 201 bestimmt die genetischen Daten der DNA-Fragmente, die durch PCR unter Verwendung des Primers B5 amplifiziert worden sind, basierend auf den Eingangs-Primer-Daten entsprechend dem Programm, das in ROM 202, RAM 203, Festplatte 207 oder CD-ROM 209 gespeichert ist, und zeigt auf dem Display 206 an.
Für eine effiziente Analyse großer Mengen von Probe-DNA in der DNA-Analyse ist es möglich, Titerplatten mit einer Vielzahl von Vertiefungen zu verwenden, welche Platten sind, die in einigen der Vertiefungen Lösungen enthalten, welche die Vielzahl von Primern enthalten, die in der Lage sind, spezifisch an voneinander verschiedene DNAs zu hybridisieren. Solche Titerplatten können verwendet werden, um die PCR alle auf einmal unter Verwendung einer Vielzahl von Primern für Probe-DNAs durchzuführen, wodurch es für die Probe-DNAs möglich wird, sie effizient zu analysieren und große Mengen an Probe-DNA zu analysieren. PCR, in welcher solche Titerplatten verwendet werden, kann mit kommerziell erhältlichen automatischen Geräten wie automatischen Reaktionsrobotern durchgeführt werden.
Die Anzahl der Plattenvertiefungen und Anzahl und Typ der in den Platten enthaltenen Primer sind nicht besonders beschränkt. Die Platten können Vertiefungen haben, die keine Lösungen mit Primern enthalten, oder alle Vertiefungen können Primer enthaltende Lösungen enthalten. Jede Vertiefung kann Lösungen mit einem Primertyp oder Lösungen mit zwei oder mehr Primertypen enthalten. Obwohl unterschiedliche Vertiefungen üblicherweise Lösungen mit unterschiedlichen Primertypen enthalten, können unterschiedliche Vertiefungen auch Lösungen mit denselben Primertypen enthalten.
Für eine umfassende DNA-Analyse sollten insgesamt 75 oder mehr Lösungstypen pro Platte enthalten sein. Für eine noch höhere Analyseneffizienz sollten 80% oder mehr aller Vertiefungen unterschiedliche Lösungen enthalten.
Als Platten mit einer Vielzahl von Vertiefungen können kommerziell erhältliche 96-Loch-Platten, 384-Loch-Platten und dergleichen verwendet werden. In diesen Fällen kann die PCR für große Mengen an Probe-DNAs mit jeder Platte mit 76 oder 307 Arten von Lösungen mit Primern durchgeführt werden.
Die Zusammensetzung der die Primer enthaltenden Lösungen ist nicht besonders beschränkt, vorausgesetzt, dass die PCR in den Lösungen durchgeführt werden kann. Da die PCR-Reaktionslösung üblicherweise HaO, PCR-Puffer, MgCl₂, dNTP-Gemisch, Taq-Polymerase und dergleichen zusätzlich zu Primern und Templat-DNA enthält, können die die Primer enthaltenden Lösungen eins oder mehr davon enthalten.
Die Primerkonzentration in der Lösung kann wie gewünscht gewählt werden, liegt jedoch vorzugsweise zwischen 10 und 100 pmol/μl. Herkömmlicherweise ist die Konzentration hoch, etwa ein Mikromol/ml, und wird vor Verwendung verdünnt, wenn jedoch die Konzentration etwa 10 bis 100 pmol/μl von Anfang an beträgt, kann sie sofort benutzt werden. Die Lösung sollte auch keine Enzyme (wie DNase) enthalten, welche die Primer abbauen.
Die Platten können auch Deckel, Filme oder dergleichen umfassen, um die Vertiefungen abzudecken, um zu verhindern, dass die Primerlösungen in den Vertiefungen sich untereinander während der Verteilung vermischen. Wenn der Film ein solcher ist, dass er von einer von einem Roboter betätigten Flüssigkeitskapillare zerrissen werden kann, besteht ein Vorteil darin, dass er auf dem Roboter, so wie er ist, befestigt werden kann.
Erste Ausführungsform
Eine relativ neue Sequenz, die noch nicht viel analysiert worden ist, wurde aus der Sequenzdatenbank für das Chromosom 21 ausgewählt, die öffentlich im www offenbart ist (ERI Chromosome 21 Sequence Database: http://www.eri.uchsc.edu/chr21/c2lindex.html). Die Verarbeitung dieser Sequenz durch zur Verfügung stehende Exon-Vorhersageprogramme (Programm A und B) resultierte in der Vorhersage von vier Sequenzen (Exon 1: SEQ ID Nr. 1; Exon 2: SEQ ID Nr. 2; Exon 3: SEQ ID Nr. 3; Exon 4: SEQ ID Nr. 4) als Exon-Nukleotidsequenzen. Das zur Vorhersage der Exons verwendete Gerät war ein SUN Ultra 60 (2 GB Speicher), und die Vorhersagezeit betrug etwa 5 Minuten pro Sequenz mit Programm A (Mailserver) und etwa 10 Minuten mit Programm B (lokaler Server).
Teilsequenzen, die den folgenden Extraktionsbedingungen entsprachen, wurden aus jeder der vorhergesagten Exon-Nukleotidsequenzen extrahiert:

(1) Basenlänge: 20 bis 28 bps,
(2) GC-Gehalt: 50 bis 60%,
(3) Tm: 50 bis 80°C, |TM|: unter 20°C und
(4) befanden sich so nah wie möglich am 5'- oder 3'-Ende.

In der Datenbank GenBank wurde mit den extrahierten Teilsequenzen als Anfrage eine Blast-Suche durchgeführt, und es wurde ein Identitätswert von 50% oder niedriger ausgewählt, um auf Teilsequenzen mit hoher Spezifität zu durchmustern. Ist ein Screening von Teilsequenzen mit noch höherer Spezifität gewünscht, kann der Identitätswert niedriger angesetzt werden (wie 30% oder darunter), und wenn andere Bedingungen zu Lasten eines bestimmten Spezifitätsgrades bevorzugt werden, kann ein höherer Wert (wie 70% oder darüber) eingestellt werden.
Im Ergebnis wurden die in SEQ ID Nr. 5 und 6 angegebenen Teilsequenzen aus Exon 1 (SEQ ID Nr. 1) extrahiert, die in SEQ ID Nr. 7 und 8 angegebenen Teilsequenzen wurden aus Exon 2 (SEQ ID Nr. 2) extrahiert, die in SEQ ID Nr. 9 und 10 angegebenen Teilsequenzen wurden aus Exon 3 (SEQ ID Nr. 3) extrahiert und die in SEQ ID Nr. 11 und 12 angegebenen Teilsequenzen wurden aus Exon 4 (SEQ ID Nr. 4) (6) extrahiert.
Zweite Ausführungsform
Es wurde die Zeit berechnet, die erforderlich war, um die folgenden Muster I bis III eintausend Mal durchzuführen. Es wurde ein Computer SUN Ultra 60 (2 GB Speicher) eingesetzt, auf welchem die erforderlichen Programme für jedes der Muster liefen.
Muster I
Es wurde nur eine Primer-Konstruktion durchgeführt. Muster I umfasste den Ablauf eines Vorgangs zur Extraktion von Teilsequenzen aus der vorher festgelegten Templat-DNA-Sequenz A1, basierend auf einem Primer-Konstruktionsprogramm, das dem Prozessor 403 für die Teilsequenzextraktion entsprach. Die Teilsequenzextraktionsbedingungen waren wie folgt:

Muster II
Für Muster II wurden Exons durchmustert und anschließend Primer konstruiert. Für Muster II wurden Exons durchmustert, basierend auf ausgewählten Bedingungen aus der vorher aufgestellten Exon-Datenbank 307, die Templat-DNA-Sequenz A1 wurde durch die Eingabe 401 auf den Prozessor 403 für die Teilsequenzextration übertragen und der Vorgang zur Extraktion von Teilsequenzen wurde basierend auf dem Primer-Konstruktionsprogramm durchgeführt, das dem Prozessor 403 für die Teilsequenzextraktion entsprach. Die Exon-Screening-Bedingungen sind weiter unten angegeben. Die Bedingungen der Teilsequenzextraktion waren dieselben wie für Muster I.

(1) Exon-Länge: 300 bps oder weniger
(2) Exons, vorhergesagt von einem Exon-Vorhersageprogramm
(3) gefunden in der EST-Datenbank und Exprimierung bestätigt
(4) unbekannte Funktion (nicht in der Proteindatenbank gefunden)
(5) SNP-Potenzial (Abweichung in EST-Datenbank).

Muster III
Nach der Exon-Vorhersage wurden Exons durchmustert und anschließend Primer konstruiert. Für Muster III wurden Exons unter Verwendung des Programms, das dem Exon-Vorhersageprogramm 304 entsprach, aus der genomischen DNA-Sequenz 303 vorhergesagt, die sich ergebenden Exon-Sequenzen 305 wurden in einer Datenbank 307 durch eine Sequenzeingabeschnittstelle 306 zusammengefasst, Exons wurden in der Exon-Datenbank 307 auf der Basis des Satzes an Bedingungen durchmustert, die Templat-DNA-Sequenz A1 wurde durch die Eingabe 401 in den Prozessor 403 für die Teilsequenzextraktion übertragen und der Vorgang zur Extraktion von Teilsequenzen wurde vom Primer-Konstruktionsprogramm durchgeführt, das dem Prozessor 403 für die Teilsequenzextraktion entsprach. Die Exon-Durchmusterungsbedingungen waren dieselben wie für Muster II. Die Bedingungen für die Teilsequenzextraktion waren dieselben wie für Muster I.
In Tabelle 1 sind die Ergebnisse der Berechnungen für die Zeit gezeigt, die für die jeweils eintausendfache Durchführung der Muster I bis Muster III erforderlich war. In Tabelle 1 bedeutet "T1" die Zeit (Minuten), die für die Exon-Vorhersage erforderlich war, "T2" bedeutet die Zeit (Minuten), die für die Exon-Durchmusterung erforderlich war, und "T3" bedeutet die Zeit (Minuten), die für die Primer-Konstruktion erforderlich war.
Tabelle 1
Die Ergebnisse von Tabelle 1 zeigen, dass das erfindungsgemäße Primer-Konstruktionssystem zur Konstruktion von etwa 5 000 Primersätzen pro Tag durch parallele und verteilte Computer angewendet werden kann, was bedeutet, dass etwa 150 000 Primer pro Jahr zufriedenstellend hergestellt werden können.
Das erfindungsgemäße Primer-Konstruktionssystem erlaubt es, dass eine Vielzahl von Primern effizient hergestellt wird, die in der frage sind, spezifisch an voneinander verschiedene DNAs zu hybridisieren. Die Vielzahl von Primern, die in der Lage sind, spezifisch an voneinander verschiedene DNAs zu hybridisieren, kann für die DNA-Analyse verwendet werden, was es erlaubt, dass große Mengen an Probe-DNAs auf einmal effizient analysiert werden können. Es ist besonders nützlich für ein Screening mit hohem Durchsatz. Bei der DNA-Analyse kann ein computerlesbares Speichermedium, in welchem Daten für die Vielzahl von Primern, die in der Lage sind, spezi fisch an voneinander verschiedene DNAs zu hybridisieren, und genetische Daten für DNA-Fragmente, die unter Verwendung dieser Primer durch PCR amplifiziert worden sind, gespeichert sind, verwendet werden, um eine solche DNA-Analyse zu erleichtern.
SEQUENCE LISTING

Claims

Primer-Konstruktionssystem, umfassend – einen Empfänger zum Erhalt von Daten über eine Vielzahl von DNA-Nukleotidsequenzen von einer ersten Datenbank, die Daten über eine Vielzahl verschiedener DNA-Nukleotidsequenzen enthält; und – eine Steuerungseinheit zur Steuerung des Systems, wobei die Steuerungseinheit steuert: – Extraktionsmittel zum Extrahieren einer Vielzahl von Teilsequenzen, die bestimmten Basenlängen-Extraktionsbedingungen entsprechen, aus der Vielzahl von DNA-Nukleotidsequenzen, die auf Daten basieren, die über den Empfänger erhalten wurden; – Detektionsmittel zur Detektion bestimmter Bedingungen, die mit den Positionen der Vielzahl von Teilsequenzen im Zusammenhang stehen, und von Bedingungen für ihre Abwesenheit in anderen DNA-Nukleotidsequenzen als der Vielzahl von DNA-Nukleotidsequenzen; – ein erstes Selektionsmittel zur Selektion einer Vielzahl von Teilsequenzen, die diesen Bedingungen entsprechen, aus einer Vielzahl von Teilsequenzen, die auf den Resultaten des Detektionsmittels basieren; und – Bestimmungsmittel zur Bestimmung der Nukleotidsequenzen einer Vielzahl von Primerpaaren, die spezifisch an die Vielzahl von DNA-Nukleotidsequenzen, die auf den Resultaten des ersten Selektionsmittels basieren, hybridisieren können.
Primer-Konstruktionssystem nach Anspruch 1, wobei die Steuerungseinheit außerdem ein zweites Selektionsmittel zur Selektion von DNA-Nukleotidsequenzen steuert, die bestimmten Selektionsbedingungen entsprechen, aus den Teilsequenzen, die mit dem Extraktionsmittel extrahiert wurden.
Primer-Konstruktionssystem nach Anspruch 2, wobei die Selektionsbedingungen mit dem GC-Gehalt und/oder der Tm im Zusammenhang stehen.
Primer-Konstruktionssystem nach einem der Ansprüche 1 bis 3, wobei das Steuerungsmittel außerdem Beschränkungsmittel zur Beschränkung der Vielzahl von DNA-Nukleotidsequenzen, die auf Daten basieren, welche über den Empfänger erhalten wurden, auf eine Basenlänge, die länger als die vorgeschriebe ne Basenlänge ist, und die Abgabe an das Extraktionsmittel, steuert.
Primer-Konstruktionssystem nach einem der Ansprüche 1 bis 3, wobei die Steuerungseinheit außerdem ein drittes Selektionsmittel zur Selektion von DNA-Nukleotidsequenzen, die den Selektionsbedingungen, die mit dem GC-Gehalt und/oder der Tm im Zusammenhang stehen, aus der Vielzahl von DNA-Nukleotidsequenzen, die auf den Daten basieren, welche über den Empfänger erhalten wurden, steuert.
Primer-Konstruktionssystem nach einem der Ansprüche 1 bis 3, das außerdem eine zweite Datenbank umfaßt, die Daten für eine Vielzahl von verschiedenen DNA-Nukleotidsequenzen enthält, wobei die zweite Datenbank mindestens Daten über cDNA-Nukleotidsequenzen, die in der ersten Datenbank enthalten sind, oder Daten über die Exon-Nukleotidsequenz, die auf der Basis der genomischen DNA-Nukleotidsequenzen, die in der ersten Datenbank enthalten sind, vorausgesagt wird, umfaßt, wobei das Extraktionsmittel zur Extraktion auf Nukleotidsequenzen ausgerichtet ist, die in der zweiten Datenbank enthalten sind.
Speichermedium, das darauf ein Programm aufgezeichnet aufweist, das mit einer Steuerungseinheit in einem Computer ausführbar ist, der die Steuerungseinheit und einen Datenspeicher über eine Vielzahl von verschiedenen DNA-Nukleotidsequenzen aufweist, wobei das Programm Instruktionen zum Lesen von Daten über eine Vielzahl von Nukleotidsequenzen in diesem Speicher, zur Extraktion einer Vielzahl von Teilsequenzen, die eine vorgeschriebene Basenlänge haben, aus den Nukleotidsequenzen, die auf Daten der Vielzahl von gelesenen DNA-Nukleotidsequenzen basieren, zur Detektion bestimmter Bedingungen, die mit den Positionen der Vielzahl von Teilsequenzen im Zusammenhang stehen, und Bedingungen ihrer Abwesenheit in anderen DNA-Nukleotidsequenzen als der Vielzahl von DNA-Sequenzen, zur Selektion einer Vielzahl von Teilsequenzen, die diesen Bedingungen entsprechen, und zur Bestimmung der Nukleotidsequenzen einer Vielzahl von Primerpaaren, die spezifisch an die Vielzahl von DNA-Sequenzen, die auf der selektierten Vielzahl von Teilsequenzen basieren, hybridisieren können, umfasst.
Verfahren zum Konstruieren von Primern, umfassend die Stufen: – Entnehmen der Daten über eine Vielzahl von DNA-Nukleotidsequenzen aus einer Datenbank, die eine Vielzahl verschiedener DNA-Nukleotidsequenzen enthält; – Extrahieren einer Vielzahl von Teilsequenzen, die eine bestimmte Basenlänge haben, aus der Vielzahl von DNA-Nukleotidsequenzen, die auf den oben erhaltenen Nukleotidsequenzdaten basieren; – Detektieren bestimmter Bedingungen, die mit den Positionen der Vielzahl von Teilsequenzen im Zusammenhang stehen, und Bedingungen ihrer Abwesenheit in anderen DNA-Nukleotidsequenzen als der Vielzahl von DNA-Nukleotidsequenzen; – Selektieren einer Vielzahl von Teilsequenzen, die den Bedingungen entsprechen, aus der Vielzahl von Teilsequenzen, die auf den Detektionsresultaten basieren; und – Bestimmen der Nukleotidsequenzen einer Vielzahl von Primerpaaren, die spezifisch an die Vielzahl von DNA-Nukleotidsequenzen, die auf der selektierten Vielzahl von Teilsequenzen basieren, hybridisieren können.
Computerprogramm, das Programmcodemittel umfaßt, die, wenn sie auf einen Computer geladen und ausgeführt werden, bewirken, daß der Computer entsprechend dem Verfahren nach Anspruch 8 arbeitet.
Verfahren zur funktionellen genetischen Analyse, das die Stufe einer Primerkonstruktion nach dem Verfahren von Anspruch 8 umfaßt.