-
Die
vorliegende Erfindung betrifft ein Verfahren zur Herstellung von
kombinatorischen funktionellen Expressionsbanken ausgehend von einer
kombinatorischen Bank von Nukleinsäuren, die zu derselben Genfamilie
gehören,
umfassend einen Klonierungsschritt durch Rekombination in Hefe.
Die Erfindung betrifft außerdem
ein Verfahren zur Herstellung funktioneller Mosaikproteine und zur
Analyse einer kombinatorischen funktionellen Expressionsbank, indem
für jedes
der Mosaikproteine der Bank ein Sequenzfootprint bestimmt wird.
-
Die
Verschiedenartigkeit der Funktionen von Proteinen kann als das Ergebnis
der Evolution von Genen durch Mutations-, Rekombinations- und Selektionsereignisse
angesehen werden (1, 2). Man hat verschiedene Techniken entwickelt,
um zu versuchen, die verschiedenen Schritte der natürlichen
Evolutionsvorgänge im
Labormaßstab
nachzubilden. Die herkömmlichen
Ansätze
der molekularen Evolution verwenden zufällige Mutations- und Rekombinationsschritte
durch Polymerase-Ketten-Amplifikation (PCR) (2–5). Die molekulare Evolution
ist ein Ansatz, den man in der Biotechnologie mit Erfolg zur Modifikation
von Proteinfunktionen (5–12) und
zur Erlangung eines besseren Verständnisses von den Mechanismen
der Substraterkennung (13) verwendet hat. Die molekulare Evolution
stellt einen effizienten Ansatz zum Verständnis der Rolle von Sequenzregionen
für die
Proteinfunktion dar, wenn diese Sequenzen nicht in sehr stark konservierten
Regionen enthalten sind, wenn die dreidimensionale Struktur nicht
bekannt ist oder wenn keinerlei Information aus Modellierungstechniken
vorhanden ist (29).
-
Durch
ein Verfahren zur Erzeugung chimärer
Proteine, die von Cytochrom P450 stammen, durch In-vivo-Rekombination
in Hefe konnten bereits früher
zweiteilige Chimären
erhalten werden, die einen erhöhte
Monooxidase-Aktivität
aufwiesen (Bellamine et al., 1994). In einer anderen Studie, die
auf die Evolution einer Nukleotidsequenz in Abhängigkeit von einem bestimmten
Merkmal abzielte, wurde ebenfalls die In-vivo-Rekombination eingesetzt (
EP 0934999 ). Dieses Mal
wird die DNA vor dem Rekombinationsschritt fragmentiert, so dass
eine Umlagerung zwischen homöologen
Sequenzen möglich
wird.
-
Zur
Durchführung
von Experimenten zur molekularen Evolution oder zur rekombinatorischen
DNA-Mischung (DNA-Shuffling) geht man von einer Genbank aus, die
durch Mutagenese einer einzelnen Sequenz erzeugt werden kann (14)
oder die aus einer Gruppe bestehen kann, die zu derselben Familie
oder Unterfamilie von Genen gehört
(15). Die so genannte Technik der rekombinatorischen Mischung von
Familien oder des "Familien-Shuffling" wurde als Mittel
zur Beschleunigung der Evolutionsvorgänge beschrieben (16), welches
das Auftreten unerwarteter Aktivitäten oder Eigenschaften in den
erzeugten neuen Proteinen ermöglicht
(14). Diese Technik gestattete somit die Erzeugung von Enzymen mit
einer Verbindung interessierender parentaler Eigenschaften (17,
18), mit erhöhter
thermischer Stabilität
(14) oder mit neuen Substratspezifitäten (19).
-
Obwohl
durch rekombinatorische Mischung von Genen derselben Familie (Familien-Shuffling)
Verbesserungen erhalten werden können,
welche die Evolutionsprozesse in vitro nachahmen, ist jedoch die
Konstruktion zufallsgemäßer Banken
von Mosaikstrukturen, die keine Verzerrungen im Hinblick auf die
Wiedervereinigung eines Großteils
der parentalen Strukturen beinhalten, immer noch ein kritischer
Punkt.
-
Die
Schwierigkeiten bei der Erlangung einer homogenen Bank mittels "Familien-Shuffling" nehmen stark zu,
wenn die Ähnlichkeiten
zwischen den verwendeten Ausgangssequenzen kleiner werden (30, 31).
So wird oft eine relativ kleine Zahl (in der Größenordnung von 10%) an Chimären beschrieben
(Kikuchi beschreibt 1% chimäre
Strukturen für
2 Gene mit 84% Identität
auf der Proteinebene unter Verwendung herkömmlicher DNA-Shuffling-Techniken
(32)).
-
Man
hat verschiedene Techniken entwickelt, um den Anteil an parentalen
Strukturen zu verringern, darunter die Verwendung einzelsträngiger DNA
als Ausgangspunkt für
die rekombinatorische Mischung (was 14% chimäre Strukturen für 2 Gene
mit 84% Identität
auf Proteinebene liefert (33)) oder beschränkte enzymatische Fragmentierungen
(32, 34), die ihrerseits viel höhere
Anteile an Chimären
liefern. Das letztere Verfahren hat jedoch den Nachteil, dass die
enzymatisch erzeugten Fragmente keine zufallsgemäßen Fragmente sind, was zu
einer Beschränkung
der Anzahl an neuen Genstrukturen führt, die so hergestellt werden
können.
-
Andere
Gruppen haben die In-vivo-Rekombination in prokaryotischen Systemen
verwendet, um Chimären
zu erhalten (30, 35, 36). Diese Verfahren haben jedoch den Nachteil,
dass die funktionelle Expression von Proteinen in E. coli nicht
immer am besten geeignet ist, wenn es sich um eukaryotische Proteine
und insbesondere Multiproteinkomplexe, Membranproteine oder jedes
beliebige Protein handelt, das die eukaryotische zelluläre Maschinerie
für seine
Aktivität
benötigt,
handelt. Genauer gesagt, weisen bestimmte eukaryotische Proteine
posttranslationale Modifikationen auf (Glycosylierung...), die in
prokaryotischen Wirten nicht durchgeführt werden können.
-
Somit
ist es eine Aufgabe der vorliegenden Erfindung, ein Verfahren zur
Konstruktion kombinatorischer funktioneller Expressionsbanken ausgehend
von Nukleinsäuren,
die zu derselben Genfamilie gehören, bereitzustellen,
wodurch Banken erhalten werden können,
die die benötigte
Komplexität,
d. h. einen großen Teil
der möglichen
chimären
Strukturen und einen relativ kleinen Anteil an parentalen Strukturen,
aufweisen. Außerdem
können
mit dem erfindungsgemäßen Verfahren
Banken erhalten werden, die eine bessere Expression der eukaryotischen
Proteine gestatten.
-
Die
vorliegende Erfindung offenbart auch ein Verfahren zur Analyse der
Gensequenzen einer kombinatorischen Bank, die insbesondere durch
das erfindungsgemäße Verfahren
erhalten wird, wodurch jeder Sequenzvariante, die in der Bank vorhanden
ist, ein "Footprint" zugeordnet werden
kann. Durch dieses Analyseverfahren kann man in Kombination mit
einem Verfahren zur Analyse der Funktionen und/oder Aktivitäten der Proteine
der Bank die Sequenzstrukturen und die funktionellen Strukturen
miteinander in Zusammenhang bringen. So kann die Kombination dieser
beiden Verfahren dazu verwendet werden, die Mischung der genetischen Informationen "zu steuern", um interessierende
Proteine auf gesteuerte, kontrolliertere, schnellere Weise und zu
niedrigeren Kosten zu erhalten.
-
Folglich
betrifft die vorliegende Erfindung ein Verfahren zur Konstruktion
einer kombinatorischen funktionellen Expressionsbank ausgehend von
einer Bank von Nukleinsäuren,
die zu derselben Genfamilie gehören,
dadurch gekennzeichnet, dass es folgende Schritte umfasst:
- a. Einbringen der Bank von Nukleinsäuren in
eine Hefe gleichzeitig mit einem Expressionsvektor,
- b. Erhalten der funktionellen Expressionsbank durch Rekombination
der kombinatorischen Bank von Nukleinsäuren mit dem Expressionsvektor
in der Hefe.
-
Eine
kombinatorische funktionelle Expressionsbank, die durch ein derartiges
erfindungsgemäßes Verfahren
erhalten wird, ist ebenfalls eine Aufgabe der Erfindung.
-
Vorzugsweise
wird der Expressionsvektor, mit dem die Rekombination in der Hefe
durchgeführt
wird, an der üblichen
cDNA-Klonierungsstelle linearisiert und besitzt Transkriptionspromotor-
und -terminatorsequenzen, wobei die Rekombination an diesen Sequenzen
stattfindet.
-
Die
Nukleinsäurefragmente,
die in der Bank vorkommen, die im Schritt a. in die Hefe eingeführt wird, können fragmentiert
sein oder nicht. Wenn diese Fragmente fragmentiert sind, kann dadurch
die Effizienz der In-vivo-Rekombination erhöht werden, was die Diversität der Bank
erhöht,
weil vor der Klonierung in den Expressionsvektor ein Rekombinationsereignis
obligatorisch ist. Diese Punkte werden später noch besprochen.
-
Bei
den Rekombinationsereignissen, die in der Hefe stattfinden, kann
es sich um eine homologe Rekombination (zwischen identischen Sequenzen)
oder eine homöologe
Rekombination (zwischen Sequenzen, die einen genügenden Grad an Identität aufweisen)
handeln.
-
Das
erfindungsgemäße Verfahren
ist auch dadurch sehr interessant, dass es zur Gewinnung der kombinatorischen
Bank keinen Schritt der Passage durch einen Prokaryoten erfordert.
-
So
lässt sich
mit dem erfindungsgemäßen Verfahren
eine kombinatorische Expressionsbank direkt in einem eukaryotischen
Wirt erhalten, was einen gewissen Vorteil für die Expression von eukaryotischen
Proteinen, insbesondere Membranproteinen oder Proteinen, die zu
Multiproteinkomplexen gehören,
darstellt.
-
Das
erfindungsgemäße Verfahren
betrifft folglich ein Verfahren zur Produktion besserer kombinatorischer
Banken durch Rekombination in einer Hefe (CLERY, d. h. Combinational
Library Enhanced by Recombination in Yeast).
-
Die
Hefe (die auf genomischer Ebene modifiziert sein kann) wird ferner
vorteilhaft als Werkzeug zur Expression (39) chimärer Gene
verwendet, wodurch es möglich
ist, die funktionelle Expression der durch dieses Verfahren erhaltenen,
neuen eukaryotischen Proteine (insbesondere Multiproteinkomplexe
oder Membranproteine) zu verbessern. Außerdem ermöglicht es eine genomische Modifikation
des verwendeten Hefestamms, die natürliche Funktionsumgebung durch
die Produktion anderer eukaryotischer Proteine, die für die Aktivität der erzeugten
neuen Proteine, insbesondere im Falle von Multiproteinkomplexen,
wesentlich sind, wiederherzustellen (und damit die Screening-Möglichkeiten
zu optimieren).
-
Schließlich ermöglicht das
erfindungsgemäße Verfahren
den Erhalt einer kombinatorischen funktionellen Expressionsbank
durch zwei verschiedene Schritte:
- – die Klonierung
der Nukleinsäurebank
in den Expressionsvektor, der gleichzeitig in die Hefe eingeführt wird,
durch homologe Rekombination in vivo, wodurch eine funktionelle
Expressionsbank erhalten werden kann;
die homologe oder homöologe Rekombination
(zwischen ähnlichen,
aber nicht identischen Sequenzen), die in vivo in der Hefe erfolgen
kann, zwischen den verschiedenen Nukleinsäuren der kombinatorischen Bank,
die in die Hefe eingeführt
wurde, wodurch die Komplexität
und die Diversität
der erhaltenen kombinatorischen funktionellen Expressionsbank erhöht werden.
-
Wenn
die Nukleinsäurefragmente
der in die Hefe eingeführten
kombinatorischen Bank fragmentiert werden und nicht die beiden rekombinogenen
Enden besitzen, welche die Klonierung in den Expressionsvektor gestatten,
ist es somit wesentlich, dass ein Rekombinationsereignis zwischen
zwei passenden Fragmenten vor der Klonierung stattfindet.
-
Ebenso
beobachtet man bei einem besonderen Fall der Durchführung des
erfindungsgemäßen Verfahrens
ein Zustandekommen mindestens eines homöologen Rekombinationsereignisses
in der erhaltenen Bank, insbesondere weil die Nukleinsäuren der
Bank, die ursprünglich
in die Hefe eingeführt
wurde, zu derselben Genfamilie gehören.
-
Unter "Nukleinsäuren, die
zu derselben Genfamilie" gehören, werden
im Sinne der Erfindung Nukleinsäuren
verstanden, die mindestens 35%, vorzugsweise 40%, noch stärker bevorzugt
50% oder auch 70% Identität
aufweisen. Diese Nukleinsäuren
werden als zur gleichen Genfamilie gehörend bezeichnet, wenn sie die
vorstehend genannten prozentualen Identitäten aufweisen, und können für Proteine
codieren, die unterschiedliche Aktivitäten und/oder Funktionen aufweisen.
Diese Aminosäuren
können
für Proteine
codieren, die man natürlicherweise
findet, oder können "künstliche" Nukleinsäuren, d. h. Nukleinsäuren, die
für Proteine
codieren, die man nicht in der Natur findet, sein. Insbesondere
umfassen derartige "künstliche" Nukleinsäuren Fusionsproteine
oder Proteine, die bereits durch rekombinatorische DNA-Mischungsverfahren
erhalten worden sind.
-
Mit "prozentuale Identität" zwischen zwei Nukleinsäure- oder
Aminosäuresequenzen
soll im Sinne der vorliegenden Erfindung ein prozentualer Anteil
der Nukleotide oder Aminosäurereste
bezeichnet werden, der zwischen den beiden zu vergleichenden Sequenzen
identisch ist und nach der besten Ausrichtung erhalten wird, wobei
dieser prozentuale Anteil rein statistisch ist und die Unterschiede
zwischen den beiden Sequenzen zufallsgemäß über ihre gesamte Länge verteilt
sind. Mit "beste
Ausrichtung" oder "optimale Ausrichtung" soll die Ausrichtung
bezeichnet werden, für
die die prozentuale Identität,
die wie nachstehend bestimmt wird, am höchsten ist. Die Sequenzvergleiche
zwischen zwei Nukleinsäure-
oder Aminosäuresequenzen
werden herkömmlicherweise
durchgeführt,
indem man diese Sequenzen vergleicht, nachdem sie optimal aneinander
ausgerichtet wurden, wobei dieser Vergleich segmentweise oder mithilfe
eines "Vergleichsfensters" durchgeführt wird,
um lokale Regionen der Sequenzähnlichkeit
zu identifizieren und zu vergleichen. Die optimale Ausrichtung von
Sequenzen für
einen Vergleich kann neben manuell auch mithilfe des Algorithmus
der lokalen Homologie von Smith und Waterman (49), mithilfe des
Algorithmus der lokalen Homologie von Needleman und Wunsch (50),
mithilfe des Ähnlichkeitssucheverfahrens
von Pearson und Lipman (51) und mithilfe von Computerprogrammen,
die diese Algorithmen verwenden (GAP, BESTFIT, BLAST P, BLAST N,
FASIA und TFASTA im Wisconsin Genetik-Softwarepaket, Genetics Computer
Group, 575 Science Dr., Madison, WI), durchgeführt werden. Um die optimale
Ausrichtung zu erhalten, wird vorzugsweise das BLAST-Programm mit
der BLOSUM 62-Matrix
verwendet. Man kann auch die Matrices PAM oder PAM250 verwenden.
-
Somit
können
mit der vorliegenden Erfindung in erhöhter Ausbeute rekombinatorische
Banken aus Nukleinsäuren
erhalten werden, die eine viel niedrigere Identität aufweisen
als die Identität,
die zurzeit im Stand der Technik erforderlich ist (im Allgemeinen
größer als
70%).
-
Die
im Schritt a. des erfindungsgemäßen Verfahrens
in die Hefe eingeführte
Nukleinsäurebank
ist vorzugsweise selbst eine kombinatorische Nukleinsäurebank.
-
Diese
Nukleinsäurebank
ist vorzugsweise eine Mischung von PCR-Produkten, die durch Amplifikation einer
kombinatorischen Bank von offenen Leserahmen unter Verwendung eines
Paares von Primern erhalten werden, die in den Regionen gelegen
sind, die diese offenen Leserahmen flankieren. Diese kombinatorische Bank
von offenen Leserahmen wird ausgehend von DNA-Sequenzvarianten erhalten, die sich
durch eine oder mehrere Mutationen unterscheiden und zu derselben
Genfamilie im Sinne der Erfindung gehören.
-
Vorzugsweise
wird ein einzelnes Paar von Primern zur Durchführung der PCR-Reaktion verwendet, wie
im vorstehenden Abschnitt beschrieben, aber der Fachmann kann auch
unterschiedliche Paare von Primern verwenden. Es ist jedoch praktischer,
ein einzelnes Paar von Primern zu verwenden.
-
Man
verwendet insbesondere ein Paar von Primern, das in den Translationspromotor-
und -terminatorregionen in der Hefe gelegen ist, also in Regionen,
welche die Expression offener Leserahmen in diesem Organismus ermöglichen.
So ist es wahrscheinlich, dass es sich bei diesen Regionen, die
auf allen DNA-Fragmenten der in die Hefe eingeführten Nukleinsäurebank
vorliegen, um die Nukleinsäuresequenzen
handelt, die an der Rekombination mit den gleichzeitig eingeführten homologen
Sequenzen des Expressionsvektors beteiligt sind, wodurch eine Klonierung
der offenen Leserahmen in den Vektor und die Herstellung der funktionellen Expressionsbank
möglich
werden.
-
Wie
vorstehend genauer ausgeführt,
ist die in die Hefe eingeführte
Nukleinsäurebank
vorzugsweise selbst eine kombinatorische Bank von Nukleinsäuren, die
zu derselben Genfamilie im Sinne der Erfindung gehören. Man
kann diese kombinatorische Bank durch herkömmliche DNA-Fragmentierungs-
und Zusammenfügungsverfahren
mittels Primerverlängerung
(Primer Extension) erhalten.
-
Der
DNA-Fragmentierungschritt wird mit Verfahren durchgeführt, die
dem Fachmann bekannt sind, wie zum Beispiel Spaltung durch Restriktionsenzyme
oder Zerstäubung.
Es ist jedoch bevorzugt, dass die DNA durch partielle Spaltung mit
einer DNAse, vorzugsweise DNaseI, fragmentiert wird, wodurch auf
kontrolliertere Weise Fragmente einer gewünschten Größe erhalten werden können. Außerdem können dadurch
effizient zufallsgemäße Fragmente
erhalten werden, was mit anderen enzymatischen Fragmentierungstechniken
nicht immer der Fall ist. In der Praxis und, um eine kombinatorische
Bank mit einer großen
Vielfalt an Kombination und einer großen Zahl an unterschiedlichen
Mosaikproteinen zu erhalten, versucht man, Fragmente einer Größe zwischen
15 und 700 Basenpaaren (bp), vorzugsweise von 40 bis 500 bp, noch
stärker
bevorzugt von 100 bis 300 bp zu erhalten.
-
Die
Fragmente werden mithilfe einer Primerverlängerungstechnik (Primer Extension)
wieder miteinander vereinigt. Prinzipiell können die erhaltenen Fragmente
aneinander hybridisieren, und durch Zugabe einer DNA-Polymerase kann eine
Verlängerung
der hybridisierten Fragmente und die Wiederherstellung funktioneller
Gene durch mehrere Verlängerungszyklen
erreicht werden.
-
Somit
ist eine Aufgabe der vorliegenden Erfindung auch ein Verfahren zur
Konstruktion einer kombinatorischen funktionellen Expressionsbank
ausgehend von einer kombinatorischen Bank von Nukleinsäuren, die
zu derselben Genfamilie gehören,
umfassend die folgenden Schritte:
- a. Einbringen
der kombinatorischen Bank von Nukleinsäuren in eine Hefe gleichzeitig
mit einem Expressionsvektor,
- b. Erhalten der funktionellen Expressionsbank durch Rekombination
der kombinatorischen Bank von Nukleinsäuren mit dem Expressionsvektor
in der Hefe,
wobei die kombinatorische Bank von Nukleinsäuren ein
Gemisch von PCR-Produkten ist, die erhalten wurden durch Amplifikation
einer kombinatorischen Bank von offenen Leserahmen unter Verwendung
eines Primerpaares für
die flankierenden Regionen dieser offenen Leserahmen, wobei die
kombinatorische Bank ausgehend von homologen DNA oder Sequenzvarianten,
die sich durch eine oder mehrere Mutationen unterscheiden, erhalten
wird, und wobei die kombinatorische Bank von offenen Leserahmen
erhalten wird durch Zusammenfügen
mittels "Primer
Extension" von Fragmentierungsprodukten
von mindestens zwei offenen Leserahmen, die für funktionelle Proteine codieren,
wobei die offenen Leserahmen untereinander eine Sequenzidentität von mehr
als 40% aufweisen.
-
Der
Fachmann kennt andere Techniken, die eine Rekombination zwischen
DNA-Fragmenten und ihrem Gemisch (DNA-Shuffling) gestatten. Ein
alternatives Verfahren ist deshalb das Oligoligationsverfahren, das
gegebenenfalls mit thermostabilen Ligasen durchgeführt werden
kann. Der Fachmann kann andere geeignete Verfahren für das Gemisch
von Nukleinsäuren
auswählen.
-
Für das Zusammenfügen der
Fragmente wird vorzugsweise eine Amplifizierungsreaktion mittels
Polymerase (PCR) verwendet. Die verschiedenen Schritte dieser Reaktion
müssen
kontrolliert sein, damit ein erheblicher Anteil an Mosaikgenen erhalten
wird. So ist der Hybridisierungsschritt ein sehr wichtiger Schritt,
damit die Möglichkeit
sichergestellt wird, dass eine Rekombination zwischen Fragmenten
erhalten wird, die eine relativ niedrige Sequenzidentität aufweisen,
insbesondere bei niedrigen Werte von Genen, die zu derselben Genfamilie
gehören
(35% oder 40%). So ist die PCR-Reaktion, die vorzugsweise während des
Zusammenfügungsschrittes
durchgeführt
wird, dadurch gekennzeichnet, dass jeder ihrer Zyklen mindestens
zwei Hybridisierungsstufen, vorzugsweise mindestens vier Stufen
durch in regelmäßigen Abständen abnehmende
Temperaturen aufweist. Es ist ferner entscheidend, dass die Gesamtheit
der Hybridisierungsschritte eine Gesamtdauer mehr als vier Minuten
aufweist. Eine besondere Ausführungsform
der PCR-Reaktion ist derart, dass jeder Zyklus mindestens vier Hybridisierungsstufen
von mehr als 60 Sekunden durch in regelmäßigen Abständen abnehmende Temperaturen
aufweist.
-
Die
Erfinder haben tatsächlich
gezeigt, dass es durch diese Zusammenfügungsbedingungen möglich ist,
Fragmente zu erhalten, die größer sind
als die Ausgangsnukleinsäuren.
Insbesondere wenn die Ausgangsnukleinsäuren Expressionsvektoren sind,
die Gene aus derselben Genfamilie tragen, können es die Fragmentierungs-
und Zusammenfügungsschritte
ermöglichen,
dass in der Hefe DNA-Transformantenfragmente erhalten werden, d.
h. die gleichzeitig die Mosaikgene und die Elemente des Vektors
tragen, die ihre Replikation und Aufrechterhaltung in der Hefe ermöglichen.
Dies gewährleistet,
dass das Zusammenfügungsverfahren
gemäß dem erfindungsgemäßen Verfahren
extrem effizient ist (siehe auch die Beispiele).
-
Um
eine funktionelle Expressionsbank in der Hefe zu erhalten, schlägt das erfindungsgemäße Verfahren
das gleichzeitige Einführen
eines Expressionsvektors und einer durch Familien-Shuffling erhaltenen
Bank von Nukleinsäuren,
die zu derselben Genfamilie gehören,
wie in den vorstehenden Absätzen
beschrieben, vor.
-
Um
diese Bank von Nukleinsäuren
zu erhalten, ist es von Interesse, dass man von Nukleinsäuren ausgeht,
die zu derselben Genfamilie gehören
und die bereits in einen Expressionsvektor kloniert worden sind. Vorzugsweise
sind diese Nukleinsäuren
sämtlich
in den gleichen Expressionsvektor kloniert, und man verwendet diesen
Vektor für
das gleichzeitige Einbringen in die Hefe.
-
Nach
dem vorstehend beschriebenen Zusammenfügungsschritt und in dem Maße, wie
es die verwendeten Bedingungen erlauben, dass lange Fragmente erhalten
werden, die insbesondere gleich groß sind wie oder größer sind
als der Ausgangsvektor (d. h. länger
als die Nukleinsäuren,
die zu derselben Genfamilie gehören,
die man mischen möchte),
führt man
deshalb eine PCR-Reaktion
unter Verwendung eines Paares von Primern durch, die in den Regionen
gelegen sind, welche die offenen Leserahmen flankieren. Es handelt
sich vorzugsweise um Primer, die im Expressionsvektor gelegen sind,
und sie werden insbesondere aus den Transkriptionspromotor- und
-terminatorregionen des Vektors ausgewählt, wie vorstehend ausgeführt.
-
Als
Ausgangs-DNA kann man somit jeden Vektor verwenden, der die Nukleinsäuren enthält, die
zu derselben Genfamilie gehören
und die man rekombinieren möchte.
Man kann einen Mehrfachkopienvektor in Hefe oder einen Einzelkopievektor
in Hefe oder einen Vektor wählen,
dessen Eigenschaft als Mehrfach- oder Einzelkopievektor induzierbar
ist. Man kann auch einen Expressionsvektor für eine Hefe oder einen Expressionsvektor
für eine
eukaryotische Zelle wählen,
der als Shuttle für
die Hefe dient. Man kann auch einen Vektor wählen, der die benötigten Elemente
enthält,
damit er sich in Escherichia coli autonom replizieren kann. Selbstverständlich kann
man auch einen Vektor verwenden, der keine der vorstehend dargelegten
Eigenschaften oder eine Kombination dieser Eigenschaften besitzt.
-
Vorzugsweise
wird das erfindungsgemäße Verfahren
durchgeführt,
indem man als Ausgangsvektor den Expressionsvektor wählt, der
gleichzeitig mit der Nukleinsäurebank
in die Hefe eingebracht wird.
-
Dieser
Expressionsvektor besitzt die Elemente, damit er sich in der Hefe
als Mehrfachkopienvektor, Einzelkopievektor oder als konditioneller
Vektor autonom replizieren kann. Er kann auch Gene besitzen, die seine
Selektion auf geeigneten Medien gestatten, insbesondere Gene für eine Antibiotikaresistenz
oder zur Komplementierung einer Auxotrophie, wenn die verwendete
Hefe diese Eigenschaft aufweist.
-
Der
Expressionsvektor kann ein Expressionsvektor für Hefe sein. In diesem Fall
besitzt er Elemente, die eine effiziente Transkription und Translation
in der Hefe erlauben. Es kann sich alternativ um einen Vektor für die Expression
in einem anderen prokaryotischen oder eukaryotischen Wirt handeln,
d. h. er kann die Elemente (Replikationsursprünge) besitzen, die es ihm ermöglichen,
sich in diesem anderen Wirt autonom zu replizieren. Man wählt insbesondere
einen Vektor, der eine Expression in einem höheren eukaryotischen Wirt, insbesondere
einer Säugerzelle,
gestattet. Ein derartiger Vektor besitzt zusätzlich zu einer Expressionskassette
für einen
höheren
Eukaryoten einen Replikationsursprung und einen Selektionsmarker
für Hefe.
-
Der
Vektor enthält
vorzugsweise einen Promotor, Translationsinitiations- und -terminationssignale
sowie geeignete Transkriptionsregulationsregionen. Er kann gegebenenfalls
bestimmte Signale besitzen, welche die Sekretion des translatierten
Proteins steuern. Die Vektoren, die verwendet werden können, sind
dem Fachmann bekannt.
-
Vorzugsweise
wird als Vektor, der die zu derselben Genfamilie gehörenden Nukleinsäuren trägt, die man
fragmentieren möchte,
ein Vektor verwendet, dessen Größe, einschließlich der
offenen Leserahmen, mehr als 7 Kilobasen (kb) beträgt. Man
kann den gleichen Vektor für
das gleichzeitige Einbringen in die Hefe und für den Rekombinationsschritt
in der Hefe verwenden.
-
Die
Rekombination erfolgt in der Hefe, vorzugsweise einer Hefe von der
Gattung Saccharomyces, noch stärker
bevorzugt S. cerevisiae. Man kann jedoch andere Hefearten verwenden,
darunter Candida, Yarrovia, Kluyveromyces, Schizosaccharomyces,
Torulopsis, Pichia und Hansenula. Der Fachmann wählt die geeignete Hefe je nach
seinen Kompetenzen und Kenntnissen und der angestrebten Zielsetzung
aus. Diese Hefe kann auf genomischer Ebene modifiziert werden, so
dass sie exogene Proteine exprimiert, durch die die Mosaikproteine,
die erzeugt werden sollen, komplementiert werden können.
-
Das
erfindungsgemäße Verfahren
hat mehrere Vorteile, die insbesondere anhand der Beispiele ersichtlich
werden. Man kann jedoch mehrere davon zusammenfassen:
- – das
Verfahren erfordert zur Gewinnung der Bank keine Passage durch einen
prokaryotischen Wirt, was die durchzuführenden Manipulationen vereinfacht;
- – durch
das erfindungsgemäße Verfahren
können
in einem einzigen Schritt die Klonierung der in die Hefe eingeführten Nukleinsäurebank
in den Expressionsvektor und die Erhöhung der Diversität durch
homologe oder homöologe
Rekombination zwischen den verschiedenen Nukleinsäuren der
in die Hefe eingeführten kombinatorischen
Bank vorgenommen werden;
- – wenn
der Expressionsvektor ein Mehrfachkopienvektor ist, erhält man eine
Mischung von Produkten in der Hefe, die aus mehreren Kopien des
Vektors besteht, die jeweils ein anderes Mosaikgen aufweisen. Jeder
erhaltene Hefeklon enthält
somit einzeln eine Bank von Mosaikgenen, und dies macht es möglich, die Aktivitäten der
verschiedenen Proteine schnell und effizient zu testen;
- – wenn
sich der Expressionsvektor auch in E. coli replizieren kann, kann
man dann die Segregation der verschiedenen Plasmide durch Präparieren
von Plasmid-DNA
von mindestens einem der erhaltenen Hefeklone, Transformieren von
E. coli mit der extrahierten Plasmid-DNA und Selektieren der transformierten Klone
auf geeignetem Medium durchführen,
so dass eine Unterscheidung von Elementen der kombinatorischen funktionellen
Expressionsbank erhalten wird.
-
So
kann der Fachmann, der die funktionellen Eigenschaften eines Proteins
verbessern möchte,
durch das erfindungsgemäße Verfahren
eine kombinatorische funktionelle Expressionsbank in Hefe ausgehend
von interessierenden Nukleinsäuren,
die zu derselben Genfamilie gehören,
herstellen. Er kann anschließend
die Hefeklone testen, um diejenigen zu selektieren, für die die
gewünschte
Eigenschaft ersichtlich ist, und die wirklich interessanten Sequenzen
erhalten, indem eine Diskriminierung mittels Passage in einem prokaryotischen Wirt
durchgeführt
wird.
-
Somit
lassen sich mit dem erfindungsgemäßen Verfahren aktive funktionelle
Mosaikproteine herstellen, die ihrerseits Aufgaben der Erfindung
sind. Somit ist eine Aufgabe der Erfindung auch ein Verfahren zur Produktion
aktiver funktioneller Mosaikproteine, dadurch gekennzeichnet, dass
man eine kombinatorische funktionelle Expressionsbank durch ein
erfindungsgemäßes Verfahren
konstruiert, die Mosaikproteine exprimiert und die aktiven funktionellen
Mosaikproteine durch Untersuchung ihrer Aktivität selektiert.
-
Vorzugsweise
handelt es sich bei den Mosaikproteinen, die man erzeugen möchte, um
Enzyme, die verbesserte Aktivitäten
(Tehrmostabilität,
neue Funktion, Modifikation der Funktion, Zunahme der Aktivität, Modifikation
der Substratspezifität,
Modifikation der Aktivität
in einer exakten Umgebung, wie einem Lösungsmittel, einem pH...) besitzen.
Die Verwendung des erfindungsgemäßen Verfahrens
zur Erzeugung neuer Enzyme bietet viele Vorteile, weil die Aktivitäten der
erzeugten neuen Proteine dann oft direkt in der Hefe getestet werden
können.
Somit verwendet man als Ausgangsnukleinsäuren vorzugsweise Nukleinsäuren, die
zu derselben Genfamilie gehören
und die für
Enzyme codieren. Die erhaltenen aktiven Mosaikproteine werden dann
als Enzymderivate bezeichnet.
-
Die
Beispiele der vorliegenden Erfindung zeigen die Anwendung des Verfahrens
auf die Erzeugung neuer Proteine, die von den P450-Cytochromen abstammen.
Die P450-Cytochrome (P450) können
eine große Vielfalt
an Substraten erkennen und eine noch größere Anzahl an Reaktionen katalysieren.
Diese Enzyme hat man in praktisch allen lebenden Organismen nachgewiesen
(20). In Säugetieren
sind die P450 an der Bildung der Steroidhormone beteiligt, spielen
jedoch auch eine vorherrschende Rolle im Stoffwechsel von Medikamenten
und Schadstoffen, die manchmal zu Toxizitäts- und chemischen Karzinogeneseereignissen
führen
können (20–22). Die
menschlichen P450 1A1 und 1A2 haben eine Sequenzidentität in der
Größenordnung
von 70% und besitzen gewisse unterschiedliche Substratspezifitäten. Sie
sind die aktivsten unter den P450 im Stoffwechsel chemischer Karzinogene
(23) und sind beim Menschen im Fall von CYP1A1 an Lungenkrebs (24–26), im
Fall von CYP1A2 an der Aktivierung von Promutagenen, die in der
Nahrung (27) oder in durch Aflatoxin B1 induzierten Leberkrebserkrankungen
enthalten sind, beteiligt. Die Gesamtheit der Eigenschaften der
P450 von Säugern
macht sie tatsächlich
zu ausgezeichneten Kandidaten für
die Anwendung dieser molekularen Evolutionstechniken (28).
-
Ein
besonderer Fall der vorliegenden Erfindung betrifft folglich das
erfindungsgemäße Verfahren,
das außerdem
dadurch gekennzeichnet ist, dass der für die rekombinatorische Mischung
verwendete eukaryotische Expressionsvektor einen offenen Leserahmen
enthält,
der für
ein eukaryotisches membranständiges
Enzym codiert. Vorzugsweise wird das eukaryotische Enzym aus der
Gruppe ausgewählt,
die aus eukaryotischen P450-Cytochromen,
eukaryotischen Konjugationsenzymen (Phase-II-Enzymen) und Mitgliedern der Familie der
eukaryotischen ABC-Transporter besteht.
-
In
diesem Fall kann es interessant sein, einen Hefestamm zu verwenden,
der eine genetische Modifikation aufweist, die eine Überexpression
von mindestens einem Protein ermöglicht,
das aus der Gruppe ausgewählt
ist, die aus einer endogenen oder exogenen P450-Reduktase, einem Adrenodoxin, einer
Adrenodoxin-Reduktase,
einem heterologen Cytochrom b5, einem Phase-II-Enzym (insbesondere einer Epoxid-Hydrolase)
besteht. Derartige Stämme
sind in Patent
EP 595 948 beschrieben.
-
Diese
Stämme
gestatten es insbesondere, die natürliche Funktionsumgebung von
eukaryotischen P450 wiederherzustellen (40, 41).
-
Durch
Verwendung genetisch modifizierter Hefestämme ist es außerdem möglich, Proteinkomplexe mit
mehreren fixierten Elementen (die von der Hefe konstitutiv exprimiert
werden) und einem variablen Element (dem Produkt der Mosaikgene,
die durch das erfindungsgemäße Verfahren
erhalten werden) wiederherzustellen.
-
Das
erfindungsgemäße Verfahren
kann auch auf andere Proteine angewendet werden. Es kann zum Beispiel
interessant sein, Rezeptoren zu erzeugen, wodurch die an der Erkennung
und Bindung des Liganden beteiligten Sequenzen festgestellt werden
können,
oder chimäre
Proteine, die auf den Zielproteinen von Antibiotika basieren, wodurch
sich die Grade der Resistenz in Abhängigkeit von Mutationen feststellen
lassen.
-
Üblicherweise
ist es notwendig, dass man viele DNA-Shuffling"-Zyklen durchführt, bevor ein Protein erhalten
wird, das die gewünschten
Merkmale und/oder Eigenschaften aufweist. Im vorliegenden Fall ist
es möglich,
nach der Selektion der Hefeklone, welche die Proteine exprimieren,
die eine Aktivität
nahe der gewünschten
Aktivität
aufweisen, eine einfache PCR-Reaktion
direkt an den Klonen unter Verwendung geeigneter Primer, welche
die offenen Leserahmen flankieren, durchzuführen und eine neue rekombinatorische
Mischung vorzunehmen, indem die Schritte des erfindungsgemäßen Verfahrens
wiederholt werden.
-
Er
ist jedoch wünschenswert,
dass man die Geschwindigkeit verbessern kann, mit der die gewünschten
Eigenschaften erhalten werden, indem eine Beziehung zwischen den
Sequenzstrukturen der erhaltenen Mosaikproteine und den funktionellen
Strukturen dieser Proteine hergestellt wird. Dies ermöglicht es
dann, die DNA-Sequenzen des Gens oder die Verbindungen zwischen
den Sequenzen leicht mit einer enzymatischen oder einer anderen
Funktion (Anheftung eines Substrates, Thermophilie...) in Verbindung
zu bringen.
-
Die
vorliegende Erfindung betrifft folglich außerdem ein Verfahren zur Analyse
einer kombinatorischen funktionellen Expressionsbank, dadurch gekennzeichnet,
dass es folgende Schritte umfasst:
- a. Transformation
eines Escherichia coli-Stammes mit Plasmid-DNA, die aus dem Hefestamm
oder einem Hefe-Pool
extrahiert wurde,
- b. Hybridisierung der Plasmid-DNA, die in den jeweiligen Escherichia
coli-Einzelklonen enthalten ist, die am Ende von Schritt a. erhalten
werden, mit einer oder mehreren Sonde(n), die für eine Parentalsequenz spezifisch
ist/sind.
-
Dieses
Verfahren, verfeinert durch die Schritte, die später noch beschrieben werden,
kann an jeder kombinatorischen Bank von dem Zeitpunkt an verwendet
werden, an dem die verschiedenen Nukleinsäuren, welche die Bank bilden,
unterschieden werden.
-
Die
Hybridisierung erfolgt an einem DNA-Makro- oder Mikroarray, wobei der Array entweder
aus der Plasmid-DNA, die in den jeweiligen Escherichia-coli-Einzelklonen enthalten
ist, die am Ende des Schrittes a. enthalten werden, oder aus einem
PCR-Produkt davon oder aus den spezifischen Sonden, gebunden an
einen festen Träger,
besteht, wobei jede der Nukleinsäuren,
anhand ihrer Position in dem Array wiedergefunden werden kann.
-
Im
ersten Fall wird die Plasmid-DNA, die in jedem der Escherichia-coli-Einzelklone
enthalten ist, die am Ende des Schrittes a. erhalten werden, oder
ein PCR-Produkt
davon, an einen festen Träger
(Glas, Silizium, geeignete Membran (Nylon, Nitrocellulose) ...)
gebunden. Das Verfahren zur Bindung der DNA ist dem Fachmann bekannt,
und die DNA kann an den verwendeten Träger mehr oder weniger fest
gebunden werden. Es ist nicht immer notwendig, die Plasmid-DNA aus
den erhaltenen E.-coli-Klonen
zu extrahieren, diese können
direkt auf dem verwendeten festen Träger lysiert werden, oder die
PCR zur Amplifikation der Fragmente, die den Mosaikgenen entsprechen,
kann direkt an den Bakterienklonen ohne vorherige DNA-Extraktion
durchgeführt
werden.
-
Im
zweiten Fall werden die Sonden an den festen Träger gebunden. Es gibt mehrere
Verfahren zur Herstellung eines Trägers, der Sonden trägt. Man
kann die Sonden synthetisieren und an den Träger binden (die Anordnung kann
mechanisch, elektronisch, mittels Tintenstrahl... erfolgen) oder
die Sonden direkt auf dem Träger
(mittels photochemischer Anordnung oder Anordnung durch Tintenstrahl
zum Beispiel) synthetisieren. Der Fachmann wählt das Verfahren, das für das gewünschte Ergebnis
das geeignetste ist.
-
Je
nach der Anzahl der verwendeten Sonden erhält man einen mehr oder weniger
feinen Hybridisierungsfootprint für jeden der getesteten Klone.
Je höher
die Anzahl der Sonden, desto feiner ist der erhaltene Footprint.
Man kann Sonden wählen,
die sich homogen über
die gesamte Länge
des Gens verteilen. Alternativ kann es vorteilhaft sein, Sonden
zu verwenden, die auf eine Gruppe von Sequenzregionen abzielen,
von denen man weiß,
dass sie für
Regionen codieren, die für
die Funktion und/oder die Aktivität des Proteins wichtig sind.
So kann man einen gerichteten Sequenzfootprint erhalten.
-
Außerdem variieren
die Sondenhybridisierungsbedingungen je nach dem Grad der Spezifität dieser Sonden
für jede
Parentalstruktur. Wenn zwei parentale Strukturen sich auf dem Fragment,
das der Sonde entspricht, durch eine einzelne Base unterscheiden,
muss man daher Bedingungen einer höheren Stringenz anwenden, als
wenn die parentalen Strukturen sehr unterschiedlich sind. Der Fachmann
kann die besten Hybridisierungsbedingungen insbesondere bestimmen,
indem er der Lehre von Sambrook et al. folgt. Es soll ebenfalls
hervorgehoben werden, dass bestimmte Mosaikgene eine schwächere Hybridisierungsintensität als andere
Gene mit einer gegebenen Sonde liefern können. Tatsächlich kann die Effizienz der Übertragung der
DNA auf den festen Träger
mehr oder weniger effizient erfolgt sein, oder die Region des Gens,
an welche die Sonde hybridisieren soll, ist wiederum eine Mosaikregion
und besteht aus Fragmenten, die von unterschiedlichen "Eltern"-Genen stammen.
-
Man
kann eine statistische Analyse der Hybridisierungsintensitäten mit
einem geeigneten Computerprogramm durchführen. Das Programm wandelt
vor der eigentlichen statistischen Analyse die Hybridisierungssignale
zunächst
durch ein System von Masken mit einer Booleschen XOR-Funktion in
Daten eines Parentaltyps um.
-
Die
Analyse der kombinatorischen Bank kann folgendermaßen erfolgen:
- – Jeder
erzeugten Nukleinsäuresequenz
wird je nach der Fähigkeit
der verwendeten Sonden zur Hybridisierung an diese Sequenz ein Code
zugeordnet. Es kann vorteilhaft sein, eine binäre Codierung zu verwenden (0,
wenn die sondierte Stelle einem bestimmten Parentaltyp entspricht,
1, wenn sie dem anderen Parentaltyp entspricht), aber andere Arten
der Codierung können
ebenfalls verwendet werden. So hat jede erzeugte Sequenz in der
Bank eine individuelle "Signatur". Wenn 6 Sonden verwendet
werden und man eine binäre
Codierung verwendet, werden 26 Möglichkeiten
(von 000000 bis 111111) betrachtet.
- – Die
Häufigkeit
jeder der so erhaltenen Signaturen wird dann mit der Häufigkeit
verglichen, die erwartet wird, wenn die rekombinatorische DNA-Mischung
völlig
zufallsgemäß erfolgt
wäre (im
Fall von 6 Sonden beträgt
die theoretische Häufigkeit
jedes Musters dann 1/26). Durch diese Analyse
lässt sich
für jede
der sondierten Positionen ein "bevorzugter
Elternteil" definieren
(gewisse Korrekturen müssen
manchmal eingebracht werden, insbesondere wenn die Anteile der parentalen
Ausgangsnukleinsäuren
nicht gleich sind).
- – Die
Untersuchung der Signaturen ermöglicht
es auch, die Verhältnisse
genauer anzugeben, die im Inneren eines gleichen Mosaiks vorliegen
können,
insbesondere die Verbindungen zwischen Parentaltypen, die zwischen
jedem Segment gefunden werden können.
Zum Beispiel muss man leicht feststellen können, dass eine Korrelation
zwischen zwei nicht notwendigerweise benachbarten Nukleinsäuresegmenten
erforderlich ist, damit eine biologische Funktion erhalten wird.
- – Die
Analyse kann ferner verfeinert werden, so dass Ergebnisse erhalten
werden, die mehrere Hinweise liefern können. Die Beispiele veranschaulichen
einen derartigen Schritt, indem sie ein Verfahren offenbaren, bei
dem jede Signatur der Bank in eine Dezimalzahl umgewandelt wird
und bei dem eine Kurve gezeichnet wird, welche die Dezimalzahl auf
der X-Achse und die kumulierte Häufigkeit
auf der Y-Achse aufweist. Durch Analyse dieser Kurve und ihre Modellierung
mittels Simulation lassen sich ebenfalls interessante Hinweise auf
die Wahrscheinlichkeit, dass ein bestimmter Typ der Parentalstruktur
an einer gegebenen Stelle erhalten wird, sowie auf die Korrelationen
erhalten, die zwischen verschiedenen Fragmenten bestehen.
-
Die
beschriebenen statistischen Analysen werden aufgrund der Verwendung
von Computerwerkzeugen erleichtert, deren Entwicklung dem Fachmann
keine Probleme bereitet.
-
Simulationen
von Korrelation zwischen verschiedenen Segmenten können durchgeführt werden,
indem man je nachdem, welche Korrelationen gewünscht sind, mehr oder weniger
zufällige
Matrizes erzeugt. Zum Beispiel kann eine Matrix erzeugt werden,
bei der ein Segment eine Wahrscheinlichkeit von mehr als 50% aufweist,
dass es von dem gleichen Parentaltyp ist wie das benachbarte Segment.
Die Anzahl an Matrizes, die so erzeugt werden können, ist extrem groß und kann
es somit ermöglichen,
einen Annäherungswert
für die beobachteten
Ergebnisse zu definieren.
-
Wenn
man Korrelationen zwischen verschiedenen Segmenten beobachtet, ist
es wahrscheinlich, dass das Anlegen einer funktionellen Selektion
an die Population von Klonen (die folglich die Population von Sequenzen
verringert, die das Screening passieren) zu einer Zunahme der Anzahl
an Korrelationen und zu einer Entwicklung (Konvergenz) der erhaltenen
statistischen Ergebnisse führt.
Man sollte somit das Auftreten eines Musters erhalten, das für die angewendete
Selektion charakteristisch ist, was eine Sequenzsignatur ergibt,
die von der an das System angelegten funktionellen Selektion abhängig ist.
-
Zusammengefasst
lässt sich
sagen, dass die vorliegende Erfindung auch ein Verfahren zur Analyse von
Hybridisierungsfootprints betrifft, die durch das vorstehend beschriebene
Verfahren zur Analyse der kombinatorischen Bank erhalten werden
können,
dadurch gekennzeichnet, dass es folgende Schritte umfasst:
- a. Berechnen der Häufigkeit des Auftretens jeder
der möglichen
Kombinationen,
- b. Definieren einer Signatur der statistischen Verteilung der
Kombinationen durch eine geeignete mathematische und statistische
Verarbeitung.
-
So
liefert die vorliegende Erfindung ein Mittel zur sehr effizienten
Produktion von kombinatorischen funktionellen Expressionsbanken
ausgehend von Nukleinsäuren,
die zu derselben Genfamilie im Sinne der Erfindung gehören und
die einen verhältnismäßig niedrigen
Grad der Identität
aufweisen können.
-
Außerdem hat
die vorliegende Erfindung den Vorteil, dass man den Test der Aktivitäten der
erzeugten Mosaikproteine ohne einen vorherigen Reinigungsschritt
direkt an den erhaltenen Hefeklonen durchführen kann.
-
Die
vorliegende Erfindung stellt ferner ein Verfahren zur Analyse kombinatorischer
Banken bereit, das auf einer Hybridisierung und statistischen Analyse
der erhaltenen Hybridisierungsfootprints basiert.
-
Die
vorliegende Erfindung liefert folglich Werkzeuge, die zur Bestimmung
von Zusammenhängen
verwendet werden können,
die zwischen den Sequenzstrukturen und den funktionellen Strukturen
der Proteine bestehen können.
Somit betrifft die vorliegende Erfindung auch ein Verfahren zur
Bestimmung von Zusammen hängen
zwischen Sequenzsignaturen und funktionellen Signaturen eines Proteins,
dadurch gekennzeichnet, dass es folgende Schritte umfasst:
- a. Herstellen einer kombinatorischen funktionellen
Expressionsbank durch ein erfindungsgemäßes Verfahren,
- b. Produzieren der aktiven funktionellen Mosaikproteine,
- c. Analysieren der funktionellen und/oder der Aktivitätsunterschiede
zwischen den Mosaikproteinen,
- d. Analysieren der Nukleinsäuren,
die den Mosaikproteinen entsprechen, durch ein erfindungsgemäßes Verfahren
zur Analyse mittels Hybridisierung, gegebenenfalls gefolgt von einer
statistischen Analyse durch ein erfindungsgemäßes Verfahren,
- e. Verknüpfen
der im Schritt d. beobachteten Unterschiede der Sequenzstruktur
mit den im Schritt c. beobachteten funktionellen und/oder Aktivitätsunterschieden.
-
Die
Durchführung
dieses Verfahrens zur Identifikation der wichtigen Sequenzregionen
oder der Zusammenhänge
zwischen Sequenzregionen, die mit einer interessierenden Funktion
einhergehen, ermöglicht die
Vorhersage von Strukturen, die diese Funktion aufweisen, durch Ableitung
der gesuchten Struktur in Abhängigkeit
von der durch das vorstehend beschriebene Verfahren erhaltenen Struktur-Funktions-Beziehung.
-
So
lassen sich Proteine erhalten, die verbesserte Eigenschaften besitzen,
wie vorstehend beschrieben, oder Proteine, die eine große Substratanzahl
erkennen ("generische" Enzyme), indem man
die Mischungen von genetischen Informationen steuert, um interessierende
schneller und effizienter Proteine zu erhalten.
-
Die
verschiedenen, im Stand der Technik beschriebenen Verfahren gestatten
es, interessierende Proteine durch Wiederholung der rekombinatorischen
DNA-Mischungen zu
erhalten, wobei man die erhaltenen Proteine immer feineren Screenings
unterwirft. Durch die vorliegende Erfindung, die es gestattet, die
Strukturen und die Funktionen der erhaltenen Mosaikpro teine miteinander
in Zusammenhang zu bringen, können neue
rekombinatorische Gemische durchgeführt werden, indem als Ausgangsnukleinsäuren nur
die Nukleinsäuren
verwendet werden, von denen festgestellt wurde, dass sie die interessierenden
Strukturen oder Organisationen von Strukturen enthalten.
-
Somit
betrifft die vorliegende Erfindung ein Verfahren zum erhalt eines
Proteins, das verbesserte Eigenschaften besitzt, dadurch gekennzeichnet,
dass es folgende Schritte umfasst:
- a. Konstruieren
einer kombinatorischen funktionellen Expressionsbank durch ein erfindungsgemäßes Verfahren,
- b. Analysieren der kombinatorischen funktionellen Expressionsbank,
- c. Analysieren der im Schritt b. erhaltenen Hybridisierungsfootprints
durch ein erfindungsgemäßes Verfahren,
- d. Bestimmen der Zusammenhänge
zwischen den Sequenzstrukturen und den funktionellen Strukturen
der Proteine durch Vergleich der Hybridisierungsfootprints mit den
Eigenschaften der entsprechenden Mosaikproteine,
- e. Vorhersagen der interessierenden Strukturen oder der Organisationen
von Strukturen in den Mosaikproteinen,
- f. Wiederholen der Schritte a. bis e. unter Verwendung der Nukleinsäuren als
Ausgangsnukleinsäuren
zur Erzeugung der kombinatorischen funktionellen Expressionsbank,
welche die im Schritt e. identifizierten interessierenden Strukturen
oder Organisationen von Strukturen tragen, eine ausreichende Anzahl
von Malen, um das Protein zu erhalten, das die gesuchten verbesserten
Eigenschaften besitzt.
-
Schritt
f. besteht aus der Wiederholung der vorhergehenden Schritte, bis
ein Protein identifiziert werden kann, das die gewünschten
Eigenschaften aufweist. Die vorliegende Erfindung sollte es möglich machen, die
Anzahl an Zyklen zur Herstellung einer kombinatorischen Bank – zur Analyse
der Proteine verglichen mit den Verfahren des Standes der Technik
zu verringern.
-
Die
durch das beschriebene Verfahren erhaltenen Proteine sind ebenfalls
eine Aufgabe der Erfindung.
-
Die
Erfindung betrifft außerdem
ein Verfahren zur Bestimmung einer Struktur eines wichtigen Proteins als
Reaktion auf einen Selektionsdruck ausgehend von einer kombinatorischen
funktionellen Expressionsbank, die durch ein erfindungsgemäßes Verfahren
erhalten wird, für
dessen Elemente eine Signatur erhalten wurde, umfassend folgende
Schritte:
- – Standardisieren
der Bank durch Homogenisieren der Signaturen, zum Beispiel durch
Aussortieren mithilfe einer geeigneten Robotervorrichtung. Dieser
Schritt stellt sicher, dass sich jeder Footprint mit der gleichen Wahrscheinlichkeit
in der standardisierten Bank befindet.
- – Anlegen
eines Selektionsdrucks,
- – Analysieren
der erhaltenen Expressionsbank, indem die erfindungsgemäßen Verfahren
zur Analyse von Sequenzsignaturen durchgeführt werden,
- – Untersuchen
der Veränderungen
der Sequenzsignaturen, die durch den Selektionsdruck an der anfänglichen
standardisierten Bank induziert werden, und Ableiten der Strukturen,
die als Reaktion auf den Selektionsdruck selektiert werden oder
gegen die selektiert wird, daraus.
-
Es
soll darauf hingewiesen werden, dass durch die Normalisierung der
Bank vor dem Anlagen des Selektionsdrucks tatsächlich eine viel größere Diversität durch
Screening der gleichen Anzahl an Klonen gescreent werden kann, als
wenn man nicht standardisieren würde.
Tatsächlich
kann man feststellen, dass bestimmte Strukturen (wie durch die Footprints
analysiert) mit höheren
Wahrscheinlichkeiten vorliegen als man es im Fall einer zufälligen Mischung
erwarten würde.
Somit gestattet es die Standardisierung, den Einfluss dieses Problems
zu verringern.
-
Die
folgenden Beispiele sind zur Veranschaulichung der Erfindung auf
die Erzeugung neuer P450-Cytochrome beschränkt. Sie sollten jedoch nicht
so betrachtet werden, dass sie die Erfindung und insbesondere den
Typ der Proteine und Nukleinsäuren
beschränken,
die bei den in der vorliegenden Erfindung beschriebenen Verfahren
verwendet werden können.
Der Fachmann kann die erfindungsgemäßen Verfahren somit leicht durchführen, indem
er andere Gene für
die in den Beispielen beschriebenen Gene für P450-Cytochrome einsetzt.
-
BESCHREIBUNG DER FIGUREN
-
1:
Prinzip der Konstruktion der Banken. A: Spur 1, DNA-Marker (mit
Pst I gespaltene λ-DNA);
die Spuren 2, 3, 4 und 5, 6, 7 entsprechen jeweils den mit DNAse
I gespaltenen Plasmiden p1A1/V60 und p1A2/V60. Die Spuren 2 und
5 entsprechen der Fragmentierung mit 0,0112 Einheiten, die Spuren
3 und 6 mit 0,0056 Einheiten und die Spuren 4 und 7 mit 0,0028 Einheiten
DNAse I pro μg
DNA. B: Zusammenfügungsreaktion.
Spur 1, DNA-Marker; die Spuren 2, 3 und 4 entsprechen den Zusammenfügungsreaktionen
zwischen Fragmenten von p1A1/V60 und p1A2/V60, indem jeweils die
Reaktionen der Spuren 2 und 5, 3 und 6 bzw. 4 und 7 gemischt wurden.
C: Amplifikationsreaktion. Spur 1, DNA-Marker; die Spuren 2, 3 und
4 entsprechen jeweils der Amplifikation mit den Plasmiden PYeDP60,
p1A1/V60 und p1A2/V60; die Spuren 5, 6 und 7 entsprechen Amplifikation,
bei denen die zuvor zusammengefügten
DNAs als Matrize verwendet werden (Spuren B2, B3 und B4). Die in
Spur 6, Bild C, dargestellte Bande wurde gereinigt und als solche
zur Cotransformation von S. cerevisiae mit dem zuvor linearisierten
Plasmid pYeDP60 verwendet. Man beobachtet das Vorliegen von Rekombinationsereignissen
zwischen den verschiedenen Nukleinsäuren der Bank, die in die Hefe
eingeführt
wurde.
-
2:
Die jeweiligen Positionen und Sequenzen der sechs Sonden, die zur
Herstellung der Bankcharakterisierungsmatrices verwendet wurden.
Die Zahlen oberhalb oder unterhalb entsprechen der 5'-Position der Ausrichtung
jeder Sonde an den Sequenzen. Die oberen und die unteren Sonden
hybridisieren mit den Sequenzen von P450 1A1 bzw. P450 1A2. Die
senkrechten Striche in dem zentralen Kasten stellen alle Fehlpaarungspositionen
zwischen der Sequenz von P450 1A1 und P450 1A2 dar.
-
3:
Die Hybridisierungsergebnisse wurden in Microsoft Excel verarbeitet,
wobei eine Matrix mit 384 Punkten mit dem folgenden Farbcode erzeugt
wurde: die dunklen Quadrate stellen die Strukturen dar, die für die Sequenzregionen,
die den sechs Sonden entsprechen, an die Strukturen der Parentaltypen
(1A1 oder 1A2) angepasst sind, und die hellen Quadrate stellen Mosaikstrukturen
dar.
-
4:
Experimentelle und theoretische kumulierte Häufigkeiten für die Beobachtung
der 64 möglichen Typen
von Mosaikstrukturen. Die horizontale Achse entspricht einer Codierung
der Mosaikstrukturen unter Verwendung von N = P1 + 2·P2 + 4·P3 + 8·P4 + 16·P5 + 32·P6, wobei
P1 bis P6 je nach der Hybridisierung mit den Sequenzen 1A1 bzw.
1A2 die Werte 0 oder 1 annehmen. Die offenen Kreise stellen die
experimentellen Kurven dar, die aus den Hybridisierungszuständen der
Matrix von 384 Klonen mit den sechs Oligonukleotidsonden abgeleitet
wurden. Die durchgezogene Kurve entspricht den theoretischen Kurven
unter der Annahme eines homogenen Anteils von 0,56:0,44 für die parentalen
Sequenzen 1A2 und 1A1 und einer perfekten Mischung (Fehlen von Kreuzkorrelation).
Die gestrichelte Kurve stellt die gleiche Kurve für einen
Anteil von 50:50 für
die parentalen Sequenzen 1A1 und 1A2 dar. Die schwarzen Kreise stellen
die theoretische Kurve dar, die durch Simulationen unter der Annahme
eines homogenen Anteils von 0,56:0,44 für die parentalen Sequenzen 1A2
und 1A1, aber mit einer Wahrscheinlichkeit für parentale Verbindungen von
0,1:0,6:0,85:0,1:0,1 zwischen den sondierten Segmenten 1–2, 2–3, 3–4, 4–5 bzw.
5–6, erhalten
wird. Eine Verbindung wird wie folgt definiert: 0 entspricht Unabhängigkeit
und 1 einer vollständigen
Verbindung.
-
5:
Darstellung der parentalen und rekombinanten Häufigkeiten für eine Verbindung
zwischen zwei Sonden. Die Häufigkeit
jeder Verbindung wurde mit einem der in Microsoft Excel erzeugten
Makros festgestellt. Die Summe der vier unterschiedlichen (parentalen
und rekombinanten) Häufigkeiten
ist immer 1. A: Verbindung zwischen zwei benachbarten Sonden; B:
Verbindung zwischen Sonden, die durch eine Sonde getrennt sind;
C: Verbindung zwischen entfernten Sonden (die durch zwei oder drei
Sonden getrennt sind). Die schwarzen und dunkelgrauen Histogramme
stellen die parentalen Verbindungen dar, während hellgrau und leicht dunkelgrau
die rekombinanten Verbindungen dargestellt sind.
-
6:
Kolorimetrischer Nachweis von funktionell kompeteten Mosaikstrukturen
für die
Oxidation von Naphthalin. Die Biokonversion wird in 1 ml Hefekultur
in Gegenwart von 1,6 mM Naphthalin durchgeführt. Die Extraktion in der
festen Phase und die Entwicklung der Färbung werden vollständig auf
Mikrotiterplatten durchgeführt,
wie in den Beispielen beschrieben. Eine dunkle Färbung zeigt die positiven Klone
an.
-
7:
Schematische Darstellung der Sequenzen von 10 zufällig ausgewählten Mosaikstrukturen:
A in der Gesamtpopulation; B: in der Subpopulation der aktiven Klone.
Für jede
Struktur wurde eine Ausrichtung der Nukleotide mit den beiden parentalen
Sequenzen durchgeführt.
Diese Ausrichtungen wurden als Ausgangsdaten für ein Sequenzanalyseprogramm
und ein Visualisierungsprogramm verwendet, das die Abbildung erzeugte.
Die grauen und schwarzen Regionen entsprechen den Sequenzen, die
zu den parentalen P450 1A1 bzw. 1A2 gehören. Die oberen oder unteren
dünnen
vertikalen Striche zeigen die Nukleotidfehlpaarungsregionen mit
der zweiten Parentalstruktur. Die Markierungen, die die Sequenzen
kreuzen, zeigen die Sequenzpositionen, die mit keiner der beiden
parentalen Sequenzen paarten und somit Mutationen entsprechen müssen. Die
horizontalen transparenten Teile entsprechen Sequenzsegmenten, für die die
Zugehörigkeit
zu dem einen oder anderen der Parentaltypen durch Sequenzanalyse
nicht festgestellt werden konnte.
-
BEISPIELE
-
Beispiel 1: Verfahren
-
1.A: Stämme, Plasmide und Molekularbiologie
-
Zwei
S.-cerevisiae-Stämme
wurden verwendet: W303-1B,
auch als W(N) bezeichnet (Mat a; ade2-1; his3, leu2, ura3, trp1,
can
R, cyr
+), und
W(R), der von W(N) durch Insertion des induzierbaren GAL10-CYCl-Promotors
stromaufwärts
der endogenen P450-Reduktase der Hefe (YRED) abgeleitet ist. Dieser
Stamm wurde zuvor von Truan et al. (40) und in dem Patent
EP 595 948 beschrieben, die
hier durch Bezugnahme aufgenommen sind.
-
Der
verwendete E.-coli-Stamm war DH5-1 (F', recA1, gyrA96, thi-1, hisR17, supE44, λ–).
Die verwendeten Expressionsvektoren waren p1A1/V60 (42) und p1A2/V60
(43, hier durch Bezugnahme aufgenommen); diese beiden Vektoren wurden
durch Insertion der menschlichen ORFs CYP1A1 und CYP1A2 zwischen
die BamHI/KpnI- bzw. BamHI/EcoRI-Restriktionsstellen von pYeDP60
konstruiert. Diese beiden Expressionsvektoren enthalten ferner URA3
und ADE2 als Selektionsmarker und stellen die offenen Leserahmen
(ORFs) unter die Kontrolle des GAL10-CYC1-Promotors und des PGK-Terminators
(39, hier durch Bezugnahme aufgenommen). Alle verwendeten Medien
wurden zuvor in den hier durch Bezugnahme aufgenommenen Dokumenten (40,
42) beschrieben.
-
Die
DH5-1-Bakterien wurden entsprechend dem von Sambrook et al. beschriebenen
Protokoll (44), das hier durch Bezugnahme aufgenommen ist, elektrokompetent
gemacht, und die Zellen wurden gemäß den Empfehlungen des Herstellers
des Elektroporationsgerätes
(Biorad) transformiert. Diese Zellen wurden auf festen LB-Medien
selektiert, die 50 μg/ml
Ampicillin enthielten.
-
Hefetransformation
-
Nach
einer Vorkultur für
12 Stunden in 5 ml YPGA-Medium
(für den
Stamm W(N)) oder YPLA-Medium (für
den Stamm W(R)) wurden die Zellen in 50 ml YPGA-Medium verdünnt, um
eine endgültige
Dichte von 2.106 Zellen/ml zu erhalten.
Sechs Stunden später
wurden die Zellen zweimal mit sterilem Wasser und einmal mit TE-Lithiumacetat-Puffer
(10 mM Tris-HCl, pH 7,5, 1 mM EDTA, 100 mM Lithiumacetat) gewaschen.
Die Zellen werden anschließend
in 1 ml TE-Lithiumacetat-Puffer resuspendiert.
-
Die
zu transformierende DNA sowie 50 μg
Lachssperma-DNA (zuvor ultraschallbehandelt und bei 95°C denaturiert)
und 350 μl
einer 40%igen (w/v) PEG 4000-Lösung
wurden dann zu 50 μl
der vorstehend erhaltenen Losung von Zellen hinzugefügt. Diese
Lösung
wurde dann bei 30°C
für 30
Minuten inkubiert und einem Hitzeschock bei 42°C für 45 Minuten unterworfen. Nach
Zentrifugation wurde der Überstand
entfernt und die Zellen in 200 μl
einer 0,1 M NaCl-Lösung
resuspendiert. Die Zellen wurden dann auf einem festen SWA6-Medium
selektiert (39, 42, hier durch Bezugnahme aufgenommen).
-
Extraktion der Hefe-Plasmid-DNA
-
Die
Kolonien werden in 1 ml Puffer A resuspendiert, der 2% (v/v) Triton
X-100, 50 mM Tris-HCl,
pH 8,0, 50 mM EDTA und 200 mM NaCl enthält. Dann wurde 1 Volumen Glaskugeln
(Braun Scientifics, 0,45 mM Durchmesser) hinzugefügt und die
Lösung
für 2 Minuten
mit 300 μl
eines Phenols/Chloroform/Isoamylalkohol-Gemischs (50:49:1, bezogen auf Vol.)
kräftig
gevortext. Nachdem Abnehmen der wässrigen Phase wurde die DNA
mit Ethanol ausgefällt
und in 50 μl
Wasser resuspendiert.
-
Sequenzen
-
Fünf aus der
Ausgangsbank stammende Bakterienklone und fünf funktionelle Klone wurden
zufällig ausgewählt und
sequenziert. Die Sequenzen wurden entweder von ESGS (ESGS, Gruppe
Cybergene, Evry Frankreich) oder unter Verwendung des ABI-Kits und
des ABI-Sequenziergerätes
entsprechend den Protokollen des Herstellers (Perkin Elmer) hergestellt.
-
1.B: Rekombinatorische DNA-Mischung auf
Basis von modifizierter PCR
-
Die
verwendete Technik stammt von derjenigen, die von Stemmer beschrieben
wurde (2, 3, 15) und hier durch Bezugnahme aufgenommen ist. Die
zufallsgemäße Fragmentierung
mit DNAse I (Grade II, Sigma-Aldrich) in Gegenwart von Mn2+ wird mit den Modifikationen durchgeführt, die
von Lorimer und Pastan (45) und Zhao (46) beschrieben wurden, hier
durch Bezugnahme aufgenommen.
-
2,5 μg von jeder
Plasmid-DNA (P1A1/V60 und P1A2/V60) wurden separat in einem Puffer,
der 50 mM Tris-HCl, pH 7,4, 10 mM MnCl2 enthielt,
in einem Endvolumen von 40 μl
resuspendiert. Die DNAse I wurde in drei unterschiedlichen Konzentrationen
(0,0112 U/μg
DNA, 0,0056 U/μg
DNA und 0,0028 U/μg
DNA) hinzugefügt.
Die Spaltung wurde bei 20°C
für 10
Minuten durchgeführt
und die DNAse I durch Erhitzen bei 90°C für 10 min inaktiviert. Die erhaltenen
Fragmente wurden auf einer Centrisep-Säule (Princeton Separation Inc.,
Philadelphia, NJ) gereinigt.
-
Während der
Zusammenfügungsreaktion
wurden die gereinigten Fragmente (10 μl jedes fragmentierten Plasmids)
durch eine PCR-Reaktion in 40 μl
unter Verwendung von 2,5 U Taq-Polymerase (Stratagene) amplifiziert.
-
Das
verwendete PCR-Programm bestand aus: 1 Zyklus der Denaturierung
bei 96°C
für 1,5
Minuten; 35 Zyklen von (30 s Denaturierung bei 94°C, 9 unterschiedlichen
Hybridisierungsschritten im Abstand von 3°C von 65°C bis 41°C und jeweils 1,5 Minuten und
einem Verlängerungsschritt
für 1,5
Minuten bei 72°C)
und schließlich
7 Minuten bei 72°C.
-
Die
zweite Amplifikationsreaktion wurde mit einem im GAL10-CYC1-Promotor
gelegenen 5'-Primer (SEQ
ID Nr. 1) und einem im PGK-Terminator gelegenen 3'-Primer (SEQ ID Nr.
2) durchgeführt.
-
1.C: Konstruktion und Charakterisierung
der Bank
-
Die
PCR-Amplifikationsprodukte wurden mit einem Elektrophoresegel aufgetrennt
und dann gereinigt. Die DNAs wurden unter Verwendung von In-vivo-Rekombination
(Gap Repair) in Hefe (37, 38, 43, 47, 48) in pYeDP60 inseriert.
Die Cotransformation des Stammes W303-1B mit 1/20 des PCR-Produkts
(Insert) und 0,025 μg
pYeDP60, der zuvor mit den Restriktionsenzymen EcoRI und BamHI linearisiert
worden war, wurde durchgeführt.
-
Die
aus der Hefe extrahierte DNA wurde zur Transformation des E.-coli-Stammes
DH5-1 unter Verwendung der von dem Plasmid bereitgestellten Ampicillinresistenz
verwendet. 378 Vertiefungen einer Mikrotiterplatte mit 384 Vertiefungen
wurden mit zufallsgemäß aus der
Bank ausgewählten,
unabhängigen
Bakterienkolonien beimpft, 3 Vertiefungen mit DH5-1-Bakterien, die zuvor
mit p1A1/V60 transformiert worden waren, und die restlichen 3 Vertiefungen
mit DH5-1, die mit p1A2/V60 transformiert waren. Nach 24-stündigem Wachstum
in TB-Medium (44), das 100 μg/ml
Ampicillin enthielt, wurden die 384 Vertiefungen dann auf sechs N+-Nylonmembranen
(Amersham) übertragen.
Die Filter wurden jeweils auf ein festes LB-Medien gelegt, das 100 μg/ml Ampicillin
enthielt. Nach 12-stündigem
Wachstum, erfolgten die Lyse der Bakterienkolonien, das Fixieren
und Denaturieren der DNA, die Vorhybridisierung der Filter entsprechend
dem vom Hersteller (Amersham) vorgesehenen Protokoll.
-
11
pmol der Oligonukleotide wurden zu 3,3 pmol mit 32P
markiertem γ-ATP,
2 μl Polynukleotidkinase und
18 μl Puffer
(New England Biolabs) hinzugefügt.
Das Ganze wurde 2 Std. bei Raumtemperatur inkubiert. Die Vorhybridisierung
der Filter wurde gemäß dem vom
Hersteller vorgesehenen Protokoll durchgeführt. Die markierte Sonde wird
in einen Hybridisierungschlauch gegeben, der einen der Filter enthält, und
das Ganze wird für
12 Std. bei 42°C
inkubiert. Die Filter werden anschließend in einer Lösung aus
2 X SSPE/0,1% SDS für
10 min gewaschen. Die Filter wurden durch Autoradiografie gemäß einem
bekannten Protokoll analysiert.
-
Jede
Sonde wurde ein zweites Mal markiert und mit einem anderen Filter
hybridisiert, um die Reproduzierbarkeit der Ergebnisse zu gewährleisten.
-
1.D: Selektion von Klonen, die funktionelle
P450 enthalten
-
Die
Bakterienkolonien wuchsen 24 Stunden lang in Mikrotiterplatten mit
96 Vertiefungen. Die DNA-Extraktion
wurde unter Verwendung des Protokolls für das Multiscreen-Gerät zur DNA-Minipräparation
mittels Filtration in Mikrotiterplatten mit 96 Vertiefungen (Millipore)
durchgeführt.
Jede gereinigte DNA wurde zur Transformation des Hefestammes W(R)
in einer Mikrotiterplatte mit 96 Vertiefungen verwendet, und die
Zellen wurden auf festen SWA6-Medien selektiert.
-
Nach
3-tägigem
Wachstum bei 30°C
wurde 1 ml flüssiges
SWA5-Medium mit einem Aliquot jeder Kolonie in einer Deepwell-Mikrotiterplatte
mit 96 Vertiefungen (ABGene) für
15 Stunden angeimpft. Das Medium wurde anschließend entfernt und durch 1 ml
YPLA-Medium mit 1,6 mM Naphthalin (Merck) ersetzt.
-
Für jede Kultur
wurde das Kulturmedium anschließend
in die entsprechenden Vertiefungen einer Multiscreen-Mikrotiterplatte
mit 96 Vertiefungen (MABV N12, Millipore) überführt, die 90 μl Octadecyl-funktionalisiertes
C18-Silicagel-Harz (Aldrich) enthielten. Nach einer Filtration des
Kulturmediums unter Vakuum sind das Substrat und die Reaktionsprodukte
an das Siliziumdioxid gebunden. Das Harz wurde anschließend zweimal mit
Wasser gewaschen, und die Metaboliten wurden mit 50 μl Isopropanol
eluiert. Nach Zugabe von 20 μl
einer Lösung
von 2 mg/ml Diazo-Blue-B (Fluka) wurde die Farbreaktion beobachtet,
die durch Kopplung zwischen den Diazo-Vorläufern und den aus dem Kulturmedium
extrahierten Phenolen erzeugt wurde.
-
1.E: Statistische Analysen
-
Für jede Sonde
wurde eine Matrix konstruiert, welche die Hybridisierungsintensitäten der
384 Klone darstellte. Die Hybridisierungsintensitäten wurden
visuell analysiert, wobei der umgebende Hintergrund berücksichtigt
wurde. Die Punkte, die den lokalen Hintergrund der negativen Punkte
sehr stark übertrafen,
wurden als Positive betrachtet, selbst wenn sie weniger intensiv
waren als die am stärksten
positiven Punkte. Diese intermediären Reaktionen können auf
eine partielle Fehlpaarung der Sonde (infolge der PCR-Schritte) oder auch
auf eine weniger gute Übertragung
bestimmter Punkte auf den Filter zurückzuführen sein. Die Mehrdeutigkeiten
wurden mittels Durchführung
einer Hybridisierung eines anderen Filters mit der gleichen Sonde
aufgelöst.
-
Die
sechs Matrices mit 384 Vertiefungen wurden in Microsoft-Excel-Tabellenkalkulationen
eingetragen, und eine statistische Analyse wurde mit in Microsoft
Visual Basic geschriebenen Excel-Makros und unter Wiederaufnahme
der in der Beschreibung dargelegten Analyseschritte durchgeführt. Das
Programm wandelt vor der statistischen Analyse zunächst die
Hybridisierungssignale durch ein System von Masken mit einer Booleschen
XOR-Funktion in Daten eines Parentaltyps um. Die statistischen Analysen
erfolgten entsprechend den in der Beschreibung aufgezählten Schritten.
-
Numerische
Simulationen wurden unter Verwendung eines Zufallszahlengenerators
und von Wahrscheinlichkeitsberechnungsroutinen erzeugt. Das Programm
kann derart angepasst werden, dass es alle möglichen Verzerrungen in der
Wahrscheinlichkeit, dass für
die Sequenzregionen, die jeder der Sonden entsprechen, der eine
oder der andere der Parentaltypen gefunden wird, sowie alle möglichen "Zusammenhänge" zwischen benachbarten
oder entfernten Segmenten simuliert. Ein erster Satz von Parametern
gestattete es, für jede
sondierte Sequenzregion die relativen Wahrscheinlichkeiten zu modulieren,
dass der eine oder der andere der Parentaltypen gefunden wird. Ein
zweiter Satz von Parametern ermöglichte
es, eine (oder mehrere) genetische Verbindung(en) zwischen zwei
(oder mehreren) Sequenzfragmenten (entsprechend zwei oder mehreren
Sonden) einzuführen.
-
Simulations-
und statistische Analyseprogramme wurden zur Erzeugung der Matrices
verwendet, die verschiedenen Situationen von Zusammenhängen zwischen
Fragmenten entsprechen. Bei allen Tests stimmten die Ergebnisse
der statistischen Analysen mit den in das Simulationsprogramm eingegebenen
Parametern überein.
Das Verfahren der Kombination dieser Simulations- und Analysetechniken
wurde auch dazu verwendet, die statistischen Fluktuationen der Daten
mittels Durchführung
von Analysen von 10 wiederholten Simulations- und Analysezyklen für jeden Satz von Parametern
zu bestimmen. Der Zufallszahlengenerator wurde zwischen den Simulationen
jedes Mal reinitialisiert, so dass sie unabhängige Ereignisse darstellten.
-
Beispiel 2: Konstruktion einer Expressionsbank
durch rekombinatorische Mischung von DNA derselben Familie
-
Das
Prinzip der verwendeten Strategie ist in 1 beschrieben:
Sie kombiniert einen Schritt der rekombinatorischen DNA-Mischung
in vitro mithilfe einer modifizierten PCR mit einem zweiten Schritt
der rekombinatorischen Mischung in vivo durch Rekombination in der
Hefe. Dieser letzte Schritt wurde auch als effizientes Klonierungswerkzeug
verwendet. Damit erhält
man eine vollständige
Shuffling-Strategie, welche die Expression in einer eukaryotischen
Zelle und die funktionelle Selektion gestattet, ohne dass ein Zwischenklonierungsschritt
in E. coli benötigt
wird.
-
Der
erste Schritt (1) besteht aus einer doppelsträngigen Fragmentierung
des gesamten Plasmids mit DNAse I, was zu kleinen DNA-Fragmenten
führt (1A).
-
Die
Ergebnisse der Fragmentierung der Plasmide p1A1/V60 und p1A2/V60
(1A, Spuren 2 und 5; 3 und 6; 4 und
7) wurden in äquimolaren
Anteilen gemischt und einem einzigartigen PCR-Programm von "stufenweisen Hybridisierungen" (siehe Beispiel
1) unterworfen, das 9 Schritte der Hybridisierung von 61°C bis 41°C umfasste,
um die Rekombination zwischen Fragmenten mit wenig Homologie hervorzurufen.
Wie in 1B gezeigt, wurde unter solchen
Bedingungen ungeachtet der zu Beginn verwendeten Fragmente ein großer Schweif
(Smear) von hochmolekularer DNA gebildet.
-
Obwohl
sich herausgestellt hat, dass dieses Material aufgrund einer In-vivo-Rekombination
zwischen Fragmenten und der Wiederherstellung vollständiger und
funktioneller Hefevektoren (11 kb) für eine direkte Transformation
der Hefe eingesetzt werden kann (Ergebnisse nicht gezeigt), war
ein neuer PCR-Schritt unter Verwendung von Primern, die auf den
flankierenden cDNA-Sequenzen zur CYC1-Transkriptionsinitiation und den
PGK-Transkriptionsterminationssequenzen gelegen waren, notwendig,
um eine Bank einer vernünftigen Größe zu erhalten
(1C, Spuren 5, 6 und 7). Dieser letzte
Schritt führte
zu einer Amplifikation einer gut definierten DNA-Bande von etwa
1,9 kb, die "gemischterekombinierte" cDNA sowie die flankierenden
Regionen des Vektors enthielt.
-
Das
in 1C, Spur 6, gezeigte PCR-Produkt
wurde zur Cotransformation der Hefe mit an der Expressionsstelle
linearisiertem pYeDP60 verwendet, um die homologen Rekombinationseigenschaften
(Gap Repair) der Hefe zu nutzen.
-
Das
Cotransformation der cDNA-Bank mit einer vernünftigen Größe und des linearisierten Vektors
in die Hefe führte
zu einer Reihe von Rekombinationsereignissen, die bereits bei früheren homöologen Rekombinations-
oder Gap-Repair-Experimenten beobachtet worden waren (37, 38, 43).
Die Selektion basierte einzig auf der Rezirkularisation des Vektors
nach einem oder mehreren Rekombinationsereignissen. Die Experimente
ergaben etwa 10000 Klone.
-
Der
Großteil
der Hefeklone wurde mit mehreren Plasmiden transformiert. Tatsächlich wurde
nach Extraktion der DNA aus einer einzelnen Hefekolonie, Transformation
von E. coli und Segregation der Klone eine heterogene Population
von Plasmiden beobachtet.
-
Dadurch
lässt sich
die Komplexität
der Ausgangsbank auf zwischen 25000 und 100000 Mosaikstrukturen
für ein
einzelnes Hefetransformationsexperiment abschätzen. Die Bank kann als solche
zur funktionellen Selektion verwendet werden.
-
Ähnliche
Experimente unter Verwendung von DNA-Fragmenten mit niedrigeren Molekulargewichten (weniger
als 100 bp), wie in 1A, Spuren 1 und
5 beschrieben, führten
ebenfalls zu einer nutzbaren Bank, aber mit geringerer Effizienz.
Die DNAs mit höherem
Molekulargewicht (1A, Spuren 4 und
7) wurden aufgrund nicht zur Konstruktion einer Bank verwendet,
weil sie wahrscheinlich einen hohen Grad der Kontamination mit Parentalstrukturen
aufwiesen.
-
Beispiel 3: Statistische Analyse einer
Subpopulation der Bank
-
Die
Plasmid-DNA wurde aus der Hefebank präpariert und unter Verwendung
des auf dem Hefeplasmid vorhandenen Ampicillinresistenzmarkers zur
Transformation von E. coli verwendet. Dieser Schritt ermöglichte die
Segregation einzelner Plasmide, die zuvor als heterogene Population
in jeder Hefekolonie vorlagen. Für Strukturanalysen
wurde eine Matrix ausgehend von einer Mikrotiterplatte mit 384 Vertiefungen,
die 378 zufallsgemäß ausgewählte E.
coli-Klone enthielt, unter Verwendung von 6 über die gesamte Länge der
parentalen P450 verteilten Sonden konstruiert, die in 2 beschrieben
sind (SEQ ID Nr. 3 bis SEQ ID Nr. 8). Die restlichen Vertiefungen
wurden mit Bakterien beimpft, die zuvor mit Kontrollplasmiden transformiert
worden waren und die eine oder die andere der parentalen Sequenzen
(P450 1A1 oder 1A2) enthalten.
-
Die
sechs Sonden (22–36
Basen) wurden so gewählt,
dass sie abwechselnd an die beiden parentalen Sequenzen in Regionen
mit kleinen Sequenzähnlichkeiten
zwischen den beiden parentalen P450 hybridisieren: 3 Sonden gehörten zu
p1A1/V60 und 3 zu p1A2/V60. Jede Sonde wurde mit 32P
markiert und zur Hybridisierung der Filterreplicas (unter Bedingungen,
die spezifische Hybridisierungen begünstigten) verwendet. Die Experimente
wurden unter Verwendung verschiedener Kombinationen von Filtern
und Sonden wiederholt, um mögliche
Artefakte zu beseitigen. Die Analyse der Hybridisierungsintensitäten erfolgte
manuell. Die intermediären
Hybridisierungsintensitätsgrade
(in der Größenordnung
von 15% der Punkte) wurden als positive Reaktionen betrachtet. Diese
Reaktionen müssen
Fehlpaarungen eines Basenpaars aufgrund von Mutationen, die durch
die verschiedenen PCR-Schritte verursacht werden (was durch die
Sequenzierungsdaten (siehe weiter unten) bestätigt wurde), oder auch aufgrund
von Unterschieden in der Effizienz der DNA-Übertragung entsprechen.
-
3 zeigt
das gesamte Hybridisierungsmuster für die sechs Sonden. Die Häufigkeit
von Strukturen, die ein Hybridisierungsmuster ähnlich einem der Eltern aufweisen
(im folgenden als "Parentale" bezeichnet), (3A, dunkle Quadrate) beträgt für alle errechneten
Sonden in der Bank 11,4% für
die Strukturen, die P450 1A2 entsprechen, und 2,4% für die Strukturen,
die P450 1A1 entsprechen. Die Summe dieser beiden Häufigkeiten
(13,8%) ist größer als
der theoretische Wert von 3,1% ((0,5)6 +
(0,5)6), der einer vollständig zufallsgemäßen Rekombination
der parentalen Sequenzfragmente entspricht. Eine Darstellung der
verschiedenen Mosaikstrukturen in "Falschfarben" (nicht gezeigt) veranschaulicht den Überschuss
an parentalen Klonen des Typs 1A2 oder des Typs 1A1, legt aber eine
im Allgemeinen genügend
homogene Verteilung der verschiedenen Typen der Mosaikstrukturen
nahe.
-
Zu
dem Zweck, weiter in der Charakterisierung der Population voranzuschreiten,
wurde eine statistische Analyse unter Verwendung eines Programms
durchgeführt,
das auf Excel-Tabellenkalkulationen und Routinen in Visual Basic
basierte. Die Wahrscheinlichkeit, dass jede Parentalsequenz an jeder
der 6 sondierten Positionen vorhanden ist, wurde errechnet (Tabelle
1).
-
Diese
Häufigkeit
war genügend
homogen (0,56 ± 0,02
für die
Fragmente des Typs 1A2) für
die Gesamtheit der analysierten Segmente. Der kleine Überschuss
bei der Häufigkeit
für die
Segmente des Typs 1A2 spiegelt vermutlich den Fehler in der Bestimmung
der Anteile der parentalen DNA während
des Mischens der parentalen DNA-Fragmente
wider. Der theoretische Anteil an parentalen Sequenzen wurde erneut
mit den neuen Häufigkeitswerten
berechnet: 3,7% (0,58
6 + 0,42
6).
Dieser letzte Wert entspricht immer noch nicht dem Anteil der beobachteten
Parentalen (13,8%).
Sonde | Häufigkeit
von Typ 1A1 | Häufigkeit
von Typ 1A2 |
P1 | 0,48 | 0,52 |
P2 | 0,43 | 0,57 |
P3 | 0,45 | 0,55 |
P4 | 0,45 | 0,55 |
P5 | 0,44 | 0,56 |
P6 | 0,41 | 0,59 |
Mittelwert ± S. D. | 0,43 ± 0,02 | 0,56 ± 0,02 |
-
Tabelle
1: Häufigkeit
von Teilen der Mosaiksequenzen, die zu dem jeweiligen Parentaltyp
gehören,
an den sondierten Positionen. Die Sonden P1 bis P6 beginnen jeweils
an den folgenden Positionen der Sequenzen P450 1A1 oder 1A2: 3,
612, 683, 1377 und 1513 (siehe 2). Für jede Sonde
wurde die Anzahl an Hybridisierungssignalen in Bezug auf 1A1 oder
1A2 berechnet und durch die Gesamtzahl der getesteten Klone (378)
dividiert.
-
Um
die Population im Detail zu charakterisieren, wurde die Kurve der
kumulierten Häufigkeiten
für die Wahrscheinlichkeit,
dass 64 nachweisbare Klassen von Chimären beobachtet werden, berechnet
(5). Ein binärer
Code, der je nach der Art des jeweiligen Segments (1A1 oder 1A2)
willkürlich
einen Wert von 0 oder von 1 mit den Segmenten 1 bis 6 verbindet,
wurde für
jede Mosaikstruktur verwendet. Die parentalen Sequenzen 1A1 und
1A2 entsprechen den Codes 0 bzw. 63. Die experimentelle Kurve (5,
offene Kreise) hat ein ungleichmäßiges Aussehen
und enthält
fünf Stufen.
Das Auftreten dieser Stufen war vollständig unerwartet und unvorhersehbar,
weil sie nicht dem entsprechen, was im Falle einer unabhängigen Rekombination
zwischen den verschiedenen Fragmenten erwartet worden wäre.
-
Dann
wurden drei theoretische Kurven, wie im Beispiel 1 beschrieben,
unter Verwendung von Ansätzen
des Monte-Carlo-Typs (numerische Simulationen) unter Verwendung
verschiedener Hypothesen berechnet:
- (i) einer
gleichen Wahrscheinlichkeit, dass die verschiedenen Parentaltypen
in den Sequenzregionen gefunden werden, die den verschiedenen Sonden
entsprechen, und einer vollständigen
Unabhängigkeit
der Art jedes Sequenzsegments;
- (ii) der Hypothese (i), aber mit einer Wahrscheinlichkeit von
55,8%, dass Fragmente des Typs 1A2 in den Sequenzregionen gefunden
werden, die den verschiedenen Sonden entsprechen,;
- (iii) der Hypothese (ii), aber die Wahrscheinlichkeit einer
rekombinatorischen Mischung zwischen den verschiedenen Sequenzsegmenten
ist nicht mehr unendlich (unvollständige Mischung), jedoch mit
variablen Verbindungen zwischen der Art der aufeinander folgenden
Segmente.
-
Die
Kurve der kumulativen Häufigkeit
(5), die der Hypothese (i) entspricht, ist linear,
während
in dem Fall, der mit der Hypothese (ii) übereinstimmt, die Kurve abgerundet
ist, aber regelmäßig bleibt.
Diese Kurve (die den tatsächlichen
prozentualen Anteil der parentalen Fragmente widerspiegelt) gibt
effektiv das allgemeine Aussehen der Kurve wieder, die aus den experimentellen
Ergebnissen berechnet wurde, weist aber nicht die beobachteten Stufen
auf.
-
Viele
Kurven, die mit der Hypothese (iii) übereinstimmen, wurden mit verschiedenen
Typen von Verbindungen zwischen Segmenten erzeugt, und es wurde
eine Kurve gefunden, die der experimentellen Kurve entspricht (geschlossene
Kreise). Die Hinzufügung
der geeigneten genetischen Verbindungen zwischen den sondierten
Sequenzen macht es möglich,
eine Kurve zu bestimmen, die der experimentellen Kurve folgt. Selbstverständlich sollten
hier mehrere Lösungen
möglich
sein, aber eine Wahrscheinlichkeit einer Verbindung zwischen parentalen
Fragmenten von 0,1; 0,6; 0,85; 0,1; 0,1 zwischen den sondierten
Segmenten 1–2,
2–3, 3–4, 4–5 beziehungsweise
5–6 liefert
ein zufrieden stellendes Ergebnis. Diese Ergebnisse legen nahe,
dass die Wahrscheinlichkeit einer rekombinatorischen Mischung von
dem betrachteten Sequenzsegment abhängt, obwohl der Anteil jedes
Parentaltyps über
die Länge
der Sequenz homogen ist. So entsprechen die Stufen der erhaltenen
Kurve von Ergebnissen einer Korrelation zwischen verschiedenen Sequenzsegmenten.
-
Die
Berechnung der Häufigkeiten
jedes Parentaltyps in der Population wurde nach dem Einführen der Wahrscheinlichkeiten
für Zusammenhänge in das
Modell simuliert. Die aus 10 Computersimulationen erhaltenen durchschnittlichen
Ergebnisse liefern eine Häufigkeit
von Strukturen des Parentaltyps von 13,9 ± 1,3% (davon 9,8 ± 1,4%
für 1A2
und 4,1 ± 1,09%
für 1A1),
was recht gut mit den experimentellen Werten von 13,8% (11,4% für 1A2 und
2,4% für
1A1) übereinstimmt.
Die Heterogenität
der Wahrscheinlichkeit einer rekombinatorischen Mischung über die
Länge der
Sequenz kann somit recht gut für
den apparenten Überschuss
an Parentaltypstrukturen in der Population verantwortlich sein.
-
Um
die Existenz von Zusammenhängen
zwischen Fragmenten zu bestätigen,
wurden die Kombinationen zwischen den verschiedenen Sonden analysiert. 6 zeigt
die Häufigkeiten
von Zusammenhängen
von Sequenzregionen des gleichen Parentaltyps und eines unterschiedlichen
Parentaltyps für
jede der möglichen Kombinationen
von Sonden.
-
Aus 6A ist die Wahrscheinlichkeit von nahen
Verbindungen (zwischen angrenzenden Regionen) ersichtlich. Dies
zeigt deutlich, dass die Kombinationen P1-P2, P4-P5 und P5-P6 vollständige Unabhängigkeit voneinander
zeigen, während
im Gegensatz dazu die Kombinationen P2-P3 und P3-P4 eine Abnahme
der Häufigkeit
einer Verbindung zwischen unterschiedlichen Parentaltypfragmenten
ergeben.
-
6B zeigt die Verbindung zwischen zwei
Sonden, die durch eine Sonde getrennt sind. Wieder einmal kann man
eine Verbindung beobachten, die einen nahezu vollständigen Zusammenhang
zwischen P2 und P4 zeigt. Die anderen Kombinationen zeigen vollständige Unabhängigkeit
zwischen den Sonden.
-
Dies
gilt auch für
Kombinationen zwischen weiter entfernten Sonden (6C).
Andere Verbindungen über
große
Abstände
(P1-P5; P2-P6 und P1-P6) wurden berechnet, welche die gleichen Eigenschaften
wie diejenigen der 6C zeigen und hier
nicht gezeigt werden.
-
Diese
Ergebnisse bestätigen
das Vorhersagemodell, obwohl die Anzahl der Zusammenhänge im Modell
nur 2 beträgt. Überraschenderweise
stimmen die Werte, die für
diese Daten erhalten wurden, nicht mit einem genetischen Modell überein.
Tatsächlich
scheint der Abstand (zwischen den zusammenhängenden Segmenten) im Fall
von P2-P4 verglichen mit P2-P3 oder P3-P4 größer zu sein. Eine mögliche Erklärung für dieses Phänomen kann
mit der möglichen
Anzahl an Crossing Over in diesem Bereich (P2-P4) zusammenhängen.
-
Das
Auftreten der Stufen, die einer Korrelation zwischen Fragmenten
entsprechen, gestattet es unter Verwendung der oben beschriebenen
Analyse einen wichtigen Schluss zu ziehen. Wenn ein funktioneller Selektionsdruck
an die Klone angelegt wird, ist es tatsächlich wahrscheinlich, dass
er zu einer größeren Verzerrung
von Korrelationen zwischen verschiedenen Regionen der untersuchten
Gene führt.
So kann es möglich sein,
Muster von Zusammenhängen
zwischen mehreren Regionen des Gens zu definieren, die mit Aktivitäten und/oder
funktionellen Eigenschaften zusammenhängen. Dies sollte es ermöglichen,
den Vorgang der Definition von Proteinen mit verbesserten Funktionen
und/oder Eigenschaften zu beschleunigen, indem man Sequenzen auswählt, die
zusammengebracht werden müssen.
-
Beispiel 4: Selektion funktioneller Klone
-
Ein
Hauptvorteil der in der vorliegenden Erfindung entwickelten rekombinatorischen
Mischungsstrategie (Shuffling) ist, dass die Bank zum ersten Mal
direkt in einem eukaryotischen Mikroorganismus (Hefe) konstruiert
wird. Es ist außerdem
möglich,
Hefestämme
zu verwenden, deren Genom modifiziert worden ist, so dass die Wiederherstellung
komplexer proteinhaltiger (enzymatischer) Systeme möglich ist.
-
In
den erfindungsgemäßen Experimenten
wurden Hefestämme
verwendet, die ein modifiziertes Genom besitzen, so dass die Wiederherstellung
eines Membransystems mit einer Kopplung der verschiedenen Elemente
möglich
war. Die transformierten Hefeklone, die aus den Shuffling-Schritten
hervorgehen, können daher
als solche für
ein funktionelles Screening der Aktivität der konstruierten Mosaikproteine
verwendet werden.
-
Der
Verwendung der Primärbank
bietet außerdem
den Vorteil, dass sie aus Klonen besteht, die mehrere Mosaikplasmide
enthalten, was die Komplexität
der Bank beträchtlich
erhöht
und ein Screening der Aktivitäten
mehrerer Mosaikproteine durch Testen der Aktivität an nur einem Hefeklon ermöglicht.
-
Jedoch
ist deutlich, dass die aufgrund ihrer Funktionalität selektierten
Klone für
eine detaillier tere biochemische Studie einen zusätzlichen
Segregationsschritt erfordern. Diese Segregation kann durch wiederholte
Subklonierungen oder durch DNA-Extraktionen aus positiven Klonen,
gefolgt von einer Überführung in
E. coli und einer Retransformation der Hefe durchgeführt werden.
-
Die
folgenden Experimente zeigen die Durchführbarkeit einer direkten funktionellen
Selektion in vivo in Mikrotiterplatten.
-
Das
Verfahren basiert auf einer universellen Technik zum Nachweis der
aromatischen Phenole, die durch direkte In-vivo-Biokonversion der
aromatischen polyzyklischen Kohlenwasserstoffe in den Kulturen gebildet
werden, in Mikrotiterplatten mit 96 Vertiefungen mittels Färbung (siehe
Beispiel 1).
-
Die
Phenolderivate wurden anschließend
durch hydrophobe Bindungen (an C18-Harzen) direkt in den Mikrotiterplatten
extrahiert und nach der Kupplung mit Vorläufern von Diazo-Fast-Farbstoffen
mittels Kolorimetrie sichtbar gemacht (7).
-
Das
Screening der 1A1/1A2-Mosaikbank erfolgte unter Verwendung von Naphthalin,
das ein gutes Substrat für
die beiden parentalen Enzyme ist. Zu dem Zweck, den wirklichen Anteil
an funktionellen Strukturen zu bestimmen, wurde die Primärbank in
der Hefe in E. coli überführt, und
96 unabhängige
Klone (die somit nur einen Typ des Plasmids enthielten) wurden zur
Retransformation der Hefe in Mikrotiterplatten verwendet. Die Häufigkeit
funktioneller Klone unter derartigen Bedingungen (12% für die mit
Taq-DNA-Polymerase konstruierte Bibliothek) wurde durch herkömmliche
Verfahren unter Verwendung von Analysen der extrahierten Produkte mittels
HPLC bestätigt.
-
Aufgrund
dieser Kontrollen ließ sich
beobachten, dass der kolorimetrische Nachweis durchführbar ist und
eine ausreichende Empfindlichkeit besitzt, dass Klone mit einer
Naphthalinhydroxylase-Aktivität
ermittelt werden können,
die nur 10% der parentalen Aktivität darstellt (diese Unterschiede
in den Mengen an produzierten Metaboliten können auf Unterschiede in den
Aktivitäten
aber auch in der Expression der Mosaikenzyme zurückzuführen sein).
-
Das
verwendete Nachweisverfahren hat sich auch als effizient zum Nachweis
von Metaboliten erwiesen, die aus dem Metabolismus von Phenanthren
oder anderen aromatischen polyzyklischen Kohlenwasserstoffen hervorgehen.
-
Beispiel 5: Analysen von Sequenzen der
Bank
-
Fünf Klone,
die unabhängig
von funktionellen Kriterien zufallsgemäß ausgewählt wurden, und fünf Klone,
die aus der Subpopulation der funktionellen Klone ausgewählt wurden
(die Selektion siehe weiter unten), wurden sequenziert. Diese Strukturen
haben sich als Mosaike erwiesen, die außerdem zusätzliche Mutationen enthalten.
-
Die
Mosaikstrukturen sind in 7 dargestellt. Die Figur basiert
auf einer Ausrichtung zwischen den Mosaikstrukturen und den beiden
parentalen Sequenzen und wurde mithilfe eines geeigneten Programms
erstellt:
Für
jede Struktur wurde eine Nukleotidausrichtung mit den zwei parentalen
Sequenzen durchgeführt.
Diese Ausrichtungen wurden als Ausgangsdaten für ein Visulalisierungsprogramm
verwendet, das die Figur erzeugte, indem die Sequenzteile, die zu
den parentalen P450 1A1 bzw. 1A2 gehören, in Grau oder Schwarz gezeichnet
sind und dünne
vertikale Linien ober- oder unterhalb hinzugefügt wurden, um die Regionen
mit Nukleotidfehlpaarung mit der zweiten parentalen Struktur anzuzeigen.
Außerdem
zeigen Linien, die die Sequenzen kreuzen, die Sequenzpositionen
an, die mit keiner der beiden parentalen Sequenzen paaren und somit
als Mutationen betrachtet werden müssen. Die Software zeichnet
auch transparente horizontale Teile, die Sequenzsegmenten entsprechen,
für die
die Zugehörigkeit
zu dem einen oder dem anderen der Parentaltypen durch Analyse der
Sequenzen nicht bestimmt werden konnte.
-
Die
Analyse dieser 10 zufällig
ausgewählten
Sequenzen bestätigt
das Vorhandensein von Mosaikstrukturen für jede Sequenz. Durch Analyse
der Gesamtheit dieser Strukturen kann man eine mittlere Anzahl von
unterschiedlichen Fragmenten von 5,4 ± 2,2 feststellen. Die Größenverteilung
dieser Fragmente ist homogen. Von den 54 betrachteten Fragmenten
haben 32 Größen zwischen
0 und 200 bp, 12 zwischen 200 und 500 bp und 10 zwischen 500 und
1000 bp. Zusätzlich
sind etwa 60% der Fragmente kleiner als 200 bp, wobei die Größe des kleinsten
ausgetauschten Fragments etwa 20 bp beträgt. Diese Ergebnisse stimmen
mit der mittleren Größe der Ausgangsfragmente überein,
die aus der Fragmentierung mit DNAse I hervorgehen (200–300 bp,
siehe 1A).
-
Die
Analyse der Naphthalinhydroxylase-Aktivität der 5 zufällig ausgewählten Klone gezeigt, dass nur einer
aktiv war (Klon A1). Er wurde im Folgenden als aktiver Klon betrachtet,
genauso wie die 5, die anhand von Aktivitätskriterien ausgewählt wurden.
Der mittlere Anteil an Modifikationen pro Sequenz wurde für die aktiven
und inaktiven Klone berechnet. Für
die inaktiven Klone (A2, A3, A4 und A5) beträgt die mittlere Anzahl an Mutationen
14,0 (± 4,2).
Für die
aktiven Klone ist sie kleiner (8,3 ± 3,2). Dies ist aufgrund
des Selektionsverfahren (Aktivität)
nicht überraschend.
Tatsächlich
können
die Sequenzen von inaktiven Klonen vorzeitige Stoppcodons enthalten.
-
Schließlich wurden
die verschiedenen, während
der statistischen Analysen beobachteten Ergebnisse durch die Sequenzdaten
bestätigt.
Obwohl die Anzahl der sequenzierten Klone klein ist (10), liefern
die erhaltenen Daten außerdem
einen ausführlichen
Blick auf mehrere Mosaikstrukturen. Der bei den statistischen Analysen
beobachtete Zusammenhang zwischen Fragmenten (zwischen den Sonden
2, 3 und 4) wird auch in diesen Sequenzen beobachtet. Tatsächlich beobachtet
man keinen Austausch von Fragmenten im zentralen Abschnitt, der
diesen Sonden entspricht.
-
Der
erhöhte
Anteil an Mutationen stimmt mit einen vergleichsweise niedrigen
Anteil an funktionellen Strukturen (15%) in der Population überein.
Jedoch haben ähnliche
rekombinatorische Mischungsexperimente, die unter Verwendung zuverlässigerer
Enzyme als Tag-DNA-Polymerase,
wie Pfu- oder Dynazyme-EXT-DNA-Polymerase,
durchgeführt
wurden, einen höheren
Anteil (80–90%)
an funktionellen Strukturen ergeben. Der Anteil an Mutationen kann
folglich an die Wünsche
angepasst werden.
-
Die
vorstehenden Beispiele veranschaulichen einen Aspekt der Erfindung,
und der Fachmann kann die notwendigen Anpassungen vornehmen, um
die Lehren zu verallgemeinern, ohne sich vom Geist der Erfindung
zu entfernen.
-
LITERATUR
-
- 1. van der Meer et al. (1992) Microbiological Reviews, 56(4),
677-94.
- 2. Stemmer, W. P. (1994) Nature, 370(6488), 389-91.
- 3. Stemmer, W. P. (1994) Proc. Natl. Acad. Sci. USA, 91(22),
10747-51.
- 4. Crameri et al. (1997) Nature Biotechnology, 15(5), 436-8.
- 5. Zhang et al. (1997) Proc. Natl. Acad. Sci USA, 94(9), 4504-9.
- 6. Crameri et al. (1996) Nature Biotechnology, 14(3), 315-9.
- 7. Crameri et al. (1996) Nature Medicine, 2(1), 100-2.
- 8. Giver und Arnold (1998) Current Opinion in Chemical Biology,
2(3), 335-8.
- 9. Giver et al. (1998) Proc. Natl. Acad. Sci. USA, 95(22), 12809-13.
- 10. Kumamaru et al. (1998) Nature Biotechnology, 16(7), 663-6.
- 11. Moore et al. (1997) J. Mol. Biol., 272(3), 336-47.
- 12. Moore und Arnold (1996) Nature Biotechnology, 14(4), 458-67.
- 13. Yano et al. (1998) Proc. Natl. Acad. Sci. USA, 95(10), 5511-5.
- 14. Harayama, S. (1998) Trends In Biotechnology, 16(2), 76–82.
- 15. Crameri et al. (1998) Nature, 391 (6664), 288-91.
- 16. Nixon et al. (1998) Trends In Biotechnology, 16(6), 258-64.
- 17. Kimura et al. (1997) Journal of Bacteriology, 179(12), 3936-43.
- 18. Back, K. und Chappell, J. (1996) Proc. Natl. Acad. Sci.
USA, 93, 6841-5.
- 19. Campbell et al. (1997) Nat Biotechnol, 15(5), 439- 43.
- 20. Nelson et al. (1987) In Guenguerich, F. P. (Hrsg.), Mammalian
cytochrome P-450. CRC Press, Boca Raton and Florida. s, S. 19–79.
- 21. Harris, C. C. (1989) Carcinogenesis, 10(9), 1563-6.
- 22. Kadlubar et al. In Guenguerich, F. P. (Hrsg.), Mammalian
cytochrome P-450. CRC Press, Boca Raton and Florida. s, S. 81–130.
- 23. Buters et al. (1999) Drug Metab Rev, 31(2), 437-47.
- 24. Kawajiri et al. (1990) Princess Takamatsu Symposia, 21,
55–61.
- 25. Kawajiri et al. (1990) FERS Letters, 263(1), 131-3.
- 26. Kawajiri et al. (1993) Critical Reviews in Oncology-Hematology,
14, 77–87.
- 27. Mace et al. (1994) Molecular Carcinogenesis, 11(2), 65–73.
- 28. Joo et al. (1999) Chemistry & Biology, 6(10), 699– 706.
- 29. Shao und Arnold (1996) Current Opinion in Structural Biology,
6(4), 513-8.
- 30. Arnold, F. H. (1998) Nature Biotechnology, 16(7), 617-8.
- 31. Michnick, S. W. und Arnold, F. H. (1999) Nat Biotechnol,
17(12), 1159-60.
- 32. Kikuchi et al. (1999) Gene, 236(1), 159-67.
- 33. Kikuchi et al. (2000) Gene, 243(1–2), 133-7.
- 34. Ostermeier et al. (1999) Nat Biotechnol, 17(12), 1205-9.
- 35. Volkov et al. (1999) Nucleic Acids Res, 27(18), e18.
- 36. Okuta et al. (1998) Gene, 212(2), 221-8.
- 37. Pompon, D. und Nicolas, A. (1989) Gene, 83(1), 15– 24.
- 38. Mezard, C., Pompon, D. und Nicolas, A. (1992) Cell, 70(4),
659-70.
- 39. Cullin, C. und Pompon, D. (1988) Gene, 65(2), 203- 17.
- 40. Truan et al. (1993) Gene, 125(1), 49–55.
- 41. Pompon et al. (1997) J Hepatol, 26 Suppl 2, 81-5.
- 42. Urban et al. (1990) Biochimie, 72(6–7), 463-72.
- 43. Bellamine et al. (1994) Eur J Biochem, 225(3), 1005-13.
- 44. Sambrook et al. (1989) Molecular cloning: a laboratory manual.
2. Auf 1. Cold Spring Harbor Lab., Cold Spring Harbor, New York.
- 45. Lorimer, I. A. und Pastan, I. (1995) Nucleic Acids Res,
23(15), 3067-8.
- 46. Zhao, H. und Arnold, F. H. (1997) Nucleic Acids Research,
25(6), 1307-8.
- 47. Pompon et al. (1996) Methods Enzymol, 272, 51–64.
- 48. Pompon, D. (1988) Eur J Biochem, 177(2), 285-93.
- 49. Smith und Waterman (1981) Ad. App. Math. 2: 482
- 50. Needleman und Wunsch (1970) J. Mol. Biol. 48: 443
- 51. Pearson und Lipman (1988) Proc. Natl. Acad. Sci. USA 85:
2444
-
-