DE60133556T2

DE60133556T2 - Verbesserte kombinatorische genbanken durch rekombination in hefe und analyseverfahren

Info

Publication number: DE60133556T2
Application number: DE60133556T
Authority: DE
Inventors: Gilles Truan; Valerie Abecassis; Denis Pompon
Original assignee: Centre National de la Recherche Scientifique CNRS; Aventis Pharma SA
Current assignee: Centre National de la Recherche Scientifique CNRS; Aventis Pharma SA
Priority date: 2000-06-14
Filing date: 2001-06-13
Publication date: 2009-04-30
Anticipated expiration: 2021-06-14
Also published as: AU2001267639B2; KR20030027899A; JP2004506416A; DK1299532T3; NO331201B1; BR0111680B1; FR2810339A1; FR2810339B1; IL153345A0; ATE391776T1; ZA200209604B; US20020160380A1; NZ523222A; DE60133556D1; MXPA02012214A; NO20025962D0; CA2411740C; EP1299532A1; ES2301553T3; IL153345A

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Herstellung von kombinatorischen funktionellen Expressionsbanken ausgehend von einer kombinatorischen Bank von Nukleinsäuren, die zu derselben Genfamilie gehören, umfassend einen Klonierungsschritt durch Rekombination in Hefe. Die Erfindung betrifft außerdem ein Verfahren zur Herstellung funktioneller Mosaikproteine und zur Analyse einer kombinatorischen funktionellen Expressionsbank, indem für jedes der Mosaikproteine der Bank ein Sequenzfootprint bestimmt wird.
Die Verschiedenartigkeit der Funktionen von Proteinen kann als das Ergebnis der Evolution von Genen durch Mutations-, Rekombinations- und Selektionsereignisse angesehen werden (1, 2). Man hat verschiedene Techniken entwickelt, um zu versuchen, die verschiedenen Schritte der natürlichen Evolutionsvorgänge im Labormaßstab nachzubilden. Die herkömmlichen Ansätze der molekularen Evolution verwenden zufällige Mutations- und Rekombinationsschritte durch Polymerase-Ketten-Amplifikation (PCR) (2–5). Die molekulare Evolution ist ein Ansatz, den man in der Biotechnologie mit Erfolg zur Modifikation von Proteinfunktionen (5–12) und zur Erlangung eines besseren Verständnisses von den Mechanismen der Substraterkennung (13) verwendet hat. Die molekulare Evolution stellt einen effizienten Ansatz zum Verständnis der Rolle von Sequenzregionen für die Proteinfunktion dar, wenn diese Sequenzen nicht in sehr stark konservierten Regionen enthalten sind, wenn die dreidimensionale Struktur nicht bekannt ist oder wenn keinerlei Information aus Modellierungstechniken vorhanden ist (29).
Durch ein Verfahren zur Erzeugung chimärer Proteine, die von Cytochrom P450 stammen, durch In-vivo-Rekombination in Hefe konnten bereits früher zweiteilige Chimären erhalten werden, die einen erhöhte Monooxidase-Aktivität aufwiesen (Bellamine et al., 1994). In einer anderen Studie, die auf die Evolution einer Nukleotidsequenz in Abhängigkeit von einem bestimmten Merkmal abzielte, wurde ebenfalls die In-vivo-Rekombination eingesetzt ( EP 0934999 ). Dieses Mal wird die DNA vor dem Rekombinationsschritt fragmentiert, so dass eine Umlagerung zwischen homöologen Sequenzen möglich wird.
Zur Durchführung von Experimenten zur molekularen Evolution oder zur rekombinatorischen DNA-Mischung (DNA-Shuffling) geht man von einer Genbank aus, die durch Mutagenese einer einzelnen Sequenz erzeugt werden kann (14) oder die aus einer Gruppe bestehen kann, die zu derselben Familie oder Unterfamilie von Genen gehört (15). Die so genannte Technik der rekombinatorischen Mischung von Familien oder des "Familien-Shuffling" wurde als Mittel zur Beschleunigung der Evolutionsvorgänge beschrieben (16), welches das Auftreten unerwarteter Aktivitäten oder Eigenschaften in den erzeugten neuen Proteinen ermöglicht (14). Diese Technik gestattete somit die Erzeugung von Enzymen mit einer Verbindung interessierender parentaler Eigenschaften (17, 18), mit erhöhter thermischer Stabilität (14) oder mit neuen Substratspezifitäten (19).
Obwohl durch rekombinatorische Mischung von Genen derselben Familie (Familien-Shuffling) Verbesserungen erhalten werden können, welche die Evolutionsprozesse in vitro nachahmen, ist jedoch die Konstruktion zufallsgemäßer Banken von Mosaikstrukturen, die keine Verzerrungen im Hinblick auf die Wiedervereinigung eines Großteils der parentalen Strukturen beinhalten, immer noch ein kritischer Punkt.
Die Schwierigkeiten bei der Erlangung einer homogenen Bank mittels "Familien-Shuffling" nehmen stark zu, wenn die Ähnlichkeiten zwischen den verwendeten Ausgangssequenzen kleiner werden (30, 31). So wird oft eine relativ kleine Zahl (in der Größenordnung von 10%) an Chimären beschrieben (Kikuchi beschreibt 1% chimäre Strukturen für 2 Gene mit 84% Identität auf der Proteinebene unter Verwendung herkömmlicher DNA-Shuffling-Techniken (32)).
Man hat verschiedene Techniken entwickelt, um den Anteil an parentalen Strukturen zu verringern, darunter die Verwendung einzelsträngiger DNA als Ausgangspunkt für die rekombinatorische Mischung (was 14% chimäre Strukturen für 2 Gene mit 84% Identität auf Proteinebene liefert (33)) oder beschränkte enzymatische Fragmentierungen (32, 34), die ihrerseits viel höhere Anteile an Chimären liefern. Das letztere Verfahren hat jedoch den Nachteil, dass die enzymatisch erzeugten Fragmente keine zufallsgemäßen Fragmente sind, was zu einer Beschränkung der Anzahl an neuen Genstrukturen führt, die so hergestellt werden können.
Andere Gruppen haben die In-vivo-Rekombination in prokaryotischen Systemen verwendet, um Chimären zu erhalten (30, 35, 36). Diese Verfahren haben jedoch den Nachteil, dass die funktionelle Expression von Proteinen in E. coli nicht immer am besten geeignet ist, wenn es sich um eukaryotische Proteine und insbesondere Multiproteinkomplexe, Membranproteine oder jedes beliebige Protein handelt, das die eukaryotische zelluläre Maschinerie für seine Aktivität benötigt, handelt. Genauer gesagt, weisen bestimmte eukaryotische Proteine posttranslationale Modifikationen auf (Glycosylierung...), die in prokaryotischen Wirten nicht durchgeführt werden können.
Somit ist es eine Aufgabe der vorliegenden Erfindung, ein Verfahren zur Konstruktion kombinatorischer funktioneller Expressionsbanken ausgehend von Nukleinsäuren, die zu derselben Genfamilie gehören, bereitzustellen, wodurch Banken erhalten werden können, die die benötigte Komplexität, d. h. einen großen Teil der möglichen chimären Strukturen und einen relativ kleinen Anteil an parentalen Strukturen, aufweisen. Außerdem können mit dem erfindungsgemäßen Verfahren Banken erhalten werden, die eine bessere Expression der eukaryotischen Proteine gestatten.
Die vorliegende Erfindung offenbart auch ein Verfahren zur Analyse der Gensequenzen einer kombinatorischen Bank, die insbesondere durch das erfindungsgemäße Verfahren erhalten wird, wodurch jeder Sequenzvariante, die in der Bank vorhanden ist, ein "Footprint" zugeordnet werden kann. Durch dieses Analyseverfahren kann man in Kombination mit einem Verfahren zur Analyse der Funktionen und/oder Aktivitäten der Proteine der Bank die Sequenzstrukturen und die funktionellen Strukturen miteinander in Zusammenhang bringen. So kann die Kombination dieser beiden Verfahren dazu verwendet werden, die Mischung der genetischen Informationen "zu steuern", um interessierende Proteine auf gesteuerte, kontrolliertere, schnellere Weise und zu niedrigeren Kosten zu erhalten.
Folglich betrifft die vorliegende Erfindung ein Verfahren zur Konstruktion einer kombinatorischen funktionellen Expressionsbank ausgehend von einer Bank von Nukleinsäuren, die zu derselben Genfamilie gehören, dadurch gekennzeichnet, dass es folgende Schritte umfasst:

a. Einbringen der Bank von Nukleinsäuren in eine Hefe gleichzeitig mit einem Expressionsvektor,
b. Erhalten der funktionellen Expressionsbank durch Rekombination der kombinatorischen Bank von Nukleinsäuren mit dem Expressionsvektor in der Hefe.

Eine kombinatorische funktionelle Expressionsbank, die durch ein derartiges erfindungsgemäßes Verfahren erhalten wird, ist ebenfalls eine Aufgabe der Erfindung.
Vorzugsweise wird der Expressionsvektor, mit dem die Rekombination in der Hefe durchgeführt wird, an der üblichen cDNA-Klonierungsstelle linearisiert und besitzt Transkriptionspromotor- und -terminatorsequenzen, wobei die Rekombination an diesen Sequenzen stattfindet.
Die Nukleinsäurefragmente, die in der Bank vorkommen, die im Schritt a. in die Hefe eingeführt wird, können fragmentiert sein oder nicht. Wenn diese Fragmente fragmentiert sind, kann dadurch die Effizienz der In-vivo-Rekombination erhöht werden, was die Diversität der Bank erhöht, weil vor der Klonierung in den Expressionsvektor ein Rekombinationsereignis obligatorisch ist. Diese Punkte werden später noch besprochen.
Bei den Rekombinationsereignissen, die in der Hefe stattfinden, kann es sich um eine homologe Rekombination (zwischen identischen Sequenzen) oder eine homöologe Rekombination (zwischen Sequenzen, die einen genügenden Grad an Identität aufweisen) handeln.
Das erfindungsgemäße Verfahren ist auch dadurch sehr interessant, dass es zur Gewinnung der kombinatorischen Bank keinen Schritt der Passage durch einen Prokaryoten erfordert.
So lässt sich mit dem erfindungsgemäßen Verfahren eine kombinatorische Expressionsbank direkt in einem eukaryotischen Wirt erhalten, was einen gewissen Vorteil für die Expression von eukaryotischen Proteinen, insbesondere Membranproteinen oder Proteinen, die zu Multiproteinkomplexen gehören, darstellt.
Das erfindungsgemäße Verfahren betrifft folglich ein Verfahren zur Produktion besserer kombinatorischer Banken durch Rekombination in einer Hefe (CLERY, d. h. Combinational Library Enhanced by Recombination in Yeast).
Die Hefe (die auf genomischer Ebene modifiziert sein kann) wird ferner vorteilhaft als Werkzeug zur Expression (39) chimärer Gene verwendet, wodurch es möglich ist, die funktionelle Expression der durch dieses Verfahren erhaltenen, neuen eukaryotischen Proteine (insbesondere Multiproteinkomplexe oder Membranproteine) zu verbessern. Außerdem ermöglicht es eine genomische Modifikation des verwendeten Hefestamms, die natürliche Funktionsumgebung durch die Produktion anderer eukaryotischer Proteine, die für die Aktivität der erzeugten neuen Proteine, insbesondere im Falle von Multiproteinkomplexen, wesentlich sind, wiederherzustellen (und damit die Screening-Möglichkeiten zu optimieren).
Schließlich ermöglicht das erfindungsgemäße Verfahren den Erhalt einer kombinatorischen funktionellen Expressionsbank durch zwei verschiedene Schritte:

– die Klonierung der Nukleinsäurebank in den Expressionsvektor, der gleichzeitig in die Hefe eingeführt wird, durch homologe Rekombination in vivo, wodurch eine funktionelle Expressionsbank erhalten werden kann; die homologe oder homöologe Rekombination (zwischen ähnlichen, aber nicht identischen Sequenzen), die in vivo in der Hefe erfolgen kann, zwischen den verschiedenen Nukleinsäuren der kombinatorischen Bank, die in die Hefe eingeführt wurde, wodurch die Komplexität und die Diversität der erhaltenen kombinatorischen funktionellen Expressionsbank erhöht werden.

Wenn die Nukleinsäurefragmente der in die Hefe eingeführten kombinatorischen Bank fragmentiert werden und nicht die beiden rekombinogenen Enden besitzen, welche die Klonierung in den Expressionsvektor gestatten, ist es somit wesentlich, dass ein Rekombinationsereignis zwischen zwei passenden Fragmenten vor der Klonierung stattfindet.
Ebenso beobachtet man bei einem besonderen Fall der Durchführung des erfindungsgemäßen Verfahrens ein Zustandekommen mindestens eines homöologen Rekombinationsereignisses in der erhaltenen Bank, insbesondere weil die Nukleinsäuren der Bank, die ursprünglich in die Hefe eingeführt wurde, zu derselben Genfamilie gehören.
Unter "Nukleinsäuren, die zu derselben Genfamilie" gehören, werden im Sinne der Erfindung Nukleinsäuren verstanden, die mindestens 35%, vorzugsweise 40%, noch stärker bevorzugt 50% oder auch 70% Identität aufweisen. Diese Nukleinsäuren werden als zur gleichen Genfamilie gehörend bezeichnet, wenn sie die vorstehend genannten prozentualen Identitäten aufweisen, und können für Proteine codieren, die unterschiedliche Aktivitäten und/oder Funktionen aufweisen. Diese Aminosäuren können für Proteine codieren, die man natürlicherweise findet, oder können "künstliche" Nukleinsäuren, d. h. Nukleinsäuren, die für Proteine codieren, die man nicht in der Natur findet, sein. Insbesondere umfassen derartige "künstliche" Nukleinsäuren Fusionsproteine oder Proteine, die bereits durch rekombinatorische DNA-Mischungsverfahren erhalten worden sind.
Mit "prozentuale Identität" zwischen zwei Nukleinsäure- oder Aminosäuresequenzen soll im Sinne der vorliegenden Erfindung ein prozentualer Anteil der Nukleotide oder Aminosäurereste bezeichnet werden, der zwischen den beiden zu vergleichenden Sequenzen identisch ist und nach der besten Ausrichtung erhalten wird, wobei dieser prozentuale Anteil rein statistisch ist und die Unterschiede zwischen den beiden Sequenzen zufallsgemäß über ihre gesamte Länge verteilt sind. Mit "beste Ausrichtung" oder "optimale Ausrichtung" soll die Ausrichtung bezeichnet werden, für die die prozentuale Identität, die wie nachstehend bestimmt wird, am höchsten ist. Die Sequenzvergleiche zwischen zwei Nukleinsäure- oder Aminosäuresequenzen werden herkömmlicherweise durchgeführt, indem man diese Sequenzen vergleicht, nachdem sie optimal aneinander ausgerichtet wurden, wobei dieser Vergleich segmentweise oder mithilfe eines "Vergleichsfensters" durchgeführt wird, um lokale Regionen der Sequenzähnlichkeit zu identifizieren und zu vergleichen. Die optimale Ausrichtung von Sequenzen für einen Vergleich kann neben manuell auch mithilfe des Algorithmus der lokalen Homologie von Smith und Waterman (49), mithilfe des Algorithmus der lokalen Homologie von Needleman und Wunsch (50), mithilfe des Ähnlichkeitssucheverfahrens von Pearson und Lipman (51) und mithilfe von Computerprogrammen, die diese Algorithmen verwenden (GAP, BESTFIT, BLAST P, BLAST N, FASIA und TFASTA im Wisconsin Genetik-Softwarepaket, Genetics Computer Group, 575 Science Dr., Madison, WI), durchgeführt werden. Um die optimale Ausrichtung zu erhalten, wird vorzugsweise das BLAST-Programm mit der BLOSUM 62-Matrix verwendet. Man kann auch die Matrices PAM oder PAM250 verwenden.
Somit können mit der vorliegenden Erfindung in erhöhter Ausbeute rekombinatorische Banken aus Nukleinsäuren erhalten werden, die eine viel niedrigere Identität aufweisen als die Identität, die zurzeit im Stand der Technik erforderlich ist (im Allgemeinen größer als 70%).
Die im Schritt a. des erfindungsgemäßen Verfahrens in die Hefe eingeführte Nukleinsäurebank ist vorzugsweise selbst eine kombinatorische Nukleinsäurebank.
Diese Nukleinsäurebank ist vorzugsweise eine Mischung von PCR-Produkten, die durch Amplifikation einer kombinatorischen Bank von offenen Leserahmen unter Verwendung eines Paares von Primern erhalten werden, die in den Regionen gelegen sind, die diese offenen Leserahmen flankieren. Diese kombinatorische Bank von offenen Leserahmen wird ausgehend von DNA-Sequenzvarianten erhalten, die sich durch eine oder mehrere Mutationen unterscheiden und zu derselben Genfamilie im Sinne der Erfindung gehören.
Vorzugsweise wird ein einzelnes Paar von Primern zur Durchführung der PCR-Reaktion verwendet, wie im vorstehenden Abschnitt beschrieben, aber der Fachmann kann auch unterschiedliche Paare von Primern verwenden. Es ist jedoch praktischer, ein einzelnes Paar von Primern zu verwenden.
Man verwendet insbesondere ein Paar von Primern, das in den Translationspromotor- und -terminatorregionen in der Hefe gelegen ist, also in Regionen, welche die Expression offener Leserahmen in diesem Organismus ermöglichen. So ist es wahrscheinlich, dass es sich bei diesen Regionen, die auf allen DNA-Fragmenten der in die Hefe eingeführten Nukleinsäurebank vorliegen, um die Nukleinsäuresequenzen handelt, die an der Rekombination mit den gleichzeitig eingeführten homologen Sequenzen des Expressionsvektors beteiligt sind, wodurch eine Klonierung der offenen Leserahmen in den Vektor und die Herstellung der funktionellen Expressionsbank möglich werden.
Wie vorstehend genauer ausgeführt, ist die in die Hefe eingeführte Nukleinsäurebank vorzugsweise selbst eine kombinatorische Bank von Nukleinsäuren, die zu derselben Genfamilie im Sinne der Erfindung gehören. Man kann diese kombinatorische Bank durch herkömmliche DNA-Fragmentierungs- und Zusammenfügungsverfahren mittels Primerverlängerung (Primer Extension) erhalten.
Der DNA-Fragmentierungschritt wird mit Verfahren durchgeführt, die dem Fachmann bekannt sind, wie zum Beispiel Spaltung durch Restriktionsenzyme oder Zerstäubung. Es ist jedoch bevorzugt, dass die DNA durch partielle Spaltung mit einer DNAse, vorzugsweise DNaseI, fragmentiert wird, wodurch auf kontrolliertere Weise Fragmente einer gewünschten Größe erhalten werden können. Außerdem können dadurch effizient zufallsgemäße Fragmente erhalten werden, was mit anderen enzymatischen Fragmentierungstechniken nicht immer der Fall ist. In der Praxis und, um eine kombinatorische Bank mit einer großen Vielfalt an Kombination und einer großen Zahl an unterschiedlichen Mosaikproteinen zu erhalten, versucht man, Fragmente einer Größe zwischen 15 und 700 Basenpaaren (bp), vorzugsweise von 40 bis 500 bp, noch stärker bevorzugt von 100 bis 300 bp zu erhalten.
Die Fragmente werden mithilfe einer Primerverlängerungstechnik (Primer Extension) wieder miteinander vereinigt. Prinzipiell können die erhaltenen Fragmente aneinander hybridisieren, und durch Zugabe einer DNA-Polymerase kann eine Verlängerung der hybridisierten Fragmente und die Wiederherstellung funktioneller Gene durch mehrere Verlängerungszyklen erreicht werden.
Somit ist eine Aufgabe der vorliegenden Erfindung auch ein Verfahren zur Konstruktion einer kombinatorischen funktionellen Expressionsbank ausgehend von einer kombinatorischen Bank von Nukleinsäuren, die zu derselben Genfamilie gehören, umfassend die folgenden Schritte:

a. Einbringen der kombinatorischen Bank von Nukleinsäuren in eine Hefe gleichzeitig mit einem Expressionsvektor,
b. Erhalten der funktionellen Expressionsbank durch Rekombination der kombinatorischen Bank von Nukleinsäuren mit dem Expressionsvektor in der Hefe, wobei die kombinatorische Bank von Nukleinsäuren ein Gemisch von PCR-Produkten ist, die erhalten wurden durch Amplifikation einer kombinatorischen Bank von offenen Leserahmen unter Verwendung eines Primerpaares für die flankierenden Regionen dieser offenen Leserahmen, wobei die kombinatorische Bank ausgehend von homologen DNA oder Sequenzvarianten, die sich durch eine oder mehrere Mutationen unterscheiden, erhalten wird, und wobei die kombinatorische Bank von offenen Leserahmen erhalten wird durch Zusammenfügen mittels "Primer Extension" von Fragmentierungsprodukten von mindestens zwei offenen Leserahmen, die für funktionelle Proteine codieren, wobei die offenen Leserahmen untereinander eine Sequenzidentität von mehr als 40% aufweisen.

Der Fachmann kennt andere Techniken, die eine Rekombination zwischen DNA-Fragmenten und ihrem Gemisch (DNA-Shuffling) gestatten. Ein alternatives Verfahren ist deshalb das Oligoligationsverfahren, das gegebenenfalls mit thermostabilen Ligasen durchgeführt werden kann. Der Fachmann kann andere geeignete Verfahren für das Gemisch von Nukleinsäuren auswählen.
Für das Zusammenfügen der Fragmente wird vorzugsweise eine Amplifizierungsreaktion mittels Polymerase (PCR) verwendet. Die verschiedenen Schritte dieser Reaktion müssen kontrolliert sein, damit ein erheblicher Anteil an Mosaikgenen erhalten wird. So ist der Hybridisierungsschritt ein sehr wichtiger Schritt, damit die Möglichkeit sichergestellt wird, dass eine Rekombination zwischen Fragmenten erhalten wird, die eine relativ niedrige Sequenzidentität aufweisen, insbesondere bei niedrigen Werte von Genen, die zu derselben Genfamilie gehören (35% oder 40%). So ist die PCR-Reaktion, die vorzugsweise während des Zusammenfügungsschrittes durchgeführt wird, dadurch gekennzeichnet, dass jeder ihrer Zyklen mindestens zwei Hybridisierungsstufen, vorzugsweise mindestens vier Stufen durch in regelmäßigen Abständen abnehmende Temperaturen aufweist. Es ist ferner entscheidend, dass die Gesamtheit der Hybridisierungsschritte eine Gesamtdauer mehr als vier Minuten aufweist. Eine besondere Ausführungsform der PCR-Reaktion ist derart, dass jeder Zyklus mindestens vier Hybridisierungsstufen von mehr als 60 Sekunden durch in regelmäßigen Abständen abnehmende Temperaturen aufweist.
Die Erfinder haben tatsächlich gezeigt, dass es durch diese Zusammenfügungsbedingungen möglich ist, Fragmente zu erhalten, die größer sind als die Ausgangsnukleinsäuren. Insbesondere wenn die Ausgangsnukleinsäuren Expressionsvektoren sind, die Gene aus derselben Genfamilie tragen, können es die Fragmentierungs- und Zusammenfügungsschritte ermöglichen, dass in der Hefe DNA-Transformantenfragmente erhalten werden, d. h. die gleichzeitig die Mosaikgene und die Elemente des Vektors tragen, die ihre Replikation und Aufrechterhaltung in der Hefe ermöglichen. Dies gewährleistet, dass das Zusammenfügungsverfahren gemäß dem erfindungsgemäßen Verfahren extrem effizient ist (siehe auch die Beispiele).
Um eine funktionelle Expressionsbank in der Hefe zu erhalten, schlägt das erfindungsgemäße Verfahren das gleichzeitige Einführen eines Expressionsvektors und einer durch Familien-Shuffling erhaltenen Bank von Nukleinsäuren, die zu derselben Genfamilie gehören, wie in den vorstehenden Absätzen beschrieben, vor.
Um diese Bank von Nukleinsäuren zu erhalten, ist es von Interesse, dass man von Nukleinsäuren ausgeht, die zu derselben Genfamilie gehören und die bereits in einen Expressionsvektor kloniert worden sind. Vorzugsweise sind diese Nukleinsäuren sämtlich in den gleichen Expressionsvektor kloniert, und man verwendet diesen Vektor für das gleichzeitige Einbringen in die Hefe.
Nach dem vorstehend beschriebenen Zusammenfügungsschritt und in dem Maße, wie es die verwendeten Bedingungen erlauben, dass lange Fragmente erhalten werden, die insbesondere gleich groß sind wie oder größer sind als der Ausgangsvektor (d. h. länger als die Nukleinsäuren, die zu derselben Genfamilie gehören, die man mischen möchte), führt man deshalb eine PCR-Reaktion unter Verwendung eines Paares von Primern durch, die in den Regionen gelegen sind, welche die offenen Leserahmen flankieren. Es handelt sich vorzugsweise um Primer, die im Expressionsvektor gelegen sind, und sie werden insbesondere aus den Transkriptionspromotor- und -terminatorregionen des Vektors ausgewählt, wie vorstehend ausgeführt.
Als Ausgangs-DNA kann man somit jeden Vektor verwenden, der die Nukleinsäuren enthält, die zu derselben Genfamilie gehören und die man rekombinieren möchte. Man kann einen Mehrfachkopienvektor in Hefe oder einen Einzelkopievektor in Hefe oder einen Vektor wählen, dessen Eigenschaft als Mehrfach- oder Einzelkopievektor induzierbar ist. Man kann auch einen Expressionsvektor für eine Hefe oder einen Expressionsvektor für eine eukaryotische Zelle wählen, der als Shuttle für die Hefe dient. Man kann auch einen Vektor wählen, der die benötigten Elemente enthält, damit er sich in Escherichia coli autonom replizieren kann. Selbstverständlich kann man auch einen Vektor verwenden, der keine der vorstehend dargelegten Eigenschaften oder eine Kombination dieser Eigenschaften besitzt.
Vorzugsweise wird das erfindungsgemäße Verfahren durchgeführt, indem man als Ausgangsvektor den Expressionsvektor wählt, der gleichzeitig mit der Nukleinsäurebank in die Hefe eingebracht wird.
Dieser Expressionsvektor besitzt die Elemente, damit er sich in der Hefe als Mehrfachkopienvektor, Einzelkopievektor oder als konditioneller Vektor autonom replizieren kann. Er kann auch Gene besitzen, die seine Selektion auf geeigneten Medien gestatten, insbesondere Gene für eine Antibiotikaresistenz oder zur Komplementierung einer Auxotrophie, wenn die verwendete Hefe diese Eigenschaft aufweist.
Der Expressionsvektor kann ein Expressionsvektor für Hefe sein. In diesem Fall besitzt er Elemente, die eine effiziente Transkription und Translation in der Hefe erlauben. Es kann sich alternativ um einen Vektor für die Expression in einem anderen prokaryotischen oder eukaryotischen Wirt handeln, d. h. er kann die Elemente (Replikationsursprünge) besitzen, die es ihm ermöglichen, sich in diesem anderen Wirt autonom zu replizieren. Man wählt insbesondere einen Vektor, der eine Expression in einem höheren eukaryotischen Wirt, insbesondere einer Säugerzelle, gestattet. Ein derartiger Vektor besitzt zusätzlich zu einer Expressionskassette für einen höheren Eukaryoten einen Replikationsursprung und einen Selektionsmarker für Hefe.
Der Vektor enthält vorzugsweise einen Promotor, Translationsinitiations- und -terminationssignale sowie geeignete Transkriptionsregulationsregionen. Er kann gegebenenfalls bestimmte Signale besitzen, welche die Sekretion des translatierten Proteins steuern. Die Vektoren, die verwendet werden können, sind dem Fachmann bekannt.
Vorzugsweise wird als Vektor, der die zu derselben Genfamilie gehörenden Nukleinsäuren trägt, die man fragmentieren möchte, ein Vektor verwendet, dessen Größe, einschließlich der offenen Leserahmen, mehr als 7 Kilobasen (kb) beträgt. Man kann den gleichen Vektor für das gleichzeitige Einbringen in die Hefe und für den Rekombinationsschritt in der Hefe verwenden.
Die Rekombination erfolgt in der Hefe, vorzugsweise einer Hefe von der Gattung Saccharomyces, noch stärker bevorzugt S. cerevisiae. Man kann jedoch andere Hefearten verwenden, darunter Candida, Yarrovia, Kluyveromyces, Schizosaccharomyces, Torulopsis, Pichia und Hansenula. Der Fachmann wählt die geeignete Hefe je nach seinen Kompetenzen und Kenntnissen und der angestrebten Zielsetzung aus. Diese Hefe kann auf genomischer Ebene modifiziert werden, so dass sie exogene Proteine exprimiert, durch die die Mosaikproteine, die erzeugt werden sollen, komplementiert werden können.
Das erfindungsgemäße Verfahren hat mehrere Vorteile, die insbesondere anhand der Beispiele ersichtlich werden. Man kann jedoch mehrere davon zusammenfassen:

– das Verfahren erfordert zur Gewinnung der Bank keine Passage durch einen prokaryotischen Wirt, was die durchzuführenden Manipulationen vereinfacht;
– durch das erfindungsgemäße Verfahren können in einem einzigen Schritt die Klonierung der in die Hefe eingeführten Nukleinsäurebank in den Expressionsvektor und die Erhöhung der Diversität durch homologe oder homöologe Rekombination zwischen den verschiedenen Nukleinsäuren der in die Hefe eingeführten kombinatorischen Bank vorgenommen werden;
– wenn der Expressionsvektor ein Mehrfachkopienvektor ist, erhält man eine Mischung von Produkten in der Hefe, die aus mehreren Kopien des Vektors besteht, die jeweils ein anderes Mosaikgen aufweisen. Jeder erhaltene Hefeklon enthält somit einzeln eine Bank von Mosaikgenen, und dies macht es möglich, die Aktivitäten der verschiedenen Proteine schnell und effizient zu testen;
– wenn sich der Expressionsvektor auch in E. coli replizieren kann, kann man dann die Segregation der verschiedenen Plasmide durch Präparieren von Plasmid-DNA von mindestens einem der erhaltenen Hefeklone, Transformieren von E. coli mit der extrahierten Plasmid-DNA und Selektieren der transformierten Klone auf geeignetem Medium durchführen, so dass eine Unterscheidung von Elementen der kombinatorischen funktionellen Expressionsbank erhalten wird.

So kann der Fachmann, der die funktionellen Eigenschaften eines Proteins verbessern möchte, durch das erfindungsgemäße Verfahren eine kombinatorische funktionelle Expressionsbank in Hefe ausgehend von interessierenden Nukleinsäuren, die zu derselben Genfamilie gehören, herstellen. Er kann anschließend die Hefeklone testen, um diejenigen zu selektieren, für die die gewünschte Eigenschaft ersichtlich ist, und die wirklich interessanten Sequenzen erhalten, indem eine Diskriminierung mittels Passage in einem prokaryotischen Wirt durchgeführt wird.
Somit lassen sich mit dem erfindungsgemäßen Verfahren aktive funktionelle Mosaikproteine herstellen, die ihrerseits Aufgaben der Erfindung sind. Somit ist eine Aufgabe der Erfindung auch ein Verfahren zur Produktion aktiver funktioneller Mosaikproteine, dadurch gekennzeichnet, dass man eine kombinatorische funktionelle Expressionsbank durch ein erfindungsgemäßes Verfahren konstruiert, die Mosaikproteine exprimiert und die aktiven funktionellen Mosaikproteine durch Untersuchung ihrer Aktivität selektiert.
Vorzugsweise handelt es sich bei den Mosaikproteinen, die man erzeugen möchte, um Enzyme, die verbesserte Aktivitäten (Tehrmostabilität, neue Funktion, Modifikation der Funktion, Zunahme der Aktivität, Modifikation der Substratspezifität, Modifikation der Aktivität in einer exakten Umgebung, wie einem Lösungsmittel, einem pH...) besitzen. Die Verwendung des erfindungsgemäßen Verfahrens zur Erzeugung neuer Enzyme bietet viele Vorteile, weil die Aktivitäten der erzeugten neuen Proteine dann oft direkt in der Hefe getestet werden können. Somit verwendet man als Ausgangsnukleinsäuren vorzugsweise Nukleinsäuren, die zu derselben Genfamilie gehören und die für Enzyme codieren. Die erhaltenen aktiven Mosaikproteine werden dann als Enzymderivate bezeichnet.
Die Beispiele der vorliegenden Erfindung zeigen die Anwendung des Verfahrens auf die Erzeugung neuer Proteine, die von den P450-Cytochromen abstammen. Die P450-Cytochrome (P450) können eine große Vielfalt an Substraten erkennen und eine noch größere Anzahl an Reaktionen katalysieren. Diese Enzyme hat man in praktisch allen lebenden Organismen nachgewiesen (20). In Säugetieren sind die P450 an der Bildung der Steroidhormone beteiligt, spielen jedoch auch eine vorherrschende Rolle im Stoffwechsel von Medikamenten und Schadstoffen, die manchmal zu Toxizitäts- und chemischen Karzinogeneseereignissen führen können (20–22). Die menschlichen P450 1A1 und 1A2 haben eine Sequenzidentität in der Größenordnung von 70% und besitzen gewisse unterschiedliche Substratspezifitäten. Sie sind die aktivsten unter den P450 im Stoffwechsel chemischer Karzinogene (23) und sind beim Menschen im Fall von CYP1A1 an Lungenkrebs (24–26), im Fall von CYP1A2 an der Aktivierung von Promutagenen, die in der Nahrung (27) oder in durch Aflatoxin B1 induzierten Leberkrebserkrankungen enthalten sind, beteiligt. Die Gesamtheit der Eigenschaften der P450 von Säugern macht sie tatsächlich zu ausgezeichneten Kandidaten für die Anwendung dieser molekularen Evolutionstechniken (28).
Ein besonderer Fall der vorliegenden Erfindung betrifft folglich das erfindungsgemäße Verfahren, das außerdem dadurch gekennzeichnet ist, dass der für die rekombinatorische Mischung verwendete eukaryotische Expressionsvektor einen offenen Leserahmen enthält, der für ein eukaryotisches membranständiges Enzym codiert. Vorzugsweise wird das eukaryotische Enzym aus der Gruppe ausgewählt, die aus eukaryotischen P450-Cytochromen, eukaryotischen Konjugationsenzymen (Phase-II-Enzymen) und Mitgliedern der Familie der eukaryotischen ABC-Transporter besteht.
In diesem Fall kann es interessant sein, einen Hefestamm zu verwenden, der eine genetische Modifikation aufweist, die eine Überexpression von mindestens einem Protein ermöglicht, das aus der Gruppe ausgewählt ist, die aus einer endogenen oder exogenen P450-Reduktase, einem Adrenodoxin, einer Adrenodoxin-Reduktase, einem heterologen Cytochrom b5, einem Phase-II-Enzym (insbesondere einer Epoxid-Hydrolase) besteht. Derartige Stämme sind in Patent EP 595 948 beschrieben.
Diese Stämme gestatten es insbesondere, die natürliche Funktionsumgebung von eukaryotischen P450 wiederherzustellen (40, 41).
Durch Verwendung genetisch modifizierter Hefestämme ist es außerdem möglich, Proteinkomplexe mit mehreren fixierten Elementen (die von der Hefe konstitutiv exprimiert werden) und einem variablen Element (dem Produkt der Mosaikgene, die durch das erfindungsgemäße Verfahren erhalten werden) wiederherzustellen.
Das erfindungsgemäße Verfahren kann auch auf andere Proteine angewendet werden. Es kann zum Beispiel interessant sein, Rezeptoren zu erzeugen, wodurch die an der Erkennung und Bindung des Liganden beteiligten Sequenzen festgestellt werden können, oder chimäre Proteine, die auf den Zielproteinen von Antibiotika basieren, wodurch sich die Grade der Resistenz in Abhängigkeit von Mutationen feststellen lassen.
Üblicherweise ist es notwendig, dass man viele DNA-Shuffling"-Zyklen durchführt, bevor ein Protein erhalten wird, das die gewünschten Merkmale und/oder Eigenschaften aufweist. Im vorliegenden Fall ist es möglich, nach der Selektion der Hefeklone, welche die Proteine exprimieren, die eine Aktivität nahe der gewünschten Aktivität aufweisen, eine einfache PCR-Reaktion direkt an den Klonen unter Verwendung geeigneter Primer, welche die offenen Leserahmen flankieren, durchzuführen und eine neue rekombinatorische Mischung vorzunehmen, indem die Schritte des erfindungsgemäßen Verfahrens wiederholt werden.
Er ist jedoch wünschenswert, dass man die Geschwindigkeit verbessern kann, mit der die gewünschten Eigenschaften erhalten werden, indem eine Beziehung zwischen den Sequenzstrukturen der erhaltenen Mosaikproteine und den funktionellen Strukturen dieser Proteine hergestellt wird. Dies ermöglicht es dann, die DNA-Sequenzen des Gens oder die Verbindungen zwischen den Sequenzen leicht mit einer enzymatischen oder einer anderen Funktion (Anheftung eines Substrates, Thermophilie...) in Verbindung zu bringen.
Die vorliegende Erfindung betrifft folglich außerdem ein Verfahren zur Analyse einer kombinatorischen funktionellen Expressionsbank, dadurch gekennzeichnet, dass es folgende Schritte umfasst:

a. Transformation eines Escherichia coli-Stammes mit Plasmid-DNA, die aus dem Hefestamm oder einem Hefe-Pool extrahiert wurde,
b. Hybridisierung der Plasmid-DNA, die in den jeweiligen Escherichia coli-Einzelklonen enthalten ist, die am Ende von Schritt a. erhalten werden, mit einer oder mehreren Sonde(n), die für eine Parentalsequenz spezifisch ist/sind.

Dieses Verfahren, verfeinert durch die Schritte, die später noch beschrieben werden, kann an jeder kombinatorischen Bank von dem Zeitpunkt an verwendet werden, an dem die verschiedenen Nukleinsäuren, welche die Bank bilden, unterschieden werden.
Die Hybridisierung erfolgt an einem DNA-Makro- oder Mikroarray, wobei der Array entweder aus der Plasmid-DNA, die in den jeweiligen Escherichia-coli-Einzelklonen enthalten ist, die am Ende des Schrittes a. enthalten werden, oder aus einem PCR-Produkt davon oder aus den spezifischen Sonden, gebunden an einen festen Träger, besteht, wobei jede der Nukleinsäuren, anhand ihrer Position in dem Array wiedergefunden werden kann.
Im ersten Fall wird die Plasmid-DNA, die in jedem der Escherichia-coli-Einzelklone enthalten ist, die am Ende des Schrittes a. erhalten werden, oder ein PCR-Produkt davon, an einen festen Träger (Glas, Silizium, geeignete Membran (Nylon, Nitrocellulose) ...) gebunden. Das Verfahren zur Bindung der DNA ist dem Fachmann bekannt, und die DNA kann an den verwendeten Träger mehr oder weniger fest gebunden werden. Es ist nicht immer notwendig, die Plasmid-DNA aus den erhaltenen E.-coli-Klonen zu extrahieren, diese können direkt auf dem verwendeten festen Träger lysiert werden, oder die PCR zur Amplifikation der Fragmente, die den Mosaikgenen entsprechen, kann direkt an den Bakterienklonen ohne vorherige DNA-Extraktion durchgeführt werden.
Im zweiten Fall werden die Sonden an den festen Träger gebunden. Es gibt mehrere Verfahren zur Herstellung eines Trägers, der Sonden trägt. Man kann die Sonden synthetisieren und an den Träger binden (die Anordnung kann mechanisch, elektronisch, mittels Tintenstrahl... erfolgen) oder die Sonden direkt auf dem Träger (mittels photochemischer Anordnung oder Anordnung durch Tintenstrahl zum Beispiel) synthetisieren. Der Fachmann wählt das Verfahren, das für das gewünschte Ergebnis das geeignetste ist.
Je nach der Anzahl der verwendeten Sonden erhält man einen mehr oder weniger feinen Hybridisierungsfootprint für jeden der getesteten Klone. Je höher die Anzahl der Sonden, desto feiner ist der erhaltene Footprint. Man kann Sonden wählen, die sich homogen über die gesamte Länge des Gens verteilen. Alternativ kann es vorteilhaft sein, Sonden zu verwenden, die auf eine Gruppe von Sequenzregionen abzielen, von denen man weiß, dass sie für Regionen codieren, die für die Funktion und/oder die Aktivität des Proteins wichtig sind. So kann man einen gerichteten Sequenzfootprint erhalten.
Außerdem variieren die Sondenhybridisierungsbedingungen je nach dem Grad der Spezifität dieser Sonden für jede Parentalstruktur. Wenn zwei parentale Strukturen sich auf dem Fragment, das der Sonde entspricht, durch eine einzelne Base unterscheiden, muss man daher Bedingungen einer höheren Stringenz anwenden, als wenn die parentalen Strukturen sehr unterschiedlich sind. Der Fachmann kann die besten Hybridisierungsbedingungen insbesondere bestimmen, indem er der Lehre von Sambrook et al. folgt. Es soll ebenfalls hervorgehoben werden, dass bestimmte Mosaikgene eine schwächere Hybridisierungsintensität als andere Gene mit einer gegebenen Sonde liefern können. Tatsächlich kann die Effizienz der Übertragung der DNA auf den festen Träger mehr oder weniger effizient erfolgt sein, oder die Region des Gens, an welche die Sonde hybridisieren soll, ist wiederum eine Mosaikregion und besteht aus Fragmenten, die von unterschiedlichen "Eltern"-Genen stammen.
Man kann eine statistische Analyse der Hybridisierungsintensitäten mit einem geeigneten Computerprogramm durchführen. Das Programm wandelt vor der eigentlichen statistischen Analyse die Hybridisierungssignale zunächst durch ein System von Masken mit einer Booleschen XOR-Funktion in Daten eines Parentaltyps um.
Die Analyse der kombinatorischen Bank kann folgendermaßen erfolgen:

– Jeder erzeugten Nukleinsäuresequenz wird je nach der Fähigkeit der verwendeten Sonden zur Hybridisierung an diese Sequenz ein Code zugeordnet. Es kann vorteilhaft sein, eine binäre Codierung zu verwenden (0, wenn die sondierte Stelle einem bestimmten Parentaltyp entspricht, 1, wenn sie dem anderen Parentaltyp entspricht), aber andere Arten der Codierung können ebenfalls verwendet werden. So hat jede erzeugte Sequenz in der Bank eine individuelle "Signatur". Wenn 6 Sonden verwendet werden und man eine binäre Codierung verwendet, werden 2⁶ Möglichkeiten (von 000000 bis 111111) betrachtet.
– Die Häufigkeit jeder der so erhaltenen Signaturen wird dann mit der Häufigkeit verglichen, die erwartet wird, wenn die rekombinatorische DNA-Mischung völlig zufallsgemäß erfolgt wäre (im Fall von 6 Sonden beträgt die theoretische Häufigkeit jedes Musters dann 1/2⁶). Durch diese Analyse lässt sich für jede der sondierten Positionen ein "bevorzugter Elternteil" definieren (gewisse Korrekturen müssen manchmal eingebracht werden, insbesondere wenn die Anteile der parentalen Ausgangsnukleinsäuren nicht gleich sind).
– Die Untersuchung der Signaturen ermöglicht es auch, die Verhältnisse genauer anzugeben, die im Inneren eines gleichen Mosaiks vorliegen können, insbesondere die Verbindungen zwischen Parentaltypen, die zwischen jedem Segment gefunden werden können. Zum Beispiel muss man leicht feststellen können, dass eine Korrelation zwischen zwei nicht notwendigerweise benachbarten Nukleinsäuresegmenten erforderlich ist, damit eine biologische Funktion erhalten wird.
– Die Analyse kann ferner verfeinert werden, so dass Ergebnisse erhalten werden, die mehrere Hinweise liefern können. Die Beispiele veranschaulichen einen derartigen Schritt, indem sie ein Verfahren offenbaren, bei dem jede Signatur der Bank in eine Dezimalzahl umgewandelt wird und bei dem eine Kurve gezeichnet wird, welche die Dezimalzahl auf der X-Achse und die kumulierte Häufigkeit auf der Y-Achse aufweist. Durch Analyse dieser Kurve und ihre Modellierung mittels Simulation lassen sich ebenfalls interessante Hinweise auf die Wahrscheinlichkeit, dass ein bestimmter Typ der Parentalstruktur an einer gegebenen Stelle erhalten wird, sowie auf die Korrelationen erhalten, die zwischen verschiedenen Fragmenten bestehen.

Die beschriebenen statistischen Analysen werden aufgrund der Verwendung von Computerwerkzeugen erleichtert, deren Entwicklung dem Fachmann keine Probleme bereitet.
Simulationen von Korrelation zwischen verschiedenen Segmenten können durchgeführt werden, indem man je nachdem, welche Korrelationen gewünscht sind, mehr oder weniger zufällige Matrizes erzeugt. Zum Beispiel kann eine Matrix erzeugt werden, bei der ein Segment eine Wahrscheinlichkeit von mehr als 50% aufweist, dass es von dem gleichen Parentaltyp ist wie das benachbarte Segment. Die Anzahl an Matrizes, die so erzeugt werden können, ist extrem groß und kann es somit ermöglichen, einen Annäherungswert für die beobachteten Ergebnisse zu definieren.
Wenn man Korrelationen zwischen verschiedenen Segmenten beobachtet, ist es wahrscheinlich, dass das Anlegen einer funktionellen Selektion an die Population von Klonen (die folglich die Population von Sequenzen verringert, die das Screening passieren) zu einer Zunahme der Anzahl an Korrelationen und zu einer Entwicklung (Konvergenz) der erhaltenen statistischen Ergebnisse führt. Man sollte somit das Auftreten eines Musters erhalten, das für die angewendete Selektion charakteristisch ist, was eine Sequenzsignatur ergibt, die von der an das System angelegten funktionellen Selektion abhängig ist.
Zusammengefasst lässt sich sagen, dass die vorliegende Erfindung auch ein Verfahren zur Analyse von Hybridisierungsfootprints betrifft, die durch das vorstehend beschriebene Verfahren zur Analyse der kombinatorischen Bank erhalten werden können, dadurch gekennzeichnet, dass es folgende Schritte umfasst:

a. Berechnen der Häufigkeit des Auftretens jeder der möglichen Kombinationen,
b. Definieren einer Signatur der statistischen Verteilung der Kombinationen durch eine geeignete mathematische und statistische Verarbeitung.

So liefert die vorliegende Erfindung ein Mittel zur sehr effizienten Produktion von kombinatorischen funktionellen Expressionsbanken ausgehend von Nukleinsäuren, die zu derselben Genfamilie im Sinne der Erfindung gehören und die einen verhältnismäßig niedrigen Grad der Identität aufweisen können.
Außerdem hat die vorliegende Erfindung den Vorteil, dass man den Test der Aktivitäten der erzeugten Mosaikproteine ohne einen vorherigen Reinigungsschritt direkt an den erhaltenen Hefeklonen durchführen kann.
Die vorliegende Erfindung stellt ferner ein Verfahren zur Analyse kombinatorischer Banken bereit, das auf einer Hybridisierung und statistischen Analyse der erhaltenen Hybridisierungsfootprints basiert.
Die vorliegende Erfindung liefert folglich Werkzeuge, die zur Bestimmung von Zusammenhängen verwendet werden können, die zwischen den Sequenzstrukturen und den funktionellen Strukturen der Proteine bestehen können. Somit betrifft die vorliegende Erfindung auch ein Verfahren zur Bestimmung von Zusammen hängen zwischen Sequenzsignaturen und funktionellen Signaturen eines Proteins, dadurch gekennzeichnet, dass es folgende Schritte umfasst:

a. Herstellen einer kombinatorischen funktionellen Expressionsbank durch ein erfindungsgemäßes Verfahren,
b. Produzieren der aktiven funktionellen Mosaikproteine,
c. Analysieren der funktionellen und/oder der Aktivitätsunterschiede zwischen den Mosaikproteinen,
d. Analysieren der Nukleinsäuren, die den Mosaikproteinen entsprechen, durch ein erfindungsgemäßes Verfahren zur Analyse mittels Hybridisierung, gegebenenfalls gefolgt von einer statistischen Analyse durch ein erfindungsgemäßes Verfahren,
e. Verknüpfen der im Schritt d. beobachteten Unterschiede der Sequenzstruktur mit den im Schritt c. beobachteten funktionellen und/oder Aktivitätsunterschieden.

Die Durchführung dieses Verfahrens zur Identifikation der wichtigen Sequenzregionen oder der Zusammenhänge zwischen Sequenzregionen, die mit einer interessierenden Funktion einhergehen, ermöglicht die Vorhersage von Strukturen, die diese Funktion aufweisen, durch Ableitung der gesuchten Struktur in Abhängigkeit von der durch das vorstehend beschriebene Verfahren erhaltenen Struktur-Funktions-Beziehung.
So lassen sich Proteine erhalten, die verbesserte Eigenschaften besitzen, wie vorstehend beschrieben, oder Proteine, die eine große Substratanzahl erkennen ("generische" Enzyme), indem man die Mischungen von genetischen Informationen steuert, um interessierende schneller und effizienter Proteine zu erhalten.
Die verschiedenen, im Stand der Technik beschriebenen Verfahren gestatten es, interessierende Proteine durch Wiederholung der rekombinatorischen DNA-Mischungen zu erhalten, wobei man die erhaltenen Proteine immer feineren Screenings unterwirft. Durch die vorliegende Erfindung, die es gestattet, die Strukturen und die Funktionen der erhaltenen Mosaikpro teine miteinander in Zusammenhang zu bringen, können neue rekombinatorische Gemische durchgeführt werden, indem als Ausgangsnukleinsäuren nur die Nukleinsäuren verwendet werden, von denen festgestellt wurde, dass sie die interessierenden Strukturen oder Organisationen von Strukturen enthalten.
Somit betrifft die vorliegende Erfindung ein Verfahren zum erhalt eines Proteins, das verbesserte Eigenschaften besitzt, dadurch gekennzeichnet, dass es folgende Schritte umfasst:

a. Konstruieren einer kombinatorischen funktionellen Expressionsbank durch ein erfindungsgemäßes Verfahren,
b. Analysieren der kombinatorischen funktionellen Expressionsbank,
c. Analysieren der im Schritt b. erhaltenen Hybridisierungsfootprints durch ein erfindungsgemäßes Verfahren,
d. Bestimmen der Zusammenhänge zwischen den Sequenzstrukturen und den funktionellen Strukturen der Proteine durch Vergleich der Hybridisierungsfootprints mit den Eigenschaften der entsprechenden Mosaikproteine,
e. Vorhersagen der interessierenden Strukturen oder der Organisationen von Strukturen in den Mosaikproteinen,
f. Wiederholen der Schritte a. bis e. unter Verwendung der Nukleinsäuren als Ausgangsnukleinsäuren zur Erzeugung der kombinatorischen funktionellen Expressionsbank, welche die im Schritt e. identifizierten interessierenden Strukturen oder Organisationen von Strukturen tragen, eine ausreichende Anzahl von Malen, um das Protein zu erhalten, das die gesuchten verbesserten Eigenschaften besitzt.

Schritt f. besteht aus der Wiederholung der vorhergehenden Schritte, bis ein Protein identifiziert werden kann, das die gewünschten Eigenschaften aufweist. Die vorliegende Erfindung sollte es möglich machen, die Anzahl an Zyklen zur Herstellung einer kombinatorischen Bank – zur Analyse der Proteine verglichen mit den Verfahren des Standes der Technik zu verringern.
Die durch das beschriebene Verfahren erhaltenen Proteine sind ebenfalls eine Aufgabe der Erfindung.
Die Erfindung betrifft außerdem ein Verfahren zur Bestimmung einer Struktur eines wichtigen Proteins als Reaktion auf einen Selektionsdruck ausgehend von einer kombinatorischen funktionellen Expressionsbank, die durch ein erfindungsgemäßes Verfahren erhalten wird, für dessen Elemente eine Signatur erhalten wurde, umfassend folgende Schritte:

– Standardisieren der Bank durch Homogenisieren der Signaturen, zum Beispiel durch Aussortieren mithilfe einer geeigneten Robotervorrichtung. Dieser Schritt stellt sicher, dass sich jeder Footprint mit der gleichen Wahrscheinlichkeit in der standardisierten Bank befindet.
– Anlegen eines Selektionsdrucks,
– Analysieren der erhaltenen Expressionsbank, indem die erfindungsgemäßen Verfahren zur Analyse von Sequenzsignaturen durchgeführt werden,
– Untersuchen der Veränderungen der Sequenzsignaturen, die durch den Selektionsdruck an der anfänglichen standardisierten Bank induziert werden, und Ableiten der Strukturen, die als Reaktion auf den Selektionsdruck selektiert werden oder gegen die selektiert wird, daraus.

Es soll darauf hingewiesen werden, dass durch die Normalisierung der Bank vor dem Anlagen des Selektionsdrucks tatsächlich eine viel größere Diversität durch Screening der gleichen Anzahl an Klonen gescreent werden kann, als wenn man nicht standardisieren würde. Tatsächlich kann man feststellen, dass bestimmte Strukturen (wie durch die Footprints analysiert) mit höheren Wahrscheinlichkeiten vorliegen als man es im Fall einer zufälligen Mischung erwarten würde. Somit gestattet es die Standardisierung, den Einfluss dieses Problems zu verringern.
Die folgenden Beispiele sind zur Veranschaulichung der Erfindung auf die Erzeugung neuer P450-Cytochrome beschränkt. Sie sollten jedoch nicht so betrachtet werden, dass sie die Erfindung und insbesondere den Typ der Proteine und Nukleinsäuren beschränken, die bei den in der vorliegenden Erfindung beschriebenen Verfahren verwendet werden können. Der Fachmann kann die erfindungsgemäßen Verfahren somit leicht durchführen, indem er andere Gene für die in den Beispielen beschriebenen Gene für P450-Cytochrome einsetzt.
BESCHREIBUNG DER FIGUREN
1: Prinzip der Konstruktion der Banken. A: Spur 1, DNA-Marker (mit Pst I gespaltene λ-DNA); die Spuren 2, 3, 4 und 5, 6, 7 entsprechen jeweils den mit DNAse I gespaltenen Plasmiden p1A1/V60 und p1A2/V60. Die Spuren 2 und 5 entsprechen der Fragmentierung mit 0,0112 Einheiten, die Spuren 3 und 6 mit 0,0056 Einheiten und die Spuren 4 und 7 mit 0,0028 Einheiten DNAse I pro μg DNA. B: Zusammenfügungsreaktion. Spur 1, DNA-Marker; die Spuren 2, 3 und 4 entsprechen den Zusammenfügungsreaktionen zwischen Fragmenten von p1A1/V60 und p1A2/V60, indem jeweils die Reaktionen der Spuren 2 und 5, 3 und 6 bzw. 4 und 7 gemischt wurden. C: Amplifikationsreaktion. Spur 1, DNA-Marker; die Spuren 2, 3 und 4 entsprechen jeweils der Amplifikation mit den Plasmiden PYeDP60, p1A1/V60 und p1A2/V60; die Spuren 5, 6 und 7 entsprechen Amplifikation, bei denen die zuvor zusammengefügten DNAs als Matrize verwendet werden (Spuren B2, B3 und B4). Die in Spur 6, Bild C, dargestellte Bande wurde gereinigt und als solche zur Cotransformation von S. cerevisiae mit dem zuvor linearisierten Plasmid pYeDP60 verwendet. Man beobachtet das Vorliegen von Rekombinationsereignissen zwischen den verschiedenen Nukleinsäuren der Bank, die in die Hefe eingeführt wurde.
2: Die jeweiligen Positionen und Sequenzen der sechs Sonden, die zur Herstellung der Bankcharakterisierungsmatrices verwendet wurden. Die Zahlen oberhalb oder unterhalb entsprechen der 5'-Position der Ausrichtung jeder Sonde an den Sequenzen. Die oberen und die unteren Sonden hybridisieren mit den Sequenzen von P450 1A1 bzw. P450 1A2. Die senkrechten Striche in dem zentralen Kasten stellen alle Fehlpaarungspositionen zwischen der Sequenz von P450 1A1 und P450 1A2 dar.
3: Die Hybridisierungsergebnisse wurden in Microsoft Excel verarbeitet, wobei eine Matrix mit 384 Punkten mit dem folgenden Farbcode erzeugt wurde: die dunklen Quadrate stellen die Strukturen dar, die für die Sequenzregionen, die den sechs Sonden entsprechen, an die Strukturen der Parentaltypen (1A1 oder 1A2) angepasst sind, und die hellen Quadrate stellen Mosaikstrukturen dar.
4: Experimentelle und theoretische kumulierte Häufigkeiten für die Beobachtung der 64 möglichen Typen von Mosaikstrukturen. Die horizontale Achse entspricht einer Codierung der Mosaikstrukturen unter Verwendung von N = P1 + 2·P2 + 4·P3 + 8·P4 + 16·P5 + 32·P6, wobei P1 bis P6 je nach der Hybridisierung mit den Sequenzen 1A1 bzw. 1A2 die Werte 0 oder 1 annehmen. Die offenen Kreise stellen die experimentellen Kurven dar, die aus den Hybridisierungszuständen der Matrix von 384 Klonen mit den sechs Oligonukleotidsonden abgeleitet wurden. Die durchgezogene Kurve entspricht den theoretischen Kurven unter der Annahme eines homogenen Anteils von 0,56:0,44 für die parentalen Sequenzen 1A2 und 1A1 und einer perfekten Mischung (Fehlen von Kreuzkorrelation). Die gestrichelte Kurve stellt die gleiche Kurve für einen Anteil von 50:50 für die parentalen Sequenzen 1A1 und 1A2 dar. Die schwarzen Kreise stellen die theoretische Kurve dar, die durch Simulationen unter der Annahme eines homogenen Anteils von 0,56:0,44 für die parentalen Sequenzen 1A2 und 1A1, aber mit einer Wahrscheinlichkeit für parentale Verbindungen von 0,1:0,6:0,85:0,1:0,1 zwischen den sondierten Segmenten 1–2, 2–3, 3–4, 4–5 bzw. 5–6, erhalten wird. Eine Verbindung wird wie folgt definiert: 0 entspricht Unabhängigkeit und 1 einer vollständigen Verbindung.
5: Darstellung der parentalen und rekombinanten Häufigkeiten für eine Verbindung zwischen zwei Sonden. Die Häufigkeit jeder Verbindung wurde mit einem der in Microsoft Excel erzeugten Makros festgestellt. Die Summe der vier unterschiedlichen (parentalen und rekombinanten) Häufigkeiten ist immer 1. A: Verbindung zwischen zwei benachbarten Sonden; B: Verbindung zwischen Sonden, die durch eine Sonde getrennt sind; C: Verbindung zwischen entfernten Sonden (die durch zwei oder drei Sonden getrennt sind). Die schwarzen und dunkelgrauen Histogramme stellen die parentalen Verbindungen dar, während hellgrau und leicht dunkelgrau die rekombinanten Verbindungen dargestellt sind.
6: Kolorimetrischer Nachweis von funktionell kompeteten Mosaikstrukturen für die Oxidation von Naphthalin. Die Biokonversion wird in 1 ml Hefekultur in Gegenwart von 1,6 mM Naphthalin durchgeführt. Die Extraktion in der festen Phase und die Entwicklung der Färbung werden vollständig auf Mikrotiterplatten durchgeführt, wie in den Beispielen beschrieben. Eine dunkle Färbung zeigt die positiven Klone an.
7: Schematische Darstellung der Sequenzen von 10 zufällig ausgewählten Mosaikstrukturen: A in der Gesamtpopulation; B: in der Subpopulation der aktiven Klone. Für jede Struktur wurde eine Ausrichtung der Nukleotide mit den beiden parentalen Sequenzen durchgeführt. Diese Ausrichtungen wurden als Ausgangsdaten für ein Sequenzanalyseprogramm und ein Visualisierungsprogramm verwendet, das die Abbildung erzeugte. Die grauen und schwarzen Regionen entsprechen den Sequenzen, die zu den parentalen P450 1A1 bzw. 1A2 gehören. Die oberen oder unteren dünnen vertikalen Striche zeigen die Nukleotidfehlpaarungsregionen mit der zweiten Parentalstruktur. Die Markierungen, die die Sequenzen kreuzen, zeigen die Sequenzpositionen, die mit keiner der beiden parentalen Sequenzen paarten und somit Mutationen entsprechen müssen. Die horizontalen transparenten Teile entsprechen Sequenzsegmenten, für die die Zugehörigkeit zu dem einen oder anderen der Parentaltypen durch Sequenzanalyse nicht festgestellt werden konnte.
BEISPIELE
Beispiel 1: Verfahren
1.A: Stämme, Plasmide und Molekularbiologie
Zwei S.-cerevisiae-Stämme wurden verwendet: W303-1B, auch als W(N) bezeichnet (Mat a; ade2-1; his3, leu2, ura3, trp1, can^R, cyr⁺), und W(R), der von W(N) durch Insertion des induzierbaren GAL10-CYCl-Promotors stromaufwärts der endogenen P450-Reduktase der Hefe (YRED) abgeleitet ist. Dieser Stamm wurde zuvor von Truan et al. (40) und in dem Patent EP 595 948 beschrieben, die hier durch Bezugnahme aufgenommen sind.
Der verwendete E.-coli-Stamm war DH5-1 (F', recA1, gyrA96, thi-1, hisR17, supE44, λ^–). Die verwendeten Expressionsvektoren waren p1A1/V60 (42) und p1A2/V60 (43, hier durch Bezugnahme aufgenommen); diese beiden Vektoren wurden durch Insertion der menschlichen ORFs CYP1A1 und CYP1A2 zwischen die BamHI/KpnI- bzw. BamHI/EcoRI-Restriktionsstellen von pYeDP60 konstruiert. Diese beiden Expressionsvektoren enthalten ferner URA3 und ADE2 als Selektionsmarker und stellen die offenen Leserahmen (ORFs) unter die Kontrolle des GAL10-CYC1-Promotors und des PGK-Terminators (39, hier durch Bezugnahme aufgenommen). Alle verwendeten Medien wurden zuvor in den hier durch Bezugnahme aufgenommenen Dokumenten (40, 42) beschrieben.
Die DH5-1-Bakterien wurden entsprechend dem von Sambrook et al. beschriebenen Protokoll (44), das hier durch Bezugnahme aufgenommen ist, elektrokompetent gemacht, und die Zellen wurden gemäß den Empfehlungen des Herstellers des Elektroporationsgerätes (Biorad) transformiert. Diese Zellen wurden auf festen LB-Medien selektiert, die 50 μg/ml Ampicillin enthielten.
Hefetransformation
Nach einer Vorkultur für 12 Stunden in 5 ml YPGA-Medium (für den Stamm W(N)) oder YPLA-Medium (für den Stamm W(R)) wurden die Zellen in 50 ml YPGA-Medium verdünnt, um eine endgültige Dichte von 2.10⁶ Zellen/ml zu erhalten. Sechs Stunden später wurden die Zellen zweimal mit sterilem Wasser und einmal mit TE-Lithiumacetat-Puffer (10 mM Tris-HCl, pH 7,5, 1 mM EDTA, 100 mM Lithiumacetat) gewaschen. Die Zellen werden anschließend in 1 ml TE-Lithiumacetat-Puffer resuspendiert.
Die zu transformierende DNA sowie 50 μg Lachssperma-DNA (zuvor ultraschallbehandelt und bei 95°C denaturiert) und 350 μl einer 40%igen (w/v) PEG 4000-Lösung wurden dann zu 50 μl der vorstehend erhaltenen Losung von Zellen hinzugefügt. Diese Lösung wurde dann bei 30°C für 30 Minuten inkubiert und einem Hitzeschock bei 42°C für 45 Minuten unterworfen. Nach Zentrifugation wurde der Überstand entfernt und die Zellen in 200 μl einer 0,1 M NaCl-Lösung resuspendiert. Die Zellen wurden dann auf einem festen SWA6-Medium selektiert (39, 42, hier durch Bezugnahme aufgenommen).
Extraktion der Hefe-Plasmid-DNA
Die Kolonien werden in 1 ml Puffer A resuspendiert, der 2% (v/v) Triton X-100, 50 mM Tris-HCl, pH 8,0, 50 mM EDTA und 200 mM NaCl enthält. Dann wurde 1 Volumen Glaskugeln (Braun Scientifics, 0,45 mM Durchmesser) hinzugefügt und die Lösung für 2 Minuten mit 300 μl eines Phenols/Chloroform/Isoamylalkohol-Gemischs (50:49:1, bezogen auf Vol.) kräftig gevortext. Nachdem Abnehmen der wässrigen Phase wurde die DNA mit Ethanol ausgefällt und in 50 μl Wasser resuspendiert.
Sequenzen
Fünf aus der Ausgangsbank stammende Bakterienklone und fünf funktionelle Klone wurden zufällig ausgewählt und sequenziert. Die Sequenzen wurden entweder von ESGS (ESGS, Gruppe Cybergene, Evry Frankreich) oder unter Verwendung des ABI-Kits und des ABI-Sequenziergerätes entsprechend den Protokollen des Herstellers (Perkin Elmer) hergestellt.
1.B: Rekombinatorische DNA-Mischung auf Basis von modifizierter PCR
Die verwendete Technik stammt von derjenigen, die von Stemmer beschrieben wurde (2, 3, 15) und hier durch Bezugnahme aufgenommen ist. Die zufallsgemäße Fragmentierung mit DNAse I (Grade II, Sigma-Aldrich) in Gegenwart von Mn²⁺ wird mit den Modifikationen durchgeführt, die von Lorimer und Pastan (45) und Zhao (46) beschrieben wurden, hier durch Bezugnahme aufgenommen.
2,5 μg von jeder Plasmid-DNA (P1A1/V60 und P1A2/V60) wurden separat in einem Puffer, der 50 mM Tris-HCl, pH 7,4, 10 mM MnCl₂ enthielt, in einem Endvolumen von 40 μl resuspendiert. Die DNAse I wurde in drei unterschiedlichen Konzentrationen (0,0112 U/μg DNA, 0,0056 U/μg DNA und 0,0028 U/μg DNA) hinzugefügt. Die Spaltung wurde bei 20°C für 10 Minuten durchgeführt und die DNAse I durch Erhitzen bei 90°C für 10 min inaktiviert. Die erhaltenen Fragmente wurden auf einer Centrisep-Säule (Princeton Separation Inc., Philadelphia, NJ) gereinigt.
Während der Zusammenfügungsreaktion wurden die gereinigten Fragmente (10 μl jedes fragmentierten Plasmids) durch eine PCR-Reaktion in 40 μl unter Verwendung von 2,5 U Taq-Polymerase (Stratagene) amplifiziert.
Das verwendete PCR-Programm bestand aus: 1 Zyklus der Denaturierung bei 96°C für 1,5 Minuten; 35 Zyklen von (30 s Denaturierung bei 94°C, 9 unterschiedlichen Hybridisierungsschritten im Abstand von 3°C von 65°C bis 41°C und jeweils 1,5 Minuten und einem Verlängerungsschritt für 1,5 Minuten bei 72°C) und schließlich 7 Minuten bei 72°C.
Die zweite Amplifikationsreaktion wurde mit einem im GAL10-CYC1-Promotor gelegenen 5'-Primer (SEQ ID Nr. 1) und einem im PGK-Terminator gelegenen 3'-Primer (SEQ ID Nr. 2) durchgeführt.
1.C: Konstruktion und Charakterisierung der Bank
Die PCR-Amplifikationsprodukte wurden mit einem Elektrophoresegel aufgetrennt und dann gereinigt. Die DNAs wurden unter Verwendung von In-vivo-Rekombination (Gap Repair) in Hefe (37, 38, 43, 47, 48) in pYeDP60 inseriert. Die Cotransformation des Stammes W303-1B mit 1/20 des PCR-Produkts (Insert) und 0,025 μg pYeDP60, der zuvor mit den Restriktionsenzymen EcoRI und BamHI linearisiert worden war, wurde durchgeführt.
Die aus der Hefe extrahierte DNA wurde zur Transformation des E.-coli-Stammes DH5-1 unter Verwendung der von dem Plasmid bereitgestellten Ampicillinresistenz verwendet. 378 Vertiefungen einer Mikrotiterplatte mit 384 Vertiefungen wurden mit zufallsgemäß aus der Bank ausgewählten, unabhängigen Bakterienkolonien beimpft, 3 Vertiefungen mit DH5-1-Bakterien, die zuvor mit p1A1/V60 transformiert worden waren, und die restlichen 3 Vertiefungen mit DH5-1, die mit p1A2/V60 transformiert waren. Nach 24-stündigem Wachstum in TB-Medium (44), das 100 μg/ml Ampicillin enthielt, wurden die 384 Vertiefungen dann auf sechs N+-Nylonmembranen (Amersham) übertragen. Die Filter wurden jeweils auf ein festes LB-Medien gelegt, das 100 μg/ml Ampicillin enthielt. Nach 12-stündigem Wachstum, erfolgten die Lyse der Bakterienkolonien, das Fixieren und Denaturieren der DNA, die Vorhybridisierung der Filter entsprechend dem vom Hersteller (Amersham) vorgesehenen Protokoll.
11 pmol der Oligonukleotide wurden zu 3,3 pmol mit ³²P markiertem γ-ATP, 2 μl Polynukleotidkinase und 18 μl Puffer (New England Biolabs) hinzugefügt. Das Ganze wurde 2 Std. bei Raumtemperatur inkubiert. Die Vorhybridisierung der Filter wurde gemäß dem vom Hersteller vorgesehenen Protokoll durchgeführt. Die markierte Sonde wird in einen Hybridisierungschlauch gegeben, der einen der Filter enthält, und das Ganze wird für 12 Std. bei 42°C inkubiert. Die Filter werden anschließend in einer Lösung aus 2 X SSPE/0,1% SDS für 10 min gewaschen. Die Filter wurden durch Autoradiografie gemäß einem bekannten Protokoll analysiert.
Jede Sonde wurde ein zweites Mal markiert und mit einem anderen Filter hybridisiert, um die Reproduzierbarkeit der Ergebnisse zu gewährleisten.
1.D: Selektion von Klonen, die funktionelle P450 enthalten
Die Bakterienkolonien wuchsen 24 Stunden lang in Mikrotiterplatten mit 96 Vertiefungen. Die DNA-Extraktion wurde unter Verwendung des Protokolls für das Multiscreen-Gerät zur DNA-Minipräparation mittels Filtration in Mikrotiterplatten mit 96 Vertiefungen (Millipore) durchgeführt. Jede gereinigte DNA wurde zur Transformation des Hefestammes W(R) in einer Mikrotiterplatte mit 96 Vertiefungen verwendet, und die Zellen wurden auf festen SWA6-Medien selektiert.
Nach 3-tägigem Wachstum bei 30°C wurde 1 ml flüssiges SWA5-Medium mit einem Aliquot jeder Kolonie in einer Deepwell-Mikrotiterplatte mit 96 Vertiefungen (ABGene) für 15 Stunden angeimpft. Das Medium wurde anschließend entfernt und durch 1 ml YPLA-Medium mit 1,6 mM Naphthalin (Merck) ersetzt.
Für jede Kultur wurde das Kulturmedium anschließend in die entsprechenden Vertiefungen einer Multiscreen-Mikrotiterplatte mit 96 Vertiefungen (MABV N12, Millipore) überführt, die 90 μl Octadecyl-funktionalisiertes C18-Silicagel-Harz (Aldrich) enthielten. Nach einer Filtration des Kulturmediums unter Vakuum sind das Substrat und die Reaktionsprodukte an das Siliziumdioxid gebunden. Das Harz wurde anschließend zweimal mit Wasser gewaschen, und die Metaboliten wurden mit 50 μl Isopropanol eluiert. Nach Zugabe von 20 μl einer Lösung von 2 mg/ml Diazo-Blue-B (Fluka) wurde die Farbreaktion beobachtet, die durch Kopplung zwischen den Diazo-Vorläufern und den aus dem Kulturmedium extrahierten Phenolen erzeugt wurde.
1.E: Statistische Analysen
Für jede Sonde wurde eine Matrix konstruiert, welche die Hybridisierungsintensitäten der 384 Klone darstellte. Die Hybridisierungsintensitäten wurden visuell analysiert, wobei der umgebende Hintergrund berücksichtigt wurde. Die Punkte, die den lokalen Hintergrund der negativen Punkte sehr stark übertrafen, wurden als Positive betrachtet, selbst wenn sie weniger intensiv waren als die am stärksten positiven Punkte. Diese intermediären Reaktionen können auf eine partielle Fehlpaarung der Sonde (infolge der PCR-Schritte) oder auch auf eine weniger gute Übertragung bestimmter Punkte auf den Filter zurückzuführen sein. Die Mehrdeutigkeiten wurden mittels Durchführung einer Hybridisierung eines anderen Filters mit der gleichen Sonde aufgelöst.
Die sechs Matrices mit 384 Vertiefungen wurden in Microsoft-Excel-Tabellenkalkulationen eingetragen, und eine statistische Analyse wurde mit in Microsoft Visual Basic geschriebenen Excel-Makros und unter Wiederaufnahme der in der Beschreibung dargelegten Analyseschritte durchgeführt. Das Programm wandelt vor der statistischen Analyse zunächst die Hybridisierungssignale durch ein System von Masken mit einer Booleschen XOR-Funktion in Daten eines Parentaltyps um. Die statistischen Analysen erfolgten entsprechend den in der Beschreibung aufgezählten Schritten.
Numerische Simulationen wurden unter Verwendung eines Zufallszahlengenerators und von Wahrscheinlichkeitsberechnungsroutinen erzeugt. Das Programm kann derart angepasst werden, dass es alle möglichen Verzerrungen in der Wahrscheinlichkeit, dass für die Sequenzregionen, die jeder der Sonden entsprechen, der eine oder der andere der Parentaltypen gefunden wird, sowie alle möglichen "Zusammenhänge" zwischen benachbarten oder entfernten Segmenten simuliert. Ein erster Satz von Parametern gestattete es, für jede sondierte Sequenzregion die relativen Wahrscheinlichkeiten zu modulieren, dass der eine oder der andere der Parentaltypen gefunden wird. Ein zweiter Satz von Parametern ermöglichte es, eine (oder mehrere) genetische Verbindung(en) zwischen zwei (oder mehreren) Sequenzfragmenten (entsprechend zwei oder mehreren Sonden) einzuführen.
Simulations- und statistische Analyseprogramme wurden zur Erzeugung der Matrices verwendet, die verschiedenen Situationen von Zusammenhängen zwischen Fragmenten entsprechen. Bei allen Tests stimmten die Ergebnisse der statistischen Analysen mit den in das Simulationsprogramm eingegebenen Parametern überein. Das Verfahren der Kombination dieser Simulations- und Analysetechniken wurde auch dazu verwendet, die statistischen Fluktuationen der Daten mittels Durchführung von Analysen von 10 wiederholten Simulations- und Analysezyklen für jeden Satz von Parametern zu bestimmen. Der Zufallszahlengenerator wurde zwischen den Simulationen jedes Mal reinitialisiert, so dass sie unabhängige Ereignisse darstellten.
Beispiel 2: Konstruktion einer Expressionsbank durch rekombinatorische Mischung von DNA derselben Familie
Das Prinzip der verwendeten Strategie ist in 1 beschrieben: Sie kombiniert einen Schritt der rekombinatorischen DNA-Mischung in vitro mithilfe einer modifizierten PCR mit einem zweiten Schritt der rekombinatorischen Mischung in vivo durch Rekombination in der Hefe. Dieser letzte Schritt wurde auch als effizientes Klonierungswerkzeug verwendet. Damit erhält man eine vollständige Shuffling-Strategie, welche die Expression in einer eukaryotischen Zelle und die funktionelle Selektion gestattet, ohne dass ein Zwischenklonierungsschritt in E. coli benötigt wird.
Der erste Schritt (1) besteht aus einer doppelsträngigen Fragmentierung des gesamten Plasmids mit DNAse I, was zu kleinen DNA-Fragmenten führt (1A).
Die Ergebnisse der Fragmentierung der Plasmide p1A1/V60 und p1A2/V60 (1A, Spuren 2 und 5; 3 und 6; 4 und 7) wurden in äquimolaren Anteilen gemischt und einem einzigartigen PCR-Programm von "stufenweisen Hybridisierungen" (siehe Beispiel 1) unterworfen, das 9 Schritte der Hybridisierung von 61°C bis 41°C umfasste, um die Rekombination zwischen Fragmenten mit wenig Homologie hervorzurufen. Wie in 1B gezeigt, wurde unter solchen Bedingungen ungeachtet der zu Beginn verwendeten Fragmente ein großer Schweif (Smear) von hochmolekularer DNA gebildet.
Obwohl sich herausgestellt hat, dass dieses Material aufgrund einer In-vivo-Rekombination zwischen Fragmenten und der Wiederherstellung vollständiger und funktioneller Hefevektoren (11 kb) für eine direkte Transformation der Hefe eingesetzt werden kann (Ergebnisse nicht gezeigt), war ein neuer PCR-Schritt unter Verwendung von Primern, die auf den flankierenden cDNA-Sequenzen zur CYC1-Transkriptionsinitiation und den PGK-Transkriptionsterminationssequenzen gelegen waren, notwendig, um eine Bank einer vernünftigen Größe zu erhalten (1C, Spuren 5, 6 und 7). Dieser letzte Schritt führte zu einer Amplifikation einer gut definierten DNA-Bande von etwa 1,9 kb, die "gemischterekombinierte" cDNA sowie die flankierenden Regionen des Vektors enthielt.
Das in 1C, Spur 6, gezeigte PCR-Produkt wurde zur Cotransformation der Hefe mit an der Expressionsstelle linearisiertem pYeDP60 verwendet, um die homologen Rekombinationseigenschaften (Gap Repair) der Hefe zu nutzen.
Das Cotransformation der cDNA-Bank mit einer vernünftigen Größe und des linearisierten Vektors in die Hefe führte zu einer Reihe von Rekombinationsereignissen, die bereits bei früheren homöologen Rekombinations- oder Gap-Repair-Experimenten beobachtet worden waren (37, 38, 43). Die Selektion basierte einzig auf der Rezirkularisation des Vektors nach einem oder mehreren Rekombinationsereignissen. Die Experimente ergaben etwa 10000 Klone.
Der Großteil der Hefeklone wurde mit mehreren Plasmiden transformiert. Tatsächlich wurde nach Extraktion der DNA aus einer einzelnen Hefekolonie, Transformation von E. coli und Segregation der Klone eine heterogene Population von Plasmiden beobachtet.
Dadurch lässt sich die Komplexität der Ausgangsbank auf zwischen 25000 und 100000 Mosaikstrukturen für ein einzelnes Hefetransformationsexperiment abschätzen. Die Bank kann als solche zur funktionellen Selektion verwendet werden.
Ähnliche Experimente unter Verwendung von DNA-Fragmenten mit niedrigeren Molekulargewichten (weniger als 100 bp), wie in 1A, Spuren 1 und 5 beschrieben, führten ebenfalls zu einer nutzbaren Bank, aber mit geringerer Effizienz. Die DNAs mit höherem Molekulargewicht (1A, Spuren 4 und 7) wurden aufgrund nicht zur Konstruktion einer Bank verwendet, weil sie wahrscheinlich einen hohen Grad der Kontamination mit Parentalstrukturen aufwiesen.
Beispiel 3: Statistische Analyse einer Subpopulation der Bank
Die Plasmid-DNA wurde aus der Hefebank präpariert und unter Verwendung des auf dem Hefeplasmid vorhandenen Ampicillinresistenzmarkers zur Transformation von E. coli verwendet. Dieser Schritt ermöglichte die Segregation einzelner Plasmide, die zuvor als heterogene Population in jeder Hefekolonie vorlagen. Für Strukturanalysen wurde eine Matrix ausgehend von einer Mikrotiterplatte mit 384 Vertiefungen, die 378 zufallsgemäß ausgewählte E. coli-Klone enthielt, unter Verwendung von 6 über die gesamte Länge der parentalen P450 verteilten Sonden konstruiert, die in 2 beschrieben sind (SEQ ID Nr. 3 bis SEQ ID Nr. 8). Die restlichen Vertiefungen wurden mit Bakterien beimpft, die zuvor mit Kontrollplasmiden transformiert worden waren und die eine oder die andere der parentalen Sequenzen (P450 1A1 oder 1A2) enthalten.
Die sechs Sonden (22–36 Basen) wurden so gewählt, dass sie abwechselnd an die beiden parentalen Sequenzen in Regionen mit kleinen Sequenzähnlichkeiten zwischen den beiden parentalen P450 hybridisieren: 3 Sonden gehörten zu p1A1/V60 und 3 zu p1A2/V60. Jede Sonde wurde mit ³²P markiert und zur Hybridisierung der Filterreplicas (unter Bedingungen, die spezifische Hybridisierungen begünstigten) verwendet. Die Experimente wurden unter Verwendung verschiedener Kombinationen von Filtern und Sonden wiederholt, um mögliche Artefakte zu beseitigen. Die Analyse der Hybridisierungsintensitäten erfolgte manuell. Die intermediären Hybridisierungsintensitätsgrade (in der Größenordnung von 15% der Punkte) wurden als positive Reaktionen betrachtet. Diese Reaktionen müssen Fehlpaarungen eines Basenpaars aufgrund von Mutationen, die durch die verschiedenen PCR-Schritte verursacht werden (was durch die Sequenzierungsdaten (siehe weiter unten) bestätigt wurde), oder auch aufgrund von Unterschieden in der Effizienz der DNA-Übertragung entsprechen.
3 zeigt das gesamte Hybridisierungsmuster für die sechs Sonden. Die Häufigkeit von Strukturen, die ein Hybridisierungsmuster ähnlich einem der Eltern aufweisen (im folgenden als "Parentale" bezeichnet), (3A, dunkle Quadrate) beträgt für alle errechneten Sonden in der Bank 11,4% für die Strukturen, die P450 1A2 entsprechen, und 2,4% für die Strukturen, die P450 1A1 entsprechen. Die Summe dieser beiden Häufigkeiten (13,8%) ist größer als der theoretische Wert von 3,1% ((0,5)⁶ + (0,5)⁶), der einer vollständig zufallsgemäßen Rekombination der parentalen Sequenzfragmente entspricht. Eine Darstellung der verschiedenen Mosaikstrukturen in "Falschfarben" (nicht gezeigt) veranschaulicht den Überschuss an parentalen Klonen des Typs 1A2 oder des Typs 1A1, legt aber eine im Allgemeinen genügend homogene Verteilung der verschiedenen Typen der Mosaikstrukturen nahe.
Zu dem Zweck, weiter in der Charakterisierung der Population voranzuschreiten, wurde eine statistische Analyse unter Verwendung eines Programms durchgeführt, das auf Excel-Tabellenkalkulationen und Routinen in Visual Basic basierte. Die Wahrscheinlichkeit, dass jede Parentalsequenz an jeder der 6 sondierten Positionen vorhanden ist, wurde errechnet (Tabelle 1).
Diese Häufigkeit war genügend homogen (0,56 ± 0,02 für die Fragmente des Typs 1A2) für die Gesamtheit der analysierten Segmente. Der kleine Überschuss bei der Häufigkeit für die Segmente des Typs 1A2 spiegelt vermutlich den Fehler in der Bestimmung der Anteile der parentalen DNA während des Mischens der parentalen DNA-Fragmente wider. Der theoretische Anteil an parentalen Sequenzen wurde erneut mit den neuen Häufigkeitswerten berechnet: 3,7% (0,58⁶ + 0,42⁶). Dieser letzte Wert entspricht immer noch nicht dem Anteil der beobachteten Parentalen (13,8%).

Sonde Häufigkeit von Typ 1A1 Häufigkeit von Typ 1A2

P1 0,48 0,52

P2 0,43 0,57

P3 0,45 0,55

P4 0,45 0,55

P5 0,44 0,56

P6 0,41 0,59

Mittelwert ± S. D. 0,43 ± 0,02 0,56 ± 0,02
Tabelle 1: Häufigkeit von Teilen der Mosaiksequenzen, die zu dem jeweiligen Parentaltyp gehören, an den sondierten Positionen. Die Sonden P1 bis P6 beginnen jeweils an den folgenden Positionen der Sequenzen P450 1A1 oder 1A2: 3, 612, 683, 1377 und 1513 (siehe 2). Für jede Sonde wurde die Anzahl an Hybridisierungssignalen in Bezug auf 1A1 oder 1A2 berechnet und durch die Gesamtzahl der getesteten Klone (378) dividiert.
Um die Population im Detail zu charakterisieren, wurde die Kurve der kumulierten Häufigkeiten für die Wahrscheinlichkeit, dass 64 nachweisbare Klassen von Chimären beobachtet werden, berechnet (5). Ein binärer Code, der je nach der Art des jeweiligen Segments (1A1 oder 1A2) willkürlich einen Wert von 0 oder von 1 mit den Segmenten 1 bis 6 verbindet, wurde für jede Mosaikstruktur verwendet. Die parentalen Sequenzen 1A1 und 1A2 entsprechen den Codes 0 bzw. 63. Die experimentelle Kurve (5, offene Kreise) hat ein ungleichmäßiges Aussehen und enthält fünf Stufen. Das Auftreten dieser Stufen war vollständig unerwartet und unvorhersehbar, weil sie nicht dem entsprechen, was im Falle einer unabhängigen Rekombination zwischen den verschiedenen Fragmenten erwartet worden wäre.
Dann wurden drei theoretische Kurven, wie im Beispiel 1 beschrieben, unter Verwendung von Ansätzen des Monte-Carlo-Typs (numerische Simulationen) unter Verwendung verschiedener Hypothesen berechnet:

(i) einer gleichen Wahrscheinlichkeit, dass die verschiedenen Parentaltypen in den Sequenzregionen gefunden werden, die den verschiedenen Sonden entsprechen, und einer vollständigen Unabhängigkeit der Art jedes Sequenzsegments;
(ii) der Hypothese (i), aber mit einer Wahrscheinlichkeit von 55,8%, dass Fragmente des Typs 1A2 in den Sequenzregionen gefunden werden, die den verschiedenen Sonden entsprechen,;
(iii) der Hypothese (ii), aber die Wahrscheinlichkeit einer rekombinatorischen Mischung zwischen den verschiedenen Sequenzsegmenten ist nicht mehr unendlich (unvollständige Mischung), jedoch mit variablen Verbindungen zwischen der Art der aufeinander folgenden Segmente.

Die Kurve der kumulativen Häufigkeit (5), die der Hypothese (i) entspricht, ist linear, während in dem Fall, der mit der Hypothese (ii) übereinstimmt, die Kurve abgerundet ist, aber regelmäßig bleibt. Diese Kurve (die den tatsächlichen prozentualen Anteil der parentalen Fragmente widerspiegelt) gibt effektiv das allgemeine Aussehen der Kurve wieder, die aus den experimentellen Ergebnissen berechnet wurde, weist aber nicht die beobachteten Stufen auf.
Viele Kurven, die mit der Hypothese (iii) übereinstimmen, wurden mit verschiedenen Typen von Verbindungen zwischen Segmenten erzeugt, und es wurde eine Kurve gefunden, die der experimentellen Kurve entspricht (geschlossene Kreise). Die Hinzufügung der geeigneten genetischen Verbindungen zwischen den sondierten Sequenzen macht es möglich, eine Kurve zu bestimmen, die der experimentellen Kurve folgt. Selbstverständlich sollten hier mehrere Lösungen möglich sein, aber eine Wahrscheinlichkeit einer Verbindung zwischen parentalen Fragmenten von 0,1; 0,6; 0,85; 0,1; 0,1 zwischen den sondierten Segmenten 1–2, 2–3, 3–4, 4–5 beziehungsweise 5–6 liefert ein zufrieden stellendes Ergebnis. Diese Ergebnisse legen nahe, dass die Wahrscheinlichkeit einer rekombinatorischen Mischung von dem betrachteten Sequenzsegment abhängt, obwohl der Anteil jedes Parentaltyps über die Länge der Sequenz homogen ist. So entsprechen die Stufen der erhaltenen Kurve von Ergebnissen einer Korrelation zwischen verschiedenen Sequenzsegmenten.
Die Berechnung der Häufigkeiten jedes Parentaltyps in der Population wurde nach dem Einführen der Wahrscheinlichkeiten für Zusammenhänge in das Modell simuliert. Die aus 10 Computersimulationen erhaltenen durchschnittlichen Ergebnisse liefern eine Häufigkeit von Strukturen des Parentaltyps von 13,9 ± 1,3% (davon 9,8 ± 1,4% für 1A2 und 4,1 ± 1,09% für 1A1), was recht gut mit den experimentellen Werten von 13,8% (11,4% für 1A2 und 2,4% für 1A1) übereinstimmt. Die Heterogenität der Wahrscheinlichkeit einer rekombinatorischen Mischung über die Länge der Sequenz kann somit recht gut für den apparenten Überschuss an Parentaltypstrukturen in der Population verantwortlich sein.
Um die Existenz von Zusammenhängen zwischen Fragmenten zu bestätigen, wurden die Kombinationen zwischen den verschiedenen Sonden analysiert. 6 zeigt die Häufigkeiten von Zusammenhängen von Sequenzregionen des gleichen Parentaltyps und eines unterschiedlichen Parentaltyps für jede der möglichen Kombinationen von Sonden.
Aus 6A ist die Wahrscheinlichkeit von nahen Verbindungen (zwischen angrenzenden Regionen) ersichtlich. Dies zeigt deutlich, dass die Kombinationen P1-P2, P4-P5 und P5-P6 vollständige Unabhängigkeit voneinander zeigen, während im Gegensatz dazu die Kombinationen P2-P3 und P3-P4 eine Abnahme der Häufigkeit einer Verbindung zwischen unterschiedlichen Parentaltypfragmenten ergeben.
6B zeigt die Verbindung zwischen zwei Sonden, die durch eine Sonde getrennt sind. Wieder einmal kann man eine Verbindung beobachten, die einen nahezu vollständigen Zusammenhang zwischen P2 und P4 zeigt. Die anderen Kombinationen zeigen vollständige Unabhängigkeit zwischen den Sonden.
Dies gilt auch für Kombinationen zwischen weiter entfernten Sonden (6C). Andere Verbindungen über große Abstände (P1-P5; P2-P6 und P1-P6) wurden berechnet, welche die gleichen Eigenschaften wie diejenigen der 6C zeigen und hier nicht gezeigt werden.
Diese Ergebnisse bestätigen das Vorhersagemodell, obwohl die Anzahl der Zusammenhänge im Modell nur 2 beträgt. Überraschenderweise stimmen die Werte, die für diese Daten erhalten wurden, nicht mit einem genetischen Modell überein. Tatsächlich scheint der Abstand (zwischen den zusammenhängenden Segmenten) im Fall von P2-P4 verglichen mit P2-P3 oder P3-P4 größer zu sein. Eine mögliche Erklärung für dieses Phänomen kann mit der möglichen Anzahl an Crossing Over in diesem Bereich (P2-P4) zusammenhängen.
Das Auftreten der Stufen, die einer Korrelation zwischen Fragmenten entsprechen, gestattet es unter Verwendung der oben beschriebenen Analyse einen wichtigen Schluss zu ziehen. Wenn ein funktioneller Selektionsdruck an die Klone angelegt wird, ist es tatsächlich wahrscheinlich, dass er zu einer größeren Verzerrung von Korrelationen zwischen verschiedenen Regionen der untersuchten Gene führt. So kann es möglich sein, Muster von Zusammenhängen zwischen mehreren Regionen des Gens zu definieren, die mit Aktivitäten und/oder funktionellen Eigenschaften zusammenhängen. Dies sollte es ermöglichen, den Vorgang der Definition von Proteinen mit verbesserten Funktionen und/oder Eigenschaften zu beschleunigen, indem man Sequenzen auswählt, die zusammengebracht werden müssen.
Beispiel 4: Selektion funktioneller Klone
Ein Hauptvorteil der in der vorliegenden Erfindung entwickelten rekombinatorischen Mischungsstrategie (Shuffling) ist, dass die Bank zum ersten Mal direkt in einem eukaryotischen Mikroorganismus (Hefe) konstruiert wird. Es ist außerdem möglich, Hefestämme zu verwenden, deren Genom modifiziert worden ist, so dass die Wiederherstellung komplexer proteinhaltiger (enzymatischer) Systeme möglich ist.
In den erfindungsgemäßen Experimenten wurden Hefestämme verwendet, die ein modifiziertes Genom besitzen, so dass die Wiederherstellung eines Membransystems mit einer Kopplung der verschiedenen Elemente möglich war. Die transformierten Hefeklone, die aus den Shuffling-Schritten hervorgehen, können daher als solche für ein funktionelles Screening der Aktivität der konstruierten Mosaikproteine verwendet werden.
Der Verwendung der Primärbank bietet außerdem den Vorteil, dass sie aus Klonen besteht, die mehrere Mosaikplasmide enthalten, was die Komplexität der Bank beträchtlich erhöht und ein Screening der Aktivitäten mehrerer Mosaikproteine durch Testen der Aktivität an nur einem Hefeklon ermöglicht.
Jedoch ist deutlich, dass die aufgrund ihrer Funktionalität selektierten Klone für eine detaillier tere biochemische Studie einen zusätzlichen Segregationsschritt erfordern. Diese Segregation kann durch wiederholte Subklonierungen oder durch DNA-Extraktionen aus positiven Klonen, gefolgt von einer Überführung in E. coli und einer Retransformation der Hefe durchgeführt werden.
Die folgenden Experimente zeigen die Durchführbarkeit einer direkten funktionellen Selektion in vivo in Mikrotiterplatten.
Das Verfahren basiert auf einer universellen Technik zum Nachweis der aromatischen Phenole, die durch direkte In-vivo-Biokonversion der aromatischen polyzyklischen Kohlenwasserstoffe in den Kulturen gebildet werden, in Mikrotiterplatten mit 96 Vertiefungen mittels Färbung (siehe Beispiel 1).
Die Phenolderivate wurden anschließend durch hydrophobe Bindungen (an C18-Harzen) direkt in den Mikrotiterplatten extrahiert und nach der Kupplung mit Vorläufern von Diazo-Fast-Farbstoffen mittels Kolorimetrie sichtbar gemacht (7).
Das Screening der 1A1/1A2-Mosaikbank erfolgte unter Verwendung von Naphthalin, das ein gutes Substrat für die beiden parentalen Enzyme ist. Zu dem Zweck, den wirklichen Anteil an funktionellen Strukturen zu bestimmen, wurde die Primärbank in der Hefe in E. coli überführt, und 96 unabhängige Klone (die somit nur einen Typ des Plasmids enthielten) wurden zur Retransformation der Hefe in Mikrotiterplatten verwendet. Die Häufigkeit funktioneller Klone unter derartigen Bedingungen (12% für die mit Taq-DNA-Polymerase konstruierte Bibliothek) wurde durch herkömmliche Verfahren unter Verwendung von Analysen der extrahierten Produkte mittels HPLC bestätigt.
Aufgrund dieser Kontrollen ließ sich beobachten, dass der kolorimetrische Nachweis durchführbar ist und eine ausreichende Empfindlichkeit besitzt, dass Klone mit einer Naphthalinhydroxylase-Aktivität ermittelt werden können, die nur 10% der parentalen Aktivität darstellt (diese Unterschiede in den Mengen an produzierten Metaboliten können auf Unterschiede in den Aktivitäten aber auch in der Expression der Mosaikenzyme zurückzuführen sein).
Das verwendete Nachweisverfahren hat sich auch als effizient zum Nachweis von Metaboliten erwiesen, die aus dem Metabolismus von Phenanthren oder anderen aromatischen polyzyklischen Kohlenwasserstoffen hervorgehen.
Beispiel 5: Analysen von Sequenzen der Bank
Fünf Klone, die unabhängig von funktionellen Kriterien zufallsgemäß ausgewählt wurden, und fünf Klone, die aus der Subpopulation der funktionellen Klone ausgewählt wurden (die Selektion siehe weiter unten), wurden sequenziert. Diese Strukturen haben sich als Mosaike erwiesen, die außerdem zusätzliche Mutationen enthalten.
Die Mosaikstrukturen sind in 7 dargestellt. Die Figur basiert auf einer Ausrichtung zwischen den Mosaikstrukturen und den beiden parentalen Sequenzen und wurde mithilfe eines geeigneten Programms erstellt:
Für jede Struktur wurde eine Nukleotidausrichtung mit den zwei parentalen Sequenzen durchgeführt. Diese Ausrichtungen wurden als Ausgangsdaten für ein Visulalisierungsprogramm verwendet, das die Figur erzeugte, indem die Sequenzteile, die zu den parentalen P450 1A1 bzw. 1A2 gehören, in Grau oder Schwarz gezeichnet sind und dünne vertikale Linien ober- oder unterhalb hinzugefügt wurden, um die Regionen mit Nukleotidfehlpaarung mit der zweiten parentalen Struktur anzuzeigen. Außerdem zeigen Linien, die die Sequenzen kreuzen, die Sequenzpositionen an, die mit keiner der beiden parentalen Sequenzen paaren und somit als Mutationen betrachtet werden müssen. Die Software zeichnet auch transparente horizontale Teile, die Sequenzsegmenten entsprechen, für die die Zugehörigkeit zu dem einen oder dem anderen der Parentaltypen durch Analyse der Sequenzen nicht bestimmt werden konnte.
Die Analyse dieser 10 zufällig ausgewählten Sequenzen bestätigt das Vorhandensein von Mosaikstrukturen für jede Sequenz. Durch Analyse der Gesamtheit dieser Strukturen kann man eine mittlere Anzahl von unterschiedlichen Fragmenten von 5,4 ± 2,2 feststellen. Die Größenverteilung dieser Fragmente ist homogen. Von den 54 betrachteten Fragmenten haben 32 Größen zwischen 0 und 200 bp, 12 zwischen 200 und 500 bp und 10 zwischen 500 und 1000 bp. Zusätzlich sind etwa 60% der Fragmente kleiner als 200 bp, wobei die Größe des kleinsten ausgetauschten Fragments etwa 20 bp beträgt. Diese Ergebnisse stimmen mit der mittleren Größe der Ausgangsfragmente überein, die aus der Fragmentierung mit DNAse I hervorgehen (200–300 bp, siehe 1A).
Die Analyse der Naphthalinhydroxylase-Aktivität der 5 zufällig ausgewählten Klone gezeigt, dass nur einer aktiv war (Klon A1). Er wurde im Folgenden als aktiver Klon betrachtet, genauso wie die 5, die anhand von Aktivitätskriterien ausgewählt wurden. Der mittlere Anteil an Modifikationen pro Sequenz wurde für die aktiven und inaktiven Klone berechnet. Für die inaktiven Klone (A2, A3, A4 und A5) beträgt die mittlere Anzahl an Mutationen 14,0 (± 4,2). Für die aktiven Klone ist sie kleiner (8,3 ± 3,2). Dies ist aufgrund des Selektionsverfahren (Aktivität) nicht überraschend. Tatsächlich können die Sequenzen von inaktiven Klonen vorzeitige Stoppcodons enthalten.
Schließlich wurden die verschiedenen, während der statistischen Analysen beobachteten Ergebnisse durch die Sequenzdaten bestätigt. Obwohl die Anzahl der sequenzierten Klone klein ist (10), liefern die erhaltenen Daten außerdem einen ausführlichen Blick auf mehrere Mosaikstrukturen. Der bei den statistischen Analysen beobachtete Zusammenhang zwischen Fragmenten (zwischen den Sonden 2, 3 und 4) wird auch in diesen Sequenzen beobachtet. Tatsächlich beobachtet man keinen Austausch von Fragmenten im zentralen Abschnitt, der diesen Sonden entspricht.
Der erhöhte Anteil an Mutationen stimmt mit einen vergleichsweise niedrigen Anteil an funktionellen Strukturen (15%) in der Population überein. Jedoch haben ähnliche rekombinatorische Mischungsexperimente, die unter Verwendung zuverlässigerer Enzyme als Tag-DNA-Polymerase, wie Pfu- oder Dynazyme-EXT-DNA-Polymerase, durchgeführt wurden, einen höheren Anteil (80–90%) an funktionellen Strukturen ergeben. Der Anteil an Mutationen kann folglich an die Wünsche angepasst werden.
Die vorstehenden Beispiele veranschaulichen einen Aspekt der Erfindung, und der Fachmann kann die notwendigen Anpassungen vornehmen, um die Lehren zu verallgemeinern, ohne sich vom Geist der Erfindung zu entfernen.
LITERATUR

1. van der Meer et al. (1992) Microbiological Reviews, 56(4), 677-94.
2. Stemmer, W. P. (1994) Nature, 370(6488), 389-91.
3. Stemmer, W. P. (1994) Proc. Natl. Acad. Sci. USA, 91(22), 10747-51.
4. Crameri et al. (1997) Nature Biotechnology, 15(5), 436-8.
5. Zhang et al. (1997) Proc. Natl. Acad. Sci USA, 94(9), 4504-9.
6. Crameri et al. (1996) Nature Biotechnology, 14(3), 315-9.
7. Crameri et al. (1996) Nature Medicine, 2(1), 100-2.
8. Giver und Arnold (1998) Current Opinion in Chemical Biology, 2(3), 335-8.
9. Giver et al. (1998) Proc. Natl. Acad. Sci. USA, 95(22), 12809-13.
10. Kumamaru et al. (1998) Nature Biotechnology, 16(7), 663-6.
11. Moore et al. (1997) J. Mol. Biol., 272(3), 336-47.
12. Moore und Arnold (1996) Nature Biotechnology, 14(4), 458-67.
13. Yano et al. (1998) Proc. Natl. Acad. Sci. USA, 95(10), 5511-5.
14. Harayama, S. (1998) Trends In Biotechnology, 16(2), 76–82.
15. Crameri et al. (1998) Nature, 391 (6664), 288-91.
16. Nixon et al. (1998) Trends In Biotechnology, 16(6), 258-64.
17. Kimura et al. (1997) Journal of Bacteriology, 179(12), 3936-43.
18. Back, K. und Chappell, J. (1996) Proc. Natl. Acad. Sci. USA, 93, 6841-5.
19. Campbell et al. (1997) Nat Biotechnol, 15(5), 439- 43.
20. Nelson et al. (1987) In Guenguerich, F. P. (Hrsg.), Mammalian cytochrome P-450. CRC Press, Boca Raton and Florida. s, S. 19–79.
21. Harris, C. C. (1989) Carcinogenesis, 10(9), 1563-6.
22. Kadlubar et al. In Guenguerich, F. P. (Hrsg.), Mammalian cytochrome P-450. CRC Press, Boca Raton and Florida. s, S. 81–130.
23. Buters et al. (1999) Drug Metab Rev, 31(2), 437-47.
24. Kawajiri et al. (1990) Princess Takamatsu Symposia, 21, 55–61.
25. Kawajiri et al. (1990) FERS Letters, 263(1), 131-3.
26. Kawajiri et al. (1993) Critical Reviews in Oncology-Hematology, 14, 77–87.
27. Mace et al. (1994) Molecular Carcinogenesis, 11(2), 65–73.
28. Joo et al. (1999) Chemistry & Biology, 6(10), 699– 706.
29. Shao und Arnold (1996) Current Opinion in Structural Biology, 6(4), 513-8.
30. Arnold, F. H. (1998) Nature Biotechnology, 16(7), 617-8.
31. Michnick, S. W. und Arnold, F. H. (1999) Nat Biotechnol, 17(12), 1159-60.
32. Kikuchi et al. (1999) Gene, 236(1), 159-67.
33. Kikuchi et al. (2000) Gene, 243(1–2), 133-7.
34. Ostermeier et al. (1999) Nat Biotechnol, 17(12), 1205-9.
35. Volkov et al. (1999) Nucleic Acids Res, 27(18), e18.
36. Okuta et al. (1998) Gene, 212(2), 221-8.
37. Pompon, D. und Nicolas, A. (1989) Gene, 83(1), 15– 24.
38. Mezard, C., Pompon, D. und Nicolas, A. (1992) Cell, 70(4), 659-70.
39. Cullin, C. und Pompon, D. (1988) Gene, 65(2), 203- 17.
40. Truan et al. (1993) Gene, 125(1), 49–55.
41. Pompon et al. (1997) J Hepatol, 26 Suppl 2, 81-5.
42. Urban et al. (1990) Biochimie, 72(6–7), 463-72.
43. Bellamine et al. (1994) Eur J Biochem, 225(3), 1005-13.
44. Sambrook et al. (1989) Molecular cloning: a laboratory manual. 2. Auf 1. Cold Spring Harbor Lab., Cold Spring Harbor, New York.
45. Lorimer, I. A. und Pastan, I. (1995) Nucleic Acids Res, 23(15), 3067-8.
46. Zhao, H. und Arnold, F. H. (1997) Nucleic Acids Research, 25(6), 1307-8.
47. Pompon et al. (1996) Methods Enzymol, 272, 51–64.
48. Pompon, D. (1988) Eur J Biochem, 177(2), 285-93.
49. Smith und Waterman (1981) Ad. App. Math. 2: 482
50. Needleman und Wunsch (1970) J. Mol. Biol. 48: 443
51. Pearson und Lipman (1988) Proc. Natl. Acad. Sci. USA 85: 2444

SEQUENZPROTOKOLL

Claims

Verfahren zur Konstruktion einer kombinatorischen funktionellen Expressionsbank ausgehend von einer kombinatorischen Bank von Nukleinsäuren, die zu derselben Genfamilie gehören, umfassend die folgenden Schritte: a. Einbringen der kombinatorischen Bank von Nukleinsäuren in eine Hefe gleichzeitig mit einem Expressionsvektor, b. Erhalten der funktionellen Expressionsbank durch – homologe Rekombination der kombinatorischen Bank von Nukleinsäuren mit dem Expressionsvektor in der Hefe und – homologe oder homöologe Rekombination (zwischen ähnlichen, aber nicht identischen Sequenzen) zwischen den verschiedenen Nukleinsäuren der in die Hefe eingebrachten kombinatorischen Bank, um die Komplexität und die Diversität der erhaltenen kombinatorischen funktionellen Expressionsbank zu erhöhen, wobei die kombinatorische Bank von Nukleinsäuren ein Gemisch von PCR-Produkten ist, die erhalten wurden durch Amplifikation einer kombinatorischen Bank von offenen Leserahmen, wobei die offenen Leserahmen untereinander eine Sequenzidentität von mehr als 40% aufweisen, unter Verwendung eines Primerpaares für die flankierenden Regionen dieser offenen Leserahmen, wobei die kombinatorische Bank ausgehend von homologen DNA oder Sequenzvarianten, die sich durch eine oder mehrere Mutationen unterscheiden, erhalten wird, und wobei die kombinatorische Bank von offenen Leserahmen erhalten wird durch Zusammenfügen mittels "Primer Extension" von Fragmentierungsprodukten von mindestens zwei offenen Leserahmen, die für funktionelle Proteine codieren, und der Schritt des Zusammenfügens mittels "Primer Extension" durch PCR erfolgt, dadurch gekennzeichnet, dass jeder Zyklus des Zusammenfügungsschrittes durch PCR mindestens zwei Hybridisierungsstufen aufweist.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Regionen, welche die offenen Leserahmen flankieren, Promotor- und Terminatorregionen sind, welche die Expression in Hefe ermöglichen.
Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass jeder Zyklus des Zusammenfügungsschrittes durch PCR mindestens vier Hybridisierungsstufen von mehr als 60 Sekunden durch in regelmäßigen Abständen abnehmende Temperaturen aufweist.
Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die Fragmentierungsprodukte aus einem autonomen Hefe-Expressionsvektor mit einer Gesamtgröße von mehr als 7 kb erhalten werden, der die offenen Leserahmen enthält.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass der Expressionsvektor, der die offenen Leserahmen enthält, ein Expressionsvektor für eine eukaryotische Zelle und ein Shuttlevektor für Hefe ist.
Verfahren nach einem der Ansprüche 4 oder 5, dadurch gekennzeichnet, dass der Expressionsvektor, der die offenen Leserahmen enthält, außerdem die für seine autonome Replikation in Escherichia coli notwendigen Elemente enthält.
Verfahren nach einem der Ansprüche 4 bis 6, dadurch gekennzeichnet, dass der Expressionsvektor, der die offenen Leserahmen enthält, einen offenen Leserahmen enthält, der für ein eukaryotisches membranständiges Enzym codiert.
Verfahren nach Anspruch 7, wobei das eukaryotische Enzym aus der Gruppe ausgewählt ist, die aus eukaryotischen P450-Cytochromen, eukaryotischen (Phase-II-)Konjugationsenzymen, Mitgliedern der Familie der eukaryotischen ABC-Transporter besteht.
Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass der Expressionsvektor, mit dem die Rekombination in der Hefe durchgeführt wird, an der normalen cDNA-Klonierungsstelle linearisiert wird und Transkriptionspromotor- und -terminatorsequenzen besitzt, wobei die Rekombination an diesen Sequenzen erfolgt.
Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass der Expressionsvektor außerdem die Fähigkeit besitzt, sich autonom in eukaryotischen Zellen und/oder in Escherichia coli zu replizieren.
Verfahren nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, dass der verwendete Hefestamm eine genetische Modifikation aufweist, welche die Überexpression von mindestens einem Protein ermöglicht, das aus der Gruppe ausgewählt ist, bestehend aus einer endogenen oder exogenen P450-Reduktase, einem Adrenodoxin, einer Adrenodoxin-Reduktase, einem heterologen Cytochrom b5, einem Phase-II-Enzym (insbesondere einer Epoxid-Hydrolase).
Verfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, dass auf den Schritt b. folgende Schritte folgen: c. Extrahieren der Plasmid-DNA von mindestens einem Hefeklon, d. Transformieren eines Escherichia coli-Stammes mit der extrahierten Plasmid-DNA und Selektieren der transformierten Klone auf geeignetem Medium, um eine Unterscheidung von Elementen der kombinatorischen funktionellen Expressionsbank zu erhalten.
Verfahren zur Produktion funktioneller aktiver Mosaikproteine, dadurch gekennzeichnet, dass man eine kombinatorische funktionelle Expressionsbank durch ein Verfahren nach einem der Ansprüche 1 bis 12 konstruiert, dass man die Mosaikproteine exprimiert und dass man die funktionellen aktiven Mosaikproteine durch Untersuchung ihrer Aktivität selektiert.
Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass die funktionellen aktiven Mosaikproteine Enzymderivate sind.
Verfahren nach Anspruch 14, dadurch gekennzeichnet, dass die funktionellen aktiven Mosaikproteine Derivate von P450-Cytochromen sind.
Verfahren zur Analyse einer kombinatorischen funktionellen Expressionsbank nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, dass es folgende Schritte umfasst: a. Herstellen einer kombinatorischen funktionellen Expressionsbank durch ein Verfahren nach einem der Ansprüche 1–12, b. Transformation eines Escherichia coli-Stammes mit Plasmid-DNA, die aus dem Hefestamm oder einem Hefe-Pool extrahiert wurde, c. Hybridisierung der Plasmid-DNA, die in den jeweiligen Escherichia coli-Einzelklonen enthalten ist, die am Ende von Schritt a. erhalten werden, mit einer oder mehreren Sonde(n), die für eine Parentalsequenz spezifisch ist/sind.
Verfahren nach Anspruch 16, dadurch gekennzeichnet, dass die Hybridisierung an einem DNA-Makro- oder Mikroarray erfolgt, wobei der Array entweder aus Plasmid-DNA besteht, die in den jeweiligen Escherichia coli-Einzelklonen enthalten ist, die am Ende von Schritt a. erhalten werden, oder aus einem PCR-Produkt davon oder aus den spezifischen Sonden, gebunden an einen festen Träger, wobei jede der Nukleinsäuren anhand ihrer Position in dem Array aufgefunden wird.
Verfahren zur Bestimmung von Zusammenhängen zwischen Sequenzsignaturen und funktionellen Signaturen eines Proteins, dadurch gekennzeichnet, dass es folgende Schritte umfasst: a. Herstellen einer kombinatorischen funktionellen Expressionsbank durch ein Verfahren nach einem der Ansprüche 1–12, b. Produzieren aktiver funktioneller Mosaikproteine durch ein Verfahren nach einem der Ansprüche 13 bis 15, c. Analysieren von funktionellen und/oder Aktivitätsunterschieden zwischen den Mosaikproteinen, d. Analysieren der Nukleinsäuren, die den Mosaikproteinen entsprechen, durch ein Verfahren nach Anspruch 16 oder 17, gegebenenfalls gefolgt von einem Verfahren zur Analyse eines Hybridisierungsfootprints, umfassend folgende Schritte: i. Berechnen der Häufigkeit des Auftretens von jeder der Kombinationen, die im Schritt a. erhalten werden, ii. Durchführen einer statistischen Analyse durch Vergleichen der im Schritt i. berechneten Auftrittshäufigkeit mit der theoretischen Auftrittshäufigkeit für jede Kombination durch eine angemessene mathematische und statistische Behandlung, e. Bestimmen der Zusammenhänge, die zwischen den im Schritt d. beobachteten Sequenzstrukturen mit den im Schritt c. beobachteten funktionellen und/oder Aktivitätsunterschieden existieren können.
Verfahren zur Vorhersage von Strukturen mit einer bestimmten Funktion, dadurch gekennzeichnet, dass man das Verfahren nach Anspruch 18 durchführt, um die Sequenzbereiche oder die Zusammenhänge zwischen den Sequenzbereichen zu identifizieren, die mit dieser Funktion zusammenhängen, und dadurch, dass man daraus die gesuchte Struktur ableitet.
Verfahren zur Gewinnung eines Proteins, das verbesserte Eigenschaften besitzt, dadurch gekennzeichnet, dass es folgende Schritte umfasst: a. Konstruieren einer kombinatorischen funktionellen Expressionsbank durch ein Verfahren nach einem der Ansprüche 1–12, b. Analysieren der kombinatorischen funktionellen Expressionsbank durch ein Verfahren nach einem der Ansprüche 16 oder 17, c. Analysieren der im Schritt b. erhaltenen Hybridisierungsfootprints durch ein Verfahren zur Analyse von Hybridisierungsfootprints, umfassend folgende Schritte: i. Berechnen der Häufigkeit des Auftretens von jeder der möglichen Kombinationen, die im Schritt a. erhalten werden, ii. Durchführen einer statistischen Analyse durch Vergleichen der im Schritt c. i. berechneten Auftrittshäufigkeit mit der theoretischen Auftrittshäufigkeit für jede Kombination durch eine angemessene mathematische und statistische Behandlung, d. Bestimmen der Zusammenhänge zwischen den Sequenzstrukturen und den funktionellen Strukturen der Proteine durch Vergleich der Hybridisierungsfootprints mit den Eigenschaften der entsprechenden Mosaikproteine durch ein Verfahren nach Anspruch 18, e. Vorhersagen der interessierenden Strukturen oder der Organisationen von Strukturen in den Mosaikproteinen durch ein Verfahren nach Anspruch 19, f. Wiederholen der Schritte a. bis e. unter Verwendung der Nukleinsäuren als Ausgangsnukleinsäuren zur Erzeugung der kombinatorischen funktionellen Expressionsbank, welche die im Schritt e. identifizierten interessierenden Strukturen oder Organisationen von Strukturen tragen, eine ausreichende Anzahl von Malen, um das Protein zu erhalten, das die gesuchten verbesserten Eigenschaften besitzt.
Verfahren zur Bestimmung einer Struktur eines wichtigen Proteins als Reaktion auf einen Selektionsdruck ausgehend von einer kombinatorischen funktionellen Expressionsbank, die durch ein Verfahren nach einem der Ansprüche 1 bis 12 erhalten und gemäß einem Verfahren nach einem der Ansprüche 16 oder 17 analysiert wird, für dessen Elemente eine Signatur erhalten wurde, umfassend folgende Schritte: – Standardisieren der Bank, wobei sichergestellt wird, dass sich jede Signatur mit der gleichen Wahrscheinlichkeit in der standardisierten Bank befindet, – Anlegen eines Selektionsdrucks, – Durchführen einer statistischen Analyse der Häufigkeiten der Sequenzsignaturen der so erhaltenen neuen Bank in Bezug auf diejenigen der standardisierten Ausgangsbank, – Untersuchen der Veränderung der Auftrittshäufigkeiten der Sequenzsignaturen der erhaltenen neuen Bank in Bezug auf die standardisierte Ausgangsbank, indem folglich die Strukturen abgeleitet werden, die als Reaktion auf den Selektionsdruck vorliegen oder fehlen.