DE60113381T2 - Automatisierung im proteinentwurf durch proteinbibliotheken - Google Patents

Automatisierung im proteinentwurf durch proteinbibliotheken Download PDF

Info

Publication number
DE60113381T2
DE60113381T2 DE60113381T DE60113381T DE60113381T2 DE 60113381 T2 DE60113381 T2 DE 60113381T2 DE 60113381 T DE60113381 T DE 60113381T DE 60113381 T DE60113381 T DE 60113381T DE 60113381 T2 DE60113381 T2 DE 60113381T2
Authority
DE
Germany
Prior art keywords
library
protein
sequences
sequence
positions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60113381T
Other languages
English (en)
Other versions
DE60113381D1 (de
Inventor
I. Bassil DAHIYAT
Robert J. Hayes
Jöerg BENTZIEN
Klaus M. Fiebig
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xencor Inc
Original Assignee
Xencor Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xencor Inc filed Critical Xencor Inc
Publication of DE60113381D1 publication Critical patent/DE60113381D1/de
Application granted granted Critical
Publication of DE60113381T2 publication Critical patent/DE60113381T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K1/00General methods for the preparation of peptides, i.e. processes for the organic chemical preparation of peptides or proteins of any length
    • C07K1/04General methods for the preparation of peptides, i.e. processes for the organic chemical preparation of peptides or proteins of any length on carriers
    • C07K1/047Simultaneous synthesis of different peptide species; Peptide libraries
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries

Landscapes

  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Biomedical Technology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Plant Pathology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Microbiology (AREA)
  • Medicinal Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Peptides Or Proteins (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Description

  • GEBIET DER ERFINDUNG
  • Die Erfindung betrifft die Verwendung einer Vielzahl von Berechnungsverfahren einschließlich Proteinentwurfautomatisierung (PDA), um rechnerisch vorgescreente sekundäre Bibliotheken von Proteinen zu erstellen, Verfahren zur Erstellung von Bibliotheken sowie Verfahren und Zusammensetzungen unter Verwendung von dieser Bibliotheken.
  • HINTERGRUND DER ERFINDUNG
  • Gerichtete Molekülentwicklung kann verwendet werden, um Proteine und Enzyme mit neuen Funktionen und Eigenschaften zu schaffen. Ausgehend von einem bekannten natürlichen Protein werden mehrere Durchgänge von Mutagenese, funktionellem Screening sowie Vermehrung erfolgreicher Sequenzen durchgeführt. Der Vorteil dieses Verfahrens ist, dass es verwendet werden kann, um rasch jedes beliebige Protein zu entwickeln, ohne seine Struktur zu kennen. Es gibt mehrere verschiedene Mutagenese-Vorgehensweisen, einschließlich Punkt-Mutagenese durch fehlerauslösende PCR, Kassetten-Mutagenese und DNA-Neukombination. Diese Verfahren waren bisher sehr erfolgreich; dennoch weisen sie alle den Nachteil auf, dass sie nicht in der Lage sind, mehr als einen minimalen Anteil der möglichen Änderungen hervorzubringen. Beispielsweise gibt es für ein durchschnittliches Protein mit einer Länge von etwa 500 Aminosäuren 20500 mögliche Aminosäureänderungen. Selbstverständlich sind Mutagenese und funktionelles Screenen von so vielen Mutanten unmöglich; gerichtete Entwicklung liefert eine sehr spärliche Auswahl der möglichen Sequenzen und untersucht somit nur einen geringen Anteil möglicher verbesserter Proteine, typischerweise Punktmutanten oder Rekombinationen bestehender Sequenzen. Durch Sampling nach dem Zufallsprinzip aus der enorm großen Anzahl an möglichen Sequenzen ist direkte Entwicklung unbeeinflusst und umfassend einsetzbar, von Natur aus jedoch ineffizient, da sie sämtliches strukturelles und biophysikalisches Wissen über Proteine unberücksichtigt lässt.
  • Im Gegensatz dazu können Berechnungsverfahren verwendet werden, um enorm große Sequenzbibliotheken (bis zu 1080 in einer einzigen Berechnung) zu screenen, wodurch der Haupteinschränkung experimenteller Bibliotheks-Screeningverfahren wie beispielsweise gerichteter Molekülentwicklung beigekommen wird. Es gibt eine Vielzahl an Verfahren, die zur Bildung und Bewertung von Sequenzen bekannt sind. Diese umfassen, sind jedoch nicht beschränkt auf, Sequenz-Profiling (Bowie & Eisenberg, Science 253(5016), 164–70 (1991)), Rotamerbibliotheks-Selektionen (Dahiyat & Mayo, Protein Sci. 5(5), 895–903 (1996); Dahiyat & Mayo, Science 278(5335), 82–87 (1997); Desjarlais & Handel, Protein Science 4, 2006–2018 (1995); Harbury et al., PNAS USA 92(18), 8408–8412 (1995); Kono et al., Proteins: Structure, Function and Genetics 19, 244–255 (1994); Hellinga & Richards, PNAS USA 91, 5803–5807 (1994)); und Restpaarpotenziale (Jones, Protein Science 3, 567–574 (1994)).
  • Insbesondere die U.S.S.N.s 60/061.097 (US-A-6.269.312), 60/043.464 (US-A-2001-039480), 601054.678, 09/127.926 (US-A-2001032052) und die PCT/US98/07254 (WO 98/47089) beschreiben ein Verfahren, das als "Protein Design Automation" (PDA, Proteinentwurfautomatisierung) bezeichnet wird und zahlreiche Auswertungsfunktionen einsetzt, um Sequenzstabilität zu bewerten.
  • Die WO 98/47089 beschreibt eine Vorrichtung und ein Verfahren zum automatisierten Proteinentwurf. Die WO 98/32845 beschreibt ein Verfahren zur molekularen In-vitro-Evolution von Proteinfunktion. Die WO 95/22625 beschreibt DNA-Mutagenese durch Zufallsfragmentierung und -neuanordnung.
  • Ziel der vorliegenden Erfindung ist, Berechnungsverfahren zum Vorscreenen von Sequenzbibliotheken bereitzustellen, um sekundäre Bibliotheken zu erstellen und zu selektieren, die dann experimentell hergestellt und bewertet werden können.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Gemäß den oben genannten Zielen stellt die vorliegende Erfindung Verfahren zur Erstellung einer tertiären Bibliothek von Gerüstproteinvarianten bereit, umfassend das Bereitstellen einer primären Bibliothek, das das rechnerische Erstellen einer primären Bibliothek von primären Gerüstproteinsequenzvarianten umfasst; das Erstellen einer Liste primärer Variantenpositionen in dieser primären Bibliothek; das rechnerische Kombinieren einer Vielzahl dieser primären Variantenpositionen, um eine sekundäre Bibliothek sekundärer Sequenzen zu bilden; das Synthetisieren einer Vielzahl von Tertiärbibliotheks-Proteinsequenzvarianten durch Rekombinieren der Bibliothek sekundärer Sequenzen, worin zumindest eine dieser tertiären Varianten sich von den primären und sekundären Varianten unterscheidet; und das experimentelle Screenen dieser Tertiärbibliotheks-Proteinsequenzen auf eine gewünschte Proteineigenschaft.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • 1 zeigt die Synthese eines Volllängen-Gens und aller möglichen Mutationen durch PCR. Überlappende Oligonucleotide, die dem Volllängen-Gen (dunkler Balken, Schritt 1) entsprechen, werden synthetisiert, erhitzt und anelliert. Der Zusatz von Pfu-DNA-Polymerase zu den anellierten Oligonucleotiden resultiert in der 5'-3'-Synthese von DNA (Schritt 2), wodurch längere DNA-Fragmente produziert werden (Schritt 3). Wiederholte Durchgänge von Erhitzen und Anellieren (Schritt 4) führen zur Herstellung längerer DNA einschließlich einiger Volllängen-Moleküle. Diese können mittels eines zweiten Durchgangs von PCR unter Verwendung von dem Ende des Volllängen-Gens entsprechenden Primern (mit Pfeilen gekennzeichnet) selektiert werden (Schritt 5).
  • 2 zeigt die Reduktion der Dimensionalität des Sequenzraums durch PDA-Screening. Von links nach rechts, 1: ohne PDA; 2: ohne PDA, ohne Cystein, Prolin und Glycin zu zählen; 3: mit PDA unter Verwendung des 1-%-Kriteriums bei Formung von freiem Enzym; 4: mit PDA unter Verwendung des 1-%-Kriteriums bei Formung von Enzym-Substrat-Komplex; 5: mit PDA unter Verwendung des 5-%-Kriteriums bei Formung von freiem Enzym; 6: mit PDA unter Verwendung des 5-%-Kriteriums bei Formung von Enzym-Substrat-Komplex.
  • 3 stellt die aktive Stelle von B.-circulans-Xylanase dar. Jene Positionen, die in den PDA-Entwurf eingebunden sind, sind durch ihre Seitenkettendarstellung gezeigt. In Rot sind Wildtyp-Reste dargestellt (ihre Konformation durfte verändert werden, nicht jedoch ihre Aminosäureidentität). In Grün sind Positionen zu sehen, deren Konformation und Identität sich ändern durften (zu jeder beliebigen Aminosäure außer Prolin, Cystein und Glycin).
  • 4 zeigt Cefotaxim-Resistenz von E. coli, das Wildtyp- (WT-) und PDA-gescreente β-Lactamase exprimiert; Resultate für steigende Konzentrationen an Cefotaxim werden gezeigt.
  • 5 zeigt ein bevorzugtes Schema für die Synthese einer Bibliothek der Erfindung. Das Wildtyp-Gen oder jedes beliebige Ausgangs-Gen, wie beispielsweise das Gen für das allgemeine Minimalgen, kann verwendet werden. Oligonucleotide, die verschiedene Aminosäuren an verschiedenen Variantenpositionen aufweisen, können während PCR unter Verwendung von Standardprimern verwendet werden. Dies erfordert im Allgemeinen weniger Oligonucleotide und kann zu weniger Fehlern führen.
  • 6 zeigt ein Extensionsverfahren durch Überlappung. Zuoberst der 6 ist die Matrizen-DNA abgebildet, die die Anordnungen der zu mutierenden Regionen (schwarze Kästchen) und die Bindungsstellen der relevanten Primer (Pfeile) zeigt. Die Primer R1 und R2 stellen einen Pool von Primern dar, wobei jeder eine unterschiedliche Mutation umfasst; wie hierin beschrieben kann dies, sofern erwünscht, unter Verwendung verschiedener Verhältnisse von Primern erfolgen. Die Variantenposition ist flankiert durch Regionen, deren Homologie ausreichend ist, um Hybridisierung zu erzielen. In diesem Beispiel erfolgen drei separate PCR-Reaktionen für Schritt 1. Die erste Reaktion enthält die Matrize plus Oligonucleotide F1 und R1. Die zweite Reaktion enthält die Matrize plus F2 und R2, und die dritte enthält die Matrize und F3 und R3. Die Reaktionsprodukte sind dargestellt. In Schritt 2 werden die Produkte aus Schritt 1, Röhrchen 1, und Schritt 1, Röhrchen 2, genommen. Nach Entfernung der Primer durch Reinigung werden diese zusammen mit F1 und R4 zu einer frischen PCR-Reaktion zugesetzt. Während der Denaturierungsphase der PCR anellieren die überlappenden Regionen, und der zweite Strang wird synthetisiert. Das Produkt wird dann durch die äußeren Primer amplifiziert. In Schritt 3 wird das gereinigte Produkt aus Schritt 2 in einer dritten PCR-Reaktion zusammen mit dem Produkt aus Schritt 1, Röhrchen 3, und den Primern F1 und R3 verwendet. Das Endprodukt entspricht dem Volllängen-Gen und enthält die erforderlichen Mutationen.
  • 7 zeigt eine Ligation von PCR-Reaktionsprodukten, um die Bibliotheken der Erfindung zu synthetisieren. In diesem Verfahren enthalten die Primer auch eine Endonuclease-Restriktionsstelle (RE), entweder stumpfendig, 5'-überhängend oder 3'-überhängend. Die Erfinder bereiten drei separate PCR-Reaktionen für Schritt 1 vor. Die erste Reaktion enthält die Matrize plus Oligos F1 und R1. Die zweite Reaktion enthält die Matrize plus F2 und R2, und die dritte enthält die Matrize und F3 und R3. Die Reaktionsprodukte sind dargestellt. In Schritt 2 wurden die Produkte aus Schritt 1 gereinigt und dann mit der geeigneten Restriktions-Endonuclease verdaut. Die Verdauprodukte aus Schritt 2, Röhrchen 1, und Schritt 2, Röhrchen 2, wurden genommen und mit DNA-Ligase miteinander verbunden (Schritt 3). Die Produkte wurden dann in Schritt 4 unter Verwendung der Primer F1 und R4 amplifiziert. Das gesamte Verfahren wird dann durch Verdauen der amplifizierten Produkte, Verbinden derselben mit den verdauten Produkten aus Schritt 2, Röhrchen 3, und anschließendes Amplifizieren des Endprodukts durch Primer F1 und R3 wiederholt. Es wäre auch möglich, alle drei PCR-Produkte aus Schritt 1 in einer Reaktion miteinander zu verbinden, unter der Voraussetzung, dass sich die zwei Restriktionsstellen (RE1 und RE2) voneinander unterscheiden.
  • 8 zeigt Ligation stumpfer Enden von PCR-Produkten. In diesem Verfahren überlappen die Primer wie beispielsweise F1 und R1 nicht, sondern grenzen aneinander an. Es werden wiederum drei separate PCR-Reaktionen durchgeführt. Die Produkte aus Röhrchen 1 und Röhrchen 2 werden ligiert und dann mit den äußeren Primern F1 und R4 amplifiziert. Dieses Produkt wird dann mit dem Produkt aus Schritt 1, Röhrchen 3, ligiert. Die Endprodukte werden dann mit den Primern F1 und R3 amplifiziert.
  • 9 zeigt M 13-Einzelstrang-Matrizenherstellung aus mutierten PCR-Produkten. Primer 1 und Primer 2 (die jeweils einen Pool von Primern entsprechend den gewünschten Mutationen darstellen) werden mit der M13-Matrize, die das Wildtyp-Gen oder jedes beliebige Ausgangs-Gen enthält, vermischt. PCR produziert das gewünschte Produkt (11), das die Kombinationen der gewünschten Mutationen inkorporiert in Primer 1 und Primer 2 enthält. Dieses Schema kann verwendet werden, um ein Gen mit Mutationen oder Fragmente eines Gens mit Mutationen herzustellen, die dann mittels Ligation oder PCR beispielsweise verbunden werden.
  • DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
  • Die vorliegende Erfindung betrifft Verfahren zur Verwendung von rechnerischem Screenen von Proteinsequenzbibliotheken (die bis zu 1080 oder mehr Mitglieder umfassen können), um kleinere Bibliotheken von Proteinsequenzen zu selektieren (die bis zu 1013 Mitglieder umfassen können), die auf zahlreiche verschiedene Arten verwendet werden können. Beispielsweise können die Proteine tatsächlich synthetisiert und experimentell in einem gewünschten Test auf verbesserte Funktion und Eigenschaften getestet werden. Demähnlich kann die Bibliothek zusätzlich rechnerisch manipuliert werden, um eine neue Bibliothek zu schaffen, die dann selbst wieder experimentell getestet werden kann.
  • Die Erfindung hat zwei umfassende Verwendungen; erstens kann die Erfindung verwendet werden, um Bibliotheken auf Grundlage bekannter Gerüstproteine vorzuscreenen. Das bedeutet, dass rechnerisches Screenen auf Stabilität (oder andere Eigenschaften) entweder am gesamten Protein oder an einer bestimmten Teilmenge an Resten erfolgen kann, je nach Erfordernis und wie nachstehend beschrieben. Durch Einsatz von Berechnungsverfahren zur Erstellung eines Grenzwerts oder Cut offs zur Eliminierung unerwünschter Sequenzen kann der Prozentsatz nützlicher Varianten in einer bestimmten Varianten-Setgröße gesteigert werden, und der erforderliche experimentelle Aufwand wird gesenkt.
  • Darüber hinaus findet die vorliegende Erfindung Verwendung beim Screenen von randomisierten Peptidbibliotheken. Wie bekannt ist, beginnen Signalstoff-Stoffwechselwege in Zellen häufig mit einem Effektorstimulus, der zu einer als phänotypisch zu beschreibenden Veränderung der zellulären Physiologie führt. Trotz der zentralen Rolle, die intrazelluläre Signalstoff-Stoffwechselwege bei der Krankheitsentstehung spielen, ist in den meisten Fällen nur sehr wenig über einen Signalstoff-Stoffwechselweg bekannt, der nicht der anfängliche Stimulus und nicht die schließliche zelluläre Reaktion ist.
  • In der Forschungsgeschichte wurde Signaltransduktion in den Bereichen der Biochemie oder der Genetik analysiert. Der biochemische Ansatz zergliedert einen Stoffwechselweg in eine Art von "Trittsteinen": Es gilt, ein Molekül zu finden, das an einem Ende des Stoffwechselweges wirkt oder in dieses Ende eingebunden ist, eine für Analysen ausreichende Menge zu isolieren und dann zu versuchen, das nächste Molekül im Stoffwechselweg, entweder stromauf oder stromab vom isolierten Molekül, zu bestimmen. Der genetische Ansatz ist klassischerweise ein "Schuss ins Blaue": Mutanten in einem Signalstoff-Stoffwechselweg zu induzieren oder herzuleiten und den Locus durch genetische Kreuzung zu kartieren oder die Mutation mit einer cDNA-Bibliothek zu komplementieren. Einschränkungen biochemischer Ansätze umfassen das Vertrauen auf ein signifikantes Ausmaß an bereits existierendem Wissen über die der Untersuchung unterzogenen Bestandteile sowie die Auflage, solche Studien in vitro und post mortem auszuführen. Einschränkungen ausschließlich genetischer Ansätze umfassen die Notwendigkeit, den Stoffwechselweg zuerst herzuleiten und dann zu charakterisieren, bevor mit der Identifikation und dem Klonieren des Gens fortgefahren werden kann.
  • Das Screenen von Molekülbibliotheken chemischer Verbindungen auf Wirkstoffe, die Signalsysteme regulieren, führte zu wichtigen Entdeckungen von großer klinischer Bedeutung. Cyclosporin A (CsA) und FK506 beispielsweise wurden in herkömmlichen pharmazeutischen Screens aufgrund ihrer Eigenschaft, die T-Zellaktivierung zu hemmen, ausgewählt. Es gilt anzumerken, dass, obwohl diese zwei Wirkstoffe völlig unterschiedliche Zellproteine binden, nämlich Cyclophilin- bzw. FK506-Bindungsprotein (FKBP), die Wirkung der beiden Wirkstoffe im Grunde dieselbe ist: profunde und spezifische Suppression von T-Zellaktivierung, phänotypisch in T-Zellen als Inhibition von mRNA-Produktion, die von Transkriptionsfaktoren wie z.B. NF-AT und NF-KB abhängt, zu beobachten. In der Literatur sind reichlich Beispiele für kleine Peptide zu finden, die in der Lage sind, zahlreiche verschiedene Signalstoff-Stoffwechselwege zu modulieren. Für ein Peptid, das vom HIV-1-Hüllprotein abgeleitet ist, wurde beispielsweise gezeigt, dass es die Wirkung von zellulärem Calmodulin blockiert.
  • Demgemäß ermöglicht die Bildung von zufälligen oder halb-zufälligen Sequenzbibliotheken von Proteinen und Peptiden die Selektion von Proteinen (einschließlich Peptiden, Oligopeptiden und Polypeptiden) mit nützlichen Eigenschaften. Die Sequenzen in diesen experimentellen Bibliotheken können nur an spezifischen Stellen oder über die gesamte Sequenz hinweg randomisiert werden. Im Allgemeinen können aufgrund der physikalischen Einschränkungen in Laboratorien (aufgrund der Größe der Instrumente, der Kosten bei der Herstellung von großen Anzahlen an Biopolymeren usw.) nur bis zu 1012–1015 Sequenzen in einer Bibliothek enthalten sein. Andere, praktische Überlegungen können häufig die Größe der Bibliotheken auf bis zu 106 oder weniger limitieren. Diese Grenzen werden nur für 10 Aminosäurepositionen erreicht. Daher ist nur eine spärliche Auswahl an Sequenzen bei der Suche nach verbesserten Proteinen oder Peptiden in experimentellen Sequenzbibliotheken möglich, was die Erfolgschancen verringert und es fast wahrscheinlich macht, dass wünschenswerte Kandidaten übersehen werden. Aufgrund der Zufälligkeit der Änderungen in diesen Sequenzen sind die meisten der Kandidaten in der Bibliothek nicht geeignet, wodurch die Bemühungen und Anstrengungen zur Herstellung der Bibliothek verschwendet werden.
  • Durch die Verwendung der automatisierten Proteinentwurfsverfahren, die nachstehend beschrieben werden, können jedoch virtuelle Bibliotheken von Proteinsequen zen erstellt werden, die wesentlich größer als experimentelle Bibliotheken sind. Bis zu 1080 Kandidatensequenzen können rechnerisch gescreent werden, und jene, die Entwurfskriterien entsprechen, die stabile und funktionelle Proteine bevorzugen, können leicht selektiert werden. Eine experimentelle Bibliothek, die aus den günstigen Kandidaten besteht, welche im virtuellen Bibliotheks-Screen gefunden wurden, kann anschließend erstellt werden, was in einer effizienteren Verwendung der experimentellen Bibliothek resultiert und eine Umgehung der Einschränkungen von zufälligen Proteinbibliotheken ermöglicht.
  • Zwei grundlegende Vorteile entstehen aus dem virtuellen Bibliotheks-Screenen: (1) der automatisierte Proteinentwurf erstellt eine Liste von Sequenzkandidaten, die aufgrund ihrer Eigenschaft, die Kriterien zu erfüllen, bevorzugt werden; auch zeigt er, welche Positionen in der Sequenz leicht geändert werden können und welche Positionen sich eher unwahrscheinlich ohne Störung der Proteinstabilität und -funktion ändern. Eine experimentelle zufällige Bibliothek kann erstellt werden, die nur an den leicht änderbaren, nicht-störenden Sequenzpositionen randomisiert ist. (2) Die Vielfalt von Aminosäuren an diesen Positionen kann auf jene eingeschränkt werden, für die durch den automatisierten Entwurf gezeigt wird, dass sie mit diesen Positionen kompatibel sind. Somit wird durch Einschränken der Anzahl der randomisierten Positionen und der Anzahl an Möglichkeiten an diesen Positionen die Anzahl an verschwendeten Sequenzen, die in der experimentellen Bibliothek produziert werden, verringert, wodurch die Wahrscheinlichkeit, erfolgreich Sequenzen mit nützlichen Eigenschaften zu finden, gesteigert wird.
  • Darüber hinaus kann durch rechnerisches Screenen von sehr großen Bibliotheken von Mutanten eine größere Vielfalt von Proteinsequenzen (d.h. eine größere Auswahl an Sequenzraum) gescreent werden, was zu größeren Verbesserungen bezüglich der Proteinfunktion führt. Weiters müssen nur weniger Mutanten experimentell getestet werden, um eine bestimmte Bibliotheksgröße zu screenen, was die Kosten und Schwierigkeiten von gentechnischer Proteinveränderung vermindert. Durch die Verwendung von rechnerischen Verfahren zum Vorscreenen einer Proteinbibliothek werden die rechnerischen Eigenschaften wie Geschwindigkeit und Effizienz mit der Fähigkeit experimentellen Bibliotheks-Screenens, neue Aktivitäten in Proteinen zu schaffen, für die geeignete rechnerische Modelle und Struktur-Funktion-Beziehungen nicht bekannt sind, kombiniert.
  • Demähnlich ermöglichen neue Verfahren zur Schaffung sekundärer Bibliotheken, die von sehr großen rechnerischen Mutantenbibliotheken abgeleitet sind, das rasche Testen einer großen Anzahl rechnerisch entworfener Sequenzen.
  • Darüber hinaus, wie auch nachstehend noch im Detail beschrieben wird, können die Bibliotheken auf beliebige Arten beeinflusst werden, was die Bildung von sekundären Bibliotheken ermöglicht, die in ihrem Fokus variieren; beispielsweise können Domänen, Teilmengen von Resten, aktive Steffen oder Bindungsstellen, Oberflächenreste usw. alle je nach Bedarf variiert oder konstant gehalten werden.
  • Im Allgemeinen, wie nachstehend noch ausführlicher beschrieben wird, können im Rahmen der Erfindung zahlreiche verschiedene Konfigurationen auftreten. Primäre Bibliotheken, z.B. Bibliotheken von allen oder von einer Teilmenge der möglichen Proteine, werden rechnerisch erstellt. Dies kann auf zahlreiche verschiedene Arten geschehen, einschließlich Sequenzabgleiche von verwandten Proteinen, struktureller Abgleiche, struktureller Vorhersagemodelle, Datenbanken oder (vorzugsweise) Berechnungsanalyse auf Basis von Proteinentwurfautomatisierung. Demähnlich können primäre Bibliotheken über Sequenz-Screenen unter Verwendung einer Reihe von Gerüststrukturen erstellt werden, die durch Stören der Ausgangsstruktur (unter Verwendung einer beliebigen Anzahl an Verfahren wie z.B. Molekulardynamik, Monte-Carlo-Analyse) geschaffen werden, um am Protein Änderungen (einschließlich Hauptketten- und Seitenketten-Drehwinkeländerungen) vorzunehmen. Optimale Sequenzen können für jede Ausgangsstruktur (oder eine bestimmte Auswahl der besten Sequenzen) selektiert werden, um primäre Bibliotheken zu erstellen.
  • Manche dieser Verfahren führen dazu, dass die Liste von Sequenzen in der primären Bibliothek auf Grundlage einer Reihe bestimmter Kriterien "bewertet" oder "dem Rang nach geordnet" wird. In manchen Ausführungsformen können Sequenzlisten, die ohne Rangordnung erstellt werden, anschließend unter Verwendung von nachstehend beschriebenen Verfahren dem Rang nach geordnet werden.
  • Manche oder alle der primären Bibliotheksmitglieder werden dann rekombiniert, um eine sekundäre Bibliothek, z.B. mit neuen Mitgliedern, zu bilden. Dies erfolgt rechnerisch.
  • Alternativ dazu kann die primäre Bibliothek, nachdem sie erst einmal erstellt ist, auf viele verschiedene Arten manipuliert werden. In einer Ausführungsform kann eine andere Art von rechnerischer Analyse durchgeführt werden; beispielsweise kann eine neue Art von Rangordnung eingesetzt werden. Alternativ dazu kann die primäre Bibliothek rekombiniert werden, z.B. können Reste an unterschiedlichen Positionen vermischt werden, um einen neue, sekundäre Bibliothek zu bilden. Dies erfolgt wiederum rechnerisch.
  • Demgemäß stellt die vorliegende Erfindung Verfahren zur Erstellung sekundärer Bibliotheken von Gerüstproteinvarianten bereit. Unter "Protein" werden hierin zumindest zwei Aminosäuren verstanden, die durch eine Peptidbindung aneinander gebunden sind. Wie hierin verwendet umfasst der Begriff Protein Proteine, Oligopeptide und Peptide. Die Peptidylgruppe kann natürlich vorkommende Aminosäuren- und Peptidbindungen oder synthetische Peptidomimetika-Strukturen, d.h. "Analoge", wie z.B. Peptoide (siehe Simon et al., PNAS USA 89(20), 9367 (1992)) umfassen. Die Amino säuren können entweder natürlich vorkommende oder nicht natürlich vorkommende sein; wie Fachleuten bekannt sein wird, kann jede beliebige Struktur, für die eine Reihe von Rotameren bekannt ist oder gebildet werden kann, als Aminosäure verwendet werden. Die Seitenketten können entweder in der (R)- oder in der (S)-Konfiguration vorliegen. In einer bevorzugten Ausführungsform liegen die Aminosäuren in der (S)- oder L-Konfiguration vor.
  • Das Gerüstprotein kann jedes beliebige Protein sein, für das eine dreidimensionale Struktur bekannt ist oder gebildet werden kann; das heißt, für das dreidimensionale Koordinaten für jedes Atom des Proteins vorliegen. Im Allgemeinen kann dies unter Verwendung von Röntgenkristallographieverfahren, NMR-Verfahren, De-novo-Modellierung, Homologiemodellierung usw. bestimmt werden. Im Allgemeinen werden, sofern Röntgenstrukturen verwendet werden, Strukturen mit 2Å- oder noch besserer Auflösung bevorzugt, sind jedoch nicht erforderlich.
  • Die Gerüstproteine können von jedem beliebigen Organismus stammen, einschließlich Prokaryoten und Eukaryoten, wobei Enzyme von Bakterien, Pilzen, Extremophilen wie z.B. Archebakterien, Insekten, Fischen, Tieren (insbesondere Säugetieren und besonders Menschen) und Vögeln möglich sind.
  • Somit wird hierin unter "Gerüstprotein" ein Protein verstanden, für das eine sekundäre Bibliothek von Varianten erwünscht ist. Fachleuten ist bekannt, dass jede beliebige Anzahl von Gerüstproteinen in der vorliegenden Erfindung Verwendung findet. Insbesondere in die Definition von "Protein" eingebunden sind Fragmente und Domänen bekannter Proteine, einschließlich funktioneller Domänen wie z.B. enzymatischer Domänen, Bindungsdomänen usw., und kleinere Fragmente, wie z.B. Kehren, Schleifen usw. Das bedeutet, dass Teile von Proteinen ebenfalls verwendet werden können. Zusätzlich umfasst "Protein" wie hierin verwendet Proteine, Oligopeptide und Peptide. Weiters können Proteinvarianten, d.h. nicht natürlich vorkommende Proteinanalogstrukturen, verwendet werden.
  • Geeignete Proteine umfassen, sind jedoch nicht beschränkt auf industrielle und pharmazeutische Proteine, einschließlich Liganden, Zelloberflächenrezeptoren, Antigenen, Antikörpern, Cytokinen, Hormonen, Transkriptionsfaktoren, Signalstoffmodulen, Cytoskelettproteinen und Enzymen. Geeignete Klassen von Enzymen umfassen, sind jedoch nicht beschränkt auf Hydrolasen wie z.B. Proteasen, Carbohydrasen, Lipasen; Isomerasen wie z.B. Racemasen, Epimerasen, Tautomerasen oder Mutasen; Transferasen, Kinasen, Oxidoreductasen und Phosphatasen. Geeignete Enzyme sind in der Swiss-Prot-Enzymdatenbank aufgelistet. Geeignete Proteinhauptketten umfassen, sind jedoch nicht beschränkt auf all jene, die in der Proteindatenbank zu finden sind, die vom Research Collaboratory for Structural Bioinformatics (RCSB, zuvor unter dem Namen Brookhaven National Lab bekannt) zusammengestellt wurde und betreut wird.
  • Insbesondere umfassen bevorzugte Gerüstproteine jene mit bekannten Strukturen (einschließlich Varianten), umfassend, jedoch nicht beschränkt auf Cytokine (IL-1ra (+Rezeptorkomplex), IL-1 (Rezeptor alleine), IL-1a, IL-1b (einschließlich Varianten und/oder Rezeptorkomplex), IL-2, IL-3, IL-4, IL-5, IL-6, IL-8, IL-10, IFN-β, INF-γ, IFN-α-2a; IFN-α-2B, TNF-α; CD40-Ligand (chk), menschliches Obesitätsprotein Leptin, Granulozytenkolonie-stimulierender Faktor, morphogenetisches Knochenprotein-7, Ciliary Neurotrophic Factor, Granulozyten-Makrophagen-Kolonie-stimulierender Faktor, chemischer Lockstoff Monozyten-Protein 1, Makrophagenmigrations-Hemmfaktor, menschlicher Glykosylierungs-Hemmfaktor, menschliches RANTES, menschliches Makrophagen-Entzündungsprotein-1β, menschliches Wachstumshormon, Leukämie inhibierender Faktor, menschliches Melanomwachstums-Stimulationsaktivität, Neutrophil-aktivierendes Peptid-2, Cc-Chemokin Mcp-3, Plättchenfaktor M2, Neutrophil-aktivierendes Peptid-2, Eotaxin, von Stromazellen stammender Faktor-1, Insulin, Insulin-ähnlicher Wachstumsfaktor I, Insulin-ähnlicher Wachstumsfaktor II, von transformierten Zellen gebildeter Wachstumsfaktor B1, von transformierten Zellen gebildeter Wachstumsfaktor B2, von transformierten Zellen gebildeter Wachstumsfaktor B3, von transformierten Zellen gebildeter Wachstumsfaktor A, Gefäßendothelwachstumsfaktor (VEGF), azidischer Fibroblastenwachstumsfaktor, basischer Fibroblastenwachstumsfaktor, Endothelwachstumsfaktor, Nervenwachstumsfaktor, vom Gehirn stammender neurotrophischer Faktor, ziliärer neurotrophischer Faktor, von Blutplättchen abstammender Wachstumsfaktor, menschlicher Hepatozytenwachstumsfaktor, von Gliazellen abstammender neurotrophischer Faktor (sowie die 55 Cytokine in PDB 1/12/99); Erythropoietin; andere extrazelluläre Signalstoffgruppierungen, einschließlich, jedoch nicht beschränkt auf Sonic Hedgehog, Desert Hedgehog, Indian Hedgehog, hCG; Gerinnungsfaktoren einschließlich, jedoch nicht beschränkt auf, TPA und Faktor VIIa; Transkriptionsfaktoren, einschließlich, jedoch nicht beschränkt auf, p53, p53-Tetramerisationsdomäne, Zink-Finger (von denen mehr als 12 Strukturen aufweisen), Homeodomänen (von denen 8 Strukturen aufweisen), Leucin-Zipper (von denen 4 Strukturen aufweisen; Antikörper, einschließlich, jedoch nicht beschränkt auf cFv; virale Proteine, einschließlich, jedoch nicht beschränkt auf Hämagglutinin-Trimerisationsdomäne und hiv-Gp41-Ectodomäne (Fusionsdomäne); intrazelluläre Signalstoffmodule, einschließlich, jedoch nicht beschränkt auf SH2-Domänen (von denen 8 Strukturen bekannt sind), SH3-Domänen (von denen 11 Strukturen aufweisen), und Pleckstrin-Homologiedomänen; Rezeptoren, umfassend, jedoch nicht beschränkt auf die extrazelluläre Region von menschlicher Gewebefaktor-Cytokin-Bindungsregion von Gp130, G-CSF-Rezeptor, Erythropoietin-Rezeptor, Fibroblastenwachstumsfaktor-Rezeptor, TNF-Rezeptor, IL-1-Rezeptor, IL-1-Rezeptor/IL1ra-Komplex, IL-4-Rezeptor, INF-γ-Rezeptor-α-Kette, MHC Klasse I, MHC Klasse II, T-Zellrezeptor, Insulinrezeptor, Insulinrezeptor-Tyrosinkinase und menschlichen Wachstumshormonrezeptor.
  • Nachdem ein Gerüstprotein ausgewählt wurde, wird unter Verwendung von Berechnungsverfahren eine primäre Bibliothek erstellt. Im Allgemeinen ist in manchen Ausführungsformen das Ziel der Berechnungsverfahren, eine Reihe von optimierten Proteinsequenzen zu bestimmen. Unter "optimierte Proteinsequenz" wird hierin eine Sequenz verstanden, die den mathematischen Gleichungen des Berechnungsverfahrens am besten entspricht. Fachleuten ist bekannt, dass eine allgemein optimierte Sequenz die eine Sequenz ist, die den Gleichungen am besten entspricht (beispielsweise ist, sofern PDA verwendet wird, die allgemein optimierte Sequenz jene Sequenz, die am besten der nachstehenden Gleichung 1 entspricht); d.h. die Sequenz, die von allen möglichen Sequenzen die geringste Energie aufweist. Es gibt jedoch zahlreiche Sequenzen, die nicht das allgemeine Minimum darstellen, jedoch niedrige Energie aufweisen.
  • Somit ist eine "primäre Bibliothek" wie hierin verwendet eine Sammlung von optimierten Sequenzen, im Allgemeinen, jedoch nicht immer, in Form einer Liste nach Rangordnung. Theoretisch können alle möglichen Sequenzen eines Proteins nach Rangordnung geordnet sein; üblicherweise ist jedoch 1013 Sequenzen eine praktische Obergrenze. Somit wird im Allgemeinen eine bestimmte Teilmenge aller möglichen Sequenzen als die primäre Bibliothek verwendet; im Allgemeinen werden die besten 103 bis 1013 Sequenzen ausgewählt, um die primäre Bibliothek zu bilden. Der Cutoff zur Einbindung in die Liste nach Rangordnung der primären Bibliothek kann auf verschiedene Arten erfolgen. Beispielsweise kann der Cutoff lediglich ein willkürlich gewählter Ausschlusspunkt sein: die besten 105 Sequenzen können die primäre Bibliothek zusammensetzen. Alternativ dazu können alle Sequenzen, die innerhalb einer bestimmten Grenze des allgemeinen Optimums Ergebnisse erzielen, verwendet werden; beispielsweise könnten alle Sequenzen mit 10 kcal/mol des allgemeinen Optimums als die primäre Bibliothek verwendet werden. Dieses Verfahren hat den Vorteil, dass es eine direkte Messung der Übereinstimmung mit einer dreidimensionalen Struktur verwendet, um Inklusion zu bestimmen. Dieser Ansatz kann verwendet werden, um sicherzustellen, dass Bibliotheksmutationen nicht auf Positionen beschränkt sind, die die geringste Energielücke zwischen verschiedenen Mutationen aufweisen. Alternativ dazu kann der Cutoff durchgeführt werden, wenn eine im Vorhinein bestimmte Anzahl an Mutationen pro Position erreicht ist. Wird eine Sequenzliste nach Rangordnung verlängert und die Bibliothek somit vergrößert, werden mehrere Mutationen pro Position definiert. Alternativ dazu kann die Gesamtzahl an durch die Rekombination aller Mutationen definierten Sequenzen als ein Cutoff-Kriterium für die primäre Sequenzbibliothek verwendet werden. Bevorzugte Werte für die Gesamtzahl an Sequenzen liegen im Bereich von 100 bis 1020, insbesondere bevorzugte Werte liegen im Bereich von 1.000 bis 1013, besonders bevorzugte Werte liegen im Bereich von 1.000 bis 107. Alternativ dazu kann das erste Auftreten von im Vorhinein festgelegten, unerwünschten Resten in der Liste als ein Cutoff-Kriterium verwendet werden. Beispielsweise würde der erste hydrophile Rest, der in einer Kernposition auftritt, die Liste abschließen. Es gilt auch anzumerken, dass, während diese Verfahren in Verbindung mit einer Einschränkung der Größe der primären Bibliothek beschrieben werden, diese selben Verfahren auch verwendet werden können, um ebenso den Cutoff für Einbindung in die sekundäre Bibliothek festzulegen.
  • Somit liefert die vorliegende Erfindung Verfahren zur Erstellung einer primären Bibliothek, die gegebenenfalls eine Sequenzliste nach Rangordnung umfasst, im Allgemeinen in Bezug auf theoretische quantitative Stabilität, wie nachstehend noch ausführlicher beschrieben wird. Die Erstellung einer primären Bibliothek zur Optimierung der Stabilität einer Konformation kann verwendet werden, um die Übergangszustandskonformation der aktiven Stelle eines Enzyms zu stabilisieren, was seine Aktivität verbessern wird. Demähnlich verbessert die Stabilisierung eines Liganden-Rezeptor-Komplexes oder eines Enzym-Substrat-Komplexes die Bindungsaffinität.
  • Die primären Bibliotheken können auf zahlreiche verschiedene Arten erstellt werden. Im Wesentlichen kann jedes beliebige Verfahren, das entweder zur relativen Rangordnung der möglichen Sequenzen eines Proteins, basierend auf messbaren Stabilitätsparametern, oder zu einer Liste von geeigneten Sequenzen führt, verwendet werden. Fachleuten ist bekannt, dass jedes der hierin beschriebenen oder auf dem Gebiet der Erfindung bekannten Verfahren entweder alleine oder in Kombination mit anderen Verfahren verwendet werden kann.
  • Im Allgemeinen gibt es eine Vielzahl von rechnerischen Verfahren, die verwendet werden können, um eine primäre Bibliothek zu erstellen. In einer bevorzugten Ausführungsform werden sequenzbasierte Verfahren verwendet. Alternativ dazu werden strukturbasierte Verfahren, wie z.B. PDA, wie nachstehend im Detail beschrieben wird, verwendet.
  • In einer bevorzugten Ausführungsform ist das Gerüstprotein ein Enzym, und äußerst exakte elektrostatische Modelle können zur Bewertung von aktiven Stellenresten des Enzyms verwendet werden, um Bibliotheken zu aktiven Stellen von Enzymen zu verbessern (siehe Warshel, Computer Modeling of Chemical Reactions in Enzyme and Solutions, Wiley & Sons, New York (1991), das hierin ausdrücklich durch Verweis aufgenommen ist). Diese exakten Modelle können die relativen Energien von Sequenzen mit hoher Präzision bewerten, sind jedoch rechnerisch aufwändig.
  • Dem ähnlich können Molekulardynamik-Berechnungen verwendet werden, um Sequenzen durch individuelles Berechnen von Ergebnissen für mutierte Sequenzen und Zusammenstellen einer Liste nach Rangordnung rechnerisch zu screenen.
  • In einer bevorzugten Ausführungsform können Restpaarpotenziale verwendet werden, um Sequenzen während des rechnerischen Screenens zu bewerten (Miyazawa et al., Macromolecules 18(3), 534–552 (1985), ausdrücklich durch Verweis aufgenommen).
  • In einer bevorzugten Ausführungsform können Sequenzprofilergebnisse (Bowie et al., Science 253(5016), 164–170 (1991), hierin durch Verweis aufgenommen) und/oder Potenziale mittlerer Stärke (Hendlich et al., J. Mol. Biol. 216(1), 167–180 (1990), ebenfalls durch Verweis aufgenommen) auch berechnet werden, um Sequenzen zu bewerten. Diese Verfahren bewerten die Übereinstimmung zwischen einer Sequenz und einer 3D-Proteinstruktur und daher wirken, um auf die getreue Wiedergabe der Proteinstruktur zu screenen. Unter Verwendung verschiedener Bewertungsfunktionen zur Listung der Sequenzen nach Rangordnung können unterschiedliche Regionen des Sequenzraums im rechnerischen Screen als Proben herangezogen werden.
  • Darüber hinaus können Bewertungsfunktionen verwendet werden, um auf Sequenzen zu screenen, die Metall- oder Cofaktor-Bindungsstellen im Protein schaffen würden (Hellinga, Fold Des. 3(1), R1-8 (1998), hierin ausdrücklich durch Verweis aufgenommen). Demähnlich können Bewertungsfunktionen verwendet werden, um auf Sequenzen zu screenen, die Disulfidbindungen im Protein schaffen würden. Diese Potenziale versuchen, eine Proteinstruktur spezifisch zu modifizieren, um ein neues strukturelles Motiv einzuführen.
  • In einer bevorzugten Ausführungsform können Sequenz- und/oder Strukturabgleichprogramme verwendet werden, um primäre Bibliotheken zu erstellen. Wie auf dem Gebiet der Erfindung bekannt ist, gibt es zahlreiche sequenzbasierte Abgleichprogramme; einschließlich beispielsweise Smith-Waterman-Suchen, Needleman-Wunsch, Double Affine Smith-Waterman, Gerüstsuche, Gribskov/GCG-Profilsuche, Gribskov/GCG-Profilscan, Profilgerüstsuche, Buchers generalisierte Profile, Hidden-Markov-Modelle, Hframe, Double Frame, Blast, Psi-Blast, Clustal und GeneWise.
  • Die Quelle der Sequenzen kann stark variieren, wobei Sequenzen aus einer oder mehreren der bekannten Datenbanken genommen werden können, einschließlich, jedoch nicht beschränkt auf SCOP (Hubbard et al., Nucleic Acids Res. 27(1), 254–256 (1999)); PFAM (Bateman et al., Nucleic Acids Res 27(1), 260–262 (1999)); VAST (Gibrat et al., Curr. Opin. Struct. Biol. 6(3), 377–385 (1996)); CATH (Orengo et al., Structure 5(8), 1093–1108 (1997)); PhD Predictor (httpa/www.embl-heidelberg.de/predictprotein/predictprotein.html); Prosite (Hofmann et al., Nucleic Acids Res. 27(1), 215–219 (1999)); PIR (http://www.mips.biochem.mpq de/proj/protsegdb/); GenBank (http://www.ncbi.nlm.nih.gov/); PDB (www.rcsb.org) und BIND (Bader et al., Nucleic Acids Res. 29(1), 242–245 (2001)).
  • Weiters können Sequenzen aus diesen Datenbanken zusammenhängender Analyse oder Genvorhersage unterzogen werden; siehe Wheeler et al., Nucleic Acids Res. 28(1), 10–14 (2000) und Burge & Karlin, J. Mol. Biol. 268(1), 78–94 (1997).
  • Wie auf dem Gebiet der Erfindung bekannt ist, gibt es zahlreiche Sequenzabgleich-Verfahren, die verwendet werden können. Beispielsweise können Sequenzhomologie-basierte Verfahren verwendet werden, um Sequenzabgleiche von Proteinen zu schaffen, die mit der Zielstruktur verwandt sind (Altschul et al., J. Mol. Biol. 215(3), 403 (1990), hierin durch Verweis aufgenommen). Diese Sequenzabgleiche werden dann untersucht, um die beobachteten Sequenzvariationen zu bestimmen. Diese Sequenzvariationen werden tabellarisch angeordnet, um eine primäre Bibliothek zu definieren. Weiters, wie nachstehend noch näher beschrieben wird, können diese Verfahren auch verwendet werden, um sekundäre Bibliotheken zu erstellen.
  • Sequenzbasierte Abgleiche können auf zahlreiche verschiedene Arten verwendet werden. Beispielsweise kann eine Anzahl an verwandten Proteinen wie auf dem Gebiet der Erfindung bekannt abgeglichen und die "variablen" und "konservierten" Reste definiert werden; das heißt, dass die Reste, die zwischen den einzelnen Familienmitgliedern variieren oder identisch bleiben, definiert werden können. Diese Resultate können verwendet werden, um eine Wahrscheinlichkeitstabelle wie nachstehend beschrieben zu erstellen. Demähnlich können diese Sequenzvariationen tabellarisch dargestellt und eine sekundäre Bibliothek aus ihnen wie nachstehend beschrieben definiert werden. Alternativ dazu können die zugelassenen Sequenzvariationen verwendet werden, um die Aminosäuren zu definieren, die an jeder Position während des rechnerischen Screenens berücksichtigt werden. Eine andere Möglichkeit ist, die Bewertung für Aminosäuren, die im Sequenzabgleich auftreten, zu beeinflussen und hierdurch die Wahrscheinlichkeit zu erhöhen, dass sie während des rechnerischen Screenens gefunden werden, wobei jedoch stets die Berücksichtigung von anderen Aminosäuren ermöglicht wird. Diese Beeinflussung resultiert in einer fokussierten primären Bibliothek, würde jedoch Aminosäuren, die nicht im Abgleich gefunden wurden, nicht vollständig außer Acht lassen. Weiters können zahlreiche andere Arten der Beeinflussung eingeführt werden. Beispielsweise kann die Vielfalt verstärkt werden; das heißt, dass ein "konservierter" Rest ausgewählt und verändert wird, um Vielfalt am Protein zu verstärken und somit einen größeren Anteil des Sequenzraums auszuwählen. Alternativ dazu können die Positionen von hoher Variabilität zwischen Familienmitgliedern (d.h. mit geringer Konservation), entweder unter Verwendung aller Aminosäuren oder einer Teilmenge dieser, randomisiert werden. Demähnlich können Reste mit Ausnahmewerten, entweder "Ausreißer" in Bezug auf ihre Position oder ihre Seitenkette, eliminiert werden.
  • Demähnlich kann struktureller Abgleich von strukturell verwandten Proteinen durchgeführt werden, um Sequenzabgleiche zu erstellen. Zahlreiche verschiedene Programme für derartigen strukturellen Abgleich sind bekannt. Siehe beispielsweise VAST von NCBI (http://www.ncbi.nlm.nih.gov:80/Structure/VASTlvast.shtml); SSAP (Orengo & Taylor, Methods Enzymol. 266, 617–635 (1996)); SARF2 (Alexandrov, Protein Eng. 9(9), 727–732 (1996)); CE (Shindyalov & Bourne, Protein Eng. 11(9), 739–747 (1998)); (Orengo et al., Structure 5(8), 1093–1108 (1997)); Dali (Holm et al., Nucleic Acid Res. 26(1), 316–319 (1998)), wobei alle oben genannten hierin durch Verweis aufgenommen sind. Diese strukturell-gebildeten Sequenzabgleiche können in weiterer Folge untersucht werden, um die beobachteten Sequenzvariationen zu bestimmen.
  • Primäre Bibliotheken können durch Vorhersagen der Sekundärstruktur aus Sequenzen und anschließendes Selektieren von Sequenzen, die mit der vorhergesagten Sekundärstruktur übereinstimmen, erstellt werden. Es gibt zahlreiche Verfahren zur Vorhersage von Sekundärstruktur, einschließlich, jedoch nicht beschränkt auf Winden (Bryant & Altschul, Curr. Opin. Sruct. Biol. 5(2), 236–244 (1995)), Profile 3D (Bowie et al., Methods Enzymol. 266, 598–616 (1996)); MONSSTER (Skolnick et al., J. Mol. Biol. 265(2), 217–241 (1997); Rosetta (Simons et al., Proteins 37(S3), 171–176 (1999); PSI-BLAST (Altschul & Koonin, Trends Biochem. Sci. 23(11), 444–447 (1998)); Impala (Schaffer et al., Bioinformatics 15(12), 1000–1011 (1999)); HMMER (McClure et al., Proc. Int. Conf. Intell. Syst. Mol. Biol. 4, 155–164 (1996)); W. Clustal (httpa/www.ebi.ac.uk/clustalwl); BLAST (Altschul et al., J. Mol. Biol. 215(3), 403–410 (1990)); Helix-Knäuel-Übergangs-Theorie (Munoz & Serrano, Biopolymers 41, 495 (1997)); neurale Netzwerke, lokaler Strukturabgleich und andere (siehe z.B. in Selbig et al., Bioinformatics 15, 1039 (1999)).
  • Ähnlich der obigen Erläuterung sind auch andere rechnerische Verfahren bekannt, einschließlich, jedoch nicht beschränkt auf Sequenzprofilierung (Bowie & Eisenberg, Science 253(5016), 164–170 (1991)), Rotamerbibliotheksselektionen (Dahiyat & Mayo, Protein Sci. 5(5), 895–903 (1996); Dahiyat & Mayo, Science 278(5335), 82–87 (1997); Desjarlais & Handel, Protein Science 4, 2006–2018 (1995); Harbury et al., PNAS USA 92(18), 8408–8412 (1995); Kono et al., Proteins: Structure, Function and Genetics 19, 244–255 (1994); Hellinga & Richards, PNAS USA 31, 5803–5807 (1994)); und Restpaarpotenziale (Jones, Protein Science 3, 567–574 (1994)); PROSA (Heindlich et al., J. Mol. Biol. 216, 167–180 (1990)); THREADER (Jones et al., Nature 358, 86–89 (1992)); und andere inverse Faltungsverfahren wie beispielsweise jene, die von Simons et al. (Proteins 34, 535–543 (1999)), Levitt & Gerstein (PNAS USA 95, 5913–5920 (1998)), Godzik et al. (PNAS, V89, PP, 12098–12102), Godzik & Skolnick (PNAS USA 89, 12098–12102 (1992)), Godzik et al. (J. Mol. Biol. 227, 227–238 (1992) beschrieben werden, und zwei Profilverfahren (Gribskov et al., PNAS 84, 4355–4358 (1987) und Fischer & Eisenberg, Protein Sci. 5, 947–955 (1996), Rice & Eisenberg, J. Mol. Biol. 267, 1026–1038 (1997)), die alle hierin durch Verweis aufgenommen sind. Weiters können andere rechnerische Verfahren wie beispielsweise jene, die von Koehl & Levitt (J. Mol. Biol. 293, 1161–1181 (1999); J. Mol. Biol. 292, 1183–1193 (1999); ausdrücklich hierin durch Verweis aufgenommen) beschrieben werden, verwendet werden, um eine Proteinsequenzbibliothek zu erstellen, die gegebenenfalls in weiterer Folge eingesetzt werden kann, um eine kleinere, sekundäre Bibliothek zur Verwendung bei experimentellem Screenen auf verbesserte Eigenschaften und Funktion zu erstellen.
  • Weiters gibt es rechnerische Verfahren, die auf Kraftfeldberechnungen wie z.B. SCMF basieren, die ebenso für SCMF verwendet werden können; siehe Delarue et al., Pac. Symp. Biocomput., 109–121 (1997); Koehl et al., J. Mol. Biol. 239, 249 (1994); Koehl et al., Nat. Struc. Biol. 2, 163 (1995); Koehl et al., Curr. Opin. Struct. Biol. 6, 222 (1996); Koehl et al., J. Mol. Biol. 293, 1183 (1999); Koehl et al., J. Mol. Biol. 293, 1161 (1999); Lee, J. Mol. Biol. 236, 918 (1994); und Vasquez, Biopolymers 36, 53–70 (1995); die alle durch Verweis hierin aufgenommen sind. Andere Kraftfeldberechnungen, die verwendet werden können, um die Konformation einer Sequenz innerhalb eines rechnerischen Verfahrens zu optimieren oder um de novo optimierte Sequenzen wie hierin erläutert zu erstellen, umfassen, sind jedoch nicht beschränkt auf OPLS-AA (Jorgensen et al., J. Am. Chem. Soc. 118, 11225–11236 (1996); W. L. Jorgensen; BOSS, Version 4.1; Yale University; New Haven, CT (1999)); (Jorgensen et al., J. Am. Chem. Soc. 110, 1657ff (1988); Jorgensen et al., J. Am. Chem. Soc. 112, 4768ff (1990)); UNRES (United Residue Forcefield; Liwo et al., Protein Science 2, 1697–1714 (1993); Liwo et al., Protein Science 2, 1715–1731 (1993); Liwo et al., J. Comp. Chem. 18, 849–873 (1997); Liwo et al., J. Comp. Chem. 18, 874–884 (1997); Liwo et al., J. Comp. Chem. 19, 259–276 (1998)); Forcefield for Protein Structure Prediction (Liwo et al., Proc. Natl. Acad. Sci. USA 96, 5482–5485 (1999)); ECEPP/3 (Liwo et al., J. Protein Chem. 13(4), 375–380 (Mai 1994)); AMBER 1.1 Kraftfeld (Weiner et al., J. Am. Chem. Soc. 106, 765–784); AMBER 3.0 Kraftfeld (U.C. Singh et al., Proc. Natl. Acad. Sci. USA 82, 755–759); CHARMM und CHARMM22 (Brooks et al., J. Comp. Chem. 4, 187–217); cvff3.0 (Dauber-Osguthorpe et al., Proteins: Structure, Function and Genetics 4, 31–47 (1988)); cff91 (Maple et al., J. Comp. Chem. 15, 162–182); auch DISCOVER- (cvff und cff91) und AMBER- Kraftfelder werden im Molekülmodellierungs-Package INSIGHT (Biosym/MSI, San Diego, Kalifornien) verwendet, und HARMM wird im Molekülmodellierungs-Package QUANTA (Biosym/MSI, San Diego, Kalifornien) verwendet; all diese sind ausdrücklich durch Verweis aufgenommen. Wie nachstehend erläutert wird können diese Kraftfeldverfahren tatsächlich verwendet werden, um die sekundäre Bibliothek direkt zu erstellen; das heißt, dass keine primäre Bibliothek erstellt wird; diese Verfahren können eher verwendet werden, um eine Wahrscheinlichkeitstabelle zu erstellen, von der ausgehend die sekundäre Bibliothek direkt erstellt wird, beispielsweise unter Verwendung dieser Kraftfelder während einer SCMF-Berechnung.
  • In einer bevorzugten Ausführungsform ist das rechnerische Verfahren, das verwendet wird, um die primäre Bibliothek zu erstellen, Proteinentwurfsautomatisierung (PDA), wie sie in U.S.S.N.s 60/061.097, 601043.464, 601054.678, 09/127.926 und der PCT US98/07254 beschrieben wird, die alle ausdrücklich hierin durch Verweis aufgenommen sind. Kurz zusammengefasst kann PDA wie folgt beschrieben werden. Eine bekannte Proteinstruktur wird als Ausgangspunkt verwendet. Die zu optimierenden Reste werden dann identifiziert, die die gesamte Sequenz oder (eine) Teilmenge(n) davon darstellen können. Die Seitenketten jeder beliebigen zu variierenden Position werden dann entfernt. Die resultierende Struktur, die aus der Proteinhauptkette und den verbleibenden Seitenketten besteht, wird als Matrize bezeichnet. Jede variable Restposition wird dann vorzugsweise als Kernrest, Oberflächenrest oder Grenzrest klassifiziert; jede Klassifikation definiert eine Teilmenge möglicher Aminosäurereste für die Position (Kernreste beispielsweise werden im Allgemeinen aus dem Satz hydrophober Reste, Oberflächenreste im Allgemeinen aus hydrophilen Resten und Grenzreste aus beiden Gruppen ausgewählt). Jede Aminosäure kann durch einen eigenen Satz aller zulässigen Konformere jeder Seitenkette, die als Rotamere bezeichnet werden, dargestellt werden. Somit müssen, um eine optimale Sequenz für eine Hauptkette zu erhalten, alle möglichen Sequenzen von Rotameren gescreent werden, wobei jede Hauptkettenposition entweder durch jede Aminosäure in all ihren möglichen Rotamerzuständen oder durch eine Teilmenge von Aminosäuren und somit durch eine Teilmenge von Rotameren eingenommen werden kann.
  • Zwei Wechselwirkungssets werden dann für jedes Rotamer an jeder einzelnen Position berechnet: die Wechselwirkung der Rotamerseitenkette mit der gesamten Hauptkette oder einem Teil davon (die "Einzel"-Energie, auch als Rotamer/Matrizen- oder Rotamer/Hauptketten-Energie bezeichnet), und die Wechselwirkung der Rotamerseitenkette mit allen anderen möglichen Rotameren an jeder anderen Position oder einer Teilmenge der anderen Positionen (die "Doppel"-Energie, auch als Rotamer/Rotamer-Energie bezeichnet). Die Energie jeder dieser Wechselwirkungen wird unter Anwendung einer Vielzahl von Berechnungsfunktionen berechnet, die die Energie von Van-der-Waals-Kräften, die Energie von Wasserstoffbrückenbindungen, die Energie der Sekundärstrukturneigung, die Energie der Oberflächensolvatation und die Elektrostatik einbinden. Somit wird die Gesamtenergie jeder Rotamerwechselwirkung, sowohl mit der Hauptkette als auch mit anderen Rotameren, berechnet und in Form einer Matrix gespeichert.
  • Die unterschiedliche Natur von einzelnen Rotamersätzen ermöglicht eine einfache Berechnung der Anzahl von zu testenden Rotamersequenzen. Eine Hauptkette mit einer Länge n mit m möglichen Rotameren pro Position weist mn mögliche Rotamersequenzen auf, eine Anzahl, die exponentiell mit der Sequenzlänge wächst und die die Berechnungen in Echtzeit entweder umständlich oder unmöglich macht. Um dieses Problem der kombinatorischen Suche demgemäß zu lösen, wird eine "Dead End Elimination"- (DEE-) Berechnung durchgeführt. Die DEE-Berechnung basiert auf der Tatsache, dass, wenn die schlechteste Gesamtwechselwirkung eines ersten Rotamers stets besser ist als die beste Gesamtwechselwirkung eines zweiten Rotamers, dann das zweite Rotamer nicht Teil der Gesamtoptimallösung sein kann. Da die Energien aller Rotamere bereits berechnet wurden, erfordert der DEE-Ansatz lediglich Summen über die zu testende Sequenzlänge und die Eliminierung von Rotameren, was die Berechnungen beträchtlich beschleunigt. DEE kann unter Vergleich von Rotamerpaaren oder von Rotamerkombinationen durchgeführt werden, was schließlich zur Bestimmung einer einzelnen Sequenz führt, die die allgemein optimale Energie darstellt.
  • Nachdem die Globallösung gefunden wurde, kann eine Monte-Carlo-Suche erfolgen, um eine Sequenzliste nach Rangordnung in der Nachbarschaft der DEE-Lösung zu erstellen. Ausgehend von der DEE-Lösung werden zufällige Positionen gegen andere Rotamere ausgetauscht, und die neue Sequenzenergie wird berechnet. Entspricht die neue Sequenz den Annahmekriterien, so wird sie als Ausgangspunkt für einen weiteren Sprung verwendet. Nach einer vorbestimmten Anzahl von Sprüngen wird eine Sequenzliste nach Rangordnung erstellt. Monte-Carlo-Suche ist ein Sampling-Verfahren, um den Sequenzraum rund um das allgemeine Minimum zu untersuchen oder um neue lokale Minima zu finden, die im Sequenzraum entfernter liegen. Wie nachstehend noch zusätzlich erläutert wird, gibt es andere Samplingverfahren, die verwendet werden können, einschließlich Boltzmann-Sampling, genetische Algorithmenverfahren und simuliertes Annealing. Weiters können in Bezug auf alle Samplingverfahren die Arten von zulässigen Sprüngen geändert werden (z.B. zufällige Sprünge zu zufälligen Resten, vorgegebene Sprünge (hin zum oder weg vom Wildtyp z.B.), Sprünge zu beeinflussten Resten (etwa hin zu oder weg von ähnlichen Resten) usw.). Demähnlich können in allen Samplingverfahren die Annahmekriterien, ob ein Sampling-Sprung akzeptiert wird oder nicht, geändert werden.
  • Wie in der U.S.S.N. 09/127.926 beschrieben wird, kann die Proteinhauptkette (umfassend (für ein natürlich vorkommendes Protein) Stickstoff, Carbonylkohlenstoff, α-Kohlenstoff und Carbonylsauerstoff, entlang der Richtung des Vektors vom α-Koh lenstoff zum β-Kohlenstoff) vor der rechnerischen Analyse durch Variieren einer Reihe von Parametern, die als Supersekundärstrukturparameter bezeichnet werden, geändert werden.
  • Nachdem eine Proteinstrukturhauptkette (mit den zuvor erläuterten Änderungen) erstellt und die Daten in den Computer eingegeben wurden, werden explizite Wasserstoffatome hinzugefügt, sofern sie nicht innerhalb der Struktur vorhanden sind (wenn die Struktur beispielsweise durch Röntgenkristallographie erstellt wurde, müssen Wasserstoffatome hinzugefügt werden). Nach dem Wasserstoffzusatz erfolgt Energieminimierung der Struktur, um die Wasserstoffatome sowie die anderen Atome, Bindungswinkel und Bindungslängen zu entspannen. In einer bevorzugten Ausführungsform erfolgt dies mittels Durchführung einer Anzahl an Schritten konjugierter Gradientenminimierung (Mayo et al., J. Phys. Chem. 94, 8897 (1990)) von Atomkoordinatenpositionen, um das Dreiding-Kraftfeld ohne Elektrostatik zu minimieren. Im Allgemeinen werden etwa 10 bis etwa 250 Schritte bevorzugt, wobei etwa 50 Schritte am meisten bevorzugt werden.
  • Die Proteinhauptkettenstruktur enthält zumindest eine variable Restposition. Wie auf dem Gebiet der Erfindung bekannt ist, werden die Reste oder Aminosäuren von Proteinen im Allgemeinen ausgehend vom N-Terminus des Proteins sequenziell nummeriert. Somit wird von einem Protein, das ein Methionin an seinem N-Terminus aufweist, angenommen, dass es ein Methionin an Rest- oder Aminosäureposition 1 aufweist, wobei die nächsten Reste Nr. 2, 3, 4 usw. sind. An jeder Position kann das Wildtyp- (d.h. natürlich vorkommende) Protein eine von zumindest 20 Aminosäuren in einer beliebigen Anzahl von Rotameren aufweisen. Unter "variabler Restposition" wird hierin eine Aminosäureposition des zu entwerfenden Proteins verstanden, die im Entwurfsverfahren nicht als spezifischer Rest oder spezifisches Rotamer fixiert ist, im Allgemeinen der Wildtyprest oder das Wildtyprotamer.
  • In einer bevorzugten Ausführungsform sind alle der Restpositionen des Proteins variabel. Das heißt, dass jede Aminosäureseitenkette in den Verfahren der vorliegenden Erfindung geändert werden kann. Dies ist besonders wünschenswert für kleinere Proteine, obwohl das vorliegende Verfahren den Entwurf von größeren Proteinen ebenfalls ermöglicht. Obwohl es für die Länge des Proteins, das auf diese Weise entworfen werden kann, theoretisch keine Beschränkung gibt, gibt es eine praktische rechnerische Obergrenze.
  • In einem anderen bevorzugten Verfahren sind nur manche der Restpositionen variabel, und der Rest ist "fixiert", d.h. dass diese Positionen in der dreidimensionalen Struktur in einer fixen Konformation identifiziert werden. In manchen Ausführungsformen wird eine fixierte Position in ihrer ursprünglichen Konformation belassen (die mit einem spezifischen Rotamer der verwendeten Rotamerbibliothek korrelieren kann oder auch nicht). Alternativ dazu können Reste als Nicht-Wildtyprest fixiert werden; wenn beispielsweise bekannte ortsgerichtete Mutageneseverfahren zeigen konnten, dass ein bestimmter Rest wünschenswert ist (beispielsweise um eine Proteolysestelle zu eliminieren oder um die Substratspezifität eines Enzyms zu ändern), so kann der Rest als eine bestimmte Aminosäure fixiert werden. Alternativ dazu können die Verfahren der vorliegenden Erfindung verwendet werden, um Mutationen de novo zu bewerten, wie nachstehend noch erläutert wird. in einer alternativen bevorzugten Ausführungsform kann eine fixierte Position "fließend gemacht" werden; die Aminosäure an dieser Position wird fixiert, doch verschiedene Rotamere eben dieser Aminosäure werden getestet. In dieser Ausführungsform können die variablen Reste zumindest einer sein, oder im Bereich von 0,1 % bis 99,9 % der Gesamtanzahl an Resten liegen. Somit ist es etwa möglich, nur einige wenige (oder einen) Reste) oder auch einen Großteil der Reste auszutauschen, wobei alle dazwischenliegenden Möglichkeiten offen stehen.
  • In einer bevorzugten Ausführungsform umfassen (jedoch nicht ausschließlich) Reste, die fixiert werden können, strukturell oder biologisch funktionelle Reste; alternativ dazu können biologisch funktionelle Reste spezifisch nicht fixiert sein. Beispielsweise können Reste, die dafür bekannt sind, für biologische Aktivität wichtig zu sein, wie beispielsweise die Reste, die die aktive Stelle eines Enzyms, die Substrat-Bindungsstelle eines Enzyms, die Bindungsstelle für einen Bindungspartner (Ligand/Rezeptor, Antigen/Antikörper usw.), Phosphorylierungs- oder Glykosylierungsstellen bilden, die maßgeblich für biologische Funktion sind, oder strukturell wichtige Reste, wie z.B. Disulfidbrücken, Metallbindungsstellen, maßgebliche Wasserstoffbrückenbindungsreste, Reste, die für die Hauptkettenkonformation maßgeblich sind, wie z.B. Prolin oder Glycin, Reste, die für Packungswechselwirkungen maßgeblich sind usw., alle in einer Konformation oder als einzelnes Rotamer fixiert oder aber "fließend gemacht" werden.
  • Demähnlich können Reste, die als variable Reste ausgewählt werden können, jene sein, die nicht wünschenswerte biologische Attribute verleihen, wie z.B. Empfindlichkeit gegenüber proteolytischem Abbau, Dimerisierungs- oder Aggregationsstellen, Glykosylierungsstellen, die zu Immunantworten führen können, unerwünschte Bindungsaktivität, unerwünschte Allosterie, unerwünschte Enzymaktivität jedoch unter Bindungskonservierung usw.
  • In einer bevorzugten Ausführungsform wird jede variable Position entweder als Kern-, Oberflächen- oder Grenzrestposition klassifiziert, obwohl in manchen Fällen, wie nachstehend noch erläutert wird, die variable Position auf Glycin eingestellt werden kann, um die Hauptkettenspannung zu minimieren. Weiters müssen Reste, wie hierin erläutert wird, nicht klassifiziert werden, sie können auch als Variable ausgewählt werden, und jeder beliebige Satz von Aminosäuren kann verwendet werden. Jede beliebige Kombination aus Kern-, Oberflächen- und Grenzpositionen kann verwendet werden: Kern-, Oberflächen- und Grenzreste, Kern- und Oberflächenreste, Kern- und Grenzreste und Oberflächen- und Grenzreste, sowie Kernreste alleine, Oberflächenreste alleine oder Grenzreste alleine.
  • Die Klassifizierung von Restpositionen als Kern-, Oberflächen- oder Grenzpositionen kann auf mehrere Arten erfolgen, wie Fachleuten bekannt sein wird. In einer bevorzugten Ausführungsform erfolgt die Klassifizierung über einen visuellen Scan der ursprünglichen Proteinhauptkettenstruktur, einschließlich der Seitenketten, und über die Bewertung einer Klassifizierung, basierend auf einer subjektiven Evaluation seitens einer Fachkraft auf dem Gebiet der Proteinmodellierung. Alternativ dazu verwendet eine bevorzugte Ausführungsform eine Bewertung der Orientierung der Cα-Cβ-Vektoren in Bezug auf eine für Lösungsmittel zugängliche Oberfläche, berechnet unter alleiniger Verwendung der Matrizen-Cα-Atome wie in U.S.S.N.s 60/061.097, 60/043.464, 60/054.678, 09/127.926 und der PCT/US98/07254 beschrieben. Alternativ dazu kann eine Oberflächenberechnung durchgeführt werden.
  • Nachdem jede Position entweder als Kern-, Oberflächen- oder Grenzposition klassifiziert wurde, wird eine Reihe von Aminosäureseitenketten, und somit eine Reihe von Rotameren, jeder Position zugeordnet. Das heißt, dass der Satz möglicher Aminosäureseitenketten ausgewählt wird, die das Programm an jeder bestimmten Position zulässt. Daraufhin kann, nachdem die möglichen Aminosäureseitenketten ausgewählt wurden, der Satz von Rotameren bestimmt werden, die an einer bestimmten Position bewertet werden. Somit wird ein Kernrest im Allgemeinen aus der Gruppe hydrophober Reste, bestehend aus Alanin, Valin, Isoleucin, Leucin, Phenylalanin, Tyrosin, Tryptophan und Methionin (in manchen Ausführungsformen, wenn der α-Skalierungsfaktor der Van-der-Waals-Berechnungsfunktion, die nachstehend beschrieben wird, niedrig ist, wird Methionin aus dieser Reihe entfernt), ausgewählt, und der Rotamersatz für jede Kernposition umfasst mögliche Rotamere für diese acht Aminosäureseitenketten (alle der Rotamere, wenn eine Hauptketten-abhängige Bibliothek verwendet wird, und eine Teilmenge, wenn eine Rotamer-abhängige Hauptkette verwendet wird). Demähnlich werden Oberflächenpositionen im Allgemeinen aus der Gruppe hydrophiler Reste, bestehend aus Alanin, Serin, Threonin, Asparaginsäure, Asparagin, Glutamin, Glutaminsäure, Arginin, Lysin und Histidin, ausgewählt. Der Rotamersatz für jede Oberflächenposition umfasst somit Rotamere für diese zehn Reste. Grenzpositionen werden schließlich aus Alanin, Serin, Threonin, Asparaginsäure, Asparagin, Glutamin, Glutaminsäure, Arginin, Lysin, Histidin, Valin, Isoleucin, Leucin, Phenylalanin, Tyrosin, Tryptophan und Methionin ausgewählt. Der Rotamersatz für jede Grenzposition umfasst somit möglicherweise jedes Rotamer für diese siebzehn Reste (wobei angenommen wird, dass Cystein, Glycin und Prolin nicht verwendet werden, obwohl auch sie verwendet werden könnten). Weiters werden in manchen bevorzugten Ausführungsformen ein Satz von 18 natürlich vorkommenden Aminosäuren verwendet (alle außer Cystein und Prolin, die bekannt dafür sind, besonders störend zu wirken).
  • Fachleuten ist also klar, dass hier zur Klassifikation der Restpositionen rechnerische Verfahren von Vorteil sind, da sie die Anzahl der Berechnungen senken. Es gilt auch anzumerken, dass es Situationen geben kann, in denen die Sätze von Kern-, Grenz- und Oberflächenresten im Vergleich zu jenen, die zuvor beschrieben wurden, geändert werden; unter manchen Bedingungen beispielsweise wird bzw. werden eine oder mehrere Aminosäuren entweder aus dem Satz zulässiger Aminosäuren entfernt oder zu dieser Reihe hinzugefügt. Manche Proteine beispielsweise, die dimerisieren oder multimerisieren oder Ligandenbindungsstellen aufweisen, können hydrophobe Oberflächenreste enthalten usw. Weiters können Reste, die Helix-"Capping" oder die günstige Wechselwirkung mit einem α-Helix-Dipol nicht ermöglichen, aus dem Satz zulässiger Reste gestrichen werden. Diese Modifikation von Aminosäuregruppen erfolgt Rest für Rest.
  • In einer bevorzugten Ausführungsform sind Prolin, Cystein und Glycin nicht in der Liste möglicher Aminosäureseitenketten enthalten, und somit werden die Rotamere dieser Seitenketten nicht verwendet. In einer bevorzugten Ausführungsform, wenn die variable Restposition einen ϕ-Winkel (das heißt, der Flächenwinkel ist 1) definiert durch den Carbonylkohlenstoff der vorangehenden Aminosäure; 2) definiert durch das Stickstoffatom des vorliegenden Rests; 3) definiert durch den α-Kohlenstoff des vorliegenden Rests; 4) definiert durch den Carbonylkohlenstoff des vorliegenden Rests) von über 0° aufweist, wird die Position auf Glycin eingestellt, um die Hauptkettenspannung zu minimieren.
  • Nachdem die Gruppe möglicher Rotamere jeder variablen Restposition zugeordnet wurde, wird die Bearbeitung wie in U.S.S.N 09/127.926 und der PCT/US98/07254 beschrieben fortgesetzt. Dieser Bearbeitungsschritt umfasst eine Analyse von Wechselwirkungen der Rotamere untereinander und mit der Proteinhauptkette, um optimierte Proteinsequenzen zu erstellen. Ganz einfach beschrieben umfasst die Bearbeitung anfänglich die Verwendung einer Anzahl von Berechnungsfunktionen zur Berechnung der Energiepotenziale von Wechselwirkungen der Rotamere, entweder mit der Hauptkette selbst oder mit anderen Rotameren. Bevorzugte PDA-Berechnungsfunktionen umfassen, sind jedoch nicht beschränkt auf eine Van-der-Waals-Potenzial-Berechnungsfunktion, eine Wasserstoffbrückenbindungspotenzial-Berechnungsfunktion und eine Elektrostatik-Berechnungsfunktion. Wie nachstehend noch näher beschrieben wird, wird zumindest eine Berechnungsfunktion verwendet, um jede Position zu bewerten, obwohl die Berechnungsfunktionen je nach Positionsklassifizierung oder anderen Überlegungen, wie z.B. Berücksichtigung günstiger Wechselwirkung mit einem α-Helix-Dipol, variieren können. Wie nachstehend erläutert wird, ist die Gesamtenergie, die in den Berechnungen verwendet wird, die Summe der Ener gien aus jeder Berechnungsfunktion, die an einer bestimmten Position verwendet wurde, wie auch aus Gleichung 1 ersichtlich ist: Egesamt = nEvdw + nEas + nEH-Bindung + nESS + nEelek Gleichung 1
  • In Gleichung 1 ist die Gesamtenergie die Summe der Energie des Van-der-Waals-Potenzials (Evdw), der Energie der Atomsolvatation (Eas), der Energie von Wasserstoffbrückenbindungen (EH-Bindung), der Energie der Sekundärstruktur (ESS) und der Energie elektrostatischer Wechselwirkung (Eelek). Der Buchstabe n steht entweder für 0 oder 1, je nachdem, ob der Term für die jeweiligen Restposition in Erwägung zu ziehen ist oder nicht.
  • Wie in den U.S.S.N.s 60/061.097, 60/043.464, 60/054.678, 09/127.926 und der PCT/US98/07254 beschrieben wird, kann jede beliebige Kombination dieser Berechnungsfunktionen, entweder alleine oder in Kombination, verwendet werden. Nachdem die zu verwendenden Berechnungsfunktionen für jede variable Position identifiziert wurden, umfasst der bevorzugte erste Schritt in der rechnerischen Analyse die Bestimmung der Wechselwirkung von jedem möglichen Rotamer mit dem gesamten Rest des Proteins oder einem Teil davon. Das heißt, dass die Wechselwirkungsenergie, die durch eine oder mehrere Berechnungsfunktionen gemessen wird, von jedem möglichen Rotamer an jeder variablen Restposition entweder mit der Hauptkette oder mit anderen Rotameren berechnet wird. In einer bevorzugten Ausführungsform erfolgt die Wechselwirkung von jedem Rotamer mit dem gesamten Rest des Proteins, d.h. sowohl mit der gesamten Matrize als auch mit allen anderen Rotameren. Wie zuvor bereits erläutert wurde, ist es jedoch auch möglich, nur einen Teil eines Proteins zu modellieren, beispielsweise eine Domäne eines größeren Proteins, wodurch also in manchen Fällen nicht das gesamte Protein in Betracht gezogen werden muss. Die Bezeichnung "Teil" wie hierin in Bezug auf ein Protein verwendet bezieht sich auf ein Fragment dieses Proteins. Dieses Fragment kann eine Größe im Bereich von 10 Aminosäureresten bis hin zur gesamten Aminosäuresequenz minus einer Aminosäure aufweisen. Demgemäß bezieht sich die Bezeichnung "Abschnitt" wie hierin in Bezug auf eine Nucleinsäure verwendet auf ein Fragment dieser Nucleinsäure. Dieses Fragment kann eine Größe im Bereich von 10 Nucleotiden bis hin zur gesamten Nucleinsäuresequenz minus einem Nucleotid aufweisen.
  • In einer bevorzugten Ausführungsform erfolgt der erste Schritt der rechnerischen Bearbeitung durch Berechnen zweier Reihen von Wechselwirkungen für jedes Rotamer an jeder Position: die Wechselwirkung der Rotamerseitenkette mit der Matrize oder Hauptkette (die "Einzel"-Energie) und die Wechselwirkung der Rotamerseitenkette mit allen anderen möglichen Rotameren an jeder anderen Position (die "Doppel"-Energie), unabhängig davon, ob die Position variiert oder fließend gemacht wurde. Es gilt zu verstehen, dass die Hauptkette in diesem Fall sowohl die Atome der Proteinstrukturhauptkette als auch die Atome sämtlicher fixierter Reste einbindet, worin die fixierten Reste als bestimmte Konformation einer Aminosäure definiert sind.
  • Somit werden "Einzel"- (Rotamer/Matrizen-) Energien für die Wechselwirkung von jedem möglichen Rotamer an jeder variablen Restposition mit der Hauptkette unter Verwendung einiger oder aller der Berechnungsfunktionen berechnet. Hierdurch wird für die Wasserstoffbrückenbindungs-Berechnungsfunktion jedes Wasserstoffbrückenbindungsatom des Rotamers und jedes Wasserstoffbrückenbindungsatom der Hauptkette bewertet, und die EHB wird für jedes mögliche Rotamer an jeder variablen Position berechnet. Demähnlich wird für die Van-der-Waals-Berechnungsfunkton jedes Atom des Rotamers mit jedem Atom der Matrize (im Allgemeinen einschließlich der Hauptkettenatome ihres eigenen Rests) verglichen, und die EvdW wird für jedes mögliche Rotamer an jeder variablen Restposition berechnet. Weiters wird im Allgemeinen keine Van-der-Waals-Energie berechnet, wenn die Atome durch drei Bindungen oder weniger verbunden sind. Für die Atomsolvatations-Berechnungsfunktion wird die Oberfläche des Rotamers gegenüber der Oberfläche der Matrize gemessen, und die Eas für jedes mögliche Rotamer an jeder variablen Restposition wird berechnet. Die Sekundärstrukturneigungs-Berechnungsfunktion wird auch als Einzel-Energie betrachtet, und somit kann die gesamte Einzel-Energie einen ESS-Anteil enthalten. Fachleuten ist bekannt, dass zahlreiche dieser Energieanteile nahezu null sind, was von der physikalischen Distanz zwischen dem Rotamer und der Matrizenposition abhängt; das heißt, je weiter entfernt die zwei Gruppierungen voneinander sind, desto geringer ist die Energie.
  • Für die Berechnung von "Doppel"-Energien (Rotamer/Rotamer) wird die Wechselwirkung jedes möglichen Rotamers mit jedem möglichen Rotamer an allen anderen variablen Restpositionen verglichen. Somit werden "Doppel"-Energien für die Wechselwirkung von jedem möglichen Rotamer an jeder variablen Restposition mit jedem möglichen Rotamer an jeder anderen variablen Restposition unter Verwendung einiger oder aller Berechnungsfunktionen berechnet. Somit wird für die Wasserstoffbrückenbindungs-Berechnungsfunktion jedes Wasserstoffbrückenbindungsatom des ersten Rotamers und jedes Wasserstoffbrückenbindungsatom von jedem möglichen zweiten Rotamer bewertet, und die EHB wird für jedes mögliche Rotamerpaar für alle zwei variablen Positionen berechnet. Demähnlich wird für die Van-der-Waals-Berechnungsfunktion jedes Atom des ersten Rotamers mit jedem Atom von jedem möglichen zweiten Rotamer verglichen, und die EvdW wird für jedes mögliche Rotamerpaar an allen variablen Zweier-Restpositionen berechnet. Für die Atomsolvatations-Berechnungsfunktion wird die Oberfläche des ersten Rotamers im Vergleich zur Oberfläche jedes möglichen zweiten Rotamers gemessen, und die Eas für jedes mögliche Rotamerpaar an allen variablen Zweier-Restpositionen wird berechnet. Die Sekundärstrukturneigungs-Berechnungsfunktion muss nicht wie eine "Doppel"-Energie durchgeführt werden, da sie als eine Komponente der "Einzel"-Energie betrachtet wird. Fachleuten ist bekannt, dass zahlreiche dieser Doppelenergie-Anteile nahezu null sind, je nach dem physikalischen Abstand zwischen dem ersten Rotamer und dem zweiten Rotamer; das heißt, je weiter die zwei Gruppierungen voneinander entfernt sind, desto geringer ist die Energie.
  • Weiters ist Fachleuten bekannt, dass zahlreiche Kraftfelder verwendet werden können, die in PDA-Berechnungen verwendet werden können, einschließlich, jedoch nicht beschränkt auf Dreiding I und Dreiding II (Mayo et al., J. Phys. Chem. 948897 (1990)), AMBER (Weiner et al., J. Amer. Chem. Soc. 106, 765 (1984) und Weiner et al., J. Comp. Chem. 106, 230 (1986)), MM2 (Allinger J. Chem. Soc. 99, 8127 (1977), Liljefors et al., J. Com. Chem. 8, 1051 (1987)); MMP2 (Sprague et al., J. Comp. Chem. 8, 581 (1987)); CHARMM (Brooks et al., J. Comp. Chem. 106, 187 (1983)); GROMOS; und MM3 (Allinger et al., J. Amer. Chem. Soc. 111, 8551 (1989)), OPLSAA (Jorgensen et al., J. Am. Chem. Soc. 118, 11225–11236 (1996); W. L. Jorgensen; BOSS, Version 4.1; Yale University: New Haven, CT (1999)); OPLS (Jorgensen et al., J. Am. Chem. Soc. 110, 1657ff (1988); Jorgensen et al., J. Am. Chem. Soc. 112, 4768ff (1990)); UNRES (United Residue Forcefield; Liwo et al., Protein Science 2, 1697–1714 (1993); Liwo et al., Protein Science 2, 1715–1731 (1993); Liwo et al., J. Comp. Chem. 18, 849–873 (1997); Liwo et al., J. Comp. Chem. 18, 874–884 (1997); Liwo et al., J. Comp. Chem. 19, 259–276 (1998); Forcefield for Protein Structure Prediction, Liwo et al., Proc. Natl. Acad. Sci. USA 96, 5482–5485 (1999)); ECEPP/3 (Liwo et al., J. Protein Chem. 13(4), 375–380 (Mai 1994)); AMBER 1.1 Kraftfeld (Weiner et al., J. Am. Chem. Soc. 106, 765–784); AMBER 3.0 Kraftfeld (U.C. Singh et al., Proc. Natl. Acad. Sci. USA 82, 755–759); CHARMM und CHARMM22 (Brooks et al., J. Comp. Chem. 4, 187–217); cvff3.0 (Dauber-Osguthorpe et al., Proteins: Structure, Function and Genetics 4, 31–47 (1988)); cff91 (Maple et al., J. Comp. Chem. 15, 162–182); auch die DISCOVER- (cvff und cff91) und AMBER- Kraftfelder werden im Molekülmodellierungs-Package INSIGHT (Biosym/MSI, San Diego, Kalifornien) verwendet, und HARMM wird im Molekülmodellierungs-Package QUANTA (Biosym/MSI, San Diego, Kalifornien) verwendet; all diese sind ausdrücklich durch Verweis hierin aufgenommen.
  • Nachdem die Einzel- und Doppel-Energien berechnet und gespeichert wurden, kann der nächste Schritt der rechnerischen Bearbeitung erfolgen. Wie in der U.S.S.N. 09/127.926 und der PCT/US98/07254 beschrieben wird, verwenden bevorzugte Ausführungsformen einen Dead-End-Elimination- (DEE-) Schritt und vorzugsweise einen Monte-Carlo-Schritt.
  • PDA, allgemein gesehen, hat drei Komponenten, die variiert werden können, um das Ergebnis (z.B. die primäre Bibliothek) zu ändern: die im Verfahren verwendeten Berechnungsfunktionen; das Filterungsverfahren; und das Samplingverfahren.
  • In einer bevorzugten Ausführungsform können die Berechnungsfunktionen geändert werden. In einer bevorzugten Ausführungsform können die oben genannten Berechnungsfunktionen auf zahlreiche verschiedene Arten vorbestimmt oder gewichtet werden. Beispielsweise kann eine Vorgabe hin zu oder weg von einer Referenzsequenz oder Familie von Sequenzen erfolgen; so kann etwa eine Vorgabe hin zu Wildtyp- oder Homologresten erfolgen. Demähnlich kann das gesamte Protein oder ein Fragment Vorgaben unterliegen; beispielsweise kann die aktive Stelle Vorgaben hin zu Wildtypresten unterliegen, oder es kann eine Vorgabe von Domänenresten hin zu einer bestimmten gewünschten physikalischen Eigenschaft erfolgen. Weiters kann eine Vorgabe hin zu oder weg von erhöhter Energie erfolgen. Zusätzliche Berechnungsfunktionsvorgaben umfassen, sind jedoch nicht beschränkt auf das Anwenden von elektrostatischen Potenzialgradienten oder Hydrophobiegradienten, das Hinzufügen eines Substrats oder eines Bindungspartners zur Berechnung oder Vorgaben hin zu einer gewünschten Ladung oder Hydrophobie.
  • Zusätzlich gibt es in einer alternativen Ausführungsform eine Vielzahl von zusätzlichen Berechnungsfunktionen, die verwendet werden können. Zusätzliche Berechnungsfunktionen umfassen, sind jedoch nicht beschränkt auf Torsionspotenziale oder Restpaarpotenziale oder Restentropiepotenziale. Solche zusätzliche Berechnungsfunktionen können alleine oder als Funktionen zur Bearbeitung der Bibliothek, nachdem diese anfänglich bewertet wurde, eingesetzt werden. Beispielsweise können zahlreiche verschiedene Funktionen, die von Daten in Bezug auf Bindung von Peptiden an MHC (Haupthistokompatibilitätskomplex) abgeleitet wurden, verwendet werden, um eine Bibliothek neu zu bewerten, um Proteine zu eliminieren, die Sequenzen enthalten, welche sich potenziell an MHC binden können, d.h. potenzielle immunogene Sequenzen.
  • In einer bevorzugten Ausführungsform können zahlreiche verschiedene Filterungsverfahren durchgeführt werden, einschließlich, jedoch nicht ausschließlich, DEE und damit verwandte Gegenstücke. Zusätzliche Filterungsverfahren umfassen, sind jedoch nicht beschränkt auf Verzweigungs-und-Bindungs-Verfahren zum Auffinden optimaler Sequenzen (Gordon & Majo, Structure Fold. Des. 7, 1089–1098 (1999)) und erschöpfende Aufzählung von Sequenzen. Es gilt dennoch anzumerken, dass manche Verfahren auch ohne Filterungsverfahren durchgeführt werden können; Samplingverfahren können beispielsweise verwendet werden, um gute Sequenzen zu finden, ohne zu filtern.
  • Fachleuten ist bekannt, dass, nachdem eine) optimierte Sequenz oder Satz von Sequenzen erstellt wurde (wiederum: diese müssen nicht unbedingt optimiert oder geordnet werden), zahlreiche verschiedene Sequenzraum-Samplingverfahren durchgeführt werden können, entweder zusätzlich zu den bevorzugten Monte-Carlo-Verfahren oder anstelle einer Monte-Carlo-Suche. Das heißt, dass, nachdem eine Sequenz oder ein Satz von Sequenzen erstellt wurde, bevorzugte Verfahren Samplingverfahren zum Einsatz bringen, um die Schaffung zusätzlicher verwandter Sequenzen zum Testen zu ermöglichen.
  • Diese Samplingverfahren können die Verwendung von Aminosäuresubstitutionen, -insertionen oder -deletionen oder von Rekombinationen einer oder mehrerer Sequenzen einbinden. Wie hierin erläutert bringt ein bevorzugtes Verfahren eine Monte-Carlo-Suche zum Einsatz, die eine Serie von vorgegebenen, systematischen oder zufälligen Sprüngen darstellt. Es gibt jedoch auch andere Samplingverfahren, die verwendet werden können, einschließlich Boltzman-Sampling, genetische Algorithmen-Verfahren und simuliertes Annealing. Darüber hinaus kann für alle Samplingverfahren die Art der zulässigen Sprünge geändert werden (z.B. zufällige Sprünge zu zufälligen Resten, vorgegebene Sprüngen (hin zum oder weg vom Wildtyp beispielsweise), Sprünge zu vorgegebenen Resten (hin zu oder weg von ähnlichen Resten beispielsweise) usw.). Sprünge, bei denen mehrere Restpositionen miteinander verknüpft werden (zwei Reste verändern sich immer zusammen oder verändern sich nie zusammen), Sprünge, bei denen ganze Sätze von Resten gegen andere Sequenzen getauscht werden (z.B. Rekombination). Demähnlich können in allen Samplingverfahren die Annahmekriterien, ob ein Sampling-Sprung akzeptiert wird oder nicht, geändert werden, um umfassende Suchen bei hohen Temperaturen und sehr spezifische Suchen in der Umgebung lokaler Optima bei niedrigen Temperaturen zu er möglichen. Siehe Metropolis et al., J. Chem. Phys. 21, 1087 (1953), hiermit ausdrücklich durch Verweis aufgenommen.
  • Weiters gilt anzumerken, dass die bevorzugten Verfahren der Erfindung in einer Sequenzliste nach Rangordnung resultieren; das heißt, die Sequenzen werden auf Grundlage einiger objektiver Kriterien nach Rang geordnet. Wie hierin jedoch bereits erläutert wurde, ist es auch möglich, einen Satz von nicht geordneten Sequenzen zu schaffen, beispielsweise durch Erstellen einer Wahrscheinlichkeitstabelle auf direktem Weg (z.B. unter Verwendung von SCMF-Analyse oder Sequenzabgleichverfahren), die Sequenzen auflistet, ohne sie einer Rangordnung zu unterziehen. Die hierin erläuterten Samplingverfahren können in beiden Situationen verwendet werden.
  • In einer bevorzugten Ausführungsform wird Boltzman-Sampling durchgeführt. Wie Fachleuten bekannt ist, können die Temperaturkriterien beim Boltzman-Sampling geändert werden, um breite Suchen bei hoher Temperatur und enger gefasste Suchen in der Umgebung lokaler Optima bei niedrigen Temperaturen zu ermöglichen (siehe z.B. Metropolis et al., J. Chem. Phys. 21, 1087 (1953)).
  • In einer bevorzugten Ausführungsform verwenden die Samplingverfahren genetische Algorithmen, wie z.B. jene, die von Holland (Adaptation in Natural and Artificial Systems, Ann Arbor, U. Michigan Press (1975)) beschrieben werden. Genetische Algorithmenanalyse nimmt im Allgemeinen erstellt Sequenzen her und rekombiniert sie rechnerisch, ähnlich einem Nucleinsäure-Rekombinationsereignis, auf eine ähnliche Weise wie bei "Gen-Shuffling" oder "Gen-Neuordnung". Somit sind die "Sprünge" der genetischen Algorithmenanalyse im Allgemeinen Mehrfachpositionssprünge. Weiters können auch, wie nachstehend erläutert, korrelierte Mehrfachsprünge durchgeführt werden. Solche Sprünge können mit unterschiedlichen Überkreuzungsstellen und mit mehr als einer Rekombination zugleich auftreten und können Rekombinationen zweier oder mehrerer Sequenzen einbinden. Weiters können Deletionen oder Insertionen (zufällig oder vorgegeben) durchgeführt werden. Darüber hinaus, wie nachstehend noch erläutert, kann genetische Algorithmusanalyse auch eingesetzt werden, nachdem die sekundäre Bibliothek bereits erstellt worden ist.
  • In einer bevorzugten Ausführungsform verwendet das Samplingverfahren simuliertes Annealing, z.B. so wie von Kirkpatrick et al. (Science 220, 671–680 (1983)) beschrieben. Simuliertes Annealing ändert den Cutoff für Beurteilung von guten oder schlechten Sprüngen durch Änderung der Temperatur. Dies ermöglicht umfassende Suchen bei hohen Temperaturen in neuen Bereichen von Sequenzraum, abwechselnd mit enger gefassten Suchen bei niedriger Temperatur, um Regionen im Detail zu untersuchen.
  • Weiters, wie nachstehend noch erläutert wird, können diese Samplingverfahren verwendet werden, um eine sekundäre Bibliothek weiter zu bearbeiten, um zusätzliche sekundäre Bibliotheken (die hierin manchmal auch als Tertiärbibliotheken bezeichnet werden) zu erstellen. Somit kann die primäre Bibliothek auf zahlreiche verschiedene rechnerische Arten erstellt werden, einschließlich strukturbasierter Verfahren wie z.B. PDA oder sequenzbasierter Verfahren oder Kombinationen davon, wie hierin erläutert.
  • Demgemäß führt das rechnerische Bearbeiten zu einem Satz von Sequenzen, die optimierte Proteinsequenzen sein können, wenn eine gewisse Art an Rangordnungs- oder Berechnungsfunktionen verwendet wird. Diese optimierten Proteinsequenzen unterscheiden sich im Allgemeinen, jedoch nicht immer, signifikant von der Wildtyp-Sequenz, deren Hauptkette herangezogen wurde. Das heißt, dass jede optimierte Proteinsequenz vorzugsweise zumindest etwa 5–10 % Aminosäurevariantionen der Ausgangs- oder Wildtyp-Sequenz umfasst, wobei zumindest etwa 15–20 % Veränderung bevorzugt und zumindest etwa 30 % Veränderung besonders bevorzugt sind.
  • Der Cutoff der primären Bibliothek wird dann geltend gemacht, was eine Reihe primärer Sequenzen hervorbringt, die die primäre Bibliothek bilden. Wie zuvor erläutert, kann dies auf zahlreiche verschiedene Wege erfolgen, einschließlich eines zufälligen Cutoffs, einer Energieeinschränkung, oder wenn eine bestimmte Anzahl an Restpositionen variiert wurde. Im Allgemeinen variiert die Größe der primären Bibliothek mit der Größe des Proteins, der Anzahl der Reste, die verändert werden, mit den verwendeten Rechenverfahren, dem angewandten Cutoff und dem Ermessen des Be nutzers. Im Allgemeinen ist die primäre Bibliothek vorzugsweise groß genug, um nach dem Zufallsprinzip einen vernünftigen Sequenzraum zur Probe auszuwählen, um die Erstellung einer robusten sekundären Bibliothek zu ermöglichen. So werden primäre Bibliotheken bevorzugt, die im Bereich von etwa 50 bis etwa 1013 liegen, wobei ein Bereich von etwa 1.000 bis etwa 107 besonders bevorzugt wird und insbesondere ein Bereich von etwa 1.000 bis etwa 100.000 bevorzugt wird.
  • In einer bevorzugten Ausführungsform, sofern Bewertung verwendet wird, obwohl dies nicht erforderlich ist, umfasst die primäre Bibliothek die allgemein optimale Sequenz in ihrer optimalen Konformation, d.h. mit dem optimalen Rotamer an jeder variablen Position. Das heißt, dass rechnerische Bearbeitung durchgeführt wird, bis das Simulationsprogramm auf eine einzelne Sequenz zusammenläuft, die das globale Optimum darstellt. In einer bevorzugten Ausführungsform umfasst die primäre Bibliothek zumindest zwei optimierte Proteinsequenzen. Somit kann der Schritt der rechnerischen Bearbeitung beispielsweise eine Anzahl an nicht bevorzugten Kombinationen eliminieren, jedoch vor dem oben genannten Zusammenlaufen gestoppt werden, um eine Bibliothek an Sequenzen zu liefern, von denen eine das allgemeine Optimum darstellt. Weiters kann weitere rechnerische Analyse, beispielsweise unter Verwendung eines unterschiedlichen Verfahrens, an der Bibliothek durchgeführt werden, um noch weitere Sequenzen zu eliminieren oder sie anders nach Rang zu ordnen. Alternativ dazu, wie näher in den U.S.S.N.s 60/061.097, 60/043.464, 60/054.678, 09/127.926 und der PCT/US98107254 beschrieben wird, kann das allgemeine Optimum erreicht werden, und anschließend kann weitere rechnerische Bearbeitung durchgeführt werden, die zusätzliche optimierte Sequenzen in der Nähe des allgemeinen Optimums hervorbringt.
  • Weiters sind in manchen Ausführungsformen primäre Bibliothekssequenzen in der primären Bibliothek eingebunden, die den Cutoff nicht erreichten. Dies kann in gewissen Situationen wünschenswert sein, um das Verfahren zur Erstellung primärer Bibliotheken zu bewerten, um diese Sequenzen als Kontrolle und Vergleich heranzuziehen, oder um zusätzlichen Sequenzraum zu sampeln. In einer bevorzugten Ausführungsform wird beispielsweise die Wildtyp-Sequenz eingebunden.
  • Es gilt auch anzumerken, dass verschiedene Rangordnungssysteme verwendet werden können. Beispielsweise kann eine Liste natürlich vorkommender Sequenzen verwendet werden, um alle möglichen Rekombinationen dieser Sequenzen mit einem optionalen Rangordnungsschritt zu berechnen. Alternativ dazu könnten auch, nachdem eine primäre Bibliothek erstellt worden ist, nur jene Rekombinationen einer Rangordnung unterzogen werden, die an Überkreuzungsstellen mit zumindest einer Identitätsschwelle über ein bestimmtes Fenster auftreten. Beispielsweise 100 % Identität über ein Fenster von 6 Aminosäuren oder 80 % Identität über ein Fenster von 10 Aminosäuren. Alternativ dazu könnte, wie in allen hierin erläuterten Systemen, die Homologie auf DNA-Niveau betrachtet werden, wobei hier rechnerisch die Translation der Aminosäuren in ihre entsprechenden DNA-Codons in Betracht gezogen wird. Es könnten hierbei verschiedene Codon-Verwendungen in Betracht gezogen werden. Eine bevorzugte Ausführungsform zieht nur Rekombinationen mit Überkreuzungspunkten in Betracht, die ausreichende DNA-Sequenzidentität aufweisen, um DNA-Hybridisierung der verschiedenen Sequenzen zu ermöglichen.
  • Wie nachstehend noch näher erläutert wird, gilt auch anzumerken, dass unterschiedliche primäre Bibliotheken kombiniert werden können. Beispielsweise können Positionen in einem Protein, die beim rechnerischen Screenen Mutationsvielfalt in hohem Ausmaß aufweisen, wie nachstehend beschrieben fixiert werden, und somit kann neuerlich eine andere primäre Bibliothek erstellt werden. Eine Liste nach Rangordnung derselben Länge wie die erste würde nun Diversität in davor sich selten verändernden Positionen aufzeigen. Die Varianten aus der ersten primären Bibliothek können mit den Varianten aus der zweiten primären Bibliothek kombiniert werden, um mit niedrigeren Berechnungskosten, als dies bei Schaffung einer sehr langen Liste nach Rangordnung möglich ist, eine kombinierte Bibliothek bereitzustellen. Dieser Ansatz kann besonders nützlich sein, um sowohl für kleine Energielücken bei sich leicht ändernden Oberflächenpositionen als auch für große Energielücken bei sich selten ändernden Kernpositionen die Sequenzdiversität zu sampeln. Darüber hinaus können primäre Bibliotheken durch Kombinieren einer oder mehrerer verschiedener Berechnungen erstellt werden, um eine große primäre Bibliothek zu bilden.
  • Somit stellt die vorliegende Erfindung primäre Bibliotheken bereit, die eine Liste von rechnerisch hergeleiteter Sequenzen umfasst. In einer bevorzugten Ausführungsform liegen diese Sequenzen in Form einer Liste nach Rangordnung vor. Aus dieser primären Bibliothek wird eine sekundäre Bibliothek erstellt. Wie hierin erläutert gibt es zahlreiche verschiedene Wege, eine sekundäre Bibliothek zu erstellen.
  • Die primäre Bibliothek des Gerüstproteins wird verwendet, um eine sekundäre Bibliothek zu erstellen. Wie Fachleuten bekannt ist, kann die sekundäre Bibliothek entweder eine Teilmenge der primären Bibliothek sein oder kann neue Bibliotheksmitglieder, d.h. Sequenzen, die in der primären Bibliothek nicht vorkommen, enthalten. Das heißt, dass im Allgemeinen die Variantenpositionen und/oder die Aminosäurereste in den Variantenpositionen auf zahlreiche verschiedene Arten rekombiniert werden können, um eine neue Bibliothek zu bilden, die die in der primären Bibliothek zu findenden Sequenzvarianten verwertet. Das heißt, dass nach Identifikation von sog. "Hot Spots" oder auch wichtigen Variantenpositionen und/oder Resten diese Positionen auf neue Arten rekombiniert werden können, um neue Sequenzen zu erstellen und so eine sekundäre Bibliothek zu erstellen. Somit umfasst in einer bevorzugten Ausführungsform die sekundäre Bibliothek zumindest eine Mitgliedsequenz, die in der primären Bibliothek nicht zu finden ist, und vorzugsweise umfasst sie eine Vielzahl solcher Sequenzen.
  • In einer Ausführungsform dient die gesamte primäre Bibliothek oder ein Teil davon als sekundäre Bibliothek. Das heißt, dass auf die primären Sequenzen ein Cutoff angewandt wird und dass diese Sequenzen ohne weitere Manipulation oder Rekombination als sekundäre Bibliothek dienen. Die Bibliotheksmitglieder können wie nachstehend erläutert hergestellt werden, z.B. durch direkte Synthese oder durch Konstruieren der Nucleinsäuren, die für die Bibliotheksmitglieder kodieren, Exprimieren derselben in einem geeigneten Wirt, gegebenenfalls gefolgt von Screenen.
  • In einer bevorzugten Ausführungsform wird die sekundäre Bibliothek durch tabellarische Anordnung jener Aminosäurepositionen erstellt, die sich von einer Bezugssequenz unterscheiden. Die Bezugssequenz kann willkürlich gewählt werden oder wird vorzugsweise entweder als Wildtypsequenz oder als allgemeine optimale Sequenz gewählt, wobei Letzteres bevorzugt wird. Das heißt, dass jede Aminosäureposition, die in der primären Bibliothek variiert, tabellarisch angeordnet wird. Sind durch die ursprüngliche rechnerische Analyse manche Positionen fixiert, so umfassen die variablen Positionen der sekundären Bibliothek natürlich entweder nur diese ursprünglichen variablen Positionen oder eine bestimmte Teilmenge dieser ursprünglichen variablen Positionen. Das heißt, dass unter Annahme eines Proteins von 100 Aminosäuren der ursprüngliche rechnerische Screen ermöglichen kann, dass alle 100 Positionen variiert werden. Aufgrund des Cutoffs in der primären Bibliothek können jedoch nur 25 Positionen variieren. Alternativ dazu könnte unter Annahme desselben 100 Aminosäuren langen Proteins der ursprüngliche rechnerische Screen nur 25 variierte Positionen aufweisen und die anderen 75 Positionen fixiert belassen; dies könnte darin resultieren, dass nur 12 der 25 in der primären Cutoff-Bibliothek variiert werden. Diese Positionen der primären Bibliothek können dann rekombiniert werden, um eine sekundäre Bibliothek zu bilden, worin alle möglichen Kombinationen dieser variablen Positionen die sekundäre Bibliothek bilden. Es gilt anzumerken, dass die nicht-variablen Positionen als Bezugssequenzpositionen festgesetzt werden.
  • Die Bildung der sekundären Bibliothek unter Verwendung dieses Verfahrens kann auf zwei allgemeine Arten erfolgen; entweder wird zugelassen, dass alle variablen Positionen jede beliebige Aminosäure aufweisen können, oder es werden Teilmengen von Aminosäuren für jede Position zugelassen.
  • In einer bevorzugten Ausführungsform werden alle Aminosäurereste an jeder variablen Position, die in der primären Bibliothek identifiziert worden ist, zugelassen. Das heißt, dass, nachdem die variablen Positionen identifiziert wurden, eine sekundäre Bibliothek erstellt wird, die jede Kombination jeder Aminosäure an jeder variablen Position umfasst.
  • In einer bevorzugten Ausführungsform werden Teilmengen von Aminosäuren ausgewählt. Die Teilmenge an jeder beliebigen Position kann entweder vom Benutzer ausgewählt werden oder kann eine Sammlung der Aminosäurereste sein, die im pri mären Screen erzeugt wurden. Das heißt, dass, angenommen Kernrest 25 ist variabel und der primäre Screen ergibt 5 unterschiedliche mögliche Aminosäuren für diese Position, der Benutzer den Satz guter Kernreste wie zuvor erläutert (z.B. hydrophobe Reste) wählen kann oder dass der Benutzer den Satz durch Auswählen der 5 verschiedenen Aminosäuren, die im primären Screen erzeugt wurden, zusammenstellen kann. Alternativ dazu können Kombinationen dieser Verfahren verwendet werden, worin der Satz identifizierter Reste manuell erweitert wird. In manchen Ausführungsformen wird beispielsweise eine Anzahl gewählt, die geringer ist als jene der Aminosäurereste; beispielsweise können nur drei der fünf ausgewählt werden. Alternativ dazu wird der Satz manuell erweitert; wählt das rechnerische System beispielsweise zwei verschiedene hydrophobe Reste aus, so können zusätzliche ausgewählte Reste hinzugefügt werden. Demähnlich kann der Satz vorgegeben werden, beispielsweise entweder hin zu oder weg von der Wildtypsequenz oder hin zu oder weg von bekannten Domänen usw.
  • Weiters kann dies durch Analysieren der primären Bibliothek erfolgen, um zu bestimmen, welche Aminosäurepositionen im Gerüstprotein eine hohe Mutationshäufigkeit aufweisen und welche Positionen eine niedrige Mutationshäufigkeit aufweisen. Die sekundäre Bibliothek kann durch Randomisieren der Aminosäuren an den Positionen, die eine höhere Anzahl an Mutationen aufweisen, erstellt werden, während die Positionen, die keine Mutationen oberhalb einer bestimmten Häufigkeit aufweisen, konstant gehalten werden. Weist die Position beispielsweise weniger als 20 % und noch bevorzugter weniger als 10 % Mutationen auf, so kann sie als Bezugssequenzposition konstant gehalten werden.
  • In einer bevorzugten Ausführungsform wird die sekundäre Bibliothek aus einer Wahrscheinlichkeitsverteilungstabelle erstellt. Wie hierin erläutert gibt es zahlreiche verschiedene Verfahren zur Erstellung einer Wahrscheinlichkeitsverteilungstabelle, einschließlich der Verwendung von PDA, Sequenzabgleichung, Kraftfeldberechnungen wie z.B. SCMF-Berechnungen usw. Darüber hinaus kann die Wahrscheinlichkeitsverteilung verwendet werden, um Entropiebewertungsinformationen für jede Position als Maß für die Mutationshäufigkeit zu erstellen, die in der Bibliothek beobachtet wird.
  • In dieser Ausführungsform wird die Häufigkeit von jedem Aminosäurerest an jeder variablen Position in der Liste identifiziert. Häufigkeiten können mit Schwellenwerten versehen werden, worin jede beliebige Variantenhäufigkeit, die niedriger als ein Cutoff ist, auf null eingestellt wird. Dieser Cutoff liegt vorzugsweise bei 1 %, 2 %, 5 % 10 % oder 20 %, wobei 10 % besonders bevorzugt werden. Diese Häufigkeiten werden dann zu einer sekundären Bibliothek umgeformt. Das heißt, dass wie zuvor diese variablen Positionen gesammelt und alle möglichen Kombinationen erzeugt werden, dass jedoch die Aminosäurereste, die die sekundäre Bibliothek "füllen", auf einer Häufigkeitsbasis verwendet werden. In einer nicht häufigkeitsbasierten sekundären Bibliothek weist somit eine variable Position, die 5 mögliche Reste hat, mit dem ersten möglichen Rest 20 % der Proteine auf, die jene variable Position ausmachen, 20 % mit dem zweiten usw. In einer häufigkeitsbasierten sekundären Bibliothek jedoch weist eine variable Position, die 5 mögliche Reste mit Häufigkeiten von 10 %, 15 %, 25 %, 30 % bzw. 20 % aufweist, mit dem ersten möglichen Rest 10 % der Proteine auf, die die variable Position ausmachen, mit dem zweiten Rest 15 % der Proteine, mit dem dritten 25 % usw. Fachleuten ist bekannt, dass die tatsächliche Häufigkeit vom verwendeten Verfahren zur tatsächlichen Herstellung der Proteine abhängen kann; beispielsweise können exakte Häufigkeiten möglich sein, wenn die Proteine synthetisiert werden. Wird jedoch das nachstehend erläuterte häufigkeitsbasierte Primersystem verwendet, so variieren die tatsächlichen Häufigkeiten an jeder Position, wie nachstehend beschrieben wird.
  • Fachleuten ist bekannt, dass Wahrscheinlichkeitsverteilungstabellen auf verschiedene Weise erstellt werden können. Zusätzlich zu den hierin erläuterten Verfahren können Self-Consistent-Mean-Field- (SCMF-) Verfahren bei der direkten Erstellung von Wahrscheinlichkeitstabellen verwendet werden. SCMF ist ein rechnerisches Bestimmungsverfahren, das eine Mittelfeldbeschreibung von Rotamerwechselwirkungen verwendet, um Energien zu berechnen. Eine auf diese Weise erstellte Wahrscheinlichkeitstabelle kann verwendet werden, um sekundäre Bibliotheken wie hierin beschrieben zu erstellen. SCMF kann auf drei Arten verwendet werden: die Häufigkeiten von Aminosäuren und Rotameren für jede Aminosäure werden an jeder Position aufgelistet; die Wahrscheinlichkeiten werden direkt aus SCMF bestimmt (siehe Dela rue et al., Pac. Symp. Biocomput. 109–121 (1997), hierin ausdrücklich durch Verweis aufgenommen). Darüber hinaus können stark variable Positionen und nicht-variable Positionen identifiziert werden. Alternativ dazu wird ein anderes Verfahren verwendet, um zu bestimmen, auf welche Sequenz während einer Durchsuchung von Sequenzraum gesprungen wird; SCMF wird verwendet, um eine exakte Energie für diese Sequenz zu erhalten; diese Energie wird dann verwendet, um ihr einen Rang zu verleihen und um eine Liste nach Rangordnung für die Sequenzen (ähnlich einer Monte-Carlo-Sequenzliste) zu erstellen. Eine Wahrscheinlichkeitstabelle, die die Häufigkeiten von Aminosäuren an jeder Position zeigt, kann dann aus dieser Liste errechnet werden (Koehl et al., J. Mol. Biol. 239, 249 (1994); Koehl et al., Nat. Struc. Biol. 2, 163 (1995); Koehl et al., Curr. Opin. Struct. Biol. 6, 222 (1996); Koehl et al., J. Mol. Bio. 293, 1183 (1999); Koehl et al., J. Mol. Biol. 293, 1161 (1999); Lee J. Mol. Biol. 236, 918 (1994); und Vasquez Biopolymers 36, 53–70 (1995); die alle ausdrücklich durch Verweis aufgenommen sind. Ähnliche Verfahren umfassen, sind jedoch nicht beschränkt auf OPLS-AA (Jorgensen et al., J. Am. Chem. Soc. 118, 11225–11236 (1996); W. L. Jorgensen; BOSS, Version 4.1; Yale University; New Haven, CT (1999)); OPLS (Jorgensen et al., J. Am. Chem. Soc. 110, 1657ff (1988); Jorgensen et al., J. Am. Chem. Soc. 112, 4768ff (1990)); UNRES (United Residue Forcefield; Liwo et al., Protein Science 2, 1697–1714 (1993); Liwo et al., Protein Science 2, 1715–1731 (1993); Liwo et al., J. Comp. Chem. 18, 849–873 (1997); Liwo et al., J. Comp. Chem. 18, 874–884 (1997); Liwo et al., J. Comp. Chem. 19, 259–276 (1998)); Forcefield for Protein Structure Prediction (Liwo et al., Proc. Natl. Acad. Sci. USA 96, 5482–5485 (1999)); ECEPP/3 (Liwo et al., J. Protein Chem. 13(4), 375–380 (Mai 1994)); AMBER 1.1 Kraftfeld (Weiner et al., J. Am. Chem. Soc. 106, 765–784); AMBER 3.0 Kraftfeld (U.C. Singh et al., Proc. Natl. Acad. Sci. USA 82, 755–759); CHARMM und CHARMM22 (Brooks et al., J. Comp. Chem. 4, 187–217); cvff3.0 (Dauber-Osguthorpe et al., Proteins: Structure, Function and Genetics 4, 31–47 (1988)); cff91 (Maple et al., J. Comp. Chem. 15, 162–182); auch DISCOVER- (cvff und cff91) und AMBER- Kraftfelder werden im Molekülmodellierungs-Package INSIGHT (Biosym/MSI, San Diego, Kalifornien) verwendet, und HARMM wird im Molekülmodellierungs-Package QUANTA (Biosym/MSI, San Diego, Kalifornien) verwendet.
  • Zusätzlich wird wie hierin erläutert ein bevorzugtes Verfahren zur Erstellung einer Wahrscheinlichkeitsverteilungstabelle mittels Verwendung von Sequenzabgleichprogrammen durchgeführt. Darüber hinaus kann die Wahrscheinlichkeitstabelle durch eine Kombination aus Sequenzabgleichen und Berechnungsansätzen erhalten werden. Beispielsweise können Aminosäuren, die im Abgleich homologer Sequenzen gefunden wurden, dem Resultat der Berechnung hinzugefügt werden. Vorzugsweise kann die Wildtyp-Aminosäureidentität der Wahrscheinlichkeitstabelle hinzugefügt werden, wenn sie in der Berechnung nicht vorkommt.
  • Es ist bekannt, dass eine sekundäre Bibliothek, die durch Rekombinieren von variablen Positionen und/oder Resten an der variablen Position erstellt wird, auch in einer Liste vorliegen kann, die keine Rangordnung aufweist. In manchen Ausführungsformen kann die gesamte Liste nur erstellt und getestet werden. Alternativ dazu liegt in einer bevorzugten Ausführungsform die sekundäre Bibliothek auch in Form einer Liste nach Rangordnung vor. Dies kann aus mehreren Gründen erfolgen, einschließlich des Falls, dass die Größe der sekundären Bibliothek immer noch zu groß ist, um experimentell erzeugt zu werden, oder auch, um als Vorhersage zu dienen. Dies kann auf mehrere Arten erfolgen. In einer Ausführungsform wird die sekundäre Bibliothek unter Verwendung der Berechnungsfunktionen von PDA nach Rang geordnet, um die Bibliotheksmitglieder zu listen. Alternativ dazu können statistische Verfahren verwendet werden. Beispielsweise kann die sekundäre Bibliothek durch Häufigkeitsbewertung geordnet werden; das heißt, dass Proteine, die die meisten Reste mit höchster Häufigkeit aufweisen, höher in der Rangordnung angesetzt werden können usw. Dies kann unter Addition oder Multiplikation der Häufigkeit an jeder variablen Position geschehen, um eine numerische Bewertung zu erstellen. Demähnlich könnten die verschiedenen Positionen der sekundären Bibliothek gewichtet und dann die Proteine bewertet werden; jene beispielsweise, die bestimmte Reste enthalten, könnten willkürlich in die Rangordnung eingefügt werden.
  • Wie hierin erläutert werden sekundäre Bibliotheken wie zuvor beschrieben rechnerisch erstellt, wobei die primäre Bibliothek rechnerisch weiter manipuliert wird, beispielsweise durch Rekombinieren der möglichen Variantenpositionen und/oder Ami nosäurereste an jeder Variantenposition oder durch Rekombinieren von Abschnitten der Sequenzen, die eine oder mehrere Variantenpositionen enthalten. Sie kann wie zuvor erläutert in eine Liste nach Rangordnung aufgenommen werden. Diese rechnerisch abgeleitete sekundäre Bibliothek kann dann experimentell durch Synthetisieren der Bibliotheksmitglieder oder Nucleinsäuren, die für diese kodieren, hergestellt werden, wie nachstehend noch ausführlicher beschrieben wird.
  • In einer bevorzugten Ausführungsform können die verschiedenen Proteinmitglieder der sekundären Bibliothek chemisch synthetisiert werden. Dies ist besonders nützlich, wenn die entworfenen Proteine kurz sind, vorzugsweise eine Länge von weniger als 150 Aminosäuren aufweisen, wobei eine Länge von weniger als 100 Aminosäuren bevorzugt wird und eine Länge von weniger als 50 Aminosäuren besonders bevorzugt wird, obwohl, wie auf dem Gebiet der Erfindung bekannt ist, auch längere Proteine chemisch oder synthetisch hergestellt werden können. Siehe beispielsweise Wilken et al., Curr. Opin. Biotechnol. 9, 412–426 (1998), hiermit ausdrücklich durch Verweis aufgenommen.
  • In einer bevorzugten Ausführungsform werden besonders für längere Proteine oder Proteine, für die größere Proben erwünscht sind, die sekundären Bibliothekssequenzen verwendet, um Nucleinsäuren wie etwa DNA zu schaffen, die für die Mitgliedersequenzen kodieren und die dann, sofern erwünscht, in Wirtszellen kloniert, exprimiert und getestet werden können. Somit können Nucleinsäuren, und insbesondere DNA, hergestellt werden, die für jede Mitgliedsproteinsequenz kodieren. Dies erfolgt unter Verwendung durchwegs bekannter Verfahren. Die Auswahl von Codons, geeigneten Expressionsvektoren und geeigneten Wirtszellen variiert je nach der Anzahl an Faktoren und kann leicht je nach Bedarf optimiert werden.
  • In einer bevorzugten Ausführungsform werden multiple PCR-Reaktionen mit gepoolten Oligonucleotiden durchgeführt, wie dies allgemein in 1 abgebildet ist. In dieser Ausführungsform werden überlappende Oligonucleotide synthetisiert, die dem Gen voller Länge entsprechen. Diese Oligonucleotide können wiederum alle der ver schiedenen Aminosäuren an jeder Variantenposition oder eine Teilmenge davon darstellen.
  • In einer bevorzugten Ausführungsform werden diese Oligonucleotide in gleichen Proportionen gepoolt, und Mehrfach-PCR-Reaktionen werden durchgeführt, um Volllängensequenzen zu schaffen, die jene Kombinationen von Mutationen enthalten, die durch die sekundäre Bibliothek definiert sind. Zusätzlich kann dies unter Verwendung von fehlerauslösenden PCR-Verfahren erfolgen.
  • In einer bevorzugten Ausführungsform werden die verschiedenen Oligonucleotide in relativen Mengen zugesetzt, die der Wahrscheinlichkeitsverteilungstabelle entsprechen. Die Mehrfach-PCR-Reaktionen führen somit zu Volllängensequenzen mit den gewünschten Kombinationen von Mutationen in den gewünschten Abschnitten.
  • Die Gesamtzahl an benötigten Oligonucleotiden ist eine Funktion der Anzahl der mutierten Positionen und der Anzahl der an diesen Positionen in Betracht gezogenen Mutationen:
    (Anzahl an Oligos für konstante Positionen) + M1 + M2 + M3 + ... Mn = (Gesamtanzahl erforderlicher Oligos),
    worin Mn für die Anzahl der Mutationen steht, die an Position n in der Sequenz in Betracht gezogen werden.
  • In einer bevorzugten Ausführungsform umfasst jedes überlappende Oligonucleotid nur eine zu variierende Position; in alternativen Ausführungsformen liegen die Variantenpositionen zu eng zusammen, als dass sie dies ermöglichen könnten, und Mehrfachvarianten pro Oligonucleotid werden verwendet, um vollständige Rekombination aller Möglichkeiten zu ermöglichen. Das heißt, dass jedes Oligo das Codon für eine einzige mutierte Position oder für mehr als eine mutierte Position enthalten kann. Die mutierten Mehrfachpositionen müssen nahe beieinander liegen, um zu vermeiden, dass das Oligo eine unpraktische Länge erreicht. Bei mehreren mutierenden Positionen an einem Oligonucleotid können bestimmte Kombinationen von Mutatio nen in der Bibliothek durch Einbinden oder Ausschließen des für diese Kombination kodierenden Oligonucleotids eingebunden oder ausgeschlossen werden. Wie hierin erläutert kann beispielsweise eine Korrelation zwischen variablen Regionen bestehen; das heißt, wenn Position X ein bestimmter Rest ist, muss Position Y ein bestimmter Rest sein (oder darf dies nicht sein). Diese Sätze variabler Positionen werden hierin manchmal als "Cluster" bezeichnet. Wenn die Cluster aus nahe beieinander liegenden Resten bestehen und somit auf einem Oligonucleotidprimer Platz finden, so können die Cluster auf die "guten" Korrelationen eingestellt werden und können die schlechten Korrelationen eliminieren, die die Wirksamkeit der Bibliothek reduzieren könnten. Sind jedoch die Reste des Clusters in der Sequenz weit voneinander entfernt und befinden sich somit auf verschiedenen Oligonucleotiden zur Synthese, so kann es wünschenswert sein, entweder die Reste auf die "gute" Korrelation einzustellen oder sie als variable Reste zur Gänze zu entfernen. In einer alternativen Ausführungsform kann die Bibliothek in mehreren Schritten erstellt werden, so dass die Clustermutationen nur zusammen aufscheinen. Dieses Verfahren, d.h. das Verfahren zur Identifikation von Mutationsclustern und entweder zum Platzieren dieser auf denselben Oligonucleotiden oder zum Eliminieren dieser aus der Bibliothek, oder Bibliothekserstellung in mehreren Schritten unter Erhaltung von Clustern kann die experimentelle Bibliothek mit korrekt gefalteten Proteinen beträchtlich bereichern. Die Identifikation von Clustern kann auf zahlreiche Wege erfolgen, z.B. mittels Verwendung bekannter Mustererkennungsverfahren, mittels Vergleichen von Häufigkeiten des Auftretens von Mutationen oder mittels Anwendung von Energieanalyse der Sequenzen, die es experimentell zu bilden gilt (ist beispielsweise die Wechselwirkungsenergie hoch, korrelieren die Positionen miteinander). Diese Korrelationen können Positionskorrelationen (z.B. variable Positionen 1 und 2 verändern sich immer zusammen oder nie zusammen) oder Sequenzkorrelationen sein (z.B. wenn es einen Rest A an Position 1 gibt, gibt es immer Rest B an Position 2). Siehe Pattern Discovery in "Biomolecular Data: Tools, Techniques and Applications", Hrsg.: Jason T.L. Wang, Bruce A. Shapiro, Dennis Shasha. New York: Oxford University (1999); Andrews, Harry C., "Introduction to mathematical techniques in pattern recognition; New York, Wiley-Interscience (1972); Applications of Pattern Recognition; Hrsg.: K.S. Fu. Boca Raton, Fla. CRC Press (1982); Genetic Algorithms for Pattern Recognition; Hrsg.: Sanker K. Pal, Paul P. Wang. Boca Raton: CRC Press (1996); Pandya, Abhijit S., Pattern recognition with Neural networks in C++/Abhijit S. Pandya, Robert B. Macy. Boca Raton, Fla.; CRC Press (c1996); Handbook of pattern recognition and computer vision, Hrsg.: C.H. Chen, L.F. Pau, P.S.P. Wang, 2. Auflage, Singapore; River Edge, N.J.: World Scientific (c1999); Friedman, Introduction to Pattern Recognition: Statistical, Structural, Neural, and Fuzzy Logic Approaches; River Edge, N.J.: World Scientific (c1999), Titel der Reihe: Serien a machine perception and artificial intelligence; Bd. 32; die alle ausdrücklich hierin durch Verweis aufgenommen sind. Darüber hinaus können Programme verwendet werden, die zur Suche nach Consensus-Motiven verwendet werden.
  • Weiters können Korrelationen und Neuordnung durch Verändern des Designs von Oligonucleotiden fixiert oder optimiert werden; z.B. durch die Entscheidung, wo die Oligonucleotide (Primer) beginnen und enden (z.B. wo die Sequenzen "geschnitten" werden). Die Anfangs- und Endstellen von Oligos können so bestimmt werden, dass die Anzahl an Clustern, die in einzelnen Oligonucleotiden auftreten, maximiert wird, wodurch die Bibliothek an höher bewerteten Sequenzen angereichert wird. Verschiedene Anfangs- und Endoptionen für Oligonucleotide können rechnerisch modelliert und gemäß der Anzahl an Clustern, die auf einzelnen Oligos vorhanden sind, oder gemäß dem Prozentsatz der resultierenden Sequenzen in Übereinstimmung mit der vorhergesagten Sequenzbibliothek nach Rang geordnet werden.
  • Die Gesamtanzahl an erforderlichen Oligonucleotiden steigt, wenn für mehrfach mutierbare Positionen ein einziges Oligonucleotid kodiert. Die anellierten Regionen sind jene, die konstant bleiben, d.h. die die Sequenz der Bezugssequenz aufweisen.
  • Oligonucleotide mit Insertionen oder Deletionen von Codons können verwendet werden, um eine Bibliothek zu schaffen, die Proteine mit verschiedenen Längen exprimiert. Insbesondere rechnerisches Sequenzscreenen auf Insertionen oder Deletionen kann zu sekundären Bibliotheken führen, die Proteine mit verschiedenen Längen definieren, die durch eine Bibliothek gesammelter Oligonucleotide mit verschiedenen Längen exprimiert werden können.
  • In einer bevorzugten Ausführungsform wird die sekundäre Bibliothek durch Neukombination der Familie (z.B. eines Satzes von Varianten) erstellt, d.h. das ein bestimmter Satz der Top-Sequenzen (sofern eine Rangordnung verwendet wird) neugeordnet werden kann, entweder mit oder ohne fehlerauslösender) PCR. "Neukombination" ("shuffling") bezeichnet in diesem Zusammenhang eine Rekombination verwandter Sequenzen, im Allgemeinen nach dem Zufallsprinzip. Dies kann "Neukombinieren" wie in den US-Patenten Nr. 5.830.721; 5.811.238; 5.605.793; 5.837.458 und der PCT/US/19256, die alle zur Gänze durch Verweis ausdrücklich hierin aufgenommen sind, definiert und beschrieben umfassen. Dieser Satz von Sequenzen kann auch ein künstlicher Satz sein; beispielsweise aus einer Wahrscheinlichkeitstabelle (die z.B. unter Verwendung von SCMF erstellt wurde) oder einer Monte-Carlo-Reihe. Demähnlich kann die "Familie" die ersten und letzten zehn Sequenzen, die ersten 100 Sequenzen usw. umfassen. Dies kann auch unter Verwendung von fehlerauslösender PCR durchgeführt werden.
  • Somit erfolgt in einer bevorzugten Ausführungsform In-silico-Neukombination unter Verwendung der hierin beschriebenen rechnerischen Verfahren. Das heißt, dass ausgehend von entweder zwei Bibliotheken oder zwei Sequenzen zufällige Rekombinationen der Sequenzen gebildet und bewertet werden können.
  • In einer bevorzugten Ausführungsform wird fehlerauslösende PCR durchgeführt, um so die sekundäre Bibliothek zu erstellen. Siehe die US-Patente Nr. 5.605.793, 5.811.238 und 5.830.721, die alle hiermit durch Verweis aufgenommen sind. Dies kann an der optimalen Sequenz oder an zuoberst gereihten Bibliotheksmitgliedern oder an einer bestimmten anderen künstlichen Reihe oder Familie erfolgen. In dieser Ausführungsform kann das Gen für die optimale Sequenz, die im rechnerischen Screen der primären Bibliothek gefunden wurde, synthetisiert werden. Fehlerauslösende PCR wird dann am optimalen Sequenz-Gen in Gegenwart von Oligonucleotiden, die für die Mutationen an den Variantenpositionen der sekundären Bibliothek kodieren (Vorgaben-Oligonucleotide), durchgeführt. Der Zusatz der Oligonucleotide schafft eine Vorgabe, die die Inkorporation der Mutationen in die sekundäre Biblio thek begünstigt. Alternativ dazu können nur Oligonucleotide für bestimmte Mutationen verwendet werden, um der Bibliothek eine Vorgabe aufzuerlegen.
  • In einer bevorzugten Ausführungsform kann Genneukombination mit fehlerauslösender PCR am Gen für die optimale Sequenz in Gegenwart von Vorgaben-Oligonucleotiden durchgeführt werden, um eine DNA-Sequenzbibliothek zu schaffen, die den Anteil der Mutationen, die in der sekundären Bibliothek zu finden sind, widerspiegelt. Die Auswahl der Vorgaben-Oligonucleotide kann auf zahlreiche verschiedene Arten erfolgen; sie können auf Grundlage ihrer Häufigkeit ausgewählt werden, d.h. Oligonucleotide, die für Positionen mit hoher Mutationshäufigkeit kodieren, können verwendet werden; alternativ dazu können Oligonucleotide, die die meisten variablen Positionen enthalten, verwendet werden, sodass die Diversität gesteigert wird; wird die sekundäre Bibliothek nach Rang geordnet, so kann eine bestimmte Anzahl an Positionen mit ausgezeichneter Bewertung verwendet werden, um Vorgaben-Oligonucleotide zu bilden; zufällige Positionen können ausgewählt werden; ein paar mit ausgezeichneter Bewertung und ein paar mit niedrigerer Bewertung können ausgewählt werden, usw. Wichtig ist, neue Sequenzen auf Grundlage von bevorzugten variablen Positionen und Sequenzen zu bilden.
  • In einer bevorzugten Ausführungsform kann PCR unter Verwendung eines Wildtyp-Gens oder anderer Gene verwendet werden, wie schematisch in 5 dargestellt ist. In dieser Ausführungsform wird ein Ausgangs-Gen verwendet; im Allgemeinen, obwohl dies nicht erforderlich ist, ist das Gen das Wildtypgen. In manchen Fällen kann es das Gen sein, das für die allgemein optimierte Sequenz oder jede beliebige andere Sequenz aus der Liste kodiert. In dieser Ausführungsform werden Oligonucleotide verwendet, die den Variantenpositionen entsprechen und die verschiedenen Aminosäuren der sekundären Bibliothek enthalten. PCR erfolgt unter Verwendung von PCR-Primern an den Termini, wie auf dem Gebiet der Erfindung bekannt ist. Dies bringt zwei Vorteile; der erste ist, dass dies im Allgemeinen weniger Oligonucleotide erfordert und zu weniger Fehlern führen kann. Zweitens birgt es experimentelle Vorteile insofern, als, wenn das Wildtypgen verwendet wird, dieses nicht synthetisiert werden muss.
  • In der vorliegenden Erfindung wird die sekundäre Bibliothek neuerlich manipuliert, um eine zusätzliche sekundäre Bibliothek (manchmal hierin auch als "Tertiärbibliothek") zu bilden. Beispielsweise kann jede der sekundären Bibliothekssequenzen für einen zweiten PDA-Durchgang ausgewählt werden, durch Einfrieren oder Fixieren bestimmter oder aller veränderten Positionen in der ersten sekundären Bibliothek. Alternativ dazu sind nur Veränderungen zugelassen, die in der letzten Wahrscheinlichkeitsverteilungstabelle aufgetreten sind. Alternativ dazu kann die Stringenz der Wahrscheinlichkeitstabelle geändert werden, entweder durch Hinauf- oder Hinabsetzen des Einschluss-Cutoffs. Demähnlich kann die sekundäre Bibliothek experimentell (unter Verwendung der nachstehend erläuterten Verfahren, Mehrfach-PCR, fehlerauslösende PCR, Neukombination usw.) rekombiniert werden.
  • Somit wird in der vorliegenden Erfindung eine Tertiärbibliothek durch Rekombination der sekundären Bibliotheken erstellt. Beispielsweise kann eine Wahrscheinlichkeitsverteilungstabelle, entweder rechnerisch oder experimentell, wie hierin erläutert, aus einer sekundären Bibliothek erstellt und rekombiniert werden. Eine sekundäre PDA-Bibliothek kann mit einer sekundären Sequenzabgleich-Bibliothek kombiniert werden und entweder (wiederum rechnerisch oder experimentell) rekombiniert werden, oder es können auch nur die Cutoffs aus jeder Bibliothek verbunden werden, um eine neue Tertiärbibliothek zu schaffen. Die Top-Sequenzen aus mehreren Bibliotheken können rekombiniert werden. Primäre und sekundäre Bibliotheken können ähnlich kombiniert werden. Sequenzen aus der Spitzengruppe einer Bibliothek können mit Sequenzen aus dem unteren Teil der Bibliothek kombiniert werden, um den Sequenzraum weitläufiger zu sampeln, oder es können auch nur Sequenzen, die von der Spitzengruppe der Bibliothek weit entfernt sind, kombiniert werden. Primäre und/oder sekundäre Bibliotheken, die verschiedene Teile eines Proteins analysiert haben, können zu einer Tertiärbibliothek kombiniert werden, die die kombinierten Teile des Proteins abdeckt. Diese Kombinationen können durchgeführt werden, um große Proteine zu analysieren, insbesondere große Mehrfachdomänenproteine oder vollständige Protesomen.
  • In einer bevorzugten Ausführungsform kann eine Tertiärbibliothek unter Verwendung von Korrelationen in der sekundären Bibliothek erstellt werden. Das heißt, dass ein Rest an einer ersten variablen Position mit einem Rest an einer zweiten variablen Position in Korrelation gebracht werden kann (oder auch mit Resten an zusätzlichen Positionen in Korrelation gebracht werden kann). Beispielsweise können zwei variable Positionen sterisch oder elektrostatisch Wechselwirken, sodass, sofern der erste Rest X ist, der zweite Rest Y sein muss. Dies kann entweder eine positive oder eine negative Korrelation sein. Diese Korrelation oder "Cluster" von Resten kann sowohl nachgewiesen als auch auf zahlreiche verschiedene Arten verwendet werden. (Zur Bildung von Korrelationen, siehe den oben zitierten Stand der Technik).
  • Zusätzlich können primäre und sekundäre Bibliotheken kombiniert werden, um neue Bibliotheken zu bilden; diese können zufällige Kombinationen der Bibliotheken, eine Kombination der "Top"-Sequenzen oder eine Gewichtung der Kombinationen sein (wobei Positionen oder Reste aus der ersten Bibliothek höher bewertet werden als jene aus der zweiten Bibliothek).
  • Wie hierin erläutert kann jede beliebige Anzahl an Proteinattributen in diesen Verfahren geändert werden, einschließlich, jedoch nicht ausschließlich Enzymaktivität, Stabilität, Löslichkeit, Aggregation, Bindungsaffinität, Bindungsspezifität, Substratspezifität, Strukturintegrität, Immunogenität, Toxizität, Bildung von Peptid- und Peptidomimetika-Bibliotheken, Schaffung neuer Antikörper-CDRs, Bildung neuer DNA, RNA-Bindungen usw.
  • Es gilt anzumerken, dass therapeutische Proteine, die in diesen Verfahren verwendet werden, vorzugsweise Reste in den gescreenten hydrophoben Kernen aufweisen, um Änderungen in der molekularen Oberfläche des Proteins zu unterbinden, die immunogene Antworten induzieren könnten. Therapeutische Proteine können auch in der Region, die ihre Bindungsstellen an ihre Rezeptoren umgeben, entworfen werden. Solch eine Region kann beispielsweise durch Einbinden aller Reste innerhalb einer bestimmten Distanz in den Entwurf definiert werden, beispielsweise 4,5 Å von den Bindungsstellenresten. Dieser Bereich kann von 4 bis 6–10 Å variieren. Dieser Entwurf dient zur Verbesserung von Aktivität und Spezifität.
  • Weiters kann ein Schrittverfahren eingesetzt werden; siehe Zhao et al., Nature Biotech. 16, 258 (1998), hiermit durch Verweis aufgenommen.
  • In einer bevorzugten Ausführungsform der Erfindung werden die Verfahren der Erfindung nicht an bekannten Gerüstproteinen angewandt, sondern an zufälligen Peptiden, um eine virtuelle Bibliothek für jene Sequenzen zu durchsuchen, die wahrscheinlich eine stabile Konformation annehmen. Wie zuvor erläutert gibt es einen direkten Nutzen aus dem und daher eine Fokussierung auf das Screenen von zufälligen Peptidbibliotheken, um neue Bindungen/Modulatoren zu finden. Die Sequenzen in diesen experimentellen Bibliotheken können jedoch nur an spezifischen Stellen randomisiert werden, oder aber über die gesamte Sequenz hinweg. Die Anzahl an Sequenzen, die in diesen Bibliotheken durchsucht werden können, wächst exponentiell mit der Anzahl an Positionen, die randomisiert werden. Im Allgemeinen können aufgrund der physikalischen Einschränkungen von Laboratorien (die Größe der Instrumente, die Produktionskosten für eine große Anzahl an Biopolymeren usw.) bis zu 1012 bis 1015 Sequenzen in einer Bibliothek enthalten sein. Andere praktische Überlegungen können die Größe der Bibliotheken oft auf 106 oder weniger herabsetzen. Diese Obergrenzen werden für nur 10 Aminosäurepositionen erreicht. Daher ist nur ein spärliches Sampling von Sequenzen bei der Suche nach verbesserten Proteinen oder Peptiden in experimentellen Sequenzbibliotheken möglich, was die Erfolgschancen herabsetzt und fast gewiss zu einem Übersehen wünschenswerter Kandidaten führt. Aufgrund der Zufälligkeit der Änderungen in diesen Sequenzen sind die meisten der Kandidaten in der Bibliothek nicht geeignet, was zu einer Verschwendung eines Großteils der Bemühungen, die Bibliothek zu produzieren, führt.
  • Durch die Verwendung der automatisierten Proteinentwurfsverfahren können jedoch virtuelle Bibliotheken von Proteinsequenzen gebildet werden, die um sehr vieles größer sind als experimentelle Bibliotheken. Bis zu 1015 Kandidatensequenzen (oder mehr) können rechnerisch gescreent werden, und jene, die den Entwurfskriterien entsprechen, die stabile und funktionelle Proteine begünstigen, können leicht ausgewählt werden. Eine experimentelle Bibliothek bestehend aus den günstigen Kandidaten, die im virtuellen Bibliotheks-Screen gefunden wurden, kann dann erstellt werden, was zu einer sehr viel effizienteren Verwendung der experimentellen Bibliothek führt und die Einschränkungen zufälliger Proteinbibliotheken behebt. Somit ermöglichen die Verfahren der Erfindung das virtuelle Screenen eines Satzes zufälliger Peptide auf Peptide, die wahrscheinlich eine bestimmte Struktur annehmen, wodurch die große Zahl an nicht bevorzugten oder nicht zulässigen Konformationen eliminiert wird, ohne jedoch die Peptide herstellen und testen zu müssen.
  • Darüber hinaus ist es auch möglich, Regionen oder Domänen von Proteinen zu randomisieren.
  • Somit stellt in einer bevorzugten Ausführungsform die Erfindung Bibliotheken von vollständig definierten Sätzen von Gerüstproteinvarianten bereit, worin zumindest 85 % der möglichen Mitglieder in der Bibliothek sind, wobei zumindest etwa 90 und 95 % besonders bevorzugt sind. Es ist jedoch auch möglich, dass Fehler experimentell in die Bibliotheken eingeführt werden und die Bibliotheken somit vorzugsweise weniger als 25 % nicht definierte (z.B. Fehler-) Sequenzen enthalten; wobei weniger als 10 %, weniger als 5 % und weniger als 1 % besonders bevorzugt sind. Somit sind Bibliotheken, die alle Mitglieder sowie auch gewisse Fehlerglieder aufweisen, oder auch manche der Mitglieder sowie Fehlerglieder, hierin eingebunden.
  • Wie zuvor erwähnt ergeben sich zwei grundlegende Vorteile aus dem virtuellen Bibliotheks-Screen: (1) Der automatisierte Proteinentwurf ergibt eine Liste von Sequenzkandidaten, die dafür ausgewählt sind, dass sie den Entwurfskriterien entsprechen; auch zeigt er, welche Positionen in der Sequenz leicht zu ändern sind und welche Positionen eher unwahrscheinlich zu ändern sind, ohne dabei Proteinstabilität und -funktion zu stören. Eine experimentelle zufällige Bibliothek kann erstellt werden, die nur an den leicht änderbaren, nicht-störenden Sequenzpositionen randomisiert ist. (2) Die Vielzahl an Aminosäuren an diesen Positionen kann auf jene begrenzt werden, für die der automatisierte Entwurf zeigt, dass sie mit diesen Positionen kompati bel sind. Somit wird durch Einschränken der Anzahl an randomisierten Positionen und der Anzahl an Möglichkeiten an diesen Positionen die Anzahl verschwendeter Sequenzen, die in der experimentellen Bibliothek produziert werden, reduziert, wodurch die Wahrscheinlichkeit einer erfolgreichen Suche nach Sequenzen mit nützlichen Eigenschaften gesteigert wird.
  • Die nachstehende Tabelle beispielsweise listet die 10 bevorzugten Sequenzkandidaten aus dem virtuellen Screen von 12 Positionen in einem Protein auf. Sie zeigt, dass die Positionen 9, 10 und 12 am wahrscheinlichsten Änderungen aufweisen, die die Funktion des Proteins nicht stören, was darauf schließen lässt, dass eine zufällige experimentelle Bibliothek, die Positionen 9, 10 und 12 randomisiert, einen höheren Anteil an wünschenswerten Sequenzen aufweist. Auch lässt die virtuelle Bibliothek darauf schließen, dass Position 10 am besten mit Ile- oder Phe-Resten kompatibel ist, was die Größe der Bibliothek weiter limitiert und einen vollständigeren Screen guter Sequenzen ermöglicht.
  • Figure 00560001
  • Das automatisierte Entwurfverfahren verwendet physikalische chemische Kriterien, um Sequenzen zu screenen, was zu Sequenzen führt, die wahrscheinlich stabil und strukturiert sind und ihre Funktion, sofern erforderlich, aufrechterhalten. Verschiedene Entwurfskriterien können verwendet werden, um Kandidatensätze herzustellen, bei denen Eigenschaften wie Ladung, Löslichkeit oder Eigenschaften aktiver Stellen (Polarität, Größe) vorgegeben sind oder bei denen vorgegeben sind, dass sie bestimmte Aminosäuren an bestimmten Positionen aufweisen. Das heißt, dass die bioaktiven Kandidatenmittel und die Kandidaten-Aminosäuren randomisiert sind, entweder sind sie vollständig randomisiert oder ihre Randomisierung unterliegt einer Vorgabe, z.B. eine Häufigkeit Nucleotid/Rest, allgemein oder je nach Position. Unter "randomisiert" oder grammatikalischen Entsprechungen davon wird hierin verstanden, dass jede Nucleinsäure und jedes Peptid aus im Wesentlichen zufällig ausgewählten Nucleotiden bzw. Aminosäuren besteht. Somit kann jeder beliebige Aminosäurerest an jeder beliebigen Position. inkorporiert sein. Das Syntheseverfahren kann so gestaltet werden, dass randomisierte Peptide und/oder Nucleinsäuren hergestellt werden, um die Bildung aller oder der meisten möglichen Kombinationen über die Länge der Nucleinsäure zu ermöglichen und dadurch eine Bibliothek randomisierter Kandidaten-Nucleinsäuren zu erstellen.
  • In einer Ausführungsform ist die Bibliothek vollständig randomisiert, ohne Sequenzpräferenzen oder -konstanten an einer der Positionen. In einer bevorzugten Ausführungsform unterliegt die Bibliothek Vorgaben. Das heißt, dass manche Positionen innerhalb der Sequenz entweder konstant gehalten sind oder aus einer begrenzten Anzahl an Möglichkeiten ausgewählt werden. In einer bevorzugten Ausführungsform sind beispielsweise die Nucleotide oder Aminosäurereste innerhalb einer definierten Klasse randomisiert, beispielsweise von hydrophoben Aminosäuren, hydrophilen Resten, sterischen Vorgaben unterliegenden (entweder kleinen oder großen) Resten im Hinblick auf die Schaffung von Cysteinen zur Vernetzung, Prolinen für SH-3-Domänen, Serinen, Threoninen, Tyrosinen oder Histidinen für Phosphorylierungsstellen usw. oder hin zu Purinen usw.
  • In einer bevorzugten Ausführungsform bezieht sich die Vorgabe hin zu Peptiden oder Nucleinsäuren, die mit bekannten Klassen von Molekülen wechselwirken. Es ist beispielsweise bekannt, dass ein großer Teil intrazellulärer Signalisierung über kurze Regionen von Polypeptiden erfolgt, die mit anderen Polypeptiden über kleine Peptiddomänen wechselwirken. Für eine kurze Region aus der HIV-1-Hüllcytoplasmadomäne beispielsweise wurde bereits gezeigt, dass sie die Aktion zellulären Calmodulins blockiert. Regionen der Fas-Cytoplasmadomäne, die Homologie zum Mastoparantoxin von Wespen zeigt, können auf eine kurze Peptidregion mit todbringenden apoptotischen oder G-Protein-induzierenden Funktionen limitiert werden. Magainin, ein natürliches, von Xenopus stammendes Peptid, kann starke Antitumor- und antimikrobielle Aktivität aufweisen. Für kurze Peptidfragmente eines Proteinkinase-C-Isozyms (βPKC) wurde gezeigt, dass sie nach Stimulierung Kerntranslokation von βPKC in Xenopus-Oocyten blockieren. Und kurze SH-3-Targetpeptide wurden als Pseudosubstrate für spezifische Bindung an SH-3-Proteine verwendet. Dies ist selbstverständlich eine kurze Liste von verfügbaren Peptiden mit biologischer Aktivität, denn die Literatur auf diesem Gebiet ist sehr umfassend. Es gibt also viele Beispiele dafür, dass das Potenzial kleiner Peptide eine Wirkung auf intrazelluläre Signalisierungskaskaden ausübt. Darüber hinaus können Agonisten und Antagonisten einer beliebigen Anzahl an Molekülen ebenfalls als Grundlage für vorgegebene Randomisierung von bioaktiven Kandidatenmitteln verwendet werden.
  • Allgemein kann die Erstellung einer vorgescreenten zufälligen Peptidbibliothek wie folgt beschrieben werden. Jegliche Struktur, entweder eine bekannte Struktur, beispielsweise ein Teil eines bekannten Proteins, ein bekanntes Peptid usw. oder eine synthetische Struktur, kann als die Hauptkette für PDA verwendet werden. Beispielsweise können Strukturen aus Röntgenkristallographie-Verfahren, NMR-Verfahren, De-novo-Modellierung, Homologie-Modellierung usw. allesamt verwendet werden, um eine Hauptkette herauszusuchen, für die Sequenzen erwünscht sind. Demähnlich sind zahlreiche Moleküle oder Proteindomänen als Ausgangspunkte für die Herstellung vorgegebener, randomisierter, bioaktiver Kandidatenmittel geeignet. Eine große Anzahl an kleinen Moleküldomänen ist bekannt, die eine übliche Funktion, Struktur oder Affinität verleihen. Darüber hinaus, wie auch auf dem Gebiet der Erfindung bekannt ist, können Bereiche schwacher Aminosäurehomologie starke strukturelle Homologie aufweisen. Zahlreiche dieser Moleküle, Domänen und/oder entsprechenden Consensus-Sequenzen sind bekannt, einschließlich, jedoch nicht beschränkt auf SH- 2-Domänen, SH-3-Domänen, Pleckstrin, Todesdomänen, Proteasespaltungs/-erkennungsstellen, Enzyminhibitoren, Enzymsubstrate, Traf usw. Demähnlich gibt es zahlreiche bekannte Nucleinsäure-Bindungsproteine, die Domänen enthaften, welche zur Verwendung in der Erfindung geeignet sind. Leucinzipper-Consensus-Sequenzen beispielsweise sind bekannt.
  • Somit können im Allgemeinen bekannte Peptidliganden als Ausgangshauptkette für die Erstellung der primären Bibliothek verwendet werden.
  • Darüber hinaus können Strukturen, die bekannt dafür sind, bestimmte Konformationen anzunehmen, verwendet werden, um eine Hauptkette zu schaffen, und die Sequenzen können dann auf jene gescreent werden, die wahrscheinlich diese Konformation einnehmen. Beispielsweise gibt es eine Vielzahl von bekannten "Ministrukturen", die manchmal als "Präsentationsstrukturen" bezeichnet werden, die Konformationsstabilität verleihen oder einer zufälligen Sequenz eine Form mit erzwungener Konformation geben können. Proteine wechselwirken untereinander größtenteils über Domänen mit erzwungener Konformation. Obwohl kleine Peptide mit frei rotierenden Amino- und Carboxyl-Termini starke Funktionen haben können, wie auf dem Gebiet der Erfindung bekannt ist, ist die Umsetzung solcher Peptidstrukturen zu pharmakologischen Mitteln aufgrund der Unfähigkeit, Seitenkettenpositionen für die Synthese von Peptidomimetika vorherzusagen, schwierig. Daher ist die Darstellung von Peptiden in Strukturen mit erzwungener Konformation einerseits für die spätere Herstellung von Pharmazeutika von Nutzen und führt sehr wahrscheinlich auch zu höheren Affinitätswechselwirkungen des Peptids mit dem Targetprotein. Diese Tatsache wurde unter Verwendung biologisch hergestellter, kurzer Peptide in bakteriellen Phagensystemen in den kombinatorischen Bibliothekserstellungssystemen erkannt. Zahlreiche Forscher konstruierten kleine Domänenmoleküle, in denen randomisierte Peptidstrukturen vorhanden sein könnten.
  • Somit sind synthetische Präsentationsstrukturen, d.h. künstliche Polypeptide, in der Lage, ein randomisiertes Peptid als Domäne mit erzwungener Konformation zu präsentieren. Bevorzugte Präsentationsstrukturen maximieren die Zugänglichkeit zum Peptid durch Präsentation desselben auf einer Außenschleife. Demgemäß umfassen geeignete Präsentationsstrukturen, sind jedoch nicht beschränkt auf Minikörperstrukturen, Schleifen auf β-Faltblattknicken und superspiralisierte α-Helix-Stammstrukturen, in denen Reste, die für die Struktur nicht maßgeblich sind, randomisiert sind, Zinkfingerdomänen, Cystein-verbundene (Disulfid-) Strukturen, Transglutaminaseverbundene Strukturen, zyklische Peptide, B-Schleifenstrukturen, Helixbarrel oder -bündel, Leucinzippermotive usw.
  • In einer bevorzugten Ausführungsform ist die Präsentationsstruktur eine superspiralisierte α-Helix-Struktur, die die Präsentation des randomisierten Peptids an einer Außenschleife ermöglicht. Siehe beispielsweise Myszka et al., Biochem. 33, 2362–2373 (1994), hiermit durch Verweis aufgenommen, und 3. Unter Verwendung dieses Systems konnten Forscher Peptide isolieren, die zu Wechselwirkung mit hoher Affinität mit dem geeigneten Target in der Lage sind. Im Allgemeinen ermöglichen superspiralisierte α-Helix-Strukturen zwischen 6 bis 20 randomisierte Positionen (siehe Martin et al., EMBO J. 13(22), 5303–5309 (1994), durch Verweis aufgenommen).
  • In einer bevorzugten Ausführungsform ist die Präsentationsstruktur eine Minikörperstruktur. Ein "Minikörper" ist im Wesentlichen aus einer minimalen Antikörper-Komplementaritätsregion zusammengesetzt. Die Minikörper-Präsentationsstruktur stellt im Allgemeinen zwei randomisierende Regionen bereit, die im gefalteten Protein entlang einer einzelnen Seite der Tertiärstruktur dargestellt sind. Siehe beispielsweise Bianchi et al., J. Mol. Biol. 236(2), 649–659 (1994), und die darin zitierten Verweise, die alle durch Verweis aufgenommen sind. Forscher haben gezeigt, dass diese Minimaldomäne in Lösung stabil ist und verwendeten Phagenselektionssysteme in kombinatorischen Bibliotheken, um Minikörper mit Peptidregionen zu selektieren, die hohe Affinität, Kd = 10–7, für das entzündungsfördernde Cytokin IL-6 aufweisen.
  • Nachdem die Hauptkette ausgewählt wurde und die primäre Bibliothek der zufälligen Peptide wie zuvor erläutert erstellt wurde, wird die Erstellung und Schaffung der se kundären Bibliothek wie für das bekannte Gerüstprotein fortgesetzt, einschließlich Rekombination von Variantenpositionen und/oder Aminosäureresten auf rechnerischem oder experimentellem Weg. Wiederum können Bibliotheken von DNA, die die durch die automatisierten Proteinentwurfverfahren definierten Proteinsequenzen exprimiert, hergestellt werden. Codons können nur an den Nucleotidsequenztripletts randomisiert werden, die die durch das automatisierte Entwurfverfahren spezifizierten Restpositionen definieren. Auch könnten Gemische von Basentripletts, die für bestimmte Aminosäuren kodieren, in die DNA-Synthesereaktion eingeführt werden, um ein vollständiges Triplett anzubinden, das eine Aminosäure in einem Reaktionsschritt definiert. Auch könnte eine Bibliothek von zufälligen DNA-Oligomeren entworfen werden, die den gewünschten Positionen Vorgaben in Richtung bestimmter Aminosäuren auferlegt oder die jene Positionen auf bestimmte Aminosäuren beschränkt. Die betreffenden Aminosäuren wären in diesem Fall jene, die im virtuellen Screen spezifiziert wurden, oder eine Teilmenge davon.
  • Mehrfach-DNA-Bibliotheken, die für verschiedene Teilmengen von Aminosäuren an bestimmten Positionen kodieren, werden synthetisiert, um die gewünschte Vielfalt an Aminosäuren zu ermöglichen, ohne das Codon vollständig randomisieren zu müssen und dadurch Sequenzen in der Bibliothek an Stoppcodons, Rasterverschiebungen, unerwünschte Aminosäuren usw. zu verlieren. Dies kann durch Schaffen einer Bibliothek erfolgen, die sonst an jeder Position zu randomisieren wäre und nun nur an einer oder zwei der Positionen des Tripletts randomisiert wird, wobei die Position(en), die konstant belassen werden, jene sind, die die Aminosäuren, welche an dieser Position angenammen werden, gemeinsam haben. Mehrfach-DNA-Bibliotheken werden geschaffen, um sicherzustellen, dass alle gewünschten Aminosäuren an jeder Position in der Sammelbibliothek vorhanden sind. Alternativ dazu kann "Neukombination", wie im Allgemeinen auf dem Gebiet der Erfindung bekannt, mit Mehrfachbibliotheken durchgeführt werden. Darüber hinaus kann auch In-silico-Neukombination erfolgen.
  • Alternativ dazu können die randomisierten Peptidbibliotheken unter Verwendung der Häufigkeitstabelle und experimenteller Herstellungsverfahren einschließlich Mehrfach-PCR, Neukombination usw. erstellt werden.
  • Es gibt zahlreiche verschiedene experimentelle Verfahren, die verwendet werden können, um die Bibliotheken der Erfindung experimentell zu erstellen, umfassend, jedoch nicht darauf beschränkt, Rachitt-Enchira (http://www.enchira.com/gene shuffling.htm); fehlerauslösende PCR, beispielsweise unter Verwendung modifizierter Nucleotide; bekannte Mutageneseverfahren einschließlich der Verwendung von Mehrfach-Kassetten; DNA-Neukombination (Crameri et al., Nature 391(6664), 288–291 (1998)); heterogene DNA-Proben (US5939250); ITCHY (Ostermeier et al., Nat. Biotechnol. 17(12), 1205–1209 (1999)); StEP (Zhao et al., Nat. Biotechnol. 16(3), 258–261 (1998)); GSSM (US6171820, US5965408); homologe In-vivo-Rekombination, Ligase-unterstützte Genanordnung, End-komplementäre PCR, Profusion (Roberts & Szostak, Proc. Natl: Acad. Sci. USA 94(23), 12297–12302 (1997)); Hefe/Bakterien-Oberflächendisplay (Lu et al., Biotechnology (NY) 13(4), 366–372 (1995); Seed & Aruffo, Proc. Natl. Acad. Sci. USA 84(10), 3365–3369 (1987); Boder & Wittrup, Nat. Biotechnol. 15(6), 553–557 (1997)).
  • Unter Verwendung der Nucleinsäuren der vorliegenden Erfindung, die für Bibliotheksmitglieder kodieren, können zahlreiche verschiedene Expressionsvektoren hergestellt werden. Die Expressionsvektoren können entweder selbst-replizierende extrachromosomale Vektoren oder Vektoren, die sich in ein Wirtsgenom integrieren, sein. Im Allgemeinen umfassen diese Expressionsvektoren Transkriptions- und Translations-Regulations-Nucleinsäure, die operabel an die Nucleinsäure gebunden ist, die für das Bibliotheksprotein kodiert. Die Bezeichnung "Kontrollsequenzen" bezieht sich auf DNA-Sequenzen, die für die Expression einer operabel gebundenen Kodiersequenz in einem bestimmten Wirtsorganismus erforderlich sind. Die Kontrollsequenzen, die beispielsweise für Prokaryoten geeignet sind, umfassen einen Promotor, gegebenenfalls eine Operatorsequenz, und eine Ribosom-Bindungsstelle. Eukaryotische Zellen sind bekannt dafür, Promotoren, Polyadenylierungssignale und Enhancer zu verwenden.
  • Nucleinsäure ist "operabel gebunden", wenn sie in eine funktionelle Beziehung mit einer anderen Nucleinsäuresequenz gebracht wird. Beispielsweise ist DNA für eine Präsequenz- oder für Sekretionsleader operabel an DNA für ein Polypeptid gebun den, wenn sie als Präprotein exprimiert wird, das an der Sekretion des Polypeptids beteiligt ist; ein Promotor oder Enhancer ist operabel an eine Kodiersequenz gebunden, wenn er die Transkription der Sequenz beeinflusst; oder eine Ribosombindungsstelle ist operabel an eine Kodiersequenz gebunden, wenn sie so positioniert ist, dass sie Translation erleichtert. Im Allgemeinen bedeutet "operabel gebunden", dass die gebundenen DNA-Sequenzen zusammenhängend sind und, im Fall von Sekretionsleader, zusammenhängend und in Lesephase sind. Enhancer jedoch müssen nicht unbedingt zusammenhängend sein. Die Bindung erfolgt durch Ligation an herkömmlichen Restriktionsstellen. Sind solche Stellen nicht vorhanden, so werden die synthetischen Oligonucleotidadaptoren oder -linker gemäß der herkömmlichen Praxis verwendet. Die Transkriptions- und Translations-Regulations-Nucleinsäure ist im Allgemeinen für die Wirtszelle geeignet, die verwendet wird, um das Bibliotheksprotein zu exprimieren, wie Fachleuten bekannt sein wird; beispielsweise werden Transkriptions- und Translations-Regulations-Nucleinsäuresequenzen von Bacillus vorzugsweise verwendet, um das Bibliotheksprotein in Bacillus zu exprimieren. Zahlreiche Arten passender Expressionsvektoren und geeigneter Regulationssequenzen sind auf dem Gebiet der Erfindung für zahlreiche verschiedene Wirtszellen bekannt.
  • Im Allgemeinen können die Transkriptions- und Translations-Regulationssequenzen Promotorsequenzen, Ribosombindungsstellen, Transkriptionsstart- und -stoppsequenzen, Translationsstart- und -stoppsequenzen und Enhancer- oder Aktivatorsequenzen umfassen, sind jedoch nicht darauf beschränkt. In einer bevorzugten Ausführungsform umfassen die Regulationssequenzen einen Promotor und Transkriptionsstart- und -stoppsequenzen.
  • Promotorsequenzen umfassen konstitutive und induzierbare Promotorsequenzen. Die Promotoren können entweder natürlich vorkommende Promotoren, Hybridpromotoren oder synthetische Promotoren sein. Hybridpromotoren, die Elemente von mehr als einem Promotor kombinieren, sind auf dem Gebiet der Erfindung auch bekannt und sind in der vorliegenden Erfindung nützlich.
  • Darüber hinaus kann der Expressionsvektor zusätzliche Elemente umfassen. Beispielsweise kann der Expressionsvektor zwei Replikationssysteme aufweisen, was ihm ermöglicht, in zwei Organismen erhalten zu bleiben, beispielsweise in Säugetier- oder Insektenzellen für Expression und in einem prokaryotischen Wirt für Klonieren und Amplifikation. Weiters enthält im Fall von integrierenden Expressionsvektoren der Expressionsvektor zumindest eine Sequenz, die homolog zum Wirtszellengenom ist, und vorzugsweise zwei homologe Sequenzen, die das Expressionskonstrukt flankieren. Der integrierende Vektor kann durch Selektion der geeigneten homologen Sequenz zur Einbindung in den Vektor auf einen spezifischen Locus in der Wirtszelle gerichtet sein. Konstrukte für integrierende Vektoren und geeignete Selektions- und Screening-Arbeitsvorschriften sind auf dem Gebiet der Erfindung bekannt und werden z.B. in Mansour et al., Cell 51, 503 (1988) und Murray, Gene Transfer and Expression Protocols, Methods in Molecular Biology, Bd. 7, Clifton: Humana Press (1991)) beschrieben.
  • Weiters enthält in einer bevorzugten Ausführungsform der Expressionsvektor ein Selektionsgen, das die Selektion transformierter Wirtszellen, die den Expressionsvektor enthalten, ermöglicht und, insbesondere im Fall von Säugetierzellen, die Stabilität des Vektors sicherstellt, da Zellen, die den Vektor nicht enthalten, im Allgemeinen sterben. Selektionsgene sind auf dem Gebiet der Erfindung bekannt und variieren je nach verwendeter Wirtszelle. Unter "Selektionsgen" wird hierin jedes beliebige Gen verstanden, das für ein Genprodukt kodiert, das gegenüber einem Selektionsmittel Resistenz verleiht. Geeignete Selektionsmittel umfassen, sind jedoch nicht beschränkt auf Neomycin (oder sein Analogon G418), Blasticidin S, Histinidol D, Bleomycin, Puromycin, Hygromycin B und andere Wirkstoffe.
  • In einer bevorzugten Ausführungsform enthält der Expressionsvektor eine RNA-Spleißsequenz stromauf oder stromab des zu exprimierenden Gens, um das Ausmaß der Genexpression zu steigern. Siehe Barnet et al., Nucleic Acids Res. (1991); Groos et al., Mol. Cell. Biol. (1987); und Budiman et al., Mol. Cell. Biol. (1988).
  • Ein bevorzugtes Expressionsvektorsystem ist ein retrovirales Vektorsystem, wie es beispielsweise in Mann et al., Cell 33, 153–159 (1993); Pear et al., Proc. Natl. Acad. Sci. USA 90(18), 8392–8396 (1993); Kitamura et al., Proc. Natl. Acad. Sci. USA 92, 9146–9150 (1995); Kinsella et al., Human Gene Therapy 7, 1405–1413; Hofmann et al., Proc. Natl. Acad. Sci. USA 93, 5185–5190; Croate et al., Human Gene Therapy 7, 2247 (1996); PCT/US97/01019 und PCT/US97/01048 und den darin zitierten Verweisen, die alle hiermit ausdrücklich durch Verweis aufgenommen sind, beschrieben wird.
  • Die Bibliotheksproteine der vorliegenden Erfindung werden durch Kultivieren einer mit Nucleinsäure transformierten Wirtszelle, vorzugsweise eines Expressionsvektors, der Nucleinsäure enthält, die für ein Bibliotheksprotein kodiert, unter Bedingungen, die zur Induktion oder Verursachung von Expression des Bibliotheksproteins geeignet sind, hergestellt. Die für Bibliotheksproteinexpression geeigneten Bedingungen variieren mit der Auswahl des Expressionsvektors und der Wirtszelle und können von Fachleuten mittels routinemäßiger Experimentation bestimmt werden. Beispielsweise erfordert die Verwendung von konstitutiven Promotoren im Expressionsvektor die Optimierung des Wachstums und der Proliferation der Wirtszelle, während die Verwendung eines induzierbaren Promotors die geeigneten Wachstumsbedingungen für Induktion erfordert. Darüber hinaus ist in manchen Ausführungsformen der Zeitpunkt der Ernte wichtig. Beispielsweise sind die Baculovirus-Systeme, die bei Insektenzellexpression verwendet werden, lytische Viren, und somit kann die Auswahl der Erntezeit für die Produktausbeute essenziell sein.
  • Fachleuten ist bekannt, dass die Art der in der vorliegenden Erfindung verwendeten Zellen sehr stark variieren kann. Prinzipiell kann eine große Vielzahl geeigneter Wirtszellen verwendet werden, einschließlich Hefe, Bakterien, Archaebakterien, Pilzen und Insekten- und Tierzellen, einschließlich Säugetierzellen. Von besonderem Interesse sind Drosophila-melanogaster-Zellen, Saccharomyces cerevisiae und andere Hefearten, E. coli, Bacillus subtilis, SF9-Zellen, C129-Zellen, Neurospora, BHK, CHO, COS und HeLa-Zellen, Fibroblasten, Schwannoma-Zelllinien, sich unbegrenzt vermehrende Knochenmarks- und Lymphzelllinien, Jurkat-Zellen, Mastzellen und an dere endokrine und exokrine Zellen sowie Neuronalzellen. Siehe den ATCC-Zelllinienkatalog, der hiermit ausdrücklich durch Verweis aufgenommen ist. Weiters ist die Expression der sekundären Bibliotheken in Phagendisplaysystemen, wie auf dem Gebiet der Erfindung bekannt, besonders bevorzugt, insbesondere, wenn die sekundäre Bibliothek randomisierte Peptide umfasst. In einer Ausführungsform können die Zellen gentechnisch verändert sein, das heißt, sie können exogene Nucleinsäure enthalten, beispielsweise um Targetmoleküle zu enthalten.
  • In einer bevorzugten Ausführungsform werden die Bibliotheksproteine in Säugetierzellen exprimiert. Jede beliebige Säugetierzelle kann verwendet werden, wobei Mäuse-, Ratten-, Primaten- und Menschenzellen besonders bevorzugt sind, obwohl, wie Fachleuten bekannt sein wird, Modifikationen des Systems durch den Einsatz von Pseudotypen die Verwendung aller eukaryotischen Zellen, vorzugsweise höherer Eukaryoten, ermöglicht. Wie nachstehend noch ausführlicher beschrieben wird, wird ein Screen so erstellt, dass die Zellen einen selektierbaren Phänotypen in Gegenwart eines zufälligen Bibliotheksmitglied aufweist. Wie nachstehend noch ausführlicher beschrieben wird, sind Zelltypen, die in zahlreiche verschiedene Erkrankungszustände eingebunden sind, besonders nützlich, solange ein geeigneter Screen entworfen werden kann, um die Selektion von Zellen zu ermöglichen, die als Konsequenz der Gegenwart eines Bibliotheksmitglieds innerhalb der Zelle einen veränderten Phänotyp aufweisen.
  • Demgemäß umfassen geeignete Säugetierzelltypen Tumorzellen aller Typen (insbesondere Melanom, Knochenmarkleukämie, Karzinome der Lunge, Brust, Eierstöcke, des Kolons, der Niere, Prostata, Pankreas und Hoden), Cardiomyozyten, Endothelzellen, Epithelzellen, Lymphozyten (T-Zellen und B-Zellen), Mastzellen, Eosinophile, Blutgefäßinnenhautzellen, Hepatozyten, Leukoyten einschließlich mononukleare Leukoyten, Stammzellen wie z.B. blutbildende, neurale, Haut-, Lungen-, Nieren-, Leber- und Muskelstammzellen (zur Verwendung beim Screenen auf Differenzierungs- und Entdifferenzierungsfaktoren), Osteoklasten, Chondrozyten und andere Bindegewebezellen, Keratinozyten, Melanozyten, Leberzellen, Nierenzellen und Adipozyten, sind jedoch nicht beschränkt darauf. Geeignete Zellen umfassen auch For schungszellen, umfassend, jedoch nicht beschränkt auf Jurkat-T-Zellen, NIH3T3-Zellen, CHO, COS usw. Siehe den ATCC-Zelllinienkatalog, der hiermit ausdrücklich durch Verweis aufgenommen ist.
  • Säugetierexpressionssysteme sind auf dem Gebiet der Erfindung bekannt und umfassen retrovirale Systeme. Ein Säugetierpromotor ist jegliche DNA-Sequenz, die in der Lage ist, Säugetier-RNA-Polymerase zu binden und die Stromab-(3'-)-Transkription einer Kodiersequenz für Bibliotheksprotein zu mRNA zu initiieren. Ein Promotor weist eine Transkriptionsinitiationsregion, die üblicherweise proximal zu dem 5'-Ende der Kodiersequenz platziert ist, und eine TATA-Box auf, wobei 25–30 Basenpaare stromab von der Transkriptionsinitiationsstelle angeordnet verwendet werden. Von der TATA-Box wird angenommen, dass sie RNA-Polymerase II steuert, sodass sie RNA-Synthese an der korrekten Stelle beginnt. Ein Säugetierpromotor enthält auch ein Stromauf-Promotorelement (Enhancer-Element), das typischerweise innerhalb von 100 bis 200 Basenpaaren stromauf von der TATA-Box angeordnet ist. Ein Stromauf-Promotorelement bestimmt die Geschwindigkeit, mit der Transkription initiiert wird, und kann in beide Richtungen wirken. Von besonders großer Nützlichkeit als Säugetierpromotoren sind die Promotoren aus Säugetierviralgenen, da die Viralgene häufig stark exprimiert werden und eine breite Palette an Wirten aufweisen. Beispiele umfassen den frühen SV40-Promotor, Mäusebrusttumorvirus-LTR-Promotor, den späten Adenovirus-Hauptpromotor, Herpes-Simplex-Viruspromotor und den CMV-Promotor.
  • Typischerweise sind Transkriptionsterminations- und Polyadenylierungssequenzen, die durch Säugetierzellen erkannt werden, Regulationsregionen, die 3' zum Translationsstoppcodon angeordnet sind und somit zusammen mit den Promotorelementen die Kodiersequenz flankieren. Der 3'-Terminus der reifen mRNA wird durch ortsspezifische, posttranslationale Spaltung und Polyadenylierung gebildet. Beispiele für Transkriptionsterminator- und Polyadenylierungssignale umfassen jene, die von SV40 abgeleitet sind.
  • Die Verfahren zur Einführung exogener Nucleinsäuren in Säugetierwirte sowie in andere Wirte sind auf dem Gebiet der Erfindung bekannt und variieren mit der verwendeten Wirtszelle. Verfahren umfassen Dextran-vermittelte Transfektion, Calciumphosphat-Fällung, Polybren-vermittelte Transfektion, Protoplastenfusion, Elektroporation, virale Infektion, Einkapselung des/der Polynucleotids/e in Liposomen und gerichtete Mikroinjektion der DNA in Zellkerne.
  • In einer bevorzugten Ausführungsform werden Bibliotheksproteine in bakteriellen Systemen exprimiert. Bakterielle Expressionssysteme sind auf dem Gebiet der Erfindung bekannt.
  • Ein geeigneter bakterieller Promotor ist jede beliebige Nucleinsäuresequenz, die in der Lage ist, bakterielle RNA-Polymerase zu binden und die Stromab- (3'-) Transkription der Kodiersequenz von Bibliotheksprotein zu mRNA zu initiieren. Ein bakterieller Promotor weist eine Transkriptionsinitiationsregion auf, die üblicherweise proximal zum 5'-Ende der Kodiersequenz platziert ist. Diese Transkriptionsinitiationsregion umfasst typischerweise eine RNA-Polymerase-Bindungsstelle und eine Transkriptionsinitiationsstelle. Sequenzen, die für Stoffwechselwegenzyme kodieren, liefern besonders nützliche Promotorsequenzen. Beispiele umfassen Promotorsequenzen, die von Zuckerstoffwechselenzymen wie z.B. Galactose, Lactose und Maltose abstammen, und Sequenzen, die von biosynthetischen Enzymen wie z.B. Tryptophan abstammen. Promotoren von Bakteriophagen können auch verwendet werden, wie auf dem Gebiet der Erfindung bekannt ist. Weiters sind auch synthetische Promotoren und Hybridpromotoren nützlich; der tac-Promotor beispielsweise ist ein Hybrid der trp- und lac-Promotorsequenzen. Weiters kann ein bakterieller Promotor natürlich vorkommende Promotoren von nicht-bakteriellem Ursprung umfassen, die die Fähigkeit besitzen, bakterielle RNA-Polymerase zu binden und Transkription zu initiieren.
  • Zusätzlich zu einer funktionierenden Promotorsequenz ist eine wirksame Ribosom-Bindungsstelle wünschenswert. In E. coli ist die Ribosom-Bindungsstelle als die Shine-Delgarno- (SD-) Sequenz benannt und umfasst ein Startcodon und eine 3–9 Nucleotide lange Sequenz, die 3–11 Nucleotide stromauf vom Startcodon angeordnet ist.
  • Der Expressionsvektor kann auch eine Signalpeptidsequenz umfassen, die für die Sekretion des Bibliothekproteins in Bakterien sorgt. Die Signalsequenz kodiert typischerweise für ein Signalpeptid, das aus hydrophoben Aminosäuren besteht, die die Sekretion des Proteins aus der Zelle steuern, wie auf dem Gebiet der Erfindung bekannt ist. Das Protein wird entweder in das Wachstumsmedium (gram-positive Bakterien) oder in den periplasmatischen Raum zwischen der inneren und der äußeren Membran der Zelle (gram-negative Bakterien) sekretiert.
  • Der bakterielle Expressionsvektor kann auch ein selektierbares Markergen umfassen, um die Selektion von Bakterienstämmen zu ermöglichen, die transformiert worden sind. Geeignete Selektionsgene umfassen Gene, die die Bakterien resistent gegen Wirkstoffe wie Ampicillin, Chloramphenicol, Erythromycin, Kanamycin, Neomycin und Tetracylin machen. Selektierbare Marker umfassen auch biosynthetische Gene, wie z.B. jene in den biosynthetischen Histidin-, Tryptophan- und Leucin-Stoffwechselwegen.
  • Diese Komponenten werden zu Expressionsvektoren assembliert. Expressionsvektoren für Bakterien sind auf dem Gebiet der Erfindung bekannt und umfassen u.a. Vektoren für Bacillus subtilis, E. coli, Streptococcus cremoris und Streptococcus lividans.
  • Die bakteriellen Expressionsvektoren werden unter Verwendung von Verfahren, die auf dem Gebiet der Erfindung bekannt sind, z.B. Calciumchloridbehandlung, Elektroporation und dergleichen, in bakterielle Wirtszellen transformiert.
  • In einer Ausführungsform werden Bibliotheksproteine in Insektenzellen produziert. Expressionsvektoren für die Transformation von Insektenzellen, insbesondere Baculovirus-basierte Expressionsvektoren, sind auf dem Gebiet der Erfindung bekannt und werden z.B. von O'Reilly et al., Baculovirus Expression Vectors: A Laboratory Manual; New York: Oxford University Press (1994) beschrieben.
  • In einer bevorzugten Ausführungsform wird Bibliotheksprotein in Hefezellen produziert. Hefeexpressionssysteme sind auf dem Gebiet der Erfindung bekannt und umfassen Expressionsvektoren für Saccharomyces cerevisiae, Candida albicans und C. maltosa, Hansenula polymorpha, Kluyveromyces fragilis und K. lactis, Pichia guillerimondii und P. pastoris, Schizosaccharomyces pombe und Yarrowia lipolytica. Bevorzugte Promotorsequenzen für Expression in Hefe umfassen den induzierbaren GAL-1,10-Promotor, die Promotoren aus dem Alkoholdehydrogenase-, Enolase-, Glucokinase-, Glucose-6-phosphatisomerase-, Glyceraldehyd-3-phosphatdehydrogenase-, Hexokinase-, Phosphofructokinase-, 3-Phosphoglyceratmutase-, Pyruvatkinase- und dem Saure-Phosphatase-Gen. Selektierbare Hefemarker umfassen ADE2, HIS4, LEU2, TRP1 und ALG7, die Resistenz gegenüber Tunicamycin verleihen; das Neomycin-Phosphotransferase-Gen, das Resistenz gegenüber G418 verleiht; und das CUP1-Gen, das Hefe ermöglicht, in Gegenwart von Kupferionen zu wachsen.
  • Das Bibliotheksprotein kann unter Verwendung von auf dem Gebiet der Erfindung bekannten Verfahren auch als ein Fusionsprotein hergestellt werden. Somit kann beispielsweise für die Bildung monoklonaler Antikörper, sofern das gewünschte Epitop klein ist, das Bibliotheksprotein an ein Trägerprotein fusioniert werden, um ein Immunogen zu bilden. Alternativ dazu kann das Bibliotheksprotein als Fusionsprotein erzeugt werden, um Expression zu steigern oder auch aus anderen Gründen. Wenn das Bibliotheksprotein beispielsweise ein Bibliothekspeptid ist, kann die für das Peptid kodierende Nucleinsäure für Expressionszwecke an eine andere Nucleinsäure ge bunden werden. Demähnlich können andere Fusionspartner verwendet werden, wie z.B. Targeting-Sequenzen, die die Anordnung der Bibliotheksmitglieder in ein subzelluläres oder extrazelluläres Kompartiment der Zelle zu ermöglichen, Gewinnungssequenzen oder Reinigungs-Markierungen, die die Reinigung oder Isolierung entweder des Bibliotheksproteins oder der dafür kodierenden Nucleinsäuren ermöglichen; Stabilitäts-Sequenzen, die dem Bibliotheksprotein oder der für dieses kodierenden Nucleinsäure Stabilität oder Schutz vor Abbau, beispielsweise Resistenz gegenüber proteolytischem Abbau, verleihen, oder Kombinationen von diesen, sowie, je nach Bedarf, Linker-Sequenzen.
  • Somit umfassen geeignete Targeting-Sequenzen Bindungssequenzen, die in der Lage sind, Bindung des Expressionsprodukts an ein vorbestimmtes Molekül oder eine Klasse von Molekülen zu verursachen, während sie Bioaktivität des Expressionsprodukts aufrechterhalten, (beispielsweise unter Verwendung von Enzyminhibitor- oder -substratsequenzen, um diese auf relevante Enzyme zu richten); Sequenzen, die selektive Degeneration von sich selbst oder co-gebundenen Proteinen signalisieren; und Signalsequenzen, die in der Lage sind, die Kandidaten-Expressionsprodukte an einem vorbestimmten Zellort anzuordnen, umfassend a) subzelluläre Positionen, wie z.B. Golgi-Komplex, endoplasmatisches Retikulum, Nucleus, Nucleoli, Zellmembran, Mitochondrien, Chloroplasten, Sekretionsvesikel, Lysosom und Zellmembran; und b) extrazelluläre Positionen über ein Sekretionssignal; sind jedoch nicht darauf beschränkt. Besonders bevorzugt ist eine Lokalisierung entweder an subzellulären Orten oder außerhalb der Zelle über Sekretion.
  • In einer bevorzugten Ausführungsform umfasst das Bibliotheksmitglied eine Gewinnungssequenz. Eine Gewinnungssequenz ist eine Sequenz, die verwendet werden kann, um entweder das Kandidatenmittel oder die dafür kodierende Nucleinsäure zu reinigen oder zu isolieren. So umfassen Peptid-Gewinnungssequenzen beispielsweise Reinigungssequenzen wie die His6-Markierung zur Verwendung mit Ni-Affinitätssäulen und Epitopmarkierungen für Detektion, Immunfällung oder FACS (fluoreszenzaktiviertes Zellsortieren). Geeignete Epitopmarkierungen umfassen myc (zur Verwendung mit dem im Handel erhältlichen 9E10-Antikörper), die BSP-Biotinylierungs-Targetsequenz des bakteriellen Enzyms BirA, flu-Markierungen, lacZ und GST.
  • Alternativ dazu kann die Gewinnungssequenz eine einzelne Oligonucleotidsequenz sein, die als Sonden-Targetstelle dient, um rasches und einfaches Isolieren des retroviralen Konstrukts über PCR, damit verwandte Verfahren oder Hybridisierung zu ermöglichen.
  • In einer bevorzugten Ausführungsform ist der Fusionspartner eine Stabilitätssequenz, um dem Bibliotheksmitglied oder der dafür kodierenden Nucleinsäure Stabilität zu verleihen. So können beispielsweise Peptide durch die Inkorporation von Glyci nen nach dem Initiations-Methionin (MG oder MGG0) zum Schutz des Peptids vor Ubiquitinierung, gemäß der N-End-Regel nach Varshavsky, stabilisiert werden, wodurch längere Halbwertszeit im Cytoplasma verliehen wird. Demähnlich ergeben zwei Proline am C-Terminus Peptide, die gegenüber Carboxypeptidase-Einwirkung weitgehend resistent sind. Die Gegenwart von zwei Glycinen vor den Prolinen verleiht einerseits Flexibilität und unterbindet andererseits, dass sich Strukturinitiationsereignisse im Diprolin in die Kandidatenpeptidstruktur hinein ausbreiten. Somit lauten bevorzugte Stabilitätssequenzen wie folgt: MG(X)nGGPP, worin X eine beliebige Aminosäure ist und n für eine ganze Zahl von zumindest 4 steht.
  • In einer Ausführungsform sind die Bibliotheksnucleinsäuren, Proteine und Antikörper der Erfindung markiert. Unter "markiert" wird hierin verstanden, dass die Nucleinsäuren, Proteine und Antikörper der Erfindung zumindest ein Element, ein Isotop oder eine chemische Verbindung an sich gebunden aufweisen, das/die die Detektion dieser Nucleinsäuren, Proteine und Antikörper der Erfindung ermöglicht. Im Allgemeinen sind Markierungen drei Klassen zuzuordnen: a) Isotopenmarkierungen, die radioaktive oder schwere Isotope sein können; b) Immunmarkierungen, die Antikörper oder Antigene sein können; und c) gefärbte oder Fluoreszenzfarbstoffe. Die Markierungen können an jeder beliebigen Stelle in die Verbindung eingebunden werden.
  • In einer bevorzugten Ausführungsform wird das Bibliotheksprotein nach der Expression gereinigt oder isoliert. Bibliotheksproteine können je nachdem, welche anderen Komponenten in der Probe vorhanden sind, auf zahlreiche verschiedene Arten, die Fachleuten bekannt sind, isoliert oder gereinigt werden. Herkömmliche Reinigungsverfahren umfassen Elektrophorese, molekulare, immunologische und chromatographische Verfahren, einschließlich Ionenaustausch-, Hydrophob-, Affinitäts- und Umkehrphasen-HPLC-Chromatographie, und Chromatofokussierung. Das Bibliotheksprotein kann beispielsweise unter Verwendung einer herkömmlichen Anti-Bibliotheksantikörper-Säule gereinigt werden. Ultrafiltrations- und Diafiltrationsverfahren sind in Verbindung mit Proteineinengung auch nützlich. Allgemeine Informationen zu geeigneten Reinigungsverfahren sind in R. Scopes, Protein Purification, Springer-Verlag, NY (1982), zu finden. Der erforderliche Reinheitsgrad variiert je nach Verwendung des Bibliotheksproteins. In manchen Fällen ist auch keine Reinigung erforderlich.
  • Nachdem sie exprimiert und gereinigt (sofern erforderlich) wurden, sind die Bibliotheksproteine und Nucleinsäuren in zahlreichen Anwendungen nützlich.
  • Allgemein werden die sekundären Bibliotheken auf biologische Aktivität gescreent. Diese Screens basieren auf den ausgewählten Gerüstproteinen, wie auf dem Gebiet der Erfindung bekannt ist. Somit kann jede beliebige Zahl an Proteinaktivitäten oder -attributen getestet werden, einschließlich ihrer Bindung an bekannte Bindungselemente (beispielsweise seine Substrate, sofern es ein Enzym ist), Aktivitätsprofile, Stabilitätsprofile (pH-, Wärme- und Pufferbedingungen), Substratspezifität, Immunogenität, Toxizität usw.
  • Werden randomisierte Peptide hergestellt, so können diese auf zahlreiche verschiedene Arten verwendet werden, um auf Aktivität zu screenen. In einer bevorzugten Ausführungsform wird eine erste Vielzahl von Zellen gescreent. Das heißt, die Zellen, in die die Bibliotheksmitglieder-Nucleinsäuren eingeführt werden, werden auf geänderten Phänotyp gescreent. Somit wird in dieser Ausführungsform die Wirkung des Bibliotheksmitglieds in denselben Zellen betrachtet, in denen es gebildet wird; d.h. es handelt sich um eine autokrine Wirkung.
  • Unter "Vielzahl von Zellen" wird hierin ungefähr eine Menge von etwa 103 Zellen bis 108 oder 109 Zellen verstanden, wobei 106 bis 108 Zellen bevorzugt sind. Diese Vielzahl von Zellen bildet eine Zellbibliothek, wobei allgemein jede Zelle innerhalb der Bibliothek ein Mitglied der sekundären Bibliothek enthält, d.h. ein unterschiedliches Bibliotheksmitglied, obwohl, wie Fachleuten bekannt sein wird, manche Zellen innerhalb der Bibliothek auch keines enthalten können und manche mehr als eines enthalten können. Werden Verfahren verwendet, die nicht der retroviralen Infektion zuzuordnen sind, um die Bibliotheksmitglieder in eine Vielzahl von Zellen einzuführen, so kann die Verteilung der Bibliotheksmitglieder innerhalb der einzelnen Zellglieder der Zellbibliothek stark variieren, da es im Allgemeinen schwierig ist, die Anzahl an Nu cleinsäuren, die im Laufe der Elektroporation in eine Zelle eindringen, zu steuern, usw.
  • In einer bevorzugten Ausführungsform werden die Bibliotheksnucleinsäuren in eine erste Vielzahl von Zellen eingeführt, und die Wirkung der Bibliotheksmitglieder wird in einer zweiten oder dritten Vielzahl von Zellen, die sich von der ersten Vielzahl von Zellen unterscheiden, d.h. im Allgemeinem einem anderen Zelltyp angehören, gescreent. Das heißt, die Wirkung des Bibliotheksmitglieds ist auf eine extrazelluläre Wirkung auf eine zweite Zelle zurückzuführen; d.h. es handelt sich um eine endokrine oder parakrine Wirkung. Dies erfolgt unter Verwendung von herkömmlichen Verfahren. Die erste Vielzahl von Zellen kann in oder auf einem Medium gezüchtet werden, und das Medium wird mit einer zweiten Vielzahl von Zellen in Kontakt kommen gelassen, und die Wirkung wird gemessen. Alternativ dazu kann es zu direktem Kontakt zwischen den Zellen kommen. "Kontaktieren" bezieht sich also auf funktionellen Kontakt und bindet sowohl direkten als auch indirekten Kontakt ein. In dieser Ausführungsform kann die erste Vielzahl von Zellen gescreent werden oder nicht.
  • Sofern erforderlich werden die Zellen Bedingungen ausgesetzt, die für die Expression der Bibliotheksmitglieder (beispielsweise wenn induzierbare Promotoren verwendet werden) geeignet sind, um die Bibliotheksproteine zu produzieren.
  • Somit umfassen in einer Ausführungsform die Verfahren der vorliegenden Erfindung das Einführen einer Molekülbibliothek von Bibliotheksmitgliedern in eine Vielzahl von Zellen, eine Zellbibliothek. Die Vielzahl von Zellen wird dann, wie nachstehend noch ausführlicher erläutert wird, auf Zellen gescreent, die einen veränderten Phänotyp aufweisen. Der veränderte Phänotyp ist auf die Gegenwart eines Bibliotheksmitglieds zurückzuführen.
  • Unter "veränderter Phänotyp" oder "veränderte Physiologie" oder grammatikalische Entsprechungen wird hierin verstanden, dass der Phänotyp der Zelle auf bestimmte Weise verändert ist, vorzugsweise auf eine bestimmte nachweisbare und/oder messbare Weise. Wie Fachleute erkennen werden, ist eine Stärke der vorliegenden Erfin dung die große Vielfalt an Zelltypen und möglichen phänotypischen Veränderungen, die unter Verwendung der vorliegenden Verfahren getestet werden können. Demgemäß kann jede phänotypische Veränderung, die beobachtet, nachgewiesen oder gemessen werden kann, die Grundlage für die vorliegenden Screeningverfahren darstellen. Geeignete Phänotypveränderungen umfassen, sind jedoch nicht beschränkt auf: grundlegende physikalische Veränderungen wie Veränderungen der Zellmorphologie, des Zellwachstums, der Zelllebensfähigkeit, der Adhäsion von Substraten oder anderen Zellen und der Zelldichte; Veränderungen bezüglich der Expression von einer oder mehreren RNAs, Proteinen, Lipiden, Hormonen, Cytokinen oder anderen Molekülen; Veränderungen des Gleichgewichtszustands (d.h. der Halbwertszeit) von einer oder mehrerer RNAs, Proteinen, Lipiden, Hormonen, Cytokinen oder anderen Molekülen; Veränderungen der Lokalisierung von einer oder mehreren RNAs, Proteinen, Lipiden, Hormonen, Cytokinen oder anderen Molekülen; Veränderungen der Bioaktivität oder spezifischen Aktivität von einer oder mehreren RNAs, Proteinen, Lipiden, Hormonen, Cytokinen, Rezeptoren oder anderen Molekülen; Veränderungen der Phosphorylierung; Veränderungen bezüglich der Sekretion von Ionen, Cytokinen, Hormonen, Wachstumsfaktoren oder anderen Molekülen; Veränderungen von Zellmembranpotenzialen, Polarisierung, Integrität oder Transport; Veränderungen von Wirksamkeit, Empfindlichkeit, Latenz, Adhäsion und Aufnahme von Viren und bakteriellen Pathogenen; usw. Unter "in der Lage, den Phänotyp zu verändern" wird hierin verstanden, dass das Bibliotheksmitglied den Phänotyp der Zelle auf bestimmte nachweisbare und/oder messbare Weise verändern kann.
  • Der veränderte Phänotyp kann auf zahlreiche verschiedene Arten nachgewiesen werden, was allgemein vom zu verändernden Phänotyp abhängt und diesem entspricht. Im Allgemeinen wird der veränderte Phänotyp unter Verwendung der folgenden Mittel nachgewiesen: mikroskopische Analyse von Zellmorphologie; herkömmlicher Zelllebensfähigkeitstest, einschließlich gesteigerten Zelltods und gesteigerter Lebensfähigkeit, Zellen beispielsweise, die nun gegenüber Zelltod durch Viren, Bakterien oder bakterielle oder synthetische Toxine resistent sind; herkömmliche Markierungstests wie z.B. fluorimetrische Indikatortests auf die Gegenwart oder die Konzentration einer bestimmten Zelle oder eines Moleküls, einschließlich FACS oder ande rer Farbstofffärbeverfahren; biochemische Detektion der Expression von Targetverbindungen nach Töten der Zellen; usw. In manchen Fällen, wie hierin noch ausführlicher beschrieben wird, wird der veränderte Phänotyp in der Zelle nachgewiesen, in die die randomisierte Nucleinsäure eingeführt wurde; in anderen Ausführungsformen wird der veränderte Phänotyp in einer zweiten Zelle nachgewiesen, die auf ein bestimmtes molekulares Signal aus der ersten Zelle reagiert.
  • In einer bevorzugten Ausführungsform wird das Bibliotheksmitglied aus der positiven Zelle isoliert. Dies kann auf zahlreiche verschiedene Arten geschehen. In einer bevorzugten Ausführungsform werden Primer, die komplementär zu DNA-Regionen, die herkömmlicherweise in den Konstrukten enthalten sind, oder zu spezifischen Komponenten der Bibliothek, wie z.B. einer Gewinnungssequenz, wie zuvor definiert, sind, verwendet, um die einzelne randomisierte Sequenz zu "gewinnen". Alternativ dazu wird das Mitglied unter Verwendung einer Gewinnungsequenz isoliert. So können beispielsweise Gewinnungssequenzen, die Epitopmarkierungen oder Reinigungssequenzen umfassen, verwendet werden, um das Bibliotheksmitglied unter Verwendung von Immunfällung oder Affinitätssäulen herauszuholen. In manchen Fällen kann dies auch zum Herausfiltern anderer Elemente führen, an die sich das Bibliotheksmitglied bindet (beispielsweise das primäre Targetmolekül), sofern eine ausreichend starke Bindungswechselwirkung zwischen den Bibliotheksmitgliedern und dem Targetmolekül besteht. Alternativ dazu kann das Peptid unter Verwendung von Massenspektroskopie nachgewiesen werden.
  • Nachdem sie gewonnen wurde, wird die Sequenz des Bibliotheksmitglieds bestimmt. Diese Information kann dann auf zahlreiche verschiedene Arten genutzt werden.
  • In einer bevorzugten Ausführungsform wird das Mitglied neuerlich synthetisiert und in die Targetzellen eingeführt, um die Wirkung zu überprüfen. Dies kann unter Verwendung von Retroviren oder alternativ dazu unter Verwendung von Fusionen an das HIV-1-Tat-Protein und Analoge und verwandte Proteine erfolgen, was eine sehr hohe Aufnahme in Targetzellen ermöglicht. Siehe beispielsweise Fawell et al., PNAS USA 91, 664 (1994); Frankel et al., Cell 55, 1189 (1988); Savion et al., J. Biol. Chem. 256, 1149 (1981); Derossi et al., J. Biol. Chem. 269, 10444 (1994); und Baldin et al., EMBO J. 9, 1511 (1990); die alle durch Verweis hierin aufgenommen sind.
  • In einer bevorzugten Ausführungsform wird die Sequenz des Mitglieds verwendet, um mehr Bibliotheken zu erstellen, wie hierin erläutert wird.
  • In einer bevorzugten Ausführungsform wird das Bibliotheksmitglied verwendet, um Targetmoleküle, d.h. die Moleküle, mit denen das Mitglied wechselwirkt, zu identifizieren. Wie Fachleuten bekannt ist, kann es primäre Targetmoleküle geben, an die sich das Bibliotheksmitglied bindet oder auf die es direkt einwirkt, und es kann sekundäre Targetmoleküle geben, die Teil des Signalstoffstoffwechselwegs sind, der durch das Bibliotheksmitglied beeinflusst wird; diese können als "validierte Targets" bezeichnet werden.
  • Die Screening-Verfahren der vorliegenden- Erfindung können nützlich sein, um eine große Anzahl an Zelltypen unter zahlreichen verschiedenen Bedingungen zu screenen. Im Allgemeinen sind Wirtszellen Zellen, die in die Erkrankungszustände eingebunden sind und die unter Bedingungen getestet oder gescreent werden, die normalerweise zu nicht wünschenswerten Konsequenzen auf die Zellen führen. Wird ein geeignetes Bibliotheksmitglied gefunden, so kann die nicht wünschenswerte Wirkung reduziert oder ausgeräumt werden. Alternativ dazu können normalerweise wünschenswerte Konsequenzen reduziert oder eliminiert werden, wobei hier der zelluläre Mechanismus untersucht und einsichtig gemacht werden soll, der mit dem Erkrankungszustand oder dem Signalstoffstoffwechselweg assoziiert ist.
  • In einer bevorzugten Ausführungsform kann die Bibliothek in Form einer Testanordnung auf einen Chip oder ein Substrat aufgebracht werden, um einen "Proteinchip" oder "Biochip" herzustellen, der in Screening-Verfahren mit hohem Durchsatz (HTS-Verfahren) verwendet wird. So stellt die Erfindung Substrate mit Testanordnungen, die Bibliotheken (im Allgemeinen sekundäre oder tertiäre Bibliotheken von Proteinen) umfassen, bereit.
  • Unter "Substrat" oder "festem Träger" oder grammatikalischen Entsprechungen davon wird hierin jedes beliebige Material verstanden, das so modifiziert werden kann, dass es verschiedene einzelne Stellen enthält, die zur Anbindung oder Assoziation von Perlen geeignet sind und in zumindest einem Detektionsverfahren eingesetzt werden können. Fachleuten ist klar, dass die Anzahl möglicher Substrate sehr groß ist. Mögliche Substrate umfassen, sind jedoch nicht beschränkt auf Glas und modifiziertes oder funktionalisiertes Glas, Kunststoffe (einschließlich Acrylen, Polystyrol und Copolymere von Styrol und anderen Materialien, Polypropylen, Polyethylen, Polybutylen, Polyurethanen, Teflon®, usw.), Polysaccharide, Nylon oder Nitrocellulose, Harze, Silica oder auf Silica basierende Materialien einschließlich Silicium und modifiziertes Silicium, Kohlenstoff, Metalle, anorganische Glase, Kunststoffe, optische Faserbündel und eine Vielzahl anderer Polymere. Im Allgemeinen ermöglichen die Substrate optische Detektion und fluoreszieren selbst nicht merklich.
  • Im Allgemeinen ist das Substrat eben (planar), wenn auch Fachleuten bekannt ist, dass auch andere Konfigurationen von Substraten verwendet werden können; beispielsweise können dreidimensionale Konfigurationen verwendet werden. Demähnlich können die Testanordnungen an der inneren Oberfläche eines Röhrchens für Durchfluss-Probenanalyse platziert werden, um das Probenvolumen zu minimieren.
  • Unter "Testanordnung" wird hierin eine Vielzahl von Bibliotheksmitgliedern in einem Testanordnungsformat verstanden; die Größe der Testanordnung hängt von der Zusammensetzung und der letztendlichen Verwendung der Testanordnung ab. Es können Testanordnungen gebildet werden, die von etwa 2 verschiedenen Bibliotheksmitgliedern bis hin zu mehreren 1000 enthalten. Im Allgemeinen umfasst die Testanordnung 102 bis 108 verschiedene Proteine (alle diese Zahlen gelten pro Quadratzentimeter), wobei etwa 103 bis etwa 106 bevorzugt werden und etwa 103 bis 105 besonders bevorzugt werden. Darüber hinaus können in manchen Testanordnungen Mehrfachsubstrate, entweder aus unterschiedlichen oder aus gleichen Zusammensetzungen, verwendet werden. So können beispielsweise große Testanordnungen eine Vielzahl kleinerer Substrate enthalten.
  • Fachleuten ist bekannt, dass die Bibliotheksmitglieder entweder direkt auf dem Substrat synthetisiert werden können oder hergestellt und anschließend nach der Synthese angebunden werden können. In einer bevorzugten Ausführungsform werden Linker verwendet, um die Proteine an das Substrat zu binden, um sowohl gute Anbindung als auch ausreichend Flexibilität zu ermöglichen, um gute Wechselwirkung mit dem Targetmolekül zu erlauben und um unerwünschte Bindungsreaktionen zu unterbinden.
  • In einer bevorzugten Ausführungsform werden die Bibliotheksmitglieder zuerst synthetisiert und dann kovalent an das Substrat gebunden oder anders am Substrat immobilisiert. Dies kann auf zahlreiche verschiedene Weisen erfolgen, einschließlich bekannter Spotting-Verfahren, Tintenstrahlverfahren usw.
  • Unter "Nucleinsäure" oder "Oligonucleotid" oder grammatikalischen Entsprechungen werden hierin zumindest zwei Nucleotide verstanden, die kovalent miteinander verbunden sind. Eine Nucleinsäure der vorliegenden Erfindung enthält im Allgemeinen Phosphodiesterbindungen, obwohl in manchen Fällen, wie nachstehend erläutert, Nucleinsäureanaloge eingebunden sind, die alternierende Hauptketten aufweisen, umfassend beispielsweise Phosphoramid (Beaucage et al., Tetrahedron 49(10), 1925 (1993) und darin zitierte Verweise; Letsinger, J. Org. Chem. 35, 3800 (1970); Sprinzl et al., Eur. J. Biochem. 81, 579 (1977); Letsinger et al., Nucl. Acids Res. 14, 3487 (1986); Sawai et al., Chem. Lett. 805 (1984); Letsinger et al., J. Am. Chem. Soc. 110, 4470 (1988); und Pauwels et al., Chemica Scripta 26, 141 (1986)), Thiophosphat (Mag et al., Nucleic Acids Res. 19, 1437 (1991); und US-Patent Nr. 5.644.048), Dithiophosphat (Briu et al., J. Am. Chem. Soc. 111, 2321 (1989), O-Methylphosphoramidit-Bindungen (siehe Eckstein, Oligonucleotides and Analogues: A Practical Approach, Oxford University Press) und Peptidnucleinsäure-Hauptketten und -Bindungen (siehe Egholm, J. Am. Chem. Soc. 114, 1895 (1992); Meier et al., Chem. Int. Ed. Engl. 31, 1008 (1992); Nielsen, Nature 365, 566 (1993); Carlsson et al., Nature 380, 207 (1996), die alle durch Verweis aufgenommen sind). Andere analoge Nucleinsäuren umfassen jene mit positiven Hauptketten (Denpcy et al., Proc. Natl. Acad. Sci. USA 92, 6097 (1995); nicht-ionischen Hauptketten (US-Patente Nr. 5.386.023, 5.637.684, 5.602.240, 5.216.141 und 4.469.863; Kiedrowshi et al., Angew. Chem. Intl. Ed. English 30, 423 (1991); Letsinger et al., J. Am. Chem. Soc. 110, 4470 (1988); Letsinger et al., Nucleoside & Nucleotide 13, 1597 (1994); Kapitel 2 und 3, ASC Symposium Series 580, "Carbohydrate Modifications in Antisense Research", Ed. Y.S. Sanghui und P. Dan Cook; Mesmaeker et al., Bioorganic & Medicinal Chem. Lett. 4, 395 (1994); Jeffs et al., J. Biomolecular NMR 34, 17 (1994); Tetrahedron Lett. 37, 743 (1996)) und Nicht-Ribose-Hauptketten, einschließlich jener, die in den US-Patenten Nr. 5.235.033 und 5.034.506 und den Kapiteln 6 und 7, ASC Symposium Series 580, "Carbohydrate Modifications in Antisense Research", Ed. Y.S. Sanghui und P. Dan Cook, beschrieben werden. Nucleinsäuren, die einen oder mehrere carbozyklische Zucker enthalten, sind auch in der Definition von Nucleinsäuren enthalten (siehe Jenkins et al., Chem. Soc. Rev., 169–176 (1995)). Mehrere Nucleinsäureanaloge werden in Rawls C & E News, 35 (2. Juni 1997) beschrieben. Alle diese Verweise sind hiermit ausdrücklich durch Verweis aufgenommen. Diese Modifikationen der Ribose-Phosphat-Hauptkette können durchgeführt werden, um den Zusatz von ETMs zu erleichtern oder die Stabilität und Halbwertszeit solcher Moleküle in physiologischen Umgebungen zu steigern.
  • Wie Fachleuten bekannt ist, können alle diese Nucleinsäureanaloge Verwendung in der vorliegenden Erfindung finden. Darüber hinaus können Gemische von natürlich vorkommenden Nucleinsäuren und Analogen hergestellt werden. Alternativ dazu können Gemische verschiedener Nucleinsäureanaloge sowie Gemische aus natürlich vorkommenden Nucleinsäuren und Analogen hergestellt werden.
  • Die Nucleinsäuren können einzelsträngig oder doppelsträngig, wie spezifiziert, sein oder können Teile von sowohl doppelsträngigen als auch einzelsträngigen Sequenzen enthalten. Die Nucleinsäure kann DNA, sowohl genomisch als auch cDNA, RNA oder ein Hybrid sein, wobei die Nucleinsäure jede beliebige Kombination von Desoxyribo- und Ribonucleotiden und jede beliebige Kombination von Basen, einschließlich Uracil, Adenin, Thymin, Cytosin, Guanin, Inosin, Xathanin, Hypoxathanin, Isocytosin, Isoguanin usw. enthält. Eine bevorzugte Ausführungsform verwendet Isocytosin und Isoguanin in Nucleinsäuren, die so entworfen sind, dass sie komplementär zu anderen Sonden sind, und nicht zu Targetsequenzen, da dies nicht-spezifische Hybridisierung verringert, wie allgemein im US-Patent Nr. 5.681.702 beschrieben. Wie hierin verwendet umfasst die Bezeichnung "Nucleosid" Nucleotide sowie Nucleoside und Nucleotidanaloge sowie modifizierte Nucleoside, wie z.B. Amino-modifizierte Nucleoside. Weiters umfasst "Nucleosid" nicht natürlich vorkommende Analogstrukturen. So werden beispielsweise die einzelnen Einheiten einer Peptidnucleinsäure, die jeweils eine Base enthalten, hierin als Nucleosid bezeichnet.
  • Wie Fachleuten bekannt sein wird können die proteinhältigen Bibliotheksmitglieder an das Substrat auf zahlreiche verschiedene Weisen gebunden sein. Die Funktionalisierung von festen Trägeroberflächen wie z.B. bestimmten Polymeren, mit chemisch reaktiven Gruppen, wie z.B. Thiolen, Aminen, Carboxylen usw., ist auf dem Gebiet der Erfindung allgemein bekannt. Demgemäß können Substrate verwendet werden, die eine Oberflächenchemie aufweisen, die die Anbindung der gewünschten Funktionalität durch den Benutzer erleichtert. Einige Beispiele für diese Oberflächenchemien umfassen, sind jedoch nicht beschränkt auf Aminogruppen, einschließlich aliphatischer und aromatischer Amine, Carbonsäuren, Aldehyde, Amide, Chlormethylgruppen, Hydrazide, Hydroxylgruppen, Sulfonate und Sulfate.
  • Diese funktionellen Gruppen können verwendet werden, um eine beliebige Anzahl von verschiedenen Bibliotheken den Substraten hinzuzufügen, im Allgemeinen unter Verwendung bekannter chemischer Verfahren. Beispielsweise können Bibliotheken, die Kohlenhydrate enthalten, an einen Amino-funktionalisierten Träger gebunden werden; das Aldehyd des Kohlenhydrats wird unter Verwendung herkömmlicher Verfahren hergestellt, und dann wird das Aldehyd mit einer Aminogruppe an der Oberfläche umgesetzt. In einer alternativen Ausführungsform kann ein Sulfhydryllinker verwendet werden. Es gibt eine Anzahl an Sulfhydryl-reaktiven Linkern, die auf dem Gebiet der Erfindung bekannt sind, wie z.B. SPDP, Maleimide, α-Halogenacetyle und Pyridylsulfide (siehe beispielsweise den Pierce Chemical Company-Katalog, Abschnitt über Vernetzer, 155–200 (1994), hierin durch Verweis aufgenommen), die verwendet werden können, um Cystein-hältige Mitglieder an den Träger zu binden. Alternativ dazu kann eine Aminogruppe am Bibliotheksmitglied zur Bindung an eine Aminogruppe an der Oberfläche verwendet werden. Zahlreiche stabile bifunktionelle Gruppen sind beispielsweise auf dem Gebiet der Erfindung bekannt, einschließlich homobifunktioneller und heterobifunktioneller Linker (siehe Pierce Chemical Company-Katalog, 155–200). In einer zusätzlichen Ausführungsform können Carboxylgruppen (entweder von der Oberfläche oder vom Protein) unter Verwendung bekannter Linker derivatisiert werden (siehe den Pierce-Katalog). Beispielsweise aktivieren Carbodiimide Carboxylgruppen für den Angriff durch gute Nucleophile wie beispielsweise Amine (siehe Torchilin et al., Critical Rev. Therapeutic Drug Carrier Systems 7(4), 275–308 (1991), hierin ausdrücklich eingebunden). Weiters können Bibliotheksproteine auch unter Verwendung anderer Verfahren, die auf dem Gebiet der Erfindung bekannt sind, wie beispielsweise zur Bindung von Antikörpern an Polymere, gebunden werden; siehe Slinkin et al., Bioconj. Chem. 2, 342–348 (1991); Torchilin et al., s.o.; Trubetskoy et al., Bioconj. Chem. 3.323–327 (1992); King et al., Cancer Res. 54, 6176–6185 (1994); und Wilbur et al., Bioconjugate Chem. 5, 220–235 (1994), die alle hiermit ausdrücklich durch Verweis aufgenommen sind). Demähnlich ermöglicht, wenn die Bibliotheksmitglieder rekombinant hergestellt werden, die Verwendung von Epitopmarkierungen (FLAG, usw.) oder His6-Markierungen die Bindung der Mitglieder an die Oberfläche (d.h. mit Antikörper-beschichtete Oberflächen, Metall- (Ni-) Oberflächen usw.). Weiters ermöglicht Markieren der Bibliotheksmitglieder mit Biotin oder anderen Bindungspartnerpaaren die Verwendung von Avidin-beschichteten Oberflächen usw. Es gilt zu verstehen, dass die Proteine auf zahlreiche verschiedene Arten gebunden werden können, einschließlich jener, die oben genannt wurden. Wichtig ist, dass die Art der Bindung die Funktionalität des Proteins nicht signifikant verändert; das heißt, das Protein sollte auf solch eine flexible Art gebunden sein, die eine Wechselwirkung des Proteins mit einem Target immer noch zulässt.
  • Nachdem die Biochips hergestellt wurden, können sie in zahlreichen verschiedenen Formaten für eine Vielzahl an Zwecken verwendet werden, wie Fachleuten bekannt sein wird. Beispielsweise kann das Gerüstprotein, das als Bibliotheksausgangspunkt dient, ein Enzym sein; durch Platzieren von Bibliotheken von Varianten auf einen Chip können die Varianten auf gesteigerte Aktivität durch Zusatz von Substraten oder auf Inhibitoren gescreent werden. Demähnlich können Varianten-Bibliotheken von Ligandengerüsten auf gesteigerte oder reduzierte Bindungsaffinität für den Bindungspartner, beispielsweise einen Zelloberflächenrezeptor, gescreent werden. In dieser Ausführungsform kann so beispielsweise der extrazelluläre Abschnitt des Rezeptors der Testanordnung hinzugefügt und Bindungsaffinität unter einer beliebigen Anzahl an Bedingungen getestet werden; beispielsweise kann Bindung und/oder Aktivität unter verschiedenen pH-Bedingungen, bei verschiedenen Puffer-, Salz- oder Reagenskonzentrationen, verschiedenen Temperaturen, in Gegenwart kompetitiver Bindemittel usw. getestet werden.
  • Somit umfassen in einer bevorzugten Ausführungsform die Verfahren differenzielles Screenen, um bioaktive Mittel zu identifizieren, die in der Lage sind, sich entweder an Variantenproteine zu binden und/oder die Aktivität der Variantenproteine zu modulieren. "Modulation" in diesem Kontext umfasst sowohl eine Steigerung der Aktivität (z.B. der enzymatischen Aktivität oder der Bindungsaffinität) als auch einen Rückgang derselben.
  • Eine andere bevorzugte Ausführungsform verwendet differenzielles Screening zur Identifikation von Wirkstoffkandidaten, die sich an das native Protein binden, sich jedoch nicht an modifizierte Proteine binden können.
  • Positive Kontrollen und negative Kontrollen können in diesen Tests verwendet werden. Vorzugsweise werden alle Kontroll- und Testproben in zumindest dreifacher Ausführung durchgeführt, um statistisch signifikante Resultate zu erzielen. Inkubation aller Proben erfolgt über eine Zeitspanne hinweg, die für die Bindung des Mittels an das Protein ausreicht. Nach Inkubation werden alle Proben durch Waschen von nicht-spezifisch gebundenem Material befreit, und die Menge an gebundenem, im Allgemeinen markiertem Mittel wird bestimmt.
  • Zahlreiche andere Reagenzien können in die Screening-Tests eingebunden sein. Diese umfassen Reagenzien wie Salze, neutrale Proteine, z.B. Albumin, Detergenzien usw., die verwendet werden können, um optimale Protein-Protein-Bindung zu erleichterten und/oder nicht-spezifische oder Hintergrund-Wechselwirkungen zu ver ringern. Auch Reagenzien, die sonst die Wirksamkeit des Tests verbessern, wie beispielsweise Proteaseinhibitoren, Nucleaseinhibitoren, antimikrobielle Mittel usw., können verwendet werden. Das Gemisch von Komponenten kann in jeder beliebigen Reihenfolge zugesetzt werden, die für die erforderliche Bindung sorgt.
  • In einer bevorzugten Ausführungsform wird die Aktivität des Variantenproteins gesteigert; in einer anderen bevorzugten Ausführungsform wird die Aktivität des Variantenproteins gesenkt. Somit sind bioaktive Mittel, die Antagonisten sind, in manchen Ausführungsformen bevorzugt, während bioaktive Mittel, die Agonisten sind, in anderen Ausführungsformen bevorzugt sein können.
  • Somit werden in einer bevorzugten Ausführungsform die die sekundären oder tertiären Bibliotheken umfassenden Biochips verwendet, um Kandidatenmittel auf Bindung an Bibliotheksmitglieder zu screenen. Unter "bioaktives Kandidatenmittel" oder "Kandidatenwirkstoff" oder grammatikalischen Entsprechungen davon wird hierin jedes beliebige Molekül verstanden, z.B. Proteine (was hierin Proteine, Polypeptide und Peptide umfasst), kleine organische oder anorganische Moleküle, Polysaccharide, Polynucleotide usw., die gegen ein bestimmtes Target zu testen sind. Kandidatenmittel umfassen zahlreiche chemische Klassen. In einer bevorzugten Ausführungsform sind die Kandidatenmittel organische Moleküle, insbesondere kleine organische Moleküle, die funktionelle Gruppen umfassen, welche für strukturelle Wechselwirkung mit Proteinen erforderlich sind, insbesondere Wasserstoffbrückenbindung, und umfassen typischerweise zumindest eine Amino-, Carbonyl-, Hydroxyl- oder Carboxylgruppe, und vorzugsweise zumindest zwei der funktionellen chemischen Gruppen. Die Kandidatenmittel umfassen häufig zyklische Kohlenstoff- oder heterozyklische Strukturen und/oder aromatische oder polyaromatische Strukturen, die mit einer oder mehreren funktionellen chemischen Gruppen substituiert sind.
  • Kandidatenmittel werden aus zahlreichen verschiedenen Quellen gewonnen, wie Fachleuten bekannt sein wird, einschließlich aus Bibliotheken synthetischer oder natürlicher Verbindungen. Wie Fachleute erkennen werden, stellt die vorliegende Erfindung ein rasches und einfaches Verfahren zum Screenen jeder beliebigen Bibliothek von Kandidatenmitteln bereit, einschließlich einer Vielzahl verschiedener bekannter Bibliotheken mit kombinierten Chemietypen.
  • In einer bevorzugten Ausführungsform sind Kandidatenmittel synthetische Verbindungen. Unzählige Verfahren sind für die zufällige und gerichtete Synthese einer großen Vielzahl an organischen Verbindungen und Biomolekülen erhältlich, einschließlich der Expression randomisierter Oligonucleotide. Siehe beispielsweise die WO 94/24314, die hiermit ausdrücklich durch Verweis aufgenommen ist, worin Verfahren zur Herstellung neuer Verbindungen, einschließlich Chemieverfahren nach dem Zufallsprinzip sowie enzymatischer Verfahren, erläutert werden. Wie in der WO 94/24314 beschrieben wird, ist einer der Vorteile des vorliegenden Verfahrens, dass es nicht notwendig ist, die bioaktiven Kandidatenmittel vor dem Test zu charakterisieren; nur Kandidatenmittel, die sich an das Target binden, müssen identifiziert werden. Darüber hinaus können, wie auf dem Gebiet der Erfindung bekannt ist, Kodiermarkierungen unter Verwendung von Spaltungssynthesereaktionen durchgeführt werden, um die chemischen Gruppierungen an den Perlen im Wesentlichen zu identifizieren.
  • Alternativ dazu verwendet eine Ausführungsform Bibliotheken natürlicher Verbindungen in Form von Bakterien-, Pflanzen- und Tierextrakten, die erhältlich oder leicht herzustellen sind und an Perlen, wie im Allgemeinen auf dem Gebiet der Erfindung bekannt ist, gebunden werden können.
  • Weiters können natürliche oder synthetisch hergestellte Bibliotheken und Verbindungen leicht durch herkömmliche chemische, physikalische und biomechanische Mittel modifiziert werden. Bekannte pharmakologische Mittel können gerichteten oder zufälligen chemischen Modifikationen, einschließlich enzymatischer Modifikationen, unterzogen werden, um strukturelle Analoge herzustellen.
  • In einer bevorzugten Ausführungsform umfassen bioaktive Kandidatenmittel Proteine, Nucleinsäuren und chemische Gruppierungen.
  • In einer bevorzugten Ausführungsform sind die bioaktiven Kandidatenmittel Proteine. In einer bevorzugten Ausführungsform sind die bioaktiven Kandidatenmittel natürlich vorkommende Proteine oder Fragmente von natürlich vorkommenden Proteinen. Somit können beispielsweise Zellextrakte, die Proteine enthalten, oder zufällige oder gerichtete Spaltprodukte von proteinhältigen Zellextrakten an Perlen gebunden werden, wie nachstehend noch näher erläutert wird. Auf diese Weise können Bibliotheken prokaryotischer und eukaryotischer Proteine zum Screenen gegen jede beliebige Anzahl an Targets hergestellt werden. Besonders bevorzugt in dieser Ausführungsform werden Bibliotheken bakterieller, Pilz-, viraler und Säugetier-Proteine, wobei Letztere bevorzugt und menschliche Proteine besonders bevorzugt werden.
  • In einer bevorzugten Ausführungsform sind die bioaktiven Kandidatenmittel Peptide mit einer Länge von etwa 2 bis etwa 50 Aminosäuren, wobei etwa 5 bis etwa 30 Aminosäuren bevorzugt werden, und etwa 8 bis etwa 20 Aminosäuren besonders bevorzugt werden. Die Peptide können Spaltprodukte von natürlich vorkommenden Proteinen, wie zuvor erläutert, zufällige Peptide oder "vorgegebene" randomisierte Peptide sein. Unter "randomisiert" oder grammatikalischen Entsprechungen davon wird hierin verstanden, dass jede Nucleinsäure und jedes Peptid aus im wesentlichen zufälligen Nucleotiden bzw. Aminosäuren besteht. Da diese zufälligen Peptide (oder Nucleinsäure, wie nachstehend erläutert) im Allgemeinen chemisch synthetisiert werden, können sie jedes beliebige Nucleotid oder jede beliebige Aminosäure an jeder beliebigen Position inkorporieren. Das Syntheseverfahren kann so entworfen sein, dass randomisierte Proteine oder Nucleinsäuren hergestellt werden, um die Bildung aller oder der meisten der möglichen Kombinationen über die Länge der Sequenz zu ermöglichen und dadurch eine Bibliothek randomisierter bioaktiver, proteinhältiger Kandidatenmittel zu erstellen. Darüber hinaus können die Kandidatenmittel selbst das Produkt der Erfindung sein; das heißt, eine Bibliothek proteinhältiger Kandidatenmittel kann unter Verwendung der Verfahren der Erfindung hergestellt werden.
  • Die Bibliothek sollte eine ausreichend strukturell diverse Population randomisierter Mittel bereitstellen, um eine probabilistisch ausreichende Palette an Vielfalt zu erreichen, um Bindung an ein bestimmtes Ziel zu ermöglichen. Demgemäß muss eine Wechselwirkungsbibliothek groß genug sein, sodass zumindest eines ihrer Mitglieder eine Struktur aufweist, die im Affinität zum Target verleiht. Obwohl es schwierig ist, die erforderliche absolute Größe einer Wechselwirkungsbibliothek zu messen, liefert die Natur mit der Immunantwort einen Hinweis: eine Vielfalt von 107–108 verschiedenen Antikörpern stellt zumindest eine Kombination mit ausreichender Affinität bereit, um mit den meisten potenziellen Antigenen, denen ein Organismus ausgesetzt wird, wechselzuwirken. Bereits veröffentlichte In-vitro-Selektionsverfahren zeigten auch, dass eine Bibliotheksgröße von 107–108 ausreichend ist, um Strukturen mit Affinität zum Target zu finden. Eine Bibliothek aller Kombinationen eines Peptids mit einer Länge von 7 bis 20 Aminosäuren, wie es im Allgemeinen hierin vorgeschlagen wird, hat das Potenzial, für 207 (109) bis 2020 zu kodieren. Somit ermöglichen die vorliegenden Verfahren mit Bibliotheken von 107–108 verschiedenen Molekülen eine "Arbeits"-Teilmenge einer theoretisch vollständigen Wechselwirkungsbibliothek für 7 Aminosäuren und eine Teilmenge an Formen für die 2020-Bibliothek. Somit werden in einer bevorzugten Ausführungsform in den vorliegenden Verfahren zumindest 106, vorzugsweise zumindest 107, noch bevorzugter zumindest 108 und am meisten bevorzugt zumindest 109, verschiedene Sequenzen gleichzeitig analysiert. Bevorzugte Verfahren maximieren Bibliotheksgröße und -vielfalt.
  • Somit stellt in einer bevorzugten Ausführungsform die Erfindung Biochips bereit, die Bibliotheken von Varianten-Proteinen umfassen, wobei die Bibliothek zumindest etwa 100 verschiedene Varianten umfasst, wobei zumindest etwa 500 verschiedene Varianten bevorzugt sind, etwa 1.000 verschiedene Varianten besonders bevorzugt sind und etwa 5.000–10.000 insbesondere bevorzugt sind.
  • In einer Ausführungsform ist die Kandidatenbibliothek vollständig randomisiert, wobei es an keiner Position Sequenzpräferenzen oder Konstanten gibt. In einer bevorzugten Ausführungsform unterliegt die Kandidatenbibliothek Vorgaben. Das heißt, dass manche Positionen innerhalb der Sequenz entweder konstant gehalten werden oder aus einer beschränkten Anzahl an Möglichkeiten ausgewählt werden. In einer bevorzugten Ausführungsform werden beispielsweise die Nucleotide oder Aminosäurereste innerhalb einer definierten Klasse, beispielsweise in jener hydrophober Aminosäu ren, hydrophiler Reste, sterischen Vorgaben unterliegender (entweder kleiner oder großer) Reste randomisiert, und zwar im Hinblick auf die Erzeugung von Cysteinen zur Vernetzung, Prolinen für SH-3-Domänen, Serinen, Threoninen, Tyrosinen oder Histidinen für Phosphorylierungsstellen usw., oder auf Purine usw.
  • In einer bevorzugten Ausführungsform erfolgen die Vorgaben zu Peptiden oder Nucleinsäuren hin, die mit bekannten Molekülklassen wechselwirken. Ist beispielsweise das bioaktive Kandidatenmittel ein Peptid, so ist bekannt, dass viel von intrazellulärer Signalgebung über kurze Regionen von Polypeptiden erfolgt, die mit anderen Polypeptiden über kleine Peptiddomänen wechselwirken. Für eine kurze Region aus der HIV-1-Hüllcytoplasmadomäne beispielsweise wurde bereits gezeigt, dass sie die Wirkung von zellulärem Calmodulin blockiert. Regionen der Fas-Cytoplasmadomäne, die Homologie zum Mastoparantoxin von Wespen zeigt, können auf eine kurze Peptidregion mit todinduzierenden apoptotischen oder G-Protein-induzierenden Funktionen limitiert werden. Magainin, ein natürliches Peptid, das von Xenopus abstammt, kann starke Antitumor- und antimikrobielle Aktivität aufweisen. Für kurze Peptidfragmente eines Proteinkinase-C-Isozyms (βPKC) wurde gezeigt, dass sie nach Stimulierung nukleare Translokation von βPKC in Xenopus-Oocyten blockieren. Und kurze SH-3-Targetpeptide wurden als Pseudosubstrate für spezifische Bindung an SH-3-Proteine verwendet. Dies ist selbstverständlich eine kurze Liste erhältlicher Peptide mit biologischer Aktivität, denn die Literatur auf diesem Gebiet ist sehr umfassend. Es gibt also viele Beispiele dafür, dass das Potenzial kleiner Peptide eine Wirkung auf intrazelluläre Signalisierungskaskaden ausübt. Darüber hinaus können Agonisten und Antagonisten mit jeglicher Anzahl an Molekülen auch als Grundlage für vorgegebene Randomisierung von bioaktiven Kandidatenmitteln verwendet werden.
  • Somit sind zahlreiche Moleküle oder Proteindomänen als Ausgangspunkte für die Herstellung vorgegebener randomisierter bioaktiver Kandidatenmittel geeignet. Eine große Anzahl an kleinen Moleküldomänen, die eine gemeinsame Funktion, Struktur oder Affinität verleihen, ist bekannt. Darüber hinaus können, wie auf dem Gebiet der Erfindung bekannt ist, Bereiche von schwacher Aminosäurehomologie starke struktu relle Homologie aufweisen. Zahlreiche dieser Moleküle, Domänen und/oder entsprechenden Consensus-Sequenzen sind bekannt, einschließlich, jedoch nicht beschränkt auf SH-2-Domänen, SH-3-Domänen, Pleckstrin, Todesdomänen, Proteasespaltungs/-erkennungsstellen, Enzyminhibitoren, Enzymsubstrate, Traf usw. Demähnlich gibt es zahlreiche bekannte Nucleinsäure-Bindungsproteine, die Domänen enthaften, welche zur Verwendung in der Erfindung geeignet sind. Leucinzipper-Consensus-Sequenzen beispielsweise sind bekannt.
  • In einer bevorzugten Ausführungsform sind die bioaktiven Kandidatenmittel Nucleinsäuren. Unter "Nucleinsäure" oder "Oligonucleotid" oder grammatikalischen Entsprechungen davon werden hierin zumindest zwei Nucleotide verstanden, die kovalent miteinander verbunden sind. Eine Nucleinsäure der vorliegenden Erfindung enthält im Allgemeinen Phosphodiesterbindungen, obwohl in manchen Fällen, wie nachstehend erläutert wird, Nucleinsäureanaloge inkludiert sind, die alternierende Hauptketten aufweisen können, umfassend beispielsweise Phosphoramid (Beaucage et al., Tetrahedron 49(10), 1925 (1993) und darin zitierte Verweise; Letsinger, J. Org. Chem. 35, 3800 (1970); Sprinzl et al., Eur. J. Biochem. 81, 579 (1977); Letsinger et al., Nucl. Acids Res. 14, 3487 (1986); Sawai et al., Chem. Lett. 805 (1984); Letsinger et al., J. Am. Chem. Soc. 110, 4470 (1988); und Pauwels et al., Chemica Scripta 26, 141 (1986)), Thiophosphat (Mag et al., Nucleic Acids Res. 19, 1437 (1991); und US-Patent Nr. 5.644.048), Dithiophosphat (Briu et al., J. Am. Chem. Soc. 111, 2321 (1989), O-Methylphosphoramidit-Bindungen (siehe Eckstein, Oligonucleotides and Analogues: A Practical Approach, Oxford University Press) und Peptidnucleinsäure-Hauptketten und -Bindungen (siehe Egholm, J. Am. Chem. Soc. 114, 1895 (1992); Meier et al., Chem. Int. Ed. Engl. 31, 1008 (1992); Nielsen, Nature 365, 566 (1993); Carlsson et al., Nature 380, 207 (1996), die alle durch Verweis aufgenommen sind). Andere analoge Nucleinsäuren umfassen jene mit positiven Hauptketten (Denpcy et al., Proc. Natl. Acad. Sci. USA 92, 6097 (1995); nicht-ionischen Hauptketten (US-Patente Nr. 5.386.023, 5.637.684, 5.602.240, 5.216.141 und 4.469.863; Kiedrowshi et al., Angew. Chem. Intl. Ed. English 30, 423 (1991); Letsinger et al., J. Am. Chem. Soc. 110, 4470 (1988); Letsinger et al., Nucleoside & Nucleotide 13, 1597 (1994); Kapitel 2 und 3, ASC Symposium Series 580, "Carbohydrate Modifications in Anti sense Research", Ed. Y.S. Sanghui und P. Dan Cook; Mesmaeker et al., Bioorganic & Medicinal Chem. Lett. 4, 395 (1994); Jeffs et al., J. Biomolecular NMR 34, 17 (1994); Tetrahedron Lett. 37, 743 (1996)) und Nicht-Ribose-Hauptketten, einschließlich jener, die in den US-Patenten Nr. 5.235.033 und 5.034.506 und den Kapiteln 6 und 7, ASC Symposium Series 580, "Carbohydrate Modifications in Antisense Research", Ed. Y.S. Sanghui und P. Dan Cook, beschrieben werden. Nucleinsäuren, die einen oder mehrere carbozyklische Zucker enthalten, sind auch in der Definition von Nucleinsäuren enthalten (siehe Jenkins et al., Chem. Soc. Rev., 169–176 (1995)). Mehrere Nucleinsäureanaloge werden in Rawls C & E News, 35 (2. Juni 1997), beschrieben. Alle diese Verweise sind hiermit ausdrücklich durch Verweis aufgenommen. Diese Modifikationen der Ribose-Phosphat-Hauptkette können durchgeführt werden, um den Zusatz von zusätzlichen Gruppierungen wie Markierungen zu erleichtern oder die Stabilität und Halbwertszeit solcher Moleküle in physiologischen Umgebungen zu steigern.
  • Fachleuten ist bekannt, dass alle diese Nucleinsäureanaloge Verwendung in der vorliegenden Erfindung finden können. Darüber hinaus können Gemische aus natürlich vorkommenden Nucleinsäuren und Analoge hergestellt werden. Alternativ dazu können Gemische verschiedener Nucleinsäureanaloge und Gemische aus natürlich vorkommenden Nucleinsäuren und Analogen hergestellt werden.
  • Die Nucleinsäuren können einzelsträngig oder doppelsträngig, wie spezifiziert, sein oder können Teile von sowohl doppelsträngigen als auch einzelsträngigen Sequenzen enthalten. Die Nucleinsäure kann DNA, sowohl genomisch als auch cDNA, RNA oder ein Hybrid sein, wobei die Nucleinsäure jede beliebige Kombination von Desoxyribo- und Ribonucleotiden und jede beliebige Kombination von Basen, einschließlich Uracil, Adenin, Thymin, Cytosin, Guanin, Inosin, Xathanin, Hypoxathanin, Isocytosin, Isoguanin usw. enthält. Wie hierin verwendet umfasst die Bezeichnung "Nucleosid" Nucleotide sowie Nucleoside und Nucleotidanaloge sowie modifizierte Nucleoside wie z.B. Amino-modifizierte Nucleoside. Weiters umfasst "Nucleosid" nicht natürlich vorkommende Analogstrukturen. So werden beispielsweise die einzelnen Einheiten einer Peptidnucleinsäure, die jeweils eine Base enthalten, hierin als Nucleosid bezeichnet.
  • Wie zuvor allgemein für Proteine beschrieben, können bioaktive Nucleinsäure-Kandidatenmittel natürlich vorkommende Nucleinsäuren, randomisierte Nucleinsäuren oder "vorgegebene" randomisierte Nucleinsäuren sein. Beispielsweise können Spaltprodukte von prokaryotischen oder eukaryotischen Genomen wie zuvor für Proteine beschrieben verwendet werden. Ist das letztendliche Expressionsprodukt eine Nucleinsäure, so müssen zumindest 10, vorzugsweise zumindest 12, noch bevorzugter zumindest 15, am meisten bevorzugt zumindest 21, Nucleotidpositionen randomisiert werden, wobei noch mehr bevorzugt werden, wenn die Randomisierung nicht ganz perfekt ist. Demähnlich müssen zumindest 5, vorzugsweise zumindest 6, noch bevorzugter zumindest 7, Aminosäurepositionen randomisiert werden; wiederum sind hier noch mehr bevorzugt, wenn die Randomisierung nicht ganz perfekt ist.
  • In einer bevorzugten Ausführungsform sind die bioaktiven Kandidatenmittel organische Gruppierungen. In dieser Ausführungsform werden, wie allgemein in der WO 94/24314 beschrieben wird, aus einer Reihe von Substraten synthetisiert, die chemisch modifiziert werden können. "Chemisch modifiziert", wie hierin verwendet, umfasst, ist jedoch nicht beschränkt auf Alkylgruppen (einschließlich Alkanen, Alkenen, Alkinen und Heteroalkyl), Arylgruppen (einschließlich Arenen und Heteroaryl), Alkohole, Ether, Amine, Aldehyde, Ketone, Säuren, Ester, Amide, zyklische Verbindungen, heterozyklische Verbindungen (einschließlich Purine, Pyrimidine, Benzodiazepine, β-Lactame, Tetracycline, Ephalosporine und Kohlenhydrate), Steroide (einschließlich Östrogene, Androgene, Cortison, Ecdyson usw.), Alkaloide (einschließlich Ergote, Vinca, Curare, Pyrrolizidin und Mitomycinen), metallorganische Verbindungen, Heteroatom-hältige Verbindungen, Aminosäuren und Nucleoside. Chemische (einschließlich enzymatische) Reaktionen können an den Gruppierungen durchgeführt werden, um neue Substrate oder Kandidatenmittel zu bilden, die dann unter Verwendung der vorliegenden Erfindung getestet werden können.
  • Wie Fachleuten bekannt ist, ist es möglich, mehr als einen Typ von Kandidatenmittel zugleich zu testen. Somit kann die Bibliothek an Kandidatenmittel, die in einem bestimmten Test verwendet werden, nur einen Typ Mittel (d.h. Peptide) oder mehrere Typen (Peptide und organische Mittel) enthalten.
  • Somit stellt in einer bevorzugten Ausführungsform die Erfindung Biochips, die Variantenbibliotheken von zumindest einem Gerüstprotein umfassen, und Verfahren zum Screenen unter Verwendung der Biochips bereit. So stellt die Erfindung beispielsweise vollständig definierte Bibliotheken von Varianten-Gerüstproteinen mit einer definierten Satzanzahl bereit, worin zumindest 85-90-95 % der möglichen Mitglieder in der Bibliothek vorhanden sind.
  • Darüber hinaus können, wie Fachleuten auch bekannt sein wird, die Biochips der Erfindung Teil eines HTS-Systems sein, das eine beliebige Anzahl an Komponenten verwendet. Voll robotisierte oder Mikrofluidiksysteme umfassen automatisierte Flüssigkeits-, Teilchen-, Zell- und Organismus-Behandlung einschließlich Pipettieren mit hohem Durchsatz zur Durchführung aller Schritte von Gen-Targeting- und Rekombinationsanwendungen. Dies umfasst Flüssigkeits-, Teilchen-, Zell- und Organismus-Manipulationen, wie z.B. Aspiration, Dispension, Vermischen, Verdünnen, Waschen, exakte volumetrische Transfers; Gewinnung und Verwerfen von Röhrchenspritzen; und wiederholtes Pipettieren identischer Volumina für Mehrfachgewinnung aus einer einzigen Probenaspiration. Diese Manipulationen sind Kreuz-Kontaminations-freie Flüssigkeits-, Teilchen-, Zell- und Organismen-Transfers. Dieses Instrument führt automatisierte Replikation von Mikroplattenproben auf Filtern, Membranen und/oder Tochterplatten, Transfer mit hoher Dichte, Vollplatten-Reihenverdünnungen und Hochlastbetrieb durch.
  • Das verwendete System kann einen Computerarbeitsplatz umfassend einen Mikroprozessor einbinden, der programmiert ist, um eine Vorrichtung, ausgewählt aus der aus einem Thermozyklierer, einem Mehrfachkanal-Pipettierer, einem Proben-Handler, einem Platten-Handler, einem Gelladesystem, einem automatisiertem Transformationssystem, einem Gensequenzierer, einem Kolonie-Picker, einem Perlen-Picker, einem Zellsortierer, einem Inkubator, einem Lichtmikroskop, einem Fluoreszenzmikroskop, einem Fluoreszenzspektrometer, einem Spketralphotometer, einem Luminometer, einer CCD-Kamera und Kombinationen davon bestehenden Gruppe, zu manipulieren.
  • In einer bevorzugten Ausführungsform werden die Verfahren der Erfindung verwendet, um Varianten-Bibliotheken zu erstellen, um Einzelnucleotidpolymorphismus(SNP-) Analyse zu erleichtern und zu korrelieren. Das heißt, dass durch Bezugnahme auf bekannte SNP-Daten und Bestimmung der Wirkung des SNP auf das Protein Informationen bezüglich SNP-Analyse bestimmt werden können. Somit kann beispielsweise die Erstellung eines "Sequenzabgleichs" von Sorten unter Verwendung bekannter SNPs in einer Wahrscheinlichkeitsverteilungstabelle resultieren, die verwendet werden kann, um alle möglichen SNP-Varianten zu entwerfen, die dann auf einen Biochip aufgebracht und auf Aktivität und Wirkung getestet werden können.
  • Die folgenden Beispiele dienen als nähere Beschreibung der Anwendungsweise der zuvor beschriebenen Erfindung sowie zur Darstellung der besten Verfahren, die für die Durchführung verschiedener Aspekte der Erfindung erwogen werden. Es gilt zu verstehen, dass diese Beispiele in keiner Weise als Einschränkung des tatsächlichen Schutzumfangs dieser Erfindung dienen, sondern lediglich zur Veranschaulichung bereitgestellt werden. Alle hierin zitierten Verweise sind durch Verweis aufgenommen.
  • BEISPIELE
  • Beispiel 1
  • Rechnerisches Vorscreenen an β-Lactamase TEM-1
  • Im Vorfeld wurden Experimente am β-Lactamase-Gen TEM-1 durchgeführt. Der Eintrag 1BTL aus der Brookhaven Protein Data Bank wurde als Ausgangsstruktur verwendet. Alle Wassermoleküle und die SO4 2–-Gruppe wurden entfernt, und explizite Wasserstoffatome wurden an der Struktur gebildet. Die Struktur wurde dann für 50 Schritte ohne Elektrostatik unter Verwendung des Konjugatgradientenverfahrens und des Dreiding-II-Kraftfeldes minimiert. Diese Schritte wurden unter Verwendung des Programms BIOGRAF (Molecular Simulations, Inc., San Diego, CA) durchgeführt. Diese minimierte Struktur diente als Matrize für alle Proteinentwurfsberechnungen.
  • Rechnerisches Vorscreenen
  • Rechnerisches Vorscreenen von Sequenzen wurde unter Verwendung von PDA durchgeführt. Ein 4Å-Bereich wurde um die schweren Seitenkettenatome der vier katalytschen Reste (S70, K73, S130 und E166) gezogen, und alle Aminosäuren mit schweren Seitenkettenatomen innerhalb dieses Distanz-Cutoffs wurden selektiert. Dies ergab die folgenden 7 Positionen: F72, Y105, N132, N136, L169, N170 und K234. Zwei dieser Reste, N132 und K234, sind über mehrere verschiedene β-Lactamasen hinweg stark konserviert und wurden daher nicht in den Entwurf eingebunden, wodurch fünf variable Positionen übrig bleiben (F72, Y105, N136, L169 und N170). Diese entworfenen Positionen durften ihre Identität zu jeder beliebigen der 20 natürlich vorkommenden Aminosäuren außer Prolin, Cystein und Glycin (also insgesamt 17 Aminosäuren) ändern. Prolin wird üblicherweise nicht zugelassen, da es schwierig ist, geeignete Rotamere für Prolin zu definieren, Cystein wird ausgeschlossen, um Bildung von Disulfidbindungen zu unterbinden, und Glycin wird aufgrund der Konformationsflexibilität ausgeschlossen.
  • Darüber hinaus wurde ein zweiter Satz von Resten innerhalb von 5 Å der für PDA-Entwurt ausgewählten Reste fließend gemacht (ihre Aminosäureidentität wurde als Wildtyp beibehalten, doch ihre Konformation durfte sich ändern). Die schweren Seitenkettenatome wurden wiederum verwendet, um zu bestimmen, welche Reste innerhalb des Cutoffs liegen. Dies ergab die folgenden 28 Positionen: M68, M69, S70, T71, K73, V74, L76, V103, E104, S106, P107, I127, M129, S130, A135, L139, L148, L162, R164, W165, E166, P167, D179, M211, D214, V216, S235, I247. A248 wurde als verschobene Position anstelle von I247 miteinbezogen. Die zwei Proline, P107 und P167, wurden aus den fließend gemachten Resten ausgeschlossen, sowie die Positionen M69, R164 und W165, da ihre Kristallstruktur Rotamere mit hoher Spannung aufweisen, wodurch 23 fließend gemachte Reste aus dem zweiten Satz übrig blieben. Die konservierten Reste N132 und K234 aus dem ersten Bereich (4Å) wurden auch fließend gemacht, was insgesamt ein Resultat von 25 fließend gemachten Resten ergab.
  • Die Potenzialfunktionen und Parameter, die in den PDA-Berechnungen verwendet wurden, waren wie folgt. Der Van-der-Waals-Skalierungsfaktor wurde auf 0,9 eingestellt, und das elektrostatische Potenzial wurde unter Verwendung einer Distanzverminderung und einer Dielektrizitätskonstante von 40 berechnet. Die Well-Tiefe für das Wasserstoffbrückenbindungspotenzial wurde auf 8 kcal/mol mit einem lokalen und distanzierten Hauptketten-Skalierungsfaktor von 0,25 bzw. 1,0 eingestellt. Das Solvatationspotenzial wurde nur für entworfene Positionen, die als Kern klassifiziert wurden, berechnet (F72, L169, M68, T71, V74, L76, I127, A135, L139, L148, L162, M211 und A248). Es wurde Typ-2-Solvatation verwendet (Street & Mayo, 1998). Der nichtpolare Expositionsmultiplikationsfaktor wurde auf 1,6 eingestellt, die nichtpolare Einbettungsenergie wurde auf 2,0 kcal/mol fixiert.
  • Das Dead End Elimination- (DEE-) Optimierungsverfahren (siehe Verweis) wurde verwendet, um die Normalzustands-Sequenz mit niedrigsten Energie zu finden. DEE-Cutoffs von 50 und 100 kcal/mol für Einzel- bzw. Doppel-Energieberechnungen wurden verwendet.
  • Ausgehend von der DEE-Normalzustands-Sequenz wurde eine Monte-Carlo- (MC-) Berechnung durchgeführt, die eine Liste der 1.000 Sequenzen mit niedrigster Energie ergab. Die MC-Parameter waren 100 Anellierungszyklen mit 1.000.000 Schritten pro Zyklus. Die nicht-produktive Zyklusgrenze wurde auf 50 festgelegt. Im Anellierungsplan wurden die hohe und die niedrige Temperatur auf 5.000 bzw. 100 K festgesetzt.
  • Die folgende Wahrscheinlichkeitsverteilung wurde dann von den Top-1.000-Sequenzen in der MC-Liste (siehe Tabelle 3, unten) berechnet. Sie zeigt die Häufigkeit der einzelnen Aminosäuren, die für jede Position ausgesucht wurden (die 5 variablen Positionen und die 25 fließend gemachten Positionen). Tabelle 3: Monte-Carlo-Analyse (Aminosäuren und ihre Häufigkeit für die Top-1.000-Sequenzen)
    Figure 00960001
  • Diese Wahrscheinlichkeitsverteilung wurde dann zu einer gerundeten Wahrscheinlichkeitsverteilung transformiert (siehe Tabelle 4). Ein 10%-Cutoff-Wert wurde verwendet, um an den entworfenen Positionen zu runden, und für die Wildtyp-Aminosäuren wurden eine zwingende Vorkommenswahrscheinlichkeit von zumindest 10 eingestellt. Ein E wurde an Position 165 mit 15,6 % gefunden. Da diese Position jedoch zu einer anderen entworfenen Position, 170, benachbart ist, hätte ihre Nähe ein komplizierteres Oligonucleotid-Bibliotheksdesign erfordert; E wurde daher bei der Erstellung der Sequenzbibliothek nicht für diese Position eingebunden (nur L wurde verwendet). Tabelle 4: PDA-Wahrscheinlichkeitsverteilung für die entworfenen Positionen von β-Lactamase (auf die nähesten 10 % gerundet)
    Figure 00970001
  • Wie aus Tabelle 4 ersichtlich ist, führt das rechnerische Vorscreenen zu einer gewaltigen Reduktion des Ausmaßes des Problems. Ursprünglich wurden 17 verschiedene Aminosäuren an jeder der 5 entworfenen Positionen zugelassen, was 175 = 1.419.857 mögliche Sequenzen ergibt. Dies wurde nun auf nur 2·7·3·1·5 = 210 mögliche Sequenzen eingeschränkt – eine Reduktion um nahezu vier Größenordnungen.
  • Erstellung einer Sequenzbibliothek
  • Überlappende Oligonucleotide, die dem Volllängen-TEM-1-Gen für β-Lactamase entsprachen, und alle gewünschten Mutationen wurden synthetisiert und in einer PCR- Reaktion wie zuvor beschrieben (1) verwendet, was zu einer Sequenzbibliothek führte, die die zuvor beschriebenen 210 Sequenzen enthielt.
  • Synthese von mutierten TEM-1-Genen
  • Um die Mutation des TEM-1-Gens zu ermöglichen, wurde pCR2.1 (Invitrogen) mit XbaI und EcoRI verdaut, mit T4-DNA-Polymerase stumpfendig abgeschlossen und neu ligiert. Dies entfernt die HindIII- und XhoI-Stellen innerhalb des Polylinkers. Eine neue XhoI-Stelle wurde dann in das TEM-1-Gen an Position 2269 (Nummerierung wie für das originale pCR2.1) unter Verwendung eines Quickchange Site-Directed Mutagenesis Kit laut Anweisungen des Herstellers (Stratagene) eingeführt. Demähnlich wurde eine neue HindIII-Stelle an Position 2674 eingeführt, um pCR-Xen1 zu ergeben.
  • Um die mutierten TEM-1-Gene zu konstruieren, wurden überlappende 40mer-Oligonucleotide entsprechend der Sequenz zwischen den neu eingeführten Xho1- und HindIII-Stellen synthetisiert, um eine 20-Nucleotid-Überlappung mit benachbarten Oligonucleotiden zu ermöglichen. An jeder der entworfenen Positionen (72, 105, 136 und 170) wurden Mehrfach-Oligonucleotide synthetisiert, wobei jedes eine unterschiedliche Mutation enthielt, sodass die möglichen Kombinationen von mutierten Sequenzen (210) in den gewünschten Proportionen wie in Tabelle 4 dargestellt hergestellt werden konnten. Beispielsweise wurden an Position 72 zwei Sätze von Oligonucleotiden synthetisiert, wobei einer ein F an Position 72 und der andere ein Y enthielt. Jedes Oligonucleotid wurde in einer Konzentration von 1 μg/ml resuspendiert, und gleiche molare Konzentrationen der Oligonucleotide wurden vereinigt.
  • An den redundanten Positionen wurde jedes Oligonucleotid in einer Konzentration zugesetzt, die die Wahrscheinlichkeiten in Tabelle 4 wiedergab. Beispielsweise wurden an Position 72 gleiche Mengen der zwei Oligonucleotide zum Pool zugesetzt, während an Position 136 im Vergleich zum N-hältigen Oligonculeotid zweimal so viel M-hältiges Oligonucleotid zugesetzt wurde, und siebenmal so viel D-hältiges Oligonucleotid wurde im Vergleich zum N-hältigen Oligonucleotid zugesetzt.
  • DNA-Bibliotheksassemblierung
  • Im ersten PCR-Durchgang wurden 2 μl gepoolter Oligonucleotide mit den gewünschten Wahrscheinlichkeiten (Tabelle 4) zu einer 100-μl-Reaktion zugesetzt, die 2 μl 10 mM dNTPs, 10 μl 10x Taq-Puffer (Qiagen), 1 μl Taq-DNA-Polymerase (5 Einheiten/μl: Qiagen) und 2 μl Pfu-DNA-Polymerase (2,5 Einheiten/μl: Promega) enthielt. Das Reaktionsgemisch wurde auf Eis assembliert und 94 °C 5 Minuten lang, 15 Zyklen von 94 °C 30 Sekunden lang, 52 °C 30 Sekunden lang und 72 °C 30 Sekunden lang und einem abschließenden Verlängerungsschritt von 72 °C 10 Minuten lang unterzogen.
  • Isolierung von Volllängen-Oligonucleotiden
  • Für den zweiten PCR-Durchgang wurden 2,5 μl der Reaktion des ersten Durchgangs zu einer 100-μl-Reaktion zugesetzt, die 2 μl 10 mM dNTPs, 10 μl von 10x Pfu-DNA-Polymerasepuffer (Promega), 2 μl Pfu-DNA-Polymerase (2,5 Einheiten/μl: Promega) und 1 μg Oligonucleotide entsprechend den 5'- und 3'-Enden des synthetisierten Gens enthielt. Das Reaktionsgemisch wurde auf Eis assembliert und 94 °C 5 Minuten lang, 20 Zyklen von 94 °C 30 Sekunden lang, 52 °C 30 Sekunden lang und 72 °C 30 Sekunden lang und ein abschließender Verlängerungsschritt von 72 °C 10 Minuten lang unterzogen, um die Volllängen-Oligonucleotide zu isolieren.
  • Reinigung der DNA-Bibliothek
  • Die PCR-Produkte wurden unter Verwendung eines Qiaquick PCR Purification Kits (Qiagen) gereinigt, mit Xho1 und HindIII verdaut, auf 1,2%igem Agarosegel Elektrophorese unterzogen und unter Verwendung eines Qiagick Gel Extraction Kits (Qiagen) neuerlich gereinigt.
  • Überprüfung der Sequenzbibliotheksidentität
  • Die PCR-Produkte, die die Bibliothek von mutierten TEM-1-β-Lactamase-Genen enthielt, wurde dann zwischen einen Promotor und Terminator in einem Kanamycin-resistenten Plasmid kloniert und zu E. coli transformiert. Eine gleiche Anzahl an Bakterien wurde dann auf Medium ausgebreitet, das entweder Kanamycin oder Ampicillin enthielt. Alle transformierten Kolonien sind gegenüber Kanamycin resistent, nur jene mit aktiven mutierten β-Lactamase-Genen wachsen auf Ampicillin. Nach Übernacht-Inkubation wurden mehrere Bibliotheken auf beiden Platten beobachtet, woraus ersichtlich wurde, dass zumindest eine der obigen Sequenzen für eine aktive β-Lactamase kodiert. Die Anzahl an Kolonien auf der Kanamycin-Platte übertraf jene auf der Ampicillin-Platte bei weitem (ungefähr ein 5:1-Verhältnis), was darauf schließen lässt, dass entweder manche der Sequenzen Aktivität zerstören oder dass die PCR Fehler einführt, die ein inaktives oder trunkiertes Enzym ergeben.
  • Um zwischen diesen Möglichkeiten zu unterscheiden, wurden 60 Kolonien aus der Kanamycin-Platte selektiert und ihre Plasmid-DNA wurde sequenziert. Dies ergab die in Tabelle 5 gezeigte Verteilung. Tabelle 5. Durch PDA vorhergesagte Prozentsätze gegenüber jenen, die im Experiment für die entworfenen Positionen beobachtet wurden
    Figure 01000001
  • Es gilt zu beachten, dass die beobachteten Prozentsätze jeder Aminosäure an allen vier Positionen mit den vorhergesagten Prozentsätzen eng übereinstimmen. Sequenzierung zeigte auch, dass nur eine der 60 Kolonien einen PCR-Fehler, einen G-zu-C-Übergang, enthielt.
  • Dieser kleine Test zeigt, dass Mehrfach-PCR mit gepoolten Oligonucleotiden verwendet werden kann, um eine Sequenzbibliothek zu erstellen, die die gewünschten Proportionen von Aminosäureänderungen widerspiegelt.
  • Experimentelles Screenen der Sequenzbibliothek
  • Das gereinigte PCR-Produkt, das die Bibliothek mutierter Sequenzen enthielt, wurde dann in pCR-Xen1 ligiert, das davor mit Xho1 und HindIII verdaut und gereinigt wor den war. Die Ligationsreaktion wurde in kompetente TOP10-E.-coli-Zellen (Invitrogen) transformiert. Nach Zulassen einer einstündigen Regenerationsphase bei 37 °C wurden die Zellen auf LB-Platten, die das Antibiotikum Cefotaxim in Konzentrationen im Bereich von 0,1 μg/ml bis 50 μg/ml enthielten, aufgetragen und auf Grundlage von zunehmender Resistenz selektiert.
  • Eine Dreifachmutante wurde gefunden, die die Enzymfunktion in einem einzigen Screening-Durchgang um das 35fache verbesserte (siehe 4). Diese Mutante (Y105Q, N136D, N170L) überlebte bei 50 μg/ml Cefotaxim.
  • Beispiel 2
  • Erstellung der sekundären Bibliothek einer Xylanase
  • PDA-Vorscreenen führt zu enormer Reduktion möglicher Sequenzen Um zu zeigen, das rechnerisches Vorscreenen durchführbar ist und zu einer signifikanten Reduktion der Anzahl an Sequenzen führt, die experimentell zu screenen sind, wurden anfängliche Berechnungen für die B.-circulans-Xylanase mit und ohne Substrat durchgeführt. Die PDB-Struktur 1XNB von B.-circulans-Xylanase und 1BCX für den Enzymsubstratkomplex wurden verwendet. 27 Reste innerhalb der Bindungsstelle wurden visuell als zur aktiven Stelle zugehörig identifiziert. 8 dieser Reste wurden als absolut essenziell für die enzymatische Aktivität erachtet. Diese Positionen wurden als Wildtypreste behandelt, was bedeutet, dass sich ihre Konformation ändern durfte, jedoch nicht ihre Aminosäureidentität (siehe 2).
  • Drei der 20 natürlich vorkommenden Aminosäuren wurden nicht in Betracht gezogen (Cystein, Prolin und Glycin). Daher waren 17 verschiedene Aminosäuren stets an den verbleibenden 19 Positionen möglich; das Problem ergibt 1719 = 2,4 × 1023 verschiedene Aminosäuresequenzen. Diese Anzahl ist um 10 Größenordnungen größer als das Ausmaß, das mit Evolutionsverfahren nach dem Stand der Technik bewältigt werden könnte. Eindeutig können diese Ansätze nicht verwendet werden, um das vollständige Ausmaß des Problems zu screenen und alle Sequenzen mit Mehrfach substitutionen in Betracht zu ziehen. Daher wurden PDA-Berechnungen durchgeführt, um den Suchraum zu reduzieren. Eine Liste der 10.000 Sequenzen mit der niedrigsten Energie wurde geschaffen, und die Wahrscheinlichkeit für jede Aminosäure an jeder Position wurde bestimmt (siehe Tabelle 1).
  • Tabelle 1. Wahrscheinlichkeit von Aminosäuren an den entworfenen Positionen, die aus der PDA-Berechnung der Wildtyp- (WT-) Enzymstruktur resultierten. Nur Aminosäuren mit einer Wahrscheinlichkeit von mehr als 1 % werden gezeigt.
    Figure 01020001
  • Ziehen wir all die Aminosäuren, die aus der PDA-Berechnung erhalten wurden, einschließlich jener mit Wahrscheinlichkeiten von weniger als 1 %, in Betracht, so erhalten wir 4,1 × 1015 verschiedene Aminosäuresequenzen. Dies ist eine Reduktion um 7 Größenordnungen. Wenn wir nun nur jene Aminosäuren berücksichtigen, die zumindest eine Wahrscheinlichkeit von mehr als 1 % haben, wie in Tabelle 1 gezeigt ist (1-%-Kriterium), so kann das Problem auf 3,3 × 109 Sequenzen reduziert werden. Werden alle Aminosäuren mit einer Wahrscheinlichkeit von weniger als 5 % (5-%-Kriterium) vernachlässigt, so bleiben nur 4,0 × 105 Sequenzen übrig. Dies ist eine Zahl, die leicht durch Screening und Gen-Neukombinationsverfahren zu bewältigen ist. Eine Erhöhung der Liste von Sequenzen niedriger Energie auf 100.000 verändert diese Zahlen nicht signifikant, und die Wirkung auf die an jeder Position erhaltenen Aminosäuren ist vernachlässigbar. Änderungen treten nur unter den Aminosäuren mit einer Wahrscheinlichkeit von weniger als 1 % auf.
  • Unter Einbindung des Substrats in die PDA-Berechnung wurde die Anzahl an Aminosäuren, die an jeder Position gefunden wurden, weiter reduziert. Werden jene Aminosäuren mit einer Wahrscheinlichkeit von mehr als 5 % in Betracht gezogen, so wird eine Zahl von 2,4 × 106 Sequenzen erreicht (siehe Tabelle 2).
  • Tabelle 2. Wahrscheinlichkeit von Aminosäuren an den entworfenen Positionen, resultierend aus der PDA-Berechnung des Enzymsubstratkomplexes. Nur jene Aminosäuren mit einer Wahrscheinlichkeit von mehr als 1 % werden gezeigt.
    Figure 01030001
  • Diese Berechnungen im Vorfeld zeigen, dass PDA das Ausmaß des Problems signifikant reduzieren kann und es in den möglichen Arbeitsumfang von Gen-Neukombinations- und Screening-Verfahren bringen kann (siehe 3).

Claims (11)

  1. Verfahren zur Herstellung einer tertiären Bibliothek von Gerüstproteinvarianten, umfassend: a) das Bereitstellen einer primären Bibliothek, das das rechnerische Erstellen einer primären Bibliothek von primären Gerüstproteinsequenzvarianten umfasst; b) das Erstellen einer Liste primärer Variantenpositionen in dieser primären Bibliothek; c) das rechnerische Kombinieren einer Vielzahl dieser primären Variantenpositionen, um eine sekundäre Bibliothek sekundärer Sequenzen zu bilden; d) das Synthetisieren einer Vielzahl von Tertiärbibliotheks-Proteinsequenzvarianten durch Rekombinieren der Bibliothek sekundärer Sequenzen, worin zumindest eine dieser tertiären Varianten sich von den primären oder sekundären Varianten unterscheidet; und f) das experimentelle Screenen dieser Tertiärbibliotheks-Proteinsequenzen auf eine erwünschte Proteineigenschaft.
  2. Verfahren nach Anspruch 1, worin das Bilden dieser primären Variantenpositionen unter Verwendung einer Wahrscheinlichkeitsverteilungstabelle erfolgt.
  3. Verfahren nach Anspruch 1, worin das Kombinieren der primären Variantenpositionen unter Verwendung einer Wahrscheinlichkeitsverteilungstabelle erfolgt.
  4. Verfahren nach einem der vorangehenden Ansprüche, worin die Liste eine Liste nach Rangordnung ist.
  5. Verfahren nach einem der vorangehenden Ansprüche, worin das Rekombinieren rechnerisch erfolgt.
  6. Verfahren nach einem der vorangehenden Ansprüche, worin das Rekombinieren experimentell erfolgt.
  7. Verfahren nach einem der vorangehenden Ansprüche, worin das Rekombinieren durch Gen-Neukombination erfolgt.
  8. Verfahren nach einem der vorangehenden Ansprüche, worin das Rekombinieren durch multiple PCR mit gepoolten Oligonucleotiden erfolgt.
  9. Verfahren nach Anspruch 6, worin die gepoolten Oligonucleotide in äquimolaren Mengen zugesetzt werden.
  10. Verfahren nach Anspruch 6, worin die gepoolten Oligonucleotide in Mengen zugesetzt werden, die der Häufigkeit der Mutation entsprechen.
  11. Verfahren nach Anspruch 6, worin das Rekombinieren durch fehlerauslösende PCR erfolgt.
DE60113381T 2000-02-10 2001-02-12 Automatisierung im proteinentwurf durch proteinbibliotheken Expired - Lifetime DE60113381T2 (de)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US18163000P 2000-02-10 2000-02-10
US181630P 2000-02-10
US18690400P 2000-03-03 2000-03-03
US186904P 2000-03-03
US19785100P 2000-04-14 2000-04-14
US197851P 2000-04-14
PCT/US2001/040091 WO2001059066A2 (en) 2000-02-10 2001-02-12 Protein design automation for protein libraries

Publications (2)

Publication Number Publication Date
DE60113381D1 DE60113381D1 (de) 2005-10-20
DE60113381T2 true DE60113381T2 (de) 2006-06-29

Family

ID=27391439

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60113381T Expired - Lifetime DE60113381T2 (de) 2000-02-10 2001-02-12 Automatisierung im proteinentwurf durch proteinbibliotheken

Country Status (8)

Country Link
EP (1) EP1255826B1 (de)
JP (1) JP2003521933A (de)
AT (1) ATE304592T1 (de)
AU (1) AU5168701A (de)
CA (1) CA2399839A1 (de)
DE (1) DE60113381T2 (de)
DK (1) DK1255826T3 (de)
WO (1) WO2001059066A2 (de)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0974111B1 (de) 1997-04-11 2003-01-08 California Institute Of Technology Gerät und verfahren für automatischen protein-entwurf
US20020048772A1 (en) 2000-02-10 2002-04-25 Dahiyat Bassil I. Protein design automation for protein libraries
US6946265B1 (en) 1999-05-12 2005-09-20 Xencor, Inc. Nucleic acids and proteins with growth hormone activity
US7687461B2 (en) 2000-03-02 2010-03-30 Xencor, Inc. Treatment of TNF-α related disorders with TNF-α variant proteins
US7662367B2 (en) 2000-03-02 2010-02-16 Xencor, Inc. Pharmaceutical compositions for the treatment of TNF-α related disorders
US7446174B2 (en) 2001-03-02 2008-11-04 Xencor, Inc. Protein based TNF-α variants for the treatment of TNF-α related disorders
US7244823B2 (en) 2000-03-02 2007-07-17 Xencor TNF-alpha variants proteins for the treatment of TNF-alpha related disorders
US7351690B2 (en) 2000-12-19 2008-04-01 Palatin Technologies, Inc. Knockout identification of target-specific sites in peptides
JP2005505250A (ja) 2001-05-04 2005-02-24 ゼンコー 核酸およびチオレドキシンレダクターゼ活性を有するタンパク質
US7381792B2 (en) 2002-01-04 2008-06-03 Xencor, Inc. Variants of RANKL protein
US7747391B2 (en) 2002-03-01 2010-06-29 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
US20040132101A1 (en) 2002-09-27 2004-07-08 Xencor Optimized Fc variants and methods for their generation
US7662925B2 (en) 2002-03-01 2010-02-16 Xencor, Inc. Optimized Fc variants and methods for their generation
US20050084907A1 (en) 2002-03-01 2005-04-21 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
US8188231B2 (en) 2002-09-27 2012-05-29 Xencor, Inc. Optimized FC variants
US7317091B2 (en) 2002-03-01 2008-01-08 Xencor, Inc. Optimized Fc variants
DK2278509T3 (en) * 2002-03-01 2014-12-15 Codexis Mayflower Holdings Llc Methods, systems and software for identification of functional biomolecules
AU2003231879A1 (en) * 2002-05-28 2003-12-12 The Trustees Of The University Of Pennsylvania Methods, systems, and computer program products for computational analysis and design of amphiphilic polymers
DE10233047A1 (de) * 2002-07-19 2004-02-26 Amaxa Gmbh Verfahren zur Herstellung eines künstlichen Polypeptids und nach diesem Verfahren hergestelltes künstliches Protein
US7553930B2 (en) 2003-01-06 2009-06-30 Xencor, Inc. BAFF variants and methods thereof
US8084582B2 (en) 2003-03-03 2011-12-27 Xencor, Inc. Optimized anti-CD20 monoclonal antibodies having Fc variants
US8388955B2 (en) 2003-03-03 2013-03-05 Xencor, Inc. Fc variants
US20090010920A1 (en) 2003-03-03 2009-01-08 Xencor, Inc. Fc Variants Having Decreased Affinity for FcyRIIb
US7587286B2 (en) 2003-03-31 2009-09-08 Xencor, Inc. Methods for rational pegylation of proteins
US7610156B2 (en) 2003-03-31 2009-10-27 Xencor, Inc. Methods for rational pegylation of proteins
US7642340B2 (en) 2003-03-31 2010-01-05 Xencor, Inc. PEGylated TNF-α variant proteins
US9051373B2 (en) 2003-05-02 2015-06-09 Xencor, Inc. Optimized Fc variants
US9714282B2 (en) 2003-09-26 2017-07-25 Xencor, Inc. Optimized Fc variants and methods for their generation
US8101720B2 (en) 2004-10-21 2012-01-24 Xencor, Inc. Immunoglobulin insertions, deletions and substitutions
EP1697741A4 (de) 2003-12-04 2008-02-13 Xencor Inc Verfahren zur erzeugung von proteinvarianten mit erhöhtem wirtsstranggehalt und zusammensetzungen davon
US20150010550A1 (en) 2004-07-15 2015-01-08 Xencor, Inc. OPTIMIZED Fc VARIANTS
US8367805B2 (en) 2004-11-12 2013-02-05 Xencor, Inc. Fc variants with altered binding to FcRn
US8802820B2 (en) 2004-11-12 2014-08-12 Xencor, Inc. Fc variants with altered binding to FcRn
EP2845865A1 (de) 2004-11-12 2015-03-11 Xencor Inc. FC-Varianten mit Veränderter Bindung zu FCRN
US8546543B2 (en) 2004-11-12 2013-10-01 Xencor, Inc. Fc variants that extend antibody half-life
JP2008526186A (ja) * 2005-01-03 2008-07-24 エフ.ホフマン−ラ ロシュ アーゲー ポリペプチド足場としてのヘモペキシン様構造
CA2624189A1 (en) 2005-10-03 2007-04-12 Xencor, Inc. Fc variants with optimized fc receptor binding properties
EP1951757B1 (de) 2005-10-06 2014-05-14 Xencor, Inc. Optimierte anti-cd30-antikörper
ES2402591T3 (es) 2006-08-14 2013-05-07 Xencor Inc. Anticuerpos optimizados que seleccionan como diana CD19
AU2007299843B2 (en) 2006-09-18 2012-03-08 Xencor, Inc Optimized antibodies that target HM1.24
SG178753A1 (en) 2007-02-12 2012-03-29 Codexis Inc Structure-activity relationships
EP2708557A1 (de) 2007-05-30 2014-03-19 Xencor, Inc. Verfahren und Zusammensetzungen zur Hemmung von CD32B-Expressionszellen
US8633139B2 (en) 2007-12-21 2014-01-21 Abbvie Biotherapeutics Inc. Methods of screening complex protein libraries to identify altered properties
EP3825329A1 (de) 2007-12-26 2021-05-26 Xencor, Inc. Fc-varianten mit veränderter bindung zu fcrn
US9493578B2 (en) 2009-09-02 2016-11-15 Xencor, Inc. Compositions and methods for simultaneous bivalent and monovalent co-engagement of antigens
US20120231969A1 (en) * 2009-09-25 2012-09-13 Origene Technologies, Inc. Protein arrays and uses thereof
US8362210B2 (en) 2010-01-19 2013-01-29 Xencor, Inc. Antibody variants with enhanced complement activity
EP4371570A3 (de) 2016-06-08 2024-07-17 Xencor, Inc. Behandlung von erkrankungen im zusammenhang mit igg4 mit anti-cd19-antikörpern mit kreuzbindung an cd32b

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5605793A (en) * 1994-02-17 1997-02-25 Affymax Technologies N.V. Methods for in vitro recombination
GB9701425D0 (en) * 1997-01-24 1997-03-12 Bioinvent Int Ab A method for in vitro molecular evolution of protein function
EP0974111B1 (de) * 1997-04-11 2003-01-08 California Institute Of Technology Gerät und verfahren für automatischen protein-entwurf
WO1999011818A1 (fr) * 1997-08-28 1999-03-11 Isao Karube Procede de detection d'acides nucleiques ou de polypeptides hautement fonctionnels
EP1157093A1 (de) * 1998-10-16 2001-11-28 Xencor, Inc. Automatisation im proteindesign durch proteinbanken

Also Published As

Publication number Publication date
WO2001059066A3 (en) 2002-04-11
DK1255826T3 (da) 2006-01-30
EP1255826B1 (de) 2005-09-14
DE60113381D1 (de) 2005-10-20
AU5168701A (en) 2001-08-20
ATE304592T1 (de) 2005-09-15
JP2003521933A (ja) 2003-07-22
EP1255826A2 (de) 2002-11-13
CA2399839A1 (en) 2001-08-16
WO2001059066A2 (en) 2001-08-16

Similar Documents

Publication Publication Date Title
DE60113381T2 (de) Automatisierung im proteinentwurf durch proteinbibliotheken
US7379822B2 (en) Protein design automation for protein libraries
US7315786B2 (en) Protein design automation for protein libraries
AU774334B2 (en) Protein design automation for protein libraries
US6403312B1 (en) Protein design automatic for protein libraries
US20030049654A1 (en) Protein design automation for protein libraries
US20030130827A1 (en) Protein design automation for protein libraries
US20060160138A1 (en) Compositions and methods for protein design
DE69810603T2 (de) Gerät und verfahren für automatischen protein-entwurf
WO2002077751A2 (en) Apparatus and method for designing proteins and protein libraries
EP1482434A2 (de) Automatisation im Proteindesign durch Proteinbanken
US20030036854A1 (en) Apparatus and method for designing proteins and protein libraries
WO2002068453A2 (en) Methods and compositions for the construction and use of fusion libraries using computational protein design methods
Sweeny Technology trends in drug discovery and development: implications for the development of the pharmaceutical industry in Australia
US20020137022A1 (en) Methods and compositions for the construction and use of envelope viruses as display particles
WO2002004521A2 (en) Proteins with integrin-like activity
EP1621617A1 (de) Automatisierte Proteinkonstruktion für Proteinbibliotheken
AU2002327442A1 (en) Protein design automation for protein libraries
Marsh The ESF programme on Integrated Approaches for Functional Genomics workshop on ‘Proteomics: Focus on protein interactions’

Legal Events

Date Code Title Description
8364 No opposition during term of opposition