DE102004051016A1

DE102004051016A1 - Verfahren und System zur Aufklärung der Primärstruktur von Biopolymeren

Info

Publication number: DE102004051016A1
Application number: DE102004051016A
Authority: DE
Inventors: Martin BLÜGGEL; Daniel Chamrad; Helmut E. Prof. Dr. Meyer
Original assignee: Protagen GmbH
Current assignee: Protagen GmbH
Priority date: 2004-10-20
Filing date: 2004-10-20
Publication date: 2006-05-04
Also published as: GB2419355A; US20060115841A1; GB0521376D0

Abstract

Die vorliegende Erfindung betrifft ein Verfahren zur Aufklärung der Primärstruktur von Biopolymeren, bei dem ein zu untersuchendes Biopolymer in Fragmente aufgespalten und danach einer massenspektrometrischen Analyse (20) unterzogen wird, wodurch Massenspektren erhalten werden, und bei dem bekannte Algorithmen zu einer ersten Sequenzanalyse (30) der Fragmente verwendet werden, um mittels der Massespektren eine Primärstruktur des Biopolymers zu ermitteln. DOLLAR A Die Massenspektren werden in Abhängigkeit von Ergebnissen der ersten Sequenzanalyse (30) klassifiziert, wodurch mindestens eine erste Spektrenklasse erhalten wird, der ein bekanntes Biopolymer zugeordnet werden kann und eine zweite Spektrenklasse, der kein bekanntes Biopolymer zugeordnet werden kann. Eine weitere Analyse (50) von Massenspektren der zweiten Spektrenklasse wird in Abhängigkeit des bekannten Biopolymers durchgeführt.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Aufklärung der Primärstruktur von Biopolymeren, bei dem ein zu untersuchendes Biopolymer in Fragmente aufgespalten und danach einer massenspektrometrischen Analyse unterzogen wird, wodurch Massenspektren erhalten werden, und bei dem bekannte Algorithmen zu einer ersten Sequenzanalyse der Fragmente verwendet werden, um mittels der Massenspektren eine Primärstruktur des Biopolymers zu ermitteln.
Die vorliegende Erfindung betrifft ferner ein System zur Aufklärung der Primärstruktur von Biopolymeren.
Unter der Primärstruktur von Biopolymeren wird die chemische Struktur, insbesondere eine zugehörige Sequenz der Aminosäuren und deren Modifizierungen wie z.B. posttranslationale Modifizierungen oder chemische Modifizierungen, verstanden.
Daher wird im Rahmen dieser Erfindung unter Biopolymer ein modifiziertes oder unmodifiziertes Polypeptid verstanden mit mindestens einer Peptidbindung und ggfs. Nicht-Protein Anteilen, wie Lip(o)iden, Kohlenhydraten oder anderen organischen Anteilen und/oder anorganischen Anteilen wie Metallen.
Unter Aufklärung der Primärstruktur werden hier auch Erkenntnisse über Fehler/Abweichungen von/zu vorhandenen Sequenz- und Modifikationsdatenbanken und über Single Amino Acid Polymorphisms (SAPs) verstanden.

Die Aufklärung der Primärstruktur wird üblicherweise unter Verwendung massenspektrometrischer Daten durchgeführt. Diese massensprektrometrischen Daten werden messtechnisch mithilfe verschiedener bekannter massenspektrometrischer Verfahren erhalten.

Für Biopolymere eignen sich in der Massenspektrometrie (kurz MS) insbesondere Verfahren wie Elektrospray MS (ESI MS) und verschiedene Verfahren der Laser Desorption wie z.B. MALDI MS, (siehe allgemein Budzikiewicz, Massenspektrometrie, Weinheim (1998)).

In der weiteren Beschreibung werden unter dem Begriff massenspektrometrische Daten insbesondere Informationen über das Molekulargewicht (oder m/z-Wert) von Biopolymeren oder Teile davon (Fragmente) verstanden, die durch eine gezielte Spaltung eines oder mehrerer Biopolymere erhalten werden. Ohne Beschränkung der Allgemeinheit wird nachfolgend auch der Begriff Massenspektrum zur Bezeichnung massenspektrometrischer Daten verwendet.

Darüber hinaus können die Biopolymere vor der Spaltung spezifisch oder unspezifisch modifiziert werden und die Spaltung selbst kann ebenfalls spezifisch, d.h. bei definierten Aminosäuren, oder auch unspezifisch, d.h. unabhängig von bestimmten Aminosäuren erfolgen.

Ein wichtiges Beispiel für Biopolymermodifikationen sind sog. posttranslationale Modifikationen die äußerst wichtige Effektoren der physiologischen Proteinfunktion sind, und deren Aufklärung durch das erfindungsgemäße Verfahren verbessert werden soll.

Üblicherweise werden die massenspektrometrischen Daten unter Verwendung bioinformatischer Analysen ggf. unter Verwendung einer Sequenzdatenbank bekannter Biopolymere ausgewertet, und je nach dem verwendeten Algorithmus bzw. je nach der verwendeten bioinformatischen Analyse kann z.B, aus einem Vergleich der messtechnisch erhaltenen massenspektrometrischen Daten mit den Daten aus der Datenbank auf die Primärstruktur der Biopolymere bzw. der Fragmente der Biopolymere geschlossen werden.

Sequenzdatenbanken enthalten entweder Aminosäuresequenzen von Biopolymeren oder sog. genomische Sequenzen, aus denen die Aminosäuresequenzen abgeleitet werden können.

Bei den bekannten Verfahren zur Aufklärung der Primärstruktur von Biopolymeren ist in der Regel die Information, die anhand erklärter Massenspektren über analysierte Biopolymere erhalten wird, unvollständig. Die analysierten Massenspektren können in der Regel nur einer Teilsequenz eines bekannten Biopolymers zugeordnet werden.

Zudem kann es bei der Aufklärung der Primärstruktur eines Biopolymers vorkommen, dass gewisse massenspektrometrische Daten bzw. Massenspektren keinem bekannten Biopolymer zugeordnet werden können, so dass eine Aufklärung der Primärstruktur eines untersuchten Biopolymers nur teilweise bzw. gar nicht möglich ist.

Es ist daher Aufgabe der vorliegenden Erfindung, ein gattungsgemäßes Verfahren bzw. System dahingehend zu verbessern, dass die Signifikanz der Ergebnisse der Aufklärung der Primärstruktur erhöht, die Aufklärung vervollständigt, und das Verfahren gleichzeitig vereinfacht wird.

Diese Aufgabe wird bei dem beschriebenen Verfahren erfindungsgemäß dadurch gelöst, dass die Massenspektren in Abhängigkeit von Ergebnissen der ersten Sequenzanalyse klassifiziert werden, wodurch mindestens eine erste Spektrenklasse erhalten wird, der ein bekanntes Biopolymer zugeordnet werden kann und eine zweite Spektrenklasse, der kein bekanntes Biopolymer zugeordnet werden kann, und dass eine weitere Analyse von Massenspektren der zweiten Spektrenklasse in Abhängigkeit des bekannten Biopolymers durchgeführt wird.

Unter dem bekanntem Biopolymer wird im Kontext der vorliegenden Erfindung ein Biopolymer bzw. eine Aminosäuresequenz verstanden, von der angenommen wird, dass sie zur Aufklärung z.B. der Massenspektren der zweiten Spektrenklasse geeignet ist. D.h., falls eine hinreichend gute Übereinstimmung der erhaltenen Massenspektren mit einem z.B. aus einer Datenbank erhaltenen Biopolymer feststellbar ist, wird das Biopolymer aus der Datenbank als bekanntes Biopolymer im Sinne der Erfindung verwendet. Es ist jedoch auch möglich, nur einen gewissen Teil dieses aus der Datenbank erhaltenen Biopolymers als bekanntes Biopolymer für das erfindungsgemäße Verfahren zu verwenden. Ferner ist es möglich, eine beliebige weitere Aminosäuresequenz als bekanntes Biopolymer zu verwenden.

Gemäß einer vorteilhaften Ausführungsform der vorliegenden Erfindung werden bei dem Aufspalten des zu untersuchenden Biopolymers Peptide als Fragmente des Biopolymers erhalten. Das Aufspalten des zu untersuchenden Biopolymers in Peptide wird nach bekannten Verfahren, beispielsweise durch eine sog. spezifische Proteolyse, durchgeführt. Häufig wird hierzu das Enzym Trypsin verwendet, welches an der C-terminalen Seite der Aminosäuren Arginin (R) und Lysin (K) spaltet.

Einer weiteren sehr vorteilhaften Ausführungsform der Erfindung zufolge werden bei dem Aufspalten des zu untersuchenden Biopolymers Peptidfragmente als Fragmente des Biopolymers erhalten. Diese Peptidfragmente werden aus den bspw. in vorstehend beschriebener Weise erhaltenen Peptiden durch Techniken wie z.B. PSD (Post Source Decay) oder CID (Collision induced Decay) erhalten.

Sowohl aus den Peptiden als auch aus den Peptidfragmenten können mittels massenspektrometrischer Analysen entsprechende massenspektrometrische Daten erhalten werden, die in Form von Massenspektren der ersten Sequenzanalyse zugeführt werden.

Gemäß einer vorteilhaften Ausführungsform der vorliegenden Erfindung werden als bekannte Algorithmen für die erste Sequenzanalyse ein peptide mass fingerprint (PMF-) Algorithmus und/oder ein peptide fragmentation fingerprint (PFF-) Algorithmus und/oder Algorithmen aus der Familie der De-Novo Sequenzierungsalgorithmen und/oder PTM prediction Algorithmen und/oder vergleichbare Algorithmen verwendet.

Der PMF-Algorithmus erlaubt die Aufklärung der Primärstruktur eines Polypeptids anhand der Zuordnung eines gemessenen Massenspektrums zu einem Eintrag in einer Sequenzdatenbank. Indem der PMF-Algorithmus die Sequenzen der Datenbank mit der gleichen Spezifität in Peptide spaltet, wie das analysierte Biopolymer zuvor in Peptide gespalten worden ist, werden eine Vielzahl von Peptidsequenzen erhalten, aus der zu jedem Eintrag der Sequenzdatenbank durch den PMF-Algorithmus ein theoretisches Massenspektrum erstellt werden kann.

Durch einen Vergleich von gemessenen Massenspektren mit den theoretisch ermittelten Massenspektren kann jedem Datenbankeintrag basierend auf dem Vergleichsergebnis eine Bewertungsziffer gegeben werden, welche den Ähnlichkeitsgrad zwischen den verglichenen Massenspektren widerspiegelt. Im günstigsten Fall entspricht derjenige Datenbankeintrag mit der höchsten Bewertungsziffer der Sequenz des analysierten Biopolymers.

Der PFF-Algorithmus verwendet analog zu dem PMF-Algorithmus ebenfalls Sequenzdatenbanken. Hierbei werden jedoch theoretische Fragmentationsspektren von Peptiden aus der Datenbank erzeugt, die mit gemessenen Fragmentationsspektren verglichen werden, woraus wiederum durch eine Bewertung der Ähnlichkeit auf einen Datenbankeintrag geschlossen wird.

Die Klasse der De-Novo Sequenzierungsalgorithmen extrahiert aus messtechnisch bei der Analyse von Biopolymeren erhaltenen Fragmentationsspektren von Peptiden direkt Informationen über die Primärstruktur des analysierten Biopolymers. Im Gegensatz zu den PMF- und PFF- Algorithmen verwenden die De-Novo Sequenzierungsalgorithmen keine Sequenzdatenbanken.

Eine weitere sehr vorteilhafte Ausführungsform des erfindungsgemäßen Verfahrens ist dadurch gekennzeichnet, dass die weitere Analyse folgende Schritte aufweist:

– Modifizieren des bekannten Biopolymers gemäß einer vorgebbaren Modifikationsregel, um ein modifiziertes Biopolymer zu erhalten,
– Aufspalten des modifizierten Biopolymers in Fragmente, vorzugsweise gemäß einer vorgebbaren Spaltungsregel,
– Bilden theoretischer Massenspektren in Abhängigkeit der Fragmente, die beim Aufspalten des modifizierten Biopolymers erhalten werden,
– Vergleichen der theoretischen Massenspektren mit den Massenspektren der Fragmente der zweiten Spektrenklasse.

Diese erfindungsgemäße Verfahrensvariante beruht auf der Annahme, dass die bisher nicht erklärbaren Massenspektren, die z.B. der zweiten Spektrenklasse zugehören, von einem Biopolymer stammen, das sich aufgrund einer Modifikation nur teilweise von dem bekannten Biopolymer unterscheidet bzw. dass die ungeklärten Massenspektren bzw. die zugehörigen Fragmente aus einer unerwarteten Spaltung des bekannten Biopolymers erhalten werden.

Hierzu wird erfindungsgemäß für die weitere Analyse von dem bekannten Biopolymer ausgegangen, das bei der ersten Sequenzanalyse ermittelt worden ist. Mithilfe von frei wählbaren Modifikations- bzw. Spaltungsregeln wird anschließend das bekannte Biopolymer modifiziert.

Anschließend wird nach einem Aufspalten des modifizierten Biopolymers in Fragmente, bei denen es sich wiederum um Peptide oder auch Peptidfragmente handeln kann, eine massenspektrometrische Analyse durchgeführt, die auf zu den Fragmenten gehörende Massenspektren führt.

Die Schritte des Modifizierens, des Aufspaltens und der massenspektrometrischen Analyse werden – ausgehend von dem bekannten Biopolymer – vorzugsweise theoretisch, d.h. z.B. im Wege einer Simulation, vorzugsweise unter Verwendung eines geeigneten Computersystems, vorgenommen.

Demzufolge werden bei der massenspektrometrischen Analyse gemäß der vorstehend beschriebenen Verfahrensvariante i.F. auch als theoretische Massenspektren bezeichnete Massenspektren aus der Simulation erhalten.

Diese theoretischen Massenspektren werden mit den Massenspektren verglichen, die den Fragmenten der zweiten Spektrenklasse zugeordnet sind. Bei einer Übereinstimmung der verglichenen Massenspektren ist die dieser erfindungsgemäßen Verfahrensvariante zugrundeliegende Annahme bestätigt, dass bisher, d.h. z.B. mittels der Sequenzanalyse, nicht aufgeklärte Massenspektren einem Biopolymer zuzuordnen sind, welches sich aus dem bekannten Biopolymer ableiten lässt.

Durch die beschriebene Annahme ist es möglich, die Zahl zu untersuchender Biopolymere zur Klärung des Ursprungs der Massenspektren der zweiten Spektrenklasse deutlich zu reduzieren, und zwar auf ein oder mehrere bekannte Biopolymere im vorstehend beschriebenen Sinn, wodurch das Verfahren beschleunigt und die Aufklärungsrate verbessert wird.

Gemäß einer weiteren Variante der Erfindung kann das bekannte Biopolymer zunächst auch in Fragmente aufgespalten werden, vorzugsweise gemäß einer vorgebbaren Spaltungsregel. Anschließend können die durch die Aufspaltung des bekannten Biopolymers erhaltenen Fragmente gemäß einer vorgebbaren Modifikationsregel modifiziert werden. Danach sind theoretische Massenspektren in Abhängigkeit der modifizierten Fragmente bildbar, die anschließend mit den Massenspektren der zweiten Spektrenklasse verglichen werden können.

Generell ist gemäß einer weiteren Verfahrensvariante die Reihenfolge der Schritte des Modifizierens und des Aufspaltens beliebig. Es ist auch möglich, einzelne oder alle Schritte mehrmals durchzuführen. Hierdurch sind insgesamt mehrere Modifikationen und/oder Spaltungen durch eine Ausführung des erfindungsgemäßen Verfahrens modellierbar.

Darüberhinaus ist es erfindungsgemäß vorgesehen, ggf. ganz auf den Schritt des Aufspaltens und/oder des Modifizierens zu verzichten.

Eine weitere sehr vorteilhafte Verfahrensvariante sieht vor, dass für das Modifizieren eine Modifikationsregel verwendet wird, mittels der eine posttranslationale Modifikation und/oder eine Aminosäuresubstitution und/oder ein Sequenzfehler und/oder eine Transpeptidierung und/oder zufällige und/oder weitere Modifikationen des bekannten Biopolymers modellierbar sind.

Für das Aufspalten ist nach einer weiteren Variante des erfindungsgemäßen Verfahrens eine Spaltungsregel verwendbar, mittels der spezifische und/oder unspezifische Spaltungen des bekannten Biopolymers und/oder des modifizierten Biopolymers modelliert werden können. Hierbei wird die Spaltungsregel vorzugsweise aus einer Spaltungsdatenbank ermittelt.

Bei einer weiteren sehr vorteilhaften Ausführungsform des erfindungsgemäßen Verfahrens wird die Modifikationsregel in Abhängigkeit von Daten aus einer Modifikationsdatenbank gebildet. Sehr vorteilhaft ist auch eine Kombination mehrerer Modifikationsregeln miteinander.

Eine weitere sehr vorteilhafte Ausführungsform des erfindungsgemäßen Verfahrens sieht eine Kombination mehrerer bekannter Algorithmen zu der ersten Sequenzanalyse oder der weiteren Analyse vor, wodurch sich die Signifikanz von bei der jeweiligen Analyse erhaltenen Ergebnissen steigern lässt.

Die erfindungsgemäße Auswahl der Spaltungs- bzw. Modifikationsregel(n) kann als das Aufstellen einer Hypothese betrachtet werden, der zufolge bisher nicht identifizierte Peptidmassenspektren bzw. Peptidfragmentspektren durch die ausgewählte(n) Modifikation(en) bzw. Spaltung(en) aus dem bekannten Biopolymer hervorgehen. Eine derartige Hypothese wird auch als Primärstrukturhypothese bezeichnet.

Sehr vorteilhaft ist auch das aufstellen mehrstufiger Primärstrukturhypothesen, weil diese zur gleichzeitigen Berücksichtigung mehrerer Modifikationen des Biopolymers geeignet sind.

Besonders vorteilhaft werden die Primärstrukturhypothesen in Abhängigkeit von Fragmenten, vorzugsweise aus der zweiten Spektrenklasse, aufgestellt. Dadurch ist es möglich, die weitere Analyse bisher nicht identifizierter Peptidmassenspektren bzw. Peptidfragmentspektren in besonders effizienter Weise durchzuführen.

Zur Auswahl von Modifikationsregeln bzw. zur Aufstellung der Primärstrukturhypothese(n) können bei einer weiteren vorteilhaften Ausführungsform des erfindungsgemäßen Verfahrens bekannte, vorzugsweise statistische Optimierungsverfahren eingesetzt werden. Insbesondere ist der Einsatz von randomwalk-Verfahren und/oder simulated annealing-Verfahren und/oder auf genetischen Algorithmen basierenden Verfahren vorteilhaft.

Als eine weitere Lösung der Aufgabe der vorliegenden Erfindung ist ein System gemäß Anspruch 17 angegeben. Eine besonders vorteilhafte Ausführungsform dieses Systems ist zur Ausführung des erfindungsgemäßen Verfahrens geeignet.

Eine weitere Ausführungsform des erfindungsgemäßen Systems weist eine Analyseeinrichtung zur Analyse des zu untersuchenden Biopolymers auf. Hierzu ist die Analyseeinrichtung beispielsweise mit Analysevorrichtungen wie 2D-PAGE-Robotern, Gelspotausstechrobotern, Proteinverdaurobotern, MRLDI-Probenpräparationsrobotern und dergleichen ausgestattet, die einer Erfindungsvariante zufolge untereinander vernetzt sind.

Zur erfindungsgemäßen Klassifizierung und/oder zur weiteren Analyse ist bei dem System in einer weiteren Ausführungsform eine Auswerteinrichtung vorgesehen, die z.B. auf einem Computersystem basiert und beispielsweise auch dazu geeignet ist, die Analysevorrichtungen zu steuern und das erfindungsgemäße Verfahren dementsprechend weitestgehend zu automatisieren.

Besonders vorteilhaft ist bei einer weiteren Ausführungsform des erfindungsgemäßen Systems auch eine Datenbank bzw. eine Datenbankschnittstelle vorgesehen.

Einer weiteren Variante der Erfindung entsprechend weist das System Visualisierungsmittel auf, mit denen beispielsweise Analyseergebnisse darstellbar sind und mittels derer auch eine interaktive Analyse durchführbar ist, bei der ein Benutzer während der Analyse deren Parameter verändern kann.

Von besonderer Bedeutung ist auch die Realisierung des erfindungsgemäßen Verfahrens durch ein Computerprogramm gemäß Anspruch 23 und 24.

Weitere Merkmale, Anwendungsmöglichkeiten und Vorteile der Erfindung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen der Erfindung, die in den Figuren der Zeichnung dargestellt sind.
1 zeigt in einem Flussdiagramm schematisch eine erste Ausführungsform des erfindungsgemäßen Verfahrens,
2 zeigt ein Flussdiagramm, das einen Abschnitt des Verfahrens aus 1 detailliert wiedergibt,
3 zeigt ein Blockdiagramm einer Ausführungsform des erfindungsgemäßen Systems,
4a zeigt eine Bildschirmmaske einer Ausführungsform des erfindungsgemäßen Computerprogramms,
4b zeigt eine weitere Bildschirmmaske einer Ausführungsform des erfindungsgemäßen Computerprogramms,
4c zeigt eine dritte Bildschirmmaske einer Ausführungsform des erfindungsgemäßen Computerprogramms, und
4d zeigt eine vierte Bildschirmmaske einer Ausführungsform des erfindungsgemäßen Computerprogramms.
In Schritt 10 nach 1 wird zunächst eine Probe eines zu untersuchenden Biopolymers in Fragmente aufgespalten, wobei die Aufspaltung dadurch erfolgt, dass die Biopolymerprobe einer spezifischen Spaltung beispielsweise durch ein bekanntes Enzym unterworfen wird. Bei den auf diese Weise erhaltenen Fragmenten handelt es sich um die Peptide, aus denen das Biopolymer aufgebaut ist.
Eine nachfolgende massenspektrometrische Analyse der durch die Aufspaltung des Biopolymers erhaltenen Peptide in Schritt 20 führt auf Massenspektren, welche das Molekulargewicht und die relative Menge der erhaltenen Peptide angeben und daher nachfolgend auch als Peptidmassenspektren bezeichnet werden.
Mittels dieser Peptidmassenspektren wird in einem weiteren Schritt 30, in dem eine erste Sequenzanalyse durchgeführt wird, eine Primärstruktur des Biopolymers ermittelt. Die erste Sequenzanalyse 30 erfolgt hierbei gemäß bekannten Verfahren, z.B. unter Verwendung eines peptide mass fingerprint (PMF-) Algorithmus oder anderer bekannter Algorithmen oder einer Kombination von Algorithmen, die nicht näher erläutert werden.
Falls anhand von weiteren experimentellen Daten oder aufgrund einer Experimenthyphothese bestimmte Biopolymere in der untersuchten Probe vermutet werden, deren Sequenz teilweise oder ganz bekannt ist, kann die erste Sequenzanalyse in Schritt 30 auch dazu benutzt werden, um diese bekannten Biopolymersequenzen den gemessenen Massenspektren für die weitere Untersuchung zuzuordnen.
Danach erfolgt in Schritt 40 eine Klassifizierung der Massenspektren in Abhängigkeit von den Ergebnissen der ersten Sequenzanalyse vgl. Schritt 30, wobei mindestens eine erste und eine zweite Spektrenklasse erhalten werden.
Der ersten Spektrenklasse werden diejenigen Massenspektren zugeordnet, welchen im Rahmen der ersten Sequenzanalyse 30 ein bekanntes Biopolymer zugeordnet werden konnte. D.h., die erste Spektrenklasse enthält diejenigen Massenspektren, welche als Bestandteile eines bekannten Biopolymers identifiziert werden konnten.
Der zweiten Spektrenklasse werden diejenigen Massenspektren zugeordnet, welchen im Rahmen der ersten Sequenzanalyse 30 kein bekanntes Biopolymer zugeordnet werden konnte. Das bedeutet, die zweite Spektrenklasse enthält diejenigen Massenspektren, deren zugehörige Peptide noch nicht eindeutig als Bestandteile eines bekannten Biopolymers identifiziert werden konnten. Diese Peptidmassenspektren werden auch als nicht identifizierte Peptidmassenspektren bezeichnet.
Gemäß einer anderen Variante des erfindungsgemäßen Verfahrens ist es auch möglich, mehr als zwei Spektrenklassen vorzusehen, um beispielsweise zwischen den nicht identifizierten Massenspektren hinsichtlich charakteristischer Eigenschaften differenzieren zu können. Auf diese Weise kann die Gesamtzahl nicht identifizierter Massenspektren z.B. aufgeteilt werden und eine systematische weitere Analyse wird ermöglicht, bei der die nicht identifizierten Massenspektren beispielsweise in Abhängigkeit ihrer charakteristischen Eigenschaften verarbeitet werden. Ein erfindungsgemäßes Beispiel stellt die Klassifizierung der Massenspektren anhand ihrer Qualität dar. Ein geeigneter Bewertungsfaktor für die Qualität eines Massenspektrums kann z.B. mittels eines Algorithmus in Abhängigkeit der Anzahl und der Intensität von Signalen des betrachteten Massenspektrums erhalten werden.
Nach der ersten Sequenzanalyse 30 bzw. der Klassifizierung 40 verbleiben bei dem vorstehend beschriebenen Verfahren die nicht identifizierten Massenspektren, die in der zweiten Spektrenklasse zusammengefasst sind.
An die Klassifizierung 40 schließt sich, wie aus 1 ersichtlich, ein Verfahrensschritt 50 an, der eine weitere Analyse der nicht identifizierten Peptidmassenspektren zum Gegenstand hat und dessen weitere Verfahrensschritte 51 bis 54 detailliert in dem Flussdiagramm der 2 angegeben sind.
Zu Beginn der weiteren Analyse 50 wird eine sog. Zielsequenzdatenbank (nicht gezeigt) angelegt, in die das im Rahmen der ersten Sequenzanalyse 30 ermittelte, bekannte Biopolymer eingetragen wird. Im Falle mehrerer bekannter Biopolymere wird jedes der bekannten Biopolymere in die Zielsequenzdatenbank eingetragen.
Falls aus einer Experimenthyphotese ebenfalls Biopolymere bzw. Biopolymersequenzen bekannt sind können diese auch der Zielsequenzdatenbank beigefügt werden. So ist es beispielsweise denkbar, bei einer tryptischen Spaltung des analysierten Biopolymers in Peptide, Trypsin in die Zielsequenzdatenbank einzufügen.
Falls aus weiteren Analysen bekannte Biopolymersequenzen erhalten wurden, die hypothetisch in der analysierten Probe enthalten sind, können diese ebenfalls zu der Zielsequenzdatenbank hinzugefügt werden.
Erfindungsgemäß wird dann die weitere Analyse 50 gemäß den nachstehend beschriebenen Verfahrensschritten 51, 52, 53, 54 durchgeführt. Hierbei werden sämtliche Schritte 51 bis 54 vorzugsweise für jedes Biopolymer, das in die Zielsequenzdatenbank eingetragen ist, gesondert durchgeführt.
Im Schritt 51 wird das bekannte Biopolymer aus der Zielsequenzdatenbank anhand einer oder mehrerer Modifikationsregeln modifiziert, wodurch ein modifiziertes Biopolymer erhalten wird.
Die Modifikationsregel gibt dabei an, auf welche Weise das bekannte Biopolymer modifiziert wird. Hierbei kommt beispielsweise eine Modifikationsregel in Betracht, die eine posttranslationale Modifikation des bekannten Biopolymers modelliert.
Das modifizierte Biopolymer wird anschließend anhand einer oder mehrerer Spaltungsregeln in Schritt 52 – analog zu Schritt 10 – in Fragmente aufgespalten, wobei in dem vorliegenden Ausführungsbeispiel als Fragmente diejenigen Peptide erhalten werden, aus denen das modifizierte Biopolymer besteht.
Die Spaltungsregel gibt dabei an, auf welche Weise das jeweilige Biopolymer aus der Zielsequenzdatenbank gespalten wird. Hierbei kommt beispielsweise in Betracht, dass die Spaltungsregel der Spezifität eines verwendeten Proteaseenzyms entspricht, oder auch dass die Spaltungsregel einer unspezifischen Spaltung entspricht.
Anschließend werden in Schritt 53 theoretische Massenspektren gebildet. Diese theoretischen Massenspektren werden in Abhängigkeit der in Schritt 52 erhaltenen Peptide des modifizierten Biopolymers erhalten.
Schließlich sieht Schritt 54 einen Vergleich der in Schritt 53 gebildeten theoretischen Massenspektren mit den Massenspektren der Fragmente der zweiten Spektrenklasse vor.
Falls eine hinreichende Übereinstimmung der theoretischen Massenspektren mit den Massenspektren der zweiten Spektrenklasse feststellbar ist, kann davon ausgegangen werden, dass die Massenspektren der zweiten Spektrenklasse einem Biopolymer zugeordnet werden können, das in der Zielsequenzdatenbank enthalten ist oder das nur geringfügig, beispielsweise aufgrund einer Modifikation, von einem Biopolymer der Zielsequenzdatenbank abweicht, wodurch sie nicht länger zu den nicht identifizierten Peptidmassenspektren zu zählen sind. Die Ergebnisse dieses Vergleichs können beispielsweise mit Bewertungsziffern bzw. mit Qualitätsmaßen quantifiziert werden, welche z.B. in Abhängigkeit eines Grads der Übereinstimmung von untersuchten Massenspektren erhalten werden.
Mittels der erfindungsgemäßen Verfahrensschritte 51 bis 54, die von bekannten Biopolymeren ausgehen, ist es daher möglich, zuvor nicht identifizierte Peptidmassenspektren aufzuklären.
Untersuchungen haben gezeigt, dass auf diese Weise – verglichen mit herkömmlichen Verfahren – bis zu 50% der zuvor nicht identifizierten Peptidmassenspektren aufgeklärt werden können.
Im Unterschied zu den Schritten 10, 20 nach 1 werden die Schritte 50 bis 54 nicht an einer vorliegenden Probe des Biopolymers durchgeführt, sondern lediglich simuliert, beispielsweise mittels eines hierfür vorgesehenen Computersystems.
Generell können die Schritte des Modifizierens und des Aufspaltens in beliebiger Reihenfolge ausgeführt werden, d.h. die Modifikationsregel kann sowohl vor der Spaltungsregel, als auch nach der Spaltungsregel angewendet werden.
Beispielsweise kann das bekannte Biopolymer gemäß einer weiteren Variante der Erfindung zunächst auch in Fragmente aufgespalten werden, vorzugsweise gemäß einer vorgebbaren Spaltungsregel. Anschließend können die durch die Aufspaltung des bekannten Biopolymers erhaltenen Fragmente gemäß einer vorgebbaren Modifikationsregel modifiziert werden. Danach sind theoretische Massenspektren in Abhängigkeit der modifizierten Fragmente bildbar, die anschließend mit den Massenspektren der zweiten Spektrenklasse verglichen werden können.
Gemäß einer weiteren sehr vorteilhaften Variante des erfindungsgemäßen Verfahrens können die Peptide beim Aufspalten gemäß Schritt 10 in 1 in einem zusätzlichen, nicht in 1 dargestellten Verfahrensschritt, auch in Peptidfragmente aufgespalten werden, was z.B. durch eine Beaufschlagung mit Stoßgas im Massenspektrometer erfolgen kann. Die massenspektrometrische Analyse liefert dementsprechend sog. Peptidfragmentspektren, die analog zu den Peptidmassenspektren analysiert und miteinander verglichen werden können. Insbesondere ist das erfindungsgemäße Verfahren nicht auf die Auswertung nur einer Kategorie von Massenspektren beschränkt; es ist auch denkbar, sowohl Peptidmassenspektren als auch Peptidfragmentspektren zu untersuchen und jeweils erhaltene Messergebnisse miteinander zu korrelieren.
Aufgrund der größeren Genauigkeit ist die Kombination von Peptidmassenspektren und Peptidfragmentspektren bevorzugt einzusetzen.
Bei einer weiteren Variante des erfindungsgemäßen Verfahrens wird das bekannte Biopolymer anhand einer Spaltungsregel gespalten, die eine unspezifische Proteolyse des bekannten Biopolymers aus der Zielsequenzdatenbank bewirkt; sie wirkt daher insbesondere in dem Verfahrensschritt 52 der 2. Dadurch wird das bekannte Biopolymer – verglichen mit einer spezifischen, vorgegebenen Proteolyse – an anderen Sequenzstellen aufgespalten, d.h. in Peptide zerlegt. Hierdurch ergeben sich in Schritt 53 andere theoretische Massenspektren.
Danach erfolgt im Schritt 54 wiederum ein Vergleich der in Schritt 53 gebildeten theoretischen Massenspektren mit den Massenspektren der Fragmente der zweiten Spektrenklasse.
Falls bei dem Vergleich 54 eine hinreichende Übereinstimmung der theoretischen Massenspektren mit den Massenspektren der Fragmente der zweiten Spektrenklasse feststellbar ist, kann davon ausgegangen werden, dass die Massenspektren der zugehörigen Fragmente der zweiten Spektrenklasse durch die vorstehend beschriebene, modellierte unspezifische Proteolyse aus dem bekannten Biopolymer der Zielsequenzdatenbank hervorgegangen sind. Auf diese Weise ist die Zahl der verbleibenden nicht identifizierten Massenspektren ebenfalls reduzierbar.
Bei einer weiteren Variante des erfindungsgemäßen Verfahrens wird das bekannte Biopolymer anhand einer Modifikationsregel modifiziert, die Sequenzfehler modelliert, und eine andere Modifikationsregel ist zur Modellierung von Aminosäuresubstitutionen vorgesehen. Hierdurch sind insbesondere Abweichungen zu in Sequenzdatenbanken abgelegten Primärstrukturinformationen feststellbar, die zur Zuordnung der Fragmente bzw. deren Massenspektrum zu einem Biopolymer verwendet werden. Insbesondere durch Mutationen bedingte Abweichungen lassen sich auf diese Weise aufklären.
Gemäß einer weiteren sehr vorteilhaften Ausführungsform der Erfindung wird das bekannte Biopolymer anhand einer weiteren Modifikationsregel modifiziert, die Transpeptidierungen modelliert. Unter Transpeptidierung wird hierbei eine Knüpfung einer Peptidbindung eines Spaltprodukts eines ersten Peptids mit einer Aminosäure oder mit einem zweiten Peptid bei einer Inkubation des ersten Peptids mit einem Enzym in Gegenwart des zweiten Peptids bzw. der Aminosäure verstanden.
Zur Modellierung weiterer möglicher Modifikationen sind weitere Modifikationsregeln vorgesehen. Die möglichen Modifikationen können beispielsweise einer Modifikationsdatenbank entnommen werden, welche bekannte Modifikationen enthält und die evtl. auch Informationen über die jeweilige Auftrittswahrscheinlichkeit der darin aufgeführten Modifikationen unter vorgegebenen Bedingungen enthält.
Es ist auch möglich, Modifikationen oder Massenabweichungen bei den Massenspektren bzw. dem bekannten Biopolymer zu berücksichtigen, die nicht in einer Modifikationsdatenbank aufgeführt sind. Hierzu wird für ein geeignetes Spaltprodukt des bekannten Biopolymers das theoretische Gesamtmolekulargewicht berechnet und mit einem tatsächlichen Molekulargewicht, das aus den messtechnisch z.B. im Schritt 20 (1) erhaltenen Massenspektren ermittelt wird, verglichen. Eine sich ggf. aus diesem Vergleich ergebende Massenabweichung wird auf einzelne Sequenzpositionen permutiert, wodurch jeweils neue modifizierte Biopolymere entstehen, die nach dem erfindungsgemäßen Verfahren weiter analysiert werden können. Dieses Verfahren ist insbesondere zur Aufklärung von Peptidfragmenten bzw. deren Massenspektren geeignet.
Eine Kombination der Modifikationsregeln und/oder verschiedener Spaltungsregeln ist ebenfalls möglich.
Zusammenfassend kann der vorstehend beschriebene Prozess der Modifikation und Spaltung, vgl. Schritt 51, 52 in 2, bzw. bereits die Wahl der Modifikationsregel(n) und/oder Spaltungsregel(n) als das Aufstellen einer Hypothese betrachtet werden, die besagt, dass bisher nicht identifizierte Peptidmassenspektren bzw. Peptidfragmentspektren durch die ausgewählte Modifikation aus dem bekannten Biopolymer aus der Zielsequenzdatenbank hervorgehen. Diese Hypothese wird auch als Primärstrukturhypothese bezeichnet.
Die vorstehend beschriebene Verfahrensweise dient nicht nur für die Aufklärung der Primärstruktur des analysierten Biopolymers, sondern sie kann auch die Entdeckung und Charakterisierung bisher unbekannter Typen von Biopolymermodifikationen oder deren Kombinationen ermöglichen.
Das erfindunsgemäße Verfahren kann auch zur Aufklärung enzymatischer Reaktionen oder Enzymmechanismen verwendet werden, da diese vielfach enzymatische Spaltung oder Modifizierungen von Biopolymeren bewirken.
Die Primärstrukturhypothese wird bei der Modifikation in Schritt 51 und auch beim Aufspalten in Schritt 52 mittels der Bildung der theoretischen Massenspektren und deren Vergleich mit Massenspektren der Fragmente der zweiten Spektrenklasse in den Schritten 53, 54 überprüft bzw. bestätigt.
Gemäß einer besonders vorteilhaften Verfahrensvariante sind mehrere bzw. verschiedene Modifikationsregeln und/oder Spaltungsregeln in einer Primärstrukturhypothese zusammengefasst. Es ist auch denkbar, ein mehrstufiges System aus Primärstrukturhypothesen aufzustellen, wobei jeder Primärstrukturhypothese eine oder mehrere Modifikationsregeln und/oder Spaltungsregeln zugrunde liegen.
Besonders vorteilhaft werden die Modifikationsregeln und die Spaltungsregeln bzw. die Primärstrukturhypothese(n) in Abhängigkeit von klassifizierten Fragmenten, insbesondere in Abhängigkeit von Massenspektren bisher nicht identifizierter Peptide bzw. Peptidfragmente, gewählt bzw. aufgestellt.
Zur Auswahl der Modifikationsregeln und/oder Spaltungsregeln bzw. zur Aufstellung der Primärstrukturhypothese(n) können bei einer weiteren vorteilhaften Ausführungsform des erfindungsgemäßen Verfahrens bekannte, vorzugsweise statistische Optimierungsverfahren eingesetzt werden. Insbesondere ist der Einsatz von random-walk-Verfahren und/oder simulated annealing-Verfahren und/oder auf genetischen Algorithmen basierenden Verfahren vorteilhaft.
Ein erfindungsgemäßes System 100 zur Aufklärung der Primärstruktur von Biopolymeren ist in dem Blockdiagramm nach 3 vereinfacht dargestellt und nachfolgend beschrieben.
Das System 100 weist eine Analyseeinrichtung 110 auf, welche insbesondere zur Analyse des zu untersuchenden Biopolymers gemäß der in 1 dargestellten Verfahrensschritte 10, 20, 30 geeignet ist. D.h., mittels der Analyseeinrichtung 110 kann eine Probe des zu untersuchenden Biopolymers in Fragmente, d.h. in Peptide oder auch in Peptidfragmente, aufgespalten werden, was gemäß der vorstehenden Beschreibung beispielsweise durch einen spezifischen Verdau mittels eines Enzyms wie z.B. Trypsin erfolgt sowie durch Techniken wie z.B. PSD (Post Source Decay) oder CID (Collision induced Decay).
Die Fragmente können mittels der Analyseeinrichtung 110 auch einer massenspektrometrischen Analyse unterzogen werden, vgl. Schritt 20 in 1, wodurch Peptidmassenspektren bzw. Peptidfragmentspektren erhalten werden.
Die Peptidmassenspektren bzw. die Peptidfragmentspektren sind anschließend einer ersten Sequenzanalyse 30 zuführbar, welche ebenfalls mittels der Analyseeinrichtung 110 durchgeführt wird.
Die bei der ersten Sequenzanalyse 30 erhaltenen Daten werden bei dem System 100 über einen Datenbus 101 an eine Auswerteinrichtung 120 übertragen, welche eine Klassifizierung gemäß Schritt 40 aus 1 sowie die weitere Analyse gemäß Schritt 50 durchführt.
Beispielsweise ist die Auswerteinrichtung 120 als Computersystem ausgebildet, das u.a. auch die üblicherweise eine Vielzahl verschiedener Analysevorrichtungen (nicht gezeigt) umfassende Analyseeinrichtung 110 steuern kann. Die Analysevorrichtungen umfassen beispielsweise 2D-PAGE-Roboter, Gelspotausstechroboter, Proteinverdauroboter, MALDI-Probenpräparationsroboter und dergleichen.
Es ist ebenso denkbar, dass die einzelnen Analysevorrichtungen untereinander durch einen leitungsgebundenen oder auch drahtlosen Daten- und/oder Steuerbus vernetzt bzw. mit dem Datenbus 101 verbunden sind.
Zur Durchführung der ersten Sequenzanalyse 30, 1, und/oder der weiteren Analyse 50 ist eine Datenbankanbindung des Systems 100 derart vorgesehen, dass die Analyseeinrichtung 110 bzw. die Auswerteinrichtung 120 über den Datenbus 101 auf Datenbanken 130 zugreifen können. Diese Datenbanken 130 können lokal am Ort des Systems 100 vorhanden sein oder auch auf einem mit dem Datenbus 101 vernetzten Computersystem oder dergleichen realisiert sein. Schließlich ist es auch möglich, dass es sich bei den Datenbanken 130 um verteilte Datenbanken handelt, die beispielsweise durch einen Verbund miteinander vernetzter Computersysteme realisiert sind, wobei dieser Verbund beispielsweise auch an das Internet angebunden sein kann.
Bei den Datenbanken 130 handelt es sich beispielsweise um eine Sequenzdatenbank, welche die Aminosäuresequenzen bekannter Biopolymere sowie ggf. weitere Daten über die jeweiligen Biopolymere enthält. Eine derartige Datenbank wird im Rahmen der ersten Sequenzanalyse 30 sowie beispielsweise in Schritt 54 (2), s.o., verwendet.
Die Datenbanken 130 können auch Modifikationsdatenbanken enthalten bzw. darstellen, welche Informationen über verschiedene Modifikationen bzw. Modifikationsregeln enthalten, die bei dem erfindungsgemäßen Verfahren insbesondere in den Schritten 51, 52 verwendet werden.
Weiterhin sind die Datenbanken 130 erfindungsgemäß auch dazu vorgesehen, die bereits beschriebene Zielsequenzdatenbank zu realisieren, in die das bzw. die im Rahmen der ersten Sequenzanalyse 30 ermittelte(n) bekannte(n) Biopolymer(e) eingetragen wird/werden.
Ebenfalls in dem System 100 vorgesehen ist eine Datenbankschnittstelle 130a, über die das System 100 mit weiteren Datenbanken (nicht dargestellt) verbunden werden kann. Beispielsweise können auf diesem Wege nicht identifizierte Fragmente bzw. deren Massenspektren mit anderen Systemen 100 ausgetauscht werden.
In besonders vorteilhafter Weise ist das System 100 mit Visualisierungsmitteln 140 ausgestattet, die eine Visualisierung von Statusmeldungen und/oder Analyseergebnissen des Systems 100 und dergleichen ermöglichen. Hierdurch wird einem Benutzer des Systems 100 zugleich die Möglichkeit gegeben, das System 100 bzw. dessen Komponenten zu konfigurieren und z.B. Parameter für die Verfahrensschritte 10 bis 50, 51 bis 54 anzugeben.
Bei einer sehr vorteilhaften Variante des erfindungsgemäßen Systems 100 sind die Visualisierungsmittel 140 durch ein Computersystem und eine entsprechende Anzeigevorrichtung wie z.B. einen Monitor gebildet, wobei eine vorzugsweise fensterorientierte Benutzeroberfläche vorgesehen ist, die eine komfortable und effiziente Bedienung des Systems 100 erlaubt. Die Benutzeroberfläche ist hierbei Bestandteil eines Computerprogramms, das zur Ausführung des erfindungsgemäßen Verfahrens und auch zur Ansteuerung des Systems 100 bzw. dessen Komponenten geeignet ist.
4a zeigt eine Bildschirmmaske der erfindungsgemäßen Benutzeroberfläche, bei der in einem Bereich 201 verschiedene Darstellungsarten von Analyseergebnissen ausgewählt werden können. Wie aus 4a ersichtlich, ist hierbei eine Visualisierung der Massenspektren „spectra view", eine Visualisierung der ermittelten Peptide bzw. Peptidfragmente „peptide view" sowie eine proteinbezogene Visualisierung „protein view" vorgesehen.
In einem in 4a links angeordneten Bereich 202 sind verschiedene Modifikationen aufgelistet, die der Benutzer jeweils auswählen kann. Im vorliegenden Falll ist als Modifikation eine Phosphorylierung „Phosphorylation (STY)" ausgewählt. Durch einen Mausklick auf diese Phosphorylierung werden in einem separaten, hierfür vorgesehenen Anzeigefenster 203 alle Aminosäuren angezeigt, welche die Phosphorylierung aufweisen. Dieser Prozess ist durch den Pfeil 1 in 4a symbolisiert.
Die in dem Anzeigefenster 203 angezeigten Aminosäuren können ebenfalls von dem Benutzer mittels Mausklick ausgewählt werden, woraufhin in einem weiteren Anzeigefenster 204 alle Massenspektren angezeigt werden, in denen eine enstprechende Sequenzposition enthalten ist.
Die bereits im Zusammenhang mit der Bildschirmmaske aus 4a beschriebene Visualisierung von Peptiden erfolgt bei einer Ausführungsform der vorliegenden Erfindung mit der in 4b abgebildeten Bildschirmmaske 210, bei der die angezeigten Peptide in einer ersten Spalte 211 tabellarisch aufgeführt sind. Insgesamt werden mittels der Bildschirmmaske 210 beispielsweise alle Peptide aufgelistet, die anhand einer bestimmten Anzahl von Massenspektren ermittelt werden konnten.
Diese Anzahl von Massenspektren ist hierbei vorteilhaft in einem sog. Spektraldatensatz zusammengefasst, dessen Name an der mit dem Bezugszeichen 212 angezeigten Stelle der Bildschirmmaske aufgeführt ist.
Falls mehrere Massenspektren zur Ermittlung desselben Peptids führen sollten, wird das betreffende Peptid nur einmal in der Auflistung der Bildschirmmaske 210 angegeben. In diesem Fall ist aus der mit einem Doppelkreuz markierten Spalte 213 ersichtlich, wieviele Massenspektren auf dasselbe Peptid führen bzw. hinweisen. Ein Mausklick auf den jeweiligen Zahlenwert aus der Spalte 213 bewirkt die Anzeige der betreffenden Massenspektren, die vorzugsweise in einem separaten Fenster erfolgt bzw. in einem separaten, hierfür vorgesehenen Bereich der Bildschirmmaske 210.
Besonders vorteilhaft ist die anhand der Bildschirmmaske 210 erläuterte Anzeige der Peptide zur Auswertung bzw. Verifikation der ermittelten Daten durch einen Benutzer, der mit geringem Aufwand sämtliche Massenspektren anzeigen lassen kann, die auf die jeweiligen Peptide hinweisen.
Die auch mit „spectra view" bezeichnete Bildschirmmaske 220 aus 4c gibt eine tabellarische Auflistung aller Massenspektren wieder sowie in Spalte 221 ein zu dem jeweiligen Massenspektrum ermitteltes Peptid, wie es beispielsweise mit dem erfindungsgemäßen Verfahren aufgefunden worden ist. Besonders zweckmäßig ist eine Darstellung ermittelter Daten gemäß 4c dann, wenn eine Aufklärung eines bestimmten Massenspektrums interessiert.
Die Bildschirmmaske nach 4d stellt eine Eingabemaske für Parameter dar, mittels derer das erfindungsgemäße Verfahren bzw. System 100 (3) steuerbar ist.
Generell ermöglicht das erfindungsgemäße Verfahren und System 100 auch eine Analyse nicht nur eines einzelnen Biopolymers sondern z.B. eines mehrere Proteine aufweisenden Proteingemischs.
Das erfindungsgemäße Verfahren ist ferner dazu geeignet, Informationen über bisher unbekannte Modifikationen von Biopolymeren bzw. bisher unbekannte Spaltungen zu erlangen. Hierzu wird als zu untersuchendes Biopolymer ein Biopolymer verwendet, dessen Primärstruktur bereits aufgeklärt, d.h. bekannt ist. Aus einer Analyse der bei dem erfindungsgemäßen Verfahren erhaltenen Massenspektren von Peptiden und/oder Peptidfragmenten dieses Biopolymers können beispielsweise Abweichungen zwischen den analytisch erhaltenen Massenspektren und den bekannten Massenspektren des Biopolymers ausgewertet werden, um hiervon auf bisher unbekannte Modifikationen bzw. Spaltungen zu schließen.
Auf diese Weise ist es auch möglich, die der Modifikation bzw. der Spaltung zugrundeliegenden Mechanismen mit dem erfindungsgemäßen Verfahren und System aufzuklären.
Einer weiteren sehr vorteilhaften Ausführungsform des erfindungsgemäßen Verfahrens zufolge kann der vorstehend beschriebene Prozess der weiteren Analyse 50 auch ohne den Schritt des Modifizierens 51 und/oder den Schritt des Aufspaltens 52 durchgeführt werden.
Damit wird u.a. die Tatsache berücksichtigt, dass eine Aufspaltung des Biopolymers ohne vorherige Modifikation erfolgen kann. Beispielsweise kann ein ungeklärtes Massenspektrum auch allein durch eine oder mehrere unerwartete Spaltungen aus dem bekannten Biopolymer entstehen. In diesem Fall ist es vorteilhaft, vor der Bildung der theoretischen Massenspektren im Schritt 53 nur ein Aufspalten durchzuführen, ohne das Biopolymer zuvor zu modifizieren.
Die Modifikation 51 vor dem Aufspalten 52 kann daher u.U. entfallen. Ebenso kann ein Aufspalten 52 eines modifizierten Biopolymers ggf. entfallen.
Da es bis zu einem gewissen Molekulargewicht möglich ist, direkt Massenspektren von ganzen Proteinen zu akquirieren, ist auch ein direkter Vergleich auf diese Weise erhaltener Massenspektren mit erfindungsgemäß erhaltenen theoretischen Massenspektren möglich, wobei im Falle einer hinreichenden Massenübereinstimmung auf eine bestimmte Modifikation geschlossen werden kann. In diesem Fall ist der Schritt 52 des Aufspaltens nicht erforderlich.

Claims

Verfahren zur Aufklärung der Primärstruktur von Biopolymeren, bei dem ein zu untersuchendes Biopolymer in Fragmente aufgespalten und danach einer massenspektrometrischen Analyse (20) unterzogen wird, wodurch Massenspektren erhalten werden, und bei dem bekannte Algorithmen zu einer ersten Sequenzanalyse (30) der Fragmente verwendet werden, um mittels der Massenspektren eine Primärstruktur des Biopolymers zu ermitteln, dadurch gekennzeichnet, dass die Massenspektren in Abhängigkeit von Ergebnissen der ersten Sequenzanalyse (30) klassifiziert werden, wodurch mindestens eine erste Spektrenklasse erhalten wird, der ein bekanntes Biopolymer zugeordnet werden kann und eine zweite Spektrenklasse, der kein bekanntes Biopolymer zugeordnet werden kann, und dass eine weitere Analyse (50) von Massenspektren der zweiten Spektrenklasse in Abhängigkeit des bekannten Biopolymers durchgeführt wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass als bekannte Algorithmen für die erste Sequenzanalyse (30) und/oder die weitere Analyse (50) ein peptide mass fingerprint (PMF-) Algorithmus und/oder ein peptide fragmentation fingerprint (PFF-) Algorithmus und/oder Algorithmen aus der Familie der De-Novo Sequenzierungsalgorithmen und/oder PTM prediction Algorithmen und/oder vergleichbare Algorithmen verwendet werden.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die weitere Analyse (50) folgende Schritte aufweist: – Modifizieren (51) des bekannten Biopolymers gemäß einer vorgebbaren Modifikationsregel, um ein modifiziertes Biopolymer zu erhalten, – Aufspalten (52) des modifizierten Biopolymers in Fragmente, vorzugsweise gemäß einer vorgebbaren Spaltungsregel, – Bilden (53) theoretischer Massenspektren in Abhängigkeit der Fragmente, die beim Aufspalten (52) des modifizierten Biopolymers erhalten werden, – Vergleichen (54) der theoretischen Massenspektren mit den Massenspektren der zweiten Spektrenklasse.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die weitere Analyse (50) folgende Schritte aufweist: – Aufspalten des bekannten Biopolymers in Fragmente, vorzugsweise gemäß einer vorgebbaren Spaltungsregel, – Modifizieren der durch die Aufspaltung des bekannten Biopolymers erhaltenen Fragmente gemäß einer vorgebbaren Modifikationsregel, um modifizierte Fragmente zu erhalten, – Bilden theoretischer Massenspektren in Abhängigkeit der modifizierten Fragmente, – Vergleichen (54) der theoretischen Massenspektren mit den Massenspektren der zweiten Spektrenklasse.
Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass für das Modifizieren (51) eine Modifikationsregel verwendet wird, mittels der a. eine posttranslationale Modifikation und/oder b. eine Aminosäuresubstitution und/oder c. ein Sequenzfehler und/oder d. eine Transpeptidierung und/oder e. zufällige und/oder f. weitere Modifikationen des bekannten Biopolymers modellierbar sind.
Verfahren nach einem der Ansprüche 3 bis 5, dadurch gekennzeichnet, dass für das Aufspalten eine Spaltungsregel verwendet wird, mittels der spezifische und/oder unspezifische Spaltungen des bekannten Biopolymers und/oder des modifizierten Biopolymers modelliert werden können, wobei die Spaltungsregel vorzugsweise in Abhängigkeit von Daten aus einer Spaltungsdatenbank ermittelt wird.
Verfahren nach einem der Ansprüche 3 bis 5, dadurch gekennzeichnet, dass die Schritte des Modifizierens (51) und des Aufspaltens (52) in beliebiger Reihenfolge und/oder mehrfach anwendbar sind und/oder dass der Schritt des Aufspaltens (52) und/oder der Schritt des Modifizierens (51) entfällt.
Verfahren nach einem der Ansprüche 3 bis 7, dadurch gekennzeichnet, dass die Modifikationsregel in Abhängigkeit von Daten aus einer Modifikationsdatenbank (130) gebildet wird.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass bei dem Aufspalten (10) des zu untersuchenden Biopolymers Peptide als Fragmente des Biopolymers erhalten werden.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass bei dem Aufspalten (10) des zu untersuchenden Biopolymers Peptidfragmente als Fragmente des Biopolymers erhalten werden.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass bei der ersten Sequenzanalyse (30) und/oder bei der weiteren Analyse (50) mehrere bekannte Algorithmen zur Sequenzanalyse kombiniert werden.
Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass zur weiteren Analyse (50) von Massenspektren vorzugsweise der zweiten Spektrenklasse ein- oder mehrstufige Primärstrukturhypothesen aufgestellt werden.
Verfahren nach Anspruch 12, dadurch gekennzeichnet, dass die Aufstellung der Primärstrukturhypothesen das Auswählen von Modifikationsregeln umfasst, mittels der a. eine posttranslationale Modifikation und/oder b. eine Aminosäuresubstitution und/oder c. ein Sequenzfehler und/oder d. eine Transpeptidierung und/oder e. zufällige und/oder f. weitere Modifikationen des bekannten Biopolymers modellierbar sind.
Verfahren nach Anspruch 12 oder 13, dadurch gekennzeichnet, dass die Aufstellung der Primärstrukturhypothesen das Aufstellen von Spaltungsregeln umfasst, mittels der spezifische und/oder unspezifische Spaltungen modelliert werden können
Verfahren nach einem der Ansprüche 12 bis 14, dadurch gekennzeichnet, dass die Primärstrukturhypothesen in Abhängigkeit von Massenspektren, vorzugsweise der zweiten Spektrenklasse, aufgestellt werden.
Verfahren nach einem der Ansprüche 12 bis 15, dadurch gekennzeichnet, dass die Aufstellung der Primärstrukturhypothesen unter Verwendung insbesondere statistischer Optimierungsverfahren erfolgt.
System (100) zur Aufklärung der Primärstruktur von Biopolymeren, bei dem ein zu untersuchendes Biopolymer in Fragmente aufspaltbar und danach einer massenspektrometrischen Analyse (20) zuführbar ist, wodurch Massenspektren erhalten werden, und bei dem bekannte Algorithmen zu einer ersten Sequenzanalyse (30) der Fragmente verwendbar sind, um mittels der Massenspektren eine Primärstruktur des Biopolymers zu ermitteln, dadurch gekennzeichnet, dass die Massenspektren in Abhängigkeit von Ergebnissen der ersten Sequenzanlyse (30) klassifizierbar sind, wodurch mindestens eine erste Spektrenklasse erhalten wird, der ein bekanntes Biopolymer zugeordnet werden kann und eine zweite Spektrenklasse, der kein bekanntes Biopolymer zugeordnet werden kann, und dass eine weitere Analyse (50) von Massenspektren der zweiten Spektrenklasse in Abhängigkeit des bekannten Biopolymers durchführbar ist.
System (100) nach Anspruch 17, dadurch gekennzeichnet, dass das System (100) zur Ausführung des Verfahrens nach einem der Ansprüche 1 bis 16 geeignet ist.
System (100) nach einem der Ansprüche 17 oder 18, dadurch gekennzeichnet, dass das System (100) eine Analyseeinrichtung (110) zur Analyse des zu untersuchenden Biopolymers aufweist.
System (100) nach einem der Ansprüche 17 bis 19, dadurch gekennzeichnet, dass das System (100) eine Auswerteinrichtung (120), insbesondere zur Klassifizierung (40) und/oder zur weiteren Analyse (50) aufweist.
System (100) nach einem der Ansprüche 17 bis 20, dadurch gekennzeichnet, dass das System (100) mindestens eine Datenbank (130) und/oder eine Datenbankschnittstelle (130a) aufweist.
System (100) nach einem der Ansprüche 17 bis 21, dadurch gekennzeichnet, dass das System (100) Visualisierungsmittel (140) aufweist.
Computerprogramm zur Steuerung des Systems (100) nach einem der Ansprüche 17 bis 22.
Computerprogramm nach Anspruch 23, dadurch gekennzeichnet, dass das Computerprogramm zur Ausführung des Verfahrens nach einem der Ansprüche 1 bis 16 geeignet ist.