DE602004012637T2

DE602004012637T2 - Verfahren und Vorrichtungen zur Identifizierung von Biopolymeren mittels Massenspektometrie

Info

Publication number: DE602004012637T2
Application number: DE602004012637T
Authority: DE
Inventors: Dean R. Thomson; Steven M. Fischer
Original assignee: Agilent Technologies Inc
Current assignee: Agilent Technologies Inc
Priority date: 2003-03-13
Filing date: 2004-02-12
Publication date: 2009-04-16
Anticipated expiration: 2024-02-13
Also published as: US8507285B2; EP1457776A2; EP1457776B1; US20040180446A1; DE602004012637D1; EP1457776A3; JP2004279424A

Description

Hintergrund der Erfindung
Die Massenspektroskopie (MS – mass spectroscopy) hat sich aufgrund ihrer hohen Empfindlichkeit, Geschwindigkeit und Fähigkeit zur Analyse von äußerst komplexen Gemischen als leistungsfähiges analytisches Hilfsmittel zum Untersuchen von Biopolymeren, z. B. Polypeptiden, Polynucleotiden und Polysacchariden, erwiesen. Beispielsweise wurde bereits eine Vielzahl an Techniken zum Identifizieren von Proteinen in biologischen Proben (z. B. Zellextrakten) entwickelt. Üblicherweise werden die Proteine in einer interessierenden Probe zuerst mittels zweidimensionaler Gelelektrophorese (2D-Gel) getrennt (abgeschieden). Ausgewählte Gelspots werden anschließend herausgeschnitten und mit einem oder mehreren Aufschlussenzymen (z. B. Trypsin) aufgeschlossen, um die Proteine in Ansammlungen kürzerer Polypeptidketten aufzubrechen. Diese Aufschlussauszüge werden anschließend mittels Massenspektroskopie analysiert, und die resultierenden Spektren werden mit Spektren verglichen, die anhand von Aminosäuresequenzinformationen, die in Datenbasen (z. B. SwissProt/TrEMBL, NCBI Protein Database usw.) enthalten sind, vorausgesagt werden. Identifikationen werden auf der Basis der Unwahrscheinlichkeit, dass mehr als ein Protein bei einer Überprüfung auf Übereinstimmung mit den beobachteten Spektren ermittelt wird, durchgeführt (siehe z. B. Strupat u. a., Anal. Chem. 66: 464, 1994). Eine grundlegende Einschränkung der Gewinnung des genetischen Fingerabdrucks einer Polypeptidmasse (engl. polypeptide mass fingerprinting), wie dieser Ansatz üblicherweise genannt wird, resultiert daraus, dass sie lediglich dazu verwendet werden kann, Proteine zu identifizieren, für die Sequenzen bereits bekannt sind; sie ist nicht in der Lage, bisher unbekannte Proteine zu identifizieren.
Allgemein erwiesen sich 2D-Gel-Trennungen als langsam und zeitaufwendig, somit wurden auch Verfahren mit größerem Durchsatz, die mehrdimensionale Flüssigchromatographie (MDLC – multi-dimensional liquid chromatography) verwenden, entwickelt (siehe z. B. Yates u. a., Anal. Chem. 69: 767, 1997). Es werden mehrere Variationen dieses Prozesses verwendet, sie beginnen jedoch üblicherweise alle mit einem enzymatischen Aufschluss der in der Probe vorliegenden Proteine, was zu einem komplexen Gemisch führt, das Polypeptidketten aus vielen verschiedenen Proteinen enthält. Dieses komplexe Gemisch wird anschließend mittels MDLC getrennt, wobei üblicherweise ein starker Kationenaustausch (SCX – strong cation exchange) verwendet wird, auf den eine Umkehrphase (RP – reverse Phase) folgt. Die resultierenden Abscheidungen enthalten üblicherweise Polypeptide aus vielerlei Proteinen. Diese Abscheidungen werden mittels Massenspektroskopie analysiert, und die Ergebnisse werden wie zuvor mit vorausgesagten Spektren verglichen. In den meisten Fällen wird Tandemmassenspektroskopie (MS/MS) dazu verwendet, die Analyse durchzuführen (siehe z. B. Ducret u. a., Protein Sci. 7: 706, 1998). Bei diesem Prozess werden Polypeptide, die aus der Trennstufe eluieren, in der ersten Stufe eines Tandemmassenspektrometers analysiert, die bestimmte Polypeptidionen zur Fragmentierung und Analyse in der zweiten Stufe des Tandemmassenspektrometers auswählt. Die resultierenden Spektren liefern ausführlichere Informationen über die Struktur der ausgewählten Polypeptidionen, wodurch die Identifizierung verbessert wird.
Eines der Probleme bei der Verwendung von MDLC und MS/MS zur Proteinidentifizierung besteht darin, dass es schwierig ist, eine breite Abdeckung der in einer Probe vorliegenden Proteine zu erhalten. Dies kann üblicherweise auf den Prozess zurückzuführen sein, der zum Auswählen von Ionen in der ersten Stufe zur Fragmentierung in der zweiten Stufe verwendet wird. Eine gute Identifizierung kann durchgeführt werden, wenn eine ausreichende Anzahl von Polypeptiden aus einem gegebenen Protein zur Fragmentierung ausgewählt wird.
Da jedoch der Prozess des Auswählens von Polypeptiden und des Sammelns von Spektren in der zweiten Stufe relativ zu dem Fluss von der Trennstufe langsam ist, ist es nicht immer möglich, alle Polypeptide, die bei einer Elutionsspitze vorliegen, zur Analyse in der zweiten Stufe auszuwählen. Algorithmen, die zur Auswahl verwendet werden, treffen auf der Basis einer Vielzahl von Faktoren, einschließlich einer relativen Häufigkeit eines Ions in den Spektren der ersten Stufe, und der Zeit, die seit der Auswahl einer gegebenen Masse verstrichen ist, Echtzeitentscheidungen. Sie können auch Möglichkeiten zum Vorziehen spezifischer Massen oder zum Ausschließen gegebener Massen aufweisen, diese Listen werden jedoch allgemein manuell erstellt. Die Folge dieser Auswahlansätze besteht darin, dass Polypeptide mit relativ hoher Häufigkeit (d. h. Polypeptide von relativ häufigen Proteinen oder häufige Polypeptide, die sich aus dem Aufschluss mehrerer unterschiedlichen Proteine ergeben) bevorzugt ausgewählt werden. Umgekehrt werden Polypeptide, die sich aus Proteinen mit einer relativ geringen Häufigkeit oder mit suboptimalen Ionisierungscharakteristika ergeben, häufig übergangen.
Die Tandemmassenspektroskopie weist insofern ein zusätzliches Problem auf, als es aufgrund des hohen Ionenverlusts, der mit dem Ionenauswahlprozess verbunden ist, schwierig ist, die relativen Mengen verschiedener Polypeptide, die in einer gegebenen Probe vorhanden sind, genau zu messen. Bei einem komplexen Spektrum, bei dem fast alle Ionen von Interesse sind, ist es nicht möglich, alle Ionen kontinuierlich zu überwachen und an jedem wichtigen Ion eine MS/MS durchzuführen. Da sich die Ionenintensität für jedes Ion mit dem chromatographischen Elutionsprofil des Polypeptids, von dem das Ion abgeleitet ist, ändert, verringert die Zeit, die darauf verwendet wird, Ionen auszuwählen und eine MS/MS durchzuführen, die Anzahl von für jedes Ion gesammelten Datenpunkten beträchtlich, wodurch die Genauigkeit der geschätzten Menge jedes in der Probe vorhandenen Polypeptids verringert wird.
Allgemein gelten die Einschränkungen, die oben in Bezug auf Polypeptide beschrieben werden, auch dann, wenn Massenspektroskopie verwendet wird, um andere Biopolymere, einschließlich Polynucleotide und Polysaccharide, zu identifizieren.
Zusammenfassung der Erfindung
In dem vorliegenden Dokument ist ein Verfahren zum Identifizieren eines Biopolymers in einer Probe, die ein oder mehrere Biopolymere umfasst, beschrieben. Die Biopolymere können Polypeptide, Polynucleotide oder Polysaccharide sein. Das Verfahren verwendet einen Massenspektral-Datensatz. Ein erster Datensatz umfasst gemessene Massen des einen oder der mehreren Biopolymere, die sich in der Probe befinden. Ein zweiter Datensatz umfasst gemessene Massen einer Sammlung von Fragmenten des einen oder der mehreren Biopolymere. Das Verfahren wählt eine Masse aus dem ersten Datensatz aus und überprüft dann eine Übereinstimmung zwischen Massen aus dem zweiten Datensatz und der ausgewählten Masse. Die bei der Übereinstimmungsüberprüfung ermittelten Massen stellen Fragmente des Biopolymers mit der ausgewählten Masse dar. Nachdem die Massen in dem zweiten Datensatz bei der Übereinstimmungsüberprüfung ermittelt wurden, werden sie verglichen, um eine Monomersequenz für das Biopolymer mit der ausgewählten Masse zu bestimmen. Das Verfahren kann mit zusätzlichen Massen in dem ersten Datensatz wiederholt werden.
Kurze Beschreibung der Zeichnung
Merkmale der vorliegenden Erfindung werden aus der folgenden ausführlichen Beschreibung bestimmter exemplarischer Ausführungsbeispiele derselben, die in Verbindung mit den beiliegenden Zeichnungen genommen sind, noch offensichtlicher. Es zeigen:
1 die Einzel-Hauptketten-Spaltungsereignisse, die zu der a/x-, b/y- und c/z-Reihe von N/C-endständigen Polypeptidfragmenten führen; und
2 die akzeptierte Nomenklatur für N- und C-endständige Fragmente, die anhand der Einzel-Hauptketten-Spaltungsereignisse der 1 erzeugt wurden.
Beschreibung bestimmter exemplarischer Ausführungsbeispiele der Erfindung
Die vorliegende Patentanmeldung erwähnt verschiedene Patentschriften und veröffentlichte Referenzdokumente. Der Einfachheit und Übersichtlichkeit halber beschreibt der folgende Abschnitt, wie die erfindungsgemäßen Verfahren dazu verwendet werden können, Polypeptide zu identifizieren. Diese Betonung von Polypeptiden soll keine Einschränkung darstellen. Insbesondere sollte Fachleuten klar sein und einleuchten, dass die hierin beschriebenen Verfahren auch dazu verwendet werden können, andere Biopolymere, einschließlich Polynucleotide und Polysaccharide, zu identifizieren. Diese zusätzlichen Ausführungsbeispiele werden am Ende der vorliegenden Anmeldung ausführlicher erörtert.
Einführung
Bei bestimmten Ausführungsbeispielen liefert die vorliegende Erfindung Verfahren und Vorrichtungen zum Identifizieren von Polypeptiden in einer interessierenden Probe unter Verwendung von Massenspektroskopie mit hoher Massengenauigkeit. Die erfindungsgemäßen Verfahren und Vorrichtungen können in Kombination mit traditionellen Lösungsansätzen wie z. B. Polypeptid-Masse-Fingerprinting und MS/MS verwendet werden; jedoch hängen sie nicht von diesen Verfahren ab. Insbesondere können die erfindungsgemäßen Verfahren und Vorrichtungen dazu verwendet werden, Polypeptide auf der Basis von Massenspektraldaten zu identifizieren, ohne einen Vergleich mit einer Datenbank bekannter Proteinsequenzen vorzunehmen. Ferner können die erfindungsgemäßen Verfahren und Vorrichtungen dazu verwendet werden, Polypeptide auf der Basis von Massenspektren, die mit einem einstufigen Massenspektrometer erhalten werden, zu identifizieren.
Allgemein beinhalten die erfindungsgemäßen Verfahren ein Analysieren von Ionenmassen aus einem oder mehreren Sätzen von Massenspektren. Jeder Satz von Spektren umfasst zumindest zwei verschiedene Spektren der interessierenden Probe, nämlich ein „unfragmentiertes" bzw. „U"-Spektrum und ein „fragmentiertes" bzw. „F"-Spektrum.
Ein U-Spektrum umfasst Spitzen, die manchen und vorzugsweise allen Polypeptiden in der Probe entsprechen, wenn diese Polypeptide unfragmentiert sind. Bei bevorzugten Ausführungsbeispielen wird ein U-Spektrum erhalten, indem die Polypeptide in der Probe erfasst werden, ohne dass sie einem Fragmentierungsmechanismus ausgesetzt werden. Es versteht sich, dass ein U-Spektrum bei bestimmten Ausführungsbeispielen Spitzen umfassen kann, die Fragmente dieser Polypeptide darstellen, z. B. Fragmente, die versehentlich als Folge des Mechanismus erzeugt wurden, der zum Ionisieren und/oder Erfassen der Polypeptide in dem Spektrometer verwendet wurde.
Ein F-Spektrum umfasst Spitzen, die einer Sammlung von Fragmenten mancher und vorzugsweise aller Polypeptide in der Probe entsprechen. Bei bevorzugten Ausführungsbeispielen wird ein F-Spektrum dadurch erhalten, dass die Polypeptide in der Probe erfasst werden, nachdem diese einem oder mehreren Fragmentierungsmechanismen ausgesetzt wurden. Es versteht sich, dass ein F-Spektrum bei bestimmten Ausfüh rungsbeispielen Spitzen umfassen kann, die unfragmentierte Polypeptide darstellen, z. B. Polypeptide, die es überleben, wenn sie dem Fragmentierungsmechanismus ausgesetzt werden. Man wird erkennen, dass derartige Situationen am wahrscheinlichsten dann auftreten, wenn die Polypeptide relativ geringen Fragmentierungsenergien ausgesetzt werden.
Nachdem die U- und F-Spektren erhalten wurden, werden die Spektralmassen (bzw. „Massen") unter Verwendung einer Vielzahl von Verarbeitungsschritten, die nachstehend ausführlicher beschrieben werden, extrahiert und analysiert. Diese Verarbeitungsschritte nutzen die Strukturinformationen, die bei Spektraldaten, die ein hohes Maß an Massengenauigkeit aufweisen, verfügbar sind. Die Ergebnisse der Analyse werden dazu verwendet, ein, manche oder alle Polypeptide in der interessierenden Probe zu identifizieren. Bei bestimmten Ausführungsbeispielen beinhaltet ein Identifizieren eines Polypeptids ein Bestimmen der gesamten Aminosäuresequenz dieses Polypeptids. Bei bestimmten anderen Ausführungsbeispielen werden Teilaminosäuresequenzen und/oder ein Satz alternativer Sequenzen bestimmt. Bei wieder anderen Ausführungsbeispielen werden die Beschaffenheit, Position und das relative Ausmaß verschiedener Modifikationen bestimmt.
Bei bestimmten bevorzugten Ausführungsbeispielen werden die Spektren mit einem einstufigen Spektrometer erhalten. Durch ein Eliminieren des Ionenauswahlschritts, der bei der Mehrstufen-Spektroskopie erforderlich ist, liefern derartige Ausführungsbeispiele eine breitere Abdeckung der in der Probe vorliegenden Polypeptide. Die Verwendung eines einstufigen Massenspektrometers erhöht auch den Analysedurchsatz bei einem MDLC/MS-Aufbau. Außerdem können infolge der geringen Ionenverluste, die mit einstufigen Instrumenten verbunden sind, die Spektren, die gemäß diesen Ausführungsbeispielen erhalten werden, dazu verwendet werden, genauere Informationen über die relative Quantität der in der Probe vorliegenden Polypeptide zu liefern. Bei bestimmten Ausfüh rungsbeispielen können die Verfahren in Verbindung mit Massenmarkierungsreagenzien verwendet werden, um äußerst genaue Messungen von Veränderungen der Mengen bestimmter Polypeptide zwischen zwei verschiedenen Proben zu liefern.
Die hierin beschriebenen Verfahren können auf jegliche Probe angewendet werden, die ein oder mehrere Polypeptide umfasst. Bei bestimmten Ausführungsbeispielen umfasst die Probe eine Mehrzahl von Polypeptiden. Gemäß der Definition in dem vorliegenden Dokument umfasst ein „Polypeptid" eine Folge von zumindest drei Aminosäuremonomeren, die durch Peptidbindungen miteinander verbunden und durch eine N-endständige Gruppe und eine C-endständige Gruppe (in 1 R_N bzw. R_C) beendet werden. Es versteht sich, dass die Begriffe „Polypeptid", „Oligopeptid", „Peptid" und „Protein" auf austauschbare Weise verwendet werden können, d. h. für die Zwecke der vorliegenden Erfindung umfasst der Begriff Polypeptid Volllängenproteine und Fragmente derselben, z. B. Enzymatischer- oder Chemischer-Aufschluss-Fragmente. Die Polypeptide können häufig vorkommende Aminosäuremonomere (z. B. die im Anhang A aufgeführten) und weniger häufig vorkommende Aminosäuremonomere (d. h. Aminosäuremonomere; die üblicherweise nicht in Proteinen zu finden sind, die jedoch in eine Polypeptidkette integriert werden können, beispielsweise die im Anhang B aufgeführten, jedoch nicht beschränkt auf dieselben) enthalten. Die Polypeptide können jegliche N-endständige Gruppe und jegliche C-endständige Gruppe (z. B., jedoch nicht beschränkt auf, die im Anhang C aufgelisteten) umfassen. Auch können ein oder mehrere der Aminosäuremonomere in einem Polypeptid modifiziert sein, z. B., jedoch nicht beschränkt auf, eine Modifikation, die im Anhang D und E aufgeführt ist, und/oder anhand einer Hinzufügung einer Massenmarkierung.
Bei bestimmten Ausführungsbeispielen können die Verfahren dazu verwendet werden, Proben zu analysieren, die anhand eines chemischen „Aufschlusses" eines oder mehrerer Proteine erzeugt wurden, z. B. Gemische aus N-endständigen Edman- und/oder C-endständigen Carboxypeptidase-Spaltungen. Die Verfahren können auch dazu verwendet werden, die Sequenz eines oder mehrerer Polypeptide in einem synthetischen Polypeptidgemisch zu bestätigen. Bei wieder anderen Ausführungsbeispielen können die erfindungsgemäßen Verfahren und Vorrichtungen dazu verwendet werden, verschiedene logische Fraktionen eines Polypeptidgemisches zu analysieren. Beispielsweise, jedoch ohne Beschränkung hierauf, können die erfindungsgemäßen Verfahren dazu verwendet werden, verschiedene herausgeschnittene Spots aus einer 2D-Gel-Protein-Trennung; verschiedene gesammelte Fraktionen aus einer Kapillar- oder Kontinuierliche-Elektrophorese-Trennung, einer Ausschlusschromatographie-Trennung, einerein- oder mehrdimensionalen LC-Trennung, z. B. bei einem LC/MS-Aufbau; usw. zu analysieren.
Erhalten von U- und F-Spektren
Die hierin beschriebenen Verfahren sind unabhängig von der Ionisationstechnik, die verwendet wird, während die U- und F-Spektren erhalten werden (d. h. es kann jegliche Technik, die in der Lage ist Polypeptide zu ionisieren, verwendet werden, einschließlich, aber nicht auschließlich, der herkömmlichen matrixunterstützten Laser-Desorption-Ionisierung bzw. MALDI (matrix-assisted laser desorption ionization), die von Hillenkamp u. a., Anal. Chem. 63: 193A, 1991, beschrieben wird; der Atmosphärendruckmatrixunterstützten Laser-Desorption-Ionisierung bzw. AP-MALDI (atmospheric Pressure matrix-assisted laser desorption ionization), die von Moyer und Cotter, Anal. Chem. 74: 468A, 2002, beschrieben wird; Elektrosprayionisierung bzw. ESI (electrospray ionization), die von Fenn u. a., Mass Spectrom. Rev. 9: 37, 1990, beschrieben wird; usw.).
Die Erfindung ist auch unabhängig von der verwendeten Erfassungstechnik (d. h. jegliche Technik, die in der Lage ist, Polypeptide zu erfassen, kann verwendet werden, ein schließlich, aber nicht ausschließlich, Flugzeit-Spektroskopie bzw. TOF (time-of-flight), die von Chernushevich u. a., J. Mass Spectrom. 36: 849, 2001, beschrieben wird; Fourier-Transformation-Ionencyclotronresonanzspektroskopie bzw. FT-ICR (Fourier transform ion cyclotron resonance spectroscopy), die von Hendrickson und Emmett, Annu. Rev. Phys. Chem. 50: 517, 1999, beschrieben wird; Ionenfallenspektroskopie, die von Jonscher und Yates, Anal. Biochem. 244: 1, 1997, beschrieben wird; usw.).
Die Erfindung ist von der Fragmentierungstechnik (oder Kombination von Techniken), die dazu verwendet wird bzw. werden, F-Spektren zu erzeugen, allgemein unabhängig (d. h. es kann jegliche Technik verwendet werden, die in der Lage ist, Polypeptide zu fragmentieren, einschließlich, aber nicht ausschließlich, stoßinduzierte Dissoziation bzw. CID (collision-induced dissociation), die von Falick u. a., J. Am. Soc. Mass Spectrom. 4: 882, 1993, beschrieben wird; Post-Source-Decay bzw. PSD (Nach-Quellen-Verfall), von Spengler, J. Mass Spectrom. 32: 1.019, 1997, beschrieben; Infrarot-Multiphotonendissoziation bzw. IR-MPD (infrared multiphoton dissociation), von Little und McLafferty, J. Am. Soc. Mass Spectrom. 7: 209, 1996, beschrieben; oberflächeninduzierte Dissoziation bzw. SID (surface induced dissociation), von Chorush u. a., Anal. Chem. 67: 1.042, 1995, beschrieben; Elektroneneinfangdissoziation bzw. ECD (electron capture dissociation), von Zubarev u. a., Anal. Chem. 72: 563, 2000, beschrieben; usw.).
Wie in der Technik hinreichend bekannt ist, hängen die Arten von F-Ionen in den F-Spektren von vielen Faktoren ab, einschließlich der Aminosäuresequenz, des Fragmentierungsverfahrens, der Fragmentierungsenergie, der inneren Energie, des Ladungszustands usw. Die akzeptierte Nomenklatur für F-Ionen, die sich aus einer Einzel-Hauptketten-Spaltung ergeben, ist in den 1 und 2 gezeigt und bei Johnson u. a., Anal. Chem. 59: 2.621, 1987, beschrieben. Kurz gesagt werden N-endständige Fragmente als entweder a, b oder c klassifiziert; C-endständige Fragmente werden als entweder x, y oder z klassifiziert; und eine Tiefstellung gibt die Anzahl von Monomeren in dem Fragment an. Wie in 1 veranschaulicht ist, werden die a/x-, b/y- und c/z-Fragmente anhand einer Spaltung von Ca_i/C_i-, C_i/N_i- bzw. N_i/Ca_i+l-Hauptkettenbindungen erzeugt. Üblicherweise können F-Spektren Spitzen von mehr als einem F-Ion eines gegebenen Typs umfassen, z. B. ein, manche oder alle der a-Reihe eines Polypeptids mit n Monomeren, d. h. a₁, a₂, a₃, a₄, a₅, a₆, a₇, a₈, a₉, a₁₀,..., a_n-2 und a_n-1. Außerdem können F-Spektren verschiedene Sätze von komplementären F-Ionen umfassen, z. B. ein, manche oder alle der a/x-, b/y- und c/z-Paare. Ferner wird einleuchten, dass gemäß bestimmten Ausführungsbeispielen der Erfindung F-Spektren ferner Ionen umfassen können, die sich aus einer Doppel-Hauptketten-Spaltung, einer Nebenkettenspaltung und/oder einem üblichen neutralen Verlust, z. B. Verlust von H₂O, NH₃ usw., ergeben.
Bei bevorzugten Ausführungsbeispielen werden F-Spektren mit einem einzigen oder einer Kombination von Niedrigenergiemechanismen erzeugt. Hashimoto u. a. haben kürzlich die kombinierte Verwendung von CID und IR-MPD beschrieben (Anal. Chem. Web-Release am 24. Dezember 2002). Man wird erkennen, dass die genaue Energie (oder die genauen Energien), die verwendet wird bzw. werden, von der in der Analyse befindlichen Probe und dem (oder den) verwendeten Fragmentierungsverfahren abhängt bzw. abhängen. Allgemein können geeignete Fragmentierungsenergien empirisch ermittelt werden, beispielsweise indem das Verhältnis von unfragmentierten zu fragmentierten Spitzen als Funktion der Fragmentierungsenergie überwacht wird. Zusätzlich oder alternativ dazu könnte man geeignete Fragmentierungsenergien auf der Basis der durchschnittlichen relativen Molekülmasse und/oder der Gewichtsverteilung der erfassten Fragmente auswählen. Bei bestimmten Ausführungsbeispielen können Fragmentierungsenergien auf einen Pegel unterhalb der Schwelle für eine Doppel-Hauptketten- und/oder Neben kettenspaltung eingestellt werden. Als Beispiel, und ohne hierauf beschränkt zu sein, betragen geeignete Fragmentierungsenergien, wenn CID bei relativ hohen Gasdrücken verwendet wird, üblicherweise weniger als etwa 1.000 eV, typischer zwischen etwa 100 und etwa 500 eV, noch typischer zwischen etwa 150 und etwa 250 eV. Fachleute können ohne weiteres geeignete Fragmentierungsenergien für andere Mechanismen wie z. B. ECD und SID ermitteln.
Die hierin beschriebenen Verfahren sind empfindlich bezüglich der Massengenauigkeit der Spitzen in den U- und F-Spektren. Allgemein wird die Massengenauigkeit der U- und F-Spektren durch die Spezifikationen des Massenspektrometers und die Signalstärke beeinflusst. Kommerzielle Instrumentenhersteller legen Massengenauigkeiten für ihre Spektrometer üblicherweise in Einheiten von Teilen pro Million (ppm – parts per million) fest. Wenn die theoretische monoisotope Masse eines bekannten Polypeptids beispielsweise 1.001,748 Da ist und die gemessene monoisotope Masse für dieses Polypeptid 1.001,752 Da ist, dann beträgt die Massengenauigkeit des Spektrometers unter diesen Betriebsbedingungen: (1.001,752–1.001,748)/1.001,748 = 4,0 × 10^–6 oder 4,0 ppm.
Es versteht sich, dass die U- und F-Spektren, die gemäß den hierin beschriebenen Verfahren analysiert werden, unter einer großen Bandbreite von Betriebsbedingungen erhalten werden können. Die Genauigkeit und Vollständigkeit der Analyse verbessert sich selbstverständlich mit zunehmender Massengenauigkeit. Die Massengenauigkeit, die erforderlich ist, kann von der Beschaffenheit der interessierenden Probe und von der Beschaffenheit der Polypeptide in der Probe abhängen, z. B. der durchschnittlichen relativen Molekülmasse und/oder der Bandbreite an relativen Molekülmassen der Polypeptide. Außerdem hängt die Wahl der Massengenauigkeit von der gewünschten Qualität der Analyse ab. Ohne hierauf beschränkt zu sein, kann bzw. können das bzw. die zum Erhalten der U- und F-Spektren verwendete(n) Spektrome ter beispielsweise unter Bedingungen betrieben werden, die Spektren mit einer Massengenauigkeit von zumindest etwa 20 ppm, stärker bevorzugt zwischen etwa 10 und etwa 0,05 ppm und noch stärker bevorzugt zwischen etwa 3 und etwa 0,5 ppm, liefern.
Fachleute werden ohne weiteres erkennen, dass in der Technik eine Vielzahl von Verfahren und Vorrichtungen beschrieben und entwickelt wurden, die ermöglichen, dass Spektren von Polypeptiden mit Massengenauigkeiten in diesen bevorzugten Bereichen erhalten werden, z. B., ohne jedoch hierauf beschränkt zu sein, diejenigen, die von Smith u. a. Electrophoresis 22: 1.652, 2001; Park und Russell, Anal. Chem. 73: 2.558, 2001; Flora u. a., Anal. Chem. 73: 1.247, 2001; Hannis und Muddiman, J. Am. Soc. Mass. Spectrom. 11: 876, 2000; Jiang und Moini, Anal. Chem. 72: 20, 2000; Green u. a., Anal. Biochem. 275: 39, 1999; Bruce u. a., Anal. Chem. 71: 2.595, 1999; Lorenz u. a., Rapid Commun. Mass Spectrom. 13: 2.098, 1999; Shi u. a., Proc. Natl. Acad. Sci. USA 95: 11.532, 1998; usw., beschrieben wurden. Ferner sind im Handel eine Vielzahl von Massenspektrometern erhältlich, die in der Lage sind, Spektren von Polypeptiden mit Massengenauigkeiten in diesen bevorzugten Bereichen zu erzeugen, z. B., ohne hierauf beschränkt zu sein, das Massenspektrometer APEX III^Wz von Bruker Daltonics, Billerica, MA; das Massenspektrometer HiResESI^Wz von Ion Spec, Lake Forest, CA; das Massenspektrometer Q-Tof Ultima^Wz von Micromass, Milford, MA; das Massenspektrometer API QSTAR^Wz von MDS Sciex, Concord, Kanada; das Massenspektrometer AccuTOF^Wz von JEOL, Peabody, MA; die Massenspektrometer AXIMA-QIT^Wz oder AXIMA-MALDI TOF^Wz von Shimadzu Biotech, Pleasanton, CA; usw.
Bei bestimmen Ausführungsbeispielen werden die U- und F-Spektren auch unter Bedingungen einer hohen Massenauflösung erhalten. Die Massenauflösungsspezifikation eines Massenspektrometers liefert ein Maß seiner Fähigkeit, Polypeptide, die ähnliche relative Molekülmassen aufweisen, aufzu lösen. Allgemein hängt die Massenauflösung sowohl von der Art des Analysators als auch von den experimentellen Bedingungen ab. Für die Zwecke der vorliegenden Erfindung ist die Auflösung in einem gegebenen Spektrum als das experimentell ermittelte Verhältnis der Masse einer isolierten, einfach geladenen Spitze geteilt durch ihre vollständige Breite bei der Hälfte der maximalen Höhe (FWHM – full width at half the maximum height) definiert. Falls beispielsweise die FWHM-Werte für eine einfach geladene Spitze bei einem m/z-Wert von 1.658,752 0,237 beträgt, dann ist die Auflösung dieser Spitze gleich: 1.658,752/0,237–7.000. Wiederum wird man erkennen, dass sich die Genauigkeit und Vollständigkeit der Analyse mit zunehmender Massenauflösung verbessert. Wie bei der Massengenauigkeit kann die erforderliche Massenauflösung von der Beschaffenheit der interessierenden Probe und von der Beschaffenheit der Polypeptide in der Probe, z. B. der durchschnittlichen relativen Molekülmasse und/oder der Bandbreite an relativen Molekülmassen der Polypeptide, abhängen. Bei bestimmten Ausführungsbeispielen und ohne hierauf beschränkt zu sein, können das bzw. die Spektrometer, das bzw. die dazu verwendet wird bzw. werden, die U- und F-Spektren zu erhalten, unter Bedingungen betrieben werden, die ausreichend sind, um Isotope eines einfach, vorzugsweise doppelt, stärker bevorzugt dreifach und noch stärker bevorzugt vierfach geladenen Ions aufzulösen. Auf praktischer Ebene erfordert dies eine Auflösung von etwa 2.400 bei m/z-Werten von etwa 300 und eine Auflösung von etwa 15.000 bei m/z-Werten von etwa 2.000. Insgesamt sind Massenauflösungen von mindestens 6.000 und stärker bevorzugt 10.000 oder mehr wünschenswert.
Allgemein werden die U- und F-Spektren in jedem Satz von Spektren unter Verwendung derselben Probe oder verschiedener aliquoter Teile derselben Probe erhalten. Gemäß der Definition indem vorliegenden Dokument weisen verschiedene „aliquote Teile" derselben Probe im Wesentlichen dieselben Polypeptidzusammensetzungen auf, z. B. werden sie durch ein Aufteilen einer Probe in zwei oder mehr Volumina erhalten.
Vorzugsweise werden die U- und F-Spektren in einem gegebenen Satz auch unter Verwendung desselben Spektrometers erhalten. Bei bestimmten Ausführungsbeispielen werden die Spektren aufeinander folgend erhalten, um die stärkste Massengenauigkeitskorrelation zwischen den U- und F-Spektren zu liefern. Obwohl die Verwendung eines einzelnen Spektrometers bevorzugt ist, wird man erkennen, dass die U- und F-Spektren unter Verwendung zweier oder mehrerer Spektrometer erhalten werden können, die unter ähnlichen, vorzugsweise nahezu identischen Bedingungen arbeiten, z. B. mit Massengenauigkeiten, die sich um weniger als einen Faktor 10, 5, 4, 3 oder 2 unterscheiden. Bei bestimmten bevorzugten Ausführungsbeispielen werden die U- und F-Spektren unter Verwendung eines einstufigen Spektrometers, vorzugsweise desselben einstufigen Spektrometers, erhalten.
Jedes U- und F-Spektrum in einem gegebenen Satz kann einer einzigen spektralen Akquisition oder einer Summierung über zwei oder mehrere spektrale Akquisitionen hinweg entsprechen. Bei bestimmten bevorzugten Ausführungsbeispielen werden die einzelnen Spektren dann, wenn mehrere Spektren summiert werden, um ein U- oder F-Spektrum zu erzeugen, zusätzlich zu dem summierten Spektrum (oder statt desselben) gespeichert, da die einzelnen Spektren eventuell zur späteren Analyse verwendet werden. Wenn mehrere Akquisitionen aus demselben Spektrometer summiert werden, um U- und F-Spektren zu erzeugen, wird einleuchten, dass diese sequentiell (z. B. U₁, U₂, U₃ usw., gefolgt von F₁, F₂, F₃ usw.), auf verschachtelte Weise (z. B. U₁, F₁, U₂, F₂, U₃, F₃ usw.) oder als Kombination derselben (z. B. U₁, U₂, F₁, F₂, U₃, U₄, F₃, F₄ usw.) erhalten werden können. Außerdem können mehrere Spektren, die über eine Bandbreite von Fragmentierungsenergien hinweg erhalten werden, summiert werden, um ein F-Spektrum zu erzeugen, ohne zur Zeit der Datenakquisition eine spezifische Fragmentierungsenergie wählen zu müssen. Zusätzlich oder alternativ dazu können mehrere Spektren, die mit zwei oder mehreren verschiedenen Fragmentierungsmechanismen erhalten werden, summiert werden, um ein F-Spektrum zu erzeugen. Eine Akquisition von U- oder F-Spektren ist allgemein mit den Fragmentierungsbedingungen, die in dem Spektrometer vorliegen, korreliert. Bei bestimmten Ausführungsbeispielen kann die Akquisition von U- und F-Spektren mit Übergängen bei diesen Fragmentierungsbedingungen, z. B. Änderungen der Fragmentierungsenergie, synchronisiert werden. Insbesondere kann sich eine Synchronisierung als vorteilhaft beim Verhindern der gegenseitigen Verunreinigung von unfragmentierten und fragmentierten Massen zwischen U- und F-Spektren erweisen. Bei bestimmten Ausführungsbeispielen kann zwischen Akquisitionen von U- und F-Spektren eine Totzeit eingefügt werden, um eine derartige gegenseitige Verunreinigung weiter zu verhindern.
Allgemein hängt die jeweilige Wahl des Akquisitionsaufbaus von einer Anzahl von Faktoren ab, einschließlich der Beschaffenheit der Probe, ob die U- und F-Spektren mit einem einstufigen Spektrometer oder einem mehrstufigen Spektrometer erhalten werden, ob die U- und F-Spektren mit demselben Spektrometer erhalten werden, ob mehrere verschiedene Proben nacheinander analysiert werden (z. B. bei einem LC/MS-Aufbau), der Spektrale-Akquisition-Zeit, des Signal/Rausch-Verhältnisses, der Zeit, die erforderlich ist, um den Fragmentierungsmechanismus ein- und auszuschalten, der Energie und Beschaffenheit des Fragmentierungsmechanismus, der Zeit, die erforderlich ist, um die Fragmentierungsenergie einzustellen, usw.
Ferner versteht es sich, dass die hierin beschriebenen Verfahren dahin gehend modifiziert werden können, Sätze von Spektren zu analysieren, die mehr als ein U-Spektrum und/oder mehr als ein F-Spektrum umfassen. Es versteht sich beispielsweise, dass der Satz von Spektren für eine gegebene Probe zwei oder mehr F-Spektren umfassen kann, die mit verschiedenen Fragmentierungsenergien erhalten wurden, und/oder zwei oder mehr F-Spektren umfassen kann, die unter Verwendung verschiedener Fragmentierungsmechanismen erhalten wurden. Wie in der Technik hinreichend bekannt ist, tendieren verschiedene Fragmentierungsenergien und -mechanismen insbesondere dazu, verschiedene Arten von F-Ionen zu erzeugen (siehe z. B. Papayannopoulos, Mass. Spectrom. Rev. 14: 49, 1995). Demgemäß kann eine Betrachtung von Massen aus einer Sammlung von F-Spektren, die mit verschiedenen Energien und/oder Mechanismen erhalten wurden, eine breitere Abdeckung über die verschiedenen Fragment-Ionenreihen (d. h. die a-, b-, c-, x-, y- und z-Reihe) hinweg liefern.
Wie an früherer Stelle erwähnt wurde, muss man ferner verstehen, dass die erfindungsgemäßen Verfahren alleine oder in Kombination mit anderen, traditionelleren Polypeptidmassen-Fingerprinting-Techniken (z. B. denen, die im Stand der Technik beschrieben sind) verwendet werden können. Insbesondere kann es sich als vorteilhaft erweisen, die erfindungsgemäßen Verfahren dazu zu verwenden, einen Teilsatz von Massen zu analysieren, die durch ein früheres Verfahren nicht erklärt wurden.
Analysieren von U- und F-Spektren
Nachdem die U- und F-Spektren in einem gegebenen Satz erhalten wurden (d. h. für eine gegebene Probe), beinhalten die hierin beschriebenen Verfahren allgemein ein Untersuchen der Massen in dem einen oder den mehreren F-Spektren (d. h. entsprechend Fragmenten von Polypeptiden) und einen Versuch, ihre Übereinstimmung mit einer Masse in dem einen oder den mehreren U-Spektren (d. h. entsprechend einem unfragmentierten Polypeptid) zu überprüfen. Man spricht davon, dass eine F-Masse bei der Überprüfung der Übereinstimmung mit einer U-Masse ermittelt wird, wenn sie einem Fragment entspricht, das aus dem Polypeptid, das der U-Masse entspricht, erzeugt wurde. Wie nachstehend ausführlicher beschrieben wird, wird bei bestimmten Ausführungsbeispielen die Sammlung von F-Massen, die bei einer Überprüfung der Übereinstimmung mit einer U-Masse hin ermittelt wurden, anschließend dazu verwendet, eine Aminosäuresequenz für das Polypeptid, das der U-Masse entspricht, zu bestimmen. Bei bestimmten anderen Ausführungsbeispielen werden sie dazu verwendet, einen Satz von alternativen Aminosäuresequenzen für. das entsprechende Polypeptid zu bestimmen. Bei wieder anderen Ausführungsbeispielen werden sie dazu verwendet, die Beschaffenheit, Position und das relative Ausmaß verschiedener Modifikationen in dem entsprechenden Polypeptid zu bestimmen.
Durchführen eines „Formelaufrufs" an einer Masse Bei einer Anzahl von Ausführungsbeispielen beinhalten die Verarbeitungsschritte, die dazu verwendet werden, F-Massen auf eine Obereinstimmung mit U-Massen zu überprüfen, eine Durchführung eines „Formelaufrufs" an einer Kandidatenmasse (Kandidatenmasse), z. B. einer F-Masse oder einem Massendifferential zwischen zwei F-Massen. Gemäß der Definition in dem vorliegenden Dokument beinhaltet ein Durchführen eines „Formelaufrufs" an einer Kandidatenmasse ein Behandeln von Aminosäuremonomeren und Endgruppen (d. h. R_N und R_C in 1 und 2) als „Elemente" und ein Verwenden ihrer theoretischen Massen, um eine oder mehrere „empirische Aminosäureformel(n)", die bei der Überprüfung der Übereinstimmung mit der Kandidatenmasse ermittelt wird bzw. werden, zu identifizieren. Beispielsweise lautet die empirische Aminosäureformel eines b₂-Ions (siehe 2), das ein Proton als N-endständige Gruppe (d. h. R_N = H in 2), ein Glycin und ein Methionin umfasst, H-(Gly, Met). Gleichermaßen lautet die empirische Aminosäureformel eines Aminosäure-„Stücks” zwischen dem obigen b₂-Ion und einem b₄-Ion in derselben Reihe, das ein Proton als N-endständige Gruppe, zwei Glycine, ein Methionin und ein Tyrosin umfasst, (Gly, Tyr).
Man wird erkennen, dass alle Massenberechnungen und -vergleiche bei der vorliegenden Erfindung die Massengenau igkeit des die Messung durchführenden Instruments berücksichtigen müssen. Allgemein spricht man davon, dass eine Masse (gemessen, theoretisch oder eine Kombination derselben, z. B. das Ergebnis einer Addition oder Subtraktion) „bei einer Übereinstimmungsüberprüfung" mit einer gemessenen Masse „ermittelt wird", solange sie in dem Bereich tatsächlicher Massenmöglichkeiten um die gemessene Masse herum liegt.
In Bezug auf Formelaufrufe wird eine empirische Aminosäureformel, deren theoretische Masse außerhalb des Bereichs tatsächlicher Massenmöglichkeiten um eine gemessene Kandidatenmasse herum liegt, als nicht „bei einer Übereinstimmungsüberprüfung ermittelt" betrachtet. Umgekehrt wird eine empirische Aminosäureformel, deren theoretische Masse in dem Bereich tatsächlicher Massenmöglichkeiten Um eine gemessene Kandidatenmasse herum liegt, als „bei einer Übereinstimmungsüberprüfung ermittelt" betrachtet. Somit kann man sich vorstellen, dass ein Formelaufruf null, eine oder mehrere Antworten aufweist. Obwohl Formelaufrufe, die eine einzige empirische Formel ergeben, bevorzugt sind, sind Formelaufrufe, die zwei oder mehr Lösungen ergeben, nicht völlig nutzlos, da sie zu einer einzigen Lösung führen können, wenn sie mit einem getrennten Formelaufruf oder einer anderen Ermittlung kombiniert werden. Für die Zwecke der vorliegenden Anmeldung, und ohne hierauf beschränkt zu sein, wird ein Formelaufruf, der eine einzige empirische Aminosäureformel für die gemessene Masse eines F-Ions ergibt, als „erfolgreicher Formelaufruf" bezeichnet. Man wird einsehen, dass ein „erfolgreicher Formelaufruf" (a) die Aminosäurezusammensetzung des F-Ions (bei dem obigen Beispiel z. B. ein Glycin und ein Methionin), (b) den Reihentyp des F-Ions (bei dem obigen Beispiel z. B. b-Reihe) und (c) die Position des F-Ions in dieser Reihe (bei dem obigen Beispiel z. B. Position 2) liefert.
Allgemein nimmt die Rechenkomplexität von Formelaufrufen mit der Zunahme der Kandidatenmasse zu. Demgemäß wird bei bestimmten bevorzugten Ausführungsbeispielen ein Versuch unternommen, die Massen, für die Formelaufrufe durchgeführt werden, zu minimieren. Wie nachstehend ausführlicher beschrieben wird, wird dies üblicherweise dadurch erzielt, dass spezifische Bandbreiten von zu untersuchenden Massen ausgewählt werden. Beispielsweise können Formelaufrufe bei bestimmten Ausführungsbeispielen auf Kandidatenmassen beschränkt sein, die größer sind als 50 Da und kleiner als 1.000, 500, 400, 350, 300, 250 oder 200 Da.
Die Fähigkeit, eine empirische chemische Formel (z. B. C₂H₇ON) für ein Molekül auf der Basis seiner gemessenen Masse unter Verwendung der theoretischen Massen mancher oder aller chemischen Elemente (bei C₂H₇ON z. B. C, H, O und N) zu bestimmen, ist hinreichend bekannt und wird weithin praktiziert. Das Softwareprogramm MFCalc^Wz, das von James E. Deline frei zur Verfügung gestellt wird, umfasst einen exemplarischen Algorithmus. Bei bestimmten Ausführungsbeispielen können Formelaufrufe unter Verwendung dieser bekannten Techniken in Kombination mit den theoretischen Massen von Aminosäuremonomeren und Endgruppen (d. h. statt der theoretischen Massen chemischer Elemente) erzielt werden.
Zusätzlich oder alternativ dazu können Formelaufrufe erreicht werden, indem eine oder mehrere Datenbanken theoretischer Massen abgefragt werden. Die hierin beschriebenen Verfahren sind in keiner Weise auf ein Abfragen spezifischer Datenbasen theoretischer Massen beschränkt. Beispielsweise können die erfindungsgemäßen Verfahren an einem Ende des Spektrums in Kombination mit relativ einfachen Datenbasen verwendet werden, die die theoretischen Massen (z. B. die monoisotopen Massen oder eine isotope Verteilung von Massen) der zwanzig häufig vorkommenden Aminosäuremonomere (d. h. der im Anhang A aufgelisteten) umfassen. Eine weitere einfache Datenbank könnte die häufig vorkommenden Ionen vom a₂-, b₂-, c₂-, x₂-, y₂- und z₂-Typ (d. h. Ionen vom a-, b-, c-, x-, y- oder z-Typ, die zwei Aminosäuremonomere aus dem Anhang A umfassen) abdecken. Diese relativ einfachen Datenbanken können mit größeren und komplexeren Datenbanken ergänzt oder in Kombination mit denselben verwendet werden, beispielsweise, jedoch nicht beschränkt auf, Datenbanken, die größere Ionen umfassen (z. B. Ionen, die 3, 4, 5, 6, 7, 8, 9, 10 usw. Aminosäuremonomere umfassen); Datenbanken, die weniger häufig vorkommende Aminosäuremonomere (z. B. die im Anhang B aufgelisteten) umfassen; und/oder Datenbanken, die alternative N-endständige oder C-endständige Gruppen (z. B. die im Anhang C aufgeführten) umfassen. Wie nachstehend ausführlicher beschrieben wird, können die Datenbanken bei bestimmten Ausführungsbeispielen außerdem ferner eine oder mehrere Modifikationen, von der bzw. von denen man weiß, dass sie während einer Polypeptidsynthese auftritt bzw. auftreten (z. B., jedoch ohne hierauf beschränkt zu sein, die im Anhang E aufgelisteten); posttranslationelle Proteinmodifikationen (z. B. die im Anhang F aufgeführten, ohne auf diese beschränkt zu sein); und/oder Modifikationen, die infolge des Ionisierungs- und/oder Erfassungsprozesses in Massenspektrometern häufig auftreten, z. B. Verlust von H₂O, Verlust von NH₃, Verlust von üblichen Seitenketten usw., berücksichtigen.
Allgemein wird Fachleuten ferner ohne weiteres einleuchten, dass geeignete Datenbanken auf verschiedene Weise erstellt werden können. Ein Lösungsansatz könnte ein Bestimmen theoretischer Massen unter Verwendung der empirischen chemischen Formeln der Moleküle in der Datenbank in Kombination mit elementaren atomaren Massen (z. B. von Audi und Wapstra, Nuclear Physics A, 595: 409, 1995), elementaren atomaren Gewichten (z. B. von Coplen, Pure Appl. Chem., 73: 667, 2001) und/oder Daten über die Isotopenhäufigkeit (z. B. von Ro
man und Taylor, J. Phys. Chem. Ref. Data, 27: 1.275, 1998) beinhalten. Alternativ dazu und auf effizientere Weise können Datenbanken dadurch erstellt werden, dass „umgekehrte" Formelaufrufe durchgeführt werden, d. h. dass die Aminosäuremonomere und Endgruppen als „Elemente" mit spezifischen theoretischen Massen (z. B. die in den Anhän gen A, B und C aufgelisteten) behandelt werden und anschließend Formeln angewendet werden, die die Massen der verschiedenen empirischen Aminosäureformeln in der Datenbank unter Verwendung der Massen dieser „Elemente" berechnen (z. B. für Ionen vom a-, b-, c-, x-, y- oder z-Typ durch Verwendung der im Anhang D bereitgestellten Formeln). Der zuletzt genannte Lösungsansatz ist vorzuziehen, da er die Rechenkomplexität des Vorgangs der Datenbankerstellung reduziert. Ferner versteht es sich, dass die Anhänge lediglich zu Veranschaulichungszwecken bereitgestellt werden und dass die hierin beschriebenen Verfahren in keiner Weise darauf beschränkt sind, die genauen theoretischen Massen, die in den Anhängen angegeben sind, zu verwenden.
Vorverarbeitung von U- und F-Spektren
Unter erneuter Bezugnahme auf die U- und F-Spektren kann bei bestimmten Ausführungsbeispielen die Rechenkomplexität der erfindungsgemäßen Verfahren verringert werden, indem die U- und/oder F-Spektren vorverarbeitet werden, bevor die U- und F-Massen untersucht werden. Diese optionale Vorverarbeitung der Spektren kann einen oder eine Kombination der folgenden Lösungsansätze oder Aquivalente derselben beinhalten:

(a) Dekonvolution der U- und/oder F-Spektren. Ein Dekonvolieren eines Massenspektrums beinhaltet ein Umwandeln der m/z-Werte in dem Spektrum in ungeladene Massen (oder „neutrale Massen"). Die hierin beschriebenen Verfahren sind unabhängig von dem Dekonvolutionsalgorithmus, der zum Vorverarbeiten der U- und/oder F-Spektren verwendet wird. Beispielsweise umfassen nicht-einschränkende Algorithmen, die verwendet werden können, diejenigen, die von Zhang und Marshall, J. Am. Soc. Mass Spectrom. 9: 225, 1998; Wehofsky und Hoffmann, J. Mass Spectrom. 37: 223, 2002, beschrieben sind; diejenigen, die in den U.S.-Patentschriften 5,130,538 ; 5,581,080 und 5,686,726 an Fenn u. a. oder in der U.S.-Patentschrift Nr. 6,104,027 an Gee u. a. beschrieben sind; usw.
(b) De-Isotopisieren der U- und/oder F-Spektren. Allgemein beinhaltet ein De-Isotopisieren eines Massenspektrums ein Identifizieren von m/z-Werten, die verschiedenen isotopen Formen desselben Ions zugeordnet sind, und ein Zuordnen derselben zu einem einzigen m/z-Wert. Bei bestimmten Ausführungsbeispielen werden die m/z-Werte der verschiedenen isotopen Formen gespeichert, da sie eventuell zur späteren Analyse verwendet werden. Die hierin beschriebenen Verfahren sind unabhängig von dem De-Isotopisierungsalgorithmus, der zum Vorverarbeiten der U- und F-Spektren verwendet wird. Beispielsweise ist ein nicht-einschränkender Algorithmus, der verwendet werden kann, bei Horn u. a., J. Am. Soc. Mass Spectrom. 11: 320, 2000, beschrieben. Bei bestimmten Ausführungsbeispielen sind die m/z-Werte der verschiedenen isotopen Formen der monoisotopen Masse des Ions zugeordnet. Für ein gegebenes Ion entspricht die monoisotope Masse der Masse der isotopen Form, deren elementare Zusammensetzung aus den häufigsten Isotopen dieser Elemente gebildet ist (z. B. ¹²C, ¹H, ¹⁶O, ¹⁴N und ³²S). Per definitionem ist die monoisotope Spitze immer die leichteste Spitze bei einer bestimmten Isotopenverteilung.
(c) Ausschließen jeglicher U-Massen, die auch in F-Spektren vorliegen (die z. B. in dem U-Spektrum erfassten fragmentierten Ionen entsprechen), aus der Betrachtung. Dieser optionale Schritt gewährleistet, dass die U-Massen, die zur weiteren Analyse verwendet werden, keine Massen aus fragmentierten Ionen umfassen. Man wird erkennen, dass dieser optionale Schritt die Massen von echten unfragmentierten Ionen versehentlich aus dem U-Spektrum eliminieren kann, z. B. wenn relativ niedrige Fragmentierungsenergien beim Er halten von F-Spektren verwendet werden und die Wahrscheinlichkeit eines Erfassens von unfragmentierten Ionen in F-Spektren somit relativ hoch ist. Jedoch wird man erkennen, dass sich dieser Schritt als vorteilhaft erweisen kann, wenn beim Erhalten von F-Spektren relativ hohe Fragmentierungsenergien verwendet werden (d. h. wenn die Wahrscheinlichkeit eines Erfassens von unfragmentierten Ionen in F-Spektren relativ gering ist). Es kann sich somit als vorteilhaft erweisen, die U-Massen zu kennzeichnen, statt sie vollständig aus der Betrachtung herauszunehmen. Gemäß derartigen Ausführungsbeispielen werden die gekennzeichneten U-Massen anfänglich aus der Betrachtung herausgenommen, können jedoch optional verwendet werden, nachdem die ungekennzeichneten U-Massen analysiert wurden.
(d) Ausschließen jeglicher F-Massen, die auch in dem U-Spektrum vorliegen (die z. B. in F-Spektren erfassten unfragmentierten Ionen entsprechen), aus der Betrachtung. Dieser optionale Schritt gewährleistet, dass die F-Massen, die zur weiteren Analyse verwendet werden, keine Massen aus unfragmentierten Polypeptiden umfassen. Es wird einleuchten, dass dieser optionale Schritt bei bestimmten Ausführungsbeispielen die Massen von echten fragmentierten Ionen versehentlich eliminieren kann, z. B. wenn Fragmente versehentlich infolge des zum Erhalten des U-Spektrums verwendeten Ionisierungs- oder Erfassungsmechanismus erzeugt werden, bei bestimmten Ausführungsbeispielen kann es sich somit als vorteilhaft erweisen, die F-Massen zu kennzeichnen, statt sie gänzlich aus der Betrachtung herauszunehmen. Gemäß derartigen Ausführungsbeispielen werden die gekennzeichneten F-Massen anfänglich aus der Betrachtung herausgenommen, können jedoch optional verwendet werden, nachdem die ungekennzeichneten F-Massen analysiert wurden.

Nachdem die U- und F-Spektren gemäß der obigen Beschreibung erhalten und optional vorverarbeitet wurden, werden die F-Massen unter Verwendung eines oder mehrerer der Verarbeitungsschritte, die nachstehend ausführlich beschrieben werden, bei einer Überprüfung der Übereinstimmung mit U-Massen ermittelt. Es versteht sich und wird Fachleuten ohne weiteres einleuchten, dass die Übereinstimmungsüberprüfungsprozedur nicht (a) erfordert, dass jeder der folgenden Verarbeitungsschritte verwendet wird, oder (b) erfordert, dass die Verarbeitungsschritte in der dargestellten Reihenfolge verwendet werden. Ferner wird einleuchten, dass ein gegebener Verfahrensschritt während der Übereinstimmungsüberprüfungsprozedur mehrere Male, z. B. auf jeder Seite eines anderen Verarbeitungsschrittes, wiederholt werden kann. Insbesondere versteht es sich, dass im Folgenden ein einzelnes exemplarisches Ausführungsbeispiel der Übereinstimmungsüberprüfungsprozedur beschrieben wird und dass die erfindungsgemäßen Verfahren in keiner Weise auf diese bestimmte Kombination und Reihenfolge von Verarbeitungsschritten beschränkt sind. Ferner geht die folgende Beschreibung der verschiedenen Verarbeitungsschritte lediglich zu Zwecken der Übersichtlichkeit und ohne jegliche Einschränkung davon aus, dass die U- und F-Spektren dekonvolutiert und entisotopisiert wurden.
Verarbeitungsschritt 1: Identifizieren von „Keim"-F-Massen („seed” F masses)
Gemäß bestimmten Ausführungsbeispielen kann die Übereinstimmungsüberprüfungsprozedur damit beginnen, eine Sammlung von „Keim"-F-Massen („seed" F masses) zu identifizieren, die bei der Überprüfung der Übereinstimmung mit einer bestimmten U-Masse ermittelt werden. Gemäß der Definition in dem vorliegenden Dokument erfordert ein Identifizieren einer „Keim"-F-Masse ein Ermitteln des Fragmentreihetyps des entsprechenden F-Ions (d. h. ob das entsprechende F-Ion zu einer Ionenreihe vom a-, b-, c-, x-, y- oder z-Typ gehört). Bei bestimmten Ausführungsbeispielen wird auch die Position des entsprechenden F-Ions in der ermittelten Reihe bestimmt (z. B. ob das entsprechende F-Ion ein b₁-, b₂-, b₃-, b₄-, b₅- usw. Ion ist, falls es zu einer b-Reihe gehört). Bei wieder anderen Ausführungsbeispielen wird auch die Aminosäurezusammensetzung des entsprechenden F-Ions ermittelt (z. B. ob das entsprechende F-Ion zwei Glycine oder ein Glycin und ein Tryptophan umfasst, falls es sich um ein b₂-Ion handelt). Man wird erkennen, dass bei bestimmten Ausführungsbeispielen die Position und Aminosäurezusammensetzung des F-Ions nur ungefähr definiert werden kann, z. B. betrachte man ein b₂-Ion, das eine Aminosäure X und Asparagin umfasst, und ein b₃-Ion, das X und zwei Glycine umfasst – diese weisen nahezu degenerierte Massen auf. Beispielsweise können „Keim"-F-Massen unter Verwendung eines oder einer Kombination der folgenden Lösungsansätze oder Äquivalente derselben identifiziert werden:

(a) Durch Identifizieren einer F-Masse an dem Geringe-Masse-Ende einer Reihe, die bei einer Überprüfung der Übereinstimmung mit einer U-Masse ermittelt wird. Bei einem exemplarischen Ausführungsbeispiel kann dies bewerkstelligt werden, indem ein Formelaufruf für jede F-Masse durchgeführt wird, die in dem Bereich zweier möglicher Monomerionen in der a-, b-, c-, x-, y- oder z-Reihe liegt. Wenn Polypeptide analysiert werden, die nur häufig vorkommende Aminosäuremonomere umfassen, liegt die Bandbreite üblicherweise zwischen der theoretischen Masse eines a₂-Ions, das zwei Glycine enthält, und der eines x₂-Ions, das zwei Tryptophane enthält. Gültige Antworten stellen zwei Monomerionen dar. Nachdem ein erfolgreicher Formelaufruf durchgeführt wurde, wird ein Versuch unternommen, die Zwei-Monomer-F-Kandidatenmasse bei einer Überprüfung der Übereinstimmung mit einer U-Masse zu ermitteln, indem die Masse des Kandidaten wiederum von jeder U-Masse subtrahiert wird und in den F-Spektralmassen nach der resultierenden Masse gesucht wird. Falls sie gefunden wird, stellt diese zweite F-Masse das entsprechende Ion in der Reihe (z. B. b₂ und y_n-2) dar, und sie kann bei einer Überprüfung der Übereinstimmung mit der festgelegten U-Masse ermittelt werden. Es versteht sich, dass dieser Lösungsansatz dahin gehend erweitert werden kann, nach geeigneten F-Massen in größeren Bandbreiten hin abzusuchen, z. B. nach F-Massen, die in der Bandbreite möglicher 3-, 4-, 5-, 6-, 7- usw. Monomerionen in der a-, b-, c-, x-, y- oder z-Reihe liegen. Bei bestimmten Ausführungsbeispielen können die Formelaufrufe auf F-Massen beschränkt sein, die größer als 50 Da und kleiner als 1.000, 500, 400, 350, 300, 250 oder 200 Da sind, um die Rechenkomplexität zu verringern.
(b) Identifizieren einer F-Masse als dem Hohe-Masse-Ende einer Reihe, die bei einer Überprüfung der Übereinstimmung mit einer U-Masse ermittelt wird. Ein mögliches Verfahren, dies zu bewerkstelligen, könnte ein Auswählen einer gegebenen U-Masse (U_i), ein Auswählen einer F-Masse (F_j) in der Bandbreite zwischen U_i und [U_i – (Masse des schwerstmöglichen Zwei-Monomer-Ions)), ein Subtrahieren der Massen U_i – F_j und einen Versuch, einen Formelaufruf an dem Ergebnis durchzuführen, beinhalten. Wenn Polypeptide analysiert werden, die nur häufig vorkommende Aminosäuremonomere umfassen, ist die Masse des schwerstmöglichen Zwei-Monomer-Ions üblicherweise die eines x₂-Ions, das zwei Tryptophane enthält. Dieser Prozess kann mit anderen F-Massen, die in dem Bereich liegen, wiederholt werden, bis ein erfolgreicher Formelaufruf durchgeführt wird. Ein erfolgreicher Formelaufruf gibt eine erfolgreiche Überprüfung auf Übereinstimmung an und liefert sowohl den Ionentyp des Fragments, das der resultierenden Masse entspricht (d. h. U_i – F_j), als auch das Fragment, das der ausgewählten F-Masse (F_j) entspricht. Bei bestimmten Ausführungsbeispielen kann diese Übereinstimmungsüberprüfungsprozedur bestätigt werden, indem in den F-Spektralmassen nach der resultierenden Masse gesucht wird (d. h. U_i – F_j). Man wird erkennen, dass dieser Lösungsansatz dahin gehend erweitert werden kann, nach geeigneten F-Massen in größeren Bandbreiten abzusuchen, z. B. in der Bandbreite zwischen U_i und [U_i – Masse des schwerstmöglichen 3-, 4-, 5-, 6-, 7- usw. Monomerions)). Wiederum können bei bestimmten Ausführungsbeispielen Formelaufrufe auf Massen beschränkt sein, die größer sind als 50 Da und kleiner als 1.000, 500, 400, 350, 300, 250 oder 200 Da, um die Rechenkomplexität zu verringern.
(c) Finden von beliebigen Paaren von F-Massen, die die bei einer Überprüfung der Übereinstimmung mit einer U-Masse ermittelt werden. Dies erfolgt, indem nach Paaren von F-Massen gesucht wird, die zu einer U-Masse summieren. Ein mögliches Verfahren, dies zu bewerkstelligen, kann ein Auswählen einer gegebenen U-Masse (U_i), ein Finden der größten F-Masse, die geringer ist als U_i, ein Subtrahieren derselben von U_i und ein Nachprüfen, ob eine zweite F-Spektralmasse bei einer Überprüfung der Übereinstimmung mit der resultierenden Masse ermittelt wird, beinhalten. Falls Letzteres der Fall ist, stellen die beiden F-Massen ein Paar das, das bei einer Überprüfung der Übereinstimmung mit U_i ermittelt wird. Man könnte dann auf diese Weise fortfahren und die nächstleichtere F-Masse testen, bis der Medianwert des Massenbereichs (d. h. zwischen der leichtestmöglichen F-Masse und U_i) erreicht ist. Der Vorgang könnte dann unter Verwendung einer anderen U-Masse wiederholt werden. Fachleuten werden zahlreiche Variationen und Alternativen zu diesem Lösungsansatz einleuchten, z. B. könnte man eine gegebene U-Masse (U_i) auswählen, die kleinste F-Masse finden, ihre Masse von der von U_i subtrahieren und nachprüfen, ob es eine andere F-Masse gibt, die diese Masse aufweist. Bei bestimmten Ausführungsbeispielen wird, nachdem ein Paar von F-Massen bei einer Überprüfung der Überein stimmung mit einer U-Masse ermittelt wurde, anschließend ein Versuch unternommen, den Reihentyp der entsprechenden F-Ionen zu identifizieren, d. h. ob sie zu einer a-, b-, c-, x-, y- oder z-Reihe gehören. Gemäß den hierin beschriebenen Verfahren erfolgt dies, indem ein Formelaufruf an der leichteren F-Masse in dem bei der Übereinstimmungsüberprüfung ermittelten Paar durchgeführt wird. Höchstens einer sollte erfolgreich sein. Wie bei den obigen Lösungsansätzen (a) und (b) können diese Formelaufrufe bei bestimmten Ausführungsbeispielen auf Massen beschränkt sein, die größer als 50 Da und kleiner als 1.000, 500, 400, 350, 300, 250 oder 200 Da sind. Der Ionentyp des schwereren bei der Übereinstimmungsüberprüfung ermittelten F-Ions ist komplementär zu dem Ionentyp des leichteren bei der Übereinstimmungsüberprüfung ermittelten F-Ions in demselben Paar (z. B. b₂ und y_n-2). Es versteht sich, dass bei bestimmten Ausführungsbeispielen große Keim-F-Massen (z. B., ohne hierauf beschränkt zu sein, F-Massen, die im Bereich von 1.000, 500, 400, 350, 300, 250 oder 200 Da der bei der Übereinstimmungsüberprüfung ermittelten U-Masse liegen), die gemäß den obigen Ansätzen (a), (b) oder (c) bei der Übereinstimmungsüberprüfung ermittelt werden, eventuell aus der Liste von bei einer Überprüfung der Übereinstimmung mit einer anderen U-Masse ermittelten F-Massen entfernt werden. In der Tat ist es bei bestimmten Ausführungsbeispielen statistisch nicht wahrscheinlich, dass große Keim-F-Massen, die bei einer Überprüfung der Übereinstimmung mit einer U-Masse ermittelt wurden, bei einer Überprüfung der Übereinstimmung mit einer anderen U-Masse ermittelt werden. Allgemein, jedoch nicht notwendigerweise, sollten die kleineren Keim-F-Massen nicht aus der weiteren Betrachtung herausgenommen werden, da sie einem Fragment entsprechen können, das aus mehreren U-Ionen erzeugt wurde. Die Entscheidung, bei einer Übereinstimmungs überprüfung ermittelte Keim-F-Massen aus der Betrachtung herauszunehmen, hängt allgemein von der Anzahl von U-Massen, die aus der ursprünglichen Probe erhalten wurden, und somit von der Komplexität der ursprünglichen Probe ab.

Verarbeitungsschritt 2: Erweitern einer Keimionenreihe unter Verwendung nächster benachbarter Ionen
Bei bestimmten Ausführungsbeispielen können die erfindungsgemäßen Verfahren, nachdem eine Sammlung von Keim-F-Massen. identifiziert wurde, ein Erweitern einer oder mehrerer der Keimionenreihen, indem die F-Massen von Ionen identifiziert werden, die zu einem Keimion in der Reihe benachbart sind, beinhalten. Dies kann bewerkstelligt werden, indem bei jeder der theoretischen Massen für benachbarte Ionen in einer Keimionenreihe nach F-Massen gesucht wird. Beispielsweise kann dies bei bestimmten Ausführungsbeispielen ein Addieren oder Subtrahieren der theoretischen Masse eines, mancher oder aller möglichen Aminosäuremonomere (z. B. die im Anhang A und B angeführten) von der theoretischen Ionenmasse, die der gemessenen Masse des Keimions entspricht, und ein anschließendes Suchen nach einer erfolgreichen Übereinstimmungsüberprüfung in den F-Spektralmassen beinhalten. Eine Verwendung der theoretischen Masse des Keimions bei diesem Schritt (und bei anderen, nachstehend erörterten Schritten) statt der gemessenen Masse verhindert Probleme, die bei sich häufenden Messfehlern auftreten könnten. Es versteht sich, dass man bei diesem und späteren Schritten die gemessene Masse des Keimions verwenden kann, obwohl dies weniger vorzuziehen ist. Allgemein versteht es sich, dass bei Fehlen einer expliziten Bezugnahme auf „theoretische Masse" oder „gemessene Masse" jegliches Vorkommen der Begriffe „Masse eines Fragments" oder „Masse eines Ions" in der Spezifikation oder in den Patentansprüchen die Verwendung von theoretischen oder gemessenen Massen mit einschließt. Es wird einleuchten, dass dieser Schritt unter Verwendung des wachsenden oder schrumpfenden Keimions jedes Mal dann, wenn ein Aminosäuremonomer zu dem ursprünglichen Keimion hinzugefügt oder von demselben entfernt wurde, wiederholt werden kann.
Verarbeitungsschritt 3: Erweitern einer Keimionenreihe mittels Voraus-Scannen
Bei bestimmten Ausführungsbeispielen können die Keimionenreihen zusätzlich (oder alternativ) dazu erweitert werden, indem F-Massen von Ionen identifiziert werden, die um zwei oder mehr Aminosäuremonomere von einem Keimion getrennt sind. Dieser Ansatz ist besonders dann sinnvoll, wenn die Masse, die dem nächsten Ion in einer Reihe entspricht, in den F-Spektralmassen fehlt (beispielsweise falls eine Masse für ein a₃-Ion vorliegt, aber keine Masse für das a₄-Ion erfasst wurde). Dies kann unter Verwendung eines oder einer Kombination der folgenden Ansätze oder Äquivalente derselben erfolgen:

(a) Identifizieren der maximalen (oder minimalen) möglichen Masse des g + h- (oder g – h-) Monomerions in der gekeimten Reihe (seeded series) (wobei g die Reihenposition des letzten identifizierten Ions ist und h die Anzahl von Ionen ist, die als fehlend angenommen werden, z. B. 1, 2, 3, 4, 5, 6, 7 usw.). Für jede F-Masse zwischen dem letzten identifizierten Reihenion und der maximalen (oder minimalen) möglichen Masse kann man die theoretische Masse des letzten identifizierten Ions subtrahieren (oder jede F-Masse von der theoretischen Masse des letzten identifizierten Ions subtrahieren). Anschließend wird bezüglich der resultierenden Masse ein Formelaufruf durchgeführt. Für die meisten F-Massen erfolgt keine Antwort. Antworten, die innerhalb der Massengenauigkeit des Instruments liegen, geben an, dass die in Frage stehende F-Masse poten tiell Teil der Reihe ist, und liefern die Zusammensetzung der fehlenden Aminosäuremonomere.
(b) Falls F-Ionen aus derselben Reihe bereits auf der anderen Seite der Lücke mittels anderer Verfahren (z. B. mittels Verarbeitungsschritt 1 und/oder 2) identifiziert wurden, könnte man alle F-Spektralmassen, die zwischen [(theoretische Masse des leichteren identifizierten Ions) + (theoretische Masse des leichtesten Monomers)] und [(theoretische Masse des schwereren identifizierten Ions) – (theoretische Masse des leichtesten Monomers)] liegen, untersuchen. Man könnte dann entweder die theoretische Masse des leichteren identifizierten Ions von der Masse des Kandidaten-F-Ions subtrahieren oder die Masse des Kandidaten-F-Ions von der theoretischen Masse des schwereren identifizierten Ions subtrahieren (je nachdem, welches Ergebnis kleiner ist), und einen Formelaufruf an dem Ergebnis durchführen. Für die meisten F-Massen erfolgt keine Antwort. Antworten, die innerhalb der Massengenauigkeit des Instruments liegen, geben an, dass die in Frage stehende F-Masse potentiell Teil der Reihe ist, und liefern die Zusammensetzung der fehlenden Aminosäuremonomere.

Verarbeitungsschritt 4: Identifizieren von F-Massen in derselben Position wie eine Keim-F-Masse in einer benachbarten Reihe
Gemäß bestimmten Ausführungsbeispielen können zusätzliche F-Massen bei einer Überprüfung der Übereinstimmung mit einer U-Masse ermittelt werden, indem F-Massen identifiziert werden, die einem Ion entsprechen, das sich in derselben Position wie ein Keimion, aber in einer benachbarten Reihe (z. B. b₂ oder c₂, wenn das Keimion a₂ ist) befindet. Dies kann dadurch bewerkstelligt werden, dass eine, manche oder alle der möglichen Reihenversatzmassen von der theore tischen Ionenmasse, die der gemessenen Masse des Keimions entspricht, addiert oder subtrahiert werden und indem anschließend in den F-Spektralmassen nach einer erfolgreichen Übereinstimmungsüberprüfung gesucht wird. Die Reihenversatzmassen stellen die Massendeltas zwischen den Reihen des Keimions (z. B. der der a-Reihe) und den anderen, verwandten Reihen (z. B. der b- und der c-Reihe) dar. Wie in der Technik hinreichend bekannt ist und wie durch eine Betrachtung der chemischen Formeln in 2 und der Formeln im Anhang D ohne weiteres ersichtlich wird, entspricht die Reihenversatzmasse zwischen der b- und der a-Reihe der Masse einer CO-Gruppe; die Reihenversatzmasse zwischen der b- und der c-Reihe entspricht der Masse einer NH₃-Gruppe; usw.
Verarbeitungsschritt 5: Validieren einer Keimionenreihe
Nachdem eine Sammlung verwandter Reihen erweitert wurde (d. h. bezüglich einer bestimmten U-Masse), kann sie optional unter Verwendung eines oder einer Kombination der folgenden Ansätze oder Äquivalente derselben validiert werden:

(a) Immer dann, wenn entsprechende Angehörige verwandter Reihen identifiziert wurden (z. B. b₂ und y_n-2), sollte die Summe ihrer theoretischen Massen innerhalb der Massengenauigkeit des Instruments bei der Überprüfung der Übereinstimmung mit der gemessenen U-Masse ermittelt werden.
(b) Falls mehrere Ionen, die dieselben benachbarten Aminosäurepositionen an verschiedenen Reihen darstellen, vorliegen (z. B. b₂, b₃, c₂ und c₃), sollte ein Formelaufruf für das Massendelta zwischen den schwereren und leichteren Ionen in derselben Reihe (z. B. b₃ – b₂ und c₃ – c₂) bei der Überprüfung der Übereinstimmung mit demselben Aminosäuremonomer ermittelt werden.
(c) Falls mehrere Ionen, die dieselben nicht-benachbarten Aminosäurepositionen an verschiedenen Reihen darstellen, vorliegen (z. B. b₂, b₅, c₂ und c₅), sollte ein Formelaufruf für das Massendelta zwischen den schwereren und leichteren Ionen in derselben Reihe (z. B. b₅ – b₂ und c₅ – c₂) bei der Überprüfung der Übereinstimmung mit derselben Kombination von Aminosäuremonomeren ermittelt werden.
(d) Die gemessene Isotopenverteilung für ein gegebenes F-Ion sollte bei einer Überprüfung der Übereinstimmung mit der theoretischen Isotopenverteilung für das aus seiner empirischen Aminosäureformel berechnete Ion ermittelt werden. Dieser Schritt erfordert ein Analysieren von F-Spektren vor jeglicher De-Isotopisierung.
(e) Allgemein sollte die Signalintensität für ein gegebenes F-Ion die Signalintensität des Stamm-U-Ions nicht überschreiten.

Verarbeitungsschritt 6: Erzeugen einer oder mehrerer Aminosäuresequenzen für ein U-Ion
Nachdem eine Sammlung von F-Massen in einer oder mehreren Fragmentreihen für ein gegebenes U-Ion bei einer Oberprüfung der Übereinstimmung ermittelt und optional validiert wurde, kann ein Satz möglicher Aminosäuresequenzen für das U-Ion erzeugt werden. Zuerst wird die eine oder werden die mehreren Fragmentreihen einzeln durchschritten, und das Aminosäuremonomer, das die Massendifferenz zwischen benachbarten Ionen in jeder Reihe darstellt, wird mittels eines Formelaufrufs identifiziert. Man wird erkennen, dass dieser Schritt durch Verwendung der Ergebnisse der Verarbeitungsschritte 2 und 5, falls sie durchgeführt wurden, verkürzt werden kann.
Bei bestimmten Ausführungsbeispielen kann es sich bei dieser Verarbeitungsstufe als vorteilhaft erweisen, eine Konsensus-Aminosäuresequenz zu erstellen, indem die Aminosäuremonomere, die in verschiedenen Reihen vorausgesagt werden, verglichen werden, um zu bestimmen, ob sie dasselbe Aminosäuremonomer zu derselben Position in der Sequenz hinzufügen. In Fällen, in denen nächste benachbarte Ionen in einer bestimmten Position in einer der bei der Überprüfung der Übereinstimmung ermittelten Reihen fehlen (z. B. a₄, wenn a₅ bei einer Überprüfung der Übereinstimmung ermittelt wurde), kann das Monomer in dieser Position dadurch bestimmt werden, dass eine andere Reihe untersucht wird, die dieses bestimmte Paar (z. B. b₄ und b₅) umfasst. Falls nächste benachbarte Ionen für ein bestimmtes Paar von Positionen (z. B. Positionen 4 und 5) in keiner einzigen der bei einer Überprüfung der Übereinstimmung ermittelten Reihen identifiziert wurden, dann kann das entsprechende Monomer dadurch bestimmt werden, dass Reihenversätze berücksichtigt werden und ein Formelaufruf an dem Massendelta zwischen Ionen von nächsten benachbarten Positionen an zwei verschiedenen Reihen (z. B. b₄ und a₅) durchgeführt wird. Falls keine der Reihen ein Ion an einem gegebenen Punkt in der Reihe (z. B. Position 4) identifiziert hat, dann werden die Sätze von alternativen Sequenzen erstellt, wobei die Aminosäurezusammensetzung, die aus dem Massendelta ermittelt wurde, das diese Position (z. B. zwischen a₃ und a₅) überspannt, in allen möglichen Permutationen (und optional allen möglichen Kombinationen, falls ein Formelaufruf für das Massendelta mehrere Lösungen ergibt) dargestellt wird. Wenn ein genaues Aminosäureaufrufen aufgrund identischer Masse (z. B. Leucin gegenüber Isoleucin) nicht möglich ist, werden auch Sätze von alternativen Sequenzen erstellt.
Entstehung von Polypeptidmodifikationen
Bei bestimmten Ausführungsbeispielen, beispielsweise wenn Polypeptidproben, die mittels chemischer Synthese erzeugt wurden, analysiert werden, kann es sich als vorteilhaft erweisen, die hierin beschriebenen Verfahren dahin gehend zu erweitern, eines oder mehrere der theoretischen Massendeltas zu berücksichtigen, die infolge von Modifikationen während einer Polypeptidsynthese auftreten können (z. B. die im Anhang E angeführten, ohne hierauf beschränkt zu sein). Gleichermaßen kann es sich beim Analysieren von Proben, die aus einer natürlichen Quelle extrahiert wurden (z. B. eines Zellenextrakts) als vorteilhaft erweisen, eines oder mehrere der theoretischen Massendeltas zu berücksichtigen, von denen man weiß, dass sie durch bestimmte posttranslationelle Proteinmodifikationen bewirkt werden (z. B. die im Anhang F angeführten, ohne hierauf beschränkt zu sein). Eine chemische und/oder enzymatische Verarbeitung von Proben kann ebenfalls zu Modifikationen führen. Ferner möchte man gemäß bestimmten anderen Ausführungsbeispielen eventuell theoretische Massendeltas berücksichtigen, die bei Massenspektrometern infolge des Ionisierungs- oder Erfassungsprozesses häufig auftreten, z. B. Verlust von H₂O, Verlust von NH₃, Verlust von häufig vorkommenden Seitenketten usw.
Bei bestimmten Ausführungsbeispielen kann die Formelaufruftechnik dahin gehend erweitert werden, ein, manche oder alle interessierenden theoretischen Massendeltas zu berücksichtigen. Beispielsweise können die Datenbanken theoretischer Massen dahin gehend erweitert werden, einen Teilsatz relevanter theoretischer Massendeltas zu umfassen. Wenn traditionelle Techniken zum Bestimmen einer empirischen Formel mit Aminosäuremonomeren und Endgruppen als "Elementen" verwendet werden, können die theoretischen Massendeltas alternativ dazu als zusätzliche „Elemente" aufgenommen werden. Allgemein hängt die Wahl der Modifikationen, die betrachtet werden müssen, teilweise von der Beschaffenheit der Probe ab. Die U- und F-Spektralmassen werden anschließend gemäß der obigen Beschreibung analysiert, jedoch werden unter Verwendung dieser zusätzlichen „Elemente" und/oder erweiterten Datenbanken Formelaufrufe durchge führt. Alternativ dazu können die U- und F-Spektralmassen gemäß der vorherigen Beschreibung (d. h. ohne mögliche Modifikationen zu berücksichtigen) und anschließend mittels eines Nachverarbeitens der resultierenden Daten unter Verwendung eines oder einer Kombination der folgenden Ansätze oder Äquivalente derselben analysiert werden:

(a) Identifizieren von Ionen auf beiden Seiten von Diskontinuitäten in einer oder mehreren Ionenreihen. Modifikationen werden durch eine Verschiebung der Masse der F-Ionen an dem Punkt der Modifikation in der Reihe dargestellt. Auf der Basis der zuvor beschriebenen Verfahren (d. h. derjenigen, die die Möglichkeit von Modifikationen nicht berücksichtigen) bewirkt eine Modifikation somit allgemein eine nicht zu schließende Lücke in der Ionenreihe. Es ist erwähnenswert, dass gemäß bestimmten Ausführungsbeispielen (z. B. wenn ein Polypeptid mit der Modifikation und dasselbe Polypeptid ohne die Modifikation beide in der Probe vorliegen, die dazu verwendet wird, einen gegebenen Satz von U- und F-Spektren zu erhalten) die Lücke eventuell nicht auftritt. In der Tat tritt gemäß derartigen Ausführungsbeispielen jede Versatzmasse (d. h. die Masse eines F-Ions von dem modifizierten Polypeptid) zusammen mit einer entsprechenden Nicht-Versatz-Masse (d. h. der Masse des entsprechenden F-Ions von dem unmodifizierten Polypeptid) auf. Man wird erkennen, dass das gleichzeitige Auftreten von modifizierten und unmodifizierten Polypeptiden in derselben Probe von der Beschaffenheit der Modifikation, der Beschaffenheit der Probe und dem Ausmaß jeglicher Trennungen, die anschließend an die Modifikation und vor der Massenanalyse z. B. in Form einer MDLC-Trennung durchgeführt werden, abhängt. Allgemein können Lücken als Diskontinuität in einer Ionenreihe identifiziert werden, an die eine Annäherung von beiden Enden aus erfolgt (z. B. y_n–4 kann nicht gefunden werden, wenn eine Reihe von schwerer zu leichter erweitert wird, und y_n–3 kann nicht gefunden werden, wenn eine Reihe von leichter zu schwerer erweitert wird). Die Lücken können auch dadurch identifiziert werden, dass man zwei beliebige Reihen sucht, die an demselben Punkt abreißen (z. B. b- und y-Reihe). Wenn eine derartige Lücke nicht anhand der zuvor beschriebenen Verfahren erklärt werden kann, kommt sie für die Stelle einer Modifikation in Frage. Manche Modifikationen weisen hinreichend bekannte Massendeltas auf (z. B. die in den Anhängen E und F angeführten, ohne auf diese beschränkt zu sein). Diese können getestet werden, indem die durch die Lücke dargestellte Masse genommen wird, wiederum die Masse einer, mancher oder aller möglichen Modifikationen mit bekannten Massendeltas subtrahiert wird und versucht wird, einen Formelaufruf an dem Ergebnis durchzuführen. Ein definitiver Aufruf stellt eine Modifikation dieses Typs und eine Identifikation des an diesem Punkt in der Sequenz vorhandenen Aminosäuremonomers dar. In Fällen, in denen ein Ion neben dem Modifikationspunkt fehlt, wird eine Gruppe von Aminosäuremonomeren bei dem Formelaufruf identifiziert. Das Aminosäuremonomer oder die Aminosäuremonomere an dieser Stelle können verifiziert werden, indem bestimmt wird, ob sie mit der identifizierten Modifikation kompatibel sind. Die Beschaffenheit der Modifikation kann dazu beitragen, die relative Reihenfolge der Aminosäuremonomere in der Reihe zu identifizieren, falls eines mit der Modifikation kompatibel ist, und das andere nicht.
(b) Testen in Bezug auf Modifikationen mit bekannten Massendeltas, wenn Ionen nicht auf beiden Seiten der Lücke identifiziert wurden. Eine Möglichkeit, wie dies erfolgen kann, beinhaltet ein Addieren (wenn von leichter auf schwerer erweitert wird) oder Subtrahieren (wenn von schwerer auf leichter erweitert wird) der Masse möglicher Modifikationen von der theoreti schen Masse des Ions unterhalb (oder oberhalb) der Diskontinuität, und ein anschließendes Suchen des nächsten Ions in der Reihe unter Verwendung von bisher gelehrten Verfahren, als ob das Ion unterhalb (oder oberhalb) der Diskontinuität die resultierende Masse hätte. Eine erfolgreiche Suche identifiziert die richtige Aminosäure in dieser Position und identifiziert die Modifikation.

Entstehung von Massenmarkierung
Bei bestimmten Ausführungsbeispielen können die hierin beschriebenen Verfahren dahin gehend modifiziert werden, die Verwendung von Massenmarkierungstechniken, z. B. zur differentiellen quantitativen Bestimmung von Proteinen in unterschiedlichen Proben, zu berücksichtigen. Beispielsweise können die Verfahren zu Veranschaulichungszwecken, und ohne hierauf beschränkt zu sein, dahin gehend modifiziert werden, die Verwendung von Isotop-codierten Affinitätsmarkierungen (ICAT – isotope-coded affinity tags) zu berücksichtigen. Kurz gesagt sind ICATs eine Klasse von Reagenzien, die aus drei Hauptabschnitten aufgebaut sind, nämlich einer Affinitätsmarkierung, einem Linker zur Integration stabiler Isotope sowie einer reaktiven Gruppe mit einer Spezifität zu den Thiolgruppen, die in Cysteinen vorliegen (siehe z. B. Gygi u. a., Nat. Biotech. 17: 994, 1999). Eine schwere Form (die z. B. Deuterien an der Kohlenstoffhauptkette enthält) und eine leichte Form (z. B. ohne Deuterien) von ICAT-Reagenzien werden beim Kennzeichnen von Proteinen in verschiedenen Proben verwendet. Das Verfahren besteht üblicherweise aus vier Schritten, beispielsweise:

(a) Die leichte Form des ICAT-Reagens wird dazu verwendet, Cystein-Seitenketten in einer ersten Proteinprobe (die z. B. einen ersten Zellenzustand darstellt) zu derivatisieren. Die schwere Form von ICAT wird dazu verwendet, dasselbe Protein in einer anderen Probe (die z. B. einen zweiten Zeltzustand darstellt) zu derivatisieren.
(b) Die beiden Proben werden gemischt und aufgeschlossen, wobei ein Gemisch aus Polypeptiden entsteht, von denen manche markiert sind (d. h. diejenigen, die ein Cystein enthalten).
(c) Avidinaffinität-Chromatographie wird dazu verwendet, die markierten Fragmente zu isolieren.
(d) Die isolierten Polypeptide werden anschließend unter Verwendung von MDLC getrennt und zur Analyse einem Massenspektrometer zugeführt.

Die quantitativen Informationen stammen vom Messen und Vergleichen der relativen Signalintensität des Paars von chemisch identischen Polypeptiden, die mit der leichten und schweren Form der ICAT markiert sind. Das Verhältnis der Polypeptidpaare liefert quantitative Informationen über das ursprüngliche interessierende Protein. Dies ist darauf zurückzuführen, dass die Polypeptidfragmente das Verhältnis der ursprünglichen Mengen der Proteine in beispielsweise einem ersten und einem zweiten Zellzustand darstellen.
Wenn Massenmarkierungen wie z. B. ICATs verwendet werden, führen bestimmte Polypeptide zu zwei Spitzen in den U-Spektren (z. B. diejenigen, die ein Cystein enthalten), die durch das Massendelta zwischen der leichten und der schweren Form der Markierung versetzt sind. Bei der Überprüfung der Übereinstimmung mit einer U-Masse ermittelte Paare von F-Massen sind nicht betroffen, da die Gesamtanzahl von Massenmarkierungen an dem U-Ion zwischen dem Paar in der F-Reihe aufgeteilt wird, so dass die Summe als normal angesehen werden sollte. Wenn jedoch Sequenzaufrufe durchgeführt werden, ist die Masse ausgewählter Aminosäuremonomere unterschiedlich (aufgrund der Hinzufügung der Massenmarkierung). Für diese Aminosäuremonomere liegen dann in der Tat mehrere Massen vor: aufgrund einer unvollständigen Reaktion unmarkiert, mit einer leichten Markierung markiert und mit einer schweren Markierung markiert. Der Formelaufrufalgorithmus muss dies somit berücksichtigen. Die Hinzufügung einer Markierung ist effektiv gleichwertig mit einer posttranslationellen Modifikation an der Stelle, an der die Markierung vorliegt. Wenn die Ionenreihe erweitert wird, kann sie als solche behandelt werden. Das Vorliegen einer Markierung liefert auch eine Verifizierung der aufgerufenen empirischen Aminosäureformel, da nur ausgewählte Aminosäuremonomere mit der Markierung reagieren (bei dem gelieferten Beispiel z. B. Cysteine).
Fachleuten wird ohne weiteres einleuchten, dass dieser Ansatz mit anderen differentiellen Isotopmarkierungstechniken (z. B. siehe Goshe u. a., Anal. Chem. 73: 2.578, 2001; Yao u. a., Anal. Chem. 73: 2.836, 2001; usw.) und, allgemeiner gesagt, jeglicher Massenmarkierungstechnik (siehe Z. B. die Rezension von Smith u. a., OMICS 6: 61, 2002) angewendet werden kann.
Vorrichtungen
Fachleute werden ohne weiteres erkennen, dass, obwohl die bestimmten Ausführungsbeispiele in Zusammenhang mit erfindungsgemäßen Verfahren beschrieben wurden, die vorliegende Erfindung auch Vorrichtungen mit einschließt, die beim Implementieren der erfindungsgemäßen Verfahren verwendet werden können. Die hierin beschriebenen vorstehenden Verarbeitungsschritte können in einem Computersystem durchgeführt werden, das Maschinenanweisungen ausführt, die unter Verwendung einer beliebigen oder mehrerer einer Vielzahl verschiedener Techniken erstellt wurden.
Bei einem Ausführungsbeispiel können die Maschinenanweisungen unter Verwendung einer Software, beispielsweise einer Programmiersprache, eines Drittpartei-Softwarepakets, von Routinen, die einen Bestandteil eines Betriebssystems darstellen, und dergleichen, erstellt werden. Die Maschinenanweisungen oder eine Form derselben können in einem Computerprogrammprodukt gespeichert werden, das ein computerlesbares Medium (z. B. eine Floppy-Disk, ein Festplattenlaufwerk, einen RAM, einen CD-ROM, ein Band, eine Kassette usw., ohne auf diese beschränkt zu sein) mit einem Satz von maschinenausführbaren Anweisungen zum Ausführen der verschiedenen Schritte der erfindungsgemäßen Verfahren umfasst. Die Software wird dann unter Verwendung eines entfernbaren Speicherlaufwerks, eines Festplattenlaufwerks oder einer Kommunikationsschnittstelle in ein Computersystem (z. B. einen prozessentkoppelten Computer oder einen prozessgekoppelten Computer, der auch das Massenspektrometer betreibt) geladen. Wenn die Software durch einen oder mehrere Prozessoren in dem Computersystem ausgeführt wird, bewirkt sie, dass die Prozessoren die Funktionen der Erfindung, wie sie hierin beschrieben sind, ausführen. Es ist zu beachten, dass das Vorstehende auch in Hardware implementiert werden kann, beispielsweise unter Verwendung von Hardwarekomponenten wie z. B. anwendungsspezifischen integrierten Schaltungen. Ein Ausführungsbeispiel kann das Vorstehende auch unter Verwendung einer Kombination aus Hardware und/oder Software implementieren.
Andere Ausführungsbeispiele
Andere Ausführungsbeispiele der Erfindung werden Fachleuten aufgrund einer Betrachtung der Spezifikation oder der Praxis der hierin offenbarten Erfindung einleuchten. Insbesondere wird Fachleuten einleuchten, dass die hierin beschriebenen Verfahren auch dazu verwendet werden können, Polynucleotide oder Polysaccharide zu identifizieren.
Gemäß der Verwendung in dem vorliegenden Dokument ist ein „Polynucleotid" ein Polymer aus Nucleotiden, das üblicherweise zumindest zwei Nucleotide aufweist, die durch Phosphodiesterbindungen miteinander verbunden sind. Die Begriffe „Polynucleotid", „Oligonucleotid" und „Nucleinsäure" können austauschbar verwendet werden. DNA und RNA sind exemplarische Polynucleotide, die analysiert werden könnten. Die vorliegende Erfindung schließt auch die Analyse von Peptidnucleinsäuren (PNAs – peptide nucleic acids), fixierten Nucleinsäuren (LNAs – locked nucleic acids) und unstrukturierten Nucleinsäuren (UNAs – unstructured nucleic acids) ein, ohne auf diese beschränkt zu sein. Wie bei Polypeptiden werden gemessene U- und F-Polynucleotidmassen unter Verwendung der erfindungsgemäßen Algorithmen analysiert. Polynucleotide werden anhand der Sequenz von Nucleotiden, die sie umfassen, identifiziert. Formelaufrufe werden unter Verwendung von Nucleotidmonomer-„Elementen” anstelle von Aminosäuremonomer-„Elementen” durchgeführt. Bei bestimmten Ausführungsbeispielen können die theoretischen Massen von häufig vorkommenden Nucleotiden verwendet werden (d. h. von Nucleotiden, die die Basen Adenin, Thymin, Cytosin, Guanin oder Uracil umfassen). Zusätzlich oder alternativ dazu können die theoretischen Massen von unüblichen oder nicht in der Natur vorkommenden Nucleotiden verwendet werden (z. B. von Nucleotiden, die die Basen 2-Aminoadenin, 2-Thiothymin, 3-Methyladenin, 5-Propynylcytosin, 5-Propynyluracil, 5-Bromuracil, 5-Fluoruracil, 5-Joduracil, 5-Methylcytosin, 7-Deazaadenin, 7-Deazaguanin, 8-Oxoadenin, 8-Oxoguanin, O(6)-Methylguanin oder 2-Thiocytosin umfassen, ohne auf diese beschränkt zu sein). Gleichermaßen können Massendeltas, die durch Zuckermodifikationen (z. B. 2'-Fluororibose, Arabinose, Hexose und Ribosen mit einer 2'-O, 4'-C-Methylenbrücke), und/oder modifizierte Phosphatgruppen (z. B. Phosphorthioate und 5'-N-Phosphoramidit-Bindungen) bewirkt werden, betrachtet werden. Wie bei Polypeptiden müssen Formelaufrufe für Polynucleotidionen auch die theoretischen Massen der Endgruppen berücksichtigen, üblicherweise sind diese Hydroxyl oder Phosphat.
Gemäß der Verwendung in dem vorliegenden Dokument ist ein „Polysaccharid" ein Polymer aus Zuckern, das üblicherweise zumindest zwei Zucker aufweist. Die Begriffe „Polysaccharid", „Oligosaccharid" und „Kohlenhydrat" können austauschbar verwendet werden. Die erfindungsgemäßen Verfahren können dazu verwendet werden, lineare oder verzweigte Polysaccharide zu analysieren. Wie bei Polypeptiden werden gemessene U- und F-Polysaccharidmassen unter Verwendung der erfindungsgemäßen Algorithmen analysiert. Polysaccharide werden anhand der Sequenz von Zuckern, die sie umfassen, identifiziert. Formelaufrufe werden unter Verwendung von Zuckermonomer-„Elementen” anstelle von Aminosäuremonomer-„Elementen" durchgeführt. Bei bestimmten Ausführungsbeispielen können die theoretischen Massen von häufig vorkommenden Zuckern verwendet werden (z. B. Arabinose, Ribose, Xylose, Glucose, Fructose, Galactose und Mannose). Zusätzlich oder alternativ dazu können die theoretischen Massen von weniger häufigen oder nicht in der Natur vorkommenden Zuckern verwendet werden (z. B. Desoxyribose, Fucose, Rhamnose, Galactosamin, N-Acetylgalactosamin, Glucosamin, N-Acetylglucosamin, Glucuronsäure, Muraminsäure, N-Acetylneuraminsäure, N-Glycolylneuraminsäure, Heptose usw.). Desgleichen können Massendeltas, die durch Zuckermodifikationen (z. B. Methylierung, Acetylierung, Phosphorylierung usw.) verursacht werden, betrachtet werden. Wie bei Polypeptiden müssen Formelaufrufe für Polysaccharidionen auch die theoretischen Massen der Endgruppen berücksichtigen, üblicherweise umfassen Polysaccharide freie reduzierende Enden oder reduzierte reduzierende Enden.

Claims

Ein Verfahren zum Identifizieren eines Biopolymers in einer Probe, die ein oder mehrere Biopolymere umfasst, wobei das Verfahren folgende Schritte aufweist: Auswählen einer Masse aus einem ersten Datensatz, wobei der erste Datensatz gemessene Massen des einen oder der mehreren Biopolymere umfasst; Überprüfen auf Übereinstimmung von Massen in einem zweiten Datensatz mit der ausgewählten Masse, wobei der zweite Datensatz gemessene Massen einer Sammlung von Fragmenten des einen oder der mehreren Biopolymere umfasst, und wobei die bei der Überprüfung der Übereinstimmung ermittelten Massen Fragmente des Biopolymers mit der ausgewählten Masse darstellen; und Vergleichen der bei der Übereinstimmungsüberprüfung ermittelten Massen, um eine Monomersequenz für das Biopolymer mit der ausgewählten Masse zu bestimmen, wobei das Überprüfen auf Übereinstimmung von Massen in dem zweiten Datensatz mit der ausgewählten Masse folgende Schritte aufweist: Subtrahieren einer ersten Masse in dem zweiten Datensatz von der ausgewählten Masse, um ein Massendelta zu erzeugen, Identifizieren einer zweiten Masse in dem zweiten Datensatz, die bei der Überprüfung der Übereinstimmung mit dem Massendelta ermittelt wird, und optional Durchführen eines erfolgreichen Formelaufrufs an der ersten oder zweiten Masse, wobei optional die erste oder zweite Masse unter 500 Da liegt; oder Subtrahieren einer ersten Masse in dem zweiten Datensatz von der ausgewählten Masse, um ein Massendelta zu erzeugen, Durchführen eines erfolgreichen Formelaufrufs an dem Massendelta, wobei optional das Massendelta unter 500 Da liegt, und optional Identifizieren einer zweiten Masse in dem zweiten Datensatz, die bei der Überprüfung der Übereinstimmung mit dem Massendelta ermittelt wird.
Das Verfahren gemäß Anspruch 1, das ferner folgende Schritte aufweist: Erhalten eines ersten Massenspektrums des einen oder der mehreren Biopolymere unter Bedingungen, die bewirken, dass das eine oder die mehreren Biopolymere in unfragmentierter Form erfasst werden, wobei das erste Massenspektrum bei einem Erzeugen des ersten Datensatzes verwendet wird; und Erhalten eines zweiten Massenspektrums des einen oder der mehreren Biopolymere unter Bedingungen, die bewirken, dass das eine oder die mehreren Biopolymere vor einer Erfassung zu einer Sammlung von Fragmenten fragmentiert werden, wobei das zweite Massenspektrum bei einem Erzeugen des zweiten Datensatzes verwendet wird.
Das Verfahren gemäß Anspruch 2, bei dem: das erste und zweite Massenspektrum nacheinander unter Verwendung desselben Spektrometers erhalten werden und bei dem das Spektrometer ein Einstufenspektrometer ist; das zweite Massenspektrum aus einer Summierung von zwei unterschiedlichen Massenspektren resultiert, die mit unterschiedlichen Fragmentierungsenergien erhalten werden; oder das zweite Massenspektrum aus einer Summierung von zwei unterschiedlichen Massenspektren resultiert, die mit unterschiedlichen Fragmentierungsmechanismen erhalten werden, wobei das Verfahren optional ferner folgenden Schritt aufweist: Erhalten eines dritten Massenspektrums des einen oder der mehreren Biopolymere unter Bedingungen, die bewirken, dass das eine oder die mehreren Biopolymere vor einem Erfassen zu einer Sammlung von Fragmenten fragmentiert werden, wobei das dritte Massenspektrum bei einem Erzeugen des zweiten Datensatzes verwendet wird und das zweite und dritte Massenspektrum unter Verwendung unterschiedlicher Fragmentierungsenergien oder unterschiedlicher Fragmentierungsmechanismen erhalten werden.
Das Verfahren gemäß Anspruch 1, bei dem: die Massen in dem ersten und zweiten Datensatz neutrale Massen sind; die Massen in dem ersten und zweiten Datensatz monoisotope Massen sind; das Verfahren vor dem Auswählen einer Masse aus dem ersten Datensatz ferner ein Entfernen von Massen aus dem ersten Datensatz aufweist, die auch in dem zweiten Datensatz vorhanden sind; oder das Verfahren vor dem Auswählen einer Masse aus dem ersten Datensatz ferner ein Entfernen von Massen aus dem zweiten Datensatz aufweist, die auch in dem ersten Datensatz vorhanden sind.
Das Verfahren gemäß Anspruch 1, bei dem das Überprüfen von Massen auf Übereinstimmung in dem zweiten Daten satz mit der ausgewählten Masse ferner folgende Schritte aufweist: Identifizieren einer Masse in dem zweiten Datensatz, die sich von der ersten oder zweiten Masse durch die theoretische Masse einer oder mehrerer Monomereinheiten unterscheidet; Identifizieren einer Masse in dem zweiten Datensatz, die sich von der ersten oder zweiten Masse durch die theoretische Masse einer oder mehrerer Monomereinheiten und einer Biopolymermodifizierung unterscheidet; oder Identifizieren einer Masse in dem zweiten Datensatz, die sich von der ersten oder zweiten Masse durch eine theoretische Reihenversatzmasse unterscheidet.
Das Verfahren gemäß Anspruch 5, bei dem das Identifizieren einer Masse in dem zweiten Datensatz, die sich von der ersten oder zweiten Masse durch die theoretische Masse einer oder mehrerer Monomereinheiten unterscheidet, folgende Schritte aufweist: Erzeugen einer resultierenden Masse durch ein Addieren oder Subtrahieren der Summe der theoretischen Massen einer oder mehrerer Monomereinheiten zu oder von der ersten oder zweiten Masse, und Identifizieren einer dritten Masse in dem zweiten Datensatz, die bei der Überprüfung der Übereinstimmung mit der resultierenden Masse ermittelt wird; oder Erzeugen eines Massendeltas durch ein Subtrahieren einer Masse in dem zweiten Datensatz von der ersten oder zweiten Masse und Durchführen eines erfolgreichen Formelaufrufs an dem Massendelta, wobei optional das Massendelta unter 500 Da liegt.
Das Verfahren gemäß Anspruch 5, bei dem das Identifizieren einer Masse in dem zweiten Datensatz, die sich von der ersten oder zweiten Masse durch die theoretische Masse einer oder mehrerer Monomereinheiten und einer Biopolymermodifizierung unterscheidet, folgende Schritte aufweist: Erzeugen eines ersten Massendeltas durch ein Subtrahieren einer Masse in dem zweiten Datensatz von der ersten oder zweiten Masse; Subtrahieren der theoretischen Masse einer Biopolymermodifizierung von dem ersten Massendelta, um ein zweites Massendelta zu erzeugen; und Durchführen eines erfolgreichen Formelaufrufs an dem zweiten Massendelta.
Das Verfahren gemäß Anspruch 5, bei dem das Identifizieren einer Masse in dem zweiten Datensatz, die sich von der ersten oder zweiten Masse durch eine theoretische Reihenversatzmasse unterscheidet, folgende Schritte aufweist: Erzeugen einer resultierenden Masse durch ein Addieren oder Subtrahieren einer theoretischen Reihenversatzmasse zu oder von der ersten oder zweiten Masse; und Identifizieren einer dritten Masse in dem zweiten Datensatz, die bei der Oberprüfung auf Übereinstimmung mit der resultierenden Masse ermittelt wird.
Das Verfahren gemäß Anspruch 1, bei dem das Vergleichen der bei der Oberprüfung auf Übereinstimmung ermittelten Massen zum Bestimmen einer Monomersequenz für das Biopolymer mit der ausgewählten Masse folgende Schritte aufweist: Gruppieren der bei der Überprüfung auf Übereinstimmung ermittelten Massen gemäß dem Reihentyp der entsprechenden Fragmente derselben; Berechnen von Massendeltas zwischen Paaren von bei der Überprüfung auf Übereinstimmung ermittelten Massen, die Fragmenten an benachbarten Positionen in einer dargestellten Reihe entsprechen; Durchführen eines Formelaufrufs an den Massendeltas; Zuweisen von Monomeren, die den Massendeltas zugeordnet sind, basierend auf dem Formelaufruf; und Bestimmen einer Monomersequenz für das Biopolymer mit der ausgewählten Masse basierend auf dem Zuweisen.
Das Verfahren gemäß Anspruch 9, das ferner folgende Schritte aufweist: Berechnen von Massendeltas zwischen Paaren von bei der Überprüfung auf Übereinstimmung ermittelten Massen, die Fragmenten an nicht-benachbarten Positionen in einer dargestellten Reihe entsprechen, Durchführen eines Formelaufrufs an den Massendeltas und Zuweisen von Kombinationen von Monomeren, die den Massendeltas zugeordnet sind, basierend auf dem Formelaufruf; Berechnen von Massendeltas zwischen Paaren von bei der Überprüfung auf Übereinstimmung ermittelten Massen, die Fragmenten an benachbarten Positionen an unterschiedlichen dargestellten Reihen entsprechen, Durchführen eines Formelaufrufs an den Massendeltas und Zuweisen von Monomeren, die den Massendeltas zugeordnet sind, basierend auf dem Formelaufruf; oder Berechnen von Massendeltas zwischen Paaren von bei der Überprüfung auf Übereinstimmung ermittelten Massen, die Fragmenten an nicht-benachbarten Positionen an unterschiedlichen dargestellten Reihen entsprechen, Durchführen eines Formelaufrufs an den Massendeltas und Zuweisen von Kombinationen von Monomeren, die den Massendeltas zugeordnet sind, basierend auf dem Formelaufruf.
Das Verfahren gemäß Anspruch 9, bei dem: die Monomersequenz ein einziges mögliches Monomer an jeder Position in der Sequenz umfasst; die Monomersequenz mehr als ein mögliches Monomer an einer Position in der Sequenz umfasst; die Monomersequenz ein unbekanntes Monomer an einer Position in der Sequenz umfasst; oder die Monomersequenz eine Biopolymermodifizierung an einer Position in der Sequenz umfasst.
Das Verfahren gemäß Anspruch 1, bei dem: das Biopolymer mit der ausgewählten Masse ein Polypeptid ist und die Monomersequenz eine Aminosäuresequenz ist; das Biopolymer mit der ausgewählten Masse ein Polynucleotid ist und die Monomersequenz eine Nucleotidsequenz ist; oder das Biopolymer mit der ausgewählten Masse ein Polysaccharid ist und die Monomersequenz eine Zuckersequenz ist, wobei das Polysaccharid linear oder verzweigt sein kann.
Das Verfahren gemäß Anspruch 1, bei dem: die Probe eine Mehrzahl von Biopolymeren umfasst; der erste Datensatz gemessene Massen der Mehrzahl von Biopolymeren umfasst; und der zweite Datensatz gemessene Massen einer Sammlung von Fragmenten der Mehrzahl von Biopolymeren umfasst.
Ein Computerprogrammprodukt zum Identifizieren eines Biopolymers in einer Probe, die ein oder mehrere Biopolymere umfasst, das ein computerlesbares Medium aufweist, das mit einem Satz von maschinenausführbaren Anweisungen konfiguriert ist, wobei die Anweisungen Folgendes aufweisen: Anweisungen zum Auswählen einer Masse aus einem ersten Datensatz, wobei der erste Datensatz gemessene Massen des einen oder der mehreren Biopolymere umfasst; Anweisungen zum Überprüfen auf Übereinstimmung von Massen in einem zweiten Datensatz mit der ausgewählten Masse, wobei der zweite Datensatz gemessene Massen einer Sammlung von Fragmenten des einen oder der mehreren Biopolymere umfasst, und wobei die bei der Überprüfung auf Übereinstimmung ermittelten Massen Fragmente des Biopolymers mit der ausgewählten Masse darstellen; und Anweisungen zum Vergleichen der bei der Überprüfung auf Übereinstimmung ermittelten Massen, um eine Monomersequenz für das Biopolymer mit der ausgewählten Masse zu bestimmen, wobei das Überprüfen auf Übereinstimmung von Massen in dem zweiten Datensatz mit der ausgewählten Masse folgende Schritte aufweist: Subtrahieren einer ersten Masse in dem zweiten Datensatz von der ausgewählten Masse, um ein Massendelta zu erzeugen, Identifizieren einer zweiten Masse in dem zweiten Datensatz, die bei der Überprüfung der Obereinstimmung mit dem Massendelta ermittelt wird, und optional Durchführen eines erfolgreichen Formelaufrufs an der ersten oder zweiten Masse, wobei optional die erste oder zweite Masse unter 500 Da liegt; oder Subtrahieren einer ersten Masse in dem zweiten Datensatz von der ausgewählten Masse, um ein Massendelta zu erzeugen, Durchführen eines erfolgreichen Formelaufrufs an dem Massendelta, wobei optional das Massendelta unter 500 Da liegt, und optional Identifizieren einer zweiten Masse in dem zweiten Datensatz, die bei der Überprüfung der Übereinstimmung mit dem Massendelta ermittelt wird.