DE102004016667B4 - Verfahren zur Identifizierung von Polymeren in Gemischen - Google Patents

Verfahren zur Identifizierung von Polymeren in Gemischen Download PDF

Info

Publication number
DE102004016667B4
DE102004016667B4 DE102004016667A DE102004016667A DE102004016667B4 DE 102004016667 B4 DE102004016667 B4 DE 102004016667B4 DE 102004016667 A DE102004016667 A DE 102004016667A DE 102004016667 A DE102004016667 A DE 102004016667A DE 102004016667 B4 DE102004016667 B4 DE 102004016667B4
Authority
DE
Germany
Prior art keywords
proteins
polymers
protein
masses
catalog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE102004016667A
Other languages
English (en)
Other versions
DE102004016667A1 (de
Inventor
Thomas Meid
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meid Thomas Dr
Original Assignee
Meid Thomas Dr
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meid Thomas Dr filed Critical Meid Thomas Dr
Priority to DE102004016667A priority Critical patent/DE102004016667B4/de
Publication of DE102004016667A1 publication Critical patent/DE102004016667A1/de
Application granted granted Critical
Publication of DE102004016667B4 publication Critical patent/DE102004016667B4/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

Verfahren zur Identifizierung von Polymeren in Gemischen, bei dem eine Probe vorgelegt wird, welche ein Gemisch von Polymeren enthält, bei dem weiter wenigstens ein Teil der Polymere mittels eines experimentellen Verfahrens im Fragmente zerlegt und diese beobachtet werden, bei dem weiter ein Katalog von Polymeren vorgelegt wird, bei dem weiter mit Hilfe des vorgelegten Katalogs eine Identifizierung der im Gemisch vorliegenden Polymere vorgenommen wird, bei dem weiter zur Identifizierung der Polymere eine Funktion aufgestellt wird, die bewertet, ob eine vorgelegte Kombination von Polymeren aus dem gegebenen Katalog in dem gegebenen Gemisch vorkommt, bei dem weiter diese Funktion für eine nicht notwendigerweise echte Teilmenge der möglichen Kombinationen von Polymeren des Katalogs ausgewertet wird, wobei unter den betrachteten Kombinationen von Polymeren wenigstens zwei mit einer unterschiedlichen Anzahl von enthaltenen Polymeren vorkommen müssen, und bei dem schließlich eine der betrachteten Kombinationen von Polymeren zum Zwecke der Identifizierung ausgewählt wird.

Description

  • Die Erfindung betrifft ein Verfahren zur Identifizierung von Polymeren in Gemischen. Ein Gebiet der Anwendung ist die Untersuchung von polymeren Biomolekülen, wie Desoxyribunukleinsäuren, Ribonukleinsäuren oder Proteinen.
  • Die Untersuchung von Proteinen in Gemischen mit Hilfe der Massenspektrometrie stellt ein ganz besonders wichtiges Anwendungsfeld der Erfindung dar. Deswegen wird das Verfahren im folgenden anhand dieses Gebietes erläutert.
  • Die Analyse von Proteingemischen mit Hilfe der Massenspektrometrie verläuft folgendermaßen: (1) Vorbereitung der Probe, (2) Auftrennung der Proteine, (3) chemische oder enzymatische Spaltung der Proteine, (4) Auftrennung der entstandenen Peptide, (5) massenspektrometrische Analyse.
  • Einer der Schritte (2) und (4) ist optional. Werden die Proteine extensiv aufgetrernnt – zum Beispiel durch Anwendung der zweidimensionalen Gelelektrophorese – so können diese sehr oft durch Analyse des Peptidfragmentmassenspektrums identifiziert werden (peptide mass fingerprint). Ublicherweise wird zusätzlich wenigstens eines der Massensignale zur Untersuchung mit der Tandemmassenspektrometrie (MS/MS) ausgewählt. Wird andererseits auf den Schritt (2) verzichtet, so sieht man sich einem Gemisch von Peptiden gegenüber, die aus vielen Proteinen stammen. Dies hat zur Folge, daß alle oder ein sehr großer Teil der Peptidmassen mit Hilfe der Tandemmassenspektrometrie untersucht werden müssen (shotgun sequencing).
  • Beide Varianten sind sehr aufwendig, wenn es gilt, Proben zu studieren, die hunderte oder tausende Proteine enthalten. Dies ist jedoch ein häufiger Anwendungs fall in der Biologie, der Medizin, der Toxikologie, der Pharmakologie und in anderen Bereichen. Verfahren, die die Untersuchung solcher Proben erleichtern, haben daher hohe praktische Bedeutung.
  • Um die Analyse von Proteingemischen zu beschleunigen, wurde vorgeschlagen, die Identifizierung der Proteine durch eindeutige Peptidmasen vorzunehmen [1]. Bei dieser Methode wird folgendermaßen vorgegangen: (1) Vorbereitung der Probe, (2) Spaltung der Proteine, (3) chromatographische Auftrennung der resultierenden Peptide direkt verbunden mit der massenspektrometrischen Analyse. Es wird keine Sequenzierung mit Hilfe der Tandemmassenspektrometrie vorgenommen. Die enthaltenen Proteine werden nur aufgrund eindeutiger Peptidmassen identifiziert. Diese Methode stellt einen sehr interessanten Ansatz dar. Sie besitzt jedoch die folgenden Nachteile: Abhängig von der experimentell erzielbaren Massengenauigkeit und Massenauflösung können ein Teil der Proteine grundsätzlich nicht mit dieser Methode identifiziert werden, da diese kein einziges Peptidfragment mit eindeutiger Masse besitzen. Ein Protein aufgrund eines einzigen Massensignals zu identifizieren ist zusätzlich eine höchst unsichere Angelegenheit, stellt man das Ausmaß der gegenwärtigen Unkenntnis bezüglich Proteinsequenzen in Rechnung, welche in engem Zusammenhang mit dem beachtlichen Grad an Variabilität von Proteinen in bezug auf Spleißvarianten und posttranslationalen Modifikationen steht. Verlangt man andererseits (wie dies der experimentellen Praxis entspricht) mehrere Massensignale zur Identifizierung eines Proteins, so sinkt die Anzahl der mit dieser Methode identifizierbaren Proteine auf ein vollkommen inakzeptables Niveau.
  • Uns sind keine weiteren Verfahren bekannt, die es gestatten, den experimentellen Aufwand in ähnlichem Maße wie in (1] zu reduzieren. Wir bemerken im Gegenteil, daß die Identifizierung von Proteinen in Gemischen mit wenigen Proteinen, wie sie zum Beispiel bei der Analyse von Gelbanden auftreten, bereits Schwierigkeiten bereitet. Für die Identifizierung von Proteinen in derartigen Gemischen wurden zwei Verfahren vorgeschlagen. In [3] werden iterative Suchen durchgeführt, wobei nach jedem Schritt bereits zugeordnete Peptidmassen aus der Suchliste entfernt werden. Dieses Verfahren wird dann problematisch, wenn experimentell bestimmte Massen mehreren Proteinen zugeordnet werden können. In diesem Fall verdrängen Proteine mit vielen Fragmenten Proteine mit wenigen Fragmenten, welche dadurch noch schwerer zu identifizieren sind. In [4] kann eine Anzahl von 1–4 Proteinen im Gemisch vorgegeben werden und es wird die beste Kombination katalogiserter Proteine unter der jeweiligen Vorgabe berechnet. Der Nachteil dieses Verfahrens besteht darin, daß eine Annahme über die Anzahl der enthaltenen Proteine gemacht werden muß. Im allgemeinen ist jedoch nicht bekannt, wieviele Proteine in dem Gemisch vorliegen. Darüberhinaus können mit diesem Verfahren nur Gemische mit maximal vier Proteinen untersucht werden.
  • Aufgabe der Erfindung
  • Das hier vorgeschlagene Verfahren erlaubt es, Polymere – insbesondere Proteine und Peptide – in einem Gemisch zu identifizieren, wobei gegenüber dem Stande der Technik ein deutlich niedrigerer Meß- und Trennaufwand notwendig ist. Die Nachteile der erwähnten Verfahren sollen durch die vorliegende Erfindung beseitigt werden. Ziel ist es, die Kosten für die Untersuchung derartiger Gemische wesentlich zu erniedrigen und den Durchsatz zu erhöhen.
  • Beschreibung der Erfindung
  • Wir beschreiben die Erfindung zunächst in Anwendung auf die Untersuchung von Protein- und Peptidgemischen und verallgemeinern sie dann auf den Fall beliebiger Polymergemische. Wir betrachten als erstes ein konkretes Urnenmodell; die Erfindung ist jedoch allgemeinerer Natur und nicht an dieses Modell gebunden.
  • Gegeben sei also eine Urne, welche K weiße und L schwarze Kugeln, also insgesamt N = K + L Kugeln enthält. Wie groß ist die Wahrscheinlichkeit, daß unter n wahllos gezogenen Kugeln k weiße und 1 = n – k schwarze sind, wobei die gezogenen Kugeln nicht zurückgelegt werden? – Diese Situation wird durch die hypergeometrische Verteilung beschrieben. Die Wahrscheinlichkeit beträgt
    Figure 00050001
  • Wir wenden dieses Modell nun auf das Problem der Identifizierung von Proteinen und Peptiden an.
  • Gegeben sei also erstens ein Katalog von Peptid- oder Proteinsequenzen. Diese Sequenzen werden nach einer vorgegebenen Methode (z. B. der Verdau mittels Trypsin oder die Fragmentation durch Stöße mit neutralen Gasmolekülen) in Unterpeptide zerlegt. Die Massen aller entstandenen Unterpeptide werden berechnet. Dies seien insgesamt N verschiedene Massen – die Fragmentmassen – welche in einem Fragmentmassenkatalog zusammengefaßt werden.
  • Zweitens werde ein Protein (Peptid) des Katalogs ausgewählt. Dieses Protein (Peptid) besitze insgesamt K verschiedene Fragmentmassen. Mit Hilfe dieser Fragmentmassen wird eine disjunkte Teilung der katalogisierten Fragmentmassen in die K dem ausgewählten Protein (Peptid) zugehörigen Massen (die weißen Kugeln) und in die restlichen L = N – K Massen vorgenommen (die schwarzen Kugeln).
  • Vorgegeben sei drittens ein Menge von n verschiedenen Fragmentmassen, die man gewöhnlich aus einem oder mehreren Massenspektren entnehmen wird. Diese n Massen stellen eine Stichprobe aus der Menge aller Fragmentmassen (der Urne) dar, wobei k dieser Massen (innerhalb einer vorgegebenen Meßgenauigkeit) auf das ausgewählte Protein (Peptid) entfallen.
  • Betrachtet man das Auswählen der n Massen als einen zufälligen Prozeß, so kann man folgendes feststellen: Je größer der Sequenzkatalog ist, desto unwahrscheinlich ist es, daß mehrere zu einem Protein gehörende Massen zufällig gezogen werden. Je geringer also die Wahrscheinlichkeit
    Figure 00060001
    für ein vorgegebenes Protein (Peptid) ist, desto wahrscheinlicher ist es in der Probe enthalten.
  • Hat man einen konkreten Wert für k bestimmt, und findet man etwa, daß
    Figure 00060002
    ist, so stellt sich die Frage, in wie weit dieser Befund mit dem Zufall vereinbar ist. Um dies zu beantworten, ist zu berechnen, wie wahrscheinlich der ermittelte oder ein größerer Wert für k bei gegebenem K, N, und n gemäß der hypergeometrischen Verteilung ist. Diese Wahrscheinlichkeit beträgt
    Figure 00070001
  • Für ein vorgegebenes Signifikanzniveau α wird die Nullhypothese (also die Annahme, daß der ermittelte Wert von k mit dem Zufall vereinbar ist) verworfen, wenn P(X ≥ k) < α ist. Zum Beispiel wäre bei einem vorgegebenen Signifikanzniveau von α = 0, 01 (also 1%) der Wert k = 3 bei K = 102, n = 103 und N = 105 mit dem Zufall vereinbar, denn P(X ≥ 3) ≈ 0, 018. Für k = 4 müßte die Nullhypothese jedoch bereits verworfen werden, denn P(X ≥ 4) ≈ 0, 003.
  • Es sei am Rande bemerkt, daß sich die hypergeometrische Verteilung H(N, K, n) für viele interessierende Anwändungsfälle durch die Binomialverteilung B(n,p) und durch die POISSONverteilung P(μ) annähern läßt, symbolisch geschrieben
    H(N, K, n) ⇔ B(n, p) ⇔ P(μ).
  • Diese Verteilungen sind durch
    Figure 00070002
    definiert, wobei p = K/N und μ = np ist. Bei der Näherung der hypergeometrischen Verteilung durch die Binomialverteilung sollte als Faustregel wenigstens n < N/10 gelten. Entsprechend sollte bei der Näherung der Binomialverteilung durch die POISSONverteilung wenigstens p < 1/√10n erfüllt sein. Für viele interessierende Anwendungsfälle gilt größenordnungsmäßig N > 106, und 102 < K ≈ n < 103.
  • Man kann das vorgelegte Problem auch aus einem anderen Blickwinkel betrachten, bei dem man den Fragmentmassenkatalog über die experimentell bestimmten Massen disjunkt teilt und die zu einem vorgegebenen Protein gehörenden Massen als eine Stichprobe ansieht. Bei dieser Interpretation, welche ebenso vorteilhaft zur Grundlage der vorliegenden Erfindung gemacht werden kann, tauschen n und K die Rollen. Dieser Ansatz wird in [2] vertreten, um einzelne Peptide über die Tandemmassenspektrometrie zu identifizieren. Daß ein solches Modell auch auf die Analyse integraler Proteine sowie für die Identifikation von Proteinen anhand von Peptidfragmentmassenspektren (und allgemein auf die Analyse von Polymeren) angewandt werden kann, wurde von den Autoren nicht erkannt.
  • Wir wenden uns nun der Frage zu, wie anhand des Modells der hypergeometrischen Verteilung Proteine oder Peptide in Gemischen identifiziert werden können. In diesem Fall stammen die n experimentell bestimmten Massen von mehreren Proteinen oder Peptiden, und die Aufgabe besteht darin, diese zu bestimmen. Der entscheidende gedankliche Schritt der Erfindung besteht darin, nicht mehr Proteine oder Peptide zur Grundlage der Untersuchung zu machen, sondern Kombinationen von Proteinen oder Peptiden. Mathematisch gesprochen betrachtet man also nicht mehr die Menge der Proteine oder Peptide, sondern deren Potenzmenge. Man kann sich dies auch so vorstellen, daß aus vorgegebenen Proteinen oder Peptiden neue (hypothetische) Proteine oder Peptide erzeugt werden. Sollen etwa die beiden Proteine (Peptide) P1 und P2, welche jeweils K1 und K2 Fragmentmassen besitzen, vereinigt werden, so bildet man die Vereinigungsmenge ihrer Fragmentmassen. Diese Menge enthält möglicherweise weniger als K1 + K2 Elemente, nämlich genau dann, wenn diese beiden Proteine (Peptide) gemeinsame Fragmentmassen besitzen. Wir kennzeichnen diese Vereinigung im folgenden durch das Symbol „∪". In dieser Schreibweise würde der obige Fall so ausgedrückt werden: P1 ∪ P2. Die folgenden Erläuterungen gelten für Proteine und Peptide gleichermaßen. Das Wort „Protein" kann also durchgängig durch das Wort „Peptid" ersetzt werden.
  • Ist etwa bekannt, daß sich in der Probe genau zwei Proteine befinden, so sind Proteinkombinationen Pi ∪ Pj mit i ≠ j über alle Proteine des Kataloges zu bilden. Dies sind bei M Proteinen ( M / 2) verschiedene Kombinationen. Dasjenige Paar, für welches w minimal wird, bildet die wahrscheinlichste Kombination von Proteinen. Befinden sich m Proteine in der Probe, so sind alle ( M / m) Kombinationen von m Proteinen zu bilden und es ist diejenige Kombination zu bestimmen, für welche w minimal wird. Gibt es keine Vorgabe über die Anzahl der enthaltenen Proteine – der weitaus interessanteste Anwendungsfall -, so ist das Minimum von w über alle 2M – 1 Kombinationen von Proteinen zu bilden.
  • In [4] werden sogenannte „fusionierte" Proteine betrachtet, ohne daß beschrieben wird, um was es sich hierbei genau handelt. Auf jeden Fall muß jedoch bei diesem Verfahren eine Vorgabe über die Anzahl der enthaltenen Proteine gemacht werden. Der allgemeine Fall – nämlich die Untersuchung eines Gemisches mit einer beliebigen (und auch oft unbekannten) Anzahl von enthaltenen Proteinen – wird nicht betrachtet.
  • Die exakte Bestimmung des Minimums ist in vielen Fällen aufgrund der großen Anzahl von Kombinationen unmöglich. Es handelt sich hierbei um ein klassisches Problem der kombinatorischen Optimierung, vergleichbar mit dem bekannten Problem des Handlungsreisenden. Für die Lösung derartiger Probleme existieren zahlreiche Methoden, die es gestatten, daß Minimum näherungsweise zu berechnen.
  • Wir stellen im Rahmen dieser Erfindung eine weitere vorteilhafte Methode zur näherungsweisen Bestimmung des Minimums vor. Dieses Verfahren verläuft iterativ und läßt sich wie folgt beschreiben: Zur Initialisierung wird ein geeignetes Protein des Katalogs ausgewählt. Als ein besonders geeignetes Protein gilt dasjenige, für welches w verglichen mit allen anderen Proteinen des Kataloges minimal ist. Ohne Beschränkung der Allgemeinheit sei dies das Protein P'1 := P1. Nun wird dieses Protein paarweise mit allen M – 1 anderen Proteinen des Katalogs vereinigt, es wird w für jedes P'1 ∪ Pi (i = 2, ... M) berechnet und daraus das Minimum von w über alle Paare bestimmt. Ohne Beschränkung der Allgemeinheit werde das Minimum für das Paar P'1 ∪ P2 angenommen. Dieses Paar wird als ein neues hypothetisches Protein P'2 := P'1 ∪ P2 der Menge der M Proteine hinzugeschlagen. Im Gegenzug werden die beiden Proteine P'1 und P2 aus dem Proteinkatalog entfernt. Dieser hat jetzt einen Eintrag weniger, insgesamt also M – 1 Elemente, nämlich P'2, P3, P4, ..., PM. Nun wird dieses Verfahren wiederholt, wobei an die Stelle von P'1 das Protein P'2 tritt. Nach diesem Schritt besteht die Menge der Proteine aus den M – 2 Elementen P'3, P4, P5, ... PM, wobei P'3 := P'2 ∪ P3 ist. Die Allgemeinheit in den obigen Ausführungen ist nicht verletzt, da die Proteine stets geeignet umnummeriert werden können. Auf die geschilderte Weise entsteht eine Zahlenfolge {w'i}i=1,...,M, wobei mit w'i der Wert von w für P'i bezeichnet wird. Diese Folge hat einen ganz charakteristischen Verlauf: Sind in der Probe m > 1 Proteine enthalten, so nimmt die Folge der w'i monoton ab, idealerweise bis zum Index m, nach welchem sie wieder monoton ansteigt. Das hypothetische Protein P'm = P1 ∪ P2 ∪ . . . ∪ Pm an dieser Stelle bildet die wahrscheinlichste Kombination von Proteinen in der Probe. Die Form des Minimums gibt einen Hinweis auf die Güte der Identifikation: Ist das Minimum scharf, dann spricht dies für eine gute Identifikation, ist das Minimum flach, so spricht dies für eine vergleichsweise unsichere Identifikation. Ist das Minimum gar entartet, so gibt es mehrere Proteinkombinationen, die in Einklang mit den Daten sind. Das Verfahren behandelt diesen Fall vorteilhaft: Es ist diejenige Proteinkombination zu wählen, bei der zuerst das Minimum angenommen wurde. Die folgenden Proteinkombinationen sind zwar bezüglich ihrer Massen mit der vorgelegten Massenliste kompatibel. Nur die erste dieser Proteinkombinationen hat jedoch die maximale Erniedrigung von w' bewirken können. Ist in der Probe nur ein Protein enthalten, so nimmt die Kurve an der Stelle m = 1 ihr Minimum an und steigt von dort monoton an. Siehe hierzu auch die 1, 2 und 3.
  • Es kann vorkommen, daß durch Hinzufügen von zwei verschiedenen Proteinen zur vorher bestehenden Proteinkombination die gleiche Verringerung von w' erzielt wird. Hier sind zwei Fälle zu unterscheiden: Im ersten Fall betreffen die Evidenzen bei den beiden Proteinen genau die gleichen experimentell bestimmten Massen. Oft handelt es sich dann um homologe Proteine. Es bleibt ohne Einfluß, welches der beiden Proteine hinzugefügt wird. Im anderen Fall kann man an diesem Punkt eine Verzweigung einführen und in jedem Zweig die Minimierung getrennt fortführen. In jedem Fall erhält man als Resultat eine Reihe verschiedener Proteinkombinationen. Hier sind geeignete Kriterien zu entwerfen, um die wahrscheinlichste Proteinkombi nation zu bestimmen. Ein mögliches Kriterium besteht darin, nur diejenigen Proteine zu akzeptieren, die in allen Zweigen identifizert wurden. Der geschilderte Fall tritt jedoch so selten auf, daß eine willkürliche Entscheidung für eines der äquivalenten Proteine praktisch zu guten Ergebnissen führt.
  • Das oben geschilderte Verfahren läßt sich wie folgt verallgemeinern: In jedem Schritt werden aus der Menge der Proteine (einschließlich der entstandenen hypothetischen Proteine) zwei Teilmengen gebildet und es wird das Minimum von w über alle Paare von Proteinen gebildet, wobei eines der Proteine aus der ersten Teilmenge und eines der Proteine aus der zweiten Teilmenge stammt. Das Paar mit minimalem w wird wie beschrieben zu einem hypothetischen Protein vereinigt und dem Katalog zugeschlagen; die beiden beteiligten Proteine werden aus dem Katalog entfernt. Im obigen Fall besitzt die erste Teilmenge nur ein Element, nämlich das Protein mit dem niedrigsten Wert für w. Die zweite Teilmenge besteht aus den übrigen Proteinen. Die erste Teilmenge könnte genausogut auch aus den m' Proteinen mit den niedrigsten Werten für w bestehen (z. B. m' = 10). Die zweite Teilmenge könnte ebenso aus den M' Proteinen mit den niedrigsten Werten für w bestehen, wobei M' < M ist (z. B. M' = M/10). Anstatt zwei Teilmengen könnten auch bei jedem Schritt bis zu i Teilmengen gebildet werden (i > 2), wobei jeweils Kombinationen aus i Proteinen gebildet werden.
  • Eine interessante Verfeinerung des geschilderten hypergeometrischen Models betrifft die Kombination von Evidenzen aus einem oder mehreren Experimenten. Wir nehmen an, daß sich die in einem oder mehreren Experimenten beobachteten Evidenzen in J ≥ 1 Klassen einteilen lassen. Setzt man nj gleich der beobachteten Evidenzen aus der j-ten Klasse und Nj gleich der Anzahl aller katalogisierten Evi denzen für diese Klasse, so ist die Wahrscheinlichkeit, daß sich kj von Kj zu einem Protein oder Peptid (oder allgemein: Polymer) gehörige Evidenzen zufällig unter den nj befinden, gleich
    Figure 00130001
  • Wenn die Beobachtung der Evidenzen in den verschiedenen Klassen statistisch unabhängig sind, so ist die Wahrscheinlichkeit, daß diese Ereignisse gleichzeitig eintreten gleich
    Figure 00130002
    Analoge Ausdrücke erhält man durch die Vertauschung von nj und Kj für alle j.
  • Es ist jetzt auch noch möglich, eine Gewichtung von Evidenzen einzuführen. Dies ist zum Beispiel dann angezeigt, wenn sich Beobachtungen aus verschiedenen Experimenten, die sich in ihrer Genauigkeit wesentlich unterscheiden, kombiniert werden sollen. Ein anderes Beispiel betrifft Peptidmassen, die ausschließlich durch unvollständigen Verdau zustande kommen. Diese sind sehr zahlreich, kommen aber mit einer geringeren Wahrscheinlichkeit vor als Massen aus vollständigem Verdau. Die Gewichtung kann nun dadurch erreicht werden, daß
    Figure 00130003
    ersetzt wird, wobei die aj fest gewählte natürliche Zahlen sind. Je größer ein Faktor aj ist, desto stärker werden Beobachtungen aus der entsprechenden Klasse gewichtet. Alles voranstehende gilt selbstverständlich auch für J = 1, also für ein einzelnes Experiment. Einen analogen und ebenso geeigneten Ausdruck erhält man durch die Vertauschung von Kj und nj für alle j.
  • Eine andere, etwas weniger elegante, Alternative besteht darin, die Evidenzen aus den J Experimenten zusammenzufassen, also
    Figure 00140001
    zu bilden. Der Normierungsfaktor v in
    Figure 00140002
    ist durch abzählen aller möglichen Fälle zu bestimmen:
    Figure 00140003
  • Sind die Kj untereinander vergleichbar und gilt aj = 1 für alle j, dann gilt näherungsweise
    Figure 00140004
    denn ( J+k–1 / k) ist die Anzahl der nichtnegativen, ganzzahligen Lösungen der Gleichung k = Σ J / j=1kj. Für die Minimierung spielt die genaue Normierung jedoch eine untergeordnete Rolle, so daß man selbst mit v = ( N / n) noch gute Ergebnisse erzielt. Einen analogen und ebenso geeigneten Ausdruck erhält man durch die Vertauschung von K und n.
  • Die beiden Varianten der (gewichteten) Kombination von Evidenzen können selbstverständlich auch untereinander kombiniert werden. Im allgemeinen erhält man für ein festes J > 1 und einen festen Satz von Konstanten aj (j = 1, ...,J) eine Funktion g, die von k1, ..., kJ, K1, ..., KJ,n1, ...,nJ,N1, ...,NJ (15)abhängt und die zur Mimimierung herangezogen wird. Signifikanzniveaus α erhält man wie gewöhnlich durch Summation über die kj, also
    Figure 00150001
  • Werden für die kj die beobachteten Werte eingesetzt, so erhält man das sogenannte beobachtete Signifikanzniveau (oder auch p-Wert).
  • Um das Verfahren etwas näher zu beleuchten, wird im folgenden das Ergebnis einer Simulation gezeigt und diskutiert. Besonders interessant ist zu beobachten, wie das geschilderte Verfahren mit mehrdeutigen Massen verfährt. Ausgehend von einer aktuellen Ausgabe des Proteinkatalogs der Hefe mit 6211 Sequenzen wurde ein tryptischer Verdau vorgenommen, der zu N = 105528 Massen führte. Es wurden 14 Proteine stochastisch ausgewählt. Von den Fragmentmassen dieser Proteine wurden im Mittel 30% ausgewählt. Dies ergab insgesamt n = 161 Massen. Um zu zeigen, daß das Problem mehrdeutiger Massen grundsätzlicher Natur ist, wurde eine unendlich hohe Meßgenauigkeit vorgegeben (δm/m = 0). Die Ergebnisse sind in der folgenden Tabelle festgehalten.
  • Figure 00160001
  • In der ersten Spalte ist der Index i der laufenden Proteinkombination P'i = P1 ∪ P2 ∪ . . . ∪ Pi aufgeführt. In der zweiten Spalte steht die Anzahl Ii der Ionen des Proteins Pi. Mit ki ist die Anzahl der experimentell gefundenen Massen und mit Ki die Gesamtzahl der zu erwartenden Fragmentmassen dieses Proteines bezeichnet. Daraus läaßt sich
    Figure 00170001
    berechnen, dessen Logarithmus in der fünften Spalte aufgeführt ist. In den folgenden Spalten stehen die entsprechenden Größen der laufenden Proteinkombination P'i, also k'i, K'i und der Logarithmus von
    Figure 00170002
  • Das Protein P1 besitzt zum Beispiel I1 = 42 Ionen. Es wurden k1 = 51 Evidenzen gefunden, d. h. es traten in der Menge von 161 Massen noch neun weitere Massen auf, die mit diesem Protein vereinbar sind. Das Protein P2 besitzt k2 = 27 Evidenzen. Bei der Kombination von P1 und P2 entstehen insgesamt 68 Evidenzen, so daß diese beiden Proteine 10 gemeinsame Massen besitzen. In der letzten Spalte wird gezeigt, was passiert, wenn man, wie in [3] beschrieben, die Massenliste bei jedem Schritt reduziert: Bei i = 1 entfallen 51 von 161 Massen auf das Protein P1. Es verbleiben noch 110 Massen, welche im nächsten Schritt als Ausgangsmenge genommen werden: Bei i = 2 entfallen jetzt nur noch 17 (anstatt 27) Massen auf das Protein P2. Diese Herangehensweise geht also ganz offensichtlich auf Kosten von Proteinen mit vergleichsweise wenigen Fragmenten. Man kann erkennen, daß bei der Minimierung von w'i zwar vorzugsweise Proteine ausgewählt werden, die einen möglichst kleinen Anteil an gemeinsamen Evidenzen (ki) besitzen. Jedoch werden in fast jedem Schritt auch eine nicht unerhebliche Anzahl gemeinsamer Evidenzen zugelassen.
  • An der Position i = 14 wird nun das Minimum von log w'i erreicht: P'14 ist also nach diesem Verfahren die wahrscheinlichste Proteinkombination. Das Minimum ist entartet, denn w'14 = w'15. Interessanterweise wurden für das Protein P15 sechs von zehn möglichen Evidenzen gefunden, obwohl dieses Protein keine einzige Peptidmasse beigesteuert hat. Es wird erkannt, daß dieses Protein nicht in der vorgelegten Menge von Proteinen vorhanden ist: Es besitzt Evidenzen, die zwar kompatibel mit der vorgelegten Liste von Peptidmassen ist, es hat jedoch – und dies ist entscheidend – nicht zur größtmöglichen Erniedrigung von w' im Laufe der Minimierung führen können. Man sieht, daß wi an der Stelle i = 16 einen Sprung macht. Würde man diesen Sprung als Kriterium für eine Identifikation heranziehen, so erhielte man eine falsch positive Identifikation, nämlich das Protein P15. Bei einer endlichen Meßgenauigkeit und einer größeren Anzahl von Proteinen wird im übrigen ein solcher Sprung nicht mehr beobachtet. Dies ist auch aus den anliegenden Figuren zu entnehmen.
  • Dieses Beispiel soll lediglich den Algorithmus genauer beleuchten. Experimentelle Spektren enthalten Rauschen, Stör- und Fremdsignale, die sich im allgemeinen nicht vollständig unterdrücken lassen. Diese können zu zusätzlichen falsch positiven Identifikationen führen. Es ist jedoch ein Charakteristikum des Verfahrens, daß die tatsächlich in der Probe vorhandenen Proteine praktisch auschließlich in Proteinkombinationen zu finden sind, die am Anfang der Folge der P'i liegen. Die log w'i fallen zunächst stark ab und gehen dann in einen sichtbar weniger steilen Kurven anteil über, der sich allmählich dem Minimum nähert. Will man die Anzahl der falsch positiven Identifikationen, die durch Fremd- und Störsignale zustande kommen, einschränken, so muß man eine Proteinkombinationen P'i wählen, deren Index i kleiner als der Index derjenigen Proteinkombinationen ist, an der das Minimum angenommen wird. Hier müssen zur Bestimmung der enthaltenen Proteine zusätzliche Kriterien angewandt werden, die von der Anzahl der Stör- und Fremdsignale und damit von experimentellen Bedingungen abhängen.
  • Ein einfaches graphisches Verfahren zur Trennung der beiden Kurvenanteile besteht darin, die Punkte (1, log w'i) und (m, log w'm) und die Punkte (m, log w'm) und (M, log w'M) jeweils durch eine Gerade zu verbinden, wobei m ein variabler Index (1 ≤ m ≤ M) ist und M den Index des Minimums der log w'i bezeichnet. Nun berechne man die quadratische Abweichung der log w'i von diesen Geraden für verschiedene Werte von m und suche das Minimum auf. Genauer gesagt: Man bestimme den Index m, an dem
    Figure 00190001
    gegeben sind (siehe hierzu auch 4).
  • Der Übergang der beiden Kurvenanteile spiegelt sich auch in anderen Kenngrößen wider, die sich von den w'i ableiten. Eine solche Größe ist die Änderung von
    Figure 00200001
    Δ log w'i ist positiv für alle Proteinkombinationen links des Minimums. Es läßt sich eine Schwelle n > 0 ableiten, die enthaltene Proteine effektiv von falsch positiv identifizierten Proteinen abtrennt (siehe hierzu auch 5).
  • Unabhängig davon steht es einem natürlich offen, von vorneherein nur Proteine in die Minimierung einzubeziehen, die gewisse Mindestanforderungen erfüllen, z. B. eine geforderte Mindestanzahl von Evidenzen k oder eine geforderte minimale apparente Ionisationsausbeute k/K.
  • Ebenso können Schätzungen der Anzahl m der enthaltenen Proteine dazu dienen, eine Proteinkombination P'm auszuwählen. Der Unterschied zu [4] besteht darin, daß die Anzahl der m nicht auf den Bereich 1–4 eingeschränkt ist, sondern prinzipiell beliebig ist. Diese Schätzung von m kann z. B. mit etwas Erfahrung anhand des Kurvenverlaufs der log w'i, der Δ log w'i oder anhand anderer aus den ki, Ki, k'i und K'i abgeleiteten Größen vorgenommen werden. In einigen Fällen läßt sich die Anzahl der enthaltenen Proteine oder Peptide experimentell recht genau bestimmen. Wird zum Beispiel ein Massenbereich für die Untersuchung mit Hilfe der Tandemmassenspektrometrie selektiert, so läßt sich die Anzahl der dort liegenden Proteine oder Peptide anhand der Übersichtsspektren feststellen. Dazu müssen die Spektren lediglich entfaltet und bezüglich der Isotopenverteilungen reduziert werden. Im allgemeinen läßt sich abschätzen, welche Mindestamplitude der Signale der primären Ionen notwendig ist, damit deren Fragmentprodukte ausreichende Signalbeiträge in den Tandemmassenspektren liefern. Damit lassen sich die zu erwartenden Proteine oder Peptide abzählen. Wird die Anzahl der enthaltenen Proteine oder Peptide auf m geschätzt, so ist zur Identifikation die Kombination P'm (oder eine Kombination in der unmittelbaren Umgebung von P'm) auszuwählen. Eine noch genauere Bestimmung der vorgelegten Proteine oder Peptide erhält man durch die Überprüfung gewisser Konsistenzbedingungen. Im eben gerade geschilderten Fall muß man beispielsweise verlangen, daß die identifizierten Proteine oder Peptide bezüglich ihrer Gesamtmasse mit den experimentell beobachteten Massen in den Übersichtsspektren übereinstimmen. Damit lassen sich die Proteine einer ausgewählten Proteinkombination noch einmal individuell überprüfen. Diese Bedingungen werden vorteilhafterweise schon während der Bildung der Proteinkombinationen berücksichtigt, das heißt, es werden nur Proteine oder Peptide hinzugefügt, die die entsprechenden Konsistenzbedingungen erfüllen.
  • Das geschilderte Verfahren läßt sich offensichtlich allgemein auf Polymere – vorzugsweise auf kettenförmige Heteropolymere, insbesondere Biopolymere – anwenden. Auch ist das Verfahren nicht zwangsläufig an das hypergeometrische Model gebunden. Charakteristisch ist, daß eine Folge von Polymerkombinationen gebildet wird, wobei auch Polymerkombinationen zulässig sind, die nur ein einziges Polymer enthalten. Unter diesen Polymerkombinationen befinden sich nun wenigstens zwei, die eine unterschiedliche Anzahl von Polymeren als Bestandteile enthalten. In den wenigsten Fällen lassen sich alle Polymerkombinationen aufzählen. Daher wird die Folge der Polymerkombinationen vorzugsweise iterativ durch Anwendung einer vorgegebenen Regel gebildet. Dabei können graphenartige, baumartige und kettenartige Abfolgen entstehen. Vorzugsweise geschieht die Bildung dieser Folge von Polymerkombinationen dadurch, daß eine geeignete Funktion g schrittweise maximiert oder minimiert wird. In diese Funktion gehen beobachtete Evidenzen für Fragmente der vorgelegten Polymere und erwartete Evidenzen für Fragmente von Kombinationen katalogisierter Polymere ein. Evidenzen von Polymerkombinationen entstehen dadurch, daß die Vereinigungsmenge der Evidenzen der enthaltenen Polymere gebildet wird. Vorzugsweise geht diese Funktion g aus einem statistisches Modell hervor. In einer besonders vorteilhaften Ausführungsform der Erfindung entspricht g der hypergeometrischen Verteilung oder einer daraus abgeleiteten Verteilung.
  • Aus der gebildeten Folge von Polymerkombinationen wird nun zum Zwecke der Identifikation eine ausgewählt. Dies geschieht zum Beispiel durch die Schätzung der Anzahl der enthaltenen Polymere, durch die Anwendung einer Abbruchbedingung für die gebildete Folge von Polymeren oder durch die Anwendung zusätzlicher Kriterien, die beobachtete und erwartete Evidenzen und daraus abgeleitete Größen betreffen. Im Falle der hypergeometrischen Verteilung lassen sich solche Kriterien aus den ki, Ki, k'i und K'i ableiten. Besonders vorteilhaft ist die oben erwähnte graphische Methode oder die Festsetzung eines Schwellwertes für die Δ log w'i.
  • Wurde eine Polymerkombination ausgewählt, so steht es offen, die einzelnen Polymere dieser Kombination noch einer näheren Untersuchung zu unterwerfen, um zu einem endgültigen Ergebnis zu gelangen. Insbesondere kann für jedes enthaltene Polymer eine Mindestanzahl an Evidenzen k, ein minimaler relativer Anteil an Evidenzen k/K oder die Erfüllung von vorgegebenen Konsistenzbedingungen gefordert werden – also weitere Bedingungen, die beobachtete und erwartete Evidenzen betreffen. Dadurch werden aus der ausgewählten Kombination Polymere ausgesucht und einer entgültigen Polymerkombination zugeführt. Daß heißt also nichts anderes, als daß der Folge der Poymerkombinationen eine weitere hinzugefügt wird, die nun endgültig zum Zwecke der Identifizierung ausgewählt wird. Damit ist die Aufgabe der Identifizierung der vorgelegten Polymere mit Hilfe des erfindungsgemäßen Verfahrens gelöst.
  • Für das Verfahren existieren zahlreiche vorteilhafte Ausführungsformen. Die im folgenden geschilderten Ausführungsformen beziehen sich auf Proteine und Peptide, lassen sich jedoch zum Teil in naheliegender Weise auf andere Polymertypen übertragen.
  • Bei einer dieser Ausführungsformen werden einzelne oder mehrere Proteine chemisch oder durch Einwirkung eines geeigneten Enzyms in Peptide gespalten und die Massen der entstandenen Peptide werden bestimmt. Auf diese wird das obige Verfahren angewandt (siehe auch 1). Eine vorteilhafte Verfeinerung dieses Verfahrens besteht darin, die Probe in J > 1 Fraktionen zu zerlegen und die Proteine jede dieser Fraktionen auf eine andere Art und Weise dem Verdau zu unterwerfen, z. B. durch die Anwendung verschiedener Enzyme wie Lys-C, Arg-N etc. Die Identifikation der Proteine kann mit dem erfindungsgemäßen Verfahren dann für jedes Experiment getrennt durchgeführt werden und es werden z. B. nur diejenigen Proteine akzeptiert, die in einer Mindestanzahl von Experimenten identifiziert wurden. Alternativ kann man auch folgendermaßen vorgehen: Setzt man nj gleich der experimentell bestimmten Massen in Experiment j und Nj gleich der Anzahl der katalogiserten Massen für das Experiment j, so ist die Wahrscheinlichkeit, daß aus der j-ten Massenliste kj von Kj zu einem Protein gehörige Massen zufällig entnommen werden gleich
    Figure 00240001
  • Die Experimente können als unhabhängig gelten, so daß die Wahrscheinlich keit, daß diese Ereignisse gleichzeitig eintreten gleich
    Figure 00250001
    ist. Diese Funktion ist zu minimieren. Eine andere Alternative besteht darin, die Evidenzen aus den J Experimenten zusammenzufassen, also
    Figure 00250002
    zu bilden. Zur Minimierung wird dann die Funktion
    Figure 00250003
    herangezogen, wobei v ein Normierungsfaktor ist. Wie bereits beschrieben, kann durch die Einführung von geeigneten Faktoren aj zusätzlich noch eine Gewichtung vorgenommen werden.
  • Bei einer weiteren vorteilhaften Ausführungsform der Erfindung liegen einzelne oder mehrere integrale (also unverdaute) Proteine vor und diese werden durch eine der bekannten Methoden der Tandemmassenspektrometrie fragmentiert. Dabei entstehen in Abhängigkeit des Verfahrens bevorzugt bestimmte Ionenserien, die als Grundlage der Identifikation mit dem erfindungsgemäßen Verfahren dienen können (siehe auch 2). Eine solche Untersuchung kann auch mit der zuvor beschriebenen Ausführungsform kombiniert werden. Dazu wird die Probe in J > 1 Fraktionen zerlegt, von denen die Proteine der ersten I ≤ J Fraktionen mit Hilfe verschiedener Fragmentierungsverfahren der Tandemmassenspektrometrie (CID, ECD, etc.) untersucht werden, während die übrigen Fraktionen wie beschrieben mit Hilfe geeigneter Enzyme verdaut werden und die entsprechenden Fragmentspektren aufgenommen werden. Die entstehenden Datensätze können wie oben beschrieben gemeinsam analysiert werden. An den angegebenen Formeln ändert sich nichts. Setzt man I = J, so werden ausschließlich Verfahren der Tandemmassenspektrometrie kombiniert.
  • Bei einer weiteren vorteilhaften Ausführungsform der Erfindung liegt ein Gemisch von Peptiden vor. Diese Peptide können zum Beispiel aus dem Verdau von einem oder mehreren Proteinen hervorgegangen sein. Mehrere Peptidmassen werden gleichzeitig für die Tandemmassenspektrometrie ausgewählt. Man wählt dazu beispielsweise größere (möglicherweise sich überlappende) Massenbereiche aus, die relevante Teile des Spektrums überdecken. Mit Hilfe des erklärten Verfahrens werden aus den Ionenserien die enthaltenen Peptide identifiziert, wobei es vorteilhaft ist, den Katalog relevanter Peptide dem gewählten Massenbereich anzupassen (siehe auch 3). Aus den identifizierten Peptiden können in einem zweiten Schritt die unterliegenden Proteine bestimmt werden. Dabei kann eines der bekannten Verfahren angewandt werden. Es kann jedoch wiederum das erfindungsgemäße Verfahren benutzt werden, und zwar wie folgt: Es sei N die Anzahl der katalogisierten Verdauprodukte, die sich gemäß des angewandten Verfahrens der Tandemmassenspektrometrie unterscheiden lassen; n sei die Anzahl der experimentell ermittelten Evidenzen für katalogisierte Verdauprodukte. Für jedes Protein läßt sich die Anzahl K seiner gemäß des angewandten Verfahrens der Tandemmassenspektrormetrie unterscheidbaren Fragmente feststellen. Aus den n experimentell ermittelten Evidenzen entfallen k auf dieses Protein. Nun wird wenigstens ein Teil der möglichen Kombinationen von Proteinen gebildet, wobei beim kombinieren mehrerer Proteine deren Fragmente vereinigt werden und die Zahl K der im Sinne des angewandten Verfahrens der Tandemmassenspektrometrie unterscheidbaren Fragemente für die jeweilige Kombination bestimmt wird. Damit sind k, K, n und N gegeben und es kann wie bereits beschrieben verfahren werden.
  • Das soeben beschriebene Verfahren kann offensichtlich auch dann angewandt werden, wenn die Tandemmassenspektrometrie nach der herkömmlichen Verfahrensweise (also auf einzelne Peptide) angewandt wird. In diesem Fall entspricht jeder Evidenz einem Tandemmassenspektrum.
  • Eine weitere vorteilhafte Ausführungsform der Erfindung besteht in der Kombination der massenspektrometrischen Untersuchung von Verdauprodukten, die aus Proteingemischen stammen und der tandemmassenspektrometrischen Untersuchung der gleichen Verdauprodukte. Bei einer möglichen konkreten Ausführungsform werden die Spektren der Peptidmassen aufgenommen. Zusätzlich werden einzelne Peptide oder Massenbereiche, welche mehrere Peptidsignale enthalten für die Tandemmassenspektrometrie ausgewählt und mit dieser untersucht. Aus Konsistenzgründen wird man verlangen, daß die mit Hilfe der Tandemmassenspektrometrie identifizierten Peptide der Masse nach mit den Signalen in den Ubersichtsspektren übereinstimmen. Die Peptidmassen lassen sich nun disjunkt in zwei Klassen einteilen: In der ersten Klasse liegen alle Massen, zu denen tandemmassenspektrometrische Befunde vorliegen, die gegenüber der alleinigen Bestimmung der Peptidmasse einen Informationsgewinn darstellen. Die zweite Klasse wird von den restlichen Peptidmassen gebildet. Die massenspektrometrische Unterscheidung von Peptiden vollzieht sich in den beiden Klassen unterschiedlich: In der ersten Klasse werden Peptide als verschieden betrachtet, wenn sie sich im Sinne des angewandten Verfahrens der Tandemmassenspektrometrie unterscheiden lassen. Zumeist handelt es sich dabei um Äquivalenzklassen von Peptidsequenzen. In der zweiten Klasse ist das Unterscheidungsmerkmal die Masse, Äquivalenzklassen werden also hier durch die Masse definiert. Die Identifizierung der Proteine kann nun folgendermaßen vonstatten gehen. Wie vorher sei n die Anzahl der experimentell bestimmten Massen im einfachen Massenspektrum und N die Gesamtheit aller möglichen oder aller in betracht gezogenen Peptidmassen des Proteinkataloges. Es wird ein Protein des Kataloges ausgewählt, welches insgesamt K Massen besitzt und zu der bereits geschilderten disjunkten Teilung des Massenkatalogs führt. Mit k1 sei die Anzahl derjenigen experimentell bestimmten Massen bezeichnet, die aus der ersten Klasse stammen und die nach den tandemmassenspektrometrischen Befund dem ausgewählten Protein zugeordnet werden können. Mit k2 sei die Anzahl derjenigen experimentell bestimmten Massen bezeichnet, die aus der zweiten Klasse stammen und die der Masse nach dem ausgewählten Protein zugeordnet werden können. Man setze k := k1 + k2. Damit sind k, K, n und N gegeben und es kann wie bereits beschrieben verfahren werden. Diese Vorgehensweise kann etwas allgemeiner so beschrieben werden: Liegen zu den Pep tidmassen zusätzliche Informationen vor, die zu einer verfeinerten Zuordnung der Signale zu den Proteinen führen, so können diese einbezogen werden. Dazu gehören das Elutionsverhalten (also pyhsikochemische Eigenschaften), die Signalhöhe, die Isotopenverteilung und weiteres.
  • Bei einer weiteren vorteilhaften Ausführungsform werden die massenspektrometrischen Befunde mit weiteren experimentellen Daten kombiniert. Wird zum Bei spiel der Massenspektrometrie eine Chromatographie vorausgeschickt, so hat man für jedes Peptidsignal zwei experimentelle Werte, nämlich die Masse und den Elutionszeitpunkt. Liegt Kenntnis über die zu erwartenden Elutionszeitpunkte der einzelnen Peptide vor, so kann die Identifikation von Peptiden über diese beiden Paramter stattfinden. Man wird also ein Peptidsignal einem Protein zuordnen, wenn seine Masse in einer gewissen Umgebung der erwarteten Masse und sein Elutionszeitpunkt in einer gewissen Umgebung des zu erwarteten Elutionszeitpunktes liegen. Dies läßt sich offensichtlich auf eine beliebige Anzahl von M Parametern erweitern, die man in einen Vektor
    Figure 00290001
    zusammenfassen kann. Eine Evidenz für ein Protein anhand eines M-dimensionales Peptidsignals kann z. B. dadurch definiert werden, daß mit einer vorgegebene Funktion h und einem vorgegebenen ∊ > 0 h(x, x ^) < ∊ (27)erfüllt ist, wobei x der experimentell bestimmte Vektor und x ^ der erwartete Vektor ist. Das Verfahren läßt sich nun vollkommen analog anwenden: Es sei n die Anzahl der experimentell bestimmten Evidenzen, N die Anzahl aller Evidenzen für die katalogisierten Proteine, k die Anzahl der experimentell bestimmten Evidenzen, die auf ein vorgegebenes Protein entfallen und K alle katalogisierten Evidenzen, die auf dieses Protein entfallen. Damit sind k, K, n und N gegeben und es kann wie bereits beschrieben verfahren werden.
  • Die Einbeziehung von unvollständigen Verdaus sowie von festen und variablen Aminosäuremodifikationen ergibt sich in natürlicher Weise. Wird unvollständiger Verdau berücksichtigt, so ergibt sich bei wenigstens einer Schnittstelle eine größere Anzahl von theoretisch möglichen Massen für das betreffende Protein. Besitzt ein Protein z. B. K Massen bei vollständigem Verdau, so kann es bis zu 2K – 1 Massen bei Auslassung einer Schnittstelle haben. Diese können alle einbezogen werden. Da jedoch meistens nur wenige (und auch oft nur bestimmte) dieser zusätzlichen Massen auftreten, können auch empirische Befunde und Schätzungen zugrunde gelegt werden. Eine andere Möglichkeit besteht darin, für K den Wert der theoretisch zu erwartenden Massen mit vollständigen Verdau einzusetzen und diese Zahl um die Anzahl der anhand der Daten gefundenen Evidenzen für Fragmente aus unvollständigem Verdau zu erhöhen. Ähnlich verhält es sich bei der Einbeziehung von Aminosäuremodifikationen. Entweder es werden alle theoretisch zu erwartenden Massen berücksichtigt, oder es wird zunächst eine besonders gut passende Zuordnung der theoretischen und der experimentellen Massen vorgenommen. Daraufhin lassen sich K und N entsprechend korrigieren. Da gewöhnlich n << N ist, spielt im übrigen die Anderung von N praktisch keine große Rolle. Sie kann auch unterschlagen werden oder in Form einer globalen Schätzung einfließen. Es ist allgemein festzustellen, daß eine kleine oder moderate Änderung von n oder N oder von beiden einen geringen Einfluß auf die Qualität der Identifizierung mit der vorgelegten Methode hat.
  • Ebenso läßt sich das Verfahren mit der Isotopenmarkierung kombinieren. Bei einigen der bekannten Verfahren werden Peptide an vorgegebenen Stellen chemisch modifiziert, wobei diese chemische Modifikation für zwei Proben unterschiedlich verläuft. Die beiden Varianten unterscheiden sich lediglich durch den definierten Austausch einer vorgegebenen Anzahl von Isotopen (oft Wasserstoff) in der chemischen Substanz, die mit den Peptiden reagiert. Analoge Peptide unterscheiden sich demnach durch ein fest vorgegebenes Masseninkrement. Die beiden Proben werden gemeinsam vermessen, und in den Spektren treten dann typische Signalpaare im entsprechen Massenabstand auf. Diese veränderten Massen sind entsprechend bei der Analyse der Spektren zu berücksichtigen.
  • Es wurde bereits darauf hingewiesen, daß die hypergeometrische Verteilung auch dafür geeignet ist, einzelne Proteine anhand ihrer Fragmente zu identifizieren. Einzelheiten einer solchen Identifikation wurden an mehreren Stellen bereits besprochen. Wir fassen nun wie folgt zusammen:
    Es wird eine Menge von Proteinen vorgelegt, die wenigstens ein Protein enthält, die vorgelegten Proteine werden in Fragmente zerlegt und es werden Evidenzen für diese Fragmente beobachtet. Weiter wird ein Katalog von Proteinen vorgegeben. Die beobachteten Evidenzen werden in J ≥ 1 Klassen eingeteilt und für jede dieser Klassen wird eine natürliche Zahl aj festgelegt. Ein Protein des Kataloges wird dann positiv identifiziert, wenn wenigstens eine der beiden folgenden Bedingungen erfüllt ist:
    • (A) Die von k1, ..., kJ, K1, ..., KJ, n1, ..., nJ, N1, ..., NJ abhängige Funktion f ist für dieses Protein – bezogen auf eine Auswahl von Proteinen des Katalogs – extremal oder unterschreitet oder überschreitet eine vorgegebene Schwelle.
    • (B) Der Ausdruck
      Figure 00310001
      oder eine Näherung dieses Ausdrucks oder eine monotone Funktion dieses Ausdrucks ist für dieses Protein – bezogen auf eine Auswahl von Proteinen des Katalogs – extremal oder unterschreitet oder überschreitet eine vorgegebene Schwelle,
    wobei die Funktion f durch
    • (a)
      Figure 00320001
      oder eine Näherung dieses Ausdrucks oder eine monotone Funktion dieses Ausdrucks gegeben ist, oder wobei die Funktion f durch
    • (b)
      Figure 00320002
      oder eine Näherung dieses Ausdrucks oder eine monotone Funktion dieses Ausdrucks gegeben ist, oder wobei die Funktion f durch
    • (c)
      Figure 00320003
      oder eine Näherung dieses Ausdrucks oder eine monotone Funktion dieses Aus drucks gegeben ist, wobei v ein Normierungsfaktor ist und wobei
      Figure 00330001
      ist, oder wobei die Funktion f durch
    • (d)
      Figure 00330002
      oder eine Näherung dieses Ausdrucks oder eine monotone Funktion dieses Ausdrucks gegeben ist, wobei v ein Normierungsfaktor ist und wobei
      Figure 00330003
      ist, und wobei jeweils bezogen auf die j-te Klasse folgendes gilt:
      Nj
      ist die Anzahl von wenigsten einem Teil der erwarteten Evidenzen von allen Proteinen des Katalogs.
      Kj
      ist die Anzahl von wenigsten einem Teil der erwarteten Evidenzen eines vorgegebenen Proteins des Katalogs.
      nj
      ist die Anzahl von wenigstens einem Teil der beobachteten Evidenzen der vorgelegten Proteine.
      ki
      ist die Anzahl von wenigstens einem Teil der beobachteten Evidenzen der vorgelegten Proteine, welche gleichzeitig auf ein vorgegebenes Protein des Katalogs entfallen.
  • Beispiele für monotone Funktionen der genannten Ausdrücke sind die Multiplikation mit einer Konstanten oder die Bildung des Logarithmus. Näherungen bilden z. B. die bereits erwähnte Binomialverteilung oder die POISSONverteilung. Für J = 1 und a1 = 1 erhält man für f die wichtigen Spezialfälle
    Figure 00340001
  • Die genannten Evidenzen können insbesondere aus den Massen von Peptiden hervorgehen, die durch die Spaltung der Proteine durch die Einwirkung geeigneter Enzyme oder chemischer Substanzen entstehen, oder sie können aus der tandemmassenspektrometrischen Analyse von Peptiden hervorgehen, die durch die Spaltung der Proteine durch die Einwirkung geeigneter Enzyme oder chemischer Substanzen entstehen, oder sie können aus den Massen von Fragmenten von Proteinen hervorgehen, die durch Fragmentierungsverfahren der Tandemmassenspektrometrie entstehen.
  • Literatur
    • [1] CONRADS TP, ANDERSON GA, VEENSTRA TD, PASA-TOLIC L, SMITH RD Utility of accurate mass tags for proteome-wide protein identification Analytical Chemistry 72, 3349–3354 (2000)
    • [2] SADYGOV RG, YATES JR 3RD A hypergeometric probability model for protein identification and validation using tandem mass spectral data and protein sequence databases Analytical Chemistry 75, 3792–3789 (2003)
    • [3] JENSEN ON, PODTELEJNIKOV AV, MANN M Identification of the components of simple protein mixtures by high-accuracy peptide mass mapping and database searching Analytical Chemistry 69, 4741–4750 (1997)
    • [4] ZHANG W, CHAIT BT ProFound: an expert system for protein identification using mass spectrometric peptide mapping information Analytical Chemistry 72, 2482–2489 (2000)
  • Beschreibung der Figuren
  • Es sind fünf Figuren beigefügt. Diese zeigen Anwendung des erfindungsmäßigen Verfahrens in einigen der geschilderten Ausführungsformen.
  • 1: Für diese Untersuchung wurde eine aktuelle Ausgabe des Sequenzkatalogs der Hefe (S. cerevisiae) mit 6211 verschiedenen Proteinsequenzen herangezogen. Alle Proteine des Katalogs wurden gemäß den Regeln des Trypsinverdaus in Peptide zerlegt und die entsprechenden Massen wurden berechnet. Insgesamt ergaben sich dadurch N = 105528 Massen. Aus dem Katalog wurden 63 Proteinsequenzen (≈ 1%) nach dem Zufallsprinzip ausgewählt, deren Peptidfragmente mit einer mittleren Ausbeute von 30% stochastisch ionisiert wurden. Im oberen Teil der Figur ist die Verteilung der Ionisationsausbeute für die ausgewählten Proteine aufgetragen. Es entstand ein Liste von insgesamt n = 844 verschiedenen Massen. Bei der Zuordnung von Peptidmassen wurde eine relative Meßungenauigkeit von δm/m = 10–5 = 10 ppm angenommen. Die Proteine wurden sukkzessiv unter Minimierung von w' kombiniert, so wie dies in der Beschreibung der Erfindung erläutert ist.
  • In der Grafik entspricht der Abszisse die Anzahl i der bereits vereinigten Proteine, d. h. nach rechts fortschreitend wird jeweils ein neues Protein hinzugefügt. Die durchgezogene Kurve zeigt den Verlauf von log w'i für die aktuelle Proteinkombination P'i. Mit ausgefüllten Kreisen sind Proteine gekennzeichnet, die in diesem Schritt hinzugefügt werden und die sich unter den ausgewählten Proteinen befinden. Offene Kreise bezeichnen dagegen falsch positiv klassifizierte Proteine. Zusätzlich ist mit Balken der Wert von log wi für dasjenige Protein Pi aufgetragen, welches in diesem Schritt hinzugefügt wurde. Das Minimum der Kurve wird an der Position 63 angenommen. Diese Stelle ist durch einen senkrechten Strich markiert. Es ergaben sich zwei falsch positiv und zwei falsch negativ klassifizierte Proteine (Positionen i = 71 und i > 100). Demnach wurden 61 der vorgegebenen 63 Proteine richtig klassifiziert.
  • 2: Für diese Untersuchung wurde wiederum der oben genannte Sequenzkatalog der Hefe herangezogen. Aus diesem Katalog wurden alle Proteine ausgewählt, deren Masse zwischen 40000 und 50000 Dalton liegen, insgesamt 701 Proteine. Für diese Proteine wurden die Fragmentmassen der b- und y-Reihen berechnet. Insgesamt ergaben sich dadurch N = 533086 Massen. Aus dem Katalog wurden 75 Proteinsequenzen (≈ 10%) nach dem Zufallsprinzip ausgewählt, deren Fragmente mit einer mittleren Ausbeute von 3% stochastisch ionisiert wurden. Im oberen Teil der Figur ist die Verteilung der Ionisationsausbeute für die ausgewählten Proteine aufgetragen. Es entstand ein Liste von insgesamt n = 1753 verschiedenen Massen. Bei der Zuordnung von Fragmentmassen wurde eine relative Meßungenauigkeit von δm/m = 10–5 = 10 ppm angenommen. Die Proteine wurden sukkzessiv unter Minimierung von w' kombiniert, so wie dies in der Beschreibung der Erfindung erläutert ist.
  • In der Grafik entspricht der Abszisse die Anzahl i der bereits vereinigten Proteine, d. h. nach rechts fortschreitend wird jeweils ein neues Protein hinzugefügt. Die durchgezogene Kurve zeigt den Verlauf von log w'i für die aktuelle Proteinkombination P'i. Mit ausgefüllten Kreisen sind Proteine gekennzeichnet, die in diesem Schritt hinzugefügt werden und die sich unter den ausgewählten Proteinen befinden. Falsch positiv klassifizierte Proteine kamen hier nicht vor.
  • Zusätzlich ist mit Balken der Wert von log wi für dasjenige Protein Pi aufgetragen, welches in diesem Schritt hinzugefügt wurde. Das Minimum der Kurve wird an der Position 75 angenommen. Diese Stelle ist durch einen senkrechten Strich markiert. Es ergaben sich weder falsch positiv und noch falsch negativ klassifizierte Proteine.
  • 3: Für diese Untersuchung wurde der bereits erwähnte Sequenzkatalog der Hefe herangezogen. Die Proteine des Katalogs wurden gemäß den Regeln des Trypsinverdaus in Peptide zerlegt. Alle Peptide, deren Masse zwischen 1400 und 1600 Dalton lagen wurden in einem Katalog zusammengefaßt; dies waren insgesamt 13348 Peptide. Für diese Peptide wurden die Fragmentmassen der b- und y-Reihen berechnet. Insgesamt ergaben sich dadurch N = 75222 Massen. Von den Peptiden wurden 60 nach dem Zufallsprinzip ausgewählt (≈ 0,5%), deren Fragmente mit einer mittleren Ausbeute von 30% stochastisch ionisiert wurden. Im oberen Teil der Figur ist die Verteilung der Ionisationsausbeute für die ausgewählten Peptide aufgetragen. Es entstand ein Liste von insgesamt n = 402 verschiedenen Massen. Bei der Zuordnung von Fragmentmassen wurde eine relative Meßungenauigkeit von δm/m = 10–5 = 10 ppm angenommen. Die Peptide wurden sukkzessiv unter Minimierung von w' kombiniert, so wie dies in der Beschreibung der Erfindung erläutert ist.
  • In der Grafik entspricht der Abszisse die Anzahl i der bereits vereinigten Peptide, d. h. nach rechts fortschreitend wird jeweils ein neues Peptid hinzugefügt. Die durchgezogene Kurve zeigt den Verlauf von log w'i für die aktuelle Peptidkombination P'i . Mit ausgefüllten Kreisen sind Peptide gekennzeichnet, die in diesem Schritt hinzugefügt werden und die sich unter den ausgewählten Pep tiden befinden. Offene Kreise bezeichnen dagegen falsch positiv klassifizierte Peptide. Zusätzlich ist mit Balken der Wert von log wi für dasjenige Peptid Pi aufgetragen, welches in diesem Schritt hinzugefügt wurde. Das Minimum der Kurve wird an der Position 61 angenommen. Diese Stelle ist durch einen senkrechten Strich markiert. Es ergaben sich drei falsch positiv und zwei falsch negativ klassifizierte Peptide.
  • 4: Für diese Untersuchung wurde der bereits erwähnte Sequenzkatalog der Hefe herangezogen. Alle Proteine des Katalogs wurden gemäß den Regeln des Trypsinverdaus in Peptide zerlegt und die entsprechenden Massen wurden berechnet. Insgesamt ergaben sich dadurch N = 105528 Massen. Aus dem Katalog wurden 49 Proteinsequenzen nach dem Zufallsprinzip ausgewählt, deren Peptidfragmente mit einer mittleren Ausbeute von 30% stochastisch ionisiert wurden. Es entstanden dadurch 620 Massen. Bei der Zuordnung von Peptidmassen wurde wiederum eine relative Meßungenauigkeit von δm/m = 10–5 = 10 ppm angenommen. Um Störsignale zu simulieren, wurden weitere 615 Massen von Peptiden anderer Proteine wahllos hinzugefügt, so daß insgesamt n = 1235 Massen vorlagen. Der Anteil der Störsignale lag also bei rund 50%. Proteine wurden nach der bereits mehrfach beschriebenen Methode kombiniert. In den beiden Teilabbildungen entspricht der Abszisse die Anzahl i der bereits vereinigten Proteine, d. h. nach rechts fortschreitend wird jeweils ein neues Protein hinzugefügt. Die durchgezogene Kurve in der unteren Teilabbildung zeigt den Verlauf von log w'i für die aktuelle Proteinkombination P'i. Am Verlauf der log w'i ist ein anfänglicher, steiler Abstieg von einem darauf folgenden, deutlich weniger steilen Teil zu unterscheiden, der an der Positi on M = 411 in das Minimum mündet. Von Position 1 bis Position 45 liegen ausschließlich vorgegebene Proteine. Um die beiden Kurventeile abzutrennen, wurde das Minimum von
    Figure 00400001
    gegeben sind. Das entspricht der quadratischen Abweichung der log w'i von zwei Geradenstücken, die die Punkte (1, log w'1) und (m, log w'm), sowie die Punkte (m, log w'm) und (M, log w'M) verbinden. Der Verlauf von χ 2 / m ist im oberen Teil der Figur aufgetragen. Das Minimum von χ 2 / m wurde für den Index m = 41 angenommen. Dieses Minimum ist durch einen senkrechten Strich in beiden Teilabbildungen markiert. Der Verlauf der entsprechenden beiden Geraden ist durch zwei gepunktete Linien in der unteren Teilabbildung angedeutet.
  • Dieses einfache graphische Verfahren führt im allgemeinen zu einer konservativen Schätzung des Ubergangpunktes der beiden Kurvenanteile. Dies ist oft gewünscht, um den Anteil an falsch positiv identifizierten Proteinen gering zu halten. Die folgende Tabelle enthält weitere Ergebnisse zu unterschiedlichen Proteinanzahlen. Der Anteil der Störsignale lag in allen Fällen bei rund 50%.
  • Figure 00410001
  • 5: Diese Figur zeigt im oberen Teil eine detailliertere Darstellung der Daten aus der 4. Im unteren Teil der Figur ist der Verlauf von
    Figure 00410002
    also die Änderung von log w'i aufgetragen. Die Position 41 ist in beiden Teilabbildungen durch einen senkrechten Strich markiert. Die beiden Kurvenanteile können offensichtlich auch durch Einführung einer Schwelle n für die Δ log w'i getrennt werden. Diese liegt bei etwa n = 10 und ist durch eine gestrichelte Linie in der unteren Teilabbildung gekennzeichnet.

Claims (4)

  1. Verfahren zur Identifizierung von Polymeren in Gemischen, (a) bei dem eine Probe vorgelegt wird, welche ein Gemisch von Polymeren enthält, (b) bei dem weiter wenigstens ein Teil der Polymere mittels eines experimentellen Verfahrens in Fragmente zerlegt und diese beobachtet werden, (c) bei dem weiter ein Katalog von Polymeren vorgelegt wird, (d) bei dem weiter mit Hilfe des vorgelegten Katalogs eine Identifizierung der im Gemisch vorliegenden Polymere vorgenommen wird, dadurch gekennzeichnet, (e) daß zur Identifizierung der Polymere eine Funktion aufgestellt wird, die bewertet, ob eine vorgelegte Kombination von Polymeren aus dem gegebenen Katalog in dem gegebenen Gemisch vorkommt, (f) daß weiter diese Funktion für eine nicht notwendigerweise echte – Teilmenge der möglichen Kombinationen von Polymeren des Katalogs ausgewertet wird, wobei unter den betrachteten Kombinationen von Polymeren wenigstens zwei mit einer unterschiedlichen Anzahl von enthaltenen Polymeren vorkommen müssen, (g) daß eine der betrachteten Kombinationen von Polymeren zum Zwecke der Identifizierung ausgewählt wird.
  2. Verfahren nach dem vorangegangenen Patentanspruch dadurch gekennzeichnet, daß der Vorgang der Identifizierung die folgenden Bestandteile enthält: (a) i. Es wird eine erste Polymerkombination P'i festgelegt. ii. Im j-ten Schritt (j ≥ 1) wird die Polymerkombination P'j mit wenigstens einem Teil der übrigen katalogisierten Polymere paarweise kombiniert. iii. Es wird das Extremum der aufgestellten Funktion über diese Kombinationen bestimmt und eine der Kombinationen ausgewählt, für die diese Funktion das genannte Extremum annimmt. Es wird bei (ii) fortgefahren, wobei j durch j + 1 ersetzt wird. (b) Es wird zum Zwecke der Identifizierung eine der im Laufe des Verfahren konstruierten Polymerkombinationen ausgewählt.
  3. Verfahren nach einem der vorangegangenen Patentansprüche dadurch gekennzeichnet, daß in der aufgestellten Funktion der Ausdruck
    Figure 00430001
    vorkommt, wobei folgendes gilt: N ist die Anzahl der unterscheidbaren Fragmente aller Polymere des Katalogs. K ist die Anzahl der unterscheidbaren Fragmente einer vorgegebenen Kombination mit Polymeren aus dem Katalog. n ist die Anzahl der experimentell beobachteten Fragmente. k ist die Anzahl der experimentell beobachteten Fragmente, die der vorgegebenen Kombination mit Polymeren aus dem Katalog zugeordnet werden kann.
  4. Verfahren nach einem der vorangegangenen Patentansprüche dadurch gekennzeichnet, daß zum Zwecke der Identifizierung eine Polymerkombination ausgewählt wird, für welche die aufgestellte Funktion ein Extremum annimmt.
DE102004016667A 2004-04-05 2004-04-05 Verfahren zur Identifizierung von Polymeren in Gemischen Expired - Fee Related DE102004016667B4 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102004016667A DE102004016667B4 (de) 2004-04-05 2004-04-05 Verfahren zur Identifizierung von Polymeren in Gemischen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102004016667A DE102004016667B4 (de) 2004-04-05 2004-04-05 Verfahren zur Identifizierung von Polymeren in Gemischen

Publications (2)

Publication Number Publication Date
DE102004016667A1 DE102004016667A1 (de) 2005-11-03
DE102004016667B4 true DE102004016667B4 (de) 2006-02-02

Family

ID=35070370

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102004016667A Expired - Fee Related DE102004016667B4 (de) 2004-04-05 2004-04-05 Verfahren zur Identifizierung von Polymeren in Gemischen

Country Status (1)

Country Link
DE (1) DE102004016667B4 (de)

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Jensen, O.N.; Podtelejnikov, A.V.; Mann, M.: Identification of the Components of Simple Pro- tein Mixtures by High-Accuracy Peptide Mass Mapp- ing and Database Searching. In: Analytical Chem- istry, ISSN 0003-2700.1997, Vol. 69, No. 23, S. 4741-4750
Bafna, V., Edwards, N.: SCOPE: a probabilistic model for scoring tandem mass spectra against a peptide database. In: Bioinformatics. ISSN 1471-2105.2001, Vol. 17 Suppl. 1, S. 13-21 *
Conrads, T.P.; Anderson, G.A.; Veenstra, T.D. [u.a.]: Utility of Accurate Mass Tags for Proteo- me-Wide Protein Identification. In: Analytical Chemistry. ISSN 0003-2700.2000, Vol. 72, No. 14, S. 3349-3354 *
Sadygov, R.G.; Yates, J.R.III: A Hypergeometric Probability Model for Protein Identification and Validation Using Tandem Mass Spectral Data and Protein Sequence Databases. In: Analytical Chem- istry. ISSN 0003-2700.2003, Vol. 75, No. 15, S. 3792-3798 *
Zhang, W.; Chait, B.T.: ProFound: An Expert Sys- tem for Protein Identification Using Mass Spectro- metric Peptide Mapping Information, In: Analyti- cal Chemistry. ISSN 0003-2700.2000, Vol. 72, No. 11, S. 2482-2489
Zhang, W.; Chait, B.T.: ProFound: An Expert Sys- tem for Protein Identification Using Mass Spectro-metric Peptide Mapping Information, In: Analyti- cal Chemistry. ISSN 0003-2700.2000, Vol. 72, No. 11, S. 2482-2489 *

Also Published As

Publication number Publication date
DE102004016667A1 (de) 2005-11-03

Similar Documents

Publication Publication Date Title
DE112005000598B4 (de) Verfahren zur Identifizierung einer Zuckerkettenstruktur und Vorrichtung zur Analyse derselben
DE102009032649B4 (de) Massenspektrometrische Identifizierung von Mikroben nach Unterarten
DE60026452T2 (de) Verfahren zur Identifizierung von Peptidensequenzen und Proteinensequenzen mittels Massenspektromterie
DE60126055T3 (de) Massenspektrometer und massenspektrometrisches Verfahren
DE112005001166B4 (de) Verfahren und Vorrichtung zum Identifizieren von Proteinen in Gemischen
EP1846757B1 (de) Verfahren und system zur massenspektrenanalyse
DE102016012302B4 (de) Verfahren zum Auswerten von Daten einer Massenspektrometrie und massenspektrometrisches Verfahren
DE112004000746B4 (de) Verfahren und Vorrichtung zum Verarbeiten von LC-MS- oder LC-MS-/MS-Daten bei Stoffwechseluntersuchungen
DE20321731U1 (de) Massenspektrometer
WO2010083811A1 (de) Verfahren zur identifizierung insbesondere unbekannter substanzen durch massenspektrometrie
DE112015000402B4 (de) Näherungsalgorithmus zum Lösen eines Impulsübertragungsquerschnitts
DE102012205686B3 (de) Verfahren zur Substanzidentifizierung und zugehöriges Computerprogrammprodukt
DE602004012637T2 (de) Verfahren und Vorrichtungen zur Identifizierung von Biopolymeren mittels Massenspektometrie
EP2289090B1 (de) Verfahren und anordnung zur steuerung von messsystemen, sowie ein entsprechendes computerprogramm und ein entsprechendes computerlesbares speichermedium
DE102005018273B4 (de) Rückgesteuerte Tandem-Massenspektrometrie
DE102004016667B4 (de) Verfahren zur Identifizierung von Polymeren in Gemischen
DE10315581A1 (de) Verfahren zur Qualitätsbestimmung von RNA-Proben
DE102020101408A1 (de) Verfahren für die massenspektrometrische bestimmung der anwesenheit oder des fehlens eines chemischen elements in einem analyten
DE102014224916B4 (de) Verfahren zur rechnergestützten Analyse eines oder mehrerer Gewebeschnitte des menschlichen oder tierischen Körpers
DE102020111240B3 (de) Prozessieren von ortsaufgelösten, Ionen-spektrometrischen Messsignaldaten zur Ermittlung von Molekül-Gehaltsmaßzahlen in flächigen Proben
DE10300743A1 (de) Verfahren zur Identifizierung von Mikroorganismen mittels Massenspektrometrie
DE102019109771A1 (de) Auswertung komplexer Massenspektrometrie-Daten von biologischen Proben
DE112004002364B4 (de) Berechnung von Vertrauensniveaus zur Peptid- und Proteinidentifikation
WO2012126451A2 (de) Verfahren zur identifizierung insbesondere unbekannter substanzen durch massenspektrometrie
DE102004049918B4 (de) Verfahren zur Massenspektrometrie

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20111101