-
Gebiet der Erfindung
-
Die vorliegende Erfindung bezieht sich auf Verfahren für die massenspektrometrische Bestimmung der Anwesenheit oder des Fehlens von chemischen Elementen in Verbindungen dar.
-
Hintergrund der Erfindung
-
Die Massenspektrometrie (MS) ist eine weit verbreitete Analysemethode zur qualitativen und quantitativen Identifizierung von Verbindungen in verschiedensten Proben, z.B. in der Metabolomik, Proteomik, Pestizidanalyse, Identifizierung natürlicher Verbindungen und Pharmazeutika. Die Massenspektrometrie kann mit Trennverfahren in Flüssigkeiten oder der Gasphase gekoppelt sein, wie z.B. der Flüssigkeitschromatographie (LC) oder der Gaschromatographie (GC). Diese Kopplungsverfahren, LC/MS und GC/MS, sind äußerst nützlich für den Nachweis, die Identifizierung und Quantifizierung von Verbindungen in komplexen Gemischen. Bei anderen Kopplungsverfahren wird die MS oder die LC/MS mit der Ionenmobilitätsspektroskopie (IMS) kombiniert.
-
Die Massenspektrometrie umfasst die Überführung von Verbindungen einer Probe in die Gasphase, die Ionisierung der Verbindungen in einer Ionenquelle, die Trennung der Molekülionen von Verbindungen nach dem Masse-zu-Ladungsverhältnis in einem Massenanalysator und den Nachweis der getrennten Molekülionen. Das Masse-zu-Ladungsverhältnis wird üblicherweise durch das Symbol „m/z“ angegeben, wobei „m“ die Ionenmasse und „z“ die Anzahl der Elementarladungen des Molekülions ist. Optional können die Molekülionen zu Fragmentionen fragmentiert werden, die dann entsprechend dem Masse-zu-Ladungsverhältnis getrennt und gemessen werden.
-
Es gibt viele verschiedene Arten von Ionenquellen, wie z.B. die chemische Ionisierung, Fast Atom Bombardment (FAB), die matrixunterstützte Laserdesorption/Ionisierung (MALDI) und die Ionisierung durch Elektrosprühen (ESI), und von Massenanalysatoren, wie z.B. Quadrupol-Massenfilter, Flugzeitmassenanalysatoren, Flugzeitmassenanalysatoren mit orthogonalem Ioneneinschuss, HF-Ionenfallen, Gleichspannungsionenfallen (wie eine Orbitrap- oder Cassini-Falle) und Ionenzyklotronresonanz-Ionenfallen.
-
Ein gemessenes Massenspektrum enthält Peaks (Signale) von Molekülionen und zeigt das Masse-zu-Ladungsverhältnis jedes Peaks auf der Abszisse mit der entsprechenden relativen Peakintensität auf der Ordinate an. Dabei ist jeder Peak durch einen m/z-Wert und einen Intensitätswert (Signalhöhe) gekennzeichnet.
-
Das Massenspektrum der Molekülionen einer einzelnen Verbindung zeigt aufgrund der Isotope der chemischen Elemente eine Reihe von Peaks mit unterschiedlichen m/z-Werten. Diese Menge von (Isotopen-)Peaks wird als „Isotopenmuster“ bezeichnet. Verbindungen mit der gleichen chemischen Formel weisen das gleiche Isotopenmuster auf. Die gemessene Intensität eines Isotopenpeaks korreliert mit der Häufigkeit eines bestimmten Molekülions innerhalb des Isotopenmusters der Verbindung. Die relativen Intensitäten der Isotopenpeaks hängen mit der relativen Häufigkeit der Isotope zusammen.
-
Das gemessene Isotopenmuster einer Verbindung kann verwendet werden, um eine chemische Formel für die Verbindung zu annotieren und häufig auch, um die Verbindung zu identifizieren. Während dies bei sehr kleinen Molekülen problemlos möglich ist, wird es bei größeren Molekülen schnell zu einer Herausforderung.
-
Ein Massenspektrum, das für ein komplexes Gemisch von Verbindungen aufgenommen wurde, weist mehrere Isotopenmuster auf. Das Abgleichen eines gemessenen Isotopenmusters hinsichtlich m/z- und Intensitätswerten mit einem theoretisch abgeleiteten Isotopenmuster zum Annotieren einer chemischen Formel an die entsprechende Verbindung ist keine einfache Aufgabe. Zunächst wird eine Menge von Isotopenmustern für einen späteren Vergleich mit dem gemessenen Isotopenmuster berechnet. Konkret geschieht dies durch Falten der Isotopenmuster von vorselektierten chemischen Elementen für alle möglichen Elementkombinationen (chemische Formeln) dieser chemischen Elemente, die mit dem m/z-Wert des Monoisotopenpeaks innerhalb einer vorgegebenen Massentoleranz übereinstimmen. Für jede der möglichen chemischen Formeln wird anschließend ein Isotopenmuster berechnet und mit dem gemessenen Isotopenmuster verglichen. Für diese Berechnung gibt es verschiedene Methoden, wie z. B. die χ2-Statistik von Pearson.
-
Aufgrund der zahlreichen Kombinationsmöglichkeiten der enthaltenen chemischen Elemente ist jedoch auch die Anzahl an möglichen chemischen Formeln sehr groß. Diese Anzahl der möglichen chemischen Formeln um einen bestimmten m/z-Wert und innerhalb einer vorgegebenen Massentoleranz kann für verschiedene Mengen von chemischen Elementen berechnet werden. Die zeigt die Anzahl der möglichen chemischen Formeln innerhalb einer Massentoleranz von 5 mDa im m/z-Bereich zwischen 100 und 600 Da für drei relevante Mengen von chemischen Elementen ({C, H, N, O}, {C, H, N, O, P, S, Na, K, Cl}, {C, H, N, O, P, S, Na, K, Cl, Br, F, I}). Dabei steigt die Anzahl der möglichen chemischen Formeln exponentiell an. Je mehr chemische Elemente für die Generierung der chemischen Formeln einbezogen werden, desto mehr chemische Formeln sind innerhalb der Massentoleranz möglich.
-
Da nicht alle theoretisch abgeleiteten chemischen Formeln auch chemisch zulässig sind, kann eine Verringerung der Anzahl möglicher chemischer Formeln durch Anwendung heuristischer Regeln erreicht werden. Dennoch kann die Anzahl der verbleibenden Kandidaten immer noch sehr groß sein, da die Anzahl möglicher chemischer Formeln mit m/z-Wert exponentiell zunimmt.
-
Aktuelle Softwaretools beruhen in der Regel auf einem Mustervergleich, wie zuvor beschrieben. In diesem Zusammenhang wurden Anpassungen an diesem Ansatz vorgenommen und es wurden neue Ansätze zur Berechnung von Isotopenmustern vorgeschlagen, z. B. die Verwendung von Markov-Ketten, die den Berechnungsaufwand durch bestimmte Abstriche verringern. Eine Lösung für das Problem des exponentiellen Anstiegs der Anzahl möglicher chemischer Formeln bieten sie jedoch nicht. Kern des kombinatorischen Problems ist die Menge der chemischen Elemente, die zur Berechnung der möglichen chemischen Formeln verwendet wird. Eine vorherige Festlegung bzw. der Ausschluss bestimmter Elemente verringert die Anzahl der möglichen chemischen Formeln, die berechnet und abgeglichen werden müssen. Daher ist es unerlässlich, chemische Elemente zu bestimmen (vorherzusagen), die in einer Verbindung vorhanden sind, um so die Komplexität während der Annotation einer chemischen Formel an die Verbindung zu reduzieren.
-
Kurze Beschreibung der Erfindung
-
Die vorliegende Erfindung stellt ein Verfahren für die massenspektrometrische Bestimmung der Anwesenheit oder des Fehlens eines chemischen Elements in einem Analyt bereit und umfasst folgende Schritte:
- (a) Erzeugen von Molekülionen des Analyten;
- (b) Messen eines Isotopenmusters der Molekülionen durch Massenspektrometrie, wobei das Isotopenmuster mehrere Isotopenpeaks aufweist und jeder Isotopenpeak durch einen Massenwert und einen Intensitätswert gekennzeichnet ist;
- (c) Darstellung des Isotopenmusters als Merkmalsvektor
- (d) Anwenden des Merkmalsvektors
auf einen überwachten Elementklassifikator, der den Merkmalsvektor
einer ersten Klasse (vorhandenes chemisches Element) oder einer zweiten Klasse (fehlendes chemisches Element) zuordnet, wobei der überwachte Elementklassifikator auf einer Menge von Merkmalsvektoren
trainiert ist, die Isotopenmuster von Verbindungen mit bekannter Elementzusammensetzung repräsentieren, und wobei das chemische Element in einer echten Teilmenge der Verbindungen vorhanden ist.
-
Die Menge von Verbindungen mit bekannter Elementzusammensetzung umfasst eine echte Untermenge mit Verbindungen, in denen das chemische Element vorhanden ist, und eine echte Untermenge mit bekannten Verbindungen, in denen das chemische Element fehlt. Folglich sind beide Untermengen nicht leer. Bevorzugt werden die Verbindungen auf beide Untermengen in einem Verhältnis von mindestens 20/80 aufgeteilt. Besonders bevorzugt ist ein Verhältnis von etwa 50/50. Die Molekularmasse dieser Verbindungen ist bevorzugt kleiner als 1000 Da, in besonders bevorzugter Weise kleiner als 600 Da, insbesondere zwischen 100 und 600 Da. Die massenspektrometrischen Messungen des Isotopenmusters des Analyten können beispielsweise mit einer Massenauflösung R ≤ 100.000, insbesondere mit R ≤ 50.000 und speziell mit R ≤ 25.000 durchgeführt werden.
-
Die für das Training des überwachten Elementklassifikators verwendeten Isotopenmuster können theoretisch abgeleitet und/oder experimentell gemessen werden. Falls die Isotopenmuster der Verbindungen, die für das Training des überwachten Elementklassifikators verwendet werden, experimentell gemessen werden, wird das Isotopenmuster dieser Verbindungen und des Analyten bevorzugt mit demselben massenspektrometrischen System gemessen. Es ist jedoch möglich, Isotopenmuster bekannter Verbindungen, die in Datenbanken, z. B. in der KEGG-Datenbank (Kyoto Encyclopedia of Genes and Genomes) gesammelt werden, zur Auswahl von Verbindungen zu verwenden, die das zu bestimmende chemische Element enthalten. Die theoretisch abgeleiteten Isotopenmuster können ausgewählt werden, indem bekannte Regeln für chemische Strukturformeln, wie die „Lewis-Regel“ und die „Stickstoff-Regel“, auf die entsprechenden chemischen Formeln angewendet werden.
-
Das zu bestimmende chemische Element ist bevorzugt eines der Folgenden: Br, Cl, S, I, F, P, K, Na und Pt. Die Zuordnung in Schritt (d) kann für mehrere chemische Elemente durchgeführt werden, indem mithilfe verschiedener überwachter Elementklassifikatoren mehrere Elemente gleichzeitig bestimmt werden. Der Elementklassifikator führt bevorzugt von sich aus eine Mehrfachklassifizierung für eine Menge von zwei oder mehr chemischen Elementen durch. Zudem können die zugeordneten Klassen die Anwesenheit oder das Fehlen einer Menge von zwei oder mehr chemischen Elementen entsprechen, wobei der überwachte Elementklassifikator auf einen Satz von Merkmalsvektoren
trainiert ist, die Isotopenmuster von Verbindungen mit bekannter Elementzusammensetzung repräsentieren, und wobei die zwei oder mehr chemischen Elemente in einer echten Teilmenge der Verbindungen vorhanden sind.
-
In einer ersten Ausführungsform umfasst jeder der Merkmalsvektoren
die ein entsprechendes Isotopenmuster repräsentieren, Massenwerte und normierte Intensitätswerte der Isotopenpeaks. Die Merkmalsvektoren
umfassen bevorzugt einen Massenwert des Monoisotopenpeaks, Massendifferenzen zwischen dem Monoisotopenpeak und anderen Isotopenpeaks und normierte Intensitätswerte der Isotopenpeaks. In besonders bevorzugter Weise umfasst jeder der Merkmalsvektoren
weiterhin eine Massendifferenz zwischen dem Monoisotopenpeak und der Nominalmasse.
-
Jeder der Merkmalsvektoren
kann zum Beispiel wie folgt angeordnet sein: [m
0,
s 0 d(m
0, m
i),
s i d(m
0, M
0)] mit i=1...N, wobei m
0 der Massenwert des Monoisotopenpeaks,
s 0 der normierte Intensitätswert des Monoisotopenpeaks, d(m
0, m
i) die Massendifferenz zwischen dem Monoisotopenpeak und dem i-ten Isotopenpeak,
s i der normierte Intensitätswert des i-ten Isotopenpeaks und d(m
0, M
0) die Differenz zwischen dem Massenwert des Monoisotopenpeaks und der Nominalmasse M
0 ist. Die Differenz ist bevorzugt das Ergebnis einer numerischen Subtraktion, kann jedoch auch ein allgemeineres Abstandsmaß sein. N ist bevorzugt größer als 1, in besonders bevorzugter Weise größer als 4 und insbesondere gleich 9. Bei N=2 sieht der Merkmalsvektor wie folgt aus:
-
Die normierten Intensitätswerte
s i eines Merkmalsvektors werden aus den gemessenen Intensitätswerten s
i der entsprechenden Isotopenpeaks mithilfe der p-Norm berechnet:
s i=s
i/∥s∥ with
mit 1 ≤ p, insbesondere p=1.
-
In einer zweiten Ausführungsform umfasst jeder der Merkmalsvektoren
die ein entsprechendes Isotopenmuster präsentieren, Massenwerte und transformierte Intensitätswerte der Isotopenpeaks. Die Intensitätswerte der Isotopenpeaks des entsprechenden Isotopenmusters werden bevorzugt durch eine Centered-Log-Ratio-Transformation (CLR-Transformation) oder durch eine Isometric-Log-Ratio-Transformation (ILR-Transformation) umgewandelt.
-
Bei der CLR-Transformation kann jeder der Merkmalsvektoren
zum Beispiel wie folgt angeordnet sein:
- [m0, clr0, d(m0, mi), clri, d(m0, M0)] mit i=1...N,
- - wobei m0 der Massenwert des Monoisotopenpeaks, clr0 der mit CLR transformierte Intensitätswert des Monoisotopenpeaks, d(m0, mi) die Massendifferenz zwischen dem Monoisotopenpeak und dem i-ten Isotopenpeak, clri der mit CLR transformierte Intensitätswert des i-ten Isotopenpeaks und d(m0, M0) die Differenz zwischen dem Massenwert des Monoisotopenpeaks und der Nominalmasse ist und
- - wobei die CLR-Transformation wie folgt definiert ist:
- clri = log(si/(s0 · s1 · ··· sN)1/(N+1)) mit den Intensitätswerten der Isotopenpeaks si=0...N.
-
N ist bevorzugt größer als 1, in besonders bevorzugter Weise größer als 4 und insbesondere gleich 9. Bei N=2 sieht der Merkmalsvektor wie folgt aus:
- [m0, clr0, d(m0, m1), clr1, d(m0, m2), clr2, d(m0, M0)].
-
Bei der ILR-Transformation kann jeder der Merkmalsvektoren
zum Beispiel wie folgt angeordnet sein:
mit i=1...N-1,
- - wobei m0 der Massenwert des Monoisotopenpeaks ist, ilri die mit ILR transformierten Intensitätswerte des Isotopenpeaks sind, d(m0, mi) die Massendifferenz zwischen dem Monoisotopenpeak und dem i-ten Isotopenpeak ist und d(m0, M0) die Differenz zwischen dem Massenwert des Monoisotopenpeaks und der Nominalmasse ist und
- - wobei die ILR-Transformation wie folgt definiert ist:
- Ausgleichsmatrix B der verringerten Dimension dim(B) = (N + 1) × N und B · BT = IN
-
N ist bevorzugt größer als 1, in besonders bevorzugter Weise größer als 4 und insbesondere gleich 9. Bei N=2 sieht der Merkmalsvektor wie folgt aus:
-
Der überwachte Elementklassifikator kann beispielsweise eine Support Vector Machine (SVM), ein künstliches neuronales Netz (ANN), wie ein Convolutional Neural Network (CNN) oder ein Long-Short-Term-Memory Network (LSTMN), oder ein Random Forest-Klassifikator (RF, Random Decision Forest) sein. Die inhärenten Parameter des überwachten Elementklassifikators (Hyperparameter) werden bevorzugt während des Trainings des überwachten Elementklassifikators optimiert, z. B. durch die Verwendung einer Schwarmoptimierung, eines evolutionärem Algorithmus, eines genetischem Algorithmus, einer Multi-Start-Optimierung, Simulated Annealing oder einer Mustersuche. Die Hyperparameter hängen im Allgemeinen davon ab, wie das Isotopenmuster als Merkmalsvektor dargestellt wird, also zum Beispiel von den ausgewählten Merkmalen, der Länge des Merkmalsvektors, der Normalisierung/Transformation der Intensitätswerte, der Darstellung der m/z-Werte und der Anordnung der Merkmale innerhalb des Merkmalsvektors.
-
Die Darstellung des Isotopenmusters als Merkmalsvektor wird bevorzugt während des Trainings des überwachten Elementklassifikators optimiert. So kann die Darstellung beispielsweise hinsichtlich der Dimension des Merkmalsvektors, der Normalisierung oder Transformation der Intensitätsmesswerte und der Anordnung der Komponenten des Merkmalsvektors optimiert werden. Zudem kann eine weitere Optimierung über eine Merkmalsauswahl oder die Bewertung der Merkmalsrelevanz während des Trainings des überwachten Elementklassifikators vorgenommen werden, z. B. durch den LASSO-Algorithmus (Least Absolute Shrinkage and Selection Operator) oder den RF-Algorithmus (Random Forest).
-
Das Isotopenmuster des Analyten wird bevorzugt mit einem Massenanalysator gemessen, der mit einem vorgeschalteten Ionenmobilitätsanalysator und/oder mit einem Gas- oder Flüssigkeitschromatographen gekoppelt ist. Bevorzugt handelt es sich bei dem Massenanalysator um einen Flugzeitmassenanalysator mit orthogonalem Ioneneinschuss (OTOF). Besonders bevorzugt wird ein OTOF, der mit einem Ionenmobilitätsmassenanalysator, insbesondere mit einem TIMS-Analysator (Speicherionen-Mobilitätsspektrometrie) gekoppelt ist.
-
Gemäß einem weiteren Aspekt wird das Ergebnis zum Nachweis der Anwesenheit oder des Fehlens eines chemischen Elements gemäß vorliegender Erfindung verwendet, um die Anzahl der chemischen Elemente zu verringern oder zu erhöhen, die bei der Annotation einer chemischen Formel an den Analyt einbezogen werden, insbesondere bei der Berechnung der Reihe von Isotopenmustern für den späteren Vergleich mit dem gemessenen Isotopenmuster. Das Isotopenmuster der Analytionen wird bevorzugt während einer LC- oder GC-Phasentrennung, in besonders bevorzugter Weise während einer gekoppelten LC-IMS- bzw. GC-IMS-Phasentrennung gemessen.
-
Beschreibung der Abbildungen
-
Die zeigt die Anzahl der chemischen Formeln innerhalb einer Massentoleranz von 5 mDa im m/z-Bereich zwischen 100 und 600 Da für drei Mengen von chemischen Elementen ({C, H, N, O}, {C, H, N, O, P, S, Na, K, Cl}, {C, H, N, O, P, S, Na, K, Cl, Br, F, I}).
-
Die zeigt ein Flussdiagramm eines erfindungsgemäßen Verfahrens.
-
Die zeigt die Anzahl der experimentell gemessenen Verbindungen (positiv und negativ) für die relevanten chemischen Elemente in gleichen Mengen, die für das Training und die Validierung verwendet werden. 80 % des Datensatzes wird dem Training und 20 % der Validierung des überwachten Elementklassifikators zugeteilt.
-
Die zeigt Ergebnisse für eine Smart-Margin-SVM mit RBF-Kernel, die mit den experimentellen Daten trainiert und durch einen Partikelschwarm optimiert wurde. Die gemessenen Intensitätswerte der Isotopenmuster werden durch p-Norm mit p=1 (Abschluss) normiert. Zu den Ergebnissen gehören die Richtigkeit der korrekten Klassifizierung, die Sensitivität, die Spezifität und die vollständige Konfusionsmatrix.
-
Die zeigt Ergebnisse für eine Smart-Margin-SVM mit RBF-Kernel, die mit den experimentellen Daten trainiert und durch einen Partikelschwarm optimiert wurde. Die gemessenen Intensitätswerte der Isotopenmuster werden durch eine Centered-Log-Ratio-Transformation (CLR-Transformation) umgewandelt. Zu den Ergebnissen gehören die Richtigkeit der korrekten Klassifizierung, die Sensitivität, die Spezifität und die vollständige Konfusionsmatrix.
-
Die zeigt Ergebnisse für eine Smart-Margin-SVM mit RBF-Kernel, die mit den experimentellen Daten trainiert und durch einen Partikelschwarm optimiert wurde. Die gemessenen Intensitätswerte der Isotopenmuster werden durch eine Isometric-Log-Ratio-Transformation (ILR-Transformation) umgewandelt. Zu den Ergebnissen gehören die Richtigkeit der korrekten Klassifizierung, die Sensitivität, die Spezifität und die vollständige Konfusionsmatrix.
-
Die zeigt eine schematische Darstellung eines dichten, vorwärtsgerichteten neuronalen Netzes mit Bias. Die Zahlen in den Neuronen stellen den Index der Neuronen und nicht deren Werte dar.
-
Die zeigt Ergebnisse für ein dichtes, vorwärtsgerichtetes künstliches neuronales Netz, das mit den experimentellen Daten trainiert und durch einen evolutionären Algorithmus optimiert wurde. Die gemessenen Intensitätswerte der Isotopenmuster werden durch p-Norm mit p=1 (Abschluss) normiert. Zu den Ergebnissen gehören die Richtigkeit der korrekten Klassifizierung, die Sensitivität, die Spezifität und die vollständige Konfusionsmatrix.
-
Die zeigt Ergebnisse für ein dichtes, vorwärtsgerichtetes künstliches neuronales Netz, das mit den experimentellen Daten trainiert und durch einen evolutionären Algorithmus optimiert wurde. Die gemessenen Intensitätswerte der Isotopenmuster werden durch eine Centered-Log-Ratio-Transformation (CLR-Transformation) umgewandelt. Zu den Ergebnissen gehören die Richtigkeit der korrekten Klassifizierung, die Sensitivität, die Spezifität und die vollständige Konfusionsmatrix.
-
Die zeigt Ergebnisse für ein dichtes, vorwärtsgerichtetes künstliches neuronales Netz, das mit den experimentellen Daten trainiert und durch einen evolutionären Algorithmus optimiert wurde. Die gemessenen Intensitätswerte der Isotopenmuster werden durch eine Isometric-Log-Ratio-Transformation (ILR-Transformation) umgewandelt. Zu den Ergebnissen gehören die Richtigkeit der korrekten Klassifizierung, die Sensitivität, die Spezifität und die vollständige Konfusionsmatrix.
-
Ausführliche Beschreibung der Erfindung
-
Während die Erfindung mit Bezug auf eine Reihe verschiedener Ausführungsformen gezeigt und beschrieben wurde, werden Fachleute auf dem Gebiet anerkennen, dass verschiedene Änderungen bezüglich der Form und Einzelheiten vorgenommen werden können, ohne den Schutzbereich der Erfindung, wie er in den beigefügten Ansprüchen definiert ist, zu verlassen.
-
Die Elementzusammensetzung ist von zentraler Bedeutung für das kombinatorische Problem, mögliche chemische Formeln für einen bestimmten m/z-Wert zu generieren. Die vorliegende Erfindung wird verwendet, um chemische Elemente, die in einem Analyt enthalten sind, aus dem gemessenen Isotopenmuster des Analyten vorherzusagen und damit die Elementzusammensetzung des Analyten zu bestimmen, die für eine nachfolgende Generierung möglicher chemischer Formeln verwendet wird. Die Festlegung bzw. der Ausschluss bestimmter chemischer Elemente verringert die Anzahl der möglichen chemischen Formeln, die berechnet und verglichen werden müssen. Nach der vorliegenden Erfindung ist das maschinelle Lernen unter Verwendung eines überwachten Klassifikators eine Möglichkeit, dieses Problem zu lösen.
-
Abgesehen von einer Vereinfachung des Annotationsverfahrens ermöglicht das Verfahren gemäß der vorliegenden Erfindung die gezielte Auswahl und Untersuchung nur bestimmter Isotopenmuster und damit interessanter Verbindungen, davon ausgehend, dass bestimmte chemische Elemente vorhanden sind.
-
Definitionen
-
Der Begriff „Massenwert“ wird hier austauschbar für das Masse-zu-Ladungsverhältnis (m/z-Wert) eines Molekülions sowie für die Molekülmasse der entsprechenden Verbindung verwendet. Das Masse-zu-Ladungsverhältnis eines Molekülions kann in die Molekülmasse der entsprechenden Verbindung umgewandelt werden, z. B. durch Ladungsentfaltung.
-
Die „Nominalmasse“ für ein chemisches Element ist die Massenzahl von dessen am häufigsten vertretenen, natürlich vorkommenden stabilen Isotop. Bei einem Molekülion oder Molekül ist die Nominalmasse die Summe der Nominalmassen der zugehörigen Atome. Zum Beispiel weist Kohlenstoff zwei stabile Isotope auf: 12C bei 98,9 % natürlichem Vorkommen und 13C bei 1,1 % natürlichem Vorkommen, so dass die Nominalmasse des Kohlenstoffs 12 beträgt.
-
Die Masse des „Monoisotopenpeaks“ ist die Summe der Massen der Atome in einem Molekül unter Verwendung der Masse des wichtigsten (am häufigsten vorkommenden) Isotops für jedes chemische Element. Die Differenz zwischen der Nominalmasse und der Monoisotopenmasse wird als Massendefekt bezeichnet.
-
Eine „Konfusionsmatrix“ ist eine Tabelle, die eine Visualisierung der Leistungsfähigkeit eines Klassifikators, typischerweise eines überwachten Klassifikators, ermöglicht. Jede Zeile der Konfusionsmatrix repräsentiert die Instanzen einer vorhergesagten Klasse, während jede Spalte die Instanzen einer tatsächlichen Klasse darstellt:
| Positiver Zustand | Negativer Zustand | |
Positive Vorhersage | TP (Richtig Positive) | FP (Falsch Positive) | Positiver Vorhersage wert
|
Negative Vorhersage | FN (Falsch Negativ) | TN (Richtig Negativ) | Negativer Vorhersagewert
|
| | | |
-
Support Vector Machine (SVM)
-
Eine Support Vector Machine (SVM) ist ein Verfahren für überwachtes maschinelles Lernen, die für die Klassifizierung verwendet werden kann. Während des Trainings erstellt eine SVM eine Hyperebene im hochdimensionalen Datenraum, die gekennzeichnete Trainingsdatenpunkte hinsichtlich ihrer Klassenbezeichnungen trennt. Die Parameter der Hyperebene sind so optimiert, dass sich der größtmögliche Abstand zu den nächstgelegenen Trainingsdatenpunkten jeder einzelnen Klasse (der sogenannte Randbereich, engl. margin) ergibt. Eine wesentliche Schlussfolgerung aus dieser geometrischen Beschreibung ist, dass die Hyperebene mit dem größtmöglichen Randbereich vollständig durch die Datenpunkte bestimmt wird, die ihr am nächsten liegen. Diese Datenpunkte werden als Support-Vektoren bezeichnet. Eine Zuordnung von Datenpunkten ohne Klassenkennzeichnung, die nach dem Training zu klassifizieren sind, erfolgt durch eine Ermittlung, auf welcher Seite der Hyperebene sich die Datenpunkte ohne Klassenkennzeichnung befinden. Nach einem gründlichen Training können Datenpunkte ohne Klassenkennzeichnung schnell und mit geringem Rechenaufwand einer Klasse zugeordnet werden.
-
Die SVM kann auf Fälle ausgedehnt werden, in denen die Daten nicht linear trennbar sind, z. B. durch die Einführung eines sogenannten weichen Randbereiches (Soft-Margin). Durch die „Soft-Margin“ werden die Trainingsdatenpunkte nicht exakt durch den Rand getrennt. Ein interner nicht trainierter Parameter (Hyperparameter) der SVM definiert einen Kompromiss (Trade-off) zwischen der Ausweitung des Randes und der Sicherstellung, dass alle Trainingsdatenpunkte auf der richtigen Seite des Randes liegen.
-
Die SVM kann durch Anwendung eines sogenannten Kernel-Tricks weiter verallgemeinert werden, bei dem die Datenpunkte des Eingangsraums in einen transformierten Merkmalsraum umgewandelt werden. Die Transformation ermöglicht die Anpassung einer Hyperebene mit maximaler Randgrenze im transformierten Merkmalsraum. Dabei kann die Transformation nichtlinear sein und der transformierte Merkmalsraum höher dimensioniert als der Eingangsraum. Obwohl der Klassifikator auf einer trennenden Hyperebene im transformierten Merkmalsraum basiert, kann er im ursprünglichen Eingangsbereich nichtlinear sein. Die nichtlineare Kernel-Funktion kann überdies zusätzliche Hyperparameter (nicht trainierte, vordefinierte Parameter) umfassen. Zu den Funktionen gängiger Kernel gehören beispielsweise Polynome (homogen oder inhomogen), die Radialbasisfunktion (RBF) und die hyperbolische Tangentenfunktion.
-
Künstliches neuronales Netz
-
Ein künstliches neuronales Netz (Artificial Neural Network, ANN) ist ein System, das von biologischen neuronalen Netzen inspiriert ist. Ein ANN basiert in der Regel auf einer Sammlung von verbundenen Knoten (künstliche Neuronen). Über jede Verbindung (Kante) zwischen künstlichen Neuronen kann - wie bei Synapsen in einem biologischen neuronalen Netzwerk - ein Signal von einem künstlichen Neuron zum anderen übertragen werden. Ein künstliches Neuron, das ein Signal empfängt, kann es verarbeiten und dann an andere damit verbundene künstliche Neuronen weitergeben. Die Ausgabe jedes künstlichen Neurons wird durch eine nichtlineare Funktion (Aktivierungsfunktion) aus der Summe seiner Eingänge berechnet. Künstliche Neuronen können einen Schwellenwert haben, sodass das Signal nur gesendet wird, wenn die Summe der Eingänge über diesem Schwellenwert liegt.
-
Normalerweise werden künstliche Neuronen in Schichten zusammengefasst. Verschiedene Schichten können verschiedene Arten von Transformationen an den Eingangsdaten durchführen. Signale werden von der ersten Schicht (der Eingabeschicht) zur letzten Schicht (der Ausgabeschicht) übertragen, gegebenenfalls nachdem sie mehrere Zwischenschichten (hidden layers) durchlaufen haben.
-
Den Verbindungen zwischen künstlichen Neuronen sind typischerweise Gewichtungen zugewiesen, die während des Trainings angepasst werden. Mit der Gewichtung erhöht oder verringert sich die Stärke des Signals an einer Verbindung. Für das Training von neuronalen Netzen stehen zahlreiche Algorithmen zur Verfügung. Viele von ihnen können als eine Optimierung betrachtet werden, die eine Form eines Gradientenverfahrens (gradient descent) nutzt und die tatsächlichen Gradienten mittels Backpropagation (Rückpropagierung) berechnet.
-
Ein künstliches neuronales Netz umfasst im Allgemeinen mehrere Hyperparameter, insbesondere mehr Hyperparameter als eine SVM. Diese Hyperparameter eines künstlichen neuronalen Netzes können sich auf die Struktur des Netzes selbst beziehen, z. B. die Anzahl der Zwischenschichten, die Anzahl der Knoten, Bias der Knoten oder Schichten sowie auf Parameter der Aktivierungsfunktion der Knoten und einen regulierenden Parameter, der die Entscheidungsgrenze im Falle einer Überanpassung bestraft.
-
Beispiel 1
-
In diesem Beispiel ist der überwachte Elementklassifikator eine Support Vector Machine (SVM) mit einer „Soft-Margin“ und einem RBF-Kernel. Dabei beziehen sich die Hyperparameter auf die „Soft-Margin“ und den RBF-Kernel und werden während des Trainings durch Partikelschwarmoptimierung verbessert. Die für das Training und die Validierung der SVM verwendeten Isotopenmuster werden experimentell gemessen.
-
Die Versuchsdaten stammen aus Messungen in einem OTOF-Massenspektrometer mit einer Elektrosprühquelle, die mit einem Flüssigkeitschromatographen (LC) gekoppelt ist. Die Verbindungen mit bekannter Elementzusammensetzung gehören verschiedenen Klassen von Verbindungen an: Kaffeemetabolomik, synthetische Moleküle, Pestizide und toxische Substanzen.
-
Die Elementbestimmung wird nur auf Verbindungen mit einer Molekülmasse unter 600 Da angewendet. Der Trainingsdatensatz ist bezüglich der Anzahl an Verbindungen, die ein Element (positiv) und kein Element (negativ) enthalten, ausgeglichen. Die relevanten chemischen Elemente sind: Br, Cl, S, I, F, P, K und Na. Die Elemente C, H, N und O sind fast immer vorhanden und daher nicht Bestandteil der Klassifizierung. Die Auswahl der zu untersuchenden Elemente richtet sich nach ihrem Vorkommen in den Versuchsdaten und nach ihrem Vorkommen in einer großen Anzahl von Biomolekülen. Die
zeigt die Anzahl der Verbindungen (positiv und negativ) für die relevanten chemischen Elemente, die für das Training und die Validierung des SVM verwendet werden sollen. Der Datensatz wird in Training (80 %) und Validierung (20 %) aufgeteilt. Die Anzahl der für die Validierung verwendeten Verbindungen beträgt:
Na | K | P | S | F | Cl | Br | I |
1204 | 384 | 68 | 1110 | 338 | 900 | 284 | 48 |
-
Die Isotopenmuster werden auf drei verschiedene Arten dargestellt, indem eine p-Normalisierung mit p=1 (als „Abschluss“ bezeichnet), eine Centered-Log-Ratio-Transformation (CLR-Transformation) oder eine Isometric-Log-Ratio-Transformation (ILR-Transformation) verwendet werden. Für den Abschluss und die CLR-Darstellung sind die Merkmalsvektoren wie folgt angeordnet: [m0, Into, mi - m0, Inti, mDef] mit i=1...9, wobei m0 und mi die Massenwerte der Isotopenpeaks, mDef der Massendefekt sowie Into und Inti die normierten oder transformierten Intensitätswerte sind, die aus den gemessenen Intensitätswerten si berechnet werden. Für die ILR-Darstellung umfasst der Merkmalsvektor keine Int9-Komponente. Die Länge der Merkmalsvektoren beträgt 21 (Abschluss und CLR) und 20 (ILR). Die Hyperparameter des SVM werden für jede Darstellung separat optimiert.
-
bis zeigen Ergebnisse für die Smart-Margin-SVM mit RBF-Kernel, die mit den experimentellen Daten trainiert und durch einen Partikelschwarm optimiert wurde. Zu den Ergebnissen gehören die Richtigkeit der korrekten Klassifizierung, die Sensitivität, die Spezifität und die vollständige Konfusionsmatrix. In werden die gemessenen Intensitätswerte der Isotopenmuster durch p-Norm mit p=1 (Abschluss) normiert. In werden die gemessenen Intensitätswerte der Isotopenmuster durch eine Centered-Log-Ratio-Transformation (CLR-Transformation) umgewandelt. In werden die gemessenen Intensitätswerte der Isotopenmuster durch eine Isometric-Log-Ratio-Transformation (ILR-Transformation) umgewandelt.
-
Beispiel 2
-
Hier ist der überwachte Elementklassifikator ein dichtes, vorwärtsgerichtetes, künstliches neuronales Netz (ANN) mit Bias, wie in
dargestellt. In einem dichten Netz ist jede Schicht vollständig mit der folgenden Schicht verbunden. Die Aktivierungsfunktion des ANN ist eine gleichgerichtete Lineareinheit:
-
Die Vorhersagen für den Validierungsdatensatz erfolgen durch einen vorwärtsgerichteten Durchlauf des ANN.
-
Die für das Training und die Validierung der ANN verwendeten Isotopenmuster werden experimentell gemessen. Die experimentellen Daten und die Darstellung des Isotopenmusters sind die gleichen wie in Beispiel 1.
-
Während des Trainings werden die Merkmalsvektoren in Batches an das ANN übergeben. Ein Batch ist eine Teilmenge aller Merkmalsvektoren, die für das Training des ANN verwendet werden. Sobald ein Batch das ANN durchlaufen hat, findet eine Backpropagation statt. Dabei wird der Fehler der aktuellen Vorhersage durch das ANN zurück propagiert, um so die Gewichtungen zu aktualisieren, indem deren Werte in kleinen Schritten auf den besten Gradienten angepasst werden. Die Gewichtungen werden für einen bestimmten Satz von Hyperparametern angepasst.
-
Die Hyperparameter des ANN sind ein regulierender Parameter, die Anzahl der Zwischenschichten (hidden layers) und die Anzahl der künstlichen Neuronen in den Zwischenschichten. Zur Optimierung der Hyperparameter des ANN wird schließlich ein evolutionärer Algorithmus verwendet.
-
bis zeigen die Ergebnisse für das ANN. Zu den Ergebnissen gehören die Richtigkeit der korrekten Klassifizierung, die Sensitivität, die Spezifität und die vollständige Konfusionsmatrix. In werden die gemessenen Intensitätswerte der Isotopenmuster durch p-Norm mit p=1 (Abschluss) normiert. In werden die gemessenen Intensitätswerte der Isotopenmuster durch eine Centered-Log-Ratio-Transformation (CLR-Transformation) umgewandelt. In werden die gemessenen Intensitätswerte der Isotopenmuster durch eine Isometric-Log-Ratio-Transformation (ILR-Transformation) umgewandelt.
-
Die Ergebnisse beider Beispiele zeigen, dass die verwendeten maschinellen Lernalgorithmen gute Vorhersagen für die Elementvorhersage aus massenspektrometrischen Signalen erzielen. Die SVM funktioniert besser als das ANN. In der Regel ist die Vorhersage für polyisotopische chemische Elemente genauer als die Vorhersage für chemische Elemente mit einzelnen Isotopen.
-
Bezüglich des Anwendungsfalls zur Verringerung der Anzahl chemischer Elemente während der Annotation einer chemischen Formel zu einem gemessenen Analyt besteht die Möglichkeit, im Falle einer solchen Vorhersage Elemente aus der Betrachtung zu entfernen. Dabei ist jedoch zu vermeiden, dass ein Element, das während der Annotation im zugrunde liegenden Analyt vorhanden ist, von der Betrachtung ausgeklammert wird. Andernfalls kann keine korrekte Übereinstimmung gefunden werden. In diesem Anwendungsfall ist der negative Vorhersagewert (Negative Predictive Value, NPV) eines Klassifikators entscheidend. Er bezieht sich auf den Prozentsatz der korrekten negativen Vorhersagen bei einem negativen Zustand.
-
Der SVM-Klassifikator weist einen NPV von 89 - 100 % für die polyisotopischen chemischen Elemente auf. Im Vergleich dazu ist der NPV für die ANNs im Allgemeinen schlechter.
-
Für den umgekehrten Anwendungsfall, bei dem Elemente während der Annotation der chemischen Formel zu einem gemessenen Analyt vorgeschlagen werden, ist der positive Vorhersagewert (Positive Predictive Value, PPV) von Bedeutung. Der PPV bezieht sich auf den Prozentsatz der korrekten positiven Vorhersagen bei einem positiven Zustand. Wird jedoch ein chemisches Element vorgeschlagen, das nicht zum zugrunde liegenden Analyt gehört, führt dies zusätzlich zu falsch-positiven chemischen Formeln und erhöht die Komplexität insgesamt. Daher muss ein Klassifizierer für diesen Anwendungsfall einen hohen positiven Vorhersagewert aufweisen.
-
Der SVM-Klassifikator weist einen PPV von ≥ 89 % für die polyisotopischen chemischen Elemente auf. Im Vergleich dazu ist der PPV für die neuronalen Netze im Allgemeinen schlechter.
-
Die Erfindung wurde mit Bezug auf eine Reihe unterschiedlicher Ausführungsformen der Erfindung oben gezeigt und beschrieben. Fachleute auf dem Gebiet werden jedoch verstehen, dass verschiedene Aspekte oder Einzelheiten der Erfindung geändert werden können oder verschiedene Aspekte oder Einzelheiten der verschiedenen Ausführungsformen beliebig kombiniert werden können, falls es praktikabel ist, ohne vom Schutzbereich der Erfindung abzuweichen. Ganz allgemein dient die vorstehende Beschreibung nur zur Veranschaulichung und nicht zur Einschränkung der Erfindung, die ausschließlich durch die beigefügten Ansprüche definiert wird, einschließlich ggfs. möglicher äquivalenter Implementierungen.