DE102020101408A1 - Verfahren für die massenspektrometrische bestimmung der anwesenheit oder des fehlens eines chemischen elements in einem analyten - Google Patents

Verfahren für die massenspektrometrische bestimmung der anwesenheit oder des fehlens eines chemischen elements in einem analyten Download PDF

Info

Publication number
DE102020101408A1
DE102020101408A1 DE102020101408.2A DE102020101408A DE102020101408A1 DE 102020101408 A1 DE102020101408 A1 DE 102020101408A1 DE 102020101408 A DE102020101408 A DE 102020101408A DE 102020101408 A1 DE102020101408 A1 DE 102020101408A1
Authority
DE
Germany
Prior art keywords
isotope
mass
peak
clr
procedure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102020101408.2A
Other languages
English (en)
Inventor
Wiebke Andrea Timm
Nikolas Kessler
Sebastian Wehner
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bruker Daltonics GmbH and Co KG
Original Assignee
Bruker Daltonik GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bruker Daltonik GmbH filed Critical Bruker Daltonik GmbH
Publication of DE102020101408A1 publication Critical patent/DE102020101408A1/de
Granted legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0095Particular arrangements for generating, introducing or analyzing both positive and negative analyte ions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • H01J49/0036Step by step routines describing the handling of the data generated during a measurement
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/26Mass spectrometers or separator tubes
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers
    • G01N30/7233Mass spectrometers interfaced to liquid or supercritical fluid chromatograph
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/02Details
    • H01J49/04Arrangements for introducing or extracting samples to be analysed, e.g. vacuum locks; Arrangements for external adjustment of electron- or ion-optical components
    • H01J49/0431Arrangements for introducing or extracting samples to be analysed, e.g. vacuum locks; Arrangements for external adjustment of electron- or ion-optical components for liquid samples

Landscapes

  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Optics & Photonics (AREA)
  • Plasma & Fusion (AREA)

Abstract

Die vorliegende Erfindung bezieht sich auf ein massenspektrometrisches Verfahren zur Bestimmung (Vorhersage) der Anwesenheit oder des Fehlens eines chemischen Elements in einem Analyt, das wertvolle Informationen zur Reduktion der Komplexität bei der Annotation einer chemischen Formel an den Analyten liefert. Das Verfahren basiert auf der Darstellung eines gemessenen Isotopenmusters eines Analyten als Merkmalsvektor und der Zuordnung des Merkmalsvektors zu einer ersten Klasse (vorhandenes chemisches Element) oder zu einer zweiten Klasse (fehlendes chemisches Element) unter Verwendung eines maschinellen Lernalgorithmus, wie beispielsweise einer Support Vektor Machine (SVM) oder eines künstlichen neuronalen Netzes (ANN).

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf Verfahren für die massenspektrometrische Bestimmung der Anwesenheit oder des Fehlens von chemischen Elementen in Verbindungen dar.
  • Hintergrund der Erfindung
  • Die Massenspektrometrie (MS) ist eine weit verbreitete Analysemethode zur qualitativen und quantitativen Identifizierung von Verbindungen in verschiedensten Proben, z.B. in der Metabolomik, Proteomik, Pestizidanalyse, Identifizierung natürlicher Verbindungen und Pharmazeutika. Die Massenspektrometrie kann mit Trennverfahren in Flüssigkeiten oder der Gasphase gekoppelt sein, wie z.B. der Flüssigkeitschromatographie (LC) oder der Gaschromatographie (GC). Diese Kopplungsverfahren, LC/MS und GC/MS, sind äußerst nützlich für den Nachweis, die Identifizierung und Quantifizierung von Verbindungen in komplexen Gemischen. Bei anderen Kopplungsverfahren wird die MS oder die LC/MS mit der Ionenmobilitätsspektroskopie (IMS) kombiniert.
  • Die Massenspektrometrie umfasst die Überführung von Verbindungen einer Probe in die Gasphase, die Ionisierung der Verbindungen in einer Ionenquelle, die Trennung der Molekülionen von Verbindungen nach dem Masse-zu-Ladungsverhältnis in einem Massenanalysator und den Nachweis der getrennten Molekülionen. Das Masse-zu-Ladungsverhältnis wird üblicherweise durch das Symbol „m/z“ angegeben, wobei „m“ die Ionenmasse und „z“ die Anzahl der Elementarladungen des Molekülions ist. Optional können die Molekülionen zu Fragmentionen fragmentiert werden, die dann entsprechend dem Masse-zu-Ladungsverhältnis getrennt und gemessen werden.
  • Es gibt viele verschiedene Arten von Ionenquellen, wie z.B. die chemische Ionisierung, Fast Atom Bombardment (FAB), die matrixunterstützte Laserdesorption/Ionisierung (MALDI) und die Ionisierung durch Elektrosprühen (ESI), und von Massenanalysatoren, wie z.B. Quadrupol-Massenfilter, Flugzeitmassenanalysatoren, Flugzeitmassenanalysatoren mit orthogonalem Ioneneinschuss, HF-Ionenfallen, Gleichspannungsionenfallen (wie eine Orbitrap- oder Cassini-Falle) und Ionenzyklotronresonanz-Ionenfallen.
  • Ein gemessenes Massenspektrum enthält Peaks (Signale) von Molekülionen und zeigt das Masse-zu-Ladungsverhältnis jedes Peaks auf der Abszisse mit der entsprechenden relativen Peakintensität auf der Ordinate an. Dabei ist jeder Peak durch einen m/z-Wert und einen Intensitätswert (Signalhöhe) gekennzeichnet.
  • Das Massenspektrum der Molekülionen einer einzelnen Verbindung zeigt aufgrund der Isotope der chemischen Elemente eine Reihe von Peaks mit unterschiedlichen m/z-Werten. Diese Menge von (Isotopen-)Peaks wird als „Isotopenmuster“ bezeichnet. Verbindungen mit der gleichen chemischen Formel weisen das gleiche Isotopenmuster auf. Die gemessene Intensität eines Isotopenpeaks korreliert mit der Häufigkeit eines bestimmten Molekülions innerhalb des Isotopenmusters der Verbindung. Die relativen Intensitäten der Isotopenpeaks hängen mit der relativen Häufigkeit der Isotope zusammen.
  • Das gemessene Isotopenmuster einer Verbindung kann verwendet werden, um eine chemische Formel für die Verbindung zu annotieren und häufig auch, um die Verbindung zu identifizieren. Während dies bei sehr kleinen Molekülen problemlos möglich ist, wird es bei größeren Molekülen schnell zu einer Herausforderung.
  • Ein Massenspektrum, das für ein komplexes Gemisch von Verbindungen aufgenommen wurde, weist mehrere Isotopenmuster auf. Das Abgleichen eines gemessenen Isotopenmusters hinsichtlich m/z- und Intensitätswerten mit einem theoretisch abgeleiteten Isotopenmuster zum Annotieren einer chemischen Formel an die entsprechende Verbindung ist keine einfache Aufgabe. Zunächst wird eine Menge von Isotopenmustern für einen späteren Vergleich mit dem gemessenen Isotopenmuster berechnet. Konkret geschieht dies durch Falten der Isotopenmuster von vorselektierten chemischen Elementen für alle möglichen Elementkombinationen (chemische Formeln) dieser chemischen Elemente, die mit dem m/z-Wert des Monoisotopenpeaks innerhalb einer vorgegebenen Massentoleranz übereinstimmen. Für jede der möglichen chemischen Formeln wird anschließend ein Isotopenmuster berechnet und mit dem gemessenen Isotopenmuster verglichen. Für diese Berechnung gibt es verschiedene Methoden, wie z. B. die χ2-Statistik von Pearson.
  • Aufgrund der zahlreichen Kombinationsmöglichkeiten der enthaltenen chemischen Elemente ist jedoch auch die Anzahl an möglichen chemischen Formeln sehr groß. Diese Anzahl der möglichen chemischen Formeln um einen bestimmten m/z-Wert und innerhalb einer vorgegebenen Massentoleranz kann für verschiedene Mengen von chemischen Elementen berechnet werden. Die zeigt die Anzahl der möglichen chemischen Formeln innerhalb einer Massentoleranz von 5 mDa im m/z-Bereich zwischen 100 und 600 Da für drei relevante Mengen von chemischen Elementen ({C, H, N, O}, {C, H, N, O, P, S, Na, K, Cl}, {C, H, N, O, P, S, Na, K, Cl, Br, F, I}). Dabei steigt die Anzahl der möglichen chemischen Formeln exponentiell an. Je mehr chemische Elemente für die Generierung der chemischen Formeln einbezogen werden, desto mehr chemische Formeln sind innerhalb der Massentoleranz möglich.
  • Da nicht alle theoretisch abgeleiteten chemischen Formeln auch chemisch zulässig sind, kann eine Verringerung der Anzahl möglicher chemischer Formeln durch Anwendung heuristischer Regeln erreicht werden. Dennoch kann die Anzahl der verbleibenden Kandidaten immer noch sehr groß sein, da die Anzahl möglicher chemischer Formeln mit m/z-Wert exponentiell zunimmt.
  • Aktuelle Softwaretools beruhen in der Regel auf einem Mustervergleich, wie zuvor beschrieben. In diesem Zusammenhang wurden Anpassungen an diesem Ansatz vorgenommen und es wurden neue Ansätze zur Berechnung von Isotopenmustern vorgeschlagen, z. B. die Verwendung von Markov-Ketten, die den Berechnungsaufwand durch bestimmte Abstriche verringern. Eine Lösung für das Problem des exponentiellen Anstiegs der Anzahl möglicher chemischer Formeln bieten sie jedoch nicht. Kern des kombinatorischen Problems ist die Menge der chemischen Elemente, die zur Berechnung der möglichen chemischen Formeln verwendet wird. Eine vorherige Festlegung bzw. der Ausschluss bestimmter Elemente verringert die Anzahl der möglichen chemischen Formeln, die berechnet und abgeglichen werden müssen. Daher ist es unerlässlich, chemische Elemente zu bestimmen (vorherzusagen), die in einer Verbindung vorhanden sind, um so die Komplexität während der Annotation einer chemischen Formel an die Verbindung zu reduzieren.
  • Kurze Beschreibung der Erfindung
  • Die vorliegende Erfindung stellt ein Verfahren für die massenspektrometrische Bestimmung der Anwesenheit oder des Fehlens eines chemischen Elements in einem Analyt bereit und umfasst folgende Schritte:
    1. (a) Erzeugen von Molekülionen des Analyten;
    2. (b) Messen eines Isotopenmusters der Molekülionen durch Massenspektrometrie, wobei das Isotopenmuster mehrere Isotopenpeaks aufweist und jeder Isotopenpeak durch einen Massenwert und einen Intensitätswert gekennzeichnet ist;
    3. (c) Darstellung des Isotopenmusters als Merkmalsvektor v ;
      Figure DE102020101408A1_0001
    4. (d) Anwenden des Merkmalsvektors v
      Figure DE102020101408A1_0002
      auf einen überwachten Elementklassifikator, der den Merkmalsvektor v
      Figure DE102020101408A1_0003
      einer ersten Klasse (vorhandenes chemisches Element) oder einer zweiten Klasse (fehlendes chemisches Element) zuordnet, wobei der überwachte Elementklassifikator auf einer Menge von Merkmalsvektoren v t
      Figure DE102020101408A1_0004
      trainiert ist, die Isotopenmuster von Verbindungen mit bekannter Elementzusammensetzung repräsentieren, und wobei das chemische Element in einer echten Teilmenge der Verbindungen vorhanden ist.
  • Die Menge von Verbindungen mit bekannter Elementzusammensetzung umfasst eine echte Untermenge mit Verbindungen, in denen das chemische Element vorhanden ist, und eine echte Untermenge mit bekannten Verbindungen, in denen das chemische Element fehlt. Folglich sind beide Untermengen nicht leer. Bevorzugt werden die Verbindungen auf beide Untermengen in einem Verhältnis von mindestens 20/80 aufgeteilt. Besonders bevorzugt ist ein Verhältnis von etwa 50/50. Die Molekularmasse dieser Verbindungen ist bevorzugt kleiner als 1000 Da, in besonders bevorzugter Weise kleiner als 600 Da, insbesondere zwischen 100 und 600 Da. Die massenspektrometrischen Messungen des Isotopenmusters des Analyten können beispielsweise mit einer Massenauflösung R ≤ 100.000, insbesondere mit R ≤ 50.000 und speziell mit R ≤ 25.000 durchgeführt werden.
  • Die für das Training des überwachten Elementklassifikators verwendeten Isotopenmuster können theoretisch abgeleitet und/oder experimentell gemessen werden. Falls die Isotopenmuster der Verbindungen, die für das Training des überwachten Elementklassifikators verwendet werden, experimentell gemessen werden, wird das Isotopenmuster dieser Verbindungen und des Analyten bevorzugt mit demselben massenspektrometrischen System gemessen. Es ist jedoch möglich, Isotopenmuster bekannter Verbindungen, die in Datenbanken, z. B. in der KEGG-Datenbank (Kyoto Encyclopedia of Genes and Genomes) gesammelt werden, zur Auswahl von Verbindungen zu verwenden, die das zu bestimmende chemische Element enthalten. Die theoretisch abgeleiteten Isotopenmuster können ausgewählt werden, indem bekannte Regeln für chemische Strukturformeln, wie die „Lewis-Regel“ und die „Stickstoff-Regel“, auf die entsprechenden chemischen Formeln angewendet werden.
  • Das zu bestimmende chemische Element ist bevorzugt eines der Folgenden: Br, Cl, S, I, F, P, K, Na und Pt. Die Zuordnung in Schritt (d) kann für mehrere chemische Elemente durchgeführt werden, indem mithilfe verschiedener überwachter Elementklassifikatoren mehrere Elemente gleichzeitig bestimmt werden. Der Elementklassifikator führt bevorzugt von sich aus eine Mehrfachklassifizierung für eine Menge von zwei oder mehr chemischen Elementen durch. Zudem können die zugeordneten Klassen die Anwesenheit oder das Fehlen einer Menge von zwei oder mehr chemischen Elementen entsprechen, wobei der überwachte Elementklassifikator auf einen Satz von Merkmalsvektoren v t
    Figure DE102020101408A1_0005
    trainiert ist, die Isotopenmuster von Verbindungen mit bekannter Elementzusammensetzung repräsentieren, und wobei die zwei oder mehr chemischen Elemente in einer echten Teilmenge der Verbindungen vorhanden sind.
  • In einer ersten Ausführungsform umfasst jeder der Merkmalsvektoren v  und  v t ,
    Figure DE102020101408A1_0006
    die ein entsprechendes Isotopenmuster repräsentieren, Massenwerte und normierte Intensitätswerte der Isotopenpeaks. Die Merkmalsvektoren v  und  v t
    Figure DE102020101408A1_0007
    umfassen bevorzugt einen Massenwert des Monoisotopenpeaks, Massendifferenzen zwischen dem Monoisotopenpeak und anderen Isotopenpeaks und normierte Intensitätswerte der Isotopenpeaks. In besonders bevorzugter Weise umfasst jeder der Merkmalsvektoren v  und  v t
    Figure DE102020101408A1_0008
    weiterhin eine Massendifferenz zwischen dem Monoisotopenpeak und der Nominalmasse.
  • Jeder der Merkmalsvektoren v  und  v t
    Figure DE102020101408A1_0009
    kann zum Beispiel wie folgt angeordnet sein: [m0, s 0 d(m0, mi), s i d(m0, M0)] mit i=1...N, wobei m0 der Massenwert des Monoisotopenpeaks, s 0 der normierte Intensitätswert des Monoisotopenpeaks, d(m0, mi) die Massendifferenz zwischen dem Monoisotopenpeak und dem i-ten Isotopenpeak, s i der normierte Intensitätswert des i-ten Isotopenpeaks und d(m0, M0) die Differenz zwischen dem Massenwert des Monoisotopenpeaks und der Nominalmasse M0 ist. Die Differenz ist bevorzugt das Ergebnis einer numerischen Subtraktion, kann jedoch auch ein allgemeineres Abstandsmaß sein. N ist bevorzugt größer als 1, in besonders bevorzugter Weise größer als 4 und insbesondere gleich 9. Bei N=2 sieht der Merkmalsvektor wie folgt aus: [ m 0 , s ¯ 0 , d ( m 0 , m 1 ) , s ¯ 1 , d ( m 0 , m 2 ) , s ¯ 2 , d ( m 0 , M 0 ) ] .
    Figure DE102020101408A1_0010
  • Die normierten Intensitätswerte s i eines Merkmalsvektors werden aus den gemessenen Intensitätswerten si der entsprechenden Isotopenpeaks mithilfe der p-Norm berechnet: s i=si/∥s∥ with s ¯ i = s i / s  with  s = ( | s i | p ) 1 p
    Figure DE102020101408A1_0011
    mit 1 ≤ p, insbesondere p=1.
  • In einer zweiten Ausführungsform umfasst jeder der Merkmalsvektoren v  und  v t ,
    Figure DE102020101408A1_0012
    die ein entsprechendes Isotopenmuster präsentieren, Massenwerte und transformierte Intensitätswerte der Isotopenpeaks. Die Intensitätswerte der Isotopenpeaks des entsprechenden Isotopenmusters werden bevorzugt durch eine Centered-Log-Ratio-Transformation (CLR-Transformation) oder durch eine Isometric-Log-Ratio-Transformation (ILR-Transformation) umgewandelt.
  • Bei der CLR-Transformation kann jeder der Merkmalsvektoren v  und  v t
    Figure DE102020101408A1_0013
    zum Beispiel wie folgt angeordnet sein:
    • [m0, clr0, d(m0, mi), clri, d(m0, M0)] mit i=1...N,
      • - wobei m0 der Massenwert des Monoisotopenpeaks, clr0 der mit CLR transformierte Intensitätswert des Monoisotopenpeaks, d(m0, mi) die Massendifferenz zwischen dem Monoisotopenpeak und dem i-ten Isotopenpeak, clri der mit CLR transformierte Intensitätswert des i-ten Isotopenpeaks und d(m0, M0) die Differenz zwischen dem Massenwert des Monoisotopenpeaks und der Nominalmasse ist und
      • - wobei die CLR-Transformation wie folgt definiert ist:
        • clri = log(si/(s0 · s1 · ··· sN)1/(N+1)) mit den Intensitätswerten der Isotopenpeaks si=0...N.
  • N ist bevorzugt größer als 1, in besonders bevorzugter Weise größer als 4 und insbesondere gleich 9. Bei N=2 sieht der Merkmalsvektor wie folgt aus:
    • [m0, clr0, d(m0, m1), clr1, d(m0, m2), clr2, d(m0, M0)].
  • Bei der ILR-Transformation kann jeder der Merkmalsvektoren v  und  v t
    Figure DE102020101408A1_0014
    zum Beispiel wie folgt angeordnet sein: [ m 0 , ilr 0 , d ( m 0 , m i ) , ilr i , d ( m 0 , m N ) , d ( m 0 , M 0 ) ]
    Figure DE102020101408A1_0015
    mit i=1...N-1,
    • - wobei m0 der Massenwert des Monoisotopenpeaks ist, ilri die mit ILR transformierten Intensitätswerte des Isotopenpeaks sind, d(m0, mi) die Massendifferenz zwischen dem Monoisotopenpeak und dem i-ten Isotopenpeak ist und d(m0, M0) die Differenz zwischen dem Massenwert des Monoisotopenpeaks und der Nominalmasse ist und
    • - wobei die ILR-Transformation wie folgt definiert ist:
      • 1lr = clr B mit  1lr = ( ilr i = 0... N 1 ) , clr = ( clr i = 0... N ) ,
        Figure DE102020101408A1_0016
        Ausgleichsmatrix B der verringerten Dimension dim(B) = (N + 1) × N und B · BT = IN
  • N ist bevorzugt größer als 1, in besonders bevorzugter Weise größer als 4 und insbesondere gleich 9. Bei N=2 sieht der Merkmalsvektor wie folgt aus: [ m 0 , ilr 0 , d ( m 0 , m 1 ) , ilr 1 , d ( m 0 , m 2 ) , d ( m 0 , M 0 ) ] .
    Figure DE102020101408A1_0017
  • Der überwachte Elementklassifikator kann beispielsweise eine Support Vector Machine (SVM), ein künstliches neuronales Netz (ANN), wie ein Convolutional Neural Network (CNN) oder ein Long-Short-Term-Memory Network (LSTMN), oder ein Random Forest-Klassifikator (RF, Random Decision Forest) sein. Die inhärenten Parameter des überwachten Elementklassifikators (Hyperparameter) werden bevorzugt während des Trainings des überwachten Elementklassifikators optimiert, z. B. durch die Verwendung einer Schwarmoptimierung, eines evolutionärem Algorithmus, eines genetischem Algorithmus, einer Multi-Start-Optimierung, Simulated Annealing oder einer Mustersuche. Die Hyperparameter hängen im Allgemeinen davon ab, wie das Isotopenmuster als Merkmalsvektor dargestellt wird, also zum Beispiel von den ausgewählten Merkmalen, der Länge des Merkmalsvektors, der Normalisierung/Transformation der Intensitätswerte, der Darstellung der m/z-Werte und der Anordnung der Merkmale innerhalb des Merkmalsvektors.
  • Die Darstellung des Isotopenmusters als Merkmalsvektor wird bevorzugt während des Trainings des überwachten Elementklassifikators optimiert. So kann die Darstellung beispielsweise hinsichtlich der Dimension des Merkmalsvektors, der Normalisierung oder Transformation der Intensitätsmesswerte und der Anordnung der Komponenten des Merkmalsvektors optimiert werden. Zudem kann eine weitere Optimierung über eine Merkmalsauswahl oder die Bewertung der Merkmalsrelevanz während des Trainings des überwachten Elementklassifikators vorgenommen werden, z. B. durch den LASSO-Algorithmus (Least Absolute Shrinkage and Selection Operator) oder den RF-Algorithmus (Random Forest).
  • Das Isotopenmuster des Analyten wird bevorzugt mit einem Massenanalysator gemessen, der mit einem vorgeschalteten Ionenmobilitätsanalysator und/oder mit einem Gas- oder Flüssigkeitschromatographen gekoppelt ist. Bevorzugt handelt es sich bei dem Massenanalysator um einen Flugzeitmassenanalysator mit orthogonalem Ioneneinschuss (OTOF). Besonders bevorzugt wird ein OTOF, der mit einem Ionenmobilitätsmassenanalysator, insbesondere mit einem TIMS-Analysator (Speicherionen-Mobilitätsspektrometrie) gekoppelt ist.
  • Gemäß einem weiteren Aspekt wird das Ergebnis zum Nachweis der Anwesenheit oder des Fehlens eines chemischen Elements gemäß vorliegender Erfindung verwendet, um die Anzahl der chemischen Elemente zu verringern oder zu erhöhen, die bei der Annotation einer chemischen Formel an den Analyt einbezogen werden, insbesondere bei der Berechnung der Reihe von Isotopenmustern für den späteren Vergleich mit dem gemessenen Isotopenmuster. Das Isotopenmuster der Analytionen wird bevorzugt während einer LC- oder GC-Phasentrennung, in besonders bevorzugter Weise während einer gekoppelten LC-IMS- bzw. GC-IMS-Phasentrennung gemessen.
  • Beschreibung der Abbildungen
  • Die zeigt die Anzahl der chemischen Formeln innerhalb einer Massentoleranz von 5 mDa im m/z-Bereich zwischen 100 und 600 Da für drei Mengen von chemischen Elementen ({C, H, N, O}, {C, H, N, O, P, S, Na, K, Cl}, {C, H, N, O, P, S, Na, K, Cl, Br, F, I}).
  • Die zeigt ein Flussdiagramm eines erfindungsgemäßen Verfahrens.
  • Die zeigt die Anzahl der experimentell gemessenen Verbindungen (positiv und negativ) für die relevanten chemischen Elemente in gleichen Mengen, die für das Training und die Validierung verwendet werden. 80 % des Datensatzes wird dem Training und 20 % der Validierung des überwachten Elementklassifikators zugeteilt.
  • Die zeigt Ergebnisse für eine Smart-Margin-SVM mit RBF-Kernel, die mit den experimentellen Daten trainiert und durch einen Partikelschwarm optimiert wurde. Die gemessenen Intensitätswerte der Isotopenmuster werden durch p-Norm mit p=1 (Abschluss) normiert. Zu den Ergebnissen gehören die Richtigkeit der korrekten Klassifizierung, die Sensitivität, die Spezifität und die vollständige Konfusionsmatrix.
  • Die zeigt Ergebnisse für eine Smart-Margin-SVM mit RBF-Kernel, die mit den experimentellen Daten trainiert und durch einen Partikelschwarm optimiert wurde. Die gemessenen Intensitätswerte der Isotopenmuster werden durch eine Centered-Log-Ratio-Transformation (CLR-Transformation) umgewandelt. Zu den Ergebnissen gehören die Richtigkeit der korrekten Klassifizierung, die Sensitivität, die Spezifität und die vollständige Konfusionsmatrix.
  • Die zeigt Ergebnisse für eine Smart-Margin-SVM mit RBF-Kernel, die mit den experimentellen Daten trainiert und durch einen Partikelschwarm optimiert wurde. Die gemessenen Intensitätswerte der Isotopenmuster werden durch eine Isometric-Log-Ratio-Transformation (ILR-Transformation) umgewandelt. Zu den Ergebnissen gehören die Richtigkeit der korrekten Klassifizierung, die Sensitivität, die Spezifität und die vollständige Konfusionsmatrix.
  • Die zeigt eine schematische Darstellung eines dichten, vorwärtsgerichteten neuronalen Netzes mit Bias. Die Zahlen in den Neuronen stellen den Index der Neuronen und nicht deren Werte dar.
  • Die zeigt Ergebnisse für ein dichtes, vorwärtsgerichtetes künstliches neuronales Netz, das mit den experimentellen Daten trainiert und durch einen evolutionären Algorithmus optimiert wurde. Die gemessenen Intensitätswerte der Isotopenmuster werden durch p-Norm mit p=1 (Abschluss) normiert. Zu den Ergebnissen gehören die Richtigkeit der korrekten Klassifizierung, die Sensitivität, die Spezifität und die vollständige Konfusionsmatrix.
  • Die zeigt Ergebnisse für ein dichtes, vorwärtsgerichtetes künstliches neuronales Netz, das mit den experimentellen Daten trainiert und durch einen evolutionären Algorithmus optimiert wurde. Die gemessenen Intensitätswerte der Isotopenmuster werden durch eine Centered-Log-Ratio-Transformation (CLR-Transformation) umgewandelt. Zu den Ergebnissen gehören die Richtigkeit der korrekten Klassifizierung, die Sensitivität, die Spezifität und die vollständige Konfusionsmatrix.
  • Die zeigt Ergebnisse für ein dichtes, vorwärtsgerichtetes künstliches neuronales Netz, das mit den experimentellen Daten trainiert und durch einen evolutionären Algorithmus optimiert wurde. Die gemessenen Intensitätswerte der Isotopenmuster werden durch eine Isometric-Log-Ratio-Transformation (ILR-Transformation) umgewandelt. Zu den Ergebnissen gehören die Richtigkeit der korrekten Klassifizierung, die Sensitivität, die Spezifität und die vollständige Konfusionsmatrix.
  • Ausführliche Beschreibung der Erfindung
  • Während die Erfindung mit Bezug auf eine Reihe verschiedener Ausführungsformen gezeigt und beschrieben wurde, werden Fachleute auf dem Gebiet anerkennen, dass verschiedene Änderungen bezüglich der Form und Einzelheiten vorgenommen werden können, ohne den Schutzbereich der Erfindung, wie er in den beigefügten Ansprüchen definiert ist, zu verlassen.
  • Die Elementzusammensetzung ist von zentraler Bedeutung für das kombinatorische Problem, mögliche chemische Formeln für einen bestimmten m/z-Wert zu generieren. Die vorliegende Erfindung wird verwendet, um chemische Elemente, die in einem Analyt enthalten sind, aus dem gemessenen Isotopenmuster des Analyten vorherzusagen und damit die Elementzusammensetzung des Analyten zu bestimmen, die für eine nachfolgende Generierung möglicher chemischer Formeln verwendet wird. Die Festlegung bzw. der Ausschluss bestimmter chemischer Elemente verringert die Anzahl der möglichen chemischen Formeln, die berechnet und verglichen werden müssen. Nach der vorliegenden Erfindung ist das maschinelle Lernen unter Verwendung eines überwachten Klassifikators eine Möglichkeit, dieses Problem zu lösen.
  • Abgesehen von einer Vereinfachung des Annotationsverfahrens ermöglicht das Verfahren gemäß der vorliegenden Erfindung die gezielte Auswahl und Untersuchung nur bestimmter Isotopenmuster und damit interessanter Verbindungen, davon ausgehend, dass bestimmte chemische Elemente vorhanden sind.
  • Definitionen
  • Der Begriff „Massenwert“ wird hier austauschbar für das Masse-zu-Ladungsverhältnis (m/z-Wert) eines Molekülions sowie für die Molekülmasse der entsprechenden Verbindung verwendet. Das Masse-zu-Ladungsverhältnis eines Molekülions kann in die Molekülmasse der entsprechenden Verbindung umgewandelt werden, z. B. durch Ladungsentfaltung.
  • Die „Nominalmasse“ für ein chemisches Element ist die Massenzahl von dessen am häufigsten vertretenen, natürlich vorkommenden stabilen Isotop. Bei einem Molekülion oder Molekül ist die Nominalmasse die Summe der Nominalmassen der zugehörigen Atome. Zum Beispiel weist Kohlenstoff zwei stabile Isotope auf: 12C bei 98,9 % natürlichem Vorkommen und 13C bei 1,1 % natürlichem Vorkommen, so dass die Nominalmasse des Kohlenstoffs 12 beträgt.
  • Die Masse des „Monoisotopenpeaks“ ist die Summe der Massen der Atome in einem Molekül unter Verwendung der Masse des wichtigsten (am häufigsten vorkommenden) Isotops für jedes chemische Element. Die Differenz zwischen der Nominalmasse und der Monoisotopenmasse wird als Massendefekt bezeichnet.
  • Eine „Konfusionsmatrix“ ist eine Tabelle, die eine Visualisierung der Leistungsfähigkeit eines Klassifikators, typischerweise eines überwachten Klassifikators, ermöglicht. Jede Zeile der Konfusionsmatrix repräsentiert die Instanzen einer vorhergesagten Klasse, während jede Spalte die Instanzen einer tatsächlichen Klasse darstellt:
    Positiver Zustand Negativer Zustand
    Positive Vorhersage TP (Richtig Positive) FP (Falsch Positive) Positiver Vorhersage wert P P V = TP TP + FP
    Figure DE102020101408A1_0018
    Negative Vorhersage FN (Falsch Negativ) TN (Richtig Negativ) Negativer Vorhersagewert N P V = TN TN + FN
    Figure DE102020101408A1_0019
    Senstivität = TP TP + FN
    Figure DE102020101408A1_0020
    Spezifität = TN TN + FP
    Figure DE102020101408A1_0021
  • Support Vector Machine (SVM)
  • Eine Support Vector Machine (SVM) ist ein Verfahren für überwachtes maschinelles Lernen, die für die Klassifizierung verwendet werden kann. Während des Trainings erstellt eine SVM eine Hyperebene im hochdimensionalen Datenraum, die gekennzeichnete Trainingsdatenpunkte hinsichtlich ihrer Klassenbezeichnungen trennt. Die Parameter der Hyperebene sind so optimiert, dass sich der größtmögliche Abstand zu den nächstgelegenen Trainingsdatenpunkten jeder einzelnen Klasse (der sogenannte Randbereich, engl. margin) ergibt. Eine wesentliche Schlussfolgerung aus dieser geometrischen Beschreibung ist, dass die Hyperebene mit dem größtmöglichen Randbereich vollständig durch die Datenpunkte bestimmt wird, die ihr am nächsten liegen. Diese Datenpunkte werden als Support-Vektoren bezeichnet. Eine Zuordnung von Datenpunkten ohne Klassenkennzeichnung, die nach dem Training zu klassifizieren sind, erfolgt durch eine Ermittlung, auf welcher Seite der Hyperebene sich die Datenpunkte ohne Klassenkennzeichnung befinden. Nach einem gründlichen Training können Datenpunkte ohne Klassenkennzeichnung schnell und mit geringem Rechenaufwand einer Klasse zugeordnet werden.
  • Die SVM kann auf Fälle ausgedehnt werden, in denen die Daten nicht linear trennbar sind, z. B. durch die Einführung eines sogenannten weichen Randbereiches (Soft-Margin). Durch die „Soft-Margin“ werden die Trainingsdatenpunkte nicht exakt durch den Rand getrennt. Ein interner nicht trainierter Parameter (Hyperparameter) der SVM definiert einen Kompromiss (Trade-off) zwischen der Ausweitung des Randes und der Sicherstellung, dass alle Trainingsdatenpunkte auf der richtigen Seite des Randes liegen.
  • Die SVM kann durch Anwendung eines sogenannten Kernel-Tricks weiter verallgemeinert werden, bei dem die Datenpunkte des Eingangsraums in einen transformierten Merkmalsraum umgewandelt werden. Die Transformation ermöglicht die Anpassung einer Hyperebene mit maximaler Randgrenze im transformierten Merkmalsraum. Dabei kann die Transformation nichtlinear sein und der transformierte Merkmalsraum höher dimensioniert als der Eingangsraum. Obwohl der Klassifikator auf einer trennenden Hyperebene im transformierten Merkmalsraum basiert, kann er im ursprünglichen Eingangsbereich nichtlinear sein. Die nichtlineare Kernel-Funktion kann überdies zusätzliche Hyperparameter (nicht trainierte, vordefinierte Parameter) umfassen. Zu den Funktionen gängiger Kernel gehören beispielsweise Polynome (homogen oder inhomogen), die Radialbasisfunktion (RBF) und die hyperbolische Tangentenfunktion.
  • Künstliches neuronales Netz
  • Ein künstliches neuronales Netz (Artificial Neural Network, ANN) ist ein System, das von biologischen neuronalen Netzen inspiriert ist. Ein ANN basiert in der Regel auf einer Sammlung von verbundenen Knoten (künstliche Neuronen). Über jede Verbindung (Kante) zwischen künstlichen Neuronen kann - wie bei Synapsen in einem biologischen neuronalen Netzwerk - ein Signal von einem künstlichen Neuron zum anderen übertragen werden. Ein künstliches Neuron, das ein Signal empfängt, kann es verarbeiten und dann an andere damit verbundene künstliche Neuronen weitergeben. Die Ausgabe jedes künstlichen Neurons wird durch eine nichtlineare Funktion (Aktivierungsfunktion) aus der Summe seiner Eingänge berechnet. Künstliche Neuronen können einen Schwellenwert haben, sodass das Signal nur gesendet wird, wenn die Summe der Eingänge über diesem Schwellenwert liegt.
  • Normalerweise werden künstliche Neuronen in Schichten zusammengefasst. Verschiedene Schichten können verschiedene Arten von Transformationen an den Eingangsdaten durchführen. Signale werden von der ersten Schicht (der Eingabeschicht) zur letzten Schicht (der Ausgabeschicht) übertragen, gegebenenfalls nachdem sie mehrere Zwischenschichten (hidden layers) durchlaufen haben.
  • Den Verbindungen zwischen künstlichen Neuronen sind typischerweise Gewichtungen zugewiesen, die während des Trainings angepasst werden. Mit der Gewichtung erhöht oder verringert sich die Stärke des Signals an einer Verbindung. Für das Training von neuronalen Netzen stehen zahlreiche Algorithmen zur Verfügung. Viele von ihnen können als eine Optimierung betrachtet werden, die eine Form eines Gradientenverfahrens (gradient descent) nutzt und die tatsächlichen Gradienten mittels Backpropagation (Rückpropagierung) berechnet.
  • Ein künstliches neuronales Netz umfasst im Allgemeinen mehrere Hyperparameter, insbesondere mehr Hyperparameter als eine SVM. Diese Hyperparameter eines künstlichen neuronalen Netzes können sich auf die Struktur des Netzes selbst beziehen, z. B. die Anzahl der Zwischenschichten, die Anzahl der Knoten, Bias der Knoten oder Schichten sowie auf Parameter der Aktivierungsfunktion der Knoten und einen regulierenden Parameter, der die Entscheidungsgrenze im Falle einer Überanpassung bestraft.
  • Beispiel 1
  • In diesem Beispiel ist der überwachte Elementklassifikator eine Support Vector Machine (SVM) mit einer „Soft-Margin“ und einem RBF-Kernel. Dabei beziehen sich die Hyperparameter auf die „Soft-Margin“ und den RBF-Kernel und werden während des Trainings durch Partikelschwarmoptimierung verbessert. Die für das Training und die Validierung der SVM verwendeten Isotopenmuster werden experimentell gemessen.
  • Die Versuchsdaten stammen aus Messungen in einem OTOF-Massenspektrometer mit einer Elektrosprühquelle, die mit einem Flüssigkeitschromatographen (LC) gekoppelt ist. Die Verbindungen mit bekannter Elementzusammensetzung gehören verschiedenen Klassen von Verbindungen an: Kaffeemetabolomik, synthetische Moleküle, Pestizide und toxische Substanzen.
  • Die Elementbestimmung wird nur auf Verbindungen mit einer Molekülmasse unter 600 Da angewendet. Der Trainingsdatensatz ist bezüglich der Anzahl an Verbindungen, die ein Element (positiv) und kein Element (negativ) enthalten, ausgeglichen. Die relevanten chemischen Elemente sind: Br, Cl, S, I, F, P, K und Na. Die Elemente C, H, N und O sind fast immer vorhanden und daher nicht Bestandteil der Klassifizierung. Die Auswahl der zu untersuchenden Elemente richtet sich nach ihrem Vorkommen in den Versuchsdaten und nach ihrem Vorkommen in einer großen Anzahl von Biomolekülen. Die zeigt die Anzahl der Verbindungen (positiv und negativ) für die relevanten chemischen Elemente, die für das Training und die Validierung des SVM verwendet werden sollen. Der Datensatz wird in Training (80 %) und Validierung (20 %) aufgeteilt. Die Anzahl der für die Validierung verwendeten Verbindungen beträgt:
    Na K P S F Cl Br I
    1204 384 68 1110 338 900 284 48
  • Die Isotopenmuster werden auf drei verschiedene Arten dargestellt, indem eine p-Normalisierung mit p=1 (als „Abschluss“ bezeichnet), eine Centered-Log-Ratio-Transformation (CLR-Transformation) oder eine Isometric-Log-Ratio-Transformation (ILR-Transformation) verwendet werden. Für den Abschluss und die CLR-Darstellung sind die Merkmalsvektoren wie folgt angeordnet: [m0, Into, mi - m0, Inti, mDef] mit i=1...9, wobei m0 und mi die Massenwerte der Isotopenpeaks, mDef der Massendefekt sowie Into und Inti die normierten oder transformierten Intensitätswerte sind, die aus den gemessenen Intensitätswerten si berechnet werden. Für die ILR-Darstellung umfasst der Merkmalsvektor keine Int9-Komponente. Die Länge der Merkmalsvektoren beträgt 21 (Abschluss und CLR) und 20 (ILR). Die Hyperparameter des SVM werden für jede Darstellung separat optimiert.
  • bis zeigen Ergebnisse für die Smart-Margin-SVM mit RBF-Kernel, die mit den experimentellen Daten trainiert und durch einen Partikelschwarm optimiert wurde. Zu den Ergebnissen gehören die Richtigkeit der korrekten Klassifizierung, die Sensitivität, die Spezifität und die vollständige Konfusionsmatrix. In werden die gemessenen Intensitätswerte der Isotopenmuster durch p-Norm mit p=1 (Abschluss) normiert. In werden die gemessenen Intensitätswerte der Isotopenmuster durch eine Centered-Log-Ratio-Transformation (CLR-Transformation) umgewandelt. In werden die gemessenen Intensitätswerte der Isotopenmuster durch eine Isometric-Log-Ratio-Transformation (ILR-Transformation) umgewandelt.
  • Beispiel 2
  • Hier ist der überwachte Elementklassifikator ein dichtes, vorwärtsgerichtetes, künstliches neuronales Netz (ANN) mit Bias, wie in dargestellt. In einem dichten Netz ist jede Schicht vollständig mit der folgenden Schicht verbunden. Die Aktivierungsfunktion des ANN ist eine gleichgerichtete Lineareinheit: R e L U ( x ) = { 0   i f   x     0 x   i f   x   >   0 .
    Figure DE102020101408A1_0022
  • Die Vorhersagen für den Validierungsdatensatz erfolgen durch einen vorwärtsgerichteten Durchlauf des ANN.
  • Die für das Training und die Validierung der ANN verwendeten Isotopenmuster werden experimentell gemessen. Die experimentellen Daten und die Darstellung des Isotopenmusters sind die gleichen wie in Beispiel 1.
  • Während des Trainings werden die Merkmalsvektoren in Batches an das ANN übergeben. Ein Batch ist eine Teilmenge aller Merkmalsvektoren, die für das Training des ANN verwendet werden. Sobald ein Batch das ANN durchlaufen hat, findet eine Backpropagation statt. Dabei wird der Fehler der aktuellen Vorhersage durch das ANN zurück propagiert, um so die Gewichtungen zu aktualisieren, indem deren Werte in kleinen Schritten auf den besten Gradienten angepasst werden. Die Gewichtungen werden für einen bestimmten Satz von Hyperparametern angepasst.
  • Die Hyperparameter des ANN sind ein regulierender Parameter, die Anzahl der Zwischenschichten (hidden layers) und die Anzahl der künstlichen Neuronen in den Zwischenschichten. Zur Optimierung der Hyperparameter des ANN wird schließlich ein evolutionärer Algorithmus verwendet.
  • bis zeigen die Ergebnisse für das ANN. Zu den Ergebnissen gehören die Richtigkeit der korrekten Klassifizierung, die Sensitivität, die Spezifität und die vollständige Konfusionsmatrix. In werden die gemessenen Intensitätswerte der Isotopenmuster durch p-Norm mit p=1 (Abschluss) normiert. In werden die gemessenen Intensitätswerte der Isotopenmuster durch eine Centered-Log-Ratio-Transformation (CLR-Transformation) umgewandelt. In werden die gemessenen Intensitätswerte der Isotopenmuster durch eine Isometric-Log-Ratio-Transformation (ILR-Transformation) umgewandelt.
  • Die Ergebnisse beider Beispiele zeigen, dass die verwendeten maschinellen Lernalgorithmen gute Vorhersagen für die Elementvorhersage aus massenspektrometrischen Signalen erzielen. Die SVM funktioniert besser als das ANN. In der Regel ist die Vorhersage für polyisotopische chemische Elemente genauer als die Vorhersage für chemische Elemente mit einzelnen Isotopen.
  • Bezüglich des Anwendungsfalls zur Verringerung der Anzahl chemischer Elemente während der Annotation einer chemischen Formel zu einem gemessenen Analyt besteht die Möglichkeit, im Falle einer solchen Vorhersage Elemente aus der Betrachtung zu entfernen. Dabei ist jedoch zu vermeiden, dass ein Element, das während der Annotation im zugrunde liegenden Analyt vorhanden ist, von der Betrachtung ausgeklammert wird. Andernfalls kann keine korrekte Übereinstimmung gefunden werden. In diesem Anwendungsfall ist der negative Vorhersagewert (Negative Predictive Value, NPV) eines Klassifikators entscheidend. Er bezieht sich auf den Prozentsatz der korrekten negativen Vorhersagen bei einem negativen Zustand.
  • Der SVM-Klassifikator weist einen NPV von 89 - 100 % für die polyisotopischen chemischen Elemente auf. Im Vergleich dazu ist der NPV für die ANNs im Allgemeinen schlechter.
  • Für den umgekehrten Anwendungsfall, bei dem Elemente während der Annotation der chemischen Formel zu einem gemessenen Analyt vorgeschlagen werden, ist der positive Vorhersagewert (Positive Predictive Value, PPV) von Bedeutung. Der PPV bezieht sich auf den Prozentsatz der korrekten positiven Vorhersagen bei einem positiven Zustand. Wird jedoch ein chemisches Element vorgeschlagen, das nicht zum zugrunde liegenden Analyt gehört, führt dies zusätzlich zu falsch-positiven chemischen Formeln und erhöht die Komplexität insgesamt. Daher muss ein Klassifizierer für diesen Anwendungsfall einen hohen positiven Vorhersagewert aufweisen.
  • Der SVM-Klassifikator weist einen PPV von ≥ 89 % für die polyisotopischen chemischen Elemente auf. Im Vergleich dazu ist der PPV für die neuronalen Netze im Allgemeinen schlechter.
  • Die Erfindung wurde mit Bezug auf eine Reihe unterschiedlicher Ausführungsformen der Erfindung oben gezeigt und beschrieben. Fachleute auf dem Gebiet werden jedoch verstehen, dass verschiedene Aspekte oder Einzelheiten der Erfindung geändert werden können oder verschiedene Aspekte oder Einzelheiten der verschiedenen Ausführungsformen beliebig kombiniert werden können, falls es praktikabel ist, ohne vom Schutzbereich der Erfindung abzuweichen. Ganz allgemein dient die vorstehende Beschreibung nur zur Veranschaulichung und nicht zur Einschränkung der Erfindung, die ausschließlich durch die beigefügten Ansprüche definiert wird, einschließlich ggfs. möglicher äquivalenter Implementierungen.

Claims (20)

  1. Ein Verfahren für die massenspektrometrische Bestimmung der Anwesenheit oder des Fehlens eines chemischen Elements in einem Analyt, das folgende Schritte umfasst: (a) Erzeugen von Analytionen; (b) Messen eines Isotopenmusters der Analytionen durch Massenspektrometrie, wobei das Isotopenmuster mehrere Isotopenpeaks aufweist und jeder Isotopenpeak durch einen Massenwert und einen Intensitätswert gekennzeichnet ist; (c) Darstellung des Isotopenmusters als Merkmalsvektor v ;
    Figure DE102020101408A1_0023
    (d) Anwenden des Merkmalsvektors v
    Figure DE102020101408A1_0024
    auf einen überwachten Elementklassifikator, der den Merkmalsvektor v
    Figure DE102020101408A1_0025
    einer ersten Klasse (vorhandenes chemisches Element) oder einer zweiten Klasse (fehlendes chemisches Element) zuordnet, wobei der überwachte Elementklassifikator auf einer Menge von Merkmalsvektoren v t
    Figure DE102020101408A1_0026
    trainiert ist, die Isotopenmuster von Verbindungen mit bekannter Elementzusammensetzung repräsentieren, und wobei das chemische Element in einer echten Teilmenge der Verbindungen vorhanden ist.
  2. Das Verfahren nach Anspruch 1, wobei jeder der Merkmalsvektoren v  und  v t ,
    Figure DE102020101408A1_0027
    die ein entsprechendes Isotopenmuster repräsentieren, Massenwerte und normierte Intensitätswerte der Isotopenpeaks umfasst.
  3. Das Verfahren nach Anspruch 2, wobei jeder der Merkmalsvektoren v  und  v t ,
    Figure DE102020101408A1_0028
    die ein entsprechendes Isotopenmuster repräsentieren, einen Massenwert des Monoisotopenpeaks, Massendifferenzen zwischen dem Monoisotopenpeak und anderen Isotopenpeaks und normierte Intensitätswerte der Isotopenpeaks umfasst.
  4. Das Verfahren nach Anspruch 3, wobei jeder der Merkmalsvektoren v  und  v t
    Figure DE102020101408A1_0029
    weiterhin eine Massendifferenz zwischen dem Monoisotopenpeak und der Nominalmasse umfasst.
  5. Das Verfahren nach Anspruch 4, wobei jeder der Merkmalsvektoren v  und  v t
    Figure DE102020101408A1_0030
    wie folgt angeordnet ist: [m0, s 0 d(m0, mi), s i d(m0, M0)] mit i=1...N, wobei m0 der Massenwert des Monoisotopenpeaks, s 0 der normierte Intensitätswert des Monoisotopenpeaks, d(m0, mi) die Massendifferenz zwischen dem Monoisotopenpeak und dem i-ten Isotopenpeak, s i der normierte Intensitätswert des i-ten Isotopenpeaks und d(m0, M0) die Differenz zwischen dem Massenwert des Monoisotopenpeaks und der Nominalmasse M0 ist.
  6. Das Verfahren nach den Ansprüchen 2 bis 5, wobei die normierten Intensitätswerte s i eines Merkmalsvektors aus den gemessenen Intensitätswerten si der entsprechenden Isotopenpeaks mithilfe der p-Norm berechnet werden: s ¯ i = s i / s  with  s = ( | s i | p ) 1 p  mit 1   p .
    Figure DE102020101408A1_0031
  7. Das Verfahren nach Anspruch 1, wobei jeder der Merkmalsvektoren v  und  v t ,
    Figure DE102020101408A1_0032
    die ein entsprechendes Isotopenmuster repräsentieren, Massenwerte und transformierte Intensitätswerte der Isotopenpeaks umfasst.
  8. Das Verfahren nach Anspruch 7, wobei die Intensitätswerte der Isotopenpeaks des entsprechenden Isotopenmusters durch eine Centered-Log-Ratio-Transformation (CLR) oder durch eine Isometric-Log-Ratio-Transformation (ILR) umgewandelt werden.
  9. Das Verfahren nach Anspruch 8, wobei jeder der Merkmalsvektoren v  und  v t
    Figure DE102020101408A1_0033
    wie folgt angeordnet ist: [m0, clr0, d(m0, mi), clri, d(m0, M0)] mit i=1...N, - wobei m0 der Massenwert des Monoisotopenpeaks, clr0 der mit CLR transformierte Intensitätswert des Monoisotopenpeaks, d(m0, mi) die Massendifferenz zwischen dem Monoisotopenpeak und dem i-ten Isotopenpeak, clri der mit CLR transformierte Intensitätswert des i-ten Isotopenpeaks und d(m0, M0) die Differenz zwischen dem Massenwert des Monoisotopenpeaks und der Nominalmasse ist und - wobei die CLR-Transformation wie folgt definiert ist: clr i = log ( s i / N + 1 s 0 s 1 .... s N )  mit s i = 0... N ,
    Figure DE102020101408A1_0034
    welche die Intensitätswerte der Isotopenpeaks sind.
  10. Das Verfahren nach Anspruch 9, wobei jeder der Merkmalsvektoren v  und  v t
    Figure DE102020101408A1_0035
    wie folgt angeordnet ist: [m0, ilr0, d(m0, mi), ilri, d(m0, mN), d(m0, M0)] mit i=1...N-1, - wobei m0 der Massenwert des Monoisotopenpeaks, ilri die mit ILR transformierten Intensitätswerte des Isotopenpeaks, d(m0, mi) die Massendifferenz zwischen dem Monoisotopenpeak und dem i-ten Isotopenpeak, und d(m0, M0) die Differenz zwischen dem Massenwert des Monoisotopenpeaks und der Nominalmasse ist und - wobei die ILR-Transformation wie folgt definiert ist: 1lr = clr B mit  1lr = ( ilr i = 0... N 1 ) , clr = ( clr i = 0... N ) ,
    Figure DE102020101408A1_0036
    Ausgleichsmatrix B der verringerten Dimension dim(B) = (N + 1) × N und B · BT = IN
  11. Das Verfahren nach einem der Ansprüche 1 bis 10, wobei der überwachte Elementklassifikator eine Support Vector Machine (SVM), ein künstliches neuronales Netzwerk (ANN) oder ein Random-Forest-Klassifikator (RF, Random Decision Forest) ist.
  12. Das Verfahren nach Anspruch 11, wobei die inhärenten Parameter des überwachten Elementklassifikators (Hyperparameter) während des Trainings des überwachten Elementklassifikators optimiert werden.
  13. Das Verfahren nach einem der Ansprüche 1 bis 12, wobei die Darstellung des Isotopenmusters als Merkmalsvektor während des Trainings des überwachten Elementklassifikators optimiert wird.
  14. Das Verfahren nach Anspruch 13, wobei eine Merkmalsauswahl oder die Bewertung der Merkmalsrelevanz während des Trainings des überwachten Elementklassifikators vorgenommen wird.
  15. Das Verfahren nach einem der Ansprüche 1 bis 14, wobei das chemische Element eines der Folgenden ist: Br, Cl, S, I, F, P, K, Na und Pt.
  16. Das Verfahren nach Anspruch 15, wobei in Schritt (d) die erste Klasse auf die Anwesenheit von zwei oder mehr der chemischen Elemente und die zweite Klasse auf das Fehlen der zwei oder mehr chemischen Elemente hinweist und wobei der überwachte Elementklassifikator auf einen Satz von Merkmalsvektoren v t
    Figure DE102020101408A1_0037
    trainiert ist, die Isotopenmuster von Verbindungen mit bekannter Elementzusammensetzung präsentieren, und wobei die zwei oder mehr chemischen Elemente in einer echten Teilmenge der Verbindungen vorhanden sind.
  17. Das Verfahren nach einem der Ansprüche 1 bis 16, wobei die für das Training des überwachten Elementklassifikators verwendeten Isotopenmuster der Verbindungen theoretisch abgeleitet werden.
  18. Das Verfahren nach einem der Ansprüche 1 bis 16, wobei die für das Training des überwachten Elementklassifikators verwendeten Isotopenmuster der Verbindungen experimentell gemessen werden.
  19. Das Verfahren nach Anspruch 18, wobei die für den überwachten Elementklassifikator verwendeten Isotopenmuster der Verbindungen und das Isotopenmuster des Analytions mit demselben massenspektrometrischen System gemessen werden.
  20. Das Verfahren nach einem der Ansprüche 1 bis 19, wobei der Nachweis der Anwesenheit oder des Fehlens eines chemischen Elements verwendet wird, um die Anzahl der chemischen Elemente während der Annotation einer chemischen Formel an den Analyt zu verringern oder zu erhöhen.
DE102020101408.2A 2019-01-30 2020-01-22 Verfahren für die massenspektrometrische bestimmung der anwesenheit oder des fehlens eines chemischen elements in einem analyten Granted DE102020101408A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201962798531P 2019-01-30 2019-01-30
US62/798,531 2019-01-30

Publications (1)

Publication Number Publication Date
DE102020101408A1 true DE102020101408A1 (de) 2020-07-30

Family

ID=69186886

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020101408.2A Granted DE102020101408A1 (de) 2019-01-30 2020-01-22 Verfahren für die massenspektrometrische bestimmung der anwesenheit oder des fehlens eines chemischen elements in einem analyten

Country Status (4)

Country Link
US (1) US11211237B2 (de)
CN (1) CN111508565B (de)
DE (1) DE102020101408A1 (de)
GB (1) GB2585258B (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115273987B (zh) * 2022-09-23 2023-01-20 中国农业科学院农业质量标准与检测技术研究所 一种特征品质成分的识别方法、系统、设备及存储介质
CN116595399B (zh) * 2023-06-14 2024-01-05 中国矿业大学(北京) 一种煤中元素相关性不一致问题的分析方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6983213B2 (en) * 2003-10-20 2006-01-03 Cerno Bioscience Llc Methods for operating mass spectrometry (MS) instrument systems
WO2004111609A2 (en) * 2003-06-12 2004-12-23 Predicant Biosciences, Inc. Methods for accurate component intensity extraction from separations-mass spectrometry data
WO2005009039A2 (en) * 2003-07-03 2005-01-27 Waters Investments Limited System and method for isotopic signature and mass analysis
US20060249668A1 (en) * 2005-05-05 2006-11-09 Palo Alto Research Center Incorporated Automatic detection of quality spectra
EP1882931A4 (de) * 2005-05-13 2011-01-12 Shimadzu Corp Massenanalysedatenanalysevorrichtung und -programm
US7781729B2 (en) * 2006-05-26 2010-08-24 Cerno Bioscience Llc Analyzing mass spectral data
EP2128791B1 (de) * 2008-05-30 2018-08-01 Thermo Fisher Scientific (Bremen) GmbH Verfahren zur Verarbeitung spektrometrischer Daten
US20130131998A1 (en) * 2011-11-18 2013-05-23 David A. Wright Methods and Apparatus for Identifying Mass Spectral Isotope Patterns
EP2798658B1 (de) * 2011-12-30 2017-03-01 DH Technologies Development Pte. Ltd. Systeme und verfahren zur sequenzierung von peptiden mittels massenspektrometrie
JP6020315B2 (ja) * 2012-04-27 2016-11-02 株式会社島津製作所 質量分析データ処理方法及び質量分析データ処理装置
US9111735B1 (en) * 2013-01-30 2015-08-18 Bruker Daltonik Gmbh Determination of elemental composition of substances from ultrahigh-resolved isotopic fine structure mass spectra
GB2514836B (en) * 2013-06-07 2020-04-22 Thermo Fisher Scient Bremen Gmbh Isotopic Pattern Recognition
WO2018223025A1 (en) * 2017-06-01 2018-12-06 Brandeis University System and method for determining glycan topology using tandem mass spectra
WO2019094507A1 (en) * 2017-11-10 2019-05-16 Pataigin, Llc Method for data analysis

Also Published As

Publication number Publication date
GB201918705D0 (en) 2020-01-29
CN111508565A (zh) 2020-08-07
US20200243315A1 (en) 2020-07-30
US11211237B2 (en) 2021-12-28
GB2585258A (en) 2021-01-06
CN111508565B (zh) 2024-01-30
GB2585258B (en) 2022-10-19

Similar Documents

Publication Publication Date Title
DE102010019590B4 (de) Datenabhängiges Erfassungssystem für die Massenspektrometrie und Verfahren für dessen Anwendung
DE112014003828B4 (de) Massenspektrometer
DE102014008264B4 (de) Isotopenmustererkennung
DE60026452T2 (de) Verfahren zur Identifizierung von Peptidensequenzen und Proteinensequenzen mittels Massenspektromterie
DE112005001143B4 (de) System und Verfahren zum Gruppieren von Vorläufer- und Fragmentionen unter Verwendung von Chromatogrammen ausgewählter Ionen
DE4317246C2 (de) Verfahren zum Entfalten eines Massenspektrums
DE102007044686B4 (de) System und Verfahren zum Herabsetzen der Einschwingzeiten bei MS/MS
DE102017007564B4 (de) Verfahren zum Kalibrieren eines Massenspektrometers
WO2006082042A2 (de) Verfahren und system zur massenspektrenanalyse
DE112004001811T5 (de) Verfahren zum Bearbeiten und Speichern von Massenspektrometriedaten
DE112004001212B4 (de) Verfahren für die Analyse von Isotopensignaturen und die Massenanalyse
DE102020101408A1 (de) Verfahren für die massenspektrometrische bestimmung der anwesenheit oder des fehlens eines chemischen elements in einem analyten
DE102011083782A1 (de) System und verfahren zum pflegen von massenspektrenbibliotheken
WO2010083811A1 (de) Verfahren zur identifizierung insbesondere unbekannter substanzen durch massenspektrometrie
DE112015000402B4 (de) Näherungsalgorithmus zum Lösen eines Impulsübertragungsquerschnitts
DE102017127189B4 (de) Bestimmung von isobaren Interferenzen in einem Massenspektrometer
EP2289090B1 (de) Verfahren und anordnung zur steuerung von messsystemen, sowie ein entsprechendes computerprogramm und ein entsprechendes computerlesbares speichermedium
DE102019109771A1 (de) Auswertung komplexer Massenspektrometrie-Daten von biologischen Proben
DE102020111240B3 (de) Prozessieren von ortsaufgelösten, Ionen-spektrometrischen Messsignaldaten zur Ermittlung von Molekül-Gehaltsmaßzahlen in flächigen Proben
DE102021117017A1 (de) Peakbreitenabschätzung in massenspektren
DE112004000338B4 (de) System und Verfahren zum Verarbeiten identifizierter Metaboliten
WO2012126451A2 (de) Verfahren zur identifizierung insbesondere unbekannter substanzen durch massenspektrometrie
DE112017001151T5 (de) Benutzerdefiniertes skaliertes Massendefektdiagramm mit Filterung und Kennzeichnung
EP1451750B1 (de) Verfahren zur identifikation von pharmakophoren
CN113780430A (zh) 一种基于Hopfield模型的三重四极杆质谱仪谱图分类方法

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R081 Change of applicant/patentee

Owner name: BRUKER DALTONICS GMBH & CO. KG, DE

Free format text: FORMER OWNER: BRUKER DALTONIK GMBH, 28359 BREMEN, DE

R016 Response to examination communication
R018 Grant decision by examination section/examining division