EP2389588A1

EP2389588A1 - Verfahren zur identifizierung insbesondere unbekannter substanzen durch massenspektrometrie

Info

Publication number: EP2389588A1
Application number: EP10707432A
Authority: EP
Inventors: Sebastian BÖCKER; Florian Rasche; Thomas Zichner
Original assignee: Individual
Current assignee: Individual
Priority date: 2009-01-21
Filing date: 2010-01-15
Publication date: 2011-11-30
Also published as: DE102009005845A1; US8263931B2; CA2750231A1; JP2012515902A; JP5559816B2; US20110278449A1; WO2010083811A1

Abstract

Aufgabe war es, gleichzeitig mit der massenspektrometrischen Analyse frei von subjektiver Beurteilung, in kürzester Zeit, automatisierbar und mit hoher Trefferquote deren Struktur und/oder Stoffklassen und/oder ihre chemischen Eigenschaften ermitteln zu können, ohne dass identische Fragmentierungsmuster und/oder definierte Vergleichs- bzw. Indentifizierungsregeln vorliegen müssen. Erfindungsgemäß wird aus einem oder mehreren massenspektrometrischen Fragmentierungsspektren der Substanz ein Fragmentierungsgraph gebildet, dessen Daten mit vorzugsweise in einer elektronischen Datenbank gespeicherten Referenzdaten verglichen werden. Die Erfindung wird insbesondere in der Biologie, Pharmazie und Chemie zur Bestimmung der Struktur und/oder der Stoffklasse und/oder der chemischen Eigenschaften von gefundenen unbekannten Substanzen angewendet.

Description

Verfahren zur Identifizierung insbesondere unbekannter Substanzen durch Massenspektrometrie

Die Erfindung betrifft ein Verfahren zur Identifizierung vorzugsweise unbekannter Substanzen durch Massenspektrometrie, um deren Struktur und/oder Stoffklassen und/oder ihre chemischen Eigenschaften zu ermitteln.

Massenspektrometrie ist eines der derzeit gebräuchlichsten Verfahren zur Analyse von vorzugsweise unbekannten Substanzen (beispielsweise J. H. Gross: Mass Spectrometry: A Textbook, Springer Verlag Berlin, 2004).

Durch die Massenspektrometrie lässt sich die Molekülmasse der untersuchten Substanz genau bestimmen. Des Weiteren ist es möglich, eine Substanz im Massenspektrometer einmal oder mehrmals zu fragmentieren, d. h. ihre chemischen Bindungen aufzubrechen. Die

Massen der so entstandenen Fragmente werden dann wiederum gemessen. So entstehen ein oder mehrere Fragmentierungsspektren (auch Tochterionenspektren genannt).

Es ist allerdings problematisch, insbesondere für unbekannte chemische Verbindungen, die Struktur und/oder die Stoffklassen und/oder chemischen Eigenschaften dieser Verbindung zu identifizieren, da durch die Massenspektrometrie ausschließlich Massen bestimmt werden können.

Viele Arzneimittel sowie andere in Industrie und Forschung eingesetzte chemische Stoffe werden in ihrer ursprünglichen Form von Lebewesen produziert und wurden bei diesen durch Zufall oder eine sehr aufwändige Suche entdeckt. Die meisten von Lebewesen produzierten Substanzen sind der Forschung noch völlig unbekannt. Das hier vorgestellte Verfahren kann die systematische Suche nach potentiellen Wirkstoffen deutlich vereinfachen, indem es z. B. die Stoffklassen aller in einer biologischen Probe vorkommenden kleinen Substanzen (leichter als 1500 Dalton) identifiziert. Danach müssen nur noch diejenigen Verbindungen genauer untersucht werden, die zu für das Anwendungsgebiet relevanten Stoffklassen gehören. Die Substanzidentifikation von Pharmazeutika und Naturstoffen ist also aufgrund der großen Relevanz dieser Stoffe für die Medizin sowie die pharmazeutische und biologische Forschung besonders interessant. Naturstoffe sind alle Substanzen, die sich in der belebten und unbelebten Natur, also vor allem in Pflanzen und Tieren, aber z. B. auch in fossilen Lagerstätten finden. Hierunter fallen zum Beispiel alle durch chemische oder enzymatische Reaktionen entstandene Stoffwechselprodukte, aber auch die Abbauprodukte von künstlich der Natur zugefügten Stoffen, wie z. B. Arzneimitteln oder Umweltgiften. Auch wenn Naturstoffe wahrscheinlich das Hauptanwendungsgebiet darstellen, ist das vorgestellte Verfahren nicht auf diese beschränkt. Eine Anwendung ist auch in anderen Bereichen der Chemie möglich, beispielsweise in der Material Wissenschaft.

Da Naturstoffe meist als Gemische vorliegen (z. B. Zellextrakt, Umweltprobe) wird der Massenspektrometrie oft ein Trennverfahren vorgeschaltet, um die zu identifizierenden Substanzen für die massenspektrometrische Analyse zu separieren. Dieses Trennverfahren ist üblicherweise die Gas- oder Flüssigchromatographie oder die Kapillarelektrophorese (beispielsweise U. Roessner, C. Wagner, J. Kopka, R. Tretheway, L. Willmitzer: Technical advance: simultaneous analysis of metabolites in potato tuber by gas chromatography-mass spectrometry, Plant J, 2000, 23, 131-142).

Es ist bekannt (beispielsweise R. Mistrik: XCalibur HighChem: Mass Frontier Software. HighChem/ThermoFinnigan, Manual 2001) Fragmentierungsmuster, die mit der massenspektrometrischen Analyse ermittelt werden, mit manuell aus Referenzdaten gewonnenen idealisierten Mustern, sogenannten Regeln, zu vergleichen. Eine solche Gegenüberstellung wäre vom Grundsatz automatisierbar, setzt allerdings voraus, dass die entsprechenden Regeln für den untersuchten Stoff erstellt wurden, ist deshalb für nicht bekannte Substanzen in keiner Weise anwendbar. Darüber hinaus können diese regelbasierten Ansätze fehlerbehaftete Daten nicht verarbeiten, was sie für die Praxis unbrauchbar macht (K. Klagkou, F. Pullen, M. Harrison, A. Organ, A. Firth & GJ. Langley: Approaches towards the automated Interpretation and prediction of electrospray tandem mass spectra of non- peptidic combinatorial Compounds, Rapid Commun Mass Spectrom, 2003, 17, 1163-1168).

Für den speziellen Fall, dass ein unter gleichen Messbedingungen erstelltes Fragmentierungsspektrum bereits identisch in einer Referenzdatenbank vorhanden ist, wäre es möglich, die untersuchte Substanz mittels rechentechnischen Vergleichs durch Suche des Spektrums in der Referenzdatenbank aufzufinden und auf diese Weise zu identifizieren (L. Vogt, T. Gröger & R. Zimmermann: Automated Compound Classification for ambient aerosol sample separations using comprehensive two-dimensional gas chromatography-time-of-flight mass spectrometry, J Chromatogr A, 2007, 1150, 2-12; DE 103 58 366 B4, US 6,624,408 Bl, US 2003 023 66 36 Al, US 6,747,272 B2).

Dieses Verfahren funktioniert nicht bei gänzlich unbekannten Substanzen, da ein Referenzspektrum der Substanz vorhanden sein muss. Zusätzlich sind Fragmentierungsspektren zum Teil stark von äußeren Parametern abhängig und unterscheiden sich daher von Labor zu Labor. Direkte Vergleiche zwischen Spektren sind in diesem Fall nicht aussagekräftig, daher ist eine Suche nach einem unter vergleichbaren Bedingungen vorliegenden identischen Referenzspektrum in den wenigsten Anwendungsfällen möglich.

Um diesen letztgenannten Nachteil zu umgehen, ist es auch bekannt, in einer Datenbank nach Fragment-Ionen zu suchen, die dort zu definierten Fragmentierungsmustern gespeichert sind (US 7,197,402 B2). Diese Ionen müssen dann entweder eine bekannte, eindeutige Struktur besitzen, oder es müssen mit zusätzlicher massenspektrometrischer Untersuchung Fragmentierungsspektren dieser Ionen gemessen werden. Diese durch mehrfache Fragmentierung entstandenen Spektren (MSⁿ) sollen, wie angegeben, vergleichbarer, als die vorgenannten 'einfachen' Fragmentierungsspektren sein. Dieses Verfahren bleibt jedoch ebenfalls auf die Identifizierung von bekannten (und datentechnisch erfassten) Substanzen beschränkt. Außerdem ist die mehrfache Fragmentierung nur mit sehr speziellen Typen von Massenspektrometern möglich, was den Zusatzaufwand weiter erhöht.

Sind Substanzen zu identifizieren, für die Referenzdaten oder Vergleichs- bzw. Indentifizierungsregeln nicht oder nicht vollständig vorliegen, müssen nach wie vor zumindest im Einzelfall kleinere Moleküle anhand ihrer Fragmentierungsmuster beurteilt werden, d. h. es muss aufwendig untersucht werden, inwieweit vergleichbare Ähnlichkeiten zu bekannten Strukturen gefunden werden können, die eine Bestimmung der Stoffklasse, der chemischen Eigenschaften oder vielleicht sogar der Molekülstruktur erlauben oder wenigstens unterstützen könnten (P. Shi, Q. He, Y. Song, H. Qu und Y. Cheng: Characterization and identification of isomeric flavonoid O-diglycosides from genus Citrus in negative electrospray ionization by ion trap mass spectrometry and time-of-flight mass spectrometry, Anal. Chim. Acta, 2007, 598, 110-118). Diese Beurteilung ist allerdings subjektiv, langwierig und basiert auf menschlicher Intuition. Sie stellt deshalb keine objektive und schnelle Substanzidentifikation dar und setzt vielmehr hohes Wissen sowie umfangreiche Erfahrung von Experten auf diesem Gebiet voraus. Dennoch ist die Trefferquote in der Praxis selbst für kleinere Moleküle nicht sehr hoch. Das Verfahren ist aus den vorgenannten Gründen auch nicht automatisierbar. Für größere Moleküle wäre diese Methode insbesondere wegen der hohen Anforderungen an den Gutachtenden und der zu erwartenden niedrigen Trefferquote praktisch nicht verwendbar.

Im Jahr 2008 haben Böcker und Rasche (S. Böcker & F. Rasche: Towards de novo identification of metabolites by analyzing tandem mass spectra, Bioinformatics, 2008, 24, 149-155) eine mathematische Formalisierung des Konzeptes von Fragmentierungsmustern eingeführt. Sie nutzen dabei Graphen, um das Fragmentierungsmuster einer Substanz darzustellen. Als Graph soll dabei eine Menge von Objekten, üblicherweise als Knoten bezeichnet, und eine Menge von Paaren aus den Elementen dieser Menge, üblicherweise als Kanten bezeichnet, gelten. Diese Menge von Paaren repräsentiert die Beziehungen der Objekte untereinander. In diesem Fall werden die Fragmente der Substanz als Knoten und die Fragmentierungsreaktionen als Kanten dargestellt. Da die Struktur der untersuchten Substanz nicht bekannt ist, werden die Knoten mit den Summenformeln der Fragmente, und die Kanten mit den Summenformeln der Neutralverluste beschriftet. Diese Fragmentierungsgraphen werden dazu verwendet, um die Summenformel einer unbekannten Substanz zu bestimmen. Summenformeln an sich sind jedoch nicht ausreichend, um einen Stoff zu identifizieren und lassen auch keine Schlüsse auf die Stoffklasse der untersuchten Substanz zu. Eine Verwendung der vorgeschlagenen Graphen von Fragmentierungsmustern zur Identifikation insbesondere unbekannter Substanzen bzw. zur Bestimmung deren Stoffklasse und/oder chemischen Eigenschaften ist auch der Fachwelt nicht bekannt geworden.

Ferner ist auf einem speziellen biologischen bzw. medizinischem Aufgabengebiet das Alignieren von Bäumen an sich zum Vergleich von RNA-Strukturen bekannt (T. Jiang, L. Wang & K. Zhang: Alignment of trees: an alternative to tree edit, Theor. Comput. Sei., Elsevier Science Publishers Ltd., 1995, 143, 137-148). Hierbei werden die beschrifteten Knoten der zu vergleichenden Bäume so übereinander gelegt, dass sich die Beschriftungen möglichst gering unterscheiden. Strukturell müssen sich die Bäume gleichen, es dürfen nur sogenannte Gap-Knoten in die Äste der Baumdarstellung eingefügt werden, falls erforderlich. Über Anwendungen dieser Methode, um insbesondere bei massenspektro- metrischen Untersuchungen von Substanzen diese zu identifizieren bzw. deren Stoffklasse und/oder chemischen Eigenschaften zu bestimmen, ist ebenfalls nichts bekannt geworden.

Der Erfindung liegt die Aufgabe zu Grunde, gleichzeitig mit der massenspektrometrischen Analyse insbesondere unbekannter chemischer Verbindungen zu deren Identifizierung frei von subjektiver Beurteilung, in kürzester Zeit, automatisierbar und mit möglichst hoher Trefferquote deren Struktur und/oder Stoffklassen und/oder ihre chemischen Eigenschaften ermitteln zu können, ohne dass identische Fragmentierungsmuster und/oder definierte Vergleichs- bzw. Indentifϊ- zierungsregeln vorliegen müssen.

Erfindungsgemäß wird diese Aufgabe gelöst, indem bei der massenspektrometrischen Analyse einer zu untersuchenden Substanz von dieser zumindest ein massenspektrometrisches Fragmentierungsspektrum (Tochterionenspektrum) aufgenommen wird, aus welchem ein (für nicht bekannte Substanzen hypothetischer) Fragmentierungsgraph generiert wird, der bisher ausschließlich dazu bekannt ist, die Summenformel einer Substanz zu bestimmen. Der Fragmentierungsgraph wird durch Objekte und Verknüpfungen des zumindest einen massenspektrometrischen Fragmentierungsspektrums, beispielsweise durch Knoten als Objekte (Fragmente der Substanz) sowie durch Kanten (Fragmentierangsreaktionen als Verknüpfung), repräsentiert. Die Darstellung des Fragmentierungsgraphen kann zur Realisierung der besagten Objekte und Verknüpfungen allerdings auch durch eine vom typischen Ausdruck durch Knoten und Kanten abweichenden mathematischen Darstellung, wie beispielsweise einer partiellen Ordnung, einer Relation, einer Hierarchie, geprägt sein.

Die Daten dieses Fragmentierungsgraphen werden mit vorliegenden Referenzdaten von Fragmentierungsgraphen bekannter Substanzen verglichen, wobei dieser Vergleich vorzugsweise rechentechnisch erfolgt, indem die Vorrichtung zur massenspektrometrischen Untersuchung mit einem Rechner in Verbindung steht, der auf eine elektronische Datenbank zugreift, in welcher die besagten Referenzdaten der bekannten Fragmentierungsgraphen für den Vergleich bereitgestellt werden. Auf diese Weise kann dieser Datenvergleich der Fragmentierungsgraphen zeitgleich und automatisch parallel zur massenspektrometrischen Auswertung der zu untersuchenden bzw. zu identifizierenden Substanz erfolgen. Beim Datenvergleich der Fragmentierungsgraphen werden identische oder zumindest ähnliche Teilgraphen, d. h. eine Teilmenge der Knoten und Kanten, gesucht, um die massenspektrometrisch untersuchte Substanz nach diesen bekannten Fragmentierungsgraphen bzw. Teilgraphen anhand der Substanzstruktur und/oder der Stoffklasse und/oder der chemischen Substanz- eigenschaften zu bestimmen.

Der rechentechnische Datenvergleich ermöglicht in kürzester Zeit eine automatische Substanzidentifizierung gegenüber einer Vielzahl bekannter Fragmentierungsgraphen, ohne dass zwingend vollständige Fragmentierungsgraphen der zu identifizierenden Substanz und/oder definierte Vergleichs- bzw. Indentifizierungsregeln für die Gegenüberstellung als Referenz vorhanden sein müssen, da der Vergleich nicht das gesamte Fragmentierungsspektrum, sondern auch Teilstrukturen des besagten Fragmentierungsgraphen einschließt.

Alle bisherigen automatisierbaren und praktikablen Verfahren setzen voraus, dass die zu untersuchende Substanz bereits bekannt ist, schon einmal massenspektrometrisch untersucht wurde und als vollständiges Fragmentierungsmuster referenzmäßig präsent ist. Im Gegensatz zu diesen (eingangs genannten) bekannten Methoden muss sich bei dem hier vorgestellten Verfahren die zu identifizierende Substanz selbst nicht in den Referenzdaten befinden, sondern es genügt, wenn die zum Vergleich herangezogenen Daten zumindest in Teilbereichen Ähnlichkeiten des vollständigen oder teilweisen Fragmen- tierungsgraphen gegenüber dem Fragmentierungsgraph der zu identifizierenden Substanz aufweisen.

Das Verfahren ermöglicht also erstmals eine automatische Identifizierung gänzlich unbekannter Stoffe. Dies war bisher nur manuell möglich. Im Gegensatz zur zeitaufwändigen manuellen Analyse können mit dem vorgestellten Verfahren die Spektren ohne subjektive Erfordernisse in Echtzeit, also ähnlich schnell wie die Messung selbst, (und damit gleichzeitig) durchgeführt werden. Dadurch wird die zeitnahe Analyse von typischen massenspektrometrischen Messreihen mit hunderten von Substanzen möglich. Außerdem basiert die Identifizierung bei diesem Verfahren mit hoher Trefferquote auf objektiven Kriterien, anstatt auf menschlicher Intuition. In Kombination mit anderen Verfahren zur Automatisierung der Messung und Analyse von Fragmentspektren (z. B. DE 10 2005 025 499 B4 und DE 103 58 366 B4) wäre sogar die vollständige automatische Durchführung und Analyse einer solchen Messreihe gänzlich ohne Benutzereingriff möglich. In den Unteransprüchen sind vorteilhafte Ausführungsschritte des Verfahrens genannt.

So kann der Fragmentierungsgraph der zu analysierenden Substanz manuell oder automatisch generiert werden.

Der Datenvergleich der Fragmentierangsgraphen kann lokal oder global, beispielsweise durch paarweises oder multiples Alignieren, erfolgen.

Es ist möglich, Fragmentierungsspektren zur Generierung der Fragmentierungsgraphen z. B. mit einem Tandem-Massenspektrometer oder durch mehrfache Fragmentierung (MSⁿ) aufzunehmen. Dabei kann die Fragmentierung durch collision induced dissociation (CID), electron transfer dissociation (ETD), electron capture dissociation (ECD), infrared multiphoton dissociation (IRMPD), blackbody infrared radiative dissociation (BIRD), higher-energy C-trap dissociation (HCD), in-source fragmentation oder post-source decay (PSD) erfolgen.

Vor der Aufnahme der Fragmentierungsspektren kann vorteilhaft eine Substanzseparation durch Flüssigkeitschromatographie,

Gaschromatographie oder Kapillarelektrophorese vorgenommen werden.

Darüber hinaus kann es zweckmäßig sein, zusätzlich zu dem erfindungsgemäßen Datenvergleich der Fragmentierungsgraphen weitere Kriterien, wie insbesondere die chromatographische Retentionszeit und/oder die elektrophoretische Durchlaufzeit und/oder UV- Absorptionsspektren, zur Substanzidentifizierung heranzuziehen.

Eine spezielle Anwendungsmöglichkeit des erfindungsgemäßen Verfahrens besteht im Clustern von zu analysierenden Substanzen. Dazu werden für drei oder mehr, in der Regel aber eine größere Zahl von Substanzen Fragmentierungsspektren gemessen und Fragmentierungs- graphen berechnet, beispielsweise mit der Methode von Böcker und Rasche (S. Böcker & F. Rasche: Towards de novo identification of metabolites by analyzing tandem mass spectra, Bioinformatics, 2008, 24, 159-155). Dabei kann es sich um unbekannte oder bekannte Substanzen handeln, oder in der Regel um sowohl bekannte als auch unbekannte Substanzen. Für diese Fragmentierungsgraphen werden mit Hilfe der hier beschriebenen Methode paarweise Ähnlichkeiten berechnet, was in einer Matrix von paarweisen Ähnlichkeiten resultiert. Auf eine solche Ähnlichkeitsmatrix können dann Verfahren der Clusteranalyse angewendet werden: Dabei sollen alle Objekte in einem Cluster ähnlich zueinander sein, aber nur geringe Ähnlichkeit mit Objekten außerhalb des Clusters aufweisen. Die Clusteranalyse wird in der Regel durch automatisierte Verfahren erfolgen, kann aber auch manuell durchgeführt werden. Für die Clusteranalyse können beliebige graphentheoretische, hierarchische, partitionierende, optimierende oder andere Verfahren zum Einsatz kommen, beispielsweise agglomeratives Clustern (bspw. UPGMA), Är-Means oder /t-Nearest Neighbors. Aus den berechneten Clustern können jetzt Rückschlüsse auf die untersuchten Substanzen gezogen werden, wenn beispielsweise eine unbekannte Substanz mit einer oder mehreren bekannten Substanzen zusammen geclustert wird.

Eine weitere Anwendungsmöglichkeit des erfindungsgemäßen Verfahrens besteht darin, die durch den Vergleich der Fragmentierungsgraphen bestimmte Ähnlichkeit mit weiteren Substanzeigenschaften (gemessenen oder vorhergesagten) zu kombinieren. Dies kann für das Clustering, aber auch für alle anderen im Folgenden beschriebenen Anwendungsmöglichkeiten und Einsatzgebiete erfolgen. Weitere bekannte Substanzeigenschaften sind beispielsweise Masse der beiden Substanzen, Massendifferenz zwischen den Substanzen, mögliche Erklärungen der Massendifferenz durch Summenformeln, Anzahl Peaks in den gemessenen Massenspektren, Summenformeln der Substanzen (hypothetisch oder validiert), Retentionszeit, elektrophoretische Durchlaufzeit, UV-Absorptionsspektren, oder der CE₅₀- Wert der Substanz (Kertesz, T. M., Hall, L. H., Hill, D. W. & Grant, D. F. CE50: quantifying collision induced dissociation energy for small molecule characterization and identification. J. Am. Soc. Mass Spectrom., 2009, 20, 1759-1767). Die Kombination kann mit einer, mehreren oder sogar allen diesen weiteren Substanzeigenschaften erfolgen.

Eine weitere Anwendungsmöglichkeit besteht darin, die Ähnlichkeit von Fragmentierungsgraphen zur Vorhersage der strukturellen Ähnlichkeit von Substanzen zu verwenden. Die strukturelle Ähnlichkeit von Substanzen kann beispielsweise durch einen Tanimoto-Koeffizient oder Jaccard-Index gemessen werden. Eine Vorhersage dieser Strukturähnlichkeit kann unter anderem durch Methoden des überwachten Maschinellen Lernens (beispielsweise Support Vector Machines SVM, Neuronale Netze, Entscheidungsbäume, Entscheidungswälder, naiver Bayes) erfolgen. Dabei können die Substanzen dahingehend klassifiziert werden, dass eine strukturelle Ähnlichkeit von beispielsweise 90% oder mehr (alternativ 80%, 95%, oder ein anderer Wert) auf Grund der Ähnlichkeit der Fragmentierungsgraphen sowie anderer bekannter Substanzeigenschaften besteht.

Außerdem kann die Fragmentierungsähnlichkeit, zusammen mit anderen Substanzeigenschaften, für eine direkte Vorhersage der Substanzähnlichkeit (beispielsweise Tanimoto-Koeffizient oder Jaccard- Index) verwendet werden: Dazu können Verfahren des Maschinellen Lernens wie beispielsweise Lineare Regression, SVM for Regression (SVR), v-Support Vector Regression (v-SVR), oder Local Linear Maps verwendet werden.

Die Erfindung kann vorteilhaft angewendet werden, um die Struktur unbekannter Substanzen durch Vergleich von Fragmentierungsgraphen ganz oder teilweise aufzuklären. Dazu können die

Fragmentierungsgraphen von Referenzsubstanzen mit bekannter Struktur verwendet werden, die eine hohe lokale oder globale Ähnlichkeit mit dem Fragmentierungsgraphen der zu identifizierenden Substanz aufweisen. So können Hypothesen über die Struktur der zu identifizierenden Substanz aufgestellt werden, die dann beispielsweise durch den Einsatz weiterer experimenteller Techniken (mehrstufige

Fragmentierungs-Massenspektrometrie oder NMR-Spektroskopie) evaluiert werden. Andererseits können durch andere experimentelle Techniken gewonnene Hypothesen über die Struktur der zu identifizierenden Substanz durch den Vergleich von Fragmentierungsgraphen evaluiert und verifiziert werden.

Ein Einsatzgebiet der Erfindung ist auch das Screening unbekannter Stoffe nach potentiellen biologischen Wirkstoffen (bio-prospecting). Dabei kann für einen bekannten Wirkstoff nach Substanzen gesucht werden, die eine ähnliche oder identische Wirkung aufweisen (beispielsweise Generika). Außerdem kann nach Substanzen gesucht werden, die eine verbesserte Wirkung aufweisen, oder eine oder mehrere unerwünschte Nebenwirkungen des Wirkstoffes nicht aufweisen. Dies kann auch für Wirkstoffe geschehen, die nicht für die Medikation von Menschen zugelassen oder geeignet sind, weil beispielsweise die Schwere der Nebenwirkungen den erwünschten Effekt des Wirkstoffes überwiegt. Für das Screening können beispielsweise die Sekundärmetaboliten von Organismen untersucht werden, insbesondere von Pflanzen, Pilzen und Bakterien. Das Screening kann unter unterschiedlichen äußeren Bedingungen, unterschiedlichen Entwicklungsstadien und an unterschiedlichen Gewebetypen erfolgen, beispielsweise Samen, Wurzeln und Blätter einer Pflanze. Die Fragmentierungs-Massenspektren können in einem automatischen Durchlauf erstellt werden, wobei die zu fragmentierenden Substanzen beispielsweise automatisch und ohne Wissen über die in der Probe befindlichen Substanzen bestimmt werden. Die Anwendung ist nicht auf für den Menschen bestimmte Medikamente oder Wirkstoffe beschränkt.

Vorteilhaft ist auch die Untersuchung von Abbauprodukten von Medikamenten. Im menschlichen Stoffwechsel werden Wirk- und andere Stoffe dabei schrittweise abgebaut oder umgewandelt. Auf ähnliche Weise können Medikamente durch äußere Einflüsse (beispielsweise unsachgemäße Lagerung, beispielsweise unter zu großer Hitze) abgebaut oder umgewandelt werden. Hier lautet eine mögliche Fragestellung, welche Substanzen im Rahmen des Abbauvorgangs entstehen, und welche Wirkungen und Nebenwirkungen von diesen Substanzen ausgehen können. Eine Anwendung des erfindungsgemäßen Verfahrens ist auch zur Identifizierung von Nachweissubstanzen, wie z. B. Biomarkern, möglich. Durch Umwelteinflüsse oder Fremdstoffe kann der Metabolismus eines biologischen Systems geändert werden. Beispielsweise können Substanzen identifiziert werden, die im Rahmen einer Infektion gebildet werden. Im Labor kann durch Blutuntersuchung festgestellt werden, ob solche Substanzen im Blut des Patienten vorkommen und Rückschlüsse auf eventuelle Entzündungsfaktoren gezogen werden.

Ein weiteres Einsatzgebiet des erfindungsgemäßen Verfahrens ist die Identifizierung unbekannter Drogen. Hierbei wird die unbekannte Substanz massenspektrometrisch untersucht, und ihr Fragmentierungsgraph wie oben beschrieben mit den Fragmentierungsgraphen bekannter legaler oder illegaler Drogen verglichen. Dadurch können Informationen über eine eventuelle Wirksamkeit der unbekannten Substanz als Droge gewonnen werden.

Ebenfalls ist die Identifizierung von leistungssteigernden Substanzen (Doping) möglich. Es findet eine ständige Entwicklung neuer oder Weiterentwicklung bekannter leistungssteigernder Substanzen statt, und solche neuen oder weiterentwickelten Substanzen können durch Vergleich der Fragmentierungsgraphen bekannter leistungssteigernder Substanzen identifiziert werden.

Möglich ist auch die Identifizierung von Botenstoffen (signaling molecules). Solche Botenstoffe können intrazellulär, zwischen verschiedenen Geweben oder zwischen Organismen einer oder mehrere Spezies auftreten. Durch solche Botenstoffe wird das Zusammenspiel der Zellen in einem Organismus geregelt. Bei Pflanzen dienen solche Botenstoffe beispielsweise dazu, Fressfeinde von Pflanzenschädlingen anzulocken, die die Pflanze befallen haben. Solche Botenstoffe können auch eine Schädigung eines Pflanzenschädlings bewirken (Allomone). Die Identifizierung solcher Botenstoffe kann beispielsweise bei der Entwicklung von Pflanzenschutzmitteln oder der Züchtung neuer Pflanzenarten Verwendung finden. Darüber hinaus ist die Identifizierung von Substanzen im Trinkwasser, Flusswasser oder anderen Wässern möglich. Um eine hohe Wasserqualität zu gewährleisten, müssen im Wasser enthaltene Substanzen identifiziert werden, um so beispielsweise eine Gefährdung von Mensch, Tier und Pflanze auszuschließen. Dabei kann es sich z. B. um Abbauprodukte von Substanzen, die vom Menschen eingebracht werden (beispielsweise Hormone, Pflanzenschutzmittel) oder um von Mikroorganismen erzeugte oder verstoffwechselte Substanzen handeln.

Ferner sei als Einsatzgebiet des erfindungsgemäßen Verfahrens allgemein die Identifizierung von (unbekannten) Metaboliten zu wissenschaftlichen oder kommerziellen Zwecken genannt.

Die Erfindung soll nachstehend anhand von in der Zeichnung dargestellten Ausfuhrungsbeispielen zur Bestimmung struktureller Ähnlichkeiten sowie zur Klassifikation von Stoffen näher erläutert werden. Es zeigen:

Abb. 1 : Strukturformel von Dopamin Abb. 2: Hypothetischer Fragmentierungsgraph von Dopamin, wobei die Knoten den bei der Tandem-Massenspektrometrie gemessenen Fragmenten und die Kanten den Neutralverlusten entsprechen

Abb. 3: Fragmentierungsgraph von Dopamin, dargestellt als partielle Ordnung

Abb. 4: Strukturformel von Tyramin

Abb. 5: Hypothetischer Fragmentierungsgraph von Tyramin, Darstellung wiederum durch Knoten (Fragmente) sowie durch Kanten (Neutralverluste) Abb. 6: Optimales lokales Alignment der Fragmentierungsgraphen von

Dopamin (links) und Tyramin (rechts) Abb. 7: Übersicht über die Bewertung des Alignments der

Fragmentierungsgraphen von Dopamin und Tyramin Abb. 8: Übersicht über die Bewertung der Alignments mit dem hypothetischen Fragmentierungsgraph von Histidin Abb. 9: Übersicht über die Bewertung der Alignments mit dem hypothetischen Fragmentierungsgraph von 4-

Hexosyloxybenzoyl Cholin

a) Bestimmung struktureller Ähnlichkeiten:

Die Bestimmung der strukturellen Ähnlichkeiten von zwei oder mehr Stoffen wird im Folgenden beispielhaft an den Stoffen Dopamin und Tyramin beschrieben. Beide gehören zu den biogenen Aminen und besitzen eine sehr ähnliche Struktur (vgl. Abb. 1 und 4).

In der typischen Anwendung wird eine der beiden Strukturen unbekannt sein. Dann können anhand des Verfahrens Annahmen über diese Struktur gemacht werden. Das hier vorgestellte Beispiel soll einen diesbezüglichen Ansatz verdeutlichen.

Sowohl Dopamin als auch Tyramin wurden mit Hilfe von Tandem- Massenspektrometrie untersucht. Die Fragmentierung erfolgte dabei mittels an sich bekannter collision induced dissociation (CID). Es ist jedoch auch möglich, andere Massenspektrometrieverfahren, wie z. B. MSⁿ, bzw. andere Fragmentierungsmethoden zu verwenden.

Für die beiden Stoffe wurden jeweils mehrere Fragmentierungsspektren (Tochterionenspektren) gemessen und daraus hypothetische Fragmentierungsmuster berechnet. Als Grundlage für die weitere Analyse können natürlich auch manuell erzeugte Fragmentierungsmuster verwendet werden. Die Fragmentierangsgraphen mit dem hypothetischen Verlauf der beiden Fragmentierungen sind in Abb. 2 (Dopamin) und Abb. 5 (Tyramin) mit Hilfe von Knoten als Fragmente der Substanz und Kanten als Fragmentierungsreaktionen (Neutralverlusten) dargestellt. Andere mögliche Repräsentationen sind z. B. partielle Ordnungen (vgl. Abb. 3), Relationen und Hierarchien.

Im weiteren Verlauf wurden die beiden Fragmentierungsgraphen für den Vergleich aufbereitet. Die für dieses Beispiel relevanten Informationen sind die Neutralverluste, welche bei der Fragmentierung entstehen (jeweils an den Kanten der Graphen angegeben). Diese Informationen wurden auf die jeweils darunter liegenden Knoten übertragen, da im Folgenden ein Algorithmus zum Alignieren der Knoten zweier Graphen angewendet wurde. Werden hingegen sowohl die Fragmente als auch die Neutralverluste bzw. nur die Fragmente für den Vergleich berücksichtigt oder werden Algorithmen zum Alignieren von Kanten verwendet, kann dieser Schritt entfallen, ggf. ist jedoch eine anderweitige Aufbereitung der Fragmentierungsgraphen zweckmäßig bzw. erforderlich.

Die beiden aufbereiteten Fragmentierungsgraphen von Dopamin und Tyramin wurden anschließend lokal aligniert. Es wurden also die Bereiche beider Graphen ermittelt, welche die größte lokale Ähnlichkeit besitzen. Da es sich bei den Fragmentierungsgraphen in diesem Beispiel um Bäume handelt, wurde für das Alignieren der Baum-Alignment- Algorithmus nach T. Jiang, L. Wang & K. Zhang (Alignment of trees: an alternative to tree edit, Theor. Comput. Sei., Elsevier Science Publishers Ltd., 1995, 143, 137-148) angewandt. Die Bewertung von Knotenpaaren wurde dabei wie folgt gewählt: Gleiche Knoten (d. h. Knoten mit gleicher Summenformel) wurden sehr positiv bewertet, wobei auch die Größe des Neutralverlustes in die Bewertung einging; Knotenpaare, bei denen der Unterschied in der Summenformel chemisch erklärbar ist, wurden leicht positiv bewertet; und Paare von unterschiedlichen Knoten sowie Paare bestehend aus einem Knoten und einer Lücke wurden negativ bewertet. Die Gesamtbewertung eines Alignments berechnete sich schließlich aus der Summe aller Einzelbewertungen der Knotenpaare.

Für die Bewertung von Knotenpaaren gibt es außer dem in diesem Beispiel gewählten Ansatz auch zahlreiche andere Möglichkeiten, so z. B. die Berechnung von „log odds" (logarithmierte „Chancen") bzw. „log likelihoods" (logarithmierte Wahrscheinlichkeiten). Des Weiteren ist es möglich die optimale Bewertungsfünktion mit Hilfe von Maschinellem Lernen oder evolutionären Algorithmen zu ermitteln. Ein Alignment kann sowohl lokal (wie in diesem Beispiel) als auch global erfolgen, außerdem können auch mehrere Graphen gleichzeitig miteinander verglichen werden (multiples Alignment). Das Ergebnis des lokalen Alignments ist in Abb. 6 dargestellt (links: Dopamin und rechts: Tyramin). Die Knotenbezeichnung setzt sich aus einem Index, der Summenformel des Neutralverlustes sowie aus einem Buchstaben, welcher die paarweise Entsprechung im Alignment angibt, zusammen. Die Grautöne visualisieren diese Zusammengehörigkeit. Knoten 3 im linken Baum ist nicht gefärbt, da er keine Entsprechung im rechten Baum hat, er wurde mit einer Lücke aligniert. Die dünnumrahmten Knoten sind nicht Bestandteil des optimalen lokalen Alignments.

Abb. 7 zeigt die Bewertung der alignierten Knoten der aufbereiteten Fragmentierungsgraphen von Dopamin und Tyramin. In eckigen Klammern sind jeweils die Summenformeln der alignierten Neutral Verluste angegeben. Darunter ist die Bewertung der jeweiligen Knotenalignments angegeben. Die Summe dieser ergibt die Gesamtbewertung. Man kann sehen, dass sich die strukturelle Ähnlichkeit beider Stoffe im Ergebnis des Alignments widerspiegelt, da große Bereiche beider Graphen einander entsprechen. Außerdem wird aus dem zusätzlichen Knoten „CO" bei Dopamin, der mit einer Lücke aligniert wird, auch ersichtlich, dass Dopamin eine zusätzliche Hydroxylgruppe besitzt. Es ergeben sich dadurch auch Verschiebungen in der Abspaltung der Kohlenstoff-Atome, daher der zusätzliche Verlust von CO und nicht eines Sauerstoffatoms allein.

Bezogen auf die typische Anwendung bei der eine der beiden Strukturen unbekannt ist, ließe sich aus dem berechneten Alignment schließen, sowohl dass der untersuchte Stoff dem Referenzstoff strukturell sehr ähnlich ist als auch dass es einen Unterschied von einer sauerstoffhaltigen Gruppe gibt. b) Klassifikation von Stoffen:

Im Folgenden wird die Klassifikation von Stoffen beispielhaft an Histidin sowie 4-Hexosyloxybenzoyl Cholin beschrieben. Als Referenz wurden hypothetische Fragmentierangsgraphen von 35 weiteren Stoffen verwendet.

Wie beim ersten Anwendungsbeispiel (Bestimmung struktureller Ähnlichkeiten) wurden wiederum von beiden Stoffen Fragmentierungsspektren gemessen und hypothetische Fragmentierungsgraphen berechnet und aufbereitet.

Anschließend wurden die beiden Fragmentierungsgraphen jeweils mit allen Referenzgraphen lokal aligniert und die Alignments bewertet (je höher die Bewertung desto größer die ermittelte Ähnlichkeit). Der Vergleich zweier Fragmentierungsgraphen lief dabei wie in Beispiel 1 beschrieben ab.

Die Anwendung des lokalen Alignments ist dabei nur eine Möglichkeit, es können auch andere Methoden, sowohl lokale als auch globale Verfahren, verwendet werden, um Fragmentierungsgraphen zu vergleichen.

Die Ergebnisse der Vergleiche sind tabellarisch in Abb. 8 (Histidin) und Abb. 9 (4-Hexosyloxybenzoyl Cholin) dargestellt. Man kann erkennen, dass der Fragmentierungsgraph von 4- Hexosyloxybenzoyl Choline eine sehr hohe lokale Ähnlichkeit mit anderen Cholinen hat (die ersten 13 Treffer sind Choline).

Das gleiche gilt für Histidin, 8 der besten 10 Treffer sind Aminosäuren und die anderen beiden sind Amine. Dies zeigt beispielhaft, dass der vorgestellte Ansatz erfolgreich genutzt werden kann, um die beiden hier untersuchten Stoffe in die Klassen Aminosäuren und Choline einzuteilen.

Des weiteren ist anzumerken, dass die jeweils besten Treffer in diesem Beispiel auch die größte strukturelle Ähnlichkeit mit den untersuchten Stoffen haben.

Claims

Patentansprüche

1. Verfahren zur Identifizierung insbesondere unbekannter Substanzen durch Massenspektrometrie, bestehend aus folgenden Schritten: a) Aufnahme zumindest eines massenspektrometrischen

Fragmentierungsspektrums (Tochterionenspektrums) der zu identifizierenden Substanz, b) Bestimmen eines Fragmentierungsgraphen dieser Substanz aus dem zumindest einen massenspektrometrischen Fragmentierungsspektrum, wobei in dem Fragmentierungsgraph die in dem zumindest einem Fragmentierungsspektrum gemessenen Fragmente der Substanz durch Objekte und die Fragmentierungsreaktionen durch Verknüpfungen repräsentiert werden, c) Vergleich der Daten des vollständigen oder teilweisen

Fragmentierungsgraphen mit Referenzdaten, um die Substanz anhand ihrer Struktur und/oder der Stoffklasse und/oder ihrer chemischen Eigenschaften zu identifizieren.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Fragmentierungsgraph typischerweise durch Knoten als Fragmente der Substanz und Kanten als Fragmentierungsreaktionen (Verknüpfung) repräsentiert wird.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Fragmentierungsgraph mit Hilfe einer von der typischen Darstellung mit Knoten und Kanten verschiedenen mathematischen Darstellung, wie z. B. einer partiellen Ordnung, einer Relation, oder einer Hierarchie, repräsentiert wird.

4. Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, dass der Fragmentierungsgraph automatisch erzeugt wird.

5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Vergleich des Fragmentierungsgraphen mit den Referenzdaten lokal erfolgt, wobei nicht alle Objekte und Verknüpfungen des Fragmentierungsgraphen, sondern nur ein vom Vergleichsverfahren automatisch zweckmäßig gewählter Teil derselben zum Vergleich herangezogen werden.

6. Verfahren nach Ansprüchen 1 und 5, dadurch gekennzeichnet, dass der Vergleich durch paarweises Alignieren erfolgt.

7. Verfahren nach Ansprüchen 1 und 5, dadurch gekennzeichnet, dass der Vergleich durch multiples Alignieren erfolgt.

8. Verfahren nach einem oder mehreren der Ansprüche 1 sowie 5 bis 7, dadurch gekennzeichnet, dass der Vergleich rechentechnisch durchgeführt wird.

9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die Daten des Fragmentierungsgraphen mit in einer elektronischen Datenbank gespeicherten Referenzdaten verglichen werden.

10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass der Vergleich erfolgt, indem eine Vorrichtung zur massenspektrometrischen Analyse, durch welche die Daten des

Fragmentierungsgraphen generiert werden, mit einer die elektronische Datenbank enthaltenden rechentechnischen Einheit gekoppelt wird.

11. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das zumindest eine massenspektrometrische Fragmentierungsspektrum mit einem Tandem-Massenspektrometer erstellt wird.

12. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das zumindest eine massenspektrometrische Fragmentierungsspektrum durch mehrfache Fragmentierung (MSⁿ) erstellt wird.

13. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Fragmentierung durch collision induced dissociation (CID) erfolgt.

14. Verfahren nach Anspruch I₅ dadurch gekennzeichnet, dass vor der Aufnahme des zumindest einen massenspektrometrischen Fragmentierungsspektrums eine Substanztrennung, beispielsweise durch Flüssigkeitschromatographie, Gaschromatographie oder Kapillarelektrophorese, durchgeführt wird.

15. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass zusätzlich zum Vergleich der Daten des Fragmentierungsgraphen mit den Referenzdaten die chromatographische Retentionszeit und/oder die elektrophoretische Durchlaufzeit und/oder UV-

Absorptionsspektren der untersuchten Substanz als weitere Vergleichskriterien zur Identifizierung der Substanz herangezogen werden.