-
HINTERGRUND
-
Bezeichnungen,
chemische Formeln und Strukturdiagramme sind die Sprache der Chemie.
In jedem Fachgebiet, in dem Ziele in einer Reihe von Sprachen ausgedrückt werden
können,
besteht Interesse und Bedarf an einer Übersetzung zwischen den verschiedenen
Ausdrücken,
die diese Ziele beschreiben. Ein Bedarf an Nomenklatur entsteht,
wenn Chemiker die Informationen über
Verbindungen in Sprache und Schrift übermitteln müssen, in
letzterem Fall normalerweise dann, wenn ein (unzweideutiges und
einzigartiges) strukturelles Diagramm aus irgendeinem Grund ungeeignet
ist oder nicht verwendet werden kann.
-
Die
Nomenklatur, die zum Beschreiben chemischer Strukturen verwendet
wird, ist eine Sprache und kann daher, wenn sie in eine andere Darstellung übersetzt
wird, unter Verwendung von Linguistik-Verfahren 1–3 bearbeitet
werden. Der menschliche geistige Prozess, von einer chemischen Bezeichnung
auf die Struktur zu kommen, scheint eine regelbasierte linguistische
Methode zu sein. Wie in der Linguistik gibt es eine Auseinandersetzung
zwischen Pragmatikern, die jeden Begriff als zufriedenstellend erachten,
der die beabsichtigte Bedeutung vermittelt, und den Puristen, die
darauf bestehen, dass Regeln eingehalten werden müssen, wobei bedauerlicherweise
für den
Computer die Pragmatiker die Oberhand behalten. Daher versucht die
zweckbestimmte Organisationsgesellschaft Commission on the Nomenclature
of Organic Chemistry (CNOC) der International Union of Pure and
Applied Chemistry (IUPAC) (http://www.iupac.org), die seit 1938
für die
Erarbeitung, Überwachung
und Überprüfung der
Empfehlungen, die Richtlinien für
die systematische Nomenklatur sind, zuständig ist, die Nomenklatur als
ein Ganzes zu sehen, wobei bereits bestehende Gepflogenheiten in
Regeln kodifiziert und nur sehr selten Neuheiten vorgeschlagen werden. 4Obwohl das System über 110 Jahre entwickelt worden
ist, (initiiert durch die historische "Genfer Konferenz" von 1892), ist es weit davon entfernt,
perfekt zu sein und ist nicht zu einem universellen Standard geworden.5
-
Mittlerweile
existiert die CNOC nicht mehr und wurde (im Januar 2002) – ebenfalls
innerhalb der IUPAC – durch
die Division of Chemical Nomenclature and Structure Representation
(http://www.iupac.org/divisions/VIII/) ersetzt, deren Hauptaufgaben
darin bestehen, Bemühungen
bei der Nomenklatur-Systematisierung zu koordinieren und alle relevanten
Aktivitäten
und Projekte der chemischen Gemeinschaft zu überwachen, die auf unzweideutige
Strukturdarstellung(en) ausgerichtet sind. Typischerweise umfasst
dies die Darstellung auf dem Computer 6–8 für örtliche
Berechnung genauso wie für
verteilte Berechnung in Intranetzen und im Internet (hauptsächlich Web-basiert).
-
Zum
Zweck der Klarheit bei der Auswahl von bevorzugten Bezeichnungen
haben die zwei bedeutendsten Hersteller und Verteiler von chemischen
Informationen (Chemical Abstract Service (http://www.cas.org) und
Beilstein-Institut (die Beilstein-Datei wird jetzt von MDL bereitgestellt
und verwaltet – http://www.mdli.com))
nicht-dokumentierte ad hoc Unterregeln entwickelt, die das Problem
der eindeutigen Bezeichnung von organischen Verbindungen nur noch
vergrößert haben.
Diese Regeln waren erforderlich, weil die IUPAC-Empfehlungen häufig mehr
als eine Bezeichnung für
eine bestimmte chemische Verbindung zulassen. Demzufolge überprüften beide
Einrichtungen das IUPAC-System und erstellten ihre eigenen "systematischen" IUPAC-kompatiblen
(statt von der IUPAC gebilligten) Nomenklaturen. Außerdem haben
Trivial- und Handelsbezeichnungen, die kürzer und prägnanter sind, die systematischen
Bezeichnungen für
eine Reihe von Verbindungen erfolgreich ersetzt, die von kommerzieller
Bedeutung sind oder Gegenstand des öffentlichen Interesses sind,
(beispielsweise Pharmazeutika, Insektizide und Schadstoffe). Sowohl
CAS als auch Beilstein beanspruchen Konformität mit den IUPAC-Regeln, und
im Allgemeinen ist das richtig. Die IUPAC-Empfehlungen wurden bewusst
so formuliert, dass sie in ihrer Anwendung beträchtliche Freiheit lassen, und
in vielen Fällen
sind sie nicht vollständig
bis zu ihrem logischen Endergebnis definiert. In der Praxis bedeutet
dies, dass jede vorgegebene Struktur nicht notwendigerweise auf
eine eindeutige korrekte Bezeichnung verweist. Daher können die
spezifischen "Dialekte", die von CAS und
Beilstein unterstützt
werden, immer noch eine systematische Nomenklatur darstellen, gleichgültig, wie
weit sie auseinander liegen. Dies ist die größte Schwäche der Nomenklatur, soweit
die Computernutzung davon betroffen ist.
-
Der
durchschnittliche Benutzer kann keine klar definierten "Dialekte" von IUPAC finden.
Dies hat auch eine Lösung
der Schwierigkeiten beim Erstellen eines unzweideutigen Nomenklatur-Standards
behindert. So lange ein derartiger Standard nicht vorhanden ist,
steht der Chemiker in der Praxis in einem hohen Maß von systematischer
Nomenklatur befremdet da. Aber selbst, wenn eine Art von Konsens
erreicht und ein unzweideutiger Nomenklatur-Standard ausgearbeitet
und angenommen wird, so besteht immer noch das Problem einer Nomenklatur-Komplexität. Man ist
sich allgemein einig, dass die IUPAC-Nomenklatur schwerfällig ist
und eine sehr große
Anzahl von Regeln aufweist, die oft sehr schwierig zu befolgen sind.
Häufig
zulässige
Alternativen bei der Bezeichnungs-Zuweisung, widersprüchliche
Empfehlungen, das Fehlen von Regeln in gewissen Bereichen und die übertriebene
Freiheit bei der Interpretation der Regeln führen zu Vieldeutigkeit und
spezifischem Nomenklatur-Chaos.
-
Ein
grundlegendes Problem bei der Benennung ist, dass eine korrekte
Bezeichnung nicht notwendigerweise die einzige korrekte Bezeichnung
für eine
Struktur ist. Um die Angelegenheit weiter zu komplizieren, sind
die Regeln, um zu einer korrekten Bezeichnung zu gelangen, wie oben
erläutert,
komplex, und nur sehr wenige Chemiker können sie bewältigen.
Noch schlimmer ist, dass die wichtigen weltweiten Zentren für chemische
Dokumentation entweder intern oder extern bei ihrer Anwendung der
Regeln nicht einheitlich vorgehen. Dies ist nicht das Ergebnis von
Nachlässigkeit
oder mangelndem Bemühen;
es ist einfach eine Widerspiegelung der Schwierigkeit, sich darauf
zu einigen, wie ein mehrdimensionales Problem in eine einzige, universelle
Textbeschreibung gezwängt
werden kann. Die in 5 gezeigte
Struktur veranschaulicht das Problem.
-
Im
Prinzip ist an einer Vielzahl von Bezeichnungen für Strukturen
nichts auszusetzen. So lange jede Bezeichnung eine angemessene Darstellung
der Struktur ist, gibt es wenige echte Probleme, abgesehen davon,
dass sichergestellt wird, dass Chemiker in passivem Sinn mit den
Regeln einigermaßen
vertraut sind, (d. h. eine Bezeichnung interpretieren können, im
Gegensatz zu sie erstellen). Die herkömmliche (versuchte) Verwendung
von Nomenklatur war in ihrem Umfang jedoch viel größer. Vor
der Computerisierung bestand der Idealfall darin, jede wichtige
strukturelle Untereinheit der Struktur unter Verwendung der Nomenklatur
zu indizieren. Die Struktur sollte intuitiv in Relevanzbereiche
(Acetaldehyd, Benzol, Ethan) aufgeschlüsselt werden, und diese werden
unter Verwendung von Einsatzort-Parametern (1, 2, α) in einen
Text zusammengebunden. Dieses Verfahren basiert auf chemischen Erfahrungswerten
und ist keinesfalls schlecht.
-
Aber
es enthält
die Grenzen seiner eigenen Anwendbarkeit insofern, als das verwendete
Vokabular in einem streng definierten Sinn nie vollkommen standardisiert
worden ist, und die intuitive Unterteilung nie völlig von internen Widersprüchen befreit
worden ist. Dies bedeutet, dass die Verwendung von Indices, die
auf Bezeichnungen oder Teilen von Bezeichnungen basieren, bis heute
ein gewagtes Unterfangen ist. Um das oben genannte Beispiel zu verwenden,
ist es für
die meisten Chemiker nicht sofort ersichtlich, ob sie unter A (für Acetaldehyd),
B (für
Benzol) oder E (für
Ethan) suchen sollen. Ein Computersystem, das in der Lage ist, Bezeichnungen
algorithmisch zu generieren und die gleichen Relevanzregeln zu verwenden,
würde immer
zu der gleichen Indexbezeichnung führen und damit das Problem
ein für
alle Mal lösen 7. Solche Bezeichnungen könnten dann umkehrbar und unzweideutig
in das gleiche strukturelle Diagramm zurück übersetzt werden.
-
Dies
ist leider überhaupt
nicht der Fall. Eine systematische Nomenklatur, wie sie von IUPAC
empfohlen wurde, konnte sich nicht als Standard etablieren. Wie
oben erörtert,
ersetzten Trivial- oder Handelsbezeichnungen, die kürzer und
prägnanter
waren, erfolgreich systematische Bezeichnungen für eine Reihe von chemischen
Verbindungen, die von kommerzieller Bedeutung oder der Gegenstand
von öffentlichem
Interesse sind. Ein umfangreiches Computerprogramm, das so ausgelegt
ist, dass es mit realer chemischer Nomenklatur arbeiten kann, muss
in der Lage sein, halbsystematische, asystematische, veraltete,
vieldeutige oder anderweitig "korrumpierte" Bezeichnungen umzuwandeln,
welche die Realität
der gegenwärtigen
Kommunikation in der Chemie sind.
-
Die Übersetzung
von chemischen Bezeichnungen in Strukturen kann im Allgemeinen als
ein Problem der computerisierten syntaktischen und semantischen
Analyse von Nomenklatur als einer künstlichen Sprache behandelt
werden. Um eine derartige Analyse zu erhalten, muss zuerst eine
formale Grammatik der Nomenklatur aus informellen Regeln abgeleitet
werden. Vom linguistischen Standpunkt aus ist es eine interessante Beobachtung,
dass die grundlegende Sprache aller Benennungssysteme in der organischen
Chemie im Wesentlichen die gleiche ist. Obwohl zwei Chemiker die
gleiche Verbindung unterschiedlich bezeichnen, sind beide in der
Lage, das gleiche strukturelle Diagramm zu zeichnen. In diesem Sinne
entspricht die oben genannte Verwendung von unterschiedlichen Benennungspraktiken
eher dem Problem der Bearbeitung von Dialekten als der Behandlung
von getrennten und verschiedenen Sprachen.
-
Die
Kenntnis einer formalen Grammatik der chemischen Linguistik erfordert
die Erstellung eines Wörterbuchs
von Fragmenten, (so genannten Morphemen), aus denen die Bezeichnungen
aufgebaut werden können,
und die Erläuterung
von geeigneten Syntax-Regeln,
die dieses Gebilde bestimmen. 2 Die Fragmente
werden dann in nummerierte Klassen gruppiert und Regeln in Begriffen
von diesen geschrieben, um Ausdrücke zu
definieren, so dass auf jede Regel durch ihre dazugehörige Ausdrucksbezeichnung
verwiesen wird. Beispielsweise kann eine Regel gleichzeitig die
Fragmente "meth", "eth", "prop" usw. in dem gleichen
Kontext berücksichtigen.
Die Morpheme müssen
dann in einer bereitgestellten Bezeichnung lokalisiert und erkannt
werden. Der Prozess umfasst ein erstes Analysieren der Bezeichnung,
indem sie in längstmögliche Textfragmente aufgeschlüsselt wird,
und das anschließende Übermitteln
der Fragmente zur lexikalischen Analyse, um die Fragmente gemäß einer
Gruppe von Syntaxregeln unter Verwendung des vordefinierten Wörterbuchs
zu identifizieren 9. Unter Berücksichtigung
der zahlreichen halbsystematischen Fragmente, die von IUPAC gespeichert
wurden, (z.B. Essigsäure
statt der systematischen Ethansäure),
muss ein nur funktionierender Analyse-Algorithmus mit einem extrem
großen
Wörterbuch
von Morphemen arbeiten. Sobald eine gültige Bezeichnung, (das Problem
von zulässigen
gültigen
Bezeichnungen wurde oben bereits erwähnt), erfolgreich analysiert
worden ist, müssen
geeignete Routinen aufgerufen werden, um die semantischen Informationen
zu verarbeiten, wenn jede Syntaxregel befolgt wurde. Die in der
Bezeichnung lokalisierten Morpheme werden dann mit entsprechenden
strukturellen Fragmenten verknüpft,
die in einer kompakten Form als kleine Verbindungstabellen gespeichert
werden. Diese werden dann kombiniert und zusammen in die endgültige vollständige Verbindungstabelle
(CT) eingeordnet, die der vollständigen
Bezeichnung entspricht. Grafikroutinen wandeln die Verbindungstabellen
in strukturelle Diagramme um und stellen sie als Ausgabe auf Datenendgeräten oder in
gedruckter Form10 bereit.
-
Umwandlungen
der oben erläuterten
Art blicken auf eine lange Tradition zurück. Die erste Verwendung eines
computerisierten Grammatikanalyseprozesses mit einem sehr eingeschränktem Wörterbuch
von Nomenklaturbegriffen im Vergleich mit der großen Bandbreite
von Konstruktionen, die in der IUPAC-Nomenklatur zulässig sind,
wurde von Elliot vorgenommen.11 Später wurden
praktische betriebsbereite Computerprogramme auf der Basis derartiger
Prozeduren durch den CAS 12 berichtet, wo
sie zum Validieren des CAS-Index für die CAS-Index-Datei verwendet
wurden. Ungefähr
zur gleichen Zeit berichteten Stilwell 13 und
später Cooke-Fox
et al 14 über eine sehr interessante
grammatikbasierte Nomenklatur-Übersetzung
für eine
Steroid-Nomenklatur. Von einem weiteren System, das jedoch halbsystematische
und triviale Fragmente aus dem Morphem-Wörterbuch
ausschloss, wurde von Carpenter 15 berichtet.
Die bisher am weitesten entwickelte Forschung zur grammatikbasierten Übersetzung
von IUPAC-Nomenklatur in strukturelle Diagramme wurde von dem Team
an der University of Hull 2,9–10,14,16–17 durchgeführt.
-
Das
erste funktionierende praktische System, (genannt VICA), das Bezeichnungen
in Strukturen übersetzte,
geht auf das Jahr 1986 zurück
und wurde von Domokos und Goebels entwickelt für den IBM-Mainframe-Computer
im Beilstein-Institut in Frankfurt/Main, Deutschland. Es wurde bei
Beilstein (mit einer Erfolgsquote von bis zu 95%) ausschließlich für die Beilstein-Nomenklatur
angewendet und wurde nie außerhalb
von Beilstein eingesetzt. Abgesehen von internen Beilstein-Memos
und technischen Dokumenten gibt es keine überprüften Veröffentlichungen, auf die man
sich beziehen könnte.
Das Format der eingegebenen chemischen Bezeichnung, das von VICA
akzeptiert wurde, (geschrieben in Pascal- oder Fortran-Programmiersprache),
war streng für
die Syntax der systematischen Nomenklatur definiert, wie sie im "Beilstein-Dialekt" verwendet wurde (spezifische
Begrenzungszeichnen, spezifische Behandlung von nachgestellten Suffixen
wie Ester oder Amide, spezifische Syntax von Mehrkomponentenstrukturen
usw.).
-
Ein
weiterer interessanter Versuch im Bereich der algorithmischen Bezeichnungs-Umwandlung ist ROXY,
ein System, das 1993 von Lawson18 entwickelt
und programmiert wurde. Dieses Visual-Basic-Programm arbeitet mit
einem sehr kleinen Wörterbuch
(etwa 500 Einträge)
von vordefinierten Bezeichnungsfragmenten, generiert sehr erfolgreich
miteinander verschmolzene und annellierte Ringsystem-Verbindungstabellen
unter Verwendung eines streng algorithmischen Mechanismus (ohne
Datenbank-Suchlauf) und erreicht für reale Bezeichnungen eine
Erfolgsquote von bis zu 21%.
-
Vor
kurzem kamen ein paar interessante praktische (und im Handel erhältliche)
Computersysteme, die Nomenklatur in Verbindungstabellen übersetzen,
auf den Markt. Das erste ist von CambridgeSoft Corporation, Cambridge,
Mass., USA und ist unter der Bezeichnung "Name=Stru" bekannt. Seine letzte Version ist in
dem Strukturbearbeitungs-Paket
ChemDraw Ultra und der chemischen Office-Suite ChemOffice Ultra
enthalten.19 Die Erfolgsquote, (Anteil der
korrekt generierten Strukturen an der Gesamtanzahl der Strukturen
in dem Testmuster), die von Brecher in seinem Papier 20 berichtet
wurde, schwankte von hohen 92% bis zu niedrigen 33,5% und hing von
der Qualität
der Bezeichnungen in der Ausgangs-Testauswahl ab.
-
Das "Name=Stru"-System weist einige
Einschränkungen
auf. Die Cahn-Ingold-Prelog-
(CIP) Stereochemie (R/S, E/Z) wird nicht unterstützt, und einige Klassen von überbrückten Ringsystemen
werden vernachlässigt.
Des Weiteren kann das System Bezeichnungen von Polymeren und diejenigen
von anorganischen Koordinations-Komplexen
nicht verarbeiten. Auch für
die subtraktive Nomenklatur (de-, des- usw.) fehlt die Unterstützung völlig.
-
Das
Papier von Brecher enthält
eine detaillierte Beschreibung und Klassifizierung von Problemen,
auf die jeder trifft, der versucht, einen automatischen Nomenklatur-Umwandler zu entwickeln.
Diese Probleme – laut
Brecher – ergeben
sich vorwiegend aus der Vieldeutigkeit der derzeitigen Nomenklatur-Praktiken.
-
Advanced
Chemistry Development brachte ein weiteres Programm dieser Art auf
den Markt (ACD Labs, Toronto, Kanada). Dieses Programm ist in der
Lage, in vielen Fällen
die Erfolgsquote des "Name=Stru"-Programms zu übertreffen. "ACD/Name to Structure" wird als eine interaktive
oder Batch-Version (eine Umwandlungssitzung kann nicht für eine einzelne
Bezeichnung, sondern nur für
eine Datei von eingegebenen Bezeichnungen gestartet werden) angeboten.
Dieses Programm ist nach Aussage von ACD Labs 21 in
der Lage, chemische Strukturen für
Bezeichnungen der meisten Klassen von allgemeinen organischen Verbindungen,
viele Derivate von mehr als 150 grundlegenden übergeordneten Naturprodukt-Strukturen
und halbsystematische und triviale Bezeichnungen von allgemeinen
organischen Verbindungen zu generieren.
-
Die
Batch-Version des Bezeichnungs-Umwandlers von ACD Labs ("Name to Structure
Batch") generiert
Strukturen aus systematischen und nicht-systematischen chemischen
Bezeichnungen von allgemeinen organischen, einigen biochemischen
und einigen anorganischen Verbindungen. Die Eingaben für dieses
Programm können
systemspezifische ACD ChemFolder *.cfd-Formatdateien, reguläre ASCII-Textdateien
oder MDL *.db oder *.sdf-Dateien sein. Vor kurzem wurde die Funktionalität des Programms
erweitert, und Name to Structure Batch kann auch SMILES-Zeichenketten
direkt in chemische Strukturen umwandeln. Das Programm steht auch
für UNIX- Plattformen zur Verfügung. Dies
ist besonders wichtig, weil die meisten der Intranet-Systeme für kleine
chemische Datenbanken auf UNIX-Minicomputern gefahren werden.
-
Ein
weiterer Umwandler von Bezeichnungen in Strukturen stammt von ChemInnovation
Software, Inc., eine Gesellschaft mit Sitz in San Diego, Kalifornien.
Das Programm heißt
NameExpert. Das Programm ist mehr akademischer als praktischer Natur
(was hauptsächlich
auf eine nicht akzeptable niedrige Erfolgsquote zurückzuführen ist).22 Das Programm versteht strikte systematische
organische ICTPAC-Nomenklatur. Für
eine eingegebene chemische IUPAC-Bezeichnung erstellt es die entsprechende
Struktur in einem der drei Formate: Stenogramm, Kekule oder halbstrukturelle
Formel. Außerdem
kann es Kennzeichen zu entsprechenden Atomen und Gruppen hinzufügen. Die
letzte Version unterstützt
jetzt eingeschränkte
Stereochemie und umfasst 8000 Arzneimittel-Bezeichnungen und -strukturen.
-
Um
die Liste der verfügbaren
Software-Pakete zum Umwandeln von Bezeichnung in Struktur vollständiger zu
machen, muss noch ein weiteres Programm erwähnt werden, nämlich IUPAC
DrawIt, das von Bio-Rad Laboratories Corporate, Hercules, Ca., USA
auf den Markt gebracht wurde. Es kann unter keinen Umständen als
Nomenklatur-Werkzeug für
den praktischen Einsatz in einem Unternehmen betrachtet werden.23 Die hauptsächliche Einschränkung ist
die maximale Anzahl von Schweratomen, die in der resultierenden
Ausgabestruktur zulässig
sind, die auf 10 eingestellt ist. Das Programm ist relativ effektiv
für streng
systematische IUPAC-Bezeichnungen, doch für die allgemeine Nomenklatur,
wie diejenige, die in der aktuellen Literatur zu finden ist, kann
das Programm nicht mehr als eine einstellige Erfolgsquote vorweisen.
Daher kann es unter keinen Umständen
als eine Alternative oder Konkurrenz für Name=Stru oder für ACD/Name
to Structure betrachtet werden.
-
Die
chemische Nomenklatur, und insbesondere die organische Nomenklatur,
die in der Literatur veröffentlicht
wird (Zeitschriften, Patente, technische Dokumentationen usw.) ist
im Allgemeinen von schlechter Qualität. Veröffentlichte Regeln (z.B. IUPAC)
werden im Allgemeinen ignoriert, falsch interpretiert, korrumpiert oder
nach Belieben erweitert. Die Nomenklatur, die heute als "systematisch" betrachtet wird,
wird durch den Konsens der Ansichten der Anwender definiert. Eine "korrekte Bezeichnung" existiert nicht.
Es gibt "vernünftige" Benennungspraktiken,
z.B. diejenigen, die auf die Beilstein- oder CAS-"Dialekte" beschränkt sind.
-
Die
bisherige Software zum Extrahieren von Informationen aus Text erzeugte
oft nicht akzeptable Resultate hinsichtlich Genauigkeit und Umfang.
Um Extraktionen mit akzeptabler Genauigkeit und akzeptablem Umfang
zu erzeugen, wurde ein menschlicher Indexierer eingesetzt. Allerdings
ist der Einsatz eines menschlichen Indexierers zeitaufwändig und
kostspielig.
-
KURZDARSTELLUNG
-
Eine
bevorzugte Ausführungsform
der Erfindung umfasst eine Software, die entwickelt wurde, um chemische
Daten automatisch aus Dokumenten zu extrahieren. Die bevorzugte
Ausführungsform
konzentriert sich, ist aber nicht darauf beschränkt, auf die Identifizierung
und das Extrahieren von chemischen Strukturen, Reaktionen und einigen
allgemeinen physikalischen Werten aus Patenten.
-
Der
Kern der Software baut vorzugsweise auf einem handelsüblichen
Produkt auf (zum Beispiel "Insight
DiscovererTM Extractor" (IDE) von Temis GmbH; siehe http://www.temis-group.com),
das eine standardmäßige Informationsextraktions-Technologie verwendet.
Während
die frühere
Technologie typischerweise Abruf- und Präzisionswerte von ungefähr 60% erzielte,
erreichen bevorzugte Ausführungsformen
der Erfindung bessere Ergebnisse, indem chemisches Wissen, Text-Mining-Verfahren
und linguistisches Wissen mit intelligenter Vor- und Nachverarbeitung
kombiniert werden, einschließlich,
zumindest in einigen Ausführungsformen,
Plausibilitätsprüfern. Beispielhafte
Ergebnisse umfassen Werte um 70% für Abruf und mehr als 90% für Genauigkeit
(siehe unten).
-
"Genauigkeit" und "Abruf' sind allgemeine
Maßeinheiten
für den
Erfolg von Informationsextraktionsprogrammen. "Abruf' bezieht sich auf die Menge und wird
als der Anteil derjenigen Reaktionen definiert, die durch die Software
korrekt identifiziert werden im Vergleich mit allen Reaktionen,
die durch einen menschlichen Leser identifiziert werden (korrekt
identifizierte Reaktionen/alle Reaktionen). "Genauigkeit" gibt einen Messwert für die Qualität der Ergebnisse
an und wird als der Anteil derjenigen Reaktionen definiert, die
durch die Software korrekt identifiziert werden im Vergleich mit
allen Reaktionen, die durch die Software identifiziert werden (korrekt
identifizierte Reaktionen/alle identifizierten Reaktionen).
-
Ein
Ziel einer bevorzugten Ausführungsform
ist es, chemische Informationen aus Dokumenten zu extrahieren und
diese Informationen in einer Datenbank zu speichern, wodurch automatisch
ein Index für
die zu Grunde liegenden Dokumente erstellt wird. Wichtige Suchbegriffe
für Chemiker
sind chemische Strukturen in Vektorgrafikform (Verbindungstabelle).
Daher werden chemische Bezeichnungen, die in einem Dokument gefunden
werden, (z.B. einem Patent), einer Übersetzung der Bezeichnung
in eine Struktur unterzogen.
-
Ein
weiteres Ziel ist es, die Qualität
der Daten so hoch wie möglich
zu halten und die Fehlerquote auf einem Niveau zu halten, das mit
demjenigen vergleichbar ist, das durch einen menschlichen Indexierer
erzeugt wird.
-
Zu
den Objekten, die eine bevorzugte Ausführungsform identifizieren kann,
gehören:
(1) bibliografische Angaben; (2) chemische Bezeichnungen; (3) chemische
Reaktionsschemata; und (4) physikalische Daten, die mit den Verbindungen
verknüpft
sind. Die bevorzugte Architektur basiert auf externen Regeln (Konzepten).
Dies macht es einfach, den Umfang auf weitere Objekte auszudehnen,
was der Fachmann erkennt. Die identifizierten Objekte und Daten
werden aus einem Dokument extrahiert und in eine Datenbank geladen.
-
Bevorzugte
Ausführungsformen
der vorliegenden Erfindung umfassen Verfahren und Software zum Verarbeiten
von Textdokumenten und Extrahieren darin enthaltener chemischer
Daten. Bevorzugte Verfahrens-Ausführungsformen umfassen: (a)
Identifizieren und Markieren von einer oder mehreren chemischen
Verbindungen in einem Textdokument; (b) Identifizieren und Markieren
von physikalischen Eigenschaften, die sich auf eine oder mehrere
dieser Verbindungen beziehen; (c) Übersetzen von einer oder mehreren
dieser Verbindungen in eine chemische Struktur; (d) Identifizieren
und Markieren von einer oder mehreren chemischen Reaktionsbeschreibungen
in dem Textdokument; und (e) Extrahieren von wenigstens einigen
der markierten Informationen und deren Speichern in einer Datenbank.
-
Eine
weitere Ausführungsform
umfasst das Identifizieren einer Produktausbeute in einer Reaktion. Eine
weitere umfasst das Übersetzen
von extrahierten markierten Informationen in ein Format, das zum
Speichern in einer Datenbank geeignet ist. Eine weitere Ausführungsform
umfasst das Identifizieren und Markieren von atombezogenen Eigenschaften
innerhalb eines Textdokuments; optional umfassen die atombezogenen Eigenschaften
eines oder mehreres von: Molekularformeln, Zahlen, Reihen von Zahlen,
physikalischen Werten, Kennzeichnungen und Verweisen im Text.
-
In
einer Ausführungsform
ist das Textdokument ein Dokument des Typs XML; in anderen ist das
Textdokument kein XML-Dokument, und das Verfahren umfasst das Analysieren
von Text auf der Basis von Zeilenumbrüchen, Nummerierungsschemata
und speziellen Schlüsselwörtern.
-
In
verschiedenen anderen Ausführungsformen
werden wenigstens einige der chemischen Verbindungen durch ihre
Bezeichnungen beschrieben; wenigstens einige der chemischen Verbindungen
werden durch Molekularformeln beschrieben; und die chemische Struktur
wird durch eine Verbindungstabelle dargestellt. In einer weiteren
Ausführungsform
umfasst ein Schritt zum Identifizieren und Markieren von einer oder
mehreren chemischen Verbindungen in einem Textdokument den Vergleich
mit einem Wörterbuch
mit Fragmenten von chemischen Bezeichnungen. In einer weiteren Ausführungsform
umfasst das Verfahren das Identifizieren und Markieren einer speziellen
Regel, die aus einer Gruppe von vordefinierten Regeln für eine identifizierte
und markierte Verbindung innerhalb einer identifizierten und markierten
Reaktion ausgewählt
wurde; optional werden Regeln in Begriffen von Konzepten definierten.
Regeln können
umfassen: Ausgangsmaterial, Reagenz, Lösungsmittel, Katalysator und
Produkt.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
1 stellt
den Arbeitsablauf einer ersten bevorzugten Ausführungsform dar;
-
2 stellt
den Arbeitsablauf einer zweiten bevorzugten Ausführungsform dar;
-
3 zeigt
ein markiertes Dokument, in dem die wichtigsten Tags identifiziert
sind;
-
4 zeigt
eine Reaktion, die aus einem Patent extrahiert wurde;
-
5 zeigt
die Vieldeutigkeit von chemischer Nomenklatur in einer chemischen
Struktur;
-
6 zeigt
Nomenklatur-Formate, die zum Benennen chemischer Strukturen verwendet
werden;
-
7 zeigt
die Vieldeutigkeit von chemischen Bezeichnungen, die durch allgemeine
Anwendung empirischer Analyse geklärt werden;
-
8 zeigt
die inkonsistente Verwendung von Leerräumen in der Nomenklatur;
-
9 zeigt
ein Beispiel für
Zurückverfolgungs-
und "Vorschau"-Operationen während der
Interpretation eines lokalisierten Fragments in einer chemischen
Bezeichnung;
-
10 zeigt
die eingegebene Bezeichnung und daraus resultierende Struktur aus
dem Reverse AutoNom-Programm;
-
11 zeigt
die Modularität
einer bevorzugten Ausführungsform;
-
12–15 zeigen
ein markiertes Dokument in größerem Detail;
-
16 stellt
den Arbeitsablauf eines NameService dar, wie er in Verbindung mit 1 beschrieben wurde;
und
-
17 stellt
eine repräsentative
Ausgabe des TEMIS-Programms dar, wie in Verbindung mit 2 beschrieben.
-
DETAILLIERTE
BESCHREIBUNG VON BEVORZUGTEN AUSFÜHRUGNSFORMEN
-
Chemische
Bezeichnungen sind komplexe Objekte, die sich aus Bezeichnungsfragmenten,
Lokanten, Multiplikatoren, Präfixen,
Suffixen und Klammern zusammensetzen. Wie im Folgenden ausführlich beschreiben,
identifiziert die Reading Machine (Lesemaschine), (eine bevorzugte
Ausführungsform
der Erfindung, die hierin auch mit "RM" bezeichnet
wird), mit der Hilfe eines Fragment-Wörterbuchs alle Fragmente von
chemischen Bezeichnungen in einem Dokument. Die Textumgebung jedes
Fragments wird analysiert, um zu bestimmen, welche Fragmente und
umgebende Lokanten eine einzelne chemische Bezeichnung bilden. Den
gefundenen chemischen Bezeichnungen wird ein Tag (NamTag) zugewiesen.
-
1 beschreibt
den gesamten Datenfluss einer bevorzugten Ausführungsform.
-
In
Schritt 102 werden chemische Daten innerhalb des Texts
eines Dokuments identifiziert. In dem Fachgebiet sind viele geeignete
Analyseverfahren bekannt, und jedes beliebige oder eine Kombination
von diesen kann zum Identifizieren von chemischen Daten in dem Text
verwendet werden. Beispielsweise kann eine Datenbank, die eine Liste
von chemischen Fragmenten enthält,
als die Basis für
einen Datenanalysealgorithmus dienen.
-
Der
Analyse-Algorithmus empfängt
Text, z.B. ASCII-Zeichen, als Eingabe und analysiert den Text zeichenweise,
wobei kurze Zeichenfolgen mit den Fragmenten in der Datenbank verglichen
werden. (Als Vorläufer
zur Texteingabe kann eine optische Zeichen-Lesevorrichtung verwendet
werden, um ein Papier oder ein anderes Dokument zu lesen, um die
Zeichen zu generieren).
-
Chemische
Daten umfassen chemische Strukturen, chemische Fragmente, Molekularformeln
und "atombezogene
Eigenschaften". "Atombezogene Eigenschaften" sind diejenigen
Eigenschaften, die markiert werden können, ohne den Kontext der
chemischen Daten zu analysieren. Beispielsweise können die
folgenden Textelemente atombezogen sein:
- • Zahlen
oder Reihen von Zahlen
- • Physikalische
Werte (Zahlen plus physikalische Einheit), z.B. "mp: 100 – 120K"
- • Kennzeichnungen
und Bezugswerte innerhalb des Texts, z.B. "Beispiel 2a", "3b"
- • Summenformeln
-
12 stellt
die Identifizierung einer chemischen Struktur in einem Dokument
dar.
-
13 stellt
die Identifizierung von physikalischen Werten in einem Dokument
dar.
-
14 stellt
die Identifizierung von chemischen Bezeichnungen und Molekularformeln
in einem Dokument dar.
-
Wie
zu erkennen ist, können
auch andere chemische Daten in dem Dokument identifiziert werden.
Beispielsweise können
auch Akronyme, Trivial- oder Handelsbezeichnungen und/oder Formeln
(wie im Folgenden beschrieben) in einem Dokumenttext identifiziert
werden. Des Weiteren können
Rollen von chemischen Daten identifiziert werden, (z.B. Verbindungen,
Proteine, Spezies, Krankheiten usw.), sowie Beziehungen zwischen
chemischen Daten, (z.B. Produkt, Reagenz, bindet, hemmt, unterdrückt, wirkt
sich aus auf, wird verwendet für
usw.). Wie des Weiteren zu erkennen ist, können verknüpfte Daten ebenfalls für Zwecke
der relationalen Datenbank identifiziert werden, (z.B. Firmennamen,
Erfinder, Ursprungsdokument(e) oder beliebige andere gewünschte Daten).
-
Die
identifizierten chemischen Daten werden in Schritt 104 ausgewertet,
und wenn ein chemisches Fragment identifiziert wird, fährt der
Arbeitsablauf mit Schritt 106 fort. Wenn jedoch eine Molekularformel
identifiziert wird, fährt
der Arbeitsablauf mit Schritt 110 fort. Des Weiteren fährt der
Arbeitsablauf für
identifizierte atombezogene Eigenschaften und dazugehörige Daten
mit Schritt 114 fort.
-
In
Schritt 106 wird ein Wörterbuch
herangezogen, um zu überprüfen, ob
das identifizierte Fragment korrekt ist. In einer bevorzugten Ausführungsform
verursacht diese Überprüfung, dass
der Arbeitsablauf mit Schritt 108 fortfährt. In anderen bevorzugten
Ausführungsformen
werden syntaktische Informationen in Bezug auf das Fragment aus
dem Wörterbuch
abgerufen. Diese Informationen können
das Fragment weiter identifizieren. Beispielsweise können die
Informationen angeben, dass das Fragment eine Bezeichnung für sich sein kann,
oder dass das Fragment nur am Anfang/in der Mitte/am Ende einer
chemischen Bezeichnung zulässig ist.
-
In
Schritt 108 wird der Kontext, der das Fragment umgibt,
identifiziert, indem vorzugsweise diejenigen Fragmente identifiziert
werden, die durch eine Gruppe von zulässigen Zeichen in einer chemischen
Bezeichnung verbunden sind. Beispiele für potenziell zulässige Zeichen
umfassen Klammern, Zahlen, Primzahlen, griechische Buchstaben, einzelne
Zeichen, Gedankenstriche, Kommata, Punkte, Strichpunkte, Doppelpunkte, Leerzeichen
und Wörter
oder Ausdrücke
aus einer vordefinierten Liste (z.B. "das Salz", "Anion" usw.). Kombinationen
dieser Zeichen sind gemäß vordefinierten
Regeln zulässig.
In einer bevorzugten Ausführungsform werden
IUPAC-Regeln befolgt (z.B. ist ein einzelnes "e" zulässig, nicht
jedoch "ee"). In anderen Ausführungsformen
können
andere standardisierte Regeln befolgt werden. In weiteren Ausführungsformen
können
die Regeln proprietär
sein oder eigens zu diesem Zweck erstellt werden.
-
Wenn
in einer bevorzugten Ausführungsform
der Kontext des Fragments identifiziert worden ist, fährt der
Arbeitsablauf mit Schritt 110 fort. In anderen bevorzugten
Ausführungsformen
kann das Wörterbuch
von Schritt 106 nochmals herangezogen werden, um zu überprüfen, ob
jedes Fragment einschließlich
des umgebenden Kontexts immer noch gültig ist.
-
In
Schritt 110 können
die Molekularformel oder das Fragment und umgebender Text verwendet
werden, um eine chemische Bezeichnung zu generieren. Wie im Folgenden
ausführlicher
beschrieben wird, können
verschiedene Benennungskonventionen unterschiedliche Bezeichnungen
ergeben. Diese Benennungskonventionen können standardisiert sein, (beispielweise
IUPAC-Benennung), oder, wie in dem Fachbereich bekannt, kann eine
Bezeichnung für
eine Struktur exakt eine Struktur beschreiben, ohne mit irgendeiner
Konvention genau übereinzustimmen.
In einer bevorzugten Ausführungsform
wird nur eine Benennungskonvention verwendet, um nur eine Bezeichnung
zu generieren. In einer anderen Ausführungsform werden zwei Benennungskonventionen
verwendet, um zwei oder mehrere chemische Bezeichnungen zu generieren.
In noch einer anderen Ausführungsform
wird eine Kombination von Benennungskonventionen verwendet, um eine Gruppe
von Bezeichnungen zu generieren. Wie im Folgenden beschrieben, können alle
der Bezeichnungen trotz des Vorhandenseins einer Reihe von konventionell
(oder nicht-konventionell) generierten Bezeichnungen für eine Struktur
sich zu einer eindeutigen chemischen Struktur auflösen. Wie
beispielsweise veranschaulichend in den 5 und 6 gezeigt
ist, stellt eine Gruppe von "vieldeutigen" chemischen Bezeichnungen die
gleiche chemische Struktur dar.
-
In
Schritt 112 werden gefundene chemische Bezeichnungen, die
in Schritt 110 generiert wurden, vorzugsweise in chemische
Strukturen umgewandelt. In einer bevorzugten Ausführungsform
verwendet die Übersetzung
einer chemischen Bezeichnung in eine chemische Struktur Reverse
AutoNom, das im Folgenden im Detail unter dem Abschnitt mit der Überschrift "Reverse AutoNom" beschrieben wird.
In einer anderen Ausführungsform
verwendet die Übersetzung
eine Datenbank, die Beziehungen von Bezeichnung zu Struktur enthält, (wie
beispielsweise Database ACD, ein Produkt von MDL Inc., das alle
im Handel erhältlichen
Chemikalien mit Strukturen und chemischen Bezeichnungen enthält; http://www.mdli.com).
In noch einer anderen Ausführungsform
wird das Programm NameToStructure (ACD Labs; http://www.acdlabs.com)
verwendet, um Bezeichnungen in chemische Strukturen umzuwandeln.
Wie zu erkennen ist, können
auch andere Programme in diesem Schritt verwendet werden.
-
Diese
Quellen werden zusammengebündelt,
um einen "NameService" auszubilden, einen
Dienst mit einer SOAP-Schnittstelle, der chemische Bezeichnungen
in chemische Strukturen übersetzt
und die Koordinaten (mit der Hilfe des Programms Cheshire, einem
Produkt von MDL) berechnet. Ein veranschaulichendes Beispiel eines
NameService ist in 16 gezeigt.
-
NameService
bietet: (a) Übersetzung
in eine chemische Struktur über
einen Algorithmus der "besten Quelle"; (b) Verbesserung
der Koordinaten; und (c) Berechnung von Metadaten (Summenformel,
eindeutige Registrierungs-Zeichenkette ("RegString")). Der "RegString" ist eine binäre Zeichenkette, die eine Verbindung eindeutig
identifiziert. Dabei bedeutet es, wenn zwei Verbindungen identische
RegStrings aufweisen, dass sie identisch sind, und umgekehrt, dass
sie nicht identisch sind, wenn sie verschiedene RegStrings aufweisen.
-
In
noch einer anderen bevorzugten Ausführungsform können eine
oder mehrere dieser Quellen zusammengebündelt werden, um einen "NameService" auszubilden. Der
NameService ist vorzugsweise ein Dienst mit einer SOAP-Schnittstelle
und umfasst: Übersetzung
von Bezeichnung in Struktur, Koordinatenberechnung (über das
Programm Cheshire® von MDL Information Systems – http://www.mdli.com)
und Berechnung von Metadaten (z.B. (Summenformel, eindeutige Registrierungs-Zeichenkette
usw.). Wie zu erkennen ist, kann der NameService jede Kombination
von diesen Funktionen umfassen oder eine andere damit in Beziehung
stehende Funktionalität
enthalten. Des Weiteren kann der NameService mit der RM über alle
akzeptablen Programmiermittel eine Schnittstelle bilden.
-
In
Schritt 114 werden die gefundenen chemischen Bezeichnungen
in dem Dokument markiert. In einer bevorzugten Ausführungsform
stehen diese Tags im XML-Format.
In anderen bevorzugten Ausführungsformen
stehen diese Tags in HTML-, SGML-, anderen standardisierten Formaten
oder proprietären
Markierungsformaten.
-
In
Schritt 116 wird jede der chemischen Informationen in einer
Datenbank gespeichert. Beispielsweise werden in einer bevorzugten
Ausführungsform
die chemische Bezeichnung und Struktur in der Datenbank gespeichert.
In anderen bevorzugten Ausführungsformen
können
die Metadaten, Koordinaten, chemischen Bezeichnungen, chemischen
Strukturen und/oder beliebige andere Informationen aus den Schritten 102–116 in der
Datenbank gespeichert werden.
-
Normalisierung
von Dokumenten
-
In
einer bevorzugten Ausführungsform
verarbeiten die Schritte 102–116 von 1 vorzugsweise
Dokumente im XML-Format. In einer anderen bevorzugten Ausführungsform
werden andere Formate, (z.B. SGML, HTML,...) vorher in XML umgewandelt.
In noch einer anderen bevorzugten Ausführungsform wird das Dokument ohne
jede Umwandlung verarbeitet. In noch einer anderen Ausführungsform
wird ein Format in ein anderes Format zur Verarbeitung umgewandelt
(z.B. optischer Zeichenerkennungstext (OCR) wird in HTML umgewandelt).
Wenn ein Quellendokument umgewandelt werden muss, weist jeder Dokumenttyp
vorzugsweise eine Dokumentartdefinitions- (DTD) Datei auf, die das
Umwandlungsverfahren auflistet. In dem Fall, in dem ein Dokument
beispielsweise eine formale Struktur aufweist, (d. h. einen bestimmten
Dokumenttyp), gibt eine DTD vorzugsweise an, wie Strukturen, (z.B.
markierte Strukturen), in dem Quellendokumente umzuwandeln sind.
In anderen Fällen,
in denen das Quellendokument keine formale Struktur aufweist, kann
eine DTD angeben, dass nur ein Stammknoten erstellt werden muss,
der den gesamten ursprünglichen
Text enthält.
-
2 veranschaulicht
den Arbeitsablauf einer weiteren bevorzugten Ausführungsform.
-
Reaktionsidentifizierung
-
In
Schritt 202 werden chemische Reaktionen in dem Text eines
Dokuments identifiziert. In einer bevorzugten Ausführungsform
wird die Dokumentstruktur, (z.B. XML- oder eine andere formale Struktur),
analysiert, um den Anfang und das Ende einer Reaktion zu identifizieren.
In einer anderen bevorzugten Ausführungsform können Dokument-Kopfdaten
den Anfang und das Ende einer Reaktion identifizieren. In noch einer
anderen bevorzugten Ausführungsform
können
atombezogene Eigenschaften den Anfang und das Ende einer Reaktion
bezeichnen (z.B. Beispiel 2a). Wie oben beschrieben, kann die Dokumentnormalisierung
des Weiteren eine Struktur bereitstellen, um den Anfang und das
Ende einer chemischen Reaktion zu bestimmen. In einer bevorzugten
Ausführungsform
können
der Anfang und das Ende einer Reaktion auf der Basis der Sequenz
von gefundenen und markierten Informationen erstellt oder modifiziert
werden. Beispielsweise identifiziert ein Abschnitt einer chemischen
Verarbeitung, auf den ein Edukt folgt, den Anfang einer neuen Reaktion
oder eines neuen Reaktionsschritts.
-
Rollenerkennung (Grammatik)
-
Der
nächste
Schritt (204) besteht darin, die Rolle einer Verbindung
in einer Reaktion zu identifizieren. In einer bevorzugten Ausführungsform
kann die Rolle sein; (a) Edukt (Ausgangsmaterial); (b) Produkt;
(c) Reagenz; (d) Katalysator; oder (e) Lösungsmittel. Die Identifizierung
der Rollen erfolgt vorzugsweise unter Verwendung von lizenzierten
Programmen anderer Anbieter. Ein derartiges Programm ist "Insight DiscovererTM Extractor" (IDE) von TEMIS. IDE verfügt über eine
integrierte Bibliothek, die eine linguistische Analyse des Texts
durchführt,
(XELDA-Software von XEROX), und den Text mit dem gefundenen Sprachteil
für jedes
Wort, (z.B. Verb, Substantiv, Adjektiv usw.) und dessen Grundform
markiert. Beispielsweise ist Test die Grundform des Worts getestet.
Jedes Wort mit dieser Information wird markiert.
-
Dieser
markierte Text wird unter Verwendung von "Konzepten" analysiert, die vordefinierte Regeln sind,
die als reguläre
Ausdrücke
ausgedrückt
werden. Jedes Konzept ist eine Gruppe von sprachlich ähnlichen Begriffen;
grundlegendere Konzepte werden in komplexeren Konzepten kombiniert.
Ein Konzept (oder Muster) ist eine Regel, die Beziehungen zwischen
Wörtern,
Ausdrücken
oder anderen Konzepten in einem Text definiert. Wenn ein Konzept
mit Text "übereinstimmt", dann enthält dieses
Textstück
die Informationen, die von dem Konzept ausgedrückt werden. Der Sinn jedes
Satzes wird durch die entsprechenden Konzepte erfasst. Text wird
mit seinem/seinen entsprechenden Konzepten) markiert. Wie im Folgenden
ausführlicher
beschrieben wird, kann Text mit mehr als einem Konzept markiert
werden. Ein veranschaulichendes Beispiel von markiertem Text ist
in 17 gezeigt.
-
Beispielsweise
wird ein Satz wie "Phenol
wurde mit Natriumalanat in Hexan gemischt" zuerst mit Bezeichnungen markiert,
was "NamTag wurde
mit NamTag in NamTag gemischt" ergibt.
Das geeignete Konzept zum Extrahieren des Lösungsmittels würde lauten:
-
Dieses
Konzept sucht ein NamTag nach dem Wort "in" und
weist die Rolle des Lösungsmittels
zu diesem NamTag zu. Wenn sich ein NamTag vor dem "in" befindet, erhält dieser
NamTag die Rolle "Reagenz". Als ein weiteres
Beispiel definiert der Ausdruck "....ergab <namtag>" <namtag> als ein Produkt
-
Regeln
werden durch Analysieren eines Stapels von Dokumenten definiert,
um alle relevanten Verben zu finden, die ein Produkt definieren.
Beispielsweise veranschaulicht Tabelle 1 einige der verschiedenen
Wortformen, die ein Produkt definieren würden.
-
-
Wie
des Weiteren in Anhang A dargestellt ist, wird vorzugsweise eine
Anzahl von "Konzepten" definiert, wobei
jedes Konzept eine Möglichkeit
beschreibt, die Rolle einer Verbindung auszudrücken (z.B. Edukt, Produkt usw.).
Wie in Anhang A gezeigt, wird eine Sequenz der Konzept-Dateien in
der Datei MDLProdReact.scp definiert. Alle Konzepte der Ebene 0
werden auf einen vorgegebenen Text angewendet, wobei jedes Konzept
einen Teil des Texts markiert. Wenn zwei markierte Textfragmente
sich überlappen,
wird das äußerste linke
und längste
Fragment für
die weitere Analyse verwendet. Die gleichen Schritte werden für die nächste Ebene
bis zu einer höchsten
Ebene 4 wiederholt.
-
Anapherauflösung
-
Eine "Anapher" ist ein linguistischer
Verweis auf ein anderes Objekt. Beispiele sind "das erhaltene Salz", (das auf die chemische Bezeichnung
des Salzes hinweist), "das
Produkt von Beispiel 2b",
(das auf die chemische Bezeichnung für das Produkt des Beispiels
hinweist), "der
Alkohol wurde hinzugefügt", (was auf die chemische
Bezeichnung für
den Alkohol hinweist) usw. In Schritt 206 werden Anaphern
als Anaphern markiert, aber sie werden auch mit der chemischen Bezeichnung
markiert. d. h. die Anapher selbst behält ihre Rolle als chemische
Bezeichnung, und das Ziel wird innerhalb des vorgegebenen Kontexts
bestimmt. Die Identifizierung einer Anapher ist in 15 dargestellt.
-
Validierung von Ergebnissen
-
Die
Ergebnisse in einer Reaktion werden vorzugsweise validiert auf der
Basis einer berechneten Qualitätsebene
(Schritt 208). In diesem Schritt wird die Qualitätsebene
der erhaltenen Ergebnisse mit einigen pragmatischen Parametern verglichen
(z.B. (a) Anzahl der Edukte; (b) Anzahl der Produkte; (c) Anzahl
der nicht identifizierten Verbindungen). Reaktionen mit einer Qualitätsebene
unter einem pragmatisch definierten Schwellenwert werden verworfen.
Beispielsweise haben Reaktionen, bei denen keine oder zu viele Produkte gefunden
werden, eine niedrige Qualitätsebene
und werden verworfen. In Fällen,
in denen eine Anzahl von Edukten zu einer akzeptablen Anzahl von
Produkten führt,
kann die Reaktion eine hohe Qualitätsebene aufweisen und würde dementsprechend
akzeptiert werden.
-
Nach
diesem Schritt sind alle relevanten Objekte in dem Dokument markiert. 3 stellt
eine markierte Reaktion dar, wobei die relevantesten Tags optisch
hervorgehoben sind.
-
4 stellt
eine Reaktion dar, die aus einem Patent und dem relevanten Patenttext
extrahiert wurde. Wie in 4 gezeigt, stellt der Teil 402 die
extrahierten Daten dar. Beispielsweise stellt das Produkt PRN das Produkt
dar, das aus dem Patenttext extrahiert wurde (Teil 406).
Der Teil 404 stellt die damit verbundene Struktur und das
Reaktionsschema dar. Der Teil 408 identifiziert das Bezugspatent,
das zum Extrahieren der relevanten Daten verwendet wurde.
-
Extraktion
-
In
Schritt 210 (siehe 2) werden
gefundene Objekte vorzugsweise aus dem Dokument extrahiert. In einer
bevorzugten Ausführungsform
werden die extrahierten Objekte in XML-Format umgewandelt. In einer anderen
bevorzugten Ausführungsform
werden die extrahierten Objekte in ein proprietäres Format umgewandelt (z.B.
PEP-Format). Wie
zu erkennen ist, können
die extrahierten Daten in jedes gewünschte Format (ASCII, binär, HTM usw.)
umgewandelt werden.
-
Plausibilitätsprüfungen
-
Wie
in Schritt 212 gezeigt, werden die gefundenen Reaktionen
auf ihre chemische Plausibilität überprüft. Dies
geschieht vorzugsweise durch Erfassen der Reaktionszentren und Zuordnen
der Atome des Ausgangsmaterials/der Ausgangsmaterialien zu den Atomen
des Produkts/der Produkte **. Weil alle
verfügbaren Zuordnungswerkzeuge
ihre Stärken und
Schwächen
haben, verwendet eine bevorzugte Ausführungsform zwei oder mehr verschiedene
Werkzeuge. Zum Beispiel "Classify" von InfoChem und "Cheshire", ein im Handel erhältliches
Produkt von MDL. In dieser Ausführungsform
werden Reaktionen, die beispielsweise 2 der 3 Plausibilitätsprüfungen bestehen,
akzeptiert und in einer Datenbank gespeichert (Schritt 214).
In einer anderen bevorzugten Ausführungsform wird nur eines dieser
Zuordnungswerkzeuge verwendet. In noch einer weiteren bevorzugten
Ausführungsform
kann jede Kombination dieser Werkzeuge verwendet werden.
-
In
wenigstens einer Ausführungsform
wird eine Reaktion auf der Basis einer Zuordnungsquelle akzeptiert.
Abhängig
von dem Prozentsatz der akzeptablen Zuordnungen kann eine Zuordnungsauswertung
durch eines oder mehrere der oben genannten Werkzeuge angegeben
werden. Wenn die Auswertung einen Schwellenwertpegel überschreitet,
wird die Reaktion akzeptiert. In dieser Ausführungsform können spezielle
chemische Regeln ausgewertet werden, um den Prozentsatz der akzeptablen
Zuordnungen zu bestimmen (z.B. Grad der Überlappung, sinnvolle Abschlussgruppen,
ist die Ebene der Einsatzstoff-Ausgewogenheit sinnvoll, sind die
Valenzen aller Atome plausibel). Jede akzeptable Zuordnung besitzt
einen Punktwert. Wie vom Fachmann zu erkennen ist, kann jede Kombination
dieser Regeln oder können
zusätzliche
Regeln verwendet werden, um den Prozentsatz von akzeptablen Zuordnungen
zu bestimmen. Wenn die Reaktion in diesen Ausführungsformen besteht (plausibel
ist), wird sie in einer Datenbank (Schritt 214) gespeichert.
Wenn die Reaktion nicht besteht, wird sie verworfen. Des Weiteren
können
inhärent
unplausible Reaktionen verworfen werden (z. B. kann eine Reaktion
unplausibel sein auf Grund von Fehlern in dem Dokument (Fehler des
Autors, OCR-Fehler), vieldeutigen Bezeichnungen, Fehlinterpretationen
von Bezeichnungen oder aus anderen Gründen, die mit der Reaktion
selbst nicht in Beziehung stehen).
-
Wenn
die Reaktion in einer Ausführungsform
nicht besteht, kann eine zweite Plausibilitätsprüfung unter Verwendung einer
anderen Ausführungsform
versucht werden. Wie zu erkennen ist, kann jede Kombination der
oben genannten Zuordnungswerkzeuge, oder können zusätzliche Zuordnungswerkzeuge
verwendet werden, um die chemische Plausibilität zu überprüfen. Wie des Weiteren zu erkennen
ist, kann jede Kombination der oben genannten Ausführungsformen
verwendet werden, um die Plausibilitätsprüfung zu überprüfen.
-
MODULARITÄT
-
In
einer bevorzugten Ausführungsform
ist die Software aus Modulen aufgebaut, wobei jedes Modul fähig ist,
einen oder mehrere Schritte auszuführen (siehe 11).
Der Vorteil einer derartigen Modularität wird vom Fachmann geschätzt.
-
ERGEBNISSE
-
Die
folgende Tabelle 2 stellt die Abruf- und Genauigkeitsquoten der
RM dar. Mindestens 10.000 Patente wurden verarbeitet, und anschließend wurde
eine manuelle Qualitätssicherung
an einigen tausend Reaktionen durchgeführt.
-
-
Mehr
als 80% aller Reaktionen wurden mit korrekten Edukten und Produkten
gefunden. Die Übersetzung
von Bezeichnungen in Strukturen ist der größte Engpass, dennoch weisen
ungefähr
50% aller Reaktionen zugewiesene Strukturen auf und sind von guter
Qualität.
-
TECHNISCHE
DETAILS
-
Tabelle
3 gibt technische Details einer Lesemaschine RM an. Weitere bevorzugte
Ausführungsformen können durch
Hinzufügen
oder Entfernen von Elementen erstellt werden. Des Weiteren kann
jede beliebige Anzahl von Elementen aus Tabelle 3 kombiniert werden,
um zusätzliche
Ausführungsformen
auszubilden. Beispielsweise kann die RM in einer Ausführungsform
nur das Betriebssystem Windows® von Microsoft unterstützen. In
einer anderen Ausführungsform
kann die RM sowohl Windows® als auch AIX von IBM
unterstützen. Der
Fachmann erkennt, dass Tabelle 3 eine Anzahl von bevorzugten Ausführungsformen
basierend auf der Kombination von Elementen bereitstellt. Der Fachmann
erkennt des Weiteren, dass andere Betriebssysteme, Funktionsweisen,
unterstützte
Eingabe- und Ausgabe-Formate und eingebettete Produkte verwendet
werden können,
und dass diejenigen, die in Tabelle 3 aufgelistet sind, eine eher
veranschaulichende als umfassende Liste darstellen.
-
-
Reverse AutoNom
-
Das
Computerprogramm Reverse AutoNom beruht nicht auf dem Konzept einer
so genannten "korrekten
Bezeichnung". Wie
für den
Fachmann zu erkennen ist, können
Reverse AutoNom-Algorithmen die "schlimmsten
anzunehmenden Fälle" berücksichtigen,
soweit dies Syntax und Semantik der eingegebenen Bezeichnungen betrifft.
Es soll davon ausgegangen werden, dass jede "systematische Nomenklatur" nur eine ungenaue
Feststellung von Akademikern ist und in der Praxis nicht befolgt
wird.
-
Reverse
AutoNom geht davon aus, dass so genannte systematische Bezeichnungen
selten sind, und daher tut Reverse AutoNom sein Bestes, um jede
als Eingabe dargestellte Bezeichnung umzuwandeln.
-
ALLGEMEINER
AUFBAU
-
Obwohl
der Name "Reverse
AutoNom" auf "AutoNom" verweist, haben
die zwei Programme eigentlich sehr wenig gemeinsam. Der AutoNom-
(von Automatische Nomenklatur) Nomenklaturgenerator war das erste bahnbrechende
Programm im Bereich einer rechnergestützten organischen Nomenklatur,
die Strukturdiagramme direkt in chemische Bezeichnungen übersetzte 24–28.
Die Verwendung des Begriffs "AutoNom" mit vorangestelltem "Reverse" ist nur beschreibend
und wurde ausgewählt,
um einem potenziellen Benutzer anzugeben, welche Umwandlung er oder
sie von dem Programm erwarten kann.
-
In
einer Übersetzung
von Bezeichnung in Struktur ist die vieldeutige und in hohem Maße undefinierte oder
verschwommene Eingabe die Bezeichnung mit all ihren möglichen "Dialekten", zulässigen Darstellungsarten
und ungenauer Syntax. Die Ausgabe – das strukturelle Diagramm – ist andererseits
absolut eindeutig und bis in die letzten Details definiert.
-
Das
Programm Reverse AutoNom wurde entwickelt, indem die Linguistik
der Bezeichnungen des allgemeinen Sprachgebrauchs berücksichtigt
wurde. Der "allgemeine
Sprachgebrauch" ist
im Fachbereich wohlbekannt. Als eine Grundlage für die Qualitätsanalyse
wurden über
8 Millionen veröffentlichte
Bezeichnungen aus europäischen,
amerikanischen und japanischen Patentveröffentlichungen aus den Jahren
1980–2000 durchsucht,
um eine Zufallsauswahl von 1130 Bezeichnungen zu erzeugen, die dann
manuell durch einen Spezialisten für chemische Nomenklatur analysiert
wurden. Es wurden die folgenden Ergebnisse erhalten:
-
Tabelle
4 Qualität
von Bezeichnungen für
eine Auswahl von 1130 Bezeichnungen, die auf willkürlicher
Basis aus Patentveröffentlichungen
extrahiert wurden, die zwischen den Jahren 1980–200 erschienen
-
Die
oben genannten Statistiken wurden dann durch die Leistungsergebnisse 7 von AutoNom erweitert, die für eine willkürlich gewählte Auswahl
von über
63.000 Strukturen aus der Beilstein-Datenbank für die letzte Version des Programms
(AutoNom 2000 und AutoNom TT) gemessen wurden. Da beide dieser Daten
zur Verfügung
standen, war es möglich,
eine Gruppe von relevanten Richtlinien zu formulieren, die befolgt
werden sollten, wenn ein Bezeichnung-zu-Struktur-Algorithmus in
einem sinnvollen Ausmaß erfolgreich
sein könnte:
-
1) IUPAC-Regeln oder -Empfehlungen
werden normalerweise ignoriert, verletzt oder gebrochen.
-
Die
Annahme, dass die chemische Gemeinschaft "Die Regeln" kennt, ist falsch. Die meisten Chemiker,
wenn überhaupt,
versuchen, entweder mit CAS- oder Beilstein- Nomenklatursystem konform zu gehen. Sehr
häufig
mischen sie sie in einer einzigen Bezeichnung zusammen. Die Adamantan-
(bei IUPAC beibehalten – bei
CAS verboten – bei
Beilstein zulässig)
Ringbezeichnung als Entsprechung zur systematischen von Baeyer-Bezeichnung Tricyclo[3.3.1.13,7]decan tritt sehr oft als Fragment in
einer einzigen Bezeichnung zusammen mit anderen Fragmenten auf,
wie beispielsweise 3,1-Benzoxazin (zulässig bei IUPAC – verboten
bei Beilstein – zulässig bei
CAS). Wie in 6 gezeigt, traten alternative
Bezeichnungen (für
die gleiche Struktur) in der Testauswahl auf..
-
Reverse
AutoNom wandelt jede der Bezeichnungen aus 6 in die
korrekte Struktur um.
-
2) IUPAC-Regeln oder -Empfehlungen
werden normalerweise nach Belieben erweitert.
-
Die
Bezeichnung "2-(2,2-Diphenylethylamino)-1,4,5,6,7-pentahydro-1,3-diazepinhydrochlorid" wurde in einer der
getesteten Auswahlen gefunden. Einigen Nomenklaturspezialisten kann
diese Bezeichnung unerhört
erscheinen. Dies ist offensichtlich eine falsche Bezeichnung. Die
ungerade Anzahl von "Hydro"-Präfixen (pentahydro)
ist in allen Nomenklatursystemen oder -praktiken streng untersagt.
Die Anzahl muss gerade sein (tetrahydro), und es sollte ein zusätzlich angegebenes
Wasserstoff-Präfix
(1H) verwendet werden. Andererseits ist dem Autor dieser Bezeichnung
diese Regel wahrscheinlich unbekannt oder zu eingeschränkt, und
er bzw. sie sieht nichts Falsches in ihrer Erweiterung. Beide, Chemiker
und Computerprogramm, können
sie leicht in die korrekte Struktur umwandeln. Eine solche Annäherung an "Die Regeln" ist in der chemischen
Gemeinschaft recht weit verbreitet.
-
Es
ist (für
Chemiker) nichts dabei, eine unbegrenzte Substitution bei Kohlenstoffen
in Trivialbezeichnungen (beibehalten bei IUPAC) zuzulassen, wie
beispielsweise Myristin-, Stearin- oder Laurinsäure (IUPAC und CAS gestatten
sie nur bei der Zwei-Kohlenstoff-Essigsäure). Aceton
ist bei IUPAC zulässig,
aber Trivialbezeichnungen wie beispielsweise Butyron, Valeron, Stearon
usw. für
längere
Ketone sind verboten (CAS und Beilstein folgen IUPAC in diesem Fall).
Für Chemiker
wird die "Keton-Regel" von Aceton für andere
Ketone frei erweitert.
-
In ähnlicher
Weise scheint das bekannte Hantzsch-Widman-System zur Benennung
von monozyklischen Ringen mit Heteroatom-Ersetzungen nach Belieben
erweitert zu werden. Die letzte vordefinierte IUPAC-Liste29 von zulässigen 19 (das Blaue Buch von
1979 gibt eine Liste von 22 Atomen6 an)
Heteroatomen für
derartige Ersetzungen scheint für
Chemiker nicht verpflichtend zu sein. Wenn 1,3-Oxathiolan zulässig ist, warum
dann nicht auch 1,3-Oxapolonal? An dieser willkürlichen Vorgehensweise ist
nichts Ungewöhnliches, wenn
man berücksichtigt,
dass sogar Beilstein und CAS nur teilweise mit dieser IUPAC-Empfehlung
konform gehen. Beilstein verwendet die ursprüngliche erweiterte Liste von
22 Atomen, während
CAS nur 14 Atome aus der Liste mit 19 Atomen verwendet und alle
Halide und Quecksilber weglässt.
-
Ein
weiteres Beispiel einer ziemlich seltsamen Interpretation von IUPAC-Regeln
wird durch die Bezeichnung "1,4-Dihydrobenzol" veranschaulicht,
die in einer der Testauswahlen auftrat. Die Verwendung des "Hydro"-Präfixes zur
Angabe eines hinzugefügten
Wasserstoffatoms (additive Nomenklatur) ist in Bezug auf den Benzolring
absolut verboten. IUPAC empfiehlt die Verwendung der subtraktiven
Nomenklatur ("-en" und "yn") für die Cycloalkane.
In diesem speziellen Fall lautet die korrekte Bezeichnung "Cyclohexa-1,3-dien". Andererseits fehlen
in der exotischen Bezeichnung "1,4-Dihydrobenzol" keine Informationen,
so dass die Bezeichnung durch das Programm Reverse AutoNom in die
korrekte Struktur umgewandelt wird.
-
3) Vieldeutigkeit in Bezeichnungen
verbreitet und kann nur durch empirische Verfahren gelöst werden.
-
Die
veröffentlichten
Bezeichnungen sind vieldeutig, und damit muss man sich abfinden.
Andererseits ist es durch detaillierte und oft sehr anstrengende
Analyse des allgemeinen Sprachgebrauchs möglich, (unter der Vorraussetzung,
das man zu statistisch repräsentativen
Mustern moderner Nomenklatur Zugang hat), eine Art Logik in der
Vieldeutigkeit von Bezeichnungen zu bestimmen.
-
Die
erste Phase des Reverse AutoNom-Projekts konzentrierte sich ausschließlich auf
eine derartige Analyse (siehe Tabelle 4). Bezeichnungen aus Zeitschriften
und aus Datenbanken von hoher Qualität (z.B. die Beilstein-Datei)
wurden im Allgemeinen ignoriert, seit durch das erwartete redaktionelle
Eingreifen per Definition die Häufigkeit
von Vieldeutigkeit reduziert worden ist. Statt dessen wählten wir
eine Auswahl von über
8 Millionen Bezeichnungen aus europäischen, amerikanischen und
japanischen Patentveröffentlichungen
aus den Jahren 1980–2000.
Sie wurden aus den ursprünglichen
Patentmeldungen durch Scannen der Papier-Druckdokumente und unter
Verwendung von OCR (optische Zeichenerkennung) extrahiert, um eine
Eingabe für
weitere komplexe rechnerbasierte Verarbeitung durch ein spezielles
Programm zu kompilieren, das als Lesemaschine bezeichnet wird. Die
Ausgabe aus der Lesemaschine lieferte unter anderem die Zeichenketten
aller chemischen Bezeichnungen, die in den Quellendokumenten gefunden
wurden. Nach dem Abrufen der Auswahl konnten die Bezeichnungen analysiert
und die Prinzipien des allgemeinen Sprachgebrauchs für das Reverse
AutoNom-Projekt formuliert werden.
-
Zum
Veranschaulichen des Problems der Vieldeutigkeit können zwei
einfache Bezeichnungen, (wie in 7 gezeigt),
betrachtet werden. In dem Fall des "Dimethylacetamids" kann der Standardlokant für mehrfaches
Methyl entweder der Stickstoff des nachgestellten Amid-Suffixes
oder der Kohlenstoff an Position 2 der Ethankette in dem "acet"-Teil sein. Der allgemeines
Sprachgebrauch weist in den meisten Fällen auf Stickstoff auf Amid
hin.
-
In
dem letzteren Fall von Pyrazol mit Carboxamid-Suffix gibt es zwei
Wahlmöglichkeiten
für die
Interpretation des Stickstoff-Lokanten "N" in
der Bezeichnung: entweder als Position auf Amid oder auf das niedrigstmögliche N
auf Pyrazol. Die Analyse des allgemeinen Sprachgebrauchs zeigt,
dass das Amid-Stickstoffatom normalerweise bevorzugt wird.
-
Selbst
die allgemeinste Betrachtung von chemischen Bezeichnungen, wie sie
tatsächlich
in den Dokumenten veröffentlicht
werden, zeigt, dass sie eine "lexografische Überholung" benötigen. Interpunktion
und Großschreibung
tritt in allen möglichen
Varianten auf. Leerräume,
(die zur Erkennung von Bezeichnungen mit Mehrfachkomponenten wichtig
sind), und andere Begrenzungszeichen, (die z.B. für Ester,
Ether oder Anionen wichtig sind), werden vollkommen falsch verwendet.
Die Bezeichnungen wie "4-Acetyl-2-(6-oxo-pentadecyl)-phenoxazin-10-carboxylicacid
ethylester" sind
genau so häufig
wie ihre noch schlimmeren Entsprechungen ""4-Acetyl-2-(6-oxo-pentadecyl)-phenoxazin-10-carboxylic-acid-ethyl-ester", was das Gleiche
bedeuten soll.
-
Nach
dem Einrichten der oben genannten Prinzipien wurde eine bevorzugte
Ausführungsform
von Reverse AutoNom entwickelt. Der Algorithmus führt vorzugsweise
die folgenden Schritte aus:
- • lexografische
Bearbeitung (und automatische Korrektur) der eingegebenen Bezeichnung;
- • Bezeichnungs-Aufspaltung
und -Analyse;
- • Interpretation
von erkannten Fragmenten: Stamm, Suffixe, Präfixe, Einfügungen und Post-Suffixe;
- • Fragmentanordnung
in so genannte Ebenen der Bezeichnung; und
- • Fragmentbezeichnungs-Zusammensetzung
(wird
im Folgenden ausführlicher
erläutert).
-
Während der
ersten vier Phasen erstellt und identifiziert eine bevorzugte Ausführungsform
des Algorithmus Objekte und erstellt wechselseitige Beziehungen
zwischen ihnen. Danach werden sie entsprechend geordnet und während der
letzten Phase der Umwandlung in die vollständige Struktur kompiliert.
-
In
dem ersten Prototyp von Reverse AutoNom fehlten die lexografische
Bearbeitung (und die automatische Korrektur) der eingegebenen Bezeichnung.
Es wurde angenommen, dass Bezeichnungen vieldeutig sein konnten,
echte Fehler enthalten oder in ihrer Grammatik unzulänglich sein
konnten. Die beiden Letzteren würden
den Algorithmus bereits in der Analysephase stoppen. Erstere konnten
zur Bearbeitung in die Interpretations- und Ordnungsschritte des
Algorithmus weitergeleitet werden. Allerdings musste diese Annahme
kurz nach der Kompilierung und detaillierten syntaktischen Analyse
der repräsentativen
Pilot-Testauswahl von Bezeichnungen, die aus den Patentdokumenten
extrahiert wurden, nachgewiesen werden.
-
Die
Statistik zeigte, dass eingehende Bezeichnungen eine schlampige
Syntax aufwiesen, insbesondere in den Bereichen Interpunktion, Leerräume und
Großschreibung.
Die meisten derartigen Bezeichnungen verwendeten das, was die Autoren
für das
CAS-Format hielten,
in Wirklichkeit aber mit den Standards sehr wenig zu tun hatte,
die durch das Handbuch ACS Style Guide30 definiert
werden. Bezeichnungen, die in dem "Beilstein-Dialekt" der Nomenklatur veröffentlicht wurden, waren von
viel besserer Qualität,
aber auch in diesem Fall wurden die Richtlinien von Beilstein31 oft ignoriert oder falsch interpretiert..
-
Die
alphabetische Anordnung von Substituenten, (wie von IUPAC, CAS und
Beilstein gefordert), wurde häufig
ignoriert. Die (nicht englische) Muttersprache der Autoren beeinflusste
die Syntax der veröffentlichten Bezeichnungen
sichtbar, und daher wurde oft "sulphonyl", "alkohol", "alfa" oder "gama" verwendet statt
des korrekten "sulfonyl", "alcohol", "alpha" und "gamma".
-
Begrenzungszeichen
(Bindestriche, Kommata, Strichpunkte, Punkte usw.) wurden inkonsistent
verwendet. Kohlenwasserstoff-Ringverbunde, überbrückte Kohlenwasserstoffe (von
Baeyer-Systeme) und Spiro-Kohlenwasserstoff-Klassen sind hier die
besten Beispiele. Die extremen Fälle
umfassen: "<1-1'><3'-1''>-ter-cyclo-octan" für das korrekte
(IUPAC/CAS) "1,1';3',1''-tercyclooctan (oder [1,1';3',1'']tercyclooctyl von Beilstein), "tricyclo(5,4,0,0-2_9)-undecan" für das korrekte "tricyclo[5,4,0,0 2,9]undecan" (Kommata statt Punkte, Bindestrich
und Unterstrich in der sekundären
Brückenspezifikation
statt Hochstellung und Komma).
-
Der
Leerraum als das harte Begrenzungszeichen ist in der Nomenklatur
extrem wichtig. Fragmente zu beiden Seiten eines solchen Leerraums
können
nur dann als zwei (disjunkte) Komponenten der selben Struktur interpretiert
werden, wenn bestimmt wird, dass der Leerraum richtig verwendet
worden ist. Normalerweise ist es unmöglich, eine solche Feststellung
vor Abschluss der Interpretation und Anordnung von Fragmenten in Bezeichnungsteilen
zu beiden Seiten eines solchen Leerraum-Zeichens zu treffen. Um
das Problem zu veranschaulichen, ist es interessant anzumerken,
dass für
eine einzige Struktur (wie in 8 gezeigt)
keine der 5 Bezeichnungen korrekt war, die sich in der Testauswahl
befanden.
-
Als
ein Ergebnis der Betrachtung der eingegebenen Bezeichnungen wurde
bemerkt, dass die Aufnahme eines intelligenten lexografischen Präprozessors
in den Algorithmus als der erste Schritt die Qualität der Bezeichnungen,
(offensichtlich ohne ihre Bedeutung zu verändern), in einem solchen Ausmaß verbessert, dass
sich die geschätzte
Erfolgsquote um 4,5 und 7,8% steigern würde für zwei willkürliche Auswahlen
von jeweils ungefähr
6.500 Bezeichnungen. Ein derartiger Präprozessor wurde programmiert
und implementiert. Er enthält
insgesamt 10 verschiedene Routinen zum Korrigieren der Bezeichnungen,
bevor er sie zum Analysieren und Aufspalten sendet, was in dem anschließenden Schritt
des Algorithmus ausgeführt
wird. Er eliminiert bereits in dieser frühen Verarbeitungsphase die
Bezeichnungen, die definitiv nicht mit den vordefinierten Standards
des Reverse AutoNom-Programms konform sind.
-
Der
lexografische Präprozessor
enthält
auch eine zweckgebundene Routine, die globale Variablen einstellt
(und entsprechende Informationsdaten sammelt), wenn solche Merkmale
der eingegebenen Bezeichnung auftreten wie das Vorhandensein von
funktionalen, aber Nicht-CT-Fragmenten, wie beispielsweise Ester, Amide
oder Oxime.
-
Eine
weitere wichtige Routine prüft
eine eingegebene Bezeichnung und streift die expliziten Stereo-Deskriptoren,
wie beispielsweise E/Z, R/S, trans/cis, racem, (+/–) usw.
davon ab. Eine Ausführungsform des
Reverse AutoNom unterstützt
Stereochemie nur bedingt, d. h. nur, wo sie durch die Teilbezeichnungen
(im Allgemeinen trivial) von potenziellen sterischen Fragmenten
impliziert wird, die sich in der vollständigen Bezeichnung befinden.
Daher kann ein Benutzer erwarten, sterische Strukturen für Bezeichnungen
zu erhalten, die derartige Fragmente enthalten wie z.B. Fumarsäure (E),
Maleinsäure
(Z) oder Nikotin (S) usw. Eine derartige Struktur erfordert eine
Stereochemie-Interpretation, um irgendeine Bedeutung zu haben.
-
Die
abschließende
Aufgabe, die in der lexografischen Vorverarbeitung ausgeführt wird,
ersetzt paarweise runde, eckige und geschweifte Klammern ({, [,
(,), ], }) durch ein vereinheitlichtes Paar: < zum Öffnen und > zum Schließen. Sie werden von dem Algorithmus
als absolute Begrenzungszeichen behandelt und dienen zum Öffnen und
Schließen
der Sequenz von Bezeichnungsfragmenten, die zu einer einzigen Ebene
gehören.
Die bevorzugten anschließenden
Schritte des Algorithmus bestehen darin, danach rekursiv alle verschachtelten
Ebenen zu verarbeiten.
-
Reverse
AutoNom implementiert einfaches Analysieren und Aufspalten. Es teilt
Bezeichnungen in erkannte Fragmente mit maximaler Länge, beginnend
mit dem ersten Zeichen, und fährt
dann der Reihe nach fort. Dieser Prozess wird durch eine Tabelle
gesteuert, (die als eine ASCII-Datei gespeichert ist, bzw. ein so genanntes
Wörterbuch),
die Zeichenketten von chemischen Begriffen enthält, die als Morpheme indexiert
sind. Zu diesem Zeitpunkt enthält
das Wörterbuch
34.498 Begriffe, die durch den Nomenklatur-Spezialisten bei MDL sorgfältig ausgewählt wurden.
Jeder Begriff in dem Wörterbuch
ist mit seinem entsprechenden Kurzcode verknüpft (ebenfalls einer ASCII-Zeichenfolge),
die seine Funktionalität
angibt. Die Begriffe und ihre Codes werden in getrennte Tabellen
geladen, die in dem Rechnerspeicher beim Initialisierungszyklus
des Reverse AutoNom-Programms
reserviert werden. Danach fragt der Algorithmus (während des
Aufspaltens und Analysierens) diese Tabellen ab, um die eingegebene
Bezeichnung in erkennbare Fragmente aufzugliedern.
-
Dieses
syntaxbezogene Analysieren erfolgt unter Berücksichtigung syntaktischer
Klassen (Lokant, Separator, Substituent, Ring, Kette, Suffix, Post-Suffix,
Modifikator usw.) und durch die vordefinierte Hierarchie dieser
Klassen. Die Bezeichnungseinheiten, die sich aus dem Analysieren
ergeben, werden als zu einer bestimmten Klasse zugehörig erklärt, und
jede von ihnen erhält
einen "Hierarchiestempel" (übergeordneter
Wert der Bezeichnung, Präfix
für den übergeordneten
Wert, Ebenenstamm, Präfix
für den
Ebenenstamm, Suffix, Post-Suffix, Lokant, Separator innerhalb der
Ebene des übergeordneten
Werts, Modifikator innerhalb der Nicht-Ebene usw.). Es gibt keine
Veröffentlichungen,
die eine derartige vollständige
Hierarchie beschreiben. Für
den Zweck des Reverse AutoNom-Projekts wurde diese Hierarchie empirisch
erstellt, wobei teilweise Fachwissen und Erfahrung aus der Vergangenheit
genutzt wurden (AutoNom-Projekt).
-
Nach
dem Erstellen dieser Hierarchie gliedert das Bezeichnungs-Aufspalten
und -Analysieren eine Bezeichnung nicht nur in Fragmente auf, sondern
setzt sie unmittelbar mit dem in Beziehung, was als "Bedeutung" beschrieben werden
kann. Die parallele Tabelle der vorher erwähnten Codes stellt die Bedeutung
bereit. Dies kann eine einzelne ganze Zahl, (beispielsweise, um
den Wert des multiplizierenden Begriffs, die Länge der Kohlenwasserstoffkette
oder den Multiplikationsfaktor für
einen Ringverbund, den Ungesättigtheit-Faktor anzugeben),
ein Indexverweis auf eine vollständige
getrennte Verbindungstabelle, (wie im Fall verschmolzener Ringsysteme),
oder textliche kurze Mnemonikzeichen sein, welche die Art des Vorgangs
beschreiben, (der normalerweise als einzelne Funktion im Programm
implementiert ist), der an dem folgenden oder vorhergehenden Fragment
ausgeführt
werden soll (Hydrierung oder angegebener Wasserstoff, Cyclo, Ungesättigtheit, Ladungen
usw.).
-
In
der Interpretations- und Ordnungsphase von erkannten Fragmenten
findet der gesamte nomenklaturbasierte Interpretationsprozess statt.
Die meisten der von IUPAC/CAS/Beilstein erstellten trivialen Nomenklatur-Regeln,
Empfehlungen und Ausnahmen, die sich über die Jahre entwickelt haben,
müssen
berücksichtigt
werden (und als Routinen oder Funktionen in dem Umwandlungsprogramm
implementiert werden).
-
Vorzugsweise
werden alle Fragmente als zu einer der folgenden Nomenklaturklassen-Einheiten
zugehörig
interpretiert:
- • Stamm (übergeordneter Wert in dem Fall
der höchsten "0" Ebene; steht in Beziehung zu einer
Verbindungstabelle)
- • CT-Präfix (steht
in Beziehung zu einer Verbindungstabelle)
- • Funktions-Präfix (steht
in Beziehung zur Funktion, z.B. "aza" als die heterozyklische
Ersetzung)
- • Hydrierungs-Präfix (z.B. "hydro", angegebenen H-Deskriptor;
steht zu einer Vorwärtsfunktion
in Beziehung)
- • Suffix
(steht in Beziehung zu einer Verbindungstabelle)
- • Post-Suffix
(z.B. Ester, Amid, Oxim, Ion usw.; steht in Beziehung zu einer Funktion)
- • Radikalsuffix
("-yl", "-yliden", "-ylidyn"; steht zu einer
Rückwärtsfunktion
in Beziehung)
- • Ungesättigtheit-
und Sättigungs-Deskriptor
("-en", "-yn", "an-"; steht zu einer
Rückwärtsfunktion
in Beziehung)
- • Multiplikator
("di-", "tri-", "bis-", "tris-", "bi-", "tert-" usw.; steht zu einer
Funktion in Beziehung)
- • Vorwärtsfunktions-Präfix ("cyclo-", "bicyclo[-", "tricyclo[-", "spiro[-", "dispiro[-" usw., steht zu einer
Funktion in Beziehung)
- • Informations-Container
(z.B. "4.4.1.11,5" für sekundäre Brückenspezifikation
in von Baeyer-Systemen, oder "5.1.7.2" für Dispiro-Unterringgrößen-Spezifikation)
- • Lokant
(z.B. "1,2-", "meta"", "N-", "C-", "alpha-", "(1)-")
- • Stereo-Deskriptor
(z.B. "(E)-", "(R)-", "racem."," alpha-D")
- • Separator
(Bindestrich, Komma, Punkt, Strichpunkt, geschweifte Klammern, eckige
Klammern, runde Klammern usw.)
-
Die
zu einer Verbindungstabelle (CT) in Beziehung stehenden Fragmente
sind Ringe, Ketten oder Funktionsgruppen. Die Letzteren sind die
Fragmente, die in der resultierenden endgültigen Struktur als azyklische
Teile von Hetero-Atom-Anordnungen mit ungesättigten Bindungen dargestellt
sind (können
auch einzelne Hetero-Atome sein, wie z.B. Chalcogene in den Alkoholen,
Thioalkoholen usw. Die Gerüstteile,
die zu den CT-Fragmenten in Beziehung stehen, werden entweder direkt
von einer zweckgebundenen Datenbank abgerufen, die zum Reverse AutoNom-Programm
gehört,
oder "fliegend" durch den Algorithmus
selbst aufgebaut. Dies ist beispielweise der Fall für alle von
Baeyer-überbrückten Kohlenwasserstoff-
und Heterozyklen. Das Fragment "3,6,8-Trioxabicyclo[3.2.2]non-7-yl" wird aufgespalten
in:
3,6,8- | Lokant |
tri | Multiplikator |
oxa | Vorwärtsfunktions-Präfix ("Ersetzung") |
bicyclo[ | Vorwärtsfunktions-Präfix ("bizyklisch") |
3.2.2] | Informations-Container
(sekundäre
Brücken-Spezifikation) |
non | CT-Präfix (Kette) |
-7 | Lokant |
-yl | Radikalsuffix |
-
Der
Algorithmus legt das Kernfragment "non" vorzugsweise
als die Hauptkette (9 Kohlenstoffatome) fest und arbeitet dann unter
Verwendung von Zurückverfolgungs-Techniken in Rückwärtsrichtung,
um die Informationen zu sammeln, die dem Ketten-Deskriptor vorausgehen. Der Informations-Container "3.2.2]" direkt links daneben
sowie das Vorwärtsfunktions-Präfix "bicyclo[" gestatten es, sicherzustellen,
dass es sich um das von Baeyer-Ringsystem handelt. Nach der Interpretation
dieser Information generiert der Algorithmus (fliegend) die Verbindungstabelle
des Bicyclo[3.2.2]nonan-Ringsystems. Danach fährt es mit der Zurückverfolgung fort,
um an dem Lokanten "3,6,8" zu stoppen.
-
Da
die "oxa"-Vorwärts-Ersetzungsfunktion
festgelegt ist, wird sie sofort auf der Verbindungstabelle von Bicyclo[3.2.2]nonan
verwendet, um die Kohlenstoffe an den Positionen 3, 6 und 8 mit
Sauerstoffatomen auszutauschen. Zum Abschließen der Verarbeitung der generierten
CT wird die "Vorschau"-Routine aufgerufen. Das
Radikalsuffix "-yl" wird interpretiert
und der Lokant "-7" wird gefunden. Das
Atom an Position "7" des Bicyclo[3.2.2]nonan
wird mit dem Kennzeichen "obere
Verbindung" versehen.
Das gesamte Fragment "3,6,8-Trioxabicyclo[3.2.2]non-7-yl" ist damit verarbeitet,
und alle seine untergeordneten Teile sind als interpretiert gekennzeichnet
(wie in 9 gezeigt).
-
Nach
der Interpretation werden in dem folgenden Schritt des Algorithmus
alle erkannten Fragmente mit einem so genannten Ebenen-Index entsprechend
der Bezeichnungsebene gekennzeichnet, auf der sie gefunden wurden:
[0, 10...N0] für die übergeordnete
Ebene, [0, 1, 11...M1]
für die
höchste
Substituenten-Ebene, die direkt mit der übergeordneten verbunden ist,
[0, 1, 2, 21,...K2]
für die
nächste
Substituenten-Ebene, die direkt mit der höchsten nicht-übergeordneten
verbunden ist und so weiter. Am Ende des Prozesses wird die eingegebene
Bezeichnung vollständig
als eine Baumstruktur aller lokalisierten Bezeichnungsfragmente
dargestellt, und ihre wechselseitigen Beziehungen werden in einer
so genannten Bezeichnungsmatrix, einer multidimensionalen Anordnung von
Indices [0, [11,...,M1],
[21,..., K2]...]
aufgezeichnet. Diese Struktur wird dann als eine doppelt verknüpfte Liste
von Verweisen auf dynamisch zugewiesene und freigegebene Varianten-Datensätze in einem
Format implementiert, das auf einem geordneten binären Baum32 basiert. Eine derartige Implementierung
ermöglicht
das vollständige
Abbilden der eingegebenen Bezeichnung in der endgültigen chemischen
Struktur, sobald der Baum von der Wurzel des Baums bis zu allen
seinen Blättern
abgearbeitet worden ist.
-
Diese
zwei Schritte, das Erkennen von Fragmenten und ihr Ordnen, bilden
die Kernarbeitsvorgänge des
Reverse AutoNom-Algorithmus. Sie wurden in ungefähr 25000 Zeilen von C++-Code,
unterteilt in 88 verschiedene Funktionen, programmiert.
-
Auf
einer bevorzugten Fragment-Bezeichnungszusammensetzungsstufe des
Reverse AutoNom-Verfahrens werden für die erkannten und geordneten
Bezeichnungsfragmente deren Verbindungstabellen zugeordnet, (die
der vordefinierten Datenbank entnommen oder "fliegend" algorithmisch generiert werden, wie
beispielsweise für
Kohlenwasserstoffketten), oder interpretiert (wie für Multiplikatoren
wie "penta" oder "tert"). Die Fragmente
stellen bei dieser Algorithmus-Phase vollständige Liganden oder Kerngruppen
dar. Während
mit dem höchsten
(Wurzel = übergeordnet)
Knoten des aufgebauten geordneten binären Baums, der die eingegebene
Bezeichnung (und die darunterliegende Struktur) darstellt, begonnen
und der Bezeichnungsbaum von oben nach unten abgearbeitet wird,
werden die Teil-Verbindungstabellen konsolidiert. Um die Übersicht über den
Pfad und die Reihenfolgenordnung der Knoten zu behalten, die auf
dem Weg von einen bestimmten Knoten zu der Wurzel (übergeordneten
CT) abgearbeitet werden, wird auf die Bezeichnungsmatrix zugegriffen, welche
die Knoten-Indices enthält.
Da die durch die Bezeichnungsmatrix indexierten Fragmente sich in
einer strengen Reihenfolgenordnung befinden, ist es möglich, das
Speichern und Abrufen der Teil-CTs in einer "FiLo"-Stapeldatenstruktur
zu programmieren.
-
Bei
Mehrkomponenten-Bezeichnungen, (normalerweise Salze, pseudo-ionische
Verbindungen, manchmal mit großen
organischen Substitutionen), erhält
jede Komponente ihre eigene getrennte Bezeichnungsmatrix. Auf sie
wird dann während
des Konsolidierungsprozesses zugegriffen, und alle Arbeitsvorgänge werden
(rekursiv) für
alle Fragmente in dieser Komponente wiederholt ausgeführt. Danach
wird die vollständige,
daraus resultierende CT für
die Komponente in der CT zusammengeführt, die bisher für alle vorherigen Komponenten
zusammengesetzt wurde.
-
Der
Fragment-Bezeichnungszusammensetzungsprozess wird vorzugsweise von
Anfang an durchgehend durch intelligente so genannte "Illegitimitäts-"Controller-Routinen überwacht.
Der Controller, (der als eine Sammlung von mehr als 30 C++-Funktionen implementiert
wird), ist für
die Verfolgung von definiten Fehlern zuständig, die im Rahmen von tolerierter
Vieldeutigkeit und/oder standardmäßigen Chemie-Regeln nicht behoben
werden können.
Ein typisches Beispiel für
derartige Fehler ist das explizite Aufeinandertreffen mit Valenzkonventionen.
Offensichtliche Fehler in Bezeichnungen wie "tetrachloressigsaure Säure" oder "Fluorcyclopropyn" und weniger offenkundige
wie in "1-(3-Methyl-butyl)-4-nitro-1H-pyrrol-2-carboxylsäure [2-(1,4,5,6-Tetrahydropyrimidin-3-yliden)-ethyl]-amid" werden durch den
Illegitimitäts-Controller
zurückgewiesen
(überschrittene
Valenz am Stickstoffatom von Pyrimidin an der Radikalsuffixposition
von "-3-yliden").
-
In
der Bezeichnung "1-(3,7,11-Trimethyloctyl)azacycloheptan-2-on" weist der Controller
den nicht existierenden Lokanten "11" als
Position für
eine der drei Methyl-Substitutionen
auf der Octylkette (nur acht Kohlenstoffatome) zurück.
-
Ein
weiterer Fall für
den Controller ist die Identifizierung von falschen Daten, die durch
die Informations-Container-Fragmente geliefert werden. Die Zwei-Komponenten-Bezeichnung "6,8-Diazoniadispiro[5.1.6.3]hexadecandichlorid" wird zurückgeweisen,
nachdem die Illegitimität
des Informations-Container-Präfixes "5.1.6.3", (das die Größen der
Endringe und die Längen
der Brücken
zwischen beiden Spiro-Atomen in den drei Kohlenwasserstoffringen
angibt, die an der Dispiro-Verbindung beteiligt sind), im Vergleich
mit zulässigen
Werten geprüft
wurde. Der berechnete Wert von 17 (5 + 1 + 6 + 3 + 2) überschreitet
den Wert der Länge
des darunterliegenden unverzweigten Ketten-Kohlenwasserstoffs (16, d. h. Hexadecan)
um eins, was zur Zurückweisung
einer derartigen Bezeichnung führt.
-
Der
Prozess der Fragment-Bezeichnungszusammensetzung endet mit dem Zusammenführen aller Komponenten-CTs,
(falls mehr als eine Komponente vorhanden ist), in ein einziges
endgültiges
Strukturdiagramm, das als Ausgabe von dem Reverse AutoNom-Programm
bereitgestellt wird. Die Ausgabe wird als eine MolFile-Format-Verbindungstabelle32 generiert, (genehmigtes Standardformat
für Struktur-Editoren,
das heutzutage weltweit erhältlich
ist), und zusammen mit der eingegebenen Bezeichnung angezeigt (wie
in 10 gezeigt).
-
Die
Leistung des Programms wurde in verschiedenen Kontexten und unter
Verwendung von Testauswahlen gemessen, die ein breites Spektrum
von Nomenklatur-Formaten
darstellten, die in der heutigen Nomenklatur-Praxis verwendet werden.
-
Zu
Beginn des Reverse AutoNom-Projekts wurden zwei so genannte Bezugsauswahlen
zusammengestellt. Die erste, der die Bezeichnung "Dog Food Sample" (DF-S) gegeben wurde,
enthielt eine Auswahl von streng an AutoNom gebundenen Bezeichnungen,
die willkürlich
aus der Beilstein-Datei extrahiert wurden. Der Inhalt der Auswahl
von über
1000 Bezeichnungen wurde festgelegt und während des Projekts niemals
verändert.
Es wurde verlangt, dass das Programm (als Umkehrung zu seinem Struktur-zu-Bezeichnungs-Vorgänger AutoNom)
als absolute Mindestleistung in der Lage sein sollte, die systematische
computergenerierte Bezeichnung vollständig umzuwandeln; daher die
Bezeichnung "Dog
Food". Eine weitere
Bezugsauswahl der Bezeichnung, die so genannte "1312 Sample " (1312-S) wurde unter Verwendung von
Bezeichnungen zusammengestellt, die willkürlich aus Zeitschriftenveröffentlichungen
ausgewählt
wurden (vieldeutige Nicht-AutoNom-Bezeichnungen, jedoch mit geschätzter redaktioneller
Qualität).
Diese zwei Auswahlen, DF-S und 1312-S, wurden während der Entwicklung bei jedem
größeren Upgrade
des Reverse AutoNom-Programms als (nie geänderte) Bezugsdateien für Testläufe verwendet.
Außerdem
wurde dadurch die Beobachtung und Messung des Fortschritts im Verlauf
der Programmierung erleichtert.
-
Die
umfangreichsten Tests konzentrierten sich jedoch auf reale Bezeichnungen,
die aus der Auswahl von über
8 Millionen Einträgen
extrahiert wurden, die in europäischen,
amerikanischen und japanischen Patentmeldungen in den Jahren von
1980–2000
veröffentlicht
wurden. Ihre Qualität
wurde zu Beginn des Projekts geschätzt, (siehe Tabelle 4), und
diese Schätzwerte
wurden dann mit den endgültigen
statistischen Daten verglichen, die sich aus der Verarbeitung der
gesamten Auswahl von über
8 Milllionen Bezeichnungen ergaben.
-
Reverse
AutoNom ist ein Erfolgsquoten-Programm, und es wurde nie erwartet,
dass es alle Bezeichnungen umwandeln würde, die ihm als Eingaben vorgeschlagen
wurden. Mit einigen Bezeichnungen sind einfach keine Strukturen
verbunden, auch nicht mit den kompliziertesten Algorithmen. Das
Programmieren eines Nomenklatur-Umwandlers
ist möglich,
aber nur unter der Voraussetzung, dass die vorhandenen Einschränkungen
von veröffentlichter
Nomenklatur berücksichtigt
werden Bezeichnungen, die durch Reverse AutoNom nicht interpretiert
werden können,
sind in den folgenden allgemeinen Klassen gruppiert:
- 1. vollkommen nicht-analysierbare Bezeichnungen: Es gibt eine
Gruppe von Bezeichnungen, die nur nach Meinung ihrer Autoren als
chemische Nomenklatur behandelt werden können. Bezeichnungn wie "D(1)(4)-Pregnan-Derivat", "#2-RE-Rose Bengal", "D(1)(4)-Demethylase-Enzym", "D(6)-Palmitoyl-Acyl-Trägerproteinrezeptur" oder "1,25-dihydriertes
Vitamin D(3)" haben
nur in einem sehr engen Kontext des Autors eine Bedeutung.
- 2. vollkommen asystematische Bezeichnungen: Hierzu gehören beispielsweise
Bezeichnungen mit Trivial- oder katalogbasierter Nomenklatur sowie
eine riesige Gruppe von Handelsbezeichnungen. Bezeichnungen wie "Linopiridin", "Sevin", "Carbaryl", "Fluctin" oder "Dyren" beziehen sich auf
spezifische Substanzen; die einzig denkbare Lösung für ihre Interpretation wäre über einen
direkten Zeichen-Zeichen-Datenbankabruf. Dieses Verfahren wurde
allgemein für
die aktuelle Version des Reverse AutoNom-Algorithmus nicht in Betracht
gezogen.
- 3. Bezeichnungen von Naturprodukten
- 4. Makromoleküle
- 5. Bezeichnungen von rein anorganischen Strukturen: ausgenommen
für zweite
(oder höhere)
Komponenten (als Zusatz zu der ersten organischen Komponente), die
als anorganische Salze, pseudo-ionisch usw. dargestellt sind.
-
Die
Tests wurden an Bezeichnungen, wie sie "der Reihe nach" in den ursprünglichen Dokumenten auftraten,
durchgeführt,
die aus der Auswahl von mehr als 8 Millionen Einträgen extrahiert
wurden, die in europäischen,
amerikanischen und japanischen Patentmeldungen in den Jahren von
1980–2000
veröffentlicht
wurden. An diesen Bezeichnungen wurde vorher keinerlei redaktionelle
Bearbeitung vorgenommen. Die gesamte Sammlung von Bezeichnungen
wurde in 17 Auswahl-Textdateien mit jeweils ungefähr 500000
Bezeichnungen aufgeteilt. Der folgende Abruf (Anzahl von ausgegebenen
CTs zu Anzahl von eingegebenen Bezeichnungen) wurde berechnet (Tabelle
5).
-
Tabelle
5 Leistung des Reverse AutoNom-Programms, gemessen für eine Reihe
von Bezeichnungsauswahlen
-
Die
Ergebnisse für
die ersten zwei Bezugsauswahlen (DF-S und 1312-S) sind hier angegeben,
um zu veranschaulichen, um wie viel effektiver der Algorithmus sein
könnte,
wenn die Bezeichnungen streng unzweideutig systematisch (DF-S) oder
wenigstens vieldeutig systematisch (1312-S) wären. Die Statistik für die Auswahlen
0001.nam bis 0017.nam werden in Tabelle 5 in aufsteigender Reihenfolge
des Werts des berechneten Abrufs dargestellt. Es war aus offensichtlichen
Gründen
nicht möglich,
eine vollständige Überprüfung aller
Bezeichnungen in den Auswahlen zu versuchen, sondern nur eine oberflächliche
Prüfung,
die ihre abnehmende Qualität
(mehr vollkommen nichtanalysierbare oder asystematische Bezeichnungen)
bei abnehmenden Wert des Abrufs bestätigte.
-
Interessanter
als der Abruf selbst war die Analyse der Richtigkeit des Algorithmus
und damit der Zuverlässigkeit.
Sie konnte nur manuell überprüft werden.
-
Eine
willkürliche
Auswahl von 6182 Bezeichnungen wurde dem Reverse AutoNom-Programm als Eingabe
vorgeschlagen. Jedes der 1383 daraus resultierenden ausgegebenen
strukturellen Diagramme (Abruf von 22,37%) wurde dann im Vergleich
zu dem Verweis-Strukturdiagramm
geprüft,
das als korrekt bestimmt worden war. Die Anzahl der nicht korrekt
umgewandelten Bezeichnungen ergab die Fehlerquote von 0,72%, d.
h. relevant weniger als 1 Prozent.
-
QUELLENANGABEN
-
- (1) Garfield, E. Chemico-Linguistics: Computer Translation
of Chemical Nomenclature. Nature 1961, 192, 196.
- (2) Kirby, G. H.; Rayner, J. D. Computer Translation of IUPAC
Systematic Organic Nomenclature. 1. Introduction and Background
to a Grammar-Based Approach. J. Chem. Inf. Comput. Sci. 1989, 29,
101–105.
- (3) Cooke-Fox, D. I.; Kirby, G. H..; Rayner, J. D. From Names
to Diagrams – by
Computer. Chem. Br.. 1985, 21, 467–471.
- (4) International Union of Pure and Applied Chemistry. Nomenclature
of Organic Chemistry, Abschnitt A–F und H, Pergamon, Oxford,
U. K., 1979
- (5) Smith Jr, H. A. The Centenial of Systematic Organic Nomenclature.
J. Chem. Edu. 1992, 69, 863–865.
- (6) International Union of Pure and Applied Chemistry. "Current projects:
IUPAC chemical identifier (IChI), http://www.iupac.org/divisions/VIII/cp8.html,
(abgerufen im Januar 2004).
- (7) Wisniewski, J L. Chemical Nomenclature and Structure Representation:
Algorithmic Generation and Conversion. Im Handbook of Chemoinformatics:
From Data to Knowledge in 4 Volumes, Gesteiger, J., Ed. Willey-VCH,
Weinheim, 2003, Vol. 1, pp 51–79.
- (8) Kirby, G. H.; Polton, D. J. Systematic Chemical Nomenclature
in the Computer Age. J. Chem. Inf. Comput. Sci. 1993, 33, 560–563.
- (9) Cooke-Fox, D. I.; Kirby, G. H..; Rayner, J. D. Computer
Translation of IUPAC Systematic Organic Nomenclature. 2. Development
of a Formal Grammar. J. Chem. Inf Comput. Sci. 1989, 29, 106–112.
- (10) Cooke-Fox, D. I.; Kirby, G. H..; Rayner, J. D. Computer
Translation of IUPAC Systematic Organic Nomenclature. 4. Concise
Connection Tables to Structure Diagrams. J. Chem. Inf. Comput. Sci.
1990, 30, 122–127.
- (11) Elliot, P. M. Translation of Chemical Nomenclature by Syntax
Controlled Techniques. Ohio State University, 1969.
- (12) Van der Stouw, G. G.; Elliot, P. M.; Isenberg, A. C. Automated
Conversion of Chemical Substances Names to Atom Bond Connection
tables. J. Chem. Doc. 1974, 14, 185–193
- (13) Stilwell, R. W. Computer Translation of Systematic Chemical
Nomenclature to Structural Formulas – Steroids. J. Chem. Doc. 1973,
13, 107–109.
- (14) Cooke-Fox, D. I.; Kirby, G. H..; Lord, M. R.; Rayner, J.
D. Computer Translation of IUPAC Systematic Organic Nomenclature.
5. Steroid Nomenclature. J. Chem. Inf Comput. Sci. 1990, 30, 128–132.
- (15) Carpenter, N. Syntax Directed Translation of Organic Chemical
Formulae into Their 2-D Representation. Comput. Chem. 1975, 1, 25–28.
- (16) Cooke-Fox, D. I.; Kirby, G. H..; Rayner, J. D. Computer
Translation of IUPAC Systematic Organic Nomenclature. 3. Syntax
Analysis and Semantic Processing. J. Chem. Inf. Comput. Sci. 1989,
29, 112–118.
- (17) Cooke-Fox, D. I.; Kirby, G. H..; Rayner, J. D. Computer
Translation of IUPAC Systematic Organic Nomenclature. 6. (Semi)Automatic
Name Correction. J. Chem. Inf. Comput. Sci. 1991, 31, 153–160.
- (18) Lawson, A. Internal communictation, MDL Information Systems
GmbH, Frankfurt am Main, Deutschland, 2003.
- (19) CambridgeSoft Corporation, Cambridge, MA. USA, http://products.cambridgesoft.com/Prodlnfo.cfm?pid=295,
(abgerufen im Januar 2004).
- (20) Brecher, J. Name=Stru: A Practical Approach to the Sorry
State of Real-Life Chemical Nomenclature. J. Chem. Inf. Comput.
Sci. 1999, 39, 943–950.
- (21) ACD Labs. Produkte: ACD/Name, http://www.acdlabs.com/products/name_lab/nam/
(abgerufen im Januar 2004).
- (22) ChemInnovation Software Inc. CA, USA, http://www.cheminnovation.com/products/nameexpert.asp,
(abgerufen im Januar 2004).
- (23) Bio-Rad Laboratories Corporate, Hercules, Ca., USA, htt://www.chemwindow.com,
(abgerufen im Januar 2004).
- (24) Wisniewski, J. L. AUTONOM: System for Computer Translation
of Structural Diagrams into IUPAC-Compatible Names. 1. General Design.
J. Chem. Inf. Comput. Sci., 1990, 30, 324–332.
- (25) Goebels, L., Lawson, A. J., Wisniewski, J. L.: AUTONOM:
System for Computer Translation of Structural Diagrams into IUPAC-Compatible
Names. 2. Nomenclature of Chains and Rings. J. Chem. Inf Comput.
Sci., 1991, 31, 216–225.
- (26) Wisniewski, J. L. Autonom- A Chemist's Dream: System for (Micro) Computer
Generation of IUPAC-Compatible Names from Structural Input. In Chemical
Structures 2, Warr, W. A., Ed. Springer-Verlag, Berlin, Heidelberg,
1993, S. 55–63.
- (27) Wisniewski, J. L. AutoNom. In The Beilstein System: Strategies
for Effective Searching, Heller, S. R, Ed. American Chemical Society,
Washington, DC, 1997, S. 161–197.
- (28) Wisniewski, J. L. Nomenclature: Automatic Generation and
Conversion. In Encyclopedia of Computational Chemistry, von Rague
Schleyer, P.; Allinger, N. L.; Clark, T.; Gesteiger, J.; Kollman,
P. A.; Schaefer III, H. F.; Schreiner, P. R., Eds. John Wiley & Sons Ltd., Chichester,
1998, Bd. 3, S. 188–202.
- (29) International Union of Pure and Applied Chemistry. A Guide
to IUPAC Nomenclature of Organic Chemistry, Recommendations 1993;
Panico, R., Powell, W. H., Richer, J. C., Eds.; Blackwell Science,
Oxford, U. K., 1993; Recommendations R-2.3.3.1.3; S. 2591–2601.
- (30) The ACS Style Guide: A Manual for Authors and Editors,
2nd ed.; Dodd, J. S., Ed.; American Chemical Society,
Washington, DC, 1997, S. 56–67.
- (31) Prefix List: Beilstein Handbook of Organic Chemistry, Springer-Verlag,
Heidelberg, 1990, S. LV–CXXXV
- (32) Hubbard, J. R. Data Structures with C++. McGraw-Hill, New
York, 2000, S. 174–182.
- (33) Dalby, A., Nourse, J. G., Hounshell, W. D., Gushurst, A.
K. I., Grier, D. L., Leland, B. A., Laufer, J.: Description of Several
Chemical Structure File Formats Used by Computer Programs Developed
at Molecular Design Limited. J. Chem. Inf. Comput. Sci., 19921,
32, 244–255.
-
Anhang A
-
Das
Konzept ~NAME umkapselt verschiedene Darstellungen einer Verbindung.
-
-
Beispielsweise
wird das Konzept ~ NAME im Konzept ~ TechnicalMention verwendet:
-
Das
Konzept ~YieldAct erfasst das Verb yield (ergeben) in seiner aktiven
Form:
-
Alle
aktiven Verben eines potenziellen Produktkontexts werden zu Clustern
in einem Konzept zusammengefasst:
-
-
-
-
-
-
-
-
-
PRODUCT_CompoundMention.spc
-
-
-
-
-
-
PRODUCT_GrammaticalConstituent.scp
-
PRODUCT_REACTANT_What.scp
-
-
-
-
-
-
-
-
REACTANT_CompoundMention.scp
-
-
-
-
Obwohl
die hierin gezeigten und beschriebenen Ausführungsformen völlig in
der Lage sind, die Aufgaben der Erfindung zu erfüllen, sollte klar sein, dass
diese Ausführungsformen
nur zu Veranschaulichungszwecken und nicht zum Zweck einer Einschränkung gezeigt
werden, und dass für
den Fachmann unter Bezug auf die vorhergehende Beschreibung Variationen
offenkundig sind.
- *(Seite 13, Zeile
2) Der Analyse-Algorithmus empfängt
Text, d. h. ASCII-Zeichen als Eingabe und analysiert den Text zeichenweise,
wobei kurze Zeichensequenzen mit den Fragmenten in der Datenbank
verglichen werden. (Als ein Vorläufer
zur Texteingabe kann eine optischen Zeichenlesevorrichtuing verwendet
werden, um ein Papier oder ein anderes Dokument zu lesen, um die
Zeichen zu generieren.)
- ** (Seite 20, Zeile 31) Zum Erfassen
von Reaktionszentren kann auf ein Programm mit dem Namen "Classify" verwiesen werden,
das von InfoChem GmbH, Dr. Troll-Str., 81241 Gröbenzell, Deutschland erhältlich ist,
das jeder verarbeiteten Reaktion eine Gruppe von numerischen Werten
(ClassCodes) zuweist, mit denen die chemische Umwandlung gekennzeichnet
wird, die in der Reaktion auftritt. Das Programm bestimmt zuerst
Atomzuordnungen und Reaktionszentren (Reaktionsstellen) und verwendet
diese Informationen zum Definieren der stattfindenden Reaktionsumwandlung.
Informationen zu der chemischen Umwandlungen werden auf drei verschiedenen
Präzisionsebenen
generiert. Ein Paar von ClassCodes wird für jede Präzisionsebene erzeugt.
-
Für die erste
Ebene verwendet das Programm nur Informationen über die Atome und Bindungen
des Reaktionszentrums (Reaktionsstelle) und verschlüsselt sie
in den ersten ClassCode. Eine Klassifizierung von Reaktionen auf
der Basis dieser Ebene von ClassCodes führt zu einer breiten Auswahl,
d. h. alle Reaktionen, die nur gleiche Reaktionszentrums-Atome aufweisen,
werden zu einer Gruppe zusammengefasst. Die zweite Ebene umfasst
Informationen über
Atome und Bindungen des Reaktionszentrums (Reaktionsstelle) und
zusätzlich über die
zu jedem Reaktionszentrum benachbarten Atome. Diese kombinierten
Daten werden in den zweiten ClassCode verschlüsselt. Diese ClassCodes ergeben
eine mittlere Auswahl, indem alle Reaktionen mit gleichen Reaktionszentrums-Atomen
und gleichen unmittelbaren Nachbar-Atomen ausgewählt werden. Für die dritte
Ebene verschlüsselt
das Programm Informationen über
die Atome und Bindungen des Reaktionszentrums (Reaktionsstelle),
ihre unmittelbaren Nachbar-Atome
und zu den Nachbar-Atomen benachbarte Atome. Dieses Verfahren führt zu einem
dritten ClassCode. Unter Verwendung dieser Classcodes wird die Reaktionsauswahl
eng, da alle ausgewählten
Reaktionen die Reaktionszentrums-Atome und zwei Sphären von benachbarten
Atomen gemeinsam haben müssen.
-
Auf
den mittleren und begrenzten Ebenen werden Informationen über benachbarte
Atome aufgenommen, die "Atom-Cluster" bilden. Die daraus
resultieren "Atom-Cluster" von Reaktant und
Produkt-Reaktionsstelle werden verwendet, um die ClassCodes für den Reaktionstyp
zu generieren.